特開2024-176483 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ オムロン株式会社の特許一覧

特開2024-176483学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024176483

(43)【公開日】2024-12-19

(54)【発明の名称】学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラム

(51)【国際特許分類】

G06N 3/094 20230101AFI20241212BHJP

B25J 13/00 20060101ALI20241212BHJP

【ＦＩ】

G06N3/094

B25J13/00 Z

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023095038

(22)【出願日】2023-06-08

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和４年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「簡単に使える柔軟マニピュレータの汎用技術獲得」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】000002945

【氏名又は名称】オムロン株式会社

(74)【代理人】

【識別番号】110001519

【氏名又は名称】弁理士法人太陽国際特許事務所

(72)【発明者】

【氏名】小林聖人

(72)【発明者】

【氏名】山田潤

(72)【発明者】

【氏名】▲浜▼屋政志

(72)【発明者】

【氏名】田中一敏

【テーマコード（参考）】

3C707

【Ｆターム（参考）】

3C707BS26

3C707JS02

3C707KS03

3C707KT01

3C707KT04

3C707LV01

3C707LV02

3C707LW12

3C707MT01

(57)【要約】

【課題】人間の動作データからロボットの動作データを簡易に生成する。
【解決手段】学習済みモデル生成装置１０は、学習用の人間の動作データを含む学習用データを取得する。学習済みモデル生成装置１０は、学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する。
【選択図】図５

【特許請求の範囲】

【請求項1】

学習用の人間の動作データを含む学習用データを取得する学習用取得部と、
前記学習用取得部により取得された学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する学習部と、
を含む学習済みモデル生成装置。

【請求項2】

前記動作データは、前記制御対象ロボットの状態ｙと行動ａとを含んで構成されており、
前記制御対象ロボットの時刻ｔの状態ｙ_ｔと前記制御対象ロボットの時刻ｔの行動ａ_ｔとが入力されると、前記制御対象ロボットの時刻ｔ＋１の状態ｙ_ｔ＋１を出力するフォワードダイナミクスモデルＦと、
前記制御対象ロボットの時刻ｔの状態ｙ_ｔと前記制御対象ロボットの時刻ｔ＋１の状態ｙ_ｔ＋１とが入力されると、前記制御対象ロボットが時刻ｔに取った行動ａ_ｔが出力されるインバースダイナミクスモデルＦ^－１とが予め用意されており、
前記学習部は、
前記インバースダイナミクスモデルＦ^－１に対して、前記ジェネレータから出力された前記制御対象ロボットの時刻ｔの状態ｙ_ｔ＾と時刻ｔ＋１の状態ｙ_ｔ＋１＾とを入力することにより、前記制御対象ロボットが時刻ｔに取ったであろう行動ａ_ｔ ^～を計算し、
前記フォワードダイナミクスモデルＦに対して、前記状態ｙ_ｔ＾と前記行動ａ_ｔ ^～とを入力することにより、前記制御対象ロボットの時刻ｔ＋１の状態ｙ_ｔ＋１ ^～を計算し、
前記ジェネレータから出力された前記制御対象ロボットの時刻ｔの状態ｙ_ｔ＋１＾と、計算された前記制御対象ロボットの時刻ｔ＋１の状態ｙ_ｔ＋１ ^～との間の差分が小さくなるように、前記ジェネレータを学習させることにより、前記学習済みのジェネレータを生成する、
請求項１に記載の学習済みモデル生成装置。

【請求項3】

前記学習用データには、学習用の制御対象ロボットの動作データｘが更に含まれており、
前記学習部は、学習用の制御対象ロボットの動作データｘと、前記ジェネレータから出力された前記制御対象ロボットの状態ｙ＾との間の差分が小さくなるように、前記ジェネレータを学習させることにより、前記学習済みのジェネレータを生成する、
請求項１又は請求項２に記載の学習済みモデル生成装置。

【請求項4】

前記制御対象ロボットは、少なくとも１つ以上の腕部を備えたロボットである、
請求項１又は請求項２に記載の学習済みモデル生成装置。

【請求項5】

前記制御対象ロボットは、第１腕部と第２腕部とを備える双腕ロボットであり、
前記学習用データは、
前記第１腕部と前記人間の腕とによる協調動作を表すデモンストレーションデータと、
前記第２腕部と前記人間の腕とによる協調動作を表すデモンストレーションデータと、を更に含んで構成されている、
請求項４に記載の学習済みモデル生成装置。

【請求項6】

前記学習用データは、
前記制御対象ロボットのランダムな動作を表すランダムデータと、
前記人間のランダムな動作を表すランダムデータと、を更に含んで構成されている、
請求項１又は請求項２に記載の学習済みモデル生成装置。

【請求項7】

前記学習部は、
前記学習済みのジェネレータに対して、対象となる人間の動作を表す対象動作データを入力することにより、前記制御対象ロボットの動作データを生成し、
生成された前記制御対象ロボットの動作データに基づいて、前記制御対象ロボットを制御するための制御用学習済みモデルであって、前記動作データのうちの状態が入力されると、前記動作データのうちの行動を出力するための制御用学習済みモデルを生成する、
請求項１又は請求項２に記載の学習済みモデル生成装置。

【請求項8】

制御対象ロボットの状態を取得する取得部と、
請求項７に記載の学習済みモデル生成装置によって生成された前記制御用学習済みモデルに対して、前記取得部により取得された前記状態を入力することにより、前記状態に応じた前記制御対象ロボットの行動を生成する生成部と、
前記生成部により生成された前記行動を取るように、前記制御対象ロボットを制御する制御部と、
を備えた制御装置。

【請求項9】

学習用の人間の動作データを含む学習用データを取得し、
取得された学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する、
処理をコンピュータが実行する学習済みモデル生成方法。

【請求項10】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラムに関する。

【背景技術】

【0002】

従来、２つの腕部を有する双腕ロボットに対して動作を教示させる技術が知られている（例えば、非特許文献１を参照）。この技術では、双腕ロボットが試行錯誤をすることにより所定の動作を学習する。

【0003】

また、複数の腕部を有するロボットに対して動作を教示する際に、複数の腕部の各々毎に異なる教示者によって動作を教示する技術が知られている（例えば、非特許文献２を参照）。この技術では、教示者がロボットを遠隔操作することにより、ロボットに対して動作を教示させる。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, Abhinav Gupta, "Intrinsic Motivation for Encouraging Synergistic Behavior", ICLR 2020.

【非特許文献2】Albert Tung, Josiah Wong, Ajay Mandlekar, Roberto Martin, Yuke Zhu, Li Fei-Fei, Silvio Savarese, "Learning Multi-Arm Manipulation Through Collaborative Teleoperation", ICRA, 2021.

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、人間がロボットに対して動作を教示する際には、ロボットの動作に関する物理的な制約も考慮する必要がある。例えば、ロボットの可動域が人間の可動域とは異なる場合には、人間が簡単に行える動作であっても、ロボットはその動作を実行することができない場合もあり得る。また、例えば、双腕ロボットのように、ロボットの可動部位が複数である場合には、その複数の可動部位を協調動作させる必要がある。人間がロボットに対して動作を教示する際に、このような複数の可動部位を協調動作させつつ、動作を教示させることは難しい。

【0006】

このため、人間がロボットに対して動作を教示することは難しい、という課題がある。

【0007】

本開示は、上記の点に鑑みてなされたものであり、人間の動作データからロボットの動作データを簡易に生成することを目的とする。

【課題を解決するための手段】

【0008】

上記目的を達成するために、本開示に係る学習済みモデル生成装置は、学習用の人間の動作データを含む学習用データを取得する学習用取得部と、前記学習用取得部により取得された学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する学習部と、を含む学習済みモデル生成装置である。

【0009】

また、本開示の学習済みモデル生成方法は、学習用の人間の動作データを含む学習用データを取得し、取得された学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する、処理をコンピュータが実行する学習済みモデル生成方法である。

【0010】

また、本開示の学習済みモデル生成プログラムは、学習用の人間の動作データを含む学習用データを取得し、取得された学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する、処理をコンピュータに実行させるための学習済みモデル生成プログラムである。

【発明の効果】

【0011】

本開示の学習済みモデル生成装置、制御装置、学習済みモデル生成方法、及び学習済みモデル生成プログラムによれば、人間の動作データからロボットの動作データを簡易に生成することができる。

【図面の簡単な説明】

【0012】

【図1】本実施形態の概要を説明するための図である。

【図2】本実施形態の概要を説明するための図である。

【図3】本実施形態のフレームワークの概要を説明するための図である。

【図4】本実施形態における敵対的生成ネットワークモデルを説明するための図である。

【図5】本実施形態の学習済みモデル生成システムの概略構成を表すブロック図である。

【図6】本実施形態に係る学習済みモデル生成装置のハードウェア構成を示すブロック図である。

【図7】本実施形態の制御システムの概略構成を表すブロック図である。

【図8】本実施形態に係る制御装置のハードウェア構成を示すブロック図である。

【図9】本実施形態における学習済みモデル生成処理の流れを示すフローチャートである。

【図10】本実施形態における学習済みモデル生成処理の流れを示すフローチャートである。

【図11】本実施形態における制御処理の流れを示すフローチャートである。

【図12】本実施例を説明するための図である。

【図13】本実施例の結果を表す図である。

【発明を実施するための形態】

【0013】

以下、本開示の実施形態の一例を、図面を参照しつつ説明する。本実施形態では、本開示に係る制御装置を搭載した制御システムを例に説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法及び比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

【0014】

＜実施形態の概要＞
図１及び図２は、本実施形態の概要を説明するための図である。図１に示されるように、本実施形態では、人間Ｈの動作を２つの腕部Ｒ１，Ｒ２を有する双腕ロボットへ教示する。図１に示されている例は、対象物ｂを矢印Ｃの方向へ移動させるタスクを実現する動作を双腕ロボットへ教示させる場合の例である。

【0015】

具体的には、図１のＴ１に示されているように、双腕ロボットの第１腕部Ｒ１と人間Ｈの腕とを協調動作させるデモンストレーションを実行することにより、２次元バーコードＱ１，Ｑ２の位置をカメラ（図示省略）によって撮像する。また、図１のＴ２に示されているように、双腕ロボットの第２腕部Ｒ２と人間Ｈの腕とを協調動作させるデモンストレーションを実行することにより、２次元バーコードＱ１，Ｑ２の位置をカメラ（図示省略）によって撮像する。

【0016】

デモンストレーションにおける人間Ｈの腕と対象物ｂの動作データは、２次元バーコードＱ１，Ｑ２の位置に基づき生成される。また、デモンストレーションにおける双腕ロボットの第１腕部Ｒ１と第２腕部Ｒ２の動作データは、双腕ロボットを制御する制御装置（図示省略）から得られる。

【0017】

本実施形態では、このようにして得られた動作データに基づいて、双腕ロボットの第１腕部Ｒ１と第２腕部Ｒ２に対して教示する動作データを生成する。

【0018】

そして、図２のＥに示されているように、実行フェーズでは、双腕ロボットの第１腕部Ｒ１と第２腕部Ｒ２とは、対象物ｂを矢印Ｃの方向へ移動させるタスクを実行する。

【0019】

この点、例えば、双腕ロボットに対して動作を教示する際には、上述したように片腕ずつ動作を教示するのではなく、第１腕部Ｒ１と第２腕部Ｒ２との双腕に対して一度に教示するという方法も考えられる。

【0020】

例えば、人間が両腕を用いて対象物ｂを矢印Ｃの方向へ移動させるタスクを実行し、その際の動作データを得るという方法が考えられる。しかし、この場合には、人間は、双腕ロボットが実行することが不可能な動作をしてしまう場合もある。例えば、人間が対象物ｂを矢印Ｃの方向へ移動させるタスクを実行する際に、人間は双腕ロボットの腕部の移動速度の上限を超えたような速度で対象物ｂを移動させてしまう場合などもあり得る。また、上述したようなタスクよりも更に複雑なタスクを実行しようとする場合には、人間は、双腕ロボットの腕部の可動域を考慮しないような動作を実行してしまう場合もあり得る。

【0021】

このため、人間が両腕を用いた際の動作データが得られたとしても、その動作データをそのまま双腕ロボットへ教示させるということは難しい。

【0022】

また、例えば、人間が双腕ロボットの第１腕部Ｒ１と第２腕部Ｒ２とを遠隔操作することにより、対象物ｂを矢印Ｃの方向へ移動させるタスクを実行し、その際の動作データを得るという方法が考えられる。しかし、この場合には、第１腕部Ｒ１に対する遠隔操作と第２腕部Ｒ２に対する遠隔操作とを協調させる必要がある。

【0023】

第１腕部Ｒ１を遠隔操作する人間と第２腕部Ｒ２を遠隔操作する人間とが異なる場合、タスクが複雑になるほどその協調は困難となり、適切な動作データを得ることが難しくなる。また、第１腕部Ｒ１を遠隔操作する人間と第２腕部Ｒ２を遠隔操作する人間とが同一である場合には、その遠隔操作を実現するための機器を複雑なものとする必要が出てくるため、機器を用意するコストが膨大になる。

【0024】

このため、人間が双腕ロボットの第１腕部Ｒ１と第２腕部Ｒ２とを遠隔操作することにより動作データを得るということも難しい。

【0025】

そこで、本実施形態では、上述したように、人間と双腕ロボットとを協調動作させるデモンストレーションを実行することにより動作データを取得し、その動作データに基づいて双腕ロボットへ教示する動作データを生成する。

【0026】

具体的には、本実施形態では、既知の敵対的生成ネットワークモデルを利用することにより、人間の動作データから双腕ロボットの動作データを生成する。なお、以下では、図１のＴ１のように、第１腕部Ｒ１と人間Ｈとが動作する場面を「Ｒｏｂｏｔ１－Ｈｕｍａｎ」と表記する。また、図１のＴ２のように、第２腕部Ｒ２と人間とが動作する場面を「Ｈｕｍａｎ－Ｒｏｂｏｔ２」と表記する。また、単に人間Ｈと双腕ロボットの腕部とが動作する場面を「Ｈｕｍａｎ－Ｒｏｂｏｔ」と表記する。また、双腕ロボットの第１腕部Ｒ１と第２腕部Ｒ２とが動作する場面を「Ｒｏｂｏｔ１－Ｒｏｂｏｔ２」又は「Ｒｏｂｏｔ－Ｒｏｂｏｔ」と表記する。

【0027】

なお、以下では、本実施形態において提案される手法を、learning from demonstrations by human and robotic arms (ＬｆＤ－ＨＲ)とも称する。

【0028】

図３は、本実施形態のフレームワークの概要を説明するための図である。以下では、図３を参照しつつ、本実施形態のフレームワークを説明する。

【0029】

（Ａ．問題定式化）
本実施形態では、マルコフ決定プロセス（Ｓ，Ａ，Ｐ，ρ_０）により問題が定義される。なお、状態ｓ∈Ｓであり、行動ａ∈Ａであり、遷移関数Ｐ（ｓ’∈Ｓ｜ｓ，ａ）であり、ρ_０は初期状態である。また、本実施形態では、２つのドメインが定義される。

【0030】

ドメインＸは、人間とロボットとによるタスクのデモンストレーションに属するドメインである。また、ドメインＹは、双腕ロボットによるタスク動作に属するドメインである。

【0031】

ドメインＸに属する動作データには、人間Ｈの腕の状態ｘ^Ｈと、双腕ロボットの第１腕部Ｒ１及び第２腕部Ｒ２の状態ｘ^Ｒｉ（ｉ＝１，２）と、対象物ｂの状態ｘ^ｂと、双腕ロボットの第１腕部Ｒ１及び第２腕部Ｒ２の行動ａ^Ｒｉとが含まれている。

【0032】

ドメインＹに属する動作データには、双腕ロボットの第１腕部Ｒ１及び第２腕部Ｒ２の状態ｙ^Ｒｉと、対象物ｂの状態ｙ^ｂと、双腕ロボットの第１腕部Ｒ１及び第２腕部Ｒ２の行動ａ^Ｒｉとが含まれている。

【0033】

本実施形態では、ドメインＸに属する状態ｘ＝（ｘ^Ｈ，ｘ^Ｒｉ，ｘ^ｂ）と、ドメインＹに属する状態ｙ＝（ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ）と、行動（ａ^Ｒ１，ａ^Ｒ２）とが定義される。また、本実施形態では、ドメインＸとドメインＹとにおけるマルコフ決定プロセスにおいて、Ｍ_ｘ＝（Ｓ_ｘ，Ａ_ｘ，Ｐ_ｘ，ρ_０ｘ）とＭ_ｙ＝（Ｓ_ｙ，Ａ_ｙ，Ｐ_ｙ，ρ_０ｙ）とが定義される。また、本実施形態では、後述するように双腕ロボットの制御モデルに対して方針π：Ｓ_ｙ→Ａ_ｙを学習させる。

【0034】

（Ｂ．データ収集）
まず、本実施形態では、図３に示されているように、ランダムデータが収集される。具体的には、図３に示されているように、双腕ロボットの第１腕部Ｒ１と人間Ｈとをランダムに動作させた状況下「Ｒｏｂｏｔ１－Ｈｕｍａｎ」において得られるランダムデータ｛ｘ^Ｒ１，ｘ^Ｈ，ｘ^ｂ，ａ^Ｒ１｝^｜Ｄ｜が収集される。なお、｜Ｄ｜はデータセットの数を表す。

【0035】

また、図３に示されているように、双腕ロボットの第２腕部Ｒ２と人間Ｈとをランダムに動作させた状況下「Ｈｕｍａｎ－Ｒｏｂｏｔ２」において得られるランダムデータ｛ｘ^Ｈ，ｘ^Ｒ２，ｘ^ｂ，ａ^Ｒ２｝^｜Ｄ｜が収集される。

【0036】

また、図３に示されているように、双腕ロボットの第１腕部Ｒ１と第２腕部Ｒ２とをランダムに動作させた状況下「Ｒｏｂｏｔ１－Ｒｏｂｏｔ２」のランダムデータ｛ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ，ａ^Ｒ１，ａ^Ｒ２｝^｜Ｄ｜が収集される。

【0037】

次に、図３に示されているように、デモンストレーションデータが収集される。デモンストレーションデータは、人間Ｈと双腕ロボットの腕部（第１腕部Ｒ１又は第２腕部Ｒ２）とを協調動作させた際に得られるデータである。

【0038】

具体的には、図３に示されているように、双腕ロボットの第１腕部Ｒ１と人間Ｈとを協調動作させた状況下「Ｒｏｂｏｔ１－Ｈｕｍａｎ」において得られるデモンストレーションデータ｛ｘ^Ｒ１，ｘ^Ｈ，ｘ^ｂ，ａ^Ｒ１｝^｜Ｄ｜が収集される。

【0039】

また、図３に示されているように、人間Ｈと双腕ロボットの第２腕部Ｒ２とを協調動作させた状況下「Ｈｕｍａｎ－Ｒｏｂｏｔ２」において得られるデモンストレーションデータ｛ｘ^Ｈ，ｘ^Ｒ２，ｘ^ｂ，ａ^Ｒ２｝^｜Ｄ｜が収集される。

【0040】

（Ｃ．フォワードダイナミクスモデルとインバースダイナミクスモデル）
本実施形態では、双腕ロボットの腕部に関するフォワードダイナミクスモデルＦとインバースダイナミクスモデルＦ^－１とが定義される。

【0041】

フォワードダイナミクスモデルＦは、以下の式（１Ａ）によって定義される。

【0042】

【数1】

（１Ａ）

【0043】

また、インバースダイナミクスモデルＦ^－１は、以下の式（１Ｂ）によって定義される。

【0044】

【数2】

（１Ｂ）

【0045】

なお、上記各式内のｔは時刻を表す。フォワードダイナミクスモデルＦ及びインバースダイナミクスモデルＦ^－１は、既知のダイナミクスモデル又は機械学習モデルを利用することにより実現される。

【0046】

フォワードダイナミクスモデルＦ及びインバースダイナミクスモデルＦ^－１は、以下の式（１）及び式（２）が満たされるように、予めパラメータが設定される。

【0047】

【数3】

【0048】

なお、上記各式内の||・||_２はＬ２ノルムを表し、Ｅは期待値を表す。

【0049】

本実施形態では、上記式（１）の損失関数Ｌ_ｆｗｄが最小となるようなフォワードダイナミクスモデルＦが予め生成される。また、上記式（２）の損失関数Ｌ_ｉｎｖが最小となるようなインバースダイナミクスモデルＦ^－１が予め生成される。フォワードダイナミクスモデルＦとインバースダイナミクスモデルＦ^－１とは、後述するドメイントランスレーションフレームワークにおいて利用される。

【0050】

（Ｄ．ドメイントランスレーションフレームワーク）
図３に示されているように、本実施形態のドメイントランスレーションフレームワークでは、人間と双腕ロボットとの協調動作のドメインＸから双腕ロボットの動作のドメインＹへの変換を実現するフレームワークである。以下、具体的に説明する。

【0051】

（１）ドメイントランスレーション
本実施形態では、敵対的学習を用いて、動作データの状態ｘから動作データの状態ｙへの写像を実行する状態遷移関数Ｇを生成する。具体的には、敵対的生成ネットワークモデルのうちのジェネレータを生成し、そのジェネレータを状態遷移関数とする。敵対的学習により、ジェネレータＧは、動作データの状態ｘが入力されると以下の式に従って疑似的な動作データの状態ｙ＾を生成する。なお、ジェネレータＧは、敵対的生成ネットワークモデルのうちのディスクリミネータＤｙを欺くような動作データの状態ｙ＾を生成する。

【0052】

【数4】

【0053】

一方で、敵対的生成ネットワークモデルのうちのディスクリミネータＤｙは、入力された動作データが、ジェネレータＧによって生成された動作データの状態ｙ＾であるのか又は現実の動作データの状態ｙであるのかを見分けることを試みる。

【0054】

図４は、本実施形態における敵対的生成ネットワークモデルを説明するための図である。図４に示されているように、動作データの状態ｘがジェネレータＧへ入力されると、ジェネレータＧは動作データの状態ｘに応じた疑似的な動作データの状態ｙ＾を出力する。この動作データの状態ｙ＾は、双腕ロボットの状態を模擬したデータである。ディスクリミネータＤｙは、この動作データｙ＾が双腕ロボットの現実の状態を表す動作データであるのか否かを判定する。

【0055】

図４に示されているように、敵対的学習では、ジェネレータＧは、ディスクリミネータＤｙを欺くような動作データの状態ｙ＾を出力するように学習される。また、敵対的学習では、ディスクリミネータＤｙは、ジェネレータＧが出力した動作データの状態ｙ＾を偽物であると判定することができるように学習される。

【0056】

具体的には、本実施形態の敵対的学習では、以下の式（３）が満たされるように、敵対的生成ネットワークモデルのうちのジェネレータＧとディスクリミネータＤｙとが生成される。なお、以下の式におけるｐ（ｘ）はｘが出現する確率分布を表し、ｐ（ｙ）はｙが出現する確率分布を表す。

【0057】

【数5】

【0058】

このため、本実施形態では、上記式（３）の敵対的生成ネットワークモデルに関する損失関数Ｌ_ａｄｖ（Ｇ，Ｄｙ）が最小となるようにジェネレータＧが生成され、損失関数Ｌ_ａｄｖ（Ｇ，Ｄｙ）が最大となるようにディスクリミネータＤｙが生成される。なお、本実施形態では、ジェネレータＧが、ドメインＸのデモンストレーションデータとドメインＹのランダムデータとにオーバフィッティングすることを防ぐために、ドメインＸのランダムデータも学習用データとして用いられる。

【0059】

（２）ダイナミクス一貫性
本実施形態では、双腕ロボットのダイナミクスの一貫性も考慮して、敵対的生成ネットワークモデルを学習させる。仮に、何の制約も無くジェネレータＧを生成させた場合、ジェネレータＧによって変換された動作データの状態ｙ＾は、ドメインＹにおける状態遷移Ｐ_ｙとの一貫性が無いものとなる場合がある。

【0060】

そこで、本実施形態では、時刻ｔの状態ｙ_ｔ＾と時刻ｔ＋１の状態ｙ_ｔ＋１＾との間における状態遷移Ｐ_ｙの一貫性が保たれるようにジェネレータＧを生成する。

【0061】

具体的には、上述したインバースダイナミクスモデルＦ^－１によって、以下の式に従い、時刻ｔに双腕ロボットが取った行動ａ_ｔ ^～が計算される。

【0062】

【数6】

【0063】

また、ダイナミクスモデルＦによって、以下の式に従い、時刻ｔ＋１の状態ｙ_ｔ＋１ ^～が計算される。

【0064】

【数7】

【0065】

ダイナミクスモデルＦとインバースダイナミクスモデルＦ^－１とによって計算された時刻ｔ＋１の状態ｙ_ｔ＋１ ^～は、ジェネレータＧから出力された時刻ｔ＋１の状態ｙ_ｔ＋１＾と一致している必要がある。

【0066】

そこで、本実施形態では、ダイナミクスの一貫性に関する損失関数Ｌ_ｄｙｎ（Ｇ）を設定する。ダイナミクスの一貫性に関する損失関数Ｌ_ｄｙｎ（Ｇ）は、以下の式（４）によって表される。

【0067】

【数8】

【0068】

なお、上記式内の||・||_１はＬ１ノルムを表す。本実施形態では、ダイナミクスの一貫性に関する損失関数Ｌ_ｄｙｎ（Ｇ）が最小となるようにジェネレータＧが生成される。

【0069】

（３）パーシャルアイデンティティマッピング
ドメイントランスレーションとダイナミクスの一貫性とを考慮したとしても、ジェネレータＧから、現実のデータである状態ｘ^Ｒｉとはかけ離れた状態ｙ^Ｒｉが出力されてしまう場合もある。例えば、ジェネレータＧから双腕ロボットの腕部が取り得ない状態ｙ^Ｒｉが出力されてしまう場合もある。

【0070】

そこで、本実施形態では、パーシャルアイデンティティマッピングに関する損失関数Ｌ_ｉｄ（Ｇ）を設定する。パーシャルアイデンティティマッピングに関する損失関数Ｌ_ｉｄ（Ｇ）は、以下の式（５）によって表される。

【0071】

【数9】

【0072】

本実施形態では、パーシャルアイデンティティマッピングに関する損失関数Ｌ_ｉｄ（Ｇ）が最小となるようにジェネレータＧが生成される。

【0073】

（４）統合された損失関数
本実施形態では、上述した各損失関数を統合することにより、以下の損失関数Ｌ_ｆｕｌｌが設定される。以下の式（６）の損失関数Ｌ_ｆｕｌｌが最小となるように、敵対的生成ネットワークモデルのジェネレータＧとディスクリミネータＤｙとが学習される。以下の式（６）におけるλ_ａｄｖ，λ_ｄｙｎ，λ_ｉｄは重みであり、予め設定される。

【0074】

【数10】

【0075】

なお、上述したように、フォワードダイナミクスモデルＦとインバースダイナミクスモデルＦ^－１とは、ランダムデータに基づいて予め学習される。また、フォワードダイナミクスモデルＦとインバースダイナミクスモデルＦ^－１とは、敵対的生成ネットワークモデルを学習させる際に併せて更新するようにしてもよい。例えば、フォワードダイナミクスモデルＦが有するパラメータとインバースダイナミクスモデルＦ^－１が有するパラメータとが、敵対的生成ネットワークモデルを学習させる際に併せて更新されるようにしてもよい。

【0076】

（学習済みモデル生成システム１）
図５は、本実施形態の学習済みモデル生成システム１の概略構成を表すブロック図である。図５に示されるように、学習済みモデル生成システム１は、カメラ２Ａと、双腕ロボット４Ａと、学習済みモデル生成装置１０とを備えている。本実施形態に係る学習済みモデル生成装置１０は、人間の動作データから双腕ロボットの動作データを生成するための学習済みモデルを生成する。

【0077】

カメラ２Ａは、制御対象である双腕ロボット４Ａの第１腕部Ｒ１及び第２腕部Ｒ２と人間Ｈとが動作をしている際の画像を逐次撮像する。例えば、カメラ２Ａは、図１に示されているような、デモンストレーションＴ１とデモンストレーションＴ２とが行われている際の、画像を逐次撮像する。また、カメラ２Ａは、双腕ロボット４Ａの第１腕部Ｒ１及び第２腕部Ｒ２がランダムな動作をしている際の画像を逐次撮像する。また、カメラ２Ａは、人間がランダムな動作をしている際の画像を逐次撮像する。そして、カメラ２Ａは、得られた画像データを学習済みモデル生成装置１０へ出力する。

【0078】

双腕ロボット４Ａは、図１に示されているようなロボットであり、第１腕部Ｒ１と第２腕部Ｒ２とを備えている。

【0079】

図６は、本実施形態に係る学習済みモデル生成装置１０のハードウェア構成を示すブロック図である。図６に示されるように、学習済みモデル生成装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４２、メモリ４４、記憶装置４６、入出力Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）４８、記憶媒体読取装置５０、及び通信Ｉ／Ｆ５２を有する。各構成は、バス５４を介して相互に通信可能に接続されている。

【0080】

記憶装置４６には、後述する各処理を実行するための学習済みモデル生成プログラムが格納されている。ＣＰＵ４２は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ４２は、記憶装置４６からプログラムを読み出し、メモリ４４を作業領域としてプログラムを実行する。ＣＰＵ４２は、記憶装置４６に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

【0081】

メモリ４４は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）により構成され、作業領域として一時的にプログラム及びデータを記憶する。記憶装置４６は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

【0082】

入出力Ｉ／Ｆ４８は、カメラ２Ａと双腕ロボット４Ａとからのデータの入力、及びカメラ２Ａと双腕ロボット４Ａとへのデータの出力を行うインタフェースである。また、例えば、キーボードやマウス等の、各種の入力を行うための入力装置、及び、例えば、ディスプレイやプリンタ等の、各種の情報を出力するための出力装置が接続されてもよい。出力装置として、タッチパネルディスプレイを採用することにより、入力装置として機能させてもよい。

【0083】

記憶媒体読取装置５０は、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ、ブルーレイディスク、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の各種記憶媒体に記憶されたデータの読み込みや、記憶媒体に対するデータの書き込み等を行う。

【0084】

通信Ｉ／Ｆ５２は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

【0085】

次に、学習済みモデル生成装置１０の機能構成について説明する。図５に示されるように、学習済みモデル生成装置１０は、機能的には、学習用取得部１２と、学習部１６とを含む。また、学習済みモデル生成装置１０の所定の記憶領域には、データ記憶部１４と、学習済みモデル記憶部１８と、制御モデル記憶部１９とが設けられている。各機能構成は、ＣＰＵ４２が記憶装置４６に記憶された各プログラムを読み出し、メモリ４４に展開して実行することにより実現される。

【0086】

データ記憶部１４には、カメラ２Ａによって撮像された画像データが格納される。また、データ記憶部１４には、双腕ロボット４Ａが動作した際の制御データが格納される。

【0087】

学習済みモデル記憶部１８には、後述する処理によって生成された学習済みの敵対的生成ネットワークモデルが格納される。

【0088】

制御モデル記憶部１９には、双腕ロボット４Ａを制御するための制御モデルが格納される。

【0089】

学習用取得部１２は、学習用データを取得する。具体的には、データ記憶部１４に格納されている画像データ及び制御データを加工するなどして、後述する敵対的生成ネットワークモデルを学習させる際に利用する学習用データを計算する。本実施形態の学習用データは、学習用の人間Ｈの動作データと、学習用の双腕ロボット４Ａの動作データとを含むデータである。

【0090】

具体的には、本実施形態の学習用データは、第１腕部Ｒ１と人間Ｈの腕とによる協調動作を表すデモンストレーションデータと、第２腕部Ｒ２と人間Ｈの腕とによる協調動作を表すデモンストレーションデータと、双腕ロボット４Ａのランダムな動作を表すランダムデータと、人間Ｈのランダムな動作を表すランダムデータとを含んで構成されている。

【0091】

第１腕部Ｒ１と人間Ｈの腕とによる協調動作を表すデモンストレーションデータは、図３に示されている「Ｒｏｂｏｔ１－Ｈｕｍａｎ」のデモンストレーションデータ｛ｘ^Ｒ１，ｘ^Ｈ，ｘ^ｂ，ａ^Ｒ１｝^｜Ｄ｜である。第２腕部Ｒ２と人間Ｈの腕とによる協調動作を表すデモンストレーションデータは、図３に示されている「Ｈｕｍａｎ－Ｒｏｂｏｔ２」のデモンストレーションデータ｛ｘ^Ｈ，ｘ^Ｒ２，ｘ^ｂ，ａ^Ｒ２｝^｜Ｄ｜である。

【0092】

双腕ロボット４Ａのランダムな動作を表すランダムデータ及び人間Ｈのランダムな動作を表すランダムデータは、図３に示されている「Ｒｏｂｏｔ１－Ｈｕｍａｎ」のランダムデータ｛ｘ^Ｒ１，ｘ^Ｈ，ｘ^ｂ，ａ^Ｒ１｝^｜Ｄ｜と、「Ｈｕｍａｎ－Ｒｏｂｏｔ２」のランダムデータ｛ｘ^Ｈ，ｘ^Ｒ２，ｘ^ｂ，ａ^Ｒ２｝^｜Ｄ｜と、「Ｒｏｂｏｔ１－Ｒｏｂｏｔ２」のランダムデータ｛ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ，ａ^Ｒ１，ａ^Ｒ２｝^｜Ｄ｜とである。

【0093】

学習用取得部１２は、データ記憶部１４に格納されている画像データ及び制御データを解析することにより、図１に示されている２次元バーコードＱ１，Ｑ２の位置及び移動速度等を特定する。そして、学習用取得部１２は、２次元バーコードＱ１，Ｑ２の位置及び移動速度と双腕ロボット４Ａの制御データとを組み合わせることにより、上述したようなデモンストレーションデータ及びランダムデータを取得する。

【0094】

学習部１６は、学習用取得部１２により取得された学習用データに基づいて、ジェネレータＧとディスクリミネータＤｙとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間Ｈの動作を表す動作データｘが入力されると双腕ロボット４Ａの動作データｙが出力される学習済みのジェネレータＧを生成する。

【0095】

具体的には、学習部１６は、上記式（６）に示されている統合損失関数Ｌ_ｆｕｌｌが最小となるように、敵対的生成ネットワークモデルを機械学習させる。なお、上述したように、統合損失関数Ｌ_ｆｕｌｌは、敵対的生成ネットワークモデルに関する損失関数Ｌ_ａｄｖと、ダイナミクスの一貫性に関する損失関数Ｌ_ｄｙｎと、パーシャルアイデンティティマッピングに関する損失関数Ｌ_ｉｄとを含む関数である。以下、各損失関数の最小化について説明する。

【0096】

（敵対的生成ネットワークモデルに関する損失関数Ｌ_ａｄｖ）
学習部１６は、実質的に、上記式（３）に示されている敵対的生成ネットワークモデルに関する損失関数Ｌ_ａｄｖが最小になるようにジェネレータＧを学習させつつ、敵対的生成ネットワークモデルに関する損失関数Ｌ_ａｄｖが最大になるようにディスクリミネータＤｙを学習させる。

【0097】

（ダイナミクスの一貫性に関する損失関数Ｌ_ｄｙｎ）
学習部１６は、実質的に、上記式（４）に示されているダイナミクスの一貫性に関する損失関数Ｌ_ｄｙｎが最小になるようにジェネレータＧを学習させる。

【0098】

上述したように、本実施形態では、双腕ロボット４Ａの時刻ｔの状態ｙ_ｔと双腕ロボット４Ａの時刻ｔの行動ａ_ｔとが入力されると、双腕ロボット４Ａの時刻ｔ＋１の状態ｙ_ｔ＋１を出力するフォワードダイナミクスモデルＦが予め用意される。また、本実施形態では、双腕ロボット４Ａの時刻ｔの状態ｙ_ｔと双腕ロボット４Ａの時刻ｔ＋１の状態ｙ_ｔ＋１とが入力されると、双腕ロボット４Ａが時刻ｔに取ったであろう行動ａ_ｔが出力されるインバースダイナミクスモデルＦ^－１とが予め用意される。

【0099】

このため、学習部１６は、敵対的生成ネットワークモデルを機械学習させる際に、インバースダイナミクスモデルＦ^－１に対して、ジェネレータＧから出力された双腕ロボット４Ａの時刻ｔの状態ｙ_ｔ＾と時刻ｔ＋１の状態ｙ_ｔ＋１＾とを入力することにより、双腕ロボット４Ａが時刻ｔに取ったと推定される行動ａ_ｔ ^～を計算する。

【0100】

また、学習部１６は、敵対的生成ネットワークモデルを機械学習させる際に、ダイナミクスモデルＦに対して、ジェネレータＧから出力された双腕ロボット４Ａの状態ｙ_ｔ＾と、インバースダイナミクスモデルＦ^－１により計算された行動ａ_ｔ ^～とを入力することにより、双腕ロボット４Ａの時刻ｔ＋１の状態ｙ_ｔ＋１ ^～を計算する。

【0101】

そして、学習部１６は、ジェネレータＧから出力された双腕ロボット４Ａの時刻ｔの状態ｙ_ｔ＋１＾と、計算された双腕ロボット４Ａの時刻ｔ＋１の状態ｙ_ｔ＋１ ^～との間の差分が小さくなるようにジェネレータＧを学習させる。

【0102】

（パーシャルアイデンティティマッピングに関する損失関数Ｌ_ｉｄ）
学習部１６は、実質的に、上記式（５）に示されているパーシャルアイデンティティマッピングに関する損失関数Ｌ_ｉｄが最小になるようにジェネレータＧを学習させる。

【0103】

具体的には、学習部１６は、学習用の双腕ロボット４Ａの動作データｘとジェネレータＧから出力された双腕ロボット４Ａの状態ｙ＾との間の差分が小さくなるように、ジェネレータＧを学習させることにより、学習済みのジェネレータＧを生成する。

【0104】

そして、学習部１６は、学習済みのジェネレータＧと学習済みのディスクリミネータＤｙとを含む学習済みの敵対的生成ネットワークモデルを、学習済みモデル記憶部１８へ格納する。

【0105】

次に、学習部１６は、学習済みのジェネレータＧに対して、対象となる人間の動作を表す対象動作データを入力することにより、双腕ロボット４Ａのロボットの動作データを生成する。ここで、対象となる人間の動作とは、双腕ロボット４Ａへ教示したい動作に相当する。

【0106】

学習部１６は、生成された双腕ロボット４Ａの動作データに基づいて、双腕ロボット４Ａを制御するための制御用モデルを学習させることにより、動作データのうちの状態ｙが入力されると動作データのうちの行動ａを出力する制御用学習済みモデルを生成する。

【0107】

例えば、学習部１６は、既知の模倣学習を用いて制御用学習済みモデルを生成する。これにより、状態ｙから行動ａを生成する方策が反映された制御用学習済みモデルを得ることができる。なお、制御用モデルとしては、既知の関数又は機械学習モデルを採用することができる。

【0108】

そして、学習部１６は、制御用学習済みモデルを制御モデル記憶部１９へ格納する。

【0109】

（制御システム２０）
図７は、本実施形態の制御システム２０の概略構成を表すブロック図である。図７に示されるように、制御システム２０は、カメラ２Ｂと、双腕ロボット４Ｂと、制御装置３０とを備えている。本実施形態に係る制御装置３０は、学習済みモデル生成装置１０によって生成された制御用学習済みモデルを用いて双腕ロボット４Ｂの動作を制御する。

【0110】

カメラ２Ｂは、上述したカメラ２Ａと同様の構成であり、制御対象である双腕ロボット４Ｂの第１腕部Ｒ１及び第２腕部Ｒ２が動作をしている際の画像を逐次撮像する。そして、カメラ２Ｂは、得られた画像データを制御装置３０へ出力する。

【0111】

双腕ロボット４Ｂは、上述した双腕ロボット４Ａと同様の構成であり、図１に示されているようなロボットである。

【0112】

図８は、本実施形態に係る制御装置３０のハードウェア構成を示すブロック図である。図８に示されるように、制御装置３０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６２、メモリ６４、記憶装置６６、入出力Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）６８、記憶媒体読取装置７０、及び通信Ｉ／Ｆ７２を有する。各構成は、バス７４を介して相互に通信可能に接続されている。

【0113】

記憶装置６６には、後述する各処理を実行するための制御プログラムが格納されている。ＣＰＵ６２は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、ＣＰＵ６２は、記憶装置６６からプログラムを読み出し、メモリ６４を作業領域としてプログラムを実行する。ＣＰＵ６２は、記憶装置６６に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。

【0114】

メモリ６４は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）により構成され、作業領域として一時的にプログラム及びデータを記憶する。記憶装置６６は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及びＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

【0115】

入出力Ｉ／Ｆ６８は、カメラ２Ｂと双腕ロボット４Ｂとからのデータの入力、及びカメラ２Ｂと双腕ロボット４Ｂとへのデータの出力を行うインタフェースである。また、例えば、キーボードやマウス等の、各種の入力を行うための入力装置、及び、例えば、ディスプレイやプリンタ等の、各種の情報を出力するための出力装置が接続されてもよい。出力装置として、タッチパネルディスプレイを採用することにより、入力装置として機能させてもよい。

【0116】

記憶媒体読取装置７０は、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）－ＲＯＭ、ブルーレイディスク、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ等の各種記憶媒体に記憶されたデータの読み込みや、記憶媒体に対するデータの書き込み等を行う。

【0117】

通信Ｉ／Ｆ７２は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

【0118】

次に、制御装置３０の機能構成について説明する。図７に示されるように、制御装置３０は、機能的には、取得部３４と、生成部３６と、制御部３８とを含む。また、制御装置３０の所定の記憶領域には、制御モデル記憶部３２が設けられている。各機能構成は、ＣＰＵ６２が記憶装置６６に記憶された各プログラムを読み出し、メモリ６４に展開して実行することにより実現される。

【0119】

制御モデル記憶部３２には、学習済みモデル生成装置１０によって生成された制御用学習済みモデルが格納される。

【0120】

取得部３４は、双腕ロボット４Ｂの状態と対象物の状態とを取得する。具体的には、取得部３４は、カメラ２Ｂによって撮像された画像データ及び双腕ロボット４Ｂの制御データに基づいて、双腕ロボット４Ｂと対象物ｂとの状態（ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ）を計算する。

【0121】

生成部３６は、制御モデル記憶部３２に格納されている制御用学習済みモデルに対して、取得部３４により取得された状態（ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ）を入力することにより、当該状態（ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ）に応じた双腕ロボット４Ｂの行動（ａ^Ｒ１，ａ^Ｒ２）を生成する。

【0122】

制御部３８は、生成部３６により生成された行動（ａ^Ｒ１，ａ^Ｒ２）を取るように、双腕ロボット４Ｂを制御する。具体的には、制御部３８は、生成部３６により生成された行動（ａ^Ｒ１，ａ^Ｒ２）を取るように、双腕ロボット４Ｂの第１腕部Ｒ１と第２腕部Ｒ２とに対して制御指令を出力する。

【0123】

次に、本実施形態に係る学習済みモデル生成システム１の作用について説明する。

【0124】

まず、人間Ｈの動作及び双腕ロボット４Ａの動作に関するデータが収集され、学習済みモデル生成装置１０へ入力される。人間Ｈの動作及び双腕ロボット４Ａの動作に関するデータは、データ記憶部１４へ格納される。そして、学習済みモデル生成システム１が所定の指示信号を受け付けると、学習済みモデル生成装置１０のＣＰＵ４２は記憶装置４６から学習済みモデル生成プログラムを読み出して、メモリ４４に展開して実行する。これにより、ＣＰＵ４２が学習済みモデル生成装置１０の各機能構成として機能し、図９及び図１０に示す学習済みモデル生成処理が実行される。

【0125】

ステップＳ１００において、学習用取得部１２は、データ記憶部１４へ格納されているデータから学習用データを取得する。

【0126】

ステップＳ１０２において、学習部１６は、ステップＳ１００で取得された学習用データに基づいて、ジェネレータＧとディスクリミネータＤｙとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間Ｈの動作を表す動作データｘが入力されると双腕ロボット４Ａの動作データｙが出力される学習済みのジェネレータＧを生成する。

【0127】

ステップＳ１０４において、学習済みのジェネレータＧと学習済みのディスクリミネータＤｙとを含む学習済みの敵対的生成ネットワークモデルを、学習済みモデル記憶部１８へ格納する。

【0128】

次に、学習済みモデル生成システム１が所定の指示信号を受け付けると、学習済みモデル生成装置１０は、図１０に示す学習済みモデル生成処理を実行する。

【0129】

ステップＳ２００において、学習部１６は、対象となる人間Ｈの動作を表す対象動作データを取得する。例えば、学習部１６は、学習用データに含まれる人間Ｈの動作データのうち、双腕ロボット４Ａに教示したい動作データを対象動作データとして取得する。なお、対象動作データとしては学習用データとは異なるデータが用いられてもよい。

【0130】

ステップＳ２０２において、学習部１６は、学習済みモデル記憶部１８から学習済みのジェネレータＧを読み出す。

【0131】

ステップＳ２０４において、学習部１６は、ステップＳ２０２で読み出された学習済みのジェネレータＧに対して、ステップＳ２００で取得された対象動作データを入力することにより、双腕ロボット４Ａの動作データを生成する。

【0132】

ステップＳ２０６において、学習部１６は、ステップＳ２０４で得られた双腕ロボット４Ａの動作データに基づいて、双腕ロボット４Ａを制御するための制御用モデルを学習させることにより、動作データのうちの状態ｙが入力されると動作データのうちの行動ａを出力する制御用学習済みモデルを生成する。

【0133】

ステップＳ２０８において、学習部１６は、ステップＳ２０６で生成された制御用学習済みモデルを制御モデル記憶部１９へ格納する。

【0134】

次に、本実施形態に係る制御システム２０の作用について説明する。

【0135】

学習済みモデル生成システム１によって生成された制御用学習済みモデルが、制御装置３０へ入力されると、その制御用学習済みモデルは制御モデル記憶部１９へ格納される。そして、制御システム２０が所定の指示信号を受け付けると、制御装置３０のＣＰＵ６２は記憶装置６６から制御プログラムを読み出して、メモリ６４に展開して実行する。これにより、ＣＰＵ６２が制御装置３０の各機能構成として機能し、図１１に示す制御処理が実行される。

【0136】

ステップＳ３００において、取得部３４は、カメラ２Ｂによって撮像された画像データ及び双腕ロボット４Ｂの制御データから、双腕ロボット４Ｂと対象物ｂとの状態（ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ）を取得する。

【0137】

ステップＳ３０２において、生成部３６は、制御モデル記憶部３２に格納されている制御用学習済みモデルを読み出す。

【0138】

ステップＳ３０４において、生成部３６は、ステップＳ３０２で読み出した制御用学習済みモデルに対して、ステップＳ３００で取得された状態（ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ）を入力することにより、当該状態（ｙ^Ｒ１，ｙ^Ｒ２，ｙ^ｂ）に応じた双腕ロボット４Ｂの行動（ａ^Ｒ１，ａ^Ｒ２）を生成する

【0139】

ステップＳ３０６において、制御部３８は、ステップＳ３０４で生成された行動（ａ^Ｒ１，ａ^Ｒ２）を取るように、双腕ロボット４Ｂを制御する。

【0140】

図１１に示される制御処理が繰り返され、双腕ロボット４Ａに対して制御信号が繰り返し出力されることにより、対象物ｂに対するタスクが実行される。

【0141】

以上説明したように、本実施形態に係る学習済みモデル生成装置は、学習用の人間の動作データを含む学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する。これにより、人間の動作データからロボットの動作データを簡易に生成することができる学習済みのジェネレータを得ることができる。

【0142】

また、本実施形態に係る学習済みモデル生成装置は、ダイナミクスの一貫性に関する損失関数Ｌ_ｄｙｎを含む損失関数Ｌ_ｆｕｌｌが最小になるように、学習済みのジェネレータを生成することにより、双腕ロボット４Ａのダイナミクスの一貫性を考慮した動作データを生成することができる学習済みのジェネレータを得ることができる。これにより、双腕ロボット４Ａのダイナミクスを無視したような動作データの生成は抑制される。

【0143】

また、本実施形態に係る学習済みモデル生成装置は、パーシャルアイデンティティマッピングに関する損失関数Ｌ_ｉｄを含む損失関数Ｌ_ｆｕｌｌが最小になるように、学習済みのジェネレータを生成することにより、双腕ロボット４Ａの現実の動きに適合するような動作データを生成することができる学習済みのジェネレータを得ることができる。これにより、双腕ロボット４Ａの現実の動きを無視したような動作データの生成が抑制される。

【0144】

ダイナミクスの一貫性に関する損失関数Ｌ_ｄｙｎとパーシャルアイデンティティマッピングに関する損失関数Ｌ_ｉｄとを考慮して学習済みのジェネレータを生成することにより、例えば、双腕ロボット４Ａの可動域を無視した動作データの生成等が抑制される。

【0145】

また、双腕ロボット４Ａのランダムな動作を表すランダムデータを学習用データに含ませることにより、制御対象ロボットはどの程度の可動域を有しているのかといった点を考慮して、学習済みのジェネレータを生成することができる。

【実施例0146】

次に、実施例について説明する。本実施例では、提案したＬｆＤ－ＨＲの有効性を検証するためのシミュレーションを行う。

【0147】

図１２は、本実施例を説明するための図である。図１２に示されるように、本実施例では、３つのシミュレーションを行う。図１２に示されている「Demonstration」は、上述した図１のデモンストレーションＴ１,Ｔ２に相当する。また、図１２に示されている「Execution」は、上述した図２の実行フェーズＥに相当する。図１２（ａ）Dual-arm block pushは、Robot1とRobot2とがBlockを押し出すような協調動作を対象とするものである。また、図１２（ｂ）Dual-arm peg insertionは、Robot1が把持する穴にRobot2が把持するpegを挿入するような協調動作を対象とするものである。

【0148】

図１３は、本実施例の結果を表す図である。図１３に示されているように、提案したＬｆＤ－ＨＲによれば、Robot1とRobot2とが協調動作することにより目的のタスクを完遂することができている。

【0149】

なお、上記実施形態では、制御対象ロボットが双腕ロボットである場合を例に説明したがこれに限定されるものではなく、どのようなロボットを対象としてもよい。例えば、１つの腕を有するロボットを対象としてもよい。制御対象ロボットとしては、例えば、複数の指を有するロボット等も対象になり得る。この場合には、複数の指の動きに関する動作データが生成される。

【0150】

また、上記実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した各処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、及びＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、各処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

【0151】

また、上記実施形態では、各プログラムが記憶装置に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ブルーレイディスク、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

【0152】

（付記）
以下、本開示の態様について付記する。

【0153】

（付記１）
学習用の人間の動作データを含む学習用データを取得する学習用取得部と、
前記学習用取得部により取得された学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する学習部と、
を含む学習済みモデル生成装置。

【0154】

（付記２）
前記動作データは、前記制御対象ロボットの状態ｙと行動ａとを含んで構成されており、
前記制御対象ロボットの時刻ｔの状態ｙ_ｔと前記制御対象ロボットの時刻ｔの行動ａ_ｔとが入力されると、前記制御対象ロボットの時刻ｔ＋１の状態ｙ_ｔ＋１を出力するフォワードダイナミクスモデルＦと、
前記制御対象ロボットの時刻ｔの状態ｙ_ｔと前記制御対象ロボットの時刻ｔ＋１の状態ｙ_ｔ＋１とが入力されると、前記制御対象ロボットが時刻ｔに取った行動ａ_ｔが出力されるインバースダイナミクスモデルＦ^－１とが予め用意されており、
前記学習部は、
前記インバースダイナミクスモデルＦ^－１に対して、前記ジェネレータから出力された前記制御対象ロボットの時刻ｔの状態ｙ_ｔ＾と時刻ｔ＋１の状態ｙ_ｔ＋１＾とを入力することにより、前記制御対象ロボットが時刻ｔに取ったであろう行動ａ_ｔ ^～を計算し、
前記フォワードダイナミクスモデルＦに対して、前記状態ｙ_ｔ＾と前記行動ａ_ｔ ^～とを入力することにより、前記制御対象ロボットの時刻ｔ＋１の状態ｙ_ｔ＋１ ^～を計算し、
前記ジェネレータから出力された前記制御対象ロボットの時刻ｔの状態ｙ_ｔ＋１＾と、計算された前記制御対象ロボットの時刻ｔ＋１の状態ｙ_ｔ＋１ ^～との間の差分が小さくなるように、前記ジェネレータを学習させることにより、前記学習済みのジェネレータを生成する、
付記１に記載の学習済みモデル生成装置。

【0155】

（付記３）
前記学習用データには、学習用の制御対象ロボットの動作データｘが更に含まれており、
前記学習部は、学習用の制御対象ロボットの動作データｘと、前記ジェネレータから出力された前記制御対象ロボットの状態ｙ＾との間の差分が小さくなるように、前記ジェネレータを学習させることにより、前記学習済みのジェネレータを生成する、
付記１又は付記２に記載の学習済みモデル生成装置。

【0156】

（付記４）
前記制御対象ロボットは、少なくとも１つ以上の腕部を備えたロボットである、
付記１～付記３の何れか１項に記載の学習済みモデル生成装置。

【0157】

（付記５）
前記制御対象ロボットは、第１腕部と第２腕部とを備える双腕ロボットであり、
前記学習用データは、
前記第１腕部と前記人間の腕とによる協調動作を表すデモンストレーションデータと、
前記第２腕部と前記人間の腕とによる協調動作を表すデモンストレーションデータと、を更に含んで構成されている、
付記４に記載の学習済みモデル生成装置。

【0158】

（付記６）
前記学習用データは、
前記制御対象ロボットのランダムな動作を表すランダムデータと、
前記人間のランダムな動作を表すランダムデータと、を更に含んで構成されている、
付記１～付記３の何れか１項に記載の学習済みモデル生成装置。

【0159】

（付記７）
前記学習部は、
前記学習済みのジェネレータに対して、対象となる人間の動作を表す対象動作データを入力することにより、前記制御対象ロボットの動作データを生成し、
生成された前記制御対象ロボットの動作データに基づいて、前記制御対象ロボットを制御するための制御用学習済みモデルであって、前記動作データのうちの状態が入力されると、前記動作データのうちの行動を出力するための制御用学習済みモデルを生成する、
付記１～付記３の何れか１項に記載の学習済みモデル生成装置。

【0160】

（付記８）
制御対象ロボットの状態を取得する取得部と、
付記７に記載の学習済みモデル生成装置によって生成された前記制御用学習済みモデルに対して、前記取得部により取得された前記状態を入力することにより、前記状態に応じた前記制御対象ロボットの行動を生成する生成部と、
前記生成部により生成された前記行動を取るように、前記制御対象ロボットを制御する制御部と、
を備えた制御装置。

【0161】

（付記９）
学習用の人間の動作データを含む学習用データを取得し、
取得された学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する、
処理をコンピュータが実行する学習済みモデル生成方法。

【0162】

（付記１０）
学習用の人間の動作データを含む学習用データを取得し、
取得された学習用データに基づいて、ジェネレータとディスクリミネータとを含む敵対的生成ネットワークモデルを機械学習させることにより、対象となる人間の動作を表す動作データが入力されると制御対象ロボットの動作データが出力される学習済みのジェネレータを生成する、
処理をコンピュータに実行させるための学習済みモデル生成プログラム。

【符号の説明】

【0163】

４Ａ，４Ｂ双腕ロボット
１０学習済みモデル生成装置
１２学習用取得部
１４データ記憶部
１６学習部
１８学習済みモデル記憶部
１９，３２制御モデル記憶部
２０制御システム
３０制御装置
３４取得部
３６生成部
３８制御部

【図1】