(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-23
(45)【発行日】2025-01-07
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20241224BHJP
G06N 3/094 20230101ALI20241224BHJP
【FI】
G06N20/00
G06N3/094
(21)【出願番号】P 2022044303
(22)【出願日】2022-03-18
【審査請求日】2024-04-11
(73)【特許権者】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】石田 裕太郎
(72)【発明者】
【氏名】高橋 太郎
【審査官】福西 章人
(56)【参考文献】
【文献】特開平6-332883(JP,A)
【文献】ZHU, Yuke et al.,Reinforcement and Imitation Learning for Diverse Visuomotor Skills,arXiv [online],2018年05月27日,pp.1-12,[検索日 2024.11.11]、インターネット:<URL:https://arxiv.org/pdf/1802.09564v2>
【文献】HUNDT, Andrew et al.,“Good Robot!”: Efficient Reinforcement Learning for Multi-Step Visual Tasks with Sim to Real Transfer,IEEE Robotics and Automation Letters ,Volume: 5, Issue: 4,IEEE Xplore [online],pp.6724-6731,[検索日 2024.11.11]、インターネット:<URL:https://ieeexplore.ieee.org/abstract/document/9165109>
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00-99/00
G06F 18/00-18/40
(57)【特許請求の範囲】
【請求項1】
特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する取得部と、
行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得部により取得された情報と、前記強化学習の結果とに基づいて、行動情報を生成する生成器と、
入力された情報が前記生成器により生成された行動情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する識別器と、を有し、
前記生成器は、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、
情報処理装置。
【請求項2】
前記生成器は、前記強化学習を実行した回数に応じて前記第1割合及び前記第2割合を決定する、
請求項1に記載の情報処理装置。
【請求項3】
前記生成器は、前記強化学習の結果の性能に応じて前記第1割合及び前記第2割合を決定する、
請求項1または2に記載の情報処理装置。
【請求項4】
前記生成器は、前記特定のタスクの実行にかかる所要時間、前記特定のタスクの実行にかかる消費電力、及び前記特定のタスクの実行にかかる前記行動情報を生成した回数の少なくとも一つに基づいて、前記性能の値を決定する、
請求項3に記載の情報処理装置。
【請求項5】
前記特定のタスクに対するエキスパートの行動軌跡は、人間が特定の道具を用いるタスクでの行動軌跡であり、
前記行動情報には、ロボットのアームの関節の角速度を示す情報が含まれる、
請求項1から4のいずれか一項に記載の情報処理装置。
【請求項6】
特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する処理と、
行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得する処理により取得した情報と、前記強化学習の結果とに基づいて、行動情報を生成する処理と、
入力された情報が生成する処理により生成した情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する処理と、を実行し、
前記生成する処理では、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、
情報処理方法。
【請求項7】
特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する処理と、
行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得する処理により取得した情報と、前記強化学習の結果とに基づいて、行動情報を生成する処理と、
入力された情報が生成する処理により生成した情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する処理と、をコンピュータに実行させ、
前記生成する処理では、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
近年、逆強化学習(Inverse Reinforcement Learning)を用いた模倣学習アルゴリズムと、敵対的生成ネットワーク(GAN、Generative Adversarial Network)を組み合わせたGAIL(Generative Adversarial Imitation Learning)という手法が注目されている(非特許文献1を参照)。
【0003】
なお、逆強化学習では、エキスパートの行動軌跡(専門家データ、Expert Trajectory)から環境の報酬関数を推定する手法であるため、環境からの報酬が得られない場合でも模倣学習を行う事ができる。逆強化学習を用いた模倣学習では、エキスパートの行動軌跡から報酬関数を求めるという問題と、得られた報酬関数から強化学習によってエキスパートの方策(Expert Policy)を求めるという問題の2つを解く必要がある。一方、GAILでは、GANの仕組みを利用することで、エキスパートの行動軌跡からエキスパートの方策を求めることができる。
【0004】
また、非特許文献2には、GAILを用いて、ロボットのアームの制御を機械学習する技術が開示されている。非特許文献2では、カメラで撮影された画像と、ロボットのアームの関節の位置及び角速度を示す情報とを取得する。また、模倣学習の報酬γgailと強化学習の報酬γtaskとを以下の式(1)のように組み合わせたハイブリッド報酬γを用いて、生成器(generator)を学習させる。なお、模倣学習の報酬γgailは、識別器(判別器、discriminator)を騙せたことに基づく報酬である。また、強化学習の報酬γtaskは、ロボットによるタスク(作業)が完了したことに基づく報酬である。
【0005】
また、λは予め設定されている定数であり、0から1までのいずれかの値である。stは生成器への入力データであり、atは生成器からの出力データである。なお、λが0の場合は強化学習(RL、Reinforcement Learning)のみとなり、λが1の場合は通常の(例えば、非特許文献1に記載の)GAILとなる。
γ(st,at)=λγgail(st,at)+(1-λ)γtask(st,at)・・・(1)
【先行技術文献】
【非特許文献】
【0006】
【文献】Jonathan Ho and Stefano Ermon. "Generative adversarial imitation learning" NIPS, 2016.
【文献】Yuke Zhu, et al. "Reinforcement and Imitation Learning for Diverse Visuomotor Skills" RSS, 2018
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、従来技術では、例えば、機械学習を効率的に実行できない場合がある。
【0008】
本開示の目的は、機械学習の効率を向上させることができる情報処理装置、情報処理方法、及びプログラムを提供することである。
【課題を解決するための手段】
【0009】
本開示に係る第1の態様では、特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する取得部と、行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得部により取得された情報と、前記強化学習の結果とに基づいて、行動情報を生成する生成器と、入力された情報が前記生成器により生成された行動情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する識別器と、を有し、前記生成器は、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、情報処理装置が提供される。
【0010】
また、本開示に係る第2の態様では、特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する処理と、行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得する処理により取得した情報と、前記強化学習の結果とに基づいて、行動情報を生成する処理と、入力された情報が生成する処理により生成した情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する処理と、を実行し、前記生成する処理では、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、情報処理方法が提供される。
【0011】
また、本開示に係る第3の態様では、特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する処理と、行動情報が前記エキスパートの行動軌跡を示す情報であると識別されたことに基づく第1報酬と、当該行動情報に基づいて前記特定のタスクが実行されたことに基づく第2報酬とに少なくとも基づいて強化学習を行い、前記取得する処理により取得した情報と、前記強化学習の結果とに基づいて、行動情報を生成する処理と、入力された情報が生成する処理により生成した情報であるか前記エキスパートの行動軌跡を示す情報であるかを識別する処理と、をコンピュータに実行させ、前記生成する処理では、前記第1報酬に対する前記第2報酬の割合を第1割合として第1時点における前記強化学習を行い、前記第1報酬に対する前記第2報酬を前記第1割合よりも高い第2割合として前記第1時点よりも後の第2時点における前記強化学習を行う、プログラムが提供される。
【発明の効果】
【0012】
一側面によれば、機械学習の効率を向上させることができる。
【図面の簡単な説明】
【0013】
【
図1】実施形態に係る情報処理システムの構成の一例を示す図である。
【
図2】実施形態に係る情報処理装置のハードウェア構成例を示す図である。
【
図3】実施形態に係る情報処理装置の構成の一例を示す図である。
【
図4】実施形態に係る情報処理装置の学習処理の一例を示すフローチャートである。
【
図5】実施形態に係る情報処理装置の推論処理の一例を示すフローチャートである。
【発明を実施するための形態】
【0014】
本開示の原理は、いくつかの例示的な実施形態を参照して説明される。これらの実施形態は、例示のみを目的として記載されており、本開示の範囲に関する制限を示唆することなく、当業者が本開示を理解および実施するのを助けることを理解されたい。本明細書で説明される開示は、以下で説明されるもの以外の様々な方法で実装される。
以下の説明および特許請求の範囲において、他に定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。
以下、図面を参照して、本開示の実施形態を説明する。
【0015】
<システム構成>
図1を参照し、実施形態に係る情報処理システム1の構成について説明する。
図1は、実施形態に係る情報処理システム1の構成の一例を示す図である。
図1の例では、情報処理システム1は、情報処理装置10、ロボット20、及びセンサ30を有する。なお、情報処理装置10、ロボット20、及びセンサ30の数は、
図1の例に限定されない。なお、情報処理装置10、及びセンサ30は、ロボット20の筐体の内部に収容されてもよい。情報処理装置10、ロボット20、及びセンサ30は、無線または有線により通信できるように接続されている。
【0016】
情報処理装置10は、機械学習を用いてロボット20を制御する装置である。情報処理装置10は、例えば、人間等が道具を用いてタスク(作業)を実行する際の動作をセンサ30によりエキスパートの行動軌跡を示す情報として取得し、取得した情報に基づいて学習を行う。そして、情報処理装置10は、ロボット20に当該道具を人間等と同様に用いらせて当該タスクを実行させる。
【0017】
ロボット20は、アーム等により各種の道具を用いたタスクを行うロボットである。ロボット20は、道具を用いたタスクを実行できる装置であればよく、外観の形状は限定されない。ロボット20は、例えば、家庭用、探索用、工場用等の各種の目的で用いることができる。センサ30は、ロボット20の周辺を測定するセンサである。センサ30は、例えば、カメラ、またはLiDARでもよい。
【0018】
<ハードウェア構成>
図2は、実施形態に係る情報処理装置10のハードウェア構成例を示す図である。
図2の例では、情報処理装置10(コンピュータ100)は、プロセッサ101、メモリ102、通信インターフェイス103を含む。これら各部は、バス等により接続されてもよい。メモリ102は、プログラム104の少なくとも一部を格納する。通信インターフェイス103は、他のネットワーク要素との通信に必要なインターフェイスを含む。
【0019】
プログラム104が、プロセッサ101及びメモリ102等の協働により実行されると、コンピュータ100により本開示の実施形態の少なくとも一部の処理が行われる。メモリ102は、ローカル技術ネットワークに適した任意のタイプのものであってもよい。メモリ102は、非限定的な例として、非一時的なコンピュータ可読記憶媒体でもよい。また、メモリ102は、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなどの任意の適切なデータストレージ技術を使用して実装されてもよい。コンピュータ100には1つのメモリ102のみが示されているが、コンピュータ100にはいくつかの物理的に異なるメモリモジュールが存在してもよい。プロセッサ101は、任意のタイプのものであってよい。プロセッサ101は、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、および非限定的な例としてマルチコアプロセッサアーキテクチャに基づくプロセッサの1つ以上を含んでよい。コンピュータ100は、メインプロセッサを同期させるクロックに時間的に従属する特定用途向け集積回路チップなどの複数のプロセッサを有してもよい。
【0020】
本開示の実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジックまたはそれらの任意の組み合わせで実装され得る。いくつかの態様はハードウェアで実装されてもよく、一方、他の態様はコントローラ、マイクロプロセッサまたは他のコンピューティングデバイスによって実行され得るファームウェアまたはソフトウェアで実装されてもよい。
【0021】
本開示はまた、非一時的なコンピュータ可読記憶媒体に有形に記憶された少なくとも1つのコンピュータプログラム製品を提供する。コンピュータプログラム製品は、プログラムモジュールに含まれる命令などのコンピュータ実行可能命令を含み、対象の実プロセッサまたは仮想プロセッサ上のデバイスで実行され、本開示のプロセスまたは方法を実行する。プログラムモジュールには、特定のタスクを実行したり、特定の抽象データ型を実装したりするルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などが含まれる。プログラムモジュールの機能は、様々な実施形態で望まれるようにプログラムモジュール間で結合または分割されてもよい。プログラムモジュールのマシン実行可能命令は、ローカルまたは分散デバイス内で実行できる。分散デバイスでは、プログラムモジュールはローカルとリモートの両方のストレージメディアに配置できる。
【0022】
本開示の方法を実行するためのプログラムコードは、1つ以上のプログラミング言語の任意の組み合わせで書かれてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、またはその他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供される。プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/または実装するブロック図内の機能/動作が実行される。プログラムコードは、完全にマシン上で実行され、一部はマシン上で、スタンドアロンソフトウェアパッケージとして、一部はマシン上で、一部はリモートマシン上で、または完全にリモートマシンまたはサーバ上で実行される。
【0023】
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体を含む。非一時的なコンピュータ可読媒体の例には、磁気記録媒体、光磁気記録媒体、光ディスク媒体、半導体メモリ等が含まれる。磁気記録媒体には、例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ等が含まれる。光磁気記録媒体には、例えば、光磁気ディスク等が含まれる。光ディスク媒体には、例えば、ブルーレイディスク、CD(Compact Disc)-ROM(Read Only Memory)、CD-R(Recordable)、CD-RW(ReWritable)等が含まれる。半導体メモリには、例えば、ソリッドステートドライブ、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory)等が含まれる。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
【0024】
<構成>
次に、
図3を参照し、実施形態に係る情報処理装置10の構成について説明する。
図3は、実施形態に係る情報処理装置10の構成の一例を示す図である。
図3の例では、情報処理装置10は、取得部11、生成器(generator)12、識別器(判別器、discriminator)13、及び制御部14を有する。これら各部は、情報処理装置10にインストールされた1以上のプログラムと、情報処理装置10のプロセッサ101、及びメモリ102等のハードウェアとの協働により実現されてもよい。
【0025】
取得部11は、特定のタスクに対するエキスパートの行動軌跡を示す情報と、ロボット20に関する環境を示す情報とを、情報処理装置10内部の記憶装置または外部装置から取得する。
【0026】
生成器12は、取得部11により取得された情報と、強化学習の結果とに基づいて、行動を示す情報を生成する。生成器12は、取得部11により取得されたエキスパートの行動軌跡を示す情報と、強化学習の結果に基づいて生成した行動を示す情報とのいずれかを識別器13に出力した場合の識別器13による識別結果に基づいて、報酬γgail(「第1報酬」の一例。)を決定する。また、生成器12は、ロボット20による特定のタスクの実行(完了、成功)に基づいて、報酬γtask(「第2報酬」の一例。)を決定する。
【0027】
また、生成器12は、報酬γgailに対する報酬γtaskの割合を第1割合として第1時点における強化学習を行い、報酬γgailに対する報酬γtaskを第1割合よりも高い第2割合として第1時点よりも後の第2時点における強化学習を行う。
【0028】
識別器13は、生成器12から入力された情報が生成器12により生成された情報であるか取得部11により取得されたエキスパートの行動軌跡を示す情報であるかを識別する。制御部14は、生成器12により生成された行動を示す情報に基づいてロボット20を制御する。
【0029】
<処理>
<<学習フェーズ>>
次に、
図4を参照し、実施形態に係る情報処理装置10の学習処理の一例について説明する。
図4は、実施形態に係る情報処理装置10の学習処理の一例を示すフローチャートである。
【0030】
ステップS101において、情報処理装置10の取得部11は、特定のタスクに対するエキスパートの行動軌跡を示す情報を取得する。特定のタスクは、例えば、ハンマーで釘を打つ、またはコップで水をすくう等でもよい。ここで、取得部11は、エキスパートの行動軌跡を示す情報として、例えば、人間により道具(例えば、ハンマー、コップ等)が使用された際の人間の腕及び道具の各時点における位置及び姿勢等を示す情報を取得してもよい。エキスパートの行動軌跡を示す情報は、例えば、カメラであるセンサ30で撮影された画像を畳み込みニューラルネットワーク(CNN、Convolutional Neural Network)で分析することにより生成されてもよい。また、エキスパートの行動軌跡を示す情報は、例えば、人間の腕及び道具の少なくとも一方に装着されたセンサ30で測定されたデータに基づいて生成されてもよい。
【0031】
続いて、情報処理装置10の取得部11は、環境を示す情報(環境情報、ロボット20の行動軌跡を示す情報)を取得する(ステップS102)。環境情報は、例えば、カメラであるセンサ30で撮影された画像をCNNで分析することにより生成されてもよい。また、環境情報は、例えば、ロボット20のアーム及び道具の少なくとも一方に設けられた(装着された)センサ30で測定されたデータに基づいて生成されてもよい。環境情報には、例えば、道具の位置及び姿勢を示す情報が含まれてもよい。また、環境情報には、例えば、ロボット20のアームの関節の位置及び角速度を示す情報が含まれてもよい。
【0032】
続いて、情報処理装置10の生成器12は、ハイブリッド報酬γsを決定(更新)する(ステップS103)。ここで、生成器12は、例えば、以下の式(2)における重み係数αの値を決定して、ハイブリッド報酬γsを算出してもよい。
γs(st,at)=αγgail(st,at)+(1-α)γtask(st,at)・・・(2)
【0033】
ここで、αは0から1までの変数でもよい。stは環境情報であり、atは行動を示す情報(行動情報)である。なお、αが0の場合は通常の強化学習のみとなり、αが1の場合は通常のGAIL(模倣学習)のみとなる。
【0034】
報酬γgailは通常のGAILによる模倣学習の報酬である。報酬γtask(「第2報酬」の一例。)は、ロボット20による特定のタスクの実行(完了、成功)に基づく強化学習の報酬である。
【0035】
GAILによる模倣学習の報酬γgailは、通常のGAILでの報酬である。すなわち、報酬γgailは、生成器12により生成した行動情報が、取得部11により取得されたエキスパートの行動軌跡を示す情報であると識別(判定、判断、判別)されたこと(識別器13を騙せたこと、生成した行動情報のエキスパートの行動軌跡らしさ)に基づく報酬である。
【0036】
生成器12は、例えば、生成器12への入力データであるst及び生成器12からの出力データであるatの組み合わせのデータを識別器13に入力してもよい。そして、識別器13は、後述するステップS107において、当該データに対するエキスパートの行動軌跡らしさの値(確度、信頼度)を算出(推定、推論)してもよい。そして、生成器12は、識別器13により当該データに対して算出されたエキスパートの行動軌跡らしさpの値が高いほど、報酬γgailの値を高く決定してもよい。
【0037】
また、強化学習の報酬γtaskは、ロボット20により特定のタスクが実行されたことに基づく報酬である。制御部14は、例えば、生成器12により生成された行動情報atに基づいてロボットを制御する。そして、生成器12は、例えば、行動情報atに基づいて制御されたロボットのアームにより使用される道具の位置及び姿勢等が、エキスパートの行動軌跡におけるタスク開始時点の位置及び姿勢等からタスク完了時点の位置及び姿勢等に変化(遷移)した場合、強化学習の報酬γtaskの値を0以外の特定の値としてもよい。
【0038】
生成器12は、学習が進行するにしたがって、αの値を小さな値に決定してもよい。これにより、例えば、学習の初期においてはGAILによる模倣学習の影響を比較的大きくし、学習の後期においてはタスクが実行できたことによる強化学習の影響を比較的大きくすることができる。そのため、当初は見様見真似で学習し、ある程度学習できたら自身で試行錯誤して微調整するような、人間と同様の学習過程により、機会学習の効率を向上させることができると考えられる。この場合、生成器12は、第1時点において報酬γgailに対する報酬γtaskを第1割合とし、第1時点よりも後の第2時点において報酬γgailに対する報酬γtaskを第1割合よりも高い第2割合としてもよい。
【0039】
この場合、生成器12は、例えば、ステップS104の強化学習が行われた回数、及び強化学習の結果の性能の少なくとも一方に応じて、第1割合及び第2割合を決定してもよい。ここで、生成器12は、例えば、ロボット20による特定のタスクの実行にかかる所要時間、特定のタスクの実行にかかる消費電力、及び特定のタスクの実行にかかる前記行動を示す情報を生成した回数の少なくとも一つに基づいて、強化学習の結果の性能の値を決定(特定、算出)してもよい。この場合、生成器12は、例えば、ロボット20により特定のタスクが開始されてから完了するまでの所要時間が短いほど、当該性能の値を高く決定してもよい。また、生成器12は、例えば、ロボット20により特定のタスクが実行されるために消費された電力が少ないほど、当該性能の値を高く決定してもよい。また、生成器12は、例えば、ロボット20により特定のタスクが実行されるまでに生成した行動情報の数が少ないほど、当該性能の値を高く決定してもよい。なお、ロボット20での消費電力の値は、ロボット20のセンサ30により測定されてもよい。なお、上記式(2)の例では、GAILによる模倣学習の報酬γgailと、強化学習の報酬γtaskとに基づいてハイブリッド報酬γsを決定する例について説明したが、本開示の技術はこれに限定されない。生成器12は、例えば、GAILによる模倣学習の報酬γgailと、強化学習の報酬γtaskとに加え、他の学習手法の報酬にも基づいてハイブリッド報酬γsを決定してもよい。
【0040】
続いて、情報処理装置10の生成器12は、上記の式(2)のハイブリッド報酬γsを用いて強化学習を行う(ステップS104)。続いて、情報処理装置10の生成器12は、強化学習の結果に基づいて、入力データである環境情報stに対する行動情報atを生成する(ステップS105)ここで、生成器12は、行動情報atとして、例えば、ロボットを制御するためのデータを生成して出力してもよい。この場合、行動情報には、例えば、当該ロボットのアームの各関節の角速度を示す情報が含まれてもよい。
【0041】
続いて、情報処理装置10の識別器13は、環境情報stと行動情報atとの組み合わせのデータに対するエキスパートの行動軌跡らしさpの値(確度、信頼度)を算出(推定、推論)して生成器12へ出力する(ステップS106)。
【0042】
続いて、情報処理装置10の識別器13は、例えば、ニューラルネットワーク(NN、Neural Network)を用いて、行動情報atが生成器12により生成されたものである場合はpの値を0と算出し、行動情報atがエキスパートの行動軌跡である場合はpの値を1と算出するように教師あり学習で学習する(ステップS107)。これにより、GAILと同様に、GANにより識別器13と生成器12とを競わせるように学習させることができる。ここで、識別器13は、例えば、環境情報stと、行動情報atと、行動情報atが生成器12により生成されたものであるか否かを示す正解ラベルとの組み合わせのデータに基づいて教師あり学習で学習してもよい。
【0043】
続いて、情報処理装置10の制御部14は、生成器12により生成された行動情報に基づいて、ロボット20を動作させる(ステップS108)。ここで、制御部14は、行動情報に応じた制御コマンドをロボット20に送信してもよい。続いて、情報処理装置10の生成器12は、学習を終了するか否かを判定する(ステップS109)。ここで、生成器12は、例えば、ロボット20により特定のタスクが実行された回数、ステップS104の強化学習が行われた回数、及び強化学習の結果の性能の少なくとも一つが閾値以上である場合に、学習を終了すると判定してもよい。
【0044】
学習を終了しないと判定した場合(ステップS109でNO)、ステップS102の処理に進む。一方、学習を終了すると判定した場合(ステップS109でYES)、学習処理を終了する。
【0045】
<<推論フェーズ>>
次に、
図5を参照し、実施形態に係る情報処理装置10の推論処理の一例について説明する。
図5は、実施形態に係る情報処理装置10の推論処理の一例を示すフローチャートである。
【0046】
ステップS201において、情報処理装置10の制御部14は、ロボット20に実行させるタスクの内容を判定(認識)する。ここで、制御部14は、例えば、ユーザからの音声またはボタン操作等の入力に基づいて、タスクの内容を判定してもよい。制御部14は、例えば、ハンマーで釘を打つ、またはコップで水をすくう等のタスクの内容を判定してもよい。
【0047】
続いて、情報処理装置10の取得部11は、環境情報を取得する(ステップS202)。ステップS202の処理は、例えば、
図4のステップS102の処理と同様でもよい。
【0048】
続いて、情報処理装置10の生成器12は、強化学習の結果に基づいて、入力データである環境情報s
tに対する行動情報a
tを生成する(ステップS203)。ステップS203の処理は、例えば、
図4のステップS105の処理と同様でもよい。
【0049】
続いて、情報処理装置10の制御部14は、生成器12により生成された行動情報に基づいて、ロボット20を動作させる(ステップS204)。ステップS204の処理は、例えば、
図4のステップS108の処理と同様でもよい。
【0050】
<変形例>
情報処理装置10は、一つの筐体に含まれる装置でもよいが、本開示の情報処理装置10はこれに限定されない。情報処理装置10の各部は、例えば1以上のコンピュータにより構成されるクラウドコンピューティングにより実現されていてもよい。これらのような情報処理装置についても、本開示の「情報処理装置」の一例に含まれる。
【0051】
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0052】
1 情報処理システム
10 情報処理装置
11 取得部
12 生成器
13 識別器
14 制御部
20 ロボット
30 センサ