IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニックIPマネジメント株式会社の特許一覧

<>
  • 特開-情報処理システム及び情報処理方法 図1
  • 特開-情報処理システム及び情報処理方法 図2
  • 特開-情報処理システム及び情報処理方法 図3
  • 特開-情報処理システム及び情報処理方法 図4
  • 特開-情報処理システム及び情報処理方法 図5
  • 特開-情報処理システム及び情報処理方法 図6
  • 特開-情報処理システム及び情報処理方法 図7
  • 特開-情報処理システム及び情報処理方法 図8
  • 特開-情報処理システム及び情報処理方法 図9
  • 特開-情報処理システム及び情報処理方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023143222
(43)【公開日】2023-10-06
(54)【発明の名称】情報処理システム及び情報処理方法
(51)【国際特許分類】
   G06V 10/776 20220101AFI20230928BHJP
   G06N 20/00 20190101ALI20230928BHJP
   G06T 7/00 20170101ALI20230928BHJP
【FI】
G06V10/776
G06N20/00
G06T7/00 350B
G06T7/00 U
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022050484
(22)【出願日】2022-03-25
(71)【出願人】
【識別番号】314012076
【氏名又は名称】パナソニックIPマネジメント株式会社
(74)【代理人】
【識別番号】110002000
【氏名又は名称】弁理士法人栄光事務所
(72)【発明者】
【氏名】黄瀬 輝
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096CA22
5L096DA04
5L096KA04
(57)【要約】
【課題】世界モデルの学習状態を直感的に理解し易くできる情報処理システムを提供する。
【解決手段】情報処理システムは、学習済みの世界モデルと、エージェントが動作する環境に関する環境データと、エージェントの動作を規定する学習済みの方策モデルと、を指定する指定部と、環境データと方策モデルとに基づいて、環境で方策を順次実行する方策実行部と、方策の実行毎に環境を仮想カメラで撮像して、複数の観測画像を生成する観測画像処理部と、世界モデルに基づいて、複数の観測画像のそれぞれを圧縮して複数の潜在状態のそれぞれを導出する潜在状態処理部と、複数の潜在状態を表示する表示部と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
学習済みの世界モデルと、エージェントが動作する環境に関する環境データと、前記エージェントの動作を規定する学習済みの方策モデルと、を指定する指定部と、
前記環境データと前記方策モデルとに基づいて、前記環境で方策を順次実行する方策実行部と、
前記方策の実行毎に前記環境を仮想カメラで撮像して、複数の観測画像を生成する観測画像処理部と、
前記世界モデルに基づいて、前記複数の観測画像のそれぞれを圧縮して複数の潜在状態のそれぞれを導出する潜在状態処理部と、
前記複数の潜在状態を表示する表示部と、
を備える情報処理システム。
【請求項2】
前記潜在状態処理部は、
前記世界モデルに基づいて、前記複数の観測画像のそれぞれを圧縮して複数の多次元の潜在状態のそれぞれを導出し、
前記複数の多次元の潜在状態のそれぞれを次元圧縮して、複数の2次元又は3次元の潜在状態のそれぞれを導出し、
前記表示部は、前記複数の潜在状態を前記次元圧縮された潜在空間における2次元又は3次元の座標に対応付けて表示する、
請求項1に記載の情報処理システム。
【請求項3】
復元画像処理部、を更に備え、
前記復元画像処理部は、
前記複数の潜在状態のうち一の潜在状態を指定し、
前記世界モデルに基づいて、指定された前記一の潜在状態を復元して復元画像を生成し、
前記表示部は、前記復元画像を表示する、
請求項1又は2に記載の情報処理システム。
【請求項4】
前記指定部は、前記環境に対する前記仮想カメラの位置及び向きを含むカメラ情報を指定し、
前記観測画像処理部は、前記カメラ情報に基づいて、前記環境を前記仮想カメラで撮像して、前記複数の観測画像を生成する、
請求項1から3のいずれか1項に記載の情報処理システム。
【請求項5】
第1の操作部、を更に備え、
前記観測画像処理部は、
前記第1の操作部への操作に基づいて、前記指定部により指定された前記カメラ情報を変更し、
変更された前記カメラ情報に基づいて、前記環境を前記仮想カメラで撮像して、変更された前記観測画像を生成し、
前記表示部は、変更された前記観測画像を表示する、
請求項4に記載の情報処理システム。
【請求項6】
第2の操作部、を更に備え、
前記表示部は、前記第2の操作部への操作に基づいて、前記潜在状態を描画する潜在空間を回転して表示する、
請求項1から5のいずれか1項に記載の情報処理システム。
【請求項7】
前記情報処理システムは、操作表示装置と、シミュレータ装置と、を備え、
操作表示装置と前記シミュレータ装置とは通信可能に接続され、
前記操作表示装置は、前記指定部と、前記観測画像処理部と、前記潜在状態処理部と、前記表示部と、を備え、
前記シミュレータ装置は、前記方策実行部を備える、
請求項1から6のいずれか1項に記載の情報処理システム。
【請求項8】
前記情報処理システムは、単一の情報処理装置により構成される、
請求項1から6のいずれか1項に記載の情報処理システム。
【請求項9】
学習済みの世界モデルと、エージェントが動作する環境に関する環境データと、前記エージェントの動作を規定する学習済みの方策モデルと、を指定するステップと、
前記環境データと前記方策モデルとに基づいて、前記環境で方策を順次実行するステップと、
前記方策の実行毎に前記環境を仮想カメラで撮像して、複数の観測画像を生成するステップと、
前記世界モデルに基づいて、前記複数の観測画像のそれぞれを圧縮して複数の潜在状態のそれぞれを導出するステップと、
前記複数の潜在状態を表示部に表示するステップと、
を有する情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理システム及び情報処理方法に関する。
【背景技術】
【0002】
近年、ビジュアルベースの強化学習分野において、エージェントが行動の結果を予測できるように環境のモデルを構築する世界モデル(World Model)の研究が発展している。世界モデルは、言い換えると、環境の状態遷移の予測モデルを学習する強化学習手法である。世界モデルに関して、例えば、エージェントが画像入力と行動を基に世界モデルを学習することが知られている(非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Google AI Blog, The latest from Google Research,「Introducing PlaNet: A Deep Planning Network for Reinforcement Learning」,<URL:https://webbigdata.jp/ai/post-2867>
【発明の概要】
【発明が解決しようとする課題】
【0004】
世界モデルの研究開発において、エンジニアは、エージェントの世界モデルがどのように学習されているかを確認することが求められる。しかし、世界モデルはベクトルデータで表現されるため、エンジニアが直感的に理解することが困難である。また、時間の変化、行動による観測の変化、又は観測する位置の変化に応じて復元画像や世界モデルの状態をインタラクティブに確認することが困難である。また、従来、世界モデルの学習結果がエンジニアの想定と合致しているかどうか、つまり学習結果の良否を確認する確認手段が存在しない。
【0005】
本開示は、世界モデルの学習状態を直感的に理解し易くできる情報処理システム及び情報処理方法を提供する。
【課題を解決するための手段】
【0006】
本開示の一態様は、学習済みの世界モデルと、エージェントが動作する環境に関する環境データと、前記エージェントの動作を規定する学習済みの方策モデルと、を指定する指定部と、前記環境データと前記方策モデルとに基づいて、前記環境で方策を順次実行する方策実行部と、前記方策の実行毎に前記環境を仮想カメラで撮像して、複数の観測画像を生成する観測画像処理部と、前記世界モデルに基づいて、前記複数の観測画像のそれぞれを圧縮して複数の潜在状態のそれぞれを導出する潜在状態処理部と、前記複数の潜在状態を表示する表示部と、を備える情報処理システムである。
【0007】
本開示の一態様は、学習済みの世界モデルと、エージェントが動作する環境に関する環境データと、前記エージェントの動作を規定する学習済みの方策モデルと、を指定するステップと、前記環境データと前記方策モデルとに基づいて、前記環境で方策を順次実行するステップと、前記方策の実行毎に前記環境を仮想カメラで撮像して、複数の観測画像を生成するステップと、前記世界モデルに基づいて、前記複数の観測画像のそれぞれを圧縮して複数の潜在状態のそれぞれを導出するステップと、前記複数の潜在状態を表示部に表示するステップと、を有する情報処理方法である。
【発明の効果】
【0008】
本開示によれば、世界モデルの学習状態を直感的に理解し易くできる。
【図面の簡単な説明】
【0009】
図1】本開示の実施形態の情報処理システムの構成例を示すブロック図
図2】GUI部の構成例を示すブロック図
図3】シミュレータ部の構成例を示すブロック図
図4】一覧画面の一例を示す図
図5】モデル設定画面の一例を示す図
図6】パス名が表示されたモデル設定画面の一例を示す図
図7】カメラ設定画面の一例を示す図
図8】仮想カメラが複数設けられる場合のカメラ設定画面の一例を示す図
図9】潜在状態マッピングの一例を示す図
図10】情報処理システムの動作例を示すシーケンス図
【発明を実施するための形態】
【0010】
以下、適宜図面を参照しながら、実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になることを避け、当業者の理解を容易にするためである。尚、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるものであり、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
【0011】
例えば、実施形態でいう「部」又は「装置」とは単にハードウェアによって機械的に実現される物理的構成に限らず、その構成が有する機能をプログラムなどのソフトウェアにより実現されるものも含む。また、1つの構成が有する機能が2つ以上の物理的構成により実現されても、又は2つ以上の構成の機能が例えば1つの物理的構成によって実現されていてもかまわない。
【0012】
(用語の説明)
本実施形態では、世界モデル等の強化学習について扱う。まず、強化学習や世界モデルに関する用語について説明する。
【0013】
「強化学習」とは、エージェントが、動的な環境との間で繰り返し試行錯誤のやり取りを行うことで、タスクを学習する機械学習手法の1つである。エージェントは、現在の状態の良さを評価する報酬を獲得する。タスクは、例えば、エージェントとしてのロボット装置が物を掴む、等である。タスクが達成されると、報酬が得られる。強化学習は、一連の行動を通じて、最も報酬が多く得られる方策(ポリシ)を学習する。
【0014】
「エージェント」とは、環境との間でやり取りを行い、方策を学習する主体である。具体例としては、エージェントは、AI(Artificial Intelligence)、ロボット装置、又はコントローラである。
【0015】
「状態」とは、環境の状況を示すものである。具体例としては、状態は、ロボット装置の位置、ロボット装置のアーム(ロボットアーム)の角度、等である。したがって、状態は、例えば制御対象の情報となる。
【0016】
「行動」とは、エージェントが環境に影響を与え、状態を変化させる作用である。具体例としては、行動は、ロボット装置の移動、ロボットアームに与えるトルク、等である。
【0017】
「報酬」とは、エージェントの状態や行動に対して良さを評価する指標である。強化学習では、報酬の値を最大化するように学習することで、タスクを学習する。具体例としては、報酬は、ゴールとロボット装置との距離であり、つまりロボット装置の目標位置と現在位置との距離である。なお、報酬の値の大小は良さの評価基準に応じて設定されるため、必ずしも報酬の算出に用いるパラメータの大小と一致しない。例えば、ロボット装置がゴールに近づくことを「良い」結果として学習させる場合には、距離が近いほど報酬の値が大きくなるような指標(例えば、距離の逆数)を用いて報酬を算出する。また、ロボット装置がゴールから遠ざかることを「良い」結果として学習させる場合には、距離が遠いほど報酬の値が大きくなる指標(例えば、距離の値そのもの)を用いて報酬を算出する。
【0018】
「方策」(Policy)とは、状態(例えば環境の状況やエージェントの状態)においてどのような行動を取るべきかを返す関数である。具体例としては、方策は、ロボット装置の動作の戦略である。
【0019】
「潜在状態」(潜在変数)は、例えば世界モデルで用いられる。潜在状態は、環境の観測情報(例えば観測画像)を圧縮し、潜在的に環境の状況を表現した情報(例えばベクトル情報)である。
【0020】
「潜在空間」は、例えば世界モデルで用いられる。潜在空間は、潜在状態が表現されるベクトル空間である。したがって、潜在空間上における潜在状態がどう位置づけられるかによって、エージェントがどのように観測情報を認識しているか、つまり世界モデルの学習状態が理解可能である。
【0021】
「復元画像」は、例えば世界モデルで用いられる。復元画像は、圧縮された潜在状態を基に、再び観測情報(例えば観測画像)を復元した画像である。したがって、復元画像によって、エージェントが観測画像を正しく認識しているか、つまり世界モデルの学習状態が理解可能である。
【0022】
(情報処理システムの構成)
次に、情報処理システムの構成について説明する。
【0023】
図1は、本開示の実施形態の情報処理システム5の構成例を示すブロック図である。情報処理システム5は、GUI(Graphical User Interface)部100とシミュレータ部200とを含む構成である。
【0024】
GUI部100及びシミュレータ部200は、通信ネットワークを介して又は直接通信により通信可能に接続される。GUI部100は、ユーザにより操作され、ユーザに表示情報を提供する。シミュレータ部200は、強化学習の実験に利用する物理演算シミュレータである。シミュレータ部200は、API(Application Programming Interface)等を用いて環境の情報(例えば画像、ロボットの位置や関節、時間、又は報酬)等の情報を取得したり、行動を入力して環境に作用させたりする。
【0025】
GUI部100は、例えばPC(Personal Computer)又はその他の情報処理装置である。シミュレータ部200は、例えばサーバ装置又はその他の情報処理装置である。よって、GUI部100とシミュレータ部200とは、クライアントサーバの関係であってよい。
【0026】
図2は、GUI部100の構成例を示すブロック図である。GUI部100は、プロセッサ110と、メモリ120と、通信デバイス130と、操作デバイス140と、表示デバイス150と、を含む構成である。
【0027】
プロセッサ110は、MPU(Micro processing Unit)、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、又はGPU(Graphical Processing Unit)等を含んでよい。プロセッサ110は、各種集積回路(例えばLSI(Large Scale Integration)、FPGA(Field Programmable Gate Array))により構成されてもよい。プロセッサ110は、メモリ120に保持されたプログラムを実行することで、各種機能を実現する。プロセッサ110は、GUI部100の各部を統括的に制御し、各種処理を行う。
【0028】
メモリ120は、一次記憶装置(例えばRAM(Random Access Memory)又はROM(Read Only Memory))を含む。メモリ120は、二次記憶装置(例えばHDD(Hard Disk Drive)又はSSD(Solid State Drive))又は三次記憶装置(例えば光ディスク又はSDカード)等を含んでよい。また、メモリ120は、外部記憶媒体であり、GUI部100に対して着脱可能であってよい。メモリ120は、各種データ、情報又はプログラム等を記憶する。
【0029】
メモリ120は、例えば、環境ファイル、学習済みの世界モデル、及び学習済みの方策モデルを保持してよい。環境ファイルは、エージェントが行動する環境に関する情報を含む環境データの1つである。方策モデルは、方策を学習した学習モデルであり、エージェントが行動するためのモデルである。環境ファイル、学習済みの世界モデル、又は学習済みの方策モデルは、それぞれ1つ以上用意され、メモリ120に保持されてよい。
【0030】
通信デバイス130は、各種データ又は情報等を通信する。通信デバイス130による有線又は無線による通信方式に従って通信する。通信方式は、WAN(Wide Area Network)、LAN(Local Area Network)、又は携帯電話用のセルラー通信(例えばLTE、5G)、又は近距離通信(例えば、赤外線通信又はBluetooth(登録商標)通信)又は電力線通信等であってもよい。
【0031】
操作デバイス140は、マウス、キーボード、タッチパッド、タッチパネル、マイクロホン、又はその他の入力デバイスを含んでよい。操作デバイス140は、各種データや情報の入力を受け付ける。
【0032】
表示デバイス150は、液晶表示デバイス、有機ELデバイス、又はその他の表示デバイスを含んでよい。表示デバイス150は、各種データや情報を表示する。表示デバイス150は、例えば、後述する画面や画像を表示する。
【0033】
プロセッサ110は、少なくとも世界モデルの学習状態の提示に必要な処理を行う。世界モデルとは、前述したように、環境の状態遷移の予測モデルを学習する強化学習手法である。環境の状態遷移とは、どのような状態でどのような行動を行った場合にどのような状態に遷移するかを示すものである。世界モデルを加味することで、エージェントは、一連の行動の結果を潜在的に予測できるようになり、タスク学習の試行錯誤を低減できる。
【0034】
プロセッサ110は、機能構成として、少なくとも、情報指定部111と、潜在状態処理部112と、復元画像処理部113と、を有する。
【0035】
情報指定部111は、世界モデルの学習状態の判定に際し、各種の情報を指定する。例えば、情報指定部111は、仮想環境を規定する情報(例えば、環境ファイル又は学習済みの世界モデル)、又はエージェントの動作を規定する情報(例えば、学習済みの方策モデル)を指定する。また、情報指定部111は、仮想環境の観測基準を規定する情報(例えば、仮想環境を撮像する仮想カメラに関する情報(カメラ情報))を指定する。カメラ情報は、例えば、仮想環境に対する仮想カメラの位置(カメラ座標)や向きの情報を含む。情報指定部111は、例えば、メモリ120に保持された情報、又は操作デバイス140に入力された操作の情報に基づいて、手動で各種モデルやカメラ情報を指定して、設定してよい。
【0036】
潜在状態処理部112は、学習済みの世界モデルと、シミュレータ部200から取得された観測画像と、に基づいて、潜在空間上で潜在状態をマッピングする。潜在状態処理部112は、観測画像を圧縮することで潜在状態を算出してよい。潜在状態は、ベクトルデータでよい。潜在状態処理部112は、世界モデルに観測画像を入力させ、世界モデルの出力として潜在状態を導出させる。この潜在状態は、例えば多次元の情報である。潜在状態処理部112は、得られた多次元の潜在状態を次元圧縮して3次元の潜在状態を導出(例えば算出)してよい。なお、潜在状態処理部112は、3次元の潜在状態ではなく、2次元の潜在状態に次元圧縮してもよい。潜在状態処理部112は、潜在空間を示す潜在状態マッピング画面上に3次元の潜在状態をマッピングし、表示デバイス150に表示させる。なお、潜在状態処理部112は、3次元ではなく、2次元平面上に2次元の潜在状態にマッピングしてもよい。
【0037】
また、ユーザが特殊な訓練を経て4次元以上の空間を取り扱うことが可能であれば、潜在状態処理部112は、4次元以上の潜在状態に次元圧縮を行い、潜在状態マッピング画面に4次元の情報を表示させてもよい。ただし、一般的なユーザが直感的に取り扱うことのできる次元数は1次元~3次元であり、1次元では全ての潜在状態が1点にマッピングされてしまい複数の潜在状態を認識すること自体ができない。そのため、潜在状態処理部112は、2次元又は3次元の潜在状態を取り扱うことが望ましい。また、多様なユーザの要望に対応するため、潜在状態処理部112は、次元数を切り替え可能としてもよい。
【0038】
また、次元圧縮に用いる手法や次元圧縮で残すパラメータによって潜在状態マッピングで表現される潜在状態は変化する。そのため、潜在状態処理部112は、次元圧縮の手法又は残すべきパラメータ等を変更可能としてもよい。このようにすることで、GUI部100は、重点的に評価したいパラメータ等が分かっている習熟したユーザにとって、利用しやすいインタフェースを提供することができる。
【0039】
復元画像処理部113は、学習済みの世界モデルと、潜在状態処理部112により導出された潜在状態と、に基づいて、復元画像を生成する。例えば、復元画像処理部113は、世界モデルに潜在状態を入力させ、世界モデルの出力として復元画像を導出させる。復元画像処理部113は、多次元の潜在状態、又は、次元圧縮された2次元又は3次元の潜在状態、に基づいて、復元画像を生成してよい。例えば、復元画像処理部113は、潜在状態を復元することで、復元画像を生成してよい。復元画像処理部113は、生成された復元画像を表示デバイス150に表示させる。
【0040】
潜在状態は、観測画像が圧縮されて得られたものであるので、復元画像は観測画像に対応する。ただし、世界モデルの学習状態によって、観測画像と復元画像とが一致する場合もあれば、観測画像と復元画像とが一致しない場合もある。復元画像処理部113は、観測画像と復元画像との相関度(例えば一致度)を判定してよい。復元画像処理部113は、相関度を、例えば、観測画像と復元画像との各画素値の差を集計することで、判定することができる。また、復元画像処理部113は、画像検索等で使用されている既知の技術を用いて、より精緻に相関度を判定してもよい。復元画像処理部113は、この相関度が所定基準を満たす場合には世界モデルの学習状態が良好であり、この相関度が所定基準を満たさない場合には世界モデルの学習状態が劣悪であると判定してよい。なお、復元画像処理部113は、世界モデルの学習状態の判定まで行わずに、表示デバイス150に潜在状態マッピングの情報を表示させてもよい。そして、ユーザが、潜在状態マッピングの状態から世界モデルの学習状態の良し悪しを判断してもよい。
【0041】
図3は、GUI部100の構成例を示すブロック図である。シミュレータ部200は、例えば、プロセッサ210、メモリ220、及び通信デバイス230を備える。
【0042】
プロセッサ210は、MPU、CPU、DSP、又はGPU等を含んでよい。プロセッサは、各種集積回路(例えばLSI、FPGA)により構成されてもよい。プロセッサ210は、メモリ220に保持されたプログラムを実行することで、各種機能を実現する。プロセッサ210は、シミュレータ部200の各部を統括的に制御し、各種処理を行う。なお、シミュレータ部200のプロセッサ210は、GUI部100のプロセッサ110よりも高性能であってよい。
【0043】
メモリ220は、一次記憶装置(例えばRAM又はROM)を含む。メモリ220は、二次記憶装置(例えばHDD又はSSD)又は三次記憶装置(例えば光ディスク又はSDカード)等を含んでよい。また、メモリ220は、外部記憶媒体であってもよい。メモリ220は、各種データ、情報又はプログラム等を記憶する。
【0044】
通信デバイス230は、各種データ又は情報等を通信する。通信デバイス230による有線又は無線による通信方式に従って通信する。通信方式は、WAN、LAN、又は携帯電話用のセルラー通信(例えばLTE、5G)、又は近距離通信(例えば、赤外線通信又はBluetooth(登録商標)通信)又は電力線通信等であってもよい。
【0045】
プロセッサ210は、機能構成として、少なくとも、情報設定部211と、方策実行部212と、観測画像処理部213と、を有する。
【0046】
情報設定部211は、各種情報を設定する。例えば、GUI部100からの環境ファイル、カメラ情報、及び方策モデルを取得して設定する。設定される環境ファイル、カメラ情報、方策モデルは、GUI部100で指定されたものと同じである。この設定情報は、メモリ220に保持されてよい。
【0047】
方策実行部212は、設定された学習済みの方策モデルに従って、方策を実行する。具体的には、方策実行部212は、方策モデルに環境の状態を示す情報(例えば設定された環境ファイル、カメラ情報)を入力し、方策モデルの出力として、エージェントがとるべき行動(例えばロボット装置がボールを掴むための制御情報)を導出する。導出されたエージェントの行動によって、環境の状態が変化し得る。
【0048】
観測画像処理部213は、仮想カメラを制御し、仮想カメラから観測画像を取得する。仮想カメラは、設定されたカメラ情報に従って、動的な環境を撮像する。取得された観測画像は、通信デバイス230によってGUI部100に送信される。仮想カメラは、方策の実行中に観測画像を順次取得してよく、方策の実行前の観測画像や方策の実行後の観測画像を取得してもよい。
【0049】
図4は、表示デバイス150に表示される一覧画面GLを示す図である。
【0050】
一覧画面GLは、環境ファイルにより定義される環境から復元画像が得られるまでの過程を示し、この過程における各タイミングで得られる画面や画像を含む。具体的には、一覧画面GLは、環境画面G1と、モデル設定画面G2と、カメラ設定画面G3と、観測画面G4と、潜在状態マッピング画面G5と、復元画面G6と、が含まれる。
【0051】
環境画面G1は、環境ファイルにより定義される環境(仮想環境)を表示する。環境画面G1では、環境が例えば3次元モデル化して示されている。環境画面G1が示す環境では、エージェントとしてのロボット装置10、ボール20、及び遮蔽物30等が配置されている。この環境では、例えば、ロボット装置10が、ロボットアーム15等を動かしながら、ボール20を掴もうとしている。そのため、タスクは、例えば、ロボットアーム15をボール20に近づけることである。
【0052】
モデル設定画面G2は、各種のモデル等に関する情報を設定するための設定画面である。モデル設定画面G2は、例えば、環境に関する環境ファイル、世界モデル、及び方策モデルの設定を支援する。カメラ設定画面G3は、仮想カメラに関するカメラ情報を設定するための画面である。
【0053】
観測画面G4は、仮想カメラから環境が撮像されて得られた観測画像を表示する画面である。観測画像は、方策の実行毎に順次得られるので、方策の実行毎に更新される。また、方策の実行毎にエージェントが動作するので、環境内の様子は順次変化し得る。図4の観測画面G4では、仮想カメラの撮像範囲に遮蔽物30が入り込み、仮想カメラから見るとロボット装置10の一部が遮蔽物30の背後に隠れ、見えにくくなっている状態の観測画像が表示されている。
【0054】
潜在状態マッピング画面G5は、観測画像に基づく潜在状態が2次元座標上又は3次元座標上にマッピングされる画面である。潜在状態マッピング画面G5では、複数の観測画像に対応する複数の潜在状態が点で示されてマッピングされている。潜在状態は観測画像を圧縮したものであるので、潜在状態マッピング画面G5は、観測画像が示す環境の特徴点を複数表示することで、方策の実行による複数の環境の状態の関係性を示している。
【0055】
復元画面G6は、潜在状態に基づく復元画像を表示する画面である。図4の復元画面G6では、仮想カメラの撮像範囲に遮蔽物30が入り込み、仮想カメラから見るとロボット装置10の一部が遮蔽物30の背後に隠れ、見えにくくなっている状態の復元画像が表示されている。なお、図4の例では、観測画像と復元画像とが一致しておらず、やや異なっている。
【0056】
なお、図4に示された一覧画面GLにおける各画面の配置は一例であり、これに限られない。また、図4に示された一覧画面GLに含まれる各画面の一部が非表示であってもよいし、図4に示されていない他の画面が一覧画面GLに含まれて表示されてもよい。
【0057】
図5は、モデル設定画面G21の一例を示す図である。図6は、パス名が表示されたモデル設定画面G22の一例を示す図である。モデル設定画面G21は、表示デバイス150に表示される。モデル設定画面G21,G22は、モデル設定画面G2の一例である。
【0058】
図5に示すように、情報指定部111は、操作デバイス140を介して、モデル設定画面G21を用いて、環境ファイル、世界モデル、及び方策モデルを指定する。指定される各情報(環境ファイル、世界モデル、及び方策モデル)は、それぞれ、操作デバイス140を介して入力されてもよいし、メモリ120に保持された複数種類のうちの1つが選択されてもよい。情報指定部111は、指定された各情報をシミュレータ部200に送信(例えばアップロード)し、シミュレータ部200に各情報を設定するよう指示する。
【0059】
つまり、情報指定部111は、通信デバイス130を介して環境ファイルをシミュレータ部200にアップロードすることで、入力された実行環境をシミュレータ部200に設定(反映)させる。情報指定部111は、通信デバイス130を介して世界モデルをシミュレータ部200にアップロードすることで、エージェントが環境の変化の予測や画像復元を行うためのモデル(世界モデル)をシミュレータ部200に設定(反映)させる。情報指定部111は、通信デバイス130を介して方策モデルをシミュレータ部200にアップロードすることで、エージェントが行動するためのモデル(方策モデル)をシミュレータ部200に設定(反映)させる。なお、設定情報のアップロードが完了すると、それぞれ、パス名が表示されてもよい(図6参照)。なお、情報指定部111が世界モデル及び方策モデルをシミュレータ部200にアップロードして設定させることは必須ではなく、GUI部100側で世界モデル及び方策モデルに基づく処理が完結してもよい。
【0060】
なお、情報指定部111は、操作デバイス140による操作無しで、所定の指定基準に従って、環境ファイル、世界モデル及び方策モデルを指定してもよい。
【0061】
図7は、カメラ設定画面G31の一例を示す図である。図8は、仮想カメラが複数設けられる場合のカメラ設定画面G32の一例を示す図である。カメラ設定画面G31,G32は、表示デバイス150に表示される。カメラ設定画面G31,G32は、カメラ設定画面G3の一例である。
【0062】
情報指定部111は、操作デバイス140を介して、カメラ設定画面G3を用いて、カメラ情報の詳細を設定する。カメラ情報は、環境を撮像する仮想カメラに関する情報である。カメラ情報は、例えば、環境に対する仮想カメラの位置(カメラ座標)や向きの情報を含む。この場合、情報指定部111は、操作デバイス140を介して、仮想カメラが配置される位置として、環境におけるX座標、Y座標、及びZ座標を指定してよい。また、情報指定部111は、操作デバイス140を介して、仮想カメラの向きとして、ロール、ピッチ及びヨーの値を指定してよい。また、情報指定部111は、操作デバイス140を介して操作せずに、例えば、メモリ120にカメラ情報のデフォルト情報を保持しておき、このデフォルト情報をカメラ情報として指定してもよい。
【0063】
また、情報指定部111は、環境画面G1上での操作デバイス140の操作に基づいて、カメラ情報を設定してもよい。例えば、情報指定部111は、環境画面G1上でのマウス操作によって仮想カメラをドラッグし、仮想カメラの位置や向きを調整してもよい。
【0064】
また、カメラ情報の設定時には、表示デバイス150に一覧画面GLが表示されてもよい。この場合、ユーザは、カメラ情報の設定時に、環境に設置される(エージェントが取得する)カメラ情報を、一覧画面GLに含まれる環境画面G1を見ながら設定可能である。
【0065】
また、情報指定部111は、カメラ情報を設定した際、設定されたカメラ情報を、環境画面G1及び観測画面G4にインタラクティブに反映してよい。つまり、情報指定部111は、設定された位置(カメラ座標)や向き(カメラ角度)に従って仮想カメラにより撮像された画像に基づいて、表示される環境画面G1及び観測画面G4を更新してよい。この場合、ユーザは、カメラ情報の指定を調整しながら(例えば視点移動しながら)、環境を観測するために仮想カメラをどの位置又は向き等に配置したらよいかを直感的に把握できる。なお、観測画面G4の観測画像は、シミュレータ部200と協働して動作することで、通信デバイス130を介して取得可能である。
【0066】
また、環境を撮像する仮想カメラは、1つでなく、複数設けられてよい。例えば、情報指定部111は、操作デバイス140を介して、カメラ追加ボタンB1(図7参照)の押下を受け付けることで、2つ目以降の仮想カメラのカメラ情報を設定してもよい(図8参照)。複数の仮想カメラのカメラ情報が異なることで、様々な視点から環境が観測可能である。
【0067】
次に、方策モデルの実行について説明する。
【0068】
方策モデルは、観測画像に応じて次の行動を出力するモデルである。方策モデルが変更されると、方策の実行によるエージェントの挙動が変わる。
【0069】
GUI部100では、情報指定部111は、操作デバイス140を介して方策の実行指示を受けた場合、通信デバイス130を介して方策の実行指示をシミュレータ部200に送信する。例えば、操作デバイス140を介した方策の実行指示は、モデル設定画面G2(G22)における再生ボタンB2(図6参照)の押下であってよい。シミュレータ部200では、方策実行部212は、方策の実行指示を受信すると、この実行指示に従って、設定された方策モデルに従って方策を実行する。方策の実行に従って、エージェントが環境内で動作する。
【0070】
また、GUI部100では、情報指定部111は、操作デバイス140を介して方策の実行の停止指示を受けた場合、通信デバイス130を介して方策の実行の停止指示をシミュレータ部200に送信する。例えば、操作デバイス140を介した方策の実行の停止指示は、例えば、モデル設定画面G2(G22)における停止ボタンB3(図6参照)の押下であってよい。シミュレータ部200では、プロセッサ210が、方策の実行の停止指示を受信すると、この停止指示に従って、設定された方策の実行を停止する。方策モデルの実行の停止に従って、エージェントが環境内での動作を停止する。
【0071】
GUI部100及びシミュレータ部200は、相互に協働して、方策の実行による環境の変化を反映した環境画面G1と観測画面G4とをインタラクティブに表示する。具体的には、シミュレータ部200では、通信デバイス230は、方策モデルの実行の際、変化した環境画像と観測画像とをGUI部100に送信する。GUI部100では、方策実行部212は、通信デバイス130を介してシミュレータ部200から環境画像と観測画像とを受信し、表示デバイス150を介して環境画像を含む環境画面G1と観測画像を含む観測画面G4とを表示する。なお、方策の実行が継続される期間には、環境画像と観測画像との変化は順次発生し得る。そのため、GUI部100は、順次変化する環境画像と観測画像とをシミュレータ部200から取得して表示してよい。よって、情報処理システム5は、方策の実行によって次々と変化する環境と観測画像とを可視化してユーザに提供できる。よって、ユーザは、方策の実行による環境の変化等をリアルタイムに直感的に把握できる。
【0072】
また、方策実行部212は、通信デバイス230を介してGUI部100の操作デバイス140で入力された操作情報を取得し、この移動指示に従って、方策モデルの実行時に仮想カメラを移動させてもよい。例えば、方策実行部212は、方策モデルの実行中に、環境画面G1に対するマウス操作によって仮想カメラのカメラアイコンCIをドラッグする操作情報を取得し、この操作情報に基づいて仮想カメラの位置や向きを調整(例えば視点移動)してもよい。つまり、方策実行部212は、方策モデルの実行中に、方策モデルの実行前に設定された仮想カメラのカメラ情報を変更してもよい。例えば、カメラアイコンCIの位置をドラッグ操作によって移動させることで、方策実行部212は、仮想カメラの位置(視点)を変更してよい。例えば、カメラアイコンCIのレンズ(不図示)の位置を移動させることで、方策実行部212は、仮想カメラの向き(視線方向)を変更してよい。なお、図4に示したこのカメラアイコンCIの表示例は一例であり、カメラアイコンCIが他の位置や表示態様で表示されてもよい。表示デバイス150は、カメラ情報が変更された仮想カメラに撮像された画像に基づく情報(例えば環境画像、観測画像、潜在状態、復元画像)を表示できる。よって、ユーザは、方策モデルの実行によるエージェントの動作挙動や、潜在状態や復元画像等を確認しながら、インタラクティブに好適なカメラ情報(例えばカメラの位置や向き)を探索し、仮想カメラの撮像に基づく画像を調整可能である。
【0073】
図9は、潜在状態マッピング画面G5の一例を示す図である。図9では、潜在状態マッピング画面G5で描画されている潜在状態の様子が時系列で変化している。また、図9では、潜在状態マッピング画面G5にマッピングされた1つの潜在状態を基に、復元画像が生成されることを例示している。
【0074】
シミュレータ部200では、観測画像処理部213は、仮想カメラを制御する。仮想カメラは、設定されたカメラ情報に従って、環境を撮像して観測画像を生成する。方策の実行に従ってエージェントが動作することで環境に影響を与え、環境が変化し得る。仮想カメラは、変化する環境を時系列で順次撮像し、観測画像を順次生成してよい。通信デバイス230は、順次生成された観測画像をGUI部100へ送信する。
【0075】
GUI部100では、通信デバイス130は、シミュレータ部200から観測画像を受信する。潜在状態処理部112は、受信された観測画像を圧縮して、観測画像に対応する潜在状態を生成する。この場合、潜在状態処理部112は、指定された世界モデルを用いて、観測画像に基づいて潜在状態を生成してよい。例えば、潜在状態処理部112は、観測画像を世界モデルの入力とし、世界モデルの出力として多次元の潜在状態を取得する。潜在状態処理部112は、取得された多次元の潜在状態を次元圧縮し、2次元又は3次元の潜在状態を生成する。この場合、潜在状態処理部112は、次元圧縮手法(例えばPCA(principal component analysis))に従って、次元圧縮された潜在状態を生成してよい。2次元又は3次元の潜在状態は、視認可能に2次元平面又は3次元空間にマッピングが可能である。潜在状態処理部112は、潜在空間を示す潜在状態マッピング画面G5に、例えば3次元の潜在状態をマッピングして描画する。
【0076】
また、潜在状態処理部112は、シミュレータ部200から観測画像を順次受信する。よって、潜在状態処理部112は、順次受信された複数の観測画像に基づいて複数の潜在状態を生成する。よって、潜在状態処理部112は、潜在状態マッピング画面G5に、生成された複数の潜在状態を描画する。観測画像は時系列で順次得られるので、描画される潜在状態も時系列で増加していく。潜在状態処理部112は、生成された各潜在状態を潜在状態マッピング画面G5にマッピングし、表示デバイス150に表示させる。
【0077】
図9では、まず、現在の観測画像に対応する現在の潜在状態p1がマッピングされ、潜在状態マッピング画面G51に表示されている。ここでの現在の観測画像は、例えば、方策モデルの実行前の環境が撮像された観測画像である。
【0078】
潜在状態処理部112は、シミュレータ部200により方策の実行が開始されると、方策実行の毎ステップで得られる各観測画像に対応する各潜在状態を、潜在状態マッピング画面G52に描画していく。よって、方策の実行中の時間経過とともに、マッピングされる潜在状態の数が増加していく。潜在状態マッピング画面G52では、潜在状態p11は、現在の潜在状態(この方策の実行中に得られた最新の潜在状態)である。潜在状態p12は、方策の実行によって順次得られた潜在状態(潜在状態の系列)であって、潜在状態p11以外の潜在状態を示す。
【0079】
潜在状態マッピング画面G5における潜在状態同士の近さは、潜在状態の意味的な類似度を示す。したがって、ユーザは、潜在状態マッピング画面G5の表示を確認することで、エージェントがどの潜在状態に対応するどの観測同士が近いと認識しているか、を把握できる。方策の実行による環境の変化は、時系列で少しずつ変化することが想定され、時系列で大きく変化する可能性は少ない。そのため、時系列で近い複数の観測画像に対応する複数の潜在状態は、潜在状態マッピング画面G5上では相互に近い位置に描画されると想定される。よって、ユーザは、時系列で近い時点で得られた複数の潜在状態が潜在状態マッピング画面G5上で遠い位置に配置されている場合には、観測画像から潜在状態を導出する世界モデルの学習が不十分であったり、誤った方向に学習されていたりする可能性があることを認識できる。
【0080】
なお、潜在状態が3次元に次元圧縮されている場合は、潜在状態マッピング画面G5に表示されている画面は、3次元の情報を表示デバイス150の投影面である2次元に投影した情報である。この場合、ユーザが他の視点から投影した結果を観測することを希望するのであれば、潜在状態処理部112は、操作デバイス140を介して、潜在状態がマッピングされる3次元空間を示す潜在状態マッピング画面G5を、任意の方向に回転させて、表示デバイス150を介して表示してよい。例えば、潜在状態処理部112は、マウスによるドラッグ操作を受け付けて、ドラッグ操作に応じて、3次元空間を規定する相互に直交する3軸の向きを回転させてよい。これにより、ユーザは、複数の潜在状態の位置関係を様々な視点及び視線方向に沿って確認できる。
【0081】
また、潜在状態マッピング画面G53は、潜在状態マッピング画面G52よりも更に時系列で後の状態であり、潜在状態の数が増えている。潜在状態マッピング画面G53では、潜在状態p21は、現在の潜在状態(この方策の実行中に得られた最新の潜在状態)である。潜在状態p22は、方策の実行によって順次得られた潜在状態(潜在状態の系列)であって、潜在状態p21以外の潜在状態を示す。
【0082】
ここで、復元画像処理部113は、操作デバイス140を介して、潜在状態マッピング画面G53に描画された複数の潜在状態のうち、1つの潜在状態p23を指定してよい。潜在状態23は、復元画像処理部113は、指定された潜在状態p23を、他の潜在状態p21,p22とは異なる表示態様で表示デバイス150に表示させてよい。復元画像処理部113は、指定された潜在状態p23に基づいて、潜在状態p23に対応する復元画像を生成する。例えば、復元画像処理部113は、指定された潜在状態p23に対して復元処理して、復元画像を生成する。この場合、復元画像処理部113は、指定された潜在状態p23を世界モデルの入力とし、世界モデルの出力として復元画像を取得してよい。復元画像処理部113は、生成された復元画像を表示デバイス150に表示させる。ユーザは、この復元画像を含む復元画面G61の表示を確認することで、エージェントがどのように環境を理解しているか、エージェントの世界モデルの学習度合い、等を確認できる。
【0083】
潜在状態は、観測画像が圧縮されたものである。また、復元画像は潜在状態が復元されたものであるので、観測画像が圧縮されて復元されたものである。そのため、観測画像から潜在状態を導出する世界モデルの学習精度が高い場合には、観測画像を示す観測画面G4と復元画像を示す復元画面G6(G61)は一致するはずである。図4の一覧画面GLでは、観測画面Gの観測画像と復元画面G6の復元画像とはやや異なる。そのため、この場合には、ユーザは、世界モデルの学習状態が完全ではないことを理解できる。
【0084】
次に、情報処理システム5の動作例について説明する。
図10は、情報処理システム5の動作例を示すシーケンス図である。
【0085】
まず、GUI部100では、情報指定部111は、操作デバイス140を介して学習済みの世界モデルと学習済みの方策モデルとを入力して指定する(S11)。ここでの学習済みモデルは、世界モデルと方策モデルとを含む。例えば、学習済みの世界モデルと方策モデルとは、それぞれ1つ以上がメモリ120に保持されており、どの世界モデルと方策モデルとを用いるかが指定されてよい。
【0086】
情報指定部111は、操作デバイス140を介して環境条件を入力し、環境条件を指定する(S12)。ここでの環境条件は、環境に関する環境ファイル、仮想カメラのカメラ情報(例えば仮想カメラの位置、角度(向き))、環境に影響を与えるエージェントの行動の情報(例えばロボット装置の動作の情報)、等を含む。例えば、1つ以上の環境ファイルがメモリ120に保持されており、どの環境ファイルを用いるかが指定されてよい。
【0087】
通信デバイス130は、決定された方策モデル及び環境条件をシミュレータ部200に送信し、シミュレータ部200に方策モデル及び環境条件を設定(反映)するよう指示する(S13)。
【0088】
シミュレータ部200では、情報設定部211は、通信デバイス230を介して、GUI部100からの方策モデル及び環境条件を受信し、この方策モデル及び環境条件を設定し、設定情報をメモリ220に保持させる(S21)。
【0089】
方策実行部212は、設定された環境条件及び方策モデルに基づいて、エージェントが配置された環境で方策を実行する(S22)。方策の実行により、環境においてエージェントが動作するので、環境が変化し得る。観測画像処理部213は、仮想カメラを制御し、設定されたカメラ情報に従って、環境を撮像して観測画像を生成する(S23)。つまり、観測画像処理部213は、環境条件の反映後の環境情報として、仮想カメラを介して観測画像を取得する。通信デバイス230は、取得された観測画像をGUI部100へ送信する(S24)。
【0090】
なお、方策は、方策モデルに従って、時系列で連続的に実行されていく。つまり、方策実行部212は、方策モデルを順次実行し、観測画像処理部213は、仮想カメラを介して観測画像を順次取得する。通信デバイス230は、順次得られた観測画像を1つずつ順次送信してもよいし、いくつかの観測画像をまとめて送信することを順次繰り返してもよい。
【0091】
GUI部100では、通信デバイス130は、GUI部100から観測画像を受信する(S14)。この場合、通信デバイス130は、1つずつ観測画像を順次受信してもよいし、いくつかの観測画像をまとめて受信することを順次繰り返してもよい。
【0092】
潜在状態処理部112は、観測画像と学習済みの世界モデル(指定された世界モデル)とに基づいて、観測画像を圧縮して、観測画像に対応する潜在状態を導出する(S15)。潜在状態の生成は、観測画像毎に行われるので、複数の潜在状態が導出される。複数の潜在状態は、ベクトル空間である潜在空間にマッピングされる。この場合、当初の多次元の潜在状態が、2次元又は3次元の潜在状態に次元圧縮されてよい。
【0093】
復元画像処理部113は、導出された潜在状態と学習済みの世界モデル(指定された世界モデル)に基づいて、潜在状態を復元して復元画像を生成する(S16)。復元画像処理部113は、例えば操作デバイス140を介して指定された潜在状態に対応する復元画像を生成してよい。また、復元画像処理部113は、特に潜在状態を指定せずに、任意の1つ以上の復元画像に対応する1つ以上の復元画像を生成してもよい。
【0094】
表示デバイスが150は、導出された観測画像と、潜在状態と、復元画像と、を表示する(S17)。例えば、観測画像は観測画面G4に表示され、潜在状態は潜在状態マッピング画面G5に表示され、復元画像は復元画面G6に表示される。また、表示デバイス150は、これらの画像を含む一覧画面GLを表示してもよい。このように、GUI部100は、復元画像と潜在空間とを演算し、可視化する。
【0095】
このように、情報処理システム5は、潜在空間を示す潜在状態マッピング画面G5における複数の潜在状態の分布や、潜在状態が復元された復元画像をユーザに提示できる。よって、情報処理システム5は、世界モデルの学習状態の良し悪しを可視化できる。
【0096】
世界モデルでは、観測画像と復元画像とが完全に可逆ではなく、圧縮と復元とを反復することで徐々に情報量が低下し得る。世界モデルでは、タスクの観測情報が特徴的に捉えた潜在状態が取得されることで、復元画像が元の観測画像に近づくように学習される。また、世界モデルは、性質として、時系列の予測を行うので、性質の近い特徴点(潜在状態)は、ベクトル空間上で近くなるように設計される。
【0097】
ユーザは、複数の潜在状態の分布を確認することで、エージェントがどの観測同士が近い(意味的に類似している)と判断しているのかを認識できる。また、ユーザは、復元画像を確認することで、エージェントがどのように理解しているのか、世界モデルの学習具合を確認できる。ユーザは、復元画像が正しく復元されていれば、潜在状態についても復元についても好適に学習できていることが確認できる。したがって、情報処理システム5は、ユーザ(例えばエンジニア)による世界モデルの解釈性及び実験の円滑化を向上できる。
【0098】
なお、本実施形態では、主に仮想カメラが1つであり、単視点であることを例示したが、仮想カメラが複数あり、多視点であってもよい。
【0099】
また、本実施形態では、タスクとして、エージェントのロボット装置10がボール20を掴むことを例示したが、これに限られない。つまり、タスクは、ロボット装置10が物を掴む以外の動作であってもよい。また、エージェントは、ロボット装置以外であってもよく、例えば自動運転シミュレータでも、ゲームシミュレータでもよい。本実施形態は、世界モデルの強化学習を用いる技術全般に適用可能である。
【0100】
また、本実施形態では、GUI部100とシミュレータ部200とで分担する処理は、他の分担方法であってもよい。例えば、GUI部100は、操作デバイス140を介した入力と表示デバイス150による表示以外の処理をなるべくシミュレータ部200側で実施するようにしてもよい。例えば、潜在状態処理部112と復元画像処理部113とを、シミュレータ部200が有してもよい。
【0101】
また、本実施形態では、GUI部100及びシミュレータ部200は、一体の情報処理装置として構成されてもよい。つまり、シミュレータ部200を省略して、GUI部100側だけで処理を完結してよい。つまり、GUI部100が、方策実行部212と観測画像処理部213とを有してもよい。
【0102】
また、本実施形態では、仮想環境を画像として観測することを想定した例を説明したが、本実施形態の思想は、音声などの他の情報を観測する場合にも適用できる。例えば、音声を観測する場合、仮想カメラを仮想マイクとし、観測画像や復元画像に替えて、仮想マイクによって計測された音声や復元された音声を出力すればよい。
【0103】
また、本実施形態では、表示デバイス150は、複数の潜在状態を前記次元圧縮された潜在空間における2次元又は3次元の座標に配置した点として表示していたが、2次元又は3次元の座標と対応づけた他の表示を行ってもよい。例えば、表示デバイス150は、各座標を数値として列挙したテーブルとして表示してもよい。また、表示デバイス150は、2次元又は3次元の点として表示する場合は、近接する点間に線などを表示してもよい。この場合、表示デバイス150は、より上位の次元における類似度を反映して線の態様(色や太さ)を変更してもよい。次元圧縮の過程で上位の情報が失われる結果、各潜在状態は、潜在状態マッピングでは近くに見えていても、上位の次元では離れている場合がある。例えば、2次元に次元圧縮している場合、2次元の情報として残っている平面座標としては近くに見えていても、圧縮の過程で失われた奥行方向の座標が著しく遠い場合などがある。同様の問題は、4次元以上の情報を3次元に次元圧縮した場合にも存在する。そのため、表示デバイス150は、次元圧縮の過程で失われた情報を、線の態様などの他の情報として表示することで、失われた情報を踏まえた類似度を直感的に表現することができる。
【0104】
[実施形態の概要]
以上のように、上記実施形態の情報処理システム5は、学習済みの世界モデルと、エージェントが動作する環境に関する環境データ(例えば環境ファイル)と、前記エージェントの動作を規定する学習済みの方策モデルと、を指定する情報指定部111(指定部の一例)を備える。情報処理システム5は、指定された前記環境データと前記方策モデルとに基づいて、前記環境で方策を順次実行する方策実行部212と、方策の実行毎に環境を仮想カメラで撮像して、複数の観測画像を生成する観測画像処理部213と、を備える。情報処理システム5は、世界モデルに基づいて、複数の観測画像のそれぞれを圧縮して複数の潜在状態のそれぞれを導出する潜在状態処理部112と、複数の潜在状態を表示する表示デバイス150(表示部の一例)と、を備える。
【0105】
つまり、情報処理システム5は、指定された環境と方策に従って実行した結果をサンプリングして、潜在状態マッピングを可視化できる。潜在状態は、世界モデルに基づいて観測画像から得られる。潜在状態は、観測画像に対応し、環境の特徴的な部分を示す。そのため、複数の潜在状態が示す複数の特徴が類似する場合にはマッピングされた複数の潜在状態の距離が近くなり、複数の特徴が類似しない場合にはマッピングされた複数の潜在状態の距離が遠くなる。したがって、ユーザは、潜在状態マッピングの表示を確認し、例えば複数の潜在状態間の距離と想定される距離との差分に基づいて、世界モデルの学習状態を直感的に理解し易くなる。
【0106】
また、潜在状態処理部112は、世界モデルに基づいて、複数の観測画像のそれぞれを圧縮して複数の多次元の潜在状態のそれぞれを導出し、複数の多次元の潜在状態のそれぞれを次元圧縮して、複数の2次元又は3次元の潜在状態のそれぞれを導出してよい。表示デバイス150は、複数の潜在状態を次元圧縮された潜在空間における2次元又は3次元の座標に対応付けて表示してよい。
【0107】
これにより、情報処理システム5は、世界モデルに基づく潜在状態の導出当初には多次元の潜在状態であっても、表示可能に調整できる。
【0108】
また、情報処理システム5は、復元画像処理部113、を更に備えてよい。復元画像処理部113は、複数の潜在状態のうち一の潜在状態を指定し、世界モデルに基づいて、指定された一の潜在状態を復元して復元画像を生成してよい。表示デバイス150は、復元画像を表示してよい。
【0109】
これにより、ユーザは、復元画像の表示を確認することで、エージェントがどのように環境を理解しているのか、エージェントの世界モデルの学習度合い、等を確認できる。
【0110】
また、情報指定部111は、環境に対する仮想カメラの位置及び向きを含むカメラ情報を指定してよい。観測画像処理部213は、カメラ情報に基づいて、環境を仮想カメラで撮像して、複数の観測画像を生成してよい。
【0111】
これにより、情報処理システム5は、様々な位置から様々な向きで撮像された観測画像を取得でき、世界モデルによる学習状態を詳細に把握できる。
【0112】
また、情報処理システム5は、操作デバイス140(第1の操作部の一例、を更に備えてよい。観測画像処理部213は、操作デバイス140への操作に基づいて、情報指定部111により指定されたカメラ情報を変更し、変更されたカメラ情報に基づいて、環境を仮想カメラで撮像して、変更された観測画像を生成してよい。表示デバイス150は、変更された観測画像を表示してよい。
【0113】
これにより、情報処理システム5は、カメラ情報の変更に従って生成される観測画像を確認しながら、仮想カメラのカメラ情報を指定できる。よって、ユーザ所望の観測画像が得られるように、カメラ情報を調整できる。
【0114】
また、情報処理システム5は、操作デバイス140(第2の操作部の一例、を更に備えてよい。表示デバイス150は、操作デバイス140への操作に基づいて、潜在状態を描画する潜在空間を回転して表示してよい。
【0115】
これにより、情報処理システム5は、潜在空間を確認するための視点(カメラ位置)や視線方向(カメラ向き)が固定された場合と比較すると、様々な視点から様々な方向を見て潜在空間を視認でき、潜在空間に配置された複数の潜在状態同士の位置関係の詳細を容易に確認できる。
【0116】
また、情報処理システム5は、GUI部100(操作表示装置の一例)と、シミュレータ部200(シミュレータ装置の一例)と、を備えてよい。GUI部100とシミュレータ部200とは通信可能に接続されてよい。GUI部100は、情報指定部111と、潜在状態処理部112と、表示デバイス150と、を備えてよい。シミュレータ部200は、方策実行部212と、観測画像処理部213と、を備えてよい。
【0117】
これにより、情報処理システム5は、例えば処理負荷の高い方策の実行を、処理能力の高いシミュレータ部200側で実施でき、装置毎の処理能力に応じて分散処理できる。
【0118】
また、情報処理システム5は、単一の情報処理装置(例えばGUI部100)により構成されてよい。これにより、情報処理システム5は、世界モデルの学習状態を確認するための処理を、単一の情報処理装置によって完結できる。
【0119】
以上、図面を参照しながら各種の実施形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、開示の趣旨を逸脱しない範囲において、上記実施形態における各構成要素を任意に組み合わせてもよい。
【0120】
特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現可能である。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「先ず、」、「次に」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【産業上の利用可能性】
【0121】
本開示は、世界モデルの学習状態を直感的に理解し易くできる情報処理装置及び情報処理方法等に有用である。
【符号の説明】
【0122】
5 情報処理システム
100 GUI部
110 プロセッサ
111 情報指定部
112 潜在状態処理部
113 復元画像処理部
120 メモリ
130 通信デバイス
140 操作デバイス
150 表示デバイス
200 シミュレータ部
210 プロセッサ
211 情報設定部
212 方策実行部
213 観測画像処理部
220 メモリ
230 通信デバイス
GL 一覧画面
G1 環境画面
G2 モデル設定画面
G3 カメラ設定画面
G4 観測画面
G5 潜在状態マッピング画面
G6 復元画面
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10