特開2024-43785 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 国立大学法人広島大学の特許一覧

特開2024-43785情報処理装置、情報処理方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024043785

(43)【公開日】2024-04-02

(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム

(51)【国際特許分類】

G06T 19/00 20110101AFI20240326BHJP

【ＦＩ】

G06T19/00 A

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2022148974

(22)【出願日】2022-09-20

(71)【出願人】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(71)【出願人】

【識別番号】504136568

【氏名又は名称】国立大学法人広島大学

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】奈良村五十志

(72)【発明者】

【氏名】相澤宏旭

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050AA03

5B050BA06

5B050BA09

5B050BA13

5B050CA01

5B050DA04

5B050EA19

5B050EA26

5B050FA02

5B050FA05

(57)【要約】（修正有）

【課題】外観と幾何形状ともに一貫性を持つ写実的な画像を生成し、観測視点に応じた輝度変化を反映した画像を生成する情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】制御装置、情報処理装置及び学習装置を含む情報処理システムにおいて、情報処理装置は、オブジェクトを把持又は操作可能なエンドエフェクタの姿勢データと、ある視点から前記オブジェクトを観測する際の視線の方向データと、前記視点の位置データとを取得する取得部と、前記姿勢データの次元数を減らした低次元姿勢データを生成するデータ変換部２４２と、予め学習された機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ及び前記位置データを基に、前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンが前記視点から観測された場合に生成される画像であって、前記オブジェクトの密度を含む画像を生成する画像生成部２４３と、を備える。
【選択図】図４

【特許請求の範囲】

【請求項1】

オブジェクトを把持又は操作可能なエンドエフェクタの姿勢データと、ある視点から前記オブジェクトを観測する際の視線の方向データと、前記視点の位置データとを取得する取得部と、
前記姿勢データの次元数を減らした低次元姿勢データを生成する第１生成部と、
予め学習された機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ、及び前記位置データを基に、前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンが前記視点から観測された場合に生成され得る画像であって、前記オブジェクトの密度を含む画像を生成する第２生成部と、
を備える情報処理装置。

【請求項2】

前記姿勢データには、前記エンドエフェクタに設けられた複数の関節の其々の位置及び向きが要素として含まれ、
前記第１生成部は、多変量解析により前記姿勢データに含まれる複数の前記要素を減らすことで、前記低次元姿勢データを生成する、
請求項１に記載の情報処理装置。

【請求項3】

前記第２生成部は、
前記機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ、及び前記位置データから、前記視線上における前記シーンの色及び密度を推定し、
前記シーンの色及び密度を前記視線上において可視化することで、前記画像を生成する、
請求項１又は２に記載の情報処理装置。

【請求項4】

前記機械学習モデルは、前記低次元姿勢データ、前記方向データ、及び前記位置データに対して、正解となる前記画像がラベル付けられたトレーニングデータセットに基づいて学習されたニューラルレイディアンスフィールズである、
請求項３に記載の情報処理装置。

【請求項5】

前記第２生成部は、
前記低次元姿勢データ、前記方向データ、及び前記位置データの其々を高次元化し、
高次元化された前記低次元姿勢データ、前記方向データ、及び前記位置データを前記ニューラルレイディアンスフィールズに入力し、
高次元化された前記低次元姿勢データ、前記方向データ、及び前記位置データが入力されたことに応じて前記ニューラルレイディアンスフィールズが出力した前記シーンの色及び密度に基づいて、前記画像を生成する、
請求項４に記載の情報処理装置。

【請求項6】

カメラによって撮像された前記シーンの画像と、前記第２生成部によって生成された画像とに基づいて、前記エンドエフェクタの姿勢を制御する制御部を更に備える、
請求項１又は２に記載の情報処理装置。

【請求項7】

コンピュータを用いた情報処理方法であって、
オブジェクトを把持又は操作可能なエンドエフェクタの姿勢データと、ある視点から前記オブジェクトを観測する際の視線の方向データと、前記視点の位置データとを取得すること、
前記姿勢データの次元数を減らした低次元姿勢データを生成すること、
予め学習された機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ、及び前記位置データを基に、前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンが前記視点から観測された場合に生成され得る画像であって、前記オブジェクトの密度を含む画像を生成すること、
を含む情報処理方法。

【請求項8】

コンピュータに実行させるためのプログラムであって、
オブジェクトを把持又は操作可能なエンドエフェクタの姿勢データと、ある視点から前記オブジェクトを観測する際の視線の方向データと、前記視点の位置データとを取得すること、
前記姿勢データの次元数を減らした低次元姿勢データを生成すること、
予め学習された機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ、及び前記位置データを基に、前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンが前記視点から観測された場合に生成され得る画像であって、前記オブジェクトの密度を含む画像を生成すること、
を含むプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

【背景技術】

【0002】

多層パーセプトロン（Multilayer Perceptrons：ＭＬＰｓ）を含む機械学習モデルを用いて、あるオブジェクト又はシーンを任意の視点から観測した際に得られる画像（ビュー）を生成又は合成するコンピューティングシステムが知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開第２０２２／０２６６９２号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら従来の技術では、機械学習モデルに対して互いに種類の異なる複数のデータを入力する際に、それらデータの次元数に偏りが生じる場合、機械学習モデルの学習が失敗する場合があった。この結果、オブジェクト又はシーンの外観及び幾何形状が写実的でない画像が生成されたり、又は観測視点に応じた輝度変化が反映されていない画像が生成されたりする場合があった。

【0005】

本発明は、このような事情を考慮してなされたものであり、外観と幾何形状ともに一貫性を持つ写実的な画像や、観測視点に応じた輝度変化を反映した画像を生成することができる情報処理装置、情報処理方法、及びプログラムを提供することを目的の一つとする。

【課題を解決するための手段】

【0006】

本発明に係る情報処理装置、情報処理方法、及びプログラムは以下の構成を採用した。
（１）本発明の第１の態様は、オブジェクトを把持又は操作可能なエンドエフェクタの姿勢データと、ある視点から前記オブジェクトを観測する際の視線の方向データと、前記視点の位置データとを取得する取得部と、前記姿勢データの次元数を減らした低次元姿勢データを生成する第１生成部と、予め学習された機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ、及び前記位置データを基に、前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンが前記視点から観測された場合に生成され得る画像であって、前記オブジェクトの密度を含む画像を生成する第２生成部と、を備える情報処理装置である。

【0007】

（２）本発明の第２の態様は、第１の態様において、前記姿勢データには、前記エンドエフェクタに設けられた複数の関節の其々の位置及び向きが要素として含まれ、前記第１生成部は、多変量解析により前記姿勢データに含まれる複数の前記要素を減らすことで、前記低次元姿勢データを生成するものである。

【0008】

（３）本発明の第３の態様は、第１又は第２の態様において、前記第２生成部は、予め学習された機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ、及び前記位置データから、前記視線上における前記シーンの色及び密度を推定し、前記シーンの色及び密度を前記視線上において可視化することで、前記画像を生成するものである。

【0009】

（４）本発明の第４の態様は、第３の態様において、前記機械学習モデルは、前記低次元姿勢データ、前記方向データ、及び前記位置データに対して、正解となる前記画像がラベル付けられたトレーニングデータセットに基づいて学習されたニューラルレイディアンスフィールズであるものである。

【0010】

（５）本発明の第５の態様は、第４の態様において、前記第２生成部は、前記低次元姿勢データ、前記方向データ、及び前記位置データの其々を高次元化し、高次元化された前記低次元姿勢データ、前記方向データ、及び前記位置データを前記ニューラルレイディアンスフィールズに入力し、高次元化された前記低次元姿勢データ、前記方向データ、及び前記位置データが入力されたことに応じて前記ニューラルレイディアンスフィールズが出力した前記シーンの色及び密度に基づいて、前記画像を生成するものである。

【0011】

（６）本発明の第６の態様は、第１又は第２の態様において、カメラによって撮像された前記シーンの画像と、前記第２生成部によって生成された画像とに基づいて、前記エンドエフェクタの姿勢を制御する制御部を更に備えるものである。

【0012】

（７）本発明の第７の態様は、コンピュータを用いた情報処理方法であり、オブジェクトを把持又は操作可能なエンドエフェクタの姿勢データと、ある視点から前記オブジェクトを観測する際の視線の方向データと、前記視点の位置データとを取得すること、前記姿勢データの次元数を減らした低次元姿勢データを生成すること、予め学習された機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ、及び前記位置データを基に、前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンが前記視点から観測された場合に生成され得る画像であって、前記オブジェクトの密度を含む画像を生成すること、を含む情報処理方法である。

【0013】

（８）本発明の第８の態様は、コンピュータに実行させるためのプログラムであり、オブジェクトを把持又は操作可能なエンドエフェクタの姿勢データと、ある視点から前記オブジェクトを観測する際の視線の方向データと、前記視点の位置データとを取得すること、前記姿勢データの次元数を減らした低次元姿勢データを生成すること、予め学習された機械学習モデルを用いて、前記低次元姿勢データ、前記方向データ、及び前記位置データを基に、前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンが前記視点から観測された場合に生成され得る画像であって、前記オブジェクトの密度を含む画像を生成すること、を含むプログラムである。

【発明の効果】

【0014】

上記の態様によれば、外観と幾何形状ともに一貫性を持つ写実的な画像を生成したり、観測視点に応じた輝度変化を反映した画像を生成したりすることができる。

【図面の簡単な説明】

【0015】

【図1】第１実施形態に係る情報処理システム１の構成の一例を表す図である。

【図2】第１実施形態に係るロボット１０の外観を模式的に表す図である。

【図3】第１実施形態に係るロボット１０及び制御装置１００の構成図である。

【図4】第１実施形態に係る情報処理装置２００の構成図である。

【図5】ＮｅＲＦの概要を説明するための図である。

【図6】第１実施形態に係る処理部２４０の一連の処理の流れを表すフローチャートである。

【図7】Ｐ－ＮｅＲＦを模式的に表す図である。

【図8】Ｐ－ＮｅＲＦのネットワーク構成の一例を表す図である。

【図9】第１実施形態に係る学習装置３００の構成図である。

【図10】機械学習モデルの学習方法を説明するための図である。

【図11】第２実施形態に係るロボット１０及び制御装置１００Ａの構成図である。

【発明を実施するための形態】

【0016】

以下、図面を参照し、本発明の情報処理装置、情報処理方法、及びプログラムの実施形態について説明する。

【0017】

＜第１実施形態＞
［システムの構成］
図１は、第１実施形態に係る情報処理システム１の構成の一例を表す図である。情報処理システム１は、例えば、制御装置１００と、情報処理装置２００と、学習装置３００とを備える。制御装置１００、情報処理装置２００、及び学習装置３００は、ネットワークＮＷを介して接続される。ネットワークＮＷは、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）などを含む。

【0018】

制御装置１００は、ロボット１０が自律的に行動するように自律制御を行う。制御装置１００は、典型的には、ロボット１０に搭載され、直接ロボット１０を制御する。また、制御装置１００は、ロボット１０から遠く離れた地点に設置され、ネットワークＮＷを介して遠隔でロボット１０を制御してもよい。

【0019】

情報処理装置２００は、機械学習モデルを用いて、ロボット１０に搭載されたカメラ１１や、ロボット１０が作業する空間（例えば室内）に設置された監視カメラ２０とは異なる別視点から観測されたシーンの画像を人工的に生成又は合成する。

【0020】

学習装置３００は、情報処理装置２００によって利用される機械学習モデルを学習する。

【0021】

情報処理装置２００及び学習装置３００の一方又は双方は、単一の装置であってもよいし、ネットワークＮＷを介して接続された複数の装置が互いに協働して動作する一つのシステムであってもよい。すなわち、情報処理装置２００及び学習装置３００の一方又は双方は、分散コンピューティングシステムやクラウドコンピューティングシステムに含まれる複数のコンピュータ（プロセッサ）によって実現されてもよい。

【0022】

［ロボットの外観］
図２は、第１実施形態に係るロボット１０の外観を模式的に表す図である。ロボット１０は、典型的には、エンドエフェクタによってオブジェクトＯＢを把持したり、又は操作したりすることができる人型ロボット（ヒューマノイドロボット）であるがこれに限られず、オブジェクトＯＢを把持又は操作できれば如何なる態様のロボットであってもよい。例えば、ロボット１０は、四足歩行の動物型のロボットであってもよいし、産業用ロボットであってもよいし、軍事用ロボットであってもよいし、家庭用の掃除用ロボットであってもよいし、その他種々のロボットであってよい。

【0023】

エンドエフェクタは、ロボットハンドともいう。そのため以下の説明では、エンドエフェクタのことを単に「手」と称して説明する場合がある。ロボット１０のエンドエフェクタには、例えば、数本の指がグリッパーとして設けられてよい。

【0024】

ロボット１０は、例えば、ロボット１０から見た外界環境を画像化するためのカメラ１１や、ロボット１０の動作を制御するための制御装置１００などを備えており、制御装置１００によって決定された行動に従って目的のタスクを実行する。

【0025】

タスクとは、例えば、オブジェクトＯＢを手で掴んだり、オブジェクトＯＢをもう一方の手に持ち替えたり、又はオブジェクトＯＢを移動させたりすることである。なお、タスクはこれらに限られず、任意のタスクが設定可能である。

【0026】

カメラ１１は、ロボット１０のボディの一部（典型的には頭部）に設置される。カメラ１１は、例えば、デプスカメラ（３Ｄカメラ）であってよい。例えば、カメラ１１は、エンドエフェクタによってオブジェクトＯＢが把持されたり、又は操作されたりするシーンを撮像し、そのシーンを写した画像データを制御装置１００に送信する。

【0027】

［ロボット及び制御装置の構成］
図３は、第１実施形態に係るロボット１０及び制御装置１００の構成図である。ロボット１０は、上述したカメラ１１に加えて、更にアクチュエータ１２と、状態センサ１３と、動作制御部１４とを備える。

【0028】

アクチュエータ１２は、動作制御部１４の制御を受けてロボット１０の各部位（腕、指、足、頭、胴、腰等）を駆動する。アクチュエータ１２は、例えば、電磁モータ、ギア、人工筋などを含む。

【0029】

状態センサ１３は、ロボット１０の状態（例えば関節角度や角速度、トルク等）を検出するセンサである。状態センサ１３は、例えば、ロボット１０やエンドエフェクタの関節の回動の度合いを検出するロータリエンコーダや、関節を回動させるためのワイヤーの張力を検出する張力センサ、関節軸にかかるトルクを検出するトルクセンサ、ロボット１０の姿勢を検出するための加速度センサやジャイロセンサなどを含む。

【0030】

動作制御部１４は、制御装置１００によって生成された制御コマンドに基づいて、アクチュエータ１２を制御する。

【0031】

制御装置１００は、例えば、通信インターフェース１１０と、処理部１２０と、記憶部１３０とを備える。

【0032】

通信インターフェース１１０は、ネットワークＮＷを介して外部装置と通信したり、バスのような通信線を介してロボット１０と通信したりする。外部装置は、例えば、ロボット１０に対してタスクの実行を要求するユーザが利用可能な端末装置（スマートフォンやパーソナルコンピュータなど）である。通信インターフェース１１０には、例えば、受信機や送信機を含む無線通信モジュールや、ＮＩＣ（Network Interface Card）などが含まれる。

【0033】

処理部１２０は、例えば、取得部１２１と、把持姿勢決定部１２２と、コマンド生成部１２３と、通信制御部１２４とを備える。

【0034】

取得部１２１は、通信インターフェース１１０を介して、ロボット１０から画像データと状態データを取得する。

【0035】

画像データは、カメラ１１がオブジェクトＯＢを撮像した際に生成された画像データである。例えば、カメラ１１がロボット１０の頭部に設置された場合、取得部１２１は、エンドエフェクタによってオブジェクトＯＢが把持されたり又は操作されたりするシーンを、ロボット１０の頭部という視点から観測したときの画像データを取得する。

【0036】

状態データには、例えば、ロボット１０の状態センサ１３の検出値が含まれる。具体的には、状態データには、ロータリエンコーダにより検出されたロボット１０又はエンドエフェクタの関節の角度、張力センサにより検出されたロボット１０又はエンドエフェクタの関節のワイヤー張力、トルクセンサにより検出されたロボット１０又はエンドエフェクタの関節軸のトルク、加速度センサにより検出されたロボット１０又はエンドエフェクタの加速度、ジャイロセンサにより検出されたロボット１０又はエンドエフェクタの角速度などが含まれる。

【0037】

取得部１２１は、ロボット１０の作業空間上に監視カメラ２０が存在する場合、ロボット１０から画像データを取得することに加えて、或いは代えて、監視カメラ２０から画像データを取得してもよい。以下、カメラ１１及び／又は監視カメラ２０によって観測されたシーンの画像データのことを「カメラ視点画像データ」と称して説明する。

【0038】

更に取得部１２１は、通信インターフェース１１０を介して、カメラ１１又は監視カメラ２０とは異なる別視点から観測されたシーンの画像データを、情報処理装置２００から取得する。以下、別視点から観測されたシーンの画像データのことを「別視点画像データ」と称して説明する。

【0039】

把持姿勢決定部１２２は、カメラ視点画像データと、別視点画像データとに基づいて、エンドエフェクタがとるべき姿勢（ポーズ）を決定する。例えば、把持姿勢決定部１２２は、別視点画像データに含まれるオブジェクトＯＢと、カメラ視点画像データに含まれるオブジェクトＯＢとが画像平面上において一致するように、エンドエフェクタの姿勢を決定する。

【0040】

コマンド生成部１２３は、把持姿勢決定部１２２によって決定されたエンドエフェクタの姿勢と、取得部１２１によって取得された状態データとに基づいて、ロボット１０の各アクチュエータ１２を制御するための制御コマンドを生成する。

【0041】

通信制御部１２４は、通信インターフェース１１０を介して、コマンド生成部１２３によって生成された制御コマンドをロボット１０に送信する。ロボット１０の動作制御部１４は、制御装置１００から制御コマンドを受信すると、その制御コマンドに基づいてアクチュエータ１２を制御する。これによってロボット１０が行動し、オブジェクトＯＢを把持したり操作したりするようなタスクが実行される。

【0042】

処理部１２０の構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などが記憶部１３０に格納されたプログラム又はインストラクションを実行することにより実現される。これらの構成要素の一部または全部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

【0043】

記憶部１３０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などにより実現される。記憶部１３０は、ファームウェアやアプリケーションプログラム、処理部１２０の演算結果などを格納する。

【0044】

［情報処理装置の構成］
以下、第１実施形態に係る情報処理装置２００の構成を説明する。図４は、第１実施形態に係る情報処理装置２００の構成図である。情報処理装置２００は、例えば、通信インターフェース２１０と、入力インターフェース２２０と、出力インターフェース２３０と、処理部２４０と、記憶部２５０とを備える。

【0045】

通信インターフェース２１０は、ネットワークＮＷを介して制御装置１００や学習装置３００と通信する。通信インターフェース３１０には、例えば、受信機や送信機を含む無線通信モジュールや、ＮＩＣなどが含まれる。

【0046】

入力インターフェース２２０は、ユーザからの各種の入力操作を受け付け、受け付けた入力操作を電気信号に変換して処理部２４０に出力する。例えば、入力インターフェース２２０は、マウス、キーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパネル等を含む。

【0047】

出力インターフェース２３０は、例えば、ディスプレイやスピーカなどを備える。ディスプレイは、処理部２４０によって生成された画像や、操作者からの各種の入力操作を受け付けるためのＧＵＩ（Graphical User Interface）等を表示する。例えば、ディスプレイは、ＬＣＤ（Liquid Crystal Display）や、有機ＥＬ（Electro Luminescence）ディスプレイ等である。スピーカは、処理部２４０から入力された情報を音声として出力する。

【0048】

処理部２４０は、例えば、取得部２４１と、データ変換部２４２と、画像生成部２４３と、出力制御部２４４とを備える。データ変換部２４２は「第１生成部」の一例であり、画像生成部２４３は「第２生成部」の一例である。

【0049】

処理部２４０の構成要素は、例えば、ＣＰＵやＧＰＵなどが記憶部２５０に格納されたプログラムを実行することにより実現される。これらの構成要素の一部または全部は、ＬＳＩ、ＡＳＩＣ、またはＦＰＧＡなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

【0050】

記憶部２５０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、ＲＡＭなどにより実現される。記憶部２５０は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、モデルデータを格納する。

【0051】

モデルデータは、別視点画像データを生成又は合成する際に利用される機械学習モデルを定義したプログラム又はアルゴリズムである。本実施形態の機械学習モデルは、複数の中間層を含むニューラルネットワークである。例えば、モデルデータには、ニューラルネットワークを構成する複数の層のそれぞれに含まれるユニットが互いにどのように結合されるのかという結合情報や、結合されたユニット間で入出力されるデータに付与される結合係数などの各種情報が含まれる。結合情報とは、例えば、各層に含まれるユニット数や、各ユニットの結合先のユニットの種類を指定する情報、各ユニットを実現する活性化関数、隠れ層のユニット間に設けられたゲートなどの情報を含む。ユニットの活性化関数は、例えば、正規化線形関数（ＲｅＬＵ関数）であってもよいし、シグモイド関数や、ステップ関数、Ｓｏｆｔｐｌｕｓ関数、その他の関数などであってもよい。ゲートは、例えば、活性化関数によって返される値（例えば１または０）に応じて、ユニット間で伝達されるデータを選択的に通過させたり、重み付けたりする。結合係数は、例えば、ニューラルネットワークの中間層において、ある層のユニットから、より深い層のユニットにデータが出力される際に、出力データに対して付与される重みを含む。結合係数は、各層の固有のバイアス成分などを含んでもよい。

【0052】

例えば、機械学習モデルは、対象とするシーンを観測することができる任意の視点が指定され、更に、その視点からシーンを観測する際の視線の方向が指定された場合、指定された視点及び方向で対象シーンを観測したときに人間であれば認識し得るような三次元構造に関する情報を出力するように予め学習されたモデルである。このような機械学習モデルは、例えば、ＮｅＲＦ（Neural Radiance Fields）によって実装することができる。

【0053】

ＮｅＲＦは、主に、複数の視点の画像から、任意の視点（新たな視点）の画像を生成するタスク（新規視点画像生成（Novel View Synthesis）という）を実現するために提案された手法である。

【0054】

図５は、ＮｅＲＦの概要を説明するための図である。ＮｅＲＦは、ある視点の三次元位置を示す位置ベクトルｘ（→）＝（ｘ，ｙ，ｚ）と、その視点からシーンを観測する際の視線の方向を示す方向ベクトルｄ（→）＝（θ，φ）とが指定されると、視線上においてＮ個のサンプリング点を定め、各サンプリング点の色を示す色ベクトルｃ（→）＝（Ｒ，Ｇ，Ｂ）と密度σを出力する。括弧付きの矢印（→）はベクトルを表している。例えば、ｘは三次元空間の幅を表し、ｙは奥行きを表し、ｚは高さを表してよい。θ及びφのうち一方は仰角を表し、θ及びφのうち他方は方位角を表してよい。Ｒは赤色を表し、Ｇは緑色を表し、Ｂは青色を表している。Ｎは任意の自然数である。

【0055】

本実施形態では、ロボット１０のエンドエフェクタの姿勢を制御するため、そのエンドエフェクタの関節の姿勢によって条件付けられたＮｅＲＦを利用する。人の身体などのポーズを制御することを目的としたＮｅＲＦモデルは既にいくつか提案されており、最もシンプルなモデルとして、Ｐｏｓｅ－ｃｏｎｄｉｔｉｏｎｅｄＮｅＲＦ（以下、Ｐ－ＮｅＲＦという）が知られている。本実施形態では、一例として、エンドエフェクタの関節の姿勢によって条件付られたＰ－ＮｅＲＦによって機械学習モデルが実装されるものとして説明する。

【0056】

［情報処理装置の処理フロー］
以下、情報処理装置２００の処理部２４０の各構成要素についてフローチャートを用いて説明する。図６は、第１実施形態に係る処理部２４０の一連の処理の流れを表すフローチャートである。

【0057】

まず、取得部２４１は、視点の三次元位置を表す位置ベクトルｘ（→）と、視線の方向を示す方向ベクトルｄ（→）とを取得する（ステップＳ１００）。位置ベクトルｘ（→）は「位置データ」の一例であり、方向ベクトルｄ（→）は「方向データ」の一例である。

【0058】

例えば、ユーザが入力インターフェース２２０に対して、視点の三次元位置や視線の方向を入力した場合、取得部２４１は、入力インターフェース２２０に対するユーザの入力を、視点の位置ベクトルｘ（→）及び視線の方向ベクトルｄ（→）として取得してよい。

【0059】

また、視点の三次元位置や視線の方向は、ロボット１０に与えられたタスクに応じて決定される場合がある。例えば、オブジェクトＯＢがエンドエフェクタに比べて小さく、オブジェクトＯＢの大部分がエンドエフェクタによって覆われてしまう場合、カメラ視点画像データ上では、オブジェクトＯＢの三次元構造が十分に認識できない場合がある。また、カメラ視点画像データ上では、オブジェクトＯＢの表面の三次元構造は認識できたとしても、オブジェクトＯＢの裏面や側面の三次元構造は表面に比べて認識しにくい。

【0060】

このような場合、取得部２４１は、通信インターフェース２１０を介して、ロボット１０又は制御装置１００からタスクを取得し、その取得したタスクに基づいて、カメラ１１又は監視カメラ２０から見てオブジェクトＯＢの三次元構造が認識しにくいと想定される視点位置及び視線方向を算出する。そして、取得部２４１は、算出したそれら視点位置及び視線方向の其々のベクトルを取得する。

【0061】

次に、取得部２４１は、エンドエフェクタの関節の姿勢を表す姿勢ベクトルｌ（→）を取得する（ステップＳ１０２）。姿勢ベクトルｌ（→）は、エンドエフェクタに設けられた複数の関節の其々の回転行列と平行移動ベクトルからなる４×４次元のポーズ変換行列ｌ_ｉ（ｉ＝１，．．．，Ｐ）として表される。以下、回転行列と平行移動ベクトルをまとめて「変換行列」と説明する場合がある。Ｐは関節数である。つまり、姿勢ベクトルｌ（→）は、Ｐ×４×４次元である。例えば、関節数Ｐが１７である場合、姿勢ベクトルｌ（→）は２７２次元となる。位置ベクトルｘ（→）が３次元であり、方向ベクトルｄ（→）が２次元であることを考慮すると、これらベクトルに比べて姿勢ベクトルｌ（→）は非常に高次元なベクトルである。

【0062】

例えば、取得部２４１は、通信インターフェース２１０を介して、ロボット１０又は制御装置１００から、状態センサ１３の検出値が含まれる状態データを取得する。そして、取得部２４１は、状態データに含まれる複数の検出値の中から、エンドエフェクタに設けられた複数の関節の其々の変換行列（回転行列及び平行移動ベクトル）を抽出し、これらを組み合わせて姿勢ベクトルｌ（→）を生成する。姿勢ベクトルｌ（→）は「姿勢データ」の一例である。

【0063】

次に、データ変換部２４２は、姿勢ベクトルｌ（→）を低次元表現に変換（圧縮）する（ステップＳ１０４）。

【0064】

エンドエフェクタの関節からなる可動域の空間は、より低次元の空間で表現することができる。例えば、取得部２４１は、、関節数Ｐで各関節の変換行列を横に並べた姿勢ベクトルｌ（→）をＮサンプル分取得する。データ変換部２４２は、それらＮサンプルの姿勢ベクトルｌ（→）を（ｘ，ｙ，ｚ，ｙａｗ，ｐｉｔｃｈ，ｒｏｌｌ）の６次元ベクトルに変換し、その６次元ベクトルに変換したＮサンプルの姿勢ベクトルｌ（→）の集合Ｄ∈｛ｌ_ｉ｝^Ｎ _ｉ＝１に対して主成分分析を行う。データ変換部２４２は、主成分分析により得られた共分散行列の固有値と固有ベクトルを用いて、Ｐ×４×４次元の姿勢ベクトルｌ（→）を、ｄ次元の低次元表現ｅ（→）に変換（圧縮）する。

【0065】

Ｐ×４×４次元の姿勢ベクトルｌ（→）は、関節数Ｐの増加に比例して次元数が増加する。一方、低次元表現ｅ（→）は、関節数Ｐに依存せず固定長のベクトル表現（次元数が一定のベクトル）である。以下、低次元表現ｅ（→）のことを「固有把持表現（Eigengrasp representation）」と称して説明する。固有把持表現ｅ（→）は「低次元姿勢データ」の一例である。

【0066】

なお、データ変換部２４２は、主成分分析の代わりに、重回帰分析や独立成分分析、因子分析といったその他の多変量解析を行ってもよい。また、データ変換部２４２は、多変量解析を行うことで姿勢ベクトルｌ（→）を固有把持表現ｅ（→）に変換する代わりに、オートエンコーダを用いて姿勢ベクトルｌ（→）を固有把持表現ｅ（→）に変換してもよい。オートエンコーダは、入力データの次元を圧縮するように予め学習されたモデルであり、例えば、畳み込み層を含むニューラルネットワークによって実装される。

【0067】

次に、データ変換部２４２は、位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→）の其々を高次元化させる（ステップＳ１０６）。言い換えれば、データ変換部２４２は、位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→）の其々を高次元空間に埋め込む。

【0068】

上述したように一般的なＮｅＲＦは、３次元の位置ベクトルｘ（→）と２次元の方向ベクトルｄ（→）が入力されると、色ベクトルｃ（→）と密度σを出力する。しかしながら、入力データの次元は５次元のみである。多層パーセプトロン（ＭＬＰｓ）は任意の連続関数を理論上近似できるが、低次元の入力は色と形状の高周波成分を表現できないことが知られている。これは周波数バイアスやスペクトラルバイアスと呼ばれる。この現象はＮｅｕｒａｌＴａｎｇｅｎｔＫｅｒｎｅｌの深層学習の理論分野で研究されている現象であり、ニューラルネットワークは低周波な信号から高周波な信号へ学習されるというものである。言い換えると、簡単な関数から複雑な関数へフィッティングされる。結果として、多層パーセプトロン（ＭＬＰｓ）の出力が低周波成分へ収束し、自然画像が持つ高周波成分を捉えるのに失敗し、不鮮明な画像生成につながることが知られている。

【0069】

従って、データ変換部２４２は、データ変換部２４２は、低次元な入力データ（位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→））を高次元空間に埋め込む。例えば、データ変換部２４２は、ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇと呼ばれる手法によって、低次元な入力データを低次元の入力を高次元空間に埋め込んでよい。ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇは、数式（１）によって表される。

【0070】

【数1】

【0071】

ρは入力データ、つまり位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→）のいずれかを表しており、Ｌは、入力データρの埋め込み対象となる高次元空間の次元数を表している。Ｌはハイパーパラメータである。

【0072】

例えば、データ変換部２４２は、数式（１）に表すＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇによって、位置ベクトルｘ（→）をより高次元のベクトルγ（ｘ（→））に変換し、方向ベクトルｄ（→）をより高次元のベクトルγ（ｄ（→））に変換し、固有把持表現ｅ（→）をより高次元のベクトルγ（ｅ（→））に変換する。

【0073】

次に、画像生成部２４３は、機械学習モデルの一つであるＰ－ＮｅＲＦを用いて、データ変換部２４２によって高次元化されたベクトルγ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））を基に、別視点画像データを生成する（ステップＳ１０８）。

【0074】

図７は、Ｐ－ＮｅＲＦを模式的に表す図である。図示のように、画像生成部２４３は、Ｐ－ＮｅＲＦに対して、データ変換部２４２によって高次元化されたベクトルγ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））を入力する。これを受けてＰ－ＮｅＲＦは、それら高次元化されたベクトルが入力されたことに応じて色ベクトルｃ（→）と密度σを出力する。画像生成部２４３は、Ｐ－ＮｅＲＦによって出力された色ベクトルｃ（→）と密度σに基づいて、別視点画像データを生成する。

【0075】

図８は、Ｐ－ＮｅＲＦのネットワーク構成の一例を表す図である。本実施形態のＰ－ＮｅＲＦ（エンドエフェクタの関節の姿勢によって条件付けられたＮｅＲＦ）は、図示のように、複数の中間層を含む。中間層は、ＦＣ（Fully Connected）層であり、密度σを出力する出力層と、色ベクトルｃ（→）を出力する出力層とに途中で分岐している。例えば、各中間層の次元数は２５６であってよく、活性化関数はＲｅＬＵであってよい。

【0076】

Ｐ－ＮｅＲＦでは、γ（ｘ（→））とγ（ｅ（→））が最前段の中間層と真中の中間層との其々に入力され、γ（ｄ（→））とγ（ｅ（→））が色ベクトルｃ（→）を出力する出力層の前々段の中間層に入力される。

【0077】

固有把持表現ｅ（→）により条件付けられたＰ－ＮｅＲＦは、数式（２）によって表される。以下、固有把持表現ｅ（→）により条件付けられたＰ－ＮｅＲＦを「Ｅｉｇｅｎ－ＮｅＲＦ（Eigengrasp-conditioned NeRF）」と称して説明する。

【0078】

【数2】

【0079】

Ｅｉｇｅｎ－ＮｅＲＦは、γ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））が入力されたことに応じて色ベクトルｃ（→）と密度σを出力する。画像生成部２４３は、Ｅｉｇｅｎ－ＮｅＲＦによって出力された色ベクトルｃ（→）と密度σを視線方向（方向ベクトルｄ（→））上においてボリュームレンダリングすることで、位置ベクトルｘ（→）が示す三次元位置から観測したときに得られるであろうシーンの別視点画像データを生成する。

【0080】

例えば、画像生成部２４３は、ボリュームレンダリングとして、人間が知覚する視覚が網膜に入射する光の輝度から決定されるように、視線方向（方向ベクトルｄ（→））上の色を密度に応じて積算することで、別視点画像中の画素値を決定する。

【0081】

このとき、視線方向に沿って、光源から視点へ逆向きに進む光を、光線ｒと呼ぶ。画像生成部２４３は、３次元空間上を進む光線ｒ上の各サンプル点において、ＮｅＲＦによって決定された各サンプル点の色ベクトルｃ（→）と密度σから、画像空間上の画素値をボリュームレンダリングによって決定する。この一連のレンダリング手順を定式化する。光線ｒに沿った画像空間上の色Ｃ（ｒ）を決定するために、ボリュームレンダリングではオブジェクトＯＢが位置する３次元空間上を通る光線ｒを画像空間上の一点を決定する方向ｄに沿って飛ばす。この方向ｄはカメラ１１（又は監視カメラ２０）のパラメータから決定される。カメラ１１（又は監視カメラ２０）の位置を原点ｏ（→）としたとき、光線ｒ上の任意の点ｒ（ｔ）はカメラ原点ｏ（→）から方向ｄ（→）に向かってどれだけ進むかを示すパラメータｔを用いて数式（３）のように表すことができる。

【0082】

【数3】

【0083】

光線上の密度σ（ｒ（→）（ｔ））と色ｃ（ｒ（→）（ｔ），ｄ（→））をｔで積分することで、画像面上の色を決定できる。このとき、光線ｒの評価はカメラ原点ｏ（→）から無限遠に渡って計算することができるが、ボリュームレンダリングでは光線ｒを評価する下限ｔ_ｎと上限ｔ_ｆを設定する。画像空間上の点の色Ｃ（ｒ（→））を決定する積算処理は数式（４）及び（５）で定義される。

【0084】

【数4】

【0085】

【数5】

【0086】

ここで，関数ＴはＡｃｃｕｍｕｌａｔｅｄＴｒａｎｓｍｉｔｔａｎｃｅと呼ばれ、光源から観測視点（カメラ）へ向かう光線の輝度が観測視点により近い物質又は物体によって減衰する現象を表現している。数式（５）の通り、積分内の項は密度σが高いと積分値が大きくなり、結果として関数Ｔの出力値が小さくなる。これによって、その点の光線ｒ（ｔ）の影響が小さくなる。実装上、この積分は離散化して計算される。そのために、カメラの位置である原点ｏ（→）からの距離に応じた区間［ｔ_ｎ，ｔ_ｆ］で、ハイパーパラメータによって決定されるＮ個の評価したい光線の３次元位置をサンプリングする。レンダリング時は、光線上のサンプリングされた点でのみ評価され、画素値に影響する。このとき、一定間隔ではなく、数式（６）のように一様分布Ｕに基づくランダム性が付与され、光線がサンプリングされる。

【0087】

【数6】

【0088】

このサンプリングされたｔ_ｉの集合に対して、ＮｅＲＦは密度σ_ｉと色ｃ_ｉ（→）を出力する。この密度σ_ｉと色ｃ_ｉ（→）を離散的に積分することで、画像空間上の色Ｃ＾（ｒ）を決定する。Ｃ＾（ｒ）は、数式（７）によって表される。数式（７）におけるＴ_ｉは数式（８）によって表され、δ_ｉは数式（９）によって表される。

【0089】

【数7】

【0090】

【数8】

【0091】

【数9】

【0092】

ここでδ_ｉは隣接するサンプル点の間の距離を示す。画像生成部２４３は、ボリュームレンダリングによって画像上の画素値Ｃ＾（ｒ）を求めることを、全ての画素に対して実行することで、別視点画像を生成する。

【0093】

画像生成部２４３は、写実的な別視点画像をより効果的に生成するために、オブジェクトＯＢの境界付近などの色が急激に変動する領域やオブジェクトＯＢが密集する領域において、重点的に光線をサンプリングしてよい（Hierarchical Volume Sampling）。

【0094】

また、画像生成部２４３は、Ｅｉｇｅｎ－ＮｅＲＦによって出力された密度σと、光線ｒ上のサンプリング点ｔまでの距離ｚを用いて深度画像を別視点画像データとしてレンダリングしてもよい。深度は数式（１０）によって計算できる。

【0095】

【数10】

【0096】

なお、画像生成部２４３は、ボリュームレンダリングに代えて、例えば最大値投影法やサーフェスレンダリングといった他の手法で別視点画像を生成してもよい。また、画像生成部２４３は、Ｅｉｇｅｎ－ＮｅＲＦによって出力された密度σからＳＤＦ（Signed Distance Field）を構成し、３次元再構成した後に通常の３次元２次元射影を行うことで別視点画像を生成してもよい。

【0097】

フローチャートの説明に戻る。次に、出力制御部２４４は、画像生成部２４３によって生成された別視点画像データを出力する（ステップＳ１１０）。例えば、出力制御部２４４は、通信インターフェース２１０を介して、制御装置１００に別視点画像データを送信してもよいし、出力インターフェース２３０のディスプレイに別視点画像データを表示させてもよい。これによって本フローチャートの処理が終了する。

【0098】

例えば、制御装置１００の通信インターフェース１１０が情報処理装置２００から別視点画像データを受信すると、把持姿勢決定部１２２は、カメラ視点画像データと、別視点画像データとに基づいて、エンドエフェクタがとるべき姿勢を決定する。これによってロボット１０に目的のタスクを実行させるような制御コマンドを生成することができる。

【0099】

［学習装置の構成］
以下、第１実施形態に係る学習装置３００の構成を説明する。図９は、第１実施形態に係る学習装置３００の構成図である。学習装置３００は、例えば、通信インターフェース３１０と、処理部３２０と、記憶部３３０とを備える。

【0100】

通信インターフェース３１０は、ネットワークＮＷを介して情報処理装置２００と通信する。通信インターフェース３１０には、例えば、受信機や送信機を含む無線通信モジュールや、ＮＩＣなどが含まれる。

【0101】

処理部３２０は、例えば、取得部３２１と、学習部３２２と、通信制御部３２３とを備える。

【0102】

処理部３２０の構成要素は、例えば、ＣＰＵやＧＰＵなどが記憶部３３０に格納されたプログラムを実行することにより実現される。これらの構成要素の一部または全部は、ＬＳＩ、ＡＳＩＣ、またはＦＰＧＡなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

【0103】

記憶部３３０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、ＲＡＭなどにより実現される。記憶部３３０は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、未学習の機械学習モデル（Ｅｉｇｅｎ－ＮｅＲＦ）を定義したモデルデータを格納する。未学習の機械学習モデルとは、一度も学習されたことがないモデルであってもよいし、少なくとも一度は学習されたものの、その学習が十分でないモデルであってもよい。

【0104】

取得部３２１は、未学習の機械学習モデルを学習するためのトレーニングデータセットを取得する。

【0105】

トレーニングデータセットは、トレーニングのために用意された高次元ベクトルγ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））に対して、機械学習モデルが出力すべき正解の別視点画像データがラベル付けられたデータセットである。言い換えれば、トレーニングデータセットは、高次元ベクトルγ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））を入力データとし、機械学習モデルが出力すべき正解の別視点画像データを出力データとしたデータセットである。

【0106】

例えば、取得部３２１は、通信インターフェース３１０を介して他の装置（例えばデータソース）からトレーニングデータセットを取得してよい。また、記憶部３３０に既にトレーニングデータセットが格納されている場合、取得部３２１は、記憶部３３０からトレーニングデータセットを読み出してよい。更に学習装置３００のドライブ装置に、トレーニングデータセットが格納された非一過性の記憶媒体（例えばフレッシュメモリ等）が接続された場合、取得部３２１は、記憶媒体からトレーニングデータセットを読み出してもよい。

【0107】

学習部３２２は、取得部３２１によって取得されたトレーニングデータセットを用いて未学習の機械学習モデルを学習する。

【0108】

図１０は、機械学習モデルの学習方法を説明するための図である。例えば、学習部３２２は、トレーニングデータセットに入力データとして含まれる高次元ベクトルγ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））を、未学習の機械学習モデル（Ｅｉｇｅｎ－ＮｅＲＦ）に入力する。

【0109】

未学習の機械学習モデルは、高次元ベクトルγ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））が入力されたことに応じて、色ベクトルｃ（→）と密度σを出力する。学習部３２２は、機械学習モデルによって出力された色ベクトルｃ（→）と密度σを視線方向（方向ベクトルｄ（→））上においてボリュームレンダリングすることで、別視点画像データを生成する。

【0110】

学習部３２２は、ボリュームレンダリングにより生成した別視点画像データと、トレーニングデータセットに出力データとして含まれる正解の別視点画像データとの誤差Ｌ_{ｃｏｌｏｒ}を算出する。学習部３２２は、誤差Ｌ_{ｃｏｌｏｒ}が小さくなるように、機械学習モデルのパラメータである重み係数やバイアス成分などを確率的勾配降下法などを用いて決定（更新）する。誤差Ｌ_{ｃｏｌｏｒ}は、例えば、数式（１１）によって計算されてよい。

【0111】

【数11】

【0112】

ここで、Ｒは光線の集合であり、Ｃ_ｔ（ｒ）は正解の別視点画像の画素値である。数式（１１）の通り、カメラパラメータを与えられ、ＣｏａｒｓｅＮｅｔｗｏｒｋ及びＦｉｎｅＮｅｔｗｏｒｋからレンダリングした別視点画像と、正解の別視点画像との二乗誤差を最小化する。トレーニングデータとしては目的の視点の画像のみが必要であり、３Ｄモデルのような３次元のトレーニングデータが必要ない。これは微分可能なレンダラーを利用する強みである。加えて、機械学習モデルに別視点画像データとして深度画像を出力させたい場合、上記の色に関する誤差関数に加えて深度推定に関する誤差項を考慮する。深度推定の誤差を数式（１２）に示す。

【0113】

【数12】

【0114】

ここで、Ｄ_ｔ（ｒ）は正解の別視点画像の深度値であり、Ｄ＾_ｃ，Ｄ＾_ｆはそれぞれＣｏａｒｓｅＮｅｔｗｏｒｋとＦｉｎｅＮｅｔｗｏｒｋから推定された深度値である。最終的な誤差関数Ｌ_{ｄｅｐｔｈ}は、深度を考慮しない場合はＬ＝Ｌ_{ｃｏｌｏｒ}とし、深度を考慮する場合はＬ＝Ｌ_{ｃｏｌｏｒ}＋Ｌ_{ｄｅｐｔｈ}とすればよい。

【0115】

通信制御部３２３は、学習部３２２によって学習された機械学習モデルを定義したモデルデータを、通信インターフェース３１０を介して情報処理装置２００に送信する。これによって情報処理装置２００では、学習済みの機械学習モデルを用いて別視点画像データを生成することができる。

【0116】

以上説明した第１実施形態によれば、情報処理装置２００は、オブジェクトＯＢを把持又は操作可能なエンドエフェクタの関節の姿勢ベクトルｌ（→）と、ある視点からオブジェクトＯＢを観測する際の視線の方向ベクトルｄ（→）と、視点の位置データｘ（→）とを取得する。情報処理装置２００は、姿勢ベクトルｌ（→）に比べて次元数が少ない固有把持表現ｅ（→）を、姿勢ベクトルｌ（→）から生成する。情報処理装置２００は、Ｅｉｇｅｎ－ＮｅＲＦによって実装された機械学習モデルを用いて、固有把持表現ｅ（→）、方向ベクトルｄ（→）、及び位置データｘ（→）を基に、エンドエフェクタによってオブジェクトＯＢが把持又は操作されるシーンが上記視点から観測された場合に生成される別視点画像データを生成する。このような処理によって、外観と幾何形状ともに一貫性を持つ写実的な画像や、観測視点に応じた輝度変化を反映した画像を生成することができる。

【0117】

更に上述した第１実施形態によれば、情報処理装置２００は、ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇの前に（高次元化の前に）、位置ベクトルｘ（→）や方向ベクトルｄ（→）に比べてより高次元の姿勢ベクトルｌ（→）を、多変量解析やオートエンコーダを用いて固定長の固有把持表現ｅ（→）に変換する。これによって、ＮｅＲＦに入力する互い種類の異なる複数のデータ間の次元数の割合の偏りを減らすことができる。より具体的には、方向ベクトルｄ（→）や位置データｘ（→）の次元数に比べて、姿勢ベクトルｌ（→）の次元数が著しく大きくなるのを抑制することができる。この結果、ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇの次元のチューニングが容易になり、ＮｅＲＦの学習精度を高めることができる。

【0118】

＜第２実施形態＞
以下、第２実施形態について説明する。上述した第１実施形態では、情報処理システム１に含まれる制御装置１００と、情報処理装置２００と、学習装置３００とが互いに独立した別々の装置であるものとして説明した。第２実施形態では、これら装置のうち一部又は全部が一体となった装置である点で上述した第１実施形態と相違する。以下、第１実施形態との相違点を中心に説明し、第１実施形態と共通する点については説明を省略する。なお、第２実施形態の説明において、第１実施形態と同じ部分については同一符号を付して説明する。

【0119】

図１１は、第２実施形態に係るロボット１０及び制御装置１００Ａの構成図である。第２実施形態に係る制御装置１００Ａの処理部１２０Ａは、上述した取得部１２１、把持姿勢決定部１２２、コマンド生成部１２３、及び通信制御部１２４に加えて更に、データ変換部２４２と、画像生成部２４３とを備える。これによって、制御装置１００Ａ単独で別視点画像データを生成することができる。

【0120】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

【符号の説明】

【0121】

１…情報処理システム、１０…ロボット、１１…カメラ、１２…アクチュエータ、１３…状態センサ、１４…動作制御部、１００…制御装置、１１０…通信インターフェース、１２０…処理部、１３０…記憶部、２００…情報処理装置、２１０…通信インターフェース、２２０…入力インターフェース、２３０…出力インターフェース、２４０…処理部、２５０…記憶部、３００…学習装置、３１０…通信インターフェース、３２０…処理部、３３０…記憶部

【図1】