特開2024-111550 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧

特開2024-111550学習方法、学習装置、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024111550

(43)【公開日】2024-08-19

(54)【発明の名称】学習方法、学習装置、及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240809BHJP

G06V 10/72 20220101ALI20240809BHJP

【ＦＩ】

G06T7/00 350C

G06V10/72

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023016125

(22)【出願日】2023-02-06

(71)【出願人】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】奈良村五十志

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096FA67

5L096FA69

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】トレーニングデータとして利用可能な画像データを大量に生成する学習方法、学習装置及びプログラムを提供する。
【解決手段】学習装置の処理部における学習方法であって、オブジェクトを把持又は操作することが可能であり、かつ、複数の関節が設けられたエンドエフェクタの姿勢データと、互いに異なる複数の視点の其々からエンドエフェクタによってオブジェクトが把持又は操作されるシーンを観測する際の視線の方向データと、複数の視点の其々の位置データと、複数の視点の其々から観測したシーンの画像データである原画像データと、を取得すること、取得した姿勢データ、方向データ、位置データ及び原画像データを用いて、原画像データを再構成した画像データである再構成画像データを生成するようにオートエンコーダを学習すること、を含む。
【選択図】図６

【特許請求の範囲】

【請求項1】

オブジェクトを把持又は操作することが可能であり、かつ複数の関節が設けられたエンドエフェクタの姿勢データと、互いに異なる複数の視点の其々から前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンを観測する際の視線の方向データと、前記複数の視点の其々の位置データと、前記複数の視点の其々から観測した前記シーンの画像データである原画像データと、を取得すること、
取得された前記姿勢データ、前記方向データ、前記位置データ、及び前記原画像データを用いて、前記原画像データを再構成した画像データである再構成画像データを生成するようにオートエンコーダを学習すること、
を含む学習方法。

【請求項2】

前記オートエンコーダには、エンコーダ及びデコーダが含まれ、
前記エンコーダに対して前記姿勢データ、前記方向データ、前記位置データ、及び前記原画像データが入力されると、前記エンコーダは潜在変数を出力し、
前記デコーダに対して前記潜在変数が入力されると、前記デコーダは前記視線上における前記シーンの色及び密度を出力し、
前記オートエンコーダを学習することには、
前記デコーダによって出力された前記シーンの色及び密度を前記視線上において可視化することで、前記再構成画像データを生成すること、及び
前記エンコーダに入力された前記原画像データと、生成された前記再構成画像データとが一致するように、前記エンコーダ及び前記デコーダの其々のパラメータを調整すること、が含まれる、
請求項１に記載の学習方法。

【請求項3】

前記デコーダは、ニューラルレイディアンスフィールズである、
請求項２に記載の学習方法。

【請求項4】

前記姿勢データには、前記エンドエフェクタに設けられた前記複数の関節の其々の位置及び向きが要素として含まれる、
請求項１から３のうちいずれか一項に記載の学習方法。

【請求項5】

前記姿勢データを、前記姿勢データに比べて低次元であり、かつ前記関節の数に依存しない次元数のデータである低次元姿勢データに変換すること、並びに
前記低次元姿勢データ、前記方向データ、及び前記位置データを高次元化させること、が更に含まれ、
前記オートエンコーダを学習することは、高次元化させた前記低次元姿勢データ、高次元化させた前記方向データ、及び高次元化させた前記位置データを用いて、前記再構成画像データを生成するように前記オートエンコーダを学習すること、である、
請求項４に記載の学習方法。

【請求項6】

前記姿勢データ、前記方向データ、及び前記位置データを高次元化させること、が更に含まれ、
前記オートエンコーダを学習することは、高次元化させた前記姿勢データ、高次元化させた前記方向データ、及び高次元化させた前記位置データを用いて、前記再構成画像データを生成するように前記オートエンコーダを学習すること、である、
請求項４に記載の学習方法。

【請求項7】

オブジェクトを把持又は操作することが可能であり、かつ複数の関節が設けられたエンドエフェクタの姿勢データと、互いに異なる複数の視点の其々から前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンを観測する際の視線の方向データと、前記複数の視点の其々の位置データと、前記複数の視点の其々から観測した前記シーンの画像データである原画像データと、を取得する取得部と、
取得された前記姿勢データ、前記方向データ、前記位置データ、及び前記原画像データを用いて、前記原画像データを再構成した画像データである再構成画像データを生成するようにオートエンコーダを学習する学習部と、
を備える学習装置。

【請求項8】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習方法、学習装置、及びプログラムに関する。

【背景技術】

【0002】

多層パーセプトロン（Multilayer Perceptrons：ＭＬＰｓ）を含む機械学習モデルを用いて、あるオブジェクト又はシーンを任意の視点から観測した際に得られる画像（ビュー）を生成又は合成するコンピューティングシステムが知られている（例えば、特許文献１参照）。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開第２０２２／０２６６９２号

【発明の概要】

【発明が解決しようとする課題】

【0004】

従来の技術では、ＤｅｎｓｅＦｕｓｉｏｎなどＲＧＢ－Ｄデータと物体姿勢を直接回帰する深層学習を用いたネットワークなども検討が進められているものの、未知の視点から観測した画像を入力とした場合、出力結果が不安定になる場合があった。一方で、ロボットを用いたアプリケーションにおいて、実機で再現性良く大量のトレーニングデータを収集することは困難である。

【0005】

本発明は、このような事情を考慮してなされたものであり、トレーニングデータとして利用可能な画像データを大量に生成することができる学習方法、学習装置、及びプログラムを提供することを目的の一つとする。

【課題を解決するための手段】

【0006】

本発明に係る学習方法、学習装置、及びプログラムは以下の構成を採用した。
（１）本発明の第１の例は、オブジェクトを把持又は操作することが可能であり、かつ複数の関節が設けられたエンドエフェクタの姿勢データと、互いに異なる複数の視点の其々から前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンを観測する際の視線の方向データと、前記複数の視点の其々の位置データと、前記複数の視点の其々から観測した前記シーンの画像データである原画像データと、を取得すること、取得された前記姿勢データ、前記方向データ、前記位置データ、及び前記原画像データを用いて、前記原画像データを再構成した画像データである再構成画像データを生成するようにオートエンコーダを学習すること、を含む学習方法である。

【0007】

（２）本発明の第２の例は、第１の例において、前記オートエンコーダには、エンコーダ及びデコーダが含まれ、前記エンコーダに対して前記姿勢データ、前記方向データ、前記位置データ、及び前記原画像データが入力されると、前記エンコーダは潜在変数を出力し、前記デコーダに対して前記潜在変数が入力されると、前記デコーダは前記視線上における前記シーンの色及び密度を出力し、前記オートエンコーダを学習することには、前記デコーダによって出力された前記シーンの色及び密度を前記視線上において可視化することで、前記再構成画像データを生成すること、及び前記エンコーダに入力された前記原画像データと、生成された前記再構成画像データとが一致するように、前記エンコーダ及び前記デコーダの其々のパラメータを調整すること、が含まれるものである。

【0008】

（３）本発明の第３の例は、第２の例において、前記デコーダは、ニューラルレイディアンスフィールズであるものである。

【0009】

（４）本発明の第４の例は、第１から第３の例のいずれかにおいて、前記姿勢データには、前記エンドエフェクタに設けられた前記複数の関節の其々の位置及び向きが要素として含まれるものである。

【0010】

（５）本発明の第５の例は、第４の例において、前記姿勢データを、前記姿勢データに比べて低次元であり、かつ前記関節の数に依存しない次元数のデータである低次元姿勢データに変換すること、並びに前記低次元姿勢データ、前記方向データ、及び前記位置データを高次元化させること、が更に含まれ、前記オートエンコーダを学習することは、高次元化させた前記低次元姿勢データ、高次元化させた前記方向データ、及び高次元化させた前記位置データを用いて、前記再構成画像データを生成するように前記オートエンコーダを学習すること、であるものである。

【0011】

（６）本発明の第６の例は、第４の例において、前記姿勢データ、前記方向データ、及び前記位置データを高次元化させること、が更に含まれ、前記オートエンコーダを学習することは、高次元化させた前記姿勢データ、高次元化させた前記方向データ、及び高次元化させた前記位置データを用いて、前記再構成画像データを生成するように前記オートエンコーダを学習すること、であるものである。

【0012】

（７）本発明の第７の例は、オブジェクトを把持又は操作することが可能であり、かつ複数の関節が設けられたエンドエフェクタの姿勢データと、互いに異なる複数の視点の其々から前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンを観測する際の視線の方向データと、前記複数の視点の其々の位置データと、前記複数の視点の其々から観測した前記シーンの画像データである原画像データと、を取得する取得部と、取得された前記姿勢データ、前記方向データ、前記位置データ、及び前記原画像データを用いて、前記原画像データを再構成した画像データである再構成画像データを生成するようにオートエンコーダを学習する学習部と、を備える学習装置である。

【0013】

（８）本発明の第８の例は、オブジェクトを把持又は操作することが可能であり、かつ複数の関節が設けられたエンドエフェクタの姿勢データと、互いに異なる複数の視点の其々から前記エンドエフェクタによって前記オブジェクトが把持又は操作されるシーンを観測する際の視線の方向データと、前記複数の視点の其々の位置データと、前記複数の視点の其々から観測した前記シーンの画像データである原画像データと、を取得すること、取得された前記姿勢データ、前記方向データ、前記位置データ、及び前記原画像データを用いて、前記原画像データを再構成した画像データである再構成画像データを生成するようにオートエンコーダを学習すること、をコンピュータに実行させるためのプログラムである。

【発明の効果】

【0014】

上記の例によれば、トレーニングデータとして利用可能な画像データを大量に生成することができる。

【図面の簡単な説明】

【0015】

【図1】実施形態に係る学習システム１の構成の一例を表す図である。

【図2】実施形態に係るロボット１０の外観を模式的に表す図である。

【図3】実施形態に係るロボット１０及び制御装置１００の構成図である。

【図4】実施形態に係る学習装置２００の構成図である。

【図5】ＮｅＲＦの概要を説明するための図である。

【図6】実施形態に係る処理部２４０のトレーニングの処理の流れを表すフローチャートである。

【図7】オートエンコーダの構成を模式的に表す図である。

【図8】実施形態に係る処理部２４０のデータアーギュメンテーションの処理の流れを表すフローチャートである。

【図9】学習済みデコーダを用いたデータアーギュメンテーションを模式的に表す図である。

【発明を実施するための形態】

【0016】

以下、図面を参照し、本発明の学習方法、学習装置、及びプログラムの実施形態について説明する。

【0017】

［システムの構成］
図１は、実施形態に係る学習システム１の構成の一例を表す図である。学習システム１は、例えば、制御装置１００と、学習装置２００とを備える。例えば、制御装置１００及び学習装置２００は、ネットワークＮＷを介して接続される。ネットワークＮＷは、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）などを含む。

【0018】

制御装置１００は、ロボット１０が自律的に行動するように自律制御を行う。制御装置１００は、典型的には、ロボット１０に搭載され、直接ロボット１０を制御する。また、制御装置１００は、ロボット１０から遠く離れた地点に設置され、ネットワークＮＷを介して遠隔でロボット１０を制御してもよい。

【0019】

学習装置２００は、機械学習モデルのトレーニングデータとして利用可能な画像データを大量に生成することを目的に、制御装置１００を介してロボット１０から間接的に様々なデータを取得したり、制御装置１００を介さずにロボット１０から直接的に様々なデータを取得したりする。機械学習モデルは、例えば、ロボット１０を自律的に行動させるためのものであってもよいし、ロボット１０にオブジェクトを認識させるためのものであってもよいし、その用途は特段限定されず、あらゆる用途に適用されてよい。

【0020】

学習装置２００は、ロボット１０から取得したデータを用いて、トレーニングデータとして利用可能な画像データを人工的に生成又は合成するためのオートエンコーダを学習する。オートエンコーダの学習の詳細については後述する。

【0021】

学習装置２００は、単一の装置であってもよいし、ネットワークＮＷを介して接続された複数の装置が互いに協働して動作する一つのシステムであってもよい。すなわち、学習装置２００は、分散コンピューティングシステムやクラウドコンピューティングシステムに含まれる複数のコンピュータ（プロセッサ）によって実現されてもよい。

【0022】

［ロボットの外観］
図２は、実施形態に係るロボット１０の外観を模式的に表す図である。ロボット１０は、典型的には、エンドエフェクタによってオブジェクトＯＢを把持したり、又は操作したりすることができる人型ロボット（ヒューマノイドロボット）であるがこれに限られず、オブジェクトＯＢを把持又は操作できれば如何なる態様のロボットであってもよい。例えば、ロボット１０は、四足歩行の動物型のロボットであってもよいし、産業用ロボットであってもよいし、軍事用ロボットであってもよいし、家庭用の掃除用ロボットであってもよいし、その他種々のロボットであってよい。

【0023】

エンドエフェクタは、ロボットハンドともいう。そのため以下の説明では、エンドエフェクタのことを単に「手」と称して説明する場合がある。ロボット１０のエンドエフェクタには、例えば、数本の指がグリッパーとして設けられてよい。

【0024】

ロボット１０は、例えば、ロボット１０から見た外界環境を画像化するためのカメラ１１や、ロボット１０の動作を制御するための制御装置１００などを備えており、制御装置１００によって決定された行動に従って目的のタスクを実行する。

【0025】

タスクとは、例えば、オブジェクトＯＢを手で掴んだり、オブジェクトＯＢをもう一方の手に持ち替えたり、又はオブジェクトＯＢを移動させたりすることである。なお、タスクはこれらに限られず、任意のタスクが設定可能である。

【0026】

カメラ１１は、ロボット１０のボディの一部（典型的には頭部）に設置される。カメラ１１は、例えば、デプスカメラ（３Ｄカメラ）であってよい。例えば、カメラ１１は、エンドエフェクタによってオブジェクトＯＢが把持されたり、又は操作されたりするシーンを撮像し、そのシーンを写した画像データを制御装置１００に送信する。

【0027】

［ロボット及び制御装置の構成］
図３は、実施形態に係るロボット１０及び制御装置１００の構成図である。ロボット１０は、上述したカメラ１１に加えて、更にアクチュエータ１２と、状態センサ１３と、動作制御部１４とを備える。

【0028】

アクチュエータ１２は、動作制御部１４の制御を受けてロボット１０の各部位（腕、指、足、頭、胴、腰等）を駆動する。アクチュエータ１２は、例えば、電磁モータ、ギア、人工筋などを含む。

【0029】

状態センサ１３は、ロボット１０の状態（例えば関節角度や角速度、トルク等）を検出するセンサである。状態センサ１３は、例えば、ロボット１０やエンドエフェクタの関節の回動の度合いを検出するロータリエンコーダや、関節を回動させるためのワイヤーの張力を検出する張力センサ、関節軸にかかるトルクを検出するトルクセンサ、ロボット１０の姿勢を検出するための加速度センサやジャイロセンサなどを含む。

【0030】

動作制御部１４は、制御装置１００によって生成された制御コマンドに基づいて、アクチュエータ１２を制御する。

【0031】

制御装置１００は、例えば、通信インターフェース１１０と、処理部１２０と、記憶部１３０とを備える。

【0032】

通信インターフェース１１０は、ネットワークＮＷを介して外部装置と通信したり、バスのような通信線を介してロボット１０と通信したりする。外部装置は、例えば、学習装置２００や、ロボット１０に対してタスクの実行を要求するユーザが利用可能な端末装置（スマートフォンやパーソナルコンピュータなど）などである。通信インターフェース１１０には、例えば、受信機や送信機を含む無線通信モジュールや、ＮＩＣ（Network Interface Card）などが含まれる。

【0033】

処理部１２０は、例えば、取得部１２１と、把持姿勢決定部１２２と、コマンド生成部１２３と、通信制御部１２４とを備える。

【0034】

取得部１２１は、通信インターフェース１１０を介して、ロボット１０から画像データと状態データを取得する。

【0035】

画像データは、カメラ１１がオブジェクトＯＢを撮像した際に生成された画像データである。例えば、カメラ１１がロボット１０の頭部に設置された場合、取得部１２１は、エンドエフェクタによってオブジェクトＯＢが把持されたり又は操作されたりするシーンを、ロボット１０の頭部という視点から観測したときの画像データを取得する。

【0036】

状態データには、例えば、ロボット１０の状態センサ１３の検出値が含まれる。具体的には、状態データには、ロータリエンコーダにより検出されたロボット１０又はエンドエフェクタの関節の角度、張力センサにより検出されたロボット１０又はエンドエフェクタの関節のワイヤー張力、トルクセンサにより検出されたロボット１０又はエンドエフェクタの関節軸のトルク、加速度センサにより検出されたロボット１０又はエンドエフェクタの加速度、ジャイロセンサにより検出されたロボット１０又はエンドエフェクタの角速度などが含まれる。

【0037】

取得部１２１は、ロボット１０の作業空間上に監視カメラ２０が存在する場合、ロボット１０から画像データを取得することに加えて、或いは代えて、監視カメラ２０から画像データを取得してもよい。以下、カメラ１１及び／又は監視カメラ２０によって観測されたシーンの画像データのことを「原画像データ」と称して説明する。

【0038】

把持姿勢決定部１２２は、原画像データや、その他の様々なデータに基づいて、エンドエフェクタがとるべき姿勢（ポーズ）を決定する。

【0039】

コマンド生成部１２３は、把持姿勢決定部１２２によって決定されたエンドエフェクタの姿勢と、取得部１２１によって取得された状態データとに基づいて、ロボット１０の各アクチュエータ１２を制御するための制御コマンドを生成する。

【0040】

通信制御部１２４は、通信インターフェース１１０を介して、コマンド生成部１２３によって生成された制御コマンドをロボット１０に送信する。ロボット１０の動作制御部１４は、制御装置１００から制御コマンドを受信すると、その制御コマンドに基づいてアクチュエータ１２を制御する。これによってロボット１０が行動し、オブジェクトＯＢを把持したり操作したりするようなタスクが実行される。

【0041】

処理部１２０の構成要素は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）などが記憶部１３０に格納されたプログラム又はインストラクションを実行することにより実現される。これらの構成要素の一部または全部は、ＬＳＩ（Large Scale Integration）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

【0042】

記憶部１３０は、例えば、ＨＤＤ（Hard Disc Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）などにより実現される。記憶部１３０は、ファームウェアやアプリケーションプログラム、処理部１２０の演算結果などを格納する。

【0043】

［学習装置の構成］
以下、実施形態に係る学習装置２００の構成を説明する。図４は、実施形態に係る学習装置２００の構成図である。学習装置２００は、例えば、通信インターフェース２１０と、入力インターフェース２２０と、出力インターフェース２３０と、処理部２４０と、記憶部２５０とを備える。

【0044】

通信インターフェース２１０は、ネットワークＮＷを介して制御装置１００などと通信する。通信インターフェース２１０には、例えば、受信機や送信機を含む無線通信モジュールや、ＮＩＣなどが含まれる。

【0045】

入力インターフェース２２０は、ユーザからの各種の入力操作を受け付け、受け付けた入力操作を電気信号に変換して処理部２４０に出力する。例えば、入力インターフェース２２０は、マウス、キーボード、トラックボール、スイッチ、ボタン、ジョイスティック、タッチパネル等を含む。

【0046】

出力インターフェース２３０は、例えば、ディスプレイやスピーカなどを備える。ディスプレイは、処理部２４０によって生成された画像や、操作者からの各種の入力操作を受け付けるためのＧＵＩ（Graphical User Interface）等を表示する。例えば、ディスプレイは、ＬＣＤ（Liquid Crystal Display）や、有機ＥＬ（Electro Luminescence）ディスプレイ等である。スピーカは、処理部２４０から入力された情報を音声として出力する。

【0047】

処理部２４０は、例えば、取得部２４１と、データ変換部２４２と、学習部２４３と、画像生成部２４４と、出力制御部２４５とを備える。

【0048】

処理部２４０の構成要素は、例えば、ＣＰＵやＧＰＵなどが記憶部２５０に格納されたプログラムを実行することにより実現される。これらの構成要素の一部または全部は、ＬＳＩ、ＡＳＩＣ、またはＦＰＧＡなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。

【0049】

記憶部２５０は、例えば、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＯＭ、ＲＡＭなどにより実現される。記憶部２５０は、ファームウェアやアプリケーションプログラムなどの各種プログラムの他に、モデルデータを格納する。

【0050】

モデルデータは、オートエンコーダを定義したプログラム又はアルゴリズムである。オートエンコーダには、エンコーダ及びデコーダが含まれる。

【0051】

エンコーダは、例えば、ＣＮＮ（Convolutional Neural Network(s)）等のニューラルネットワークを用いて実装されてよい。

【0052】

デコーダは、例えば、ＮｅＲＦ（Neural Radiance Fields）によって実装されてよい。ＮｅＲＦは、主に、複数の視点の画像から、任意の視点（新たな視点）の画像を生成するタスク（新規視点画像生成（Novel View Synthesis）という）を実現するために提案された手法である。具体的には、ＮｅＲＦは、対象とするシーンを観測することができる任意の視点が指定され、更に、その視点からシーンを観測する際の視線の方向が指定された場合、指定された視点及び方向で対象シーンを観測したときに人間であれば認識し得るような三次元構造に関する情報を出力するように予め学習されたニューラルネットワークである。

【0053】

オートエンコーダがニューラルネットワークによって実装される場合、例えば、当該ニューラルネットワークを構成する入力層、一以上の隠れ層（中間層）、出力層の其々の層に含まれるユニットが互いにどのように結合されるのかという結合情報や、結合されたユニット間で入出力されるデータに付与される結合係数がいくつであるのかという重み情報などが含まれる。

【0054】

結合情報は、例えば、各層に含まれるユニット数や、各ユニットの結合先のユニットの種類を指定する情報、各ユニットを実現する活性化関数、隠れ層のユニット間に設けられたゲートなどの情報を含む。

【0055】

ユニットを実現する活性化関数は、例えば、ＲｅＬＵ（Rectified Linear Unit）関数やＥＬＵ（Exponential Linear Units）関数、クリッピング関数、シグモイド関数、ステップ関数、ハイパポリックタンジェント関数、恒等関数などであってよい。ゲートは、例えば、活性化関数によって返される値（例えば１または０）に応じて、ユニット間で伝達されるデータを選択的に通過させたり、重み付けたりする。

【0056】

結合係数は、例えば、ニューラルネットワークの隠れ層において、ある層のユニットから、より深い層のユニットにデータが出力される際に、出力データに対して付与される重みを含む。また、結合係数は、各層の固有のバイアス成分などを含んでもよい。

【0057】

図５は、ＮｅＲＦの概要を説明するための図である。ＮｅＲＦは、ある視点の三次元位置を示す位置ベクトルｘ（→）＝（ｘ，ｙ，ｚ）と、その視点からシーンを観測する際の視線の方向を示す方向ベクトルｄ（→）＝（θ，φ）とが指定されると、視線上においてＮ個のサンプリング点を定め、各サンプリング点の色を示す色ベクトルｃ（→）＝（Ｒ，Ｇ，Ｂ）と密度σを出力する。括弧付きの矢印（→）はベクトルを表している。

【0058】

例えば、ｘは三次元空間の幅を表し、ｙは奥行きを表し、ｚは高さを表してよい。θ及びφのうち一方は仰角を表し、θ及びφのうち他方は方位角を表してよい。Ｒは赤色を表し、Ｇは緑色を表し、Ｂは青色を表している。Ｎは任意の自然数である。

【0059】

本実施形態では、ロボット１０のエンドエフェクタの関節の姿勢によって条件付けられたＮｅＲＦを利用する。人の身体などのポーズを制御することを目的としたＮｅＲＦモデルは既にいくつか提案されており、最もシンプルなモデルとして、Ｐｏｓｅ－ｃｏｎｄｉｔｉｏｎｅｄＮｅＲＦ（以下、Ｐ－ＮｅＲＦという）が知られている。本実施形態では、一例として、エンドエフェクタの関節の姿勢によって条件付られたＰ－ＮｅＲＦによってオートエンコーダのデコーダが実装されるものとして説明する。

【0060】

［学習装置の処理フロー・トレーニング］
以下、学習装置２００の処理部２４０の各構成要素についてフローチャートを用いて説明する。図６は、実施形態に係る処理部２４０のトレーニングの処理の流れを表すフローチャートである。本フローチャートの処理は、オートエンコーダをトレーニングする際に実行される。

【0061】

まず、取得部２４１は、ある視点からカメラ１１及び／又は監視カメラ２０によって観測されたシーン（エンドエフェクタによってオブジェクトＯＢが把持されたり又は操作されたりするシーン）の画像データである原画像データと、当該視点の三次元位置を表す位置ベクトルｘ（→）と、当該視点からシーンを観測する際の視線の方向を示す方向ベクトルｄ（→）とを、通信インターフェース２１０を介して、ロボット１０又は制御装置１００から取得する（ステップＳ１００）。位置ベクトルｘ（→）は「位置データ」の一例であり、方向ベクトルｄ（→）は「方向データ」の一例である。

【0062】

次に、取得部２４１は、エンドエフェクタの関節の姿勢を表す姿勢ベクトルｌ（→）を取得する（ステップＳ１０２）。

【0063】

姿勢ベクトルｌ（→）は、エンドエフェクタに設けられた複数の関節の其々の回転行列と平行移動ベクトルからなる４×４次元のポーズ変換行列ｌ^ｉ（ｉ＝１，．．．，Ｐ）として表される。以下、回転行列と平行移動ベクトルをまとめて「変換行列」と説明する場合がある。Ｐは関節数である。つまり、姿勢ベクトルｌ（→）は、Ｐ×４×４次元である。例えば、関節数Ｐが１７である場合、姿勢ベクトルｌ（→）は２７２次元となる。位置ベクトルｘ（→）が３次元であり、方向ベクトルｄ（→）が２次元であることを考慮すると、これらベクトルに比べて姿勢ベクトルｌ（→）は非常に高次元なベクトルである。

【0064】

例えば、取得部２４１は、通信インターフェース２１０を介して、ロボット１０又は制御装置１００から、状態センサ１３の検出値が含まれる状態データを取得する。そして、取得部２４１は、状態データに含まれる複数の検出値の中から、エンドエフェクタに設けられた複数の関節の其々の変換行列（回転行列及び平行移動ベクトル）を抽出し、これらを組み合わせて姿勢ベクトルｌ（→）を生成する。姿勢ベクトルｌ（→）は「姿勢データ」の一例である。

【0065】

次に、データ変換部２４２は、姿勢ベクトルｌ（→）を低次元表現に変換（圧縮）する（ステップＳ１０４）。言い換えれば、データ変換部２４２は、姿勢ベクトルｌ（→）を次元圧縮する。

【0066】

エンドエフェクタの関節からなる可動域の空間は、より低次元の空間で表現することができる。例えば、取得部２４１は、、関節数Ｐで各関節の変換行列を横に並べた姿勢ベクトルｌ（→）をＮサンプル分取得する。データ変換部２４２は、それらＮサンプルの姿勢ベクトルｌ（→）を（ｘ，ｙ，ｚ，ｙａｗ，ｐｉｔｃｈ，ｒｏｌｌ）の６次元ベクトルに変換し、その６次元ベクトルに変換したＮサンプルの姿勢ベクトルｌ（→）の集合Ｄ∈｛ｌ_ｉ｝^Ｎ _ｉ＝１に対して主成分分析を行う。データ変換部２４２は、主成分分析により得られた共分散行列の固有値と固有ベクトルを用いて、Ｐ×４×４次元の姿勢ベクトルｌ（→）を、ｄ次元の低次元表現ｅ（→）に変換（圧縮）する。

【0067】

Ｐ×４×４次元の姿勢ベクトルｌ（→）は、関節数Ｐの増加に比例して次元数が増加する。一方、低次元表現ｅ（→）は、関節数Ｐに依存せず固定長のベクトル表現（次元数が一定のベクトル）である。以下、低次元表現ｅ（→）のことを「固有把持表現（Eigengrasp representation）」と称して説明する。固有把持表現ｅ（→）は「低次元姿勢データ」の一例である。

【0068】

なお、データ変換部２４２は、主成分分析の代わりに、重回帰分析や独立成分分析、因子分析といったその他の多変量解析を行ってもよい。また、データ変換部２４２は、多変量解析を行うことで姿勢ベクトルｌ（→）を固有把持表現ｅ（→）に変換する代わりに、上記のオートエンコーダとは異なるその他のオートエンコーダを用いて姿勢ベクトルｌ（→）を固有把持表現ｅ（→）に変換してもよい。その他のオートエンコーダは、入力データの次元を圧縮するように予め学習されたモデルであり、例えば、畳み込み層を含むニューラルネットワークによって実装される。

【0069】

次に、データ変換部２４２は、位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→）の其々を高次元化させる（ステップＳ１０６）。言い換えれば、データ変換部２４２は、位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→）の其々を高次元空間に埋め込む。

【0070】

上述したように一般的なＮｅＲＦは、３次元の位置ベクトルｘ（→）と２次元の方向ベクトルｄ（→）が入力されると、色ベクトルｃ（→）と密度σを出力する。しかしながら、入力データの次元は５次元のみである。多層パーセプトロン（ＭＬＰｓ）は任意の連続関数を理論上近似できるが、低次元の入力は色と形状の高周波成分を表現できないことが知られている。これは周波数バイアスやスペクトラルバイアスと呼ばれる。この現象はＮｅｕｒａｌＴａｎｇｅｎｔＫｅｒｎｅｌの深層学習の理論分野で研究されている現象であり、ニューラルネットワークは低周波な信号から高周波な信号へ学習されるというものである。言い換えると、簡単な関数から複雑な関数へフィッティングされる。結果として、多層パーセプトロン（ＭＬＰｓ）の出力が低周波成分へ収束し、自然画像が持つ高周波成分を捉えるのに失敗し、不鮮明な画像生成につながることが知られている。

【0071】

従って、データ変換部２４２は、低次元な入力データ（位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→））を高次元空間に埋め込む。例えば、データ変換部２４２は、ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇと呼ばれる手法によって、低次元な入力データを低次元の入力を高次元空間に埋め込んでよい。ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇは、数式（１）によって表される。

【0072】

【数1】

【0073】

ρは入力データ、つまり位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→）のいずれかを表しており、Ｌは、入力データρの埋め込み対象となる高次元空間の次元数を表している。Ｌはハイパーパラメータである。

【0074】

例えば、データ変換部２４２は、数式（１）に表すＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇによって、位置ベクトルｘ（→）をより高次元のベクトルγ（ｘ（→））に変換し、方向ベクトルｄ（→）をより高次元のベクトルγ（ｄ（→））に変換し、固有把持表現ｅ（→）をより高次元のベクトルγ（ｅ（→））に変換する。

【0075】

次に、学習部２４３は、データ変換部２４２によって高次元化された位置ベクトルγ（ｘ（→））、方向ベクトルγ（ｄ（→））、及び姿勢ベクトルγ（ｅ（→））と、原画像データとを、未学習のオートエンコーダに入力する（ステップＳ１０８）。

【0076】

未学習とは、例えば、一度も学習されていない状態であってもよいし、何度か学習されたものの、その学習が不十分である状態であってもよい。

【0077】

図７は、オートエンコーダの構成を模式的に表す図である。図示のように、学習部２４３は、オートエンコーダの前段に設けられたエンコーダ（例えばＣＮＮ）に対して、データ変換部２４２によって高次元化されたベクトルγ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））と、原画像データとを入力する。これを受けてエンコーダは、それら高次元化されたベクトルと原画像データが入力されたことに応じて潜在変数ｚ（→）を出力する。潜在変数ｚ（→）は、潜在表現や潜在ベクトルとも呼ばれる。

【0078】

オートエンコーダの後段に設けられたデコーダには、γ（ｘ（→））、γ（ｄ（→））、γ（ｅ（→））、及び原画像データからエンコードされた潜在変数ｚ（→）が入力される。これを受けてデコーダは、潜在変数ｚ（→）が入力されたことに応じて色ベクトルｃ（→）と密度σを出力する。

【0079】

画像生成部２４４は、デコーダによって出力された色ベクトルｃ（→）及び密度σに基づいて、原画像データを再構成した画像データ（以下「再構成画像データ」という）を生成する（ステップＳ１１０）。

【0080】

例えば、画像生成部２４４は、デコーダによって出力された色ベクトルｃ（→）と密度σを視線方向（方向ベクトルｄ（→））上においてボリュームレンダリングすることで、位置ベクトルｘ（→）が示す三次元位置（つまり原画像データに写るシーンが観測された視点）から観測したときに得られるであろうシーンの画像データを再構成画像データとして生成する。

【0081】

例えば、画像生成部２４４は、ボリュームレンダリングとして、人間が知覚する視覚が網膜に入射する光の輝度から決定されるように、視線方向（方向ベクトルｄ（→））上の色を密度に応じて積算することで、再構成画像中の画素値を決定する。

【0082】

このとき、視線方向に沿って、光源から視点へ逆向きに進む光を、光線ｒと呼ぶ。画像生成部２４４は、３次元空間上を進む光線ｒ上の各サンプル点において、デコーダ（ＮｅＲＦ）によって決定された各サンプル点の色ベクトルｃ（→）と密度σから、画像空間上の画素値をボリュームレンダリングによって決定する。この一連のレンダリング手順を定式化する。光線ｒに沿った画像空間上の色Ｃ（ｒ）を決定するために、ボリュームレンダリングではオブジェクトＯＢが位置する３次元空間上を通る光線ｒを画像空間上の一点を決定する方向ｄに沿って飛ばす。この方向ｄはカメラ１１（又は監視カメラ２０）のパラメータから決定される。カメラ１１（又は監視カメラ２０）の位置を原点ｏ（→）としたとき、光線ｒ上の任意の点ｒ（ｔ）はカメラ原点ｏ（→）から方向ｄ（→）に向かってどれだけ進むかを示すパラメータｔを用いて数式（２）のように表すことができる。

【0083】

【数2】

【0084】

光線上の密度σ（ｒ（→）（ｔ））と色ｃ（ｒ（→）（ｔ），ｄ（→））をｔで積分することで、画像面上の色を決定できる。このとき、光線ｒの評価はカメラ原点ｏ（→）から無限遠に渡って計算することができるが、ボリュームレンダリングでは光線ｒを評価する下限ｔ_ｎと上限ｔ_ｆを設定する。画像空間上の点の色Ｃ（ｒ（→））を決定する積算処理は数式（３）及び（４）で定義される。

【0085】

【数3】

【0086】

【数4】

【0087】

ここで、関数ＴはＡｃｃｕｍｕｌａｔｅｄＴｒａｎｓｍｉｔｔａｎｃｅと呼ばれ、光源から観測視点（カメラ）へ向かう光線の輝度が観測視点により近い物質又は物体によって減衰する現象を表現している。数式（４）の通り、積分内の項は密度σが高いと積分値が大きくなり、結果として関数Ｔの出力値が小さくなる。これによって、その点の光線ｒ（ｔ）の影響が小さくなる。実装上、この積分は離散化して計算される。そのために、カメラの位置である原点ｏ（→）からの距離に応じた区間［ｔ_ｎ，ｔ_ｆ］で、ハイパーパラメータによって決定されるＮ個の評価したい光線の３次元位置をサンプリングする。レンダリング時は、光線上のサンプリングされた点でのみ評価され、画素値に影響する。このとき、一定間隔ではなく、数式（５）のように一様分布Ｕに基づくランダム性が付与され、光線がサンプリングされる。

【0088】

【数5】

【0089】

このサンプリングされたｔ_ｉの集合に対して、ＮｅＲＦは密度σ_ｉと色ｃ_ｉ（→）を出力する。この密度σ_ｉと色ｃ_ｉ（→）を離散的に積分することで、画像空間上の色Ｃ＾（ｒ）を決定する。Ｃ＾（ｒ）は、数式（６）によって表される。数式（６）におけるＴ_ｉは数式（７）によって表され、δ_ｉは数式（８）によって表される。

【0090】

【数6】

【0091】

【数7】

【0092】

【数8】

【0093】

ここで、δ_ｉは隣接するサンプル点の間の距離を示す。画像生成部２４４は、ボリュームレンダリングによって画像上の画素値Ｃ＾（ｒ）を求めることを、全ての画素に対して実行することで、再構成画像を生成する。

【0094】

画像生成部２４４は、写実的な再構成画像をより効果的に生成するために、オブジェクトＯＢの境界付近などの色が急激に変動する領域やオブジェクトＯＢが密集する領域において、重点的に光線をサンプリングしてよい（Hierarchical Volume Sampling）。

【0095】

また、画像生成部２４４は、デコーダによって出力された密度σと、光線ｒ上のサンプリング点ｔまでの距離ｚを用いて深度画像を再構成画像データとしてレンダリングしてもよい。深度は数式（９）によって計算できる。

【0096】

【数9】

【0097】

なお、画像生成部２４４は、ボリュームレンダリングに代えて、例えば最大値投影法やサーフェスレンダリングといった他の手法で再構成画像を生成してもよい。また、画像生成部２４４は、デコーダによって出力された密度σからＳＤＦ（Signed Distance Field）を構成し、３次元再構成した後に通常の３次元２次元射影を行うことで再構成画像を生成してもよい。

【0098】

フローチャートの説明に戻る。次に、学習部２４３は、原画像データと再構成画像データとの誤差（損失や差分ともいう）を算出し、その誤差に基づいて、オートエンコーダのパラメータ（重み係数やバイアス成分など）を調整又は決定する（ステップＳ１１２）。

【0099】

例えば、学習部２４３は、誤差が小さくなるように（つまり原画像データと再構成画像データとが一致するように）、オートエンコーダに含まれるエンコーダとデコーダの其々のパラメータである重み係数やバイアス成分などを確率的勾配降下法などを用いて調整する。

【0100】

次に、学習部２４３は、トレーニングの反復回数（イタレーション回数）が所定回数に達したか否かを判定し、反復回数が所定回数に達していなければ、上述したＳ１００の処理に戻る。Ｓ１００の処理に戻った場合、前回の処理と異なる視点の原画像データ、位置ベクトルｘ（→）、方向ベクトルｄ（→）が取得される。この結果、前回の処理と異なる視点の原画像データ及び再構成画像データを基にオートエンコーダが再学習される。

【0101】

一方、反復回数が所定回数に達した場合、本フローチャートの処理が終了する。

【0102】

［学習装置の処理フロー・データアーギュメンテーション］
以下、学習済みのオートエンコーダを用いて、機械学習モデルのトレーニングデータとして利用可能な再構成画像データを大量に生成する処理（以下、データアーギュメンテーションという）について説明する。図８は、実施形態に係る処理部２４０のデータアーギュメンテーションの処理の流れを表すフローチャートである。本フローチャートの処理は、データアーギュメンテーションの際に実行される。

【0103】

まず、画像生成部２４４は、乱数などを用いて潜在変数ｚ（→）を生成する（ステップＳ２００）。

【0104】

次に、画像生成部２４４は、学習済みのオートエンコーダの一部であるデコーダ（つまり学習済みデコーダ）に対して、生成された潜在変数ｚ（→）を入力する（ステップＳ２０２）。学習済みデコーダは、潜在変数ｚ（→）が入力されたことに応じて色ベクトルｃ（→）と密度σを出力する。

【0105】

次に、画像生成部２４４は、学習済みデコーダによって出力された色ベクトルｃ（→）及び密度σに基づいて、再構成画像データを生成する（ステップＳ２０６）。

【0106】

次に、出力制御部２４５は、画像生成部２４４によって生成された再構成画像データを出力する（ステップＳ２０６）。例えば、出力制御部２４５は、通信インターフェース２１０を介して、制御装置１００に再構成画像データを送信してもよいし、出力インターフェース２３０のディスプレイに再構成画像データを表示させてもよい。

【0107】

次に、画像生成部２４４は、ランタイム（画像生成）の反復回数が所定回数に達したか否かを判定し、反復回数が所定回数に達していなければ、上述したＳ２００の処理を戻す。Ｓ２００の処理に戻った場合、新たな潜在変数ｚ（→）が生成される。

【0108】

一方、反復回数が所定回数に達した場合、本フローチャートの処理が終了する。

【0109】

図９は、学習済みデコーダを用いたデータアーギュメンテーションを模式的に表す図である。図示のように、反復回数が所定回数に達するまで、潜在変数ｚ（→）が生成され、その潜在変数ｚ（→）を基に再構成画像データが生成されるという一連の処理が繰り返される。

【0110】

以上説明した実施形態によれば、学習装置２００は、オブジェクトＯＢを把持又は操作することが可能であり、かつ複数の関節が設けられたエンドエフェクタの姿勢ベクトルｌ（→）（「姿勢データ」の一例）を取得する。学習装置２００は、互いに異なる複数の視点の其々からエンドエフェクタによってオブジェクトＯＢが把持又は操作されるシーンを観測する際の視線の方向ベクトルｄ（→）（「方向データ」の一例）を取得する。学習装置２００は、複数の視点の其々の位置ベクトルｘ（→）（「位置データ」の一例）を取得する。学習装置２００は、複数の視点の其々から観測したシーンの画像データである原画像データを取得する。学習装置２００は、それら姿勢ベクトルｌ（→）、方向ベクトルｄ（→）、位置ベクトルｘ（→）、及び原画像データを用いて、原画像データを再構成した画像データである再構成画像データを生成するようにオートエンコーダを学習する。このように学習されたオートエンコーダを用いることで、トレーニングデータとして利用可能であり、かつ、現実的にあり得る画像データを疑似的に大量に生成することができる。

【0111】

［実施形態の変形例］
以下、上述した実施形態の変形例について説明する。上述した実施形態において、学習装置２００は、姿勢ベクトルｌ（→）を、低次元表現である固有把持表現ｅ（→）に変換し、位置ベクトルｘ（→）、方向ベクトルｄ（→）、及び固有把持表現ｅ（→）の其々を高次元化させ、位置ベクトルｘ（→）の高次元ベクトルであるγ（ｘ（→））と、方向ベクトルｄ（→）の高次元ベクトルであるγ（ｄ（→））と、固有把持表現ｅ（→）の高次元ベクトルであるγ（ｅ（→））と、原画像データとを、オートエンコーダに入力するものとして説明したがこれに限られない。

【0112】

実施形態の変形例において、学習装置２００は、姿勢ベクトルｌ（→）を低次元表現である固有把持表現ｅ（→）に変換せずに、姿勢ベクトルｌ（→）のまま高次元化させてよい。そして、学習装置２００は、位置ベクトルｘ（→）の高次元ベクトルであるγ（ｘ（→））と、方向ベクトルｄ（→）の高次元ベクトルであるγ（ｄ（→））と、姿勢ベクトルｌ（→）の高次元ベクトルであるγ（ｌ（→））と、原画像データとを、オートエンコーダに入力してよい。このように、姿勢ベクトルｌ（→）を次元圧縮せずとも、再構成画像データを生成するようにオートエンコーダを学習することができる。

【0113】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

【符号の説明】

【0114】

１…学習システム、１０…ロボット、１１…カメラ、１２…アクチュエータ、１３…状態センサ、１４…動作制御部、１００…制御装置、１１０…通信インターフェース、１２０…処理部、１３０…記憶部、２００…学習装置、２１０…通信インターフェース、２２０…入力インターフェース、２３０…出力インターフェース、２４０…処理部、２４１…取得部、２４２…データ変換部、２４３…学習部、２４４…画像生成部、２４５…出力制御部

【図1】