IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ リサーチ インスティテュート,インコーポレイティドの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-23
(45)【発行日】2025-06-02
(54)【発明の名称】ディープネットワークの訓練方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20250526BHJP
   B25J 5/00 20060101ALI20250526BHJP
【FI】
G06T7/00 350C
B25J5/00 A
【請求項の数】 10
(21)【出願番号】P 2022503981
(86)(22)【出願日】2020-06-05
(65)【公表番号】
(43)【公表日】2022-10-07
(86)【国際出願番号】 US2020036450
(87)【国際公開番号】W WO2021015869
(87)【国際公開日】2021-01-28
【審査請求日】2023-06-02
(31)【優先権主張番号】62/877,792
(32)【優先日】2019-07-23
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/877,791
(32)【優先日】2019-07-23
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/877,793
(32)【優先日】2019-07-23
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/570,813
(32)【優先日】2019-09-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518102470
【氏名又は名称】トヨタ リサーチ インスティテュート,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(72)【発明者】
【氏名】ケビン ストーン
(72)【発明者】
【氏名】クリシュナ シャンカー
(72)【発明者】
【氏名】マイケル ラスキー
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2019-056966(JP,A)
【文献】国際公開第2019/035155(WO,A1)
【文献】Michael Danielczuk, et al.,Segmenting Unknown 3D Objects from Real Depth Images using Mask R-CNN Trained on Synthetic Data,2019 International Conference on Robotics and Automation (ICRA),2019年05月20日,https://ieeexplore.ieee.org/document/8793744
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
B25J 5/00
G06V 10/00 - 20/90
(57)【特許請求の範囲】
【請求項1】
検出物体を識別するためにロボット装置のディープニューラルネットワークを訓練する方法であって、
訓練環境においてロボット装置の3Dカメラを介して撮影した画像を使用して3Dモデルを構成することと、
ディープニューラルネットワークを使用して、前記訓練環境のパラメーターを人工的に調整し、前記訓練環境の3Dモデルから操作画像を形成し、前記訓練環境のオリジナル画像と前記操作画像との3D画像のペアを生成することと、
前記3D画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために前記3D画像のペアを処理することと、
未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの前記参照画像を使用することであって、
風景の撮影画像に前記参照画像を重ね合わせることと、前記参照画像と前記撮影画像との間の点の対応関係と、前記参照画像の埋め込みディスクリプタとに基づいて、検出された物体の識別を判断することであって、前記埋め込みディスクリプタは、ある特徴を別の特徴から区別するための数字で表されたフィンガープリントを提供するために、情報を一連の数値にエンコードすることとにより、未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの前記参照画像を使用することと、
を含む方法。
【請求項2】
前記3D画像のペアの生成は、
リンクされた要素にて3D画像をペアリングすることと、
前記3D画像のペア間でリンクされた要素を操作して異なる物体アーティキュレーションを有する風景を作成することと、
を含む、請求項1に記載の方法。
【請求項3】
パラメーターの人工的な調整は、
オリジナル3D画像と操作済3D画像との間の物体アーティキュレーションを変更することを含む、
請求項1に記載の方法。
【請求項4】
前記物体アーティキュレーションの変更は、
前記オリジナル3D画像と前記操作済3D画像との間の照明を変更することを含む、
請求項3に記載の方法。
【請求項5】
前記物体アーティキュレーションの変更は、
前記オリジナル3D画像と前記操作済3D画像との間の視角を変更することを含む、
請求項3に記載の方法。
【請求項6】
未知の環境における変形、物体アーティキュレーション、視角、照明に関わらず操作され得る未知の環境中の物体を識別することと、
識別物体を操作することと、
を更に含む、請求項1に記載の方法。
【請求項7】
検出物体を識別するためにロボット装置のディープニューラルネットワークを訓練するために記録されたプログラムコードを有する非一時的なコンピュータ可読媒体であって、
前記プログラムコードはプロセッサにより実行され、
訓練環境においてロボット装置の3Dカメラを介して撮影した画像を使用して3Dモデルを構成するプログラムコードと、
ディープニューラルネットワークを使用して、前記訓練環境のパラメーターを人工的に調整し、前記訓練環境の3Dモデルから操作画像を形成し、前記訓練環境のオリジナル画像と前記操作画像との3D画像のペアを生成するプログラムコードと、
前記3D画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために前記3D画像のペアを処理するプログラムコードと、
未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練中からの前記参照画像を使用するプログラムコードであって、
風景の撮影画像に前記参照画像を重ね合わせるプログラムコードと、
前記参照画像と前記撮影画像との間の点の対応関係と、前記参照画像の埋め込みディスクリプタとに基づいて、検出された物体の識別を判断するプログラムコードであって、前記埋め込みディスクリプタは、ある特徴を別の特徴から区別するための数字で表されたフィンガープリントを提供するために、情報を一連の数値にエンコードするプログラムコードとにより、
未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの前記参照画像を使用するプログラムコードと、
を含む、非一時的なコンピュータ可読媒体。
【請求項8】
前記3D画像のペアを生成するための前記プログラムコードは,
リンクされた要素にて3D画像をペアリングするプログラムコードと、
前記3D画像のペア間でリンクされた要素を操作して異なる物体アーティキュレーションを有する風景を作成するプログラムコードと、
を含む、請求項7に記載の非一時的なコンピュータ可読媒体。
【請求項9】
前記3D画像のペアを生成するための前記プログラムコードは,
オリジナル3D画像と操作済3D画像との間の物体アーティキュレーションを変更するプログラムコードを含む、
請求項7に記載の非一時的なコンピュータ可読媒体。
【請求項10】
物体アーティキュレーションを変更するための前記プログラムコードは、
前記オリジナル3D画像と前記操作済3D画像との間の照明を変更するプログラムコードを含む、
請求項9に記載の非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2019年7月23日に出願され「キーフレームマッチャー」と題された米国特許仮出願第62/877、792、2019年7月23日に出願され「操作のための視覚的教示及び繰り返し―教示VR」と題された米国特許仮出願第62/877、791、及び2019年7月23日に出願され「視覚化」と題された米国特許仮出願第62/877、793の利益を主張する、2019年9月13日に出願され「ディープネットワークの訓練方法」と題された米国特許出願第16/570、813の利益を主張し、当該出願の全内容はここに参照により組み込まれるものとする。
【0002】
本開示の特定の態様は、概して物体検出訓練、及びより具体的にはディープネットワークを訓練するシステム及び方法に関する。
【背景技術】
【0003】
ロボット装置は実世界画像を使用したロボット装置の訓練に基づいて環境中の物体を識別するために1つ以上のセンサ(例えばカメラとして)を使用し得る。実生活の状況では、しかしながら、遭遇した画像は、ロボット装置を訓練するために使用した実画像と異なり得る。すなわち、訓練に使用された画像データにおける変形、物体アーティキュレーション(object articulation)、視角、及び照明の多様性により、実世界での動作における物体検出が妨げられ得る。
【0004】
従来のシステムは実世界における訓練画像を、観測が期待される実際の状況にて収集する。例えば、ロボット装置の訓練は、訓練画像が収集された実際の照明レベル及び特定の視角を含む、訓練画像を収集する際に使用される実際の状況に限られる。これらの従来のシステムは環境の多様性を考慮しない。訓練データと実世界物体とのこれらの違いはロボット装置が物体検出を行うようディープニューラルネットワークを訓練する場合に特に問題になる。
【発明の概要】
【0005】
ロボット装置のディープニューラルネットワークを訓練する方法が説明される。方法は訓練環境においてロボット装置の3Dカメラを使用して撮影した画像(images captured via a 3D camera)を使用して3Dモデルを構成することを含む。方法はまた、ディープニューラルネットワークを使用して操作画像を形成するために訓練環境のパラメーターを人工的に調整して3Dモデルから3D画像のペアを生成することを含む。方法は更に3D画像のペアに共通する物体の埋め込みディスクリプタを含む参照画像を形成するために3D画像のペアを処理することを含む。方法は更に未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの参照画像を使用することを含む。
【0006】
未知の環境における検出物体の識別に基づいてロボット装置を制御する方法が説明される。方法は未知の環境中の物体を検出することを含む。方法はまた、画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することを含む。方法は更に、対応する参照画像の埋め込みディスクリプタに基づいて検出物体を識別することを含む。
【0007】
未知の環境における検出物体の識別に基づいてロボット装置を制御するシステムが説明される。システムは予め訓練された物体識別モジュールを含む。物体識別モジュールは撮影画像中の検出物体を識別するために対応する参照画像を選択する。画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に基づく埋め込みディスクリプタを含む対応する参照画像。システムはまた検出物体のアイデンティティに基づいてロボット装置の自律動作を選択するコントローラを備える。
【0008】
以上、この後の詳細な説明がより良く理解されるために本開示の特徴及び技術的利点を広く大まかに説明した。本開示の追加の機能及び利点を以下に説明する。本開示は、本開示と同じ目的を実行するためのその他の構造を変更又は設計するための基礎として容易に使用され得るものであることが、当業者により理解されるはずである。そのような同等の構成は添付する特許請求の範囲により規定される本開示の教示から逸脱しないことも、当業者により認識されるはずである。本開示の特徴であると考えられる新しい機能は、その構成及び操作方法に関して、更なる目的及び利点と共に、添付する図と併せて考慮されたときに以下の説明からよりよく理解されるであろう。しかしながら、各図面は例示及び説明のみを目的として提供され、本開示の限界を定義することは意図しないことは、明白に理解されるべきである。
【図面の簡単な説明】
【0009】
本開示の機能、性質、及び利点は、類似の参照文字が全体に渡って対応する図面と組み合わせて考慮した場合に、以下に行う詳細な説明からより明らかになる。
【0010】
図1】本開示の態様によるロボットの訓練に使用される環境のオリジナル画像を示す。
図2】本開示の態様による、訓練環境におけるロボットの訓練に使用される、3Dモデルを使用して作成された操作画像の例を示す。
図3A】本開示の態様による、ロボットの訓練のために生成された訓練環境の画像のペアを示す。
図3B】本開示の態様による、ロボットの訓練のために生成された訓練環境の画像のペアを示す。
図4A】本開示の態様による、ロボットにより撮影された実世界環境の撮影画像を示す。
図4B】本開示の態様による、ロボットにより撮影された実世界環境の撮影画像を示す。
図5】本開示の態様による物体識別システムのハードウエア実装の例を示す図である。
図6】本開示の態様によるロボット装置のディープニューラルネットワークを訓練する方法を示すフローチャートである。
【発明を実施するための形態】
【0011】
以下に行う添付図面に関連した詳細な説明は、様々な構成の説明を意図し、本明細書内で説明する概念を実施する単一の構成を提示することを意図しない。詳細な説明は、様々な概念の完全な理解を提供する目的により、特定の詳細を含む。しかしながら、これらの概念がこれらの特定の詳細なしに実施され得ることが当業者には明らかであろう。幾つかの事例では、そのような概念を不明瞭にすることを避けるために、周知の構造及び構成要素がブロック図にて示される。
【0012】
ロボット装置は環境中の物体を識別するために1つ以上のセンサを使用し得る。センサはred-green-blue(RGB)カメラ、電波探知測距(RADAR)センサ、光検出と測距(LiDAR)センサ、又はその他の型のセンサを含んでもよい。センサに撮影された画像では、物体識別を実行するためにロボット装置のディープニューラルネットワークの訓練に基づいて1つ以上の物体がロボット装置により識別される。実生活の状況では、しかしながら、遭遇した画像は、ロボット装置を訓練するために使用した実画像と異なり得る。すなわち、訓練に使用された画像データにおける変形、物体アーティキュレーション、視角、及び照明の変化により、実世界での動作における物体検出が妨げられ得る。
【0013】
従来のシステムは実世界における訓練画像を、観測が期待される実際の状況にて収集する。例えば、訓練画像を収集する実際の状況は、訓練画像が収集された実際の照明レベル及び特定の視角を含む。これらの従来のシステムは環境の変化を考慮しない。訓練データ及び実世界物体におけるこれらの変化はロボット装置が物体検出を行うようディープニューラルネットワークを訓練する場合に特に問題になる。
【0014】
本開示は環境の変化を考慮することによりディープネットワークを訓練するデータを提供することに関する。変化は、物体の変形、物体アーティキュレーション、視角の変化、及び/又は照明の変化を含む。
【0015】
本開示では、簡素化のために、ロボット装置はロボットと称され得る。加えて、物体は環境中の静的及び動的物体を含み得る。物体は人工物体(例えば椅子、机、車、本等)、自然物体(例えば岩、木、動物等)、及び人間を含み得る。
【0016】
図1は本開示の態様によるロボット100の訓練に使用される訓練環境102のオリジナル画像101を示す。図1の例では、ロボット100はヒューマノイドロボットであり、訓練環境102はキッチンである。本開示の態様はヒューマノイドロボットに限定されない。ロボット100はドローンや車両のような任意の型の自律又は半自律装置であってもよい。加えて、ロボット100は任意の環境にあってもよい。
【0017】
ある構成では、ロボット100は、ロボット100の1つ以上のセンサを使用して訓練環境102のオリジナル画像101を取得する。ロボット100はオリジナル画像101の1つ以上の物体を検出し位置測定してもよい。位置測定は、オリジナル画像101中の検出物体の位置(例えば座標)を決定することである。従来の物体検出システムでは、オリジナル画像101内で検出された物体の位置を示すためにバウンディングボックスが使われ得る。検出物体は、テーブル104、押し込まれた椅子106、閉じた窓108、瓶110、器具120及び122、カウンター140、シンク142、ハンドル132を有するキャビネット130、又はオリジナル画像101中の全ての物体のような1つ以上の特定のクラスの物体であってもよい。物体は予め訓練された物体検出ニューラルネットワークのような物体検出システムを使用して検出され識別されてもよい。
【0018】
ある構成では、ロボット100上の3Dカメラが訓練環境102の画像を異なる視界/視角から撮影する。訓練環境102の3Dモデルは撮影画像から生成される。3Dモデルは3Dカメラによって撮影されたオリジナル画像101の視点とは異なる視点から画像を作成することに使用される。3Dモデルはまた、作成画像にて照明条件を変化させる(例えば照明レベルを調整する)ために使用される。加えて、3Dモデルは操作される物体を含む画像を作成してもよい。例えば、3Dモデルは引き出し/窓が、開いた又は閉じた風景を作成してもよい。加えて、システムは画像と、共通した特徴とを結びつける。撮影画像及び3Dモデルにより作成された画像(例えば訓練データ)はディープネットワーク物体検出システムを訓練するために使用される。
【0019】
図2は本開示の態様による、訓練環境202におけるロボット100の訓練に使用される、3Dモデルにより作成された操作画像200の例を示す。図2の例において、訓練環境202は図1のキッチンであり、異なる視角を提供するために要素が水平方向に反転されている。ロボット100は図1のオリジナル画像101及び操作画像200を使用した予め訓練された物体識別ニューラルネットワークのような物体検出システムを介して各画像中に物体を検出し識別してもよい。
【0020】
この構成では、システムは操作画像200を生成し、操作画像200を図1に示される訓練環境102のオリジナル画像101とペアリングする。本開示の態様によると、リンクされた要素はオリジナル画像101と操作画像200の間で識別される。すなわち、訓練環境202のそのような要素はピクセル座標を与えられてもよい。オーバーラップするピクセル座標はオーパーラップする部分を示す(例えばリンクされた要素)。例えば、引き出された椅子206は、操作画像200と、オリジナル画像101の押し込まれた椅子106との間でのリンクされた要素である。リンクは同じ要素が異なるアーティキュレーションで描かれることを示す。リンクされた部分はオリジナル画像101と操作画像200の点の対応関係により定義されてもよい(例えばオリジナル画像101と同じ視点)。
【0021】
この例では、オリジナル画像101の閉じた窓108は操作画像200の開いた窓208とペアリングされる。例えば、開いた窓208のガラスはオリジナル画像101と操作画像200の間でリンクされる。加えて、操作画像200のテーブル204もまたオリジナル画像101のテーブル104にリンクされる。同様に、操作画像200の瓶210もまたオリジナル画像101の瓶110にリンクされる。瓶110はオリジナル画像101中のカウンター140とリンクされたカウンター240に置いてある。シンク242もまた操作画像200とオリジナル画像101との間でリンクされる。加えて、操作画像200のキャビネット230及びハンドル232もまたオリジナル画像101のキャビネット130及びハンドル132とリンクされる。
【0022】
ロボット100は、図1に示された押し込まれた椅子106から、水平に反転されている、引き出された椅子206を検出するように訓練される。同様に、ロボット100は、カウンター240から移動され、テーブル204に置かれた瓶210を追従するように訓練される。加えて、ロボット100はテーブル204からカウンター240に移動された器具220及び222の領域を追従するように訓練される。オリジナル画像101及び操作画像200が示されるが、様々な照明条件、視角、変形等にて追加の操作画像の生成を含む本開示の態様が可能であることが認識されるべきである。
【0023】
本開示の態様によれば、3D環境のペアリングされた画像は、画像から画像への(image-to-image)ニューラルネットワークにより処理される。ネットワークは入力としてRGB画像を受信し、各ピクセルに割り当てられた値を含むエンベディング又はディスクリプタ画像を出力する。エンベディング/ディスクリプタ画像は情報を一連の数字へとエンコードすることにより、ある特徴を別の特徴から区別するための、数字で表された「フィンガープリント」を提供してもよい。この情報は画像変換を行っても不変であることが理想的である。不運にも従来のシステムは概ね環境の変化を考慮せず訓練されるため従来の特徴ディスクリプタは画像変換を行っても不変ではない。
【0024】
本開示の本態様では、エンベディング/ディスクリプタ画像は、環境中の物体及び点を定義する、未来の画像への相関性を判断する(例えばロボット100が動作するときにリアルタイムで撮影した画像)。すなわち、訓練後は、新たな環境に置かれたとき、ロボットは椅子、窓、瓶、器具(例えばスプーン)、キャビネット等の、操作され得る新たな環境における位置を識別する。ロボット100はまた、変形、物体アーティキュレーション、視角、及び照明に関わらず様々な要素を識別してもよい。例えば、オリジナル画像101とは異なる姿勢にて検出された物体は、ペアリングされた画像(例えばオリジナル画像101及び操作画像200)から作成されたディスクリプタ画像にリンクされた要素に基づいて容易に識別される。
【0025】
図3A及び図3Bは本開示の態様による、ロボット100の訓練のために生成された訓練環境302の画像のペアを示す。図3A及び図3Bに示されるように、訓練システムは、異なる画像中の同様の要素がリンクされた画像のペアを自動的に生成する。
例えば、図3Aは訓練環境302のオリジナル画像300を示す。オリジナル画像300は更にカウンター340、シンク342、ハンドル332を含むキャビネット330を示す。この例では、キャビネット330は閉まっている。
【0026】
図3Bは本開示の態様による訓練環境302の操作画像350を示す。この例では、キャビネット330が閉じている風景(例えば図3A)におけるキャビネット330のハンドル332は、キャビネット330が開いている風景とリンクされる。加えて、器具320及び322はオリジナル画像300(例えばキャビネット330内)と操作画像350(例えば開いている状態のキャビネット330を示す)との間でペアリングされる。オリジナル画像300と操作画像350とのペアリングにより、同様の要素でありながら異なるアーティキュレーションで描かれた物体同士がリンクされる。リンクされた部分は操作画像350とオリジナル画像300との点の対応関係により定義される。ペアリングされた画像間で対応する要素は各画像(すなわち風景)で撮影された訓練環境302の重複する部分の識別を通して判断されてもよい。
【0027】
そして画像のペアはimage-to-imageニューラルネットワークにより処理され、入力としてRGB画像を受信し、画像の各ピクセルに値が割り当てられることで生成されたエンベディング又はディスクリプタ画像を出力する。本開示の態様によれば、エンベディングは未来の画像(例えばロボットの動作時にリアルタイムで撮影される画像)への相関性を判断するために使用される。例えば、エンベディングは、相関のある物体を識別するために環境中の物体及び点を定義してもよい。言い換えれば、システムは、例えば図4A及び図4Bに示すように、エンベディングのリアルタイム画像への相関性を通して迅速に環境中の位置を判断し物体を識別できる。
【0028】
図4A及び図4Bは本開示の態様による、ロボット100により撮影された未知の環境402の撮影画像を示す。図4A及び4Bの例では、未知の環境402はテーブル404、引き出された椅子406、及び開いた窓408、瓶410、器具420及び422、及びキャビネット430を含むレストランである。ある構成では、ロボット100は、図1図2図3A及び図3Bに示すキッチンの訓練環境のような、訓練環境のオリジナル画像と操作画像のペアに基づく参照画像を使用する。参照画像を使用して、ロボット100は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子406を検出する。加えて、参照画像によりロボット100が開いた窓408を検出することが可能になる。
【0029】
図4Aは本開示の態様による、ロボット100の3Dカメラにより撮影された未知の環境402の撮影画像400を示す。図4Aの例では、未知の環境402はテーブル404、引き出された椅子406、及び開いた窓408を含むレストランである。ある構成では、ロボット100は、図1図2図3A及び図3Bに示すキッチンの訓練環境のような、訓練環境の画像のペアリングに基づく参照画像を使用する。参照画像を使用して、ロボット100は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子406を位置特定する。加えて、参照画像によりロボット100が開いた窓408を識別することが可能になる。
【0030】
図4Aに更に示されるように、参照画像によりロボット100がテーブル404上の器具420及び422を検出可能になる。加えて、参照画像によりロボット100がキャビネット430上の瓶410を検出することが可能になる。検出は環境中の位置及び/又は物体の姿勢に限定されない。本開示の態様によれば、ロボット100は時間の経過に伴う物体の動きを追跡するように訓練される。簡素化のために、検出物体の例としてキッチンアイテムを使用する。それでもなお、本開示の態様はキッチンアイテムの検出に限定されず、その他の物体も考慮される。
【0031】
図4Bは本開示の態様による、ロボット100の3Dカメラにより撮影された未知の環境402の画像450を示す。図4Bの例では、未知の環境402もまたテーブル404、引き出された椅子406、開いた窓408、及びキャビネット430を含むレストランである。ある構成では、ロボット100は瓶410に加えて器具420及び422を追跡するために参照画像を使用する。予め訓練された物体検出ニューラルネットワークを使用し、ロボット100は器具420及び422並びに瓶410の移動を追跡することが可能である。すなわち、図4A図4Bの間で、瓶410はキャビネット430からテーブル404へと移動する。同様に、図4A図4Bの間で、器具420及び422は、テーブル430からキャビネット404へと移動する。
【0032】
本開示の態様によれば、予め訓練された物体検出ニューラルネットワークはエンベディング(例えば物体のディスクリプタ)を使用して、環境中の物体及び点を定義する、未来の画像への相関性を判断する(例えばロボット100が動作するときにリアルタイムで撮影した画像)。言い換えれば、システムは、エンベディングのリアルタイム画像への相関性を通して迅速に未知の環境中の位置を判断できる。本開示は3Dカメラを使用して訓練画像を収集し、照明レベルを人工的に調整し、共通の特徴がリンクされた画像のペアを自動的に作成することでディープネットワークを生成し訓練する方法を提供する。結果的に、未知の環境における物体検出は未知の環境中の物体の姿勢や位置に限定されない。
【0033】
図5は本開示の態様による物体識別システム500のハードウエア実装の例を示す図である。物体識別システム500は車両、ロボット装置、又はその他の装置の構成要素であってもよい。例えば、図5に示すように、物体識別システム500はロボット100(例えばロボット装置)の構成要素である。
【0034】
本開示の態様はロボット100の構成要素である物体識別システム500に限定されない。物体識別システム500を使用するものとしてバス、ボート、ドローン、又は車両のようなその他の装置もまた考慮される。ロボット100は少なくとも自律動作モード及びマニュアル動作モードで動作してもよい。
【0035】
物体識別システム500はバス550として概ね表されるバスアーキテクチャにより実装されてもよい。バス550は物体識別システム500の特定の用途及び全体的な設計制約に応じて任意の数の相互接続バス及びブリッジを含んでもよい。バス550は、プロセッサ520として表される1つ以上のプロセッサ及び/又はハードウエアモジュール、通信モジュール522、位置モジュール524、センサモジュール502、移動モジュール526、ナビゲーションモジュール528、及びコンピュータ可読媒体530のような様々な回路を接続する。バス550はタイミングソース、周辺機器、電圧制御器、電源管理回路のような、当業者に既知であり、故にこれ以上の説明は行わないその他の様々な回路も接続してもよい。
【0036】
物体識別システム500は、プロセッサ520に接続された送受信機540、センサモジュール502、物体識別モジュール510、通信モジュール522、位置モジュール524、移動モジュール526、ナビゲーションモジュール528、及びコンピュータ可読媒体530を含む。送受信機540はアンテナ542に接続されている。送受信機540は様々な装置と伝送媒体を介して通信する。例えば、送受信機540は通信を介してユーザー又は遠隔装置からの命令を受信してもよい。別の例として、送受信機540は物体識別モジュール510からサーバー(図示せず)へ統計及びその他の情報を送信してもよい。
【0037】
物体識別システム500はコンピュータ可読媒体530に接続されたプロセッサ520を含む。プロセッサ520は、コンピュータ可読媒体530に記憶され、本開示による機能を提供するソフトウエアの実行を含む処理を行う。ソフトウエアは、プロセッサ520により実行された時、物体識別システム500により、ロボット100又はモジュール502、510、512、514、516、522、524、526、及び528のような特定の装置に対して説明された様々な機能を実行させる。コンピュータ可読媒体530は、ソフトウエアを実行した時にプロセッサ520により操作されるデータを記憶するためにも使用されてもよい。
【0038】
センサモジュール502は、第1のセンサ504及び第2のセンサ506のような異なるセンサを介して測定値を得るために使用されてもよい。第1のセンサ504は、3D画像を撮影するためのステレオカメラ又はred-green-blue(RGB)カメラのような視覚センサであってもよい。第2のセンサ506は光検出と測距(LiDAR)センサ又は電波探知測距(RADAR)センサのような測距センサであってもよい。当然、本開示の態様は上記のセンサに限られず、例えば、温度、音波、及び/又はレーザー等のその他の型のセンサもまた第1のセンサ504及び第2のセンサ506のどちらかとして考えられる。
【0039】
第1のセンサ504及び第2のセンサ506による測定値は、本明細書中に説明した機能を実装するために、コンピュータ可読媒体530と併せて、プロセッサ520、センサモジュール502、物体識別モジュール510、通信モジュール522、位置モジュール524、移動モジュール526、ナビゲーションモジュール528、のうち1つ以上により処理されてもよい。ある構成では、第1のセンサ504及び第2のセンサ506により撮影されたデータは送受信機540を介して外部装置へ送信されてもよい。第1のセンサ504及び第2のセンサ506はロボット100へ接続されていてもよく、又はロボット100と通信状態にあってもよい。
【0040】
位置モジュール524はロボット100の位置を判断するために使用されてもよい。例えば、位置モジュール524は、ロボット100の位置を判断するために、全地球測位システム(GPS)を使用してもよい。通信モジュール522は送受信機540を介した通信を促進するために使用されてもよい。例えば、通信モジュール522は、Wi-Fi、long term evolution(LTE)、5G等のような異なる無線プロトコルを介した通信能力を提供してもよい。通信モジュール522はまた、物体識別システム500のモジュールではない、ロボット100のその他の構成要素と通信するために使用されてもよい。
【0041】
移動モジュール526はロボット100の移動を促進するために使用されてもよい。別の例として、移動モジュール526はモーター及び/又はバッテリーのような、ロボット100の1つ以上の電力源と通信中であってもよい。移動力は車輪、可動肢、プロペラ、トレッド、ひれ、ジェットエンジン、及び/又はその他の移動力源により証明されてもよい。
【0042】
物体識別システム500は移動モジュール526を経由して、経路を計画したり又はロボット100の移動を制御するためのナビゲーションモジュール528を含む。経路は物体識別モジュール510を介して提供されたデータに基づいて計画されてもよい。モジュールはプロセッサ520内で実行されるソフトウエアモジュール、コンピュータ可読媒体530上に常駐/記憶されるもの、プロセッサ520に接続された1つ以上のハードウエアモジュール、又はそれらの組み合わせであってもよい。
【0043】
物体識別モジュール510はセンサモジュール502、送受信機540、プロセッサ520、通信モジュール522、位置モジュール524、移動モジュール526、ナビゲーションモジュール528、及びコンピュータ可読媒体530と通信可能であってもよい。ある構成では、物体識別モジュール510はセンサモジュール502からセンサデータを受信する。センサモジュール502は第1のセンサ504及び第2のセンサ506からセンサデータを受信してもよい。本開示の態様によれば、センサモジュール502はノイズを除去し、データをエンコードし、データをデコードし、データをマージし、フレームを抽出し、又はその他の機能を実行するために、データをフィルタしてもよい。代替の構成では、物体識別モジュール510は第1のセンサ504及び第2のセンサ506から直接センサデータを受信してもよい。
【0044】
ある構成では、物体識別モジュール510はプロセッサ520、位置モジュール524、コンピュータ可読媒体530、第1のセンサ504、及び/又は第2のセンサ506からの情報に基づいて検出物体を識別する。物体検出モジュール512からの検出物体の識別はエンベディング相関性モジュール514を使用して行われてもよい。識別物体に基づいて、物体識別モジュール510はアクションモジュール516を通してロボット100の1つ以上のアクションを制御してもよい。
【0045】
例えば、アクションはロボット100が撮影した風景の様々な画像間における動いている物体を追従し、セキュリティーサービスに連絡するといったセキュリティアクションを実行することであってもよい。物体識別モジュール510はプロセッサ520、位置モジュール524、通信モジュール522、コンピュータ可読媒体530、移動モジュール526、及び/又はナビゲーションモジュール528を介してアクションを実行してもよい。
【0046】
本開示の本態様では、エンベディング/ディスクリプタ画像を訓練から物体及び未知の環境中の点を定義する未来の画像への相関性を判断するまで使用するエンベディング相関性モジュール514。すなわち、訓練後は、新たな環境に置かれたとき、ロボット100は椅子、窓、瓶、器具(例えばスプーン)、キャビネット等の、操作され得る新たな環境における位置を識別する。ロボット100は変形、物体アーティキュレーション、視角、及び照明に関わらず様々な要素を識別してもよい。
【0047】
図6は本開示の態様によるロボット装置のディープニューラルネットワークを訓練する方法を示すフローチャートである。簡略化のために、ロボット装置はロボットと称される。
【0048】
図6に示すように、方法600はブロック602から開始し、ロボット装置の3Dカメラを介して訓練環境にて撮影した画像を使用して3Dモデルが構成される。例えば、図1に示されるように、ロボット100は訓練環境102のオリジナル画像101を撮影する。物体はロボット100のLiDAR、RADAR及び/又はRGBカメラなどの、1つ以上のセンサにより撮影されてもよい。物体は、数時間、数日等の一定期間に渡って観察されてもよい。
【0049】
ブロック604にて、ニューラルネットワークを使用して操作画像を作成するために訓練環境のパラメーターを人工的に調整して3Dモデルから3D画像のペアが形成される。例えば、図3Bは、風景中にキャビネット330のハンドル332があり、キャビネット330が開いていて、キャビネット330が閉じている風景(例えば図3A)とリンクされている、操作画像350を示す。オリジナル画像300と操作画像350とのペアリングにより、同様の要素でありながら異なる(例えば人工的な)アーティキュレーションで描かれた物体同士がリンクされる。
【0050】
ブロック606にて、3D画像のペアに共通する物体の埋め込みディスクリプタを含む参照画像を生成するために3D画像のペアが処理される。例えば、図4A及び図4Bは未知の環境402の撮影画像を示す。ある構成では、ロボット100は、図1図2図3A及び図3Bに示すキッチンの訓練環境のような、訓練環境のオリジナル画像と操作画像のペアに基づく参照画像を使用する。ブロック608では、ニューラルネットワークの訓練から得られた参照画像は未来の画像への相関性を判断するために使用される。例えば、図4A及び4Bに示すように、参照画像を使用して、ロボット100は予め訓練された物体検出ニューラルネットワークを使用して引き出された椅子406を検出する。加えて、参照画像によりロボット100が開いた窓408を検出することが可能になる。
【0051】
本開示の態様により、未知の環境における検出物体の識別に基づいてロボット装置を制御する方法が説明される。方法は未知の環境中の物体を検出することを含む。例えば、図4Aに示されるように、ロボット100がテーブル404上の器具420及び422を検出する。本検出は、画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することにより行われてもよい。
【0052】
本方法は更に、対応する参照画像の埋め込みディスクリプタに基づいて検出物体を識別することを含む。例えば、予め訓練された物体検出ニューラルネットワークを使用し、ロボット100は器具420及び422並びに瓶410を追従することが可能である。すなわち、図4A図4Bの間で、瓶410はキャビネット430からテーブル404へと移動する。同様に、図4A図4Bの間で、器具420及び422は、テーブル404からキャビネット430へと移動する。
【0053】
教示に基づき、本開示の範囲は、独立して実装されるか本開示のその他の態様と組み合わせるかに関わらず、本開示の任意の態様を含めることを意図することが、当業者により理解されるべきである。例えば、明らかにされる任意の数の態様を使用して装置を実装してもよく、又は方法を実施してもよい。加えて、本開示の範囲は、本開示で明らかにする様々な態様に加えて、又はその他の構造及び機能、又は構造及び機能を使用して実施されるそのような装置又は方法を含むことを意図する。本開示の任意の態様は特許請求の範囲の1つ以上の要素により具現化され得ることが理解されるべきである。
【0054】
本明細書において「例示的な」という語は「例、実例、又は例証の役割を果たす」という意味で使用される。「例示的」として説明される本明細書の任意の態様は必ずしも他の態様に比べて好ましい又は有利であるとして理解されるべきものではない。
【0055】
本明細書にて特定の態様を説明するが、本開示の範囲にはこれらの態様に対する多数の変形及び置換が含まれる。好ましい態様の幾つかの利益及び利点が記載されるが、本開示の範囲は特定の利益、使用又は目的に限定されることを意図しない。寧ろ、本開示の態様は、一部を図及び好ましい態様の説明に例示を目的として示す異なる技術、システム構成、ネットワーク、及びプロトコルへ広く適用可能であることが意図される。詳細な説明及び図面は限定することよりも寧ろ本開示の説明のみを目的とし、本開示の範囲は添付する特許請求の範囲及び同等物によって定義される。
【0056】
本明細書中に使用されるように、「判断」は多岐にわたるアクションを含む。例えば、「判断」は算出、計算、処理、導出、調査、検索(例えば表、データベース又はその他の構造の中を検索)、究明等を含み得る。加えて、「判断」は受信(例えば情報を受信すること)、アクセス(例えばメモリ中のデータにアクセスすること)等を含み得る。更に、「判断」は、解決、選出、選択、確立等を含み得る。
【0057】
本明細書中に使用するように、「のうち少なくとも1つ」のフレーズは、項目のリストから、単一の項目を含む、項目の任意の組み合わせを指す。例えば、「a、b、又はcのうち少なくとも1つ」はa、b、c、a-b、a-c、b-c、a-b-cを含むことが意図される。
【0058】
本開示と関連して説明された様々な例示的な論理ブロック、モジュール及び回路は本開示で議論された機能を実行するために特別に構成されたプロセッサにより実装又は実行されてもよい。プロセッサはニューラルネットワークプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、Field Programmable Gate Array信号(FPGA)又は他のプログラマブル論理デバイス(PLD)、個別ゲート又はトランジスタ論理、個別ハードウェアコンポーネント、又は本明細書中に説明した機能を実行するよう設計された上記の任意の組み合わせであってもよい。代わりに、処理システムは、本明細書にて説明したニューロンモデル及びニューラルシステムのモデルを実装するために、1つ以上のニューロモーフィックプロセッサを備えていてもよい。プロセッサは、本明細書中の説明のように構成されるマイクロプロセッサ、コントローラ、マイクロコントローラ、又は状態マシンであってもよい。プロセッサはまた、例えばDSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと組み合わせた1つ以上のマイクロプロセッサ、又は本明細書で説明するその他の特別な構成といった、計算装置の組み合わせとして実装されてもよい。
【0059】
本開示と関連して説明される方法のステップ又はアルゴリズムはハードウエア、プロセッサにより実行されるソフトウエアモジュール、又はこの2つの組み合わせ内にて直接具現化されてもよい。ソフトウエアモジュールは、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、Erasable Programmable Read Only Memory(EPROM)、Electrically Erasable Programmable Read-Only Memory(EEPROM)、レジスタ、ハードディスク、取り外し可能ディスク、CD-ROM又は他の光ディスク記憶装置、磁気ディスク記憶装置又はその他の磁気記憶装置、命令又はデータ構造の形態で所望のプログラムコードを搬送又は記憶することに使用可能でコンピュータによってアクセス可能なその他の任意の媒体を含む、記憶装置、又は機可読械媒体に存在してもよい。ソフトウエアモジュールは、単一の命令、又は多数の命令を備えることもあり、複数の異なるコードセグメント、異なるプログラム間、及び複数の記憶媒体に分散されていてもよい。プロセッサが記憶媒体へ情報を書き込んだり記憶媒体から情報を読み出したりできるようにプロセッサに記憶媒体が接続されていてもよい。代わりに、記憶媒体はプロセッサと一体となっていてもよい。
【0060】
本明細書にて開示する方法は、開示された方法を実現するための1つ以上のステップ又はアクションを含む。方法のステップ及び/又はアクションは特許請求の範囲から逸脱することなく互いに入れ替えてもよい。言い換えれば、ステップ又はアクションの特定の順序が特定されていない限り、特定のステップ及び/又はアクションの順序及び/又は用途は特許請求の範囲から逸脱することなく変更されてもよい。
【0061】
説明された機能はハードウエア、ソフトウエア、ファームウエア、又はこれらの任意の組み合わせにより実装されてもよい。ハードウエアで実装する場合、ハードウエア構成の例は装置中に処理システムを備えてもよい。処理システムはバスアーキテクチャを用いて実装してもよい。バスは処理システムの特定の用途及び全体的な設計制約に応じて任意の数の相互接続バス及びブリッジを含んでもよい。バスはプロセッサ、機械可読媒体、及びバスインターフェースを含む様々な回路を接続してもよい。バスインターフェースは、その他の物の中でも、ネットワークアダプタを処理システムにバスを介して接続することに使用されてもよい。ネットワークアダプタは信号処理機能を実装するために使用されてもよい。特定の態様では、ユーザーインターフェース(例えばキーパッド、ディスプレイ、マウス、ジョイスティック等)もまたバスに接続されてもよい。バスはタイミングソース、周辺機器、電圧制御、電源管理回路等のような、当業者に既知であり、故にこれ以上の説明は行わないその他の様々な回路も接続してもよい。
【0062】
プロセッサはバスの管理、及び機械可読媒体に記憶されたソフトウエアの実行を含む処理を担当してもよい。ソフトウエアは、ソフトウエア、ファームウエア、ミドルウエア、マイクロコード、ハードウエア記述言語、又はその他の呼び方に関わらず、命令、データ、又はそれらの任意の組み合わせを意味すると解釈するものとする。
【0063】
ハードウエア実装にて、機械可読媒体はプロセッサとは別個の処理システムの一部であってもよい。しかしながら、当業者が容易に理解するように、機械可読媒体、又はその任意の一部は、処理システムの外部にあってもよい。例えば、機械可読媒体は通信線、データによって変調された搬送波、及び/又は装置から切り離されたコンピュータ製品を含んでも良く、これらは全てバスインターフェースを介してプロセッサによりアクセスされてもよい。代わりに、又は加えて、機械可読媒体、又はその一部は、キャッシュ及び/又は特別なレジスタファイルが存在し得る場合のようにプロセッサに統合されていてもよい。議論した様々な構成要素は、ローカルな構成要素のように特別な位置を有するように説明されたが、それらは分散コンピューティングシステムの一部として構成される特定の構成要素のように様々な方法により構成されてもよい。
【0064】
機械可読媒体は数々のソフトウエアモジュールを備えていてもよい。ソフトウエアモジュールは送信モジュール及び受信モジュールを含んでいてもよい。各ソフトウエアモジュールは単一の記憶装置内に存在してもよく、又は複数の記憶装置に渡って分散されていてもよい。例えば、トリガとなるイベントが起こったときにソフトウエアモジュールがハードドライブからRAMにロードされてもよい。ソフトウエアモジュールの実行中、プロセッサは、アクセス速度を上げるために、幾つかの命令をキャッシュへロードしてもよい。プロセッサにより実行するため、1つ以上のキャッシュラインがその後特殊用途レジスタファイルにロードされてもよい。ソフトウエアモジュールの以下の機能を参照すれば、ソフトウエアモジュールによる命令の実行時にプロセッサにより機能が実施されることが理解されよう。更に、本開示の態様によりプロセッサ、コンピュータ、マシン、又はこのような態様を実装するその他のシステムの機能が改善することが理解されるべきである。
【0065】
ソフトウエアに実装されれば、機能は1つ以上の命令又はコードとしてコンピュータ可読媒体上に記憶又は転送されてもよい。コンピュータ可読媒体には、コンピュータの記憶装置と、コンピュータプログラムをある場所から別の場所へ転送することを促進する任意の記憶装置を含む通信メディアとの両方が含まれる。
【0066】
更に、モジュール並びに/又は本明細書中に説明した方法及び技術を実行するその他の適切な手段は、必要に応じてダウンロード並びに/又はユーザー端末及び/又はベースステーションにより取得可能であることが理解されるべきである。例えば、本明細書中で説明された方法を実行するための手段の転送を促進するために、そのような装置をサーバーに接続することができる。代わりに、本明細書中で説明した様々な方法は、記憶手段を装置に接続するか、又は記憶手段を装置に提供することによりユーザー端末及び/又はベースステーションが様々な方法を取得することが可能になる形で、記憶手段を介して提供することができる。更に、本明細書中で説明した方法及び技術を装置に提供するその他の任意の技術を使用することができる。
【0067】
特許請求の範囲は上記に示された正確な構成及び構成要素に限定されないことが理解されるべきである。上に説明した方法及び装置の配置、操作、並びに詳細に対して、特許請求の範囲から逸脱せずに、様々な修正、変更及び変形がなされ得る。
本明細書に開示される発明は以下の態様を含む。
〔態様1〕
訓練環境においてロボット装置の3Dカメラを使用して撮影した画像を使用して3Dモデルを構成することと、
前記訓練環境のパラメーターを人工的に調整し、前記3Dモデルから3D画像のペアを生成することにより、ディープニューラルネットワークを使用して操作画像を形成することと、
前記3D画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために前記3D画像のペアを処理すること、
未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練時からの前記参照画像を使用することと、
を含む、ロボット装置のディープニューラルネットワークを訓練する方法。
〔態様2〕
前記3D画像のペアの生成は、
リンクされた要素にて3D画像をペアリングすることと、
前記3D画像のペア間でリンクされた要素を操作して異なる物体アーティキュレーションを有する風景を作成することと、
を含む、態様1に記載の方法。
〔態様3〕
パラメーターの人工的な調整は、
オリジナル3D画像と操作済3D画像との間の物体アーティキュレーションを変更することを含む、
態様1に記載の方法。
〔態様4〕
前記物体アーティキュレーションの変更は、
前記オリジナル3D画像と前記操作済3D画像との間の照明を変更することを含む、
態様3に記載の方法。
〔態様5〕
前記物体アーティキュレーションの変更は、
前記オリジナル3D画像と前記操作済3D画像との間の視角を変更することを含む、
態様3に記載の方法。
〔態様6〕
未知の環境における変形、物体アーティキュレーション、視角、照明に関わらず操作され得る未知の環境中の物体を識別することと、
識別物体を操作することと、
を更に含む、態様1に記載の方法。
〔態様7〕
未知の環境中の物体を検出することと、
画像撮影環境のパラメーターを人工的に調整することにより操作される訓練された物体に対応する埋め込みディスクリプタを含む対応する参照画像を選択することと、
前記対応する参照画像の前記埋め込みディスクリプタに基づいて検出物体を識別することと、
を含む、未知の環境における検出物体の識別に基づいたロボット装置の制御方法。
〔態様8〕
一定期間識別物体を追従することを更に含む、態様7に記載の方法。
〔態様9〕
識別物体が操作され得ることを判断することと、
前記識別物体を操作することと、
を更に含む、態様7に記載の方法。
〔態様10〕
前記対応する参照画像を風景の撮影画像に重ねることと、
前記対応する参照画像と前記撮影画像との間の点の対応関係に基づいて前記検出物体の識別を決定することと、
を更に含む、態様7に記載の方法。
〔態様11〕
ロボット装置のディープニューラルネットワークを訓練するためのプログラムコードを記録した非一時的なコンピュータ可読媒体であって、
前記プログラムコードはプロセッサにより実行され、
前記ディープニューラルネットワークを使用して操作画像を形成するために訓練環境のパラメーターを人工的に調整して3Dモデルから3D画像のペアを生成するプログラムコードと、
前記3D画像のペア間に共通する物体の埋め込みディスクリプタを含む参照画像を形成するために前記3D画像のペアを処理するプログラムコードと、
未来の画像中の検出物体を識別して相関性を判断するためにニューラルネットワークの訓練中からの前記参照画像を使用するプログラムコードと、
を含む、非一時的なコンピュータ可読媒体。
〔態様12〕
前記3D画像のペアを生成するための前記プログラムコードは、
リンクされた要素にて3D画像をペアリングするプログラムコードと、
前記ペアの3D画像間でリンクされた要素を操作して異なる物体アーティキュレーションを有する風景を作成するプログラムコードと、
を含む、態様11に記載の非一時的なコンピュータ可読媒体。
〔態様13〕
前記3D画像のペアを生成するための前記プログラムコードは、
オリジナル3D画像と操作済3D画像との間の物体アーティキュレーションを変更するプログラムコードを含む、
態様11に記載の非一時的なコンピュータ可読媒体。
〔態様14〕
物体アーティキュレーションを変更するための前記プログラムコードは、
前記オリジナル3D画像と前記操作済3D画像との間の照明を変更するプログラムコードを含む、
態様13に記載の非一時的なコンピュータ可読媒体。
〔態様15〕
前記物体アーティキュレーションを変更するための前記プログラムコードは、
前記オリジナル3D画像と前記操作済3D画像との間の視角を変更するプログラムコードを含む、
態様13に記載の非一時的なコンピュータ可読媒体。
〔態様16〕
撮影画像中の検出物体を識別するために対応する参照画像を選択するように構成された予め訓練された物体識別モジュールを備え、前記対応する参照画像は画像撮影環境の人工的に調整されたパラメーターにより操作される訓練された物体に基づいた埋め込みディスクリプタを含み、
前記検出物体のアイデンティティに基づいてロボット装置の自律動作を選択するように構成されたコントローラを備える、
未知の環境における検出物体の識別に基づいてロボット装置を制御するためのシステム。
〔態様17〕
前記予め訓練された物体識別モジュールは識別物体を一定期間に渡って追跡するように構成されている、態様16に記載のシステム。
〔態様18〕
前記コントローラは更に識別物体を操作するように構成されている、態様16に記載のシステム。
〔態様19〕
前記予め訓練された物体識別モジュールは、前記対応する参照画像を風景の撮影画像に重ね合わせ、前記対応する参照画像と前記撮影画像との間の点の対応関係に基づいて前記検出物体の識別を決定するように構成されている、態様16に記載のシステム。
〔態様20〕
前記予め訓練された物体識別モジュールは未来の画像中の前記検出物体を識別する相関性に基づいて前記対応する参照画像と撮影画像との間で共通する物体を検出するように構成されている、態様16に記載のシステム。
図1
図2
図3A-3B】
図4A-4B】
図5
図6