(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-10-17
(54)【発明の名称】移動操作システムの視覚的教示と繰り返し
(51)【国際特許分類】
B25J 9/22 20060101AFI20221007BHJP
B25J 3/00 20060101ALI20221007BHJP
G05D 1/02 20200101ALN20221007BHJP
【FI】
B25J9/22 A
B25J3/00 Z
G05D1/02 H
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022503980
(86)(22)【出願日】2020-07-22
(85)【翻訳文提出日】2022-03-18
(86)【国際出願番号】 US2020043144
(87)【国際公開番号】W WO2021016394
(87)【国際公開日】2021-01-28
(32)【優先日】2019-07-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-07-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-07-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-09-13
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】518102470
【氏名又は名称】トヨタ リサーチ インスティテュート,インコーポレイティド
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【氏名又は名称】河野 努
(72)【発明者】
【氏名】ジェレミー マー
(72)【発明者】
【氏名】ジョッシュ ピーターセン
(72)【発明者】
【氏名】ユーマシャンカー ナガラジャン
(72)【発明者】
【氏名】マイケル ラスキー
(72)【発明者】
【氏名】ダニエル ヘルミック
(72)【発明者】
【氏名】ジェイムズ ボーダーズ
(72)【発明者】
【氏名】クリシュナ シャンカー
(72)【発明者】
【氏名】ケビン ストーン
(72)【発明者】
【氏名】マックス バジュラチャリア
【テーマコード(参考)】
3C707
5H301
【Fターム(参考)】
3C707AS34
3C707BS27
3C707CS08
3C707DS01
3C707JT10
3C707JU03
3C707JU12
3C707JU17
3C707KS03
3C707KS04
3C707KS10
3C707KS16
3C707KS20
3C707KT01
3C707KT04
3C707KT15
3C707LS05
3C707LS09
3C707LS14
3C707LS16
3C707LT06
3C707LW05
3C707LW15
3C707MT06
3C707WA03
3C707WA13
5H301BB14
5H301DD02
5H301GG08
5H301GG09
(57)【要約】
ロボット装置を制御する方法が提示される。本方法は、ロボット装置をタスク環境に配置することを含む。本方法はまた、タスク環境中の風景のタスク画像のディスクリプタを教示環境の教示画像にマッピングすることを含む。本方法は更に、マッピングに基づいてタスク画像と教示画像との間の相対変換を定義することを含む。本方法は更に、教示画像に対応するタスクを実行するために、相対変換に基づいてパラメーター化された動作のセットのパラメーターを更新することを含む。
【選択図】
図5
【特許請求の範囲】
【請求項1】
ロボット装置をタスク環境に配置することと、
タスク環境中の風景のタスク画像のディスクリプタを教示環境の教示画像にマッピングすることと、
前記マッピングに基づいて前記タスク画像と前記教示画像との間の相対変換を定義することと、
前記教示画像に対応するタスクを実行するために、前記相対変換に基づいてパラメーター化された動作のセットのパラメーターを更新することと、
を含む、ロボット装置の制御方法。
【請求項2】
前記パラメーター化された動作のセットは、前記ロボット装置が前記タスクを実行するように仮想現実インターフェースを用いて訓練されている間にユーザーにより実行される動作を含む、請求項1に記載の方法。
【請求項3】
前記タスク画像の現在の風景からの前記ディスクリプタを前記教示画像からのディスクリプタにインターバルを空けてマッピングすることを更に含む、請求項1に記載の方法。
【請求項4】
前記ロボット装置は、教示環境内での訓練中に使用されたスタート状況又は位置から逸脱して配置され、
前記タスク環境は、前記教示環境と類似しているか、又は同じである、
請求項1に記載の方法。
【請求項5】
スタート時の状況又は位置からの逸脱は、前記ロボット装置の異なるスタート位置及び/又は姿勢を含む、請求項4に記載の方法。
【請求項6】
スタート時の状況又は位置からの逸脱は、前記タスクが実行される対象である物体の異なるスタート位置及び/又は姿勢を含む、請求項4に記載の方法。
【請求項7】
前記ディスクリプタは、ピクセルディスクリプタ又はニューラルネットワークディスクリプタを有する、請求項1に記載の方法。
【請求項8】
メモリと、
前記メモリに接続された少なくとも1つのプロセッサを備え、前記少なくとも1つのプロセッサは、
ロボット装置をタスク環境に配置し、
タスク環境中の風景のタスク画像のディスクリプタを教示環境の教示画像にマッピングし、
前記マッピングに基づいて前記タスク画像と前記教示画像との間の相対変換を定義し、
前記教示画像に対応するタスクを実行するために、前記相対変換に基づいてパラメーター化された動作のセットのパラメーターを更新する、
ように構成されている、ロボット装置を制御する装置。
【請求項9】
前記パラメーター化された動作のセットは、前記ロボット装置が前記タスクを実行するように仮想現実インターフェースを用いて訓練されている間にユーザーにより実行される動作を含む、請求項8に記載の装置。
【請求項10】
前記少なくとも1つのプロセッサは更に、前記タスク画像の現在の風景からの前記ディスクリプタを前記教示画像からのディスクリプタにインターバルを空けてマッピングするように構成されている、請求項8に記載の装置。
【請求項11】
前記ロボット装置は、教示環境内での訓練中に使用されたスタート状況又は位置から逸脱して配置され、
前記タスク環境は、前記教示環境と類似しているか、又は同じである、
請求項8に記載の装置。
【請求項12】
スタート時の状況又は位置からの逸脱は、前記ロボット装置の異なるスタート位置及び/又は姿勢を含む、請求項11に記載の装置。
【請求項13】
スタート時の状況又は位置からの逸脱は、前記タスクが実行される対象である物体の異なるスタート位置及び/又は姿勢を含む、請求項11に記載の装置。
【請求項14】
前記ディスクリプタは、ピクセルディスクリプタ又はニューラルネットワークディスクリプタを有する、請求項8に記載の装置。
【請求項15】
ロボット装置を制御するためのプログラムコードを記録した非一時的なコンピュータ可読媒体であって、
前記プログラムコードはプロセッサにより実行され、
前記ロボット装置をタスク環境に配置するプログラムコードと、
タスク環境中の風景のタスク画像のディスクリプタを教示環境の教示画像にマッピングするプログラムコードと、
前記マッピングに基づいて前記タスク画像と前記教示画像との間の相対変換を定義するプログラムコードと、
前記教示画像に対応するタスクを実行するために、前記相対変換に基づいてパラメーター化された動作のセットのパラメーターを更新するプログラムコードと、
を含む、非一時的なコンピュータ可読媒体。
【請求項16】
前記パラメーター化された動作のセットは、前記ロボット装置が前記タスクを実行するように仮想現実インターフェースを用いて訓練されている間にユーザーにより実行される動作を含む、請求項15に記載の非一時的なコンピュータ可読媒体。
【請求項17】
前記プログラムコードは更に、タスク画像中の現在の風景からの前記ディスクリプタを前記教示画像からのディスクリプタへ、インターバルを空けてマッピングするプログラムコードを含む、請求項15に記載の非一時的なコンピュータ可読媒体。
【請求項18】
前記ロボット装置は、教示環境内での訓練中に使用されたスタート状況又は位置から逸脱して配置され、
前記タスク環境は、前記教示環境と類似しているか、又は同じである、
請求項15に記載の非一時的なコンピュータ可読媒体。
【請求項19】
スタート時の状況又は位置からの逸脱は、前記ロボット装置の異なるスタート位置及び/又は姿勢を含む、請求項18に記載の非一時的なコンピュータ可読媒体。
【請求項20】
スタート時の状況又は位置からの逸脱は、前記タスクが実行される対象である物体の異なるスタート位置及び/又は姿勢を含む、請求項18に記載の非一時的なコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2019年7月23日に出願され「キーフレームマッチャー」と題された米国特許仮出願第62/877,792、2019年7月23日に出願され「操作のための視覚的教示及び繰り返し―教示VR」と題された米国特許仮出願第62/877,791、及び2019年7月23日に出願され「視覚化」と題された米国特許仮出願第62/877,793号の利益を主張する、2019年9月13日に出願され「移動操作システムの視覚的教示と繰り返し」と題された米国特許出願第16/570,852号の利益を主張し、その内容を参照により本明細書に援用される。
【0002】
本開示の特定の態様は概してロボット装置に関し、特に仮想現実(VR)を通してロボット装置に繰り返し可能な動作としてパラメーター化されたアクションを教示するシステム及び方法に関する。
【背景技術】
【0003】
家、又はその他の環境で人々が行うタスクは多岐に渡る。ロボット支援技術が発達するにつれ、ロボットは人々が家などの環境中で行う多岐に渡るタスクを実行するようにプログラムされる。これにより費用対効果の高い特定用途のソリューションの開発は難しくなる。更に、環境、物体、及びタスクは非常に一定でなく、多様である。幾つかの物体及びタスクは同様である一方、ロボットは数々のユニークな物体及びタスクにも遭遇し得る。
【0004】
現在、ロボットはタスクを実行するようにプログラムされ、及び/又は教示され得る。従来のシステムでは、タスクは方向及び開始地点に特有である。開始点及び/又は物体の方向/位置がプログラムされた、又は教示されたタスクと一致しない場合、同じタスクを実行するようにロボット支援システムを改善することが望ましい。
【発明の概要】
【0005】
本開示のある態様では、ロボット装置を制御する方法が開示される。方法はタスク環境にてロボット装置を配置することを含む。方法はまたタスク環境中の風景のタスク画像のディスクリプタを教示環境の教示画像にマッピングすることを含む。方法は更に、マッピングに基づいてタスク画像と教示画像との相対変換を定義することを含む。方法は更に、教示画像に対応するタスクを実行するために、相対変換に基づいてパラメーター化された動作のセットを更新することを含む。
【0006】
本開示の別の態様では、非一時的なプログラムコードを記憶した非一時的なコンピュータ可読媒体が開示される。プログラムコードはロボット装置を制御するためのものである。プログラムコードはプロセッサにより実行され、タスク環境内にロボット装置を配置するプログラムコードを含む。プログラムコードはまたタスク環境中の風景のタスク画像のディスクリプタを教示環境の教示画像にマッピングするプログラムコードを含む。プログラムコードは更に、マッピングに基づいてタスク画像と教示画像との相対変換を定義するプログラムコードを含む。プログラムコードは更に、教示画像に対応するタスクを実行するために、相対変換に基づいてパラメーター化された動作のセットのパラメーターを更新するプログラムコードを含む。
【0007】
本開示の別の態様は、ロボット装置を制御する装置に関する。装置はメモリ及びメモリに接続された1つ以上のプロセッサを有する。プロセッサはロボット装置をタスク環境内に配置する。プロセッサはまたタスク環境中の風景のタスク画像のディスクリプタを教示環境の教示画像にマッピングする。プロセッサは更に、マッピングに基づいてタスク画像と教示画像との相対変換を定義する。プロセッサは更に、教示画像に対応するタスクを実行するために、相対変換に基づいてパラメーター化された動作のセットのパラメーターを更新する。
【0008】
以上、この後の詳細な説明がより良く理解されるために本開示の特徴及び技術的利点を広く大まかに説明した。本開示の追加の機能及び利点を以下に説明する。本開示は、本開示と同じ目的を実行するためのその他の構造を変更又は設計するための基礎として容易に使用され得るものであることが、当業者により理解されるはずである。そのような同等の構成は添付する特許請求の範囲により規定される本開示の教示から逸脱しないことも、当業者により認識されるはずである。本開示の特徴であると考えられる新しい機能は、その構成及び操作方法に関して、更なる目的及び利点と共に、添付する図と併せて考慮されたときに以下の説明からよりよく理解されるであろう。しかしながら、各図面は例示及び説明のみを目的として提供され、本開示の限界を定義することは意図しないことは、明白に理解されるべきである。
【図面の簡単な説明】
【0009】
本開示の機能、性質、及び利点は、類似の参照文字が全体に渡って対応する図面と組み合わせて考慮した場合に、以下に行う詳細な説明からより明らかになる。
【0010】
【
図1】本開示の態様により訓練中に仮想現実プラットフォームを使用してロボット装置を制御するオペレーターの例を示す。
【
図2A】本開示の態様により環境中にて動作するロボット装置の例を示す。
【
図2B】本開示の態様によりロボット装置のオペレーターに提供される供給ビデオの例を示す。
【
図3A】
図1に示される環境及びスタート位置と比較して同じ環境ではあるが異なるスタート位置からタスクを実行するロボット装置の例を示す。
【
図3B】
図1に示される環境及びスタート位置と比較して、類似していながら異なる環境の異なるスタート位置からタスクを実行するロボット装置の例を示す。
【
図4】本開示の態様により環境中にて動作するロボット装置の例を示す。
【
図5】本開示の態様によるロボット制御システムのハードウエア実装の図を示す。
【
図6】本開示の態様による教示された動作のグラフシーケンスの例を示す。
【
図7】本開示の態様によるロボットシステムのためのソフトウエアモジュールの例を示す。
【
図8】本開示の態様によるロボット装置を制御する方法を示す。
【発明を実施するための形態】
【0011】
以下に行う添付図面に関連した詳細な説明は、様々な構成の説明を意図し、本明細書内で説明する概念を実施する単一の構成を提示することを意図しない。詳細な説明は、様々な概念の完全な理解を提供する目的により、特定の詳細を含む。しかしながら、これらの概念がこれらの特定の詳細なしに実施され得ることが当業者には明らかであろう。幾つかの事例では、そのような概念を不明瞭にすることを避けるために、周知の構造及び構成要素がブロック図にて示される。
【0012】
教示に基づき、本開示の範囲は、独立して実装されるか本開示のその他の態様と組み合わせるかに関わらず、本開示の任意の態様を含めることを意図することが、当業者により理解されるべきである。例えば、明らかにされる任意の数の態様を使用して装置を実装してもよく、又は方法を実施してもよい。加えて、本開示の範囲は、本開示で明らかにする様々な態様に加えて、又はその他の構造及び機能、又は構造及び機能を使用して実施されるそのような装置又は方法を含むことを意図する。本開示の任意の態様は特許請求の範囲の1つ以上の要素により具現化され得ることが理解されるべきである。
【0013】
本明細書において「例示的な」という語は「例、実例、又は例証の役割を果たす」という意味で使用される。「例示的」として説明される本明細書の任意の態様は必ずしも他の態様に比べて好ましい又は有利であるとして理解されるべきものではない。
【0014】
本明細書にて特定の態様を説明するが、本開示の範囲にはこれらの態様に対する多数の変形及び置換が含まれる。好ましい態様の幾つかの利益及び利点が記載されるが、本開示の範囲は特定の利益、使用又は目的に限定されることを意図しない。寧ろ、本開示の態様は、一部を図及び好ましい態様の説明に例示を目的として示す異なる技術、システム構成、ネットワーク、及びプロトコルへ広く適用可能であることが意図される。詳細な説明及び図面は限定することよりも寧ろ本開示の説明のみを目的とし、本開示の範囲は添付する特許請求の範囲及び同等物によって定義される。
【0015】
世界人口は高齢化が進み、今後10年間で65歳を超える人の割合は65歳未満と比較して実質的に増加する。ロボット支援システムは老いて行く人々がより長く生き、より健康な生活を送れるように支援し得る。当然、ロボット支援システムは高齢者の支援に限ったものではない。ロボット支援システムは様々な環境における、そして/又は全ての年齢の人々に対する支援となり得る。
【0016】
現在、ロボットはタスクを実行するようにプログラムされ、及び/又は教示され得る。タスクは方向及び開始地点に特有である。概して、ロボットは開始点及び/又は物体の方向/位置がプログラムされた、又は教示されたタスクと一致しない場合、同じタスクを実行することができない。本開示において、ロボット支援システム内のロボットもまたロボット装置と称され得る。
【0017】
ロボットは物理的に移動操作が可能である。ロボットの操作性は関節構成の機能としてエンドエフェクタの位置を変更する能力のことである。ある構成では、ロボットは自動的に全身を制御し計画を立てる機能を更に備えている。そのことにより人間のオペレーターが運動学的制約又はロボットの姿勢をほとんど又は全く気にすることなく、タスク空間における継ぎ目ないエンドエフェクタ動作を仮想現実(VR)で実演することができる。ロボットはパン/チルトヘッドに1つ以上の視界RGB-D(red-green-blue及び奥行)センサを備え、仮想現実中の人間のオペレーターにタスクを実行するための重要なコンテキストを与えることができる。RGB-D画像はRGB画像及び対応する奥行画像の組み合わせである。奥行画像とは、各ピクセルが画像平面とRGB画像上の対応する物体との距離に関連付けられている画像チャンネルである。
【0018】
本開示の態様は、仮想現実内にて人間のオペレーターからタスクをデモンストレーションにより教示された後に、異なる環境にて自律的に人間のレベルの複雑なタスクを実行することが可能な移動操作ハードウエア及びソフトウエアシステム(例えばロボット装置)に関する。例えば、人間のオペレーターは環境内にて仮想現実プラットフォームを通してロボット装置を操作することによりロボット装置に対して環境内にて動作することを教示することができる。
【0019】
ある態様では、ロボット装置は環境中に位置し、風景の画像データが収集される。その後ロボット装置は(例えば仮想現実インターフェースを通して)タスクを実行するために制御される。仮想現実にて人間のオペレーターの視界をロボット装置の視界へと制限することにより、訓練中にロボット装置が単独でタスクを実行するのに充分な情報を有することが保証される。
【0020】
ロボット装置にアクション/タスクを教示する方法はオペレーターにより仮想現実インターフェースを通して実行された動作をパラメーター化することを含んでもよい。例えば、仮想現実インターフェースは、オペレーターがVR環境を描画するヘッドセットを着用して操作するパドル、手持ちのコントローラ、ペイントブラシツール、拭き取り用具、及び/又は配置ツールの使用を含んでもよい。したがって、人間のオペレーターは、直接的にタスク空間での動作を教示するよりも、パラメーター化されたプリミティブ(又は動作)のセットを教示する。パラメーター化されたプリミティブは、教示されるパラメーターを削減し、実行中のロバスト性を提供するために、衝突のない動作計画とハイブリッド(位置及び力)のデカルト制御を組み合わせる。
【0021】
パラメーター化された動作とは、そのタスクを小さい数の分離した動作の塊に分けることにより学習するタスクのことである。各動作は、関節角度変化、回転角度又は同種のもののパラメーターのセットにより定義される。これらのパラメーターの値はタスクを実行するときのロボットの状況に基づいて構成され更新されてもよい。パラメーター化された動作は、1つの学習済みタスクから学習及び抽出され、より大きいタスクを形成するためにその他のタスクと組み合わされてもよい。回転するハンドルを有するドアを開けるようなパラメーター化された動作は、任意のドアハンドルを開けることを実行することとして実装されてもよい(例えば30度の回転を要するドア、又は60度の回転を要するドア、又はより多くの回転)。例えば、回転角度は回転するドアハンドルを有するドアを開けることに対するパラメーター化された動作を定義する1つのパラメーターであり得る。
【0022】
実行されたタスクはパラメーター化された動作のセットへと定義され、アクションが行われた風景の画像データに関連付けられる。パラメーター化された動作はロバストな学習された密な視覚キーポイントエンベディングと、風景のうち関連する部分の仮想現実に基づいたマスキングとを用いて風景にリンクされる。ある構成では、テスト画像のピクセルは参照画像のピクセルと比較される。参照画像はキーフレームと称されてもよい。キーフレームは訓練中に取得されてもよい。キーフレームの使用により姿勢や画像変換に対する不変性が得られる。視覚システムは一致したピクセルの数が閾値よりも大きいときに、テスト画像がキーフレームに一致したことを判断する。ある構成では、視覚システムは、テスト画像とキーフレームとの一致ピクセルを識別するために、ピクセルディスクリプタを比較する。ピクセルディスクリプタはピクセルレベル情報と奥行情報を含む。ピクセルレベル情報はピクセルのRGB値や、画像/周囲のピクセル中におけるピクセルのコンテキストのような情報を含む。
【0023】
タスクを実行するには、ロボット装置は(訓練中の初期位置から相対的に)同じ又は類似した環境中に位置してもよい。ロボット装置は異なるスタート位置に位置してもよく、相対的に異なる初期姿勢を随意にとってもよい(例えば関節角度が異なるスタート位置へ調整される)。ロボット装置は瓶を取り上げる、キャビネットを開ける、そして瓶をキャビネットに入れるといった、(人間のオペレーターによる制御なしに)同じタスクの実行(例えばパラメーター化された動作のセット)を課され得る。例えば、ロボット装置は仮想現実にて制御されたシーケンスの中で教示された動作のパラメーターを更新することにより同じタスクを実行してもよい。パラメーターは、訓練中に使用された姿勢及び/又は位置に比較したロボット装置の現在の姿勢及び/又は位置に基づいて更新されてもよい。
【0024】
パラメーターを更新するには、ロボット装置は風景の初期画像を撮影し、新しい画像からキーフレームと称される訓練中の画像へ、ピクセル及び/又は密集したニューラルネットワークディスクリプタをマッピングする。キーフレームはロボット装置が見る奥行情報を有する画像のスナップショットである。マッピングにより、新しい画像と訓練中の画像(例えばキーフレーム)との間における相対変換が定義される。
【0025】
相対変換によりキーフレームを新しい画像にマッピングすることができる。マッピングは異なる画像のピクセル及び/又は密集したニューラルネットワークディスクリプタを一致させることにより実行されてもよい。相対変換はロボットのx軸上の位置、y軸上の位置、z軸上の位置、ロール、ピッチ、及びヨーの変化により定義されてもよい。相対変換は、パラメーター化された動作のパラメーターを、教示されたパラメーターから観察された状況へ更新するために使用されてもよい。
【0026】
相対変換はパラメーター化された動作に適用されてもよい。パラメーター化された動作に相対変換を適用することにより、ロボット装置は、スタート位置及び/又は姿勢が変わっても、同じタスクを以前教示されたように実行し得る。ロボットシステムは、ピクセル及び/又は密集したニューラルネットワークディスクリプタを、現在の風景からキーフレームからのものへ、パラメーター化された動作へ継続して調整が行われるように、継続してマッピングしてもよい。例えば、引き出しを引いて開ける、ドアを開ける、カップ又は瓶を取り上げる又は同種のもののような、パラメーター化された動作のセットにより定義された教示されたアクションへ、相対変換が適用されてもよい。
【0027】
幾つかの態様では、アクションは風景全体に関連するか、及び/又は物体特有であってもよい。例えば、瓶を取り上げるアクションには、瓶のところまで走行するために風景全体に関連したキーフレームの使用が必要になり得、そして瓶に接近すれば、瓶に特有のキーフレームは環境から独立して解析されてもよい。走行の動作はロボットをある地点から別の地点へ移動させるために使用される。このことにより、「取り上げる」アクションの訓練中に、ロボットが環境中の任意の場所に位置し得る物体の位置を特定し、その瓶の位置に関わらず「取り上げる」といったようなタスクを実行することができるようになり得る。操作する動作は、所望の物体と接触するためにロボットの部品(例えば胴体及び/又は腕)を動かすことに使用され得る。
【0028】
図1は本開示の態様により訓練中に仮想現実プラットフォームを使用してロボット装置106を制御するオペレーター100の例を示す。
図1に示されるように、オペレーター100は、ロボット装置106を制御するための視覚システム102及び動作制御器104(例えばジェスチャ追従システム)を備える。視覚システム102はオペレーター100の視覚を捕捉するだけでなく、供給ビデオを提供してもよい。オペレーター100はロボット装置106の位置から離れた位置にいてもよい。本例では、ロボット装置106はキッチン108に位置し、オペレーター100はロボット制御センター114のようなキッチン108と異なる場所に位置する。
【0029】
視覚システム102はロボット装置106の位置の供給ビデオを提供してもよい。例えば、視覚システム102はロボット装置106の前方視点に基づくキッチン108の光景を提供してもよい。360度(360°)の風景のようなその他の視点が提供されてもよい。視点はロボット装置106のビデオカメラのような1つ以上の視覚センサを使用して提供される。視覚システム102は
図1に示されるようなヘッドセットに限定されない。視覚システム102はまたモニタ110、画像プロジェクタ、又はロボット装置106からの供給ビデオを表示可能なその他の装置であってもよい。
【0030】
ロボット装置106の1つ以上のアクションが動作制御器104を介して制御されてもよい。例えば、動作制御器104はオペレーター100のジェスチャを捉え、捉えたジェスチャをロボット装置106が真似する。オペレーター100はロボット装置106の運動、手足の動作、及びその他のアクションを、動作制御器104を介して制御してもよい。例えば、オペレーター100はテーブル120の上の瓶116を掴み、キャビネット118を開け、瓶116をキャビネット118の中に置くためにロボット装置106を制御してもよい。この場合、瓶116は直立した位置又は姿勢である。オペレーター100によって実行される動作は仮想現実インターフェースを通してパラメーター化される。動作のそれぞれは、関節角度変化、回転角度又は同種のもののパラメーターのセットにより定義される。これらのパラメーターの値はタスクを実行するときのロボットの状況に基づいて構成され更新されてもよい。パラメーター化された動作は、1つの学習済みタスクから学習及び抽出され、より大きいタスクを形成するためにその他のタスクと組み合わされてもよい。
【0031】
ある態様では、訓練のための仮想現実インターフェースではヘッドセットを着用しコントローラを持ったユーザーがロボットとインタラクティブに動作制御を行ってもよい。仮想現実ヘッドセット内にて描画された環境は、
図1に示される視界のような、ロボット装置106から見た実際の環境の仮想現実環境である。別の視界として、以下の
図2A及び
図2Bに示されるようなオペレーターの視界を含んでもよい。幾つかの態様では、キッチン天板上にある瓶のような、操作対象となる物体に注釈又はハイライトを付すために、ユーザーインターフェースはペイントブラシツールを提供する。例えば、仮想現実生成器により生成され得る描画された環境のボクセルマップを通して、オペレーター/ユーザーは、相互作用される物体が占めるボクセルマップのセグメントをペイントすることができる。その他のユーザーツールには拭き取りツール又は配置ツールが含まれ、オペレーターは、ボクセルマップ中のアクションが実行されるべき場所にボックスを描くことができる。
【0032】
本開示の態様は動作制御器104を介してオペレーター100のジェスチャを捉えることに限定されない。その他の型のジェスチャ捕捉システムも考えられる。オペレーター100は無線接続112を介してロボット装置106を制御してもよい。加えて、ロボット装置106は無線接続112を介してオペレーター100へ供給ビデオのようなフィードバックを提供してもよい。
【0033】
図2Aは本開示の態様により食事環境202にてロボット装置200を制御するオペレーター(図示せず)の例を示す。明確にするために、
図2Aは食事環境202の上面図である。
図2Aに示されるように、食事環境202はダイニングテーブル204、シンク206、スプーン218の入った引き出し208、及びカウンター210を含む。オペレーターは食事環境202から離れた位置にいる。
【0034】
図2Aの例では、ロボット装置200は皿212、ナイフ214、及びフォーク216をダイニングテーブル204の上に置くように制御されていた。皿212、ナイフ214及びフォーク216をダイニングテーブル204に置いた後、オペレーターはスプーン218へ向けてジェスチャを行ってもよい。ジェスチャは、スプーン218に向けた手足222の動作220、スプーン218に視界224(例えば視線)を向けること、ロボット装置200をスプーンに向けて動かすこと、及び/又はその他のアクションのうち1つ以上を含んでもよい。
【0035】
図2Bは本開示の態様によりオペレーターに提供されるディスプレイ250の例を示す。ディスプレイ250はヘッドセット、モニタ、又はその他の型のディスプレイのような、視覚システムであってもよい。
図2Bに示されるように、ディスプレイ250はロボット装置200の視覚センサから提供される供給ビデオ252を含む。例えば、ロボット装置200の視界224に基づいて、供給ビデオ252はシンク206、カウンター210、引き出し208、及びスプーン218を表示する。ある構成では、供給ビデオ252の上に点群表現(図示せず)を重ねて表示してもよい。オペレーターは供給ビデオ252に基づいて、食事環境202のような環境中にてロボット装置200を案内してもよい。
【0036】
ディスプレイ250はオペレーターへの通知を提供するための画面上の指示領域254を含んでもよい。
図2Bに示すように、画面上の指示領域254は供給ビデオ252とは別である。代わりに、画面上の指示領域254は供給ビデオ252と重なってもよい。
【0037】
ある構成では、ロボット制御システムと関連付けられたロボット装置200はロボット装置200近傍のタスク画像の風景を識別する。例えば、ロボット装置200は、ロボット装置200の視界224内の潜在的なターゲットを識別する。この例では、シンク206、カウンター210、引き出し208、及びスプーン218が潜在的なターゲットとして識別される。例えば、ロボット装置はスプーン218を引き出し208からダイニングテーブル204まで運ぶことを含んだ、テーブルセッティングを行うタスクを課されてもよい。それに応じて、引き出し208の中のスプーン218はタスクにとって潜在的なターゲットとして考慮される。
【0038】
例えば、ロボット装置200は1本以上のスプーン218を握り、アクション(例えばスプーン218をテーブル204の上に置く)を実行するように教示されてもよい。それに伴い、ロボット装置200は、1本以上のスプーン218を握る準備をするために手足(腕や脚)222に取り付けられた手を開いてもよい。別の例として、ロボット装置200は、アクションを改善するためにジェスチャ又は現在の動作を調整してもよい。ロボット装置200は、スプーン218を握る動作を改善するために手足222が接近する角度を調整してもよい。ジェスチャ、動作、及び/又は手足の調整はパラメーター化され、特定の風景に関連付けられた特定のタスクのために記憶される。
【0039】
図3Aは
図1に示される環境及びスタート位置と比較して同じ環境ではあるが異なるスタート位置からタスクを実行するロボット装置306の例を示す。ロボット装置306は仮想現実内の人間のオペレーターからタスクをデモンストレーション(例えば1回のデモンストレーション)により教示された後に、実際の家にて人間のレベルの複雑なタスクを自律的に実行する。例えば、
図1及び
図2に示されるように、人間のオペレーターはロボット装置306に対して教示環境にて動作するように教示することができる。教示環境は訓練用のキッチン108に対応し、タスク環境はタスク用のキッチン308Aに対応する。
【0040】
図1の訓練用のキッチン108は
図3Aのキッチン308Aと同じだが、キッチン308Aはキッチン108と同じである必要はない。例えば、タスクキッチン308Aは、訓練用のキッチン108と同様の場所に位置する異なる冷蔵庫、異なるテーブル(例えばテーブル320)、異なるオーブン、異なるキャビネット等を含んでいてもよい。例えば、仮想現実により制御されたシーケンスの間に教示された動作のパラメーターは、ロボット装置306が瓶(例えば
図1の瓶116又は
図3Aの瓶316)を持ち上げる、キャビネット(例えば
図1のキャビネット118又は
図3Aのキャビネット318)を開ける、そして瓶をキャビネットの中に置く、といったタスク(例えばパラメーター化された動作のセット)を実行することを(人間のオペレーターによる制御なしに)課されたときに更新される。
【0041】
ロボット装置306の初期位置はロボット装置106の初期位置と異なるため、ロボット装置306はパラメーター化された動作のセットを更新するように指定される。加えて、ロボット装置306の初期位置の相違のため、新しいタスクに関連するスタート画像は、ロボット装置が訓練されたタスクのものと異なってもよい。
【0042】
パラメーターを更新するために、ロボット装置306は、タスク環境内におけるロボット装置306の初期位置からの風景の新しいタスク画像を(例えば視覚又は高解像度カメラを使用して)撮影する。一態様では、ロボット装置306の初期位置はロボット装置306が教示環境(例えば
図1)にて仮想現実(VR)インターフェースを使用してタスクを実行するよう教示されたスタート状況又は位置から逸脱している。例えば、スタート時の状況又は位置からの逸脱は、ロボット装置の異なるスタート位置及び/又は姿勢を含む。
【0043】
例えば、ロボット装置306が瓶316を取り上げ、キャビネット118を開け、瓶316をキャビネット318内に置くようなタスクが課されているとき、ロボット装置306は新しい画像から訓練中の画像へのピクセル及び/又はディスクリプタ(例えば密集したニューラルネットワークディスクリプタ)のマッピングに基づいてパラメーターを更新する。マッピングにより、新しい画像と訓練中の画像との間における相対変換が定義される。
【0044】
相対変換においては異なる画像のピクセル及び/又は密集したニューラルネットワークディスクリプタを一致させることにより訓練画像から新しい画像へマッピングが行われる。相対変換はロボット装置306のx軸上の位置、y軸上の位置、z軸上の位置、ロール、ピッチ、及びヨーの変化により定義されてもよい。相対変換は、パラメーター化された動作のパラメーターを、教示されたパラメーターから観察された状況へ更新するために使用される。例えば、走行動作及び/又は操作における動作に対応するパラメーター化された動作はロボット装置のスタート位置及び/又は姿勢の変化を補償するように調整されてもよい。
【0045】
図3Bは
図1に示される環境及びスタート位置と比較して、類似していながら異なる環境の異なるスタート位置からタスクを実行するロボット装置306の例を示す。キッチン308Bは
図1のキッチン108と異なる。例えば、
図1の瓶116が置いてあるテーブル120は、
図3の例における瓶316が置いてあるテーブル320と違う位置にある。更に、
図3Bの瓶316の配置は
図1の瓶116の配置と異なる。加えて、
図3Bのロボット装置306のスタート位置は
図1のロボット装置106のスタート位置と異なる。
【0046】
ロボット装置306の初期位置及び瓶316の配置は訓練中のロボット装置106の初期位置及び瓶116の配置と異なるため(
図1参照)、ロボット装置306が瓶316を取り上げ、キャビネット318を開け、瓶316をキャビネット318内に置くようなタスクが課されているとき、ロボット装置306はパラメーター化された動作のセットを更新するように指定される。例えば、ロボット装置306は、瓶316の把持を改善するために、ロボット装置の手足(例えば
図2の手足222)が接近する角度に対応するパラメーター化された動作を調整してもよい。
【0047】
ロボット制御システムは識別されたターゲットに対してアクションを実行することに限られない。本開示の態様は、車のような自律又は半自立車両を走行させることにも使用されてもよい。
図4に示されるように、オペレーターは都市402のような環境中にて遠隔操作のようなユーザーインターフェースを介して車両400(例えば自律車両)を制御してもよい。オペレーターは車両400の都市402から離れた位置にいてもよい。本明細書中に議論するように、車両400の1つ以上のセンサを介して供給ビデオがオペレーターへ提供されてもよい。センサは光検出と測距(LiDAR)センサ、電波探知測距(RADAR)センサ、及び/又はその他の型のセンサのようなカメラを含んでもよい。
【0048】
図4に示されるように、オペレーターは車両400を、第1の道路404に沿って第2の道路406との交差点に向かって動くように制御する。第1の建物408との衝突を避けるために、車両400は右412又は交差点にて左414へ曲がる必要がある。ロボット装置と同様に、オペレーターにより実行される動作は仮想現実インターフェースを通してパラメーター化される。
【0049】
議論したように、本開示の態様は、仮想現実内の人間からタスクをデモンストレーションにより教示された後に、実世界環境にて自律的に人間のレベルのタスクを実行することが可能な移動操作ハードウエア及びソフトウエアシステムに関する。ある構成では、移動操作ロボットが使用される。ロボットは全身タスク空間ハイブリッド位置/力制御を含んでもよい。加えて、議論したように、ロバストに学習された風景の密な視覚的エンベディング表現にリンクされた、パラメーター化されたプリミティブがロボットに教示される。そして、教示された動作のタスクグラフが生成されてもよい。
【0050】
固定された物体のセットを認識したり予め定義されたタスクを実行したりするようにロボットにプログラミングや訓練を行うよりも、本開示の態様によりロボットは新しい物体やタスクを人間によるデモンストレーションから学習することができる。学習されたタスクは自然に変化する状況下でロボットにより自律的に実行されてもよい。ロボットは以前の物体モデル又はマップを使用せず、1つの例から、与えられた動作のセットを任意の風景及び物体へ関連付けるよう教示されることができる。視覚システムは既存の教師付き及び教師なしデータセットを使用してオフラインで訓練されてもよく、システムの残りは追加の訓練データなしに機能してもよい。
【0051】
タスク空間の動作を直接教示する従来のシステムとは対照的に、本開示の態様はパラメーター化された動作のセットを教示する。これらの動作は、教示されたパラメーターを最小化し、実行中のロバスト性を提供するために、衝突のない動作計画とエンドエフェクタのハイブリッド(位置及び力)デカルト制御を組み合わせる。
【0052】
ある構成では、タスクに特化した、訓練された密な視覚に関するエンベディングが計算される。このピクセルに関するエンベディングはパラメーター化された動作を風景にリンクさせる。リンクにより、システムは、新しい状況への一般化と引き換えにロバスト性の高い様々な環境を取り扱い得る。
【0053】
タスクの動作は、視覚的な入力状況と、成功に基づく終了条件を用いて独立に教示されてもよい。動作は動的タスクグラフ内にて互いに連結されてもよい。動作が連結されているため、ロボットはタスクシーケンスを実行するために行動を再利用してもよい。
【0054】
ロボットは多自由度(DOF)であってもよい。例えば、ロボットは車台、胴体、左腕、右腕、及び頭の5つのサブシステムに分けられた31自由度(DOF)であってもよい。ある構成では、車台は、「疑似ホロノミック」な可動性を実現する4つの駆操舵可能な動輪(例えば計8自由度)を含む。駆動/操舵アクチュエータパッケージは様々なモーター及びギアヘッドを含んでもよい。胴体は5自由度(ヨー、ピッチ、ピッチ、ピッチ、ヨー)であってもよい。それぞれの腕は7自由度であってもよい。頭はパン/チルトの2自由度であってもよい。それぞれの腕は劣駆動の指を有する1自由度のグリッパを含んでもよい。本開示の態様は上に議論したロボットに限定されない。その他の構成が考えられる。一例では、ロボットはスポンジ又はモップのようなカスタムツールを含んでもよい。
【0055】
ある構成では、ロボットには環境との相互作用力を計測するための力/トルクセンサが一体化されている。例えば、力/トルクセンサはそれぞれの腕の手首に配されていてもよい。頭には、広い視界を提供し、また人間やロボットがタスクを実行するためのVRコンテキストを提供するための知覚センサが統合されていてもよい。
【0056】
本開示の態様はロボット制御のための数段階の抽象化を提供する。ある構成では、最も低い制御レベルにより、ロボットの全ての自由度のリアルタイムな協調制御が提供される。リアルタイム制御は関節制御及び部品の制御を含み得る。関節制御により、低レベルの装置通信が実装され、装置のコマンドや状態を一般的な形で公開する。加えて、関節制御はアクチュエータ、力センサ、及び慣性計測装置をサポートする。関節制御は異なるロボットをサポートするためにランタイムにて構成されていてもよい。
【0057】
部品制御により、ロボットを部品(例えば右腕、頭等)に分け、各部品に対してパラメーター化された制御器のセットを提供することで、ロボットのより高レベルの協働作用を扱い得る。部品制御により、関節位置及び速度、関節アドミッタンス、カメラ目視、車台位置及び速度、並びにハイブリッドタスク空間における姿勢、速度、及びアドミッタンス制御の制御器が提供されてもよい。
【0058】
エンドエフェクタのタスク空間制御により、ロボット制御を別次元で抽象化することが可能になる。このレベルの抽象化により所望の動作を達成するためのロボット姿勢の問題が解決される。ハイブリッドデカルト制御のための全身の逆運動学(IK)が二次のプログラムとして形成され、解かれる。部品には関節位置、速度、加速度、及び重力トルクに関して線形拘束が存在し得る。
【0059】
全身のIKはデカルト座標における姿勢のゴールに到達するための動作計画に使用されてもよい。ある構成では、環境の占有されたボクセルは球体やカプセル型が当てはめられる。ロボットと世界の衝突を避けるために、ボクセルの衝突拘束がIKの二次プログラムに加えられる。IKの二次プログラムにて、ノード間の操舵関数としてデカルト空間におけるサンプリングを行い、rapidly-exploring random tree(RRT)を用いて動作計画が行われてもよい。
【0060】
デカルト空間における計画により、自然で直接的な動作になる。操舵機能としてIKの二次プログラムを使用することにより、計画の信頼性を向上させることができ、計画と実行に同じ制御器を、両者の食い違いを削減するために用いてもよい。同様に、関節位置のゴールに向けた動作計画と、操舵機能として働く部品制御による関節位置制御器とを組み合わせてRRTを使用する。
【0061】
次の抽象化レベルによりパラメーター化された動作が定義される。ある構成では、パラメーター化された動作は、パラメーター化可能で、組み合わせることでタスクを成し遂げることが可能な、プリミティブなアクションである。動作は、握る、持ち上げる、置く、引く、ひっこめる、拭く、直接制御、のような操作アクション、関節を動かす、速度命令により運転する、位置命令により運転する、能動的な障害物回避を行いながらの経路追従、のような走行アクション、及び目視して停止するといった予備的アクションを限定せず含んでもよい。
【0062】
各動作は、ロボットの部品の1つ以上の関節又はデカルト座標における動作のような、単一又は複数の異なる型のアクションを有することができる。各アクションは位置、速度、又はアドミッタンス制御のような異なる制御手法を使用することができ、外部の障害物を回避するために動作計画を使用することを選択することができる。動作計画を使用するかに関わらないロボットの動作は、自己衝突を回避し、動作制御拘束を満たす。
【0063】
各動作は異なるアクションによりパラメーター化され、その代わりにアクションは独自のパラメーターを有してもよい。例えば、把持動作はグリッパ角度、6Dアプローチ、把持、及びグリッパの(随意的な)持ち上げ時の姿勢の4つのパラメーターから成り立っていてもよい。本例では、これらのパラメーターにより、次の予め定義されたアクションのシーケンスが定義される。(1)所望のグリッパ角度までグリッパを開く(2)6Dアプローチ姿勢までの衝突のない経路を計画し実行する(3)6D把持姿勢までグリッパを動かし接触したら停止する(4)グリッパを閉じる、及び(5)6D持ち上げポーズまでグリッパを動かす。
【0064】
最終レベルの制御の抽象化がタスクである。ある構成では、タスクは、ロボットが操作を行い人間の環境を走行することを可能にする動作のシーケンスとして定義される。タスクグラフ(
図5参照)は、異なるタスクをノードとし、異なる移動状況をエッジとし、異常検出及び異常からの回復を含む、有効であり、周期的又は非周期的なグラフである。エッジ状況は異なる物体や環境を取り扱うための各動作の実行状況、力/トルクセンサを使用した手中の物体の検査、音声コマンド、及びキーフレームとの一致を含む。
【0065】
本開示の態様により、ロボットが周囲の環境を理解するための知覚パイプラインが設計される。知覚パイプラインによりロボットはまた、教示されたタスクを踏まえてどのアクションを取るべきかを認識する能力が得られる。ある構成では、1つの視界画像(例えばワイドな視界の左画像)に高解像度カラーステレオペアの複数の奥行画像を投影することにより、融合RGB-D画像が作成される。システムは様々なピクセルレベルの分類及び特徴ベクトル(例えばエンベディング)を提供するためにディープニューラルネットワークのセットを実行する。教示されたシーケンスから呼び出された視覚的特徴に基づき、ピクセルレベルの分類及び特徴ベクトルは一時的な3Dボクセル表現へと累積される。ピクセルレベルの分類及び特徴ベクトルは実行するべきアクションを呼び出すために使用されてもよい。
【0066】
ある構成では、物体のカテゴリは定義されない。加えて、若しくは物体のモデル又は環境は想定されない。物体を明示的に検出してセグメント分けし、また明示的に6自由度の物体姿勢を推定するよりも、多用なタスクのために密なピクセルレベルのエンベディングを生成してもよい。教示されたシーケンスからの参照エンベディングが動作分類又は姿勢推定を行うために使用されてもよい。
【0067】
訓練されたモデルは完全な畳み込み型であってもよい。ある構成では、入力画像のピクセルはエンベディング空間の中のある点へそれぞれマッピングされる。エンベディング空間はモデルの出力により定義される損失関数と訓練手順によって暗黙のうちに定義されるメトリックを与えられる。訓練されたモデルは様々なタスクに使用されてもよい。
【0068】
ある構成では、1つの注釈が付された例が与えられれば、訓練されたモデルはセマンティイッククラス中の全ての物体を検出する。セマンティッククラス中の物体は注釈中のエンベディングとその他の領域中のエンベディングを比較することにより検出されてもよい。モデルは識別損失関数(discriminative loss function)により訓練されてもよい。
【0069】
モデルは物体インスタンスを判断するために訓練されてもよい。このモデルは独立した物体を識別し、そして/又は数える。モデルは各ピクセルのベクトル(2Dエンベディング)を予測するために訓練されてもよい。ベクトルはそのピクセルを含む物体の重心を指し示してもよい。ランタイムにおいて、同じ重心を指すピクセルはその風景のセグメントとしてグループ分けされてもよい。ランタイムにおける実行は3Dで行われてもよい。
【0070】
モデルは3Dの対応関係について訓練されてもよい。このモデルは風景内の任意の3D地点のビューが同じエンベディングに対してマッピングされるように、ビューや照明に対して不変なエンベディングをピクセルごとに提供する。このモデルは損失関数を使用して訓練されてもよい。
【0071】
各RGB-Dフレームに対するピクセルに関するエンベディング(及び奥行データ)は動的3Dボクセルマップへと融合される。各ボクセルは第1及び第2の順序の位置、色、エンベディングの統計を累積する。動的物体の有効期限はボクセルの奥行画像への逆投影に基づく。ボクセルマップは、セマンティック及びインスタンスレーベル、並びに幾何学的近似性に基づいて、標準的なグラフセグメンテーションを使用して分割される。ボクセルマップは標高及び走行可能性の分類統計を有する2.5Dマップへと次元が削減される。
【0072】
2.5Dマップは衝突のない車台の動作に使用される一方、ボクセルマップは衝突のない全身の動作計画に使用される。3Dにおける衝突の検査のために、貪欲法を使用してマップ中のボクセルがカプセルへとグループ化されてもよい。セグメント化された物体は、物体が把持された際に手に付属させるための動作に使用されてもよい。
【0073】
ロボットは過去に教示されたタスクにて記録された特徴に高度に関連する風景中の(又は特定の操作物体の)特徴を認識するように、ワンショット学習アプローチにより訓練されてもよい。タスクがユーザーによって実演されると、特徴がタスク全体にわたってキーフレームの形態で保存される。キーフレームはピクセルごとの奥行(有効であれば)を伴う多次元エンベディングを含むRGB画像であってもよい。
【0074】
エンベディングは、現在の画像が教示時に存在した参照画像と充分類似しているという想定の下でランタイムにおけるピクセルごとの対応関係を確立し得る特徴ディスクリプタとして機能する。奥行が(ほとんど)全てのピクセルに存在するため、現在の画像と参照画像の姿勢のデルタを解くために対応関係を使用することができる。ユークリッド制約を使用してインライアが検出されてもよく、6自由度の姿勢を解くためにRANSACと共にレーベンバーグ・マルカート最小二乗関数を適用する。
【0075】
姿勢のデルタは、教示された動作のシーケンスを現在の風景へ適合させるために適用可能な補正の役割を果たす。エンベディングが各ピクセルに対して定義されてもよいことから、キーフレームは画像中の全てのピクセルを含む程広くても良く、又はユーザーが定義したマスク内のピクセルのみを使用する程狭くてもよい。議論したように、ユーザーは、画像中の領域をタスクと関連するものとして、又は物体上にあるものとして選択的に注釈を付することにより、マスクを定義してもよい。
【0076】
視覚センシングに加えて、ある構成では、ロボットは音声入力を収集して処理する。音声は、ロボットを教示するための入力として、別のエンベディングのセットを提供する。例として、ロボットは質問を行い、人間からの応答の音声言語を理解することにより音声入力を得る。音声による応答はカスタムのキーワード検出モジュールを使用して理解されてもよい。
【0077】
ロボットは、完全畳み込みキーワードスポッティングモデルを利用して、カスタムのウェイクワード、物体のセット(例えば「マグ」又は「瓶」)、及び場所のセット(例えば「キャビネット」又は「冷蔵庫」)を理解してもよい。ある構成では、モデルは、例えば32msのようなあるインターバルでウェイクワードを聞いている。ウェイクワードが検出されたら、ロボットは物体又は場所のキーワードが検出されるかを注意する。訓練の間は、認識をよりロバストにするために人工的にノイズが加えられる。
【0078】
議論したように、ロボットにタスクを教示するためには、オペレーターはVRモードのセットを使用する。各動作は、その動作に特有のパラメーターを設定し命令するために、対応するVRモードを有してもよい。各動作モードは、各パラメーターの設定を支援するために、パラメーターの型に応じて、カスタマイズされた視覚化を含んでもよい。例えば、ドアを引く動きのパラメーターを設定する場合、蝶番の軸がラベルされ、線として視覚化され、グリッパを引くための姿勢候補は蝶番を中心とする円弧上に制限される。教示プロセスを支援するために、動作の復元、関連物体による環境への注釈付け、仮想ロボットの再位置決め、カメラ画像、及びVR世界のメニューのような幾つかのユーティリティVRモードが使用される。
【0079】
実行中、ロボットの姿勢及び環境中の部品は訓練中に使用されたものと異なってもよい。教示されたものと類似した環境中の特徴を発見するために特徴一致が使用されてもよい。姿勢デルタは一致した特徴の対応関係から確立されてもよい。ユーザーにより教示された動作が計算された姿勢デルタにより変化してもよい。ある構成では、複数のキーフレームがマッチング問題へ渡される。対応関係の数に基づいて、最も良く一致したキーフレームが選択される。
【0080】
図5は本開示の態様によるロボット制御システム500のハードウエア実装の例を示す図である。ロボット制御システム500は車両、ロボット装置528、又はその他の装置のような、自律又は半自律システムの構成要素であってもよい。
図5の例では、ロボット制御システム500はロボット装置528の構成要素である。ロボット制御システム500は、タスク環境にてタスクを実行するための相対変換に従ってパラメーター化された動作のセットのパラメーターを更新することに基づいて、ロボット装置528のアクションを制御するために使用されてもよい。
【0081】
ロボット制御システム500はバス530として概ね表されるバスアーキテクチャにより実装されてもよい。バス530はロボット制御システム500の特定の用途及び全体的な設計制約に応じて任意の数の相互接続バス及びブリッジを含んでもよい。バス530は、プロセッサ520として表される1つ以上のプロセッサ及び/又はハードウエアモジュール、通信モジュール522、位置モジュール518、センサモジュール502、移動モジュール526、メモリ524、タスクモジュール508、及びコンピュータ可読媒体514のような様々な回路を接続する。バス530はタイミングソース、周辺機器、電圧制御器、電源管理回路のような、当業者に既知であり、故にこれ以上の説明は行わないその他の様々な回路も接続してもよい。
【0082】
ロボット制御システム500は、プロセッサ520に接続された送受信機516、センサモジュール502、タスクモジュール508、通信モジュール522、位置モジュール518、移動モジュール526、メモリ524、及びコンピュータ可読媒体514を含む。送受信機516はアンテナ534に接続されている。送受信機516は様々な装置と伝送媒体を介して通信する。例えば、送受信機516は通信を介してロボット装置528のオペレーターからの命令(例えばタスクを開始するための)を受信してもよい。本明細書中に議論するように、オペレーターはロボット装置528から離れた位置にいてもよい。幾つかの態様では、タスクはまた、例えばタスクモジュール508を介してロボット装置528内にて開始されてもよい。
【0083】
ロボット制御システム500はコンピュータ可読媒体514に接続されたプロセッサ520を含む。プロセッサ520は、コンピュータ可読媒体514に記憶され、本開示による機能を提供するソフトウエアの実行を含む処理を行う。ソフトウエアは、プロセッサ520により実行された時、ロボット制御システム500により、ロボット装置528又はモジュール502、508、514、516、518、520、522、524、526のような特定の装置に対して説明された様々な機能を実行させる。コンピュータ可読媒体514は、ソフトウエアを実行した時にプロセッサ520により操作されるデータを記憶するためにも使用されてもよい。
【0084】
センサモジュール502は、第1のセンサ506及び第2のセンサ504のような異なるセンサを介して測定値を得るために使用されてもよい。第1のセンサ506は、2D画像を撮影するためのステレオカメラ又はRGBカメラのような視覚センサであってもよい。第2のセンサ504はLiDARセンサ又はRADARセンサのような測距センサであってもよい。当然、本開示の態様は上記のセンサに限られず、例えば、温度、音波、及び/又はレーザー等のその他の型のセンサもまたセンサ504、506のどちらかとして考えられる。第1のセンサ506及び第2のセンサ504による測定値は、本明細書中に説明した機能を実装するために、コンピュータ可読媒体514と併せて、プロセッサ520、センサモジュール502、通信モジュール522、位置モジュール518、移動モジュール526、メモリ524、のうち1つ以上により処理されてもよい。ある構成では、第1のセンサ506及び第2のセンサ504により捕捉されたデータは送受信機516を介して供給ビデオとしてオペレーターへ送信されてもよい。第1のセンサ506及び第2のセンサ504はロボット装置528へ接続されていてもよく、又はロボット装置528と通信状態にあってもよい。
【0085】
位置モジュール518はロボット装置528の位置を判断するために使用されてもよい。例えば、位置モジュール518は、ロボット装置528の位置を判断するために、全地球測位システム(GPS)を使用してもよい。通信モジュール522は送受信機516を介した通信を促進するために使用されてもよい。例えば、通信モジュール522は、WiFi、long term evolution(LTE)、3G等のような異なる無線プロトコルを介した通信能力を提供してもよい。通信モジュール522はまた、ロボット制御システム500のモジュールではない、ロボット装置528のその他の構成要素と通信するために使用されてもよい。
【0086】
移動モジュール526は、ロボット装置528の、及び/又はロボット装置528の構成要素(例えば手足、手、等)の移動を促進するために使用されてもよい。例えば、移動モジュール526は手足538及び/又は車輪532の動きを制御してもよい。別の例として、移動モジュール526はエンジン又はバッテリーのようなロボット装置528の電力源と通信中であってもよい。当然、本開示の態様はプロペラを介した移動を提供することに限られず、トレッド、ひれ、及び/又はジェットエンジンのような移動を提供するその他の型の構成要素も考慮される。
【0087】
ロボット制御システム500はまた、ロボット装置528及びタスクモジュール508の操作に関連するデータを記憶するためのメモリ524を含む。モジュールはプロセッサ520内で実行されるソフトウエアモジュール、コンピュータ可読媒体514及び/又はメモリ524に常駐/記憶されるもの、プロセッサ520に接続された1つ以上のハードウエアモジュール、又はそれらの組み合わせであってもよい。
【0088】
タスクモジュール508はセンサモジュール502、送受信機516、プロセッサ520、通信モジュール522、位置モジュール518、移動モジュール526、メモリ524、及びコンピュータ可読媒体514と通信可能であってもよい。ある構成では、タスクモジュール508はパラメーター化された動作モジュール510、アクションモジュール512、及び物体識別モジュール536を含む。物体識別モジュール536はロボット装置528の近くにある物体を識別してもよい。すなわち、センサモジュール502を介してセンサ504、506から受信した入力に基づいて、物体識別モジュール536は物体(例えばターゲット)を識別する。物体識別モジュール536は訓練された物体分類器(例えば人口ニューラルネットワーク)であってもよい。
【0089】
ピクセル及び/又は密集したニューラルネットワークディスクリプタを現在の風景からキーフレームからのものへとマッピングするために識別物体がパラメーター化された動作モジュール510へ出力されてもよく、その結果パラメーター化された動作への調整又は更新が継続して行われる。例えば、調整はマッピングに基づいたタスク画像と教示画像(例えばキーフレーム)の相対変換に基づいていてもよい。パラメーター化された動作のセットのパラメーターの更新は相対変換に基づく。アクションモジュール512は更新されたパラメーター化された動作を含むロボット装置へクション/タスクの実行を促進する。パラメーター化された動作はメモリ524に記憶されてもよい。例えば、更新されたパラメーター化された動作は、ロボット装置528が更新されたパラメーター化された動作を実行するために、少なくとも移動モジュール526へ出力される。
【0090】
図6は本開示の態様による教示された動作のグラフシーケンス600の例を示す。
図6に示すように、グラフシーケンス600は開始ノード602と終了ノード604を含む。グラフシーケンス600はセンシングした視覚入力、音声入力、又はその他の状況に基づいて枝分かれ又はループしてもよい。
【0091】
例えば、
図6に示すように、開始ノード602の後、ロボットは「listen_for_object」の動作を実行してもよい。この例では、ロボットは、カップ又は瓶に対応する視覚又は音声入力をセンシングしたかどうかを判断する。この例では、センシングした入力がカップに対応するか又は瓶に対応するかどうかに基づいて異なる動作シーケンスが実行される。本開示の態様は
図6に示した動作に限定されない。
【0092】
図7は本開示の態様によるロボットシステムのためのソフトウエアモジュールの例を示す。
図7のソフトウエアモジュールは、プロセッサ520、通信モジュール522、位置モジュール518、センサモジュール502、移動モジュール526、メモリ524、タスクモジュール508、及びコンピュータ可読媒体514のような
図5のハードウエアシステムの1つ以上の構成要素を使用してもよい。本開示の態様は
図7に示したモジュールに限定されない。
【0093】
図7に示すように、ロボットは音声データ704及び/又は画像データ/入力702を受信してもよい。画像入力702はRGB-D画像であってもよい。音声ネットワーク706はあるインターバルでウェイクワードを聞いていてもよい。音声ネットワーク706はウェイウクァードを検出し生のオーディオデータ704からキーワードを抽出するために生のオーディオデータ704を受信する。
【0094】
密なエンベディングネットワーク708のようなニューラルネットワークは、画像データ702を受信する。画像データ702はあるインターバルにて受信されてもよい。密なエンベディングネットワーク708は画像入力702を処理し、画像入力702のエンベディング710を出力する。エンベディング710及び画像データ702はボクセルマップ712を生成するために組み合わされてもよい。エンベディング710もまたキーフレームマッチャー712に入力されてもよい。
【0095】
キーフレームマッチャー712はエンベディング710を複数のキーフレームと比較する。エンベディング710がキーフレームのエンベディングと対応する場合に、一致するキーフレームが識別される。エンベディング710はピクセルディスクリプタ、奥行情報、及びその他の情報を含んでもよい。
【0096】
タスクモジュール714は1つ以上のタスクグラフ716を受信してもよい。タスクモジュール714はキーフレームマッチャー712からの要求に対する応答を提供する。キーフレームマッチャー712は、一致したキーフレームへタスクを一致させる。タスクはタスクグラフ716から判断されてもよい。
【0097】
タスクモジュール714はまた、動作モジュール718へ動作要求を送信してもよい。動作モジュール718はタスクモジュール714へ動作ステータスを提供する。加えて、動作モジュール718は一致したキーフレームに関する情報、及びキーフレームマッチャー712からの対応するタスクを要求してもよい。キーフレームマッチャー712は一致したキーフレームに関する情報、及び対応するタスクを動作モジュール718に提供する。動作モジュール718はボクセルマップ712からボクセルを受信してもよい。
【0098】
ある構成では、動作モジュール718は、動作計画要求に応答して動作計画器720からの動作計画を受信する。動作モジュール718はまた、部品制御モジュール722より部品状況を受信する。動作モジュール718は、部品状況を受信したことに応答して部品制御モジュール722へ部品命令を送信する。そして、部品制御モジュール722は関節制御モジュール724から関節状況を受信する。部品制御モジュール722は、関節状況を受信したことに応答して関節制御モジュール724へ関節命令を送信する。
【0099】
図8は本開示の態様によるロボット装置を制御する方法800を示す。ブロック802にて、タスクを実行する時にロボット装置はタスク環境内に位置する。ロボット装置は仮想現実(VR)インターフェースを使用してロボット装置が教示環境にてタスクを実行するよう教示されたスタート状況又は位置から逸脱して配置される。タスク環境は教示環境と類似しているか、又は同じである。
【0100】
ブロック804にて、ロボット装置がタスクに関連する仮想現実により制御されたシーケンス内で教示されたパラメーター化された動作のセットを実行するようにタスクを課された時に、タスク環境内の風景のタスク画像のピクセル及び/又はニューラルネットワークディスクリプタは教示環境の教示画像へマッピングされる。ブロック806にて、マッピングに基づいてタスク画像と教示画像との相対変換を定義する。ブロック808にて、タスク環境にてタスクを実行するために相対変換に基づいてパラメーター化された動作のセットのパラメーターが更新される。
【0101】
上に説明した方法の様々な操作は、対応する機能を実行可能な任意の適切な手段により実行されてもよい。手段は回路、特定用途向け集積回路(ASIC)、又はプロセッサを限定せず含む、様々なハードウエア及び/又はソフトウエアコンポーネント及び/又はモジュールを含んでもよい。図に示す操作があるときは、これらの操作は、概ね類似した番号を割り振られた対応する機能的構成要素を有してもよい。
【0102】
本明細書中に使用されるように、「判断」は多岐にわたるアクションを含む。例えば、「判断」は算出、計算、処理、導出、調査、検索(例えば表、データベース又はその他の構造の中を検索)、究明等を含み得る。加えて、「判断」は受信(例えば情報を受信すること)、アクセス(例えばメモリ中のデータにアクセスすること)等を含み得る。更に、「判断」は、解決、選出、選択、確立等を含み得る。
【0103】
本明細書中に使用するように、「のうち少なくとも1つ」のフレーズは、項目のリストから、単一の項目を含む、項目の任意の組み合わせを指す。例えば、「a、b、又はcのうち少なくとも1つ」はa、b、c、a-b、a-c、b-c、a-b-cを含むことが意図される。
【0104】
本開示に関連して説明される様々な例示的な論理ブロック、モジュール、及び回路は、本開示に従って構成されたプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、Field Programmable Gate Array信号(FPGA)又は他のプログラマブル論理デバイス(PLD)、個別ゲート又はトランジスタ論理、個別ハードウェアコンポーネント、又は本明細書中に説明した機能を実行するよう設計された上記の任意の組み合わせにより実装又は実行されてもよい。プロセッサは、本明細書中の説明のように構成されるマイクロプロセッサ、コントローラ、マイクロコントローラ、又は状態マシンであってもよい。プロセッサはまた、例えばDSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと組み合わせた1つ以上のマイクロプロセッサ、又は本明細書で説明するその他の特別な構成といった、計算装置の組み合わせとして実装されてもよい。
【0105】
本開示と関連して説明される方法のステップ又はアルゴリズムはハードウエア、プロセッサにより実行されるソフトウエアモジュール、又はこの2つの組み合わせ内にて直接具現化されてもよい。ソフトウエアモジュールは、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、Erasable Programmable Read Only Memory(EPROM)、Electrically Erasable Programmable Read-Only Memory(EEPROM)、レジスタ、ハードディスク、取り外し可能ディスク、CD-ROM又は他の光ディスク記憶装置、磁気ディスク記憶装置又はその他の磁気記憶装置、命令又はデータ構造の形態で所望のプログラムコードを搬送又は記憶することに使用可能でコンピュータによってアクセス可能なその他の任意の媒体を含む、記憶装置、又は機可読械媒体に存在してもよい。ソフトウエアモジュールは、単一の命令、又は多数の命令を備えることもあり、複数の異なるコードセグメント、異なるプログラム間、及び複数の記憶媒体に分散されていてもよい。プロセッサが記憶媒体へ情報を書き込んだり記憶媒体から情報を読み出したりできるようにプロセッサに記憶媒体が接続されていてもよい。代わりに、記憶媒体はプロセッサと一体となっていてもよい。
【0106】
本明細書にて開示する方法は、開示された方法を実現するための1つ以上のステップ又はアクションを含む。方法のステップ及び/又はアクションは特許請求の範囲から逸脱することなく互いに入れ替えてもよい。言い換えれば、ステップ又はアクションの特定の順序が特定されていない限り、特定のステップ及び/又はアクションの順序及び/又は用途は特許請求の範囲から逸脱することなく変更されてもよい。
【0107】
説明された機能はハードウエア、ソフトウエア、ファームウエア、又はこれらの任意の組み合わせにより実装されてもよい。ハードウエアで実装する場合、ハードウエア構成の例は装置中に処理システムを備えてもよい。処理システムはバスアーキテクチャを用いて実装してもよい。バスは処理システムの特定の用途及び全体的な設計制約に応じて任意の数の相互接続バス及びブリッジを含んでもよい。バスはプロセッサ、機械可読媒体、及びバスインターフェースを含む様々な回路を接続してもよい。バスインターフェースは、その他の物の中でも、ネットワークアダプタを処理システムにバスを介して接続することに使用されてもよい。ネットワークアダプタは信号処理機能を実装するために使用されてもよい。特定の態様では、ユーザーインターフェース(例えばキーパッド、ディスプレイ、マウス、ジョイスティック等)もまたバスに接続されてもよい。バスはタイミングソース、周辺機器、電圧制御、電源管理回路等のような、当業者に既知であり、故にこれ以上の説明は行わないその他の様々な回路も接続してもよい。
【0108】
プロセッサはバスの管理、及び機械可読媒体に記憶されたソフトウエアの実行を含む処理を担当してもよい。ソフトウエアは、ソフトウエア、ファームウエア、ミドルウエア、マイクロコード、ハードウエア記述言語、又はその他の呼び方に関わらず、命令、データ、又はそれらの任意の組み合わせを意味すると解釈するものとする。
【0109】
ハードウエア実装にて、機械可読媒体はプロセッサとは別個の処理システムの一部であってもよい。しかしながら、当業者が容易に理解するように、機械可読媒体、又はその任意の一部は、処理システムの外部にあってもよい。例えば、機械可読媒体は通信線、データによって変調された搬送波、及び/又は装置から切り離されたコンピュータ製品を含んでも良く、これらは全てバスインターフェースを介してプロセッサによりアクセスされてもよい。代わりに、又は加えて、機械可読媒体、又はその一部は、キャッシュ及び/又は特別なレジスタファイルが存在し得る場合のようにプロセッサに統合されていてもよい。議論した様々な構成要素は、ローカルな構成要素のように特別な位置を有するように説明されたが、それらは分散コンピューティングシステムの一部として構成される特定の構成要素のように様々な方法により構成されてもよい。
【0110】
処理システムはプロセッサ機能を提供する1つ以上のマイクロプロセッサ、及び機械可読媒体の少なくとも一部を提供する及び外部メモリにより構成されてもよく、それらは全て外部のバスアーキテクチャによりサポート回路を通して連結されてもよい。代わりに、処理システムは、本明細書にて説明したニューロンモデル及びニューラルシステムのモデルを実装するために、1つ以上のニューロモーフィックプロセッサを備えていてもよい。別の代替として、処理システムは、プロセッサを有する特定用途向け集積回路(ASIC)、バスインターフェース、ユーザーインターフェース、サポート回路、及び単一のチップに統合された機械可読媒体の少なくとも一部、又は1つ以上のField Programmable Gate Array(FPGA)、プログラマブル論理デバイス(PLD)、コントローラ、状態マシン、ゲート論理、個別ハードウエア構成要素、又はその他の適切な回路、又は本開示内で説明された様々な機能を実行可能な回路の任意の組み合わせにより実装されてもよい。当業者は、特定の用途、及びシステム全体に課される全体的な設計制約により、説明された処理システムの機能をどのように実装することが最適なのかを認識するであろう。
【0111】
機械可読媒体は数々のソフトウエアモジュールを備えていてもよい。ソフトウエアモジュールは送信モジュール及び受信モジュールを含んでいてもよい。各ソフトウエアモジュールは単一の記憶装置内に存在してもよく、又は複数の記憶装置に渡って分散されていてもよい。例えば、トリガとなるイベントが起こったときにソフトウエアモジュールがハードドライブからRAMにロードされてもよい。ソフトウエアモジュールの実行中、プロセッサは、アクセス速度を上げるために、幾つかの命令をキャッシュへロードしてもよい。プロセッサにより実行するため、1つ以上のキャッシュラインがその後特殊用途レジスタファイルにロードされてもよい。ソフトウエアモジュールの以下の機能を参照すれば、ソフトウエアモジュールによる命令の実行時にプロセッサにより機能が実施されることが理解されよう。更に、本開示の態様によりプロセッサ、コンピュータ、マシン、又はこのような態様を実装するその他のシステムの機能が改善することが理解されるべきである。
【0112】
ソフトウエアに実装されれば、機能は1つ以上の命令又はコードとしてコンピュータ可読媒体上に記憶又は転送されてもよい。コンピュータ可読媒体には、コンピュータの記憶装置と、コンピュータプログラムをある場所から別の場所へ転送することを促進する任意の記憶装置を含む通信メディアとの両方が含まれる。加えて、任意の接続をコンピュータ可読媒体と呼ぶのが適切である。例えば、ソフトウエアが同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線(DSL)、又は赤外線(IR)、ラジオ、及びマイクロ波などの無線技術を使用してウェブサイト、サーバー、又は他の遠隔ソースから送信される場合は、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、又は赤外線、ラジオ、及びマイクロ波などの無線技術はメディアの定義に含まれる。本明細書に使用されるdisk及びdiscは、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク(DVD)、フロッピー(登録商標)ディスク、ブルーレイ(登録商標)ディスクを含み、diskは通常磁気的にデータを再生し、discはレーザーを使用して光学的にデータを再生する。したがって、幾つかの態様では、コンピュータ可読媒体は非一時的なコンピュータ可読媒体(例えば有形媒体)を備えていてもよい。加えて、その他の態様では、コンピュータ可読媒体は一時的なコンピュータ可読媒体(例えば信号)を備えていてもよい。上記の組み合わせはコンピュータ可読媒体の範囲に含まれるべきものとする。
【0113】
したがって、特定の態様は本明細書中で提示された操作を実行するコンピュータプログラム製品を備えていてもよい。例えば、そのようなコンピュータプログラム製品は命令を記憶(及び/又は暗号化)したコンピュータ可読媒体を備えていてもよく、命令は本明細書中に説明した操作を実行するために1つ以上のプロセッサにより実行可能である。特定の態様では、コンピュータプログラム製品は包装資材を含んでもよい。
【0114】
更に、モジュール並びに/又は本明細書中に説明した方法及び技術を実行するその他の適切な手段は、必要に応じてダウンロード並びに/又はユーザー端末及び/又はベースステーションにより取得可能であることが理解されるべきである。例えば、本明細書中で説明された方法を実行するための手段の転送を促進するために、そのような装置をサーバーに接続することができる。代わりに、本明細書中で説明した様々な方法は、記憶手段を装置に接続するか、又は記憶手段を装置に提供することによりユーザー端末及び/又はベースステーションが様々な方法を取得することが可能になる形で、記憶手段を介して提供することができる。更に、本明細書中で説明した方法及び技術を装置に提供するその他の任意の技術を使用することができる。
【0115】
特許請求の範囲は上記に示された正確な構成及び構成要素に限定されないことが理解されるべきである。上に説明した方法及び装置の配置、操作、並びに詳細に対して、特許請求の範囲から逸脱せずに、様々な修正、変更及び変形がなされ得る。
【国際調査報告】