IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディーコンストラクト、テクノロジーズ、プライベート、リミテッドの特許一覧

特表2024-538527ロボット装置を制御するための装置及び方法
<>
  • 特表-ロボット装置を制御するための装置及び方法 図1
  • 特表-ロボット装置を制御するための装置及び方法 図2
  • 特表-ロボット装置を制御するための装置及び方法 図3
  • 特表-ロボット装置を制御するための装置及び方法 図4
  • 特表-ロボット装置を制御するための装置及び方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】ロボット装置を制御するための装置及び方法
(51)【国際特許分類】
   B25J 13/00 20060101AFI20241016BHJP
   G06N 3/0455 20230101ALI20241016BHJP
   G06T 7/00 20170101ALI20241016BHJP
   G06T 7/11 20170101ALI20241016BHJP
   G06N 3/09 20230101ALI20241016BHJP
【FI】
B25J13/00 Z
G06N3/0455
G06T7/00 350C
G06T7/11
G06N3/09
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024517069
(86)(22)【出願日】2021-09-17
(85)【翻訳文提出日】2024-05-08
(86)【国際出願番号】 SG2021050569
(87)【国際公開番号】W WO2023043365
(87)【国際公開日】2023-03-23
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.QRコード
2.BLUETOOTH
3.イーサネット
(71)【出願人】
【識別番号】524102073
【氏名又は名称】ディーコンストラクト、テクノロジーズ、プライベート、リミテッド
【氏名又は名称原語表記】dConstruct Technologies Pte. Ltd.
(74)【代理人】
【識別番号】100120031
【弁理士】
【氏名又は名称】宮嶋 学
(74)【代理人】
【識別番号】100107582
【弁理士】
【氏名又は名称】関根 毅
(74)【代理人】
【識別番号】100118843
【弁理士】
【氏名又は名称】赤岡 明
(74)【代理人】
【識別番号】100202429
【弁理士】
【氏名又は名称】石原 信人
(72)【発明者】
【氏名】チェン、リン、ツァイ
(72)【発明者】
【氏名】チア、イー、チョン
(72)【発明者】
【氏名】クリッティン、コーキーリー
(72)【発明者】
【氏名】シャーリー
【テーマコード(参考)】
3C707
5L096
【Fターム(参考)】
3C707CS08
3C707KS11
3C707KS12
3C707KT01
3C707KT04
3C707LS15
3C707LW12
3C707LW15
3C707WA14
5L096BA05
5L096CA02
5L096CA25
5L096DA02
5L096FA02
5L096FA64
5L096FA66
5L096FA69
5L096HA11
5L096JA11
5L096JA16
5L096KA04
(57)【要約】
ロボット装置コントローラを訓練するための方法であって、複数のデジタル訓練入力画像のそれぞれについて、エンコーダネットワークがデジタル訓練入力画像を潜在空間内の特徴に符号化し、デコーダネットワークが、特徴から、デジタル訓練入力画像に示された複数の領域のそれぞれについて、領域が横断可能であるかどうかを判定し、及びデジタル訓練入力画像の視点と領域との間の距離に関する情報を決定し、ポリシーモデルが、特徴から、ロボット装置の移動を制御するための制御情報を決定するような、エンコーダネットワーク、デコーダネットワーク、及びポリシーネットワークを含むニューラルネットワークを訓練することを含み、少なくともポリシーモデルが、デジタル訓練入力画像の制御情報グラウンドトゥルースデータを使用して教師ありの方法で訓練される、方法が記載される。
【特許請求の範囲】
【請求項1】
ロボット装置コントローラを訓練するための方法であって、
複数のデジタル訓練入力画像のそれぞれについて、エンコーダネットワークが前記デジタル訓練入力画像を潜在空間内の特徴に符号化し、
デコーダネットワークが、前記特徴から、前記デジタル訓練入力画像に示された複数の領域のそれぞれについて、前記領域が横断可能であるかどうかを判定し、及び前記デジタル訓練入力画像の視点と前記領域との間の距離に関する情報を決定し、
前記ポリシーモデルが、前記特徴から、ロボット装置の移動を制御するための制御情報を決定するような、前記エンコーダネットワーク、前記デコーダネットワーク、及びポリシーネットワークを含むニューラルネットワークを訓練することを含み、
少なくとも前記ポリシーモデルが、前記デジタル訓練入力画像の制御情報グラウンドトゥルースデータを使用して教師ありの方法で訓練される、
方法。
【請求項2】
前記エンコーダネットワーク及び前記デコーダネットワークを訓練することが、前記エンコーダネットワーク及び前記デコーダネットワークを含むオートエンコーダを訓練することを含む、請求項1に記載の方法。
【請求項3】
前記エンコーダネットワークを前記デコーダネットワークと一緒に訓練することを含む、請求項1又は2に記載の方法。
【請求項4】
前記エンコーダネットワークを前記デコーダネットワーク及び前記ポリシーネットワークと一緒に訓練することを含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記デコーダネットワークが、セマンティックデコーダ及び深度デコーダを含み、デジタル訓練入力画像ごとに、
前記セマンティックデコーダが前記特徴から、前記デジタル訓練入力画像に示された複数の領域のそれぞれについて、前記領域が横断可能であるかどうかを判定し、
前記深度デコーダが、前記1つ又は複数の特徴から、前記デジタル訓練入力画像に示された複数の領域のそれぞれについて、
前記デジタル訓練入力画像の視点と前記領域との間の距離に関する情報を決定するように、前記ニューラルネットワークが訓練される、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記セマンティックデコーダが、教師ありの方法で訓練される、請求項5に記載の方法。
【請求項7】
前記深度デコーダが教師ありの方法で訓練されるか、又は前記深度デコーダが教師なしの方法で訓練される、請求項5に記載の方法。
【請求項8】
前記エンコーダネットワーク、前記デコーダネットワーク、及び前記ポリシーネットワークのうちの1つ又は複数が、畳み込みニューラルネットワークである、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記制御情報が、複数のロボット装置移動コマンドのそれぞれに対する制御情報を含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記ポリシーモデルが、前記エンコーダが複数の訓練入力画像を符号化した特徴から前記制御情報を決定するように、前記ニューラルネットワークが訓練される、請求項1から9のいずれか一項に記載の方法。
【請求項11】
ロボット装置を制御するための方法であって、
請求項1から10のいずれか一項に記載のロボット装置コントローラを訓練することと、
前記ロボット装置の周囲を示す1つ又は複数のデジタル画像を取得することと、
前記エンコーダネットワークを使用して1つ又は複数の特徴に前記1つ又は複数のデジタル画像を符号化することと、
前記1つ又は複数の特徴を前記ポリシーネットワークに供給することと、
前記1つ又は複数の特徴に応答して前記ポリシーモデルの制御情報出力に従って前記ロボットを制御することと、を含む、方法。
【請求項12】
前記ロボット装置の1つ又は複数のカメラから前記1つ又は複数のデジタル画像を受信することを含む、請求項11に記載の方法。
【請求項13】
前記制御情報が、複数のロボット装置移動コマンドのそれぞれに対する制御情報を含み、前記方法が、ロボット装置移動コマンドの指示を受信することと、指示されたロボット装置移動コマンドに対する前記制御情報に従って前記ロボットを制御することとを含む、請求項11又は12に記載の方法。
【請求項14】
前記ポリシーモデルが、前記エンコーダが複数の訓練入力画像を符号化した特徴から前記制御情報を決定するように前記ニューラルネットワークが訓練され、前記方法が、
前記ロボット装置の周囲を示す複数のデジタル画像を取得することと、
前記エンコーダネットワークを使用して前記複数のデジタル画像を複数の特徴に符号化することと、
前記複数の特徴を前記ポリシーネットワークに供給することと、
前記複数の特徴に応答して前記ポリシーモデルの制御情報出力に従って前記ロボットを制御することとを含む、請求項11から13のいずれか一項に記載の方法。
【請求項15】
前記複数のデジタル画像が、異なるカメラから受信した画像を含む、請求項14に記載の方法。
【請求項16】
前記複数のデジタル画像が、異なる視点から撮影された画像を含む、請求項14又は15に記載の方法。
【請求項17】
前記複数のデジタル画像が、異なる時間に撮影された画像を含む、請求項14から16のいずれか一項に記載の方法。
【請求項18】
請求項1から17のいずれか一項に記載の方法を実施するように構成されたロボット装置制御システム。
【請求項19】
1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに請求項1から17のいずれか一項に記載の方法を実施させるプログラム命令を含むコンピュータプログラム要素。
【請求項20】
1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに請求項1から17のいずれか一項に記載の方法を実施させるプログラム命令を含むコンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の様々な態様は、ロボット装置を制御するための装置及び方法、並びにロボット装置コントローラを訓練するための装置及び方法に関する。
【背景技術】
【0002】
移動ロボットなどのロボット装置は、人間のユーザによる遠隔制御を使用して制御することができる。このために、人間のユーザは、例えば、ロボットの視点から画像を供給され、それに応じて反応することができ、例えば、障害物の周りでロボットを操縦することができる。しかしながら、これは、正しい時間にユーザによる正確な入力を必要とし、したがって、人間のユーザからの絶え間ない注意を必要とする。
【0003】
したがって、例えば、「前方に移動する」(廊下などの経路に沿って)、「右折する」、又は「左折する」などの人間のユーザの高レベルのコマンドに従って、ロボットがより自律的に移動することを可能にする手法が望ましい。
【発明の概要】
【0004】
様々な実施形態によれば、ロボット装置コントローラを訓練するための方法であって、複数のデジタル訓練入力画像のそれぞれについて、エンコーダネットワークは、デジタル訓練入力画像を潜在空間内の特徴に符号化し、デコーダネットワークは、特徴から、デジタル訓練入力画像に示された複数の領域のそれぞれについて、領域が横断可能であるかどうかを判定し、及びデジタル訓練入力画像の視点と領域との間の距離に関する情報を決定し、ポリシーモデルは、特徴から、ロボット装置の移動を制御するための制御情報を決定するような、エンコーダネットワーク、デコーダネットワーク、及びポリシーネットワークを含むニューラルネットワークを訓練することを含み、少なくともポリシーモデルは、デジタル訓練入力画像の制御情報グラウンドトゥルースデータを使用して教師ありの方法で訓練される、方法が提供される。
【0005】
一実施形態によれば、エンコーダネットワーク及びデコーダネットワークを訓練することは、エンコーダネットワーク及びデコーダネットワークを含むオートエンコーダを訓練することを含む。
【0006】
一実施形態によれば、本方法は、エンコーダネットワークをデコーダネットワークと一緒に訓練することを含む。
【0007】
一実施形態によれば、本方法は、エンコーダネットワークをデコーダネットワーク及びポリシーネットワークと一緒に訓練することを含む。
【0008】
一実施形態によれば、デコーダネットワークは、セマンティックデコーダ及び深度デコーダを含み、デジタル訓練入力画像ごとに、セマンティックデコーダが特徴から、デジタル訓練入力画像に示された複数の領域のそれぞれについて、領域が横断可能であるかどうかを判定し、深度デコーダが、1つ又は複数の特徴から、デジタル訓練入力画像に示された複数の領域のそれぞれについて、デジタル訓練入力画像の視点と領域との間の距離に関する情報を決定するように、ニューラルネットワークは訓練される。
【0009】
一実施形態によれば、セマンティックデコーダは、教師ありの方法で訓練される。
【0010】
一実施形態によれば、深度デコーダは教師ありの方法で訓練されるか、又は深度デコーダは教師なしの方法で訓練される。
【0011】
一実施形態によれば、エンコーダネットワーク、デコーダネットワーク、及びポリシーネットワークのうちの1つ又は複数は、畳み込みニューラルネットワークである。
【0012】
一実施形態によれば、制御情報は、複数のロボット装置移動コマンドのそれぞれに対する制御情報を含む。
【0013】
一実施形態によれば、ポリシーモデルが、エンコーダが複数の訓練入力画像を符号化した特徴から制御情報を決定するように、ニューラルネットワークは訓練される。
【0014】
一実施形態によれば、ロボット装置を制御するための方法であって、上述の実施形態のいずれか1つによる方法に従ってロボット装置コントローラを訓練することと、ロボット装置の周囲を示す1つ又は複数のデジタル画像を取得することと、エンコーダネットワークを使用して1つ又は複数の特徴に1つ又は複数のデジタル画像を符号化することと、1つ又は複数の特徴をポリシーネットワークに供給することと、1つ又は複数の特徴に応答してポリシーモデルの制御情報出力に従ってロボットを制御することと、を含む、方法が提供される。
【0015】
一実施形態によれば、本方法は、ロボット装置の1つ又は複数のカメラから1つ又は複数のデジタル画像を受信することを含む。
【0016】
一実施形態によれば、制御情報は、複数のロボット装置移動コマンドのそれぞれに対する制御情報を含み、方法は、ロボット装置移動コマンドの指示を受信することと、指示されたロボット装置移動コマンドに対する制御情報に従ってロボットを制御することとを含む。
【0017】
一実施形態によれば、ポリシーモデルが、エンコーダが複数の訓練入力画像を符号化した特徴から制御情報を決定するようにニューラルネットワークが訓練され、方法は、ロボット装置の周囲を示す複数のデジタル画像を取得することと、エンコーダネットワークを使用して複数のデジタル画像を複数の特徴に符号化することと、複数の特徴をポリシーネットワークに供給することと、複数の特徴に応答してポリシーモデルの制御情報出力に従ってロボットを制御することとを含む。
【0018】
一実施形態によれば、複数のデジタル画像は、異なるカメラから受信した画像を含む。
【0019】
一実施形態によれば、複数のデジタル画像は、異なる視点から撮影された画像を含む。
【0020】
一実施形態によれば、複数のデジタル画像は、異なる時間に撮影された画像を含む。
【0021】
一実施形態によれば、上述の実施形態のいずれか1つの方法を実施するように構成されたロボット装置制御システムが提供される。
【0022】
一実施形態によれば、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、上述の実施形態のいずれか1つの方法を実施させるプログラム命令を含むコンピュータプログラム要素が提供される。
【0023】
一実施形態によれば、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、上述の実施形態のいずれか1つの方法を実施させるプログラム命令を含むコンピュータ可読媒体が提供される。
【図面の簡単な説明】
【0024】
本発明は、非限定的な例及び添付の図面と併せて考慮されると、詳細な説明を参照してよりよく理解されるであろう。
図1】ロボットを示す。
図2】一実施形態による制御システムを示す。
図3】一実施形態による機械学習モデルを示す。
図4】一実施形態による複数の入力画像を処理するための機械学習モデルを示す。
図5】一実施形態によるロボット装置コントローラを訓練するための方法を示す。
【発明を実施するための形態】
【0025】
以下の詳細な説明は、本開示を実施することができる特定の詳細及び実施形態を例示として示す添付の図面を参照する。これらの実施形態は、当業者が本開示を実施することを可能にするのに十分詳細に記載されている。本開示の範囲から逸脱することなく、他の実施形態を利用することができ、構造的かつ論理的に変更することができる。いくつかの実施形態は、1つ又は複数の他の実施形態と組み合わせて新しい実施形態を形成することができるため、様々な実施形態は必ずしも相互に排他的ではない。
【0026】
装置又は方法の1つの文脈で説明される実施形態は、他の装置又は方法についても同様に有効である。同様に、装置の文脈で説明される実施形態は、車両又は方法にも同様に有効であり、その逆も同様である。
【0027】
一実施形態の文脈で説明される特徴は、他の実施形態の同じ又は類似の特徴に対応して適用可能であり得る。一実施形態の文脈で説明される特徴は、これらの他の実施形態で明示的に説明されていなくても、他の実施形態に対応して適用可能であり得る。さらに、一実施形態の文脈で特徴について説明した追加及び/又は組み合わせ及び/又は代替は、他の実施形態の同じ又は類似の特徴に対応して適用可能であり得る。
【0028】
様々な実施形態の文脈において、特徴又は要素に関して使用される冠詞「a」、「an」及び「the」は、特徴又は要素のうちの1つ又は複数への言及を含む。
【0029】
本明細書で使用される場合、「及び/又は」という用語は、関連する列挙された項目のうちの1つ又は複数のありとあらゆる組み合わせを含む。
【0030】
以下、実施形態について詳細に説明する。
【0031】
図1は、ロボット100を示す。
【0032】
ロボット100は、移動装置である。図1の例では、それは、地面102上を歩行するための4つの脚101を有し、その環境(すなわち、その周囲)、特に地面102及び物体又は人などの障害物104を観察するためのカメラ103(又は複数のカメラ)を有する四足ロボットである。
【0033】
カメラ103は、例えば、ロボットの環境のRGB画像105(赤緑青、すなわちカラー画像)を取得する。
【0034】
画像105は、ロボット100が取る経路を制御するために使用することができる。これは、例えば、遠隔制御によって起こり得る。これは、人間のユーザ107によって操作される遠隔制御装置106が提供されることを意味する。人間のユーザ107は、ロボット100、具体的にはロボットのコントローラ108に送り返され、それに応じてロボット100の動きを制御するロボット100のための制御コマンドを生成する。例えば、脚は、コントローラ108が送信されたコマンドに従って制御するように構成されたアクチュエータ109を含む。
【0035】
制御コマンドを生成するために、ロボット100は、画像105を人間のユーザ107に(画面上に)提示する制御装置106に画像105を送信することができる。次いで、人間のユーザ107は、ロボットのための制御コマンドを生成することができる(例えば、ジョイスティック及び/又はコンソールを含む制御装置によって)。
【0036】
しかしながら、人間のユーザは、例えば障害物104を回避し、地面102上の適切な経路を辿るために、ロボット100によって配信されるRBG画像を常に見て、対応する制御コマンドを選択する必要があるため、そのような制御手法は、人間のユーザからの一定の関与を必要とする。
【0037】
上記に鑑みて、様々な実施形態によれば、人間のユーザからの一定の関与を必要とする制御装置でロボットを操作する代わりに、人間のユーザ107は、単純な(高レベルの)コマンド(「左に進め」、「右に進め」、「前に進め」)でロボットを操作することができる。
【0038】
したがって、様々な実施形態による制御システムは、人間のユーザ(すなわち、オペレータ、例えば運転者)が、前進する、左に曲がる、又は右に曲がるなどの単純な命令を使用して移動装置を方向付けることを可能にする。これにより、装置を操作する負担が軽減され、オペレータが他のタスクを並行して実施することが可能になる。
【0039】
様々な実施形態によれば、制御システムは、配備されるQRコードなどのロボットが移動する環境の強化を必要とせず、事前に準備して動作時に消費する必要がある点群マップなどのロボットが移動する経路の事前知識を必要とせずに、より便利な制御(特に例えばハンズフリー制御体験)をオペレータに提供する。特に、様々な実施形態によれば、制御システムは、制御の後の再生のために経路にわたってロボットの制御を記録する必要がない。
【0040】
さらに、実施形態は、例えば歩行者などの障害物104が近すぎるときにロボット100を停止させるなど、オペレータ(人間のユーザ107)が間違いを犯したときの介入を超える。これは衝突を回避するのに役立つだけであるが、様々な実施形態は、人間のユーザ107が、少ない単純な制御コマンドで開始点から目的点まで到達するようにロボット100を操縦することを可能にする。例えば、様々な実施形態によれば、機械学習モデルは、衝突が発生する前に停止し、迂回するように(後述するポリシーモデルのための訓練データの適切なラベルによって)訓練することができる。
【0041】
したがって、様々な実施形態に従って提供される制御システムは、ロボットが取るべき環境又は経路の事前知識なしに、常識にとらわれない任意の環境で作業し、システムを案内するために環境内に基準マーカを配置する必要がなく、経路の事前記録を必要としない。
【0042】
図2は、一実施形態による制御システム200を示す。
【0043】
制御システム200は、例えばロボット100に対応するロボット201を制御する役割を果たす。
【0044】
制御システム200は、第1の処理ユニット(又は計算ユニット)202及び第2の処理ユニット(又は計算ユニット)203、並びにカメラ204(又は複数のカメラ)を含む。
【0045】
カメラ204及び第1の処理ユニット202は、ロボット201に搭載されたロボット201のペイロード205の一部である。したがって、それらはまた、ロボット201の一部であると見なされてもよく、例えば、それぞれカメラ103及びコントローラ108に対応する。
【0046】
第2の処理ユニット203は、例えば、遠隔制御装置106に対応する。
【0047】
上述したように、制御システム200は、人間のオペレータ206が、前進、左折、又は右折などの単純な命令(すなわち、高レベルの制御コマンド)を使用してロボット201(概して、移動及び/又は可動(ロボット)装置)の動きを方向付けることを可能にする。
【0048】
ユーザ206によって入力されたこれらの高レベル制御コマンドから、制御システム200は、速度及び角速度制御信号207(例えば、アクチュエータ109に対する)を自動的に推論し、それに応じてロボット201を操縦する。
【0049】
このために、第1の処理ユニット202は機械学習モデル208を実装する。第1の処理ユニット202は、機械学習モデル208を使用して、ユーザ206によって入力された高レベル制御コマンド210に従って制御信号207を決定する。例えば、経路に湾曲がある場合(例えば、廊下又は通路の)、人間のユーザ206が単純に前進命令を入力すると、第1の処理ユニット202は、機械学習モデル208を使用して、ロボット201を経路上に維持するのに適した速度及び角速度並びに対応する制御信号207を決定する(一連の制御時間段階、すなわち制御時間のそれぞれについて)。
【0050】
同様に、ユーザ206が「左折」又は「右折」命令を入力すると、第1の処理ユニット202は、利用可能な経路に適合するように、例えば、ロボット201が障害物(特に、例えば廊下又は建物の壁)に衝突すること又は経路からの落下を回避するために正しい時間に旋回するよう、制御信号207を生成する。
【0051】
カメラ204(又は複数のカメラ)は、例えば、環境の良好な視野を有するように較正される。
【0052】
第1の処理ユニット202は、第2の処理ユニット203と通信して、カメラ204によって生成された画像209を第2の処理ユニット203に送信し、ユーザ206によって第2の処理ユニット203に入力された高レベルのコマンド210を受信する。
【0053】
この通信のために、第1の処理ユニット202及び第2の処理ユニット203は、処理ユニット202、203間の(例えば、5Gネットワーク、WiFi、イーサネット、Bluetoothなどのようなセルラーモバイル無線ネットワークを使用して)対応する無線又は有線通信インターフェースを実装する通信デバイスを含む。
【0054】
カメラ204は、例えば第1の処理ユニット202に提供するメッセージストリームの形態で画像209を生成する。
【0055】
第1の処理ユニット202は、画像209を第2の処理ユニット203に転送し、第2の処理ユニットは、画像209を人間のオペレータ206に表示して、ロボットが現在いる環境をオペレータに見せることができる。人間のオペレータ206は、第2の処理ユニット203を使用して高レベルのコマンド210を発行する。第2の処理ユニット203は、高レベルのコマンド210を第1の処理ユニット202に送信する。
【0056】
第1の処理ユニット202は、機械学習モデル208をホスト(実装)し、カメラ204及び制御対象のロボット201の構成要素(例えば、アクチュエータ109)に接続され、第2の処理ユニット203から高レベルのコマンド210を受信する。第1の処理ユニット202は、画像209及び高レベルのコマンド210を処理することによって制御信号207を生成する。これは、機械学習モデル208を使用して画像209を処理することを含む。第1の処理ユニット202は、制御対象のロボット201の構成要素に制御信号207を供給する。
【0057】
カメラ204は、例えば、処理のために機械学習モデル208に一人称視点の画像を提供するように、ロボット201上にそのように位置付けられる。例えば、カメラ204はカラー画像を提供する。十分な視野を達成するために、複数のカメラが画像205を提供することができる。
【0058】
ロボット201は、制御信号に従って動作するための機械的手段を提供する。第1の処理ユニット202は、(画像209からの制御信号207及び高レベルのコマンドの)リアルタイム推論のために十分な速さで機械学習モデル208を実行するための計算リソースを提供する。ロボット201のフォームファクタに応じて、任意の数及び種類のカメラを使用することができる。第1の処理ユニット202は、画像205のスティッチング及び較正を実施することができる(例えば、カメラとカメラの角度及び位置との間の不一致を補償するために)。
【0059】
より良好な制御性能を達成するために、RGBカメラ以外の他の種類のセンサ、特にサーマルカメラ、移動センサ、音波トランスデューサなどを追加することができる。
【0060】
第1の処理ユニット202は、機械学習モデル208による処理を含む制御アルゴリズムを使用して制御信号207を決定する。
【0061】
一実施形態では、機械学習モデル208はまた、第1の処理ユニット202の代わりに第2の処理ユニット203上でホストされてもよいことに留意されたい。その場合、制御信号207の決定は、第2の処理ユニット203上で実施される。次いで、制御信号207は、(高レベルのコマンド210の代わりに)第2の処理ユニット203によって第1の処理ユニット202に送信され、第1の処理ユニットは制御信号207をロボット201に転送する。
【0062】
機械学習モデル208はまた、第1の処理ユニット202と第2の処理ユニット203との間に配置された第3の処理ユニット上でホストされてもよい。この場合、制御信号207の決定は、第1の処理ユニット202及び第2の処理ユニット203とデータを交換する遠隔地にあってもよい第3の処理ユニット上で実施される。制御システムは、第2の処理ユニット203が画像を受信し、高レベルのユーザコマンドをリアルタイムで送信する限り、そのような配置において完全のままである。同様に、第1の処理ユニット202は、画像を送信し、リアルタイムで(低レベルの)制御信号207を受信することができる。
【0063】
様々な実施形態によれば、機械学習モデル208は、制御時間段階ごとに、ロボット201の制御情報にカメラ204(又は複数のカメラ)によって提供された画像(すなわち、フレーム)209を処理する深層学習モデルである。以下に説明する実施形態によれば、機械学習モデル208は、制御時間段階ごとにすべての可能な意図(すなわち、すべての可能な高レベルのコマンド)について制御情報の予測を行う。次に、第1の処理ユニット202は、第2の処理ユニット203によって提供される高レベルのコマンドに従って予測された制御情報から制御信号207を決定する。
【0064】
ロボット201は、この実施形態では、各時間段階における制御信号207の変化に応答するように、慣性が低いと想定されている。
【0065】
図3は、機械学習モデル300を示す。
【0066】
図3の例では、機械学習モデル300は、単一のRGB(すなわち、色)入力画像301、例えば、単一のカメラ204からの画像301を一制御時間段階にわたって受信すると仮定する。
【0067】
機械学習モデルは、入力画像301を特徴空間(すなわち、潜在空間)内の特徴303(すなわち、特徴値、又は複数の特徴値を含む特徴ベクトル)に変換するための(画像)エンコーダ302を含む。ポリシーモデル304は、機械学習モデル300の出力305として、制御情報予測を生成する。
【0068】
エンコーダ302及びポリシーモデル304は、訓練時間に訓練され(すなわち、最適化される)、動作中に画像を処理するために配備される(すなわち、推論時)。
【0069】
訓練のために、機械学習モデル300は、深度デコーダ306及びセマンティックデコーダ307(両方とも配備されていないか、又は推論に使用されていない)を含む。
【0070】
深度デコーダ306は、入力画像301(訓練時間における訓練入力画像301である)上の位置の深度予測を提供するように訓練される。これは、ロボットからの入力画像301に示されるロボットの環境の一部(特に物体)の距離の予測を行うことを意味する。出力は、高密度深度予測であってもよく、相対深度値又は絶対(スケール一貫性のある)深度値の形態であってもよい。
【0071】
深度デコーダ306は、入力画像301(訓練時間における訓練入力画像301である)上の位置の意味予測を提供するように訓練される。これは、入力画像301に示されるロボットの環境の一部分が横断可能であるか否かの予測を行うことを意味する。
【0072】
エンコーダ302には、任意の標準的な畳み込みニューラルネットワーク(CNN)を使用することができる。深度デコーダ306及びセマンティックデコーダ307には、(それぞれのユースケースのために最適化され得る限りにおいて)任意の標準的なCNNを使用することができる。
【0073】
ポリシーモデル304は、特徴303から制御情報((1つ又は複数の角度を含み得る)速度及び方向など)を推論する。特徴303の品質は、エンコーダ302がポリシーモデル304と一緒に訓練され得るように、ポリシーモデル304にとって重要である。同様に、エンコーダ302は、特徴303が深度情報及び意味情報を確実に表すように、デコーダ306、307と一緒に訓練され得る。
【0074】
ポリシーモデル304は、制御情報グラウンドトゥルース(例えば、訓練入力画像のラベルに含まれる)を使用して教師ありの方法で訓練される。例えば、ポリシーモデル304は、障害物がロボットの近くにあるときに速度を低下させる(ロボット201が減速する)ように訓練される。前方意図について(すなわち、前方に進むための高レベルのコマンドについて)、人間のオペレータ206が明示的な命令を入力する必要があるとき、すなわち、オペレータ206がどこを前方に進むべきかを指定する必要がある対称Y字分岐路の場合、速度を低下させるように訓練することもできる。
【0075】
角度に関して、前方意図は経路追従として定義される。したがって、湾曲経路上では、ポリシーモデル304は、ロボットが経路上に確実に留まるため制御情報を予測してロボットを交代させるように訓練される。
【0076】
左又は右の意図(すなわち、高レベルのコマンド「左折」及び「右折」)について、ポリシーモデル304は、例えば、ロボットに可能な場所で旋回させる、すなわち、ロボットを障害物に向けるのではなく、旋回のために経路が明確になるまで前進し続けさせる制御情報のみを予測するように訓練される。
【0077】
上述したように、ポリシーモデル304は、教師ありの方法で、すなわち、訓練入力画像を含む訓練データセットを提供することによって訓練され、各訓練入力画像に対して、各高レベルのコマンド(すなわち、グラウンドトゥルース制御情報)に対する目標制御情報を指定するラベルが提供される。平均二乗誤差(MSE)は、ポリシーモデル304の訓練のための損失として使用することができる。
【0078】
深度デコーダ306は、深度予測が幾何学的に正確であるように、例えば、三角形の空間をドーム形状の空間として予測しないように訓練される。深度デコーダは、教師ありの方法又は教師なしの方法で訓練することができる。
【0079】
教師ありの訓練の場合、各訓練入力画像のラベルは、深度デコーダ306が出力するはずの目標(グラウンドトゥルース)深度情報をさらに指定する。平均二乗誤差(MSE)は、深度デコーダ306の訓練のための損失として使用することができる。
【0080】
教師なしの訓練の場合、例えば、2つのカメラ204を使用して、同時に画像を生成することができる。次に、深度デコーダ306は、カメラのうちの第1のカメラによって生成された画像と、カメラのうちの第2のカメラの視点の深度予測から再構成された画像との間の損失を最小限に抑えるように訓練され得る。再構成は、第1のカメラによって撮影された画像及び深度情報から第2のカメラの視点からの画像を生成するように訓練されたネットワークによって行われる。深度デコーダは、ビデオ内のサンプリングされたシーケンスで訓練することもできる。
【0081】
一実施形態によれば、セマンティックデコーダ307は、(セマンティックセグメンテーションのための標準的な定式化である)シーンの各画素の部類を識別するのではなく、横断可能経路セグメンテーションを実施する。これは、人や椅子などの非凸物体の幾何学的形状を理解するように訓練されることを意味する。人が立っている画像において、標準的なセマンティックセグメンテーションモデルは、人の足の間の空間を「床」又は「地面」と予測する。代わりに、セマンティックデコーダ307は、ロボット201が人にぶつかることが望ましくないため、それを横断不可能であると予測するように訓練される。これは、椅子のような多くの家具にも当てはまる。
【0082】
セマンティックデコーダ307は、教師ありの方法で訓練される。このために、各訓練入力画像のラベルは、訓練画像に示された部分が横断可能であるか否かをさらに指定する。交差エントロピー損失は、セマンティックデコーダ307(例えば、「横断可能」及び「横断不可能」な部類を有する)の訓練のための損失として使用され得る。
【0083】
エンコーダ302は、他のモデルと共に1つ又は複数と共に訓練される。エンコーダ302、ポリシーモデル304、深度デコーダ306、及びセマンティックデコーダ307は、ポリシーモデル304、深度デコーダ306、及びセマンティックデコーダ307の出力の損失を合計することによって、すべて一緒に訓練され得る。
【0084】
図4は、複数の入力画像401を処理するための機械学習モデル400を示す。
【0085】
機械学習モデル400は、例えば、ペイロード205が、それぞれが制御時間段階ごとに画像205を提供する複数のカメラ204を含む場合に適用され得る。機械学習モデル400はまた、制御情報を予測するため複数の後続画像205を考慮するために使用されてもよいことに留意されたい。
【0086】
すべての入力画像は、同一のエンコーダ402(エンコーダ302と同様)に供給される。これにより、入力画像ごとに特徴403が得られる。
【0087】
エンコーダ402によって生成された特徴403は、ポリシーモデル404によって消費される前に一緒に連結されて、制御情報出力405を生成する。訓練のために、同じデコーダのセット(深度エンコーダ406及び意味エンコーダ407)が各特徴403で動作する。
【0088】
訓練データは、ユースケースに従って選択することができる。例えば、自動車のようなナビゲーションではなく、歩行者のようなナビゲーションの場合、自動車の交通規則に従うことは目標ではなく、車線を明確に区画する必要はない。
【0089】
要約すると、様々な実施形態によれば、図5に示す方法が提供される。
【0090】
図5は、ロボット装置コントローラを訓練するための方法を示す。
【0091】
エンコーダネットワーク501、デコーダネットワーク502、及びポリシーネットワーク503を含むニューラルネットワーク500が訓練され、その結果、複数のデジタル訓練入力画像504のそれぞれについて、エンコーダネットワーク501はデジタル訓練入力画像を潜在空間内の特徴に符号化し、デコーダネットワーク502は、特徴から、デジタル訓練入力画像に示された複数の領域のそれぞれについて、領域が横断可能であるかどうかを判定し、及びデジタル訓練入力画像の視点と領域との間の距離に関する情報を決定し、ポリシーモデル503は、特徴から、ロボット装置の動きを制御するための制御情報を決定する。
【0092】
少なくともポリシーモデル503は、デジタル訓練入力画像504の制御情報グラウンドトゥルースデータ505を使用して教師ありの方法で訓練される。
【0093】
様々な実施形態によれば、言い換えれば、ロボット装置は、1つ又は複数の領域のそれぞれについて、ロボットからの領域の距離、及び領域がロボット装置にとって横断可能であるかどうかに関する情報を表す特徴に基づいて制御される。これは、デコーダ部が、エンコーダによって生成された特徴から距離(すなわち、深度)情報及び意味情報(すなわち、領域が横断可能であるかどうか)を再構築し、特徴からロボット装置を制御するための制御情報を生成するために教師ありの方法でポリシーモデルを訓練するエンコーダ/デコーダアーキテクチャを訓練することによって達成される。
【0094】
様々な実施形態によれば、言い換えれば、ロボット装置コントローラを訓練するための方法であって、1つ又は複数のデジタル訓練入力画像を潜在空間内の1つ又は複数の特徴に符号化するようにニューラルエンコーダネットワークを訓練することと、1つ又は複数のデジタル訓練入力画像に示された複数の領域のそれぞれについて、1つ又は複数の特徴から、その領域がロボットによって横断可能であるかどうかを判定し、及び1つ又は複数のデジタル訓練入力画像が撮影された視点とその領域との間の距離に関する情報を決定するようにニューラルデコーダネットワークを訓練することと、1つ又は複数の特徴から、ロボット装置の動きを制御するための制御情報を決定するためにポリシーモデルを訓練することを含み、少なくともポリシーモデルは、デジタル訓練入力画像の制御情報グラウンドトゥルースデータを使用して教師ありの方法で訓練される、方法が提供される。
【0095】
図5の方法は、例えば、通信インターフェース、1つ又は複数の処理ユニット、メモリ(例えば、訓練されたニューラルネットワークを格納するための)などの構成要素を含むロボット装置制御システムによって実行される。
【0096】
上述した手法は、可動である及び/又は可動部分を有する任意の装置の制御に適用することができる。これは、歩行ロボット(したがって、図1の)、飛行ドローン、及び自律型車両(例えば、物流用)などの移動装置の動きを制御するためだけでなく、ロボットアーム(例えば、移動するロボットのように、通過する作業者などの障害物に衝突することを回避すべき産業用ロボットのように)又はアクセス制御システム(したがって、監視)などの装置の可動肢の動きを制御するためにも使用され得ることを意味する。
【0097】
したがって、上述した手法は、ロボット、車両、家電製品、工具又は製造機械などのコンピュータ制御機械などの任意の物理システムの動きを制御するために使用することができる。用語「ロボット装置」は、これらの種類のすべての移動装置及び/又は可動装置(すなわち、特に、可動構成要素を有する固定装置)と理解される。
【0098】
本明細書に記載の方法を実行することができ、本明細書に記載の様々な処理又は計算ユニット及び装置及びコンピューティングエンティティは、1つ又は複数の回路によって実装することができる。一実施形態では、「回路」は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組み合わせであり得る、任意の種類の論理実装エンティティとして理解され得る。したがって、一実施形態では、「回路」は、配線論理回路、又はプログラマブルプロセッサ、例えばマイクロプロセッサなどのプログラマブル論理回路であってもよい。「回路」はまた、プロセッサ、例えば任意の種類のコンピュータプログラム、例えば仮想マシンコードを使用するコンピュータプログラムによって実装又は実行されているソフトウェアであってもよい。本明細書に記載されているそれぞれの機能の任意の他の種類の実装形態もまた、代替の実施形態による「回路」として理解され得る。
【0099】
本開示は、特定の実施形態を参照して特に示され説明されてきたが、添付の特許請求の範囲によって定義される本発明の精神及び範囲から逸脱することなく、形態及び詳細における様々な変更がなされ得ることが当業者によって理解されるべきである。したがって、本発明の範囲は、添付の特許請求の範囲によって示され、したがって、特許請求の範囲と同等の意味及び範囲内にあるすべての変更が含まれることが意図される。
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2024-05-16
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ロボット装置コントローラを訓練するための方法であって、
複数のデジタル訓練入力画像のそれぞれについて、エンコーダネットワークが前記デジタル訓練入力画像を潜在空間内の特徴に符号化し、
デコーダネットワークが、前記特徴から、前記デジタル訓練入力画像に示された複数の領域のそれぞれについて、前記領域が横断可能であるかどうかを判定し、及び前記デジタル訓練入力画像の視点と前記領域の相対的な深度の形態における前記領域との間の距離に関する情報を決定し、
ポリシーモデルが、前記特徴から、ロボット装置の移動を制御するための制御情報を決定する、
ように、前記エンコーダネットワーク、前記デコーダネットワーク、及び前記ポリシーモデルを含むニューラルネットワークを訓練することを含み、
少なくとも前記ポリシーモデルが、前記デジタル訓練入力画像の制御情報グラウンドトゥルースデータを使用して教師ありの方法で訓練される、
方法。
【請求項2】
前記エンコーダネットワーク及び前記デコーダネットワークを訓練することが、前記エンコーダネットワーク及び前記デコーダネットワークを含むオートエンコーダを訓練することを含む、請求項1に記載の方法。
【請求項3】
前記エンコーダネットワークを前記デコーダネットワークと一緒に訓練することを含む、請求項1又は2に記載の方法。
【請求項4】
前記エンコーダネットワークを前記デコーダネットワーク及び前記ポリシーモデルと一緒に訓練することを含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記デコーダネットワークが、セマンティックデコーダ及び深度デコーダを含み、デジタル訓練入力画像ごとに、
前記セマンティックデコーダが前記特徴から、前記デジタル訓練入力画像に示された複数の領域のそれぞれについて、前記領域が横断可能であるかどうかを判定し、
前記深度デコーダが、前記1つ又は複数の特徴から、前記デジタル訓練入力画像に示された複数の領域のそれぞれについて、
前記デジタル訓練入力画像の視点と前記領域との間の距離に関する情報を決定するように、前記ニューラルネットワークが訓練される、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記セマンティックデコーダが、教師ありの方法で訓練される、請求項5に記載の方法。
【請求項7】
前記深度デコーダが教師ありの方法で訓練されるか、又は前記深度デコーダが教師なしの方法で訓練される、請求項5に記載の方法。
【請求項8】
前記エンコーダネットワーク、前記デコーダネットワーク、及び前記ポリシーモデルのうちの1つ又は複数が、畳み込みニューラルネットワークである、請求項1から7のいずれか一項に記載の方法。
【請求項9】
前記制御情報が、複数のロボット装置移動コマンドのそれぞれに対する制御情報を含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記ポリシーモデルが、前記エンコーダが複数の訓練入力画像を符号化した特徴から前記制御情報を決定するように、前記ニューラルネットワークが訓練される、請求項1から9のいずれか一項に記載の方法。
【請求項11】
ロボット装置を制御するための方法であって、
請求項1から10のいずれか一項に記載のロボット装置コントローラを訓練することと、
前記ロボット装置の周囲を示す1つ又は複数のデジタル画像を取得することと、
前記エンコーダネットワークを使用して1つ又は複数の特徴に前記1つ又は複数のデジタル画像を符号化することと、
前記1つ又は複数の特徴を前記ポリシーモデルに供給することと、
前記1つ又は複数の特徴に応答して前記ポリシーモデルの制御情報出力に従って前記ロボットを制御することと、を含む、方法。
【請求項12】
前記ロボット装置の1つ又は複数のカメラから前記1つ又は複数のデジタル画像を受信することを含む、請求項11に記載の方法。
【請求項13】
前記制御情報が、複数のロボット装置移動コマンドのそれぞれに対する制御情報を含み、前記方法が、ロボット装置移動コマンドの指示を受信することと、指示されたロボット装置移動コマンドに対する前記制御情報に従って前記ロボットを制御することとを含む、請求項11又は12に記載の方法。
【請求項14】
前記ポリシーモデルが、前記エンコーダが複数の訓練入力画像を符号化した特徴から前記制御情報を決定するように前記ニューラルネットワークが訓練され、前記方法が、
前記ロボット装置の周囲を示す複数のデジタル画像を取得することと、
前記エンコーダネットワークを使用して前記複数のデジタル画像を複数の特徴に符号化することと、
前記複数の特徴を前記ポリシーモデルに供給することと、
前記複数の特徴に応答して前記ポリシーモデルの制御情報出力に従って前記ロボットを制御することとを含む、請求項11から13のいずれか一項に記載の方法。
【請求項15】
前記複数のデジタル画像が、異なるカメラから受信した画像を含む、請求項14に記載の方法。
【請求項16】
前記複数のデジタル画像が、異なる視点から撮影された画像を含む、請求項14又は15に記載の方法。
【請求項17】
前記複数のデジタル画像が、異なる時間に撮影された画像を含む、請求項14から16のいずれか一項に記載の方法。
【請求項18】
請求項1から17のいずれか一項に記載の方法を実施するように構成されたロボット装置制御システム。
【請求項19】
1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに請求項1から17のいずれか一項に記載の方法を実施させるプログラム命令を含むコンピュータプログラム要素。
【請求項20】
1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサに請求項1から17のいずれか一項に記載の方法を実施させるプログラム命令を含むコンピュータ可読媒体。
【国際調査報告】