(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-10
(54)【発明の名称】画像データを用いたリアルタイム位置特定
(51)【国際特許分類】
G06T 7/70 20170101AFI20240403BHJP
G06V 10/82 20220101ALI20240403BHJP
G06T 7/00 20170101ALN20240403BHJP
【FI】
G06T7/70 Z
G06V10/82
G06T7/00 350C
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023567102
(86)(22)【出願日】2022-04-29
(85)【翻訳文提出日】2023-12-13
(86)【国際出願番号】 US2022027143
(87)【国際公開番号】W WO2022232654
(87)【国際公開日】2022-11-03
(32)【優先日】2022-04-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-04-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】523410779
【氏名又は名称】ファーム-エヌ・ジー・インコーポレイテッド
【住所又は居所原語表記】FARM-NG INC.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】ルブリー,イーサン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA05
5L096CA02
5L096DA02
5L096EA14
5L096FA67
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
画像データを使用するデバイスのリアルタイム位置特定のための方法およびシステムが本明細書で開示される。既知のオブジェクトに対してデバイスを位置特定するための開示された方法は、既知のオブジェクトの少なくとも一部分の画像をキャプチャすることを含む。本方法はまた、訓練済み機械知能システムおよび画像を使用して、画像の既知オブジェクトピクセルのセットの既知オブジェクト座標のセットを決定することも含む。既知オブジェクト座標のセットは、訓練済み機械知能システムの出力であり、オブジェクトの基準フレーム内にあり、オブジェクト座標ごとに少なくとも2つの値を有する符号化を使用して、既知オブジェクト座標のセット内の各オブジェクト座標を符号化する。本方法はまた、訓練済み機械知能システムからの既知オブジェクト座標のセットを使用して、既知のオブジェクトに対してデバイスを位置特定することも含む。
【特許請求の範囲】
【請求項1】
既知のオブジェクトに対してデバイスを位置特定するための方法であって、
前記デバイスに取り付けられたセンサを使用して、前記既知のオブジェクトの少なくとも一部分の画像をキャプチャすることであって、前記画像はピクセルのセットを含む、キャプチャすることと、
前記画像を使用して、前記ピクセルのセットから既知オブジェクトピクセルのセットを決定することであって、前記既知のオブジェクトは、前記画像内の前記既知オブジェクトピクセルのセットを占有する、決定することと、
訓練済み機械知能システムおよび前記画像を使用して、前記既知オブジェクトピクセルのセットの既知オブジェクト座標のセットを決定することであって、前記既知オブジェクト座標のセットは、(i)前記既知のオブジェクトの基準フレーム内にあり、(ii)オブジェクト座標ごとに少なくとも2つの値を有する符号化を使用して、前記既知オブジェクト座標のセット内の各既知オブジェクト座標を符号化する、決定することと、
前記訓練済み機械知能システムからの前記既知オブジェクト座標のセットを使用して、前記既知のオブジェクトに対する前記デバイスのロケーションおよび向きの少なくとも一方を決定することとを含む、方法。
【請求項2】
前記既知オブジェクト座標のセットは、前記訓練済み機械知能システムの中間訓練出力である、請求項1に記載の方法。
【請求項3】
前記符号化は、チャネルの少なくとも1つのセットを含み、
前記チャネルの少なくとも1つのセットおよび前記ピクセルのセットにおける各チャネルは、サイズが等しく、
前記既知オブジェクト座標ごとの少なくとも2つの値は、前記チャネルの少なくとも1つのセット内の異なるチャネルからのものである、請求項1に記載の方法。
【請求項4】
前記オブジェクトの前記基準フレームは、少なくとも一次元であり、
前記既知オブジェクト座標のセットは、前記既知オブジェクトピクセルのセット内のピクセルごとに少なくとも1つのオブジェクト座標を含む、請求項1に記載の方法。
【請求項5】
前記画像は、前記訓練済み機械知能システムへの入力であり、
前記既知オブジェクトピクセルのセットは、前記訓練済み機械知能システムを使用して決定される、請求項1に記載の方法。
【請求項6】
前記デバイスの前記ロケーションおよび前記向きの前記少なくとも一方を前記決定することは、
分析デコーダを使用して前記符号化を前記既知オブジェクト座標のセットに対する単一値座標のセットに変換することと、
前記単一値座標のセットをPerspective-n-Pointソルバに適用することとを含む、請求項1に記載の方法。
【請求項7】
前記デバイスの前記ロケーションおよび前記向きの前記少なくとも一方を前記決定することは、
訓練済み機械知能デコーダを使用して前記符号化を前記既知オブジェクト座標のセットに対する単一値座標のセットに変換することと、
前記単一値座標のセットをPerspective-n-Pointソルバに適用することとを含む、請求項1に記載の方法。
【請求項8】
前記符号化における各値はバイナリである、請求項1に記載の方法。
【請求項9】
前記符号化はグレイコード符号化である、請求項1に記載の方法。
【請求項10】
前記符号化における各値は浮動小数点数である、請求項1に記載の方法。
【請求項11】
前記訓練済み機械知能システムは、前記既知オブジェクトピクセルのセットの前記決定の一部として、前記既知オブジェクトピクセルのセットに対する既知オブジェクト視認性マップの確率を出力し、
前記既知オブジェクト視認性の確率は、前記既知のオブジェクトが前記画像内の各ピクセルについて前記画像のピクセル内で視認可能である確率を提供し、
前記訓練済み機械知能システムの訓練は、前記既知オブジェクト視認性マップの確率を使用して単純化される、請求項1に記載の方法。
【請求項12】
前記訓練済み機械知能システムはニューラルネットワークであり、
前記ニューラルネットワークの入力は前記画像であり、
前記ニューラルネットワークの出力は、前記既知オブジェクト座標のセットの符号化である、請求項1に記載の方法。
【請求項13】
前記既知オブジェクト座標のセット内の前記既知オブジェクト座標のうちの少なくとも1つは、前記画像内の前記既知のオブジェクトの遮蔽部分に対応する、請求項1に記載の方法。
【請求項14】
前記訓練済み機械知能システムは、その訓練を通じて、前記既知のオブジェクトが中心から外れている前記既知のオブジェクトの画像のセットを組み込む、請求項1に記載の方法。
【請求項15】
前記デバイスをナビゲートするための有効ゾーンを規定することをさらに含み、
前記訓練済み機械知能システムは、その訓練を通じて、前記有効ゾーン内から前記既知のオブジェクトの画像のセットを組み込む、請求項1に記載の方法。
【請求項16】
前記デバイスは宇宙航行船舶であり、
前記既知のオブジェクトは前記宇宙航行船舶のための着陸またはドッキング表面を含み、
前記有効ゾーンは、前記宇宙航行船舶のための投影された着陸またはドッキングアプローチを含む、請求項15に記載の方法。
【請求項17】
前記デバイスは、倉庫ロボットであり、
前記既知のオブジェクトは保管構造であり、
前記有効ゾーンは、倉庫の床を含む、請求項15に記載の方法。
【請求項18】
前記デバイスはトラクタであり、
前記既知のオブジェクトは畑の作物の列であり、
前記有効ゾーンは前記畑の表面を含む、請求項15に記載の方法。
【請求項19】
デバイスであって、
前記デバイスに取り付けられたセンサと、
少なくとも1つのプロセッサと、
命令セットを格納している少なくとも1つのコンピュータ可読媒体とを備え、前記命令セットは、前記少なくとも1つのプロセッサによって実行されると、
前記センサを使用して、既知のオブジェクトの少なくとも一部分の画像をキャプチャすることであって、前記画像はピクセルのセットを含む、キャプチャすることと、
前記画像を使用して、前記ピクセルのセットから既知オブジェクトピクセルのセットを決定することであって、前記既知のオブジェクトは前記画像内の前記既知オブジェクトピクセルのセットを占有する、決定することと、
訓練済み機械知能システムおよび前記画像を使用して、前記既知オブジェクトピクセルのセットの既知オブジェクト座標のセットを決定することであって、前記既知オブジェクト座標のセットは、(i)前記既知のオブジェクトの基準フレーム内にあり、(ii)オブジェクト座標ごとに少なくとも2つの値を有する符号化を使用して、前記既知オブジェクト座標のセット内の各既知オブジェクト座標を符号化する、決定することと、
前記訓練済み機械知能システムからの前記既知オブジェクト座標のセットを使用して、前記既知のオブジェクトに対する前記デバイスのロケーションおよび向きの少なくとも一方を決定することとによって、前記既知のオブジェクトに対する前記デバイスの位置特定を支援する、デバイス。
【請求項20】
前記既知オブジェクト座標のセットは、前記訓練済み機械知能システムの中間訓練出力である、請求項19に記載のデバイス。
【請求項21】
前記符号化は、チャネルの少なくとも1つのセットを含み、
前記チャネルの少なくとも1つのセットおよび前記ピクセルのセットにおける各チャネルは、サイズが等しく、
前記既知オブジェクト座標ごとの少なくとも2つの値は、前記チャネルの少なくとも1つのセット内の異なるチャネルからのものである、請求項19に記載のデバイス。
【請求項22】
前記オブジェクトの前記基準フレームは、少なくとも一次元であり、
前記既知オブジェクト座標のセットは、前記既知オブジェクトピクセルのセット内のピクセルごとに少なくとも1つのオブジェクト座標を含む、請求項19に記載のデバイス。
【請求項23】
前記画像は、前記訓練済み機械知能システムへの入力であり、
前記既知オブジェクトピクセルのセットは、前記訓練済み機械知能システムを使用して決定される、請求項19に記載のデバイス。
【請求項24】
前記デバイスの前記ロケーションおよび前記向きの前記少なくとも一方を前記決定することは、
分析デコーダを使用して前記符号化を前記既知オブジェクト座標のセットに対する単一値座標のセットに変換することと、
前記単一値座標のセットをPerspective-n-Pointソルバに適用することとを含む、請求項19に記載のデバイス。
【請求項25】
前記デバイスの前記ロケーションおよび前記向きの前記少なくとも一方を前記決定することは、
訓練済み機械知能デコーダを使用して前記符号化を前記既知オブジェクト座標のセットに対する単一値座標のセットに変換することと、
前記単一値座標のセットをPerspective-n-Pointソルバに適用することとを含む、請求項19に記載のデバイス。
【請求項26】
前記符号化における各値はバイナリである、請求項19に記載のデバイス。
【請求項27】
前記符号化はグレイコード符号化である、請求項19に記載のデバイス。
【請求項28】
前記符号化における各値は浮動小数点数である、請求項19に記載のデバイス。
【請求項29】
前記訓練済み機械知能システムは、前記既知オブジェクトピクセルのセットの前記決定の一部として、前記既知オブジェクトピクセルのセットに対する既知オブジェクト視認性マップの確率を出力し、
前記既知オブジェクト視認性の確率は、前記既知のオブジェクトが前記画像内の各ピクセルについて前記画像のピクセル内で視認可能である確率を提供し、
前記訓練済み機械知能システムの訓練は、前記既知オブジェクト視認性マップの確率を使用して単純化される、請求項19に記載のデバイス。
【請求項30】
デバイス上にデバイス位置特定システムを展開するための方法であって、
既知のオブジェクトの画像のセットを使用して訓練済み機械知能システムを訓練することと、
前記デバイス上の少なくとも1つのコンピュータ可読媒体に、命令セットをロードすることとを含み、前記命令セットは、前記デバイス上の前記少なくとも1つのプロセッサによって実行されると、
前記デバイスに取り付けられたセンサを使用して、前記既知のオブジェクトの少なくとも一部分の画像をキャプチャすることであって、前記画像はピクセルのセットを含む、キャプチャすることと、
前記画像を使用して、前記ピクセルのセットから既知オブジェクトピクセルのセットを決定することであって、前記既知のオブジェクトは前記画像内の前記既知オブジェクトピクセルのセットを占有する、決定することと、
訓練済み機械知能システムおよび前記画像を使用して、前記既知オブジェクトピクセルのセットの既知オブジェクト座標のセットを決定することであって、前記既知オブジェクト座標のセットは、(i)前記既知のオブジェクトの基準フレーム内にあり、(ii)オブジェクト座標ごとに少なくとも2つの値を有する符号化を使用して、前記既知オブジェクト座標のセット内の各既知オブジェクト座標を符号化する、決定することと、
前記訓練済み機械知能システムからの前記既知オブジェクト座標のセットを使用して、前記既知のオブジェクトに対する前記デバイスのロケーションおよび向きの少なくとも一方を決定することとによって、前記既知のオブジェクトに対する前記デバイスの位置特定を支援する、方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年4月30日に出願された米国仮特許出願第63/182,714号の利益を主張し、は、すべての目的のためにその全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
背景
ポーズ推定タスクは、オブジェクトの画像からオブジェクトのポーズを決定することを伴い得る。三次元空間に関して行われるポーズ推定タスクの出力は、x座標、y座標、およびz座標に関するオブジェクトの位置、ならびにオブジェクトのピッチ、ヨー、およびロールに関するオブジェクトの回転を含む6自由度(6-DOF)出力である。ポーズ推定は、機械視覚の分野において重要なタスクであり、鋭意研究の主題であった。オブジェクトの画像からオブジェクトのポーズを決定するための最近の手法は、ポーズ推定パイプラインの少なくとも一部分を実行するために訓練済み機械知能システムを利用している。しかしながら、これらのシステムの多くは、それらの限られた正確度および大きな計算リソース要件などの著しい制限を有する。訓練済み機械知能システムを使用するポーズ推定は、依然として研究の活発な分野であり、将来の革新のための有望な分野を提示するものである。
【発明の概要】
【発明が解決しようとする課題】
【0003】
概要
画像データを使用するデバイスのリアルタイム位置特定のための方法およびシステムが本明細書で開示される。方法およびシステムは、既知のオブジェクトの少なくとも一部分の画像から既知のオブジェクトのポーズを決定するように訓練された訓練済み機械知能システムを含むことができる。画像は、デバイスに取り付けられたセンサを使用してデバイスの視点からキャプチャすることができる。したがって、訓練済み機械知能システムは、既知のオブジェクトに対してデバイスを位置特定するための位置特定パイプラインの一部として使用することができる。位置特定パイプラインは、既知のオブジェクトのポーズを決定するための訓練済み機械知能システムと、画像および画像内の既知のオブジェクトの検出されたポーズに基づいてデバイスを位置特定するためのPerspective-n-Point(pnp)ソルバとを含むことができる。オブジェクトは、オブジェクトの特性が事前にシステムに利用可能であったため(たとえば、訓練済み機械知能システムは、オブジェクトの実際のまたはシミュレートされた画像を使用して訓練されている)、「既知」であるものとして参照される。
【0004】
本明細書において開示される本発明の特定の実施形態では、既知のオブジェクトに対するデバイスのリアルタイム位置特定を可能にするために、様々な技法が適用される。このように、デバイスの位置特定は、オブジェクトの近傍でのデバイスのナビゲーションを制御するために適用することができる。1つの用途は、宇宙でのドッキング、着陸、またはランデブー操縦(たとえば、オブジェクトは、月表面の着陸地点であり得、デバイスは、着陸地点を目標とした宇宙航行車両であり得る)を制御することである。そのような用途は、月、および静止軌道を超える一般的な宇宙が、現在、案内およびナビゲーションを支援する全地球測位システム(GPS)などの測位システムを有していないという点で大きな利点を提供する。追加の用途には、空中浮遊航空機に燃料を補給するための関心領域内の高正確度車両測位(たとえば、デバイスは航空機であり、オブジェクトは燃料源である)、拡張現実または仮想現実を備えたコンピュータゲーム用途、医療用途(たとえば、既知のオブジェクトは腫瘍または器官であり、デバイスは画像誘導手術ロボットシステムであり得る)、ロボットマニピュレータ(たとえば、既知のオブジェクトは保管構造とすることができ、デバイスは倉庫ロボットであり得る)、産業検査用途(たとえば、既知のオブジェクトは石油パイプラインであり得、デバイスは水中修理または検査ロボットであり得る)、農業用途(たとえば、既知のオブジェクトは、畑の作物の列であり得、デバイスは、トラクタであり得る)などが含まれる。実際、GPSなどの代替のナビゲーションシステムが利用できないか、十分な正確度を提供しないか、または他の様態で実現不可能であるが、機械知能システムを既知のオブジェクトの画像を用いて訓練することができる任意の用途は、本明細書に開示される様々な技術を適用するときに重要な利点を認識することができる。
【0005】
本発明の特定の実施形態では、訓練済み機械知能システムは、入力画像内の既知オブジェクトピクセルのセットの符号化既知オブジェクトピクセル座標を出力するように設計される。所与のピクセルの既知オブジェクトピクセル座標は、その所与のピクセル内で見ることができる既知のオブジェクトの部分のロケーションに対応する、オブジェクトの基準フレーム内の座標である。オブジェクト座標の符号化は、オブジェクト座標ごとに少なくとも2つの値を含むことができる。本発明の特定の実施形態では、少なくとも2つの値内の値は、訓練済み機械知能システムの訓練中に独立して回帰することができる。本発明の特定の実施形態では、少なくとも2つの値内の値は、機械知能システムを訓練するために使用される損失関数への別個の独立した入力とすることができる。符号化既知オブジェクトピクセル座標は、訓練済み機械知能システムの中間訓練出力、または訓練済み機械知能システムの最終出力としての役割を果たすことができる。本発明者らは、このようにして訓練され、このタイプの訓練出力を含む訓練済み機械知能システムが、符号化されていない単一の値の既知オブジェクトピクセル座標のみを出力および回帰する訓練済み機械知能システムを使用する手法と比較して、推論の正確度、訓練の速度、および推論生成の速度の両方の点で優れた性能を表すことを究明した。
【0006】
本発明の特定の実施形態では、既知のオブジェクトに対してデバイスを位置特定するための方法が提供される。本方法は、デバイスに取り付けられたセンサを使用して、既知のオブジェクトの少なくとも一部分の画像をキャプチャすることを含む。画像はピクセルのセットを含む。本方法はまた、画像を使用して、ピクセルのセットから既知オブジェクトピクセルのセットを決定することも含む。既知のオブジェクトは、画像内の既知オブジェクトピクセルのセットを占有する。本方法はまた、訓練済み機械知能システムおよび画像を使用して、既知オブジェクトピクセルのセットの既知オブジェクト座標のセットを決定することも含む。既知オブジェクト座標のセットは、オブジェクトの基準フレーム内にあり、オブジェクト座標ごとに少なくとも2つの値を有する符号化を使用して、既知オブジェクト座標のセット内の各オブジェクト座標を符号化する。本方法はまた、訓練済み機械知能システムからの既知オブジェクト座標のセットを使用して、既知のオブジェクトに対するデバイスのロケーションおよび向きの少なくとも一方を決定することも含む。
【図面の簡単な説明】
【0007】
【
図1】本明細書に開示される本発明の特定の実施形態による、訓練済み機械知能システムのブロック図である。
【
図2】本明細書に開示される本発明の特定の実施形態による、一次元基準フレーム内の既知オブジェクトピクセル座標のセットの符号化の例を示す図である。
【
図3】本明細書に開示される本発明の特定の実施形態による、三次元基準フレーム内の既知オブジェクトピクセル座標のセットの符号化の例を示す図である。
【
図4】本明細書に開示される本発明の特定の実施形態による、機械知能システムを訓練するための方法のセットのフローチャートである。
【
図5】本明細書に開示される本発明の特定の実施形態による、訓練済み機械知能システムを使用して既知のオブジェクトに対してデバイスを位置特定するための方法のセットのフローチャートである。
【
図6】本明細書に開示される本発明の特定の実施形態による、既知のオブジェクトに対するデバイスのロケーションおよび向きの少なくとも一方を決定するための方法のセットの2つのフローチャートである。
【発明を実施するための形態】
【0008】
詳細な説明
上記の概要による画像データを使用するデバイスのリアルタイム位置特定のための方法およびシステムが、本明細書で詳細に開示される。このセクションで開示される方法およびシステムは、本発明の非限定的な実施形態であり、説明目的のためにのみ提供され、本発明の全範囲を縮小するために使用されるべきではない。上記の概要で述べたように、本明細書で開示される本発明の特定の実施形態によるシステムは、既知のオブジェクトの画像を取り込み、既知のオブジェクトに対するデバイスのロケーションおよび向きの少なくとも一方を出力する位置特定パイプラインを含むことができる。位置特定パイプラインは、位置特定パイプラインが適用される用途およびパイプライン内の追加のシステムに依存する様々な特性を有する訓練済み機械知能システムを含むことができる。
【0009】
訓練済み機械知能システムは、人工ニューラルネットワーク(ANN)、サポートベクタマシン、または既知のオブジェクトの画像データを使用して反復的に調整することができる任意のタイプの関数近似器または同等のアルゴリズムシステムとすることができる。訓練済み機械知能システムを訓練するために使用される画像データは、既知のオブジェクトのキャプチャされた実画像または既知のオブジェクトのシミュレートされた画像を含むことができる。訓練は、ラベル付き画像データを使用する教師あり学習または教師なし学習を伴うことができる。ANNの場合、畳み込みニューラルネットワーク、敵対ネットワーク、注意ネットワーク、再帰ニューラルネットワーク(RNN)、および様々な他のネットワークを含む複数の形態のANNを利用することができる。ANNは、畳み込み層、全結合層、プーリング層、アップサンプリング層、ドロップアウト層、および他の層などの複数の層を含むことができる。ANNは、1つまたは複数のエンコーダと、1つまたは複数のデコーダとを含むことができる。ANNは、フィードフォワードのみであり得るか、またはRNNの場合のように再帰経路を含み得る。訓練済み機械知能システムは、線形回帰、サポートベクタ回帰、ランダムフォレスト、決定木、またはk近傍解析のうちの1つまたは複数を使用して訓練することができる。
【0010】
図1は、本明細書に開示される本発明の特定の実施形態による、訓練済み機械知能システム100のブロック図を示す。
図1の例では、訓練済み機械知能システムは、エンコーダ101を含む層のセットと、デコーダ102を含む層のセットとを有する畳み込みニューラルネットワークである。これは、画像処理のためのCNNの分野における一般的な構造であり、エンコーダが情報を画像空間から特徴空間内の情報に変換し、デコーダが特徴空間内の情報を画像空間内の情報に変換し戻す。CNNは、畳み込み層、アップサンプリング層、プーリング層、およびドロップアウト層を含む複数種類の層を含む。CNNは、U-Netなどの深層畳み込みネットワークとすることができる。エンコーダおよびデコーダ内の層は、連結動作103によってリンクされる。訓練済み機械知能システム100の中間層は、畳み込み層で使用され、ネットワークが既知のオブジェクトの特性を学習するために訓練中に調整される値を有するフィルタを含む。このようにして、既知のオブジェクトの態様および訓練データ内の任意の分散は、訓練中に訓練済み機械知能システムに組み込まれる。
【0011】
訓練済み機械知能システムは、位置特定パイプライン内のどこにあるか、およびその役割が何になるかに応じて、様々な入力を有することができる。一般に、訓練済み機械知能システムは、画像と共に使用されて、画像内のピクセルの少なくともサブセットの既知オブジェクト座標を生成する。しかしながら、画像は、訓練済み機械知能システムに送達される前に、他のシステムによって前処理されてもよい。訓練済み機械知能システムへの入力は、既知のオブジェクトの少なくとも一部分の画像または既知のオブジェクトの処理済み画像データとすることができる。画像は、オブジェクトに対して位置特定されているデバイスに取り付けられたセンサを使用してキャプチャすることができる。画像は、各々が1つまたは複数のピクセル値(たとえば、グレースケール整数値またはRGB符号化などのカラースキームを符号化するための複数の値)を有するピクセルのセットを含むことができる。本明細書で使用する場合、生の画像データが訓練済み機械知能システムに直接入力されるか否かにかかわらず、または画像データが訓練済み機械知能システムに入力として提供される前に位置特定パイプラインの初期段階によって最初に処理される場合、訓練済み機械知能システムは、依然として、画像内のピクセルのオブジェクト座標を決定するために画像と共に使用されるものとして説明される。
【0012】
訓練済み機械知能システムへの入力は、1つまたは複数の画像を含むことができる。たとえば、訓練済み機械知能システムは、単一の画像から単一の推論を生成するように設計することができる。しかしながら、訓練済み機械知能システムはまた、同時にまたは異なる時点に撮影された複数の画像を受信することもできる。したがって、入力は、デバイス上の任意の数のセンサから撮影された任意の数の画像を有するオブジェクトのステレオ画像であり得る。代替的にまたは組み合わせて、入力は、デバイスがオブジェクトに対して移動するときに撮影されたオブジェクトの画像の時系列を含むことができる。
【0013】
訓練済み機械知能システムへの入力および画像は、様々な符号化を有することができる。たとえば、画像は、画像内のピクセルごとに単一値グレースケールまたはカラーコードの形態のピクセルデータのセットを含むことができる。別の例として、画像は、画像内のピクセルごとにRGB値の形式でピクセルデータの複数のセットを含むことができる。別の例として、画像は、値が単一の値または複数の値である三次元ボクセル値のセットの形態で符号化することができる。
【0014】
異なる実施態様では、入力および画像は様々な次元を有することができる。画像は、既知のオブジェクトの1、2、2.5、または3次元画像とすることができ、ネットワークへの入力は、画像と同じまたは異なる次元を有することができる。たとえば、二次元画像のピクセルデータを、ピクセル値の1つまたは複数の二次元マトリックスにおいてネットワークに提供することができ、または三次元画像のボクセルデータを、前処理し、ピクセル値の1つまたは複数の二次元マトリックスにおいてネットワークに提供することができる。二次元入力および画像の場合、訓練済み機械知能システムへの入力は、画像と同じ幅および長さ、または異なる幅および長さを有することができる。
【0015】
訓練済み機械知能システムへの入力は、画像データと組み合わせて使用される追加のデータを含むことができる。たとえば、入力は、画像が撮影された時点、画像が撮影された時点の天候、画像が撮影された時点の周囲光条件、または他のメタデータなどの画像に関するメタデータを伴うことができる。別の例として、入力は、オブジェクトの深度データ、レーダデータ、オブジェクトのステレオ画像データ、オドメトリデータ、慣性運動単位データ、重量測定データ、複数の電磁スペクトル(たとえば、SWIR、IR、UV、可視光などである。)からの画像データなどの追加のセンサデータによって画像データと共に獲得された追加のセンサデータを伴うことができる。追加のセンサデータは、デバイス上の追加のセンサによって収集することができる。
【0016】
画像は、既知のオブジェクトの少なくとも一部分のものとすることができ、代替的にまたは組み合わせて、既知のオブジェクトの遮蔽部分を含むことができる。本発明の特定の実施形態の重要な利点の1つは、既知のオブジェクトが、訓練済み機械知能システムに提供される前に、画像内で中心合わせされる必要がなく、および/または特定のレベルのズームで処理される必要がないという事実を含む。代わりに、様々な距離からの、画像の中心からの様々な並進および回転を伴う既知のオブジェクトの画像を、訓練済み機械知能システムに入力することができる。本出願の特定の実施形態の別の重要な利点は、オブジェクトの一部分のみが画像内にある必要があるという事実を含む。たとえば、オブジェクトが別のオブジェクトによって遮蔽されているか、影によって覆われているか、または画像のフレームの外側にある場合、訓練済み機械知能システムは、既知のオブジェクトが位置するか、または他の様態で遮蔽されていない場合に既知のオブジェクトが位置するピクセルについて既知オブジェクト座標を依然として提供することができる。前処理(たとえば、バウンディングボックス、オブジェクト検出、画像処理分散キャンセルなど)は、上述したように、訓練済み機械知能システムに提供される前に画像からこれらの分散を除去するために適用することができるが、そのような前処理なしに画像をネットワークに直接提供することができる場合、計算リソース消費および推論時間の削減に関して利益が生じる。この利点は、様々な分散が追加されたオブジェクトの画像を使用して、および本明細書に記載の座標符号化を使用することによって、本明細書に開示された特定の訓練済み機械知能システムを訓練することによって実現することができる。
【0017】
図1の例では、画像104は、幅512ピクセル、長さ512ピクセルの小惑星の形態の既知のオブジェクトのグレースケール画像である。したがって、訓練済み機械知能システム100への入力は、画像内の各ピクセルに対応するグレースケール数値の形態の512×512ピクセル値のセットである。エンコーダ101の第1の層は、エンコーダ101の第1の層を画像104のグレースケール数値によって規定するフィルタの多くの畳み込みの形態で、これらのグレースケール数値を用いて数学的演算のセットを行う。
【0018】
訓練済み機械知能システムは、位置特定パイプライン内のどこにあるか、およびその役割が何になるかに応じて、様々な出力を有することができる。一般に、訓練済み機械知能システムは、オブジェクトの画像内の既知オブジェクトピクセルのセットの既知オブジェクト座標のセットの決定を支援することができる。概要に記載したように、所与のピクセルの既知オブジェクトピクセル座標は、その所与のピクセル内で見ることができる既知のオブジェクトの部分のロケーションに対応する、オブジェクトの基準フレーム内の座標である。既知オブジェクトピクセル座標は、座標を表す2進数、整数、または浮動小数点数によって表すことができる。訓練済み機械知能システムは、オブジェクトの基準フレーム内の既知オブジェクトピクセルのセットを出力することができる。基準フレームは、デカルトx-y-z座標系、球面座標系、または他の座標系などの様々なフォーマットを有することができる。基準フレームの座標系はまた、異なる実施形態では、三次元x-y-z座標系または二次元x-y座標系(たとえば、平面のオブジェクトまたは塗装の場合)などの様々な次元を有することもできる。
【0019】
本発明の特定の実施形態では、訓練済み機械知能システムは、座標ごとに少なくとも2つの値を含む符号化において既知オブジェクトピクセルのセットを出力することができる。本発明の代替の実施形態では、訓練済み機械知能システムは、1つの座標に対して少なくとも2つの値を含み、他の座標に対して1つの値を含む符号化において既知オブジェクトピクセルのセットを出力することができる。本明細書で使用される場合、機械知能システムの出力は、機械知能システムへの入力の適用に応答して機械知能システムによって生成され、訓練済み機械知能システムがその一部である位置特定パイプラインの後段によって直接使用することができる、または訓練済み機械知能システムの訓練中に、訓練済み機械知能システムのための訓練アルゴリズムの損失関数で使用されることなどによって回帰される訓練出力として使用することができる1つまたは複数の値である。既知オブジェクト座標が符号化において出力される状況では、下記の
図6を参照して説明するように、別個のデコーダが符号化を復号化することができる。本発明の特定の実施形態では、デコーダもまた、訓練済み機械知能システムとすることができる。これらの実施形態では、デコーダと、符号化既知オブジェクト座標を出力する機械知能システムの両方を同時にまたは別個に訓練することができる。同時訓練の場合、復号化既知オブジェクト座標と符号化既知オブジェクト座標の両方が、デコーダおよび機械知能システムの訓練を案内するために使用される損失関数に寄与することができる。
【0020】
既知オブジェクト座標は、オブジェクトの基準フレーム内にあり得る。基準フレームは、オブジェクトの標準的な向きおよびオブジェクトの標準的な原点に対応することができる。基準フレームは、オブジェクトの重心または体積中心(たとえば、工業部品の重心、車両の重心、ランドマークロケーションの中間点、宇宙航行船舶上または宇宙航行船舶内の特定の点、月の中心など)に原点を有し、オブジェクトの特定の回転とロケーション合わせされたデカルト座標系とすることができる。しかしながら、代替的に位置付けられた基準フレームが可能である。オブジェクトが基準フレーム内で見当合わせされている限り、基準フレームはオブジェクトに中心合わせされる必要はない。たとえば、基準フレームは、地球中心基準フレーム、地上中心基準フレーム、またはオブジェクトが見当合わせされている任意の他の基準フレームとすることができる。基準フレームは、用途に応じて様々な次元を有することができる。たとえば、既知オブジェクト座標は、基準フレームが一次元基準フレームである状態でデバイスが進行している行、道路、廊下、通路、または経路の中心からのデカルト距離として符号化することができる。
【0021】
既知オブジェクト座標の符号化は、様々な形態をとることができる。一般に、符号化は、既知オブジェクト座標ごとに少なくとも2つの値を含むことができる。少なくとも2つの値は、標準バイナリ符号化、グレイコード符号化、多項式符号化、正弦波符号化、フーリエ変換符号化、および他の符号化ならびにそれらの組み合わせの一部とすることができる。符号化は、フーリエ基底関数、ラプラス基底関数、サイン基底関数などの三角法基底関数、および他の様々な基底関数など、既知オブジェクト座標を入力として使用する任意の基底関数であり得る。x座標に対する浮動小数点数の形式の既知オブジェクト座標を2値固定小数点バイナリ符号化に符号化する具体例が以下のように与えられる。符号化関数は、最初に、既知オブジェクト座標を浮動小数点数から、本発明において符号化する値の数「N」に適合する固定小数点値(2^N-1)*(x-max_z)/(max_x-min_x)に正規化することを伴い得る。関数は、この固定幅数のバイナリ表現を符号化のための値として取得し続けることができる。したがって、0と1との間のx座標値「X」(単純にするためにすでに正規化されている)を有し、符号化においてN=2の値を有する場合、X*(2^N-1)またはfloor(X*3)を乗算する。したがって、X=1の符号化における値は(1.0,1.0)となり、X=0は(0.0,0.0)となり、X=0.5は(0.0,1.0)となる。
【0022】
符号化を生成するために使用される関数にかかわらず、符号化は、既知オブジェクト座標の各々について別個に訓練可能な値を含むことができる。たとえば、前の段落で提供された符号化例では、「1」のx座標は、2つの別個に訓練可能な値「1」および「1」として符号化することができ、結果、それらの2つの値と訓練出力との間の差は、訓練済み機械知能システムを訓練するための損失関数への入力になり得る。別の例として、「3」のx座標は、標準バイナリ符号化11として符号化することができ、この符号化における2つの値「1」および「1」の各々は、機械知能システムにおいて分離可能に訓練可能な値であった。別の例として、x座標148は多項式空間x2+yで符号化されてもよく、xは12であり、yは4であり、xおよびyの両方の値は、機械知能システムにおいて別個に訓練可能な値であった。
【0023】
符号化のサイズは様々な形態をとることができる。本発明の特定の実施形態では、符号化は、元の画像の各ピクセルの値のセットを含むことができる。代替的に、符号化は、元の画像からのピクセルのサブセット内の各ピクセルの値のセットを含んでもよい。たとえば、オブジェクトがピクセルを占有していると識別されたピクセルについてのみである。本発明の特定の実施形態では、符号化は値の複数のセットを含み、値のセット内の各値は、ピクセルのセット内のピクセル、またはピクセルのセット内のピクセルのサブセットを表す。符号化の分解能は、値のセットの数を増大させることによって増大させることができる。元の画像に対する符号化のサイズは、そのような各セットの値の数を変更することによって増減することができる。
【0024】
符号化における値は、符号化における各値が整数、2進数、浮動小数点数(たとえば、単精度、倍精度、または小数精度)などであることを含む様々な形態をとることができる。値は、8ビット整数、16ビット整数、16ビット浮動小数点などのような異なるレベルの精度を使用して、位置特定パイプラインにおいて表すこともできる。各値に使用される数のタイプは、当然のことながら、使用される符号化のタイプに依存する。符号化がバイナリ符号化である状況では、個々の値はバイナリである。符号化が正弦波符号化である状況では、個々の値は0~1の10進数であり得る。
【0025】
符号化は、訓練済み機械知能システムによって様々な様式で表すこともできる。たとえば、訓練済み機械知能システムは、符号化の値をチャネルのセットに格納することができる。チャネルの各セットを使用して、符号化によって表されているすべての既知オブジェクト座標に対する所与の座標の符号化を表すことができる(たとえば、x座標のチャネルの第1のセットおよびy座標のチャネルの第2のセット)。チャネルのセット内の各チャネルは、値のセットを含むことができ、入力画像からのピクセルのセットと同じ寸法を有することができる。あるいは、各チャネルは、符号化によって表されている画像からのピクセルの数に応じて、より少ない値を有してもよい。既知オブジェクト座標ごとの少なくとも2つの値は、チャネルのセット内の異なるチャネルからのものであり得る。上記で言及したように、符号化は、既知オブジェクト座標の各座標を表すチャネルの数の増大を必要とする各座標を表す値の数を増大させることによって、異なる度合いの分解能を含むことができる(たとえば、符号化のx座標のチャネル数を5から8に増大させると、座標当たりの分解能が5から8ビットに増大する)。
【0026】
図1の例では、訓練済み機械知能システム100の出力は、既知オブジェクト座標の符号化105を含み、既知オブジェクト座標のセット内の各オブジェクト座標は、オブジェクト座標ごとに少なくとも2つの値で符号化される。符号化105は、チャネルの3つのセット106、107、および108を含む。チャネルの各セットは、画像104を構成するピクセルのセットと同じ寸法を有する各行列である8つのチャネルを含む(たとえば、それらはすべて値の512×512行列である)。したがって、各チャネルは、入力画像内の各ピクセルに対して1つの座標の1つの値を格納する。チャネルの各セットは、ピクセルごとの既知オブジェクト座標値のセットを含む。図示のように、値のセット109は、チャネルのセット108を含む8つのチャネルにわたって格納された画像の右上ピクセルのx座標の値である。これらの出力はすべて、値を各ピクセルの単一値x座標、y座標、およびz座標のセットに復号化するデコーダに提供することができる。しかしながら、様々なチャネル内の各値は、訓練済み機械知能システム100を訓練するための訓練出力として別個に使用することもでき、別個に回帰することができる。本発明者らは、この手法が、既知オブジェクト座標について単一値座標上でのみ学習する手法と比較して、より速い収束ならびに優れた正確度および性能を提供することを見出した。
【0027】
訓練済み機械知能システムは、入力画像内のいずれのピクセルが既知のオブジェクトに対応するかを決定し、既知オブジェクト座標に加えてその決定に関する情報を出力することができる。本発明の特定の実施形態では、位置特定パイプライン内の別個のシステムが画像を前処理して、画像のいずれの部分が既知のオブジェクトに対応するかを決定する。次いで、この別個のシステムは、画像からオブジェクトをセグメント化し、既知オブジェクトピクセルのみを訓練済み機械知能システムに提供することができる。しかしながら、代替的な実施形態では、訓練済み機械知能システムはまた、画像のいずれの部分が既知オブジェクトピクセルであり、いずれの部分がそうでないかを判定することもできる(たとえば、同じ訓練済み機械知能システムが、入力画像内の既知オブジェクトピクセルの既知オブジェクト座標を出力し、既知のオブジェクトに関連付けられない画像内のピクセルについてヌルまたは0値を出力することができる)。付加的に、または組み合わせて、同じ訓練済み機械知能システム、または別個のシステムが、入力画像の視認性マップの確率を出力することができる。
【0028】
図1の訓練済み機械知能システムは、前の段落で述べた2つの手法の組み合わせを行う。
図1の例では、符号化出力105は、画像104からのオブジェクトに関連付けられていない画像の部分についてのヌル値を含む。付加的に、訓練済み機械知能システムは、オブジェクトの可視部分に関連付けられたピクセルを示す「1」値と、オブジェクトの可視部分を包含しないピクセルを示す「0」値とを有するバイナリマスクである視認性マップ110の確率を出力する。
【0029】
視認性マップの確率が生成される本発明の特定の実施形態では、マップは様々な形態をとることができる。システムは、単一のマップ内の異なるカテゴリのピクセルまたは符号化された異なるカテゴリのピクセルを表すために別個のマップを生成することができる。1つまたは複数のマップは、既知のオブジェクトが画像内で見える既知のオブジェクトの部分に関連するピクセル(可視ピクセル)、既知のオブジェクトが画像内で遮蔽されている既知のオブジェクトの部分に関連するピクセル(遮蔽ピクセル)、および既知のオブジェクトが存在しないピクセル(境界外ピクセル)を区別することができる。1つまたは複数のマップは、用途に応じて、可視ピクセルまたは境界外ピクセルで遮蔽ピクセルを潰すことができる。1つまたは複数のマップは、ピクセルが1つのカテゴリまたは別のカテゴリに属するか否かを示すバイナリ値を含むことができる(たとえば、「1」はオブジェクトの一部分を示し、「0」はオブジェクトの一部分ではないピクセルを表す)。マップは、代替的にまたは組み合わせて、所与のピクセルが所与のカテゴリに対応するか否かの確率を表す0~1の正規化値を含むことができる。マップが確率を表す0から1の間の正規化値を含む場合、これらの確率のグラウンドトゥルースは、機械学習モデルを訓練する目的で、「0」(既知のオブジェクトの一部ではないピクセル)または「1」(既知のオブジェクトの一部であるピクセル)のいずれかになる。
【0030】
視認性マップの確率が生成される本発明の特定の実施形態では、マップは様々な目的に使用することができる。マップは、訓練済み機械知能システムによって出力することができ、または別個のシステムによって提供し、次いで、訓練または位置特定パイプラインの後の段階を単純化するために使用することができる。たとえば、視認性マップの確率を使用して、訓練済み機械知能システムの損失関数に、オブジェクトを包含しないおよび/またはオブジェクトの遮蔽部分を包含する画像の部分の予測既知オブジェクト座標とグラウンドトゥルース既知オブジェクト座標との間の差を無視させることによって、訓練を抑制することができる。特に、視認性マップの確率は、視認性マップの確率に従って(たとえば、その既知オブジェクト座標のピクセルの値が閾値よりも高い)既知のオブジェクトが視認可能であるとみなされる場合にのみ、既知オブジェクト座標に関連する損失成分を計算することによって、訓練済み機械知能システムの訓練中に使用することができる。別の例として、視認性マップの確率は、オブジェクトのポーズまたはデバイスの位置特定を解決しようと試行するときに既知オブジェクト座標を考慮すべき信頼度を決定するために下流システムによって使用することができる。
【0031】
符号化が標準バイナリまたはグレイコード符号化である本発明の特定の実施形態では、訓練データの符号化を平滑化して、機械知能システムの性能を向上させることができる。この平滑化は、たとえばガウスぼかしによって行うことができるが、機械知能システムの性能を維持しながらコードを平滑化するように別の訓練済み機械知能システムを訓練するなど、他の多くの方法が可能である。訓練済み機械知能ネットワークは、平滑化された入力でより良好に学習することが多い。これは、エッジ領域の過酷な0-1境界が本質的に不安定で不確実であるため、これを反映するために平滑化する必要があるためである。
【0032】
本発明の特定の実施形態では、既知オブジェクト座標のセットは、画像内で遮蔽されているオブジェクトの部分の座標を含むことができる。たとえば、訓練済み機械知能システムによって出力される既知オブジェクト座標のセット内の既知オブジェクト座標の少なくとも1つは、画像内の既知のオブジェクトの遮蔽部分に対応し得るが、画像内の対応するピクセルに既知オブジェクト座標を依然として提供することができる。たとえば、オブジェクトが月面である場合、影、埃雲、または他の難読化媒体が画像内のオブジェクトの部分を覆う場合があるが、訓練済み機械知能システムは依然として遮蔽部分のオブジェクト座標を生成する。訓練済み機械知能システムは、実際に、システムにこの能力を含ませるために、オブジェクトの部分がシミュレーションまたはオブジェクトの実画像によって意図的に遮蔽された画像によって訓練することができる。したがって、特定の実施形態では、訓練済み機械知能システムによって決定される既知オブジェクト座標のセット内の既知オブジェクト座標の少なくとも1つは、画像内の既知のオブジェクトの遮蔽部分に対応する。
【0033】
訓練済み機械知能システムまたは代替的なシステムが視認性マップの確率を生成する実施形態では、視認性マップの確率は、オブジェクトの境界外にある画像の部分と同じまたは異なるオブジェクトの遮蔽部分を符号化することができる。次いで、位置特定パイプラインの訓練または後の段階の単純化は、視認性マップの確率における符号化に基づいて、遮蔽部分およびオブジェクトの境界外の部分を別様に処置することができる。たとえば、オブジェクトが遮蔽されている画像内のオブジェクト座標を正確に予測するように訓練済み機械知能システムを訓練するために、遮蔽部分を依然として考慮することができるが、オブジェクトのポーズ決定またはデバイスの位置特定決定に影響を与える潜在的な不正確さを回避するために、遮蔽部分の既知オブジェクト座標の予測は実行時に無視することができる。同じ例において、視認性マップの確率に従ってオブジェクトの境界の完全に外側にある画像の部分を完全に無視して、位置特定パイプラインの訓練段階と後の段階の両方を単純化することができる。
【0034】
前述のように、本発明の特定の実施形態では、訓練済み機械知能システムによって出力される既知オブジェクト座標は、符号化がグレイコード符号化になるように、グレイコードを使用して符号化することができる。一般的なバイナリ数値コードはビット間で急速に変化する。たとえば、10進数1は標準バイナリコードでは01であり、10進数2は標準バイナリコードでは10である。差分の10進数1個分のみの符号については、2ビットが変化されることに留意されたい。代わりに、既知オブジェクト座標は、隣接する値間の変化率がより低いグレイコードで符号化することができる。たとえば、10進数「1」のグレイコードは01であり、10進数「2」のグレイコードは11である。見てとれるように、一度に1ビットしか変化しない。グレイコードを使用して符号化された既知オブジェクト座標を使用して、訓練済み機械知能システムを訓練することができる。特定の実施態様では、ビットコードマップのグレイコード符号化は、マップ上のパターンがよりクラスタ化されて接続され、したがってノイズとして誤って解釈される可能性がある分離されたビットがより少なくなるため、より良好に学習することができる。グレイコードはまた、必要に応じて、たとえばハミング誤り訂正追加コードビットを使用することによって、より容易な誤り訂正を可能にする。
【0035】
図2は、本明細書に開示される本発明の特定の実施形態による、一次元基準フレーム内の既知オブジェクトピクセル座標のセットの符号化の例を示す。この例における基準フレームは、一次元軸であり(たとえば、廊下に沿った位置を表すための)、既知オブジェクト座標は、原点からの軸に沿った距離値であり得る。10進値は、リスト200に提供され、それらの関連するグレイコードのリスト201の隣に配置される。この符号化では、描画を容易にするために3つの値が提供されるが、より大きい値の符号化(たとえば、8ビット、16ビットなど)が代わりに提供されてもよい。図示の実施形態では、訓練済み機械知能システムは、既知オブジェクト座標からの各座標を、リスト202に示すような3つのチャネルのセットを用いて表す。これは一次元事例であるため、既知オブジェクト座標は単一の座標のみを含む。この単純な事例では、3つのチャネルは、距離座標を符号化する別個のバイナリ値を含む。リスト202の各列は、この例では単一の既知オブジェクト座標の単一の出力値を表す。この例は、遷移回数を最小限に抑えることに重点を置いて、各個々のチャネルのシグネチャがどのように比較的平滑であるかを示すために提供される。さらに、出力が回帰されている空間が比較的平滑であるように、値の各セットはわずかに異なる。したがって、この例は、グレイコードが、結果として訓練済み機械知能システムのより正確かつ容易な訓練をもたらすことができる方法を示している。
【0036】
図3は、本明細書に開示される本発明の特定の実施形態による、三次元基準フレーム内の既知オブジェクトピクセル座標のセットの符号化の例を示す。この特定の例では、符号化は16ビットグレイコード符号化を使用するが、第1、第4、および第14のビットのみが示されている。列300は、この場合は小惑星であるオブジェクトの元の画像を示している。列301は、元の画像内の各ピクセルについて、小惑星を中心とする三次元基準フレーム内のx座標の符号化を示す。列302は、元の画像内の各ピクセルについて、三次元基準フレーム内のy座標の符号化を示す。列303は、元の画像内の各ピクセルについて、三次元基準フレーム内のz座標の符号化を示す。符号化によれば、各座標はいくつかの値によって表され、図示の事例では、各ピクセルおよび各次元の符号化の第1のビットは第1の行に示され、その第4のビットは第2の行に示され、第14のビットは第3の行に示される。図示のように、各チャネルは入力画像と同じ解像度である。しかしながら、特定の実施形態では、それらはより低い解像度にサブサンプリングすることができる。図示されたチャネルがネットワークの唯一の訓練出力である場合、訓練するための9つのチャネルが存在する。しかしながら、この例は16ビット解像度の符号化を含むため、訓練するチャネルの数は16×3になる(チャネルの数は、座標ごとの値の数に次元の数を乗じたものである)。各チャネルは、元の入力画像のピクセル数に等しい数のエントリを含むため、これによって、損失関数の出力の数が多くなる可能性がある。したがって、上述の出力視認性マップは、考慮する必要がある値の数を、オブジェクトが実際に存在するピクセルのサブセットに有益に制限することができる。
【0037】
図3の例はまた、本発明の特定の実施形態による訓練済み機械知能システムの訓練を概念化するための異なる様式を提示する。図示されているように、各デカルト座標は、たとえば各々16個のバイナリ値(各ピクセルに対して表される0~65,536個の潜在的な座標値)でコード化されるように最初に正規化される。その後、画像内のピクセルのバイナリ値の各セットを、単一の白黒画像によって表すことができる。結果として、複雑な三次元数値x-y-zデータを使用して学習する代わりに、訓練済み機械知能システムは、上述のチャネルのインスタンス化である白黒画像のセットを使用して訓練することができる。この例では、基準フレームの3つの次元および座標ごとの16個のバイナリ値から結果として生じる48個の画像がある。特定の実施態様では、三次元座標の数値表現と比較して、白黒表現を使用して訓練済み機械知能システムを訓練することがより効果的である。
【0038】
本発明の特定の実施形態では、訓練は様々な様式で行うことができ、訓練済み機械知能システムの特性に依存する。誤解を避けるために、本明細書で使用される場合、訓練済み機械知能システムという用語は、構成された後のシステムを含むが、依然としてそのデフォルト状態(すなわち、訓練データが適用される前)で静止している。訓練プロセスは、一般に、訓練データを収集することと、訓練データを訓練済み機械知能システムに入力することと、訓練済み機械知能システムの特性を、訓練データ入力に応答して生成された出力に基づいて調整することとを含む。調整ステップは、訓練済み機械知能システムによって生成される出力が期待される出力と一致するか否かを確認するために、入力訓練データに関連付けられる、一致した出力訓練データの使用を含むことができる。そのような出力訓練データが利用可能な訓練入力データは、ラベル付き訓練データとして参照することができる。
【0039】
本発明の特定の実施形態では、訓練データは、ネットワークが画像データに応答して生成すると期待される任意の出力に関するグラウンドトゥルース情報でラベル付けされた既知のオブジェクトの画像である。たとえば、グラウンドトゥルース情報は、画像内の各ピクセルまたはピクセルのサブセットの符号化されていない既知オブジェクト座標、画像内の各ピクセルの視認性マップの値、および画像内の各ピクセルの符号化既知オブジェクト座標の値を含んでもよい。既知オブジェクトは、位置特定が提供されている任意のオブジェクトまたはシーンであり得る。オブジェクトは、工業部品、車両、ランドマーク、宇宙船、月、圃場およびその周囲、器官または腫瘍などであり得る。画像は、既知のオブジェクトに対する異なるカメラポーズからのオブジェクトの画像とすることができる。オブジェクトは、画像内で部分的に閉塞され得るか、または画像内に部分的にのみ位置し得る。画像は、画像のフレーム内の様々な位置およびポーズにあるオブジェクトを含むことができる。
【0040】
一般に、訓練データは、訓練済み機械知能システムが展開されたときに入力として受信するデータのフォーマットに一致する。たとえば、展開されたシステムが画像データ以外の他のデータ(たとえば、上記のオドメトリデータ)を含む場合、訓練データはそのデータも含むことができる。別の例として、展開されたシステムがオブジェクトのRGB画像をキャプチャする可視光カメラを含む場合、訓練データはオブジェクトのRGB画像とすることができる。
【0041】
訓練データは、(たとえば、既知のオブジェクトの画像をキャプチャするカメラを使用して)収集することができ、または(たとえば、既知のオブジェクトのCADモデルを使用して)合成することができる。合成された訓練データは、合成データと呼ぶことができる。訓練データが収集される場合、画像がキャプチャされたときのデバイスおよびオブジェクトの相対位置の追加のセンサまたは知識も使用して(たとえば、デバイスに対して既知のロケーションまたは向きにセンサを位置付けるためのリグを使用して)、グラウンドトゥルース訓練出力データをキャプチャすることができる。データがどのようにキャプチャされるかにかかわらず、入力訓練データは、訓練済み機械知能システムの性能を改善するために分散を用いて修正することができる。さらに、デバイスの元のキャプチャおよび合成は、意図的に分散を導入するように行うことができる。分散は、訓練済み機械知能システムがセンサの誤差またはシステムの動作中の条件の変化にかかわらず動作することを保証するための、照明、色の変動、大気または気象効果の追加、オブジェクトの表面材料の変更、ダスト効果、カメラに対するオブジェクトのポーズのわずかな摂動、ノイズ、および他の歪みを含むことができる。分散はまた、オブジェクトを画像の中心からずらすこと、またはオブジェクトが画像内で知覚されるズームレベルを修正することを含むことができる。訓練データはまた、訓練済み機械知能システムが展開されたときに入力データを取得することになるセンサの分散のモデルによって生成される分散を使用して生成することもできる。これらの実施形態では、訓練済み機械知能システムは、その訓練を通じて、既知のオブジェクトの画像のセットを組み込み、既知のオブジェクトは、上述の分散のサンプリングによって提示される(たとえば、既知のオブジェクトが画像の中心から外れている場合)。
【0042】
本発明の特定の実施形態では、訓練データは、訓練済み機械知能システムの有効ゾーンの観点から収集または合成することができる。これらの実施形態は、訓練済み機械知能システムが展開されるときにデバイスがオブジェクトに対して一般にどこに位置付けられるかについての事前知識に基づいて、デバイスをナビゲートするための有効ゾーン(たとえば、三次元基準フレームの事例における有効ボリューム)を規定する別個のステップを含むことができる。三次元オブジェクトの事例において、訓練画像は、規定のボリューム内のポーズの6-DOFサンプリングに対応することができ、規定のボリュームは、オブジェクトに対するデバイスの可能な位置のセットを規定する。そのような有効ゾーンは、対称性の可能性を軽減してオブジェクトに対するデバイスの真の位置に関する曖昧さをもたらすことができるため、訓練済み機械知能システムの動作を単純化することができる。これらの実施形態では、訓練済み機械知能システムは、その訓練を通じて、有効ボリューム内から既知のオブジェクトの画像のセットを組み込む。
【0043】
前の段落で説明した実施形態は、既知オブジェクト座標が生成される基準フレームの限定された部分に対してデバイスを位置特定する必要がある状況に有益に適用することができる。たとえば、デバイスが宇宙航行船舶であり、既知のオブジェクトが船舶のための着陸またはドッキング表面を含む場合、有効量は、宇宙航行船舶のための投影された着陸またはドッキングアプローチを含み得る。別の例として、デバイスが倉庫ロボットであり、既知のオブジェクトが保管構造である事例において、有効ボリュームは、倉庫の床を含み、倉庫の床の上のロボットのセンサの高さまで延在することができる。別の例として、デバイスがトラクタであり、既知のオブジェクトが畑の作物の列である事例において、有効ゾーンは畑の表面を含むことができる。
【0044】
図4は、本明細書に開示される本発明の特定の実施形態による、機械知能システムを訓練するための方法のセットのフローチャート400を示す。フローチャート400の組み合わされたステップは、既知のオブジェクトの画像のセットを使用して訓練済み機械知能システムを訓練するためのプロセスを構成する。フローチャート400は、オブジェクトに対してデバイスをナビゲートするための有効ゾーンを規定する任意選択のステップから始まる。次に、フローチャート400は、訓練データ(たとえば、入力訓練データおよび出力訓練データの両方)をステップ403において合成することができ、および/または入力訓練データをステップ404においてキャプチャすることができ、出力訓練データをステップ405において取得することができるという点で、ステップ402から延在する分岐の両方またはいずれかを含むことができる訓練データを取得するステップ402に続く。ステップ404および405は、複数のセンサを使用して同時に、またはデータキャプチャセンサが使用されている環境(たとえば、センサがオブジェクトの基準フレームに事前に見当合わせされている場合)の事前知識に基づいて行うことができる。ステップ404は、展開中に使用されるのと同じデバイスを使用して、または別個のシステムを使用して行うことができる。ステップ405は、入力データからグラウンドトゥルースを生成するための人間の自己ラベリング方法を含むことができる。これらのステップにおいて取得される入力データは、訓練済み機械知能システムが展開されるときにそれに提供されるものと同様であり得る。出力データは、同様に、訓練済み機械知能システムが展開されるときに訓練済み機械知能システムによって生成される出力データに類似することができ、機械知能システムの断続的な訓練出力などの追加のデータも含むことができる。
【0045】
フローチャート400は、訓練データを機械知能システムに提供するステップ406に続く。図示されるように、これは、入力訓練データ408を機械知能システムに供給するデータリーダを含むことができる。入力訓練データは、画像データを含むことができ、上述の追加データ(たとえば、深度データ、オドメトリデータなど)のいずれかを含むこともできる。図示の事例では、機械知能システムは、訓練済みニューラルネットワーク409を含む。訓練済みニューラルネットワーク409は、既知オブジェクト座標のセット410の符号化を出力する。既知オブジェクト座標のセット410の符号化は、出力訓練データ411と比較することができ、値の間の差は、ニューラルネットワーク409の重みを更新するステップ412において使用することができる。出力訓練データ411は、入力データ408内の画像内のピクセルについてのグラウンドトゥルース符号化既知オブジェクト座標とすることができる。既知オブジェクト座標のセット410は、既知オブジェクト座標の符号化セットを符号化されていない既知オブジェクト座標414に変換するデコーダ413に提供される。既知オブジェクト座標の符号化されていないセット414は、出力訓練データ415と比較することができ、値の間の差は、訓練済みニューラルネットワーク409の重みを更新するステップ412において使用することができる。出力訓練データ415は、入力データ408内の画像内のピクセルについてのグラウンドトゥルース既知オブジェクト座標とすることができる。デコーダ413も訓練済み機械知能システムである特定の実施形態では、ステップ412はまた、デコーダ413の重みを更新すること、または他の様態で訓練することを含むことができる。既知オブジェクト座標の符号化されていないセット414は、デバイスの位置特定417を生成するためにpnpソルバシステム416に提供される。位置特定416は、出力訓練データ417と比較することができ、値の間の差は、訓練済みニューラルネットワーク409の重みを更新し、場合によってはデコーダ413も訓練される実施形態においてデコーダ413を調整するステップ412において使用することができる。出力訓練データ417は、デバイスのグラウンドトゥルースポーズを含むことができる。ステップ412は、ステップ412に戻って提供されるものとして明示的に示されている差を含む、図のブロックによって生成される値のいずれかおよびその変形を使用して算出される損失関数の使用を含むことができる。このプロセスは、図示の事例においては訓練済みニューラルネットワーク409、デコーダ413、およびpnpソルバシステム416を含む全体的な位置特定パイプラインによって所望の程度の正確度が達成されるまでループを続けることができる。
【0046】
図5は、本明細書に開示される本発明の特定の実施形態による、既知のオブジェクトに対してデバイスを位置特定するための方法のセットのフローチャート500を示す。フローチャート500は、デバイス550上の少なくとも1つのプロセッサによって実行されると、システムにフローチャート500の追加のステップを実行させる命令セットを、デバイス上の少なくとも1つのコンピュータ可読媒体にロードするステップ501によって開始する。ステップ501は、フローチャート400の方法を使用して訓練されたシステムなどの訓練済み機械知能システムを、デバイス550上のコンピュータ可読媒体にロードするステップをさらに含むことができる。図示の事例において、デバイス550は、可視光カメラの形態の取り付けられたセンサ551と、少なくとも1つの搭載コンピュータ可読媒体553と、プロセッサ554とを有する宇宙航行船舶である。少なくとも1つのコンピュータ可読媒体553は、本明細書に開示された方法のための命令と訓練済み機械知能システムの両方を格納することができる。代替形態では、方法の部分は、格納された命令および代替ロケーションに位置するプロセッサを使用して行うことができ、それらの代替命令の生成物およびそれに対する入力は、ネットワークを介してデバイスと交換される。
【0047】
フローチャート500は、デバイスに取り付けられたセンサを使用して、既知のオブジェクトの少なくとも一部分の画像をキャプチャするステップ502に続き、画像はピクセルのセットを含む。図示の場合、センサ551は可視光カメラであり、既知のオブジェクト555は着陸地点であり、画像556は、関連するグレースケールピクセル値を有するピクセルの二次元アレイである。センサは、システムの位置特定パイプラインの一部として後のステップで使用することができる既知の投影モデル(たとえば、ピンホールモデルまたは焦点距離モデル)を有することができる。このステップにおいて使用されるセンサは、本明細書に開示されているセンサのいずれかとすることができ、画像は、本明細書に開示されているものなどのデバイス550またはオブジェクト555に関する追加のデータと共にキャプチャすることができる。画像は、グレースケール、カラー、モノラル、ステレオ、または本明細書の他の箇所に開示されている変形のいずれかであってもよい。画像は、画像の時系列およびそのような追加データと共にキャプチャすることができる。次いで、収集されたデータは、コンピュータ可読媒体553に格納されたものなどの訓練済み機械知能システムに提示することができる。
【0048】
フローチャート500は、訓練済み機械知能システムによって同時に行うことができるため、ともに対処されるステップ503およびステップ504によって継続する。ステップ503は、画像を使用して、ピクセルのセットから既知オブジェクトピクセルのセットを決定することを含み、既知のオブジェクトは画像内の既知オブジェクトピクセルのセットを占有する。このステップは、ステップ504を実行するために使用されるものとは別個の訓練済み機械知能システムによって、またはステップ504を行うために使用されるのと同じ訓練済み機械知能システムを使用して、訓練済み機械知能システムの画像の前処理の一部として行うことができる。たとえば、ステップ503は、訓練済み機械知能システムが画像556を受信し、既知のオブジェクト555が位置するピクセルである既知オブジェクトピクセルのセット557を識別することを含むことができる。ステップ504は、訓練済み機械知能システムおよび画像を使用して、既知オブジェクトピクセルのセットの既知オブジェクト座標のセットを決定することを含む。たとえば、ステップ504は、訓練済み機械知能システムが、ステップ503を行った別個のシステムから既知オブジェクトピクセルのセット557を受信すること、または既知オブジェクト座標のセットおよび既知オブジェクトピクセルのセットを同時に決定することを含むことができる。いずれの事例においても、出力は、既知オブジェクト座標のセット558とすることができる。既知オブジェクト座標のセット558は、オブジェクト555の基準フレーム内にあり得る。既知オブジェクト座標のセット558は、オブジェクト座標ごとに少なくとも2つの値を有する符号化を使用して、既知オブジェクト座標のセット内の各オブジェクト座標を符号化することができる。そのような符号化の例は、
図1~
図3を参照して上述されている。
【0049】
フローチャート500は、訓練済み機械知能システムからの既知オブジェクト座標のセットを使用して、既知のオブジェクトに対するデバイスのロケーションおよび向きの少なくとも一方を決定するステップ505によって継続する。たとえば、ステップ505は、既知オブジェクト座標のセット558を使用して、既知のオブジェクト555に対するデバイス550のロケーション560を決定することを含むことができる。このステップは、pnpソルバシステムによって実行することができる。これらのシステムは、画像内のオブジェクトの座標点の画像を変換し、それをオブジェクトに対するポーズに変えることができる。たとえば、既知オブジェクト座標のセットおよび視認性マップの確率をpnpシステムに提供して、オブジェクトに対するデバイスのロケーションまたは向きを決定するためのアルゴリズム(たとえば、ランダムサンプルコンセンサス(RANSAC)評価)を行うことができる。ポーズのRANSACアルゴリズムは、既知オブジェクト座標のランダムなサブセットを使用し、既知オブジェクト座標の新しいランダムなサブセットから各々多くの候補ポーズを計算することができる。次いで、最良コンセンサスポーズを見つけることができ、任意選択的に、「n」個の最良のポーズを平均して、より安定した/正確な最終ポーズを見つけることができる。
【0050】
ステップ505は、位置特定パイプラインの性能を増大させるために様々な様式で行うことができる。既知オブジェクト座標は、オブジェクトのモデルまたは他の事前理解と組み合わせて、画像の時系列と組み合わせて、マスクと組み合わせて、または追加のセンサデータと組み合わせて、デバイスを位置特定するために使用することができる。これらの強化は、ステップ505の正確度を高めるかまたは実行を単純化するために、様々な様式で行うことができる。
【0051】
ステップ505のプロセスは、既知のオブジェクトの事前理解の助けを借りて単純化することができ、または正確度を高めることができる。オブジェクトの剛体運動モデルまたは一般化されたCADモデルを使用して、キャプチャされた既知オブジェクト座標によって表現されるオブジェクトの多数の潜在的なポーズを排除することができる。これは、pnpシステムによる検討から明らかな外れ値座標を除去する前処理システムによって行うことができる。別の例として、既知オブジェクト座標の正則化が、既知のオブジェクトのモデルを使用して執行され、外れ値の決定された既知オブジェクト座標を破棄することによって、または座標を修正することによって、既知オブジェクト座標をオブジェクトのモデル点に近づけることができる。そのようなプロセスは、既知オブジェクト座標がモデルによって期待されるように既知のオブジェクト上のロケーションとして安定し始めるように反復することができる。
【0052】
代替的にまたは組み合わせて、ステップ505のプロセスは、オブジェクトのポーズの決定を単純化するために、過去のセンサデータの時系列の分析を使用して単純化または正確度を高めることができる。たとえば、画像の時系列を使用して、ポーズの過去の推定に基づいて予測ポーズを改善および安定化することができる。たとえば、カルマンフィルタを使用して、ノイズの多いデータに対して最適な予測または平滑化を行うことができる。関連する例では、オブジェクトがセンサキャプチャ速度と比較してゆっくりと動いていた場合、ポーズがフレーム間で大きく変化しないように、ポーズ予測を経時的に平均することができる。
【0053】
代替的にまたは組み合わせて、ステップ505のプロセスは、追加のセンサデータを使用して単純化または正確度を高めることができる。たとえば、pnpシステムは、IMUデータ、ホイールオドメトリデータ、磁力計、重量センサ、またはジャイロスコープからの既知の接地面の向きなど、既知のオブジェクトの可能なポーズに対する制約として機能する他のデータソースと互換性のあるポーズを必要とする可能性がある。
【0054】
代替的にまたは組み合わせて、画像の特定の座標または部分にpnpシステムの分析を集中させるためにマスクを使用することができる。たとえば、上述の視認性マップの確率を使用して、pnpソルバシステムによる考察から座標を排除することができる。別の例として、マスクが確率を含む場合、その値は、pnpソルバシステム(たとえば、視認性の既知オブジェクト座標の高い確率を支持するRANSAC評価)によって考慮することができる。マスクはまた、既知のオブジェクトの特徴的な領域のみを選択し、他のピクセルを無視するか、または他のピクセルに関連付けられた座標をあまり正確でないものとして扱うことができる。マスクはまた、偽の座標を除去するために、画像内のオブジェクトの遮蔽された部分に関連付けられた座標を無視するために、オブジェクトの部分を含まない可能性があるか、または含まない画像の部分に関連付けられた座標を無視するために、またはランダム入力ノイズを処理する労力が無駄にならないように、オブジェクトが画像内に位置していないために座標のセットを処理すべきでないことをpnpシステムが知ることを可能にするために使用することができる。
【0055】
本発明の特定の実施形態では、すべてのフレームに対してポーズ決定アルゴリズムを実行するのに十分なコンピュータ能力がない場合、上記の計算はより少ない頻度で行うことができ、ポーズ推定は、IMUデータおよび上述の他のデータなどの他のセンサと融合され、時間と共にオブジェクトポーズを滑らかにするために、ポーズを期待されるペースで時間と共に変化に対して制約することができる。
【0056】
デバイスが位置特定された後、プロセスは、ループを続けてステップ502に戻り、別の画像をキャプチャすることができる。このプロセスは、所与の用途の所望の画像収集速度、センサのキャプチャ速度(たとえば、カメラのフレームレート)、またはデバイスの他の何らかの制御システム(たとえば、デバイスのためのナビゲーションシステムへの許容可能な入力間の期間)のロックステップにおいて、リアルタイムで反復的に行うことができる。プロセスが連続的に行われていない場合、フローチャートは終了することができ、位置特定パイプラインシステムは、別の入力が開始するまで保持することができる。
【0057】
図5に関して上記で提供された説明は、符号化されている既知オブジェクト座標の概念を明示的に含まなかった。しかしながら、ステップ504の実行は、符号既知オブジェクト座標を決定することを含むことができ、ステップ505は、既知オブジェクト座標を、それらを位置特定パイプラインの後段(たとえば、上記のpnpシステム)に提供する前に復号化することを含むことができる。したがって、ステップ505におけるデバイスのロケーションおよび向きの少なくとも一方の決定は、デコーダを使用して符号化を既知のオブジェクトの単一値座標のセットに変換することを含むことができる。デコーダは、分析デコーダまたは機械知能デコーダとすることができる。特定の実施形態では、システムは、両方のタイプのデコーダおよびデコーダの出力を含み、訓練中に機械知能システムの中間訓練出力として機能し、訓練済み機械知能システムが展開されるときに適切な復号化に関してコンセンサスに達すると両方が考えられる値を生成することができる。
【0058】
図6は、本明細書に開示される本発明の特定の実施形態による、既知のオブジェクトに対するデバイスのロケーションおよび向きの少なくとも一方を決定するための方法のセットの2つのフローチャートを示す。フローチャートは、各々独立して、
図5のステップ505を実施する様態を表す。フローチャット600は、分析デコーダを含む位置特定パイプラインにおいて実行することができる。フローチャート610は、訓練済み機械知能デコーダを含む位置特定パイプラインにおいて実行することができる。いずれの事例においても、デコーダは、ステップ504において訓練済み機械知能システムによって出力される既知オブジェクト座標が符号化される実施形態に適用されているために必要とされる。たとえば、それらは、
図1~
図3および本開示の他の箇所に関して上述した符号化のいずれかを使用して符号化することができる。
【0059】
フローチャート600は、分析デコーダを使用して符号化を既知オブジェクト座標の単一値座標のセットに変換するステップ601と、単一値座標のセットをpnpソルバシステムに適用するステップ602とを含む。pnpソルバは、ステップ505に関して上述した技法のいずれかを使用することができる。たとえば、チャネルのセット603の形態の符号化は、それらを単一値座標のセット605に転換する分析デコーダ604に提供することができる。次に、単一値座標605を、オブジェクト607に対するデバイスのロケーションまたは向きを出力するpnpソルバ606に適用することができる。
【0060】
フローチャート610は、訓練済み機械知能デコーダを使用して符号化を既知オブジェクト座標の単一値座標のセットに変換するステップ611と、単一値座標のセットをpnpソルバに適用するステップ612とを含む。pnpソルバは、ステップ505に関して上述した技法のいずれかを使用することができる。たとえば、チャネルのセット613の形態の符号化は、それらを単一値座標のセット615に転換する訓練済み機械知能デコーダ614に提供することができる。次に、単一値座標615を、オブジェクト617に対するデバイスのロケーションまたは向きを出力するpnpソルバ616に適用することができる。訓練済み機械知能デコーダ614は、
図4の例のように、既知オブジェクト座標を生成した訓練済み機械知能システムと同時に訓練することができる。あるいは、訓練済み機械知能デコーダ614は、別個に訓練することができる。
【0061】
本明細書に開示される本発明の様々な実施形態には多くの用途がある。たとえば、センサのポーズがオブジェクトまたはシーンに関して決定されると、ポーズは、ゲームシステム、拡張現実システム、ロボットシステム、カートまたはドローンのナビゲーションシステム、人または車両追跡装置、宇宙船の着陸またはドッキングシステムへと下流に渡すことができ、あるいは「支援遠隔操作」において使用することができ、この場合、車両またはロボットは、ほとんどの場合、車両またはロボットの指令を受けている人間のオペレータの負担を軽減することによって(それぞれ)進行または移動することができるが、多くの時間をかける必要はない。これにより、1人のオペレータが潜在的に多くの車両またはロボットを誘導することが可能になる。たとえば、支援遠隔操作では、農業従事者は、いくつかの圃場の一般的な列の始まりにいくつかのロボットを誘導することができる。ロボットがそこに到着すると、ロボットはオペレータに通知することができる。次いで、オペレータは、ロボットを解放して作物の列の除草を開始することができ、ロボットは、植物の列を乗り越えることなく植物の列を降りる方法を知る。次いで、ロボットは、オペレータが遠隔操作し、ロボットを方向転換させることを可能にすることができ、またはロボットは、方向転換し、別の行をすべて単独で行う方法を知ることができる。これにより、オペレータは、すべての車両またはロボットを詳細に運転しなければならないのではなく、高いレベルで操作をほとんど自由に行うことができる。たとえば、完全な自律性において、そのようなシステムは自律運転に使用することができる。シーン/マップ内のどこにいるかがわかっている場合、シーンの既知のマップモデルを使用して、ポイントAからBに移動することができる(すなわち、車が運転することになる領域は、本開示において「オブジェクト」参照になる)。異なるシステムは、自転車および他の車両を認識し、ルートに沿ってそれらを回避することを担当することができ、または自転車および他の車両は、相対位置特定情報が車のナビゲーションシステムに提供される他の「オブジェクト」として扱われることができる。別の例として、高密度オブジェクト座標がオブジェクトに対して決定されると、結果として得られる情報は、より大きいオブジェクトまたはシーンのイメージまたは三次元モデルをともにスティッチングするなど、他の処理パイプラインも可能にすることができる。本明細書で開示される訓練済み機械知能システムのいくつかがオブジェクトまたはシーンの三次元座標を認識することができることを所与とすると、それらは、たとえば、シーンの俯瞰図またはオブジェクトの正準図を作成することもできる。たとえば、ロボットはオブジェクトの一部を見ることができる。オブジェクトのポーズは、オブジェクトのその部分から確立することができ、ロボットは、オブジェクトを把持してそれを狭い領域から持ち上げ、それを別の固定具または容器に挿入する方法について考えることができる。これは、オブジェクトの三次元モデル全体および向きをその部分から知ることができるためである。
【0062】
本明細書は、本発明の特定の実施形態に関して詳細に説明されてきたが、当業者は、前述の理解を得ると、これらの実施形態の変更、変形、および同等物を容易に想起することができることが理解されよう。上述した方法ステップのいずれも、それらの方法ステップのための命令を格納するコンピュータ可読非一時的媒体によって動作するプロセッサによって行うことができる。コンピュータ可読媒体は、デバイス内のメモリまたはネットワークアクセス可能メモリであってもよい。本発明に対するこれらおよび他の修正および変形は、添付の特許請求の範囲により詳細に記載されている本発明の範囲から逸脱することなく、当業者によって実施され得る。
【国際調査報告】