(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-05-12
(54)【発明の名称】画像処理システム及び方法
(51)【国際特許分類】
G06T 7/73 20170101AFI20230502BHJP
【FI】
G06T7/73
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022559683
(86)(22)【出願日】2021-03-29
(85)【翻訳文提出日】2022-09-29
(86)【国際出願番号】 GB2021050770
(87)【国際公開番号】W WO2021198665
(87)【国際公開日】2021-10-07
(32)【優先日】2020-03-31
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】519426058
【氏名又は名称】インペリアル カレッジ イノベイションズ リミテッド
【氏名又は名称原語表記】IMPERIAL COLLEGE INNOVATIONS LIMITED
【住所又は居所原語表記】Level 1 Faculty Building, C/O Imperial College, Exhibition Road London SW7 2AZ, United Kingdom
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】和田 健太郎
(72)【発明者】
【氏名】エドガー・アントニオ・スカー・エスカミーラ
(72)【発明者】
【氏名】スティーヴン・ロイド・ジェームズ
(72)【発明者】
【氏名】ダニエル・ジェームズ・レントン
(72)【発明者】
【氏名】アンドリュー・デイヴィソン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096AA09
5L096BA04
5L096CA04
5L096DA02
5L096FA67
5L096HA11
5L096JA11
5L096JA18
5L096KA04
(57)【要約】
3次元シーン内のターゲットオブジェクトの姿勢を推定するコンピュータ実装方法は、3次元シーンのビューを表す画像データ及び関連デプス情報を取得することと、画像データ及び関連デプス情報を処理して、ターゲットオブジェクトを含む、3次元シーン内の複数のオブジェクトのそれぞれについてのボリュメトリック再構成を生成することと、ターゲットオブジェクトを含むボリュメトリックグリッドを決定することと、生成されたボリュメトリック再構成を使用して、自由空間によって占有されるボリュメトリックグリッドの部分、及びターゲットオブジェクト以外のオブジェクトによって占有されるボリュメトリックグリッドの部分を示す占有データを生成することと、ターゲットオブジェクトのサーフェス上の複数の点について、生成された占有データ及びポイントワイズ特徴データを使用して、ターゲットオブジェクトの姿勢を推定することとを含む。
【特許請求の範囲】
【請求項1】
3次元シーンにおけるターゲットオブジェクトの姿勢を推定するコンピュータ実装方法であって、
前記3次元シーンのビューを表す画像データ及び関連デプス情報を取得することと、
前記画像データ及び前記関連デプス情報を処理して、前記ターゲットオブジェクトを含む、前記3次元シーン内の複数のオブジェクトのそれぞれについてのボリュメトリック再構成を生成することと、
前記ターゲットオブジェクトを含むボリュメトリックグリッドを決定することと、
前記生成されたボリュメトリック再構成を使用して、自由空間によって占有される前記ボリュメトリックグリッドの部分、及び前記ターゲットオブジェクト以外のオブジェクトによって占有される前記ボリュメトリックグリッドの部分を示す占有データを生成することと、
前記ターゲットオブジェクトのサーフェス上の複数の点について、前記生成された占有データ及びポイントワイズ特徴データを使用して、前記ターゲットオブジェクトの前記姿勢を推定することと、
を含む、前記方法。
【請求項2】
2次元特徴抽出器を使用して前記取得された画像データを処理して、前記ターゲットオブジェクトの前記サーフェス上の前記複数の点について前記ポイントワイズ特徴データを生成することを含む、請求項1に記載の方法。
【請求項3】
画像セグメンテーションを使用して前記取得された画像データを処理して、前記ターゲットオブジェクトの2次元マスクを決定することを含み、
前記2次元特徴抽出器を使用して前記取得された画像データを処理することは前記ターゲットオブジェクトの前記2次元マスクに対応する前記画像データの一部を処理することを含む、請求項2に記載の方法。
【請求項4】
前記生成された占有データ及び前記ポイントワイズ特徴データを使用して前記ターゲットオブジェクトの前記姿勢を推定することは、
前記ポイントワイズ特徴データをボクセル化して、第一ボリュメトリック特徴データを取得することと、
3次元特徴抽出器を使用して前記占有データ及び前記第一ボリュメトリック特徴データを合わせて処理し、第二ボリュメトリック特徴データを生成することと、
前記第二ボリュメトリック特徴データを使用して前記ターゲットオブジェクトの前記姿勢を推定することと、
を含む、請求項1から3のうちのいずれか1項に記載の方法。
【請求項5】
前記3次元特徴抽出器は、3次元畳み込みニューラルネットワークであり、
前記第二ボリュメトリック特徴データは、前記3次元畳み込みニューラルネットワークのそれぞれの異なる層に生成されるボリュメトリック特徴の階層を含む、請求項4に記載の方法。
【請求項6】
前記ポイントワイズ特徴データは、第一ポイントワイズ特徴データであり、
前記第二ボリュメトリック特徴データを使用して前記ターゲットオブジェクトの前記姿勢を推定することは、
前記第二ボリュメトリック特徴データから、前記ターゲットオブジェクトの前記サーフェス上の前記複数の点について、第二ポイントワイズ特徴データを抽出することと、
前記第二ポイントワイズ特徴データを使用して、前記ターゲットオブジェクトの前記サーフェス上の前記複数の点のそれぞれについて候補姿勢及び対応する信頼度スコアを決定することと、
前記対応する信頼度スコアに基づいて、前記決定された候補姿勢から前記ターゲットオブジェクトの前記姿勢を推定することと、
を含む、請求項4または5に記載の方法。
【請求項7】
前記候補姿勢から前記ターゲットオブジェクトの前記姿勢を推定することは、最高の対応する信頼度スコアを有する候補姿勢を決定することを含む、請求項6に記載の方法。
【請求項8】
前記ターゲットオブジェクトの前記サーフェス上の前記複数の点のそれぞれについて前記候補姿勢及び前記対応する信頼度スコアを決定することは、回帰モデルを使用して前記第一ポイントワイズ特徴データ及び前記第二ポイントワイズ特徴データを合わせて処理することを含む、請求項6または7に記載の方法。
【請求項9】
前記複数のオブジェクトのうちの第一オブジェクトについての前記ボリュメトリック再構成を生成することは、
画像セグメンテーションを使用して前記画像データを処理し、前記第一オブジェクトの2次元マスクを決定することと、
前記第一オブジェクトの前記2次元マスクに対応する前記関連デプス情報の一部を処理して、前記第一オブジェクトの前記ボリュメトリック再構成を生成することと、
を含む、請求項1から8のうちのいずれか1項に記載の方法。
【請求項10】
請求項1から9のうちのいずれか1項に記載の前記方法を使用して、3次元シーン内の複数のターゲットオブジェクトのそれぞれの姿勢を推定する方法。
【請求項11】
前記複数のターゲットオブジェクトの所与のターゲットオブジェクトごとに生成される前記占有データは第一占有データであり、前記方法は、前記複数のターゲットオブジェクトの前記所与のターゲットオブジェクトごとに、
前記所与のターゲットオブジェクトの前記推定された姿勢に従って変換される前記所与のターゲットオブジェクトの所定のモデルから複数の点をサンプリングすることと、
前記所与のターゲットオブジェクトを含む前記ボリュメトリックグリッドに対する、前記所与のターゲットオブジェクトの前記所定のモデルからサンプリングされる前記点の位置に依存するそれぞれの第二占有データを決定することと、
前記所与のターゲットオブジェクトを含む前記ボリュメトリックグリッドに対する、前記複数のターゲットオブジェクトのその他のターゲットオブジェクトの前記所定のモデルからサンプリングされる前記点の位置に依存するそれぞれの第三占有データを決定することと、
を含み、
さらに前記方法は、反復的に、
前記複数のターゲットオブジェクトのそれぞれについて、前記それぞれの第二占有データ及び前記それぞれの第三占有データに依存する占有ペナルティを決定することと、
前記決定された占有ペナルティを使用して、前記複数のターゲットオブジェクトの前記推定された姿勢を修正することと、
を含む、請求項10に記載の方法。
【請求項12】
前記3次元シーンの前記ビューは、前記3次元シーンの第一ビューであり、
前記ターゲットオブジェクトまたは各ターゲットオブジェクトの前記推定された姿勢は、前記所与のオブジェクトの第一姿勢であり、
前記方法は、
前記3次元シーンの前記第一ビューとは異なる前記3次元シーンの第二ビューを表すさらなる画像データ及びさらなる関連デプス情報を取得することと、
前記ターゲットオブジェクトまたは各ターゲットオブジェクトに対して、
前記さらなる画像データ及び前記さらなる関連デプス情報を処理して、前記ターゲットオブジェクトの第二姿勢を推定することと、
前記ターゲットオブジェクトの前記第一姿勢及び前記第二姿勢のうちの少なくとも1つを変換して、姿勢比較データを決定することと、
前記姿勢比較データを処理して、一貫性条件が満たされているかどうかを決定することと、
前記一貫性条件が満たされていると決定される場合、前記ターゲットオブジェクトの前記第一姿勢及び前記第二姿勢と一貫して変換される前記ターゲットオブジェクトの所定のオブジェクトモデルを生成することと、
を含む、請求項1から11のうちのいずれか1項に記載の方法。
【請求項13】
画像データ及び関連デプス情報をキャプチャするように動作可能な1つ以上のセンサを含む画像処理システムであって、
前記1つ以上のセンサを使用して、3次元シーンのビューを表す画像データ及び関連デプス情報をキャプチャし、
前記画像データ及び前記関連デプス情報を処理して、ターゲットオブジェクトを含む、前記3次元シーン内の複数のオブジェクトのそれぞれについてのボリュメトリック再構成を生成し、
前記ターゲットオブジェクトを含むボリュメトリックグリッドを決定し、
前記生成されたボリュメトリック再構成を使用して、自由空間によって占有される前記ボリュメトリックグリッドの部分、及び前記ターゲットオブジェクト以外のオブジェクトによって占有される前記ボリュメトリックグリッドの部分を示す占有データを生成し、
前記ターゲットオブジェクトのサーフェス上の複数の点について、前記生成された占有データ及びポイントワイズ特徴データを使用して、前記ターゲットオブジェクトの姿勢を推定する、
ように配置される、前記システム。
【請求項14】
2次元特徴抽出器を含み、
前記システムは、前記2次元特徴抽出器を使用して前記取得された画像データを処理し、前記ターゲットオブジェクトの前記サーフェス上の前記複数の点について前記ポイントワイズ特徴データを生成するように配置される、請求項13に記載のシステム。
【請求項15】
前記システムは、画像セグメンテーションを使用して前記取得された画像データを処理し、前記ターゲットオブジェクトの2次元マスクを決定するように配置され、
前記2次元特徴抽出器を使用して前記取得された画像データを処理することは、前記ターゲットオブジェクトの前記2次元マスクに対応する前記画像データの一部を処理することを含む、請求項14に記載のシステム。
【請求項16】
3次元特徴抽出器を含み、
前記システムは、
前記ポイントワイズ特徴データをボクセル化して、第一ボリュメトリック特徴データを取得することと、
前記3次元特徴抽出器を使用して前記占有データ及び前記第一ボリュメトリック特徴データを合わせて処理し、第二ボリュメトリック特徴データを生成することと、
前記第二ボリュメトリック特徴データを使用して前記ターゲットオブジェクトの前記姿勢を推定することと、
によって、前記生成された占有データ及び前記ポイントワイズ特徴データを使用して、前記ターゲットオブジェクトの前記姿勢を推定するように配置される、請求項13から15のいずれか1項に記載のシステム。
【請求項17】
前記3次元特徴抽出器は、前記第二ボリュメトリック特徴データを生成するように配置される3次元畳み込みニューラルネットワークであり、
前記第二ボリュメトリック特徴データは、前記3次元畳み込みニューラルネットワークのそれぞれの異なる層に生成されるボリュメトリック特徴を含む、請求項16に記載のシステム。
【請求項18】
前記ポイントワイズ特徴データは、第一ポイントワイズ特徴データであり、
前記システムは、
前記第二ボリュメトリック特徴データから、前記ターゲットオブジェクトの前記サーフェス上の前記複数の点について、第二ポイントワイズ特徴データを抽出することと、
前記第二ポイントワイズ特徴データを使用して、前記ターゲットオブジェクトの前記サーフェス上の前記複数の点のそれぞれについて候補姿勢及び対応する信頼度スコアを決定することと、
前記対応する信頼度スコアに基づいて、前記決定された候補姿勢から前記ターゲットオブジェクトの前記姿勢を推定することと、
によって前記第二ボリュメトリック特徴データを使用して前記ターゲットオブジェクトの前記姿勢を推定するように配置される、請求項16または17に記載のシステム。
【請求項19】
最高の対応する信頼度スコアを有する候補姿勢を決定することによって、前記候補姿勢から前記ターゲットオブジェクトの前記姿勢を推定するように配置される、請求項18に記載のシステム。
【請求項20】
回帰モデルを使用して前記第一ポイントワイズ特徴データ及び前記第二ポイントワイズ特徴データを合わせて処理することによって、前記ターゲットオブジェクトの前記サーフェス上の前記複数の点のそれぞれについて前記候補姿勢及び前記対応する信頼度スコアを決定するように配置される、請求項18または19に記載のシステム。
【請求項21】
前記複数のオブジェクトの第一オブジェクトについて、
画像セグメンテーションを使用して前記画像データを処理し、前記第一オブジェクトの2次元マスクを決定することと、
前記第一オブジェクトの前記2次元マスクに対応する前記関連デプス情報の一部を処理して、前記第一オブジェクトの前記ボリュメトリック再構成を生成することと、
によって、前記ボリュメトリック再構成を生成するように配置される、請求項13から20のいずれか1項に記載のシステム。
【請求項22】
前記ターゲットオブジェクトの前記推定された姿勢に応じて前記ターゲットオブジェクトを係合するための係合手段を含む、請求項13から21のいずれか1項に記載のシステム。
【請求項23】
前記1つ以上のセンサを動作させるように配置される1つ以上のアクチュエータを含み、
前記3次元シーンの前記ビューは、前記3次元シーンの第一ビューであり、
前記ターゲットオブジェクトの前記決定された姿勢は第一姿勢であり、
前記システムは、
前記1つ以上のアクチュエータを使用して前記1つ以上のセンサを動作させ、
前記1つ以上のセンサの前記動作に起因する前記3次元シーンの第二ビューを表すさらなる画像データ及びさらなる関連デプス情報をキャプチャし、
前記さらなる画像データ及び前記さらなる関連デプス情報を処理して、前記ターゲットオブジェクトの第二姿勢を推定し、
前記所与のオブジェクトの前記第一姿勢及び前記第二姿勢のうちの少なくとも1つを変換して、姿勢比較データを生成し、
前記姿勢比較データを処理して、一貫性条件が満たされているかどうかを決定し、
前記一貫性条件が満たされていると決定される場合、前記決定された第一姿勢及び前記決定された第二姿勢に従って変換される前記ターゲットオブジェクトの所定のオブジェクトモデルを生成する、
ように配置される、請求項13から22のいずれか1項に記載のシステム。
【請求項24】
コンピューティングシステムによって実行されると、前記コンピューティングシステムに請求項1から12のいずれか1項に記載の前記方法を実行させる機械可読命令を含むコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像データ及び関連デプス情報を処理して、3次元シーン内のオブジェクトの姿勢を決定することに関する。
【背景技術】
【0002】
ロボットを使用して環境内の物理的オブジェクトを操作する、またはそれらとインタラクトする状況では、所与の座標系に対する物理的オブジェクトの位置及び向きを正確に決定することがロボットにとって重要である。このタスクは姿勢予測と呼ばれる。姿勢予測は、自動運転車両の自動運転システム(ADS)、または先進運転支援システム(ADAS)など、他の多くの分野に関連している。これらの分野では、車両または歩行者などのエンティティの既知の姿勢は、そのエンティティがどのように行動するかを予測するのに有用である。
【0003】
姿勢予測方法の最も初期の例のいくつかはテンプレートベースの方法である。これらの方法では、オブジェクトのテンプレートは、画像がオフライントレーニング段階中にさまざまな視点から撮られた後、テスト時にオブジェクトを含む画像全体がスキャンされることで、所定の距離メトリックに従ってベストマッチが見いだされることから得られる。さらなる例は、スパース特徴に基づいた方法を含む。これらの方法では、スケール不変の関心点は、トレーニング時に1つのオブジェクトの複数の画像から抽出され、SIFTまたはSURFなどの局所記述子に関連付けられる。局所記述子は、RANSACなどの方法を使用して、テスト時にオブジェクトを含む画像とマッチングされる。
【0004】
例えばステレオカメラ、赤外線カメラ、音響航法測距(ソナー)、ならびに光検知及び測距(LIDAR)システムなどを含む、センサ技術での最近の進歩により、高精度のデプス情報を従来の2次元画像と共にキャプチャすることが可能になった結果、例えばRGB-D画像フォーマットになる。このデプス情報が特定の姿勢予測方法で利用されると、精度が向上する。これらの例は、オブジェクトの3次元点群がテスト時に構成されてから、反復最近傍点(ICP:Iterative Closest Point)などのアルゴリズムを使用してオブジェクトの格納されたモデルにマッチングされるデンス方法を含む。さらなる例は、ハイブリッド方法を含み、これらのハイブリッド方法は、ニューラルネットワークを使用して点群情報と、畳み込みニューラルネットワーク(CNN)を使用してRGB画像データとを同時に処理してから、ネットワークの出力を融合して、姿勢推定に使用されることができるピクセルごとのデンス特徴埋め込みを導出する。
【0005】
環境内の複数のオブジェクトが互いに接触している場合、または一部のオブジェクトが部分的にオクルージョンされる場合、上記の方法のいずれかを使用する姿勢予測の精度は通常低下する。ロボティクスアプリケーションの場合、この精度の低下は、特にクラッタ環境またはその他の密に投入された環境で、ロボットのパフォーマンスを損なう可能性がある。
【発明の概要】
【課題を解決するための手段】
【0006】
第一態様によれば、3次元シーンにおけるターゲットオブジェクトの姿勢を推定するコンピュータ実装方法が提供される。方法は、3次元シーンのビューを表す画像データ及び関連デプス情報を取得することと、画像データ及び関連デプス情報を処理して、ターゲットオブジェクトを含む、3次元シーン内の複数のオブジェクトのそれぞれについてのボリュメトリック再構成を生成することと、ターゲットオブジェクトを含むボリュメトリックグリッドを決定することと、生成されたボリュメトリック再構成を使用して、自由空間によって占有されるボリュメトリックグリッドの部分、及びターゲットオブジェクト以外のオブジェクトによって占有されるボリュメトリックグリッドの部分を示す占有データを生成することと、ターゲットオブジェクトのサーフェス上の複数の点について、生成された占有データ及びポイントワイズ特徴データを使用して、ターゲットオブジェクトの姿勢を推定することとを含む。
【0007】
ターゲットオブジェクトのサーフェス上の点についてのポイントワイズ特徴データを、自由空間及び他のオブジェクトが占有する周辺領域を示す占有データと組み合わせて使用することにより、推定された姿勢は、ターゲットオブジェクト自体に関する詳細な視覚情報に依存するようになり、そのうえ、ターゲットオブジェクトの周辺に関する情報を考慮するようになる。その結果、特にクラッタシーンまたは密に投入されたシーンでは、既存の方法と比較して姿勢予測の精度が向上する。
【0008】
これらの例では、方法は、2次元特徴抽出器を使用して取得された画像データ及び関連デプス情報を処理して、ターゲットオブジェクトのサーフェス上の複数の点についてポイントワイズ特徴データを生成することを含む。
【0009】
取得された画像データ及び関連デプス情報が2次元特徴抽出器を使用して処理されるいくつかの例では、方法は、画像セグメンテーションを使用して取得された画像データを処理して、ターゲットオブジェクトの2次元マスクを決定することと、2次元特徴抽出器を使用して、ターゲットオブジェクトの2次元マスクに対応する画像データの一部を処理することとを含む。
【0010】
マスクされた画像データの使用は、ポイントワイズ特徴データが、ターゲットオブジェクトの周辺にいかなる依存もすることなく、ターゲットオブジェクト自体にのみ依存することを意味する。このようにして、推定された姿勢の周辺への依存は、ターゲットオブジェクトを囲むボリュメトリックグリッドの占有データにのみ依存するようになる。このようにして、姿勢予測タスクに関係のない情報を含む追加の画像データを処理する必要がなく、周辺からの情報が効率的な方法で考慮される。
【0011】
これらの例では、生成された占有データ及びポイントワイズ特徴データを使用してターゲットオブジェクトの姿勢を推定することは、ポイントワイズ特徴データをボクセル化して第一ボリュメトリック特徴データを取得することと、3次元特徴抽出器を使用して占有データ及び第一ボリュメトリック特徴データを合わせて処理し、第二ボリュメトリック特徴データを生成することと、第二ボリュメトリック特徴データを使用してターゲットオブジェクトの姿勢を推定することとを含む。
【0012】
2次元特徴抽出を実行し、得られたポイントワイズ特徴データをボクセル化することにより、画像データのすべての関連ピクセルは、第一ボリュメトリック特徴データに寄与する。占有データと共に画像データを処理する代わりに、占有データと共に第一ボリュメトリック特徴データを処理した結果、3次元特徴抽出を実行する計算コストが法外になることなく、情報のリッチな画像データが有効に使用される。
【0013】
これらの例では、3次元特徴抽出は、3次元CNNを使用して実行され、第二ボリュメトリック特徴データは、3次元CNNのそれぞれの異なる層に生成されるボリュメトリック特徴の階層を含む。3次元CNNが適切にトレーニングされると、さまざまな段階で生成される階層特徴は、ターゲットオブジェクトの推定された姿勢に関連するさまざまな潜在情報をキャプチャし、例えば、より前の段階では低レベルの特徴をキャプチャし、より後の段階では高レベルの特徴をキャプチャする。
【0014】
第二ボリュメトリック特徴データが生成されるいくつかの例では、ポイントワイズ特徴データは第一ポイントワイズ特徴データであり、第二ボリュメトリック特徴データを使用してターゲットオブジェクトの姿勢を推定することは、第二ボリュメトリック特徴データから、ターゲットオブジェクトのサーフェス上の複数の点についての第二ポイントワイズ特徴データを抽出することと、第二ポイントワイズ特徴データを使用して、ターゲットオブジェクトのサーフェス上の複数の点のそれぞれについて候補姿勢及び対応する信頼度スコアを決定することと、対応する信頼度スコアに基づいて、決定された候補姿勢からターゲットオブジェクトの姿勢を推定することと、を含む。
【0015】
これらの例では、候補姿勢からターゲットオブジェクトの姿勢を推定することは、最高の対応する信頼度スコアを有する候補姿勢を決定することを含む。
【0016】
これらの例では、ターゲットオブジェクトのサーフェス上の複数の点のそれぞれについて候補姿勢及び対応する信頼度スコアを決定することは、回帰モデルを使用して、第一ポイントワイズ特徴データ及び第二ポイントワイズ特徴データを合わせて処理することを含む。
【0017】
これらの例では、複数のオブジェクトのうちの第一オブジェクトについてのボリュメトリック再構成を生成することは、画像セグメンテーションを使用して画像データを処理し、第一オブジェクトの2次元マスクを決定することと、2次元マスクに対応する関連デプス情報の一部を処理し、第一オブジェクトのボリュメトリック再構成を生成することとを含む。
【0018】
これらの例では、方法は、上述の方法のいずれかを使用して、3次元シーン内の複数のターゲットオブジェクトの所与のターゲットオブジェクトごとの姿勢を推定することを含む。
【0019】
複数のターゲットオブジェクトについて姿勢が推定されるいくつかの例では、複数のターゲットオブジェクトのうちの所与のターゲットオブジェクトごとに生成される占有データは第一占有データであり、方法は、複数のターゲットオブジェクトのうちの所与のターゲットオブジェクトごとに、所与のターゲットオブジェクトの推定された姿勢に従って変換される所与のターゲットオブジェクトの所定のモデルから複数の点をサンプリングすることと、所与のターゲットオブジェクトを含むボリュメトリックグリッドに対して、所与のターゲットオブジェクトの所定のモデルからサンプリングされる点の位置に依存するそれぞれの第二占有データを決定することと、所与のターゲットオブジェクトを含むボリュメトリックグリッドに対して、複数のターゲットオブジェクトのその他のターゲットオブジェクトの所定のモデルからサンプリングされる点の位置に依存するそれぞれの第三占有データを決定することとを含む。さらに方法は、反復して、複数のターゲットオブジェクトのそれぞれについて、それぞれの第二占有データ及びそれぞれの第三占有データに依存して占有ペナルティを決定することと、決定された占有ペナルティを使用して、複数のターゲットオブジェクトの推定された姿勢を反復して修正することとを含む。
【0020】
ターゲットオブジェクトの所定のモデルからサンプリングされる点の位置に依存する第二及び第三占有データを使用して占有ペナルティを定義することにより、ターゲットオブジェクトの推定された姿勢をインクリメンタルに更新して、2つ以上のターゲットオブジェクトが互いに交差する物理的に非現実的な予測を避けることができる。
【0021】
これらの例では、3次元シーンのビューは3次元シーンの第一ビューであり、そのターゲットオブジェクトまたは各ターゲットオブジェクトの推定された姿勢は、所与のオブジェクトの第一姿勢であり、方法は、3次元シーンの第一ビューとは異なる3次元シーンの第二ビューを表す、さらなる画像データ及びさらなる関連デプス情報を取得することを含む。この方法は、そのターゲットオブジェクトまたは各ターゲットオブジェクトに対して、さらなる画像データ及びさらなる関連デプス情報を処理して、ターゲットオブジェクトの第二姿勢を推定することと、ターゲットオブジェクトの第一姿勢及び第二姿勢のうちの少なくとも1つを変換して、姿勢比較データを決定することと、姿勢比較データを処理して、一貫性条件が満たされているかどうかを決定することと、一貫性条件が満たされていると決定される場合、ターゲットオブジェクトの第一姿勢及び第二姿勢と一貫して変換されるターゲットオブジェクトの所定のオブジェクトモデルを生成することとを含む。
【0022】
シーンのさまざまなビューをキャプチャし、さまざまなビューから得られる姿勢予測を比較することで、例えばオクルージョンから得られる、誤った姿勢予測を識別して破棄することができる。異なるビューからの複数の姿勢推定が一貫性条件を満たすことがわかると、オブジェクトモデルがスポーンされる。このオブジェクトモデルは、シーンとインタラクトするロボットなどによって使用されることができる、または人間のユーザに表示されることができる。さらに、複数のビューをキャプチャすることにより、さまざまなビューからの情報を使用して、シーンのボリュメトリックマップを反復して構築することができると、キャプチャされるビューが多くなるにつれて、「未知の」状態でボリュメトリックマップに含まれるボクセルがますます少なくなることができる。その結果、姿勢予測(複数のビューからの情報を使用し得る)が後になるほど、初期姿勢予測(単一ビューからの情報のみを使用する)よりも精度が高くなり得る。
【0023】
第二態様によれば、画像データ及び関連デプス情報をキャプチャするように動作可能な1つ以上のセンサを含む画像処理システムが提供される。システムは、1つ以上のセンサを使用して3次元シーンのビューを表す画像データ及び関連デプス情報をキャプチャし、画像データ及び関連デプス情報を処理してターゲットオブジェクトを含む3次元シーン内の複数のオブジェクトのそれぞれについてのボリュメトリック再構成を生成し、ターゲットオブジェクトを含むボリュメトリックグリッドを決定し、生成されたボリュメトリック再構成を使用して自由空間によって占有されるボリュメトリックグリッドの部分、及びターゲットオブジェクト以外のオブジェクトによって占有されるボリュメトリックグリッドの部分を示す占有データを生成し、ターゲットオブジェクトのサーフェス上の複数の点について生成された占有データ及びポイントワイズ特徴データを使用して、ターゲットオブジェクトの姿勢を推定するように配置される。
【0024】
これらの例では、システムは、ターゲットオブジェクトの推定された姿勢に応じてターゲットオブジェクトを係合するための係合手段を含む。係合手段は、ターゲットオブジェクトを掴む、押す、またはその他の方法で物理的に接触するための1つ以上のロボットハンドまたは他のコンポーネントを含むことができる。上記のように推定される姿勢に応じてターゲットオブジェクトを係合することにより、システムは、姿勢推定方法によって導入されるラグを最少にする正確な方法で、複雑なタスクまたは繊細なタスクを実行することができる。さらなる例では、システムは、ターゲットオブジェクトに直接接触することなく、ターゲットオブジェクトとインタラクトすることができる。
【0025】
第三態様によれば、コンピューティングシステムによって実行されると、コンピューティングシステムに上記の方法のいずれかを実行させる機械可読命令を含むコンピュータプログラム製品が提供される。
【0026】
本発明のさらなる特徴及び利点は、添付の図面を参照して作成された、例としてのみ与えられた、本発明の好ましい実施形態の以下の説明から明らかになるであろう。
【図面の簡単な説明】
【0027】
【
図1】例による方法を実行するように配置されるシステムを示す概略ブロック図である。
【
図2】例によるターゲットオブジェクトの姿勢を推定する方法を表すフロー図である。
【
図3】3つの既知のオブジェクトを含む3次元シーンの一例を示す。
【
図4】例によるシーンのボリュメトリックマップを生成するためのデータ処理ルーチンを概略的に示す。
【
図5】
図3の3次元シーンでの既知のオブジェクトの1つを含むボクセルグリッドの一例を示す。
【
図6A】例によるターゲットオブジェクトの姿勢を推定するためのデータ処理ルーチンを概略的に示す。
【
図6B】例によるターゲットオブジェクトの姿勢を推定するためのデータ処理ルーチンを概略的に示す。
【
図7】一例による、複数のオブジェクトの姿勢推定を洗練する方法を表すフロー図である。
【
図8】
図3の3次元シーン内の既知のオブジェクトについての姿勢推定の洗練の一例を示す。
【発明を実施するための形態】
【0028】
図1は、本開示による方法を実行するように配置されるシステム100の一例を示す。システム100は、メモリ102及び処理回路104を含み、メモリ102は、本明細書に記載の方法を実行するためのデータ及びルーチンを格納するように配置される。処理回路104は、メモリ回路102に格納されるルーチンを実行するように構成される。さらに処理回路104は、画像データ及び関連デプス情報をキャプチャするためのセンサ106と、センサ106を動作させるように配置される1つ以上のアクチュエータ108とを制御するように配置される。
【0029】
この例におけるメモリ102は、機械可読命令の形式で、さまざまな他のルーチン(図示せず)と共に、マスタールーチン、姿勢推定ルーチン、及び姿勢洗練ルーチンを保持する。特定のコンフィグレーションでは、本明細書の以降でより詳細に説明されるように、マスタールーチンの実行により、姿勢推定ルーチンが実行された後、姿勢洗練ルーチンが実行される。メモリ102は、姿勢推定ルーチンの実行中に使用されるさまざまなトレーニング可能なモデルのトレーニング可能なモデルパラメータをさらに含む。
【0030】
メモリ102は、センサ106によってキャプチャされる画像データ及び関連デプス情報を保持するように配置される。この例では、メモリ102は、画像データ及び関連デプス情報を赤緑青-デプス(RGB-D)フォーマットで格納するように配置されるが、システム100は、例えばシアン、マゼンタ、イエロー、キー(CMYK)またはYUVカラーフォーマットに基づいて、他の適切なフォーマットで使用されるように構成されることができる。
【0031】
メモリ102は、さまざまな既知のオブジェクトの3次元モデルのデータベースを保持する。この例では、既知のオブジェクトは剛性オブジェクトとして扱われ、既知のオブジェクトごとに格納される3次元モデルは、メッシュ表現として格納されるコンピュータ支援設計(CAD)モデルである。本発明の例では、CADモデルから各オブジェクトのボリュメトリックソリッド表現が生成され、CADモデルと共に格納される。各オブジェクトのソリッド表現は、メッシュモデルに含まれるサーフェス構造に加えて、オブジェクトの内部構造を含む。内部構造が複雑なオブジェクトの場合、格納されたソリッド表現の内部構造が、オブジェクトの実際の内部構造に必ずしも対応せず、例えば単純化される場合があることに留意する。既知のオブジェクトごとのソリッドモデルを格納することで、サーフェスだけでなく、オブジェクトのボリューム全体から点をサンプリングすることができることにより、本開示の態様による姿勢洗練方法を特に有効に実装することができる。それにもかかわらず、本明細書に記載の方法は、本発明の範囲から逸脱することなく、メッシュモデルのみを使用して実装されるように適合されることができる。
【0032】
本発明の例におけるセンサ106は、シーンの2次元画像をキャプチャするためのカメラと、シーン内のオブジェクトまでの距離(換言すれば、関連デプス情報)を決定するための赤外線センサとを含む。
【0033】
図2は、3次元シーン内のターゲットオブジェクトの姿勢を推定するためにシステム100によって実行されるコンピュータ実装方法200の一例を示す。202では、システム100は、関連デプス情報を有する画像を取得する。画像は3次元シーンのビューを表し、関連デプス情報はシーン内のさまざまなオブジェクトまでの距離を指定する。この例では、画像及び関連デプス情報は、センサ106を使用してキャプチャされる。
【0034】
3次元シーンは、複数の3次元オブジェクトを含み、そのうちの少なくとも1つは、システム100が認識するようにトレーニングされた既知のオブジェクトである。この例では、その既知のオブジェクトまたはそれぞれの既知のオブジェクトは、メモリ102内のオブジェクトモデルデータベースに格納されるオブジェクトモデルに対応する。またシーンは、システム100が認識するようにトレーニングされておらず、メモリ102に格納される対応するオブジェクトモデルを有していない未知のオブジェクトを含み得る。未知のオブジェクトの典型的な例は、システム100が実行するために使用されている特定のタスクに関連しないオブジェクトと共に、既知のオブジェクトが位置決めされるサーフェスを含む。
【0035】
図3は、3次元シーン300のビューを示す。シーン300は、直方体の箱302、円筒形の缶304、及び不等辺三角形断面を有するプリズム306という3つの既知のオブジェクトを含む。各既知のオブジェクトは、3次元形状と、色及びテクスチャ(図示せず)を含み、場合によっては、箱302上の矢印310及び缶304上の記号312などのさらなるサーフェスデコレーションを含む、サーフェス詳細とを有する。またシーン300は、既知のオブジェクトが位置決めされる水平方向サーフェス308を含む。水平方向サーフェス308は未知のオブジェクトの一例である。
【0036】
シーン300内の各既知のオブジェクトの実際の姿勢(位置及び向き)は、
図3では、それぞれの3次元軸集合によって表される。姿勢は6次元量であり、3つの次元は所与の座標系に関してオブジェクトに対して固定される所定の点の位置を定義し、その他の3つの次元は所与の座標系に対する向きを定義する。本発明の例では、位置はデカルト座標を使用して定義され、向きは外因性オイラー角を使用して定義される。当業者は、例えば、位置には円筒極座標または球面極座標を使用して、及び/または向きには内因性オイラー角を使用して、他の定義が可能であることを理解するであろう。本明細書の以降により詳細に説明されるように、方法200を使用して、シーン300内の既知のオブジェクトのいずれかの姿勢を推定することができる。
【0037】
図3の例では、既知のオブジェクトがいずれの平面内でも反射対称性を示さないため、各既知のオブジェクトの姿勢は、所与の座標系に関して一意に定義されることができる(オブジェクトの対称性により、以降本明細書に説明される特定の実施形態で扱われる問題である、姿勢の定義における曖昧性が導入されることに留意されたい)。本発明の例では、缶304及びプリズム306は直立向きにあり、それぞれが垂直方向の上向きを指す1軸及び水平面にある2軸を有する。箱302は缶304にもたれているので、直立向きにない。
【0038】
図2に戻ると、204では、システム100は、画像及び関連デプス情報を処理して、ボリュメトリックマップを生成する。生成されたボリュメトリックマップは、3次元シーン内のオブジェクトのボリュメトリック再構成から形成される。所与のオブジェクトのボリュメトリック再構成は、画像内のオブジェクトの可視部分に対応するボリュメトリックマップのボクセルを含む。シーンの単一ビューから、各オブジェクトの特定の部分のみが可視であるため、これらの部分に対応するボクセルのみがオブジェクトのボリュメトリック再構成内に含まれる。
【0039】
図4は、3次元シーンのビューを表す画像402及び関連デプス情報404を処理して、シーンのボリュメトリックマップを生成する方法400の一例を示す。406では、画像セグメンテーションを使用して画像402を処理し、シーン内の既知のオブジェクトのそれぞれについてオブジェクトマスク408を生成する。所与のオブジェクトのオブジェクトマスク408は、オブジェクトの一部が可視である画像402のピクセル部分集合を指定する。画像セグメンテーション中、画像は、画像内の未知のオブジェクトを表すさらなる領域に加えて、画像内の既知のオブジェクトのそれぞれの異なるオブジェクトマスクに対応する領域にパーティション化される。本発明の例では、Kaiming HeらによるMask R-CNNという論文、arXiv:1703.06870で説明されているように、深層CNNアーキテクチャを使用して画像セグメンテーションが実行される。画像セグメンテーションの他の方法が知られており、本開示と互換性がある。
【0040】
410では、ボリュメトリック融合を使用してデプス情報404及びオブジェクトマスク408を合わせて処理し、ボリュメトリックマップ412を生成する。ボリュメトリックマップ412は、シーン内の各既知のオブジェクトのボリュメトリック再構成414を含み、シーン内の未知のオブジェクトのボリュメトリック再構成416をさらに含むことができる。デプス情報404は通常、画像402よりも低解像度のものであり、ボリュメトリックマップ412もまた通常、画像402よりも低解像度のものである。
【0041】
図2に戻ると、206では、システム100は、ボリュメトリックグリッドを決定し、このボリュメトリックグリッドは、ボリュメトリックマップのボクセル部分集合から形成され、姿勢が推定される必要があるターゲットオブジェクトを含む。
図5は、ボリュメトリックグリッド502が3次元シーン300内に円筒形の缶304を含む一例を示す。この例では、ボリュメトリックグリッド502は、缶304を越えてあらゆる方向に延在する直方体である。ボリュメトリックグリッドの寸法は、通常、ターゲットオブジェクトの寸法に依存する。例えば、プリズム306を含むボリュメトリックグリッドは、缶304を含むボリュメトリックグリッド502と比較して低い高さを有する。ただし、後続のさまざまな処理ステップを単純化するために、ターゲットのボクセルグリッド内のボクセルの数は、固定されており、ターゲットオブジェクトの寸法(例えば、32x32x32ボクセル)から独立しており、ボクセル自体の寸法は、ボクセルグリッドのさまざまなサイズ及び形状を達成するように変わる。これを行うために、ボリュメトリックマップの1ボクセルをより小さい2ボクセル以上に分割することができる、またはボリュメトリックマップの2ボクセル以上を組み合わせてより大きい単一ボクセルを形成することができる。
【0042】
208では、システム100は、自由空間によって、またはターゲットオブジェクト以外のオブジェクトによって占有されるボリュメトリックグリッドの部分を示す占有データを生成する。ボリュメトリックグリッドの各ボクセルは、ボクセルの占有率に応じて、
1.ターゲットオブジェクト(例えば、缶304)のボリュメトリック再構成によって占有される状態、
2.既知のオブジェクト(例えば、箱302及びプリズム306)及び未知のオブジェクト(例えば、サーフェス308)を含む、他のオブジェクトのうちの1つのボリュメトリック再構成によって占有される状態、
3.デプス測定によって識別されるように、自由空間によって占有される状態、または
4.オクルージョン及び/またはセンサ測距限界のために未知の状態、
という4つの状態のいずれか1つになることができる。
【0043】
状態2及び3でのボクセルは、これらのボクセルがターゲットオブジェクトのいずれの部分によっても占有されることができない貫入不能な領域を定義することから、ターゲットオブジェクトの姿勢を推定するために特に関心の対象である。したがって、自由空間によって、またはターゲットオブジェクト以外のオブジェクトによって占有されているボリュメトリックグリッドの部分を示すことによって、占有データは、ターゲットオブジェクトの姿勢を推定するのに適した情報を含む。
【0044】
210では、システム100は、208で生成された占有データと、ターゲットオブジェクトの可視部分上の点に関するポイントワイズ特徴データとを使用して、ターゲットオブジェクトの姿勢を推定する。ポイントワイズ特徴データは、画像のピクセルから導出され、形状、サーフェス詳細、及びターゲットオブジェクトを含む画像の部分内に含まれるいずれかの他の情報を含む、ターゲットオブジェクトのすべての視覚的側面に依存することができる。
【0045】
ターゲットオブジェクトのポイントワイズ特徴データを、ターゲットオブジェクトを含むボクセルグリッドの占有データと組み合わせることにより、推定された姿勢は、ターゲットオブジェクト自体に関する詳細な視覚情報に依存するようになることができ、そのうえターゲットオブジェクトの周辺に関する情報を考慮するようになることができる。この結果、既知の姿勢推定方法と比較して、姿勢推定の精度が向上する。
【0046】
図6A及び6Bは、占有データ及びポイントワイズ特徴データを使用してターゲットオブジェクトの姿勢を推定するための方法600の一例を示す。マスクされた画像データ602を、604では2次元特徴抽出を使用して処理し、2次元特徴データ606を生成する。マスクされた画像データ602は、ターゲットオブジェクトのオブジェクトマスク内に含まれる画像402のピクセル部分集合を含む。この例では、2次元特徴抽出はCNNを使用して実行される。マスクされた画像データ602がCNNに入力として使用されるためには、マスクされた画像データは固定されたサイズ及び形状を有する必要がある。これが達成されるためには、オブジェクトマスクの外側のピクセルのピクセル値は一定値(例えば、ゼロ)に設定される。マスクされた画像データの使用は、2次元特徴データ606がターゲットオブジェクトの周辺にいかなる依存もすることなく、ターゲットオブジェクト自体にのみ依存することを意味する。このようにして、推定された姿勢の周辺への依存は、以降本明細書にさらに詳細に説明されるように、ターゲットオブジェクトを囲むボリュメトリックグリッドの占有データにのみ依存するようになる。
【0047】
2次元特徴データ606は、マスクされたデプス情報608と共に、610でポイントワイズ符号化を使用して処理されることで、ポイントワイズ特徴データ612が生成される。ポイントワイズ特徴データ612は、マスクされたデプス情報608から導出される3次元点集合のそれぞれについて複数の特徴チャネルを含む。これらの点は、画像内で可視であるオブジェクトの部分を表す点群を形成する。本発明の例では、2次元特徴データ606及びマスクされたデプス情報608がそれぞれの全結合ニューラルネットワーク層を使用して別々に処理された結果、得られたポイントワイズ特徴が連結されることで、ポイントワイズ特徴データ612が生成される。
【0048】
ポイントワイズ特徴データ612がボクセル化を使用して614で処理されることで、特徴グリッド616が生成される。ボクセル化(ボクセレーションとしても知られている)は、ポイントワイズ特徴データ612で指定された点を、ターゲットオブジェクトを含むボクセルグリッド(例えば、
図5のボクセルグリッド502)のボクセルと関連付ける。通常、ボクセルグリッドは、画像及び関連デプスデータと比較して、相対的に低い解像度(例えば、32x32x32ボクセル)を有する。したがって、所与のボクセルの特徴データは、ポイントワイズ特徴データ612の複数の点から、この例では平均化によって導出されるが、他の例では、所与のボクセルの特徴データは、他の方法を使用して、例えば最大値を取ることによって導出される。特徴グリッドの各ボクセルは、ボクセルグリッド内でその位置を指定する関連ボリュメトリックインデックスを有し、これらのインデックス618は後続の処理のために格納される。
【0049】
特徴グリッド616は、他のオブジェクトまたは自由空間によって占有されているため、ターゲットオブジェクトによって占有されることができないボクセルグリッドの領域を示す占有データ620と連結される。占有データ620は、ターゲットオブジェクトを含むボクセルグリッドの各ボクセルに2進数を関連付ける。この2進数は、そのボクセルがターゲットオブジェクトに貫入不能であるかどうか(すなわち、ボクセルが上記で言及される状態2か状態3かいずれかにあるかどうか)を示す。したがって、連結された特徴グリッド616及び占有データ620は、ボクセルグリッドのボクセルごとに、占有データ620からのバイナリチャネル、及び特徴グリッド616からの複数のチャネルを含む。したがって、連結された特徴グリッド616及び占有データ620は、マスクされた画像データ602及びマスクされた点群610から導出される情報を含み、さらにターゲットオブジェクトを囲むオブジェクト及び空間に依存する情報を含む。
【0050】
連結された特徴グリッド616及び占有グリッド620が622では3次元特徴抽出を使用して処理されることで、3次元特徴データ624が生成される。この例では、3次元特徴抽出は、いくつかの畳み込み層をそれぞれ含む複数の段階を有する3次元CNNを使用して実行される。3次元CNNの各段階はボリュメトリック特徴マップを生成し、各段階の後、プーリングまたは圧縮操作が実行されると、3次元CNNのその次の段階で処理される前にボリュメトリック特徴マップの次元が低下する。その結果、3次元CNNは、順次低下する解像度でボリュメトリック特徴マップの階層を生成する。3次元CNNが適切にトレーニングされると(本明細書の以降に説明されるように)、さまざまな段階で生成される階層特徴は、ターゲットオブジェクトの推定された姿勢に関連するさまざまな潜在情報をキャプチャする。3次元特徴データ624は、3次元CNNの異なる段階で生成されるボリュメトリック特徴マップを含む。本発明の例では、連結された特徴グリッド及び占有グリッドは32x32x32ボクセルを含み、3次元CNNは3つの段階を含み、階層ボリュメトリック特徴マップは32x32x32、16x16x16、及び8x8x8ボクセルの特徴をそれぞれ含む。
【0051】
本発明の例では、マスクされた画像データ602からの2次元特徴抽出が622での3次元特徴抽出から独立して実行されることに留意する。最初に2次元特徴抽出を実行することにより、マスクされた画像データ602のすべてのピクセルがポイントワイズ特徴データ612に寄与した結果、計算コストが法外になることなく、情報のリッチなマスクされた画像データが有効に使用される。他の例では、画像データは、3次元特徴抽出器を使用して、占有データと共に直接処理される。ただし、このアプローチでは通常、必要な計算リソース(処理能力及びメモリ)を合理的なレベルに保つために、画像データの解像度を低下させる必要がある。したがって、画像データ内に含まれる情報は失われる。
【0052】
626では点抽出が実行され、614でのボクセル化中に格納されるインデックス618に対応する点について、ポイントワイズ特徴データ628を3次元特徴データ624から抽出する。インデックス618のうちの1つに対応する点ごとに、3次元特徴データ624内の対応する特徴が抽出され、格納される。したがって、ポイントワイズ特徴データ628は、マスクされた画像データ602及びマスクされたデプス情報608から導出されるポイントワイズ特徴データ612と同じ点集合についての特徴を含む。ポイントワイズ特徴データ612及びポイントワイズ特徴データ628は、ポイントワイズ姿勢推定のために連結される。
【0053】
ポイントワイズ特徴データ612がターゲットオブジェクトの視覚的外観及びデプスプロファイルに強く依存することに留意する。ポイントワイズ特徴データ628もまた、ターゲットオブジェクトの外観及びデプスプロファイルにある程度依存するが、周辺の空間及びオブジェクトにさらに依存する。発明者は、周辺の占有データと組み合わせて、ターゲットオブジェクトの視覚的外観及びデプスプロファイルに強く依存するポイントワイズ特徴データ612を使用した結果、既知の方法よりも姿勢検出の精度が著しく向上することを見いだした。
【0054】
630では、連結されたポイントワイズ特徴データ612及び628を使用して、ポイントワイズ姿勢推定が実行される。本発明の例では、ポイントワイズ姿勢推定は、ポイントワイズ特徴データ612及び628内の点のそれぞれについて、候補姿勢632及び候補信頼度スコア634を決定する。各候補姿勢632は6次元ベクトルであり、候補信頼度スコア634は、対応する候補姿勢が正しいという確実性を示す数値である。この例では、全結合ニューラルネットワークを使用してポイントワイズ姿勢推定が実行される。
【0055】
636では、推定された姿勢638は、信頼度スコア634に基づいて候補姿勢632のうちの最良のものとして決定される。換言すれば、推定された姿勢638は、最高の信頼度スコア634を有する候補姿勢632として決定される。
【0056】
上記の例では、ポイントワイズ姿勢推定を使用して、点集合のそれぞれについてそれぞれの候補姿勢を決定するが、他の例では、ポイントワイズ特徴データを処理して、単一の大域姿勢推定を生成し、この場合、信頼度スコアを決定する必要がない。
【0057】
図6A及び6Bの方法600は、一連のトレーニング可能なモデルコンポーネント、すなわち、604で使用される2次元特徴抽出器、610で使用されるポイントワイズエンコーダ、622で使用される3次元特徴抽出器、及び630で使用されるポイントワイズ姿勢推定器を利用する。本発明の例では、これらのコンポーネントのそれぞれは、それぞれのトレーニング可能なパラメータセットを有するニューラルネットワークモデルである。方法600が実行される前に、これらのモデルは、既知のグラウンドトゥルース姿勢を有する既知のオブジェクトのラベル付きデータセットを用いた教師あり学習を使用してトレーニングされる。本発明の例では、姿勢推定方法600で使用されるトレーニング可能なモデルは、マスクされた画像データ602を生成するために使用される画像セグメンテーションモデルから独立してトレーニングされる。これを考慮して、姿勢予測モデルをトレーニングする目的で、既知のオブジェクトのボリュメトリックモデル(この例では、既知のオブジェクトのCADモデル)を位置決めして向けることによって、ラベル付きトレーニングデータが生成されると、例えば衝突検出を備えた物理モデルを使用して、人工シーンが生成される。このようにして、モデルのトレーニングのために物理的なオブジェクトを所定の位置に移動させるタスク、及びオブジェクトのグラウンドトゥルース姿勢を手動で決定するタスクに時間をかけることなく、完全にセグメント化されたオブジェクト及び既知のグラウンドトゥルース姿勢を用いて、多数の人工シーンが生成されることができる。さらに、本発明のアプローチがボリュメトリックモデルを使用することにより、センサ106及びアクチュエータ108を含むシステム100の特定の高価な物理コンポーネントから分離して、姿勢推定モデルを迅速にトレーニングすることが可能になる。姿勢推定モデルをトレーニングするために、ターゲットオブジェクトのボリュメトリックモデルから点集合Xがサンプリングされる(例えば、均一に)。シーン内のターゲットオブジェクトのグラウンドトゥルース姿勢によって変換されるときのXでの点の位置は、各ポイントワイズ候補姿勢推定を使用して変換されるときのXでの点の位置と比較される。
【0058】
姿勢推定方法600で使用されるモデルは、単一の姿勢推定損失Lを使用してトレーニングされる。トレーニング反復集合のそれぞれでは、バックプロパゲーションを使用して姿勢予測モデルのトレーニング可能なパラメータθに関して姿勢予測損失の勾配∇θLが決定され、勾配降下またはそのバリアントを使用して、トレーニング可能なパラメータθの値が更新されると、姿勢推定損失Lの値が減少する。この更新は、所定の収束基準が満たされること、または所定の数のトレーニング反復が実行されることに対応し得る、所定の打ち切り条件が満たされるまで反復して実行される。
【0059】
本発明の例では、姿勢推定損失Lは以下の式(1)で与えられる。
【数1】
式中、
・Nは候補姿勢が推定される点の数である。
・c
iはi
th点の候補姿勢に関連する信頼度スコアである。
・λは正則化項log(c
i)のスケーリング係数である。そして、
・L
iはi
th点について決定された候補姿勢に関連するポイントワイズ姿勢推定損失である。
【0060】
λの適切な値は範囲λ∈[0.01,0.1]、特に範囲λ∈[0.01,0.02](例えば、λ=0.015)にあることがわかった。スケーリング係数は、所与のトレーニングインスタンスに対して手動で調整されることができ、またはトレーニング中に学習されるパラメータとして含まれることができる。この例でのポイントワイズ姿勢推定損失は、以下の式(2)で与えられる。
【数2】
式中、
・[R|t]∈SE(3)は、3x3回転行列R∈SO(3)と、平行移動ベクトル
【数3】
からなる、ターゲットオブジェクトのグラウンドトゥルース姿勢である。
・
【数4】
はi
th点の候補姿勢推定を示す。そして、
・p
qはターゲットオブジェクトのボリュメトリックモデルからサンプリングされた点集合X のq
th点の位置である。
【0061】
式(2)のポイントワイズ姿勢推定損失は、いずれの平面でも反射対称性を示さないオブジェクトに適している。対称オブジェクトの場合、グラウンドトゥルース姿勢によって変換されたどの点が、所与の候補姿勢推定によって変換された点と比較される必要があるかについて、曖昧性が生じる。それらのようなオブジェクトの場合、修正されたポイントワイズ姿勢推定損失が使用される。これは以下の式(3)で与えられる。
【数5】
この結果、効率的に、候補姿勢推定値がグラウンドトゥルース姿勢によって変換される所与の点と比較されることによって、変換後に最近接点になる。特異的なコンフィグレーションでは、式(2)の修正されていないポイントワイズトレーニング損失を使用して第一トレーニング段階が実行されてから、式(3)の修正されたポイントワイズトレーニング損失を使用して第二トレーニング段階が実行される。これは、発明者によって、対称オブジェクトに対する修正されていないポイントワイズトレーニング損失の使用に起因する誤った姿勢推定を回避しながら、時として修正されたポイントワイズ姿勢損失の使用に起因することがある局所的最小値を回避することがわかった。この結果、複雑な形状を有する対称オブジェクトの姿勢推定方法のパフォーマンスが特に向上する。
【0062】
図2の方法200を使用して、所与のオブジェクトごとに推定された姿勢が所与のオブジェクトを囲む空間領域の占有を考慮している状態で、所与のシーン内の複数のオブジェクトの姿勢を推定することができる。いくつかの例では、推定された姿勢は、所与の目的に使用されるのに十分に高い精度である。他の例では、方法200または任意の他の姿勢推定ルーチンを使用して決定される姿勢推定が所与の目的に対して十分に高い精度であることを保証することができない。それらのような場合、ある程度の追加の計算コスト及び時間を費やして、姿勢推定を洗練する方法が必要である。
【0063】
図7は、3次元シーン内の複数の既知のオブジェクトのそれぞれの姿勢を推定するためにシステム100によって実行されるコンピュータ実装方法700の一例を示す。複数の既知のオブジェクトのうちの所与のオブジェクトごとに、システム100は、702では、所与のオブジェクトの少なくとも一部が可視である(所与のオブジェクトが部分的にオクルージョンされている、または画像境界を越えて拡張していることがある)3次元シーンのビューを表す画像データ及び関連デプス情報を取得し、704では、所与のオブジェクトの姿勢を推定する。本発明の例では、画像及び関連デプス情報がセンサ106を使用してキャプチャされ、各オブジェクトの姿勢が
図2の方法200を使用して推定される。代替として、任意の他の適切な姿勢予測方法が使用されることができる。いくつかの例では、シーン内のいくつかのオブジェクトの姿勢は、単一の画像及び関連デプス情報を使用して推定される。他の例では、2つ以上の異なるオブジェクトの姿勢は、3次元シーンの異なるビューを表す異なる画像を使用して推定される。後者の場合、各所与のオブジェクトの推定された姿勢は、共通基準フレームに変換される(例えば、画像及び関連デプス情報をキャプチャするときにセンサ106の位置及び向きを示す情報を使用して)。
【0064】
複数のオブジェクトのそれぞれの姿勢の推定を決定し、必要に応じて推定された姿勢を共通基準フレームに変換した後、システム100は反復的姿勢洗練ルーチンを実行して、本明細書の以降に説明されるように推定された姿勢を同時最適化する。姿勢洗練ルーチンは706で開始し、システム100は、オブジェクトの対応する推定された姿勢に従って変換される、各所与のオブジェクトの格納されたモデルから点集合をサンプリングする。この例では、格納されたモデルはボリュメトリックソリッドモデルであり、システム100はボリュメトリックソリッドモデルのボリューム全体から点集合を均一にサンプリングする。所与のオブジェクトごとにサンプリングされた点集合は、点群を形成する。
【0065】
システム100は、708では、所与のオブジェクトを含むボクセルグリッドに対して、所与のオブジェクトの格納されたモデルからサンプリングされる点の位置に依存して、所与のオブジェクトごとにそれぞれの第一占有データを決定する。システム100が方法200を使用して初期姿勢推定を決定する本発明の例では、システム100は、各所与のオブジェクトを含むボクセルグリッドをすでに決定している。したがって、第一占有データを定義するために同じボクセルグリッドが再利用される。方法200が初期姿勢推定を決定するために使用されない場合などの他の例では、708において、所与のオブジェクトごとに新しいボクセルグリッドが決定される。
【0066】
所与のオブジェクトの第一占有データは、所与のオブジェクトを含むボクセルグリッドに対して、位置が所与のオブジェクトの推定された姿勢に依存している点に依存する。したがって、点の位置は、所与のオブジェクトの姿勢に関して微分可能である。換言すれば、所与のオブジェクトの推定された姿勢における小さい変化は、各サンプリングされた点の位置における予測可能な小さい変化につながる。ただし、第一占有データが滑らかな微分可能な方法では点の位置に依存する場合、したがって、第一占有データは所与のオブジェクトの推定された姿勢に関しても微分可能である。
【0067】
システム100は、710では、所与のオブジェクトを含むボクセルグリッドに対して、複数のオブジェクトのその他のオブジェクトの格納されたモデルからサンプリングされる点の位置に依存して、所与のオブジェクトごとにそれぞれの第二占有データを決定する。所与のオブジェクトの第二占有データは、第一占有データが所与のオブジェクトの推定された姿勢に関して微分可能であるのと同じ方法で、その他のオブジェクトの推定された姿勢に関して微分可能である。
【0068】
システム100は、712では、複数のオブジェクトの推定された姿勢を更新して、複数のオブジェクトのそれぞれについてのそれぞれの第一占有データ及びそれぞれの第二占有データに依存する占有ペナルティを減少させる。占有ペナルティは、微分可能な方法で第一占有データ及び第二占有データに依存するため、今度は、複数のオブジェクトの推定された姿勢に関して微分可能である。これにより、複数のオブジェクトの推定された姿勢に関して占有ペナルティの勾配を決定することができることで、そのバリアントの勾配降下を使用して推定された姿勢をインクリメンタル更新することができる。
【0069】
ステップ706~712は、打ち切り条件が満たされるまで反復して実行される。打ち切り条件は、所定の収束基準が満たされていることを含んでもよく、または所定の数の反復が実行されたことを含んでもよい。
【0070】
特定の例では、第一占有データは、複数のオブジェクトのうちの所与のオブジェクトごとに微分可能な第一占有グリッドを含む。m
thのオブジェクトの微分可能な第一占有グリッド
【数6】
は、m
thのオブジェクトを含むボクセルグリッドのボクセルごとに微分可能な第一占有値からなる。k
thボクセルの微分可能な第一占有値
【数7】
は、k
thボクセルと、所与のオブジェクトのボリュメトリックモデルからサンプリングされる点との間の最小距離に依存する。これは、以下の式(4)で示される。
【数8】
式中、
【数9】
はm
thを含むボクセルグリッドのk
thボクセルと、m
thのオブジェクトのボリュメトリックモデルからサンプリングされたq
th点との間の距離であり、δ
tは所定の距離閾値である。本発明の例では、最小距離
【数10】
への依存は距離閾値で飽和するため、距離閾値よりもボクセルに近接する点がない場合、そのボクセルの占有率は0に設定され、そのボクセルは占有ペナルティに寄与しない。いずれかの点が所定の距離閾値よりもボクセルに近接させられると、微分可能な占有率は、連続して増加し、点がボクセルと一致する場合、最大値1に達する。距離
【数11】
を計算するために、m
thのオブジェクトのモデルからサンプリングされたq
th点の位置
【数12】
は、
【数13】
を使用してボクセルグリッドの座標系に変換される。式中、lはボクセルグリッドの座標系の原点であり、sはボクセルグリッド内の各ボクセルのサイズである。これらの距離は
【数14】
で与えられる。式中、
【数15】
はk
thボクセルに関連する位置(例えば、ボクセルの所定の角部またはボクセルの中心部)であり、
【数16】
はボクセル座標系での点の位置である。
【0071】
この例では、第二占有データは、複数の所与のオブジェクトのうちの所与のオブジェクトごとに、微分可能な第二占有グリッドを含む。m
thのオブジェクトの第二占有グリッド
【数17】
は、m
thのオブジェクトを含むボクセルグリッドのボクセルごとに微分可能な第二占有値からなる。k
thボクセルの微分可能な第二占有値
【数18】
は、k
thボクセルと、すべてのその他の所与のオブジェクトのボリュメトリックモデルからサンプリングされる点との間の最小距離に依存する。これは、以下の式(5)で示される。
【数19】
式中、
【数20】
は、m
thのオブジェクトを含むボクセルグリッドのk
thボクセルと、n
thのオブジェクトのボリュメトリックモデルからサンプリングされるq
th点との間の距離である(ここでは、n≠m)。距離
【数21】
を決定するために、その他のオブジェクトのモデルからサンプリングされる点は、m
thのオブジェクトを含むボクセルグリッドの座標系に変換される。
【0072】
本発明の例では、占有ペナルティL
oは、複数の既知のオブジェクトの所与のオブジェクトごとに、衝突成分
【数22】
を含み、この衝突成分は、所与のオブジェクトの所定のモデルからサンプリングされる点と、複数の既知のオブジェクトのうちの1つの異なるオブジェクトの所定のモデルからサンプリングされる点とが、所与のオブジェクトを含むボクセルグリッドのボクセルに同時に近接させられるときに増加する。この例での衝突成分
【数23】
は、微分可能な第一占有グリッド
【数24】
及び微分可能な第二占有グリッド
【数25】
から導出される。これは、以下の式(6)で示される。
【数26】
式中、〇は要素ごとの積を表す。衝突成分
【数27】
は、m
thのオブジェクトを含むボクセルグリッドのボクセルが、m
thのオブジェクトからサンプリングされる点、及び複数の既知のオブジェクトのその他のオブジェクトのうちの1つからサンプリングされる点に同時に近接する状況にペナルティを科す。次に、全体的な占有ペナルティの可能な定義は、
【数28】
で与えられる。ここでは、総和はN個の既知のオブジェクトを上回る。全体的な占有ペナルティは、すべての既知のオブジェクトの推定された姿勢に関して同時最適化される。ただし、本明細書の以降で説明されるように、占有ペナルティのより高度な定義が可能である。
【0073】
図2の方法200を使用して初期姿勢推定を決定する例などのいくつかの例では、複数の既知のオブジェクトの所与のオブジェクトごとにボリュメトリック再構成が生成され、ボリュメトリック融合から追加の占有データが生成される。この追加の占有データは、自由空間によって占有されている所与のオブジェクトを含むボクセルグリッドの部分、及び所与のオブジェクト以外のオブジェクトによって占有されている所与のオブジェクトを含むボクセルグリッドの部分を示す。第一占有データ及び第二占有データとは異なり、この追加の占有データは、オブジェクトの推定された姿勢に関して微分可能ではない。ただし、追加の占有データが所与のオブジェクトを含むボクセルグリッドの貫入不能な領域を定義するため、追加の占有データは姿勢の洗練に関連する情報を確かに含む。この情報が与えられると、所与のオブジェクトの所定のモデルからサンプリングされる点が自由空間によって、または所与のオブジェクト以外のオブジェクトによって占有される所与のオブジェクトを含むボクセルグリッドのボクセルに近接させられるときに、所与のオブジェクトの衝突成分は増加するように修正されることができる。
【0074】
一例では、追加の占有データは、所与のオブジェクトを含むボクセルグリッドの各ボクセルに2進数を関連付けるバイナリ貫入不能グリッド
【数29】
を含む。ここでは、2進数は、ボクセルが所与のオブジェクトに貫入不能であるかどうか(すなわち、ボクセルが上記で言及される状態2か状態3かいずれかであるかどうか)を示す。微分可能な第一占有グリッド
【数30】
及びび微分可能な第二占有グリッド
【数31】
の定義との互換性のために、貫入不能グリッド
【数32】
は、貫入不能ボクセルに対して1の値が与えられ、それ以外の場合は0の値が与えられる。ただし、他の定義が可能であることが理解されよう。
【0075】
貫入不能グリッド
【数33】
が与えられると、m
thの所与のオブジェクトについての衝突成分の代替の定義は、以下の式(7)で与えられる。
【数34】
式中、最大演算子は要素ごとに取得される。この代替の定義は、m
thのオブジェクトを含むボクセルグリッドのボクセルがm
thのオブジェクトからサンプリングされる点に近接し、その他の既知のオブジェクトのうちの1つからサンプリングされる、及び/または貫入不能なグリッドの一部である、点に同時に近接する状況にペナルティを科す。衝突成分の代替の定義の結果、姿勢洗練方法のパフォーマンスが向上することができる。これは、結果として得られる姿勢集合がシーンのボリュメトリックマップの貫入不能領域によって制約されるためである。
【0076】
例えば式(6)または式(7)によって定義される衝突成分に加えて、占有ペナルティは、複数の既知のオブジェクトのそれぞれについてサーフェスアライメント成分を含むように拡張され得る。隣接するオブジェクトのオーバーラップにペナルティを科す衝突成分とは異なり、サーフェスアライメント成分は、所与のオブジェクトからサンプリングされる点がそのオブジェクトについてのボリュメトリック再構成のボクセルとオーバーラップする状況に報酬を与える。したがって、サーフェスアライメント成分は、所与のオブジェクトの推定された姿勢と、画像及び関連デプス情報内での所与のオブジェクトの外観との間の一貫性を促進する。
【0077】
一例では、m
thの所与のオブジェクトのサーフェスアラインメント成分は、以下の式(8)で与えられる。
【数35】
式中、
【数36】
は
【数37】
で与えられる要素を有するバイナリ自己占有グリッドである。この例では、
【数38】
はm
thのオブジェクトのボリュメトリック再構成によって占有されるボクセルに対して1の値を有し、それ以外の場合は0の値を有する。所与のオブジェクトの所定のモデルからサンプリングされる点が、所与のオブジェクトのボリュメトリック再構成によって占有される所与のオブジェクトを含むボクセルグリッドのボクセルに近接させられるときに、所与のオブジェクトのサーフェスアライメント成分は減少する。
【0078】
サーフェスアラインメント成分が含まれる場合、占有ペナルティは以下の式(9)で定義される:
【数39】
【0079】
占有ペナルティは、すべての既知のオブジェクトの推定された姿勢に関して同時最適化される。一例では、最適化は、グラフィックス処理ユニット(GPU)上でバッチ勾配降下法を使用して実行される。
【0080】
図8は、占有ペナルティにサーフェスアラインメント成分を含む効果を示す。一番上のフレームは、この例では
図2の方法200を使用して決定される、
図3のシーン300内の既知のオブジェクト302、304、306について初期の推定された姿勢集合を示す。推定された姿勢の精度が低いため、箱302が缶304と交差することが観測される。その結果、缶304の衝突成分(ボクセルグリッド502を使用して定義される)は高い値を有する。左下のフレームは、サーフェスアライメント成分を使用することなく姿勢の洗練が実行された後のオブジェクト302、304、306の推定された姿勢を示す。缶304の衝突成分を減少させるために、箱302とのオーバーラップがなくなるように、缶304が左に移動したことが観測される。ただし、結果として得られたシーンは、
図3に示される実際のシーン300と密接に対応していない。右下のフレームは、姿勢の洗練がサーフェスアライメント成分を使用して実行された後のオブジェクト302、305、306の推定された姿勢を示す。占有ペナルティの衝突成分を減少させるために、缶304とのオーバーラップがなくなるように箱302の角度が修正されていることが観測される。ただし、左下のフレーム内の誤ったシーンとは対照的に、右下のフレーム内の結果として得られたシーンは、
図3でのシーン300と密接に対応する。これは、缶304がそのボリュメトリック再構成と一貫性のない方法でその元の位置から離れることを、缶304のサーフェスアライメント成分が妨げているからである。これによるサーフェスアライメント成分で、姿勢予測の精度がより高くなる。
【0081】
方法200及び/または700を使用して、システム100は、センサ106によってキャプチャされるシーンの第一ビューを表す画像及び関連デプス情報を使用して、シーン内のオブジェクトの第一姿勢を予測することができる。ただし、シーンのいずれの単一のビューからもオブジェクト全体が可視ではない。さらに精度の高い姿勢予測を達成するために、本発明の例では、システム100は、アクチュエータ108を使用してセンサ106を動作させ、シーンの第二ビューを表すさらなる画像及び関連デプス情報をキャプチャするようにさらに構成される。第二ビューは、センサ106が動作した後のシーンに対して異なる向き及び/または位置を有するため、第一ビューとは異なる。
【0082】
システム100は、さらなる画像及び関連デプス情報を使用して、オブジェクトの第二姿勢を予測する。本発明の例では、第二姿勢は、第一姿勢と同じ方法、すなわち、姿勢推定方法200の後に姿勢洗練方法700を使用して予測される。第一姿勢及び第二姿勢のうちの少なくとも1つは、第一姿勢及び第二姿勢が共通座標系に関して表現されるように変換される。本発明の例では、第一姿勢及び第二姿勢の両方は、センサ106の位置及び向きから独立する任意の「世界」座標系に変換される。
【0083】
第一姿勢及び/または第二姿勢を共通座標系に変換することにより、第一姿勢及び第二姿勢を比較することができる。この比較に基づいて、一貫性条件が満たされていると決定される場合、第一姿勢及び第二姿勢は精度が高いと決定される。一貫性条件が満たされていると決定されない場合、シーンの第三ビューを表す、さらなる画像及び関連デプス情報は、キャプチャされてから、第一姿勢及び第二姿勢のそれぞれと比較される。第三姿勢が第一姿勢か第二姿勢かいずれかと一貫性のある場合、その姿勢は精度が高いと決定される。一貫性条件が満たされるまで、さらなる画像及び関連デプス情報がキャプチャされ、オブジェクトのさらなる姿勢が予測される。本発明の例では、式(2)のポイントワイズ姿勢推定損失を使用して姿勢が比較され、いずれかの2つの予測された姿勢が閾値未満のポイントワイズ姿勢推定損失を有する場合に、一貫性条件が満たされている。他の例では、閾値数Mの予測された姿勢が閾値Lt未満のポイントワイズ姿勢推定損失Liを有する場合、すなわち、M=count(Li<Lt)の場合、一貫性条件が満たされている。
【0084】
上述のように姿勢比較に基づいて姿勢予測の精度が高いと決定される場合、システム100は、予測された姿勢と一貫して変換されたオブジェクトのメッシュモデルをスポーンする。複数の既知のオブジェクトのメッシュモデルをスポーンすることにより、シーンのメッシュモデルが生成される。シーンのメッシュモデルは、シーンとインタラクトするために使用されることができる(本明細書の以降でより詳細に説明されるように)、または人間のユーザに表示されることができる。
【0085】
シーンのさまざまなビューをキャプチャし、さらに姿勢予測を行うプロセス中に、さまざまなビューからの情報を使用してシーンのボリュメトリックマップを反復して構築することができると、キャプチャされるビューが多くなるにつれて、「未知の」状態でボリュメトリックマップに含まれるボクセルがますます少なくなることができることに留意する。その結果、姿勢予測(複数のビューからの情報を使用する)が後になるほど、初期姿勢予測(単一ビューからの情報のみを使用する)よりも精度が高くなり得る。ただし、シーンの複数のビューをキャプチャするには、さらに時間がかかる。したがって、精度と時間との間にはトレードオフが生じる。場合によっては、姿勢予測を迅速に実行することが不可欠である。その場合、シーンの単一ビューのみから所与のオブジェクトの姿勢を予測する必要があり得る。これらの例は、車両内のADSまたはADASによって実行される姿勢予測を含む。それ以外の場合は、精度が最も重要である。それらのような場合の例は、非常に複雑なロボティクスタスクを含む。
【0086】
本明細書に説明される方法は、ロボットを使用してオブジェクトをピックアップする、またはその他の方法で係合するロボティクスタスクに特に有用である。そのようなロボットは、所与のオブジェクトを掴む、押す、またはその他の方法でそれに物理的に接触するためのロボットハンドまたは他のコンポーネントなどの1つ以上の係合手段を含む。ロボットは、所与のオブジェクトを正確に係合するために、所与のオブジェクトの姿勢を最初に予測し、次に、予測された姿勢に応じて所与のオブジェクトを係合する。いくつかの例では、ロボットは、最初に、所与のオブジェクトの予測された姿勢に従って変換される所与のオブジェクトのメッシュモデル(例えば、CADモデル)をスポーンし、スポーンされたメッシュモデルに基づいて所与のオブジェクトを係合する。
【0087】
さらなる例では、ロボットは、例えば、吸引手段もしくは送風手段、レーザーもしくは他の放射源、またはロボットによって実行されるタスクに適切な任意の他のコンポーネントを使用して、所与のオブジェクトに直接接触することなく、所与のオブジェクトとインタラクトすることができる。
【0088】
図1のシステム100は、スタンドアロンデバイスまたは分散コンピューティングシステムとして実装されることができる。システム100は、画像及び関連デプス情報をキャプチャするためのセンサ106を含むが、他の例では、データ処理システムは、本明細書で説明される方法を実行して、リモートソースから画像及び関連デプス情報を受信するように配置され得、この場合、センサは必要ではない。他の例では、センサ106に加えて、またはその代わりに、1つ以上の他のタイプのセンサが含まれることができる。適切なセンサの例は、ステレオカメラ、イベントカメラ、赤外線カメラ、及び/または音響航法測距(ソナー)用のトランシーバである。
【0089】
システム100の処理回路104は、中央処理装置(CPU)及びグラフィックス処理ユニット(GPU)を含むさまざまな処理ユニットを含む。他の例では、特定の処理操作を実行するために、特定用途向け集積回路(ASIC)またはデジタル信号プロセッサ(DSP)などの専用処理ユニットが提供される。いくつかの例では、ニューラルネットワーク操作を効率的に実行するために、専用のニューラルネットワークアクセラレータ(NNA)またはニューラル処理ユニット(NPU)が提供される。いくつかの例では、半導体デバイスには、本明細書で説明される方法の実装に必要な特定の操作を実行するように構成される1つ以上のゲートアレイが設けられる。
【0090】
システム100のメモリ回路102は、揮発性ランダムアクセスメモリ(RAM)、特にスタティックランダムアクセスメモリ(SRAM)及びダイナミックランダムアクセスメモリ(DRAM)に加えて、ソリッドステートドライブ(SSD)の形態の不揮発性ストレージを含む。他の例では、リムーバブルストレージ、フラッシュメモリ、同期DRAMなどの代替のタイプのメモリが含まれることができる。
【0091】
図2の姿勢推定方法200または
図7の姿勢洗練方法700は、互いから独立して実行されることができる。したがって、いくつかの例では、システムは、いかなるさらなる洗練もなく、方法200を実行するように構成される。それらのような例では、既知のオブジェクトごとのボリュメトリックモデルを格納する必要がないにもかかわらず、画像セグメンテーションのために既知のオブジェクトを認識するためのトレーニング済みのニューラルネットワークまたはその他のコンポーネントを提供する必要がある。他の例では、代替の姿勢推定方法は、姿勢洗練方法700と併せて実行され得る。
【0092】
上記の実施形態は、本発明の説明目的の実施例として理解されるべきである。本発明のさらなる実施形態が想定される。例えば、本明細書に記載の姿勢予測方法を物理的推論と組み合わせて、結果として得られる姿勢予測が物理的に可能である/実現可能であることを確保することができる。このような推論は、ビデオゲームのコンテキストでよく知られているような物理エンジンを使用して組み込まれることができる。いくつかの例では、物理的推論は、姿勢洗練のための衝突に基づいた方法に加えて、またはその代替として使用される。
【0093】
任意の1つの実施形態に関連して説明された任意の特徴は、単独でまたは説明した他の特徴と組み合わせて使用し得、また、他の任意の実施形態の1つ以上の特徴、または任意の他の実施形態の任意の組み合わせと組み合わせて使用し得ることを理解されたい。さらに、添付の特許請求の範囲で定義される本発明の範囲から逸脱することなく、上述されていない均等物及び修正が採用されてもよい。
【符号の説明】
【0094】
100 システム
102 メモリ
104 処理回路
106 センサ
108 アクチュエータ
【国際調査報告】