(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-20
(54)【発明の名称】マルチビュー画像からのエンドツーエンド場面再構築のためのシステムおよび方法
(51)【国際特許分類】
G06T 7/55 20170101AFI20230413BHJP
【FI】
G06T7/55
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022552800
(86)(22)【出願日】2021-03-05
(85)【翻訳文提出日】2022-10-21
(86)【国際出願番号】 US2021021188
(87)【国際公開番号】W WO2021178875
(87)【国際公開日】2021-09-10
(32)【優先日】2020-03-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】514108838
【氏名又は名称】マジック リープ, インコーポレイテッド
【氏名又は名称原語表記】Magic Leap,Inc.
【住所又は居所原語表記】7500 W SUNRISE BLVD,PLANTATION,FL 33322 USA
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ミュレズ, ザッカリー ポール
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA08
5L096CA04
5L096DA01
5L096FA66
5L096HA11
5L096JA11
5L096JA18
5L096KA04
(57)【要約】
RGB画像を備える、マルチビュー画像のみを使用して、深度センサまたはセンサからの深度データを必要とせずに、仮想現実、拡張現実または複合現実システム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境の3次元(3D)再構築物を生成するシステムおよび方法。特徴が、RGB画像のフレームのシーケンスから抽出され、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影され、ボクセルボリュームの各ピクセルは、ボクセルボリューム内の光線にマッピングされる。逆投影された特徴は、3Dボクセルボリュームの中に融合される。3Dボクセルボリュームは、特徴を精緻化し、3Dボクセルボリュームの各ボクセルにおいて、切り捨て符号付き距離関数値を回帰させるように、3D畳み込みニューラルネットワークを通して通過される。
【特許請求の範囲】
【請求項1】
マルチビュー画像から場面の3次元(3D)再構築物を生成する方法であって、前記方法は、
赤緑青(RGB)画像のフレームのシーケンスを取得することと、
2次元畳み込みニューラルネットワーク(2D CNN)を使用して、特徴を前記RGB画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの特徴を前記3Dボクセルボリュームの中に融合/累積させることと、
前記3Dボクセルボリュームを、エンコーダ-デコーダを有する3D畳み込みニューラルネットワーク(3D CNN)を通して通過させ、前記3Dボクセルボリューム内の前記特徴を精緻化し、前記3Dボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数(TSDF)値を回帰させることと
を含む、方法。
【請求項2】
前記フレームは、移動平均を使用して、単一3D特徴ボリュームの中に融合される、請求項1に記載の方法。
【請求項3】
前記移動平均は、単純移動平均である、請求項2に記載の方法。
【請求項4】
前記移動平均は、加重された移動平均である、請求項3に記載の方法。
【請求項5】
前記3Dボクセルボリュームを前記3D CNNの全ての層を通して通過させた後、前記3Dボクセルボリューム内の前記精緻化された特徴および前記3Dボクセルボリュームの各ボクセルにおけるTSDF値をバッチ正規化(バッチノルム)関数および正規化線形ユニット(reLU)関数を通して通過させることをさらに含む、請求項1に記載の方法。
【請求項6】
付加的スキップ接続が、前記3D CNNのエンコーダからデコーダまでに含まれ、
前記方法はさらに、前記付加的スキップ接続を使用して、前記3D CNNの前記エンコーダから前記デコーダまでの前記3Dボクセルボリューム内の1つ以上の特徴をスキップすることを含む、請求項1に記載の方法。
【請求項7】
前記3Dボクセルボリュームの1つ以上のヌルボクセルは、特徴を、前記RGB画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記方法はさらに、
前記ヌルボクセルのための付加的スキップ接続である、前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数およびrelu関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
を含む、請求項6に記載の方法。
【請求項8】
前記3D CNNは、それぞれが3×3×3残差ブロックのセットを有する、複数の層を有し、前記3D CNNは、3×3×3ストライド2畳み込みを用いたダウンサンプリングと、トライリニア補間後、1×1×1畳み込みを使用する、アップサンプリングとを実装する、請求項1に記載の方法。
【請求項9】
前記3D CNNはさらに、意味論セグメント化を予測するための付加的ヘッドを備え、
前記方法はさらに、前記3D CNNが前記3Dボクセルボリューム内の前記特徴の意味論セグメント化を予測することを含む、請求項1に記載の方法。
【請求項10】
場面の一部を網羅する短フレームシーケンスを使用して、前記2D CNNを訓練することをさらに含む、請求項1に記載の方法。
【請求項11】
前記短フレームシーケンスは、10またはより少ないフレームシーケンスを含む、請求項10に記載の方法。
【請求項12】
前記短フレームシーケンスより多いフレームシーケンスを有する、より大きいフレームシーケンスを使用して、前記2D CNNの訓練を微調整することをさらに含む、請求項11に記載の方法。
【請求項13】
前記より大きいフレームシーケンスは、100以上のフレームシーケンスを含む、請求項12に記載の方法。
【請求項14】
クロスリアリティシステムであって、
ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスと、
前記頭部搭載型ディスプレイと動作可能に通信する、コンピューティングシステムと、
前記コンピューティングシステムと動作可能に通信する、複数のカメラセンサと
を備え、
前記コンピューティングシステムは、プロセスによって、前記場面の3次元(3D)再構築物を前記カメラセンサによって捕捉されたRGB画像のフレームのシーケンスから生成するように構成され、
前記プロセスは、
前記カメラセンサの視野内の場面の赤緑青(RGB)画像のフレームのシーケンスを前記カメラセンサから取得することと、
2次元畳み込みニューラルネットワーク(2D CNN)を使用して、特徴を前記RGB画像のフレームのシーケンスから抽出することと、
各フレームからの前記特徴を、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影することであって、前記ボクセルボリュームの各ピクセルは、前記ボクセルボリューム内の光線にマッピングされる、ことと、
各フレームからの前記特徴を前記3Dボクセルボリュームの中に融合させることと、
前記3Dボクセルボリュームを、エンコーダ-デコーダを有する3D畳み込みニューラルネットワーク(3D CNN)を通して通過させ、前記3Dボクセルボリューム内の前記特徴を精緻化し、前記3Dボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数(TSDF)値を回帰させることと
を含む、システム。
【請求項15】
前記フレームは、移動平均を使用して、単一3D特徴ボリュームの中に融合される、請求項14に記載のシステム。
【請求項16】
前記移動平均は、単純移動平均である、請求項15に記載のシステム。
【請求項17】
前記移動平均は、加重された移動平均である、請求項16に記載のシステム。
【請求項18】
前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスはさらに、前記3Dボクセルボリュームを前記3D畳み込みエンコーダ-デコーダの全ての層を通して通過させた後、前記3Dボクセルボリューム内の前記精緻化された特徴および前記3Dボクセルボリュームの各ボクセルにおけるTSDF値をバッチ正規化(バッチノルム)関数および正規化線形ユニット(reLU)関数を通して通過させることを含む、請求項14に記載のシステム。
【請求項19】
付加的スキップ接続が、前記3D CNNのエンコーダからデコーダまでに含まれ、
前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスはさらに、前記付加的スキップ接続を使用して、前記3D CNNの前記エンコーダから前記デコーダまでの前記3Dボクセルボリューム内の1つ以上の特徴をスキップすることを含む、請求項14に記載のシステム。
【請求項20】
前記3Dボクセルボリュームの1つ以上のヌルボクセル特徴を、前記RGB画像のフレームのシーケンスの間に観察されなかったボクセルに対応する、それらの中に逆投影させず、前記場面の3次元(3D)再構築物を前記RGB画像のフレームのシーケンスから生成するための前記プロセスはさらに、
前記ヌルボクセルのための付加的スキップ接続である、前記ヌルボクセルのための前記エンコーダからの前記付加的スキップ接続を使用しないことと、
前記ヌルボクセルを前記バッチノルム関数およびrelu関数を通して通過させ、前記スキップ接続を受ける前記ボクセルの大きさにマッチングさせることと
を含む、請求項19に記載のシステム。
【請求項21】
前記3D CNNはさらに、意味論セグメント化を予測するための付加的ヘッドを備え、
方法はさらに、前記3D CNNが前記3Dボクセルボリューム内の前記特徴の意味論セグメント化を予測することを含む、請求項14に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(発明の分野)
本発明は、コンピューティング、学習ネットワーク構成、ならびに接続されたモバイルコンピューティングシステム、方法、および構成に関し、より具体的には、仮想および/または拡張現実動作のために構成される、少なくとも1つのウェアラブルコンポーネントを有する、モバイルコンピューティングシステム、方法、および構成において利用され得る、マルチビュー画像から場面の3次元再構築物を生成するためのシステムおよび方法に関する。
【背景技術】
【0002】
(背景)
現代のコンピューティングおよびディスプレイ技術は、集合的に、「クロスリアリティ」環境または体験と称される、いわゆる仮想現実(「VR」)、拡張現実(「AR」)、および/または複合現実(「MR」)体験のためのシステムの開発を促進している。これは、頭部搭載型ディスプレイを通して、コンピュータ生成画像をユーザに提示することによって行われることができる。本画像は、感覚体験を作成し、これは、ユーザをシミュレートされた環境に没入させる。本データは、例えば、ユーザが、物理的世界の一部として、感知または知覚し、仮想オブジェクトと相互作用し得るようにレンダリングされ得る、仮想オブジェクトを説明し得る。ユーザは、例えば、頭部搭載型ディスプレイデバイス等のユーザインターフェースデバイスを通してレンダリングおよび提示されているデータの結果として、これらの仮想オブジェクトを体験し得る。データは、ユーザに見えるように表示され得る、またはユーザに聞こえるように再生される、オーディオを制御し得る、もしくは触知的(または触覚的)インターフェースを制御し、ユーザが、仮想オブジェクトを感じるにつれて、ユーザが感知または知覚する、タッチ感覚を体験することを可能にし得る。
【0003】
XRシステムは、科学的可視化、医療訓練、工学設計、およびプロトタイプ化、遠隔操作およびテレプレゼンス、ならびに個人的娯楽の分野に及ぶ、多くの用途のために有用であり得る。VRシステムは、典型的には、実際の実世界視覚的入力に対する透過性を伴わずに、デジタルまたは仮想画像情報の提示を伴う。
【0004】
ARシステムは、概して、実世界環境をシミュレートされた要素で補完する。例えば、ARシステムは、ユーザに、頭部搭載型ディスプレイを介して、周囲の実世界環境のビューを提供し得る。コンピュータ生成画像はまた、周囲の実世界環境を向上させるために頭部搭載型ディスプレイ上に提示されることもできる。本コンピュータ生成画像は、周囲の実世界環境にコンテキスト的に関連する、要素を含むことができる。そのような要素は、シミュレートされたテキスト、画像、オブジェクト、および同等物を含むことができる。MRシステムはまた、シミュレートされたオブジェクトを実世界環境に導入するが、これらのオブジェクトは、典型的には、ARシステムを上回る相互作用の程度を特徴とする。
【0005】
AR/MRシナリオは、多くの場合、実世界オブジェクトに関連して仮想画像要素の提示を含む。例えば、AR/MR場面は、AR/MR技術のユーザに、構造、オブジェクト等を含む、ユーザを囲繞する環境を特徴とする、実世界場面が見えるように描写される。これらの特徴に加え、AR/MR技術のユーザは、そのような特徴が実世界環境内に存在しない場合でも、彼らにコンピュータ生成された特徴(すなわち、仮想オブジェクト)が「見える」と知覚する。故に、ARおよびMRは、VRと対照的に、物理的世界の実オブジェクトに関連して、1つ以上の仮想オブジェクトを含む。仮想オブジェクトはまた、実世界オブジェクトと相互作用し、したがって、AR/MRシステムは、ユーザを囲繞する3D世界とのシステムの相互作用に関連して、「空間コンピューティング」システムとも称され得る。実オブジェクトと相互作用する仮想オブジェクトの体験は、AR/MRシステムを使用する際、ユーザの享受を大幅に向上させ、また、物理的世界が改変され得る方法についての現実的かつ容易に理解可能な情報を提示する、種々の用途のための可能性を広げる。
【0006】
脳の視覚中枢は、貴重な知覚情報を相互に対する両眼およびその構成要素の運動から得る。相互に対する2つの眼の両眼離反運動移動(すなわち、眼の視線をオブジェクト上に収束させ、それを固視するための相互に向かってまたはそこから離れる瞳孔の回転移動)は、眼の水晶体の遠近調節(または合焦)と緊密に関連付けられる。正常条件下、眼を遠近調節し、または眼の水晶体の焦点を変化させ、異なる距離におけるオブジェクト上に合焦させることは、「遠近調節-両眼離反運動反射」として知られる関係下、同一距離への両眼離反運動の整合変化を自動的に生じさせるであろう。同様に、両眼離反運動の変化が、正常条件下、遠近調節の合致する変化を誘起するであろう。本反射に逆らう作用は、大部分の従来の立体視VR/AR/MR構成におけるように、眼精疲労、頭痛、または他の形態の不快感をユーザにもたらすことが知られている。
【0007】
立体視ウェアラブル眼鏡は、概して、3次元視点がヒト視覚系によって知覚されるように、若干異なる要素提示を伴う画像を表示するように構成される、2つのディスプレイ(左眼に1つ、右眼に1つ)を特徴とする。そのような構成は、両眼離反運動と遠近調節との間の不整合(「両眼離反運動-遠近調節衝突」)に起因して、多くのユーザにとって不快であることが見出されており、これは、3次元における画像を知覚するために克服されなければならない。実際、一部のユーザは、立体視構成に耐えることが不可能である。これらの限界は、VR、AR、およびMRシステムに該当する。故に、大部分の従来のVR/AR/MRシステムは、部分的に、従来のシステムが、両眼離反運動-遠近調節衝突を含む、ヒト知覚系の基本側面のうちのいくつかに対処することができないため、ユーザにとって快適かつ最大限に有用となるであろう様式において、豊かな両眼3次元体験を提示するために最適に好適ではない。
【0008】
種々のシステムおよび方法が、両眼離反運動-遠近調節衝突に対処するために開示されている。例えば、米国実用特許出願第14/555,585号は、光および光によってレンダリングされた画像が複数の深度面から生じるように現れるように、1つ以上の光誘導光学要素を使用して、光をユーザの眼に投影させることによって、両眼離反運動-遠近調節衝突に対処する、VR/AR/MRシステムおよび方法を開示する。光誘導光学要素は、デジタルまたは仮想オブジェクトに対応する仮想光を内部結合し、それを全内部反射(「TIR」)によって伝搬し、次いで、仮想光を外部結合し、仮想オブジェクトをユーザの眼に表示するように設計される。AR/MRシステムでは、光誘導光学要素はまた、実際の実世界オブジェクトからの(例えば、そこから反射する)光に対して透過性であるように設計される。したがって、光誘導光学要素の一部は、TIRを介した伝搬のために仮想光を反射させながら、AR/MRシステム内の実世界オブジェクトからの実世界光に対して透過性であるように設計される。
【0009】
AR/MRシナリオは、多くの場合、仮想オブジェクトと実世界の物理的環境との間の相互作用を含む。同様に、いくつかのVRシナリオは、完全仮想オブジェクトと他の仮想オブジェクトとの間の相互作用を含む。物理的環境内のオブジェクトの輪郭を描くことは、それらの相互作用の境および境界線を画定することによって(例えば、物理的環境内の特定の構造またはオブジェクトの範囲を画定することによって)、仮想オブジェクトとの相互作用を促進する。例えば、AR/MRシナリオが、物理的環境内の特定のオブジェクトから延在する仮想オブジェクト(例えば、触手または拳)を含む場合、3次元内のオブジェクトの範囲を画定することは、AR/MRシステムがより現実的AR/MRシナリオを提示することを可能にする。逆に言えば、オブジェクトの範囲が、画定されない、または不正確に画定される場合、アーチファクトまたは誤差が、表示される画像に生じるであろう。例えば、仮想オブジェクトは、オブジェクトの表面からの代わりに、部分的または完全に、オブジェクトに隣接する空中から延在するように現れ得る。別の実施例では、AR/MRシナリオが、物理的環境内の特定の水平表面上を歩いている仮想キャラクタを含む場合、表面の範囲を不正確に画定することは、落下せずに、代わりに、空中に浮遊して、表面から離れて歩いているように現れる、仮想キャラクタをもたらし得る。
【0010】
故に、正確かつ効果的3次元(3D)XR体験を提供するために、XRシステムは、正確に、かつ効率的算出を伴って(例えば、近リアルタイムで)、周囲環境の3D再構築物を生成することが可能である必要がある。実際、我々の周囲の世界を再構築することは、コンピュータビジョンの長年にわたる目標となっている。
【0011】
場面の3Dモデルを再構築することは、通常、画像のシーケンスに関する特徴の深度を入手し、3Dデータ構造を使用して、深度マップを融合させることを伴う。深度累積に関する最も一般的3D構造は、TSDF融合によって使用される、ボクセルボリュームである。しかしながら、サーフェル(配向付き点群)が、人気を博し始めている。これらの方法は、通常、物理的深度センサと併用されるが、また、単眼またはステレオ画像から予測される深度マップにも適用されることができる。
【0012】
深層学習の台頭に伴って、単眼深度推定は、大幅に改良されているが、しかしながら、その正確度は、依然として、最先端ステレオ方法をはるかに下回る。ステレオに対する一般的古典的アプローチは、相互情報およびセミグローバルマッチングを使用して、2つの画像間の差量を算出するものである。より最近では、パッチマッチングネットワークを使用する、DeepMVS、およびコストボリュームを未加工ピクセル測定から構築し、2D畳み込みを実施し、平面を特徴チャネルとして取り扱う、MVDepthNet等、いくつかのエンドツーエンド平面掃引アルゴリズムが、提案されている。GPMVSは、これを踏まえ、ガウスプロセスを使用して、長シーケンスにわたって、情報をコストボリュームの中に集約する。MVSNetおよびDPSNetは、2D CNNを使用して、コストボリュームを画像から抽出された特徴から構築する。それらは、次いで、3D畳み込みを4Dテンソル上で使用して、コストボリュームをフィルタリングする。これらの方法は全て、標的画像を選定し、深度を予測し、次いで、好適な近傍の基準画像を見出すことを要求する。
【0013】
最近の両眼ステレオ方法は、類似コストボリュームアプローチを使用するが、固定されたベースラインステレオ対を使用することによって、フレーム選択を回避する。シーケンスにわたる深度マップは、独立して算出される(またはある場合には、弱結合される)。これらのアプローチと対照的に、本発明の方法は、直接、単一コヒーレント3Dモデルを入力画像のシーケンスから構築する。
【0014】
TSDF融合は、単純かつ効果的であるが、部分的にオクルードされる幾何学形状を再構築することができず、雑音を低減させるために、多くの測定値を平均することを要求する。したがって、学習された方法が、融合を改良するために提案されている。OctNetFusionは、3Dエンコーダ-デコーダを使用して、複数の深度マップをTSDFの中に集約し、結果を単一オブジェクトおよび走査の一部上に示す。ScanCompleteは、これを踏まえ、部屋全体に関する結果を示す。SG-NNは、疎畳み込みを使用して、分解能を増加させ、新規自己教師あり訓練スキームを使用して、訓練することによって、ScanCompleteに改良を加えている。3D-SICは、領域提案を使用して、3Dインスタンスセグメント化に焦点を当て、インスタンス完了あたりヘッドを追加する。ルーティングされた融合は、深度マップの集約を改良するために、ビュー錐台内で2Dフィルタリングおよび3D畳み込みを使用する。
【0015】
いくつかのネットワークが、開示されており、これは、1つ以上の画像をとり、直接、3D表現を予測する。例えば、3D-R2N2は、画像を潜在的空間にエンコードし、次いで、ボクセル占有率ボリュームをデコードする。Octtree-Genは、3Dボクセルボリュームの効率性を改良するために、オクトツリーデータ構造を使用することによって、分解能を増加させる。深層SDFは、ボリュームを離散化する代わりに、任意の入力位置に関するSDF値を出力し得る、生成モデルを学習するように選定する。点集合生成ネットワークが、開示されており、これは、固定数の点を伴う、点群を生成するように学習する。Pixel2Mesh++は、グラフ畳み込みネットワークを使用して、直接、三角測量されたメッシュを予測する。これらの方法は、入力を小潜在的コードにエンコードし、主に、Shapenetからの単一オブジェクトに関する結果を報告する。したがって、それらを完全場面再構築物上で機能するように拡張する方法は、明白ではない。Mesh-RCNNは、2Dオブジェクト検出を踏まえ、付加的ヘッドを追加し、インスタンス毎に、ボクセル占有率グリッドを予測し、次いで、グラフ畳み込みネットワークをメッシュ上で使用して、それらを精緻化する。
【0016】
画像特徴をボクセルボリュームの中に逆投影し、次いで、3D CNNを使用して、それらを精緻化することもまた、ヒトの姿勢推定のために使用されている。これらは、関節場所を位置特定するために使用される、回帰3Dヒートマップを機能させる。
【0017】
深層ボクセルおよび場面表現ネットワークの後続研究は、特徴を3Dボリュームの中に累積し、世界の教師なし表現を形成し、これは、次いで、明示的幾何学的中間表現を形成することを必要とせずに、新規ビューをレンダリングするために使用されることができる。
【0018】
3D再構築物に対する他のアプローチは、単眼、両眼、またはマルチビューステレオ方法を使用するものであって、これは、赤緑青(RGB)画像(それぞれ、1つ、2つ、または複数)を画像センサからとり、画像に関する深度マップを予測する。例えば、RGB画像を使用して、3D再構築物を生成するために、単眼ステレオ方法を使用する、方法は、以下の刊行物、すなわち、Fu, H., Gong, M., Wang, C. Batmanhelich, K., Tao, D.: Deep ordinal regression network for monocular depth estimation; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2002-2011 (2018)、 Lasinger, K., Ranftl, R., Schindler, K., Koltun, V.: Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer; arXiv preprint arXiv: 1907.01341 (2019)、およびLee, J.H., Hang, M.K., Ko, D.W., Suh, I.H.: From big to small: Multi-scale local planar guidance for monocular depth estimation; arXiv preprint arXiv: 1907.10326 (2019)に開示される。RGB画像を使用して、3D再構築物を生成するために、両眼ステレオ方法を使用する、ある方法は、以下の刊行物、すなわち、Chabra, R., Straub, J., Sweeney, C., Newcombe, R., Fuchs, H.: Stereodrnet: Dilated residual stereonet; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition; pp. 11786-11795 (2019)、およびChang, A.X., Funkhouser, T., Guibas, L., Hanrahan, P., Huang, Q. Li, Z., Savarese, S., Savva, M., Song, S., Su, H., et al.; Shapenet: An information-rich 3d model repository; arXiv preprint arXiv: 1512.00312 (2015)に開示される。また、RGB画像を使用して、3D再構築物を生成するために、マルチビューステレオ方法を使用する、種々の方法は、以下の刊行物、すなわち、Hirschmuller, H.: Stereo processing by semiglobal matching and mutual information; IEEE Transaction on pattern analysis and machine intelligence 30(2), 328-341 (2007)、Huang, P.H., Matzen, K., Kopf, J., Ahuja, N., Huang, J.B.; Deepmvs: Learning multi-view stereopsis; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition; pp. 2821-2830 (2018) 、 I, S., Jeon, H.G., Lin, S., Kweon, I.S.; DPSnet: End-to-end deep plane sweep stereo; 7th International Conference on Learning Representations, ICLR 2019; International Conference on Learning Representations, ICLR (2019) 、およびWant, K., Shen, S.; Mvdepthnet: real-time multiview depth estimation neural network; 2018 International Conference on Computer Vision; pp. 2088-2096 (2017)に開示される。しかしながら、多数の最近の研究にもかかわらず、RGB画像のみを使用して、3D再構築物を生成する、これらの方法は、依然として、深度センサよりもはるかに正確ではなく、3Dモデルの中に融合されるとき、満足の行く結果を生産しない。
【0019】
幾何学形状を再構築することに加え、多くのXR用途は、より豊かな表現を提供するために、3D再構築物の3D意味論標識化(すなわち、3D意味論セグメント化)を要求する。一般に、本問題を解法するために、2つのアプローチ、すなわち、1)2Dセグメント化ネットワークを使用して、2D入力画像上で意味論を予測し、標識を3Dに逆投影するものと、2)直接、意味論標識を3D空間内で予測するものとが存在する。これらの方法は全て、深度が深度センサによって提供されると仮定する。顕著な例外は、Kimeraであって、これは、マルチビューステレオを使用して、深度を予測するが、しかしながら、結果は、合成データおよびグラウンドトゥルース2Dセグメント化上でのみ示されている。
【0020】
SGPNは、インスタンスセグメント化を3D点群クラスタ化問題として公式化する。すなわち、類似性行列を予測し、3D点群をクラスタ化し、意味論およびインスタンス標識を導出する。3D-SISは、2D特徴を3D表現内で融合させることによって、これらのアプローチに改良を加えている。RGB画像は、2D CNNを使用して、エンコードされ、深度マップから再構築された3D幾何学形状上に逆投影される。3D CNNが、次いで、3Dオブジェクト境界ボックスおよび意味論標識を予測するために使用される。SSCNは、疎畳み込みによって有効にされる高分解能ボクセルボリューム上で意味論を予測する。
【0021】
故に、RGB画像を使用して、深度センサの必要なく、エンドツーエンド様式において、場面の3D再構築物を生成するためのより効率的かつ正確な方法およびシステムの必要性が存在する。さらに、両眼離反運動-遠近調節不整合に関する容認可能許容値を超えずに、様々なユースケースのために実践的であるために、そのような3D再構築物が、複数の焦点面(例えば、2つ以上)において、仮想画像情報をXRディスプレイ上に提示する際に使用可能である必要性が存在する。加えて、軽量で、低コストであって、小形状因子を有し、広仮想画像視野を有し、かつ可能な限り透明である、ディスプレイを実装する、XRシステムの必要性が存在する。さらにまた、深度センサを使用せずに、3D再構築物の3D意味論セグメント化の必要性が存在する。
【発明の概要】
【課題を解決するための手段】
【0022】
(要約)
本明細書に開示される実施形態は、RGB画像を備える、マルチビュー画像のみを使用して、深度センサまたはセンサからの深度データを必要とせずに、XRシステム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境の3次元(3D)再構築物を生成するシステムおよび方法を対象とする。3D再構築物は、空間コンピューティングシステムによって利用され、例えば、正確かつ効果的3D XR体験を提供することができる。結果として生じる3D XR体験は、部分的に、これが、両眼離反運動-遠近調節不整合等のヒト知覚系の基本側面のうちのいくつかに対処するように、画像を提示し得るため、ユーザにとって、快適かつ最大限に有用である、豊かで、両眼の、3次元体験において表示可能であろう。例えば、正確な深度データを有する、3D再構築物は、3D画像が複数の焦点面内に表示されることを有効にする。3D再構築物また、仮想オブジェクト、他の仮想オブジェクト、および/または実世界オブジェクト間の相互作用の正確な管理を有効にする。
【0023】
故に、本発明の一実施形態は、マルチビュー画像を使用して、場面の3次元(3D)再構築物を生成する方法を対象とする。最初に、赤緑青(RGB)画像のフレームのシーケンスが、取得される。これは、1つ以上の好適なカメラによって遂行され得る。特徴が、次いで、2次元畳み込みニューラルネットワーク(2D CNN)を使用して、RGB画像のフレームのシーケンスから抽出される。各フレームからの抽出された特徴は、次いで、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影され、ボクセルボリュームの各ピクセルは、ボクセルボリューム内の光線にマッピングされる。単眼、両眼、およびマルチビュー画像を使用して、3D再構築物を生成する、標的画像を選定し、深度を予測し、次いで、好適な近傍の基準画像を見出すことを要求する、以前の方法と対照的に、本プロセスは、標的画像を選定する必要性を回避し、フレームのシーケンス全体の単一ボリュームの中への融合を可能にする。
【0024】
各フレームからの逆投影された特徴は、3Dボクセルボリュームの中に累積(すなわち、融合)される。3Dボクセルボリュームは、3Dボクセルボリューム内の特徴を精緻化するように、エンコーダ-デコーダを有する3D畳み込みニューラルネットワーク(3D CNN)を通して通過される。3D CNNはまた、3Dボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数(TSDF)値を回帰させる。
【0025】
別の側面では、フレームは、単純移動平均または加重された移動平均等の移動平均を使用して、単一3D特徴ボリュームの中に融合されてもよい。
【0026】
別の側面では、本方法はさらに、3Dボクセルボリュームを3D CNNの全ての層を通して通過させた後、3Dボクセルボリューム内の精緻化された特徴および3Dボクセルボリュームの各ボクセルにおけるTSDF値をバッチ正規化(バッチノルム)関数および正規化線形ユニット(reLU)関数を通して通過させることを含んでもよい。
【0027】
本方法のさらに別の側面では、3D CNNは、3D CNNのエンコーダからデコーダまでの付加的スキップ接続を含んでもよい。次いで、本方法は、付加的スキップ接続を使用して、3D CNNのエンコーダからデコーダまでの3Dボクセルボリューム内の1つ以上の特徴をスキップする。
【0028】
さらに別の側面では、本方法は、特徴をそれらの中に逆投影されていない、3Dボクセルボリューム内のヌルボクセルをハンドリングするように構成されてもよい。例えば、ヌルボクセルは、RGB画像のフレームのシーケンスの間に観察されなかった、ボクセルに対応し得る。そのような場合、本方法はさらに、ヌルボクセルのために、エンコーダからの付加的スキップ接続を使用しないことと、ヌルボクセルをバッチノルム関数およびrelu関数を通して通過させ、スキップ接続を受けるボクセルの大きさにマッチングさせることとを含む。
【0029】
本方法の別の側面では、3D CNNは、それぞれが3×3×3残差ブロックのセットを有する、複数の層を有してもよく、3D CNNは、3×3×3ストライド2畳み込みを用いたダウンサンプリングと、トライリニア補間後、1×1×1畳み込みを使用する、アップサンプリングとを実装してもよい。
【0030】
本方法の別の側面では、3D CNNはさらに、意味論セグメント化を予測するための付加的ヘッドを備える。本方法はさらに、3D CNNが3Dボクセルボリューム内の特徴の意味論セグメント化を予測することを含む。
【0031】
別の側面では、本方法はさらに、場面の一部を網羅する短フレームシーケンスを使用して、2D CNNを訓練することを含む。短フレームシーケンスは、10のまたはより少ないフレームシーケンスを含んでもよい。さらに別の側面では、2D CNNの訓練は、短フレームシーケンスより多いフレームシーケンスを有する、より大きいフレームシーケンスを使用して、微調整されてもよい。より大きいフレームシーケンスは、例えば、100以上のフレームシーケンスを含んでもよい。
【0032】
別の開示される実施形態は、RGB画像を備える、マルチビュー画像のみを使用して、深度センサまたはセンサからの深度データを必要とせずに、クロスリアリティシステムのユーザを囲繞する、場面または環境の3D再構築物を生成するように構成される、クロスリアリティシステムを対象とする。クロスリアリティシステムは、ディスプレイシステムを有する、頭部搭載型ディスプレイデバイスを備える。例えば、頭部搭載型ディスプレイは、眼鏡状構造における、一対の接眼ディスプレイを有してもよい。コンピューティングシステムが、頭部搭載型ディスプレイと動作可能に通信する。複数のカメラセンサが、コンピューティングシステムと動作可能に通信する。例えば、カメラセンサは、頭部搭載型ディスプレイ上または任意の他の好適な構造上に搭載されてもよい。コンピューティングシステムは、上記に説明される方法の任意の構成を含む、プロセスによって、場面の3次元(3D)再構築物をRGB画像のフレームのシーケンスから生成するように構成される。クロスリアリティシステムの付加的側面では、プロセスは、上記に説明される方法の付加的側面のうちの任意の1つ以上を含んでもよい。例えば、プロセスは、カメラセンサの視野内の場面の赤緑青(RGB)画像のフレームのシーケンスをカメラセンサから取得することを含んでもよい。RGB画像のフレームのシーケンスからの特徴が、2次元畳み込みニューラルネットワーク(2D CNN)を使用して、抽出される。各フレームからの特徴は、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影され、ボクセルボリュームの各ピクセルは、ボクセルボリューム内の光線にマッピングされる。各フレームからの特徴は、3Dボクセルボリュームの中に融合される。3Dボクセルボリュームは、3Dボクセルボリューム内の特徴を精緻化し、3Dボクセルボリュームの各ボクセルにおいて、出力された切り捨て符号付き距離関数(TSDF)値を回帰させるように、エンコーダ-デコーダを有する3D畳み込みニューラルネットワーク(3D CNN)を通して通過される。
【0033】
クロスリアリティシステムは、次いで、3D再構築物を利用して、3D画像を頭部搭載型ディスプレイ上の複数の焦点面に表示する等、豊かな、両眼の、3次元体験内に表示される、3D XR体験を生成してもよい。クロスリアリティシステムはまた、3D再構築物を利用して、仮想オブジェクト、他の仮想オブジェクト、および/または実世界オブジェクト間の相互作用を管理してもよい。
【図面の簡単な説明】
【0034】
図面は、本開示の好ましい実施形態の設計および有用性を図示し、その中で類似要素は、共通参照番号によって参照される。本開示の上記および他の利点ならびに目的が取得される方法をより深く理解するために、上記に簡単に説明される、本開示のより具体的説明が、付随の図面に図示される、その具体的実施形態を参照することによって与えられるであろう。これらの図面は、本開示の典型的実施形態のみを描写し、したがって、その範囲の限定と見なされないことを理解した上で、本開示は、付随の図面の使用を通して、付加的具体性および詳細とともに記載ならびに説明されるであろう。
【0035】
【
図1】
図1は、一実施形態による、クロスリアリティ体験を提供するための例示的クロスリアリティシステムの概略図である。
【0036】
【
図2】
図2は、深層マルチビューステレオ後、従来的TSDF融合を利用する、ベースライン方法と比較した、本明細書に開示される方法の一実施形態の実施形態に従って実施される、3D再構築物のScannet上で実施される評価の比較を示す。
【0037】
【
図3】
図3は、一実施形態による、RGB画像を使用して、場面の3D再構築物を生成する方法を図示する、フローチャートである。
【0038】
【
図4】
図4A-4Cは、一実施形態による、3Dボクセルボリュームの中への特徴の逆投影の略図(
図4A)、3D CNN内で単純スキップ接続を使用した特徴の略図(
図4B)および特徴マスクされたスキップ接続を使用して、アーチファクトを低減させ、観察されない領域の幾何学形状をより良好に完成させる略図(
図4C)の比較を図示する。
【0039】
【
図5】
図5は、一実施形態による、3Dエンコーダ-デコーダアーキテクチャの概略図である。
【0040】
【
図6】
図6A-6Eは、本明細書に説明される実施例においてCNNを訓練するためのグラウンドトゥルースの準備を図示する、一連の画像である。
【0041】
【
図7】
図7は、本明細書に開示される方法に従って説明される実施例において生成された3D再構築物と、DPSNetを使用して生成された3D再構築物と、グラウンドトゥルースとの比較を図示する、一連の画像である。
【0042】
【
図8】
図8は、本明細書に開示される方法に従って説明される実施例において生成された定質的3D意味論セグメント化標識を、グラウンドトゥルースに転写された標識およびグラウンドトゥルース標識に対して比較する、一連の画像である。
【0043】
【
図9】
図9は、本明細書に開示される方法に従って説明される実施例において生成された3D再構築物を、標準的2D深度メトリックおよび3Dメトリックを使用し、DPSNetおよびGPMVSに従った、3D再構築物に対して比較する、テーブルである。
【0044】
【
図10】
図10は、一実施形態による、画像のシーケンスを2D CNNバックボーンを通して通過させ、特徴を抽出し、特徴を3Dボクセルボリュームの中に逆投影するためのプロセスを記載する。
【0045】
【
図11】
図11は、一実施形態による、加重された移動平均を使用して、画像のシーケンス全体にわたって、特徴ボリュームを累積するためのプロセスを記載する。
【0046】
【
図12】
図12は、一実施形態による、例示的スキップ接続を表す、方程式を記載する。
【発明を実施するための形態】
【0047】
(詳細な説明)
以下は、マルチビューRGB画像を利用し、かつ深度または距離センサを使用せずに、エンドツーエンド再構築において、XRシステム等の空間コンピューティングシステムのユーザを囲繞する、場面または環境の3次元(3D)再構築物を生成するためのシステムおよび方法の種々の実施形態を説明する。種々の実施形態が、ここで、当業者が本開示を実践することを可能にするように、本開示の例証的実施例として提供される、図面を参照して詳細に説明されるであろう。着目すべきこととして、以下の図および実施例は、本開示の範囲を限定することを意味するものではない。本開示のある要素が、部分的または完全に、公知のコンポーネント(または方法もしくはプロセス)を使用して実装され得る場合、本開示の理解のために必要なそのような公知のコンポーネント(または方法もしくはプロセス)の一部のみが、説明され、そのような公知のコンポーネント(または方法もしくはプロセス)の他の部分の詳細な説明は、本開示を曖昧にしないように、省略されるであろう。さらに、種々の実施形態は、本明細書に例証として参照されるコンポーネントの現在および将来的公知の均等物を包含する。
【0048】
さらに、空間コンピューティングシステムのユーザを囲繞する、場面または環境の3次元(3D)再構築物を生成するためのシステムおよび方法はまた、XRシステムから独立して実装されてもよく、本明細書に描写される実施形態は、例証的目的のみのために、AR/MRシステムに関連して説明される。
【0049】
図1を参照すると、一実施形態による、例示的XRシステム100が、図示される。XRシステム100は、頭部搭載型ディスプレイデバイス2(ヘッド装着型視認コンポーネント2とも称される)と、ハンドヘルドコントローラ4(ハンドヘルドコントローラコンポーネント4とも称される)と、ベルトパックまたは同等物として、ユーザ上に装着されるように構成され得る、相互接続された補助コンピューティングシステムまたはコントローラ6(相互接続される補助コンピューティングシステムまたはコントローラコンポーネント6とも称される)とを含む。これらのコンポーネントはそれぞれ、IEEE802.11、Bluetooth(登録商標)(RTM)、および他のコネクティビティ規格および構成によって規定されたもの等の有線または無線通信接続10、12、14、16、17、18を介して、相互および他の接続されたリソース8(クラウドコンピューティングまたはクラウド記憶リソース等)と動作可能に通信する(すなわち、動作可能に結合される)。頭部搭載型ディスプレイデバイスは、それを通してユーザには、その周囲の世界が、関連付けられるシステムコンポーネントによって生産されたビデオ画像および視覚的コンポーネントとともに見え得る、2つの描写される光学要素20を含み、一対の画像源(例えば、マイクロディスプレイパネル)と、拡張現実体験のためにコンピュータ生成された画像を光学要素20上に表示するための視認光学系とを含む。
図1に図示されるように、XRシステム100はまた、限定ではないが、種々のカメラタイプセンサ22、24、26(モノクロ、カラー/RGB、および/または熱等)、深度カメラセンサ28、および/または音センサ30(マイクロホン等)を含む、ユーザの環境周囲に関する情報を提供するように構成される、種々のセンサを含む。
【0050】
種々の実施形態では、ユーザが、
図1に描写されるXRシステム100等の拡張現実システムを装着し、これは、動作されるときのユーザの周囲の3次元世界とのそのようなシステムの相互作用に関連して、「空間コンピューティング」システムとも称され得る。カメラ22、24、26が、ユーザの環境周囲をマッピングし、および/または壁、床、椅子、および同等物等のユーザの環境周囲内の種々のオブジェクトの幾何学形状を表す種々の点を備える、そのような環境の「メッシュ」を作成するように構成される。空間コンピューティングシステムは、ユーザの周囲の環境をマッピングまたはメッシュ化し、Magic Leap, Inc.(Plantation, Florida)から利用可能なもの等のソフトウェアを起動または動作させるように構成されてもよく、これは、部屋のマップまたはメッシュを利用して、ユーザが、ユーザの周囲の3次元空間内の種々のオブジェクトおよび要素を設置、操作、可視化、作成、および修正することを補助するように構成されてもよい。
図1に示されるように、XRシステム100はまた、クラウドまたは他のコネクティビティ構成によって、他のコンピューティングシステム等の付加的接続されたリソース8に動作可能に結合されてもよい。
【0051】
本明細書に説明される方法、システム、および構成は、適切なセンサおよび利用可能な関連付けられるデータに従って、XRシステム100等のウェアラブル空間コンピューティングの領域の外側の種々のシナリオに広く適用可能であることを理解されたい。
【0052】
空間コンピューティングにおける課題のうちの1つは、例えば、ユーザの周囲の3次元世界に関連し得る、コンピュータビジョンおよび/またはオブジェクト認識課題等において、ユーザに有用および/または重要な判定を行う際に、XRシステム100の種々の動作可能に結合されるセンサ(
図1のシステム100の要素22、24、26、28等)によって捕捉されたデータの利用に関する。本明細書に開示されるものは、深度センサ28からの深度データを使用せずに、カメラ22、24、および26からのRGB画像等のRGB画像のみを使用して、XRシステム100のユーザを囲繞する3D環境等の場面の3D再構築物を生成するための方法およびシステムである。
【0053】
比較的に不正確な深度および比較的に満足の行かない3D画像モデルを生産する、上記に説明されるRGB画像のみを使用して、3D再構築物を生成する以前の方法と対照的に、本明細書に開示される方法およびシステムは、正確な完全3Dモデルを生産し、また、意味論セグメント化を含む、他の再構築物データの効率的算出をサポートする。
【0054】
一般に、姿勢付きRGB画像のセットのために、直接、切り捨て距離関数(「TSDF」)を回帰させるアプローチが、開示される。2次元(2D)CNN(畳み込みニューラルネットワーク)が、独立して、特徴を各画像から抽出するように構成される。これらの特徴は、カメラ固有性質および付帯性質(各ピクセルの特徴が、光線全体に沿って設置される)を使用して、ボクセルボリュームの中に逆投影および累積される。累積後、ボクセルボリュームは、特徴を精緻化し、TSDF値を予測するように構成される、3次元(3D)CNNを通して通過される。付加的ヘッドが、最小限の余剰算出リソースを伴って、色、意味論、およびインスタンス標識を予測するために追加されてもよい。本明細書にさらに詳細に解説されるように、本方法は、Scannet上で評価され、そのような方法は、
図2に示されるように、定量的および定質的の両方において、最先端ベースライン(深層マルチビューステレオ後、従来的TSDF融合が続く)より有意に優れていることが判定された。結果として生じる3D意味論セグメント化は、以前の研究がRGB入力のみを用いて問題を解決するように試みていないため、深度センサを使用する、以前の方法と比較された。本開示の方法および構成は、適切なセンサおよび利用可能な関連付けられるデータに従って、ウェアラブル空間コンピューティングの領域の外側の種々のシナリオに広く適用可能である。
【0055】
深度マップは、典型的には、単に、次いで、他の深度マップとともに完全3Dモデルの中に融合される、中間表現であることが観察される。対照的に、本開示の方法は、RGB画像のシーケンスをとり、直接、エンドツーエンド訓練可能様式において、完全3Dモデルを予測する。これは、ネットワークが、より多くの情報を融合させ、世界についてより良好な幾何学的初期値を学習し、はるかに良好な再構築物を生産することを可能にする。さらに、フレーム選択のようなステップを排除することによって、システムの複雑性を低減させ、かつシーケンス全体にわたるコストを償却することによって、要求される算出を低減させる。
【0056】
本開示の方法は、カメラ22、24、および26、または他の好適なカメラによって取得される画像等のRGB画像のフレームのシーケンスを取得することから開始する。次いで、フレームのそれぞれからの特徴が、2D CNNを使用して抽出される。これらの特徴は、次いで、既知のカメラ固有性質および付帯性質を使用して、3Dボリュームの中に逆投影される。しかしながら、画像ワーピングを使用して、特徴を標的ビュー錐台の中に逆投影する、以前のコストボリュームアプローチと異なり、本方法は、各フレームからの特徴を規準3Dボクセルボリュームの中に逆投影し、各ピクセルは、ボリューム内の光線にマッピングされる。本プロセスは、標的画像を選定する必要性を回避し、単一ボリュームの中へのフレームのシーケンス全体の融合を可能にする。次いで、フレームの全て内の特徴はそれぞれ、単純移動平均を使用して、3Dボクセルボリュームの中に融合される。次いで、3Dボクセルボリュームは、3D畳み込みエンコーダ-デコーダを通して通過され、特徴を精緻化する。最後に、結果として生じる3Dボクセル特徴ボリュームが、各ボクセルにおいてTSDF値を回帰させるために使用される。
【0057】
ネットワークは、ScannetおよびRIOデータセットからの屋内部屋の実際の走査上で訓練および評価される。本明細書に示されるように、本開示の方法は、正確かつ完全なメッシュを生産することによって、最先端マルチビューステレオベースラインより優位に優れている。さらに、本開示の方法は、シーケンスの終了時に1回のみ、大3D CNNを起動することを要求するため、場面全体のメッシュを生成するために要求される総算出量は、以前のマルチビューステレオ方法よりはるかに低い。
【0058】
付加的利点として、最小限の余剰算出のために、付加的ヘッドが、3D CNNに追加され、また、意味論セグメント化を予測する。3D意味論およびインスタンスセグメント化の問題は、最近、多くの注目を集めているが、全ての以前の方法は、深度が深度センサを使用して入手されと仮定している。本明細書に開示される3Dセグメント化は、Scannetベンチマークのスコアボード上での上位製品には匹敵しないが、3Dセグメント化は、マルチビューRGB画像からの3D再構築物からの3D意味論セグメント化の新しいタスクのための強力なベースラインを確立する。
【0059】
図3を参照すると、方法110の一実施形態の概略が、描写される。ステップ112では、方法110は、入力として、それぞれ、既知のカメラ固有性質および姿勢を伴う、RGB画像114の恣意的長さのシーケンスをとる。ステップ116では、これらの画像114a、114b、114cは、2D CNN118バックボーンを通して通過され、特徴120を抽出する。本ステップ116は、
図10の方程式(1)に描写される。
図10に図示されるように、2D特徴は、次いで、ピンホールカメラモデルを仮定して、既知のカメラ固有性質および付帯性質を使用して、3Dボクセルボリュームの中に逆投影される。
図10のプロセスは、カメラ光線に沿った全てのボクセルが、そのピクセルに対応する、同一特徴で充填される結果をもたらす(
図4A-4C参照)。ステップ122では、特徴120a、120b、120cは、次いで、個別の3Dボクセルボリューム124の中に逆投影される。本ステップ122は、
図10の方程式(2)に描写される。
図10は、下記に引用される。
【数1】
【0060】
依然として、
図3を参照すると、ステップ125では、特徴120a、120b、および120cは、移動平均を使用して、3Dボクセルボリューム126の中に累積される。ステップ124は、
図11の方程式(3)および(4)に描写され、これは、下記に引用される。
【数2】
特徴ボリュームは、TSDF融合に類似する加重された移動平均を使用して、シーケンス全体にわたって累積される。加重に関して、バイナリマスクが、ボクセルは、カメラのビュー錐台の内側または外側にあるかどうかを記憶する。
【0061】
いったん特徴124が、3Dボクセルボリューム126の中に累積されると、ステップ128では、3Dボクセルボリュームが、3D畳み込みエンコーダ-デコーダネットワーク130を通して通過され、特徴を精緻化し、出力されたTSDFを回帰させる。エンコーダおよびデコーダの各層は、3×3×3残差ブロックのセットを使用する。ダウンサンプリングが、3×3×3ストライド2畳み込みを用いて実装されてもよい一方、アップサンプリングは、トライリニア補間後、1×1×1畳み込みを利用し、特徴寸法を変化させてもよい。特徴寸法は、各ダウンサンプリングに伴って、2倍にされ、各アップサンプリングに伴って、二等分にされる。全ての畳み込み層は、その後、バッチノルム(バッチ正規化)関数およびReLU(正規化線形ユニット)関数が続く。
図5は、その実施例を図示する。
【0062】
依然として
図3を参照すると、いったん画像特徴120が、3Dボクセルボリューム126の中に融合されると、ステップ128aでは、3Dボクセルボリューム126は、3D CNN130を通して通過され、特徴を精緻化し、直接、3D CNNを使用して、TSDF132を回帰させる。本ステップ128は、
図5に描写され、これは、エンコーダ-デコーダアーキテクチャを図式的に示す。3D CNNは、粗いものから微細なものへの様式において、TSDFを予測し、前の層は、次の分解能を疎化するために使用される。ステップ128bでは、3D CNNはまた、付加的ヘッドを含んでもよく、これは、3Dボクセルボリューム内の特徴の意味論セグメント化を予測する。
【0063】
エンコーダからデコーダまでの付加的スキップ接続もまた、観察されない領域内の幾何学形状を完成させるために含まれてもよい。エンコーダ特徴は、1×1×1畳み込みを通して通過され、その後、バッチノルム関数およびRelu関数が続く。しかしながら、シーケンスの間に一度も観察されず、したがって、任意の特徴がそれらの中に逆投影させていない、ボクセルが存在し得る。ネットワーク内のより粗い分解能層の大受容野は、これらのエリアにわたって平滑化および充填することが可能であるが、デコーダの早期層からゼロ値を追加することは、これを取り消し、ゼロを戻すことになる。これは、観察されない領域内で幾何学形状を完成させるための3D CNNの能力を有意に低減させる。したがって、これらのボクセルに関しては、エンコーダからスキップを使用しない。代わりに、デコーダ特徴は、同一バッチノルム関数およびrelu関数を通して通過され、標準的スキップ接続の大きさにマッチングさせ、それらを追加する。例示的スキップ接続は、
図12の方程式(5)に示され、これは、下記に引用される。
【数3】
式中:xは、デコーダからの特徴であり、
yは、エンコーダからスキップされている特徴であり、
fは、畳み込みであり、
gは、バッチノルムおよびrelu関数である。
図4A-4Cは、観察されない領域の幾何学形状を完成するためのこれらのマスクされたスキップ接続の使用を図示する。
図4Aは、3Dボクセルボリュームの中への特徴の逆投影を図示し、オーバーレイされた矩形内の観察されない領域を示す。
図4Bは、3D CNN内の単純なスキップ接続が有意なアーチファクトにつながる様子を示す。
図4Cは、マスクされたスキップ接続が、アーチファクトを低減させ、3D CNNが、観察されない領域の幾何学形状をより良好に完成させることを可能にする様子を示す。
【0064】
エンコーダ-デコーダ後、3D CNNの1×1×1畳み込みに続く、tanh活性化が、最終TSDF値132を回帰させるために使用される。加えて、中間出力ヘッドが、アップサンプリングに先立って、分解能毎に、3D CNN内に含まれてもよい。これは、中間教師として使用され、ネットワーク訓練をより高速化することに役立ち、かつ後の分解能が、焦点を上に表面の近くの精緻化予測に焦点を当て、より粗い分解能がすでに確信を得ている、大空領域を無視するように誘導する。意味論セグメント化モデルに関して、付加的1×1×1畳み込みが、セグメント化ロジットを予測するために含まれてもよい(最終分解能においてのみ)。
【0065】
特徴は、光線全体に沿って逆投影されるため、ボクセルボリュームは、稠密に充填され、したがって、本方法は、エンコーダ内で疎畳み込みを利用することができない。しかしながら、ハード閾値を中間出力TSDFに適用することによって、デコーダは、疎化され、以前の方法に類似する疎畳み込みの使用を可能にすることができる。実践では、モデルが、疎畳み込みを必要とせず、4cm3ボクセル分解能において訓練され得ることが見出された。特徴ボリュームは、疎化されないが、マルチ分解能出力が、最終的に予測されるTSDFを疎化するために使用される。固定距離閾値を超えることが予測される任意のボクセルは、続分解能において切り捨てられる。
【0066】
実施例:
【0067】
以下は、RGB画像のシーケンスから場面の3D再構築物を生成するための方法の例示的ユースケースを説明する。Resnet50-FPNが、使用され、その後、Kirilov, A., Girshick, R., He, K., Dollar, P.: Panoptic feature pyramid networks; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition; pp. 6399-6408 (2019)内で使用される方法と、我々の2Dバックボーンとしての32個の出力特徴チャネルのマージが続いた。特徴は、4cm3ボクセルグリッドの中に逆投影される。我々の3D CNNは、4スケール分解能ピラミッドから成り、分解能を半分にする度に、チャネルの数を2倍にする。エンコーダは、それぞれ、各スケールにおいて、(1,2,3,4)残差ブロックから成り、デコーダは、(3,2,1)残差ブロックから成る。
【0068】
最初に、全てのフレームが逆伝搬のためにメモリ内に保たれる必要があるため、部屋の一部を網羅する、短シーケンスを使用して、ネットワークをエンドツーエンドで訓練する。10個のフレームシーケンス、1e-3の初期学習レート、および96×96×56ボクセルグリッドを用いて、訓練する。35k反復後、2Dネットワークをフリーズさせ、3Dネットワークを微調整する。これは、2D CNNからの全ての活性化をメモリ内に保つ必要性を除去し、特徴ボリュームのインプレース累積を可能にし、メモリをフレームの数への依存から脱却させる。100個のフレームシーケンスを用いて、4e-4の学習レートにおいて、ネットワークを微調整する。
【0069】
試験時、微調整の間と同様に、特徴ボリュームをインプレースで累積し、恣意的長さのシーケンス(多くの場合、Scannetに関しては、数千個のフレーム)に作用することを可能にし、400×400×104サイズのボクセルグリッドを使用する。
【0070】
ネットワークが完成するための訓練は、16のバッチサイズおよび同期されたバッチノルムを用いて、8つのTitan RTX GPU上で約36時間かかる。
【0071】
グラウンドトゥルース準備および損失:
【0072】
図6A-6Eを参照すると、l1個の損失をグラウンドトゥルースTSDF値に対して使用して、マルチスケールTSDF再構築を監督する。Dai, A., Qui, C.R., Niebner, M.: Shape completion using 3d-encoder predictor cnns and shape synthesis (2016)の3Dエンコーダ-デコーダの使用に続いて、l1個の損失を適用する前に、予測および標的値を対数変換し、グラウンドトゥルース内で観察された(すなわち、厳密に1未満のTSDF値を有する)ボクセルに関する損失のみを逆伝搬する。しかしながら、ネットワークが壁の背後および部屋の外側のアーチファクトを幻影化しないように防止するために、我々はまた、その垂直列全体が1に等しい、全てのボクセルをマークし、これらのエリア内にもペナルティを科す。これに関する直感は、垂直列全体が観察されなかった場合、おそらくは、部屋内に存在しなかったということになる。
【0073】
さらに、より微細な分解能層にさらなる詳細を学習するために、前の分解能内の切り捨て距離のある割合(0.97)を超えなかった、ボクセルに関する損失のみを算出する。これがない場合、後の層損失は、表面から離れ、空として容易に分類される、多数のボクセルによって左右され、効果的に学習しないように妨げる。
【0074】
グラウンドトゥルースTSDFを構築するために、訓練に先立って、TSDF融合を、各分解能において、完全シーケンス上で起動する。これは、単にオンザフライで短訓練バッチシーケンスを融合させることより少ない雑音およびより完全なグラウンドトゥルースをもたらす。しかしながら、これは、ここで我々が訓練バッチに関するTSDFの適切な領域を見出す必要があるという厄介な問題を追加する。2ステッププロセスにおいて、これを解決する。
【0075】
訓練の間、カメラ錐台を使用して、本TSDFの関連部分をクロップする。
【0076】
関連部分をクロップするために、最初に、フレームのバッチからの全ての深度点を逆投影する。これらの点の重心は、再構築ボリューム内の点の中心のために使用される。我々はまた、データ拡張のために、垂直軸を中心としたランダム回転を適用する。我々が、訓練時、常時、可視幾何学形状を我々のボリューム内の中心に置く場合、ネットワークは、壁をはるかに越えた幾何学形状を幻影化しないように学習する(ネットワークが、ボリュームの境界が可視エリアに適合するという事実を利用する)機会を有しない。これは、ネットワークに、試験時、ボリュームがはるかに大きいとき、対処方法を把握させない。したがって、中心に置いた後、カメラの視認方向に沿って、ランダム偏移を適用する(したがって、ネットワークは、可視幾何学形状の背後の幾何学形状を幻影化しないように学習することを強いられる)。
【0077】
完全グラウンドトゥルース再構築物であっても、不完全であるため、Dai, A., Diller, C., Niebner, M.; SG-nn Sparse generative neural networks for self-supervised scene completion of rgb-d scans, arXiv preprint arXiv:1912.00036 (2019)に開示されるものに類似損失スキームを採用し、グラウンドトゥルースTSDFが厳密に1未満(すなわち、既知の空ボクセル(T=-1)および近表面(|T|<1))である、損失のみを適用する。しかしながら、我々はまた、場面の外側にある、T=1を伴う、ボクセルもマークし、また、それら上にもペナルティを科し、上記に述べられた幻影化問題に役立つ。
【0078】
ネットワークが、幾何学形状を完成させるように学習することを所望するが、ビューから完全に外にある幾何学形状を完全に幻影化させることを求めることは、非常に困難である。したがって、可視錐台をクリッピングすることによって、我々がペナルティを科したTSDFの部分までさらに低減させる。マスクを、バッチ再構築物内で可視(T<1)である、ボクセルから構築し、次いで、それを数ボクセル拡張させる(ネットワークに、可視錐台を若干越えて幾何学形状を完成させる)。さらに、部分的に可視である、任意のインスタンスが、マスク内に完全に含まれる。本マスクは、訓練のために使用される、完全TSDFに適用される。
【0079】
結果:
【0080】
データセットおよびメトリック:
【0081】
ScanNet上の実施例を評価し、これは、707個の明確に異なる空間を横断した2.5M画像から成る。標準的訓練/検証/試験スプリットを使用する。
【0082】
標準的2D深度メトリックおよび3Dメトリックの両方(
図9参照)を使用して、かつ定質的に(
図7参照)、我々の3D再構築物を評価する。
図9は、実施例に従った3D再構築物が、全ての点において、DPSNetおよびGPMVSを使用して、生成された3D再構築物より正確であることを示す。
【0083】
以前の研究は、完全3D場面をマルチビュー画像から再構築するように試みていないため、最先端マルチビューステレオアルゴリズムとの比較をする。これらを3Dで評価するために、その出力をとり、標準的TSDF融合を使用して、それらをTSDFの中に融合させる。
【0084】
最近傍ルックアップを頂点上で使用して、我々のメッシュ上で予測された標識をグラウンドトゥルースメッシュ上に転移させることによって、我々の意味論セグメント化を評価し、次いで、
図8に示されるように、Dai, A., Chang, A.X., Savva, M., Halber M., Funkhouser, T., Niebner, M.; Scannet: Richly-annotated 3d reconstructions of indoor scenes; Proc. Computer Vision and Pattern Recognition (CVPR), IEEE (2017)に定義される標準的IOUベンチマークを報告する。
図8は、本明細書に開示される方法に従った我々の意味論セグメント化が、深度センサを使用せずに、3D場面を正確にセグメント化することを示す。以前の研究は、RGB画像のみから3D意味論セグメント化を行うように試みていない。
【0085】
結論:
【0086】
本研究では、3D場面再構築に対する新規アプローチを提示する。着目すべきこととして、我々のアプローチは、深度入力を要求せず、時間的に拘束されず、長フレームシーケンスの統合を可能にし、メッシュを予測的に完成させ、意味論等の他の量の効率的算出をサポート。本研究が、3D場面再構築を解決するための新しい道を開くことを希望する。
【0087】
本発明の種々の例示的実施形態が、本明細書に説明される。これらの実施例は、非限定的意味で参照される。それらは、本発明のより広く適用可能な側面を例証するために提供される。種々の変更が、説明される本発明に行われてもよく、本発明の真の精神および範囲から逸脱することなく、均等物が代用されてもよい。加えて、多くの修正が、特定の状況、材料、組成物、プロセス、プロセス作用、またはステップを本発明の目的、精神、または範囲に適合させるために行われてもよい。さらに、当業者によって理解されるであろうように、本明細書で説明および例証される個々の変形例はそれぞれ、本発明の範囲または精神から逸脱することなく、他のいくつかの実施形態のうちのいずれかの特徴から容易に分離される、またはそれらと組み合わせられる、離散コンポーネントおよび特徴を有する。全てのそのような修正は、本発明と関連付けられる請求項に記載の範囲内であることが意図される。
【0088】
本発明は、本主題のデバイスを使用して実施され得る方法を含む。本方法は、そのような好適なデバイスを提供する行為を備えてもよい。そのような提供は、エンドユーザによって実施されてもよい。換言すると、「提供する」行為は、単に、エンドユーザが、本主題の方法において必要なデバイスを取得する、それにアクセスする、それに接近する、それを位置付ける、それを設定する、それを活性化する、それに電源を入れる、または別様にそれを提供するように作用することを要求する。本明細書に列挙される方法は、論理的に可能な列挙されたイベントの任意の順序ならびにイベントの列挙された順序で行われてもよい。
【0089】
本発明の例示的側面が、材料選択および製造に関する詳細とともに、上記に記載されている。本発明の他の詳細に関して、これらは、前述の参照特許および刊行物に関連して理解され、概して、当業者によって公知である、または理解され得る。同じことが、一般的または理論的に採用されるような付加的行為の観点から、本発明の方法ベースの側面に関して当てはまり得る。
【0090】
加えて、本発明は、随意に、種々の特徴を組み込む、いくつかの実施例を参照して説明されているが、本発明は、発明の各変形例に関して検討されるように説明または図示されるものに限定されるものではない。種々の変更が、説明される本発明に行われてもよく、均等物(本明細書に列挙されるか、またはある程度の簡潔目的のために含まれないかどうかにかかわらず)は、本発明の精神および範囲から逸脱することなく代用されてもよい。加えて、値の範囲が提供される場合、その範囲の上限と下限との間の全ての介在値および任意の他の述べられた値または述べられた範囲内の介在値が、本発明内に包含されるものと理解されたい。
【0091】
また、説明される本発明の変形例の任意の随意の特徴は、独立して、または本明細書に説明される特徴のうちの任意の1つ以上と組み合わせて、記載および請求され得ることが検討される。単数形の項目の言及は、複数の同一項目が存在する可能性を含む。より具体的には、本明細書および本明細書に関連付けられる請求項で使用されるように、単数形「a」、「an」、「said」、および「the」は、別様に具体的に述べられない限り、複数の言及を含む。換言すると、冠詞の使用は、上記の説明ならびに本発明と関連付けられる請求項における本主題のアイテムのうちの「少なくとも1つ」を可能にする。さらに、そのような請求項は、任意の随意の要素を除外するように起草され得ることに留意されたい。したがって、本文言は、請求項の要素の列挙と関連する「単に」、「のみ」、および同等物等の排他的専門用語の使用、または「消極的」限定の使用のための先行詞としての役割を果たすことが意図される。
【0092】
そのような排他的専門用語を使用しなければ、本発明と関連付けられる請求項における用語「~を備える(comprising)」は、所与の数の要素が請求項で列挙されるかどうかにかかわらず、任意の付加的要素の包含を可能にするものとする、または特徴の追加は、そのような請求項に記載される要素の性質を変換すると見なされ得る。本明細書で具体的に定義される場合を除いて、本明細書で使用される全ての技術および科学用語は、請求項の正当性を維持しながら、可能な限り広い一般的に理解されている意味を与えられるべきである。
【0093】
本発明の範疇は、提供される実施例および/または本明細書に限定されるべきではなく、むしろ、本開示と関連付けられる請求項の用語の範囲のみによって限定されるものとする。
【国際調査報告】