(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-06
(54)【発明の名称】大規模なNeRFに向けた不確実性を考慮した融合
(51)【国際特許分類】
G06T 7/00 20170101AFI20241029BHJP
【FI】
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024525800
(86)(22)【出願日】2022-10-20
(85)【翻訳文提出日】2024-05-01
(86)【国際出願番号】 US2022047232
(87)【国際公開番号】W WO2023086192
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-12
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-10-11
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ズオン、 ビンビン
(72)【発明者】
【氏名】シュルター、 サミュエル
(72)【発明者】
【氏名】ツァイ、 イ-シューアン
(72)【発明者】
【氏名】リウ、 ブユ
(72)【発明者】
【氏名】リ、 ナンボ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA09
5L096BA08
5L096BA20
5L096CA02
5L096HA11
5L096KA04
5L096KA15
(57)【要約】
大規模なシーンの高忠実度の新規の視点合成と3D再構成を実現する方法が開示される。この方法には、複数のビデオ画像キャプチャ装置から受信したビデオストリームから画像を取得すること、大規模な3Dシーンを表す別々の画像クラスタに画像をグループ化すること、ニューラルラディアンスフィールド(NeRF)および不確実性多層パーセプトロン(MLP)を訓練することが含まれる。画像クラスタのそれぞれに対して、大規模な3Dシーンについての複数のNeRFおよび複数の不確実性MLPを生成し、複数のNeRFにレンダリング損失とエントロピー損失とを適用し、複数のNeRFに不確実性に基づく融合を実行する。融合されたNeRFを定義し、複数のNeRFと複数の不確実性MLPとを共同で微調整し、推論中に大規模な3Dシーンの新規の視点合成に融合NeRFを適用する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
大規模なシーンのための高忠実度の新規の視点合成と3D再構成とを実現するための方法であって、
複数のビデオ画像キャプチャ装置から受信したビデオストリームから画像を取得することと、
大規模な3Dシーンを表す別々の画像クラスタに前記画像をグループ化することと、
前記画像クラスタの各々に対してニューラルラディアンスフィールド(NeRF)および不確実性多層パーセプトロン(MLP)を訓練して、前記大規模な3Dシーンについての複数のNeRFおよび複数の不確実性MLPを生成することと、
前記複数のNeRFにレンダリング損失とエントロピー損失とを適用することと、
前記複数のNeRFに対して不確実性に基づく融合を実行して融合されたNeRFを定義し、前記複数のNeRFと前記複数の不確実性MLPとを共同で微調整することと、
推論中に、前記大規模な3Dシーンの新規の視点合成に前記融合されたNeRFを適用することとを含む、方法。
【請求項2】
前記複数の不確実性MLPは共同で訓練され、前記複数のNeRFは並行して訓練される、請求項1に記載の方法。
【請求項3】
各3Dの点における前記複数のNeRFの各々についての密度予測の幾何学的不確実性が、前記レンダリング損失のヤコビアンに基づいて導出され、各密度予測に対する近似ガウス分布が得られる、請求項1に記載の方法。
【請求項4】
NeRFスティッチングが、不確実性ネットワークの暗黙的な不確実性フィールドを6D連続関数として回帰することによって学習される、請求項1に記載の方法。
【請求項5】
前記不確実性ネットワークは、前記大規模な3Dシーン内の3Dの点について、前記3D点の空間的位置、視認方向、および距離を入力とし、前記複数のNeRFの各NeRFに対して、不確かさの定量化を出力する、請求項4に記載の方法。
【請求項6】
前記3Dの点に関連付けられた6Dの座標が、前記複数の不確実性MLPのうちの1つの不確実性MLPを照会するために適用される、請求項5に記載の方法。
【請求項7】
前記複数のNeRFの各々の訓練画像にアクセスすることなく、訓練画像のカメラポーズのみを使用する投票戦略を採用することにより、不確実性フィールドを学習する、請求項1に記載の方法。
【請求項8】
大規模なシーンのための高忠実度の新規の視点合成と3D再構成とを実現するためのコンピュータ可読プログラムを含む非一過性コンピュータ可読記憶媒体であって、前記コンピュータ可読プログラムは、コンピュータ上で実行されると、前記コンピュータに、
複数のビデオ画像キャプチャ装置から受信したビデオストリームから画像を取得するステップと、
大規模な3Dシーンを表す別々の画像クラスタに前記画像をグループ化するステップと、
前記画像クラスタの各々に対してニューラルラディアンスフィールド(NeRF)および不確実性多層パーセプトロン(MLP)を訓練して、前記大規模な3Dシーンについての複数のNeRFおよび複数の不確実性MLPを生成するステップと、
前記複数のNeRFにレンダリング損失とエントロピー損失とを適用するステップと、
前記複数のNeRFに対して不確実性に基づく融合を実行して融合されたNeRFを定義し、前記複数のNeRFと前記複数の不確実性MLPとを共同で微調整するステップと、
推論中に、前記大規模な3Dシーンの新規の視点合成に前記融合されたNeRFを適用するステップとを実行させる、非一過性コンピュータ可読記憶媒体。
【請求項9】
前記複数の不確実性MLPは共同で訓練され、前記複数のNeRFは並行して訓練される、請求項8に記載の非一過性コンピュータ可読記憶媒体。
【請求項10】
各3Dの点における前記複数のNeRFの各々についての密度予測の幾何学的不確実性が、前記レンダリング損失のヤコビアンに基づいて導出され、各密度予測に対する近似ガウス分布が得られる、請求項8に記載の非一過性コンピュータ可読記憶媒体。
【請求項11】
NeRFスティッチングが、不確実性ネットワークの暗黙的な不確実性フィールドを6D連続関数として回帰することによって学習される、請求項8に記載の非一過性コンピュータ可読記憶媒体。
【請求項12】
前記不確実性ネットワークは、前記大規模な3Dシーン内の3Dの点について、前記3D点の空間的位置、視認方向、および距離を入力とし、前記複数のNeRFの各NeRFに対して、不確かさの定量化を出力する、請求項11に記載の非一過性コンピュータ可読記憶媒体。
【請求項13】
前記3Dの点に関連付けられた6Dの座標が、前記複数の不確実性MLPのうちの1つの不確実性MLPを照会するために適用される、請求項12に記載の非一過性コンピュータ可読記憶媒体。
【請求項14】
前記複数のNeRFの各々の訓練画像にアクセスすることなく、訓練画像のカメラポーズのみを使用する投票戦略を採用することにより、不確実性フィールドを学習する、請求項8に記載の非一過性コンピュータ可読記憶媒体。
【請求項15】
大規模なシーンのための高忠実度の新規の視点合成と3D再構成とを実現するためのシステムであって、
メモリと、
前記メモリと通信する1つ以上のプロセッサとを含み、該プロセッサは、
複数のビデオ画像キャプチャ装置から受信したビデオストリームから画像を取得し、
大規模な3Dシーンを表す別々の画像クラスタに前記画像をグループ化し、
前記画像クラスタの各々に対してニューラルラディアンスフィールド(NeRF)および不確実性多層パーセプトロン(MLP)を訓練して、前記大規模な3Dシーンについての複数のNeRFおよび複数の不確実性MLPを生成し、
前記複数のNeRFにレンダリング損失とエントロピー損失とを適用し、
前記複数のNeRFに対して不確実性に基づく融合を実行して融合されたNeRFを定義し、前記複数のNeRFと前記複数の不確実性MLPとを共同で微調整し、
推論中に、前記大規模な3Dシーンの新規の視点合成に前記融合されたNeRFを適用するように構成されているシステム。
【請求項16】
前記複数の不確実性MLPは共同で訓練され、前記複数のNeRFは並行して訓練される、請求項15に記載のシステム。
【請求項17】
各3Dの点における前記複数のNeRFの各々についての密度予測の幾何学的不確実性が、前記レンダリング損失のヤコビアンに基づいて導出され、各密度予測に対する近似ガウス分布が得られる、請求項15に記載のシステム。
【請求項18】
NeRFスティッチングが、不確実性ネットワークの暗黙的な不確実性フィールドを6D連続関数として回帰することによって学習される、請求項15に記載のシステム。
【請求項19】
前記不確実性ネットワークは、前記大規模な3Dシーン内の3Dの点について、前記3D点の空間的位置、視認方向、および距離を入力とし、前記複数のNeRFの各NeRFに対して、不確かさの定量化を出力する、請求項18に記載のシステム。
【請求項20】
前記3Dの点に関連付けられた6Dの座標が、前記複数の不確実性MLPのうちの1つの不確実性MLPを照会するために適用される、請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、3Dシーン再構成に関し、より詳細には、大規模なNeural Radiance Field(NeRF)に向けた不確実性を考慮した融合に関する。
【背景技術】
【0002】
関連技術の説明
ニューラル陰関数は、3Dシーン表現を実現する効果的な方法であることが証明されている。Neural Radiance Field(NeRF)は、3D空間の形状と放射輝度とを連続関数として表現する強力なツールとして登場した。これにより、新規の視点の合成において前例のないレベルの忠実度が実現する。NeRFの核心は、多層パーセプトロン(MLP)を利用して、様々な方向から見た各3D点の色と密度とを符号化することである。NeRFはその有効性にもかかわらず、MLPの容量が限られているため、これまでは小規模なシーンに限られていた。言い換えれば、NeRFは一定の容量でスケールと解像度とをトレードオフしなければならない。
【発明の概要】
【0003】
大規模なシーンのための高忠実度の新規の視点合成と3D再構成とを実現するための方法が提示される。この方法は、複数のビデオ画像キャプチャ装置から受信したビデオストリームから画像を取得することと、大規模な3Dシーンを表す別々の画像クラスタに前記画像をグループ化することと、前記画像クラスタの各々に対してニューラルラディアンスフィールド(NeRF)および不確実性多層パーセプトロン(MLP)を訓練して、前記大規模な3Dシーンについての複数のNeRFおよび複数の不確実性MLPを生成することと、前記複数のNeRFにレンダリング損失とエントロピー損失とを適用することと、前記複数のNeRFに対して不確実性に基づく融合を実行して融合されたNeRFを定義し、前記複数のNeRFと前記複数の不確実性MLPとを共同で微調整することと、推論中に、前記大規模な3Dシーンの新規の視点合成に前記融合されたNeRFを適用することとを含む。
【0004】
大規模なシーンのための高忠実度の新規の視点合成と3D再構成とを実現するためのコンピュータ可読プログラムを含む非一過性コンピュータ可読記憶媒体が提示される。前記コンピュータ可読プログラムは、コンピュータ上で実行されると、前記コンピュータに、複数のビデオ画像キャプチャ装置から受信したビデオストリームから画像を取得するステップと、大規模な3Dシーンを表す別々の画像クラスタに前記画像をグループ化するステップと、前記画像クラスタの各々に対してニューラルラディアンスフィールド(NeRF)および不確実性多層パーセプトロン(MLP)を訓練して、前記大規模な3Dシーンについての複数のNeRFおよび複数の不確実性MLPを生成するステップと、前記複数のNeRFにレンダリング損失とエントロピー損失とを適用するステップと、前記複数のNeRFに対して不確実性に基づく融合を実行して融合されたNeRFを定義し、前記複数のNeRFと前記複数の不確実性MLPとを共同で微調整するステップと、推論中に、前記大規模な3Dシーンの新規の視点合成に前記融合されたNeRFを適用するステップとを実行させる。
【0005】
大規模なシーンのための高忠実度の新規の視点合成と3D再構成とを実現するためのシステムが提示される。このシステムは、メモリと、前記メモリと通信する1つ以上のプロセッサとを含み、該プロセッサは、複数のビデオ画像キャプチャ装置から受信したビデオストリームから画像を取得し、大規模な3Dシーンを表す別々の画像クラスタに前記画像をグループ化し、前記画像クラスタの各々に対してニューラルラディアンスフィールド(NeRF)および不確実性多層パーセプトロン(MLP)を訓練して、前記大規模な3Dシーンについての複数のNeRFおよび複数の不確実性MLPを生成し、前記複数のNeRFにレンダリング損失とエントロピー損失とを適用し、前記複数のNeRFに対して不確実性に基づく融合を実行して融合されたNeRFを定義し、前記複数のNeRFと前記複数の不確実性MLPとを共同で微調整し、推論中に、前記大規模な3Dシーンの新規の視点合成に前記融合されたNeRFを適用するように構成されている。
【0006】
これらおよび他の特徴および利点は、添付の図面と関連して読まれる、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0007】
本開示は、以下の図を参照して、好ましい実施形態の以下の説明において詳細を提供する。
【0008】
【
図1】本発明の実施形態による、大規模な3Dシーン表現のためのNeRFの例示的な不確実性に基づく融合のブロック/フロー図である。
【0009】
【
図2】本発明の実施形態による、例示的な大規模な3Dシーン表現のブロック/フロー図である。
【0010】
【
図3】本発明の実施形態による、大規模なシーンのための高忠実度の新規の視点合成および3D再構成を実現するための実用的なアプリケーションのブロック/フロー図である。
【0011】
【
図4】本発明の実施形態による、大規模なシーンのための高忠実度の新規の視点合成および3D再構成を達成するための例示的な処理システムを示す図である。
【0012】
【
図5】本発明の実施形態による、大規模なシーンのための高忠実度の新規の視点合成および3D再構成を達成するための例示的な方法のブロック/フロー図である。
【発明を実施するための形態】
【0013】
3Dシーンの暗黙的なニューラル表現は、近年、新規の視点合成(自由な視点レンダリング)を大きく進化させている。特に、Neural Radiance Field(NeRF)は強力な表現として際立っている。古典的な体積レンダリングに基づいて構築されたNeRFは、多層パーセプトロン(MLP)を使用して3D体積内の体積密度と色とを回帰し、視点に依存する効果を持つ複雑なシーンのレンダリングで前例のないレベルの忠実度を達成する。
【0014】
印象的ではあるが、単一のMLPとして表現されるNeRFには欠点もある。第1に、NeRFは、単一のMLPの容量が限られているため、固有のスケール解像度のトレードオフに苦しんでおり、それゆえ小規模なシーンに制限されている。第2に、シーン全体を単一のMLPとして表現することは、外観の複雑さに応じてシーンのそれぞれの部分にそれぞれの能力を柔軟に割り当てたり、実用的な必要性に応じて空間全体の表現の粒度を変化させたりするのに適していない。例示的な実施形態は、複数のNeRFを融合するロバストな方法が利用可能であれば、これらの問題が軽減されることを示し、この目標に向けて暗黙的な不確実性フィールドを回帰することを提案する。
【0015】
スケーラビリティの問題は、NeRFでは比較的あまり研究されてこなかった。存在するのは、体積(または空間)分解戦略である。これらの手法では、空間を一定の方法で分割し、各構成領域を別々のNeRFで表現することで、学習速度の高速化を実現している。この戦略は、点群から3D形状フィッティングをスケールアップするために適用されてきたが、画像のみから暗黙的な表現を学習する場合には、それほど便利ではない。すなわち、カメラ光線に沿ってレンダリングが行われるとすぐに、3D空間内の点に緊密に結合される。空間クラスタリングまたは分解の代わりに、例示的な実施形態は、代替的な観点、すなわち画像クラスタリングに基づく合成NeRFからスケーラビリティ問題に取り組む。これは、画像クラスタリングによって局所性を確立する、古典的な大規模なマルチ視点ステレオシステムであるCMVSに奮起させられている。ここでは、画像がクラスタを形成し、それぞれが空間の一部に焦点を当て、それぞれの部分間で重なりが存在するように、画像が意図的に撮影されると仮定する。画像レベル分解には、個々のNeRFを別々に並行して訓練できるという利点がある。この分離により、各NeRFが画像クラスタでカバーされる領域に完全に集中するため、より高い忠実度が得られることが観察される。
【0016】
このような画像クラスタリングに基づく合成NeRFは、空間全体の表現容量や粒度を自在に変化させる便利な手段でもある。解像度の異なるレベルで対象となる画像クラスタごとに、別々のNeRFを訓練することもできる。
【0017】
品質と柔軟性において有利であるにもかかわらず、個別の訓練では、異なるNeRFの領域をまたいでも、あたかも1つのNeRFであるかのように自由な視点レンダリングを可能にするために、個々のNeRFをすべてマージする追加ステップが必要になる。この目的のために、例示的な実施形態は、MLPを使用して、不確実性フィールドを6D連続関数として回帰する。不確実性ネットワークは、空間位置、視線方向、距離を含む6D座標を入力とし、個々のNeRFの不確かさを出力する。こうして得られた不確かさの定量化は、NeRFの融合に採用される。さらに、例示的な実施形態は、訓練画像にアクセスしなくても、NeRFスティッチングのための効果的な戦略を導入している。また、この例示的な方法は、クラウドソーシングされたNeRFを融合し、補強するアプリケーションへの扉を開くものであることも言及しておく価値がある。
【0018】
少なくとも、画像クラスタリングに基づく合成NeRFによって、NeRFのスケーラビリティと粒度の柔軟性とを高めることに貢献する。例示的な実施形態は、MLPを使用して6Dの不確実性フィールドを回帰することによるNeRF融合スキームを提示し、実世界の部屋レベルの屋内シーンにおける自由な視点レンダリングの最先端の品質を実証する。
【0019】
NeRFは、体積密度oと指向性放射輝度cとを含む暗黙的なニューラル放射輝度フィールドとしてシーンを表現する。MLPによって実現される放射輝度フィールドは、体積レンダリングとそれに続く画像再構成損失とによって最適化される。具体的には、カメラ中心oから視線方向dに沿って撮影されたピクセルが与えられると、体積レンダリングカラーCは次のようになる。
【数1】
【0020】
ここで、r(t)=o+tdであり、[t
n,t
f]および
【数2】
で囲まれた距離tを変化させながら光線に沿って点をトレースする。
【0021】
画像クラスタリングに基づく合成NeRFに関して、例示的な実施形態は、画像が意図的に、各々がシーンの領域に焦点を当て、互いに重なり合う多数の画像クラスタを含むようにキャプチャされる問題設定を研究する。特に、以下の2つの構成について説明する。
【0022】
ローカル-ローカルNeRFは、個々のNeRFのすべてが対等な立場にある単純なシナリオである。各画像クラスタは、同じ所望の解像度でシーンの部分空間に均等に焦点を合わせる。
【0023】
グローバル-ローカルNeRFでは、シーン全体を同じ粒度レベルで再構成することは望まれず、好みが分かれる。例えば、屋内環境では、NeRFが部屋全体の全体的な構造だけをとらえ、その一方で、関心のある領域のより詳細な部分を検査するためのズームイン機能を備えていることが望まれるかもしれない。例示的な実施形態では、グローバルなNeRFとローカルなNeRFとを別々に活用して、それぞれの粒度でシーンをキャプチャする。
【0024】
このフレームワークは、重要な観察によって動機付けられている。つまり、個々の画像クラスタによって十分にカバーされている画素では、対応する個々のNeRFは、すべての画像で訓練された単一のNeRFよりも忠実度が高い。これは、前者の密度が高いためである。しかし、カメラの視点が個々の異なるNeRFの領域をまたぐと、すぐにアーチファクトが現れる。これは、自由な視点レンダリングでは避けられないシナリオである。したがって、個々のNeRFをシームレスにつなぎ合わせて自由な視点レンダリングを行うにはどうすればよいかは、依然として重要な問題である。この例示的なフレームワークは、最近の空間クラスタリングに基づく合成NeRF、例えばDecomposed Radiance Fields(DeRF)とも密接に関連している。
【0025】
NeRFスティッチングの学習に関して、それぞれのNeRFをつなぎ合わせる最初のヒューリスティックな方法は、視認性に基づいたワンショット選択である。すなわち、レンダリングされている光線に沿った各点について、その点を表示する訓練画像の最大数を持つNeRFのみを照会することを選択できる。さらに、このようなパイプラインにおけるNeRFの選択は、視線方向および距離も考慮すべきであると主張する。直感的には、視認性のカウントは、レンダリングされる視点から遠い点を観察する画像を軽視するはずであり、逆もまた然りである。さらに、このアプローチはある程度は機能するが、主に原理的な学習と最適化の欠如が原因で、満足のいくものにはほど遠いことが観察される。
【0026】
暗黙的な不確実性フィールドに関して、例示的な方法は、暗黙的な不確実性フィールドを6D連続関数として回帰することにより、NeRFスティッチングを学習することを提案している。MLPとして実装されたこの不確実性ネットワークは、点の空間位置(x,y,z)、視線方向d、距離tを入力とし、
【数3】
を出力する。各要素w
iは、NeRF
iの予測信頼度に対応する。学習中、ポーズされた訓練画像からランダムにサンプリングされた画素(c,d)が与えられると、逆伝搬された光線に沿った点r(t)が、視線方向dとともに各NeRFに渡され、体積密度と色とを照会する。さらに、その点に関連付けられた前述の6D座標は、不確実性MLPを照会するために適用される。
【0027】
その後、個々のNeRFは以下のようにつなぎ合わされ、体積レンダリングされる。
【数4】
【数5】
【0028】
ネットワークは画像再構成の損失によって訓練される。
【数6】
【0029】
なお、個々のNeRFは画像クラスタごとにあらかじめ並列に訓練され、不確実性MLPのみが最適化される。さらに、位置エンコーディングと直交位相とが適用される。
【0030】
画像なしの暗黙の不確実性フィールドに関しても、例示的な方法は、2つの理由から、個々のNeRFの訓練画像にアクセスしなくても、不確実性フィールドを学習する。第1に、このことは、後に詳述するように、画像を用いた先のフレームワークの根底にある行動を理解する上で光明となる。第2に、NeRFの軽量さがシーン圧縮の目的に適していることから、ストレージが心配な場合は、訓練後に画像が保存されなくなる可能性がある。訓練画像のカメラポーズのみを使用する、シンプルで効果的な視点投票戦略を採用する。各訓練反復において、例示的な実施形態は、画像とその中の画素とをランダムに選択し、6D座標が関連付けられている不確実性MLPに、光線に沿った点を入力する。
【0031】
選択された画像が画像クラスタkに属するとすると、ネットワーク出力は次のような損失で直接教師される。
【数7】
【0032】
ここで、wvoteはwk=lのワンホットベクタである。要するに、各反復は、特定の方向と距離とから見た空間点に対して、画像クラスタから1票を投じる。訓練が進むにつれて、不確実性ネットワークは、それぞれの力のソース間の競争のバランスをとり、視点分布を最もよく説明する滑らかな関数を見つけなければならない。
【0033】
空間クラスタリングに基づくアプローチDeRFとの関係に関しては、提案された画像クラスタリングに基づく分解にはいくつかの利点があり、分散コンピューティングにも適していることが主張される。確かに、模範的な方法は逐次的な性質を持っているため、原理的には、すべての画像を使った共同訓練に比べて最適とは言えない。しかし、個々のNeRFの忠実度の高さがもたらす利点は、逐次的な手順や縫合の不完全さから生じる潜在的な欠陥を上回ることが経験的に観察されている。
【0034】
この食い違いにもかかわらず、DeRFのような空間クラスタリングに基づく手法を排除することが目的ではないことを述べておく。むしろ、DeRFの強みは、個々のNeRFの内部にも適用できるという点で、実際、例示的な方法と互換性がある。
【0035】
図1は、本発明の実施形態による、大規模な3Dシーン表現のためのNeRFの例示的な不確実性に基づく融合のブロック/フロー図である。
【0036】
図1は、大規模な3Dシーン表現のために提案されたNeRFの不確実性に基づく融合のパイプライン100(または画像クラスタリングに基づく合成NeRFスキーム100)を示している。カメラ110は、シーン(例えばアパート)を完全にカバーする画像120のセットをキャプチャする。画像120はそれぞれのクラスタ130にグループ化され、それぞれがシーンの小さな部分に焦点を当てる。各画像クラスタ130について、例示的な方法は、標準的なNeRFフレームワークと同様に、並列に個々のNeRFを訓練する。次に、訓練された個々のNeRFが固定された状態で、不確実性150に基づいてNeRFを融合することにより、すべてのNeRFの不確実性MLP140が一緒に訓練される。
【0037】
図2は、本発明の実施形態による、例示的な大規模な3Dシーン表現のブロック/フロー図である。
【0038】
単一のNeRFがモデル化できる範囲を超える大規模なシーン200については、例示的な実施形態は、画像コレクションを4つのグループにクラスタリングし、例示的な実施形態は、不確実性を伴う各クラスタについて個別のNeRFを訓練する。例示的な3D点に対して、例示的な実施形態は、この点におけるそれぞれの不確実性に基づいてNeRF1とNeRF2とを融合し、融合された密度と色との予測を得る。例示的な実施形態では、個々のNeRFを個別に並列に訓練し、その後に不確実性予測ネットワークを訓練する。訓練中、例示的な実施形態は、視点170を合成し、レンダリング損失とエントロピー損失160とを適用して、不確実性ネットワークを最適化する。例示的な実施形態では、各サブNeRFを訓練した後、すべての不確実性ネットワークを共同で訓練する。推論中、訓練されたNeRFと不確実性とは、新規の視点170をレンダリングするために適用される。
【0039】
図1および
図2に関して、例示的な実施形態は、前例のない大規模なシーンにおいて、高忠実度の新規の視点合成および3D再構成を達成するNeRFを開発することを目的としている。この目的のために、画像をより小さな個別のグループにクラスタリングし、各グループのNeRFを個別に学習する分割統治戦略、NeRFの不確かさの定量化と、シーン全体で機能する合成NeRFを得るための個々のNeRFの不確かさを考慮した融合、NeRFのより正確な3D形状につながる新たなエントロピー損失などの新たな技術が提案されている。
【0040】
第1に、MLPの容量が限られているため、例示的な実施形態は、それぞれがシーンの比較的小さな部分に焦点を当てた複数のMLPを訓練し、したがって、各MLPは、シーンの形状および放射輝度の高品質の符号化を達成することができる。この戦略の利点は、分散コンピューティングソースを使って複数のMLPの並列訓練を容易に行える点にあり、それによって大規模なシーンを効率的に処理することができる。次に、例示的な実施形態では、大規模な新規の視点合成および3D再構成のために、すべての個々のNeRFを組み合わせて、シーン全体を全体的な方法で符号化する必要がある。このため、例示的な実施形態では、個々のNeRFを融合し、原理的な確率論的手法で重複領域のつなぎ合わせを処理する。
【0041】
特に、レンダリング損失関数のヤコビアンに基づいて、各3Dの点の各NeRFについて密度予測の幾何学的不確実性を導出し、各密度予測の近似ガウス分布を求める。この分布は、ベイズの法則に従ってそれぞれのNeRFを融合するために活用される。幾何学的不確実性は計算コストが高いため、軽量なMLPを訓練して不確実性を予測する。新規の視点合成のための推論では、3Dの点が見えるすべてのNeRFが照会され、不確実性に基づいて融合される。最後に、オリジナルのNeRFは、3D形状に対する正則化を行わずに、レンダリング損失のみを最適化するため、低品質の3D再構成を生成することが多い。この問題に対処するために、例示的な実施形態では、密度がゼロか非常に大きくなるように強制するエントロピー損失を導入し、空の空間と空でない空間とを明確に区別する。これにより、NeRFの形状推定が大幅に改善されることが確認された。
【0042】
図3は、本発明の実施形態による、大規模なシーンのための高忠実度の新規の視点合成および3D再構成を実現するための実用的なアプリケーション300のブロック/フロー図である。
【0043】
大規模な3Dシーン310を再構築する必要がある。NeRF1は、大規模な3Dシーン310の小セクションに適用され、画像視点320を抽出する。同様に、大規模な3Dシーン310の別の小セクションにNeRF2を適用し、画像視点330を抽出する。NeRF3、NeRF4、NeRF5などは、大規模な3Dシーン310のすべての部分またはセクションまたは領域がカバーされるまで、大規模な3Dシーン310の他のセクションにも適用することができる。各NeRFに対して不確実性MLP340が訓練される。すべてのNeRFは不確実性に基づいて融合され、融合されたNeRFは新規の視点合成350に適用される。
【0044】
したがって、
図1~3によれば、画像をより小さな個別のグループにクラスタリングし、各グループのNeRFを個別に学習する分割統治戦略が採用され、シーン全体で機能する合成NeRFを得るために、NeRFの不確かさの定量化と個々のNeRFの不確かさとを考慮した融合が採用され、NeRFにおいてより正確な3D形状を導く新規のエントロピー損失が利用される。分割統治戦略により、容量の限られた各NeRFはシーンのごく一部のみをエンコードすることができ、それによってシーン表現の高い忠実度が保たれる。その後、すべてのNeRFを融合させ、あたかも1つのNeRFから得られたものであるかのように新規の視点をレンダリングできるようにすることも重要である。この目的のための原則的な方法として、不確実性に基づく融合が利用される。例示的な方法は、ヤコビアンに基づく幾何学的不確実性を導出し、計算コストを大幅に削減するために、そのような値を回帰するために追加の不確実性MLPを適用する。最後に、例示的な方法は、新規のエントロピー損失を提案することによって、NeRFの幾何学学習を改善する。
【0045】
結論として、NeRFは新規の視点合成において前例のないレベルの忠実度を達成するが、単一のMLPの限られた容量が解像度とスケールの間のトレードオフにつながるため、小規模なシーンに制限される。この問題を軽減するために、例示的な実施形態では、新規の画像クラスタリングに基づく合成NeRF方式で局所性を活用することを提案する。この方式では、画像をクラスタにグループ分けし、それぞれがシーンの部分集合に焦点を当て、クラスタごとに個別のNeRFを学習する。このような画像レベルのシーン分解は、一般的なボリューム分解戦略とは異なり、それ以上の利点があることが示されている。シーン全体をレンダリングするために、すべてのNeRFをマージするNeRFスティッチングフレームワークが導入される。具体的には、例示的な実施形態は、MLPを使用して、6D連続関数としての暗黙的の不確実性フィールドを回帰する。不確実性ネットワークは、3Dの点について、その空間的位置、視線方向、および距離を入力とし、個々のNeRFに対してその不確かさの定量化を出力する。これは、個々のNeRFから照会された体積密度と色とを融合するためにさらに利用される。NeRFをスケールアップするだけでなく、例示的なフレームワークは、それぞれの粒度でのNeRFの柔軟な構成も可能にする。NeRFスティッチングは、室内シーンにおいて最先端のレンダリング品質を実証している。
【0046】
図4は、本発明の実施形態による、大規模なシーンのための高忠実度の新規の視点合成および3D再構成を達成するための例示的な処理システムである。
【0047】
処理システムは、システムバス902を介して他の構成要素と動作可能に結合された少なくとも1つのプロセッサ(CPU)904を含む。グラフィカルプロセッシングユニット(GPU)905、キャッシュ906、リードオンリーメモリ(ROM)908、ランダムアクセスメモリ(RAM)910、入力/出力(I/O)アダプタ920、ネットワークアダプタ930、ユーザインタフェースアダプタ940、およびディスプレイアダプタ950は、システムバス902に動作可能に結合される。さらに、画像クラスタリングに基づく合成NeRF方式100がバス902に電気的に接続されている。
【0048】
記憶装置922は、I/Oアダプタ920によってシステムバス902に動作可能に結合される。記憶装置922は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、ソリッドステート磁気装置などのいずれであっても良い。
【0049】
トランシーバ932は、ネットワークアダプタ930によってシステムバス902と動作可能に結合される。
【0050】
ユーザ入力装置942は、ユーザインタフェースアダプタ940によってシステムバス902と動作可能に結合される。ユーザ入力装置942は、キーボード、マウス、キーパッド、画像捕捉装置、動き感知装置、マイクロフォン、前述の装置のうちの少なくとも2つの機能を組み込んだ装置などのいずれかとすることができる。もちろん、本発明の精神を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置942は、同じタイプのユーザ入力装置または異なるタイプのユーザ入力装置とすることができる。ユーザ入力装置942は、処理システムとの間で情報を入出力するために使用される。
【0051】
ディスプレイ装置952は、ディスプレイアダプタ950によってシステムバス902と動作可能に結合される。
【0052】
もちろん、処理システムは、当業者によって容易に企図されるように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、当業者によって容易に理解されるように、他の様々な入力装置および/または出力装置を、その特定の実装に応じて、システムに含めることができる。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなども、当業者には容易に理解されるように利用することができる。処理システムのこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。
【0053】
図5は、本発明の実施形態による、大規模なシーンのための高忠実度の新規の視点合成および3D再構成を達成するための例示的な方法のブロック/フロー図である。
【0054】
ブロック1001では、複数のビデオ画像キャプチャ装置から受信したビデオストリームから画像を取得する。
【0055】
ブロック1003では、画像を大規模な3Dシーンを表す別々の画像クラスタにグループ化する。
【0056】
ブロック1005では、画像クラスタの各々についてニューラルラディアンスフィールド(NeRF)と不確実性多層パーセプトロン(MLP)とを訓練して、大規模な3Dシーンについて複数のNeRFと複数の不確実性MLPとを生成する。
【0057】
ブロック1007では、複数のNeRFにレンダリング損失とエントロピー損失とを適用する。
【0058】
ブロック1009では、複数のNeRFに対して不確実性に基づく融合を実行して融合NeRFを定義し、複数のNeRFと複数の不確実性MLPとを共同で微調整する。
【0059】
ブロック1011では、推論中に、大規模な3Dシーンの新規の視点合成のための融合NeRFを適用する。
【0060】
その結果、例示的な実施形態に従って、シーン表現学習のためのシーン、例えばアパートや建物を選択するためにデータ取得が行われ、その後、シーンの画像がキャプチャされる。画像は、新規の視点合成を実行するために必要なシーンのすべての部分をカバーしている。その後、動きから構造を求めるアルゴリズムが実行され、各画像のカメラポーズが求められる。画像は視点によって別々のクラスタに分類され、レンダリング損失とエントロピー損失とを用いて、個々の画像クラスタに対するNeRFと不確実性MLPとが学習される。不確実性に基づくNeRFの融合が実行され、すべてのNeRFと不確実性MLPとが共同で微調整される。最後に、推論の間、融合されたNeRFは、大規模なシーンの新規の視点合成のために活用される。
【0061】
本明細書で使用される場合、「データ」、「コンテンツ」、「情報」、および同様の用語は、様々な例示的実施形態に従って捕捉、送信、受信、表示、および/または保存することができるデータを指すために互換的に使用することができる。したがって、このような用語の使用は、本開示の精神と範囲を制限するものと解釈すべきではない。さらに、演算装置が他の演算装置からデータを受信するように本明細書で説明される場合、データは、他の演算装置から直接受信することができ、または、例えば、1つまたは複数のサーバ、リレー、ルータ、ネットワークアクセスポイント、基地局、および/またはそのようなもののような、1つまたは複数の仲介演算装置を介して間接的に受信することができる。
【0062】
当業者には理解されるように、本発明の態様は、システム、方法、またはコンピュータプログラム製品として具現化され得る。したがって、本発明の態様は、完全なハードウェアの実施形態、完全なソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアとハードウェアの態様を組み合わせた実施形態の形態をとることができ、これらはすべて、本明細書では一般に「回路」、「モジュール」、「計算機」、「装置」、または「システム」と呼ぶことができる。さらに、本発明の態様は、その上に具現化されたコンピュータ可読プログラムコードを有する1つまたは複数のコンピュータ可読媒体に具現化されたコンピュータプログラム製品の形態をとることができる。
【0063】
1つ以上のコンピュータ可読媒体の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読記憶媒体とすることができる。コンピュータ可読記憶媒体は、例えば、電子式、磁気式、光学式、電磁式、赤外線式、半導体式のシステム、装置、デバイス、またはこれらの任意の適切な組み合わせであるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)としては、1本以上のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、RAM、ROM、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルCD-ROM、光データ記憶装置、磁気データ記憶装置、または前述の任意の適切な組み合わせが挙げられる。本明細書において、コンピュータ可読記憶媒体は、命令実行システム、装置、またはデバイスによって、またはそれらに関連して使用するためのプログラムを含むことができる、または格納することができる任意の有形媒体である。
【0064】
コンピュータ可読信号媒体は、例えばベースバンドまたは搬送波の一部として、その中にコンピュータ可読プログラムコードが具現化された伝搬データ信号を含むことができる。このような伝搬信号は、電磁波、光学、またはそれらの適切な組み合わせを含むが、これらに限定されない様々な形態のいずれかを取ることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、命令実行システム、装置、またはデバイスによって、またはそれらに関連して使用するためのプログラムを通信、伝搬、または伝送することができる任意のコンピュータ可読媒体であっても良い。
【0065】
コンピュータ可読媒体に具現化されたプログラムコードは、無線、有線、光ファイバケーブル、RFなど、または前述の任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体を使用して伝送することができる。
【0066】
本発明の態様のための動作を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語などの従来の手続き型プログラミング言語を含む、1つまたは複数のプログラミング言語の任意の組み合わせで記述することができる。プログラムコードは、完全にユーザのコンピュータ上で実行しても良いし、一部はユーザのコンピュータ上で実行しても良いし、スタンドアロンソフトウェアパッケージとして実行しても良いし、一部はユーザのコンピュータ上で実行し、一部はリモートコンピュータ上で実行しても良いし、完全にリモートコンピュータまたはサーバ上で実行しても良い。後者のシナリオでは、リモートコンピュータは、LANやWANを含むあらゆるタイプのネットワークを介してユーザのコンピュータに接続されても良いし、(例えば、インターネットサービスプロバイダを使用してインターネットを介して)外部のコンピュータに接続されても良い。
【0067】
本発明の態様を、本発明の実施形態による方法、装置(システム)およびコンピュータプログラム製品のフローチャート図および/またはブロック図を参照して以下に説明する。フローチャート図および/またはブロック図の各ブロック、ならびにフローチャート図および/またはブロック図のブロックの組み合わせは、コンピュータプログラム命令によって実施できることが理解されよう。これらのコンピュータプログラム命令は、汎用コンピュータ、特殊用途コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供され、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャートおよび/またはブロック図ブロックまたはモジュールで指定された機能/動作を実施するための手段を作成するように、機械を製造することができる。
【0068】
これらのコンピュータプログラム命令はまた、コンピュータ可読媒体に記憶され、コンピュータ可読媒体に記憶された命令が、フローチャート及び/又はブロック図のブロック又はブロック又はモジュールで指定された機能/動作を実施する命令を含む製造品を製造するように、コンピュータ、他のプログラム可能なデータ処理装置、または他の装置に特定の方法で機能するように指示することができるコンピュータ可読媒体に記憶され得る。
【0069】
また、コンピュータプログラム命令をコンピュータ、他のプログラマブルデータ処理装置、または他の装置にロードして、コンピュータ、他のプログラマブル装置、または他の装置上で一連の動作ステップを実行させ、コンピュータまたは他のプログラマブル装置上で実行される命令が、フローチャートおよび/またはブロック図ブロックまたはブロックまたはモジュールで指定された機能/動作を実施するためのプロセスを提供するように、コンピュータ実装プロセスを生成することもできる。
【0070】
本明細書で使用される「プロセッサ」という用語は、例えば、CPUおよび/または他の処理回路を含むものなど、あらゆる処理装置を含むことが意図されていることを理解されたい。また、「プロセッサ」という用語は複数の処理装置を指す場合があり、処理装置に関連する様々な要素が他の処理装置によって共有される場合があることも理解されたい。
【0071】
本明細書で使用される「メモリ」という用語は、例えば、RAM、ROM、固定メモリ装置(例えば、ハードドライブ)、リムーバブルメモリ装置(例えば、ディスケット)、フラッシュメモリなどのプロセッサまたはCPUに関連するメモリを含むことを意図している。このようなメモリは、コンピュータ読み取り可能な記憶媒体と考えられる。
【0072】
さらに、本明細書で使用される「入力/出力装置」または「I/O装置」という語句は、例えば、処理ユニットにデータを入力するための1つまたは複数の入力装置(例えば、キーボード、マウス、スキャナなど)、および/または処理ユニットに関連する結果を提示するための1つまたは複数の出力装置(例えば、スピーカ、ディスプレイ、プリンタなど)を含むことを意図している。
【0073】
上記は、あらゆる点で例示的かつ例示的であるが、制限的なものではないと理解され、ここに開示された発明の範囲は、詳細な説明からではなく、特許法によって許される全幅に従って解釈された請求項から決定されるものである。本明細書に示され説明された実施形態は、本発明の原理を例示するものに過ぎず、当業者は、本発明の範囲及び精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者であれば、本発明の範囲と精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、特許法が要求する詳細さと特殊性をもって本発明の側面を説明したが、特許状によって請求され、保護されることを望むものは、添付の特許請求の範囲に記載されている通りである。
【国際調査報告】