IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2024-545997ノイズの多い未加工画像からの高ダイナミックレンジ視点合成
<>
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図1A
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図1B
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図1C
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図2
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図3
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図4
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図5
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図6
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図7
  • 特表-ノイズの多い未加工画像からの高ダイナミックレンジ視点合成 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-17
(54)【発明の名称】ノイズの多い未加工画像からの高ダイナミックレンジ視点合成
(51)【国際特許分類】
   G06T 7/00 20170101AFI20241210BHJP
   G06T 5/60 20240101ALI20241210BHJP
   G06T 3/06 20240101ALI20241210BHJP
   G06T 1/00 20060101ALI20241210BHJP
   G06V 10/82 20220101ALI20241210BHJP
   G06T 5/70 20240101ALI20241210BHJP
   G06T 7/70 20170101ALI20241210BHJP
   G06N 3/09 20230101ALI20241210BHJP
   G06N 3/0475 20230101ALI20241210BHJP
   G06T 15/20 20110101ALI20241210BHJP
【FI】
G06T7/00 350C
G06T5/60
G06T3/06
G06T1/00 510
G06V10/82
G06T5/70
G06T7/70 Z
G06N3/09
G06N3/0475
G06T15/20 500
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024525476
(86)(22)【出願日】2022-10-21
(85)【翻訳文提出日】2024-06-13
(86)【国際出願番号】 US2022047387
(87)【国際公開番号】W WO2023086194
(87)【国際公開日】2023-05-19
(31)【優先権主張番号】63/279,363
(32)【優先日】2021-11-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ベンジャミン・ジョセフ・ミルデンホール
(72)【発明者】
【氏名】プラトゥル・プリーティ・スリニヴァサン
(72)【発明者】
【氏名】ジョナサン・ティルトン・バロン
(72)【発明者】
【氏名】リカルド・マルティン-ブルアラ
(72)【発明者】
【氏名】ラルス・ピーター・ヨハンネス・ヘドマン
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA01
5B057CA08
5B057CA13
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CD14
5B057CE02
5B057CE17
5B057CH05
5L096AA02
5L096AA06
5L096AA09
5L096HA11
(57)【要約】
ノイズの多いシーンのためのニューラルラジアンスフィールドモデルを訓練するためのシステムおよび方法は、ニューラルラジアンスフィールドモデルを訓練して弱光シーンおよび/または高コントラストシーンの視点合成を生成するために、線形の高ダイナミックレンジ色空間の中のノイズの多い未加工画像を活用することができる。訓練済みのモデルは、次いで、低ダイナミックレンジ画像を生成するために使用される前処理を用いずに視点レンダリングタスクを正確に完了するために利用され得る。いくつかの実装形態では、弱光シーンの未処理データに対して訓練することは、弱光シーンの高品質視点レンダリングを生成するためにニューラルラジアンスフィールドモデルを訓練することを可能にすることができる。
【特許請求の範囲】
【請求項1】
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されたとき、前記コンピューティングシステムに動作を実行させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、前記動作が、
訓練データセットを取得することであって、前記訓練データセットが、複数の3次元位置、複数の2次元視線方向、およびノイズの多い複数の未加工画像を備え、前記ノイズの多い複数の未加工画像が、未加工フォーマットで構造化された複数の未処理ビットを備える複数の高ダイナミックレンジ画像を備える、取得することと、
視点レンダリングを生成するためにニューラルラジアンスフィールドモデルを用いて前記複数の3次元位置のうちの第1の3次元位置および前記複数の2次元視線方向のうちの第1の2次元視線方向を処理することであって、前記ニューラルラジアンスフィールドモデルが、1つまたは複数の多層パーセプトロンを備え、前記視点レンダリングが、1つまたは複数の予測カラー値および1つまたは複数の予測ボリューム密度値を記述する、処理することと、
前記視点レンダリングと前記ノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することであって、前記第1の画像が、前記第1の3次元位置または前記第1の2次元視線方向のうちの少なくとも1つに関連する、評価することと、
前記損失関数に少なくとも部分的に基づいて前記ニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することと
を備える、コンピューティングシステム。
【請求項2】
前記動作が、
色補正されたレンダリングを生成するために色補正モデルを用いて前記視点レンダリングを処理することをさらに備える、請求項1に記載のコンピューティングシステム。
【請求項3】
前記損失関数が、重み付けし直されたL2損失を備える、請求項1または2に記載のコンピューティングシステム。
【請求項4】
前記視点レンダリングと前記ノイズの多い複数の未加工画像の前記第1の画像との間の前記差分を評価する前記損失関数を評価することが、モザイクマスキングを備える、請求項1から3のいずれか一項に記載のコンピューティングシステム。
【請求項5】
前記視点レンダリングと前記ノイズの多い複数の未加工画像の前記第1の画像との間の前記差分を評価する前記損失関数を評価することが、露出調整を備える、請求項1から4のいずれか一項に記載のコンピューティングシステム。
【請求項6】
前記動作が、
入力視線方向および入力位置を取得することと、
予測クアッドベイヤフィルタデータを生成するために前記ニューラルラジアンスフィールドモデルを用いて前記入力視線方向および前記入力位置を処理することと、
新規視点レンダリングを生成するために前記予測クアッドベイヤフィルタデータを処理することと
をさらに備える、請求項1から5のいずれか一項に記載のコンピューティングシステム。
【請求項7】
前記損失関数が勾配停止を備え、前記勾配停止は、前記ニューラルラジアンスフィールドモデルが低信頼性値に汎化することを軽減する、請求項1から6のいずれか一項に記載のコンピューティングシステム。
【請求項8】
前記第1の画像が、カメラによって生成された現実世界の光子信号データを備え、前記視点レンダリングが、予測される光子信号データを備える、請求項1から7のいずれか一項に記載のコンピューティングシステム。
【請求項9】
前記ノイズの多い複数の未加工画像が、複数の赤色-緑色-緑色-青色データセットに関連する、請求項1から8のいずれか一項に記載のコンピューティングシステム。
【請求項10】
新規視点レンダリングのための、コンピュータにより実施される方法であって、
環境に関連する入力2次元視線方向および入力3次元位置を、1つまたは複数のプロセッサを備えるコンピューティングシステムによって取得するステップと、
ニューラルラジアンスフィールドモデルを前記コンピューティングシステムによって取得するステップであって、前記ニューラルラジアンスフィールドモデルが、訓練データセットに対して訓練済みであり、前記訓練データセットが、前記環境に関連する、ノイズの多い複数の入力データセットを備え、前記訓練データセットが、複数の訓練視線方向および複数の訓練位置を備える、ステップと、
予測データを生成するために前記ニューラルラジアンスフィールドモデルを用いて前記入力2次元視線方向および前記入力3次元位置を前記コンピューティングシステムによって処理するステップであって、前記予測データが、1つまたは複数の予測密度値および1つまたは複数の予測カラー値を備える、ステップと、
予測視点レンダリングを生成するために画像増強ブロックを用いて前記予測データを前記コンピューティングシステムによって処理するステップであって、前記予測視点レンダリングが、前記環境の予測シーンレンダリングを記述する、ステップと
を、コンピュータにより実施される方法。
【請求項11】
前記画像増強ブロックが前記予測データの焦点を調整する、請求項10に記載の方法。
【請求項12】
前記画像増強ブロックが前記予測データの露出レベルを調整する、請求項10または11に記載の方法。
【請求項13】
前記画像増強ブロックが前記予測データのトーンマッピングを調整する、請求項10から12のいずれか一項に記載の方法。
【請求項14】
前記ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットが光子信号データを備える、請求項10から13のいずれか一項に記載の方法。
【請求項15】
前記ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットが、赤色の値、緑色の値、または青色の値のうちの少なくとも1つに関連する信号データを備える、請求項10から14のいずれか一項に記載の方法。
【請求項16】
前記ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットが、ノイズの多い1つまたは複数のモザイク型の線形未加工画像を備える、請求項10から15のいずれか一項に記載の方法。
【請求項17】
1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記動作が、
訓練データセットを取得することであって、前記訓練データセットが、複数の未加工入力データセットを備え、前記訓練データセットが、複数のそれぞれの視線方向および複数のそれぞれの位置を備える、取得することと、
第1の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて第1の視線方向および第1の位置を処理することであって、前記第1の予測データが、1つまたは複数の第1の予測カラー値および1つまたは複数の第1の予測密度値を記述する、処理することと、
前記第1の予測データと前記複数の未加工入力データセットのうちの第1の未加工入力データセットとの間の差分を評価する損失関数を評価することであって、前記第1の未加工入力データセットが、前記第1の位置または前記第1の視線方向のうちの少なくとも1つに関連する、評価することと、
前記損失関数に少なくとも部分的に基づいて前記ニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することと
を備える、1つまたは複数の非一時的コンピュータ可読媒体。
【請求項18】
前記1つまたは複数のパラメータが、環境に関連する学習された3次元表現に関連する、請求項17に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項19】
前記損失関数が、前記第1の予測データまたは前記第1の未加工入力データセットのうちの少なくとも1つを処理することに関連するトーンマッピング損失を備える、請求項17または18に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項20】
前記動作が、
第2の予測データを生成するために前記ニューラルラジアンスフィールドモデルを用いて第2の視線方向および第2の位置を処理することであって、前記第2の予測データが、1つまたは複数の第2の予測カラー値および1つまたは複数の第2の予測密度値を記述する、処理することと、
スケーリングされた第2の予測データを生成するためにシャッター速度に基づいて前記1つまたは複数の第2の予測カラー値をスケーリングすることと、
前記スケーリングされた第2の予測データと前記複数の未加工入力データセットのうちの第2の未加工入力データセットとの間の差分を評価する前記損失関数を評価することであって、前記第2の未加工入力データセットが、前記第2の位置または前記第2の視線方向のうちの少なくとも1つに関連する、評価することと、
前記損失関数に少なくとも部分的に基づいて前記ニューラルラジアンスフィールドモデルの1つまたは複数の追加のパラメータを調整することと
をさらに備える、請求項17から19のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、2021年11月15日に出願された米国仮特許出願第63/279,363号の優先権および利益を主張し、米国仮特許出願第63/279,363号は、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、一般に、ノイズの多い未加工画像に対してニューラルラジアンスフィールドモデルを訓練することに関する。より詳細には、本開示は、高ダイナミックレンジ(HDR:high dynamic range)画像に対してニューラルラジアンスフィールドモデルを訓練することによって、弱光シーンのための視点レンダリングを生成するために、ニューラルラジアンスフィールドモデルを訓練することに関する。
【背景技術】
【0003】
入力画像およびそれらのカメラ姿勢の収集からの新規視点合成のために、ニューラルラジアンスフィールド(NeRF:Neural Radiance Field)が利用され得る。いくつかの他の視点合成方法と同様に、NeRFは、低ダイナミックレンジ(LDR:low dynamic range)画像を入力として利用することができる。これらの画像は、細部を滑らかにし、光輝部をクリッピングし、かつ未加工センサデータの単純なノイズ分布をひずませる、損失のあるカメラパイプラインを通過していることがある。
【発明の概要】
【課題を解決するための手段】
【0004】
本開示の実施形態の態様および利点は、以下の説明の中で部分的に記載されるか、またはその説明から知ることができるか、または本実施形態の実践を通じて知ることができる。
【0005】
本開示の1つの例示的な態様は、コンピューティングシステムを対象とする。システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されたとき、コンピューティングシステムに動作を実行させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含むことができる。動作は、訓練データセットを取得することを含むことができる。訓練データセットは、複数の3次元位置、複数の2次元視線方向、およびノイズの多い複数の未加工画像を含むことができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、未加工フォーマットで構造化された複数の未処理ビットを含む複数の高ダイナミックレンジ画像を含むことができる。動作は、視点レンダリングを生成するためにニューラルラジアンスフィールドモデルを用いて複数の3次元位置のうちの第1の3次元位置および複数の2次元視線方向のうちの第1の2次元視線方向を処理することを含むことができる。ニューラルラジアンスフィールドモデルは、1つまたは複数の多層パーセプトロンを含むことができる。いくつかの実装形態では、視点レンダリングは、1つまたは複数の予測カラー値および1つまたは複数の予測ボリューム密度値を記述することができる。動作は、視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することを含むことができる。第1の画像は、第1の3次元位置または第1の2次元視線方向のうちの少なくとも1つに関連することができる。動作は、損失関数に少なくとも部分的に基づいてニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することを含むことができる。
【0006】
いくつかの実装形態では、動作は、色補正されたレンダリングを生成するために色補正モデルを用いて視点レンダリングを処理することを含むことができる。損失関数は、重み付けし直されたL2損失を含むことができる。いくつかの実装形態では、視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することは、モザイクマスキングを含むことができる。視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することは、露出調整を含むことができる。いくつかの実装形態では、動作は、入力視線方向および入力位置を取得することと、予測クアッドベイヤフィルタデータを生成するためにニューラルラジアンスフィールドモデルを用いて入力視線方向および入力位置を処理することと、新規視点レンダリングを生成するために予測クアッドベイヤフィルタデータを処理することとを含むことができる。損失関数は勾配停止を含むことができる。勾配停止は、ニューラルラジアンスフィールドモデルが低信頼性値に汎化することを軽減することができる。いくつかの実装形態では、第1の画像は、カメラによって生成された現実世界の光子信号データを含むことができる。視点レンダリングは、予測される光子信号データを含むことができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、複数の赤色-緑色-緑色-青色データセットに関連することができる。
【0007】
本開示の別の例示的な態様は、新規視点レンダリングのためのコンピュータにより実施される方法を対象とする。方法は、環境に関連する入力2次元視線方向および入力3次元位置を、1つまたは複数のプロセッサを含むコンピューティングシステムによって取得することを含むことができる。方法は、ニューラルラジアンスフィールドモデルをコンピューティングシステムによって取得することを含むことができる。ニューラルラジアンスフィールドモデルは訓練データセットに対して訓練済みであってよい。いくつかの実装形態では、訓練データセットは、環境に関連する、ノイズの多い複数の入力データセットを含むことができる。訓練データセットは、複数の訓練視線方向および複数の訓練位置を含むことができる。方法は、予測データを生成するためにニューラルラジアンスフィールドモデルを用いて入力2次元視線方向および入力3次元位置をコンピューティングシステムによって処理することを含むことができる。予測データは、1つまたは複数の予測密度値および1つまたは複数の予測カラー値を含むことができる。方法は、予測視点レンダリングを生成するために画像増強ブロックを用いて予測データをコンピューティングシステムによって処理することを含むことができる。予測視点レンダリングは、環境の予測シーンレンダリングを記述することができる。
【0008】
いくつかの実装形態では、画像増強ブロックは予測データの焦点を調整することができる。画像増強ブロックは予測データの露出レベルを調整することができる。いくつかの実装形態では、画像増強ブロックは予測データのトーンマッピングを調整することができる。ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、光子信号データを含むことができる。いくつかの実装形態では、ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、赤色の値、緑色の値、または青色の値のうちの少なくとも1つに関連する信号データを含むことができる。ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、ノイズの多い1つまたは複数のモザイク型の線形未加工画像を含むことができる。
【0009】
本開示の別の例示的な態様は、1つまたは複数のコンピューティングデバイスによって実行されたとき、1つまたは複数のコンピューティングデバイスに動作を実行させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読媒体を対象とする。動作は、訓練データセットを取得することを含むことができる。訓練データセットは、複数の未加工入力データセットを含むことができる。いくつかの実装形態では、訓練データセットは、複数のそれぞれの視線方向および複数のそれぞれの位置を含むことができる。動作は、第1の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて第1の視線方向および第1の位置を処理することを含むことができる。第1の予測データは、1つまたは複数の第1の予測カラー値および1つまたは複数の第1の予測密度値を記述することができる。動作は、第1の予測データと複数の未加工入力データセットのうちの第1の未加工入力データセットとの間の差分を評価する損失関数を評価することを含むことができる。いくつかの実装形態では、第1の未加工入力データセットは、第1の位置または第1の視線方向のうちの少なくとも1つに関連することができる。動作は、損失関数に少なくとも部分的に基づいてニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することを含むことができる。
【0010】
いくつかの実装形態では、1つまたは複数のパラメータは、環境に関連する学習された3次元表現に関連することができる。損失関数は、第1の予測データまたは第1の未加工入力データセットのうちの少なくとも1つを処理することに関連するトーンマッピング損失を含むことができる。いくつかの実装形態では、動作は、第2の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて第2の視線方向および第2の位置を処理することを含むことができる。第2の予測データは、1つまたは複数の第2の予測カラー値および1つまたは複数の第2の予測密度値を記述することができる。動作は、スケーリングされた第2の予測データを生成するためにシャッター速度に基づいて1つまたは複数の第2の予測カラー値をスケーリングすることを含むことができる。動作は、スケーリングされた第2の予測データと複数の未加工入力データセットのうちの第2の未加工入力データセットとの間の差分を評価する損失関数を評価することを含むことができる。いくつかの実装形態では、第2の未加工入力データセットは、第2の位置または第2の視線方向のうちの少なくとも1つに関連することができる。動作は、損失関数に少なくとも部分的に基づいてニューラルラジアンスフィールドモデルの1つまたは複数の追加のパラメータを調整することを含むことができる。
【0011】
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
【0012】
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照するとよりよく理解されるようになる。本明細書の中に組み込まれるとともに本明細書の一部を構成する添付図面は、本開示の例示的な実施形態を示し、本説明と一緒に、関連する原理を説明する。
【0013】
当業者を対象とする実施形態の詳細な説明が本明細書の中に記載され、本明細書は添付図面を参照する。
【図面の簡単な説明】
【0014】
図1A】本開示の例示的な実施形態による視点レンダリング生成を実行する例示的なコンピューティングシステムのブロック図である。
図1B】本開示の例示的な実施形態による視点レンダリング生成を実行する例示的なコンピューティングデバイスのブロック図である。
図1C】本開示の例示的な実施形態による視点レンダリング生成を実行する例示的なコンピューティングデバイスのブロック図である。
図2】本開示の例示的な実施形態による例示的なニューラルラジアンスフィールドモデルのブロック図である。
図3】本開示の例示的な実施形態による例示的なニューラルラジアンスフィールドモデルのブロック図である。
図4】本開示の例示的な実施形態による例示的な視点レンダリングパイプラインの図である。
図5】本開示の例示的な実施形態による例示的なニューラルラジアンスフィールドモデル訓練のブロック図である。
図6】本開示の例示的な実施形態によるニューラルラジアンスフィールドモデル訓練を実行するための例示的な方法のフローチャート図である。
図7】本開示の例示的な実施形態による新規視点レンダリングを実行するための例示的な方法のフローチャート図である。
図8】本開示の例示的な実施形態によるニューラルラジアンスフィールドモデル訓練を実行するための例示的な方法のフローチャート図である。
【発明を実施するための形態】
【0015】
複数の図面にわたって繰り返される参照番号は、様々な実装形態における同じ特徴を識別するものとする。
【0016】
概要
概して、本開示は、線形の高ダイナミックレンジ(HDR)色空間の中のノイズの多い未加工画像に対してニューラルラジアンスフィールドモデルを訓練するシステムおよび方法を対象とする。たとえば、システムおよび方法は、1つまたは複数のニューラルラジアンスフィールドモデルを訓練するための入力として、線形のHDR色空間の中のノイズの多い未加工画像を利用することができる。したがって、システムおよび方法は、視覚的に訴求するJPEGファイルを作り出すために、ノイズの多い画像をならす(smooth out)ためにデジタルカメラが適用する、損失のある後処理を回避することができる。いくつかの実装形態では、システムおよび方法は、静的なシーンを想定することができ、所与の入力としてカメラ姿勢を取り入れてよい。
【0017】
本明細書で開示するシステムおよび方法は、訓練データセットを取得することを含むことができる。訓練データセットは、複数の3次元位置、複数の2次元視線方向、およびノイズの多い複数の未加工画像を含むことができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、未加工フォーマットで構造化された複数の未処理ビットを備える複数の高ダイナミックレンジ画像を含むことができる。システムおよび方法は、視点レンダリングを生成するためにニューラルラジアンスフィールドモデルを用いて複数の3次元位置のうちの第1の3次元位置および複数の2次元視線方向のうちの第1の2次元視線方向を処理することを含むことができる。いくつかの実装形態では、ニューラルラジアンスフィールドモデルは、1つまたは複数の多層パーセプトロンを含むことができ、視点レンダリングは、1つまたは複数の予測カラー値および1つまたは複数の予測ボリューム密度値を記述することができる。追加および/または代替として、システムおよび方法は、視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することを含むことができる。第1の画像は、第1の3次元位置または第1の2次元視線方向のうちの少なくとも1つに関連することができる。ニューラルラジアンスフィールドモデルの1つまたは複数のパラメータは、損失関数に少なくとも部分的に基づいて調整され得る。
【0018】
いくつかの実装形態では、視点レンダリングは、色補正されたレンダリングを生成するために色補正モデルを用いて処理され得る。損失関数は、重み付けし直されたL2損失を含んでよい。
【0019】
追加および/または代替として、視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することは、モザイクマスキングおよび/または露出調整を含むことができる。
【0020】
いくつかの実装形態では、本明細書で開示するシステムおよび方法は、ボリュメトリック(volumetric)レンダリング損失に少なくとも部分的に基づく勾配降下を使用して、複数の画像に整合するようにニューラルボリュメトリックシーン表現を最適化することによって、ニューラルラジアンスフィールドモデルを最適化することができる。追加および/または代替として、システムおよび方法は、ノイズの多い複数の未加工画像からのコンテンツを調和させてシーンを共同で再構成するとともにノイズ除去するために、最適化技法を利用することができる。
【0021】
いくつかの実装形態では、未加工データ(たとえば、未加工画像)は、未加工フォーマットでカメラによってセーブされた未処理ビットを含むことができる。追加および/または代替として、HDRデータ(たとえば、HDR画像)は、色強度を表すために標準的な8ビットよりも多くを使用する1つまたは複数の画像を含むことができる。
【0022】
いくつかの実装形態では、sRGBは、未加工データの反対のもの(たとえば、トーンマッピングされたLDR色空間の中に存在する、完全に後処理された画像)を示すことができる。
【0023】
ニューラルラジアンスフィールド(NeRF)モデルは、知られているカメラ姿勢を用いて入力画像のセットの外観を再生するように最適化された、多層パーセプトロン(MLP:multilayer perceptron)ベースのシーン表現を含むことができる。得られた再構成は、以前に観測されなかった姿勢からの新規視点をレンダリングするために使用され得る。NeRFのMLPネットワークは、3次元位置および2次元視線方向を入力として取り入れることができ、ボリューム密度および色を出力することができる。出力画像の中の各ピクセルをレンダリングするために、NeRFモデルは、対応する3次元光線に沿ってサンプリングされた多くの点からの色および密度を結合するために、ボリュームレンダリングを使用することができる。
【0024】
標準的なNeRFモデルは、範囲[0;1]の中の値を有するクリーンな低ダイナミックレンジ(LDR)sRGB色空間画像を入力として取り入れることができる。未加工のHDR画像をLDR画像に変換することは、2つの帰結、すなわち、(1)値が、1において上方にクリッピングされるか、またはトーンマッピング曲線によって大きく圧縮され8ビットに量子化されるとき、明るいエリアの中の細部が失われる場合があること、および(2)非線形のトーンマッピング曲線を通過するとともに0よりも下方の値をクリッピングした後、ピクセルごとのノイズ分布がもはや0平均であり得ないことを、有することができる。
【0025】
本明細書で開示するシステムおよび方法(たとえば、RawNeRF)は、線形のHDR色空間の中のノイズの多い未加工画像を入力として使用するようにNeRFを修正することを含むことができる。その修正は、視覚的に許容できるJPEGファイルを作り出すために、ノイズの多い画像をならすためにデジタルカメラが適用する、損失のある後処理の回避を可能にすることができる。未加工データに対して直接訓練することは、ほぼ暗闇の中でキャプチャされたシーンを再構成することが可能な複数画像ノイズ除去器の中に、RawNeRFを効果的に入れることができる。一般のビデオまたはバースト画像ノイズ除去方法とは異なり、RawNeRFは静的なシーンを想定することができ、所与の入力としてカメラ姿勢を予測する。これらの追加の制約が与えられると、RawNeRFは、入力フレームのすべてにわたって情報を一度に平均化するために、3次元の複数視点整合性を効果的に利用できる場合がある。キャプチャされたシーンは各々、30~100個の入力画像を含むことができるので、このことは、今度は、RawNeRFが、通常は出力ごとに3~8個の入力画像しか利用しないフィードフォワードバースト/ビデオノイズ除去器よりも効果的であり得ることを、意味することができる。
【0026】
追加として、RawNeRFは入力画像の全ダイナミックレンジを維持することができるので、システムおよび方法は、新規レンダリングされるカメラ経路の過程にわたって露出設定および焦点ぼかしを変えることなどの、LDR表現を用いて不可能であることになるHDR視点合成適用を可能にすることができる。
【0027】
いくつかの実装形態では、システムおよび方法は、代わりに線形の未加工画像に対して直接訓練するようにNeRFを修正することができ、シーンの全ダイナミックレンジを維持する。システムおよび方法は、カメラ視点を変化させることに加えて、再構成されたNeRFからの未加工出力をレンダリングし、かつ事後に焦点、露出、およびトーンマッピングを操作する、新規高ダイナミックレンジ(HDR)視点合成タスクをシステムが実行することを可能にすることができる。未加工データは、後処理された画像よりも著しくノイズが多く見える場合があるが、本明細書で開示するシステムおよび方法のNeRFは、未加工ノイズの0平均分布に対して極めてロバストであり得、専用の単一および複数画像ディープノイズ除去方法と比べても見劣りしないほどクリーンなシーン再構成を作り出す。このことは、ほぼ暗闇の中でキャプチャされた極めてノイズの多い画像から、システムおよび方法(たとえば、RawNeRF実装形態)がシーンを再構成することを可能にすることができる。
【0028】
HDR+は、極めて小さい動きを有する手持ち式の未加工画像バーストに対してHDRを完成させることができる。RawNeRFは、基線が極めて広い動きを処理することができ、シーンの3D再構成を作成することもできる(ただし、静的なシーンを利用してよい)。
【0029】
ニューラルラジアンスフィールド(NeRF)は、入力画像およびそれらのカメラ姿勢の収集からの高品質新規視点合成のために利用され得る。いくつかの実装形態では、NeRFは入力として8ビットJPEGを利用することができる。画像は、細部を滑らかにし、光輝部をクリッピングし、かつ未加工センサデータの単純なノイズ分布をひずませる、損失のあるカメラパイプラインを通過することがある。本明細書で開示するシステムおよび方法は、代わりに線形の未加工画像に対して直接訓練するようにNeRFを修正することができ、シーンの全ダイナミックレンジを維持する。システムおよび方法は、カメラ視点を変化させることに加えて、再構成されたNeRFからの未加工出力をレンダリングし、かつ事後に焦点、露出、およびトーンマッピングを操作する、新規高ダイナミックレンジ(HDR)視点合成タスクを実行することができる。未加工データは、後処理された画像よりも著しくノイズが多く見えることがあるが、システムおよび方法は、NeRFが未加工ノイズの0平均分布に対して極めてロバストであることを示すことができ、専用の単一および複数画像ディープノイズ除去方法と比べても見劣りしないほどクリーンなシーン再構成を作り出す。システムおよび方法は、ほぼ暗闇の中でキャプチャされた極めてノイズの多い画像から、シーンを再構成することができる。
【0030】
システムおよび方法は、訓練データセットを取得することを含むことができる。訓練データセットは、複数の3次元位置、複数の2次元視線方向、およびノイズの多い複数の未加工画像を含むことができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、未加工フォーマットで構造化された複数の未処理ビットを備える複数の高ダイナミックレンジ画像を含むことができる。システムおよび方法は、視点レンダリングを生成するためにニューラルラジアンスフィールドモデルを用いて複数の3次元位置のうちの第1の3次元位置および複数の2次元視線方向のうちの第1の2次元視線方向を処理することを含むことができる。ニューラルラジアンスフィールドモデルは、1つまたは複数の多層パーセプトロンを含むことができる。いくつかの実装形態では、視点レンダリングは、1つまたは複数の予測カラー値および1つまたは複数の予測ボリューム密度値を記述することができる。システムおよび方法は、視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することを含むことができる。第1の画像は、第1の3次元位置または第1の2次元視線方向のうちの少なくとも1つに関連することができる。システムおよび方法は、損失関数に少なくとも部分的に基づいてニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することを含むことができる。
【0031】
システムおよび方法は、訓練データセットを取得することができる。訓練データセットは、複数の3次元位置、複数の2次元視線方向、およびノイズの多い複数の未加工画像を含むことができる。ノイズの多い複数の未加工画像は、未加工フォーマットで構造化された複数の未処理ビットを含む複数の高ダイナミックレンジ画像を含むことができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、複数の赤色-緑色-緑色-青色データセットに関連することができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、1つまたは複数の画像センサからの未加工信号データに基づいて生成されたベイヤフィルタデータセットを含むことができる。ノイズの多い未加工画像データセットは、露出補正、色補正、および/または焦点補正の前のデータを含むことができる。複数の2次元視線方向および複数の3次元位置は、環境の中での視線方向および位置に関連することができる。環境は弱い照明を含む場合があり、ノイズの多い複数の未加工画像は弱い照明を含む場合がある。
【0032】
複数の3次元位置のうちの第1の3次元位置および複数の2次元視線方向のうちの第1の2次元視線方向は、視点レンダリングを生成するためにニューラルラジアンスフィールドモデルを用いて処理され得る。ニューラルラジアンスフィールドモデルは、1つまたは複数の多層パーセプトロンを含むことができる。いくつかの実装形態では、視点レンダリングは、1つまたは複数の予測カラー値および1つまたは複数の予測ボリューム密度値を記述することができる。ニューラルラジアンスフィールドモデルは、1つまたは複数の予測カラー値および1つまたは複数の予測密度値を生成するために視線方向および位置を処理するように構成され得る。1つまたは複数の予測カラー値および1つまたは複数の予測密度値は、視点レンダリングを生成するために利用され得る。視点レンダリングは、1つまたは複数の赤色、青色、または緑色のフィルタに関連する1つまたは複数のベイヤフィルタ画像に関連する未加工視点レンダリングであり得る。未加工視点レンダリングは、1つもしくは複数の補正された色、1つもしくは複数の補正された焦点、1つもしくは複数の補正された露出、および/または1つもしくは複数の補正されたアーティファクトを有する拡張画像を生成するために、1つまたは複数の画像増強ブロックを用いて処理され得る。
【0033】
視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数が、次いで、評価され得る。第1の画像は、第1の3次元位置または第1の2次元視線方向のうちの少なくとも1つに関連することができる。いくつかの実装形態では、損失関数は、重み付けし直されたL2損失を含むことができる。視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することは、モザイクマスキングを含むことができる。代替および/または追加として、視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することは、露出調整を含むことができる。いくつかの実装形態では、第1の画像は、カメラによって生成された現実世界の光子信号データを含むことができる。視点レンダリングは、予測される光子信号データを含むことができる。
【0034】
システムおよび方法は、損失関数に少なくとも部分的に基づいてニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することができる。損失関数は勾配停止を含むことができる。いくつかの実装形態では、勾配停止は、ニューラルラジアンスフィールドモデルが低信頼性値に汎化することを軽減することができる。
【0035】
いくつかの実装形態では、システムおよび方法は、色補正されたレンダリングを生成するために色補正モデルを用いて視点レンダリングを処理することができる。代替および/または追加として、視点レンダリングは、露出補正されたレンダリングを生成するために露出補正モデルを用いて処理され得る。色補正モデルおよび/または露出補正モデルは、画像増強ブロックの一部であり得る。未加工信号データおよび/または予測される未加工信号データを処理するように、1つまたは複数の画像補正モデルが構成され得る。1つまたは複数の画像補正モデルは画像増強モデルの一部であり得、ベイヤフィルタ信号データに対して訓練され得る。
【0036】
追加および/または代替として、システムおよび方法は、入力視線方向および入力位置を取得することと、予測クアッドベイヤフィルタデータを生成するためにニューラルラジアンスフィールドモデルを用いて入力視線方向および入力位置を処理することと、新規視点レンダリングを生成するために予測クアッドベイヤフィルタデータを処理することとを含むことができる。
【0037】
訓練済みのニューラルラジアンスフィールドモデルは、次いで、新規視点合成のために利用され得る。たとえば、システムおよび方法は、環境に関連する入力2次元視線方向および入力3次元位置を取得することを含むことができる。システムおよび方法は、ニューラルラジアンスフィールドモデルを取得することを含むことができる。ニューラルラジアンスフィールドモデルは訓練データセットに対して訓練済みであってよい。訓練データセットは、環境に関連する、ノイズの多い複数の入力データセットを含むことができる。いくつかの実装形態では、訓練データセットは、複数の訓練視線方向および複数の訓練位置を含むことができる。システムおよび方法は、予測データを生成するためにニューラルラジアンスフィールドモデルを用いて入力2次元視線方向および入力3次元位置を処理することを含むことができる。予測データは、1つまたは複数の予測密度値および1つまたは複数の予測カラー値を含むことができる。システムおよび方法は、予測視点レンダリングを生成するために画像増強ブロックを用いて予測データを処理することを含むことができる。予測視点レンダリングは、環境の予測シーンレンダリングを記述することができる。
【0038】
システムおよび方法は、環境に関連する入力2次元視線方向および入力3次元位置を取得することができる。環境は1つまたは複数の物体を含む場合がある。いくつかの実装形態では、環境は弱い照明を含む場合がある。入力視線方向および入力3次元位置は、位置および視線方向に関連する環境の予測される視点を示す新規視点レンダリングを求める要求に関連することができる。
【0039】
ニューラルラジアンスフィールドモデルが、次いで、取得され得る。ニューラルラジアンスフィールドモデルは訓練データセットに対して訓練済みであってよい。訓練データセットは、環境に関連する、ノイズの多い複数の入力データセットを含むことができる。いくつかの実装形態では、訓練データセットは、複数の訓練視線方向および複数の訓練位置を含むことができる。ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、光子信号データを含むことができる。追加および/または代替として、ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、赤色の値、緑色の値、または青色の値のうちの少なくとも1つに関連する信号データを含むことができる。いくつかの実装形態では、ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、ノイズの多い1つまたは複数のモザイク型の線形未加工画像を含むことができる。
【0040】
入力2次元視線方向および入力3次元位置は、予測データを生成するためにニューラルラジアンスフィールドモデルを用いて処理され得る。予測データは、1つまたは複数の予測密度値および1つまたは複数の予測カラー値を含むことができる。予測データは、予測される赤色のフィルタデータ、予測される青色のフィルタデータ、予測される第1の緑色のフィルタデータ、および/または予測される第2の緑色のフィルタデータを含むことができる、予測されるベイヤフィルタデータを生成するために利用され得る。予測データは、改善された画像データを生成するために処理され得る予測される未加工画像データに関連することができる。
【0041】
予測データは、次いで、予測視点レンダリングを生成するために画像増強ブロックを用いて処理され得る。予測視点レンダリングは、環境の予測シーンレンダリングを記述することができる。いくつかの実装形態では、画像増強ブロックは予測データの焦点を調整することができる。追加および/または代替として、画像増強ブロックは予測データの露出レベルを調整することができる。画像増強ブロックは予測データのトーンマッピングを調整することができる。
【0042】
代替および/または追加として、システムおよび方法は、訓練データセットを取得することを含むことができる。訓練データセットは、複数の未加工入力データセットを含むことができる。いくつかの実装形態では、訓練データセットは、複数のそれぞれの視線方向および複数のそれぞれの位置を含むことができる。システムおよび方法は、第1の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて第1の視線方向および第1の位置を処理することを含むことができる。第1の予測データは、1つまたは複数の第1の予測カラー値および1つまたは複数の第1の予測密度値を記述することができる。システムおよび方法は、第1の予測データと複数の未加工入力データセットのうちの第1の未加工入力データセットとの間の差分を評価する損失関数を評価することを含むことができる。いくつかの実装形態では、第1の未加工入力データセットは、第1の位置または第1の視線方向のうちの少なくとも1つに関連することができる。システムおよび方法は、損失関数に少なくとも部分的に基づいてニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することを含むことができる。
【0043】
訓練データセットが取得され得る。訓練データセットは、複数の未加工入力データセットを含むことができる。いくつかの実装形態では、訓練データセットは、複数のそれぞれの視線方向および複数のそれぞれの位置を含むことができる。複数のそれぞれの視線方向は、複数の2次元視線方向を含むことができる。複数のそれぞれの位置は、複数の3次元位置を含むことができる。未加工入力データセットは、1つまたは複数の高ダイナミックレンジ画像を含むことができる。
【0044】
第1の視線方向および第1の位置は、第1の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて処理され得る。第1の予測データは、1つまたは複数の第1の予測カラー値および1つまたは複数の第1の予測密度値を記述することができる。第1の予測データは、予測される未加工光子信号データに関連することができる。
【0045】
第1の予測データと複数の未加工入力データセットのうちの第1の未加工入力データセットとの間の差分を評価する損失関数が、次いで、評価され得る。第1の未加工入力データセットは、第1の位置または第1の視線方向のうちの少なくとも1つに関連することができる。いくつかの実装形態では、損失関数は、第1の予測データまたは第1の未加工入力データセットのうちの少なくとも1つを処理することに関連するトーンマッピング損失を含むことができる。損失関数は、人間の知覚がダイナミックレンジを圧縮するやり方に整合させるために、暗い領域の中では明るい領域よりも大きく誤差にペナルティを課すことができる。ペナルティを課すことは、損失関数評価の前に第1の予測データと第1の未加工入力データセットの両方がトーンマッピング曲線を通過させられた後に行うことができる。いくつかの実装形態では、損失関数は、重み付けされた損失関数を含むことができる。損失は、モザイク型の未加工入力データおよび/または第1の予測データのアクティブなカラーチャネルに適用されてよい。追加および/または代替として、光線を生成するときの径方向のひずみを考慮に入れるためにカメラ内部パラメータ(camera intrinsics)が利用され得る。
【0046】
ニューラルラジアンスフィールドモデルの1つまたは複数のパラメータが、次いで、損失関数に少なくとも部分的に基づいて調整され得る。1つまたは複数のパラメータは、環境に関連する学習された3次元表現に関連することができる。いくつかの実装形態では、1つまたは複数のパラメータは環境を学習するように調整され得る。
【0047】
いくつかの実装形態では、コンピューティングシステムは、異なるシャッター速度を使用して生成された画像データを使用して、環境に対してニューラルラジアンスフィールドモデルを訓練することができる。たとえば、コンピューティングシステムは、第2の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて第2の視線方向および第2の位置を処理することができる。第2の予測データは、1つまたは複数の第2の予測カラー値および1つまたは複数の第2の予測密度値を記述することができる。コンピューティングシステムは、スケーリングされた第2の予測データを生成するためにシャッター速度に基づいて1つまたは複数の第2の予測カラー値をスケーリングすることができる。スケーリングされた第2の予測データと複数の未加工入力データセットのうちの第2の未加工入力データセットとの間の差分を評価する損失関数が、次いで、評価され得る。第2の未加工入力データセットは、第2の位置または第2の視線方向のうちの少なくとも1つに関連することができる。ニューラルラジアンスフィールドモデルの1つまたは複数の追加のパラメータが、損失関数に少なくとも部分的に基づいて調整され得る。
【0048】
本開示のシステムおよび方法は、いくつかの技術的な効果および利点を与える。一例として、システムおよび方法は、ノイズの多い未加工画像に対してニューラルラジアンスフィールドモデルを訓練することができる。より詳細には、システムおよび方法は、ニューラルラジアンスフィールドモデルを訓練するために未処理画像を利用することができる。たとえば、いくつかの実装形態では、システムおよび方法は、線形のHDR色空間の中のノイズの多い複数の未加工画像に対してニューラルラジアンスフィールドモデルを訓練することを含むことができる。ニューラルラジアンスフィールドモデルは、次いで、シーンの視点レンダリングを生成するために利用され得る。
【0049】
本開示のシステムおよび方法の別の技術的な利点は、弱光シーンのための視点レンダリングを生成するための能力である。たとえば、ニューラルラジアンスフィールドモデルは、弱光シーンからのデータに対して訓練されてよく、得られた訓練済みのモデルは、次いで、弱光シーンの新規視点レンダリングのために利用され得る。
【0050】
別の例示的な技術的な効果および利点は、計算コストおよび計算時間の低減に関する。本明細書で開示するシステムおよび方法は、ニューラルラジアンスフィールドモデルを訓練するための前処理ステップを除去することができる。LDR画像ではなくHDR画像の利用は、未加工画像を補正するための処理ステップを除去することができる。
【0051】
次に図面を参照しながら、本開示の例示的な実施形態をさらに詳細に説明する。
【0052】
例示的なデバイスおよびシステム
図1Aは、本開示の例示的な実施形態による視点レンダリング(たとえば、弱光シーンおよび/または高コントラストシーンの視点レンダリング)を実行する例示的なコンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、および訓練コンピューティングシステム150を含む。
【0053】
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップまたはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンまたはタブレット)、ゲーム機もしくはゲームコントローラ、ウェアラブルコンピューティングデバイス、組込みコンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなどの、任意のタイプのコンピューティングデバイスであり得る。
【0054】
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであり得る。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、1つまたは複数の非一時的コンピュータ可読記憶媒体、およびそれらの組合せを含むことができる。メモリ114は、データ116、およびユーザコンピューティングデバイス102に動作を実行させるためにプロセッサ112によって実行される命令118を記憶することができる。
【0055】
いくつかの実装形態では、ユーザコンピューティングデバイス102は、1つまたは複数のニューラルラジアンスフィールドモデル120を記憶することができるか、またはそれを含むことができる。たとえば、ニューラルラジアンスフィールドモデル120は、非線形モデルおよび/または線形モデルを含む、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)または他のタイプの機械学習型モデルなどの、様々な機械学習型モデルであり得るか、またはそれを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク(たとえば、長短期記憶リカレントニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形態のニューラルネットワークを含むことができる。例示的なニューラルラジアンスフィールドモデル120について、図2図5を参照しながら説明する。
【0056】
いくつかの実装形態では、1つまたは複数のニューラルラジアンスフィールドモデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信されること、ユーザコンピューティングデバイスメモリ114の中に記憶されること、および次いで、1つまたは複数のプロセッサ112によって使用されるかまたは実施されることが可能である。いくつかの実装形態では、ユーザコンピューティングデバイス102は、(たとえば、弱光シーンの複数のインスタンスにわたって、並列した視点レンダリングを実行するための)単一のニューラルラジアンスフィールドモデル120の複数の並列したインスタンスを実施することができる。
【0057】
より詳細には、システムおよび方法は、弱光シーンおよび/または高コントラストシーンにおけるノイズの多い複数の未加工画像(たとえば、複数の未処理画像)に対してニューラルラジアンスフィールドモデルを訓練することを含むことができる。訓練済みのニューラルラジアンスフィールドモデルは、次いで、弱光シーンおよび/または高コントラストシーンのための視点レンダリングを生成するために利用され得る。
【0058】
追加または代替として、1つまたは複数のニューラルラジアンスフィールドモデル140は、クライアントサーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130の中に含まれること、またはそれによって記憶および実施されることが可能である。たとえば、ニューラルラジアンスフィールドモデル140は、ウェブサービス(たとえば、視点レンダリングサービス)の一部分としてサーバコンピューティングシステム140によって実施され得る。したがって、ユーザコンピューティングデバイス102において1つもしくは複数のモデル120が記憶および実施されることが可能であり、かつ/またはサーバコンピューティングシステム130において1つもしくは複数のモデル140が記憶および実施されることが可能である。
【0059】
ユーザコンピューティングデバイス102はまた、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122を含むことができる。たとえば、ユーザ入力構成要素122は、ユーザ入力物体(たとえば、指またはスタイラス)のタッチに敏感なタッチセンシティブ構成要素(たとえば、タッチセンシティブ表示スクリーンまたはタッチパッド)であり得る。タッチセンシティブ構成要素は、仮想キーボードを実施する働きをする場合がある。他の例示的なユーザ入力構成要素は、マイクロフォン、従来型キーボード、またはユーザがユーザ入力を与えることができる他の手段を含む。
【0060】
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであり得る。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、1つまたは複数の非一時的コンピュータ可読記憶媒体、およびそれらの組合せを含むことができる。メモリ134は、データ136、およびサーバコンピューティングシステム130に動作を実行させるためにプロセッサ132によって実行される命令138を記憶することができる。
【0061】
いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそれによって実施される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、逐次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
【0062】
上記で説明したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習型ニューラルラジアンスフィールドモデル140を記憶するかまたは含むことができる。たとえば、モデル140は、様々な機械学習型モデルであり得るか、または様々な機械学習型モデルを含むことができる。例示的な機械学習型モデルは、ニューラルネットワークまたは他の多層非線形モデルを含む。例示的なニューラルネットワークは、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、リカレントニューラルネットワーク、および畳み込みニューラルネットワークを含む。例示的なモデル140について、図2図5を参照しながら説明する。
【0063】
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されている訓練コンピューティングシステム150との相互作用を介してモデル120および/または140を訓練することができる。訓練コンピューティングシステム150は、サーバコンピューティングシステム130とは別個であり得るか、またはサーバコンピューティングシステム130の一部分であり得る。
【0064】
訓練コンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であり得、1つのプロセッサ、または動作可能に接続されている複数のプロセッサであり得る。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、1つまたは複数の非一時的コンピュータ可読記憶媒体、およびそれらの組合せを含むことができる。メモリ154は、データ156、および訓練コンピューティングシステム150に動作を実行させるためにプロセッサ152によって実行される命令158を記憶することができる。いくつかの実装形態では、訓練コンピューティングシステム150は、1つもしくは複数のサーバコンピューティングデバイスを含むか、または1つもしくは複数のサーバコンピューティングデバイスによって実施される。
【0065】
訓練コンピューティングシステム150は、たとえば、誤差逆伝播などの様々な訓練技法または学習技法を使用して、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130において記憶された機械学習型モデル120および/または140を訓練する、モデル訓練器160を含むことができる。たとえば、損失関数が、(たとえば、損失関数の勾配に基づいて)モデルの1つまたは複数のパラメータを更新するためにモデルを通じて逆伝播され得る。2乗平均誤差関数、尤度損失関数、クロスエントロピー損失関数、ヒンジ損失関数、および/または様々な他の損失関数などの、様々な損失関数が使用され得る。いくつかの訓練イタレーションにわたってパラメータを反復的に更新するために、勾配降下技法が使用され得る。
【0066】
いくつかの実装形態では、誤差逆伝播を実行することは、打切り逆伝播スルータイム(truncated backpropagation through time)を実行することを含むことができる。モデル訓練器160は、訓練中のモデルの汎化能力を改善するために、いくつかの汎化技法(たとえば、重み減衰、ドロップアウトなど)を実行することができる。
【0067】
詳細には、モデル訓練器160は、訓練データ162のセットに基づいてニューラルラジアンスフィールドモデル120および/または140を訓練することができる。訓練データ162は、たとえば、複数の3次元位置、複数の2次元視線方向、およびノイズの多い複数の未加工画像を含むことができる。ノイズの多い複数の未加工画像の各々は、少なくとも1つの位置および少なくとも1つの視線方向に関連してよい。
【0068】
いくつかの実装形態では、ユーザが同意を与えている場合、ユーザコンピューティングデバイス102によって訓練例が提供され得る。したがって、そのような実装形態では、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信されるユーザ固有データに対して訓練コンピューティングシステム150によって訓練され得る。いくつかの事例では、このプロセスは、モデルを個別化することと呼ばれる場合がある。
【0069】
モデル訓練器160は、所望の機能を提供するために利用されるコンピュータ論理を含む。モデル訓練器160は、ハードウェア、ファームウェア、および/または汎用プロセッサを制御するソフトウェアで実装され得る。たとえば、いくつかの実装形態では、モデル訓練器160は、記憶デバイス上に記憶され、メモリの中にロードされ、かつ1つまたは複数のプロセッサによって実行される、プログラムファイルを含む。他の実装形態では、モデル訓練器160は、RAMハードディスクまたは光媒体もしくは磁気媒体などの有形コンピュータ可読記憶媒体の中に記憶される、コンピュータ実行可能命令の1つまたは複数のセットを含む。
【0070】
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなどの、任意のタイプの通信ネットワークであり得、任意の数の有線リンクまたはワイヤレスリンクを含むことができる。一般に、ネットワーク180を介した通信は、多種多様な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使用する、任意のタイプの有線接続および/またはワイヤレス接続を経由して搬送され得る。
【0071】
本明細書で説明する機械学習型モデルは、様々なタスク、用途、および/または使用事例において使用されてよい。
【0072】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、画像データであり得る。機械学習型モデルは、出力を生成するために画像データを処理することができる。一例として、機械学習型モデルは、画像認識出力(たとえば、画像データの認識、画像データの潜在埋込み、画像データの符号化表現、画像データのハッシュなど)を生成するために画像データを処理することができる。別の例として、機械学習型モデルは、画像セグメンテーション出力を生成するために画像データを処理することができる。別の例として、機械学習型モデルは、画像分類出力を生成するために画像データを処理することができる。別の例として、機械学習型モデルは、画像データ修正出力(たとえば、画像データの改変など)を生成するために画像データを処理することができる。別の例として、機械学習型モデルは、符号化画像データ出力(たとえば、画像データの符号化および/または圧縮された表現など)を生成するために画像データを処理することができる。別の例として、機械学習型モデルは、アップスケールされた画像データ出力を生成するために画像データを処理することができる。別の例として、機械学習型モデルは、予測出力を生成するために画像データを処理することができる。
【0073】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、テキストデータまたは自然言語データであり得る。機械学習型モデルは、出力を生成するためにテキストデータまたは自然言語データを処理することができる。一例として、機械学習型モデルは、言語符号化出力を生成するために自然言語データを処理することができる。別の例として、機械学習型モデルは、潜在テキスト埋込み出力を生成するために、テキストデータまたは自然言語データを処理することができる。別の例として、機械学習型モデルは、翻訳出力を生成するために、テキストデータまたは自然言語データを処理することができる。別の例として、機械学習型モデルは、分類出力を生成するために、テキストデータまたは自然言語データを処理することができる。別の例として、機械学習型モデルは、テキストセグメンテーション出力を生成するために、テキストデータまたは自然言語データを処理することができる。別の例として、機械学習型モデルは、セマンティックインテント出力を生成するために、テキストデータまたは自然言語データを処理することができる。別の例として、機械学習型モデルは、アップスケールされたテキスト出力または自然言語出力(たとえば、入力テキストまたは入力自然言語よりも品質が高いテキストデータまたは自然言語データなど)を生成するために、テキストデータまたは自然言語データを処理することができる。別の例として、機械学習型モデルは、予測出力を生成するために、テキストデータまたは自然言語データを処理することができる。
【0074】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、潜在符号化データ(たとえば、入力の潜在空間表現など)であり得る。機械学習型モデルは、出力を生成するために潜在符号化データを処理することができる。一例として、機械学習型モデルは、認識出力を生成するために潜在符号化データを処理することができる。別の例として、機械学習型モデルは、再構成出力を生成するために潜在符号化データを処理することができる。別の例として、機械学習型モデルは、探索出力を生成するために潜在符号化データを処理することができる。別の例として、機械学習型モデルは、リクラスタリング出力を生成するために潜在符号化データを処理することができる。別の例として、機械学習型モデルは、予測出力を生成するために潜在符号化データを処理することができる。
【0075】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、統計データであり得る。機械学習型モデルは、出力を生成するために統計データを処理することができる。一例として、機械学習型モデルは、認識出力を生成するために統計データを処理することができる。別の例として、機械学習型モデルは、予測出力を生成するために統計データを処理することができる。別の例として、機械学習型モデルは、分類出力を生成するために統計データを処理することができる。別の例として、機械学習型モデルは、セグメンテーション出力を生成するために統計データを処理することができる。別の例として、機械学習型モデルは、セグメンテーション出力を生成するために統計データを処理することができる。別の例として、機械学習型モデルは、視覚化出力を生成するために統計データを処理することができる。別の例として、機械学習型モデルは、診断出力を生成するために統計データを処理することができる。
【0076】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、センサデータであり得る。機械学習型モデルは、出力を生成するためにセンサデータを処理することができる。一例として、機械学習型モデルは、認識出力を生成するためにセンサデータを処理することができる。別の例として、機械学習型モデルは、予測出力を生成するためにセンサデータを処理することができる。別の例として、機械学習型モデルは、分類出力を生成するためにセンサデータを処理することができる。別の例として、機械学習型モデルは、セグメンテーション出力を生成するためにセンサデータを処理することができる。別の例として、機械学習型モデルは、セグメンテーション出力を生成するためにセンサデータを処理することができる。別の例として、機械学習型モデルは、視覚化出力を生成するためにセンサデータを処理することができる。別の例として、機械学習型モデルは、診断出力を生成するためにセンサデータを処理することができる。別の例として、機械学習型モデルは、検出出力を生成するためにセンサデータを処理することができる。
【0077】
場合によっては、機械学習型モデルは、高信頼かつ/または効率的な送信または記憶のために入力データを符号化すること(および/または、対応する復号)を含むタスクを実行するように構成され得る。たとえば、タスクはオーディオ圧縮タスクであってよい。入力はオーディオデータを含んでよく、出力は圧縮されたオーディオデータを備えてよい。別の例では、入力は視覚データ(たとえば、1つまたは複数の画像またはビデオ)を含み、出力は圧縮された視覚データを備え、タスクは視覚データ圧縮タスクである。別の例では、タスクは、入力データ(たとえば、入力オーディオデータまたは入力視覚データ)に対する埋込みを生成することを備えてよい。
【0078】
場合によっては、入力は視覚データを含み、タスクはコンピュータビジョンタスクである。場合によっては、入力は1つまたは複数の画像に対するピクセルデータを含み、タスクは画像処理タスクである。たとえば、画像処理タスクは画像分類であり得、ここで、出力はスコアのセットであり、各スコアは異なるオブジェクトクラスに対応し、1つまたは複数の画像がそのオブジェクトクラスに属するオブジェクトを示す尤度を表す。画像処理タスクは物体検出であってよく、ここで、画像処理出力は、1つまたは複数の画像の中の1つまたは複数の領域、および領域ごとに、領域が対象の物体を示す尤度を識別する。別の例として、画像処理タスクは画像セグメンテーションであり得、ここで、画像処理出力は、1つまたは複数の画像の中のピクセルごとに、カテゴリーの所定のセットの中のカテゴリーごとのそれぞれの尤度を規定する。たとえば、カテゴリーのセットは前景および背景であり得る。別の例として、カテゴリーのセットはオブジェクトクラスであり得る。別の例として、画像処理タスクは深度推定であり得、ここで、画像処理出力は、1つまたは複数の画像の中のピクセルごとに、それぞれの深度値を規定する。別の例として、画像処理タスクは動き推定であり得、ここで、ネットワーク入力は複数の画像を含み、画像処理出力は、入力画像のうちの1つの入力画像のピクセルごとに、ネットワーク入力の中の画像間での、ピクセルにおいて示されるシーンの動きを規定する。
【0079】
図1Aは、本開示を実施するために使用され得る1つの例示的なコンピューティングシステムを示す。他のコンピューティングシステムも使用され得る。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデル訓練器160および訓練データセット162を含むことができる。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102において局所的に訓練されることと使用されることの両方が可能である。そのような実装形態のうちのいくつかでは、ユーザコンピューティングデバイス102は、ユーザ固有データに基づいてモデル120を個別化するためのモデル訓練器160を実装することができる。
【0080】
図1Bは、本開示の例示的な実施形態に従って機能する例示的なコンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであり得る。
【0081】
コンピューティングデバイス10は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、それ自体の機械学習ライブラリおよび機械学習型モデルを含む。たとえば、各アプリケーションが機械学習型モデルを含むことができる。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、口述筆記アプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
【0082】
図1Bに示すように、各アプリケーションは、たとえば、1つまたは複数のセンサ、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などの、コンピューティングデバイスのいくつかの他の構成要素と通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使用して各デバイス構成要素と通信することができる。いくつかの実装形態では、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。
【0083】
図1Cは、本開示の例示的な実施形態に従って機能する例示的なコンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであり得る。
【0084】
コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、中央インテリジェンス層と通信している。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、口述筆記アプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使用して中央インテリジェンス層(および、そこに記憶されたモデル)と通信することができる。
【0085】
中央インテリジェンス層はいくつかの機械学習型モデルを含む。たとえば、図1Cに示すように、それぞれの機械学習型モデル(たとえば、モデル)は、アプリケーションごとに提供されること、および中央インテリジェンス層によって管理されることが可能である。他の実装形態では、2つ以上のアプリケーションが単一の機械学習型モデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンス層は、単一のモデル(たとえば、単一のモデル)をアプリケーションのすべてに提供することができる。いくつかの実装形態では、中央インテリジェンス層は、コンピューティングデバイス50のオペレーティングシステム内に含まれるか、またはそれによって実施される。
【0086】
中央インテリジェンス層は、中央デバイスデータ層と通信することができる。中央デバイスデータ層は、コンピューティングデバイス50のためのデータの集中型リポジトリであり得る。図1Cに示すように、中央デバイスデータ層は、たとえば、1つまたは複数のセンサ、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などの、コンピューティングデバイスのいくつかの他の構成要素と通信することができる。いくつかの実装形態では、中央デバイスデータ層は、API(たとえば、プライベートAPI)を使用して各デバイス構成要素と通信することができる。
【0087】
例示的なモデル構成
図2は、本開示の例示的な実施形態による例示的なニューラルラジアンスフィールドモデル200(たとえば、RawNeRF)のブロック図を示す。いくつかの実装形態では、ニューラルラジアンスフィールドモデル200は、ノイズの多い未加工画像データ(たとえば、未処理画像ならびにそれらのそれぞれの位置および視線方向)を記述する入力データ204のセットを受信し、かつ入力データ204の受信の結果として、訓練のためにニューラルラジアンスフィールドモデルに逆伝播するための勾配降下を決定するために訓練データに対して評価され得る出力データ206を提供するように、訓練される。したがって、いくつかの実装形態では、ニューラルラジアンスフィールドモデル200は、訓練されると弱光シーンのための視点レンダリングを生成するように動作可能なRawNeRFモデル202を含むことができる。出力データ206は、レンダリングされた直線的な視線を含むことができる。出力データ206は、改善された視点レンダリング210を生成するために色補正ブロック208を用いて処理され得る。改善された視点レンダリング210は、高ダイナミックレンジから低ダイナミックレンジへの変換を含むことができる。追加および/または代替として、改善された視点レンダリング210は、露出変更および/またはトーンマッピング決定に基づいて生成され得る。
【0088】
本開示のシステムおよび方法は、低ダイナミックレンジニューラルラジアンスフィールドパイプライン212とは異なる場合がある。詳細には、低ダイナミックレンジニューラルラジアンスフィールドパイプライン212は、ニューラルラジアンスフィールドモデルを訓練する前に画像データを前処理することを含むことができ、そうした訓練は、処理済みのデータのバイアスに汎化する視点レンダリングを出力するように、ニューラルラジアンスフィールドモデルを訓練することができる。代替および/または追加として、本開示のシステムおよび方法は、ノイズの多い未加工画像データを含む入力データ204に対してニューラルラジアンスフィールドモデル202を訓練することができる。
【0089】
図3は、本開示の例示的な実施形態による例示的なニューラルラジアンスフィールドモデル300のブロック図を示す。ニューラルラジアンスフィールドモデル300は、ニューラルラジアンスフィールドモデル300が、図2に示すように並列に表示されるのではなく、随意のLDRパイプラインをHDRパイプラインと直列にさらに含むことを除いて、図2のニューラルラジアンスフィールドモデル200と類似である。
【0090】
詳細には、訓練データ302は、ノイズの多い複数の未加工画像、複数の2次元視線方向、および複数の3次元位置を含むことができる。2次元視線方向および3次元位置は、予測データ306を生成するためにニューラルラジアンスフィールドモデル304を用いて処理され得る。予測データ306は、1つもしくは複数の予測密度値および/または1つもしくは複数の予測カラー値を含むことができる。予測データ306は、次いで、損失関数308を評価するためにグラウンドトゥルースデータに対して比較され得る。
【0091】
LDRパイプラインの場合、グラウンドトゥルースデータは処理済みの画像データを含むことができる。たとえば、視線方向および位置に関連する、ノイズの多い未加工画像が、処理済みの画像を有する訓練データ312を生成するために画像処理パイプライン310を用いて処理され得る。損失関数308を評価するために、予測データ306および処理済みの画像が利用され得る。ニューラルラジアンスフィールドモデル304の1つまたは複数のパラメータを調整するために、勾配降下が、次いで、ニューラルラジアンスフィールドモデル304に逆伝播され得る。
【0092】
代替および/または追加として、HDRパイプラインの場合、グラウンドトゥルースデータはノイズの多い未加工画像を含むことができる。たとえば、損失関数308を評価して勾配降下を生成するために、予測データ306およびノイズの多い未加工(未処理)画像が利用されることが可能であり、ニューラルラジアンスフィールドモデル304の1つまたは複数のパラメータを調整するために、勾配降下がニューラルラジアンスフィールドモデル304に逆伝播され得る。
【0093】
LDRパイプラインとHDRパイプラインの両方が、損失関数308を評価するために利用され得る予測データ306を生成することを含むことができる。ただし、グラウンドトゥルースデータおよび/または損失関数308は異なる場合がある。詳細には、LDRパイプラインは、処理済みの画像データをグラウンドトゥルースとして含むことができ、そのことは、低ダイナミックレンジデータを出力するようにニューラルラジアンスフィールドモデル304に学習させることができる。代替および/または追加として、HDRパイプラインは、未処理画像データをグラウンドトゥルースとして含むことができ、そのことは、高ダイナミックレンジデータを出力するようにニューラルラジアンスフィールドモデル304に学習させることができる。
【0094】
図4は、本開示の例示的な実施形態による例示的な視点レンダリングパイプライン400の図を示す。低ダイナミックレンジのニューラルラジアンスフィールドモデルパイプライン406の場合、入力データ402(たとえば、ノイズの多いモザイク型の線形未加工画像(たとえば、RGGBベイヤフィルタ画像データセット))が、画像をデモザイクするとともに色補正および/または露出補正を実行するために処理され得る(414)。得られた処理済みの画像データが、次いで、ニューラルラジアンスフィールドモデルを訓練するために利用され得る(416)。訓練済みのモデルは、次いで、ニューラルラジアンスフィールドモデルを訓練済みにした環境の低ダイナミックレンジ視点をレンダリングするために利用され得る(418)。
【0095】
高ダイナミックレンジのニューラルラジアンスフィールドモデルパイプライン404の場合、入力データ402は、未加工ニューラルラジアンスフィールドモデルを直接訓練するために利用され得る(408)。訓練されるモデルは、未加工ニューラルラジアンスフィールドモデルがそこで訓練される環境の高ダイナミックレンジ視点をレンダリングするように訓練され得る(410)。410でレンダリングされた高ダイナミックレンジ視点は、次いで、改善された視点レンダリングを生成するために視点レンダリングの露出およびトーンマッピングを変更するために後処理され得る(412)。
【0096】
図5は、本開示の例示的な実施形態による例示的なニューラルラジアンスフィールドモデル訓練500のブロック図を示す。ニューラルラジアンスフィールドモデル訓練500は、訓練データセットを取得することを含むことができる。訓練データセットは、1つもしくは複数の位置502、1つもしくは複数の視線方向、および/または1つもしくは複数の未加工画像データセット514を含むことができる。訓練のために、3次元位置502および2次元視線方向504が、予測データ508を生成するためにニューラルラジアンスフィールドモデル506を用いて処理され得る。予測データ508は、1つもしくは複数の予測カラー値および/または1つもしくは複数の予測密度値を含むことができる。予測データ508、および訓練データセットからの未加工画像データセット514が、損失関数516を評価するために利用され得る。損失関数516が、次いで、ニューラルラジアンスフィールドモデル506の1つまたは複数のパラメータを調整するために利用され得る。
【0097】
ニューラルラジアンスフィールドモデル506が訓練済みになると、新規の位置および視線方向セットが、予測データ508を生成するためにニューラルラジアンスフィールドモデル506を用いて処理されることが可能であり、予測データ508は、次いで、新規視点レンダリング512を生成するために画像増強モデル510を用いて処理され得る。新規視点レンダリング512は、処理済みの画像データに関連することができる。
【0098】
例示的な方法
図6は、本開示の例示的な実施形態に従って機能するための例示的な方法のフローチャート図を示す。図6は、例示および説明のために、特定の順序で実行されるステップを示すが、本開示の方法は特に図示された順序または構成に限定されない。方法600の様々なステップが、本開示の範囲から逸脱することなく様々な方法で省略、再構成、組合せ、および/または適合され得る。
【0099】
602において、コンピューティングシステムは訓練データセットを取得することができる。訓練データセットは、複数の3次元位置、複数の2次元視線方向、およびノイズの多い複数の未加工画像を含むことができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、未加工フォーマットで構造化された複数の未処理ビットを含む複数の高ダイナミックレンジ画像を含むことができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、複数の赤色-緑色-緑色-青色データセットに関連することができる。いくつかの実装形態では、ノイズの多い複数の未加工画像は、1つまたは複数の画像センサからの未加工信号データに基づいて生成されたベイヤフィルタデータセットを含むことができる。ノイズの多い未加工画像データセットは、露出補正、色補正、および/または焦点補正の前のデータを含むことができる。複数の2次元視線方向および複数の3次元位置は、環境の中での視線方向および位置に関連することができる。環境は弱い照明を含む場合があり、ノイズの多い複数の未加工画像は弱い照明を含む場合がある。
【0100】
604において、コンピューティングシステムは、視点レンダリングを生成するためにニューラルラジアンスフィールドモデルを用いて複数の3次元位置のうちの第1の3次元位置および複数の2次元視線方向のうちの第1の2次元視線方向を処理することができる。いくつかの実装形態では、ニューラルラジアンスフィールドモデルは、1つまたは複数の多層パーセプトロンを含むことができる。視点レンダリングは、1つまたは複数の予測カラー値および1つまたは複数の予測ボリューム密度値を記述することができる。ニューラルラジアンスフィールドモデルは、1つまたは複数の予測カラー値および1つまたは複数の予測密度値を生成するために視線方向および位置を処理するように構成され得る。1つまたは複数の予測カラー値および1つまたは複数の予測密度値は、視点レンダリングを生成するために利用され得る。視点レンダリングは、1つまたは複数の赤色、青色、または緑色のフィルタに関連する1つまたは複数のベイヤフィルタ画像に関連する未加工視点レンダリングであり得る。未加工視点レンダリングは、1つもしくは複数の補正された色、1つもしくは複数の補正された焦点、1つもしくは複数の補正された露出、および/または1つもしくは複数の補正されたアーティファクトを有する拡張画像を生成するために、1つまたは複数の画像増強ブロックを用いて処理され得る。
【0101】
606において、コンピューティングシステムは、視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することができる。第1の画像は、第1の3次元位置または第1の2次元視線方向のうちの少なくとも1つに関連することができる。いくつかの実装形態では、損失関数は、重み付けし直されたL2損失を含むことができる。視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することは、モザイクマスキングを含むことができる。代替および/または追加として、視点レンダリングとノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することは、露出調整を含むことができる。いくつかの実装形態では、第1の画像は、カメラによって生成された現実世界の光子信号データを含むことができる。視点レンダリングは、予測される光子信号データを含むことができる。
【0102】
608において、コンピューティングシステムは、損失関数に少なくとも部分的に基づいてニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することができる。損失関数は勾配停止を含むことができる。いくつかの実装形態では、勾配停止は、ニューラルラジアンスフィールドモデルが低信頼性値に汎化することを軽減することができる。
【0103】
いくつかの実装形態では、コンピューティングシステムは、色補正されたレンダリングを生成するために色補正モデルを用いて視点レンダリングを処理することができる。代替および/または追加として、視点レンダリングは、露出補正されたレンダリングを生成するために露出補正モデルを用いて処理され得る。色補正モデルおよび/または露出補正モデルは、画像増強ブロックの一部であり得る。未加工信号データおよび/または予測される未加工信号データを処理するように、1つまたは複数の画像補正モデルが構成され得る。1つまたは複数の画像補正モデルは画像増強モデルの一部であり得、ベイヤフィルタ信号データに対して訓練され得る。
【0104】
追加および/または代替として、コンピューティングシステムは、入力視線方向および入力位置を取得することができ、予測クアッドベイヤフィルタデータを生成するためにニューラルラジアンスフィールドモデルを用いて入力視線方向および入力位置を処理することができ、新規視点レンダリングを生成するために予測クアッドベイヤフィルタデータを処理することができる。
【0105】
図7は、本開示の例示的な実施形態に従って実行するための例示的な方法のフローチャート図を示す。図7は、例示および説明のために、特定の順序で実行されるステップを示すが、本開示の方法は特に図示された順序または構成に限定されない。方法700の様々なステップが、本開示の範囲から逸脱することなく様々な方法で省略、再構成、組合せ、および/または適合され得る。
【0106】
702において、コンピューティングシステムは、環境に関連する入力2次元視線方向および入力3次元位置を取得することができる。環境は1つまたは複数の物体を含む場合がある。いくつかの実装形態では、環境は弱い照明を含む場合がある。入力視線方向および入力3次元位置は、位置および視線方向に関連する環境の予測される視点を示す新規視点レンダリングを求める要求に関連することができる。
【0107】
704において、コンピューティングシステムは、ニューラルラジアンスフィールドモデルを取得することができる。ニューラルラジアンスフィールドモデルは訓練データセットに対して訓練済みであってよい。訓練データセットは、環境に関連する、ノイズの多い複数の入力データセットを含むことができる。いくつかの実装形態では、訓練データセットは、複数の訓練視線方向および複数の訓練位置を含むことができる。ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、光子信号データを含むことができる。追加および/または代替として、ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、赤色の値、緑色の値、または青色の値のうちの少なくとも1つに関連する信号データを含むことができる。いくつかの実装形態では、ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットは、ノイズの多い1つまたは複数のモザイク型の線形未加工画像を含むことができる。
【0108】
706において、コンピューティングシステムは、予測データを生成するためにニューラルラジアンスフィールドモデルを用いて入力2次元視線方向および入力3次元位置を処理することができる。予測データは、1つまたは複数の予測密度値および1つまたは複数の予測カラー値を含むことができる。予測データは、予測される赤色のフィルタデータ、予測される青色のフィルタデータ、予測される第1の緑色のフィルタデータ、および/または予測される第2の緑色のフィルタデータを含むことができる、予測されるベイヤフィルタデータを生成するために利用され得る。予測データは、改善された画像データを生成するために処理され得る予測される未加工画像データに関連することができる。
【0109】
708において、コンピューティングシステムは、予測視点レンダリングを生成するために画像増強ブロックを用いて予測データを処理することができる。予測視点レンダリングは、環境の予測シーンレンダリングを記述することができる。いくつかの実装形態では、画像増強ブロックは予測データの焦点を調整することができる。追加および/または代替として、画像増強ブロックは予測データの露出レベルを調整することができる。画像増強ブロックは予測データのトーンマッピングを調整することができる。
【0110】
図8は、本開示の例示的な実施形態に従って実行するための例示的な方法のフローチャート図を示す。図8は、例示および説明のために、特定の順序で実行されるステップを示すが、本開示の方法は特に図示された順序または構成に限定されない。方法800の様々なステップが、本開示の範囲から逸脱することなく様々な方法で省略、再構成、結合、および/または適合され得る。
【0111】
802において、コンピューティングシステムは、訓練データセットを取得することができる。訓練データセットは、複数の未加工入力データセットを含むことができる。いくつかの実装形態では、訓練データセットは、複数のそれぞれの視線方向および複数のそれぞれの位置を含むことができる。複数のそれぞれの視線方向は、複数の2次元視線方向を含むことができる。複数のそれぞれの位置は、複数の3次元位置を含むことができる。未加工入力データセットは、1つまたは複数の高ダイナミックレンジ画像を含むことができる。
【0112】
804において、コンピューティングシステムは、第1の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて第1の視線方向および第1の位置を処理することができる。第1の予測データは、1つまたは複数の第1の予測カラー値および1つまたは複数の第1の予測密度値を記述することができる。第1の予測データは、予測される未加工光子信号データに関連することができる。
【0113】
806において、コンピューティングシステムは、第1の予測データと複数の未加工入力データセットのうちの第1の未加工入力データセットとの間の差分を評価する損失関数を評価することができる。第1の未加工入力データセットは、第1の位置または第1の視線方向のうちの少なくとも1つに関連することができる。いくつかの実装形態では、損失関数は、第1の予測データまたは第1の未加工入力データセットのうちの少なくとも1つを処理することに関連するトーンマッピング損失を含むことができる。損失関数は、人間の知覚がダイナミックレンジを圧縮するやり方に整合させるために、暗い領域の中では明るい領域よりも大きく誤差にペナルティを課すことができる。ペナルティを課すことは、損失関数評価の前に第1の予測データと第1の未加工入力データセットの両方がトーンマッピング曲線を通過させられた後に行うことができる。いくつかの実装形態では、損失関数は、重み付けされた損失関数を含むことができる。損失は、モザイク型の未加工入力データおよび/または第1の予測データのアクティブなカラーチャネルに適用されてよい。追加および/または代替として、光線を生成するときの径方向のひずみを考慮に入れるためにカメラ内部パラメータが利用され得る。
【0114】
808において、コンピューティングシステムは、損失関数に少なくとも部分的に基づいてニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することができる。1つまたは複数のパラメータは、環境に関連する学習された3次元表現に関連することができる。いくつかの実装形態では、1つまたは複数のパラメータは環境を学習するように調整され得る。
【0115】
いくつかの実装形態では、システムおよび方法は、異なるシャッター速度を使用して生成された画像データを使用して、環境に対してニューラルラジアンスフィールドモデルを訓練することを含むことができる。たとえば、システムおよび方法は、第2の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて第2の視線方向および第2の位置を処理することを含むことができる。第2の予測データは、1つまたは複数の第2の予測カラー値および1つまたは複数の第2の予測密度値を記述することができる。システムおよび方法は、スケーリングされた第2の予測データを生成するためにシャッター速度に基づいて1つまたは複数の第2の予測カラー値をスケーリングすることを含むことができる。スケーリングされた第2の予測データと複数の未加工入力データセットのうちの第2の未加工入力データセットとの間の差分を評価する損失関数が、次いで、評価され得る。第2の未加工入力データセットは、第2の位置または第2の視線方向のうちの少なくとも1つに関連することができる。ニューラルラジアンスフィールドモデルの1つまたは複数の追加のパラメータが、損失関数に少なくとも部分的に基づいて調整され得る。
【0116】
例示的な実装形態
ニューラルラジアンスフィールド(NeRF)は、ポーズがとられた入力画像の収集からの高品質新規視点合成のために利用され得る。NeRFは、トーンマッピングされた低ダイナミックレンジ(LDR)を入力として使用することができる。画像は、細部を滑らかにし、光輝部をクリッピングし、かつ未加工センサデータの単純なノイズ分布をひずませる、損失のあるカメラパイプラインによって処理されていることがある。本明細書で開示するシステムおよび方法は、線形の未加工画像に対して直接訓練するための修正されたNeRFを含むことができ、シーンの全ダイナミックレンジを維持する。得られたNeRFからの未加工出力画像をレンダリングすることによって、システムおよび方法は新規高ダイナミックレンジ(HDR)視点合成タスクを実行することができる。カメラ視点を変更することに加えて、システムおよび方法は、事後に焦点、露出、およびトーンマッピングを操作することができる。単一の未加工画像は、後処理されたものよりも著しくノイズが多く見えるが、システムおよび方法は、NeRFが未加工ノイズの0平均分布に対して極めてロバストであることを示すことができる。ノイズの多い多くの未加工入力(たとえば、25~200個)にわたって最適化されると、NeRFは、基線が広い同じ入力画像に対して動作する専用の単一および複数画像ディープ未加工ノイズ除去器よりも優れている新規視点をレンダリングする、正確なシーン表現を作り出すことができる。いくつかの実装形態では、システムおよび方法は、ほぼ暗闇の中でキャプチャされた極めてノイズの多い画像からシーンを再構成することができる。
【0117】
視点合成方法(たとえば、ニューラルラジアンスフィールド(NeRF))は、トーンマッピングされた低ダイナミックレンジ(LDR)画像を入力として利用することができ、LDR空間の中のシーンの新たな視点を直接再構成およびレンダリングすることができる。採光がよく大きい輝度変動を含まないシーンに対する入力は、単一の固定されたカメラ露出設定を使用して最小のノイズしか伴わずにキャプチャされ得る。しかしながら、夜間において、または最も明るい屋内空間以外のどこかで撮られた画像は、劣悪な信号対ノイズ比を有することがあり、昼光と陰影の両方の領域を有するシーンは、正確に表現するために高ダイナミックレンジ(HDR)に依拠し得る極端なコントラスト比を有することがある。
【0118】
システムおよび方法(たとえば、RawNeRFを含むシステムおよび方法)は、ノイズの多い未加工入力画像に対して直接教師あり学習すること(supervising)によって線形のHDR色空間の中のシーンを再構成するように、NeRFを修正することができる。その修正は、視覚的に好ましい8ビットJPEGを作り出すために、ダイナミックレンジを圧縮するとともにノイズをならすためにカメラが適用する、損失のある後処理を回避することができる。未加工入力の全ダイナミックレンジを維持することによって、システムおよび方法(たとえば、RawNeRFを含むシステムおよび方法)は、様々な新規HDR視点合成タスクを可能にすることができる。システムおよび方法は、露出レベル、およびレンダリングされた出力に適用されるトーンマッピングアルゴリズムを修正することができ、焦点はずれの光源の周囲で正確にレンダリングされたボケ効果を有する、合成的にリフォーカスされた画像を作成することができる。
【0119】
視点合成適用以外に、システムおよび方法は、未加工データに対して直接訓練することが、ほぼ暗闇の中でキャプチャされたシーンを再構成することが可能な複数画像ノイズ除去器の中にRawNeRFを効果的に入れることができることを、示すことができる。カメラ後処理パイプライン(たとえば、HDR+)は、未加工データの単純なノイズ分布を損ない、分散を低減するとともに許容できる出力画像を作り出すために、著しいバイアスを持ち込むことがある。NeRFの中に画像を供給することは、特にシーンの最も暗い領域の中で不正確な色を有するバイアスされた再構成をそのように作り出し得る。システムおよび方法は、フレームにわたって情報を集約することによって分散を低減するためにNeRFの能力を利用し、ノイズの多い多くの未加工入力からRawNeRFがクリーンな再構成を作り出すために処理が可能であり得ることを呈することができる。
【0120】
本明細書で開示するシステムおよび方法は、静的なシーンを想定することができ、入力としてカメラ姿勢を予測する。余分な制約が与えられると、システムおよび方法は、入力フレームのほぼすべてにわたって情報を一度に平均化するために、3次元の複数視点整合性を利用できる場合がある。いくつかの実装形態では、キャプチャされたシーンは各々、25~200個の入力画像を含むことができ、このことは、システムおよび方法が、出力ごとに1~5個の入力画像を利用するフィードフォワード単一または複数画像ノイズ除去ネットワークよりも多くのノイズを除去できることを意味することができる。
【0121】
システムおよび方法は、高ダイナミックレンジシーンを処理できる未加工画像、ならびに暗がりの中でキャプチャされたノイズの多い入力に対して、ニューラルラジアンスフィールドモデルを直接訓練することを含むことができる。システムおよび方法は、ノイズの多い現実のデータセットおよび合成データセットにおいてNeRFよりも優れていることがあり、基線が広い静的なシーンのための見劣りしない複数画像ノイズ除去器であり得る。システムおよび方法は、線形のHDRシーン表現(たとえば、様々な露出、トーンマッピング、および焦点を記述するデータを含むことができる表現)を利用することによって新規視点合成適用を実行することができる。
【0122】
システムおよび方法(たとえば、RawNeRFを含むシステムおよび方法)は、高品質視点合成のための基線としてNeRFを含むことができ、ノイズの多い未加工データに対して直接NeRFを最適化するために低レベルの画像処理を利用することができ、HDRシーン再構成によって可能にされた新たなアプリケーションを示すために、コンピュータグラフィックスおよびコンピューテーショナルフォトグラフィにおいてHDRを利用することができる。
【0123】
新規視点合成は、新規視点をレンダリングすることが可能なシーン表現を再構成するために、入力画像およびそれらのカメラ姿勢のセットを使用することができる。入力画像が高密度にサンプリングされるとき、システムおよび方法は、視点合成のためにピクセル空間の中で直接補間を使用することができる。
【0124】
いくつかの実装形態では、視点合成は、メッシュベースのシーン表現ではなく、ボリュメトリック表現を学習することを含んでよい。NeRFシステムは、レンダリング損失に対して勾配降下を使用してすべての入力画像を整合させるように、ニューラルボリュメトリックシーン表現を直接最適化してよい。変化する照明条件に対してNeRFのロバストネスを改善するために様々な拡張が利用されてよく、かつ/または深度、飛行時間データ、および/もしくはセマンティックセグメンテーションラベルを用いて教師あり学習が追加されてよい。いくつかの実装形態では、一貫性のない照明またはカメラ間の較正ずれを考慮に入れるために、視点合成方法は、画像ごとのスケーリング係数の値を求めるために、共同でLDRデータを使用して訓練され得る。いくつかの実装形態では、システムおよび方法は、LDR画像を用いて教師あり学習することを含むことができ、近似的にHDRを復元するために微分可能なトーンマッピングステップを通じて露出の値を求めることができるが、ノイズに対するロバストネスまたは未加工データを用いた教師あり学習にこだわらなくてよい。システムおよび方法は、加法性白色ガウスノイズ(additive white Gaussian noise)を伴って合成的に損なわれたsRGB画像をノイズ除去することを含んでよい。
【0125】
本明細書で開示するシステムおよび方法は、ダイナミックレンジの維持を活用することができ、そのことは、事後に露出、ホワイトバランス、およびトーンマッピングをユーザに修正させる、最大限の後処理フレキシビリティを可能にすることができる。
【0126】
画像をキャプチャするとき、カメラセンサ上のピクセルに当たる光子の数が電荷に変換されることが可能であり、電荷はビット深度が大きいデジタル信号(たとえば、10~14ビット)として記録され得る。その値は、ノイズに起因する負の実測値を可能にするために「ブラックレベル」だけオフセットされてよい。ブラックレベル減算の後、信号は、シャッターが開いている間に到着する光子の予想される数に比例する数量xiの、ノイズの多い実測値yiであってよい。ノイズは、光子到着がポアソン(Poisson)プロセスであり得るという物理的な事実(「ショット」ノイズ)と、アナログ電気信号をデジタル値に変換するリードアウト回路の中のノイズ(「リード」ノイズ)の両方に起因する。結合されたショットおよびリードノイズ分布は、その分散がその平均のアフィン関数であるガウシアン(Gaussian)として良好にモデリングされることが可能であり、そのことは、誤差yi-xiの分布が0平均であることを暗示することができる。
【0127】
カラーカメラは、各ピクセルのスペクトル応答曲線が赤色の光、緑色の光、または青色の光のいずれかを測定するようなベイヤカラーフィルタアレイを画像センサの前方に含むことができる。ピクセルカラー値は、一般に、2つの緑色ピクセル、1つの赤色ピクセル、および1つの青色ピクセルを含む2×2の正方形(たとえば、ベイヤパターン)をなして配置されてよく、「モザイク型の」データがもたらされる。全解像度カラー画像を生成するために、欠落したカラーチャネルはデモザイクアルゴリズムを使用して補間されてよい。その補間はノイズを空間的に相関させることができ、モザイクのチェッカーボードパターンは、交互になっているピクセルの中の異なるノイズレベルにつながる場合がある。
【0128】
各カラーフィルタ素子に対するスペクトル応答曲線は異なるカメラ間で変わることがあり、画像をカメラ固有のこの色空間から、標準化された色空間に変換するために、色補正行列が使用され得る。追加および/または代替として、異なる光源によって与えられる色合いに対して人間の知覚はロバストであり得るので、カメラは、推定されるホワイトバランス係数だけ各カラーチャネルをスケーリングすることによって色合いを考慮に入れる(たとえば、白い面をRGB中立な白色に見えさせる)ことを試みてよい。それら2つのステップは、一般に、ノイズをカラーチャネル間でさらに相関させ得る単一の線形3×3行列変換に組み合わせられることが可能である。
【0129】
人間は、画像の明るい領域と比較して暗い領域の中で、より小さい相対的な差異を見分けることができる場合がある。その事実は、[0,1]の外側の値をクリッピングすることによって最終の画像符号化を最適化し得るとともに、明るい光輝部を圧縮することの代償としてもっと多くのビットを暗い領域に充てる非線形曲線を信号に適用し得る、sRGBガンマ圧縮によって活用され得る。ガンマ圧縮に加えて、画像が8ビットに量子化されるとき、(明るい領域が、最も暗いものよりも数桁明るい)高ダイナミックレンジシーンの中のコントラストをより良好に維持するために、トーンマッピングアルゴリズムが使用され得る。
【0130】
トーンマッピングは、線形HDR値を視覚化のための非線形LDR空間にマッピングするプロセスを含むことができる。トーンマッピングの前の信号は高ダイナミックレンジ(HDR)と呼ばれる場合があり、後の信号は低ダイナミックレンジ(LDR)と呼ばれることがある。すべての後処理動作のうち、トーンマッピングは、最も明るい領域および最も暗い領域の中の情報をクリッピングが完全に廃棄し、かつ非線形トーンマッピング曲線の後、もはやノイズがガウシアンであること、さらには0平均であることが保証されないように、ノイズ分布に影響を及ぼすことがある。
【0131】
ニューラルラジアンスフィールド(NeRF)モデルは、知られているカメラ姿勢を用いて入力画像のセットの見た目を再生するように最適化されるニューラルネットワークベースのシーン表現を含むことができる。得られた再構成は、次いで、以前に観測されなかった姿勢から新規視点をレンダリングするために使用され得る。NeRFの多層パーセプトロン(MLP)ネットワークは、3次元位置および2次元視線方向を入力として取得することができ、ボリューム密度および色を出力することができる。出力画像の中の各ピクセルをレンダリングするために、NeRFは、対応する3次元光線に沿ってサンプリングされた多くの点からの色および密度を結合するために、ボリュームレンダリングを使用することができる。
【0132】
標準的なNeRFは、範囲[0;1]の中の値を有するクリーンな低ダイナミックレンジ(LDR)sRGB色空間画像を入力として取得することができる。未加工のHDR画像をLDR画像に変換することは、2つの帰結、すなわち、(1)値が、1において上方からクリッピングされ、かつ画像全体の細部が、トーンマッピング曲線および後続の8ビットへの量子化によって圧縮されるとき、明るいエリアの中の細部が失われる場合があること、ならびに(2)非線形のトーンマッピング曲線を通過するとともに0において下方からクリッピングされた後、ピクセルごとのノイズ分布がバイアスされるようになる(もはや、0平均でない)場合があることを、含むことができる。
【0133】
本明細書で開示するシステムおよび方法は、HDR色空間の中の線形の未加工入力データに対して直接NeRFを最適化することができる。システムおよび方法は、未加工空間の中でNeRFを再構成することが、ノイズの多い入力に対してはるかにロバストであり得、新規HDR視点合成適用を可能にすることを、示すことができる。
【0134】
HDR画像の中の色分布が多くの桁にわたる場合があるので、HDR空間の中で適用される標準的なL2損失は、明るいエリアの中の誤差によって完全に支配され、トーンマッピングされると、コントラストが低いぼんやりした暗い領域を有する画像を作り出す場合がある。システムおよび方法は、人間の知覚がダイナミックレンジを圧縮するやり方に整合させるために、暗い領域の中でより強く誤差にペナルティを課する損失を適用することができる。そうした結果を達成するための1つの方法は、損失が適用される前に、レンダリングされた推定値
【0135】
【数1】
【0136】
とノイズの多い観測された強度yの両方を、トーンマッピング曲線ψを通過させることによることができる。すなわち、
【0137】
【数2】
【0138】
いくつかの実装形態では、弱光の未加工画像では、観測される信号yは0平均ノイズによって大きく損なわれる場合があり、非線形のトーンマップは、ノイズの多い信号の予測値を変化させるバイアスを持ち込む場合がある(E[ψ(y)]≠ψ(E[y]))。バイアスされていない結果にネットワークが収束するために、システムおよび方法は、
【0139】
【数3】
【0140】
という形式の、重み付けされたL2損失を使用してよい。
【0141】
システムおよび方法は、各
【0142】
【数4】
【0143】
の周囲でトーン曲線ψの線形化を使用することによって、この形式をなすトーンマッピングされた損失(1)を近似することができる。すなわち、
【0144】
【数5】
【0145】
上式において、sg(・)は、0導関数を有する定数として引数を扱う勾配停止を示してよく、その結果が逆伝播中の損失勾配に影響を及ぼすことを防止する。
【0146】
ε=10-3を伴う「勾配教師あり学習」トーン曲線ψ(z)=log(y+ε)は、最小のアーティファクトを有する、知覚的に高い品質結果をもたらすことができ、そのことは、
【0147】
【数6】
【0148】
を暗示することができる。
【0149】
その結果は、Noise2Noiseにおいてノイズの多いHDRパストレーシングデータに対して訓練するとき、バイアスされていない結果を達成するために使用される相対的なMSE損失に、厳密に対応することができる。曲線ψは、オーディオ処理においてレンジ圧縮のために使用されるμ-law関数に比例することができ、LDR画像のバーストからHDR出力にマッピングするようにネットワークを教師あり学習するときにトーンマッピング関数として適用されていることがある。
【0150】
いくつかの実装形態では、システムおよび方法は、可変露光訓練を含むことができる。ダイナミックレンジが極めて高いシーン(たとえば、10~14ビットの未加工画像)の中は、単一の露光の中で明るい領域と暗い領域の両方をキャプチャすることにとって十分でないことがある。システムおよび方法は、変化するシャッター速度を伴う複数の画像が、バーストをなしてキャプチャされ、次いで、より短い露光の中で維持される明るい光輝部とより高速な露光の中でより詳細にキャプチャされたより暗い領域とを利用するようにマージされる、多くのデジタルカメラの中に含まれる「ブラケット(bracketing)」モードによって、潜在的な問題に対処することができる。
【0151】
システムおよび方法は、RawNeRFにおいて可変露光を活用することができる。露光時間tiを有する画像Iiのシーケンス(および、一定に保持されるすべての他のキャプチャパラメータ)が与えられると、システムおよび方法は、記録されたシャッター速度tiによってスケーリングすることによって、画像Iiの中の輝度に整合するようにRawNeRFの線形空間色出力を「露出」することができる。センサ較正ずれに起因して、変化する露出は、シャッター速度のみを使用して精密に整合されないことがある。システムおよび方法は、キャプチャされた画像のセットの中に存在する固有のシャッター速度ごとに、学習されたカラーチャネルごとのスケーリング係数を追加してよく、そのことは、NeRFネットワークと一緒に共同で最適化することができる。ネットワークからの出力カラー
【0152】
【数7】
【0153】
が与えられた最終のRawNeRF「露出」は、このとき、
【0154】
【数8】
【0155】
であり得、ここで、cはカラーチャネルにインデックスを付け、
【0156】
【数9】
【0157】
は、シャッター速度tiおよびチャネルcに対する学習されたスケーリング係数である(最長の露光に対して
【0158】
【数10】
【0159】
を制約する)。露出過度の領域ではピクセルが飽和するという事実を考慮に入れるために、システムおよび方法は、1において上方からクリッピングしてよい。スケーリングおよびクリッピングされた値が、前に説明した損失(式4)に渡されることが可能である。
【0160】
本明細書で開示するシステムおよび方法は、元のNeRF方法において使用される位置符号化に対して改善できるmip-NeRFコードベースを利用してよい。さらなる詳細についてはMLPシーン表現およびボリュメトリックレンダリングアルゴリズムについての論文を参照されたい。ネットワークアーキテクチャは、線形放射輝度値をより良好にパラメータ化するために、MLPの出力カラー用の活性化関数をシグモイド関数から対数関数に修正する変更を含むことができる。システムおよび方法は、すべての訓練画像にわたってサンプリングされた16k個のランダム光線のバッチ、および500kステップの最適化にわたって10-3から10-5に減衰する学習率を有する、Adamオプティマイザを利用することができる。
【0161】
極めてノイズの多いシーンは、部分的に透明な「フローター(floater)」アーティファクトを防止するために、ボリューム密度における正則化損失から恩恵を受けることがある。たとえば、システムおよび方法は、ボリュームレンダリング中に光線に沿ってカラー値を累積するために使用される重み分布の分散に対して、損失を適用してよい。
【0162】
未加工入力データがモザイク型であるとき、未加工入力データはピクセル当たり1つのカラー値を含んでよい。システムおよび方法は、NeRFを最適化することが入力画像を効果的にデモザイクするように、各ピクセルのためのアクティブなカラーチャネルに損失を適用してよい。リサンプリングステップが未加工ノイズ分布に影響を及ぼすことがあるので、システムおよび方法は、入力をひずみ除去(undistort)またはダウンサンプリングしなくてよく、代わりに全解像度のモザイク型画像(たとえば、シーンに対して12MP)を使用して訓練してよい。いくつかの実装形態では、システムおよび方法は、光線を生成するときに径方向のひずみを考慮に入れるためにカメラ内部パラメータを利用してよい。システムおよび方法は、カメラ姿勢を計算するために、全解像度の後処理されたJPEG画像を利用してよい。
【0163】
本明細書で開示するシステムおよび方法は、静的なシーンの、基線が広い画像に適用されるとき、見劣りしない複数画像ノイズ除去器としてシステムが作用できる程度まで、高いレベルのノイズに対してロバストであり得る。追加および/または代替として、システムおよび方法は、高ダイナミックレンジカラー値を維持するようにシーン表現を復元することによって可能にされた、HDR視点合成適用を利用することができる。
【0164】
未加工線形領域の中で画像を直接ノイズ除去するためのディープラーニング方法は、バースト画像またはビデオフレームに適用され得る複数画像ノイズ除去器を含むことができる。これらの複数画像ノイズ除去器は、フレーム間に比較的少量の動きがあること、ただし、シーン内に大量の物体動きがあり得ることを、想定することができる。近くのフレームが良好に整合され得るとき、方法は、単一画像ノイズ除去器を凌駕するために、(たとえば、2~8個の隣接する画像にわたる)類似の画像パッチからの情報をマージすることができる。
【0165】
NeRFは、入力画像と整合性のある単一シーン再構成に対して最適化することができる。基線が広い静的なシーンに特化するとともに3D複数視点情報を利用することによって、RawNeRFは、一般の複数画像ノイズ除去方法よりもはるかに広く離間された入力画像からの観測値を集約することができる。
【0166】
システムをテストするために、システムおよび方法は、ノイズの多い101個の画像、および安定した長時間露光からマージされたクリーンな参照画像を各々が含む、3つの異なるシーンを有する、現実世界のノイズ除去データセットを取得することができる。最初の100個の画像は、ノイズを際立たせるために高速なシャッター速度を使用して、広い基線にわたって手持ち式に撮られること(たとえば、標準的な前向きのNeRFキャプチャ)が可能である。システムおよび方法は、次いで、三脚上での50~100回のより長時間露光の、安定したバーストをキャプチャすることができ、HDR+を使用してそれらをロバストにマージして、クリーンなグラウンドトゥルースフレームを作成することができる。元の高速なシャッター速度で撮られた1つの追加の三脚画像が、ディープノイズ除去方法のための、ノイズの多い入力「ベースフレーム」の働きをすることができる。すべての画像は、広角レンズを使用して12MP解像度でモバイルデバイスを用いて撮られてよく、12ビットの未加工DNGファイルとしてセーブされてよい。
【0167】
いくつかの実装形態では、本明細書で開示するシステムおよび方法は、カメラ姿勢のみを利用することができるが、他の技法はノイズの多いテスト画像を受信するノイズ除去器に依拠することがある。
【0168】
シーンの完全な3Dモデルが与えられると、物理ベースのレンダラは、各レンズ素子を通って屈折した、光線をトレースすることによって、カメラレンズ焦点ぼかし効果を正確にシミュレートすることができ、このプロセスは極めて計算量的に費用がかかる場合がある。いくつかの実装形態では、システムおよび方法は、シーンの異なる深度層に様々なぼかしカーネル(blur kernel)を適用することができ、それらを一緒に合成することができる。システムおよび方法は、(多平面画像と類似の)訓練済みのRawNeRFモデルから事前算出されたRGBA深度層のセットに、合成焦点ぼかしレンダリングモデルを適用することができる。線形HDRカラーを復元することは、焦点ぼけした明るい光源の周囲の特徴的な過飽和した「ボケボール(bokeh ball)」を実現することにとって重要であり得る。
【0169】
ニューラルラジアンスフィールドモデルを訓練することは、勾配重み付き損失を含み得る。たとえば、システムおよび方法は、バイアスされていない結果に収束しながら、訓練の影響を以下の損失、すなわち、
【0170】
【数11】
【0171】
を用いて近似することができる。その結果は、誤差項にとって局所的に有効な線形近似、すなわち、
【0172】
【数12】
【0173】
を使用することによって達成され得る。
【0174】
ノイズの多い観測値yi
【0175】
【数13】
【0176】
が、訓練の過程にわたって真の信号値xi=E[yi]に向かう傾向があるので、システムおよび方法は、
【0177】
【数14】
【0178】
の周囲で線形化することを選ぶことができる。
【0179】
重み付けされたL2損失が使用される場合、システムが訓練されるとき、ネットワークは、
【0180】
【数15】
【0181】
を予測することができる(ここで、xiは真の信号値である)。したがって、その項は、勾配重み付き損失の中で合計されること、すなわち、
【0182】
【数16】
【0183】
が可能であり、それは訓練の過程にわたって
【0184】
【数17】
【0185】
に向かう傾向があり得る。追加および/または代替として、重み付けし直された損失7の勾配は、トーンマッピングされた損失5の勾配の線形近似であり得る。すなわち、
【0186】
【数18】
式10において、6からの線形化が置換されることが可能であり、式11において、システムおよび方法は、それ以上微分されない式に対して勾配停止が影響を有しないという事実を活用することができる。
【0187】
追加および/または代替として、訓練することは、重み分散正規化器の使用を含むことができる。重み分散正規化器は、光線ごとに最終の色を計算するために使用される合成重みの関数であり得る。長さΔiを有するそれぞれの光線セグメント[ti-1,ti)に対してMLP出力ci、σiが与えられると([3]を参照)、重みは、
wi=(1-exp(-Δiσi))exp(-Σj<iΔjσj) (13)
であり得る。
【0188】
その重みを使用して光線セグメントにわたって区分的に一定の確率分布pwが定義される場合、分散正規化器は、
【0189】
【数19】
【0190】
に等しくなることができる。
【0191】
平均(予測される深度)を計算する。すなわち、
【0192】
【数20】
【0193】
その値は、
【0194】
【数21】
【0195】
として示され得る。正規化器を計算する。すなわち、
【0196】
【数22】
【0197】
いくつかの実装形態では、システムおよび方法は、(たとえば、「フローター」アーティファクトをもっと受けやすい、よりノイズが多いかまたはより暗いシーンの中で、より大きい重みを使用して)(レンダリング損失に対して)1×10-2と1×10-1との間の重みをLwに適用することができる。大きい重みを有する正規化器を適用することは、鮮明度の軽微な損失をもたらす場合があるが、訓練の過程にわたってその重みを0から1にアニールすることによって改良され得る。
【0198】
システムおよび方法は、所望のトーン曲線の導関数によって損失をスケーリングすることを含んでよい。すなわち、
【0199】
【数23】
【0200】
システムおよび方法は、εおよびpに対する、かつε=1×10-3およびp=1が最良の定性結果をもたらしたことが見つけられた、
【0201】
【数24】
【0202】
という形式の損失重み付けにわたってハイパーパラメータスイープを実行することができる。
【0203】
いくつかの実装形態では、システムおよび方法は、(EXIFデータからのショット/リードノイズパラメータを使用して)実際のカメラノイズモデルの重み付けし直されたL1損失または負の対数尤度関数を利用してよい。代替および/または追加として、重み付けされていない標準的なL2損失またはL1損失を用いて教師あり学習されたRawNeRFモデルは、特に極めてノイズの多いシーンでは、訓練中の早期に発散する傾向があり得る。
【0204】
システムおよび方法は、損失の中で(0よりも下方で線形関数としてかつ1よりも上方で指数関数として拡張された)クリッピングされないsRGBガンマ曲線を利用してよい。L2損失の前に対数トーン曲線を直接適用する(その勾配によって重み付けし直すのではなく)ことは、訓練を発散させる場合がある。
【0205】
色補正行列Cccmは、対応するRGBからXYZへの行列、すなわち、
【0206】
【数25】
【0207】
を使用できる、D65光源下でのXYZからカメラRGBへの変換であり得る。
【0208】
システムおよび方法は、カメラRGBから直接、標準的な線形RGB空間への単一色変換Callマッピングを作成するためにこれらを使用してよい。
Call=rownorm((Crgb-xyzCccm)-1) (24)
上式において、rownormは合計が1になるように各々を正規化する。
【0209】
システムおよび方法は、線形RGB空間データ用の基本トーンマップとして、標準的なsRGBガンマ曲線を使用することができる。すなわち、
【0210】
【数26】
【0211】
画像ノイズの影響を最小化するために、システムおよび方法は、12MPセンサ全体にわたってベイヤフィルタチャネル(R,G1,G2,B)ごとに平均カラー値
【0212】
【数27】
【0213】
を決定することができる。たとえば、システムおよび方法は、最長シャッター速度tmaxにおける正規化された輝度に対する、速度tiにおける正規化された輝度の比である
【0214】
【数28】
【0215】
をプロットすることができる。完璧な較正の場合には、シャッター速度によって配分することは輝度値を完璧に正規化するはずであるので、そのプロットはあらゆるところで1に等しくなり得る。しかしながら、その数量は、より高速なシャッター速度に対して減衰することがあり、その数量は、カラーチャネルごとに異なるレートで減衰することがある。いくつかの実装形態では、より良好なセンサを有するDSLRまたはミラーレスカメラが利用されてよい。
【0216】
システムおよび方法は、各出力とグラウンドトゥルースクリーン画像との間でのアフィン色整合の値を求めることができる。SIDおよびLDR NeRFを除くすべての方法にとって、方法はRGGB平面ごとに別個に未加工ベイヤ空間の中で直接実行され得る。SIDおよび(トーンマッピングされたsRGB空間の中で画像を出力する)LDR NeRFの場合、方法はトーンマッピングされたsRGBクリーン画像に対してRGB平面ごとに実行され得る。グラウンドトゥルースチャネルがxであり整合されるべきチャネルがyである場合、システムおよび方法は、アフィン変換ax+b≒yの最小2乗適合を得るために
【0217】
【数29】
【0218】
を算出することができる(ここで、
【0219】
【数30】
【0220】
は、zのすべての要素にわたる平均を示す)。システムおよび方法は、次いで、推定されたyをxに整合させるために、(y-b)/aとしての逆変換を適用することができる。未加工領域の中で整合が発生するいくつかの実装形態では、システムおよび方法は、sRGB空間メトリックを計算する前に我々の標準的なパイプラインを通じて(y-b)/aを後処理することができる。
【0221】
焦点ぼけした画像をレンダリングするために、システムおよび方法は、特定のタスクに対して特定の合成焦点ぼかしレンダリングモデルを利用することができる。法外に費用がかかるレンダリング速度を回避するために、システムおよび方法は、訓練済みのニューラルラジアンスフィールドモデルから最初に多平面画像表現を事前算出することができる。MPIは、中心のカメラ姿勢においてカメラ視錐台内の視差の中で線形にサンプリングされた、(線形HDR空間の中でも色を有する)一連の前方並列RGBA平面を含むことができる。
【0222】
追加の開示
本明細書で説明する技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびにそのようなシステムとの間で行われるアクションおよび送受信される情報に言及する。コンピュータベースのシステムの固有のフレキシビリティは、構成要素間でのタスクおよび機能の、多種多様の可能な構成、組合せ、および分割を可能にする。たとえば、本明細書で説明するプロセスは、単一のデバイスもしくは構成要素、または組み合わされて機能する複数のデバイスもしくは構成要素を使用して実施され得る。データベースおよびアプリケーションは、単一のシステム上に実装され得るか、または複数のシステムにわたって分散され得る。分散された構成要素は、連続的にまたは並行して動作することができる。
【0223】
本主題はそれについての様々な特定の例示的な実施形態に関して詳細に説明されているが、各例は説明のために提供され、本開示の限定ではない。当業者は、上記のことを理解すれば、そのような実施形態の改変、変形、および均等物を容易に生み出すことができる。したがって、本開示は、当業者に容易に明らかであることになるような、本主題の修正、変形、および/または追加の包含を排除しない。たとえば、一実施形態の一部として図示または説明された特徴は、またさらなる実施形態を生み出すために別の実施形態とともに使用され得る。したがって、本開示がそのような改変、変形、および均等物をも対象とすることが意図される。
【符号の説明】
【0224】
10 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
116 データ
118 命令
120 ニューラルラジアンスフィールドモデル
122 ユーザ入力構成要素
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 ニューラルラジアンスフィールドモデル
150 訓練コンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデル訓練器
162 訓練データ
180 ネットワーク
200 ニューラルラジアンスフィールドモデル
202 RawNeRFモデル
204 入力データ
206 出力データ
208 色補正ブロック
210 改善された視点レンダリング
212 低ダイナミックレンジのニューラルラジアンスフィールドパイプライン
300 ニューラルラジアンスフィールドモデル
302 訓練データ
304 ニューラルラジアンスフィールドモデル
306 予測データ
308 損失関数
310 画像処理パイプライン
400 視点レンダリングパイプライン
402 入力データ
404 高ダイナミックレンジのニューラルラジアンスフィールドモデルパイプライン
406 低ダイナミックレンジのニューラルラジアンスフィールドモデルパイプライン
410 高ダイナミックレンジ視点
418 低ダイナミックレンジ視点
500 ニューラルラジアンスフィールドモデル訓練
502 3次元位置
504 2次元視線方向
506 ニューラルラジアンスフィールドモデル
508 予測データ
510 画像増強モデル
512 新規視点レンダリング
514 未加工画像データセット
516 損失関数
図1A
図1B
図1C
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2024-06-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されたとき、前記コンピューティングシステムに動作を実行させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読記憶媒体とを備え、前記動作が、
訓練データセットを取得することであって、前記訓練データセットが、複数の3次元位置、複数の2次元視線方向、およびノイズの多い複数の未加工画像を備え、前記ノイズの多い複数の未加工画像が、未加工フォーマットで構造化された複数の未処理ビットを備える複数の高ダイナミックレンジ画像を備える、取得することと、
視点レンダリングを生成するためにニューラルラジアンスフィールドモデルを用いて前記複数の3次元位置のうちの第1の3次元位置および前記複数の2次元視線方向のうちの第1の2次元視線方向を処理することであって、前記ニューラルラジアンスフィールドモデルが、1つまたは複数の多層パーセプトロンを備え、前記視点レンダリングが、1つまたは複数の予測カラー値および1つまたは複数の予測ボリューム密度値を記述する、処理することと、
前記視点レンダリングと前記ノイズの多い複数の未加工画像の第1の画像との間の差分を評価する損失関数を評価することであって、前記第1の画像が、前記第1の3次元位置または前記第1の2次元視線方向のうちの少なくとも1つに関連する、評価することと、
前記損失関数に少なくとも部分的に基づいて前記ニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することと
を備える、コンピューティングシステム。
【請求項2】
前記動作が、
色補正されたレンダリングを生成するために色補正モデルを用いて前記視点レンダリングを処理することをさらに備える、請求項1に記載のコンピューティングシステム。
【請求項3】
前記損失関数が、重み付けし直されたL2損失を備える、請求項1に記載のコンピューティングシステム。
【請求項4】
前記視点レンダリングと前記ノイズの多い複数の未加工画像の前記第1の画像との間の前記差分を評価する前記損失関数を評価することが、モザイクマスキングを備える、請求項1に記載のコンピューティングシステム。
【請求項5】
前記視点レンダリングと前記ノイズの多い複数の未加工画像の前記第1の画像との間の前記差分を評価する前記損失関数を評価することが、露出調整を備える、請求項1に記載のコンピューティングシステム。
【請求項6】
前記動作が、
入力視線方向および入力位置を取得することと、
予測クアッドベイヤフィルタデータを生成するために前記ニューラルラジアンスフィールドモデルを用いて前記入力視線方向および前記入力位置を処理することと、
新規視点レンダリングを生成するために前記予測クアッドベイヤフィルタデータを処理することと
をさらに備える、請求項1に記載のコンピューティングシステム。
【請求項7】
前記損失関数が勾配停止を備え、前記勾配停止は、前記ニューラルラジアンスフィールドモデルが低信頼性値に汎化することを軽減する、請求項1に記載のコンピューティングシステム。
【請求項8】
前記第1の画像が、カメラによって生成された現実世界の光子信号データを備え、前記視点レンダリングが、予測される光子信号データを備える、請求項1に記載のコンピューティングシステム。
【請求項9】
前記ノイズの多い複数の未加工画像が、複数の赤色-緑色-緑色-青色データセットに関連する、請求項1から8のいずれか一項に記載のコンピューティングシステム。
【請求項10】
新規視点レンダリングのための、コンピュータにより実施される方法であって、
環境に関連する入力2次元視線方向および入力3次元位置を、1つまたは複数のプロセッサを備えるコンピューティングシステムによって取得するステップと、
ニューラルラジアンスフィールドモデルを前記コンピューティングシステムによって取得するステップであって、前記ニューラルラジアンスフィールドモデルが、訓練データセットに対して訓練済みであり、前記訓練データセットが、前記環境に関連する、ノイズの多い複数の入力データセットを備え、前記訓練データセットが、複数の訓練視線方向および複数の訓練位置を備える、ステップと、
予測データを生成するために前記ニューラルラジアンスフィールドモデルを用いて前記入力2次元視線方向および前記入力3次元位置を前記コンピューティングシステムによって処理するステップであって、前記予測データが、1つまたは複数の予測密度値および1つまたは複数の予測カラー値を備える、ステップと、
予測視点レンダリングを生成するために画像増強ブロックを用いて前記予測データを前記コンピューティングシステムによって処理するステップであって、前記予測視点レンダリングが、前記環境の予測シーンレンダリングを記述する、ステップと
を、コンピュータにより実施される方法。
【請求項11】
前記画像増強ブロックが前記予測データの焦点を調整する、請求項10に記載の方法。
【請求項12】
前記画像増強ブロックが前記予測データの露出レベルを調整する、請求項10に記載の方法。
【請求項13】
前記画像増強ブロックが前記予測データのトーンマッピングを調整する、請求項10に記載の方法。
【請求項14】
前記ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットが光子信号データを備える、請求項10に記載の方法。
【請求項15】
前記ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットが、赤色の値、緑色の値、または青色の値のうちの少なくとも1つに関連する信号データを備える、請求項10に記載の方法。
【請求項16】
前記ノイズの多い複数の入力データセットのうちのノイズの多い各入力データセットが、ノイズの多い1つまたは複数のモザイク型の線形未加工画像を備える、請求項10から15のいずれか一項に記載の方法。
【請求項17】
1つまたは複数のコンピューティングデバイスによって実行されたとき、前記1つまたは複数のコンピューティングデバイスに動作を実行させる命令を集合的に記憶する1つまたは複数の非一時的コンピュータ可読記憶媒体であって、前記動作が、
訓練データセットを取得することであって、前記訓練データセットが、複数の未加工入力データセットを備え、前記訓練データセットが、複数のそれぞれの視線方向および複数のそれぞれの位置を備える、取得することと、
第1の予測データを生成するためにニューラルラジアンスフィールドモデルを用いて第1の視線方向および第1の位置を処理することであって、前記第1の予測データが、1つまたは複数の第1の予測カラー値および1つまたは複数の第1の予測密度値を記述する、処理することと、
前記第1の予測データと前記複数の未加工入力データセットのうちの第1の未加工入力データセットとの間の差分を評価する損失関数を評価することであって、前記第1の未加工入力データセットが、前記第1の位置または前記第1の視線方向のうちの少なくとも1つに関連する、評価することと、
前記損失関数に少なくとも部分的に基づいて前記ニューラルラジアンスフィールドモデルの1つまたは複数のパラメータを調整することと
を備える、1つまたは複数の非一時的コンピュータ可読記憶媒体。
【請求項18】
前記1つまたは複数のパラメータが、環境に関連する学習された3次元表現に関連する、請求項17に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
【請求項19】
前記損失関数が、前記第1の予測データまたは前記第1の未加工入力データセットのうちの少なくとも1つを処理することに関連するトーンマッピング損失を備える、請求項17に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
【請求項20】
前記動作が、
第2の予測データを生成するために前記ニューラルラジアンスフィールドモデルを用いて第2の視線方向および第2の位置を処理することであって、前記第2の予測データが、1つまたは複数の第2の予測カラー値および1つまたは複数の第2の予測密度値を記述する、処理することと、
スケーリングされた第2の予測データを生成するためにシャッター速度に基づいて前記1つまたは複数の第2の予測カラー値をスケーリングすることと、
前記スケーリングされた第2の予測データと前記複数の未加工入力データセットのうちの第2の未加工入力データセットとの間の差分を評価する前記損失関数を評価することであって、前記第2の未加工入力データセットが、前記第2の位置または前記第2の視線方向のうちの少なくとも1つに関連する、評価することと、
前記損失関数に少なくとも部分的に基づいて前記ニューラルラジアンスフィールドモデルの1つまたは複数の追加のパラメータを調整することと
をさらに備える、請求項17から19のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読記憶媒体。
【国際調査報告】