IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧 ▶ カーネギー−メロン ユニバーシティの特許一覧

<>
  • 特開-アバター制御 図1
  • 特開-アバター制御 図2
  • 特開-アバター制御 図3
  • 特開-アバター制御 図4
  • 特開-アバター制御 図5
  • 特開-アバター制御 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024121786
(43)【公開日】2024-09-06
(54)【発明の名称】アバター制御
(51)【国際特許分類】
   G06T 19/00 20110101AFI20240830BHJP
【FI】
G06T19/00 A
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2024006941
(22)【出願日】2024-01-19
(31)【優先権主張番号】18/114975
(32)【優先日】2023-02-27
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(71)【出願人】
【識別番号】591236068
【氏名又は名称】カーネギー-メロン ユニバーシティ
【氏名又は名称原語表記】CARNEGIE-MELLON UNIVERSITY
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ユー・ヘン
(72)【発明者】
【氏名】ジュリン・ジョエル
(72)【発明者】
【氏名】ミラツキー・ゾルタン アダム
(72)【発明者】
【氏名】新沼 厚一郎
(72)【発明者】
【氏名】ジェニ・ラズロ
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050AA10
5B050BA09
5B050BA11
5B050EA09
5B050EA27
(57)【要約】
【課題】2D表現の動的オブジェクトから生成された3Dオブジェクトに基づくアバターの表示及び制御を提供する。
【解決手段】一例で、方法は、変形光線を得るよう第1ニューラルネットワーク及び潜在コードを用いて第1時間における動的オブジェクトに関連した第1光線を変形させることを含む。方法はまた、第1光線、第1時間、及び潜在コードを第2ニューラルネットワークに入力することによって、第1光線に関連したハイパースペースコードを取得することを含む。方法は更に、変形光線から1つ以上のポイントをサンプリングすることを含む。方法はまた、サンプリングされたポイント及びハイパースペースコードをネットワーク入力にまとめることを含む。方法は更に、第2時間における動的オブジェクトを表す3次元シーンの画像をレンダリングするためのRGB値を得るようネットワーク入力を第3ニューラルネットワークに入力することを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
変形光線を得るよう第1ニューラルネットワーク及び潜在コードを用いて第1時間における動的オブジェクトに関連した第1光線を変形させることと、
前記第1光線、前記第1時間、及び前記潜在コードを第2ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペースコードを取得することと、
前記変形光線から1つ以上のポイントをサンプリングすることと、
前記サンプリングされたポイント及び前記ハイパースペースコードをネットワーク入力にまとめることと、
第2時間における前記動的オブジェクトを表す3次元シーンの画像をレンダリングするためのRGB値を得るよう前記ネットワーク入力を第3ニューラルネットワークに入力することと
を有する方法。
【請求項2】
前記第1光線、前記第1時間、及び属性値を第1属性ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペース属性値を取得することと、
前記ハイパースペース属性値、前記変形光線、及び前記ハイパースペースコードを第2属性ニューラルネットワークに入力することによって前記属性値に関連したスカラーマスクを決定することと、
前記スカラーマスク及び前記ハイパースペース属性値を属性ベクトルにまとめることと、
前記属性ベクトルを前記サンプリングされたポイント及び前記ハイパースペースコードと結合して、前記第3ニューラルネットワークへ入力される前記ネットワーク入力にまとめることと
を更に有する、請求項1に記載の方法。
【請求項3】
前記ハイパースペースコードは、前記ハイパースペースコードが前記ハイパースペース属性値によって影響されないように前記スカラーマスクに対して調整される、
請求項2に記載の方法。
【請求項4】
前記動的オブジェクトに関連したビデオデータ及び訓練データを用いて教師ニューラルネットワークを訓練することと、
知識蒸留を用いて前記教師ニューラルネットワークから前記第3ニューラルネットワークを訓練することと、
前記ビデオデータを用いて前記第3ニューラルネットワークを調整することと
を更に有する、請求項1に記載の方法。
【請求項5】
前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、又は前記第3ニューラルネットワークのうちの1つ以上は、知識蒸留により訓練される、
請求項1に記載の方法。
【請求項6】
前記動的オブジェクトを表す前記3次元シーンの前記画像が表示されるように前記RGB値を表示デバイスに表示することを更に有する、
請求項1に記載の方法。
【請求項7】
前記第1ニューラルネットワーク及び前記第2ニューラルネットワークは、フィードフォワード人工ニューラルネットワークである、
請求項1に記載の方法。
【請求項8】
前記第1ニューラルネットワーク及び前記第2ニューラルネットワークは、浅い多層パーセプトロンネットワークである、
請求項7に記載の方法。
【請求項9】
前記第3ニューラルネットワークは、深い残差色多層パーセプトロンリグレッサである、
請求項1に記載の方法。
【請求項10】
前記変形光線は、時間の関数としての正準光線空間への前記第1ニューラルネットワークによる前記第1光線のマッピングである、
請求項1に記載の方法。
【請求項11】
命令を記憶するよう構成される1つ以上のコンピュータ可読記憶媒体と、前記1つ以上のコンピュータ可読記憶媒体に通信可能に結合される1つ以上のプロセッサとを有するシステムであって、
前記1つ以上のプロセッサは、前記命令の実行に応答して、当該システムに、
変形光線を得るよう第1ニューラルネットワーク及び潜在コードを用いて第1時間における動的オブジェクトに関連した第1光線を変形させることと、
前記第1光線、前記第1時間、及び前記潜在コードを第2ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペースコードを取得することと、
前記変形光線から1つ以上のポイントをサンプリングすることと、
前記サンプリングされたポイント及び前記ハイパースペースコードをネットワーク入力にまとめることと、
第2時間における前記動的オブジェクトを表す3次元シーンの画像をレンダリングするためのRGB値を得るよう前記ネットワーク入力を第3ニューラルネットワークに入力することと
を有する動作を実行させるよう構成される、
システム。
【請求項12】
前記動作は、
前記第1光線、前記第1時間、及び属性値を第1属性ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペース属性値を取得することと、
前記ハイパースペース属性値、前記変形光線、及び前記ハイパースペースコードを第2属性ニューラルネットワークに入力することによって前記属性値に関連したスカラーマスクを決定することと、
前記スカラーマスク及び前記ハイパースペース属性値を属性ベクトルにまとめることと、
前記属性ベクトルを前記サンプリングされたポイント及び前記ハイパースペースコードと結合して、前記第3ニューラルネットワークへ入力される前記ネットワーク入力にまとめることと
を更に有する、
請求項11に記載のシステム。
【請求項13】
前記ハイパースペースコードは、前記ハイパースペースコードが前記ハイパースペース属性値によって影響されないように前記スカラーマスクに対して調整される、
請求項12に記載のシステム。
【請求項14】
前記動作は、
前記動的オブジェクトに関連したビデオデータ及び訓練データを用いて教師ニューラルネットワークを訓練することと、
知識蒸留を用いて前記教師ニューラルネットワークから前記第3ニューラルネットワークを訓練することと、
前記ビデオデータを用いて前記第3ニューラルネットワークを調整することと
を更に有する、
請求項11に記載のシステム。
【請求項15】
前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、又は前記第3ニューラルネットワークのうちの1つ以上は、知識蒸留により訓練される、
請求項11に記載のシステム。
【請求項16】
前記動作は、前記動的オブジェクトを表す前記3次元シーンの前記画像が表示されるように前記RGB値を表示デバイスに表示することを更に有する、
請求項11に記載のシステム。
【請求項17】
前記第1ニューラルネットワーク及び前記第2ニューラルネットワークは、フィードフォワード人工ニューラルネットワークである、
請求項11に記載のシステム。
【請求項18】
前記第1ニューラルネットワーク及び前記第2ニューラルネットワークは、浅い多層パーセプトロンネットワークである、
請求項17に記載のシステム。
【請求項19】
前記第3ニューラルネットワークは、深い残差色多層パーセプトロンリグレッサである、
請求項11に記載のシステム。
【請求項20】
変形光線を得るよう第1ニューラルネットワーク及び潜在コードを用いて第1時間における動的オブジェクトに関連した第1光線を変形させる手段と、
前記第1光線、前記第1時間、及び前記潜在コードを第2ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペースコードを取得する手段と、
前記変形光線から1つ以上のポイントをサンプリングする手段と、
前記サンプリングされたポイント及び前記ハイパースペースコードをネットワーク入力にまとめる手段と、
第2時間における前記動的オブジェクトを表す3次元シーンの画像をレンダリングするためのRGB値を得るよう前記ネットワーク入力を第3ニューラルネットワークに入力する手段と
を有するシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示で議論される実施形態は、アバター制御に関係がある。
【背景技術】
【0002】
マシンビジョンは、機能及び精度において、2D観察を使用して3Dオブジェクトに関する決定を行うことに対するものを含め、進歩し続けている。様々なニューラルネットワークのいくつかの実施は計算が複雑である場合があり、その結果、3Dオブジェクトのレンダリングに時間が長くなったり、及び/又は3Dオブジェクトの表現が不十分であったりすることがある。例えば、いくつかのニューラルネットワークは、2Dオブジェクトを3D表現に変換するために2Dオブジェクトからピクセルごとに決定を行う場合がある。
【0003】
ここで請求される対象は、上述されたような環境でしか動作しない実施形態や、上述された如何なる欠点も解消する実施形態に制限されない。むしろ、この背景は、ここで記載されるいくつかの実施形態が実施される可能性がある技術分野の一例を説明するためにのみ設けられている。
【発明の概要】
【0004】
実施形態の側面に従って、方法は、変形光線を得るよう第1ニューラルネットワーク及び潜在コードを用いて第1時間における動的オブジェクトに関連した第1光線を変形させることを含んでよい。方法はまた、第1光線、第1時間、及び潜在コードを第2ニューラルネットワークに入力することによって、第1光線に関連したハイパースペースコードを取得することを含んでよい。方法は更に、変形光線から1つ以上のポイントをサンプリングすることを含んでよい。方法はまた、サンプリングされたポイント及びハイパースペースコードをネットワーク入力にまとめることを含んでよい。方法は更に、第2時間における動的オブジェクトを表す3次元シーンの画像をレンダリングするためのRGB値を得るようネットワーク入力を第3ニューラルネットワークに入力することを含んでよい。
【0005】
実施形態の目的及び利点は、少なくとも、特許請求の範囲で特に指し示されている要素、特徴、及び組み合わせによって、実現され達成されるであろう。
【0006】
上記の概要及び下記の詳細な説明はいずれも、例として与えられている実例であり、請求されている発明を限定するものではない。
【0007】
例となる実施形態は、添付の図面の使用を通じて更なる特定及び詳細を用いて記載され説明であろう。
【図面の簡単な説明】
【0008】
図1】アバター制御をサポートするよう構成される環境の例のブロック図である。
図2】アバター制御をサポートするよう構成される環境の他の例のブロック図である。
図3】アバター制御とともに使用され得るニューラルネットワークを訓練することをサポートするよう構成される環境の例のブロック図である。
図4】アバター制御の方法の例のフローチャートである。
図5】アバター制御に関連した制御可能な属性入力の方法の例のフローチャートである。
図6】アバター制御のために使用され得るコンピューティングシステムの例を表す。
【発明を実施するための形態】
【0009】
マシンビジョン、及び/又はマシンビジョンを使用したオブジェクトの表現は、近年大幅に進歩している。例えば、3次元(3D)オブジェクト及び/又はシーン(明示的に別なふうに言及されない限り、「オブジェクト」と総称される。)は、マシンビジョンシステムがオブジェクトの2次元(2D)画像を観察し解釈することを通じてモデル化及び/又は表現され得る。いくつかの状況で、マシンビジョンシステムは、2Dでオブジェクトを観察して、その3D表現を生成するために、1つ以上の機械学習システムを実装する。2Dオブジェクトの多くの3D表現は静止オブジェクトに基づく可能性があり、そのため、3D表現も静止している。静止オブジェクトに対するマシンビジョンシステムの機能性及び/又は計算時間の向上のために改善が導入されてきたが、動的オブジェクト(例えば、動く可能性がある又は動作中であり得るオブジェクト)のマシンビジョン処理は静止オブジェクト(例えば、動いていないオブジェクト)と比べて付加的な計算複雑性を含む場合がある。
【0010】
いくつかの状況で、光場ネットワーク(Light Field Network,LFN)が、2D観察から3Dオブジェクトを表現するためにマシンビジョンシステムで使用されることがある。例えば、LFNは、暗黙的なニューラル表現によりパラメータ化される360度の4次元光場での基礎となる3Dシーンのジオメトリ及び外観の両方の表現を含むことができる。更に、LFNは、好ましくは、剛体変形を含む可能性のある静止オブジェクト物体とともに使用され得る。例えば、時間とともに動的に変化する3Dオブジェクト、及び/又はオブジェクトに対して変化する画像キャプチャデバイスの関連する視点は、LFNによって表現され得ない及び/又は不正確に表現される可能性がある非剛体変形を導入する可能性がある。
【0011】
いくつかの従来アプローチでは、LFNを動的オブジェクトに適用し、3D表現で動的オブジェクトを表現することに関連した方法は、2D表現から複数のポイント(例えば、ピクセル)をサンプリングし、複数のポイントから個々の光線を決定し、多層パーセプトロンを用いて光線の少なくとも一部にわたって統合して3D表現のピクセル色を近似することを含んでいることがある。他の従来の方法は、LFNを使用し、統合ステップを直接的な光線-色回帰(ray-to-color regression)で置換することを含んでいる。一般に、そのような従来アプローチは、動的オブジェクトの表現を処理しようとしばしば四苦八苦し、動的オブジェクトが表現された事例では、システムの関連する処理時間は、静止オブジェクトの表現に関連した処理時間と比べて非常に長くなる。
【0012】
本開示の少なくとも1つの実施形態で、3Dオブジェクトの表現をその2D表現を用いて決定する方法は、3Dオブジェクトに関連した1つ以上の光線を取得し、それらの光線を変形させることを含んでよい。変形された光線からは1つ以上のポイントがサンプリングされ、ハイパースペースコードと結合されて入力ネットワークに入力されることで、3Dオブジェクトを表すRGB値が得られる。いくつかの実施形態で、ハイパースペースコードは多次元ベクトルであってもよい。いくつかの実施形態で、変形された光線からサンプリングされたポイント(例えば、光線の予変形からの、又はオブジェクトの2D表現からのサンプリングされたポイントとは対照的に)は、マシンビジョンシステムの積分及び/又は他の計算の数を減らし得る。そのような計算を減らすことによって、マシンビジョンシステムは、記載されるように、マシンビジョンシステムの従来の実施よりも最大で1桁速くなることを含め、3Dオブジェクトを含み得る3Dシーンの画像をレンダリングするためのRGB値の取得に関連した処理時間を改善し得る。代替的に、又は追加的に、本開示のマシンビジョンシステムは動的オブジェクト及び/又はトポロジの変化を捕捉するよう構成されてよく、これには、ポイントサンプルの数やサンプリングされたポイントに関連した積分の数の削減、及び/又はオブジェクトの表現に関連した処理時間の全体的な改善が付随し得る。
【0013】
これらの及び他の実施形態で、3Dオブジェクトを表す取得されたRGB値は、アバターの表示及び/又は制御で使用されてよい(なお、アバターは、ここで記載されるシステム及び/又は方法を使用する3Dオブジェクトのレンダリングであってよい。)。例えば、取得されたRGB値を使用して、3Dオブジェクトに関連したアバターは、表示デバイスに表示されても、及び/又はユーザ入力を介して異なるビュー、表情、動き、など(人の顔又は動作中のオブジェクトなどの3Dオブジェクトのタイプと相関されてもよい。)に操作されてもよく、アバターの表示及び制御は3Dオブジェクトに基づき得る。
【0014】
本開示において、ハイパースペース(hyperspace)は、少なくとも時間次元及び/又は放射輝度(radiance)次元を含み得る多数の次元場の表現を指し得る。例えば、3Dは、3D光線に関連した3Dポイント及び2つの軸角度光線方向を持つ5D表現に変換され得る。いくつかの実施形態で、ハイパースペース表現は、本開示で記載されるように、表現及び/又は捕捉される動的オブジェクトのトポロジカルな変化をサポートし得る。いくつかの実施形態で、ハイパースペースは、入力画像の(例えば、2Dでの)トポロジカルな変化を表すことができ、このとき、トポロジカルな変化は、入力画像の特徴/属性の変化を含んでもよく、及び/又はハイパースペースのトポロジカルな変化は、入力画像のより現実的なレンダリングを生成するために使用されてもよい。例えば、人の顔のハイパースペースのトポロジカルな変化は顔の特徴の変化(例えば、上がった眉、開いた口、すぼめた唇、など)を含んでもよく、それにより、ハイパースペースは、トポロジカルな変化の多数の繰り返しを含むことができ、これらは、その後に、トポロジカルな変化の顔の特徴に基づいて現実的な表情を持った合成の人の顔をレンダリングするために使用され得る。
【0015】
本開示の実施形態は、添付の図面を参照して説明される。
【0016】
図1は、本開示の少なくとも1つの実施形態に従って、アバター制御をサポートするよう構成される例示的な環境100のブロック図である。環境100は、第1ニューラルネットワーク110、第2ニューラルネットワーク120、及び第3ニューラルネットワーク130を含み得る。
【0017】
いくつかの実施形態で、第1ニューラルネットワーク110及び/又は第2ニューラルネットワーク120はフィードフォワード人工ニューラルネットワークであってよく、第1ニューラルネットワーク110及び/又は第2ニューラルネットワーク120に含まれるノードは非巡回的であってよい。例えば、第1ニューラルネットワーク110及び/又は第2ニューラルネットワーク120は、単層パーセプトロンネットワーク、多層パーセプトロンネットワーク、有向非巡回グラフネットワーク、及び/又は任意の他のフィードフォワード人工ニューラルネットワークを含み得る。
【0018】
いくつかの実施形態で、第1ニューラルネットワーク110及び/又は第2ニューラルネットワーク120は浅い(shallow)ニューラルネットワークであってもよい。本開示において、浅い(例えば、ニューラルネットワークに対する。)とは、ニューラルネットワークに含まれる層の数及び/又は層ごとのユニットの数を記述し得る。例えば、第1ニューラルネットワーク110及び/又は第2ニューラルネットワーク120などの浅いニューラルネットワークは、3つの層、4つの層、5つの層、7つの層、8つの層、10個の層、など、及び/又は層ごとに10個のユニット、層ごとに16個のユニット、層ごとに30個のユニット、層ごとに64個のユニット、層ごとに128個のユニット、などを含んでもよい。例えば、第1ニューラルネットワーク110は、7つの層及び層ごとに128個のユニットを含んでよく、第2ニューラルネットワーク120は、6つの層及び層ごとに64個のユニットを含んでもよい。一般に、浅いニューラルネットワークは、近似的に2から10の層の間の任意の層数、及び近似的に4から128の間の層ごとの任意のユニット数を含み得る。
【0019】
いくつかの実施形態で、第3ニューラルネットワーク130はフィードフォワード人工ニューラルネットワークであってよく、このとき、第3ニューラルネットワーク130に含まれるノードは非巡回的であってよい。例えば、第3ニューラルネットワーク130は単層パーセプトロンネットワーク、多層パーセプトロンネットワーク、有向非巡回グラフネットワーク、及び/又は任意の他のフィードフォワード人工ニューラルネットワークを含んでもよい。
【0020】
いくつかの実施形態で、第3ニューラルネットワーク130は深い(deep)残差色(residual color)多層パーセプトロンリグレッサネットワークであってよい。本開示において、深い(例えば、ニューラルネットワークに対する。)とは、ニューラルネットワークに含まれる層の数及び/又は層ごとのユニットの数を記述し得る。例えば、第3ニューラルネットワーク130などの深いニューラルネットワークは、20個の層、30個の層、55個の層、84個の層、などを含んでもよく、及び/又は層ごとに100個のユニット、層ごとに160個のユニット、層ごとに256個のユニット、などを含んでもよい。例えば、第3ニューラルネットワーク130は、88個の層及び層ごとに256個のユニットを含んでよい。一般に、深いニューラルネットワークは、近似的に10層よりも多い任意の層数、及び近似的に4から300の間の層ごとの任意のユニット数を含み得る。
【0021】
いくつかの実施形態で、第1ニューラルネットワーク110及び/又は第2ニューラルネットワーク120は、ここで記載されるように、1つ以上の入力を取得するよう、及び/又は1つ以上の出力を生成するよう構成されてよい。例えば、第1ニューラルネットワーク110及び/又は第2ニューラルネットワーク120は、第1光線(原点及び方向を持っている。)、第1光線に関連した時間、及び/又は第1光線に関連した潜在コード(latent code)の入力を取得し得る。第1ニューラルネットワーク110は変形光線を出力してもよく、及び/又は第2ニューラルネットワーク120は第1光線に関連したハイパースペースコードを出力してもよい。代替的に、又は追加的に、第3ニューラルネットワーク130は、ここで記載されるように、1つ以上の入力を取得するよう、及び/又は1つ以上の出力を生成するよう構成されてよい。例えば、第3ニューラルネットワーク130は、変形光線からのサンプリングされたポイントとハイパースペースコードとの結合を取得してよく、第3ニューラルネットワーク130は、第1光線に関連した動的オブジェクトを表し得る3Dシーンの画像をレンダリングするために使用され得るRGB値を出力してもよい。
【0022】
いくつかの実施形態で動的オブジェクト102は、動いている状態で観察及び/又は記録され得る。動的オブジェクト102は、少なくともその一部が時間において変化し得る任意のオブジェクトを含んでよい。例えば、動的オブジェクト102は、ある期間にわたって表情(例えば、唇、目、眉毛、額の変化、など)を変える人の顔を含んでよい。動的オブジェクト102の他の例には、動いているシーンの少なくとも一部が含まれ得る。例えば、飲み物を注ぐこと(例えば、少なくとも注がれる液体は動いている状態にあり得る。)、バナナの皮をむくこと、運動をする人(例えば、挙手跳躍運動)、及び/又は他のアニメーション化されたオブジェクトが挙げられる。
【0023】
これらの及び他の実施形態で、動的オブジェクト102は、合成のシーン、現実のシーン、及び/又は現実の制御可能なシーンから取得され得る。合成のシーンは、アニメーション及び/又は動きを含むようコンピュータにより生成され得る動的オブジェクト102を含んでよい。現実のシーンは、動作中の3Dプリンタ、バナナの皮をむくこと、運動している人、などの、リアルタイムで捕捉される動作中のオブジェクトを含んでよい。現実の制御可能なシーンは、指示された方法又は日常的な方法で表情を変える人物などの、意図的に制御されたアニメーションを含んでよい。これらの及び他の実施形態で、動的オブジェクト102は、ビデオデータを捕捉するために使用される1つ以上のデバイスを介してデータとして捕捉されてもよい。例えば、動的オブジェクト102は、携帯電話のカメラ、デジタルカメラ、及び/又は他の画像/ビデオ捕捉デバイスを用いて取得され得る。これらの及び他の実施形態で、ビデオデータは、2D画像で捕捉されたシーンの連続的な変化を表す複数の連続的な2D画像を含み得る。
【0024】
いくつかの実施形態で、第1光線104などの1つ以上の光線は、様々な時点で動的オブジェクト102から取得されても、及び/又は動的オブジェクト102の様々な部分と関連付けられてもよい。いくつかの実施形態で、第1光線104(及び/又は動的オブジェクト102と関連付けられ得る他の光線)は原点及び方向を含み得る。原点は、動的オブジェクト102のピクセル又は他のポイントと関連付けられ得る。代替的に、又は追加的に、原点及び方向に加えて、第1光線104は、第1光線104が取得された可能性がある時点を含む第1時間を含んでもよい。
【0025】
いくつかの実施形態で、第1光線104に関連した潜在コードが動的オブジェクト102から取得されてもよい。潜在コードは、動的オブジェクト102に関して取得されたデータを用いて動的オブジェクト102の少なくとも一部を再現するために使用され得る。例えば、潜在コードは、動的オブジェクト102に関連したデータから動的オブジェクト102の一般化された部分を表現及び/又は再構成するために使用され得る。いくつかの実施形態で、潜在コードは、動的オブジェクト102のビデオ捕捉に関連したフレーム番号に関係があり得る。例えば、潜在コードは、動的オブジェクト102のビデオのフレーム番号であってよい。他の例では、潜在コードは、動的オブジェクト102のビデオの個々のフレームのタイムスタンプであってもよい。
【0026】
いくつかの実施形態で、第1ニューラルネットワーク110は、少なくとも第1光線104、潜在コード、及び第1時間(例えば、第1光線104に関連した時点)の入力を取得するよう構成されてよい。いくつかの実施形態で、第1光線104、潜在コード、及び第1時間は一緒に連結されてもよく、それらの結合が第1ニューラルネットワーク110に入力されてもよい。第1ニューラルネットワーク110は、正準(canonical)光線空間での第1光線104の表現であることができる変形光線112を出力するよう構成されてよい。いくつかの実施形態で、変形光線112は屈曲光線(bent ray)でなくてもよく、屈曲光線は、第1光線104から1つ以上のポイントをサンプリングし、サンプリングされたポイントに対して変形を取得することにより生じ得る。別の言い方をすれば、第1ニューラルネットワーク110は、入力として光線を受け入れてよく、そして、出力として光線を生成してよく(例えば、第1光線104の点ごとの変形とは異なり得る。)、出力光線(例えば、変形光線112)は、観測基準フレームにおける入力光線(例えば、第1光線104)の表現であってもよく、観測基準フレームは、正準光線空間と同じであっても又は類似していてもよい。第1ニューラルネットワーク110は、動的オブジェクト102に関連した動きと一致するように1つ以上の入力光線を変形させるよう構成されてよい。代替的に、又は追加的に、第1ニューラルネットワーク110は、変形光線が1つ以上の任意の視点からの動的オブジェクト102の表現を提供し得るように、1つ以上の入力光線を変形させるよう構成されてもよい。
【0027】
いくつかの実施形態で、1つ以上のサンプリングされたポイント114は変形光線112から取得されてよく、第3ニューラルネットワーク130への入力として使用され得る。いくつかの実施形態で、サンプリングされたポイント114は、変形光線112からランダムに取得されてもよく、このとき、サンプリングされたポイント114は、時間インターバルにわたって一様にランダムにサンプリングされてよい。いくつかの実施形態で、サンプリングされたポイント114の数は、第1ニューラルネットワーク110の機能に基づいて変化し得る。例えば、(ここで記載される)第1ニューラルネットワーク110の訓練の間、サンプリングされたポイント114の数は数千又は数万(例えば、10,000個のサンプリングされたポイント)であることができ、第1ニューラルネットワーク110の動作の間(例えば、第1ニューラルネットワーク110の訓練後)、サンプリングされたポイント114の数は、訓練中のサンプリングされたポイント114の数よりも桁違いに少なくてもよく、例えば、数十個のサンプリングされたポイント114(例えば、16個のサンプリングされたポイント)であることができる。これらの及び他の実施形態で、第1ニューラルネットワーク110の訓練は、第1光線104で表現される動的オブジェクト102の動きに伴う変形光線112の精度を改善することに向けられてもよい。代替的に、又は追加的に、第1ニューラルネットワーク110の訓練は、動的オブジェクト102に関連した1つ以上の様々な及び/又は任意の視点に対する変形光線112による動的オブジェクト102の表現を改善することに向けられてもよい。
【0028】
いくつかの実施形態で、第1ニューラルネットワーク110と同様に、第2ニューラルネットワーク120は、少なくとも第1光線104、潜在コード、及び第1時間(例えば、第1光線104に関連した時点)を入力として取得するよう構成されてよい。いくつかの実施形態で、第1光線104、潜在コード、及び第1時間は一緒に連結されてもよく、それらの結合が第2ニューラルネットワーク120に入力され得る。第2ニューラルネットワーク120は、ハイパースペースでの第1光線104と関連付けられ得るハイパースペースコード122を出力するよう構成されてよい。いくつかの実施形態で、ハイパースペースコード122は、動的オブジェクト102の個々のポイント及び/又は第1光線104に関連した個々のポイントについて予測されなくてもよく、むしろハイパースペースコード122は、第1光線104の全体について計算され得る(及び/又は、その後に、動的オブジェクト102に関して取得された任意の他の光線について計算されてもよい)。別の言い方をすれば、第2ニューラルネットワーク120は、入力の少なくとも一部として光線を受け入れてよく、そして、出力としてハイパースペースコード122を生成してよく(例えば、第1光線104に関連した点ごとのハイパーコードとは異なり得る。)、出力されたハイパースペースコード(例えば、ハイパースペースコード122)は、入力光線の多次元表現であることができる。出力されたハイパースペースコードは、入力光線の原点の物理的位置に関連した少なくとも3つの次元、及び/又は時間、原点に関連した方向、入力光線に関連した放射輝度、などのような、入力光線に関連した付加的な次元特性を含み得る。いくつかの実施形態で、ハイパースペースコード122は多次元ベクトルであってもよい。いくつかの実施形態で、ハイパースペースコード122は、入力として第1光線104を受け取ることに応答して、第2ニューラルネットワーク120から取得されてもよい。例えば、ハイパースペースコード122は、式:

w=Hψ(o,d,t)

を用いて取得され得る。ここで、wはハイパースペースコード122であってよく、Hψは第2ニューラルネットワーク120(例えば、多層パーセプトロンネットワーク)であってよく、ψは第2ニューラルネットワーク120に関連したモデルパラメータであってよく、oは第1光線104に関連した原点であってよく、dは第1光線104に関連した方向であってよく、tは、第1光線104が取得された時点などの第1光線104に関連した時間であってよい。
【0029】
いくつかの実施形態で、サンプリングされたポイント114は、ハイパースペースコード122と結合されてネットワーク入力124になり得る。いくつかの実施形態で、ネットワーク入力124は、サンプリングされたポイント114とハイパースペースコードとの連結であってよい。いくつかの実施形態で、第3ニューラルネットワーク130はネットワーク入力124を取得し得る。いくつかの実施形態で、第3ニューラルネットワーク130は、1つ以上のRGB値132を決定するよう構成されてよい。RGB値132は、第1光線104が取得された第1時間とは異なる時間における動的オブジェクト102を表し得る3Dオブジェクトの1つ以上の画像をレンダリングするために使用されてよい。例えば、動的オブジェクト102が表情の変化を含む人の顔である場合に、第3ニューラルネットワーク130から出力されるRGB値132は、合成の人の顔及び/又は関連する合成表情が表示され得るように表示されてよく、これは動的オブジェクト102(人の顔及び/又は関連する表情)とは異なり得る。
【0030】
第1光線104(例えば、単一光線)に関して例示及び記載されてきたが、上記のプロセスは、動的オブジェクト102に関して取得された如何なる追加の光線についても繰り返されてよい。例えば、動的オブジェクト102から第1光線104を取得すること、第1ニューラルネットワーク110から変形光線112を、そして変形光線112からサンプリングされたポイント114を取得すること、第2ニューラルネットワーク120からハイパースペースコード122を取得すること、サンプリングされたポイント114とハイパースペースコード122とをネットワーク入力124にまとめること、ネットワーク入力124を第3ニューラルネットワーク130に入力すること、及びRGB値132を取得することは、動的オブジェクト102に関して取得された追加の光線に対して実行されてもよい。例えば、上記のプロセスは、動的オブジェクト102に関連した数百、数千、又は数百万の光線について実行されてもよい。
【0031】
いくつかの実施形態で、第3ニューラルネットワーク130は、動作の実行及び/又はRGB値132の生成の前に訓練されてよい。図3に表されるように、第3ニューラルネットワーク130の訓練は、教師ニューラルネットワーク305及び生徒ニューラルネットワーク310を含んでよい。いくつかの実施形態で、第3ニューラルネットワーク130は多数のフェーズを用いて訓練されてもよい。
【0032】
第1フェーズで、教師ニューラルネットワーク305は、訓練データ315及び/又はビデオデータ320から時間及び入力光線をランダムにサンプリングすることによって訓練され得る。代替的に、又は追加的に、教師ニューラルネットワーク305の訓練は、教師ニューラルネットワーク305と、関連する対象ビデオのビデオデータ320の対応するRGB色との間の平均平方誤差を最小化することを含んでもよい。いくつかの実施形態で、教師ニューラルネットワーク305は、動的ニューラル放射輝度場(neural radiance field)ネットワーク(NeRF)(例えば、D-NeRF又はHyperNeRF)であってもよい。いくつかの実施形態で、ビデオデータ320は、単眼であることができる(例えば、単一視点から捕捉された)対象ビデオから取得されてよい。いくつかの実施形態で、教師ニューラルネットワーク305は、教師ニューラルネットワーク305が入力光線に関連した多数のポイントにわたって数値積分を行い得るということで、低速ネットワークであってもよい。
【0033】
第2フェーズで、第1フェーズからの教師ニューラルネットワーク305は、生徒ニューラルネットワーク310を訓練するよう構成されてよく、生徒ニューラルネットワーク310は、環境100に表されている第3ニューラルネットワーク130(例えば、動的光場ネットワーク(dynamic light field network)(DyLiN))であってもよい。いくつかの実施形態で、教師ニューラルネットワーク305は知識蒸留(knowledge distillation)を介して生徒ニューラルネットワーク310を教育してもよい。知識蒸留は、大規模なニューラルネットワーク(例えば、教師ニューラルネットワーク305又は訓練された動的NeRF)からより小さいニューラルネットワーク(例えば、生徒ニューラルネットワーク310又はDyLiN)へ知識を伝える機械学習に関連したプロセスであることができる。いくつかの実施形態で、平均平方誤差は、生徒ニューラルネットワーク310と、1つ以上の光線にわたる教師ニューラルネットワーク305に関連した疑似グラウンドトゥルースRGB値との間で最小化され得、このとき、光線の数は数十、数百、数千、及び/又は数百万の光線であってよい。
【0034】
第3フェーズで、生徒ニューラルネットワーク310は、教師ニューラルネットワーク305から知識蒸留により得られたパラメータを用いて初期化されてよい。代替的に、又は追加的に、生徒ニューラルネットワーク310の初期化は、教師ニューラルネットワーク305を訓練するために使用された可能性があるビデオデータ320(例えば、第1フェーズからの関連する対象ビデオ)を用いて調整されてもよい。例えば、平均平方誤差は、生徒ニューラルネットワーク310とビデオデータ320との間で最小化され得る。第3フェーズは、図1の第3ニューラルネットワーク130及び/又は図2の第3ニューラルネットワーク230などの生徒ニューラルネットワーク310の精度及び/又は効率を高めるよう生徒ニューラルネットワーク310のファインチューニングを提供し得る。
【0035】
いくつかの例で、環境100(例えば、動的光場ネットワーク又はDyLiN)に関連したアバター制御方法は、アバター制御に対する従来のアプローチに相当し得る様々なニューラル放射輝度場(NeRF)と比較して改善された結果をもたらす。例えば、以下の表で表されるように、様々なNeRF実施とのDyLiNの比較は、類似したピーク信号対雑音比(PSNR)が達成され得る一方で、DyLiNが構造的類似性指数(structural similarity index)(SSIM)及び/又はマルチスケール構造的類似性指数(MS-SSIM)、学習済み知覚画像パッチ類似性(learned perceptual image patch similarity)(LPIPS)の改善、及び/又はほとんどの場合(例えば、決定されたRGB値を用いて画像をレンダリンスルするのにかかる時間の量)に実時間で1桁以上の改善を示し得る、ことを示している。更には、太字の値は、種々のアバターコトロール方法の中でもカテゴリ内で最良のものを表している。
【表1】
【表2】
【表3】
【0036】
注意すべき点として、上の表に表されているように、Plenoxels及びNVは、DyLiNと比べて実時間が短いが、Plenoxels及びNVの関連する品質はDyLiNよりも著しく低い。
【0037】
本開示の範囲から外れずに、変更、追加、又は削除が環境100に行われてもよい。例えば、いくつかの実施形態で、表示デバイスは、それにRGB値が表示され得るように含まれてもよい。そのようなものとして、動的オブジェクト102を表す3Dシーンの画像は、RGB値により表示デバイス上に表示され得る。更には、いくつかの実施形態で、環境100は、明示的に例示又は記載されていないことがある他のコンポーネントをいくつでも含んでよい。
【0038】
図2は、本開示の少なくとも1つの実施形態に従って、アバター制御をサポートするよう構成される例示的な環境200のブロック図である。環境200は、第1ニューラルネットワーク210、第2ニューラルネットワーク220、第3ニューラルネットワーク230、第1属性ニューラルネットワーク240、及び第2属性ニューラルネットワーク250を含み得る。
【0039】
いくつかの実施形態で、環境200の1つ以上のコンポーネントは、図1の環境100のコンポーネントと同じであっても又は類似していてもよい。例えば、第1ニューラルネットワーク210、第2ニューラルネットワーク220、及び第3ニューラルネットワーク230は、図1の第1ニューラルネットワーク110、第2ニューラルネットワーク120、及び第3ニューラルネットワーク130と夫々同じであっても又は類似していてもよい。
【0040】
代替的に、又は追加的に、環境200のコンポーネントの入力及び/又は出力は、図1の環境100のコンポーネントの入力及び/又は出力と同じであっても又は類似していてもよい。例えば、動的オブジェクト202、第1光線204、変形光線212、サンプリングされたポイント214、ハイパースペースコード222、及びRGB値232は、図1の動的オブジェクト102、第1光線104、変形光線112、サンプリングされたポイント114、ハイパースペースコード122、及びRGB値132と夫々同じであっても又は類似していてもよい。
【0041】
環境200に含まれるコンポーネント、入力、及び/又は出力が環境100に含まれるコンポーネント、入力、及び/又は出力とは異なる場合に、図2に関してここでは差違が更に詳述され得る。例えば、ハイパースペースコード222は、第2ニューラルネットワーク120から出力されるハイパースペースコード122と同様に、第2ニューラルネットワーク220から出力され得るが、ハイパースペースコード222は、ここで記載されるように、属性値238を考慮するなど、1つ以上の変更を含み得る。
【0042】
いくつかの実施形態で、第1属性ニューラルネットワーク240及び/又は第2属性ニューラルネットワーク250はフィードフォワード人工ニューラルネットワークであってよく、このとき、第1属性ニューラルネットワーク240及び/又は第2属性ニューラルネットワーク250に含まれるノードは非巡回的であってよい。例えば、第1属性ニューラルネットワーク240及び/又は第2属性ニューラルネットワーク250は、単層パーセプトロンネットワーク、多層パーセプトロンネットワーク、有向非巡回グラフネットワーク、及び/又は任意の他のフィードフォワード人工ニューラルネットワークを含んでよい。いくつかの実施形態で、第1属性ニューラルネットワーク240及び/又は第2属性ニューラルネットワーク250は、ここで記載されるように、浅いニューラルネットワークであってよい。
【0043】
いくつかの実施形態で、第1属性ニューラルネットワーク240及び/又は第2属性ニューラルネットワーク250は、第1ニューラルネットワーク210及び/又は第2ニューラルネットワーク220に類似した機能及び/又は動作を実行するよう構成されてよい。例えば、第1属性ニューラルネットワーク240及び/又は第2属性ニューラルネットワーク250は、ここで記載されるように、1つ以上の入力を取得するよう、及び/又は1つ以上の出力を生成するよう構成されてよい。例えば、第1属性ニューラルネットワーク240は、第1光線204、属性値238、及び第1時間を含む入力を取得してよく、第1属性ニューラルネットワーク240は、ハイパースペース属性値を出力してよい。ハイパースペース属性値は、属性値238に関して、ハイパースペースコード222と同じであっても又は類似していてもよい。すなわち、ハイパースペース属性値は、属性値238を考慮した入力光線の多次元表現であってよい。ハイパースペース属性値は、入力光線の原点の物理的位置に関連した少なくとも3つの次元、及び/又は時間、原点に関連した方向、入力光線に関連した放射輝度、などのような、入力光線に関連した付加的な次元特性を含み得る。他の例では、第2属性ニューラルネットワーク250は、ハイパースペース属性値、変形光線212、及びハイパースペースコード222を含む入力を取得してよく、そして、スカラーマスク252を出力してよい。スカラーマスク252は、属性値238の包含によって引き起こされる第1光線204への影響を局部にとどめるために使用され得る。例えば、1つよりも多い属性値238が環境200に含まれる場合、スカラーマスク252(1つ以上の属性値238と個々に関連付けられる。)は、第2属性値が第1属性値に関連した第1ハイパースペース属性値に対して引き起こす可能性がある影響を低減及び/又は相殺するよう構成されてよい。そのようなものとして、スカラーマスク252は、属性値238及び/又はハイパースペース属性値に対する更なる属性値の影響を空間的に解きほぐすことができる。
【0044】
いくつかの実施形態で、第1属性ニューラルネットワーク240及び/又は第2属性ニューラルネットワーク250によって実行される動作及び/又は機能は、第1ニューラルネットワーク210及び/又は第2ニューラルネットワーク220によって実行される動作及び/又は機能と並行して実行されてもよい。代替的に、又は追加的に、第1属性ニューラルネットワーク240及び/又は第2属性ニューラルネットワーク250によって実行される動作及び/又は機能は、第1ニューラルネットワーク210及び/又は第2ニューラルネットワーク220によって実行される動作及び/又は機能に対して部分的に順次に又は完全に順次に実行されてもよい。例えば、第1属性ニューラルネットワーク240の動作は、第1ニューラルネットワーク210及び/又は第2ニューラルネットワーク220の動作と並行して実行されてよく、第2属性ニューラルネットワーク250の動作は、第1属性ニューラルネットワーク240の動作の後に実行されてよい(例えば、このとき、第2属性ニューラルネットワーク250への入力は第1属性ニューラルネットワーク240からの出力であってもよい。)。
【0045】
いくつかの実施形態で、第1属性ニューラルネットワーク240は、少なくとも属性値238、第1光線204、及び第1時間(例えば、第1光線204に関連した時点)の入力を取得するよう構成されてよい。いくつかの実施形態で、第1光線204、属性値238、及び第1時間は一緒に連結されてもよく、それらの結合が第1属性ニューラルネットワーク240に入力され得る。いくつかの実施形態で、第1属性ニューラルネットワーク240は、ハイパースペースコード222と第1光線204との間の関連付けと同様に、属性値238と関連付けられ得る第1ハイパースペース属性値を出力するよう構成されてよい。いくつかの実施形態で、ハイパースペース属性値は、動的オブジェクト202の個々のポイント及び/又は第1光線204に関連した個々のポイントについて予測されなくてもよく、むしろハイパースペース属性値は、第1光線204の全体及び属性値238について計算され得る(及び/又は、その後に、動的オブジェクト202に関して取得された任意の他の光線及び/又は属性値について計算されてもよい。)。一般に、第1属性ニューラルネットワーク240は、入力の少なくとも一部として光線及び属性値を受け入れてよく、そして、出力としてハイパースペース属性値を生成してよい(例えば、第1光線204に関連した点ごとのハイパースペースコードとは異なり得る。)。
【0046】
いくつかの実施形態で、属性値238は、ここで記載されるアバター制御方法に可制御性を提供し得るスカラー入力であってよい。いくつかの実施形態で、属性値238は、-1から1の間の値を含んでよく、アバター制御方法に様々な制御を提供するよう調整可能であることができる。属性値238(及び/又は更なる属性値)は、RGB値232の1つ以上の側面及び/又はRGB値232に関連したアバターの側面を調整するよう構成されてよい。例えば、属性値238は、動的オブジェクト202に関連しアバターにおいて表示される変形の量、動的オブジェクト202の一部に関係がありアバターにおいて表示される個々の変形、アバターの色及び/又は色変化、第1光線204に関連した時間の長さ、及び/又はそれらの組み合わせ(例えば、更なる属性値を含めることによる。)に対する制御を提供し得る。
【0047】
いくつかの実施形態で、属性値238は、動的オブジェクト202に関連した局所属性と関連付けられ得る強度値であってもよい。環境200に含まれる1つの属性として表されているが、環境200に関して記載されるアバター制御方法は属性値をいくつでも含んでよい。環境200がN個の属性値を含む場合に、環境200は、対応する数の第1属性ニューラルネットワーク(例えば、N個の第1属性ニューラルネットワーク)及び第2属性ニューラルネットワーク(例えば、N個の第2属性ニューラルネットワーク)を含んでよく、N個の第1属性ニューラルネットワーク及び/又はN個の第2属性ニューラルネットワークはN個の属性値と個別的に関連付けられてよい。
【0048】
いくつかの実施形態で、第2属性ニューラルネットワーク250は、少なくともハイパースペース属性値(例えば、第1光線204からの出力)、変形光線212、及びハイパースペースコード222の入力を取得するよう構成されてよい。いくつかの実施形態で、第2属性ニューラルネットワーク250はスカラーマスク252を出力するよう構成されてよく、スカラーマスク252は属性値238と関連付けられ得る。
【0049】
いくつかの実施形態で、スカラーマスク252は、ハイパースペース属性値(例えば、第1属性ニューラルネットワーク240からの出力)と結合された属性ベクトル254となり得る。いくつかの実施形態で、スカラーマスク252は、ピクセル単位の乗算によりハイパースペース属性値と結合され得る。例えば、属性ベクトル254は、スカラーマスク252とハイパースペース属性値との間のドット積の結果であってよい。これらの及び他の実施形態で、スカラーマスク252及び/又は属性ベクトル254は、ここで記載されるように属性値238によって引き起こされる影響の解きほぐしに寄与し得る(例えば、RGB値232に対する属性値238の影響を局部にとどめる)。代替的に、又は追加的に、ハイパースペースコード222は、以下で記載されるように、属性値238によって影響を及ぼされ得ない空間と見なされてもよい。
【0050】
いくつかの実施形態で、ハイパースペースコード222及び/又はハイパースペースコード222の計算は、属性値238の包含により、図1のハイパースペースコード122とは異なる場合がある。例えば、属性値238を考慮した調整がないと、ハイパースペースコード222は、ハイパースペース属性値及び/又は属性値238によって影響を及ぼされる場合がある。第2ニューラルネットワーク220からの出力(例えば、第2ニューラルネットワーク120の出力、又はハイパースペースコード122と同様)は、ハイパースペースコード222を取得するようスカラーマスク252の変形と結合されてもよい。例えば、第2ニューラルネットワーク220からの出力は、1からスカラーマスク252をマイナスしたもの(例えば、mがスカラーマスク252であるとして、1-m)などの、スカラーマスク252に関連した量と結合されてよい。1つよりも多い属性値238が環境200に含まれる場合に、ハイパースペースコード222は、第2ニューラルネットワーク220からの出力を、1からスカラーマスクの和をマイナスしたもの(例えば、mが最大n個の属性値までのスカラーマスクであるとして、1-Σ )などの、複数のスカラーマスクに関連した量と結合することによって、取得されてもよい。これらの及び他の実施形態で、第2ニューラルネットワーク220からの出力とスカラーマスク252との結合は、第2ニューラルネットワーク220からの出力とスカラーマスク252とのピクセル単位の乗算であってよく、その結果がハイパースペースコード222であることができる。
【0051】
いくつかの実施形態で、サンプリングされたポイント214、ハイパースペースコード222、及び属性ベクトル254はネットワーク入力224にまとめられてもよい。いくつかの実施形態で、ネットワーク入力224は、サンプリングされたポイント214、ハイパースペースコード222、及び属性ベクトル254の連結であってもよい。いくつかの実施形態で、第3ニューラルネットワーク230は、図1の第3ニューラルネットワーク130と同様に、ネットワーク入力224を取得し、及び/又は出力としてRGB値232を生成してよい。RGB値232は、第1時間(例えば、第1光線204に関連した時点)とは異なる時間における動的オブジェクト202を表し得る3Dシーンの1つ以上の画像をレンダリングするために使用されてよい。例えば、動的オブジェクト202が表情の変化を含む人の顔である場合に、第3ニューラルネットワーク230から出力されるRGB値232は、合成の人の顔及び/又は関連する合成表情が表示され得るように表示されてよく、これは動的オブジェクト202(人の顔及び/又は関連する表情)とは異なり得る。
【0052】
第1光線204(例えば、単一光線)に関して例示及び記載されてきたが、上記のプロセスは、動的オブジェクト202に関して取得された如何なる追加の光線についても繰り返されてよい。例えば、動的オブジェクト202から第1光線204を取得すること、第1ニューラルネットワーク210から変形光線212を、そして変形光線212からサンプリングされたポイント214を取得すること、第2ニューラルネットワーク220からハイパースペースコード222を取得すること、属性値238を取得すること、第1属性ニューラルネットワーク240からハイパースペース属性値を取得すること、第2属性ニューラルネットワーク250からスカラーマスク252を決定すること、スカラーマスク252をハイパースペース属性値と結合して属性ベクトル254にまとめること、サンプリングされたポイント214、ハイパースペースコード222、及び属性ベクトル254をネットワーク入力224にまとめること、ネットワーク入力224を第3ニューラルネットワーク230に入力すること、及びRGB値232を取得することは、動的オブジェクト202に関して取得された追加の光線に対して実行されてもよい。例えば、上記のプロセスは、動的オブジェクト202に関連した数百、数千、又は数百万の光線について実行されてもよい。
【0053】
いくつかの実施形態で、第3ニューラルネットワーク230は、図1の第3ニューラルネットワーク130に関して記載された訓練と同様に訓練されてもよい。代替的に、又は追加的に、第3ニューラルネットワーク230の訓練は、ここで記載されるように、第3ニューラルネットワーク230が属性値238及び関連するコンポーネントにより制御可能な側面を含み得るということで、1つ以上の相違点を含む場合がある。
【0054】
図3を参照すると、第3ニューラルネットワーク230に関連した教師ニューラルネットワーク305は、光線からのサンプリングされたポイントを入力として使用することができ、更には、環境200に含まれる属性値238と同様の制御可能な入力を含み得る制御可能なニューラル放射輝度場ネットワーク(CoNeRF)を含んでもよい。いくつかの実施形態で、訓練データ315は、光線色からのランダムなサンプル、属性値、及び/又は属性値と個別的に関連付けられたマスクを含んでもよい。教師ニューラルネットワーク305は、ビデオデータ320からの1つ以上の2Dマスク及び/又は1つ以上の光線色に関連した疑似グラウンドトゥルース値を生成するために訓練データ315を使用してもよい。
【0055】
いくつかの実施形態で、教師ニューラルネットワーク305は、図1の第3ニューラルネットワーク130に関連した訓練と同様に、知識蒸留により生徒ニューラルネットワーク310を訓練してもよい。例えば、知識蒸留は、光線、関連する時間、及び属性値のランダムサンプリングと、生徒ニューラルネットワーク310の光線色と教師ニューラルネットワーク305の光線色との間の平均平方誤差の最小化とを含み得る。代替的に、又は追加的に、知識蒸留は、生徒ニューラルネットワーク310の2Dマスクと教師ニューラルネットワーク305の2Dマスクとの間の平均平方誤差を最小化することを含んでもよい。これらの及び他の実施形態で、教師ニューラルネットワーク305及び/又は生徒ニューラルネットワーク310のうちの1つ以上は、制御可能なニューラルネットワークであってもよい。
【0056】
いくつかの実施形態で、環境200(例えば、制御可能な動的光場ネットワーク、又はCoDyLiN)に関連したアバター制御方法は、アバター制御に対する従来のアプローチに相当し得る制御可能なニューラル放射輝度場(CoNeRF)と比較した場合に改善された結果をもたらす。例えば、以下の表に表されるように、CoNeRFとのCoDyLiNの比較は、類似したピーク信号対雑音比(PSNR)が達成され得る一方で、CoDyLiNが構造的類似性指数(structural similarity index)(SSIM)及び/又はマルチスケール構造的類似性指数(MS-SSIM)の改善、及び/又は実時間で1桁以上の改善(例えば、決定されたRGB値を用いて画像をレンダリンスルするのにかかる時間の量)を示し得る、ことを示している。更には、太字の値は、種々のアバターコトロール方法の中でもカテゴリ内で最良のものを表している。
【表4】
【表5】
【0057】
本開示の範囲から外れずに、変更、追加、又は削除が環境200に行われてもよい。例えば、いくつかの実施形態で、1つ以上の更なる属性値が環境200に含まれてもよい。更なる属性値が含まれる場合、対応する第1属性ニューラルネットワーク及び/又は対応する第2属性ニューラルネットワークが環境200に含まれ得る。代替的に、又は追加的に、更なる属性値及び/又は対応する第1属性ニューラルネットワーク及び/又は対応する第2属性ニューラルネットワークは、ハイパースペース属性値、スカラーマスク252、及び属性ベクトル254と夫々同様に、ハイパースペース属性値、スカラーマスク、及び/又は属性ベクトルを出力するよう構成されてよい。代替的に、又は追加的に、更なる属性ベクトルが、属性ベクトル254、サンプリングされたポイント214、及びハイパースペースコード222と結合されて、第3ニューラルネットワーク230に入力されるネットワーク入力224にまとめられてもよい。更には、いくつかの実施形態で、環境200は、明示的に例示又は記載されていないことがある他のコンポーネントをいくつでも含んでよい。
【0058】
図4は、本開示の少なくとも1つの実施形態に従って、アバター制御の例示的な方法400のフローチャートである。方法400の1つ以上の動作は、いくつかの実施形態では、デバイス若しくはシステム、又はデバイス若しくはシステムの組み合わせによって実行されてよい。これらの及び他の実施形態で、方法400は、1つ以上の非一時的なコンピュータ可読媒体に記憶されている命令の実行に基づき実行されてよい。別個のブロックとして表されているが、所望の実施に応じて、様々なブロックは追加のブロックに分けられても、より少ないブロックにまとめられても、又は削除されてもよい。
【0059】
方法400はブロック402から開始してよく、ブロック402で、動的オブジェクト(例えば、図1の動的オブジェクト102)に関連した第1光線(例えば、図1の第1光線104)は第1時間で変形され得る。いくつかの実施形態で、第1光線は、変形光線(例えば、図1の変形光線112)を取得するよう第1ニューラルネットワーク(例えば、図1の第1ニューラルネットワーク110)及び潜在コードを用いて変形されてよい。いくつかの実施形態で、変形光線は、時間の関数として正準光線空間への第1ニューラルネットワークによる第1光線のマッピングであってもよい。いくつかの実施形態で、第1光線は第1ニューラルネットワークによって変形されてもよく、第1ニューラルネットワークは、ここで記載されるように、多層パーセプトロンネットワークなどのフィードフォワード人工ニューラルネットワークであってもよい。
【0060】
ブロック404で、第1光線に関連したハイパースペースコード(例えば、図1のハイパースペースコード122)は、第1光線、第1時間、及び潜在コードを第2ニューラルネットワーク(例えば、図1の第2ニューラルネットワーク120)に入力することによって取得され得る。いくつかの実施形態で、ハイパースペースコードは第2ニューラルネットワークによって取得されてよく、第2ニューラルネットワークは、ここで記載されるように、多層パーセプトロンネットワークなどのフィードフォワード人工ニューラルネットワークであってもよい。代替的に、又は追加的に、第1ニューラルネットワーク及び/又は第2ニューラルネットワークは浅い多層パーセプトロンネットワークであってもよい。
【0061】
ブロック406で、1つ以上のポイントが変形光線からサンプリングされてよい。いくつかの実施形態で、サンプリングされたポイント(例えば、図1のサンプリングされたポイント114)は、変形光線からランダムに及び/又は一様にサンプリングされてよい。いくつかの実施形態で、サンプリングされたポイントは、ここで記載されるように、第1ニューラルネットワーク、第2ニューラルネットワーク、又は第3ニューラルネットワークによって取得されてよい。代替的に、又は追加的に、サンプリングされたポイントは、光線からランダムに及び/又は一様にポイントをサンプリングし得る任意のコンピューティングデバイスによって取得されてもよい。
【0062】
ブロック408で、サンプリングされたポイント及びハイパースペースコードはネットワーク入力(例えば、図1のネットワーク入力124)にまとめられてよい。いくつかの実施形態で、ネットワーク入力は、ここで記載されるように、第1ニューラルネットワーク、第2ニューラルネットワーク、又は第3ニューラルネットワークによって取得されてよい。代替的に、又は追加的に、ネットワーク入力は、連結などによって、サンプリングされたポイントとハイパースペースコードとを結合し得る任意のコンピューティングデバイスによって取得されてもよい。
【0063】
ブロック410で、ネットワーク入力は、3次元シーンの画像をレンダリングするためのRGB値(例えば、図1のRGB値132)を取得するよう第3ニューラルネットワーク(例えば、図1の第3ニューラルネットワーク130)に入力されてよい。3Dシーンの画像は、第2時間における動的オブジェクトを表し得る。いくつかの実施形態で、第3ニューラルネットワークは深い残差色多層パーセプトロンリグレッサであってよい。いくつかの実施形態で、RGB値は表示デバイスで表示されてよい。いくつかの実施形態で、RGB値の表示は、動的オブジェクトを表し得る3次元シーンの画像を含んでもよい。いくつかの実施形態で、RGB値は第3ニューラルネットワークから取得されてよく、第3ニューラルネットワークは、ここで記載されるように、深い残差色多層パーセプトロンリグレッサネットワークなどのフィードフォワード人工ニューラルネットワークであってよい。
【0064】
いくつかの実施形態で、3Dオブジェクトを表す取得されたRGB値は、アバターの表示及び/又は制御で使用されてよい(なお、アバターは、ここで記載されるシステム及び/又は方法を使用する3Dオブジェクトのレンダリングであってよい。)。例えば、取得されたRGB値を用いて、3Dオブジェクトに関連したアバターは、表示デバイスで表示されても、及び/又はユーザ入力により異なるビュー、表情、動き、などに操作されてもよく、このとき、アバターの表示及び制御は3Dオブジェクトに基づき得る。
【0065】
いくつかの実施形態で、方法400のニューラルネットワークの1つ以上は、第1ニューラルネットワーク、第2ニューラルネットワーク、及び/又は第3ニューラルネットワークなどの教師ニューラルネットワークからの知識蒸留により訓練されてもよい。いくつかの実施形態で、教師ニューラルネットワークは、動的オブジェクトに関連したビデオデータ及び/又は訓練データを用いて訓練されてもよい。いくつかの実施形態で、教師ニューラルネットワークから生徒ニューラルネットワーク(例えば、第3ニューラルネットワーク)への知識蒸留の後、生徒ニューラルネットワークは、動的オブジェクトに関連したビデオデータを用いて調整されてもよい。
【0066】
本開示の範囲から外れずに、方法400に対して変更、追加、又は省略が行われてもよい。例えば、いくつかの実施形態で、方法400は、明示的に例示又は記載されていないことがある他のコンポーネントをいくつでも含んでよい。
【0067】
図5は、本開示の少なくとも1つの実施形態に従って、アバター制御に関連した制御可能な属性入力の例示的な方法500のフローチャートである。方法500の1つ以上の動作は、いくつかの実施形態では、デバイス若しくはシステム、又はデバイス若しくはシステムの組み合わせによって実行されてよい。これらの及び他の実施形態で、方法500は、1つ以上の非一時的なコンピュータ可読媒体に記憶されている命令の実行に基づいて実行されてもよい。別個のブロックとして表されているが、所望の実施に応じて、様々なブロックは追加のブロックに分割されても、より少ないブロックにまとめられても、又は削除されてもよい。
【0068】
方法500は、図4の方法400などの他の方法の部分であっても、又はそれに対する追加であってもよい。例えば、方法500は1つ以上の動作、入力、方法、などを導入してもよく、これらのいずれかはアバター制御の他の方法の部分として含まれてもよい。例えば、方法400は、動的光場ネットワークを使用するアバター制御の方法について記載することができ、方法500のブロックは、動的光場ネットワークに制御要素を導入してもよい。
【0069】
方法500はブロック502から開始してよく、ブロック502で、第1光線に関連したハイパースペース属性値が取得され得る。ハイパースペース属性値は、第1光線、第1時間、及び属性値(例えば、図2の属性値238)を第1属性ニューラルネットワーク(例えば、図2の第1属性ニューラルネットワーク240)に入力することによって取得され得る。
【0070】
ブロック504で、属性値に関連したスカラーマスク(例えば、図2のスカラーマスク252)は決定され得る。スカラーマスクは、ハイパースペース属性値、変形光線、及びハイパースペースコードを第2属性ニューラルネットワーク(例えば、図2の第2属性ニューラルネットワーク250)に入力することによって決定され得る。1つよりも多い属性値が方法500に含まれる場合、第2属性ニューラルネットワークは、スカラーマスクを決定し、スカラーマスクをハイパースペース属性値に適用し、属性ベクトルを取得することによって、各々のハイパースペース属性値を互いに解きほぐすよう構成されてよい。例えば、スカラーマスクは、属性値の包含によって引き起こされる第1光線に対する影響を局部にとどめるために使用されてよい。例えば、1つよりも多い属性値が存在する場合、スカラーマスク(1つ以上の属性値と個別的に関連付けられる。)は、第1属性値に関連した第1ハイパースペース属性値に対して第2属性値が引き起こす可能性がある影響を低減及び/又は相殺するよう構成されてもよい。そのようなものとして、スカラーマスクは、属性値及び/又はハイパースペース属性値に対する更なる属性値の影響を空間的に解きほぐし得る。
【0071】
ブロック506で、スカラーマスク及びハイパースペース属性値は属性ベクトル(例えば、図2の属性ベクトル254)にまとめられてよい。いくつかの実施形態で、スカラーマスクとハイパースペース属性値との結合はピクセル単位の乗算であってもよい。
【0072】
ブロック508で、属性ベクトルは、サンプリングされたポイント及びハイパースペースコードと結合されて、第3ニューラルネットワークに入力されるネットワーク入力にまとめられてもよい。いくつかの実施形態で、ハイパースペースコードは、ハイパースペースコードがハイパースペース属性値によって影響を及ぼされ得ないように、スカラーマスクに対して調整されてもよい。例えば、ハイパースペースコードは、属性値によって引き起こされ、及び/又は存在する場合がある更なる属性値によって引き起こされる可能性がある如何なる影響も取り除くために、スカラーマスクを使用してよい。
【0073】
本開示の範囲から外れずに、方法500に対して変更、追加、又は削除が行われてもよい。例えば、いくつかの実施形態で、方法500は、ブロック502、504、506、及び/又は508が、方法500に含まれ得る更なる属性値ごとに繰り返され得るように、複数の属性値を含んでもよい。代替的に、又は追加的に、方法500は、明示的に例示又は記載されていないことがある他のコンポーネントをいくつでも含んでよい。
【0074】
図6は、本開示の少なくとも1つの実施形態に従って、アバター制御のために使用され得る例示的なコンピューティングシステム600を表す。コンピューティングシステム600は、第1ニューラルネットワーク110/210、第2ニューラルネットワーク120/220、第3ニューラルネットワーク130/230、第1属性ニューラルネットワーク240、及び/又は第2属性ニューラルネットワーク250などの、図1の環境100及び/又は図2の環境200に含まれる1つ以上のコンポーネントの動作、図4の方法400の実行、及び/又は図5の方法500の実行を含み得る、アバター制御に関連した1つ以上の動作を実装又は指示するよう構成されてよい。コンピューティングシステム600は、プロセッサ602、メモリ604、データストレージ606、及び通信ユニット608を含んでよく、これらは全て通信可能に結合され得る。いくつかの実施形態で、コンピューティングシステム600は、本開示で記載されるシステム又はデバイスのいずれかの部分であってよい。
【0075】
プロセッサ602は、様々なコンピュータハードウェア又はソフトウェアモジュールを含む任意のコンピューティングエンティティ、又はプロセッシングデバイスを含んでよく、任意の適用可能なコンピュータ可読記憶媒体に記憶されている命令を実行するよう構成されてよい。例えば、プロセッサ602は、マイクロプロセッサ、マイクロコントローラ、パラレルプロセッサ、例えば、グラフィクス処理ユニット(GPU)又はテンソル処理ユニット(TPU)、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、あるいは、プログラム命令を解釈及び/又は実行するよう及び/又はデータを処理するよう構成された任意の他のデジタル又はアナログ回路を含んでよい。
【0076】
図6では単一のプロセッサとして表されているが、プロセッサ602は、ここで記載される任意の数の動作を個別的又は集合的に実行するよう構成される任意の数のネットワーク又は物理的位置にわたって分散した任意の数のプロセッサを含んでもよいことが理解される。
【0077】
いくつかの実施形態で、プロセッサ602は、メモリ604、データストレージ606、又はメモリ604とデータストレージ606に記憶されているプログラム命令を解釈及び/又は実行するよう及び/又は記憶されているデータを処理するよう構成されてよい。いくつかの実施形態で、プロセッサ602は、データストレージ606からプログラム命令をフェッチし、プログラム命令をメモリ604にロードしてもよい。プログラム命令がメモリ604にロードされた後、プロセッサ602はプログラム命令を実行してよい。
【0078】
例えば、いくつかの実施形態で、プロセッサ602は、メモリ604、データストレージ606、又はメモリ604とデータストレージ606に記憶されているプログラム命令を解釈及び/又は実行するよう及び/又は記憶されているデータを処理するよう構成されてよい。プログラム命令及び/又はデータは、コンピューティングシステム600がアバター制御に関連した動作の実行を命令によって指示されるように実行又は指示し得るようにアバター制御に関係があることができる。これらの及び他の実施形態で、命令は、図4の方法400及び/又は図5の方法500を実行するために使用されてもよい。
【0079】
メモリ604及びデータストレージ606は、コンピュータ実行可能命令又はデータ構造を搬送又は記憶しているコンピュータ可読記憶媒体又は1つ以上のコンピュータ可読記憶媒体を含んでもよい。そのようなコンピュータ可読媒体は、プロセッサ602などのコンピュータがアクセスできる如何なる利用可能な媒体であってもよい。
【0080】
一例として、限定としてではなく、そのようなコンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能な読み出し専用メモリ(EEPROM)、コンパクトディスク読み出し専用メモリ(CD-ROM)若しくは他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気記憶デバイス、フラッシュメモリデバイス(例えば、ソリッドステートメモリデバイス)、又はコンピュータ実行可能命令若しくはデータ構造の形で特定のプログラムコードを搬送又は記憶するために使用されてよくかつコンピュータがアクセスできる任意の他の記憶媒体を含む非一時的なコンピュータ可読記憶媒体を含んでもよい。上記のものの組み合わせもコンピュータ可読記憶媒体の範囲内に含まれてよい。
【0081】
コンピュータ実行可能命令は、例えば、プロセッサ602に、本開示で記載されている特定の動作又は動作のグループを実行させるよう構成される命令及びデータを含んでよい。これらの及び他の実施形態で、本開示で説明される「非一時的」(non-transitory)という用語は、In re Nuijten, 500 F.3d 1346 (Fed. Cir. 2007)のFederal Circuit判決で特許可能な対象の範囲外にあると判断されたような一時的な媒体のみを除くと見なされるべきである。上記のものの組み合わせも、コンピュータ可読媒体の範囲に含まれてもよい。
【0082】
通信ユニット608は、ネットワーク上で情報を送信又は受信するよう構成される任意のコンポーネント、デバイス、システム、又はそれらの組み合わせを含んでよい。いくつかの実施形態において、通信ユニット608は、他の場所若しくは同じ場所にある他のデバイス、又は同じシステム内の他のコンポーネントと通信し得る。例えば、通信ユニット608は、モデム、ネットワークカード(無線又は有線)、赤外線通信デバイス、無線通信デバイス(例えば、4G(LTE)、4.5G(LTE-A)、及び/又は5G(mmWave)電気通信を実装するアンテナ、など)、及び/又はチップセット(例えば、Bluetooth(登録商標)デバイス(例えば、Bluetooth 5(Bluetooth Low Energy))、802.6デバイス(例えば、メトロポリタンエリアネットワーク(MAN))、WiFiデバイス(例えば、IEEE802.11ax、WiMAXデバイス、セルラー通信設備、など)、及び/又は同様のものを含んでもよい。通信ユニット608は、本開示で記載されるネットワーク及び/又は任意の他のデバイス若しくはシステムとデータが交換されることを可能にし得る。
【0083】
本開示の範囲から外れずに、コンピューティングシステム600に対して変更、追加、又は削除が行われてもよい。例えば、いくつかの実施形態において、コンピューティングシステム600は、明示的に図示又は記載されていない場合がある他のコンポーネントをいくつでも含んでもよい。更に、特定の実施に応じて、コンピューティングシステム600は、図示及び記載されているコンポーネントの1つ以上を含まなくてもよい。
【0084】
上述されたように、本明細書で記載される実施形態は、様々なコンピュータハードウェア又はソフトウェアモジュールを含むコンピューティングシステム(例えば、図6のプロセッサ602)の使用を含んでよい。更に、上述されたように、本明細書で記載される実施形態は、コンピュータ実行可能命令又はデータ構造を搬送又は記憶しているコンピュータ可読媒体(例えば、図6のメモリ604)を用いて実施されてもよい。
【0085】
いくつかの実施形態で、本明細書で記載されている種々のコンポーネント、モジュール、エンジン、及びサービスは、コンピューティングシステムで(例えば、別個のスレッドとして)実行されるオブジェクト又はプロセスとして実装されてもよい。本明細書で記載されているシステム及びプロセスのいくつかは、一般に、(汎用ハードウェアによって記憶及び/又は実行される)ソフトウェアで実装されるものとして記載されているが、特定のハードウェア実装又はソフトウェアと特定のハードウェア実装との組み合わせも可能であり、企図される。
【0086】
本開示で、特に添付の特許請求の範囲(例えば、添付の特許請求の本文)で使用される用語は、一般的に、“非限定的な(open)”用語として意図されている(例えば、語「含んでいる(including)」は、“~を含んでいるが、~に限定されない”との意に解釈されるべきであり、「持っている(having)」は、“少なくとも持っている”との意に解釈されるべきであり、「含む(includes)」は、”~を含むが、~に限定されない”との意に解釈されるべきである、など)。
【0087】
更に、導入されたクレーム記載(introduced claim recitation)において特定の数が意図される場合、そのような意図は当該クレーム中に明確に記載され、そのような記載がない場合は、そのような意図も存在しない。例えば、理解を促すために、後続の添付された特許請求の範囲では、「少なくとも1つの(at least one)」及び「1つ以上の(one or more)」といった導入句を使用し、クレーム記載を導入することがある。しかし、このような句を使用するからといって、「a」又は「an」といった不定冠詞によりクレーム記載を導入した場合に、たとえ同一のクレーム内に、「1つ以上の」又は「少なくとも1つの」といった導入句と「a」又は「an」といった不定冠詞との両方が含まれるとしても、当該導入されたクレーム記載を含む特定のクレームが、当該記載事項を1しか含まない例に限定されるということが示唆されると解釈されるべきではない(例えば、「a」及び/又は「an」は、「少なくとも1つの」又は「1つ以上の」を意味すると解釈されるべきである。)。定冠詞を使用してクレーム記載を導入する場合にも同様のことが当てはまる。
【0088】
更には、導入されたクレーム記載において特定の数が明示されている場合であっても、そのような記載は、通常、少なくとも記載された数を意味するように解釈されるべきであることは、当業者には理解されるであろう(例えば、他に修飾語のない、単なる「2つの記載事項」という記載がある場合、この記載は、少なくとも2つの記載事項、又は2つ以上の記載事項を意味する。)。更に、「A、B及びCなどのうち少なくとも1つ」又は「A、B及びCなどのうちの1つ以上」に類する表記が使用される場合、一般的に、そのような構造は、Aのみ、Bのみ、Cのみ、AとBの両方、AとCの両方、BとCの両方、及び/又はAとBとCの全て、などを含むよう意図される。更に、「及び/又は」という用語の使用はこのように解釈されるよう意図される。
【0089】
更に、2つ以上の選択可能な用語を表す如何なる離接語及び/又は離接句も、明細書、特許請求の範囲、又は図面のいずれであろうと、それら用語のうちの1つ、それらの用語のうちのいずれか、あるいは、それらの用語の両方を含む可能性を意図すると理解されるべきである。例えば、「及び/又は」という用語が別な場所に使用されるとしても、「A又はB」という句は、「A又はB」、あるいは、「A及びB」の可能性を含むことが理解されるべきである。
【0090】
本開示で挙げられている全ての例及び条件付き言語は、当該技術の促進に本発明者によって寄与される概念及び本発明を読者が理解するのを助ける教育上の目的を意図され、そのような具体的に挙げられている例及び条件に制限されないと解釈されるべきである。本開示の実施形態が詳細に記載されてきたが、様々な変更、置換、及び代替が、本開示の主旨及び適用範囲から逸脱することなしに行われてよい。
【0091】
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
変形光線を得るよう第1ニューラルネットワーク及び潜在コードを用いて第1時間における動的オブジェクトに関連した第1光線を変形させることと、
前記第1光線、前記第1時間、及び前記潜在コードを第2ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペースコードを取得することと、
前記変形光線から1つ以上のポイントをサンプリングすることと、
前記サンプリングされたポイント及び前記ハイパースペースコードをネットワーク入力にまとめることと、
第2時間における前記動的オブジェクトを表す3次元シーンの画像をレンダリングするためのRGB値を得るよう前記ネットワーク入力を第3ニューラルネットワークに入力することと
を有する方法。
(付記2)
前記第1光線、前記第1時間、及び属性値を第1属性ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペース属性値を取得することと、
前記ハイパースペース属性値、前記変形光線、及び前記ハイパースペースコードを第2属性ニューラルネットワークに入力することによって前記属性値に関連したスカラーマスクを決定することと、
前記スカラーマスク及び前記ハイパースペース属性値を属性ベクトルにまとめることと、
前記属性ベクトルを前記サンプリングされたポイント及び前記ハイパースペースコードと結合して、前記第3ニューラルネットワークへ入力される前記ネットワーク入力にまとめることと
を更に有する、付記1に記載の方法。
(付記3)
前記ハイパースペースコードは、前記ハイパースペースコードが前記ハイパースペース属性値によって影響されないように前記スカラーマスクに対して調整される、
付記2に記載の方法。
(付記4)
前記動的オブジェクトに関連したビデオデータ及び訓練データを用いて教師ニューラルネットワークを訓練することと、
知識蒸留を用いて前記教師ニューラルネットワークから前記第3ニューラルネットワークを訓練することと、
前記ビデオデータを用いて前記第3ニューラルネットワークを調整することと
を更に有する、付記1に記載の方法。
(付記5)
前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、又は前記第3ニューラルネットワークのうちの1つ以上は、知識蒸留により訓練される、
付記1に記載の方法。
(付記6)
前記動的オブジェクトを表す前記3次元シーンの前記画像が表示されるように前記RGB値を表示デバイスに表示することを更に有する、
付記1に記載の方法。
(付記7)
前記第1ニューラルネットワーク及び前記第2ニューラルネットワークは、フィードフォワード人工ニューラルネットワークである、
付記1に記載の方法。
(付記8)
前記第1ニューラルネットワーク及び前記第2ニューラルネットワークは、浅い多層パーセプトロンネットワークである、
付記7に記載の方法。
(付記9)
前記第3ニューラルネットワークは、深い残差色多層パーセプトロンリグレッサである、
付記1に記載の方法。
(付記10)
前記変形光線は、時間の関数としての正準光線空間への前記第1ニューラルネットワークによる前記第1光線のマッピングである、
付記1に記載の方法。
(付記11)
命令を記憶するよう構成される1つ以上のコンピュータ可読記憶媒体と、前記1つ以上のコンピュータ可読記憶媒体に通信可能に結合される1つ以上のプロセッサとを有するシステムであって、
前記1つ以上のプロセッサは、前記命令の実行に応答して、当該システムに、
変形光線を得るよう第1ニューラルネットワーク及び潜在コードを用いて第1時間における動的オブジェクトに関連した第1光線を変形させることと、
前記第1光線、前記第1時間、及び前記潜在コードを第2ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペースコードを取得することと、
前記変形光線から1つ以上のポイントをサンプリングすることと、
前記サンプリングされたポイント及び前記ハイパースペースコードをネットワーク入力にまとめることと、
第2時間における前記動的オブジェクトを表す3次元シーンの画像をレンダリングするためのRGB値を得るよう前記ネットワーク入力を第3ニューラルネットワークに入力することと
を有する動作を実行させるよう構成される、
システム。
(付記12)
前記動作は、
前記第1光線、前記第1時間、及び属性値を第1属性ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペース属性値を取得することと、
前記ハイパースペース属性値、前記変形光線、及び前記ハイパースペースコードを第2属性ニューラルネットワークに入力することによって前記属性値に関連したスカラーマスクを決定することと、
前記スカラーマスク及び前記ハイパースペース属性値を属性ベクトルにまとめることと、
前記属性ベクトルを前記サンプリングされたポイント及び前記ハイパースペースコードと結合して、前記第3ニューラルネットワークへ入力される前記ネットワーク入力にまとめることと
を更に有する、
付記11に記載のシステム。
(付記13)
前記ハイパースペースコードは、前記ハイパースペースコードが前記ハイパースペース属性値によって影響されないように前記スカラーマスクに対して調整される、
付記12に記載のシステム。
(付記14)
前記動作は、
前記動的オブジェクトに関連したビデオデータ及び訓練データを用いて教師ニューラルネットワークを訓練することと、
知識蒸留を用いて前記教師ニューラルネットワークから前記第3ニューラルネットワークを訓練することと、
前記ビデオデータを用いて前記第3ニューラルネットワークを調整することと
を更に有する、
付記11に記載のシステム。
(付記15)
前記第1ニューラルネットワーク、前記第2ニューラルネットワーク、又は前記第3ニューラルネットワークのうちの1つ以上は、知識蒸留により訓練される、
付記11に記載のシステム。
(付記16)
前記動作は、前記動的オブジェクトを表す前記3次元シーンの前記画像が表示されるように前記RGB値を表示デバイスに表示することを更に有する、
付記11に記載のシステム。
(付記17)
前記第1ニューラルネットワーク及び前記第2ニューラルネットワークは、フィードフォワード人工ニューラルネットワークである、
付記11に記載のシステム。
(付記18)
前記第1ニューラルネットワーク及び前記第2ニューラルネットワークは、浅い多層パーセプトロンネットワークである、
付記17に記載のシステム。
(付記19)
前記第3ニューラルネットワークは、深い残差色多層パーセプトロンリグレッサである、
付記11に記載のシステム。
(付記20)
変形光線を得るよう第1ニューラルネットワーク及び潜在コードを用いて第1時間における動的オブジェクトに関連した第1光線を変形させる手段と、
前記第1光線、前記第1時間、及び前記潜在コードを第2ニューラルネットワークに入力することによって前記第1光線に関連したハイパースペースコードを取得する手段と、
前記変形光線から1つ以上のポイントをサンプリングする手段と、
前記サンプリングされたポイント及び前記ハイパースペースコードをネットワーク入力にまとめる手段と、
第2時間における前記動的オブジェクトを表す3次元シーンの画像をレンダリングするためのRGB値を得るよう前記ネットワーク入力を第3ニューラルネットワークに入力する手段と
を有するシステム。
【符号の説明】
【0092】
100,200 環境
102,202 動的オブジェクト
104,204 第1光線
110,210 第1ニューラルネットワーク
112,212 変形光線
114,214 サンプリングされたポイント
120,220 第2ニューラルネットワーク
122,222 ハイパースペースコード
124,224 ネットワーク入力
130,230 第3ニューラルネットワーク
132,232 RGB値
238 属性値
240 第1属性ニューラルネットワーク
250 第2属性ニューラルネットワーク
252 スカラーマスク
254 属性ベクトル
305 教師ニューラルネットワーク
310 生徒ニューラルネットワーク
315 訓練データ
320 ビデオデータ
600 コンピューティングシステム
602 プロセッサ
604 メモリ
606 データストレージ
図1
図2
図3
図4
図5
図6