(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024086695
(43)【公開日】2024-06-27
(54)【発明の名称】複数のユーザがニューラル輝度場モデルを生成し、使用することを可能にするためのプラットフォーム
(51)【国際特許分類】
G06T 19/00 20110101AFI20240620BHJP
G06T 15/00 20110101ALI20240620BHJP
G06T 7/00 20170101ALI20240620BHJP
【FI】
G06T19/00 A
G06T15/00 501
G06T7/00 350C
【審査請求】有
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023212189
(22)【出願日】2023-12-15
(31)【優先権主張番号】63/433,111
(32)【優先日】2022-12-16
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/433,559
(32)【優先日】2022-12-19
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】18/169,425
(32)【優先日】2023-02-15
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】イーゴル・ボナチ
(72)【発明者】
【氏名】アラシュ・サドル
【テーマコード(参考)】
5B050
5B080
5L096
【Fターム(参考)】
5B050BA09
5B050BA13
5B050BA15
5B050CA07
5B050DA04
5B050EA07
5B050EA18
5B050EA19
5B050EA27
5B050EA30
5B050FA02
5B050GA08
5B080AA19
5B080BA02
5B080BA04
5B080DA06
5B080FA02
5B080FA08
5B080GA00
5B080GA11
5L096AA09
5L096CA22
5L096DA01
5L096HA11
5L096JA22
5L096KA04
(57)【要約】
【課題】複数のユーザがニューラル輝度場モデルを生成し、使用することを可能にするためのプラットフォームを提供する。
【解決手段】ユーザがニューラル輝度場モデルを生成し、利用することを可能にするためのシステムおよび方法が、ユーザ画像データを取得することと、ユーザ画像データに基づいて1つまたは複数のニューラル輝度場モデルをトレーニングすることとを含み得る。システムおよび方法は、ユーザ画像が特定のオブジェクトタイプのオブジェクトを描写したという判定に基づいてユーザ画像を取得することを含み得る。そして、トレーニングされたニューラル輝度場モデルが、特定のユーザオブジェクトのビュー合成画像生成のために利用され得る。
【選択図】
図1
【特許請求の範囲】
【請求項1】
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
1つまたは複数の非一時的コンピュータ可読媒体であって、前記1つまたは複数のプロセッサによって実行されるときに、前記コンピューティングシステムに、
ユーザ画像データおよび要求データを取得することであって、前記ユーザ画像データが、1つまたは複数のユーザオブジェクトを含む1つまたは複数の画像を描写し、前記1つまたは複数の画像が、ユーザコンピューティングデバイスで生成されたものである、ことと、
前記ユーザ画像データに基づいて1つまたは複数のニューラル輝度場モデルをトレーニングすることであって、前記1つまたは複数のニューラル輝度場モデルが、前記1つまたは複数のオブジェクトのビュー合成を生成するようにトレーニングされる、トレーニングことと、
前記要求データに基づいて前記1つまたは複数のニューラル輝度場モデルで1つまたは複数のビュー合成画像を生成することであって、前記1つまたは複数のビュー合成画像が、前記1つまたは複数のオブジェクトの1つまたは複数のレンダリングを含む、ことと
を含む動作を実行させる命令を共同で記憶する、1つまたは複数の非一時的コンピュータ可読媒体と
を含む、コンピューティングシステム。
【請求項2】
前記要求データが、オブジェクトタイプに固有のコレクションを生成する要求を記述し、
前記動作が、
前記1つまたは複数のオブジェクトが特定のオブジェクトタイプであると判定するために前記ユーザ画像データを処理することと、
前記1つまたは複数のニューラル輝度場モデルをコレクションデータベースに記憶することであって、前記コレクションデータベースが、前記オブジェクトタイプに固有のコレクションに関連付けられる、記憶することと
をさらに含む、請求項1に記載のシステム。
【請求項3】
前記動作が、
複数の追加のユーザ画像データセットを取得することであって、前記複数の追加のユーザ画像データセットの各々が、前記ユーザコンピューティングデバイスで生成されたものである、ことと、
前記複数の追加のユーザ画像データセットのサブセットが前記特定のオブジェクトタイプのそれぞれのオブジェクトを含むと判定するために、1つまたは複数のオブジェクト判定モデルで前記複数の追加のユーザ画像データセットの各々を処理することと、
前記複数の追加のユーザ画像データセットの前記サブセットのそれぞれの追加のユーザ画像データセットに関してそれぞれの追加のニューラル輝度場モデルをトレーニングすることと、
それぞれの追加のニューラル輝度場モデルを前記コレクションデータベースに記憶することと
をさらに含む、請求項2に記載のシステム。
【請求項4】
前記特定のオブジェクトタイプが1つまたは複数の衣類に関連付けられる、請求項2に記載のシステム。
【請求項5】
前記動作が、
表示するためにユーザコンピューティングシステムに前記1つまたは複数のビュー合成画像を提供することをさらに含む、請求項1に記載のシステム。
【請求項6】
前記要求データが、コンテキストに関連付けられ、前記コンテキストが、オブジェクトコンテキストまたは環境コンテキストの少なくとも一方を記述する、請求項1に記載のシステム。
【請求項7】
前記動作が、
仮想オブジェクトユーザインターフェースをユーザコンピューティングシステムに提供することであって、前記仮想オブジェクトユーザインターフェースが、表示するために前記1つまたは複数のビュー合成画像を提供し、前記1つまたは複数のオブジェクトが、前記ユーザ画像データに描かれた元の環境から分離される、ことをさらに含む、請求項1に記載のシステム。
【請求項8】
前記1つまたは複数のビュー合成画像が、
1つまたは複数の予測された密度値および1つまたは複数の色値を生成するために、前記1つまたは複数のニューラル輝度場モデルでポジションおよび視線方向を処理することと、ならびに
前記1つまたは複数の予測された密度値および前記1つまたは複数の色値に基づいて前記1つまたは複数のビュー合成画像を生成することと
によって生成される、請求項1に記載のシステム。
【請求項9】
前記要求データが、1つまたは複数の調整設定を記述し、
前記要求データに基づいて前記1つまたは複数のニューラル輝度場モデルで前記1つまたは複数のビュー合成画像を生成することが、前記1つまたは複数のニューラル輝度場モデルによって生成された予測された値のセットの1つまたは複数の色値を調整することを含む、
請求項1に記載のシステム。
【請求項10】
前記要求データが、特定のポジションおよび特定の視線方向を記述し、
前記要求データに基づいて前記1つまたは複数のニューラル輝度場モデルで前記1つまたは複数のビュー合成画像を生成することが、前記特定のポジションおよび前記特定の視線方向に関連するビューを描写する前記1つまたは複数のオブジェクトのビューレンダリングを生成するために、前記1つまたは複数のニューラル輝度場モデルで前記特定のポジションおよび前記特定の視線方向を処理することを含む、
請求項1に記載のシステム。
【請求項11】
仮想クローゼットの生成のためのコンピュータによって実施される方法であって、
1つまたは複数のプロセッサを含むコンピューティングシステムによって、複数のユーザ画像を取得するステップであって、前記複数のユーザ画像の各々が、1つまたは複数の衣類を含み、前記複数のユーザ画像が、複数の異なる衣類に関連付けられる、ステップと、
前記コンピューティングシステムによって、前記複数の異なる衣類のそれぞれの衣類に関してそれぞれのニューラル輝度場モデルをトレーニングするステップであって、それぞれのニューラル輝度場モデルが、特定のそれぞれの衣類の1つまたは複数のビュー合成レンダリングを生成するようにトレーニングされる、ステップと、
前記コンピューティングシステムによって、それぞれのニューラル輝度場モデルをコレクションデータベースに記憶するステップと、
前記コンピューティングシステムによって、仮想クローゼットインターフェースを提供するステップであって、前記仮想クローゼットインターフェースが、前記複数のそれぞれのニューラル輝度場モデルに基づいて、表示するために複数の衣類ビュー合成レンダリングを提供し、前記複数の衣類ビュー合成レンダリングが、少なくとも前記複数の異なる衣類のサブセットに関連付けられる、ステップと
を含む、方法。
【請求項12】
前記複数のユーザ画像が、取得された要求データに基づいて、特定のユーザに関連するストレージデータベースから自動的に取得される、請求項11に記載の方法。
【請求項13】
前記複数のユーザ画像が、メタデータのうちの少なくとも1つ、1つもしくは複数のユーザ入力、または1つもしくは複数の分類に基づいて、ユーザ画像の集成から選択される、請求項11に記載の方法。
【請求項14】
前記コンピューティングシステムによって、ユーザに関連するストレージデータベースにアクセスするステップと、
前記コンピューティングシステムによって、衣類として分類された1つまたは複数のオブジェクトを含む前記複数のユーザ画像を決定するために1つまたは複数の分類モデルでユーザ画像の集成を処理するステップと
をさらに含む、請求項11に記載の方法。
【請求項15】
前記仮想クローゼットインターフェースが、同時に表示された2つ以上の衣類を含む衣類の一揃いを見るための1つまたは複数のインターフェースの特徴を含む、請求項11に記載の方法。
【請求項16】
前記複数の衣類ビュー合成レンダリングが、1つまたは複数の一様な姿勢パラメータおよび1つまたは複数の一様な照明パラメータに基づいて生成される、請求項11に記載の方法。
【請求項17】
1つまたは複数の非一時的コンピュータ可読媒体であって、1つまたは複数のコンピューティングデバイスによって実行されるときに前記1つまたは複数のコンピューティングデバイスに、
複数のユーザ画像データセットを取得することであって、前記複数のユーザ画像データセットの各ユーザ画像データセットが、1つまたは複数のオブジェクトを含む1つまたは複数の画像を描写し、前記1つまたは複数の画像が、ユーザコンピューティングデバイスで生成されたものである、ことと、
1つまたは複数の特定のオブジェクトタイプを記述する特徴を含む前記複数のユーザ画像データセットのサブセットを決定するために、1つまたは複数の分類モデルで前記複数のユーザ画像データセットを処理することと、
前記複数のユーザ画像データセットの前記サブセットに基づいて複数のニューラル輝度場モデルをトレーニングすることであって、それぞれのニューラル輝度場モデルが、前記複数のユーザ画像データセットの前記サブセットのそれぞれのユーザ画像データセットの1つまたは複数の特定のオブジェクトのビュー合成を生成するようにトレーニングされる、トレーニングことと、
前記複数のニューラル輝度場モデルで複数のビュー合成レンダリングを生成することであって、前記複数のビュー合成レンダリングが、前記特定のオブジェクトタイプの複数の異なるオブジェクトを描写する、ことと、
前記複数のビュー合成レンダリングを見るためのユーザインターフェースを提供することと
を含む動作を実行させる命令を共同で記憶する、1つまたは複数の非一時的コンピュータ可読媒体。
【請求項18】
前記ユーザインターフェースが、前記複数のビュー合成レンダリングを見るためのレンダリングペインを含む、請求項17に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項19】
前記動作が、
第1のオブジェクトサブタイプを記述する特徴を含むユーザ画像データセットの第1のセットを決定することと、
ニューラル輝度場モデルのそれぞれの第1のセットを第1のオブジェクトサブタイプラベルに関連付けることと、
第2のオブジェクトサブタイプを記述する特徴を含むユーザ画像データセットの第2のセットを決定することと、
ニューラル輝度場モデルのそれぞれの第2のセットを第2のオブジェクトサブタイプラベルに関連付けることと
をさらに含む、請求項17に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項20】
前記動作が、
アンサンブルレンダリング要求を受け取ることであって、前記アンサンブルレンダリング要求が、前記第1のオブジェクトサブタイプの第1のオブジェクトおよび前記第2のオブジェクトサブタイプの第2のオブジェクトのビューレンダリングを生成する要求を記述する、ことと、
ニューラル輝度場モデルの前記それぞれの第1のセットの第1のニューラル輝度場モデルおよびニューラル輝度場モデルの前記それぞれの第2のセットの第2のニューラル輝度場モデルでアンサンブルビューレンダリングを生成することであって、前記アンサンブルビューレンダリングが、共有された環境内の前記第1のオブジェクトおよび前記第2のオブジェクトを描写する画像データを含む、ことと
をさらに含む、請求項19に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、2022年12月16日に出願した米国特許仮出願第63/433,111号および2022年12月19日に出願した米国特許仮出願第63/433,559号の優先権および利益を主張するものである。米国特許仮出願第63/433,111号および米国特許仮出願第63/433,559号は、参照によりその全体が本明細書に組み込まれる。
【0002】
本開示は、概して、複数のユーザがユーザオブジェクトの仮想表現を生成するためにニューラル輝度場モデルを生成し、使用することを可能にするためのプラットフォームに関する。より詳細には、本開示は、ユーザ画像を取得し、ユーザ画像に描かれた1つまたは複数のオブジェクトの1つまたは複数の新規のビュー合成画像を生成するように1つまたは複数のニューラル輝度場モデルをトレーニングすることに関する。
【背景技術】
【0003】
3次元モデリング、オブジェクトのセグメンテーション、および新規のビューレンダリングは、ユーザにはアクセス不可能であることがあり得る。そのような特徴は、検索、再配置された環境を視覚化すること、オブジェクトを理解すること、およびオブジェクトを物理的に並べる必要なしにオブジェクトを比較することに役立ち得る。オブジェクトを仮想的に見るための以前の技術は、写真、および/または動画を含み得る大量のデータに大きく依存していた。写真は、単一のおよび/または限られた数のビューから2次元的に見ることを含む。動画は、同様に、明示的にキャプチャされたデータに制限される。3次元モデリング技術へのユーザのアクセスは、時間的コストおよび/またはモデリングプログラムの知識の不足に基づいて、ユーザによってアクセス不可能である場合がある。
【0004】
さらに、写真は、ユーザに限られた量の情報を提供するだけである場合がある。サイズおよび新しい環境との適合性は、画像から理解するのが難しくなり得る。たとえば、ユーザが、自分の部屋を配置変更したい場合があるが、部屋を物理的に配置変更することは、ただ可能性を見るのには面倒であり得る。画像を使用するユーザは、サイズ、照明、および向きを理解するために想像力に大きく依存し得る。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の実施形態の態様および利点は、以下の説明に部分的に記載されるか、または説明から知られ得るか、または実施形態の実施を通じて知られ得る。
【0006】
本開示の1つの例示的な態様は、コンピューティングシステムを対象とする。システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されるときにコンピューティングシステムに動作を実行させる命令を共同で記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含み得る。動作は、ユーザ画像データおよび要求データを取得することを含み得る。ユーザ画像データは、1つまたは複数のユーザオブジェクトを含む1つまたは複数の画像を描写し得る。1つまたは複数の画像は、ユーザコンピューティングデバイスで生成された可能性がある。動作は、ユーザ画像データに基づいて1つまたは複数のニューラル輝度場モデルをトレーニングすることを含み得る。1つまたは複数のニューラル輝度場モデルは、1つまたは複数のオブジェクトのビュー合成を生成するようにトレーニングされてよい。動作は、要求データに基づいて1つまたは複数のニューラル輝度場モデルで1つまたは複数のビュー合成画像を生成することを含み得る。一部の実装において、1つまたは複数のビュー合成画像は、1つまたは複数のオブジェクトの1つまたは複数のレンダリングを含み得る。
【0007】
本開示の別の例示的な態様は、仮想クローゼットの生成のためのコンピュータによって実施される方法を対象とする。方法は、1つまたは複数のプロセッサを含むコンピューティングシステムによって、複数のユーザ画像を取得するステップを含み得る。複数のユーザ画像の各々は、1つまたは複数の衣類を含み得る。一部の実装において、複数のユーザ画像は、複数の異なる衣類に関連付けられ得る。方法は、コンピューティングシステムによって、複数の異なる衣類のそれぞれの衣類に関してそれぞれのニューラル輝度場モデルをトレーニングするステップを含み得る。それぞれのニューラル輝度場モデルは、特定のそれぞれの衣類の1つまたは複数のビュー合成レンダリングを生成するようにトレーニングされ得る。方法は、コンピューティングシステムによって、それぞれのニューラル輝度場モデルをコレクションデータベースに記憶するステップを含み得る。方法は、コンピューティングシステムによって、仮想クローゼットインターフェースを提供するステップを含み得る。仮想クローゼットインターフェースは、複数のそれぞれのニューラル輝度場モデルに基づいて、表示するために複数の衣類ビュー合成レンダリングを提供することができる。複数の衣類ビュー合成レンダリングは、少なくとも複数の異なる衣類のサブセットに関連付けられ得る。
【0008】
本開示の別の例示的な態様は、1つまたは複数のコンピューティングデバイスによって実行されるときに1つまたは複数のコンピューティングデバイスに動作を実行させる命令を共同で記憶する1つまたは複数の非一時的コンピュータ可読媒体を対象とする。動作は、複数のユーザ画像データセットを取得することを含み得る。複数のユーザ画像データセットの各ユーザ画像データセットは、1つまたは複数のオブジェクトを含む1つまたは複数の画像を描写し得る。一部の実装において、1つまたは複数の画像は、ユーザコンピューティングデバイスで生成された可能性がある。動作は、1つまたは複数の特定のオブジェクトタイプを記述する特徴を含む複数のユーザ画像データセットのサブセットを決定するために、1つまたは複数の分類モデルで複数のユーザ画像データセットを処理することを含み得る。動作は、複数のユーザ画像データセットのサブセットに基づいて複数のニューラル輝度場モデルをトレーニングするステップを含み得る。一部の実装において、それぞれのニューラル輝度場モデルは、複数のユーザ画像データセットのサブセットのそれぞれのユーザ画像データセットの1つまたは複数の特定のオブジェクトのビュー合成を生成するようにトレーニングされ得る。動作は、複数のニューラル輝度場モデルで複数のビュー合成レンダリングを生成することを含み得る。複数のビュー合成レンダリングは、特定のオブジェクトタイプの複数の異なるオブジェクトを描写し得る。動作は、複数のビュー合成レンダリングを見るためのユーザインターフェースを提供することを含み得る。
【0009】
システムおよび方法は、ユーザオブジェクトの3次元表現を学習するために利用することが可能であり、それから、それらの3次元表現は、ユーザオブジェクトの仮想カタログを生成するために利用されることが可能である。追加的および/または代替的に、システムおよび方法は、ユーザオブジェクトおよび/またはその他のオブジェクトを比較するために利用され得る。比較は、一様な照明および/または一様な姿勢で異なるオブジェクトのビュー合成レンダリングをレンダリングすることによって支援されてよい。たとえば、異なるオブジェクトの画像は、異なる照明、ポジション、および/または距離のオブジェクトを描写する場合がある。本明細書において開示されるシステムおよび方法は、オブジェクトの3次元表現を学習するために利用されることが可能であり、一様な照明、一様な姿勢、および/または一様なスケーリングで異なるオブジェクトのビュー合成レンダリングを生成してよい。
【0010】
本開示のその他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
【0011】
本開示の様々な実施形態のこれらのおよびその他の特徴、態様、および利点は、以下の説明および添付の請求項を参照するとより深く理解されるであろう。本明細書の一部に組み込まれ、本明細書の一部をなす添付の図面は、本開示の例示的な実施形態を示し、説明とともに、関連する原理を説明する働きをする。
【0012】
添付の図面を参照する当業者に向けた実施形態の詳細な検討が、本明細書に記載されている。
【図面の簡単な説明】
【0013】
【
図1】本開示の例示的な実施形態による例示的なビュー合成画像生成システムのブロック図である。
【
図2】本開示の例示的な実施形態による例示的な仮想オブジェクトコレクション生成のブロック図である。
【
図3】本開示の例示的な実施形態による、ビュー合成画像生成を実行するための例示的な方法の流れ図である。
【
図4】本開示の例示的な実施形態による例示的なビュー合成画像生成のブロック図である。
【
図5】本開示の例示的な実施形態による例示的なニューラル輝度場モデルのトレーニングおよび利用のブロック図である。
【
図6】本開示の例示的な実施形態による例示的な仮想クローゼットインターフェースの図である。
【
図7】本開示の例示的な実施形態による、仮想クローゼットの生成を実行するための例示的な方法の流れ図である。
【
図8】本開示の例示的な実施形態による、仮想オブジェクトユーザインターフェースの生成および表示を実行するための例示的な方法の流れ図である。
【
図9A】本開示の例示的な実施形態による、ビュー合成画像生成を実行する例示的なコンピューティングシステムのブロック図である。
【
図9B】本開示の例示的な実施形態による、ビュー合成画像生成を実行する例示的なコンピューティングデバイスのブロック図である。
【
図9C】本開示の例示的な実施形態による、ビュー合成画像生成を実行する例示的なコンピューティングデバイスのブロック図である。
【
図10】本開示の例示的な実施形態による例示的なニューラル輝度場モデルのトレーニングのブロック図である。
【
図11】本開示の例示的な実施形態による例示的な拡張環境生成システムのブロック図である。
【
図12】本開示の例示的な実施形態による、例示的な仮想環境生成のブロック図である。
【
図13】本開示の例示的な実施形態による、例示的な拡張画像データ生成のブロック図である。
【発明を実施するための形態】
【0014】
複数の図にわたって繰り返される参照番号は、様々な実装の同じ特徴を特定するように意図される。
【0015】
概して、本開示は、ユーザがユーザオブジェクトのレンダリングのためにニューラル輝度場モデルをトレーニングおよび/または利用するためのプラットフォームを提供するためのシステムおよび方法を対象とする。特に、本明細書において開示されるシステムおよび方法は、1つまたは複数のニューラル輝度場モデルおよびユーザ画像を活用して、ユーザオブジェクトの3次元表現を学習することができる。トレーニングされたニューラル輝度場モデルは、拡張現実によってユーザが自分の環境を配置変更することを可能にすることができ、これは、外観がユーザが望むものでない場合にオブジェクトを元に戻すためだけに手動で部屋を配置変更する物理的に負担のかかるプロセスを回避することができる。追加的および/または代替的に、トレーニングされたニューラル輝度場モデルは、ユーザオブジェクトの仮想カタログ(たとえば、仮想クローゼット)を生成するために利用され得る。仮想カタログは、(たとえば、オブジェクトの比較のために)ユーザオブジェクトの一様な描写を可能にすることができる一様な姿勢および/または一様な照明のレンダリングを含み得る。追加的および/または代替的に、新規のビュー合成画像の生成が、物理的に環境を横断することなく、様々なポジションおよび方向から様々なオブジェクトを見るために利用され得る。
【0016】
トレーニングされたニューラル輝度場モデルは、ユーザが幾何学を意識した独自のライブ試着体験を作り出すことを可能にし得る。個人ベースのレベルでの利用は、それぞれの個々のユーザおよび/またはユーザのコレクションが、自分のオブジェクトおよび/または自分の環境内のオブジェクトにパーソナライズされてよいニューラル輝度場をトレーニングすることを可能にし得る。パーソナライズは、仮想的な配置変更、仮想的な比較、および/または幾何学を意識したおよび位置を意識した視覚化をどこでも可能にすることができる。追加的および/または代替的に、システムおよび方法は、コンテキストを意識したレンダリングでオブジェクトを比較するためのプラットフォームを提供するために、一様な照明、一様な姿勢、一様な位置決め、および/または一様なスケーリングでの異なるオブジェクトのビュー合成レンダリングを含み得る。
【0017】
3次元モデリング、オブジェクトのセグメンテーション、および新規のビューレンダリングは、以前の技術に基づいてユーザには通常アクセス不可能であることがあり得る。そのような特徴は、検索、配置変更された環境を視覚化すること、オブジェクトを理解すること、およびオブジェクトを物理的に並べる必要なしにオブジェクトを比較することに役立ち得る。
【0018】
本明細書において開示されるシステムおよび方法は、ユーザが高品質の3Dコンテンツを広範なレベルで作成し、記憶し、共有し、閲覧することを可能にするために、ユーザにニューラル輝度場(NERF)技術を提供するためのプラットフォームを利用することができる。システムおよび方法は、リフォーム、服のデザイン、オブジェクトの比較、および/またはカタログの生成に役立ち得る(たとえば、商業者が、製品の高品質な3Dコンテンツを構築し、自分のウェブサイトに追加することができる)。
【0019】
一部の実装では、本明細書において開示されるシステムおよび方法は、ユーザオブジェクトの3次元モデルを生成し、ユーザオブジェクトの合成画像をレンダリングするために利用され得る。システムおよび方法は、3次元モデルを学習するために、ユーザの写真のコレクションからのオブジェクトを利用してよい。学習された3次元モデルは、ユーザによって制御され得る、および/またはユーザの検索履歴などのコンテキストに基づいて制御されてよいオブジェクトと環境との特定の組合せをレンダリングするために利用され得る。追加的および/または代替的に、ユーザは、レンダリングを操作することができる(たとえば、「スクロール」)。たとえば、トレーニングされたニューラル輝度場モデルを使用する新規のビュー合成が、ユーザが物理的に環境を横断することなく異なるビューからオブジェクトを見ることを可能にするために利用され得る。
【0020】
ユーザがニューラル輝度場モデルを生成し、利用することを可能にするためのプラットフォームは、ユーザが「自分の」オブジェクトをその他の物体および/またはその他の環境とともに視覚化し得ることを可能にすることができる。追加的および/または代替的に、オブジェクトおよび/または環境の特定の組合せは、検索履歴、利用可能性、価格などのオブジェクトの特性などの一意の入力の関数であることが可能であり、これは、コンテキストを意識したユーザ固有の体験を提供することができる。
【0021】
追加的および/または代替的に、本明細書において開示されるシステムおよび方法は、ユーザがユーザによって提供されたユーザ生成コンテンツ(たとえば、画像)でニューラル輝度場モデルをトレーニングするためのインターフェースを提供するプラットフォームを含み得る。トレーニングされたニューラル輝度場モデルは、編成、比較、共有などのために利用されることが可能であるユーザのコレクションに追加され得るユーザオブジェクトの仮想表現を生成するために利用され得る。ユーザのコレクションは、仮想クローゼット、仮想家具カタログ、仮想収集品カタログ(たとえば、ユーザは自分の物理的なコレクション(たとえば、首振り人形のコレクション)の仮想表現を生成する場合がある)、および/または仮想トロフィーコレクションを含み得る。プラットフォームは、たとえユーザが物理的オブジェクトに近接していないときでもアクセスされ、表示され得る、複数の異なる視点からの写実的なビューレンダリングをユーザが生成することを可能にすることができる。プラットフォームは、ソーシャルメディア、マーケットプレイス、および/またはメッセージングのために利用されることが可能であるユーザ間の共有を含み得る。
【0022】
本開示のシステムおよび方法は、いくつかの技術的効果および利点を提供する。一例として、システムおよび方法は、ユーザオブジェクトのビュー合成レンダリングを提供するために、ユーザ画像に基づいてユーザオブジェクトの3次元表現を学習することができる。特に、ユーザコンピューティングデバイスでキャプチャされた画像が、オブジェクトを分類および/またはセグメンテーションするために処理され得る。そして、ニューラル輝度場モデルをトレーニングすることによって、ユーザ画像内の1つまたは複数のオブジェクトに関して3次元モデリング表現が学習され得る。そして、トレーニングされたニューラル輝度場モデルは、拡張現実レンダリング、新規のビュー合成、および/またはインスタンスの補間のために利用され得る。
【0023】
本開示のシステムおよび方法の別の技術的利点は、ユーザオブジェクトの仮想カタログを提供するために1つまたは複数のビュー合成画像を活用する能力である。たとえば、複数のニューラル輝度場モデルが、複数のユーザオブジェクトの複数のビュー合成レンダリングを生成するために利用され得る。ビュー合成レンダリングは、一様な照明、一様なスケーリング、および/または一様な姿勢に基づいて生成および/または拡張されてよい。複数のビューレンダリングは、ユーザが自分の電話またはその他のコンピューティングデバイスから自分のオブジェクトを簡単に見るためのユーザインターフェースによって提供され得る。
【0024】
技術的効果および利点の別の例は、改善された計算効率およびコンピューティングシステムの機能の改善に関連する。たとえば、本明細書において開示されるシステムおよび方法は、ユーザ画像を活用して、オンラインでオブジェクトの画像を検索する計算コストを削減することができ、正しいオブジェクトがモデル化されていることを保証することができる。
【0025】
ここで図を参照して、本開示の例示的な実施形態が、より詳細に検討される。
【0026】
図1は、本開示の例示的な実施形態による例示的なビュー合成画像生成システム10のブロック図を描く。特に、ビュー合成画像生成システム10は、ユーザ12から(たとえば、ユーザコンピューティングシステムから)ユーザ画像データ14および/または要求データ18を取得することができる。ユーザ画像データ14および/または要求データ18は、時間イベント、1つもしくは複数のユーザ入力、アプリケーションのダウンロードおよびプロファイル設定、ならびに/またはトリガイベントの決定に応答して取得され得る。ユーザ画像データ14および/または要求データ18は、プラットフォーム(たとえば、ウェブプラットフォーム)との1つまたは複数のインタラクションを介して取得されてよい。一部の実装においては、プラットフォームに関連するアプリケーションプログラミングインターフェースが、1つまたは複数の入力に応答して、ユーザ画像データ14および/または要求データ18を取得および/または生成することができる。ユーザ12は、個人、小売業者、製造業者、サービスプロバイダ、および/または別のエンティティであることが可能である。
【0027】
ユーザ画像データ14は、ユーザ画像データに描かれているユーザオブジェクトの3次元モデルを生成するために利用され得る(16)。3次元モデルを生成すること16は、ユーザ画像データ14で1つまたは複数のニューラル輝度場モデルをトレーニングすることによって、それぞれのオブジェクトの3次元表現を学習することを含み得る。
【0028】
レンダリングブロック20は、要求データ18を処理することができ、生成された3次元モデルを利用して、オブジェクトの1つまたは複数のビュー合成画像22をレンダリングすることができる。要求データ18は、ユーザの環境におけるビュー合成レンダリング(たとえば、拡張現実レンダリング)を生成する明示的なユーザの要求、および/または1つもしくは複数のオブジェクトを1つもしくは複数の追加のオブジェクトもしくは特徴と組み合わせてレンダリングするユーザの要求を記述し得る。要求データ18は、オブジェクトがどのようにレンダリングされるかに影響を与える場合があるコンテキストおよび/またはパラメータ(たとえば、照明、環境オブジェクトのサイズ、時刻、環境内のその他のオブジェクトのポジションおよび方向、ならびに/または生成に関連するその他のコンテキスト)を記述してよい。要求データ18は、ユーザのコンテキストに応じて生成および/または取得される場合がある。
【0029】
オブジェクトのビュー合成画像22は、ビューファインダ、静止画像、カタログユーザインターフェース、および/または仮想現実体験を介して提供され得る。生成されたビュー合成画像22は、ユーザプロファイルに関連してローカルにおよび/またはサーバに記憶されてよい。一部の実装において、オブジェクトのビュー合成画像22は、プラットフォームに関連する1つまたは複数のサーバコンピューティングシステムを介してプラットフォームによって記憶され得る。追加的および/または代替的に、オブジェクトのビュー合成画像22は、プラットフォームに関連するユーザインターフェースを介して表示するために提供されるおよび/またはインタラクションされる場合がある。ユーザは、オブジェクトのビュー合成画像22を、ユーザに関連する1つまたは複数のコレクションに追加してよく、そして、1つまたは複数のコレクションは、コレクションユーザインターフェースを介して集合体として見られてよい。
【0030】
図2は、本開示の例示的な実施形態による例示的な仮想オブジェクトコレクション生成200のブロック図を描く。特に、仮想オブジェクトコレクション生成200は、ユーザ212から(たとえば、ユーザコンピューティングデバイス(たとえば、モバイルコンピューティングデバイス)を含む場合があるユーザコンピューティングシステムから)、ユーザ画像データ214(たとえば、ローカルおよび/もしくはサーバコンピューティングシステムに記憶される場合があるユーザ固有の画像ギャラリーからの画像)ならびに/または要求データ218(たとえば、手動の要求、コンテキストベースの要求、および/もしくはアプリケーションによって開始される要求)を取得することを含み得る。ユーザ画像データ214および/または要求データ218は、時間イベント(たとえば、ユーザ固有の画像データベース内をくまなく調べることによって仮想オブジェクトカタログを更新するための所与の間隔)、1つまたは複数のユーザ入力(たとえば、環境内の特定のオブジェクトの3次元表現を学習するためのユーザインターフェースへの1つもしくは複数の入力、および/またはユーザ固有のストレージから画像をインポートもしくはエクスポートするための1つもしくは複数のユーザ入力)、アプリケーションのダウンロードおよびプロファイル設定(たとえば、仮想クローゼットアプリケーションおよび/またはオブジェクトモデリングアプリケーション)、ならびに/あるいはトリガイベントの決定(たとえば、ユーザの位置、検索クエリの取得、および/または知識トリガイベント(knowledge trigger event))に応答して取得され得る。ユーザ212は、個人、小売業者、製造業者、サービスプロバイダ、および/または別のエンティティであることが可能である。
【0031】
ユーザ画像データ214は、ユーザ212によって(たとえば、画像キャプチャデバイス(たとえば、モバイルコンピューティングデバイスのカメラ)を介して)生成および/または取得された画像を含み得る。代替的および/または追加的に、ユーザ画像データ214は、ユーザによって選択されたデータを含み得る。たとえば、ユーザによって選択されたデータは、1つまたは複数のユーザ入力を介してユーザによって選択された1つまたは複数の画像および/または画像データセットを含み得る。ユーザによって選択されたデータは、ウェブページからの画像、ソーシャルメディアプラットフォームに投稿された画像データ、ユーザの「カメラロール」内の画像、画像フォルダにローカルで記憶された画像データ、および/または1つもしくは複数のその他のデータベースに記憶されたデータを含む場合がある。ユーザによって選択されたデータは、ジェスチャ入力、タップ入力、カーソル入力、テキスト入力、および/または任意のその他の形態の入力を含み得る1つまたは複数のユーザ入力を介して選択される場合がある。ユーザ画像データ214は、ローカルに記憶される、および/または1つもしくは複数のサーバコンピューティングシステムに記憶される場合がある。ユーザ画像データ214は、特定のユーザに特に関連付けられる場合があり、ならびに/あるいは仮想オブジェクトを生成するためにユーザによって選択された(たとえば、設定されたグループ間で共有された、ならびに/またはネットワークおよび/またはウェブページを介して共有された)共有されたデータである場合があり、仮想オブジェクトは、それから、コレクションに記憶されるおよび/または表示するために提供されることが可能である。ユーザ画像データ214は、自動的に選択された画像データを含む場合がある。自動選択は、1つもしくは複数の物体検出、1つもしくは複数の物体分類、および/または1つもしくは複数の画像分類に基づいてよい。たとえば、複数の画像データセットが、特定のオブジェクトタイプの1つまたは複数のオブジェクトを描写する画像データを含む画像データセットのサブセットを決定するために処理される場合がある。サブセットは、処理のために選択される場合がある。
【0032】
ユーザ画像データ214は、ユーザ画像データ214に描かれた(たとえば、ニューラル輝度場モデルのパラメータをトレーニングすることによって、ユーザオブジェクトの色値および密度値の3次元表現を学習する)ユーザオブジェクトの3次元モデルを生成するために利用され得る(216)。3次元モデルを生成すること216は、ユーザ画像データ214で1つまたは複数のニューラル輝度場モデルをトレーニングすることによって、それぞれのオブジェクトの3次元表現を学習することを含み得る。
【0033】
レンダリングブロック220(たとえば、1つもしくは複数のニューラル輝度場モデルを刺激するための1つもしくは複数の層、ならびに/またはニューラル輝度場モデルを取得および/もしくは利用するための1つもしくは複数のアプリケーションプログラミングインターフェース)は、要求データ218を処理することができ、生成された3次元モデルを利用して、オブジェクトの1つまたは複数のビュー合成画像222をレンダリングすることができる。要求データ218は、ユーザの環境におけるビュー合成レンダリング(たとえば、拡張現実レンダリング)を生成する明示的なユーザの要求、および/または1つもしくは複数のオブジェクトを1つもしくは複数の追加のオブジェクトもしくは特徴と組み合わせてレンダリングするユーザの要求を記述し得る。要求データ218は、オブジェクトがどのようにレンダリングされるかに影響を与える場合があるコンテキストおよび/またはパラメータ(たとえば、照明、環境オブジェクトのサイズ、時刻、環境内のその他のオブジェクトのポジションおよび方向、ならびに/または生成に関連するその他のコンテキスト)を記述してよい。要求データ218は、ユーザのコンテキストに応じて生成および/または取得される場合がある。
【0034】
オブジェクトのビュー合成画像222は、ビューファインダ、静止画像、カタログユーザインターフェース、および/または仮想現実体験を介して提供され得る。生成されたビュー合成画像222は、ユーザプロファイルに関連してローカルにおよび/またはサーバに記憶されてよい。
【0035】
一部の実装において、ビュー合成画像222は、1つまたは複数の一様なパラメータ224に基づいてレンダリングブロック220によってレンダリングされてよい。一様なパラメータ224は、一様な姿勢(特定の方向を向いている(たとえば、正面を向いている))、一様なポジション(たとえば、画像の中央に配置されたオブジェクト)、一様な照明(たとえば、影なし、正面照明(front lit)、自然照明(natural lit)など)、および/または一様なスケール(たとえば、レンダリングされるオブジェクトは、レンダリングが一様な1インチが2ピクセルのスケール(uniform one inch to two pixel scale)を有してよいように、一様なスケーリングに基づいてスケーリングされる場合がある)を含み得る。一様なパラメータ224は、オブジェクトのより十分な情報に基づく比較および/またはより十分な情報に基づくまとまりの比較を提供することができるオブジェクトのまとまりのあるレンダリングを提供するために利用され得る。
【0036】
追加的および/または代替的に、1つまたは複数のビュー合成画像222は、カタログ226に追加され得る。たとえば、1つまたは複数のビュー合成画像222は、1つまたは複数の衣類オブジェクトを描写することができ、仮想クローゼットカタログに追加されてよい。仮想クローゼットカタログは、服のプランニング、衣類の買い物、および/または衣類の比較のために利用され得る複数のユーザの衣類のレンダリングを含むことができる。カタログ226は、ユーザ固有のカタログ、小売業者および/もしくは製造業者のための製品データベース、ならびに/またはグループ共有のためのグループ固有のカタログである場合がある。一部の実装において、生成されたカタログは、ユーザおよび/またはユーザのグループへのオブジェクトの提案を決定するために処理されてよい。たとえば、ユーザの好み、スタイル、および/または不備が、ユーザ固有のカタログの描写に基づいて決定される場合がある。衣服の傷み、カラーパレット、スタイル、特定のオブジェクトタイプの量、および/またはオブジェクトのコレクションが決定され、ユーザに提供する提案を決定するために利用されてよい。システムおよび方法は、傷みの激しい既存のオブジェクトに基づいて、特定のオブジェクトの選択を提供してよい。追加的および/または代替的に、ユーザのスタイルが決定されてよく、そのスタイルのその他のオブジェクトの提案が提案されてよい。
【0037】
図3は、本開示の例示的な実施形態に従って働く例示的な方法の流れ図を描く。
図3は、説明および検討を目的として特定の順序で実行されるステップを描くが、本開示の方法は、特に示される順序または配列に限定されない。方法300の様々なステップは、本開示の範囲を逸脱することなく様々な方法で省略され、再配列され、組み合わされ、および/または適合され得る。
【0038】
302において、コンピューティングシステムが、ユーザ画像データおよび要求データを取得することができる。ユーザ画像データは、1つまたは複数のユーザオブジェクトを含む1つまたは複数の画像を描写し得る。1つまたは複数の画像は、ユーザコンピューティングデバイスで生成された可能性がある。代替的および/または追加的に、ユーザ画像データは、ユーザによって選択されたデータ(たとえば、仮想オブジェクトを生成するために利用されるためにウェブページおよび/またはウェブプラットフォームから取得された1つまたは複数の画像)を含み得る。一部の実装において、要求データは、オブジェクトタイプに固有のコレクションを生成する要求を記述し得る。要求データは、コンテキストに関連付けられ得る。一部の実装において、コンテキストは、オブジェクトコンテキスト(object context)または環境コンテキスト(environment context)の少なくとも一方を記述し得る。
【0039】
304において、コンピューティングシステムが、ユーザ画像データに基づいて1つまたは複数のニューラル輝度場モデルをトレーニングすることができる。1つまたは複数のニューラル輝度場モデルは、1つまたは複数のオブジェクトのビュー合成を生成するようにトレーニングされてよい。1つまたは複数のニューラル輝度場モデルは、画像のビュー合成レンダリングを生成するためにオブジェクトに関連する色値および/または密度値を予測するように構成することが可能であり、ビュー合成レンダリングは、ユーザ画像データに描かれていない新規のビューからのオブジェクトのビューレンダリングを含み得る。
【0040】
一部の実装において、コンピューティングシステムは、ユーザ画像データを処理して、1つまたは複数のオブジェクトが特定のオブジェクトタイプであると判定し、1つまたは複数のニューラル輝度場モデルをコレクションデータベースに記憶することができる。コレクションデータベースは、オブジェクトタイプに固有のコレクションに関連付けられ得る。特定のオブジェクトタイプは、1つまたは複数の衣類に関連付けられる場合がある。
【0041】
306において、コンピューティングシステムが、要求データに基づいて1つまたは複数のニューラル輝度場モデルで1つまたは複数のビュー合成画像を生成することができる。1つまたは複数のビュー合成画像は、1つまたは複数のオブジェクトの1つまたは複数のレンダリングを含み得る。
【0042】
一部の実装において、1つまたは複数のビュー合成画像は、1つまたは複数の予測された密度値および1つまたは複数の色値を生成するために、1つまたは複数のニューラル輝度場モデルでポジションおよび視線方向を処理し、1つまたは複数の予測された密度値および1つまたは複数の色値に基づいて1つまたは複数のビュー合成画像を生成することによって生成され得る。
【0043】
一部の実装において、要求データは、1つまたは複数の調整設定を記述し得る。要求データに基づいて1つまたは複数のニューラル輝度場モデルで1つまたは複数のビュー合成画像を生成することは、1つまたは複数のニューラル輝度場モデルによって生成された予測された値のセットの1つまたは複数の色値を調整することを含み得る。
【0044】
追加的および/または代替的に、要求データは、特定のポジションおよび特定の視線方向を記述し得る。要求データに基づいて1つまたは複数のニューラル輝度場モデルで1つまたは複数のビュー合成画像を生成することは、特定のポジションおよび特定の視線方向に関連するビューを描写する1つまたは複数のオブジェクトのビューレンダリングを生成するために、1つまたは複数のニューラル輝度場モデルで特定のポジションおよび特定の視線方向を処理することを含み得る。
【0045】
一部の実装において、コンピューティングシステムが、表示するためにユーザコンピューティングシステムに1つまたは複数のビュー合成画像を提供することができる。たとえば、ビュー合成レンダリングは、1つまたは複数のユーザインターフェースを介して表示するために提供されることが可能であり、グリッドビュー、カルーセルビュー、サムネイルビュー、および/または拡大ビューを含む場合がある。
【0046】
追加的および/または代替的に、コンピューティングシステムは、仮想オブジェクトユーザインターフェースをユーザコンピューティングシステムに提供し得る。仮想オブジェクトユーザインターフェースは、表示するために1つまたは複数のビュー合成画像を提供することができる。1つまたは複数のオブジェクトは、ユーザ画像データに描かれた元の環境から分離され得る。
【0047】
一部の実装において、コンピューティングシステムは、複数の追加のユーザ画像データセットを取得することができる。複数の追加のユーザ画像データセットの各々は、ユーザコンピューティングデバイスで生成された可能性がある。コンピューティングシステムは、複数の追加のユーザ画像データセットのサブセットが特定のオブジェクトタイプのそれぞれのオブジェクトを含むと判定するために、1つまたは複数のオブジェクト判定モデルで複数の追加のユーザ画像データセットの各々を処理することができる。コンピューティングシステムは、複数の追加のユーザ画像データセットのサブセットのそれぞれの追加のユーザ画像データセットに関してそれぞれの追加のニューラル輝度場モデルをトレーニングし、それぞれの追加のニューラル輝度場モデルをコレクションデータベースに記憶することができる。
【0048】
図4は、本開示の例示的な実施形態による例示的なビュー合成画像生成400のブロック図を描く。ビュー合成画像生成400は、ユーザオブジェクトのユーザ固有の画像402(たとえば、ユーザコンピューティングデバイスによってキャプチャされたオブジェクトの1つまたは複数の画像)を取得することを含み得る。一部の実装においては、特定のユーザインターフェースが、ニューラル輝度場モデルをトレーニングするために利用される画像をどのようにしてキャプチャすべきかをユーザに指示するために利用され得る。追加的および/または代替的に、ユーザインターフェースおよび/または1つもしくは複数のアプリケーションが、1つまたは複数のオブジェクトのビューレンダリングを生成するように1つまたは複数のニューラル輝度場モデルをトレーニングするために利用されるオブジェクトの多数の画像をキャプチャするために利用され得る。代替的および/または追加的に、ユーザオブジェクトのユーザ固有の画像402は、ユーザ固有の画像データベース(たとえば、ユーザに関連する画像ギャラリー)から取得される場合がある。
【0049】
ユーザオブジェクトのユーザ固有の画像402は、ユーザオブジェクトの3次元モデルを生成するために利用され得る(404)(たとえば、ユーザオブジェクトのユーザ固有の画像402は、オブジェクトの1つまたは複数の3次元表現を学習するように1つまたは複数のニューラル輝度場モデルをトレーニングするために利用され得る)。生成された3次元モデルは、オブジェクトのレンダリングデータ406(たとえば、トレーニングされたニューラル輝度場モデルおよび/またはパラメータデータ)を生成するために利用され得る。レンダリングデータは、分類データ(たとえば、オブジェクトのラベル)、ソース画像データ、メタデータ、および/またはユーザのアノテーションを含む場合があるオブジェクトに固有のデータに関連して記憶されてよい。
【0050】
それから、記憶されたレンダリングデータは、コンテキスト情報410に基づいて選択されてよい(408)。たとえば、レンダリングデータは、ユーザの検索履歴、ユーザの検索クエリ、予算、その他の選択されたオブジェクト、ユーザの位置、時間、および/またはユーザの現在の環境に関連する美的価値観を含む場合があるコンテキスト情報410に基づいて選択されてよい(408)。
【0051】
そして、選択されたレンダリングデータは、選択されたオブジェクトの1つまたは複数のビュー合成画像414をレンダリングするためにレンダリングブロック412によって処理され得る。一部の実装においては、複数の異なるユーザオブジェクトに関連する複数のレンダリングデータセットが、複数のユーザオブジェクトのある1つまたは複数の画像をレンダリングするために取得されてよい。追加的および/または代替的に、ユーザオブジェクトは、ユーザ環境、テンプレート環境、および/またはユーザによって選択された環境にレンダリングされる場合がある。1つまたは複数のユーザオブジェクトは、提案されるオブジェクト(たとえば、購入するために提案されるアイテム)に隣接してレンダリングされる場合がある。
【0052】
図5は、本開示の例示的な実施形態による例示的なニューラル輝度場モデルのトレーニングおよび利用500のブロック図を描く。特に、複数の画像502が、取得され得る。複数の画像502は、第1の画像、第2の画像、第3の画像、第4の画像、第5の画像、および/または第nの画像を含み得る。複数の画像502は、ユーザ固有のデータベース(たとえば、ユーザに関連するローカルストレージおよび/またはクラウドストレージ)から取得され得る。一部の実装において、複数の画像502は、ユーザコンピューティングシステムに関連するキャプチャデバイスを介して取得されてよい。
【0053】
複数の画像502は、1つまたは複数のオブジェクトタイプに関連する1つまたは複数のオブジェクトを含む画像のサブセット506を決定するために、1つまたは複数の分類モデル504(ならびに/あるいは1つもしくは複数の検出モデルおよび/または1つもしくは複数のセグメンテーションモデル)で処理され得る。たとえば、分類モデル504は、画像のサブセット506が特定のオブジェクトタイプ(たとえば、衣類オブジェクトタイプ、家具オブジェクトタイプ、および/または特定の製品タイプ)のオブジェクトを含むと判定する場合がある。画像のサブセット506は、第1の画像、第3の画像、および第nの画像を含み得る。画像のサブセット506の異なる画像は、異なるオブジェクトを描写する場合がある。一部の実装においては、同じオブジェクトを描写する画像が決定され、改善されたトレーニングのためのオブジェクトに固有のデータセットを生成するために利用される場合がある。
【0054】
そして、画像のサブセット506は、複数のニューラル輝度場モデル508(たとえば、第1の画像のオブジェクト(たとえば、第1のオブジェクト)に関連する第1のNeRFモデル、第3の画像のオブジェクト(たとえば、第3のオブジェクト)に関連する第3のNeRFモデル、および第nの画像のオブジェクト(たとえば、第nのオブジェクト)に関連する第nのNeRFモデル)をトレーニングするために利用され得る。各ニューラル輝度場モデルは、異なるオブジェクトのビュー合成レンダリングを生成するようにトレーニングされてよい。異なるニューラル輝度場データセット(たとえば、ニューラル輝度場モデル508および/または学習されたパラメータ)が、記憶される場合がある。
【0055】
それから、ユーザが、ユーザインターフェース510とインタラクションしてよい。ユーザインターフェースのインタラクションに基づいて、ニューラル輝度場データセットのうちの1つまたは複数が取得される場合がある。1つまたは複数の選択されたニューラル輝度場データセットは、1つまたは複数のユーザオブジェクトを描写する1つまたは複数のビュー合成画像514を生成するためにレンダリングブロック512によって利用されてよい。
【0056】
1つまたは複数の入力に関連する1つまたは複数の調整に基づく追加のビュー合成レンダリングのレンダリングを促す場合がある1つまたは複数の追加のユーザインターフェースのインタラクションが、受け取られてよい。
【0057】
図6は、本開示の例示的な実施形態による例示的な仮想クローゼットインターフェース600の図を描く。特に、複数の画像602が、複数の画像602に描かれた衣類に関連する複数のレンダリングデータセット604を生成するために取得および/または処理され得る。複数の画像602は、ユーザ固有のデータベース(たとえば、ユーザに関連するローカルストレージおよび/またはクラウドストレージ)から取得され得る。一部の実装においては、複数の画像602のうちの1つもしくは複数の画像および/または複数のレンダリングデータセット604のうちの1つもしくは複数のレンダリングデータセットが、1人または複数のその他のユーザに関連するデータベース(たとえば、製品(たとえば、ドレスまたはシャツ)を販売する小売業者および/または製造業者に関連するレンダリングデータセット)から取得される場合がある。
【0058】
複数のレンダリングデータセット604は、ユーザインターフェース606との1つまたは複数のインタラクションに応答して選択および/またはアクセスされ得る。1つまたは複数のレンダリングデータセットが、1つまたは複数のビュー合成レンダリングを生成するためにレンダリングブロック608によって選択され、処理され得る。たとえば、システムおよび方法は、着用する服を組み立てるために利用されてよい。ユーザは、レビューのためにまとまりのある姿勢および照明でレンダリングされてよい服を選択するおよび/または提案される場合がある。生成されたレンダリングは、ユーザからセグメンテーションされた仮想クローゼットのレンダリング610、および/またはユーザ上にレンダリングされた仮想クローゼットのレンダリング612、もしくはテンプレートの人上にレンダリングされた仮想クローゼットレンダリングを含む場合がある。一部の実装において、ユーザは、異なる衣類のビュー合成レンダリングをスクロールすることができ、特定のユーザ上に視覚化する服を決定することができ(たとえば、拡張現実試着および/またはユーザもしくは別の個人のテンプレート画像)、選択された服をユーザ上にレンダリングすることができる。
【0059】
一部の実装においては、各衣類サブタイプが、その衣類サブタイプの異なるオブジェクトに関連する複数のビュー合成レンダリングを含み得る。カルーセルインターフェースが、それぞれの衣類サブタイプのために提供されてよく、複数のカルーセルインターフェースが、各サブタイプを個々におよび/または一緒にスクロールするために同時に提供されてよく、これは、まとまりのある服を可能にすることができる。それから、ユーザは、試着レンダリングユーザインターフェース要素を選択して、そして、選択された服をユーザおよび/またはテンプレートの人上にレンダリングしてよい。
【0060】
同様のユーザインターフェースが、インテリアデザイン、造園、および/またはゲームデザインのために実装されてよい。仮想クローゼットインターフェースおよび/またはその他の同様のユーザインターフェースは、ユーザオブジェクト、ユーザの検索履歴、ユーザの閲覧履歴、および/またはユーザの好みに基づいて決定された1つまたは複数の提案を含んでよい。提案のレンダリングデータセットは、サーバデータベースから取得されてよい。サーバデータベースは、その他のユーザ(たとえば、小売業者、製造業者、および/またはピアツーピア販売業者(peer-to-peer seller))によって生成されたレンダリングデータセットを含む場合がある。提案は、特定のユーザによる利用可能性、サイズ、および/または価格帯に基づく場合がある。
【0061】
図7は、本開示の例示的な実施形態に従って働く例示的な方法の流れ図を描く。
図7は、説明および検討を目的として特定の順序で実行されるステップを描くが、本開示の方法は、特に示される順序または配列に限定されない。方法700の様々なステップは、本開示の範囲を逸脱することなく様々な方法で省略され、再配列され、組み合わされ、および/または適合され得る。
【0062】
702において、コンピューティングシステムが、複数のユーザ画像を取得することができる。複数のユーザ画像の各々は、1つまたは複数の衣類を含み得る。複数のユーザ画像は、複数の異なる衣類に関連付けられ得る。一部の実装において、複数のユーザ画像は、取得された要求データに基づいて、特定のユーザに関連するストレージデータベースから自動的に取得される場合がある。追加的および/または代替的に、複数のユーザ画像は、メタデータ、1つもしくは複数のユーザ入力、および/または1つもしくは複数の分類に基づいて、ユーザ画像の集成から選択される場合がある。
【0063】
一部の実装において、コンピューティングシステムは、ユーザに関連するストレージデータベースにアクセスし、衣類として分類された1つまたは複数のオブジェクトを含む複数のユーザ画像を決定するために1つまたは複数の分類モデルでユーザ画像の集成を処理することができる。
【0064】
704において、コンピューティングシステムが、複数の異なる衣類のそれぞれの衣類に関してそれぞれのニューラル輝度場モデルをトレーニングすることができる。それぞれのニューラル輝度場モデルは、特定のそれぞれの衣類の1つまたは複数のビュー合成レンダリングを生成するようにトレーニングされ得る。
【0065】
706において、コンピューティングシステムが、それぞれのニューラル輝度場モデルをコレクションデータベースに記憶することができる。コレクションデータベースは、オブジェクトタイプ(たとえば、衣類、家具、植物など)および/またはオブジェクトサブタイプ(たとえば、ズボン、シャツ、靴、テーブル、ランプ、椅子、ユリ、蘭、茂みなど)に関連付けられてよい。コレクションデータベースは、特定のユーザおよび/または特定のマーケットプレイスに関連付けられてよい。ユーザは、1つもしくは複数のオンラインマーケットプレイス、ソーシャルメディアプラットフォームからのソーシャルメディア投稿、および/または提案されたオブジェクト(もしくは製品)に関連する提案されたレンダリングデータセットを介して発見された製品でコレクションデータベースを補う場合がある。提案は、決定されたユーザのニーズ、決定されたユーザのスタイル、決定されたユーザの美的価値観、および/またはユーザコンテキストに基づく場合がある。提案された製品は、知られているサイズ、知られている利用可能性、および/または知られている価格の適合性に関連付けられる場合がある。
【0066】
708において、コンピューティングシステムが、仮想クローゼットインターフェースを提供することができる。仮想クローゼットインターフェースは、複数のそれぞれのニューラル輝度場モデルに基づいて、表示するために複数の衣類ビュー合成レンダリングを提供することができる。複数の衣類ビュー合成レンダリングは、少なくとも複数の異なる衣類のサブセットに関連付けられ得る。一部の実装において、仮想クローゼットインターフェースは、同時に表示された2つ以上の衣類を含む衣類の一揃いを見るための1つまたは複数のインターフェースの特徴を含み得る。複数の衣類ビュー合成レンダリングは、1つまたは複数の一様な姿勢パラメータおよび1つまたは複数の一様な照明パラメータに基づいて生成され得る。
【0067】
図8は、本開示の例示的な実施形態に従って働く例示的な方法の流れ図を描く。
図8は、説明および検討を目的として特定の順序で実行されるステップを描くが、本開示の方法は、特に示される順序または配列に限定されない。方法800の様々なステップは、本開示の範囲を逸脱することなく様々な方法で省略され、再配列され、組み合わされ、および/または適合され得る。
【0068】
802において、コンピューティングシステムが、複数のユーザ画像データセットを取得することができる。複数のユーザ画像データセットの各ユーザ画像データセットは、1つまたは複数のオブジェクトを含む1つまたは複数の画像を描写し得る。1つまたは複数の画像は、ユーザコンピューティングデバイス(たとえば、画像キャプチャコンポーネントを持つモバイルコンピューティングデバイス)で生成された可能性がある。ユーザ画像データセットのキャプチャおよび/または生成は、それぞれの特定のオブジェクトの多数の画像をキャプチャするための1つまたは複数のユーザインターフェース要素によって容易にされ得る。
【0069】
804において、コンピューティングシステムが、1つまたは複数の特定のオブジェクトタイプを記述する特徴を含む複数のユーザ画像データセットのサブセットを決定するために、1つまたは複数の分類モデルで複数のユーザ画像データセットを処理することができる。一部の実装において、決定は、1つまたは複数の追加の機械学習モデル(たとえば、1つもしくは複数の検出モデル、1つもしくは複数のセグメンテーションモデル、および/または1つもしくは複数の特徴抽出器)を含む場合がある。1つまたは複数の分類モデルは、1つまたは複数の特定のオブジェクトタイプ(たとえば、衣類タイプ、家具タイプなど)を分類するようにトレーニングされた可能性がある。1つまたは複数の分類されたオブジェクトは、複数のセグメンテーションされた画像を生成するためにセグメンテーションされる場合がある。
【0070】
806において、コンピューティングシステムが、複数のユーザ画像データセットのサブセットに基づいて複数のニューラル輝度場モデルをトレーニングすることができる。それぞれのニューラル輝度場モデルは、複数のユーザ画像データセットのサブセットのそれぞれのユーザ画像データセットの1つまたは複数の特定のオブジェクトのビュー合成を生成するようにトレーニングされ得る。一部の実装において、サブセットは、サブセットのそれぞれの特定のユーザ画像データセットに関連する複数のトレーニングパッチを生成するように処理されてよい。パッチは、ニューラル輝度場モデルをトレーニングするために利用されてよい。
【0071】
一部の実装において、コンピューティングシステムは、第1のオブジェクトサブタイプを記述する特徴を含むユーザ画像データセットの第1のセットを決定することができる。コンピューティングシステムは、ニューラル輝度モデルのそれぞれの第1のセットを第1のオブジェクトサブタイプラベルに関連付けることができ、第2のオブジェクトサブタイプを記述する特徴を含むユーザ画像データセットの第2のセットを決定することができ、ニューラル輝度モデルのそれぞれの第2のセットを第2のオブジェクトサブタイプラベルに関連付けることができる。
【0072】
808において、コンピューティングシステムが、複数のニューラル輝度場モデルで複数のビュー合成レンダリングを生成することができる。複数のビュー合成レンダリングは、特定のオブジェクトタイプ(たとえば、衣類オブジェクトタイプおよび/または家具オブジェクトタイプ)の複数の異なるオブジェクト(たとえば、異なる衣類)を描写し得る。
【0073】
810において、コンピューティングシステムが、複数のビュー合成レンダリングを見るためのユーザインターフェースを提供することができる。ユーザインターフェースは、複数のビュー合成レンダリングを見るためのレンダリングペインを含み得る。複数のビュー合成レンダリングは、カルーセルインターフェース、複数のサムネイル、および/または単一の環境内に複数のオブジェクトが表示されたまとめられたレンダリング(compiled rendering)を介して提供されてよい。
【0074】
一部の実装において、コンピューティングシステムは、アンサンブルレンダリング要求(ensemble rendering request)を受け取ることができる。アンサンブルレンダリング要求は、第1のオブジェクトサブタイプの第1のオブジェクトおよび第2のオブジェクトサブタイプの第2のオブジェクトのビューレンダリングを生成する要求を記述し得る。コンピューティングシステムは、ニューラル輝度場モデルのそれぞれの第1のセットの第1のニューラル輝度場モデルと、ニューラル輝度場モデルのそれぞれの第2のセットの第2のニューラル輝度場モデルとでアンサンブルビューレンダリング(ensemble view rendering)を生成することができる。アンサンブルビューレンダリングは、共有された環境内の第1のオブジェクトおよび第2のオブジェクトを描写する画像データを含み得る。
【0075】
一部の実装において、1つまたは複数のニューラル輝度場モデルは、拡張現実アセットおよび/または仮想現実体験を生成するために利用され得る。たとえば、1つまたは複数のニューラル輝度場モデルは、拡張現実体験および/または仮想現実体験をユーザに提供するために利用され得る、1つまたは複数のオブジェクトおよび/または環境の複数のビュー合成レンダリングを生成するために利用されることが可能である。拡張現実体験は、現在の物理的なオブジェクトが存在する環境とは異なる環境であってよいユーザが現在いる環境内の異なる場所および/またはポジションにおいてオブジェクト(たとえば、ユーザオブジェクト)を見るために利用され得る。仮想現実体験は、仮想ウォークスルー体験を提供するために利用されることが可能であり、仮想ウォークスルー体験は、リフォーム、仮想的な訪問(たとえば、お化け屋敷もしくは脱出ゲームの部屋(escape room)を仮想的に訪問する)、アパートの内見、ならびに/またはユーザが友人および/もしくは家族に環境を見てもらうために共有することができる環境のソーシャルメディア共有のために利用され得る。追加的および/または代替的に、ビュー合成レンダリングは、ビデオゲーム開発および/またはその他のコンテンツ生成のために利用され得る。
【0076】
図9Aは、本開示の例示的な実施形態による、ビュー合成画像生成を実行する例示的なコンピューティングシステム100のブロック図を描く。システム100は、ネットワーク180を介して通信可能なように結合されるユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニングコンピューティングシステム150を含む。
【0077】
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、ゲームコンソールもしくはコントローラ、ウェアラブルコンピューティングデバイス、組み込みコンピューティングデバイス、または任意のその他のタイプのコンピューティングデバイスなどの任意のタイプのコンピューティングデバイスであることが可能である。
【0078】
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であることが可能であり、1つのプロセッサまたは動作可能なように接続される複数のプロセッサであることが可能である。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびこれらの組合せなどの1つまたは複数の非一時的コンピュータ可読ストレージ媒体を含み得る。メモリ114は、データ116と、ユーザコンピューティングデバイス102に動作を実行させるためにプロセッサ112によって実行される命令118とを記憶することができる。
【0079】
一部の実装において、ユーザコンピューティングデバイス102は、1つまたは複数のニューラル輝度場モデル120を記憶するかまたは含むことができる。たとえば、ニューラル輝度場モデル120は、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)、または非線形のモデルおよび/もしくは線形モデルを含むその他のタイプの機械学習モデルなどの様々な機械学習モデルであることが可能であるかまたはそうでなければそのような機械学習モデルを含むことが可能である。ニューラルネットワークは、順伝播型ニューラルネットワーク、リカレントニューラルネットワーク(たとえば、長期短期記憶リカレントニューラルネットワーク)、畳み込みニューラルネットワーク、またはその他の形態のニューラルネットワークを含み得る。例示的なニューラル輝度場モデル120が、
図1~
図2および
図4~
図6を参照して検討される。
【0080】
一部の実装において、1つまたは複数のニューラル輝度場モデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受け取られ、ユーザコンピューティングデバイスのメモリ114に記憶され、それから、1つまたは複数のプロセッサ112によって使用されるかまたはそうでなければ実施されることが可能である。一部の実装において、ユーザコンピューティングデバイス102は、(たとえば、ユーザ画像内のオブジェクトの複数のインスタンスにまたがって並列的なユーザオブジェクトの3次元モデリングを実行するために)単一のニューラル輝度場モデル120の複数の並列的なインスタンスを実施することができる。
【0081】
より詳細には、ニューラル輝度場モデル120は、3次元ポジションおよび2次元視線方向を処理して1つまたは複数の予測された色値および1つまたは複数の予測された密度値を決定して、ポジションおよび視線方向からの1つまたは複数のオブジェクトのビュー合成を生成するように構成され得る。特定のニューラル輝度場モデルは、1つまたは複数のラベルに関連付けられてよい。特定のニューラル輝度場モデルは、所与のラベルおよび/または所与のオブジェクトとの関連付けに基づいて取得され得る。ニューラル輝度場モデル120は、複数のオブジェクトのある画像を合成するため、オブジェクトを仮想的に見るため、および/または拡張現実レンダリングのために利用され得る。
【0082】
追加的にまたは代替的に、1つまたは複数のニューラル輝度場モデル140は、クライアント-サーバの関係によりユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれるかまたはそうでなければ記憶され、実施されることが可能である。たとえば、ニューラル輝度場モデル140は、ウェブサービス(たとえば、ビュー合成画像生成サービス)の一部としてサーバコンピューティングシステム130によって実施され得る。したがって、1つもしくは複数のモデル120が、ユーザコンピューティングデバイス102に記憶され、実施されることが可能であり、および/または1つもしくは複数のモデル140が、サーバコンピューティングシステム130に記憶され、実施されることが可能である。
【0083】
ユーザコンピューティングデバイス102は、ユーザ入力を受け取る1つまたは複数のユーザ入力コンポーネント122も含み得る。たとえば、ユーザ入力コンポーネント122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチを感知可能であるタッチ感知式コンポーネント(たとえば、タッチ式ディスプレイスクリーンまたはタッチパッド)であることが可能である。タッチ感知式コンポーネントは、仮想キーボードを実施するように働き得る。その他の例示的なユーザ入力コンポーネントは、マイクロフォン、通常のキーボード、またはユーザがユーザ入力を与えることができるその他の手段を含む。
【0084】
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であることが可能であり、1つのプロセッサまたは動作可能なように接続される複数のプロセッサであることが可能である。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびこれらの組合せなどの1つまたは複数の非一時的コンピュータ可読ストレージ媒体を含み得る。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実行させるプロセッサ132によって実行される命令138とを記憶することができる。
【0085】
一部の実装において、サーバコンピューティングシステム130は、1つもしくは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ1つもしくは複数のサーバコンピューティングデバイスによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む場合、そのようなサーバコンピューティングデバイスは、逐次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはこれらの何らかの組合せによって動作し得る。
【0086】
上述のように、サーバコンピューティングシステム130は、1つまたは複数の機械学習ニューラル輝度場モデル140を記憶するかまたはそうでなければ含むことが可能である。たとえば、モデル140は、様々な機械学習モデルであることが可能であるか、またはそうでなければ様々な機械学習モデルを含むことが可能である。例示的な機械学習モデルは、ニューラルネットワークまたはその他の多層非線形モデルを含む。例示的なニューラルネットワークは、順伝播型ニューラルネットワーク、ディープニューラルネットワーク、リカレントニューラルネットワーク、および畳み込みニューラルネットワークを含む。例示的なモデル140が、
図1~
図2および
図4~
図6を参照して検討される。
【0087】
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能なように結合されるトレーニングコンピューティングシステム150とのインタラクションによってモデル120および/または140をトレーニングすることができる。トレーニングコンピューティングシステム150は、サーバコンピューティングシステム130と別れていることが可能であり、またはサーバコンピューティングシステム130の一部であることが可能である。
【0088】
トレーニングコンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、任意の好適な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であることが可能であり、1つのプロセッサまたは動作可能なように接続される複数のプロセッサであることが可能である。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびこれらの組合せなどの1つまたは複数の非一時的コンピュータ可読ストレージ媒体を含み得る。メモリ154は、データ156と、トレーニングコンピューティングシステム150に動作を実行させるためにプロセッサ152によって実行される命令158とを記憶することができる。一部の実装において、トレーニングコンピューティングシステム150は、1つもしくは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ1つもしくは複数のサーバコンピューティングデバイスによって実装される。
【0089】
トレーニングコンピューティングシステム150は、たとえば、誤差逆伝播法などの様々なトレーニングまたは学習技術を使用してユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130に記憶された機械学習モデル120および/または140をトレーニングするモデルトレーナ160を含み得る。たとえば、損失関数が、(たとえば、損失関数の勾配に基づいて)モデルの1つまたは複数のパラメータを更新するためにモデルを通して逆伝播され得る。平均二乗誤差、尤度損失、交差エントロピー損失、ヒンジ損失、および/または様々なその他の損失関数などの様々な損失関数が、使用され得る。勾配降下法が、多数のトレーニングの反復でパラメータを反復的に更新するために使用され得る。
【0090】
一部の実装において、誤差逆伝播法を実行することは、打ち切り型通時的逆伝播(truncated backpropagation through time)を実行することを含み得る。モデルトレーナ160は、トレーニングされているモデルの汎化能力を高めるためにいくつかの汎化技術(たとえば、重み減衰、ドロップアウトなど)を実行することができる。
【0091】
特に、モデルトレーナ160は、トレーニングデータ162のセットに基づいてニューラル輝度場モデル120および/または140をトレーニングすることができる。トレーニングデータ162は、たとえば、ユーザ画像、メタデータ、追加のトレーニング画像、グラウンドトゥルースラベル、例示的なトレーニングレンダリング、例示的な特徴アノテーション、例示的なアンカー(anchor)、および/またはトレーニング動画データを含み得る。
【0092】
一部の実装において、ユーザが同意を与えた場合、トレーニング例は、ユーザコンピューティングデバイス102によって提供され得る。したがって、そのような実装において、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受け取られたユーザに固有のデータでトレーニングコンピューティングシステム150によってトレーニングされ得る。場合によっては、このプロセスは、モデルのパーソナライズと呼ばれ得る。
【0093】
モデルトレーナ160は、所望の機能を提供するために利用されるコンピュータ論理を含む。モデルトレーナ160は、ハードウェア、ファームウェア、および/または汎用プロセッサを制御するソフトウェアに実装され得る。たとえば、一部の実装において、モデルトレーナ160は、ストレージデバイスに記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。その他の実装において、モデルトレーナ160は、RAM、ハードディスク、または光学式もしくは磁気式媒体などの有形のコンピュータ可読ストレージ媒体に記憶されるコンピュータが実行可能な命令の1つまたは複数のセットを含む。
【0094】
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、広域ネットワーク(たとえば、インターネット)、またはこれらの何らかの組合せなどの任意のタイプの通信ネットワークであることが可能であり、任意の数の有線またはワイヤレスリンクを含むことが可能である。概して、ネットワーク180を介した通信は、多種多様な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使用して任意のタイプの有線および/またはワイヤレス接続を介して運ばれ得る。
【0095】
本明細書に記載の機械学習モデルは、様々なタスク、アプリケーション、および/またはユースケースで使用されてよい。
【0096】
一部の実装において、本開示の機械学習モデルへの入力は、画像データであり得る。機械学習モデルは、出力を生成するために画像データを処理することができる。例として、機械学習モデルは、画像認識出力(たとえば、画像データの認識、画像データの潜在埋め込み、画像データの符号化された表現、画像データのハッシュなど)を生成するために画像データを処理することができる。別の例として、機械学習モデルは、画像セグメンテーション出力を生成するために画像データを処理することができる。別の例として、機械学習モデルは、画像分類出力を生成するために画像データを処理することができる。別の例として、機械学習モデルは、画像データ修正出力(たとえば、画像データの変更など)を生成するために画像データを処理することができる。別の例として、機械学習モデルは、符号化された画像データ出力(たとえば、画像データの符号化されたおよび/または圧縮された表現など)を生成するために画像データを処理することができる。別の例として、機械学習モデルは、アップスケールされた画像データ出力を生成するために画像データを処理することができる。別の例として、機械学習モデルは、予測出力を生成するために画像データを処理することができる。
【0097】
一部の実装において、本開示の機械学習モデルへの入力は、テキストまたは自然言語データであり得る。機械学習モデルは、出力を生成するためにテキストまたは自然言語データを処理することができる。例として、機械学習モデルは、言語符号化出力を生成するために自然言語データを処理することができる。別の例として、機械学習モデルは、潜在テキスト埋め込み出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、翻訳出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、分類出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、テキストセグメンテーション出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、意味的意図(semantic intent)出力を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、アップスケールされたテキストまたは自然言語出力(たとえば、入力テキストまたは自然言語よりも高品質なテキストまたは自然言語データなど)を生成するためにテキストまたは自然言語データを処理することができる。別の例として、機械学習モデルは、予測出力を生成するためにテキストまたは自然言語データを処理することができる。
【0098】
一部の実装において、本開示の機械学習モデルへの入力は、潜在符号化データ(たとえば、入力の潜在空間表現など)であり得る。機械学習モデルは、出力を生成するために潜在符号化データを処理することができる。例として、機械学習モデルは、認識出力を生成するために潜在符号化データを処理することができる。別の例として、機械学習モデルは、再構築出力を生成するために潜在符号化データを処理することができる。別の例として、機械学習モデルは、検索出力を生成するために潜在符号化データを処理することができる。別の例として、機械学習モデルは、再クラスタリング出力を生成するために潜在符号化データを処理することができる。別の例として、機械学習モデルは、予測出力を生成するために潜在符号化データを処理することができる。
【0099】
一部の実装において、本開示の機械学習モデルへの入力は、統計データであり得る。機械学習モデルは、出力を生成するために統計データを処理することができる。例として、機械学習モデルは、認識出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、予測出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、分類出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、セグメンテーション出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、セグメンテーション出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、視覚化出力を生成するために統計データを処理することができる。別の例として、機械学習モデルは、診断出力を生成するために統計データを処理することができる。
【0100】
一部の実装において、本開示の機械学習モデルへの入力は、センサデータであり得る。機械学習モデルは、出力を生成するためにセンサデータを処理することができる。例として、機械学習モデルは、認識出力を生成するためにセンサデータを処理することができる。別の例として、機械学習モデルは、予測出力を生成するためにセンサデータを処理することができる。別の例として、機械学習モデルは、分類出力を生成するためにセンサデータを処理することができる。別の例として、機械学習モデルは、セグメンテーション出力を生成するためにセンサデータを処理することができる。別の例として、機械学習モデルは、セグメンテーション出力を生成するためにセンサデータを処理することができる。別の例として、機械学習モデルは、視覚化出力を生成するためにセンサデータを処理することができる。別の例として、機械学習モデルは、診断出力を生成するためにセンサデータを処理することができる。別の例として、機械学習モデルは、検出出力を生成するためにセンサデータを処理することができる。
【0101】
場合によっては、機械学習モデルは、信頼性の高いおよび/もしくは効率的な送信または記憶のための入力データの符号化(ならびに/または対応する復号)を含むタスクを実行するように構成され得る。たとえば、タスクは、音声圧縮タスクである場合がある。入力は、音声データを含む場合があり、出力は、圧縮された音声データを含む場合がある。別の例において、入力は、視覚データ(たとえば、1つまたは複数の画像または動画)を含み、出力は、圧縮された視覚データを含み、タスクは、視覚データの圧縮タスクである。別の例において、タスクは、入力データ(たとえば、入力音声または視覚データ)に関する埋め込みを生成することを含む場合がある。
【0102】
場合によっては、入力は、視覚データを含み、タスクは、コンピュータビジョンタスクである。場合によっては、入力は、1つまたは複数の画像のピクセルデータを含み、タスクは、画像処理タスクである。たとえば、画像処理タスクは、画像分類であることが可能であり、出力は、スコアのセットであり、各スコアは、異なるオブジェクトクラスに対応し、1つまたは複数の画像がオブジェクトクラスに属するオブジェクトを描く見込み(likelihood)を表す。画像処理タスクは、物体検出である場合があり、画像処理出力は、1つまたは複数の画像内の1つまたは複数の領域と、各領域に関して、その領域が関心のあるオブジェクトを描く見込みとを特定する。別の例として、画像処理タスクは、画像セグメンテーションであることが可能であり、画像処理出力は、1つまたは複数の画像内の各ピクセルに関して、カテゴリの所定のセットの各カテゴリに関するそれぞれの見込みを定義する。たとえば、カテゴリのセットは、前景および背景であることが可能である。別の例として、カテゴリのセットは、オブジェクトクラスであることが可能である。別の例として、画像処理タスクは、深度推定であることが可能であり、画像処理出力は、1つまたは複数の画像内の各ピクセルに関して、それぞれの深度値を定義する。別の例として、画像処理タスクは、動き推定であることが可能であり、ネットワーク入力は、複数の画像を含み、画像処理出力は、入力画像のうちの1つの各ピクセルに関して、ネットワーク入力の画像間のピクセルに描かれたシーンの動きを定義する。
【0103】
図9Aは、本開示を実施するために使用され得る1つの例示的なコンピューティングシステムを示す。その他のコンピューティングシステムも、使用され得る。たとえば、一部の実装においては、ユーザコンピューティングデバイス102が、モデルトレーナ160およびトレーニングデータセット162を含み得る。そのような実装において、モデル120は、ユーザコンピューティングデバイス102のローカルでトレーニングされかつ使用されることが可能である。そのような実装の一部において、ユーザコンピューティングデバイス102は、ユーザに固有のデータに基づいてモデル120をパーソナライズするためにモデルトレーナ160を実装し得る。
【0104】
図9Bは、本開示の例示的な実施形態に従って働く例示的なコンピューティングデバイス40のブロック図を描く。コンピューティングデバイス40は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであることが可能である。
【0105】
コンピューティングデバイス40は、いくつかのアプリケーション(たとえば、アプリケーション1からN)を含む。各アプリケーションは、独自の機械学習ライブラリおよび機械学習モデルを含む。たとえば、各アプリケーションは、機械学習モデルを含み得る。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
【0106】
図9Bに示されるように、各アプリケーションは、たとえば、1つもしくは複数のセンサ、コンテキストマネージャ、デバイス状態コンポーネント、および/または追加的なコンポーネントなどのコンピューティングデバイスのいくつかのその他のコンポーネントと通信することができる。一部の実装において、各アプリケーションは、API(たとえば、パブリックAPI)を使用してそれぞれのデバイスのコンポーネントと通信することができる。一部の実装において、各アプリケーションによって使用されるAPIは、そのアプリケーションに固有である。
【0107】
図9Cは、本開示の例示的な実施形態に従って働く例示的なコンピューティングデバイス50のブロック図を描く。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであることが可能である。
【0108】
コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1からN)を含む。各アプリケーションは、中央インテリジェンス層(central intelligence layer)と通信する。例示的なアプリケーションは、テキストメッセージングアプリケーション、電子メールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。一部の実装において、各アプリケーションは、API(たとえば、すべてのアプリケーションにまたがる共通のAPI)を使用して中央インテリジェンス層(およびそこに記憶されたモデル)と通信し得る。
【0109】
中央インテリジェンス層は、いくつかの機械学習モデルを含む。たとえば、
図9Cに示されるように、それぞれの機械学習モデル(たとえば、モデル)が、各アプリケーションのために提供され、中央インテリジェンス層によって管理され得る。その他の実装においては、2つ以上のアプリケーションが、単一の機械学習モデルを共有し得る。たとえば、一部の実装において、中央インテリジェンス層は、アプリケーションのすべてのために単一のモデル(たとえば、単一のモデル)を提供し得る。一部の実装において、中央インテリジェンス層は、コンピューティングデバイス50のオペレーティングシステムに含まれるかまたはそうでなければオペレーティングシステムによって実装される。
【0110】
中央インテリジェンス層は、中央デバイスデータ層(central device data layer)と通信することができる。中央デバイスデータ層は、コンピューティングデバイス50のためのデータの集中化されたリポジトリであることが可能である。
図9Cに示されるように、中央デバイスデータ層は、たとえば、1つもしくは複数のセンサ、コンテキストマネージャ、デバイス状態コンポーネント、および/または追加的なコンポーネントなどのコンピューティングデバイスのいくつかのその他のコンポーネントと通信することができる。一部の実装において、中央デバイスデータ層は、API(たとえば、プライベートAPI)を使用してそれぞれのデバイスのコンポーネントと通信することができる。
【0111】
図10は、本開示の例示的な実施形態による例示的なニューラル輝度場モデルのトレーニング1000のブロック図を描く。ニューラル輝度場モデル1006をトレーニングすることは、1つまたは複数のトレーニングデータセットを処理することを含み得る。1つまたは複数のトレーニングデータセットは、1つもしくは複数のオブジェクトおよび/または1つもしくは複数の環境に固有であり得る。たとえば、ニューラル輝度場モデル1006は、トレーニングポジション1002(たとえば、3次元ポジション)ならびにトレーニング視線方向1004(たとえば、2次元視線方向および/またはベクトル)を処理して、1つもしくは複数の予測された色値1008および/または1つもしくは複数の予測された密度値1010を生成することができる。1つまたは複数の予測された色値1008および1つまたは複数の予測された密度値1010は、ビューレンダリング1012を生成するために利用され得る。
【0112】
トレーニングポジション1002およびトレーニング視線方向1004に関連するトレーニング画像1014が、取得され得る。トレーニング画像1014およびビューレンダリング1012は、損失関数1016を評価するために利用され得る。それから、評価は、ニューラル輝度場モデル1006の1つまたは複数のパラメータを調整するために利用され得る。たとえば、トレーニング画像1014およびビューレンダリング1012は、勾配降下を生成するために損失関数1016を評価するために利用されることが可能であり、勾配降下は、1つまたは複数のパラメータを調整するために逆伝播され得る。損失関数1016は、L2損失関数、知覚損失関数(perceptual loss function)、平均二乗損失関数、交差エントロピー損失関数、および/またはヒンジ損失関数を含み得る。
【0113】
一部の実装では、本明細書において開示されるシステムおよび方法が、ユーザ画像データ、1つもしくは複数のニューラル輝度場モデル、メッシュ、および/または提案されたデータセットに基づいて、拡張環境を生成および/またはレンダリングするために利用され得る。
【0114】
図11は、本開示の例示的な実施形態による例示的な拡張環境生成システム1100のブロック図を描く。拡張環境生成システム1100。特に、
図11は、ユーザデータ1102(たとえば、検索クエリ、検索パラメータ、好みデータ、履歴的なユーザデータ、ユーザによって選択されたデータ、および/または画像データ)を取得することと、環境1106にレンダリングされた複数のオブジェクト1104を含む拡張環境1108の3次元表現を描写するインタラクティブユーザインターフェース1110をユーザに出力することとを含む拡張環境生成システム1100を描く。
【0115】
たとえば、ユーザに関連するユーザデータ1102が、取得され得る。ユーザデータ102は、検索クエリ(たとえば、1つもしくは複数のキーワードおよび/または1つもしくは複数のクエリ画像)、履歴的データ(たとえば、ユーザの検索履歴、ユーザのブラウザ履歴、および/またはユーザの購入履歴)、好みデータ(たとえば、明示的に入力された好み、学習された好み、および/または好みの重み付けされた調整)、ユーザによって選択されたデータ、絞り込みパラメータ(たとえば、価格帯、位置、ブランド、格付け、および/またはサイズ)、ユーザ画像データ、ならびに/あるいは生成されたコレクション(たとえば、ショッピングカート、仮想オブジェクトカタログ、および/または仮想興味ボードを含み得るユーザによって生成されたコレクション)を含み得る。
【0116】
ユーザデータ1102は、1つまたは複数のオブジェクト1104を決定するために利用され得る。1つまたは複数のオブジェクト1104は、ユーザデータ1102に応じることができる。たとえば、1つまたは複数のオブジェクト1104は、検索クエリおよび/または1つもしくは複数の絞り込みパラメータに応答する検索結果に関連付けられ得る。一部の実装において、1つまたは複数のオブジェクト1104は、オブジェクトを提案するようにトレーニングされた1つまたは複数の機械学習モデルでユーザデータ1102を処理することによって決定され得る。
【0117】
1つまたは複数のオブジェクト1104に関連する1つまたは複数のレンダリングデータセットが、インタラクティブユーザインターフェース1110において提供され得る拡張環境1108を生成するために環境1106を拡張するために取得され得る。1つまたは複数のレンダリングデータセットは、それぞれの特定のオブジェクトのための1つまたは複数のメッシュおよび1つまたは複数のニューラル輝度場データセット(たとえば、オブジェクトに関連する1つまたは複数の学習されたパラメータを持つ1つまたは複数のニューラル輝度場モデル)を含み得る。
【0118】
拡張環境1108は、環境ナビゲーションのインスタンスの間は環境1106においてレンダリングされるメッシュとして提供されることが可能であり、特定のポジションおよび視線方向から拡張環境1108を見ている間に取得されている閾値の時間のインスタンスの間は環境1106においてニューラル輝度場レンダリングによって提供されることが可能である。
【0119】
ナビゲーションおよび停滞が、インタラクティブユーザインターフェース1110とのインタラクションに応答して起こり得る。インタラクティブユーザインターフェース1110は、1つもしくは複数のオブジェクト1104に関する追加の情報を提供するためのポップアップ要素を含むことができ、および/またはオブジェクト1104を置換/追加/削除するために利用される場合がある。
【0120】
環境1106は、テンプレート環境であることが可能であり、ならびに/あるいは1つまたは複数のユーザ入力(たとえば、仮想モデル生成および/または1つもしくは複数の入力画像)に基づいて生成されたユーザ環境である場合がある。
【0121】
図12は、本開示の例示的な実施形態による例示的な仮想環境生成1200のブロック図を描く。特に、
図12は、インタラクティブユーザインターフェース1218を介して表示するために提供され得る仮想環境1216を生成するためにユーザデータ1202が処理されるところを描く。
【0122】
ユーザデータ1202は、ユーザコンピューティングシステムから取得され得る。ユーザデータ1202は、検索クエリ、履歴的データ(たとえば、検索履歴、閲覧履歴、購入履歴、および/もしくはインタラクション履歴)、好みデータ、ユーザによって選択されたデータ、ならびに/またはユーザプロファイルデータを含み得る。ユーザデータ1202は、ユーザデータ1202に関連する1つまたは複数のオブジェクト1206を決定するために提案ブロック1204によって処理され得る。1つまたは複数のオブジェクト1206は、購入するための1つまたは複数の製品に関連付けられ得る。それから、1つまたは複数のレンダリングデータセット1210が、1つまたは複数のオブジェクト1206に基づいてレンダリングアセットデータベース1208から取得され得る。1つまたは複数のレンダリングデータセット1210は、1つまたは複数のオブジェクト1206に関連するデータを用いてレンダリングアセットデータベース208に問い合わせることによって取得され得る。一部の実装において、1つまたは複数のレンダリングデータセット1210は、(たとえば、1つまたは複数のラベルによって)1つまたは複数のオブジェクト1206に予め関連付けられ得る。
【0123】
それから、1つまたは複数のテンプレート1212が、取得され得る。1つまたは複数のテンプレート1212は、1つまたは複数の例示的な環境(たとえば、例示的な部屋、例示的な芝生、および/または例示的な車)に関連付けられ得る。1つまたは複数のテンプレート1212は、ユーザデータ1202に基づいておよび/または1つもしくは複数のオブジェクト1206に基づいて決定されてよい。テンプレート1212は、画像データ、メッシュデータ、トレーニングされたニューラル輝度場モデル、3次元表現、および/または仮想現実体験を含み得る。
【0124】
1つまたは複数のテンプレート1212および1つまたは複数のレンダリングデータセット1210が、仮想環境1216を生成するためにレンダリングモデル1214で処理され得る。レンダリングモデル1214は、1つまたは複数のニューラル輝度場モデル(たとえば、その他のユーザデータセットでトレーニングされた1つもしくは複数のニューラル輝度場モデル、および/またはユーザの画像データセットでトレーニングされた1つもしくは複数のニューラル輝度場モデル)、1つまたは複数の拡張モデル、ならびに/あるいは1つまたは複数のメッシュモデルを含み得る。
【0125】
仮想環境1216は、テンプレート環境にレンダリングされた1つまたは複数のオブジェクト1206を描写し得る。仮想環境1216は、1つまたは複数のテンプレート1212および1つまたは複数のレンダリングデータセット1210に基づいて生成され得る。仮想環境1216は、インタラクティブユーザインターフェース1218に表示するために提供されてよい。一部の実装において、ユーザは、異なる角度からおよび/または異なるスケーリングで仮想環境1216を見るために、インタラクティブユーザインターフェース1218とインタラクションすることができる場合がある。
【0126】
図13は、本開示の例示的な実施形態による例示的な拡張画像データ生成1300のブロック図を描く。特に、
図13は、インタラクティブユーザインターフェース1318を介して表示するために提供され得る拡張画像データ1316を生成するためにユーザデータ1302および画像データ1312が処理されるところを描く。
【0127】
ユーザデータ1302は、ユーザコンピューティングシステムから取得され得る。ユーザデータ1302は、検索クエリ、履歴的データ(たとえば、検索履歴、閲覧履歴、購入履歴、および/もしくはインタラクション履歴)、好みデータ、ならびに/またはユーザプロファイルデータを含み得る。ユーザデータ1302は、ユーザデータ1302に関連する1つまたは複数のオブジェクト1306を決定するために提案ブロック1304によって処理され得る。1つまたは複数のオブジェクト1306は、購入するための1つまたは複数の製品に関連付けられ得る。それから、1つまたは複数のレンダリングデータセット1310が、1つまたは複数のオブジェクト1306に基づいてレンダリングアセットデータベース1308から取得され得る。1つまたは複数のレンダリングデータセット1310は、1つまたは複数のオブジェクト1306に関連するデータを用いてレンダリングアセットデータベース1308に問い合わせることによって取得され得る。一部の実装において、1つまたは複数のレンダリングデータセット1310は、(たとえば、1つまたは複数のラベルによって)1つまたは複数のオブジェクト1306に予め関連付けられ得る。
【0128】
それから、画像データ1312が、取得され得る。画像データ1312は、1つまたは複数のユーザ環境(たとえば、ユーザの居間、ユーザの寝室、ユーザがいる現在の環境、ユーザの芝生、および/またはユーザに関連する特定の車)に関連付けられ得る。画像データ1312は、ユーザによる1つまたは複数の選択に応答して取得される場合がある。画像データ1312は、環境の1つまたは複数の画像を含み得る。一部の実装において、画像データ1312は、1つまたは複数の機械学習モデル(たとえば、1つまたは複数のニューラル輝度場モデル)をトレーニングするために利用され得る。
【0129】
画像データ1312および1つまたは複数のレンダリングデータセット1310が、拡張画像データ1316を生成するためにレンダリングモデル1314で処理され得る。レンダリングモデル1314は、1つもしくは複数のニューラル輝度場モデル、1つもしくは複数の拡張モデル、および/または1つもしくは複数のメッシュモデルを含み得る。
【0130】
拡張画像データ1316は、ユーザ環境にレンダリングされた1つまたは複数のオブジェクト1306を描写し得る。拡張画像データ1316は、画像データ1312および1つまたは複数のレンダリングデータセット1310に基づいて生成され得る。拡張画像データ1316は、インタラクティブユーザインターフェース1318に表示するために提供されてよい。一部の実装において、ユーザは、拡張ユーザ環境のための異なる角度および/または異なるスケーリングを描写する拡張画像データ1316の1つまたは複数の様々なレンダリングを見るために、インタラクティブユーザインターフェース1318とインタラクションすることができてよい。
【0131】
本明細書において検討されたテクノロジーは、サーバ、データベース、ソフトウェアアプリケーション、およびその他のコンピュータベースのシステム、ならびに行われるアクション、およびそのようなシステムに送信され、そのようなシステムから送信される情報に言及する。コンピュータベースのシステムの固有の柔軟性が、コンポーネントの間のタスクおよび機能の非常に多様な可能な構成、組合せ、および分割を可能にする。たとえば、本明細書において検討されたプロセスは、単一のデバイスもしくはコンポーネント、または組合せで働く複数のデバイスもしくはコンポーネントを使用して実装され得る。データベースおよびアプリケーションは、単一のシステム上に実装され得るかまたは複数のシステムに分散され得る。分散されたコンポーネントは、逐次的にまたは並列的に動作し得る。
【0132】
本主題がその様々な特定の例示的な実施形態に関連して詳細に説明されたが、各例は、本開示の限定ではなく説明の目的で提供されている。当業者は、以上のことを理解すると、そのような実施形態に対する改変、そのような実施形態の変更、およびそのような実施形態の均等物を容易に生み出し得る。したがって、主題の開示は、当業者に容易に分かるように、本主題に対するそのような修正、変更、および/または追加を包含することを除外しない。たとえば、1つの実施形態の一部として示されたかまたは説明された特徴は、さらなる実施形態を生み出すために別の実施形態によって使用され得る。したがって、本開示は、そのような改変、変更、および均等物を包含することが意図される。
【符号の説明】
【0133】
10 ビュー合成画像生成システム
12 ユーザ
14 ユーザ画像データ
16 3次元モデルを生成すること
18 要求データ
20 レンダリングブロック
22 ビュー合成画像
40 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
116 データ
102 ユーザコンピューティングデバイス
120 ニューラル輝度場モデル
122 ユーザ入力コンポーネント
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 ニューラル輝度場モデル
150 トレーニングコンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデルトレーナ
162 トレーニングデータ
180 ネットワーク
200 仮想オブジェクトコレクション生成
212 ユーザ
214 ユーザ画像データ
216 3次元モデルを生成すること
218 要求データ
220 レンダリングブロック
222 ビュー合成画像
224 一様なパラメータ
226 カタログ
300 方法
400 ビュー合成画像生成
402 ユーザオブジェクトのユーザ固有の画像
406 オブジェクトのレンダリングデータ
410 コンテキスト情報
412 レンダリングブロック
414 選択されたオブジェクトの1つまたは複数のビュー合成画像
500 ニューラル輝度場モデルのトレーニングおよび利用
502 画像
504 分類モデル
506 画像のサブセット
508 ニューラル輝度場モデル
510 ユーザインターフェース
512 レンダリングブロック
514 ビュー合成画像
600 仮想クローゼットインターフェース
602 画像
604 レンダリングデータセット
606 ユーザインターフェース
608 レンダリングブロック
610 ユーザからセグメンテーションされた仮想クローゼットのレンダリング
612 ユーザ上にレンダリングされた仮想クローゼットのレンダリング
700 方法
800 方法
1000 ニューラル輝度場モデルのトレーニング
1002 トレーニングポジション
1004 トレーニング視線方向
1006 ニューラル輝度場モデル
1008 予測された色値
1010 予測された密度値
1012 ビューレンダリング
1014 トレーニング画像
1016 損失関数
1100 拡張環境生成システム
1102 ユーザデータ
1104 オブジェクト
1106 環境
1108 拡張環境
1110 インタラクティブユーザインターフェース
1200 仮想環境生成
1202 ユーザデータ
1204 提案ブロック
1206 オブジェクト
1208 レンダリングアセットデータベース
1210 レンダリングデータセット
1212 テンプレート
1214 レンダリングモデル
1216 仮想環境
1218 インタラクティブユーザインターフェース
1300 拡張画像データ生成
1302 ユーザデータ
1304 提案ブロック
1306 オブジェクト
1308 レンダリングアセットデータベース
1310 レンダリングデータセット
1312 画像データ
1314 レンダリングモデル
1316 拡張画像データ
1318 インタラクティブユーザインターフェース
【手続補正書】
【提出日】2024-02-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピューティングシステムであって、
1つまたは複数のプロセッサと、
1つまたは複数のコンピュータ可読記憶媒体であって、前記1つまたは複数のプロセッサによって実行されるときに、前記コンピューティングシステムに、
ユーザ画像データおよび要求データを取得することであって、前記ユーザ画像データが、1つまたは複数のユーザ対象物を含む1つまたは複数の画像を描写し、前記1つまたは複数の画像が、ユーザコンピューティングデバイスで生成されたものである、ことと、
前記ユーザ画像データに基づいて1つまたは複数のニューラル輝度場モデルをトレーニングすることであって、前記1つまたは複数のニューラル輝度場モデルが、前記1つまたは複数の対象物のビュー合成を生成するようにトレーニングされる、トレーニングことと、
前記要求データに基づいて前記1つまたは複数のニューラル輝度場モデルで1つまたは複数のビュー合成画像を生成することであって、前記1つまたは複数のビュー合成画像が、前記1つまたは複数の対象物の1つまたは複数のレンダリングを含む、ことと
を含む動作を実行させる命令を共同で記憶する、1つまたは複数のコンピュータ可読記憶媒体と
を含む、コンピューティングシステム。
【請求項2】
前記要求データが、対象物タイプに固有のコレクションを生成する要求を記述し、
前記動作が、
前記1つまたは複数の対象物が特定の対象物タイプであると判定するために前記ユーザ画像データを処理することと、
前記1つまたは複数のニューラル輝度場モデルをコレクションデータベースに記憶することであって、前記コレクションデータベースが、前記対象物タイプに固有のコレクションに関連付けられる、記憶することと
をさらに含む、請求項1に記載のシステム。
【請求項3】
前記動作が、
複数の追加のユーザ画像データセットを取得することであって、前記複数の追加のユーザ画像データセットの各々が、前記ユーザコンピューティングデバイスで生成されたものである、ことと、
前記複数の追加のユーザ画像データセットのサブセットが前記特定の対象物タイプのそれぞれの対象物を含むと判定するために、1つまたは複数の対象物判定モデルで前記複数の追加のユーザ画像データセットの各々を処理することと、
前記複数の追加のユーザ画像データセットの前記サブセットのそれぞれの追加のユーザ画像データセットに関してそれぞれの追加のニューラル輝度場モデルをトレーニングすることと、
それぞれの追加のニューラル輝度場モデルを前記コレクションデータベースに記憶することと
をさらに含む、請求項2に記載のシステム。
【請求項4】
前記特定の対象物タイプが1つまたは複数の衣類に関連付けられる、請求項2に記載のシステム。
【請求項5】
前記動作が、
表示するためにユーザコンピューティングシステムに前記1つまたは複数のビュー合成画像を提供することをさらに含む、請求項1に記載のシステム。
【請求項6】
前記要求データが、コンテキストに関連付けられ、前記コンテキストが、対象物コンテキストまたは環境コンテキストの少なくとも一方を記述する、請求項1に記載のシステム。
【請求項7】
前記動作が、
仮想対象物ユーザインターフェースをユーザコンピューティングシステムに提供することであって、前記仮想対象物ユーザインターフェースが、表示するために前記1つまたは複数のビュー合成画像を提供し、前記1つまたは複数の対象物が、前記ユーザ画像データに描かれた元の環境から分離される、ことをさらに含む、請求項1に記載のシステム。
【請求項8】
前記1つまたは複数のビュー合成画像が、
1つまたは複数の予測された密度値および1つまたは複数の色値を生成するために、前記1つまたは複数のニューラル輝度場モデルでポジションおよび視線方向を処理することと、ならびに
前記1つまたは複数の予測された密度値および前記1つまたは複数の色値に基づいて前記1つまたは複数のビュー合成画像を生成することと
によって生成される、請求項1に記載のシステム。
【請求項9】
前記要求データが、1つまたは複数の調整設定を記述し、
前記要求データに基づいて前記1つまたは複数のニューラル輝度場モデルで前記1つまたは複数のビュー合成画像を生成することが、前記1つまたは複数のニューラル輝度場モデルによって生成された予測された値のセットの1つまたは複数の色値を調整することを含む、
請求項1に記載のシステム。
【請求項10】
前記要求データが、特定のポジションおよび特定の視線方向を記述し、
前記要求データに基づいて前記1つまたは複数のニューラル輝度場モデルで前記1つまたは複数のビュー合成画像を生成することが、前記特定のポジションおよび前記特定の視線方向に関連するビューを描写する前記1つまたは複数の対象物のビューレンダリングを生成するために、前記1つまたは複数のニューラル輝度場モデルで前記特定のポジションおよび前記特定の視線方向を処理することを含む、
請求項1に記載のシステム。
【請求項11】
仮想クローゼットの生成のためのコンピュータによって実施される方法であって、
1つまたは複数のプロセッサを含むコンピューティングシステムによって、複数のユーザ画像を取得するステップであって、前記複数のユーザ画像の各々が、1つまたは複数の衣類を含み、前記複数のユーザ画像が、複数の異なる衣類に関連付けられる、ステップと、
前記コンピューティングシステムによって、前記複数の異なる衣類のそれぞれの衣類に関してそれぞれのニューラル輝度場モデルをトレーニングするステップであって、それぞれのニューラル輝度場モデルが、特定のそれぞれの衣類の1つまたは複数のビュー合成レンダリングを生成するようにトレーニングされる、ステップと、
前記コンピューティングシステムによって、それぞれのニューラル輝度場モデルをコレクションデータベースに記憶するステップと、
前記コンピューティングシステムによって、仮想クローゼットインターフェースを提供するステップであって、前記仮想クローゼットインターフェースが、前記複数のそれぞれのニューラル輝度場モデルに基づいて、表示するために複数の衣類ビュー合成レンダリングを提供し、前記複数の衣類ビュー合成レンダリングが、少なくとも前記複数の異なる衣類のサブセットに関連付けられる、ステップと
を含む、方法。
【請求項12】
前記複数のユーザ画像が、取得された要求データに基づいて、特定のユーザに関連するストレージデータベースから自動的に取得される、請求項11に記載の方法。
【請求項13】
前記複数のユーザ画像が、メタデータのうちの少なくとも1つ、1つもしくは複数のユーザ入力、または1つもしくは複数の分類に基づいて、ユーザ画像の集成から選択される、請求項11に記載の方法。
【請求項14】
前記コンピューティングシステムによって、ユーザに関連するストレージデータベースにアクセスするステップと、
前記コンピューティングシステムによって、衣類として分類された1つまたは複数の対象物を含む前記複数のユーザ画像を決定するために1つまたは複数の分類モデルでユーザ画像の集成を処理するステップと
をさらに含む、請求項11に記載の方法。
【請求項15】
前記仮想クローゼットインターフェースが、同時に表示された2つ以上の衣類を含む衣類の一揃いを見るための1つまたは複数のインターフェースの特徴を含む、請求項11に記載の方法。
【請求項16】
前記複数の衣類ビュー合成レンダリングが、1つまたは複数の一様な姿勢パラメータおよび1つまたは複数の一様な照明パラメータに基づいて生成される、請求項11に記載の方法。
【請求項17】
1つまたは複数のコンピュータ可読記憶媒体であって、1つまたは複数のコンピューティングデバイスによって実行されるときに前記1つまたは複数のコンピューティングデバイスに、
複数のユーザ画像データセットを取得することであって、前記複数のユーザ画像データセットの各ユーザ画像データセットが、1つまたは複数の対象物を含む1つまたは複数の画像を描写し、前記1つまたは複数の画像が、ユーザコンピューティングデバイスで生成されたものである、ことと、
1つまたは複数の特定の対象物タイプを記述する特徴を含む前記複数のユーザ画像データセットのサブセットを決定するために、1つまたは複数の分類モデルで前記複数のユーザ画像データセットを処理することと、
前記複数のユーザ画像データセットの前記サブセットに基づいて複数のニューラル輝度場モデルをトレーニングすることであって、それぞれのニューラル輝度場モデルが、前記複数のユーザ画像データセットの前記サブセットのそれぞれのユーザ画像データセットの1つまたは複数の特定の対象物のビュー合成を生成するようにトレーニングされる、トレーニングことと、
前記複数のニューラル輝度場モデルで複数のビュー合成レンダリングを生成することであって、前記複数のビュー合成レンダリングが、前記特定の対象物タイプの複数の異なる対象物を描写する、ことと、
前記複数のビュー合成レンダリングを見るためのユーザインターフェースを提供することと
を含む動作を実行させる命令を共同で記憶する、1つまたは複数のコンピュータ可読記憶媒体。
【請求項18】
前記ユーザインターフェースが、前記複数のビュー合成レンダリングを見るためのレンダリングペインを含む、請求項17に記載の1つまたは複数のコンピュータ可読記憶媒体。
【請求項19】
前記動作が、
第1の対象物サブタイプを記述する特徴を含むユーザ画像データセットの第1のセットを決定することと、
ニューラル輝度場モデルのそれぞれの第1のセットを第1の対象物サブタイプラベルに関連付けることと、
第2の対象物サブタイプを記述する特徴を含むユーザ画像データセットの第2のセットを決定することと、
ニューラル輝度場モデルのそれぞれの第2のセットを第2の対象物サブタイプラベルに関連付けることと
をさらに含む、請求項17に記載の1つまたは複数のコンピュータ可読記憶媒体。
【請求項20】
前記動作が、
アンサンブルレンダリング要求を受け取ることであって、前記アンサンブルレンダリング要求が、前記第1の対象物サブタイプの第1の対象物および前記第2の対象物サブタイプの第2の対象物のビューレンダリングを生成する要求を記述する、ことと、
ニューラル輝度場モデルの前記それぞれの第1のセットの第1のニューラル輝度場モデルおよびニューラル輝度場モデルの前記それぞれの第2のセットの第2のニューラル輝度場モデルでアンサンブルビューレンダリングを生成することであって、前記アンサンブルビューレンダリングが、共有された環境内の前記第1の対象物および前記第2の対象物を描写する画像データを含む、ことと
をさらに含む、請求項19に記載の1つまたは複数のコンピュータ可読記憶媒体。
【外国語明細書】