特開2024-156677 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特開2024-156677新規ビュー合成のためのニューラルブレンド

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024156677

(43)【公開日】2024-11-06

(54)【発明の名称】新規ビュー合成のためのニューラルブレンド

(51)【国際特許分類】

G06T 15/20 20110101AFI20241029BHJP

G06T 19/00 20110101ALI20241029BHJP

【ＦＩ】

G06T15/20 500

G06T19/00 A

【審査請求】有

【請求項の数】21

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024109644

(22)【出願日】2024-07-08

(62)【分割の表示】P 2021577153の分割

【原出願日】2021-04-08

(71)【出願人】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】マーティン・ブルアラ，リカルド

(72)【発明者】

【氏名】ゴールドマン，ダニエル

(72)【発明者】

【氏名】ホッペ，ユーグ・エルベ

(72)【発明者】

【氏名】ツァイ，リン

(72)【発明者】

【氏名】ヘッドマン，ラース・ピーター・ヨハネス

(57)【要約】（修正有）

【課題】目標被写体の仮想ビューを生成する方法、装置及びアルゴリズムを提供する。
【解決手段】方法は、複数の入力画像、複数の深度画像及び複数のビューパラメータを受信し、複数の入力画像と、複数のビューパラメータと、複数の深度画像のうちの１つとに基づいて、複数のワープ画像を生成し、複数の深度画像、複数のビューパラメータ及び複数のワープ画像をニューラルネットワークに提供することに応答して、目標被写体の仮想ビューの画素に色を割当てるためにブレンド重みをニューラルネットワークから受信し、ブレンド重みおよび仮想ビューに基づいて、ビューパラメータに従って合成画像を生成する。
【選択図】図６

【特許請求の範囲】

【請求項1】

コンピュータにより実現される方法であって、
複数の入力画像を受信することと、
前記複数の入力画像のうち少なくとも１つにおける目標被写体に関連付けられた複数の深度画像を受信することと、
前記目標被写体の仮想ビューを生成するために、複数のビューパラメータを受信することと、
前記複数の入力画像と、前記複数のビューパラメータと、前記複数の深度画像のうちの少なくとも１つとに基づいて、複数のワープ画像を生成することと、
前記複数の深度画像、前記複数のビューパラメータ、および前記複数のワープ画像をニューラルネットワークに提供することに応答して、前記ニューラルネットワークから、前記目標被写体の前記仮想ビューの画素に色を割当てるためのブレンド重みを受信することと、
前記ブレンド重みおよび前記仮想ビューに基づいて、前記複数のビューパラメータに従って合成画像を生成することとを備える、方法。

【請求項2】

前記複数の深度画像上に幾何学的融合処理を用いてコンセンサス表面を再構成して、幾何学的に融合されたモデルを生成することと、
前記複数の入力画像および前記コンセンサス表面に基づいて、複数の再投影画像を生成することと、
前記複数の深度画像、前記複数のビューパラメータ、および前記複数の再投影画像を前記ニューラルネットワークに提供することに応答して、前記ニューラルネットワークから、前記合成画像内の画素に色を割当てるための追加のブレンド重みを受信することとをさらに備える、請求項１に記載のコンピュータにより実現される方法。

【請求項3】

前記ニューラルネットワークに、前記幾何学的に融合されたモデルの深度と前記複数の深度画像で観察される深度との差を提供することと、前記深度の差に基づいて、前記合成画像において検出されるオクルージョンを補正することとをさらに備える、請求項２に記載のコンピュータにより実現される方法。

【請求項4】

前記複数の入力画像は、前記複数の入力画像を取込んだ少なくとも１つのカメラに関連付けられた、予め定義されたビューパラメータに従って取込まれた色画像であり、かつ／または、
前記複数の深度画像は各々、前記複数の入力画像のうちの少なくとも１つを取込んだ少なくとも１つのカメラに関連付けられた深度マップ、少なくとも１つのオクルージョンマップ、および／もしくは、前記複数の入力画像のうちの少なくとも１つの取込みに対応するときに少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像に関連付けられた深度マップを含む、先行する請求項のいずれか１項に記載のコンピュータにより実現される方法。

【請求項5】

前記ブレンド重みは、ブレンド色を前記合成画像の各画素に割当てるように構成される、先行する請求項のいずれか１項に記載のコンピュータにより実現される方法。

【請求項6】

前記ニューラルネットワークは、前記ニューラルネットワークによって生成される前記合成画像と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像との間のオクルージョン損失関数の最小化に基づいて訓練される、先行する請求項のいずれか１項に記載のコンピュータにより実現される方法。

【請求項7】

前記合成画像は、３次元ビデオ会議のために生成される前記目標被写体の未取込みビュ
ーである、先行する請求項のいずれか１項に記載のコンピュータにより実現される方法。

【請求項8】

前記複数の入力画像と、前記複数のビューパラメータと、前記複数の深度画像のうちの少なくとも１つとに基づいて前記複数のワープ画像を生成することは、前記複数の深度画像のうちの少なくとも１つを用いて、未取込みビューに対する、前記複数の入力画像に関連付けられた色の候補投影を判断することを含み、前記未取込みビューは、前記複数の入力画像のうちの少なくとも１つの画像特徴の少なくとも一部を含む、先行する請求項のいずれか１項に記載のコンピュータにより実現される方法。

【請求項9】

先行する請求項のいずれか１項に記載の方法を実行するための画像処理システムであって、前記システムは、
少なくとも１つの処理デバイスと、
実行されると、前記システムに動作を行わせる命令を格納したメモリとを備え、前記動作は、
前記画像処理システムによって取込まれる複数の入力画像を受信することと、
前記画像処理システムによって取込まれる複数の深度画像を受信することと、
前記複数の入力画像のうちの少なくとも１つに関連付けられた未取込みビューに関連付けられた複数のビューパラメータを受信することと、
前記複数の入力画像と、前記複数のビューパラメータと、前記複数の深度画像のうちの少なくとも１つとに基づいて、複数のワープ画像を生成することと、
前記複数の深度画像と、前記複数のビューパラメータと、前記複数のワープ画像とをニューラルネットワークに提供することに応答して、前記ニューラルネットワークから、前記未取込みビューの画素に色を割当てるためのブレンド重みを受信することと、
前記ブレンド重みに従って合成画像を生成することとを含み、前記合成画像は、前記未取込みビューに対応する、画像処理システム。

【請求項10】

前記複数の入力画像は、前記画像処理システムに関連付けられた、予め定義されたビューパラメータに従って前記画像処理システムによって取込まれる色画像であり、かつ／または、
前記複数の深度画像は、前記複数の入力画像のうちの少なくとも１つを取込んだ少なくとも１つのカメラに関連付けられた深度マップ、少なくとも１つのオクルージョンマップ、および／もしくは前記画像処理システムのウィットネスカメラに関連付けられた深度マップを含む、請求項９に記載の画像処理システム。

【請求項11】

前記ブレンド重みは、前記合成画像の各画素にブレンド色を割当てるように構成される、請求項９または１０に記載の画像処理システム。

【請求項12】

前記ニューラルネットワークは、前記ニューラルネットワークによって生成される前記合成画像と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像との間のオクルージョン損失関数の最小化に基づいて訓練される、請求項９～１１のいずれか１項に記載の画像処理システム。

【請求項13】

前記合成画像は、３次元ビデオ会議のために生成される新規のビューである、請求項９～１２のいずれか１項に記載の画像処理システム。

【請求項14】

命令を格納した非一時的な機械読取可能媒体であって、前記命令は、プロセッサによって実行されると、コンピューティングデバイスに、
複数の入力画像を受信することと、
前記複数の入力画像のうちの少なくとも１つにおける目標被写体に関連付けられた複数の深度画像を受信することと、
前記目標被写体の仮想ビューを生成するために、複数のビューパラメータを受信することと、
前記複数の深度画像上に幾何学的融合処理を用いてコンセンサス表面を再構成して、前記目標被写体の幾何学的に融合されたモデルを生成することと、
前記複数の入力と、前記複数のビューパラメータと、前記コンセンサス表面とに基づいて、複数の再投影画像を生成することと、
前記複数の深度画像と、前記複数のビューパラメータと、前記複数の再投影画像とをニューラルネットワークに提供することに応答して、前記ニューラルネットワークから、前記目標被写体の前記仮想ビューの画素に色を割当てるためのブレンド重みを受信することと、
前記ブレンド重みおよび前記仮想ビューに基づいて、前記ビューパラメータに従って合成画像を生成することとを行わせる、非一時的な機械読取可能媒体。

【請求項15】

前記ニューラルネットワークに、前記幾何学的に融合されたモデルの深度と前記複数の深度画像で観察される深度との差を提供することと、前記深度の差に基づいて、前記合成画像内の検出されたオクルージョンを補正することとをさらに含む、請求項１４に記載の非一時的な機械読取可能媒体。

【請求項16】

前記複数の入力画像は、前記複数の入力画像を取込んだ少なくとも１つのカメラに関連付けられた、予め定義されたビューパラメータに従って取込まれた色画像であり、かつ／または、
前記複数の深度画像は、前記複数の入力画像のうちの少なくとも１つを取込んだ少なくとも１つのカメラに関連付けられた深度マップ、少なくとも１つのオクルージョンマップ、および／もしくは、前記複数の入力画像のうちの少なくとも１つの取込みに対応するときに少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像と関連付けられた深度マップを含む、請求項１４または１５に記載の非一時的な機械読取可能媒体。

【請求項17】

前記ブレンド重みは、ブレンド色を前記合成画像の各画素に割当てるように構成される、請求項１４～１６のいずれか１項に記載の非一時的な機械読取可能媒体。

【請求項18】

前記ニューラルネットワークは、前記ニューラルネットワークによって生成される前記合成画像と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像との間のオクルージョン損失関数の最小化に基づいて訓練される、請求項１４～１７のいずれか１項に記載の非一時的な機械読取可能媒体。

【請求項19】

前記合成画像は、３次元ビデオ会議のための新規のビューである、請求項１４～１８のいずれか１項に記載の非一時的な機械読取可能媒体。

【請求項20】

前記ニューラルネットワークはさらに、多重解像度ブレンドを行って、前記合成画像内の画素に画素色を割当てるように構成され、前記多重解像度ブレンドは、前記ニューラルネットワークに対する入力として画像ピラミッドの提供をトリガして、前記ニューラルネットワークから、複数のスケールについての多重解像度ブレンド重みと、各スケールに関連付けられた不透明度値との受信をトリガする、請求項１４～１９のいずれか１項に記載の非一時的な機械読取可能媒体。

【請求項21】

前記命令は、前記プロセッサによって実行されると、前記コンピューティングデバイスに、請求項１～８のいずれか１項に記載の方法を実行させる、請求項１４～２０のいずれか１項に記載の非一時的な機械読取可能媒体。

【発明の詳細な説明】

【技術分野】

【0001】

技術分野
本記載は、一般に３次元（３Ｄ）コンテンツの合成に用いられる方法、装置およびアルゴリズムに関する。

【背景技術】

【0002】

背景
従来のオブジェクトレンダリングは一般に、リアルな画像を生成するために膨大な計算量を含む。オブジェクトが動いている場合、オブジェクトのリアルな画像を生成するために、計算量がさらに使用される場合がある。このようなレンダリングは、ニューラルネットワークを用いて、オブジェクトの外観をモデル化することができる。しかしながら、このようなモデルでは、余計なノイズおよび幾何学的なアーチファクトを有する画像が生成される可能性がある。

【発明の概要】

【0003】

概要
本明細書に記載されるシステムおよび方法は、入力画像および予め定義されたビューパラメータを用いて画像ベースのレンダリングを実行して、入力画像に基づいてビデオおよび／または画像の新規の（たとえば、見えない）ビューを生成（たとえば、合成）し得る。見えないビューの画像ベースのレンダリングでは、受信した入力画像にワーピング処理を利用することができる。一般に、ワーピング処理は、異なる入力ビューからの寄与がブレンドされるときにアーティファクトを生成し得る幾何学的不正確さおよびビュー、ならびに／または画像依存効果を引き起こし得る。本明細書に記載されるシステムおよび方法は、新規のビューの画像ベースのレンダリング用に画像コンテンツをブレンドするためにニューラルネットワーク（ＮＮ）を採用する深層学習法を用いる。特定のブレンド重みは、最終的な合成ビューに対する入力画像の寄与を結合するために、学習および使用される。ブレンド重みは、ビューの低減および／または画像依存効果ならびにより少ない数の画像アーティファクトを示す合成画像を生成する利点を提供するために生成される。

【0004】

ＮＮ、ワープ処理、および／またはブレンド重みを使用する際に生じる可能性がある技術的課題は、ＮＮ（たとえば、畳み込みニューラルネットワーク）が画像アーティファクトを避けるために適切なブレンド重みを選択できるような、十分に正確なジオメトリが欠如していることである。本明細書に記載されるシステムおよび方法は、入力画像のカラーおよび深度ビューの学習されたブレンドを使用し、および／または多重解像度ブレンド法を採用して、画像アーティファクトを低減した正確な画像を提供する画素色を選択することによって、この技術課題を解決し得る。たとえば、ブレンド重みは、所与のグラウンドトゥルース画像について適切および／または正確である可能性が低い投影画素色の重みを大きくしない一方で、グラウンドトゥルース画像に対して適切および正確である可能性が高い投影（たとえば、確率的に提供される）画素色を大きく重み付けるように適用されてもよい。

【0005】

このようなブレンド法を採用するために、本明細書に記載のシステムおよび方法は、特定のオンボードシステムカメラ（たとえば、カラーカメラ、赤外線カメラなど）に加えて、１つまたは複数のウィットネスカメラを利用し得る。ウィットネスカメラ（複数可）は、新規のビューを生成するために使用されるコンテンツを監視し得る。たとえば、ウィットネスカメラ（複数可）は、グラウンドトゥルースデータを提供するように機能し得る高解像度カメラでもよい。生成された新規のビューは、ウィットネスカメラ（複数可）から
受信された（たとえば、それによって取込まれた）グラウンドトゥルースデータと比較される。いくつかの実現例では、新規のビューの画像詳細は、新規のビューを生成する際にウィットネスカメラ（複数可）によって取込まれた画像詳細に基づいてスコアリング可能である。

【0006】

いくつかの実現例では、本明細書に記載されるシステムおよび方法では、訓練損失が考慮される。たとえば、システムは、合成ビューにおける時間的なちらつきアーティファクトを低減しつつ、高品質の新規ビュー合成を提供するために、損失を最小化するようにさまざまな取込まれたシーンを有するトレーニングデータを生成し得る。また、いくつかの実現例では、本明細書に記載されるシステムおよび方法は、合成された新規のビューにおけるアーティファクトを補正するためにオクルージョン推論を採用し得る。

【0007】

１つ以上のコンピュータからなるシステムは、動作中にシステムにアクションを実行させることが可能なソフトウェア、ファームウェア、ハードウェア、またはそれらの組合わせがシステムにインストールされていることによって、特定の動作またはアクションを実行するように構成可能である。１つまたは複数のコンピュータプログラムは、データ処理装置によって実行されると、この装置にアクションを実行させる命令を含むことによって、特定の動作またはアクションを実行するように構成可能である。

【0008】

ある一般的な態様において、複数の入力画像を受信し、複数の入力画像のうちの少なくとも１つにおける目標被写体に関連付けられた複数の深度画像を受信し、目標被写体の仮想ビューを生成するために、複数のビューパラメータを受信し、複数の入力画像と、複数のビューパラメータと、複数の深度画像のうちの少なくとも１つとに基づいて、複数のワープ画像を生成するためのシステムおよび方法について説明する。複数の深度画像、複数のビューパラメータ、および複数のワープ画像をニューラルネットワークに提供することに応答して、システムおよび方法は、ニューラルネットワークから、目標被写体の仮想ビューの画素に色を割当てるためにブレンド重みを受信し得る。システムおよび方法は、ブレンド重みおよび仮想ビューに基づいて、ビューパラメータに従って合成画像を生成し得る。

【0009】

これらおよび他の態様は、以下の１つもしくは複数を単独でまたは組合わせて含むことができる。いくつかの実現例では、システムおよび方法は、複数の深度画像上に幾何学的融合処理を用いてコンセンサス表面を再構成して、幾何学的に融合されたモデルを生成することと、複数の入力画像およびコンセンサス表面に基づいて複数の再投影画像を生成することとを備えてもよく、システムおよび方法は、複数の深度画像、複数のビューパラメータ、および複数の再投影画像をニューラルネットワークに提供することに応答して、ニューラルネットワークから、合成画像内の画素に色を割当てるための追加のブレンド重みを受信し得る。

【0010】

いくつかの実現例では、システムおよび方法はさらに、幾何学的に融合されたモデルの深度と複数の深度画像において観察された深度との差をニューラルネットワークに提供することを備えてもよく、方法はさらに、深度の差に基づいて、合成画像において検出されたオクルージョンを補正することを備える。いくつかの実現例では、複数の入力画像は、複数の入力画像を取込んだ少なくとも１つのカメラに関連付けられた、予め定義されたビューパラメータに従って取込まれた色画像であり、かつ／または、複数の深度画像は各々、複数の入力画像のうちの少なくとも１つを取込んだ少なくとも１つのカメラに関連付けられた深度マップ、少なくとも１つのオクルージョンマップ、および／または、複数の入力画像のうちの少なくとも１つの取込みに対応するときに少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像に関連付けられた深度マップを含む。いくつかの実現例では、ブレンド重みは、ブレンドされた色を合成画像の各画素に割当
てるように構成される。

【0011】

いくつかの実現例では、ニューラルネットワークは、ニューラルネットワークによって生成される合成画像と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像との間のオクルージョン損失関数を最小化することに基づいて、訓練される。いくつかの実現例では、合成画像は、３次元ビデオ会議のために生成された目標被写体の未取込みビューである。

【0012】

いくつかの実現例では、複数の入力画像と、複数のビューパラメータと、複数の深度画像のうちの少なくとも１つとに基づいて複数のワープ画像を生成することは、複数の深度画像の少なくとも１つを用いて、複数の入力画像のうちの少なくとも１つの画像特徴の少なくとも一部を含む未取込みビューに対する、複数の入力画像に関連付けられた色の候補投影を判断することを含む。

【0013】

別の一般的な態様では、特に、先行する請求項のいずれか１項に記載の方法を実行するための画像処理システムが記載される。画像処理システムは、少なくとも１つのプロセッサと、実行されると、システムに動作を行わせる命令を格納したメモリとを備えてもよく、動作は、画像処理システムによって取込まれた複数の入力画像を受信することと、画像処理システムによって取込まれた複数の深度画像を受信することと、複数の入力画像のうちの少なくとも１つに関連付けられた未取込みビューに関連付けられた複数のビューパラメータを受信することと、複数の入力画像と、複数のビューパラメータと、複数の深度画像のうちの少なくとも１つとに基づいて、複数のワープ画像を生成することとを含む。複数の深度画像、複数のビューパラメータ、および複数のワープ画像をニューラルネットワークに提供することに応答して、システムは、ニューラルネットワークから、未取込みビューの画素に色を割当てるためにブレンド重みを受信することを含んでもよい。システムはさらに、ブレンド重みに従って合成画像を生成することを含んでもよく、合成画像は、未取込みビューに対応する。

【0014】

これらおよび他の態様は、以下の１つもしくは複数を単独でまたは組合わせて含み得る。いくつかの実現例では、複数の入力画像は、画像処理システムに関連付けられた、予め定義されたビューパラメータに従って画像処理システムによって取込まれる色画像であり、かつ／または、複数の深度画像は、複数の入力画像のうちの少なくとも１つを取込んだ少なくとも１つのカメラに関連付けられた深度マップ、少なくとも１つのオクルージョンマップ、および／または画像処理システムのウィットネスカメラに関連付けられた深度マップを含む。

【0015】

【0016】

他の一般的な態様では、非一時的な機械読取可能媒体は、プロセッサによって実行されると、コンピューティングデバイスに、複数の入力画像を受信することと、複数の入力画像のうちの少なくとも１つにおける目標被写体に関連付けられた複数の深度画像を受信することと、目標被写体の仮想ビューを生成するために、複数のビューパラメータを受信することとを行わせる命令を格納すると説明される。また、非一時的な機械読取可能媒体は、複数の深度画像上に幾何学的融合処理を用いてコンセンサス表面を再構成して、目標被写体の幾何学的に融合されたモデルを生成することと、複数の入力と、複数のビューパラ
メータと、コンセンサス表面とに基づいて、複数の再投影画像を生成することとを行うように構成される。機械読取可能媒体は、複数の深度画像と、複数のビューパラメータと、複数の再投影画像とをニューラルネットワークに提供することに応答して、ニューラルネットワークから、目標被写体の仮想ビューの画素に色を割当てるためにブレンド重みを受信することと、ブレンド重みおよび仮想ビューに基づいて、ビューパラメータに従って合成画像を生成することとを行ってもよい。

【0017】

これらおよび他の態様は、以下の１つもしくは複数を単独でまたは組合わせて含むことができる。いくつかの実現例では、機械読取可能媒体はさらに、幾何学的に融合されたモデルの深度と、ニューラルネットワークに、複数の深度画像で観察される深度との差を提供することと、深度の差に基づいて、合成画像内の検出されたオクルージョンを補正することとを含む。いくつかの実現例では、複数の入力画像は、複数の入力画像を取込んだ少なくとも１つのカメラに関連付けられた、予め定義されたビューパラメータに従って取込まれた色画像であり、かつ／または、複数の深度画像は、複数の入力画像のうちの少なくとも１つを取込んだ少なくとも１つのカメラに関連付けられた深度マップ、少なくとも１つのオクルージョンマップ、および／もしくは、複数の入力画像のうちの少なくとも１つの取込みに対応するときに少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像と関連付けられた深度マップを含む。

【0018】

いくつかの実現例では、ブレンド重みは、ブレンドされた色を合成画像の各画素に割当てるように構成される。いくつかの実現例では、ニューラルネットワークは、ニューラルネットワークによって生成される合成画像と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像との間のオクルージョン損失関数を最小化することに基づいて、訓練される。いくつかの実現例において、合成画像は、３次元ビデオ会議のための新規のビューである。いくつかの実現例では、ニューラルネットワークはさらに、多重解像度ブレンドを行って、合成画像内の画素に画素色を割当てるように構成され、多重解像度ブレンドは、ニューラルネットワークに対する入力として画像ピラミッドの提供をトリガして、ニューラルネットワークから、複数のスケールについての多重解像度ブレンド重みと、各スケールに関連付けられた不透明度値との受信をトリガする。

【0019】

これらおよび他の態様は、以下の１つもしくは複数を、単独でまたは組合わせて含むことができる。いくつかの態様によれば、本明細書で請求される方法、システム、およびコンピュータ読取可能媒体は、以下の特徴（またはそれらの任意の組合わせ）の１つ以上（たとえば、すべて）を含み得る。

【0020】

説明される技術の実現は、ハードウェア、方法もしくはプロセス、またはコンピュータアクセス可能な媒体上のコンピュータソフトウェアを含み得る。１つ以上の実現例の詳細は、添付の図面および以下の説明に記載されている。他の特徴は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。

【図面の簡単な説明】

【0021】

【図1】本開示を通じて説明される実現例に係る、合成コンテンツを表示デバイスに表示するための３Ｄコンテンツシステムの例を示すブロック図である。

【図2】本開示を通じて説明される実現例に係る、ディスプレイ上でのレンダリングのためのコンテンツを合成するためのシステムの例を示すブロック図である。

【図3】本開示を通じて説明される実現例に係る、目標カメラ視点への入力画像の再投影の例を示すブロック図である。

【図4】本開示を通じて説明される実現例に係る、ディスプレイ上でのレンダリング用に合成コンテンツを生成するためにニューラルブレンド法を使用するためのフロー図の例を示すブロック図である。

【図5】本開示を通じて説明される実現例に係る、ブレンド重みを生成するためのフロー図の例を示すブロック図である。

【図6】本開示を通じて説明される実現例に係る、ニューラルブレンド法を用いて合成コンテンツを生成するプロセスの一例を示すフローチャートである。

【図7】本明細書に記載された技術と共に使用され得るコンピュータデバイスおよびモバイルコンピュータデバイスの例を示す図である。

【発明を実施するための形態】

【0022】

複数の図面において同様の記号は同様の要素を示す。
詳細な説明
本明細書では、画像コンテンツの新規の（たとえば、見えない）ビューの生成に関連付けられた例について説明する。本明細書で説明する例は、取込まれた動画コンテンツおよび／または画像コンテンツに基づいて、リアルタイムの新規のビューを合成（たとえば、生成）し得る。たとえば、画像ベースのレンダリング技術は、カラービューおよび深度ビューの学習されたブレンディングを用いて、動画コンテンツ（たとえば、オブジェクト、ユーザ、シーンコンテンツ、画像フレームなど）の新規のビューを合成するために使用されてもよい。

【0023】

本明細書に記載のシステムおよび方法は、従来のシステムよりもアーチファクトの少ない新規のカラー画像を生成し得る。たとえば、本明細書に記載のシステムおよび方法は、特定の画像ノイズおよび損失関数分析を補正して、不正確な深度およびオクルージョンの少ない新規の画像を生成してもよい。補正は、ニューラルネットワーク（ＮＮ）を採用して、可視性エラーを含む画像領域の検出および補正を学習することによって行われてもよい。さらに、ＮＮは、出力値がカラー入力画像から取出された再投影入力色の線形結合になるように制約するブレンディングアルゴリズムを用いて、新規のビューの色値の学習および予測が可能である。

【0024】

動作中、プロセスは、同じシーン（たとえば、シーン内の画像コンテンツ）の入力画像（たとえば、ビュー）からのカラー画像ストリームを組合わせることによって新規のビュー（たとえば、見えないカラー画像）を予測するために、多数の入力画像およびデータ（たとえば、目標ビューパラメータ）の取出し（たとえば、取込み、取得、受信など）を行ってもよい。カラー画像ストリームは、ニューラルレンダリング技術を採用してリアルタイム画像取込みシステム（たとえば、テレプレゼンスシステムなどの３Ｄビデオ会議システム）からの低品質の出力を強化するために、ＮＮに提供されてもよい。たとえば、新規のビューは、本明細書に記載されるシステムおよび技術によって生成される予測カラー画像でもよい。予測画像は、予測カラー画像に画素色を割当てるために、ＮＮに特定のブレンド重みを学習させるように、入力画像および結合カラー画像ストリーム（たとえば、および／またはそのような入力画像の再投影または再表現）をＮＮに提供することによって生成されてもよい。学習されたブレンド重みは、新規のカラー画像の画素色を生成するために適用され得る。また、学習されたブレンド重みは、１つ以上の提供される入力画像に示される画像コンテンツの他の新規のビューを生成するために使用されてもよい。

【0025】

いくつかの実現例では、本明細書に記載されるＮＮは、ユーザの画像を生成するために使用される特定のジオメトリ情報、および／またはユーザを取込むカメラから受信されたジオメトリ情報、および／またはユーザの画像に対して実行される画像処理から受信された情報のノイズ性によって生じるアーティファクトの誤投影を緩和するために、将来のユーザの動き（たとえば、運動）を予測するビュー依存効果をモデル化してもよい。

【0026】

いくつかの実現例では、本明細書に記載されるシステムおよび方法は、たとえば、出力カラー画像に監視を提供するために使用され得る別個のウィットネスカメラの視点におけ
る画像を予測するために、１つまたは複数のＮＮ（たとえば、Ｕ－ｎｅｔなどの畳み込みＮＮ）を訓練可能である。ウィットネスカメラは、本明細書に記載される画像取込みおよび／または処理システムのためのグラウンドトゥルースカメラとして機能してもよい。いくつかの実現例では、２つ以上のウィットネスカメラが、ＮＮのための訓練データとして使用されてもよい。２つ以上のウィットネスカメラは、１つまたは複数の対のウィットネスカメラを表してもよい。

【0027】

いくつかの実現例では、システムおよび方法は、取込まれた入力画像、所望の新規の出力ビューに関連付けられた予め定義されたパラメータ、ならびに／または深度差を含むオクルージョンマップおよび深度マップを利用し得る。深度差は、新規のビューに最も近い表面とカメラビューの表面との間のカラーカメラからのビューを用いて生成されてもよい。深度差は、生成された画像におけるオクルージョンビューおよび／または他の誤差を補正するために、オクルージョン推論用に使用されてもよい。いくつかの実現例では、深度マップは、ウィットネスカメラによって取込まれたビューからの深度マップを含んでもよい。

【0028】

いくつかの実現例では、本明細書に記載されるシステムおよび方法は、入力深度画像の幾何学的融合によってコンセンサス表面（たとえば、幾何学的表面）を再構成し得る。いくつかの実現例では、本明細書に記載されるシステムおよび方法は、個別に取込まれた深度画像および／またはコンセンサス表面などの深度情報を用いて、新規のビューへの入力色の投影を判断してもよい。

【0029】

いくつかの実現例では、本明細書に記載されるシステムおよび方法は、新規のビューにおける各画素にブレンドされた色を割当てることによって、新規のビュー（たとえば、カラー画像）のカラー画像を生成し得る。ブレンドカラーは、カラー入力画像と、本明細書に記載されるＮＮによって決定されるブレンド重みとを用いて決定されてもよい。いくつかの実現例では、ブレンド重みは、損失関数を通じて正規化される。いくつかの実現例では、新規のビューは、元の入力画像から新規のビューに投影された画像の１つまたは複数の画素色値の重み付けされた組合わせである。

【0030】

本明細書で使用されるように、新規の（たとえば、見えない）ビューは、カメラで取込まれた画像コンテンツおよび／または動画コンテンツの１つもしくは複数のフレームに基づいて解釈（たとえば、合成、補間、モデル化など）された画像コンテンツおよび／または動画コンテンツを含んでもよい。カメラで取込まれた画像コンテンツおよび／または動画コンテンツの解釈は、たとえば、取込まれた画像コンテンツおよび／または動画コンテンツの見えないバージョンおよびビュー（たとえば、ポーズ、表情、角度など）を作成するために、本明細書に記載された技術と組合わせて使用されてもよい。

【0031】

いくつかの実現例では、本明細書に記載の技術は、たとえば、多方向２Ｄもしくは３Ｄビデオ（たとえば、テレプレゼンス）会議で用いられる２Ｄまたは３Ｄディスプレイの画面上に表示するために正確かつリアルに見える画像を合成するために使用可能である。本明細書で説明する技術は、ビデオ会議におけるユーザの正確かつリアルなビュー（たとえば、画像コンテンツ、動画コンテンツ）の生成および表示を行うために使用可能である。従来、ビューには、重大な画像アーティファクトを生じることなく３Ｄで描写することが困難である可能性のある見えないビューが含まれる。

【0032】

本明細書に記載のシステムおよび方法は、１つ以上のウィットネスカメラおよびＮＮを用いて、マルチビューカラー入力画像およびノイズオクルージョンキューに基づいてブレンド重みを学習することにより、著しい画像アーティファクトを生じることなく新規のビューを生成するという利点を提供する。学習されたブレンド重みは、結果として得られる
出力画像において、オクルージョンおよびカラーアーティファクトが補正されると保証可能である。さらに、学習されたブレンド重みおよび１つ以上のウィットネスカメラは、入力画像において取込まれていない画像コンテンツが、入力画像における画像コンテンツに関連付けられた新規のビューを正確に予測するために使用可能であると保証するために、本明細書に記載のシステムによって使用可能である。たとえば、ブレンド重みはウィットネスカメラ画像に関して学習および評価されるため、元の入力画像において取込まれなかった、または表現されなかったシーンの画像部分について正確な予測を行うことができる。

【0033】

いくつかの実現例では、本明細書に記載された技術は、映画、ビデオ、ショートフィルム、ゲームコンテンツ、仮想および／もしくは拡張現実コンテンツ、または本明細書に記載された予測技術から利益を得ることができるユーザの画像を含む他のフォーマットにおける娯楽目的のために使用され得る。たとえば、本明細書に記載された技術は、画像および／または動画コンテンツにおいてレンダリングされる動くキャラクタに対する新規のビューを生成するために使用されてもよい。

【0034】

いくつかの実現例では、本明細書に記載される技術は、本明細書に記載される技術を用いて、オブジェクトを認識し、オブジェクトを再現し、かつ／または、そのようなオブジェクトから合成画像を生成するために画像処理を実行し得る仮想アシスタントデバイスもしくは他の知的エージェントによって使用され得る。

【0035】

図１は、本開示を通じて説明される実現例に係る、立体表示デバイスにコンテンツを表示するための３Ｄコンテンツシステム１００の例を示すブロック図である。３Ｄコンテンツシステム１００は、たとえば、３Ｄでビデオ会議通信（たとえば、テレプレゼンスセッション）を行うため、ならびに／または、拡張現実および／もしくは仮想現実コンテンツにアクセスするために、複数のユーザによって使用可能である。一般に、図１のシステムは、ビデオ会議セッション内で新規のビューを描写する正確な画像をレンダリングするために、２Ｄまたは３Ｄビデオ会議中にユーザおよび／もしくはシーンのビデオならびに／または画像を取込み、本明細書に記載のシステムおよび技術を用いて、取込んだコンテンツに基づいて新規のビューを生成するために使用され得る。このような技術は、たとえばビデオ会議内で、ユーザを正確に表すリアルタイムの新規のビューを生成および表示することができるので、システム１００は、本明細書に記載された技術の使用から利益を得ることができる。新規のビューは、たとえば、システム１００を介して、２Ｄおよび／または３Ｄで別のユーザに表示するために提供されてもよい。

【0036】

図１に示すように、３Ｄコンテンツシステム１００は、第１のユーザ１０２と第２のユーザ１０４とによってアクセスされる。たとえば、ユーザ１０２および１０４は、３Ｄテレプレゼンスセッションに参加するために３Ｄコンテンツシステム１００にアクセスし得る。このような例では、３Ｄコンテンツシステム１００は、ユーザ１０２および１０４の各々が、互いの非常にリアルで視覚的に一致した表現を見ることができ、ユーザが互いに物理的に存在するのと同様の態様でインタラクションすることを容易にすることができる。

【0037】

各ユーザ１０２，１０４は、対応する３Ｄシステムを用いて３Ｄテレプレゼンスセッションを行い得る。ここでは、ユーザ１０２は３Ｄシステム１０６にアクセスし、ユーザ１０４は３Ｄシステム１０８にアクセスする。３Ｄシステム１０６，１０８は、３Ｄ表示のための画像の取込み、画像情報の処理および提示、ならびに音声情報の処理および提示を含むが、これらに限定されない、３Ｄコンテンツに関する機能性を提供することができる。３Ｄシステム１０６および／または３Ｄシステム１０８は、１つのユニットとして統合されたセンシングデバイスの集合体を構成することができる。３Ｄシステム１０６および
／または３Ｄシステム１０８は、図２および図８を参照して説明される一部のまたはすべてのコンポーネントを含み得る。

【0038】

３Ｄコンテンツシステム１００は、１つもしくは複数の２Ｄまたは３Ｄディスプレイを含み得る。ここでは、３Ｄディスプレイ１１０が３Ｄシステム１０６のために描かれ、３Ｄディスプレイ１１２が３Ｄシステム１０８のために描かれる。３Ｄディスプレイ１１０，１１２は、それぞれのビューア（たとえば、ユーザ１０２またはユーザ１０４）のために立体視を提供するために、複数のタイプの３Ｄディスプレイ技術のいずれかを使用することができる。いくつかの実現例では、３Ｄディスプレイ１１０，１１２は、スタンドアロンユニット（たとえば、自己支持型または壁に吊り下げられたもの）でもよい。いくつかの実現例では、３Ｄディスプレイ１１０，１１２は、ウェアラブル技術（たとえば、コントローラ、ヘッドマウントディスプレイ、ＡＲメガネなど）を含み得る、または、ウェアラブル技術へのアクセスを有し得る。いくつかの実現例では、ディスプレイ１１０，１１２は、２Ｄディスプレイでもよい。

【0039】

一般に、ディスプレイ１１０，１１２は、ヘッドマウントディスプレイ（ＨＭＤ）デバイスを使用せずに、現実世界の物理オブジェクトの３Ｄ光学特性を近似する画像を提供することができる。本明細書に記載されるディスプレイは、レンチキュラーレンズ（たとえば、マイクロレンズアレイ）を収容するフラットパネルディスプレイ、および／または、ディスプレイに関連付けられた多数の異なる表示領域に画像をリダイレクトする視差バリアを含み得る。

【0040】

いくつかの実現例では、ディスプレイ１１０，１１２は、高解像度で眼鏡を必要としないレンチキュラー３Ｄディスプレイを含み得る。たとえば、ディスプレイ１１０，１１２は、ディスプレイのマイクロレンズに結合（たとえば、接着）されたガラススペーサーを有する複数のレンズ（たとえば、マイクロレンズ）を含むマイクロレンズアレイ（図示せず）を含み得る。マイクロレンズは、選択された視聴位置から、ディスプレイのユーザの左目が画素の第１のセットを見ることができ、ユーザの右目が画素の第２のセットを見ることができるように（たとえば、画素の第２のセットは、画素の第１のセットに対して相互に排他的である）設計されてもよい。

【0041】

いくつかのディスプレイの例では、そのようなディスプレイによって提供される画像コンテンツ（たとえば、ユーザ、オブジェクトなど）の３Ｄビューを提供する１つの場所が存在する場合がある。ユーザは、適切な視差、最小限の歪み、およびリアルな３Ｄ画像を体験するために、１つの場所に座っている場合がある。ユーザが異なる物理的な場所に移動する（または、頭の位置もしくは注視位置を変える）と、画像コンテンツ（たとえば、ユーザ、ユーザが着用するオブジェクト、および／または他のオブジェクト）は、よりリアルでなく、２Ｄで、および／または歪んで見え始める可能性がある。本明細書に記載されるシステムおよび技術は、ユーザが動き回ることができても、適切な視差、低い歪み率、およびリアルな３Ｄ画像をリアルタイムで確実に体験できるように、ディスプレイから投影される画像コンテンツを再構成し得る。したがって、本明細書に記載されるシステムおよび技術は、ユーザが３Ｄディスプレイを見ている間に生じるいかなるユーザの動きにも関係なく、ユーザに対してディスプレイ用の３Ｄ画像コンテンツおよびオブジェクトを維持し提供するという利点をもたらす。

【0042】

図１に示すように、３Ｄコンテンツシステム１００は、１つまたは複数のネットワークに接続することができる。ここでは、ネットワーク１１４が３Ｄシステム１０６および３Ｄシステム１０８に接続されている。ネットワーク１１４は、ほんの２例を挙げると、一般提供されているネットワーク（たとえば、インターネット）、またはプライベートネットワークであり得る。ネットワーク１１４は、有線、または無線、またはその２つの組合
わせであり得る。ネットワーク１１４は、１つ以上のサーバ（図示せず）を含むがこれらに限定されない、１つ以上の他のデバイスまたはシステムを含み得る、または利用し得る。

【0043】

３Ｄシステム１０６，１０８は、３Ｄ情報の取込み、処理、送信もしくは受信、および／または３Ｄコンテンツの提示に関連する複数のコンポーネントを含み得る。３Ｄシステム１０６，１０８は、３Ｄ表現に含まれる画像用の画像コンテンツならびに／またはビデオ（たとえば、可視および赤外線画像データ）を取込むための１つまたは複数のカメラを含み得る。図示された例では、３Ｄシステム１０６は、カメラ１１６および１１８を含む。たとえば、カメラ１１６および／またはカメラ１１８は基本的に、それぞれのカメラ１１６および／または１１８の対物レンズまたはレンズがハウジング内の１つまたは複数の開口部を介して画像コンテンツを取込むように、３Ｄシステム１０６のハウジング内に配置可能である。いくつかの実現例では、カメラ１１６および／または１１８は、スタンドアロンデバイスの形態（たとえば、３Ｄシステム１０６への有線および／または無線接続を有する）など、ハウジングから分離可能である。カメラ１１６および１１８は、ユーザ（たとえば、ユーザ１０２）の十分に代表的なビューを取込むように位置決めおよび／または方向を向けることができる。

【0044】

カメラ１１６および１１８は一般に、ユーザ１０２のための３Ｄディスプレイ１１０の視界を遮ることはないが、カメラ１１６および１１８の配置は任意に選択することが可能である。たとえば、カメラ１１６，１１８の一方は、ユーザ１０２の顔の上のどこかに配置することができ、他方は、顔の下のどこかに配置することができる。たとえば、カメラ１１６，１１８の一方をユーザ１０２の顔の右側のどこかに位置付け、他方を顔の左側のどこかに位置付けることができる。３Ｄシステム１０８は、類似の方法で、たとえば、カメラ１２０および１２２を含み得る。追加のカメラも可能である。たとえば、第３のカメラを、ディスプレイ１１０の近くまたは背後に配置してもよい。

【0045】

いくつかの実現例では、３Ｄシステム１０６，１０８は、１つまたは複数のウィットネスカメラ１１９，１２１を含み得る。ウィットネスカメラ１１９，１２１は、グラウンドトゥルース画像を表してもよい高品質の画像（たとえば、ウィットネスカメラ画像１３２）を取込むために使用されてもよい。ウィットネスカメラ１１９および／またはカメラ１２１によって取込まれた画像は、新規のビューを生成し、損失およびそのような損失の補正を計算するときに比較として使用されるように、本明細書に記載される技術と共に使用されてもよい。一般に、ウィットネスカメラ１１９，１２１によって取込まれた画像は、カメラ１１６，１１８，１２０，１２２，１２４および／または１２６、ならびにそのようなカメラおよび／またはカメラポッドの組合わせによって取込まれた他の画像（たとえば、フレーム）のうちの対応する１つと実質的に同じ瞬間に取込まれてもよい。いくつかの実現例では、ウィットネスカメラ画像１３４は、新規のビューを生成するために、１つまたは複数のＮＮに対する訓練データとして取込まれ、使用されてもよい。

【0046】

いくつかの実現例では、３Ｄシステム１０６，１０８は、３Ｄ表現で使用される深度データを取込むために、１つまたは複数の深度センサを含み得る。そのような深度センサは、３Ｄディスプレイ上でシーンを正しく表現するために、３Ｄシステム１０６および／または１０８によって取込まれたシーンを特徴付けるために使用される３Ｄコンテンツシステム１００内の深度取込みコンポーネントの一部と考えることができる。さらに、システムは、３Ｄ表現が視聴者の現在の視点に対応する外観でレンダリングされ得るように、視聴者の頭の位置および向きを追跡することができる。ここで、３Ｄシステム１０６は深度センサ１２４を含み、これはまた、赤外線カメラを表し得る。類似の態様で、３Ｄシステム１０８は、深度センサ１２６を含み得る。深度データを生成するために、複数のタイプの深度知覚または深度取込みのいずれかを使用可能である。

【0047】

いくつかの実現例では、各カメラ１１６，１１８，１１９および１２４は、ポッド内の複数のカメラを表し得る。たとえば、深度センサ１２４は、カメラポッドにおいてカメラ１１６および／またはカメラ１１８と一緒に収容されてもよい。いくつかの実現例では、３つ以上のカメラポッドがディスプレイ１１０の周囲および／または背後に配置されてもよく、各ポッドは、カメラ１２４（たとえば、深度センサ／カメラ）、および１つ以上のカメラ１１６，１１８を含んでもよい。同様に、３つ以上のカメラポッドがディスプレイ１１２の周囲および／または背後に配置されてもよく、各ポッドは、カメラ１２６（たとえば、深度センサ／カメラ）、および１つ以上のカメラ１２０，１２２を含んでもよい。

【0048】

システム１０６の動作中、アシストステレオ深度取込みが実行されてもよい。シーンは、光のドットを用いて照射することができ、ステレオマッチングは、たとえば、２つのそれぞれのカメラ間で実行することができる。このような照射は、選択された波長または波長範囲の波を用いて行うことができる。たとえば、赤外線（ＩＲ）光を使用することができる。深度データは、深度センサ（たとえば、深度センサ１２４）とシーン内のオブジェクトとの間の距離を反映する、シーンに関する任意の情報を含み得る、またはこれに基づき得る。深度データは、シーン内のオブジェクトに対応する画像内のコンテンツについて、オブジェクトまでの距離（または深度）を反映する。たとえば、カメラ（複数可）と深度センサとの間の空間的関係は既知であってもよく、カメラ（複数可）からの画像を深度センサからの信号と相関させて、画像の深度データを生成するために使用することが可能である。

【0049】

３Ｄコンテンツシステム１００によって取込まれた画像は、加工され、その後、３Ｄ表現として表示することができる。図１の例に図示されているように、ユーザ１０４の３Ｄ画像が、３Ｄディスプレイ１１０に提示される。このように、ユーザ１０２は、（たとえば、ユーザの）３Ｄ画像１０４’を、ユーザ１０２から離れて位置する可能性のあるユーザ１０４の３Ｄ表現として知覚することができる。同様に、３Ｄ画像１０２’が、３Ｄディスプレイ１１２上に提示される。このように、ユーザ１０４は、３Ｄ画像１０２’をユーザ１０２の３Ｄ表現として知覚することができる。

【0050】

３Ｄコンテンツシステム１００は、参加者（たとえば、ユーザ１０２，１０４）が、互いにおよび／または他者との音声通信に参加することを可能にし得る。いくつかの実現例では、３Ｄシステム１０６は、スピーカおよびマイクロフォン（図示せず）を含む。たとえば、３Ｄシステム１０８は、同様に、スピーカおよびマイクロフォンを含み得る。このように、３Ｄコンテンツシステム１００は、ユーザ１０２および１０４が互いにおよび／または他者との３Ｄテレプレゼンスセッションに参加することを可能にし得る。一般に、本明細書に記載されたシステムおよび技術は、システム１００と共に機能して、システム１００のユーザ間で表示するための画像コンテンツおよび／または動画コンテンツを生成し得る。

【0051】

システム１００の動作中、一組の入力画像１３２が、カメラ１１６，１１８，１１９，１２４ならびに／または１２０，１２１，１２２，および１２６によって取込まれ得る。入力画像は、たとえば、ウィットネスカメラ画像１３４およびＲＧＢカラー画像１３６を含んでもよい。いくつかの実現例では、システム１００はまた、深度画像１３８を生成および／または他の態様では取得してもよい。一例では、深度画像１３８は、上述したように、ＩＲカメラから取得された一対のＩＲ画像から１つ以上のステレオ計算を実行することによって生成されてもよい。入力画像１３２は、入力画像（複数可）からの再投影色の線形結合である出力画像を予測するための基礎として使用されてもよい。いくつかの実現例では、入力画像１３２は、既知の（たとえば、予め定められた、予め定義された）ビューパラメータで取込まれた再投影カラー画像（たとえば、赤・緑・青（ＲＧＢ））を表す
２つ以上のカラー画像を含んでもよい。いくつかの実現例では、入力画像１３２は、既知のビューパラメータで計算された（たとえば、生成された）１つまたは複数の深度画像１３８も含む。入力画像１３２は、特定のカメラパラメータ、ビューパラメータ、および／またはＮＮブレンディングアルゴリズム１４０と組合わせて使用されて、ディスプレイ１１０および／または１１２に表示するための新規のビューを生成し得る。

【0052】

図２は、本開示を通じて説明される実現例に係る、ディスプレイ上でレンダリングするためのコンテンツを合成するためのシステムの例を示すブロック図である。システム２００は、本明細書で説明される１つ以上の実現例として機能する、またはその中に含まれることが可能であり、かつ／または、本明細書で説明される画像コンテンツの合成、処理、モデル化、もしくは表現の１つ以上の例の動作（複数可）を実行するために使用可能である。全体的なシステム２００および／またはその個々の構成要素の１つ以上は、本明細書に記載された１つ以上の例に従って実現可能である。

【0053】

システム２００は、１つまたは複数の３Ｄシステム２０２を含んでもよい。図示された例では、３Ｄシステム２０２Ａ，２０２Ｂ～２０２Ｎが示され、インデックスＮは任意の数を示す。３Ｄシステム２０２は、２Ｄまたは３Ｄ表現のための視覚および音声情報の取込みを提供することができ、処理のために２Ｄまたは３Ｄ情報を転送することができる。そのような情報は、シーンの画像、シーンに関する深度データ、画像取込みに関連付けられたパラメータ、および／またはシーンからの音声を含み得る。２Ｄ／３Ｄシステム２０２は、システム１０６および１０８ならびに２Ｄ／３Ｄディスプレイ１１０および１１２（図１）として機能することが可能であり、またはその中に含まれることが可能である。システム２０２Ｂおよび２０２Ｎは、システム２０２Ａで図示されているのと同じモジュールを図示していないが、システム２０２Ａ内の各モジュールは、システム２０２Ｂおよび２０２Ｎにも存在し得る。

【0054】

システム２００は、カメラ２０４で示されるように、複数のカメラを含んでもよい。一般的なデジタルカメラで使用される種類の画像センサなど、任意の種類の光感知技術を画像の取込みに使用することができる。カメラ２０４は、同じタイプでも、異なるタイプでもよい。カメラ位置は、たとえば、システム１０６などの３Ｄシステム上の任意の位置内に配置することができる。いくつかの実現例では、各システム２０２Ａ，２０２Ｂおよび２０２Ｎは、それぞれが深度カメラ（たとえば、深度センサ２０６、および／または、そのコンテンツがステレオアルゴリズムを用いて解析されて深度画像を推測するＩＲカメラの１つ以上の対）ならびに１つ以上のカラーカメラを含む３つ以上のカメラポッドを含む。いくつかの実現例では、システム２０２Ａ，２０２Ｂおよび２０２Ｎは、新規のビューを生成するとき、および／または、たとえばニューラルネットワークを訓練するために、グラウンドトゥルース画像として使用される画像を取込んでもよい１つまたは複数のウィットネスカメラ（図示せず）も含む。

【0055】

システム２０２Ａは、深度センサ２０６を含む。いくつかの実現例では、深度センサ２０６は、ＩＲ信号をシーンに伝搬し、応答する信号を検出することで動作する。たとえば、深度センサ２０６は、ビーム１２８Ａおよび／もしくは１２８Ｂならびに／または１３０Ａおよび／もしくは１３０Ｂを、生成および／または検出することができる。いくつかの実現例では、深度センサ２０６は、オクルージョンマップを計算するために使用され得る。システム２０２Ａはまた、少なくとも１つのマイクロフォン２０８およびスピーカ２１０を含む。いくつかの実現例では、マイクロフォン２０８およびスピーカ２１０は、システム１０６の一部でもよい。

【0056】

システム２０２はさらに、３Ｄ画像を提示可能な３Ｄディスプレイ２１２を含む。いくつかの実現例では、３Ｄディスプレイ２１２はスタンドアロンディスプレイとすることが
でき、いくつかの他の実現例では、３Ｄディスプレイ２１２は、ＡＲ眼鏡およびヘッドマウントディスプレイ装置などに統合され得る。いくつかの実現例では、３Ｄディスプレイ２１２は、視差バリア技術を用いて動作する。たとえば、視差バリアは、スクリーンと視聴者の間に配置される、基本的に非透過性の材料（たとえば、不透明フィルム）の平行な垂直ストライプを含み得る。視聴者のそれぞれの目の間の視差のために、スクリーンの異なる部分（たとえば、異なる画素）は、それぞれ左目および右目によって見られる。いくつかの実現例では、３Ｄディスプレイ２１２は、レンチキュラーレンズを用いて動作する。たとえば、レンズの交互の列をスクリーンの前に配設することができ、列はそれぞれ、スクリーンからの光を視聴者の左目および右目に向ける。

【0057】

システム２００は、データ処理、データモデル化、データ調整、および／またはデータ送信の特定のタスクを実行可能なコンピューティングシステム２１４を含み得る。いくつかの実現例では、コンピューティングシステム２１４はまた、画像を生成し、重みをブレンドし、ニューラル処理タスクを実行し得る。いくつかの実現例では、コンピューティングシステム２１４は、画像処理システムである。コンピューティングシステム２１４および／またはそのコンポーネントは、図８を参照して説明される一部のまたはすべてのコンポーネントを含み得る。

【0058】

コンピューティングシステム２１４は、２Ｄおよび／または３Ｄ情報を生成し得る画像プロセッサ２１６を含む。たとえば、画像プロセッサ２１６は、１つ以上の入力画像１３２および／またはビューパラメータ２１８を受信（たとえば、取得）してもよく、画像ワープエンジン２２０、ブレンド重み生成器２２２、および／またはＮＮ２２４によってさらに処理するために画像コンテンツを生成してもよい。入力画像１３２は、取込まれたカラー（たとえば、ＲＧＢ，ＹＵＶ，ＣＭＹＫ，ＣＩＥ，ＲＹＢ）画像を含んでもよい。

【0059】

ビューパラメータ２１８は、特定の入力画像１３２の取込みに関連付けられた、および／または生成（たとえば、合成）される画像の取込みに関連付けられたカメラパラメータを含んでもよい。一般に、ビューパラメータ２１８は、カメラモデル近似を表し得る。ビューパラメータ２１８は、ビュー方向、ポーズ、カメラ視点、レンズ歪み、ならびに／またはカメラの固有および外来パラメータのいずれかまたは全てを含んでもよい。

【0060】

画像プロセッサ２１６はまた、オクルージョンマップ２２６、深度マップ２２８、ＵＶマップ２３０、目標ビューパラメータ２３２、損失関数２３４、およびメッシュプロキシジオメトリ２３６を含む（ならびに／または生成する、ならびに／または受信する）。

【0061】

オクルージョンマップ２２６は、目標視点に最も近いと判断された表面点と、表面を取込んでいるカメラとの間の符号付き距離を符号化してもよい。正の値は、点がビューから遮られていることを示し得る。したがって、システム２００は、取込まれた画像コンテンツに基づいて新しいまたは新規のビューを生成するときにそのような遮られた画像コンテンツが正確な再生データを提供しないため、ブレンド重み２４２を決定するときに正の値の距離を使用しないようにブレンド重み生成器２２２（およびＮＮ２２４）を構成してもよい。いくつかの実現例では、オクルージョンマップ２２６は、特定のビューで観察される深度と、そのビューに関連付けられた幾何学的に融合されたモデルの深度との差を評価するために使用され得る。

【0062】

深度マップ２２８は、選択された視点からの特定のシーンオブジェクトの表面の距離に関連する情報を含む１つ以上の画像を表す。いくつかの実現例では、深度マップ２２８は、３つのカラーカメラ画像および／または、合成された（たとえば、新規の）ビューにおける出力画素ごとに判断された、目標視点から最も近い表面点への深度の各々に対応する。

【0063】

ＵＶマップ２３０は、入力画像１３２内の可視コンテンツから生成され得る。特にＵＶマップ２３０は、合成画像（たとえば、新規のビュー）を生成するために使用され得る特徴を生成するようにテクスチャマッピングを実行するために、２Ｄ画像の３Ｄモデル表面への投影を表す。

【0064】

目標ビューパラメータ２３２は、新規の合成画像用のビューパラメータ（すなわち、目標被写体の仮想ビューを生成するためのビューパラメータ）を表す。目標ビューパラメータ２３２は、生成される（たとえば、合成される）画像に関連付けられた画像パラメータ、および／またはカメラパラメータを含んでもよい。目標ビューパラメータ２３２は、ビュー方向、ポーズおよびカメラ視点などを含んでもよい。

【0065】

損失関数２３４は、グラウンドトゥルース画像と予測画像との間の差を評価してもよく、予測画像は、フレームについて取込まれた可視光情報、フレームについて取込まれたＩＲ光、ならびに色および／または深度に関連付けられたブレンド重みの両方の組合わせに基づいて予測される。損失関数２３４は、いずれかまたは全ての画像エラー、画像穴および画像誤投影アーティファクトなどを記述する関数を含んでもよい。

【0066】

いくつかの実現例では、損失関数２３４は、ＮＮ内の層の活性化にマッピングされたセグメント化されたグラウンドトゥルース画像と、ＮＮ内の層の活性化にマッピングされたセグメント化された予測画像との間の再構成差に基づく再構成損失を含み得る。セグメント化されたグラウンドトゥルース画像は、背景画素を除去するためにグラウンドトゥルースマスクによってセグメント化されてもよく、セグメント化された予測画像は、背景画素を除去するために予測マスクによってセグメント化されてもよい。予測マスクは、フレームについて取込まれた可視光情報とフレームについて取込まれた赤外光との両方の組合わせに基づいて予測されてもよい。

【0067】

メッシュプロキシジオメトリ２３６は、Ｋ個のプロキシ｛Ｐ_ｉ，_１，・・・，Ｐ_ｉ，_Ｋ｝（すなわち、ＵＶ座標を有する矩形、三角形等のメッシュ）のセットを含む粗いジオメトリを表し得る。たとえば、２Ｄ画像は、メッシュプロキシジオメトリ２３６を生成するために、３Ｄプロキシモデル表面に投影され得る。プロキシは、特定の画像コンテンツの実際のジオメトリのバージョンを表現するように機能してもよい。動作中、システム２００は、形状、アルベド、およびビュー依存効果に加えて、粗いプロキシ表面（たとえば、メッシュプロキシジオメトリ２３６）のセットを用いて幾何構造を符号化するためにプロキシジオメトリの原理を使用する。

【0068】

画像ワープエンジン２２０は、１つ以上の入力画像（たとえば、フレーム、ストリーム）および／または他の取込み／特徴パラメータデータを受信し、特徴を保持した１つ以上の出力画像（たとえば、フレーム、ストリーム）を生成するように構成されてもよい。画像ワープエンジン２２０は、取込み／特徴パラメータデータを利用して、何らかの態様で入力画像を再構成してもよい。たとえば、画像ワープエンジン２２０は、入力画像から再構成された候補カラー画像を生成してもよく、再構成された画像内の各画素は、入力画像のうちの１つ以上に対応する新しい合成画像の候補画素である。

【0069】

いくつかの実現例では、画像ワープエンジン２２０は、小さなスケールの画像特徴を保存するために、画素レベルで入力画像に関数を実行してもよい。いくつかの実現例では、画像ワープエンジン２２０は、再構成された画像を生成するために、非線形または線形関数を用いてもよい。

【0070】

ブレンド重み生成器２２２は、ブレンディングアルゴリズム２３８と可視性スコア２４
０とを含む。ブレンディングアルゴリズム２３８は、ブレンド重み２４２を生成するために使用されてもよい。特に、ブレンディングアルゴリズム２３８は、ブレンド重み２４２を生成するために、ＮＮ２２４を介してアクセスされてもよい。ブレンド重み２４２は、結果として得られる（たとえば、最終的な、新規の）画像中の画素の側面に寄与するために使用され得る画像の特定の画素についての値を表す。ブレンディングアルゴリズム２３８は、深度画像の特定のセットおよび／または深度画像を表す融合ジオメトリをシェーディングするためのブレンド重みを計算するためのヒューリスティックに基づくアルゴリズムを含む。ブレンディングアルゴリズムは、新規のビュー（たとえば、新規の合成画像）についての出力ブレンド重みを学習するために、入力としてマルチビューカラー画像およびノイズの多いオクルージョンキューを受信する。いくつかの実現例では、目標ビューおよび入力画像に関する（たとえば、カメラポッド（複数可）から受信される）テクスチャおよび可視性スコア２４０も、ブレンディングアルゴリズム２３８への入力として提供され得る。

【0071】

可視性スコア２４０は、画像内の取込まれたオブジェクトの特定の画素または特徴の可視性を表すことができる。各可視性スコア２４０は、入力画像の特定のビューにおいて画像のどの部分（たとえば、画素、特徴など）が見えるかを示すために、単一のスカラー値を表し得る。たとえば、ユーザの顔の左端側がそのユーザの入力画像において見ることができない場合、ユーザの顔の左端側を表す画素の可視性スコア２４０は低く重み付けされる一方で、入力画像において見ることができ、および／または良好に取込まれる他の領域は高く重み付けされてもよい。新規のビュー（たとえば、画像）に対するブレンド重み２４２を生成する際に、可視性スコアが考慮されてもよい。

【0072】

ニューラルネットワーク２２４は、エンベッダネットワーク２４４と発生器ネットワーク２４６とを含む。エンベッダネットワーク２４４は、１つ以上の畳み込み層とダウンサンプリング層とを含む。生成器ネットワーク２４６は、１つ以上の畳み込み層とアップサンプリング層とを含む。

【0073】

インペインタ２５４は、特定の欠損コンテンツ部分を取り囲む画素の局所的近傍に基づいて、特定のテクスチャまたは画像から欠損し得るコンテンツ（たとえば、画素、領域など）を生成してもよい。いくつかの実現例では、インペインタ２５４は、ブレンド重み２４２を利用して、特定の画素、領域などに対してどのようにインペイントを行うかを決定してもよい。インペインタ２５４は、レンダリングのための特定の背景／前景マットを予測するために、ＮＮ２２４からの出力を利用してもよい。いくつかの実現例では、インペインタ２５４は、画像補正エンジン２５２と共に機能して、プル・プッシュ・ホール・ファイリング（ｐｕｌｌ－ｐｕｓｈｈｏｌｅ－ｆｉｌｉｎｇ）を行い得る。これは、ＮＮ２２４によって予測された出力カラーを生じない可能性のある欠損している深度情報の領域／画素を有する画像において実行され得る。画像補正エンジン２５２は、画像内の特定の領域／画素を色付けするためにインペインタをトリガしてもよい。

【0074】

ブレンド重み２４２が決定されると、システム２１４は、その重みをニューラルレンダラ２４８に提供してもよい。ニューラルレンダラ２４８は、たとえば、ＮＮ２２４（または別のＮＮ）を利用する、オブジェクト（たとえば、ユーザ）および／またはシーンの中間表現を生成してもよい。ニューラルレンダラ２４８は、たとえば、オブジェクト固有の畳み込みネットワークを用いて真の外観（たとえば、グラウンドトゥルース）と拡散再投影との差をモデル化することによって、ビュー依存効果を組込んでもよい。

【0075】

【数1】

【0076】

【数2】

【0077】

いくつかの実現例では、システム２１４は、多重解像度ブレンディングエンジン２５６を用いて、多重解像度ブレンディングを実行し得る。多重解像度ブレンディングエンジン２５６は、畳み込みニューラルネットワーク（たとえば、ＮＮ２２４／４１４）への入力として画像ピラミッドを採用してもよく、これによって、各スケールに関連付けられた不透明度値を有する複数のスケールでブレンド重みが生成される。動作中、多重解像度ブレンディングエンジン２５６は、２段階の、訓練されたエンドツーエンドの畳み込みネットワークプロセスを採用してもよい。エンジン２５６は、複数のソースカメラを利用してもよい。

【0078】

合成ビュー２５０は、本明細書に記載されるように、計算されたブレンド重み２４２に少なくとも部分的に基づいて、ディスプレイ（たとえば、ディスプレイ２１２）にアクセスするユーザに関連付けられた両目に対して適切な視差および視聴構成を有するコンテンツ（たとえば、ＶＲ／ＡＲオブジェクト、ユーザ、シーンなど）の３Ｄ立体視画像を表す。合成ビュー２５０の少なくとも一部は、ユーザがディスプレイを見ながら頭の位置を動かすたびに、および／または特定の画像がディスプレイ上で変化するたびに、システム２１４を用いて、ニューラルネットワーク（たとえば、ＮＮ２２４）からの出力に基づいて決定されてもよい。いくつかの実現例では、合成ビュー２５０は、ユーザの顔およびユーザの顔を取り囲むユーザの他の特徴を、ユーザの顔を取込むビュー内で表現する。いくつかの実現例では、合成ビュー２５０は、たとえば、テレプレゼンスシステム２０２Ａに関連付けられた１つまたは複数のカメラによって取込まれた視野全体を表す。

【0079】

いくつかの実現例では、システム２０２および２１４のプロセッサ（図示せず）は、グラフィックス処理ユニット（ＧＰＵ）を含んでもよい（またはそれと通信してもよい）。動作中、プロセッサは、メモリ、ストレージ、および他のプロセッサ（たとえば、ＣＰＵ
）を含んでもよい（または、それらへのアクセスを有してもよい）。グラフィックスおよび画像生成を容易にするために、プロセッサは、表示デバイス（たとえば、表示デバイス２１２）上に画像を表示するようにＧＰＵと通信してもよい。ＣＰＵおよびＧＰＵは、ＰＣＩ、ＡＧＰ、またはＰＣＩ－Ｅｘｐｒｅｓｓなどの高速バスを介して接続されてもよい。ＧＰＵは、ＨＤＭＩ（登録商標）、ＤＶＩ、またはＤｉｓｐｌａｙＰｏｒｔなどの別の高速インターフェイスを介してディスプレイに接続されてもよい。一般に、ＧＰＵは、画素形式で画像コンテンツをレンダリングしてもよい。表示デバイス２１２は、ＧＰＵから画像コンテンツを受信してもよく、表示画面上に画像コンテンツを表示してもよい。

【0080】

図２には描かれていないが、画像コンテンツを生成するために、特徴マップなどの追加のマップが１つまたは複数のＮＮ２２４に提供されてもよい。特徴マップは、画像を解析して画像の画素ごとに特徴を生成することによって生成されてもよい。そのような特徴は、特徴マップおよびテクスチャマップを生成するために使用されてもよく、これらは、ブレンド重み２４２の生成を支援するために、ブレンド重み生成器２２２および／またはＮＮ２２４に提供されてもよい。

【0081】

図３は、本開示を通じて説明される実現例に係る、目標カメラ視点への入力画像の再投影の例を示すブロック図である。システム２００は、たとえば、ＮＮへの入力画像として使用される画像の再投影を生成するために使用されてもよい。画像をワーピングすることは、（深度画像からの）融合された深度を用いて、カメラ視点をターゲットにする目標カメラ視点に取込まれた入力画像１３２を再投影することを含んでもよい。いくつかの実現例では、入力画像１３２は、既に再投影画像の形式である。いくつかの実現例では、画像ワープエンジン２２０はワーピングを実行する。

【0082】

たとえば、画像ワープエンジン２２０は、目標画像点ｘ３０２を光線に逆投影してもよい。次に、画像ワープエンジン２２０は、目標カメラ３０８から距離ｄで点Ｘ３０４を見つけてもよい。次に、画像ワープエンジン２２０は、Ｘを、ポッドカメラ３１０からの距離ｄ’であるポッド画像点ｘ’３０６に投影してもよい。以下の式［１］～［３］は、この計算を表している。

【0083】

【数3】

【0084】

次に、画像ワープエンジン２２０は、以下の式［４］および［５］で示されるように、ｘ’でテクスチャカメラ画像をバイリニア的にサンプリングしてもよい。

【0085】

【数4】

【0086】

図４は、本開示を通じて説明される実現例に係る、ディスプレイ上でレンダリングするための合成コンテンツを生成するためにニューラルブレンド法を使用するためのフロー図４００の例を示すブロック図である。図４００は、ニューラルネットワークを介してブレンディングアルゴリズムに提供されるデータ（たとえば、マルチビューカラー画像、ノイズの多いオクルージョンキュー、深度データなど）を生成してもよい。次いで、ニューラルネットワークは、出力ブレンド重みを学習し得る。

【0087】

本例では、多数の入力画像４０２を取得（たとえば、受信）してもよい。たとえば、システム２０２Ａは、多数の入力画像４０２（たとえば、画像フレーム、ビデオ）を取込んでもよい。入力画像４０２は、カラー画像でもよい。また、入力画像４０２は、入力画像と実質的に同時に取込まれた深度画像と関連付けられもよい。深度画像は、たとえば、赤外線カメラによって取込まれてもよい。

【0088】

コンピューティングシステム２１４は、入力画像４０２を、入力画像カラーおよび深度画像を用いて、再投影画像４０４にワープ（たとえば、再投影）させてもよい。たとえば、ワープエンジン２２０は、入力画像４０２を、所望の新規のビューを表す出力ビューに再投影してもよい。特に、ワープエンジン２２０は、入力画像４０２から色を取出し、入力画像に関連付けられた深度ビューを用いて出力ビューに色をワープさせてもよい。一般に、各入力画像は、単一の再投影ビューにワープされてもよい。したがって、４つの入力画像が取出される場合、ワープエンジン２２０は、各々が単一の入力画像に関連付けられた４つの再投影ビューを生成してもよい。再投影画像４０４は、新規の合成された出力画像内の画素について選択され得る候補色として機能する。入力画像４０２と実質的に同時に取込まれる深度ビューは、深度マップ４０６およびオクルージョンマップ４０８（深度マップ２２８およびオクルージョンマップ２２６と同様）を生成するために使用されてもよい。

【0089】

再投影画像４０４は、画素についての色の加重結合を表す加重和画像４１０を生成するために使用されてもよい。また、加重和画像４１０は、グラウンドトゥルース画像４１２を考慮してもよい。グラウンドトゥルース画像４１２は、１つ以上のウィットネスカメラによって取込まれてもよい。

【0090】

再投影画像４０４、深度マップ４０６、およびオクルージョンマップ４０８は、図４に示すＵ－Ｎｅｔ形状を有する畳み込みニューラルネットワークであるＮＮ４１４に提供されてもよい。当然のことながら、他のＮＮも可能である。ある非限定的な例では、ＮＮ４１４の入力は、３つのカラーＲＧＢ画像、オクルージョンマップ、および目標ビュー深度マップを含んでもよく、約１４個のチャネルを利用してもよい。

【0091】

また、いくつかの実現例では、多数のビューパラメータ４１５がＮＮ４１４に提供されてもよい。ビューパラメータ４１５は、所望の新規のビュー（たとえば、画像）に関連し得る。ビューパラメータ４１５は、ビュー方向、ポーズ、カメラ視点、レンズ歪み、および／またはカメラ（仮想もしくは実際のカメラ）の固有パラメータならびに外部パラメータのうちのいずれかまたは全てを含んでもよい。

【0092】

ＮＮ４１４は、正確な新規の出力画像を生成するために再投影画像４０４の色をどのように結合するかを決定するために、再投影画像４０４ごとにブレンド重み４１６を生成してもよい。再投影画像４０４は、深度画像４０６に従って、たとえば、入力画像４０２を新規のビューにワープさせることによって計算されてもよい。ＮＮ４１４は、ブレンド重み４１６および再投影画像４０４を用いて、たとえば、ブレンド重み４１６を用いて再投影画像４０４の少なくとも一部を互いにブレンドすることによって、ブレンドされたテクスチャ画像４１８を生成してもよい。ブレンドされたテクスチャ画像４１８は、入力画像４０２に関連付けられ再投影画像４０４に関連付けられる各カメラポッドに関連付けられた画像を生成するために使用されてもよい。本例では、３つのカメラポッドが、３つのカラー画像（たとえば、入力画像４０２）および３つの深度画像（たとえば、深度マップ４０６によって表される）を取込むために使用された。したがって、画像４２０によって示されるように、３つの対応する画像ビューが出力される。これによって、合成画像４２２で示すように、画像４１８および画像４２０を利用して、新規のビューを合成することが
できる。

【0093】

動作中、ＮＮ４１４は、ブレンド重み４１６を用いて再投影画像４０４に関連付けられた再投影色をどのように結合するかを決定し、正確な合成画像４２２を生成してもよい。ＮＮ４１４は、予め定義された出力ビューの空間上で学習することによって、ブレンド重みを決定してもよい。

【0094】

ＮＮ４１４のネットワークアーキテクチャは、すべての畳み込み層が同じパディング値および整流された線形単位活性化関数を使用するＵ－Ｎｅｔ形状のネットワークであるディープニューラルネットワークでもよい。出力は、３つの再投影画像４０４、出力重みが式［６］に従って生成される、カメラポッドごとのチャネルについてのブレンド重み４１６を含んでもよい。

【0095】

【数5】

【0096】

図４００は、学習損失を考慮して実施されてもよい。たとえば、再構成損失、ブレンドカラー画像に関する知覚損失および完全性損失が決定され、結果として得られる合成画像４２２を改善するために使用されてもよい。

【0097】

動作中、システム２００は、画素ごとの損失値を生成するためにいくつかの態様を利用してもよい。たとえば、テクスチャカメラｉの新規のビュー画像Ｉ_Ｎおよびニューラルブレンド重みＷ_ｉは、式［７］に示すように表現され得る。

【0098】

【数6】

【0099】

どの入力もＲＧＢ値を有さない無効な目標深度マスクは、Ｉ_Ｍａｓｋと表現され得る。
特に、損失関数の例としては、以下の式［８］で表現され得る。

【0100】

【数7】

【0101】

ｘ，ｙ画素座標ごとのネットワーク出力ブレンド重みについての完全性損失は、式［１０］に示すように表現され得る。

【0102】

【数8】

【0103】

ネットワーク上のオクルージョン損失は、式［１１］に示すように表現され得る。

【0104】

【数9】

【0105】

いくつかの実現例では、ＮＮ４１４は、ＮＮ４１４によって生成される合成画像４２２と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像４１２との間のオクルージョン損失関数（すなわち、式［８］）の最小化に基づいて訓練されてもよい。

【0106】

図５は、本開示を通じて説明される実現例に係る、ブレンド重みを生成するためのフロー図の例を示すブロック図である。本例は、たとえば、各入力ビューの画素を処理するために畳み込みＮＮ（たとえば、畳み込みＵ－Ｎｅｔ）を採用してもよい。提案された合成ビューの各画素を割当てるために、多層パーセプトロン（ＭＬＰ）を用いて、ブレンド重みを生成してもよい。ＭＬＰによって生成されたブレンド重みは、入力画像（複数可）／ビュー（複数可）からの特徴を組合わせるために使用可能である。

【0107】

いくつかの実現例では、ブレンド重みの生成は、多重解像度ブレンド法の使用を含み得る。多重解像度ブレンド法は、２段階の、訓練されたエンドツーエンドの畳み込みネットワーク処理を採用する。この技術は、多数のソースカメラを利用する。たとえば、システム２０２Ａは、第１のカメラポッド５０２、第２のカメラポッド５０４、および第３のカメラポッド５０６の各々から１つまたは複数の入力画像（たとえば、ＲＧＢカラー画像）を取込んでもよい。同様に、実質的に同時に、ポッド５０２～５０４の各々は、特定の入力画像に対応する深度画像を取込む（または計算する）ことができる。

【0108】

少なくとも３つのカラーソース入力画像および少なくとも３つのソース深度画像は、ビュー依存情報を組込む特徴マップを生成するために、畳み込みネットワーク（複数可）５０８Ａ，５０８Ｂおよび５０８Ｃ（たとえば、畳み込みＵ－Ｎｅｔ）に提供されてもよい。たとえば、１つ以上の特徴マップ（図示せず）は、特徴空間において入力画像の特徴を表してもよい。特に、入力画像／深度画像５０２～５０４の各々について、画像の抽出された特徴を用いて特徴マップ（たとえば、特徴マップ５１０Ａ，５１０Ｂおよび５１０Ｃ）が生成されてもよい。いくつかの実現例では、入力画像は、２枚のカラーソース画像と１枚の深度画像とを含んでもよい。このような例では、システム５００は、単一の深度画像を用いて、２枚のカラー入力画像の各々を出力ビューに再投影してもよい。

【0109】

特徴マップ５１０Ａ～５１０Ｃは、ＵＶマップ５１２Ａ，５１２Ｂおよび５１２Ｃを生成するために使用されてもよい。たとえば、ＵＶマップ５１２Ａ～Ｃは、特徴マップ５１０Ａ～５１０Ｃを用いて、入力画像５０２～５０４内の可視コンテンツから生成されてもよい。ＵＶマップ５１２Ａ～５１２Ｃは、テクスチャマッピングを実行して、合成画像（たとえば、新規のビュー）を生成するために使用され得る特徴を生成するために、２Ｄ画像の３Ｄモデル表面への投影を表す。出力されたニューラルテクスチャは、ソースカメラ画像座標のままである。

【0110】

それぞれの特徴マップ５１０Ａ～５１０Ｃは各々、それぞれのＵＶマップ５１２Ａ～５１２Ｃおよびウィットネスカメラパラメータ５１４と共にサンプリングされてもよい。たとえば、システム５００は、合成された新規の画像を生成するための目標カメラとしてウィットネスカメラを用いてもよい。ウィットネス（たとえば、目標）カメラパラメータ５１４は、予め定義されてもよい。それぞれのサンプリングされた特徴マップ５１０Ａ～５１０ＣおよびＵＶマップ５１２Ａ～Ｃは各々、パラメータ５１４と共に使用され、オクルージョンマップおよび深度マップ５１６と共にサンプリングされてもよい。サンプリングは、融合ジオメトリ（たとえば、メッシュプロキシジオメトリ２３６）から予め計算され
たＵＶマップ５１２Ａ～５１２Ｃを用いて各ニューラルテクスチャをワープする微分可能サンプリング層を含んでもよい。

【0111】

サンプリングされたコンテンツは、すべてのソースカメラビューからサンプリングされた特徴のオクルージョンマップ、深度マップなどを生成するために、画素ごとの多層パーセプトロン（ＭＬＰ）ＮＮ５１８によって使用され得る。マップから、ＭＬＰ５１８は、ブレンド重みのセット５２０を生成してもよい。たとえば、画素単位のＭＬＰ５１８マップは、ブレンド重み５２０のセットを生成するために使用可能な、任意の数のソースカメラビューからのサンプリングされた特徴を含んでもよい。そのようなブレンド重み５２０は、合成画像を生成するために使用され得る。

【0112】

いくつかの実現例では、本明細書に記載されるプロセスは、多重解像度ブレンド法を組込んでもよい。たとえば、多重解像度ブレンド法は、多重解像度ブレンディングエンジン２５６によって実行されてもよく、たとえば、畳み込みニューラルネットワーク（たとえば、ＮＮ２２４／４１４）への入力として画像ピラミッドを採用してもよく、これによって、各スケールに関連付けられた不透明度値を有する複数のスケールにおけるブレンド重みが生成される。

【0113】

各スケールでの出力ブレンド重みは、そのスケールでの入力された再投影カラー画像を用いて出力カラー画像を構成するために用いられて、出力画像ピラミッドを形成する。次に、このピラミッドの各レベルは、関連付けられた不透明度値によって重み付けされ、元のスケールにアップサンプリングされる。そして、得られた画像のセットを合計して、最終的な出力画像を構成する。これは、入力された再投影画像に（ジオメトリの欠落による）小さな穴が存在する場合、ダウンスケーリングとアップスケーリング処理により、欠落した領域を隣接する画素値で埋めることができるために有利である。また、この手順では、従来のブレンド法よりも視覚的に魅力的な、よりソフトなシルエットを生成し得る。

【0114】

いくつかの実現例では、入力ピラミッドは、再投影画像のバイリニア再投影色をダウンサンプリングし、ダウンサンプリングされた有効深度マスク（たとえば、マップ）によって逆事前乗算（ｕｎ－ｐｒｅ－ｍｕｌｔｉｐｌｙｉｎｇ）し、事前に定義された（たとえば、オリジナルの）解像度に戻るようにアップサンプリングし、アップサンプリングされた有効深度マスクによって逆事前乗算することによって、構築可能である。レイヤーごとに、フロー図は、出力レイヤーデコーダ（ブレンド重みおよびアルファ用）を追加し、事前定義された（たとえば、オリジナルの）解像度にアップサンプリングし、最高解像度で追加の背景アルファを調整し、ソフトマックス関数を用いてアルファを正規化し、再投影色および背景とブレンドしてもよい。

【0115】

多重解像度ブレンド法は、２段階の訓練されたエンドツーエンド畳み込みネットワーク処理を採用する。段階ごとに、多重解像度ブレンド法は、（たとえば、ブレンド重みおよびアルファ損失について）出力層デコーダを追加し得る。この技術では、ＲＧＢ画像が計算され、損失が追加され、アルファが乗算され、連結されて、候補ＲＧＢ画像が決定されてもよい。候補ＲＧＢ画像は、アップサンプリングされてもよい。出力画像（たとえば、新規のビュー／同期画像）は、損失を考慮した、アップサンプリングされた候補画像を用いて生成されてもよい。

【0116】

動作中、本技術は、多数のソースカメラを利用する。たとえば、システム２０２Ａは、第１のカメラポッド５０２、第２のカメラポッド５０４および第３のカメラポッド５０６の各々から、１つまたは複数の入力画像（たとえば、ＲＧＢカラー画像）を取込み得る。同様に、実質的に同時に、ポッド５０２～５０４は各々、特定の入力画像に対応する深度画像を取込むことができる。

【0117】

多重解像度ブレンディングは、出力視点がどのように移動するかにかかわらず、シーンマップ上の同じ３Ｄ点を特徴マップの同じ点の位置に対して使用し得る。これによって確実に、２次元の畳み込みが行われず、入力特徴が固定されているため、出力にはその点の位置に対する同じブレンド重みが含まれる。

【0118】

図６は、本開示を通じて説明される実現例に係る、ニューラルブレンド法を用いて合成コンテンツを生成するプロセス６００の一例を図示したフローチャートである。プロセス６００は、図１および図２のシステム１００および／または２００、ならびにシステム５００および／または８００の実現例に関して説明されているが、この方法は、他の構成を有するシステムによって実現できることが理解されるであろう。一般に、システム２０２および／またはコンピューティングシステム２１４上の１つまたは複数のプロセッサおよびメモリは、プロセス６００を実施するために使用され得る。

【0119】

高レベルでは、プロセス６００は、カラー入力画像、入力画像に対応する深度画像、および入力画像内のコンテンツの少なくとも一部に対応する所望の新規のビューに関連付けられたビューパラメータを利用し得る。プロセス６００は、上記の要素または上記の要素のバージョンをニューラルネットワークに提供して、所望の新規のビューの特定の画素色および深度を決定するためのブレンド重みを受信してもよい。ビューは、新規の出力画像を生成するためにブレンド重みと共に使用されてもよい。

【0120】

ブロック６０２において、プロセス６００は、複数の入力画像を受信することを含んでもよい。たとえば、システム２０２Ａ（または他の画像処理システム）は、カメラ（たとえば、カメラ２０４）を用いて、２つ以上のカメラポッドから入力画像を取込んでもよい。一般に、複数の入力画像は、予め定義されたビューパラメータに従って取込まれたカラー画像である。しかしながら、いくつかの実現例では、複数の入力画像は、単一色（たとえば、セピア、グレースケール、または他のグラデーションカラー）のグラデーション画像でもよい。予め定義されたビューパラメータは、特定の入力画像１３２（たとえば、入力画像４０２）の取込みに関連付けられたカメラパラメータ、および／または、生成される（たとえば、合成される）画像の取込みに関連付けられたカメラパラメータを含んでもよい。いくつかの実現例では、ビューパラメータは、ビュー方向、ポーズ、カメラ視点、レンズ歪み、ならびに／またはカメラの固有パラメータおよび外部パラメータのうちのいずれかまたは全てを含んでもよい。いくつかの実現例では、複数の入力画像は、画像のフレーム内に取込まれた多数の目標被写体を含んでもよい。目標被写体は、ユーザ、背景、前景、物理オブジェクト、仮想オブジェクト、ジェスチャ、ヘアスタイル、ウェアラブルデバイスなどを含んでもよい。

【0121】

ブロック６０４において、プロセス６００は、複数の入力画像のうちの少なくとも１つにおける目標被写体に関連付けられた複数の深度画像を受信することを含んでもよい。たとえば、入力画像（たとえば、ＲＧＢカラー画像１３６）の取込みと実質的に同時に、システム２０２Ａは深度画像１３８を取込んでもよい。深度画像は、複数の入力画像のうちの１つまたは複数においても取込まれている目標被写体を取込んでもよい。深度画像は各々、複数の入力画像１３２のうちの少なくとも１つを取込んだ少なくとも１つのカメラ２０４に関連付けられた深度マップ（たとえば、マップ２２８）、少なくとも１つのオクルージョンマップ２２６、および複数の入力画像のうちの少なくとも１つの取込みに対応する時間に少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像に（たとえば、目標ビューパラメータ２３２を介して）関連付けられた深度マップを含んでもよい。要するに、システム２００は、目標ビューのためのブレンド重み２４２を生成する際に、入力画像の深度と、ウィットネスカメラの所望の目標ビュー（または他の決定された目標ビュー）の深度とを考慮してもよい。

【0122】

ブロック６０６において、プロセス６００は、目標被写体の仮想ビューを生成するための複数のビューパラメータを受信することを含んでもよい。たとえば、ビューパラメータは、所望の新規のビュー（たとえば、カメラによって以前に取込まれていない新規の（たとえば、仮想）ビューに関する新規の合成画像）に関連し得る。ビューパラメータは、たとえば、カラー画像１３６および深度画像１３８と実質的に同時にコンテンツを取込むウィットネスカメラの目標パラメータを含んでもよい。ビューパラメータは、予め定義されたレンズパラメータ、視線方向、ポーズ、ならびに新規のビューを取込むように構成されたカメラの特定の固有パラメータおよび／または外部パラメータを含んでもよい。

【0123】

ブロック６０８において、プロセス６００は、複数の入力画像と、複数のビューパラメータと、複数の深度画像のうちの少なくとも１つとに基づいて、複数のワープ画像を生成することを含んでもよい。たとえば、画像ワープエンジン２２０は、入力画像１３２を当該画像１３２の再投影バージョンに再投影することによって、入力画像１３２を用いてワープ画像を生成してもよい。ワーピングは、深度情報（たとえば、個々の深度画像または幾何学的コンセンサス表面のいずれか）を用いて、新規のビューへの入力画像１３２の入力色の投影を判断するために実行されてもよい。ワーピングは、１つ以上のオリジナルの入力ビューから色を取得し、深度画像（たとえば、深度マップ４０６およびオクルージョンマップ４０８）を用いて新規のビュー（たとえば、画像）の色を操作することによって、再投影画像（たとえば、画像４０４）を生成してもよい。各入力画像は、別個の再投影を生成するために使用されてもよい。再投影画像（たとえば、画像４０４）は、新規の合成画像で使用され得る候補色の画素を表してもよい。

【0124】

いくつかの実現例では、プロセス６００は、複数の深度画像のうちの少なくとも１つ（たとえば、深度マップ４０６およびオクルージョンマップ４０８）を用いて、複数の入力画像４０２に関連付けられた色の未取込みビュー（すなわち、新規のビュー／画像、仮想ビュー／画像）への候補投影を決定することによって、複数の入力画像と、複数のビューパラメータと、複数の深度画像のうちの少なくとも１つとに基づいて、複数のワープ画像を生成することも含んでもよい。未取込みビューは、複数の入力画像のうちの少なくとも１つの画像特徴の少なくとも一部を含んでもよい。たとえば、入力画像がオブジェクトを含む場合、未取込みビューは、オブジェクトの少なくとも一部、色、画素などを考慮してもよい。

【0125】

ブロック６１０において、プロセス６００は、ニューラルネットワーク（たとえば、ＮＮ２２４、ＮＮ４１４、ＮＮ５０８Ａ～Ｃ）から、目標被写体（たとえば、ユーザ１０４’）の仮想ビュー（たとえば、見えない画像／未取込みビュー）の画素に色を割当てるためにブレンド重み４１６を受信することを含み得る。いくつかの実現例では、目標被写体は、複数の入力画像４０２の少なくとも１つのフレームで取込まれた少なくとも１つの要素を含んでもよい、または、それに基づいてもよい。ブレンド重み４１６は、複数の深度画像（たとえば、深度画像１３８および／または深度マップ４０６および／またはオクルージョンマップ４０８）、複数のビューパラメータ４１５、ならびに複数のワープ画像（たとえば、再投影画像４０４）をＮＮ４１４に提供することに応答して、受信され得る。ＮＮ４１４は、再投影画像４０４の色を組合わせる確率的な方法を示すためにブレンド重み４１６を生成して、目標被写体をリアルに表す可能性の高いリアルな出力画像を提供してもよい。いくつかの実現例では、ブレンド重み４１６は、出力合成画像（たとえば、合成画像４２２）へのそのようなブレンド色の割当てをもたらす仮想ビュー（すなわち、新規および／または見えないおよび／または以前に取込まれていないビュー）の各画素にブレンド色を割当てるように構成される。たとえば、ブレンド重み４１６は、再投影画像４０４の少なくとも一部を互いにブレンドするために使用される。

【0126】

ブロック６１２において、プロセス６００は、ブレンド重みおよび仮想ビューに基づいて、ビューパラメータに従って合成画像を生成することを含んでもよい。合成画像４２２は、未取込みのビュー（たとえば、物理カメラによって取込まれていない、仮想カメラまたは物理カメラから仮想ビューとして生成された、など）に関するパラメータを用いて取込まれた画像を表してもよく、これは、見えない（画像システムのいずれのカメラによっても取込まれておらず、代わりに合成された）ビューを表してもよい。合成画像４２２は、３次元（たとえば、テレプレゼンス）ビデオ会議のためにおよび／またはその間に生成されてもよい。たとえば、合成画像４２２は、ビデオ会議中にリアルタイムで生成されて、ビデオ会議に関連付けられたカメラによって取込まれているユーザまたはコンテンツのエラー補正された正確な画像を提供してもよい。いくつかの実現例では、合成画像４２２は、３次元ビデオ会議のために生成された新規のビューを表す。いくつかの実現例では、合成画像は、３次元ビデオ会議のために生成された目標被写体の未取込みビューを表す。

【0127】

動作中、ビューパラメータに従って、ブレンド重みが仮想ビュー内の画素に適用される。結果として得られる仮想ビューは、目標被写体についてブレンドされた重みを用いて生成された画素色を含んでもよい。仮想ビューのカラー化された画像は、たとえば、仮想カメラに関連付けられたビューパラメータに従って合成ビューを生成するために使用されてもよい。

【0128】

いくつかの実現例では、プロセス６００は、幾何学的融合処理を追加的に実行してもよい。いくつかの実現例では、プロセス６００は、個別の深度画像に入力画像を提供する代わりに、幾何学的融合処理を実行してもよい。たとえば、プロセス６００は、幾何学的融合モデルを生成するために、複数の深度画像上に幾何学的融合処理を用いてコンセンサス表面（たとえば、幾何学的プロキシ）を再構成してもよい。

【0129】

幾何学的に融合されたモデルは、深度画像データの複数のビュー（たとえば、画像コンテンツの取込まれた深度ビュー）を深度画像データの更新された（たとえば、計算された）ビューと置き換えるために使用されてもよい。更新された深度ビューは、取込まれた深度ビューからの深度データを含み、さらに、画像コンテンツの他の利用可能な取込まれた深度ビューの各々からの画像および／または深度情報を含む画像コンテンツのビューとして生成されてもよい。更新された深度ビューの１つ以上は、たとえば、幾何学的に融合された深度画像データと、オブジェクトの複数の他のビューに関連付けられた画像および／または深度情報とを利用することによって、追加の（および新しい）ブレンド重みを合成してオブジェクトの追加の（および新しい）ビューを合成するために、ＮＮ４１４によって用いられてもよい。深度画像データは、任意の数のアルゴリズムを用いて融合されて、各（入力）深度ビューを、他の複数の深度ビューからの深度データ情報を組込んだ新しい深度ビューによって置き換えてもよい。いくつかの実現例では、幾何学的に融合されたモデルは、システム２００によって、そのようなオクルージョン損失を補正するためにオクルージョンを推論するように使用され得る深度データ（たとえば、深度マップ）を生成するために使用可能である。

【0130】

次に、プロセス６００は、複数の入力画像と、幾何学的に融合された深度画像データを生成するために使用されるコンセンサス表面とに基づいて、複数の再投影画像を生成し、幾何学的に融合された深度画像データを（複数のビューパラメータ４１５および複数の再投影画像４０４と共に）ＮＮ４１４に提供してもよい。これに応答して、プロセス６００は、ＮＮ４１４から、ブレンド重み４１６および／または合成画像４２２内の画素に色を割当てるためのコンセンサス表面深度画像データを用いて生成された追加のブレンド重みを受信することを含んでもよい。

【0131】

いくつかの実現例では、プロセス６００はさらに、ＮＮ４１４に、幾何学的に融合され
たモデルの深度と複数の深度画像において観察された深度との差を提供することを含んでもよい。深度の差は、たとえば、合成画像４２２における検出されたオクルージョンを補正するために使用されてもよい。いくつかの実現例では、ＮＮ４１４は、図４に関して詳細に説明したように、ＮＮ４１４によって生成された合成画像と（たとえば、システム２０２Ａに関連付けられた）少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像４１２との間のオクルージョン損失関数の最小化に基づいて訓練されてもよい。いくつかの実現例では、プロセス４００は、複数の深度画像ではなく、単一の深度画像を用いて実施され得る。

【0132】

いくつかの実現例では、ＮＮ４１４はさらに、合成画像内の画素に画素色を割当てるために多重解像度ブレンドを実行するように構成される。動作中、多重解像度ブレンディングは、ＮＮ４１４への入力として画像ピラミッドの提供をトリガして、ＮＮ４１４から、複数のスケールについての多重解像度ブレンド重み（たとえば、追加のブレンド重み５２０）を受信し、さらに、各スケールに関連付けられた不透明度値を受信してもよい。

【0133】

図７は、説明する技術と共に使用可能なコンピューティングデバイス７００およびモバイルコンピュータデバイス７５０の例を示す図である。コンピューティングデバイス７００は、プロセッサ７０２、メモリ７０４、ストレージデバイス７０６、メモリ７０４および高速拡張ポート７１０に接続している高速インターフェイス７０８、ならびに、低速バス７１４およびストレージデバイス７０６に接続している低速インターフェイス７１２を含む。コンポーネント７０２，７０４，７０６，７０８，７１０および７１２は、さまざまなバスを用いて相互接続され、共通のマザーボードに、または適宜他の態様で搭載可能である。プロセッサ７０２は、コンピューティングデバイス７００内で実行するための命令を処理可能であり、これらの命令は、高速インターフェイス７０８に結合されたディスプレイ７１６などの、外部入出力デバイス上のＧＵＩのためのグラフィック情報を表示するために、メモリ７０４またはストレージデバイス７０６に格納された命令を含む。いくつかの実施形態では、複数のメモリおよび複数の種類のメモリと共に、複数のプロセッサおよび／または複数のバスを適宜用いることができる。また、複数のコンピューティングデバイス７００は、必要な動作の一部を（たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）提供する各デバイスと接続可能である。

【0134】

メモリ７０４は、コンピューティングデバイス７００内に情報を格納する。ある実施形態では、メモリ７０４は、１つまたは複数の揮発性メモリユニットである。他の実施形態では、メモリ７０４は、１つまたは複数の不揮発性メモリユニットである。また、メモリ７０４は、磁気または光学ディスクなどの、任意の形式のコンピュータ読取可能媒体でもよい。

【0135】

ストレージデバイス７０６は、コンピューティングデバイス７００のために大容量記憶を提供可能である。ある実施形態では、ストレージデバイス７０６は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、または、ストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイでもよい。コンピュータプログラム製品を、情報担体において有形に具現化可能である。また、コンピュータプログラム製品は、実行されると、本明細書に記載の方法などの１つ以上の方法を実行する命令を含み得る。情報担体は、メモリ７０４、ストレージデバイス７０６、またはプロセッサ７０２上のメモリなどのコンピュータ読取可能媒体または機械読取可能媒体である。

【0136】

高速コントローラ７０８は、コンピューティングデバイス７００のための帯域集中型の
動作を管理し、低速コントローラ７１２は、より低帯域集中型の動作を管理する。このような機能の割当ては例示に過ぎない。ある実施形態では、高速コントローラ７０８は、メモリ７０４、ディスプレイ７１６に（たとえば、グラフィックスプロセッサまたはアクセラレータを介して）結合され、さまざまな拡張カード（図示せず）を受付け得る高速拡張ポート７１０に結合される。低速コントローラ７１２は、ストレージデバイス７０６および低速拡張ポート７１４に結合され得る。さまざまな通信ポート（たとえば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｅｔｈｅｒｎｅｔ（登録商標）、無線Ｅｔｈｅｒｎｅｔ）を含み得る低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの１つ以上の入出力デバイスに、または、スイッチもしくはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを介して結合可能である。

【0137】

コンピューティングデバイス７００は、図に示すように多くの異なる形態で実現可能である。たとえば、標準サーバ７２０として、またはそのようなサーバのグループで複数回実現可能である。また、ラックサーバーシステム７２４の一部として実現可能である。さらに、ラップトップコンピュータ７２２などのパーソナルコンピュータにおいて実現可能である。または、コンピューティングデバイス７００からのコンポーネントは、デバイス７５０など、モバイルデバイス（図示せず）における他のコンポーネントと組合わせることが可能である。そのようなデバイスの各々は、コンピューティングデバイス７００，７５０のうちの１つ以上を含んでもよく、システム全体は、互いに通信する複数のコンピューティングデバイス７００，７５０で形成されてもよい。

【0138】

コンピューティングデバイス７５０は、いくつかあるコンポーネントの中で特に、プロセッサ７５２と、メモリ７６４と、ディスプレイ７５４などの入出力デバイスと、通信インターフェイス７６６と、トランシーバ７６８とを含む。デバイス７５０には、さらに他のストレージを提供するために、マイクロドライブまたは他のデバイスなどのストレージデバイスが設けられてもよい。コンポーネント７５０，７５２，７６４，７５４，７６６および７６８の各々は、さまざまなバスを用いて相互接続されており、これらのコンポーネントのうちの複数は、共通のマザーボード上にまたは他の態様で適宜搭載されてもよい。

【0139】

プロセッサ７５２は、メモリ７６４に格納された命令を含む、コンピューティングデバイス７５０内の命令を実行可能である。プロセッサは、別々の複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実現されてもよい。プロセッサはたとえば、ユーザインターフェイスの制御、デバイス７５０によって実行されるアプリケーション、およびデバイス７５０による無線通信など、デバイス７５０の他のコンポーネントの調整を提供してもよい。

【0140】

プロセッサ７５２は、ディスプレイ７５４に結合された制御インターフェイス７５８および表示インターフェイス７５６を介して、ユーザと通信してもよい。ディスプレイ７５４はたとえば、ＴＦＴＬＣＤ（薄膜トランジスタ液晶表示装置）またはＯＬＥＤ（有機発光ダイオード）ディスプレイ、または他の任意の表示技術でもよい。表示インターフェイス７５６は、ユーザにグラフィカルなおよび他の情報を提示するためのディスプレイ７５４を駆動するための好適な回路を含んでもよい。制御インターフェイス７５８は、ユーザからのコマンドを受信し、プロセッサ７５２に送信するためにこれらのコマンドを変換してもよい。くわえて、外部インターフェイス７６２は、デバイス７５０の他のデバイスとの近接領域通信を可能にするように、プロセッサ７５２と通信してもよい。外部インターフェイス７６２は、たとえば、有線通信または無線通信を提供してもよく、いくつかの実施形態では複数のインターフェイスを用いることが可能である。

【0141】

メモリ７６４は、コンピューティングデバイス７５０内の情報を格納する。メモリ７６
４は、１つ以上のコンピュータ読取可能媒体、１つ以上の揮発性メモリユニット、または１つ以上の不揮発性メモリユニットのうちの１つ以上として実現可能である。拡張メモリ７８４もデバイス７５０に提供され、たとえばＳＩＭＭ（シングル・インライン・メモリ・モジュール）ガードインターフェイスを含み得る拡張インターフェイス７８２を介して接続されてもよい。そのような拡張メモリ７８４は、デバイス７５０のための追加の記憶空間を提供してもよい、または、デバイス７５０のためのアプリケーションもしくは他の情報も格納してもよい。具体的には、拡張メモリ７８４は上述のプロセスを実行または補足するための命令を含んでもよく、セキュアな情報も含んでもよい。このため、拡張メモリ７８４はたとえば、デバイス７５０のためのセキュリティモジュールであってもよく、デバイス７５０のセキュアな使用を可能にする命令を用いてプログラム可能である。くわえて、識別情報をハッキング不能な態様でＳＩＭＭカード上に載せるなどして、セキュアなアプリケーションが追加情報とともにＳＩＭＭカードを介して提供されてもよい。

【0142】

メモリは、以下に説明するように、たとえばフラッシュメモリおよび／またはＮＶＲＡＭメモリを含み得る。ある実施形態では、コンピュータプログラム製品が情報担体において有形に具体化される。コンピュータプログラム製品は、実行されると上述のような１つ以上の方法を行う命令を含む。情報担体は、たとえばトランシーバ７６８または外部インターフェイス７６２を介して受信され得る、メモリ７６４、拡張メモリ７８４、またはプロセッサ７５２上のメモリといった、コンピュータ読取可能媒体または機械読取可能媒体である。

【0143】

デバイス７５０は、必要に応じてデジタル信号処理回路を含み得る通信インターフェイス７６６を介して無線通信可能である。通信インターフェイス７６６は、とりわけ、ＧＳＭ（登録商標）音声通話、ＳＭＳ、ＥＭＳもしくはＭＭＳメッセージング、ＣＤＭＡ、ＴＤＭＡ、ＰＤＣ、ＷＣＤＭＡ（登録商標）、ＣＤＭＡ２０００、もしくはＧＰＲＳといった、さまざまなモードまたはプロトコル下で通信を提供可能である。そのような通信は、たとえば無線周波数トランシーバ７６８を介して発生してもよい。くわえて、Ｂｌｕｅｔｏｏｔｈ、Ｗｉ－Ｆｉ（登録商標）、または他のそのようなトランシーバ（図示せず）を使用するなどして、短距離通信が発生し得る。くわえて、ＧＰＳ（全地球測位システム）レシーバモジュール７７０が、ナビゲーションおよび位置に関連する追加の無線データをデバイス７５０に提供可能であり、当該データは、デバイス７５０上で実行されるアプリケーションによって適宜使用可能である。

【0144】

デバイス７５０はまた、ユーザから発話の情報を受信してそれを使用可能なデジタル情報に変換し得る音声コーデック７６０を用いて、可聴式に通信可能である。音声コーデック７６０も同様に、たとえばデバイス７５０のハンドセットにおいて、スピーカなどを介してユーザのために可聴音を生成してもよい。そのような音は、音声電話からの音を含み得る、録音された音（たとえば、音声メッセージ、音楽ファイルなど）を含み得る、かつ、デバイス７５０上で動作するアプリケーションによって生成された音を含み得る。

【0145】

コンピューティングデバイス７５０は、図に示すように多くの異なる形態で実現可能である。たとえば、携帯電話７８０として実現可能である。また、スマートフォン７８３、携帯情報端末、または他の同様のモバイルデバイスの一部として実現可能である。

【0146】

ここで説明するシステムおよび技術のさまざまな実現例は、デジタル電子回路、集積回路、特別に設計された特定用途向け集積回路（ＡＳＩＣ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合わせで実現可能である。これらのさまざまな実現例は、データおよび命令をストレージシステムから受信し、データおよび命令をストレージシステムに送信するように結合された、特殊用途または汎用用途であり得る少なくとも１つのプログラマブルプロセッサ、少なくとも１つの入力デバイス
、および少なくとも１つの出力デバイスを含むプログラマブルシステム上で実行可能および／または解釈可能である１つ以上のコンピュータプログラムにおける実現例を含み得る。

【0147】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている）は、プログラマブルプロセッサのための機械命令を含み、高レベルの手続き型および／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ／機械言語で実現可能である。本明細書で使用されるように、「機械可読媒体」「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される任意のコンピュータプログラム製品、装置および／またはデバイス（たとえば、磁気ディスク、光ディスク、メモリ、ＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ））を指す。「機械読取可能信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

【0148】

ユーザとのインタラクションを提供するために、ここで説明したシステムおよび技術は、ユーザに情報を表示するための表示デバイス（たとえば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）、およびユーザがコンピュータに入力を提供可能なキーボードとポインティングデバイス（たとえば、マウスまたはトラックボール）とを有するコンピューター上で実現可能である。他の種類のデバイスも、ユーザとのインタラクションを提供するために使用可能である。たとえば、ユーザに提供されるフィードバックは、任意の形式の感覚フィードバック（たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）とすることができ、ユーザからの入力は、音響、音声、または触覚入力を含む任意の形式で受信可能である。

【0149】

ここで説明するシステムおよび技術は、バックエンドコンポーネント（たとえば、データサーバとして）を含むコンピューティングシステム、またはミドルウェアコンポーネント（たとえば、アプリケーションサーバ）を含むコンピューティングシステム、またはフロントエンドコンポーネント（たとえば、ユーザがここで説明するシステムおよび技術の実施形態とインタラクション可能なグラフィカル・ユーザ・インターフェイスまたはＷｅｂブラウザを有するクライアントコンピュータ）を含むコンピューティングシステム、またはそのようなバックエンド、ミドルウェアもしくはフロントエンドコンポーネントの任意の組合わせにおいて実現可能である。システムの構成要素は、デジタルデータ通信の任意の形態または媒体（たとえば、通信ネットワーク）によって相互接続可能である。通信ネットワークの例としては、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、およびインターネットが挙げられる。

【0150】

コンピューティングシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般に、互いに遠隔地にあり、通常、通信ネットワークを介して相互作用する。クライアントとサーバとの関係は、それぞれのコンピュータ上で実行され、互いにクライアント・サーバ関係を有するコンピュータプログラムによって生じる。

【0151】

いくつかの実施形態では、図７に図示されたコンピューティングデバイスは、仮想現実ヘッドセット（ＶＲヘッドセット／ＨＭＤデバイス７９０）とインターフェイス接続するセンサを含み得る。たとえば、コンピューティングデバイス７５０または図７に図示された他のコンピューティングデバイスに含まれる１つまたは複数のセンサは、ＶＲヘッドセット７９０に入力を提供する、または一般に、ＶＲ空間に入力を提供することが可能である。センサは、タッチスクリーン、加速度計、ジャイロスコープ、圧力センサ、生体センサ、温度センサ、湿度センサ、および周囲光センサを含み得るが、これらに限定されない
。コンピューティングデバイス７５０は、センサを用いて、次にＶＲ空間への入力として使用可能なＶＲ空間におけるコンピューティングデバイスの絶対位置および／または検出された回転を決定することが可能である。たとえば、コンピューティングデバイス７５０を、コントローラ、レーザーポインタ、キーボード、武器などの仮想オブジェクトとしてＶＲ空間に組込んでもよい。ＶＲ空間に組込まれたときのユーザによるコンピューティングデバイス／仮想オブジェクトの位置決めによって、ユーザは、ＶＲ空間において特定の態様で仮想オブジェクトを見るためにコンピューティングデバイスを位置決めすることが可能になる。

【0152】

いくつかの実施形態では、コンピューティングデバイス７５０に含まれる、または接続される１つ以上の入力デバイスを、ＶＲ空間への入力として使用可能である。入力デバイスは、タッチスクリーン、キーボード、１つ以上のボタン、トラックパッド、タッチパッド、ポインティングデバイス、マウス、トラックボール、ジョイスティック、カメラ、マイク、入力機能付きイヤフォンもしくはバッド、ゲームコントローラ、または他の接続可能な入力デバイスを含み得るが、これらに限定されない。コンピューティングデバイスがＶＲ空間に組込まれるとコンピューティングデバイス７５０に含まれる入力デバイスとインタラクションするユーザは、ＶＲ空間において特定のアクションを発生させることができる。

【0153】

いくつかの実施形態では、コンピューティングデバイス７５０に含まれる１つまたは複数の出力デバイスは、ＶＲ空間においてＶＲヘッドセット７９０のユーザに出力および／またはフィードバックを提供可能である。出力およびフィードバックは、視覚的、戦術的、または音声的であり得る。出力および／またはフィードバックは、ＶＲ空間または仮想環境のレンダリング、振動、１つ以上のライトもしくはストロボのオンおよびオフまたは点滅および／またはフラッシング、アラームの鳴動、チャイムの再生、曲の再生、およびオーディオファイルの再生を含み得るが、これらに限定されない。出力デバイスは、振動モータ、振動コイル、圧電デバイス、静電デバイス、発光ダイオード（ＬＥＤ）、ストロボ、およびスピーカを含み得るが、これらに限定されない。

【0154】

いくつかの実施形態では、コンピューティングデバイス７５０は、ＶＲシステムを作成するためにＶＲヘッドセット７９０内に配置可能である。ＶＲヘッドセット７９０は、スマートフォン７８３などのコンピューティングデバイス７５０をＶＲヘッドセット７９０内の適切な位置に配置することを可能にする１つまたは複数の位置決め要素を含み得る。このような実施形態では、スマートフォン７８３のディスプレイは、ＶＲ空間または仮想環境を表す立体画像をレンダリング可能である。

【0155】

いくつかの実施形態では、コンピューティングデバイス７５０は、コンピュータで生成された３Ｄ環境における別のオブジェクトとして表示されてもよい。ユーザによるコンピューティングデバイス７５０とのインタラクション（たとえば、回転、シェイク、タッチスクリーンのタッチ、タッチスクリーンを横切る指のスワイプ）は、ＶＲ空間内のオブジェクトとのインタラクションとして解釈可能である。ほんの一例として、コンピューティングデバイスは、レーザーポインタであり得る。このような例では、コンピューティングデバイス７５０は、コンピュータで生成された３Ｄ環境において仮想レーザーポインタとして現れる。ユーザがコンピューティングデバイス７５０を操作すると、ＶＲ空間内のユーザは、レーザーポインタの動きを見ることができる。ユーザは、ＶＲ環境におけるコンピューティングデバイス７５０とのインタラクションから、コンピューティングデバイス７５０上またはＶＲヘッドセット７９０上でフィードバックを受信する。

【0156】

いくつかの実施形態では、コンピューティングデバイス７５０は、タッチスクリーンを含んでもよい。たとえば、ユーザは、タッチスクリーン上で起こることをＶＲ空間内で起
こることと模倣することができる特定の態様でタッチスクリーンとインタラクション可能である。たとえば、ユーザは、タッチスクリーン上に表示されたコンテンツをズームするためにピンチタイプの動作を使用してもよい。このタッチスクリーン上のピンチタイプの動作は、ＶＲ空間において提供される情報をズームさせることができる。別の例では、コンピューティングデバイスは、コンピュータで生成された３Ｄ環境においてバーチャルブックとしてレンダリングされてもよい。ＶＲ空間において、本のページが表示され、タッチスクリーンを横切るユーザの指のスワイプは、バーチャルブックのページをめくる／フリップすると解釈可能である。各ページがめくられる／フリップされると、ページの内容が変化するのを見ることに加えて、ユーザは、本のページをめくる音などの音声フィードバックを提供され得る。

【0157】

いくつかの実施形態では、コンピューティングデバイスに加えて１つ以上の入力デバイス（たとえば、マウス、キーボード）を、コンピュータで生成された３Ｄ環境においてレンダリング可能である。レンダリングされた入力デバイス（たとえば、レンダリングされたマウス、レンダリングされたキーボード）は、ＶＲ空間内のオブジェクトを制御するためにＶＲ空間内でレンダリングされたものとして使用可能である。

【0158】

コンピューティングデバイス７００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。コンピューティングデバイス７５０は、パーソナルデジタルアシスタント、携帯電話、スマートフォン、および他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すことを意図している。ここに示された構成要素、それらの接続および関係、ならびにそれらの機能は、例示的であることを意図しているに過ぎず、開示された実施形態を限定するように意図されたものではない。

【0159】

また、図に示された論理フローは、望ましい結果を得るために、示された特定の順序、または連続した順序を必要としない。さらに、説明したフローから他のステップを設けてもよく、ステップを削除してもよく、説明したシステムに対して他のコンポーネントを追加または削除してもよい。したがって、他の実施形態は、以下の特許請求の範囲内にある。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【手続補正書】

【提出日】2024-08-06

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンピュータにより実現される方法であって、
ニューラルネットワークを用いて、入力画像に関連付けられた深度画像とビューパラメータとに基づいて、目標物の仮想ビューの画素に色を割当てるためのブレンド重みを生成することと、
前記ブレンド重みと、前記仮想ビューと、入力画像および前記ビューパラメータに基づく合成画像とに基づいて、複数のワープ画像を生成することとを備える、方法。

【手続補正書】

【提出日】2024-08-19

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンピュータにより実現される方法であって、
ニューラルネットワークを用いて、入力画像に関連付けられた深度画像およびビューパラメータに基づいて、目標被写体の仮想ビューの画素に色を割当てるためのブレンド重みを生成することと、
前記ブレンド重みと、前記仮想ビューと、入力画像および前記ビューパラメータに基づく合成画像とに基づいて、複数のワープ画像を生成することとを備える、コンピュータにより実現される方法。

【請求項2】

前記ニューラルネットワークは、前記合成画像と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像との間のオクルージョン損失関数を最小化するために前記ブレンド重みを生成するように訓練される、請求項１に記載のコンピュータにより実現される方法。

【請求項3】

前記合成画像は、３次元ビデオ会議のために生成される前記目標被写体の未取込みビューである、請求項１または２に記載のコンピュータにより実現される方法。

【請求項4】

前記ブレンド重みは、前記合成画像の画素色を生成するために用いられる、請求項３に記載のコンピュータにより実現される方法。

【請求項5】

前記複数のワープ画像を生成することは、目標ビューポイントに前記入力画像を再投影することを含む、請求項１～４のいずれか１項に記載のコンピュータにより実現される方法。

【請求項6】

前記ビューパラメータは、カメラモデル近似を表す、請求項１～５のいずれか１項に記載のコンピュータにより実現される方法。

【請求項7】

前記ビューパラメータは、目標ビューポイントに関連付けられたビュー方向、ポーズ、およびカメラ視点のうちの少なくとも１つを含む、請求項１～６のいずれか１項に記載のコンピュータにより実現される方法。

【請求項8】

前記ブレンド重みは、前記入力画像からの特徴を組合わせるために使用される、請求項１～７のいずれか１項に記載のコンピュータにより実現される方法。

【請求項9】

前記ニューラルネットワークは、２段階のエンドツーエンドの畳み込みニューラルネットワークである、請求項１～８のいずれか１項に記載のコンピュータにより実現される方法。

【請求項10】

画像処理システムであって、
少なくとも１つの処理デバイスと、
実行されると、前記画像処理システムに動作を行わせる命令を格納したメモリとを備え、前記動作は、
ニューラルネットワークを用いて、入力画像に関連付けられた深度画像およびビューパラメータに基づいて、目標被写体の仮想ビューの画素に色を割当てるためのブレンド重みを生成することと、
前記ブレンド重みと、前記仮想ビューと、入力画像および前記ビューパラメータに基づく合成画像とに基づいて、複数のワープ画像を生成することとを含む、画像処理システム。

【請求項11】

前記ニューラルネットワークは、前記合成画像と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像との間のオクルージョン損失関数を最小化するために前記ブレンド重みを生成するように訓練される、請求項１０に記載の画像処理システム。

【請求項12】

前記合成画像は、３次元ビデオ会議のために生成される前記目標被写体の未取込みビューである、請求項１０または１１に記載の画像処理システム。

【請求項13】

前記ブレンド重みは、前記合成画像の画素色を生成するために用いられる、請求項１２に記載の画像処理システム。

【請求項14】

前記複数のワープ画像を生成することは、目標ビューポイントに前記入力画像を再投影することを含む、請求項１０～１３のいずれか１項に記載の画像処理システム。

【請求項15】

前記ビューパラメータは、カメラモデル近似を表す、請求項１０～１４のいずれか１項に記載の画像処理システム。

【請求項16】

前記ビューパラメータは、目標ビューポイントに関連付けられたビュー方向、ポーズ、およびカメラ視点のうちの少なくとも１つを含む、請求項１０～１５のいずれか１項に記載の画像処理システム。

【請求項17】

前記ブレンド重みは、前記入力画像からの特徴を組合わせるために使用される、請求項１０～１６のいずれか１項に記載の画像処理システム。

【請求項18】

前記ニューラルネットワークは、２段階のエンドツーエンドの畳み込みニューラルネットワークである、請求項１０～１７のいずれか１項に記載の画像処理システム。

【請求項19】

命令を有するプログラムであって、前記命令は、プロセッサによって実行されると、コンピューティングデバイスに、
ニューラルネットワークを用いて、入力画像に関連付けられた深度画像およびビューパラメータに基づいて、目標被写体の仮想ビューの画素に色を割当てるためのブレンド重みを生成することと、
前記ブレンド重みと、前記仮想ビューと、入力画像および前記ビューパラメータに基づく合成画像とに基づいて、複数のワープ画像を生成することとを行わせる、プログラム。

【請求項20】

前記ニューラルネットワークは、前記合成画像と、少なくとも１つのウィットネスカメラによって取込まれるグラウンドトゥルース画像との間のオクルージョン損失関数を最小化するために前記ブレンド重みを生成するように訓練される、請求項１９に記載のプログラム。

【請求項21】

コンピュータに、請求項１～９のいずれか１項に記載の方法を行わせる、プログラム。

【手続補正書】

【提出日】2024-10-04

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コンピュータにより実現される方法であって、
ニューラルネットワークを用いて、入力画像に関連付けられた深度画像およびビューパラメータに基づいて、目標被写体の仮想ビューの画素に色を割当てるためのブレンド重みを生成することと、
前記ブレンド重みと、前記仮想ビューと、前記入力画像および前記ビューパラメータに基づく合成画像とに基づいて、複数のワープ画像を生成することとを備える、コンピュータにより実現される方法。

【請求項2】

【請求項3】

【請求項4】

前記ブレンド重みは、前記合成画像の画素色を生成するために用いられる、請求項３に記載のコンピュータにより実現される方法。

【請求項5】

【請求項6】

前記ビューパラメータは、カメラモデル近似を表す、請求項１～５のいずれか１項に記載のコンピュータにより実現される方法。

【請求項7】

【請求項8】

【請求項9】

【請求項10】

画像処理システムであって、
少なくとも１つの処理デバイスと、
実行されると、前記画像処理システムに動作を行わせる命令を格納したメモリとを備え、前記動作は、
ニューラルネットワークを用いて、入力画像に関連付けられた深度画像およびビューパラメータに基づいて、目標被写体の仮想ビューの画素に色を割当てるためのブレンド重みを生成することと、
前記ブレンド重みと、前記仮想ビューと、前記入力画像および前記ビューパラメータに基づく合成画像とに基づいて、複数のワープ画像を生成することとを含む、画像処理システム。

【請求項11】

【請求項12】

【請求項13】

前記ブレンド重みは、前記合成画像の画素色を生成するために用いられる、請求項１２に記載の画像処理システム。

【請求項14】

【請求項15】

前記ビューパラメータは、カメラモデル近似を表す、請求項１０～１４のいずれか１項に記載の画像処理システム。

【請求項16】

【請求項17】

前記ブレンド重みは、前記入力画像からの特徴を組合わせるために使用される、請求項１０～１６のいずれか１項に記載の画像処理システム。

【請求項18】

【請求項19】

命令を有するプログラムであって、前記命令は、プロセッサによって実行されると、コンピューティングデバイスに、
ニューラルネットワークを用いて、入力画像に関連付けられた深度画像およびビューパラメータに基づいて、目標被写体の仮想ビューの画素に色を割当てるためのブレンド重みを生成することと、
前記ブレンド重みと、前記仮想ビューと、前記入力画像および前記ビューパラメータに基づく合成画像とに基づいて、複数のワープ画像を生成することとを行わせる、プログラム。

【請求項20】

【請求項21】

コンピュータに、請求項１～９のいずれか１項に記載の方法を行わせる、プログラム。

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版