(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-22
(54)【発明の名称】層状シーン分解コーデックシステムおよび方法
(51)【国際特許分類】
H04N 19/597 20140101AFI20220415BHJP
G06T 15/00 20110101ALI20220415BHJP
H04N 19/33 20140101ALI20220415BHJP
H04N 19/132 20140101ALI20220415BHJP
H04N 19/187 20140101ALI20220415BHJP
G06T 9/00 20060101ALI20220415BHJP
【FI】
H04N19/597
G06T15/00 501
H04N19/33
H04N19/132
H04N19/187
G06T9/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021544756
(86)(22)【出願日】2020-02-22
(85)【翻訳文提出日】2021-09-17
(86)【国際出願番号】 CA2020050228
(87)【国際公開番号】W WO2020181360
(87)【国際公開日】2020-09-17
(32)【優先日】2019-02-22
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521093576
【氏名又は名称】アヴァロン ホログラフィックス インク.
(74)【代理人】
【識別番号】100124039
【氏名又は名称】立花 顕治
(74)【代理人】
【識別番号】100176337
【氏名又は名称】杉本 弘樹
(72)【発明者】
【氏名】ハミルトン マシュー
(72)【発明者】
【氏名】ランボルト チャック
(72)【発明者】
【氏名】ブノワ ドノヴァン
(72)【発明者】
【氏名】トローク マシュー
(72)【発明者】
【氏名】ロッキヤー ロバート
(72)【発明者】
【氏名】ブティン トーマス
【テーマコード(参考)】
5B057
5B080
5C159
【Fターム(参考)】
5B057CA08
5B057CA13
5B057CA16
5B057CB08
5B057CB13
5B057CB16
5B057CC02
5B057CD07
5B057CG01
5B057DA16
5B057DB03
5B057DB09
5B080AA14
5B080AA19
5B080BA02
5B080BA04
5B080CA01
5B080CA04
5B080DA06
5B080FA02
5B080FA08
5B080FA15
5B080GA06
5B080GA22
5C159LB01
5C159MA32
5C159PP03
5C159PP13
5C159PP15
5C159TA06
5C159TB17
5C159TC38
5C159UA02
5C159UA05
(57)【要約】
多次元ビデオストリーミング、インタラクティブゲーム、および他のライトフィールドディスプレイアプリケーションのためのリアルタイムライトフィールドディスプレイを駆動するコーデックのためのシステムおよび方法は、層状シーン分解ストラテジを適用することによって提供される。多次元シーンデータは、所与の層と表示面との間の距離が増加するにつれて深度が増加する複数のデータ層に分割される。データ層は、プレノプティックサンプリングスキームを使用してサンプリングされ、透視レンダリングおよび斜方レンダリングなどのハイブリッドレンダリングを使用してレンダリングされ、各データ層に対応するライトフィールドを符号化する。結果として生じる多次元シーンデータの圧縮(層状)コア表現は、予測可能なレートで生成され、エッジ適応補間を含むビュー合成プロトコルを適用することによって、リアルタイムでライトフィールドディスプレイで再構築およびマージされ、参照要素画像から段階的に(例えば、列、次いで行)ピクセルアレイが再構築される。
【選択図】
図10
【特許請求の範囲】
【請求項1】
コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することと、
前記第1のデータセットを、参照位置に関して異なる位置で前記シーンの異なる部分を各々表す複数の層に分割することと、
前記層のうちの少なくとも1つに対応するデータを複数のサブセクションに分割することであって、特定のサブセクションの位置が、前記シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割することと、
複数の層および複数のサブセクションを符号化して第2のデータセットを生成することと、を含み、
前記第2のデータセットのサイズが、前記第1のデータセットのサイズよりも小さい、方法。
【請求項2】
前記シーンがリモートデバイスと関連付けられた表示デバイスに提示されるように、前記第2のデータセットを前記リモートデバイスに伝送することをさらに含む、請求項1に記載の方法。
【請求項3】
層またはサブセクションを符号化することが、前記第1のデータセットの対応する部分に対してサンプリング動作を実行することを含む、請求項1または2に記載の方法。
【請求項4】
前記サンプリング動作が、前記第2のデータセットと関連付けられたターゲット圧縮率に基づいている、請求項3に記載の方法。
【請求項5】
複数の層および複数のサブセクションを符号化することが、
レイトレーシングを使用して、符号化されるピクセルの集合をレンダリングすることと、
複数の要素画像から複数の要素画像を、前記ピクセルの集合が選択された複数の要素画像を使用してレンダリングされるように選択することと、
サンプリング動作を使用して、前記ピクセルの集合をサンプリングすることと、を含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記サンプリング動作が、プレノプティックサンプリングスキームに従って、前記複数の要素画像の対応する部分から複数の要素画像を選択することを含む、請求項3に記載の方法。
【請求項7】
前記サンプリング動作を実行することが、
前記層またはサブセクションと関連付けられた実効空間解像度を決定することと、
決定された角解像度に従って、前記複数の要素画像の対応する部分から複数の要素画像を選択することと、を含む、請求項3に記載の方法。
【請求項8】
前記角解像度が、前記層またはサブセクションと関連付けられた前記シーンの前記一部分と関連付けられた方位解像度の関数として決定される、請求項7に記載の方法。
【請求項9】
前記角解像度が、表示デバイスと関連付けられた視野として決定される、請求項7に記載の方法。
【請求項10】
前記3次元記述が、複数の要素画像を表すライトフィールドデータを含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記複数の要素画像の各々が、1つ以上の画像取得デバイスによってキャプチャされる、請求項10に記載の方法。
【請求項12】
前記ライトフィールドデータが、前記要素画像に対応する深度マップを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記第1のデータセットが、前記シーンに含まれるサーフェス上の法線の方向に関する情報を含み、前記法線の前記方向が、参照方向に関して表されている、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記サーフェスの少なくとも一部の反射特性が、非ランベルト的である、請求項13に記載の方法。
【請求項15】
層またはサブセクションを符号化することが、
前記層またはサブセクションについて、前記シーン内のオブジェクトの対応する部分を表す1つ以上のポリゴンを取得することと、
前記1つ以上のポリゴンに基づいて、ビュー独立表現を決定することと、
前記第2のデータセット内の前記ビュー独立表現を符号化することと、をさらに含む、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記第2のデータセットを受信することと、
前記層の各々および前記サブセクションの各々に対応する前記第2のデータセットの部分を復号化することと、
前記復号化された部分をライトフィールド画像の表現に組み合わせることと、
前記ライトフィールド画像を表示デバイス上に提示することと、をさらに含む、請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記ライトフィールド画像に対するユーザの位置を示すユーザ入力を受信することと、
前記表示デバイス上で提示される前に、前記ユーザ入力に従って前記ライトフィールド画像を更新することと、をさらに含む、請求項16に記載の方法。
【請求項18】
表示面の近くに位置する層が、前記表示面の遠くに位置する同じ幅の層よりも低い圧縮比を実現する、請求項1~17のいずれか一項に記載の方法。
【請求項19】
前記第2のデータセットの前記複数の層が、ライトフィールドを含む、請求項1~18のいずれか一項に記載の方法。
【請求項20】
前記ライトフィールドが、最終ライトフィールドを作成するためにマージされる、請求項19に記載の方法。
【請求項21】
前記層を分割することが、各層の深度範囲を制限することを含む、請求項1~20のいずれか一項に記載の方法。
【請求項22】
前記表示面の近くに位置する層が、前記表示面の遠くに位置する層よりも幅が狭い、請求項1~21のいずれか一項に記載の方法。
【請求項23】
前記第1のデータセットを複数の層に分割することが、前記シーン全体で均一な圧縮率を維持する、請求項1~22のいずれか一項に記載の方法。
【請求項24】
前記第1のデータセットを複数の層に分割することが、ライトフィールドディスプレイを内側および外側視錐台ボリューム層の集合に分割することを含む、請求項1~23のいずれか一項に記載の方法。
【請求項25】
前記方法が、多次元ビデオストリーミング、多次元インタラクティブゲーム、リアルタイムインタラクティブコンテンツ、または他のライトフィールドディスプレイシナリオのための合成ライトフィールドを生成するために使用される、請求項1~24のいずれか一項に記載の方法。
【請求項26】
前記合成ライトフィールドが、有効視域内でのみ生成される、請求項25に記載の方法。
【請求項27】
ライトフィールド画像レンダリング方法であって、
シーンの3次元サーフェス記述を層に分割するステップであって、各層が、関連するライトフィールドおよびサンプリングスキームを有する、分割するステップと、
少なくとも1つの層を複数のサブセクションにさらに分割するステップであって、各サブセクションが、関連付けられたライトフィールドおよびサンプリングを有し、特定のサブセクションの位置が、前記シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割するステップと、
前記サンプリングスキームに従って、各層および各サブセクションについて、ピクセル追加情報を含む第1の集合のピクセルをレンダリングし、サンプリングされたライトフィールドに対応させるステップと、
前記第1の集合のピクセルを使用して、各層およびサブセクションの前記サンプリングされたライトフィールドを再構築するステップと、
前記再構築されたライトフィールドを単一の出力ライトフィールド画像にマージするステップと、を含む、方法。
【請求項28】
前記第1の集合のピクセルおよび関連付けられたピクセル追加情報が、部分集合に分割され、それによって、各層およびサブセクションのためのサンプリングされたライトフィールドを再構築し、キャッシュ内の単一の部分集合からのピクセルを使用してマージが実行され、前記出力ライトフィールド画像の一部の部分集合を作成する、請求項27に記載の方法。
【請求項29】
各層およびサブセクションの前記サンプリングされたライトフィールドを再構築することが、前記第1の集合内のピクセルをキャッシュから再投影することによって行われ、前記出力ライトフィールド画像の一部の部分集合を作成する、請求項28に記載の方法。
【請求項30】
ピクセルを再投影することが、前記第1の集合のピクセル内の単一の次元に沿ったワーピングプロセス、続いて前記第1の集合のピクセル内の第2の次元内の第2のワーピングプロセスを使用して実行される、請求項29に記載の方法。
【請求項31】
コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することであって、
前記第1のデータセットが、前記シーン内のサーフェス上の法線の方向に関する情報を含み、
前記法線の前記方向が、参照方向に関して表され、
前記サーフェスの少なくとも一部が、非ランベルト反射特性を有する、受信することと、
前記第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置における前記シーンの一部分を表す、分割することと、
複数の層を符号化して第2のデータセットを生成することであって、前記第2のデータセットのサイズが、前記第1のデータセットのサイズよりも小さい、符号化することと、を含む、方法。
【請求項32】
ライトフィールド画像レンダリング方法であって、
シーンの3次元サーフェス記述を層に分割するステップであって、各層が、関連するライトフィールドおよびサンプリングスキームを有する、分割するステップと、
少なくとも1つの層を複数のサブセクションにさらに分割するステップであって、各サブセクションが、関連付けられたライトフィールドおよびサンプリングを有し、特定のサブセクションの位置が、前記シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割するステップと、
前記サンプリングスキームに従って、各層および各サブセクションについて、ピクセル追加情報を含む第1の集合のピクセルをレンダリングし、サンプリングされたライトフィールドに対応させるステップと、
前記第1の集合のピクセルを使用して、各層およびサブセクションの前記サンプリングされたライトフィールドを再構築するステップと、
前記再構築されたライトフィールドを単一の出力ライトフィールド画像にマージするステップと、を含む、方法。
【請求項33】
コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することと、
前記第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置における前記シーンの一部分を表す、分割することと、
前記複数の層の各々について、前記シーン内のオブジェクトの対応する部分を表す1つ以上のポリゴンを取得することと、
前記1つ以上のポリゴンに基づいて、ビュー独立表現を決定することと、
第2のデータセットの一部分として前記ビュー独立表現を符号化することであって、前記第2のデータセットのサイズが、前記第1のデータセットのサイズよりも小さい、符号化することと、を含む、方法。
【請求項34】
コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することと、
前記第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置における前記シーンの一部分を表す、分割することと、
複数の層を符号化して、前記層上でサンプリング動作を実行することによって第2のデータセットを生成することであって、
実効解像度関数を使用して、好適なサンプリングレートを決定することと、
前記好適なサンプリングレートを使用して、層と関連付けられた要素画像をダウンサンプリングすることと、を含み、
前記第2のデータセットのサイズが、前記第1のデータセットのサイズよりも小さい、符号化することと、を含む、方法。
【請求項35】
コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することであって、前記第1のデータセットが、前記シーン内のサーフェスの透明度に関する情報を含む、受信することと、
前記第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置における前記シーンの一部分を表す、分割することと、
複数の層を符号化して第2のデータセットを生成することであって、前記第2のデータセットのサイズが、前記第1のデータセットのサイズよりも小さい、符号化することと、を含む、方法。
【請求項36】
ライトフィールド画像レンダリング方法であって、
シーンの3次元サーフェス記述を層に分割するステップであって、各層が、関連するライトフィールドおよびサンプリングスキームを有する、分割するステップと、
少なくとも1つの層を複数のサブセクションにさらに分割するステップであって、各サブセクションが、関連付けられたライトフィールドおよびサンプリングを有し、特定のサブセクションの位置が、前記シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割するステップと、
前記サンプリングスキームに従って、各層および各サブセクションについて、ピクセル追加情報を含む第1の集合のピクセルをレンダリングし、サンプリングされたライトフィールドに対応させるステップと、
前記第1の集合のピクセルを使用して、各層およびサブセクションの前記サンプリングされたライトフィールドを再構築するステップと、
前記再構築されたライトフィールドを単一の出力ライトフィールド画像にマージするステップと、を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2019年2月22日に出願された米国特許出願第62/809,390号の優先権を主張し、その内容は参照によりそれらの全体が本明細書に組み込まれる。
【0002】
本開示は、画像(ライトフィールド)データの符号化および復号化に関し、データ圧縮および解凍システム、ならびにライトフィールドディスプレイでインタラクティブ多次元コンテンツを提供するための方法を含む。
【背景技術】
【0003】
自動立体視、高角解像度、広視野(FOV)のマルチビューディスプレイにより、ユーザに改善された視覚体験が提供されている。(Banksらによって説明されている)3Dチューリングテストに合格し得る3次元ディスプレイには、標準的な既存のディスプレイによって投影される2次元画像の代わりにライトフィールド表現が必要となる。リアルなライトフィールド表現には、少なくともギガピクセルのデータを含む表示データを伝送するために膨大な量の帯域幅が必要とされている。これらの帯域幅の要件は、当該技術分野で既知の技術によって現在提供されている帯域幅の能力を超えている。今後のコンシューマー向けのビデオ規格としては、8K Ultra High-Def(UHD)が予定されているが、これはディスプレイあたり33.1メガピクセルのデータしか提供しない。
【0004】
伝送のためにデータを圧縮することは、当該技術分野で既知である。データは、以下に限定されないが、インターネットまたはイーサネットネットワークを介したデータの長距離伝送、またはグラフィカルプロセッシングユニット(GPU)によって作成されて表示デバイスに転送される合成多重ビューの伝送など、様々なタイプの伝送に合わせて圧縮することができる。かかるデータは、ビデオストリーミング、リアルタイムインタラクティブゲーム、または任意の他のライトフィールドディスプレイに使用することができる。
【0005】
圧縮ライトフィールド伝送のための複数のエンコーダ・デコーダ(CODEC)が、当該技術分野において既知である。Olssonらは、ライトフィールドデータセット全体を処理して冗長性を低減し、圧縮表現を生成する圧縮技術を教示している。ライトフィールドのサブコンポーネント(すなわち、要素画像)は、標準的なビデオコーディング技術を使用して冗長性を利用するためのビデオシーケンスとして扱われている。Vetroらは、ライトフィールドのサブコンポーネント間の冗長性を利用して、より良い圧縮率を実現するための圧縮規格の多重ビュースペシャライゼーションを教示しているが、そのためにはより多くの処理が必要となる。これらの技術では、十分な圧縮比を実現することができない場合があり、また良好な比率が実現されても、符号化および復号化プロセスは、リアルタイムレートを超えてしまう場合がある。これらのアプローチでは、ライトフィールド全体が、符号化される前にストレージディスクまたはメモリに存在することを前提としている。したがって、大量のピクセルを必要とする大型のライトフィールドディスプレイでは、記憶媒体から読み取る際に過度のレイテンシが生じる。
【0006】
多次元コンテンツをリアルタイムに配信するためのハードウェアの限界を克服する試みとして、様々な方法およびシステムが知られているが、これらの方法およびシステムには、それぞれ限界がある。
【0007】
米国特許第9,727,970号は、3D画像データをデータ群に分離し、ホログラム平面上の異なる位置に表示されるホログラム値をデータ群から計算し、ホログラム表示を生成するための各位置に対する値を合計することによって、ホログラムを生成するための並列(マルチプロセッサ)分散コンピューティング方法および装置を開示している。ホログラフィックディスプレイを生成することに焦点を当てた開示として、適用されるストラテジには、ライトフィールドよりも小さなスケールで光を操作することが含まれており、この例では、色に応じてデータをソートし、分割し、その後、カラー画像平面に続いて、平面画像をサブ画像にさらに分割することを特徴としている。
【0008】
米国特許出願公開第2017/0142427号は、複数の要素画像(ホーゲル(hogel))を単一のホーゲルに分解することに基づくコンテンツ適応ライトフィールド圧縮について説明している。この開示では、保証された圧縮率を実現することが説明されている。しかしながら、画像の損失が変動しており、開示されたようなホーゲルの組み合わせでは、利用可能な冗長性が保証されていない。
【0009】
米国特許出願公開第2016/0360177号は、深度情報を利用した全視差圧縮ライトフィールド合成のための方法を説明しており、これは、要素画像の全集合の部分集合を形成する要素画像の集合からライトフィールドを作成するためのビュー合成方法の適用に関するものである。本明細書に記載されるビュー合成技術は、後方ワーピング中に引き起こされる再構築アーティファクトを処理する方法を説明し、または与えるものではない。
【0010】
米国特許出願公開第2015/0201176号は、完全視差圧縮ライトフィールド3D撮像システムのための方法を記載しており、キャプチャされているシーン内のオブジェクトの距離に基づいたライトフィールド内の要素画像のサブサンプリングを開示している。この方法では、符号化の速度を向上させ得る単純な条件を使用して、ライトフィールドをダウンサンプリングする可能性が説明されているが、最悪の場合、ダウンサンプリングが行われない3Dシーンが存在し、符号化前にライトフィールド全体が存在していることに依存する変換符号化技術に頼ることになる。
【0011】
多次元コンテンツをライトフィールドディスプレイにリアルタイムで配信するためには、データ伝送能力の向上、データのエンコーダ・デコーダ(CODEC)の改良、およびデータ伝送能力およびコーデック能力の両方の改善を実現するための方法が必要である。
【発明の概要】
【0012】
本発明は、概して、ライトフィールドディスプレイをリアルタイムで駆動するための3D画像データの符号化および復号化に関するものであり、これは、現在のハードウェアの制限を克服し、またはそれを利用して実装され得るものである。
【0013】
本開示の目的は、システム伝送レイテンシを低減した高帯域幅レートのコーデックを提供し、ライトフィールドの生成を、リアルタイムで、良好な解像度で、ライトフィールドディスプレイで、ビデオストリーミングでの適用およびリアルタイムのインタラクティブゲームに提供することである。ライトフィールドまたは3Dシーンデータは、部分集合に分解される。当該部分集合は、(層状ライトフィールドに対応する)層、またはデータ層と称され得、これは、サンプリングされ、伝送のためのデータを圧縮するためにレンダリングされ、次いで、ライトフィールドディスプレイでのデータ層に対応するライトフィールドを構築およびマージするために復号化される。
【0014】
一態様では、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することと、
第1のデータセットを、参照位置に関して異なる位置でシーンの異なる部分を各々表す複数の層に分割することと、
層のうちの少なくとも1つに対応するデータを複数のサブセクションに分割することであって、特定のサブセクションの位置が、シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割することと、
複数の層および複数のサブセクションを符号化して第2のデータセットを生成することと、を含む方法が提供される。
【0015】
別の態様では、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することであって、第1のデータセットが、シーン内のサーフェス上の法線の方向に関する情報を含む、受信することと、
法線の方向が、参照方向に関して表され、
サーフェスの少なくとも一部が、非ランベルト反射特性を有する、受信することと、
第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置におけるシーンの一部分を表す、分割することと、
複数の層を符号化して第2のデータセットを生成することであって、第2のデータセットのサイズが、第1のデータセットのサイズよりも小さい、符号化することと、
を含む、方法が提供される。
【0016】
別の態様では、ライトフィールド画像レンダリング方法であって、
シーンの3次元サーフェス記述を層に分割するステップであって、各層が、関連するライトフィールドおよびサンプリングスキームを有する、分割するステップと、
少なくとも1つの層を複数のサブセクションにさらに分割するステップであって、各サブセクションが、関連付けられたライトフィールドおよびサンプリングを有し、特定のサブセクションの位置が、シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割するステップと、
サンプリングスキームに従って、各層および各サブセクションについて、ピクセル追加情報を含む第1の集合のピクセルをレンダリングし、サンプリングされたライトフィールドに対応させるステップと、
第1の集合のピクセルを使用して、各層およびサブセクションのサンプリングされたライトフィールドを再構築するステップと、
再構築されたライトフィールドを単一の出力ライトフィールド画像にマージするステップと、を含む方法が提供される。
【0017】
別の態様では、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することと、
第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置におけるシーンの一部分を表す、分割することと、
複数の層の各々について、シーン内のオブジェクトの対応する部分を表す1つ以上のポリゴンを取得することと、
1つ以上のポリゴンに基づいて、ビュー独立表現を決定することと、
第2のデータセットの一部分としてビュー独立表現を符号化することであって、第2のデータセットのサイズが、第1のデータセットのサイズよりも小さい、符号化することと、を含む方法が提供される。
【0018】
別の態様では、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することと、
第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置におけるシーンの一部分を表す、分割することと、
複数の層を符号化して、層上でサンプリング動作を実行することによって第2のデータセットを生成することであって、
実効解像度関数を使用して、好適なサンプリングレートを決定することと、
好適なサンプリングレートを使用して、層と関連付けられた要素画像をダウンサンプリングすることと、を含み、
第2のデータセットのサイズが、第1のデータセットのサイズよりも小さい、符号化することと、を含む方法が提供される。
【0019】
別の態様では、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信することであって、第1のデータセットが、シーン内のサーフェスの透明度に関する情報を含む、受信することと、
第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置におけるシーンの一部分を表す、分割することと、
複数の層を符号化して第2のデータセットを生成することであって、第2のデータセットのサイズが、第1のデータセットのサイズよりも小さい、符号化することと、
を含む、方法が提供される。
【0020】
別の態様では、ライトフィールド画像レンダリング方法であって、
シーンの3次元サーフェス記述を層に分割するステップであって、各層が、関連するライトフィールドおよびサンプリングスキームを有する、分割するステップと、
少なくとも1つの層を複数のサブセクションにさらに分割するステップであって、各サブセクションが、関連付けられたライトフィールドおよびサンプリングを有し、特定のサブセクションの位置が、シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割するステップと、
サンプリングスキームに従って、各層および各サブセクションについて、ピクセル追加情報を含む第1の集合のピクセルをレンダリングし、サンプリングされたライトフィールドに対応させるステップと、
第1の集合のピクセルを使用して、各層およびサブセクションのサンプリングされたライトフィールドを再構築するステップと、
再構築されたライトフィールドを単一の出力ライトフィールド画像にマージするステップと、を含む方法が提供される。
【0021】
実施形態は、以下の特徴のうちの1つ以上を含み得る。
【0022】
本方法の一実施形態では、第2のデータセットは、リモートデバイスと関連付けられた表示デバイスで提示されるシーンのために、リモートデバイスに伝送される。
【0023】
本方法の一実施形態では、層またはサブセクションを符号化することは、第1のデータセットの対応する部分に対してサンプリング動作を実行することを含む。
【0024】
本方法の一実施形態では、サンプリング動作は、第2のデータセットと関連付けられたターゲット圧縮率に基づいている。
【0025】
本方法の一実施形態では、複数の層または複数のサブセクションを符号化することは、第1のデータセットの対応する部分に対してサンプリング動作を実行することを含み、サンプリング動作を実行することは、
レイトレーシングを使用して、符号化されるピクセルの集合をレンダリングすることと、複数の要素画像から複数の要素画像を、ピクセルの集合が選択された複数の要素画像を使用してレンダリングされるように選択することと、
サンプリング動作を使用して、ピクセルの集合をサンプリングすることと、を含む。
【0026】
本方法の一実施形態では、サンプリング動作は、プレノプティックサンプリングスキームに従って、複数の要素画像の対応する部分から複数の要素画像を選択することを含む。
【0027】
本方法の一実施形態では、サンプリング動作を実行することは、
層またはサブセクションと関連付けられた実効空間解像度を決定することと、
決定された角解像度に従って、複数の要素画像の対応する部分から複数の要素画像を選択することと、を含む。
【0028】
本方法の一実施形態では、角解像度は、層またはサブセクションと関連付けられたシーンの一部と関連付けられた方位解像度の関数として決定される。
【0029】
本方法の一実施形態では、角解像度は、表示デバイスと関連付けられた視野として決定される。
【0030】
本方法の一実施形態では、3次元記述は、複数の要素画像を表すライトフィールドデータを含む。
【0031】
本方法の一実施形態では、複数の要素画像の各々は、1つ以上の画像取得デバイスによってキャプチャされる。
【0032】
本方法の一実施形態では、第1のデータセットは、シーンに含まれるサーフェス上の法線の方向に関する情報を含み、法線の方向は、参照方向に対して表されている。
【0033】
本方法の一実施形態では、サーフェスの少なくとも一部の反射特性は、非ランベルト的である。
【0034】
本方法の一実施形態では、層またはサブセクションを符号化することは、
層またはサブセクションについて、シーン内のオブジェクトの対応する部分を表す1つ以上のポリゴンを取得することと、
1つ以上のポリゴンに基づいて、ビュー独立表現を決定することと、
第2のデータセット内のビュー独立表現を符号化することと、をさらに含む。
【0035】
本方法の一実施形態では、
第2のデータセットを受信することと、
層の各々およびサブセクションの各々に対応する第2のデータセットの部分を復号化することと、
復号化された部分をライトフィールド画像の表現に組み合わせることと、
ライトフィールド画像を表示デバイス上に提示することと、をさらに含む。
【0036】
本方法の一実施形態では、
ライトフィールド画像に対するユーザの位置を示すユーザ入力を受信することと、
表示デバイス上で提示される前に、ユーザ入力に従ってライトフィールド画像を更新することと、をさらに含む。
【0037】
本方法の一実施形態では、表示面の近くに位置する層は、表示面の遠くに位置する同じ幅の層よりも低い圧縮比を実現する。
【0038】
本方法の一実施形態では、第2のデータセットの複数の層は、ライトフィールドを含む。
【0039】
本方法の一実施形態では、ライトフィールドをマージして最終ライトフィールドを作成することをさらに含む。
【0040】
本方法の一実施形態では、層を分割することは、各層の深度範囲を制限することを含む。
【0041】
本方法の一実施形態では、表示面の近くに位置する層は、表示面の遠くに位置する層よりも幅が狭い。
【0042】
本方法の一実施形態では、第1のデータセットを複数の層に分割することは、シーン全体で均一な圧縮率を維持する。
【0043】
本方法の一実施形態では、第1のデータセットを複数の層に分割することは、ライトフィールドディスプレイを内側および外側視錐台ボリューム層の集合に分割することを含む。
【0044】
本方法の一実施形態では、本方法は、多次元ビデオストリーミング、多次元インタラクティブゲーム、リアルタイムインタラクティブコンテンツ、または他のライトフィールドディスプレイシナリオのための合成ライトフィールドを生成するために使用される。
【0045】
本方法の一実施形態では、合成ライトフィールドは、有効視域内でのみ生成される。
【0046】
一態様では、ライトフィールド画像をレンダリングするためのコンピュータ方法であって、
シーンの3次元サーフェス記述を層に分割することであって、各層が、関連するライトフィールドおよびサンプリングスキームを有する、分割することと、
少なくとも1つの層を複数のサブセクションにさらに分割することであって、各サブセクションが、関連付けられたライトフィールドおよびサンプリングを有し、特定のサブセクションの位置が、シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割することと、
サンプリングスキームに従って、各層および各サブセクションについて、ピクセル追加情報を含む第1の集合のピクセルをレンダリングし、サンプリングされたライトフィールドに対応させることと、
第1の集合のピクセルを使用して、各層およびサブセクションのサンプリングされたライトフィールドを再構築することと、
再構築されたライトフィールドを単一の出力ライトフィールド画像にマージすることと、を含む方法が提供される。
【0047】
本方法の一実施形態では、第1の集合のピクセルおよび関連付けられたピクセル追加情報は、部分集合に分割され、それによって、各層のためのサンプリングされたライトフィールドを再構築し、キャッシュ内の単一の部分集合からのピクセルを使用してマージが実行され、出力ライトフィールド画像の一部の部分集合を作成する。
【0048】
本方法の一実施形態では、第1の集合内のピクセルをキャッシュから再投影することによって、各層のサンプリングされたライトフィールドを再構築することが行われ、出力ライトフィールド画像の一部の部分集合を作成することをさらに含む。
【0049】
本方法の一実施形態では、ピクセルを再投影することが、第1の集合のピクセル内の単一の次元に沿ったワーピングプロセス、続いて第1の集合のピクセル内の第2の次元内の第2のワーピングプロセスを使用して実行されることをさらに含む。
【図面の簡単な説明】
【0050】
本発明のこれらおよび他の特徴は、添付の図面を参照する以下の詳細な説明においてより明らかになるであろう。
【0051】
【
図1】本開示による層状シーン分解(コーデック)システムの実施形態の概略表現(ブロック図)である。
【
図2】ライトフィールドディスプレイの内側視錐台ボリュームおよび外側視錐台ボリュームの概略上下図である。
【
図3A】本開示によるピクセル再構築のためのエッジ適応補間の適用を概略的に示す。
【
図3B】ピクセルアレイを再構築するためのプロセスフローを示す。
【
図4】本開示による画像(ピクセル)再構築プロセスの一部として、ピクセルマトリックス内のサンプリングスキームによって指定された要素画像を概略的に示す。
【
図5】本開示による画像(ピクセル)再構築プロセスの一部としてのピクセルマトリックスの列単位の再構築を概略的に示す。
【
図6】本開示による画像(ピクセル)再構築プロセスの一部としてのピクセルマトリックスの後続の行単位の再構築を示す。
【
図7】本開示による例示的なコーデックシステムの実施形態を概略的に示す。
【
図8】ディスプレイの内側視錐台ライトフィールドに相関する画像データセット(10層の層状スキーム)の例示的な層状シーン分解を概略的に示す。
【
図9】画像データ(10層の2つの層状スキーム)の例示的な層状シーン分解を概略的に示しており、それぞれディスプレイの内側視錐台および外側視錐台ライトフィールド領域に相関している。
【
図10】本開示による例示的なコーデックプロセスフローを示す。
【
図11】本開示による、3D画像(シーン)データを符号化して、層状かつ圧縮された、コア符号化(ライトフィールド)表現を生成するための例示的なプロセスフローを示す。
【
図12】本開示による、コア符号化表現を復号化して、ディスプレイにおいて(ディスプレイ)ライトフィールドを構築するための例示的なプロセスフローを示す。
【
図13】本開示による、ディスプレイにおいて(ディスプレイ/最終)ライトフィールドを生成するためにコア画像データと共に使用するための剰余画像データを符号化および復号化する例示的なプロセスフローを示す。
【
図14】本開示による、層状深度画像を含む例示的なコーデックプロセスフローを示す。
【
図15】本開示による、鏡面光計算を含む例示的なコーデックプロセスフローを示す。
【
図16】本開示による、鏡面光計算を含む代替の例示的なコーデックプロセスフローを示す。
【
図17】本開示による、ビュー独立ラスタライゼーションを含む例示的なコーデックプロセスフローを示す。
【
図18】本開示による、実効解像度関数を使用してサンプリング動作を実行することを含む例示的なコーデックプロセスフローを示す。
【
図19】奥行き方向の実効解像度を測定するために使用される観察者ベースの構築された平面を示す。
【
図20】シーンの深度に対する実効解像度の漸近性を示す。
【
図21】本開示による、透明度を含む例示的なコーデックプロセスフローを示す。
【発明を実施するための形態】
【0052】
本発明は概して、ライトフィールドデータまたは多次元シーンデータ圧縮および解凍のためのコーデックシステムおよび方法に関し、ライトフィールドディスプレイでのライトフィールドの効率的な(迅速な)伝送および再構築を提供する。
【0053】
本発明の様々な特徴は、図面の図示と共に以下の詳細な説明から明らかになるであろう。本明細書で開示される層状シーン分解コーデックの設計要因、構築、および使用法は、本明細書で説明され、特許請求されるように、本発明の範囲を限定することを意図しない実施形態を表す様々な例を参照して説明される。本発明が関連する分野の当業者は、本発明の範囲および趣旨から逸脱することなく、本開示の教示に従って実施され得る、本明細書に開示されていない本発明の他の変形例、実施例および実施形態が存在し得ることを理解するであろう。
【0054】
定義
別途定義されない限り、本明細書で使用される全ての技術用語および科学用語は、本発明が関連する技術分野の当業者に一般に理解される意味と同じ意味を有する。
【0055】
用語「a」または「an」は、本明細書で「含む」という用語と併せて使用される場合、「1つの」を意味し得るが、「1つ以上の」、「少なくとも1つの」、および「1つまたは1つを超える」の意味とも一致する。
【0056】
本明細書で使用される場合、「備える」、「有する」、「含む」、および「含有する」、ならびにそれらの文法的変形は、包括的であるか、または開放的であり、追加の、列挙されていない要素および/または方法ステップを除外しない。「から本質的になる」という用語は、組成物、デバイス、物品、システム、使用または方法に関連して本明細書で使用される場合、追加の要素および/または方法ステップが存在し得ることを示すが、これらの追加は、列挙された組成物、デバイス、物品、システム、方法または使用が機能する様式に実質的に影響を及ぼさないことを意味する。本明細書で組成物、デバイス、物品、システム、使用、または方法に関連して使用される場合、「からなる」という用語は、追加の要素および/または方法ステップの存在を除外する。ある特定の要素および/またはステップを含むように本明細書に記載される組成物、デバイス、物品、システム、使用または方法は、ある特定の実施形態では、本質的にそれらの要素および/またはステップから構成されてもよく、他の実施形態では、これらの実施形態が具体的に参照されているかどうかにかかわらず、それらの要素および/またはステップから構成されてもよい。
【0057】
本明細書で使用される場合、「約」という用語は、所与の値からおよそ+/-10%の変動を指す。かかる変動、本明細書に提供される任意の所与の値に具体的に言及されているか否かにかかわらず、常に含まれることを理解されたい。
【0058】
本明細書における範囲の列挙は、本明細書に別段の指示がない限り、範囲および範囲内に収まる個々の値の両方を、範囲を示すために使用される数字と同じ場所の値に伝えることを意図している。
【0059】
任意の実施例または例示的言語、例えば、「など」、「例示的な実施形態」、「例示的実施形態」、および「例えば」の使用は、本発明に関連する態様、実施形態、変化、要素、または特徴を例示または示すことを意図しており、本発明の範囲を限定することを意図しない。
【0060】
本明細書で使用される場合、「接続する」および「接続される」という用語は、本開示の要素または特徴の間の任意の直接的または間接的な物理的会合を指す。したがって、これらの用語は、接続されていると説明される要素または特徴の間に介在する他の要素または特徴が存在する場合であっても、互いに部分的にまたは完全に含有され、取り付けられ、結合され、配置され、一緒に結合され、通信され、動作可能に関連付けられている要素または特徴を示すと理解されてもよい。
【0061】
本明細書で使用される場合、基本レベルでの「ライトフィールド」という用語は、オクルージョンがない空間内の点を通るあらゆる方向に流れる光の量を説明する関数を指す。したがって、ライトフィールドは、自由空間における光の位置および方向の関数としての輝度を表している。ライトフィールドは、様々なレンダリングプロセスを通じて合成的に生成され得るか、またはライトフィールドカメラから、またはライトフィールドカメラのアレイからキャプチャされ得る。
【0062】
ライトフィールドは、最も一般的に、3D空間内の点の集合と、対応する方向の集合との間の、エネルギー値の集合または集合へのマッピングとして説明され得る。実際には、これらのエネルギー値は、赤、緑、青の色強度、または潜在的には他の放射線波長である。
【0063】
本明細書で使用される場合、「ライトフィールドディスプレイ」という用語は、デバイスに入力される有限数のライトフィールド放射サンプルからライトフィールドを再構築するデバイスである。輝度サンプルは、赤色、緑色、青色(RGB)の色成分を表す。ライトフィールドディスプレイにおける再構築のために、ライトフィールドは、4次元空間から単一のRGBカラーへのマッピングとしても理解され得る。4つの次元には、ディスプレイの垂直および水平次元(x,y)およびライトフィールドの指向性成分(u,v)を記述する2つの次元が含まれる。ライトフィールドは、次の関数として定義される。
LF(x,y,u,v)→(r,g,b)
【0064】
固定されたxf、yfについて、LF(xf,yf,u,v)は、「要素画像」と称される2次元(2D)画像を表す。要素画像は、固定されたxf、yf位置からのライトフィールドの指向性画像である。複数の要素画像が並んで接続される場合、得られる画像は、積分画像と称される。積分画像は、ライトフィールドディスプレイに必要なライトフィールド全体として理解され得る。
【0065】
本明細書で使用される場合、「シーン記述」という用語は、ライトフィールド画像またはビデオをレンダリングし得る潜在的なソースであり得る3次元シーンの幾何学的記述を指す。この幾何学的記述は、点、四角形、および多角形によって表され得るが、これらに限定されない。
【0066】
本明細書で使用される場合、「表示面」という用語は、従来の3Dディスプレイのように、平坦なディスプレイ平面およびその個々のライトフィールドホーゲル要素の物理的間隔によって定義される点および方向の集合を指し得る。本開示では、ディスプレイは、本明細書に記載されるように、湾曲したサーフェス上に形成することができる。したがって、点の集合は、その後、湾曲した表示面、または想定され得る任意の他の所望の表示面のジオメトリ上に存在することになる。抽象的な数学的意味において、ライトフィールドは、任意の幾何学的サーフェス上で定義および表現されてもよく、実際の物理エネルギー放出能力を有する物理的表示面に必ずしも対応しなくてもよい。
【0067】
本明細書で使用される場合、「要素画像」という用語は、固定されたxf、yf、LF(xf,yf,u,v)についての2次元(2D)画像、LF(xf,yf,u,v)を表す。要素画像は、固定されたxf、yf位置からのライトフィールドの指向性画像である。
【0068】
本明細書で使用される場合、「積分画像」という用語は、並んで接続された複数の要素画像を指しており、結果として生じる画像が「積分画像」と称される。積分画像は、ライトフィールドディスプレイに必要なライトフィールド全体として理解され得る。
【0069】
本明細書で使用される場合、「層」という用語は、表示面に対して平行または非平行で、一貫した幅または可変の幅を有する、任意の2つの平行または非平行な境界を指す。
【0070】
本明細書で使用される場合、「ピクセル」という用語は、ディスプレイを作成するために使用される光源および発光機構を指す。
【0071】
本明細書に開示される組成物、デバイス、物品、方法、および使用の任意の実施形態は、本発明の範囲および趣旨から逸脱することなく、現状のまま、またはかかる変形または等価物を作製することによって実装され得ることが企図される。
【0072】
層状シーン分解(LSD)コーデックシステムおよび方法
本開示によるコーデックは、ライトフィールドディスプレイを生成するための既知のサンプリング、レンダリング、およびビュー合成方法を利用するストラテジを適用し、その導出、実装、および用途を含む、本明細書に開示された新規の層状シーン分解ストラテジと組み合わせて使用するために該ストラテジを適応させる。
【0073】
3Dディスプレイ
従来技術において既知の従来のディスプレイは、理想化された均一なサンプリングを可能にする2次元アレイにおいて実質的に均等に間隔を置いて編成された空間ピクセルからなる。対照的に、3次元ディスプレイには、空間サンプルと角度サンプルの両方が必要である。典型的な3次元ディスプレイの空間サンプリングは均一であるが、角度サンプルは、角度空間におけるディスプレイのフットプリントの観点から均一であるとは必ずしもみなされない。角度線分布に対する様々なライトフィールドパラメータの概説に関しては、米国特許第6,549,308号を参照されたい。
【0074】
ライトフィールドの指向性成分としても知られる角度サンプルは、「The Lumigraph」でGortlerらによって教示された平面パラメタライゼーション等の様々な方式でパラメタライゼーションされ得る。ライトフィールド関数が位置の観点から離散化されるとき、ライトフィールドは、Chaiが「Plenoptic Sampling」で教示したように、平面パラメタライゼーションされたピンホールプロジェクタの規則的な間隔のアレイとして理解され得る。固定されたxf、yfについて、要素画像LF(xf,yf,u,v)は、任意の光線パラメタライゼーションを伴うピンホールプロジェクタによって投影される画像として理解され得る2次元画像を表す。ライトフィールドディスプレイについて、連続要素画像は、有限数のライトフィールド輝度サンプルによって表される。理想化され、平面パラメタライゼーションされたピンホールプロジェクタについて、該有限数のサンプルは、規則的に間隔を置いたアレイとして画像平面にマッピングされる(平面内の規則的な間隔は、対応する角度方向空間内の規則的な間隔に対応しない)。
【0075】
典型的な3Dライトフィールドディスプレイの場合、点および方向の集合は、平面ディスプレイ平面およびその個々のライトフィールドホーゲル要素の物理的な間隔によって定義される。しかしながら、ディスプレイは湾曲したサーフェス上に形成され得ることが知られている。したがって、点の集合は、その後、湾曲した表示面、または想定され得る任意の他の所望の表示面のジオメトリ上に存在することになる。抽象的な数学的意味において、ライトフィールドは、任意の幾何学的サーフェス上で定義および表現されてもよく、実際の物理エネルギー放出能力を有する物理的表示面に必ずしも対応しなくてもよい。Chenらによって示されるように、文献におけるサーフェスライトフィールドの概念はこのケースを例示している。
【0076】
ライトフィールドの指向性成分が様々な他の任意のパラメタライゼーションによってパラメタライゼーションされ得るため、平面パラメタライゼーションの検討は、本開示の範囲または趣旨を限定することを意図しない。例えば、物理的に具現化されたピンホールプロジェクタにおけるレンズの歪みまたは他の光学効果は、平面パラメタライゼーションの歪みとしてモデリングされ得る。さらに、表示成分は、Clarkらによって教示された「A transformation method for the reconstruction of functions from nonuniformly spaced samples」のように、ワーピング関数を介して定義され得る。
【0077】
ワーピング関数α(u,v)により、ピンホールプロジェクタの歪んだ平面パラメタライゼーションが定義され、ライトフィールドにおける指向性光線の任意の交互の角度分布が生成される。ライトフィールドピンホールプロジェクタから伝播する光線の角度分布は、ピンホールプロジェクタの焦点距離fおよび対応する2次元ワーピング関数α(u,v)によって決定される。
【0078】
1人以上のユーザのためにライトフィールドを投影する自動立体ライトフィールドディスプレイは、以下のように定義される。
D=(Mx,My,Nu,Nv,f,α,DLP)
【0079】
式中、(Mx,My)はディスプレイの空間解像度の水平次元および垂直次元であり、(Nu,Nv)はディスプレイの角解像度成分の水平次元および垂直次元である。ディスプレイは、理想化されたライトフィールドプロジェクタのアレイであり、ピッチDLP、焦点距離f、およびワーピング関数αは、ディスプレイによって投影されたライトフィールドの光線方向の分布を定義する。
【0080】
ライトフィールドディスプレイD=(Mx,My,Nu,Nv,f,α,DLP)を駆動するライトフィールドLF(x,y,u,v)には、x方向のMxライトフィールド輝度サンプル、y方向のMyライトフィールド輝度サンプル、およびu方向およびv方向のNu、およびNvライトフィールド輝度サンプルが必要となる。Dは、単一のワーピング関数αで定義されているが、実用的なピンホールプロジェクタに顕著なマイクロレンズ変動が存在し、角度線分布が一方のマイクロレンズから他方のマイクロレンズに顕著に変化する場合、理想化されたライトフィールドピンホールプロジェクタのアレイ内のライトフィールド平面パラメタライゼーションされたピンホールプロジェクタの各々は、固有のワーピング関数αを有し得る。
【0081】
ライトフィールドディスプレイのレンダリング
Halleらは、「Fast computer graphics rendering for full parallax spatial displays」において、ディスプレイの内側視錐台ボリュームおよび外側視錐台ボリューム内に位置するオブジェクトをレンダリングする方法を提供している。
図2は、これらの2つの別個の視錐台によって定義されるボリューム領域内のオブジェクトを表すライトフィールドディスプレイを図示しており、内側視錐台ボリューム(110)は、表示面(300)の後方(すなわち、ディスプレイ内)に位置し、外側視錐台ボリューム(210)は、表示面の前方(すなわち、ディスプレイの外)に位置している。図示されるように、様々なオブジェクト(プリズム形状および円形形状として概略的に示される)は、表示面(300)から様々な深度に位置している。
【0082】
Halleらは、内側視錐台ボリュームと外側視錐台ボリュームとが別々に2つの異なるライトフィールドとしてレンダリングされる、二重視錐台レンダリング技術を教示している。内側視錐台ボリュームLFO(x,y,u,v)および外側視錐台ボリュームLFP(x,y,u,v)は、深度マージプロセスを介して単一ライトフィールドLF(x,y,u,v)に再結合される。
【0083】
この技術では、ピンホールカメラレンダリングモデルを使用して、ライトフィールドの個々の要素画像が生成される。各要素画像(すなわち、各レンダリングされた平面パラメタライゼーションピンホールプロジェクタ画像)には、内側視錐台ボリュームをキャプチャするための1つのカメラと、外側視錐台ボリュームをキャプチャするための1つのカメラとの2つのカメラの使用が必要となる。Halleらは、標準のオルソスコピックカメラおよびその共役擬似スコピックカメラを使用して、ライトフィールドのサンプリング領域でピンホールプロジェクタ画像をレンダリングすることを教示している。ピンホールカメラCについては、対応するコンジュゲートカメラをC*と表記する。
【0084】
ワーピング関数αを使用してパラメタライゼーションされたプロジェクタでライトフィールドディスプレイ内の要素画像をキャプチャするために、理想化された平面パラメタライゼーションされたピンホールカメラの再パラメタライゼーションに基づく一般化ピンホールカメラが使用される。Gortlerらによって教示されるように、焦点距離fを有するピンホールカメラCは、2つの平行面によって作成されるパラメタライゼーションによって定義される光線を有している。ピンホールカメラCは、画像IC(u,v)をキャプチャする。ここで(u,v)は、光線パラメタライゼーション面の座標である。一般化ピンホールカメラであるCαは、Clarkらが教示したように、2次元の連続した反転可能なタイムワーピング関数を使用してワーピングされた平面パラメタライゼーションされたカメラに基づいている。ワーピング関数α(u,v)では、その逆はγ(u,v)である。したがって、Cαの画像は、ICα=IC(α(u,v))である。
【0085】
一般化ピンホールカメラであるCαが与えられると、共役一般化カメラ
【数1】
が形成され、二重視錐台レンダリングが完了する。一般化ピンホールカメラペアのM
x×M
yグリッドから生成されたビューがレンダリングされ、ライトフィールドディスプレイのライトフィールドがレンダリングされる。
【0086】
したがって、所与のライトフィールドディスプレイD=(M
x,M
y,N
u,N
v,f,α,D
LP)のライトフィールドLF(x,y,u,v)を生成するためにレンダリングする必要がある全ての一般化ピンホールカメラペアの集合は、次のように定義される。
【数2】
【0087】
オルソスコピックカメラの集合(O={(Cα(x,y)|1≦x≦M
x,1≦y≦M
y})は、内側視錐台ボリュームに対応するライトフィールド画像をキャプチャし、共役一般化カメラの集合
【数3】
は、外側視錐台ボリュームに対応する画像をキャプチャする。上述したように、内側視錐台ボリュームおよび外側視錐台ボリュームは、単一のライトフィールドに組み合わされる。
【0088】
リアルタイムレンダリング
使用可能なライトフィールドディスプレイは、少なくとも10~100億ピクセルを必要とし、各々がライトフィールドの異なる指向性光線を表すと考えられている。30Hzの適度なインタラクティブフレームレートを考慮し、各生光線ピクセルに24ビットが必要と仮定すると、これは、(100億ピクセル)×(24ビット/ピクセル)×(30フレーム/秒)=720Gビット/秒の帯域幅を必要とすることになる。最終的には、より高精細なディスプレイが求められるため、このディスプレイ技術が民生市場に普及し、映像の忠実性の点で技術が進化し続けると、この要件は現実的に100Tビット/秒にまで拡大すると考えられる。
【0089】
インタラクティブコンピュータグラフィックスレンダリングは、少なくとも従来のように、シーンを撮像する仮想カメラのシミュレーションを計算することを必要とする計算プロセスである。シーンは、典型的には、様々な材料、色、および物理的な光学特性、ならびに様々な視聴カメラ位置を有する光源およびサーフェスまたはボリュームの集合として説明される。このレンダリング計算は、インタラクティブフレームレート(例えば、少なくとも30Hz)を生成するのに十分な速さで実行する必要がある。レンダリングの忠実度は、光輸送計算がどの程度近似されるかに基づいて調整することができる。当然ながら、より多くの近似を用いることで、計算要件が減少する。このため、インタラクティブなコンピュータグラフィックスは、通常、非常に高忠実度の光輸送モデルが採用されているオフラインレンダリンググラフィックスよりも低い視覚的忠実度を有する。
【0090】
インタラクティブ性の要件とは、一定のフレームレート(一般的には少なくとも20~30Hzであるが、より高いフレームレートが望まれることも多い)とそれに対応する帯域幅を意味しているが、レイテンシを低減して、ユーザの入力に対するグラフィックの即時応答をサポートすることも意味している。レイテンシの要件と組み合わされた高い帯域幅は、計算上の課題となっている。
【0091】
従来の2Dコンピュータグラフィックスでは、低レイテンシ、高フレームレートのグラフィックスの課題に対応することにより、グラフィックス処理ユニット(GPU)として既知のインタラクティブレンダリング計算を加速するように設計された専用ハードウェアが広く使用されている。これらの専用アーキテクチャは、現行のコンピュータで使用される汎用中央処理装置(CPU)よりもはるかに高いインタラクティブレートで視覚的忠実度を生み出すことができる。これらのアーキテクチャは、パフォーマンス能力においては印象的なものであるが、最終的には特定のタスクに最適化されている(つまり、視覚品質を最大化しながら、シーンの単一カメラ画像を高フレームレートでレンダリングしている)。
【0092】
ライトフィールドディスプレイの場合、レンダリングの問題は、仮想ライトフィールドカメラによって生成された画像をレンダリングすることである。ライトフィールドカメラ(より詳細には他の箇所で定義されている)は、多くの従来の2Dカメラビューのアレイとして見ることができる。このより一般的なカメラモデルは、実質的に異なる幾何学的構造を有する計算をもたらす。その結果、既存の加速コンピュータグラフィックスハードウェアのフレームワークに計算がうまくマッピングされていない。
【0093】
従来のケースでは、レンダリング計算パイプラインの手順が定義されている。これは、伝統的にラスタライゼーションに基づいているが、レイトレーシングパイプライン(最近ではDirectXレイトレーシングなど)も標準化されている。いずれの場合も、計算ハードウェアアーキテクチャは、これらのパイプラインの形態およびそれらに関連する必要な計算に合わせて調整されており、最終的な目標は、ビデオフレームレートでの2D画像の生成である。
【0094】
レンダリングアーキテクチャのコスト、サイズ、重量、および電力要件を最小限に抑えるために、最小限のハードウェアフットプリントで実現され得るインタラクティブなライトフィールドレンダリング計算のための異なるパイプラインが必要とされている。これらの要件は、最終的に対応する価格帯で消費者製品を作製したいという要望に基づいている。
【0095】
所望によりライトフィールドレンダリングのパイプラインと大きなデータレートを検討する場合、大きなボトルネックとなるのが、必要となるメモリ帯域である。従来の2Dビデオレンダリングおよび処理では、ダブルデータレート(DDR)メモリ内のフレーム全体(またはフレームの連続)にバッファリングすることが一般的に行われる。DDRのデータレートとそのコスト対能力は、これらのタイプのアプリケーションに非常に好適であるという観察結果がある。しかしながら、以前に考察されたようにライトフィールドの帯域幅が要求されていることから、物理的なフットプリントとコストの点で、DDRによるバッファリングを大幅に行うことは多大な制約になると考えられる。
【0096】
レンダリングの第1のステップは、概して、DDRメモリ内のストレージ、または計算ハードウェアのクロックレートと比較して遅い一部の他のメモリからシーン記述表現をロードすることである。ライトフィールドレンダリングの注目すべき一態様は、各ライトフィールドカメラレンダリングパスが、多かれ少なかれ従来の2Dカメラレンダリングパスのアレイとして見ることができることである。純粋に、これらの2Dカメラ(ホーゲル)の各々は、Halleが提案する「二重視錐台レンダリング」の方法で、内側ホーゲルと外側ホーゲルのために2回レンダリングする必要がある。そして、ディスプレイにより表される全ての方向に対して、光線の数は2となる。既存の技術から明らかな代替のスキームは、内側および外側遠位クリップ平面を定義し、外側遠位クリップ平面から、表示面上のホーゲルを通して、かつ内側遠位クリップ平面での端部(またはその逆)に光線を投影させることである。これにより、1ピクセルあたり1つの光線が得られる。
【0097】
最悪の場合は、アレイ内のこれらの2Dカメラレンダリングパスの各々は、シーン記述全体をロードする必要がある。より楽観的な場合であっても、DDRまたは他の低速メモリからのシーン記述の反復ロードは、特に、シーンが通常、フレームごとに最大でも少数の回数しかアクセスされない従来の2Dレンダリングと比較して、大きな帯域幅の要求をもたらす場合がある。
【0098】
冗長なメモリアクセスが発生していると考えられるため、かかる状況がキャッシュストラテジの使用によって対処することができるかどうかを検討する価値がある。高性能コンピューティングでは、データが何らかの一貫した予測可能なパターンで冗長にロードされるように計算が構造化されているときに、より小さい高速なストレージ(典型的には、計算が実行されているチップのダイ上に直接配置されたストレージ)にデータをキャッシュすることで、DDRまたはメモリ帯域幅の制約を著しく緩和することができる。ライトフィールドレンダリングの点で、各ホーゲルの要素画像レンダリングは、最悪の場合では、同じシーン記述を必要とするため、キャッシュを効果的に利用することで、大きな潜在的冗長性を特定することができる。シーンの単一のカメラビューのサーフェスレンダリングのための現行のレイトレーシング技術では、画像平面上のコヒーレント光線がしばしば同じジオメトリと(または少なくとも一次交点について)交差するという原理によって、キャッシュコヒーレンシを利用することができる。ポリゴンから単一の撮像カメラへのラスタライゼーションでは、単一のポリゴンが、一度ロードされるとハードウェアにキャッシュされ、それが交差する全てのピクセルがハードウェアアクセラレーションラスタライゼーションプロセスで計算されるため、本質的にこの同じコヒーレンシが利用されている。ライトフィールドのコンテキストでは、これらの同じコヒーレンシの原理は、レイトレーシングまたはラスタライゼーションを使用してレンダリングされる場合、ライトフィールドを構成する個々の2Dカメラビュー内で利用され得ることが明らかとなっている。
【0099】
ライトフィールドカメラ内の異なるホーゲルからの撮像光線が同じポリゴンと交差し、コヒーレンシの追加の要素を提示することも観察され得る。このコヒーレンシは、ライトフィールドディスプレイのためのより高性能のインタラクティブレンダリングシステムを生成するために、構造化された形態で利用し得ることが提案されている。部分的にレンダリングされた形態である、出力ライトフィールドの構造化された中間体をバッファリングすることによって、このコヒーレンシをどのように利用することができるかが示されている。このバッファを、本明細書では、ライトフィールドサーフェスバッファ、またはサーフェスバッファと称する。このバッファ内のピクセルはまた、例えば、色、深度、サーフェス座標、法線、材料値、透明度値、および他の可能性のあるシーン情報などのピクセル追加情報を含み得る。
【0100】
従来の2Dレンダリングレイトレーシングパイプラインを効果的に使用して、サーフェスバッファを効率的にレンダリングし得ることが提案されている。サーフェスバッファは、本明細書に提示されるような層状シーン分解およびサンプリングスキームの概念に基づいており、これにより、どのピクセルがサーフェスバッファを構成するかが指定される。本明細書内で提示される分析に基づいて、適切に選択された層状シーン分解およびサンプリングスキームでは、結果として生じるサーフェスバッファをデータ圧縮スキームの形態として見ることができるため、所望のレンダリングされた出力ライトフィールド画像フレームよりも少ないピクセルを含むと判定され得ることが示され得る。
【0101】
さらに、適切に選択された層状シーン分解およびサンプリングスキームにより、ターゲットとされたライトフィールドカメラビューのいずれかのホーゲルから見えるシーン内の全てのサーフェス領域のサンプルを含むサーフェスバッファが得られる。かかるサーフェスバッファには、各層および層サブセクションと関連付けられたライトフィールドの再構築を可能にするデータが含まれる。再構築されると、これらのライトフィールドは、本明細書の他の箇所で説明されているように、所望のレンダリング出力を表す単一のライトフィールド画像にマージすることができる。
【0102】
さらに、得られたサーフェスバッファをより小さな部分集合に分割し得ることが提案されている。この分割は、サーフェスバッファデータの各部分集合がそれ自体によって、結果として生じる出力ライトフィールドの一部を再構築するために使用され得るような方式で行われ得る。1つの実用的な実施形態は、サイズがΔEI関数に基づく層およびサブセクションを分割することと、次いで、パーティションごとに少数(例えば、4)の要素画像を含むサンプリングスキームを選択することと、を含み、これらは、次いで、パーティション内でサンプリングされていない要素画像を再構築するために使用される。この分割が適切に選択された場合、サーフェスバッファの部分集合をより高速なキャッシュメモリにロードすることができ、そこから、より遅いシステムメモリからの反復ロードに頼ることなく、再構築およびマージ計算を実行することができる。
【0103】
したがって、インタラクティブレートでライトフィールドビデオをレンダリングする効率的な方法は、シーンの3D記述から始まり、サーフェスバッファをレンダリングし、次に、所望の出力ライトフィールド画像の対応する部分を作成するために、サーフェスバッファのキャッシュされた個々のパーティションから層およびサブセクションを再構築することによって、最終出力フレームをレンダリングすると説明され得る。この形式でレンダリングが構造化される場合、従来の2Dレンダリングパスの数としてライトフィールドレンダリングを実行するブルートフォースの方法論を適用するのとは対照的に、キャッシュメモリはサーフェスバッファの分割によって構造化された様式で利用することができるため、より遅いメモリ帯域幅が必要とされる。
【0104】
ビュー独立ラスタライゼーション
Maarsらは、ビュー独立ラスタライゼーションを使用した一般化マルチビューレンダリング技術を提示している。ポイント生成後、ポイント表現を使用して多重ビューを並列にレンダリングしている。本発明者らは、a)VIRのピクセルシェーダステージに直接ポイントをストリーミングするか、またはb)ポイントを別のバッファに格納し、GPU計算スレッドをディスパッチする(
図4に示す)かのいずれかによって、ポイントレンダリングを実行する。単純なポイントレンダリングカーネルでは、ポイントのワールド空間の位置を読み取り、各ビューについて、対応するビュー-投影マトリックスを適用し、ビューのバッファ内の最近傍隣接ピクセルに投影された位置をスナップし、zバッファリングを実行する。原子関数により、同じテクセルに複数の点が投影されることによって引き起こされるレース状態が解決される。
【0105】
Maarsらが開示した技術の残りの課題は、品質および速度に関連するものである。シーンの3次元記述の層、または部分集合に対するビュー独立ラスタライゼーションの実装形態には、シーン内のオブジェクトのジオメトリに基づいて表される1つ以上のポリゴンを取得することが含まれ得る。ビュー独立表現は、これらのポリゴンの1つ以上に基づいて生成される。生成されたビュー独立表現は、圧縮された第2のデータセットの一部分として符号化される。
【0106】
図17は、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信すること(420)と、
第1のデータセットを、参照位置に関して異なる位置でシーンの異なる部分を各々表す複数の部分集合に分割すること(429)と、
複数の部分集合の各々について、シーン内のオブジェクトの対応する部分を表す1つ以上のポリゴンを取得すること(430)と、
1つ以上のポリゴンに基づいて、ビュー独立表現を決定すること(431)と、
第2のデータセットの一部分としてビュー独立表現を符号化することであって、第2のデータセットのサイズが、第1のデータセットのサイズよりも小さい、符号化すること(432)と、を含む方法を示している。
【0107】
ライトフィールドディスプレイのデータ圧縮
Piaoらは、データの冗長性を識別するために、ライトフィールドの事前の物理的特性を利用している。冗長性は、空間内の隣接点を表す要素画像が著しい重複情報を含むという観察に基づいて、要素画像を破棄するために使用されている。これにより、廃棄する情報を識別するために、計算的に複雑なデータ変換を実行することが回避される。かかる方法では、各要素画像と関連付けられた深度マップ情報は利用されない。
【0108】
Graziosiらは、「Compression for Full-Parallax Light Field Displays」において、単純なピンホールカメラカバレッジのジオメトリに基づいて要素画像をサブサンプリングし、ライトフィールドの冗長性を低減するための基準を提案している。Graziosiらによって教示されたダウンサンプリング技術は、2次元画像およびビデオデータの他のコーデックスキームでよく用いられる複雑な基底分解よりも単純である。オブジェクトがシーンの奥深くに位置する場合、ライトフィールドはより小さなレートでサンプリングされる。例えば、2つの別個のピンホールカメラが2つの異なる視野を提供する場合、1つの要素画像から次の要素画像への差はほとんどなく、2つのピンホールカメラからの視野は重複する。ビューは幾何学的(三角形)重複に基づいてサブサンプリングされるが、ビュー内のピクセルは圧縮されない。これらのピクセルは非常に大きい可能性があるため、Graziosiらは、標準的な2次元画像圧縮技術を使用してピクセルを圧縮している。
【0109】
Graziosiらは、オブジェクトdの最小深度に基づいて、要素画像間のサンプリングギャップ(ΔEI)が以下のように計算され得ることを教示している。ここでθは、ライトフィールドディスプレイの視野を表し、Pは、積分撮像ディスプレイのレンズピッチを表している。
【数4】
【0110】
このストラテジは、画像のオクルージョンがない場合に、前方平行平面の理論的可逆圧縮を提供する。式に示すように、サンプリングギャップはdで増加し、より少ない要素画像が必要な場合の圧縮率を向上させる。十分に小さいdの場合、ΔEIは0に達し得る。したがって、このダウンサンプリング技術は、保証された圧縮率を提供するものではない。複数の小さなオブジェクトがあるシーンでは、オブジェクトがスクリーンに近いか、またはスクリーン距離にある場合、各要素画像は、0の深度で少なくとも一部のピクセルを有しており、この技術はゲインを提供しない(すなわち、積分画像全体にわたってΔEI=0である)。
【0111】
Graziosiらは、レンダリングプロセスを初期の符号化プロセスと等価としている。この方法では、全ての要素画像を生成する代わりに、情報の損失を最小限に抑えながら、ライトフィールドを再構築するために必要な数だけが生成される。深度マップは、符号化のために選択された要素画像に含まれており、欠落している要素画像は、深度画像ベースレンダリング(DIBR)に関連付けられた確立されたワーピング技術を使用して再構築される。選択された要素画像は、H.264/AVC法と同様の方法を使用してさらに圧縮され、画像は、最終的なDIBRベースの復号化段階の前に解凍される。この方法は、合理的な信号歪みレベルを伴う改善された圧縮率を提供しているが、時間ベースのパフォーマンス結果は提示されていない。かかる符号化および復号化では、高帯域幅レートに対して良好な低レイテンシ性能を提供することができない。さらに、この方法は、表示面から離れた1つのオブジェクトに限定される。複数のオブジェクトが重複して表示面に近い多くのオブジェクトがあるシーンでは、H.264/AVCスタイルの符号化を使用するように圧縮が強制的に戻される。
【0112】
Chaiは、特定のシーン深度で前方平行平面オブジェクトを表現するために必要な角度帯域幅の量を決定するために、プレノプティックサンプリング理論を教示している。Zwickerらは、ディスプレイの被写界深度が角解像度に基づいており、解像度が高いほど被写界深度は大きくなることを教示している。したがって、表示面に近いオブジェクトは、より低い角解像度で適切に表現され、一方、遠いオブジェクトは、より大きな角解像度を必要とする。Zwickerらは、平面パラメタライゼーションに基づく理想的な投影レンズを用いる以下の最大表示被写界深度を教示している。
【数5】
【0113】
式中、Plはレンズピッチであり、Ppはピクセルピッチであり、fはレンズの焦点距離である。等方的方位解像度(すなわち、N=Nu=Nv)を有する3次元ディスプレイでは、N=Pl/Ppである。したがって、ZDOF=fNである。
【0114】
ディスプレイの完全な空間解像度を表すのに必要な角解像度を決定するために、所与の深度dにおいて、式は以下のように再構成される。
【数6】
【0115】
したがって、シーン内の各焦点距離により、表示面の所与の空間解像度でオブジェクトを完全に表すのに必要な角解像度の別のピクセルが追加される。
【0116】
層状シーン分解およびサンプリングスキーム
Graziosiらによって教示されたサンプリングギャップおよびZwickerらによって教示されたプレノプティックサンプリング理論により、補完的なライトフィールドサンプリングストラテジが提供される。すなわち、Graziosiらは、遠くのオブジェクト(ΔEI)のダウンサンプリングを増加させ、Zwickerらは、近くのオブジェクト(N
res)のダウンサンプリングを増加させている。しかしながら、シーンを表す単一のライトフィールドをダウンサンプリングする場合、これらのストラテジの組み合わせでは圧縮が保証されない。したがって、本開示では、多次元シーンを複数の層に分割する。この複数の(データ)層への分割は、本明細書では、層状シーン分解と称される。ここで、K
1とK
2は自然数であり、L=(K
1,K
2,L
O,L
P)と定義し、3次元ディスプレイの内側および外側視錐台ボリュームを分割する。内側視錐台は、K
1層の集合に分割され、ここで、
【数7】
である。各内側視錐台層は、表示面から1≦i≦K
1の距離
【数8】
および
【数9】
について、表示面に平行な一対の境界によって定義される。外側視錐台は、K
2層の集合に分割され、ここで、
【数10】
である。各外側視錐台層は、表示面から1≦i≦K
2の距離
【数11】
および
【数12】
について、表示面に平行な一対の境界によって定義される。代替実施形態では、内側および外側視錐台ボリュームは、互いに異なる層状スキームによって分割されてもよく、一対の境界は、表示面に平行であり得るが、平行でなくてもよい。
【0117】
層状シーン分解層の各々は、層の平面境界領域に対するシーン制限に基づいて、関連するライトフィールド(本明細書では「ライトフィールド層」とも称される)を有する。
1≦i≦K
1の内側視錐台層
【数13】
、または1≦j≦K
2の外側視錐台層
【数14】
を有するライトフィールドディスプレイD=(M
x,M
y,N
u,N
v,f,α,D
LP)の層状シーン分解L=(K
1,K
2,L
O,L
P)を検討する。内側視錐台ライトフィールドは、一般化ピンホールカメラの集合O={Cα(x,y)|1≦x≦M
x,1≦y≦M
y}から生成される。この式は、ライトフィールド表示面から距離dの空間
【数15】
だけが撮像されるように制約される。したがって、固定されたx、yとCα(x,y)∈Oを持つ内側視錐台層について、
【数16】
を計算する。同様に、外側視錐台ライトフィールド
【数17】
は、一般化ピンホールカメラの集合
【数18】
から生成される。この式は、ライトフィールド表示面から距離dの空間
【数19】
だけが撮像されるように制約される。したがって、固定されたx、yとCα(x,y)∈Pを持つ外側視錐台層について、
【数20】
を計算する。
【0118】
層状シーン分解Lに対する、内側および外側の視錐台領域のライトフィールドの集合をさらに定義することができる。層状シーン分解L=(K
1,K
2,L
O,L
P)のライトフィールドディスプレイD=(M
x,M
y,N
u,N
v,f,α,D
LP)を仮定する。内側視錐台領域のライトフィールドの集合は
【数21】
のように定義される。外側視錐台領域のライトフィールドの集合は
【数22】
のように定義される。
【0119】
定義されたように、層状シーン分解は、各層のライトフィールドを生成する。任意の層状シーン分解のために、オルソスコピックカメラは内側視錐台ボリュームのライトフィールドを生成し、擬似スコピックカメラは外側視錐台ボリュームのライトフィールドを生成する。これらの一般化ピンホールカメラペアによってキャプチャされたシーンが、不透明なサーフェスのみで構成されている場合、ライトフィールドの各点は、一般化ピンホールカメラプレーンから撮像された空間内の対応する点までの距離を示す関連した深度値を有する。ライトフィールド
【数23】
または
【数24】
が与えられたとき、深度マップ
【数25】
は
【数26】
として形式的に定義され、深度マップ
【数27】
は
【数28】
として形式的に定義される。深度マップD
m=∞では、関連する撮像の一般化ピンホールカメラ光線に対応するサーフェス交点は存在しない。ドメイン全体にわたって、
【数29】
【数30-31】
である。換言すると、層状シーン分解層のライトフィールドと関連付けられた深度マップは、層自体の深度境界によって境界付けられる。
【0120】
マージ演算により、層状シーン分解層を内側および外側視錐台ボリューム、またはLF
OおよびLF
Pに戻すことができる。内側および外側視錐台ボリュームのライトフィールドは、マージ演算子*
mとマージされる。例えば、LF
1(x,y,u,v)とLF
2(x,y,u,v)の2つの任意のライトフィールドが与えられ、i=argmin
j∈
[1,2]D
m[LF
j](x,y,u,v)である場合、*
mは以下のように定義される。
LF
1(x,y,u,v)*
mLF
2(x,y,u,v)=LF
i(x,y,u,v)
したがって、LF
O(x,y,u,v)およびLF
P(x,y,u,v)は、内側および外側視錐台層と関連付けられたライトフィールドをマージすることによって、集合O
LFおよびP
LFから復元することができる。例えば、以下のようになる。
【数32】
【0121】
本開示により、層状シーン分解演算、およびデータをマージして、該分解を逆転させる逆演算が提供される。K層で層状シーン分解を実行すると、K倍の個々のライトフィールドが作成されることが理解される。層状シーン分解の価値は、層によって誘起されるライトフィールドにある。適切なサンプリングスキームを有する複数のダウンサンプリングされた層状シーン分解ライトフィールド層に必要な総データサイズが、元のライトフィールドのサイズよりも有意に小さいため、これらのライトフィールド層は、元の総ライトフィールド、または内側視錐台ボリューム、または外側視錐台ボリュームのライトフィールドよりもダウンサンプリングに好適である。
【0122】
本発明が関連する分野の当業者は、ライトフィールドをサンプリングし得る複数のタイプのサンプリングスキームが存在することを理解するであろう。提供されるサンプリングスキームSでは、層状シーン分解層ライトフィールド内の各要素画像の個々のサンプリングレートを指定するなどの他のサンプリングスキームが採用され得るため、本発明の範囲および趣旨を制限または逸脱することを意図しない。比較的単純なサンプリングスキームにより、より大きなサンプリング制御を有する効果的なコーデックを提供することができる。したがって、本開示により、本発明の範囲および趣旨を限定または逸脱することなく、本開示を例示するための単純なサンプリングスキームが提供される。
【0123】
本開示に従って提供されるライトフィールドサンプリングスキームは、ライトフィールド符号化方法を表している。ディスプレイD=(M
x,M
y,N
u,N
v,f,α,D
LP)および層状シーン分解L=(K
1,K
2,L
O,L
P)が与えられた場合、前述の開示により、L
OまたはL
Pの任意の層l
iと関連付けられたM
x×M
yバイナリマトリックスM
S[l
i]としてLと関連付けられたサンプリングスキームSと、各層l
iをペアR(l
i)=(n
x,n
y)にマッピングするマッピング関数R(l
i)と、が提供される。(x
m,y
m)のM
S[l
i]のバイナリ({0,1})エントリは、要素画像
【数33】
がサンプリングスキームに含まれているかどうかを示している。(1)は、
【数34】
が含まれていることを示し、(0)は、
【数35】
が含まれていないことを示している。R(l
i)=(n
x,n
y)は、ライトフィールド
【数36】
における要素画像がn
x×n
yの解像度でサンプリングされることを示している。
【0124】
本開示はまた、プレノプティックサンプリング理論を利用する、層状シーン分解ライトフィールド符号化プロセスを提供する。以下の説明は、層状シーン分解Lの内側視錐台ボリュームLOに関するが、外側視錐台ボリュームLPが同様の様式で符号化されてもよい。
【0125】
各l
i∈L
Oについて、対応するライトフィールド
【数37】
の深度マップは、範囲
【数38】
内のdに制限される。上述のサンプリングスキームに基づいて、本開示は、以下の式を使用してサンプリングスキームSを作成し、
【数39】
の生成を導く。
【数40】
【0126】
換言すると、ΔEIは、各層状シーン分解層と関連付けられたM
Sマトリックス内の「1」エントリ間の距離を導く。次の式により、層内の個々の要素画像
【数41】
の解像度が設定される。
【数42】
【0127】
個々の層状シーン分解層サンプリングレートを駆動するためにΔEIおよびNresの両方を使用するこのサンプリングスキームは、層状プレノプティックサンプリング理論サンプリングスキーム(本明細書では別の意味で「プレノプティックサンプリングスキーム」と称される)として考慮され得る。このプレノプティックサンプリングスキームは、プレノプティックサンプリング理論のアイデンティティ関数α(t)=tを利用したディスプレイに基づいている。この層ごとのサンプリングスキームにより、層内のオブジェクトが互いにオクルージョンしない前方平行平面シーンオブジェクトに対して可逆圧縮が提供される。
【0128】
前方平行平面シーンオブジェクトのみの仮定は制限的であり、典型的なシーンを表すものではない。特にサイズが大きい層状シーン分解層には、必然的に層内オクルージョンが存在する。知覚可能な重大アーティファクトを導入することなく、潜在的なシーンの全範囲をキャプチャおよび符号化するために、本システムは、本開示のライトフィールドプレノプティックサンプリングスキームに加えて、情報を利用することができる。
【0129】
例えば、サーフェスは、様々な斜角の平面サーフェスによって局所的に近似される。「On the bandwidth of the plenoptic function」において、Doらは、傾斜したライトフィールド表示面のスペクトル特性評価を可能にするタイムワーピング技術を理論化している。この研究では、必要とされるダウンサンプリングの減少と、局所的な帯域幅の変化の正確な特徴付けの必要性が、サーフェスの傾斜の程度、シーン内のオブジェクトの深度、およびFOVエッジでのオブジェクトの配置によって誘発されることを示唆している。したがって、前方平行ジオメトリの逸脱からの信号の歪みが知覚的に有意である場合、剰余表現により、追加または補完的な要素画像データが適応的に送信(静的サンプリングスキームを動的に変更)され、生じた損失を補償することができる。
【0130】
このように、本開示では、コーデックによるライトフィールドの符号化および復号化のための「コア」または「剰余」情報として識別を行うことを規定している。ライトフィールドディスプレイDおよび対応する層状シーン分解Lと関連したサンプリングスキームSが共に与えられた場合、本開示では、LおよびSと関連付けて符号化されダウンサンプリングされたライトフィールド、ならびに層状シーン分解層の数および該層の深度を、コーデックによって符号化および復号化されたライトフィールドの「コア」表現として検討する。復号化プロセス中に必要とされ得るライトフィールドのコア(符号化)表現と共に伝送される任意の追加情報は、コーデックによって処理されるライトフィールドの「剰余」表現とみなされ、ライトフィールドのコア表現と共に使用されて、最終的に表示されるライトフィールドが生成される。
【0131】
上記で定義されたフレームワークで定義され得る多くの層状シーン分解およびサンプリングスキームは、それらにマージされ、元のライトフィールドが再構築された後も、オクルージョンに起因するホールの問題を提示することができる。別々の層のオブジェクト間に生じるオブジェクトのオクルージョンとは、再構築後にホールにつながることはないという観察である。しかしながら、両方とも同じ層内に位置する、互いにオクルージョンし得るオブジェクトは、特に特定のサンプリングスキームのために、ホールにつながる可能性がある。
【0132】
具体的には、特定の層内のサンプリングにおいて、サンプリングされた要素画像間のギャップが大きいような場合、オクルージョンされたオブジェクトが過小に表現され、ホールが生じる可能性が高い。これに対する1つの解決策は、単純に要素画像をより高いレートでサンプリングすることである。しかしながら、より高いサンプリングレートは、より低い圧縮率をもたらす。したがって、より多くの要素画像を追加すると、重要な冗長情報が含まれる可能性がある。全体的な表現の冗長性を助長することなく、ホールを埋めるのに役立つ追加情報を含み得る、より識別的な方法が必要である。例えば、以下の層状シーン分解を検討する。
L=(K1,K2,LO,LP)
【0133】
LOまたはLPの各層liについて、剰余層の集合を定義することができる。
R(li)={r(li)(j)│1≦j≦Ki}
【0134】
式中、K
iは、層l
iに必要な剰余層の数を記述する自然数である。層状シーン分解層と同様に、各剰余層には、層と関連付けられたライトフィールドが存在する。
【数43】
【0135】
最も一般的な記述では、これらの追加層は、さらなる制限なしに自由な形態であり得る。実際には、オクルージョンに対処するのに役立つ追加の情報が、これらの剰余層に表される。これを実装する1つの方式は、剰余層が、それらの親となる層状シーン分解層と同じサンプリングスキームを有することであるが、1つの可能な変形例は、LSDと剰余層の組み合わせの圧縮率を厳密に制御するために、より低い方位解像度で剰余層をサンプリングすることであり得る。
【0136】
具体的には、剰余層は、深いGバッファの概念に対応する追加層として定義することができる。したがって、以下のようになる。
【数44】
【0137】
この場合、剰余層は、各層の深度範囲が、層状シーン分解層スキームの所定の深度分割によって固定されるのではなく、表現されるシーン内のジオメトリに固有の深度層特性に基づいているという意味で、層状シーン分解層とは対照的に位置する。
【0138】
層状深度画像
オクルージョンの問題が存在するビュー合成(DIBR)を使用して、サンプリングされた要素画像から深度のあるライトフィールドを再作成する既知の方法が存在する。オブジェクトが十分な深度の複雑さを有するシーンの場合、ライトフィールドの要素画像をサブサンプリングするとき、一部のシーンオブジェクトに関する情報がキャプチャされない可能性がある。通常、サーフェスは、広範囲の角度にわたってサーフェスのオクルージョンにより隠されているため、キャプチャされない。この場合、合成ビューは、サンプリングされたビューでサーフェスがキャプチャされなかったホールを示している。
【0139】
層状シーン分解のコンテキストにおけるビュー合成の場合、オクルージョンされたオブジェクトまたはサーフェスの断片が同じ層内に同じ場所にあるときにのみ、オクルージョンに起因する問題が発生する。
【0140】
過去の研究では、コンピュータグラフィックスの研究者は、サンプリングされていない視点から見える可能性のあるオクルージョンされた情報を引き続きキャプチャしながら、サンプリングされたビューでシーンを表現する方法を検討した。コンピュータグラフィックスでは、ジオメトリバッファ(Gバッファ)とは、特定のカメラ視点に対してレンダリングされた色、法線、および深度情報を格納する画像バッファに付与される名称である。Maraらは、別様では欠落し得る情報をキャプチャするために、コンピュータグラフィックスのためのグローバル照明計算のコンテキストにおいて層状の深度画像をレンダリングする深いGバッファのアイデアを提案した。本研究では、層状深度の画像ごとに、法線、色、深度の値も格納された。深いGバッファによって提供される追加のオクルージョンされた情報の使用に基づいて照明計算の品質を改善するために、提案されたデータ構造を使用して、既存のスクリーンスペース技術に対して追加の幾何学的情報を提供することができる。
【0141】
選択した層または部分集合の数により、オクルージョンされた情報のより豊富な表現が可能となる。一般的には、実用上の限界と、実現した視覚的品質の向上に対する見返りを考慮して、少数の層が選択される。本研究はまた、層または部分集合間の最小間隔距離の制約を強制するというアイデアを導入しており、各々は、最終的な画像品質に有用に寄与しない些細な裏面オクルージョン面を表す層を有することを避けるために、参照位置に関して異なる位置でシーンの異なる部分を表している。
【0142】
深いジオメトリバッファは、層状シーン分解層または部分集合内の、サンプリングされた要素画像、サブセクションごとにレンダリングされ得ることが提案される。したがって、各部分集合内の各層、または部分集合、ならびに各要素画像、またはサブセクションについて、最小分離距離パラメータによって定義された層状深度を別の入力として、シーン内に表現されたオブジェクトの少なくとも一部分のジオメトリに従って決定された層の一部の入力パラメータ数に基づいて、層深度画像層または複数のサブセクションの集合が存在することになる。
【0143】
図14は、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信すること(420)と、
第1のデータセットを、参照位置に関して異なる位置でシーンの異なる部分を各々表す複数の層に分割すること(429)と、
部分集合のうちの少なくとも1つに対応するデータを複数のサブセクションに分割することであって、特定のサブセクションの位置が、シーン内で表されるオブジェクトの少なくとも一部分のジオメトリに従って決定される、分割すること(435)と、
複数の層および複数のサブセクションを符号化して、第2のデータセットを生成すること(424)と、を含み、第2のデータセットのサイズが、第1のデータセットのサイズよりも小さい、方法を示している。
【0144】
層ベースの圧縮分析
リアルタイムのレンダリングと伝送システムを作成するには、ダウンサンプリング基準(実現可能な圧縮率を示すものではない)と共に、予測可能な圧縮率が必要である。以下に、本開示の層状シーン分解符号化ストラテジの圧縮分析を提供する。
【0145】
上述したように、プレノプティックサンプリング理論に基づいてライトフィールドをダウンサンプリングするだけでは、保証された圧縮率は提供されない。本開示では、低レイテンシリアルタイムライトフィールドコーデックを可能にするダウンサンプリングライトフィールド符号化ストラテジを提供する。一実施形態では、ΔEIおよびNresの両方を使用して、プレノプティックサンプリング理論に基づく相補的なサンプリングスキームが、個々の層状シーン分解層サンプリングレートを駆動するために用いられる。層状シーン分解により、3Dシーン全体が複数のライトフィールドとして表され、シーン表現が層の数だけ拡大される。本開示はさらに、層の深度が適切に選択されるときに、ダウンサンプリングに基づくプレノプティックサンプリング理論と組み合わせると、圧縮率が保証され得ることを企図する。
【0146】
所与の層状シーン分解層l
iに対応するライトフィールド
【数45】
について、層の深度範囲を制限することにより、層のライトフィールドの保証された圧縮率が提供される。単一の層内に完全に含まれるシーンをダウンサンプリングすることで実現可能な圧縮比は、以下の定理で説明することができる。
【0147】
定理1
等方的方位解像度N=N
u=N
v、層状シーン分解Lおよび関連するサンプリングスキームS=(M
S,R)を有するディスプレイD=(M
x,M
y,N
u,N
v,f,α,D
LP)を検討する。d
min(l
i)<Z
DOF(D)となるように、対応するライトフィールド
【数46】
を有する層状シーン分解層l
iを仮定し、
【数47】
は、「1」エントリ間の距離がΔEI(d
min(l
i))およびR(l
i)=N
res(d
max(l
i))に設定されるように選択される。層状シーン分解層l
iに対するSと関連付けられた圧縮比は
【数48】
である。
【0148】
証明1
ディスプレイの最大被写界深度内の層状シーン分解層を検討する。ここで、0<c、d≦Z
DOFについて
【数49】
および
【数50】
である。したがって、
【数51】
および
【数52】
および
【数53】
である。したがって、ΔEI(d
min(l
i))=N/cおよびN
res(d
max(l
i))=N/dである。
【0149】
このサブサンプリングのレートに基づいて、システムは全ての(N/c)
th要素画像を必要とするため、1:(N/c)
2の圧縮比を提供する。要素画像のサブサンプリングにより、1:d
2の圧縮比が得られる。したがって、総圧縮比は1:(N/c)
2*1:d
2=1:N
2(d/c)
2である。圧縮係数項
【数54】
により圧縮比が決定される。
【0150】
dmin(li)=ZDOFおよび(dmax(li))が任意の深度まで拡張することができる別のケースが存在する可能性がある。ΔEI(ZDOF)=Nであり、Nresは全ての深度d≧ZDOFでNの最大値に達することが判明している。このレートのサブサンプリングに基づいて、システムは、全てのN番目の要素画像を必要とするため、ライトフィールドに1:N2の圧縮比を提供する。ZDOFを超えて層状シーン分解層を追加すると、前方平行平面オブジェクトを表す際に冗長な表現能力が追加される。したがって、コア符号化表現を作成するとき、総シーンは、層内の最大被写界深度で最適に分解され得る。
【0151】
層状シーン分解層をダウンサンプリングするための圧縮計算式を考慮することで、層パラメータが変化するにつれて圧縮係数がどのように変化するかを判定することができる。固定幅の層、または一部のwについてdmax(li)-dmin(li)=wの場合、cf項は、dmax(li)-dmin(li)が表示面に最も近いときに最小化される。したがって、表示面の近くに位置する層状シーン分解層では、表示面からさらに離れて位置する層と同じ圧縮比を実現するために、より狭い幅が必要となる。この圧縮率分析は、表示面から深度ZDOFまで空間内に位置する複数の隣接するフロント平面層に分割されるシーンに拡張することができる。
【0152】
定理2
等方的方位解像度N=N
u=N
v、層状シーン分解Lおよび関連するサンプリングスキームS=(M
S,R)を有するディスプレイD=(M
x,M
y,N
u,N
v,f,α,D
LP)を検討する。S
LF=M
xM
yN
uN
vとする。これは、ライトフィールドの画像ピクセル数を表している。層状シーン分解表現の圧縮比は、以下のように定義することができる。
【数55】
【0153】
証明2
圧縮比でダウンサンプリングされた所与の層状シーン分解層の場合、以下のようになる。
【数56】
【0154】
圧縮比を計算するために、圧縮形態の各層のサイズを計算して合計し、総圧縮層のサイズをライトフィールドのサイズで除算する。圧縮された層の集合のサイズが以下のようになる場合の総和を検討する。
【数57】
【0155】
したがって、組み合わされた層の圧縮比は、以下のようになる。
【数58】
【0156】
層状シーン分解層が可変幅であり、d
min(i)およびd
max(i)が第i層の前後の境界深度を表すシステムでは、層状シーン分解表現の圧縮比は、以下のようになる。
【数59】
【0157】
一定の層状シーン分解層の総和
【数60】
は、単調に減少し、1に向かう傾向がある。
【0158】
したがって、表示面の近くに位置する層状シーン分解層は、表示面の遠くに位置する同じ幅の層よりも低い圧縮比を実現する。効率を最大限に高めるために、幅の狭い層状シーン分解層は、表示面の近くに配置され、より広い層状シーン分解層は、表示面の遠くに配置される。この配置により、シーン全体で均一な圧縮率が維持される。
【0159】
層状シーン分解層の数およびサイズ
層状シーン分解に必要な層の数および層のサイズを判定するために、α(t)=tのアイデンティティ関数を有するライトフィールドディスプレイが例として提供される。このアイデンティティ関数の検討は、本開示の範囲または趣旨を限定することを意図したものではなく、この他の関数も利用することができる。本発明が関連する分野の当業者は、ディスプレイD=(Mx,My,Nu,Nv,f,α,DLP)が単一のアイデンティティ関数αで定義されているのに対し、平面パラメタライゼーションピンホールプロジェクタのアレイ内の各ライトフィールド平面パラメタライゼーションピンホールプロジェクタは、固有のアイデンティティ関数αを有し得ることを理解するであろう。
【0160】
フロント平面のサーフェスを(オクルージョンがないと仮定して)可逆的に表すために、深度ZDOFに位置するフロント境界を持つ単一の層状シーン分解層は、ZDOFから無限大までのシステムを表している。可逆圧縮は、元のデータを圧縮データから完全に再構築することを可能にするデータ圧縮アルゴリズムのクラスとして定義することができる。コア表現を生成するために、ライトフィールドディスプレイの最大被写界深度に位置する最深層を超える層状シーン分解層は考慮されない。これらの層は、コア表現の観点から追加の表現力を提供しないためである。これは、内側および外側視錐台ボリューム層の集合の両方に適用される。
【0161】
表示面からディスプレイの最大被写界深度(内側および外側視錐台ボリューム層の集合の両方)までの領域内で、層状シーン分解層では、ライトフィールドディスプレイf値の整数倍数である最大および最小距離深度が利用される。層状シーン分解層の幅を狭くすることで、層ごとの圧縮比を向上させ、シーン全体の圧縮縮比を向上させることができる。しかしながら、分解する層が多い場合、より多くの層を再構築し、マージしなければならないため、復号化に必要な処理の量が増加する。それに応じて、本開示では、差動層深度を有する層分布スキームを教示する。一実施形態では、より狭い幅を有する(および、該層によって表されるライトフィールドの相関による)層状シーン分解層は、表示面に近い位置に配置され、層幅(すなわち、前層の境界と後層の境界との間の深度の差)は、表示面からの距離が増加するにつれて指数関数的に増加する。
【0162】
漸近解像度に基づく層方位解像度のサンプリング
層状シーン分解を使用して好適なライトフィールドコーデックを設計する場合、主に2つの問題が生じる。1つは、シーンを部分集合(層)に分解する方法である。当然のことながら、それに続く設計上の問題は、各層と関連付けられているライトフィールドをどのようにダウンサンプリングするかである。ダウンサンプリングストラテジを「サンプリングスキーム」と称する。
【0163】
サンプリングスキームを構築するには、多くの方式がある。一例として、ΔEIおよびNresを使用する、本開示に提示されるプレノプティックサンプリングスキームが挙げられる。Nresは実効解像度関数の一例である。このスキームは、オクルージョンがない場合、かつ層内の全てのオブジェクトがフロント平面である場合、理論的には可逆的にサンプリングされる。
【0164】
既存のビデオコーデックは、完全に非可逆的でなくても効果的に使用されており、非可逆である場合には、存在するアーティファクトの知覚的な影響を最小限に抑えるように最適化されている。そのため、本発明者らは、有用なライトフィールドコーデックを設計するための実行可能なストラテジとして、知覚効果を最小限に抑えながら、潜在的に損失のあるダウンサンプリングがどのように使用され得るかを探求している。
【0165】
Zwickerらによって提示されたライトフィールドディスプレイの被写界深度の概念により、Nresプレノプティックサンプリング基準の基礎が形成されている。この概念は、厳密には、表現理論と、ライトフィールド画像を構成するサンプルの総表現能力とに基づいている。その総表現能力は、ライトフィールドディスプレイを見る観察者のコンテキストの外にあると考えられる。その意味で、ビューアに依存しないと言える。ライトフィールドディスプレイおよび観察者のための最適なエクスペリエンスを設計するという点では、ライトフィールドの表現能力は、観察者が知覚する画像、およびディスプレイに対するそれらの位置が画像知覚にどのように影響するかという点でのみ、実際に関連している。
【0166】
Zwickerによって提示された深度フィールドの概念は、ライトフィールドの角解像度が大きいほど、ディスプレイがディスプレイの完全な空間解像度でオブジェクトを示す3Dディスプレイボリュームが大きくなることを示唆している。この理論では、ディスプレイのサーフェスからの最大被写界深度距離を超える距離にあるオブジェクトは、解像度が直線的に低下することが予測される(
図20)。
【0167】
この解像度はビューアに依存しない。観察者のディスプレイへの近さを考慮していないため、本発明者らは、これが過度に保守的なものであると提案する。ディスプレイから一定の距離に物理的な観察者を配置することを検討する。サンプリングの観点から、観察者がディスプレイを見るとき、観察者によってサンプリングされる角度サンプリングレートは、観察者の距離の関数となる。理論上、物理的な観察者のディスプレイまでの距離に基づいて、観察された解像度を観察者からのオブジェクトの距離の関数として推定する式を作成することができることが示される。ここでは、かかる式の特定の導出を紹介するが、解像度の低下に関する他の式またはモデルを使用することもでき、ライトフィールドディスプレイおよび観察者モデルの実験的またはシミュレーション研究によって観察された低下の経験的モデルを使用することもできる。
【0168】
導出されたモデルにより、オブジェクトに対して漸近解像度を計算し得ることが示される。一般に、漸近解像度は、観察者の距離の関数として減少する。したがって、最大観察距離を仮定することができれば、それに対応する漸近解像度または他の関連する解像度の低下関数を、奥行き方向の解像度低下のワースケース(worse-case)の尺度として使用することが妥当となる。
【0169】
前述のようなN
resを使用したプレノプティックサンプリングスキームを検討する。最小深度d
min(442)および最大深度d
max(443)の層があると仮定する。次いで、N
res式に基づいて、d
max(443)により、層に必要な方位解像度が決定される。Zwickerにより説明されている被写界深度の表現理論の観点では、当該サンプリングレートにより、最大解像度で所与の層の範囲内のシーンが完全に表される。これを
図20に表す。
【0170】
所与の実用的なコンテキストでは、ライトフィールドディスプレイの最大視野距離を定義することが妥当であると仮定する。この最大視野距離に基づいて、所与の層のポテンシャルサンプリングスキームに対して選択された方位解像度の関数として、関連する低下関数を考慮することができる。
【0171】
図20に見られるように、解像度関数によって、N
res(d
max)(443)によって示唆されるものよりも少ない様々な方向のサンプリングレートをプロットすることができ、それがd
min(442)からd
max(443)までの深度範囲内の理想的(440)からどのように逸脱するかを検討することができる。漸近関数では、偏差は、より大きな深度の関数としてより大きくなるが、当然ながら、漸近値(441)に基づく最大値を超えないことが観察され得る。偏差は、信号損失を表しているが、定量化することができ、漸近値に基づいて境界付けされる。したがって、これにより、層のダウンサンプリングおよび任意の関連する損失を定量化することができるフレームワークが提示され、これは、LSDベースのライトフィールドコーデックのための適切なサンプリングスキームの設計を導く観点から使用される。
【0172】
シーンの3次元記述は、複数の部分集合に分割され、複数の層または部分集合は、第1のデータセットのサイズよりも小さい第2のデータセットを生成するように符号化される。層または部分集合の符号化には、部分集合上でサンプリング動作を実行することが含まれ得る。実効解像度関数を使用して、好適なサンプリングレートが決定される。その後、サブセクションと関連付けられた要素画像は、決定された好適なサンプリングレートを使用してダウンサンプリングされる。
【0173】
関連する研究では、被写界深度の分析と、複数の光減衰層を持つディスプレイでの奥行き方向の解像度の低下の分析に焦点を当てている。これらの研究は、依然として、Zwickerらがライトフィールドディスプレイの被写界深度を、ディスプレイの最大空間解像度で表示面に平行に配向された仮想平面が再現可能な深度の範囲として記述しているのと同様に、被写界深度を観察者に依存しない概念として分析している。しかしながら、このフレームワークでは観察者を考慮しておらず、シーンの有効正投影ビューに基づいている。シーン内の奥行き方向のオブジェクトの品質の観点から、特定のビューアがライトフィールドからアクセスする情報が扱われている。
【0174】
Alpaslanらは、光学および空間角解像度パラメータの変化の観点から、ライトフィールドディスプレイの距離で知覚解像度がどのように変化したかを決定する研究を行っている。角解像度の増加により、ディスプレイの奥行き方向の知覚解像度の低下が抑制されることが示されている。この分析は、以下の式に見られるように、空間がディスプレイの内側および外側の視錐台にある空間である、空間ごとのサイクルで測定される振動のパターンに基づいている。
p=pO+s*tanφ
【0175】
式中、pは最小の特徴サイズであり、pOはピクセルサイズであり、sは画面内の深度であり、φは2つのサンプル間の角距離である。この式は、単純な幾何学的引数とディスプレイの指向性光線が角度空間内で均一に分布するという仮定に基づいている。これは、特徴サイズが距離と共に増加することを明確に示しているが、しかしながら、この式は、特定の観察者とは独立に定式化され、観察者が奥行き方向でどのような特徴サイズを解消し得るかを示している。
【0176】
対照的に、Dodgsonは、観察者がディスプレイの角度成分からの投影の密度に対応する3Dディスプレイの前方の様々な視域を占有し得る方法を分析しているが、これらの視域は、奥行き方向のオブジェクトの見かけ上の視野品質に直接的には関連していない。
【0177】
小さい被写界深度(DoF)に対処するための1つのアプローチは、ターゲット領域内に適合するようにコンテンツをスケーリングすることである。この手法は良い結果を生じるように思われるが、コンテンツの最適化が必要なため、インタラクティブな環境でリアルタイムのデータセットに迅速に対応できないと考えられる。より単純で固定されたスキームの再スケーリング技術は、リアルタイムの設定で機能する可能性があるが、カードボード(cardboarding)などの許容できない歪みアーティファクトが導入される可能性がある。カードボードは、3Dコンテンツを視覚化するときに生じる広範囲なアーティファクトとして定義することができる。これは、いわゆる「カードボード」効果であり、深度の圧縮によりオブジェクトがフラットに見える。
【0178】
全てのサーフェスがランベルト的である場合、観察者がピンホールカメラであると仮定することができる。実際の人間の目は、有限開口カメラとしてより正確にモデリングされており、これは、他の3Dディスプレイビューシミュレーション作業で採用されているアプローチである。ただし、ピンホールカメラは、ある意味で有限開口の場合よりも品質の上限を示す役割を果たし得るため、単純化のために使用されている。正準画像が観察者画像の基礎を形成すると仮定する。したがって、画像の品質を調べるために、正準線を考慮する。より具体的には、正準画像IC[D,O]は、一タイプのアップスケーリング動作によって正準画像に関連付けられるものと仮定する。正準画像は、ワーピングされた観察者画像のサンプリングされたバージョンである。連続したバージョンである正準画像に逆反転関数を適用すると、観察者画像が得られる。ワーピング関数は投影関数としても記述することができる。
【0179】
様々な設計パラメータの観点から、3Dライトフィールドディスプレイの正式な定義を提示することが可能である。一般性を失わない範囲で、ディスプレイは、(x,y,z)=(0,0,0)で3D空間の中心にあり、正のz方向に観察者を指し、y方向が上向きであると仮定する。正式な定義は次のようになる。
【0180】
ライトフィールドディスプレイD=(Mx,My,Nu,Nv,f,DLP)を検討する。式中、(Mx,My)はディスプレイの空間解像度の水平および垂直次元であり、(Nu,Nv)はディスプレイの角解像度成分の水平および垂直次元である。ディスプレイは、ピッチがDLPであり、焦点距離fである理想化されたライトフィールドプロジェクタのアレイであると仮定する。第1の座標がx軸に、第2の座標がy軸に整列するように、ライトフィールドプロジェクタのMx×MyアレイをLFPijにインデックス付けすることができると仮定する。したがって、ライトフィールドプロジェクタの集合:{LFPij|1≦i≦Mx,1≦j≦My}が得られる。任意の特定のライトフィールドプロジェクタの場合、1≦u≦Nuおよび1≦u≦Nvについて、LFPij(u,v)によって個々のNu×Nvピクセルの各々を扱うことができる。ディスプレイの焦点距離fに基づいて、θFOVとして示される角度視野を計算することができる。
【0181】
ライトフィールドディスプレイは、2つの別個の視錐台によって定義されるボリューム領域内にあるオブジェクトを表し得ることが知られており、これには、表示面の後方および前方の両方の領域が包含される。これら2つの視錐台は、ここでは、所与のディスプレイの内側および外側の視錐台領域と称される。
【0182】
観察者O=(XO,DO,fO)を、焦点距離fO、焦点がXOにあり、方向DOを指すディスプレイを撮像するピンホールカメラとして定義する。ここで、DOは3Dベクトルである。観察者Oについては、これは観察者画像として知られており、IOと表記される。
【0183】
特定の観察者は、その特定の位置および方向/配向に応じて、ディスプレイのライトフィールドプロジェクタによって投影され得る出力光線方向の異なる部分集合を撮像する。これらの光線は、さらに正確に定義することができる。
【0184】
ディスプレイD=(M
x,M
y,N
u,N
v,f,D
LP)および観察者O=(X
O,D
O,f
O)が与えられたとする。X
Oと各ライトフィールドプロジェクタの中心を結ぶ線で定義された、Dと関連付けられた各ライトフィールドプロジェクタに1つの光線の集合を定義する。
【数61】
がLFP
ijの中心を表すとする。次いで、線の集合
【数62】
は、ディスプレイDに対する観察者Oの正準線の集合として定義される。正準線は、観察者画像に寄与する光線の部分集合を形成するのみであることに留意されたい。観察者の正準線の集合は、観察者の方向D
Oおよび焦点距離f
Oとは無関係であることが容易に観察される。したがって、特定の位置における全ての可能な観察者の集合は、ディスプレイに対して同じ正準線の集合を共有する。
【0185】
任意の正準線
【数63】
について、ここでは、
【数64】
と関連付けられたベクトルの球面座標を表す角度(θ
ij,φ
ij)のペアがある。ここでは、LFP
ij(u,v)のN
u×N
v要素の各々には、(θ(u),φ(v))として記述され得る球面座標表現と、
【数65】
として示される空間ベクトル表現もある。
【0186】
所与のディスプレイおよび観察者に対する正準線は、ディスプレイおよびそのライトフィールドプロジェクタによって投影されたライトフィールドから強度値をサンプリングするように見ることができる。これらの強度値を観察して、Mx×My画像を形成することができ、これはさらに、ディスプレイDおよび観察者Oに対する正準画像として言及される。この画像は、IC[D,O](x,y)として示される。
【0187】
ディスプレイの視野θ
FOVを考慮すると、観察者がディスプレイ上の全てのライトフィールドプロジェクタベースのピクセルからの光を見ることができるための最小距離が存在する。一般的には、FOVが小さいと、この距離が大きくなり、視野が大きいと、観察者は近づくことが可能となる。この距離は、三角測量によって次のように求めることができる。
【数66】
【0188】
各ライトフィールドプロジェクタは、連続した平滑なライトフィールドのセグメントを表している。ディスプレイおよび観察者を考慮すると、正準線の各々により、対応するライトフィールドプロジェクタアレイ内の強度を使用してライトフィールドがサンプリングされる。これは、正準線
【数67】
として、ライトフィールドプロジェクタ画像であるLFP
ijに含まれる強度値に対して行われるリサンプリング動作に基づいて強度値を再構築するものである。ここで用いられる一般的なモデルにより、ライトフィールドプロジェクタ画像によって示唆される各光線にスポット幅が与えられる。このスポット幅により、各プロジェクタの強度値に物理的な角度の広がりを与えることで、ライトフィールドの物理的再構築を記述することができる。
【0189】
分析を単純化するために、点拡がり関数(PSF)モデルは、ある程度無視される。代わりに、正準線は、最近傍隣接補間スキームを使用して、特定のLFP
ijからライトフィールドをサンプリングすると仮定される。一部の(i,j)について、強度値I
C[D,O](i,j)に対応する正準画像からの光線を検討する。本発明者らは、球面座標を(θ
ij,φ
ij)として、光線ベクトル
【数68】
を表すことができると仮定した。ここで、以下とする。
【数69】
【0190】
インデックス(u
n,v
n)は、サンプリング正準線から最小角距離を有するライトフィールドプロジェクタピクセルを表している。したがって、この最近傍隣接補間により、以下のようになる。
【数70】
【0191】
この再構築モデルにより、サンプリングジオメトリの初期の簡単な分析と理解が可能となる。
【0192】
ディスプレイコンセプトの被写界深度(DoF)に基づいて、オブジェクトが被写界深度の最大値を超えて移動すると、3Dディスプレイが空間解像度を表す能力が低下する。現在のライトフィールドディスプレイまたはマルチビューディスプレイには、角解像度およびサンプリング密度が比較的低いため、被写界深度が小さいという問題がある。これらのディスプレイを見ると、画面内のあらゆる大きな深度のオブジェクトが非常にぼやけていることがわかる。
【0193】
2Dディスプレイ内のオブジェクトは、3Dディスプレイのような知覚的な手がかりがなくても、遠くのものが不自然にぼやけることはない。一般的な2Dディスプレイでは、表示面から実質的に離れたシーンの奥に現れる3Dオブジェクトは、ディスプレイの最大解像度に対して自然な形で低下する。すなわち、オブジェクトが2Dディスプレイから離れるにつれて、2Dディスプレイ上の投影領域は小さくなるため、この投影領域を表すピクセルの数は領域のサイズに応じて減少する。これは、遠くのオブジェクトほど網膜(またはカメラの撮像面)上のより小さい領域に投影され、細部まで解像することができないことに対応している。しかしながら、比較的低い角解像度の3Dディスプレイでは、遠くにあるオブジェクトはぼやけてしまい、表示面上の投影面積に比例した解像度では表現されない。
【0194】
擬似的に等価な2Dディスプレイとの比較の観点から、奥行き方向の3Dディスプレイの実効空間解像度を測定することが提案されている。3Dディスプレイは、3Dディスプレイがディスプレイの内側視錐台領域に位置する前方平行面をどのように提示するかを考慮することによって、ある意味で2Dディスプレイを模倣するために使用されている。所与の観察者の位置に対して視錐台の幅全体を埋めるために、平面のサイズは深度と共に増加する。dpは、平面のz座標を表す。この平面をここでは平面PC(dp,O)と称する。
【0195】
(x
O,z
O)に位置する観察者Oを検討する。ディスプレイの幅Dをωとする。平面は、(x
O,z
O)の観察者にとって、平面が配置されているどのような深度であっても、そのサイズは、平面がディスプレイの各空間ピクセルに投影されるように構築される。換言すると、平面上で見ているものは、
図19に示すように、ディスプレイのサーフェスの空間全体を占めることになる。
【0196】
深度d
pに位置する構築面の幅Wを計算するには、同様の三角形のジオメトリに基づく式が用いられる。正のz軸はディスプレイから観察者の方を向いており、次の場合にd
pが負の値になることに留意されたい。
【数71】
【0197】
単純化のため、分析は1Dディスプレイを使用して行われた。1D分析の場合、ディスプレイは以下のように定義される。
D=(Mx,Nu,f,DLP)
【0198】
これは、定義された範囲内のuに好適なLFP
i(u)として扱うことができるライトフィールドプロジェクタを伴っている。観察者は、O=(X
O)として定義され、X
Oはxおよびz座標のみである。
【数72】
はLFP
iの中心を示している。ディスプレイDに対する観察者Oの正準線の集合は、以下のようになる。
【数73】
【0199】
生成される正準画像は、I
C{D,O](x)である。正準線
【数74】
は、角度表現θ
iを有する。LFP
i(u)のN
u要素の各々は、角度表現θ(u)および
【数75】
として表される空間ベクトル表現を有する。最近傍隣接補間の場合、
【数76】
であり、式中、
【数77】
である。
【0200】
内側視錐台の実効解像度
所与の観察者の解像度が、表示面からの距離に関してシーン要素に対してどのように低下するかという問題に対処するために、分析は、ディスプレイの内側視錐台内に位置する深度に制限している。単純化のため、1-Dディスプレイを仮定する。
【0201】
奥行き方向の実効解像度を詳細に定量化するために、この設定で対処すべき重要な問題は次の通りである。入射正準線の再構築に貢献するライトフィールド投影光線は、どのように平面Pc(dp,O)をサンプリングするのか。ここでは、2つのサンプリングステップ、すなわち、(1)ライトフィールドプロジェクタ光線が平面をサンプリングし、(2)入射正準線がライトフィールドプロジェクタ光線の部分集合からライトフィールドをサンプリングするステップをモデリングする。この問題は、最近傍隣接補間を通じて、ライトフィールドプロジェクタの1つの要素のみを使用して正準線サンプルが構築されると仮定することによって単純化される。
【0202】
定理1
ディスプレイD=(M
x,N
u,f,D
LP)、観察者O=(X
O,D
O,f
O)とする。z
O=ω=M
xD
LPとする。したがって、深度d
pにおける実効解像度は、以下のように見積もることができる。
【数78】
【0203】
証明:
平面P(dp,O)を仮定する。距離は、ライトフィールドプロジェクタの光線が内側視錐台、つまり平面P(dp,O)をどのようにサンプリングするかに関連して定義される。ciがLFPiと交差する光線であるようにラベル付けされたMx正準線C={c1,…,cMx}の集合を検討する。次いで、光線ciと関連付けられた強度は、IC[D,O](i)となる。
【0204】
定義された最近傍隣接スキームに基づいて、各光線c
i∈Cは、以前に定義されたように
【数79】
によってインデックス付けされたLFP
iにおける対応する光線にマッピングされる。2つのケースが考えられる。第1のケースでは、2つの隣接する正準線c
iおよびc
i+1は、いずれも、対応するライトフィールドプロジェクタ内に最近傍隣接物(LFP
i,LFP
i+1)を有する(同じ角度を有する)。すなわち、
【数80】
である。これを見る別の方法は、隣接する正準線が平行なライトフィールドプロジェクタ線にマッピングされることである。考えられる第2のケースでは、2つの隣接する正準線c
iおよびc
i+1は、対応するライトフィールドプロジェクタ内の異なる光線にマッピングされる。すなわち、整数k≧1に対して、
【数81】
である。N<M
xのディスプレイでは、観察者が表示面から少なくともd
Oの距離に立っていると仮定すると、
【数82】
のようになる。
【0205】
この2つのケースに基づいて、距離が定義される。第1のケースでは、および2つの隣接するLFP線は平衡であり、定義上、その距離はD
LPである。第2のケースでは、
d=D
LP+qである。
【数83】
【0206】
平行サンプルと発散サンプルのこの組み合わせは、不均一なサンプリングパターンを生成する。表示面深度-観察者のトリオの実効解像度は、面PC(dp,O)のサイズを最大サンプリング距離で除算したものであることが提案されている。これは、最大のサンプリング距離により、サンプリングされることを保証する最小の特徴サイズが決定されるためである。
【0207】
すなわち、解像度P
xの2Dディスプレイは、特定のディスプレイ-サーフェス深度-観察者のトリオと同じ最小の特徴サイズを有することになる。内側視錐台の場合、P
xは次のようになる。
【数84】
【0208】
奥行き方向の実効解像度の推定式を考えると、式は変数d
pに関して最小値を持つ曲線を与えることが示される。平面が非常に大きな深度(すなわち、d
p→-∞)にある場合、漸近的な最小実効解像度は、以下のようになる。
【数85】
【0209】
外側視錐台の実効解像度
外側視錐台では、現在の座標系に基づいてdpの値が正になる。dpが正の場合、qは負となり、したがってd<DLPとなる。
【0210】
表示面深度-観察者のトリオの実効解像度は、面のサイズを、ここではDLPである最大のサンプリング距離で除算したものであることが提案されている。
【0211】
視差符号化/復号化
各層に適用されるサンプリングスキームから生成されるライトフィールドの符号化された層状シーン分解表現は、主に、RGBカラーおよび視差を含む複数のピクセルで構成される。一般的に、ピクセルの視差(深度)フィールドに適切なビット幅を選択することは、このフィールドの幅が、再構築中の操作の精度を向上させるため、重要である。しかしながら、増加したビット数を使用することは、実現された圧縮率に悪影響を及ぼす。
【0212】
本開示では、所与のサンプリングスキームによって指定されたRGBカラーおよび視差ピクセルの各層は、個々のピクセルに対応する特定の視差範囲を有している。本開示は、深度情報の精度を高めるために、各層状シーン分解層内のこの狭い範囲の視差を利用するものである。従来のピクセル表現では、シーン全体の視差の範囲は、固定数の値にマッピングされる。例えば、10ビットの視差の符号化では、1024個の異なる深度値しか存在できない。本開示の層状シーン分解では、各層が既知の深度境界を有するため、同一の固定数の値が各層状シーン分解層に適用される。これは、ピクセルの再構築精度を維持しながら、深度チャネルの幅を小さくすることによって伝送帯域幅を小さくすることができるので有利である。例えば、システムが8ビットの視差幅を実装し、シーンが8階層のシーン分解層に分解されるとき、合計2048個の異なる視差値を使用することができ、各層は、8ビット表現に基づいて256個の異なり得る値を有する。これは、内側または外側視錐台内の可能な視差値の範囲全体を所与の数のビットにマッピングするよりも効率的である。
【0213】
本開示は、同じ数のビットを利用するが、ビットは解釈され、各層状シーン分解層内の視差を明確に表している。各層状シーン分解層は互いに独立しているため、深度(ビット)の符号化は、層ごとに異なり得、より正確な固定点表現を提供するように設計され得る。例えば、表示面に近い層状シーン分解層は、より小さな深度値を有し、少数の整数ビットと多数の分数ビットとの固定点フォーマットを使用することができる。一方、表示面からさらに離れた層状シーン分解層は、より大きな深度値を有し、多数の整数ビットと少数の分数ビットとの固定点フォーマットを使用することができる。層ごとに分数ビットが構成可能である。
MinFixedPoint=1/(2FractionalBits)
MaxFixedPoint=216-FractionalBits-MinFixedPoint
【0214】
視差は、ライトフィールドの後処理段階における深度から計算され、以下の式を用いて符号化される。
ScaleFactor=(MaxFixedPoint-MinFixedPoint)/(NearClipDisparity-FarClipDisparity)
EncodedDisparity=(Disparity-FarClipDisparity)*ScaleFactor+MinFixedPoint
【0215】
視差は、以下の式を使用して復号化される。
ScaleFactor=(MaxFixedPoint-MinFixedPoint)/(NearClipDisparity-FarClipDisparity)
UnencodedDisparity=(EncodedDisparity-MinFixedPoint)/ScaleFactor+FarClipDisparity
【0216】
図18は、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信すること(420)と、
第1のデータセットを、参照位置に関して異なる位置でシーンの異なる部分を各々表す複数の部分集合に分割すること(429)と、
複数の部分集合を符号化して第2のデータセットを生成することであって、第2のデータセットのサイズは、第1のデータセットのサイズよりも小さく、部分集合を符号化することは、部分集合に対してサンプリング動作を実行することを含む、符号化すること(433)と、を含み、サンプリング動作を実行することは、
実効解像度関数を使用して、好適なサンプリングレートを決定し、次いで、好適なサンプリングレートを使用して、サブセクションと関連付けられた要素画像をダウンサンプリングすること(434)を含む方法を示している。
【0217】
一般化された例示的な実施形態-コーデックの実装形態およびアプリケーション
概要
本開示では、限定されないが、平面パラメタライゼーション、任意の表示パラメタライゼーション、パラメタライゼーションの組み合わせ、または任意の他の構成もしくはパラメタライゼーションタイプなどの様々なタイプの角度ピクセルパラメタライゼーションのためのエンコーダ・デコーダが定義される。本開示の一般化された例示的な実施形態では、多次元ビデオストリーミング、多次元インタラクティブゲーム、または他のライトフィールドディスプレイシナリオのための合成ライトフィールドを生成する方法が提供される。リアルタイムインタラクティブコンテンツでライトフィールドディスプレイを駆動することができるレンダリングシステムおよびプロセスが提供される。ライトフィールドディスプレイは、ライトフィールドの長期保存を必要としないが、インタラクティブなユーザエクスペリエンスをサポートするために、ライトフィールドを低レイテンシでレンダリングおよび伝送する必要がある。
【0218】
図7は、本発明の一般化された例示的な実施形態のコーデックシステムの概要を提供している。ゲームエンジンまたはインタラクティブグラフィックスコンピュータ(70)により、3次元シーンデータがGPU(71)に伝送される。GPUは、データを符号化し、FPGAまたはASICなどの復号化プロセッサを含む復号部(73)にディスプレイポート(72)を介して送信する。復号部(73)は、復号化されたデータをライトフィールドディスプレイ(74)に送信する。
【0219】
図1は、合成またはビデオデータソース(50)からのライトフィールドデータがエンコーダ(51)に入力される、別の一般化された例示的な層状シーン分解コーデックシステムを示している。GPU(43)は、内側視錐台ボリュームデータを複数の層に分割して符号化する。GPU(53)は、外側視錐台ボリュームデータを追加の複数の層に分割して符号化する。
図1は、内側および外側視錐台ボリューム層専用の別個のGPU(43、53)を示しており、単一のGPUを利用して、内側および外側視錐台ボリューム層の両方を処理することができる。層状シーン分解層の各々は、デコーダ(52)に伝送される。ここで、ライトフィールドの複数の内側視錐台ボリューム層(44(1)~44(
*))および複数の外側視錐台ボリューム層(54(1)~54(
*))は、復号化され、単一の内側視錐台ボリューム層(45)および単一の外側視錐台ボリューム層(55)にマージされる。次いで、二重視錐台レンダリングに従って、内側および外側視錐台ボリュームは、本明細書において別様で「最終ライトフィールド」または「ディスプレイライトフィールド」と称される、単一の再構築されたライトフィールドデータ(56)に合成(マージ)される。
【0220】
図10~13は、本開示による例示的なコーデックプロセスの実装形態を示している。
【0221】
図10は、例示的な層状シーン分解コーデック方法を示しており、当該方法によって、画像記述またはライトフィールドデータのフォーマットの3Dシーンデータがエンコーダにロードされて(400)符号化され、そこで図に示されるデータの(部分)集合か、または代替的に、3Dシーンを表すデータセット全体が分割される(403)。分割(402)のために3Dシーンデータの部分集合を識別する場合、識別プロセスは、一般的なプロセスステップのリファレンスであり、これは、状況に応じて所望され得るように、単にデータセットを1つのパス、またはグループ化(例えば、
図11にさらに詳細に示されるように、内側視錐台データ層および外側視錐台データ層を符号化するグループ化)において分割する能力のリファレンスが意図されることが理解される。これに関して、データの部分集合を識別することは、符号化サブプロセス段階(401)の一部も形成する事前符号化処理ステップまたは処理ステップを意味し得る。データの部分集合は、分割時にタグ付け、指定、確認、スキャン、さらにはコンパイルまたはグループ化されて、層の集合を生成し得る(3Dシーンの分解)(403)。データの部分集合(403)の分割に続いて、各データ層は、本開示に従ってサンプリングおよびレンダリングされ、圧縮(画像)データを生成する(404)。データ層圧縮に続いて、圧縮データは、復号化サブプロセス(406)のための復号化サブプロセスに伝送され(405)、解凍、復号化、および再構築のステップを含み、ライトフィールドの集合を(再)構築し(407)、それ以外の場合、本明細書では「層状ライトフィールド」と称され、層状ライトフィールド画像、およびライトフィールド層を含む。構築された層状ライトフィールドは、3Dシーンを表示(409)する最終ライトフィールド(408)を生成するためにマージされる。
【0222】
リアルタイムで3Dシーンを表すライトフィールドの配信を最適化するための(例えば、アーティファクトを最小限に抑えるための)例示的な並列コーデックプロセスが
図13に示されている。プロセスには、3Dシーンデータをエンコーダにロードするステップ(700)と、最終ライトフィールドの剰余符号化表現を符号化および圧縮するステップ(701)と、剰余符号化表現をデコーダに伝送するステップ(702)と、剰余符号化表現を復号化し、コア符号化表現と共に剰余符号化表現を使用して、最終ライトフィールドを生成するステップ(703)と、3Dシーンをディスプレイに表示するステップ(704)と、が含まれる。
【0223】
図11は、
図10に示される実施形態に関連する実施形態を示しており、3Dシーンデータ(500)に基づいて導出される2つのデータの(部分)集合、内側視錐台層(502)、および外側視錐台層(503)が、分割(501)のために識別される。また、各データセットを差動深度の層に分割することが、各データセット(504、505)についての2つの異なる層状スキーム、すなわち、複数のデータ層に等価なものに従って実装される。それぞれ、ライトフィールドディスプレイの内側視錐台ボリュームおよび外側視錐台ボリュームを表すデータ層(506、507)の各集合(複数)は、その後、サンプリングスキーム(508、509)に従って層単位でサンプリングされ、各サンプリングされた層は、データを圧縮し、プロセスステップ(508、509)で圧縮された(画像)データ(510、511)の2つの集合をそれぞれ生成するようにレンダリングされる。次いで、データ層(506、507)の集合に対応するライトフィールドの集合を符号化する圧縮データの集合(510、511)を組み合わせ(512)、最終(表示)ライトフィールドの層状コア符号化表現(513)(CER)が生成される。
【0224】
図12は、ライトフィールドの集合を再構築し、ディスプレイで最終ライトフィールドを生成するためのコーデック方法またはプロセスの実施形態を示している。ライトフィールド(層状ライトフィールド)の集合は、多段ビュー合成プロトコル(600)を使用して、コア符号化表現(513)から(再)構築される。(VS1~VS8として指定された)プロトコルは、コア符号化表現(513)の8つの層の各々に適用される(601~608)。プロトコルは、復号化される各データ層ライトフィールドの特性に応じて異なる場合もあれば、異ならない場合もある。各プロトコルは、本明細書でエッジ適応補間(609)と称される非線形補間の形態を適用して、該フィールドのコア符号化表現から再構築された層状ライトフィールド(610)の集合に良好な画像解像度および鋭度を提供し、画像の鋭度を確保し得る。層状ライトフィールド(610)がマージされており、この場合、2つのデータの部分集合に対応する2つのライトフィールドの集合(611、612)がマージされ、マージしたライトフィールドの2つの集合(613、614)が生成されることを示している。マージしたライトフィールドの集合(613、614)は、例えば、最終ライトフィールドの内側視錐台および外側視錐台ボリュームを表してもよく、それに応じてマージ(615)して、ディスプレイにおいて該最終ライトフィールド(616)を生成することができる。
【0225】
コーデックエンコーダ/符号化
本開示による符号化は、ライトフィールド一般化ピンホールカメラまたはカメラアレイを介してキャプチャされる既存の多次元データセットだけでなく、(例えば、ゲーム環境またはシミュレーション環境のための)リアルタイムインタラクティブコンテンツの生成をサポートするように設計される。
【0226】
ライトフィールドディスプレイD、層状シーン分解L、およびサンプリングスキームSについて、システムエンコーダは、サンプリングスキームに含まれる各層状シーン分解層に対応するライトフィールドと関連付けられた要素画像を生成する。各要素画像は、一般化ピンホールカメラに対応する。要素画像は、サンプリングスキームによって指定された解像度でサンプリングされ、各要素画像は、深度マップを含む。
【0227】
著しく高い解像度およびサイズでリアルタイムインタラクティブコンテンツを多次元ディスプレイに駆動するためのレンダリングパフォーマンスを実現することには、重大な課題があったが、本明細書に記載されるように、任意の1つの技術のみに依存する欠陥を解決するためのハイブリッドまたは組み合わせレンダリングアプローチを適用することによって克服されている。
【0228】
アイデンティティ関数αが与えられたとき、所与の層状シーン分解層の符号化スキームによって指定された一般化ピンホールカメラの集合は、標準的なグラフィックスビューポートレンダリングを使用して体系的にレンダリングすることができる。このレンダリング方法では、特に多数の基礎となる要素画像を含むサンプリングスキームを有する層状シーン分解層のために、多数のドローコールがもたらされる。したがって、リアルな自動立体ライトフィールドディスプレイのために層状シーン分解を利用するシステムでは、このレンダリング方法のみではリアルタイムのパフォーマンスは得られない。
【0229】
標準的なグラフィックスドローコールを使用するレンダリング技術では、一般化ピンホールカメラの平面パラメータ化(アイデンティティ関数α)のレンダリングは、透視変換に制限される。ハードウェアに最適化されたラスタライゼーション機能により、従来の2次元ディスプレイにおいて高品質のリアルタイムレンダリングに必要なパフォーマンスが得られる。これらの加速ハードウェア機能は、平面パラメタライゼーションに基づいている。あるいは、平行斜方投影により、標準的なラスタライゼーションされたグラフィックスパイプラインを利用して、一般化ピンホールカメラ平面パラメタライゼーションをレンダリングすることができる。
【0230】
本開示は、三角形の集合を表示面上のピクセルに変換することによって、一般化ピンホールカメラビューをレンダリングするためのラスタライゼーションを適用することを企図している。多数のビューをレンダリングする場合、全ての三角形を全てのビューでラスタライゼーションする必要がある。斜方レンダリングは、層状シーン分解層ごとに必要なレンダリングパスの数を減らし、任意のアイデンティティ関数αに対応することができる。本システムでは、アイデンティティ関数αによって、指定された角度あたり1つの平行斜方投影が利用される。データがレンダリングされると、システムは、「slice and dice」ブロック変換(米国特許第6,549,308号および同第7,436,537号を参照)を実行して、そのバイアングルのグループ化から、格納されたデータを要素画像のグループに再グループ化する。多数の角度をレンダリングする場合、「slice and dice」方法のみでは、多くの別々の斜方レンダリングドローコールを必要とするリアルタイムインタラクティブコンテンツには非効率的である。
【0231】
任意のアイデンティティ関数αは、レイトレーシングレンダリングシステムによっても対応させることができる。レイトレーシングでは、任意の角度を指定することは、平面パラメタライゼーションを受け入れることよりも高いパフォーマンスを必要としない。ただし、最新の高速化されたGPUを利用したレンダリングシステムを必要とするリアルタイムインタラクティブコンテンツにより、ラスタライゼーションでは、レイトレーシングレンダリングシステムよりも信頼性の高いパフォーマンススケーラビリティが提供される。
【0232】
本開示は、ライトフィールドを効率的に符号化するための複数のハイブリッドレンダリングアプローチを提供する。一実施形態では、符号化スキームは、表示面の近くに位置する層が角度サンプルが少なくて済むように多くの画像が表示され、表示面の遠くに位置する層が画像が少なくて済むように多くの角度サンプルが表示されるように、層状シーン分解をレンダリングする。関連する実施形態では、透視レンダリング、斜方レンダリング、およびレイトレーシングが組み合わされて、層状シーン分解層がレンダリングされる。これらのレンダリング技術は、様々な相互作用レンダリング方法で実装することができる。
【0233】
本開示の一般化された例示的な実施形態によれば、1つ以上のライトフィールドは、2次元ピンホールカメラのアレイをレンダリングするGPUによって符号化される。レンダリング表現は、層状シーン分解層の各々に適用されたサンプリングスキームからピクセルを計算することによって作成される。ピクセルシェーダにより、符号化アルゴリズムが実行される。典型的なGPUは、1つの伝送フレームで1シーンあたり最大2~4のピンホールカメラビューを生成するように最適化されている。本開示では、数百または数千のピンホールカメラビューを同時にレンダリングすることが必要となるため、データをより効率的にレンダリングするために、複数のレンダリング技術が採用されている。
【0234】
1つの最適化されたアプローチでは、表示面からさらに離れて位置する層状シーン分解層内の一般化ピンホールカメラは、透視レンダリングとして知られる標準的なグラフィックスパイプラインビューポート動作を使用してレンダリングされる。表示面の近くに位置する層状シーン分解層の一般化ピンホールカメラは、「slice and dice」ブロック変換を使用してレンダリングされる。これらの方法を組み合わせることで、層状プレノプティックサンプリング理論のサンプリングスキームの高効率レンダリングが提供される。本開示では、表示面からさらに離れて配置された層が、より高い解像度を有する少数の要素画像を含み、表示面のより近くに配置された層が、より低い解像度を有する多数の要素画像を含むような層状シーン分解層が提供される。本方法は各要素画像の単一のドローコールのみを必要とするため、透視レンダリングを使用して、層内のより少ない数の要素画像を表示面から離れてレンダリングすることが効率的である。しかしながら、透視レンダリングは、これらの層がより多くの要素画像を含み、増加した数のドローコールを必要とするため、ある時点で、表示面の近くに位置する層に対して効率的になるか、または非効率的になる。表示面に近い層に位置する要素画像は、比較的少数の角度に対応するため、斜方レンダリングは、少ないドローコール数でこれらの要素画像を効率的にレンダリングすることができる。一実施形態では、層状シーン分解層をレンダリングするために、システムが透視レンダリング、斜方レンダリング、またはレイトレーシングを利用するべき場所を決定するプロセスが提供される。閾値アルゴリズムを適用することにより、各層状シーン分解層は、レンダリングされる要素画像の数(すなわち、透視レンダリングのドローコールの数)を、特定の層の深度で必要とされる要素画像のサイズ(すなわち、斜方レンダリングのドローコールの数)と比較するように評価され、システムには、最小のレンダリングのドローコールの数を必要とするレンダリング方法(技術)が実装される。
【0235】
標準のグラフィックコールを利用することができない場合、システムは、透視または斜方レンダリングの代わりにレイトレーシングを実装することができる。したがって、別の実施形態では、代替のレンダリング方法は、レイトレーシングを使用して、表示面に近い位置にある層、または表示面に近い位置にある層の一部分をレンダリングする。
【0236】
レイトレーシングレンダリングシステムでは、層状シーン分解層内の各ピクセルは、ライトフィールドによって定義された光線と関連付けられる。各光線はキャストされ、層状シーン分解との交差は、標準的なレイトレーシングの方法論に従って計算される。レイトレーシングは、従来のGPUレンダリングでは困難な任意の光線角度に対応することができるため、レイトレーシングは、標準GPUレンダリングパイプラインによって期待される標準平面パラメータに準拠しないアイデンティティ関数αをレンダリングする場合に有利である。
【0237】
ホーゲルがピクセルを空間に投影する場合、全てのピクセルが有用となるわけではない。ピクセルを左上に投影したディスプレイの左上のホーゲルを検討する。このピクセルが観察者によって見られる唯一の時間は、観察者が左上のホーゲルが観察者の視野の右下の境界に位置する場所にいた場合である。この場所から、ディスプレイ内の他の全てのホーゲルは、視野が許容するよりも大きな角度から見ることができ、その結果、左上のホーゲルを除く他の全てのホーゲルはオフになる。この指定された観察者の位置は、有用な視野位置にはなく、左上のホーゲルの左上のピクセルをオフにした場合、この位置は重要ではなくなる。この考察では、有効視域の概念が使用されている。有効視域とは、観察者が視野内の角度でディスプレイ上の全てのホーゲルを見ることができ、結果として各ホーゲルからピクセルを受信することができる空間内の全ての位置の集合である。この視域は、全てのホーゲルの投影視錐台が交差する場所になる。
【0238】
有効視域を定義することにより、4つのコーナーのホーゲルの投影視錐台が交差する場所まで効果的にスリム化することができる。コーナーは最も極端なケースであり、4つのコーナーの投影視錐台内に位置している場合、その位置も有効視域内にある。このアプローチはまた、最大視野距離の概念を導入しており、最大視野距離は、これらの節約と効率を実現するために導入される制約である。最大視野距離がない場合、視錐台は、先端がマイナス表示法線に沿って配向され、基部が表示から無限の深度にある長方形の四角錐(すなわち、標準視錐台)となる。長方形の四角錐の基部には、最大視野距離と同じ距離の基部がある。節約を実現するためのアプローチは、有効視域に投影しないこと、したがって無駄なピクセルをレンダリングまたは送信しないことである。指定された最大視野距離に必要なピクセル数は、ホーゲル充填係数である。ホーゲル充填係数は、所与の深度での視域サイズとホーゲル投影サイズとの間の比率である(すなわち、2Dでは、ホーゲル投影が1mの幅を有し、視域が0.5mの幅を有する場合、投影されたピクセルの半分よりも少ないピクセルが必要とされる)。
【0239】
DWは表示幅をメートルで表し、MVDは最小視野距離(メートル)、FOVは視野距離(度)を表している。最大視野距離はMVD+yと定義され、ここでyはメートル単位で使用可能な範囲のサイズを表す。同様のジオメトリから、角度bは角度aに等しく、角度bは視野(度)に等しい。cとラベル付けされた視域の幅は、次の式で定義される。
【数86】
【0240】
ホーゲル投影の幅は以下の式で定義される。
【数87】
【0241】
2Dにおけるホーゲル充填係数は、cとeとの間の比であり、したがって、
【数88】
【0242】
【0243】
これを3Dで適用すると、ホーゲル充填係数が両方の(x,y)に沿って適用される。その結果、ホーゲル充填係数は次のように定義される。
【数90】
【0244】
ホーゲル充填係数の増加または減少の結果は、それぞれ最大視野深度の増加または減少である。
【0245】
補正サンプルパターンのレイトレーシングピクセル
補正されたライトフィールドを生成するためのストラテジは、ライトフィールドをラスタライゼーションし、ピクセルごとにワーピング操作を適用することである。ピクセルがどこに移動するかは、ディスプレイの撮像を伴う特性評価ルーチンによって判定される。ライトフィールドがどのように歪むかは、構成は変わらないが係数が変わる式に依存する。これらの係数は、各ディスプレイに固有のものである。補正(ただし、文字通り補正するわけではない)の背景にある考え方は、ピクセルがXで測定されることになっていたが、代わりにX+0.1で測定された場合、ピクセルはXで測定されることを期待して、位置X-0.1にワーピングされる、というものである。目的は、測定された位置が意図された位置と一致するようにすることである。
【0246】
均一なグリッド上で生成し、正しいグリッドにワーピングするこのストラテジは、レイトレーシングを使用して、迅速に正しいグリッドをサンプリングすることに置き換えることができる。ラスタライゼーションは、均一なグリッド操作であり、一方、レイトレーシングは、一般化されたサンプリングである。これはまた、ライトフィールドのインテグリティを維持するのに役立つ。黒い海の中の白色ピクセルを検討する。第1のレンズシステムの補正は、+0.5の水平方向と垂直方向の両方のシフトを必要とする。結果は、0.5、0.5を囲む2×2グリッド内の4つの灰色のピクセルとなる。ディスプレイレンズは、-0.5の水平方向と垂直方向の両方のシフトを必要とする。その結果、照明されたピクセルの3×3グリッドにおいて、中央に明るい灰色のピクセル、4つの側面に4つの明るい灰色のピクセル、4つのコーナーに4つの明るい灰色のピクセルとなる。ピクセルが元々正しくサンプリングされていれば、このエネルギー分散は生じない。レイトレーシングがラスタライゼーションよりも速いとは考えられないが、計算されたホーゲル充填係数に従って補正をカットし、ライトフィールドの半分だけをキャプチャした場合、パイプライン全体が速くなる可能性がある。
【0247】
スクリーンスペースレイトレーシング
ビュー合成のワーピング手法の代替手段は、スクリーンスペースレイトレーシングである。McGuireらは、(堅牢性のための)複数の深度層へのスクリーンスペースレイトレーシングの適用を提案している。これらの深度層は、深度剥離によって生成されるものである。しかしながら、深度剥離アルゴリズムは遅いため、現行のGPUを使用する場合、逆再投影、複数のビューポート、および複数のラスタライゼーションに基づくシングルパス法(例えば、Maraら)が好ましい。
【0248】
スクリーンスペースレイトレーシングと層状シーン分解とを組み合わせる可能性が考えられる。個々の光線は、既知のビューに基づいてトレーシングされる。これにより、各ピクセルの色を示す画像が得られる。層状シーン分解コーデックプロセスでは、ライトフィールドの符号化形式が作成され、ピクセルが欠落している層として表される。これらのピクセルは、符号化表現に存在するピクセルからのスクリーンスペースレイトレーシングを使用して再構築することができる。この表現は、例えば、深いGバッファの形態の要素画像または層状要素画像であり得る。McGuireらによって、層状の深度画像タイプ表現のための加速度データ構造を使用して、これを行うための一技術が説明されている。これは、光線交差を加速するデータ構造でも効果的に使用される多角形またはオブジェクトレベルの表現で光線をトレースする方法とは対照的である。
【0249】
多くのリアルタイムレンダリング技術は、計算上の効率性のためにスクリーンスペース内で動作している。これには、限定されないが、スクリーンスペースのアンビエントオクルージョン、ソフトシャドウ、および被写界深度などのカメラ効果などのリアルな照明を近似するための技術が含まれる。これらのスクリーンスペース技術は、伝統的にレイトレーシング3Dジオメトリによって機能する近似アルゴリズムである。これらのアルゴリズムの多くは、スクリーンスペースレイトレーシングを使用するか、むしろSousaらによって説明されているようなレイマーチングを使用している。レイマーチングは、追加のデータ構造を構築する必要がないため、望ましい手法である。Digital Differential Analyzer(DDA)のような古典的なレイマーチング方法は、透視法が考慮されない限り、オーバーサンプリングとアンダーサンプリングの影響を受けやすい。大部分のスクリーンスペースレイトレーシング方法は、単一の深度層のみを使用する。この技術と層状シーン分解を組み合わせることにより、アルゴリズムを、複数の深度層を通過するのではなく、シーンの部分集合で動作させることができ、また、シーンを部分集合に最適に分割することで、レイヒット距離を減少させることができる。
【0250】
本発明が関係する分野の当業者は、層状シーン分解要素画像を首尾よく符号化し得る複数のレンダリング方法およびレンダリング方法の組み合わせが存在することを理解するであろう。この他のレンダリング方法では、システムの基礎となる計算アーキテクチャ、利用されるサンプリングスキーム、およびライトフィールドディスプレイのアイデンティティ関数αに応じて、異なるコンテキストにおいて効率性が提供され得る。
【0251】
コーデックデコーダ/復号化
本開示による復号化は、符号化ストラテジ(サンプリングおよびレンダリング)を利用するように設計される。ダウンサンプリングされた層状シーン分解からの層状ライトフィールドの集合としてのコア表現は、ライトフィールドLFOおよびLFPを再構築するために復号化される。層状シーン分解L=(K1,K2,LO,LP)および関連するサンプリングスキームS=(Ms,R)を有するディスプレイD=(Mx,My,Nu,Nv,f,α,DLP)を検討する。要素画像は、サンプリングスキームSによって指定されたようにダウンサンプリングして分解されたLFOおよびLFPライトフィールドから、ライトフィールドLFOおよびLFPを再構築することによって復号化される。ピクセルは、まず、表示面に近い位置にある内側および外側視錐台ボリューム層が確認されるように整列し、空でないピクセルが位置するまで、表示面からさらに遠い位置にある内側および外側視錐台ボリューム層に移動し、空でないピクセルのデータは、表示面に近い空のピクセルに伝送される。代替の実施形態では、特定の実装形態は、ライトフィールドディスプレイの内側視錐台ボリュームまたは外側視錐台ボリュームへの視認を制限し得、そのため、LFOまたはLFPのうちの1つの復号化が必要となる。
【0252】
一実施形態では、復号化プロセスは、以下の擬似コードによって表される。
Core Layered Decoding:
for each li∈LO:
ReconLF(LFli,Dm[LFli],S)
LFO=LFli*mLFli-1//orLFli*mLFli+1(front-back vs.back-front)
【0253】
同様の手順でLFPを再構築する。各層状シーン分解層は、所与のサンプリングスキームSによって定義された限定されたサンプルから再構築される。内側視錐台ボリューム層または外側視錐台ボリューム層の各々は、LFOまたはLFPを再現するためにマージされる。
【0254】
ReconLFは、様々な計算およびポストコーデック画質特性を有する様々な形式で実行され得る。ReconLFは、所与のサンプリングスキームSに従ってサンプリングされている層と関連付けられたライトフィールド、およびライトフィールドについての対応する深度マップが、サンプリングされている完全なライトフィールドを再構築するように、関数として定義することができる。ReconLFの入力は、所与のサンプリングスキームSおよび対応するダウンサンプリングされた深度マップDm[LFli]によって定義されるLFliデータの部分集合である。Graziosiらによって説明されているように、深度画像ベースレンダリング(DIBR)により、入力ライトフィールドを再構築することができる。DIBRは、投影レンダリング方法に分類することができる。再投影技術とは対照的に、Widmerらによって教示されたスクリーンスペースレイキャスティングなどのレイキャスティング方法は、ライトフィールドを再構築することができる。レイキャスティングは、再投影よりも柔軟性を高めることができるが、計算リソース要件が増加する。
【0255】
DIBRアプローチでは、サンプリングスキームSで指定された要素画像を参照「ビュー」として使用して、ライトフィールドから欠落している要素画像を合成する。Vincent Jantetによる「Layered Depth Images for Multi-View Coding」およびGraziosiらによって説明されているように、システムがDIBR再構築を使用する場合、プロセスには通常、前方ワーピング、マージ、および後方投影が含まれる。
【0256】
後方投影技術の適用により、要素画像などの合成ビューでのクラックの生成およびアーティファクトのサンプリングが回避される。後方投影は、要素画像の深度マップまたは視差マップが、ターゲット画像の再構築に必要な参照画像と共に合成されることを前提としており、かかる合成は通常、前方ワーピング処理を通じて行われる。ターゲット画像内の各ピクセルの視差値により、システムは、ピクセルを参照画像内の対応する位置にワーピングさせ、典型的には、この参照画像位置は、整数ピクセルグリッド上にアライメントされていないため、隣接するピクセル値からの値を補間する必要がある。当該技術分野で知られている後方投影の実装形態では、単純な線形補間が使用される。しかしながら、線形補間では問題が生じる可能性がある。ワーピングされた参照画像位置がオブジェクトのエッジ境界上もしくはその付近に位置する場合、エッジ境界を越えた情報が補間動作に含まれるため、補間された値は重大なアーティファクトを示す場合がある。合成された画像は、「塗り付けられた」またはぼかしたエッジで生成される。
【0257】
本開示は、塗り付けまたはぼかしのない高品質の合成画像を生成する、補間サブステップのための後方投影技術を提供する。本開示は、エッジ適応補間(EAI)を導入しており、ここで、システムは、深度マップ情報を組み込んで、参照画像内の歪んだピクセルの色を計算するために補間動作によって必要とされるピクセルを識別する。EAIは、ローパスフィルタリング動作中にエッジを適応および保持する非線形補間手順である。ターゲット画像It(x,y)、参照画像Ir(x,y)、および深度マップDm(It)およびDm(Ir)を有するディスプレイD=(Mx,My,Nu,Nv,f,α,DLP)を検討する。本開示では、深度マップDm(It)ピンホールカメラパラメータ(f、αなど)およびディスプレイの平面パラメタライゼーションピンホールプロジェクタのアレイの相対位置を利用して、各Itピクセル整数(x,y,)をIr内の実数位置(xy,yw)にワーピングする。(xy,yw)が整数座標位置にない可能性の高いシナリオでは、Ir整数サンプルに基づいて値を再構築する必要がある。
【0258】
当該技術分野において既知の線形補間方法では、2×2ピクセルの近傍に位置する4つの最近傍整数座標からIr(xy,yw)が再構築される。代替的な再構築方法では、より大きな近傍(例えば、3×3ピクセルの近傍)を使用して、様々な再構築品質で同様の結果が生成される(Marschnerら、「An evaluation of reconstruction filters for volume rendering」を参照)。これらの線形補間方法は、信号の基礎となるジオメトリに関する知識を有していない。塗り付けまたはぼかしたエッジ画像は、再構築が、画像内のエッジによって区切られた異なるオブジェクトに属するピクセル隣接体を利用するときに発生する。他のオブジェクトの色を誤って含めると、ゴースト化アーティファクトが作成される。本開示は、深度マップDm(Ir)を使用して、複数のオブジェクトが重複するときに作成されるエッジの存在を予測することにより、ピクセル隣接を重み付けまたは省略する方法を提供することで、この再構築問題を是正する。
【0259】
図3Aは、テクスチャ(80、83)を示しており、黒色ドットとして示されるサンプリング位置(86)が再構築される別の画像に後方投影されている。サンプリング位置(86)は、白色の背景(88)を持つ暗色のオブジェクト(87)の境界付近に位置する。第1の再構築マトリックス(81)において、正方形(89)で表される各単一の白色ピクセルの完全な2×2ピクセルの近傍で、線形補間などの既知の技術を使用してサンプリング位置(86)の値が再構築される。これにより、暗色のオブジェクト(87)が再構築に含まれるため、非白色ピクセル(82)になる。第2の再構築マトリックス(84)では、本開示のEAI技術を使用して、3つの隣接する単一の白色ピクセル(90)からサンプリング位置(86)が再構築される。EAIは、オブジェクトのエッジを検出し、暗色ピクセル(87)を省略し、正しい白色ピクセルの再構築(85)をもたらす。
【0260】
ターゲット画像It(x,y)における固定された任意の座標(xr,yr)について、dtは、位置深度
dt=Dm[Ir(xr,yr)]を定義する。
【0261】
ターゲット画像座標(xr,yr)は参照画像座標(xy,yw)にワーピングする。
【0262】
(xy,yw)の近傍の点のmサイズの近傍について、集合NS={(xi,yi)|1≦i≦m}とする。隣接する各々の重みは次のように定義される。
wi=f(dt,Dm[Ir](xi,yi)]
【0263】
式中、w
iは、インデックスiに対応する深度(x
r,y
r)および(x
w,y
w)の隣接の深度の関数である。以下の式は、所与の閾値t
eについての有効なw
iを表す。
【数91】
【0264】
閾値teは、特徴サイズパラメータである。重み関数は、次のIr(xr,yr)をどのように再構築するかを決定する。
Ir(xr,yr)=Recon(w1Ir(x1,y1),(w2Ir(x2,y2),...(wmIr(xm,ym))
【0265】
Recon関数は、重みwiが標準の重み付け手順に組み込まれ、総重量1を維持するように再規格化された、単純な修正された線形補間であり得る。
【0266】
本開示はまた、層状シーン分解を再構築するためのパフォーマンス最適化された復号化方法を提供する。層状シーン分解L=(K1,K2,LO,LP)および関連するサンプリングスキームS=(MS,R)を有するディスプレイD=(Mx,My,Nu,Nv,f,α,DLP)を検討する。要素画像は、サンプリングスキームSによって指定されたようにダウンサンプリングして分解されたLFOおよびLFPライトフィールドからライトフィールドLFOおよびLFPを再構築することによって復号化される。上述したように、特定の実装形態は、ライトフィールドディスプレイの内側視錐台ボリュームまたは外側視錐台ボリュームに視野を制限し得るため、LFOまたはLFPのうちの1つの復号化を必要とする。
【0267】
LFOは、サンプリングスキームSによって指定された要素画像を復号化することによって再構築することができる。特定の層のためのReconLF方法には、欠損した要素画像の欠損したピクセルが再構築される順序に関する固有の制約は含まれない。スループットを最大化する方法を使用して欠損ピクセルを再構築することが、本開示の目的であり、効果的なライトフィールドディスプレイに十分な大きさのライトフィールドは、インタラクティブフレームレートでコンテンツを提供するために例外的な量のデータスループットを必要とするため、再構築データの伝送を改善する必要がある。
【0268】
図3Bは、ピクセルアレイを再構築するための一般的なプロセスフローを示している。再構築が開始され(30)、サンプリングスキームが実装される(31)。次いで、ピクセルは、アレイ内の列によって合成され(32)、行によっても合成され(33)、これらは、いずれかの順序で行うことができる。列と行によって全てのピクセルの合成が完了すると、ピクセルの再構築が完了する(34)。
【0269】
本開示は、インタラクティブフレームレートでのコンテンツのデータ伝送を改善することでピクセル再構築を改善するための基本的な一連の制約を導入する。ReconLFへの入力として、Mx×My要素画像を含む単一のライトフィールドLi∈LOを検討する。ピクセル(言い換えれば、要素画像)は、2つの基本パスで再構築される。各パスは、要素画像のアレイの別々の次元で動作する。システムは、各ピクセルを再構築するために、第1のパスを列の復号化として実行し、第2のパスを行の復号化として実行する。本開示は、列の復号化に続いて行の復号化を採用するシステムを説明するが、これは、行の復号化に続いて列の復号化を採用するシステムも利用することができるため、本発明の範囲および趣旨を限定することを意味しない。
【0270】
第1のパスでは、サンプリングスキームSで指定された要素画像を参照ピクセルとして、欠損ピクセルを充填する。
図4は、マトリックス内の要素画像をB、つまり青色ピクセル(60)として示している。欠損ピクセル(61)は、同列の参照ピクセルから厳密に合成される。
図5は、赤色ピクセル(62)および青色ピクセル(60)の列別の再構築(63)を示す画像(ピクセル)再構築プロセスの一部として、ピクセルマトリックスの列別の再構築を概略的に示している。これらの新たに合成された列単位のピクセルは、
図5の青色ピクセル(60)および欠損ピクセル(61)の横にR、または赤色ピクセル(62)として示される。新たに再構築されたピクセルは、バッファに書き込まれ、他の要素画像と同じ行に配置されたピクセルを参照するピクセルを再構築する第2のパスのさらなるピクセル参照として作用する。
図6は、列単位の再構築(63)と共に画像(ピクセル)再構築プロセスの一部として、ピクセルマトリックスの後続の行単位の再構築(64)を示している。これらの新たに合成された行単位のピクセルは、青色ピクセル(60)および赤色ピクセル(62)の横にG、つまり緑色ピクセル(65)として示される。
【0271】
一実施形態において、ピクセルアレイを再構築するためのプロセスは、以下の擬似コードアルゴリズムにより表される。
Dimensional Decomposition Light Field Reconstruction:
Pass 1:
for each row of elemental images in Li
for each missing elemental image in the row
for each row in elemental image
load(cache)pixels from same row in reference images
for each pixel in missing row
reconstruct pixel from reference information and write
Pass 2:
for each column of elemental images in Li
for each missing elemental image in the column
for each column in elemental image
load(cache)reference pixels from same column
for each pixel in missing column
reconstruct pixel from reference information and
write
【0272】
このパフォーマンス最適化された復号化方法では、行の復号化および列の復号化の制約により、再構築操作に必要な有効な作業データセットを制限することが可能となる。
【0273】
欠落している要素画像の単一の行を再構築するために、システムには、参照要素画像からの対応するピクセルの行のみが必要となる。同様に、欠落している要素画像の単一の列を再構築するために、システムには、参照要素画像からの対応するピクセルの列のみが必要となる。当該技術分野において既知の復号化方法は、復号化のために要素画像全体を必要とするので、この方法には、より小さいデータセットが必要となる。
【0274】
比較的大きな要素画像サイズを復号化する場合でも、欠損した要素画像の行および列が再構築されている間に、縮小されたデータセットはバッファに格納され得るため、データ伝送を改善することができる。
【0275】
レンダリングされた全てのデータが復号化され、複数の内側ディスプレイボリューム層および外側ディスプレイボリューム層の各々が再構築されると、層は、単一の内側ディスプレイボリューム層および単一の外側ディスプレイボリューム層にマージされる。層状シーン分解層は、段階的な解凍で部分的に解凍されるか、または完全に同時に解凍され得る。アルゴリズム的に、層状シーン分解層は、フロントツーバックまたはバックツーフロントプロセスを介して解凍され得る。最終的な二重視錐台マージプロセスでは、内側ディスプレイボリューム層と外側ディスプレイボリューム層とを組み合わせて、ライトフィールドディスプレイの最終ライトフィールドが作成される。
【0276】
層状シーン分解を伴う計算ニューラルネットワークの使用
Martinは、畳み込みニューラルネットワーク(CNN)を提示するライトフィールドにおける深層学習について考察している。ネットワークをエンドツーエンドでトレーニングすることがますます一般的になっているため、他のライトフィールドの問題に対する深層学習の研究も進展している。これは、ネットワークが目前の問題の全ての側面を学習することを意味している。例えば、ビュー合成では、これにより、外観フロー、画像塗装、および深度画像ベースレンダリングなどのコンピュータビジョン技術を使用してネットワークの特定の部分をモデリングする必要がなくなる。Martinは、ライトフィールドボリュームレンダリングのためのビュー合成のためのパイプラインコンセプトのフレームワークを提示している。このパイプラインは、本明細書に開示される層状シーン分解方法で実装される能力を有する。
【0277】
層状シーン分解により、層、部分集合、要素画像、またはサブセクションへの多次元シーン分解が実現される。機械学習は、学習ベースのビュー合成法として登場している。層状シーン分解は、層に分解された後にライトフィールドをダウンサンプリングする方法を提供する。以前は、これはランベルト的な陰影付きサーフェスを使用した不透明なサーフェスレンダリングのコンテキストで考慮されていた。望まれているのは、これまでのようにライトフィールドをダウンサンプリングする方法であるが、これには、半透明サーフェスを含む高次の照明モデル、例えばダイレクトボリュームレンダリングベースの照明モデルにも適用され得る方法が含まれる。ボリュームレンダリング技術には、ダイレクトボリュームレンダリング(DVR)、テクスチャベースのボリュームレンダリング、ボリュームライティング、シャドウ付きツーパスボリュームレンダリング、またはプロシージャルレンダリングが挙げられるが、これらに限定されない。
【0278】
ダイレクトボリュームレンダリングとは、ボリューム(例えば、スカラーフィールドのボクセルベースサンプリング)データセットから、中間ジオメトリなし(アイソサーフェスなし)でレンダリングされた画像にマッピングするレンダリングプロセスである。一般に、データによって定義されるスカラーフィールドは、半透明の発光媒体とみなされる。転送関数により、フィールドを不透明度と色にマッピングする方法が指定され、レイキャスト手順により、カメラからボリュームまでのパスに沿ってローカル色、不透明度が蓄積される。
【0279】
Levoy(1988)は、ダイレクトボリュームレンダリング方法により、データから明示的に幾何学的サーフェスを抽出することなく3Dボリュームデータセットの画像が生成されることを最初に提示した。Knissらは、データセットが空間内の連続関数として解釈されるものの、実用的な目的では、サンプルの一様な3Dアレイによって表されることを提示している。グラフィックメモリでは、ボリュームデータは、2Dテクスチャスライスのスタックとして、または単一の3Dテクスチャオブジェクトとして格納される。ボクセルという用語は、「画素」の用語であるピクセルおよび「テクスチャ要素」の用語であるテクセルと同様に、個々の「ボリューム要素」を示している。各ボクセルは、データ空間内の位置に対応し、それと関連付けられた1つ以上のデータ値を有する。中間位置での値は、隣接するボリューム要素でデータを補間することによって得られる。このプロセスは再構築として知られており、ボリュームレンダリングおよび処理アプリケーションで重要な役割を果たす。
【0280】
光学モデルの役割は、光がボリューム内の粒子とどのように相互作用するかを記述することである。より複雑なモデルでは、(局所)照明とボリュームのシャドウを考慮することによって、光の散乱効果を記述している。光学パラメータは、データ値によって直接指定され、またはそれらは、データ内の特定の特徴を分類するために1つ以上の転送関数をデータに適用することから計算される。
【0281】
Martinは、ボリュームデータセットを使用してボリュームレンダリングを実装し、個々のピクセル位置ごとに深度値を割り当てるための深度バッファを提供している。深度バッファ、すなわち、zバッファは、ピクセル視差に変換され、深度バッファ値Z
bZ
bは、Z
cZ
c=2・Z
bZ
b-1として、範囲[-1,1]の正規化座標に変換される。次いで、透視投影を反転させて、次のように、視点空間の奥行きZ
eが得られる。
【数92】
【0282】
式中、Z
nはカメラの近傍平面の深度であり、Z
fは視点空間内の遠方平面の深度である。Wannerらは、Z
nを可能な限り高く設定して、深度バッファの精度を向上させる必要がある一方で、Z
fは精度にほとんど影響を与えないことを提示している。視点深度Z
eを考えると、以下のような類似した三角形を使用することにより、実数単位での視差値drに変換することができる。
【数93】
【0283】
式中、Bはグリッド内の2つの隣接するカメラ間の距離、fはカメラの焦点距離、Δxは2つの隣接するカメラの原点間の距離である。同様の三角形を使用して、実数単位の視差を以下のようにピクセル単位の視差に変換することができる。
【数94】
【0284】
式中、dpとdrはそれぞれピクセル単位と実世界単位の視差を示し、Wpはピクセル単位の画像幅、Wrは実単位のイメージセンサの幅である。実単位のイメージセンサの幅が不明であれば、カメラ視野θと焦点距離fから以下のように計算することができる。
【数95】
【0285】
ビュー合成はまた、ワーピングによって定式化することができる。ワーピングは新規ビューを合成する簡単な方法であるが、ワーピングされた画像の視覚的品質を低下させる可能性のある視覚的アーティファクトが生成される場合がある。これらのアーティファクトの中で最も一般的なものは、ディスオクルージョン、クラック、ゴースト化である。
【0286】
ディスオクルージョンアーティファクトまたは「オクルージョンホール」は、前景オブジェクトがワーピングされ、参照ビューに現在表示されている背景ピクセルのデータが含まれていない場合に発生する。オクルージョンホールは、利用可能な背景情報でホールをインペインティングするか、追加の参照または剰余情報によってキャプチャされた実際のデータでホールを埋めることで修正され得る。
【0287】
ワーピングクラックは、サーフェスをワーピングする際に発生するもので、参照ビューでは隣接していた2つのピクセルが新規ビューにワーピングされると、もはや隣接しているのではなく、わずかなピクセル数で隔てられてしまう。丸め誤差は、新たに計算されたピクセル座標が整数の画像座標に切り捨てられなければならないため、隣接するピクセルが異なる丸め方となる可能性があり、ワーピングクラックを引き起こす可能性がある。サンプリング周波数は、ピクセル数を増加させる配向、すなわち、カメラに傾斜し、垂直に表示される平面にサーフェスをワーピングさせようとすることで、ワーピングクラックを引き起こす可能性がある。新規ビューは、参照カメラのサンプリング周波数を超えていたピクセルを表示する傾向があり、このため、新規画像にクラックが生じる。
【0288】
ゴースト化は、後方ワーピング補間フェーズ中に生じる可能性がある。ここで、後方投影ピクセルの近傍には、背景オブジェクトと前景オブジェクトの両方のピクセルが含まれている。前景のピクセルは、背景に色情報をブリードする可能性があり、「ハロー」またはゴースト効果を引き起こす可能性がある。これらは通常、オクルージョンホールの周囲で発生し、前景の色が背景にブリードしてしまう。
【0289】
前方ワーピングの主な問題の1つは、ワーピングした画像に、視覚品質を低下させるワーピングクラックが含まれ得ることである。前方ワーピングで生成された深度マップは、異なる参照からワーピングされた多重ビューをマージするか、クラックフィルタを適用することで容易に修正され得る。深度マップは非常に低い周波数の画像であり、ほとんどの場合、オブジェクトの周囲に微妙なグラデーションまたはエッジが含まれているため、メディアンフィルタのようなフィルタにより、効果的にクラックを除去することができる。オブジェクトのテクスチャが複雑なため、これらの単純なフィルタはカラー画像では機能しない。カラー画像のワーピングクラックを除去する方法は、後方ワーピングを使用することである。後方ワーピングでは、まず深度画像を前方にワーピングして、新規ビューの深度マップを取得する。クラックの生じた深度マップをフィルタリングした後、フィルタリングされた深度を使用して、参照画像にワーピングを行う。クラックが発生しないようにするため、ピクセル座標を丸めず、ピクセルの近傍を選択して、実際のピクセル重み付けを使用して正しい色を補間する。この後方ワーピングを行ったカラー画像には、クラックが生じない。補間フェーズの副作用は、ゴースト化アーティファクトが導入され得ることである。
【0290】
インタラクティブなダイレクトボリュームレンダリングは、時間的に変化する4Dボリュームデータのインタラクティブなディスプレイに必要とされている。Martinが提示したように、プログレッシブレンダリングがその特定のユースケースにうまく機能しない可能性があるためである。インタラクティブなダイレクトボリュームレンダリングのための例示的なユースケースには、ローテーション中のアーティファクトなしの静的ボクセルベースデータのレンダリング、時間変化するボクセルベースデータのレンダリング(例えば、4D MRIまたは超音波、CFD、波、気象、視覚効果(OpenVDB)、および他の物理シミュレーションなど)が含まれるが、これらに限定されない。
【0291】
提案されている解決策として、異なる材料の密度を色にマッピングする方法と、その透明度のレベルを伝える、特定の転送関数に潜在的に制約された「ワーピング」ボリュームのシーンビューを学ぶための機械学習を使用することが挙げられる。固定の転送関数の場合、計算ニューラルネットワークは、適度なサイズのデータセットで非常によく訓練され、ボリュームデータに対してのみ機能し、特定の転送関数にのみ機能するデコーダを定義するために使用することができる。その結果、所望の転送関数が選択されると、データを復号することができるようにするために、異なる訓練データセットからデコーダをわずかに変更するハードウェアシステムまたは復号化システムになる可能性がある。
【0292】
本明細書に開示される提案された方法は、4Dボリュームデータのレンダリングに適している。現在のハードウェアおよびハードウェア技術を使用しても、ボリュームデータのライトフィールドをブルートフォースでレンダリングすることは非常に困難である。デコーダを使用してレンダリングおよび復号化されたボリュームデータの層状シーン分解を生成することが提案される。データの復号化により、欠落しているピクセルまたは要素画像が効果的に埋められる。畳み込みニューラルネットワークは、列の復号化に続いて行の復号化を採用するシステムを使用して、問題のより小さなバージョンを解決するように訓練することができる。加えて、列の復号化に続いて行の復号化を採用するシステムも利用することができる。Martinは、視差マップを使用して高速で正確な画像ワーピングを行うためには、バイリニア補間による後方ワーピングの形態を実装する必要があることを教示している。中央ビューの推定視差マップは、全てのビューの推定値として使用される。参照ビューの境界外の場所からデータを読み取る必要がある新規ビューのピクセルは、代わりに参照ビューの最近傍境界ピクセルを読み取るように設定される。基本的に、これはホールを開けるのではなく、新規ビューの参照ビューの境界線を伸張させるものである。ワーピングされたピクセルが整数の位置に来ることはほとんどないため、バイリニア補間を適用して、参照ビューの最近傍の4つのピクセルからの情報が蓄積される。これにより、ホールのない高速なワーピングと良好な精度が得られる。Martinは、この補正関数を適用するためにニューラルネットワークを訓練する方法をさらに開示している。これに対する改善は、層状シーン分解と互換性のあるニューラルネットワークを教示することである。これをさらに拡張して、その層、各深度のために具体的に訓練された層状シーン分解内の各層に畳み込みニューラルネットワークを適用することができる。次に、ニューラルネットワークを設定して行の再構築を行い、別のニューラルネットワークを設定して列の再構築を行う。
【0293】
選択された基準に基づいて、ライトフィールドディスプレイシミュレータを使用して、ニューラルネットワークを訓練することができる。ライトフィールドディスプレイシミュレータにより、シミュレートされた仮想3次元ライトフィールドディスプレイのパラメタライゼーションを探索する高性能な方法が提供される。この方法では、その計算プロセスの一部として正準画像生成法を使用して、シミュレートされたライトフィールドディスプレイの仮想観察者のビューがシミュレートされる。正準画像法により、シミュレートされたライトフィールドディスプレイおよびその上に表示されるライトフィールドコンテンツを生成するための堅牢で高速かつ汎用的な方法が提供される。
【0294】
高次照明モデル
コンピュータグラフィックスでは、不透明な誘電体の色は、ランベルト反射率でモデリングすることができる。色は、視野角に対して一定であるとみなされる。これは、同じランベルト的(またはランベルト近傍の)反射率に基づく、業界で使用される標準的な色測定方法と相関している。
【0295】
層状シーン分解の基本的な概念は、シーンを集合と部分集合とに分割し、ライトフィールドの形成のためにこれらのパーティションを再構築する能力である。このコンセプトは、ピクセルをワーピングさせて、層内の欠落している要素画像をワーピングによって再構築する機能に基づいている。さらに詳細には、カメラ内の画像が左から右にシフトされるときに生じる幾何学的シフトに基づいて、1つの画像内の特定の点の光強度は、わずかに異なるピクセル位置で別の画像にマッピングされる。本明細書に記載されるワーピング方法を使用して層内の欠落したピクセルを正確に再構築し得るという仮定は、1つの画像から次の画像へマッピングするピクセルが、ランベルト的照明モデルの場合と同じ色を有するということである。
【0296】
特に、ランベルト的照明モデルの仮定の下で制限されている場合、ライトフィールドには著しい冗長性がある。各要素画像は、隣接する画像と非常にわずかに異なることが観察され得る。この冗長性は、プレノプティックサンプリング理論の下で参考文献に記載されている。ランベルト的照明モデルは、有用なグラフィックスには十分であるが、過度にリアルではない。オブジェクトの光沢、ヘイズ、およびゴニオクロマチック色をキャプチャするために、Phongモデルの鏡面指数、Wardモデルのサーフェス粗さ、およびCook-Torranceモデルのサーフェス粗さを含むがこれらに限定されない代替モデルが検討されている。光沢は、鏡面反射の大きさの尺度として定義することができ、ヘイズは、鏡面葉の幅をキャプチャするパラメータとして定義することができる。
【0297】
本発明者らが開示している層状シーン分解方法のビュー合成態様を有する代替の照明モデルを利用するために、再構築されたピクセルに後処理としてシェーディングが適用され得ることが提案される。この後処理は、ワーピングプロセス(または他のビュー合成再構築)が生じた後に発生する。光の位置または点に対するサーフェス法線情報は、既知であり得、かつ符号化されたライトフィールドデータに含まれ得る。この符号化された光位置のリストにより、デコーダが層内の特定のピクセルを復号化して鏡面成分を計算するときにその通常のデータを使用することが可能となる。サーフェスが鏡面成分を有するかどうかの特性、またはそれがどの程度数値化され得るかなどの他のパラメータは、ライトフィールドデータに含まれ得る。材料特性は、強度値と共に潜在的に含まれ得る。この追加データは、各要素画像、または各層内の符号化されたフォームと共に送信される典型的なRGBおよび深度データと組み合わせて送信され得る。材料特性は、原子、化学、機械、熱、および光学特性を含み得るが、これらに限定されない。
【0298】
RGBと深度情報を組み合わせてサーフェス法線を格納する概念は、コンピュータグラフィックスではGバッファとして知られている。
【0299】
透明度
従来の2Dディスプレイコンピュータグラフィックスでは、不透明なサーフェスの視覚効果をシミュレートすることが望ましい場合が多い。サーフェスレンダリングでは、これには通常、サーフェス要素(例えば、ポリゴン、頂点など)に不透明度(透明度と半透明度の両方とも称される)の尺度を割り当てることが含まれる。
【0300】
かかるサーフェスから構成される3Dシーンが特定の仮想カメラビューからレンダリングされるとき、サーフェス要素の各々の透明度値は、1つのサーフェス要素によってオクルージョンされたサーフェスが非オクルージョンの最前面を通して光学的にブリードする程度を決定する。このプロセスをシミュレートする様々な方式が存在しており、これには、重複サーフェスのブレンドに基づいて画像の最終的なカラー値を計算することが含まれる。当然ながら、この計算の重要性は、各重複サーフェス要素ピースが(1)色と(2)透明度値、すなわちアルファ(α)値の両方を有することである。
【0301】
また、ライトフィールドビデオ目的のために、透明なサーフェスで構成されたシーンを表現およびレンダリング(伝送/復号化)することが望ましい。シーン分解ベースの表現スキームをどのように拡張して、透明なサーフェスのサポートを提供することができるかが説明される。
【0302】
符号化プロセス中、色および深度マップに加えて、法線または他の光学サーフェス特性が、符号化表現と共にどのように記述され得るかが説明される。また、符号化処理中に、各ピクセルと関連付けられたα(透明度)値、αを追加的に書き込むことも可能であることが示唆される。
【0303】
次いで、このα値は、透明なサーフェスを含むシーンのライトフィールド画像を生成するために、復号化プロセス中に使用され得る。符号化中に生成または選択されたサンプリングされたピクセルと関連付けられたα値は、各層(またはシーン部分集合)と関連付けられたライトフィールドが再構築される再構築プロセス中に、深度値と共に再投影され得る。この再投影は、深度画像ベースレンダリング(DIBR)に関連して記載されるようなワーピングプロセスであり得る。最終的な結果は、典型的な実施形態では、層または部分集合と関連付けられたライトフィールド内の各ピクセルも、透明度を表すために関連付けられたα値を有するようになる。
【0304】
この透明度α値を最終画像に組み込むには、光学ブレンドの一部のモデルを組み込んだマージプロセスに演算子を使用する必要がある。層(または部分集合)マージ処理中、*m演算子を使用して、αを、複層(または部分集合など)全体にわたって、1つのライトフィールド画像ピクセルに沿って観察される色を蓄積する手段として使用することができる。
【0305】
多角形のサーフェスベースのレンダリングのための層状復号化プロセスは、ボリュームレンダリングのためのプロセスと自然に組み合わせ得ることが提案されている。この手順では、個々の層または部分集合が再構築され、(*m演算子を介して)隣接する層とマージされる。ボリュームレンダリングの構成式には、マージ演算子に加えて組み込まれなければならないことが提案されている。したがって、このより一般的なハイブリッドアプローチでは、層の結合演算子は、あるときは従来通りのマージ演算子として、またあるときはボリュームレンダリング光線の蓄積機能として働く、より一般的な機能を果たすことになり、より一般的で複雑なものとなる。この演算子は*cと表記される。
【0306】
図15は、例示的な層状シーン分解コーデック方法を図示しており、当該方法によって、画像記述またはライトフィールドデータのフォーマットでの3Dシーンデータが符号化のためにエンコーダにロードされ(400)、そこで図に例示されるように、データ(サブ)が設定されるか、または代替的に、3Dシーンを表すデータセット全体が分割される(403)。分割(402)のために3Dシーンデータの部分集合を識別する場合、識別プロセスは、一般的なプロセスステップのリファレンスであり、これは、状況に応じて所望され得るように、単にデータセットを1つのパス、またはグループ化(例えば、
図11にさらに詳細に示されるように、内側視錐台データ層および外側視錐台データ層を符号化するグループ化)において分割する能力のリファレンスが意図されることが理解される。これに関して、データの部分集合を識別することは、符号化サブプロセス段階(401)の一部も形成する事前符号化処理ステップまたは処理ステップを意味し得る。データの部分集合は、分割時にタグ付け、指定、確認、スキャン、さらにはコンパイルまたはグループ化されて、層の集合を生成し得る(3Dシーンの分解)(403)。データの部分集合(403)の分割に続いて、各データ層は、本開示に従ってサンプリングおよびレンダリングされ、圧縮(画像)データを生成する(404)。データ層圧縮に続いて、圧縮データは、復号化サブプロセスのための復号化サブプロセスに伝送され(405)、解凍、復号化、および再構築のステップを含み、ライトフィールドの集合を(再)構築し(407)、それ以外の場合、本明細書では「層状ライトフィールド」と称され、層状ライトフィールド画像、およびライトフィールド層を含む。鏡面照明が計算され(411)、構築された層状ライトフィールドは、3Dシーンを表示(409)する最終ライトフィールド(408)を生成するためにマージされる。
【0307】
図16は、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信すること(420)と、
第1のデータセットが、シーンに含まれるサーフェス上の法線の方向に関する情報を含むこと(421)と、
法線の方向が、参照方向に対して表されること(422)と、
任意選択で、サーフェスの少なくとも一部の反射特性が、非ランベルト的であることと、
第1のデータセットを、参照位置に関して異なる位置でシーンの異なる部分を各々表す複数の部分集合に分割すること(423)と、
複数の部分集合および複数のサブセクションを符号化して、第2のデータセットを生成すること(424)と、を含み、第2のデータセットのサイズが、第1のデータセットのサイズよりも小さい、方法を示している。
【0308】
一実施形態では、本方法は、
第2のデータセットを受信すること(425)と、
鏡面成分の計算のために、シーンに含まれるサーフェス上の法線の方向を使用して、部分集合と関連付けられた部分を再構築すること(426)と、
再構築部分をライトフィールドに組み合わせること(427)と、
ライトフィールド画像を表示デバイス上に提示すること(428)と、をさらに含む。
【0309】
図21は、コンピュータ実装方法であって、
シーンの3次元記述を含む第1のデータセットを受信すること(420)と、
第1のデータセットが、シーンに含まれるサーフェスの透明度に関する情報を含むこと(429)と、
第1のデータセットを複数の層に分割することであって、各層が、参照位置に関する位置におけるシーンの一部分を表す、分割すること(423)と、
複層を符号化して第2のデータセットを生成すること(424)と、を含み、第2のデータセットのサイズが、第1のデータセットのサイズよりも小さい、方法を示している。
【0310】
一実施形態では、本方法は、
第2のデータセットを受信すること(425)と、
再構築部分をライトフィールドに組み合わせること(427)と、
ライトフィールド画像を表示デバイス上に提示すること(428)と、をさらに含む。
【0311】
本明細書に記載される本発明のより良い理解を得るために、以下の実施例は図面を参照して記載される。これらの実施例は、本発明の例示的な実施形態を説明することを意図しており、いかなる方式でも本発明の範囲を限定することを意図しないことが理解される。
【実施例】
【0312】
実施例1:ライトフィールドディスプレイのための例示的なエンコーダおよび符号化方法
本発明の以下の例示的な実施形態は、本発明が複数のシステムパラメータを首尾よく実装することができるので、本明細書に記載および特許請求される本発明の範囲を限定することを意図しない。上述のように、従来技術において既知の従来のディスプレイは、理想化された均一なサンプリングを可能にする2次元の行において実質的に均等に間隔を置いて編成された空間ピクセルからなる。対照的に、3次元(3D)ディスプレイには、空間サンプルと角度サンプルの両方が必要である。典型的な3次元ディスプレイの空間サンプリングは均一であるが、角度サンプルは、角度空間におけるディスプレイのフットプリントの観点から均一であるとは必ずしもみなされない。
【0313】
例示的な実施形態では、複数のライトフィールド平面パラメタライゼーションピンホールプロジェクタにより、ライトフィールドの指向性成分としても知られる角度サンプルが提供される。ライトフィールドディスプレイは、640×480の空間解像度と512×512の角解像度で設計されている。複数の平面パラメタライゼーションピンホールプロジェクタは、アイデンティティ関数αで理想化される。複数の平面パラメタライゼーションピンホールプロジェクタの各々の間のピッチは1mmであり、それによって640mm×400mmの表示面が画定される。ディスプレイは、およその焦点距離f=289μmに対応する120°FOVを有する。
【0314】
このライトフィールドディスプレイには、640×480×512×512=805億のRGBピクセルが含まれている。各RGBピクセルには8ビットが必要であるため、1フレームのライトフィールドディスプレイには805億×8×3=1.93Tbが必要である。インタラクティブなコンテンツを提供するライトフィールドディスプレイの場合、データは30フレーム/秒で駆動されるため、1.93Tb×30フレーム/秒=58.0Tb/秒の帯域幅を必要とする。当該技術分野で知られている現在のディスプレイは、最大帯域幅32.4Gb/秒を提供するディスプレイポート技術によって駆動されるため、かかるディスプレイでは、インタラクティブなライトフィールドディスプレイに必要な膨大な帯域幅を提供するためには、1024個以上のディスプレイポートケーブルが必要となり、結果としてコストおよびフォームファクター設計に制約が生じる。
【0315】
例示的な実施形態では、デュアルディスプレイポート1.3ケーブル出力を有する加速GPUを備えたコンピュータからライトフィールドディスプレイにデータを提供する。40Gb/秒の保守的な最大スループットが検討される。符号化されたフレームは、ディスプレイポート接続を介してライトフィールドディスプレイに物理的に近い復号化ユニットに伝送するのに十分な大きさである必要がある。
【0316】
例示的な実施形態の層状シーン分解は、必要なデータスループットを可能にするように設計される。上記で定義した次元では、ライトフィールドディスプレイの最大被写界深度は、ZDOF=(289ミクロン)(512)=147968ミクロン=147.986mmである。層状シーン分解により、複数の層状シーン分解層がライトフィールドディスプレイの被写界深度領域内に配置され、層状シーン分解層の表示面からの距離がZDOF未満であることが保証される。この例示的な実施例は、ディスプレイの内側視錐台ボリューム内にのみ配置されたオブジェクトを持つライトフィールドディスプレイを説明するものである。この例示的な実施例では、本発明により、複数のシステムパラメータ、例えば、ディスプレイの外側視錐台ボリューム内にのみ位置するオブジェクトを有するライトフィールドディスプレイ、またはディスプレイの内側および外側視錐台ボリュームの両方内に位置するオブジェクトを有するライトフィールドディスプレイを成功裏に実装することができるため、本発明の範囲を限定することを意図しない。1つの視錐台ボリュームに限定される実施形態では、より少ない数の層状シーン分解層が必要となり、生成される符号化されたライトフィールドのサイズがわずかに減少する。
【0317】
例示的な実施形態では、10個の層状シーン分解層が定義される。必要に応じて、追加の層状シーン分解層を追加して、オクルージョンによって失われる可能性のあるデータをキャプチャするか、または全体的な圧縮率を増加させることができる。しかしながら、追加の層状シーン分解層は、デコーダからの追加の計算を必要とするため、層状シーン分解層の数は、慎重に選択される。例示的な実施形態では、10階層のシーン分解層をその前後の境界から指定し、層の分割境界が表示面に平行であると仮定している。
【0318】
各層状シーン分解層は、表示面から定義された距離に位置し、距離は、最大被写界深度512fまでの焦点距離fの倍数で指定される。幅の狭い層状のシーン分解層は、表示面の近くに集中し、層の幅(すなわち、前層の境界と後層の境界との間の深度の差)は、表示面からの距離が増加するにつれて、2の累乗で指数関数的に増加する。他層の構成が成功裏に実装され得るため、本発明のこの実施形態は、本発明の範囲を限定することを意図しない。
【0319】
以下の表(表1)は、例示的な実施形態の層状シーン分解層構成を説明するものであり、サブサンプリングされた層状シーン分解層を作成するためのプレノプティックサンプリング理論に基づくサンプリングスキームを提供する。
【表1】
【0320】
上記の表において、層0は、当該技術分野において既知の従来の2次元ディスプレイのように、表示面に表示される画像をキャプチャする。層0には固定深度で640×480ピクセルが含まれているため、深度情報は必要ない。合計データサイズは、各ピクセルについて、RGB値と、8ビットの深度値とで計算される(代替の実施形態は、16ビットなどのより大きなビット値を必要とし得る)。例示的な実施形態では、要素画像の解像度およびサンプリングギャップは、上述の式から計算され、選択されたサンプリングスキームには、要素画像の解像度およびサンプリングギャップ制限が反映される。
【0321】
上表のように、組み合わされた層状シーン分解システムは、合計サイズが400.5Mbである。したがって、30フレーム/秒のレートでデータを生成するには、30×0.4005=12.01GB/秒の帯域幅が必要である。この符号化されたフォームは、シーンのオクルージョンを表すために必要な追加情報と共に、デュアルディスプレイポート1.3ケーブルを介して送信される。
【0322】
例示的な実施形態では、層状シーン分解層には、エンコーダによって構成され、表示面に近い位置にある層を生成するための斜方レンダリング技術(層0~5)と、表示面から遠い位置にある層を生成するための透視レンダリング技術(層6~9)とが効率的に実装される。各要素画像は、単一のレンダリングビューに対応している。
【0323】
層6において、レンダリングされる別個の角度の数(64×64=4096)は、レンダリングされるビューの数(21×16=336)を超えており、これは、斜方レンダリング方法と透視レンダリング方法との間の効率の遷移を示している。特定の実装形態は、正確に最適な遷移点を歪ませる追加のオーバーヘッドを提供し得ることに留意されたい。当該技術分野で既知の近代的なグラフィックスアクセラレーション技法と共に使用するために、透視レンダリングは、ジオメトリシェーダインスタンスを使用して効率的に実装され得る。ドローコールを介してジオメトリに反復アクセスすることなく、まったく同じデータを取得するためにメモリに反復アクセスすることなく、同じ入力シーンのジオメトリの集合から多重ビューがレンダリングされる。
【0324】
図8は、例示的な実施形態を図示しており、10階層のシーン分解層(100~109)が、内側視錐台ボリューム(110)にある。内側視錐台ボリューム層は、表示面(300)から延在している。層は、上記の表に記載されるように定義されており、例えば、内側視錐台ボリューム層0(100)の前方境界は、1fであり、内側視錐台ボリューム層1(101)は、1fであり、内側視錐台ボリューム層2(102)は、2fであり、内側視錐台ボリューム層3(103)は、4fである。内側視錐台ボリューム層(100~105)0~5、または表示面(300)に最近傍の層は、斜方レンダリング技術でレンダリングされ、表示面から最も遠い6~9の内側視錐台ボリューム層(106~109)は、透視レンダリング技術でレンダリングされる。
【0325】
図9は、内側視錐台ボリューム(110)に10階層シーン分解層(100~109)、および外側視錐台ボリューム(210)に10階層シーン分解層(200~209)を有する、代替の実施形態を示している。内側および外側視錐台ボリューム層は、表示面(300)から延在している。内側および外側視錐台ボリューム層は、互いに鏡像として示されるが、内側および外側視錐台ボリュームは、異なる数の層、異なるサイズの層、または異なる深度の層を有し得る。内側視錐台ボリューム層0~5(100~105)および外側視錐台ボリューム層0~5(200~205)は、斜方レンダリング技術でレンダリングされ、内側視錐台ボリューム層6~9(106~109)および外側視錐台ボリューム層6~9(206~209)は、表示面(300)からより遠くで透視レンダリング技術でレンダリングされる。
【0326】
代替の実施形態は、レイトレーシング符号化ベースのアプローチでシステムを実装することができる。GPUは、単一ビューのレンダリングを高速化することが望ましい従来の2次元ディスプレイ上のインタラクティブなグラフィックス用に最適化されているため、ここで説明した最適化を行っても、完全な層状シーン分解層表現をレンダリングするには、GPUの性能を向上させる必要がある。レイトレーシングアプローチの計算コストは、システムがレンダリングするピクセル数の直接的な関数である。層状シーン分解層システムには、一部の2次元単一ビューシステムと同等の数のピクセルが含まれるが、該ピクセルの形態および配置は、層分解および対応するサンプリングスキームに応じて大きく異なる。したがって、光線の一部または全てをトレーシングすることがより効率的な実装形態である実装形態が存在し得る。
【0327】
実施例2:ライトフィールドディスプレイのコーデックデコーダおよび復号化方法
本発明の例示的な実施形態では、デコーダは、デュアルディスプレイポート1.3ケーブルを介してGPUから、符号化されたコア表現データ12.01GB/秒とあらゆる剰余表現データを受信する。圧縮されたコア表現データは、効率的な復号化を実装するために、カスタマイズされたFPGA、ASIC、または他の集積回路を使用して復号化される(剰余表現データは、
図13に示されるように、別々に復号化される)。12.01GB/秒のコア表現は、最終ライトフィールドディスプレイのために58Tb/秒に解凍される。このコア表現には、オクルージョンをレンダリングするために必要な剰余表現は含まれていないことに留意されたい。
【数96】
により、4833:1の圧縮比が提供される。これは高性能圧縮比であるが、再構築されたライトフィールドデータは、剰余表現データが再構築に含まれない限り、依然としてオクルージョンベースのアーティファクトを示し得る。
【0328】
図8に示される例示的な実施形態について、データは、個々の層状シーン分解層を再構築し、再構築された層を内側視錐台ボリューム層にマージすることによって復号化される。
図9に図示されるような代替の実施形態について、データは、個々の層状シーン分解層を再構築し、再構築された層を内側視錐台ボリューム層および外側視錐台ボリューム層にマージさせることによって復号化される。
【0329】
単一の層状シーン分解層は、所与のサンプリングスキームから、画像ベースのレンダリングの分野からのビュー合成技術を使用して、データのサンプリングから再構築され得る。例えば、Graziosiらは、参照要素画像を使用してライトフィールドを単一パスで再構築することを指定している。この方法は、再構築された画像から複次元でオフセットされた参照要素画像を使用する。要素画像データが(RGBカラーおよび視差を含む)3次元シーンポイントを表し、ピクセルは非線形関数として復号化される(ただし、参照要素画像とターゲット要素画像との間の方向ベクトル上に固定される)ため、復号化された参照要素画像と等しいサイズのストレージバッファが必要となる。より大きな要素画像を復号化するとき、これは、復号化ハードウェアに応じて、メモリストレージまたは帯域幅の制約が生じ得る。
【0330】
24ビットカラーを有する512×512ピクセルの要素画像サイズを有するライトフィールドディスプレイの場合、デコーダは、512×512=262,144の24ビット値(この例では、視差ビットなし)を格納し得るバッファを必要とする。現行の高性能FPGAデバイスでは、18/20ビットのワイドメモリとして編成された内部ブロックメモリ(BRAM)と、512のメモリ位置を有する36/40ビットのワイドメモリとして使用可能な1024のメモリ位置とが得られる。非線形復号処理により、書き込みポートに非決定性のアクセスパターンを使用させるため、同じクロックサイクルで画像を読み書きできるバッファは、2つの参照要素画像を保持するのに十分な大きさである。このバッファを512×512ピクセルの画像のFPGAデバイスに実装するには、1024個のBRAMブロックが必要である。使用される再構築アルゴリズムに応じて、各デコーダパイプラインに複数のバッファが必要とされ得る。高密度ライトフィールドディスプレイのデータレートを満たすために、システムは、現在のFPGAデバイスよりも多くのパイプラインの大きさである100を超える並列パイプラインを必要とし得る。各バッファは独立した読み取り/書き込みポートを必要とするため、現在のASICデバイスにかかるシステムを実装することはできない場合がある。
【0331】
本開示は、ピクセル再構築プロセスを複数の単一の次元段階に分割することによって、バッファおよびメモリの制限を回避している。本開示では、参照要素画像とターゲットとの間の方向ベクトルを整流された経路に固定するために、1次元再構築が実装される。再構築が非線形のままである間、ターゲット位置に変換される参照ピクセルは、ターゲットピクセルの同じ行または列位置にロックされる。したがって、デコーダバッファは、一度に1つの行または1つの列をキャプチャするだけでよい。上述した24ビットカラーの512×512ピクセルの要素画像について、デコーダバッファは、2つの36/40×512BRAMを必要とする24ビット幅の1024ディープメモリとして編成される。したがって、本開示は、メモリフットプリントを512の係数、またはその倍数の大きさによって減少させている。これにより、100を超える復号化されたパイプラインを必要とするディスプレイピクセル充填率が、現在のFPGAデバイスによってサポートされることが可能になる。
【0332】
多段復号アーキテクチャでは、ライトフィールドディスプレイ内の2次元ピクセルアレイを再構築するために2つの段階が必要となる。2つの段階は互いに直交的であり、要素画像の行または列を再構築する。第1の復号化段階は、次の段階の入力ピクセルと互換性があるように順序付けられた出力ピクセルを確実にするためにピクセルスケジューラを必要とし得る。各復号化段階によって要求される極めて高い帯域幅のため、ローカルストレージ要件を低減するために、以前の段階からの一部の出力ピクセルを再利用する必要があり得る。この場合、外部バッファは、後続の復号化段階がピクセルデータに効率的にアクセスし、論理リソースおよびメモリ帯域幅を低減することができるように、第1の段階から出力ピクセルの全てをキャプチャするために使用され得る。
【0333】
本開示の外部メモリバッファを用いた多段復号化は、復号化プロセスが、必要なメモリ帯域幅を高価なオンダイメモリから、ダブルデータレート(DDR)メモリデバイスなどの低コストメモリデバイスに転送することを可能にする。高性能復号化ピクセルスケジューラは、この外部メモリバッファからの参照ピクセルの再利用を最大限に確保し、システムがより狭いまたはより遅いメモリインターフェースを使用することを可能にする。
【0334】
本明細書において参照される全ての特許、特許出願、刊行物およびデータベースエントリの開示は、各かかる個々の特許、特許出願、刊行物およびデータベースエントリが、参照により組み込まれることが具体的かつ個々に示されているかのように、それらの全体が参照により本明細書に具体的に組み込まれる。
【0335】
本発明は、ある特定の実施形態を参照して説明されてきたが、その様々な修正例は、本発明の趣旨および範囲から逸脱することなく、当業者には明らかであろう。当業者に明らかであろう全てのかかる修正例は、以下の特許請求の範囲の範囲内に含まれることが意図される。
参考文献のリスト
ALPASLAN,ZAHIR Y.,EL-GHOROURY,HUSSEIN S.,CAI,JINGBO.”Parametric Characterization of Perceived Light Field Display Resolution”.pages 1241-1245,2016.
BALOGH,TIBOR,KOVACS.The Holovizio system-New opportunity offered by 3D displays.Proceedings of the TMCE,(May):1-11, 2008.
BANKS,MARTIN S.,DAVID M.HOFFMAN,JOOHWAN KIM AND GORDON WETZSTEIN.”3D Displays”Annual Review of Vision Science.2016.pp.397-435.
CHAI,JIN-XIANG,XIN TONG,SHING-CHOW CHAN,AND HEUNG-YEUNG SHUM.”Plenoptic Sampling”
CHEN,A.,WU M.,ZHANG Y.,LI N.,LU J.,GAO S.,and YU J..2018.“Deep Surface Light Fields”.Proc.ACM Comput.Graph.Interact.Tech.1,1,Article 14(July 2018),17 pages.DOI:https://doi.org/10.1145/3203192
CLARK,JAMES J.,MATTHEW R.PALMER AND PETER D.LAWRENCE.”A Transformation Method for the Reconstruction of Functions from Nonuniformly Spaced Samples”IEEE Transactions on Acoustics,Speech,and Signal Processing.October 1985.pp 1151-1165.Vol.ASSP-33,No.4.
DO,MINH N.,DAVY MARCHAND-MAILLET AND MARTIN VETTERLI.”On the Bandwidth of the Plenoptic Function”IEEE Transactions on Image Processing.pp.1-9.
DODGSON,N.A.Analysis of the viewing zone of the Cambridge autostereoscopic display.Applied optics,35(10):1705-10,1996.
DODGSON,N.A.Analysis of the viewing zone of multiview autostereoscopic displays.Electronic Imaging 2002.International Society for Optics and Photonics,pages pp 254-265,2002.
GORTLER,STEVEN J.,RADEK GRZESZCZUK,RICHARD SZELISKI,AND MICHAEL F.COHEN.”The Lumigraph”43-52.
GRAZIOSI,D.B.,APLASLAN,Z.Y.,EL-GHOROURY,H.S.,Compression for Full-Parallax Light Field Displays.Proc.SPIE 9011,Stereoscopic Displays and Applications XXV,(MARCH),90111A.2014.
GRAZIOSI,D.B.,APLASLAN,Z.Y.,EL-GHOROURY,H.S.,Depth Assisted Compression of Full Parallax Light Fields.Proc.SPIE 9391,Stereoscopic Displays and Applications XXVI,(FEBRUARY),93910Y.2015.
HALLE,MICHAEL W.AND ADAM B.KROPP.”Fast Computer Graphics Rendering for Full Parallax Spatial Displays”.Proc.SPIE 3011, Practical Holography XI and Holographic Materials III,(10 April 1997).
HALLE,MICHAEL W.Multiple Viewpoint Rendering.In Proceedings of the 25th annual conference on Computer graphics and interactive techniques(SIGGRAPH’98).Association for Computing Machinery,New York,NY,USA,243-254.
JANTET,VINCENT.”Layered Depth Images for Multi-View Coding”Multimedia.pp.1-135.Universite Rennes 1,2012.English.
LANMAN,D.,WETZSTEIN,G.,HIRSCH,M.,AND RASKAR,R.,Depth of Field Analysis for Multilayer Automultiscopic Displays.Journal of Physics:Conference Series,415(1):012036,2013.
LEVOY,MARC,AND PAT HANRAHAN.”Light Field Rendering”SIGGRAPH.pp.1-12.
MAARS,A.,WATSON,B.,HEALEY,C.G.,Real-Time View Independent Rasterization for Multi-View Rendering.Eurographic Proceedings,The Eurographics Association.2017.
MARSCHNER,STEPHEN R.AND RICHARD J.LOBB.”An Evaluation of Reconstruction Filters for Volume Rendering”IEEE Visualization Conference 1994.
MARTIN,S.“View Synthesis in Light Field Volume Rendering using Convolutional Neural Networks”.University of Dublin.August 2018.
MASIA,B.,WETZSTEIN,G.,ALIAGA,C.,RASKAR,R.,GUTIERREZ,D.,Display adaptive 3D content remapping.Computers and Graphics(Pergamon),37(8):983-996,2013.
MATSUBARA,R.,ALPASLAN,ZAHIR Y.,EL-GHOROURY,HUSSEIN S.,Light Field Display Simulation for Light Field Quality Assessment.Stereoscopic Displays and Applications XXVI,7(9391):93910G,2015.
PIAO,YAN,AND XIAOYUAN YAN.”Sub-sampling Elemental Images for Integral Imaging Compression”IEEE.pp.1164-1168.2010.
VETRO,ANTHONY,THOMAS WIEGAND,AND GARY J.SULLIVAN.”Overview of the Stereo and Multiview Video Coding Extensions of the H.264/MPEG-4 AVC Standard.”Proceedings of the IEEE.pp.626-642.April 2011.Vol.99,No.4.
WETZSTEIN,G.,HIRSCH,M.,Tensor Displays:Compressive Light Field Synthesis using Multilayer Displays with Directional Backlighting.1920.
WIDMER,S.,D.PAJAK,A.SCHULZ,K.PULLI,J.KAUTZ,M.GOESELE,AND D.LUEBKE.An Adaptive Acceleration Structure for Screen-space Ray Tracing.Proceedings of the 7th Conference on High-Performance Graphics,HPG’15,2015.
ZWICKER,M.,W.MATUSIK,F.DURAND,H.PFISTER.”Antialiasing for Automultiscopic 3D Displays”Eurographics Symposium on Rendering.2006.
【国際調査報告】