(54)【発明の名称】3次元ビデオストリームに属する画像のカラーコンポーネントを用いることにより、深度マップを生成、格納、送信、受信および再生する方法およびデバイス
(58)【調査した分野】(Int.Cl.,DB名)
前記第1のピクセル群、前記第2のピクセル群、および前記第3のピクセル群に属する複数のピクセルの値を前記カラー画像の前記輝度成分および前記2つのクロミナンス成分へ挿入する前に、前記少なくとも1つの深度または視差マップに領域変換を実行する段階を備える、請求項1に記載の方法。
前記第1のピクセル群、前記第2のピクセル群、および前記第3のピクセル群に属する複数のピクセルは併せて、前記少なくとも1つの深度または視差マップの全てのピクセルを含む、請求項1から3のいずれか一項に記載の方法。
前記第1のピクセル群、前記第2のピクセル群、および前記第3のピクセル群に属する複数のピクセルは、前記少なくとも1つの深度または視差マップの全てのピクセルの一部のみを含む、請求項1から3のいずれか一項に記載の方法。
サイドバイサイドまたはトップアンドボトム技術を用いることにより、前記少なくとも1つの深度または視差マップであるW×Hサイズの2つの深度または視差マップが、同じサイズの前記カラー画像へ挿入される、請求項1から7のいずれか1項に記載の方法。
前記第1のピクセル群、前記第2のピクセル群、および前記第3のピクセル群は併せて、前記少なくとも1つの深度または視差マップの全てのピクセルを含む、請求項12または13に記載の方法。
前記第1のピクセル群、前記第2のピクセル群、および前記第3のピクセル群に含まれる複数のピクセルの値を得ることにより、前記カラー画像と同じサイズを有する2つの深度または視差マップが得られる、請求項12から15のいずれか1項に記載の方法。
前記カラー画像の前記複数の成分から前記第1のピクセル群、前記第2のピクセル群、および前記第3のピクセル群に含まれる複数のピクセルの値を得るために、前記少なくとも1つの深度または視差マップから開始して、前記カラー画像を生成する段階で実行される領域変換と逆の領域変換が実行される、請求項12から16のいずれか1項に記載の方法。
【発明を実施するための形態】
【0032】
以下に、(既に説明したように、同じ立体ビデオストリームに関する他の画像も含むより大きなコンポジットフレームにその後挿入され得る)W×Hピクセルのサイズを有する1つのカラー画像内における2つの深度マップの様々な可能な配置に関連した、本願発明の基本的な考え方の実装のいくつかの特定の変形例を説明する。
【0033】
8ビット上の2×W×Hのサンプル、つまり2×W×Hのバイトに対応する、W×H解像度を有する2つの深度マップを検討する。このマップのペアは、W×H解像度を有する1つの4:2:0または4:2:2YUV「コンポジット」カラー画像へ挿入されることになる。
【0034】
以下に説明される本願発明の様々な実施形態は、W×Hサイズの長方形に2つの深度マップを挿入するフレームパッキングフォーマットの利用に基づく。2つの深度マップは例えば、トップアンドボトムモードにおいて、それらの解像度をW×(H/2)へ減じ、Y成分のみの上部および下部へそれらを配置することにより、または、サイドバイサイドモードにおいて、(W/2)×Hへ解像度を減じ、Y成分のみの左部分および右部分へそれらをそれぞれ配置することにより構成され得る。その後、本願発明によると、破棄されたピクセルは回復させられ、UおよびV信号へ挿入される。
【0035】
サイドバイサイド4:2:0解決方法。以下に、クロミナンス成分上のサンプルの位置付けが互いに異なる2つの技術を説明する。
【0036】
少なくとも1つの深度マップから開始することによりカラー画像を得る第1の技術(以下においてAモードと呼ばれる)は
図2aに示される。同図は、深度マップの行ペア(例えば、立体ビデオの左のビューに関する深度マップDM1)を参照し、いかに深度値を、半分にされた列数を有するコンポジットカラー画像のY、U、V成分と関連付けるかを示す。
【0037】
表記D(j,i)が、深度マップDM1、DM2の行jおよび列iのピクセルを指すために用いられ、j=0,1,..,H−1であり、i=0,1,..,W−1である。
図2aで説明される技術を用いることにより、深度マップは、3つの成分からなるカラー画像へと構成されなければならない。
Y(j,i)。j=0,…,H−1、およびi=0,…,W/2−1である。
U(j,i)およびV(j,i)。j=0,…,H−1、およびi=0,…,(W/2)−1である。4:2:0YUVアンダーサンプリングのために、指標jおよびiは偶数値のみとする。
【0038】
これらの表記により、
図2aに示されるピクセルの構成は、以下のルールを適用することにより得られる。
各ピクセルD(j,i)に関して: 1.iが偶数の場合:Y(j,i/2)=D(j,i) 2.jが偶数であり、iの4に対するモジュロが1に等しい場合:
【数1】
3.jが偶数であり、iの4に対するモジュロが3に等しい場合:
【数2】
4.それ以外の場合、D(i,j)は破棄される。
【0039】
これらのルールを適用することにより、深度マップの偶数列のみを含むH×W/2解像度のY成分が得られる。V成分は偶数の行インデックスが列4k+1に対応する深度値を集め、kはゼロより大きい、またはゼロに等しい正整数であり、つまり、深度マップの列1、5、9、...は、カラーマップの列0、2、4、...におけるV成分に位置付けられる。最終的に、U成分は偶数の行インデックスが列4k+3に対応する深度値を集め、kはゼロより大きい、またはゼロに等しい正整数であり、つまり、深度マップの列3、7、11、...は、カラーマップの列0、2、4、...におけるU成分に位置付けられる。
【0040】
これにより、奇数行および奇数列、つまり同図において十字または文字「X」で示される深度値は失われる。したがって、各深度マップに関し、Y、U、V成分間の高い空間相関を保ちつつ、サンプルがW/2×H解像度の新たな4:2:0YUVカラー画像へ空間的に整理され得る。つまり、Y、U、およびV成分により表される画像が、交互のアンダーサンプリングの同じ画像のバージョンを表す。このことは、MPEG圧縮アルゴリズムがUおよびV成分間の空間相関を想定しているので非常に重要である。したがって、そのような相関が存在しない場合、それらアルゴリズムはよく機能しない。
【0041】
深度マップのペアから開始してこのように得られた2つの画像を(水平方向に)互いに隣り合わせに配置することにより、
図5に示されるW×H解像度の画像が最終的に生成される。同図において色を用いることが出来ないので、3つのY、U、およびV成分は別々に表されている。
【0042】
より明らかにするため、
図2bは、DM1およびDM2で示されたW×Hサイズの2つの深度マップが依然としてAモードで4:2:0カラー画像(Y、U、V)に分配されるやり方の概略図を示す。ピクセルは、内接する幾何学的な図を含む小さな四角により表されている。
図2aおよび上記の式により示される技術を用いて暗黙的に決定された深度マップDM1、DM2の2×2ピクセルブロックは、DM1に属するか、またはDM2に属するかに応じてアポストロフィなし(1、2、...N×M。N=W2であり、M=H/2)、およびアポストロフィあり(1'、2'、...N×M'。N=W2であり、M'=H/2)のいずれか一方で、行スキャンの順番で順に番号が付されている。等しい小さな四角は、最初のブロックの同じピクセルに対応する。破棄されたピクセルは十字でマーク付けされている。
【0043】
深度マップDM1、DM2のピクセルを構成する場合、それらは2×2サイズの4ピクセルブロックへ分割される。DM1の各2×2ブロックの左列の2つのピクセル(1×2サイズの円を含む四角の2ピクセルブロック)は、深度マップの行スキャンに従って、ダミーのカラー画像の輝度成分Yにおいて互いに隣り合わせて配置される。このやり方でYの左半分は占められ、右半分を占めるよう同じことがDM2に対して行われる。
【0044】
依然として同じ行スキャンを用いて、DM1の同2×2ブロックの左上のピクセル(内接する四角を含む1四角ブロック)は、色成分V(実線の四角形)およびU(中抜きの四角)の左上隅の第1の利用可能な位置に交互に配置される。このやり方で、UおよびVの左半分が占められる。右半分を占めるよう同じことがDM2の2×2ブロックに対して行われる。右下隅に位置付けられたDM1およびDM2の2×2ブロックの(
図2bにおいて十字でマーク付けされた)ピクセルは破棄される。
【0045】
Y、U、およびVのサイドバイサイド構成は、並びにこれらの成分と、本願発明の本実施形態を用いて実験で得られる成分との間の対応に注意されたい(
図5)。
【0046】
場合によってはコーディング、送信、受信、およびデコードの後、カラー画像が受信された場合、深度値は、
図2aおよび2bに説明される段階を逆にすることにより再位置決めされ得る。
【0047】
特に、
図2bを参照すると、DM1およびDM2は、2×2ピクセルのW/2×H/2ブロックに分割される。依然として行スキャンに従い、ダミーのカラー画像の最初のW/2列のY成分の各2ピクセル1×2ブロックは、DM1のホモローグな2×2ブロックの左列へ再コピーされ、Yの残りのW/2列の1×2ブロックは、DM2のホモローグな2×2ブロックの左列へ再コピーされる(
図2aおよび2bにおいて円を含む四角)。
【0048】
色成分およびマップに対して行スキャンを行う場合、V(実線の四角形)およびU(中抜きの四角)の最初のW/4列のピクセルは交互に、それらをUおよびVの同じ行および列位置から取り出すことにより、DM1のホモローグなブロックの右上の位置に再コピーされる。同じことを、DM2の2×2ブロックを有するVおよびUの残りのW/4の右列のピクセルに対して行って、第2の深度マップも再構成する。本実施形態において両方が、ピクセル値が足りないW×H/4の位置を含む格子を示し、つまり、2つのうち1つの値は、深度マップの偶数行において足りない。そのような値は、深度マップを特徴付ける高い空間相関を活用することにより、本質的に公知の技術を通じて容易に補間され得る。
【0049】
図3は、3×3マスクの単純な空間フィルタ(例えば、平均フィルタまたはメジアンフィルタ)を用いる補間技術の一例を示す。足りない値を中心とする3×3マスクを用いることにより、中心位置における深度値を推測するために、足りない値の周りで受信される8つの深度値を活用することが出来る。メジアンフィルタを用いて行われた実験では、MPEG委員会により提供される深度マップを用いた場合、W×H解像度の深度マップが、50dBのピーク信号対雑音比(PSNR)よりも高い忠実度で再構成され得ることが示された。
【0050】
この補間による再構成技術は当然、本明細書に説明される全ての変形例において用いられ得る。
【0051】
以下に、Bモードと呼ばれる、先述のサイドバイサイド法の変形例を紹介する。先述の解決方法のU、V成分の構成は、
図4に示されるように、成分間の空間相関に関連して改善され得る。この結果は、以下の配置ルールを採用することにより達成される。
各ピクセルD(j,i)に関して: 1.iが偶数の場合:Y(j,i/2)=D(j,i) 2.jが偶数であり、iの4に対するモジュロが1に等しい場合:
【数3】
3.jが偶数であり、iの4に対するモジュロが3に等しい場合:
【数4】
4.それ以外の場合、D(i,j)は破棄される。
【0052】
先述の解決方法と比較して、この解決方法は、U、VおよびY成分の割り当てられるピクセル間のより短い空間距離を確保する。特に、アルゴリズムの段階2および3で行われる割り当ては、成分間のより良好な配列を確保する。
【0053】
これらのルールを適用することにより、深度マップの偶数列のみを含むH×W/2解像度のY成分が得られる。V成分は偶数の行インデックスが列4k+1に対応する深度値を集め、kはゼロより大きい、またはゼロに等しい正整数であり、つまり、オリジナルの深度マップの列1、5、9、...は、カラー画像の列0、2、4、...におけるV成分に位置付けられる。最終的に、U成分は偶数の行インデックスが列4k+3に対応する深度値を集め、kはゼロより大きい、またはゼロに等しい正整数であり、つまり、オリジナルの深度マップの列3、7、11、...は、カラーマップの列0、2、...におけるU成分に位置付けられる。
【0054】
アルゴリズムの段階3において、列インデックス値
【数5】
は、深度マップの右端において得られ得る(例えば、図中のi=11の深度値は、カラー画像で表され得ない)ことに留意するべきである。再構成段階において、これらの値は、当技術分野で公知の技術を用いて補間され得る。
【0055】
同様に、カラー画像の第1列のピクセルは、U成分に割り当てられた値を有さない(典型的に128であるデフォルト値が自由に割り当てられ得る)。
【0056】
最終的に、カラー画像は提供され得ないので、
図5は、上述した手順に従って得られる立体画像ペアに対応する2つの深度マップをサイドバイサイドモードで互いに隣り合わせて配置することにより得られるカラー画像の単一のY、U、V成分に対応する画像を示す。
【0057】
トップアンドボトム4:2:0解決方法。
トップアンドボトム構成を得るために、W×H解像度の深度マップをW×H/2解像度のカラー画像に変換する必要がある。そのような結果は、上述した同じ方法を行の役割と列の役割とを入れ替えて適用することにより達成される。
【0058】
例として、
図6は、サイドバイサイド法のBモードと呼ばれる手法により行数を半分とすることにより、YUV成分上にいかに深度マップの列ペアを表すかを示す。4:2:0サイドバイサイド方法に関して説明されたAモードが、行の役割と列の役割とを入れ替えることにより全体的に同様のやり方で用いることができ、したがって、簡潔にするためにさらには説明されない。
【0059】
このように得られるW×H/2解像度の2つの画像を(垂直方向に)重ね合わせることにより、
図7に示されるように、トップアンドボトムモードの深度マップペアを表す、W×H解像度の画像が最終的に生成される。色を用いることが出来ないので、同図は、3つのY、U、およびV成分を別々に示す。
【0060】
色成分の減少を用いるトップアンドボトム4:2:0解決方法。
先述の解決方法はY、U、およびV成分間の良好な空間的コヒーレンスを確保しつつ、深度マップのいくつかの値がカラー画像のクロミナンス成分として表されることを可能とする。(実際の色を有する)一般的な画像の場合、クロミナンス成分は、低いエネルギー容量、よって、低いエントロピーにより特徴付けられ、公知の技術を用いて容易に圧縮され得る。反対に、先述の解決方法のU、V成分は、輝度と同じエネルギー容量を有するピクセルから成る。
【0061】
この課題を解決するために、クロミナンス成分へ挿入されるべき深度値を、Y成分に表された深度値を用いて予測(または補間)された値に対する差分値と入れ替えることが可能であり、言い換えると、予測誤差がクロミナンス成分へ挿入され得る。深度マップは多くの詳細を含まないので、予測は有効であり、予測誤差は、非常に低いエネルギー容量を有し、よって、クロミナンスとして表されるのに適している。
【0062】
例として、Bモードのトップアンドボトム構成を示す
図8において二重矢印は、UおよびV成分に配置される深度値を補間するのに用いることが可能である深度値ペアを特定する。
【0063】
図8において、先述の再位置付けアルゴリズムの段階2および3に従って、UおよびV成分のための深度値の予測として用いられ得るY成分の深度サンプルが特定されている。先述のアルゴリズムの表記を用いることにより、実際に以下の予測誤差を計算することが出来る。
【数6】
ここでh、kは、VおよびU成分のそれぞれにおける配置の前に偶数列の対応する深度値に代入される、ゼロより大きい、またはゼロに等しい整数の指標である。予測誤差の小数値を格納することを避けるために、上の式において、予測値は四捨五入される(四捨五入の演算子が整数四捨五入演算を特定する)。この例において、考慮されるピクセルの上および下の行の2つの深度サンプル間の平均からなる単純な予測因子が用いられることを指摘しておくべきである。
【0064】
予測誤差D
eは、符号を有する値である。好ましくは、実際の実装において、そのような値に、範囲[0..255]内で得られる値の飽和に応じて符号なしの8ビットの値として表されるよう、128のオフセットが加算される。
【0065】
これにより、符号なしの予測誤差がVおよびU成分に関して表される。
【数7】
【0066】
単純にすべく、上の式において、0〜255の範囲の外側の値をクリッピングする、または飽和させる段階が省略されている。
【0067】
受信に応じて、(図面において文字Xで特定される)足りないサンプルの補間の前に、例えば上述した技術に従って、予測される深度値は、先述の式を逆にすることにより再構成される。
【数8】
【0068】
予測誤差の四捨五入の誤差により、標準的なエンコーダを用いて得られる数値化誤差と比較して無視できる程度の影響を受けた再構成誤差が引き起こされる。
【0069】
図9は、上述したシステムにより得られるコンポジット画像の一例を示す。印刷による近似にも起因して、均一であるように見える画像を通じて表されるUおよびV成分の低いエネルギー容量が見られる。検討されている解決方法の利点は、実際にそれがクロミナンス成分の平均振幅の低減を可能とし、これにより従来のYUV信号の高いエネルギーの分布をより反映し、UおよびV成分と比較しエネルギー容量が殆どY成分に集中しているということである。UおよびV成分は「差異信号」(正確には、それらは色差異信号と呼ばれる)であり、よってそれらは、8ビットの表現において、値128がゼロに対応し、128より小さい値は負であるものと見なされ、128より大きい値は正であるとみなされるよう、ゼロの平均値を有することにも留意するべきである。MPEG圧縮アルゴリズムはUおよびV信号のそのような特性に基づいており、したがって、それらの信号が、先述の実施形態のように何らかの差異を表さない場合、MPEG圧縮アルゴリズムは有効性が低いこととなり得る。
【0070】
上述した手法は、2つのサンプルのみを用いた補間手順の利用を通じたトップアンドボトムフォーマットの場合について例示したが、明らかに、ここまで説明した解決方法の全て、および他の補間方法に関して拡張され得る。
【0071】
平均値およ
び平均差を用いたトップアンドボトム4:2:0解決方法。
UおよびV成分のエネルギー的寄与を低減することを可能とする更なる変形例によると、深度マップの値は、輝度とクロミナンス成分とによりそれぞれ表され
る平均値と平均差により置き換えられる。この変形例の利点は、この場合においても差異を表す信号がUおよびVに挿入される点で先述の解決方法の利点と同じである。
【0072】
深度マップの各2×2ブロックのサンプルは、
図10および以下に示されるよう
に平均値およ
び平均差に変換される。ここで、a、b、c、dは、深度マップの2×2ブロックの深度値を表す。係数w0、w1は平均値であり、それらが符号なしの8ビットサンプルで表され得るように最も近い整数に四捨五入されるべきである(または、より小さい整数へ切り捨てられるべきである)。
【0073】
差異係数w2、w3に関しても同じ処理が実行される。さらに、後者は符号を有するので、それらの絶対値は、それらの値が128のオフセットを加算することにより8ビットサンプルで表され得るように128へ飽和させられる。
【0074】
また
図10は、以下に引用されるよう
に平均値およ
び平均差から深度サンプルをいかに再構成するかを示す。
【数9】
【0075】
採用される四捨五入に起因して、深度値a、b、c、dの再構成は、誤差が+/−1より小さくなるほど正確となる。
【0076】
例えば、トップアンドボトムの場合におけるW×H/2など次元数がより少ないカラー画像を得るために、4つのうち1つの係数を破棄する必要がある。選択される3つの係数はその後、上述した技術のうち1つに従ってY、U、V成分に配置され得る。
【0077】
このことは、Y成分に挿入される2つ
の平均値w0、w1を維持し、差異wd=w2および差異wd=w3のいずれか一方を、以下の式に従って2つの値w2、w3のうちどちらが最小の再構成誤差を確保するかに応じてU、Vへ移動させることにより達成される。
【0078】
w2およびw3のいずれか一方の選択により導入される再構成誤差は、以下のように評価され得る。
wd=w2の場合に得られる平均誤差e(wd=w2)およびwd=w3の場合に得られる平均誤差e(wd=w3)が計算され、その後送信のために選択される係数wdが以下のように誤差を最少化するものである。
【数10】
【0079】
W×H/2解像度のカラー画像を得るために、既に説明された同じアルゴリズムに従われ得る。
【0080】
各行インデックスj=0,2,4、および各列インデックスi=0,2,4に関して。
【0081】
深度マップの位置j、iの2×2ブロックの係数w0、w1、w2、w3が計算される。
最も良好な平均差wdが判断される。
式Y(j/2,i)=w0およびY(j/2,i+1)=w1に従っ
て平均値がY成分へ割り当てられる。
4によるインデックスjの残りの除算が0に等しい場合、式U(j/2,i)=wdに従って平均差が割り当てられる。
さもなくば(インデックスjが4の倍数でない場合)、V(j/2,i)=wd。
【0082】
図11は、2つの深度マップ
に平均値およ
び平均差を挿入することにより得られる、上述したトップアンドボトム構成のシステムを用いることにより得られるカラー画像の一例を示す。この場合においても、値wdに関連する非常に低いダイナミクスが理由となり、クロミナンス成分は低いエネルギー容量を集める。
【0083】
再構成に応じて
、平均値およ
び平均差を用いる技術は、初期の値a、b、c、dを係数w0、w1およびwdから再構成することを可能とする逆公式を適用すれば十分であるので、3×3補間フィルタを必要としない。
【数11】
【0084】
生じる再構成誤差は、平均差wdの選択、および、全ての係数の整数表現誤差に応じる。テストにより、50dBを超えるピーク信号対雑音比の基準深度マップにおいてはそのような誤差は無視できる程度であることが示された。
【0085】
サブバンド変換を用いた解決方法。
深度値の平均および差異に基づく先述した技術は、サブバンド手法を採用することにより一般化され得る。例えば2×2DCTタイプの領域変換、つまり、ウォルシュ−アダマール変換、または文献において公知である1つのレベルのみのウェーブレット変換を用いることにより、深度マップDM1(およびDM2)により構成される画像は、行および列の両方に関して解像度が半分にされた、よってW/2×H/2解像度の4つのサブバンドへ分割される。そのようなサブバンドは一般的に、LL、LH、HL、およびHHサブバンドとして、左から右に、および上から下に示される。
図12は、深度マップの行および列に別々にウォルシュ−アダマール変換を適用することにより得られるサブバンド変換の一例を示す。変換はビデオ信号のエネルギーの殆どをLLサブバンド(左上部分)に集中させていることを観察することが出来る。深度マップの場合のようにあまり詳細を含んでいない画像に関して、HHサブバンドは殆どエネルギーを集めない。HL、LH、およびHHサブバンドの係数は符号を有しており、128のオフセットを、先述の解決方法に関して説明された平均差の場合のように値0を表すために用いなければならないことにも気付くことが出来る。符号なしの8ビットサンプルで変換係数を表すことが所望される場合、用いられている変換のタイプに応じて変わり得る適切な四捨五入を行う必要もある。
【0086】
変換される領域が存在する場合、深度マップの解像度を低減させなければならないので、いくつかの係数は取り除くことが出来る。最も良好な選択は、両方の深度マップのHHバンド全体を取り除き、これにより、再構成に応じて品質の損失を導入することである。再構成は当然ながら、逆変換を適用することにより達成され、ここで、取り除かれる係数はゼロであることが想定されている。
【0087】
左の深度マップのLL'、LH'およびHL'サブバンド、および右の深度マップのLL"、LH"およびHL"サブバンドから開始することによりW×H解像度の単一のYUV画像を構築するために、
図13の図に従う。ここで、DM1'およびDM2'は、2つの深度マップDM1およびDM2のアダマール変換を示す。同図は輝度成分Yの4つの象限でいかにLL'、LH'、LL"およびLH"サブバンドの係数を配置するかを示す。特に、Y成分の上半分を左の深度マップのLL'およびLH'サブバンドと関連付け、下半分を、右の深度マップのLL"およびLH"サブバンドと関連付けることが選択された。YUV画像の再構成を完了すべく、3つの成分の誤った配置に起因して誤ったエッジを作成することなく、UおよびV成分に、HL'およびHL"サブバンドの残りのW/2×H/2係数を再配置する必要がある。
図13は所望される結果をいかに得るかを示す。
図13に示されるように、左の深度マップのHL'サブバンドが、両方向に2の倍数でアンダーサンプリングされた4つのバージョンへとさらに分割される。実際には、各2×2ブロックの係数が、4つのアンダーサンプリングされた画像に配置される。これにより、W/4×H/4解像度の、HL
a'、HL
b'、HL
c'およびHL
d'で示されるHL'サブバンドの4つの画像が得られる。得られる最初の2つの画像は、U成分の上部で互いに隣り合わせて配置され、H/4×W/2サンプルと同等のエリアが占められる。HL'サブバンドの残りの2つの画像が、V成分の上部に(互いに隣り合わせて)コピーされる。同じ手順が最終的に、右の深度マップのHL"サブバンドに関して採用されるが、W/4×H/4画像が、UおよびV成分の下半分にコピーされる。この手法により、解像度が半分にされたY成分とU、V成分との間の空間的コヒーレンスを維持することが可能となる。
【0088】
ウォルシュ−アダマール変換を用いることにより得られるカラー画像の一例が
図14に示されている。この場合においても、UおよびV成分に関連するエネルギー的寄与は非常に低く、このことは、ビデオ信号の圧縮率の点で有益である。
【0089】
テレビ再生チェーン(YUV4:2:2フォーマット)における2つの深度マップの合成。
テレビ再生チェーンにおいて、4:2:2YUVフォーマットが典型的に用いられる。4:2:0フォーマットの場合と比較して、2つのマップを単一のカラー画像にパックする解決方法は、クロミナンス情報(U、V)がピクセルの50%に存在する点でより単純である。したがって全体として、16ビット/ピクセル(Yに関して8、U、Vに関して8)が利用可能であり、これにより、情報の損失なしで、よって、受信に応じて足りないピクセルを補間する必要なしで2つのマップをカラー画像に挿入することが可能である。
【0090】
第1の解決方法は、Yに対して一方のマップを、およびUおよびVに対して他方のマップを送信することから成り得る。しかし、実際のカラー画像の場合のように、ビデオ圧縮アルゴリズムは通常、輝度およびクロミナンスが互いに関連付けられているとの想定に基づいており、検討されている解決方法においてYは1つの画像に属し、U、Vが異なる画像に属するので、この解決方法は最適ではない。したがって、4:2:2の場合においても、4:2:0YUVの場合に関して採用されたものと同様のメカニズムを用いることにより、関連付けられたY、U、V成分を有する画像の構成を確保するようなやり方でサンプルを再配置することがより良好である。
【0091】
サイドバイサイド4:2:2解決方法。
カラー画像の作成は、
図15を検討することにより容易に理解され得る。第1のピクセル行において、オリジナルの深度マップの奇数列(1、3、5...)のピクセルが、
図2aと全体的に同様のやり方でカラー画像の偶数列のピクセルのUおよびVへ移動させられる。4:2:0の場合とは異なり、カラー画像の偶数列(0、2、4...)のピクセルはクロミナンスを有するので、第1の行と同じことが第2ピクセル行に起こり、つまり、オリジナルの深度マップの奇数列のピクセルが、カラー画像の偶数列のピクセルのUおよびVに移動させられる。したがって、受信に応じて補間により再構成される足りないピクセル(
図2aにおいて十字でマーク付けされたもの)はもはやない。
【0092】
同じことがBモードに当てはまる。この場合にも、全ての行(偶数および奇数)において、ピクセル行0に関して
図4に示されていることが起こり、よって、受信に応じて補間により再構成される足りないピクセルはもはやない。
【0093】
トップアンドボトム4:2:2解決方法。
例として、カラー画像を作成する1つの可能なやり方が
図16に示されている。破棄される奇数行のピクセルは、例えば矢印に示されるように、偶数行のピクセルのUおよびVに再割り当てされる。再割り当ては、簡潔にするために本明細書において説明されない他の実質的に同等のやり方でも実行され得る。
【0094】
色成分の減少を用いるサイドバイサイドおよびトップアンドボトム法、4:2:2フォーマット。
先述の解決方法は、Y、U、およびV成分間の良好な空間的コヒーレンスを確保しつつ深度マップのいくつかの値がカラー画像のクロミナンス成分として表されることを可能とする。(実際の色を有する)一般的な画像の場合、クロミナンス成分は、低いエネルギー容量により、よって、低いエントロピーにより特徴付けられ、公知の技術を用いることにより容易に圧縮され得る。反対に、先述の解決方法のU、V成分は輝度と同じエネルギー容量を有するピクセルから成る。この課題を解決するために、クロミナンス成分に挿入されることになる深度値をY成分に表される深度値を用いることにより予測(または補間)された値に対する差分値で入れ替えることが可能である。言い換えると、予測誤差がクロミナンス成分に挿入され得る。深度マップはそれ程詳細ではないので、予測は有効であり、予測誤差は非常に低いエネルギー容量を有し、よって、クロミナンスとして表されるのに適している。
【0095】
例として、
図17において、二重矢印は、
図16のトップアンドボトム構成のUおよびV成分に配置される深度値を補間するのに用いることが可能である2つの深度値を特定する。
図16の図において、奇数行のサンプルは、その上および下の行のサンプルから開始することにより補間される。そのような値はY成分に位置付けられるので、カラー画像の受信に応じても利用可能である。この時点において、U、V成分の値として(
図16の薄い矢印による示される構成に従って)、補間器により生成された予測誤差を計算および挿入することが可能である。そのような値は、既に説明された同じ技術を用いることにより符号なしの整数として表される。U、V成分により転送される予測誤差は最終的に、受信に応じて、対応する補正をY成分から補間された値に適用することにより、奇数行の深度値を再構成することを可能とする。
【0096】
平均値およ
び平均差を用いるトップアンドボトム4:2:2解決方法。
4:2:2の場合においても、UおよびV成分のエネルギー的寄与を低減することを可能とする更なる変形例は、輝度およびクロミナンス成分のそれぞれを用いることにより表され
る平均値およ
び平均差で深度マップの値を置き換える段階を含む。この変形例の利点は、この場合においても差異を表す信号がUおよびVに挿入される点で、先述の解決方法の利点と同じである。深度マップの各2×2ブロックのサンプルは、
図10に示されるよう
に平均値およ
び平均差に変換され、ここで、a、b、c、dは、深度マップの2×2ブロックの深度値を表す。
【0097】
4:2:0の場合との唯一の差異は、4:2:2解決方法において、両方の差異係数がUおよびVに挿入され得るので、4つのうち1つの係数を破棄する必要がもはやないということである。したがって受信に応じて
、平均値およ
び平均差の符号なしの整数表現により引き起こされる+/−1の正確性の損失を除いて、誤差なしでマップが再構成される。
【0098】
サブバンド変換を用いた解決方法、4:2:2フォーマット。
1つのレベルのみをサブバンド変換へ適用することにより、深度マップにより形成される画像が、行および列の両方で解像度が半分にされた、つまりW/2×H/2解像度の4つのサブバンドへ分割される。そのようなサブバンドは一般的に、LL、LH、HL、およびHHサブバンドとして右から左に、上から下に示される。4:2:2YUVフォーマットを用いる場合、
図18に示される手順を用いることにより、2つの深度マップの変換を単一のカラー画像に表すことが出来、ここで、DM1'およびDM2'は、DM1およびDM2の2つの深度マップのサブバンド変換を示す。4:2:0YUVフォーマットに関して提案された同様の技術(
図13を参照)とは異なり、この場合、DM1'およびDM2'の全ての4つのサブバンドを設定することが可能である。例として本明細書に提案される解決方法において、トップアンドボトムカラー画像が形成される。列ごとにアンダーサンプリングされるLHおよびHHサブバンドに挿入することにより、U、V成分は、Uの対応する画像との空間相関を維持するようなやり方で構成される。特に、偶数列がU成分に挿入され、奇数列は、V成分へ挿入される。
【0099】
1つのマップのみを挿入。
本願発明は、1つのみの深度マップが存在する場合にも適用可能であることに留意するべきである。この場合、本明細書に提案される技術は、オリジナルの深度マップのものと比較して(行または列毎に)解像度が半分にされたカラー画像を構成することを可能とする。
【0100】
完全な生成および再構成システム。
本明細書に提案される解決方法は、それぞれの深度マップと共に立体ビデオシーケンスのペアを可視化システムへ送信するために用いられ得、これにより、何らかの中間視点の合成を可能とする。
【0101】
図19aおよび19bは、生成側が再構成および視覚化側と分離された、タイルフォーマットとして知られるフレームパッキングフォーマットを用いる完全な生成、再構成、および可視化システムの例を示す。
【0102】
特に、提案されるシステムにおいて、図面において左の深度マップDL(Depth Left)および右の深度マップDR(Depth Right)として示される、W×H解像度の2つの深度マップ(場合によっては2W×2H寸法の2つのビューの2つの深度マップを4:1でアンダーサンプリングすることにより得られる)が、本明細書に提案される技術のうち1つを採用することにより、「深度マージャ」と呼ばれるデバイスによりW×H解像度の単一の4:2:0のYUVカラー画像へマージされる。その後、タイルフォーマットマルチプレクサデバイスが、2W×2H解像度の2つの立体画像、および、W×H解像度の深度マップのペアから開始することによりタイルフォーマットコンポジットフレームを構成する。深度マップのペアは、正確に、右下隅においてフレームパッキングフォーマットにより利用可能のままとされる空間を占める(
図1を参照)。立体信号の全ての成分を転送出来る3W×3H解像度の単一の画像がこのように得られる。W=640およびH=360と想定した場合、1080pとして知られる高解像度のビデオフォーマットに対応可能な1920×1080解像度のタイルフォーマット画像が生成される。これによりタイルフォーマット画像により構成されるビデオ信号は、1920×1080ビデオ信号をコーディング、送信、または転送するためのインフラストラクチャに対応可能となる。
【0103】
公知のエンコーダ(例えば、MPEG4またはHEVC)は効果的に、場合によっては他の処理(他のコンテンツとの多重化、変調などの後に)通信チャネルでの送信のために、タイルフォーマットマルチプレクサにより生成される立体ビデオストリームを圧縮できる。代替的に、コーディングされたストリームは、将来的な実現のために書き込みユニットにより何らかの格納手段(揮発性または不揮発性半導体メモリ、光電子媒体など)に格納され得る。
【0104】
受信側(
図19bを参照)で、通信チャネルから受信した、または格納媒体から読み取られた立体ビデオストリームは、デコードされ、タイルフォーマットデマルチプレクサへ送信され、タイルフォーマットデマルチプレクサは、2W×2H解像度の立体画像L、Rのペア、および深度マージャによる生成に応じて生成されるカラー画像を抽出する。深度分割器と呼ばれる分割ユニットは、当該画像から、W×H解像度のカラー深度マップDL、DRのペアを抽出し、それらは、深度アップサンプラーと呼ばれる単純な公知の補間デバイスによりそれらのオリジナルの2W×2Hサイズへ拡張され得る。ビュー合成デバイスが、セルフ立体デバイスを通じた視覚化のためにRとLとの間の中間ビューを計算する。
【0105】
本願発明を深度マップに適用することにより得られる立体ビデオストリームの生成のための装置(1500)および再構成のための装置(1550)の説明には、多くの変形例が考えられ得ることに留意するべきである。例えば、深度マージャおよびタイルフォーマットマルチプレクサの機能は実際には、同一の物理的デバイスにより実行され得る。再構成側において、立体画像の合成および視覚化は、同一の装置または2つの別個の装置により実行され得る。
【0106】
再構成処理。
本願発明にしたがって深度マップを再構成するために、上述した変形例に従ってカラー画像を生成するための処理とは逆の処理が実行される。
【0107】
特に、複数の成分(Y、U、V)から構成されるカラー画像から開始して少なくとも1つの深度マップ(DM1、DM2)を再構成する方法は、カラー画像(Y、U、V)の輝度成分(Y)から取り出された第1のピクセル群、一方のクロミナンス成分(U)から取り出された第2のピクセル群、およびクロミナンス成分の他方(V)から取り出された第3のピクセル群を深度マップに挿入する段階を含む。
【0108】
好ましくは、第1、第2、および第3のピクセル群を再コピーすることにより、当該少なくとも1つの深度マップの全てのピクセルが得られる。または、第1、第2、および第3のピクセル群を再コピーすることにより、深度マップのいくつかのピクセルが得られ、および再コピーされたピクセルに補間処理を行うことにより足りないピクセルが得られる。
【0109】
いくつかの可能な変形例において、第2および第3の群(UおよびV)は、補間値に対して差異を含んでいるので、再構成に応じて、最初に、補間値を計算し、その後、UおよびVから得られる補正を適用する必要がある。
【0110】
いくつかの可能な変形例において、方法は、カラー画像の第1、第2、および第3のピクセル群から取り出された値(w0、w1、wd)を、それらの合計および差異で置き換える段階を備え、このことにより、深度マップ(DM1、DM2)のピクセルブロックへコピーされる値(a、b、c、d)を再構成することが可能となる。
【0111】
更なる可能な変形例において、方法は、カラー画像の成分(Y、U、V)のピクセル群を再コピーした後に当該深度マップ(DM1、DM2)を得るために、生成する段階において実行されたものと逆の領域変換を行うことを含む。
【0112】
本発明に係る、Y、U、V成分から構成されるカラー画像から開始して少なくとも1つの深度マップ(DM1、DM2)を再構成する装置は、カラー画像(Y、U、V)の輝度成分(Y)から取り出された第1のピクセル群、一方のクロミナンス成分(U)から取り出された第2のピクセル群、およびクロミナンス成分の他方(V)から取り出された第3のピクセル群を少なくとも1つの深度または視差マップに挿入する手段を含む。
【0113】
装置において好ましくは、第1、第2、および第3のピクセル群は、少なくとも1つの深度または視差マップの全てのピクセルを網羅する。
【0114】
代替として、第1、第2、および第3のピクセル群は、少なくとも1つの深度または視差マップのいくつかのピクセルを網羅し、再コピーされたピクセルに対して補間処理を実行することにより得られるピクセルが残りのピクセルに挿入される。
【0115】
装置は、同じW×Hサイズを有する2つの深度マップDM1、DM2を再構成することが出来、カラー画像Y、U、Vにおいて、輝度成分Yは2つの深度または視差マップDM1、DM2と同じW×Hサイズを有する。
【0116】
好ましくは装置は、第2および第3の群のピクセルを得るために、予測または補間された参照値に対して、ピクセルの群から選択されるピクセルの値の合計または差異を得るための手段を備える。後者の値は第1の群に属するピクセルの値から得られる。
【0117】
好ましくは装置は、少なくとも1つの深度マップDM1、DM2のピクセルブロックにコピーされる値a、b、c、dを再構成するべく、カラー画像の第1、第2、および第3のピクセル群から取り出された値w0、w1、wdを、それらの合計および差異で置き換える手段を備える。
【0118】
好ましくは装置は、カラー画像の成分Y、U、Vのピクセル群を再コピーした後に当該少なくとも1つの深度マップDM1、DM2を得るために、生成する段階において実行されたものと逆の領域変換を行う手段を備える。
【0119】
深度マップがタイルフォーマットコンポジットフレームに挿入される場合、上述した変形例の全てにおいて、全ての現在の、および将来のタイプのディスプレイ上で3Dコンテンツを生成、転送、および再生するための汎用的なフォーマットが得られる。
【0120】
2D再生デバイスの場合、デバイスのビデオプロセッサは単に、デコードされたビデオフレームに存在し得る画像Rおよび深度マップDM1およびDM2を破棄し、拡大縮小をして、関連付けられた視覚化デバイス上に一連の画像Lのみを表示する。
【0121】
同じことが、ユーザが2Dディスプレイモードをアクティブ化させた場合の3D再生デバイスに関して当てはまる。
【0122】
3Dディスプレイモードがアクティブ化された3D再生デバイスは、ユーザによるシーンの深度の調整(低減)をプレーヤが可能とするか否かに応じて、2つの異なる挙動を示し得る。後者の場合、ビデオプロセッサは、2つの一連の画像L(Left)およびR(Right)を用いて、3次元効果を生成する。前者の場合、ビデオプロセッサは立体画像R、Lの各ペアに関連付けられたコンポジットフレームに含まれる(1つまたは2つの)深度マップを用いて、LとRとの間の中間ビューを生成し、これにより、LおよびRから取得可能なものよりも低い、可変の深度を有する3次元画像が得られる。
【0123】
最後の適用例は、ディスプレイの前の空間の複数の異なる地点に位置する閲覧者のために3次元効果を生成するために非常に多数(数十)のビューを必要とするセルフ立体プレーヤにより表される。この場合、ビデオプロセッサは、画像L、R自体と併せてコンポジットフレームに含まれる(1つまたは2つの)深度マップを用いて、一連の他の画像を合成する。
【0124】
結論として、再生デバイスのビデオプロセッサは、2つの一連の画像をディスプレイへ送信するよう適合させられた手段を備え得る。それら2つの一連の画像のうち少なくとも1つは、送信されるビューのうち少なくとも1つから、および少なくとも1つの深度マップから開始して合成される画像から成る。この場合、再生デバイスのビデオプロセッサは好ましくは、深度の知覚を変化させることが出来るようおよそ近い視点に関する複数の一連の画像を選択することを閲覧者に可能とするよう適合させられた手段も備える。
【0125】
再生デバイスのビデオプロセッサは、空間中の異なる地点に位置する閲覧者が関連付けられたセルフ立体ディスプレイを通じて異なる複数の一連の画像を見ることが出来るよう、更なるビューに対応する更なる画像を生成するよう適合させられた手段も備え得る。
【0126】
これまで提案されてきたフォーマットのいずれも、同時に水平方向および垂直方向の解像度のバランスの点で、並びに、立体画像および関連付けられた深度マップへの適切な解像度の割り当ての点で非常に良好な再生品質を依然として確保しつつ、そのような利用のフレキシブルさ、および幅広さを提供していない。
【0127】
上述した再構成処理は、受信デバイスにより部分的に、および視覚化デバイス(プレーヤ)により部分的に実行され得る。本願発明は有利には、方法の1または複数の段階を実行するためのコーディング手段を備えるコンピュータプログラムを通じて実装され得る。したがって保護範囲は、コンピュータプログラム、および、記録されたメッセージを備えるコンピュータ可読手段までを含むことが理解される。コンピュータ可読手段は、プログラムがコンピュータにより実行された場合に方法の1または複数の段階を実装するためのプログラムコーディング手段を備える。
【0128】
上述した実施形態の例は、当業者に公知の全ての同等の設計を含め本願発明の保護範囲から逸脱することなく変更が可能である。
【0129】
本説明は、最も普及しているものである、カラー画像に関して採用されるサンプリングシステムが4:2:0または4:2:2である本願発明の実施形態を取り扱ってきた。それにも関わらず、例えば、初期のグレースケールレベルへ画像をアンダーサンプリングするための処理を必要に応じて実行することにより4:4:4、4:1:1、4:1:0など何らかの他のサンプリングシステムにも同様に適用可能である。
【0130】
様々な好ましい実施形態において示された要素および特徴は共に組み合わせられ得、その場合であっても、本願発明の保護範囲から逸脱することはない。
【0131】
上記の説明から、当業者は、更なる構成の詳細を導入することなく本願発明の目的を達成し得る。
[項目1]
少なくとも1つの深度または視差マップから開始して、複数の成分から構成されるカラー画像を生成する方法であり、
上記少なくとも1つの深度または視差マップの第1のピクセル群が上記カラー画像の輝度成分に挿入され、
上記少なくとも1つの深度または視差マップの第2のピクセル群および第3のピクセル群が上記カラー画像の2つのクロミナンス成分に挿入される、方法。
[項目2]
上記第1のピクセル群、上記第2のピクセル群、および上記第3のピクセル群のピクセルが上記輝度成分および上記2つのクロミナンス成分のどの位置に挿入されるかの選択は、上記カラー画像の上記輝度成分と上記2つのクロミナンス成分との間の空間相関を確保するようなやり方でなされる、項目1に記載の方法。
[項目3]
上記第1のピクセル群、上記第2のピクセル群、および上記第3のピクセル群は併せて、上記少なくとも1つの深度または視差マップの全てのピクセルを含む、項目1または2に記載の方法。
[項目4]
上記第1のピクセル群、上記第2のピクセル群、および上記第3のピクセル群は、上記少なくとも1つの深度または視差マップの全てのピクセルの一部のみを含む、項目1または2に記載の方法。
[項目5]
サイドバイサイドまたはトップアンドボトム技術を用いることにより、W×Hサイズの2つの深度または視差マップが、同じサイズのカラー画像へ挿入される、項目1から4のいずれか1項に記載の方法。
[項目6]
ピクセル群に属する上記第2のピクセル群および上記第3のピクセル群のピクセルは、予測値または補間値に対する差分値により置き換えられ、
上記補間値は、上記第1のピクセル群に属するピクセルの値から得られる、項目1から5のいずれか1項に記載の方法。
[項目7]
隣接するピクセル群の合計を上記輝度成分に配置し、上記隣接するピクセル群の差異のうち上記2つのクロミナンス成分に交互に配置される1つのみを選択することにより、上記隣接するピクセル群に属する上記少なくとも1つの深度または視差マップのピクセルを、上記合計または上記差異で置き換える段階を備える、項目1から4のいずれか1項に記載の方法。
[項目8]
隣接するピクセル群の合計を上記輝度成分に配置し、上記隣接するピクセル群の2つの差異のうち第1の差異を一方のクロミナンス成分に配置し、第2の差異を他方のクロミナンス成分に配置することにより、上記隣接するピクセル群に属する上記少なくとも1つの深度または視差マップのピクセルを、上記合計または上記2つの差異で置き換える段階を備える、項目1から4のいずれか1項に記載の方法。
[項目9]
上記第1のピクセル群、上記第2のピクセル群、および上記第3のピクセル群を上記カラー画像の上記複数の成分へ挿入する前に、上記少なくとも1つの深度または視差マップに領域変換を実行する段階を備える、項目1から8のいずれか1項に記載の方法。
[項目10]
項目1から9のいずれか1項に記載の方法を用いることにより得られる一連のカラー画像を含むビデオストリームを生成する方法。
[項目11]
タイルフォーマットのフレームパッキングフォーマットを用いてビデオストリームを生成する方法であり、
2つの立体ビューに関する複数の画像のピクセルを含まないフレーム部分にカラー画像が挿入される、項目1から9のいずれか1項に記載の方法。
[項目12]
項目1から11のいずれか1項に係る方法を用いることにより得られる一連のカラー画像を含むビデオストリームを生成する画像処理手段を備える装置。
[項目13]
複数の成分から構成されるカラー画像から開始して、少なくとも1つの深度または視差マップを再構成する方法であり、
上記カラー画像の輝度成分から開始して得られる第1のピクセル群と、一方のクロミナンス成分から開始して得られる第2のピクセル群と、他方のクロミナンス成分から開始して得られる第3のピクセル群とが、上記少なくとも1つの深度または視差マップへ挿入される、方法。
[項目14]
上記第1のピクセル群は上記カラー画像の上記輝度成分から取り出され、上記第2のピクセル群は一方のクロミナンス成分から取り出され、上記第3のピクセル群は上記他方のクロミナンス成分から取り出される、項目13に記載の方法。
[項目15]
上記第1のピクセル群は、上記輝度成分から取り出され、
上記第2のピクセル群または上記第3のピクセル群は、上記第1のピクセル群に属するピクセルの値からの補間により得られる参照値に対する差異を表す上記2つのクロミナンス成分のうち一方、またはそれぞれ他方から取り出されるピクセルの値と、上記参照値とを合計することにより得られる、項目13に記載の方法。
[項目16]
上記少なくとも1つの深度または視差マップの全てのピクセルは、上記第1のピクセル群、上記第2のピクセル群、および上記第3のピクセル群を得ることにより得られる、項目13から15のいずれか1項に記載の方法。
[項目17]
上記少なくとも1つの深度または視差マップのいくつかのピクセルは、上記第1のピクセル群、上記第2のピクセル群、および上記第3のピクセル群を得ることにより得られ、
足りない複数のピクセルは、再コピーされた複数のピクセルから補間処理を用いて得られる、項目13から15のいずれか1項に記載の方法。
[項目18]
上記第1のピクセル群、上記第2のピクセル群、および上記第3のピクセル群を得ることにより、上記カラー画像と同じサイズを有する2つの深度または視差マップが得られる、項目14から17のいずれか1項に記載の方法。
[項目19]
複数の成分から構成されるカラー画像から開始して少なくとも1つの深度または視差マップを再構成する方法であり、
上記少なくとも1つの深度または視差マップにコピーされることになる複数の値を再構成する目的で、複数の隣接する位置における、上記複数の成分から取り出される値を線形に組み合わせる段階を備える方法。
[項目20]
上記カラー画像の上記複数の成分から上記第1のピクセル群、上記第2のピクセル群、および上記第3のピクセル群を得た後に、上記少なくとも1つの深度または視差マップを得るために、生成する段階で実行されたものと逆の領域変換が実行される、項目13から18のいずれか1項に記載の方法。
[項目21]
タイルフォーマットと呼ばれるフレームパッキングフォーマットを用いてビデオストリームを再構成する方法であり、
2つの立体ビューに関する複数の画像のピクセルを含まないフレーム部分に存在するカラー画像から開始して、少なくとも1つの深度または視差マップを再構成する段階を備える、項目13から20のいずれか1項に記載の方法。
[項目22]
Y、U、V成分から構成されるカラー画像から開始して少なくとも1つの深度または視差マップを再構成する装置であり、
項目13から21のいずれか1項に記載の方法を実行する手段を備える装置。