【文献】
Shan Liu, et.al.,"Bit-depth Scalable Coding for High Dynamic Range Video",Proc. SPIE 6822, Visual Communications and Image Processing 2008,2008年 1月28日,Vol.6822,p.68220O-1〜68220O-10,doi:10.1117/12.766601
(58)【調査した分野】(Int.Cl.,DB名)
第1の動的サンプル値範囲を有し、画像の第1のトーンマッピングされたバージョンを符号化するための第1の画像符号化ステージ(12)と、第1の動的サンプル値範囲より大きい第2の動的サンプル値範囲を有し、画像の第2のバージョンを符号化するための第2の画像符号化ステージ(14)との間の層間予測を実行する装置であって、前記装置は、
画像の第1のトーンマッピングされたバージョン(36)および画像の第2のバージョン(38)における同じ位置に配置されたサンプルの値の対の統計分析に基づいて全体的なトーンマッピング機能(40)を引き出し、画像の第2のバージョンのために全体的に予測された参照画像(52)を得るために画像の第1のトーンマッピングされたバージョン(36)に全体的なトーンマッピング機能(40)を適用するように構成される全体的な予測手段(26)、および
全体的に予測される参照画像(52)および画像の第2のバージョン(38)が分割されるサブ部分を単位にして画像の第2のバージョン(38)および全体的に予測された参照画像(52)において同じ位置に配置されるサンプルの値の統計分析に基づいて局所的に様々なトーンマッピング機能を局所的に引き出し、画像の第2のバージョン(38)のための全体的におよび局所的に予測された参照画像(54)を得るために全体的に予測された参照画像(52)に局所的に様々なトーンマッピング機能を適用するように構成された予測手段(28)を含み、
局所的な予測手段(28)は、それぞれのサブ部分に対して局所的に様々なトーンマッピング機能を局所的に引き出す際に、画像の第2のバージョン(38)および全体的に予測された参照画像(52)のそれぞれのサブ部分(56)において同じ位置に配置されたサンプルの値の対の分布(64)を通る回帰線(62)の傾斜(58)およびインターセプト(60)を決定し、
第2の画像符号化ステージによって生成される強化データストリームへのサイド情報としてサブ部分に対して決定され、第1の画像符号化ステージによって出力されるデータストリームに関連して強化層を形成する傾斜およびインターセプトを符号化するように構成され、
第2の画像符号化ステージは、全体的におよび局所的に予測された参照画像と、画像の第2のバージョンとの間の予測残差を強化データストリームへ不可逆符号化するように構成され、局所的な予測手段(28)は、
その傾斜が前に符号化された隣接するサブ部分の傾斜から空間的な予測の予測残差としてそれぞれのサブ部分(56)に対して決定される傾斜(58)を符号化し、
一方において予測残差および全体的におよび局所的に予測される参照画像、および他方において全体的に予測された参照画像に基づいて、再建可能なかぎり画像の第2のバージョンの隣接するサブ部分(70)における同じ位置に配置されたサンプルの値の対の分布に、それぞれのサブ部分(56)の傾斜を有する直線(72)を適合させ、直線のインターセプトを決定するように構成され、
直線(74)のインターセプトに応じて空間的なインターセプト予測に関連する予測残差としてそれぞれのサブ部分(56)のインターセプト(60)を符号化する、装置。
全体的な予測手段(26)は、第1の動的なサンプル値範囲(42)の可能な値のそれぞれのために、その値がそれぞれの可能な値に等しい第1のトーンマッピングされたバージョン(36)において同じ位置に配置される画像の第2のバージョン(38)におけるサンプルの値の分布の中心傾向によって全体的なトーンマッピング機能(40)を引き出すように構成された、請求項1に記載の装置。
全体的な予測手段は、全体的なトーンマッピング機能を引き出し、画像の第1のトーンマッピングされたバージョンに全体的なトーンマッピング機能を適用する際に、画像の第1のトーンマッピングされたバージョンにおけるサンプルの値に第1のカラーフォーマットから第2のカラーフォーマットへ色変換実行するように構成され、色変換は画像の第1のトーンマッピングされたバージョンおよび第2のバージョンとは無関係に常に設定され、第2のカラーフォーマットにおいて全体的なトーンマッピング機能の導出および全体的なトーンマッピング機能の適用を実行するように構成される、請求項1ないし請求項3のいずれかに記載の装置。
全体的な予測手段(26)は、第2の画像符号化ステージ(14)によって生成される強化データストリームにサイド情報として全体的なトーンマッピング機能を符号化し、第1の画像符号化ステージ(12)によって出力されるデータストリームに比べて強化層を形成するように構成された、請求項1ないし請求項5のいずれかに記載の装置。
全体的な予測手段(26)は、差動符号化を用いて第1の動的サンプル値範囲の増加するあるいは減少する可能な値の向きに沿って連続して全体的なトーンマッピング機能を符号化するように構成される、請求項6に記載の装置。
局所的な予測手段(28)は、傾斜(58)によって重み付けされインターセプト(60)によってシフトされるそのサンプルを有する画像の第2のバージョン(38)のそれぞれのサブ部分(56)および全体的に予測された参照画像(52)のそれぞれのサブ部分(56)に依存するコスト関数を最小にすることによって傾斜(58)およびインターセプト(60)を量子化するように構成される、請求項1ないし請求項7のいずれかに記載の装置。
局所的な予測手段(28)は、傾斜(58)によって重み付けされインターセプト(60)によってシフトされるそのサンプルを有する画像の第2のバージョン(38)のそれぞれのサブ部分(56)および全体的に予測される参照画像(52)のそれぞれのサブ部分(56)の間の偏差を符号化するための第2の画像符号化ステージ(14)によって必要とされるデータ転送速度とともに単調に増加し、および第2の画像符号化ステージ(14)によって生じる歪みとともに単調に増加するコスト関数を最小にすることによって傾斜(58)およびインターセプト(60)を量子化するように構成される、請求項1ないし請求項8のいずれかに記載の装置。
全体的な予測手段(26)は、所定の閾値を超える全体的なトーンマッピング機能(40)の周囲の画像の第1のトーンマッピングされたバージョン(36)および画像の第2のバージョン(38)において同じ位置に配置されたサンプルの値の対の分散の場合における全体的なトーンマッピング機能(40)の適用を抑圧するように構成され、局所的な予測手段(28)は、抑圧の場合には、全体的に予測された画像(52)よりむしろ画像の第1のトーンマッピングされたバージョン(36)に局所的な導出または適用を実行するように構成される、請求項1ないし請求項9のいずれかに記載の装置。
全体的な予測手段(26)は、第2の画像符号化ステージによって生成される強化データストリームの範囲内のサイド情報として全体的なトーンマッピング機能の適用の抑圧の信号を送り、第1の画像符号化ステージによって出力されるデータストリームに関連する強化層を形成するように構成される、請求項10に記載の装置。
画像の第1のトーンマッピングされたバージョンにおけるサンプルは、ビット長の整数値mであり、画像の第2のバージョンのサンプルは、n>mであるビット長nである、請求項1ないし請求項11に記載の装置。
第2の符号化ステージは、全体的におよび局所的に予測された参照画像および画像の第2のバージョンの間の予測残差を強化データストリームへ変換符号化するように構成される、請求項1ないし請求項13のいずれかに記載の装置。
第1の動的サンプル値範囲を有し、画像の第1のトーンマッピングされたバージョン(36)を復号化するための第1の画像復号化ステージと、第1の動的サンプル値範囲より大きい第2の動的サンプル値範囲を有し、画像の第2のバージョンを復号化するための第2の画像復号化ステージとの間の層間予測を実行するための装置であって、前記装置は、
第2の画像復号化ステージ(504)の強化データストリームのサイド情報(41)から全体的なトーンマッピング機能を引き出し、画像の第2のバージョンのための全体的に予測された参照画像(52)を得るために画像の第1のトーンマッピングされたバージョン(36)のサンプルに全体的にトーンマッピング機能を全体的に適用するように構成される全体的な予測手段(518)、および
その中に画像の全体的に予測された参照画像(52)および第2のバージョン(38)が分割されたサブ部分を単位にしてサイド情報から局所的に様々なトーンマッピング機能を局所的に引き出し、画像の第2のバージョンのための全体的におよび局所的に予測される参照画像(54)を得るために、全体的に予測される参照画像(52)に局所的に様々なトーンマッピング機能を適用するように構成され、
局所的な予測手段(520)は、
局所的に様々なトーンマッピング機能を局所的に引き出し、サイド情報(66)から各サブ部分(56)、傾斜(58)およびインターセプト(60)に対して再建するように構成され、
全体的に予測される参照画像に局所的に様々なトーンマッピング機能を適用する際に、傾斜およびそれに加えてインターセプトを用いて、各サブ部分(56)のために、それぞれのサブ部分(56)において全体的に予測する参照画像(52)のサンプルを重み付けするように構成され、
局所的な予測手段(520)は、
サイド情報からサブ部分のための傾斜およびインターセプト残差を復号化し、傾斜予測を得るために前に再建された隣接するサブ部分の傾斜から現在のサブ部分のための傾斜を空間的に予測することによりサイド情報からサブ部分のための傾斜およびインターセプトを連続して引き出し、
現在のサブ部分のための傾斜予測および傾斜残差に基づいて現在のサブ部分のための傾斜を再建し、
画像の第2のバージョンおよび全体的に予測された参照画像の隣接するサブ部分における同じ位置に配置されたサンプルの値の対の分布に、現在のサブ部分の傾斜を有する直線を適合させ、インターセプト予測を得るために直線のインターセプトを決定し、
現在のサブ部分(56)のためのインターセプト予測およびインターセプト残差に基づいて現在のサブ部分(56)のインターセプトを再建するように構成された、装置。
全体的な予測手段(518)は、全体的なトーンマッピング機能を引き出し、画像の第1のトーンマッピングされたバージョン(36)に全体的なトーンマッピング機能を適用する際に、画像の第1のトーンマッピングされたバージョン(36)におけるサンプルの値に第1のカラーフォーマットから第2のカラーフォーマットに色変換を実行し、色変換は画像の第1のトーンマッピングされたバージョン(36)および第2のバージョン(38)とは無関係に常に設定され、第2のカラーフォーマットにおいて全体的なトーンマッ
ピング機能の適用を実行するように構成される、請求項15に記載の装置。
全体的な予測手段(518)は、差動復号化を用いて第1の動的サンプル値範囲を増加または減少する可能な値の向きに沿ってサイド情報から連続して全体的なトーンマッピング機能を復号化するように構成される、請求項15ないし請求項17のいずれかに記載の装置。
全体的な予測手段(518)は、サイド情報における信号伝達に応答して全体的なトーンマッピング機能(40)の導出および適用を抑圧するように構成され、局所的な予測手段(520)は、抑圧の場合には、全体的に予測された参照画像よりむしろ画像の第1のトーンマッピングされたバージョンへの適用を実行するように構成される、請求項15ないし請求項18のいずれかに記載の装置。
画像の第1のトーンマッピングされたバージョンにおけるサンプルはビット長が整数値mであり、画像の第2のバージョンはビット長がnであり、n>mである、請求項15ないし請求項19のいずれかに記載の装置。
第2の復号化ステージ(504)は、強化データストリームから全体的にあるいは局所的に予測された参照画像および画像の第2のバージョンの間の予測残差(68)を変換復号化するように構成され、予測残差(68)および全体的にあるいは局所的に予測された参照画像(54)に基づいて画像の第2のバージョンを再建するように構成された、請求項15ないし請求項21のいずれかに記載の装置。
第1の動的サンプル値範囲を有し、画像の第1のトーンマッピングされたバージョンを符号化するための第1の画像符号化ステージ(12)と、第1の動的サンプル値範囲より大きい第2の動的サンプル値範囲を有し、画像の第2のバージョンを符号化するための第2の画像符号化ステージ(14)との間の層間予測を実行するための方法であって、方法はコンピュータまたはハードウエア装置により実行され、かつ、
画像の第1のトーンマッピングされたバージョン(36)および第2のバージョン(38)における同じ位置に配置されるサンプルの値の対の統計分析に基づいて全体的なトーンマッピング機能(40)を引き出すステップ、
画像の第2のバージョンのための全体的に予測された参照画像(52)を得るために、画像の第1のトーンマッピングされたバージョン(36)に全体的なトーンマッピング機能(40)を適用するステップ、
その中に全体的に予測された参照画像(52)と画像の第2のバージョン(38)とが分割されるサブ部分を単位にして、画像の第2のバージョン(38)および全体的に予測された参照画像(52)における同じ位置に配置されるサンプルの値の統計分析に基づいて局所的に様々なトーンマッピング機能を局所的に引き出すステップ、および
画像の第2のバージョン(38)のための全体的におよび局所的に予測された参照画像(54)を得るために、全体的に予測された参照画像(52)に局所的に変化するトーンマッピング機能を適用するステップを含み、
局所的に様々なトーンマッピング機能の局所的な導出は、それぞれのサブ部分のために、画像の第2のバージョン(38)および全体的に予測された参照画像(52)のサブ部分(56)における同じ位置に配置されるサンプルの値の対の分布(64)を通る回帰線
(62)の傾斜(58)およびインターセプト(60)を決定するステップを含み、
この方法は、さらに、第2の画像符号化ステージによって生成される強化データストリームにサイド情報としてサブ部分のために決定される傾斜およびインターセプトを符号化するステップと、第1の画像符号化ステージによって出力されるデータストリームに関連して強化層を形成するステップとを含み、
第2の画像符号化ステージは、全体的におよび局所的に予測された参照画像および画像の第2のバージョンの間の予測残差を強化データストリームに不可逆符号化するステップを含み、傾斜およびインターセプトを符号化するステップは、
前に符号化された傾斜であって隣接するサブ部分の傾斜から空間的な予測の予測残差としてそれぞれのサブ部分(56)のために決定される傾斜(58)を符号化するステップと、
一方において全体的におよび局所的に予測された参照画像、および他方において全体的に予測された参照画像に基づいて再建可能である限り、画像の第2のバージョンの隣接するサブ部分(70)における同じ位置に配置される値の対の分布に、それぞれのサブ部分(56)の傾斜を有する直線(72)を適合させるステップとを含み、直線のインターセプトを決定し、
直線(74)のインターセプトに応じて空間的なインターセプト予測に関連した予測残差としてそれぞれのサブ部分(56)のインターセプトを符号化するステップを含む、方法。
第1の動的サンプル値範囲を有し、画像の第1のトーンマッピングされたバージョン(36)を復号化するための第1の画像復号化ステージと、第1の動的サンプル値範囲より大きい第2の動的サンプル値範囲を有し、画像の第2のバージョンを復号化するための第2の画像復号化ステージとの間の層間予測を実行するための方法であって、方法は、コンピュータまたはハードウエア装置により実行され、かつ、
第2の画像復号化ステージ(504)の強化データストリームのサイド情報(41)から全体的なトーンマッピング機能を引き出すステップ、
画像の第2のバージョンのための全体的に予測される参照画像(52)を得るために、画像の第1のトーンマッピングされたバージョン(36)のサンプルに全体的なトーンマッピング機能を全体的に適用するステップ、
その中に画像の全体的に予測された参照画像(52)および第2のバージョン(38)が分割されるサブ部分を単位にしてサイド情報から局所的に様々なトーンマッピング機能を局所的に引き出すステップ、および
画像の第2のバージョンのための全体的におよび局所的に予測される参照画像(54)を得るために、全体的に予測される参照画像(52)に局所的に変化するトーンマッピング機能を提供するステップを含み、
局所的に様々なトーンマッピング機能の導出は、サイド情報(66)から各サブ部分(56)、傾斜(58)およびインターセプト(60)のために再建するステップを含み、
全体的に予測される参照画像への局所的に様々なトーンマッピング機能の適用は、各サブ部分(56)のために、それに傾斜およびそれに加えてインターセプトを用いてそれぞれのサブ部分(56)における全体的に予測された参照画像(52)のサンプルを重み付けするステップを含み、
方法は、
サイド情報からサブ部分のための傾斜およびインターセプト残差を復号化し、傾斜予測を得るために前に再建された隣接するサブ部分の傾斜から現在のサブ部分のための傾斜を空間的に予測することによってサイド情報からサブ部分のための傾斜およびインターセプトを連続して引き出すステップ、
傾斜予測および現在のサブ部分のための傾斜残差に基づいて現在のサブ部分のための傾斜を再建するステップ、
画像の第2のバージョンおよび全体的に予測された参照画像の隣接するサブ部分における同じ位置に配置されるサンプルの値の対の分布に、現在のサブ部分の傾斜を有する直線を適合させるステップを含み、インターセプト予測を得るために直線のインターセプトを決定し、
インターセプト予測および現在のサブ部分(56)のためのインターセプト残差に基づいて現在のサブ部分(56)のインターセプトを再建するステップを含む、方法。
【発明を実施するための形態】
【0014】
図1は、画像の第1のトーンマッピングされたバージョンを符号化するための第1の画像符号化ステージ12と、画像の第2のバージョンを符号化するための第2の画像符号化ステージ14との間で層間予測を実行するための装置10の実施例を示す。第1の画像符号化ステージ12によって符号化される画像の第1のトーンマッピングされたバージョンは、第1の動的サンプル値範囲を有する。例えば、第1の画像符号化ステージ12は、ビット長mの整数サンプル値で作動する。第2の画像符号化ステージ14によって符号化される画像の第2のバージョンは、第1の動的サンプル値範囲より大きい第2の動的サンプル値範囲を有する。例えば、第2の画像符号化ステージ14は、n>mであるビット長nの整数サンプル値で作動するように構成される。
図2のより詳細な実施例において、nは12であり、mは8である。
【0015】
図1は、層間予測を実行するための装置10、スケーラブルな画像コーダ16を形成するために互いに接続される第1の画像符号化ステージ12および第2の画像符号化ステージ14を示す。第1の画像符号化ステージ12は、スケーラブルな画像コーダ16の低いダイナミックレンジ入力18に接続している入力を有し、同様に、第2の画像符号化ステージ14はスケーラブルな画像コーダ16の高いダイナミックレンジ入力20に接続している入力を含む。第1の画像符号化ステージ12の出力はスケーラブルな画像コーダ16の基準層データストリーム出力22に接続され、第2の画像符号化ステージ14の出力はスケーラブルな画像コーダ16の強化データストリーム出力24に強化データストリームを出力する。
図2から明らかなように、出力は物理的に明瞭である必要はない。むしろ、出力22および24の両方のデータストリームは、コーダ16が単に1つの共通出力を与えなければならないだけであるスケーラブルなデータストリームにおいて、多重化されることができる。
【0016】
装置10は、第1の画像符号化ステージ12および第2の画像符号化ステージ14の間に接続される。特に、
図1において点線で示すように、全体的な予測手段10は、第1の画像符号化ステージ12によって任意に生じる符号化損失のない画像の第1のトーンマッピングされたバージョンに作用するために、第1の画像符号化ステージ12に到着する画像の第1のトーンマッピングされたバージョンのオリジナルのバージョンを受信するために入力18に接続されるその入力を有することができる。この変形例も、可逆的に画像の第1のトーンマッピングされたバージョンを符号化するように構成されている後者の場合、第1の画像符号化ステージ12の出力を有する装置10の入力の接続に等しい。しかしながら、不可逆符号化の場合、装置10が、次に、出力22または22の基準層データストリーム出力に基づく再建可能である画像の第1のトーンマッピングされたバージョンの再建可能なバージョンが符号化ステージ12の内部予測ループの内部バッファのように例えば導き出せる若干の他の出力に接続している第1の画像符号化ステージ12の出力に接続しているその入力を有していれば好ましい。第1のトーンマッピングされた画像バージョンのこの後者の再建可能なバージョンは、更に後述する層間予測が復号側で正確に回復されることができる基準層データストリーム22に基づいて復号側でも利用可能である。
【0017】
内部的には、層間予測を実行する装置は、全体的な予測手段26および局所的な予測手段28を含む。全体的な予測手段26および局所的な予測手段28は、装置10の入力と、装置10が第2の画像符号化ステージ14の層間予測入力に参照画像を出力する装置10の出力との間に連続的に接続される。全体的なおよび局所的な予測手段26および28は、画像の第2のバージョンが与えられる入力20に接続される。さらに、全体的なおよび局所的な予測手段26および28は、第2の画像符号化ステージ14によって強化データストリーム出力のサイド情報を形成するために、サイド情報を生成して、出力24にこのサイド情報を出力することができる。第2の画像符号化ステージから局所的な予測手段28まで通じている点線で
図1に示されているように、局所的な予測手段28および第2の画像符号化ステージ14は、
図1に示される装置10のより特定の実施例に関して下で更に詳細に概説されるように、相互作用的な方法で協働することができる。
【0018】
図1は、スケーラブルな画像コーダ16がどのようにして入力18および20で画像の第1および第2のバージョンを供給されるかについて図解的に示す。異なる解決手段も実現可能であると強調される。いずれにせよ、
図1に示される解決手段によれば、高いダイナミックレンジ画像はノード30に到達する。トーンマッピング装置32は、ノード30で高いダイナミックレンジ画像から画像のトーンマッピングされたバージョンを引き出すために、このノード30および入力18の間に接続される。
図1において点線で示されるように、更なるトーンマッピング装置34は、ノード30および入力20の間に任意に接続される。すなわち、第2の画像符号化ステージ14によって符号化される画像の第2のバージョンがノード30自体の高いダイナミックレンジ画像でもよく、または、そのトーンマッピングされたバージョンでもよく、それは、しかしながら、入力18でのバージョンと比較してより大きな動的サンプル値範囲を有するそのトーンマッピングされたバージョンであってもよい。
【0019】
装置10の構造およびそのスケーラブルな画像コーダ16への統合および基準層データストリームおよび強化データストリームへのノード30での画像を符号化するシステムを記載した後に、それぞれ、
図1に示される装置10および他の要素の動作モードが説明される。
【0020】
図1の上記説明から明らかになったように、近くにより低い動的サンプル値範囲のバージョンの再建を有するときに、低い動的サンプル値範囲を有する画像のバージョンが基準層データストリームから導き出され、低い動的サンプル値範囲が手元にあるときにより大きな動的サンプル値範囲を有する画像のバージョンが強化データストリームから導き出されるように、出力24で強化データストリームを伴う出力22で基準層データストリームにスケーラブルな方法でノード30において画像を符号化することが、
図1に示される全システムの目的である。より正確には、伝送のために必要なデータ転送速度を小さくするために、装置10は、入ってくる第2の、より高いダイナミックレンジ画像に、予測された参照画像を有する第2の画像符号化ステージ14を提供することによって、トーンマッピングされたより低いダイナミックレンジのバージョンと、第2の、より高いダイナミックレンジのバージョンとの間の冗長性を利用する。したがって、第2の画像符号化ステージ14は、単に予測された参照画像の予測残差、すなわち本来到着しているより高いダイナミックレンジのバージョンおよび層間予測されたバージョンの間の差を符号化するだけであるように構成されることができる。残差を符
号化するために、第2の画像符号化ステージ14は、その量子化の結果、すなわち変換係数レベルが強化データストリームにおいて符号化されるブロック的なDCT等のような変換符号化を含む量子化を含む不可逆符号化を使用することができる。予測残差を表している符号化残差は、第2の画像符号化ステージ14によって出力される。全体的なおよび局所的な予測手段26および28は、復号側において全体的なおよび局所的な予測手段が装置10の予測手段26および28と同様に層間予測を実行することを可能にしているちょうど言及されたサイド情報を加えることができる。
【0021】
本出願の明細書の前書き部分の考察から明らかになったように、トーンマッピング装置32は画像30上へ適用されるトーンマッピング機能を選ぶことができる。特に、これは、トーンマッピング装置32が高いダイナミックレンジ画像30のサンプル上へ局所的に様々なトーンマッピング機能を適用することができることを意味する。スケーラブルな画像コーダ16のすべての要素が動作モードおよびトーンマッピング装置32の実際の選ばれたトーンマッピング機能に関して不可知論者である点に注意することは重要である。実際のシナリオにおいて、例えば、トーンマッピング装置32は映画製作者によって制御されることができ、その人は第1の画像符号化ステージ12のダイナミックレンジ範囲の中で高いダイナミックレンジ画像30の感じの良い表現を達成するためにトーンマッピング装置32のトーンマッピング機能を制御する。
【0022】
すなわち、トーンマッピング装置32によって適用されるトーンマッピング機能は、ノード30で画像の範囲内で局所的に変化する。ビデオの画像および第1の画像符号化ステージ12、したがってビデオ・コーダの画像である場合、トーンマッピング装置32によって与えられるトーンマッピング機能は時間内に変化する。局所的にビデオの個々の画像の範囲内のトーンマッピング機能の局所的な/空間的なバリエーションさえ、時間内に変化することができる。たとえば、トーンマッピング装置32は、ビデオの1つの場面から他の場面に変わるときにトーンマッピング機能を変えるように、または、画像内で背景および前景等の間にトーンマッピング機能を変えるように制御されることができる。また、符号化ステージ12も装置10もこれらの変化に関して不可知論者である。
【0023】
同様に、任意のトーンマッピング装置34は、画像の第2のバージョンを引き出すために高いダイナミックレンジ画像上へ空間的または空間的/時間的に変化するトーンマッピング機能を適用することができ、そしてまた、装置10およびコーダ14はこの種の変化に関して不可知論者である。また、オペレータは、符号化ステージ14によって課される動的サンプル範囲の画像の感じの良い表現を得るために、トーンマッピング装置34を制御することができる。
【0024】
後で、
図1の実施例のより明確な実施が示される
図2に関して、コーダ12および14が異なる色空間に作用するように、入力18および20を供給することが実行される、すなわち入力18および20で与えられるバージョンが、それぞれ、異なる色空間の色を表しているそれらのサンプルを有することが明らかになる。その場合、装置10によって実行される層間予測は、これらの色空間または第3の色空間のいずれかによって実行される。さらに、以下で更に詳細に示される全体的なおよび局所的な予測手段26および28によって実行される層間予測は、単にそれぞれの色空間の輝度成分だけに関係することができる。色空間変換は、異なる色空間との間で切り換わるために用いることができる。しかしながら、以下に記載される実施例の全てが、画像が単にグレイスケールにおいて定められるだけである実施例に容易に移転可能であることは明らかにされなければならない。
【0025】
図1のこのむしろ一般的な紹介の説明の後、全体的な予測手段26および局所的な予測手段28の動作モードが記載される。予測手段26および28は、二段階方法で動作する。全体的な予測手段26は、画像のより低いダイナミックレンジ・バージョンのサンプル値および画像のより高いダイナミックレンジ・バージョンのサンプル値の間の全体的な関係を確認して、効果的に予測的に画像のより高いダイナミックレンジ・バージョンを符号化するための符号化ステージ14によって使われるために参照画像を決定する際の第1のステップを実行するためにこの全体的な関係を使用しようとする。特に、全体的な予測手段26は、画像の第1のトーンマッピングされたバージョンおよび第2のバージョンの同じ位置に配置されたサンプルの値の対の統計分析に基づいて全体的なトーンマッピング機能を引き出して、画像の第2のバージョンのための全体的に予測された参照画像を得るために画像の第1のトーンマッピングされたバージョンの上へ全体的なトーンマッピング機能を適用するように構成される。これを例示するために、
図1は、36で画像の第1のトーンマッピングされたバージョンおよび38で画像の第2のバージョンを例示する。両方のバージョン36および38が同じ画像のバージョンであるので、同じ位置への配置は両方のバージョン36および38のサンプルの間に定められることができる。上述の通り、バージョン36のサンプルは、バージョン38のサンプルと比較して、より低い動的サンプル値レンジに定められる。たとえば、バージョン38のサンプルが12ビットを使用して符号化されるのに対して、バージョン36のサンプルは8ビットを使用して符号化される。小さいクロスによって、
図1は、同じ位置に配置されたサンプルの対を代表として例示する。バージョン36および38の同じ位置に配置されたサンプルの対の統計分析は、例えば、低い動的サンプル値画像バージョン36の可能な値以上に定められて、可能な値ごとに画像バージョン38の対応する高い動的サンプル値の中心傾向または平均値を有する全体的なトーンマッピング機能の形成を含む。より正確には、全体的な予測手段26は、画像バージョン36の第1の動的サンプル値範囲42の可能な値x
lowの各々−または、少なくとも可能な値の中のそれぞれのサポートしている値のサブセット−のために、画像の第1のトーンマッピングされたバージョン36のサンプルと同じ位置に配置され、その値x
lowはそれぞれの可能な値に等しい、画像の第2のバージョン38のサンプルの値x
Highの分布の中心傾向を決定することによって全体的なトーンマッピング機能40を引き出すように構成されることができる。
図1において、例えば、1つの可能な値は44で点線によって図解的に示され、画像バージョン38の同じ位置に配置される、すなわちこの代表的な可能な低いダイナミックレンジ値44を有する画像バージョン36のサンプルと同じ位置に配置されるサンプルのサンプル値x
Highの棒グラフまたは分布は46で示される。前述のように、全体的な予測手段26は、算術平均48のようなこの分布46の中心傾向を決定して、この値48を代表的な可能な値44の全体的なトーンマッピング機能40の値として採用する。したがって、全体的なトーンマッピング機能40は、画像バージョン36の動的サンプル値範囲42と画像バージョン38の第2の動的サンプル値範囲50との間でマッピングを実行する。特に、全体的なトーンマッピング手段26は、異なる可能な値x
lowのためのちょうど言及された手順を実行することによって、全体的なトーンマッピング機能40を得る。全体的な予測手段26は、あらゆる可能な値のためのちょうど概説された手順を実行することができる。しかしながら、計算オーバーヘッドを合理的な範囲に保つために、全体的な予測手段26は、その間で全体的なトーンマッピング機能を得るように、これらの支持位置の間に挿入すると共に、すべての可能な値のためというよりむしろ単に支持位置または可能な値の適当なサブセットのためにちょうど概説された手順を実行することができる。
【0026】
図1に示すように、全体的な予測手段26は、第2の画像符号化ステージ14によって発生して、第1の画像符号化ステージ12によって出力される基準層データストリーム出力の拡張を形成する強化データストリームへのサイド情報として全体的なトーンマッピング機能40を符号化するように構成される。
【0027】
画像の第1のトーンマッピングされたバージョン36の上への全体的なトーンマッピング機能40の適用は、対応する全体的なトーンマッピング機能値、すなわちその低い動的サンプル値が全体的なトーンマッピング機能40に従ってマッピングされる平均値に画像バージョン36の範囲内で各サンプル値を設定することを含む。したがって、全体的な予測手段26による出力をこのように得られた全体的に予測された参照画像は、予測される画像バージョン38のより高い動的サンプル値範囲においてすでに定められたサンプル値を有する。
【0028】
意外なことに、全体的な予測手段26は、トーンマッピング装置32の範囲内で実行されるトーンマッピングについてのいかなる知識もまたはトーンマッピング装置34によって任意に実行されたトーンマッピングについてのいかなる知識も使用しなかった。
【0029】
全体的な予測手段26は、可能な値x
lowを増加または減少する連続方向に差動的に全体的なトーンマッピング機能40を符号化、例えば差f(x
low=i)−f(x
low=i−1)、f(x
low=i+1)−f(x
low=i)・・・を符号化する。しかしながら、まず多項式の次数p≧1等のテイラー近似を用いた曲線のあてはめを用いて関数fを近似し、次に残差符号化が再度差分符号化を用いて行われる残差の符号化を含む他のアプローチも可能である。
【0030】
局所的な予測手段28は、全体的に予測された参照画像52および画像の第2のバージョン38が分割されたサブ部分を単位にして画像の第2のバージョン38および全体的に予測された参照画像52において同じ位置に配置されたサンプルの値の統計分析に基づいて局所的に様々なトーンマッピング機能を局所的に引き出すように構成され、画像の第2のバージョン38のための全体的におよび局所的に予測された参照画像54を得るために、全体的に予測された参照画像52の上に局所的に様々なトーンマッピング機能を適用するように構成される。たとえば、分割することは、
図1に点線で示されているように、同じサイズのブロックに均一に分割され、縦横に配置されるか、または、画像バージョン38および全体的に予測された参照画像52をサブ部分が互いに隣接する同じ位置に配置されたボーダーを有するサブ部分に分割される。局所的な予測手段28は、局所的に様々なトーンマッピング機能を局所的に引き出す際に、それぞれのサブ部分56ごとに、画像バージョン38および全体的に予測された参照画像52のそれぞれのサブ部分56において同じ位置に配置されたサンプルの値の対の分布64、すなわち現在のサブ部分56の範囲内でサンプル位置を示すiを有する位置(x
High(i)、x
glRef(i))の分布を通る回帰直線62の傾斜58およびインターセプト60を決定する。
図1において、参照画像52の中のサンプルのサンプル値はx
glRefで示され、一方で、画像バージョン38のサンプル値はx
highで示される。以下で更に詳細に概説されるより多くの特定の実施例において、傾斜はωとして示され、インターセプトはoとして示される。両方の値は、サブ部分56ごとに、そのまさしくサブ部分56で局所的に様々なトーンマッピング機能を定める。言い換えても、局所的な予測手段28は、破線の矢印66によって示されるように、値は出力24の強化データストリームへのサイド情報として符号化される傾斜58およびインターセプト60の対をサブ部分56ごとに決定する。
【0031】
以下で更に詳細に説明するように、局所的な予測手段28は、高いダイナミックレンジ画像バージョン38の各サブ部分56および傾斜によって量子化されインターセプト60によってシフトされたサンプルを有する全体的に予測された参照画像52のそれぞれのサブ部分56に依存するコスト関数を最小化することによって傾斜58およびインターセプト60を量子化するように構成される。すなわち、量子化された傾斜58および量子化されたインターセプト60は、以下の方法において最後に予測された参照画像54を得るために捧げられる:参照画像52のサブ部分56の範囲内のサンプル値x
glRefはωによって重み付けされ(乗算され)、oは結果として生じる結果に加えられ、すなわちサブ部分56の範囲内のすべてのサンプル位置iのためのx
lo+glRef(i)=x
glRefω+oとなる。これは、量子化されたωおよびoの対応する一対を使用しているサブ部分56ごとにされる。
【0033】
このように、最後に、局所的な予測手段28の出力において、各サブ部分56の範囲内で、参照画像52の各サンプル値がそこからもたらされた結果にoを加えることでそれぞれのサブ部分の対応する傾斜値58によって重み付けされたという点で、全体的に予測された参照画像52と異なる全体的におよび局所的に予測された参照画像54が与えられる。第2の画像符号化ステージ14は、層間予測を実行するためのこの参照画像54を使用することができる。特に、第2の画像符号化ステージ14は、全体的におよび局所的に予測された参照画像54と画像バージョン38との間の予測残差を強化データストリーム、すなわち同じ位置に配置されたサンプル位置iのためのx
High(i)−x
lo+glRef(i)に符号化し、この目的を達成するために、例えば変換符号化を使用する。しかしながら、第2の画像符号化ステージ14はちょうど記載されている層間予測モードより別の予測モードを認めることもできる点に留意する必要がある。すなわち、画像バージョン38を表すためのその出力において出力される予測残差68を形成するために、第2の画像符号化ステージ14は予測モードを画像バージョン38の分割の各々に割り当てることができ、その1つは参照画像54の同じ位置に配置された分割に基づいて現在の分割を予測することを含む。他の予測モードは、例えば、入力20で入ってくるビデオの以前に符号化された画像から時間的にそれぞれの分割を予測することによって、例えば他の参照画像に基づいて予測残差を決定することができる。後の分割に関する分割をすることは、サブ部分56を定める分割に等しいか、または異なる。
【0035】
特に、局所的な予測手段28は、その傾斜ωが以前符号化されたサブ部分70のような隣接したサブ部分の傾斜ωからの局所的な予測の予測残差として特定のサブ部分56のために決定される傾斜58を符号化するように構成されることができる。たとえば、局所的な予測手段28は、画像の上から下までサブ部分の傾斜およびインターセプト値oおよびωを順次1列ずつ符号化するためにラスタ・スキャン順序を使用することができる。各列の中で、スキャン順序は、左から右に導くことができる。したがって、上部および左側のサブ部分は、隣接したサブ部分70として役立つことができ、その傾斜値は例えばその平均等を使用しているそれを結合することによって現在のサブ部分の傾斜値を局所的に予測することとして役に立つことができる。
【0037】
以下で公開される説明から明らかになるように、全体的な予測手段26は、全体的なトーンマッピング機能40、すなわち所定の閾値を超えるx
Lowのすべての可能な値を呈しているjを有するf(j)の周囲で、画像の第1のトーンマッピングされたバージョン36および画像の第2のバージョン38、すなわち画像における全てのiサンプル位置iのための位置(x
High(i),x
Low(i))において、同じ位置に配置されたサンプルの値の対の散乱の場合には全体的なトーンマッピング機能40の適用を抑えるように構成される。より正確には、各可能な値44のための平均値48のまわりの分布46は、画像バージョン38のサンプル値が分布させられる全体的なトーンマッピング機能40の周囲で通路を形成し、この通路があまりに広い場合、全体的な予測手段26は全体的なトーンマッピング機能40の適用を抑制することができる。分散のための計測またはちょうど言及された通路の広さとして、異なる可能な値の分布46の分散の合計が使われる。局所的な予測手段28は、抑制の場合、すなわち所定の閾値を超えているちょうど言及された分散の場合には、全体的に予測された参照画像52よりむしろ画像の第1のトーンマッピング・バージョン36上の局所的な様々なトーンマッピング機能の局所的な偏差の適用を実行する。
【0038】
全体的な予測手段26は、復号側にサイド情報の範囲内で抑制の信号を送ることができる。換言すれば、全体的な予測の抑制が使われる画像のために、抑制は信号で伝えられ、全体的なトーンマッピング機能40は出力24で強化データストリームの中のサイド情報として送信される必要はない。
【0039】
図1の装置に合う復号側で層間予測を実行する装置のための実施例を記載する前に、
図1の装置のより詳細な実施例は、
図2に関連して記載される。
【0040】
図2によれば、高いダイナミックレンジ・ビデオは符号化され、したがって符号化ステージ12はビデオ・コーダである。特に、ここで示されるまさしくその実施例において、H.264に合致するハイブリッドのビデオ・コーダが使われる。しかしながら、これは、強制的なものではない。さらに、以下の説明は1つの一般のデータストリームに出力22および24におけるデータストリームをインターリーブすることが可能であることを示すが、これも当然ながら必要ではない。通常、
図2の実施例を記載する中で、
図1において用いられているのと同じ参照符号は、両方の図で起こっている要素の機能の反復説明を回避するために採用された。その限りにおいて、
図2の実施例も特に
図1の要素を実施することの可能性を示すことと解釈され、これらの可能性の全ては
図1の個々の要素に個々に適用できることと解釈される。
【0041】
まず第一に、
図1と比較した構造的詳細が記載される。たとえば、
図2は空間的および時間的予測モードを入ってくる画像のブロックに対してサポートしている予測ループ90を含むハイブリッドのビデオ・コーダとしての符号化ステージ12、およびその後にエントロピー・コーダ94が続く不可逆性残差変換コーダ92の可能な実施を示す。特に、
図2のハイブリッドのビデオ・コーダ12は、エントロピーコーダ94に加えて、それらが言及される順序でハイブリッドのビデオ・コーダ12の入力およびその出力の間に接続される減算器95、変換器96および量子化ステージ98を含み、変換器96および量子化ステージ98は、一緒に不可逆性の残差変換器92を形成する。予測ループは、互いに連続的にループ状に接続される加算器100、非ブロック化フィルタ102、フレーム・バッファ104およびインター/イントラ予測モジュール106を含み、予測モジュール106の出力が加算器100の第1の入力に接続される。その第2の入力は、逆変換器108を介して量子化ステージ98の出力に接続される。予測モジュール106の出力は、減算器95の減算入力にも接続している。運動予測データ等のように、予測モジュール106によって決定される予測パラメータは、破線108で示すように、エントロピーコーダ94に供給される。
【0042】
したがって、作動中に、減算器95は、減算器95の非反転回路においてビデオ・コーダ12を入力する現在の画像から予測信号110を減算し、それによって、減算器95の出力で残差信号112を得る。変換器96はそれからブロック的な変換によってスペクトル的にこの残差信号112を分解し、そして、量子化ステージ98はこのように得られた変換係数を量子化し、それによって、符号化損失を導く。逆変換器108が復号側で、また再建可能な残差信号を現す一方、エントロピーコーダ94はちょうど記載の予測パラメータ107、すなわち選ばれた予測モード、時間的に予測されたブロックの運動パラメータおよびイントラ予測されたブロックのイントラ予測パラメータとともに、基順層データストリーム22に無損失性で、エントロピー符号化を使用して、残差信号を符号化する。逆変換器108の出力における再建された予測信号112´、予測モジュール106によって出力される予測信号110を含む加算器100の出力において、任意の非ブロック化フィルタ102によってフィルタリングされる任意にインループ・フィルタリングの影響を受ける再建された画像が得られ、再建された画像はフレームバッファ104に格納される。予測モジュール106は、続きの符号化画像の中間予測ブロックのための時間的予測を行うためのフレーム104に格納された再建された画像を使用する。復号側で、基準層デコーダは、基準層信号22を介して送られる残差信号に予測パラメータを与えることによって同じ再建された画像を正確に再生する等しい予測ループを含む。
【0043】
図2に示すように、ハイブリッド・コーダ12は、YCbCr色空間のluma成分を表している8ビットのlumaサンプル値に作用することができる。したがって、フレーム・バッファ104に格納される参照画像は、同じビット長、すなわち8ビットのlumaサンプルから成る。
【0044】
図2の具体例によれば、高いダイナミックレンジ・ビデオは、サンプルごとに個々の色構成要素を示している浮動小数点を使用しているRGB色空間フォーマットのノード30で与えられることができた。
図2のトーンマッピング装置32は、2つの連続的な方法、すなわち、後に色変換122が続く実際に示されたマッピング120に分割されることを手本となって示す。しかしながら、方法の中の順序は、あるいは、切替えられることができる。カラー変換過程122はダイナミックレンジがノード30、すなわちRGBにおいて高いダイナミックレンジ・ビデオの最初の色空間からビデオ・コーダ12、すなわちYCbCrの色空間への移行を一定に保つことを表す一方、トーンマッピング120はノード30でビデオのサンプル上へ上述した空間−時間的に様々なトーンマッピング機能を適用し、それによって、最初のものからビデオ・コーダ12の8ビット幅サンプル代表のダイナミックレンジまでダイナミックレンジを減らす。
【0045】
図2の実施例によれば、ノード30のHDR浮動小数点表示から整数への移行がコーダ14の12ビット幅luma表現を抑えるトーンマッピング装置34がある。特に、表すことができるダイナミックレンジを利用するために、lumaまたは輝き成分がその可能な値の間隔が定期的に輝きの対数領域の部分区間のサンプルをとる12ビット幅整数値によって表される所で、LogLuv代表または色空間が使われる。換言すれば、
図2のトーンマッピング装置34は、2つの機能、すなわち、1つの色空間から他の色空間への移動、つまり、RGBから輝きの対数を示しているコンポーネントLを有するLuvを実行し、コーダ14に供給されるlumaサンプルのサンプル値レンジ上にトーンマッピング装置34によってマッピングされるサブインターバルを空間的/時間的に変化させる。例えば、グラフが
図2の124で示されるのを見られたい。高いダイナミックレンジ・サンプルによって表すことができる輝きの対数の表現間隔は、126に示される。換言すれば、ノード30で高いダイナミックレンジ・ビデオのカラー表現のすべての可能な浮動小数点状態を輝度値に回して、そこから対数をとるときに、間隔126はカバーされる。トーンマッピング装置34は、トーンマッピングを実行する際に、符合化ステージ14に送り込まれるビデオのlumaサンプルの整数表現またはダイナミックレンジ50上に直線的にマッピングされるサブインターバル128を空間的、時間的に変化させ、それは軸L
floatに沿ったその位置と同様に間隔128の幅である
【0046】
したがって、
図2も、2つの機能、すなわち、コーダ12のフレーム・バッファ104からの現在の画像のサンプルに全体的に与えられる実際の全体的なトーンマッピング132によって続く、コーダ12の色空間、すなわちYCbCrからLuv色空間への移行のための色空間変換130を含むものとしての全体的な予測手段26を示す。たとえば、色空間転換130の出力の色空間の輝度値はコーダ12、すなわち、例えば8ビットの低いビット長をまだ有することができるが、
図1に関して上で概説され下で更に詳細に示すように、全体的な層間予測132の出力で、参照画像は12ビットを有する。
【0047】
内部的には、符号化ステージ14は、減算器140、変換器142、量子化器144およびエントロピーコーダ146の連結を含む。色空間変換器130、全体的なトーンマッピング装置132および局部的な予測手段28は、フレーム・バッファ104および減算器140の反転入力の間に連続的に接続されて、
図1という意味において層間装置を形成する。したがって、減算器140はそれから、エントロピーコーダ146によって量子化器144の変換係数の量子化および変換係数の量子化レベルの可逆エントロピー符号化が続くDCTのようなブロック的な変換のようなスペクトル分解を実行する変換器142によって符号化される不可逆変換である予測残差148を得るためにトーンマッピング装置34から局所的な予測手段28によって帰りの現在符号化画像から出力される参照画像54を減算し、それによって、予測残差68を産生する。「ILP側情報」で示すように、全体的なおよび局所的な予測手段26および28によって発生するサイド情報は、強化データストリーム24を形成するためのエントロピーコーダ146にも入れられる。
【0048】
両方のデータストリーム、基準層データストリーム22および強化データストリーム24は、マルチプレクサ152を経由して一般のデータストリーム150に
図2の実施例に従って多重送信されるが、多重化は任意である。
【0049】
上記の概説された実施例に適合する復号側で層間予測を実行する装置を記載することを続行する前に、いくつかの注意点が、前記説明のありうる一般化において示される。
【0050】
たとば、画像の第1のトーンマッピングされたバージョン36および第2のバージョン38のサンプルの整数値が対数輝度領域の外のサブ間隔の一次関数の共同領域に関連する領域において層間予測の全体的なおよび局所的な予測が実行されるが、上述の実施例はこの実施例に限定されない。むしろ、他の輝度領域が、使われることもできる。さらに、前記実施例は、輝度成分に上記の層間予測を実行するために制限されない。むしろ、前記実施例は、他の色構成要素に適用されることもできる。
【0051】
さらに、
図2の特定実施例が特にコーダ12によって符号化される画像のサンプルのための8ビット幅表現およびコーダ14のサンプルのための12ビット幅表現を使用したにもかかわらず、コーダ14によって使用するビット長nがコーダ12によって使用するビット長mより大きい場合、他のビット長を有する整数が使われることもできる。
【0052】
符号化ステージ14に関する限り、それが予測残差を符号化するために変換符号化を使用することに制限されないことに注意されたい。むしろ、それは、空間領域において直接予測残差を符号化することができる。さらに、それは、別の実施例によって予測残差を可逆符号化することができる。エントロピー・コーダに関する限り、それは、例えば算術または可変長符号化のようないかなるエントロピー符号化にも制限されない。むしろ、同じ可逆コーダは、他のタイプの可逆圧縮技術を使用して行うことができる。
【0053】
より特定の語において、
図2は、スケーラブルなHDRビデオ・コーデック(HDR SVC)のアーキテクチャのブロック図を示す。上部12は、LDR基準層を構成する。それは、YChCr4:2:0の色空間(例えば、トーンマッピング、
図2におけるsRGB→YChCr)におけるトーンマッピングされた生のビデオ・シーケンスによって供給される。基準層は、変更されていないSVC基準層エンコーダ(8ビット/コンポーネント)であり、このようにH.264/AVC基準と互換性を持つ。
【0063】
局所的な層間予測
28において適用され、
図2に関して以下に記載されるマクロ・ブロック(MB)的なILPは、RD最適化パラメータを用いて評価を行い、大きいダイナミックレンジを示すのに適した色空間を使用する。さらに、方法は、能率的にその原因となる近傍から各MBのILPパラメータを予測して、それにより必要なサイド情報を大幅に減少させる。したがって、ここでは、H.264から公知のマクロブロックは、
図1を用いて丁寧に記載されたサブブロック56の表現として役立つ。
【0064】
スケールおよびオフセット評価
ブロック28のMB的なILPは、複雑さ、必要なサイド情報および予測効率の間の良好なトレードオフのための線形モデルに基づく。よりよく以下の数学的説明を理解するために、
図1が共同で使われるならば、次の記載に関する限りにおいて、引用符号も
図1の実行28の可能な方法である。
【0072】
実験の結果
実験は、行われた。変更された実験を実行するに際して、実験は、それが以前のセクションにおいて導入されるILPメカニズムをサポートすることができるように、SVC参照ソフトウェア(JSVM8.12)が修正された。符号化実験は、3つのHDR試験シーケンスによって実行された:パノラマ、トンネルおよび太陽(640×480ピクセル、30fps)である。パノラマ試験シーケンスは、8000×4000ピクセルHDRパノラマ画像をパンすることによってつくり出した[11]。その全体のダイナミックレンジは、10
10:1の範囲のものである。両方とも、トンネルおよび太陽は、マックス−プランク研究所から自由に入手可能である[12]。これらのシーケンスにおいて表される全体のダイナミックレンジは、それぞれ10
5:1および10
7:1である。2つの測定基準は、復号化HDRビデオの品質を評価するために用いられ:それらは、HDR可視差予測手段(VDP)[13]および知覚的に同一のピークの信号対雑音比(PU PSNR)[14]である。トーンマッピングされたLDR層シーケンスは、pfstmoソフトウェア・パッケージのすべての部分である6つの異なる一般的に用いられるTMOsによって発生した[10]。pfstmoの以下のラベルは、我々の実験のブラケットにおけるTMO番号によって示され:それは、durand02(TMO1)、pattanaik00(TMO2)、fattal02(TMO3)、mantiuk06(TMO4)、reinhard02(TMO5)、drago03(TMO6)である。すべての演算子がそれらのデフォルト・パラメータによって用いられたが、reinhard02の局所的に適応できるバージョンが使われた。
【0073】
符号化結果は、両方の速さ、埋め込み基準層ビット・ストリームと共に強化層、すなわち出力22および24のデータ速度に関して、24で出力されるものとして上述したHDR強化層の品質を示す。LDR基準層は、単にこのビット・ストリームから抽出されることができる。スペースの不足のため、基準層符号化結果は、ここで示されない。両方の層のためのほぼ等しい品質が推測されることができるように、LDRおよびHDR層のための等価なQPsを有する一定のQP符号化が使われた。もちろん、最適ビット配分はSVCの重要な問題であるが、それはこの説明の範囲をはるかに越える。
【0074】
図4aおよび4bは、LDR層がTMO6によって発生したパノラマ試験シーケンスのための符号化結果を示す。特に、パノラマ試験シーケンスのための符号化結果は、ビット・レート以上のPU PSNR(
図4a)およびHDR VDP(
図4b)によって与えられる。ILPが使われない(すなわちLDRおよびHDR層の同時放送)場合、4つの曲線は、参考事例とともに、全体的な、局所的な、および全体的+局所的なILP(
図1および2の10を参照)方法の効率を示す。
【0075】
PU PSNRおよびHDR VDP品質メリットに関して、両方とも、
図1および2の10による結合した全体的な+局所的なILPがベストの実行をすることを見ることができる。全ての我々の実験の間にHDR VDPおよびPU PSNR結果が整合していたので、後半で、PU PSNR結果が示される。
【0079】
表1−3は、それぞれ、同時放送の場合(すなわちILPでない)に関して、3つの試験シーケンスのための、それぞれ、PU PSNRゲイン(ΔPSNR)またはビットレート節約(Δrate)を示す。平均化することは、Bjontegaard metric[15]にしたがって行われた。全体的な(G)、局所的な(L)、および上で概説した組み合わせ(G+L)ILPの結果は、考慮中のすべてのTMOsのための表において与えられる。
図4aおよび4bのRDプロットに対応する表3のエントリは、イタリック(TMO6)で記載される。表の底の列の平均値は、本発明の実施例がLDRシーケンスを生成するのに用いられたTMOとは無関係に最適に実行されたことを示している。最大で50%の平均ビット・レート削減または最大6dBの品質ゲインが我々の結果において見つけることができた。場合によっては、全体的なILPは、主として少ないサイド情報を要求するために、上述の実施例にしたがった組み合わせILPよりもいくらか異なるTMOsの若干良い結果を実現させることに注目すべきである。しかしながら、強い局所的な適応を有するTMOsのために、この方法は、明らかに失敗する:例えば、表2において、TMO3および4のために、必要なビット・レートが、LDRおよびHDR層が無関係に(それぞれ、44%または82%)ときに、必要とされるビット・レートを著しく上回ることが分かる。
【0080】
以下に提示される局所的な+全体的なILP方法の符号化効率におけるゲインが、文献[2−6]の方法と比べて、表1−3におけるLまたはGと比較したG+Lのゲイン、さらに、組み合わせILP戦略に加えて、混合ILPアプローチは、適切なHDR色空間、速度歪み最適化パラメータ選択、およびILPパラメータの効果的な符号化より高いことに注目すべきである。
【0081】
復号サイト
図5は、第1の動的サンプル値範囲を有する、画像の第1のトーンマッピングされたバージョンを復号化するための第1の画像復号化ステージ502と、第1の動的サンプル値範囲より大きい第2の動的サンプル値範囲を有する画像の第2のバージョンを復号化するための第2の画像復号化ステージ504との間で層間予測を実行する装置500を示す。その範囲において、
図5も、第2の動的サンプル値範囲の画像を復号化することが可能であるデコーダ506を示す。この目的で、第1の画像復号化ステージ502は、入力508および装置500の入力の間に接続される。基準層データストリーム22は、入力508に達する。第1の画像復号化ステージ502は、任意に2つの出力、すなわち、参照符号510を用いて示されるその再建のための第1の動的サンプル値範囲における再建された画像を出力するための1つ、および例えば
図2のバッファ104においてバッファリングされるようにインループ再建結果を出力するための第2の出力512を有することができる。装置500の入力は、これらの出力のいずれかに接続される。さらに、出力510は、任意のものであり、離れていてもよい。さらに、出力512のバージョン出力と比較して、出力510および512のバージョン出力は、互いに等しくてもよく、または出力510で再生されるバージョンを得るために適用される追加再生フィルタを通って互いに異なっていてもよい。
【0082】
第2の画像復号化ステージ504は、デコーダ506の入力514および高いダイナミックレンジ画像を出力するためのデコーダ506の出力516の間に接続される。装置500は、入力515にも接続している。より正確には、装置500は、全体的な予測手段518および局所的な予測手段520の結合を含み、第2の画像復号化ステージ504は、全体的なおよび局所的な予測手段518および520が、それぞれ、サイド情報41および66を受信する間、強化データストリームから予測残差68を得る。局所的な予測手段520の出力で参照画像54が得られ、第2の画像復号化ステージ504の基準入力に出力される。
図1の説明と同様に、第2の画像復号化ステージ504は、現在復号化された画像の高いダイナミックレンジの以前に再建されたサブ部分へのアクセスを有する局所的な予測手段520を提供するように構成される。
【0083】
このように、動作中に、第1の画像復号化ステージ502は、基準層データストリーム22から画像の第1のトーンマッピングされたバージョン36を再建する。このように得られた第1のトーンマッピングされたバージョン36は、好ましい実施例にしたがって、符号化側で全体的な予測手段26に到着するのと同様であり、それにより、符号化側で第1の画像符号化ステージ12の中で任意に起こる符合化損失がエンコーダおよびデコーダの状態/動作の間の逸脱に結びつかない。
【0084】
全体的な予測手段518は、第2の画像復号化ステージ504の強化データストリームのサイド情報41から全体的なトーンマッピング機能を引き出すように構成され、全体的に予測された参照画像52を得るために、画像の第1のトーンマッピングされたバージョン36のサンプル上に、全体的トーンマッピング機能を全体的に適用する。全体的なトーンマッピング機能は単調に、そして、ゆっくり変化している機能である可能性が高く、
図1の全体的な予測手段26は差分符号化を用いて第1の動的サンプル値範囲の可能な値を増減する方向に沿って順次全体的なトーンマッピング機能を符号化するように実施され、その一方で、全体的な予測手段518は、次に、差分復号化を用いて同一方向に沿って順次全体的なトーンマッピング機能を復号化するように実施することができる。他の可能性が、上述するように、同様に存在する。
【0085】
全体的なトーンマッピング機能を引き出し、画像の第1のトーンマッピングされたバージョン36の上に全体的なトーンマッピング機能を適用する際に、全体的な予測手段518は、さらに、データストリーム22のカラーフォーマットから強化データストリーム24までおよび復号化ステージ504でそれぞれのカラーフォーマットに導かれる第1のトーンマッピングされたバージョン36においてサンプルの値に
図2の色変換130を実行するように構成され、色変換は、第2の画像復号化ステージ504によって再建される画像の第1のトーンマッピングされたバージョン36および第2のバージョンとは無関係に常に設定され、それから、第2のカラーフォーマットにおいて全体的なトーンマッピング機能の実際の適用を実行する。
【0086】
より正確には、局所的な予測手段518は、サイド情報41から
図1に示される全体的なトーンマッピング機能40を明らかにして、画像の第1のトーンマッピングされたバージョン36のサンプル値x
lowを、それがトーンマッピング機能40、すなわち画像のすべてのサンプル位置iのためのx
glRef(i)=f(
xlow(i))に従ってマッピングされる値にセットする。結果は、全体的に予測された参照画像52である。
【0087】
局所的な予測手段520は、全体的に予測された参照画像52および画像の第2のバージョン38が分割される
図1に示されるサブ部分56を単位にしてサイド情報から局所的に様々なトーンマッピング機能を局所的に引き出して、全体的に、および、局所的に予測された参照画像54を得るために全体的に予測された参照画像42上へ局所的に様々なトーンマッピング機能を適用するように構成される。
【0088】
上述の通り、局所的な予測手段520は、局所的に様々なトーンマッピング機能を局所的に引き出す際に、サイド情報66からサブ部分56ごとに傾斜58およびインターセプト60を再建することができ、そして、全体的に予測された参照画像に局所的に様々なトーンマッピングを適用し、各サブ部分56のために、傾斜を使用し、傾斜ωおよびそれぞれのサンプルの結果にインターセプトを加えて、それぞれのサブ部分56において全体的に予測された参照画像52のサンプルに重み付けをする。すなわち、各サブ部分56の範囲内で、局所的な予測手段520は、それぞれのサブ部分の範囲内の各サンプル位置に対して、現在のサブ部分の範囲内の全てのサンプル位置Iに対するx
glRef(i)・ω+o=x
gl+loRef(i)を計算し、ここにおいて、x
glRefは全体的な参照画像52のサブ部分のそれぞれのサンプル位置のサンプル値であり、x
gl+loRefは全体的に、そして、局所的に予測された参照画像54の同じサブ部分56の範囲内で同じ位置に配置されたサンプル位置のために計算されるサンプル値であり、ωはこのサブ部分56のためのサイド情報66に由来する傾斜であり、oはサイド情報66からこのサブ部分56のために決定されるインターセプトである。
【0089】
すでに上述したように、傾斜ωおよびサブ部分56のためのインターセプトoに関する情報は、それぞれ、強化データストリームおよびサイド情報66に能率的に符号化されることができる。したがって、局所的な予測手段520は、順次サイド情報66から傾斜ωおよびサブ部分56のためのインターセプトoを引き出すように構成される。上述したように、行型のラスタ・スキャン順序が、サブ部分56をスキャンするために使用される。しかしながら、他のスキャンも可能である。いずれにせよ、局所的な予測手段520は、それぞれの実施例に従って、サイド情報66からサブ部分56のための傾斜およびインターセプト残余を復号化して、以前再建された隣接するサブ部分70の傾斜から空間的に現在のサブ部分のための傾斜ωを予測して、現在のサブ部分のために予測された傾斜および傾斜残差に基づいて現在のサブ部分56のための傾斜ωを再建する。それから、局所的な予測手段520は、以前に再建された画像の第2のバージョンおよび全体的に予測された参照画像52の隣接するサブ部分70において同じ位置に配置されたサンプルの値の対の分布に再建された現在のサブ部分の傾斜ωを有する直線72を適合し、直線72の遮断74を決定する。局所的な予測手段520は、それからこのように得られたインターセプト予測および現在のサブ部分56のためのインターセプト残差に基づいて現在のサブ部分56のインターセプトを再建する。
【0090】
特に、局所的な予測手段520および復号ステージ504の間の相互作用は、第2の画像復号ステージ504が、残差情報68からこのサブ部分のための予測残差を引き出し、例えば付け加えることにより、それにその同じ位置に配置されたサブ部分において全体的におよび局所的に予測される参照画像を組み合わせることによって再建される画像バージョン38の特定のサブ部分の再建を終わらせることでもよい。第2の画像復号ステージ504は、それから、局所的な予測手段520により用いられるサブ部分の中の前述のスキャン順序の次のサブ部分を再建することを続行する。特に、局所的な予測手段520は、それから、傾斜およびちょうど記載されている方法に従ってこの次のサブ部分のための傾斜およびインターセプトを復号化し、その際、局所的な予測手段520は画像バージョン38の隣接するサブ部分のすでに再建されたサンプル価値を使用して、ちょうど言及された直線適合を実行することが可能である。サイド情報66から現在のサブ部分のための傾斜およびインターセプトを復号化した後に、局部的な予測手段520は予測的に復号化された傾斜および遮断を用いて全体的に予測された画像52の同じ位置に配置されたサブ部分の範囲内で同じ位置に配置サンプルを重み付けおよびシフトさせることによって現在のサブ部分56で全体的におよび局部的に予測された画像を引き出し、復号ステージ504は、強化データストリームおよび残差情報68のそれぞれから引き出された予測残差に対応して用いられる現在のサブ部分を再建することができる。このような手段で、局所的な予測手段520および復号化ステージ504は、記載のサブ部分の中のスキャン順序に沿って、交互に動作することができる。
【0091】
上述のように、全体的な予測手段518は、派生およびサイド情報66のシグナリングに応答する全体的なトーンマッピング機能40の適用を抑制するように構成され、局所的な予測手段520は、抑制の場合には、全体的に予測された参照画像52よりむしろ画像の第1のトーンマッピングされたバージョン36に適用を実行するように構成される。
【0092】
完全性だけのために、符号化側に関して記載されている他の詳細の全てが、対応する方法で、
図5の復号化の例に移転可能であることに注意されたい。たとえば、第2の復号化ステージ504は、強化データストリームからの全体的なおよび局所的な予測された参照画像および画像バージョン38の間の予測残差68を変換復号化するように構成され、例えば加算することによって予測残差68および全体的におよび局所的に予測された参照画像に基づいて画像バージョン38を再建するように構成される。
【0093】
上の説明を要約すると、高いダイナミックレンジ(HDR)ビデオデータの効果的な符号化に対するフレームワークは、上記の実施例を通して提示された。前記実施例の共同のILP方式がH.264/AVCのスケーラブルなビデオ符号化拡張の上に形成されるので、それは過去さの互換性を持つ符号化を可能にさせる。すなわち、符号化されたビット・ストリームから不必要な部分を切り取ることによって、低いダイナミックレンジ(LDR)ビデオは、引き出されることができる。効果的な層間予測のための方法は、HDRおよびLDR情報を送信するのに関連する冗長性を減らすために提案された。それは、予測パラメータの速度歪み最適化評価および必要なサイド情報の効果的な符号化とともに、一般のHDR色空間変換および共同の全体的なおよび局所的な予測戦略を含む。実験は、トーンマッピングオペレータとは関係なく、上で示された実施例がフレーム的に全体的なまたはブロック的に局所的な予測戦略と比べて優れた符号化結果を提供することを示した。さらに、LDRおよびHDR情報の独立伝送と比較して、それは、必要なビット・レートを50%まで削減することができる。
【0094】
換言すれば、過去への層間予測を形成する上述の実施例のいくつか、および過去への層間予測として実行可能ないくつかは、SVCを有する高いダイナミックレンジ・ビデオ符号化と互換性がある。いくつかの実施形態では、過去の互換性を持つ高いダイナミックレンジ・ビデオ符号化フレームワークは、H.264/AVCに基づいている。それは、1つの圧縮されたビットストリームから高いダイナミックレンジ(HDR)ビデオと同様に標準的な低いダイナミックレンジ(LDR)を抽出することを可能にする。共同の全体的なおよび局所的な層間予測方法は、LDRとHDR層との間の冗長性を減らすために提案される。それは、知覚的に可逆性HDRビデオデータを表すことができる一般の色空間に基づく。それは、どのようにして層間予測パラメータが速度歪み最適化方法が推定されることができ、サイド情報を減らすために効果的に符号化されることができるかに関して示される。任意のトーンマッピング・オペレータのための最高水準の技術と比較して、評価は、フレームワークが最適に実行することを証明した。同時放送に関して、最大で50%までビット・レート節減を可能にする。
【0095】
他の語においてさえ、前記実施例は、1つの圧縮ビット・ストリームから高いダイナミックレンジ(HDR)ビデオと同様に標準的な低いダイナミックレンジ(LDR)を抽出することができる過去の互換性を持つ高いダイナミックレンジ・ビデオ符号化方式を明らかにし、共同の全体的なおよび局所的な層間予測方法は、LDRおよびHDRビデオ層の間の冗長性を減らす。知覚的に可逆のHDRビデオデータを表す一般の色空間が使われる。層間予測パラメータは、速度歪み最適化方法で推定されることができ、サイド情報を減らすために、効果的に符号化されることができる。
【0096】
HDRビデオのためのスケーラブルな符号化は例えば参考文献[2]−[6]において提案されているが、先に実施例において記載された共同のILPコンセプトは、最高水準の技術を上回る:
−結合した全体的なおよび局所的な予測を用いた層間予測
−HDR層のための適合するlogLuv色空間(我々の発明10F51658−IIS1参照)
−層間予測のための速度歪み最適化パラメータの決定のための方法
−層間予測のためのパラメータの効果的な符号化の方法
○全体的なパラメータ:例えば、画像パラメータセットにおいて伝達されたフレーム ごとに差動符号化されたルックアップテーブル(残念ながら、[4]にすでに記 載されているが、局所的なパラメータとの組み合わせは主張できる)
○局所的なパラメータ:上および左のマクロブロックから予測されるスケール、上お よび左および同じ位置に配置される層マクロブロックから予測されるオフセット (同じ原理が符号化ユニットまたは近づきつつあるHEVCスタンダードに適用 されるため、別の局所的な近傍は、例えば左上および右上のマクロブロックと同 様に、さらに、とにかく、クレームはH264の不可知論者であるべきである)
【0097】
コンピュータプログラム実装
若干の態様が装置の関連で記載されているが、これらの態様も対応する方法の説明を表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの関連で記載されている態様は、対応する装置の対応するブロックまたは部材または特徴の説明を表す。いくつかのまたは全てのステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(または使用することによって)、実行される。いくつかの実施形態では、最も重要な方法ステップのいくつかまたはそれ以上は、この種の装置によって実行されることができる。
【0098】
特定の実施要件に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアで実施されることができる。実施はその上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフレキシブルディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行されることができ、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協働する(または協働することができる)。したがって、デジタル記憶媒体は、計算機可読である。
【0099】
本発明による若干の実施例は、電子的に読み込み可能な制御信号を有するデータキャリアを含み、ここにおいて記載されている方法のうちの1つが実行されるように、それはプログラム可能なコンピュータシステムと協働することができる。
【0100】
通常、本発明の実施例はプログラムコードを有するコンピュータ・プログラム製品として実施されることができ、コンピュータ・プログラム製品がコンピュータで動くときに、プログラムコードが方法のうちの1つを実行するために実施される。プログラムコードは、例えば、機械読み取り可読キャリアに格納される。
【0101】
他の実施例は、ここにおいて記載されていて、機械読み取り可読キャリアに格納される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
【0102】
換言すれば、発明の方法の実施例は、従って、コンピュータ・プログラムがコンピュータで働くときに、ここにおいて記載されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
【0103】
発明の方法の更なる実施例は、従って、その上に記録されて、ここにおいて記載されている方法のうちの1つを実行するためのコンピュータプログラムから成っているデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録メディアは、典型的に有形でおよび/または移り変わりのないものである。
【0104】
発明の方法の更なる実施例は、従って、ここにおいて記載されている方法のうちの1つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を経て、例えばインターネットで転送されるように例えば構成されることができる。
【0105】
更なる実施例は、ここに説明された方法の1つを実行するために構成または適応される処理手段、例えばコンピュータまたはプログラム可能な論理装置を含む。
【0106】
更なる実施例は、その上に、ここに記載されている方法のうちの1つを実行するためのコンピュータ・プログラムをインストールしているコンピュータを含む。
【0107】
本発明による更なる実施例は、レシーバに本願明細書において記載されている方法のうちの1つを実行するためのコンピュータ・プログラムを移す(例えば、電子的に、または、光学的に)ように構成される装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリデバイス等でもよい。装置またはシステムは、例えば、コンピュータ・プログラムを受取人に譲渡するためのファイル・サーバを含む。
【0108】
いくつかの実施形態において、プログラム可能な論理装置(例えばフィールド・プログラマブル・ゲート・アレイ)は、ここにおいて記載されている方法の機能のいくらかまたは全てを実行するために用いることができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、ここにおいて記載されている方法のうちの1つを実行するために、マイクロプロセッサと協働することができる。通常、方法は、いかなるハードウェア装置によっても好ましくは実行される。
【0109】
上記した実施例は、本発明の原理のために、単に図示するだけである。配置の修正変更およびここにおいて記載されている詳細が他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許クレームの範囲だけによって正弦され、ここにおいて実施例の説明および説明として示される具体的な詳細によって制限されないことが、意図するところである。
【0110】
参照
[1] E. Reinhard, G. Ward, S. N. Pattanaik, P. E. Debevec, W. Heidrich, and K. Myszkowski, High Dynamic Range Imaging - Acquisition, Display, and Image-Based Lighting (2. ed.). 1em plus 0.5em minus 0.4em Academic Press, 2010.
[2] R. Mantiuk, A. Efremov, K. Myszkowski, and H.-P. Seidel, ``Backward compatible high dynamic range mpeg video compression,'' ACM Trans. Graph., vol. 25, pp. 713--723, July 2006.
[3] S. Liu, W.-S. Kim, and A. Vetro, ``Bit-depth scalable coding for high dynamic range video,'' in Proc. SPIE 6822, 68220O (2008), 2008.
[4] M. Winken, D. Marpe, H. Schwarz, and T. Wiegand, ``Bit-depth scalable video coding,'' in Intl. Conf. on Image Proc. (ICIP), San Antonio, USA, Oct. 2007.
[5] A. Segall, ``Scalable coding of high dynamic range video,'' in Intl. Conf. on Image Proc. (ICIP), San Antonio, USA, Oct. 2007.
[6] Y. Gao, Y. Wu, and Y. Chen, ``H.264/Advanced Video Coding (AVC) backward-compatible bit-depth scalable coding,'' IEEE Trans. on Circ. and Syst. for Video Techn., vol. 19, no. 4, pp. 500--510, Apr. 2009.
[7] J.-U. Garbas and H. Thoma, ``Temporally coherent luminance-to-luma mapping for high dynamic range video coding with H.264/AVC,'' in Intl. Conf. on Acous., Speech and Signal Proc. (ICASSP), May 2011, pp. 829--832.
[8] G. W. Larson, ``The LogLuv encoding for full gamut, high dynamic range images,'' Journal of Graph. Tools, vol. 3, no. 1, pp. 15--31, 1998.
[9] ITU-R rec. BT.709, basic parameter values for the HDTV standard for the studio and for international programme exchange, Geneva, 1990.
[10] G. Krawczyk and R. Mantiuk, ``pfstmo tone mapping library,'' http://pfstools.sourceforge.net/pfstmo.html =0pt
[11] S. Steuerwald and A. Waggershauser, ``Sample panorama image: Florist Shop.'' http://www.lizardq.com/cdn/sample#images/3-Florist-Shop.hdr =0pt
[12] G. Krawczy, ``HDR video environment maps samples,'' http://www.mpi-inf.mpg.de/resources/hdr/video/ , Max-Planck Institute for Informatics.
[13] R. Mantiuk, S. Daly, K. Myszkowski, and H.-P. Seidel, ``Predicting visible differences in high dynamic range images - model and its calibration,'' in Human Vision and Electronic Imaging X, Proc. of SPIE, vol. 5666, 2005, pp. 204--214.
[14] T. O. Aydn, R. Mantiuk, and H.-P. Seidel, ``Extending quality metrics to full dynamic range images,'' in Human Vision and Electronic Imaging XIII, Proc. of SPIE, San Jose, USA, Jan. 2008, pp. 6806--6810.
[15] G. Bjontegaard, ``Calculation of average PSNR differences between RD-curves,'' in ITU-T SG 16 Q. 6 Video Coding Experts Group (VCEG), document VCEG-M33 , Austin, USA, Apr. 2001.