(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-19
(45)【発行日】2024-08-27
(54)【発明の名称】オープン・ループ・コーデックにおけるHDR撮像に関する画像予測
(51)【国際特許分類】
H04N 19/36 20140101AFI20240820BHJP
H04N 19/85 20140101ALI20240820BHJP
H04N 19/46 20140101ALI20240820BHJP
【FI】
H04N19/36
H04N19/85
H04N19/46
(21)【出願番号】P 2022579948
(86)(22)【出願日】2021-06-21
(86)【国際出願番号】 US2021038258
(87)【国際公開番号】W WO2021262599
(87)【国際公開日】2021-12-30
【審査請求日】2023-02-17
(32)【優先日】2020-06-24
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2020-06-24
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】スゥ,グワン-ミーン
(72)【発明者】
【氏名】カドゥ,ハルシャッド
【審査官】間宮 嘉誉
(56)【参考文献】
【文献】国際公開第2015/073373(WO,A1)
【文献】米国特許第10136147(US,B2)
【文献】特表2013-519157(JP,A)
【文献】特表2014-520414(JP,A)
【文献】特開2015-233297(JP,A)
【文献】HAAN, Wiebe de et al.,HDR CE6: Core Experiments 4.3 and 4.6a: Description of the Philips System in 4:2:0 and with Automatic Reshaper Parameter Derivation,JCTVC-W0063 (version 2),ITU,2016年02月20日,pp.1-13,[online],[retrieved on 2024-03-26],Retrieved from the Internet: <URL: http://phenix.it-sudparis.eu/jct/doc_end_user/documents/23_San%20Diego/wg11/JCTVC-W0063-v2.zip>,JCTVC-W0063-v2.doc
【文献】SONG, Qing et al.,Efficient Debanding Filtering for Inverse Tone Mapped High Dynamic Range Videos,IEEE Transactions on Circuits and Systems for Video Technology,米国,IEEE,2019年07月11日,Vol.30, No.8,pp.2575-2589,[online],[retrieved on 2024-03-26],Retrieved from the Internet: <URL: https://ieeexplore.ieee.org/document/8759906>,https://doi.org/10.1109/TCSVT.2019.2928270
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/12
H04N 19/00-19/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
プロセッサにより予測係数を生成する方法であって、当該方法は:
第1のダイナミック・レンジにおける第1の入力画像と第2のダイナミック・レンジにおける第2の入力画像とにアクセスするステップであって、前記第1の入力画像と前記第2の入力画像とは同じシーンを表現して
おり、前記第1のダイナミック・レンジは高ダイナミック・レンジを含み、前記第2のダイナミック・レンジは標準ダイナミック・レンジを含む、ステップ;
前記第1の入力画像の特徴に少なくとも基づいてノイズ強度を有するノイズ・データを生成するステップ;
前記ノイズ・データを前記第2の入力画像に加えることによって、ノイズ入力データ・セットを生成するステップ;
前記第1の入力画像と前記ノイズ入力データ
・セットとを結合して、第1の拡張入力データ・セットを生成するステップ;
前記第2の入力画像と前記ノイズ入力データ・セットとを結合して、第2の拡張入力データ・セットを生成するステップ;
前記第2の拡張入力データ・セットに基づいて、前記第1の拡張入力データ・セットを予測する予測モデルを生成するステップ;
予測モデル・パラメータのセットを生成するために、最小誤差基準に従って前記予測モデルの解を求めるステップ;
前記第2の入力画像を圧縮して、圧縮されたビットストリームを生成するステップ;及び
前記圧縮されたビットストリームと前記予測モデル・パラメータとを含む出力ビットストリームを生成するステップ;
を含む方法。
【請求項2】
請求項1に記載の方法において、前記第1の入力画像の特徴は、前記第1の入力画像における1つ以上のクロマ・カラー成分のダイナミック・レンジである、方法。
【請求項3】
請求項1又は2に記載の方法において、更に、デコーダにおいて:
前記圧縮されたビットストリームと前記予測モデル・パラメータとを含む出力ビットストリームを受信するステップ;
前記出力ビットストリームを復号化して、前記第2のダイナミック・レンジにおける第1の出力画像を生成するステップ;及び
前記予測モデル・パラメータを前記第1の出力画像に適用して、前記第1のダイナミック・レンジにおける第2の出力画像を生成するステップ;
を含む方法。
【請求項4】
請求項1-
3のうちの何れか1項に記載の方法において、前記ノイズ・データを生成するステップは:
前記第1の入力画像のピクセル値に基づいて統計量を計算するステップ;
前記統計量に基づいてノイズ標準偏差を計算するステップ;及び
ゼロ平均及び前記ノイズ標準偏差のガウス分布を用いて前記ノイズ・データのノイズ・サンプルを生成するステップ;
を含む、方法。
【請求項5】
請求項
4に記載の方法において、前記ノイズ標準偏差を計算するステップは、前記圧縮されたビットストリームを生成するためのターゲット・ビット・レート及び/又は前記第2の入力画像の特徴に更に基づいている、方法。
【請求項6】
請求項
4又は請求項
5に記載の方法において、前記統計量を計算するステップは:
前記第1の入力画像におけるピクセル値の総数、
前記第1の入力画像のルマ成分におけるピクセル値のレンジ、
前記第1の入力画像のクロマ成分におけるピクセル値のレンジ、又は
前記第1の入力画像を表す平均ピクセル値のグループを特徴付けるビンの数
のうちの1つ以上を計算するステップを含む、方法。
【請求項7】
請求項1-
6のうちの何れか1項に記載の方法において、前記予測モデルは、シングル・チャネル予測器、複数チャネル複数回帰(MMR)予測器を含む、方法。
【請求項8】
請求項1-
7のうちの何れか1項に記載の方法において、前記予測モデルの解を求めるステップは、前記予測モデルの出力と前記第1の入力画像との間の誤差尺度を最小化するステップを含む、方法。
【請求項9】
請求項
8に記載の方法において、前記予測モデル・パラメータのセットを生成するステップは、
【数85】
を計算するステップを含み、ここで、m
t
(n),optは前記予測モデル・パラメータのベクトル表現を示し、v
t
(n)は前記第1の拡張入力データ・セットを示し、S
t
(n)は前記第2の拡張入力データ・セットに基づく行列を示す、方法。
【請求項10】
請求項
9に記載の方法において、クロマ成分chに関し、
【数86】
であり、ここで、v
t
ch,(n)は前記第1の拡張入力データ・セットのピクセル値を表し、v
t
ch,(c)は前記第1の入力画像のピクセル値を含み、v
t
~ch,(c)は、前記第1の入力画像の何れかのピクセル値(ここで、v
t
~ch,(n)=v
t
ch,(c) である)、又は、ノイズを加えた前記第1の入力画像のピクセル値、の何れかを含む、方法。
【請求項11】
請求項1-
10のうちの何れか1項に記載の方法において、更に:
前記第1の入力画像の修正された表現に基づいて、第1の修正されたデータ・セットを生成するステップ;
前記第2の入力画像の修正された表現に基づいて、第2の修正されたデータ・セットを生成するステップ;
前記ノイズ・データを前記第2の修正されたデータ・セットに加えることによって、前記ノイズ入力データ・セットを生成するステップ;
前記第1の修正されたデータ・セットに基づいて、前記第1の拡張入力データ・セットを生成するステップ;及び
前記第2の修正されたデータ・セットと前記ノイズ入力データ・セットとを結合して、前記第2の拡張入力データ・セットを生成するステップ;
を含む方法。
【請求項12】
請求項
11に記載の方法において、前記第1の修正されたデータ・セットは、前記第1の入力画像のサブ・サンプリングされたバージョン、又は、前記第1の入力画像の3次元テーブル・マッピング(3DMT)表現を含む、方法。
【請求項13】
請求項
11又は請求項
12に記載の方法において、前記第2の修正されたデータ・セットは、前記第2の入力画像のサブ・サンプリングされたバージョン、又は、前記第2の入力画像の3次元テーブル・マッピング(3DMT)表現を含む、方法。
【請求項14】
請求項1-
13のうちの何れか1項に記載の方法を1つ以上のプロセッサ
に実行
させるコンピュータ
・プログラム。
【請求項15】
請求項1-
13のうちの何れか1項に記載の方法を実行するように構成されたプロセッサを含む装置。
【発明の詳細な説明】
【技術分野】
【0001】
[0001] 関連出願の相互参照
本願は、欧州特許出願第20182014.9号及び米国仮出願第63/043,198号に対する優先権を主張しており、両出願は2020年6月24日付で出願されており、それぞれ本件に全体的に援用されている。
【0002】
[0002] 技術分野
本発明は概して画像に関連する。より詳細には、本発明の実施形態は、オープン・ループ・コーデックにおける高ダイナミック・レンジ(high dynamic range,HDR)イメージングのための画像予測に関連する。
【背景技術】
【0003】
[0003] 本件で使用されているように、用語「ダイナミック・レンジ」(dynamic range,DR)は、例えば、最も暗いグレー(ブラック)から最も明るいホワイト(ハイライト)までのような、画像内の強度のレンジ(例えば、輝度、ルマ)を知覚する人間の視覚系(human visual system,HVS)の能力に関連している可能性がある。この意味で、DRは「シーン参照」(scene-referred)強度に関連している。また、DRは、特定の幅の強度レンジを適切に又は近似的にレンダリングするディスプレイ・デバイスの能力にも関連する可能性もある。この意味で、DRは「ディスプレイ参照」(display-referred)強度に関連している。本件の記載の何らかの箇所で、特定の意味を有するように特定の意味が明示的に指定されていない限り、この用語は、何れの意味にも、即ち可換に使用されてもよいことが推察されるべきである。
【0004】
[0004] 本件で使用されるように、用語「高ダイナミック・レンジ(HDR)」は、人間の視覚系(HVS)の大きさの14~15桁に及ぶDR幅に関連する。実際には、人間が強度レンジにおいて幅広い範囲を同時に知覚できるDRは、HDRとの関係で幾らか打ち切られる可能性がある。
【0005】
[0005] 実際には、画像は、1つ以上のカラー成分(例えば、ルマYとクロマCb及びCr)を含み、各カラー成分は、画素当たりのnビットの精度によって表される(例えば、n=8)。線形又はガンマ輝度コーディングを使用する場合、n≦8の画像(例えば、カラー24ビットJPEG画像)が標準ダイナミック・レンジの画像と考えられ、n>8の画像は強調された又は高いダイナミック・レンジの画像と考えられてもよい。HDR画像は、インダストリアル・ライト&マジック社により開発されたOpenEXRファイル・フォーマットのような高精度の(例えば、16ビット)浮動小数点フォーマットを使用して、保存及び配信されることも可能である。
【0006】
[0006] 現在、ほとんどの消費者向けデスクトップ・ディスプレイは、200ないし300 cd/m2又はニット(nits)の輝度をサポートしている。ほとんどの消費者向けHDTVは、300ないし500 nitの範囲に及び、新たなモデルは1000 nits(cd/m2)に達している。このように、このような従来のディスプレイは、HDRに関連して、標準ダイナミック・レンジ(standard dynamic range,SDR)とも呼ばれる、より低いダイナミック・レンジを表している。キャプチャ装置(例えば、カメラ)及びHDRディスプレイ(例えば、ドルビー・ラボラトリーズからのPRM-4200プロフェッショナル・リファレンス・モニター)の双方の進歩に起因して、HDRコンテンツの利用可能性が増大するにつれて、HDRコンテンツは、より高いダイナミック・レンジ(例えば、1,000 nitsないし5,000 nits以上)をサポートするHDRディスプレイにおいて、カラー・グレーディングされて表示される可能性がある。
【0007】
[0007] 本件で使用されるように、「リシェイピング(reshaping)」又は「リマッピング(remapping)」という用語は、デジタル画像の元のビット深度及び元のコードワードの分布又は表現(例えば、ガンマ、PQ、又はHLGなど)から、同じ又は異なるビット深度及び異なるコードワードの分布又は表現の画像への、サンプル_対_サンプルの又はコードワード_対_コードワードのマッピングのプロセスを意味する。リシェイピングは、固定されたビット・レートでの改善された圧縮性又は改善された画像品質を可能にする。例えば、限定ではないが、フォワード・リシェイピングを、10ビット又は12ビットのPQコーディングされたHDRビデオに適用して、10ビット・ビデオ・コーディング・アーキテクチャにおけるコーディング効率を改善してもよい。受信機において、受信信号を解凍した後(受信信号はリシェイプされていてもされていなくてもよい)、受信機は、その信号を元のコードワード分布に復元し、及び/又は、より高いダイナミック・レンジを達成するために、インバース(又は、バックワード)リシェイピング機能を適用することができる。
【0008】
[0008] HDRコーディングにおいて、画像予測(又はリシェイピング)は、ベースライン標準ダイナミック・レンジ(SDR)画像と、バックワード・リシェイピング機能を表現する予測係数のセットとを用いて、HDR画像が再構成されることを可能にする。レガシー・デバイスは、単に、SDR画像を復号化するに過ぎないかもしれないが;HDRディスプレイは、バックワード・リシェイピング機能をSDR画像に適用することによって、HDR画像を再構成することが可能である。ビデオ・コーディングにおいて、このような画像予測は、後方互換性を維持しつつコーディング効率を改善するために使用されることが可能である。このようなシステムは、「クローズド・ループ(closed loop)」と呼ばれるものであるか(その場合、エンコーダは復号化経路を含み、予測係数は、元の及び復号化されたSDR及びHDRデータの両方に基づいて導出される)、又は、「オープン・ループ(open loop)」と呼ばれるものであってもよい(その場合、このような復号化ループは存在せず、予測係数は元のデータのペアのみに基づいて導出される)。本件の発明者らによって認識されているように、オープン・ループ・コーデックの効率的な画像予測のための改良された技術が望まれている。
【0009】
[0009] このセクションで説明されるアプローチは、追求される可能性のあるアプローチであるが、必ずしも以前に考案されていたり又は追求されていたりするアプローチであるとは限らないはない。従って、別段の指定がない限り、本セクションに記載されている如何なるアプローチも、単に本セクションに含まれているという理由だけで先行技術としての適格であると仮定されるべきではない。同様に、1以上のアプローチに関して特定される事項は、別段の指定がない限り、本セクションに基づいて何らかの先行技術で認識されていると仮定すべきではない。
【図面の簡単な説明】
【0010】
[0010] 本発明の実施形態は、添付図面における図面において、限定ではない例示として説明されており、図中、同様な参照番号は同様な要素を参照している。
【
図1A】[0011]
図1Aは、従来技術による画像予測を用いるHDRデータ用の例示的なシングル・レイヤ・デコーダを示す。
【
図1B】[0012]
図1Bは、従来技術による画像予測を用いる例示的なHDRオープン・ループ・エンコーダを示す。
【
図1C】[0013]
図1Cは、従来技術による画像予測を用いる例示的なHDRクローズド・ループ・エンコーダを示す。
【
図1D】[0014]
図1Dは、本発明の実施形態による画像予測を用いる例示的なHDRオープン・ループ・エンコーダを示す。
【
図2】[0015]
図2は、本発明の実施形態による拡張データ予測器を設計するための例示的なプロセスを示す。
【
図3】[0016]
図3は、本発明の実施形態による3DMTデータ表現を用いる拡張データ予測器を設計するための例示的なプロセスを示す。
【発明を実施するための形態】
【0011】
[0017] オープン・ループ・コーデックにおける画像の効率的なコーディングのための画像予測技術が本件で説明される。以下の説明では、説明の目的で、本発明の十分な理解をもたらすように、多くの具体的な詳細が説明されている。しかしながら、本発明は、これらの具体的な詳細によらず実施されてもよいことは明らかであろう。他の例では、本発明を不必要に隠したり、不明瞭にしたり、又は曖昧にしたりしてしまうことを避けるために、周知の構造やデバイスは、審らかに詳細には説明されていない。
【0012】
[0018] 概要
本件で説明される例示的な実施形態は、画像予測技術に関連する。実施形態では、1つ以上のプロセッサを含む装置において、プロセッサは、同一のシーンを表す高ダイナミック・レンジ(HDR)及び標準ダイナミック・レンジ(SDR)における入力されたペアの参照画像を受け取る。プロセッサは:
HDR画像の特徴に少なくとも基づいて、ノイズ強度を有するノイズ・データを生成し;
ノイズ・データをSDR画像に加えることによって、ノイズ入力データ・セットを生成し;
HDR画像に基づいて、第1の拡張入力データ・セットを生成し;
SDR画像とノイズ入力データ・セットとを結合して、第2の拡張入力データ・セットを生成し;
第2の拡張入力データ・セットに基づいて第1の拡張入力データ・セットを予測する予測モデルを生成し;
予測モデル・パラメータのセットを生成するために、最小誤差基準に従って予測モデルの解を求めるステップ;
第2の入力画像を圧縮して、圧縮されたビットストリームを生成し;及び
圧縮されたビットストリームと予測モデル・パラメータとを含む出力ビットストリームを生成する。
【0013】
[0019] 例示的なHDRコーディング・システム
図1Aは、画像予測を使用する例示的なシングル・レイヤ・デコーダ・アーキテクチャを示しており、これは、下流のビデオ・デコーダにおける1つ以上の演算プロセッサで実装される可能性がある。
図1Bは、例示的な「オープン・ループ」エンコーダ・アーキテクチャを示しており、これは、1つ以上の上流のビデオ・エンコーダにおける1つ以上の演算プロセッサで実装される可能性がある。
図1Cは、例示的な「クローズド・ループ」エンコーダ・アーキテクチャを示す。
【0014】
[0020] このフレーム・ワークの下では、所与の参照HDRコンテンツ(120)の下で、対応するSDRコンテンツ(125)(即ち、HDRコンテンツと同じ画像を表現するが、カラー・グレーディングされており、標準ダイナミック・レンジで表現されているコンテンツ)が、上流の符号化デバイスによって、コーディングされたビデオ信号(144)のシングル・レイヤで符号化され且つ伝送されており、上流の符号化デバイスは、エンコーダ側のコーデック・アーキテクチャを実現する。SDRコンテンツ(144)は、ビデオ信号のシングル・レイヤにおいて、下流の復号化デバイスによって受信されて復号化される。また、予測メタデータ(例えば、バックワード・リシェイピング・パラメータ)(152)も、SDRコンテンツとともにビデオ信号において符号化されて伝送され、その結果、HDRディスプレイ・デバイスは、SDRコンテンツ(144)と受信したメタデータ(152)とに基づいてHDRコンテンツを再構成することが可能である。
【0015】
[0021]
図1B及び
図1Cにおいて、実施形態では、所与の入力HDRデータ(120)の下で、SDRデータ(125)は、トーン・マッピング、フォワード・リシェイピング、マニュアルによるもの(カラー・グレーディングの際におけるもの)又は当該技術分野で公知の技術の組み合わせにより、HDRデータから生成されることが可能である。別の実施形態では、所与の参照SDRデータ(125)の下で、HDRデータ(120)は、インバース・トーンマッピング、バックワード・リシェイピング、マニュアルによるもの(カラー・グレーディングの際におけるもの)、又は当技術分野で公知の技術の組み合わせにより、SDRデータから生成されることが可能である。圧縮ブロック140(例えば、AVC、HEVC、AV1などのような何らかの既知のビデオ・コーディング・アルゴリズムに従って実現されたエンコーダ)は、コーディングされたビットストリームのシングル・レイヤ144においてSDR画像(125)を圧縮/符号化する。
【0016】
[0022] ユニット150によって生成されるようなメタデータ(152)は、ビデオ信号144の一部として、例えば補足的なエンハンスメント情報(supplemental enhancement information,SEI)メッセージングとして多重化されてもよい。従って、メタデータ(152)は、エンコーダ側で利用可能な強力な演算リソース及びオフライン符号化フロー(コンテンツ適応多重パス、ルック・アヘッド演算、インバース・ルマ・マッピング、インバース・クロマ・マッピング、CDFベースのヒストグラム近似、及び/又は転送などを含むが、これらに限定されない)を利用するために、エンコーダ側で生成又は予め生成されることが可能である。
【0017】
[0023]
図1B及び
図1Cのエンコーダ・アーキテクチャは、入力HDR画像(120)をビデオ信号のコーディングされた/圧縮されたHDR画像に直接的に符号化することを回避するために使用することが可能である:むしろ、ビデオ信号におけるメタデータ(152)を使用して、下流の復号化デバイスは、SDR画像(125)(ビデオ信号において符号化されているもの)を、参照HDR画像(120)と同一であるか又は近い/最適に近似している再構成されたHDR画像(167)に、再構成することを可能にすることができる。
【0018】
[0024] 幾つかの実施態様において、
図1Aに示されるように、圧縮されたSDR画像を有するビデオ・ビットストリーム(144)とエンコーダによって生成された予測パラメータを有するメタデータ(152)とは、コーデック・フレームワークのデコーダ側で入力として受信される。解凍ブロック160は、ビデオ信号のシングル・レイヤ(144における圧縮されたビデオ・データを、復号化されたSDR画像(162)に解凍/復号化/圧縮解除する。解凍160は、典型的には、圧縮の140の逆に対応する。復号化されたSDR画像(162)は、圧縮ブロック(140)及び解凍ブロック(160)における量子化誤差の影響を被ったSDR画像(125)と同じである可能性があり、これは、SDRディスプレイ・デバイスに対して最適化されることが可能である。復号化されたSDR画像(162)は、SDRディスプレイ・デバイスにおいてレンダリングされるべき出力SDRビデオ信号において(例えば、HDMI(登録商標)インターフェースを介して、ビデオ・リンク等を介して)出力されてもよい。
【0019】
[0025] 更に、予測ブロック165(「コンポーザ(composer)」と言及される場合もある)は、入力ビットストリームからのメタデータ(152)を、解凍されたデータ(162)に適用して、再構成されたHDR画像(167)を生成する。幾つかの実施態様において、再構成された画像は、参照HDR画像(120)と同一であるか、又は近い/最適に近似している、制作時品質又は制作時品質に近いHDR画像を表す。再構成された画像(167)は、HDRディスプレイ・デバイスでレンダリングされることになる出力HDRビデオ信号において(例えば、HDMI(登録商標)インターフェースを介して、ビデオ・リンク等を介して)出力されてもよい。
【0020】
[0026] 一部の実施形態では、HDR表示デバイスに特有の表示管理処理が、再構成された画像(167)に対して、HDR画像レンダリング処理の一部として実行されてもよく、HDR画像レンダリング処理は、バックワード・リシェイピングされた画像(167)をHDR表示デバイスにおいてレンダリングする。
【0021】
[0027]
図1Bは、「オープン・ループ」符号化アーキテクチャを示し、ここで、メタデータ152は、入力HDR及びSDR画像のみを使用してユニット150によって生成される。
図1Cは、追加の解凍ブロック(160)を含む「クローズド・ループ」符号化アーキテクチャを示す。クローズド・ループ設計は、追加のビデオ解凍ステップ160を使用しており、デコーダが行うことになる動作する方法を装っている。これは、予測パラメータを(例えば、ブロック150において)生成するために、データのよりいっそう遙かに正確な記述をもたらすが;それは、追加の復号化ステップを必要とする。これは、単一のビット・レート又はプロファイルでビットストリームを生成する場合には良好であるが、サーバーが、「ビット・レート・ラダー(bit-rate ladder)」と一般的に呼ばれる複数のビット・レートでストリームを生成する必要がある場合には、より演算負担が重くなってしまう。
従って、発明者等によって認められているように、オープン・ループ・アーキテクチャを改善して、クローズド・ループ・システムと同程度の又はより優れたパフォーマンスをもたらすが、演算の複雑性を低減することは有益なことである。
【0022】
[0028] オープン・ループ・システムにおける改善された予測のためのシステム例
シングル・チャネル予測器
入力データ{xi}と観測される出力データ{yi
(g)}のペアを考察し、ここで、i=0,1,...,P-1であり、出力は次のように生成される:
【0023】
【数1】
ここで、f
(g)は、パラメータa
k
(g)を有する次数K
(g)の「グランド・トゥルース」多項式モデルを示し、n
i
(g)は、一般性を失うことなく、ゼロ平均及び分散(σ
(g))
2を有する加法性白色ガウシアン・ノイズを示し、n
i
(g)~N(0,(σ
(g))
2)として示される。
【0024】
【数2】
であるとし、これは、モデルにおける係数のベクトルを示し、また、
【0025】
【数3】
であるとし、これは観測される出力データのベクトルを示す。
【0026】
[0029] 伝統的なモデリングの下では、所与のP個のグランド・トゥルース・データのセットの下で {(xi,yi
(g))}、次のように与えられる次数K(c)の新たな多項式モデルf(c)を用いて予測モデルを構築しようとする:
【0027】
【数4】
ここで、多項式係数a
k
(c)のベクトルは次のように示される:
【0028】
【0029】
【数6】
数式(4)は次のように表現することができる:
【0030】
【数7】
[0030] 数式(7)の下で、観測されたデータと予測されたデータとの間の誤差を最小化するように、多項式係数の最適な集合を定義することができる:
【0031】
【数8】
この場合において、最小平均二乗誤差(minimum mean square,MSE)最適化の下で、最適化の解は次のように与えられる:
【0032】
【数9】
[0031] 数式(7)のモデルは、予測子が、元のx
iデータにアクセスできる限り、良好に機能する。このシナリオを、クローズド・ループ・アーキテクチャに対する近似として考察する;この場合において、デコンポーザ160は、デコーダによって見られる場合に、SDRデータの非常に正確なコピーを提供する。しかしながら、そのようなデータが利用可能でない場合はどうだろうか? 実施形態では、利用可能なx
iデータにおける不確実性(例えば、オープン・ループ・アーキテクチャの下にある場合)をより適切に考慮ため、より堅牢な予測器を構築するために、白色ガウシアン・ノイズ(e.g., n
i
(n)~N(0,(σ
(n))
2))を元の入力{x
i|i=0,1,...,P-1}に加えることによって生成される、入力データの重複セット
【0033】
【数10】
を生成して使用することを提案する。即ち、
【0034】
【0035】
[0032]
図1Dは、実施形態による提案される拡張データ予測モデルをサポートするオープン・ループ・アーキテクチャの一例を示す。
図1Bと比較すると、
図1Dのアーキテクチャは、ノイズを含むSDR及び/又はHDRデータを生成する新しいノイズ挿入モジュール(165)を含んでいる。次いで、オリジナルの及びノイズの多いSDR及びHDRデータを組み合わせて、拡張SDR及びHDRデータを形成し、これらはユニット170に供給されて、拡張データ予測モデルの予測パラメータの解を求める。拡張入力データ・セット(augmented input data set)は、入力画像とノイズ入力データ・セットの組み合わせを示すことが可能である。
【0036】
[0033] 実施形態では、この新しい拡張されたデータ予測モデルの観測されたデータ
【0037】
【数12】
は、{y
i
(g)|i=0,1,...,P-1}と同じであると考えられ、
【0038】
【数13】
である。他の実施形態において、ノイズは、観測されるデータをモデル化する際に加えられることも可能であるが;実験結果は、観測されるデータにおいてノイズをモデル化することによっては、有意な改善を示しておらず、従って、一般性を失うことなく、以下の議論では、予測モデリングを単純化するために、そのようなノイズは考慮されない。
【0039】
[0034] 訓練データのペアのセット、例えば、
【0040】
【数14】
の下で、次数K
(n)の新たな多項式モデルf
(n)(例えば、K
(n)=K
(c))は、次のように表現することができる:
【0041】
【数15】
再び、次のように入力及び出力データの行列/ベクトル表現の下で:
【0042】
【数16】
新及び旧のデータ・セットを組み合わせることによって、組み合わせられた(又は拡張された)データ・セットを構築することができる:
【0043】
【数17】
また、拡張されたデータ予測モデルは、次のように表現することができる:
【0044】
【数18】
[0035] m(n)について解くことは、最適化問題として定式化することができる:
【0045】
【数19】
(MSEの下での)最適化解は、次のように与えられる:
【0046】
【数20】
[0036]
図2は、実施形態の下で拡張データ予測器を構築するための例示的なプロセスを示す。
図2に示されるように、このプロセスへの入力は、入力と観測可能なデータのペア、例えば、pair(x
i,y
i
(g)) である。ステップ205において、ノイズを元の入力データに加えることによって、ノイズの多い(摂動が加えられた)入力データx
~
iを生成する(例えば、数式(9)参照)。予測器の観点から、ステップ215の出力において、元の入力データとノイズの多い入力データとを含む入力データの拡張セット
【0047】
【数21】
が、ここに存在する。ステップ210において、オプションとして、入力された観測可能データに基づいて、ノイズの多い(又は摂動が加えられた)観測可能データ
【0048】
【0049】
【数23】
とする。予測器の観点からは、ステップ220の後に、観測可能でありノイズの多い観測可能なデータの拡張されたセットが今や存在している
【0050】
【数24】
最終的に、ステップ225において、拡張データ予測モデルの係数の解を求める(例えば、式(16)参照)。
【0051】
[0037] マルチ・チャネル・モデルを用いる拡張データ予測
先の議論は、比較的シンプルなシングル・チャネル予測モデルを使用していた。このセクションでは、方法論が、限定ではないが例えばRef.[1]及びRef.[2]に記載されているものように、マルチ・チャネル回帰モデルに拡張される。一例として、一般性を失うことなく、マルチ・チャネル多重回帰(multi-channel, multiple-regression,MMR)予測器(Ref.[1])を使用する実施形態に関連して、詳細な方法論が説明されるが;当業者は、この方法論を、テンソル積B-スプライン(Tensor-Product B-spline,TPB)モデル(Ref.[2])のような他のモデルに拡張することができるはずである。
【0052】
[0038] 例えば、あるビデオ・シーケンスを考察し、t番目のフレームのサンプル(例えば、SDRピクチャ)は、
【0053】
【数25】
のように示され、また、各ピクセルは3つのカラー成分y,c
1,c
2(例えば、YCbCr, RGB, ICtCb 等)を有しているものとする。例えば、SDR画像(125)は100 nits及びR709の色域における画像データを表現していてもよい一方、対応するHDR画像(120)は4,000 nits及びP3色域における画像データを表現していてもよい。MMRモデルを利用して、出力v
t,i
ch(g)(ここで、chはy,c
0又はc
1を示す)を、次のような組み合わせとして表現する:
【0054】
【数26】
例えば、実施形態では、二次の交差積MMR表現を使用して、ベクトルs
-
j,iは、次のように15個の値を利用して表現することができる:
【0055】
【数27】
数式(17a-17b)において、一部の実施形態では、幾つかの項は、演算負担を低減するために除去されてもよい。例えば、モデルにおいて、クロマ成分の1つのみを使用してもよいし、所定の高次の交差成分を完全に排除してもよい。限定ではないが、代替的な線形又は非線形の予測子が使用されてもよい。
【0056】
[0039] ここで、
【0057】
【数28】
であるとすると、観測可能なデータ(例えば、HDRピクチャ)は、次のように表現することができる:
【0058】
【数29】
また、全体的なグランド・トゥルース・モデルは、次のように表現することができる:
【0059】
【0060】
【数31】
は、加法性ノイズ、例えば、n
t,i
(g)~N(0,(σ
t
(g))
2) を示す。
【0061】
[0040] 注:白色ガウシアン・ノイズを使用することは、可能性のある最悪の雑音を使用するオープン・ループ問題において量子化雑音をモデリングすることとして認識できる。当業者は、このようなノイズは、ラプラシアン(Laplacian)、コーシー(Cauchy)等のような当技術分野で公知の代替モデルを用いてモデル化されてもよい、ということを認識するであろう。
【0062】
[0041] 次のような行列形式における所与のMMRモデルの下で、
【0063】
【数32】
伝統的な予測器のパラメータは、次のような最小化問題を再び使用して計算することが可能であり:
【0064】
【数33】
(MSEの下での)最適な解は次のように与えられる:
【0065】
【0066】
【0067】
[0042] 拡張データ予測器は、
図2で説明された方法に従って設計することができる。シングル・チャネルのケース(ステップ205参照)における場合と同様に、所与の入力
【0068】
【数36】
の下で、新たなノイズ又は摂動が加えられたセット
【0069】
【数37】
は、ノイズ(例えば、n
t,i
(g)~N(0,(σ
t
(g))
2) のような分布を有するガウシアン・ノイズ)を加えることによって生成され、例えば、
【0070】
【0071】
[0043] ここで、
【0072】
【0073】
【0074】
【0075】
【数42】
と同じままである場合(例えば、ステップ210はスキップされる)、
【0076】
【0077】
[0044] ステップ215及び220において、新及び旧のデータ・セットを結合すると、次のようになる:
【0078】
【数44】
最終的に、ステップ225において、最適化問題
【0079】
【数45】
は、最小二乗解を用いて解くことができる:
【0080】
【数46】
[0045] 別の実施形態では、例えば、各々の摂動を受けたセットについて異なるノイズ分散を使用することによって、追加の摂動入力及び/又は出力データ・セットで、データを拡張することが可能である。例えば、
【0081】
【数47】
という幾つかのデータ・セットを作成し、(例えば、ステップ215及び220において)次のような結合されたデータ・セットを生成することができる:
【0082】
【数48】
予測モデルの解は依然として数式(29)により与えられる。
[0046] ノイズ強度選択の考察
拡張データ予測モデルの重要な部分は、ノイズを元の入力データに加えることによって、摂動が加わった(又はノイズの多い)データを生成することにある。従って:どの程度のノイズが加えられるべきか?という問題が生じる。直感的には、ビデオ・コーディングにおいては、ビット・レートが高いほど量子化ノイズは低くなり、従って、加わるノイズの量に影響を及ぼす少なくとも1つのパラメータは、圧縮されたビットストリームの目標ビット・レートであってもよい。
【0083】
[0047] 本件で使用される場合、「レンジ内(in-range)」という用語は、予測モデルで使用されるべき元のテスト・データ又は訓練データのピクセル・レンジ(例えば、[a,b])を示す。本件で使用される場合、用語「下方レンジ外(lower out-of- range)」は、予測モデルで使用されるレンジ内の最小値(e.g.,a)より低いピクセル値を示す。例えば、これらは非常に低いブラック値を有する画像であってもよい。本件で使用される場合、用語「上方レンジ外(upper out-of-range)」は、予測モデルで使用されるレンジ内の最大値(e.g.,b)より高いピクセル値を示す。例えば、これらは、非常に高いハイライト値を有する画像であってもよい。
【0084】
[0048] 実験結果は、いかなるレンジ外データに対しても、拡張データ予測器は、ノイズ分散が増加するにつれて常に良好であることを示している;しかしながら、レンジ内データに対しては、追加されるノイズが、σt
ch,(n),optのように示される或る「最適な」値よりも低い標準偏差を有する場合に限り、拡張データ予測器は良好であろう。従って、この最適なノイズ分散を次のように表現することができる:
【0085】
【0086】
【数50】
は、標準偏差σ
t
ch,(n)の白色ガウシアン・ノイズを伴う拡張入力データを用いた平均歪の尺度を示し、
【0087】
【数51】
は、伝統的な予測モデルを用いた予測における平均歪みを示し、例えば、
【0088】
【0089】
[0049] これらの観測は、ノイズ強度に影響を及ぼす別のパラメータは、出力(例えば、HDR)データのダイナミック・レンジ、特に、HDR入力におけるクロマ・カラー成分のダイナミック・レンジであることを示している。また、実験データは、Pの値が大きいほど、よりロバストな拡張データ・モデルであることを示している;しかしながら、実際には、多数の計算に起因して、我々が全てのピクセル値に直接的に作用することは希である。むしろ、我々はサブ・サンプリングされた画像又は「平均」ピクセル値を用いて操作することが可能である。例えば、我々は、正規化されたダイナミック・レンジ全体(e.g.,(0,1])をカバーするために、入力信号コードワードを、等間隔wbのM個の重複しないビン(例えば、M=16,32又は64であり)(例えば、16ビット入力データの場合、wb=65,536/Mである)に分割することが可能である。次いで、ピクセル値を用いて操作する代わりに、我々は、そのようなビン各々の中の平均ピクセル値を用いて操作してもよい。PtをHDRビンの数とすると(3次元マッピング・テーブル(3DMT)とも呼ばれる)、実施形態において、ノイズ強度は以下の発見的方法に基づいて導出されてもよい。
【0090】
【0091】
【0092】
【数55】
は、観測データの実際のダイナミック・レンジを示し、μは最大ノイズ強度を示し(e.g.,μ=0.08)、Δ
Pは入力データ・カウントの観点から広がりを制御するためのパラメータであり(e.g.,Δ
P=3,000)、Δ
Rは観測データ・レンジの観点から広がりを制御するためのパラメータである(例えば、ビット深度=16ビットである場合、Δ
P=7,000である)。このモデルは、入力が増加する場合に、より緩慢な減衰をもたらす。
【0093】
[0050] 別の実施形態において、代替的なアプローチは、指数関数内のより高い次数の項により、より速い減衰をもたらすことであろう:
【0094】
【0095】
[0051] 実施形態では、数式(32)及び(34)の両方において、我々は例えばビット・レート関連の乗数因子を追加することができる:
【0096】
【数57】
ここで、Δ
Bは、ノイズを生成するために使用される平均ビット・レートの観点から広がりを制御するためのパラメータである(e.g.,Δ
B=2 Mbits/s)。例えば、高ビット・レート(例えば、5.2 Mbits/s以上におけるもの)では、ノイズ強度はほぼゼロであるとすることが可能である。実施形態では、数式(35)において、各々の指数因子におけるαの値は、異なる値を有していてもよい(例えば、各々のαは、α
P,α
R,及びα
Bのような異なる値によって置き換えられてもよい)。
【0097】
[0052] 実施形態において、我々は、最適化されたノイズ強度を、各ターゲット・ビット・レートについて生成することが可能であり、従って、各ビット・レートについて専用の予測パラメータのセットを生成することができる。別の実施形態では、サービス・プロバイダは、1つのセット(又はひと揃いのセットのみ)を使用するように望むかもしれない。例えば、あるセットの最適化されたMMRパラメータを用いて、我々は、可能性のある最悪のシナリオ(例えば、最低のビット・レートにおける最小の解像度)を使用して、ノイズを追加してもよい。そのようなシナリオでは、数式(35)のビット・レート関連の指数項は、μに吸収されることが可能な固定値(例えば、数式(34)参照)とみなすことができる。
【0098】
[0053] 発見的ノイズモデル(数式(35)参照)が与えられている下で、
図3は、オープン・ループ3DMTアーキテクチャ(例えば、
図1Dに示されるようなもの)のための拡張データ予測の例示的なプロセスを示す。参照HDR入力のt番目のフレームに対するi番目のピクセルのカラー成分値を、
【0099】
【0100】
【数59】
とする。各カラー・チャネルにおける最小値及び最大値を、SDR画像においては、
【0101】
【0102】
【0103】
[0054]
図3に示されるように、プロセスは、ステップ305において、3DMT表現(Refs.[3-4]も参照されたい)を構築することから始まり、これは以下のように要約することができる:
a)SDR画像のダイナミック・レンジを、各チャネルにおいて、各成分に対するビンの固定数Q
y,Q
C0,Q
C1を用いて量子化する。このパーティションは、(Q
y×Q
C0×Q
C1)3Dヒストグラムを計算するために、各次元の最小/最大(s
t
ch,min,s
t
ch,max)のレンジをカバーする均一なパーティション境界を使用することができる。各チャネルの量子化インターバルは、次のように与えられる:
【0104】
【数62】
3Dヒストグラム・ビンをΩ
t
Q,sとし、ここで、
【0105】
【数63】
である。従って、Ω
t
Q,sは合計(Q
y・Q
C0・Q
C1)個のビンを含み、その結果、3Dビンはビン・インデックス
【0106】
【数64】
により指定され、これは、3チャネルの量子化された値を有するピクセルの数を表す。表記を簡略化するために、我々は、3Dビン・インデックス{q(太字)}を1-Dインデックス{q}にベクトル化することができる。
【0107】
【数65】
b)各々の3Dビンについて、HDR内の各カラー成分の合計を計算する。
【0108】
【数66】
を、HDR画像ドメインにマッピングされたルマ及びクロマの値であるとし、その結果、これらの各々のビンは全てのHDRルマ及び2つのクロマ(それぞれC
0,C
1)のピクセル値の合計を含み、ここで、対応するピクセル値はそのビンの中にある。P個のピクセルを仮定すると、処理は次のような擬似コードを用いて要約することができる:
【0109】
【数67】
c)非ゼロ数のピクセルを有する3Dヒストグラム・ビンを探す。言い換えれば、集合Φ
t
Qに対する全ての非ゼロ・エントリを集める。
【0110】
【0111】
【0112】
【数70】
であるとする。こうして、我々はΦ
t
Qにおける要素についてマッピング・ペア
【0113】
【0114】
[0055] ステップ310において、ノイズ強度は次のようにして計算することができる:所与のPt,3DMTビンの数の下で、実施形態では、クロマ・レンジRtは、2つのカラー・チャネルにおけるダイナミック・レンジの平均として計算することが可能である:
【0115】
【数72】
従って、ノイズ強度は、数式(34)又は(35)のように計算することができる。
【0116】
[0056] 別の実施形態では、ノイズ標準偏差は、より高度な複雑性の犠牲を払って、ルマ及び各カラー成分について別々に計算されることが可能である。代替的に、クロマ・レンジを平均化することによりRtを計算する代わりに、我々は2つのクロマ・レンジの最大値又は最小値を使用することが可能である。しかしながら、一般に、改善されたクロマ品質を目標とする実験結果は、説明されたようにRtを計算することは、妥当な複雑性コストで満足のゆく結果をもたらすことを示した。
【0117】
[0057] ステップ315において、一般性を損なうことなく、MMR予測モデルを仮定すると、数式(36b)の下で、SDR入力データ・セットは以下のように定式化することができる:
【0118】
【数73】
全てのP
tエントリを収集すると、次のようになる:
【0119】
【数74】
同様に、ベクトル形式における3DMT HDRクロマ値は、次のように表現することができる:
【0120】
【数75】
[0058] ステップ320において、
【0121】
【数76】
の各々の3DMTエントリに対してノイズを追加することは、
【0122】
【数77】
により与えられるノイズ入力3DMTデータをもたらし、ここで、各チャネルのノイズは、例えば、
n
t,i
ch,(n)~N(0,(σ
t
(n))
2) のような同じ分布を有する。
【0123】
[0059] ステップ325において、拡張された入力3DMTデータ・セットが次のようにして生成される:
ノイズの多い入力に対するMMRの拡張された形式を、
【0124】
【0125】
【数79】
に対して、拡張データ・セットは、次のように与えられる:
【0126】
【数80】
[0060] 実施形態では、ステップ330において、新たな予測モデルは:
【0127】
【数81】
のように記述することが可能であり、(MSE基準の下での)最適解は次のように与えられる(Ref.[3-4]):
【0128】
【数82】
参考文献
これらの参考文献の各々は参照により全体的に本件に援用される。
1. G-M. Su et al., “Multiple color channel multiple regression predictor,” U.S. Patent 8,811,490.
2. G-M Su et al., “ Tensor-product B-Spline predictor,” U.S. Provisional patent application, Ser. No. 62/908,770, filed on Oct. 1, 2019.
3. N.J. Gadgil and G-M. Su, “Linear encoder for image/video processing,” PCT Application Ser. No. PCT/US2019/020115, filed on Feb. 28, 2019, published as WO2019/169174.
4. Q. Song et al., “High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single-layer backward compatible encoding pipeline,” WIPO PCT Publication, WO2019/217751, Nov. 14, 2019.
コンピュータ・システム実装例
[0061] 本発明の実施形態は、コンピュータ・システム、電子回路及び構成要素で構成されるシステム、マイクロコントローラのような集積回路(IC)デバイス、フィールド・プログラマブル・ゲート・アレイ(FPGA)、その他の設定可能な又はプログラム可能な論理デバイス(PLD)、離散時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、及び/又は、これらのシステム、デバイス又は構成要素のうちの1つ以上を含む装置を用いて実施することが可能である。コンピュータ及び/又はICは、本件で説明されるような画像予測技術に関連する命令を実行、制御、又は遂行することが可能である。コンピュータ及び/又はICは、本件で説明されるような画像予測技術の生成に関連する任意の様々なパラメータ又は値を計算することが可能である。画像及びビデオのダイナミック・レンジ拡張の実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの様々な組み合わせで実装することが可能である。
【0129】
[0062] 本発明の特定の実装は、本発明の方法をプロセッサに実行させるソフトウェア命令を実行するコンピュータ・プロセッサを含む。例えば、ディスプレイ、エンコーダ、セット・トップ・ボックス、トランスコーダ等における1つ以上のプロセッサは、プロセッサにアクセスすることが可能なプログラム・メモリ内のソフトウェア命令を実行することによって、上述したような画像予測技術のための方法を実施することが可能である。本発明は、プログラム製品の形態で提供されてもよい。プログラム製品は、データ・プロセッサによって実行されると、本発明の方法をデータ・プロセッサに実行させる命令を含む一組のコンピュータ読み取り可能な信号を運ぶ任意の非一時的かつ有形の媒体を含む可能性がある。本発明によるプログラム製品は、広範に及ぶ種々の非一時的な有形の形態の何れかにおけるものであってもよい。プログラム製品は、例えば、フロッピー・ディスケットを含む磁気データ記憶媒体、ハード・ディスク・ドライブ、CD-ROMを含む光データ記憶媒体、DVD、ROMを含む電子データ記憶媒体、フラッシュRAM等のような物理媒体を含む可能性がある。プログラム製品におけるコンピュータ読み取り可能な信号は、オプションとして、圧縮又は暗号化されていてもよい。
【0130】
[0063] 構成要素(例えば、ソフトウェア・モジュール、プロセッサ、アセンブリ、デバイス、回路など)が上記で言及される場合、別段の指示がない限り、当該構成要素への言及(「手段」への言及を含む)は、本発明の例示的に説明された実施形態における機能を実行する開示された構造と構造的には同等でない構成要素を含む、説明された構成要素の機能を実行する任意の構成要素(例えば、機能的に同等であるもの)を、当該構成要素の均等物として含むように解釈されるべきである。
【0131】
[0064 ] 均等、拡張、代替、及びその他
従って、画像予測技術に関する例示的な実施形態が説明されている。このような明細書において、本発明の実施形態は、実装ごとに変なる可能性のある多数の特定の詳細を参照しながら説明されている。従って、何が発明あるか、及び何が出願人により発明であると意図されているのか、についての唯一かつ排他的な指標は、以後の如何なる訂正をも含む、このようなクレームがもたらす特定の形式で本願から発行されるクレームのセットである。このようなクレームに含まれる用語について本件で明示的に述べられている如何なる定義も、当該クレームにおいて使用される用語の意味を支配するものとする。従って、クレームに明示的に記載されていない限定、要素、特性、特徴、利点又は属性は、そのようなクレームの範囲を如何なる方法によっても限定しないはずである。従って、明細書及び図面は、限定的な意味ではなく例示的に解釈されるべきである。
【0132】
[0065] 本発明の様々な態様は以下に列挙される例示的な実施形態(enumerated example embodiments,EEEs)から理解することが可能である:
(EEE1)
プロセッサにより予測係数を生成する方法であって、当該方法は:
第1のダイナミック・レンジにおける第1の入力画像(120)と第2のダイナミック・レンジにおける第2の入力画像(125)とにアクセスするステップであって、前記第1の入力画像と前記第2の入力画像とは同じシーンを表現している、ステップ;
前記第1の入力画像の特徴に少なくとも基づいてノイズ強度を有するノイズ・データを生成するステップ;
前記ノイズ・データを前記第2の入力画像に加えることによって、ノイズ入力データ・セットを生成するステップ;
前記第1の入力画像に基づいて、第1の拡張入力データ・セットを生成するステップ;
前記第2の入力画像と前記ノイズ入力データ・セットとを結合して、第2の拡張入力データ・セットを生成するステップ;
前記第2の拡張入力データ・セットに基づいて、前記第1の拡張入力データ・セットを予測する予測モデルを生成するステップ;
予測モデル・パラメータのセットを生成するために、最小誤差基準に従って前記予測モデルの解を求めるステップ;
前記第2の入力画像を圧縮して、圧縮されたビットストリームを生成するステップ;及び
前記圧縮されたビットストリームと前記予測モデル・パラメータとを含む出力ビットストリームを生成するステップを含む。
【0133】
(EEE2)
EEE1に記載の方法において、更に、デコーダにおいて:
前記圧縮されたビットストリームと前記予測モデル・パラメータとを含む出力ビットストリームを受信するステップ;
前記出力ビットストリームを復号化して、前記第2のダイナミック・レンジにおける第1の出力画像を生成するステップ;及び
前記予測モデル・パラメータを前記第1の出力画像に適用して、前記第1のダイナミック・レンジにおける第2の出力画像を生成するステップを含む。
【0134】
(EEE3)
EEE1又はEEE2に記載の方法において、前記第1のダイナミック・レンジは高ダイナミック・レンジを含み、前記第2のダイナミック・レンジは標準ダイナミック・レンジを含む。
【0135】
(EEE4)
EEE1-3のうちの何れか1項に記載の方法において、前記ノイズ・データを生成するステップは:
前記第1の入力画像のピクセル値に基づいて統計量を計算するステップ;
前記統計量に基づいてノイズ標準偏差を計算するステップ;及び
ゼロ平均及び前記ノイズ標準偏差のガウス分布を用いて前記ノイズ・データのノイズ・サンプルを生成するステップを含む。
【0136】
(EEE5)
EEE4に記載の方法において、前記ノイズ標準偏差を計算するステップは、前記圧縮されたビットストリームを生成するためのターゲット・ビット・レート及び/又は前記第2の入力画像の特徴に更に基づいている。
【0137】
(EEE6)
EEE4又はEEE5に記載の方法において、前記統計量を計算するステップは:前記第1の入力画像におけるピクセル値の総数、前記第1の入力画像のルマ成分におけるピクセル値のレンジ、前記第1の入力画像のクロマ成分におけるピクセル値のレンジ、又は、前記第1の入力画像を表す平均ピクセル値のグループを特徴付けるビンの数のうちの1つ以上を計算するステップを含む。
【0138】
(EEE7)
EEE1-6のうちの何れか1項に記載の方法において、前記予測モデルは、シングル・チャネル予測器、複数チャネル複数回帰(MMR)予測器を含む。
【0139】
(EEE8)
EEE1-7のうちの何れか1項に記載の方法において、前記予測モデルの解を求めるステップは、前記予測モデルの出力と前記第1の入力画像との間の誤差尺度を最小化するステップを含む。
【0140】
(EEE9)
EEE8に記載の方法において、前記予測モデル・パラメータのセットを生成するステップは、
【0141】
【数83】
を計算するステップを含み、ここで、m
t
(n),optは前記予測モデル・パラメータのベクトル表現を示し、v
t
(n)は前記第1の拡張入力データ・セットを示し、S
t
(n)は前記第2の拡張入力データ・セットに基づく行列を示す。
【0142】
(EEE10)
EEE9に記載の方法において、クロマ成分chに関し、
【0143】
【数84】
であり、ここで、v
t
ch,(n)は前記第1の拡張入力データ・セットのピクセル値を表し、v
t
ch,(c)は前記第1の入力画像のピクセル値を含み、v
t
~ch,(c)は、前記第1の入力画像の何れかのピクセル値(ここで、v
t
~ch,(n)=v
t
ch,(c) である)、又は、ノイズを加えた前記第1の入力画像のピクセル値、の何れかを含む。
【0144】
(EEE11)
EEE1-10のうちの何れか1項に記載の方法において、更に:
前記第1の入力画像の修正された表現に基づいて、第1の修正されたデータ・セットを生成するステップ;
前記第2の入力画像の修正された表現に基づいて、第2の修正されたデータ・セットを生成するステップ;
前記ノイズ・データを前記第2の修正されたデータ・セットに加えることによって、前記ノイズ入力データ・セットを生成するステップ;
前記第1の修正されたデータ・セットに基づいて、前記第1の拡張入力データ・セットを生成するステップ;及び
前記第2の修正されたデータ・セットと前記ノイズ入力データ・セットとを結合して、前記第2の拡張入力データ・セットを生成するステップを含む。
【0145】
(EEE12)
EEE11に記載の方法において、前記第1の修正されたデータ・セットは、前記第1の入力画像のサブ・サンプリングされたバージョン、又は、前記第1の入力画像の3次元テーブル・マッピング(3DMT)表現を含む。
【0146】
(EEE13)
EEE11又はEEE12に記載の方法において、前記第2の修正されたデータ・セットは、前記第2の入力画像のサブ・サンプリングされたバージョン、又は、前記第2の入力画像の3次元テーブル・マッピング(3DMT)表現を含む。
【0147】
(EEE14)
EEE1-13のうちの何れか1項に記載の方法を1つ以上のプロセッサにより実行するためのコンピュータ実行可能命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
【0148】
(EEE15)
EEE1-13のうちの何れか1項に記載の方法を実行するように構成されたプロセッサを含む装置。