(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-26
(45)【発行日】2024-03-05
(54)【発明の名称】画像処理方法、システム及びコンピュータ・プログラム
(51)【国際特許分類】
H04N 19/85 20140101AFI20240227BHJP
H04N 19/46 20140101ALI20240227BHJP
【FI】
H04N19/85
H04N19/46
(21)【出願番号】P 2022549578
(86)(22)【出願日】2021-02-17
(86)【国際出願番号】 US2021018407
(87)【国際公開番号】W WO2021168001
(87)【国際公開日】2021-08-26
【審査請求日】2022-08-18
(32)【優先日】2020-02-19
(33)【優先権主張国・地域又は機関】EP
(32)【優先日】2020-02-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】スゥ,グワン-ミーン
【審査官】岩井 健二
(56)【参考文献】
【文献】国際公開第2019/217751(WO,A1)
【文献】国際公開第2019/199701(WO,A1)
【文献】国際公開第2019/169174(WO,A1)
【文献】国際公開第2016/153896(WO,A1)
【文献】米国特許出願公開第2019/0110054(US,A1)
【文献】米国特許出願公開第2019/0075301(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00 - 19/98
(57)【特許請求の範囲】
【請求項1】
コンピュータで実行される方法であって:
フォワード経路とバックワード経路とを含むエンド・ツー・エンドの画像マッピング・パイプラインに対する入力として、元カラー・グレードの元画像と目的カラー・グレードの目的画像とを受信するステップ;
前記フォワード経路を、フォワード・ニューラル・ネットワークの複数のセットにより表される複数のサブ・ネットにパーティション化するステップであって、前記フォワード経路における前記複数のサブ・ネットの各々は、前記フォワード・ニューラル・ネットワークの複数のセットにおける、フォワード・ニューラル・ネットワークの対応するセットによって表される、ステップ;
前記バックワード経路を、バックワード・ニューラル・ネットワークの複数のセットにより表される複数のサブ・ネットにパーティション化するステップであって、前記バックワード経路における前記複数のサブ・ネットの各々は、前記バックワード・ニューラル・ネットワークの複数のセットにおける、バックワード・ニューラル・ネットワークの対応するセットによって表され、前記フォワード経路と前記バックワード経路は互いに連結されている、ステップ;
前記元カラー・グレードの元画像をフォワード・リシェイプし、前記目的カラー・グレードのフォワード・リシェイプされた画像を生成するために、前記フォワード経路において前記フォワード・ニューラル・ネットワークの複数のセットを適用するステップ;
前記目的カラー・グレードのフォワード・リシェイプされた画像をバックワード・リシェイプし、前記元カラー・グレードのバックワード・リシェイプされた画像を生成するために、前記バックワード経路において前記バックワード・ニューラル・ネットワークの複数のセットを適用するステップ;
前記フォワード経路と前記バックワード経路の双方に対して指定された同時ニューラル・ネットワーク・コスト関数を計算するステップであって、前記同時ニューラル・ネットワーク・コスト関数は、前記フォワード・リシェイプされた画像と前記目的画像との間の第1差分を計算したフォワード・コスト部分を含み、前記同時ニューラル・ネットワーク・コスト関数は、前記バックワード・リシェイプされた画像と前記元画像との間の第2差分を計算したバックワード・コスト部分を更に含む、ステップ;及び
前記同時ニューラル・ネットワーク・コスト関数を用いたバック・プロパゲーションにより、前記フォワード・ニューラル・ネットワークの複数のセットと前記バックワード・ニューラル・ネットワークの複数のセットに関する演算パラメータを決定するステップ;
を含み、前記フォワード・ニューラル・ネットワークの複数のセットは、前記元カラー・グレードの元画像を、複数の相次いで下がる品質の目的カラー・グレードに関する相次ぐフォワード・リシェイプされた画像のシーケンスに変換し、前記バックワード・ニューラル・ネットワークの複数のセットは、前記フォワード経路における相次ぐフォワード・リシェイプされた画像のシーケンスで最後に生成されたフォワード・リシェイプされた画像を、前記複数の目的カラー・グレードに関する複数のバックワード・リシェイプされた画像に変換し、前記フォワード経路における相次ぐフォワード・リシェイプされた画像のシーケンスで最後に生成されたフォワード・リシェイプされた画像と前記複数のバックワード・リシェイプされた画像は、前記同時ニューラル
・ネットワーク・コスト関数で使用される、方法。
【請求項2】
請求項1に記載された方法において、前記フォワード経路から生成された選択されたカラー・グレードの画像データを、画像メタデータとともにビデオ信号に符号化するステップを更に含み、前記画像メタデータは、その選択されたカラー・グレードの前記画像メタデータと前記画像データを用いて、前記選択されたカラー・グレードとは異なるカラー・グレードの再構成された画像データを生成することを、前記ビデオ信号の受信側デバイスに行わせるために、前記フォワード・ニューラル・ネットワークの複数のセット及び/又は前記バックワード・ニューラル・ネットワークの複数のセットのサブセットに関する演算パラメータ
のサブセットを少なくとも含む、方法。
【請求項3】
請求項2に記載の方法において、前記選択されたカラー・グレードは、前記フォワード経路から生成された他の全ての目的カラー・グレードのダイナミック・レンジより高いダイナミック・レンジの、及び/又は前記フォワード経路から生成された他の全ての目的カラー・グレードの色空間より大きな色空間の、選択された目的カラー・グレードである、方法。
【請求項4】
請求項2に記載の方法において、前記選択されたカラー・グレードは、前記フォワード経路から生成された他の全ての目的カラー・グレードのダイナミック・レンジより低いダイナミック・レンジの、及び/又は前記フォワード経路から生成された他の全ての目的カラー・グレードの色空間より小さな色空間の、選択された目的カラー・グレードである、方法。
【請求項5】
請求項2-4のうちの何れか1項に記載の方法において、前記画像メタデータは、前記バックワード・ニューラル・ネットワークの複数のセットに関する演算パラメータのみを含む、方法。
【請求項6】
請求項2-4のうちの何れか1項に記載の方法において、前記画像メタデータは、前記フォワード・ニューラル・ネットワークの複数のセットと前記バックワード・ニューラル・ネットワークの複数のセットの混合に関する演算パラメータを含む、方法。
【請求項7】
請求項2-6のうちの何れか1項に記載の方法において、前記ビデオ信号は、単層の後方互換性のある信号を表す、方法。
【請求項8】
請求項1-7のうちの何れか1項に記載の方法において、前記目的カラー・グレードのフォワード・リシェイプされた画像は、前記フォワード経路で最後に生成されたフォワード・リシェイプされた画像である、方法。
【請求項9】
請求項1-7のうちの何れか1項に記載の方法において、前記目的カラー・グレードのフォワード・リシェイプされた画像は、前記フォワード経路で
最後に生成され
たフォワード・リシェイプされた画像ではない、方法。
【請求項10】
請求項1-9のうちの何れか1項に記載の方法において、前記フォワード・ニューラル・ネットワークの複数のセットは、前記元カラー・グレードの元画像を、複数の目的カラー・グレードにおける複数の対応する画像に変換し;
前記複数の目的カラー・グレードは、様々な色空間を示す第1次元と様々なダイナミック・レンジを示す第2次元とを有する2次元グリッドを形成する、方法。
【請求項11】
請求項1-10のうちの何れか1項に記載の方法において、前記同時ニューラル・ネットワーク・コスト関数は、前記フォワード・コスト部分と前記バックワード・コスト部分との、重み付け係数による重み付けされた組み合わせとして形成される、方法。
【請求項12】
請求項11に記載の方法において、前記重み付け係数は、前記元カラー・グレードに対応する元カラー・グレード重み付け係数と、前記目的カラー・グレードに対応する目的カラー・グレード重み付け係数とを含む、方法。
【請求項13】
上流のビデオ・エンコーダで実現されるフォワード経路におけるフォワード・ニューラル・ネットワークの複数のセットから生成された目的カラー・グレードの画像データを、画像メタデータを伴うビデオ信号から復号化するステップであって、前記画像メタデータは、前記フォワード経路におけるフォワード・ニューラル・ネットワークの複数のセット、及び前記上流のビデオ・エンコーダで実現される対応するバックワード経路におけるバックワード・ニューラル・ネットワークの複数のセット、のサブセットに関する演算パラメータのサブセットを少なくとも含み、前記演算パラメータは請求項1-12のうちの何れか1項に記載の方法に従って決定されている、ステップ;
前記フォワード・ニューラル・ネットワークの複数のセット及び前記バックワード・ニューラル・ネットワークの複数のセットのサブセットを、前記演算パラメータのサブセットとともに、前記目的カラー・グレードの画像データに適用し、前記目的カラー・グレードとは異なるカラー・グレードの再構成された画像データを生成するステップ;
前記異なるカラー・グレードの再構成された画像データから導出される表示画像が、ディスプレイ・デバイスでレンダリングされることを引き起こすステップであって、前記目的カラー・グレードのフォワード・リシェイプされた画像を含む前記画像データは、前記複数の相次いで下がる品質の目的カラー・グレードに関するフォワード・ニューラル・ネットワークの複数のセットにより生成された相次ぐフォワード・リシェイプされた画像のシーケンスの中から選択される、方法。
【請求項14】
請求項1-13のうちの何れか1項に記載の方法を実行するように構成されたプロセッサを含むシステム。
【請求項15】
演算デバイス又はシステムにより実行されると、請求項1-13のうちの何れか1項に記載の方法を前記演算デバイス又はシステムに実行させる命令を有するコンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[0001] 関連出願の相互参照
本件は、米国仮出願第62/978,638号及び欧州特許出願第20158278.0号の優先権を主張しており、両者は2020年2月19日付で出願されており、各出願は全体的に参照により援用されている。
【0002】
[0002] 技術分野
本開示は一般に画像処理演算に関連する。より詳細には、本開示の実施形態はビデオ・コーデックに関連する。
【背景技術】
【0003】
[0003] 本件で使用される場合、用語「ダイナミック・レンジ」(DR)は、例えば最も暗い黒(darks)から最も明るい白(highlights)までの、画像における強度の範囲(例えば、ルミナンス、ルマ)を知覚する人間の視覚系(HVS)の能力に関連している可能性がある。この意味において、DRは「シーン参照(scene-referred)」強度に関連する。また、DRは、特定の幅の強度範囲を適切に又は近似的にレンダリングする表示装置の能力にも関連している可能性がある。この意味において、DRは「ディスプレイ参照(display-referred)」強度に関連する。本件の説明中の何らかの箇所で特定の意味を有するように特定の意味が明示的に指定されていない限り、その用語は、何れの意味においても、例えば交換可能に使用されてもよい、ということが推察されるはずである。
【0004】
[0004] 本件で使用される場合、用語「高ダイナミック・レンジ(HDR)」は、人間の視覚系(HVS)のおよそ14~15倍以上のオーダーに及ぶDR幅に関連する。実際には、人間が強度範囲内で広い範囲を同時に知覚できるDRは、HDRとの関係で幾らか打ち切られる可能性がある。本件で使用される場合、エンハンスト・ダイナミック・レンジ(EDR)又は視覚ダイナミック・レンジ(VDR)という用語は、シーン又は画像を横切る何らかの光順応変化を可能にする、眼球運動を含む人間の視覚系(HVS)によってシーン又は画像内で知覚可能なDRに個別的に又は交換可能に関連する可能性がある。本件で使用される場合、EDRは、5~6倍のオーダーの大きさに及ぶDRに関連する可能性がある。HDRに関する真のシーンとの関係ではおそらくある程度狭いが、それでもEDRは広いDR幅を表し、HDRと言及される場合がある。
【0005】
[0005] 実際には、画像は、色空間の1つ以上のカラー成分(例えば、ルマYとクロマCb及びCr)を含み、ここで、各々のカラー成分は、ピクセル当たりnビットの精度(例えば、n=8)によって表現される。非線形輝度符号化(例えば、ガンマ符号化)を用いると、n≦8(例えば、カラーの24ビットJPEG画像)の画像は標準ダイナミック・レンジの画像と考えられる一方、n>8の画像はエンハンスト・ダイナミック・レンジの画像と考えられてもよい。
【0006】
[0006] 所与のディスプレイに関する基準電気-光学伝達関数(EOTF)は、ディスプレイによって生成されるスクリーン・カラー値(例えば、スクリーン輝度)に対する、入力ビデオ信号のカラー値(例えば、輝度)の関係を特徴付ける。例えば、ITU Rec. ITU-R BT. 1886 「HDTVスタジオ制作で使用されるフラット・パネル・ディスプレイのための基準電気-光学伝達関数」(2011年3月)は、フラット・パネル・ディスプレイに関する基準EOTFを定義しており、その全体が参照により本件に組み込まれる。所与のビデオ・ストリームに関し、そのEOTFに関する情報は(画像)メタデータとしてビットストリームに埋め込まれてもよい。本件における用語「メタデータ」は、符号化されたビットストリームの一部として送信される任意の補助情報に関連し、デコーダが、復号化された画像をレンダリングすることを支援する。そのようなメタデータは、本件で説明されるもののように、色空間又は色域情報、参照表示パラメータ、及び補助信号パラメータを含む可能性があるが、これらに限定されない。
【0007】
[0007] 本件で使用される用語「PQ」は、知覚的輝度振幅量子化を指す(perceptual luminance amplitude quantization)。人間の視覚系は、光レベルの増加に非常に非線形な仕方で応答する。刺激をとらえる人間の能力は、その刺激の輝度、刺激のサイズ、刺激を構成する空間周波数、及び刺激を眺めている特定の時点で眼が適応した輝度レベル、によって影響を受ける。一部の形態では、知覚量子化機能は、線形入力グレー・レベルを、出力グレー・レベルであって人間の視覚系においてコントラスト感度閾値により良くマッチングする出力グレー・レベルにマッピングする。例示的なPQマッピング機能は、SMPTE ST 2084:2014「マスタリング基準ディスプレイの高ダイナミック・レンジEOTF」に記載されており(以下、「SMPTE」という)、これは参照により全体的に本件に援用されており、その場合において、一定の刺激サイズが与えられた場合に、各々の輝度レベル(例えば、刺激レベルなど)に関し、その輝度レベルで目に見える最も小さなコントラスト・ステップは、最も感度の高い順応レベル及び最も感度の高い空間周波数に従って(HVSモデルに従って)選択される。
【0008】
[0008] 200ないし1,000cd/m2又はニト(nits)の輝度をサポートするディスプレイは、EDR(又はHDR)に関連して、標準ダイナミック・レンジ(SDR)とも呼ばれる、より低いダイナミック・レンジ(LDR)を典型的に示している。EDRの内容は、より高いダイナミック・レンジ(例えば、1000ニトないし5000ニト以上)をサポートするEDRディスプレイで表示することが可能である。そのようなディスプレイは、高輝度能力(例えば、0ないし10,000ニト以上)をサポートする代替的なEOTFを使用して定義されることが可能である。そのようなEOTFの例は、SMPTE 2084及びRec. ITU-R BT.2100, “Image parameter values for high dynamic range television for use in production and international programme exchange,” (06/2017)で規定されている。本件の発明者等によって認識されているように、広範なSDR及びHDRディスプレイ・デバイスの表示能力をサポートするために使用することが可能な、ビデオ・コンテンツ・データを構成するための改良された技術が望まれている。
【0009】
[0009] このセクションに記載されるアプローチは、追跡することが可能なアプローチであるが、必ずしも過去に案出又は追跡されたアプローチであるとは限らない。従って、別段の指定がない限り、本セクションに記載されている如何なるアプローチも、単に本セクションに含まれているという理由だけで先行技術として適格である、と仮定されるべきではない。同様に、1つ以上のアプローチに関して特定された問題は、別段の指定がない限り、本セクションに基づいて何らかの先行技術において認識されているものと仮定されるべきではない。
【図面の簡単な説明】
【0010】
<00010> 本発明の実施形態は、添付図面の図中において、限定ではなく例示として示されており、同様な参照番号は同様な要素を指し示している。
【
図1】[0010]
図1は、ビデオ配信パイプラインの例示的なプロセスを示す。
【
図2A】[0011]
図2Aは、単層の後方互換性コーディング(SLBC)のための例示的なフォワード&バックワード同時最適化フレームワークを示す。
【
図2B】
図2Bは、プログレッシブSLBCコーディング又は単層プログレッシブ・コーディング(SLPC)のための例示的なフォワード&バックワード同時最適化フレームワークを示す。
【
図3A】[0012]
図3Aないし3Eは、フォワード&バックワード経路の同時最適化の一例を示す。
【
図3B】
図3Bは、フォワード&バックワード経路の同時最適化の一例を示す。
【
図3C】
図3Cは、フォワード&バックワード経路の同時最適化の一例を示す。
【
図3D】
図3Dは、フォワード&バックワード経路の同時最適化の一例を示す。
【
図3E】
図3Eは、フォワード&バックワード経路の同時最適化の一例を示す。
【
図4A】[0013]
図4Aは、例示的なプロセス・フローを示す。
【
図5】[0014]
図5は、本件で説明されるコンピュータ又は演算デバイスが実装される可能性のある例示的なハードウェア・プラット・フォームの簡略化されたブロック図を示す。
【発明を実施するための形態】
【0011】
[0015] 以下の説明において、説明の目的のために、本開示の完全な理解をもたらすために、多数の具体的な詳細が述べられている。しかしながら、本開示は、これらの具体的な詳細によらずに実施されてもよい、ということは明らかであろう。他の例では、本開示を不必要に見えにくくしたり、不明瞭化したり、又は曖昧にしたりしてしまうことを避けるために、周知の構造やデバイスは、審らかに詳細には説明されていない。
【0012】
[0016] 概 要
フォワード&バックワード・ニューラル・ネットワークの同時最適化フレームワークが本件で説明される。このフレームワークは、単層の後方互換性(single-layer backward compatible, SLBC)コーデックをサポートするものを含むが、これに限定されない、広範なビデオ配信及びディスプレイ・アプリケーションで実現することができる。
【0013】
[0017] 幾つかのアプローチの下では、元の(source)(例えば、HDR等)カラー・グレードからフォワード・リシェイプされた(例えば、SDR等)カラー・グレードを生成するフォワード・リシェイプ経路と、目的の(destination)又は元の(例えば、SDR、HDR等)カラー・グレードに対して再構成された画像を生成するバックワード・リシェイプ経路とは、別々に最適化される。例えば、元カラー・グレードを目的カラー・グレードにマッピングするエンコーダ側でフォワード・マッピングを生成する場合、デコーダ側でのバックワード・マッピングによって目的カラー・グレードから逆マッピングされる元グレードに対する品質考慮は、フォワード・マッピングのための最適化問題定式化に組み込まれていない。従って、フォワード・マッピングは最適化されるかもしれないが、バックワード・マッピングは最適化されない可能性がある。
【0014】
[0018] フォワード及びバックワード・リシェイプ経路における個々の最適化(又は個別的な最適化)は、フォワード及びバックワード・リシェイプ経路における様々なカラー・グレード間のマッピングに使用されるルマ及びクロマ画像コンテンツ・マッピングにおける、高度に非線形な構造(例えば、8個の2次多項式のセット等)に照らせば有益であるかもしれない。しかしながら、フォワード及びバックワード・リシェイプ経路における別々の最適化は、フォワード及びバックワード・リシェイプ経路の両方を組み合わせたエンド・ツー・エンドの最適化問題を構築することを比較的困難にし、エンド・ツー・エンドの最適化問題に対する閉じた形式の解を生成することをなおさら困難にする可能性がある。フォワード及びバックワード・リシェイプ経路における別々の最適化はまた、フォワード・リシェイプ経路とバックワード・リシェイプ経路との間の所望のトレードオフを取り決めることを困難にする可能性もある。結果として、別々に最適化されたフォワード及びバックワード・リシェイプ経路の両方から予測された(例えば、SDR、HDR等の)画像は、準最適なものである可能性がある。
【0015】
[0019] 対照的に、本件で説明される技術の下では、ニューラル・ネットワークが普遍的な関数近似装置であるという事実を利用して、フォワード及びバックワード経路の各々における非常に良好なフィッティングを提供するために、ニューラル・ネットワーク・ベースの解を活用することができる。更に、ニューラル・ネットワークの層ごとの構造を用いて、フォワード及びバックワード経路の両方を一緒に連結して、フォワード及びバックワード経路の両方におけるニューラル・ネットワークを含むエンド・ツー・エンドのビデオ配信及び/又は消費システムを形成することができる。フォワード経路及びバックワード経路の同時最適化アプローチの下で、バックワード経路からのエラー又はコストのようなフィードバックを、フォワード経路に提供することが可能である。フォワード及びバックワード経路の同時最適化問題におけるコスト関数(又は損失関数)は、フォワード・リシェイプ経路からの及びバックワード・リシェイプからの個々のコスト寄与(又は個々の損失寄与)で構成する仕方で設定されることが可能である。損失関数におけるこれらの個々のコスト寄与は、所望のトレードオフに従ってフォワード及びバックワード経路の品質を調整するように、様々な重み付け因子で割り当てられたり又は重み付けされたりすることが可能である。結果として、エンド・ツー・エンドのビデオ配信及び/又は消費システムで使用されるこれらのニューラル・ネットワークに関する演算パラメータは、連結されたフォワード及びバックワード経路の同時最適化問題に対する全体的な解として獲得することが可能である。
【0016】
[0020] 追加的、オプション的又は代替的に、これらの技術の全部又は一部は、様々な画像処理/レンダリング・アプリケーションをカバーするように、例えば、単層プログレッシブ(single-layer progressive, SLPC)コーデックが、ニューラル・ネットワークに基づく解を組み込んで、複数の異なるカラー・グレードに関してビデオ品質を最適化するように、拡張されることが可能である。
【0017】
[0021] 本件で説明されるようなニューラル・ネットワークは、異なるダイナミック・レンジ・レベル、異なる色空間(又は異なる色域)などにおいて、同じシーン(又は同じ意味内容)を描写する一組の対応する画像を生成するために使用されることが可能である。同時最適化フレームワークの下で生成された演算パラメータを有するこれらのニューラル・ネットワークの全部又は一部を使用して、対応する画像のセット内の1つの画像を、対応する画像の同じセット内の他の画像にマッピングすることが可能である。
【0018】
[0022] 異なるダイナミック・レンジ・レベル、異なる色空間サイズ(又は異なる色域)等の対応する画像のセットにおける、特定のダイナミック・レンジ・レベル、特定の色空間(又は特定の色域)の画像は、フォワード及び/又はバックワード・ニューラル・ネットワークの全部又は一部の演算パラメータの全部又は一部を指定する画像メタデータとともに、コーディングされたビットストリームにおけるベース・レイヤ(BL)画像データとしてコーディングされてもよい。ベース・レイヤ(BL)画像データ及び画像メタデータは、受信側の復号化及び再生デバイスに提供されることが可能であり、これらは、特定のダイナミック・レンジ・レベル、特定の色空間などにおいて画像をレンダリングすることをサポートしているディスプレイ上で、復号化した後にBL画像データを直接的にレンダリングすることができる。追加的、オプション的又は代替的に、BL画像データ及び画像メタデータは、受信側の復号化及び再生デバイスに提供されることが可能であり、これらは、復号化されたBL画像データ及び画像メタデータから、異なるダイナミック・レンジ・レベル、異なる色空間(又は異なる色域)で画像データを再構成し、異なるダイナミック・レンジ・レベル、異なる色空間(又は異なる色域)で画像をレンダリングすることをサポートしているディスプレイ上で、再構成された画像データをレンダリングすることができる。
【0019】
[0023] その結果、ある表示デバイスでレンダリングするためのコーディングされたビット・ストリームにおいてコーディングされている画像データが、他の表示デバイスのために特別にコーディングされた他の画像データを、コーディングされたビット・ストリームに含めることを必要とせずに、他の表示デバイスでレンダリングするための再構成された画像データを生成するために使用されることが可能である。従って、広範な画像レンダリング能力を有する広範な多様な表示デバイス・タイプを、本件で説明される技術の下で生成されるコーディングされたストリームによってサポートすることが可能である。
【0020】
[0024] 本件で説明される例示的な実施形態は、画像再構成のための画像メタデータを生成して符号化することに関する。元カラー・グレードの元画像(source image)と目的カラー・グレードの目的画像(destination image)は、1つ以上のフォワード・ニューラル・ネットワークを含むフォワード経路と、バックワード・ニューラル・ネットワークを含むバックワード経路とを含むエンド・ツー・エンド画像マッピング・パイプラインに対する入力として受信される。フォワード経路における1つ以上のフォワード・ニューラル・ネットワークは、元カラー・グレードの元画像をフォワード・リシェイプして(forward reshape)、目的カラー・グレードのフォワード・リシェイプされた画像を生成するために適用される。バックワード経路における1つ以上のバックワード・ニューラル・ネットワークは、目的カラー・グレードのフォワード・リシェイプされた画像をバックワード・リシェイプして(backward reshape)、元カラー・グレードのバックワード・リシェイプされた画像を生成するために適用される。フォワード経路とバックワード経路に対して(ジョイント)ニューラル・ネットワーク・コスト関数が指定される。ニューラル・ネットワーク・コスト関数は、フォワード・リシェイプされた画像と目的画像との間の第1差分を計算したフォワード・コスト部分(例えば、フォワード・コスト項)と、バックワード・リシェイプされた画像と元画像との間の第2差分を計算したバックワード・コスト部分(例えば、バックワード・コスト項)とを含む。1つ以上のフォワード・ニューラル・ネットワークに関する、及び1つ以上のバックワード・ニューラル・ネットワークに関する演算パラメータは、ニューラル・ネットワーク・コスト関数を使用するバック・プロパゲーション(又は逆伝搬)によって、例えば、ニューラル・ネットワーク・コスト関数の出力としてコストを計算し、計算したコストをバック・プロパゲーションで使用することによって、決定される。オプションとして、フォワード経路から生成されるような、選択されたカラー・グレードの画像データは、画像メタデータと共にビデオ信号内に符号化される。画像メタデータは、1つ以上のフォワード・ニューラル・ネットワーク及び/又は1つ以上のバックワード・ニューラル・ネットワークのサブセットに対する演算パラメータのサブセットを少なくとも含む。これは、ビデオ信号の受信側デバイスが、選択されたカラー・グレードの画像メタデータ及び画像データを使用して、異なるカラー・グレードの再構成された画像データを生成することを可能にする。
【0021】
[0025] 本件で説明される例示的な実施形態は、画像の再構成及びレンダリングのための画像メタデータを復号化することに関連する。上流のビデオ・エンコーダに実装されたフォワード経路から生成されたカラー・グレードの画像データは、画像メタデータとともにビデオ信号から復号化される。画像メタデータは、フォワード経路における1つ以上のフォワード・ニューラル・ネットワークの、及び/又は上流のエンコーダに実装された対応するバックワード経路における1つ以上のバックワード・ニューラル・ネットワークの、サブセットに対する演算パラメータのサブセットを少なくとも含む。演算パラメータのサブセットを有する1つ以上のフォワード・ニューラル・ネットワーク及び/又は1つ以上のバックワード・ニューラル・ネットワークのサブセットは、カラー・グレードの画像データに適用され、異なるカラー・グレードの再構成された画像データを生成する。異なるカラー・グレードの再構成された画像から導出された表示画像は、表示デバイスを用いてレンダリングされる。
【0022】
[0026]
ビデオ配信処理パイプラインの具体例
図1は、ビデオのキャプチャからビデオ・コンテンツ表示までの様々な段階を示すビデオ配信パイプライン(100)の例示的なプロセスを示す。一連のビデオ・フレーム(102)は、画像生成ブロック(105)を用いて捕捉されるか又は生成される。ビデオ・フレーム(102)は、ビデオ・データ(107)を提供するために、デジタル的に(例えば、デジタル・カメラなどによって)キャプチャされてもよいし、又はコンピュータによって(例えば、コンピュータ・アニメーションなどを使用して)生成されてもよい。追加的、オプション的又は代替的に、ビデオ・フレーム(102)は、フィルム式カメラによってフィルムで捕捉されてもよい。フィルムは、ビデオ・データ(107)を提供するためにデジタル・フォーマットに変換されることが可能である。制作段階(110)では、ビデオ・データ(107)は、ビデオ制作ストリーム(112)を提供するように編集される。
【0023】
[0027] 次いで、制作ストリーム(112)のビデオ・データが、ポスト制作編集(115)のためにプロセッサに提供される。ポスト制作編集(115)は、画像の特定の領域における色又は輝度を調整又は修正して、ビデオ作成者の創作意図に従って画質を向上させたり画像の特定の外観を達成したりすることを含む可能性がある。これは、「カラー・タイミング(color timing)」又は「カラー・グレーディング(color grading)」と呼ばれることがある。その他の編集(例えば、シーン選択及びシーケンス化、手動及び/又は自動シーン・カット情報生成、画像クロッピング、コンピュータで生成された視覚的特殊効果の追加など)が、ポスト制作編集(115)で実行され、コンテンツ・マッピング及び/又はカラー・グレーディングを通じて画像の1つ、2つ、又はそれ以上のカラー・グレードを生じさせてもよい。これらのカラー・グレードは、同一のシーン又は意味内容を描写するが、以下における1つ以上:異なるダイナミック・レンジ・レベル、異なる色空間、異なるEOTF、異なる色空間タイプ等、において相違する可能性がある対応する画像のセットを含む。
【0024】
[0028] カラー・グレードは、元カラー・グレード(source color grade)及び1つ以上の目的カラー・グレード(destination color grade)を含む可能性がある。元カラー・グレード及び目的カラー・グレードの各々は、同じセットの視覚的なシーン又は意味内容を描写している。目的カラー・グレードは、手動で、自動で、又は手動及び自動画像処理操作の組み合わせで、実行されるコンテンツ・マッピング及び/又はカラー・グレーディングを通じて、元カラー・グレードから導出されることが可能である。幾つかの運用シナリオでは、ポスト制作編集(115)の間に、画像のカラー・グレードの全部又は一部が、様々な参照ディスプレイ上で例えばカラーリスト達によって眺められてカラー・グレーディングを施され、様々な参照ディスプレイは、異なるダイナミック・レンジ・レベル、異なる色空間、異なるEOTF、異なる色空間タイプ等での画像のレンダリングをそれぞれサポート(例えば、指示)している。
【0025】
[0029] 例示のみを目的として、カラー・グレードは、HDR画像(117-1)又はSDR (又は比較的狭いダイナミック・レンジ)画像(117)(例えば、SDRなど)のカラー・グレードを含む。SDR画像(117)は、HDR画像(117-1)からマッピングされたコンテンツであってもよい。幾つかの実施態様において、ポスト制作編集(115)の間に、HDR画像(117-1)は、HDR画像(117-1)に関してポスト制作編集操作を実行しているカラーリストによって、高ダイナミック・レンジをサポートしている参照HDRディスプレイ上で眺められる。追加的、オプション的又は代替的に、ポスト制作編集(115)の間に、SDR画像(117)は、SDR画像(117)に関してポスト制作編集操作を実行しているカラーリストによって、標準ダイナミック・レンジ(又は比較的狭いダイナミック・レンジ)をサポートしている参照ディスプレイ(125)上で眺められる。
【0026】
[0030] コーディング・ブロック(120)は、本件で説明されるように、全部又は一部のフォワード及びバックワード・ニューラル・ネットワーク同時最適化演算を実施して、画像の元カラー・グレードと目的カラー・グレードとの間又はそれらの間でマッピングを行うために使用されるフォワード及び/又はバックワード・ニューラル・ネットワークのための演算パラメータの複数のセットを生成することができる。フォワード・リシェイプされたSDR画像は、コーディング・ブロック(120)によって、コーディングされたビットストリーム(122)に圧縮/符号化されることが可能である。フォワード及び/又はバックワード・ニューラル・ネットワークのための演算パラメータの複数のセットは、画像メタデータの一部として、同一のコーディングされたビットストリームに含まれるか又は符号化されてもよい。
【0027】
[0031] 限定ではなく例示として、HDR画像(117-1)は元カラー・グレードを表現する可能性がある一方、SDR画像(117)は目的カラー・グレードの1つを表現する可能性がある。コーディング・ブロック(120)は、ポスト制作編集(115)からHDR画像(117-1)を受信し、HDR画像(117-1)を、(フォワード)リシェイプされたSDR画像にフォワード・リシェイプする。フォワード・リシェイプされたSDR画像は、カラー・グレーディング操作によって、SDR画像(117)に密接に近づくことができる。コーディング・ブロック(120)は、SDR画像(フォワード・リシェイプされたSDR画像など)と画像メタデータとを含むコーディングされたビットストリームを生成し、画像メタデータは、SDR画像からHDR画像を再構成するために、コーディングされたビットストリームの受信側デバイスによって使用されるニューラル・ネットワークのための一組の演算パラメータを含む。
【0028】
[0032] コーディング・ブロック(120)は、コーディングされたビットストリーム(122)を生成するために、ATSC、DVB、DVD、Blu-Ray、及びその他の配信フォーマットによって定義されるもののようなオーディオ及びビデオ・エンコーダを含む可能性がある。
【0029】
[0033] 幾つかの動作シナリオでは、コーディング・ビットストリーム(122)は、広範なSDRディスプレイ・デバイス(例えば、SDRディスプレイなど)と後方互換性のあるビデオ信号(例えば、8ビットSDRビデオ信号、10ビットSDRビデオ信号など)を表す可能性がある。非限定的な例において、リシェイプされたSDR画像で符号化されたビデオ信号は、単一層の後方互換性のあるビデオ信号であってもよい。本件において、「単一層の後方互換性のあるビデオ信号」は、単一信号層におけるSDRディスプレイ用に特に最適化又はカラー・グレーディングされたSDR画像を搬送するビデオ信号を指す可能性がある。例示的な単一層ビデオ・コーディング動作は、米国特許出願公開第2019/0110054号, “Encoding and decoding reversible production-quality single-layer video signals,” by G-M. Su et al.,で説明されており、その内容全体はあたかも本件で完全に記載されているかのように参照により援用される。
【0030】
[0034] フォワード及び/又はバックワード・ニューラル・ネットワークのための演算パラメータの複数のセットは、復号化され、ビデオ信号又はコーディングされたビットストリームの受信側デバイスによる予測演算で使用されて、他のカラー・グレードの再構成された画像を、1つのカラー・グレードの復号化された画像から生成することができる。(上流の)コーディング・ブロック(120)によって生成されるように、フォワード及び/又はバックワード・ニューラル・ネットワークに対する演算パラメータの複数のセットを用いた予測演算(例えば、バックワード再整形演算、逆トーンマッピング演算など)を用いることで、再構成される画像に対して1つ以上の異なるビデオ品質レベルを生成することができる。これらの異なるビデオ品質レベルは、エンコーダ側の1つ以上の異なるカラー・グレード(例えば、元カラー・グレード及び/又は目的カラー・グレードなど)にそれぞれ対応してもよい。
【0031】
[0035] 幾つかの動作シナリオでは、復号化された画像は、SDR画像であって、カラー・グレーディングされたSDR画像(117-1)に近づくように、カラー・グレーディングされたHDR画像(117-1)から、上流のビデオ・エンコーダ(例えば、コーディング・ブロック(120)など)によってフォワード・リシェイプされたSDR画像を表現する。再構成された画像は、コーディングされたビットストリーム(122)で送信された画像メタデータ中の対応する演算パラメータ・セットとともにニューラル・ネットワークを用いて、復号化された画像から生成されたものであり、これは、エンコーダ側におけるカラー・グレーディングされたHDR画像(117-1)を近似するHDR画像を表す。
【0032】
[0036] 幾つかの動作シナリオでは、コーディングされたビットストリーム(例えば、122など)を生成する目的で、ビデオ符号化(例えば、符号化ブロック(120)など)に対する入力として機能する(又は与えられる)(入力)カラー・グレードは、特定の順序で並べられるか又は配置されてもよい。例えば、カラー・グレードのうちの1つは、(例えば、順序付けられたりしている)フォワード・ニューラル・ネットワークのシーケンスに対する入力又は開始点として機能する元カラー・グレードとして指定されてもよい。残りの(入力)カラー・グレードは、目的カラー・グレードのシーケンスに順序付けられてもよい。元カラー・グレードは、フォワード・ニューラル・ネットワークのシーケンスによってフォワード・リシェイプされて、目的カラー・グレードのシーケンスに対応するフォワード・リシェイプされたカラー・グレードのシーケンスを生成することができる。フォワード・リシェイプされたカラー・グレードのシーケンスにおけるフォワード・リシェイプされたカラー・グレードの各々は、目的カラー・グレードのシーケンスにおける個々の目的カラー・グレードに対応する(又は同じである)。本件で使用される場合、「フォワード・ニューラル・ネットワーク」は、<与えられた元カラー・グレード>又は<先行するフォワード・リシェイプされたカラー・グレード>の何れかを、フォワード・リシェイプされたカラー・グレードにリシェイプ又は変換するフォワード・ニューラル・ネットワークのシーケンス内のニューラル・ネットワークを指す。
【0033】
[0037] フォワード・ニューラル・ネットワークのシーケンスは、目的及び元カラー・グレードの画像を再構成するためのバックワード・ニューラル・ネットワークの対応するシーケンスに続くことが可能である。バックワード・ニューラル・ネットワークとは、<フォワード・ニューラル・ネットワークによって出力されたフォワード・リシェイプされた画像>又は<先行するバックワード・リシェイプされた画像>の何れかを 変換又はバックワード・リシェイプして、目的カラー・グレード又は元カラー・グレードの画像を近似する再構成された(又はバックワード・リシェイプされた)画像を生成するニューラル・ネットワークを指す。幾つかの動作シナリオでは、フォワード・ニューラル・ネットワークのシーケンスは、元カラー・グレードを、目的カラー・グレードのシーケンスを近似するフォワード・リシェイプされたカラー・グレードのシーケンスに、順に変換又はフォワード・リシェイプするが、バックワード・ニューラル・ネットワークの対応するシーケンスは、フォワード・ニューラル・ネットワークのシーケンスからの出力を、目的カラー・グレード及び元カラー・グレードの画像を近似する再構成された画像に、順に再構成又はバックワード・リシェイプする。
【0034】
[0038] 例示的なリシェイプ動作は、米国特許第10,080,026号, “Signal reshaping approximation,” by G-M. Su et al.,に記載されており、その内容全体はあたかも本件で完全に記載されているかのように参照により援用される。
【0035】
[0039] 追加的、オプション的又は代替的に、コーディングされたビット・ストリーム(122)は、表示管理(DM)メタデータを含むがこれに限定されない追加的な画像メタデータとともに符号化され、メタデータは、下流のデコーダによって使用されて、復号化された画像又はバックワード・リシェイプされた画像に関して表示管理処理を実行し、ターゲット・ディスプレイでレンダリングするために最適化された表示画像を生成することが可能である。
【0036】
[0040] 次いで、コーディングされたビットストリーム(122)は、復号化及び再生デバイス、メディア・ソース・デバイス、メディア・ストリーミング・クライアント・デバイス、テレビジョン・セット(例えば、スマートTV等)、セット・トップ・ボックス、映画館などのような下流の受信機へ配信される。受信機(又は下流のデバイス)において、コーディングされたビットストリーム(122)は、復号化ブロック(130)によって復号化され、復号化された画像182を生成し、その画像は、コーディング・ブロック(120)によってビットストリーム(122)に符号化された画像(例えば、フォワード・リシェイプされたSDR画像など)であって、コーディング・ブロック(120)によって実行された圧縮、及び復号化ブロック(130)によって実行された圧縮解除、において生じた量子化誤差の影響を受けたものと同じである可能性がある。
【0037】
[0041] 受信機が、復号化された画像(182)をレンダリングすることをサポートしているターゲット・ディスプレイ(140)を用いて(又はそれに取り付けられるか、又は動作可能にリンクされて)動作する動作シナリオにおいて、復号化ブロック(130)は、コーディングされたビットストリーム(122)から画像(182)を復号化し、復号化された画像(182)(例えば、フォワード・リシェイプされたSDR画像など)を、ターゲット・ディスプレイ(140)で直接的又は間接的にレンダリングするために使用することができる。
【0038】
[0042] 幾つかの動作シナリオでは、ターゲット・ディスプレイ(140)は、SDRリファレンス・ディスプレイ(125)と同様の特性を有するものであり、復号化された画像(182)は、ターゲット・ディスプレイ(140)で直接的に視聴可能なフォワード・リシェイプされたSDR画像である。
【0039】
[0043] 幾つかの実施形態では、受信機は、復号化された画像(182)が最適化されていたリファレンス・ディスプレイのものとは異なる表示能力を有するターゲット・ディスプレイを用いて(又はそれに取り付けられるか、又は動作可能にリンクされて)動作する。画像メタデータ(又はコンポーザー・メタデータ(composer metadata))内のフォワード及び/又はバックワード・ニューラル・ネットワークのための演算パラメータのうちの全部又は一部は、ターゲット・ディスプレイのために最適化される画像を、復号化された画像(182)から構成又は再構成するために使用されることが可能である。
【0040】
[0044] 例えば、受信機は、復号化された画像(182)よりも高いダイナミック・レンジ(例えば、100ニト、200ニト、300ニト、500ニト、1,000ニト、4,000ニト、10,000ニト以上)をサポートするHDRターゲット・ディスプレイ140-1とともに動作する可能性がある。受信機は、画像メタデータを、コーディングされたビットストリーム(122)から(例えば、その中のメタデータ・コンテナから)抽出し、画像メタデータ(又はコンポーザー・メタデータ)中のフォワード及び/又はバックワード・ニューラル・ネットワークのための演算パラメータの複数のセットを使用して、フォワード・リシェイプされたSDR画像のような復号化された画像(182)から画像132-1を構成又は再構成することができる。
【0041】
[0045] 幾つかの動作シナリオでは、再構成された画像(132-1)は、受信機と共に動作するHDRターゲット・ディスプレイと同じか、又はそれに匹敵するHDR(例えば、リファレンス)ディスプレイ上で眺めるのに最適化された再構成されたHDR画像を表す。受信機は、再構成された画像(132-1)を、HDRターゲット・ディスプレイでレンダリングするために直接的に使用することが可能である。
【0042】
[0046] 幾つかの動作シナリオにおいて、再構成された画像(132-1)は、受信機と共に動作するHDRターゲット・ディスプレイ(140-1)と同じではないHDR(例えば、リファレンス)ディスプレイ上で眺めるのに最適化された再構成されたHDR画像を表す。受信機、HDRターゲット・ディスプレイ(140-1)、又は別のデバイスの中にある可能性のある表示管理ブロック(135-1など)は、HDRターゲット・ディスプレイ(140-1)の特性に適合した表示マップ信号(display-mapped signal)(137-1)を生成することにより、再構成された画像(132-1)を、HDRターゲット・ディスプレイ(140-1)の特性に更に調整する。表示画像又は調整された再構成された画像は、HDRターゲット・ディスプレイ(140-1)においてレンダリングされる可能性がある。
[0047] SLBCのための同時最適化フレームワーク
別個の最適化アプローチの下で、フォワード・リシェイプ化(例えば、頻繁に多対1のHDR-to-SDRマッピングを行うこと)を用いたソースHDR画像からの予測されたSDR画像は、ソースHDR画像に関して視覚的なアーチファクトを比較的含まない可能性がある。しかしながら、復号化されたSDR画像をバックワード・リシェイプすることにより予測された/再構成されたHDR画像(例えば、頻繁に1対多のSDR-to-HDRマッピングを行うことによるもの)は、圧縮/符号化及び非圧縮化/復号化において導入される量子化又は符号化エラーの影響を受けた予測SDR画像と同一である可能性があり、これは、ソースHDR画像又は復号化されたSDR画像の何れかに関して、視覚的アーチファクトを比較的含んでいる傾向があるかもしれない。バックワード・リシェイプからのこれらのアーチファクトは、SDRピクセル値を、不正確なHDRピクセル値にマッピングするバックワード・リシェイプにおける1対多のSDR-to-HDRマッピングに起因する。これらの視覚的アーチファクトは、フォワード及びバックワード経路が別々に最適化されたままである限り、ニューラル・ネットワークを普遍的な関数近似器として使用する場合でさえ防ぐことができない可能性がある。
【0043】
[0048] 対照的に、本件で説明されるようなフォワード及びバックワード同時最適化アプローチの下では、フォワード経路からバックワード経路への(全体的な)エンド・ツー・エンドのマッピングが1対1である(又は、そのそれに近接する)ことを保証するために、コスト関数を使用することが可能である。従って、本件で説明される技術の下では、ソース・ピクセルは、フォワード及びバックワード経路の両方を含むこのエンド・ツー・エンド・システム又はパイプラインを通じて、元の値に戻るように誘導することが可能である。限定ではない例示として、SLBCコーデックがニューラル・ネットワーク・ベースの解を組み込むことを可能にするために、フォワード及びバックワード同時最適化技術を適用することが可能である。
【0044】
[0049]
図2Aは、SLBCコーディングのための例示的なフォワード及びバックワード同時最適化フレームワークを示す。このフレームワークは、ビデオ・エンコーダ、ビデオ・トランスコーダ、ビデオ・ストリーミング・サーバーなどのうちの1つ以上でSLBCコーデックとともに実装される可能性があるが、これらに限定されない。図示されるように、SLBCコーデックによって受信される入力(例えば、
図1のコーディング・ブロック(120)など)は、元カラー・グレード(「Src Grade(YCbCr 444)」として示されており、ここで、「YCbCr」及び「444」はそれぞれ元カラー・グレードの色空間及びカラー・サンプリング・フォーマットを示している)と、目的カラー・グレード(「Dst Grade(YCbCr 444)」として示されており、ここで、「YCbCr」及び「444」はそれぞれ目的カラー・グレードの色空間及びカラー・サンプリング・フォーマットを示している)とにそれぞれ属する異なる2種類の入力画像を含むことが可能である。
【0045】
[0050] 例示のみを目的として、SLBCコーデックに対する入力画像は、元カラー・グレード(例えば、HDRカラー・グレードなど)の入力画像としてのHDR画像と、目的カラー・グレード(例えば、SDRカラー・グレードなど)の入力画像としてのSDR画像とを含むことが可能である。SDR画像とHDR画像双方は、同じシーン(又は同じ視覚的な意味内容)であるが、異なるダイナミック・レンジのような異なる品質レベルで描写している。
【0046】
[0051] 同時最適化フレームワークは、SLBCコーデックが、(1)元カラー・グレードの入力画像(又は目下の例におけるHDR画像)を、目的カラー・グレードに対応する(又はそれと同じ)フォワード・リシェイプ・カラー・グレードのフォワード・リシェイプされた画像(例えば、フォワード・リシェイプ機能によって生成される予測SDR画像など)に変換するフォワード・リシェイピング関数と、(2)目的カラー・グレードのフォワード・リシェイプされた画像を、元カラー・グレードの再構成された画像(例えば、バックワード・リシェイピング機能によって生成される予測された又は再構成されたHDR画像など)に変換するバックワード・リシェイピング関数とを見出すことによって実現される。
【0047】
[0052] 幾つかの動作シナリオでは、入力SDR及びHDR画像は、444カラー・サンプリング・フォーマットでYCbCr色空間で表現/コーディングされてもよい。各々の入力画像内の各ピクセルは、YCbCr色空間の3つの(色空間)チャネル/成分(Y/Cb/Cr)におけるピクセル成分値を含む可能性がある。
【0048】
[0053] 各々の入力画像の中の各ピクセルのピクセル成分値は、ベクトルに連結されることが可能である。
【0049】
[0054] 例えば、元カラー・グレード(又は元カラー・グレードに対応するソース・ドメイン)の入力画像内の(例えば、各々の)ピクセルのピクセル成分値(Y/Cb/Crチャネル又は成分におけるもの)は、単一の(入力ソース)ベクトルに連結されてもよい。次いで、ベクトルは、元カラー・グレードの入力画像を、目的カラー・グレードのフォワード・リシェイプされた画像へ、フォワード・リシェイプするために使用される1つ以上のフォワード・ニューラル・ネットワークへの入力として使用されることが可能である。より具体的には、フォワード・ニューラル・ネットワークは、そのベクトルを入力として使用して、フォワード・リシェイプされた画像内の対応するピクセルのピクセル成分値を予測する。
【0050】
[0055] フォワード・ニューラル・ネットワークは、Y/Cb/Crチャネル/成分に対応するフォワード・ニューラル・ネットワークの3つのサブセットをそれぞれ含む。フォワード・ニューラル・ネットワークのこれらのサブセットは、Y/Cb/Crチャネル又は成分における対応するピクセルのピクセル成分値を予測するために使用されることが可能である。入力ソース・ベクトル(例えば、3つのカラー・チャネル又は成分における入力成分値を含むYUVベクトルなど)は、各カラー成分についてフォワード・ニューラル・ネットワークの各サブセットに供給される。フォワード・ニューラル・ネットワークのこれらのサブセットは、目的カラー・グレード(又は目的ドメイン)のフォワード・リシェイプされた画像中の対応するピクセルにおける予測された成分値を出力する。
【0051】
[0056]
図2Aに示されるように、フォワード・ニューラル・ネットワークの3つのサブセット内の第1サブセット(「ForwardNet Y」として示されているもの)を使用して、フォワード・リシェイプされた画像内の対応するピクセルに対して予測されるYピクセル値(「Pred Dst Y」として示されているもの)を取得することができる。フォワード・ニューラル・ネットワークの3つのサブセット内の第2サブセット(「ForwardNet Cb」として示されているもの)を使用して、フォワード・リシェイプされた画像内の対応するピクセルに対して予測されるCbピクセル値(「Pred Dst Cb」として示されるもの)を取得することができる。フォワード・ニューラル・ネットワークの3つのサブセット内の第3サブセット(「ForwardNet Cr」として示されているもの)を使用して、フォワード・リシェイプされた画像内の対応するピクセルに対して予測されるCrピクセル値(「Pred Dst Cr」として示されるもの)を取得することができる。
【0052】
[0057] フォワード・ニューラル・ネットワークによって生成されるような、フォワード・リシェイプされた画像内の対応するピクセルの予測されたピクセル成分値は、(予測された目的)ベクトルに連結されることが可能である。予測された目的ベクトルは、バックワード経路内のバックワード・ニューラル・ネットワークを駆動するために使用されてもよく、また、フォワード経路とバックワード経路の両方を含むエンド・ツー・エンド・システムのための全体的なコスト関数におけるフォワード・リシェイプ・コスト部分を計算するための基礎として機能する可能性がある。全体的なコスト関数は、エンド・ツー・エンド・システムにおけるフォワード及びバックワード・ニューラル・ネットワークのための演算パラメータ(例えば、ニューラル・ネットワーク係数など)を得るために使用されることが可能である。
【0053】
[0058] バックワード経路において、予測された目的ベクトルは、目的カラー・グレードのフォワード・リシェイプされた画像を、元カラー・グレードの再構成された(又はバックワード・リシェイプされた)画像に、バックワード・リシェイプするために使用される1つ以上のバックワード・ニューラル・ネットワークへの入力として使用されることが可能である。
【0054】
[0059] より具体的には、バックワード・ニューラル・ネットワークは、ベクトル(フォワード・ニューラル・ネットワークによって生成されるような予測されたピクセル成分値を含むもの)を入力として使用して、元カラー・グレード(又はソース・ドメイン)の再構成された(又はバックワード・リシェイプされた)画像内の対応するピクセルのピクセル成分値を予測する。
【0055】
[0060] バックワード・ニューラル・ネットワークは、Y/Cb/Crチャネル又は成分にそれぞれ対応するバックワード・ニューラル・ネットワークの3つのサブセットを含む。予測された目的ベクトル(例えば、3つのカラー・チャネル又は成分における予測成分値を含むYUVベクトル)は、各カラー成分に対するバックワード・ニューラル・ネットワークの各サブセットに供給される。これらのバックワード・ニューラル・ネットワークのサブセットは、元カラー・グレード(又はソース・ドメイン)の再構成された(又はバックワード・リシェイプされた)画像における対応する予測された成分の値(元の値)を出力する。
【0056】
[0061] 図示されているように、バックワード・ニューラル・ネットワークの3つのサブセット内の第1サブセット(「BackwardNet Y」として示されるもの)は、バックワード・リシェイプされた画像内の対応するピクセルに対して予測されたYピクセル値(「Pred Src Y」として示されるもの)を取得するために使用されることが可能である。バックワード・ニューラル・ネットワークの3つのサブセット内の第2サブセット(「BackwardNet Cb」として示されるもの)は、バックワード・リシェイプされた画像内の対応するピクセルに対して予測されたCbピクセル値(「Pred Src Cb」として示されるもの)を取得するために使用されることが可能である。バックワード・ニューラル・ネットワークの3つのサブセットにおける第3サブセット(「BackwardNet Cr」として示されるもの)は、バックワード・リシェイプされた画像内の対応するピクセルに対して予測されたCrピクセル値(「Pred Src Cr」として示されるもの)を取得するために使用されることが可能である。
【0057】
[0062] バックワード・ニューラル・ネットワークによって生成されるような、バックワード・リシェイプされた画像において対応するピクセルの予測されたピクセル成分値は、(予測された元の)ベクトル内に連結されることが可能である。予測された元ベクトルは、フォワード及びバックワード経路の両方を含むエンド・ツー・エンド・システムのための全体コスト関数におけるバックワード・リシェイプ・コスト部分を計算するための基礎として使用されることが可能である。
【0058】
[0063] 全体コスト関数におけるフォワード・リシェイプ・コスト部分は、入力の目的画像における元の目的データとフォワード・リシェイプされた画像における予測された目的データとの間の差分に少なくとも部分的に基づいて計算されてもよい(例えば、減算演算で計算されたり、除算演算で計算されたりしてもよい)。全体コスト関数におけるバックワード・リシェイプ・コスト部分は、入力ソース画像における元のソース・データとバックワード・リシェイプされた画像における予測されたソース・データとの間の差分に少なくとも部分的に基づいて計算されてもよい(例えば、減算演算で計算されたり、除算演算で計算されたりしてもよい)。全体コスト関数(「コスト(COST)」として示されるもの)は、フォワード・リシェイプのコスト部分とバックワード・リシェイプのコスト部分との重み付け係数(「重み付け係数」として示されているもの)による重み付け合成として形成されてもよい。重み付け係数は、元カラー・グレードの重み付け係数(元カラー・グレードに対応するか又は割り当てられるもの)と、目的カラー・グレードの重み付け係数(目的カラー・グレードに対応するか又は割り当てられるもの)とを含んでもよい。本件で説明されるような所与のカラー・グレードに割り当てられる重み付け係数の例は、(0, 1), [0.2, 0.8], [0.3, 0.4], [0.4, 0.6]などのような任意の範囲を含む可能性があるが、必ずしもこれらに限定されない。これらの重み付け係数は、様々な実施形態において正規化されていてもされていなくてもよい。
【0059】
[0064] このコスト関数は、フォワード・ニューラル・ネットワーク及びバックワード・ニューラル・ネットワークの両方に関して演算パラメータを計算又は生成するために、バック・プロパゲーションで使用されることが可能である。
[0065] フォワード経路ニューラル・ネットワーク
トリップレット(vji
y, vji
C0, vji
C1)と(sji
y, sji
C0, sji
C1,)それぞれが、j番目の元及び目的(ターゲット)画像におけるi番目のピクセルに関する、正規化されたY,C0(又はCb),C1(又はCr)ピクセル成分値を示すものとする。元画像(フレーム)の全てのP個のピクセルの正規化されたY,C0及びC1ピクセル成分値は、次のように、3つの色空間チャネル/成分Y,C0及びC1に対する3つの入力・元ベクトルをそれぞれ形成するために収集されることが可能である:
【0060】
【数1】
[0066] 同様に、目的画像(フレーム)の全てのP個のピクセルの正規化されたY,C
0及びC
1ピクセル成分値は、次のように、3つの色空間チャネル/成分Y,C
0及びC
1に対する3つの入力・目的ベクトルをそれぞれ形成するために収集されることが可能である:
【0061】
【数2】
[0067] 表式(1)及び(2)における入力・元ベクトル及び入力・目的ベクトルはそれぞれ以下のように、2つのPx3マトリックスに連結又はマージすることができる:
【0062】
【数3】
[0068] 元画像又は目的画像の中の各ピクセルの3つのカラー成分は、Px3マトリクスの対応するマージされた行列内の各行から、以下のように、マージされた又は連結された形式で読み出すことが可能である:
【0063】
【数4】
[0069] 元画像における各ピクセルのカラー成分は、本件で説明されるように、フォワード経路における1つ以上のクロス・カラー(又はクロス・チャネル)フォワード・ニューラル・ネットワークへの入力として使用されることが可能である。本件で使用される場合に、「クロス・カラー」又は「クロス・チャネル」とは、複数の成分(例えば、上記の表式(5)におけるY,C
0及びC
1成分のうちの2つ以上)を、単一の成分(例えば、Y,C
0及びC
1のうちの特定の1つ等)にマッピングするマッピング処理を指す。
【0064】
[0070] 例示のみを目的として、1つ以上のフォワード・ニューラル・ネットワークは、フォワード経路における多層ニューラル・ネットワークとして実装される。多層ニューラル・ネットワークは、Y,C
0,及びC
1チャネル又は成分それぞれに関する3成分の多層ニューラル・ネットワークを含む。第1成分の多層ニューラル・ネットワーク(例えば、
図2Aにおける「ForwardNet Y」など)は、フォワード・リシェイプされたY成分ピクセル値を生成する。第2成分の多層ニューラル・ネットワーク(例えば、
図2Aにおける「ForwardNet Cb」など)は、フォワード・リシェイプされたC
0又はC
b成分ピクセル値を生成する。第3成分の多層ニューラル・ネットワーク(例えば、
図2Aにおける「ForwardNet Cr」など)は、フォワード・リシェイプされたC1又はCr成分ピクセル値を生成する。
【0065】
[0071] フォワード経路における多層ニューラル・ネットワークのl番目の層は、Y,C0,及びC1に対して、以下のように定義又は指定されることが可能である:
【0066】
【0067】
【数6】
はそれぞれY,C
0及びC
1チャネル又は成分に対するフォワード・ニューラル・ネットワーク重み付け行列を示し;
【0068】
【数7】
はそれぞれY,C
0及びC
1チャネル又は成分に対するフォワード・ニューラル・ネットワーク・バイアス・ベクトルを示し;
【0069】
【数8】
はそれぞれY,C
0及びC
1チャネル又は成分に対するフォワード・ニューラル・ネットワーク活性化関数を示し;
【0070】
【数9】
はそれぞれY,C
0及びC
1チャネル又は成分に対する現在のl番目の層(先行する(l-1)番目の層の出力からのもの)に対する入力を示し;
【0071】
【数10】
はそれぞれY,C
0及びC
1チャネル又は成分に対する現在のl番目の層の出力を示す。フォワード経路における多層ニューラル・ネットワークの第1層に対して、フォワード経路における多層ニューラル・ネットワークの3成分全ての多層ニューラル・ネットワークは、上記の表式(5)におけるv
j,iのような共通入力を受け取る。例示的な活性化関数は、シグモイド関数、明確に定義された導関数を有する単調に減少又は増加する非線形関数 確に定義された導関数(well-defined derivatives)を有する単調に減少又は増加する非線形関数、区分線形セグメント、ステップ関数などのうちの任意のものを含む可能性があるが、必ずしもこれらに限定されない。
【0072】
[0072] フォワード経路における多層ニューラル・ネットワークの(入力、隠れ、出力)層の総数を(LF + 1)とする。フォワード経路内の個々の成分の多層ニューラル・ネットワークから出力されるような、目的カラー・グレード(又は目的ドメイン)に対応する(又はそれと同じ)フォワード・リシェイプされたカラー・グレードにおけるフォワード・リシェイプされた、又は予測されたピクセル成分値は、以下のようにして与えられることが可能である:
【0073】
【0074】
【数12】
は、フォワード経路における成分の多層ニューラル・ネットワークの層固有のニューラル・ネットワーク重み付け行列とバイアス・ベクトルを表現する設計(演算)パラメータ
【0075】
【数13】
を伴うエンド・ツー・エンド関数を表現する。
【0076】
[0073] フォワード経路内の個々の成分の多層ニューラル・ネットワークから出力されるようなフォワード・リシェイプされた又は予測されたピクセル成分値は、以下のように、各ピクセルに対して連結又はマージされた形式で表現することが可能である:
【0077】
【数14】
[0074] フォワード・リシェイプされた画像内の各ピクセルのカラー成分は、フォワード経路内の個々の成分の多層ニューラル・ネットワークから出力されるようなものであり、これは、本件で説明されるように、バックワード経路における1つ以上のクロス・カラー(又はクロス・チャネル)バックワード・ニューラル・ネットワークに対する入力として使用されることが可能であり、また、フォワード経路とバックワード経路の両方を含むエンド・ツー・エンド・システムにおけるフォワード及びバックワード同時最適化のための全体損失関数に対する入力としても使用されることが可能である。
【0078】
[0075] フォワード・リシェイプされた画像(フレーム)の全てのP個のピクセルのフォワード・リシェイプされた又は予測されたY,C0及びC1ピクセル成分値は、3つの色空間チャネル/成分Y,C0及びC1に対して、次のように、3つの予測された目的ベクトルを形成するためにそれぞれ収集されることが可能である:
【0079】
【数15】
[0076]
バックワード経路ニューラル・ネットワーク
例示のみを目的として、1つ以上のバックワード・ニューラル・ネットワークは、バックワード経路における多層ニューラル・ネットワークとして実装される。多層ニューラル・ネットワークは、Y,C
0、及びC
1チャネル又は成分それぞれのための3成分の多層ニューラル・ネットワークを含む。第1成分の多層ニューラル・ネットワーク(例えば、
図2Aにおける「BackwardNet Y」など)は、再構成された又はバックワード・リシェイプされたY成分ピクセル値を生成する。第2成分の多層ニューラル・ネットワーク(例えば、
図2Aにおける「BackwardNet Cb」など)は、再構成された又はバックワード・リシェイプされたC
0又はC
b成分ピクセル値を生成する。第3成分の多層ニューラル・ネットワーク(例えば、
図2Aにおける「BackwardNet Cr」など)は、再構成された又はバックワード・リシェイプされたC
1又はC
r成分ピクセル値を生成する。
【0080】
[0077] バックワード経路における多層ニューラル・ネットワークのl番目の層は、Y,C0,及びC1に対して、以下のように定義又は指定されることが可能である:
【0081】
【0082】
【数17】
はそれぞれY,C
0及びC
1チャネル又は成分に対するバックワード・ニューラル・ネットワーク重み付け行列を示し;
【0083】
【数18】
はそれぞれY,C
0及びC
1チャネル又は成分に対するバックワード・ニューラル・ネットワーク・バイアス・ベクトルを示し;
【0084】
【数19】
はそれぞれY,C
0及びC
1チャネル又は成分に対するバックワード・ニューラル・ネットワーク活性化関数を示し;
【0085】
【数20】
はそれぞれY,C
0及びC
1チャネル又は成分に対する現在のl番目の層(先行する(l-1)番目の層の出力からのもの)に対する入力を示し;
【0086】
【数21】
はそれぞれY,C
0及びC
1チャネル又は成分に対する現在のl番目の層の出力を示す。
バックワード経路における多層ニューラル・ネットワークの第1層に対して、バックワード経路における多層ニューラル・ネットワークの3成分全ての多層ニューラル・ネットワークは、上記の表式(9)におけるs
^
j,iのような共通入力を受け取る。
【0087】
[0078] バックワード経路における多層ニューラル・ネットワークの(入力、隠れ、出力)層の総数を(LB + 1)とする。バックワード経路内の個々の成分の多層ニューラル・ネットワークから出力されるような、元カラー・グレード(又は元ドメイン)に対応する(又はそれと同じ)バックワード・リシェイプされたカラー・グレードにおける再構成された又はバックワード・リシェイプされたピクセル成分値は、以下のようにして与えられることが可能である:
【0088】
【0089】
【数23】
は、バックワード経路における成分の多層ニューラル・ネットワークの層固有のニューラル・ネットワーク重み付け行列とバイアス・ベクトルを表現するl=0...L
Bに関する設計(演算)パラメータ
【0090】
【数24】
を伴うエンド・ツー・エンド関数を表現する。
【0091】
[0079] バックワード経路内の個々の成分の多層ニューラル・ネットワークから出力されるようなバックワード・リシェイプされた又は再構成されたピクセル成分値は、以下のように、各ピクセルに対して連結又はマージされた形式で表現することが可能である:
【0092】
【数25】
[0080] バックワード・リシェイプされた又は再構成された画像内の各ピクセルのカラー成分は、バックワード経路内の個々の成分の多層ニューラル・ネットワークから出力されるようなものであり、これは、フォワード経路とバックワード経路の両方を含むエンド・ツー・エンド・システムにおけるフォワード及びバックワード同時最適化のための全体損失関数に対する入力として使用されることが可能である。
【0093】
[0081] バックワード・リシェイプされた又は再構成された画像(フレーム)の全てのP個のピクセルのバックワード・リシェイプされた又は再構成されたY,C0及びC1ピクセル成分値は、3つの色空間チャネル/成分Y,C0及びC1に対して、次のように、3つの予測された目的ベクトルを形成するためにそれぞれ収集されることが可能である:
【0094】
【数26】
[0082]
エンド・ツー・エンド問題の定式化
フォワード及びバックワード経路を含むエンド・ツー・エンド・システム又はパイプラインに対するエンド・ツー・エンド最適化問題は、以下のように定式化することが可能である:
【0095】
【数27】
[0083] フォワード及びバックワード経路の同時最適化のための全体コスト関数は、フォワード経路及びバックワード経路の各々におけるカラー・チャネル/成分Y,C0及びC1の各々における歪みを表す、フォワード経路損失部分とバックワード経路損失部分との重み付けした組み合わせとして、以下のように定式化することが可能である:
【0096】
【0097】
【数29】
は、Y,C
0,C
1のフォワード経路(損失関数)の重み付け係数をそれぞれ表し;
【0098】
【数30】
は、Y,C
0,C
1のバックワード経路(損失関数)の重み付け係数をそれぞれ表す。これらの損失関数の重み付け係数は、元カラー・グレードと目的カラー・グレードとの間の所望のトレードオフ又は所望の好みをコントロールするために使用される設計変数を表す。より具体的には、フォワード経路(損失関数)の重み付け係数が、バックワード経路(損失関数)の重み付け係数と比べて大きいほど、目的(又はフォワード・リシェイプされた)カラー・グレードが達成される様子を良く確認しやすくなり、元(又はバックワード・リシェイプされた)カラー・グレードが達成される様子を確認しにくくなる。逆に、フォワード経路(損失関数)の重み付け係数が、バックワード経路(損失関数)の重み付け係数と比べて小さいほど、目的(又はフォワード・リシェイプされた)のカラー・グレードが達成される様子を確認しにくくなり、元(又はバックワード・リシェイプされた)カラー・グレードが達成される様子を確認しやすくなる。幾つかの動作シナリオでは、全てのリシェイプされた画像と全ての入力(元及び/又は目的)画像との間で計算される、本件で説明されるような損失関数(例えば、上述の表式(16)等)における全ての差分又は歪に割り当てられる全てのフォワード及びバックワード(損失関数)重み付け係数は、1(1)に正規化される。
【0099】
[0084] 上記の表式(16)で指定されるような損失関数は、次のようにフォワード及びバックワード・ニューラル・ネットワークの演算パラメータを導出するために使用される(例えば、最小化される)ことが可能である:
【0100】
【数31】
[0085] これらの演算パラメータ又はニューラル・ネットワーク係数は、上記の表式(16)における損失関数を最小化することに基づくバック・プロパゲーションを用いて解くことができる。上記で定式化された最適化問題は、ニューラル・ネットワーク最適化ソルバ(例えば、標準の、独自の、強化された、市販の、特別に開発された、等々のもの)により反復的に解くことが可能である。
【0101】
[0086] 幾つかの動作シナリオでは、フォワード経路から生成されたフォワード・リシェイプされた画像は、上記の表式(17-2)に示されているように、バックワード経路に関する演算パラメータを指定する画像メタデータと共に、コーディングされたビットストリームでコーディングされることが可能である。追加的、オプション的又は代替的に、本件で説明される演算は、訓練段階及び符号化段階において実行される可能性がある。例えば、フォワード・リシェイプされた画像は、訓練段階において生成されてもよい。フォワード・リシェイプされた画像の全部又は一部の符号化は、符号化段階で符号化されてもよい。
【0102】
[0087] 説明のみを目的として、個々のピクセル値を含む入力ベクトルが、少なくとも部分的に、本件で説明されるような、フォワード及びバックワード・ニューラル・ネットワークと、フォワード及びバックワード同時経路最適化を駆動するために使用されてもよい、ということが説明されている。様々な実施形態において、フォワード及びバックワード・ニューラル・ネットワークとフォワード及びバックワード経路同時最適化とを駆動する他の方法が実現又は実行されてもよい、ということが留意されるべきである。例えば、入力ベクトルが個々のピクセル値を含む上記のピクセル・ベースの問題定式化に加えて、又はその代わりに、3次元マッピング・テーブル(3DMT)又は3次元(3D)カラー・キューブに基づいて導出された集約値(aggregated values)のような集約されたピクセル値を含む入力ベクトルを少なくとも部分的に使用して、本件で説明されるように、フォワード及びバックワード・ニューラル・ネットワークと、フォワード及びバックワード経路同時最適化を駆動することができる。例示的な3DMTの説明は、2019年5月9日付で出願されたQ. Song et al.によるPCT出願PCT/US2019/031620 ,“High-fidelity full reference and high-efficiency reduced reference encoding in end-to-end single layer backward-compatible encoding pipeline,”で説明されており、これはWO 2019/217751として国際公開されており、その内容全体はあたかも本件で完全に記載されているかのように参照により援用される。
[0088] 単層プログレッシブ・コードに関する同時最適化
フォワード及びバックワード経路同時最適化は、同じシーン又は視覚的意味内容を描写する元カラー・グレード及び目的カラー・グレードよりも多いカラー・グレードをサポートすることに拡張されることが可能である。
【0103】
[0089]
図2Bは、プログレッシブSLBCコーディング又は単層プログレッシブ・コーディング(SLPC)のための例示的なフォワード及びバックワード同時最適化フレームワークを示す。このフレームワークは、ビデオ・エンコーダ、ビデオ・トランスコーダ、ビデオ・ストリーミング・サーバー等のうちの1つ以上におけるプログレッシブSLBCコーデックで実装される可能性があるが、これらに限定されない。図示されるように、プログレッシブSLBCコーデック(例えば、
図1のコーディング・ブロック(120)など)によって受信された入力は、元カラー・グレードに属する入力画像(「Src Grade(YCbCr 444)」として示されるもの)と、「Dst Grade 0(YCbCr 444)」ないし「Dst Grade K - 1(YCbCr 444)」として示される複数の目的カラー・グレードとに属する2つの異なるタイプの入力画像をそれぞれ含み;ここで、Kは、複数の目的カラー・グレードにおける目的カラー・グレードの総数を表す。
【0104】
[0090] 例示のみを目的として、プログレッシブSLBCコーデックへの入力画像は、元カラー・グレードの入力画像としての元画像(例えば、HDRカラーグレードなど)と、目的カラー・グレードの入力画像としての複数のターゲット画像とを含む可能性がある。全てのソース画像とターゲット画像は、同じシーン(又は同じ視覚的意味内容)であるが、異なるダイナミック・レンジのような異なる品質レベルで描写している。
【0105】
[0091] 同時最適化フレームワークは、プログレッシブSLBCコーデックが、(1)元カラー・グレードの元画像を、複数の目的カラー・グレードに対応する(又はそれと同じ)複数のフォワード・リシェイプ・カラー・グレードにおける複数のフォワード・リシェイプされた画像に変換する複数のフォワード・リシェイピング関数と、(2)(例えば、最新の目的カラー・グレード、目的カラー・グレードK-1等のような)複数の目的カラー・グレードの複数のフォワード・リシェイプされた画像における選択された目的カラー・グレードのフォワード・リシェイプされた画像を、元カラー・グレードの再構成された画像及び複数の目的カラー・グレードにおける他の目的カラー・グレードの他の再構成された画像(選択されたカラー・グレーコード、目的カラー・グレード0ないし(K-2)以外のもの等)に変換する複数のバックワード・リシェイピング関数とを見出すことによって実現される。
【0106】
[0092] 幾つかの動作シナリオでは、元の及びターゲットの画像は、444カラー・サンプリング・フォーマットでYCbCr色空間でコーディング/表現されてもよい。各々の元の及びターゲットの画像内の各ピクセルは、YCbCr色空間の3つの(色空間)チャネル/成分(Y/Cb/Cr)におけるピクセル成分値を含む可能性がある。
【0107】
[0093] 元の及びターゲットの画像各々における各ピクセルのピクセル成分値は、ベクトルに連結されることが可能である。
【0108】
[0094] 例えば、元カラー・グレード(又は元カラー・グレードに対応するソース・ドメイン)の元画像内の(例えば、各々の)ピクセルのピクセル成分値(Y/Cb/Crチャネル又は成分におけるもの)は、単一の(入力ソース)ベクトルに連結されてもよい。次いで、ベクトルは、元カラー・グレードの元画像を、複数の目的カラー・グレードの複数のフォワード・リシェイプされた画像へ、フォワード・リシェイプするために使用される1つ以上のフォワード・ニューラル・ネットワークの複数のセットへの入力として使用されることが可能である。より具体的には、フォワード・ニューラル・ネットワークの複数のセットは、そのベクトルを入力として使用して、複数のフォワード・リシェイプされた画像内の複数の対応するピクセルのピクセル成分値を予測する。
【0109】
[0095] フォワード・ニューラル・ネットワークの複数のセットにおける各セットは、Y/Cb/Crチャネル(又は成分)に対応するフォワード・ニューラル・ネットワークの3つのサブセットをそれぞれ含む。フォワード・ニューラル・ネットワークのこれらのサブセットは、複数のフォワード・リシェイプされた画像における対応するフォワード・リシェイプされた画像のY/Cb/Crチャネル又は成分における対応するピクセルのピクセル成分値を予測するために使用されることが可能である。
【0110】
[0096] フォワード・ニューラル・ネットワークの複数のセット内の第1セット(「ForwardNet YCbCr 0」として示されているもの)を使用して、複数のフォワード・リシェイプされた画像における第1のフォワード・リシェイプされた画像(例えば、「Dest Grade 0 (YCbCr 444)」として示されているもの)を出力することができる。入力ソース・ベクトル(例えば、3つのカラー・チャネル又は成分における成分入力値を含むYUVベクトル等)は、フォワード・ニューラル・ネットワークの複数のセットにおける第1セット(「ForwardNet YCbCr 0」)における各カラー成分に対するフォワード・ニューラル・ネットワークの各サブセットに供給される。フォワード・ニューラル・ネットワークの複数のセット内の第1セットにおけるフォワード・ニューラル・ネットワークのこれらのサブセット(「ForwardNet YCbCr 0」)は、第1の目的カラー・グレード(又は目的ドメイン)の第1フォワード・リシェイプされた画像における対応するピクセルにおける予測された成分値を出力する。
【0111】
[0097] フォワード・ニューラル・ネットワークの複数のセット内の第2セット(「ForwardNet YCbCr 1」として示されているもの)を使用して、複数のフォワード・リシェイプされた画像における第2のフォワード・リシェイプされた画像(例えば、「Dest Grade 1 (YCbCr 444)」として示されているもの)を出力することができる。第1のフォワード・リシェイプされた画像における対応するピクセルの予測された成分値は、フォワード・ニューラル・ネットワークの複数のセット内の第2セット(「ForwardNet YCbCr 1」)における各カラー成分に対するフォワード・ニューラル・ネットワークの各サブセットに供給される。フォワード・ニューラル・ネットワークの複数のセット内の第2セットにおけるフォワード・ニューラル・ネットワークのこれらのサブセット(「ForwardNet YCbCr 1」)は、第2の目的カラー・グレード(又は目的ドメイン)の第2フォワード・リシェイプされた画像における対応するピクセルにおける予測された成分値を出力する。
【0112】
[0098] 前述の動作は、複数の目的カラー・グレードの複数のフォワード・リシェイプされた画像内の他のフォワード・リシェイプされた画像における対応するピクセルの成分ピクセル値を出力又は予測することを、フォワード・ニューラル・ネットワークの複数のセット内の他のセットによって反復することは、最後の目的カラー・グレードの最後のフォワード・リシェイプされた画像内の対応するピクセルの成分ピクセル値(「Dest Grade K - 1 (YCbCr 444)」)が、フォワード経路の終わりにフォワード・ニューラル・ネットワークの複数のセット内の最後のセット(「ForwardNet YCbCr K-1」として示されるもの)によって出力又は予測されるまで行われてもよい。
【0113】
[0099] 最後のフォワード・リシェイプされた画像内の対応するピクセルの予測されたピクセル成分値は、フォワード経路内のフォワード・ニューラル・ネットワークの複数のセットの終わりに生成されるようなものであり、これは(最後に予測された目的)ベクトルに連結されることが可能である。最後に予測された目的ベクトルは、バックワード経路内のバックワード・ニューラル・ネットワークを駆動するために、並びに、フォワード経路とバックワード経路の両方を含むエンド・ツー・エンド・システムのための全体コスト関数におけるフォワード・リシェイプ・コスト部分を計算するための基礎として使用されることが可能である。全体コスト関数は、エンド・ツー・エンド・システムにおけるフォワード及びバックワード・ニューラル・ネットワークのための演算パラメータ(例えば、ニューラル・ネットワーク係数など)を得るために使用されることが可能である。
【0114】
[0100] バックワード経路において、最後に予測された目的ベクトルは、元カラー・グレードの再構成された(又はバックワード・リシェイプされた)画像と同様に、最後の目的カラー・グレード以外の目的カラー・グレードの再構成された(又はバックワード・リシェイプされた)画像に、最後の目的カラー・グレードの最後のフォワード・リシェイプされた画像をバックワード・リシェイプするために使用される1つ以上のバックワード・ニューラル・ネットワークの複数のセットへの入力として使用されることが可能である。
【0115】
[0101] より具体的には、バックワード・ニューラル・ネットワークは、(フォワード・ニューラル・ネットワークの複数のセットによって最後に生成されたような、予測されたピクセル成分値を含む)、最後に予測された目的ベクトルを、最後の目的カラー・グレード以外の目的カラー・グレードの再構成された(又はバックワード・リシェイプされた)画像、及び元カラー・グレードの再構成された(又はバックワード・リシェイプされた)画像、における対応するピクセルのピクセル成分値を予測するための入力として使用する。
【0116】
[0102] バックワード・ニューラル・ネットワークの複数のセット内の第1セット(「BackwardNet YCbCr K - 1」として示されるもの)は、元カラー・グレード及び最後の目的カラー・グレード以外の他の目的カラー・グレードを含むカラー・グレード・グループ内の
図2Bには示されていない第1バックワード・リシェイプされたカラー・グレード(例えば、「Dest Grade K - 2 (YCbCr 444)」)の第1の再構成された(又はバックワード・リシェイプされた)画像を出力するために使用されることが可能である。最後の予測された目的ベクトル(例えば、3つのカラー・チャネル又は成分における入力成分値を含むYUVベクトル)は、バックワード・ニューラル・ネットワークの複数のセットにおける第1セット(「BackwardNet YCbCr K - 1」)内の各カラー成分に関するバックワード・ニューラル・ネットワークの各サブセットに供給される。バックワード・ニューラル・ネットワークの複数のセット内の第1セットにおけるバックワード・ニューラル・ネットワークのこれらのサブセット(「BackwardNet YCbCr K - 1」)は、第1のバックワード・リシェイプされたカラー・グレードの第1の再構成された(又はバックワード・リシェイプされた)画像における対応するピクセルにおける予測された成分値を出力する。
【0117】
[0103] バックワード・ニューラル・ネットワークの複数のセット内の第2セットは、元カラー・グレード及び最後の目的カラー・グレード以外の他の目的カラー・グレードを含むカラー・グレード・グループ内の(
図2Bには示されていない)第2のバックワード・リシェイプされたカラー・グレードの第2の再構成された(又はバックワード・リシェイプされた)画像を出力するために使用されることが可能である。
第1のバックワード・リシェイプされたカラー・グレードの第1の再構成された画像における対応するピクセルの予測された成分値は、バックワード・ニューラル・ネットワークの複数のセットにおける第2セット内の各カラー成分に関するバックワード・ニューラル・ネットワークの各サブセットに供給される。バックワード・ニューラル・ネットワークの複数のセット内の第2セットにおけるバックワード・ニューラル・ネットワークのこれらのサブセットは、第2のバックワード・リシェイプされたカラー・グレードの第2の再構成された(又はバックワード・リシェイプされた)画像における対応するピクセルにおける予測された成分値を出力する。
【0118】
[0104] 前述の動作は、元カラー・グレード及び最後の目的カラー・グレード以外の他のカラー・グレードを含むカラー・グレード・グループに関する複数のバックワード・リシェイプされた画像内の他のバックワード・リシェイプされた画像における対応するピクセルの成分ピクセル値を出力又は予測することを、バックワード・ニューラル・ネットワークの複数のセット内の他のセットによって反復することは、元グレードの再構成された画像内の対応するピクセルのピクセル成分値(「Src Grade (YCbCr 444)」)が、バックワード経路の終わりにバックワード・ニューラル・ネットワークの複数のセット内の最後のセット(「BackwardNet YCbCr 0」として示されるもの)によって出力又は予測されるまで行われてもよい。
【0119】
[0105]
図2Bに示されるように、最終の目的グレードの再構成された画像における対応するピクセルのピクセル成分値(「Dest Grade 0(YCbCr 444)」)は、バックワード・ニューラル・ネットワークの複数のセット内の最後のセット(「BackwardNet YCbCr 0」)を予測する最後から2番目のセット(「BackwardNet YCbCr 1」として示されるもの)によって、出力又は予測される。
【0120】
[0106]
図2Bに示されるように、プログレッシブSLBCコーディングは、フォワード経路を、フォワード・ニューラル・ネットワークの複数のセットによって表される複数のサブ・ネット(例えば、「ForwardNet YCbCr 0」ないし「ForwardNet YCbCr K-1」など)にパーティション化することができ、複数のサブ・ネットの各々は、フォワード・ニューラル・ネットワークの複数のセットにおける、フォワード・ニューラル・ネットワークの対応するセットによって表される。幾つかの動作シナリオでは、フォワード・ニューラル・ネットワークのセット又は各サブ・ネットは、比較的少数の層(例えば、1つの隠れ層、2つの隠れ層など)で構成されていてもよい。これらのサブ・ネットは、相対的に高い品質のカラー・グレード(例えば、10000 ニト以上のダイナミック・レンジによるもの等)を、相次いで下がる品質のカラー・グレードのシーケンスへ連続的に順方向に成形する(フォワード・シェイプする)ことができる(例えば、10000ニトのダイナミック・レンジから600ニトへ、また、100ニト以下までにさえフォワード・シェイプすることができる)。
【0121】
[0107] 同様に、プログレッシブSLBCコーディングは、バックワード経路を、バックワード・ニューラル・ネットワークの複数のセットによって表される複数のサブ・ネット(例えば、「BackwardNet YCbCr K-1」ないし「BackwardNet YCbCr 0」など)にパーティション化することができ、複数のサブ・ネットの各々は、バックワード・ニューラル・ネットワークの複数のセットにおける、バックワード・ニューラル・ネットワークの対応するセットによって表される。幾つかの動作シナリオでは、バックワード・ニューラル・ネットワークのセット又は各サブ・ネットは、比較的少数の層(例えば、1つの隠れ層、2つの隠れ層など)で構成されていてもよい。これらのサブ・ネットは、相対的に低いカラー・グレード(例えば、最も低いカラー・グレード、100ニト以下のダイナミック・レンジによるもの等)を、相次いで上がる品質のカラー・グレードのシーケンスへ、連続的に逆方向に再成形する(バックワード・リシェイプする)ことができる(例えば、100ニト以下のダイナミック・レンジから600ニトへ、また、10000ニト以上までにさえバックワード・リシェイプすることができる)。
【0122】
[0108] 幾つかの動作シナリオでは、複数の目的カラー・グレードのための複数のバックワード・リシェイプされた画像における、各バックワード・リシェイプされた画像における対応するピクセルの予測されたピクセル成分値は、バックワード経路内のバックワード・ニューラル・ネットワークの複数のセットによって生成されたものであり、これは(予測された元)ベクトルに連結されることが可能である。複数の目的カラー・グレードにおける各々の目的カラー・グレードに対するそのような予測された元ベクトルの各々は、フォワード及びバックワード経路の両方を含むエンド・ツー・エンド・システムの全体コスト関数におけるバックワード・リシェイプ・コスト部分を計算するための部分的な基礎として使用されることが可能である。
【0123】
[0109] プログレッシブSLBCコーディングのための全体コスト関数におけるフォワード・リシェイプ・コスト部分は、最後の目的カラー・グレードの(K-1)番目の目的画像における元の目的データ(「Dst Grade YCbCr K-1」)と、フォワード経路の終わりに生成された最後の目的カラー・グレードの最後の予測された目的データ(「Dst Grade YCbCr K-1」)との間の差分に少なくとも部分的に基づいて計算されてもよい。
【0124】
[0110] プログレッシブSLBCコーディングのための全体コスト関数におけるバックワード・リシェイプ・コスト部分は、(元グレードと、最後の目的カラー・グレードを除く全ての目的カラー・グレードとを含む)カラー・グレード・グループの再構成された入力画像と、同じカラー・グレード・グループの入力画像(入力元及び目的画像)との間の差分に少なくとも部分的に基づいて計算されてもよい。
【0125】
[0111] プログレッシブSLBCコーディングのための全体コスト関数(「コスト(COST)」として示されるもの)はフォワード・リシェイプ・コスト部分とバックワード・リシェイプ・コスト部分との重み付けされた組み合わせとして、重み付け係数(「重み付け係数」ととして示されるもの)によって形成されてもよい。重み付け係数は、元カラー・グレードの重み付け係数(元カラー・グレードに対応するか又は割り当てられるもの)と、複数の目的カラー・グレードの重み付け係数(複数の目的カラー・グレードに対応するか又は割り当てられるもの)とを含む可能性がある。複数の目的カラー・グレード重み付け係数における各々の目的カラー・グレード重み付け係数は、複数の目的カラー・グレードにおける個々の目的カラー・グレードに、対応するか又は割り当てられる。
【0126】
[0112] プログレッシブSLBCコーディングのためのこのコスト関数は、フォワード・ニューラル・ネットワークの複数のセットとバックワード・ニューラル・ネットワークの複数のセットとの両方において(例えば、各ニューラル・ネットワーク等)の演算パラメータを計算又は生成するために、バック・プロパゲーションで使用される可能性がある。ニューラル・ネットワークに対する入力を表す元画像、ニューラル・ネットワークに対する出力を表す目的画像、及び損失関数は、ニューラル・ネットワーク・ソルバに実装されたバック・プロパゲーションによって、ニューラル・ネットワークの演算パラメータを獲得するために、市販のグーグル・テンソルフロー(Google Tensorflow)のようなニューラル・ネットワーク・ソルバに提供されてもよい。追加的、オプション的又は代替的に、強化されたニューラル・ネットワーク・ソルバが使用されてもよい。幾つかの動作シナリオでは、バック・プロパゲーションは、ニューラル・ネットワークの複数のステージのシーケンスで実行されてもよい。損失関数における異なるコスト部分は、ニューラル・ネットワークの複数のステージのシーケンスの異なるステージにおいて、バック・プロパゲーションを個々に駆動するために使用されてもよい。
[0113] プログレッシブ・コーディング問題の定式化
sj,i
<k>を、複数の目的カラー・グレードにおけるk番目の目的(又は参照)カラー・グレードのj番目の画像(フレーム)におけるi番目のピクセルの3色の目的ベクトルを示すものとし、ここで、kは0ないし(K-1)の整数を表す。全部又は一部の目的カラー・グレードは、カラーリスト(達)によってコンテンツ・マッピングされ(content-mapped)及び/又はカラー・グレーディングされ(color graded)、(例えば、複数の品質レベル、複数の異なるダイナミック・レンジ、複数の異なる色空間又は色域などにおける)異なる表示能力の個々の参照表示デバイスの所望の外観として機能する可能性がある。
【0127】
[0114] ΦFを、フォワード・ニューラル・ネットワーク・ベースのマッピング関数(又はフォワード経路)を示すものとし、これは、元グレードのj番目の画像(フレーム)におけるi番目のピクセルの3色・元ベクトル(vj,iとして示されるもの)を、(K - 1) 番目の目的(又は参照)カラー・グレードのj番目の画像(フレーム)におけるi番目のピクセルの予測された3色・目的ベクトル(sj,i
^として示されるもの)に変換又は変換するニューラル・ネットワーク演算/マッピングを以下のように実行する。
【0128】
【数32】
[0115] フォワード経路は、次のように、K個のサブ・ネットΦ
F
<K>にパーティション化されてもよい:
【0129】
【数33】
[0116] K個のサブ・ネットの各サブ・ネットから出力される予測された3色・目的ベクトルは、以下のように与えられてもよい:
【0130】
【数34】
[0117] Φ
Bを、バックワード・ニューラル・ネットワーク・ベースのマッピング関数(又はバックワード経路)を示すものとし、これは、最終の目的カラー・グレードのj番目の画像(フレーム)におけるi番目のピクセルの3色・元ベクトル(s
j,i
^として示されるもの)を、元カラー・グレードのj番目の画像(フレーム)におけるi番目のピクセルの予測されたバックワード・リシェイプされた3色ベクトル(v
j,i
^として示されるもの)に変換又は変換するニューラル・ネットワーク演算/マッピングを実行する。バックワード経路は、次のように、K個のサブ・ネットΦ
B
<K>にパーティション化されてもよい:
【0131】
【数35】
[0118] K個のサブ・ネットの各サブ・ネットから出力される予測されたバックワード・リシェイプされた3色ベクトルは、以下のように与えられてもよい:
【0132】
【数36】
[0119] プログレッシブSLBCのフォワード及びバックワード経路同時最適化のための全体コスト関数は、フォワード経路及びバックワード経路の各々におけるカラー・チャネル/成分Y,C
0,及びC
1の各々おける歪みを表現するフォワード経路損失部分とバックワード経路損失部分との重み付けされた組み合わせとして、以下のように定式化することができる:
【0133】
【数37】
ここで、w
F及び{w
B
<k>}は、元グレード及び目的グレードの各々に対する(損失関数)重み付け係数である。これらの損失関数重み付け係数は、元カラー・グレードと目的カラー・グレードとの間の所望のトレードオフ又は所望の好みをコントロールするために使用される設計変数を表す。より具体的には、再構成されたカラー・グレードの(損失関数)重み付け係数が、他のカラー・グレードの(損失関数)重み付け係数と比較して高いほど、再構成されたカラー・グレードが達成される様子を良く確認しやすくなる。幾つかの動作シナリオでは、全てのリシェイプされた画像と全ての入力された(元及び/又は目的)画像との間で計算された本件で説明される損失関数(例えば、上述の式(23)等)における全ての差分又は歪みに割り当てられるような全ての損失関数重み付け係数は、1(one)に正規化される。様々な実施形態では、異なるグレード・レベルの損失関数・重み付け係数が、損失関数の異なるカラー・グレードに割り当てられてもよい。これらのグレード・レベル損失関数の重み付け係数は、複数の利用可能なカラー・グレードの中で、1つ以上の選択されたカラー・グレードの品質レベルを強調するために選択されてもよい。追加的、オプション的又は代替的に、各カラー・グレードに関し、経路レベルの損失関数・重み付け係数を選択して、カラー・グレードのフォワード・リシェイプされた画像の品質レベル、又はカラー・グレードのバックワード・リシェイプされた画像の品質レベルを強調することができる。
【0134】
[0120] 前述の表式(23)で指定されるような損失関数は、フォワード及びバックワード・ニューラル・ネットワークの演算パラメータを導出するために使用される(例えば、最小化される)ことが可能である。これらの演算パラメータは、バックワード経路におけるバックワード・ニューラル・ネットワークに関し、
【0135】
【数38】
として示されるような演算パラメータを含む。
【0136】
[0121] これらの演算パラメータ又はニューラル・ネットワーク係数は、上記の表式(23)における損失関数を最小化することに基づくバック・プロパゲーションを用いて解くことができる。上記のように定式化された最適化問題は、ニューラル・ネットワーク最適化ソルバ(例えば、標準の、独自の、強化された、市販の、特別に開発されたもの等)により反復的に解くことができる。
【0137】
[0122] 説明のみを目的として、フォワード経路の終わりに生成された最新のフォワード・リシェイプされた画像、及びバックワード経路にわたって得られるバックワード・リシェイプされた画像(例えば、
図2Bに示されるようなもの)は、本件で説明されるような損失関数で使用されてもよい、ということが説明されている。受信側デバイスがバックワード・リシェイプされた画像を生成することになる動作シナリオにおいては、上流のビデオ・エンコーダによって使用されるそのような損失関数は、受信側デバイスによって生成されるべきものとより良く適合する可能性がある。様々な実施形態において、バックワード経路にわたるバックワード・リシェイプされた画像に加えて、又はその代わりに、フォワード経路にわたって生成されたフォワード・リシェイプされた画像が、本件で説明されるような損失関数で使用されてもよい、ということに留意すべきである。受信側デバイスがフォワード・リシェイプされた画像を生成する動作シナリオにおいては、上流のビデオ・エンコーダによって使用されるそのような損失関数は、受信側デバイスによって生成されるべきものとより良く適合する可能性がある。
[0123]
デコーダにおける純粋なバックワード・ニューラル・ネットワーク
幾つかの動作シナリオでは、
図3Aに示されるように、元カラー・グレード(「Src Grade」として示されるもの)は、本件で説明されるビデオ・エンコーダによって、1つ以上のフォワード・ニューラル・ネットワークのセット(「ForwardNet Y/Cb/Cr 0」ないし「ForwardNet Y/Cb/Cr K-1」として示されるもの)によって、フォワード・リシェイプされることが可能である。
【0138】
[0124] フォワード経路の終わりに出力される最後の目的カラー・グレードのフォワード・リシェイプされた画像は、ビデオ信号のコーディングされたビットストリーム(例えば、
図1の122、例えば、ベース・レイヤ(BLとして示されるもの)におけるもの)に符号化される。対応するバックワード経路における全部又は一部のバックワード・ニューラル・ネットワーク(「BackwardNet Y/Cb/Cr K-1」ないし「BackwardNet Y/Cb/Cr 0」として示されるもの)の演算パラメータの全部又は一部は、ビデオ・エンコーダによって生成され(
図3Aでは図示されていない;
図2A又は
図2Bを参照されたい)、画像メタデータ(「RPU」と称する)として、符号化されたビットストリーム内にコーディングされてもよい。
【0139】
[0125] ビデオ・デコーダに限定されないがこれを含む、コーディングされたビットストリームの受信側デバイスは、画像メタデータと中間カラー・グレードのフォワード・リシェイプされた画像を、コーディングされたビットストリームから復号化し、画像メタデータ(「RPU」)におけるバックワード・ニューラル・ネットワークのサブセットとフォワード・ニューラル・ネットワークのサブセットとに関する演算パラメータを使用して、コーディングされたビットストリームで受信した演算パラメータとともに、全部又は一部のバックワード又はフォワード・ニューラル・ネットワークを利用して、コーディングされたビットストリームから復号化されるような中間のフォワード・リシェイプされた画像をバックワード又はフォワード・リシェイプすることによって、中間カラー・グレード以外の他のカラー・グレードのバックワード又はフォワード・リシェイプされた画像を生成することができる。これらのバックワード又はフォワード・リシェイプされた画像は、(コーディングされたビットストリーム内に既にコーディングされている)中間カラー・グレード以外のカラー・グレードの再構成された画像を表す。
【0140】
[0126] より具体的には、ビデオ・デコーダは、中間カラー・グレードをより高いカラー・グレードに変換するために、バックワード・ニューラル・ネットワークのサブセットを使用することができる。同様に、ビデオ・デコーダは、中間カラー・グレードをより低いカラー・グレードに変換するために、フォワード・ニューラル・ネットワークのサブセットを使用することができる。非限定的な例は、ベース・レイヤが1000ニトのHDR 10 PQカラー・グレードで符号化されるものである。バックワード・ニューラル・ネットワークのサブセットは、(例えば、ドルビー・ビジョン(Dolby Vision)等における)4000ニトのようなカラー・グレードなどの元カラー・グレードに至るまでの画像を再構成するために使用されることが可能であり、フォワード・ニューラル・ネットワークのサブセットは、R.709 100ニトのカラー・グレードに下がるまで画像をフォワード・リシェイプするために使用されることが可能である。
【0141】
[0127] コーディングされたビットストリームにおけるベース・レイヤとして役立つように、又はビデオ・エンコーダによってそのベース・レイヤで符号化された画像データを提供するために、どのカラー・グレードが選択されるかに依存して、コーディングされたビットストリームによって搬送される画像メタデータは相違する可能性がある。限定ではなく例示として、
図3Cに示されるように、「Dst Grade 1」と示される目的カラー・グレードが、コーディングされたビットストリームのベース・レイヤとして役立つように、又はビデオ・エンコーダによってそのベース・レイヤで符号化された画像データを提供するために選択される。ビデオ・エンコーダは更に、コーディングされたビットストリーム内のこれらのカラー・グレードの画像データを符号化する必要なしに、画像メタデータを使用して、目的カラー・グレード以外の1つ以上の異なるカラー・グレードの画像を再構成することを、コーディングされたビットストリームの受信側デバイスができるようにするために、画像メタデータを、コーディングされたビットストリーム内にコーディングすることができる。
【0142】
[0128]
図3Cに示されるように、画像メタデータは、バックワード・ニューラル・ネットワークの第1セットに関する演算パラメータの第1セット(又はBackward Net 1の係数)を含んでもよい。受信側デバイスは、バックワード・ニューラル・ネットワークの第1セットを、演算パラメータの第1セットとともに、コーディングされたビットストリームから復号化されたもののような目的カラー・グレード「Dst Grade 1」の画像データに適用して、目的カラー・グレード「Dst Grade 0」の再構成された画像データ(例えば、再構成された画像など)を生成又は予測することができる。
【0143】
[0129] 幾つかの動作シナリオでは、画像メタデータは、バックワード・ニューラル・ネットワークの第2セットに関する演算パラメータの第2セット(又はBackward Net 0の係数)を更に含んでもよい。受信側デバイスは、バックワード・ニューラル・ネットワークの第2セットを、演算パラメータの第2セットとともに、バックワード・ニューラル・ネットワークの第1セットから生成又は予測されたもののような目的カラー・グレード「Dst Grade 0」の再構成された画像データに更に適用して、元グレードの再構成された画像データ(例えば、再構成された画像など)を生成又は予測することができる。
【0144】
[0130] 追加的、オプション的又は代替的に、画像メタデータは、フォワード・ニューラル・ネットワークの1つ以上のセットに対する演算パラメータの1つ以上のセット(例えば、Forward Net 2の係数, Forward Net 3の係数,… Forward Net K-2の係数, Forward Net K-1の係数など)を含む可能性がある。受信側デバイスは、フォワード・ニューラル・ネットワークの1つ以上のセットのうちの全部又は一部を、演算パラメータの1つ以上のセットのうちの全部又は一部とともに、コーディングされたビットストリームから復号化されたもののような目的カラー・グレード「Dst Grade 1」の画像データに適用して、目的カラー・グレード「Dst Grade 1」以外の目的カラー・グレード(例えば、「Dst Grade K-2」,「Dst Grade K-1」など)の再構成された画像データ(例えば、再構成された画像など)を生成又は予測することができる。
【0145】
[0131] 従って、ハイブリッド同時最適化では、フォワード・ニューラル・ネットワークとバックワード・ニューラル・ネットワークの両方に関する演算パラメータは、ビデオ・エンコーダによって生成され、本件で説明されるようにコーディングされたビットストリームに符号化され、あるカラー・グレードに関して画像データが符号化ビットストリーム内に符号化されている場合のそのカラー・グレード以外のカラー・グレードの再構成された画像の生成又は予測を可能にすることができる。
【0146】
[0132] 幾つかの動作シナリオでは、本件で説明される画像メタデータに含まれるニューラル・ネットワーク係数は、ニューラル・ネットワークの活性化関数で使用される重み付け係数やバイアスを指す可能性がある。幾つかの動作シナリオでは、本件で説明される画像メタデータに含まれるニューラル・ネットワーク係数は、ニューラル・ネットワークの活性化関数で使用される重み付け係数やバイアスに加えて、演算パラメータを指す可能性がある。限定ではない具体例として、画像メタデータを生成する上流のビデオ・エンコーダと、画像メタデータを使用する受信側のビデオ・デコーダとは、同じ特定のタイプの(例えば、事前に設定された、事前に固定されている、などの)活性化関数のタイプを使用してもよい。従って、ビデオ・エンコーダは、活性化関数タイプをシグナリングしない(例えば、シグナリングすることを必要としない)可能性がある。追加的、オプション的又は代替的に、画像メタデータを生成する上流のビデオ・エンコーダと、画像メタデータを使用する受信側のビデオ・デコーダとは、複数の利用可能な活性化関数のタイプの中から、特定のタイプの活性化関数のタイプを選択してもよい。従って、ビデオ・エンコーダは、選択された活性化関数タイプ及び/又は本件で使用される他のパラメータを(例えば、動的に、適応的に、等々により)識別する目的で、活性化関数内で使用される重み付け係数及びバイアスに加えて又はそれ以外の演算パラメータを含んでもよい。コーディング・シンタックスは、画像メタデータとの間で演算パラメータを符号化及び復号化する目的で、ビデオ・エンコーダ及びビデオ・デコーダのようなビデオ・コーデックによって指定及び実装されることが可能である。
[0133] デコーダにおける2Dフォワード及びバックワード・ニューラル・ネットワーク
幾つかの動作シナリオでは、フォワード及びバックワード経路の同時最適化のための純粋な又はハイブリッドなアーキテクチャは、2次元(2D)グリッドで表現された目的カラー・グレードに拡張されることが可能である。2Dグリッドは、異なる色空間(又は異なる色域)を示す第1次元と異なる最大輝度を有する異なるダイナミック・レンジを示す第2次元とを有する目的カラー・グレードを含んでもよい。
【0147】
[0134]
図3Dに示されるように、元カラー・グレード(「Src Grade」として示されるもの)は、エンコーダ側のフォワード経路への入力として機能することが可能である。元カラー・グレードは、本件で説明されるようなビデオ・エンコーダによる1つ以上のフォワード・ニューラル・ネットワークの2Dセットによってフォワード・リシェイプされ、2Dグリッドで表現される目的カラー・グレードに対応する(又は同じである)フォワード・リシェイプされたカラー・グレードを生成する(2Dセットは、“ForwardNet Y/Cb/Cr 0, 0,” “ForwardNet Y/Cb/Cr 0, 1,”… “ForwardNet Y/Cb/Cr 0, K-2,” “ForwardNet Y/Cb/Cr 0, K-1,”… “ForwardNet Y/Cb/Cr M-1, 0,” “ForwardNet Y/Cb/Cr M-1, 1,”… “ForwardNet Y/Cb/Cr M-1, K-2,” “ForwardNet Y/Cb/Cr M-1, K-1,”として示されている)。
【0148】
[0135] フォワード経路におけるフォワード・ニューラル・ネットワークの2Dセット中の各セットは、2つのインデックスによって指定されることが可能であり、そのうちの第1のものは異なる色空間を示すことが可能であり、第2のものは異なるダイナミック・レンジを示すことが可能である。幾つかの動作シナリオでは、2つのインデックスのうち第1のものの値が高いほど、対応する色空間は小さくなる。同様に、2つのインデックスのうち第2のものの値が高いほど、対応するダイナミック・レンジは小さくなる。従って、フォワード経路の終わりに、最小の色空間(例えば、最小の色域を有する色空間)及び最低のダイナミック・レンジのカラー・グレードが生成又は予測される。
【0149】
[0136] フォワード経路でフォワード・ニューラル・ネットワークを適用することに加えて、エンコーダ側での対応するバックワード経路において、フォワード経路の終わりに生成又は予測されるような、最低ダイナミック・レンジ及び最小色空間のカラー・グレードは、本件で説明されるビデオ・エンコーダによる1つ以上のバックワード・ニューラル・ネットワークの2Dセットによりバックワード・リシェイプされ、最低ダイナミック・レンジ及び最小色空間のカラー・グレード以外の他の目的カラー・グレードと元カラー・グレードを含むカラー・グレード・グループの再構成された画像を生成又は予測する(2Dセットは、“BackwardNet Y/Cb/Cr M-1, K-1,” “BackwardNet Y/Cb/Cr M-1, K-2,”… “BackwardNet Y/Cb/Cr M-1, 1,” “BackwardNet Y/Cb/Cr M-1, 0,”… “BackwardNet Y/Cb/Cr 0, K-1,” “BackwardNet Y/Cb/Cr 0, K-2,”… “BackwardNet Y/Cb/Cr 0, 1,” “BackwardNet Y/Cb/Cr 0, 0,”として示されている)。バックワード経路の終わりに、元カラー・グレードの再構成された画像が生成又は予測される。
【0150】
[0137] 幾つかの動作シナリオ(例えば、純粋なバックワード・ニューラル・ネットワークなど)では、最低のダイナミック・レンジ及び最小の色空間のカラー・グレードの画像データが、ビデオ・エンコーダによって、コーディングされたビットストリームのベース・レイヤに符号化されてもよい。バックワード・ニューラル・ネットワークの2Dセットの全部又は一部に関する演算パラメータは、全てのカラー・グレードからのコスト部分を用いて全体コスト関数を最適化することによって生成されるようなものであり、これは、コーディングされたビットストリームにおいて最低ダイナミック・レンジ及び最小・色空間のカラー・グレードの画像データと共に伝送/配信されることが可能である。これらの演算パラメータは、コーディングされたビットストリームの受信側デバイスによって使用されて、元カラー・グレードと、最低ダイナミック・レンジ及び最小・色空間のカラー・グレード以外の他の目的カラー・グレードとを含むカラー・グレード・グループにおけるカラー・グレードの再構成された画像を生成又は予測することができる。より具体的には、色空間を変更又は置換するために、(例えば、2Dグリッドの第1次元に対応するもの等のような)1つの次元に沿ってバックワード・ニューラル・ネットワークの2Dセットを適用する一方で、(例えば、2Dグリッドの第2次元に対応するもの等のような)他の次元に沿ってバックワード・ニューラル・ネットワークの2Dセットを適用して、ダイナミック・レンジを増加させる。例示的な色空間は、以下のうちに任意のものを含む可能性があるが、必ずしもこれらだけに限定されない: Rec. 709, P3, P5、様々な三角形又はポリゴンであって、表示デバイスに実装された異なる原色セットで囲まれたもの等。
【0151】
[0138] 幾つかの動作シナリオ(例えば、ハイブリッド・フォワード&バックワード・ニューラル・ネットワークなど)においては、中間カラー・グレードの画像データ(最小色空間及び最低ダイナミック・レンジの目的カラー・グレード及び元カラー・グレード以外のもの)は、ビデオ・エンコーダによって、コーディングされたビットストリームのベース・レイヤに符号化されることが可能である。フォワード及びバックワード・ニューラル・ネットワークの2Dセットの全部又は一部の演算パラメータは、全てのカラー・グレードからのコスト部分とともに全体コスト関数を最適化することによって生成されるようなものであり、これは、コーディングされたビットストリーム内の中間カラー・グレードの画像データと共に伝送/配信されることが可能である。これらの演算パラメータは、中間カラー・グレード以外のカラー・グレードの再構成された画像を生成又は予測するために、コーディングされたビットストリームの受信デバイスによって使用されてもよい。
【0152】
[0139] 幾つかの動作シナリオでは、
図3Eに示されるように、最大の色空間(例えば、最も広い色域を有する色空間)及び最も高いダイナミック・レンジ(例えば、元カラー・グレードに対応するもの)のカラー・グレード、及び(最小の色空間及び最低のダイナミック・レンジの目的カラー・グレード及び元カラー・グレード以外のものの)カラー・グレードの画像データは、ビデオ・エンコーダによって、コーディングされたビットストリームのベース・レイヤに符号化されることが可能である。フォワード又はバックワード・ニューラル・ネットワークの2Dセットの全部又は一部の演算パラメータは、全てのカラー・グレードからのコスト部分とともに全体コスト関数を最適化することによって生成されるようなものであり、これは、コーディングされたビットストリームにおいて、最大・色空間及び最高ダイナミック・レンジのカラー・グレードの画像データとともに伝送/配信されてもよい。これらの演算パラメータは、コーディング・ビットストリームの受信側デバイスによって使用されて、最大ダイナミック・レンジ及び最大色空間のカラー・グレード以外のカラー・グレードのフォワード・リシェイプされた画像を生成又は予測することができる。従って、これらの動作シナリオでは、コーディングされたビットストリームのベース・レイヤは、最大のダイナミック・レンジ及び最大の色空間の画像データを含む。ある次元に沿ってフォワード又はバックワード・ニューラル・ネットワークを適用する場合、コーディングされた画像データの最大色空間は、生成された又は予測された画像データにおいて連続的に削減され;他の次元に沿ってフォワード又はバックワード・ニューラル・ネットワークを適用する場合、コーディングされた画像データの最大ダイナミック・レンジは、生成された又は予測された画像データにおいて連続的に削減される。
【0153】
[0140] 本件で説明されるように、画像データがコーディングされたビットストリームで符号化される場合に選択されたカラー・グレード以外のカラー・グレードは、選択されたカラー・グレードから、2Dグリッド内の所望のカラー・グレードへの経路を表すフォワード又はバックワード・ニューラル・ネットワークの一連のセットによって生成されてもよい。どの開始点であるか(又はコーディングされたビットストリームで符号化される選択されたカラー・グレーディングされるもの)に依存して、及び/又はどのカラー・グレードであるかに依存して、2Dグリッド内の様々な経路が実現される可能性があり、場合によっては、デコーダ側で再構成するのに最も低い演算負担をもたらすことが好まれるかもしれない。
【0154】
[0141] 例示のみを目的として、YCbCrの色空間タイプで表現される画像データを処理するために、同時最適化フレームワークはフォワード及びバックワード・ニューラル・ネットワークを用いて実装されてもよい、ということが説明されている。様々な実施形態において、本件で説明される全部又は一部の技術は、RGB (赤,緑,青)色空間タイプ、IPT色空間タイプ、ICtCp色空間タイプなどのような様々な色空間タイプに適用される可能性があるが、必ずしもこれらだけに限定されない、というに留意すべきである。追加的、オプション的、又は代替的に、本件で説明されるようなフォワード経路及び/又はバックワード経路で実装されるニューラル・ネットワークは、元の色空間タイプ(例えば、YCbCrなど)で表される元の画像データから、異なる色空間タイプ(例えば、RGBなど)で表されるフォワード及び/又はバックワード・リシェイプされた画像データを生成するために使用されることが可能である。色空間変換は、フォワード及び/又はバックワード経路内のニューラル・ネットワークによって、及び/又はニューラル・ネットワーク外部の1つ以上の画像処理ブロック(ビデオ・コーデックに属するもの)によって実行されてもよい。
【0155】
[0142] 幾つかの動作シナリオでは、画像メタデータの時間的安定性を維持する目的で、画像メタデータのバックワード・リシェイプ・マッピングを演算/生成/含める際に、線形セグメント・ベースの構造を使用することが可能である。例示的な線形セグメント・ベースの構造については、米国特許第10,397,576号,“Reshaping curve optimization in HDR coding,” by H. Kadu and G-M. Suで説明されており、その内容全体はあたかも本件で完全に記載されているかのように参照により援用される。
【0156】
[0143] 本件で説明される全部又は一部の技術は、ブロードキャスト・ビデオ・アプリケーション、リアル・タイム・ストリーミング・アプリケーション等のためのビデオ・コンテンツの適切なカラー・グレードを生成するために、リアルタイム処理の一部として実装及び/又は実行されることが可能である。追加的、オプション的又は代替的に、本件で説明される全部又は一部の技術は、非リアルタイム・ストリーミング・アプリケーション、シネマ・アプリケーション等のためのビデオ・コンテンツの適切なカラー・グレードを生成するために、時間遅延又はオフライン動作の一部として実装及び/又は実行されることが可能である。
[0144]
例示的なプロセス・フロー
図4Aは、一実施形態による例示的なプロセス・フローを示す。幾つかの実施形態では、1つ以上の演算デバイス又はコンポーネント(例えば、符号化デバイス/モジュール、トランスコーディング・デバイス/モジュール、復号化デバイス/モジュール、逆トーン・マッピング・デバイス/モジュール、トーン・マッピング・デバイス/モジュール、メディア・デバイス/モジュール、逆マッピング生成及びアプリケーション・システム等)が、このプロセス・フローを実行してもよい。ブロックもでは、画像処理システムは、1つ以上のフォワード・ニューラル・ネットワークを含むフォワード経路と、バックワード・ニューラル・ネットワークを含むバックワード経路とを含むエンド・ツー・エンド画像マッピング・パイプラインへの入力として、元カラー・グレードの元画像と、目的カラー・グレードの目的画像を受信する。
【0157】
[0145] ブロック404において、画像処理システムは、元カラー・グレードの元画像をフォワード・リシェイプし、目的カラー・グレードのフォワード・リシェイプされた画像を生成するために、フォワード経路において1つ以上のフォワード・ニューラル・ネットワークを適用する。
【0158】
[0146] ブロック406において、画像処理システムは、目的カラー・グレードのフォワード・リシェイプされた画像をバックワード・リシェイプし、元カラー・グレードのバックワード・リシェイプされた画像を生成するために、バックワード経路において1つ以上のバックワード・ニューラル・ネットワークを適用する。
【0159】
[0147] ブロック408において、画像処理システムは、フォワード経路とバックワード経路に対して指定されたニューラル・ネットワーク・コスト関数を生成する。コストは、フォワード・リシェイプされた画像と目的画像との間の第1差分から算出されるフォワード・コスト部分と、バックワード・リシェイプされた画像と元画像との間の第2差分から算出されるバックワード・コスト部分とを含む。
【0160】
[0148] ブロック410において、画像処理システムは、ニューラル・ネットワーク・コスト関数から生成されるコストを基礎の一部として使用して、1つ以上のフォワード・ニューラル・ネットワークと1つ以上のバックワード・ニューラル・ネットワークに関する演算パラメータを決定する。
【0161】
[0149] ブロック412において、画像処理システムは、フォワード経路から生成された選択されたカラー・グレードの画像データを、画像メタデータとともにビデオ信号に符号化する。画像メタデータは、1つ以上のフォワード・ニューラル・ネットワーク及び1つ以上のバックワード・ニューラル・ネットワークのサブセットに関する演算パラメータのサブセットを少なくとも含む。ビデオ信号の受信側デバイスは、選択されたカラー・グレードの画像メタデータと画像データを用いて、異なるカラー・グレードの再構成された画像データを生成する、という結果を生じさせる。幾つかの動作シナリオでは、ブロック412における動作の全部又は一部はオプションであって、実行されてもされなくてもよい。
【0162】
[0150] 実施形態において、ビデオ信号は、単層の後方互換性のある信号を表す。
【0163】
[0151] 実施形態において、1つ以上のフォワード・ニューラル・ネットワークは、元カラー・グレードの元画像を、複数の目的カラー・グレードのための複数のフォワード・リシェイプされた画像に変換し;1つ以上のバックワード・ニューラル・ネットワークは、フォワード経路内で最後に生成されたフォワード・リシェイプされた画像を、複数の目的カラー・グレードのための複数のバックワード・リシェイプされた画像に変換する。
【0164】
[0152] 実施形態において、目的カラー・グレードのフォワード・リシェイプされた画像は、フォワード経路内で最後に生成されたフォワード・リシェイプされた画像である。
【0165】
[0153] 実施形態において、目的カラー・グレードのフォワード・リシェイプされた画像は、フォワード経路内で最後に生成されたフォワード・リシェイプされた画像ではない。
【0166】
[0154] 実施形態において、画像メタデータは、1つ以上のフォワード・ニューラル・ネットワークに対する演算パラメータを含まない。
【0167】
[0155] 実施形態において、画像メタデータは、1つ以上のフォワード・ニューラル・ネットワークと1つ以上のバックワード・ニューラル・ネットワークとの混合に関する演算パラメータを含む。
【0168】
[0156] 実施形態において、1つ以上のフォワード・ニューラル・ネットワークは、元カラー・グレードの元画像を、複数の目的カラー・グレードにおける複数の対応する画像に変換し;複数の目的カラー・グレードは、様々な色空間を示す第1次元と様々なダイナミック・レンジを示す第2次元とを有する2次元グリッドを形成する。
【0169】
[0157] 実施形態において、選択されたカラー・グレードは、フォワード経路から生成された他の全ての目的カラー・グレードのダイナミック・レンジよりも高いダイナミック・レンジの選択された目的カラー・グレードであって、フォワード経路から生成された他の全ての目的カラー・グレードの色空間よりも高い色空間のものである。
【0170】
[0158] 実施形態において、選択されたカラー・グレードは、フォワード経路から生成された他の全ての目的カラー・グレードのダイナミック・レンジよりも低いダイナミック・レンジの選択された目的カラー・グレードであって、フォワード経路から生成された他の全ての目的カラー・グレードの色空間よりも低い色空間のものである。
【0171】
[0159]
図4Bは、本発明の実施形態による例示的なプロセス・フローを示す。幾つかの実施形態では、1つ以上の演算デバイス又はコンポーネント(例えば、符号化デバイス/モジュール、トランスコーディング・デバイス/モジュール、復号化デバイス/モジュール、逆トーン・マッピング・デバイス/モジュール、トーン・マッピング・デバイス/モジュール、メディア・デバイス/モジュール、逆マッピング生成及びアプリケーション・システム等)が、このプロセス・フローを実行してもよい。ブロック452において、ビデオ復号化システムは、上流のビデオ・エンコーダで実現されるフォワード経路から生成されるカラー・グレードの画像データを、画像メタデータを伴うビデオ信号から復号化する。画像メタデータは、フォワード経路における1つ以上のフォワード・ニューラル・ネットワーク、及び上流のエンコーダで実現される対応するバックワード経路における1つ以上のバックワード・ニューラル・ネットワークのサブセットに関する演算パラメータのサブセットを少なくとも含む。
【0172】
[0160] ブロック454において、ビデオ復号化システムは、1つ以上のフォワード・ニューラル・ネットワーク及び/又は1つ以上のバックワード・ニューラル・ネットワークを演算パラメータのサブセットとともに、カラー・グレードの画像データに適用し、異なるカラー・グレードの再構成された画像データを生成する。
【0173】
[0161] ブロック456において、ビデオ復号化システムは、異なるカラー・グレードの再構成された画像データから導出される表示画像が、ディスプレイ・デバイスでレンダリングされることを引き起こす。
【0174】
[0162] 実施形態において、カラー・グレードのフォワード・リシェイプされた画像を含む画像データは、複数の目的カラー・グレードに関する1つ以上のフォワード・ニューラル・ネットワークにより生成された複数のフォワード・リシェイプされた画像の中から選択され;1つ以上のバックワード・ニューラル・ネットワークはフォワード経路で生成された最新のフォワード・リシェイプされた画像を、複数の目的カラー・グレードに関する複数のバックワード・リシェイプされた画像に変換する。
【0175】
[0163] 実施形態において、表示デバイス、モバイル・デバイス、セット・トップ・ボックス、マルチメディア・デバイス等の演算デバイスは、前述の任意の方法を実行するように構成される。実施形態において、装置は、プロセッサを備え、前述の任意の方法を実行するように構成される。実施形態において、非一時的なコンピュータ読み取り可能な記憶媒体は、ソフトウェア命令を記憶し、ソフトウェア命令は、1つ以上のプロセッサによって実行されると、前述の任意の方法のパフォーマンスを生じさせる。
【0176】
[0164] 実施形態において、演算デバイスは、1つ以上のプロセッサと命令のセットを記憶する1つ以上の記憶媒体とを備え、命令は、1つ以上のプロセッサによって実行されると、前述の任意の方法のパフォーマンスを生じさせる。
【0177】
[0165] 本件において個々の実施形態が議論されているが、本件で議論される複数の実施形態及び/又は部分的な実施形態の任意の組み合わせが、更なる実施形態を形成するように組み合わされてもよいことに留意されたい。
[0166] コンピュータ・システム実装例
本発明の実施形態は、コンピュータ・システム、電子回路及びコンポーネント内に構成されるシステム、マイクロコントローラのような集積回路(IC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はその他の構築可能な又はプログラマブル論理デバイス(PLD)、離散時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、及び/又は、これらのシステム、デバイス又はコンポーネントの1つ以上を含む装置を用いて実施することができる。コンピュータ及び/又はICは、本件で説明されるように、拡張されたダイナミック・レンジを有する画像の適応知覚量子化に関する命令を遂行、制御、又は実行することができる。コンピュータ及び/又はICは、本件で説明される適応知覚量子化プロセスに関連する任意の様々なパラメータ又は値を計算することができる。画像及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの様々な組み合わせで実装することができる。
【0178】
[0167] 本発明の特定の実装は、プロセッサに本開示の方法を実行させるソフトウェア命令を実行するコンピュータ・プロセッサを含む。例えば、ディスプレイ、エンコーダ、セット・トップ・ボックス、トランスコーダ等における1つ以上のプロセッサは、プロセッサにアクセス可能なプログラム・メモリ内のソフトウェア命令を実行することによって、上述したようなHDR画像の適応知覚量子化に関連する方法を実施することができる。本発明の実施形態はまた、プログラム製品の形態で提供されてもよい。プログラム製品は、命令を含むコンピュータ読み取り可能な信号のセットを担う任意の非一時的な媒体を含む可能性があり、命令は、データ・プロセッサによって実行されると、データ・プロセッサに本発明の実施形態の方法を実行させる。本発明の実施形態によるプログラム製品は、多種多様な形態の内の任意のものであってよい。プログラム製品は、例えば、フロッピー・ディスケット、ハード・ディスク・ドライブを含む磁気データ記憶媒体、CD-ROM、DVDを含む光データ記憶媒体、ROM、フラッシュROMを含む電子データ記憶媒体などのような物理媒体を含むことが可能である。プログラム製品におけるコンピュータ読み取り可能な信号は、オプションとして、圧縮又は暗号化されてもよい。
【0179】
[0168] コンポーネント(例えば、ソフトウェア・モジュール、プロセッサ、組み立て部品、デバイス、回路など)が上記で言及される場合、別段の指定がない限り、そのコンポーネントへの言及(「手段」への言及を含む)は、説明されたコンポーネントの機能を実行する任意のコンポーネント(例えば、機能的に等価なもの)であって、開示された構造と構造的には等価でないが本発明の説明された例示的な実施形態における機能を実行するコンポーネントを含むものを、当該コンポーネントの均等物として含むように解釈されるべきである。
【0180】
[0169] 一実施形態によれば、本件で説明される技術は、1つ以上の専用目的の演算デバイスによって実現される。専用目的の演算デバイスは、本技術を実行するために配線されてもよいし、又は本技術を実行するために永続的にプログラムされた1つ以上の特定用途向け集積回路(ASIC)又はフィールド・プログラマブル・ゲート・アレイ(FPGA)のようなデジタル電子デバイスを含んでもよいし、あるいはファームウェア、メモリ、その他のストレージ、又は組み合わせにおけるプログラム命令に従って本技術を実行するようにプログラムされた1つ以上の汎用ハードウェア・プロセッサを含んでもよい。このような特殊目的の演算デバイスはまた、カスタム配線ロジック、ASIC、又はFPGAを、カスタム・プログラミングと組み合わせて、本技術を達成することもできる。特殊目的の演算デバイスは、デスクトップ・コンピュータ・システム、ポータブル・コンピュータ・システム、ハンドヘルド・デバイス、ネットワーキング・デバイス、又はその他の何らかのデバイスであって、本技術を実施するために配線及び/又はプログラム・ロジックを組み込んだものであってもよい。
【0181】
[0170] 例えば、
図5は、本発明の実施形態を実装することが可能なコンピュータ・システム500を示すブロック図である。コンピュータ・システム500は、情報を通信するためのバス502又はその他の通信メカニズムと、情報を処理するためにバス502と結合されたハードウェア・プロセッサ504とを含む。ハードウェア・プロセッサ504は、例えば、汎用マイクロプロセッサであってもよい。
【0182】
[0171] コンピュータ・システム500はまた、プロセッサ504によって実行される命令及び情報を記憶するためにバス502に結合された、ランダム・アクセス・メモリ(RAM)又はその他のダイナミック・ストレージ・デバイスのようなメイン・メモリ506を含む。メイン・メモリ506はまた、プロセッサ504によって実行される命令の実行中に、一時変数又はその他の中間情報を記憶するために使用されてもよい。このような命令は、プロセッサ504にアクセス可能な非一時的な記憶媒体に記憶されると、コンピュータ・システム500を、命令で指定された演算を実行するようにカスタマイズされた専用マシンに変える。
【0183】
[0172] コンピュータ・システム500は、バス502に結合されたリード・オンリー・メモリ(ROM)508又はその他のスタティック・ストレージ・デバイスを、プロセッサ504用にスタティック情報及び命令を記憶するために更に含む。情報及び命令を記憶するために、磁気ディスク又は光ディスクのようなストレージ・デバイス510が設けられてバス502に結合される。
【0184】
[0173] コンピュータ・システム500は、バス502を介して、コンピュータ・ユーザーに情報を表示するための液晶ディスプレイのようなディスプレイ512に結合される可能性がある。入力デバイス514は、英数字及びその他のキーを含み、情報及びコマンド選択をプロセッサ504へ連絡するためにバス502に結合される。別のタイプのユーザー入力デバイスは、マウス、トラックボール、又はカーソル方向キーのようなカーソル制御部516であり、方向情報やコマンド選択をプロセッサ504へ連絡し、ディスプレイ512上のカーソルの動きを制御する。この入力デバイスは、典型的には、第1軸(例えば、x)及び第2軸(例えば、y)の2つの軸における2つの自由度を有し、デバイスが平面内の位置を指定することを可能にする。
【0185】
[0174] コンピュータ・システム500は、カスタマイズされたハード・ワイヤード・ロジック、1つ以上のASIC又はFPGA、ファームウェア、及び/又はプログラム・ロジックを用いて本件で説明される技術を実装することが可能であり、プログラム・ロジックは、コンピュータ・システムと組み合わせて、コンピュータ・システム500が、専用マシンであるようにするか又はプログラムする。一実施形態によれば、本件で説明される技術は、メイン・メモリ506に含まれる1つ以上の命令の1つ以上のシーケンスを実行するプロセッサ504に応答して、コンピュータ・システム500によって実行される。そのような命令は、ストレージ・デバイス510のような別の記憶媒体からメイン・メモリ506内へ読み込まれてもよい。メイン・メモリ506に含まれる命令のシーケンスの実行は、プロセッサ504が、本件で説明されるプロセス・ステップを実行することを引き起こす。別の実施形態では、ハード・ワイヤード回路が、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて使用されてもよい。
【0186】
[0175] 本件で使用される用語「記憶媒体」は、マシンを特定の形態で動作させる命令及び/又はデータを記憶する任意の非一時的な媒体を指す。そのような記憶媒体は、不揮発性媒体及び/又は揮発性媒体を含んでもよい。不揮発性媒体は、例えば、ストレージ・デバイス510のような光ディスク又は磁気ディスクを含む。揮発性媒体は、メイン・メモリ506のようなダイナミック・メモリを含む。記憶媒体の一般的な形態は、例えば、フロッピー・ディスク、フレキシブル・ディスク、ハード・ディスク、ソリッド・ステート・ドライブ、磁気テープ、又はその他の任意の磁気データ記憶媒体、CD-ROM、その他の任意の光学データ記憶媒体、孔のパターンを利用する何らかの物理媒体、RAM、PROM、及びEPROM、FLASH-EPROM、NVRAM、その他の任意のメモリ・チップ又はカートリッジを含む。
【0187】
[0176] 記憶媒体は、伝送媒体とは区別されるが、伝送媒体に関連して使用されてもよい。伝送媒体は、記憶媒体の間で情報の転送することに関与する。例えば、伝送媒体は、バス502を構成するワイヤを含む同軸ケーブル、銅線及び光ファイバを含む。伝送媒体は、また、無線電波及び赤外線データ通信の間に生じるもののような音波又は光波の形態をとることも可能である。
【0188】
[0177] 1つ以上の命令の1つ以上のシーケンスを、実行のためにプロセッサ504に搬送することには、様々な形態の媒体が関与する可能性がある。例えば、命令は、最初に、遠隔コンピュータの磁気ディスク又はソリッド・ステート・ドライブ上に搬送されてもよい。遠隔コンピュータは、命令を、そのダイナミック・メモリにロードし、その命令を、モデムを用いて電話回線で送信することが可能である。コンピュータ・システム500にとってローカルなモデムは、電話回線でデータを受信し、赤外線送信機を使用して、データを赤外線信号に変換することができる。赤外線検出器は、赤外線信号で搬送されたデータを受信することができ、適切な回路がそのデータをバス502に置くことができる。バス502はデータをメイン・メモリ506に運び、そこからプロセッサ504が命令を取り出して実行する。メイン・メモリ506によって受信された命令は、オプションとして、プロセッサ504による実行の前又は後の何れかで、記憶デバイス510に記憶することができる。
【0189】
[0178] コンピュータ・システム500はまた、バス502に結合された通信インターフェース518を含む。通信インターフェース518は、ローカル・ネットワーク522に接続されたネットワーク・リンク520に対する双方向データ通信結合を提供する。例えば、通信インターフェース518は、統合サービス・デジタル・ネットワーク(ISDN)カード、ケーブル・モデム、衛星モデム、又は、対応するタイプの電話回線にデータ通信接続を提供するモデムであってもよい。別の例として、通信インターフェース518は、データ通信接続を、互換性のあるLANに提供するためのローカル・エリア・ネットワーク(LAN)カードであってもよい。また、無線リンクが実装されてもよい。そのような実装では、通信インターフェース518は、種々のタイプの情報を表すデジタル・データ・ストリームを搬送する電気信号、電磁信号、又は光信号を送受信する。
【0190】
[0179] ネットワーク・リンク520は、典型的には、1つ以上のネットワークを介して他のデータ・デバイスへのデータ通信を提供する。例えば、ネットワーク・リンク520は、ローカル・ネットワーク522を介して、ホスト・コンピュータ524に対する、又はインターネット・サービス・プロバイダ(ISP)526によって運営されるデータ装置に対する接続を提供することができる。次に、ISP 526は、現在一般に「インターネット」528と呼ばれている世界的なパケット・データ通信ネットワークを介して、データ通信サービスを提供する。ローカル・ネットワーク522及びインターネット528は両方とも、デジタル・データ・ストリームを搬送する電気信号、電磁信号又は光信号を使用する。種々のネットワークを介する信号、ネットワーク・リンク520における及び通信インターフェース518を介する信号は、コンピュータ・システム500との間でデジタル・データを搬送するものであり、これは伝送媒体の例示的な形態である。
【0191】
[0180] コンピュータ・システム500は、ネットワーク、ネットワーク・リンク520及び通信インターフェース518を介して、メッセージを送信し、プログラム・コードを含むデータを受信することができる。インターネットの例において、サーバー530は、インターネット528、ISP 526、ローカル・ネットワーク522、及び通信インターフェース518を介して、アプリケーション・プログラムの要求されたコードを送信してもよい。
【0192】
[0181] 受信されたコードは、それが受信されたときにプロセッサ504によって実行され、及び/又は後の実行のためにストレージ・デバイス510又はその他の不揮発性ストレージに記憶されることが可能である。
[0182] 均等、拡張、代替及びその他
先述の説明では、本発明の実施形態は、実装ごとに異なる可能性のある多数の具体的な詳細を参照しながら説明されきた。従って、本発明のクレームされる実施態様の唯一かつ排他的な指標であって、本発明のクレームされた実施態様であるように出願人によって意図されているものは、本件から発行されるクレームのセットであって、当該クレームが発行される特定の形式(以後の如何なる修正も含む)におけるものである。当該クレームに含まれる用語について本件で明示的で説明される如何なる定義も、当該クレームで使用されるそのような用語の意味を支配するものとする。従って、クレームに明示的で記載されていない限定、要素、特性、特徴、効果又は属性は、如何なる方法によっても当該クレームの範囲を限定するはずはない。従って、明細書及び図面は、限定的な意味ではなく例示的に解釈されることになる。
【0193】
[0183] 本発明の種々の態様は、以下に列挙される実施形態(enumerated example embodiments,EEE)から理解することが可能である。
【0194】
EEE 1. 方法であって:
1つ以上のフォワード・ニューラル・ネットワークを含むフォワード経路と、1つ以上のバックワード・ニューラル・ネットワークを含むバックワード経路とを含むエンド・ツー・エンドの画像マッピング・パイプラインに対する入力として、元カラー・グレードの元画像と目的カラー・グレードの目的画像とを受信するステップ;
前記元カラー・グレードの元画像をフォワード・リシェイプし、前記目的カラー・グレードのフォワード・リシェイプされた画像を生成するために、前記フォワード経路において前記1つ以上のフォワード・ニューラル・ネットワークを適用するステップ;
前記目的カラー・グレードのフォワード・リシェイプされた画像をバックワード・リシェイプし、前記元カラー・グレードのバックワード・リシェイプされた画像を生成するために、前記バックワード経路において前記1つ以上のバックワード・ニューラル・ネットワークを適用するステップ;
前記フォワード経路と前記バックワード経路に対して指定されたニューラル・ネットワーク・コスト関数のコストを生成するステップであって、コストは、前記フォワード・リシェイプされた画像と前記目的画像との間の第1差分から計算されるフォワード・コスト部分を含み、前記コストは、前記バックワード・リシェイプされた画像と前記元画像との間の第2差分から計算されるバックワード・コスト部分を含む、ステップ;及び
前記ニューラル・ネットワーク・コスト関数から生成されたコストを基礎の一部として使用して、前記1つ以上のフォワード・ニューラル・ネットワークと前記1つ以上のバックワード・ニューラル・ネットワークに関する演算パラメータを決定するステップ;
を含み;オプションとして:
前記フォワード経路から生成された選択されたカラー・グレードの画像データを、画像メタデータとともにビデオ信号に符号化するステップを更に含み、前記画像メタデータは、前記1つ以上のフォワード・ニューラル・ネットワーク及び/又は前記1つ以上のバックワード・ニューラル・ネットワークのサブセットに関する演算パラメータを少なくとも含み、前記ビデオ信号の受信側デバイスは、その選択されたカラー・グレードの前記画像メタデータと前記画像データを用いて、異なるカラー・グレードの再構成された画像データを生成することを、結果的に生じさせる方法である。
【0195】
EEE 2. EEE 1の方法において、ビデオ信号は、単層の後方互換性のある信号を表す。
【0196】
EEE 3. EEE 1又は2の方法において、1つ以上のフォワード・ニューラル・ネットワークは、元カラー・グレードの元画像を、複数の目的カラー・グレードのための複数のフォワード・リシェイプされた画像に変換し;1つ以上のバックワード・ニューラル・ネットワークは、フォワード経路内で最後に生成されたフォワード・リシェイプされた画像を、複数の目的カラー・グレードのための複数のバックワード・リシェイプされた画像に変換する。
【0197】
EEE 4. EEE 1-3のうちの何れかの方法において、目的カラー・グレードのフォワード・リシェイプされた画像は、フォワード経路内で最後に生成されたフォワード・リシェイプされた画像である。
【0198】
EEE 5. EEE 1-3のうちの何れかの方法において、目的カラー・グレードのフォワード・リシェイプされた画像は、フォワード経路内で最後に生成されたフォワード・リシェイプされた画像ではない。
【0199】
EEE 6. EEE 1-5のうちの何れかの方法において、画像メタデータは、1つ以上のバックワード・ニューラル・ネットワークのみに対する演算パラメータを含む。
【0200】
EEE 7. EEE 1-5のうちの何れかの方法において、画像メタデータは、1つ以上のフォワード・ニューラル・ネットワークと1つ以上のバックワード・ニューラル・ネットワークとの混合に関する演算パラメータを含む。
【0201】
EEE 8. EEE 1-7のうちの何れかの方法において、1つ以上のフォワード・ニューラル・ネットワークは、元カラー・グレードの元画像を、複数の目的カラー・グレードにおける複数の対応する画像にリシェイプし;複数の目的カラー・グレードは、様々な色空間を示す第1次元と様々なダイナミック・レンジを示す第2次元とを有する2次元グリッドを形成する。
【0202】
EEE 9. EEE 1-8のうちの何れかの方法において、選択されたカラー・グレードは、フォワード経路から生成された他の全ての目的カラー・グレードのダイナミック・レンジよりも高いダイナミック・レンジの選択された目的カラー・グレードであって、フォワード経路から生成された他の全ての目的カラー・グレードの色空間よりも高い色空間のものである。
【0203】
EEE 10. EEE 1-8のうちの何れかの方法において、選択されたカラー・グレードは、フォワード経路から生成された他の全ての目的カラー・グレードのダイナミック・レンジよりも低いダイナミック・レンジの選択された目的カラー・グレードであって、フォワード経路から生成された他の全ての目的カラー・グレードの色空間よりも低い色空間のものである。
【0204】
EEE 11. 方法であって:
上流のビデオ・エンコーダで実現されるフォワード経路から生成されるカラー・グレードの画像データを、画像メタデータを伴うビデオ信号から復号化するステップであって、画像メタデータは、フォワード経路における1つ以上のフォワード・ニューラル・ネットワーク、及び上流のエンコーダで実現される対応するバックワード経路における1つ以上のバックワード・ニューラル・ネットワークのサブセットに関する演算パラメータのサブセットを少なくとも含む、ステップ;
1つ以上のフォワード・ニューラル・ネットワーク及び1つ以上のバックワード・ニューラル・ネットワークを演算パラメータのサブセットとともに、カラー・グレードの画像データに適用し、異なるカラー・グレードの再構成された画像データを生成するステップ;
異なるカラー・グレードの再構成された画像データから導出される表示画像が、ディスプレイ・デバイスでレンダリングされることを引き起こすステップ;
を含む方法である。
【0205】
EEE 12. EEE 11に記載の方法において、カラー・グレードのフォワード・リシェイプされた画像を含む画像データは、複数の目的カラー・グレードに関する1つ以上のフォワード・ニューラル・ネットワークにより生成された複数のフォワード・リシェイプされた画像の中から選択され;1つ以上のバックワード・ニューラル・ネットワークはフォワード経路で生成された最新のフォワード・リシェイプされた画像を、複数の目的カラー・グレードに関する複数のバックワード・リシェイプされた画像に変換する。
【0206】
EEE 13. EEE 1-12に記載された何れか1つの方法を実行するように構成されたプロセッサを含むシステム。
【0207】
EEE 14. EEE 1-12に記載された何れか1つの方法を実行するように構成されたプロセッサを含む装置。
【0208】
EEE 15. EEE 1-12に記載された任意の方法に従って1つ以上のプロセッサを用いて方法を実行するためのコンピュータ実行可能命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。