IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特表2024-534183学習に基づいたイメージ/ビデオコーディングのためのリシェーパ
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-18
(54)【発明の名称】学習に基づいたイメージ/ビデオコーディングのためのリシェーパ
(51)【国際特許分類】
   H04N 19/503 20140101AFI20240910BHJP
   H04N 19/46 20140101ALI20240910BHJP
【FI】
H04N19/503
H04N19/46
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2024513349
(86)(22)【出願日】2022-08-05
(85)【翻訳文提出日】2024-02-28
(86)【国際出願番号】 US2022039593
(87)【国際公開番号】W WO2023033991
(87)【国際公開日】2023-03-09
(31)【優先権主張番号】21193790.9
(32)【優先日】2021-08-30
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】63/238,529
(32)【優先日】2021-08-30
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】イン,プオン
(72)【発明者】
【氏名】プゥ,ファーンジュイン
(72)【発明者】
【氏名】ルゥ,タオラン
(72)【発明者】
【氏名】アローラ,アルジュン
(72)【発明者】
【氏名】スゥ,グワン-ミーン
(72)【発明者】
【氏名】チェン,タオ
(72)【発明者】
【氏名】マッカーシー,ショーン トーマス
(72)【発明者】
【氏名】フサク,ウォルター ジェイ.
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MC11
5C159PP04
5C159RC11
5C159UA02
5C159UA05
(57)【要約】
入力領域で表現される入力イメージが入力ビデオ信号から受け取られる。前方リシェーピングは、リシェープイメージ領域で表現される前方リシェープイメージを生成するよう入力イメージに対して実行される。非リシェーピング符号化動作は、リシェープイメージを符号化ビデオ信号に符号化するよう実行される。非リシェーピング符号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているMLモデルを用いて実施される。符号化ビデオ信号の受け手デバイスは、前方リシェープイメージから再構成イメージを生成させられる。
【特許請求の範囲】
【請求項1】
入力ビデオ信号から、入力領域で表現される入力イメージを受け取ることと、
リシェープイメージ領域で表現される前方リシェープイメージを生成するよう前記入力イメージに対して前方リシェーピングを実行することと、
前記前方リシェープイメージを符号化ビデオ信号に符号化するよう非リシェーピング符号化動作を実行することであり、前記非リシェーピング符号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習(ML)モデルを用いて実施される、ことと、
前記符号化ビデオ信号の受け手デバイスに、前記前方リシェープイメージから再構成イメージを生成させることであり、前記再構成イメージは、前記受け手デバイスとともに動作するイメージディスプレイでレンダリングされる表示イメージを導出するために使用される、ことと
を有する方法。
【請求項2】
前記前方リシェープイメージは、1ピクセル×1ピクセルの空間カーネルサイズの畳み込みフィルタを用いて、3つの色チャネルにおける前記入力イメージ内の各入力コードワードをN個のチャネルにおける各々の前方リシェープコードワードに前方リシェーピングする第1畳み込みニューラルネットワークを用いて実行される前記前方リシェーピングによって生成され、Nは3以上の整数を表し、
前記再構成イメージは、1ピクセル×1ピクセルの空間カーネルサイズの第2畳み込みフィルタを用いて、前記N個のチャネルにおける前記入力イメージ内の各前方リシェープコードワードを前記3つの色チャネルにおける各々の再構成コードワードに逆リシェーピングする第2畳み込みニューラルネットワークを用いて実行される逆リシェーピングによって生成され、
前記第1畳み込みニューラルネットワークは、前記N個のチャネルにおける前方リシェープコードワードへの前記入力イメージ内の入力コードワードの非線形マッピングを含む、
請求項1に記載の方法。
【請求項3】
前記非リシェーピング符号化動作は、オプティカルフロー分析、動きベクトル符号化、動きベクトル復号化、動きベクトル量子化、動き補償、残差符号化、残差復号化、又は残差量子化、のうちの1つ以上を含む、
請求項1に記載の方法。
【請求項4】
前記前方リシェーピングは、前記非リシェーピング符号化動作の前に実行されるループ外イメージ処理動作として実行される、
請求項1に記載の方法。
【請求項5】
前記前方リシェーピングは、前記非リシェーピング符号化動作を含む全体的なループ内イメージ処理動作の一部として実行される、
請求項1に記載の方法。
【請求項6】
前記全体的なループ内イメージ処理動作は符号化動作である、
請求項5に記載の方法。
【請求項7】
前記前方リシェープイメージのイメージメタデータ部分は、前記符号化ビデオ信号によって運ばれるイメージメタデータの一部であり、
前記イメージメタデータ部分は、前記前方リシェーピングのための前方リシェーピングパラメータ、又は逆リシェーピングのための後方リシェーピングパラメータ、のうちの1つ以上を含む、
請求項1に記載の方法。
【請求項8】
前記イメージメタデータ部分は、前記前方リシェーピング又は前記逆リシェーピングのうちの一方のためのリシェーピングマッピングを明示的に指定するリシェーピングパラメータを含む、
請求項7に記載の方法。
【請求項9】
リシェーピングマッピングを明示的に指定する前記リシェーピングパラメータは、MLベースのリシェーピングマッピング予測方法、又は非MLベースのリシェーピングマッピング生成方法、のうちの1つによって生成される、
請求項8に記載の方法。
【請求項10】
前記イメージメタデータ部分は、大域的マッピング、又はイメージ適応マッピング、のうちの1つとして前記前方リシェーピングを特定するリシェーピングパラメータを含む、
請求項7に記載の方法。
【請求項11】
前記前方リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行される、
請求項1に記載の方法。
【請求項12】
リシェープイメージ領域で表現される前方リシェープイメージを符号化ビデオ信号から復号することであり、前記前方リシェープイメージは、入力イメージ領域で表現される入力イメージを前方リシェーピングすることによって上流デバイスによって生成されたものである、ことと、
再構成イメージ領域で表現される再構成イメージを生成するよう前記前方リシェープイメージに関連した非リシェーピング復号化動作とともに前記前方リシェープイメージに対して逆リシェーピングを実行することであり、前記逆リシェーピング及び前記前方リシェーピングはリシェーピング動作ペアを形成し、前記非リシェーピング復号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習(ML)モデルを用いて実施される、ことと、
前記再構成イメージから導出された表示イメージをイメージディスプレイでレンダリングさせることと
を有する方法。
【請求項13】
前記逆リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行される、
請求項12に記載の方法。
【請求項14】
前記逆リシェーピングは、イメージメタデータの一部として前記符号化ビデオ信号で運ばれる前記前方リシェープイメージのイメージメタデータ部分内でシグナリングされるリシェーピングマッピングを用いて実行される、
請求項12に記載の方法。
【請求項15】
プロセッサを有し、請求項1乃至14のうちいずれか一項に記載の方法を実行するよう構成される装置。
【請求項16】
コンピュータ実行可能命令を記憶し、
前記コンピュータ実行可能命令は、1つ以上のプロセッサで実行される場合に、前記1つ以上のプロセッサに、請求項1乃至14のうちいずれか一項に記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、イメージ処理動作に概して関係がある。より具体的には、本開示の実施形態は、ビデオコーデックに関係がある。
【背景技術】
【0002】
本明細書で使用されるように、「ダイナミックレンジ」(DR)という用語は、イメージ内の強度(例えば、輝度、ルーマ)範囲、例えば、最も暗い黒(ダーク)から最も明るい白(ハイライト)までを知覚するヒト視覚系(HVS)の能力を指すことができる。この意味で、DRは「シーン参照」(scene-referred)の強度に関係がある。DRはまた、特定の範囲の強度範囲を適切に又は近似的にレンダリングするディスプレイデバイスの能力にも関係があり得る。この意味で、DRは「ディスプレイ参照」の強度に関係がある。特定の意味が本願の明細書中のいずれかの点で特定の重要性を持つと明示的に指定されない限りは、用語は、いずれの意味でも、例えば同義的に、使用され得ることが推測されるべきである。
【0003】
本明細書で使用されるように、高ダイナミックレンジ(HDR)という用語は、ヒト視覚系(HVS)の14~15桁以上にわたるDR範囲に関係がある。実際に、ヒトが強度範囲内の広大な範囲を同時に知覚できるDRは、HDEと比べて多少切り詰められる可能性がある。本明細書で使用されるように、拡張ダイナミックレンジ(EDR)又は視覚ダイナミックレンジ(VDR)という用語は、シーン又はイメージにわたるいくらかの光順応変化を可能にしながら、目の動きを含むヒト視覚系(HVS)によるシーン又はイメージ内で知覚可能なDRに個別的に又は同義的に関係があることができる。本明細書で使用されるように、EDRは、5~6桁にわたるDRに関係があり得る。実際のシーン参照HDRと比較すると若干狭いかもしれないが、それでもEDRは広いDR範囲を表し、HDRとも呼ばれることがある。
【0004】
実際に、イメージは、色空間の1つ以上の色成分(例えば、ルーマY並びにクロマCb及びCr)を含み、各色成分は、ピクセルごとにnビットの精度で表される(例えば、n=8)。非線形輝度コーディング(例えば、ガンマ符号化)を用いて、n≦8であるイメージ(例えば、カラー24ビットJPEGイメージ)は、標準ダイナミックレンジのイメージと見なされ、一方、n>8であるイメージは、拡張ダイナミックレンジのイメージと見なされ得る。
【0005】
所与の表示特性の基準電気光学伝達関数(electro-optical transfer function,EOTF)は、入力ビデオ信号の色値(例えば、輝度)からディスプレイによって生成される出力スクリーン色値(例えば、スクリーン輝度)までの間の関係を特徴付ける。例えば、ITU Rec. ITU-R BT. 1886,“Reference electro-optical transfer function for flat panel displays used in HDTV studio production”(2011年3月)は、その全文を参照により本願に援用される非特許文献1であり、フラットパネルディスプレイの基準EOTFを定義している。ビデオストリームを考えると、そのEOTFに関する情報は、(イメージ)メタデータとしてビットストリームに埋め込まれ得る。本明細書での「メタデータ」という用語は、コーディングされたビットストリームの部分として伝送された任意の補助情報に関係があり、デコーダが復号されたイメージをレンダリングするのを助ける。そのようなメタデータには、本明細書で記載されているもののような、色空間又は色域(gamut)情報、参照ディスプレイパラメータ、及び補助信号パラメータが含まれ得るが、これらに限られない。
【0006】
本明細書で使用される「PQ」という用語は、知覚的輝度振幅量子化(perceptual luminance amplitude quantization)を指す。ヒト視覚系は、非常に非線形な方法で光レベルを増大させることに反応する。刺激を見る人の能力は、その刺激の輝度、刺激のサイズ、刺激を構成する空間周波数、及び刺激を見ている特定の瞬間に目が適応している輝度レベルによって影響される。いくつかの実施形態で、知覚量子化器関数は、線形入力グレーレベルを、ヒト視覚系におけるコントラスト感度閾値により良く一致する出力グレーレベルにマッピングする。PQマッピング関数の例は、SMPTE ST 2084:2014,“High Dynamic Range EOTF of Mastering Reference Displays”(以降「SMPTE」)で記載されており、この非特許文献2は、その全文を参照により本願に援用される。固定刺激サイズを仮定して、輝度レベル(例えば、刺激レベルなど)ごとに、その輝度レベルでの最大視覚コントラストステップは、最も敏感な適応レベル及び最も敏感な空間周波数に従って(HVSモデルに従って)選択される。
【0007】
200から1,000cd/m又はnitの輝度をサポートするディスプレイは、EDR(又はHDR)と比較して、標準ダイナミックレンジ(SDR)とも呼ばれる低ダイナミックレンジ(LDR)の特色を表す。EDRコンテンツは、より高いダイナミックレンジ(例えば、1,000nitから5,000nit又はそれ以上)をサポートするEDRディスプレイで表示されることがある。そのようなディスプレイは、光輝度能力(例えば、0から10,000nit又はそれ以上)をサポートする代替のEOTFを用いて定義され得る。そのようなEOTFの例は、SMPTE 2084及びRec.ITU-R BT.2100,“Image parameter values for high dynamic range television for use in production and international programme exchange”(2017年6月)で定義されている。ここで発明者によって認識されているように、多種多様なディスプレイデバイスの表示能力を効率的にサポートするために使用できるビデオコンテンツデータを合成する改善された技術が望まれている。
【0008】
このセクションで記載されているアプローチは、追求され得るアプローチであるが、必ずしも以前に考案又は追求されていたアプローチではない。従って、別段の指示がない限り、このセクションに記載されているアプローチのいずれも、単にこのセクションに含まれているという理由だけで従来技術として認定されると想定すべきではない。同様に、1つ以上のアプローチに関して特定された問題は、特に示されていない限り、このセクションに基づいて先行技術で認識されていると想定すべきではない。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】ITU Rec. ITU-R BT. 1886,“Reference electro-optical transfer function for flat panel displays used in HDTV studio production”(2011年3月)
【非特許文献2】SMPTE ST 2084:2014,“High Dynamic Range EOTF of Mastering Reference Displays”
【非特許文献3】Rec.ITU-R BT.2100,“Image parameter values for high dynamic range television for use in production and international programme exchange”(2017年6月)
【図面の簡単な説明】
【0010】
本発明の実施形態は、限定としてではなく、例として表されており、添付の図面の図中、同じ参照番号は類似した要素を参照するものである。
【0011】
図1A】学習に基づいたイメージ/ビデオコーデック内で又はそれとともにイメージ/ビデオリシェーパ(又はリシェーピングモジュール)が動作する例示的なコーデックアーキテクチャを表す。
図1B】学習に基づいたイメージ/ビデオコーデック内で又はそれとともにイメージ/ビデオリシェーパ(又はリシェーピングモジュール)が動作する例示的なコーデックアーキテクチャを表す。
図1C】学習に基づいたイメージ/ビデオコーデック内で又はそれとともにイメージ/ビデオリシェーパ(又はリシェーピングモジュール)が動作する例示的なコーデックアーキテクチャを表す。
図1D】学習に基づいたイメージ/ビデオコーデック内で又はそれとともにイメージ/ビデオリシェーパ(又はリシェーピングモジュール)が動作する例示的なコーデックアーキテクチャを表す。
図1E】学習に基づいたイメージ/ビデオコーデック内で又はそれとともにイメージ/ビデオリシェーパ(又はリシェーピングモジュール)が動作する例示的なコーデックアーキテクチャを表す。
図2A】リシェーピング動作が実行され得る例示的なワークフローを表す。
図2B】リシェーピング及び非リシェーピングMLに基づいたモデルを訓練する例示的なプロセスを表す。
図2C】例示的な前方及び逆/後方リシェーパネットを表す。
図3A】リシェーピングパラメータを符号化する例示的なプロセスフローを表す。
図3B】リシェーピングパラメータをパース又は復号する例示的なプロセスフローを表す。
図4A】例示的なプロセスフローを表す。
図4B】例示的なプロセスフローを表す。
図5】本明細書で記載されるコンピュータ又はコンピューティングデバイスが実装され得る例示的なハードウェアプラットフォームの略ブロック図を表す。
【発明を実施するための形態】
【0012】
以下の記載では、説明を目的として、多数の具体的な詳細が、本開示の完全な理解をもたらすように、示されている。なお、本開示はこれらの具体的な詳細によらずとも実施されてもよいことは明らかである。他の事例では、よく知られている構造及びデバイスは、本開示を不必要な不明りょうにすることがないように、徹底的な詳細には記載されていない。
【0013】
[概要]
いくつかのアプローチの下で、学習に基づいたイメージ/ビデオコーディングのパフォーマンスは、訓練データセットに大いに依存する可能性がある。例えば、機械学習(ML)モデルは、SDRイメージ/ビデオの訓練データセット又はデータベースを用いて訓練される。訓練モデルからの推論を組み込むイメージ/ビデオコーディングは、HDRイメージ/ビデオの訓練データセット又はデータベースを用いて訓練されている同じモデルと比較して、HDRイメージ/ビデオに対して適切に機能しない場合がある。訓練イメージ及び非訓練イメージの両方が同じ又は類似したカラーグレードの(例えば、SDRなど)イメージ/ビデオである場合でさえ、訓練イメージは、特定のイメージ/ビデオ特性(例えば、視覚的に知覚可能な特性、非視覚的な特性、など)において非訓練イメージとは依然として異なることがある。例えば、モデルの適用又は推論段階での非訓練イメージ/ビデオは、スクリーンコンテンツ(SCC)イメージ/ビデオなどのテキスト領域及び画像領域を含むコンポジットイメージ/ビデオである可能性があり、一方、モデルの訓練段階での訓練イメージ/ビデオは非SCCイメージ/ビデオである可能性がある。その結果、訓練されたモデルからの推論を組み込むイメージ/ビデオコーディングは、SCCイメージ/ビデオに対して適切に機能しない場合がある。
【0014】
対照的に、本明細書で記載されるリシェーピング技術は、コーディング効率を向上させるために、及び訓練イメージ/ビデオと同じ(又は類似した)イメージ/ビデオ特性を持っていても持っていなくてもよい非訓練イメージ/ビデオに関して適応性をもたらすために、訓練されたMLモデルからの推論を組み込みイメージ/ビデオコーディングと関連して、(深層学習に基づいた)イメージ/ビデオコーデックにおいて実施され得る。
【0015】
これらの技術は、ビデオコーデックにおける様々な標準ベースの及び/又は独自仕様のシステム構成において実施され得る。本明細書で記載されるいくつか又は全てのリシェーピング動作は、ループ内(in-loop)動作として(イメージ/ビデオ符号化/復号化動作の一部として)又はループ外動作として(イメージ/ビデオ符号化/復号化の前又は後の前処理又は後処理動作/ツールの一部として)実施され得る。リシェーピング動作で使用される動作パラメータは、適用可能なイメージ/ビデオコーディングシンタックス規格に従ってシンタックス又はシンタックス要素を用いて符号化されているビデオ信号において、上流の符号化デバイス~受け手デバイスへシグナリングされ得る。例となるリシェーピング動作は、2019年5月9日に出願された国際特許出願第PCT/US2019/031620号(米国特許第10080026号)に記載されており、この特許出願の全内容は、あたかも本願に完全に記載されているかのように参照により本願に援用される。
【0016】
例となるイメージ/ビデオコーディングシンタックス規格には、Dolby Visionコーディングシンタックス規格、Versatile Video Coding又はVVC規格、などがあるが、必ずしもこれらだけに限られない。例となるシンタックス又はシンタックス要素には、補足拡張情報(supplemental enhanced information)又はSEIメッセージ、コーディングデータユニットヘッダフィールド、Luma Mapping Chroma Scaling又はLMCSデータフィールド、ループ内動作に関するデータフィールド、ループ外動作に関するデータフィールド、などのうちの1つ以上に関係がある任意のものがあるが、必ずしもこれらだけに限られない。LMCSに関係がある、例となるイメージ処理動作は、米国特許出願公開第2021/0076079号に記載されている。この公開公報は、その全文を参照により本願に援用される。
【0017】
いくつかの動作シナリオで、本明細書で記載されるリシェーピング動作は、ビデオ信号で受信された一部又は全てのイメージに同じリシェーピングマッピングを適用して、対応するリシェーピング又は再構成されたイメージを生成する大域的なリシェーピング動作であることができる。個々のイメージ/ピクチャのための個々のリシェーピングマッピング/関数を指定するリシェーピング動作パラメータは、符号化されたビデオ信号において上流のデバイスから下流の受け手デバイスへ送信される必要がない。上流のデバイスは、下流の受け手デバイスがリシェーピング動作で使用するために、複数部分の多項式、ルックアップテーブルなどの事前設定された、予め記憶された又は固定された大域的リシェーピングマッピング/関数を特定する1つ以上の比較的高度なリシェーピングパラメータ又はフラグにより識別子を下流の受け手デバイスへ単に通知すればよい。
【0018】
いくつかの動作シナリオで、本明細書で記載されるリシェーピング動作は、リシェーピング又は再構成されたイメージを生成するために、ビデオ信号で受信された一部又は全てのイメージの中の各個別のイメージに(例えば、場合により異なった、など)個々のリシェーピングマッピング/関数を適用するイメージ適応リシェーピング動作であることができる。個々のリシェーピングマッピング/関数を導出するために使用できるリシェーピング動作パラメータは、例えば、比較的高度なリシェーピングパラメータ又はフラグなどに加えて、符号化されたビデオ信号において符号化され、上流のデバイスから下流の受け手デバイスでシグナリングされ得る。
【0019】
本明細書で記載されるリシェーピング技術を実施しない他のアプローチの下では、上述されたように、MLモデルは、いくつかの特性において訓練イメージ/ビデオとは異なるイメージ/ビデオ(例えば、異なるダイナミックレンジ、異なる視覚認知特性、など)に関して推論において適切に機能しない可能性がある。この問題を解消するために、これらのMLモデルの一部又は全ては、モデル訓練段階で多種多様な訓練イメージ/ビデオにより訓練される必要があり得る。その上、MLモデルで使用される多数のモデルパラメータ(例えば、ニューラルネットワークで使用されるモデルパラメータ、など)は、モデルデプロイメント又は推論段階で異なる入力イメージを用いて適応的に最適化及びシグナリングされる必要があり得る。
【0020】
対照的に、本明細書で記載される技術の下では、MLモデルで使用される多数のモデルパラメータを訓練し、適応的に最適化/調整/シグナリング/伝送するのではなく、多項式係数(例えば、区分線形又は非線形リシェーピング関数/マッピングなどを指定する。)、MMR係数(例えば、MMRベースの交差チャネルリシェーピング関数/マッピングを指定又は定義する。)、TPB係数(例えば、テンソル積Bスプライン(Tensor-Product-B-Spline)ベースのリシェーピング関数/マッピングを指定又は定義する。)、などの比較的少ないリシェーピング動作パラメータが上流の符号化デバイスによって受け手デバイスへ適応的に最適化/調整/シグナリング/伝送され得る。例となるマルチカラーチャネル重回帰(multiple color channel multiple regression)(MMR)に基づいた動作は米国特許第8811490号に記載されている。この特許文献は、あたかも本明細書で十分に説明されているかのようにその全文を参照により本願に援用される。例となるTPBに基づいた動作は、2019年10月1日に出願された、発明の名称が「TENSOR-PRODUCT B-SPLINE PREDICTOR」である米国特許仮出願第62/908770号(代理人整理番号:60175-0417)に記載されている。この特許文献は、あたかも本明細書で十分に説明されているかのようにその全文を参照により本願に援用される。
【0021】
これらのリシェーピング動作パラメータにより指定されたリシェーピング動作は、MLモデルを訓練するために使用される訓練イメージ/ビデオ内に入力イメージに類似したイメージがないとしても、個々の入力イメージについて個別的に調整又は生成され、それによって、入力イメージの異なる特性へのより良い適応性をもたらすことができる。
【0022】
学習に基づいたイメージ/ビデオコーディング(例えば、符号化、復号化、圧縮、圧縮解除、など)におけるイメージ/ビデオリシェーピングは、明示的なマッピング(又はパラメトリックマッピング)又は暗黙的なマッピング(非パラメトリックマッピング)により実施又は実行され得る。
【0023】
明示的なマッピングの場合、イメージ/ビデオリシェーピングは、多項式、MMR、又はBスプライン若しくはBスプライン関数のテンソル積、などの動作パラメータのようなリシェーピング動作パラメータにより明示的に指定又は表現されたリシェーピング関数/マッピングを用いて、入力イメージをリシェーピングされたイメージにリシェーピングすることができる。リシェーピング動作パラメータは、ニューラルネットワークに基づいたものなどのMLモデルにより、又は推定/予測誤差を最小化する最適化問題を解くことなどの他の最適な手法により、取得又は生成され得る。
【0024】
暗黙的なマッピングの場合、イメージ/ビデオリシェーピングは、多項式、MMR、又はBスプライン若しくはBスプライン関数のテンソル積、などの動作パラメータのようなリシェーピング動作パラメータにより明示的に指定又は表現されたリシェーピング関数/マッピングを用いずに、比較的高い次元の変換を伴ったニューラルネットワークなどのMLベースリシェーピングモデルを用いて、リシェーピング対象のイメージをリシェーピングされたイメージにリシェーピングすることができる。MLベースリシェーピングモデルは、ニューラルネットワークの訓練された重み/バイアスなどの訓練された動作パラメータを有してもよく、ニューラルネットワークのこれらの訓練された動作パラメータ又は訓練された重み/バイアスを用いて、リシェーピング対象のイメージに対して暗黙的なリシェーピングマッピングを実行してもよい。
【0025】
比較的高い次元の変換又は重み/バイアスにおける動作パラメータは比較的多く、教師あり又は教師なし学習により訓練、最適化、又は生成され得る。訓練後、比較的高い次元の変換又はその中の比較的多数の訓練された動作パラメータを含むニューラルネットワークは、上流のイメージ/ビデオエンコーダ及び/又は下流のイメージ/ビデオデコーダなどのコーデックで予め記憶されても又は固定されてもよい。
【0026】
結果として、入力イメージが上流のイメージ/ビデオエンコーダによって符号化される場合、ニューラルネットワーク又はMLベースリシェーピングモデルのためのこれらの多数の動作パラメータは、上流のイメージ/ビデオエンコーダによってリシェーピングされたイメージを用いて符号化された出力又は符号化ビデオ信号の一部として含まれる必要がない。リシェーピングされたイメージが下流の受け手のイメージ/ビデオデコーダによって出力又は符号化ビデオ信号から復号される場合、ニューラルネットワーク又はMLベースリシェーピングモデルのための多数の動作パラメータは下流の受け手のイメージ/ビデオデコーダに既に記憶されており、デコーダは、ニューラルネットワーク又はMLベースリシェーピングモデルを用いて、リシェーピングされたイメージから再構成されたイメージを生成することができる。言い換えれば、暗黙的なマッピングを用いると、暗黙的なマッピングのための本明細書で記載されるMLリシェーピング変換又はモデルは、コーデックデバイスが実際のデプロイメント又は推論段階でランタイム時に変換又はモデルによるイメージリシェーピング動作を実行することを可能にするために、変換若しくはモデル及び/又はそのための動作パラメータが予め記憶され得るということで、変換又はモデルをシグナリングするために如何なるイメージメタデータもビデオ信号に含める必要がない。
【0027】
比較的高い次元の変換の例は、畳み込みニューラルネットワーク、すなわちCNN、又はCNNを伴ったデータ変換動作(例えば、1つ以上のデータ変換レイヤ、など)として全体的又は部分的に実施され得る。CNN又はその中のレイヤは、(例えば、出力チャネルを生成するためにCNNで使用されるフィルタのタイプに応じて、フィルタが適用されるイメージ内のピクセルの総数に応じて、など)比較的多数の出力チャネル及びCNNで使用される比較的多数の動作パラメータ(例えば、重み、バイアス、ノードの数、ストライドの数、レイヤのタイプ、フィルタのタイプ、フィルタカーネルのサイズ、活性化関数のタイプ、など)を有して動作し得る。
【0028】
2つのCNN又はその中で又はそれとともに実施される変換は、リシェーパペアを形成し、本明細書で記載される前方(forward)及び逆(inverse)/後方(backward)リシェーピング動作で夫々使用され得る。2つのCNN/変換のうちの一方は前方リシェーピング用であり、2つのCNN/変換のうちの他方は後方リシェーピング用である。同じペア内の2つのCNN/変換は、それらが可逆的(reversible)であるように訓練され得る。本明細書の全体にわたり、「逆リシェーピング」及び「後方リシェーピング」という用語は同義的に使用され得る。
【0029】
本明細書で使用されるように、「可逆的」という用語は、再構成されたイメージ(入力イメージと同じか又はそれに非常に近い)が、明示的又は暗黙的な後方リシェーピングマッピングを用いて、対応する明示的又は暗黙的な前方リシェーピングマッピングを用いて入力イメージを前方リシェーピングすることによって生成された前方リシェープイメージを後方リシェーピングすることによって生成され得る、ことを意味し得る。
【0030】
本明細書で記載される例示的な実施形態は、イメージデータを符号化することに関係がある。入力領域で表現される入力イメージは入力ビデオ信号から受け取られる。リシェープイメージ領域で表現される前方リシェープイメージを生成するよう、入力イメージに対して前方リシェーピングが実行される。リシェープイメージを符号化ビデオ信号に符号化するよう、非リシェーピング符号化動作が実行される。非リシェーピング符号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているMLモデルを用いて実施される。符号化ビデオ信号の受け手デバイスは、前方リシェープイメージから再構成イメージを生成させられる。再構成イメージは、受け手デバイスとともに動作するイメージディスプレイでレンダリングされる表示イメージを導出するために使用される。
【0031】
本明細書で記載される例示的な実施形態は、イメージデータを復号することに関係がある。リシェープイメージ領域で表現される前方リシェープイメージは符号化ビデオ信号から復号される。前方リシェープイメージは、入力イメージ領域で表現される入力イメージを前方リシェーピングすることによって上流デバイスによって生成されたものである。再構成イメージ領域で表現される再構成イメージを生成するよう、前方リシェープイメージに対して、それと関連して、逆リシェーピング及び非リシェーピング復号化動作が実行される。逆リシェーピング及び前方リシェーピングはリシェーピング動作ペアを形成する。非リシェーピング復号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているMLモデルを用いて実施される。再構成イメージから導出された表示イメージが、イメージディスプレイでレンダリングされる。
【0032】
[例となる、学習に基づいたイメージ/ビデオコーデックアーキテクチャ]
本明細書で記載されるMLベース又は非MLベースのリシェーピング技術は、様々な学習に基づいたイメージ/ビデオコーデックアーキテクチャ内に実装されるか又は組み込まれ得る。これらのアーキテクチャの一部は、リシェープイメージを生成するためにリシェーピング動作が明示的に指定されたリシェーピングマッピングを入力イメージに適用する明示的なマッピング動作モードで実行されるリシェーピング動作をサポートする。アーキテクチャのその他は、リシェープイメージを生成するためにリシェーピング動作がリシェーピング動作を暗黙的に(例えば、訓練イメージを用いて訓練された(例えば、多数の、シグナリングされない、予め記憶された、予めデプロイされた、など)最適化された動作パラメータを有するMLモデルを通じて)入力イメージに適用するリシェーピング動作をサポートする。しかし、いくつかの動作シナリオで、訓練イメージにより訓練されたMLモデルの最適化された動作パラメータの一部又は全ては、特に、これらのパラメータの総数及びこれらのパラメータを運ぶための総データ容量が比較的小さい(例えば、特定のデータ容量閾値を下回る、重み/バイアスシグナリングオーバーヘッドが比較的小さい、など)場合に、本明細書で記載される符号化ビデオ信号でシグナリングされ得る。
【0033】
図1Aは、ループ外イメージ/ビデオリシェーパ(又はリシェーピングモジュール)が学習に基づいたイメージ/ビデオコーデックとともに動作する例示的なコーデックアーキテクチャを表す。アーキテクチャの一部又は全ては、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアとコンピュータプロセッサ、ASIC,FPGA、DSP、IC、ビデオコーデックチップなどとの組み合わせで実施されてよい。
【0034】
図示されるように、前方リシェーパは、上流のイメージ/ビデオ符号化デバイスで学習に基づいたイメージ/ビデオエンコーダに関して(又はそれに関してループ外で)プリプロセッサとして実施され、一方、後方リシェーパは、下流の受け手のイメージ/ビデオ復号化デバイスで学習に基づいたイメージ/ビデオデコーダに関して(又はそれに関してループ外で)ポストプロセッサとして実施される。
【0035】
より具体的に、上流のイメージ/ビデオ符号化デバイスの前方リシェーパは、入力イメージを含む入力(イメージ/ビデオ信号)を受信し、ループ外リシェーピングを実行して前方リシェーピングマッピングを入力イメージに適用し、リシェープイメージと、(例えば、後方など)リシェーピングマッピングを指定又は定義するリシェープイメージメタデータとを生成する。
【0036】
学習に基づいたイメージ/ビデオエンコーダは、入力となるリシェープイメージを受け取り、リスエープイメージに対して学習に基づいた符号化動作を実行して圧縮イメージ及び非リシェープイメージメタデータを生成し、圧縮イメージを圧縮ビットストリームに符号化/圧縮する。図1Aに表されている学習に基づいた符号化及び復号化動作は、図1B又は図1Cで表されている一部又は全ての非リシェープイメージ/ビデオ符号化及び復号化動作と同じであっても、又は類似していてもよい。前方リシェーピングメタデータパラメータ(又は単に、リシェーピングメタデータ若しくはリシェーピングパラメータ)及び後方リシェーピングメタデータパラメータ(若しくはコンポーザメタデータ)を夫々使用する、例となる前方及び後方リシェーピングは、2020年4月21日にG-M. Suによって出願された、発明の名称が「Reshaping functions for HDR imaging with continuity and reversibility constraints」である米国特許仮出願第63/013063号、及び2020年4月22日G-M. Su及びH. Kaduによって出願された、発明の名称が「Iterative optimization of reshaping functions in single layer HDR image codec」である米国特許仮出願第63/013807号に記載されている。これらの特許文献の内容は、あたかも本明細書で十分に説明されているかのように参照により本願に全体として援用される。例となる非リシェープイメージ/ビデオ符号化及び復号化動作は、Guo Lu et al.,“DVC: An End-to-End Deep Video Compression Framework”,Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019)に記載されている。個の非特許文献は、その全文を参照により本願に援用される。
【0037】
前方リシェーパによって生成されるリシェープイメージメタデータ及び学習に基づいたエンコーダによって生成される非リシェープイメージメタデータは、圧縮されたビットストリームとともに上流の符号化デバイスによって(例えば、ループ外の前方リシェーパ又はループ内の学習に基づいたイメージ/ビデオエンコーダの一方又は両方、などによって)符号化ビデオ信号に含められ得る。
【0038】
図1Aの下流のイメージビデオ復号化デバイスの学習に基づいたイメージ/ビデオデコーダは、符号化ビデオ信号を受信し、学習に基づいた復号化動作を実行して、符号化ビデオ信号の圧縮イメージデータをリシェープイメージ(圧縮及び圧縮解除において量子化又はコーディングエラーが発生している可能性がある。)に復号/圧縮解除する。図1Aで表されている学習に基づいた復号化動作は、図1B又は図1Cで表されている一部又は全てのイメージ/ビデオ復号化動作と同じであっても、又は類似していてもよい。
【0039】
図1Aを参照すると、前方リシェーパによって生成されるリシェープイメージメタデータ及び学習に基づいたエンコーダによって生成される非リシェープイメージメタデータは、下流の復号化デバイスによって(例えば、ループ外の後方リシェーパ又は学習に基づいたイメージ/ビデオデコーダ、などによって)符号化ビデオ信号を用いて復号化又は受信され得る。
【0040】
後方リシェーパは、学習に基づいたイメージ/ビデオデコーダから入力として(前方)リシェープイメージを受け取り、ループ外リシェーピングを実行して、リシェープイメージメタデータで指定されている(又はそれから導出された)後方リシェーピングマッピングをリシェープイメージに適用して再構成イメージを生成する。
【0041】
図1Bは、ループ内イメージ/ビデオリシェーパ(又はリシェーピングモジュール)が学習に基づいたイメージ/ビデオコーデックとともに動作する第1の例示的なコーデックアーキテクチャを表す。アーキテクチャの一部又は全ては、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアとコンピュータプロセッサ、ASIC,FPGA、DSP、IC、ビデオコーデックチップなどとの組み合わせで実施されてよい。
【0042】
ループ内(例えば、ML、非ML、など)リシェーパを含むか又はそれと組み合わさる学習に基づいたイメージ/ビデオエンコーダは、図1Bで特定されている一部又は全てのモジュール又は動作を実施し得る。
【0043】
図示されるように、ループ内前方リシェーパの第1インスタンス104-1は、入力イメージ102を(例えば、入力ビデオ信号内の一連の連続的な入力イメージ、などで)受け取り、入力イメージ(102)に対してループ内前方リシェーピングを実行して、入力イメージ(102)と同じ視覚的意味内容を表す対応する前方リシェープイメージを生成する。
【0044】
残差生成動作106は残差前方リシェープイメージを生成し、残差生成動作106では、サンプル位置(x,y)での残差前方リシェープピクセル又はコードワード値Rが数学式R(x,y)=f(I(x,y),P(x,y))によって計算される。ここで、f(・・・)は、残差生成関数又は演算を表し、I(x,y)は、残差生成動作(106)への(ループ内前方リシェーパの第1インスタンス(104-1)からの)前方リシェープイメージ又はそのサンプル位置(x,y)での前方リシェープコードワードを表し、P(x,y)は、残差生成動作(106)への(ループ内前方リシェーパの第2インスタンス104-2からの)前方リシェープ予測イメージ又はそのサンプル位置(x,y)での前方リシェープ予測コードワードを表す。残差生成動作(106)が減算演算f(x,y)=I(x,y)-P(x,y)を用いて数学式により定義又は指定される第1の例で、残差イメージはピクセル又はコードワード値の差を含む。残差生成動作(106)が比率又は除算演算f(x,y)=I(x,y)/P(x,y)を用いて数学式により定義又は指定される第2の例で、残差イメージはピクセル又はコードワード値の比を含む。残差生成動作(106)がより一般的な演算f(x,y)=A×I(x,y)-B×P(x,y)+Oを用いて数学式により定義又は指定される第3の例で、このときA、B、Oは設定可能な値であり、残差イメージは、より一般的な演算を、ループ内前方リシェーパの第2インスタンス(104-2)によって出力された前方リシェープイメージ及び前方リシェープ予測イメージに適用することによって生成されたピクセル又はコードワード値を含む。
【0045】
残差エンコーダネット108などのニューラルネットワークは、残差符号化前方リシェープイメージを生成するよう残差前方リシェープイメージに残差符号化動作を適用し得る。
【0046】
(例えば、線形、非線形、知覚的、又は非知覚的など)量子化器の第1インスタンス110-1は、量子化された残差符号化前方リシェープイメージデータを生成するよう残差符号化前方リシェープイメージに適用される。
【0047】
残差デコーダネット112などのニューラルネットワークは、再構成された残差前方リシェープイメージを生成するよう、量子化された残差符号化前方リシェープイメージデータに残差復号化動作を適用し得る。
【0048】
残差エンコーダネット(108)及び残差デコーダネット(112)は、比較的小さい量子化誤差で比較的効率的に残差イメージデータ(非残差イメージデータと比較して異なる値範囲又は分布を有してもよい。)を符号化及び復号することができる残差コーディングネットワークを形成する。
【0049】
イメージ生成動作114は再構成された前方リシェープイメージを生成し、イメージ生成動作114では、サンプル位置(x,y)での再構成された前方リシェープピクセル又はコードワード値Qが第2の数学式Q(x,y)=g(R(x,y),P(x,y))によって計算される。ここで、g(・・・)は、残差生成関数又は演算(106)に対する反転動作であることができるイメージ生成操作を表す。イメージ生成動作(114)が加算演算g(x,y)=R(x,y)+P(x,y)を用いて第2の数学式により定義又は指定される第1の例で、再構成イメージは、残差ピクセル又はコードワード値と予測ピクセル又はコードワード値とのピクセル又はコードワード値の和を含む。イメージ生成動作(114)が乗算演算g(x,y)=R(x,y)×P(x,y)を用いて第2の数学式により定義又は指定される第2の例で、再構成イメージは、残差ピクセル又はコードワード値と予測ピクセル又はコードワード値とのピクセル又はコードワード値の積を含む。イメージ生成動作(114)が、上述されたf(x,y)=A×I(x,y)-B×P(x,y)+Oの数学的逆算である第2のより一般的な演算を用いて第2の数学式により定義又は指定される第3の例で、再構成イメージは、第2のより一般的な演算を前方リシェープイメージ及び残差前方リシェープイメージに適用することによって生成されたピクセル又はコードワード値を含む。
【0050】
ループ内後方又は逆リシェーパ118は、イメージ生成動作(114)によって出力された再構成された前方リシェープイメージに対してループ内後方(逆)リシェーピングを実行して、入力イメージ(102)と同じ視覚的意味内容を表すか又はそれに非常に近い対応する再構成イメージ(逆又は後方リシェープイメージである。)を生成する。
【0051】
図1Bに表されるように、再構成イメージは、前方リシェーパ(104)及び逆リシェーパ(118)によって実行されるループ内前方及び後方リシェーピングマッピング/動作と、ループ内前方及び後方リシェーピングマッピング/動作以外の非リシェーピング動作とにより、生成される。
【0052】
再構成イメージは、(例えば、全てのバッファされた参照イメージ内などで一意に)別個の参照イメージインデックス値で識別され、参照イメージバッファ120に格納され、その後、入力イメージ(102)に続く次の入力のための動き情報を生成するために使用され得る。
【0053】
限定としてではなく、例示として、オプティカルフローネット124などのニューラルネットワークは、入力イメージ(102)及び1つ以上の参照イメージを受け取り、各参照イメージは、参照イメージバッファ(120)から読み出された再構成イメージである。これらの参照イメージは、ゼロや、入力ビデオ信号内の一連の連続的な入力イメージによってカバーされる再生時間の1つ以上の特定の時間インスタンスを表す1つ以上の特定のフレームインデックス、などに夫々対応し、以前に処理された入力イメージから生成されて、入力イメージ(102)の再構成イメージが生成される前に参照イメージバッファ(120)に記憶されている。オプティカルフローネット(124)(例えば、特定のオプティカルフローCNN、など)は、入力イメージ(102)及び参照イメージを使用して、これらのイメージで検出された(生の)オプティカルフロー情報を生成し始める。
【0054】
MV(motion vector)エンコーダネット126などのニューラルネットワークは、入力イメージ(102)及び読み出された参照イメージ内の検出されたオプティカルフロー情報に対してMV符号化動作を実行して、MV符号化情報を生成し得る。
【0055】
(例えば、線形、非線形、知覚的、非知覚的、など)量子化器の第2インスタンス110-2は、量子化されたMV符号化情報を生成するようMV符号化情報に適用される。
【0056】
MVデコーダネット130などのニューラルネットワークは、量子化されたMV符号化情報に対してMV復号化動作を適用して、再構成されたMV情報を生成し得る。
【0057】
MVエンコーダネット(126)及びMVデコーダネット(130)は、比較的小さい量子化誤差で比較的効率的にMV情報(非MVデータと比較して異なる値範囲又は分布を有してもよい。)を符号化及び復号することができるMV情報コーディングネットワークを形成する。
【0058】
動き補償ネット122などのニューラルネットワークは、再構成されたMV情報を使用して、1つ以上の参照イメージ(MV情報を決定するために使用される参照イメージと同じであってよい。)内のイメージデータに対して動き補償動作を実行し、入力イメージ(102)に続く次の入力イメージの予測イメージを表す動き補償されたイメージを生成し得る。動き補償ネット(122)によって生成された動き補償されたイメージは、前方リシェーパの第2インスタンス(104-2)によって、次の入力イメージの(次の)前方リシェープ予測イメージに前方リシェーピングされ得る。
【0059】
訓練段階で、ループ内前方及び後方リシェーピングマッピング/動作を含むがそれらに限られない動作、又はその中で使用される動作パラメータは、(a)再構成イメージと再構成イメージを生み出す対応する入力イメージとの間の差、及び/又は(b)対応する入力イメージ(又は訓練イメージ)の表現により符号化された符号化(訓練)ビデオ信号を伝送するために使用されるビットレート、の一方又は両方を最小化するために、ビットレート推定ネット116(例えば、MLに基づいたビットレート推定モデル、人工ニューラルネットワーク又はANNに基づいたビットレート推定モデル、など)により最適化され得る。訓練段階での入力イメージは、訓練イメージであってよく、例えば、訓練データセットからの連続した訓練イメージの訓練シーケンス内にあってよい。(訓練)符号化ビデオ信号で符号化されている入力イメージ(又は訓練イメージ)の表現は、訓練イメージから導出されて参照イメージバッファ(120)に記憶されている(訓練)参照イメージから導出された量子化された残差前方リシェープイメージ及び動き情報を含んでよい。
【0060】
いくつかの動作シナリオで、ビットレート推定ネット(116)(例えば、特定のビットレート推定CNN、など)は、量子化動作の第1インスタンス(110-1)から生成された対応する量子化された残差符号化前方リシェープイメージデータと、量子化動作の第2インスタンス(110-2)から生成された対応する量子化されたMV情報とを一部又は全ての入力として使用して、(a)再構成イメージと対応する入力イメージとの間の差、及び/又は(b)入力イメージ(又は訓練イメージ)の表現により符号化された符号化(訓練)ビデオ信号を伝送するために使用されるビットレートを推定する。
【0061】
更に、任意に又は代替的に、学習に基づいたイメージ/ビデオエンコーダでのリシェーピング及び非リシェーピング動作又はそこで使用される動作パラメータを最適化するために、ビットレート推定ネット(116)は、量子化動作の第1インスタンス(110-1)から生成された対応する量子化された残差符号化前方リシェープイメージデータと、量子化動作の第2インスタンス(110-2)から生成された量子化されたMV情報とに加えて、又はそれらに代えて、学習に基づいたイメージ/ビデオエンコーダによって生成された入力、出力及び/又は中間イメージデータ、及び/又はMV情報及び非MV情報などのような他の(訓練)イメージデータを使用してもよい。
【0062】
いくつかの動作シナリオで、推測又は実際のデプロイメント段階(訓練段階の後)における学習に基づいたイメージ/ビデオエンコーダ(又は上流の符号化デバイス)は、訓練のために使用されるビットレート推定ネット(116)及び関連するデータフローが除かれている図1Bのコーデックアーキテクチャの一部又は全てのコンポーネント及びデータフローを組み込むよう実施され得る。
【0063】
いくつかの動作シナリオで、推測又は実際のデプロイメント段階における学習に基づいたイメージ/ビデオデコーダ(又は下流の受け手の復号化デバイス)は、訓練のために使用されるビットレート推定ネット(116)及び関連するデータフローが除かれており、(104-1)、(106)、(108)、(110-1)、(124)、(126)、及び(110-1)などの符号化特有のイメージ処理ブロック/インスタンス/コンポーネントが除かれており、かつ符号化特有のデータフローが除かれている/復号化動作に適応されている図1Bのコーデックアーキテクチャの一部又は全てのコンポーネント及びデータフローを組み込むよう実施され得る。
【0064】
より具体的には、図1Bに表されているように、入力イメージ(102)を入力として受け取ることの代わりに、(下流の受け手の)学習に基づいたイメージ/ビデオデコーダは、(上流の)学習に基づいたイメージ/ビデオエンコーダによって出力された符号化ビデオ信号から、量子化された残差符号化前方リシェープイメージデータ102-1を受け取る。量子化された残差符号化前方リシェープイメージデータ(102-1)は、(上流の)学習に基づいたイメージ/ビデオエンコーダ又はその中の量子化器の第1インスタンス(110-1)によって、入力イメージ(102)から生成され、符号化ビデオ信号内に符号化されたものである。
【0065】
更に、図1Bに表されているように、量子化されたMV符号化情報を処理ブロック(124)、(126)及び(110)を用いて生成することに代わりに、(下流の受け手の)学習に基づいたイメージ/ビデオデコーダは、(上流の)学習に基づいたイメージ/ビデオエンコーダによって出力された符号化ビデオ信号から、量子化されたMV符号化情報102-2を受け取る。量子化されたMV符号化情報(102-2)は、(上流の)学習に基づいたイメージ/ビデオエンコーダ又はその中の量子化器の第2インスタンス(110-2)によって、1つ以上の参照イメージと組み合わせて入力イメージ(102)から生成され、符号化ビデオ信号内に符号化されたものである。
【0066】
図1Cは、ループ内イメージ/ビデオリシェーパ(又はリシェーピングモジュール)が学習に基づいたイメージ/ビデオコーデックとともに動作する第2の例示的なコーデックアーキテクチャを表す。アーキテクチャの一部又は全ては、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアとコンピュータプロセッサ、ASIC,FPGA、DSP、IC、ビデオコーデックチップなどとの組み合わせで実施されてよい。
【0067】
ループ内(例えば、ML、非ML、など)リシェーパを含むか又はそれと組み合わさる学習に基づいたイメージ/ビデオエンコーダは、図1Bで特定されている一部又は全てのモジュール又は動作を実施し得る。
【0068】
図示されるように、図1Bの第1の例示的なアーキテクチャと比較して、図1Cの第2の例示的なアーキテクチャは、多数の変更又は相違を含む。より具体的には、入力ビデオ信号からの入力イメージ(102)及び参照イメージバッファ(120)からの参照イメージを使用して、図1Bのオプティカルフローネット(124)によりオプティカルフロー分析を実行することの代わり、図1Cのオプティカルフローネット(124)は、入力イメージ(102)の前方リシェーピングによりループ内前方リシェーパの第1インスタンス(104-1)によって生成された前方リシェープイメージと、参照イメージの前方リシェーピングによりループ内前方リシェーパの第2インスタンス(104-2)によって生成された前方リシェープ参照イメージとを使用してオプティカルフロー分析を実行し、(生の)オプティカルフロー情報を生成する。
【0069】
また、入力イメージ(102)の前方リシェーピングにより生成された前方リシェープイメージと、ループ内前方リシェーパの第2インスタンス(104-2)によって出力された前方リシェープ予測イメージとを図1Bの残差生成動作(106)への入力として使用することの代わりに、図1Cの残差生成動作(106)は、入力イメージ(102)の前方リシェーピングによりループ内前方リシェーパの第1インスタンス(104-1)によって生成された前方リシェープイメージと、動き補償ネット(122)によって生成された前方リシェープ予測イメージとを使用してオプティカルフロー分析を実行し、残差前方リシェープイメージを生成する。
【0070】
更に、図1Bに表されているように、動き補償ネット(122)を使用して、再構成されたMV情報に基づき1つ以上の参照イメージ内のイメージデータに対して動き補償動作を実行することによって動き補償されたイメージ又は予測されたイメージを構成し、次いで、前方リシェーパの第2インスタンス(104-2)を使用して、動き補償されたイメージ又は予測されたイメージから前方リシェープ予測イメージを生成することの代わりに、図1Cに表される第2の例示的なコーデックアーキテクチャは、最初に、前方リシェーパの第2インスタンス(104-2)を使用して、1つ以上の前方リシェープ参照イメージを生成し、次いで、動き補償ネット(122)を使用して、再構成されたMV情報に基づき1つ以上の前方リシェープ参照イメージ内のイメージデータに対して動き補償動作を実行することによって、前方リシェーピングされた動き補償されたイメージ又は前方リシェーピングされた予測されたイメージを構成する。
【0071】
図1Bのビットレート推定ネット(116)と同様に、いくつかの動作シナリオで、図1Cのビットレート推定ネット(116)(例えば、特定のビットレート推定CNN、など)は、量子化動作の第1インスタンス(110-1)から生成された対応する量子化された残差符号化前方リシェープイメージデータと、量子化動作の第2インスタンス(110-2)から生成された対応する量子化されたMV情報とを一部又は全ての入力として使用して、(a)再構成イメージと対応する入力イメージとの間の差、及び/又は(b)入力イメージ(又は訓練イメージ)の表現により符号化された符号化(訓練)ビデオ信号を伝送するために使用されるビットレート、を推定する。
【0072】
更に、任意に又は代替的に、学習に基づいたイメージ/ビデオエンコーダでのリシェーピング及び非リシェーピング動作又はそこで使用される動作パラメータを最適化するために、図1Cのビットレート推定ネット(116)は、量子化動作の第1インスタンス(110-1)から生成された量子化された残差符号化前方リシェープイメージデータと、量子化動作の第2インスタンス(110-2)から生成された量子化されたMV情報とに加えて、又はそれらに代えて、学習に基づいたイメージ/ビデオエンコーダによって生成された入力、出力及び/又は中間イメージデータ、及び/又はMV情報及び非MV情報などのような他の(訓練)イメージデータを使用してもよい。
【0073】
いくつかの動作シナリオで、推測又は実際のデプロイメント段階(訓練段階の後)における学習に基づいたイメージ/ビデオエンコーダ(又は上流の符号化デバイス)は、訓練のために使用されるビットレート推定ネット(116)及び関連するデータフローが除かれている図1Cのコーデックアーキテクチャの一部又は全てのコンポーネント及びデータフローを組み込むよう実施され得る。
【0074】
いくつかの動作シナリオで、推測又は実際のデプロイメント段階における学習に基づいたイメージ/ビデオデコーダ(又は下流の受け手の復号化デバイス)は、訓練のために使用されるビットレート推定ネット(116)及び関連するデータフローが除かれており、(104-1)、(106)、(108)、(110-1)、(124)、(126)、及び(110-1)などの符号化特有のイメージ処理ブロック/インスタンス/コンポーネントが除かれており、かつ符号化特有のデータフローが除かれている/復号化動作に適応されている図1Cのコーデックアーキテクチャの一部又は全てのコンポーネント及びデータフローを組み込むよう実施され得る。
【0075】
より具体的には、図1Cに表されているように、入力イメージ(102)を入力として受け取ることの代わりに、(下流の受け手の)学習に基づいたイメージ/ビデオデコーダは、(上流の)学習に基づいたイメージ/ビデオエンコーダによって出力された符号化ビデオ信号から、量子化された残差符号化前方リシェープイメージデータ102-1を受け取る。量子化された残差符号化前方リシェープイメージデータ(102-1)は、(上流の)学習に基づいたイメージ/ビデオエンコーダ又はその中の量子化器の第1インスタンス(110-1)によって、入力イメージ(102)から生成され、符号化ビデオ信号内に符号化されたものである。
【0076】
更に、図1Cに表されているように、量子化されたMV符号化情報を処理ブロック(124)、(126)及び(110)を用いて生成することに代わりに、(下流の受け手の)学習に基づいたイメージ/ビデオデコーダは、(上流の)学習に基づいたイメージ/ビデオエンコーダによって出力された符号化ビデオ信号から、量子化されたMV符号化情報102-2を受け取る。量子化されたMV符号化情報(102-2)は、(上流の)学習に基づいたイメージ/ビデオエンコーダ又はその中の量子化器の第2インスタンス(110-2)によって、1つ以上の参照イメージと組み合わせて前方リシェープイメージ(エンコーダ側で入力イメージ(102)を前方リシェーピングすることによって生成されたものである。)から生成され、符号化ビデオ信号内に符号化されたものである。
【0077】
図1Bに表されているコーデックアーキテクチャでは、動き推定及び動き補償は、元の(ピクチャ)領域(又は入力イメージが符号化又は表現されるコードワード空間)で、又は前方リシェーピングが未だ適用されるべき入力イメージ及び参照イメージに関して、実行される。対照的に、図1Cに表されているコーデックアーキテクチャでは、動き推定及び動き補償は、前方リシェープ(ピクチャ)領域(又は前方リシェープイメージが符号化又は表現されるコードワード空間)で実行される。
【0078】
[大域的リシェーピング及びイメージ適応リシェーピング]
図2Aは、リシェーピング動作が実行され得る2つの例示的なワークフロー(例えば、プロセスフロー、アプローチ、など)を表す。図2A(a)に示される第1のワークフロー又はアプローチは、大域的リシェーピングを実行するために使用されてよい。図2A(b)に示される第2のワークフロー又はアプローチは、イメージ/ピクチャ適応リシェーピング動作を実行するために使用されてよい。
【0079】
図2A(a)の第1のワークフロー/アプローチでは、(深層)学習に基づいたコーデックフレームワーク/アーキテクチャを実装するニューラルネットワークでの(例えば、図1A又は図1Bなどでの)重み及びバイアスなどの動作パラメータが最初に定義され得る。これらの動作パラメータは、リシェーピング動作(例えば、前方リシェーパ及び逆リシェーパなどによって実行される。)に加えて、非リシェーピング動作(例えば、動き推定、動き補償、非線形エンコーダ-デコーダ量子化ネットワークなど)で、最適化され、学習され、及び使用され得る。例えば、これらの動作パラメータは、前方及び逆リシェーパ又はリシェーピング動作で適用又は使用されるリシェーピング関数/マッピングを明示的又は暗黙的に指定する動作パラメータのサブセット(リシェーパ又はリシェーピングパラメータと呼ばれ得る。)を含み得る。学習に基づいたコーデックフレームワーク/アーキテクチャでの残りの動作パラメータ(イメージモデルパラメータ又は非リシェーピング動作と呼ばれ得る。)は、非リシェーピングMLモデルパラメータ、ANN(例えば、CNNなど)を指定するために使用される動作パラメータ、などを含んでもよいが、必ずしもこれらだけに限られない。
【0080】
モデル訓練段階で、非リシェーピング及びリシェーピングモデルパラメータは、リシェーピング動作及び非リシェーピング動作の両方のための全体的な訓練済みモデルを得るよう訓練データセット内の訓練イメージを用いて一緒に訓練され得る。
【0081】
モデル推論又はデプロイメント段階(図2Aでは「推論」と表記される。)で、非訓練イメージは、リシェーピング動作及び非リシェーピング動作の両方のための全ての訓練済み動作パラメータを含む全体的な訓練済みモデルを用いてランタイムで符号化又は復号され得る。いくつかの動作シナリオで、学習に基づいたコーデックフレームワーク/アーキテクチャを実装するコーデック(例えば、エンコーダ、デコーダ、トランスコーダ、など)によって使用される訓練済みモデルの一部又は全て(例えば、(1)リシェーパ又はリシェーピング動作によって適用されるリシェーピングマッピング/関数、及び(2)非リシェーピング動作で使用される動作パラメータ、を明示的又は暗黙的に指定する。)は、入力イメージ又は前方リシェープイメージなどの非訓練イメージがランタイムで符号化又は復号するためにコーデックによって受け取られる前に、コーデックで予め記憶され得る。リシェーピング動作及び非リシェーピング動作の両方のための訓練済み動作パラメータを有する訓練済みモデルは、これらの非訓練イメージを符号化又は復号するために適用され得る。いくつかの動作シナリオで、デコーダは、訓練済み動作パラメータを既に事前記憶されている。よって、個々のイメージのための個別的なリシェーピングマッピング/関数を指定する追加のビデオ信号コーディングシンタックスパラメータは、これらの動作パラメータでは、個々のイメージにより符号化されて符号化ビデオ信号内で送信される必要がない。
【0082】
図2A(b)の第2のワークフロー/アプローチでは、(深層)学習に基づいたコーデックフレームワーク/アーキテクチャで(例えば、図1A又は図1Bなどで)非リシェーピング動作(例えば、動き推定、動き補償、非線形エンコーダ-デコーダ量子化ネットワークなど)を実行するために使用されるニューラルネットワーク内の重み及びバイアスなどの動作パラメータが最初に定義され得る。これらの動作パラメータ(イメージモデル又は非リシェーピングパラメータと呼ばれ得る。)は、非リシェーピングMLモデルパラメータ、ANN(例えば、CNNなど)を指定するために使用される動作パラメータ、などを含んでもよいが、必ずしもこれらだけに限られない。
【0083】
モデル訓練段階で、イメージモデルパラメータは、非リシェーピング動作のための訓練済みモデルを得るよう訓練データセット内の訓練イメージを用いて訓練され得る。
【0084】
モデル推論又はデプロイメント段階で、非訓練イメージは、非リシェーピング動作のための訓練済み動作パラメータを含む訓練済みモデルを用いてランタイムで符号化又は復号され得る。いくつかの動作シナリオで、学習に基づいたコーデックフレームワーク/アーキテクチャでの非リシェーピング動作を実装するコーデック(例えば、エンコーダ、デコーダ、トランスコーダ、など)によって使用される訓練済みモデルの一部又は全ては、非訓練イメージがランタイムで符号化又は復号するためにコーデックによって受け取られる前に、コーデックで予め記憶され得る。非リシェーピング動作のための訓練済み動作パラメータを有する訓練済みモデルは、非訓練イメージを符号化又は復号するために適用され得る。このような動作シナリオで、非リシェーピング動作で使用される動作パラメータのための追加のビデオ信号コーディングシンタックスパラメータは、デコーダが訓練済み動作パラメータを既に事前記憶されているということで、非訓練イメージに対応する圧縮イメージにより符号化された符号化ビデオ信号内でランタイムでデコーダへ送信される必要がない。
【0085】
イメージ又はピクチャ適応リシェーパ又はリシェーピング動作は、第2のワークフロー/アプローチを含むが必ずしもこれに限られないワークフロー/アプローチで実施又はサポートされ得る。例えば、図2A(b)に表されているように、非リシェーピング動作のための訓練済みモデルは、リシェーパ又はリシェーピング動作に関する訓練済み動作又はリシェーピングパラメータを含まなくてもよい。推論又はデプロイメント段階で、エンコーダ側では、リシェーパ又はリシェーピング動作のためのイメージ特有のリシェーピングマッピング/関数を指定する動作パラメータ(又はリシェーピングパラメータ)が受け取られ、符号化ビデオ信号(例えば、コーディングされたビットストリームなど)に符号化される。これらのリシェーピングパラメータは、符号化ビデオ信号に含められ、下流の受け手のデコーダへシグナリングされ得る。リシェーピングパラメータは、リシェーパ又はリシェーピング動作で使用されるイメージ特有のリシェーピングマッピング/関数を導出するためにデコーダによって使用され得る。
【0086】
比較によって、第1のワークフロー/アプローチでは、リシェーパ又はリシェーピング動作のための動作パラメータ(又はリシェーパパラメータ)のサブセットは、全体的なモデル内の非リシェーピング動作のための動作パラメータとともに、訓練セットからの全ての訓練イメージを用いて訓練又は最適化される。よって、非訓練イメージが訓練イメージとは異なる特性を有する場合、リシェーパ又はリシェーピング動作は、訓練イメージと同じ特性を持ったイメージと比較して、コーディング効率を達成する上で最適ではない可能性がある。
【0087】
他方で、第2のワークフロー/アプローチでは、リシェーパパラメータは、非訓練イメージの夫々の特性に基づいて適応的に(例えば、動的に、事前にリシェーピングされたイメージ内の実際のコードワーク若しくはピクセル値又はそれらの分布に基づいて、など)推定され得る。よって、訓練データセット内の訓練イメージが非訓練イメージとは異なる特性を有する場合でさえ、リシェーパ又はリシェーピング動作は、非訓練イメージよりも訓練済みモデルに適合するリシェーピングされたイメージに非訓練イメージを変更又はリシェーピングするよう実施又は適用され得る。その結果、非訓練イメージとは異なる特性の訓練イメージによりモデル全体が事前訓練される第1のワークフロー/アプローチと比較して、より良いコーディング効率が達成又は改善され得る。
【0088】
イメージを搬送又は符号化するために使用されるビットレートを最小化すること、入力イメージとリシェープイメージとの間及びリシェープイメージと再構成イメージとの間のマッピングの可逆性を向上させること、量子化/コーディング誤差を減らすこと、他のイメージ処理動作が前方リシェープイメージ又は最高イメージを更に適応させて様々なイメージ表示をサポートすることを可能にすること、など、リシェーピング動作がコーディング効率を達成するために使用されてもよい。
【0089】
いくつかの動作シナリオで、本明細書で記載されるリシェーピング動作は、HDRak等SDRへの変換又はその逆の変換を実行するために使用され得る。しかし、HDR又はSDRのリシェープイメージ又は再構成イメージは、更なる表示適応なしで、1つ又はいくつかのイメージディスプレイを見るために最適化されてもされなくてもよい。これらの動作シナリオで、リシェーピング動作は、目標表示適応に関するものを含むがこれに限られない他のイメージ処理動作とともに実行するよう実施され得る。例えば、表示管理(display management,DM)動作が、イメージディスプレイでレンダリングされる表示イメージに再構成イメージを適応させるよう、本明細書で記載されるように受け手デバイスによって実行されてよい。DM動作は、符号化ビデオ信号で運ばれるイメージメタデータの一部として含まれているDMメタデータに基づいてよい。これは、コーディング効率のためである。
【0090】
トレードオフは、追加のシグナリングオーバーヘッド及びエンコーダ複雑性が、イメージ又はピクチャ適応リシェーパ又はリシェーピング動作を実施する第2のワークフロー/アプローチでは起こる可能性があることである。
【0091】
いくつかの動作シナリオで、前方リシェーピング動作を実行する前方リシェーパ及び逆/後方リシェーピング動作を実行する逆/後方リシェーパ(例えば、図1A図1B、又は図1Cに表されているもの)はリシェーパペアを形成する。前方リシェーパは、コードワード又はピクセル値を元のサンプル領域からマッピングされたサンプル領域へマッピングするよう前方リシェーピング動作を実行し、一方、逆/後方リシェーパは、マッピングされたコードワード又はマッピングされたピクセル値をマッピングされたサンプル領域から元のサンプル領域へ逆にマッピングするよう逆/後方リシェーピング動作を実行する。
【0092】
リシェーピング動作の動作パラメータ(又はリシェーパパラメータ)は、実施されるコーデックアーキテクチャに応じて、推論又はデプロイメント段階で異なるように使用される。
【0093】
図1Aに表されている動作シナリオでは、エンコーダ側では前方リシェーパ(例えば、のみ、など)が使用され、一方、デコーダ側では、逆/後方リシェーパ(例えば、のみ、など)が使用される。前方リシェーピング動作の動作パラメータは、前方リシェーパが前方リシェーピング動作を駆動又は実行するためにエンコーダ側で使用される。同様に、逆/後方リシェーピング動作の動作パラメータは、逆/後方リシェーパが逆/後方リシェーピング動作を駆動又は実行するためにデコーダ側で使用される。
【0094】
図1B又は図1Cに表されている動作シナリオでは、前方リシェーパ及び逆/後方リシェーパの両方が、エンコーダ側又はデコーダ側の夫々で推論又はデプロイメント段階において使用される。前方リシェーピング動作及び逆/後方リシェーピング動作の両方の動作パラメータは、前方リシェーパ及び逆/後方リシェーパが前方リシェーピング動作及び逆/後方リシェーピング動作を駆動又は実行するためにエンコーダ側又はデコーダ側の夫々で使用される。
【0095】
図2A(a)に表されている動作シナリオでは、大域的リシェーピング動作で使用される動作パラメータが、全体的なモデルにおいて非リシェーピング動作の動作パラメータ(非リシェーピングパラメータ)とともに定義され訓練され得る。これらの動作パラメータは、ランタイム時にデコーダで予め記憶されるか、事前設定されるか、又は固定され得る。
【0096】
訓練段階で、リシェーピングパラメータ及び非リシェーピングパラメータは両方とも、同じ訓練データセット内の同じ訓練イメージの一部又は全てを用いて最適化又は訓練され得る。リシェーピングパラメータは、前方リシェーピング動作で使用される前方リシェーピングパラメータと、逆/後方リシェーピング動作で使用される逆/後方リシェーピングパラメータとを含んでよい。
【0097】
推論又はデプロイメント段階で(現実の使用アプリケーションの場合に)、全体的なモデルは、エンコーダモデルとデコーダモデルとに分割できる。従って、リシェーピングパラメータは、前方リシェーピングパラメータと、逆/後方リシェーピングパラメータとに分割又は区分されてもよい。エンコーダモデルが前方リシェーピング動作しか実行しなくてもよいとき、前方リシェーピングパラメータのみがエンコーダモデルで使用又は記憶されればよい。デコーダモデルが逆/後方リシェーピング動作しか実行しなくてもよいとき、逆/後方リシェーピングパラメータのみがデコーダモデルで使用又は記憶されればよい。
【0098】
更に、リシェーピングパラメータ(例えば、逆/後方リシェーピングパラメータ、など)を使用するデコーダを含むデコーダモデルが、前方リシェープイメージにより符号化された符号化ビデオ信号が受け取られる前に大域的リシェーピング動作をサポートするようデコーダで記憶又は事前記憶され得る場合に、追加のリシェーピングパラメータ(デコーダで記憶又は事前記憶されているもの以外)は符号化ビデオ信号で送信されなくても又はそれに含まれなくてもよい。
【0099】
対照的に、イメージ/ピクチャ適応リシェーピング動作を実行するために使用されるコーデックアーキテクチャの場合、リシェーピングパラメータが各個別のイメージについて適応的に決定されるので、これらのリシェーピングパラメータは、符号化ビデオ信号で送信されるか又は含まれる必要があり得る。
【0100】
図1B又は図1Cに表されているように、学習に基づいたイメージ/ビデオエンコーダ又はデコーダのコーディングパイプラインにおける非リシェーピング動作は、ループフィルタ又はインループフィルタを用いて実施又は実行されてもよく、一部又は全てのフィルタは、ニューラルネットワークなどのMLモデルであってよい。例えば、コーディングパイプライン内のオプティカルフローネット(124)、MVエンコーダネット(126)、MVデコーダネット(130)、動き補償ネット(122)などのようないくつかのニューラルネットワークは、動き補償されたイメージを生成又は予測するよう訓練されてよい。コーディングパイプライン内の残差エンコーダネット(108)、残差デコーダネット(112)などのようないくつかのニューラルネットワークは、残差イメージを生成又は予測するよう訓練されてよい。動き補償されたイメージを生成又は予測するニューラルネットワークは、残差イメージを生成又は予測するニューラルネットワークに対して逆の又は可逆的な動作として機能するのではなく、残差イメージを生成又は予測するニューラルネットワークを補完する。言い換えれば、予測された動き補償されたイメージは、共通のイメージ/ピクチャ領域(例えば、リシェープイメージ/ピクチャ領域、非リシェープイメージ/ピクチャ領域、など)で、予測された残差イメージに対する反転として機能するのではなく、予測された残差イメージを補完する。
【0101】
非リシェーピング動作とは対照的に、コーディングパイプラインにおける前方リシェーピング動作は、予めリシェーピングされたイメージを、リシェープイメージ/ピクチャ領域で前方リシェープイメージに変換/リシェーピングすることによって、コーディング効率を向上させる。コーディングパイプラインにおける後方リシェーピング動作は、コーディング効率がリシェーピング動作によって改善又は向上した符号化ビデオ信号を用いて動作し、前方リシェープイメージを後方リシェーピングすることによって再構成イメージ/ピクチャ領域で再構成イメージを生成する。いくつかの動作シナリオで、再構成イメージ/ピクチャ領域は、元のイメージ/ピクチャ領域と同じである。よって、後方リシェーピング関数は、(例えば、論理的に、数学的に、など)前方リシェーピング動作に対して逆又は可逆的であるよう機能し、前方リシェーピング動作とリシェーパペアを形成する。
【0102】
述べられているように、学習に基づいたイメージ/ビデオコーディングにおけるイメージ/ビデオリシェーピングは、明示的なマッピング(又はパラメトリックマッピング)又は暗黙的なマッピング(非パラメトリックマッピング)により実施又は実行され得る。リシェーピングマッピング/関数は、リシェーピングマッピング/関数を指定する一部又は全ての動作パラメータが生成され、推定され、及び/又は符号化ビデオ信号で上流の符号化デバイスから下流の受け手の復号化デバイスへシグナリングされる場合に、明示的である。リシェーピングマッピング/関数は、リシェーピングマッピング/関数を指定する一部又は全ての動作パラメータがニューラルネットワークなどのMLモデルで暗示される場合に暗黙的であり、符号化ビデオ信号でシグナリングされてもされなくてもよい。
【0103】
リシェーピング動作がニューラルネットワークで実施又は実行される動作シナリオで、これらのニューラルネットワークは、非リシェーピング動作を実施又は実行するために使用されるニューラルネットワークと比較して、比較的少ないレイヤ総数、比較的簡単なニューラルネットワークビルディングブロック、比較的少ないニューラルネットワークパラメータ(例えば、モデルパラメータ、ニューラルネットワークの動作パラメータ、など)を使用することができる。例えば、いくつかの動作シナリオで、非リシェーピング動作のためのニューラルネットワークは、resBlock/resNetなどのニューラルネットワークビルディングブロックを使用し得る一方で、リシェーピング動作のためのニューラルネットワークは、そのような比較的複雑なニューラルネットワークビルディングブロックを使用しなくてもよく、resBlock/resNetビルディングブロックがなくてもよい。リシェーピング動作のためのニューラルネットワークは、比較的多いレイヤ総数、比較的複雑なニューラルネットワークフィルタ、などにより、イメージ内で描かれている動きに対して客観的イメージ分析を実行する必要がない場合がある。その結果、リシェーピング動作のためのニューラルネットワークは、ループ若しくはインループフィルタリング又はコーディングパイプライン内の他の非リシェーピング動作を実装するニューラルネットワークよりも浅くて単純な構造及びビルディングブロックを使用して信号の変換又はイメージのリシェーピングを達成することができる。
【0104】
ニューラルネットワークを用いて実行される、例となるリシェーピング動作は、2021年5月20日にGuan-Ming Su et al.によって出願された米国特許出願公開第2021/0150812号に記載されている。この特許文献は、あたかも本明細書で十分に説明されているかのように、参照により本願に援用される。
【0105】
[例となるイメージ適応リシェーピング方法]
イメージ/ピクチャ適応リシェーパ又はリシェーピング動作の場合、様々な方法が、リシェーピング動作のためのイメージ特有のリシェーピングマッピング/関数を指定する動作パラメータ(又はリシェーピングパラメータ)を生成又は推定するようエンコーダ側で、本明細書で記載される技術の下で、適用され得る。
【0106】
いくつかの動作シナリオで、図2Bに表されている例示的なプロセスフローにおいて、ブロック202は、訓練又は学習段階で、学習されたリシェーピングパラメータによらずに訓練対象モデル(又はそのモデルパラメータ)を符号化動作のための事前訓練済みモデルに訓練又は最適化するために、訓練データセット内の訓練イメージをロード及び使用することを含む。訓練又は学習段階で、事前訓練済みモデル又は訓練対象モデルは、非リシェーピング動作のみを実行するために、又は代替的に、初期、デフォルト、又は静的リシェーピングマッピングを用いてリシェーピング動作を実行するために、使用されてもよい。
【0107】
ブロック204は、事前訓練済みモデルの学習済みモデルパラメータを、訓練対象リシェーピングパラメータにより指定されている訓練対象モデルにコピーすることを含む。事前訓練済みモデルからのコピーされた学習済みモデルパラメータは、更なる訓練では凍結(freeze)されてもよい。
【0108】
ブロック206は、事前訓練済みモデルからのコピーされた学習済みモデルパラメータ及び現在凍結されている学習済みモデルパラメータを更に訓練又は最適化せずに、訓練対象モデル内の訓練対象リシェーピングパラメータのみを訓練済みモデル内の訓練済みリシェーピングパラメータに訓練又は最適化するよう、訓練データセット内の訓練イメージ(ブロック202で使用された訓練イメージと同じであってもなくてもよく、あるいは、まさに、ブロック208で符号化されるイメージであることができる。)をロード及び使用することを含む。
【0109】
ブロック208は、試験、推論又はデプロイメント段階で、コピーされた学習済みの事前訓練済みモデルパラメータ及び訓練済みモデルからの学習済みのリシェーピングパラメータの両方を使用して(例えば、非訓練、入力)イメージを符号化することを含む。
【0110】
図2Aのプロセスフローで示されるように、モデル微調整と同様に、リシェーピング動作を含む訓練済みモデルは、最初から訓練される必要はない。むしろ、訓練済みモデルは、事前訓練済みモデル内の非リシェーピング動作のための訓練済みモデルパラメータを利用することができる。
【0111】
更に、任意に又は代替的に、いくつかの動作シナリオで、リシェーピングパラメータは、反復確率的勾配法(iterative stochastic gradient method)などの勾配降下法を用いて比較的効率的に(例えば、比較的少ない繰り返し又はデータ点、などを使用して)学習、調整、計算又は収束され得る。例えば、リシェーピング動作に使用されるニューラルネットワークにおける重み/バイアスなどのニューラルネットワーク動作パラメータは、レートひずみ誤差/コスト関数によって測定される誤差又はコストを最小限にする反復確率的勾配法を用いてバックプロパゲーションにより繰り返し比較的頻繁に更新され得る。
【0112】
学習済みリシェーピングパラメータ及び学習済み非リシェーピングパラメータを含む訓練済みモデルは、個々の入力イメージにおける実際のコードワード又はその分布に応じて個々の入力イメージについて特に最適化されたリシェーピング関数/マッピングを(例えば、明示的に、又は全体的若しくは部分的に、など)指定する(例えば、ランタイム、動的、イメージ適応、など)動作パラメータを生成するために使用できる。これらのリシェーピング関数/マッピングは、入力イメージに関してリシェーピング動作を実行するために使用できる。
【0113】
更に、任意に又は代替的に、リシェーピング関数/マッピング、又は等価/近似曲線若しくはルックアップテーブルを(例えば、明示的に、など)定義する、これらのランタイムで生成された動作パラメータの一部又は全ては、受け手デバイスが再構成イメージを生成する際に必要に応じてリシェーピング動作を実行することができるように、リシェーピングされたイメージを用いて符号化された符号化ビデオ信号で運ばれるイメージメタデータの全体の一部としてリシェーピングメタデータとして含めることができる。
【0114】
いくつかの動作シナリオで、しらみつぶし探索(exhaustive search)が、複数の候補リシェーピング関数/マッピングの中から、イメージ(例えば、入力イメージ、前方リシェープイメージ、など)をリシェーピングするための(例えば、最良の、など)特定の(例えば、前方、逆又は後方、など)リシェーピング関数/マッピングを選択するために実施又は実行されてもよい。候補リシェーピング関数/マッピングの夫々は、Versatile Video Coding(VVC)規格などの適用可能なビデオコーディング規格に準拠したイメージ処理動作を実施するルーママッピング(LM)モジュールによって使用される複数部分の多項式(例えば、多重区分線形又は一次直線セグメント、多重区分二次多項式セグメント、など)などの曲線であってよい。これらの候補リシェーピング関数/マッピング/曲線の一部又は全ての夫々を指定又は定義するために使用される動作パラメータは、前もって形成されても、事前設定されても、又は動的に決定されてもよい。
【0115】
候補リシェーピング関数/マッピングは、「ADP」及び「CW」と夫々表記される2つのパラメータの特定のパラメータセット、組み合わせ、又はペアによって識別されるか、ラベル付けされるか、又は別なふうに表現されてよい。ADPパラメータは、スライスタイプ及び(例えば、高い、など)ビットレート(適応)のオプション/設定を特定又は表現するために使用されてよい。パラメータCWは、カバーすべき複数部分の多項式のリシェーピング関数内の全ての部分に割り当てられたコードワード(例えば、有効なコードワード、リザーブされていないコードワード、クリップされていないコードワード、など)の総数を特定又は表現するために使用されてよい。
【0116】
限定ではなく例示として、オールイントラ(AI)コーディングのイメージスライスの場合、パラメータADPは0又は1とセットでき、ゼロ(0)に等しいADPは、対応する(イメージ適応)リシェーピング関数/マッピング/曲線が全ての量子化パラメータ(QP)に適用されることを示し、イチ(1)に等しいADPは、リシェーピング関数/マッピング/曲線が第1QP値範囲(例えば、QP>22、指定された正規QP範囲、など)に適用され、静的なリシェーピング関数/マッピング/曲線が第2QP範囲(例えば、指定された低いQP範囲、QP<=22、など)に適用されることを示す。静的なリシェーピング関数/マッピング/曲線は、イメージ又はそのコードワード/分布に基づき選択され得るが、静的なリシェーピング関数/マッピング/曲線を指定する動作パラメータは、固定であっても、予め決定されても、事前設定されても、又は非イメージ適応であってもよい。
【0117】
カバーすべきイメージ適応リシェーピング関数/マッピング/曲線のコードワードの総数を表すパラメータCWは、リシェーピングされたイメージを符号化又は表現するための(色空間のルーマチャネル/成分についての、色空間のクロマチャネル/成分についての、RGB色空間内のR、G、又はBについての、など)利用可能なコードワードを含むコードワード空間のビットデプスに依存することができる。パラメータCWの値範囲の例には、複数部分の多項式の各部分についての[8,511]の相対的な値範囲、いくつか又は全てのとり得る8ビット値、いくつか又は全てのとり得る10ビット値(例えば、890、980、など)、などのいずれがあるが、必ずしもこれらだけに限られない。しらみつぶし探索において候補リシェーピング関数/マッピング/曲線の総数を減らす又は制限するために、いくつかの動作シナリオで、パラメータCWの値は、{1022,980,952,924,896,868,840,812}などの複数の値の中の1つから選択され得る。
【0118】
よって、AIコーディングの目下の例では、i=0,1,・・・,15として、{ADP,CP}と夫々表され得る全部で2(ADPの個数)×8(CWの個数)=16通りの候補リシェーピング関数/マッピング/曲線が存在する。
【0119】
レートひずみ最適化(RDO)方法は、これらの候補リシェーピング関数/マッピング/曲線の一部又は全てを用いてイメージをリシェーピングすることに関して誤差/コストを計算し、これら16個のバリエーション/候補の一部又は全ての中から(例えば、最適な、最良の、最小誤差/コストを有する、などの)候補リシェーピング関数/マッピング/曲線を選択することによって特定のリシェーピング関数/マッピング/曲線を特定/決定するために、イメージに適用され得る。例となるRDOコスト関数は、次の通りにラグランジュレートひずみ関数で定義され得る:

J=D+λR (1)
【0120】
RDO誤差/コストは、差分二乗和(sum of squared differences,SSD)、平均平方誤差(mean squared error,MSE)、ピーク信号対雑音比(peak signal-to-noise ratio,PSNR)などを含むがこれらに限られないいずれか、いくつか、又は全てのひずみモデルを用いて全体的又は部分的に推定又は評価され得る。更に、任意に又は代替的に、RDO誤差/コストは、構造的類似指標(structural similarity index,SSIM)、特徴類似指標(feature similarity index、FSIM)、視覚情報忠実度(visual information fidelity,VIF)、加法ひずみメトリック(additive distortion metric、ADM)、コントラスト感度関数(contrast sensitivity function,CSF)、などを含むがこれらに限られないいずれか、いくつか、又は全ての知覚に基づいたモデルを用いて全体的に又は部分的に推定又は評価され得る。いくつかの動作シナリオで、平均又は加重平均されたひずみ/誤差/コストは、ルーマ又はクロマ成分/チャネルの特定のリシェーピングマッピングを選択するために使用できる。
【0121】
個々の入力イメージに基づいて選択された個々の入力イメージのための特定のリシェーピング関数/マッピング/曲線は、入力イメージに関してリシェーピング動作を実行するために使用できる。
【0122】
更に、任意に又は代替的に、特定のリシェーピング関数/マッピング/曲線又は等価若しくは近似ルックアップテーブルを(例えば、明示的に、など)定義する動作パラメータは、受け手デバイスが再構成イメージを生成する際に必要に応じてリシェーピング動作を実行することができるように、リシェーピングされたイメージを用いて符号化された符号化ビデオ信号で運ばれるイメージメタデータの全体の一部としてリシェーピングメタデータとして含めることができる。
【0123】
いくつかの動作シナリオで、MLベースのアプローチは、イメージを複数のイメージカテゴリの中の特定のイメージカテゴリに分類するよう実施又は実行されてもよい。複数のイメージカテゴリは、複数組の前方及び/又は逆/後方リシェーピング関数/マッピング/曲線に対応する。複数のカテゴリの中の各イメージカテゴリは、複数組の前方及び/又は逆/後方リシェーピングの中の各々のリシェーピング関数/マッピング/曲線の組に対応する。各々のリシェーピング関数/マッピング/曲線の組は、その(対応する)イメージカテゴリ内のリシェーピングされたイメージ(例えば、入力イメージ、前方リシェープイメージ、など)について特に指定されても、特に最適化されても、又はカスタマイズされてもよい。
【0124】
このMLベースのアプローチに基づき、ニューラルネットワークなどのMLモデルは、訓練イメージと、訓練イメージの夫々のグラウンド・トゥルースを表すラベルとを含む訓練データセットにより訓練され得る。訓練イメージのグラウンド・トゥルースは、複数のイメージカテゴリの中で、当該訓練イメージが属している特定のイメージカテゴリを特定する。その結果、グラウンド・トゥルースは、リシェーピング関数/マッピング/曲線の特定の組、又はリシェーピング関数/マッピング/曲線の特定の組を(例えば、明示的に、など)定義又は指定する動作パラメータを特定するために使用できる。
【0125】
訓練段階で、MLモデルは、訓練データセット内の訓練イメージの一部又は全てについてカテゴリを分類又は予測するために使用できる。予測されたカテゴリは、訓練イメージのラベルによって指示又は特定されたグラウンド・トゥルースカテゴリと比較され得る。カテゴリ予測の誤りは、ニューラルネットワークにおける重み/バイアスなどの、MLモデルで使用される動作パラメータを更新又は最適化するために測定、計算(例えば、L1又はL2距離値、などとして)、及び/又はバックプロパゲーションされ得る。MLモデルは、例えば勾配降下法又は確率的勾配降下法を用いて、繰り返し又は反復的に最適化されてもよい。
【0126】
更に、任意に又は代替的に、妥当性確認又は試験段階において、そこで使用される訓練されたMLモデル及び訓練/最適化された動作パラメータは、訓練/妥当性確認イメージと、訓練/妥当性確認イメージの夫々の対応するイメージカテゴリを特定するグラウンド・トゥルースを表すラベルとを含む訓練/妥当性確認データセット内の訓練/妥当性確認イメージを用いて、妥当性確認され及び/又は更に最適化/微調整され得る。カテゴリ予測の予測精度又は誤りは、MLモデルで使用される動作パラメータを更に最適化又は微調整するために測定、計算(例えば、L1又はL2距離値、などとして)、及び/又は使用され得る。
【0127】
推論又は実際のデプロイメント段階で、訓練されたMLは、特定のイメージカテゴリにイメージを分類するために使用できる。前方及び/又は後方/逆リシェーピング関数/マッピング/曲線の特定の組がイメージに対して選択又は特定され得る。
【0128】
限定ではなく例として、正規QP範囲などの指定されたQP値範囲でのオールイントラ(AI)コーディングの場合、このとき、QP=22、27、32、37として、0~16のインデックスでラベル付けされた16通り又は組のリシェーピング関数/マッピング/曲線は、イメージが分類される可能性がある16個のカテゴリに夫々対応し得る。訓練及び/又は妥当性確認データセットは、訓練/妥当性確認イメージに対して指定されているラベルに基づいてこれらのカテゴリに分類されている訓練/妥当性確認イメージを含み得る。その結果、リシェーピングパラメータ選択/決定(あるいは、イメージに対する前方及び/又は後方/逆リシェーピング関数/マッピング/曲線の対応する組の特定)問題は、イメージ/ビデオ分類問題として扱うことができる。
【0129】
本明細書で記載される訓練データセットの例には、RGB訓練イメージデータセット、SDR訓練イメージデータセット、HRD訓練イメージデータセット、HDR P3 PQイメージデータセット、SCCイメージデータセット、DIV2K、Flicker2K(例えば、2K空間解像度を持ったイメージ、など)、ImageNetデータベースのサブセット(例えば、様々な異なる解像度を持ったイメージ、など)、上記のものの組み合わせ、などのうちの1つ以上が含まれ得るが、必ずしもこれらだけに限られない。
【0130】
イメージリシェーピングパラメータ予測訓練/妥当性確認/試験のために本明細書で記載されるMLモデルとして使用されるニューラルネットワークには、CNN、及び/又はResNetなどの残差学習ニューラルネットワークのうちの1つ以上が含まれ得る。訓練/妥当性確認/試験/予測/推論のために、MLモデルへの入力は、リサイジング、クロッピング、フリッピング、回転、などのようなイメージ変換操作により元のイメージから取得された、変換されたイメージパッチを含んでよい。更に、任意に又は代替的に、MLモデルへの入力は、1つ以上の訓練データセット内で利用可能なイメージからの抽出された特徴(例えば、ヒストグラム、ビン分散、標準偏差、傾き、など)を含んでもよい。MLモデルによって生成される出力は、予測されたターゲットイメージカテゴリ(又はクラス)ラベルを含んでよく、これは、訓練及び妥当性確認/試験段階でグラウンド・トゥルースを用いて比較、測定、又は妥当性確認され得る。(例えば、入力イメージパッチなどの)バッチサイズ、(例えば、重み/バイアス更新又は最適化の夫々の繰り返し又はエポックの)バッチサイズ、学習率、エポックの数、などは、異なる訓練イメージデータベース又はデータセットについて調整できる。
【0131】
個々の入力イメージの分類されたイメージカテゴリに基づいて選択された個々の入力イメージの特定のリシェーピング関数/マッピング/曲線は、入力イメージに関してリシェーピング動作を実行するために使用できる。
【0132】
更に、任意に又は代替的に、特定のリシェーピング関数/マッピング/曲線又は等価若しくは近似ルックアップテーブルを(例えば、明示的に、など)定義する動作パラメータは、受け手デバイスが再構成イメージの生成の際に必要に応じてリシェーピング動作を実行することができるように、リシェープイメージにより符号化された符号化ビデオ信号で運ばれる全体のイメージメタデータの一部としてリシェーピングメタデータとして含まれ得る。
【0133】
[リシェーピング関数/マッピング表現及びコーディングシンタックス]
本明細書で記載されるリシェーピング関数/マッピングは、区分線形セグメント、区分多項式セグメント、Bスプライン関数又はそれらのテンソル積を基底関数として使用すること、1つ以上のべき関数、1つ以上のルックアップテーブル(LTU)などのいずれかを含むがこれらに限られない様々な形式又はリシェーピングモデルで表され得る。
【0134】
入力イメージがリシェーピングされるべき1よりも多い色成分/チャネルを有する動作シナリオで、各々のリシェーピング関数は、交差チャネル予測が各々のリシェーピング関数で実施されようとなかろうと、色成分/チャネルごとに個別的に設計、選択、又は生成され得る。例えば、リシェーピング関数/マッピングは、1つの色成分/チャネル又は複数の色成分/チャネルにおいて(例えば、成分、など)コードワード又はピクセル値に適用されてよい。
【0135】
リシェーピング関数/マッピングが働く領域、例えば、入力イメージが表現される元の又は入力イメージ/ピクチャ領域、又は入力イメージをリシェーピングすることによって取得されるリシェープイメージが表現されるリシェープイメージ/ピクチャ領域は、RGB領域、YCbCr領域、ICtCp領域、などのうちの1つであってよい。
【0136】
前方リシェーピング及び逆リシェーピング関数/マッピングは、異なる表現、及び異なる動作パラメータの組を有してもよい。いくつかの動作シナリオで、図2A(a)に表されている大域的リシェーピング場合、前方リシェーピングパラメータ及び逆リシェーピングパラメータの両方が大域的リシェーピングモデル(例えば、多項式に基づいた大域的リシェーピングモデル、LUTに基づいた大域的リシェーピングモデル、など)に含まれる。
【0137】
いくつかの動作シナリオで、ループ内リシェーピング動作を組み込む図1B又は図1Cのコーデックアーキテクチャにより実施されるようなイメージ/ピクチャ適応リシェーピングの場合、前方リシェーピングパラメータ及び逆リシェーピングパラメータの両方が、符号化ビデオ信号又は対応するコーディングされたビットストリームに含まれて送信/シグナリングされる。
【0138】
イントラコーディングイメージ(又はイメージスライス)のみのためのループ内及びループ外リシェーピング、又はイントラコーディングイメージ(又はイメージスライス)及びインターコーディングイメージ(又はイメージスライス)の両方のためのループ外リシェーピングなどのいくつかの動作シナリオでは、逆リシェーピング関数/マッピング又はそれに使用される動作パラメータのみが、符号化ビデオ信号又は対応するコーディングされたビットストリームに含まれて送信/シグナリングされる。
【0139】
VVC規格などの適用可能なビデオコーディング規格に従うルーママッピングクロマスケーリング(LMCS)などのいくつかの動作シナリオでは、前方リシェーピング関数/マッピング又はそれに使用される動作パラメータのみが、符号化ビデオ信号又は対応するコーディングされたビットストリームに含まれて送信/シグナリングされる。逆/後方リシェーピング関数/マッピング又はそれに使用される動作パラメータは、シグナリングされた前方リシェーピング関数/マッピング又は前方リシェーピング関数/マッピングのためのシグナリングされた動作パラメータから導出できる。
【0140】
NNなどのMLモデルを訓練することは、MLモデルパラメータを計算又は更新するために勾配降下モデルを利用し得る。定義により、勾配効果(gradient descent)は、リシェーピング関数などの微分可能関数の極小値を探すために使用される一次反復最適化アルゴリズムである。従って、リシェーピング関数は、探索アルゴリズムにおいて不連続性、特異性、又は不安定性を回避するために(例えば、一次など)微分可能である必要がある。
【0141】
この微分可能性条件は、基底関数としてスプライン関数の組、一次又はそれ以上(次数>=1)の単一多項式、二次又はそれ以上(次数>=2)の複数部分多項式に基づくリシェーピングモデルによって容易に満足され得る。
【0142】
LUT(離散化された値を有する。)又は区分線形セグメントなどのリシェーピングモデルに基づき構築されたリシェーピング関数の場合、リシェーピング関数による一次微分可能性の違反は、エンコーダ側でのMLに基づいたリシェーピングモデルの訓練又はリシェーピングパラメータの推定の間に、最小値を特定できないこと、収束できないこと、収束が遅いこと、数値の不安定性、などのような問題を引き起こす可能性がある。
【0143】
本明細書で記載される技術の下でこれらの問題を解決又は回避するための多くの方法のうちの1つは、Bスプライン関数、単一多項式などの微分可能関数に基づくものなどのいずれかのMLベースのリシェーピングモデルを使用して、最初に(例えば、訓練段階などで)(イメージのリシェーピングなどに関連して)リシェーピング関数/マッピングのリシェーピングパラメータを推定又は予測し、次いで(推論又はデプロイメント段階などで)区分線形セグメント又はLUTなどの他の構成(一次微分可能性をサポートしてもしなくてもよい。)を使用して、推定されたリシェーピングパラメータにより指定若しくは定義されるリシェーピング関数/マッピングを近似するか、又は近似するために使用される構成の動作パラメータを推定することである。
【0144】
リシェーピングパラメータは、VVC規格などの適用可能なイメージ/ビデオコーディング規格に従ってコーディングシンタックス又はシンタックス要素を用いてビデオエンコーダなどの上流デバイスからビデオデコーダなどの下流の受け手デバイスへ符号化ビデオ信号で運ばれ得る。いくつかの動作シナリオでは、特定のリシェーピングパラメータがイメージ適応リシェーピング動作(又はリシェーパ)のためにシグナリングされる。いくつかの動作シナリオでは、大域的リシェーピングマッピング/関数を指定する詳細なリシェーピングパラメータは、デコーダ側で、事前設定されたリシェーピングモデルに既に含まれているということで、比較的高いレベルのリシェーピングパラメータの一部としてのリシェーピングモデル識別(「reshaper_model_idc」と表記される。)が大域的リシェーピング動作(又はリシェーパ)のためにシグナリングされる。
【0145】
以下の表1は、適用可能なイメージ/ビデオコーディング規格に従ってビデオ信号を符号化するためのハイレベルシンタックス(HLS)において、高いレベルのリシェーピングパラメータを符号化するためのシンタックス要素を含むシンタックスの例を表す。HLSは、ビデオコーディング規格におけるVPS、SPS、PPS、PH、SH及びSEIメッセージ、などであることができる。
【表1】
【0146】
表1中、イチ(1)に等しい「reshaper_enabled_flag」と表されるシンタックス要素は、リシェーピング動作(又はリシェーパ)がビデオ(例えば、符号化、復号化、トランスコーディング、など)コーデックで使用されることを特定する。ゼロ(0)に等しいシンタックス要素「reshaper_enabled_flag」は、リシェーピング動作(又はリシェーパ)がビデオ(例えば、符号化、復号化、トランスコーディング、など)コーデックで使用されないことを特定する。
【0147】
イチ(1)に等しい「reshaper_inloop_flag」と表されるシンタックス要素は、リシェーピング動作(又はリシェーパ)がコーディングループでのコーディング動作の一部(又はループ内)として使用されることを特定する。ゼロ(0)に等しいシンタックス要素「reshaper_inloop_flag」は、リシェーピング動作(又はリシェーパ)がコーディングループでのコーディング動作に対する前又は後処理動(又はループ外)として使用されることを特定する。
【0148】
いくつかの動作シナリオで、シンタックス要素「reshaper_inloop_flag」は、インター(フレーム)コーディングが適用される場合にシグナリング又は送信されるだけでよい。フレームがイントラコーディングされるいくつかの動作シナリオでは、シンタックス要素「reshaper_inloop_flag」は、逆/後方リシェーピング動作(又はリシェーパ)が適用される場所を通知するために使用できる。シンタックス要素「reshaper_inloop_flag」がイチ(1)に等しい場合、逆リシェーパは、インループフィルタリングの前に適用される。他方で、シンタックス要素「reshaper_inloop_flag」がゼロ(0)に等しい場合、逆リシェーパは、インループフィルタリングの後に適用される。
【0149】
イチ(1)に等しい「reshaper_adaptive_model_flag」と表されるシンタックス要素は、ピクチャ/イメージ適応リシェーピングがコーデックで使用されることを特定する。ゼロ(0)に等しいシンタックス要素「reshaper_adaptive_model_flag」は、対応する大域的リシェーピングマッピング/関数がコーデックで既に記憶又は固定されていることを特定する。
【0150】
「reshaper_model_idc[cmp]」と表されるシンタックス要素は、「cmp」と表される値によって特定される色成分又は(色空間の)チャネルにおけるコードワードによるリシェーピング動作(又はリシェーパ)で使用されるリシェーピングモデル(例えば、線形多項式、非線形多項式、LUTなど)を示すために使用できる。いくつかの動作シナリオで、このシンタックス要素は、リシェーピング動作が複数の色成分/チャネルでリシェーピングされたコードワードを生成するために複数のマッピング関数/マッピングに基づいて実行される場合に、使用され得る。このシンタックス要素に基づいて、下流の受け手デバイス又はビデオデコーダは、出力される又はリシェープされた色成分/チャネルにおいてリシェープされたコードワードを生成するために、1つ以上の入力色成分/チャネルでどの入力又は予めリシェーピングされたコードワードにどのリシェーピング関数/マッピングが適用されるかを決定することができる。
【0151】
大域的リシェーピングでは、大域的リシェーピングマッピング/関数を指定又は定義するために上記のシンタックス又はシンタックス要素で運ばれるものなどのリシェーピングパラメータの一部又は全ては、符号化ビデオ信号の下流の受け手デバイスで既に事前記憶又は固定されている場合がある。その結果、これらのリシェーピングパラメータは、符号化ビデオ信号で搬送、包含又はシグナリングされる必要がない。
【0152】
以下の表2は、例となるリシェーピングモデル識別値(「model_idc」又は「reshaper_model_idc[cmp]」と表記される。)を表す。前方リシェーピング及び逆/後方リシェーピングの両方が実行されるいくつかの動作シナリオでは、同じリシェーピングモデル識別値が、前方及び逆/後方リシェーピングマッピング/関数が表現される同じリシェーピングモデルを特定するために使用されてもよい。前方リシェーピング及び逆/後方リシェーピングの両方が実行されるいくつかの動作シナリオで、異なるリシェーピングモデル識別値が、前方リシェーピングマッピング/関数及び逆/後方リシェーピングマッピング/関数が夫々表現される異なるリシェーピングモデルを特定するために使用されてもよい。例えば、複数のデータフィールド値を有するシンタックス要素「reshaper_model_idc」は,前方及び逆/後方リシェーピングマッピング/関数によって形成されるリシェーピング関数/マッピングペアを示すために使用できる。更に、任意に又は代替的に、シンタックス要素「reshaper_model_idc」は、前方及び逆/後方リシェーピングマッピング/関数を示すために夫々使用されるシンタックス要素「forward_reshaper_model_idc」及び「inverse_reshaper_model_idc」で置換されても、又はそれらに分割されてもよい。
【表2】
【0153】
いくつかの動作シナリオで、前方及び逆/後方リシェーピングパラメータの両方を包含又はシグナリングする必要はない。例において、逆/後方リシェーピングのみがデコーダ側では実行される。よって、前方リシェーピングパラメータは、本例では、符号化ビデオ信号で包含又はシグナリングされる必要がない可能性がある。他の例では、VVCで見られるように、前方リシェーピングパラメータは符号化ビデオ信号で包含又はシグナリングされる。よって、逆/後方リシェーピングを実行する必要がある下流の受け手デバイスは、シグナリングされた前方リシェーピングパラメータから逆リシェーピングパラメータを導出することができる。
【0154】
第1の例で、高レベルのリシェーピングパラメータに加えて、残りのリシェーピングパラメータの一部又は全ては、以下の表3で「reshaper_mapping_data()」と表されているもののような視覚ダイナミックレンジ(VDR)コーディングシンタックスで搬送又は包含されてもよく、当該シンタックスにおいて、パラメータ「num_y_partitions_minus1」及び「num_x_partitions_minus1」の夫々は、米国特許第10136162号で記載されるように、ゼロ(0)にセットされる。この特許文献はその全文を参照により本願に援用される。
【表3-1】
【表3-2】
【表3-3】
【0155】
第2の例で、高レベルのリシェーピングパラメータに加えて、残りのリシェーピングパラメータの一部又は全ては、Versatile Video Coding, Recommendation ITU-T H.266(2020年8月)の中のLuma Mappinng Chroma Scaling (LMCS)シンタックスで記載されるように、以下の表4で「reshaper_mapping_data()」と表されているもののような適用可能なコーディングシンタックスで搬送されてもよい。この非特許文献はその全文を参照により本願に援用される。
【表4】
【0156】
更に、任意に又は代替的に、いくつかの動作シナリオで、一部又は全て(例えば、3つなど)の色成分/チャネルの一部又は全てのチャネル特有のリシェーピングパラメータは、VVCコーディングにおけるLMCSシンタックスの部分として、以下の表5で「inv_reshaper_mapping_data()」と表されているもののような適用可能なコーディングシンタックスで搬送又は包含されてもよい。
【表5】
【0157】
いくつかの動作シナリオで、リシェーピング動作(又はリシェーパ)は、Guan-Ming Su et al.によって2019年10月1日に出願された、発明の名称が「TENSOR-PRODUCT B-SPLINE PREDICTOR」である米国特許仮出願第62/908770号に記載されているように、Bスプライン関数を用いて実施され得る。この特許文献の全内容は、あたかも本明細書で十分に説明されているかのように、参照により本願に援用される。
【0158】
Bスプラインは、次のような制約を満足するノットt・・・tの列を有するスプライン(又はスプライン関数)である:
【数1】
【0159】
ノット値t,・・,tの連続を考えると、スプライン又はBスプラインは一意に識別され得る。
【0160】
Bスプライン関数は、それを(例えば、ML、非ML、リシェーピングなど)モデルの訓練/最適化によく適したものとする特定の特性を持っている。次数kのBスプラインの導関数は、単純に、次元k-1のBスプラインの関数である。Bスプラインは、特定の次数までノット間で連続であることができる。例えば、1つの異なるノットが提供されている限り、Bスプラインは、MLモデル、ニューラルネットワークなどを訓練/最適化するための多くのバックプロパゲーション技術で使用される一次導関数を提供することができる。
【0161】
Bスプラインが、それらの合計特性と組み合わせて比較的コンパクトなサポート上でのみ非ゼロであることは、Bスプラインの線形結合が(例えば、ML、非ML、リシェーピングなど)モデルの訓練/最適化において数値的不安定性を引き起こす可能性が低いことを意味する。これは、その最大値が、線形結合の生成に使用される重み値によって完全に定義又は制御できるからである。
【0162】
Bスプライン(関数)の表現力は比較的大きい。例えば、次数nのBスプラインの(例えば、線形、テンソル積など)組み合わせを使用して、同じ次数nの他の全てのスプラインを含むがそれに限定されない他の関数の基底関数を形成又は提供することができる。
【0163】
第3の例で、高レベルのリシェーピングパラメータに加えて、残りのリシェーピングパラメータの一部又は全ては、米国特許仮出願第62/908770号で記載されるように、以下の表6に表されているような、交差チャネルリシェーピング動作のための適用可能なコーディングシンタックスで搬送されてもよい。
【表6】
【0164】
更に、任意に又は代替的に、高レベルのリシェーピングパラメータに加えて、残りのリシェーピングパラメータの一部又は全ては、以下の表7に表されているような、単一チャネルリシェーピング動作のための適用可能なコーディングシンタックスで搬送されてもよい。
【表7】
【0165】
図3Aは、適用可能なビデオコーディング規格に従ってコーディングシンタックスを用いて、リシェーピング動作(「リシェーパ」と表記される。)のためのリシェーピングパラメータを符号化ビデオ信号に符号化するためのプロセスフローの例を表す。これらのリシェーピングパラメータは、符号化ビデオ信号に含まれておりそれから復号されたイメージに関してデコーダ側でリシェーピング動作を実行することを符号化ビデオ信号の受け手デバイスに可能する又は行わせることができる。
【0166】
ブロック302は、符号化ビデオ信号によって運ばれる1つ以上のデータユニット又はその中の指定されたデータフィールド(例えば、ヘッダデータフィールド、非ヘッダデータフィールド、イメージシーケンスレベル、イメージ/ピクチャレベル、スライスラベル、など)においてリシェーピング動作のための動作パラメータを符号化する符号化動作を開始又は初期化することを含む。
【0167】
ブロック304は、リシェーピング動作が有効にされるかどうかを決定することを含む。
【0168】
ブロック306は、リシェーピング動作が無効にされることを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_enabled_flag」が偽又はゼロ(0)にセットされることを含む。プロセスフローはブロック326へ進み、リシェーピングパラメータの符号化動作を終了又は完了する。
【0169】
ブロック308は、リシェーピング動作が有効にされることを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_enabled_flag」が真又はイチ(1)にセットされることを含む。ブロック310は、リシェーピング動作がループ内動作として実施又は実行されるかどうかを決定することを含む。
【0170】
ブロック312は、リシェーピング動作がループ内動作であることを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_inloop_flag」が真又はイチ(1)にセットされることを含む。
【0171】
ブロック314は、リシェーピング動作がループ内動作でないことを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_inloop_flag」が偽又はゼロ(0)にセットされることを含む。
【0172】
ブロック316は、リシェーピング動作がイメージ又はピクチャ適応動作として実施又は実行されるかどうかを決定することを含む。ブロック318は、リシェーピング動作がイメージ又はピクチャ適応であることを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_adaptive_model_flag」真又はイチ(1)にセットすることを含む。ブロック320は、イメージ/ピクチャ適応リシェーピング動作に従う各イメージ/ピクチャについて上の表3~7(例えば、イメージ特有の値を有する。)に表されているような適用可能なコーディングシンタックスを用いて一部又は全ての残りのリシェーピングパラメータ(又はリシェーパマッピングデータ)を符号化することを含む。
【0173】
ブロック322は、リシェーピング動作がイメージ又はピクチャ適応でないことを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_adaptive_model_flag」を偽又はゼロ(0)にセットすることを含む。ブロック324は、大域的リシェーピング動作に従う一部又は全ての色成分/チャネルにおける一部又は全てのイメージ/ピクチャについて上の表2に表されているパラメータ「reshaper_model_idc」を符号化することを含む。
【0174】
次いで、プロセスフローはブロック320又は324からブロック326へ進み、リシェーピングパラメータの符号化動作を終了又は完了する。
【0175】
図3Bは、適用可能なビデオコーディング規格に従ってコーディングシンタックスを用いて、符号化ビデオ信号からリシェーピング動作(「リシェーパ」と表記される。)のためのリシェーピングパラメータを復号又はパースするためのプロセスフローの例を表す。これらのリシェーピングパラメータは、符号化ビデオ信号の受け手デバイスによって、符号化ビデオ信号に含まれておりそれから復号されたイメージに関してデコーダ側でリシェーピング動作を実行するために使用され得る。
【0176】
ブロック332は、符号化ビデオ信号で運ばれた1つ以上のデータユニット又はその中の指定されたデータフィールド(例えば、ヘッダデータフィールド、非ヘッダデータフィールド、イメージシーケンスレベル、イメージ/ピクチャレベル、スライスラベル、など)からリシェーピング動作(又はリシェーパ)のための動作パラメータをパース又は復号するパーシング又は復号化動作を開始又は初期化することを含む。
【0177】
ブロック334は、リシェーピングパラメータ「reshaper_enabled_flag」をパース又は復号することを含む。ブロック336は、リシェーピングパラメータ「reshaper_enabled_flag」が真の値又はイチ(1)を有しているかどうかを決定することを含む。
【0178】
リシェーピングパラメータ「reshaper_enabled_flag」が真の値又はイチ(1)を有していないことを決定することに応答して、プロセスフローは、リシェーピングパラメータのパーシング又は復号化プロセスを終了又は完了するブロック348へ進む。他方で、リシェーピングパラメータ「reshaper_enabled_flag」が真の値又はイチ(1)を有していることを決定することに応答して、プロセスフローはブロック338へ進む。
【0179】
ブロック338は、リシェーピングパラメータ「reshaper_inloop_flag」をパース又は復号することを含む。ブロック340は、リシェーピングパラメータ「reshaper_adaptive_model_flag」をパース又は復号することを含む。ブロック342は、リシェーピングパラメータ「reshaper_adaptive_model_flag」が真の値又はイチ(1)を有しているかどうかを決定することを含む。
【0180】
ブロック344は、リシェーピングパラメータ「reshaper_adaptive_model_flag」が真の値又はイチ(1)を有していることを決定することに応答して、イメージ/ピクチャ適応リシェーピング動作に従う各イメージ/ピクチャについて上の表3~7(例えば、イメージ特有の値を有する。)に表されているような適用可能なコーディングシンタックスを用いて残りのリシェーピングパラメータ(又はリシェーパマッピングデータ)をパース又は復号することを含む。
【0181】
ブロック346は、リシェーピングパラメータ「reshaper_adaptive_model_flag」が真の値又はイチ(1)を有していないことを決定することに応答して、大域的リシェーピング動作に従う一部又は全ての色成分/チャネルにおける一部又は全てのイメージ/ピクチャについて上の表2に表されているパラメータ「reshaper_model_idc」をパース又は復号することを含む。
【0182】
次いで、プロセスフローはブロック344又は346からブロック348へ進み、リシェーピングパラメータのパーシング/復号化動作を終了又は完了する。
【0183】
[明示的又は暗黙的マッピングのための学習に基づいたリシェーパ]
MLに基づいたリシェーピング動作(又はリシェーパ)は、明示的なマッピング又は暗黙的なマッピングをサポートするよう実施又は実行されてよい。
【0184】
本明細書で議論されるように、リシェーピングマッピングは、符号化ビデオ信号においてリシェーピングパラメータを符号化、パース又は復号するために、例えば、上の表1~7に表されているコーディングシンタックスを用いて、明示的に生成され、表現され、上流のデバイスから下流の受け手デバイスへシグナリングされ得る。更に、任意に又は代替的に、リシェーピングマッピングは、明示的に生成され、表現され、上流のデバイスから下流の受け手デバイスへシグナリングされなくてもよい。代わりに、リシェーピングモデルは、リシェーピング動作において暗黙的な(リシェーピング)マッピングを実施又は実行してもよい。
【0185】
図1Dは、学習に基づいたリシェーピング動作のための明示的なマッピングをサポートするコーデックアーキテクチャの例を表す。
【0186】
明示的なマッピングとは、本明細書で記載されるように符号化ビデオ信号を符号化するために使用されるコーディングシンタックスにおいて前方及び逆/後方リシェーピングマッピングの少なくとも1つをリシェーピングパラメータが明示的に指定することを意味する。対照的に、暗黙的なマッピングとは、本明細書で記載されるように符号化ビデオ信号を符号化するために使用されるコーディングシンタックスにおいて前方及び逆/後方リシェーピングマッピングのいずれもリシェーピングパラメータが明示的に指定しないことを意味する。
【0187】
訓練段階で、MLベースモデル(図1Dに表されているように、学習に基づいたリシェーパ推定ネットなどのニューラルネットワークにより実施されてもよい。)は、前方リシェーピング動作で使用される前方リシェーピングマッピング/関数を指定又は定義する(明示的な)動作パラメータ(例えば、上の表1~表7などで表されているもの、など)を予測し、かつ、逆又は後方リシェーピング動作で使用される逆又は後方リシェーピングマッピング/関数を指定又は定義する(明示的な)動作パラメータを予測するために、訓練データセット内の訓練データにより訓練/最適化され得る。
【0188】
推論又は実際のデプロイメント段階で、エンコーダ側では、図1Dに表されているMLベースモデル又は学習に基づいたリシェーパ推定ネットは、入力イメージ(102)に関して前方及び逆/後方リシェーピング動作で使用される前方及び逆/後方リシェーピングマッピング/関数を指定又は定義する(明示的な)動作又はリシェーピングパラメータ(例えば、上の表1~表7などで表されているもの、など)を予測するために、入力イメージ(102)を受け取って入力として使用する。
【0189】
これらのリシェーピングパラメータの一部又は全ては、動作134によって受け取られて、前方リシェーピングマッピング/関数を導出するために使用され得る。次いで、前方リシェーピングマッピング/関数は、前方リシェーパの第1インスタンス(104-1)及び第2インスタンス(104-2)によって、予めリシェーピングされたイメージを前方リシェープイメージに前方リシェーピングするために適用され得る。
【0190】
これらのリシェーピングパラメータの一部又は全ては、動作136によって受け取られて、逆/後方リシェーピングマッピング/関数を導出するために使用され得る。次いで、逆/後方リシェーピングマッピング/関数は、逆/後方リシェーパ(118)によって、前方リシェープイメージを再構成イメージ(例えば、入力イメージ(102)を近似する、など)に逆/後方リシェーピングするために適用され得る。
【0191】
予測されたリシェーピングパラメータは、入力イメージ(102)の前方リシェーピングにより生成された前方リシェープイメージとともに、符号化ビデオ信号に符号化され得る。これらの予測されたリシェーピングパラメータは、入力イメージ(102)に特有であり、それに適応することができる。
【0192】
推論又は実際のデプロイメント段階で、デコーダ側では、図1Dに表されているようなデコーダ側のコーデックアーキテクチャ(図1Bの類似したデコーダ側の処理ブロックを有する。)を実施する下流の受け手デバイスが、前方リシェープイメージ(102-1)とイメージメタデータ(102-2)内のリシェーピングパラメータとを入力として受け取って復号する。
【0193】
下流のデバイスは、これらのリシェーピングパラメータの一部又は全てを用いて前方リシェーピングマッピング/関数を導出する動作(134)を実行することができ、前方リシェーピングマッピング/関数は、次いで、前方リシェーパの第2インスタンス(104-2)によって、予めリシェーピングされたイメージを前方リシェープイメージに前方リシェーピングするために適用され得る。
【0194】
下流のデバイスは、これらのリシェーピングパラメータの一部又は全てを用いて逆/後方リシェーピングマッピング/関数を導出する動作(136)を実行することができ、逆/後方リシェーピングマッピング/関数は、次いで、逆/後方リシェーパ(118)によって、前方リシェープイメージw再構成イメージ(例えば、入力イメージ(102)を近似する、など)に逆/後方リシェーピングするために適用され得る。
【0195】
図1Eは、学習に基づいたリシェーピング動作のための暗黙的なマッピングをサポートするコーデックアーキテクチャの例を表す。述べられているように、暗黙的なマッピングとは、リシェーピングマッピングが符号化された信号を符号化又は復号するために使用されるコーディングシンタックスにおいて表現されないことを意味する。暗黙的なマッピングは、MLベースリシェーパモデルに含まれる動作パラメータが、ランタイムで比較的限られたビットレートにより効率的にシグナリングされるには多すぎる場合に(例えば、CNNなどのニューラルネットワークで使用される重み/バイアスなどのパラメータが数百万ある場合に)、ビデオコーディングデバイス(例えば、エンコーダ、デコーダ、など)で、訓練されたMLベースリシェーパモデルを予め記憶するか又は事前設定することによって、使用又は実施されてもよい。しかし、いくつかの動作シナリオで、MLベースリシェーパモデルの最適化された動作パラメータ(例えば、MLニューラルネットワーク、MLネットなどにおける重み/バイアス)の一部又は全ては、特に、これらのパラメータの総数及びこれらのパラメータを運ぶための総データ容量が比較的小さい(例えば、特定のデータ容量閾値を下回る、重み/バイアスパラメータが比較的少ない、これらのMLモデルパラメータを運ぶために使用されるビットレートが、ビットレートオーバーヘッド閾値と比較して相対的に小さい、など)場合に、本明細書で記載される適用可能なビデオコーディング規格の(上の表1~7に表されているものに加えて)コーディングシンタックス又はシンタックス要素に従って、本明細書で記載されるように符号化ビデオ信号でシグナリング又は伝送され得る。
【0196】
訓練段階で、MLベースの前方リシェーピングモデル(図1Eに表されている学習に基づいた前方リシェーパネット138-1及び138-2などのニューラルネットワークにより実施され得る。)は、前方リシェーピング動作で使用される前方リシェーピングマッピング/関数を指定又は定義する(明示的な)動作パラメータ(例えば、上の表1~表7などで表されているもの、など)を生成せずに、対応する前方リシェープイメージを生成するよう訓練イメージに関して前方リシェーピング動作を実行するために、訓練データセット内の訓練イメージにより訓練/最適化され得る。
【0197】
訓練段階で、MLベースの逆/後方リシェーピングモデル(図1Eに表されている学習に基づいた逆/後方リシェーパネット140などのニューラルネットワークにより実施され得る。)は、逆/後方リシェーピング動作で使用される逆/後方リシェーピングマッピング/関数を指定又は定義する(明示的な)動作パラメータ(例えば、上の表1~表7などで表されているもの、など)を生成せずに、対応する逆/後方リシェープイメージを生成するよう訓練イメージに関して逆/後方リシェーピング動作を実行するために、訓練データセット内の訓練イメージにより訓練/最適化され得る。
【0198】
推論又は実際のデプロイメント段階で、エンコーダ側では、図1Eに表されているMLに基づいた前方リシェーピングモデル又は学習に基づいた前方リシェーパ推定ネット(138-1又は138-2)は、予めリシェーピングされたイメージを前方リシェープイメージに前方リシェーピングするよう如何なる明示的に表現された前方リシェーピングマッピング又は関数も使用せずに、前方リシェーピング動作を実行するために、入力イメージ(102)を受け取って入力として使用する。
【0199】
同様に、エンコーダ側で、図1Eに表されているMLに基づいた後方リシェーピングモデル又は学習に基づいた逆/後方リシェーパ推定ネット(140)は、前方リシェープイメージを再構成イメージに逆/後方リシェーピングするよう如何なる明示的に表現された逆/後方リシェーピングマッピング又は関数も使用せずに、逆/後方リシェーピング動作を実行するために、前方リシェープイメージを受け取って入力として使用する。
【0200】
一部又は全てのリシェーピングパラメータ(暗黙的なリシェーピングなどを示す1つ又は2つのフラグを除く。)は、入力イメージ(102)の前方リシェーピングにより生成された前方リシェープイメージにより符号化された符号化ビデオ信号に符号化されることから省略され得る。言い換えれば、符号化ビデオ信号は、符号化ビデオ信号の受け手デバイスによって実行されるリシェーピング動作のためのリシェーピングマッピング/関数を定義又は指定するリシェーピングパラメータを運ばなくてもよい。
【0201】
推論又は実際のデプロイメント段階で、デコーダ側では、図1Eに表されているようなデコーダ側のコーデックアーキテクチャ(図1Bの類似したデコーダ側の処理ブロックを有する。)を実施する下流の受け手デバイス(それらの各々の訓練されたニューラルネットワーク動作パラメータを有する訓練に基づいた前方リシェーパネット(138-1又は138-2)及び/又は学習に基づいた逆/後方リシェーパネット(140)などのMLに基づいた前方及び逆/後方リシェーピングモデルにより事前設定又はデプロイされている。)が、前方リシェープイメージ(102-1)及びイメージメタデータ(102-2)を入力として受け取って復号する。イメージメタデータ(102-2)は、下流のデバイスによって実行されるリシェーピング動作のリシェーピングマッピング/関数を明示的に定義又は指定するリシェーピングパラメータを含まない。
【0202】
下流のデバイスは、予めリシェーピングされたイメージを前方リシェープイメージに前方リシェーピングするために、訓練又は事前設定された学習に基づいた前方リシェーパネット(138-1又は138-2)を使用することができる。同様に、下流のデバイスは、前方リシェープイメージを逆/後方リシェープイメージに逆/後方リシェーピングするために、訓練又は事前設定された学習に基づいた逆/後方リシェーパネット(140)
を使用することができる。
【0203】
前方及び逆/後方リシェーパネット(138又は140)の一方又は両方は、入力領域で表現されるリシェーピング対象イメージ又は信号を、比較的に高い次元変換により、出力領域で表現されるリシェーピングされたイメージ又は信号にリシェーピングするために、機械学習を実施するニューラルネットワークにより実施されてもよい。前方及び逆/後方リシェーパネット(138又は140)の一方又は両方は、教師あり学習により(例えば、グラウンド・トゥルース又はラベルを含む訓練データセットの使用、モデル訓練/妥当性確認段階の使用、など)、又は教師なし学習により(例えば、イメージデータの客観的なイメージ特徴、動き、セグメント、輝度、色度、構造、特性などを決定するための、計量関数、誤差関数、目的関数、コスト関数の使用やイメージデータとの畳み込みを行うフィルタの使用)、又は教師あり及び教師なし学習の組み合わせにより訓練されてもよい。
【0204】
本明細書で記載される学習に基づいたリシェーピングネットは、CNNとして実施され得る。CNNは(Cin,Cout,KxK conv)と記述され得る。ここで、Cinは、CNNへの入力イメージデータが表現される入力色チャネル/成分の総数を表す。Coutは、CNNからの出力イメージデータが表現される出力色チャネル/成分の総数を表す。KxK convは、CNNで入力イメージデータを畳み込むために使用されるカーネルサイズK(ピクセル)×K(ピクセル)の畳み込みフィルタへの参照を示す。
【0205】
図2Cは、CNNとして少なくとも部分的に実施される前方及び逆/後方リシェーパネット(例えば、図1Eの138、図1Eの140、など)の例を表す。
【0206】
図示されるように、前方リシェーパネットは、(3,N,1x1 conv)と記述される(前方リシェーピング)CNNを使用する。(3,N,1x1 conv)は、カーネルサイズ1(ピクセル)×1(ピクセル)の畳み込みフィルタを有するCNNが、入力領域で3つの色チャネル/成分(例えば、RGB色空間におけるRGBチャネル又は成分、YUV色空間におけるYUVチャネル/成分、など)で表される入力イメージデータを、出力領域でN個のチャネルの比較的高い次元で表現される出力イメージデータにリシェーピングすべきことを意味する。比較によって、非リシェーピングアプリケーションでは、1×1以外のカーネルサイズの畳み込みフィルタを有するCNNを使用して、入力イメージの基礎をなす空間構造又はイメージ特徴を検出し又はそれに反応する空間フィルタリングを実行し、かつ、入力イメージから特徴を抽出することができる。対照的に、ここでの1×1カーネルサイズのカーネルフィルタを有する(リシェーピング)CNNは、入力信号/イメージ又はそれに符号化されている個々のコードワードをリシェーピングすべきである。カーネルサイズ1×1は、空間フィルタリングが入力イメージに実行されないことを確かにするために指定される。交差チャネル行列が、入力領域の3つの入力チャネル/成分で表されるコードワードを異なる次数の項(例えば、色チャネルに対応する一次項、及び色チャネルの積に対応する二次又はそれよりも高い項、など)に変換するために使用されてもよく、異なる次数の項は、N個のチャネルを含む設計行列又は列に配置され得る。その結果、出力領域は、直接見ることができる色空間なくてもよい。言い換えれば、(前方リシェーピング)CNNからの新たにリシェーピングされた信号又は新たにリシェーピングされたイメージは、色空間のコードワードを有さなくてもよく、直接見ることができなくてもよい。比較すると、本明細書で記載される技術を実施しない非CNNリシェーパからのリシェープ信号又はリシェープイメージは、色空間において表現でき、直接見ることができる。
【0207】
反対に、逆/後方リシェーパネットは、(N,3,1x1 conv)と記述される(逆/後方リシェーピング)CNNを使用する。(N,3,1x1 conv)は、カーネルサイズ1(ピクセル)×1(ピクセル)の逆畳み込みフィルタを有するCNNが、出力領域でN個のチャネルの比較的高い次元で表現される受け取られたイメージデータを、再構成イメージ/ピクチャ領域(入力領域と同じであってもなくてもよい。)で3つの色チャネル/成分(例えば、RGB色空間におけるRGBチャネル又は成分、YUV色空間におけるYUVチャネル/成分、など)で表される再構成されたイメージデータに(逆/後方)リシェーピングすべきことを意味する。これらの動作シナリオで、CNNは、複数の空間近傍ピクセルに対応する複数のピクセル又はコードワード/信号値に基づいてフィルタ処理された値を導出するためにではなく、ピクセル又はコードワード信号値をリシェーピングするために、1×1カーネルを使用する。前方リシェーピングの場合と同様に、ここでの1×1カーネルサイズのカーネルフィルタを有する(逆リシェーピング)CNNは、リシェーピングされた信号/イメージ又はそれに符号化されている個々のリシェーピングされたコードワードを逆リシェーピングすべきである。カーネルサイズ1×1は、空間フィルタリングがリシェーピングされたイメージに実行されないことを確かにするために指定される。交差チャネル行列が、出力領域(直接見ることができない。)のN個のチャネルで表されるコードワードを、再構成領域/色空間(入力領域又は色空間と同じであってよい。)の3つの入力チャネル/成分で表される再構成されたコードワードに変換するために使用されてもよい。その結果、再構成領域は、直接見ることができる色空間であることができる。言い換えれば、(後方又は逆リシェーピング)CNNからの新たに再構成された信号又は新たに再構成されたイメージは、色空間のコードワードを有することができ、直接見ることができる。
【0208】
いくつかの動作シナリオで、図2Cに示されるように、学習に基づいたリシェーパは、conv(convolutional unit)ReLU(rectifier linear unit)、leakyReLU(leaky ReLU)、PReLU(parametric ReLU)、GDN(generalized divisive normalization)又はIGDN(inverse GDN)などの1つ以上のモジュールを有するCNNネットワークを用いて、受け取られたイメージデータを出力イメージデータにマッピング、リシェーピング、又は変換する際に非線形特性を提供又は導入するために実施され得る。いくつかの動作シナリオで、図2C(a)のリシェーパは、図1Eのブロック138-1及び/又は138-2で表されている前方リシェーパネットを実施するために使用され得る一方で、図2C(b)のリシェーパは、図1Eのブロック140で表されている後方又は逆リシェーパネットを実施するために使用され得る。
【0209】
[例となるプロセスフロー]
図4Aは、実施形態に従うプロセスフローの例を表す。いくつかの実施形態で、1つ以上のコンピューティングデバイス又はコンポーネント(例えば、符号化デバイス/モジュール、トランスコーディングデバイス/モジュール、復号化デバイス/モジュール、逆トーンマッピングデバイス/モジュール、トーンマッピングデバイス/モジュール、メディアデバイス/モジュール、逆マッピング生成及び適用システム、など)は、このプロセスフローを実行し得る。ブロック402で、イメージ処理システムは、入力ビデオ信号から、入力領域で表現される入力イメージを受け取る。
【0210】
ブロック404で、イメージ処理システムは、リシェープイメージ領域で表現される前方リシェープイメージを生成するよう入力イメージに対して前方リシェーピングを実行する。
【0211】
ブロック406で、イメージ処理システムは、リシェープイメージを符号化ビデオ信号に符号化するよう非リシェーピング符号化動作を実行する。非リシェーピング符号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習(ML)モデルを用いて実施される。
【0212】
ブロック408で、イメージ処理システムは、符号化ビデオ信号の受け手デバイスに、前方リシェープイメージから再構成イメージを生成させる。構成イメージは、受け手デバイスとともに動作するイメージディスプレイでレンダリングされる表示イメージを導出するために使用される。
【0213】
実施形態において、非リシェーピング符号化動作は、オプティカルフロー分析、動きベクトル符号化、動きベクトル復号化、動きベクトル量子化、動き補償、残差符号化、残差復号化、又は残差量子化、などのうちの1つ以上を含む。
【0214】
実施形態において、入力領域は、RGB色空間、YUV色空間、IPT色空間、他の異なる色空間、などのうちの1つである色空間に対応する。
【0215】
実施形態において、前方リシェーピングは、非リシェーピング符号化動作の前に実行されるループ外イメージ処理動作として実行される。
【0216】
実施形態において、前方リシェーピングは、非リシェーピング符号化動作を含む全体的なループ内イメージ処理動作の一部として実行される。
【0217】
実施形態において、前方リシェープイメージのイメージメタデータ部分は、符号化ビデオ信号によって運ばれるイメージメタデータの一部であり、イメージメタデータ部分は、前方リシェーピングのための前方リシェーピングパラメータ、又は逆リシェーピングのための後方リシェーピングパラメータ、のうちの1つ以上を含む。
【0218】
実施形態において、イメージメタデータ部分は、前方リシェーピング又は逆リシェーピングのうちの一方のためのリシェーピングマッピングを明示的に指定するリシェーピングパラメータを含む。
【0219】
実施形態において、リシェーピングマッピングを明示的に指定するリシェーピングパラメータは、MLベースのリシェーピングマッピング予測方法、又は非MLベースのリシェーピングマッピング生成方法、のうちの1つによって生成される。
【0220】
実施形態において、イメージメタデータ部分は、大域的マッピング、又はイメージ適応マッピング、のうちの1つとして前方リシェーピングを特定するリシェーピングパラメータを含む。
【0221】
実施形態において、前方リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、ニューラルネットワークのバイアス及び重みは、受け手デバイスへシグナリングされない。
【0222】
実施形態において、前方リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、ニューラルネットワークのバイアス及び重みの少なくとも1つは、受け手デバイスへシグナリングされる。
【0223】
図4Bは、本発明の実施形態に従うプロセスフローの例を表す。いくつかの実施形態で、1つ以上のコンピューティングデバイス又はコンポーネント(例えば、符号化デバイス/モジュール、トランスコーディングデバイス/モジュール、復号化デバイス/モジュール、逆トーンマッピングデバイス/モジュール、トーンマッピングデバイス/モジュール、メディアデバイス/モジュール、逆マッピング生成及び適用システム、など)は、このプロセスフローを実行し得る。ブロック452で、ビデオ復号化システムは、リシェープイメージ領域で表現される前方リシェープイメージを符号化ビデオ信号から復号する。前方リシェープイメージは、入力イメージ領域で表現される入力イメージを前方リシェーピングすることによって上流デバイスによって生成されたものである。
【0224】
ブロック454で、ビデオ復号化システムは、再構成イメージ領域で表現される再構成イメージを生成するよう前方リシェープイメージに関連した非リシェーピング復号化動作とともに前方リシェープイメージに対して逆リシェーピングを実行する。逆リシェーピング及び前方リシェーピングはリシェーピング動作ペアを形成する。非リシェーピング復号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習(ML)モデルを用いて実施される。
【0225】
ブロック456で、ビデオ復号化システムは、再構成イメージから導出された表示イメージをイメージディスプレイでレンダリングさせる。
【0226】
実施形態で、逆リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、ニューラルネットワークのバイアス及び重みは、受け手デバイスへシグナリングされない。
【0227】
実施形態において、逆リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、ニューラルネットワークのバイアス及び重みの少なくとも1つは、受け手デバイスへシグナリングされる。
【0228】
実施形態において、逆リシェーピングは、イメージメタデータの一部として符号化ビデオ信号で運ばれる前方リシェープイメージのイメージメタデータ部分内でシグナリングされるリシェーピングマッピングを用いて実行される。
【0229】
実施形態において、表示デバイス、モバイルデバイス、セットトップボックス、マルチメディアデバイスなどのコンピューティングデバイスは、上記の方法のいずれかを実行するよう構成される。実施形態において、装置はプロセッサを有し、上記の方法のいずれかを実行するよう構成される。実施形態において、非一時的なコンピュータ可読記憶媒体はソフトウェア命令を記憶しており、命令は、1つ以上のプロセッサによって実行される場合に、上記の方法のいずれかの実行を引き起こす。
【0230】
実施形態において、コンピューティングデバイスは、1つ以上のプロセッサと、命令の組を記憶している1つ以上の記憶媒体とを有し、命令の組は、1つ以上のプロセッサによって実行される場合に、上記の方法のいずれかの実行を引き起こす。
【0231】
なお、別々の実施形態が本明細書では議論されているが、本明細書で議論されている実施形態及び/又は部分的な実施形態の如何なる組み合わせも、更なる実施形態を形成するよう組み合わされてよい。
【0232】
[例となるコンピュータシステムの実施]
本発明の実施形態は、コンピュータシステム、電子回路及び部品で構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ(FPGA)、又は他の構成可能若しくはプログラム可能なロジックデバイス(PLD)などの集積回路(IC)デバイス、離散時間又はデジタル信号プロセッサ(DSP)、特定用途向けIC(ASIC)、及び/又はそのようなシステム、デバイス、又はコンポーネントの1つ以上を含む装置により実施されてよい。コンピュータ及び/又はICは、本明細書で記載されているもののような、拡張ダイナミックレンジを有するイメージの適応的な知覚量子化に関する命令を実行、制御、又は遂行してよい。コンピュータ及び/又はICは、本明細書で記載されている適応的な知覚量子化のプロセスに関係がある様々なパラメータ又は値のいずれかを計算してもよい。イメージ及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの様々な組み合わせで実施されてよい。
【0233】
本発明の特定の実施は、プロセッサに本開示の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを有する。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどにおける1つ以上のプロセッサは、プロセッサがアクセスできるプログラムメモリ内のソフトウェア命令を実行することによって、上述されたHDRイメージの適応的な知覚量子化に関する方法を実施し得る。本発明の実施形態は、プログラム製品の形でも提供されてよい。プログラム製品は、データプロセッサによる実行時にデータプロセッサに本発明の実施形態の方法を実行させる命令を含むコンピュータ可読信号の組を運ぶ任意の非一時的な媒体を有し得る。本発明の実施形態に従うプログラム製品は、幅広く様々な形態を取ることができる。プログラム製品は、例えば、フロッピー(登録商標)ディスケットやハードディスクドライブを含む磁気データ記憶媒体、CD ROMやDVDを含む光学データ記憶媒体、ROMやフラッシュRAMを含む電子データ記憶媒体、などのような物理媒体を有し得る。プログラム製品上のコンピュータ可読信号は、任意に、圧縮又は暗号化され得る。
【0234】
コンポーネント(例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路、など)が上で言及される場合に、別段示されない限りは、そのコンポーネントへの言及(「手段」への言及を含む。)は、本発明の表されている実施例における機能を実行する開示された構造と構造的に等価ではないコンポーネントを含め、記載されているコンポーネントの機能を実行する(例えば、機能的に等価である)如何なるコンポーネントも、そのコンポーネントの同等物として含むものとして解釈されるべきである。
【0235】
一実施形態に従って、本明細書で記載されている技術は、1つ以上の特別目的のコンピューティングデバイスによって実施される。特別目的のコンピューティングデバイスは、当該技術を実行するよう配線で接続されてもよく、あるいは、当該技術を実行する持続的にプログラムされる1つ以上の特定用途向け集積回路(ASIC)又はフィールドプログラマブルゲートアレイ(FPGA)などのデジタル電子デバイスを含んでもよく、あるいは、ファームウェア、メモリ、他のストレージ、又は組み合わせにおけるプログラム命令に従って当該技術を実行するプログラムされた1つ以上の汎用ハードウェアプロセッサを含んでもよい。そのような特別目的のコンピューティングデバイスは、カスタムハードワイヤードロジック、ASIC、又はFPGAをカスタムプログラミングと組み合わせて、当該技術を達成してもよい。特別目的のコンピューティングデバイスは、デスクトップコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルドデバイス、ネットワークキングデバイス、あるいは、当該技術を実施するようハードワイヤード及び/又はプログラムロジックを組み込む任意の他のデバイスであってもよい。
【0236】
例えば、図5は、本発明の実施形態が実施され得るコンピュータシステム500を表すブロック図である。コンピュータシステム500は、情報をやりとりするためのバス502又は他の通信メカニズムと、バス502と結合され、情報を処理するためのハードウェアプロセッサ504とを含む。ハードウェアプロセッサ504は、例えば、汎用マイクロプロセッサであってよい。
【0237】
コンピュータシステム500はまた、バス502と結合され、プロセッサ504によって実行される情報及び命令を記憶するための、ランダムアクセスメモリ(RAM)又は他の動的記憶デバイスなどのメインメモリ506も含む。メインメモリ506はまた、プロセッサ504によって実行される命令の実行中に一時変数又は他の中間情報を記憶するためにも使用されてよい。そのような命令は、プロセッサ504がアクセスできる非一時的な記憶媒体に記憶されている場合に、コンピュータシステム500を、命令において指定された動作を実行するようカスタマイズされている特別目的のマシンにならしめる。
【0238】
コンピュータシステム500は、バス502と結合され、プロセッサ504のための静的な情報及び命令を記憶するためのリードオンリーメモリ(ROM)508又は他の静的記憶デバイスを更に含む。磁気ディスク又は光ディスクなどの記憶デバイス510が、情報及び命令を記憶するために設けられてバス502へ結合される。
【0239】
コンピュータシステム500は、コンピュータユーザに情報を表示するために、バス502を介して液晶ディスプレイなどのディスプレイ512へ結合されてもよい。英数字又は他のキーを含む入力デバイス514は、情報及びコマンド選択をプロセッサ504へ送るためにバス502へ結合されている。他のタイプのユーザ入力デバイスは、方向情報及びコマンド選択をプロセッサ504へ送り、かつ、ディスプレイ512条でのカーソル移動を制御するための、マウス、トラックボール、又はカーソル方向キーなどのカーソルコントロール516である。個の入力デバイスは通常、平面内の位置を指定することをデバイスに可能にする2つの軸(第1軸(例えば、x)及び第2軸(例えば、y))における2自由度を有する。
【0240】
コンピュータシステム500は、カスタマイズされたハードワイヤードロジック、1つ以上のASIC若しくはFPGA、コンピュータシステムと組み合わせて、コンピュータシステム500に特別目的のマシンであるようにする又はそのようにプログラムするファームウェア及び/又はプログラムロジックを用いて、本明細書で記載されている技術を実施し得る。一実施形態に従って、本明細書で記載されている技術は、プロセッサ504がメインメモリ506に収容されている1つ以上の命令の1つ以上のシーケンスを実行することに応答して、コンピュータシステム500によって実行される。そのような命令は、記憶デバイス510などの他の記憶媒体からメインメモリ506に読み出されてもよい。メインメモリ506に収容されている命令のシーケンスの実行は、プロセッサ504に、本明細書で記載されているプロセスステップを実行させる。代替の実施形態では、ハードワイヤード回路が、ソフトウェア命令の代わりに又はそれとともに使用されてもよい。
【0241】
本明細書で使用される「記憶媒体」という用語は、マシンを特定の方法で動作させるデータ及び/又は命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体には、不揮発性媒体及び/又は揮発性媒体が含まれ得る。不揮発性媒体には、例えば、記憶デバイス510などの光又は磁気ディスクが含まれる。揮発性媒体には、メインメモリ506などの動的メモリが含まれる。記憶媒体の共通する形態には、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、又は任意の他の磁気データ記憶媒体、CD-ROM、任意の他の光学データ記憶媒体、穴のパターンを有する任意の物理媒体、RAM、PROM、及びEPROM、FLASH-EPROM、NVRAM、任意の他のメモリチップ又はカートリッジがある。
【0242】
記憶媒体は、伝送媒体とは異なるものであるか、それとともに使用されてもよい。伝送媒体は、記憶媒体間で情報を転送することに関与する。例えば、伝送媒体には、バス502を有する配線を含め、同軸ケーブル、銅線、及び光ファイバが含まれる。伝送媒体はまた、電波又は赤外線データ通信の間に生成されるもののような音波又は光波の形をとることもできる。
【0243】
様々な形式の媒体が、1つ以上の命令の1つ以上のシーケンスを実行のためにプロセッサ504に搬送することに関与し得る。例えば、命令は最初に、遠隔のコンピュータの磁気ディスク又はソリッドステートドライブに保存され得る。遠隔のコンピュータは命令をその動的メモリにロードし、モデムを使用して電話回線経由で命令を送信することができる。コンピュータシステム500にローカルなモデムは、電話回線上のデータを受信し、赤外線送信器を使用してデータを赤外線信号に変換することができる。赤外線検出器は、赤外線信号で運ばれるデータを受信することができ、適切な回路は、そのデータをバス502上に置くことができる。バス502はデータをメインメモリ506に運び、プロセッサ504はそこから命令を取り出して実行する。メインメモリ506によって受信された命令は、任意に、プロセッサ504による実行の前又は後のいずれかに記憶デバイス510に記憶されてもよい。
【0244】
コンピュータシステム500は、バス502に結合された通信インターフェース518も含む。通信インターフェース518は、ローカルネットワーク522に接続されているネットワークリンク520に結合する双方向データ通信を提供する。例えば、通信インターフェース518は、サービス統合デジタルネットワーク(ISDN)カード、ケーブルモデム、衛星モデム、又は対応するタイプの電話回線へのデータ通信接続を提供するモデムであってよい。他の例として、通信インターフェース518は、互換性のあるLANへのデータ通信接続を提供するローカルエリアネットワーク(LAN)カードであってもよい。無線リンクも実装することができる。このような実装形態では、通信インターフェース518は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号、又は光信号を送受信する。
【0245】
ネットワークリンク520は、通常、1つ以上のネットワークを介して他のデータデバイスにデータ通信を提供する。例えば、ネットワークリンク520は、ローカルネットワーク522を介して、ホストコンピュータ524へ、又はインターネットサービスプロバイダ(ISP)526によって運営されるデータ機器への接続を提供することができる。ISP526は、次に、現在「インターネット」528と広く呼ばれている世界規模のパケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワーク522及びインターネット528は両方とも、デジタルデータストリームを搬送する電気信号、電磁信号、又は光信号を使用する。コンピュータシステム500との間でデジタルデータを搬送する、様々なネットワークを介する信号、及びネットワークリンク520上で通信インターフェース518を介する信号は、伝送媒体の例示的な形態である。
【0246】
コンピュータシステム500は、ネットワーク、ネットワークリンク520、及び通信インターフェース518を介して、メッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ530は、アプリケーションプログラムに対して要求されたコードを、インターネット528、ISP526、ローカルネットワーク522、及び通信インターフェース518を介して伝送し得る。
【0247】
受信されたコードは、それが受信されると、プロセッサ504によって実行され、及び/又は後で実行するために記憶装置510若しくは他の不揮発性記憶装置に記憶され得る。
【0248】
[同等品、拡張、代替品、及びその他]
前述の明細書では、本発明の実施形態を、実装ごとに異なる可能性がある多くの特定の詳細を参照して説明した。よって、特許請求される本発明の実施形態の唯一かつ排他的な指標であり、本発明の特許請求される実施形態であることを出願人が意図するものは、本願から発表される一連の特許請求の範囲であり、その後の修正も含む、そのような特許請求の範囲が発表する特定の形式である。かかる特許請求の範囲に含まれる用語について本明細書に明示的に記載される定義は、特許請求の範囲で使用される用語の意味を支配するものとする。従って、特許請求の範囲に明示的に記載されていない限定、要素、特性、特徴、利点、又は属性は、いかなる形であってもそのような請求の範囲を制限するものではない。従って、明細書及び図面は、限定的な意味ではなく、例示的な意味としてみなされるべきである。
【0249】
[例示的な実施形態の列挙]
本発明は、本発明の実施形態のいくつかの部分の構造、特徴、及び機能について記載する以下の例示的な実施形態の列挙(enumerate example embodiments)(EEE)を含むがこれらに限られない、本明細書で記載されている形態のいずれかで具現化され得る。
【0250】
EEE1.
入力ビデオ信号から、入力領域で表現される入力イメージを受け取ることと、
リシェープイメージ領域で表現される前方リシェープイメージを生成するよう前記入力イメージに対して前方リシェーピングを実行することと、
前記リシェープイメージを符号化ビデオ信号に符号化するよう非リシェーピング符号化動作を実行することであり、前記非リシェーピング符号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習(ML)モデルを用いて実施される、ことと、
前記符号化ビデオ信号の受け手デバイスに、前記前方リシェープイメージから再構成イメージを生成させることであり、前記再構成イメージは、前記受け手デバイスとともに動作するイメージディスプレイでレンダリングされる表示イメージを導出するために使用される、ことと
を有する方法。
【0251】
EEE2.
前記前方リシェープイメージは、1ピクセル×1ピクセルの空間カーネルサイズの畳み込みフィルタを用いて、3つの色チャネルにおける前記入力イメージ内の各入力コードワードをN個のチャネルにおける各々の前方リシェープコードワードに前方リシェーピングする第1畳み込みニューラルネットワークを用いて実行される前記前方リシェーピングによって生成され、Nは3以上の整数を表し、
前記再構成イメージは、1ピクセル×1ピクセルの空間カーネルサイズの第2畳み込みフィルタを用いて、前記N個のチャネルにおける前記入力イメージ内の各前方リシェープコードワードを前記3つの色チャネルにおける各々の再構成コードワードに逆リシェーピングする第2畳み込みニューラルネットワークを用いて実行される逆リシェーピングによって生成される、
EEE1に記載の方法。
【0252】
EEE3.
前記第1畳み込みニューラルネットワークは、前記N個のチャネルにおける前方リシェープコードワードへの前記入力イメージ内の入力コードワードの非線形マッピングを含む、
EEE2に記載の方法。
【0253】
EEE4.
前記非リシェーピング符号化動作は、オプティカルフロー分析、動きベクトル符号化、動きベクトル復号化、動きベクトル量子化、動き補償、残差符号化、残差復号化、又は残差量子化、のうちの1つ以上を含む、
EEE1乃至3のいずれかに記載の方法。
【0254】
EEE5.
前記入力領域は、RGB色空間、YUV色空間、IPT色空間、又は他の異なる色空間、のうちの1つである色空間に対応する、
EEE1乃至4のいずれかに記載の方法。
【0255】
EEE6.
前記前方リシェーピングは、前記非リシェーピング符号化動作の前に実行されるループ外イメージ処理動作として実行される、
EEE1乃至5のいずれかに記載の方法。
【0256】
EEE7.
前記前方リシェーピングは、前記非リシェーピング符号化動作を含む全体的なループ内イメージ処理動作の一部として実行される、
EEE1乃至5のいずれかに記載の方法。
【0257】
EEE8.
前記前方リシェープイメージのイメージメタデータ部分は、前記符号化ビデオ信号によって運ばれるイメージメタデータの一部であり、
前記イメージメタデータ部分は、前記前方リシェーピングのための前方リシェーピングパラメータ、又は逆リシェーピングのための後方リシェーピングパラメータ、のうちの1つ以上を含む、
EEE1乃至7のいずれかに記載の方法。
【0258】
EEE9.
前記イメージメタデータ部分は、前記前方リシェーピング又は前記逆リシェーピングのうちの一方のためのリシェーピングマッピングを明示的に指定するリシェーピングパラメータを含む、
EEE8に記載の方法。
【0259】
EEE10.
リシェーピングマッピングを明示的に指定する前記リシェーピングパラメータは、MLベースのリシェーピングマッピング予測方法、又は非MLベースのリシェーピングマッピング生成方法、のうちの1つによって生成される、
EEE9に記載の方法。
【0260】
EEE11.
前記イメージメタデータ部分は、大域的マッピング、又はイメージ適応マッピング、のうちの1つとして前記前方リシェーピングを特定するリシェーピングパラメータを含む、
EEE1乃至10のいずれかに記載の方法。
【0261】
EEE12.
前記前方リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、前記ニューラルネットワークのバイアス及び重みは前記受け手デバイスへシグナリングされない、
EEE1乃至11のいずれかに記載の方法。
【0262】
EEE13.
前記前方リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、前記ニューラルネットワークのバイアス及び重みの少なくとも1つは前記受け手デバイスへシグナリングされる、
EEE1乃至12のいずれかに記載の方法。
【0263】
EEE14.
リシェープイメージ領域で表現される前方リシェープイメージを符号化ビデオ信号から復号することであり、前記前方リシェープイメージは、入力イメージ領域で表現される入力イメージを前方リシェーピングすることによって上流デバイスによって生成されたものである、ことと、
再構成イメージ領域で表現される再構成イメージを生成するよう前記前方リシェープイメージに関連した非リシェーピング復号化動作とともに前記前方リシェープイメージに対して逆リシェーピングを実行することであり、前記逆リシェーピング及び前記前方リシェーピングはリシェーピング動作ペアを形成し、前記非リシェーピング復号化動作の少なくとも1つは、先行する訓練段階で1つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習(ML)モデルを用いて実施される、ことと、
前記再構成イメージから導出された表示イメージをイメージディスプレイでレンダリングさせることと
を有する方法。
【0264】
EEE15.
前記逆リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、前記ニューラルネットワークのバイアス及び重みは前記受け手デバイスへシグナリングされない、
EEE14に記載の方法。
【0265】
EEE16.
前記逆リシェーピングは、1つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、前記ニューラルネットワークのバイアス及び重みの少なくとも1つは前記受け手デバイスへシグナリングされる、
EEE14又は15に記載の方法。
【0266】
EEE17.
前記逆リシェーピングは、イメージメタデータの一部として前記符号化ビデオ信号で運ばれる前記前方リシェープイメージのイメージメタデータ部分内でシグナリングされるリシェーピングマッピングを用いて実行される、
EEE14又は15に記載の方法。
【0267】
EEE18.
前記非リシェーピング符号化動作の少なくとも1つは、前記リシェープイメージ領域で表現される訓練イメージにより前もって訓練された機械学習(ML)モデルにより実施される、
EEE1乃至17のいずれかに記載の方法。
【0268】
EEE19.
前記ループ内動作は、符号化及び/又は復号化動作の一部として実行される、
EEE7に記載の方法。
【0269】
EEE20.
プロセッサを有し、EEE1乃至19のいずれかに記載の方法を実行するよう構成される装置。
【0270】
EEE21.
コンピュータ実行可能命令を記憶し、
前記コンピュータ実行可能命令は、1つ以上のプロセッサで実行される場合に、前記1つ以上のプロセッサに、EEE1乃至19いずれかに記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。
【0271】
[関連出願への相互参照]
本願は、2021年8月30日に出願された欧州特許出願第21193790.9号及び2021年8月30日に出願された米国特許仮出願第63/238529号に対する優先権を主張するものである。これらの出願の夫々は、それらの全文を参照により本願に援用される。
図1A
図1B
図1C
図1D
図1E
図2A
図2B
図2C
図3A
図3B
図4A
図4B
図5
【国際調査報告】