特表2024-534183 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特表2024-534183学習に基づいたイメージ／ビデオコーディングのためのリシェーパ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
2A
2B
2C
3A
3B
4A
4B
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-09-18

(54)【発明の名称】学習に基づいたイメージ／ビデオコーディングのためのリシェーパ

(51)【国際特許分類】

H04N 19/503 20140101AFI20240910BHJP

H04N 19/46 20140101ALI20240910BHJP

【ＦＩ】

H04N19/503

H04N19/46

【審査請求】未請求

【予備審査請求】有

(21)【出願番号】P 2024513349

(86)(22)【出願日】2022-08-05

(85)【翻訳文提出日】2024-02-28

(86)【国際出願番号】 US2022039593

(87)【国際公開番号】W WO2023033991

(87)【国際公開日】2023-03-09

(31)【優先権主張番号】21193790.9

(32)【優先日】2021-08-30

(33)【優先権主張国・地域又は機関】EP

(31)【優先権主張番号】63/238,529

(32)【優先日】2021-08-30

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】イン，プオン

(72)【発明者】

【氏名】プゥ，ファーンジュイン

(72)【発明者】

【氏名】ルゥ，タオラン

(72)【発明者】

【氏名】アローラ，アルジュン

(72)【発明者】

【氏名】スゥ，グワン－ミーン

(72)【発明者】

【氏名】チェン，タオ

(72)【発明者】

【氏名】マッカーシー，ショーントーマス

(72)【発明者】

【氏名】フサク，ウォルタージェイ．

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159MA04

5C159MA05

5C159MC11

5C159PP04

5C159RC11

5C159UA02

5C159UA05

(57)【要約】

入力領域で表現される入力イメージが入力ビデオ信号から受け取られる。前方リシェーピングは、リシェープイメージ領域で表現される前方リシェープイメージを生成するよう入力イメージに対して実行される。非リシェーピング符号化動作は、リシェープイメージを符号化ビデオ信号に符号化するよう実行される。非リシェーピング符号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているＭＬモデルを用いて実施される。符号化ビデオ信号の受け手デバイスは、前方リシェープイメージから再構成イメージを生成させられる。

【特許請求の範囲】

【請求項1】

入力ビデオ信号から、入力領域で表現される入力イメージを受け取ることと、
リシェープイメージ領域で表現される前方リシェープイメージを生成するよう前記入力イメージに対して前方リシェーピングを実行することと、
前記前方リシェープイメージを符号化ビデオ信号に符号化するよう非リシェーピング符号化動作を実行することであり、前記非リシェーピング符号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習（ＭＬ）モデルを用いて実施される、ことと、
前記符号化ビデオ信号の受け手デバイスに、前記前方リシェープイメージから再構成イメージを生成させることであり、前記再構成イメージは、前記受け手デバイスとともに動作するイメージディスプレイでレンダリングされる表示イメージを導出するために使用される、ことと
を有する方法。

【請求項2】

前記前方リシェープイメージは、１ピクセル×１ピクセルの空間カーネルサイズの畳み込みフィルタを用いて、３つの色チャネルにおける前記入力イメージ内の各入力コードワードをＮ個のチャネルにおける各々の前方リシェープコードワードに前方リシェーピングする第１畳み込みニューラルネットワークを用いて実行される前記前方リシェーピングによって生成され、Ｎは３以上の整数を表し、
前記再構成イメージは、１ピクセル×１ピクセルの空間カーネルサイズの第２畳み込みフィルタを用いて、前記Ｎ個のチャネルにおける前記入力イメージ内の各前方リシェープコードワードを前記３つの色チャネルにおける各々の再構成コードワードに逆リシェーピングする第２畳み込みニューラルネットワークを用いて実行される逆リシェーピングによって生成され、
前記第１畳み込みニューラルネットワークは、前記Ｎ個のチャネルにおける前方リシェープコードワードへの前記入力イメージ内の入力コードワードの非線形マッピングを含む、
請求項１に記載の方法。

【請求項3】

前記非リシェーピング符号化動作は、オプティカルフロー分析、動きベクトル符号化、動きベクトル復号化、動きベクトル量子化、動き補償、残差符号化、残差復号化、又は残差量子化、のうちの１つ以上を含む、
請求項１に記載の方法。

【請求項4】

前記前方リシェーピングは、前記非リシェーピング符号化動作の前に実行されるループ外イメージ処理動作として実行される、
請求項１に記載の方法。

【請求項5】

前記前方リシェーピングは、前記非リシェーピング符号化動作を含む全体的なループ内イメージ処理動作の一部として実行される、
請求項１に記載の方法。

【請求項6】

前記全体的なループ内イメージ処理動作は符号化動作である、
請求項５に記載の方法。

【請求項7】

前記前方リシェープイメージのイメージメタデータ部分は、前記符号化ビデオ信号によって運ばれるイメージメタデータの一部であり、
前記イメージメタデータ部分は、前記前方リシェーピングのための前方リシェーピングパラメータ、又は逆リシェーピングのための後方リシェーピングパラメータ、のうちの１つ以上を含む、
請求項１に記載の方法。

【請求項8】

前記イメージメタデータ部分は、前記前方リシェーピング又は前記逆リシェーピングのうちの一方のためのリシェーピングマッピングを明示的に指定するリシェーピングパラメータを含む、
請求項７に記載の方法。

【請求項9】

リシェーピングマッピングを明示的に指定する前記リシェーピングパラメータは、ＭＬベースのリシェーピングマッピング予測方法、又は非ＭＬベースのリシェーピングマッピング生成方法、のうちの１つによって生成される、
請求項８に記載の方法。

【請求項10】

前記イメージメタデータ部分は、大域的マッピング、又はイメージ適応マッピング、のうちの１つとして前記前方リシェーピングを特定するリシェーピングパラメータを含む、
請求項７に記載の方法。

【請求項11】

前記前方リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行される、
請求項１に記載の方法。

【請求項12】

リシェープイメージ領域で表現される前方リシェープイメージを符号化ビデオ信号から復号することであり、前記前方リシェープイメージは、入力イメージ領域で表現される入力イメージを前方リシェーピングすることによって上流デバイスによって生成されたものである、ことと、
再構成イメージ領域で表現される再構成イメージを生成するよう前記前方リシェープイメージに関連した非リシェーピング復号化動作とともに前記前方リシェープイメージに対して逆リシェーピングを実行することであり、前記逆リシェーピング及び前記前方リシェーピングはリシェーピング動作ペアを形成し、前記非リシェーピング復号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習（ＭＬ）モデルを用いて実施される、ことと、
前記再構成イメージから導出された表示イメージをイメージディスプレイでレンダリングさせることと
を有する方法。

【請求項13】

前記逆リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行される、
請求項１２に記載の方法。

【請求項14】

前記逆リシェーピングは、イメージメタデータの一部として前記符号化ビデオ信号で運ばれる前記前方リシェープイメージのイメージメタデータ部分内でシグナリングされるリシェーピングマッピングを用いて実行される、
請求項１２に記載の方法。

【請求項15】

プロセッサを有し、請求項１乃至１４のうちいずれか一項に記載の方法を実行するよう構成される装置。

【請求項16】

コンピュータ実行可能命令を記憶し、
前記コンピュータ実行可能命令は、１つ以上のプロセッサで実行される場合に、前記１つ以上のプロセッサに、請求項１乃至１４のうちいずれか一項に記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、イメージ処理動作に概して関係がある。より具体的には、本開示の実施形態は、ビデオコーデックに関係がある。

【背景技術】

【0002】

本明細書で使用されるように、「ダイナミックレンジ」（ＤＲ）という用語は、イメージ内の強度（例えば、輝度、ルーマ）範囲、例えば、最も暗い黒（ダーク）から最も明るい白（ハイライト）までを知覚するヒト視覚系（ＨＶＳ）の能力を指すことができる。この意味で、ＤＲは「シーン参照」（scene-referred）の強度に関係がある。ＤＲはまた、特定の範囲の強度範囲を適切に又は近似的にレンダリングするディスプレイデバイスの能力にも関係があり得る。この意味で、ＤＲは「ディスプレイ参照」の強度に関係がある。特定の意味が本願の明細書中のいずれかの点で特定の重要性を持つと明示的に指定されない限りは、用語は、いずれの意味でも、例えば同義的に、使用され得ることが推測されるべきである。

【0003】

本明細書で使用されるように、高ダイナミックレンジ（ＨＤＲ）という用語は、ヒト視覚系（ＨＶＳ）の１４～１５桁以上にわたるＤＲ範囲に関係がある。実際に、ヒトが強度範囲内の広大な範囲を同時に知覚できるＤＲは、ＨＤＥと比べて多少切り詰められる可能性がある。本明細書で使用されるように、拡張ダイナミックレンジ（ＥＤＲ）又は視覚ダイナミックレンジ（ＶＤＲ）という用語は、シーン又はイメージにわたるいくらかの光順応変化を可能にしながら、目の動きを含むヒト視覚系（ＨＶＳ）によるシーン又はイメージ内で知覚可能なＤＲに個別的に又は同義的に関係があることができる。本明細書で使用されるように、ＥＤＲは、５～６桁にわたるＤＲに関係があり得る。実際のシーン参照ＨＤＲと比較すると若干狭いかもしれないが、それでもＥＤＲは広いＤＲ範囲を表し、ＨＤＲとも呼ばれることがある。

【0004】

実際に、イメージは、色空間の１つ以上の色成分（例えば、ルーマＹ並びにクロマＣｂ及びＣｒ）を含み、各色成分は、ピクセルごとにｎビットの精度で表される（例えば、ｎ＝８）。非線形輝度コーディング（例えば、ガンマ符号化）を用いて、ｎ≦８であるイメージ（例えば、カラー２４ビットＪＰＥＧイメージ）は、標準ダイナミックレンジのイメージと見なされ、一方、ｎ＞８であるイメージは、拡張ダイナミックレンジのイメージと見なされ得る。

【0005】

所与の表示特性の基準電気光学伝達関数（ｅｌｅｃｔｒｏ－ｏｐｔｉｃａｌｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ，ＥＯＴＦ）は、入力ビデオ信号の色値（例えば、輝度）からディスプレイによって生成される出力スクリーン色値（例えば、スクリーン輝度）までの間の関係を特徴付ける。例えば、ＩＴＵＲｅｃ．ＩＴＵ－ＲＢＴ．１８８６，“Reference electro-optical transfer function for flat panel displays used in HDTV studio production”（２０１１年３月）は、その全文を参照により本願に援用される非特許文献１であり、フラットパネルディスプレイの基準ＥＯＴＦを定義している。ビデオストリームを考えると、そのＥＯＴＦに関する情報は、（イメージ）メタデータとしてビットストリームに埋め込まれ得る。本明細書での「メタデータ」という用語は、コーディングされたビットストリームの部分として伝送された任意の補助情報に関係があり、デコーダが復号されたイメージをレンダリングするのを助ける。そのようなメタデータには、本明細書で記載されているもののような、色空間又は色域（gamut）情報、参照ディスプレイパラメータ、及び補助信号パラメータが含まれ得るが、これらに限られない。

【0006】

本明細書で使用される「ＰＱ」という用語は、知覚的輝度振幅量子化（perceptual luminance amplitude quantization）を指す。ヒト視覚系は、非常に非線形な方法で光レベルを増大させることに反応する。刺激を見る人の能力は、その刺激の輝度、刺激のサイズ、刺激を構成する空間周波数、及び刺激を見ている特定の瞬間に目が適応している輝度レベルによって影響される。いくつかの実施形態で、知覚量子化器関数は、線形入力グレーレベルを、ヒト視覚系におけるコントラスト感度閾値により良く一致する出力グレーレベルにマッピングする。ＰＱマッピング関数の例は、ＳＭＰＴＥＳＴ２０８４：２０１４，“High Dynamic Range EOTF of Mastering Reference Displays”（以降「ＳＭＰＴＥ」）で記載されており、この非特許文献２は、その全文を参照により本願に援用される。固定刺激サイズを仮定して、輝度レベル（例えば、刺激レベルなど）ごとに、その輝度レベルでの最大視覚コントラストステップは、最も敏感な適応レベル及び最も敏感な空間周波数に従って（ＨＶＳモデルに従って）選択される。

【0007】

２００から１，０００ｃｄ／ｍ^２又はｎｉｔの輝度をサポートするディスプレイは、ＥＤＲ（又はＨＤＲ）と比較して、標準ダイナミックレンジ（ＳＤＲ）とも呼ばれる低ダイナミックレンジ（ＬＤＲ）の特色を表す。ＥＤＲコンテンツは、より高いダイナミックレンジ（例えば、１，０００ｎｉｔから５，０００ｎｉｔ又はそれ以上）をサポートするＥＤＲディスプレイで表示されることがある。そのようなディスプレイは、光輝度能力（例えば、０から１０，０００ｎｉｔ又はそれ以上）をサポートする代替のＥＯＴＦを用いて定義され得る。そのようなＥＯＴＦの例は、ＳＭＰＴＥ２０８４及びＲｅｃ．ＩＴＵ－ＲＢＴ．２１００，“Image parameter values for high dynamic range television for use in production and international programme exchange”（２０１７年６月）で定義されている。ここで発明者によって認識されているように、多種多様なディスプレイデバイスの表示能力を効率的にサポートするために使用できるビデオコンテンツデータを合成する改善された技術が望まれている。

【0008】

このセクションで記載されているアプローチは、追求され得るアプローチであるが、必ずしも以前に考案又は追求されていたアプローチではない。従って、別段の指示がない限り、このセクションに記載されているアプローチのいずれも、単にこのセクションに含まれているという理由だけで従来技術として認定されると想定すべきではない。同様に、１つ以上のアプローチに関して特定された問題は、特に示されていない限り、このセクションに基づいて先行技術で認識されていると想定すべきではない。

【先行技術文献】

【非特許文献】

【0009】

【非特許文献1】ＩＴＵＲｅｃ．ＩＴＵ－ＲＢＴ．１８８６，“Reference electro-optical transfer function for flat panel displays used in HDTV studio production”（２０１１年３月）

【非特許文献2】ＳＭＰＴＥＳＴ２０８４：２０１４，“High Dynamic Range EOTF of Mastering Reference Displays”

【非特許文献3】Ｒｅｃ．ＩＴＵ－ＲＢＴ．２１００，“Image parameter values for high dynamic range television for use in production and international programme exchange”（２０１７年６月）

【図面の簡単な説明】

【0010】

本発明の実施形態は、限定としてではなく、例として表されており、添付の図面の図中、同じ参照番号は類似した要素を参照するものである。

【0011】

【図1A】学習に基づいたイメージ／ビデオコーデック内で又はそれとともにイメージ／ビデオリシェーパ（又はリシェーピングモジュール）が動作する例示的なコーデックアーキテクチャを表す。

【図1B】学習に基づいたイメージ／ビデオコーデック内で又はそれとともにイメージ／ビデオリシェーパ（又はリシェーピングモジュール）が動作する例示的なコーデックアーキテクチャを表す。

【図1C】学習に基づいたイメージ／ビデオコーデック内で又はそれとともにイメージ／ビデオリシェーパ（又はリシェーピングモジュール）が動作する例示的なコーデックアーキテクチャを表す。

【図1D】学習に基づいたイメージ／ビデオコーデック内で又はそれとともにイメージ／ビデオリシェーパ（又はリシェーピングモジュール）が動作する例示的なコーデックアーキテクチャを表す。

【図1E】学習に基づいたイメージ／ビデオコーデック内で又はそれとともにイメージ／ビデオリシェーパ（又はリシェーピングモジュール）が動作する例示的なコーデックアーキテクチャを表す。

【図2A】リシェーピング動作が実行され得る例示的なワークフローを表す。

【図2B】リシェーピング及び非リシェーピングＭＬに基づいたモデルを訓練する例示的なプロセスを表す。

【図2C】例示的な前方及び逆／後方リシェーパネットを表す。

【図3A】リシェーピングパラメータを符号化する例示的なプロセスフローを表す。

【図3B】リシェーピングパラメータをパース又は復号する例示的なプロセスフローを表す。

【図4A】例示的なプロセスフローを表す。

【図4B】例示的なプロセスフローを表す。

【図5】本明細書で記載されるコンピュータ又はコンピューティングデバイスが実装され得る例示的なハードウェアプラットフォームの略ブロック図を表す。

【発明を実施するための形態】

【0012】

以下の記載では、説明を目的として、多数の具体的な詳細が、本開示の完全な理解をもたらすように、示されている。なお、本開示はこれらの具体的な詳細によらずとも実施されてもよいことは明らかである。他の事例では、よく知られている構造及びデバイスは、本開示を不必要な不明りょうにすることがないように、徹底的な詳細には記載されていない。

【0013】

［概要］
いくつかのアプローチの下で、学習に基づいたイメージ／ビデオコーディングのパフォーマンスは、訓練データセットに大いに依存する可能性がある。例えば、機械学習（ＭＬ）モデルは、ＳＤＲイメージ／ビデオの訓練データセット又はデータベースを用いて訓練される。訓練モデルからの推論を組み込むイメージ／ビデオコーディングは、ＨＤＲイメージ／ビデオの訓練データセット又はデータベースを用いて訓練されている同じモデルと比較して、ＨＤＲイメージ／ビデオに対して適切に機能しない場合がある。訓練イメージ及び非訓練イメージの両方が同じ又は類似したカラーグレードの（例えば、ＳＤＲなど）イメージ／ビデオである場合でさえ、訓練イメージは、特定のイメージ／ビデオ特性（例えば、視覚的に知覚可能な特性、非視覚的な特性、など）において非訓練イメージとは依然として異なることがある。例えば、モデルの適用又は推論段階での非訓練イメージ／ビデオは、スクリーンコンテンツ（ＳＣＣ）イメージ／ビデオなどのテキスト領域及び画像領域を含むコンポジットイメージ／ビデオである可能性があり、一方、モデルの訓練段階での訓練イメージ／ビデオは非ＳＣＣイメージ／ビデオである可能性がある。その結果、訓練されたモデルからの推論を組み込むイメージ／ビデオコーディングは、ＳＣＣイメージ／ビデオに対して適切に機能しない場合がある。

【0014】

対照的に、本明細書で記載されるリシェーピング技術は、コーディング効率を向上させるために、及び訓練イメージ／ビデオと同じ（又は類似した）イメージ／ビデオ特性を持っていても持っていなくてもよい非訓練イメージ／ビデオに関して適応性をもたらすために、訓練されたＭＬモデルからの推論を組み込みイメージ／ビデオコーディングと関連して、（深層学習に基づいた）イメージ／ビデオコーデックにおいて実施され得る。

【0015】

これらの技術は、ビデオコーデックにおける様々な標準ベースの及び／又は独自仕様のシステム構成において実施され得る。本明細書で記載されるいくつか又は全てのリシェーピング動作は、ループ内（in-loop）動作として（イメージ／ビデオ符号化／復号化動作の一部として）又はループ外動作として（イメージ／ビデオ符号化／復号化の前又は後の前処理又は後処理動作／ツールの一部として）実施され得る。リシェーピング動作で使用される動作パラメータは、適用可能なイメージ／ビデオコーディングシンタックス規格に従ってシンタックス又はシンタックス要素を用いて符号化されているビデオ信号において、上流の符号化デバイス～受け手デバイスへシグナリングされ得る。例となるリシェーピング動作は、２０１９年５月９日に出願された国際特許出願第ＰＣＴ／ＵＳ２０１９／０３１６２０号（米国特許第１００８００２６号）に記載されており、この特許出願の全内容は、あたかも本願に完全に記載されているかのように参照により本願に援用される。

【0016】

例となるイメージ／ビデオコーディングシンタックス規格には、ＤｏｌｂｙＶｉｓｉｏｎコーディングシンタックス規格、ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ又はＶＶＣ規格、などがあるが、必ずしもこれらだけに限られない。例となるシンタックス又はシンタックス要素には、補足拡張情報（supplemental enhanced information）又はＳＥＩメッセージ、コーディングデータユニットヘッダフィールド、ＬｕｍａＭａｐｐｉｎｇＣｈｒｏｍａＳｃａｌｉｎｇ又はＬＭＣＳデータフィールド、ループ内動作に関するデータフィールド、ループ外動作に関するデータフィールド、などのうちの1つ以上に関係がある任意のものがあるが、必ずしもこれらだけに限られない。ＬＭＣＳに関係がある、例となるイメージ処理動作は、米国特許出願公開第２０２１／００７６０７９号に記載されている。この公開公報は、その全文を参照により本願に援用される。

【0017】

いくつかの動作シナリオで、本明細書で記載されるリシェーピング動作は、ビデオ信号で受信された一部又は全てのイメージに同じリシェーピングマッピングを適用して、対応するリシェーピング又は再構成されたイメージを生成する大域的なリシェーピング動作であることができる。個々のイメージ／ピクチャのための個々のリシェーピングマッピング／関数を指定するリシェーピング動作パラメータは、符号化されたビデオ信号において上流のデバイスから下流の受け手デバイスへ送信される必要がない。上流のデバイスは、下流の受け手デバイスがリシェーピング動作で使用するために、複数部分の多項式、ルックアップテーブルなどの事前設定された、予め記憶された又は固定された大域的リシェーピングマッピング／関数を特定する1つ以上の比較的高度なリシェーピングパラメータ又はフラグにより識別子を下流の受け手デバイスへ単に通知すればよい。

【0018】

いくつかの動作シナリオで、本明細書で記載されるリシェーピング動作は、リシェーピング又は再構成されたイメージを生成するために、ビデオ信号で受信された一部又は全てのイメージの中の各個別のイメージに（例えば、場合により異なった、など）個々のリシェーピングマッピング／関数を適用するイメージ適応リシェーピング動作であることができる。個々のリシェーピングマッピング／関数を導出するために使用できるリシェーピング動作パラメータは、例えば、比較的高度なリシェーピングパラメータ又はフラグなどに加えて、符号化されたビデオ信号において符号化され、上流のデバイスから下流の受け手デバイスでシグナリングされ得る。

【0019】

本明細書で記載されるリシェーピング技術を実施しない他のアプローチの下では、上述されたように、ＭＬモデルは、いくつかの特性において訓練イメージ／ビデオとは異なるイメージ／ビデオ（例えば、異なるダイナミックレンジ、異なる視覚認知特性、など）に関して推論において適切に機能しない可能性がある。この問題を解消するために、これらのＭＬモデルの一部又は全ては、モデル訓練段階で多種多様な訓練イメージ／ビデオにより訓練される必要があり得る。その上、ＭＬモデルで使用される多数のモデルパラメータ（例えば、ニューラルネットワークで使用されるモデルパラメータ、など）は、モデルデプロイメント又は推論段階で異なる入力イメージを用いて適応的に最適化及びシグナリングされる必要があり得る。

【0020】

対照的に、本明細書で記載される技術の下では、ＭＬモデルで使用される多数のモデルパラメータを訓練し、適応的に最適化／調整／シグナリング／伝送するのではなく、多項式係数（例えば、区分線形又は非線形リシェーピング関数／マッピングなどを指定する。）、ＭＭＲ係数（例えば、ＭＭＲベースの交差チャネルリシェーピング関数／マッピングを指定又は定義する。）、ＴＰＢ係数（例えば、テンソル積Ｂスプライン（Tensor-Product-B-Spline）ベースのリシェーピング関数／マッピングを指定又は定義する。）、などの比較的少ないリシェーピング動作パラメータが上流の符号化デバイスによって受け手デバイスへ適応的に最適化／調整／シグナリング／伝送され得る。例となるマルチカラーチャネル重回帰（multiple color channel multiple regression）（ＭＭＲ）に基づいた動作は米国特許第８８１１４９０号に記載されている。この特許文献は、あたかも本明細書で十分に説明されているかのようにその全文を参照により本願に援用される。例となるＴＰＢに基づいた動作は、２０１９年１０月１日に出願された、発明の名称が「TENSOR-PRODUCT B-SPLINE PREDICTOR」である米国特許仮出願第６２／９０８７７０号（代理人整理番号：６０１７５－０４１７）に記載されている。この特許文献は、あたかも本明細書で十分に説明されているかのようにその全文を参照により本願に援用される。

【0021】

これらのリシェーピング動作パラメータにより指定されたリシェーピング動作は、ＭＬモデルを訓練するために使用される訓練イメージ／ビデオ内に入力イメージに類似したイメージがないとしても、個々の入力イメージについて個別的に調整又は生成され、それによって、入力イメージの異なる特性へのより良い適応性をもたらすことができる。

【0022】

学習に基づいたイメージ／ビデオコーディング（例えば、符号化、復号化、圧縮、圧縮解除、など）におけるイメージ／ビデオリシェーピングは、明示的なマッピング（又はパラメトリックマッピング）又は暗黙的なマッピング（非パラメトリックマッピング）により実施又は実行され得る。

【0023】

明示的なマッピングの場合、イメージ／ビデオリシェーピングは、多項式、ＭＭＲ、又はＢスプライン若しくはＢスプライン関数のテンソル積、などの動作パラメータのようなリシェーピング動作パラメータにより明示的に指定又は表現されたリシェーピング関数／マッピングを用いて、入力イメージをリシェーピングされたイメージにリシェーピングすることができる。リシェーピング動作パラメータは、ニューラルネットワークに基づいたものなどのＭＬモデルにより、又は推定／予測誤差を最小化する最適化問題を解くことなどの他の最適な手法により、取得又は生成され得る。

【0024】

暗黙的なマッピングの場合、イメージ／ビデオリシェーピングは、多項式、ＭＭＲ、又はＢスプライン若しくはＢスプライン関数のテンソル積、などの動作パラメータのようなリシェーピング動作パラメータにより明示的に指定又は表現されたリシェーピング関数／マッピングを用いずに、比較的高い次元の変換を伴ったニューラルネットワークなどのＭＬベースリシェーピングモデルを用いて、リシェーピング対象のイメージをリシェーピングされたイメージにリシェーピングすることができる。ＭＬベースリシェーピングモデルは、ニューラルネットワークの訓練された重み／バイアスなどの訓練された動作パラメータを有してもよく、ニューラルネットワークのこれらの訓練された動作パラメータ又は訓練された重み／バイアスを用いて、リシェーピング対象のイメージに対して暗黙的なリシェーピングマッピングを実行してもよい。

【0025】

比較的高い次元の変換又は重み／バイアスにおける動作パラメータは比較的多く、教師あり又は教師なし学習により訓練、最適化、又は生成され得る。訓練後、比較的高い次元の変換又はその中の比較的多数の訓練された動作パラメータを含むニューラルネットワークは、上流のイメージ／ビデオエンコーダ及び／又は下流のイメージ／ビデオデコーダなどのコーデックで予め記憶されても又は固定されてもよい。

【0026】

結果として、入力イメージが上流のイメージ／ビデオエンコーダによって符号化される場合、ニューラルネットワーク又はＭＬベースリシェーピングモデルのためのこれらの多数の動作パラメータは、上流のイメージ／ビデオエンコーダによってリシェーピングされたイメージを用いて符号化された出力又は符号化ビデオ信号の一部として含まれる必要がない。リシェーピングされたイメージが下流の受け手のイメージ／ビデオデコーダによって出力又は符号化ビデオ信号から復号される場合、ニューラルネットワーク又はＭＬベースリシェーピングモデルのための多数の動作パラメータは下流の受け手のイメージ／ビデオデコーダに既に記憶されており、デコーダは、ニューラルネットワーク又はＭＬベースリシェーピングモデルを用いて、リシェーピングされたイメージから再構成されたイメージを生成することができる。言い換えれば、暗黙的なマッピングを用いると、暗黙的なマッピングのための本明細書で記載されるＭＬリシェーピング変換又はモデルは、コーデックデバイスが実際のデプロイメント又は推論段階でランタイム時に変換又はモデルによるイメージリシェーピング動作を実行することを可能にするために、変換若しくはモデル及び／又はそのための動作パラメータが予め記憶され得るということで、変換又はモデルをシグナリングするために如何なるイメージメタデータもビデオ信号に含める必要がない。

【0027】

比較的高い次元の変換の例は、畳み込みニューラルネットワーク、すなわちＣＮＮ、又はＣＮＮを伴ったデータ変換動作（例えば、1つ以上のデータ変換レイヤ、など）として全体的又は部分的に実施され得る。ＣＮＮ又はその中のレイヤは、（例えば、出力チャネルを生成するためにＣＮＮで使用されるフィルタのタイプに応じて、フィルタが適用されるイメージ内のピクセルの総数に応じて、など）比較的多数の出力チャネル及びＣＮＮで使用される比較的多数の動作パラメータ（例えば、重み、バイアス、ノードの数、ストライドの数、レイヤのタイプ、フィルタのタイプ、フィルタカーネルのサイズ、活性化関数のタイプ、など）を有して動作し得る。

【0028】

２つのＣＮＮ又はその中で又はそれとともに実施される変換は、リシェーパペアを形成し、本明細書で記載される前方（forward）及び逆（inverse）／後方（backward）リシェーピング動作で夫々使用され得る。２つのＣＮＮ／変換のうちの一方は前方リシェーピング用であり、２つのＣＮＮ／変換のうちの他方は後方リシェーピング用である。同じペア内の２つのＣＮＮ／変換は、それらが可逆的（reversible）であるように訓練され得る。本明細書の全体にわたり、「逆リシェーピング」及び「後方リシェーピング」という用語は同義的に使用され得る。

【0029】

本明細書で使用されるように、「可逆的」という用語は、再構成されたイメージ（入力イメージと同じか又はそれに非常に近い）が、明示的又は暗黙的な後方リシェーピングマッピングを用いて、対応する明示的又は暗黙的な前方リシェーピングマッピングを用いて入力イメージを前方リシェーピングすることによって生成された前方リシェープイメージを後方リシェーピングすることによって生成され得る、ことを意味し得る。

【0030】

本明細書で記載される例示的な実施形態は、イメージデータを符号化することに関係がある。入力領域で表現される入力イメージは入力ビデオ信号から受け取られる。リシェープイメージ領域で表現される前方リシェープイメージを生成するよう、入力イメージに対して前方リシェーピングが実行される。リシェープイメージを符号化ビデオ信号に符号化するよう、非リシェーピング符号化動作が実行される。非リシェーピング符号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているＭＬモデルを用いて実施される。符号化ビデオ信号の受け手デバイスは、前方リシェープイメージから再構成イメージを生成させられる。再構成イメージは、受け手デバイスとともに動作するイメージディスプレイでレンダリングされる表示イメージを導出するために使用される。

【0031】

本明細書で記載される例示的な実施形態は、イメージデータを復号することに関係がある。リシェープイメージ領域で表現される前方リシェープイメージは符号化ビデオ信号から復号される。前方リシェープイメージは、入力イメージ領域で表現される入力イメージを前方リシェーピングすることによって上流デバイスによって生成されたものである。再構成イメージ領域で表現される再構成イメージを生成するよう、前方リシェープイメージに対して、それと関連して、逆リシェーピング及び非リシェーピング復号化動作が実行される。逆リシェーピング及び前方リシェーピングはリシェーピング動作ペアを形成する。非リシェーピング復号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているＭＬモデルを用いて実施される。再構成イメージから導出された表示イメージが、イメージディスプレイでレンダリングされる。

【0032】

［例となる、学習に基づいたイメージ／ビデオコーデックアーキテクチャ］
本明細書で記載されるＭＬベース又は非ＭＬベースのリシェーピング技術は、様々な学習に基づいたイメージ／ビデオコーデックアーキテクチャ内に実装されるか又は組み込まれ得る。これらのアーキテクチャの一部は、リシェープイメージを生成するためにリシェーピング動作が明示的に指定されたリシェーピングマッピングを入力イメージに適用する明示的なマッピング動作モードで実行されるリシェーピング動作をサポートする。アーキテクチャのその他は、リシェープイメージを生成するためにリシェーピング動作がリシェーピング動作を暗黙的に（例えば、訓練イメージを用いて訓練された（例えば、多数の、シグナリングされない、予め記憶された、予めデプロイされた、など）最適化された動作パラメータを有するＭＬモデルを通じて）入力イメージに適用するリシェーピング動作をサポートする。しかし、いくつかの動作シナリオで、訓練イメージにより訓練されたＭＬモデルの最適化された動作パラメータの一部又は全ては、特に、これらのパラメータの総数及びこれらのパラメータを運ぶための総データ容量が比較的小さい（例えば、特定のデータ容量閾値を下回る、重み／バイアスシグナリングオーバーヘッドが比較的小さい、など）場合に、本明細書で記載される符号化ビデオ信号でシグナリングされ得る。

【0033】

図１Ａは、ループ外イメージ／ビデオリシェーパ（又はリシェーピングモジュール）が学習に基づいたイメージ／ビデオコーデックとともに動作する例示的なコーデックアーキテクチャを表す。アーキテクチャの一部又は全ては、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアとコンピュータプロセッサ、ＡＳＩＣ，ＦＰＧＡ、ＤＳＰ、ＩＣ、ビデオコーデックチップなどとの組み合わせで実施されてよい。

【0034】

図示されるように、前方リシェーパは、上流のイメージ／ビデオ符号化デバイスで学習に基づいたイメージ／ビデオエンコーダに関して（又はそれに関してループ外で）プリプロセッサとして実施され、一方、後方リシェーパは、下流の受け手のイメージ／ビデオ復号化デバイスで学習に基づいたイメージ／ビデオデコーダに関して（又はそれに関してループ外で）ポストプロセッサとして実施される。

【0035】

より具体的に、上流のイメージ／ビデオ符号化デバイスの前方リシェーパは、入力イメージを含む入力（イメージ／ビデオ信号）を受信し、ループ外リシェーピングを実行して前方リシェーピングマッピングを入力イメージに適用し、リシェープイメージと、（例えば、後方など）リシェーピングマッピングを指定又は定義するリシェープイメージメタデータとを生成する。

【0036】

学習に基づいたイメージ／ビデオエンコーダは、入力となるリシェープイメージを受け取り、リスエープイメージに対して学習に基づいた符号化動作を実行して圧縮イメージ及び非リシェープイメージメタデータを生成し、圧縮イメージを圧縮ビットストリームに符号化／圧縮する。図１Ａに表されている学習に基づいた符号化及び復号化動作は、図１Ｂ又は図１Ｃで表されている一部又は全ての非リシェープイメージ／ビデオ符号化及び復号化動作と同じであっても、又は類似していてもよい。前方リシェーピングメタデータパラメータ（又は単に、リシェーピングメタデータ若しくはリシェーピングパラメータ）及び後方リシェーピングメタデータパラメータ（若しくはコンポーザメタデータ）を夫々使用する、例となる前方及び後方リシェーピングは、２０２０年４月２１日にG-M. Suによって出願された、発明の名称が「Reshaping functions for HDR imaging with continuity and reversibility constraints」である米国特許仮出願第６３／０１３０６３号、及び２０２０年４月２２日G-M. Su及びH. Kaduによって出願された、発明の名称が「Iterative optimization of reshaping functions in single layer HDR image codec」である米国特許仮出願第６３／０１３８０７号に記載されている。これらの特許文献の内容は、あたかも本明細書で十分に説明されているかのように参照により本願に全体として援用される。例となる非リシェープイメージ／ビデオ符号化及び復号化動作は、Guo Lu et al.，“DVC: An End-to-End Deep Video Compression Framework”，Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019)に記載されている。個の非特許文献は、その全文を参照により本願に援用される。

【0037】

前方リシェーパによって生成されるリシェープイメージメタデータ及び学習に基づいたエンコーダによって生成される非リシェープイメージメタデータは、圧縮されたビットストリームとともに上流の符号化デバイスによって（例えば、ループ外の前方リシェーパ又はループ内の学習に基づいたイメージ／ビデオエンコーダの一方又は両方、などによって）符号化ビデオ信号に含められ得る。

【0038】

図１Ａの下流のイメージビデオ復号化デバイスの学習に基づいたイメージ／ビデオデコーダは、符号化ビデオ信号を受信し、学習に基づいた復号化動作を実行して、符号化ビデオ信号の圧縮イメージデータをリシェープイメージ（圧縮及び圧縮解除において量子化又はコーディングエラーが発生している可能性がある。）に復号／圧縮解除する。図１Ａで表されている学習に基づいた復号化動作は、図１Ｂ又は図１Ｃで表されている一部又は全てのイメージ／ビデオ復号化動作と同じであっても、又は類似していてもよい。

【0039】

図１Ａを参照すると、前方リシェーパによって生成されるリシェープイメージメタデータ及び学習に基づいたエンコーダによって生成される非リシェープイメージメタデータは、下流の復号化デバイスによって（例えば、ループ外の後方リシェーパ又は学習に基づいたイメージ／ビデオデコーダ、などによって）符号化ビデオ信号を用いて復号化又は受信され得る。

【0040】

後方リシェーパは、学習に基づいたイメージ／ビデオデコーダから入力として（前方）リシェープイメージを受け取り、ループ外リシェーピングを実行して、リシェープイメージメタデータで指定されている（又はそれから導出された）後方リシェーピングマッピングをリシェープイメージに適用して再構成イメージを生成する。

【0041】

図１Ｂは、ループ内イメージ／ビデオリシェーパ（又はリシェーピングモジュール）が学習に基づいたイメージ／ビデオコーデックとともに動作する第１の例示的なコーデックアーキテクチャを表す。アーキテクチャの一部又は全ては、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアとコンピュータプロセッサ、ＡＳＩＣ，ＦＰＧＡ、ＤＳＰ、ＩＣ、ビデオコーデックチップなどとの組み合わせで実施されてよい。

【0042】

ループ内（例えば、ＭＬ、非ＭＬ、など）リシェーパを含むか又はそれと組み合わさる学習に基づいたイメージ／ビデオエンコーダは、図１Ｂで特定されている一部又は全てのモジュール又は動作を実施し得る。

【0043】

図示されるように、ループ内前方リシェーパの第１インスタンス１０４－１は、入力イメージ１０２を（例えば、入力ビデオ信号内の一連の連続的な入力イメージ、などで）受け取り、入力イメージ（１０２）に対してループ内前方リシェーピングを実行して、入力イメージ（１０２）と同じ視覚的意味内容を表す対応する前方リシェープイメージを生成する。

【0044】

残差生成動作１０６は残差前方リシェープイメージを生成し、残差生成動作１０６では、サンプル位置（ｘ，ｙ）での残差前方リシェープピクセル又はコードワード値Ｒが数学式Ｒ（ｘ，ｙ）＝ｆ（Ｉ（ｘ，ｙ），Ｐ（ｘ，ｙ））によって計算される。ここで、ｆ（・・・）は、残差生成関数又は演算を表し、Ｉ（ｘ，ｙ）は、残差生成動作（１０６）への（ループ内前方リシェーパの第１インスタンス（１０４－１）からの）前方リシェープイメージ又はそのサンプル位置（ｘ，ｙ）での前方リシェープコードワードを表し、Ｐ（ｘ，ｙ）は、残差生成動作（１０６）への（ループ内前方リシェーパの第２インスタンス１０４－２からの）前方リシェープ予測イメージ又はそのサンプル位置（ｘ，ｙ）での前方リシェープ予測コードワードを表す。残差生成動作（１０６）が減算演算ｆ（ｘ，ｙ）＝Ｉ（ｘ，ｙ）－Ｐ（ｘ，ｙ）を用いて数学式により定義又は指定される第１の例で、残差イメージはピクセル又はコードワード値の差を含む。残差生成動作（１０６）が比率又は除算演算ｆ（ｘ，ｙ）＝Ｉ（ｘ，ｙ）／Ｐ（ｘ，ｙ）を用いて数学式により定義又は指定される第２の例で、残差イメージはピクセル又はコードワード値の比を含む。残差生成動作（１０６）がより一般的な演算ｆ（ｘ，ｙ）＝Ａ×Ｉ（ｘ，ｙ）－Ｂ×Ｐ（ｘ，ｙ）＋Ｏを用いて数学式により定義又は指定される第３の例で、このときＡ、Ｂ、Ｏは設定可能な値であり、残差イメージは、より一般的な演算を、ループ内前方リシェーパの第２インスタンス（１０４－２）によって出力された前方リシェープイメージ及び前方リシェープ予測イメージに適用することによって生成されたピクセル又はコードワード値を含む。

【0045】

残差エンコーダネット１０８などのニューラルネットワークは、残差符号化前方リシェープイメージを生成するよう残差前方リシェープイメージに残差符号化動作を適用し得る。

【0046】

（例えば、線形、非線形、知覚的、又は非知覚的など）量子化器の第１インスタンス１１０－１は、量子化された残差符号化前方リシェープイメージデータを生成するよう残差符号化前方リシェープイメージに適用される。

【0047】

残差デコーダネット１１２などのニューラルネットワークは、再構成された残差前方リシェープイメージを生成するよう、量子化された残差符号化前方リシェープイメージデータに残差復号化動作を適用し得る。

【0048】

残差エンコーダネット（１０８）及び残差デコーダネット（１１２）は、比較的小さい量子化誤差で比較的効率的に残差イメージデータ（非残差イメージデータと比較して異なる値範囲又は分布を有してもよい。）を符号化及び復号することができる残差コーディングネットワークを形成する。

【0049】

イメージ生成動作１１４は再構成された前方リシェープイメージを生成し、イメージ生成動作１１４では、サンプル位置（ｘ，ｙ）での再構成された前方リシェープピクセル又はコードワード値Ｑが第２の数学式Ｑ（ｘ，ｙ）＝ｇ（Ｒ（ｘ，ｙ），Ｐ（ｘ，ｙ））によって計算される。ここで、ｇ（・・・）は、残差生成関数又は演算（１０６）に対する反転動作であることができるイメージ生成操作を表す。イメージ生成動作（１１４）が加算演算ｇ（ｘ，ｙ）＝Ｒ（ｘ，ｙ）＋Ｐ（ｘ，ｙ）を用いて第２の数学式により定義又は指定される第１の例で、再構成イメージは、残差ピクセル又はコードワード値と予測ピクセル又はコードワード値とのピクセル又はコードワード値の和を含む。イメージ生成動作（１１４）が乗算演算ｇ（ｘ，ｙ）＝Ｒ（ｘ，ｙ）×Ｐ（ｘ，ｙ）を用いて第２の数学式により定義又は指定される第２の例で、再構成イメージは、残差ピクセル又はコードワード値と予測ピクセル又はコードワード値とのピクセル又はコードワード値の積を含む。イメージ生成動作（１１４）が、上述されたｆ（ｘ，ｙ）＝Ａ×Ｉ（ｘ，ｙ）－Ｂ×Ｐ（ｘ，ｙ）＋Ｏの数学的逆算である第２のより一般的な演算を用いて第２の数学式により定義又は指定される第３の例で、再構成イメージは、第２のより一般的な演算を前方リシェープイメージ及び残差前方リシェープイメージに適用することによって生成されたピクセル又はコードワード値を含む。

【0050】

ループ内後方又は逆リシェーパ１１８は、イメージ生成動作（１１４）によって出力された再構成された前方リシェープイメージに対してループ内後方（逆）リシェーピングを実行して、入力イメージ（１０２）と同じ視覚的意味内容を表すか又はそれに非常に近い対応する再構成イメージ（逆又は後方リシェープイメージである。）を生成する。

【0051】

図１Ｂに表されるように、再構成イメージは、前方リシェーパ（１０４）及び逆リシェーパ（１１８）によって実行されるループ内前方及び後方リシェーピングマッピング／動作と、ループ内前方及び後方リシェーピングマッピング／動作以外の非リシェーピング動作とにより、生成される。

【0052】

再構成イメージは、（例えば、全てのバッファされた参照イメージ内などで一意に）別個の参照イメージインデックス値で識別され、参照イメージバッファ１２０に格納され、その後、入力イメージ（１０２）に続く次の入力のための動き情報を生成するために使用され得る。

【0053】

限定としてではなく、例示として、オプティカルフローネット１２４などのニューラルネットワークは、入力イメージ（１０２）及び１つ以上の参照イメージを受け取り、各参照イメージは、参照イメージバッファ（１２０）から読み出された再構成イメージである。これらの参照イメージは、ゼロや、入力ビデオ信号内の一連の連続的な入力イメージによってカバーされる再生時間の１つ以上の特定の時間インスタンスを表す１つ以上の特定のフレームインデックス、などに夫々対応し、以前に処理された入力イメージから生成されて、入力イメージ（１０２）の再構成イメージが生成される前に参照イメージバッファ（１２０）に記憶されている。オプティカルフローネット（１２４）（例えば、特定のオプティカルフローＣＮＮ、など）は、入力イメージ（１０２）及び参照イメージを使用して、これらのイメージで検出された（生の）オプティカルフロー情報を生成し始める。

【0054】

ＭＶ（ｍｏｔｉｏｎｖｅｃｔｏｒ）エンコーダネット１２６などのニューラルネットワークは、入力イメージ（１０２）及び読み出された参照イメージ内の検出されたオプティカルフロー情報に対してＭＶ符号化動作を実行して、ＭＶ符号化情報を生成し得る。

【0055】

（例えば、線形、非線形、知覚的、非知覚的、など）量子化器の第２インスタンス１１０－２は、量子化されたＭＶ符号化情報を生成するようＭＶ符号化情報に適用される。

【0056】

ＭＶデコーダネット１３０などのニューラルネットワークは、量子化されたＭＶ符号化情報に対してＭＶ復号化動作を適用して、再構成されたＭＶ情報を生成し得る。

【0057】

ＭＶエンコーダネット（１２６）及びＭＶデコーダネット（１３０）は、比較的小さい量子化誤差で比較的効率的にＭＶ情報（非ＭＶデータと比較して異なる値範囲又は分布を有してもよい。）を符号化及び復号することができるＭＶ情報コーディングネットワークを形成する。

【0058】

動き補償ネット１２２などのニューラルネットワークは、再構成されたＭＶ情報を使用して、１つ以上の参照イメージ（ＭＶ情報を決定するために使用される参照イメージと同じであってよい。）内のイメージデータに対して動き補償動作を実行し、入力イメージ（１０２）に続く次の入力イメージの予測イメージを表す動き補償されたイメージを生成し得る。動き補償ネット（１２２）によって生成された動き補償されたイメージは、前方リシェーパの第２インスタンス（１０４－２）によって、次の入力イメージの（次の）前方リシェープ予測イメージに前方リシェーピングされ得る。

【0059】

訓練段階で、ループ内前方及び後方リシェーピングマッピング／動作を含むがそれらに限られない動作、又はその中で使用される動作パラメータは、（ａ）再構成イメージと再構成イメージを生み出す対応する入力イメージとの間の差、及び／又は（ｂ）対応する入力イメージ（又は訓練イメージ）の表現により符号化された符号化（訓練）ビデオ信号を伝送するために使用されるビットレート、の一方又は両方を最小化するために、ビットレート推定ネット１１６（例えば、ＭＬに基づいたビットレート推定モデル、人工ニューラルネットワーク又はＡＮＮに基づいたビットレート推定モデル、など）により最適化され得る。訓練段階での入力イメージは、訓練イメージであってよく、例えば、訓練データセットからの連続した訓練イメージの訓練シーケンス内にあってよい。（訓練）符号化ビデオ信号で符号化されている入力イメージ（又は訓練イメージ）の表現は、訓練イメージから導出されて参照イメージバッファ（１２０）に記憶されている（訓練）参照イメージから導出された量子化された残差前方リシェープイメージ及び動き情報を含んでよい。

【0060】

いくつかの動作シナリオで、ビットレート推定ネット（１１６）（例えば、特定のビットレート推定ＣＮＮ、など）は、量子化動作の第１インスタンス（１１０－１）から生成された対応する量子化された残差符号化前方リシェープイメージデータと、量子化動作の第２インスタンス（１１０－２）から生成された対応する量子化されたＭＶ情報とを一部又は全ての入力として使用して、（ａ）再構成イメージと対応する入力イメージとの間の差、及び／又は（ｂ）入力イメージ（又は訓練イメージ）の表現により符号化された符号化（訓練）ビデオ信号を伝送するために使用されるビットレートを推定する。

【0061】

更に、任意に又は代替的に、学習に基づいたイメージ／ビデオエンコーダでのリシェーピング及び非リシェーピング動作又はそこで使用される動作パラメータを最適化するために、ビットレート推定ネット（１１６）は、量子化動作の第１インスタンス（１１０－１）から生成された対応する量子化された残差符号化前方リシェープイメージデータと、量子化動作の第２インスタンス（１１０－２）から生成された量子化されたＭＶ情報とに加えて、又はそれらに代えて、学習に基づいたイメージ／ビデオエンコーダによって生成された入力、出力及び／又は中間イメージデータ、及び／又はＭＶ情報及び非ＭＶ情報などのような他の（訓練）イメージデータを使用してもよい。

【0062】

いくつかの動作シナリオで、推測又は実際のデプロイメント段階（訓練段階の後）における学習に基づいたイメージ／ビデオエンコーダ（又は上流の符号化デバイス）は、訓練のために使用されるビットレート推定ネット（１１６）及び関連するデータフローが除かれている図１Ｂのコーデックアーキテクチャの一部又は全てのコンポーネント及びデータフローを組み込むよう実施され得る。

【0063】

いくつかの動作シナリオで、推測又は実際のデプロイメント段階における学習に基づいたイメージ／ビデオデコーダ（又は下流の受け手の復号化デバイス）は、訓練のために使用されるビットレート推定ネット（１１６）及び関連するデータフローが除かれており、（１０４－１）、（１０６）、（１０８）、（１１０－１）、（１２４）、（１２６）、及び（１１０－１）などの符号化特有のイメージ処理ブロック／インスタンス／コンポーネントが除かれており、かつ符号化特有のデータフローが除かれている／復号化動作に適応されている図１Ｂのコーデックアーキテクチャの一部又は全てのコンポーネント及びデータフローを組み込むよう実施され得る。

【0064】

より具体的には、図１Ｂに表されているように、入力イメージ（１０２）を入力として受け取ることの代わりに、（下流の受け手の）学習に基づいたイメージ／ビデオデコーダは、（上流の）学習に基づいたイメージ／ビデオエンコーダによって出力された符号化ビデオ信号から、量子化された残差符号化前方リシェープイメージデータ１０２－１を受け取る。量子化された残差符号化前方リシェープイメージデータ（１０２－１）は、（上流の）学習に基づいたイメージ／ビデオエンコーダ又はその中の量子化器の第１インスタンス（１１０－１）によって、入力イメージ（１０２）から生成され、符号化ビデオ信号内に符号化されたものである。

【0065】

更に、図１Ｂに表されているように、量子化されたＭＶ符号化情報を処理ブロック（１２４）、（１２６）及び（１１０）を用いて生成することに代わりに、（下流の受け手の）学習に基づいたイメージ／ビデオデコーダは、（上流の）学習に基づいたイメージ／ビデオエンコーダによって出力された符号化ビデオ信号から、量子化されたＭＶ符号化情報１０２－２を受け取る。量子化されたＭＶ符号化情報（１０２－２）は、（上流の）学習に基づいたイメージ／ビデオエンコーダ又はその中の量子化器の第２インスタンス（１１０－２）によって、１つ以上の参照イメージと組み合わせて入力イメージ（１０２）から生成され、符号化ビデオ信号内に符号化されたものである。

【0066】

図１Ｃは、ループ内イメージ／ビデオリシェーパ（又はリシェーピングモジュール）が学習に基づいたイメージ／ビデオコーデックとともに動作する第２の例示的なコーデックアーキテクチャを表す。アーキテクチャの一部又は全ては、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアとコンピュータプロセッサ、ＡＳＩＣ，ＦＰＧＡ、ＤＳＰ、ＩＣ、ビデオコーデックチップなどとの組み合わせで実施されてよい。

【0067】

【0068】

図示されるように、図１Ｂの第１の例示的なアーキテクチャと比較して、図１Ｃの第２の例示的なアーキテクチャは、多数の変更又は相違を含む。より具体的には、入力ビデオ信号からの入力イメージ（１０２）及び参照イメージバッファ（１２０）からの参照イメージを使用して、図１Ｂのオプティカルフローネット（１２４）によりオプティカルフロー分析を実行することの代わり、図１Ｃのオプティカルフローネット（１２４）は、入力イメージ（１０２）の前方リシェーピングによりループ内前方リシェーパの第１インスタンス（１０４－１）によって生成された前方リシェープイメージと、参照イメージの前方リシェーピングによりループ内前方リシェーパの第２インスタンス（１０４－２）によって生成された前方リシェープ参照イメージとを使用してオプティカルフロー分析を実行し、（生の）オプティカルフロー情報を生成する。

【0069】

また、入力イメージ（１０２）の前方リシェーピングにより生成された前方リシェープイメージと、ループ内前方リシェーパの第２インスタンス（１０４－２）によって出力された前方リシェープ予測イメージとを図１Ｂの残差生成動作（１０６）への入力として使用することの代わりに、図１Ｃの残差生成動作（１０６）は、入力イメージ（１０２）の前方リシェーピングによりループ内前方リシェーパの第１インスタンス（１０４－１）によって生成された前方リシェープイメージと、動き補償ネット（１２２）によって生成された前方リシェープ予測イメージとを使用してオプティカルフロー分析を実行し、残差前方リシェープイメージを生成する。

【0070】

更に、図１Ｂに表されているように、動き補償ネット（１２２）を使用して、再構成されたＭＶ情報に基づき１つ以上の参照イメージ内のイメージデータに対して動き補償動作を実行することによって動き補償されたイメージ又は予測されたイメージを構成し、次いで、前方リシェーパの第２インスタンス（１０４－２）を使用して、動き補償されたイメージ又は予測されたイメージから前方リシェープ予測イメージを生成することの代わりに、図１Ｃに表される第２の例示的なコーデックアーキテクチャは、最初に、前方リシェーパの第２インスタンス（１０４－２）を使用して、１つ以上の前方リシェープ参照イメージを生成し、次いで、動き補償ネット（１２２）を使用して、再構成されたＭＶ情報に基づき１つ以上の前方リシェープ参照イメージ内のイメージデータに対して動き補償動作を実行することによって、前方リシェーピングされた動き補償されたイメージ又は前方リシェーピングされた予測されたイメージを構成する。

【0071】

図１Ｂのビットレート推定ネット（１１６）と同様に、いくつかの動作シナリオで、図１Ｃのビットレート推定ネット（１１６）（例えば、特定のビットレート推定ＣＮＮ、など）は、量子化動作の第１インスタンス（１１０－１）から生成された対応する量子化された残差符号化前方リシェープイメージデータと、量子化動作の第２インスタンス（１１０－２）から生成された対応する量子化されたＭＶ情報とを一部又は全ての入力として使用して、（ａ）再構成イメージと対応する入力イメージとの間の差、及び／又は（ｂ）入力イメージ（又は訓練イメージ）の表現により符号化された符号化（訓練）ビデオ信号を伝送するために使用されるビットレート、を推定する。

【0072】

更に、任意に又は代替的に、学習に基づいたイメージ／ビデオエンコーダでのリシェーピング及び非リシェーピング動作又はそこで使用される動作パラメータを最適化するために、図１Ｃのビットレート推定ネット（１１６）は、量子化動作の第１インスタンス（１１０－１）から生成された量子化された残差符号化前方リシェープイメージデータと、量子化動作の第２インスタンス（１１０－２）から生成された量子化されたＭＶ情報とに加えて、又はそれらに代えて、学習に基づいたイメージ／ビデオエンコーダによって生成された入力、出力及び／又は中間イメージデータ、及び／又はＭＶ情報及び非ＭＶ情報などのような他の（訓練）イメージデータを使用してもよい。

【0073】

いくつかの動作シナリオで、推測又は実際のデプロイメント段階（訓練段階の後）における学習に基づいたイメージ／ビデオエンコーダ（又は上流の符号化デバイス）は、訓練のために使用されるビットレート推定ネット（１１６）及び関連するデータフローが除かれている図１Ｃのコーデックアーキテクチャの一部又は全てのコンポーネント及びデータフローを組み込むよう実施され得る。

【0074】

いくつかの動作シナリオで、推測又は実際のデプロイメント段階における学習に基づいたイメージ／ビデオデコーダ（又は下流の受け手の復号化デバイス）は、訓練のために使用されるビットレート推定ネット（１１６）及び関連するデータフローが除かれており、（１０４－１）、（１０６）、（１０８）、（１１０－１）、（１２４）、（１２６）、及び（１１０－１）などの符号化特有のイメージ処理ブロック／インスタンス／コンポーネントが除かれており、かつ符号化特有のデータフローが除かれている／復号化動作に適応されている図１Ｃのコーデックアーキテクチャの一部又は全てのコンポーネント及びデータフローを組み込むよう実施され得る。

【0075】

より具体的には、図１Ｃに表されているように、入力イメージ（１０２）を入力として受け取ることの代わりに、（下流の受け手の）学習に基づいたイメージ／ビデオデコーダは、（上流の）学習に基づいたイメージ／ビデオエンコーダによって出力された符号化ビデオ信号から、量子化された残差符号化前方リシェープイメージデータ１０２－１を受け取る。量子化された残差符号化前方リシェープイメージデータ（１０２－１）は、（上流の）学習に基づいたイメージ／ビデオエンコーダ又はその中の量子化器の第１インスタンス（１１０－１）によって、入力イメージ（１０２）から生成され、符号化ビデオ信号内に符号化されたものである。

【0076】

更に、図１Ｃに表されているように、量子化されたＭＶ符号化情報を処理ブロック（１２４）、（１２６）及び（１１０）を用いて生成することに代わりに、（下流の受け手の）学習に基づいたイメージ／ビデオデコーダは、（上流の）学習に基づいたイメージ／ビデオエンコーダによって出力された符号化ビデオ信号から、量子化されたＭＶ符号化情報１０２－２を受け取る。量子化されたＭＶ符号化情報（１０２－２）は、（上流の）学習に基づいたイメージ／ビデオエンコーダ又はその中の量子化器の第２インスタンス（１１０－２）によって、１つ以上の参照イメージと組み合わせて前方リシェープイメージ（エンコーダ側で入力イメージ（１０２）を前方リシェーピングすることによって生成されたものである。）から生成され、符号化ビデオ信号内に符号化されたものである。

【0077】

図１Ｂに表されているコーデックアーキテクチャでは、動き推定及び動き補償は、元の（ピクチャ）領域（又は入力イメージが符号化又は表現されるコードワード空間）で、又は前方リシェーピングが未だ適用されるべき入力イメージ及び参照イメージに関して、実行される。対照的に、図１Ｃに表されているコーデックアーキテクチャでは、動き推定及び動き補償は、前方リシェープ（ピクチャ）領域（又は前方リシェープイメージが符号化又は表現されるコードワード空間）で実行される。

【0078】

［大域的リシェーピング及びイメージ適応リシェーピング］
図２Ａは、リシェーピング動作が実行され得る２つの例示的なワークフロー（例えば、プロセスフロー、アプローチ、など）を表す。図２Ａ（ａ）に示される第１のワークフロー又はアプローチは、大域的リシェーピングを実行するために使用されてよい。図２Ａ（ｂ）に示される第２のワークフロー又はアプローチは、イメージ／ピクチャ適応リシェーピング動作を実行するために使用されてよい。

【0079】

図２Ａ（ａ）の第１のワークフロー／アプローチでは、（深層）学習に基づいたコーデックフレームワーク／アーキテクチャを実装するニューラルネットワークでの（例えば、図１Ａ又は図１Ｂなどでの）重み及びバイアスなどの動作パラメータが最初に定義され得る。これらの動作パラメータは、リシェーピング動作（例えば、前方リシェーパ及び逆リシェーパなどによって実行される。）に加えて、非リシェーピング動作（例えば、動き推定、動き補償、非線形エンコーダ－デコーダ量子化ネットワークなど）で、最適化され、学習され、及び使用され得る。例えば、これらの動作パラメータは、前方及び逆リシェーパ又はリシェーピング動作で適用又は使用されるリシェーピング関数／マッピングを明示的又は暗黙的に指定する動作パラメータのサブセット（リシェーパ又はリシェーピングパラメータと呼ばれ得る。）を含み得る。学習に基づいたコーデックフレームワーク／アーキテクチャでの残りの動作パラメータ（イメージモデルパラメータ又は非リシェーピング動作と呼ばれ得る。）は、非リシェーピングＭＬモデルパラメータ、ＡＮＮ（例えば、ＣＮＮなど）を指定するために使用される動作パラメータ、などを含んでもよいが、必ずしもこれらだけに限られない。

【0080】

モデル訓練段階で、非リシェーピング及びリシェーピングモデルパラメータは、リシェーピング動作及び非リシェーピング動作の両方のための全体的な訓練済みモデルを得るよう訓練データセット内の訓練イメージを用いて一緒に訓練され得る。

【0081】

モデル推論又はデプロイメント段階（図２Ａでは「推論」と表記される。）で、非訓練イメージは、リシェーピング動作及び非リシェーピング動作の両方のための全ての訓練済み動作パラメータを含む全体的な訓練済みモデルを用いてランタイムで符号化又は復号され得る。いくつかの動作シナリオで、学習に基づいたコーデックフレームワーク／アーキテクチャを実装するコーデック（例えば、エンコーダ、デコーダ、トランスコーダ、など）によって使用される訓練済みモデルの一部又は全て（例えば、（１）リシェーパ又はリシェーピング動作によって適用されるリシェーピングマッピング／関数、及び（２）非リシェーピング動作で使用される動作パラメータ、を明示的又は暗黙的に指定する。）は、入力イメージ又は前方リシェープイメージなどの非訓練イメージがランタイムで符号化又は復号するためにコーデックによって受け取られる前に、コーデックで予め記憶され得る。リシェーピング動作及び非リシェーピング動作の両方のための訓練済み動作パラメータを有する訓練済みモデルは、これらの非訓練イメージを符号化又は復号するために適用され得る。いくつかの動作シナリオで、デコーダは、訓練済み動作パラメータを既に事前記憶されている。よって、個々のイメージのための個別的なリシェーピングマッピング／関数を指定する追加のビデオ信号コーディングシンタックスパラメータは、これらの動作パラメータでは、個々のイメージにより符号化されて符号化ビデオ信号内で送信される必要がない。

【0082】

図２Ａ（ｂ）の第２のワークフロー／アプローチでは、（深層）学習に基づいたコーデックフレームワーク／アーキテクチャで（例えば、図１Ａ又は図１Ｂなどで）非リシェーピング動作（例えば、動き推定、動き補償、非線形エンコーダ－デコーダ量子化ネットワークなど）を実行するために使用されるニューラルネットワーク内の重み及びバイアスなどの動作パラメータが最初に定義され得る。これらの動作パラメータ（イメージモデル又は非リシェーピングパラメータと呼ばれ得る。）は、非リシェーピングＭＬモデルパラメータ、ＡＮＮ（例えば、ＣＮＮなど）を指定するために使用される動作パラメータ、などを含んでもよいが、必ずしもこれらだけに限られない。

【0083】

モデル訓練段階で、イメージモデルパラメータは、非リシェーピング動作のための訓練済みモデルを得るよう訓練データセット内の訓練イメージを用いて訓練され得る。

【0084】

モデル推論又はデプロイメント段階で、非訓練イメージは、非リシェーピング動作のための訓練済み動作パラメータを含む訓練済みモデルを用いてランタイムで符号化又は復号され得る。いくつかの動作シナリオで、学習に基づいたコーデックフレームワーク／アーキテクチャでの非リシェーピング動作を実装するコーデック（例えば、エンコーダ、デコーダ、トランスコーダ、など）によって使用される訓練済みモデルの一部又は全ては、非訓練イメージがランタイムで符号化又は復号するためにコーデックによって受け取られる前に、コーデックで予め記憶され得る。非リシェーピング動作のための訓練済み動作パラメータを有する訓練済みモデルは、非訓練イメージを符号化又は復号するために適用され得る。このような動作シナリオで、非リシェーピング動作で使用される動作パラメータのための追加のビデオ信号コーディングシンタックスパラメータは、デコーダが訓練済み動作パラメータを既に事前記憶されているということで、非訓練イメージに対応する圧縮イメージにより符号化された符号化ビデオ信号内でランタイムでデコーダへ送信される必要がない。

【0085】

イメージ又はピクチャ適応リシェーパ又はリシェーピング動作は、第２のワークフロー／アプローチを含むが必ずしもこれに限られないワークフロー／アプローチで実施又はサポートされ得る。例えば、図２Ａ（ｂ）に表されているように、非リシェーピング動作のための訓練済みモデルは、リシェーパ又はリシェーピング動作に関する訓練済み動作又はリシェーピングパラメータを含まなくてもよい。推論又はデプロイメント段階で、エンコーダ側では、リシェーパ又はリシェーピング動作のためのイメージ特有のリシェーピングマッピング／関数を指定する動作パラメータ（又はリシェーピングパラメータ）が受け取られ、符号化ビデオ信号（例えば、コーディングされたビットストリームなど）に符号化される。これらのリシェーピングパラメータは、符号化ビデオ信号に含められ、下流の受け手のデコーダへシグナリングされ得る。リシェーピングパラメータは、リシェーパ又はリシェーピング動作で使用されるイメージ特有のリシェーピングマッピング／関数を導出するためにデコーダによって使用され得る。

【0086】

比較によって、第１のワークフロー／アプローチでは、リシェーパ又はリシェーピング動作のための動作パラメータ（又はリシェーパパラメータ）のサブセットは、全体的なモデル内の非リシェーピング動作のための動作パラメータとともに、訓練セットからの全ての訓練イメージを用いて訓練又は最適化される。よって、非訓練イメージが訓練イメージとは異なる特性を有する場合、リシェーパ又はリシェーピング動作は、訓練イメージと同じ特性を持ったイメージと比較して、コーディング効率を達成する上で最適ではない可能性がある。

【0087】

他方で、第２のワークフロー／アプローチでは、リシェーパパラメータは、非訓練イメージの夫々の特性に基づいて適応的に（例えば、動的に、事前にリシェーピングされたイメージ内の実際のコードワーク若しくはピクセル値又はそれらの分布に基づいて、など）推定され得る。よって、訓練データセット内の訓練イメージが非訓練イメージとは異なる特性を有する場合でさえ、リシェーパ又はリシェーピング動作は、非訓練イメージよりも訓練済みモデルに適合するリシェーピングされたイメージに非訓練イメージを変更又はリシェーピングするよう実施又は適用され得る。その結果、非訓練イメージとは異なる特性の訓練イメージによりモデル全体が事前訓練される第１のワークフロー／アプローチと比較して、より良いコーディング効率が達成又は改善され得る。

【0088】

イメージを搬送又は符号化するために使用されるビットレートを最小化すること、入力イメージとリシェープイメージとの間及びリシェープイメージと再構成イメージとの間のマッピングの可逆性を向上させること、量子化／コーディング誤差を減らすこと、他のイメージ処理動作が前方リシェープイメージ又は最高イメージを更に適応させて様々なイメージ表示をサポートすることを可能にすること、など、リシェーピング動作がコーディング効率を達成するために使用されてもよい。

【0089】

いくつかの動作シナリオで、本明細書で記載されるリシェーピング動作は、ＨＤＲａｋ等ＳＤＲへの変換又はその逆の変換を実行するために使用され得る。しかし、ＨＤＲ又はＳＤＲのリシェープイメージ又は再構成イメージは、更なる表示適応なしで、１つ又はいくつかのイメージディスプレイを見るために最適化されてもされなくてもよい。これらの動作シナリオで、リシェーピング動作は、目標表示適応に関するものを含むがこれに限られない他のイメージ処理動作とともに実行するよう実施され得る。例えば、表示管理（display management，ＤＭ）動作が、イメージディスプレイでレンダリングされる表示イメージに再構成イメージを適応させるよう、本明細書で記載されるように受け手デバイスによって実行されてよい。ＤＭ動作は、符号化ビデオ信号で運ばれるイメージメタデータの一部として含まれているＤＭメタデータに基づいてよい。これは、コーディング効率のためである。

【0090】

トレードオフは、追加のシグナリングオーバーヘッド及びエンコーダ複雑性が、イメージ又はピクチャ適応リシェーパ又はリシェーピング動作を実施する第２のワークフロー／アプローチでは起こる可能性があることである。

【0091】

いくつかの動作シナリオで、前方リシェーピング動作を実行する前方リシェーパ及び逆／後方リシェーピング動作を実行する逆／後方リシェーパ（例えば、図１Ａ、図１Ｂ、又は図１Ｃに表されているもの）はリシェーパペアを形成する。前方リシェーパは、コードワード又はピクセル値を元のサンプル領域からマッピングされたサンプル領域へマッピングするよう前方リシェーピング動作を実行し、一方、逆／後方リシェーパは、マッピングされたコードワード又はマッピングされたピクセル値をマッピングされたサンプル領域から元のサンプル領域へ逆にマッピングするよう逆／後方リシェーピング動作を実行する。

【0092】

リシェーピング動作の動作パラメータ（又はリシェーパパラメータ）は、実施されるコーデックアーキテクチャに応じて、推論又はデプロイメント段階で異なるように使用される。

【0093】

図１Ａに表されている動作シナリオでは、エンコーダ側では前方リシェーパ（例えば、のみ、など）が使用され、一方、デコーダ側では、逆／後方リシェーパ（例えば、のみ、など）が使用される。前方リシェーピング動作の動作パラメータは、前方リシェーパが前方リシェーピング動作を駆動又は実行するためにエンコーダ側で使用される。同様に、逆／後方リシェーピング動作の動作パラメータは、逆／後方リシェーパが逆／後方リシェーピング動作を駆動又は実行するためにデコーダ側で使用される。

【0094】

図１Ｂ又は図１Ｃに表されている動作シナリオでは、前方リシェーパ及び逆／後方リシェーパの両方が、エンコーダ側又はデコーダ側の夫々で推論又はデプロイメント段階において使用される。前方リシェーピング動作及び逆／後方リシェーピング動作の両方の動作パラメータは、前方リシェーパ及び逆／後方リシェーパが前方リシェーピング動作及び逆／後方リシェーピング動作を駆動又は実行するためにエンコーダ側又はデコーダ側の夫々で使用される。

【0095】

図２Ａ（ａ）に表されている動作シナリオでは、大域的リシェーピング動作で使用される動作パラメータが、全体的なモデルにおいて非リシェーピング動作の動作パラメータ（非リシェーピングパラメータ）とともに定義され訓練され得る。これらの動作パラメータは、ランタイム時にデコーダで予め記憶されるか、事前設定されるか、又は固定され得る。

【0096】

訓練段階で、リシェーピングパラメータ及び非リシェーピングパラメータは両方とも、同じ訓練データセット内の同じ訓練イメージの一部又は全てを用いて最適化又は訓練され得る。リシェーピングパラメータは、前方リシェーピング動作で使用される前方リシェーピングパラメータと、逆／後方リシェーピング動作で使用される逆／後方リシェーピングパラメータとを含んでよい。

【0097】

推論又はデプロイメント段階で（現実の使用アプリケーションの場合に）、全体的なモデルは、エンコーダモデルとデコーダモデルとに分割できる。従って、リシェーピングパラメータは、前方リシェーピングパラメータと、逆／後方リシェーピングパラメータとに分割又は区分されてもよい。エンコーダモデルが前方リシェーピング動作しか実行しなくてもよいとき、前方リシェーピングパラメータのみがエンコーダモデルで使用又は記憶されればよい。デコーダモデルが逆／後方リシェーピング動作しか実行しなくてもよいとき、逆／後方リシェーピングパラメータのみがデコーダモデルで使用又は記憶されればよい。

【0098】

更に、リシェーピングパラメータ（例えば、逆／後方リシェーピングパラメータ、など）を使用するデコーダを含むデコーダモデルが、前方リシェープイメージにより符号化された符号化ビデオ信号が受け取られる前に大域的リシェーピング動作をサポートするようデコーダで記憶又は事前記憶され得る場合に、追加のリシェーピングパラメータ（デコーダで記憶又は事前記憶されているもの以外）は符号化ビデオ信号で送信されなくても又はそれに含まれなくてもよい。

【0099】

対照的に、イメージ／ピクチャ適応リシェーピング動作を実行するために使用されるコーデックアーキテクチャの場合、リシェーピングパラメータが各個別のイメージについて適応的に決定されるので、これらのリシェーピングパラメータは、符号化ビデオ信号で送信されるか又は含まれる必要があり得る。

【0100】

図１Ｂ又は図１Ｃに表されているように、学習に基づいたイメージ／ビデオエンコーダ又はデコーダのコーディングパイプラインにおける非リシェーピング動作は、ループフィルタ又はインループフィルタを用いて実施又は実行されてもよく、一部又は全てのフィルタは、ニューラルネットワークなどのＭＬモデルであってよい。例えば、コーディングパイプライン内のオプティカルフローネット（１２４）、ＭＶエンコーダネット（１２６）、ＭＶデコーダネット（１３０）、動き補償ネット（１２２）などのようないくつかのニューラルネットワークは、動き補償されたイメージを生成又は予測するよう訓練されてよい。コーディングパイプライン内の残差エンコーダネット（１０８）、残差デコーダネット（１１２）などのようないくつかのニューラルネットワークは、残差イメージを生成又は予測するよう訓練されてよい。動き補償されたイメージを生成又は予測するニューラルネットワークは、残差イメージを生成又は予測するニューラルネットワークに対して逆の又は可逆的な動作として機能するのではなく、残差イメージを生成又は予測するニューラルネットワークを補完する。言い換えれば、予測された動き補償されたイメージは、共通のイメージ／ピクチャ領域（例えば、リシェープイメージ／ピクチャ領域、非リシェープイメージ／ピクチャ領域、など）で、予測された残差イメージに対する反転として機能するのではなく、予測された残差イメージを補完する。

【0101】

非リシェーピング動作とは対照的に、コーディングパイプラインにおける前方リシェーピング動作は、予めリシェーピングされたイメージを、リシェープイメージ／ピクチャ領域で前方リシェープイメージに変換／リシェーピングすることによって、コーディング効率を向上させる。コーディングパイプラインにおける後方リシェーピング動作は、コーディング効率がリシェーピング動作によって改善又は向上した符号化ビデオ信号を用いて動作し、前方リシェープイメージを後方リシェーピングすることによって再構成イメージ／ピクチャ領域で再構成イメージを生成する。いくつかの動作シナリオで、再構成イメージ／ピクチャ領域は、元のイメージ／ピクチャ領域と同じである。よって、後方リシェーピング関数は、（例えば、論理的に、数学的に、など）前方リシェーピング動作に対して逆又は可逆的であるよう機能し、前方リシェーピング動作とリシェーパペアを形成する。

【0102】

述べられているように、学習に基づいたイメージ／ビデオコーディングにおけるイメージ／ビデオリシェーピングは、明示的なマッピング（又はパラメトリックマッピング）又は暗黙的なマッピング（非パラメトリックマッピング）により実施又は実行され得る。リシェーピングマッピング／関数は、リシェーピングマッピング／関数を指定する一部又は全ての動作パラメータが生成され、推定され、及び／又は符号化ビデオ信号で上流の符号化デバイスから下流の受け手の復号化デバイスへシグナリングされる場合に、明示的である。リシェーピングマッピング／関数は、リシェーピングマッピング／関数を指定する一部又は全ての動作パラメータがニューラルネットワークなどのＭＬモデルで暗示される場合に暗黙的であり、符号化ビデオ信号でシグナリングされてもされなくてもよい。

【0103】

リシェーピング動作がニューラルネットワークで実施又は実行される動作シナリオで、これらのニューラルネットワークは、非リシェーピング動作を実施又は実行するために使用されるニューラルネットワークと比較して、比較的少ないレイヤ総数、比較的簡単なニューラルネットワークビルディングブロック、比較的少ないニューラルネットワークパラメータ（例えば、モデルパラメータ、ニューラルネットワークの動作パラメータ、など）を使用することができる。例えば、いくつかの動作シナリオで、非リシェーピング動作のためのニューラルネットワークは、ｒｅｓＢｌｏｃｋ／ｒｅｓＮｅｔなどのニューラルネットワークビルディングブロックを使用し得る一方で、リシェーピング動作のためのニューラルネットワークは、そのような比較的複雑なニューラルネットワークビルディングブロックを使用しなくてもよく、ｒｅｓＢｌｏｃｋ／ｒｅｓＮｅｔビルディングブロックがなくてもよい。リシェーピング動作のためのニューラルネットワークは、比較的多いレイヤ総数、比較的複雑なニューラルネットワークフィルタ、などにより、イメージ内で描かれている動きに対して客観的イメージ分析を実行する必要がない場合がある。その結果、リシェーピング動作のためのニューラルネットワークは、ループ若しくはインループフィルタリング又はコーディングパイプライン内の他の非リシェーピング動作を実装するニューラルネットワークよりも浅くて単純な構造及びビルディングブロックを使用して信号の変換又はイメージのリシェーピングを達成することができる。

【0104】

ニューラルネットワークを用いて実行される、例となるリシェーピング動作は、２０２１年５月２０日にGuan-Ming Su et al.によって出願された米国特許出願公開第２０２１／０１５０８１２号に記載されている。この特許文献は、あたかも本明細書で十分に説明されているかのように、参照により本願に援用される。

【0105】

［例となるイメージ適応リシェーピング方法］
イメージ／ピクチャ適応リシェーパ又はリシェーピング動作の場合、様々な方法が、リシェーピング動作のためのイメージ特有のリシェーピングマッピング／関数を指定する動作パラメータ（又はリシェーピングパラメータ）を生成又は推定するようエンコーダ側で、本明細書で記載される技術の下で、適用され得る。

【0106】

いくつかの動作シナリオで、図２Ｂに表されている例示的なプロセスフローにおいて、ブロック２０２は、訓練又は学習段階で、学習されたリシェーピングパラメータによらずに訓練対象モデル（又はそのモデルパラメータ）を符号化動作のための事前訓練済みモデルに訓練又は最適化するために、訓練データセット内の訓練イメージをロード及び使用することを含む。訓練又は学習段階で、事前訓練済みモデル又は訓練対象モデルは、非リシェーピング動作のみを実行するために、又は代替的に、初期、デフォルト、又は静的リシェーピングマッピングを用いてリシェーピング動作を実行するために、使用されてもよい。

【0107】

ブロック２０４は、事前訓練済みモデルの学習済みモデルパラメータを、訓練対象リシェーピングパラメータにより指定されている訓練対象モデルにコピーすることを含む。事前訓練済みモデルからのコピーされた学習済みモデルパラメータは、更なる訓練では凍結（freeze）されてもよい。

【0108】

ブロック２０６は、事前訓練済みモデルからのコピーされた学習済みモデルパラメータ及び現在凍結されている学習済みモデルパラメータを更に訓練又は最適化せずに、訓練対象モデル内の訓練対象リシェーピングパラメータのみを訓練済みモデル内の訓練済みリシェーピングパラメータに訓練又は最適化するよう、訓練データセット内の訓練イメージ（ブロック２０２で使用された訓練イメージと同じであってもなくてもよく、あるいは、まさに、ブロック２０８で符号化されるイメージであることができる。）をロード及び使用することを含む。

【0109】

ブロック２０８は、試験、推論又はデプロイメント段階で、コピーされた学習済みの事前訓練済みモデルパラメータ及び訓練済みモデルからの学習済みのリシェーピングパラメータの両方を使用して（例えば、非訓練、入力）イメージを符号化することを含む。

【0110】

図２Ａのプロセスフローで示されるように、モデル微調整と同様に、リシェーピング動作を含む訓練済みモデルは、最初から訓練される必要はない。むしろ、訓練済みモデルは、事前訓練済みモデル内の非リシェーピング動作のための訓練済みモデルパラメータを利用することができる。

【0111】

更に、任意に又は代替的に、いくつかの動作シナリオで、リシェーピングパラメータは、反復確率的勾配法（iterative stochastic gradient method）などの勾配降下法を用いて比較的効率的に（例えば、比較的少ない繰り返し又はデータ点、などを使用して）学習、調整、計算又は収束され得る。例えば、リシェーピング動作に使用されるニューラルネットワークにおける重み／バイアスなどのニューラルネットワーク動作パラメータは、レートひずみ誤差／コスト関数によって測定される誤差又はコストを最小限にする反復確率的勾配法を用いてバックプロパゲーションにより繰り返し比較的頻繁に更新され得る。

【0112】

学習済みリシェーピングパラメータ及び学習済み非リシェーピングパラメータを含む訓練済みモデルは、個々の入力イメージにおける実際のコードワード又はその分布に応じて個々の入力イメージについて特に最適化されたリシェーピング関数／マッピングを（例えば、明示的に、又は全体的若しくは部分的に、など）指定する（例えば、ランタイム、動的、イメージ適応、など）動作パラメータを生成するために使用できる。これらのリシェーピング関数／マッピングは、入力イメージに関してリシェーピング動作を実行するために使用できる。

【0113】

更に、任意に又は代替的に、リシェーピング関数／マッピング、又は等価／近似曲線若しくはルックアップテーブルを（例えば、明示的に、など）定義する、これらのランタイムで生成された動作パラメータの一部又は全ては、受け手デバイスが再構成イメージを生成する際に必要に応じてリシェーピング動作を実行することができるように、リシェーピングされたイメージを用いて符号化された符号化ビデオ信号で運ばれるイメージメタデータの全体の一部としてリシェーピングメタデータとして含めることができる。

【0114】

いくつかの動作シナリオで、しらみつぶし探索（exhaustive search）が、複数の候補リシェーピング関数／マッピングの中から、イメージ（例えば、入力イメージ、前方リシェープイメージ、など）をリシェーピングするための（例えば、最良の、など）特定の（例えば、前方、逆又は後方、など）リシェーピング関数／マッピングを選択するために実施又は実行されてもよい。候補リシェーピング関数／マッピングの夫々は、ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ（ＶＶＣ）規格などの適用可能なビデオコーディング規格に準拠したイメージ処理動作を実施するルーママッピング（ＬＭ）モジュールによって使用される複数部分の多項式（例えば、多重区分線形又は一次直線セグメント、多重区分二次多項式セグメント、など）などの曲線であってよい。これらの候補リシェーピング関数／マッピング／曲線の一部又は全ての夫々を指定又は定義するために使用される動作パラメータは、前もって形成されても、事前設定されても、又は動的に決定されてもよい。

【0115】

候補リシェーピング関数／マッピングは、「ＡＤＰ」及び「ＣＷ」と夫々表記される２つのパラメータの特定のパラメータセット、組み合わせ、又はペアによって識別されるか、ラベル付けされるか、又は別なふうに表現されてよい。ＡＤＰパラメータは、スライスタイプ及び（例えば、高い、など）ビットレート（適応）のオプション／設定を特定又は表現するために使用されてよい。パラメータＣＷは、カバーすべき複数部分の多項式のリシェーピング関数内の全ての部分に割り当てられたコードワード（例えば、有効なコードワード、リザーブされていないコードワード、クリップされていないコードワード、など）の総数を特定又は表現するために使用されてよい。

【0116】

限定ではなく例示として、オールイントラ（ＡＩ）コーディングのイメージスライスの場合、パラメータＡＤＰは０又は１とセットでき、ゼロ（０）に等しいＡＤＰは、対応する（イメージ適応）リシェーピング関数／マッピング／曲線が全ての量子化パラメータ（ＱＰ）に適用されることを示し、イチ（１）に等しいＡＤＰは、リシェーピング関数／マッピング／曲線が第１ＱＰ値範囲（例えば、ＱＰ＞２２、指定された正規ＱＰ範囲、など）に適用され、静的なリシェーピング関数／マッピング／曲線が第２ＱＰ範囲（例えば、指定された低いＱＰ範囲、ＱＰ＜＝２２、など）に適用されることを示す。静的なリシェーピング関数／マッピング／曲線は、イメージ又はそのコードワード／分布に基づき選択され得るが、静的なリシェーピング関数／マッピング／曲線を指定する動作パラメータは、固定であっても、予め決定されても、事前設定されても、又は非イメージ適応であってもよい。

【0117】

カバーすべきイメージ適応リシェーピング関数／マッピング／曲線のコードワードの総数を表すパラメータＣＷは、リシェーピングされたイメージを符号化又は表現するための（色空間のルーマチャネル／成分についての、色空間のクロマチャネル／成分についての、ＲＧＢ色空間内のＲ、Ｇ、又はＢについての、など）利用可能なコードワードを含むコードワード空間のビットデプスに依存することができる。パラメータＣＷの値範囲の例には、複数部分の多項式の各部分についての［８，５１１］の相対的な値範囲、いくつか又は全てのとり得る８ビット値、いくつか又は全てのとり得る１０ビット値（例えば、８９０、９８０、など）、などのいずれがあるが、必ずしもこれらだけに限られない。しらみつぶし探索において候補リシェーピング関数／マッピング／曲線の総数を減らす又は制限するために、いくつかの動作シナリオで、パラメータＣＷの値は、｛１０２２，９８０，９５２，９２４，８９６，８６８，８４０，８１２｝などの複数の値の中の１つから選択され得る。

【0118】

よって、ＡＩコーディングの目下の例では、ｉ＝０，１，・・・，１５として、｛ＡＤＰ_ｉ，ＣＰ_ｉ｝と夫々表され得る全部で２（ＡＤＰの個数）×８（ＣＷの個数）=１６通りの候補リシェーピング関数／マッピング／曲線が存在する。

【0119】

レートひずみ最適化（ＲＤＯ）方法は、これらの候補リシェーピング関数／マッピング／曲線の一部又は全てを用いてイメージをリシェーピングすることに関して誤差／コストを計算し、これら１６個のバリエーション／候補の一部又は全ての中から（例えば、最適な、最良の、最小誤差／コストを有する、などの）候補リシェーピング関数／マッピング／曲線を選択することによって特定のリシェーピング関数／マッピング／曲線を特定／決定するために、イメージに適用され得る。例となるＲＤＯコスト関数は、次の通りにラグランジュレートひずみ関数で定義され得る：

Ｊ＝Ｄ＋λＲ（１）

【0120】

ＲＤＯ誤差／コストは、差分二乗和（sum of squared differences，ＳＳＤ）、平均平方誤差（mean squared error，ＭＳＥ）、ピーク信号対雑音比（peak signal-to-noise ratio，ＰＳＮＲ）などを含むがこれらに限られないいずれか、いくつか、又は全てのひずみモデルを用いて全体的又は部分的に推定又は評価され得る。更に、任意に又は代替的に、ＲＤＯ誤差／コストは、構造的類似指標（structural similarity index，ＳＳＩＭ）、特徴類似指標（feature similarity index、ＦＳＩＭ）、視覚情報忠実度（visual information fidelity，ＶＩＦ）、加法ひずみメトリック（additive distortion metric、ＡＤＭ）、コントラスト感度関数（contrast sensitivity function，ＣＳＦ）、などを含むがこれらに限られないいずれか、いくつか、又は全ての知覚に基づいたモデルを用いて全体的に又は部分的に推定又は評価され得る。いくつかの動作シナリオで、平均又は加重平均されたひずみ／誤差／コストは、ルーマ又はクロマ成分／チャネルの特定のリシェーピングマッピングを選択するために使用できる。

【0121】

個々の入力イメージに基づいて選択された個々の入力イメージのための特定のリシェーピング関数／マッピング／曲線は、入力イメージに関してリシェーピング動作を実行するために使用できる。

【0122】

更に、任意に又は代替的に、特定のリシェーピング関数／マッピング／曲線又は等価若しくは近似ルックアップテーブルを（例えば、明示的に、など）定義する動作パラメータは、受け手デバイスが再構成イメージを生成する際に必要に応じてリシェーピング動作を実行することができるように、リシェーピングされたイメージを用いて符号化された符号化ビデオ信号で運ばれるイメージメタデータの全体の一部としてリシェーピングメタデータとして含めることができる。

【0123】

いくつかの動作シナリオで、ＭＬベースのアプローチは、イメージを複数のイメージカテゴリの中の特定のイメージカテゴリに分類するよう実施又は実行されてもよい。複数のイメージカテゴリは、複数組の前方及び／又は逆／後方リシェーピング関数／マッピング／曲線に対応する。複数のカテゴリの中の各イメージカテゴリは、複数組の前方及び／又は逆／後方リシェーピングの中の各々のリシェーピング関数／マッピング／曲線の組に対応する。各々のリシェーピング関数／マッピング／曲線の組は、その（対応する）イメージカテゴリ内のリシェーピングされたイメージ（例えば、入力イメージ、前方リシェープイメージ、など）について特に指定されても、特に最適化されても、又はカスタマイズされてもよい。

【0124】

このＭＬベースのアプローチに基づき、ニューラルネットワークなどのＭＬモデルは、訓練イメージと、訓練イメージの夫々のグラウンド・トゥルースを表すラベルとを含む訓練データセットにより訓練され得る。訓練イメージのグラウンド・トゥルースは、複数のイメージカテゴリの中で、当該訓練イメージが属している特定のイメージカテゴリを特定する。その結果、グラウンド・トゥルースは、リシェーピング関数／マッピング／曲線の特定の組、又はリシェーピング関数／マッピング／曲線の特定の組を（例えば、明示的に、など）定義又は指定する動作パラメータを特定するために使用できる。

【0125】

訓練段階で、ＭＬモデルは、訓練データセット内の訓練イメージの一部又は全てについてカテゴリを分類又は予測するために使用できる。予測されたカテゴリは、訓練イメージのラベルによって指示又は特定されたグラウンド・トゥルースカテゴリと比較され得る。カテゴリ予測の誤りは、ニューラルネットワークにおける重み／バイアスなどの、ＭＬモデルで使用される動作パラメータを更新又は最適化するために測定、計算（例えば、Ｌ１又はＬ２距離値、などとして）、及び／又はバックプロパゲーションされ得る。ＭＬモデルは、例えば勾配降下法又は確率的勾配降下法を用いて、繰り返し又は反復的に最適化されてもよい。

【0126】

更に、任意に又は代替的に、妥当性確認又は試験段階において、そこで使用される訓練されたＭＬモデル及び訓練／最適化された動作パラメータは、訓練／妥当性確認イメージと、訓練／妥当性確認イメージの夫々の対応するイメージカテゴリを特定するグラウンド・トゥルースを表すラベルとを含む訓練／妥当性確認データセット内の訓練／妥当性確認イメージを用いて、妥当性確認され及び／又は更に最適化／微調整され得る。カテゴリ予測の予測精度又は誤りは、ＭＬモデルで使用される動作パラメータを更に最適化又は微調整するために測定、計算（例えば、Ｌ１又はＬ２距離値、などとして）、及び／又は使用され得る。

【0127】

推論又は実際のデプロイメント段階で、訓練されたＭＬは、特定のイメージカテゴリにイメージを分類するために使用できる。前方及び／又は後方／逆リシェーピング関数／マッピング／曲線の特定の組がイメージに対して選択又は特定され得る。

【0128】

限定ではなく例として、正規ＱＰ範囲などの指定されたＱＰ値範囲でのオールイントラ（ＡＩ）コーディングの場合、このとき、ＱＰ＝２２、２７、３２、３７として、０～１６のインデックスでラベル付けされた１６通り又は組のリシェーピング関数／マッピング／曲線は、イメージが分類される可能性がある１６個のカテゴリに夫々対応し得る。訓練及び／又は妥当性確認データセットは、訓練／妥当性確認イメージに対して指定されているラベルに基づいてこれらのカテゴリに分類されている訓練／妥当性確認イメージを含み得る。その結果、リシェーピングパラメータ選択／決定（あるいは、イメージに対する前方及び／又は後方／逆リシェーピング関数／マッピング／曲線の対応する組の特定）問題は、イメージ／ビデオ分類問題として扱うことができる。

【0129】

本明細書で記載される訓練データセットの例には、ＲＧＢ訓練イメージデータセット、ＳＤＲ訓練イメージデータセット、ＨＲＤ訓練イメージデータセット、ＨＤＲＰ３ＰＱイメージデータセット、ＳＣＣイメージデータセット、ＤＩＶ２Ｋ、Ｆｌｉｃｋｅｒ２Ｋ（例えば、２Ｋ空間解像度を持ったイメージ、など）、ＩｍａｇｅＮｅｔデータベースのサブセット（例えば、様々な異なる解像度を持ったイメージ、など）、上記のものの組み合わせ、などのうちの１つ以上が含まれ得るが、必ずしもこれらだけに限られない。

【0130】

イメージリシェーピングパラメータ予測訓練／妥当性確認／試験のために本明細書で記載されるＭＬモデルとして使用されるニューラルネットワークには、ＣＮＮ、及び／又はＲｅｓＮｅｔなどの残差学習ニューラルネットワークのうちの１つ以上が含まれ得る。訓練／妥当性確認／試験／予測／推論のために、ＭＬモデルへの入力は、リサイジング、クロッピング、フリッピング、回転、などのようなイメージ変換操作により元のイメージから取得された、変換されたイメージパッチを含んでよい。更に、任意に又は代替的に、ＭＬモデルへの入力は、１つ以上の訓練データセット内で利用可能なイメージからの抽出された特徴（例えば、ヒストグラム、ビン分散、標準偏差、傾き、など）を含んでもよい。ＭＬモデルによって生成される出力は、予測されたターゲットイメージカテゴリ（又はクラス）ラベルを含んでよく、これは、訓練及び妥当性確認／試験段階でグラウンド・トゥルースを用いて比較、測定、又は妥当性確認され得る。（例えば、入力イメージパッチなどの）バッチサイズ、（例えば、重み／バイアス更新又は最適化の夫々の繰り返し又はエポックの）バッチサイズ、学習率、エポックの数、などは、異なる訓練イメージデータベース又はデータセットについて調整できる。

【0131】

個々の入力イメージの分類されたイメージカテゴリに基づいて選択された個々の入力イメージの特定のリシェーピング関数／マッピング／曲線は、入力イメージに関してリシェーピング動作を実行するために使用できる。

【0132】

更に、任意に又は代替的に、特定のリシェーピング関数／マッピング／曲線又は等価若しくは近似ルックアップテーブルを（例えば、明示的に、など）定義する動作パラメータは、受け手デバイスが再構成イメージの生成の際に必要に応じてリシェーピング動作を実行することができるように、リシェープイメージにより符号化された符号化ビデオ信号で運ばれる全体のイメージメタデータの一部としてリシェーピングメタデータとして含まれ得る。

【0133】

［リシェーピング関数／マッピング表現及びコーディングシンタックス］
本明細書で記載されるリシェーピング関数／マッピングは、区分線形セグメント、区分多項式セグメント、Ｂスプライン関数又はそれらのテンソル積を基底関数として使用すること、１つ以上のべき関数、１つ以上のルックアップテーブル（ＬＴＵ）などのいずれかを含むがこれらに限られない様々な形式又はリシェーピングモデルで表され得る。

【0134】

入力イメージがリシェーピングされるべき１よりも多い色成分／チャネルを有する動作シナリオで、各々のリシェーピング関数は、交差チャネル予測が各々のリシェーピング関数で実施されようとなかろうと、色成分／チャネルごとに個別的に設計、選択、又は生成され得る。例えば、リシェーピング関数／マッピングは、１つの色成分／チャネル又は複数の色成分／チャネルにおいて（例えば、成分、など）コードワード又はピクセル値に適用されてよい。

【0135】

リシェーピング関数／マッピングが働く領域、例えば、入力イメージが表現される元の又は入力イメージ／ピクチャ領域、又は入力イメージをリシェーピングすることによって取得されるリシェープイメージが表現されるリシェープイメージ／ピクチャ領域は、ＲＧＢ領域、ＹＣｂＣｒ領域、ＩＣｔＣｐ領域、などのうちの１つであってよい。

【0136】

前方リシェーピング及び逆リシェーピング関数／マッピングは、異なる表現、及び異なる動作パラメータの組を有してもよい。いくつかの動作シナリオで、図２Ａ（ａ）に表されている大域的リシェーピング場合、前方リシェーピングパラメータ及び逆リシェーピングパラメータの両方が大域的リシェーピングモデル（例えば、多項式に基づいた大域的リシェーピングモデル、ＬＵＴに基づいた大域的リシェーピングモデル、など）に含まれる。

【0137】

いくつかの動作シナリオで、ループ内リシェーピング動作を組み込む図１Ｂ又は図１Ｃのコーデックアーキテクチャにより実施されるようなイメージ／ピクチャ適応リシェーピングの場合、前方リシェーピングパラメータ及び逆リシェーピングパラメータの両方が、符号化ビデオ信号又は対応するコーディングされたビットストリームに含まれて送信／シグナリングされる。

【0138】

イントラコーディングイメージ（又はイメージスライス）のみのためのループ内及びループ外リシェーピング、又はイントラコーディングイメージ（又はイメージスライス）及びインターコーディングイメージ（又はイメージスライス）の両方のためのループ外リシェーピングなどのいくつかの動作シナリオでは、逆リシェーピング関数／マッピング又はそれに使用される動作パラメータのみが、符号化ビデオ信号又は対応するコーディングされたビットストリームに含まれて送信／シグナリングされる。

【0139】

ＶＶＣ規格などの適用可能なビデオコーディング規格に従うルーママッピングクロマスケーリング（ＬＭＣＳ）などのいくつかの動作シナリオでは、前方リシェーピング関数／マッピング又はそれに使用される動作パラメータのみが、符号化ビデオ信号又は対応するコーディングされたビットストリームに含まれて送信／シグナリングされる。逆／後方リシェーピング関数／マッピング又はそれに使用される動作パラメータは、シグナリングされた前方リシェーピング関数／マッピング又は前方リシェーピング関数／マッピングのためのシグナリングされた動作パラメータから導出できる。

【0140】

ＮＮなどのＭＬモデルを訓練することは、ＭＬモデルパラメータを計算又は更新するために勾配降下モデルを利用し得る。定義により、勾配効果（gradient descent）は、リシェーピング関数などの微分可能関数の極小値を探すために使用される一次反復最適化アルゴリズムである。従って、リシェーピング関数は、探索アルゴリズムにおいて不連続性、特異性、又は不安定性を回避するために（例えば、一次など）微分可能である必要がある。

【0141】

この微分可能性条件は、基底関数としてスプライン関数の組、一次又はそれ以上（次数＞＝１）の単一多項式、二次又はそれ以上（次数＞＝２）の複数部分多項式に基づくリシェーピングモデルによって容易に満足され得る。

【0142】

ＬＵＴ（離散化された値を有する。）又は区分線形セグメントなどのリシェーピングモデルに基づき構築されたリシェーピング関数の場合、リシェーピング関数による一次微分可能性の違反は、エンコーダ側でのＭＬに基づいたリシェーピングモデルの訓練又はリシェーピングパラメータの推定の間に、最小値を特定できないこと、収束できないこと、収束が遅いこと、数値の不安定性、などのような問題を引き起こす可能性がある。

【0143】

本明細書で記載される技術の下でこれらの問題を解決又は回避するための多くの方法のうちの１つは、Ｂスプライン関数、単一多項式などの微分可能関数に基づくものなどのいずれかのＭＬベースのリシェーピングモデルを使用して、最初に（例えば、訓練段階などで）（イメージのリシェーピングなどに関連して）リシェーピング関数／マッピングのリシェーピングパラメータを推定又は予測し、次いで（推論又はデプロイメント段階などで）区分線形セグメント又はＬＵＴなどの他の構成（一次微分可能性をサポートしてもしなくてもよい。）を使用して、推定されたリシェーピングパラメータにより指定若しくは定義されるリシェーピング関数／マッピングを近似するか、又は近似するために使用される構成の動作パラメータを推定することである。

【0144】

リシェーピングパラメータは、ＶＶＣ規格などの適用可能なイメージ／ビデオコーディング規格に従ってコーディングシンタックス又はシンタックス要素を用いてビデオエンコーダなどの上流デバイスからビデオデコーダなどの下流の受け手デバイスへ符号化ビデオ信号で運ばれ得る。いくつかの動作シナリオでは、特定のリシェーピングパラメータがイメージ適応リシェーピング動作（又はリシェーパ）のためにシグナリングされる。いくつかの動作シナリオでは、大域的リシェーピングマッピング／関数を指定する詳細なリシェーピングパラメータは、デコーダ側で、事前設定されたリシェーピングモデルに既に含まれているということで、比較的高いレベルのリシェーピングパラメータの一部としてのリシェーピングモデル識別（「reshaper_model_idc」と表記される。）が大域的リシェーピング動作（又はリシェーパ）のためにシグナリングされる。

【0145】

以下の表１は、適用可能なイメージ／ビデオコーディング規格に従ってビデオ信号を符号化するためのハイレベルシンタックス（ＨＬＳ）において、高いレベルのリシェーピングパラメータを符号化するためのシンタックス要素を含むシンタックスの例を表す。ＨＬＳは、ビデオコーディング規格におけるＶＰＳ、ＳＰＳ、ＰＰＳ、ＰＨ、ＳＨ及びＳＥＩメッセージ、などであることができる。

【表1】

【0146】

表１中、イチ（１）に等しい「reshaper_enabled_flag」と表されるシンタックス要素は、リシェーピング動作（又はリシェーパ）がビデオ（例えば、符号化、復号化、トランスコーディング、など）コーデックで使用されることを特定する。ゼロ（０）に等しいシンタックス要素「reshaper_enabled_flag」は、リシェーピング動作（又はリシェーパ）がビデオ（例えば、符号化、復号化、トランスコーディング、など）コーデックで使用されないことを特定する。

【0147】

イチ（１）に等しい「reshaper_inloop_flag」と表されるシンタックス要素は、リシェーピング動作（又はリシェーパ）がコーディングループでのコーディング動作の一部（又はループ内）として使用されることを特定する。ゼロ（０）に等しいシンタックス要素「reshaper_inloop_flag」は、リシェーピング動作（又はリシェーパ）がコーディングループでのコーディング動作に対する前又は後処理動（又はループ外）として使用されることを特定する。

【0148】

いくつかの動作シナリオで、シンタックス要素「reshaper_inloop_flag」は、インター（フレーム）コーディングが適用される場合にシグナリング又は送信されるだけでよい。フレームがイントラコーディングされるいくつかの動作シナリオでは、シンタックス要素「reshaper_inloop_flag」は、逆／後方リシェーピング動作（又はリシェーパ）が適用される場所を通知するために使用できる。シンタックス要素「reshaper_inloop_flag」がイチ（１）に等しい場合、逆リシェーパは、インループフィルタリングの前に適用される。他方で、シンタックス要素「reshaper_inloop_flag」がゼロ（０）に等しい場合、逆リシェーパは、インループフィルタリングの後に適用される。

【0149】

イチ（１）に等しい「reshaper_adaptive_model_flag」と表されるシンタックス要素は、ピクチャ／イメージ適応リシェーピングがコーデックで使用されることを特定する。ゼロ（０）に等しいシンタックス要素「reshaper_adaptive_model_flag」は、対応する大域的リシェーピングマッピング／関数がコーデックで既に記憶又は固定されていることを特定する。

【0150】

「reshaper_model_idc[cmp]」と表されるシンタックス要素は、「cmp」と表される値によって特定される色成分又は（色空間の）チャネルにおけるコードワードによるリシェーピング動作（又はリシェーパ）で使用されるリシェーピングモデル（例えば、線形多項式、非線形多項式、ＬＵＴなど）を示すために使用できる。いくつかの動作シナリオで、このシンタックス要素は、リシェーピング動作が複数の色成分／チャネルでリシェーピングされたコードワードを生成するために複数のマッピング関数／マッピングに基づいて実行される場合に、使用され得る。このシンタックス要素に基づいて、下流の受け手デバイス又はビデオデコーダは、出力される又はリシェープされた色成分／チャネルにおいてリシェープされたコードワードを生成するために、１つ以上の入力色成分／チャネルでどの入力又は予めリシェーピングされたコードワードにどのリシェーピング関数／マッピングが適用されるかを決定することができる。

【0151】

大域的リシェーピングでは、大域的リシェーピングマッピング／関数を指定又は定義するために上記のシンタックス又はシンタックス要素で運ばれるものなどのリシェーピングパラメータの一部又は全ては、符号化ビデオ信号の下流の受け手デバイスで既に事前記憶又は固定されている場合がある。その結果、これらのリシェーピングパラメータは、符号化ビデオ信号で搬送、包含又はシグナリングされる必要がない。

【0152】

以下の表２は、例となるリシェーピングモデル識別値（「model_idc」又は「reshaper_model_idc[cmp]」と表記される。）を表す。前方リシェーピング及び逆／後方リシェーピングの両方が実行されるいくつかの動作シナリオでは、同じリシェーピングモデル識別値が、前方及び逆／後方リシェーピングマッピング／関数が表現される同じリシェーピングモデルを特定するために使用されてもよい。前方リシェーピング及び逆／後方リシェーピングの両方が実行されるいくつかの動作シナリオで、異なるリシェーピングモデル識別値が、前方リシェーピングマッピング／関数及び逆／後方リシェーピングマッピング／関数が夫々表現される異なるリシェーピングモデルを特定するために使用されてもよい。例えば、複数のデータフィールド値を有するシンタックス要素「reshaper_model_idc」は，前方及び逆／後方リシェーピングマッピング／関数によって形成されるリシェーピング関数／マッピングペアを示すために使用できる。更に、任意に又は代替的に、シンタックス要素「reshaper_model_idc」は、前方及び逆／後方リシェーピングマッピング／関数を示すために夫々使用されるシンタックス要素「forward_reshaper_model_idc」及び「inverse_reshaper_model_idc」で置換されても、又はそれらに分割されてもよい。

【表2】

【0153】

いくつかの動作シナリオで、前方及び逆／後方リシェーピングパラメータの両方を包含又はシグナリングする必要はない。例において、逆／後方リシェーピングのみがデコーダ側では実行される。よって、前方リシェーピングパラメータは、本例では、符号化ビデオ信号で包含又はシグナリングされる必要がない可能性がある。他の例では、ＶＶＣで見られるように、前方リシェーピングパラメータは符号化ビデオ信号で包含又はシグナリングされる。よって、逆／後方リシェーピングを実行する必要がある下流の受け手デバイスは、シグナリングされた前方リシェーピングパラメータから逆リシェーピングパラメータを導出することができる。

【0154】

第１の例で、高レベルのリシェーピングパラメータに加えて、残りのリシェーピングパラメータの一部又は全ては、以下の表３で「reshaper_mapping_data()」と表されているもののような視覚ダイナミックレンジ（ＶＤＲ）コーディングシンタックスで搬送又は包含されてもよく、当該シンタックスにおいて、パラメータ「num_y_partitions_minus1」及び「num_x_partitions_minus1」の夫々は、米国特許第１０１３６１６２号で記載されるように、ゼロ（０）にセットされる。この特許文献はその全文を参照により本願に援用される。

【表3-1】

【表3-2】

【表3-3】

【0155】

第２の例で、高レベルのリシェーピングパラメータに加えて、残りのリシェーピングパラメータの一部又は全ては、Versatile Video Coding, Recommendation ITU-T H.266（２０２０年８月）の中のLuma Mappinng Chroma Scaling (LMCS)シンタックスで記載されるように、以下の表４で「reshaper_mapping_data()」と表されているもののような適用可能なコーディングシンタックスで搬送されてもよい。この非特許文献はその全文を参照により本願に援用される。

【表4】

【0156】

更に、任意に又は代替的に、いくつかの動作シナリオで、一部又は全て（例えば、３つなど）の色成分／チャネルの一部又は全てのチャネル特有のリシェーピングパラメータは、ＶＶＣコーディングにおけるＬＭＣＳシンタックスの部分として、以下の表５で「inv_reshaper_mapping_data()」と表されているもののような適用可能なコーディングシンタックスで搬送又は包含されてもよい。

【表5】

【0157】

いくつかの動作シナリオで、リシェーピング動作（又はリシェーパ）は、Guan-Ming Su et al.によって２０１９年１０月１日に出願された、発明の名称が「TENSOR-PRODUCT B-SPLINE PREDICTOR」である米国特許仮出願第６２／９０８７７０号に記載されているように、Ｂスプライン関数を用いて実施され得る。この特許文献の全内容は、あたかも本明細書で十分に説明されているかのように、参照により本願に援用される。

【0158】

Ｂスプラインは、次のような制約を満足するノットｔ_ｉ・・・ｔ_ｎの列を有するスプライン（又はスプライン関数）である：

【数1】

【0159】

ノット値ｔ_ｉ，・・，ｔ_ｎの連続を考えると、スプライン又はＢスプラインは一意に識別され得る。

【0160】

Ｂスプライン関数は、それを（例えば、ＭＬ、非ＭＬ、リシェーピングなど）モデルの訓練／最適化によく適したものとする特定の特性を持っている。次数ｋのＢスプラインの導関数は、単純に、次元ｋ－１のＢスプラインの関数である。Ｂスプラインは、特定の次数までノット間で連続であることができる。例えば、１つの異なるノットが提供されている限り、Ｂスプラインは、ＭＬモデル、ニューラルネットワークなどを訓練／最適化するための多くのバックプロパゲーション技術で使用される一次導関数を提供することができる。

【0161】

Ｂスプラインが、それらの合計特性と組み合わせて比較的コンパクトなサポート上でのみ非ゼロであることは、Ｂスプラインの線形結合が（例えば、ＭＬ、非ＭＬ、リシェーピングなど）モデルの訓練／最適化において数値的不安定性を引き起こす可能性が低いことを意味する。これは、その最大値が、線形結合の生成に使用される重み値によって完全に定義又は制御できるからである。

【0162】

Ｂスプライン（関数）の表現力は比較的大きい。例えば、次数ｎのＢスプラインの（例えば、線形、テンソル積など）組み合わせを使用して、同じ次数ｎの他の全てのスプラインを含むがそれに限定されない他の関数の基底関数を形成又は提供することができる。

【0163】

第３の例で、高レベルのリシェーピングパラメータに加えて、残りのリシェーピングパラメータの一部又は全ては、米国特許仮出願第６２／９０８７７０号で記載されるように、以下の表６に表されているような、交差チャネルリシェーピング動作のための適用可能なコーディングシンタックスで搬送されてもよい。

【表6】

【0164】

更に、任意に又は代替的に、高レベルのリシェーピングパラメータに加えて、残りのリシェーピングパラメータの一部又は全ては、以下の表７に表されているような、単一チャネルリシェーピング動作のための適用可能なコーディングシンタックスで搬送されてもよい。

【表7】

【0165】

図３Ａは、適用可能なビデオコーディング規格に従ってコーディングシンタックスを用いて、リシェーピング動作（「リシェーパ」と表記される。）のためのリシェーピングパラメータを符号化ビデオ信号に符号化するためのプロセスフローの例を表す。これらのリシェーピングパラメータは、符号化ビデオ信号に含まれておりそれから復号されたイメージに関してデコーダ側でリシェーピング動作を実行することを符号化ビデオ信号の受け手デバイスに可能する又は行わせることができる。

【0166】

ブロック３０２は、符号化ビデオ信号によって運ばれる１つ以上のデータユニット又はその中の指定されたデータフィールド（例えば、ヘッダデータフィールド、非ヘッダデータフィールド、イメージシーケンスレベル、イメージ／ピクチャレベル、スライスラベル、など）においてリシェーピング動作のための動作パラメータを符号化する符号化動作を開始又は初期化することを含む。

【0167】

ブロック３０４は、リシェーピング動作が有効にされるかどうかを決定することを含む。

【0168】

ブロック３０６は、リシェーピング動作が無効にされることを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_enabled_flag」が偽又はゼロ（０）にセットされることを含む。プロセスフローはブロック３２６へ進み、リシェーピングパラメータの符号化動作を終了又は完了する。

【0169】

ブロック３０８は、リシェーピング動作が有効にされることを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_enabled_flag」が真又はイチ（１）にセットされることを含む。ブロック３１０は、リシェーピング動作がループ内動作として実施又は実行されるかどうかを決定することを含む。

【0170】

ブロック３１２は、リシェーピング動作がループ内動作であることを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_inloop_flag」が真又はイチ（１）にセットされることを含む。

【0171】

ブロック３１４は、リシェーピング動作がループ内動作でないことを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_inloop_flag」が偽又はゼロ（０）にセットされることを含む。

【0172】

ブロック３１６は、リシェーピング動作がイメージ又はピクチャ適応動作として実施又は実行されるかどうかを決定することを含む。ブロック３１８は、リシェーピング動作がイメージ又はピクチャ適応であることを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_adaptive_model_flag」真又はイチ（１）にセットすることを含む。ブロック３２０は、イメージ／ピクチャ適応リシェーピング動作に従う各イメージ／ピクチャについて上の表３～７（例えば、イメージ特有の値を有する。）に表されているような適用可能なコーディングシンタックスを用いて一部又は全ての残りのリシェーピングパラメータ（又はリシェーパマッピングデータ）を符号化することを含む。

【0173】

ブロック３２２は、リシェーピング動作がイメージ又はピクチャ適応でないことを決定することに応答して、リシェーピング動作のための動作パラメータの中のリシェーピングパラメータ「reshaper_adaptive_model_flag」を偽又はゼロ（０）にセットすることを含む。ブロック３２４は、大域的リシェーピング動作に従う一部又は全ての色成分／チャネルにおける一部又は全てのイメージ／ピクチャについて上の表２に表されているパラメータ「reshaper_model_idc」を符号化することを含む。

【0174】

次いで、プロセスフローはブロック３２０又は３２４からブロック３２６へ進み、リシェーピングパラメータの符号化動作を終了又は完了する。

【0175】

図３Ｂは、適用可能なビデオコーディング規格に従ってコーディングシンタックスを用いて、符号化ビデオ信号からリシェーピング動作（「リシェーパ」と表記される。）のためのリシェーピングパラメータを復号又はパースするためのプロセスフローの例を表す。これらのリシェーピングパラメータは、符号化ビデオ信号の受け手デバイスによって、符号化ビデオ信号に含まれておりそれから復号されたイメージに関してデコーダ側でリシェーピング動作を実行するために使用され得る。

【0176】

ブロック３３２は、符号化ビデオ信号で運ばれた１つ以上のデータユニット又はその中の指定されたデータフィールド（例えば、ヘッダデータフィールド、非ヘッダデータフィールド、イメージシーケンスレベル、イメージ／ピクチャレベル、スライスラベル、など）からリシェーピング動作（又はリシェーパ）のための動作パラメータをパース又は復号するパーシング又は復号化動作を開始又は初期化することを含む。

【0177】

ブロック３３４は、リシェーピングパラメータ「reshaper_enabled_flag」をパース又は復号することを含む。ブロック３３６は、リシェーピングパラメータ「reshaper_enabled_flag」が真の値又はイチ（１）を有しているかどうかを決定することを含む。

【0178】

リシェーピングパラメータ「reshaper_enabled_flag」が真の値又はイチ（１）を有していないことを決定することに応答して、プロセスフローは、リシェーピングパラメータのパーシング又は復号化プロセスを終了又は完了するブロック３４８へ進む。他方で、リシェーピングパラメータ「reshaper_enabled_flag」が真の値又はイチ（１）を有していることを決定することに応答して、プロセスフローはブロック３３８へ進む。

【0179】

ブロック３３８は、リシェーピングパラメータ「reshaper_inloop_flag」をパース又は復号することを含む。ブロック３４０は、リシェーピングパラメータ「reshaper_adaptive_model_flag」をパース又は復号することを含む。ブロック３４２は、リシェーピングパラメータ「reshaper_adaptive_model_flag」が真の値又はイチ（１）を有しているかどうかを決定することを含む。

【0180】

ブロック３４４は、リシェーピングパラメータ「reshaper_adaptive_model_flag」が真の値又はイチ（１）を有していることを決定することに応答して、イメージ／ピクチャ適応リシェーピング動作に従う各イメージ／ピクチャについて上の表３～７（例えば、イメージ特有の値を有する。）に表されているような適用可能なコーディングシンタックスを用いて残りのリシェーピングパラメータ（又はリシェーパマッピングデータ）をパース又は復号することを含む。

【0181】

ブロック３４６は、リシェーピングパラメータ「reshaper_adaptive_model_flag」が真の値又はイチ（１）を有していないことを決定することに応答して、大域的リシェーピング動作に従う一部又は全ての色成分／チャネルにおける一部又は全てのイメージ／ピクチャについて上の表２に表されているパラメータ「reshaper_model_idc」をパース又は復号することを含む。

【0182】

次いで、プロセスフローはブロック３４４又は３４６からブロック３４８へ進み、リシェーピングパラメータのパーシング／復号化動作を終了又は完了する。

【0183】

［明示的又は暗黙的マッピングのための学習に基づいたリシェーパ］
ＭＬに基づいたリシェーピング動作（又はリシェーパ）は、明示的なマッピング又は暗黙的なマッピングをサポートするよう実施又は実行されてよい。

【0184】

本明細書で議論されるように、リシェーピングマッピングは、符号化ビデオ信号においてリシェーピングパラメータを符号化、パース又は復号するために、例えば、上の表１～７に表されているコーディングシンタックスを用いて、明示的に生成され、表現され、上流のデバイスから下流の受け手デバイスへシグナリングされ得る。更に、任意に又は代替的に、リシェーピングマッピングは、明示的に生成され、表現され、上流のデバイスから下流の受け手デバイスへシグナリングされなくてもよい。代わりに、リシェーピングモデルは、リシェーピング動作において暗黙的な（リシェーピング）マッピングを実施又は実行してもよい。

【0185】

図１Ｄは、学習に基づいたリシェーピング動作のための明示的なマッピングをサポートするコーデックアーキテクチャの例を表す。

【0186】

明示的なマッピングとは、本明細書で記載されるように符号化ビデオ信号を符号化するために使用されるコーディングシンタックスにおいて前方及び逆／後方リシェーピングマッピングの少なくとも１つをリシェーピングパラメータが明示的に指定することを意味する。対照的に、暗黙的なマッピングとは、本明細書で記載されるように符号化ビデオ信号を符号化するために使用されるコーディングシンタックスにおいて前方及び逆／後方リシェーピングマッピングのいずれもリシェーピングパラメータが明示的に指定しないことを意味する。

【0187】

訓練段階で、ＭＬベースモデル（図１Ｄに表されているように、学習に基づいたリシェーパ推定ネットなどのニューラルネットワークにより実施されてもよい。）は、前方リシェーピング動作で使用される前方リシェーピングマッピング／関数を指定又は定義する（明示的な）動作パラメータ（例えば、上の表１～表７などで表されているもの、など）を予測し、かつ、逆又は後方リシェーピング動作で使用される逆又は後方リシェーピングマッピング／関数を指定又は定義する（明示的な）動作パラメータを予測するために、訓練データセット内の訓練データにより訓練／最適化され得る。

【0188】

推論又は実際のデプロイメント段階で、エンコーダ側では、図１Ｄに表されているＭＬベースモデル又は学習に基づいたリシェーパ推定ネットは、入力イメージ（１０２）に関して前方及び逆／後方リシェーピング動作で使用される前方及び逆／後方リシェーピングマッピング／関数を指定又は定義する（明示的な）動作又はリシェーピングパラメータ（例えば、上の表１～表７などで表されているもの、など）を予測するために、入力イメージ（１０２）を受け取って入力として使用する。

【0189】

これらのリシェーピングパラメータの一部又は全ては、動作１３４によって受け取られて、前方リシェーピングマッピング／関数を導出するために使用され得る。次いで、前方リシェーピングマッピング／関数は、前方リシェーパの第１インスタンス（１０４－１）及び第２インスタンス（１０４－２）によって、予めリシェーピングされたイメージを前方リシェープイメージに前方リシェーピングするために適用され得る。

【0190】

これらのリシェーピングパラメータの一部又は全ては、動作１３６によって受け取られて、逆／後方リシェーピングマッピング／関数を導出するために使用され得る。次いで、逆／後方リシェーピングマッピング／関数は、逆／後方リシェーパ（１１８）によって、前方リシェープイメージを再構成イメージ（例えば、入力イメージ（１０２）を近似する、など）に逆／後方リシェーピングするために適用され得る。

【0191】

予測されたリシェーピングパラメータは、入力イメージ（１０２）の前方リシェーピングにより生成された前方リシェープイメージとともに、符号化ビデオ信号に符号化され得る。これらの予測されたリシェーピングパラメータは、入力イメージ（１０２）に特有であり、それに適応することができる。

【0192】

推論又は実際のデプロイメント段階で、デコーダ側では、図１Ｄに表されているようなデコーダ側のコーデックアーキテクチャ（図１Ｂの類似したデコーダ側の処理ブロックを有する。）を実施する下流の受け手デバイスが、前方リシェープイメージ（１０２－１）とイメージメタデータ（１０２－２）内のリシェーピングパラメータとを入力として受け取って復号する。

【0193】

下流のデバイスは、これらのリシェーピングパラメータの一部又は全てを用いて前方リシェーピングマッピング／関数を導出する動作（１３４）を実行することができ、前方リシェーピングマッピング／関数は、次いで、前方リシェーパの第２インスタンス（１０４－２）によって、予めリシェーピングされたイメージを前方リシェープイメージに前方リシェーピングするために適用され得る。

【0194】

下流のデバイスは、これらのリシェーピングパラメータの一部又は全てを用いて逆／後方リシェーピングマッピング／関数を導出する動作（１３６）を実行することができ、逆／後方リシェーピングマッピング／関数は、次いで、逆／後方リシェーパ（１１８）によって、前方リシェープイメージｗ再構成イメージ（例えば、入力イメージ（１０２）を近似する、など）に逆／後方リシェーピングするために適用され得る。

【0195】

図１Ｅは、学習に基づいたリシェーピング動作のための暗黙的なマッピングをサポートするコーデックアーキテクチャの例を表す。述べられているように、暗黙的なマッピングとは、リシェーピングマッピングが符号化された信号を符号化又は復号するために使用されるコーディングシンタックスにおいて表現されないことを意味する。暗黙的なマッピングは、ＭＬベースリシェーパモデルに含まれる動作パラメータが、ランタイムで比較的限られたビットレートにより効率的にシグナリングされるには多すぎる場合に（例えば、ＣＮＮなどのニューラルネットワークで使用される重み／バイアスなどのパラメータが数百万ある場合に）、ビデオコーディングデバイス（例えば、エンコーダ、デコーダ、など）で、訓練されたＭＬベースリシェーパモデルを予め記憶するか又は事前設定することによって、使用又は実施されてもよい。しかし、いくつかの動作シナリオで、ＭＬベースリシェーパモデルの最適化された動作パラメータ（例えば、ＭＬニューラルネットワーク、ＭＬネットなどにおける重み／バイアス）の一部又は全ては、特に、これらのパラメータの総数及びこれらのパラメータを運ぶための総データ容量が比較的小さい（例えば、特定のデータ容量閾値を下回る、重み／バイアスパラメータが比較的少ない、これらのＭＬモデルパラメータを運ぶために使用されるビットレートが、ビットレートオーバーヘッド閾値と比較して相対的に小さい、など）場合に、本明細書で記載される適用可能なビデオコーディング規格の（上の表１～７に表されているものに加えて）コーディングシンタックス又はシンタックス要素に従って、本明細書で記載されるように符号化ビデオ信号でシグナリング又は伝送され得る。

【0196】

訓練段階で、ＭＬベースの前方リシェーピングモデル（図１Ｅに表されている学習に基づいた前方リシェーパネット１３８－１及び１３８－２などのニューラルネットワークにより実施され得る。）は、前方リシェーピング動作で使用される前方リシェーピングマッピング／関数を指定又は定義する（明示的な）動作パラメータ（例えば、上の表１～表７などで表されているもの、など）を生成せずに、対応する前方リシェープイメージを生成するよう訓練イメージに関して前方リシェーピング動作を実行するために、訓練データセット内の訓練イメージにより訓練／最適化され得る。

【0197】

訓練段階で、ＭＬベースの逆／後方リシェーピングモデル（図１Ｅに表されている学習に基づいた逆／後方リシェーパネット１４０などのニューラルネットワークにより実施され得る。）は、逆／後方リシェーピング動作で使用される逆／後方リシェーピングマッピング／関数を指定又は定義する（明示的な）動作パラメータ（例えば、上の表１～表７などで表されているもの、など）を生成せずに、対応する逆／後方リシェープイメージを生成するよう訓練イメージに関して逆／後方リシェーピング動作を実行するために、訓練データセット内の訓練イメージにより訓練／最適化され得る。

【0198】

推論又は実際のデプロイメント段階で、エンコーダ側では、図１Ｅに表されているＭＬに基づいた前方リシェーピングモデル又は学習に基づいた前方リシェーパ推定ネット（１３８－１又は１３８－２）は、予めリシェーピングされたイメージを前方リシェープイメージに前方リシェーピングするよう如何なる明示的に表現された前方リシェーピングマッピング又は関数も使用せずに、前方リシェーピング動作を実行するために、入力イメージ（１０２）を受け取って入力として使用する。

【0199】

同様に、エンコーダ側で、図１Ｅに表されているＭＬに基づいた後方リシェーピングモデル又は学習に基づいた逆／後方リシェーパ推定ネット（１４０）は、前方リシェープイメージを再構成イメージに逆／後方リシェーピングするよう如何なる明示的に表現された逆／後方リシェーピングマッピング又は関数も使用せずに、逆／後方リシェーピング動作を実行するために、前方リシェープイメージを受け取って入力として使用する。

【0200】

一部又は全てのリシェーピングパラメータ（暗黙的なリシェーピングなどを示す１つ又は２つのフラグを除く。）は、入力イメージ（１０２）の前方リシェーピングにより生成された前方リシェープイメージにより符号化された符号化ビデオ信号に符号化されることから省略され得る。言い換えれば、符号化ビデオ信号は、符号化ビデオ信号の受け手デバイスによって実行されるリシェーピング動作のためのリシェーピングマッピング／関数を定義又は指定するリシェーピングパラメータを運ばなくてもよい。

【0201】

推論又は実際のデプロイメント段階で、デコーダ側では、図１Ｅに表されているようなデコーダ側のコーデックアーキテクチャ（図１Ｂの類似したデコーダ側の処理ブロックを有する。）を実施する下流の受け手デバイス（それらの各々の訓練されたニューラルネットワーク動作パラメータを有する訓練に基づいた前方リシェーパネット（１３８－１又は１３８－２）及び／又は学習に基づいた逆／後方リシェーパネット（１４０）などのＭＬに基づいた前方及び逆／後方リシェーピングモデルにより事前設定又はデプロイされている。）が、前方リシェープイメージ（１０２－１）及びイメージメタデータ（１０２－２）を入力として受け取って復号する。イメージメタデータ（１０２－２）は、下流のデバイスによって実行されるリシェーピング動作のリシェーピングマッピング／関数を明示的に定義又は指定するリシェーピングパラメータを含まない。

【0202】

下流のデバイスは、予めリシェーピングされたイメージを前方リシェープイメージに前方リシェーピングするために、訓練又は事前設定された学習に基づいた前方リシェーパネット（１３８－１又は１３８－２）を使用することができる。同様に、下流のデバイスは、前方リシェープイメージを逆／後方リシェープイメージに逆／後方リシェーピングするために、訓練又は事前設定された学習に基づいた逆／後方リシェーパネット（１４０）
を使用することができる。

【0203】

前方及び逆／後方リシェーパネット（１３８又は１４０）の一方又は両方は、入力領域で表現されるリシェーピング対象イメージ又は信号を、比較的に高い次元変換により、出力領域で表現されるリシェーピングされたイメージ又は信号にリシェーピングするために、機械学習を実施するニューラルネットワークにより実施されてもよい。前方及び逆／後方リシェーパネット（１３８又は１４０）の一方又は両方は、教師あり学習により（例えば、グラウンド・トゥルース又はラベルを含む訓練データセットの使用、モデル訓練／妥当性確認段階の使用、など）、又は教師なし学習により（例えば、イメージデータの客観的なイメージ特徴、動き、セグメント、輝度、色度、構造、特性などを決定するための、計量関数、誤差関数、目的関数、コスト関数の使用やイメージデータとの畳み込みを行うフィルタの使用）、又は教師あり及び教師なし学習の組み合わせにより訓練されてもよい。

【0204】

本明細書で記載される学習に基づいたリシェーピングネットは、ＣＮＮとして実施され得る。ＣＮＮは（Ｃｉｎ，Ｃｏｕｔ，ＫｘＫｃｏｎｖ）と記述され得る。ここで、Ｃｉｎは、ＣＮＮへの入力イメージデータが表現される入力色チャネル／成分の総数を表す。Ｃｏｕｔは、ＣＮＮからの出力イメージデータが表現される出力色チャネル／成分の総数を表す。ＫｘＫｃｏｎｖは、ＣＮＮで入力イメージデータを畳み込むために使用されるカーネルサイズＫ（ピクセル）×Ｋ（ピクセル）の畳み込みフィルタへの参照を示す。

【0205】

図２Ｃは、ＣＮＮとして少なくとも部分的に実施される前方及び逆／後方リシェーパネット（例えば、図１Ｅの１３８、図１Ｅの１４０、など）の例を表す。

【0206】

図示されるように、前方リシェーパネットは、（３，Ｎ，１ｘ１ｃｏｎｖ）と記述される（前方リシェーピング）ＣＮＮを使用する。（３，Ｎ，１ｘ１ｃｏｎｖ）は、カーネルサイズ１（ピクセル）×１（ピクセル）の畳み込みフィルタを有するＣＮＮが、入力領域で３つの色チャネル／成分（例えば、ＲＧＢ色空間におけるＲＧＢチャネル又は成分、ＹＵＶ色空間におけるＹＵＶチャネル／成分、など）で表される入力イメージデータを、出力領域でＮ個のチャネルの比較的高い次元で表現される出力イメージデータにリシェーピングすべきことを意味する。比較によって、非リシェーピングアプリケーションでは、１×１以外のカーネルサイズの畳み込みフィルタを有するＣＮＮを使用して、入力イメージの基礎をなす空間構造又はイメージ特徴を検出し又はそれに反応する空間フィルタリングを実行し、かつ、入力イメージから特徴を抽出することができる。対照的に、ここでの１×１カーネルサイズのカーネルフィルタを有する（リシェーピング）ＣＮＮは、入力信号／イメージ又はそれに符号化されている個々のコードワードをリシェーピングすべきである。カーネルサイズ１×１は、空間フィルタリングが入力イメージに実行されないことを確かにするために指定される。交差チャネル行列が、入力領域の３つの入力チャネル／成分で表されるコードワードを異なる次数の項（例えば、色チャネルに対応する一次項、及び色チャネルの積に対応する二次又はそれよりも高い項、など）に変換するために使用されてもよく、異なる次数の項は、Ｎ個のチャネルを含む設計行列又は列に配置され得る。その結果、出力領域は、直接見ることができる色空間なくてもよい。言い換えれば、（前方リシェーピング）ＣＮＮからの新たにリシェーピングされた信号又は新たにリシェーピングされたイメージは、色空間のコードワードを有さなくてもよく、直接見ることができなくてもよい。比較すると、本明細書で記載される技術を実施しない非ＣＮＮリシェーパからのリシェープ信号又はリシェープイメージは、色空間において表現でき、直接見ることができる。

【0207】

反対に、逆／後方リシェーパネットは、（Ｎ，３，１ｘ１ｃｏｎｖ）と記述される（逆／後方リシェーピング）ＣＮＮを使用する。（Ｎ，３，１ｘ１ｃｏｎｖ）は、カーネルサイズ１（ピクセル）×１（ピクセル）の逆畳み込みフィルタを有するＣＮＮが、出力領域でＮ個のチャネルの比較的高い次元で表現される受け取られたイメージデータを、再構成イメージ／ピクチャ領域（入力領域と同じであってもなくてもよい。）で３つの色チャネル／成分（例えば、ＲＧＢ色空間におけるＲＧＢチャネル又は成分、ＹＵＶ色空間におけるＹＵＶチャネル／成分、など）で表される再構成されたイメージデータに（逆／後方）リシェーピングすべきことを意味する。これらの動作シナリオで、ＣＮＮは、複数の空間近傍ピクセルに対応する複数のピクセル又はコードワード／信号値に基づいてフィルタ処理された値を導出するためにではなく、ピクセル又はコードワード信号値をリシェーピングするために、１×１カーネルを使用する。前方リシェーピングの場合と同様に、ここでの１×１カーネルサイズのカーネルフィルタを有する（逆リシェーピング）ＣＮＮは、リシェーピングされた信号／イメージ又はそれに符号化されている個々のリシェーピングされたコードワードを逆リシェーピングすべきである。カーネルサイズ１×１は、空間フィルタリングがリシェーピングされたイメージに実行されないことを確かにするために指定される。交差チャネル行列が、出力領域（直接見ることができない。）のＮ個のチャネルで表されるコードワードを、再構成領域／色空間（入力領域又は色空間と同じであってよい。）の３つの入力チャネル／成分で表される再構成されたコードワードに変換するために使用されてもよい。その結果、再構成領域は、直接見ることができる色空間であることができる。言い換えれば、（後方又は逆リシェーピング）ＣＮＮからの新たに再構成された信号又は新たに再構成されたイメージは、色空間のコードワードを有することができ、直接見ることができる。

【0208】

いくつかの動作シナリオで、図２Ｃに示されるように、学習に基づいたリシェーパは、ｃｏｎｖ（convolutional unit）ＲｅＬＵ（rectifier linear unit）、ｌｅａｋｙＲｅＬＵ（leaky ReLU）、ＰＲｅＬＵ（parametric ReLU）、ＧＤＮ（generalized divisive normalization）又はＩＧＤＮ（inverse GDN）などの１つ以上のモジュールを有するＣＮＮネットワークを用いて、受け取られたイメージデータを出力イメージデータにマッピング、リシェーピング、又は変換する際に非線形特性を提供又は導入するために実施され得る。いくつかの動作シナリオで、図２Ｃ（ａ）のリシェーパは、図１Ｅのブロック１３８－１及び／又は１３８－２で表されている前方リシェーパネットを実施するために使用され得る一方で、図２Ｃ（ｂ）のリシェーパは、図１Ｅのブロック１４０で表されている後方又は逆リシェーパネットを実施するために使用され得る。

【0209】

［例となるプロセスフロー］
図４Ａは、実施形態に従うプロセスフローの例を表す。いくつかの実施形態で、１つ以上のコンピューティングデバイス又はコンポーネント（例えば、符号化デバイス／モジュール、トランスコーディングデバイス／モジュール、復号化デバイス／モジュール、逆トーンマッピングデバイス／モジュール、トーンマッピングデバイス／モジュール、メディアデバイス／モジュール、逆マッピング生成及び適用システム、など）は、このプロセスフローを実行し得る。ブロック４０２で、イメージ処理システムは、入力ビデオ信号から、入力領域で表現される入力イメージを受け取る。

【0210】

ブロック４０４で、イメージ処理システムは、リシェープイメージ領域で表現される前方リシェープイメージを生成するよう入力イメージに対して前方リシェーピングを実行する。

【0211】

ブロック４０６で、イメージ処理システムは、リシェープイメージを符号化ビデオ信号に符号化するよう非リシェーピング符号化動作を実行する。非リシェーピング符号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習（ＭＬ）モデルを用いて実施される。

【0212】

ブロック４０８で、イメージ処理システムは、符号化ビデオ信号の受け手デバイスに、前方リシェープイメージから再構成イメージを生成させる。構成イメージは、受け手デバイスとともに動作するイメージディスプレイでレンダリングされる表示イメージを導出するために使用される。

【0213】

実施形態において、非リシェーピング符号化動作は、オプティカルフロー分析、動きベクトル符号化、動きベクトル復号化、動きベクトル量子化、動き補償、残差符号化、残差復号化、又は残差量子化、などのうちの１つ以上を含む。

【0214】

実施形態において、入力領域は、ＲＧＢ色空間、ＹＵＶ色空間、ＩＰＴ色空間、他の異なる色空間、などのうちの１つである色空間に対応する。

【0215】

実施形態において、前方リシェーピングは、非リシェーピング符号化動作の前に実行されるループ外イメージ処理動作として実行される。

【0216】

実施形態において、前方リシェーピングは、非リシェーピング符号化動作を含む全体的なループ内イメージ処理動作の一部として実行される。

【0217】

実施形態において、前方リシェープイメージのイメージメタデータ部分は、符号化ビデオ信号によって運ばれるイメージメタデータの一部であり、イメージメタデータ部分は、前方リシェーピングのための前方リシェーピングパラメータ、又は逆リシェーピングのための後方リシェーピングパラメータ、のうちの１つ以上を含む。

【0218】

実施形態において、イメージメタデータ部分は、前方リシェーピング又は逆リシェーピングのうちの一方のためのリシェーピングマッピングを明示的に指定するリシェーピングパラメータを含む。

【0219】

実施形態において、リシェーピングマッピングを明示的に指定するリシェーピングパラメータは、ＭＬベースのリシェーピングマッピング予測方法、又は非ＭＬベースのリシェーピングマッピング生成方法、のうちの１つによって生成される。

【0220】

実施形態において、イメージメタデータ部分は、大域的マッピング、又はイメージ適応マッピング、のうちの１つとして前方リシェーピングを特定するリシェーピングパラメータを含む。

【0221】

実施形態において、前方リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、ニューラルネットワークのバイアス及び重みは、受け手デバイスへシグナリングされない。

【0222】

実施形態において、前方リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、ニューラルネットワークのバイアス及び重みの少なくとも１つは、受け手デバイスへシグナリングされる。

【0223】

図４Ｂは、本発明の実施形態に従うプロセスフローの例を表す。いくつかの実施形態で、１つ以上のコンピューティングデバイス又はコンポーネント（例えば、符号化デバイス／モジュール、トランスコーディングデバイス／モジュール、復号化デバイス／モジュール、逆トーンマッピングデバイス／モジュール、トーンマッピングデバイス／モジュール、メディアデバイス／モジュール、逆マッピング生成及び適用システム、など）は、このプロセスフローを実行し得る。ブロック４５２で、ビデオ復号化システムは、リシェープイメージ領域で表現される前方リシェープイメージを符号化ビデオ信号から復号する。前方リシェープイメージは、入力イメージ領域で表現される入力イメージを前方リシェーピングすることによって上流デバイスによって生成されたものである。

【0224】

ブロック４５４で、ビデオ復号化システムは、再構成イメージ領域で表現される再構成イメージを生成するよう前方リシェープイメージに関連した非リシェーピング復号化動作とともに前方リシェープイメージに対して逆リシェーピングを実行する。逆リシェーピング及び前方リシェーピングはリシェーピング動作ペアを形成する。非リシェーピング復号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習（ＭＬ）モデルを用いて実施される。

【0225】

ブロック４５６で、ビデオ復号化システムは、再構成イメージから導出された表示イメージをイメージディスプレイでレンダリングさせる。

【0226】

実施形態で、逆リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、ニューラルネットワークのバイアス及び重みは、受け手デバイスへシグナリングされない。

【0227】

実施形態において、逆リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、ニューラルネットワークのバイアス及び重みの少なくとも１つは、受け手デバイスへシグナリングされる。

【0228】

実施形態において、逆リシェーピングは、イメージメタデータの一部として符号化ビデオ信号で運ばれる前方リシェープイメージのイメージメタデータ部分内でシグナリングされるリシェーピングマッピングを用いて実行される。

【0229】

実施形態において、表示デバイス、モバイルデバイス、セットトップボックス、マルチメディアデバイスなどのコンピューティングデバイスは、上記の方法のいずれかを実行するよう構成される。実施形態において、装置はプロセッサを有し、上記の方法のいずれかを実行するよう構成される。実施形態において、非一時的なコンピュータ可読記憶媒体はソフトウェア命令を記憶しており、命令は、１つ以上のプロセッサによって実行される場合に、上記の方法のいずれかの実行を引き起こす。

【0230】

実施形態において、コンピューティングデバイスは、１つ以上のプロセッサと、命令の組を記憶している１つ以上の記憶媒体とを有し、命令の組は、１つ以上のプロセッサによって実行される場合に、上記の方法のいずれかの実行を引き起こす。

【0231】

なお、別々の実施形態が本明細書では議論されているが、本明細書で議論されている実施形態及び／又は部分的な実施形態の如何なる組み合わせも、更なる実施形態を形成するよう組み合わされてよい。

【0232】

［例となるコンピュータシステムの実施］
本発明の実施形態は、コンピュータシステム、電子回路及び部品で構成されたシステム、マイクロコントローラ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は他の構成可能若しくはプログラム可能なロジックデバイス（ＰＬＤ）などの集積回路（ＩＣ）デバイス、離散時間又はデジタル信号プロセッサ（ＤＳＰ）、特定用途向けＩＣ（ＡＳＩＣ）、及び／又はそのようなシステム、デバイス、又はコンポーネントの１つ以上を含む装置により実施されてよい。コンピュータ及び／又はＩＣは、本明細書で記載されているもののような、拡張ダイナミックレンジを有するイメージの適応的な知覚量子化に関する命令を実行、制御、又は遂行してよい。コンピュータ及び／又はＩＣは、本明細書で記載されている適応的な知覚量子化のプロセスに関係がある様々なパラメータ又は値のいずれかを計算してもよい。イメージ及びビデオの実施形態は、ハードウェア、ソフトウェア、ファームウェア、及びそれらの様々な組み合わせで実施されてよい。

【0233】

本発明の特定の実施は、プロセッサに本開示の方法を実行させるソフトウェア命令を実行するコンピュータプロセッサを有する。例えば、ディスプレイ、エンコーダ、セットトップボックス、トランスコーダなどにおける１つ以上のプロセッサは、プロセッサがアクセスできるプログラムメモリ内のソフトウェア命令を実行することによって、上述されたＨＤＲイメージの適応的な知覚量子化に関する方法を実施し得る。本発明の実施形態は、プログラム製品の形でも提供されてよい。プログラム製品は、データプロセッサによる実行時にデータプロセッサに本発明の実施形態の方法を実行させる命令を含むコンピュータ可読信号の組を運ぶ任意の非一時的な媒体を有し得る。本発明の実施形態に従うプログラム製品は、幅広く様々な形態を取ることができる。プログラム製品は、例えば、フロッピー（登録商標）ディスケットやハードディスクドライブを含む磁気データ記憶媒体、ＣＤＲＯＭやＤＶＤを含む光学データ記憶媒体、ＲＯＭやフラッシュＲＡＭを含む電子データ記憶媒体、などのような物理媒体を有し得る。プログラム製品上のコンピュータ可読信号は、任意に、圧縮又は暗号化され得る。

【0234】

コンポーネント（例えば、ソフトウェアモジュール、プロセッサ、アセンブリ、デバイス、回路、など）が上で言及される場合に、別段示されない限りは、そのコンポーネントへの言及（「手段」への言及を含む。）は、本発明の表されている実施例における機能を実行する開示された構造と構造的に等価ではないコンポーネントを含め、記載されているコンポーネントの機能を実行する（例えば、機能的に等価である）如何なるコンポーネントも、そのコンポーネントの同等物として含むものとして解釈されるべきである。

【0235】

一実施形態に従って、本明細書で記載されている技術は、１つ以上の特別目的のコンピューティングデバイスによって実施される。特別目的のコンピューティングデバイスは、当該技術を実行するよう配線で接続されてもよく、あるいは、当該技術を実行する持続的にプログラムされる１つ以上の特定用途向け集積回路（ＡＳＩＣ）又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などのデジタル電子デバイスを含んでもよく、あるいは、ファームウェア、メモリ、他のストレージ、又は組み合わせにおけるプログラム命令に従って当該技術を実行するプログラムされた１つ以上の汎用ハードウェアプロセッサを含んでもよい。そのような特別目的のコンピューティングデバイスは、カスタムハードワイヤードロジック、ＡＳＩＣ、又はＦＰＧＡをカスタムプログラミングと組み合わせて、当該技術を達成してもよい。特別目的のコンピューティングデバイスは、デスクトップコンピュータシステム、ポータブルコンピュータシステム、ハンドヘルドデバイス、ネットワークキングデバイス、あるいは、当該技術を実施するようハードワイヤード及び／又はプログラムロジックを組み込む任意の他のデバイスであってもよい。

【0236】

例えば、図５は、本発明の実施形態が実施され得るコンピュータシステム５００を表すブロック図である。コンピュータシステム５００は、情報をやりとりするためのバス５０２又は他の通信メカニズムと、バス５０２と結合され、情報を処理するためのハードウェアプロセッサ５０４とを含む。ハードウェアプロセッサ５０４は、例えば、汎用マイクロプロセッサであってよい。

【0237】

コンピュータシステム５００はまた、バス５０２と結合され、プロセッサ５０４によって実行される情報及び命令を記憶するための、ランダムアクセスメモリ（ＲＡＭ）又は他の動的記憶デバイスなどのメインメモリ５０６も含む。メインメモリ５０６はまた、プロセッサ５０４によって実行される命令の実行中に一時変数又は他の中間情報を記憶するためにも使用されてよい。そのような命令は、プロセッサ５０４がアクセスできる非一時的な記憶媒体に記憶されている場合に、コンピュータシステム５００を、命令において指定された動作を実行するようカスタマイズされている特別目的のマシンにならしめる。

【0238】

コンピュータシステム５００は、バス５０２と結合され、プロセッサ５０４のための静的な情報及び命令を記憶するためのリードオンリーメモリ（ＲＯＭ）５０８又は他の静的記憶デバイスを更に含む。磁気ディスク又は光ディスクなどの記憶デバイス５１０が、情報及び命令を記憶するために設けられてバス５０２へ結合される。

【0239】

コンピュータシステム５００は、コンピュータユーザに情報を表示するために、バス５０２を介して液晶ディスプレイなどのディスプレイ５１２へ結合されてもよい。英数字又は他のキーを含む入力デバイス５１４は、情報及びコマンド選択をプロセッサ５０４へ送るためにバス５０２へ結合されている。他のタイプのユーザ入力デバイスは、方向情報及びコマンド選択をプロセッサ５０４へ送り、かつ、ディスプレイ５１２条でのカーソル移動を制御するための、マウス、トラックボール、又はカーソル方向キーなどのカーソルコントロール５１６である。個の入力デバイスは通常、平面内の位置を指定することをデバイスに可能にする２つの軸（第１軸（例えば、ｘ）及び第２軸（例えば、ｙ））における２自由度を有する。

【0240】

コンピュータシステム５００は、カスタマイズされたハードワイヤードロジック、１つ以上のＡＳＩＣ若しくはＦＰＧＡ、コンピュータシステムと組み合わせて、コンピュータシステム５００に特別目的のマシンであるようにする又はそのようにプログラムするファームウェア及び／又はプログラムロジックを用いて、本明細書で記載されている技術を実施し得る。一実施形態に従って、本明細書で記載されている技術は、プロセッサ５０４がメインメモリ５０６に収容されている１つ以上の命令の１つ以上のシーケンスを実行することに応答して、コンピュータシステム５００によって実行される。そのような命令は、記憶デバイス５１０などの他の記憶媒体からメインメモリ５０６に読み出されてもよい。メインメモリ５０６に収容されている命令のシーケンスの実行は、プロセッサ５０４に、本明細書で記載されているプロセスステップを実行させる。代替の実施形態では、ハードワイヤード回路が、ソフトウェア命令の代わりに又はそれとともに使用されてもよい。

【0241】

本明細書で使用される「記憶媒体」という用語は、マシンを特定の方法で動作させるデータ及び／又は命令を記憶する任意の非一時的な媒体を指す。そのような記憶媒体には、不揮発性媒体及び／又は揮発性媒体が含まれ得る。不揮発性媒体には、例えば、記憶デバイス５１０などの光又は磁気ディスクが含まれる。揮発性媒体には、メインメモリ５０６などの動的メモリが含まれる。記憶媒体の共通する形態には、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、ソリッドステートドライブ、磁気テープ、又は任意の他の磁気データ記憶媒体、ＣＤ－ＲＯＭ、任意の他の光学データ記憶媒体、穴のパターンを有する任意の物理媒体、ＲＡＭ、ＰＲＯＭ、及びＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、ＮＶＲＡＭ、任意の他のメモリチップ又はカートリッジがある。

【0242】

記憶媒体は、伝送媒体とは異なるものであるか、それとともに使用されてもよい。伝送媒体は、記憶媒体間で情報を転送することに関与する。例えば、伝送媒体には、バス５０２を有する配線を含め、同軸ケーブル、銅線、及び光ファイバが含まれる。伝送媒体はまた、電波又は赤外線データ通信の間に生成されるもののような音波又は光波の形をとることもできる。

【0243】

様々な形式の媒体が、１つ以上の命令の１つ以上のシーケンスを実行のためにプロセッサ５０４に搬送することに関与し得る。例えば、命令は最初に、遠隔のコンピュータの磁気ディスク又はソリッドステートドライブに保存され得る。遠隔のコンピュータは命令をその動的メモリにロードし、モデムを使用して電話回線経由で命令を送信することができる。コンピュータシステム５００にローカルなモデムは、電話回線上のデータを受信し、赤外線送信器を使用してデータを赤外線信号に変換することができる。赤外線検出器は、赤外線信号で運ばれるデータを受信することができ、適切な回路は、そのデータをバス５０２上に置くことができる。バス５０２はデータをメインメモリ５０６に運び、プロセッサ５０４はそこから命令を取り出して実行する。メインメモリ５０６によって受信された命令は、任意に、プロセッサ５０４による実行の前又は後のいずれかに記憶デバイス５１０に記憶されてもよい。

【0244】

コンピュータシステム５００は、バス５０２に結合された通信インターフェース５１８も含む。通信インターフェース５１８は、ローカルネットワーク５２２に接続されているネットワークリンク５２０に結合する双方向データ通信を提供する。例えば、通信インターフェース５１８は、サービス統合デジタルネットワーク（ＩＳＤＮ）カード、ケーブルモデム、衛星モデム、又は対応するタイプの電話回線へのデータ通信接続を提供するモデムであってよい。他の例として、通信インターフェース５１８は、互換性のあるＬＡＮへのデータ通信接続を提供するローカルエリアネットワーク（ＬＡＮ）カードであってもよい。無線リンクも実装することができる。このような実装形態では、通信インターフェース５１８は、様々なタイプの情報を表すデジタルデータストリームを搬送する電気信号、電磁信号、又は光信号を送受信する。

【0245】

ネットワークリンク５２０は、通常、１つ以上のネットワークを介して他のデータデバイスにデータ通信を提供する。例えば、ネットワークリンク５２０は、ローカルネットワーク５２２を介して、ホストコンピュータ５２４へ、又はインターネットサービスプロバイダ（ＩＳＰ）５２６によって運営されるデータ機器への接続を提供することができる。ＩＳＰ５２６は、次に、現在「インターネット」５２８と広く呼ばれている世界規模のパケットデータ通信ネットワークを介してデータ通信サービスを提供する。ローカルネットワーク５２２及びインターネット５２８は両方とも、デジタルデータストリームを搬送する電気信号、電磁信号、又は光信号を使用する。コンピュータシステム５００との間でデジタルデータを搬送する、様々なネットワークを介する信号、及びネットワークリンク５２０上で通信インターフェース５１８を介する信号は、伝送媒体の例示的な形態である。

【0246】

コンピュータシステム５００は、ネットワーク、ネットワークリンク５２０、及び通信インターフェース５１８を介して、メッセージを送信し、プログラムコードを含むデータを受信することができる。インターネットの例では、サーバ５３０は、アプリケーションプログラムに対して要求されたコードを、インターネット５２８、ＩＳＰ５２６、ローカルネットワーク５２２、及び通信インターフェース５１８を介して伝送し得る。

【0247】

受信されたコードは、それが受信されると、プロセッサ５０４によって実行され、及び／又は後で実行するために記憶装置５１０若しくは他の不揮発性記憶装置に記憶され得る。

【0248】

［同等品、拡張、代替品、及びその他］
前述の明細書では、本発明の実施形態を、実装ごとに異なる可能性がある多くの特定の詳細を参照して説明した。よって、特許請求される本発明の実施形態の唯一かつ排他的な指標であり、本発明の特許請求される実施形態であることを出願人が意図するものは、本願から発表される一連の特許請求の範囲であり、その後の修正も含む、そのような特許請求の範囲が発表する特定の形式である。かかる特許請求の範囲に含まれる用語について本明細書に明示的に記載される定義は、特許請求の範囲で使用される用語の意味を支配するものとする。従って、特許請求の範囲に明示的に記載されていない限定、要素、特性、特徴、利点、又は属性は、いかなる形であってもそのような請求の範囲を制限するものではない。従って、明細書及び図面は、限定的な意味ではなく、例示的な意味としてみなされるべきである。

【0249】

［例示的な実施形態の列挙］
本発明は、本発明の実施形態のいくつかの部分の構造、特徴、及び機能について記載する以下の例示的な実施形態の列挙（enumerate example embodiments）（ＥＥＥ）を含むがこれらに限られない、本明細書で記載されている形態のいずれかで具現化され得る。

【0250】

ＥＥＥ１．
入力ビデオ信号から、入力領域で表現される入力イメージを受け取ることと、
リシェープイメージ領域で表現される前方リシェープイメージを生成するよう前記入力イメージに対して前方リシェーピングを実行することと、
前記リシェープイメージを符号化ビデオ信号に符号化するよう非リシェーピング符号化動作を実行することであり、前記非リシェーピング符号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習（ＭＬ）モデルを用いて実施される、ことと、
前記符号化ビデオ信号の受け手デバイスに、前記前方リシェープイメージから再構成イメージを生成させることであり、前記再構成イメージは、前記受け手デバイスとともに動作するイメージディスプレイでレンダリングされる表示イメージを導出するために使用される、ことと
を有する方法。

【0251】

ＥＥＥ２．
前記前方リシェープイメージは、１ピクセル×１ピクセルの空間カーネルサイズの畳み込みフィルタを用いて、３つの色チャネルにおける前記入力イメージ内の各入力コードワードをＮ個のチャネルにおける各々の前方リシェープコードワードに前方リシェーピングする第１畳み込みニューラルネットワークを用いて実行される前記前方リシェーピングによって生成され、Ｎは３以上の整数を表し、
前記再構成イメージは、１ピクセル×１ピクセルの空間カーネルサイズの第２畳み込みフィルタを用いて、前記Ｎ個のチャネルにおける前記入力イメージ内の各前方リシェープコードワードを前記３つの色チャネルにおける各々の再構成コードワードに逆リシェーピングする第２畳み込みニューラルネットワークを用いて実行される逆リシェーピングによって生成される、
ＥＥＥ１に記載の方法。

【0252】

ＥＥＥ３．
前記第１畳み込みニューラルネットワークは、前記Ｎ個のチャネルにおける前方リシェープコードワードへの前記入力イメージ内の入力コードワードの非線形マッピングを含む、
ＥＥＥ２に記載の方法。

【0253】

ＥＥＥ４．
前記非リシェーピング符号化動作は、オプティカルフロー分析、動きベクトル符号化、動きベクトル復号化、動きベクトル量子化、動き補償、残差符号化、残差復号化、又は残差量子化、のうちの１つ以上を含む、
ＥＥＥ１乃至３のいずれかに記載の方法。

【0254】

ＥＥＥ５．
前記入力領域は、ＲＧＢ色空間、ＹＵＶ色空間、ＩＰＴ色空間、又は他の異なる色空間、のうちの１つである色空間に対応する、
ＥＥＥ１乃至４のいずれかに記載の方法。

【0255】

ＥＥＥ６．
前記前方リシェーピングは、前記非リシェーピング符号化動作の前に実行されるループ外イメージ処理動作として実行される、
ＥＥＥ１乃至５のいずれかに記載の方法。

【0256】

ＥＥＥ７．
前記前方リシェーピングは、前記非リシェーピング符号化動作を含む全体的なループ内イメージ処理動作の一部として実行される、
ＥＥＥ１乃至５のいずれかに記載の方法。

【0257】

ＥＥＥ８．
前記前方リシェープイメージのイメージメタデータ部分は、前記符号化ビデオ信号によって運ばれるイメージメタデータの一部であり、
前記イメージメタデータ部分は、前記前方リシェーピングのための前方リシェーピングパラメータ、又は逆リシェーピングのための後方リシェーピングパラメータ、のうちの１つ以上を含む、
ＥＥＥ１乃至７のいずれかに記載の方法。

【0258】

ＥＥＥ９．
前記イメージメタデータ部分は、前記前方リシェーピング又は前記逆リシェーピングのうちの一方のためのリシェーピングマッピングを明示的に指定するリシェーピングパラメータを含む、
ＥＥＥ８に記載の方法。

【0259】

ＥＥＥ１０．
リシェーピングマッピングを明示的に指定する前記リシェーピングパラメータは、ＭＬベースのリシェーピングマッピング予測方法、又は非ＭＬベースのリシェーピングマッピング生成方法、のうちの１つによって生成される、
ＥＥＥ９に記載の方法。

【0260】

ＥＥＥ１１．
前記イメージメタデータ部分は、大域的マッピング、又はイメージ適応マッピング、のうちの１つとして前記前方リシェーピングを特定するリシェーピングパラメータを含む、
ＥＥＥ１乃至１０のいずれかに記載の方法。

【0261】

ＥＥＥ１２．
前記前方リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、前記ニューラルネットワークのバイアス及び重みは前記受け手デバイスへシグナリングされない、
ＥＥＥ１乃至１１のいずれかに記載の方法。

【0262】

ＥＥＥ１３．
前記前方リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、前記ニューラルネットワークのバイアス及び重みの少なくとも１つは前記受け手デバイスへシグナリングされる、
ＥＥＥ１乃至１２のいずれかに記載の方法。

【0263】

ＥＥＥ１４．
リシェープイメージ領域で表現される前方リシェープイメージを符号化ビデオ信号から復号することであり、前記前方リシェープイメージは、入力イメージ領域で表現される入力イメージを前方リシェーピングすることによって上流デバイスによって生成されたものである、ことと、
再構成イメージ領域で表現される再構成イメージを生成するよう前記前方リシェープイメージに関連した非リシェーピング復号化動作とともに前記前方リシェープイメージに対して逆リシェーピングを実行することであり、前記逆リシェーピング及び前記前方リシェーピングはリシェーピング動作ペアを形成し、前記非リシェーピング復号化動作の少なくとも１つは、先行する訓練段階で１つ以上の訓練データセット内の訓練イメージにより前もって訓練されている機械学習（ＭＬ）モデルを用いて実施される、ことと、
前記再構成イメージから導出された表示イメージをイメージディスプレイでレンダリングさせることと
を有する方法。

【0264】

ＥＥＥ１５．
前記逆リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、前記ニューラルネットワークのバイアス及び重みは前記受け手デバイスへシグナリングされない、
ＥＥＥ１４に記載の方法。

【0265】

ＥＥＥ１６．
前記逆リシェーピングは、１つ以上の訓練データセット内の訓練イメージにより前もって訓練されているニューラルネットワークのバイアス及び重みにより具現化された暗黙的なリシェーピングマッピングを用いて実行され、前記ニューラルネットワークのバイアス及び重みの少なくとも１つは前記受け手デバイスへシグナリングされる、
ＥＥＥ１４又は１５に記載の方法。

【0266】

ＥＥＥ１７．
前記逆リシェーピングは、イメージメタデータの一部として前記符号化ビデオ信号で運ばれる前記前方リシェープイメージのイメージメタデータ部分内でシグナリングされるリシェーピングマッピングを用いて実行される、
ＥＥＥ１４又は１５に記載の方法。

【0267】

ＥＥＥ１８．
前記非リシェーピング符号化動作の少なくとも１つは、前記リシェープイメージ領域で表現される訓練イメージにより前もって訓練された機械学習（ＭＬ）モデルにより実施される、
ＥＥＥ１乃至１７のいずれかに記載の方法。

【0268】

ＥＥＥ１９．
前記ループ内動作は、符号化及び／又は復号化動作の一部として実行される、
ＥＥＥ７に記載の方法。

【0269】

ＥＥＥ２０．
プロセッサを有し、ＥＥＥ１乃至１９のいずれかに記載の方法を実行するよう構成される装置。

【0270】

ＥＥＥ２１．
コンピュータ実行可能命令を記憶し、
前記コンピュータ実行可能命令は、１つ以上のプロセッサで実行される場合に、前記１つ以上のプロセッサに、ＥＥＥ１乃至１９いずれかに記載の方法を実行させる、
非一時的なコンピュータ可読記憶媒体。

【0271】

［関連出願への相互参照］
本願は、２０２１年８月３０日に出願された欧州特許出願第２１１９３７９０．９号及び２０２１年８月３０日に出願された米国特許仮出願第６３／２３８５２９号に対する優先権を主張するものである。これらの出願の夫々は、それらの全文を参照により本願に援用される。