特許7618820 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 華為技術有限公司の特許一覧

特許7618820スケーラブルな符号化及び復号方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
2
3
4
5
6
7A
7B
7C
7D
8A
8B
9A
9B
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-01-10

(45)【発行日】2025-01-21

(54)【発明の名称】スケーラブルな符号化及び復号方法及び装置

(51)【国際特許分類】

H04N 19/115 20140101AFI20250114BHJP

H04N 19/192 20140101ALI20250114BHJP

【ＦＩ】

H04N19/115

H04N19/192

【請求項の数】 43

(21)【出願番号】P 2023543103

(86)(22)【出願日】2022-01-19

(65)【公表番号】

(43)【公表日】2024-01-26

(86)【国際出願番号】 CN2022072627

(87)【国際公開番号】W WO2022156688

(87)【国際公開日】2022-07-28

【審査請求日】2023-08-22

(31)【優先権主張番号】202110071775.8

(32)【優先日】2021-01-19

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】503433420

【氏名又は名称】華為技術有限公司

【氏名又は名称原語表記】ＨＵＡＷＥＩＴＥＣＨＮＯＬＯＧＩＥＳＣＯ．，ＬＴＤ．

【住所又は居所原語表記】ＨｕａｗｅｉＡｄｍｉｎｉｓｔｒａｔｉｏｎＢｕｉｌｄｉｎｇ，Ｂａｎｔｉａｎ，ＬｏｎｇｇａｎｇＤｉｓｔｒｉｃｔ，Ｓｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８１２９，Ｐ．Ｒ．Ｃｈｉｎａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】マオ，ジュエ

(72)【発明者】

【氏名】ヤン，ハイタオ

(72)【発明者】

【氏名】ワン，ジン

(72)【発明者】

【氏名】ツォイ，ゼ

【審査官】田中純一

(56)【参考文献】

【文献】国際公開第２０２０／２３８６０３（ＷＯ，Ａ１）

【文献】特表２０２１－５３５６８９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２１／０２６６５６５（ＵＳ，Ａ１）

【文献】特表２０１９－５１２９３８（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１７／０２６４９０２（ＵＳ，Ａ１）

【文献】特開平０８－０７９７４８（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ７／１２

Ｈ０４Ｎ１９／００－１９／９８

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

ビデオ信号符号化方法であって、
ビデオ信号の第１信号成分の制御信号を前記第１信号成分の第１特徴マップに適用して、前記第１信号成分の第２特徴マップを取得するステップであり、前記第１信号成分の前記制御信号は学習を通じて取得される、ステップと、
前記ビデオ信号の第２信号成分の制御信号を前記第２信号成分の第１特徴マップに適用して、前記第２信号成分の第２特徴マップを取得するステップであり、前記第２信号成分の前記制御信号は学習を通じて取得される、ステップと、
前記第１信号成分の前記第２特徴マップと前記第２信号成分の前記第２特徴マップとに基づいて、前記ビデオ信号のビットストリームを取得するステップと、
を有する方法。

【請求項2】

当該方法は更に、
前記第１信号成分の品質係数に基づいて、Ｎ個の候補第１制御信号から前記第１信号成分の前記制御信号を取得するステップであり、Ｎは１より大きい整数である、ステップと、
前記第２信号成分の品質係数に基づいて、Ｍ個の候補第２制御信号から前記第２信号成分の前記制御信号を取得するステップであり、Ｍは１より大きい整数である、ステップと、
を有する、請求項１に記載の方法。

【請求項3】

前記第１信号成分の前記第２特徴マップと前記第２信号成分の前記第２特徴マップとに基づいて、前記ビデオ信号のビットストリームを前記取得するステップは、
前記第１信号成分の前記第２特徴マップと、前記第２信号成分の前記第２特徴マップと、に対してエントロピー符号化を実行して、前記ビデオ信号の前記ビットストリームを取得すること、
前記第１信号成分の前記第２特徴マップと、ニューラルネットワークによって処理された前記第２信号成分の前記第２特徴マップと、に対してエントロピー符号化を実行して、前記ビデオ信号の前記ビットストリームを取得すること、
ニューラルネットワークによって処理された前記第１信号成分の前記第２特徴マップと、前記第２信号成分の前記第２特徴マップと、に対してエントロピー符号化を実行して、前記ビデオ信号の前記ビットストリームを取得すること、又は
ニューラルネットワークによって処理された前記第１信号成分の前記第２特徴マップと、ニューラルネットワークによって処理された前記第２信号成分の前記第２特徴マップと、に対してエントロピー符号化を実行して、前記ビデオ信号の前記ビットストリームを取得すること、
を有する、請求項１又は２に記載の方法。

【請求項4】

前記第１信号成分の前記第２特徴マップと前記第２信号成分の前記第２特徴マップとに基づいて、前記ビデオ信号のビットストリームを前記取得するステップは、
前記第１信号成分の前記第２特徴マップと、前記第２信号成分の前記第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、前記ビデオ信号の前記ビットストリームを取得すること、
前記第１信号成分の前記第２特徴マップと、ニューラルネットワークによって処理された前記第２信号成分の前記第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、前記ビデオ信号の前記ビットストリームを取得すること、
ニューラルネットワークによって処理された前記第１信号成分の前記第２特徴マップと、前記第２信号成分の前記第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、前記ビデオ信号の前記ビットストリームを取得すること、又は
ニューラルネットワークによって処理された前記第１信号成分の前記第２特徴マップと、ニューラルネットワークによって処理された前記第２信号成分の前記第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、前記ビデオ信号の前記ビットストリームを取得すること、
を有する、請求項１又は２に記載の方法。

【請求項5】

前記第１信号成分はＹ成分であり、前記第２信号成分はＵＶ成分、Ｕ成分、又はＶ成分である、請求項１乃至４のいずれか一項に記載の方法。

【請求項6】

前記第２信号成分が前記ＵＶ成分である場合、当該方法は、
学習を通じて、前記Ｙ成分の制御信号行列｛ｑ_ｙ１，ｑ_ｙ２，…，ｑ_ｙｉ，…，ｑ_ｙＮ｝と、前記ＵＶ成分の制御信号行列｛ｑ_ｕｖ１，ｑ_ｕｖ２，…，ｑ_ｕｖｊ，…，ｑ_ｕｖＭ｝とを生成するステップであり、Ｎ及びＭは１より大きい整数である、ステップと、
前記Ｙ成分の品質係数のインデックスｉに基づいて、前記第１信号成分の制御信号ｑ_ｙｉを取得するステップと、
前記ＵＶ成分の品質係数のインデックスｊに基づいて、前記第２信号成分の制御信号ｑ_ｕｖｊを取得するステップと、
を有する、請求項５に記載の方法。

【請求項7】

前記ビデオ信号の前記ビットストリームは、前記Ｙ成分の前記品質係数の前記インデックスｉ及び前記ＵＶ成分の前記品質係数の前記インデックスｊを含む、請求項６に記載の方法。

【請求項8】

前記第２信号成分が前記ＵＶ成分である場合、当該方法は、
学習を通じて、前記ビデオ信号の制御信号行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃｉ，…，ｑ_ｃＮ｝を生成するステップであり、ｃは２であって前記Ｙ成分及び前記ＵＶ成分を表し、Ｎは１より大きい整数である、ステップと、
前記ビデオ信号の品質係数のインデックスｉに基づいて、前記第１信号成分及び前記第２信号成分を有する制御信号ｑ_ｃｉを取得するステップと、
を有する、請求項５に記載の方法。

【請求項9】

前記ビデオ信号の前記ビットストリームは、前記ビデオ信号の前記品質係数の前記インデックスｉを含む、請求項８に記載の方法。

【請求項10】

前記第２信号成分が前記ＵＶ成分である場合、当該方法は、
前記Ｙ成分の品質係数を全結合型ネットワークへの入力として使用し、前記Ｙ成分の制御信号を出力するステップと、
前記ＵＶ成分の品質係数を前記全結合型ネットワークへの入力として使用し、前記ＵＶ成分の制御信号を出力するステップと、
を有する、請求項５に記載の方法。

【請求項11】

前記ビデオ信号の前記ビットストリームは、前記Ｙ成分の前記品質係数及び前記ＵＶ成分の前記品質係数を含む、請求項１０に記載の方法。

【請求項12】

前記第２信号成分が前記Ｕ成分又は前記Ｖ成分である場合、当該方法は更に、
前記ビデオ信号の第３信号成分の制御信号を前記第３信号成分の第１特徴マップに適用して、前記第３信号成分の第２特徴マップを取得するステップであり、前記第３信号成分の前記制御信号は学習を通じて取得され、前記第２信号成分が前記Ｕ成分である場合、前記第３信号成分は前記Ｖ成分であり、前記第２信号成分が前記Ｖ成分である場合、前記第３信号成分は前記Ｕ成分である、ステップ、
を有する、請求項５に記載の方法。

【請求項13】

当該方法は更に、
学習を通じて、前記Ｙ成分の制御信号行列｛ｑ_ｙ１，ｑ_ｙ２，…，ｑ_ｙｉ，…，ｑ_ｙＮ｝と、前記Ｕ成分の制御信号行列｛ｑ_ｕ１，ｑ_ｕ２，…，ｑ_ｕｊ，…，ｑ_ｕＭ｝と、前記Ｖ成分の制御信号行列｛ｑ_ｖ１，ｑ_ｖ２，…，ｑ_ｖｋ，…，ｑ_ｖＬ｝とを生成するステップであり、Ｎ、Ｍ、及びＬは１より大きい整数である、ステップと、
前記Ｙ成分の品質係数のインデックスｉに基づいて、前記第１信号成分の制御信号ｑ_ｙｉを取得するステップと、
前記Ｕ成分の品質係数のインデックスｊに基づいて、前記第２信号成分の制御信号ｑ_ｕｊを取得するステップと、
前記Ｖ成分の品質係数のインデックスｋに基づいて、前記第３信号成分の制御信号ｑ_ｖｋを取得するステップと、
を有する、請求項１２に記載の方法。

【請求項14】

前記ビデオ信号の前記ビットストリームは、前記Ｙ成分の前記品質係数の前記インデックスｉ、前記Ｕ成分の前記品質係数の前記インデックスｊ、及び前記Ｖ成分の前記品質係数の前記インデックスｋを含む、請求項１３に記載の方法。

【請求項15】

当該方法は更に、
学習を通じて、前記ビデオ信号の制御信号行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃｉ，…，ｑ_ｃＮ｝を生成するステップであり、ｃは３であって前記Ｙ成分、前記Ｕ成分、及び前記Ｖ成分を表し、Ｎは１より大きい整数である、ステップと、
前記ビデオ信号の品質係数のインデックスｉに基づいて、前記第１信号成分、前記第２信号成分、及び前記第３信号成分を有する制御信号ｑ_ｃｉを取得するステップと、
を有する、請求項１２に記載の方法。

【請求項16】

前記ビデオ信号の前記ビットストリームは、前記ビデオ信号の前記品質係数の前記インデックスｉを含む、請求項１５に記載の方法。

【請求項17】

当該方法は更に、
前記Ｙ成分の品質係数を全結合型ネットワークへの入力として使用し、前記Ｙ成分の制御信号を出力するステップと、
前記Ｕ成分の品質係数を前記全結合型ネットワークへの入力として使用し、前記Ｕ成分の制御信号を出力するステップと、
前記Ｖ成分の品質係数を前記全結合型ネットワークへの入力として使用し、前記Ｖ成分の制御信号を出力するステップと、
を有する、請求項１２に記載の方法。

【請求項18】

前記ビデオ信号の前記ビットストリームは、前記Ｙ成分の前記品質係数、前記Ｕ成分の前記品質係数、及び前記Ｖ成分の前記品質係数を含む、請求項１７記載の方法。

【請求項19】

前記制御信号が制御ベクトルを有する場合、当該方法は、
前記第１信号成分の制御ベクトルに前記第１信号成分の前記第１特徴マップを乗算して、前記第１信号成分の前記第２特徴マップを取得するステップと、
前記第２信号成分の制御ベクトルに前記第２信号成分の前記第１特徴マップを乗算して、前記第２信号成分の前記第２特徴マップを取得するステップと、
を有する、請求項１乃至１８のいずれか一項に記載の方法。

【請求項20】

前記制御信号が制御ベクトルとオフセットベクトルとを有する場合、当該方法は、
前記第１信号成分の制御ベクトルに前記第１信号成分の前記第１特徴マップを乗算し、次いで、前記第１信号成分のオフセットベクトルを加算して、前記第１信号成分の前記第２特徴マップを取得するステップと、
前記第２信号成分の制御ベクトルに前記第２信号成分の前記第１特徴マップを乗算し、次いで、前記第２信号成分のオフセットベクトルを加算して、前記第２信号成分の前記第２特徴マップを取得するステップと、
を有する、請求項１乃至１８のいずれか一項に記載の方法。

【請求項21】

前記第１信号成分の前記第１特徴マップは、少なくとも１つの畳み込み層において、及び／又は少なくとも１つの非線形層において、前記第１信号成分を処理することによって取得され、
前記第２信号成分の前記第１特徴マップは、少なくとも１つの畳み込み層において、及び／又は少なくとも１つの非線形層において、前記第２信号成分を処理することによって取得される、
請求項１乃至２０のいずれか一項に記載の方法。

【請求項22】

前記第１信号成分の前記第１特徴マップは、２のダウンサンプリング係数を各々が持つ２つの畳み込み層において、及び２つの非線形層において、前記第１信号成分を処理することによって取得され、
前記第２信号成分の前記第１特徴マップは、ダウンサンプリング処理なしの１つの畳み込み層において、２のダウンサンプリング係数を持つ１つの畳み込み層において、及び２つの非線形層において、前記第２信号成分を処理することによって取得される、
請求項２１に記載の方法。

【請求項23】

ビデオ信号復号方法であって、
ビデオ信号のビットストリームを取得するステップと、
前記ビットストリームに対してエントロピー復号を実行して、前記ビデオ信号の第１信号成分の特徴マップと、前記ビデオ信号の第２信号成分の特徴マップとを取得するステップと、
前記第１信号成分の応答信号と前記第１信号成分の前記特徴マップとに基づいて、前記第１信号成分の再構成マップを取得するステップであり、前記第１信号成分の前記応答信号は学習を通じて取得される、ステップと、
前記第２信号成分の応答信号と前記第２信号成分の前記特徴マップとに基づいて、前記第２信号成分の再構成マップを取得するステップであり、前記第２信号成分の前記応答信号は学習を通じて取得される、ステップと、
前記第１信号成分の前記再構成マップと前記第２信号成分の前記再構成マップとに基づいて、前記ビデオ信号を再構成するステップと、
を有する方法。

【請求項24】

前記ビットストリームは更に、前記第１信号成分の品質係数情報及び前記第２信号成分の品質係数情報を含み、前記第１信号成分の前記品質係数情報は、前記第１信号成分の品質係数、又は前記第１信号成分の前記品質係数のインデックスであり、前記第２信号成分の前記品質係数情報は、前記第２信号成分の品質係数、又は前記第２信号成分の前記品質係数のインデックスであり、当該方法は、
前記第１信号成分の前記品質係数情報に基づいて、前記第１信号成分の前記応答信号を取得するステップと、
前記第２信号成分の前記品質係数情報に基づいて、前記第２信号成分の前記応答信号を取得するステップと、
を有する、請求項２３に記載の方法。

【請求項25】

前記第１信号成分の前記品質係数情報が前記第１信号成分の前記品質係数である場合、前記第１信号成分の前記品質係数の値はＮのうちの１つであり、前記第１信号成分の前記品質係数情報が前記第１信号成分の前記品質係数の前記インデックスである場合、前記第１信号成分の前記品質係数の前記インデックスの値域は０からＮ－１又は１からＮであり、Ｎは１より大きい整数であり、
前記第２信号成分の前記品質係数情報が前記第２信号成分の前記品質係数である場合、前記第２信号成分の前記品質係数の値はＭのうちの１つであり、前記第２信号成分の前記品質係数情報が前記第２信号成分の前記品質係数の前記インデックスである場合、前記第２信号成分の前記品質係数の前記インデックスの値域は０からＭ－１又は１からＭであり、Ｍは１より大きい整数である、
請求項２４に記載の方法。

【請求項26】

前記ビットストリームはジョイント特徴マップを含み、当該方法は、
前記ジョイント特徴マップに対してエントロピー復号を実行し、ニューラルネットワークによる処理を通じて、前記第１信号成分の前記特徴マップ及び前記第２信号成分の前記特徴マップを取得するステップ、
を有する、請求項２３乃至２５のいずれか一項に記載の方法。

【請求項27】

前記第１信号成分はＹ成分であり、前記第２信号成分はＵＶ成分、Ｕ成分、又はＶ成分である、請求項２３乃至２６のいずれか一項に記載の方法。

【請求項28】

前記第２信号成分が前記ＵＶ成分である場合において、前記ビットストリームが前記Ｙ成分の品質係数のインデックスｉ及び前記ＵＶ成分の品質係数のインデックスｊを含む場合、当該方法は、
学習を通じて、前記第１信号成分の応答信号行列｛ｇ_ｙ１，ｇ_ｙ２，…，ｇ_ｙｉ，…，ｇ_ｙＮ｝と、前記第２信号成分の応答信号行列｛ｇ_ｕｖ１，ｇ_ｕｖ２，…，ｇ_ｕｖｊ，…，ｇ_ｕｖＭ｝とを生成するステップであり、Ｎ及びＭは１より大きい整数である、ステップと、
前記Ｙ成分の前記品質係数の前記インデックスｉに基づいて、前記第１信号成分の応答信号ｇ_ｙｉを取得するステップと、
前記ＵＶ成分の前記品質係数の前記インデックスｊに基づいて、前記第２信号成分の応答信号ｇ_ｕｖｊを取得するステップと、
を有する、請求項２７に記載の方法。

【請求項29】

前記第２信号成分が前記ＵＶ成分である場合において、前記ビットストリームが前記ビデオ信号の品質係数のインデックスｉを含む場合、当該方法は、
学習を通じて、前記ビデオ信号の応答信号行列｛ｇ_ｃ１，ｇ_ｃ２，…，ｇ_ｃｉ，…，ｇ_ｃＮ｝を生成するステップであり、ｃは２であって前記Ｙ成分及び前記ＵＶ成分を表し、Ｎは１より大きい整数である、ステップと、
前記ビデオ信号の前記品質係数の前記インデックスｉに基づいて、前記第１信号成分及び前記第２信号成分を有する応答信号ｇ_ｃｉを取得するステップと、
を有する、請求項２７に記載の方法。

【請求項30】

前記第２信号成分が前記ＵＶ成分である場合において、前記ビットストリームが前記第１信号成分の品質係数及び前記第２信号成分の品質係数を含む場合、当該方法は、
前記Ｙ成分の前記品質係数を全結合型ネットワークへの入力として使用し、前記Ｙ成分の応答信号を出力するステップと、
前記ＵＶ成分の前記品質係数を前記全結合型ネットワークへの入力として使用し、前記ＵＶ成分の応答信号を出力するステップと、
を有する、請求項２７に記載の方法。

【請求項31】

前記第２信号成分が前記Ｕ成分又は前記Ｖ成分である場合、当該方法は更に、
前記ビットストリームに対してエントロピー復号を実行して、前記ビデオ信号の第３信号成分の特徴マップを取得するステップと、
前記第３信号成分の応答信号と前記第３信号成分の前記特徴マップとに基づいて、前記第３信号成分の再構成マップを取得するステップであり、前記第３信号成分の前記応答信号は学習を通じて取得され、前記第２信号成分が前記Ｕ成分である場合、前記第３信号成分は前記Ｖ成分であり、前記第２信号成分が前記Ｖ成分である場合、前記第３信号成分は前記Ｕ成分である、ステップと、
を有し、
前記ビデオ信号を前記再構成するステップは、
前記第１信号成分の前記再構成マップと、前記第２信号成分の前記再構成マップと、前記第３信号成分の前記再構成マップとに基づいて、前記ビデオ信号を再構成すること、
を有する、
請求項２７に記載の方法。

【請求項32】

前記ビットストリームは更に、前記第３信号成分の品質係数情報を含み、前記第３信号成分の前記品質係数情報は、前記第３信号成分の品質係数、又は前記第３信号成分の前記品質係数のインデックスであり、前記第３信号成分の前記品質係数の値はＬのうちの１つであり、前記第３信号成分の前記品質係数の前記インデックスの値域は０からＬ－１又は１からＬであり、Ｌは１より大きい整数であり、当該方法は更に、
前記第３信号成分の前記品質係数情報に基づいて、前記第３信号成分の前記応答信号を取得するステップ、
を有する、請求項３１に記載の方法。

【請求項33】

前記ビットストリームが、前記Ｙ成分の品質係数のインデックスｉ、前記Ｕ成分の品質係数のインデックスｊ、及び前記Ｖ成分の品質係数のインデックスｋを含む場合、当該方法は、
学習を通じて、前記第１信号成分の応答信号行列｛ｇ_ｙ１，ｇ_ｙ２，…，ｇ_ｙｉ，…，ｇ_ｙＮ｝と、前記第２信号成分の応答信号行列｛ｇ_ｕ１，ｇ_ｕ２，…，ｇ_ｕｊ，…，ｇ_ｕＭ｝と、前記第３信号成分の応答信号行列｛ｇ_ｖ１，ｇ_ｖ２，…，ｇ_ｖｋ，…，ｇ_ｖＬ｝とを生成するステップであり、Ｎ、Ｍ、及びＬは１より大きい整数である、ステップと、
前記Ｙ成分の前記品質係数の前記インデックスｉに基づいて、前記第１信号成分の応答信号ｇ_ｙｉを取得するステップと、
前記Ｕ成分の前記品質係数の前記インデックスｊに基づいて、前記第２信号成分の応答信号ｇ_ｕｊを取得するステップと、
前記Ｖ成分の前記品質係数の前記インデックスｋに基づいて、前記第３信号成分の応答信号ｇ_ｖｋを取得するステップと、
を有する、請求項３２に記載の方法。

【請求項34】

前記ビットストリームが前記ビデオ信号の品質係数のインデックスｉを含む場合、当該方法は、
学習を通じて、前記ビデオ信号の応答信号行列｛ｇ_ｃ１，ｇ_ｃ２，…，ｇ_ｃｉ，…，ｇ_ｃＮ｝を生成するステップであり、ｃは３であって前記Ｙ成分、前記Ｕ成分、及び前記Ｖ成分を表し、Ｎは１より大きい整数である、ステップと、
前記ビデオ信号の前記品質係数の前記インデックスｉに基づいて、前記第１信号成分、前記第２信号成分、及び前記第３信号成分を有する応答信号ｇ_ｃｉを取得するステップと、
を有する、請求項３１に記載の方法。

【請求項35】

前記ビットストリームが前記第１信号成分の品質係数、前記第２信号成分の品質係数、及び前記第３信号成分の品質係数を含む場合、当該方法は、
前記Ｙ成分の前記品質係数を全結合型ネットワークへの入力として使用し、前記Ｙ成分の応答信号を出力するステップと、
前記Ｕ成分の前記品質係数を前記全結合型ネットワークへの入力として使用し、前記Ｕ成分の応答信号を出力するステップと、
前記Ｖ成分の前記品質係数を前記全結合型ネットワークへの入力として使用し、前記Ｖ成分の応答信号を出力するステップと、
を有する、請求項３１に記載の方法。

【請求項36】

前記応答信号が応答ベクトルを有する場合、前記第１信号成分の応答信号と前記第１信号成分の前記特徴マップとに基づいて、前記第１信号成分の再構成マップを前記取得するステップは、
前記第１信号成分の応答ベクトルに前記第１信号成分の前記特徴マップを乗算して、前記第１信号成分の前記再構成マップを取得すること、又は、前記第１信号成分の前記応答ベクトルに前記第１信号成分の前記特徴マップを乗算し、次いで、ニューラルネットワークによる処理を通じて、前記第１信号成分の前記再構成マップを取得すること、
を有し、
前記第２信号成分の応答信号と前記第２信号成分の前記特徴マップとに基づいて、前記第２信号成分の再構成マップを前記取得するステップは、
前記第２信号成分の応答ベクトルに前記第２信号成分の前記特徴マップを乗算して、前記第２信号成分の前記再構成マップを取得すること、又は、前記第２信号成分の前記応答ベクトルに前記第２信号成分の前記特徴マップを乗算し、次いで、ニューラルネットワークによる処理を通じて、前記第２信号成分の前記再構成マップを取得すること、
を有する、
請求項２３乃至３５のいずれか一項に記載の方法。

【請求項37】

前記応答信号が応答ベクトルとオフセットベクトルとを有する場合、前記第１信号成分の応答信号と前記第１信号成分の前記特徴マップとに基づいて、前記第１信号成分の再構成マップを前記取得するステップは、
前記第１信号成分の応答ベクトルに前記第１信号成分の前記特徴マップを乗算し、次いで、前記第１信号成分のオフセットベクトルを加算して、前記第１信号成分の前記再構成マップを取得すること、又は、前記第１信号成分の前記応答ベクトルに前記第１信号成分の前記特徴マップを乗算し、前記第１信号成分の前記オフセットベクトルを加算し、次いで、ニューラルネットワークによる処理を通じて、前記第１信号成分の前記再構成マップを取得すること、
を有し、
前記第２信号成分の応答信号と前記第２信号成分の前記特徴マップとに基づいて、前記第２信号成分の再構成マップを前記取得するステップは、
前記第２信号成分の応答ベクトルに前記第２信号成分の前記特徴マップを乗算し、次いで、前記第２信号成分のオフセットベクトルを加算して、前記第２信号成分の前記再構成マップを取得すること、又は、前記第２信号成分の前記応答ベクトルに前記第２信号成分の前記特徴マップを乗算し、前記第２信号成分の前記オフセットベクトルを加算し、次いで、ニューラルネットワークによる処理を通じて、前記第２信号成分の前記再構成マップを取得すること、
を有する、
請求項２３乃至３５のいずれか一項に記載の方法。

【請求項38】

請求項１乃至２２のいずれか一項に記載の方法を実行するように構成された処理回路を有するエンコーダ。

【請求項39】

請求項２３乃至３７のいずれか一項に記載の方法を実行するように構成された処理回路を有するデコーダ。

【請求項40】

エンコーダであって、
１つ以上のプロセッサと、
前記プロセッサに結合され、前記プロセッサによる実行のためのプログラムを格納した、非一時的コンピュータ読み取り可能記憶媒体であり、前記プログラムは、前記プロセッサによって実行されるときに、請求項１乃至２２のいずれか一項に記載の方法を実行するように前記エンコーダを構成する、非一時的コンピュータ読み取り可能記憶媒体と、
を有するエンコーダ。

【請求項41】

デコーダであって、
１つ以上のプロセッサと、
前記プロセッサに結合され、前記プロセッサによる実行のためのプログラムを格納した、非一時的コンピュータ読み取り可能記憶媒体であり、前記プログラムは、前記プロセッサによって実行されるときに、請求項２３乃至３７のいずれか一項に記載の方法を実行するように前記デコーダを構成する、非一時的コンピュータ読み取り可能記憶媒体と、
を有するデコーダ。

【請求項42】

プログラムコードを有した非一時的コンピュータ読み取り可能記憶媒体であって、前記プログラムコードがコンピュータデバイスによって実行されるときに、前記プログラムコードを用いて請求項１乃至２２のいずれか一項に記載の方法が実行される、非一時的コンピュータ読み取り可能記憶媒体。

【請求項43】

プログラムコードを有した非一時的コンピュータ読み取り可能記憶媒体であって、前記プログラムコードがコンピュータデバイスによって実行されるときに、前記プログラムコードを用いて請求項２３乃至３７のいずれか一項に記載の方法が実行される、非一時的コンピュータ読み取り可能記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、人工知能（ＡＩ）ベースのビデオ又はピクチャ圧縮技術の分野に関し、特に、スケーラブルな符号化及び復号方法及び装置に関する。

【背景技術】

【0002】

ビデオ圧縮符号化及び復号技術は、例えば、放送デジタルテレビジョン、インターネット及びモバイルネットワーク上でのビデオ伝送、例えばビデオチャット及びビデオ会議などのリアルタイム会話アプリケーション、ＤＶＤ及びＢｌｕ－ｒａｙディスク、ビデオコンテンツ収集・編集システム、並びにセキュリティ用途のビデオカメラといった、マルチメディアサービス、放送、ビデオ通信、ストレージ、及びこれらに類するものの分野において広く使用されている。

【0003】

短い映像であってもそれを描写するために大量のビデオデータが必要とされる。これは、限られた帯域幅容量を持つネットワーク上でデータがストリーミングされる又はその他の方法で通信されるときに困難をもたらし得る。従って、ビデオデータは一般に、今日の遠隔通信ネットワーク上で通信される前に圧縮される。ビデオのサイズはまた、メモリリソースが限られ得るために、ビデオがストレージ装置に格納されるときにも懸念となり得る。ビデオ圧縮装置は、しばしば、伝送又は記憶に先立って、ソースにてソフトウェア及び／又はハードウェアを用いてビデオデータを符号化して、デジタルビデオピクチャを表すのに必要なデータの量を減少させる。そして、圧縮されたデータが、送り先でビデオ解凍装置によって受信される。限られたネットワークリソースと、増加の一途をたどるいっそう高いビデオ品質の要求とに伴い、ピクチャ品質の犠牲を殆ど乃至は全く伴わずに圧縮比を向上させるために、圧縮及び解凍技術を改善する必要がある。

【0004】

近年、エンドツーエンドピクチャ符号化及び復号技術の分野にディープラーニングを適用することが徐々にトレンドとなっている。ハイブリッドアーキテクチャを使用するビデオエンコーダ及びビデオデコーダでは、特徴マップに対してエントロピー符号化が実行されるときに、特徴値がゼロ平均ガウス分布を満たすと仮定され、超事前分布（hyperprior）構造を用いることによってガウス分布の分散を推定して、特徴値の確率分布モデルを取得し、そして、算術符号化モジュールが、推定された確率分布に基づいて、特徴マップに対してエントロピー符号化を実行する。デコーダサイドが特徴マップの確率分布を正確に推定することを可能にするために、超事前分布構造内のモジュールが、推定された確率分布の隠れ変数を抽出し、該隠れ変数が、量子化及び算術符号化を通じて副次的な情報として、デコーダサイドに伝達される。このメカニズムにおいて、ＹＵＶフォーマットの入力ピクチャでは、Ｙ、Ｕ、及びＶ成分のビットレートの比が固定されている。しかしながら、ピクチャはコンテンツにおいて異なる色特性を持つので、Ｙ、Ｕ、及びＶ成分のビットレートの固定された比は、符号化されたピクチャにおいて大きな歪みを生じさせる。

【発明の概要】

【0005】

この出願は、異なる色特性を持つピクチャコンテンツに適応するためのスケーラブルな符号化及び復号方法及び装置を提供する。

【0006】

この出願において、スケーラブルな符号化及び復号は、ビデオ信号が第１信号成分及び第２信号成分に分割されること、又はビデオ信号が第１信号成分、第２信号成分、及び第３信号成分に分割されることを示す。第１信号成分はＹ成分であり、第２信号成分はＵＶ成分、Ｕ成分、又はＶ成分である。第２信号成分がＵ成分である場合、第３信号成分はＶ成分である。代わりに、第２信号成分がＶ成分である場合、第３信号成分はＵ成分である。

【0007】

第１態様によれば、この出願は符号化方法を提供する。当該符号化方法は、ビデオ信号の第１信号成分の制御信号を第１信号成分の第１特徴マップに適用して、第１信号成分の第２特徴マップを取得し、第１信号成分の制御信号は学習を通じて取得され、ビデオ信号の第２信号成分の制御信号を第２信号成分の第１特徴マップに適用して、第２信号成分の第２特徴マップを取得し、第２信号成分の制御信号は学習を通じて取得され、第１信号成分の第２特徴マップと第２信号成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得する、ことを含む。

【0008】

取り得る一実装において、第１信号成分の第２特徴マップと第２信号成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得することは、第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップとに対して、第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップとに対して、ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップとに対して、又は、ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップとに対して、エントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、を含む。

【0009】

取り得る一実装において、第１信号成分の第２特徴マップと第２信号成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得することは、第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、又は、ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、を含む。

【0010】

取り得る一実装において、当該方法は、第１信号成分の品質係数に基づいて、Ｎ個の候補第１制御信号から第１信号成分の制御信号を取得し、Ｎは１より大きい整数であり、第２信号成分の品質係数に基づいて、Ｍ個の候補第２制御信号から第２信号成分の制御信号を取得し、Ｍは１より大きい整数である、ことを含む。ＮとＭは等しくてもよいし、等しくなくてもよい。これはこの出願において限定されることではない。

【0011】

取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵＶ成分である場合、当該方法は、学習を通じて、Ｙ成分の制御信号行列｛ｑ_ｙ１，ｑ_ｙ２，…，ｑ_ｙｉ，…，ｑ_ｙＮ｝と、ＵＶ成分の制御信号行列｛ｑ_ｕｖ１，ｑ_ｕｖ２，…，ｑ_ｕｖｊ，…，ｑ_ｕｖＭ｝とを生成し、Ｎ及びＭは１より大きい整数であり、Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の制御信号ｑ_ｙｉを取得し、ＵＶ成分の品質係数のインデックスｊに基づいて、第２信号成分の制御信号ｑ_ｕｖｊを取得する、ことを含む。この場合、ビデオ信号のビットストリームは、Ｙ成分の品質係数のインデックスｉ及びＵＶ成分の品質係数のインデックスｊを含む。

【0012】

あるいは、他の取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵＶ成分である場合、当該方法は、学習を通じて、ビデオ信号の制御信号行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃｉ，…，ｑ_ｃＮ｝を生成し、ｃは２であってＹ成分及びＵＶ成分を表し、Ｎは１より大きい整数であり、ビデオ信号の品質係数のインデックスｉに基づいて、第１信号成分及び第２信号成分を含む制御信号ｑ_ｃｉを取得する、ことを含む。この場合、ビデオ信号のビットストリームは、ビデオ信号の品質係数のインデックスｉを含む。

【0013】

あるいは、全結合型ネットワークを用いることによって実装される更なる他の取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵＶ成分である場合、当該方法は、Ｙ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｙ成分の制御信号を出力し、ＵＶ成分の品質係数を全結合型ネットワークへの入力として使用し、ＵＶ成分の制御信号を出力する、ことを含む。この場合、ビデオ信号のビットストリームは、Ｙ成分の品質係数及びＵＶ成分の品質係数を含む。

【0014】

取り得る一実装において、第２信号成分がＵ成分又はＶ成分である場合、当該方法は更に、ビデオ信号の第３信号成分の制御信号を第３信号成分の第１特徴マップに適用して、第３信号成分の第２特徴マップを取得することを含む。第３信号成分の制御信号は学習を通じて取得される。第２信号成分がＵ成分である場合、第３信号成分はＶ成分である。代わりに、第２信号成分がＶ成分である場合、第３信号成分はＵ成分である。

【0015】

取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵ成分である場合、第３信号成分はＶ成分であり、当該方法は更に、学習を通じて、Ｙ成分の制御信号行列｛ｑ_ｙ１，ｑ_ｙ２，…，ｑ_ｙｉ，…，ｑ_ｙＮ｝と、Ｕ成分の制御信号行列｛ｑ_ｕ１，ｑ_ｕ２，…，ｑ_ｕｊ，…，ｑ_ｕＭ｝と、Ｖ成分の制御信号行列｛ｑ_ｖ１，ｑ_ｖ２，…，ｑ_ｖｋ，…，ｑ_ｖＬ｝とを生成し、Ｎ、Ｍ、及びＬは１より大きい整数であり、Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の制御信号ｑ_ｙｉを取得し、Ｕ成分の品質係数のインデックスｊに基づいて、第２信号成分の制御信号ｑ_ｕｊを取得し、Ｖ成分の品質係数のインデックスｋに基づいて、第３信号成分の制御信号ｑ_ｖｋを取得する、ことを含む。この場合、ビデオ信号のビットストリームは、Ｙ成分の品質係数のインデックスｉ、Ｕ成分の品質係数のインデックスｊ、及びＶ成分の品質係数のインデックスｋを含む。

【0016】

あるいは、他の取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵ成分である場合、第３信号成分はＶ成分であり、当該方法は更に、学習を通じて、ビデオ信号の制御信号行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃｉ，…，ｑ_ｃＮ｝を生成し、ｃは３であってＹ成分、Ｕ成分、及びＶ成分を表し、Ｎは１より大きい整数であり、ビデオ信号の品質係数のインデックスｉに基づいて、第１信号成分、第２信号成分、及び第３信号成分を含む制御信号ｑ_ｃｉを取得する、ことを含む。この場合、ビデオ信号のビットストリームは、ビデオ信号の品質係数のインデックスｉを含む。

【0017】

あるいは、全結合型ネットワークを用いることによって実装される更なる他の取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵ成分である場合、第３信号成分はＶ成分であり、当該方法は更に、Ｙ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｙ成分の制御信号を出力し、Ｕ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｕ成分の制御信号を出力し、Ｖ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｖ成分の制御信号を出力する、ことを含む。この場合、ビデオ信号のビットストリームは、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数を含む。

【0018】

第２態様によれば、この出願は復号方法を提供する。当該復号方法は、ビデオ信号のビットストリームを取得し、ビットストリームに対してエントロピー復号を実行して、ビデオ信号の第１信号成分の特徴マップと、ビデオ信号の第２信号成分の特徴マップとを取得し、第１信号成分の応答信号と第１信号成分の特徴マップとに基づいて、第１信号成分の再構成マップを取得し、第１信号成分の応答信号は学習を通じて取得され、第２信号成分の応答信号と第２信号成分の特徴マップとに基づいて、第２信号成分の再構成マップを取得し、第２信号成分の応答信号は学習を通じて取得され、第１信号成分の再構成マップと第２信号成分の再構成マップとに基づいて、ビデオ信号を再構成する、ことを含む。

【0019】

なお、この出願において、デコーダサイドでの応答信号はエンコーダサイドでの制御信号と同様である。区別を容易にするために、デコーダサイドでの信号を応答信号として参照し、エンコーダサイドでの信号を制御信号として参照する。デコーダサイドでの応答信号は、応答ベクトルを含み、あるいは、応答ベクトルとオフセットベクトルとを含む。

【0020】

取り得る一実装において、ビットストリームは更に、第１信号成分の品質係数情報及び第２信号成分の品質係数情報を含む。第１信号成分の品質係数情報は、第１信号成分の品質係数、又は第１信号成分の品質係数のインデックスである。第２信号成分の品質係数情報は、第２信号成分の品質係数、又は第２信号成分の品質係数のインデックスである。当該方法は更に、第１信号成分の品質係数情報に基づいて、第１信号成分の応答信号を取得し、第２信号成分の品質係数情報に基づいて、第２信号成分の応答信号を取得する、ことを含む。

【0021】

第１信号成分の品質係数情報が第１信号成分の品質係数である場合、第１信号成分の品質係数の値はＮのうちの１つである。あるいは、第１信号成分の品質係数情報が第１信号成分の品質係数のインデックスである場合、第１信号成分の品質係数のインデックスの値域は０からＮ－１又は１からＮであり、Ｎは１より大きい整数である。

【0022】

第２信号成分の品質係数情報が第２信号成分の品質係数である場合、第２信号成分の品質係数の値はＭのうちの１つである。あるいは、第２信号成分の品質係数情報が第２信号成分の品質係数のインデックスである場合、第２信号成分の品質係数のインデックスの値域は０からＭ－１又は１からＭであり、Ｍは１より大きい整数である。

【0023】

取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵＶ成分である場合において、ビットストリームがＹ成分の品質係数のインデックスｉ及びＵＶ成分の品質係数のインデックスｊを含む場合、当該方法は、学習を通じて、第１信号成分の応答信号行列｛ｇ_ｙ１，ｇ_ｙ２，…，ｇ_ｙｉ，…，ｇ_ｙＮ｝と、第２信号成分の応答信号行列｛ｇ_ｕｖ１，ｇ_ｕｖ２，…，ｇ_ｕｖｊ，…，ｇ_ｕｖＭ｝とを生成し、Ｎ及びＭは１より大きい整数であり、Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の応答信号ｇ_ｙｉを取得し、ＵＶ成分の品質係数のインデックスｊに基づいて、第２信号成分の応答信号ｇ_ｕｖｊを取得する、ことを含む。

【0024】

あるいは、他の取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵＶ成分である場合において、ビットストリームがビデオ信号の品質係数のインデックスｉを含む場合、当該方法は、学習を通じて、ビデオ信号の応答信号行列｛ｇ_ｃ１，ｇ_ｃ２，…，ｇ_ｃｉ，…，ｇ_ｃＮ｝を生成し、ｃは２であってＹ成分及びＵＶ成分を表し、Ｎは１より大きい整数であり、ビデオ信号の品質係数のインデックスｉに基づいて、第１信号成分及び第２信号成分を含む応答信号ｇ_ｃｉを取得する、ことを含む。

【0025】

あるいは、全結合型ネットワークを用いることによって実装される更なる他の取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵ成分である場合において、ビットストリームが第１信号成分の品質係数及び第２信号成分の品質係数を含む場合、当該方法は、Ｙ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｙ成分の応答信号を出力し、ＵＶ成分の品質係数を全結合型ネットワークへの入力として使用し、ＵＶ成分の応答信号を出力する、ことを含む。

【0026】

取り得る一実装において、第２信号成分がＵ成分又はＶ成分である場合、当該方法は更に、ビットストリームに対してエントロピー復号を実行して、ビデオ信号の第３信号成分の特徴マップを取得し、第３信号成分の応答信号と第３信号成分の特徴マップとに基づいて、第３信号成分の再構成マップを取得する、ことを含む。第３信号成分の応答信号は学習を通じて取得される。第２信号成分がＵ成分である場合、第３信号成分はＶ成分である。代わりに、第２信号成分がＶ成分である場合、第３信号成分はＵ成分である。ビデオ信号を再構成することは、第１信号成分の再構成マップと、第２信号成分の再構成マップと、第３信号成分の再構成マップとに基づいて、ビデオ信号を再構成することを含む。

【0027】

取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵ成分である場合、第３信号成分はＶ成分であり、そして、ビットストリームが、Ｙ成分の品質係数のインデックスｉ、Ｕ成分の品質係数のインデックスｊ、及びＶ成分の品質係数のインデックスｋを含む場合に、当該方法は、学習を通じて、第１信号成分の応答信号行列｛ｇ_ｙ１，ｇ_ｙ２，…，ｇ_ｙｉ，…，ｇ_ｙＮ｝と、第２信号成分の応答信号行列｛ｇ_ｕ１，ｇ_ｕ２，…，ｇ_ｕｊ，…，ｇ_ｕＭ｝と、第３信号成分の応答信号行列｛ｇ_ｖ１，ｇ_ｖ２，…，ｇ_ｖｋ，…，ｇ_ｖＬ｝とを生成し、Ｎ、Ｍ、及びＬは１より大きい整数であり、Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の応答信号ｇ_ｙｉを取得し、Ｕ成分の品質係数のインデックスｊに基づいて、第２信号成分の応答信号ｇ_ｕｊを取得し、Ｖ成分の品質係数のインデックスｋに基づいて、第３信号成分の応答信号ｇ_ｖｋを取得する、ことを含む。

【0028】

あるいは、他の取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵ成分である場合、第３信号成分はＶ成分であり、そして、ビットストリームがビデオ信号の品質係数のインデックスｉを含む場合に、当該方法は、学習を通じて、ビデオ信号の応答信号行列｛ｇ_ｃ１，ｇ_ｃ２，…，ｇ_ｃｉ，…，ｇ_ｃＮ｝を生成し、ｃは３であってＹ成分、Ｕ成分、及びＶ成分を表し、Ｎは１より大きい整数であり、ビデオ信号の品質係数のインデックスｉに基づいて、第１信号成分、第２信号成分、及び第３信号成分を含む応答信号ｇ_ｃｉを取得する、ことを含む。

【0029】

あるいは、全結合型ネットワークを用いることによって実装される更なる他の取り得る一実装において、第１信号成分がＹ成分であり、且つ第２信号成分がＵ成分である場合、第３信号成分はＶ成分であり、そして、ビットストリームが第１信号成分の品質係数、第２信号成分の品質係数、及び第３信号成分の品質係数を含む場合に、当該方法は、Ｙ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｙ成分の応答信号を出力し、Ｕ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｕ成分の応答信号を出力し、Ｖ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｖ成分の応答信号を出力する、ことを含む。

【0030】

第３態様によれば、この出願は、第１態様及び第１態様の実装のうちのいずれか一に従った方法を実行するように構成された処理回路を含むエンコーダを提供する。

【0031】

第４態様によれば、この出願は、第２態様及び第２態様の実装のうちのいずれか一に従った方法を実行するように構成された処理回路を含むデコーダを提供する。

【0032】

第５態様によれば、この出願は、プログラムコードを含んだコンピュータプログラムプロダクトを提供する。プログラムコードがコンピュータ又はプロセッサ上で実行されるときに、当該コンピュータプログラムプロダクトは、第１態様及び第２の態様並びに第１態様及び第２の態様の実装のうちのいずれか一に従った方法を実行するように構成される。

【0033】

第６態様によれば、この出願は、１つ以上のプロセッサと、プロセッサに結合され、プロセッサによる実行のためのプログラムを格納した、非一時的コンピュータ読み取り可能記憶媒体と、を含むエンコーダを提供する。プログラムが、プロセッサによって実行されるときに、第１態様及び第１態様の実装のうちのいずれか一に従った方法を実行するように当該エンコーダを構成する。

【0034】

第７態様によれば、この出願は、１つ以上のプロセッサと、プロセッサに結合され、プロセッサによる実行のためのプログラムを格納した、非一時的コンピュータ読み取り可能記憶媒体と、を含むデコーダを提供する。プログラムが、プロセッサによって実行されるときに、第２態様及び第２態様の実装のうちのいずれか一に従った方法を実行するように当該デコーダを構成する。

【0035】

第８態様によれば、この出願は、プログラムコードを含んだ非一時的コンピュータ読み取り可能記憶媒体を提供する。プログラムコードがコンピュータデバイスによって実行されるときに、プログラムコードを用いて、第１態様及び第２の態様並びに第１態様及び第２の態様の実装のうちのいずれか一に従った方法が実行される。

【0036】

第９態様によれば、本発明は符号化装置に関し、第１態様及び第１態様の実装のうちのいずれか一に従った方法実施形態における動作を実装する機能を持つ。機能は、ハードウェアによって実装されてもよいし、対応するソフトウェアをハードウェアが実行することによって実装されてもよい。ハードウェア又はソフトウェアは、上述の機能に対応する１つ以上のモジュールを含む。取り得る一設計において、符号化装置は、ビデオ信号の第１信号成分の制御信号を第１信号成分の第１特徴マップに適用して、第１信号成分の第２特徴マップを取得するように構成された第１の制御モジュールであり、第１信号成分の制御信号は学習を通じて取得される、第１の制御モジュールと、ビデオ信号の第２信号成分の制御信号を第２信号成分の第１特徴マップに適用して、第２信号成分の第２特徴マップを取得するように構成された第２の制御モジュールであり、第２信号成分の制御信号は学習を通じて取得される、第２の制御モジュールと、第１信号成分の第２特徴マップと第２信号成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得するように構成された符号化モジュールと、を含む。これらのモジュールは、第１態様及び第１態様の実装のうちのいずれか一に従った方法例における対応する機能を実行し得る。詳細については、方法例における詳細な説明を参照されたい。詳細をここで再び説明することはしない。

【0037】

第１０態様によれば、本発明は復号装置に関し、第２態様及び第２態様の実装のうちのいずれか一に従った方法実施形態における動作を実装する機能を持つ。機能は、ハードウェアによって実装されてもよいし、対応するソフトウェアをハードウェアが実行することによって実装されてもよい。ハードウェア又はソフトウェアは、上述の機能に対応する１つ以上のモジュールを含む。取り得る一設計において、復号装置は、ビデオ信号のビットストリームを取得し、ビットストリームに対してエントロピー復号を実行して、ビデオ信号の第１信号成分の特徴マップと、ビデオ信号の第２信号成分の特徴マップとを取得するように構成された復号モジュールと、第１信号成分の応答信号と第１信号成分の特徴マップとに基づいて、第１信号成分の再構成マップを取得するように構成された第１の制御モジュールであり、第１信号成分の応答信号は学習を通じて取得される、第１の制御モジュールと、第２信号成分の応答信号と第２信号成分の特徴マップとに基づいて、第２信号成分の再構成マップを取得するように構成された第２の制御モジュールであり、第２信号成分の応答信号は学習を通じて取得される、第２の制御モジュールと、第１信号成分の再構成マップと第２信号成分の再構成マップとに基づいて、ビデオ信号を再構成するように構成された再構成モジュールと、を含む。これらのモジュールは、第２態様及び第２態様の実装のうちのいずれか一に従った方法例における対応する機能を実行し得る。詳細については、方法例における詳細な説明を参照されたい。詳細をここで再び説明することはしない。

【0038】

従来のエンドツーエンドピクチャコーディングでは、特定のネットワークの学習及び最適化において、Ｙ、Ｕ、及びＶ成分の固定された重み値に基づいて最適化が行われる。従って、Ｙ、Ｕ、及びＶ成分のビットレートの比が固定されている。異なるピクチャは異なる色特性を持つので、固定のビットレート割り当ては、一部のビデオピクチャの乏しい符号化性能を引き起こす。この出願の上述の態様においては、各信号成分の制御信号を用いて、対応する信号成分の特徴マップを制御することで、Ｙ、Ｕ、及びＶ成分の間でのビットレート割り当てをサポートし、異なる色特性を持つピクチャコンテンツに適応する。

【0039】

１つ以上の実施形態の詳細が、添付の図面及び以下の説明に記載される。他の特徴、目的、及び利点が、明細書、添付の図面、及び特許請求の範囲から明らかになる。

【図面の簡単な説明】

【0040】

以下にて、この出願の実施形態で使用される添付の図面を説明する。

【図1A】本発明の実施形態を実装するように構成されたビデオコーディングシステムの一例を示すブロック図であり、当該システムは、ディープラーニングに基づいてビデオピクチャを符号化したり復号したりする。

【図1B】本発明の実施形態を実装するように構成されたビデオコーディングシステムの他の一例を示すブロック図であり、当該システムは、ディープラーニングに基づいてビデオピクチャを符号化したり復号したりする。

【図1C】本発明の実施形態を実装するように構成されたビデオコーディングシステムの更なる他の一例を示すブロック図であり、ビデオエンコーダ及び／又はビデオデコーダが、ディープラーニングに基づいてビデオピクチャを符号化したり復号したりする。

【図2】本発明の実施形態を実装するように構成されたビデオエンコーダの一例を示すブロック図であり、当該ビデオエンコーダ２０は、ディープラーニングに基づいてビデオピクチャを符号化する。

【図3】本発明の実施形態を実装するように構成されたビデオデコーダの一例を示すブロック図であり、当該ビデオデコーダ３０は、ディープラーニングに基づいてビデオピクチャを復号する。

【図4】本発明の実施形態を実装するように構成されたビデオコーディング装置の概略ブロック図である。

【図5】本発明の実施形態を実装するように構成された他のビデオコーディング装置の概略ブロック図である。

【図6】ＹＵＶフォーマットの概略図である。

【図7A】この出願の一実施形態に従ったスケーラブルな符号化及び復号構造の概略図である。

【図7B】図７Ａに基づく符号化方法の一実施形態である。

【図7C】図７Ａに基づく復号方法の一実施形態である。

【図7D】この出願の一実施形態に従ったスケーラブルな符号化及び復号構造の他の概略図である。

【図8A】この出願の一実施形態に従った他のスケーラブルな符号化及び復号構造の概略図である。

【図8B】図８Ａの一実施形態である。

【図9A】この出願の一実施形態に従った更なる他のスケーラブルな符号化及び復号構造の概略図である。

【図9B】図９Ａの一実施形態である。

【図10】この出願の一実施形態に従った符号化装置１０００の構造の概略図である。

【図11】この出願の一実施形態に従った復号装置１１００の構造の概略図である。

【発明を実施するための形態】

【0041】

この出願の実施形態は、ＡＩベースのビデオピクチャ圧縮技術を提供し、具体的には、従来のエンドツーエンドハイブリッドビデオコーディングシステムを改善するために、スケーラブルな符号化及び復号方法及び装置を提供する。

【0042】

ビデオコーディングは、典型的に、一連のピクチャの処理を指し、該一連のピクチャがビデオ又はビデオシーケンスを形成する。ビデオコーディングの分野では、用語“ピクチャ（picture）”、“フレーム（frame）”、及び“画像（image）”が同義語として使用されることがある。ビデオコーディング（又は、一般に、コーディング）は、ビデオ符号化及びビデオ復号という２つの部分を含む。ビデオ符号化は、ソースにて実行され、典型的に、（より効率的なストレージ及び／又は伝送のために）ビデオピクチャを表現するのに必要なデータの量を減らすように、元のビデオピクチャを（例えば圧縮によって）処理することを含む。ビデオ復号は、デスティネーションにて実行され、典型的に、ビデオピクチャを再構成するためにエンコーダの処理に対して逆の処理を含む。ビデオピクチャ（又は、一般に、ピクチャ）の“コーディング”を参照する実施形態は、ビデオピクチャ又はそれぞれのビデオシーケンスの“符号化”又は“復号”に関係するように理解されるものとする。符号化部分と復号部分との組み合わせはコーデック（encoding and decoding，ＣＯＤＥＣ）とも呼ばれている。

【0043】

可逆ビデオコーディングの場合、元のビデオピクチャを再構成することができる。換言すれば、再構成されたビデオピクチャが、（ストレージ又は伝送の間に伝送損失又は他のデータ損失がないと仮定して）元のビデオピクチャと同じ品質を持つ。非可逆ビデオコーディングの場合には、ビデオピクチャを表現するのに必要なデータの量を減らすために、例えば量子化を通じて、更なる圧縮が行われ、デコーダでビデオピクチャを完全に再構成することはできない。換言すれば、再構成されたビデオピクチャの品質が、元のビデオピクチャの品質よりも低い又は乏しいものとなる。

【0044】

幾つかのビデオコーディング標準は、“非可逆ハイブリッドビデオコーディング”（すなわち、ピクセルドメインにおける空間及び時間予測が、変換ドメインにおいて量子化を適用する２Ｄ変換コーディングと組み合わされる）に使用される。ビデオシーケンスの各ピクチャは典型的に一組の重なり合わないブロックに分割され、コーディングは典型的にブロックレベルで実行される。具体的には、エンコーダで、ビデオは、通常、ブロック（ビデオブロック）レベルで処理及び符号化される。例えば、空間（イントラ）予測及び時間（インター）予測を通じて予測ブロックが生成され、該予測ブロックが現在ブロック（処理されている又は処理されるべきブロック）から減算されて残差ブロックが取得され、該残差ブロックが変換ドメインで変換され且つ量子化されて、伝送されるデータの量が削減される（圧縮される）。デコーダでは、表現用に現在ブロックを再構成するために、符号化されたブロック又は圧縮されたブロックに、エンコーダに対して逆の処理部分が適用される。さらに、後続ブロックを処理すなわちコーディングするためにエンコーダとデコーダが同じ予測（例えば、イントラ予測及びインター予測）及び／又は再構成ピクセルを生成するように、エンコーダはデコーダ処理ステップを複製する必要がある。

【0045】

ビデオコーディングシステム１０の以下の実施形態にて、エンコーダ２０及びデコーダ３０を図１Ｂ－図３に基づいて説明する。

【0046】

図１Ａは、コーディングシステムの一例を示す概略ブロック図である。図１Ａに示すように、ビデオキャプチャデバイスがビデオをキャプチャした後、一連の前処理が実行され、次いで、処理されたビデオが圧縮及び符号化されて符号化ビットストリームが得られる。ビットストリームは、送信モジュールによって、伝送ネットワーク上で受信モジュールに送られ、デコーダによって復号された後にレンダリングされて表示されることができる。また、ビデオ符号化ビットストリームを直接格納することもできる。

【0047】

図１Ｂは、この出願の技術を利用し得るコーディングシステム１０の一例、例えばビデオコーディングシステム１０（又は略してコーディングシステム１０）、を示す概略ブロック図である。ビデオコーディングシステム１０のビデオエンコーダ２０（又は略してエンコーダ２０）及びビデオデコーダ３０（又は略してデコーダ３０）は、この出願に記載される様々な例に従った技術を実行するように構成され得る装置の例を表す。

【0048】

図１Ｂに示すように、コーディングシステム１０はソース装置１２を含む。ソース装置１２は、例えば符号化ピクチャといった符号化ピクチャデータ２１を、符号化ピクチャデータ２１を復号するように構成されたデスティネーション装置１４に提供するように構成される。

【0049】

ソース装置１２は、エンコーダ２０を含んでおり、付加的に、すなわち、オプションで、ピクチャ源１６と、例えばピクチャプリプロセッサといったプリプロセッサ（又は前処理ユニット）１８と、通信インタフェース（又は通信ユニット）２２とを含み得る。

【0050】

ピクチャ源１６は、例えば実世界ピクチャをキャプチャするための、任意のタイプのピクチャキャプチャデバイス、及び／又は、例えばコンピュータアニメーションピクチャを生成するためのコンピュータグラフィックスプロセッサといった任意のタイプのピクチャ生成デバイス、又は、実世界ピクチャ、コンピュータ生成ピクチャ（例えば、スクリーンコンテンツ、仮想現実（virtual reality，ＶＲ）ピクチャ）及び／又はそれらの任意の組み合わせ（例えば、拡張現実（augmented reality，ＡＲ）ピクチャ）を取得及び／又は提供するための任意のタイプの他のデバイスを含むことができ、あるいはそれであることができる。ピクチャ源は、上述のピクチャのうちのいずれかを格納する任意のタイプのメモリ又はストレージとし得る。

【0051】

プリプロセッサ（又は前処理ユニット）によって実行される処理中のピクチャと区別するため、ピクチャ（又はピクチャデータ）１７を元ピクチャ（又は元ピクチャデータ）１７とも称することがある。

【0052】

プリプロセッサ１８は、（元）ピクチャデータ１７を受け取り、ピクチャデータ１７上で前処理を行って、前処理済みピクチャ（又は前処理済みピクチャデータ）１９を得るように構成される。プリプロセッサ１８によって実行される前処理は、例えば、トリミング、カラーフォーマット変換（例えば、ＲＧＢからＹＣｂＣｒへ）、カラー補正、又はノイズ除去を含み得る。理解され得ることには、前処理ユニット１８はオプションコンポーネントとし得る。

【0053】

ビデオエンコーダ（又はエンコーダ）２０は、前処理済みピクチャデータ１９を受け取り、符号化ピクチャデータ２１を提供するように構成される（更なる詳細については、例えば図２に基づいて後述する）。

【0054】

ソース装置１２の通信インタフェース２２は、符号化ピクチャデータ２１を受け取り、符号化ピクチャデータ２１（又はその更に処理した任意のバージョン）を、ストレージ又は直接的な再構成のために、通信チャネル１３を介して、例えばデスティネーション装置１４又は任意の他の装置といった他の装置に送信するように構成され得る。

【0055】

デスティネーション装置１４は、デコーダ３０を含んでおり、付加的に、すなわち、オプションで、通信インタフェース（又は通信ユニット）２８と、ポストプロセッサ（又は後処理ユニット）３２と、表示デバイス３４とを含み得る。

【0056】

デスティネーション装置１４の通信インタフェース２８は、符号化ピクチャデータ２１（又はその更に処理した任意のバージョン）を、例えば、ソース装置１２から直接的に、あるいは例えば符号化ピクチャデータストレージ装置などのストレージ装置といった任意の他のソース装置から、受信して、符号化ピクチャデータ２１をデコーダ３０に提供するように構成される。

【0057】

通信インタフェース２２及び通信インタフェース２８は、ソース装置１２とデスティネーション装置１４との間の例えば直接的な有線若しくは無線接続といった直接的な通信リンク上で、あるいは、例えば、有線若しくは無線ネットワーク又はこれらの任意の組み合わせ、又は任意のタイプの私的及び公的ネットワーク、又はこれらの任意の種類の組み合わせといった任意のタイプのネットワーク上で、符号化ピクチャデータ（又は符号化データ）２１を送信又は受信するように構成され得る。

【0058】

通信インタフェース２２は、例えば、符号化ピクチャデータ２１を例えばパケットといった適切なフォーマットにパッケージ化し、且つ／或いは、任意のタイプの伝送符号化又は通信リンク若しくは通信ネットワーク上での伝送のための処理を通じて符号化ピクチャデータを処理するように構成され得る。

【0059】

通信インタフェース２８は、通信インタフェース２２に対応して、例えば、伝送されたデータを受信し、任意のタイプの対応する伝送復号若しくは処理及び／又は脱パッケージ化を通じて伝送データを処理して、符号化ピクチャデータ２１を得るように構成され得る。

【0060】

通信インタフェース２２及び通信インタフェース２８は各々、ソース装置１２からデスティネーション装置１４を指す図１Ｂの通信チャネル１３に関する矢印によって示される単方向通信インタフェースとして構成されてもよいし、あるいは、双方向通信インタフェースとして構成されて、例えば、通信リンク及び／又は例えば符号化ピクチャデータ伝送といったデータ伝送に関係する他の情報を受信確認及び交換するために接続をセットアップするためなどで、メッセージを送受信するように構成されてもよい。

【0061】

ビデオデコーダ（又はデコーダ）３０は、符号化ピクチャデータ２１を受け取り、復号ピクチャ（又は復号ピクチャデータ）３１を提供するように構成される（更なる詳細については、例えば図３に基づいて後述する）。

【0062】

ポストプロセッサ３２は、例えば復号ピクチャといった復号ピクチャデータ３１（再構成ビデオデータとしても参照する）を後処理して、例えば後処理済みピクチャといった後処理済みのピクチャデータ３３を得るように構成される。後処理ユニット３２によって実行される後処理は、例えば、カラーフォーマット変換（例えば、ＹＣｂＣｒからＲＧＢへ）、カラー補正、トリミング、若しくはリサンプリング、又は、例えば表示デバイス３４による表示のために復号ピクチャデータ３１を準備するためなどの任意の他の処理を有し得る。

【0063】

表示デバイス３４は、ピクチャを例えばユーザ又は視聴者に表示するために、後処理済みピクチャデータ３３を受け取るように構成される。表示デバイス３４は、例えば一体化された又は外付けのディスプレイ又はモニタといった、再構成ピクチャを表現するための任意のタイプのディスプレイとすることができ、あるいはそれを含むことができる。例えば、ディスプレイは、液晶ディスプレイ（liquid crystal display，ＬＣＤ）、有機発光ダイオード（organic light emitting diode，ＯＬＥＤ）ディスプレイ、プラズマディスプレイ、プロジェクタ、マイクロＬＥＤディスプレイ、液晶・オン・シリコン（liquid crystal on silicon，ＬＣｏＳ）、デジタルライトプロセッサ（digital light processor，ＤＬＰ）、又は任意のタイプの他のディスプレイを含み得る。

【0064】

コーディングシステム１０は更にトレーニングエンジン２５を含んでいる。トレーニングエンジン２５は、再構成されるピクチャに対してスケーラブルな符号化及び復号を実行するようにエンコーダ２０又はデコーダ３０をトレーニングするように構成される。

【0065】

この出願のこの実施形態において、トレーニングデータはトレーニング行列セットを含む。トレーニング行列セットは、ピクチャブロックの、フィルタリング前ルマ行列、量子化ステップ行列、及びフィルタリング後ルマ行列を含む。フィルタリング前ルマ行列内の対応する位置のピクセルが、対応するピクチャブロック内の対応する位置のピクセルのフィルタリング前のルマ値に対応する。量子化ステップ行列内の対応する位置のピクセルが、対応するピクチャブロック内の対応する位置のピクセルのルマ値に対応する。フィルタリング後ルマ行列内の対応する位置のピクセルが、対応するピクチャブロック内の対応する位置のピクセルのフィルタリング後のルマ値に対応する。

【0066】

例えば、トレーニング行列セット内の複数の行列が、図６ａ－図６ｃに示すやり方でトレーニングエンジン２５に入力され得る。図６ａに示すように、トレーニング行列セット内の複数の行列がトレーニングエンジン２５に直接入力され、該複数の行列は全て２次元行列である。図６ｂに示すように、トレーニング行列セット内の複数の行列の一部又は全てが組み合わせのために選択されて多次元行列が取得され、そして、該多次元行列がトレーニングエンジン２５に入力される。図６ｃに示すように、トレーニング行列セット内の複数の行列の一部又は全てが加算（又は乗算）のために選択されて２次元行列が取得され、そして、該２次元行列がトレーニングエンジン２５に入力される。

【0067】

トレーニングデータは、データベース（図には示さず）に格納されることができ、トレーニングエンジン２５は、トレーニングデータに基づくトレーニングを通じてターゲットモデル（例えば、スケーラブルな符号化及び復号のためのニューラルネットワークとし得る）を取得する。なお、トレーニングデータのソースはこの出願のこの実施形態において限定されるものではない。例えば、クラウド又は他の場所からトレーニングデータを取得してモデルトレーニングを行ってもよい。

【0068】

トレーニングエンジン２５は、フィルタリング前のピクセルが元のピクセル値に近くなるようにターゲットモデルをトレーニングする。各トレーニングプロセスにおいて、小バッチサイズを６４ピクチャとすることができ、初期学習レートを１ｅ－４とすることができ、ステップサイズを１０とすることができる。トレーニングデータは、異なるＱＰ量子化パラメータ設定に基づいてエンコーダによって生成されたデータとし得る。ターゲットモデルは、この出願のこの実施形態で提供されるスケーラブルな符号化及び復号方法を実施するために使用されることができる。具体的には、再構成されるピクチャ又はピクチャブロックが、関連する前処理の後にターゲットモデルに入力されて、フィルタリングされたピクチャ又はピクチャブロックが取得される。この出願のこの実施形態におけるターゲットモデルは具体的に、フィルタリングネットワークとし得る。以下にて、図７Ａ－図７Ｄを参照して、ターゲットモデルを詳細に説明する。

【0069】

トレーニングエンジン２５によるトレーニングを通じて取得されたターゲットモデルをコーディングシステム１０に適用することができ、例えば、図１Ｂに示したソース装置１２（例えば、エンコーダ２０）又はデスティネーション装置１４（例えば、デコーダ３０）に適用することができる。トレーニングエンジン２５は、クラウド上でのトレーニングを通じてターゲットモデルを取得してもよく、コーディングシステム１０は、クラウドからターゲットモデルをダウンロードして、ターゲットモデルを使用する。あるいは、トレーニングエンジン２５は、クラウド上でのトレーニングを通じてターゲットモデルを取得し且つターゲットモデルを使用してもよく、コーディングシステム１０は、クラウドから処理結果を直接取得する。

【0070】

図１Ｂは、ソース装置１２及びデスティネーション装置１４を別々の装置として描いているが、装置の実施形態はまた、ソース装置１２とデスティネーション装置１４、又はソース装置１２とデスティネーション装置１４の機能を含んでもよく、すなわち、ソース装置１２又は対応する機能と、デスティネーション装置１４又は対応する機能とを含んでもよい。そのような実施形態において、ソース装置１２又は対応する機能と、デスティネーション装置１４又は対応する機能は、同一のハードウェア及び／又はソフトウェアを用いることによって、又は別々のハードウェア及び／又はソフトウェアによって、又はこれらの任意の組み合わせによって実装され得る。

【0071】

該説明に従って、図１Ｂに示したようなソース装置１２及び／又はデスティネーション装置１４内の複数の異なるユニット又は機能の存在及び（正確な）分割は、実際の装置及び用途に応じて変わり得る。

【0072】

エンコーダ２０（例えば、ビデオエンコーダ２０）若しくはデコーダ３０（例えば、ビデオデコーダ３０）、又はエンコーダ２０とデコーダ３０との両方は、例えば、１つ以上のマイクロプロセッサ、デジタル信号プロセッサ（digital signal processor，ＤＳＰ）、特定用途向け集積回路（application-specific integrated circuit，ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（field-programmable gate array，ＦＰＧＡ）、ディスクリートロジック、ハードウェア、ビデオコーディング専用プロセッサ、又はこれらの任意の組み合わせなどの、図１Ｃに示すような処理回路によって実装され得る。エンコーダ２０は、図２に示すエンコーダ２０及び／又はここに記載されるいずれかの他のエンコーダシステム若しくはサブシステムに関して説明されるような様々なモジュールを具体化するように、処理回路４６によって実装され得る。デコーダ３０は、図３に示すデコーダ３０及び／又はここに記載されるいずれかの他のデコーダシステム若しくはサブシステムに関して説明されるような様々なモジュールを具体化するように、処理回路４６によって実装され得る。処理回路は、後述する様々な演算を実行するように構成され得る。図５に示すように、一部の技術がソフトウェアで実装される場合、装置が、好適な非一時的なコンピュータ読み取り可能記憶媒体にソフトウェアの命令を格納し、それらの命令を、１つ以上のプロセッサを用いることによってハードウェアにて実行することで、本発明の技術を実行することができる。ビデオエンコーダ２０及びビデオデコーダ３０のいずれかが、例えば図１Ｃに示すように、単一の装置内の結合されたエンコーダ／デコーダ（encoder/decoder，ＣＯＤＥＣ）の部分として一体化されてもよい。

【0073】

ソース装置１２及びデスティネーション装置１４は、例えば、ノートブック若しくはラップトップコンピュータ、携帯電話、スマートフォン、タブレット若しくはタブレットコンピュータ、カメラ、デスクトップコンピュータ、セットトップボックス、テレビジョン、ディスプレイ装置、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミング装置（例えばコンテンツサービスサーバ又はコンテンツ配信サーバなど）、放送受信器装置、放送送信器装置など、又はこれらに類するものといった、任意のタイプのハンドヘルド装置又は固定装置を含め、広範囲の装置うちのいずれかを含むことができ、また、オペレーティングシステムを使用しなくてもよいし、あるいは任意のタイプのオペレーティングシステムを使用してもよい。一部のケースにおいて、ソース装置１２及びデスティネーション装置１４は無線通信のためのコンポーネントを備え得る。従って、ソース装置１２及びデスティネーション装置１４は無線通信装置であってもよい。

【0074】

一部のケースにおいて、図１Ｂに示したビデオコーディングシステム１０は、単に一例に過ぎず、この出願の技術は、必ずしも符号化装置と復号装置との間で如何なるデータ通信も含まないビデオコーディング設定（例えば、ビデオ符号化又はビデオ復号）に適用可能である。他の例において、データがローカルメモリから取り出されてネットワーク上でストリーミングされるなどする。ビデオ符号化装置が、データを符号化して符号化データをメモリに格納することができ、且つ／或いはビデオ復号装置が、メモリからデータを取り出してデータを復号することができる。一部の例において、符号化及び復号は、互いに通信せずに単にデータをメモリにエンコードする及び／又はメモリからデータを取り出してデータを復号する装置によって実行される。

【0075】

図１Ｃは、一実施形態例に従った、図２のビデオエンコーダ２０及び／又は図３のビデオデコーダ３０を含むビデオコーディングシステム４０の一例を示す例示的な図である。ビデオコーディングシステム４０は、撮像デバイス４１、ビデオエンコーダ２０、ビデオデコーダ３０（及び／又は、処理回路４６によって実装されるビデオエンコーダ／デコーダ）、アンテナ４２、１つ以上のプロセッサ４３、１つ以上のメモリ４４、及び／又は表示デバイス４５を含み得る。

【0076】

図１Ｃに示すように、撮像デバイス４１、アンテナ４２、処理回路４６、ビデオエンコーダ２０、ビデオデコーダ３０、プロセッサ４３、メモリ４４、及び／又は表示デバイス４５は、互いに通信することができる。ビデオコーディングシステム４０は、異なる例においてビデオエンコーダ２０のみ又はビデオデコーダ３０のみを含んでもよい。

【0077】

一部の例において、アンテナ４２は、ビデオデータの符号化ビットストリームを送信又は受信するように構成され得る。また、一部の例において、表示デバイス４５は、ビデオデータを提示するように構成され得る。処理回路４６は、特定用途向け集積回路（application-specific integrated circuit，ＡＳＩＣ）ロジック、グラフィックス処理ユニット、汎用プロセッサ、又はこれらに類するものを含み得る。ビデオコーディングシステム４０はまた、オプションのプロセッサ４３を含み得る。オプションのプロセッサ４３は、同様に、特定用途向け集積回路（application-specific integrated circuit，ＡＳＩＣ）ロジック、グラフィックスプロセッサ、汎用プロセッサ、又はこれらに類するものを含み得る。また、メモリ４４は、例えば、揮発性メモリ（例えば、スタティックランダムアクセスメモリ（static random access memory，ＳＲＡＭ）若しくはダイナミックランダムアクセスメモリ（dynamic random access memory，ＤＲＡＭ））又は不揮発性メモリ（例えば、フラッシュメモリ）といった、任意のタイプのメモリとし得る。非限定的な一例において、メモリ４４は、キャッシュメモリによって実装されてもよい。他の例において、処理回路４６は、画像バッファを実装するためのメモリ（例えば、キャッシュ）を含んでいてもよい。

【0078】

一部の例において、論理回路を用いることによって実装されるビデオエンコーダ２０は、ピクチャバッファ（これは、例えば、処理回路４６又はメモリ４４によって実装される）及びグラフィックス処理ユニット（これは、例えば、処理回路４６によって実装される）を含み得る。グラフィックス処理ユニットは、ピクチャバッファに通信可能に結合され得る。グラフィックス処理ユニットは、図２に関して説明される様々なモジュール及び／又はここで説明される何らかの他のエンコーダシステム若しくはサブシステムを具現化するように処理回路４６によって実装されるビデオエンコーダ２０を含み得る。論理回路は、この明細書中で説明される様々な動作を実行するように構成され得る。

【0079】

一部の例において、ビデオデコーダ３０は、図３のビデオデコーダ３０を参照して説明される様々なモジュール及び／又はこの明細書中で説明される何らかの他のデコーダシステム若しくはサブシステムを実装するよう、同様にして処理回路４６によって実装され得る。一部の例において、論理回路を用いることによって実装されるビデオデコーダ３０は、ピクチャバッファ（これは、処理回路４６又はメモリ４４によって実装される）及びグラフィックス処理ユニット（これは、例えば、処理回路４６によって実装される）を含み得る。グラフィックス処理ユニットは、ピクチャバッファに通信可能に結合され得る。グラフィックス処理ユニットは、図３を参照して説明される様々なモジュール及び／又はここで説明される何らかの他のデコーダシステム若しくはサブシステムを具現化するように処理回路４６によって実装されるビデオデコーダ３０を含み得る。

【0080】

一部の例において、アンテナ４２は、ビデオデータの符号化ビットストリームを受信するように構成され得る。説明するように、符号化ビットストリームは、例えば、コーディング分割（例えば、変換係数又は量子化された変換係数、オプションのインジケータ（説明する）、及び／又はコーディング分割を定めるデータ）に関係するデータといった、この明細書中で説明されるビデオフレーム符号化に関係するデータ、インジケータ、インデックス値、モード選択データ、又はこれらに類するものを含み得る。ビデオコーディングシステム４０は更に、アンテナ４２に結合され且つ符号化ビットストリームを復号するように構成されたビデオデコーダ３０を含み得る。表示デバイス４５は、ビデオフレームを提示するように構成される。

【0081】

理解されるべきことには、この出願のこの実施形態において、ビデオエンコーダ２０を参照して説明される例に対して、ビデオデコーダ３０は逆のプロセスを実行するように構成され得る。シグナリングシンタックス要素に関して、ビデオデコーダ３０は、そのようなシンタックス要素を受信して解析し、それに対応して、関係するビデオデータを復号するように構成され得る。一部の例において、ビデオエンコーダ２０は、シンタックス要素を符号化ビデオビットストリームにエントロピー符号化し得る。そのような例において、ビデオデコーダ３０は、そのようなシンタックス要素を解析し、それに従って、関係するビデオデータを復号し得る。

【0082】

説明の便宜上、本発明の実施形態は、ここでは、例えば、ＩＴＵ－Ｔビデオコーディングエキスパートグループ（Video Coding Experts Group，ＶＣＥＧ）とＩＳＯ／ＩＥＣムービングピクチャエキスパートグループ（Moving Picture Experts Group，ＭＰＥＧ）とのジョイントコラボラティブチーム・オン・ビデオコーディング（Joint Collaborative Team on Video Coding，ＪＣＴ－ＶＣ）によって開発されたバーサタイルビデオコーディング（Versatile Video Coding，ＶＶＣ）又はハイエフィシェンシビデオコーディング（High-Efficiency Video Coding，ＨＥＶＣ）のリファレンスソフトウェアを参照して説明される。当業者が理解し得ることには、本発明の実施形態はＨＥＶＣ又はＶＶＣに限定されるものではない。

【0083】

エンコーダ及び符号化方法
図２は、この出願の技術を実装するように構成されたビデオエンコーダ２０の一例を示す概略ブロック図である。図２の例において、ビデオエンコーダ２０は、入力（又は入力インタフェース）２０１、残差計算ユニット２０４、変換処理ユニット２０６、量子化ユニット２０８、逆量子化ユニット２１０、逆変換処理ユニット２１２、再構成ユニット２１４、ループフィルタ２２０、復号ピクチャバッファ（ＤＰＢ）２３０、モード選択ユニット２６０、エントロピー符号化ユニット２７０、及び出力（又は出力インタフェース）２７２を含んでいる。モード選択ユニット２６０は、インター予測ユニット２４４、イントラ予測ユニット２５４、及び分割ユニット２６２を含み得る。インター予測ユニット２４４は、動き推定ユニット及び動き補償ユニット（図示せず）を含み得る。図２に示すビデオエンコーダ２０は、ハイブリッドビデオエンコーダ、又はハイブリッドビデオコーデックに基づくビデオエンコーダとしても参照され得る。

【0084】

残差計算ユニット２０４、変換処理ユニット２０６、量子化ユニット２０８、及びモード選択ユニット２６０は、エンコーダ２０の前方信号経路を形成する。逆量子化ユニット２１０、逆変換処理ユニット２１２、再構成ユニット２１４、バッファ２１６、ループフィルタ２２０、復号ピクチャバッファ（decoded picture buffer，ＤＰＢ）２３０、インター予測ユニット２４４、及びイントラ予測ユニット２５４は、エンコーダの後方信号経路を形成する。エンコーダ２０の後方信号経路は、デコーダ（図３のデコーダ３０を参照）の信号経路に対応する。逆量子化ユニット２１０、逆変換処理ユニット２１２、再構成ユニット２１４、ループフィルタ２２０、復号ピクチャバッファ２３０、インター予測ユニット２４４、及びイントラ予測ユニット２５４は、ビデオエンコーダ２０の“内蔵デコーダ”を形成する。

【0085】

量子化
量子化ユニット２０８は、例えばスカラー量子化又はベクトル量子化を通じて、変換係数２０７を量子化して、量子化された変換係数２０９を得るように構成され得る。量子化された変換係数２０９は、量子化された残差係数２０９としても参照され得る。

【0086】

量子化プロセスは、変換係数２０７の一部又は全てに関係するビット深度を減少させ得る。例えば、ｎはｍより大きいとして、ｎビットの変換係数が量子化の間にｍビットの変換係数に丸められ得る。量子化の程度は、量子化パラメータ（quantization parameter，ＱＰ）を調節することによって変更され得る。例えば、スカラー量子化では、より細かい又はより粗い量子化を達成するために、異なるスケールが適用され得る。より小さい量子化ステップは、より細かい量子化に対応し、より大きい量子化ステップは、より粗い量子化に対応する。適切な量子化ステップが、量子化パラメータ（quantization parameter，ＱＰ）によって指し示され得る。例えば、量子化パラメータは、予め定められた一組の適切な量子化ステップに対するインデックスとし得る。例えば、より小さい量子化パラメータがより細かい量子化（より小さい量子化ステップ）に対応することができるとともに、より大きい量子化パラメータがより粗い量子化（より大きい量子化ステップ）に対応するとすることができ、その逆もまた然りである。量子化は、量子化ステップによる除算を含むことができ、そして、例えば逆量子化ユニット２１０によって実行される、対応する又は逆の量子化解除は、量子化ステップによる乗算を含むことができる。例えばＨＥＶＣなどの一部の標準に従った実施形態は、量子化パラメータを用いて量子化ステップを決定し得る。一般に、量子化ステップは、除算を含む式の固定小数点近似を用いることによって、量子化パラメータに基づいて計算され得る。残差ブロックのノルムを復元するために、他のスケール係数が量子化及び量子化解除に対して導入されてもよい。残差ブロックのノルムは、量子化ステップ及び量子化パラメータについての式の固定小数点近似に使用されるスケールに起因して変更され得る。一実装例において、逆変換のスケールが量子化解除のスケールと組み合わされてもよい。あるいは、カスタマイズされた量子化テーブルを使用し、それをエンコーダからデコーダへ例えばビットストリーム内でシグナリングしてもよい。量子化は、非可逆演算であり、より大きい量子化ステップは、より大きい損失を示す。

【0087】

一実施形態において、ビデオエンコーダ２０（対応して、量子化ユニット２０８）は、例えばビデオデコーダ３０が復号のために量子化パラメータを受信して適用することができるように、量子化パラメータ（quantization parameter，ＱＰ）を、例えば、直接、又はエントロピー符号化ユニット２７０によって実行される符号化後に、又は圧縮後に出力するように構成され得る。

【0088】

逆量子化
逆量子化ユニット２１０は、例えば、量子化ユニット２０８の量子化ステップと同じ量子化ステップに基づいて又はそれを用いて、量子化ユニット２０８によって実行された量子化スキームの逆を適用することによって、量子化された係数に対して量子化ユニット２０８の逆量子化を実行して、量子化解除された係数２１１を得るように構成される。量子化解除された係数２１１は、量子化解除された残差係数２１１として参照されることもあり、変換係数２０７に対応するが、通常は、量子化によって発生する損失に起因して変換係数と完全に同じではない。

【0089】

再構成
再構成ユニット２１４（例えば、加算器２１４）は、例えば再構成残差ブロック２１３のピクセル値と予測ブロック２６５のピクセル値とを足し合わせることによって、変換ブロック２１３（すなわち、再構成残差ブロック２１３）を予測ブロック２６５に足し合わせて、ピクセルドメインにおける再構成ブロック２１５を得るように構成される。

【0090】

フィルタリング
ループフィルタユニット２２０（又は略して“ループフィルタ”２２０）は、再構成ブロック２１５をフィルタリングして、フィルタリングされたブロック２２１を得るように構成され、又は通常、再構成ピクセルをフィルタリングして、フィルタリングされたピクセル値を得るように構成される。ループフィルタユニットは、例えば、ピクセル変換を平滑化するように構成され、又はその他の方法でビデオ品質を向上させるように構成される。ループフィルタユニット２２０は、例えば、デブロッキングフィルタ、サンプル適応オフセット（sample-adaptive offset，ＳＡＯ）フィルタ、又は例えば適応ループフィルタ（adaptive loop filter，ＡＬＦ）、ノイズ抑制フィルタ（noise suppression filter，ＮＳＦ）若しくはこれらの任意の組み合わせといった１つ以上の他のフィルタなどの、１つ以上のループフィルタを含み得る。一例において、ループフィルタユニット２２０は、デブロッキングフィルタ、ＳＡＯフィルタ、及びＡＬＦフィルタを含み得る。フィルタリングプロセスの順序は、デブロッキングフィルタ、ＳＡＯフィルタ、そして、ＡＬＦフィルタとし得る。他の一例において、ルママッピング・ウィズ・クロマスケーリング（luma mapping with chroma scaling，ＬＭＣＳ）として参照されるプロセス（すなわち、適応インループリシェイパ）が追加される。このプロセスは、デブロッキングの前に実行される。他の一例において、デブロッキングフィルタリングプロセスは、例えば、アフィンサブブロックエッジ、ＡＴＭＶＰサブブロックエッジ、サブブロック変換（sub-block transform，ＳＢＴ）エッジ、及びイントラサブパーティション（intra sub-partition，ＩＳＰ）エッジといった、内部のサブブロックエッジにも適用され得る。ループフィルタユニット２２０は、図２ではループフィルタとして示されているが、他の構成では、ループフィルタユニット２２０は、ポストループフィルタとして実装されてもよい。フィルタリングされたブロック２２１は、フィルタリングされた再構成ブロック２２１として参照され得る。

【0091】

一実施形態において、ビデオエンコーダ２０（対応して、ループフィルタユニット２２０）は、例えばデコーダ３０が復号のために同じ又は異なるループフィルタパラメータを受信して適用することができるように、ループフィルタパラメータ（例えばＳＡＯフィルタパラメータ、ＡＬＦフィルタパラメータ、又はＬＭＣＳパラメータなど）を、例えば、直接、又はエントロピー符号化ユニット２７０によって実行されるエントロピー符号化の後に出力するように構成され得る。

【0092】

デコーダ及び復号方法
図３は、この出願の技術を実装するように構成されたビデオデコーダ３０の一例を示している。ビデオデコーダ３０は、例えば、エンコーダ２０によって符号化された符号化ピクチャデータ２１（例えば、符号化ビットストリーム２１）を受信して、復号ピクチャ３３１を得るように構成される。符号化ピクチャデータ又はビットストリームは、例えば符号化ビデオスライス（及び／又はタイルグループ若しくはタイル）のピクチャブロックを表すデータといった符号化ピクチャデータと、関係するシンタックス要素とを復号するための情報を含む。

【0093】

図３の例において、デコーダ３０は、エントロピー復号ユニット３０４、逆量子化ユニット３１０、逆変換処理ユニット３１２、再構成ユニット３１４（例えば、加算器３１４）、ループフィルタ３２０、復号ピクチャバッファ（ＤＢＰ）３３０、モード適用ユニット３６０、インター予測ユニット３４４、及びイントラ予測ユニット３５４を含んでいる。インター予測ユニット３４４は、動き補償ユニットとすることができ、あるいはそれを含むことができる。ビデオデコーダ３０は、一部の例において、図２のビデオエンコーダ２０に関して説明した符号化プロセスを実質的に逆にしたものである復号プロセスを実行し得る。

【0094】

エンコーダ２０に関して説明したように、逆量子化ユニット２１０、逆変換処理ユニット２１２、再構成ユニット２１４、ループフィルタ２２０、復号ピクチャバッファ（ＤＰＢ）２３０、インター予測ユニット３４４、及びイントラ予測ユニット３５４はまた、ビデオエンコーダ２０の“内蔵デコーダ”を形成する。従って、逆量子化ユニット３１０は、機能において逆量子化ユニット１１０に同じであるとすることができ、逆変換処理ユニット３１２は、機能において逆変換処理ユニット２１２に同じであるとすることができ、再構成ユニット３１４は、機能において再構成ユニット２１４に同じであるとすることができ、ループフィルタ３２０は、機能においてループフィルタ２２０に同じであるとすることができ、復号ピクチャバッファ３３０は、機能において復号ピクチャバッファ２３０に同じであるとすることができる。従って、ビデオエンコーダ２０のそれぞれのユニット及び機能についての説明は、対応して、ビデオデコーダ３０のそれぞれのユニット及び機能に当てはまる。

【0095】

逆量子化
逆量子化ユニット３１０は、符号化ピクチャデータ２１から量子化パラメータ（quantization parameter，ＱＰ）（又は、一般に、逆量子化に関する情報）及び量子化された係数を受け取り（例えばエントロピー復号ユニット３０４によって、例えば解析及び／又は復号することによって）、復号した量子化された係数３０９に対して、量子化パラメータに基づいて逆量子化を実行して、変換係数３１１としても参照され得るものである量子化解除された係数３１１を得るように構成され得る。逆量子化プロセスは、ビデオスライス内の各ビデオブロックに対してビデオエンコーダ２０によって計算された量子化パラメータに基づいて量子化の程度を決定することと、同様に、実行されるべき逆量子化の程度を決定することとを含み得る。

【0096】

再構成
再構成ユニット３１４（例えば、加算器３１４）は、例えば再構成残差ブロック３１３のピクセル値と予測ブロック３６５のピクセル値とを足し合わせることによって、再構成残差ブロック３１３を予測ブロック３６５に足し合わせて、ピクセルドメインにおける再構成ブロック３１５を得るように構成され得る。

【0097】

フィルタリング
ループフィルタユニット３２０（コーディングループ内又はコーディングループ後のいずれか）は、例えば、ピクセル変換を平滑化するため又はビデオ品質を向上させるために、再構成ブロック３１５をフィルタリングして、フィルタリングされたブロック３２１を得るように構成される。ループフィルタユニット３２０は、例えば、デブロッキングフィルタ、サンプル適応オフセット（sample-adaptive offset，ＳＡＯ）フィルタ、又は例えば適応ループフィルタ（adaptive loop filter，ＡＬＦ）、ノイズ抑制フィルタ（noise suppression filter，ＮＳＦ）若しくはこれらの任意の組み合わせといった１つ以上の他のフィルタなどの、１つ以上のループフィルタを含み得る。一例において、ループフィルタユニット３２０は、デブロッキングフィルタ、ＳＡＯフィルタ、及びＡＬＦフィルタを含み得る。フィルタリングプロセスの順序は、デブロッキングフィルタ、ＳＡＯフィルタ、そして、ＡＬＦフィルタとし得る。他の一例において、ルママッピング・ウィズ・クロマスケーリング（luma mapping with chroma scaling，ＬＭＣＳ）として参照されるプロセス（すなわち、適応インループリシェイパ）が追加される。このプロセスは、デブロッキングの前に実行される。他の一例において、デブロッキングフィルタリングプロセスは、例えば、アフィンサブブロックエッジ、ＡＴＭＶＰサブブロックエッジ、サブブロック変換（sub-block transform，ＳＢＴ）エッジ、及びイントラサブパーティション（intra sub-partition，ＩＳＰ）エッジといった、内部のサブブロックエッジにも適用され得る。ループフィルタユニット３２０は、図３ではループフィルタとして示されているが、他の構成では、ループフィルタユニット３２０は、ポストループフィルタとして実装されてもよい。

【0098】

デコーダ３０は、ユーザへの提示又はユーザによる視聴のために、例えば出力３３２を介して、復号ピクチャ３３１を出力するように構成される。

【0099】

上述の実施形態は主にビデオコーディングに基づいて説明されているが、留意されるべきことには、コーディングシステム１０、エンコーダ２０、及びデコーダ３０の実施形態、並びにここで説明される他の実施形態は、静止画処理又はコーディング、すなわち、ビデオコーディングにおける先行又は連続したピクチャとは独立した個々のピクチャの処理又はコーディングにも適用可能である。一般に、ピクチャ処理が単一のピクチャ１７に限られる場合、インター予測ユニット２４４（エンコーダ）及びインター予測ユニット３４４（デコーダ）は利用不可能とし得る。例えば、残差計算２０４／３０４、変換２０６、量子化２０８、逆量子化２１０／３１０、（逆）変換２１２／３１２、分割２６２／３６２、イントラ予測２５４／３５４、及び／又はループフィルタリング２２０／３２０、エントロピー符号化２７０、並びにエントロピー復号３０４といった、ビデオエンコーダ２０及びビデオデコーダ３０の他の機能（ツール又は技術とも称される）は全て、静止画処理に等しく使用され得る。

【0100】

図４は、本発明の一実施形態に従ったビデオコーディング装置４００の概略図である。ビデオコーディング装置４００は、ここに記載される開示実施形態を実装するのに適用可能である。一実施形態において、ビデオコーディング装置４００は、例えば図１Ｂのビデオデコーダ３０などのデコーダ又は例えば図１Ｂのビデオエンコーダ２０などのエンコーダとし得る。

【0101】

ビデオコーディング装置４００は、データを受信するための入口ポート４１０（又は入力ポート４１０）及び受信器ユニット（receiver unit，Ｒｘ）４２０と、データを処理するためのプロセッサ、論理ユニット、又は中央処理ユニット（ＣＰＵ）４３０（例えば、プロセッサ４３０はニューラルネットワーク処理ユニット４３０とし得る）と、データを送信するための送信器ユニット（transmitter unit，Ｔｘ）４４０及び出口ポート４５０（又は出力ポート４５０）と、データを格納するためのメモリ４６０とを含んでいる。ビデオコーディング装置４００はまた、入口ポート４１０、受信器ユニット４２０、送信器ユニット４４０、及び出口ポート４５０に結合されて光信号又は電気信号の出口又は入口として構成される光－電気（optical-to-electrical，ＯＥ）コンポーネント及び電気－光（electrical-to-optical，ＥＯ）コンポーネントを含み得る。

【0102】

プロセッサ４３０は、ハードウェア及びソフトウェアによって実装される。プロセッサ４３０は、１つ以上の、ＣＰＵチップ、コア（例えば、マルチコアプロセッサ）、ＦＰＧＡ、ＡＳＩＣ、及びＤＳＰとして実装され得る。プロセッサ４３０は、入口ポート４１０、受信器ユニット４２０、送信器ユニット４４０、出口ポート４５０、及びメモリ４６０と連通している。プロセッサ４３０は、コーディングモジュール４７０（例えば、ニューラルネットワーク（neural network，ＮＮ）ベースのコーディングモジュール４７０）を含んでいる。コーディングモジュール４７０は、上述の開示実施形態を実装する。例えば、コーディングモジュール４７０は、様々なコーディング演算を実装し、処理し、準備し、又は提供する。従って、コーディングモジュール４７０を含むことは、ビデオコーディング装置４００の機能への実質的な改良を提供し、異なる状態へのビデオコーディング装置４００の切り替えに作用する。あるいは、コーディングモジュール４７０は、メモリ４６０に格納されてプロセッサ４３０によって実行される命令に基づいて実装される。

【0103】

メモリ４６０は、１つ以上のディスク、テープドライブ、及びソリッドステートドライブを含むことができ、また、オーバーフローデータストレージデバイスとして使用されて、プログラムが実行のために選択されるときにそのようなプログラムを格納するとともに、プログラム実行中に読み出される命令及びデータを格納し得る。メモリ４６０は、揮発性及び／又は不揮発性とすることができ、読み出し専用メモリ（read-only memory，ＲＯＭ）、ランダムアクセスメモリ（random access memory，ＲＡＭ）、三値連想メモリ（ternary content-addressable memory，ＴＣＡＭ）、及び／又はスタティックランダムアクセスメモリ（static random-access memory，ＳＲＡＭ）とし得る。

【0104】

図５は、一実施形態例に従った装置５００の簡略ブロック図である。装置５００は、図１Ｂのソース装置１２及びデスティネーション装置１４のいずれか又は双方として使用され得る。

【0105】

装置５００内のプロセッサ５０２は、中央処理ユニットとし得る。あるいは、プロセッサ５０２は、現存の又は今後開発される情報を制御又は処理することが可能な任意の他のタイプのデバイス又は複数のデバイスであってもよい。開示される実装は、例えばプロセッサ５０２といった、図示のような単一のプロセッサで実施され得るものの、２つ以上のプロセッサを用いることによって、より高速なスピード及びより高い効率を達成することができる。

【0106】

装置５００内のメモリ５０４は、一実装において、読み出し専用メモリ（ＲＯＭ）デバイス又はランダムアクセスメモリ（ＲＡＭ）デバイスとし得る。任意の他の好適タイプのストレージデバイスがメモリ５０４として使用されてもよい。メモリ５０４は、バス５１２を介してプロセッサ５０２によってアクセスされることが可能なコード及びデータ５０６を含み得る。メモリ５０４は更に、オペレーティングシステム５０８及びアプリケーションプログラム５１０を含み得る。アプリケーションプログラム５１０は、ここに記載される方法をプロセッサ５０２が実行することを可能にする少なくとも１つのプログラムを含む。例えば、アプリケーションプログラム５１０はアプリケーション１乃至Ｎを含むことができ、さらに、ここに記載される方法を実行するビデオコーディングアプリケーションを含むことができる。

【0107】

装置５００は更に、例えばディスプレイ５１８などの１つ以上の出力装置を含み得る。ディスプレイ５１８は、一例において、タッチ入力をセンシングするように構成されたタッチ感知素子とディスプレイを組み合わせたタッチ感知ディスプレイとし得る。ディスプレイ５１８は、バス５１２を介してプロセッサ５０２に結合され得る。

【0108】

ここでは単一のバスとして描かれているが、装置５００のバス５１２は複数のバスを含んでいてもよい。さらに、補助的なストレージが、装置５００の他のコンポーネントに直接的に結合されたり、ネットワーク上でアクセスされたりすることができ、それが、例えばメモリカードなどの単一の集積ユニット、又は例えば複数のメモリカードなどの複数のユニットを含み得る。装置５００は、従って、広範な多様な構成で実装され得る。

【0109】

本発明の実施形態は、カラー成分ビットレート割り当て向けの非可逆ＡＩピクチャコーディング方式に関し、図１Ａ－図５で説明したビデオコーディングシステム、エンコーダ、及びデコーダに適用可能である。

【0110】

なお、この出願で提供される方法は主に、Ｙ、Ｕ、及びＶ成分向けのビットレート割り当てプロセスに適用される。このプロセスは主として、エンコーダサイドによって制御される。デコーダサイドをいっそう適応的にするために、対応する制御ユニットをデコーダにも追加し得る。

【0111】

ビデオピクチャ信号は、通常、１つのルマ成分と２つのクロマ成分とを含む。ルマ成分は、通常、記号Ｙによって表され、クロマ成分は、通常、記号Ｕ又はＶによって表される。図６の（ａ）－（ｃ）に示すように、一般的に使用されるＹＵＶフォーマットは、以下のフォーマットを含む。図６において、×印はルマ成分のサンプリングポイントを表し、〇印は各クロマ成分のサンプリングポイントを表す。

【0112】

４：４：４フォーマット：クロマ成分がダウンサンプリングされない。

【0113】

４：２：２フォーマット：対ルマ成分でクロマ成分について２：１の水平ダウンサンプリングが実行され、垂直ダウンサンプリングは実行されない。２つのＵサンプリングポイント又はＶサンプリングポイントごとに、走査される各行が４つのＹサンプリングポイントを含む。

【0114】

４：２：０フォーマット：対ルマ成分でクロマ成分について２：１の水平ダウンサンプリングが実行され、且つ２：１の垂直ダウンサンプリングが実行される。

【0115】

ビデオピクチャがＹＵＶ４：２：０フォーマットである場合において、ピクチャブロックのルマ成分が２Ｎ×２Ｎピクチャブロックである場合、該ピクチャブロックのクロマ成分はＮ×Ｎピクチャブロックである。本発明のこの実施形態では、４：２：０フォーマットの例を用いて本発明の技術的ソリューションを説明する。しかしながら、理解され得ることには、本発明の技術的ソリューションは、ＹＵＶ４：２：０フォーマットに加えて、他のＹＵＶフォーマット又は例えばＲＧＢフォーマットといった他のビデオピクチャフォーマットにおける異なる成分間での相互予測にも適用可能である。一方、現在ブロックは、正方形ブロックであってもよいし、非正方形の長方形ブロック又は他の形状の領域であってもよく、本発明の実施形態で提供される技術的ソリューションがこれまた適用可能である。

【0116】

説明を容易にするために、第１信号成分及び第２信号成分を使用することによって本発明のこの実施形態を説明する。ピクチャ信号がルマ信号成分とクロマ信号成分とを含む場合、第１信号成分はクロマ成分とすることができ、第２信号成分はルマ成分とすることができる。ピクチャ信号が３つの信号成分Ｒ、Ｇ、及びＢを含む場合、第１信号成分は、３つの信号成分Ｒ、Ｇ、及びＢのうち任意の１つとすることができ、第２信号成分は、３つの信号成分Ｒ、Ｇ、及びＢのうち、第１信号成分とは異なる１つとすることができる。その他のやり方でピクチャ信号が複数の信号成分に分解される場合、同様の方法を用いて第１信号成分及び第２信号成分を指定し得る。

【0117】

以下で説明するように、この出願のこの実施形態では、品質係数がビットレート制御モジュール（又はビットレート割り当て制御モジュールとして参照する）に入力され得る。該モジュールが各成分の特徴マップの制御信号を生成する。各成分の制御信号の制御ベクトルに、対応する特徴マップを乗算することで、量子化された特徴値、すなわち、符号化対象の特徴値を取得する。

【0118】

図７Ａは、本発明の一実施形態に従ったＹＵＶビットレート割り当てのためのＡＩピクチャコーディングシステム７００を示している。ＡＩピクチャコーディングシステム７００は、ビデオピクチャエンコーダ及びデコーダに適用可能である。図７Ａに示すように、ピクチャコーディングシステム７００は、エンコーダサイドの、第１信号成分処理モジュール（例えば、Ｙ成分処理モジュール）、第２信号成分処理モジュール（例えば、ＵＶ成分処理モジュール）、ビットレート割り当て制御モジュール、及びエントロピー符号化モジュールと、デコーダサイドの、第１信号成分処理モジュール（Ｙ成分処理モジュール２）、第２信号成分処理モジュール（例えば、ＵＶ成分処理モジュール２）、及びエントロピー復号モジュールと、を含んでいる。ピクチャコーディングシステム７００は、オプションで、ジョイント処理モジュール、ジョイント処理モジュール２、及び品質応答モジュール（ビットレート割り当て制御モジュール２又はビットレート制御モジュール２としても参照する）を含む。ピクチャコーディングシステム７００では、Ｙ成分の品質係数及びＵＶ成分の品質係数がビットレート割り当て制御モジュールに入力される。該モジュールが、Ｙ成分処理モジュールによって出力されたＹ成分の特徴マップ及びＵＶ成分処理モジュールによって出力されたＵＶ成分の特徴マップ（これらは別々に第１特徴マップとして参照され得る）にそれぞれ適用される制御信号を出力するとともに、各信号成分の第２特徴マップを出力して、Ｙ成分及びＵＶ成分のビットレートを割り当てる。そして、これらの信号成分の第２特徴マップに基づいてビデオ信号のビットストリームが取得される。例えば、Ｙ成分処理モジュール及びＵＶ成分処理モジュールによって出力された特徴マップが共に直接連結され、あるいは、Ｙ成分処理モジュール及びＵＶ成分処理モジュールによって出力された特徴マップが共に直接足し合わされて、エンコーダによって最終的に出力される特徴マップを形成し、該最終的に出力される特徴マップに対してエントロピー符号化が実行される。オプションで、Ｙ成分処理モジュール及びＵＶ成分処理モジュールによって出力された特徴マップがジョイント処理モジュールに入力されて、エンコーダによって最終的に出力される特徴マップが取得され、該最終的に出力される特徴マップに対してエントロピー符号化が実行される。

【0119】

図７Ａに示すアーキテクチャにおいて、図７Ｂは符号化方法の一実施形態である。ステップ７０１：第１信号成分の品質係数に基づいて第１信号成分の制御信号を取得する。ステップ７０２：第２信号成分の品質係数に基づいて第２信号成分の制御信号を取得する。例えば、図７Ｂに示す実施形態において、第１信号成分の制御信号は、第１信号成分の品質係数に基づいてＮ個の候補第１制御信号から取得されることができ、Ｎは１より大きい整数である。第２信号成分の制御信号は、第２信号成分の品質係数に基づいてＭ個の候補第２制御信号から取得されることができ、Ｍは１より大きい整数である。ＮとＭは等しくてもよいし、等しくなくてもよい。これはこの出願において限定されることではない。

【0120】

ステップ７０３：第１信号成分の制御信号を第１信号成分の第１特徴マップに適用して、第１信号成分の第２特徴マップを取得する。ステップ７０４：第２信号成分の制御信号を第２信号成分の第１特徴マップに適用して、第２信号成分の第２特徴マップを取得する。

【0121】

例えば、一実施形態において、制御信号は、ネットワークによる学習を通じて生成され、Ｙ成分処理モジュール及びＵＶ成分処理モジュールの各々におけるネットワークの少なくとも１つの層によって出力された特徴マップ（これは第１特徴マップとして参照され得る）に適用されて、第２特徴マップが出力される。例えば、制御信号は、ネットワークの最後の層によって出力された特徴マップに適用される。

【0122】

ステップ７０５：第１信号成分の第２特徴マップと第２信号成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得する。

【0123】

Ｙ成分処理モジュール及びＵＶ成分処理モジュールの各々におけるネットワークの任意の層によって出力される第１特徴マップに制御信号が適用され得るので、第２特徴マップが出力された後に、ニューラルネットワークによる処理は、第２特徴マップに対して実行され続け得る。それに対応して、Ｙ成分の第２特徴マップとＵＶ成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得することは、
第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、又は
ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、を含む。

【0124】

ピクチャコーディングシステム７００がジョイント処理モジュールを含む場合、第１信号成分の第２特徴マップと第２信号成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得することは、
第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、又は
ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、に対してジョイント処理を実行して、ジョイント特徴マップを取得し、該ジョイント特徴マップに対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、を含む。

【0125】

詳細は以下の通りである。

【0126】

制御信号がＹ及びＵＶ特徴マップの制御ベクトルを含む場合、ビットレート割り当て制御モジュールは、学習を通じて、第１信号成分のＮ個の候補第１制御信号（例えば、制御ベクトル行列｛ｑ_ｙ１，ｑ_ｙ２，…，ｑ_ｙｉ，…，ｑ_ｙＮ｝）と、第２信号成分のＭ個の候補第２制御信号（例えば、制御ベクトル行列｛ｑ_ｕｖ１，ｑ_ｕｖ２，…，ｑ_ｕｖｊ，…，ｑ_ｕｖＭ｝）とを生成する。使用時に、Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の制御信号ｑ_ｙｉが取得され、ＵＶ成分の品質係数のインデックスｊに基づいて、第２信号成分の制御信号ｑ_ｕｖｊが取得される。Ｎ及びＭは１より大きい整数である。次いで、異なる成分の特徴マップを制御するために、各制御ベクトルにチャネルごとに対応する特徴マップが乗算される。この場合、デコーダサイドに送られるビデオ信号のビットストリームは、Ｙ成分の品質係数のインデックスｉ及びＵＶ成分の品質係数のインデックスｊを含む。

【0127】

制御信号がＹ及びＵＶ特徴マップの制御ベクトルとオフセットベクトルとを含む場合、上述の方法で説明したように、Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の制御ベクトルｑ_ｙｉ及びオフセットベクトルｂ_ｙｉが取得され、ＵＶ成分の品質係数のインデックスｊに基づいて、第２信号成分の制御ベクトルｑ_ｕｖｊ及びオフセットベクトルｂ_ｕｖｉが取得される。次いで、異なる成分の特徴マップを制御するために、各制御ベクトルにチャネルごとに対応する特徴マップが乗算され、且つ対応するオフセットベクトルが加算される。

【0128】

他の一実施形態において、Ｙ成分の制御信号及びＵＶ成分の制御信号が２タプルとして使用される。ビットレート割り当て制御モジュールは、学習を通じて、ビデオ信号のＮ個の候補制御信号（例えば、制御信号行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃｉ，…，ｑ_ｃＮ｝を生成する。この場合、ｃは２であり、各制御ベクトルｑ_ｃｉが、第１信号成分の制御ベクトル及び第２信号成分の制御ベクトルの両方を含む。次いで、ビデオ信号の品質係数のインデックスｉに基づいて、第１信号成分及び第２信号成分を含む制御信号ｑ_ｃｉが取得される。オフセットベクトルは同様にして実装される。具体的には、ビデオ信号の各オフセットベクトルが、第１信号成分のオフセットベクトル及び第２信号成分のオフセットベクトルの両方を含む。この場合、デコーダサイドに送られるビデオ信号のビットストリームは、ビデオ信号の品質係数のインデックスｉを含む。

【0129】

更なる他の一実施形態において、Ｙ成分の品質係数及びＵＶ成分の品質係数が、全結合型ネットワークへの入力として使用され、制御ベクトルｑ_ｙｉ及び制御ベクトルｑ_ｕｖｊが出力される。異なる成分の特徴マップを制御するために、各制御ベクトルにチャネルごとに対応する特徴マップが乗算される。Ｙ成分の品質係数及びＵＶ成分の品質係数が全結合型ネットワークへの入力として使用され、オフセットベクトルｂ_ｙｉ及びオフセットベクトルｂ_ｕｖｊが更に出力され得る。次いで、異なる成分の特徴マップを制御するために、各制御ベクトルにチャネルごとに対応する特徴マップが乗算され、且つ各オフセットベクトルがチャネルごとに対応する特徴マップに加算される。この場合、デコーダサイドに送られるビデオ信号のビットストリームは、Ｙ成分の品質係数及びＵＶ成分の品質係数を含む。

【0130】

デコーダサイドは、受信したビットストリームに対してエントロピー復号を実行して特徴マップを取得し、該特徴マップが、Ｙ成分の特徴マップとＵＶ成分の特徴マップとに分解される。オプションで、エントロピー復号を通じて取得された特徴マップが最初にジョイント処理サブモジュール２に入力されて、Ｙ成分の特徴マップ及びＵＶ成分の特徴マップが取得される。

【0131】

Ｙ成分の特徴マップ及びＵＶ成分の特徴マップが、それぞれ、Ｙ成分処理モジュール２及びＵＶ成分処理モジュール２に入力されて、Ｙ成分の再構成マップ及びＵＶ成分の再構成マップが出力される。オプションで、Ｙ成分の品質係数及びＵＶ成分の品質係数が品質応答モジュールに入力される。該モジュールが、Ｙ成分及びＵＶ成分の適応品質応答を実装するために、Ｙ成分処理モジュールによって出力されるＹ成分の特徴マップ及びＵＶ成分処理モジュールによって出力されるＵＶ成分の特徴マップにそれぞれ適用される応答信号を出力する。品質応答は、品質制御として参照されることもあり、単に、エンコーダサイドでの品質制御から区別するために、デコーダサイドでは品質応答として参照される。

【0132】

具体的には、一例として図７Ｃに示すように、ステップ７１１：デコーダサイドが、エンコーダサイドからビデオ信号のビットストリームを取得し、ビットストリームに対してエントロピー復号を実行して、ビデオ信号の第１信号成分（例えば、Ｙ成分）の特徴マップ及びビデオ信号の第２信号成分（例えば、ＵＶ成分）の特徴マップを取得する。

【0133】

デコーダサイドは更に、ビットストリームから、第１信号成分の品質係数情報及び第２信号成分の品質係数情報を取得する。第１信号成分の品質係数情報は、第１信号成分の品質係数、又は第１信号成分の品質係数のインデックスである。第２信号成分の品質係数情報は、第２信号成分の品質係数、又は第２信号成分の品質係数のインデックスである。そして、第１信号成分の品質係数情報に基づいて、第１信号成分の応答信号が取得され、第２信号成分の品質係数情報に基づいて、第２信号成分の応答信号が取得される。第１信号成分の品質係数情報が第１信号成分の品質係数である場合、第１信号成分の品質係数の値はＮのうちの１つである。あるいは、第１信号成分の品質係数情報が第１信号成分の品質係数のインデックスである場合、第１信号成分の品質係数のインデックスの値域は０からＮ－１又は１からＮであり、Ｎは１より大きい整数である。同様に、第２信号成分の品質係数情報が第２信号成分の品質係数である場合、第２信号成分の品質係数の値はＭのうちの１つである。あるいは、第２信号成分の品質係数情報が第２信号成分の品質係数のインデックスである場合、第２信号成分の品質係数のインデックスの値域は０からＭ－１又は１からＭであり、Ｍは１より大きい整数である。

【0134】

ジョイント特徴マップがエンコーダサイドから伝達される場合、デコーダサイドは更に、ジョイント特徴マップに対してエントロピー復号を実行し、ニューラルネットワークによる処理を通じて、第１信号成分の特徴マップ及び第２信号成分の特徴マップを取得する必要がある。

【0135】

ステップ７１２：第１信号成分の品質係数情報に基づいて、第１信号成分の応答信号を取得する。ステップ７１３：第２信号成分の品質係数情報に基づいて、第２信号成分の応答信号を取得する。

【0136】

一実施形態において、ビットストリームがＹ成分の品質係数のインデックスｉ及びＵＶ成分の品質係数のインデックスｊを含む場合、デコーダサイドは、学習を通じて、第１信号成分の応答信号行列｛ｇ_ｙ１，ｇ_ｙ２，…，ｇ_ｙｉ，…，ｇ_ｙＮ｝と、第２信号成分の応答信号行列｛ｇ_ｕｖ１，ｇ_ｕｖ２，…，ｇ_ｕｖｊ，…，ｇ_ｕｖＭ｝とを生成する必要があり、Ｎ及びＭは１より大きい整数である。オプションで、エンコーダサイドでの第１信号成分の制御信号行列｛ｑ_ｙ１，ｑ_ｙ２，…，ｑ_ｙｉ，…，ｑ_ｙＮ｝の逆数をとることによって、第１信号成分の応答信号行列｛ｇ_ｙ１，ｇ_ｙ２，…，ｇ_ｙｉ，…，ｇ_ｙＮ｝が取得され、エンコーダサイドでの第２信号成分の制御信号行列｛ｑ_ｕｖ１，ｑ_ｕｖ２，…，ｑ_ｕｖｊ，…，ｑ_ｕｖＭ｝の逆数をとることによって、第２信号成分の応答信号行列｛ｇ_ｕｖ１，ｇ_ｕｖ２，…，ｇ_ｕｖｊ，…，ｇ_ｕｖＭ｝が取得され、Ｎ及びＭは１より大きい整数である。Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の応答信号ｇ_ｙｉが取得される。ＵＶ成分の品質係数のインデックスｊに基づいて、第２信号成分の応答信号ｇ_ｕｖｊが取得される。

【0137】

他の一実施形態において、ビットストリームがビデオ信号の品質係数のインデックスｉを含む場合、デコーダサイドは、学習を通じて、ビデオ信号の応答信号行列｛ｇ_ｃ１，ｇ_ｃ２，…，ｇ_ｃｉ，…，ｇ_ｃＮ｝を生成する必要があり、ｃは２であってＹ成分及びＵＶ成分を表し、Ｎは１より大きい整数である。オプションで、エンコーダサイドでのビデオ信号の制御信号行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃｉ，…，ｑ_ｃＮ｝の逆数をとることによって、ビデオ信号の応答信号行列｛ｇ_ｃ１，ｇ_ｃ２，…，ｇ_ｃｉ，…，ｇ_ｃＮ｝が取得され、ｃは２であってＹ成分及びＵＶ成分を表し、Ｎは１より大きい整数である。ビデオ信号の品質係数のインデックスｉに基づいて、第１信号成分及び第２信号成分を含む応答信号ｇ_ｃｉが取得される。

【0138】

更なる他の一実施形態において、ビットストリームが第１信号成分の品質係数及び第２信号成分の品質係数を含む場合、デコーダサイドは、Ｙ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｙ成分の応答信号を出力し、ＵＶ成分の品質係数を全結合型ネットワークへの入力として使用し、ＵＶ成分の応答信号を出力する。

【0139】

ステップ７１４：第１信号成分の応答信号と第１信号成分の特徴マップとに基づいて、第１信号成分の再構成マップを取得する。ステップ７１５：第２信号成分の応答信号と第２信号成分の特徴マップとに基づいて、第２信号成分の再構成マップを取得する。

【0140】

応答信号が応答ベクトルを含む場合、第１信号成分の応答信号と第１信号成分の特徴マップとに基づいて、第１信号成分の再構成マップを取得することは、
第１信号成分の応答ベクトルに第１信号成分の特徴マップを乗算して、第１信号成分の再構成マップを取得すること、又は、第１信号成分の応答ベクトルに第１信号成分の特徴マップを乗算し、次いで、ニューラルネットワークによる処理を通じて、第１信号成分の再構成マップを取得することを含む。

【0141】

第２信号成分の応答信号と第２信号成分の特徴マップとに基づいて、第２信号成分の再構成マップを取得することは、
第２信号成分の応答ベクトルに第２信号成分の特徴マップを乗算して、第２信号成分の再構成マップを取得すること、又は、第２信号成分の応答ベクトルに第２信号成分の特徴マップを乗算し、次いで、ニューラルネットワークによる処理を通じて、第２信号成分の再構成マップを取得することを含む。

【0142】

応答信号が応答ベクトルとオフセットベクトルとを含む場合、第１信号成分の応答信号と第１信号成分の特徴マップとに基づいて、第１信号成分の再構成マップを取得することは、
第１信号成分の応答ベクトルに第１信号成分の特徴マップを乗算し、次いで、第１信号成分のオフセットベクトルを加算して、第１信号成分の再構成マップを取得すること、又は、第１信号成分の応答ベクトルに第１信号成分の特徴マップを乗算し、第１信号成分のオフセットベクトルを加算し、次いで、ニューラルネットワークによる処理を通じて、第１信号成分の再構成マップを取得することを含む。

【0143】

第２信号成分の応答信号と第２信号成分の特徴マップとに基づいて、第２信号成分の再構成マップを取得することは、
第２信号成分の応答ベクトルに第２信号成分の特徴マップを乗算し、次いで、第２信号成分のオフセットベクトルを加算して、第２信号成分の再構成マップを取得すること、又は、第２信号成分の応答ベクトルに第２信号成分の特徴マップを乗算し、第２信号成分のオフセットベクトルを加算し、次いで、ニューラルネットワークによる処理を通じて、第２信号成分の再構成マップを取得することを含む。

【0144】

ステップ７１６：第１信号成分の再構成マップと第２信号成分の再構成マップとに基づいてビデオ信号を再構成する。

【0145】

図７Ｄは、本発明の一実施形態に従ったＹＵＶビットレート割り当てのためのＡＩピクチャコーディングシステム７１０を示している。ＡＩピクチャコーディングシステム７１０は、ビデオピクチャエンコーダ及びデコーダに適用可能である。図７Ｄに示すように、ピクチャコーディングシステム７１０は、エンコーダサイドの、第１信号成分処理モジュール（例えば、Ｙ成分処理モジュール）、第２信号成分処理モジュール（例えば、Ｕ成分処理モジュール）、第３信号成分処理モジュール（例えば、Ｖ成分処理モジュール）、ビットレート割り当て制御モジュール、及びエントロピー符号化モジュールと、デコーダサイドの、第１信号成分処理モジュール（Ｙ成分処理モジュール２）、第２信号成分処理モジュール（例えば、Ｕ成分処理モジュール２）、第３信号成分処理モジュール（例えば、Ｖ成分処理モジュール２）、及びエントロピー復号モジュールと、を含んでいる。ピクチャコーディングシステム７１０は、オプションで、ジョイント処理モジュール、ジョイント処理モジュール２、及び品質応答モジュール（ビットレート割り当て制御モジュール２又はビットレート制御モジュール２としても参照する）を含む。ピクチャコーディングシステム７１０では、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数がビットレート割り当て制御モジュールに入力される。該モジュールが、Ｙ成分処理モジュールによって出力されたＹ成分の特徴マップ、Ｕ成分処理モジュールによって出力されたＵ成分の特徴マップ、及びＶ成分処理モジュールによって出力されたＶ成分の特徴マップ（これらは別々に第１特徴マップとして参照され得る）にそれぞれ適用される制御信号を出力するとともに、各信号成分の第２特徴マップを出力して、Ｙ成分、Ｕ成分、及びＶ成分のビットレートを割り当てる。そして、これらの信号成分の第２特徴マップに基づいてビデオ信号のビットストリームが取得される。例えば、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュールによって出力された特徴マップが共に直接連結され、あるいは、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュールによって出力された特徴マップが共に直接足し合わされて、エンコーダによって最終的に出力される特徴マップを形成し、該最終的に出力される特徴マップに対してエントロピー符号化が実行される。オプションで、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュールによって出力された特徴マップがジョイント処理モジュールに入力されて、エンコーダによって最終的に出力される特徴マップが取得され、該最終的に出力される特徴マップに対してエントロピー符号化が実行される。

【0146】

図７Ｄに示す実施形態において、第１信号成分の制御信号は、第１信号成分（Ｙ成分）の品質係数に基づいてＮ個の候補第１制御信号から取得されることができる。第２信号成分の制御信号は、第２信号成分（Ｕ成分）の品質係数に基づいてＭ個の候補第２制御信号から取得されることができる。第３信号成分の制御信号は、第３信号成分（Ｖ成分）の品質係数に基づいてＬ個の候補第３制御信号から取得されることができる。Ｎ、Ｍ、及びＬは、１より大きい整数であり、等しくてもよいし、等しくなくてもよい。これはこの出願において限定されることではない。

【0147】

図７Ｄに示すアーキテクチャにおいて、符号化及び復号方法は、図７Ｂ及び図７Ｃにおけるものと同様である。詳細は以下の通りである。

【0148】

例えば、一実施形態において、制御信号は、ネットワークによる学習を通じて生成され、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュールの各々におけるネットワークの少なくとも１つの層によって出力された特徴マップ（これは第１特徴マップとして参照され得る）に適用されて、第２特徴マップが出力される。例えば、制御信号は、ネットワークの最後の層によって出力された特徴マップに適用される。Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュールの各々におけるネットワークの任意の層によって出力される第１特徴マップに制御信号が適用され得るので、第２特徴マップが出力された後に、ニューラルネットワークによる処理は、第２特徴マップに対して実行され続け得る。それに対応して、Ｙ成分の第２特徴マップと、Ｕ成分の第２特徴マップと、Ｖ成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得することは、
第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、第３信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、第３信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、ニューラルネットワークによって処理された第３信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、ニューラルネットワークによって処理された第３信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、第３信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、第３信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、
ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、ニューラルネットワークによって処理された第２信号成分の第２特徴マップと、ニューラルネットワークによって処理された第３信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、又は
ニューラルネットワークによって処理された第１信号成分の第２特徴マップと、第２信号成分の第２特徴マップと、ニューラルネットワークによって処理された第３信号成分の第２特徴マップと、に対してエントロピー符号化を実行して、ビデオ信号のビットストリームを取得すること、を含む。

【0149】

ピクチャコーディングシステム７１０がジョイント処理モジュールを含む場合、取得された第２特徴マップ、又は処理された特徴マップと組み合わせに対して、更にジョイント処理を実行して、ジョイント特徴マップを取得することができ、該ジョイント特徴マップに対してエントロピー符号化が実行されて、ビデオ信号のビットストリームが取得される。

【0150】

詳細は以下の通りである。

【0151】

制御信号がＹ、Ｕ、及びＶ特徴マップの制御ベクトルを含む場合、ビットレート割り当て制御モジュールは、学習を通じて、第１信号成分のＮ個の候補第１制御信号（例えば、制御ベクトル行列｛ｑ_ｙ１，ｑ_ｙ２，…，ｑ_ｙｉ，…，ｑ_ｙＮ｝）と、第２信号成分のＭ個の候補第２制御信号（例えば、制御ベクトル行列｛ｑ_ｕ１，ｑ_ｕ２，…，ｑ_ｕｊ，…，ｑ_ｕＭ｝）と、第３信号成分のＬ個の候補第３制御信号（例えば、制御ベクトル行列｛ｑ_ｖ１，ｑ_ｖ２，…，ｑ_ｖｋ，…，ｑ_ｖＬ｝）とを生成する。使用時に、Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の制御信号ｑ_ｙｉが取得される。Ｕ成分の品質係数のインデックスｊに基づいて、第２信号成分の制御信号ｑ_ｕｊが取得される。Ｖ成分の品質係数のインデックスｋに基づいて、第３信号成分の制御信号ｑ_ｖｋが取得される。次いで、異なる成分の特徴マップを制御するために、各制御ベクトルにチャネルごとに対応する特徴マップが乗算される。この場合、デコーダサイドに送られるビデオ信号のビットストリームは、Ｙ成分の品質係数のインデックスｉ、Ｕ成分の品質係数のインデックスｊ、及びＶ成分の品質係数のインデックスｋを含む。

【0152】

制御信号がＹ、Ｕ、及びＶ特徴マップの制御ベクトルとオフセットベクトルとを含む場合、上述の方法で説明したように、使用時に、Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の制御ベクトルｑ_ｙｉ及びオフセットベクトルｂ_ｙｉが取得され、ＵＶ成分の品質係数のインデックスｊに基づいて、第２信号成分の制御ベクトルｑ_ｕｊ及びオフセットベクトルｂ_ｕｉが取得され、Ｖ成分の品質係数のインデックスｋに基づいて、第３信号成分の制御ベクトルｑ_ｖｋ及びオフセットベクトルｂ_ｖｉが取得される。次いで、異なる成分の特徴マップを制御するために、各制御ベクトルにチャネルごとに対応する特徴マップが乗算され、且つ対応するオフセットベクトルが加算される。

【0153】

他の一実施形態において、Ｙ成分の制御信号、Ｕ成分の制御信号、及びＶ成分の制御信号が３タプルとして使用される。ビットレート割り当て制御モジュールは、学習を通じて、ビデオ信号のＮ個の候補制御信号（例えば、制御ベクトル行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃｉ，…，ｑ_ｃＮ｝を生成する。この場合、ｃは３であり、各制御ベクトルｑ_ｃｉが、第１信号成分の制御ベクトル、第２信号成分の制御ベクトル、及び第３信号成分の制御ベクトルを含む。次いで、ビデオ信号の品質係数のインデックスｉに基づいて、第１信号成分、第２信号成分、及び第３信号成分を含む制御信号ｑ_ｃｉが取得される。オフセットベクトルは同様にして実装される。具体的には、ビデオ信号の各オフセットベクトルが、第１信号成分のオフセットベクトル、第２信号成分のオフセットベクトル、及び第３信号成分のオフセットベクトルを含む。この場合、デコーダサイドに送られるビデオ信号のビットストリームは、ビデオ信号の品質係数のインデックスｉを含む。

【0154】

更なる他の一実施形態において、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数が、全結合型ネットワークへの入力として使用され、制御ベクトルｑ_ｙｉ、制御ベクトルｑ_ｕｊ、及び制御ベクトルｑ_ｖｋが出力される。異なる成分の特徴マップを制御するために、各制御ベクトルにチャネルごとに対応する特徴マップが乗算される。Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数が全結合型ネットワークへの入力として使用され、オフセットベクトルｂ_ｙｉ、オフセットベクトルｂ_ｕｊ、及びオフセットベクトルｂ_ｖｋが更に出力され得る。次いで、異なる成分の特徴マップを制御するために、各制御ベクトルにチャネルごとに対応する特徴マップが乗算され、且つ各オフセットベクトルがチャネルごとに対応する特徴マップに加算される。この場合、デコーダサイドに送られるビデオ信号のビットストリームは、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数を含む。

【0155】

デコーダサイドは、受信したビットストリームに対してエントロピー復号を実行して特徴マップを取得し、該特徴マップが、Ｙ成分の特徴マップと、Ｕ成分の特徴マップと、Ｖ成分の特徴マップとに分解される。オプションで、エントロピー復号を通じて取得された特徴マップが最初にジョイント処理サブモジュール２に入力されて、Ｙ成分の特徴マップ、Ｕ成分の特徴マップ、及びＶ成分の特徴マップが取得される。

【0156】

Ｙ成分の特徴マップ、Ｕ成分の特徴マップ、及びＶ成分の特徴マップが、それぞれ、Ｙ成分処理モジュール２、Ｕ成分処理モジュール２、及びＶ成分処理モジュール２に入力されて、Ｙ成分の再構成マップ、Ｕ成分の再構成マップ、及びＶ成分の再構成マップが出力される。オプションで、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数が品質応答モジュールに入力される。該モジュールが、Ｙ、Ｕ、及びＶ成分の適応品質応答を実装するために、Ｙ成分処理モジュールによって出力されるＹ成分の特徴マップ、Ｕ成分処理モジュールによって出力されるＵ成分の特徴マップ、及びＶ成分処理モジュールによって出力されるＶ成分の特徴マップにそれぞれ適用される制御信号を出力する。

【0157】

応答信号は、制御信号のやり方と同様のやり方で生成される。区別を容易にするために、エンコーダサイドの信号を制御信号として参照し、デコーダサイドの信号を応答信号として参照する。

【0158】

具体的には、デコーダサイドは、エンコーダサイドからビデオ信号のビットストリームを取得し、ビットストリームに対してエントロピー復号を実行して、ビデオ信号の第１信号成分（例えば、Ｙ成分）の特徴マップ、ビデオ信号の第２信号成分（例えば、Ｕ成分）の特徴マップ、及びビデオ信号の第３信号成分（例えば、Ｖ成分）の特徴マップを取得し、学習を通じて取得された第１信号成分の応答信号と第１信号成分の特徴マップとに基づいて、第１信号成分の再構成マップを取得し、学習を通じて取得された第２信号成分の応答信号と第２信号成分の特徴マップとに基づいて、第２信号成分の再構成マップを取得し、学習を通じて取得された第３信号成分の応答信号と第３信号成分の特徴マップとに基づいて、第３信号成分の再構成マップを取得し、第１信号成分の再構成マップと、第２信号成分の再構成マップと、第３信号成分の再構成マップとに基づいて、ビデオ信号を再構成する。

【0159】

デコーダサイドは更に、ビットストリームから、第１信号成分の品質係数情報、第２信号成分の品質係数情報、及び第３信号成分の品質係数情報を取得する。第１信号成分の品質係数情報及び第２信号成分の品質係数情報は、図７Ａに示した実施形態におけるものと同様である。同様に、第３信号成分の品質係数情報は、第３信号成分の品質係数、又は第３信号成分の品質係数のインデックスとし得る。そして、第３信号成分の品質係数情報に基づいて、第３信号成分の応答信号が取得される。第３信号成分の品質係数情報が第３信号成分の品質係数である場合、第３信号成分の品質係数の値はＬのうちの１つである。あるいは、第３信号成分の品質係数情報が第３信号成分の品質係数のインデックスである場合、第３信号成分の品質係数のインデックスの値域は０からＬ－１又は１からＬであり、Ｌは１より大きい整数である。Ｌ、Ｍ、及びＮは等しくてもよいし、等しくなくてもよい。これはこの出願において限定されることではない。

【0160】

ジョイント特徴マップがエンコーダサイドから伝達される場合、デコーダサイドは更に、ジョイント特徴マップに対してエントロピー復号を実行し、ニューラルネットワークによる処理を通じて、第１信号成分の特徴マップ、第２信号成分の特徴マップ、及び第３信号成分の特徴マップを取得する必要がある。

【0161】

一実施形態において、ビットストリームがＹ成分の品質係数のインデックスｉ、Ｕ成分の品質係数のインデックスｊ、及びＶ成分の品質係数のインデックスｋを含む場合、デコーダサイドは、学習を通じて、第１信号成分の応答信号行列｛ｇ_ｙ１，ｇ_ｙ２，…，ｇ_ｙｉ，…，ｇ_ｙＮ｝、第２信号成分の応答信号行列｛ｇ_ｕ１，ｇ_ｕ２，…，ｇ_ｕｊ，…，ｇ_ｕＭ｝、及び第３信号成分の応答信号行列｛ｇ_ｖ１，ｇ_ｖ２，…，ｇ_ｖｋ，…，ｇ_ｖＬ｝を生成する必要があり、Ｎ、Ｍ、及びＬは１より大きい整数である。オプションで、エンコーダサイドでの第１信号成分の制御信号行列｛ｑ_ｙ１，ｑ_ｙ２，…，ｑ_ｙｉ，…，ｑ_ｙＮ｝の逆数をとることによって、第１信号成分の応答信号行列｛ｇ_ｙ１，ｇ_ｙ２，…，ｇ_ｙｉ，…，ｇ_ｙＮ｝が取得され、エンコーダサイドでの第２信号成分の制御信号行列｛ｑ_ｕ１，ｑ_ｕ２，…，ｑ_ｕｊ，…，ｑ_ｕＭ｝の逆数をとることによって、第２信号成分の応答信号行列｛ｇ_ｕ１，ｇ_ｕ２，…，ｇ_ｕｊ，…，ｇ_ｕＭ｝が取得され、エンコーダサイドでの第３信号成分の制御信号行列｛ｑ_ｖ１，ｑ_ｖ２，…，ｑ_ｖｋ，…，ｑ_ｖＬ｝の逆数をとることによって、第３信号成分の応答信号行列｛ｇ_ｖ１，ｇ_ｖ２，…，ｇ_ｖｋ，…，ｇ_ｖＬ｝が取得され、Ｎ、Ｍ、及びＬは１より大きい整数である。Ｙ成分の品質係数のインデックスｉに基づいて、第１信号成分の応答信号ｇ_ｙｉが取得される。Ｕ成分の品質係数のインデックスｊに基づいて、第２信号成分の応答信号ｇ_ｕｊが取得される。Ｖ成分の品質係数のインデックスｋに基づいて、第３信号成分の応答信号ｇ_ｖｋが取得される。

【0162】

他の一実施形態において、ビットストリームがビデオ信号の品質係数のインデックスｉを含む場合、デコーダサイドは、学習を通じて、ビデオ信号の応答信号行列｛ｇ_ｃ１，ｇ_ｃ２，…，ｇ_ｃｉ，…，ｇ_ｃＮ｝を生成する必要があり、ｃは３であってＹ成分、Ｕ成分、及びＶ成分を表し、Ｎは１より大きい整数である。オプションで、エンコーダサイドでのビデオ信号の制御ベクトル行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃｉ，…，ｑ_ｃＮ｝の逆数をとることによって、ビデオ信号の応答信号行列｛ｇ_ｃ１，ｇ_ｃ２，…，ｇ_ｃｉ，…，ｇ_ｃＮ｝が取得され、ｃは３であってＹ成分、Ｕ成分、及びＶ成分を表し、Ｎは１より大きい整数である。ビデオ信号の品質係数のインデックスｉに基づいて、第１信号成分、第２信号成分、及び第３信号成分を含む応答信号ｇ_ｃｉが取得される。

【0163】

更なる他の一実施形態において、ビットストリームが第１信号成分の品質係数、第２信号成分の品質係数、及び第３信号成分の品質係数を含む場合、デコーダサイドは、Ｙ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｙ成分の応答信号を出力し、Ｕ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｕ成分の応答信号を出力し、Ｖ成分の品質係数を全結合型ネットワークへの入力として使用し、Ｖ成分の応答信号を出力する。

【0164】

第１信号成分及び第２信号成分の再構成マップが、図７Ａに示したのと同様にして取得される。詳細をここで再び説明することはしない。

【0165】

一実施形態において、応答信号が応答ベクトルを含む場合、第３信号成分の応答信号と第３信号成分の特徴マップとに基づいて、第３信号成分の再構成マップを取得することは、
第３信号成分の応答ベクトルに第３信号成分の特徴マップを乗算して、第３信号成分の再構成マップを取得すること、又は、第３信号成分の応答ベクトルに第３信号成分の特徴マップを乗算し、次いで、ニューラルネットワークによる処理を通じて、第３信号成分の再構成マップを取得することを含む。

【0166】

他の一実施形態において、応答信号が応答ベクトルとオフセットベクトルとを含む場合、第３信号成分の応答信号と第３信号成分の特徴マップとに基づいて、第３信号成分の再構成マップを取得することは、
第３信号成分の応答ベクトルに第３信号成分の特徴マップを乗算し、次いで、第３信号成分のオフセットベクトルを加算して、第３信号成分の再構成マップを取得すること、又は、第３信号成分の応答ベクトルに第３信号成分の特徴マップを乗算し、第３信号成分のオフセットベクトルを加算し、次いで、ニューラルネットワークによる処理を通じて、第３信号成分の再構成マップを取得することを含む。

【0167】

図７Ａの実施形態では、ＵＶ成分がコンビネーションとして処理される。図７Ｄにおいて、Ｙ、Ｕ、及びＶ成分は、別々に処理されることができ、あるいは、例えば、Ｙ成分とＵＶ成分とのコンビネーション、又はＹ、Ｕ、及びＶ成分の別のコンビネーションとして処理されることができる。

【0168】

図８Ａ及び図８Ｂは共に、具体的な一実施形態を提供する。図８Ａは、この実施形態に従った技術的スキームの全体ブロック図である。Ｙ成分の品質係数及びＵＶ成分の品質係数が、ビットレート割り当て制御モジュールに入力される。該モジュールが、Ｙ成分処理モジュールによって出力されたＹ成分の特徴マップ及びＵＶ成分処理モジュールによって出力されたＵＶ成分の特徴マップにそれぞれ適用される制御ベクトルｑ_ｙｉ及び制御ベクトルｑ_ｕｖｉを出力して、Ｙ成分及びＵＶ成分のビットレートを割り当てる。

【0169】

デコーダサイドは、Ｙ成分の品質係数及びＵＶ成分の品質係数を品質応答モジュールに入力する。該モジュールが、Ｙ成分の特徴マップ及びＵＶ成分の特徴マップにそれぞれ適用される制御ベクトルｇ_ｙｉ及び制御ベクトルｇ_ｕｖｉを出力して、Ｙ成分及びＵＶ成分のそれぞれの品質利得応答を実装する。

【0170】

この実施形態において、図８Ｂに示す具体例の理解を容易にするために、Ｙ成分処理モジュール、ＵＶ成分処理モジュール、ジョイント処理モジュール、確率推定モジュール、Ｙ成分処理モジュール２、ＵＶ成分処理モジュール２、及びジョイント処理モジュール２の具体的なネットワーク構造に限定は課されない。

【0171】

ステップ１：Ｙ成分及びＵＶ成分の特徴マップを取得する。

【0172】

Ｙ成分及びＵＶ成分が、それぞれ、Ｙ成分処理モジュール及びＵＶ成分処理モジュールに入力され、ネットワークがＹ成分及びＵＶ成分の特徴マップを出力する。図８Ｂに示す例において、Ｙ成分処理モジュールは、２つの畳み込み層及び２つの非線形層を含む。該２つの畳み込み層において水平方向及び垂直方向のダウンサンプリング係数は２であり、Ｙ成分処理モジュールはＹ成分の特徴マップを出力する。ＵＶ成分処理モジュールは、２つの畳み込み層及び２つの非線形層を含む。１つめの畳み込み層における水平方向及び垂直方向のダウンサンプリング係数は１であり、すなわち、ダウンサンプリング処理は実行されない。ＵＶ成分処理モジュール内の２つめの畳み込み層において水平方向及び垂直方向のダウンサンプリング係数は２である。ＵＶ成分処理モジュールはＵＶ成分の特徴マップを出力する。ネットワークによる上述の処理の後、ＹＵＶ４２０データフォーマットでは、Ｙ成分の特徴マップの幅及び高さは、ＵＶ成分の特徴マップのそれらと同じである。

【0173】

ＹＵＶ４２０データフォーマットの処理方式と同様に、ＹＵＶ４４４データフォーマット及びＹＵＶ４２２データフォーマットでも、Ｙ成分の特徴マップの幅及び高さがＵＶ成分の特徴マップのそれらと同じになるように、畳み込み層の数並びに水平方向及び垂直方向のダウンサンプリング係数が制御される。

【0174】

ステップ２：Ｙ成分の品質係数及びＵＶ成分の品質係数をビットレート割り当てモジュールに入力して、制御ベクトルｑ_ｙｉ及び制御ベクトルｑ_ｕｖｉを取得し、制御ベクトルｑ_ｙｉ及び制御ベクトルｑ_ｕｖｉにチャネルごとにＹ成分及びＵＶ成分の特徴マップを乗算し、て、Ｙ成分及びＵＶ成分の処理済み特徴マップを取得し、足し合わせた又は連結した処理済み特徴マップをジョイント処理モジュールに入力し、符号化対象の特徴マップを出力する。

【0175】

ビットレート割り当てモジュールは、制御行列Ｑ_ｙ及びＱ_ｕｖを含んでおり、Ｙ成分の品質係数及びＵＶ成分の品質係数を制御行列Ｑ_ｙ及びＱ_ｕｖのインデックス値として用いて、Ｑ_ｙ及びＱ_ｕｖのインデックスから制御ベクトルｑ_ｙｉ及び制御ベクトルｑ_ｕｖｉを取得する。制御行列Ｑ_ｙ及びＱ_ｕｖは、ネットワークによる学習を通じて取得される。Ｙ成分の品質係数及びＵＶ成分の品質係数は任意の設定値である。

【0176】

図８Ｂに示す例において、制御行列Ｑ_ｙは、Ｋ×Ｎのサイズを持つ２次元行列であり、制御行列Ｑ_ｕｖは、Ｌ×Ｍのサイズを持つ２次元行列であり、これら２つの行列内の各要素は、ネットワークによって学習可能なパラメータである。Ｋは、Ｙ成分の特徴マップの数を表し、Ｌは、ＵＶ成分の特徴マップの数を表し、Ｎは、Ｙ成分の品質係数の候補値のＮ個のグループを表し、Ｍは、ＵＶ成分の品質係数の候補値のＭ個のグループを表す。例えば、Ｎが４であり且つＭが４である場合、Ｙ成分の品質係数の候補値は｛０．５，０．７，０．８，１．０｝であり、ＵＶ成分の品質係数の候補値は｛０．１５，０．２，０．２５，０．３｝である。

【0177】

ステップ３：符号化対象の特徴マップをエントロピー符号化モジュールに入力し、ビットストリームを出力する。図８Ｂに示す例では、符号化対象の特徴マップが符号化特徴マップハイパーエントロピーモジュールに入力されて、符号化対象のシンボルの確率分布が出力される。符号化対象のシンボルの確率分布に基づいて算術符号化が実行され、ビットストリームが出力される。また、Ｙ成分の品質係数及びＵＶ成分の品質係数に関する情報がビットストリームに書き込まれる。

【0178】

Ｙ成分の品質係数及びＵＶ成分の品質係数に関する情報は、以下の３つの方式で表現されてビットストリームに書き込まれ得る。

【0179】

方式１：Ｙ成分の品質係数の候補値の数及び候補値、並びにＵＶ成分の候補値の数及び候補値が予め定められ、Ｙ成分の品質係数及びＵＶ成分の品質係数のそれぞれの候補リストにおけるインデックス番号がデコーダサイドに伝達される。例えば、Ｎが４であり且つＭが３である場合、Ｙ成分の品質係数の候補値は｛０．５，０．７，０．８，１．０｝であり、ＵＶ成分の品質係数の候補値は｛０．１５，０．２，０．２５｝である。Ｙ成分のインデックス番号ｉ及びＵＶ成分のインデックス番号ｊがビットストリームに書き込まれ、ｉ及びｊの値は、０、１、２、及び３である。ｉが１であるとき、それはＹ成分の品質係数が０．７であることを示し、ｊが０であるとき、それはＵＶ成分の品質係数が０．１５であることを示す。

【0180】

方式２：Ｙ成分の品質係数及びＵＶ成分の品質係数が組み合わされた後の候補値の数及び候補値が予め定められる。例えば、Ｙ成分及びＵＶ成分の品質係数のコンビネーション値の候補値の数は６であり、候補リストは｛（０．５，０．２５），（０．７，０．１５），（０．７，０．２５），（０．８，０．１），（０．８，０．２），及び（１．０，０．２）｝である。インデックス番号ｉがビットストリームに書き込まれ、ｉの値は０、１、２、３、４、及び５である。ｉが１である場合、それはＹ成分及びＵＶ成分の品質係数が（０．７，０．１５）であることを示す。

【0181】

方式３：Ｙ成分の品質係数及びＵＶ成分の品質係数が直接、ビットストリームに書き込まれてデコーダサイドに伝達される。例えば、（１．０，０．２）がビットストリームに書き込まれる。

【0182】

ステップ４：ビットストリームをエントロピー復号モジュールに入力し、算術復号を実行して、特徴マップ、Ｙ成分の品質係数、及びＵＶ成分の品質係数を取得する。図８Ｂに示す例では、ハイパーエントロピーモジュールによって推定される確率分布に基づいて算術復号が実行される。

【0183】

ステップ５：復号を通じて特徴マップを取得し、該特徴マップをジョイント処理モジュール２に入力し、そのチャネルの数がＭである特徴マップを出力し、そのチャネルの数がＭである特徴マップを、そのチャネルの数がＫであるＹ成分の特徴マップと、そのチャネルの数がＬであるＵＶ成分の特徴マップとに分割する。この分割スキームでは、Ｋ≦Ｍ且つＬ≦Ｍである。Ｋ＝Ｌ＝Ｍであるとき、それは、Ｙ成分の特徴マップがＵＶ成分の特徴マップと同じであり、且つどちらもＭ個のチャネルを持つ特徴マップであることを示す。図８Ｂに示す例において、ジョイント処理モジュール２は、２つの畳み込み層及び１つの非線形層を含む。

【0184】

ステップ６：Ｙ成分の品質係数及びＵＶ成分の品質係数を品質応答モジュールに入力して、応答ベクトルｇ_ｙｉ及び応答ベクトルｇ_ｕｖｉを取得し、応答ベクトルｇ_ｙｉ及び応答ベクトルｇ_ｕｖｉにチャネルごとにＹ成分及びＵＶ成分の特徴マップを乗算して、品質利得後のＹ成分及びＵＶ成分の特徴マップを取得する。品質利得後のＹ成分及びＵＶ成分の特徴マップが、それぞれ、Ｙ成分処理モジュール２及びＵＶ成分処理モジュール２に入力され、Ｙ成分の再構成マップ及びＵＶ成分の再構成マップが出力される。

【0185】

品質応答モジュールは、応答行列Ｇ_ｙ及びＧ_ｕｖを含んでおり、復号を通じて得られたＹ成分の品質係数及びＵＶ成分の品質係数を応答行列Ｇ_ｙ及びＧ_ｕｖのインデックス値として用いて、Ｇ_ｙ及びＧ_ｕｖのインデックスから応答ベクトルｇ_ｙｉ及び応答ベクトルｇ_ｕｖｉを取得する。

【0186】

応答行列Ｇ_ｙ及びＧ_ｕｖは、ネットワークによる学習を通じて取得される。図８Ｂに示す例において、応答行列Ｇ_ｙは、Ｋ×Ｎのサイズを持つ２次元行列であり、応答行列Ｇ_ｕｖは、Ｌ×Ｍのサイズを持つ２次元行列であり、これら２つの行列内の各要素は、ネットワークによって学習可能なパラメータである。Ｋは、Ｙ成分の特徴マップの数を表し、Ｌは、ＵＶ成分の特徴マップの数を表し、Ｎは、Ｙ成分の品質係数の候補値のＮ個のグループを表し、Ｍは、ＵＶ成分の品質係数の候補値のＭ個のグループを表す。

【0187】

オプションで、応答行列Ｇ_ｙ及びＧ_ｕｖは、それぞれ、制御行列Ｑ_ｙ及びＱ_ｕｖの逆数をとることによって取得される。

【0188】

この実施形態では、ステップ１からステップ６でネットワークモジュール及び制御行列パラメータに対してトレーニング及び学習が実行される。具体的には、この出願では、ニューラルネットワークに対して最適化トレーニングを実行するために適応モーメント推定（Adaptive Moment Estimation，Ａｄａｍ）最適化アルゴリズムが使用され、ＩｍｇｅＮｅｔデータセットがトレーニングデータセットである。このネットワーク構造はピクチャコーディングを志向しているので、トレーニング最適化の目的は、ビットレート－歪み結合損失関数を最小化することであり、関数の関数式は次の通りである：

【数1】

【0189】

ｐ（ｙ）は、確率推定器によって推定される確率分布を表し、ｘ_ｙはＹ成分の元の値であり、ｘ_ｙ’はＹ成分の再構成マップであり、ｘ_ｕはＵ成分の元の値であり、ｘ_ｕ’はＵ成分の再構成マップであり、ｘ_ｖはＶ成分の元の値であり、ｘ_ｖ’はＶ成分の再構成マップであり、ｗ_ｙはＹ成分の品質係数であり、ｗ_ｕはＵ成分の品質係数であり、ｗ_ｖはＶ成分の品質係数である。λは定数であり、ターゲットビットレートに合致する。

【0190】

例えば、Ｎは４であり、Ｙ、Ｕ、及びＶ成分の品質係数（ｗ_ｙ，ｗ_ｕ，ｗ_ｖ）の候補値は、｛（０．５，０．２５，０．２５），（０．７，０．４，０．４），（０．８，０．１，０．１），（１．０，０．２，０．２）｝である。ネットワークによるトレーニング中に、重みグループのインデックス番号ｉが｛０，１，２，３｝からランダムに選択される。ｉに基づいて、重み値グループ（ｗ_ｙｉ，ｗ_ｕｉ，ｗ_ｖｉ）、学習対象の制御ベクトルｑ_ｙｉ、及び学習対象の制御ベクトルｑ_ｕｖｉが決定され、トレーニング目的に基づいてネットワークモジュール及び制御行列パラメータに対してトレーニング及び学習が実行される。

【0191】

ジョイント処理モジュール及び／又はジョイント処理モジュール２及び／又は品質応答モジュールが、この実施形態で提供されるコーデックから除去される場合、これは、この出願の他の実施形態に対して依然として適用可能である。

【0192】

この実施形態は、Ｙ、Ｕ、及びＶ成分がＹ成分とＵＶ成分とに組み合わされる技術的ソリューションを提供する。Ｙ、Ｕ、及びＶ成分の他のコンビネーション、例えば、｛ＹＵ，Ｖ｝及び｛ＹＶ，Ｕ｝に対して、この出願の解決案は依然として適用可能である。

【0193】

同様に、処理のためにＵＶ成分は更にＵ成分とＶ成分とに分割され、この出願の解決案は依然として適用可能である。

【0194】

従来のエンドツーエンドピクチャコーディングでは、特定のネットワークの学習及び最適化において、Ｙ、Ｕ、及びＶ成分の固定された重み値に基づいて最適化が行われる。従って、Ｙ、Ｕ、及びＶ成分のビットレートの比が固定されている。異なるピクチャは異なる色特性を持つので、固定のビットレート割り当ては、一部のビデオピクチャの乏しい符号化性能を引き起こす。Ｙ、Ｕ、及びＶ成分のビットレートの異なる割り当てを実施するために、単純に複数のモデルがＹ、Ｕ、及びＶ成分の複数グループの異なる重み値に基づいてトレーニングされることがあるかもしれない。しかしながら、これはモデルの数を増加させ、複数のモデルをトレーニングすることは、大量のコンピューティングリソース及び時間を消費する。従来技術と比較して、この出願では、Ｙ、Ｕ、及びＶ成分の導出された重み値に基づいてネットワークによる学習を通じて制御ベクトルが取得され、該制御ベクトルに基づいて、Ｙ成分及びＵＶ成分の特徴マップに対して異なる程度まで歪み制御が行われて、Ｙ成分及びＵＶ成分のビットレート割り当てを実施する。従って、この出願は以下の利点を有する。

【0195】

（１）Ｙ、Ｕ、及びＶ成分間でのビットレート割り当てが、異なる色特性を持つピクチャに適応することがサポートされる。

【0196】

（２）複数のモデルをトレーニングするのに必要な時間、及びモデルの新たなネットワークパラメータの数が減少される。

【0197】

図９Ａ及び図９Ｂは共に、具体的な一実施形態を提供する。この実施形態では、図９Ａ及び図９Ｂに示すように、Ｕ成分処理モジュール及びＶ成分処理モジュールを使用して、Ｕ成分データ及びＶ成分データをそれぞれ処理する。この実施形態では、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数が、ビットレート割り当て制御モジュールへの入力として用いられ、制御信号が出力されて、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュール内のいずれか層において特徴マップを処理することで、Ｙ、Ｕ、及びＶ成分間でのビットレート割り当てを実施する。デコーダサイドは、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数を品質応答モジュールへの入力として用い、制御信号が出力されて、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュール内のいずれかの層において特徴マップに対する品質利得応答を実行する。この出願において、図９Ａに示す具体例の理解を容易にするために、ビットレート割り当て制御モジュール、品質応答モジュール、Ｙ成分処理モジュール、Ｕ成分処理モジュール、ジョイント処理モジュール、Ｙ成分処理モジュール２、Ｕ成分処理モジュール２、Ｖ成分処理モジュール２、ジョイント処理モジュール２、エントロピー符号化モジュール、及びエントロピー復号モジュールの具体的なネットワーク構造に限定は課されない。

【0198】

図９Ｂに示す例において、ステップ１：Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数をビットレート割り当て制御モジュールに入力する。該モジュールは全結合型ネットワークを含んでおり、制御ベクトル及びオフセットベクトルである制御信号を出力する。

【0199】

ステップ２：符号化対象のＹ、Ｕ、及びＶ信号を、それぞれ、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュールに入力する。例えば、Ｙ成分処理モジュール内で、各畳み込み層で出力される特徴マップにチャネルごとにその特徴マップに対応する制御ベクトルが乗算され、次いで、チャネルごとにその特徴マップに対応するオフセットベクトルが加算される。該モジュール内の非線形層で出力される特徴マップにチャネルごとに対応する制御ベクトルが乗算される。Ｙ成分処理モジュール内のネットワークの各層で出力される特徴マップは、ビットレート制御モジュールによって出力される制御信号に基づいて処理される。Ｕ及びＶ成分の処理は、Ｙ成分のそれと同様である。

【0200】

図９Ｂは、具体的なネットワーク構造の概略図である。Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュールのネットワーク構造は、１つめの畳み込み層を除いて同じである。ＹＵＶ４２２フォーマットでは、Ｙ成分処理モジュール内の１つめの畳み込み層において、水平方向及び垂直方向のダウンサンプリング係数は２である。Ｕ成分処理モジュール及びＶ成分処理モジュール内の１つめの畳み込み層において、水平方向のダウンサンプリング係数は１であり、すなわち、ダウンサンプリング処理は実行されない。垂直方向ではダウンサンプリング係数は２である。ＹＵＶ４２０フォーマットでは、Ｙ成分処理モジュール内の１つめの畳み込み層において、水平方向及び垂直方向のダウンサンプリング係数は２である。Ｕ成分処理モジュール及びＶ成分処理モジュール内の１つめの畳み込み層において、水平方向及び垂直方向のダウンサンプリング係数は１であり、すなわち、ダウンサンプリング処理は実行されない。

【0201】

ステップ３：Ｙ成分の特徴マップ、Ｕ成分の特徴マップ、及びＶ成分の特徴マップを連結してスティッチングして符号化対象の特徴マップを形成し、該符号化対象の特徴マップをエントロピー符号化モジュールに入力し、ビットストリームを出力する。図９Ｂに示す例では、符号化対象の特徴マップが符号化特徴マップハイパーエントロピーモジュールに入力されて、符号化対象のシンボルの確率分布が出力される。符号化対象のシンボルの確率分布に基づいて算術符号化が実行され、ビットストリームが出力される。また、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数に関する情報がビットストリームに書き込まれる。

【0202】

ステップ４：ビットストリームをエントロピー復号モジュールに入力し、算術復号を実行して、特徴マップと、Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数に関する情報とを取得する。図９Ｂに示す例では、ハイパーエントロピーモジュールによって推定される確率分布に基づいて算術復号が実行される。

【0203】

ステップ５：復号を通じて得られた特徴マップをジョイント処理モジュール２に入力し、特徴マップを出力する。

【0204】

ステップ６：Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数を品質応答モジュールに入力して、応答ベクトルｇ_ｙｉ、応答ベクトルｇ_ｕｉ、及び応答ベクトルｇ_ｖｉを取得する。応答ベクトルｇ_ｙｉにチャネルごとにＹ成分処理モジュール２内の２つめの畳み込み層で出力された特徴マップが乗算されて、品質利得後の特徴マップが取得される。Ｕ及びＶ成分に対する処理プロセスは同様である。Ｙ成分処理モジュール２、Ｕ成分処理モジュール２、及びＶ成分処理モジュール２は、Ｙ、Ｕ、及びＶ成分の再構成マップを出力する。

【0205】

Ｙ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数が品質応答モジュールに入力される。該モジュールは、全結合型ネットワークを含んでおり、応答ベクトルｇ_ｙｉ、応答ベクトルｇ_ｕｉ、及び応答ベクトルｇ_ｖｉを出力する。

【0206】

オプションで、実施形態１における応答ベクトル取得方式と同様に、品質応答モジュールは、応答行列Ｇ_ｙ、Ｇ_ｕ、及びＧ_ｖを含み、復号を通じて得られたＹ成分の品質係数、Ｕ成分の品質係数、及びＶ成分の品質係数を、応答行列Ｇ_ｙ、Ｇ_ｕ、及びＧ_ｖのインデックス値として用いて、応答ベクトルｇ_ｙｉ、応答ベクトルｇ_ｕｉ、及び応答ベクトルｇ_ｖｉを取得する。応答行列Ｇ_ｙ、Ｇ_ｕ、及びＧ_ｖは、ネットワークによる学習を通じて取得される。

【0207】

ネットワークのトレーニングプロセスは、図８Ａ及び図８Ｂの実施形態におけるものと同様であり、詳細を再び説明することはしない。

【0208】

この実施形態では、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュール内のネットワークの各層で出力される特徴マップに制御信号が適用される。オプションで、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュール内のネットワークによって出力される一部の特徴マップのみに制御信号が適用される。

【0209】

この実施形態では、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュール内のネットワークの中間層で出力される特徴マップのみに応答信号が適用される。オプションで、Ｙ成分処理モジュール、Ｕ成分処理モジュール、及びＶ成分処理モジュール内のネットワークのいずれか１つ以上の層で出力される特徴マップに制御信号が適用される。

【0210】

ジョイント処理モジュール２及び／又は品質応答モジュールが、この実施形態で提供されるコーデックから除去される場合、この出願の技術は依然として適用可能である。

【0211】

ジョイント処理モジュールがこの実施形態で提供されるコーデックに追加される場合、この出願の技術は依然として適用可能である。

【0212】

この実施形態は、Ｙ、Ｕ、及びＶ成分が３つの成分として別々に処理される技術的ソリューションを提供する。Ｙ、Ｕ及びＶ成分の他のコンビネーション、例えば｛ＹＵ，Ｖ｝、｛ＹＶ，Ｕ｝及び｛Ｙ，ＵＶ｝に対して、この出願の技術の解決案は依然として適用可能である。

【0213】

上述の実施形態における説明に従って、この出願では、本発明において、Ｙ、Ｕ、及びＶ成分の品質係数がビットレート割り当て制御モジュールに入力され、該モジュールによって出力される制御信号が異なる成分の特徴マップに別々に適用されて、異なる成分のビットレート割り当てを実施する。異なる成分は、３つの成分：Ｙ、Ｕ、及びＶ成分、又は２つの成分：Ｙ及びＵＶ成分、又はＹ、Ｕ、及びＶ成分の別のコンビネーションを指し得る。

【0214】

オプションで、制御信号は、制御ベクトルｑ_ｉを示し、各異なる成分の品質係数に基づいて生成される。同一成分の重み行列｛ｑ_ｃ１，ｑ_ｃ２，…，ｑ_ｃＮ｝が、ネットワークによる学習を通じて取得され、ｃは２又は３であり、異なる成分の数を表し、Ｎは品質係数の候補値の数である。使用時、各異なる成分の品質係数のインデックスに基づいて、各異なる成分に対応する制御ベクトルｑ_ｃｉが取得される。

【0215】

オプションで、制御信号は、制御ベクトルｑとオフセットベクトルｂとを示す。各異なる成分の品質係数が全結合型ネットワークへの入力として使用され、該異なる成分に対応する制御ベクトルｑ及びオフセットベクトルｂが出力される。

【0216】

従って、この出願で提供される実施形態は：
（１）異なる色特性を持つピクチャに適応し、制御ベクトルに基づいてＹ、Ｕ、及びＶ成分間でのビットレート割り当てをサポートすることができ；
（２）複数のモデルをトレーニングするのに必要な時間、及びモデルの新たなネットワークパラメータの数を減少させることができる。

【0217】

図１０は、この出願の一実施形態に従った符号化装置１０００の構造の概略図である。当該符号化装置はビデオエンコーダ２０に相当し得る。符号化装置１０００は、第１の制御モジュール１００１、第２の制御モジュール１００２、及び符号化モジュール１００３を含む。第１の制御モジュール１００１は、ビデオ信号の第１信号成分の制御信号を第１信号成分の第１特徴マップに適用して、第１信号成分の第２特徴マップを取得するように構成され、第１信号成分の制御信号は学習を通じて取得される。第２の制御モジュール１００２は、ビデオ信号の第２信号成分の制御信号を第２信号成分の第１特徴マップに適用して、第２信号成分の第２特徴マップを取得するように構成され、第２信号成分の制御信号は学習を通じて取得される。符号化モジュール１００３は、第１信号成分の第２特徴マップと第２信号成分の第２特徴マップとに基づいて、ビデオ信号のビットストリームを取得するように構成される。符号化装置１０００は更に、上述の実施形態で説明されたビットレート割り当て制御モジュールを含み得る。符号化装置１０００は、上述の実施形態で説明された符号化方法を実装するように構成される。詳細な機能については、上述の実施形態における説明を参照されたく、詳細をここで再び説明することはしない。

【0218】

図１１は、この出願の一実施形態に従った復号装置１１００の構造の概略図である。復号装置１１００はビデオデコーダ３０に相当し得る。復号装置１１００は、復号モジュール１１０１、第１の制御モジュール１１０２、第２の制御モジュール１１０３、及び再構成モジュール１１０４を含む。復号モジュール１１０１は、ビデオ信号のビットストリームを取得し、ビットストリームに対してエントロピー復号を実行して、ビデオ信号の第１信号成分の特徴マップと、ビデオ信号の第２信号成分の特徴マップとを取得するように構成される。第１の制御モジュール１１０２は、第１信号成分の応答信号と第１信号成分の特徴マップとに基づいて、第１信号成分の再構成マップを取得するように構成され、第１信号成分の応答信号は学習を通じて取得される。第２の制御モジュール１１０３は、第２信号成分の応答信号と第２信号成分の特徴マップとに基づいて、第２信号成分の再構成マップを取得するように構成され、第２信号成分の応答信号は学習を通じて取得される。再構成モジュール１１０４は、第１信号成分の再構成マップと第２信号成分の再構成マップとに基づいて、ビデオ信号を再構成するように構成される。復号装置１１００は更に、上述の実施形態で説明された品質応答モジュールを含み得る。復号装置１１００は、上述の実施形態で説明された復号方法を実装するように構成される。詳細な機能については、上述の実施形態における説明を参照されたく、詳細をここで再び説明することはしない。

【0219】

当業者が理解し得ることには、ここに開示及び記載された様々な例示的な論理ブロック、モジュール、及びアルゴリズムステップを参照して説明された機能は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせによって実装されることができる。ソフトウェアによって実装される場合、それら例示的な論理ブロック、モジュール、及びステップを参照して説明された機能は、１つ以上の命令又はコードとして、コンピュータ読み取り可能媒体に格納され又はそれ上で伝送され、そして、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ読み取り可能媒体は、例えばデータ記憶媒体などの有形媒体に対応するものであるコンピュータ読み取り可能記憶媒体を含むことができ、あるいは、（例えば通信プロトコルに従った）１つの場所から別の場所へのコンピュータプログラムの伝送を支援する任意の通信媒体を含むことができる。斯くして、コンピュータ読み取り可能媒体は、一般に、（１）非一時的な有形のコンピュータ読み取り可能記憶媒体、又は（２）例えば信号又は搬送波などの通信媒体に対応し得る。データ記憶媒体は、この出願に記載された技術を実装するための命令、コード及び／又はデータ構造を取り出すために１つ以上のコンピュータ又は１つ以上のプロセッサによってアクセスされることができる任意の使用可能な媒体とし得る。コンピュータプログラムプロダクトがコンピュータ読み取り可能媒体を含み得る。

【0220】

例として、限定ではなく、そのようなコンピュータ読み取り可能記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭ若しくは他の光ディスクストレージ装置、磁気ディスクストレージ装置若しくは他の磁気ストレージ装置、フラッシュメモリ、又は、命令若しくはデータ構造の形態で必要なプログラムコードを格納することができ且つコンピュータによってアクセスされることができる任意の他の媒体を含み得る。また、任意の接続が適切にコンピュータ読み取り可能媒体として参照される。例えば、命令が、ウェブサイト、サーバ、又は他のリモートソースから、同軸ケーブル、光ファイバ、ツイストペア、デジタル加入者回線（ＤＳＬ）、又は例えば赤外線、無線、若しくはマイクロ波などの無線技術を介して伝送される場合、その同軸ケーブル、光ファイバ、ツイストペア、ＤＳＬ、又は例えば赤外線、無線、若しくはマイクロ波などの無線技術は、媒体の定義に含まれる。しかしながら、理解されるべきことには、コンピュータ読み取り可能記憶媒体及びデータ記憶媒体は、接続、搬送波、信号、又は他の一時的媒体を含まず、実際には、非一時的で有形の記憶媒体を意味する。この明細書で使用されるディスク（ｄｉｓｋ及びｄｉｓｃ）は、コンパクトディスク（ＣＤ）、レーザディスク、光ディスク、デジタル多用途ディスク（ＤＶＤ）、及びＢｌｕ－ｒａｙディスクを含む。ｄｉｓｋは、通常、磁気的にデータを再生し、ｄｉｓｃはレーザを用いることによって光学的にデータを再生する。上述のアイテムの組み合わせも、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。

【0221】

命令は、例えば１つ以上のデジタル信号プロセッサ（ＤＳＰ）、一般的なマイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は他の同等の集積回路若しくはディスクリート論理回路などの、１つ以上のプロセッサによって実行され得る。従って、この明細書で使用される用語“プロセッサ”は、上述の構造、又はこの明細書に記載された技術の実装に適用され得る任意の他の構造を指し得る。さらに、一部の態様において、この明細書に記載された例示的な論理ブロック、モジュール、及びステップを参照して説明された機能は、符号化及び復号のために構成された専用のハードウェア及び／又はソフトウェアモジュール内で提供されてもよいし、あるいは、組み合わされたコーデックに組み込まれてもよい。また、これらの技術は、１つ以上の回路又は論理素子にて完全に実装されてもよい。

【0222】

この出願における技術は、無線ハンドセット、集積回路（ＩＣ）、又は一組のＩＣ（例えば、チップセット）を含め、様々な装置又はデバイスにて実装され得る。この出願では、開示された技術を実行するように構成された装置の機能的側面を強調するために、様々なコンポーネント、モジュール、又はユニットが説明されているが、必ずしも、複数の異なるハードウェアユニットによる実現を必要とするわけではない。実際には、上述のように、様々なユニットが、適切なソフトウェア及び／又はファームウェアと組み合わせてコーデックハードウェアユニットへと結合されてもよいし、あるいは、相互運用可能な複数のハードウェアユニット（上述の１つ以上のプロセッサを含む）によって提供されてもよい。

【0223】

以上の説明は、単にこの出願の特定の実装の例であり、この出願の保護範囲を限定することを意図するものではない。この出願にて開示された技術的範囲内で当業者が容易に考え付く如何なる変更又は置換もこの出願の保護範囲に入るものである。従って、この出願の保護範囲は請求項の保護範囲に従うものである。

【図1A】