(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-22
(45)【発行日】2023-12-01
(54)【発明の名称】画像及びビデオコード化のための選択的成分間変換(ICT)
(51)【国際特許分類】
H04N 19/105 20140101AFI20231124BHJP
H04N 19/136 20140101ALI20231124BHJP
H04N 19/176 20140101ALI20231124BHJP
H04N 19/186 20140101ALI20231124BHJP
【FI】
H04N19/105
H04N19/136
H04N19/176
H04N19/186
(21)【出願番号】P 2021554725
(86)(22)【出願日】2020-03-11
(86)【国際出願番号】 EP2020056553
(87)【国際公開番号】W WO2020182907
(87)【国際公開日】2020-09-17
【審査請求日】2021-11-09
(32)【優先日】2019-03-12
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(74)【代理人】
【識別番号】100134119
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ヘルムリッヒ・クリスチャン
(72)【発明者】
【氏名】ルダット・クリスチャン
(72)【発明者】
【氏名】ニエン・トゥンホワン
(72)【発明者】
【氏名】シュヴァルツ・ハイコー
(72)【発明者】
【氏名】マルペ・デトレフ
(72)【発明者】
【氏名】ヴィーガンド・トーマス
【審査官】鉢呂 健
(56)【参考文献】
【文献】国際公開第2009/051010(WO,A1)
【文献】国際公開第2020/175970(WO,A1)
【文献】HELMRICH, Christian et al.,CE7-related: Joint chroma residual coding with multiple modes,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 14th Meeting: Geneva, CH, 19-27 March 2019, [JVET-N0282-v1],JVET-N0282 (version 1),ITU-T,2019年03月13日,<URL:https://jvet-experts.org/doc_end_user/documents/14_Geneva/wg11/JVET-N0282-v1.zip>: JVET-N0282-v1.docx: pp.1-8
【文献】LAINEMA, Jani,CE7-related: Joint coding of chrominance residuals,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 13th Meeting: Marrakech, MA, 9-18 Jan. 2019, [JVET-M0305],JVET-M0305 (version 3),ITU-T,2019年01月16日,<URL:https://jvet-experts.org/doc_end_user/documents/13_Marrakech/wg11/JVET-M0305-v3.zip>: JVET-M0305-v2.docx: pp.1-5
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
第1のクロマブロックCbと第2のクロマブロックCrの残差サンプルをジョイントコード化するブロックベースビデオエンコーダであって、前記第1及び第2のクロマブロックは、対応するピクチャブロックの異なる色成分であり、
前記エンコーダは、
係数の複数の対から係数の対(a、b)を選択し、
前記第1のクロマブロック及び前記第2のクロマブロックから、ジョイントコード化ブロックCを決定し、ここで、符号化されたジョイントコード化ブロックから再構成されたジョイントコード化ブロックC’を得ることができ、再構成された第1のクロマブロックCb’及び再構成された第2のクロマブロックCr’を、Cb’=aC’及びCr’=bC’に従って決定することができ、
前記ジョイントコード化されたブロックを符号化し、
前記係数の複数の対から選択された前記係数の対(a、b)を、前記再構成された第1のクロマブロックのコード化ブロックフラグ(CBF)と、前記再構成された第2のクロマブロックのCBFとを用いてデコーダにシグナリングし、ここで、前記再構成された第1のクロマブロックのコード化ブロックフラグ(CBF)は設定されている場合、前記再構成された第1のクロマブロックの少なくとも1つの残差サンプルが非ゼロであることを示し、前記再構成された第2のクロマブロックのCBFが設定されている場合、前記再構成された第2のクロマブロックの少なくとも1つの残差サンプルが非ゼロであることを示す、
ように構成される、ブロックベースビデオエンコーダ。
【請求項2】
2d変換マッピングで、前記ジョイントコード化ブロックを変換係数のブロックに変換し、
変換係数の前記ブロックを量子化し、
前記量子化されたブロックをエントロピー符号化する、
ことによって、前記ジョイントコード化されたブロックを符号化するように構成される、請求項1記載のブロックベースビデオエンコーダ。
【請求項3】
係数の前記複数の対に関して、レート歪みコスト関数を最小化することによって、係数の前記対(a、b)を選択するように構成される、請求項1に記載のブロックベースビデオエンコーダ。
【請求項4】
前記再構成された第1のクロマブロックの前記コード化ブロックフラグ及び前記再構成された第2のクロマブロックのコード化ブロックフラグは、前記第1及び第2のクロマブロックがジョイントコード化されない場合にも使用される既存のビットストリーム要素である、請求項1に記載のブロックベースビデオエンコーダ。
【請求項5】
前記第1のクロマブロックと前記第2のクロマブロックとをジョイントコード化するか、又は前記第1のクロマブロックと前記第2のクロマブロックとを別々にコード化するかを決定するように構成された、請求項1に記載のブロックベースビデオエンコーダ。
【請求項6】
レート歪みコスト関数を評価することにより、ジョイントコード化するか、又は別々にコード化するかを決定するように構成された、請求項5に記載のブロックベースビデオエンコーダ。
【請求項7】
前記第1のクロマブロックと前記第2のクロマブロックがジョイントコード化されているか否かを示す2値フラグをデコーダにシグナリングするように構成された請求項5に記載のブロックベースビデオエンコーダ。
【請求項8】
係数の前記複数の対は、係数の3つの対(a1,b1)、(a2,b2)、及び(a3,b3)を含み、前記ブロックベースビデオエンコーダは、下表の規則に基づいて、前記再構成された第1のクロマブロックに関連付けられた前記コード化ブロックフラグ(CBF)を使用して、及び前記再構成された第2のクロマブロックに関連付けられた前記CBFを使用して、前記選択された係数の対をシグナリングするように構成される、請求項1に記載のブロックベースビデオエンコーダ。
【表1】
【請求項9】
ビットストリームから、第1のクロマブロック及び第2のクロマブロックのジョイントコード化された残差サンプルを復号するためのブロックベースビデオデコーダであって、前記第1のクロマブロック及び前記第2のクロマブロックは、対応するピクチャブロックの異なるクロマ色成分であって、
前記デコーダは、
前記ビットストリームから、前記第1のクロマブロックと前記第2のクロマブロックとがジョイントコード化されていることを示す2値フラグを復号し、
前記ビットストリームから、再構成されたジョイントコード化ブロックC’を決定し、
前記ビットストリームから、再構成された第1のクロマブロックのコード化ブロックフラグ(CBF)、Cb’、及び再構成された第2のクロマブロックのCBF、Cr’を復号し、ここで、前記再構成された第1のクロマブロックのコード化ブロックフラグ(CBF)、Cb’は設定されている場合、前記再構成された第1のクロマブロックの少なくとも1つの残差サンプルが非ゼロであることを示し、再構成された第2のクロマブロックのCBF、Cr’が設定されている場合、前記再構成された第2のクロマブロックの少なくとも1つの残差サンプルが非ゼロであることを示し、
前記再構成された第1のクロマブロックの前記CBFと前記再構成された第2のクロマブロックの前記CBFとに基づいて、複数の係数の対のうちの係数の対(a,b)を決定し、
Cb’=aC’、Cr’=bC’に従って、前記再構成された第1のクロマブロックCb’と前記再構成された第2のクロマブロックCr’を決定する
ように構成された、ブロックベースビデオデコーダ。
【請求項10】
前記再構成された第1のクロマブロックの前記コード化ブロックフラグ及び前記再構成された第2のクロマブロックの前記コード化ブロックフラグは、前記第1及び第2のクロマブロックがジョイントコード化されない場合にも使用される既存のビットストリーム要素である、請求項9に記載のブロックベースビデオデコーダ。
【請求項11】
a又はbのいずれかが1に等しい、請求項9に記載のブロックベースビデオデコーダ。
【請求項12】
前記複数の係数の対は、係数の3つの対(a1,b1)、(a2,b2)、及び(a3,b3)を含み、前記ブロックベースビデオデコーダは、下表の規則に基づいて、前記再構成された第1のクロマブロックに関連付けられた前記CBFを使用して、及び前記再構成された第2のクロマブロックに関連付けられた前記CBFを使用して、前記係数の対を選択するように構成される、請求項9に記載のブロックベースビデオデコーダ。
【表1】
【請求項13】
前記再構成された第1のクロマブロックの前記CBF及び前記再構成された第2のクロマブロックのCBFに基づいて選択されたコンテキストモデルを使用して、前記2値フラグを復号するように構成される、請求項9に記載のブロックベースビデオデコーダ。
【請求項14】
第1のクロマブロックCbと第2のクロマブロックCrの残差サンプルをジョイントコード化するブロックベースビデオ符号化方法であって、前記第1及び第2のクロマブロックは、対応するピクチャブロックの異なる色成分であり、
前記方法は、
複数の係数の対から係数の対(a、b)を選択することと、
前記第1のクロマブロック及び前記第2のクロマブロックから、ジョイントコード化ブロックCを決定することであって、符号化されたジョイントコード化ブロックから再構成されたジョイントコード化ブロックC’を得ることができ、再構成された第1のクロマブロックCb’及び再構成された第2のクロマブロックCr’を、Cb’=aC’及びCr’=bC’に従って決定することができる、決定することと、
前記ジョイントコード化されたブロックを符号化することと、
前記複数の係数の対から選択された前記係数の対(a、b)を、前記再構成された第1のクロマブロックのコード化ブロックフラグ(CBF)と、前記再構成された第2のクロマブロックのCBFとを用いてデコーダにシグナリングすることであって、前記再構成された第1のクロマブロックのコード化ブロックフラグ(CBF)は設定されている場合、前記再構成された第1のクロマブロックの少なくとも1つの残差サンプルが非ゼロであることを示し、前記再構成された第2のクロマブロックのCBFが設定されている場合、前記再構成された第2のクロマブロックの少なくとも1つの残差サンプルが非ゼロであることを示す、シグナリングすることと、
を含む、ブロックベースビデオ符号化方法。
【請求項15】
ビットストリームから、第1のクロマブロック及び第2のクロマブロックのジョイントコード化された残差サンプルを復号するためのブロックベースビデオ復号方法であって、前記第1のクロマブロック及び前記第2のクロマブロックは、対応するピクチャブロックの異なるクロマ色成分であって、
前記方法は、
前記ビットストリームから、前記第1のクロマブロックと前記第2のクロマブロックとがジョイントコード化されていることを示す2値フラグを復号することと、
前記ビットストリームから、再構成されたジョイントコード化ブロックC’を決定することと、
前記ビットストリームから、再構成された第1のクロマブロックのコード化ブロックフラグ(CBF)、Cb’、及び再構成された第2のクロマブロックのCBF、Cr’を復号することであって、前記再構成された第1のクロマブロックのコード化ブロックフラグ(CBF)、Cb’は設定されている場合、前記再構成された第1のクロマブロックの少なくとも1つの残差サンプルが非ゼロであることを示し、再構成された第2のクロマブロックのCBF、Cr’が設定されている場合、前記再構成された第2のクロマブロックの少なくとも1つの残差サンプルが非ゼロであることを示す、復号することと、
前記再構成された第1のクロマブロックの前記CBFと前記再構成された第2のクロマブロックの前記CBFとに基づいて、複数の係数の対のうちの係数の対(a,b)を決定することと、
Cb’=aC’、Cr’=bC’に従って、前記再構成された第1のクロマブロックCb’と前記再構成された第2のクロマブロックCr’を決定することと、
を含む、ブロックベースビデオ復号方法。
【請求項16】
コンピュータ上で実行されると、請求項
14に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムが記憶された、
非一時的コンピュータ可読デジタル記憶媒体。
【請求項17】
コンピュータ上で実行されると、請求項15に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムが記憶された、非一時的コンピュータ可読デジタル記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
以下の図面の説明は、本発明の実施形態を組み込むことができるコード化フレームワークの例を形成するために、ビデオのピクチャをコード化するためのブロックベースの予測コーデックのエンコーダ及びデコーダの説明の提示から始まる。それぞれのエンコーダ及びデコーダは、
図1~
図3に関して説明される。以下では、本発明の概念の実施形態の説明を、そのような概念を
図1及び
図2のエンコーダ及びデコーダにそれぞれどのように組み込むことができるかに関する説明と共に提示するが、後続の
図4以降で説明した実施形態は、
図1及び
図2のエンコーダ及びデコーダの基礎となるコード化フレームワークに従って動作しないエンコーダ及びデコーダを形成するためにも使用され得る。
【0002】
等しいか同等である要素又は等しいか同等である機能を有する要素は、以下の説明において、異なる図で発生する場合でも、等しいか同等である参照番号で示される。
【0003】
以下の説明では、本発明の実施形態のより完全な説明を提供するために複数の詳細が示される。しかしながら、当業者には、本発明の実施形態がこれらの特定の詳細なしに実施され得ることは明らかであろう。他の例では、本発明の実施形態を不明瞭にすることを避けるために、周知の構造及び装置は、詳細ではなくブロック図の形態で示す。また、以下に説明する異なる実施形態の特徴は、特記しない限り、互いに組み合わせることができる。
【0004】
図1は、変換ベースの残差コード化を例示的に使用して、ピクチャ12をデータストリーム14に予測的にコード化するための装置を示す。装置又はエンコーダは、参照符号10を使用して示されている。
図2は、対応するデコーダ20、すなわち、やはり変換ベースの残差復号を使用してデータストリーム14からピクチャ12’を予測的に復号するように構成された装置20を示し、アポストロフィは、デコーダ20によって再構成されたピクチャ12’が、予測残差信号の量子化によって導入されるコード化損失の観点から、装置10によって最初に符号化されたピクチャ12から逸脱していることを示すために使用されている。
図1及び
図2は、例示的に、変換ベースの予測残差コード化を使用するが、本出願の実施形態は、この種の予測残差コード化に限定されない。これは、以下に概説されるように、
図1及び
図2に関して説明される他の詳細にも当てはまる。
【0005】
エンコーダ10は、予測残差信号を空間スペクトル変換し、このようにして得られた予測残差信号をデータストリーム14に符号化するように構成される。同様に、デコーダ20は、データストリーム14からの予測残差信号を復号し、このようにして得られた予測残差信号をスペクトル空間変換するように構成される。
【0006】
内部的に、エンコーダ10は、元の信号、すなわちピクチャ12からの予測信号26の逸脱を測定するために予測残差24を生成する予測残差信号形成器22を備えることができる。予測残差信号形成器22は、例えば、元の信号から、すなわちピクチャ12から予測信号を減算する減算器であってもよい。次いで、エンコーダ10は、同じくエンコーダ10に含まれる量子化器32によって量子化されるスペクトルドメイン予測残差信号24’を取得するために、予測残差信号24を空間スペクトル変換する変換器28を更に備える。このように量子化された予測残差信号24’’は、ビットストリーム14にコード化される。この目的のために、エンコーダ10は、任意選択的に、データストリーム14に変換及び量子化される予測残差信号をエントロピコード化するエントロピコーダ34を備えることができる。予測信号26は、データストリーム14に符号化され、データストリームから復号可能な予測残差信号24’’に基づいて、エンコーダ10の予測段36によって生成される。この目的のために、予測段36は、
図1に示すように、量子化損失以外の信号24’に対応するスペクトルドメイン予測残差信号24’’を得るように予測残差信号24’’を逆方向量子化する逆方向量子化器38と、量子化損失以外の元の予測残差信号24に対応する予測残差信号24’’’を取得するために、後者の予測残差信号24’’を逆方向変換、すなわちスペクトル空間変換する逆方向変換器40とを内部に備えることができる。次いで、予測段36のコンバイナ42は、再構成された信号46、すなわち元の信号12の再構成を取得するために、加算などによって予測信号26及び予測残差信号24’’’’を再結合する。再構成された信号46は、信号12’に対応することができる。次に、予測段36の予測モジュール44は、例えば、空間予測、すなわちピクチャ内予測、及び/又は時間予測、すなわちピクチャ間予測を使用して、信号46に基づいて予測信号26を生成する。
【0007】
同様に、
図2に示すように、デコーダ20は、予測段36に対応する構成要素から内部的に構成され、予測段に対応する方法で相互接続されてもよい。特に、デコーダ20のエントロピデコーダ50は、データストリームから量子化されたスペクトルドメイン予測残差信号24’’をエントロピ復号することができ、その際、逆方向量子化器52、逆方向変換器54、コンバイナ56、及び予測モジュール58は、予測段36のモジュールに関して上述した方法で相互接続されて協働し、予測残差信号24’’に基づいて再構成された信号を回復し、その結果、
図2に示すように、コンバイナ56の出力は再構成された信号、すなわちピクチャ12’をもたらす。
【0008】
上記では具体的に説明されていないが、エンコーダ10は、例えば、いくつかのレート及び歪み関連基準、すなわち符号化コストを最適化する方法などのいくつかの最適化方式に従って、例えば、予測モード、動きパラメータなどを含むいくつかのコード化パラメータを設定することができることは容易に明らかである。例えば、エンコーダ10及びデコーダ20ならびに対応するモジュール44、58はそれぞれ、イントラコード化モード及びインターコード化モードなどの異なる予測モードをサポートすることができる。エンコーダ及びデコーダがこれらの予測モードタイプを切り替える粒度は、それぞれピクチャ12及び12’のコード化セグメント又はコード化ブロックへの副分割に対応し得る。これらのコード化セグメントのユニットで、例えば、ピクチャは、イントラコード化されているブロックとインターコード化されているブロックとに副分割され得る。イントラコード化ブロックは、以下により詳細に概説されるように、それぞれのブロックの空間の既にコード化/復号された近傍に基づいて予測される。いくつかのイントラコード化モードが存在し、方向性又は角度イントラコード化モードを含むそれぞれのイントラコード化セグメントに対して選択されてもよく、方向性又は角度イントラコード化モード従って、それぞれの方向性イントラコード化モードに固有の特定の方向に沿った近傍のサンプル値を、それぞれのイントラコード化セグメントに外挿することによって、それぞれのセグメントが満たされ得る。イントラコード化モードは、例えば、それぞれのイントラコード化されたブロックの予測が、それぞれのイントラコード化セグメント内のすべてのサンプルにDC値を割り当てるDCコード化モード、及び/又は平面イントラコード化モードであって、これに沿って、それぞれのブロックの予測が、隣接するサンプルに基づいて2次元線形関数によって定義された平面の駆動傾斜及びオフセットを有するそれぞれのイントラコード化されたブロックのサンプル位置にわたる2次元線形関数によって記述されたサンプル値の空間分布であると近似又は決定される、平面イントラコード化モードなどの1つ又は複数の更なるモードも含むことができる。これと比較して、インターコード化されたブロックは、例えば時間的に予測され得る。インターコード化ブロックの場合、データストリーム内で動きベクトルをシグナリングすることができ、動きベクトルは、ピクチャ12が属するビデオの以前にコード化されたピクチャの部分の空間変位を示し、以前にコード化/復号されたピクチャは、それぞれのインターコード化ブロックの予測信号を取得するためにサンプリングされる。これは、量子化スペクトル領域予測残差信号24’’を表すエントロピコード化変換係数レベルなど、データストリーム14に含まれる残差信号コード化に加えて、データストリーム14は、コード化モードを様々なブロックに割り当てるためのコード化モードパラメータ、インターコード化セグメントの動きパラメータなど、ブロックのいくつかの予測パラメータ、及びピクチャ12及び12’のそれぞれのセグメントへの副分割を制御及びシグナリングするためのパラメータなどの任意選択の更なるパラメータを符号化することができることを意味する。デコーダ20は、これらのパラメータを使用して、エンコーダが行ったのと同じ方法でピクチャを副分割し、セグメントに同じ予測モードを割り当て、同じ予測を実行して同じ予測信号をもたらす。
【0009】
図3は、一方では再構成された信号、すなわち再構成されたピクチャ12’と、他方ではデータストリーム14でシグナリングされる予測残差信号24’’’と予測信号26との組み合わせとの間の関係を示している。既に上述したように、組み合わせは加算であってもよい。予測信号26は、
図3では、ピクチャ領域を、線影を使用して例示的に示されるイントラコード化ブロックと、線影を使用せずに例示的に示されるインターコード化ブロックとに副分割したものとして示されている。副分割は、正方形ブロック又は非正方形ブロックの行及び列へのピクチャエリアの規則的な副分割、又はクワッドツリー副分割などのような、ツリー・ルート・ブロックから様々なサイズの複数のリーフブロックへのピクチャ12のマルチツリー副分割などの任意の副分割であってもよく、それらの混合が
図3に示されており、
図3では、ピクチャエリアは、ツリー・ルート・ブロックの行及び列に最初に副分割され、次いで、再帰的マルチツリー副分割に従って1つ又は複数のリーフブロックに更に副分割される。
【0010】
この場合も、データストリーム14は、イントラコード化ブロック80のためにコード化されたイントラコード化モードを有することがあり、これは、サポートされているいくつかのイントラコード化モードのうちの1つを、それぞれのイントラコード化ブロック80へ割り当てる。インターコード化ブロック82の場合、データストリーム14は、コード化された1つ又は複数の動きパラメータを有することができる。一般的に言えば、インターコード化ブロック82は、時間的にコード化されることに限定されない。あるいは、インターコード化ブロック82は、ピクチャ12が属するビデオの以前にコード化されたピクチャ、又はエンコーダ及びデコーダがそれぞれスケーラブルなエンコーダ及びデコーダである場合には、別のビュー又は階層的に下位のレイヤのピクチャなど、現在のピクチャ12自体を超える、以前に符号化された部分から予測された任意のブロックであってもよい。
【0011】
図3の予測残差信号24’’’’も、ピクチャ領域のブロック84への副分割として示されている。これらのブロックは、コード化ブロック80および82と区別するために、変換ブロックと呼ばれる場合がある。実際には、
図3は、エンコーダ10及びデコーダ20が、ピクチャ12及びピクチャ12’のブロックへの2つの異なる副分割、すなわち、コード化ブロック80及び82への一方の副分割、及び変換ブロック84への他方の副分割を使用し得ることを示している。両方の副分割は同じであってもよく、すなわち、各コード化ブロック80及び82は同時に変換ブロック84を形成してもよいが、
図3は、例えば、ブロック80及び82の2つのブロック間の任意の境界が2つのブロック84間の境界を覆うように、変換ブロック84への副分割がコード化ブロック80、82への副分割の拡張を形成する、あるいは、各ブロック80、82は、変換ブロック84のうちの1つと一致するか、又は変換ブロック84のクラスタと一致する場合を示す。しかしながら、変換ブロック84が代替的にブロック80、82間のブロック境界を横切ることができるように、これらの副分割はまた、互いに独立して決定又は選択されてもよい。従って、変換ブロック84への副分割に関する限り、ブロック80、82への副分割に関して提示されたものと同様の記述が真であり、すなわち、ブロック84は、(行及び列への配置の有無にかかわらず)ブロックへのピクチャエリアの規則的な副分割の結果、ピクチャエリアの再帰的マルチツリー副分割の結果、若しくはそれらの組み合わせ、又は任意の他の種類のブロック化であり得る。なお、ブロック80、82、及び84は、正方形、長方形、又は任意の他の形状に限定されないことに留意されたい。
【0012】
図3は更に、予測信号26と予測残差信号24’’’’との組み合わせが再構成された信号12’を直接もたらすことを更に示している。しかしながら、代替実施形態によれば、複数の予測信号26を予測残差信号24’’’と組み合わせてピクチャ12’にすることができることに留意されたい。
【0013】
図3では、変換ブロック84は以下の重要性を有するものとする。変換器28及び逆方向変換器54は、これらの変換ブロック84のユニットで変換を行う。例えば、多くのコーデックは、すべての変換ブロック84に対して何らかの種類のDST又はDCTを使用する。いくつかのコーデックは、変換ブロック84のいくつかについて、予測残差信号が空間ドメインにおいて直接コード化されるように、変換をスキップすることを可能にする。しかしながら、後述する実施形態によれば、エンコーダ10及びデコーダ20は、それらがいくつかの変換をサポートするように構成される。例えば、エンコーダ10及びデコーダ20によってサポートされる変換は以下を含み得る:
・DCT-II(又はDCT-III)、DCTは離散コサイン変換を表す
・DST-IV、DSTは離散サイン変換を表す
・DCT-IV
・DST-VII型
・アイデンティティ変換(IT)
【0014】
当然ながら、変換器28はこれらの変換の順方向変換バージョンのすべてをサポートするが、デコーダ20又は逆方向変換器54はその対応する逆方向すなわち逆変換バージョンをサポートする:
・逆方向DCT-II(又は逆方向DCT-III)
・逆方向DST-IV
・逆方向DCT-IV
・逆方向DST-VII
・アイデンティティ変換(IT)
【0015】
以下の説明は、変換がエンコーダ10及びデコーダ20によってサポートされ得ることに関する更なる詳細を提供する。いずれの場合でも、サポートされる変換のセットは、1つのスペクトルから空間への変換又は空間からスペクトルへの変換などの1つの変換のみを含むことができることに留意されたい。
【図面の簡単な説明】
【0016】
すでに上で概説したように、
図1~
図3は、本出願によるエンコーダ及びデコーダの特定の例を形成するために、以下で更に説明する本発明の概念を実施することができる例として提示されている。その限りにおいて、
図1及び
図2のエンコーダ及びデコーダはそれぞれ、本明細書で後述するエンコーダ及びデコーダの可能な実装形態を表すことができる。しかしながら、
図1及び
図2は単なる例である。しかしながら、本出願の実施形態によるエンコーダは、以下でより詳細に概説される概念を使用して、
図1のエンコーダとは異なるピクチャ12のブロックベースの符号化を実行することができ、例えば、ビデオエンコーダではなく静止ピクチャエンコーダである点、インター予測をサポートしていない点、又はブロック80への副分割が
図3に例示された方法とは異なる方法で実行される点などである。同様に、本出願の実施形態によるデコーダは、以下で更に概説されるコード化概念を使用してデータストリーム14からピクチャ12’のブロックベースの復号を実行することができるが、ビデオデコーダではなく静止ピクチャデコーダであるという点で、イントラ予測をサポートしないという点で、又は
図3に関して説明したのとは異なる方法でピクチャ12’をブロックに副分割するという点で、及び/又は変換ドメインではデータストリーム14から予測残差を導出しないが、例えば空間ドメインでは導出するという点で、例えば
図2のデコーダ20とは異なり得る。
【0017】
ここで、それぞれのエンコーダ60
1、60
2及びそれぞれのデコーダ65
1、65
2の機能をそれぞれ示す
図4a及び
図4bを少なくとも部分的に参照しながら、本発明の実施形態を説明する。
図4a及び
図4bの構成は、本発明の選択された成分間変換62
1又は62
2、その逆方向バージョン62
1’又は62
2’がそれぞれ適用される順序を考慮して互いにずれている。
【背景技術】
【0018】
1.序論、技術水準
自然な静止及び動画色ピクチャ(以下、単に画像及びビデオと呼ぶ)では、個々の色成分間の相当量の信号相関が一般に観察され得る。これは、YUV又はYCbCr(ルーマ-クロマ)又はRGB(赤-緑-青)ドメインで表されるコンテンツの場合に特に当てはまる。画像又はビデオコード化においてこのような成分間冗長性を効率的に利用するために、いくつかの予測技術が最近提案されている。これらのうち、最も注目すべきは、
・クロス成分線形モデル(CCLM)予測、ブロックレベルで、ある成分の入力信号を別の(通常はルーマ)復号された成分の信号から予測し、誤差、すなわち入力と予測との間の差のみを符号化する線形予測コード化(LPC)方法、
・2つのクロマ残差信号(すなわち1回のダウンミックスのみ)間の差のみを符号化し、それぞれYUV又はYCbCrコード化のための単純なサンプル毎のアップミックス規則「V=-U」又は「Cr=-Cb」を使用して、前記2つの彩度信号を復号する手法である、ジョイントクロマコード化(JCC)。換言すれば、JCCアップミックスは、JCCダウンミックスプロセス中にVのそれぞれCrについての関連する誤差又は残差をコード化することなく、U又はCbのそれぞれからのV又はCrの予測を表す。
【0019】
それぞれ[1]及び[2]に詳細に記載されているCCLM及びJCC技術の両方は、単一のフラグによって特定のコード化ブロックにおけるそれらの活性化をデコーダにシグナリングする。更に、両方の方式は、原則として、任意の成分対の間に適用することができ、すなわち、
・YUV又はYCbCrコード化における、ルーマ信号とクロマ信号との間、又は2つのクロマ信号の間、
・RGBコード化におけるR信号とG信号との間、又は、R信号とB信号との間、又は、最終的に、G信号とB信号との間。
【0020】
上記のリストでは、「信号」という用語は、入力画像又はビデオの特定のドメイン又はブロック内の空間ドメイン入力信号を示すことができ、又は、任意の空間、スペクトル、又は時間予測コード化技術(例えば、角度イントラ予測又は動き補償)を使用して得られた前記空間ドメイン入力信号と空間ドメイン予測信号との間の残差(すなわち、差又は誤差)を表すことができる。
【0021】
2.技術水準の欠点
上記の解決策は、最新の画像又はビデオコーデックにおけるコード化効率を高めることに成功したが、CCLM及びJCC手法に関連して2つの欠点を特定することができる:
・2つのクロマチャネル信号間にCCLM方法を適用するには、エンコーダ及びデコーダの両方において、考慮中のコード化ブロックの上及び左の隣接サンプルからの特定の予測パラメータ(CCLM重み)の計算的に比較的複雑な導出が必要である。
【0022】
・JCC技術を使用することは、ダウンミックス及びアップミックスのために信号差のみがサポートされるため、比較的柔軟性がないことが分かった。平均して、この手法は、YUV又はYCbCrコード化コンテンツにはうまく機能するが、RGBコード化入力、及び顕著な色収差を有するカメラで記録された自然画像又はビデオでは、コード化利得が比較的低いことが分かった。
【発明の概要】
【発明が解決しようとする課題】
【0023】
従って、JCC手法の低複雑度を保持する、画像又はビデオのジョイント成分コード化のためのより柔軟な方法及び装置を提供することが望ましい。
【課題を解決するための手段】
【0024】
3.発明の概要
上記の欠点に対処するために、本発明は以下の態様を含み、シグナリングという用語は、エンコーダからデコーダへのコード化情報の伝送を表す。これらの態様の各々は、別のセクションで詳細に説明される。
【発明を実施するための形態】
【0025】
1.少なくとも2つの成分間ジョイントコード化/復号方法のうちの1つのブロック又はピクチャ選択的適用(すなわち、アクティブ化)は、(場合によってはエントロピコード化された)オン/オフフラグ、又は非2値インデックスを用いた前記ジョイントコード化/復号の適用の対応するブロック又はピクチャ毎の明示的シグナリングと共に、
2つ以上の成分間方法は、以下のいずれかを表すことができる:
・2つの色チャネルを表す単一のダウンミックスチャネルのコード化、C’は復号されたダウンミックスチャネルを表し、復号された色チャネルは、Cb’=a C’及びCr’=b C’によって得られ、ここで、a及びbは特定の混合係数を表す(しばしばa又はbのいずれかが1に等しく設定される)、
・2つの混合チャネルのコード化、ここで、C1’及びC2’は復号された混合チャネルであり、復号された色成分Cb’及びCr’は、復号された混合チャネルC1’及びC2’にサイズ2の直交(又はほぼ直交)変換を適用することによって得られる。
【0026】
両方の方法は、3つ以上の色成分に拡張することができる。混合がN>2個の色成分に適用される場合、M<N(M>1を伴う)個の混合チャネルをコード化し、M<N個の復号された混合チャネルが与えられたN個の色成分を再構成することも可能である。
【0027】
2.ジョイントコード化/復号が適用される場合(すなわちアクティブ化)、既存のコード化されたブロックフラグビットストリーム要素による少なくとも2つの成分間方法のうちの適用された1つの暗黙的シグナリング、
3.前記ブロック又はピクチャで適用されるすべての成分間ジョイントコード化/復号方法の復号パラメータ(例えば、アップミックス行列、逆方向変換タイプ、逆方向変換係数、回転角度、又は線形予測係数)のブロック又はピクチャ毎の直接的又は間接的シグナリング、
4.ピクチャ又はブロックレベルで、適用される少なくとも2つの成分間ジョイントコード化/復号方法のうちの1つを選択するときの(網羅的な検索の代わりに)高速エンコーダ側の決定。
【0028】
3.1.明示的適用シグナリングによるICTの選択的適用
画像又はビデオ符号化中に、ジョイント残差サンプルコード化のための成分間変換(ICT)の任意かつ選択的な適用を可能にすることが提案されている。
図1に示すように、このICT設計は、コード化中の従来の成分毎の残差変換の前又は後に順方向ジョイント成分変換(ダウンミックス)を適用し、復号中の従来の成分毎の逆方向残差変換の後又は前に対応する逆方向ジョイント成分変換(アップミックス)を適用する。しかしながら、セクション1又はセクション2の従来技術とは異なり、エンコーダには、コード化中に2つ以上のICT方法を選択する可能性が与えられ、すなわちICTコード化を適用しない、又は少なくとも2つのICT方法のセットのうちの1つのICT方法を適用する。セクション3.3の本発明の態様と組み合わせると、これは従来技術よりも高い柔軟性をもたらす。
【0029】
少なくとも2つのICT方法のうちの特定の1つの選択及び適用(アクティブ化とも呼ばれる)は、各画像、ビデオ、フレーム、タイル、又はスライス(以下では単にピクチャと呼ばれる、より最近のMPEG/ITUコーデックにおけるスライス/タイルも)に対してグローバルに実行することができる。しかしながら、ハイブリッドブロックベースの画像又はビデオコード化/復号では、ブロック適応的に適用されることが好ましい。複数のサポートされるICT方法のうちの1つの適用が選択されるブロックは、コード化ツリーユニット、コード化ユニット、予測ユニット、変換ユニット、又は前記画像、ビデオ、フレーム、若しくはスライス内の任意の他のブロックのいずれかを表すことができる。
【0030】
複数のICT方法のいずれが適用されるかどうか、及びこれらの方法のいずれが適用されるかは、ピクチャ、スライス、タイル、又はブロックレベルの1つ又は複数の構文要素を使用してビットストリーム内でシグナリングされる(すなわち、ICTが適用されるのと同じ粒度で)。一実施形態(セクション3.2に更に記載される)では、本発明のICTコード化が適用される、又は適用されないという事実は、前記ピクチャの各々又はICTコード化が適用可能なブロックの各々について、(場合によってはエントロピコード化された)オン/オフフラグを使用して通知される。言い換えれば、(少なくとも2つの)本発明のICT方法のアクティブ化は、それぞれのブロックのピクチャ毎の単一ビット又はビン及びブロック(ビンはエントロピコード化されたビットを示し、これは適切なコード化で1ビット未満の平均サイズを消費することができる)によって明示的にシグナリングされる。この実施形態の好ましいバージョンでは、ICT方法の適用は2値オン/オフフラグによって通知される。複数のICT方法のうちのどれが適用されるかの情報は、追加で送信されるコード化されたブロックフラグ(詳細はセクション3.2に続く)の組み合わせを介してシグナリングされる。別の実施形態では、ICT方法及び使用されるICT方法の適用は、非2値構文要素を使用してシグナリングされる。
【0031】
両方の実施形態について、ICT方法の使用を示す2値又は非2値構文要素は、(変換ブロックが非ゼロ変換係数を有するかどうかを示す)1つ又は複数のコード化されたブロックフラグが1に等しい場合にのみ(構文内に)存在することができる。ICT関連構文要素が存在しない場合、デコーダは、ICT方法が使用されていないと推測する。
【0032】
更に、高レベル構文は、ブロックレベル構文要素の存在ならびにそれらの意味を示す構文要素を含むことができる(セクション3.3を参照)。一方では、そのような高レベルの構文要素は、ICT方法のいずれかが現在のピクチャ、スライス、又はタイルに利用可能であるかどうかを示すことができる。一方、高レベル構文は、ピクチャの現在のピクチャ、スライス、又はタイルに対してより大きなICT方法のセットのどのサブセットが利用可能であるかを示すことができる。
【0033】
以下では、成分間変換の特定の変形について説明する。これらの変形は、典型的に使用されるYCbCrフォーマットの画像及びビデオ信号のクロマ成分Cb及びCrの例における2つの特定の色成分について記載されている。それにもかかわらず、本発明はこのユースケースに限定されない。本発明は、任意の他の2つの色成分(例えば、RGBビデオの赤色成分及び青色成分の場合)にも使用することができる。更に、本発明は、3つ以上の色成分(例えば、YCbCrビデオの3つの成分Y、Cb、及びCr、又はRGBビデオの3つの成分R、G、及びBなど)のコード化にも適用することができる。
【0034】
ICTクラス1:変換ベースのコード化
第1のICT変形では、2つの色チャネル
及び
を送信することができる。これらの2つの色チャネルは、(少なくともほぼ)直交基底関数を用いた変換の変換成分を表す。再構成された色チャネルを
及び
とする。デコーダ側では、元の色成分の再構成Cb’及びCr’は、直交基底関数による変換を使用して導出され、直交基底関数は、以下に従って指定することができ、
ここで、
は信号空間における回転角度を表し、
及び
は非ゼロの重み係数を表す。ほとんどの構成では、重み係数は
又は
のいずれかとして選択される。このような変換の利点は、エンコーダでは、2つの送信された色チャネル(すなわち
、又は
)の一方の分散が最小化され、他方の色チャネルの分散が最大化されるように回転角度
を選択できることであり、これは最終的にコード化効率が向上する効果を有する。丸め効果により、実際に適用される変換は、上記の式からわずかに逸脱する可能性がある。重み係数
及び
は、単純化された算術演算を使用して変換を計算できるように選択することができる。一例として、適用された変換は、以下に従って計算することができる:
この上の式では、本発明者らは
及び
を選択し、上の式が1つの特定の構成を表し、同様の単純な再構成規則をもたらす他の構成も可能であることに留意されたい。(一般に)実係数
による乗算は、実乗算を整数乗算及び右へのビットシフト(例えば、
と同様の式を使用する)で近似することによって実施することができる。エンコーダ側では、元の色チャネルCb及びCrを実際にコード化された成分
及び
にマッピングする順方向変換は、再構成変換の逆方向(対応する近似を含む)として計算することができる。複数のサポートされているICT変換のうちの1つ又は複数は、異なる回転角度
(及び適切に選択された重み係数)、又は代替的に異なるスケーリング係数
を有するそのような直交変換に対応することができる。
上述したように、変換ベースのICT方法は、3つ以上の色成分に拡張することができ、その場合、N>2個のコード化された色チャネルは、N個の再構成された色成分に線形にマッピングされる。適用される変換は、複数の回転角度、又はより一般的にはNxN個の変換行列(少なくともほぼ直交基底関数を有する)によって指定することができる。N=2の場合については、整数演算を用いた線形結合により、実際に適用される変換を特定することができる。
【0035】
ICTクラス2:色チャネル数を削減したダウンミックスベースのコード化
上述したように、上述の変換ベースのICT変形の主な利点は、結果として得られる成分のうちの1つの分散が他の成分の分散と比較して小さくなることである(一定量の相関を有するブロックについて)。多くの場合、これにより、成分の1つが(ブロック全体について)0に量子化される。実装を単純化するために、色変換は、結果として生じる成分(
又は
)の1つが強制的に0に量子化されるように実装することができる。この場合、元の色チャネルCb及びCrの両方は、単一の透過成分Cによって表され、C’によって示される色成分の再構成バージョンが与えられると、再構成された色チャネルCb’及びCr’は、以下に従って取得することができる:
ここで、
は回転角度を表し、
はスケーリング係数を表す。上記と同様に、実際の実装は、例えば以下に従って簡略化することができる:
複数のサポートされたICT変換のうちの1つ又は複数は、(色成分のうちのどれが送信された成分Cと等しく設定されるかの決定と組み合わせて)異なる回転角度
又は異なるスケーリング係数
、
を有するそのようなジョイント成分コード化に対応することができる。エンコーダでは、実際にコード化された色成分Cは、いわゆるダウンミックスによって得られ、これは線形結合
として表すことができ、係数
及び
は、例えば、再構成された色成分Cb’及びCr’の歪みが最小化されるように選択され得る。
上記の変形1と同様に、この第2の変形も3つ以上の色成分に一般化することができる。ここで、複数の構成が可能である。第1の構成では、N>2個の元の色チャネルは、単一のジョイント色チャネル(M=1個の結果として得られるコード化された成分)によって表される。別の構成では、N>2個の元の色チャネルは、M<N個(M>1)の結果のチャネル(例えば、M=N-1チャネル)によって表される。両方の構成について、元の色チャネルの再構成は、対応する混合係数(整数乗算及びビットシフトを使用して実装され得る)を有する行列(N行及びM<N列を有する)によって表すことができる。
【0036】
サポートされている2つ以上のICT方法は、変換ベースの方法の0以上の変形(回転角度又はスケーリング係数によって指定される)及びダウンミックスベースの方法の0以上の変形(回転角度又はスケーリングファクタによって指定される(場合によっては、どの色成分が送信された成分と等しく設定されるかを指定する追加のフラグを有する))を含むことができる。これは、(a)すべてのICT方法が変換ベースの変形を表し、(b)すべてのICT方法がダウンミックスベースの変形を表し、(c)2つ又はICT方法が変換ベースの変形とダウンミックスベースの変形との混合を表す場合を含む。このとき、回転角度又は混合係数はブロック単位で送信されないことを再度指摘しておく必要がある。代わりに、ICT方法のセットが事前定義され、エンコーダとデコーダの両方によって知られている。ブロックベースでは、2つ以上のICT方法のうちの1つを識別するインデックスのみが(2値フラグ又は非2値構文要素によって)シグナリングされる。ICT方法の予め定義されたセットのサブセットは、シーケンス、ピクチャ、タイル、又はスライスベースで選択されてもよく、その場合、ブロックベースでコード化されたインデックスは、対応するサブセットから選択された方法をシグナリングする。
【0037】
一実施形態によれば、色成分のサンプルのブロックは、変換コード化の概念を使用して送信され、サンプルのブロックを変換係数のブロックにマッピングする2d変換、変換係数の量子化、及び結果として得られる量子化インデックス(変換係数レベルとも呼ばれる)のエントロピコード化からなるか、又は少なくともそれらを含む。デコーダ側では、まずエントロピ復号された変換係数レベルを逆方向量子化して再構成された変換係数を取得し(逆方向量子化は通常、量子化ステップサイズとの乗算からなる)、次いで変換係数に逆方向変換を適用して再構成されたサンプルのブロックを取得することによって、サンプルのブロックが再構成される。更に、変換コード化を使用して送信されるサンプルのブロックは、元の信号と予測信号との間の差を指定する残差信号を表すことが多い。この場合、画像の復号されたブロックは、残差サンプルの再構成されたブロックを予測信号に加算することによって得られる。デコーダ側では、ICT方法は以下のように適用することができる:
【0038】
・再構成された変換係数にICT変換が適用される(逆方向量子化後)、次いで、ICT変換に続いて、個々の色成分の逆方向2d変換が行われ、適用可能であれば、予測信号の加算が行われ、
・再構成された残差信号にICT変換が適用される。これは、コード化された色成分が最初に逆方向量子化され、2d変換によって逆方向変換されることを意味する。得られた残差サンプルのブロック(複数可)はICT変換を使用して変換され、ICT変換の後に予測信号が追加され得る。
【0039】
ICT及び2d変換の両方が丸めを含まない場合、これらの構成の両方が同じ結果をもたらすことに留意されたい。しかし、実施形態では、丸めを含む整数演算においてすべての変換を指定することができるため、2つの構成は異なる結果をもたらす。なお、逆方向量子化前や予測信号加算後にICT変換を適用することも可能である。
【0040】
上述したように、ICT方法の実際の実施態様は、(実際の実施態様を単純化するスケーリング係数の導入により)ユニタリ変換から逸脱する可能性がある。この事実は、それに応じて量子化ステップサイズを変更することによって考慮されるべきである。すなわち、本発明の一実施形態では、特定のICT方法の選択は、量子化パラメータ(従って、結果として得られる量子化ステップサイズ)の特定の変更を意味する。量子化パラメータの変更は、デルタ量子化パラメータによって実現されてもよく、デルタ量子化パラメータは、標準量子化パラメータに追加される。デルタ量子化パラメータは、すべてのICT方法に対して同じであってもよいし、異なるICT方法に対して異なるデルタ量子化パラメータが使用されてもよい。1つ又は複数のICT方法に関連して使用されるデルタ量子化パラメータは、ハードコード化されてもよく、又はスライス、ピクチャ、タイル、又はコード化されたビデオシーケンスのための高レベル構文の一部としてシグナリングされてもよい。
【0041】
3.2.少なくとも2つのICT方法のうちの適用された1つの暗黙的シグナリング
セクション3.1で述べたように、少なくとも2つのICT方法のうちの本発明の一方のアクティブ化は、復号時に逆方向ICT(すなわち、ICT処理行列の転置)を適用するようにデコーダに命令するために、オン/オフフラグを使用して、エンコーダからデコーダに明示的にシグナリングされることが好ましい。しかしながら、ICTコード化(すなわち、順方向ICT)及び復号(すなわち、逆方向ICT)がアクティブである各ピクチャ又はブロックについて、少なくとも2つのICT方法のうちのいずれが手元の処理されたピクチャ又はブロックに適用されるかをデコーダに通知することが依然として必要である。直感的には、特定のICT方法(それぞれのブロックのピクチャ毎に1つ又は複数のビット又はビンを使用する)の明示的なシグナリングを使用することができるが、このシグナリングの形態が本発明のICT方式のサイド情報オーバヘッドを最小限に抑えることが分かったので、暗黙的なシグナリングが使用されることが好ましい。
【0042】
適用されるICT方法の暗黙的シグナリングには2つの好ましい実施形態がある。両方とも、HEVC及びVVC[3]のような現代のコーデックにおける既存の「残差ゼロネス」インジケータ、具体的には、各変換ユニットの各色成分に関連付けられたコード化されたブロックフラグ(CBF)ビットストリーム要素を利用する。0(偽)のCBF値は、残差ブロックがコード化されない(すなわちすべての残差サンプルが0に量子化され、従って、量子化された残差係数をビットストリームで伝送する必要はない)ことを意味し、1(真)のCBF値は、少なくとも1つの残差サンプル(又は変換係数)が所与のブロックの非ゼロ値に量子化され、従って、前記ブロックの量子化残差がビットストリーム内でコード化されることを意味する。
【0043】
3.2.1.2つのICT方法のうちの1つの暗黙的シグナリング
2成分残差信号のジョイントICTコード化の場合、2つのCBF要素が暗黙的ICT方法シグナリングに利用可能である。2つのICTダウンミックス/アップミックス方法を提供する場合、好ましい暗黙的シグナリングは以下のとおりである:
【表1】
【0044】
3.2.2.3つのICT方法のうちの1つの暗黙的シグナリング
サブセクション3.2.1のように、暗黙的なICT方法シグナリングに2つのCBF要素が利用可能であるが、適用のために2つではなく3つのICTダウンミックス/アップミックス方法が提供される場合、好ましい暗黙的シグナリングは以下のとおりである:
【表2】
【0045】
ブロック内の両方の色成分のCBFが0である場合、いずれかの成分のビットストリームに非ゼロ残差サンプルはコード化されず、適用されたICT方法に関する情報を伝達することは不要である。
【0046】
3.3.ICT復号パラメータの任意選択の直接又は間接シグナリング
前のセクションでは、ピクチャ又はブロック内のICT方法のアクティブ化が(オン/オフフラグを使用して)明示的にシグナルリングされる方法、及び影響を受けた色成分に対して少なくとも2つのICT方法のうちの1つの実際の選択が(既存のCBF「残差ゼロネス」インジケータによって)暗黙的にシグナリングされる方法について説明した。可能な2つ以上のICT方法のセットは、サイズ2離散コサイン変換(DCT)若しくは離散サイン変換(DST)若しくはWalsh-Hadamard変換(WHT)若しくはKarhunen-Loeve変換(KLT、主成分分析、PCAとしても知られる)インスタンス、又はギブンス回転若しくは線形予測コード化関数の所定の(固定された)若しくは入力依存(適応)パラメータ化を含むことができる。これらのICT方法はすべて、順方向形式の2つの入力残差信号を与えられて、1つ又は2つのダウンミックス信号と、逆方向実現の1つ又は2つの(場合によっては量子化された)ダウンミックス信号が与えられて、2つのアップミックス信号とをもたらす。
【0047】
固定パラメータ化を有する2つ以上のICT方法のセットは、例えば、サイズ2変換又は線形予測子関数の回転角度又は係数の特定の事前選択によって特徴付けることができる。このパラメータ化は、エンコーダとデコーダの両方に知られているので、ビットストリームで送信される必要はない。従来技術[2]では、ダウンミックス規則「C=(Cb-Cr)/2」及びアップミックス規則「Cb’=C、Cr’=-C」をもたらす固定された「-1」パラメータ化が使用される。本手法では、エンコーダによる選択のために2つ以上のICT方法が利用可能であり、2つのICT方法の固定されたセット(セクション3.2.1を参照)は、
【表3】
【0048】
一方、3つのICT方法の固定されたセット(サブセクション3.2.2参照)は、2のセットよりも好ましい場合があり、
【表4】
【0049】
この固定された3のセットのICT設計は、知覚オーディオコード化及び可逆オーディオコード化[4,5]の両方に一般的に適用される合計差コード化技術に類似しており、有意なコード化利得を提供する。しかしながら、この固定された手法は、2つの処理された成分信号にわたって前記コード化利得の比較的不均一な分布をもたらすことが見出された。この問題を補償するために、主成分分析(PCA)としても知られるサイズ2のKLTを使用して実現される、より一般的な回転ベースの手法を追求することができる。この場合、ダウンミックス規則は、
C1=Cb・cosα+Cr・sinα又はC1=Cb・sinα+Cr・cosα、
C2=-Cb・sinα+Cr・cosα又はC2=Cb・cosα-Cr・sinα、
これは、この場合、2つの成分にわたる順方向KLTを表し、それぞれのアップミックス規則は、
Cb’=C1’・cosα-C2’・sinα又はCb’=C1’・sinα+C2’・cosα、
Cr’=C1’・sinα+C2’・cosα又はCr’=C1’・cosα-C2’・sinα、
【0050】
従って、逆方向KLTを表し、[6]も参照。なお、回転角度α=π/4の場合、上式の右辺の表記は、上式の3つのICT法の固定されたセットの第3(三次)のICT法の直交バージョンを表す。KLT/PCA手法では、回転角度-π≦α≦πの異なる値を使用して、上記の個々の一次、二次、及び任意選択で三次ICT方法をパラメータ化することができる。具体的には、α1=-π/8、α2=π/8、場合によってはα3=-π/4などの固定角度が3つのICT方法のセットに対して定義されてもよく、α1、α2、α3はエンコーダとデコーダの両方に知られている。KLT/PCAダウンミックス規則の単一出力成分変形が定義されてもよく、C1’=0又はC2’=0のいずれかであり、従って、アップミックス規則は簡略化されて、コード化されたC1’のみ又はコード化されたC2’信号のみからCb’及びCr’成分信号を再構成することは注目に値する(セクション3.1参照)。このようにして、サブセットとして上記の2つのセット及び3つのセットの固定されたICTパラメータ化を含むことができる完全に柔軟で一般化された2つ以上のセットのICT方法が構築される。これにより、固定されたパラメータ化の態様が終了する。
【0051】
画像及びビデオコード化の領域については、通常、ビットストリーム構文及び復号プロセスのみが指定されることに留意されたい。その文脈において、記載されたダウンミックス(順方向ICT変換)は、特定のアップミックス規則のためのダウンミックスチャネルを取得するための特定の例として解釈されるべきである。エンコーダにおける実際の実装は、これらの例から逸脱し得る。
【0052】
いくつかのコード化構成では、入力依存適応方式で回転角度αを決定することが有益である。そのようなシナリオでは、αは、以下のように2つの入力成分信号(ここではCb及びCr残差)から、
α=1/2・tan-1(2・CbCr/(Cb2-Cr2))又はα=1/2・tan-1(2・CbCr/(Cr2-Cb2))、
KLTダウンミックス/アップミックス規則の適用される表記に応じて計算され得る(前のページを参照)。αを導出する上記の方法は、相関ベースの(すなわち、最小2乗)手法に基づいている。あるいは、式、
α=sign(CbCr)・tan-1(sqrt(Cr2)/sqrt(Cb2))又は
α=sign(CbCr)・tan-1(sqrt(Cb2)/sqrt(Cr2))を、
ここでも、特定のKLTダウンミックス/アップミックス表記に応じて使用することができる。この計算は、強度ベースの原理角度計算を表す。相関に基づく導出方法及び強度に基づく導出方法(自然な画像又はビデオコンテンツに対してほぼ同一の結果をもたらす)の両方は、ドット積を利用し、
CbCr=sumb∈B(Cbb・Crb)、Cb2=sumb∈B(Cbb・Cbb)、Cr2=sumb∈B(Crb・Crb)、
【0053】
ここで、Bは処理されたコード化ブロック(又はピクチャ)に属するすべてのサンプル位置のセットに等しい。逆正接演算tan-1は、一般に、正しい、すなわち適切な座標象限内にある記号を有するαを得るためにatan2プログラミング関数を使用して実施される。導出された-π≦α≦πは、所定の数の角度のうちの1つに量子化(すなわちマッピングされる)され、ICTオン/オフフラグと共に、ブロック又はピクチャレベルでデコーダに送信され得る。具体的には、以下の送信オプションを使用して、逆方向ICT処理中に適用する特定のパラメータ化についてデコーダに通知することができる:
【0054】
・第1の選択肢:各コード化ブロック及び/又はそのコード化ブロックで使用される各ICT方法について、そのICT方法の量子化/マッピングされたαを、量子化された角度値として直接、又は所定の角度のルックアップテーブルへのインデックスとして間接的に送信する。ブロックに1つのICT方法のみが適用され、各ブロックに対して量子化/マッピングされたαが送信される場合、1つのαのみが送信される。ブロック内でICTコード化がアクティブでない場合、効率のためにこのブロックに対して量子化/マッピングされたαは送信されない。
【0055】
・第2の選択肢:量子化/マッピングされたα値をピクチャ又はビデオ(ピクチャのセット)毎に1回、前記ピクチャ又はビデオで適用される、又は適用可能なすべてのICT方法に対して送信する。これは、例えば、画像パラメータセットにおいて、又は好ましくはHEVC若しくはVVC[3]のスライスヘッダにおいて、ピクチャ又はビデオの先頭で実行することができる。ピクチャ又はビデオにおいてICTコード化がアクティブではなく、及び/又はクロマコード化が実行されていない場合(例えば、ルーマのみの入力)、量子化/マッピングされたα値を送信する必要はない。ここでも、各αパラメータは、量子化された角度値として直接的に、又は所定の角度値のルックアップテーブルへのインデックスとして間接的に送信することができる。
【0056】
両方のオプションは、並列又は順次のいずれかで組み合わせることができる。
適応パラメータ化態様の議論を結論付けるために、上記のパラメータ送信オプションからのわずかな逸脱が容易に実施可能であることは当業者には明らかであることに留意されたい。例えば、エンコーダからデコーダへのピクチャ又はブロック毎のICTパラメータ送信は、コード化に利用可能な2つ以上のICT方法のセットのうちの選択されたICT方法、例えば、方法1及び2についてのみ、又は方法3についてのみに対してだけ実行されてもよい。更に、変換サイズが2(すなわち2つの色成分にわたるICT)の場合、KLTは、α=π/4又はα=-π/4の場合のDCT又はWHTと等価であることは明らかである。最後に、KLT以外の他の変換又は一般的に言えばダウンミックス/アップミックス規則がICTとして使用されてもよく、これらは回転角度以外の他のパラメータ化の影響を受けてもよい(最も一般的な場合には、実際のアップミックス重みを量子化/マッピングして送信することができる)。
【0057】
3.4.応用ICT法の加速エンコーダ側選択
最新の画像及びビデオエンコーダでは、複数のサポートされているコード化モードのうちの1つが、通常、ラグランジュのビット割り当て技術に基づいて選択される。すなわち、サポートされる各モードm(又はそのサブセット)について、結果として生じる歪みD(m)及び結果として生じるビット数R(m)が計算され、λが固定ラグランジュ乗数であるラグランジュ関数D(m)+λ R(m)を最小化するモードが選択される。歪み項D(m)及びレート項R(m)の決定は、典型的には、モード毎に2d順方向変換、(かなり複雑な)量子化、及びテストエントロピコード化を必要とするため、エンコーダの複雑さは、サポートされるモードの数と共に増大する。従って、エンコーダの複雑さはまた、ブロックベースでサポートされるICTモードの数と共に増加する。
しかしながら、ICT方法を評価するためのエンコーダの複雑さを低減する可能性がある。以下では、3つの例を強調する:
【0058】
・エンコーダでは、(例えば、上記の方法のうちの1つによって)ブロックの色成分の元の(残差サンプル)に基づいて最適な回転角度αを導出することができる。そして、導出された角度が与えられると、この角度に最も近い回転を表すICT方法のみが、この方法mに必要な実際の歪みD(m)及び実際のビット数R(m)を導出することによって試験される。
【0059】
・ダウンミックス方法のみがサポートされている場合(すなわち、N個の色成分がM<N個の送信チャネルによって表される方法)、ダウンミックスのみに起因する歪みを評価することができる。次に、最小のダウンミックス歪みをもたらす方法mのみが、ラグランジュ手法を使用して試験される(すなわち、方法mに関連する実際の歪みD(m)及び実際のビットレートR(m)を導出することによって)。
【0060】
・2つの混合チャネルC1’及びC2’をコード化する場合、これらのチャネルの両方には、Sec.3.2.2の方法3の場合のように非ゼロのCBFが必要であり、第1の混合チャネル(例えば、C1’)の量子化後に、前記第1の混合チャネルの量子化バージョンが少なくとも1つの非ゼロ量子化係数を呈するかどうかを試験することによって、エンコーダの高速化が可能である。そうである場合(すなわち、そのCBFは非ゼロである)、第2の混合チャネル(例えば、C2’)を量子化することができ、次いで、ラグランジュ法を使用してこの2チャネル法を試験する。しかしながら、第1の混合チャネルの量子化バージョンがゼロ量子化係数(すなわち、そのCBFは0である)のみを示す場合、第2の混合チャネルの量子化をスキップすることができ、所与の量子化パラメータに対して、2チャネル方法を暗黙的にシグナリングすることができず、従って禁止されるので、2チャネル方法のラグランジュ試験を中止することができる。
【0061】
3.5.ICTフラグ及びモードのためのコンテキストモデリング
ICT使用のシグナリングは、CBF情報に結合され得る。両方のCBFフラグ、すなわち各クロマ成分の各変換ブロック(TB)のCBFが0に等しい場合、シグナリングは不要である。あるいは、ICTアプリケーションの構成によっては、ビットストリームでICTフラグを送信してもよい。内部コンテキストモデリングと外部コンテキストモデリングとの区別は、この文脈において有用であり、すなわち、内部コンテキストモデリングはコンテキスト・モデル・セット内のコンテキストモデルを選択し、外部コンテキストモデリングはコンテキスト・モデル・セットを選択する。内部コンテキストモデリングのための構成は、例えば、上記及び左の隣接物を使用し、それらのICTフラグ値をチェックする、隣接TBの評価である。値からコンテキスト・モデル・セット内のコンテキストインデックスへのマッピングは、加法的(すなわち、c_idx=L+B)、排他的論理和(すなわち、c_idx=(L<<1)+A)、又は能動的(すなわち、c_idx=min(1,L+B))であり得る。外部コンテキストモデリングのために、ICTフラグのCBF条件を使用することができる。例えば、CBFフラグの組み合わせによって区別される3つの変換を使用する構成の場合、CBF組み合わせの各々に対して別々のコンテキストセットが採用される。あるいは、外部及び内部コンテキストモデリングの両方は、異なるコンテキストモデル又は異なるコンテキスト・モデル・セットが異なるブロックサイズに使用されるように、ツリー深度及びブロックサイズを考慮に入れることができる。
【0062】
本発明の好ましい実施形態では、ICTフラグに単一のコンテキストモデルが使用され、すなわち、コンテキスト・モデル・セット・サイズは1に等しい。
【0063】
本発明の更に好ましい実施形態では、内部コンテキストモデリングは、隣接する変換ブロックを評価し、コンテキスト・モデル・インデックスを導出する。この場合、加法評価を使用するとき、コンテキスト・モデル・セット・サイズは3に等しい。
【0064】
本発明の好ましい実施形態では、外部コンテキストモデリングは、各CBFフラグの組み合わせに対して異なるコンテキスト・モデル・セットを使用し、各CBFの組み合わせが異なるICT変換をもたらすようにICTが構成されると、3つのコンテキスト・モデル・セットが得られる。
【0065】
本発明の更に好ましい実施形態では、外部コンテキストモデリングは、両方のCBFフラグが1に等しい場合に専用のコンテキスト・モデル・セットを使用し、他の場合は同じコンテキスト・モデル・セットを使用する。
【0066】
エンコーダの特徴を参照して本明細書で提供される説明は、エンコーダから直接、例えば、無線若しくは有線ネットワークなどのデータ接続を使用して、又はポータブル媒体若しくはサーバなどの記憶メディアを使用して間接的に、信号若しくはビットストリームを受信するように適合されたそれぞれのデコーダにも適用されるが、これに限定されない。逆に、デコーダに関連して説明された特徴は、一実施形態によるエンコーダの対応する特徴として制限なく実装され得る。これは、他の特徴の中でもとりわけ、情報を直接かつ明確に評価することに依存するデコーダに関連する特徴が、それぞれの情報を生成及び/又は送信するためのエンコーダのそれぞれの特徴を開示することを含む。特に、エンコーダは、特に選択された符号化を試験及び評価するために、特許請求されるデコーダに対応する機能を備えることができる。
【0067】
いくつかの態様は、装置の文脈で説明されているが、これらの態様は、対応する方法の説明も表しており、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロック又は対応する装置のアイテム又は特徴の記述も表す。
【0068】
本発明の符号化された画像又はビデオ信号は、デジタル記憶媒体に記憶することができ、あるいはインターネットなどの無線伝送媒体又は有線伝送媒体などの伝送媒体上で伝送することができる。
【0069】
特定の実装要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実施形態は、中に格納される電子的に読み取り可能な制御信号を有し、各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
【0070】
本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働して、本明細書に記載の方法の1つが実行されるような、電子的に読み取り可能な制御信号を有するデータキャリアを備える。
【0071】
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するときに、本方法の1つを実行するように動作するプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。
【0072】
他の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。
【0073】
従って、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0074】
従って、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含み、そこに記録される、データキャリア(又はデジタル記憶媒体又はコンピュータ可読媒体)である。
【0075】
従って、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えばインターネットを介して転送されるように構成することができる。
【0076】
更なる実施形態は、本明細書に記載の方法のうちの1つを実行するように構成された、又は適用される処理手段、例えばコンピュータ又はプログラマブル論理装置を含む。
【0077】
更なる実施形態は、本明細書で説明される方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0078】
いくつかの実施形態では、プログラマブルロジック装置(例えば、フィールド・プログラマブル・ゲート・アレイ)を使用して、本明細書に記載の方法の機能の一部又は全部を実行することができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明する方法の1つを実行するためにマイクロ処理部と協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
【0079】
上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成及び詳細の修正及び変形は、他の当業者には明らかであることが理解される。従って、本明細書の実施形態の説明及び説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。
【0080】
4. 参考文献
[1] K. Zhang, J. Chen, L. Zhang, M. Karczewicz, “Enhanced cross-component linear model intra prediction,” JVET-D0110, 2016, http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=2806
【0081】
[2] J. Lainema, “CE7-rel.: Joint coding of chrominance residuals,” JVET-M0305, Marrakech, Jan. 2019. http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=5112
【0082】
[3] B. Bross, J. Chen, S. Liu, “Versatile Video Coding (Draft 4),” v. 4, JVET-M1001, Marrakech, Feb. 2019. http://phenix.it-sudparis.eu/jvet/doc_end_user/current_document.php?id=5755
【0083】
[4] J. D. Johnston, “Perceptual Transform Coding of Wideband Stereo Signals,” in Proc. IEEE Int. Conf. Acoust. Speech Sig. Process. (ICASSP), Glasgow, vol. 3, pp. 1993-1996, May 1989.
【0084】
[5] J. D. Johnston and A. J. S. Ferreira, “Sum-Difference Stereo Transform Coding,” in Proc. IEEE Int. Conf. Acoust. Speech Sig. Process. (ICASSP), San Francisco, vol. 2, pp. 569-572, Mar. 1992.
【0085】
[6] R. G. van der Waal and R. N. J. Veldhuis, “Subband Coding of Stereophonic Digital Audio Signals,” in Proc. IEEE Int. Conf. Acoust. Speech Sig. Process. (ICASSP), Toronto, pp. 3601-3604, Apr. 1991. https://www.computer.org/csdl/proceedings/icassp/1991/0003/00/00151053.pdf