IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7480303ビデオ符号化のための方法並びに、その装置、及びコンピュータプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-26
(45)【発行日】2024-05-09
(54)【発明の名称】ビデオ符号化のための方法並びに、その装置、及びコンピュータプログラム
(51)【国際特許分類】
   H04N 19/117 20140101AFI20240430BHJP
   H04N 19/157 20140101ALI20240430BHJP
   H04N 19/176 20140101ALI20240430BHJP
   H04N 19/186 20140101ALI20240430BHJP
   H04N 19/70 20140101ALI20240430BHJP
   H04N 19/80 20140101ALI20240430BHJP
   H04N 19/85 20140101ALI20240430BHJP
【FI】
H04N19/117
H04N19/157
H04N19/176
H04N19/186
H04N19/70
H04N19/80
H04N19/85
【請求項の数】 20
(21)【出願番号】P 2022539256
(86)(22)【出願日】2021-06-01
(65)【公表番号】
(43)【公表日】2023-03-03
(86)【国際出願番号】 US2021035230
(87)【国際公開番号】W WO2022060437
(87)【国際公開日】2022-03-24
【審査請求日】2022-06-24
(31)【優先権主張番号】63/079,322
(32)【優先日】2020-09-16
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/315,989
(32)【優先日】2021-05-10
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】シン・ジャオ
(72)【発明者】
【氏名】イシン・ドゥ
(72)【発明者】
【氏名】シャン・リュウ
【審査官】田中 純一
(56)【参考文献】
【文献】特表2019-525679(JP,A)
【文献】特表2022-554309(JP,A)
【文献】米国特許出願公開第2018/0063527(US,A1)
【文献】米国特許出願公開第2022/0264106(US,A1)
【文献】特表2022-552338(JP,A)
【文献】米国特許出願公開第2022/0264122(US,A1)
【文献】Hua Yang, Yuwen He, Hongyu Li,CE5-related: Joint chroma cross-component adaptive loop filtering,JVET-P0372-v5 ,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 16th Meeting: Geneva,2019年10月09日,pp.1-6
【文献】Olena Chubach, Ching-Yeh Chen, Chen-Yen Lai, Tzu-Der Chuang, Yu-Wen Huang, Shaw-Min Lei,CE5-related: On CC-ALF modifications related to coefficients and signalling,JVET-Q0190-v2,Joint Video Experts Team (JVET) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 17th Meeting: Brussels,2020年01月17日,pp.1-10
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/12
H04N 19/00 - 19/98
(57)【特許請求の範囲】
【請求項1】
デコーダにおける画像又はビデオの復号方法であって、
符号化ビデオシーケンスの一部である現在の画像内の現在のブロックの予測情報を復号するステップであって、前記予測情報が、前記現在のブロックに対する交差成分フィルタリング(CCF)プロセスを示す、ステップと、
前記CCFプロセスを前記現在のブロックの予測サンプル、残差値、及び再構成サンプルのうちの少なくとも1つに適用することによって、前記現在のブロックのフィルタリングされた再構成サンプルを生成するステップと
前記現在のブロックの前記フィルタリングされた再構成サンプルに基づいて前記現在のブロック及び後続のブロックを再構成するステップであって、前記現在のブロックの前記フィルタリングされた再構成サンプルは、前記後続のブロックの参照サンプルとして使用され、又は、前記後続のブロックの予測サンプルを生成するために使用される、ステップと、を含む、方法。
【請求項2】
前記生成するステップは、前記CCFプロセスを、前記現在のブロックの逆量子化プロセス及び逆変換プロセスのうちの少なくとも1つの出力に適用することによって、前記現在のブロックの前記フィルタリングされた再構成サンプルを生成するステップを含む、請求項1に記載の方法。
【請求項3】
前記CCFプロセスを前記再構成サンプルに適用することは、輝度再構成サンプルを前記CCFに入力し、前記現在のブロックのオフセット値を出力することを含み、
前記再構成するステップは、前記オフセット値を前記現在のブロックの彩度再構成サンプルに追加することによって、前記現在のブロックを再構成するステップを含む、請求項1に記載の方法。
【請求項4】
前記CCFプロセスを前記残差値に適用することは、輝度残差値を前記CCFに入力し、前記現在のブロックのオフセット値を出力することを含み、
前記再構成するステップは、前記オフセット値を前記現在のブロックの彩度残差値に追加することによって、前記現在のブロックを再構成するステップを含む、請求項1に記載の方法。
【請求項5】
前記CCFプロセスを前記予測サンプルに適用することは、予測輝度サンプル値を前記CCFに入力し、前記現在のブロックのオフセット値を出力することを含み、
前記再構成するステップは、前記オフセット値を前記現在のブロックの彩度予測サンプルに追加することによって、前記現在のブロックを再構成するステップを含む、請求項1に記載の方法。
【請求項6】
前記CCFプロセスのフィルタ係数が前記予測情報に含まれている、請求項1に記載の方法。
【請求項7】
前記CCFプロセスのフィルタ係数が事前定義された定数である、請求項1に記載の方法。
【請求項8】
前記現在の画像で使用される前記CCFプロセスのフィルタ係数は、別の画像で使用される前記CCFプロセスのフィルタ係数と、前記現在の画像で使用される前記CCFプロセスの前記フィルタ係数のオフセット値とに基づいて決定される、請求項1に記載の方法。
【請求項9】
一つの色成分で使用される前記CCFプロセスのフィルタ係数は、別の色成分で使用される前記CCFプロセスのフィルタ係数に基づいて決定される、請求項1に記載の方法。
【請求項10】
前記CCFプロセスのフィルタ係数は、前記CCFプロセスが適用される前に決定された前記現在のブロックのサンプル値に基づいて決定される、請求項1に記載の方法。
【請求項11】
前記CCFプロセスが有効にされるか否かは、分割方式、予測モード、ブロック幅、ブロック高さ、変換係数、及び量子化パラメータのうちの1つに基づいて決定される、請求項1に記載の方法。
【請求項12】
符号化ビデオシーケンスの一部である現在の画像内の現在のブロックの予測情報を復号するステップであって、前記予測情報が、前記現在のブロックに対する交差成分フィルタリング(CCF)プロセスを示す、ステップと、
前記CCFプロセスを前記現在のブロックの予測サンプル、残差値、及び再構成サンプルのうちの少なくとも1つに適用することによって、前記現在のブロックのフィルタリングされた再構成サンプルを生成するステップと
前記現在のブロックの前記フィルタリングされた再構成サンプルに基づいて前記現在のブロック及び後続のブロックを再構成するステップであって、前記現在のブロックの前記フィルタリングされた再構成サンプルは、前記後続のブロックの参照サンプルとして使用され、又は、前記後続のブロックの予測サンプルを生成するために使用される、ステップと、を実行するように構成された処理回路を含む、装置。
【請求項13】
前記処理回路は、
前記CCFプロセスを、前記現在のブロックの逆量子化プロセス及び逆変換プロセスのうちの少なくとも1つの出力に適用することによって、前記現在のブロックの前記フィルタリングされた再構成サンプルを生成するように構成される、請求項12に記載の装置。
【請求項14】
前記CCFプロセスを前記再構成サンプルに適用することは、輝度再構成サンプルを前記CCFに入力し、前記現在のブロックのオフセット値を出力することを含み、
前記処理回路は、
記オフセット値を前記現在のブロックの彩度再構成サンプルに追加することによって、前記現在のブロックを再構成するように構成される、請求項12に記載の装置。
【請求項15】
前記CCFプロセスを前記残差値に適用することは、輝度残差値を前記CCFに入力し、前記現在のブロックのオフセット値を出力することを含み、
前記処理回路は、
記オフセット値を前記現在のブロックの彩度残差値に追加することによって、前記現在のブロックを再構成するように構成される、請求項12に記載の装置。
【請求項16】
前記CCFプロセスを前記予測サンプルに適用することは、予測輝度サンプル値を前記CCFに入力し、前記現在のブロックのオフセット値を出力することを含み、
前記処理回路は、
記オフセット値を前記現在のブロックの彩度予測サンプルに追加することによって、前記現在のブロックを再構成するように構成される、請求項12に記載の装置。
【請求項17】
前記CCFプロセスのフィルタ係数が前記予測情報に含まれている、請求項12に記載の装置。
【請求項18】
前記CCFプロセスのフィルタ係数が事前定義された定数である、請求項12に記載の装置。
【請求項19】
前記現在の画像で使用される前記CCFプロセスのフィルタ係数は、別の画像で使用される前記CCFプロセスのフィルタ係数と、前記現在の画像で使用される前記CCFプロセスの前記フィルタ係数のオフセット値とに基づいて決定される、請求項12に記載の装置。
【請求項20】
少なくとも1つのプロセッサに、請求項1から11のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
参照による援用
本出願は、2021年5月10日に出願された米国特許出願第17/315,989号「METHOD AND APPARATUS FOR VIDEO CODING」の優先権の利益を主張し、同出願は、2020年9月16日に出願された米国仮出願第63/079,322号「CROSS-COMPONENT FILTERING ON BLOCK-LEVEL RECONSTRUCTION」の優先権の利益を主張する。先行出願の開示全体は、参照によりその全体が本明細書に組み込まれる。
【0002】
本開示は、全体的にビデオ符号化に関連する実施形態を説明する。
【背景技術】
【0003】
本明細書で提供される背景説明は、本開示の文脈を概略的に示すことを目的とする。現在記載されている発明者の研究は、出願時に別の形で先行技術としての資格を有しない明細書の態様と同様に、この背景部分に記載されている範囲で、明示又は黙示を問わず本開示に対する先行技術として認めるものではない。
【0004】
ビデオ符号化及び復号は、動き補償を伴うインター画像予測を用いて実行することができる。非圧縮デジタルビデオは一連の画像を含むことができ、各画像は、例えば、1920×1080の輝度サンプル及び関連するクロミナンスサンプルの空間次元を有する。一連の画像は、例えば毎秒60枚の画像又は60Hzの固定又は可変の画像レート(非公式にはフレームレートとも知られている)を有することができる。非圧縮ビデオには、かなりのビットレート要件がある。例えば、サンプル当たり8ビットの1080p60 4:2:0ビデオ(60Hzのフレームレートで1920×1080の輝度サンプル解像度)には、1.5Gbit/sに近い帯域幅が必要である。1時間分のそのようなビデオには、600ギガバイトを超えるストレージスペースが必要である。
【0005】
ビデオ符号化及び復号の1つの目的は、圧縮によって入力ビデオ信号の冗長性を低減することであり得る。圧縮は、前述の帯域幅及び/又はストレージスペース要件を、場合によっては2桁以上低減するのに役立つ。可逆圧縮及び非可逆圧縮の両方、並びにそれらの組み合わせを使用することができる。可逆圧縮とは、圧縮された元の信号から元の信号の正確なコピーを再構成することができる技術を指す。非可逆圧縮を使用する場合、再構成された信号は元の信号と同一ではない場合があるが、元の信号と再構成された信号との間の歪みは、再構成された信号を意図された用途に有用なものにするのに十分に小さい。ビデオの場合、非可逆圧縮が広く用いられている。許容される歪みの量はアプリケーションによって異なり、例えば、特定の消費者向けストリーミングアプリケーションのユーザは、テレビ配信アプリケーションのユーザよりも高い歪みを許容する可能性がある。達成可能な圧縮比は、より高い許容可能な歪み/許容歪みがより高い圧縮比をもたらし得ることを反映することができる。
【0006】
ビデオエンコーダ及びデコーダは、例えば、動き補償、変換、量子化、及びエントロピー符号化を含むいくつかの広いカテゴリからの技術を利用することができる。
【0007】
ビデオコーデック技術は、イントラ符号化として知られる技術を含むことができる。イントラ符号化では、サンプル値は、以前に再構成された参照画像からのサンプル又は他のデータを参照せずに表される。一部のビデオコーデックでは、画像はサンプルのブロックに空間的に再分割される。サンプルのすべてのブロックがイントラモードで符号化される場合、その画像はイントラ画像であり得る。イントラ画像及び独立デコーダリフレッシュ画像のようなそれらの派生物は、デコーダ状態をリセットするために使用することができ、したがって、符号化ビデオビットストリーム及びビデオセッションにおける最初の画像として、又は静止画像として使用することができる。イントラブロックのサンプルを変換することができ、変換係数は、エントロピー符号化の前に量子化することができる。イントラ予測は、変換前領域のサンプル値を最小化する技術であり得る。場合によっては、変換後のDC値が小さいほど、またAC係数が小さいほど、エントロピー符号化後のブロックを表すために所定の量子化ステップサイズで必要とされるビット数が少なくなる。
【0008】
例えばMPEG-2世代符号化技術から知られているような従来のイントラ符号化は、イントラ予測を使用しない。しかしながら、一部の新しいビデオ圧縮技術は、例えば、空間的に隣接し、かつ復号順序において先行するデータのブロックの符号化/復号中に得られた周囲サンプルデータ及び/又はメタデータから試みる技術を含む。このような技術は、以降「イントラ予測」技術と呼ばれる。少なくとも一部の場合では、イントラ予測は、再構成中の現在の画像からの参照データのみを使用し、参照画像からの参照データを使用しないことに留意されたい。
【0009】
イントラ予測には多くの異なる形式があり得る。そのような技術の2つ以上が所与のビデオ符号化技術において使用され得る場合、使用中の技術は、イントラ予測モードで符号化することができる。特定の場合では、モードはサブモード及び/又はパラメータを有することができ、それらは個別に符号化されるか、又はモード符号語に含まれてもよい。所与のモード、サブモード及び/又はパラメータの組み合わせに対してどの符号語を使用するかは、イントラ予測を通じて符号化効率利得に影響を与えることができ、また、符号語をビットストリームに変換するために使用されるエントロピー符号化技術も影響を与えることができる。
【0010】
イントラ予測の特定のモードは、H.264で導入され、H.265で改良され、共同探索モデル(JEM)、多用途ビデオ符号化(VVC)、及びベンチマークセット(BMS)などの新しい符号化技術で更に改良された。予測子ブロックは、既に利用可能なサンプルに属する隣接サンプル値を使用して形成することができる。隣接サンプルのサンプル値は、方向に従って予測子ブロックにコピーされる。使用中の方向への参照は、ビットストリーム内で符号化されてもよく、又はそれ自体で予測されてもよい。
【0011】
図1Aを参照すると、右下に示されているのは、H.265の33個の可能な予測子方向(35個のイントラモードの33個の角度モードに対応する)から知られている9つの予測子方向のサブセットである。矢印が収束する点(101)は、予測されるサンプルを表す。矢印は、サンプルが予測される方向を表す。例えば、矢印(102)は、サンプル(101)が水平から45度の角度で右上の1つ以上のサンプルから予測されることを示す。同様に、矢印(103)は、サンプル(101)が水平から22.5度の角度でサンプル(101)の左下の1つ以上のサンプルから予測されることを示す。
【0012】
引続き図1Aを参照すると、左上には、4×4サンプルの正方形ブロック(104)が示されている(太字の破線で示されている)。正方形ブロック(104)は16個のサンプルを含み、各サンプルには、「S」、Y次元におけるその位置(例えば、行インデックス)及びX次元におけるその位置(例えば、列インデックス)でラベル付けされている。例えば、サンプルS21はY次元における第2のサンプル(上から)であり、X次元における第1のサンプル(左から)である。同様に、サンプルS44は、Y次元及びX次元の両方におけるブロック(104)の第4のサンプルである。ブロックのサイズが4×4サンプルであるため、S44は右下にある。更に、同様の番号付けスキームに従う参照サンプルが示されている。参照サンプルは、R、ブロック(104)に対するそのY位置(例えば、行インデックス)及びX位置(列インデックス)でラベル付けされている。H.264及びH.265の両方において、予測サンプルは再構成中のブロックに隣接しており、したがって、負の値を使用する必要はない。
【0013】
イントラ画像予測は、通知された予測方向によって占有された隣接サンプルから参照サンプル値をコピーすることで機能することができる。例えば、符号化ビデオビットストリームが、このブロックについて、矢印(102)と一致する予測方向を示すシグナリングを含むと仮定し、即ち、サンプルは、水平から45度の角度で右上の1つ以上の予測サンプルから予測される。その場合、サンプルS41、S32、S23、及びS14は、同じ参照サンプルR05から予測される。次に、サンプルS44はサンプルR08から予測される。
【0014】
特定の場合では、特に方向が45度で均等に割り切れない場合、参照サンプルを計算するために、例えば補間によって、複数の参照サンプルの値を組み合わせることができる。
【0015】
ビデオ符号化技術が発展するにつれて、可能な方向の数が増加してきた。H.264(2003年)では、9つの異なる方向を表すことができる。これはH.265(2013年)では33個に増加し、JEM/VVC/BMSは、開示の時点で最大65個の方向をサポートできる。最も可能性の高い方向を特定するために実験が行われ、エントロピー符号化における特定の技術は、可能性の低い方向の特定の不利益を受け入れて、これらの可能性の高い方向を少数のビットで表すために使用される。更に、方向自体は、既に復号された隣接するブロックで使用される隣接する方向から予測できる場合がある。
【0016】
図1Bは、時間と共に増加する予測方向の数を説明するために、JEMによる65個のイントラ予測方向を示す概略図(105)を示す。
【0017】
方向を表す符号化ビデオビットストリーム内のイントラ予測方向ビットのマッピングは、ビデオ符号化技術によって異なる場合があり、また、例えば、予測方向の単純な直接マッピングからイントラ予測モード、符号語、再確モードを含む複雑な適応スキーム、及び類似の技術に及ぶ可能性がある。ただし、すべての場合において、他の特定の方向よりもビデオコンテンツで発生する可能性が統計的に低い特定の方向が存在する可能性がある。ビデオ圧縮の目標は冗長性の低減であるため、これらの可能性の低い方向は、よく機能するビデオ符号化技術では、可能性の高い方向よりも多くのビット数で表される。
【0018】
動き補償は、非可逆圧縮技術である可能性があり、また、以前に再構成された画像又はその一部(参照画像)からのサンプルデータのブロックが、動きベクトル(以降、MV)によって示される方向に空間的にシフトされた後、新たに再構成された画像又は画像部分の予測に使用される技術に関連することができる。場合によっては、参照画像は現在再構成中の画像と同じであってもよい。MVは、2つの次元X及びY、又は3つの次元を有することができ、第3の次元は、使用中の参照画像を示す(後者は間接的に時間次元であり得る)。
【0019】
一部のビデオ圧縮技術では、サンプルデータの特定の領域に適用可能なMVは、他のMVから、例えば、再構成中の領域に空間的に隣接し、復号順序でそのMVに先行するサンプルデータの別の領域に関連するものから予測することができる。そうすることで、MVの符号化に必要なデータ量を大幅に削減することができるため、冗長性が排除され、圧縮が向上する。例えば、カメラから得られた入力ビデオ信号(ナチュラルビデオとして知られている)を符号化する場合、単一のMVが適用可能な領域よりも大きい領域が同様の方向に移動する統計的可能性があり、したがって、場合によっては、隣接領域のMVから導出された同様のMVを使用して予測することができるため、MV予測は効果的に機能することができる。その結果、所定の領域に対して検出されたMVは、周囲のMVから予測されたMVと類似又は同一であり、それは、エントロピー符号化の後、MVを直接符号化する場合に使用されるビット数よりも少ないビット数で表すことができる。場合によっては、MV予測は、元の信号(即ち、サンプルストリーム)から導出された信号(即ち、MV)の可逆圧縮の一例であり得る。その他の場合、例えば、いくつかの周囲のMVから予測子を計算するときの丸め誤差のために、MV予測自体が非可逆である可能性がある。
【0020】
様々なMV予測メカニズムがH.265/HEVC(ITU-T Rec.H.265、「High Efficiency Video Coding」、2016年12月)に記載されている。H.265が提供する多くのMV予測メカニズムのうち、ここで説明するのは、以降「空間マージ」と呼ばれる技術である。
【0021】
図1Cを参照すると、現在のブロック(111)は、動き探索プロセス中にエンコーダによって発見されたサンプルを含むことができ、これらのサンプルは、空間的にシフトされた同じサイズの前のブロックから予測可能である。そのMVを直接符号化する代わりに、MVは、A0、A1、及びB0、B1、B2(それぞれ112~116)と示される5つの周囲サンプルのいずれか1つに関連するMVを使用して、1つ以上の参照画像に関連するメタデータから、例えば最新の(復号順の)参照画像から導出することができる。H.265では、MV予測は隣接ブロックが使用しているのと同じ参照画像からの予測子を使用することができる。
【発明の概要】
【課題を解決するための手段】
【0022】
本開示の態様は、ビデオ符号化/復号のための装置を提供する。装置は、符号化ビデオシーケンスの一部である現在の画像内の現在のブロックの予測情報を復号する処理回路を含む。予測情報は、現在のブロックに対する交差成分フィルタリング(CCF)プロセスを示す。処理回路は、CCFプロセスを現在のブロックの予測サンプル、残差値、又は再構成サンプルのうちの少なくとも1つに適用することによって、現在のブロックのフィルタリングされた再構成サンプルを生成する。現在のブロックのフィルタリングされた再構成サンプルは、後続のブロックの再構成に使用される。処理回路は、現在のブロックのフィルタリングされた再構成サンプルに基づいて現在のブロック及び後続のブロックを再構成する。
【0023】
一実施形態では、処理回路は、CCFプロセスを、現在のブロックの逆量子化プロセス及び逆変換プロセスのうちの少なくとも1つの出力に適用することによって、現在のブロックのフィルタリングされた再構成サンプルを生成する。
【0024】
一実施形態では、処理回路は、現在のブロックのオフセット値を含むCCFプロセスの出力を現在のブロックの彩度再構成サンプルに追加することによって、現在のブロックを再構成する。
【0025】
一実施形態では、処理回路は、現在のブロックのオフセット値を含むCCFプロセスの出力を現在のブロックの彩度残差値に追加することによって、現在のブロックを再構成する。
【0026】
一実施形態では、処理回路は、現在のブロックのオフセット値を含むCCFプロセスの出力を現在のブロックの彩度予測サンプルに追加することによって、現在のブロックを再構成する。
【0027】
一実施形態では、CCFプロセスのフィルタ係数は予測情報に含まれている。
【0028】
一実施形態では、CCFプロセスのフィルタ係数は事前定義された定数である。
【0029】
一実施形態では、現在の画像で使用されるCCFプロセスのフィルタ係数は、別の画像で使用されるCCFプロセスのフィルタ係数と、現在の画像で使用されるCCFプロセスのフィルタ係数のオフセット値とに基づいて決定される。
【0030】
一実施形態では、一つの色成分で使用されるCCFプロセスのフィルタ係数は、別の色成分で使用されるCCFプロセスのフィルタ係数に基づいて決定される。
【0031】
一実施形態では、CCFプロセスのフィルタ係数は、CCFプロセスが適用される前に決定された現在のブロックのサンプル値に基づいて決定される。
【0032】
一実施形態では、CCFプロセスが有効にされるか否かは、分割方式、予測モード、ブロック幅、ブロック高さ、変換係数、及び量子化パラメータのうちの1つに基づいて決定される。
【0033】
本開示の態様は、ビデオ符号化/復号のための方法を提供する。この方法では、符号化ビデオシーケンスの一部である現在の画像内の現在のブロックの予測情報が復号される。予測情報は、現在のブロックに対するCCFプロセスを示す。CCFプロセスを現在のブロックの予測サンプル、残差値、又は再構成サンプルのうちの少なくとも1つに適用することによって、現在のブロックのフィルタリングされた再構成サンプルが生成される。現在のブロックのフィルタリングされた再構成サンプルは後続のブロックの再構成に使用される。現在のブロックのフィルタリングされた再構成サンプルに基づいて現在のブロック及び後続のブロックが再構成される。
【0034】
本開示の態様はまた、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、ビデオ復号のための方法のいずれか1つ又は組み合わせを実行させる命令を記憶する非一時的なコンピュータ可読媒体を提供する。
【0035】
開示された主題の更なる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。
【図面の簡単な説明】
【0036】
図1A】イントラ予測モードの例示的なサブセットの概略図である。
図1B】例示的なイントラ予測方向の図である。
図1C】一例における現在のブロック及びその周囲の空間マージ候補の概略図である。
図2】一実施形態による通信システムの簡略ブロック図の概略図である。
図3】一実施形態による通信システムの簡略ブロック図の概略図である。
図4】一実施形態によるデコーダの簡略ブロック図の概略図である。
図5】一実施形態によるエンコーダの簡略ブロック図の概略図である。
図6】別の実施形態によるエンコーダのブロック図である。
図7】別の実施形態によるデコーダのブロック図である。
図8A】実施形態による適応ループフィルタ(ALF)の例示的なダイヤモンドフィルタ形状を示す図である。
図8B】実施形態による適応ループフィルタ(ALF)の例示的なダイヤモンドフィルタ形状を示す図である。
図9A】実施形態による、垂直方向、水平方向及び2つの対角方向の勾配計算にそれぞれ使用される例示的なサブサンプリングされた位置を示す図である。
図9B】実施形態による、垂直方向、水平方向及び2つの対角方向の勾配計算にそれぞれ使用される例示的なサブサンプリングされた位置を示す図である。
図9C】実施形態による、垂直方向、水平方向及び2つの対角方向の勾配計算にそれぞれ使用される例示的なサブサンプリングされた位置を示す図である。
図9D】実施形態による、垂直方向、水平方向及び2つの対角方向の勾配計算にそれぞれ使用される例示的なサブサンプリングされた位置を示す図である。
図10】一実施形態による、輝度成分に適用される例示的な修正ブロック分類を示す図である。
図11】一部の実施形態による、仮想境界における輝度成分に対する例示的な修正ALFを示す図である。
図12】一実施形態による、例示的な最大符号化ユニット(LCU)位置合わせ画像四分木分割を示す図である。
図13】一実施形態による、zオーダーで符号化された例示的な四分木分割フラグを示す図である。
図14A】一実施形態による、交差成分適応ループフィルタ(CC-ALF)の例示的な配置を示す図である。
図14B】一実施形態による、CC-ALF動作中に各彩度成分の輝度チャネルに適用される例示的な線形ダイヤモンド形フィルタを示す図である。
図15】一実施形態による、8×8ブロックの例示的な方向探索を示す図である。
図16】一実施形態による例示的な部分空間射影を示す図である。
図17】ブロックの逆変換後に適用される例示的なCCFを示す図である。
図18】本開示の一実施形態による例示的なフローチャートである。
図19】一実施形態によるコンピュータシステムの概略図である。
【発明を実施するための形態】
【0037】
I.ビデオデコーダ及びエンコーダシステム
【0038】
図2は、本開示の一実施形態による通信システム(200)の簡略ブロック図を示す。システム(200)は、例えばネットワーク(250)を介して通信することができる複数の端末を含む。例えば、通信システム(200)は、ネットワーク(250)を介して相互接続された第1の対の端末装置(210)及び(220)を含む。図2の例では、第1の対の端末装置(210)及び(220)は、データの一方向送信を実行する。例えば、端末装置(210)は、ネットワーク(250)を介して他方の端末装置(220)に送信するために、ビデオデータ(例えば、端末装置(210)によってキャプチャされたビデオ画像のストリーム)を符号化することができる。符号化ビデオデータは、1つ以上の符号化ビデオビットストリームの形式で送信することができる。端末装置(220)は、ネットワーク(250)から符号化ビデオデータを受信し、符号化データを復号してビデオ画像を復元し、そして復元されたビデオデータに従ってビデオ画像を表示することができる。一方向データ送信は、メディアサービングアプリケーションなどにおいて一般的である可能性がある。
【0039】
別の例では、通信システム(200)は、例えば、ビデオ会議中に発生する可能性のある符号化ビデオデータの双方向送信を実行する第2の対の端末装置(230)及び(240)を含む。データの双方向送信の場合、一例では、端末装置(230)及び(240)の各端末装置は、ネットワーク(250)を介して端末装置(230)及び(240)の他方の端末装置に送信するために、ビデオデータ(例えば、端末装置によってキャプチャされたビデオ画像のストリーム)を符号化することができる。端末装置(230)及び(240)の各端末装置はまた、端末装置(230)及び(240)の他方の端末装置によって送信された符号化ビデオデータを受信し、符号化ビデオデータを復号してビデオ画像を復元し、そして復元されたビデオデータに従ってアクセス可能なディスプレイデバイスでビデオ画像を表示することができる。
【0040】
図2の例では、端末装置(210)、(220)、(230)、及び(240)は、サーバ、パーソナルコンピュータ、及びスマートフォンとして示されてもよいが、本開示の原理は、そのように限定されない場合がある。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤー、及び/又は専用ビデオ会議装置に適用される。ネットワーク(250)は、例えば有線(配線された)通信ネットワーク及び/又は無線通信ネットワークを含めて、端末装置(210)、(220)、(230)及び(240)間で符号化ビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク(250)は、回線交換チャネル及び/又はパケット交換チャネルでデータを交換することができる。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク、及び/又はインターネットが含まれる。本議論の目的のために、ネットワーク(250)のアーキテクチャ及びトポロジーは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではない可能性がある。
【0041】
図3は、開示された主題の適用の一例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示された主題は、例えば、ビデオ会議、デジタルTV、CD、DVD、メモリースティックなどを含むデジタル媒体への圧縮ビデオの保存などを含めて、他のビデオ対応アプリケーションにも同様に適用可能である。
【0042】
ストリーミングシステムは、キャプチャサブシステム(313)を含むことができ、このキャプチャサブシステムは、例えば、圧縮されていないビデオ画像(302)のストリームを作成するビデオソース(301)、例えばデジタルカメラを含むことができる。一例では、ビデオ画像(302)のストリームは、デジタルカメラによって撮影されたサンプルを含む。符号化ビデオデータ(304)(又は符号化ビデオビットストリーム)と比較したときに高いデータ量を強調するために太線で示されているビデオ画像(302)のストリームは、ビデオソース(301)に結合されたビデオエンコーダ(303)を含む電子装置(320)によって処理することができる。ビデオエンコーダ(303)は、以下により詳細に説明されるように、開示された主題の態様を可能にするか又は実施するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。ビデオ画像(302)のストリームと比較したときに低いデータ量を強調するために細線で示されている符号化ビデオデータ(304)(又は符号化ビデオビットストリーム(304))は、将来の使用のためにストリーミングサーバ(305)に記憶することができる。図3のクライアントサブシステム(306)及び(308)などの1つ以上のストリーミングクライアントサブシステムは、ストリーミングサーバ(305)にアクセスして、符号化ビデオデータ(304)のコピー(307)及び(309)を検索することができる。クライアントサブシステム(306)は、例えば、電子装置(330)内のビデオデコーダ(310)を含むことができる。ビデオデコーダ(310)は、符号化ビデオデータの着信コピー(307)を復号し、そしてディスプレイ(312)(例えば、ディスプレイ画面)又は他のレンダリングデバイス(図示せず)上にレンダリングされ得るビデオ画像(311)の発信ストリームを作成する。一部のストリーミングシステムでは、符号化ビデオデータ(304)、(307)及び(309)(例えば、ビデオビットストリーム)は、特定のビデオ符号化/圧縮規格に従って符号化することができる。これらの規格の例としては、ITU-T勧告H.265が挙げられる。一例では、開発中のビデオ符号化規格は、非公式に多用途ビデオ符号化(VVC)として知られている。開示された主題は、VVCの文脈で使用することができる。
【0043】
電子装置(320)及び(330)は、他の構成要素(図示せず)を含むことができることに留意されたい。例えば、電子装置(320)は、ビデオデコーダ(図示せず)を含むことができ、電子装置(330)も、ビデオエンコーダ(図示せず)を含むことができる。
【0044】
図4は、本開示の一実施形態によるビデオデコーダ(410)のブロック図を示す。ビデオデコーダ(410)は、電子装置(430)に含まれてもよい。電子装置(430)は、受信機(431)(例えば、受信回路)を含むことができる。図3の例では、ビデオデコーダ(310)の代わりにビデオデコーダ(410)を使用することができる。
【0045】
受信機(431)は、ビデオデコーダ(410)によって復号されるべき1つ以上の符号化ビデオシーケンスを、同じ又は別の実施形態では、一度に1つの符号化ビデオシーケンスで受信することができ、各符号化ビデオシーケンスの復号は他の符号化ビデオシーケンスから独立している。符号化ビデオシーケンスは、チャネル(401)から受信されてもよく、このチャネルは、符号化ビデオデータを記憶する記憶装置へのハードウェア/ソフトウェアリンクであってもよい。受信機(431)は、符号化ビデオデータを、他のデータ、例えば、符号化オーディオデータ及び/又は補助データストリームと共に受信することができ、これらのデータは、それぞれの使用エンティティ(図示せず)に転送され得る。受信機(431)は、符号化ビデオシーケンスを他のデータから分離することができる。ネットワークジッターに対処するために、バッファメモリ(415)は、受信機(431)とエントロピーデコーダ/パーサ(420)(以降、「パーサ(420)」)との間に結合されてもよい。特定の用途では、バッファメモリ(415)はビデオデコーダ(410)の一部である。他の用途では、これはビデオデコーダ(410)(図示せず)の外部にあってもよい。更に他の用途では、例えばネットワークジッターに対処するために、ビデオデコーダ(410)の外部にバッファメモリ(図示せず)があってもよく、更に、例えばプレイアウトタイミングを処理するためにビデオデコーダ(410)の内部に別のバッファメモリ(415)があってもよい。受信機(431)が十分な帯域幅及び制御性を有するストア/フォワードデバイスから、又は等同期ネットワークからデータを受信しているとき、バッファメモリ(415)は必要とされなくてもよく、又は小さくてもよい。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ(415)が必要とされる場合があり、それは比較的大きくてもよく、有利には適応可能なサイズであってもよく、また、ビデオデコーダ(410)以外のオペレーティングシステム又は同様の要素(図示せず)に少なくとも部分的に実装されてもよい。
【0046】
ビデオデコーダ(410)は、符号化ビデオシーケンスからシンボル(421)を再構成するためのパーサ(420)を含んでもよい。これらのシンボルのカテゴリには、ビデオデコーダ(410)の動作を管理するために使用される情報と、図4に示されるように電子装置(430)の不可欠な部分ではないが、電子装置(430)に結合され得るレンダリングデバイス(412)(例えば、ディスプレイ画面)などのレンダリングデバイスを制御するための潜在的な情報とが含まれる。レンダリングデバイス用の制御情報は、補足強化情報(SEIメッセージ)又はビデオユーザビリティ情報(VUI)パラメータセットフラグメント(図示せず)の形式であってもよい。パーサ(420)は、受信した符号化ビデオシーケンスを解析/エントロピー復号することができる。符号化ビデオシーケンスの符号化は、ビデオ符号化技術又は規格に従うことができ、また、可変長符号化、ハフマン符号化、コンテキスト感度を伴う又は伴わない算術符号化などを含む様々な原理に従うことができる。パーサ(420)は、グループに対応する少なくとも1つのパラメータに基づいて、符号化ビデオシーケンスから、ビデオデコーダ内のピクセルのサブグループの少なくとも1つ用のサブグループパラメータのセットを抽出することができる。サブグループは、画像グループ(GOP)、画像、タイル、スライス、マクロブロック、符号化ユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含むことができる。パーサ(420)はまた、符号化ビデオシーケンス情報から変換係数、量子化器パラメータ値、MVなどを抽出することができる。
【0047】
パーサ(420)は、バッファメモリ(415)から受信したビデオシーケンスに対してエントロピー復号/解析動作を実行して、シンボル(421)を作成することができる。
【0048】
シンボル(421)の再構成には、符号化ビデオ画像又はその一部(例えば、インター画像及びイントラ画像、インターブロック及びイントラブロック)のタイプ、及び他の要因に応じて、複数の異なるユニットが関与する可能性がある。どのユニットが関与するか、及びどのように関与するかは、パーサ(420)によって符号化ビデオシーケンスから解析されたサブグループ制御情報によって制御することができる。パーサ(420)と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れは、分かりやすくするために示されていない。
【0049】
既に述べた機能ブロックのほか、デコーダ(410)は、以下に説明されるように、概念的にいくつかの機能ユニットに再分割することができる。商業的制約の下で動作する実際の実装では、これらのユニットの多くは互いに密接に相互作用し、また少なくとも部分的に互いに統合することができる。しかしながら、開示された主題を説明する目的では、以下の機能ユニットへの概念的な再分割が適切である。
【0050】
第1のユニットは、スケーラ/逆変換ユニット(451)であり得る。スケーラ/逆変換ユニット(451)は、パーサ(420)から、量子化変換係数、並びに使用する変換、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報をシンボル(421)として受信することができる。スケーラ/逆変換ユニット(451)は、アグリゲータ(455)に入力することができるサンプル値を含むブロックを出力することができる。
【0051】
場合によっては、スケーラ/逆変換ユニット(451)の出力サンプルは、イントラ符号化ブロック、即ち、以前に再構成された画像からの予測情報を使用しないが、現在の画像の以前に再構成された部分からの予測情報を使用できるブロックに関連する可能性がある。そのような予測情報は、イントラ画像予測ユニット(452)によって提供することができる。場合によっては、イントラ画像予測ユニット(452)は、現在の画像バッファ(458)からフェッチされた周囲の既に再構成された情報を用いて、再構成中のブロックと同じサイズ及び形状のブロックを生成する。現在の画像バッファ(458)は、例えば、部分的に再構成された現在の画像及び/又は完全に再構成された現在の画像をバッファリングする。アグリゲータ(455)は、場合によっては、サンプルごとに、イントラ予測ユニット(452)が生成した予測情報を、スケーラ/逆変換ユニット(451)によって提供された出力サンプル情報に追加する。
【0052】
他の場合には、スケーラ/逆変換ユニット(451)の出力サンプルは、インター符号化され、潜在的に動き補償されたブロックに関連する可能性がある。そのような場合、動き補償予測ユニット(453)は、参照画像メモリ(457)にアクセスして、予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル(421)に従ってフェッチされたサンプルを動き補償した後、アグリゲータ(455)によってこれらのサンプルをスケーラ/逆変換ユニット(451)の出力に追加して(この場合、残差サンプル又は残差信号と呼ばれる)、出力サンプル情報を生成することができる。動き補償予測ユニット(453)が予測サンプルをフェッチする参照画像メモリ(457)内のアドレスは、MVによって制御することができ、MVは、例えば、X、Y、及び参照画像成分を有することができるシンボル(421)の形式で動き補償予測ユニット(453)に利用可能であり得る。動き補償はまた、サブサンプルの正確なMVが使用されているときに参照画像メモリ(457)からフェッチされたサンプル値の補間、MV予測メカニズムなどを含むことができる。
【0053】
アグリゲータ(455)の出力サンプルは、ループフィルタユニット(456)において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、インループフィルタ技術を含むことができ、これは、符号化ビデオシーケンス(符号化ビデオビットストリームとも呼ばれる)に含まれているパラメータによって制御され、パーサ(420)からのシンボル(421)としてループフィルタユニット(456)に利用可能にされるが、符号化画像又は符号化ビデオシーケンスの前の(復号順の)部分の復号中に得られたメタ情報に応答するだけでなく、以前に再構成及びループフィルタリングされたサンプル値に応答することもできる。
【0054】
ループフィルタユニット(456)の出力は、レンダリングデバイス(412)に出力され得るだけでなく、将来のインター画像予測に使用するために参照画像メモリ(457)に記憶され得るサンプルストリームであり得る。
【0055】
特定の符号化画像は、完全に再構成されると、将来の予測のための参照画像として使用することができる。例えば、現在の画像に対応する符号化画像が完全に再構成され、また符号化画像が参照画像として識別されると(例えば、パーサ(420)によって)、現在の画像バッファ(458)は、参照画像メモリ(457)の一部となることができ、そして次の符号化画像の再構成を開始する前に、新しい現在の画像バッファを再割り当てすることができる。
【0056】
ビデオデコーダ(410)は、ITU-T Rec.H.265などの規格における所定のビデオ圧縮技術に従って復号動作を実行することができる。符号化ビデオシーケンスは、符号化ビデオシーケンスがビデオ圧縮技術又は規格の構文とビデオ圧縮技術又は規格で文書化されたプロファイルの両方に準拠するという意味で、使用されているビデオ圧縮技術又は規格によって指定された構文に準拠することができる。具体的には、プロファイルは、ビデオ圧縮技術又は規格で利用可能なすべてのツールから、そのプロファイルで使用できる唯一のツールとして特定のツールを選択することができる。また、準拠のためには、符号化ビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルによって定義された範囲内であることも必要である。場合によっては、レベルによって、最大画像サイズ、最大フレームレート、最大再構成サンプルレート(例えば、1秒あたりのメガサンプルで測定)、最大参照画像サイズなどが制限される。レベルによって設定される制限は、場合によっては、仮想参照デコーダ(HRD)仕様及び符号化ビデオシーケンスで通知されるHRDバッファ管理用のメタデータによって更に制限されることがある。
【0057】
一実施形態では、受信機(431)は、符号化ビデオと共に追加の(冗長)データを受信することができる。追加のデータは、符号化ビデオシーケンスの一部として含まれてもよい。追加のデータは、データを適切に復号するため、及び/又は元のビデオデータをより正確に再構成するために、ビデオデコーダ(410)によって使用され得る。追加のデータは、例えば、時間的、空間的、又は信号雑音比(SNR)強化層、冗長スライス、冗長画像、前方誤り訂正コードなどの形式であり得る。
【0058】
図5は、本開示の一実施形態によるビデオエンコーダ(503)のブロック図を示す。ビデオエンコーダ(503)は、電子装置(520)に含まれている。電子装置(520)は、送信機(540)(例えば、送信回路)を含む。図3の例では、ビデオエンコーダ(303)の代わりにビデオエンコーダ(503)を使用することができる。
【0059】
ビデオエンコーダ(503)は、ビデオソース(501)(図5の例では電子装置(520)の一部ではない)からビデオサンプルを受信することができ、ビデオソースは、ビデオエンコーダ(503)によって符号化されるべきビデオ画像をキャプチャすることができる。別の例では、ビデオソース(501)は、電子装置(520)の一部である。
【0060】
ビデオソース(501)は、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット…)、任意の色空間(例えば、BT.601 Y CrCB、RGB…)、及び任意の適切なサンプリング構造(例えば、Y CrCB 4:2:0、Y CrCB 4:4:4)であり得るデジタルビデオサンプルストリームの形式で、ビデオエンコーダ(503)によって符号化されるべきソースビデオシーケンスを提供することができる。メディアサービングシステムでは、ビデオソース(501)は、以前に準備されたビデオを記憶する記憶装置であってもよい。ビデオ会議システムでは、ビデオソース(501)は、ローカル画像情報をビデオシーケンスとしてキャプチャするカメラであってもよい。ビデオデータは、順番に見たときに動きを与える複数の個別の画像として提供されてもよい。画像自体は、ピクセルの空間配列として編成することができ、各ピクセルは、使用中のサンプリング構造、色空間などに応じて、1つ以上のサンプルを含むことができる。当業者は、ピクセルとサンプルとの間の関係を容易に理解することができる。以下の説明では、サンプルに焦点を当てる。
【0061】
一実施形態によれば、ビデオエンコーダ(503)は、リアルタイムで、又はアプリケーションによって必要とされる他の任意の時間制約の下で、ソースビデオシーケンスの画像を符号化し、符号化ビデオシーケンス(543)に圧縮することができる。適切な符号化速度を適用することは、コントローラ(550)の1つの機能である。一部の実施形態では、コントローラ(550)は、以下に記載されるように他の機能ユニットを制御し、また、他の機能ユニットに機能的に結合される。分かりやすくするために、結合は示されていない。コントローラ(550)によって設定されるパラメータは、レート制御関連パラメータ(画像スキップ、量子化器、レート歪み最適化技術のラムダ値…)、画像サイズ、画像グループ(GOP)レイアウト、最大MV許容参照領域などを含むことができる。コントローラ(550)は、特定のシステム設計用に最適化されたビデオエンコーダ(503)に関連する他の適切な機能を有するように構成することができる。
【0062】
一部の実施形態では、ビデオエンコーダ(503)は、符号化ループで動作するように構成される。過度に単純化された説明として、一例では、符号化ループは、ソースコーダ(530)(例えば、符号化されるべき入力画像及び参照画像に基づいてシンボルストリームなどのシンボルを作成する役割を果たす)と、ビデオエンコーダ(503)に埋め込まれた(ローカル)デコーダ(533)とを含むことができる。デコーダ(533)は、(リモート)デコーダがサンプルデータを作成するのと同様の方法でシンボルを再構成してサンプルデータを作成する(シンボルと符号化ビデオビットストリームとの間の圧縮が、開示された主題で検討されているビデオ圧縮技術において可逆であるため)。再構成されたサンプルストリーム(サンプルデータ)は、参照画像メモリ(534)に入力される。シンボルストリームの復号により、デコーダの位置(ローカル又はリモート)に関係なくビットイグザクト結果が得られるため、参照画像メモリ(534)内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビットイグザクトである。言い換えれば、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」のとまったく同じサンプル値を参照画像サンプルとして「見る」。参照画像の同期性(及び、例えばチャネルエラーのために同期性を維持できない場合、結果として生じるドリフト)のこの基本原理は、一部の従来技術でも使用されている。
【0063】
「ローカル」デコーダ(533)の動作は、ビデオデコーダ(410)などの「リモート」デコーダの動作と同じであってもよく、これは、図4に関連して上記で既に詳細に説明されている。しかし、また図4を簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ(545)及びパーサ(420)による符号化ビデオシーケンスへのシンボルの符号化/復号は可逆であり得るため、バッファメモリ(415)及びパーサ(420)を含むビデオデコーダ(410)のエントロピー復号部分は、ローカルデコーダ(533)に完全に実装されていない可能性がある。
【0064】
この時点で行うことができる観察は、デコーダに存在する解析/エントロピー復号を除くいかなるデコーダ技術も、対応するエンコーダ内に実質的に同一の機能形態で存在する必要があるということである。このため、開示された主題は、デコーダ動作に焦点を合わせている。エンコーダ技術の説明は、それらが包括的に説明されているデコーダ技術の逆である可能性があるため、省略することができる。特定の領域でのみ、より詳細な説明が必要であり、以下に提供される。
【0065】
動作中、一部の例では、ソースコーダ(530)は、動き補償予測符号化を実行することができ、これは、「参照フレーム」として指定されたビデオシーケンスからの1つ以上の以前に符号化された画像を参照して入力画像を予測的に符号化する。このようにして、符号化エンジン(532)は、入力画像のピクセルブロックと、入力画像への予測参照として選択され得る参照画像のピクセルブロックとの間の差分を符号化する。
【0066】
ローカルビデオデコーダ(533)は、ソースコーダ(530)によって作成されたシンボルに基づいて、参照画像として指定され得る画像の符号化ビデオデータを復号することができる。符号化エンジン(532)の動作は、有利には、非可逆プロセスであり得る。符号化ビデオデータがビデオデコーダ(図5には示されていない)で復号され得る場合、再構成されたビデオシーケンスは、通常、いくつかのエラーを伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ(533)は、参照画像に対してビデオデコーダによって実行され得る復号プロセスを複製し、そして再構成された参照画像を参照画像キャッシュ(534)に記憶させることができる。このようにして、ビデオエンコーダ(503)は、遠端ビデオデコーダによって取得される再構成された参照画像として共通の内容を有する再構成された参照フレームのコピーをローカルに記憶することができる(送信エラーがない)。
【0067】
予測子(535)は、符号化エンジン(532)のために予測検索を実行することができる。即ち、符号化されるべき新しい画像について、予測子(535)は、参照画像メモリ(534)を検索して、サンプルデータ(候補参照ピクセルブロックとして)又は参照画像MV、ブロック形状などの特定のメタデータを探すことができ、それらは、新しい画像に対する適切な予測参照として役立つことができる。予測子(535)は、適切な予測参照を見つけるために、ピクセルブロックごとにサンプルブロックで動作することができる。場合によっては、予測子(535)によって得られた検索結果によって決定されるように、入力画像は、参照画像メモリ(534)に記憶された複数の参照画像から抽出された予測参照を有してもよい。
【0068】
コントローラ(550)は、例えば、ビデオデータを符号化するために使用されるパラメータ及びサブグループパラメータの設定を含めて、ソースコーダ(530)の符号化動作を管理することができる。
【0069】
前述のすべての機能ユニットの出力は、エントロピーコーダ(545)においてエントロピー符号化されてもよい。エントロピーコーダ(545)は、ハフマン符号化、可変長符号化、算術符号化などの技術に従ってシンボルを可逆的に圧縮することによって、様々な機能ユニットによって生成されたシンボルを符号化ビデオシーケンスに変換する。
【0070】
送信機(540)は、エントロピーコーダ(545)によって作成された符号化ビデオシーケンスをバッファリングして、通信チャネル(560)を介した送信に備えることができ、通信チャネルは、符号化ビデオデータを記憶する記憶装置へのソフトウェア/ハードウェアリンクであり得る。送信機(540)は、ビデオコーダ(503)からの符号化ビデオデータを、送信されるべき他のデータ、例えば、符号化オーディオデータ及び/又は補助データストリーム(ソースは示されていない)とマージすることができる。
【0071】
コントローラ(550)は、ビデオエンコーダ(503)の動作を管理することができる。符号化中に、コントローラ(550)は、各符号化画像に特定の符号化画像タイプを割り当てることができ、この符号化画像タイプは、それぞれの画像に適用され得る符号化技術に影響を与える可能性がある。例えば、画像は、次の画像タイプのいずれかとして割り当てられることが多い。
【0072】
イントラ画像(I画像)は、予測のソースとしてシーケンス内の他の画像を使用することなく符号化及び復号され得るものであり得る。一部のビデオコーデックでは、例えば、独立デコーダリフレッシュ(「IDR」)画像を含めて、様々なタイプのイントラ画像が可能である。当業者は、I画像のそれらの変形並びにそれらのそれぞれの用途及び特徴を知っている。
【0073】
予測画像(P画像)は、各ブロックのサンプル値を予測するために最大で1つのMV及び参照インデックスを使用するイントラ予測又はインター予測を用いて符号化及び復号され得るものであり得る。
【0074】
双方向予測画像(B画像)は、各ブロックのサンプル値を予測するために最大で2つのMV及び参照インデックスを使用するイントラ予測又はインター予測を用いて符号化及び復号され得るものであり得る。同様に、複数の予測画像は、単一のブロックの再構成のために3つ以上の参照画像及び関連するメタデータを使用することができる。
【0075】
ソース画像は、一般に、空間的に複数のサンプルブロック(例えば、それぞれ4×4、8×8、4×8、又は16×16サンプルのブロック)に再分割され、ブロックごとに符号化されてもよい。ブロックは、ブロックのそれぞれの画像に適用される符号化割り当てによって決定された他の(既に符号化された)ブロックを参照して予測的に符号化されてもよい。例えば、I画像のブロックは、非予測的に符号化されてもよく、又はそれらは、同じ画像の既に符号化されたブロックを参照して予測的に符号化されてもよい(空間予測又はイントラ予測)。P画像のピクセルブロックは、以前に符号化された1つの参照画像を参照して、空間予測を介して、又は時間予測を介して予測的に符号化されてもよい。B画像のブロックは、以前に符号化された1つ又は2つの参照画像を参照して、空間予測を介して、又は時間予測を介して、予測的に符号化されてもよい。
【0076】
ビデオエンコーダ(503)は、ITU-T Rec.H.265などの所定のビデオ符号化技術又は規格に従って符号化動作を実行することができる。その動作において、ビデオエンコーダ(503)は、入力ビデオシーケンスにおける時間的及び空間的冗長性を利用する予測符号化動作を含めて、様々な圧縮動作を実行することができる。したがって、符号化ビデオデータは、使用されているビデオ符号化技術又は規格によって指定された構文に準拠することができる。
【0077】
一実施形態では、送信機(540)は、符号化ビデオと共に追加のデータを送信することができる。ソースコーダ(530)は、符号化ビデオシーケンスの一部としてそのようなデータを含むことができる。追加データは、時間/空間/SNR強化層、冗長画像及びスライスなどの他の形式の冗長データ、SEIメッセージ、VUIパラメータセットフラグメントなどを含むことができる。
【0078】
ビデオは、時間的順序で複数のソース画像(ビデオ画像)としてキャプチャされてもよい。イントラ画像予測(多くの場合、イントラ予測と略される)は、所与の画像の空間的相関を利用し、インター画像予測は、画像間の(時間的又はその他の)相関を利用する。一例では、現在の画像と呼ばれる符号化/復号中の特定の画像がブロックに分割される。現在の画像内のブロックが、ビデオ内の以前に符号化され、まだバッファリングされている参照画像内の参照ブロックと類似している場合、現在の画像内のブロックは、MVと呼ばれるベクトルによって符号化することができる。MVは、参照画像内の参照ブロックを指し、複数の参照画像が使用されている場合、参照画像を識別する第3の次元を有することができる。
【0079】
一部の実施形態では、インター画像予測において双方向予測技術を使用することができる。双方向予測技術によれば、ビデオ内の現在の画像よりも復号順が両方とも前である(ただし、表示順に、それぞれ過去と将来であり得る)2つの参照画像、例えば第1の参照画像及び第2の参照画像が使用される。現在の画像内のブロックは、第1の参照画像内の第1の参照ブロックを指す第1のMVと、第2の参照画像内の第2の参照ブロックを指す第2のMVとによって符号化することができる。ブロックは、第1の参照ブロックと第2の参照ブロックの組み合わせによって予測することができる。
【0080】
更に、インター画像予測において、マージモード技術を使用して符号化効率を向上させることができる。
【0081】
本開示の一部の実施形態によれば、インター画像予測及びイントラ画像予測などの予測は、ブロックの単位で実行される。例えば、HEVC規格によれば、一連のビデオ画像内の画像は圧縮のために符号化ツリーユニット(CTU)に分割され、画像内のCTUは、64×64ピクセル、32×32ピクセル、又は16×16ピクセルなどの同じサイズを有する。一般に、CTUは、3つの符号化ツリーブロック(CTB)を含み、それらは1つの輝度CTB及び2つの彩度CTBである。各CTUは、1つ以上の符号化ユニット(CU)に再帰的に四分木分割することができる。例えば、64×64ピクセルのCTUは、1つの64×64ピクセルのCU、又は4つの32×32ピクセルのCU、又は16個の16×16ピクセルのCUに分割できる。一例では、各CUを分析して、インター予測タイプ又はイントラ予測タイプなどのCUの予測タイプを決定する。CUは時間的及び/又は空間的予測可能性に応じて、1つ以上の予測ユニット(PU)に分割される。一般に、各PUは、輝度予測ブロック(PB)及び2つの彩度PBを含む。一実施形態では、符号化(符号化/復号)における予測動作は、予測ブロックの単位で実行される。予測ブロックの一例として輝度予測ブロックを使用すると、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセルなどのピクセルの値(例えば、輝度値)の行列を含む。
【0082】
図6は、本開示の別の実施形態によるビデオエンコーダ(603)の図を示す。ビデオエンコーダ(603)は、一連のビデオ画像における現在のビデオ画像内のサンプル値の処理ブロック(例えば、予測ブロック)を受信し、そして処理ブロックを、符号化ビデオシーケンスの一部である符号化画像に符号化するように構成される。一例では、図3の例のビデオエンコーダ(303)の代わりにビデオエンコーダ(603)が使用される。
【0083】
HEVCの例では、ビデオエンコーダ(603)は、8×8サンプルの予測ブロックなどの処理ブロックのサンプル値の行列を受信する。ビデオエンコーダ(603)は、処理ブロックが、イントラモード、インターモード、又は、例えばレート歪み最適化を使用する双方向予測モードを用いて最適に符号化されるか否かを判定する。処理ブロックがイントラモードで符号化される場合、ビデオエンコーダ(603)は、イントラ予測技術を使用して、処理ブロックを符号化画像に符号化することができ、処理ブロックがインターモード又は双方向予測モードで符号化される場合、ビデオエンコーダ(603)は、インター予測又は双方向予測技術をそれぞれ使用して、処理ブロックを符号化画像に符号化することができる。特定のビデオ符号化技術では、マージモードは、インター画像予測サブモードであってもよく、ここで、MVは、予測子以外の符号化MV成分なしに、1つ以上のMV予測子から導出される。特定の他のビデオ符号化技術では、対象ブロックに適用可能なMV成分が存在する場合がある。一例では、ビデオエンコーダ(603)は、処理ブロックのモードを決定するためのモード決定モジュール(図示せず)などの他の構成要素を含む。
【0084】
図6の例では、ビデオエンコーダ(603)は、図6に示されているように、互いに結合されインターエンコーダ(630)、イントラエンコーダ(622)、残差計算機(623)、スイッチ(626)、残差エンコーダ(624)、汎用コントローラ(621)、及びエントロピーエンコーダ(625)を含む。
【0085】
インターエンコーダ(630)は、現在のブロック(例えば、処理ブロック)のサンプルを受信し、そのブロックを、参照画像内の1つ以上の参照ブロック(例えば、前の画像及び後の画像内のブロック)と比較し、インター予測情報(例えば、インター符号化技術による冗長情報の記述、MV、マージモード情報)を生成し、そして任意の適切な技術を使用してインター予測情報に基づいてインター予測結果(例えば、予測ブロック)を計算するように構成される。一部の例では、参照画像は、符号化されたビデオ情報に基づいて復号された復号参照画像である。
【0086】
イントラエンコーダ(622)は、現在のブロック(例えば、処理ブロック)のサンプルを受信し、場合によっては、そのブロックを同じ画像内で既に符号化されたブロックと比較し、変換後に量子化係数を生成し、場合によっては、イントラ予測情報(例えば、1つ以上のイントラ符号化技術によるイントラ予測方向情報)も生成するように構成される。一例では、イントラエンコーダ(622)はまた、イントラ予測情報及び同じ画像内の参照ブロックに基づいて、イントラ予測結果(例えば、予測ブロック)を計算する。
【0087】
汎用コントローラ(621)は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ(603)の他の構成要素を制御するように構成される。一例では、汎用コントローラ(621)は、ブロックのモードを決定し、そのモードに基づいてスイッチ(626)に制御信号を提供する。例えば、モードがイントラモードである場合、汎用コントローラ(621)は、残差計算機(623)で使用するためのイントラモード結果を選択するようにスイッチ(626)を制御し、そして、イントラ予測情報を選択してイントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ(625)を制御し、また、モードがインターモードである場合、汎用コントローラ(621)は、残差計算機(623)で使用するためのインター予測結果を選択するようにスイッチ(626)を制御し、そして、インター予測情報を選択してインター予測情報をビットストリームに含めるようにエントロピーエンコーダ(625)を制御する。
【0088】
残差計算機(623)は、受信ブロックと、イントラエンコーダ(622)又はインターエンコーダ(630)から選択された予測結果との間の差分(残差データ)を計算するように構成される。残差エンコーダ(624)は、残差データに基づいて動作し、残差データを符号化して変換係数を生成するように構成される。一例では、残差エンコーダ(624)は、残差データを空間領域から周波数領域に変換し、変換係数を生成するように構成される。次に、変換係数は量子化処理され、量子化変換係数が得られる。様々な実施形態において、ビデオエンコーダ(603)はまた、残差デコーダ(628)を含む。残差デコーダ(628)は、逆変換を実行して復号された残差データを生成するように構成される。復号された残差データは、イントラエンコーダ(622)及びインターエンコーダ(630)によって適切に使用することができる。例えば、インターエンコーダ(630)は、復号された残差データ及びインター予測情報に基づいて復号されたブロックを生成することができ、イントラエンコーダ(622)は、復号された残差データ及びイントラ予測情報に基づいて復号されたブロックを生成することができる。復号されたブロックは、復号された画像を生成するために適切に処理され、復号された画像は、メモリ回路(図示せず)にバッファリングされ、一部の例では参照画像として使用され得る。
【0089】
エントロピーエンコーダ(625)は、符号化されたブロックを含むようにビットストリームをフォーマットするように構成される。エントロピーエンコーダ(625)は、HEVCなどの適切な規格に従って様々な情報を含むように構成される。一例では、エントロピーエンコーダ(625)は、汎用制御データ、選択された予測情報(例えば、イントラ予測情報又はインター予測情報)、残差情報、及びビットストリーム内の他の適切な情報を含むように構成される。開示された主題によれば、インターモード又は双方向予測モードのいずれかのマージサブモードでブロックを符号化する場合、残差情報がないことに留意されたい。
【0090】
図7は、本開示の別の実施形態によるビデオデコーダ(710)の図を示す。ビデオデコーダ(710)は、符号化ビデオシーケンスの一部である符号化画像を受信し、符号化画像を復号して再構成された画像を生成するように構成される。一例では、図3の例のビデオデコーダ(310)の代わりにビデオデコーダ(710)が使用される。
【0091】
図7の例では、ビデオデコーダ(710)は、図7に示されるように互いに結合されたエントロピーデコーダ(771)、インターデコーダ(780)、残差デコーダ(773)、再構成モジュール(774)、及びイントラデコーダ(772)を含む。
【0092】
エントロピーデコーダ(771)は、符号化画像から、符号化画像を構成する構文要素を表す特定のシンボルを再構成するように構成することができる。そのようなシンボルは、例えば、ブロックが符号化されるモード(例えば、イントラモード、インターモード、双方向予測モード、マージサブモード又は別のサブモードにおける後者の2つなど)、イントラデコーダ(772)又はインターデコーダ(780)による予測にそれぞれ使用される特定のサンプル又はメタデータを識別することができる予測情報(例えば、イントラ予測情報又はインター予測情報など)、例えば量子化変換係数の形式の残差情報などを含むことができる。一例では、予測モードがインター予測モード又は双方向予測モードである場合、インター予測情報は、インターデコーダ(780)に提供され、予測タイプがイントラ予測タイプである場合、イントラ予測情報は、イントラデコーダ(772)に提供される。残差情報は逆量子化されてもよく、そして残差デコーダ(773)に提供される。
【0093】
インターデコーダ(780)は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成される。
【0094】
イントラデコーダ(772)は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。
【0095】
残差デコーダ(773)は、逆量子化を実行して逆量子化変換係数を抽出し、そして逆量子化変換係数を処理して残差を周波数領域から空間領域に変換するように構成される。残差デコーダ(773)はまた、(量子化パラメータ(QP)を含めるために)特定の制御情報を必要とする場合があり、その情報は、エントロピーデコーダ(771)によって提供されてもよい(これは、少量の制御情報のみである可能性があるため、データパスは示されていない)。
【0096】
再構成モジュール(774)は、空間領域において、残差デコーダによって出力された残差と、予測結果(場合によっては、インター予測モジュール又はイントラ予測モジュールによって出力された)とを組み合わせて再構成されたブロックを形成するように構成され、再構成されたブロックは、再構成された画像の一部である可能性があり、また再構成された画像は、再構成されたビデオの一部である可能性がある。視覚的品質を改善するために、非ブロック化動作などの他の適切な動作を実行することができることに留意されたい。
【0097】
ビデオエンコーダ(303)、(503)、及び(603)、並びにビデオデコーダ(310)、(410)、及び(710)は、任意の適切な技術を使用して実装できることに留意されたい。一実施形態では、ビデオエンコーダ(303)、(503)、及び(603)、並びにビデオデコーダ(310)、(410)、及び(710)は、1つ以上の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ(303)、(503)、及び(603)、並びにビデオデコーダ(310)、(410)、及び(710)は、ソフトウェア命令を実行する1つ以上のプロセッサを使用して実装することができる。
【0098】
II.適応ループフィルタ
【0099】
VVCドラフト7などの一部の関連する例では、ブロックベースのフィルタ適応を備えた適応ループフィルタ(ALF)を適用することができる。輝度成分の場合、それぞれの4×4ブロックの方向性及びアクティビティに基づいて、各4×4ブロックに対して25個のフィルタのうちの1つを選択することができる。
【0100】
図8A図8Bは、本開示の一部の実施形態による、ALFの例示的なダイヤモンドフィルタ形状を示す。図8Aは、彩度成分に適用することができる5×5のダイヤモンド形状を示し、図8Bは、輝度成分に適用することができる7×7のダイヤモンド形状を示す。
【0101】
一部の関連する例では、輝度成分の場合、各4×4ブロックを25クラスのうちの1つに分類することができる。4×4ブロックの分類インデックスCは、次のように、4×4ブロックの方向性Dとアクティビティ
【数1】
の量子化値に基づいて導出することができる。
【0102】
【数2】
【0103】
D及び
【数3】
を算出するには、まず、1-Dラプラシアンを用いて、4×4ブロックの水平方向、垂直方向及び2つの対角方向の勾配を以下のように算出することができる。
【0104】
【数4】
【0105】
ここで、インデックスi及びjは、4×4ブロック内の左上のサンプルの座標を指し、R(i,j)は、座標(i,j)における再構成サンプルを示す。
【0106】
ブロック分類の複雑さを低減するために、サブサンプリングされた1-Dラプラシアン計算を適用することができる。図9A図9Dは、それぞれ、垂直方向、水平方向、及び2つの対角方向の勾配計算に使用される例示的なサブサンプリングされた位置を示す。
【0107】
次に、水平方向及び垂直方向の勾配の最大値及び最小値を以下のように設定することができる。
【0108】
【数5】
【0109】
2つの対角方向の勾配の最大値及び最小値を以下のように設定することができる。
【0110】
【数6】
【0111】
方向性Dの値を導出するために、これらの値を相互に比較し、そして2つの閾値t及びtと比較することができる。
【0112】
ステップ1:
【数7】
の両方が真である場合、Dを0に設定する。
【0113】
ステップ2:
【数8】
である場合、ステップ3から続け、それ以外の場合はステップ4から続ける。
【0114】
ステップ3:
【数9】
である場合、Dを2に設定し、それ以外の場合、Dを1に設定する。
【0115】
ステップ4:
【数10】
である場合、Dを4に設定し、それ以外の場合、Dを3に設定する。
【0116】
アクティビティ値Aは次のように算出される。
【0117】
【数11】
【0118】
Aは更に0~4の範囲(両端を含む)に量子化され、量子化された値は
【数12】
として示される。
【0119】
画像内の彩度成分の場合、分類方法は適用されず、即ち、各彩度成分に対して単一のセットのALF係数を適用することができる。
【0120】
各4×4輝度ブロックをフィルタリングする前に、それぞれのブロックに対して算出された勾配値に応じて、回転、対角反転、垂直反転などの幾何学的変換が、フィルタ係数f(k,l)及び対応するフィルタクリッピング値c(k,l)に適用される。これは、ALFが適用される異なるブロックを、それらの方向性を整列することによってより類似させるために、これらの変換をフィルタサポート領域内のサンプルに適用することと同じである。
【0121】
対角反転、垂直反転、及び回転を含む3つの幾何学的変換は、以下のように記述することができる。
【0122】
【数13】
【0123】
ここで、Kはフィルタのサイズであり、0≦k、l≦k-1は変換係数の座標であり、位置(0,0)は左上隅にあり、位置(K-1,K-1)は右下隅にある。変換は、対応するブロックに対して算出された勾配値に応じて、フィルタ係数f(k,l)及びクリッピング値c(k,l)に適用される。4方向の変換と勾配の関係を表1にまとめることができる。
【0124】
【表1】
【0125】
VVCドラフト7などの一部の関連する例では、ALFのフィルタパラメータは、適応パラメータセット(APS)で通知される。1つのAPSでは、最大25セットの輝度フィルタ係数及びクリッピング値インデックス、並びに最大8セットの彩度フィルタ係数及びクリッピング値インデックスを通知することができる。ビットオーバーヘッドを削減するために、輝度成分に対する異なる分類のフィルタ係数をマージすることができる。スライスヘッダーでは、現在のスライスに使用されるAPSのインデックスが通知される。ALFのシグナリングは、VVCドラフト7ではCTUベースである。
【0126】
APSから復号されるクリッピング値インデックスにより、輝度成分及び彩度成分のクリッピング値のテーブルを使用してクリッピング値を決定することが可能になる。これらのクリッピング値は、内部ビット深度に依存する。例えば、クリッピング値のテーブルは、以下の式で得ることができる。
【0127】
【数14】
【0128】
ここで、Bは内部ビット深さに等しく、αは2.35に等しい事前定義された定数値であり、NはVVCドラフト7で許容されるクリッピング値の数である4に等しい。表2は、式(14)の出力の一例を示す。
【0129】
【表2】
【0130】
スライスヘッダーでは、現在のスライスに使用される輝度フィルタセットを指定するために、最大7つのAPSインデックスを通知することができる。フィルタリングプロセスは、CTBレベルで更に制御することができる。ALFが輝度CTBに適用されるか否かを示すために、フラグを通知することができる。輝度CTBは、16個の固定フィルタセット及びAPSからのフィルタセットから1つのフィルタセットを選択することができる。どのフィルタセットが適用されるかを示すために、輝度CTBに対してフィルタセットインデックスが通知される。16個の固定フィルタセットは、エンコーダ及びデコーダの両方において事前定義及びハードコーディングすることができる。
【0131】
彩度成分の場合、現在のスライスに使用される彩度フィルタセットを示すために、スライスヘッダーでAPSインデックスを通知することができる。CTBレベルでは、APS内に複数の彩度フィルタセットが存在する場合、各輝度CTBに対してフィルタインデックスを通知することができる。
【0132】
フィルタ係数は、128に等しいノルムで量子化することができる。乗算の複雑さを制限するために、ビットストリーム適合性を適用して、非中心位置の係数値が-27~27-1の範囲(両端を含む)になるようにすることができる。中央位置係数はビットストリームで通知されず、128に等しいと見なされる。
【0133】
VVCドラフト7などの一部の関連する例では、クリッピングインデックス及び対応する値の構文及び意味は、以下のように定義することができる。
【0134】
alf_luma_clip_idx[sfIdx][j]は、sfIdxで示される信号付き輝度フィルタのj-th係数を乗算する前に使用されるクリッピング値のクリッピングインデックスを指定する。sfIdx=0..alf_luma_num_filters_signalled_minus1及びj=0..11のalf_luma_clip_idx[sfIdx][j]値が0~3の範囲(両端を含む)にあることがビットストリーム適合性の要件である。
【0135】
filtIdx=0..NumAlfFilters-1及びj=0..11の要素AlfClipL[adaptation_parameter_set_id][filtIdx][j]を有する輝度フィルタクリッピング値AlfClipL[adaptation_parameter_set_id][filtIdx]は、BitDepthYに等しく設定されたbitDepth及びalf_luma_clip_idx[alf_luma_coeff_delta_idx[filtIdx]][j]に等しく設定されたclipIdxに応じて表2で導出される。
【0136】
alf_chroma_clip_idx[altIdx][j]は、インデックスaltIdxを有する代替彩度フィルタのj-th係数を乗算する前に使用されるクリッピング値のクリッピングインデックスを指定する。altIdx=0..alf_chroma_num_alt_filters_minus1、j=0..5のalf_chroma_clip_idx[altIdx][j]の値が0~3の範囲(両端を含む)にあることがビットストリーム適合性の要件である。
【0137】
altIdx=0..alf_chroma_num_alt_filters_minus1、j=0..5の要素AlfClipC[adaptation_parameter_set_id][altIdx][j]を有する彩度フィルタクリッピング値AlfClipC[adaptation_parameter_set_id][altIdx]は、BitDepthCに等しく設定されたbitDepth及びalf_chroma_clip_idx[altIdx][j]に等しく設定されたclipIdxに応じて表2で導出される。
【0138】
デコーダ側では、ALFがCTBに対して有効になっている場合、CU内の各サンプルR(i,j)がフィルタリングされ、以下に示されるように、対応するサンプル値R’(i,j)が生成される。
【0139】
【数15】
【0140】
ここで、f(k,l)は復号されたフィルタ係数を示し、K(x,y)はクリッピング関数であり、c(k,l)は復号されたクリッピングパラメータを示す。変数k及びlは、
【数16】
の間で変化し、Lはフィルタ長を示す。クリッピング関数k(x,y)=min(y,max(-y,x))は、関数Clip3(-y,y,x)に対応する。このクリッピング機能を組み込むことにより、このループフィルタリング方法は非線形ALFとして知られる非線形プロセスとなる。選択されたクリッピング値は、表2のクリッピング値のインデックスに対応するゴロム符号化方式を使用して「alf_data」構文要素に符号化される。この符号化方式は、フィルタインデックスの符号化方式と同じである。
【0141】
図10は、本開示の一実施形態による、輝度成分に適用される例示的な修正ブロック分類を示す。水平CTU境界付近のサンプルに対して採用される修正ブロック分類及びフィルタリングは、ALFのラインバッファ要件を減らすことができる。図10に示されるように、仮想境界は、水平CTU境界を「N」個のサンプルでシフトすることによって線として定義され、ここで、Nは、それぞれ、輝度成分については4に等しく、彩度成分については2に等しい。
【0142】
仮想境界より上の4×4ブロックの1Dラプラシアン勾配計算では、仮想境界より上のサンプルのみが使用される。同様に、仮想境界より下の4×4ブロックの1Dラプラシアン勾配計算では、仮想境界より下のサンプルのみが使用される。アクティビティ値Aの量子化は、1Dラプラシアン勾配計算で使用されるサンプル数の減少を考慮してそれに応じてスケーリングされる。
【0143】
図11は、一部の実施形態による、仮想境界における輝度成分に対する例示的な修正ALFを示す。フィルタリング処理では、仮想境界での対称パディング操作を輝度成分及び彩度成分の両方に使用することができる。図11に示されるように、フィルタリングされているサンプルが仮想境界の下に位置する場合、仮想境界の上に位置する隣接サンプルがパディングされる。一方、反対側の対応するサンプルも対称的にパディングされる。
【0144】
符号化効率を高めるために、符号化ユニット同期画像四分木ベースのALPが、一部の関連する例で使用される。輝度画像は複数のマルチレベルの四分木パーティションに分割でき、各パーティションの境界は最大符号化ユニット(LCU)の境界に位置合わせされる。各パーティションには独自のフィルタリングプロセスがあるため、フィルタユニット(FU)と呼ぶことができる。
【0145】
2パス符号化フローを次のように説明する。最初のパスで、各FUの四分木分割パターン及び最適なフィルタが決定される。フィルタリング歪みは、決定プロセス中に高速フィルタリング歪み推定(FFDE)によって推定される。すべてのFUの決定された四分木分割パターン及び選択されたフィルタに従って、再構成された画像がフィルタリングされた。2回目のパスでは、CU同期ALFオン/オフ制御が実行される。ALFオン/オフ結果によれば、最初のパスからのフィルタリングされた画像は、再構成された画像によって部分的に復元される。
【0146】
図12は、一実施形態による例示的なLCU位置合わせ画像四分木分割を示す。トップダウン分割戦略を採用して、レート歪み基準を用いて画像をマルチレベルの四分木パーティションに分割する。各パーティションはフィルタユニットと呼ばれる。分割プロセスは、四分木パーティションをLCU境界に位置合わせる。FUの符号化順序は、zスキャンの順序に従う。例えば、図12に示されるように、画像は10個のFUに分割され、符号化順序は、FU0、FU1、FU2、FU3、FU4、FU5、FU6、FU7、FU8、及びFU9である。
【0147】
図13は、図12に対応する例示的な四分木分割パターンを示す。画像の四分木分割パターンを示すために、分割フラグを符号化し、zオーダーで送信することができる。
【0148】
各FUのフィルタは、レート歪み基準に基づいて2つのフィルタセットから選択することができる。第1のセットは、現在のFU用に新しく導出された1/2対称の正方形及び菱形フィルタを有する。第2のセットは、以前の画像のFU用に以前に導出されたフィルタを記憶する時間遅延フィルタバッファからのものである。現在のFUに対して、これら2つのセットの中でレート歪みコストが最小のフィルタを選択することができる。同様に、現在のFUが最小のFUではなく、更に4つの子FUに分割できる場合、4つの子FUのレート歪みコストが計算される。分割された場合と分割されていない場合のレート歪みコストを再帰的に比較することにより、画像の四分木分割パターンを決定することができる。
【0149】
一部の関連する例では、最大四分木分割レベルは2であり、これは、FUの最大数が16であることを意味する。四分木分割の決定中に、最下位の四分木レベル(最小のFU)での16個のFUのウィーナ係数を導出するための相関値を再利用することができる。残りのFUは、最下位の四分木レベルでの16個のFUの相関からウィーナフィルタを導出することができる。したがって、すべてのFUのフィルタ係数を導出するためのフレームバッファアクセスは1つのみである。
【0150】
四分木分割パターンが決定された後、フィルタリング歪みを更に低減するために、CU同期ALFオン/オフ制御を実行することができる。フィルタリング歪みと非フィルタリング歪みを比較することにより、リーフCUは、その局所領域でALFのオン/オフを明示的に切り替えることができる。ALFオン/オフの結果に応じてフィルタ係数を再設計することにより、符号化効率を更に向上させることができる。ただし、再設計プロセスでは、追加のフレームバッファアクセスが必要である。一部の関連する例では、フレームバッファアクセスの数を最小限に抑えるために、CU同期ALFオン/オフの決定後に再設計プロセスはない。
【0151】
III.交差成分適応ループフィルタ
【0152】
一部の関連する例では、交差成分適応ループフィルタ(CC-ALF)が使用される。CC-ALFは、輝度サンプル値を用いて各彩度成分を改良する。
【0153】
図14Aは、本開示の一実施形態によるCC-ALFの例示的な配置を示す。図14Bは、CC-ALF動作中に各彩度成分の輝度チャネルに適用される例示的な線形ダイヤモンド形フィルタを示す。フィルタ係数は、APSで送信することができ、例えば、210の倍率でスケーリングされ、固定小数点表現のために丸められる。フィルタの適用は、可変ブロックサイズで制御され、サンプルの各ブロックに対して受信されたコンテキスト符号化フラグによって通知される。ブロックサイズは、CC-ALF有効化フラグと共に、各彩度成分に対してスライスレベルで受信される。一例では、16×16、32×32、及び64×64のブロックサイズ(彩度サンプル内)がサポートされる。
【0154】
表3は、CC-ALFに関連する構文要素を示す。
【0155】
【表3】
【0156】
表3において、0に等しい構文要素alf_ctb_cross_component_cb_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]は、交差成分Cbフィルタが、輝度位置(xCtb,yCtb)におけるCb色成分内のサンプルのブロックに適用されないことを示す。0に等しくない構文要素alf_ctb_cross_component_cb_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]は、alf_ctb_cross_component_cb_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]-th交差成分Cbフィルタが、輝度位置(xCtb,yCtb)におけるCb色成分内のサンプルのブロックに適用されることを示す。
【0157】
0に等しい構文要素alf_ctb_cross_component_cr_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]は、交差成分Crフィルタが輝度位置(xCtb,yCtb)におけるCr色成分内のサンプルのブロックに適用されないことを示す。0に等しくない構文要素alf_ctb_cross_component_cr_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]は、alf_ctb_cross_component_cr_idc[xCtb>>CtbLog2SizeY][yCtb>>CtbLog2SizeY]-th交差成分Crフィルタが、輝度位置(xCtb,yCtb)におけるCr色成分内のサンプルのブロックに適用されることを示す。
【0158】
IV.制約付き方向性強調フィルタ
【0159】
インループ制約付き方向性強調フィルタ(CDEF)の1つの目標は、画像の詳細を保持しながら、符号化アーティファクトをフィルタリングして除去することである。HEVCなどの一部の関連する例では、サンプル適応オフセット(SAO)アルゴリズムは、異なるクラスのピクセルに対して信号オフセットを定義することにより、同様の目標を達成することができる。SAOとは異なり、CDEFは非線形空間フィルタである。フィルタの設計は、単一命令複数データ(SIMD)演算で実装できるように、容易にベクトル化できるように制約されているが、これは、メディアンフィルタ又はバイラテラルフィルタなどの他の非線形フィルタの場合には当てはまらない。
【0160】
CDEF設計は、以下の観察から生じる。符号化画像におけるリンギングアーティファクトの量は、量子化ステップサイズにほぼ比例する傾向がある。詳細の量は入力画像の特性であるが、量子化画像に保持される最小の詳細も、量子化ステップサイズに比例する傾向がある。所定の量子化ステップサイズでは、リンギングの振幅は一般に詳細の振幅よりも小さい。
【0161】
CDEFは、各ブロックの方向を識別し、次いで、識別した方向に沿って、及び識別した方向から45度回転した方向に沿ってより少ない程度で適応的にフィルタリングすることによって機能する。フィルタの強度は明示的に通知されるため、ぼかしを高度に制御することができる。効率的なエンコード検索は、フィルタ強度用に設計されている。CDEFは、以前に提案された2つのインループフィルタに基づいており、新しいAOMedia Video1(AV)コーデックには結合フィルタが採用されている。
【0162】
図15は、本開示の一実施形態による、8×8ブロックの例示的な方向探索をする。方向探索は、非ブロック化フィルタの直後に、再構成されたピクセルに対して実行される。これらのピクセルはデコーダに利用可能であるため、方向にはシグナリングが必要とされない。探索は8×8ブロックに対して実行され、これらのブロックは、非直線エッジを適切に処理するのに十分小さいが、量子化画像に適用されるときに方向を確実に推定するのに十分大きい。8×8領域にわたって方向が一定であると、フィルタのベクトル化も容易になる。各ブロックについて、それぞれのブロック内のパターンに最もよく一致する方向は、量子化ブロックと最も近い完全方向性ブロックとの間の二乗差の和(SSD)を最小化することによって決定される。完全方向性ブロックは、一方向の線に沿ったすべてのピクセルが同じ値を有するブロックである。
【0163】
方向を識別する1つの理由は、方向性エッジ又はパターンを維持しながらリンギングを低減するためにその方向に沿ってフィルタタップを位置合わせすることである。ただし、方向性フィルタリングだけでは、リンギングを十分に低減できない場合がある。また、主方向に沿っていないピクセルにはフィルタタップを使用することも望ましい。ぼかしのリスクを減らすために、これらの余分なタップはより保守的に処理される。このため、CDEFは、一次タップ及び二次タップを定義する。完全な2-D CDEFフィルタは以下のように表される。
【0164】
【数17】
【0165】
ここで、Dは減衰パラメータであり、S(p)及びS(s)はそれぞれ一次タップ及び二次タップの強度であり、round(・)はゼロから離れるように丸め、
【数18】
はフィルタ重みであり、f(d,S,D)はフィルタリングされたピクセルと隣接する各ピクセルとの間の差に作用する制約関数である。差が小さい場合、f(d,S,D)=dであり、フィルタは線形フィルタのように動作する。差が大きい場合、f(d,S,D)=0であり、フィルタタップが事実上無視される。
【0166】
V.AV1におけるループ復元
【0167】
従来の非ブロック化動作のほか、一般的にノイズを除去し、エッジの品質を向上させるために、非ブロック化後のビデオ符号化で一組のインループ復元方式を使用することができる。これらの方式は、適切なサイズのタイルごとにフレーム内で切り替え可能である。記載されている具体的な方式は、分離可能な対称ウィーナフィルタと部分空間射影を備えたデュアル自己誘導フィルタに基づいている。コンテンツ統計はフレーム内で大幅に変化する可能性があるため、これらのツールは切り替え可能なフレームワーク内に統合されており、このフレームワークでは、フレームの異なる領域で異なるツールをトリガーすることができる。
【0168】
ウィーナフィルタの場合、劣化したフレーム内のすべてのピクセルは、それぞれのピクセルの周りのw×wウィンドウ内のそれぞれのピクセルの非因果的なフィルタリングされたバージョンとして再構成することができ、ここで、w=2r+1は整数rに対して奇数である。2Dフィルタタップが列ベクトル化形式のw×1要素ベクトルFで表される場合、単純な線形最小二乗平均誤差(LMMSE)最適化により、フィルタパラメータがF=H-1Mによって与えられ、ここで、H=E[XX]はxの自己共分散であり、ピクセルの周りのw×wウィンドウ内のwサンプルの列ベクトル化バージョンであり、M=E[YX]は、推定されるべき、xとスカラーソースサンプルyの相互相関である。エンコーダは、非ブロック化されたフレームとソース内の実現からH及びMを推定し、得られたフィルタFをデコーダに送信することができる。ただし、これにより、w個のタップの送信にかなりのビットレートコストが発生するだけでなく、分離不可能なフィルタリングによって復号も非常に複雑になる。したがって、Fの性質にはいくつかの追加の制約が課せられる。まず、Fは分離可能であるように制約され、その結果、フィルタリングは分離可能な水平及び垂直w-tap畳み込みとして実装することができる。第2に、水平フィルタ及び垂直フィルタのそれぞれは、対称であるように制約される。第3に、水平フィルタ係数と垂直フィルタ係数の両方の合計が1であると想定される。
【0169】
誘導フィルタリングの局所線形モデルは、以下のように表すことができる。
【0170】
【数19】
【0171】
局所線形モデルは、フィルタリングされていないサンプルxからフィルタリングされた出力yを計算するために使用され、ここで、F及びGは、劣化画像及びフィルタリングされたピクセルの近傍の誘導画像の統計に基づいて決定される。誘導画像が劣化画像と同じである場合、結果として得られるいわゆる自己誘導フィルタリングは、エッジ保存平滑化の効果を有する。自己誘導フィルタリングの特定の形式は、半径rとノイズパラメータeの2つのパラメータに依存し、次のように列挙される。
【0172】
(1)各ピクセルの周りの(2r+1)(2r+1)ウィンドウにおいてピクセルの平均μ及び分散σを求める。これは、積分イメージングに基づくボックスフィルタリングにより効率的に実現できる。
【0173】
(2)各ピクセルについてf=σ/(σ+e)、g=(1-f)μを計算する。
【0174】
(3)使用のために、ピクセルの周りの3×3ウィンドウ内のf及びg値の平均として、各ピクセルのF及びGを計算する。
【0175】
フィルタリングは、r及びeによって制御され、ここで、rが高いほど空間分散が大きくなり、eが高いほど範囲分散が大きくなる。
【0176】
図16は、一実施形態による例示的な部分空間射影を示す。安価な修復物X及びXのいずれもソースYに近接していないが、適切な乗数{α,β}は、それらがある程度正しい方向に移動している限り、それらをソースにはるかに近づけることができる。
【0177】
VI.ブロックレベル再構成に対する交差成分フィルタリング
【0178】
VVCなどの一部の関連する例では、交差成分フィルタリング(CCF)プロセスが提案され、SAO後の追加のフィルタリングプロセスとして採用されている。即ち、変換、量子化、逆量子化、及び再構成ループ以外にCCFプロセスが適用される。したがって、現在のブロックに適用されるCCFプロセスは、後続のブロックの参照サンプルとして使用される現在のブロックの再構成サンプルがCCFプロセスの影響を受けないため、後続の符号化ブロックの予測を改善しない。このような例では、CCFプロセスは画像レベルで適用される。CCFプロセスが後続の符号化ブロックの予測に影響を与えるために、本開示の実施形態では、CCFプロセスをブロックレベルで適用することができる。
【0179】
本開示は、ブロックレベル再構成にCCFプロセスを適用する方法を含む。CCFプロセスは、第1の色成分の再構成サンプルを入力(例えば、Y又はCb又はCr)として使用するフィルタリングプロセスとして定義することができ、出力は、第1の色成分とは異なる第2の色成分に適用することができる。CCFプロセスの一例は、セクションIIIに記載されているCC-ALFプロセスである。
【0180】
本開示の態様によれば、SAOが完了する前に、CCFプロセスを適用することができる。例えば、CCFプロセスは、逆量子化及び/又は逆変換の後に適用することができる。CCFプロセスによって出力された現在のブロックのフィルタリングされた再構成サンプルは、後続のブロックの参照サンプルとして使用することができ、及び/又は後続のブロックの予測サンプルを生成するために使用することができる。
【0181】
図17は、本開示の一実施形態による、ブロックの逆変換後に適用される例示的なCCFを示す。フィルタリングされたサンプルは、後続のブロックのイントラ予測及び/又はインター予測に使用することができ、インループフィルタリングは、CCFプロセスから出力されるフィルタリングされたサンプルの上に適用することができる。
【0182】
一実施形態では、CCFは、彩度色成分にのみ適用することができる。CCFプロセスの入力は再構成された輝度サンプルであってもよく、出力は現在のブロックの彩度サンプルの上に追加されるオフセット値であってもよい。
【0183】
一実施形態では、CCFプロセスは、残差に適用することができる。CCFプロセスの入力は、逆変換から導出された輝度残差値であってもよく、出力は、現在のブロックの彩度残差値に追加されるオフセット値であってもよい。
【0184】
一実施形態では、CCFプロセスは、予測されたサンプル値に適用することができる。CCFプロセスの入力は、予測された輝度サンプル値に適用することができ、出力は、現在のブロックの予測された彩度サンプル値に追加されるオフセット値であってもよい。
【0185】
一実施形態では、CCFプロセスで使用されるフィルタ係数を通知することができる。例えば、フィルタ係数は、ビデオパラメータセット(VPS)、シーケンスパラメータセット(SPS)、画像パラメータセット(PPS)、適応パラメータセット(APS)、スライスヘッダー、又はタイルヘッダーで通知することができる。
【0186】
一実施形態では、CCFプロセスで使用されるフィルタ係数は、事前定義された定数である。
【0187】
一実施形態では、現在の画像のCCFプロセスで使用されるフィルタ係数は、別のCCFプロセスで使用されるフィルタ係数によって導出される。例えば、現在の画像のCCFプロセスで使用されるフィルタ係数は、異なる画像のCCFプロセスで使用されるフィルタ係数、及び現在の画像に対して通知されるオフセット値によって導出することができる。
【0188】
一実施形態では、一つの色成分(例えば、彩度成分)のCCFプロセスで使用されるフィルタ係数は、他の色成分(例えば、輝度成分)のCCFプロセスで使用されるフィルタ係数から導出される。
【0189】
一実施形態では、CCFプロセスが適用される前に決定されたサンプル値によって導出された一部の統計に従って、各サンプルに対してフィルタ係数が選択される。
【0190】
一部の実施形態では、CCFプロセスが有効にされているか否かに関して判定が行われる。CCFプロセスは、CCFプロセスが有効になっているという判定に基づいて適用される。
【0191】
一実施形態では、CCFプロセスは、特定のブロックサイズに対して有効又は無効にされてもよい。一例では、CCFプロセスは、幅及び/又は高さが所与の閾値よりも小さいブロックに対して無効にされる。
【0192】
一実施形態では、CCFプロセスは、特定の分割方式に対して有効又は無効にされてもよい。一例では、輝度成分及び彩度成分が異なるブロックサイズを有する場合、例えば輝度成分及び彩度成分が異なる分割方式又は半分離分割方式を有する場合、CCFプロセスは無効にされる。
【0193】
一実施形態では、CCFプロセスは、特定の予測モードに対して有効又は無効にされてもよい。一例では、CCFプロセスはDCモードでは無効にされる。一例では、CCFプロセスは平面モードでは無効にされる。一例では、CCFプロセスは、SMOOTH、SMOOTH_H、及びSMOOTH_Vモードの1つ以上に対して無効にされる。一例では、CCFプロセスはPaeth予測モードでは無効にされる。一例では、CCFプロセスはSKIPモードでは無効にされる。一例では、CCFプロセスは方向性モードでは有効にされる。一例では、CCFプロセスは、インター-イントラ復号モードでは有効にされる。
【0194】
一実施形態では、CCFプロセスのフィルタ形状は、ブロック幅及び/又は高さに依存する可能性がある。
【0195】
一実施形態では、CCFプロセスが有効にされるか否かは、逆変換プロセスの変換係数に依存する。一例では、変換係数(逆量子化前又は逆量子化後)がすべてゼロの場合、CCFプロセスは適用されない。一例では、DC変換係数(逆量子化前又は逆量子化後)のみがゼロでない場合、CCFプロセスは適用されない。一例では、低周波変換係数(逆量子化前又は逆量子化後)のみがゼロでない場合、CCFプロセスは適用されない。低周波変換係数は、座標(x,y)に位置する変換係数であり、x及び/又はyが所定の閾値よりも小さい。
【0196】
一実施形態では、CCFプロセスが有効にされるか否かは、逆量子化プロセスの量子化パラメータに依存する。
【0197】
VII.フローチャート
【0198】
図18は、本開示の一実施形態による例示的なプロセス(1800)を概説するフローチャートを示す。様々な実施形態では、プロセス(1800)は、端末装置(210)、(220)、(230)及び(240)内の処理回路、ビデオエンコーダ(303)の機能を実行する処理回路、ビデオデコーダ(310)の機能を実行する処理回路、ビデオデコーダ(410)の機能を実行する処理回路、イントラ予測モジュール(452)の機能を実行する処理回路、ビデオエンコーダ(503)の機能を実行する処理回路、予測子(535)の機能を実行する処理回路、イントラエンコーダ(622)の機能を実行する処理回路、イントラデコーダ(772)の機能を実行する処理回路などの処理回路によって実行される。一部の実施形態では、プロセス(1800)はソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路はプロセス(1800)を実行する。
【0199】
プロセス(1800)は、一般に、ステップ(S1810)で開始することができ、ここで、プロセス(1800)は、符号化ビデオシーケンスの一部である現在の画像内の現在のブロックの予測情報を復号する。予測情報は、現在のブロックに対するCCFプロセスを示す。次に、プロセス(1800)はステップ(S1820)に進む。
【0200】
ステップ(S1820)において、プロセス(1800)は、CCFプロセスを、現在のブロックの予測サンプル、残差値、又は再構成サンプルのうちの少なくとも1つに適用することによって、現在のブロックのフィルタリングされた再構成サンプルを生成する。現在のブロックのフィルタリングされた再構成サンプルは、後続のブロックの再構成に使用される。次に、プロセス(1800)はステップ(S1830)に進む。
【0201】
ステップ(S1830)において、プロセス(1800)は、現在のブロックのフィルタリングされた再構成サンプルに基づいて現在のブロック及び後続のブロックを再構成する。その後、プロセス(1800)が終了する。
【0202】
一実施形態では、プロセス(1800)は、CCFプロセスを、現在のブロックの逆量子化プロセス及び逆変換プロセスのうちの少なくとも1つの出力に適用することによって、現在のブロックのフィルタリングされた再構成サンプルを生成する。
【0203】
一実施形態では、プロセス(1800)は、現在のブロックのオフセット値を含むCCFプロセスの出力を現在のブロックの彩度再構成サンプルに追加することによって、現在のブロックを再構成する。
【0204】
一実施形態では、プロセス(1800)は、現在のブロックのオフセット値を含むCCFプロセスの出力を現在のブロックの彩度残差値に追加することによって、現在のブロックを再構成する。
【0205】
一実施形態では、プロセス(1800)は、現在のブロックのオフセット値を含むCCFプロセスの出力を現在のブロックの彩度予測サンプルに追加することによって、現在のブロックを再構成する。
【0206】
一実施形態では、CCFプロセスのフィルタ係数は予測情報に含まれている。
【0207】
一実施形態では、CCFプロセスのフィルタ係数は事前定義された定数である。
【0208】
一実施形態では、現在の画像で使用されるCCFプロセスのフィルタ係数は、別の画像で使用されるCCFプロセスのフィルタ係数と、現在の画像で使用されるCCFプロセスのフィルタ係数のオフセット値とに基づいて決定される。オフセット値は、予測情報に含まれてもよい。
【0209】
一実施形態では、一つの色成分で使用されるCCFプロセスのフィルタ係数は、別の色成分で使用されるCCFプロセスのフィルタ係数に基づいて決定される。
【0210】
一実施形態では、CCFプロセスのフィルタ係数は、CCFプロセスが適用される前に決定された現在のブロックのサンプル値に基づいて決定される。
【0211】
一実施形態では、CCFプロセスが有効にされるか否かは、分割方式、予測モード、ブロック幅、ブロック高さ、変換係数、及び量子化パラメータのうちの1つに基づいて決定される。
【0212】
VIII.コンピュータシステム
【0213】
上記の技術は、コンピュータ可読命令を使用し、かつ1つ以上のコンピュータ可読媒体に物理的に記憶されたコンピュータソフトウェアとして実装することができる。例えば、図19は、開示された主題の特定の実施形態を実施するのに適したコンピュータシステム(1900)を示す。
【0214】
コンピュータソフトウェアは、任意の適切な機械語又はコンピュータ言語を使用して符号化することができ、これらは、アセンブリ、コンパイル、リンク、又は同様のメカニズムを受けて、1つ以上のコンピュータ中央処理装置(CPU)、グラフィック処理装置(GPU)などによって直接、又は解釈、マイクロコード実行などを通じて実行できる命令を含むコードを作成することができる。
【0215】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置などを含めて、様々なタイプのコンピュータ又はその構成要素上で実行することができる。
【0216】
コンピュータシステム(1900)について図19に示されている構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用範囲又は機能に関するいかなる限定も示唆することを意図するものではない。また、構成要素の構成は、コンピュータシステム(1900)の例示的な実施形態に示されている構成要素のいずれか1つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。
【0217】
コンピュータシステム(1900)は、特定のヒューマンインターフェース入力デバイスを含むことができる。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(声、拍手など)、視覚入力(ジェスチャーなど)、嗅覚入力(図示せず)を介して、1人以上の人間ユーザによる入力に応答することができる。ヒューマンインターフェースデバイスはまた、オーディオ(音声、音楽、周囲音など)、画像(走査画像、静止画像カメラから取得した写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、必ずしも人間による意識的な入力に直接関連しない特定のメディアをキャプチャするために使用することができる。
【0218】
入力ヒューマンインターフェースデバイスは、キーボード(1901)、マウス(1902)、トラックパッド(1903)、タッチスクリーン(1910)、データグローブ(図示せず)、ジョイスティック(1905)、マイクロフォン(1906)、スキャナ(1907)、及びカメラ(1908)のうちの1つ以上を含むことができる(それぞれのうちの1つのみを示す)。
【0219】
コンピュータシステム(1900)はまた、特定のヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、及び匂い/味覚を通じて、1人以上の人間ユーザの感覚を刺激することができる。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(1910)、データグローブ(図示せず)、又はジョイスティック(1905)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る)、オーディオ出力デバイス(スピーカ(1909)、ヘッドフォン(図示せず)など)、視覚出力デバイス(それぞれがタッチスクリーン入力機能を有する又は有せず、それぞれが触覚フィードバック機能を有する又は有せず、一部がステレオグラフィック出力などの手段を介して、2次元視覚出力又は3次元以上の出力を出力することができる、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン(1910)、仮想現実メガネ(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず)など)、及びプリンタ(図示せず)を含むことができる。これらの視覚出力デバイス(スクリーン(1910)など)は、グラフィックアダプタ(1950)を介してシステムバス(1948)に接続することができる。
【0220】
コンピュータシステム(1900)はまた、人間がアクセス可能な記憶装置、及びCD/DVD付きのCD/DVD ROM/RW(1920)を含む光学媒体又は同様の媒体(1921)、サムドライブ(1922)、リムーバブルハードドライブ又はソリッドステートドライブ(1923)、テープ及びフロッピーディスクなどのレガシー磁気媒体(図示せず)、セキュリティドングルなどの特殊なROM/ASIC/PLDベースのデバイス(図示せず)などの関連する媒体を含むことができる。
【0221】
当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解すべきである。
【0222】
コンピュータシステム(1900)はまた、1つ以上の通信ネットワーク(1955)へのネットワークインターフェース(1954)を含むことができる。1つ以上の通信ネットワーク(1955)は、例えば、無線、有線、光であり得る。1つ以上の通信ネットワーク(1955)は更に、ローカル、広域、メトロポリタン、自動車及び産業用、リアルタイム、遅延耐性などであり得る。1つ以上の通信ネットワーク(1955)の例としては、イーサネットなどのローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、地上波放送TVを含むTV有線又は無線広域デジタルネットワーク、CANBusを含む自動車及び産業用ネットワークなどが挙げられる。特定のネットワークでは一般に、特定の汎用データポート又は周辺バス(1949)(例えば、コンピュータシステム(1900)のUSBポートなど)に接続された外部ネットワークインターフェースアダプタが必要であり、他のネットワークは、一般に、以下に説明されるように、システムバスに接続することによってコンピュータシステム(1900)のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(1900)は他のエンティティと通信することができる。そのような通信は、例えば、ローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの一方向、受信のみ(例えば、放送TV)、一方向送信のみ(例えば、特定のCANbusデバイスへのCANbus)、又は双方向であり得る。上記のように、特定のプロトコル及びプロトコルスタックをこれらのネットワーク及びネットワークインターフェースのそれぞれで使用することができる。
【0223】
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶装置、及びネットワークインターフェースは、コンピュータシステム(1900)のコア(1940)に接続することができる。
【0224】
コア(1940)は、1つ以上の中央処理装置(CPU)(1941)、グラフィック処理装置(GPU)(1942)、フィールドプログラマブルゲートアレイ(FPGA)の形態の特殊なプログラマブルプロセッシングユニット(1943)、特定のタスク用のハードウェアアクセラレータ(1944)、グラフィックアダプタ(1950)などを含むことができる。これらのデバイスは、読み取り専用メモリ(ROM)(1945)、ランダムアクセスメモリ(1946)、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置(1947)と共に、システムバス(1948)を介して接続されてもよい。一部のコンピュータシステムでは、システムバス(1948)は、追加のCPU、GPUなどによる拡張を可能にするために、1つ以上の物理プラグの形態でアクセス可能である。周辺機器は、コアのシステムバス(1948)に直接接続することも、周辺バス(1949)を介して接続することもできる。一例では、スクリーン(1910)はグラフィックアダプタ(1950)に接続することができる。周辺バスのアーキテクチャには、PCI、USBなどが含まれる。
【0225】
CPU(1941)、GPU(1942)、FPGA(1943)、及びアクセラレータ(1944)は、特定の命令を実行することができ、これらの命令は、組み合わせて前述のコンピュータコードを構成することができる。そのコンピュータコードは、ROM(1945)又はRAM(1946)に記憶することができる。移行データはRAM(1946)に記憶することもできるが、永久データは、例えば内部大容量記憶装置(1947)に記憶することができる。1つ以上のCPU(1941)、GPU(1942)、大容量記憶装置(1947)、ROM(1945)、RAM(1946)などと密接に関連付けることができるキャッシュメモリを使用することで、任意のメモリデバイスへの高速記憶及び検索を可能にすることができる。
【0226】
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものであってもよく、又はそれらは、コンピュータソフトウェア技術の当業者によく知られ、利用可能な種類のものであってもよい。
【0227】
限定ではなく、一例として、アーキテクチャ(1900)、具体的にはコア(1940)を有するコンピュータシステムは、プロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)が1つ以上の有形のコンピュータ可読媒体に具体化されたソフトウェアを実行する結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上記で紹介したユーザがアクセス可能な大容量記憶装置に関連付けられた媒体、及びコア内部大容量記憶装置(1947)又はROM(1945)などの非一時的な性質を有するコア(1940)の特定の記憶装置であり得る。本開示の様々な実施形態を実施するソフトウェアは、そのようなデバイスに記憶され、コア(1940)によって実行され得る。コンピュータ可読媒体は、特定の必要に応じて、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア(1940)、特にその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM(1946)に記憶されたデータ構造を定義すること、及びソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することを含めて、本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。更に又は代替として、コンピュータシステムは、ソフトウェアの代わりに又はソフトウェアと共に動作して本明細書に記載の特定のプロセス又は特定のプロセスの特定の部分を実行することができる回路(例えば、アクセラレータ(1944))に配線され、又は他の方法で具体化された論理の結果として機能を提供することができる。ソフトウェアへの言及は、論理を包含することができ、必要に応じてその逆も同様である。コンピュータ可読媒体への言及は、実行用のソフトウェアを記憶する回路(集積回路(IC)など)、実行用の論理を具体化する回路、又は必要に応じてその両方を包含することができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。
【0228】
本開示は、いくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある変更、変形、及び様々な置換同等物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、本開示の原理を具体化し、したがってその精神及び範囲内にある多数のシステム及び方法を考案することができることが理解されるであろう。
【0229】
付録A:頭字語
ALF:適応ループフィルタ
AMVP:高度な動きベクトル予測
APS:適応パラメータセット
ASIC:特定用途向け集積回路
ATMVP:代替/高度な時間的動きベクトル予測
AV1:AOMedia Video 1
AV2:AOMedia Video 2
BMS:ベンチマークセット
BV:ブロックベクトル
CANBus:コントローラエリアネットワークバス
CB:符号化ブロック
CC-ALF:交差成分適応ループフィルタ
CD:コンパクトディスク
CDEF:制約付き方向性強調フィルタ
CPR:現在の画像参照
CPU:中央処理装置
CRT:ブラウン管
CTB:符号化ツリーブロック
CTU:符号化ツリーユニット
CU:符号化ユニット
DPB:デコーダ画像バッファ
DPS:復号パラメータセット
DVD:デジタルビデオディスク
FPGA:フィールドプログラマブルゲートアレイ
JCCR:共同CbCr残差符号化
JVET:共同ビデオ探索チーム
GOP:画像グループ
GPU:グラフィック処理装置
GSM:移動体通信システム用グローバルシステム
HDR:ハイダイナミックレンジ
HEVC:高効率ビデオ符号化
HRD:仮想参照デコーダ
IBC:イントラブロックコピー
IC:集積回路
ISP:イントラサブパーティション
JEM:共同探索モデル
LAN:ローカルエリアネットワーク
LCD:液晶ディスプレイ
LR:ループ復元フィルタ
LTE:ロングタームエボリューション
MPM:最確モード
MV:動きベクトル
OLED:有機発光ダイオード
PB:予測ブロック
PCI:周辺構成要素相互接続
PDPC:位置依存予測組み合わせ
PLD:プログラマブルロジックデバイス
PPS:画像パラメータセット
PU:予測ユニット
RAM:ランダムアクセスメモリ
ROM:読み取り専用メモリ
SAO:サンプル適応オフセット
SCC:スクリーンコンテンツ符号化
SDR:標準ダイナミックレンジ
SEI:補足強化情報
SNR:信号雑音比
SPS:シーケンスパラメータセット
SSD:ソリッドステートドライブ
TU:変換ユニット
USB:ユニバーサルシリアルバス
VPS:ビデオパラメータセット
VUI:ビデオユーザビリティ情報
VVC:多用途ビデオ符号化
WAIP:広角イントラ予測
【符号の説明】
【0230】
200 通信システム
210,220,230,240 端末装置
250 ネットワーク
300 ストリーミングシステム
301 ビデオソース
302 ビデオ画像
303 ビデオエンコーダ
304 符号化ビデオデータ(符号化ビデオビットストリーム)
305 ストリーミングサーバ
306,308 クライアントサブシステム
307,309 符号化ビデオデータのコピー
310 ビデオデコーダ
311 ビデオ画像
312 ディスプレイ
313 キャプチャサブシステム
320,330 電子装置
401 チャネル
410 ビデオデコーダ
412 レンダリングデバイス
415 バッファメモリ
420 エントロピーデコーダ/パーサ
421 シンボル
430 電子装置
431 受信機
451 スケーラ/逆変換ユニット
452 イントラ予測ユニット
453 動き補償予測ユニット
455 アグリゲータ
456 ループフィルタユニット
457 参照画像メモリ
458 現在の画像バッファ
501 ビデオソース
503 ビデオエンコーダ
520 電子装置
530 ソースコーダ
532 符号化エンジン
533 (ローカル)デコーダ
534 参照画像メモリ(参照画像キャッシュ)
535 予測子
540 送信機
543 符号化ビデオシーケンス
545 エントロピーコーダ
550 コントローラ
560 通信チャネル
603 ビデオエンコーダ
621 汎用コントローラ
622 イントラエンコーダ
623 残差計算機
624 残差エンコーダ
625 エントロピーエンコーダ
626 スイッチ
628 残差デコーダ
630 インターエンコーダ
710 ビデオデコーダ
771 エントロピーデコーダ
772 イントラデコーダ
773 残差デコーダ
774 再構成モジュール
780 インターデコーダ
1900 コンピュータシステム
1901 キーボード
1902 マウス
1903 トラックパッド
1905 ジョイスティック
1906 マイクロフォン
1907 スキャナ
1908 カメラ
1909 スピーカ
1910 スクリーン(タッチスクリーン)
1920 CD/DVD/ ROM/RW
1921 光学媒体
1922 サムドライブ
1923 リムーバブルハードディスクドライブ又はソリッドステートドライブ
1940 コア
1941 中央処理装置(CPU)
1942 グラフィック処理装置(GPU)
1943 フィールドプログラマブルゲートアレイ(FPGA)
1944 ハードウェアアクセラレータ
1945 読み取り専用メモリ(ROM)
1946 ランダムアクセスメモリ
1947 内部大容量記憶装置
1948 システムバス
1949 汎用データポート又は周辺バス
1950 グラフィックアダプタ
1954 ネットワークインターフェース
1955 通信ネットワーク
図1A
図1B
図1C
図2
図3
図4
図5
図6
図7
図8A
図8B
図9A
図9B
図9C
図9D
図10
図11
図12
図13
図14A
図14B
図15
図16
図17
図18
図19