(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-17
(45)【発行日】2024-05-27
(54)【発明の名称】スキップ変換フラグ符号化
(51)【国際特許分類】
H04N 19/70 20140101AFI20240520BHJP
H04N 19/60 20140101ALI20240520BHJP
H04N 19/91 20140101ALI20240520BHJP
【FI】
H04N19/70
H04N19/60
H04N19/91
(21)【出願番号】P 2023519383
(86)(22)【出願日】2022-01-28
(86)【国際出願番号】 US2022014311
(87)【国際公開番号】W WO2022265687
(87)【国際公開日】2022-12-22
【審査請求日】2023-03-27
(32)【優先日】2021-06-17
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-01-12
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】マドゥー・ペリンガーサリー・クリシュナン
(72)【発明者】
【氏名】シャン・リュウ
【審査官】松元 伸次
(56)【参考文献】
【文献】国際公開第2021/108833(WO,A1)
【文献】特開2018-201188(JP,A)
【文献】国際公開第2020/061005(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
(57)【特許請求の範囲】
【請求項1】
デコーダ
が実行する、ビデオデータを復号するための方法であって、前記方法は、
ルマコーディングされたブロックに関連付けられたルマ変換スキップフラグを含むコーディングされたビットストリームを受信するステップであって、前記ルマコーディングされたブロックは、n個の変換ブロックを含み、nは、正の整数である、ステップと、
前記コーディングされたビットストリームを介して、前記ルマコーディングされたブロックと同じ場所に配置された少なくとも1つのクロマコーディングされたブロックに関連する少なくとも1つのクロマ変換スキップフラグを受信するステップであって、前記少なくとも1つのクロマコーディングされたブロックは、m個の変換ブロックを含み、mは正の整数であり、同じ場所に配置されるとは、異なるチャネル中の2つのコーディングされたブロックが同じ空間位置にあることを指す、ステップと、
前記ルマ変換スキップフラグに基づいて、前記ルマコーディングされたブロックの前記n個の変換ブロックを復号するステップと、
前記少なくとも1つのクロマ変換スキップフラグに基づいて、前記少なくとも1つのクロマコーディングされたブロックの前記m個の変換ブロックを復号するステップと、を含む、方法。
【請求項2】
前記少なくとも1つのクロマコーディングされたブロックは、CbコーディングされたブロックとCrコーディングされたブロックとを含み、
前記少なくとも1つのクロマ変換スキップフラグは、前記Cbコーディングされたブロックと前記Crコーディングされたブロックとにそれぞれ関連付けられたCb変換スキップフラグとCr変換スキップフラグとを含み、
前記少なくとも1つのクロマ変換スキップフラグに基づいて前記少なくとも1つのクロマコーディングされたブロックの前記m個の変換ブロックを復号するステップは、
前記Cb変換スキップフラグに基づいて、前記Cbコーディングされたブロックの前記m個の変換ブロックを復号するステップと、
前記Cr変換スキップフラグに基づいて、前記Crコーディングされたブロックの前記m個の変換ブロックを復号するステップと、を含む、
請求項1に記載の方法。
【請求項3】
前記ルマ変換スキップフラグ、前記Cb変換スキップフラグ、および前記Cr変換スキップフラグの各々は、対応するコンテキストに基づいて符号化され、前記対応するコンテキストが、
前記ルマ変換スキップフラグ、前記Cb変換スキップフラグ、および前記Cr変換スキップフラグの前記各々に関連付けられた色チャネルに基づいて決定される、請求項2に記載の方法。
【請求項4】
前記ルマコーディングされたブロック、前記Crコーディングされたブロック、およびCbコーディングされたブロックの中のターゲットコーディングされたブロックに対応する前記ルマ変換スキップフラグ、前記Cr変換スキップフラグ、および前記
Cb変換スキップフラグの中のターゲット変換スキップフラグが非スキップに設定され、かつ前記ターゲットコーディングされたブロック中の最後の変換ブロックを除く全ての変換ブロックに関連するブロック終了(EOB)スキップフラグをコーディング順序に従ってコーディングしていると判定したことに応答して、
前記ターゲットコーディングされたブロックの前記最後の変換ブロックのためのEOBスキップフラグがシグナリングされないが、対応するEOBが存在すると判定するステップをさらに含む、請求項
2に記載の方法。
【請求項5】
前記ルマコーディングされたブロック、前記Crコーディングされたブロック、および前記Cbコーディングされたブロックの各々中の前記変換ブロックは、各変換ブロック中の変換係数を符号化するとき、符号化走査順序によって順序付けられる、請求項4に記載の方法。
【請求項6】
前記ターゲットコーディングされたブロックは、イントラコード化され、均一区分方式に従って変換ブロックに区分される、請求項4に記載の方法。
【請求項7】
前記ターゲットコーディングされたブロックは、インターコード化され、再帰的区分方式に従って変換ブロックに区分される、請求項4に記載の方法。
【請求項8】
前記ターゲットコーディングされたブロックは、イントラコード化またはインターコード化され、前記ターゲットコーディングされたブロックは、
PARTITION_SPILT方式
PARTITION_HORZ方式
PARTITION_VERT方式
PARTITION_HORZ4方式、または
PARTITION_VERT4方式、の方式のうちの1つを介して区分される、請求項4に記載の方法。
【請求項9】
前記少なくとも1つのクロマコードブロックは、CbコーディングされたブロックとCrコーディングされたブロックとを含み、
前記少なくとも1つのクロマ変換スキップフラグは、前記Cbコーディングされたブロックと前記Crコーディングされたブロックの両方のための組み合わされたクロマ変換スキップフラグを含み、
前記少なくとも1つのクロマ変換スキップフラグに基づいて前記少なくとも1つのクロマコーディングされたブロックの前記m個の変換ブロックを復号するステップは、
前記組み合わされたクロマ変換スキップフラグに基づいて、前記Cbコーディングされたブロックの前記m個の変換ブロックと前記Crコーディングされたブロックの前記m個の変換ブロックとを復号するステップを含む、
請求項1に記載の方法。
【請求項10】
前記ルマコーディングされたブロック、前記組み合わされたCrコーディングされたブロック、およびCbコーディングされたブロックとの中のターゲットコーディングされたブロックに対応する、前記ルマ変換スキップフラグおよび前記組み合わされたクロマ変換スキップフラグの中のターゲット変換スキップフラグが非スキップに設定され、かつ前記ターゲットコーディングされたブロック中の最後の変換ブロックを除く全ての変換ブロックに関連するブロック終了(EOB)スキップフラグをコーディング順序に従ってコーディングしていると判定したことに応答して、
前記ターゲットコーディングされたブロックの前記最後の変換ブロックのためのEOBスキップフラグがシグナリングされないが、対応するEOBが存在すると判定するステップをさらに含む、請求項9に記載の方法。
【請求項11】
前記ルマコーディングされたブロック、ならびに前記組み合わされたCrコーディングされたブロックおよびCbコーディングされたブロックの各々中の前記変換ブロックは、各変換ブロック中の変換係数を符号化するとき、符号化走査順序によって順序付けられる、請求項10に記載の方法。
【請求項12】
前記ターゲットコーディングされたブロックは、イントラコード化され、均一区分方式に従って変換ブロックに区分される、請求項10に記載の方法。
【請求項13】
前記ターゲットコーディングされたブロックは、インターコード化され、再帰的区分方式に従って変換ブロックに区分される、請求項10に記載の方法。
【請求項14】
前記ターゲットコーディングされたブロックは、イントラコード化またはインターコード化され、前記ターゲットコーディングされたブロックは、
PARTITION_SPILT方式
PARTITION_HORZ方式
PARTITION_VERT方式
PARTITION_HORZ4方式、または
PARTITION_VERT4方式、の方式のうちの1つを介して区分される、請求項10に記載の方法。
【請求項15】
前記ルマ変換スキップフラグは、前記n個の変換ブロックにおける全ての変換係数が0であるかどうかを示す、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記少なくとも1つのクロマ変換スキップフラグは、前記m個の変換ブロックにおける全ての変換係数が0であるかどうかを示す、請求項1~15のいずれか一項に記載の方法。
【請求項17】
請求項1~16のいずれか一項に記載の方法を行うように構成されたデバイス。
【請求項18】
1つ以上のプロセッサに、請求項1~16のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年6月17日に出願された米国仮出願第63/212,080号と、2022年1月12日に出願された通常の米国出願第17/574,164号とを基礎にして、これらの出願の優先権の利益を主張する。双方の出願の全体が参照によって本明細書に援用される。
【0002】
本開示は、概して、高度なビデオコーディング/復号技術のセットに関し、より具体的には、スキップ変換フラグを符号化するための設計に関する。
【背景技術】
【0003】
本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。本発明者らの研究は、その研究がこの背景技術の項に記載されている限りにおいて、またそれ以外の本出願の出願時に先行技術として認められない可能性のある説明の態様と共に、本開示に対する先行技術としては明示的にも暗示的にも認められない。
【0004】
ビデオコーディングおよびビデオ復号は、動き補償を伴うインターピクチャ予測を使用して実行され得る。非圧縮デジタルビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば1920×1080の輝度サンプルおよび関連するフルサンプリングまたはサブサンプリングされた色差サンプルの空間次元を有する。一連のピクチャは、例えば毎秒60ピクチャまたは毎秒60フレームの固定または可変のピクチャレート(あるいはフレームレートとも呼ばれる)を有することができる。非圧縮ビデオは、ストリーミングまたはデータ処理のための特定のビットレート要件を有する。例えば、1920×1080の画素解像度、60フレーム/秒のフレームレート、および色チャネルあたり画素あたり8ビットで4:2:0のクロマサブサンプリングを有するビデオは、1.5Gbit/sに近い帯域幅を必要とする。1時間分のそのようなビデオは、600GByteを超える記憶空間を必要とする。
【0005】
ビデオコーディングおよびビデオ復号の1つの目的は、圧縮による非圧縮入力ビデオ信号の冗長性の低減であり得る。圧縮は、前述の帯域幅および/または記憶空間要件を、場合によっては2桁以上低減させるのに役立ち得る。可逆圧縮と非可逆圧縮の両方、およびそれらの組み合わせを使用することができる。可逆圧縮とは、原信号の正確なコピーを復号プロセスによって圧縮された原信号から再構成することができる技術を指す。非可逆圧縮とは、元のビデオ情報がコーディング時に完全に保持されず、復号時に完全に回復できないコーディング/復号プロセスを指す。非可逆圧縮を使用する場合、再構成された信号は原信号と同一ではない可能性があるが、原信号と再構成された信号との間の歪みは、多少の情報損失はあっても、再構成された信号を意図された用途に役立てるのに十分なほど小さくなる。ビデオの場合、非可逆圧縮が多くの用途で広く採用されている。耐容できる歪みの量は用途に依存する。例えば、特定の消費者ビデオストリーミング用途のユーザは、映画やテレビ放送用途のユーザよりも高い歪みを容認し得る。特定のコーディングアルゴリズムによって達成可能な圧縮比を、様々な歪み耐性を反映するように選択または調整することができる。すなわち、一般に、歪み耐性が高いほど、高い損失および高い圧縮比をもたらすコーディングアルゴリズムが可能になる。
【0006】
ビデオエンコーダおよびビデオデコーダは、例えば、動き補償、フーリエ変換、量子化、およびエントロピーコーディングを含む、いくつかの広範なカテゴリおよびステップからの技術を利用することができる。
【0007】
ビデオコーデック技術は、イントラコーディングとして知られる技術を含み得る。イントラコーディングでは、サンプル値は、以前に再構成された参照ピクチャからのサンプルまたは他のデータを参照せずに表される。一部のビデオコーデックでは、ピクチャがサンプルのブロックに、空間的に細分される。サンプルの全てのブロックがイントラモードでコーディングされる場合、そのピクチャをイントラピクチャと呼ぶことができる。イントラピクチャおよび独立したデコーダリフレッシュピクチャなどのそれらの派生ピクチャは、デコーダ状態をリセットするために使用することができ、したがって、コーディングされたビデオビットストリームおよびビデオセッション内の最初のピクチャとして、または静止画像として使用することができる。次いで、イントラ予測後のブロックのサンプルに周波数領域への変換を施すことができ、そのように生成された変換係数をエントロピーコーディングの前に量子化することができる。イントラ予測は、変換前領域におけるサンプル値を最小化する技術を表す。場合によっては、変換後のDC値が小さいほど、およびAC係数が小さいほど、エントロピーコーディング後のブロックを表すために所与の量子化ステップサイズで必要とされるビット数が少なくなる。
【0008】
例えば、MPEG-2生成コーディング技術から知られているような従来のイントラコーディングは、イントラ予測を使用しない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、空間的隣接の符号化および/または復号時に取得される、イントラコーディングまたはイントラ復号されているデータのブロックに復号順序で先行する、周囲のサンプルデータおよび/またはメタデータに基づいて、ブロックのコーディング/復号を試みる技術を含む。そのような技術を、これ以降、「イントラ予測」技術と呼ぶ。少なくともいくつかの場合において、イントラ予測は、再構成中の現在のピクチャのみからの参照データを使用し、他の参照ピクチャからの参照データは使用しないことに留意されたい。
【0009】
イントラ予測には、多くの異なる形態があり得る。そのような技術のうちの2つ以上が所与のビデオコーディング技術において利用可能である場合、使用される技術を、イントラ予測モードと呼ぶことができる。1つまたは複数のイントラ予測モードが特定のコーデックで提供され得る。特定の場合には、モードは、サブモードを有することができ、かつ/または様々なパラメータと関連付けられていてもよく、モード/サブモード情報およびビデオのブロックのイントラコーディングパラメータは、個別にコーディングされるか、またはまとめてモードのコードワードに含めることができる。所与のモード、サブモード、および/またはパラメータの組み合わせにどのコードワードを使用するかは、イントラ予測を介したコーディング効率向上に影響を与える可能性があり、そのため、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も影響を与える可能性がある。
【0010】
イントラ予測の特定のモードは、H.264で導入され、H.265で改良され、共同探索モデル(JEM)、多用途ビデオコーディング(VVC)、およびベンチマークセット(BMS)などのより新しいコーディング技術でさらに改良された。一般に、イントラ予測では、利用可能になった隣接サンプル値を使用して予測子ブロックを形成することができる。例えば、特定の方向および/または線に沿った特定の隣接サンプルセットの利用可能な値が、予測子ブロックにコピーされ得る。使用される方向への参照は、ビットストリーム内でコーディングされることができるか、またはそれ自体が予測され得る。
【0011】
図1Aを参照すると、右下に示されているのは、(H.265で指定される35のイントラモードのうちの33の角度モードに対応する)H.265の33の可能なイントラ予測子方向で指定される9つの予測子方向のサブセットである。矢印が集中する点(101)は、予測されているサンプルを表す。矢印は、隣接サンプルがそこから101のサンプルを予測するために使用される方向を表す。例えば、矢印(102)は、サンプル(101)が、1つまたは複数の隣接サンプルから右上へ、水平方向から45度の角度で予測されることを示している。同様に、矢印(103)は、サンプル(101)が、1つまたは複数の隣接サンプルからサンプル(101)の左下へ、水平方向から22.5度の角度で予測されることを示している。
【0012】
さらに
図1Aを参照すると、左上には、(太い破線によって示された)4×4サンプルの正方形ブロック(104)が描写されている。正方形ブロック(104)は16個のサンプルを含み、各々、「S」、Y次元のその位置(例えば、行インデックス)、およびX次元のその位置(例えば、列インデックス)でラベル付けされている。例えば、サンプルS21は、Y次元の(上から)2番目のサンプルであり、X次元の(左から)1番目のサンプルである。同様に、サンプルS44は、ブロック(104)内のY次元およびX次元の両方の4番目のサンプルである。ブロックのサイズは4×4サンプルであるため、S44は右下にある。同様の番号付け方式に従う参照サンプルの例がさらに示されている。参照サンプルは、R、ブロック(104)に対するそのY位置(例えば、行インデックス)およびX位置(列インデックス)でラベル付けされている。H.264とH.265の両方で、再構成中のブロックに隣接する予測サンプルが使用される。
【0013】
ブロック104のイントラピクチャ予測は、シグナリングされた予測方向に従って隣接サンプルから参照サンプル値をコピーすることから開始し得る。例えば、コーディングされたビデオビットストリームは、このブロック104について、矢印(102)の予測方向を示すシグナリングを含む、すなわち、サンプルは1つまたは複数の予測サンプルから右上へ、水平方向から45度の角度で予測されると仮定する。そのような場合、サンプルS41、S32、S23、S14が、同じ参照サンプルR05から予測される。次いで、サンプルS44が、参照サンプルR08から予測される。
【0014】
特定の場合には、参照サンプルを計算するために、特に方向が45度によって均等に割り切れないときは、複数の参照サンプルの値は、例えば補間によって組み合わされてもよい。
【0015】
可能な方向の数は、ビデオコーディング技術が発展し続けるにつれて増加してきた。H.264(2003年)では、例えば、9つの異なる方向がイントラ予測に利用可能である。これは、H.265(2013年)では33まで増加し、JEM/VVC/BMSは、本開示の時点で、最大65の方向をサポートすることができる。最も適切なイントラ予測方向を特定するのに役立つ実験研究が行われており、エントロピーコーディングの特定の技術を使用して、方向についての特定のビットペナルティを受け入れて、それらの最も適切な方向が少数のビットで符号化され得る。さらに、方向自体を、復号された隣接ブロックのイントラ予測で使用された隣接する方向から予測できる場合もある。
【0016】
図1Bは、時間の経過と共に発展した様々な符号化技術における増加する予測方向の数を例示するために、JEMによる65のイントラ予測方向を示す概略図(180)を示す。
【0017】
コーディングされたビデオビットストリームにおけるイントラ予測方向を表すビットの予測方向へのマッピングのための方法は、ビデオコーディング技術によって異なる可能性があり、例えば、予測方向対イントラ予測モードの単純な直接マッピングから、コードワード、最確モードを含む複雑な適応方式、および同様の技術にまで及び得る。ただし、全ての場合において、他の特定の方向よりもビデオコンテンツで発生する可能性が統計的に低いイントラ予測の特定の方向が存在し得る。ビデオ圧縮の目的は冗長性の低減であるため、うまく設計されたビデオコーディング技術においては、それらのより可能性の低い方向はより可能性の高い方向よりも多くのビット数で表され得る。
【0018】
インターピクチャ予測、またはインター予測は、動き補償に基づくものあり得る。動き補償では、以前に再構成されたピクチャまたはその一部(参照ピクチャ)からのサンプルデータが、動きベクトル(これ以降はMV)によって示される方向に空間的にシフトされた後、新たに再構成されたピクチャまたはピクチャ部分(例えば、ブロック)の予測に使用され得る。場合によっては、参照ピクチャは、現在再構成中のピクチャと同じであり得る。MVは、2つの次元XおよびY、または3つの次元を有していてもよく、第3の次元は、(時間次元と類似した)使用される参照ピクチャの指示である。
【0019】
いくつかのビデオ圧縮技術では、サンプルデータの特定のエリアに適用可能な現在のMVを、他のMVから、例えば再構成中のエリアに空間的に隣接し、復号順序で現在のMVに先行する、サンプルデータの他のエリアに関連する他のMVから予測することができる。そうすることにより、相関するMVの冗長性の除去に依拠することによってMVをコーディングするのに必要とされる全体のデータ量を大幅に削減することができ、それによって圧縮効率が高まる。MV予測が効果的に機能することができるのは、例えば、(自然なビデオとして知られている)カメラから導出された入力ビデオ信号をコーディングするときに、単一のMVが適用可能なエリアよりも大きいエリアは、ビデオシーケンスにおいて同様の方向に移動する統計的尤度があり、したがって、場合によっては、隣接するエリアのMVから導出された同様の動きベクトルを使用して予測することができるからである。その結果として、所与のエリアの実際のMVが周囲のMVから予測されたMVと同様または同一になる。そのようなMVはさらに、エントロピーコーディング後に、MVが(1つまたは複数の)隣接するMVから予測されるのではなく直接コーディングされた場合に使用されることになるビット数よりも少ないビット数で表され得る。場合によっては、MV予測を、原信号(すなわち、サンプルストリーム)から導出された信号(すなわち、MV)の可逆圧縮の一例とすることができる。他の場合には、例えば、いくつかの周囲のMVから予測器を計算するときの丸め誤差のために、MV予測自体は非可逆であり得る。
【0020】
H.265/HEVC(ITU-T Rec.H.265,「High Efficiency Video Coding」,December 2016)には、様々なMV予測機構が記載されている。H.265が指定する多くのMV予測機構のうち、以下で説明するのは、これ以降「空間マージ」と呼ぶ技術である。
【0021】
具体的には、
図2を参照すると、現在のブロック(201)は、動き探索プロセス中にエンコーダによって、空間的にシフトされた同じサイズの前のブロックから予測可能であると検出されたサンプルを含む。そのMVを直接コーディングする代わりに、MVを、A0、A1、およびB0、B1、B2(それぞれ202から206)で表された5つの周囲のサンプルのいずれか1つと関連付けられたMVを使用して、1つまたは複数の参照ピクチャと関連付けられたメタデータから、例えば、(復号順序で)最後の参照ピクチャから導出することができる。H.265では、MV予測は、隣接ブロックが使用しているのと同じ参照ピクチャからの予測子を使用することができる。
【発明の概要】
【課題を解決するための手段】
【0022】
本開示の態様は、ビデオ符号化およびビデオ復号のための方法および装置を提供する。
【0023】
本開示の態様では、ビデオ復号および/または符号化のためにコンピュータによって実行されるときにビデオ復号および/または符号化のための方法をコンピュータに実行させる指示を記憶する非一時的コンピュータ可読媒体も提供する。
【0024】
一態様によれば、本開示の実施形態は、デコーダにおいてビデオデータを復号するための方法を提供する。本方法は、ルマコーディングされたブロックに関連付けられたルマ変換スキップフラグを含むコーディングされたビットストリームを受信するステップであって、ルマコーディングされたブロックは、n個の変換ブロックを含み、nは、正の整数である、ステップと、コーディングされたビットストリームを介して、ルマコーディングされたブロックと同じ場所に配置された少なくとも1つのクロマコーディングされたブロックに関連する少なくとも1つのクロマ変換スキップフラグを受信するステップであって、少なくとも1つのクロマコーディングされたブロックは、m個の変換ブロックを含み、mは正の整数であり、同じ場所に配置されるとは、異なるチャネル中の2つのコーディングされたブロックが同じ空間位置にあることを指す、ステップと、ルマ変換スキップフラグに基づいて、ルマコーディングされたブロックのn個の変換ブロックを復号するステップと、少なくとも1つのクロマ変換スキップフラグに基づいて、少なくとも1つのクロマコーディングされたブロックのm個の変換ブロックを復号するステップと、を含む。
【0025】
別の態様によれば、本開示の一実施形態は、ビデオ符号化および/またはビデオ復号のための装置を提供する。装置は、命令を格納するメモリと、メモリと通信するプロセッサとを含む。プロセッサが命令を実行すると、プロセッサは、装置に、ビデオ復号および/またはビデオ符号化のための上記の方法を実行させるように構成される。
【0026】
さらに別の態様によれば、本開示の一実施形態は、ビデオ復号および/またはビデオ符号化のためにコンピュータによって実行されると、ビデオ復号および/またはビデオ符号化のための上記の方法をコンピュータに実行させる命令を格納する非一時的コンピュータ可読媒体を提供する。
【0027】
上記その他の態様およびそれらの実装形態を、図面、明細書、および特許請求の範囲においてさらに詳細に説明する。
【0028】
開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
【図面の簡単な説明】
【0029】
【
図1A】イントラ予測方向性モードの例示的なサブセットの概略図である。
【
図1B】例示的なイントラ予測方向を示す図である。
【
図2】一例における現在のブロックおよび動きベクトル予測のためのその周囲の空間マージ候補を示す概略図である。
【
図3】一例示的実施形態による通信システム(300)の簡略化されたブロック図を示す概略図である。
【
図4】一例示的実施形態による通信システム(400)の簡略化されたブロック図を示す概略図である。
【
図5】一例示的実施形態によるビデオデコーダの簡略化されたブロック図を示す概略図である。
【
図6】一例示的実施形態によるビデオエンコーダの簡略化されたブロック図を示す概略図である。
【
図7】別の例示的実施形態によるビデオエンコーダを示すブロック図である。
【
図8】別の例示的実施形態によるビデオデコーダを示すブロック図である。
【
図9】本開示の例示的実施形態によるコーディングブロック分割の方式を示す図である。
【
図10】本開示の例示的実施形態によるコーディングブロック分割の別の方式を示す図である。
【
図11】本開示の例示的実施形態によるコーディングブロック分割の別の方式を示す図である。
【
図12】本開示の例示的実施形態によるコーディングブロック分割の別の方式を示す図である。
【
図13】本開示の例示的実施形態による、コーディングブロックを複数の変換ブロックに分割する方式および変換ブロックのコーディング順序を示す図である。
【
図14】本開示の例示的実施形態による、コーディングブロックを複数の変換ブロックに分割する別の方式および変換ブロックのコーディング順序を示す図である。
【
図15】本開示の例示的実施形態による、コーディングブロックを複数の変換ブロックに分割する別の方式を示す図である。
【
図16A】例示的なスキップ変換およびブロック終了フラグのシグナリング方式を示す。
【
図16B】例示的なスキップ変換およびブロック終了フラグのシグナリング方式を示す。
【
図16C】例示的なスキップ変換およびブロック終了フラグのシグナリング方式を示す。
【
図17】本開示の実施形態によるフローチャートを示す。
【
図18】本開示の実施形態に係るコンピュータシステムの概略図を示す。
【発明を実施するための形態】
【0030】
図3は、本開示の一実施形態による、通信システム(300)の簡略化されたブロック図を示す。通信システム(300)は、例えば、ネットワーク(350)を介して互いに通信することができる複数の端末デバイスを含む。例えば、通信システム(300)は、ネットワーク(350)を介して相互接続された第1の対の端末デバイス(310)および(320)を含む。
図3の例では、第1の対の端末デバイス(310)および(320)は、データの単方向伝送を実行し得る。例えば、端末デバイス(310)は、ネットワーク(350)を介して他方の端末デバイス(320)に送信するための(例えば、端末デバイス(310)によって取り込まれたビデオピクチャのストリームの)ビデオデータをコーディングし得る。符号化されたビデオデータは、1つまたは複数のコーディングされたビデオビットストリームの形で送信され得る。端末デバイス(320)は、ネットワーク(350)からコーディングされたビデオデータを受信し、コーディングされたビデオデータを復号してビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示し得る。単方向データ伝送は、メディアサービング用途などで実施され得る。
【0031】
別の例では、通信システム(300)は、例えばビデオ会議用途の間に実施され得るコーディングされたビデオデータの双方向伝送を実行する第2の対の端末デバイス(330)および(340)を含む。データの双方向伝送のために、一例では、端末デバイス(330)および(340)の各端末デバイスは、ネットワーク(350)を介して端末デバイス(330)および(340)の他方の端末デバイスに送信するための(例えば、その端末デバイスによって取り込まれたビデオピクチャのストリームの)ビデオデータをコーディングし得る。端末デバイス(330)および(340)の各端末デバイスはまた、端末デバイス(330)および(340)の他方の端末デバイスによって送信されたコーディングされたビデオデータを受信し、コーディングされたビデオデータを復号してビデオピクチャを復元し、復元されたビデオデータに従ってアクセス可能な表示デバイスでビデオピクチャを表示し得る。
【0032】
図3の例では、端末デバイス(310)、(320)、(330)、および(340)は、サーバ、パーソナルコンピュータ、およびスマートフォンとして実施され得るが、本開示の基礎となる原理の適用性はそのように限定されない。本開示の実施形態は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、ウェアラブルコンピュータ、専用のビデオ会議機器などにおいて実装され得る。ネットワーク(350)は、例えば、有線(有線接続)および/または無線通信ネットワークを含む、端末デバイス(310)、(320)、(330)および(340)間でコーディングされたビデオデータを伝達する任意の数またはタイプのネットワークを表す。通信ネットワーク(350)は、回線交換チャネル、パケット交換チャネル、および/または他のタイプのチャネルでデータを交換し得る。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および/またはインターネットが含まれる。本考察の目的にとって、ネットワーク(350)のアーキテクチャおよびトポロジーは、本明細書で明示的に説明されない限り、本開示の動作にとって重要ではない場合がある。
【0033】
図4に、開示の主題の用途の一例として、ビデオストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を示す。開示の主題は、例えば、ビデオ会議、デジタルテレビ放送、ゲーム、仮想現実、CD、DVD、メモリスティックなどを含むデジタルメディア上の圧縮ビデオの格納などを含む、他のビデオ対応用途に等しく適用され得る。
【0034】
ビデオストリーミングシステムは、圧縮されていないビデオピクチャまたは画像のストリーム(402)を作成するためのビデオソース(401)、例えばデジタルカメラを含むことができるビデオ取り込みサブシステム(413)を含み得る。一例では、ビデオピクチャのストリーム(402)は、ビデオソース401のデジタルカメラによって記録されたサンプルを含む。ビデオピクチャのストリーム(402)は、符号化されたビデオデータ(404)(またはコーディングされたビデオビットストリーム)と比較した場合の高データ量を強調するために太線で示されており、ビデオソース(401)に結合されたビデオエンコーダ(403)を含む電子デバイス(420)によって処理され得る。ビデオエンコーダ(403)は、以下でより詳細に説明されるように開示の主題の態様を可能にし、または実装するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。符号化されたビデオデータ(404)(または符号化されたビデオビットストリーム(404))は、非圧縮ビデオピクチャのストリーム(402)と比較した場合の低データ量を強調するために細線で示されており、将来の使用のためにストリーミングサーバ(405)に、または下流のビデオデバイス(図示せず)に直接格納され得る。
図4のクライアントサブシステム(406)および(408)などの1つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ(405)にアクセスして、符号化されたビデオデータ(404)のコピー(407)および(409)を取得することができる。クライアントサブシステム(406)は、例えば電子デバイス(430)内のビデオデコーダ(410)を含むことができる。ビデオデコーダ(410)は、符号化されたビデオデータの入力コピー(407)を復号し、圧縮されていない、ディスプレイ(412)(例えば、表示画面)または他のレンダリングデバイス(図示せず)上にレンダリングすることができるビデオピクチャの出力ストリーム(411)を作成する。ビデオデコーダ410は、本開示に記載される様々な機能の一部または全部を実行するように構成され得る。一部のストリーミングシステムでは、符号化されたビデオデータ(404)、(407)、および(409)(例えば、ビデオビットストリーム)を、特定のビデオコーディング/圧縮規格に従って符号化することができる。それらの規格の例には、ITU-T勧告H.265が含まれる。一例では、開発中のビデオコーディング規格は、多用途ビデオコーディング(VVC)として非公式に知られている。開示の主題は、VVC、および他のビデオコーディング規格の文脈で使用され得る。
【0035】
電子デバイス(420)および(430)は、他の構成要素(図示せず)を含むことができることに留意されたい。例えば、電子デバイス(420)はビデオデコーダ(図示せず)を含むことができ、電子デバイス(430)はビデオエンコーダ(図示せず)も含むことができる。
【0036】
図5は、以下の本開示の任意の実施形態によるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、電子デバイス(530)に含めることができる。電子デバイス(530)は、受信機(531)(例えば、受信回路)を含むことができる。ビデオデコーダ(510)を、
図4の例のビデオデコーダ(410)の代わりに使用することができる。
【0037】
受信機(531)は、ビデオデコーダ(510)によって復号されるべき1つまたは複数のコーディングされたビデオシーケンスを受信し得る。同じまたは別の実施形態では、一度に1つのコーディングされたビデオシーケンスが復号され得、各コーディングされたビデオシーケンスの復号は、他のコーディングされたビデオシーケンスから独立している。各ビデオシーケンスは、複数のビデオフレームまたはビデオ画像と関連付けられ得る。コーディングされたビデオシーケンスはチャネル(501)から受信され得、チャネル(501)は、符号化されたビデオデータを格納する記憶デバイスへのハードウェア/ソフトウェアリンク、または符号化されたビデオデータを送信するストリーミングソースであり得る。受信機(531)は、符号化されたビデオデータを、それぞれの処理回路(図示せず)に転送され得る、コーディングされたオーディオデータおよび/または補助データストリームなどの他のデータと共に受信し得る。受信機(531)は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッタに対抗するために、バッファメモリ(515)が、受信機(531)とエントロピーデコーダ/パーサ(520)(これ以降は「パーサ(520)」)との間に配置されてもよい。特定の用途では、バッファメモリ(515)は、ビデオデコーダ(510)の一部として実装され得る。他の用途では、バッファメモリ(515)は、ビデオデコーダ(510)から分離されて外部にあり得る(図示せず)。さらに他の用途では、例えばネットワークジッタに対抗するためにビデオデコーダ(510)の外部にバッファメモリ(図示せず)があってもよく、例えば再生タイミングを処理するためにビデオデコーダ(510)の内部に別のバッファメモリ(515)があり得る。受信機(531)が十分な帯域幅および可制御性の記憶/転送デバイスから、またはアイソシンクロナス(isosynchronous)ネットワークからデータを受信しているときには、バッファメモリ(515)は不要であり得るか、または小さくすることができる。インターネットなどのベストエフォートパケットネットワークで使用するために、十分なサイズのバッファメモリ(515)が必要とされる場合があり、そのサイズは比較的大きくなり得る。そのようなバッファメモリは、適応サイズで実装されてもよく、ビデオデコーダ(510)の外部のオペレーティングシステムまたは同様の要素(図示せず)に少なくとも部分的に実装されてもよい。
【0038】
ビデオデコーダ(510)は、コード化ビデオシーケンスからシンボル(521)を復元するためにパーサ(520)を含んでもよい。それらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報と、潜在的に、
図5に示すように、電子デバイス(530)の不可欠な部分である場合もそうでない場合もあるが、電子デバイス(530)に結合することができるディスプレイ(512)(例えば、表示画面)などのレンダリングデバイスを制御するための情報とを含む。(1つまたは複数の)レンダリングデバイスのための制御情報は、補足拡張情報(SEIメッセージ)またはビデオユーザビリティ情報(VUI)パラメータセットフラグメント(図示せず)の形であり得る。パーサ(520)は、パーサ(520)によって受け取られるコーディングされたビデオシーケンスを構文解析/エントロピー復号し得る。コーディングされたビデオシーケンスのエントロピーコーディングは、ビデオコーディング技術または規格に従ったものとすることができ、可変長コーディング、ハフマンコーディング、文脈依存性ありまたはなしの算術コーディングなどを含む様々な原理に従ったものとすることができる。パーサ(520)は、コーディングされたビデオシーケンスから、サブグループに対応する少なくとも1つのパラメータに基づいて、ビデオデコーダ内の画素のサブグループのうちの少なくとも1つのサブグループパラメータのセットを抽出し得る。サブグループには、Groups of Pictures(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含めることができる。パーサ(520)はまた、コーディングされたビデオシーケンスから、変換係数(例えば、フーリエ変換係数)、量子化パラメータ値、動きベクトルなどの情報も抽出し得る。
【0039】
パーサ(520)は、シンボル(521)を作成するために、バッファメモリ(515)から受信したビデオシーケンスに対してエントロピーデコーディング/パース動作を実行しうる。
【0040】
シンボル(521)の再構成は、コーディングされたビデオピクチャまたはその部分のタイプ(インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロックなど)、ならびに他の要因に応じて、複数の異なる処理ユニットまたは機能ユニットを含むことができる。含まれるユニットおよびユニットがどのように含まれるかは、パーサ(520)によってコーディングされたビデオシーケンスから構文解析されたサブグループ制御情報によって制御され得る。パーサ(520)と以下の複数の処理ユニットまたは機能ユニットとの間のそのようなサブグループ制御情報の流れは、簡潔にするために図示されていない。
【0041】
すでに述べられた機能ブロック以外に、ビデオデコーダ(510)は、以下に記載されるように、概念的にいくつかの機能ユニットに細分化することができる。商業的制約の下で動作する実際の実装形態では、これらの機能ユニットの多くは互いに密接に相互作用し、少なくとも部分的に、互いに統合され得る。しかしながら、開示の主題の様々な機能を明確に説明するために、以下の開示においては機能ユニットへの概念的細分を採用する。
【0042】
第1のユニットはスケーラ/逆変換ユニット(551)を含み得る。スケーラ/逆変換ユニット(551)は、量子化変換係数、ならびにどのタイプの逆変換を使用するかを示す情報、ブロックサイズ、量子化係数/パラメータ、量子化スケーリング行列などを含む制御情報を、パーサ(520)から(1つまたは複数の)シンボル(521)として受信し得る。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力することができるサンプル値を含むブロックを出力することができる。
【0043】
場合によっては、スケーラ/逆変換(551)の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用しないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックに関係する場合がある。そのような予測情報を、イントラピクチャ予測ユニット(552)によって提供することができる。場合によっては、イントラピクチャ予測ユニット(552)は、すでに再構成され、現在ピクチャバッファ(558)に格納されている周囲のブロックの情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成してもよい。現在ピクチャバッファ(558)は、例えば、部分的に再構成された現在のピクチャおよび/または完全に再構成された現在のピクチャをバッファする。アグリゲータ(555)は、いくつかの実装形態では、サンプルごとに、イントラ予測ユニット(552)が生成した予測情報を、スケーラ/逆変換ユニット(551)によって提供される出力サンプル情報に追加してもよい。
【0044】
他の場合には、スケーラ/逆変換ユニット(551)の出力サンプルは、インターコード化され、潜在的に動き補償されたブロックに関連する可能性がある。そのような場合、動き補償予測ユニット(553)は、参照ピクチャメモリ(557)にアクセスして、インターピクチャ予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル(521)に従ってフェッチされたサンプルを動き補償した後、これらのサンプルを、出力サンプル情報を生成するために、アグリゲータ(555)によってスケーラ/逆変換ユニット(551)の出力に追加することができる(ユニット551の出力は、残差サンプルまたは残差信号と呼ばれ得る)。動き補償予測ユニット(553)がそこから予測サンプルをフェッチする参照ピクチャメモリ(557)内のアドレスは、例えば、X成分、Y成分(シフト)、および参照ピクチャ成分(時間)を有することができるシンボル(521)の形で動き補償予測ユニット(553)が利用可能な、動きベクトルによって制御され得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ(557)からフェッチされたサンプル値の補間も含んでいてもよく、動きベクトル予測機構などと関連付けられてもよい。
【0045】
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)において様々なループフィルタリング技法を受けることができる。ビデオ圧縮技術は、コーディングされたビデオシーケンス(コーディングされたビデオビットストリームとも言う)に含まれるパラメータによって制御され、パーサ(520)からのシンボル(521)としてループフィルタユニット(556)が利用可能なインループフィルタ技術を含むことができるが、コーディングされたピクチャまたはコーディングされたビデオシーケンスの(復号順序で)前の部分の復号中に取得されたメタ情報に応答することもでき、以前に再構成され、ループフィルタリングされたサンプル値に応答することもできる。以下でさらに詳細に説明するように、いくつかのタイプのループフィルタが、様々な順序でループフィルタユニット556の一部として含まれ得る。
【0046】
ループフィルタユニット(556)の出力は、レンダリングデバイス(512)に出力することができると共に、将来のインターピクチャ予測で使用するために参照ピクチャメモリ(557)に格納することもできるサンプルストリームであり得る。
【0047】
特定のコーディングされたピクチャは、完全に再構成されると、将来のインターピクチャ予測のための参照ピクチャとして使用され得る。例えば、現在ピクチャに対応するコード化ピクチャが完全に復元され、コード化ピクチャが参照ピクチャとして(例えば、パーサ(520)によって)識別されると、現在ピクチャバッファ(558)は、参照ピクチャメモリ(557)の一部になることができ、未使用の現在ピクチャバッファは、次のコード化ピクチャの復元を開始する前に再割り当てすることができる。
【0048】
ビデオデコーダ(510)は、例えばITU-T Rec.H.265などの規格で採用された所定のビデオ圧縮技術に従って復号動作を実行し得る。コーディングされたビデオシーケンスは、コーディングされたビデオシーケンスがビデオ圧縮技術または規格の構文と、ビデオ圧縮技術または規格に文書化されたプロファイルの両方に忠実であるという意味において、使用されているビデオ圧縮技術または規格によって指定された構文に準拠し得る。具体的には、プロファイルは、そのプロファイルの下でのみ使用に供されるツールとして、ビデオ圧縮技術または規格で利用可能な全てのツールの中から特定のツールを選択することができる。規格に準拠するために、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって定義される範囲内にあり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば、毎秒のメガサンプル数で測定される)、最大参照ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想参照デコーダ(HRD:Hypothetical Reference Decoder)仕様およびコーディングされたビデオシーケンスでシグナリングされたHRDバッファ管理のためのメタデータによってさらに制限され得る。
【0049】
いくつかの例示的実施形態では、受信機(531)は、符号化されたビデオと共に追加の(冗長な)データを受信し得る。追加のデータは、(1つまたは複数の)コーディングされたビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切に復号するために、かつ/または元のビデオデータをより正確に復元するために、ビデオデコーダ(510)によって使用されてもよい。追加のデータは、例えば、時間層、空間層、または信号対雑音比(SNR)強化層、冗長スライス、冗長ピクチャ、前方誤り訂正コードなどの形式であり得る。
【0050】
図6は、本開示の一例示的実施形態によるビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は、電子デバイス(620)に含まれ得る。電子デバイス(620)は、送信機(640)(例えば、送信回路)をさらに含み得る。ビデオエンコーダ(603)を、
図4の例のビデオエンコーダ(403)の代わりに使用することができる。
【0051】
ビデオエンコーダ(603)は、ビデオエンコーダ(603)によってコーディングされるべき(1つまたは複数の)ビデオ画像を取り込み得るビデオソース(601)(
図6の例では電子デバイス(620)の一部ではない)からビデオサンプルを受信し得る。別の例では、ビデオソース(601)は電子デバイス(620)の一部分として実装され得る。
【0052】
ビデオソース(601)は、ビデオエンコーダ(603)によってコーディングされるべきソースビデオシーケンスを、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、...)、任意の色空間(例えば、BT.601 Y CrCb、RGB、XYZ...)、および任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)のものとすることができるデジタルビデオサンプルストリームの形で提供し得る。メディアサービングシステムでは、ビデオソース(601)は、以前に準備されたビデオを格納することができる記憶デバイスであり得る。ビデオ会議システムでは、ビデオソース(601)は、ローカル画像情報をビデオシーケンスとして取り込むカメラであり得る。ビデオデータは、順を追って見たときに動きを与える複数の個別のピクチャまたは画像として提供され得る。ピクチャ自体は、画素の空間配列として編成されてもよく、各画素は、使用されているサンプリング構造、色空間などに応じて、1つまたは複数のサンプルを含むことができる。当業者であれば、画素とサンプルとの関係を容易に理解することができる。以下の説明はサンプルに焦点を当てる。
【0053】
いくつかの例示的実施形態によれば、ビデオエンコーダ(603)は、リアルタイムで、または用途によって必要とされる他の任意の時間制約の下で、ソースビデオシーケンスのピクチャをコーディングされたビデオシーケンス(643)にコーディングおよび圧縮し得る。適切なコーディング速度を強制することが、コントローラ(650)の1つの機能を構成する。いくつかの実施形態では、コントローラ(650)は、以下で説明されるように、他の機能ユニットに機能的に結合され、他の機能ユニットを制御し得る。簡潔にするために、結合は図示されていない。コントローラ(650)によって設定されるパラメータには、レート制御関連のパラメータ(ピクチャスキップ、量子化器、レート歪み最適化手法のラムダ値など)、ピクチャサイズ、Group of Pictures(GOP)レイアウト、最大動きベクトル探索範囲などが含まれ得る。コントローラ(650)は、特定のシステム設計のために最適化されたビデオエンコーダ(603)に関連する他の適切な機能を有するように構成することができる。
【0054】
いくつかの例示的実施形態では、ビデオエンコーダ(603)は、コーディングループで動作するように構成され得る。過度に簡略化された説明として、一例では、コーディングループは、ソースコーダ(630)(例えば、コーディングされるべき入力ピクチャと、(1つまたは複数の)参照ピクチャとに基づいて、シンボルストリームなどのシンボルを作成する役割を担う)と、ビデオエンコーダ(603)に組み込まれた(ローカル)デコーダ(633)とを含むことができる。デコーダ(633)は、組み込まれたデコーダ633がエントロピーコーディングなしでソースコーダ630によってコーディングされたビデオストリームを処理するとしても、シンボルを再構成して、(リモート)デコーダが作成することになるのと同様の方法でサンプルデータを作成する(開示の主題で考慮されるビデオ圧縮技術では、シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮が可逆であり得るため)。再構成されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(634)に入力される。シンボルストリームの復号は、デコーダの場所(ローカルまたはリモート)に関係なくビット正確な結果につながるので、参照ピクチャメモリ(634)内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分は、復号中に予測を使用するときにデコーダが「見る」ことになるのとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性(および、例えばチャネル誤差が原因で同期性を維持することができない場合には、結果として生じるドリフト)のこの基本原理はコーディング品質を向上させるために使用される。
【0055】
「ローカル」デコーダ(633)の動作は、
図5と共に上記で詳細にすでに記載されている、ビデオデコーダ(510)などの「リモート」デコーダの動作と同じであり得る。
図5も簡単に参照すると、しかしながら、シンボルが利用可能であり、エントロピーコーダ(645)およびパーサ(520)によるコーディングされたビデオシーケンスへのシンボルの符号化/復号が可逆であり得るため、バッファメモリ(515)およびパーサ(520)を含むビデオデコーダ(510)のエントロピー復号部分は、エンコーダ内のローカルデコーダ(633)においては完全に実装されない場合がある。
【0056】
この時点で言えることは、デコーダ内にのみ存在し得る構文解析/エントロピー復号を除く任意のデコーダ技術もまた必然的に、対応するエンコーダにおいて、実質的に同一の機能形態で存在する必要があり得るということである。このため、開示の主題はデコーダ動作に焦点を当てる場合があり、この動作はエンコーダの復号部分と同様である。よって、エンコーダ技術の説明は、包括的に説明されるデコーダ技術の逆であるので、省略することができる。特定の領域または態様においてのみ、エンコーダのより詳細な説明を以下に示す。
【0057】
動作中、いくつかの例示的実装形態では、ソースコーダ(630)は、「参照ピクチャ」として指定されたビデオシーケンスからの1つまたは複数の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする、動き補償予測コーディングを実行する場合がある。このようにして、コーディングエンジン(632)は、入力ピクチャの画素ブロックと、入力ピクチャへの(1つまたは複数の)予測参照として選択され得る(1つまたは複数の)参照ピクチャの画素ブロックとの間の色チャネルの差分(または残差)をコーディングする。用語「残差(residue)」およびその形容詞形「残差の(residual)」は、互換的に使用され得る。
【0058】
ローカルビデオデコーダ(633)は、ソースコーダ(630)によって作成されたシンボルに基づいて、参照ピクチャとして指定されうるピクチャのコーディングされたビデオデータを復号しうる。コーディングエンジン(632)の動作は、有利なことに、非可逆プロセスであってもよい。コーディングされたビデオデータが(
図6には示されていない)ビデオデコーダで復号され得るとき、再構成されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ(633)は、参照ピクチャに対してビデオデコーダによって実行され得る復号プロセスを複製し、再構成された参照ピクチャを参照ピクチャキャッシュ(634)に格納させ得る。このようにして、ビデオエンコーダ(603)は、遠端(リモート)ビデオデコーダによって取得される再構成された参照ピクチャと共通の内容を有する再構成された参照ピクチャのコピーをローカルに格納し得る(伝送誤差なしで)。
【0059】
予測器(635)は、コーディングエンジン(632)のための予測探索を実行しうる。すなわち、コード化される新しいピクチャの場合、予測器(635)は、新しいピクチャのための適切な予測参照として役立つことができる、(候補参照ピクセルブロックとしての)サンプルデータまたは参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて、参照ピクチャメモリ(634)を検索することができる。予測器(635)は、適切な予測参照を見つけるために、ピクセルブロックごとにサンプルブロックに対して動作することができる。場合によっては、予測器(635)によって取得された探索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ(634)に格納された複数の参照ピクチャから引き出された予測参照を有しうる。
【0060】
コントローラ(650)は、例えば、ビデオデータを符号化するために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ(630)のコーディング動作を管理しうる。
【0061】
全ての前述の機能ユニットの出力は、エントロピーコーダ(645)内でエントロピーコーディングを受けることができる。エントロピーコーダ(645)は、ハフマンコーディング、可変長コーディング、算術コーディングなどといった技術に従ったシンボルの可逆圧縮により、様々な機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。
【0062】
送信機(640)は、エントロピーコーダ(645)によって作成された(1つまたは複数の)コーディングされたビデオシーケンスを、符号化されたビデオデータを格納することになる記憶装置へのハードウェア/ソフトウェアリンクであり得る、通信チャネル(660)を介した送信に備えてバッファすることができる。送信機(640)は、ビデオコーダ(603)からのコーディングされたビデオデータを、送信されるべき他のデータ、例えば、コーディングされたオーディオデータおよび/または補助データストリーム(ソースは図示せず)とマージしうる。
【0063】
コントローラ(650)は、ビデオエンコーダ(603)の動作を管理しうる。コーディング中に、コントローラ(650)は、各コード化ピクチャに特定のコード化ピクチャタイプを割り当てることができ、それは、それぞれのピクチャに適用され得るコーディング技法に影響を及ぼす場合がある。例えば、ピクチャは多くの場合、以下のピクチャタイプのうちの1つとして割り当てられうる。
【0064】
イントラピクチャ(Iピクチャ)は、シーケンス内の任意の他のピクチャを予測ソースとして使用せずに、コーディングおよびデコーディングされ得るものであり得る。一部のビデオコーデックは、例えば、独立したデコーダリフレッシュ(「IDR」)ピクチャを含む異なるタイプのイントラピクチャを可能にする。当業者であれば、Iピクチャのそれらの変形ならびにそれらそれぞれの用途および特徴を認識している。
【0065】
予測ピクチャ(Pピクチャ)は、最大で1つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するイントラ予測またはインター予測を使用して、コーディングおよび復号されうるピクチャであり得る。
【0066】
双方向予測ピクチャ(Bピクチャ)は、最大で2つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するイントラ予測またはインター予測を使用して、コーディングおよび復号されうるピクチャであり得る。同様に、複数予測ピクチャは、単一のブロックの再構成のために3つ以上の参照ピクチャおよび関連するメタデータを使用することができる。
【0067】
ソースピクチャは、一般に、複数のサンプルコーディングブロック(例えば、各々4×4、8×8、4×8、または16×16サンプルのブロック)に空間的に細分され、ブロックごとにコーディングされ得る。ブロックは、ブロックそれぞれのピクチャに適用されたコーディング割り当てによって決定されるように他の(すでにコーディングされた)ブロックを参照して予測的にコーディングされ得る。例えば、Iピクチャのブロックは、非予測的にコーディングされ得るか、または、同じピクチャのすでにコーディングされたブロックを参照して、予測的にコーディングされ得る(空間予測またはイントラ予測)。Pピクチャのピクセルブロックは、1つの以前にコーディングされた参照ピクチャを参照して、空間予測を介して、または時間予測を介して、予測的にコーディングされてもよい。Bピクチャのブロックは、1つまたは2つの以前にコーディングされた参照ピクチャを参照して、空間予測によって、または時間予測によって予測的にコーディングされ得る。ソースピクチャまたは中間処理されたピクチャは、他の目的で他のタイプのブロックに細分されてもよい。コーディングブロックおよびその他のタイプのブロックの分割は、以下でさらに詳細に説明するように、同じ方法に従う場合もそうでない場合もある。
【0068】
ビデオエンコーダ(603)は、ITU-T Rec.H.265などの所定のビデオコーディング技術または規格に従ってコーディング動作を実行することができる。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間および空間の冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行することができる。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術または規格によって指定された構文に準拠し得る。
【0069】
いくつかの例示的実施形態では、送信機(640)は、符号化されたビデオと共に追加のデータを送信し得る。ソースコーダ(630)は、そのようなデータをコーディングされたビデオシーケンスの一部として含み得る。追加のデータは、時間/空間/SNR増強層、冗長なピクチャやスライスなどの他の形の冗長データ、SEIメッセージ、VUIパラメータセットフラグメントなどを含み得る。
【0070】
ビデオは、複数のソースピクチャ(ビデオピクチャ)として時系列でキャプチャされ得る。イントラピクチャ予測(しばしばイントラ予測と略される)は、所与のピクチャにおける空間相関を利用し、インターピクチャ予測は、ピクチャ間の時間またはその他の相関を利用する。例えば、現在のピクチャと呼ばれる、符号化/復号中の特定のピクチャがブロックに分割され得る。現在のピクチャ内のブロックは、ビデオ内の以前にコーディングされたまだバッファされている参照ピクチャ内の参照ブロックに類似している場合、動きベクトルと呼ばれるベクトルによってコーディングされ得る。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されている場合、参照ピクチャを識別する第3の次元を有することができる。
【0071】
いくつかの例示的実施形態では、インターピクチャ予測に双予測技術を使用することができる。そのような双予測技術によれば、第1の参照ピクチャおよび第2の参照ピクチャなどの2つの参照ピクチャが使用され、これらは両方ともビデオ内の現在のピクチャを復号順序で進める(ただし、表示順序では、それぞれ過去または未来にあり得る)。現在のピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指し示す第1の動きベクトルと、第2の参照ピクチャ内の第2の参照ブロックを指し示す第2の動きベクトルとによってコーディングされ得る。ブロックを、第1の参照ブロックと第2の参照ブロックの組み合わせによって協調して予測することができる。
【0072】
さらに、マージモード技術が、インターピクチャ予測においてコーディング効率を改善するために使用されてもよい。
【0073】
本開示のいくつかの例示的実施形態によれば、インターピクチャ予測およびイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット(CTU)に分割され、ピクチャ内のCTUは、64×64画素、32×32画素、または16×16画素などの同じサイズを有し得る。一般に、CTUは、3つの並列のコーディングツリーブロック(CTB)、すなわち、1つのルマCTBおよび2つのクロマCTBを含み得る。各CTUを、1つまたは複数のコーディングユニット(CU)に再帰的に四分木分割することができる。例えば、64×64画素のCTUを、64×64画素の1つのCU、または32×32画素の4つのCUに分割することができる。32×32ブロックのうちの1つまたは複数の各々は、16×16画素の4つのCUにさらに分割され得る。いくつかの例示的実施形態では、各CUは、インター予測タイプやイントラ予測タイプなどの様々な予測タイプの中からそのCUの予測タイプを決定するために符号化中に分析され得る。CUは、時間的および/または空間的予測可能性に応じて、1つまたは複数の予測ユニット(PU)に分割され得る。一般に、各PUは、1つのルマ予測ブロック(PB)と、2つのクロマPBとを含む。一実施形態では、コーディング(符号化/復号)における予測動作は、予測ブロック単位で実行される。CUのPU(または異なる色チャネルのPB)への分割は、様々な空間パターンで実行され得る。ルマPBまたはクロマPBは、例えば、8×8画素、16×16画素、8×16画素、16×8画素などといった、サンプルの値(例えば、ルマ値)の行列を含み得る。
【0074】
図7は、本開示の別の例示的実施形態によるビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオピクチャのシーケンスにおける現在のビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受け取り、処理ブロックを、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャに符号化するように構成される。例示的なビデオエンコーダ(703)は、
図4の例のビデオエンコーダ(403)の代わりに使用され得る。
【0075】
例えば、ビデオエンコーダ(703)は、8×8サンプルの予測ブロックなどの処理ブロックのサンプル値の行列を受け取る。次いでビデオエンコーダ(703)は、例えばレート歪み最適化(RDO)を使用して、処理ブロックがそれを使用して最良にコーディングされるのは、イントラモードか、インターモードか、それとも双予測モードかを決定する。処理ブロックがイントラモードでコーディングされると決定された場合、ビデオエンコーダ(703)は、イントラ予測技術を使用して処理ブロックをコーディングされたピクチャに符号化し、処理ブロックがインターモードまたは双予測モードでコーディングされると決定された場合、ビデオエンコーダ(703)は、それぞれインター予測技術または双予測技術を使用して、処理ブロックをコーディングされたピクチャに符号化し得る。いくつかの例示的実施形態では、インターピクチャ予測のサブモードとして、動きベクトルが予測器の外側のコーディングされた動きベクトル成分の恩恵を受けずに1つまたは複数の動きベクトル予測器から導出されるマージモードが使用され得る。いくつかの他の例示的実施形態では、対象ブロックに適用可能な動きベクトル成分が存在し得る。したがって、ビデオエンコーダ(703)は、処理ブロックの予測モードを決定するために、モード決定モジュールなどの、
図7に明示的に示されていない構成要素を含み得る。
【0076】
図7の例では、ビデオエンコーダ(703)は、
図7の例示的な構成に示されるように互いに結合されたインターエンコーダ(730)、イントラエンコーダ(722)、残差計算器(723)、スイッチ(726)、残差エンコーダ(724)、汎用コントローラ(721)、およびエントロピーエンコーダ(725)を含む。
【0077】
インターエンコーダ(730)は、現在のブロック(例えば、処理ブロック)のサンプルを受け取り、そのブロックを参照ピクチャ内の1つまたは複数の参照ブロック(例えば、表示順序で前のピクチャ内および後のピクチャ内のブロック)と比較し、インター予測情報(例えば、インター符号化技術による冗長情報、動きベクトル、マージモード情報の記述)を生成し、任意の適切な技術を使用してインター予測情報に基づいてインター予測結果(例えば、予測されたブロック)を計算するように構成される。いくつかの例では、参照ピクチャは、(以下でさらに詳細に説明するように、
図7の残差デコーダ728として示されている)
図6の例示的なエンコーダ620に組み込まれた復号ユニット633を使用して符号化されたビデオ情報に基づいて復号された復号参照ピクチャである。
【0078】
イントラエンコーダ(722)は、現在のブロック(例えば、処理ブロック)のサンプルを受け取り、ブロックを同じピクチャ内のすでにコーディングされたブロックと比較し、変換後の量子化係数を生成し、場合によってはイントラ予測情報(例えば、1つまたは複数のイントラ符号化技術によるイントラ予測方向情報)も生成するように構成される。イントラエンコーダ(722)は、イントラ予測情報と、同じピクチャ内の参照ブロックとに基づいて、イントラ予測結果(例えば、予測されたブロック)を計算し得る。
【0079】
汎用コントローラ(721)は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ(703)の他の構成要素を制御するように構成され得る。一例では、汎用コントローラ(721)は、ブロックの予測モードを決定し、予測モードに基づいてスイッチ(726)に制御信号を提供する。例えば、予測モードがイントラモードである場合、汎用コントローラ(721)は、スイッチ(726)を制御して、残差計算器(723)が使用するためのイントラモード結果を選択させ、エントロピーエンコーダ(725)を制御して、イントラ予測情報を選択させてそのイントラ予測情報をビットストリームに含めさせ、ブロックの叙述モードがインターモードである場合、汎用コントローラ(721)は、スイッチ(726)を制御して、残差計算器(723)が使用するためのインター予測結果を選択させ、エントロピーエンコーダ(725)を制御して、インター予測情報を選択させてそのインター予測情報をビットストリームに含めさせる。
【0080】
残差計算器(723)は、受け取ったブロックと、イントラエンコーダ(722)またはインターエンコーダ(730)から選択されたブロックについての予測結果との差分(残差データ)を計算するように構成され得る。残差エンコーダ(724)は、残差データを符号化して変換係数を生成するように構成され得る。例えば、残差エンコーダ(724)は、残差データを空間領域から周波数領域に変換して変換係数を生成するように構成され得る。次いで、変換係数は、量子化変換係数を取得するために量子化処理を受ける。様々な例示的実施形態において、ビデオエンコーダ(703)は残差デコーダ(728)も含む。残差デコーダ(728)は逆変換を実行し、復号された残差データを生成するように構成される。復号された残差データを、イントラエンコーダ(722)およびインターエンコーダ(730)によって適切に使用することができる。例えば、インターエンコーダ(730)は、復号された残差データとインター予測情報とに基づいて復号されたブロックを生成することができ、イントラエンコーダ(722)は、復号された残差データとイントラ予測情報とに基づいて復号されたブロックを生成することができる。復号されたブロックは、復号されたピクチャを生成するために適切に処理され、復号されたピクチャは、メモリ回路(図示せず)にバッファされ、参照ピクチャとして使用されることができる。
【0081】
エントロピーエンコーダ(725)は、ビットストリームを符号化されたブロックを含むようにフォーマットし、エントロピーコーディングを実行するように構成され得る。エントロピーエンコーダ(725)は、ビットストリームに様々な情報を含めるように構成される。例えば、エントロピーエンコーダ(725)は、汎用制御データ、選択された予測情報(例えば、イントラ予測情報やインター予測情報)、残差情報、および他の適切な情報をビットストリームに含めるように構成され得る。インターモードまたは双予測モードのどちらかのマージサブモードでブロックをコーディングするときには、残差情報が存在しない場合がある。
【0082】
図8は、本開示の別の実施形態による例示的なビデオデコーダ(810)の図を示す。ビデオデコーダ(810)は、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャを受け取り、コーディングされたピクチャを復号して再構成されたピクチャを生成するように構成される。一例では、ビデオデコーダ(810)は、
図4の例のビデオデコーダ(410)の代わりに使用され得る。
【0083】
図8の例では、ビデオデコーダ(810)は、
図8の例示的な構成に示されるように、互いに結合されたエントロピーデコーダ(871)、インターデコーダ(880)、残差デコーダ(873)、再構成モジュール(874)、およびイントラデコーダ(872)を含む。
【0084】
エントロピーデコーダ(871)は、コード化ピクチャから、コード化ピクチャが構成される構文要素を表す特定のシンボルを復元するように構成することができる。そのようなシンボルは、例えば、ブロックがコーディングされているモード(例えば、イントラモード、インターモード、双予測モード、マージサブモードまたは別のサブモード)、イントラデコーダ(872)またはインターデコーダ(880)によって予測に使用される特定のサンプルまたはメタデータを識別することができる予測情報(例えば、イントラ予測情報やインター予測情報)、例えば量子化変換係数の形の残差情報などを含むことができる。一例では、予測モードがインターモードまたは双予測モードである場合、インター予測情報がインターデコーダ(880)に提供され、予測タイプがイントラ予測タイプである場合、イントラ予測情報がイントラデコーダ(872)に提供される。残差情報は、逆量子化を受けることができ、残差デコーダ(873)に提供される。
【0085】
インターデコーダ(880)は、インター予測情報を受け取り、インター予測情報に基づいてインター予測結果を生成するように構成され得る。
【0086】
イントラデコーダ(872)は、イントラ予測情報を受け取り、イントラ予測情報に基づいて予測結果を生成するように構成され得る。
【0087】
残差デコーダ(873)は逆量子化を実行して逆量子化変換係数を抽出し、逆量子化変換係数を処理して残差を周波数領域から空間領域に変換するように構成され得る。残差デコーダ(873)はまた(量子化パラメータ(QP)を含めるために)特定の制御情報を利用する場合もあり、その情報はエントロピーデコーダ(871)によって提供され得る(これは少量の制御情報のみであり得るためデータパスは図示しない)。
【0088】
再構成モジュール(874)は、空間領域において、残差デコーダ(873)による出力としての残差と、(場合によって、インター予測モジュールまたはイントラ予測モジュールによる出力としての)予測結果とを組み合わせて、再構成されたビデオの一部としての再構成されたピクチャの一部を形成する再構成されたブロックを形成するように構成され得る。視覚品質を改善するために、非ブロック化動作などの他の適切な動作が実行されてもよいことに留意されたい。
【0089】
ビデオエンコーダ(403)、(603)、および(703)、ならびにビデオデコーダ(410)、(510)、および(810)は、任意の適切な技法を使用して実装することができることに留意されたい。いくつかの例示的実施形態では、ビデオエンコーダ(403)、(603)、および(703)、ならびにビデオデコーダ(410)、(510)、および(810)を、1つまたは複数の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ(403)、(603)、および(603)、ならびにビデオデコーダ(410)、(510)、および(810)は、ソフトウェア命令を実行する1つまたは複数のプロセッサを使用して実装することができる。
【0090】
コーディングブロック分割を見ると、いくつかの例示的実装形態では、所定のパターンが適用され得る。
図9に示すように、第1の所定のレベル(例えば、64×64ブロックレベル)から開始して第2の所定のレベル(例えば、4×4レベル)に至る例示的な4ウェイ分割ツリーが用いられ得る。例えば、ベースブロックは、902、904、906および908で示される4つの分割オプションに従うことができ、Rで表されたパーティションは、
図9に示される同じ分割ツリーが最下位レベル(例えば、4×4レベル)まで下位スケールで繰り返され得るという点で、再帰分割が可能である。いくつかの実装形態では、
図9の分割方式に追加の制限が適用され得る。
図9の実装形態では、長方形パーティション(例えば、1:2/2:1の長方形パーティション)は、可能であるが繰り返して用いることはできず、一方、正方形分割は繰り返して用いることができる。必要に応じて、再帰による
図9の後に続く分割により、コーディングブロックの最終セットが生成される。そのような方式が、色チャネルのうちの1つまたは複数に適用され得る。
【0091】
図10は、再帰分割により分割ツリーを形成することを可能にする別の例示的な所定の分割パターンを示す。
図10に示すように、例示的な10ウェイ分割構造またはパターンが事前定義され得る。ルートブロックは、所定のレベルから(例えば、128×128レベルまたは64×64レベルから)開始し得る。
図10の例示的な分割構造は、様々な2:1/1:2および4:1/1:4の長方形パーティションを含む。
図10の2列目の1002、1004、1006、および1008で示される3つのサブパーティションを有するパーティションタイプは、「T型」パーティションと呼ばれ得る。「T型」パーティション1002、1004、1006、および1008は、左T型、上T型、右T型、および下T型と呼ばれてもよい。いくつかの実装形態では、
図10の長方形パーティションのいずれもさらに細分されることができない。ルートノードまたはルートブロックからの分割深度を示すために、コーディングツリー深度がさらに定義され得る。例えば、128×128ブロックのルートノードまたはルートブラックのコーディングツリー深度は0に設定されてもよく、ルートブロックが
図10の後に続いてさらに1回分割された後、コーディングツリー深度は1増加する。いくつかの実装形態では、1010の全て正方形のパーティションのみが、
図10のパターンの後に続く分割ツリーの次のレベルへの再帰分割を可能とし得る。言い換えると、再帰分割は、パターン1002、パターン1004、パターン1006、およびパターン1006の正方形パーティションでは不可能である。必要に応じて、再帰による
図10の後に続く分割により、コーディングブロックの最終セットが生成される。そのような方式が、色チャネルのうちの1つまたは複数に適用され得る。
【0092】
上記の分割手順または他の手順のいずれかに従ってベースブロックを区分または分割した後にやはり、パーティションまたはコーディングブロックの最終セットが取得され得る。これらのパーティションの各々は、様々な分割レベルのうちの1つにあり得る。各パーティションは、コーディングブロック(CB)と呼ばれ得る。上記の様々な例示的な分割実装形態では、結果として得られる各CBは、許容されるサイズおよび分割レベルのいずれかのものであり得る。それらは、そのためのいくつかの基本的なコーディング/復号決定が行われ得、コーディング/復号パラメータが、最適化され、決定され、符号化されたビデオビットストリームにおいてシグナリングされ得るユニットを形成し得るので、コーディングブロックと呼ばれる。最終パーティションにおける最高レベルは、コーディングブロック分割ツリーの深度を表す。コーディングブロックは、ルマコーディングブロックまたはクロマコーディングブロックであり得る。
【0093】
いくつかの他の例示的実装形態では、ベースルマブロックおよびベースクロマブロックを再帰的にコーディングユニットに分割するために四分木構造が使用され得る。そのような分割構造はコーディングツリーユニット(CTU)と呼ばれる場合があり、CTUは、四分木構造を使用して分割をベースCTUの様々なローカル特性に適合させることによってコーディングユニット(CU)に分割される。そのような実装形態では、サイズがピクチャ境界に収まるまでブロックが四分木分割を続けるように、ピクチャ境界で暗黙的な四分木分割が実行され得る。CUという用語は、ルマコーディングブロック(CB)およびクロマコーディングブロック(CB)のユニットを集合的に指すために使用される。
【0094】
いくつかの実装形態では、CBがさらに分割され得る。例えば、CBは、コーディングプロセスおよび復号プロセス中のイントラフレーム予測またはインターフレーム予測を目的として、複数の予測ブロック(PB)にさらに分割され得る。言い換えると、CBは異なるサブパーティションにさらに区分されてもよく、そこで個々の予測決定/構成が行われ得る。並行して、CBは、ビデオデータの変換または逆変換が実行されるレベルを記述する目的で、複数の変換ブロック(TB)にさらに分割され得る。CBのPBおよびTBへの分割方式は、同じである場合もそうでない場合もある。例えば、各分割方式は、例えば、ビデオデータの様々な特性に基づいて独自の手順を使用して実行され得る。PBおよびTBの分割方式は、いくつかの例示的実装形態では独立していてもよい。PBおよびTBの分割方式および境界は、いくつかの他の例示的実装形態では相関していてもよい。いくつかの実装形態では、例えば、TBは、PB分割後に分割されてもよく、特に、各PBは、コーディングブロックの分割の後に続いて決定された後、次いで1つまたは複数のTBにさらに分割されてもよい。例えば、いくつかの実装形態では、PBは、1つ、2つ、4つ、または他の数のTBに分割され得る。
【0095】
いくつかの実装形態では、ベースブロックをコーディングブロックに分割し、さらに予測ブロックおよび/または変換ブロックに分割するために、ルマチャネルおよびクロマチャネルは異なって処理され得る。例えば、いくつかの実装形態では、ルマチャネルに対してはコーディングブロックの予測ブロックおよび/または変換ブロックへの分割が許容され得るが、(1つまたは複数の)クロマチャネルに対してはコーディングブロックの予測ブロックおよび/または変換ブロックへのそのような分割が許容されない場合がある。そのような実装形態では、よって、ルマブロックの変換および/または予測は、コーディングブロックレベルでのみ実行され得る。別の例では、ルマチャネルおよび(1つまたは複数の)クロマチャネルの最小変換ブロックサイズが異なっていてもよく、例えば、ルマチャネルのコーディングブロックは、クロマチャネルよりも小さい変換ブロックおよび/または予測ブロックに分割されることが許容され得る。さらに別の例では、コーディングブロックの変換ブロックおよび/または予測ブロックへの分割の最大深度がルマチャネルとクロマチャネルとの間で異なっていてもよく、例えば、ルマチャネルのコーディングブロックは、(1つまたは複数の)クロマチャネルよりも深い変換ブロックおよび/または予測ブロックに分割されることが許容され得る。具体例として、ルマコーディングブロックは、最大2レベルだけ下がる再帰分割によって表すことができる複数のサイズの変換ブロックに分割されてもよく、正方形、2:1/1:2、4:1/1:4などの変換ブロック形状、および4×4から64×64の変換ブロックサイズが許容され得る。しかしながら、クロマブロックについては、ルマブロックに指定された可能な最大の変換ブロックのみが許容され得る。
【0096】
コーディングブロックをPBに分割するためのいくつかの例示的実装形態では、PB分割の深度、形状、および/または他の特性は、PBがイントラコーディングされるかそれともインターコーディングされるかに依存し得る。
【0097】
コーディングブロック(または予測ブロック)の変換ブロックへの分割は、四分木分割および所定のパターン分割を含むがこれらに限定されない様々な例示的な方式で、再帰的または非再帰的に、コーディングブロックまたは予測ブロックの境界の変換ブロックをさらに考慮して実施され得る。一般に、結果として得られる変換ブロックは、異なる分割レベルにあってもよく、同じサイズでない場合もあり、形状が正方形でなくてもよい(例えば、それらのブロックは、いくつかの許容されるサイズおよびアスペクト比を有する長方形とすることができる)。
【0098】
いくつかの実装形態では、コーディング分割ツリー方式または構造が使用され得る。ルマチャネルとクロマチャネルとに使用されるコーディング分割ツリー方式は、同じでなくてもよい場合がある。言い換えると、ルマチャネルとクロマチャネルとは、別個のコーディングツリー構造を有し得る。さらに、ルマチャネルとクロマチャネルとが同じコーディング分割ツリー構造を使用するか、それとも異なるコーディング分割ツリー構造か、および使用されるべき実際のコーディング分割ツリー構造は、コーディングされているスライスがPスライスか、Bスライスか、それともIスライスかに依存し得る。例えば、Iスライスの場合、クロマチャネルとルマチャネルとは、別個のコーディング分割ツリー構造またはコーディング分割ツリー構造モードを有し得るが、PスライスまたはBスライスの場合、ルマチャネルとクロマチャネルとは、同じコーディング分割ツリー方式を共有し得る。別個のコーディング分割ツリー構造またはモードが適用される場合、ルマチャネルは、あるコーディング分割ツリー構造によってCBに分割され得、クロマチャネルは、別のコーディング分割ツリー構造によってクロマCBに分割され得る。
【0099】
コーディングブロックおよび変換ブロックの分割の具体的な例示的実装形態を以下で説明する。そのような一例示的実装形態では、ベースコーディングブロックが、上述した再帰的四分木分割を使用してコーディングブロックに分割され得る。各レベルで、特定のパーティションのさらなる四分木分割を続行すべきかどうかが、ローカルビデオデータ特性によって決定され得る。結果として得られるCBは、様々なサイズの様々な四分木分割レベルにあり得る。ピクチャエリアをインターピクチャ(時間的)予測を使用してコーディングするか、それともイントラピクチャ(空間的)予測を使用してコーディングするかの判断は、CBレベル(または、3色チャネルの場合にはCUレベル)で行われ得る。各CBは、PB分割タイプに従って、1つ、2つ、4つ、または他の数のPBにさらに分割され得る。1つのPB内で、同じ予測プロセスが適用されてもよく、関連情報はPBベースでデコーダに送られる。PB分割タイプに基づく予測プロセスを適用することによって残差ブロックを取得した後、CBを、CBのコーディングツリーと同様の別の四分木構造に従ってTBに分割することができる。この特定の実装形態では、CBまたはTBは、正方形状に限定されなくてもよい。さらにこの特定の例では、PBは、インター予測では正方形または長方形の形状であってもよく、イントラ予測では正方形のみであってもよい。コーディングブロックは、例えば4つの正方形形状のTBにさらに分割され得る。各TBは、(四分木分割を使用して)再帰的に、残差四分木(Residual Quad-Tree(RQT))と呼ばれるよりも小さいTBにさらに分割され得る。
【0100】
ベースコーディングブロックをCBおよび他のPBおよびまたはTBに分割するための別の具体例を以下で説明する。例えば、
図10に示されるような複数のパーティションユニットタイプ使用するのではなく、二分割および三分割のセグメント化構造を使用するネストされたマルチタイプツリーを有する四分木が使用されてもよい。CB、PB、およびTBの概念の分離(すなわち、CBのPBおよび/またはTBへの分割、ならびにPBのTBへの分割)は、CBがさらなる分割を必要とし得る、最大変換長には大きすぎるサイズを有するCBに必要な場合を除いて、断念されてもよい。この例示的な分割方式は、予測と変換の両方をさらなる分割なしにCBレベルで実行できるように、CB分割形状のより高い柔軟性をサポートするように設計され得る。このようなコーディングツリー構造では、CBは正方形または長方形のどちらかの形状を有し得る。具体的には、コーディングツリーブロック(CTB)が、まず四分木構造によって分割され得る。次いで、四分木のリーフノードは、マルチタイプツリー構造によってさらに分割され得る。
図11にマルチタイプツリー構造の一例を示す。具体的には、
図11の例示的なマルチタイプツリー構造は、垂直二分割(SPLIT_BT_VER)(1102)、水平二分割(SPLIT_BT_HOR)(1104)、垂直三分割(SPLIT_TT_VER)(1106)、および水平三分割(SPLIT_TT_HOR)(1108)の4つの分割タイプを含む。CBはその場合、マルチタイプツリーのリーフに対応する。この例示的実装形態では、CBが最大変換長に対して大きすぎない限り、このセグメント化は、さらなる分割なしで予測と変換両方の処理に使用される。これは、ほとんどの場合、CB、PB、およびTBが、ネストされたマルチタイプツリーコーディングブロック構造を有する四分木において同じブロックサイズを有することを意味する。例外が発生するのは、サポートされる最大変換長がCBの色成分の幅または高さよりも小さい場合である。
【0101】
1つのCTBのブロック分割のネストされたマルチタイプツリーコーディングブロック構造を有する四分木の一例が
図12に示されている。より詳細には、
図12は、CTB1200が4つの正方形パーティション1202、1204、1206、および1208に四分木分割されることを示している。分割のために
図11のマルチタイプツリー構造をさらに使用する決定は、四分木分割されたパーティションの各々について行われる。
図12の例では、パーティション1204はこれ以上分割されない。パーティション1202およびパーティション1208は、別の四分木分割を各々採用する。パーティション1202では、第2レベルの四分木分割された左上パーティション、右上パーティション、左下パーティション、および右下パーティションは、四分木、
図11の1104、非分割、および
図11の1108の第3レベルの分割をそれぞれ採用する。パーティション1208は別の四分木分割を採用し、第2レベルの四分木分割された左上パーティション、右上パーティション、左下パーティション、および右下パーティションは、
図11の1106、非分割、非分割、および
図11の1104の第3レベルの分割をそれぞれ採用する。1208の第3レベルの左上パーティションのサブパーティションのうちの2つは、1104および1108に従ってさらに分割される。パーティション1206は、2つのパーティションへの
図11の1102による第2レベルの分割パターンを採用し、2つのパーティションは
図11の1108および1102に従って第3レベルでさらに分割される。第4レベルの分割が、
図11の1104に従ってそれらのうちの1つにさらに適用される。
【0102】
上記の具体例では、最大ルマ変換サイズは64×64であってもよく、サポートされる最大クロマ変換サイズを、ルマとは異なる、例えば32×32とすることもできる。ルマコーディングブロックまたはクロマコーディングブロックの幅または高さが最大変換幅または最大変換高さよりも大きい場合、ルマコーディングブロックまたはクロマコーディングブロックは、水平方向および/または垂直方向の変換サイズ制限を満たすように水平方向および/または垂直方向に自動的に分割され得る。
【0103】
上記のベースコーディングブロックをCBに分割するための具体例では、コーディングツリー方式は、ルマとクロマとが別個のブロックツリー構造を有する能力をサポートし得る。例えば、PスライスおよびBスライスの場合、1つのCTU内のルマCTBとクロマCTBは同じコーディングツリー構造を共有し得る。Iスライスの場合、例えば、ルマとクロマとは別個のコーディングブロックツリー構造を有し得る。別個のブロックツリーモードが適用される場合、ルマCTBは1つのコーディングツリー構造によってルマCBに分割されてもよく、クロマCTBは別のコーディングツリー構造によってクロマCBに分割される。これは、Iスライス内のCUはルマ成分のコーディングブロックまたは2つのクロマ成分のコーディングブロックからなり得、PスライスまたはBスライス内のCUは常に、ビデオがモノクロでない限り3つの色成分全てのコーディングブロックからなることを意味する。
【0104】
コーディングブロックまたは予測ブロックを変換ブロックに分割するための例示的実装形態、および変換ブロックのコーディング順序を、以下でさらに詳細に説明する。いくつかの例示的実装形態では、変換分割は、例えば4×4から64×64までの範囲の変換ブロックサイズを有する、複数の形状、例えば1:1(正方形)、1:2/2:1、および1:4/4:1の変換ブロックをサポートし得る。いくつかの実装形態では、コーディングブロックが64×64以下の場合、変換ブロック分割は、クロマブロックについては、変換ブロックサイズがコーディングブロックサイズと同一であるように、ルマ成分にのみ適用され得る。そうではなく、コーディングブロックの幅または高さが64よりも大きい場合には、ルマコーディングブロックとクロマコーディングブロックの両方が、それぞれ、min(W,64)×min(H,64)およびmin(W,32)×min(H,32)の変換ブロックの倍数に暗黙的に分割され得る。
【0105】
いくつかの例示的実装形態では、イントラコーディングされたブロックとインターコーディングされたブロックの両方について、コーディングブロックが、所定の数のレベル(例えば、2レベル)までの分割深度を有する複数の変換ブロックにさらに分割され得る。変換ブロックの分割深度およびサイズは、関連し得る。現在の深度の変換サイズから次の深度の変換サイズへの例示的なマッピングを以下で表1に示す。
【表1】
【0106】
表1の例示的なマッピングによれば、1:1正方形ブロックの場合、次のレベルの変換分割は、4つの1:1正方形サブ変換ブロックを作成し得る。変換分割は、例えば、4×4で停止し得る。したがって、4×4の現在の深度の変換サイズは、次の深度の4×4の同じサイズに対応する。表1の例では、1:2/2:1の非正方形ブロックの場合、次のレベルの変換分割は2つの1:1の正方形サブ変換ブロックを作成し、1:4/4:1の非正方形ブロックの場合、次のレベルの変換分割は2つの1:2/2:1サブ変換ブロックを作成する。
【0107】
いくつかの例示的実装形態では、イントラコーディングされたブロックのルマ成分に対して、さらなる制限が適用され得る。例えば、変換分割のレベルごとに、全てのサブ変換ブロックは、等しいサイズを有するように制限され得る。例えば、32×16のコーディングブロックの場合、レベル1の変換分割は、2つの16×16のサブ変換ブロックを作成し、レベル2の変換分割は、8つの8×8のサブ変換ブロックを作成する。言い換えると、変換ユニットを等しいサイズに保つために、第2レベルの分割が全ての第1レベルのサブブロックに適用されなければならない。表1に従ったイントラコーディングされた正方形ブロックのための変換ブロック分割の一例を、矢印で示されたコーディング順序と共に
図13に示す。具体的には、1302は正方形コーディングブロックを示している。表1による4つの等しいサイズの変換ブロックへの第1レベルの分割が、矢印で示されたコーディング順序と共に1304に示されている。表1による全ての第1レベルの等しいサイズのブロックの16個の等しいサイズの変換ブロックへの第2レベルの分割が、矢印で示されたコーディング順序と共に1306に示されている。
【0108】
いくつかの例示的実装形態では、インターコーディングされたブロックのルマ成分に対して、イントラコーディングに対する上記の制限が適用されない場合がある。例えば、第1レベルの変換分割の後に、サブ変換ブロックのいずれか1つが、もう1つのレベルでさらに独立して分割され得る。よって、結果として得られる変換ブロックは、同じサイズのものである場合もそうでない場合もある。インターコーディングされたブロックのコーディング順序を有する変換ロックへの例示的分割を
図14に示す。
図14の例では、インターコーディングされたブロック1402は、表1に従って2つのレベルで変換ブロックに分割される。第1レベルで、インターコーディングされたブロックは、等しいサイズの4つの変換ブロックに分割される。次いで、4つの変換ブロックのうちの(それらの全てではなく)1つのみが4つのサブ変換ブロックにさらに分割され、1404で示されるように、2つの異なるサイズを有する合計7つの変換ブロックが得られる。これらの7つの変換ブロックの例示的なコーディング順序が、
図14の1404に矢印で示されている。
【0109】
いくつかの例示的実装形態では、(1つまたは複数の)クロマ成分に対して、変換ブロックについての何らかの追加の制限が適用され得る。例えば、(1つまたは複数の)クロマ成分について、変換ブロックサイズは、コーディングブロックサイズと同じ大きさとすることができるが、所定のサイズ、例えば8×8より小さくすることはできない。
【0110】
いくつかの他の例示的実装形態では、幅(W)または高さ(H)が64よりも大きいコーディングブロックについて、ルマコーディングブロックとクロマコーディングブロックの両方が、それぞれ、min(W,64)×min(H,64)およびmin(W,32)×min(H,32)の変換ユニットの倍数に暗黙的に分割され得る。
【0111】
図15は、コーディングブロックまたは予測ブロックを変換ブロックに分割するための別の代替的な例示的方式をさらに示す。
図15に示すように、再帰変換分割を使用する代わりに、コーディングブロックの変換タイプに従って所定の分割タイプのセットがコーディングブロックに適用され得る。
図15に示す特定の例では、6つの例示的な分割タイプのうちの1つが、コーディングブロックを様々な数の変換ブロックに分割するために適用され得る。このような方式が、コーディングブロックまたは予測ブロックのどちらかに適用され得る。
【0112】
より詳細には、
図15の分割方式は、
図15に示すように、任意の所与の変換タイプに対して最大6つの分割タイプを提供する。この方式では、全てのコーディングブロックまたは予測ブロックに、例えばレート歪みコストに基づいて変換タイプが割り当てられ得る。一例では、コーディングブロックまたは予測ブロックに割り当てられる分割タイプは、コーディングブロックまたは予測ブロックの変換分割タイプに基づいて決定され得る。
図15に例示される4つの分割タイプによって示されるように、特定の分割タイプが、変換ブロックの分割サイズおよびパターン(または分割タイプ)に対応し得る。様々な変換タイプと様々な分割タイプとの間の対応関係が、事前定義され得る。例示的な対応関係を、レート歪みコストに基づいてコーディングブロックまたは予測ブロックに割り当てられ得る変換タイプを示す大文字のラベルと共に以下に示す。
【0113】
・PARTITION_NONE:ブロックサイズに等しい変換サイズを割り当てる。
【0114】
・PARTITION_SPLIT:ブロックサイズの1/2の幅、ブロックサイズの1/2の高さの変換サイズを割り当てる。
【0115】
・PARTITION_HORZ:ブロックサイズと同じ幅、ブロックサイズの1/2の高さの変換サイズを割り当てる。
【0116】
・PARTITION_VERT:ブロックサイズの1/2の幅、ブロックサイズと同じ高さの変換サイズを割り当てる。
【0117】
・PARTITION_HORZ4:ブロックサイズと同じ幅、ブロックサイズの1/4の高さの変換サイズを割り当てる。
【0118】
・PARTITION_VERT4:ブロックサイズの1/4の幅、ブロックサイズと同じ高さの変換サイズを割り当てる。
【0119】
上記の例では、
図15に示される分割タイプは全て、分割された変換ブロックについての均一な変換サイズを含む。これは限定ではなく単なる例である。いくつかの他の実装形態では、混合変換ブロックサイズが、特定の分割タイプ(またはパターン)における分割された変換ブロックについて使用され得る。
【0120】
ブロック/ユニットをコーディングするための特定のタイプのシグナリングのいくつかの例示的実装形態を参照すると、各イントラおよびインターコーディングブロック/ユニットについて、フラグ、すなわちskip_txfmフラグは、以下の表2の例示的な構文に示され、ビットストリームからこれらのフラグを取り出すためのread_skip()関数によって表されるように、コーディングされたビットストリーム内でシグナリングされ得る。このフラグは、変換係数が現在のコーディングユニットにおいて全てゼロであるかどうかを示し得る。いくつかの例示的実装形態では、このフラグが例えば値1でシグナリングされる場合、別の変換係数関連構文、例えばEOB(End of Block)は、コーディングユニット内のコーディングブロックのいずれに対してもシグナリングされる必要はなく、ゼロ変換係数ブロックに対して事前定義され、それに関連付けられた値またはデータ構造として導出されることができる。インターコーディングブロックの場合、表2の例によって示されるように、このフラグは、様々な理由でコーディングユニットがスキップされ得ることを示すskip_modeフラグの後にシグナリングされ得る。skip_modeが真の場合、コーディングユニットはスキップされるべきであり、skip_txfmフラグをシグナリングする必要はなく、skip_txfmフラグは1と推測される。そうではなく、skip_modeが偽である場合、コーディングユニットに関するさらなる情報がビットストリームに含まれ、skip_txfmフラグがコーディングユニットが全てゼロであるか否かを示すために追加的にシグナリングされる。
【表2】
【表3】
【表4】
【0121】
以下の例示的な実装形態では、クロマチャネルという用語は、概して、Cb色成分とCr色成分の両方(またはチャネル)、あるいはU色成分とV色成分の両方(またはチャネル)を指し得る。ルマチャネルという用語は、ルマ成分、またはY成分を含み得る。ルマ成分またはチャネルは、ルマ色成分またはチャネルと称されることがある。Y、UおよびVは、3つの色成分を示すために以下で使用される。さらに、「コーディングされたブロック」および「コーディング」ブロックという用語は、コーディングされるべきブロックまたはすでにコーディングされたブロックのいずれかを意味するために交換可能に使用される。それらは、3つの色成分のうちのいずれかのブロックであり得る。3つの対応する色コーディングされた/コーディングブロックは、コーディングされた/コーディングユニットのためのものであり得る。
【0122】
本開示の例示的な実装形態では、用語「同一位置のブロック(co-located block)」は、別の色チャネルにおいて同じ空間位置に位置するブロックを指す場合がある。用語「ブロック」は、変換ブロック、コーディングされたブロック、予測ブロックなどを指す場合がある。
【0123】
一部の例示的な実装形態では、skip_txfmフラグは、上記のシンタックスで説明したように、コーディングユニットレベルフラグとして実装され得る。コーディングユニットは、上記で説明されたように、異なる色チャネルの並列コーディングブロック、例えば、ルマコーディングと、2つのクロマコーディングブロックとを含み得る。これらの並列コーディングされたブロックは同じ場所に配置される。コーディングユニットレベルskip_txfmフラグは、コーディングユニットのルマ(Y)チャネルとクロマ(UおよびV、またはCrおよびCb)チャネルの両方に適用され、これらのチャネルの変換係数が非モノクロームビデオの現在のコーディングユニット中で全て0であるかどうかを示すために使用される。前に説明したように、対応する色チャネルに関連する1つ以上のコーディングブロックは、
図13および
図14の例に示すようなコーディング順序(ラスタ走査)を用いて、変換区分をサポートし得る。さらに、分割後に得られた変換ブロックの各々は、関連するEOBスキップフラグを有する(例えば、1の値は、変換ブロックの変換係数が0であり、EOB値のさらなるコーディングがシグナリングされる必要があることを示す)。
【0124】
全ての変換ブロックについての単一のskip_txfmフラグが上記の実装形態においてコーディングユニットレベルで使用されるとき、それは、コーディングユニット粒度におけるチャネル特性のみを反映し得る。全てのカラーブロックの全ての変換ブロックに対する係数が0である場合にのみ、1としてフラグが立てられる。しかしながら、ルマチャネルと(1つ以上の)クロマチャネルとは異なる特性を有し得、catch all skip_txfmフラグはコーディングの効率性を低減し得る。例えば、1つのチャネルの全ての変換係数が0である場合であっても、別のチャネルの変換係数は、全てが0ではない場合がある。次いで、コーディングユニットレベルでの変換スキップフラグskip_txfmは、0としてコーディングされなければならない。その結果、全てのルマおよびクロマ変換区分またはブロックのためのEOBスキップフラグは、コーディングされてシグナリングされなければならない。これは、
図16Aに示す例示的なシグナリング図に示されており、ここで、コーディングユニットのためのcatch-all skip_txfmは1602によって表され、3つの色チャネルはブランチ1604、1606、および1608によって表される。
図16Aは、(任意の色チャネルの)変換ブロックのうちのいずれか1つが非ゼロ係数を有するとき、catch-all skip_txfmフラグが0に設定されることを示す。次いで、全ての色チャネルの各変換ブロック(T1、T2、およびT3として示されるが、変換ブロックの数はそのように限定されず、異なるチャネルは異なる数の変換ブロックを有し得る)が、EOBスキップフラグを用いてシグナリングされなければならない。EOBがシグナリングされる必要があるかどうかは、その値が各変換ブロック中の係数に依存するEOBスキップフラグによって示される。かかる実装形態では、一部のチャネルが全て0であるときでも、別のチャネルが非ゼロ係数を有する限り、全ての変換ブロックについてEOBスキップフラグがシグナリングされなければならないので、シグナリングはあまり効率的ではない。したがって、以下でさらに説明するように、例えば、コーディングユニットレベルではなくチャネルまたはコーディングブロックにおいて、より細かい粒度をもつskip_txfmフラグを有することが有益であり得る。
【0125】
チャネルレベルskip_txfmフラグ
一部の例示的な実施形態では、イントラまたはインターコーディングされたユニットである現在のコーディングされたブロックについて、skip_txfmフラグシグナリングは、コーディングユニットレベルよりも細かいレベル(またはより細かい粒度)であるように構成され得る。
【0126】
1つの例示的な実装形態では、別個のスキップ変換フラグが、コーディングされたユニットの色成分ごとにシグナリングされ得る。例えば、コーディングユニット(Yコーディングブロック、Uコーディングブロック、およびVコーディングブロック)のY成分、U成分、およびV成分は、それぞれskip_txfm_Y、skip_txfm_U、およびskip_txfm_Vに関連付けられ、それらによってシグナリングされ得る。
【0127】
かかるシグナリング方式の利点は、
図16Bの例示的なシグナリング図によって示されている。
図16Bに示すように、コーディングユニットのYチャネルがT 1~T 3変換ブロックのうちの1つ以上において非ゼロ係数を有し、UチャネルおよびVチャネルが全て0であると仮定する。skip_txfmフラグは、1610、1612、および1614によって示されるように、色チャネルレベルでシグナリングされ得る。この場合、Yチャネルのskip_txfmフラグ1610は1に設定され得、UチャネルおよびVチャネルのための他のskip_txfmフラグ1612および1614は0に設定され得る。したがって、
図16Bにおいて×印として示されているように、U変換ブロックおよびV変換ブロックのためのEOBスキップフラグのいずれもシグナリングされる必要がない場合があり、Y変換ブロックのためのEOBスキップのみがシグナリングされる必要がある。したがって、この場合、シグナリングされる必要がある12個のフラグ(1つのskip_txfmフラグおよび12個のEOBスキップフラグ)と比較して、合計6個のフラグ(3つのチャネルのための3つのskip_txfmフラグおよびYチャネルのための3つのEOBスキップフラグ)がシグナリングされる。
【0128】
一部の例示的な実装形態では、別個のスキップ変換フラグ、すなわちskip_txfm_Yが、コーディングユニットのY成分のためにシグナリングされるが、別のスキップ変換フラグ、skip_txfm_UVは、コーディングユニットのUおよびVコーディングブロックのために一緒にシグナリングされ得る。換言すれば、
図16Bの3つのskip_txfmフラグ実装形態と比較して、2つの別個のskip_txfmフラグがシグナリングされ得る。これは、U成分およびV成分が、同じ0または非ゼロの係数特性を有する可能性があることに関して同様の特性を有するときに有益であり得る(例えば、ナイトショットの場合、一方のクロマ成分が全て0である場合、他方のクロマ成分も0に似ている)。当業者は、
図16 Aおよび
図16Bに関して上記で説明した他の方式を考慮して、two-skip_txfmフラグ方式の動作を理解するであろう。特に、フラグ1612および1614は1つのフラグに組み合わされる。
【0129】
一部の他の例示的な実装形態では、別個のskip_txfmフラグが異なる色成分についてシグナリングされるとき、上記で説明したように、それぞれのskip_txfmフラグをエントロピーコーディングするために適用されるコンテキストは、色成分に依存し得る。すなわち、コンテキストモデルを選択するときに、色成分が考慮され得る。
【0130】
変換ブロックのEOBシグナリング
以下のさらなる例示的な実施形態は、現在のイントラコーディングされたブロックまたはインターコーディングされたブロックのための変換ブロックのEOBシグナリングに適用される。
【0131】
1つの例示的な実装形態では、特定のチャネル(例えば、Y、U、V)について、関連するスキップ変換フラグ(skip_txfm)が0であり、最後の変換ブロックを除く(コーディングされたブロック中の)全ての変換ブロックのEOBスキップフラグの値が1である場合、最後のコーディングされた変換ブロックのEOBスキップフラグは0であると推論され得、関連するEOBフラグはシグナリングされる必要がないことがある。この移植の背後にある理由は以下の通りである。この特定の色チャネルのためのskip_txfmフラグが0であるので、チャネル中のどこかに非ゼロ係数があり、すなわち、チャネル中の変換ブロックのうちの少なくとも1つが非ゼロ係数を含む。最後の変換ブロック以外の変換ブロックが1のEOBスキップフラグを含み、それらのブロックが全て0であることを示唆するとき、非ゼロ係数は最後の変換ブロック中になければならない。したがって、最後の変換ブロックのためのEOBフラグはシグナリングされる必要がなく、暗示され得る。したがって、最後の変換ブロックのEOBは、そのフラグがシグナリングされることなく含まれる。この実装形態では、変換ブロックは、任意のコーディング順序に従って順序付けられ得、かかるコーディング順序は、どの変換ブロックが「最後の」変換ブロックであるかを判定するために使用され得る。これは、
図16Bのさらなる拡張として
図16Cに示されている。
図16Cでは、Yチャネルのためのskip_txfmフラグは0であり、Yチャネルのための3つの変換ブロックのうち、最初の2つは1のEOBフラグを有し、最後の変換ブロック(T3)のためのEOBスキップフラグは(バツ印によって示されるように)シグナリングされる必要がない。
【0132】
詳細には、別個のスキップ変換フラグがコーディングされたブロックの色成分ごとにシグナリングされる、上記の3つのskip_txfm方式と組み合わせて、以下の条件が満たされる場合、最後のコード化Cb変換ブロックのEOBスキップフラグは0であると推論され、関連するフラグはシグナリングされる必要がないことがある。
・skip_txfm_U、V、またはYは1としてシグナリングされる。
・複数のU、V、またはY変換ブロックがコーディングされたブロック中に存在する。
・コーディング順序における最後のU、V、またはY変換ブロックを除く全てのU、V、またはY変換ブロックは、1のEOBスキップフラグを有する(これらが0変換ブロックであることを示す)。
【0133】
一部の例示的な2つのskip_txfmフラグの実装形態では、別個のスキップ変換フラグskip_txfm_Yが、コーディングされたブロックのY成分に対してシグナリングされ、別のスキップ変換フラグskip_txfm_UVが、コーディングされたブロックのU成分およびV成分に対して一緒にシグナリングされる。以下の条件が満たされる場合、最後のコーディングされたクロマ変換ブロックのEOBスキップフラグは0であると推論され、関連するフラグはシグナリングされる必要がないことがある。
・skip_txfm_UVは1としてシグナリングされる。
・複数のCbおよびCr変換ブロックがコーディングユニット中に存在する。
・コーディング順序におけるクロマチャネルからの最後の変換ブロックを除く全ての変換ブロックは、1のEOBスキップフラグを含む(これらが0変換ブロックであることを示す)。
【0134】
同様に、上記の同じ概念および基礎となる原理は、ルマチャネルにも適用され得る。
【0135】
上記の実装形態は、コーディングブロックを変換ブロックに区分するための種々の方式の下で、種々のイントラコーディングユニットまたはインターコーディングユニットに関連付けられ得る。
【0136】
例えば、上記の実装形態は、コーディングされたユニットが、
図13に示すような均一変換区分方式を採用するイントラコーディングされたユニットであるときに適用され得る。
【0137】
別の例では、上記の実装形態は、コーディングユニットが、
図14に示すような再帰的変換区分方式を採用するインターコーディングブロックであるときに適用され得る。
【0138】
別の例として、上記の実装形態は、コーディングユニット中のコーディングブロックがイントラコーディングブロックまたはインターコーディングブロックのいずれかであるときに適用され得る。コーディングされたブロックは、
図15に示すように、PARTITION_SPILT、PARTITION_HORZ、PARTITION_VERT、PARTITION_HORZ4、およびPARTITION_VERT4の区分方式のうちの1つを使用することができる。
【0139】
図17はビデオデータを復号する典型的な方法1700を示す。方法1700は、ルマコーディングされたブロックに関連付けられたルマ変換スキップフラグを含むコーディングされたビットストリームを受信するステップであって、ルマコーディングされたブロックは、n個の変換ブロックを含み、nは、正の整数である、ステップ(ステップ1710)と、コーディングされたビットストリームを介して、ルマコーディングされたブロックと同じ場所に配置された少なくとも1つのクロマコーディングされたブロックに関連する少なくとも1つのクロマ変換スキップフラグを受信するステップであって、少なくとも1つのクロマコーディングされたブロックは、m個の変換ブロックを含み、mは正の整数であり、同じ場所に配置されるとは、異なるチャネル中の2つのコーディングされたブロックが同じ空間位置にあることを指す、ステップ(ステップ1720)と、ルマ変換スキップフラグに基づいて、ルマコーディングされたブロックのn個の変換ブロックを復号(または処理)するステップ(ステップ1730)と、少なくとも1つのクロマ変換スキップフラグに基づいて、少なくとも1つのクロマコーディングされたブロックのm個の変換ブロックを復号(または処理)するステップ(ステップ1740)と、のステップの一部または全部を含むことができる。
【0140】
本開示の実施形態では、必要に応じて任意のステップおよび/または動作を任意の諸量または順序で組み合わせたり配置したりしてもよい。ステップおよび/または動作の2つ以上を並列に実行してもよい。
【0141】
本開示の実施形態は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、方法(または実施形態)の各々、エンコーダ、およびデコーダは、処理回路(例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路)によって実装されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。本開示の実施形態は、ルマブロックまたはクロマブロックに適用されてもよい。
【0142】
上記で説明した技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つまたは複数のコンピュータ可読媒体に物理的に記憶され得る。例えば、
図18は開示されている保護対象のいくつかの実施形態を実施するのに好適なコンピュータシステム(1800)を示す。
【0143】
コンピュータソフトウェアは、1つまたは複数のコンピュータ中央処理装置(CPU:central processing unit)およびグラフィック処理装置(GPU:Graphics Processing Unit)などによって直接的に、または解釈およびマイクロコードの実行などを通して実行され得る命令を含むコードを生成するために、アセンブリ、コンパイル、リンキング、または同様のメカニズムを受け得る任意の適切なマシンコードまたはコンピュータ言語を使用してコーディングされ得る。
【0144】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、インターネット・オブ・シングス・デバイスなどを含む、様々なタイプのコンピュータまたはその構成要素で実行されてもよい。
【0145】
コンピュータシステム(1800)の
図18に示されている構成要素も当然典型的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関していかなる限定の示唆も意図していない。さらには、構成要素の構成が、コンピュータシステム(1800)の典型的な実施形態に示されている構成要素のいずれか1つまたはこれらの組み合わせに関連する依存性または要求を持つと解釈するべきでもない。
【0146】
コンピュータシステム(1800)はいくつかのヒューマンインタフェイス入力装置を含んでもよい。このようなヒューマンインタフェイス入力装置は、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、音声入力(音声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)を通じて1人以上の人間のユーザによる入力に応答するものであってもよい。ヒューマンインタフェイスデバイスを用いて、音声(発話、音楽、周囲音など)、画像(スキャン画像、静止画像カメラから取得される写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、人間による意識的な入力に必ずしも直接関係ない特定の媒体をキャプチャし得る。
【0147】
入力ヒューマンインタフェイス装置は、キーボード(1801)、マウス(1802)、トラックパッド(1803)、タッチ画面(1810)、データグローブ(図示せず)、ジョイスティック(1805)、マイク(1806)、スキャナ(1807)、カメラ(1808)の1つ以上(各々の1つのみが図示されている)を含んでもよい。
【0148】
コンピュータシステム(1800)はいくつかのヒューマンインタフェイス出力装置も含んでもよい。このようなヒューマンインタフェイス出力装置は、例えば、触覚出力、音、光および嗅覚/味覚を通じて1人以上の人間のユーザの感覚を刺激してもよい。このようなヒューマンインタフェイス出力装置は、触覚出力装置(例えば、タッチ画面(1810)、データグローブ(図示せず)またはジョイスティック(1805)による触覚フィードバック。ただし、入力装置として用いられない触覚フィードバック装置も存在することができる)、音声出力装置(スピーカ(1809)、ヘッドホン(図示せず)など)、視覚出力装置(CRT画面、LCD画面、プラズマ画面、OLED画面を含む画面(1810)など。各々にはタッチ画面入力機能があったりなかったりし、触覚フィードバック機能があったりなかったりする。上記の画面のいくつかは、二次元視覚出力を出力したり、立体グラフィック出力などの手段を通じて三次元以上の出力を出力したりする能力があってもよい。バーチャルリアリティグラス(図示せず)、ホログラムディスプレイ、発煙剤タンク(図示せず))およびプリンタ(図示せず)を含んでもよい。
【0149】
コンピュータシステム(1800)は、CD/DVDまたは同様の媒体を用いるCD/DVD ROM/RW(1820)を含む光学媒体(1821)、thumb-drive(1822)、リムーバブルハードドライブやソリッドステートドライブ(1823)、テープやフロッピディスクなどのレガシ磁気媒体(図示せず)、セキュリティドングルなどの特化型のROM/ASIC/PLDベースのデバイス(図示せず)などの人間が直接操作し得る記憶装置およびこれに関連する媒体も含むことができる。
【0150】
当業者はまた、現在開示された主題に関連して使用される「コンピュータ可読媒体」という用語が、送信媒体、搬送波、または他の一時的な信号を包含しないことを理解するはずである。
【0151】
コンピュータシステム(1800)は1つ以上の通信ネットワーク(1855)に対するインタフェイス(1854)も含むことができる。ネットワークは例えば、無線ネットワーク、有線ネットワーク、光学ネットワークであることが可能である。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業、リアルタイム、遅延耐性などとすることができる。ネットワークの例には、Ethernetなどのローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラネットワーク、ケーブルテレビ、衛星テレビおよび地上波テレビを含むテレビの有線または無線広域デジタルネットワーク、CAN busを含む車両用および産業用などが含まれる。あるネットワークには、いくつかの汎用データポートまたはペリフェラルバス(1849)(例えば、コンピュータシステム(1800)のUSBポート)に一般的な仕方で取り付けられる外部ネットワークインタフェイスアダプタが必要であり、その他のネットワークについては、後述のようにシステムバスに取り付けることによってコンピュータシステム(1800)のコアに一般的な仕方で組み込まれる(例えば、PCコンピュータシステムにはEthernetインタフェイスであったりスマートフォンコンピュータシステムにはセルラネットワークインタフェイスであったりする)。このようなネットワークのいずれを用いても、コンピュータシステム(1800)は相手方と通信することができる。このような通信は、一方向、受信専用(例えば、テレビ放送)、一方向送信専用(例えば、CANbusから特定のCANbusデバイス)または双方向、例えば、ローカルもしくは広域デジタルネットワークを用いた他のコンピュータシステムに対する双方向の通信であることが可能である。特定のプロトコルおよびプロトコルスタックは、上記で説明したように、それらのネットワークおよびネットワークインタフェイスのそれぞれで使用され得る。
【0152】
上述のヒューマンインタフェイス装置、人間が直接操作し得る記憶装置およびネットワークインタフェイスをコンピュータシステム(1800)のコア(1840)に取り付けることができる。
【0153】
コア(1840)は、1つ以上の中央処理装置(CPU)(1841)、グラフィックス処理装置(GPU)(1842)、フィールドプログラマブルゲートエリア(FPGA)(1843)の形態をとる特化型プログラム可能処理装置、特定のタスク用のハードウェアアクセラレータ(1844)、グラフィックアダプタ(1850)などを含むことができる。このようなデバイスを、読出し専用メモリ(ROM)(1845)、ランダムアクセスメモリ(1846)、内部にあってユーザが直接操作し得ないハードドライブ、SSDなどの内部大容量ストレージ(1847)と共にシステムバス(1848)を通じて接続してもよい。いくつかのコンピュータシステムでは、システムバス(1848)は、追加のCPU、GPUなどによって拡張を可能にする1つ以上の物理的なプラグの形態をとる直接操作し得るものであることが可能である。周辺機器をコアのシステムバス(1848)に直接取り付けるか、ペリフェラルバス(1849)を介して取り付けるかすることができる。一例では、画面(1810)をグラフィックアダプタ(1850)に接続することができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。
【0154】
CPU(1841)、GPU(1842)、FPGA(1843)およびアクセラレータ(1844)は、組み合わされて上述のコンピュータコードを構築することができるいくつかの指示を実行することができる。当該コンピュータコードをROM(1845)またはRAM(1846)に記憶することができる。RAM(1846)には過渡的データも記憶することができる一方で、不変データを例えば内部大容量ストレージ(1847)に記憶することができる。1つ以上のCPU(1841)、GPU(1842)、大容量ストレージ(1847)、ROM(1845)、RAM(1846)などと密接に関連することができるキャッシュメモリを用いることにより、メモリデバイスのいずれかに対する高速記憶および読出しを可能にすることができる。
【0155】
コンピュータ可読媒体は、様々なコンピュータ実施動作を実行するためのコンピュータコードを有し得る。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであり得るか、またはそれらは、コンピュータソフトウェア技術のスキルを有する人々に周知かつ利用可能な種類であり得る。
【0156】
限定を課さない例として、アーキテクチャ(1800)を有し、特にコア(1840)を有するコンピュータシステムは、1つ以上のプロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)が1つ以上の有形のコンピュータ可読媒体で実施されたソフトウェアを実行した結果として機能を提供することができる。このようなコンピュータ可読媒体は、上述されているような、ユーザが直接操作し得る大容量ストレージに関連する媒体であることが可能であり、さらには、コア内蔵大容量ストレージ(1847)やROM(1845)などの非一時性のストレージであるコア(1840)の特定のストレージであることも可能である。本開示の様々な実施形態を実施するソフトウェアをこのようなデバイスに記憶してコア(1840)によって実行することができる。コンピュータ可読媒体は個々の要求に応じて1つ以上のメモリデバイスやチップを含むことができる。ソフトウェアは、コア(1840)に、具体的にはその中のプロセッサ(CPU、GPU、およびFPGAなどを含む)に、RAM(1846)に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することを含む、本明細書で説明されている特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、本明細書で説明されている特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりにまたはソフトウェアと共に動作し得る、回路にハードワイヤードされた、または他の方法で具現化された論理(例えば、アクセラレータ(1844))の結果として機能を提供することができる。ソフトウェアへの言及は、適切な場合には、ロジックを包含することができ、逆もまた同様である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを記憶する回路(集積回路(IC:integrated circuit)など)、実行のためのロジックを具体化する回路、またはこれらの両方を包含し得る。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。
【0157】
本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある修正例、置換例、および様々な代替均等例がある。したがって、当業者は、本明細書では明示的に示されていないか、または説明されていないが、本開示の原理を具現化し、したがってその精神および範囲内にある多数のシステムおよび方法を考案できることが理解されよう。
付記A:頭字語
JEM:共同探索モデル
VVC:多用途ビデオコーディング
BMS:ベンチマークセット
MV:動きベクトル
HEVC:高効率ビデオコーディング
SEI:補足拡張情報
VUI:ビデオユーザビリティ情報
GOP:ピクチャグループ
TU:変換ユニット
PU:予測ユニット
CTU:コーディングツリーユニット
CTB:コーディングツリーブロック
PB:予測ブロック
HRD:仮想参照デコーダ
SNR:信号対雑音比
CPU:中央処理装置
GPU:グラフィックス処理装置
CRT:陰極線管
LCD:液晶ディスプレイ
OLED:有機発光ダイオード
CD:コンパクトディスク
DVD:デジタルビデオディスク
ROM:読取り専用メモリ
RAM:ランダムアクセスメモリ
ASIC:特定用途向け集積回路
PLD:プログラマブル論理デバイス
LAN:ローカルエリアネットワーク
GSM:モバイル通信用グローバルシステム
LTE:ロングタームエボリューション
CANBus:コントローラエリアネットワークバス
USB:ユニバーサルシリアルバス
PCI:周辺構成要素相互接続
FPGA:フィールドプログラマブルゲートエリア
SSD:ソリッドステートドライブ
IC:集積回路
HDR:ハイダイナミックレンジ
SDR:標準ダイナミックレンジ
JVET:共同ビデオ探索チーム
MPM:最確モード
WAIP:広角イントラ予測
CU:コーディングユニット
PU:予測ユニット
TU:変換ユニット
CTU:コーディングツリーユニット
PDPC:位置依存予測組み合わせ
ISP:イントラサブパーティション
SPS:シーケンスパラメータ設定
PPS:ピクチャパラメータセット
APS:適応パラメータセット
VPS:ビデオパラメータセット
DPS:デコーディングパラメータセット
ALF:適応ループフィルタ
SAO:サンプル適応オフセット
CC-ALF:交差成分適応ループフィルタ
CDEF:制約付き指向性強化フィルタ
CCSO:交差成分サンプルオフセット
LSO:ローカルサンプルオフセット
LR:ループ復元フィルタ
AV1:AOMedia Video 1
AV2:AOMedia Video 2
【符号の説明】
【0158】
101 サンプル
102 矢印
103 矢印
104 正方形ブロック
201 現在のブロック
300 通信システム
310 端末デバイス
320 端末デバイス
330 端末デバイス
340 端末デバイス
350 ネットワーク
400 通信システム
401 ビデオソース
402 ストリーム
403 ビデオエンコーダ
404 符号化されたビデオデータ
405 ストリーミングサーバ
406 クライアントサブシステム
407 コピー
408 クライアントサブシステム
409 コピー
410 ビデオデコーダ
413 ビデオ取り込みサブシステム
420 電子デバイス
430 電子デバイス
501 チャネル
510 ビデオデコーダ
512 ディスプレイ
515 バッファメモリ
520 パーサ
521 シンボル
530 電子デバイス
531 受信機
551 スケーラ/逆変換ユニット
552 イントラ予測ユニット
553 動き補償予測ユニット
556 ループフィルタユニット
557 参照ピクチャメモリ
558 現在ピクチャバッファ
601 ビデオソース
603 ビデオエンコーダ
620 電子デバイス、エンコーダ
630 ソースコーダ
632 コーディングエンジン
633 デコーダ、復号ユニット
634 参照ピクチャメモリ
635 予測器
640 送信機
643 ビデオシーケンス
645 エントロピーコーダ
650 コントローラ
660 通信チャネル
703 ビデオエンコーダ
721 汎用コントローラ
722 イントラエンコーダ
723 残差計算器
724 残差エンコーダ
725 エントロピーエンコーダ
726 スイッチ
728 残差デコーダ
730 インターエンコーダ
810 ビデオデコーダ
871 エントロピーデコーダ
872 イントラデコーダ
873 残差デコーダ
874 再構成モジュール
880 インターデコーダ
1002 T型パーティション
1004 T型パーティション
1006 T型パーティション
1008 T型パーティション
1010 正方形のパーティション
1102 垂直二分割
1104 水平二分割
1106 垂直三分割
1108 水平三分割
1202 正方形パーティション、パーティション
1204 正方形パーティション、パーティション
1206 正方形パーティション、パーティション
1208 正方形パーティション、パーティション
1302 正方形コーディングブロック
1402 インターコーディングされたブロック
1800 コンピュータシステム
1801 キーボード
1802 マウス
1803 トラックパッド
1805 ジョイスティック
1806 マイク
1807 スキャナ
1808 カメラ
1809 スピーカ
1810 タッチ画面
1820 CD/DVD ROM/RW
1821 光学媒体
1822 thumb-drive
1823 ソリッドステートドライブ
1840 コア
1841 中央処理装置(CPU)
1842 グラフィックス処理装置(GPU)
1843 フィールドプログラマブルゲートエリア(FPGA)
1844 ハードウェアアクセラレータ
1845 読出し専用メモリ(ROM)
1846 ランダムアクセスメモリ(RAM)
1847 内部大容量ストレージ
1848 システムバス
1849 ペリフェラルバス
1850 グラフィックスアダプタ
1854 ネットワークインタフェイス
1855 通信ネットワーク