IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7416946ビデオコーディングのための方法および装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-09
(45)【発行日】2024-01-17
(54)【発明の名称】ビデオコーディングのための方法および装置
(51)【国際特許分類】
   H04N 19/11 20140101AFI20240110BHJP
   H04N 19/136 20140101ALI20240110BHJP
   H04N 19/176 20140101ALI20240110BHJP
【FI】
H04N19/11
H04N19/136
H04N19/176
【請求項の数】 10
(21)【出願番号】P 2022533614
(86)(22)【出願日】2021-09-22
(65)【公表番号】
(43)【公表日】2023-02-08
(86)【国際出願番号】 US2021051543
(87)【国際公開番号】W WO2022066761
(87)【国際公開日】2022-03-31
【審査請求日】2022-06-03
(31)【優先権主張番号】63/084,460
(32)【優先日】2020-09-28
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/469,500
(32)【優先日】2021-09-08
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】リャン・ジャオ
【審査官】岩井 健二
(56)【参考文献】
【文献】特開2020-141285(JP,A)
【文献】米国特許出願公開第2020/0099925(US,A1)
【文献】米国特許出願公開第2019/0141318(US,A1)
【文献】米国特許出願公開第2019/0020888(US,A1)
【文献】国際公開第2019/039324(WO,A1)
【文献】Taichiro Shiodera, Akiyuki Tanizawa, and Takeshi Chujoh,Bidirectional Intra Prediction,ITU - Telecommunications Standardization Sector STUDY GROUP 16 Question 6 Video Coding Experts Group (VCEG),VCEG-AE14,31st Meeting: Marrakech, MA,2007年01月,pp.1-6
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00 - 19/98
(57)【特許請求の範囲】
【請求項1】
デコーダにおけるビデオデコーディングの方法であって、
コーディングされたビデオビットストリームの一部である現在のピクチャ内の現在のブロックの予測情報をデコーディングするステップであって、前記予測情報は、前記現在のブロックについて無方向性イントラ予測モードを示す、ステップと、
前記現在のブロックを複数の区分に区分するステップであって、前記複数の区分は、少なくとも1つのL形状区分を含む、ステップと、
(i)前記複数の区分のうちの1つの区分の隣接する再構築されたサンプル、または(ii)前記現在のブロックの隣接する再構築されたサンプル、のうちの少なくとも1つに基づいて、前記複数の区分のうちの前記1つの区分を再構築するステップと
含み、
前記隣接する再構築されたサンプルの数が、(i)前記L形状区分の幅と高さの合計、(ii)前記L形状区分のより短い幅とより短い高さの合計、(iii)前記L形状区分の前記幅および前記高さのうちの最大値、ならびに(iv)前記L形状区分の前記幅および前記高さのうちの最小値、のうちの1つである、方法。
【請求項2】
前記隣接する再構築されたサンプルのうちの少なくとも1つは、前記複数の区分のうちの前記1つの区分より前に再構築された前記複数の区分のうちの別の1つの区分に位置する、請求項1に記載の方法。
【請求項3】
前記複数の区分のうちの前記別の1つはL形状区分であり、前記隣接する再構築されたサンプルのうちの前記少なくとも1つは、前記複数の区分のうちの前記1つの区分の右側または下側のうちの1つに隣接して位置する、請求項2に記載の方法。
【請求項4】
前記隣接する再構築されたサンプルは、前記複数の区分のうちの前記1つの区分の左の列および右の列の隣接する再構築されたサンプルを含み、再構築する前記ステップは、
前記複数の区分のうちの前記1つの区分の前記左の列および前記右の列の隣接する再構築されたサンプルに基づいて、前記複数の区分のうちの前記1つの区分の下の行の隣接する参照サンプルを決定するステップと、
前記複数の区分のうちの前記1つの区分の前記下の行の隣接する参照サンプルに基づいて、前記複数の区分のうちの前記1つの区分を再構築するステップと
を含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記隣接する再構築されたサンプルは、前記複数の区分のうちの前記1つの区分の上の行および下の行の隣接サンプルを含み、再構築する前記ステップは、
前記複数の区分のうちの前記1つの区分の前記上の行および前記下の行の隣接する再構築されたサンプルに基づいて、前記複数の区分のうちの前記1つの区分の左の列の隣接する参照サンプルを決定するステップと、
前記複数の区分のうちの前記1つの区分の前記左の列の隣接する参照サンプルに基づいて、前記複数の区分のうちの前記1つの区分を再構築するステップと
を含む、請求項1から3のいずれか一項に記載の方法。
【請求項6】
前記複数の区分のうちの前記1つはL形状区分であり、再構築する前記ステップは、
前記現在のブロックの左の列および上の行の隣接する再構築されたサンプルに基づいて、前記複数の区分のうちの前記1つの区分を再構築するステップ
を含む、請求項1から3のいずれか一項に記載の方法。
【請求項7】
前記複数の区分のうちの前記1つがL形状区分であることに基づいて、再構築する前記ステップは、
前記L形状区分の各サンプルについて、それぞれのサンプルの位置に基づいて複数の隣接する参照サンプルを決定するステップと、
前記それぞれのサンプルの前記複数の隣接する参照サンプルに基づいて前記L形状区分の各サンプルを再構築するステップと
を含む、請求項1から3のいずれか一項に記載の方法。
【請求項8】
各サンプルの前記複数の隣接する参照サンプルは、再構築された隣接サンプルと、前記再構築された隣接サンプルに基づいて再構築された隣接サンプルとを含む、請求項7に記載の方法。
【請求項9】
請求項1から8のいずれか一項に記載の方法を実行するように構成された装置。
【請求項10】
プロセッサに請求項1から8のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
参照による組み込み
本出願は、その全体が参照により本明細書に組み込まれる、2020年9月28日に出願された米国仮出願第63/084,460号「L形状区分のための無方向性イントラ予測」に対する優先権の利益を主張する、2021年9月8日に出願された米国特許出願第17/469,500号「ビデオコーディングのための方法および装置」に対する優先権の利益を主張する。
【0002】
本開示は、全体としてビデオコーディングに関連する実施形態を説明する。
【背景技術】
【0003】
本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。本発明者らの研究は、この研究がこの背景技術の項で説明されている限りにおいて、および出願時に従来技術と見なされ得ない説明の態様は、本開示に対する従来技術として明示的にも暗示的にも認められない。
【0004】
ビデオコーディングおよびデコーディングは、動き補償を伴うインターピクチャ予測を使用して実行され得る。非圧縮デジタルビデオは、一連のピクチャを含み得、各ピクチャは、例えば1920×1080の輝度サンプルおよび関連するクロミナンスサンプルの空間次元を有する。一連のピクチャは、例えば毎秒60ピクチャまたは60Hzの固定または可変ピクチャレート(非公式にはフレームレートとしても知られている)を有し得る。非圧縮ビデオは、かなりのビットレート要件を有する。例えば、サンプルあたり8ビットの1080p60 4:2:0ビデオ(60Hzのフレームレートで1920×1080の輝度サンプル解像度)は、1.5Gbit/sに近い帯域幅を必要とする。1時間のこのようなビデオは、600GByteを超える記憶空間を必要とする。
【0005】
ビデオコーディングおよびデコーディングの1つの目的は、圧縮による入力ビデオ信号の冗長性の低減であり得る。圧縮は、前述の帯域幅または記憶空間要件を、場合によっては2桁以上低減するのに役立ち得る。可逆圧縮および非可逆圧縮の両方、ならびにこれらの組み合わせが用いられ得る。可逆圧縮は、元の信号の正確なコピーが圧縮された元の信号から再構築され得る技術を指す。非可逆圧縮を使用する場合、再構築された信号は元の信号と同一ではあり得ないが、元の信号と再構築された信号との間の歪みは、再構築された信号を意図された用途に利用するのに十分小さい。ビデオの場合、非可逆圧縮が広く用いられている。許容される歪みの量は用途に依存し、例えば、特定の消費者ストリーミング用途のユーザは、テレビ配信用途のユーザよりも高い歪みを許容し得る。達成可能な圧縮比は、より高い容認可能/許容可能な歪みがより高い圧縮比をもたらし得ることを反映し得る。
【0006】
ビデオエンコーダおよびデコーダは、例えば動き補償、変換、量子化、およびエントロピーコーディングを含む、いくつかの広範なカテゴリからの技術を利用し得る。
【0007】
ビデオコーデック技術は、イントラコーディングとして知られる技術を含み得る。イントラコーディングでは、以前に再構築された参照ピクチャからのサンプルまたは他のデータを参照することなく、サンプル値が表される。一部のビデオコーデックでは、ピクチャは、空間的にサンプルのブロックに細分される。サンプルのすべてのブロックがイントラモードでコーディングされる場合、そのピクチャは、イントラピクチャであり得る。イントラピクチャ、および独立デコーダリフレッシュピクチャなどのそれらの派生は、デコーダ状態をリセットするために使用され得、したがって、コーディングされたビデオビットストリームおよびビデオセッション内の1番目のピクチャとして、または静止画像として使用され得る。イントラブロックのサンプルは、変換を受け得、変換係数は、エントロピーコーディング前に量子化され得る。イントラ予測は、変換前領域におけるサンプル値を最小化する技術であり得る。場合によっては、変換後のDC値が小さいほど、およびAC係数が小さいほど、エントロピーコーディング後のブロックを表すために所与の量子化ステップのサイズで必要とされるビットは少なくなる。
【0008】
例えばMPEG-2生成コーディング技術から知られているような従来のイントラコーディングは、イントラ予測を使用しない。しかしながら、一部のより新しいビデオ圧縮技術は、例えば、空間的に隣接し、かつデコーディング順序で先行するデータブロックのエンコーディングおよび/またはデコーディング中に取得された周囲のサンプルデータおよび/またはメタデータから試行する技術を含む。このような技術は、以後「イントラ予測」技術と呼ばれる。少なくとも一部の場合には、イントラ予測は、再構築中の現在のピクチャからの参照データのみを使用し、参照ピクチャからの参照データは使用しないことに留意されたい。
【0009】
イントラ予測には多くの異なる形式があり得る。このような技術のうちの1つより多くが、所与のビデオコーディング技術において使用され得る場合、使用中の技術はイントラ予測モードでコーディングされ得る。ある場合には、モードはサブモードおよび/またはパラメータを有し得、それらは個別にコーディングされ得るかまたはモードコードワードに含まれ得る。所与のモード、サブモード、および/またはパラメータの組み合わせにどのコードワードを使用するかは、イントラ予測によるコーディング効率/利得に影響を及ぼし得、したがって、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術にも影響を及ぼし得る。
【0010】
イントラ予測の特定のモードは、H.264で導入され、H.265で改良され、共同探索モデル(JEM:joint exploration model)、多用途ビデオコーディング(VVC:versatile video coding)、およびベンチマークセット(BMS:benchmark set)などのより新しいコーディング技術でさらに改良された。予測子ブロックは、既に利用可能なサンプルに属する隣接サンプル値を使用して形成され得る。隣接サンプルのサンプル値は、方向に従って予測子ブロックにコピーされる。使用中の方向への参照は、ビットストリーム内でコーディングされ得るし、またはそれ自体予測されてもよい。
【0011】
図1Aを参照すると、右下に示されているのは、H.265の33個の可能な予測子方向(35個のイントラモードのうちの33個の角度モードに対応する)から知られる9つの予測子方向のサブセットである。矢印が収束している点(101)は、予測されているサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば、矢印(102)は、サンプル(101)が水平から45度の角度で右上にあるサンプルまたは複数のサンプルから予測されることを示す。同様に、矢印(103)は、サンプル(101)が水平から22.5度の角度でサンプル(101)の左下にあるサンプルまたは複数のサンプルから予測されることを示す。
【0012】
さらに図1Aを参照すると、左上には、4×4サンプルの正方形ブロック(104)(太い破線で示されている)が示されている。正方形ブロック(104)は、16個のサンプルを含み、これら16個のサンプルはそれぞれ、「S」、Y次元におけるその位置(例えば、行インデックス)、およびX次元におけるその位置(例えば、列インデックス)でラベル付けされている。例えば、サンプルS21は、Y次元において(上から)2番目のサンプルであり、X次元において(左から)1番目のサンプルである。同様に、サンプルS44は、Y次元およびX次元の両方において4番目の、ブロック(104)内のサンプルである。ブロックのサイズが4×4サンプルであるため、S44は右下にある。同様の番号付け方式に従う参照サンプルがさらに示されている。参照サンプルは、ブロック(104)に対してR、そのY位置(例えば、行インデックス)、およびX位置(列インデックス)でラベル付けされている。H.264およびH.265の両方において、予測サンプルは、再構築中のブロックに隣接し、したがって、負の値が使用される必要はない。
【0013】
イントラピクチャ予測は、シグナリングされた予測方向によって割り当てられるように、隣接サンプルからの参照サンプル値をコピーすることによって機能し得る。例えば、コーディングされたビデオビットストリームが、このブロックに関して、矢印(102)と一致する予測方向を示すシグナリングを含む、すなわち、サンプルが水平から45度の角度で右上にある予測サンプルまたは複数の予測サンプルから予測されると仮定する。その場合、同じ参照サンプルR05からサンプルS41、S32、S23、およびS14が予測される。次に、参照サンプルR08からサンプルS44が予測される。
【0014】
特定の場合には、特に、方向が45度で均等に割り切れない場合、参照サンプルを計算するために、例えば補間によって、複数の参照サンプルの値が組み合わされ得る。
【0015】
可能な方向の数は、ビデオコーディング技術が発展するにつれて増加している。H.264(2003年)では、9つの異なる方向が表され得る。これは、H.265(2013年)では33に増加しており、本開示の時点では、JEM/VVC/BMSが、最大で65の方向をサポートし得る。最も可能性の高い方向を特定するために実験が行われており、エントロピーコーディングの特定の技術は、それらの可能性の高い方向を少数のビットで表すために使用され、可能性の低い方向に関しては一定の不利益を受け入れている。さらに、方向自体が、隣接する既にデコーディングされたブロックで使用された隣接する方向から予測され得る場合がある。
【0016】
図1Bは、経時的に増加する予測方向の数を示すためにJEMによる65のイントラ予測方向を示す概略図(105)を示す。
【0017】
方向を表す、コーディングされたビデオビットストリーム内のイントラ予測方向ビットのマッピングは、ビデオコーディング技術ごとに異なり得、例えば、予測方向からイントラ予測モードへの単純な直接マッピング、コードワード、最も可能性の高いモードを含む複雑な適応方式、および同様の技術に及び得る。しかしながら、すべての場合において、ビデオコンテンツで特定の他の方向よりも統計的に可能性の低い特定の方向が存在し得る。ビデオ圧縮の目的は冗長性の低減であるため、それらの可能性の低い方向は、うまく機能するビデオコーディング技術では、可能性の高い方向よりも多くのビット数で表される。
【0018】
動き補償は、非可逆圧縮技術であり得、以前に再構築されたピクチャまたはその部分(参照ピクチャ)からのサンプルデータのブロックが、動きベクトル(以下MV(motion vector))によって示される方向に空間的にシフトされた後に、新たに再構築されるピクチャまたはピクチャ部分の予測に使用される技術に関し得る。場合によっては、参照ピクチャは、現在再構築中のピクチャと同じであり得る。MVは、2つの次元XおよびY、または3つの次元を有し得、第3の次元は、使用中の参照ピクチャの指示である(後者は、間接的に時間次元であり得る)。
【0019】
一部のビデオ圧縮技術では、サンプルデータの特定の領域に適用可能なMVは、他のMVから、例えば、再構築中の領域に空間的に隣接し、かつデコーディング順序でそのMVに先行するサンプルデータの別の領域に関連するMVから予測され得る。そうすることで、MVをコーディングするのに必要なデータの量を大幅に削減し得、その結果、冗長性が排除され、圧縮が増加する。例えば、カメラから引き出された入力ビデオ信号(自然ビデオとして知られている)をコーディングするとき、単一のMVが適用可能な領域よりも大きい領域が同様の方向に移動し、したがって、場合によっては、隣接する領域のMVから導出された同様のMVを使用して予測され得る統計的尤度があるため、MV予測は効果的に機能し得る。これにより、所与の領域に関して見つけられたMVは、周囲のMVから予測されたMVと同様であるかまたは同じになり、その結果として、エントロピーコーディング後に、MVを直接コーディングする場合に使用されるのよりも少ないビット数で表され得る。場合によっては、MV予測は、元の信号(すなわち、サンプルストリーム)から導出された信号(すなわち、MV)の可逆圧縮の一例であり得る。他の場合には、例えば、いくつかの周囲のMVから予測子を計算するときの丸め誤差のために、MV予測自体は非可逆であり得る。
【0020】
様々なMV予測メカニズムは、H.265/HEVC(ITU-T Rec.H.265、「高効率ビデオコーディング」、2016年12月)に説明されている。H.265が提供する多くのMV予測メカニズムのうち、以後「空間マージ」と呼ばれる技術が、本明細書で説明される。
【0021】
図1Cを参照すると、現在のブロック(111)は、空間的にシフトされた同じサイズの前のブロックから予測可能である、動き探索プロセス中にエンコーダによって見つけられたサンプルを含み得る。そのMVを直接コーディングする代わりに、MVは、A0、A1およびB0、B1、B2(それぞれ112から116)で表されている5つの周囲サンプルのいずれか1つに関連付けられたMVを使用して、1つ以上の参照ピクチャに関連付けられたメタデータから、例えば(デコーディング順序で)最新の参照ピクチャから導出され得る。H.265では、MV予測は、隣接するブロックが使用しているのと同じ参照ピクチャからの予測子を使用し得る。
【発明の概要】
【課題を解決するための手段】
【0022】
本開示の態様は、ビデオエンコーディング/デコーディングのための装置を提供する。装置は、コーディングされたビデオビットストリームの一部である現在のピクチャ内の現在のブロックの予測情報をデコーディングする処理回路を含む。予測情報は、現在のブロックについて無方向性イントラ予測モードを示す。処理回路は、現在のブロックを複数の区分に区分する。複数の区分は、少なくとも1つのL形状区分を含む。処理回路は、(i)複数の区分のうちの1つの隣接する再構築されたサンプル、または(ii)現在のブロックの隣接する再構築されたサンプルのうちの少なくとも1つに基づいて、複数の区分のうちの1つを再構築する。
【0023】
一実施形態では、隣接する再構築されたサンプルのうちの少なくとも1つは、複数の区分のうちの1つの右側または下側のうちの1つに隣接して位置する。
【0024】
一実施形態では、複数の区分のうちの1つはL形状区分であり、隣接する再構築されたサンプルの数はL形状区分の寸法に依存する。一例では、隣接する再構築されたサンプルの数は、L形状区分の幅と高さの合計である。別の例では、隣接する再構築されたサンプルの数は、L形状区分のより短い幅とより短い高さの合計である。別の例では、隣接する再構築されたサンプルの数は、L形状区分の幅および高さのうちの最大値である。別の例では、隣接する再構築されたサンプルの数は、L形状区分の幅および高さのうちの最小値である。
【0025】
一実施形態では、隣接する再構築されたサンプルのうちの少なくとも1つは、複数の区分のうちの1つより前に再構築された複数の区分のうちの別の1つに位置する。一例では、複数の区分のうちの別の1つはL形状区分であり、隣接する再構築されたサンプルのうちの少なくとも1つは、複数の区分のうちの1つの右側または下側のうちの1つに隣接して位置する。
【0026】
一実施形態では、処理回路は、(i)複数の区分のうちの1つの隣接する再構築されたサンプル、または(ii)現在のブロックの隣接する再構築されたサンプル、のうちの少なくとも1つに基づいて、複数の区分のうちの1つの複数の隣接する参照サンプルを決定する。処理回路は、複数の隣接する参照サンプルに基づいて、複数の区分のうちの1つを再構築する。
【0027】
一例では、隣接する再構築されたサンプルは、複数の区分のうちの1つの左の列および右の列の隣接する再構築されたサンプルを含む。処理回路は、複数の区分のうちの1つの左の列および右の列の隣接する再構築されたサンプルに基づいて、複数の区分のうちの1つの下の行の隣接する参照サンプルを決定する。処理回路は、複数の区分のうちの1つの下の行の隣接する参照サンプルに基づいて、複数の区分のうちの1つを再構築する。
【0028】
一例では、隣接する再構築されたサンプルは、複数の区分のうちの1つの上の行および下の行の隣接する再構築されたサンプルを含む。処理回路は、複数の区分のうちの1つの上の行および下の行の隣接する再構築されたサンプルに基づいて、複数の区分のうちの1つの左の列の隣接する参照サンプルを決定する。処理回路は、複数の区分のうちの1つの左の列の隣接する参照サンプルに基づいて、複数の区分のうちの1つを再構築する。
【0029】
一実施形態では、複数の区分のうちの1つはL形状区分であり、処理回路は、現在のブロックの左の列および上の行の隣接する再構築されたサンプルに基づいて、複数の区分のうちの1つを再構築する。
【0030】
一実施形態では、複数の区分のうちの1つがL形状区分であることに基づいて、処理回路は、L形状区分の各サンプルに関して、それぞれのサンプルの位置に基づいて複数の隣接する参照サンプルを決定する。処理回路は、それぞれのサンプルの複数の隣接する参照サンプルに基づいて、L形状区分の各サンプルを再構築する。
【0031】
一実施形態では、各サンプルの複数の隣接する参照サンプルは、再構築された隣接サンプルと、再構築された隣接サンプルに基づいて再構築された隣接サンプルとを含む。
【0032】
本開示の態様は、ビデオエンコーディング/デコーディングのための方法を提供する。本方法では、コーディングされたビデオビットストリームの一部である現在のピクチャ内の現在のブロックの予測情報がデコーディングされる。予測情報は、現在のブロックについて無方向性イントラ予測モードを示す。現在のブロックは、複数の区分に区分される。複数の区分は、少なくとも1つのL形状区分を含む。複数の区分のうちの1つは、(i)複数の区分のうちの1つの隣接する再構築されたサンプル、または(ii)現在のブロックの隣接する再構築されたサンプル、のうちの少なくとも1つに基づいて決定される。
【0033】
本開示の態様はまた、少なくとも1つのプロセッサによって実行されるときに、少なくとも1つのプロセッサに、ビデオデコーディングのための方法の任意の1つまたは組み合わせを実行させる命令を記憶する非一時的コンピュータ可読媒体を提供する。
【0034】
開示されている主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになる。
【図面の簡単な説明】
【0035】
図1A】イントラ予測モードの例示的なサブセットの概略図である。
図1B】例示的なイントラ予測方向の図である。
図1C】一例における現在のブロックおよびその周囲の空間マージ候補の概略図である。
図2】一実施形態による通信システムの簡略ブロック図の概略図である。
図3】一実施形態による通信システムの簡略ブロック図の概略図である。
図4】一実施形態によるデコーダの簡略ブロック図の概略図である。
図5】一実施形態によるエンコーダの簡略ブロック図の概略図である。
図6】別の実施形態によるエンコーダのブロック図を示す。
図7】別の実施形態によるデコーダのブロック図を示す。
図8】本開示の一部の実施形態による例示的なブロック区分を示す。
図9】本開示の一実施形態による、入れ子状の二分木構造を有する例示的な四分木を示す。
図10】本開示の一部の実施形態による、マルチタイプツリー構造における例示的なブロック区分を示す。
図11】本開示の一実施形態による例示的なL型区分を示す。
図12】本開示の一部の実施形態による、L型区分を使用する例示的なブロック区分を示す。
図13】本開示の一実施形態による例示的な公称角度を示す。
図14】本開示の一実施形態による、現在のブロック内の1つの画素に対する上、左、および左上のサンプルの位置を示す。
図15】本開示の一実施形態による例示的な再帰的フィルタイントラモードを示す。
図16】本開示の一実施形態による、コーディングブロックユニットに隣接する4つの参照ラインを使用する例示的なマルチラインイントラ予測を示す。
図17A】本開示の一部の実施形態による例示的な参照サンプルチェーン(RSC)を示す。
図17B】本開示の一部の実施形態による例示的な参照サンプルチェーン(RSC)を示す。
図17C】本開示の一部の実施形態による例示的な参照サンプルチェーン(RSC)を示す。
図17D】本開示の一部の実施形態による例示的な参照サンプルチェーン(RSC)を示す。
図17E】本開示の一部の実施形態による例示的な参照サンプルチェーン(RSC)を示す。
図17F】本開示の一部の実施形態による例示的な参照サンプルチェーン(RSC)を示す。
図18】本開示の一実施形態による例示的なRSCを示す。
図19A】本開示の一部の実施形態による例示的なRSCを示す。
図19B】本開示の一部の実施形態による例示的なRSCを示す。
図20A】本開示の一部の実施形態による例示的なRSCを示す。
図20B】本開示の一部の実施形態による例示的なRSCを示す。
図20C】本開示の一部の実施形態による例示的なRSCを示す。
図20D】本開示の一部の実施形態による例示的なRSCを示す。
図21】本開示の一実施形態による例示的なRSCを示す。
図22A】本開示の一部の実施形態による例示的なRSCを示す。
図22B】本開示の一部の実施形態による例示的なRSCを示す。
図23A】本開示の一部の実施形態による例示的なRSCを示す。
図23B】本開示の一部の実施形態による例示的なRSCを示す。
図24】本開示の一実施形態による例示的なRSCを示す。
図25A】本開示の一部の実施形態による例示的なRSCを示す。
図25B】本開示の一部の実施形態による例示的なRSCを示す。
図26】本開示の一実施形態による例示的なフローチャートを示す。
図27】一実施形態によるコンピュータシステムの概略図である。
【発明を実施するための形態】
【0036】
I.ビデオデコーダおよびエンコーダシステム
図2は、本開示の一実施形態による通信システム(200)の簡略ブロック図を示す。通信システム(200)は、例えばネットワーク(250)を介して互いに通信し得る複数の端末デバイスを含む。例えば、通信システム(200)は、ネットワーク(250)を介して相互接続された第1のペアの端末デバイス(210)および(220)を含む。図2の例では、第1のペアの端末デバイス(210)および(220)は、データの単方向送信を実行する。例えば、端末デバイス(210)は、ネットワーク(250)を介して他の端末デバイス(220)に送信するためにビデオデータ(例えば、端末デバイス(210)によって取り込まれたビデオピクチャのストリーム)をコーディングし得る。エンコーディングされたビデオデータは、1つ以上のコーディングされたビデオビットストリームの形式で送信され得る。端末デバイス(220)は、ネットワーク(250)からコーディングされたビデオデータを受信し、コーディングされたビデオデータをデコーディングしてビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示し得る。単方向データ送信は、メディアサービング用途などで一般的であり得る。
【0037】
別の例では、通信システム(200)は、例えばビデオ会議中に行われ得るコーディングされたビデオデータの双方向送信を実行する第2のペアの端末デバイス(230)および(240)を含む。データの双方向送信のために、一例では、端末デバイス(230)および(240)の各端末デバイスは、ネットワーク(250)を介して端末デバイス(230)および(240)の他方の端末デバイスに送信するためにビデオデータ(例えば、端末デバイスによって取り込まれたビデオピクチャのストリーム)をコーディングし得る。端末デバイス(230)および(240)の各端末デバイスはまた、端末デバイス(230)および(240)の他方の端末デバイスによって送信されたコーディングされたビデオデータを受信し得、コーディングされたビデオデータをデコーディングしてビデオピクチャを復元し得、復元されたビデオデータに従ってアクセス可能な表示デバイスにビデオピクチャを表示し得る。
【0038】
図2の例では、端末デバイス(210)、(220)、(230)、および(240)は、サーバ、パーソナルコンピュータ、およびスマートフォンとして示され得るが、本開示の原理はそのように限定され得ない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、および/または専用ビデオ会議機器に適用される。ネットワーク(250)は、例えば有線(ワイヤード)および/または無線通信ネットワークを含む、端末デバイス(210)、(220)、(230)、および(240)間でコーディングされたビデオデータを伝達する任意の数のネットワークを表す。通信ネットワーク(250)は、回路交換チャネルおよび/またはパケット交換チャネルでデータを交換し得る。代表的なネットワークは、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および/またはインターネットを含む。本解説の目的のために、ネットワーク(250)のアーキテクチャおよびトポロジは、本明細書で以下に説明されない限り、本開示の動作にとって重要ではあり得ない。
【0039】
図3は、開示されている主題の用途の例として、ストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を示す。開示されている主題は、例えばビデオ会議、デジタルTV、CD、DVD、およびメモリスティックなどを含むデジタル媒体への圧縮ビデオの記憶を含む、他のビデオ対応用途にも等しく適用可能であり得る。
【0040】
ストリーミングシステムは、例えば非圧縮のビデオピクチャのストリーム(302)を作成するビデオソース(301)、例えばデジタルカメラを含み得るキャプチャサブシステム(313)を含み得る。一例では、ビデオピクチャのストリーム(302)は、デジタルカメラによって撮られたサンプルを含む。エンコーディングされたビデオデータ(304)(またはコーディングされたビデオビットストリーム)と比較して大データ容量を強調するために太線として示されているビデオピクチャのストリーム(302)は、ビデオソース(301)に結合された、ビデオエンコーダ(303)を含む電子デバイス(320)によって処理され得る。ビデオエンコーダ(303)は、以下でより詳細に説明されるように、開示されている主題の態様を可能にするまたは実現するためにハードウェア、ソフトウェア、またはこれらの組み合わせを含み得る。エンコーディングされたビデオデータ(304)(またはエンコーディングされたビデオビットストリーム(304))は、ビデオピクチャのストリーム(302)と比較してより小データ容量を強調するために細い線として示されており、将来の使用のためにストリーミングサーバ(305)に記憶され得る。図3のクライアントサブシステム(306)および(308)などの1つ以上のストリーミングクライアントサブシステムは、エンコーディングされたビデオデータ(304)のコピー(307)および(309)を検索するためにストリーミングサーバ(305)にアクセスし得る。クライアントサブシステム(306)は、例えば電子デバイス(330)内にビデオデコーダ(310)を含み得る。ビデオデコーダ(310)は、エンコーディングされたビデオデータの入力コピー(307)をデコーディングし、ディスプレイ(312)(例えば、表示スクリーン)または他の描画デバイス(図示せず)上に描画され得るビデオピクチャの出力ストリーム(311)を作成する。一部のストリーミングシステムでは、エンコーディングされたビデオデータ(304)、(307)、および(309)(例えば、ビデオビットストリーム)は、特定のビデオコーディング/圧縮規格に従ってコーディングされ得る。それらの規格の例は、ITU-T勧告H.265を含む。一例では、開発中のビデオコーディング規格は、多用途ビデオコーディング(
VVC)として非公式に知られている。開示されている主題は、VVCの文脈で使用され得る。
【0041】
電子デバイス(320)および(330)は、他の構成要素(図示せず)を含み得ることに留意されたい。例えば、電子デバイス(320)はビデオデコーダ(図示せず)を含み得、電子デバイス(330)はビデオエンコーダ(図示せず)も含み得る。
【0042】
図4は、本開示の一実施形態によるビデオデコーダ(410)のブロック図を示す。ビデオデコーダ(410)は、電子デバイス(430)に含まれ得る。電子デバイス(430)は、受信機(431)(例えば、受信回路)を含み得る。ビデオデコーダ(410)は、図3の例のビデオデコーダ(310)の代わりに使用され得る。
【0043】
受信機(431)は、ビデオデコーダ(410)によってデコーディングされるべき1つ以上のコーディングされたビデオシーケンスを受信し得、同じまたは別の実施形態では、一度に1つのコーディングされたビデオシーケンスを受信し得、その場合、各コーディングされたビデオシーケンスのデコーディングは、他のコーディングされたビデオシーケンスから独立している。コーディングされたビデオシーケンスは、チャネル(401)から受信され得、チャネル(401)は、エンコーディングされたビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクであり得る。受信機(431)は、それぞれの使用エンティティ(図示せず)に転送され得る他のデータ、例えばコーディングされたオーディオデータストリームおよび/または補助データストリームと共に、エンコーディングされたビデオデータを受信し得る。受信機(431)は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッタに対抗するために、バッファメモリ(415)が、受信機(431)とエントロピーデコーダ/パーサ(420)(以下「パーサ(420)」)との間に結合され得る。特定の用途では、バッファメモリ(415)は、ビデオデコーダ(410)の一部である。他のものでは、それはビデオデコーダ(410)の外部にあり得る(図示せず)。さらに他のものでは、例えばネットワークジッタに対抗するためにビデオデコーダ(410)の外部にバッファメモリ(図示せず)があり、加えて、例えばプレイアウトタイミングを処理するためにビデオデコーダ(410)の内部に別のバッファメモリ(415)があり得る。受信機(431)が、十分な帯域幅および制御性を有する記憶/転送デバイスから、またはアイソシンクロナスネットワークからデータを受信している場合、バッファメモリ(415)は必要ない場合がある、または小さくされ得る。インターネットなどのベストエフォートパケットネットワークで使用するために、バッファメモリ(415)は、必要とされる場合があり、比較的大きくされ得、好適には適応サイズにされ得、ビデオデコーダ(410)の外部のオペレーティングシステムまたは同様の要素(図示せず)に少なくとも部分的に実装されてもよい。
【0044】
ビデオデコーダ(410)は、コーディングされたビデオシーケンスからシンボル(421)を再構築するためのパーサ(420)を含み得る。これらのシンボルのカテゴリは、ビデオデコーダ(410)の動作を管理するために使用される情報と、場合によっては、図4に示されているように、電子デバイス(430)の不可欠な部分ではないが、電子デバイス(430)に結合され得る描画デバイス(412)などの描画デバイス(例えば、表示スクリーン)を制御するための情報を含む。描画デバイスの制御情報は、補足拡張情報(SEI(Supplemental Enhancement Information)メッセージ)またはビデオユーザビリティ情報(VUI:Video Usability Information)パラメータセットフラグメント(図示せず)の形式であり得る。パーサ(420)は、受信されたコーディングされたビデオシーケンスを解析/エントロピーデコーディングし得る。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術または規格に準拠し得、可変長コーディング、ハフマンコーディング、および文脈依存性を伴うまたは伴わない算術コーディングなどを含む様々な原理に従い得る。パーサ(420)は、コーディングされたビデオシーケンスから、ビデオデコーダ内の画素のサブグループのうちの少なくとも1つに関するサブグループパラメータのセットを、そのグループに対応する少なくとも1つのパラメータに基づいて抽出し得る。サブグループは、グループオブピクチャ(GOP:Group of Pictures)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU:Coding Unit)、ブロック、変換ユニット(TU:Transform Unit)、および予測ユニット(PU:Prediction Unit)などを含み得る。パーサ(420)はまた、変換係数、量子化器パラメータ値、およびMVなどのコーディングされたビデオシーケンス情報から抽出し得る。
【0045】
パーサ(420)は、シンボル(421)を作成するために、バッファメモリ(415)から受信されたビデオシーケンスに対してエントロピーデコーディング/解析動作を実行し得る。
【0046】
シンボル(421)の再構築は、コーディングされたビデオピクチャまたはその部分のタイプ(インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロックなど)、ならびに他の要因に応じて、複数の異なるユニットを関与させ得る。どのユニットをどのように関与させるかは、パーサ(420)によってコーディングされたビデオシーケンスから解析されたサブグループ制御情報によって制御され得る。パーサ(420)と以下の複数のユニットとの間のこのようなサブグループ制御情報のフローは、明確にするために示されていない。
【0047】
既に言及された機能ブロックの他に、ビデオデコーダ(410)は、以下で説明されるように概念的にいくつかの機能ユニットに細分され得る。商業的な制約の下で動作する実際の実施態様では、これらのユニットの多くは互いに密接に相互作用し、少なくとも部分的に互いに統合され得る。しかしながら、開示されている主題を説明する目的のために、以下の機能ユニットに概念的に細分するのが適切である。
【0048】
最初のユニットは、スケーラ/逆変換ユニット(451)である。スケーラ/逆変換ユニット(451)は、量子化された変換係数と、使用する変換、ブロックサイズ、量子化係数、量子化スケーリング行列などを含む制御情報とをパーサ(420)からシンボル(421)として受信する。スケーラ/逆変換ユニット(451)は、アグリゲータ(455)に入力され得るサンプル値を含むブロックを出力し得る。
【0049】
場合によっては、スケーラ/逆変換(451)の出力サンプルは、イントラコーディングされたブロックに関係し得る、すなわち、以前に再構築されたピクチャからの予測情報を使用していないが、現在のピクチャの以前に再構築された部分からの予測情報を使用し得るブロックに関係し得る。このような予測情報は、イントラピクチャ予測ユニット(452)によって提供され得る。場合によっては、イントラピクチャ予測ユニット(452)は、現在のピクチャバッファ(458)からフェッチされた周囲の既に再構築された情報を使用して、再構築中のブロックと同じサイズおよび形状のブロックを生成する。現在のピクチャバッファ(458)は、例えば、部分的に再構築された現在のピクチャおよび/または完全に再構築された現在のピクチャをバッファリングする。アグリゲータ(455)は、場合によっては、サンプルごとに、イントラ予測ユニット(452)が生成した予測情報を、スケーラ/逆変換ユニット(451)によって提供される出力サンプル情報に追加する。
【0050】
他の場合には、スケーラ/逆変換ユニット(451)の出力サンプルは、インターコーディングされた、場合によっては動き補償されたブロックに関係し得る。このような場合、動き補償予測ユニット(453)は、予測に使用されるサンプルをフェッチするために参照ピクチャメモリ(457)にアクセスし得る。ブロックに関係するシンボル(421)に従って、フェッチされたサンプルを動き補償した後、これらのサンプル(この場合、残差サンプルまたは残差信号と呼ばれる)は、出力サンプル情報を生成するために、アグリゲータ(455)によってスケーラ/逆変換ユニット(451)の出力に追加され得る。動き補償予測ユニット(453)が予測サンプルをフェッチする参照ピクチャメモリ(457)内のアドレスは、例えばX、Y、および参照ピクチャ成分を有し得るシンボル(421)の形式で動き補償予測ユニット(453)に利用可能なMVによって制御され得る。動き補償はまた、サブサンプルの正確なMVが使用されているときに参照ピクチャメモリ(457)からフェッチされたサンプル値の補間、およびMV予測メカニズムなどを含み得る。
【0051】
アグリゲータ(455)の出力サンプルは、ループフィルタユニット(456)で様々なループフィルタリング技術を受け得る。ビデオ圧縮技術は、コーディングされたビデオシーケンス(コーディングされたビデオビットストリームとも呼ばれる)に含まれ、パーサ(420)からのシンボル(421)としてループフィルタユニット(456)に利用可能にされたパラメータによって制御されるループ内フィルタ技術を含み得るが、これはまた、コーディングされたピクチャまたはコーディングされたビデオシーケンスの(デコーディング順序で)前の部分のデコーディング中に取得されたメタ情報に応答し、また以前に再構築されループフィルタリングされたサンプル値に応答し得る。
【0052】
ループフィルタユニット(456)の出力は、描画デバイス(412)に出力され得るだけでなく、将来のインターピクチャ予測で使用するために参照ピクチャメモリ(457)に記憶され得るサンプルストリームであり得る。
【0053】
特定のコーディングされたピクチャは、完全に再構築されると、将来の予測のための参照ピクチャとして使用され得る。例えば、現在のピクチャに対応するコーディングされたピクチャが完全に再構築され、コーディングされたピクチャが(例えば、パーサ(420)によって)参照ピクチャとして識別されると、現在のピクチャバッファ(458)は、参照ピクチャメモリ(457)の一部になり得、新しい現在のピクチャバッファは、後続のコーディングされたピクチャの再構築を開始する前に再割り当てされ得る。
【0054】
ビデオデコーダ(410)は、ITU-T Rec.H.265などの規格における所定のビデオ圧縮技術に従ってデコーディング動作を実行し得る。コーディングされたビデオシーケンスは、コーディングされたビデオシーケンスが、ビデオ圧縮技術または規格で文書化されているようなビデオ圧縮技術または規格のシンタックスおよびプロファイルの両方に準拠するという意味で、使用されているビデオ圧縮技術または規格によって指定されたシンタックスに準拠し得る。具体的には、プロファイルは、ビデオ圧縮技術または規格で利用可能なすべてのツールの中から、そのプロファイルの下での使用に利用可能な唯一のツールとして特定のツールを選択し得る。また、コンプライアンスのために必要なのは、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって定義された範囲内にあることであり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構築サンプルレート(例えば毎秒メガサンプルで測定される)、および最大参照ピクチャサイズなどを制限する。レベルによって設定された限界は、場合によっては、仮想参照デコーダ(HRD:Hypothetical Reference Decoder)の仕様、およびコーディングされたビデオシーケンスでシグナリングされるHRDバッファ管理のメタデータによってさらに制限され得る。
【0055】
一実施形態では、受信機(431)は、エンコーディングされたビデオと共に追加の(冗長な)データを受信し得る。追加のデータは、コーディングされたビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切にデコーディングするために、および/または元のビデオデータをより正確に再構築するためにビデオデコーダ(410)によって使用され得る。追加のデータは、例えば、時間、空間、または信号ノイズ比(SNR:signal noise ratio)拡張層、冗長スライス、冗長ピクチャ、および前方誤り訂正コードなどの形式であり得る。
【0056】
図5は、本開示の一実施形態によるビデオエンコーダ(503)のブロック図を示す。ビデオエンコーダ(503)は、電子デバイス(520)に含まれる。電子デバイス(520)は、送信機(540)(例えば、送信回路)を含む。ビデオエンコーダ(503)は、図3の例のビデオエンコーダ(303)の代わりに使用され得る。
【0057】
ビデオエンコーダ(503)は、ビデオエンコーダ(503)によってコーディングされるべきビデオ画像を取り込み得るビデオソース(501)(図5の例では電子デバイス(520)の一部ではない)からビデオサンプルを受信し得る。別の例では、ビデオソース(501)は電子デバイス(520)の一部である。
【0058】
ビデオソース(501)は、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、…)、任意の色空間(例えば、BT.601 Y CrCB、RGB、…)、および任意の適切なサンプリング構造(例えば、Y CrCb 4:2:0、Y CrCb 4:4:4)であり得るデジタルビデオサンプルストリームの形式で、ビデオエンコーダ(503)によってコーディングされるべきソースビデオシーケンスを提供し得る。メディアサービングシステムでは、ビデオソース(501)は、以前に準備されたビデオを記憶する記憶デバイスであり得る。ビデオ会議システムでは、ビデオソース(501)は、ローカル画像情報をビデオシーケンスとして取り込むカメラであり得る。ビデオデータは、順番に見られたときに動きを伝える複数の個々のピクチャとして提供され得る。ピクチャ自体は、画素の空間アレイとして編成され得、各画素は、使用中のサンプリング構造、色空間などに応じて1つ以上のサンプルを含み得る。当業者であれば、画素とサンプルとの関係を容易に理解し得る。以下の説明は、サンプルに焦点を合わせている。
【0059】
一実施形態によれば、ビデオエンコーダ(503)は、用途の要求に応じて、リアルタイムで、または任意の他の時間的制約の下で、ソースビデオシーケンスのピクチャをコーディングし、コーディングされたビデオシーケンス(543)に圧縮し得る。適切なコーディング速度を実現することは、コントローラ(550)の1つの機能である。一部の実施形態では、コントローラ(550)は、以下で説明されるように他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。明確にするために、結合は示されていない。コントローラ(550)によって設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、…)、ピクチャサイズ、グループオブピクチャ(GOP:Group of Pictures)レイアウト、および最大MV許容参照領域などを含み得る。コントローラ(550)は、特定のシステム設計に最適化されたビデオエンコーダ(503)に関係する他の適切な機能を有するように構成され得る。
【0060】
一部の実施形態では、ビデオエンコーダ(503)は、コーディングループで動作するように構成される。過度に簡略化された説明として、一例では、コーディングループは、ソースコーダ(530)(例えば、コーディングされるべき入力ピクチャと、参照ピクチャとに基づいて、シンボルストリームなどのシンボルを作成することを担当する)と、ビデオエンコーダ(503)に組み込まれた(ローカル)デコーダ(533)とを含み得る。デコーダ(533)は、同じく(リモート)デコーダが作成するのと同様の方法(開示されている主題で考慮されているビデオ圧縮技術において、シンボルとコーディングされたビデオビットストリームとの間の圧縮が可逆的であるとき)でサンプルデータを作成するためにシンボルを再構築する。再構築されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(534)に入力される。シンボルストリームのデコーディングは、デコーダの位置(ローカルまたはリモート)に関係なくビット正確(bit exact)な結果をもたらすため、参照ピクチャメモリ(534)の内容もローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えれば、エンコーダの予測部分は、デコーディング中に予測を使用するときにデコーダが「見る」のとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性(および例えばチャネルエラーに起因して同期性が維持され得ない場合に結果として生じるドリフト)のこの基本原理は、一部の関連技術でも使用される。
【0061】
「ローカル」デコーダ(533)の動作は、図4に関連して上記で既に詳細に説明された、ビデオデコーダ(410)などの「リモート」デコーダの動作と同じであり得る。しかしながら、図4も簡単に参照すると、シンボルが利用可能であり、エントロピーコーダ(545)およびパーサ(420)によるシンボルの、コーディングされたビデオシーケンスへのエンコーディング/コーディングされたビデオシーケンスからのデコーディングが可逆的であり得るため、バッファメモリ(415)およびパーサ(420)を含む、ビデオデコーダ(410)のエントロピーデコーディング部分は、ローカルデコーダ(533)では完全に実現されなくてもよい。
【0062】
この点で行われ得る観察は、デコーダに存在する解析/エントロピーデコーディング以外のデコーダ技術が、実質的に同一の機能形式で、対応するエンコーダにも必ず存在する必要があることである。このため、開示されている主題はデコーダ動作に焦点を合わせている。エンコーダ技術の説明は、包括的に説明されているデコーダ技術の逆であるため、省略され得る。特定の領域に関してのみ、より詳細な説明が必要とされ、以下で提供される。
【0063】
動作中、一部の例では、ソースコーダ(530)は、「参照ピクチャ」として指定された、ビデオシーケンスからの1つ以上の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする動き補償予測コーディングを実行し得る。このようにして、コーディングエンジン(532)は、入力ピクチャの画素ブロックと、入力ピクチャに対する予測参照として選択され得る参照ピクチャの画素ブロックとの差をコーディングする。
【0064】
ローカルビデオデコーダ(533)は、ソースコーダ(530)によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータをデコーディングし得る。コーディングエンジン(532)の動作は、好適には非可逆プロセスであり得る。コーディングされたビデオデータがビデオデコーダ(図5には示されていない)でデコーディングされ得るとき、再構築されたビデオシーケンスは通常、いくらかの誤差を有するソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ(533)は、参照ピクチャに対してビデオデコーダによって実行され得るデコーディングプロセスを複製し、再構築された参照ピクチャを参照ピクチャキャッシュ(534)に記憶させ得る。このようにして、ビデオエンコーダ(503)は、(送信エラーがなければ)遠端ビデオデコーダによって取得される再構築された参照ピクチャと共通の内容を有する再構築された参照ピクチャのコピーをローカルに記憶し得る。
【0065】
予測器(535)は、コーディングエンジン(532)のための予測検索を実行し得る。すなわち、コーディングされるべき新しいピクチャに関して、予測器(535)は、新しいピクチャのための適切な予測参照として機能し得るサンプルデータ(候補参照画素ブロックとしての)、または参照ピクチャMVおよびブロック形状などの特定のメタデータに関して参照ピクチャメモリ(534)を検索し得る。予測器(535)は、適切な予測参照を見つけるために、サンプルブロック・画素ブロックごとに動作し得る。場合によっては、予測器(535)によって取得された検索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ(534)に記憶された複数の参照ピクチャの中から引き出された予測参照を有し得る。
【0066】
コントローラ(550)は、例えば、ビデオデータをエンコーディングするために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ(530)のコーディング動作を管理し得る。
【0067】
前述のすべての機能ユニットの出力は、エントロピーコーダ(545)でエントロピーコーディングを受け得る。エントロピーコーダ(545)は、ハフマンコーディング、可変長コーディング、および算術コーディングなどの技術に従ってシンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。
【0068】
送信機(540)は、エンコーディングされたビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクであり得る通信チャネル(560)を介した送信を準備するために、エントロピーコーダ(545)によって作成されたコーディングされたビデオシーケンスをバッファリングし得る。送信機(540)は、ビデオコーダ(503)からのコーディングされたビデオデータと、送信されるべき他のデータ、例えばコーディングされたオーディオデータストリームおよび/または補助データストリーム(ソースは図示せず)とをマージし得る。
【0069】
コントローラ(550)は、ビデオエンコーダ(503)の動作を管理し得る。コーディング中、コントローラ(550)は、特定のコーディングされたピクチャのタイプを各コーディングされたピクチャに割り当て得、これは、それぞれのピクチャに適用され得るコーディング技術に影響を及ぼし得る。例えば、ピクチャは、多くの場合、以下のピクチャタイプのうちの1つとして割り当てられ得る。
【0070】
イントラピクチャ(Iピクチャ)は、シーケンス内の他のピクチャを予測のソースとして使用せずにコーディングおよびデコーディングされ得るものであり得る。一部のビデオコーデックは、例えば独立デコーダリフレッシュ(「IDR:Independent Decoder Refresh」)ピクチャを含む様々なタイプのイントラピクチャに対応する。当業者は、Iピクチャのそれらの変種ならびにそれらのそれぞれの用途および特徴を認識している。
【0071】
予測ピクチャ(Pピクチャ)は、各ブロックのサンプル値を予測するために最大で1つのMVおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよびデコーディングされ得るものであり得る。
【0072】
双方向予測ピクチャ(Bピクチャ)は、各ブロックのサンプル値を予測するために最大で2つのMVおよび参照インデックスを使用するイントラ予測またはインター予測を使用してコーディングおよびデコーディングされ得るものであり得る。同様に、複数の予測ピクチャは、単一のブロックの再構築のために2つより多くの参照ピクチャおよび関連メタデータを使用し得る。
【0073】
ソースピクチャは、一般的には、複数のサンプルブロック(例えば、4×4、8×8、4×8、または16×16のサンプルそれぞれのブロック)に空間的に細分され、ブロックごとにコーディングされ得る。ブロックは、ブロックのそれぞれのピクチャに適用されたコーディング割り当てによって決定されるように他の(既にコーディングされた)ブロックを参照して予測的にコーディングされ得る。例えば、Iピクチャのブロックは、非予測的にコーディングされ得るか、または同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされ得る(空間予測またはイントラ予測)。Pピクチャの画素ブロックは、空間予測によってまたは時間予測によって、以前にコーディングされた1つの参照ピクチャを参照して予測的にコーディングされ得る。Bピクチャのブロックは、空間予測によってまたは時間予測によって、以前にコーディングされた1つまたは2つの参照ピクチャを参照して予測的にコーディングされ得る。
【0074】
ビデオエンコーダ(503)は、ITU-T Rec.H.265などの所定のビデオコーディング技術または規格に従ってコーディング動作を実行し得る。その動作において、ビデオエンコーダ(503)は、入力ビデオシーケンスの時間的および空間的冗長性を利用する予測コーディング動作を含む様々な圧縮動作を実行し得る。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術または規格によって指定されたシンタックスに準拠し得る。
【0075】
一実施形態では、送信機(540)は、エンコーディングされたビデオと共に追加のデータを送信し得る。ソースコーダ(530)は、このようなデータを、コーディングされたビデオシーケンスの一部として含み得る。追加のデータは、時間/空間/SNR拡張層、冗長ピクチャおよびスライスなどの他の形式の冗長データ、SEIメッセージ、およびVUIパラメータセットフラグメントなどを含み得る。
【0076】
ビデオは、時系列の複数のソースピクチャ(ビデオピクチャ)として取り込まれ得る。イントラピクチャ予測(しばしばイントラ予測と略される)は、所与のピクチャにおける空間的相関を利用し、インターピクチャ予測は、ピクチャ間の(時間的または他の)相関を利用する。一例では、現在のピクチャと呼ばれるエンコーディング/デコーディング中の特定のピクチャはブロックに区分される。現在のピクチャ内のブロックが、ビデオ内の以前にコーディングされ、まだバッファリングされている参照ピクチャ内の参照ブロックと同様である場合、現在のピクチャ内のブロックは、MVと呼ばれるベクトルによってコーディングされ得る。MVは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用されている場合、参照ピクチャを識別する第3の次元を有し得る。
【0077】
一部の実施形態では、インターピクチャ予測に双予測技術が使用され得る。双予測技術によれば、両方ともデコーディング順序でビデオ内で現在のピクチャより前にある(が、表示順でそれぞれ過去および未来のものであってもよい)第1の参照ピクチャおよび第2の参照ピクチャなどの2つの参照ピクチャが使用される。現在のピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指す第1のMVと、第2の参照ピクチャ内の第2の参照ブロックを指す第2のMVとによってコーディングされ得る。ブロックは、第1の参照ブロックと第2の参照ブロックとの組み合わせによって予測され得る。
【0078】
さらに、コーディング効率を改善するために、インターピクチャ予測にマージモード技術が使用され得る。
【0079】
本開示の一部の実施形態によれば、インターピクチャ予測およびイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、HEVC規格によれば、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット(CTU:coding tree unit)に区分され、ピクチャ内のCTUは、64×64画素、32×32画素、または16×16画素などの同じサイズを有する。一般に、CTUは、1つのルマCTBおよび2つのクロマCTBである3つのコーディングツリーブロック(CTB:coding tree block)を含む。各CTUは、1つまたは複数のコーディングユニット(CU:coding unit)に再帰的に四分木分割され得る。例えば、64×64画素のCTUは、64×64画素の1つのCU、または32×32画素の4つのCU、または16×16画素の16個のCUに分割され得る。一例では、各CUは、インター予測タイプまたはイントラ予測タイプなどのCUの予測タイプを決定するために分析される。CUは、時間的および/または空間的な予測可能性に応じて、1つ以上の予測ユニット(PU:prediction unit)に分割される。一般に、各PUは、ルマ予測ブロック(PB:prediction block)と、2つのクロマPBとを含む。一実施形態では、コーディング(エンコーディング/デコーディング)における予測動作は、予測ブロックの単位で実行される。予測ブロックの例としてルマ予測ブロックを使用すると、予測ブロックは、8×8画素、16×16画素、8×16画素、および16×8画素などの画素の値(例えば、ルマ値)の行列を含む。
【0080】
図6は、本開示の別の実施形態によるビデオエンコーダ(603)の図を示す。ビデオエンコーダ(603)は、ビデオピクチャのシーケンス内の現在のビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受信し、処理ブロックを、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャにエンコーディングするように構成される。一例では、ビデオエンコーダ(603)は、図3の例のビデオエンコーダ(303)の代わりに使用される。
【0081】
HEVCの例では、ビデオエンコーダ(603)は、8×8サンプルなどの予測ブロックなどの処理ブロックのサンプル値の行列を受信する。ビデオエンコーダ(603)は、処理ブロックが、例えばレート歪み最適化を使用して、イントラモード、インターモード、または双予測モードのいずれを使用すれば最良にコーディングされるかを判定する。処理ブロックがイントラモードでコーディングされるべき場合、ビデオエンコーダ(603)は、処理ブロックをコーディングされたピクチャにエンコーディングするために、イントラ予測技術を使用し得、処理ブロックがインターモードまたは双予測モードでコーディングされるべき場合、ビデオエンコーダ(603)は、処理ブロックをコーディングされたピクチャにエンコーディングするために、それぞれインター予測技術または双予測技術を使用し得る。特定のビデオコーディング技術では、マージモードはインターピクチャ予測サブモードであり得、MVは、予測子の外部のコーディングされたMV成分の恩恵なしに1つ以上のMV予測子から導出される。特定の他のビデオコーディング技術では、対象ブロックに適用可能なMV成分が存在し得る。一例では、ビデオエンコーダ(603)は、処理ブロックのモードを決定するためのモード決定モジュール(図示せず)などの他の構成要素を含む。
【0082】
図6の例では、ビデオエンコーダ(603)は、図6に示されているように互いに結合されたインターエンコーダ(630)、イントラエンコーダ(622)、残差計算器(623)、スイッチ(626)、残差エンコーダ(624)、汎用コントローラ(621)、およびエントロピーエンコーダ(625)を含む。
【0083】
インターエンコーダ(630)は、現在のブロック(例えば、処理ブロック)のサンプルを受信し、そのブロックと、参照ピクチャ内の1つ以上の参照ブロック(例えば、前のピクチャおよび後のピクチャ内のブロック)とを比較し、インター予測情報(例えば、インターエンコーディング技術、MV、マージモード情報による冗長情報の記述)を生成し、任意の適切な技術を使用してインター予測情報に基づいてインター予測結果(例えば、予測ブロック)を計算するように構成される。一部の例では、参照ピクチャは、エンコーディングされたビデオ情報に基づいてデコーディングされたデコーディングされた参照ピクチャである。
【0084】
イントラエンコーダ(622)は、現在のブロック(例えば、処理ブロック)のサンプルを受信し、場合によっては、そのブロックと、同じピクチャ内の既にコーディングされているブロックとを比較し、変換後に量子化係数を生成し、場合によっては、イントラ予測情報(例えば、1つ以上のイントラエンコーディング技術によるイントラ予測方向情報)も生成するように構成される。一例では、イントラエンコーダ(622)は、イントラ予測情報と、同じピクチャ内の参照ブロックとに基づいてイントラ予測結果(例えば、予測ブロック)も計算する。
【0085】
汎用コントローラ(621)は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ(603)の他の構成要素を制御するように構成される。一例では、汎用コントローラ(621)は、ブロックのモードを決定し、モードに基づいてスイッチ(626)に制御信号を提供する。例えば、モードがイントラモードである場合、汎用コントローラ(621)は、残差計算器(623)によって使用するためにイントラモード結果を選択するようにスイッチ(626)を制御し、イントラ予測情報を選択し、イントラ予測情報をビットストリームに含めるようにエントロピーエンコーダ(625)を制御し、モードがインターモードである場合、汎用コントローラ(621)は、残差計算器(623)によって使用するためにインター予測結果を選択するようにスイッチ(626)を制御し、インター予測情報を選択し、インター予測情報をビットストリームに含めるようにエントロピーエンコーダ(625)を制御する。
【0086】
残差計算器(623)は、受信されたブロックと、イントラエンコーダ(622)またはインターエンコーダ(630)から選択された予測結果との差分(残差データ)を計算する。残差エンコーダ(624)は、変換係数を生成するために残差データをエンコーディングするために残差データに基づいて動作するように構成される。一例では、残差エンコーダ(624)は、残差データを空間領域から周波数領域に変換し、変換係数を生成するように構成される。変換係数は次に、量子化された変換係数を取得するために量子化処理を受ける。様々な実施形態において、ビデオエンコーダ(603)は、残差デコーダ(628)も含む。残差デコーダ(628)は、逆変換を実行し、デコーディングされた残差データを生成するように構成される。デコーディングされた残差データは、イントラエンコーダ(622)およびインターエンコーダ(630)によって適切に使用され得る。例えば、インターエンコーダ(630)は、デコーディングされた残差データとインター予測情報とに基づいて、デコーディングされたブロックを生成し得、イントラエンコーダ(622)は、デコーディングされた残差データとイントラ予測情報とに基づいて、デコーディングされたブロックを生成し得る。一部の例では、デコーディングされたブロックは、デコーディングされたピクチャを生成するために適切に処理され、デコーディングされたピクチャは、メモリ回路(図示せず)にバッファリングされ、参照ピクチャとして使用され得る。
【0087】
エントロピーエンコーダ(625)は、エンコーディングされたブロックを含むようにビットストリームをフォーマットするよう構成される。エントロピーエンコーダ(625)は、HEVCなどの適切な規格に従って様々な情報を含むように構成される。一例では、エントロピーエンコーダ(625)は、汎用制御データ、選択された予測情報(例えば、イントラ予測情報またはインター予測情報)、残差情報、および他の適切な情報をビットストリームに含めるように構成される。開示されている主題によれば、インターモードまたは双予測モードのいずれかのマージサブモードでブロックをコーディングする場合、残差情報は存在しないことに留意されたい。
【0088】
図7は、本開示の別の実施形態によるビデオデコーダ(710)の図を示す。ビデオデコーダ(710)は、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャを受信し、コーディングされたピクチャをデコーディングして再構築されたピクチャを生成するように構成される。一例では、ビデオデコーダ(710)は、図3の例のビデオデコーダ(310)の代わりに使用される。
【0089】
図7の例では、ビデオデコーダ(710)は、図7に示されているように互いに結合されたエントロピーデコーダ(771)、インターデコーダ(780)、残差デコーダ(773)、再構築モジュール(774)、およびイントラデコーダ(772)を含む。
【0090】
エントロピーデコーダ(771)は、コーディングされたピクチャから、コーディングされたピクチャが構成されているシンタックス要素を表す特定のシンボルを再構築するように構成され得る。このようなシンボルは、例えば、ブロックがコーディングされているモード(例えば、イントラモード、インターモード、双予測モードなど、後者の2つはマージサブモードまたは別のサブモードである)、イントラデコーダ(772)またはインターデコーダ(780)によってそれぞれ予測に使用される特定のサンプルまたはメタデータを識別し得る予測情報(例えば、イントラ予測情報またはインター予測情報など)、および例えば量子化された変換係数の形式の残差情報などを含み得る。一例では、予測モードがインター予測モードまたは双予測モードである場合、インター予測情報がインターデコーダ(780)に提供され、予測タイプがイントラ予測タイプである場合、イントラ予測情報がイントラデコーダ(772)に提供される。残差情報は逆量子化を受け得、残差デコーダ(773)に提供される。
【0091】
インターデコーダ(780)は、インター予測情報を受信し、インター予測情報に基づいてインター予測結果を生成するように構成される。
【0092】
イントラデコーダ(772)は、イントラ予測情報を受信し、イントラ予測情報に基づいて予測結果を生成するように構成される。
【0093】
残差デコーダ(773)は、逆量子化を実行して、逆量子化された変換係数を抽出し、逆量子化された変換係数を処理して残差を周波数領域から空間領域に変換するように構成される。残差デコーダ(773)はまた、特定の制御情報(量子化器パラメータ(QP:Quantizer Parameter)を含む)を必要とし得、その情報は、エントロピーデコーダ(771)によって提供され得る(これとして示されていないデータ経路は、小容量制御情報のみであり得る)。
【0094】
再構築モジュール(774)は、空間領域において、残差デコーダ(773)によって出力される残差と、予測結果(場合によってインター予測モジュールまたはイントラ予測モジュールによって出力される)とを組み合わせて、結果的に再構築されたビデオの一部になり得る再構築されたピクチャの一部であり得る再構築されたブロックを形成するように構成される。視覚的品質を改善するために、デブロッキング動作などの他の適切な動作が実行され得ることに留意されたい。
【0095】
ビデオエンコーダ(303)、(503)、および(603)、ならびにビデオデコーダ(310)、(410)、および(710)は、任意の適切な技術を使用して実施され得ることに留意されたい。一実施形態では、ビデオエンコーダ(303)、(503)、および(603)、ならびにビデオデコーダ(310)、(410)、および(710)は、1つ以上の集積回路を使用して実施され得る。別の実施形態では、ビデオエンコーダ(303)、(503)、および(603)、ならびにビデオデコーダ(310)、(410)、および(710)は、ソフトウェア命令を実行する1つ以上のプロセッサを使用して実現され得る。
【0096】
II.ブロック区分
図8は、本開示の一部の実施形態による例示的なブロック区分を示す。
【0097】
Alliance for Open Media(AOMedia)によって提案されているVP9などの一部の関連する例では、図8に示されているように、8×8以下のブロックのいくつかのさらなる制限を伴う、64×64レベルから4×4レベルまでの4通りの区分ツリーが使用され得る。Rとして指定されている区分は再帰的区分と呼ばれ得ることに留意されたい。すなわち、同じ区分ツリーが、最も低い4×4レベルに達するまでより低いスケールで繰り返される。
【0098】
AOMediaによって提案されているAV1などの一部の関連する例では、区分ツリーは、図8に示されているように10通りの構造に拡張され得、最大コーディングブロックサイズ(VP9/AV1の用語ではスーパーブロックと呼ばれる)は、128×128から始まるように増加されている。4:1/1:4の矩形区分はAV1に含まれるが、VP9には含まれないことに留意されたい。矩形区分のいずれもさらに細分され得ない。加えて、AV1では、一部の例で2×2のクロマブロックに対してインター予測が実行され得るため、8×8レベル未満の区分の使用において、より高い柔軟性がサポートされ得る。
【0099】
HEVCなどの一部の関連する例では、CTUは、様々なローカル特性に適応するためにコーディングツリーとして表される四分木構造を使用してCUに分割され得る。インターピクチャ(時間)予測とイントラピクチャ(空間)予測のどちらを使用してピクチャ領域をコーディングするかの決定は、CUレベルで行われ得る。各CUは、PU分割タイプに従って1つ、2つ、または4つのPUにさらに分割し得る。1つのPUの内部では、同じ予測プロセスが適用され得、関連情報がPUベースでデコーダに送信され得る。PU分割タイプに基づいて予測プロセスを適用することによって残差ブロックを取得した後、CUは、CUのコーディングツリーのような別の四分木構造に従ってTUに区分され得る。HEVC構造の1つの重要な特徴は、それがCU、PU、およびTUを含む複数の区分の概念を有することである。HEVCでは、CUまたはTUは正方形の形状のみであり得、PUは、インター予測されたブロックに関して正方形または矩形の形状であり得る。HEVCでは、1つのコーディングブロックは、4つの正方形サブブロックにさらに分割され得、各サブブロック、すなわちTUに対して変換プロセスが実行され得る。各TUは、(例えば、四分木分割を使用して)より小さいTUに再帰的にさらに分割され得る。四分木分割は、残差四分木(RQT:residual quadtree)と呼ばれ得る。
【0100】
ピクチャ境界では、HEVCは暗黙的な四分木分割を用い、これにより、ブロックのサイズがピクチャ境界に適合するまでブロックは四分木分割を実行し続け得る。
【0101】
図9は、本開示の一実施形態による、入れ子状の二分木構造を有する例示的な四分木を示す。
【0102】
図10は、本開示の一部の実施形態による、マルチタイプツリー構造における例示的なブロック区分を示す。
【0103】
VVCなどの一部の関連する例では、入れ子状の二分木(BT:binary tree)およびトリプルツリー(三分木)(TT:triple tree)と四分木(QT:quadtree)との組み合わせであるマルチタイプツリー(MTT:multi-type-tree)構造が使用され得る。CTUまたはCUは、最初にQTによって正方形の形状のブロックに再帰的に区分され得る。次に、各QTリーフは、BTまたはTTによってさらに区分され得、BTおよびTT分割は再帰的に適用されてインターリーブされ得るが、さらなるQT区分は適用され得ない。一部の例では、TTは、2の累乗でない幅および高さを回避するために、1:2:1の比を使用して矩形ブロックを垂直または水平に3つのブロックに分割する。区分競合防止のために、追加の分割制約が、典型的には、重複区分を回避するためにMTTに課される(例えば、垂直/水平3分割から生じる中間区分での垂直/水平2分割を禁止する)。さらなる制限は、BTおよびTT分割の最大深さに設定される。
【0104】
図11は、本開示の一実施形態による例示的なL型区分を示す。矩形ブロック区分を使用する代わりに、L型区分は、ブロックを1つ以上のL形状区分と1つ以上の矩形区分とに分割し得る。図11に示されているように、L形状(またはL型)区分は、幅、高さ、より短い幅、およびより短い高さを有し得る。回転されたL形状区分も、本開示ではL形状区分と見なされ得る。
【0105】
図12は、本開示の一部の実施形態による、L型区分を使用する例示的なブロック区分を示す。L型区分に基づいて、1つのブロックは、1つのL形状区分(区分1)および1つの矩形区分(区分0)を含む2つの区分に区分され得る。
【0106】
III.イントラ予測
VP9などの一部の関連する例では、45度から207度の角度に対応する8つの方向性モードがサポートされる。方向性テクスチャにおけるより多様な空間的冗長性を利用するために、AV1などの一部の関連する例では、方向性イントラモードは、より細かい粒度で設定された角度に拡張される。元の8つの角度はわずかに変更され、公称角度と呼ばれ、これらの8つの公称角度は、V_PRED、H_PRED、D45_PRED、D135_PRED、D113_PRED、D157_PRED、D203_PRED、およびD67_PREDと名付けられている。
【0107】
図13は、本開示の一実施形態による例示的な公称角度を示す。各公称角度は、より細かい7つの角度に関連付けられ得、このため、AV1などの一部の関連する例では、合計56個の方向性角度があり得る。予測角度は、公称イントラ角度+角度デルタによって表され得る。角度デルタは、3度のステップサイズを乗算した係数に等しくされ得る。係数は、-3から3の範囲であり得る。一般的な方法でAV1の方向性予測モードを実施するために、AV1の56個の方向性イントラ予測角度のすべては、各画素を参照サブ画素位置に投影し、2タップ双線形フィルタによって参照サブ画素を補間する統一された方向性予測子で実施され得る。
【0108】
AV1などの一部の関連する例では、DC、PAETH、SMOOTH、SMOOTH_V、およびSMOOTH_Hである5つの無方向性平滑イントラ予測モードがある。DC予測の場合、左および上の隣接サンプルの平均が、予測されるべきブロックの予測子として使用される。PAETH予測の場合、最初に上、左、および左上の参照サンプルがフェッチされ、次に(上+左-左上)に最も近い値が、予測されるべき画素の予測子として設定される。
【0109】
図14は、本開示の一実施形態による、現在のブロック内の1つの画素に対する上、左、および左上のサンプルの位置を示す。SMOOTH、SMOOTH_V、およびSMOOTH_Hモードの場合、ブロックは、垂直方向もしくは水平方向の二次補間、または両方向の平均を使用して予測される。
【0110】
図15は、本開示の一実施形態による例示的な再帰的フィルタイントラモードを示す。
【0111】
エッジ上の参照との減衰する空間的相関を捉えるために、FILTER INTRAモードはルマブロックのために設計されている。AV1では、5つのフィルタイントラモードが定義されており、これらはそれぞれ、4×2パッチ内の画素とそのパッチに隣接する7つの隣接要素との相関を反映する8つの7タップフィルタのセットで表される。例えば、7タップフィルタの重み係数は位置に依存する。図15に示されているように、8×8ブロックは、B0、B1、B2、B3、B4、B5、B6、およびB7で示されている8つの4×2パッチに分割される。各パッチに関して、R0~R7で示されているその7つの隣接要素は、それぞれのパッチ内の画素を予測するために使用される。パッチB0に関して、すべての隣接要素は既に再構築されている。しかしながら、他のパッチに関しては、すべての隣接要素が再構築されているわけではないため、直近の隣接要素の予測値が参照値として使用される。例えば、パッチB7のすべての隣接要素は再構築されていないので、パッチB7の隣接要素(すなわち、B5およびB6)の予測サンプルが代わりに使用される。
【0112】
クロマ成分に関して、ルマからのクロマ(CfL:chroma from luma)モードと呼ばれるクロマのみのイントラ予測モードは、一致する再構築されたルマ画素の線形関数としてクロマ画素をモデル化する。CfL予測は、以下のように表現され得る。
CfL(α)=α×LAC+DC 式(1)
ただし、LACはルマ成分のAC寄与を表し、αは線形モデルのパラメータを表し、DCはクロマ成分のDC寄与を表す。一例では、再構築されたルマ画素がクロマ解像度にサブサンプリングされ、次に平均値が、AC寄与を形成するために減算される。AC寄与からクロマAC成分を近似するために、一部の関連する例のようにスケーリングパラメータを計算するためにデコーダを必要とする代わりに、AC1のCfLモードは、元のクロマ画素に基づいてパラメータαを決定し、それらをビットストリームでシグナリングする。これにより、デコーダの複雑さが低減され、より正確な予測が得られる。クロマ成分のDC寄与に関して、それは、ほとんどのクロマコンテンツに十分であり、成熟した高速の実施態様を有するイントラDCモードを使用して計算される。
【0113】
図16は、本開示の一実施形態による、コーディングブロックユニットに隣接する4つの参照ラインを使用する例示的なマルチラインイントラ予測を示す。マルチラインイントラ予測のために、エンコーダは、イントラ予測子を生成するためにどの参照ラインが使用されるかを決定してシグナリングする。参照ラインインデックスはイントラ予測モードの前にシグナリングされ、非ゼロ参照ラインインデックスがシグナリングされる場合に、最も可能性の高いモードのみが許可される。図16では、4つの参照ラインの例が示されており、各参照ラインは、左上の参照サンプルと共に6つのセグメント、すなわちセグメントAからFで構成されている。加えて、図16では、異なる参照ラインの再構築されたサンプルは、異なるパターンで埋められている。マルチラインイントラ予測モードは、複数参照ライン予測(MRLP:multiple reference line prediction)モードと呼ばれる場合もある。
【0114】
IV.L形状区分のための無方向性イントラ予測
L型区分を用いて、現在のブロックの隣接する再構築されたサンプルは、現在のブロックの右側および/または下側から利用可能であり得る。しかしながら、右側および/または下側から利用可能な隣接する再構築されたサンプルは、無方向性イントラ予測を実行するために上および左の参照サンプルを使用する一部の関連するイントラ予測方式に完全には適合しない。
【0115】
本開示は、L形状区分のための無方向性イントラ予測モードの方法を含む。提示された方法は、別々にまたは任意の順序で組み合わせて使用され得る。本開示では、L形状(またはL型)区分は、図11に示されているように定義され得、回転されたL形状区分も、L形状区分と見なされ得る。
【0116】
イントラ予測モードは、角度または方向性イントラ予測モードおよび角度なしのまたは無方向性イントラ予測モードなどの様々なイントラ予測モードタイプを含み得る。例えば、所与の予測方向に従ってモードの予測サンプルが生成され得る場合、モードは、角度イントラ予測モードまたは方向性イントラ予測モードと呼ばれ得る。そうでない場合、モードは、角度なしのイントラ予測モードまたは無方向性イントラ予測モードと呼ばれ得る。角度なしのイントラ予測モードの例は、DCモード、Planarモード、Planeモード(H.264/AVCで定義されている)、SMOOTHモード、SMOOTH_Hモード、SMOOTH_Vモード、Paethモード、再帰的フィルタリングモード、および/または行列ベースのイントラ予測(MIP:matrix-based intra prediction)モードを含むが、これらに限定されない。一部の実施形態では、平滑モードでないモードは、角度または方向性イントラ予測モードとして扱われ得る。
【0117】
関連するイントラ予測方式では、上および/または左の隣接する参照サンプルは、無方向性イントラ予測モードを実行するために使用される。しかしながら、L形状区分の場合、追加の隣接サンプルが利用可能であり、再構築され得る。例えば、右側および/または下側の隣接サンプルが利用可能であり、再構築され得、したがって、L形状区分の予測に使用され得る。
【0118】
本開示の態様によれば、ブロックが、少なくとも1つのL形状区分(LP:L-shaped partition)と、少なくとも1つの矩形区分(RP:rectangular partition)とに区分される場合、L形状区分のイントラ予測モードを実行するために使用される参照サンプルは、別のLPもしくはRPまたは他のブロックの隣接する再構築されたサンプルからのものであり得る。一部の実施形態では、隣接する再構築されたサンプルは、1つの水平の真っすぐなラインおよび/または1つの垂直の真っすぐなラインの代わりに任意の形状の連続チェーンを形成し得る。
【0119】
本開示では、複数の参照サンプルは、合わせて参照サンプルチェーン(RSC:reference sample chain)と呼ばれ得る。RSC内のサンプルのすべてまたはサブセットは、無方向性イントラ予測モードに使用され得る。RSCは、参照サンプルの1つより多くの水平または垂直の真っすぐなラインを含み得る。
【0120】
図17A図17Fは、本開示の一部の実施形態による6つの例示的なRSCを示す。図17A図17Fの各ブロックは、8×8のサイズを有し、1つのLPおよび1つのRPの2つの区分に区分される。RPは4×4のサイズを有し、各ブロックの左上隅に位置する。LPは、8の高さおよび8の幅を有する。図17A図17Fの各RSCは、参照サンプルの2つの水平ラインおよび参照サンプルの2つの垂直ラインを含む。
【0121】
本開示の一部の実施形態によれば、RSCに含まれる参照サンプルの総数は2の累乗であり得る。参照サンプルの総数を超えないように、RSC内の1つ以上のサンプルが参照サンプルから除外され得る。例えば、図17A図17Fでは、各RSCに含まれる参照サンプルの総数は16である。図17A図17Cの各RSCの場合、それぞれのRSCに含まれる参照サンプルの総数が16になるように、それぞれのRSCの1つのコーナーサンプルが参照サンプルから除外される。図17Dおよび図17Eの各RSCの場合、それぞれのRSCに含まれる参照サンプルの総数が16になるように、それぞれのRSCの先頭または末尾の1つのサンプルが参照サンプルから除外される。図17FのRSCの場合、イントラ予測モード(例えば、DCモード)において、2つのコーナーサンプルが参照サンプルから除外され、1つの中間コーナーサンプルが2回使用され、これにより、RSCに含まれる参照サンプルの総数は16になる。
【0122】
一実施形態では、RSC内の参照サンプルのサブセットのみがイントラ予測モード(例えば、DCモード)に使用され得る。
【0123】
一部の実施形態では、ブロックは、1つのLPおよび1つのRPの2つの区分に区分され得る。RPはブロックの左上隅に位置し、LPの高さと幅は等しくても等しくなくてもよい。LPのために無方向性イントラ予測モード(例えば、DCモード)が実行される場合、無方向性イントラ予測モードで使用される参照サンプルの総数は、一部の実施形態では、例えば図17A図17Fに示されているように、LPの幅と高さの合計(例えば、幅+高さ)であり得る。一実施形態では、無方向性イントラ予測モードで使用される参照サンプルの総数は、LPのより短い幅とより短い高さの合計(例えば、より短い幅+より短い高さ)であり得る。このような一例が図18に示されており、使用される参照サンプルは灰色で示されている。
【0124】
一部の実施形態では、ブロックは、1つのLPおよび1つのRPの2つの区分に区分され得る。RPはブロックの左上隅に位置し、LPの高さと幅は等しくない。LPのために無方向性イントラ予測モード(例えば、DCモード)が実行される場合、無方向性イントラ予測モードで使用される参照サンプルの総数は、LPの幅および高さのうちの最大値または最小値(例えば、max(width,height)またはmin(width,height))である。例えば、図19Aでは、LPの幅がLPの高さよりも大きいので、幅の値が、無方向性イントラ予測モード(例えば、DCモード)で使用される参照サンプルの総数として選択される。図19Bでは、LPの高さがLPの幅よりも大きいので、高さの値が、無方向性イントラ予測モード(例えば、DCモード)で使用される参照サンプルの総数として選択される。図19Aおよび図19Bの各々において、予測プロセスで使用される参照サンプルの総数は16である。
【0125】
一部の実施形態では、ブロックは、1つのLPおよび1つのRPの2つの区分に区分され得る。LPの高さと幅が等しくない場合、またはRPがブロックの右下隅に位置しない場合、ブロックの垂直辺または水平辺のいずれかに沿った参照サンプルのみが、無方向性イントラ予測モード(例えば、DCモード)で使用され得る。無方向性イントラ予測モードで使用される参照サンプルの総数は、LPの幅および高さのうちの最大値または最小値(例えば、max(width,height)またはmin(width,height))である。図20A図20Dは、本開示の一部の実施形態による、LPに使用されるいくつかの例示的な参照サンプルを示す。
【0126】
一実施形態では、ブロックは、1つのLPおよび1つのRPの2つの区分に区分され得る。LPは、図12の4つのL形状タイプのうちの1つであり得る。LPのために無方向性イントラ予測モード(例えば、DCモード)が実行される場合、無方向性イントラ予測モードで使用される参照サンプルの総数は、LPの幅と高さの合計(例えば、幅+高さ)であり、すべての参照サンプルは、LP区分およびRP区分の外部にある。図21は、このような実施形態で参照サンプルを選択する方法の一例を示す。
【0127】
本開示の一部の実施形態によれば、ブロックは、複数の区分に区分され得る。現在の区分に関して、異なる区分(LPまたはRPのいずれか)から右側または下側の隣接サンプルが、現在の区分のサンプルの再構築より前に再構築される場合、右側および/または下側の隣接サンプルは、RSCを形成し、現在の区分のための無方向性イントラ予測モード(例えば、DCモード)を実行するために使用され得る。図22A図22Bに示されているように、LP(区分1)は、RP(区分0)の前に再構築される。したがって、LPのサンプルは、RSCを形成し、RPのための無方向性イントラ予測モード(例えば、DCモード)に使用され得る。図22A図22Bでは、RPの上の行の参照サンプルは濃い灰色で示され、RPの左の列の参照サンプルは灰色で示され、RPの右の列または下の行の参照サンプルは白色で示されている。
【0128】
一実施形態では、RPブロックの上の行、左の列、右の列、下の行のうちの1つの隣接サンプルのみが、RPの無方向性イントラ予測モード(例えば、DCモード)に使用され得る。
【0129】
一実施形態では、RPの左の列および上の行の隣接サンプルのみが、RPの無方向性イントラ予測モード(例えば、DCモード)に使用され得る。
【0130】
一実施形態では、図22Aに示されているように、RPがブロックの左下隅に位置する場合、RPの左の列および右の列の隣接サンプルのみがRPの無方向性イントラ予測モード(例えば、DCモード)に使用され得る。
【0131】
一実施形態では、図22Bに示されているように、RPがブロックの右上隅に位置する場合、RPの上の行および下の行の隣接サンプルのみがRPの無方向性イントラ予測モード(例えば、DCモード)に使用され得る。
【0132】
本開示の態様によれば、特定の無方向性イントラ予測モード(例えば、HEVCおよびVVCで定義されたPlanarモード、AV1で定義されたSMOOTH、SMOOTH-H、またはSMOOTH-Vモード)のうちの1つが実行され、右または下の隣接サンプルが再構築された場合、再構築された隣接サンプルは、上および左の再構築された隣接サンプルから右および/または下の隣接サンプルを外挿する代わりに、無方向性イントラ予測モードの4タップ補間で直接使用され得る。
【0133】
一実施形態では、特定の無方向性イントラ予測モード(例えば、HEVCおよびVVCで定義されたPlanarモード、AV1で定義されたSMOOTH、SMOOTH-H、またはSMOOTH-Vモード)のうちの1つが実行され、下の行の隣接サンプルが利用可能でない場合、下の行の隣接サンプルは、左の列および右の列の隣接サンプルから線形に外挿され得る。図23Aに示されているように、左下の隣接サンプル(BLと表記)が利用可能である場合、BL隣接サンプルは、直接使用され得るか、または左の列の最も近い隣接要素からコピーすることによって取得され得、右下の隣接サンプル(BRと表記)は、右の列の最も近い隣接要素からコピーすることによって取得され得る。BL隣接サンプルとBR隣接サンプルとの間の残りの下の行の隣接サンプルは、例えば線形補間を使用することによって外挿され得る。
【0134】
一実施形態では、特定の無方向性イントラ予測モード(例えば、HEVCおよびVVCで定義されたPlanarモード、AV1で定義されたSMOOTH、SMOOTH-H、またはSMOOTH-Vモード)のうちの1つが実行され、右の列の隣接サンプルが利用可能でない場合、右の列の隣接サンプルは、上の行および下の行の隣接サンプルから線形に外挿され得る。図23Bに示されているように、右上の隣接サンプル(TRと表記)が利用可能である場合、TR隣接サンプルは、直接使用されてもよいし、または左の列の最も近い隣接要素からコピーすることによって取得されてもよく、右下の隣接サンプル(BRと表記)は、右の列の最も近い隣接要素からコピーすることによって取得され得る。TR隣接サンプルとBR隣接サンプルとの間の残りの右の列の隣接サンプルは、例えば線形補間を使用することによって外挿され得る。
【0135】
一実施形態では、特定の無方向性イントラ予測モード(例えば、HEVCおよびVVCで定義されたPlanarモード、AV1で定義されたSMOOTH、SMOOTH-H、またはSMOOTH-Vモード)のうちの1つが実行される場合、RPブロックおよびLPブロックの外部の上および左の隣接サンプルのみが参照サンプルとして使用され得、右および下の隣接サンプルは、上および左の隣接サンプルからコピーまたは外挿することによって取得され得る。図24は、このような実施形態でLPのための左および上の隣接サンプルを選択する方法の一例を示す。
【0136】
一実施形態では、特定の無方向性イントラ予測モード(例えば、HEVCおよびVVCで定義されたPlanarモード、AV1で定義されたSMOOTH、SMOOTH-H、またはSMOOTH-Vモード)のうちの1つが実行される場合、LP内の異なる位置に位置するサンプルに関して、左、右、上、および下の隣接する参照サンプルは異なるラインからのものであり得、右および下の隣接する参照サンプル(図25A図25Bでは対角線テクスチャで示されている)は、上および左の隣接する参照サンプルからコピーまたは外挿することによって取得され得る。
【0137】
図25A図25Bは、LPのための左、右、上、および下の隣接する参照サンプルを選択する方法の2つの例を示す。
【0138】
図25Aでは、ブロック(2501)は、LP(1と表記)とRP(0と表記)とに区分されている。RPはブロック(2501)の左下隅に位置する。LP内のサンプル(2510)に関して、上の隣接する参照サンプル(2511)はブロック(2501)の上の参照ラインからのものであり、左の隣接する参照サンプル(2512)はブロック(2501)の左の参照ラインからのものであり、下の隣接する参照サンプル(2513)はRPの上のラインからのものであり、右の隣接する参照サンプル(2514)はブロック(2501)の右の参照ラインからのものである。右の隣接する参照サンプル(2514)などの、ブロック(2501)の右の参照ライン内の参照サンプルは、ブロック(2501)の上の参照ライン内の参照サンプルからコピーまたは外挿することによって取得され得ることに留意されたい。
【0139】
LP内のサンプル(2520)に関して、上の隣接する参照サンプル(2521)はブロック(2501)の上の参照ラインからのものであり、左の隣接する参照サンプル(2522)はRPの右のラインからのものであり、下の隣接する参照サンプル(2523)はブロック(2501)の下の参照ラインからのものであり、右の隣接する参照サンプル(2524)はブロック(2501)の右の参照ラインからのものである。下の隣接する参照サンプル(2523)などの、ブロック(2501)の下の参照ライン内の参照サンプルは、ブロック(2501)の左の参照ライン内の参照サンプルからコピーまたは外挿することによって取得され得ることに留意されたい。
【0140】
図25Bでは、ブロック(2502)は、LP(1と表記)とRP(0と表記)とに区分されている。RPはブロック(2502)の左上隅に位置する。LP内のサンプル(2530)に関して、上の隣接する参照サンプル(2531)はブロック(2502)の上の参照ラインからのものであり、左の隣接する参照サンプル(2532)はRPの右のラインからのものであり、下の隣接する参照サンプル(2533)はブロック(2502)の下の参照ラインからのものであり、右の隣接する参照サンプル(2534)はブロック(2502)の右の参照ラインからのものである。右の隣接する参照サンプル(2534)などの、ブロック(2502)の右の参照ライン内の参照サンプルは、ブロック(2502)の上の参照ライン内の参照サンプルからコピーまたは外挿することによって取得され得ることに留意されたい。
【0141】
LP内のサンプル(2540)に関して、上の隣接する参照サンプル(2541)はRPの上のラインからのものであり、左の隣接する参照サンプル(2542)はブロック(2502)の右の参照ラインからのものであり、下の隣接する参照サンプル(2543)はブロック(2502)の下の参照ラインからのものであり、右の隣接する参照サンプル(2544)はブロック(2502)の右の参照ラインからのものである。下の隣接する参照サンプル(2543)などの、ブロックの下の参照ライン内の参照サンプルは、ブロック(2502)の左の参照ライン内の参照サンプルからコピーまたは外挿することによって取得され得ることに留意されたい。
【0142】
V.フローチャート
図26は、本開示の一実施形態による例示的なプロセス(2600)の概要を示すフローチャートを示す。様々な実施形態において、プロセス(2600)は、端末デバイス(210)、(220)、(230)、および(240)内の処理回路、ビデオエンコーダ(303)の機能を実行する処理回路、ビデオデコーダ(310)の機能を実行する処理回路、ビデオデコーダ(410)の機能を実行する処理回路、イントラ予測モジュール(452)の機能を実行する処理回路、ビデオエンコーダ(503)の機能を実行する処理回路、予測器(535)の機能を実行する処理回路、イントラエンコーダ(622)の機能を実行する処理回路、ならびにイントラデコーダ(772)の機能を実行する処理回路などの処理回路によって実行される。一部の実施形態では、プロセス(2600)はソフトウェア命令で実現され、したがって、処理回路がソフトウェア命令を実行するとき、処理回路はプロセス(2600)を実行する。
【0143】
プロセス(2600)は、一般に、ステップ(S2610)で開始され得、そこでは、プロセス(2600)は、コーディングされたビデオビットストリームの一部である現在のピクチャ内の現在のブロックの予測情報をデコーディングする。予測情報は、現在のブロックについて無方向性イントラ予測モードを示す。次に、プロセス(2600)は、ステップ(S2620)に進む。
【0144】
ステップ(S2620)において、プロセス(2600)は、現在のブロックを複数の区分に区分する。複数の区分は、少なくとも1つのL形状区分を含む。次に、プロセス(2600)は、ステップ(S2630)に進む。
【0145】
ステップ(S2630)において、プロセス(2600)は、(i)複数の区分のうちの1つの隣接する再構築されたサンプル、または(ii)現在のブロックの隣接する再構築されたサンプル、のうちの少なくとも1つに基づいて、複数の区分のうちの1つを再構築する。次に、プロセス(2600)は終了する。
【0146】
一実施形態では、隣接する再構築されたサンプルのうちの少なくとも1つは、複数の区分のうちの1つの右側または下側のうちの1つに隣接して位置する。
【0147】
一実施形態では、複数の区分のうちの1つはL形状区分であり、隣接する再構築されたサンプルの数はL形状区分の寸法に依存する。一例では、隣接する再構築されたサンプルの数は、L形状区分の幅と高さの合計である。別の例では、隣接する再構築されたサンプルの数は、L形状区分のより短い幅とより短い高さの合計である。別の例では、隣接する再構築されたサンプルの数は、L形状区分の幅および高さのうちの最大値である。別の例では、隣接する再構築されたサンプルの数は、L形状区分の幅および高さのうちの最小値である。
【0148】
一実施形態では、隣接する再構築されたサンプルのうちの少なくとも1つは、複数の区分のうちの1つより前に再構築された複数の区分のうちの別の1つに位置する。一例では、複数の区分のうちの別の1つはL形状区分であり、隣接する再構築されたサンプルのうちの少なくとも1つは、複数の区分のうちの1つの右側または下側のうちの1つに隣接して位置する。
【0149】
一実施形態では、プロセス(2600)は、(i)複数の区分のうちの1つの隣接する再構築されたサンプル、または(ii)現在のブロックの隣接する再構築されたサンプル、のうちの少なくとも1つに基づいて、複数の区分のうちの1つの複数の隣接する参照サンプルを決定する。プロセス(2600)は、複数の隣接する参照サンプルに基づいて、複数の区分のうちの1つを再構築する。
【0150】
一例では、隣接する再構築されたサンプルは、複数の区分のうちの1つの左の列および右の列の隣接する再構築されたサンプルを含む。プロセス(2600)は、複数の区分のうちの1つの左の列および右の列の隣接する再構築されたサンプルに基づいて、複数の区分のうちの1つの下の行の隣接する参照サンプルを決定する。プロセス(2600)は、複数の区分のうちの1つの下の行の隣接する参照サンプルに基づいて、複数の区分のうちの1つを再構築する。
【0151】
一例では、隣接する再構築されたサンプルは、複数の区分のうちの1つの上の行および下の行の隣接する再構築されたサンプルを含む。プロセス(2600)は、複数の区分のうちの1つの上の行および下の行の隣接する再構築されたサンプルに基づいて、複数の区分のうちの1つの左の列の隣接する参照サンプルを決定する。プロセス(2600)は、複数の区分のうちの1つの左の列の隣接する参照サンプルに基づいて、複数の区分のうちの1つを再構築する。
【0152】
一実施形態では、複数の区分のうちの1つはL形状区分であり、プロセス(2600)は、現在のブロックの左の列および上の行の隣接する再構築されたサンプルに基づいて、複数の区分のうちの1つを再構築する。
【0153】
一実施形態では、複数の区分のうちの1つがL形状区分であることに基づいて、プロセス(2600)は、L形状区分の各サンプルに関して、それぞれのサンプルの位置に基づいて複数の隣接する参照サンプルを決定する。プロセス(2600)は、それぞれのサンプルの複数の隣接する参照サンプルに基づいて、L形状区分の各サンプルを再構築する。
【0154】
一実施形態では、各サンプルの複数の隣接する参照サンプルは、再構築された隣接サンプルと、再構築された隣接サンプルに基づいて再構築された隣接サンプルとを含む。
【0155】
VI.コンピュータシステム
上記で説明された技術は、1つ以上のコンピュータ可読媒体に物理的に記憶された、コンピュータ可読命令を使用するコンピュータソフトウェアとして実施され得る。例えば、図27は、開示されている主題の特定の実施形態を実現するのに適したコンピュータシステム(2700)を示す。
【0156】
コンピュータソフトウェアは、1つ以上のコンピュータ中央処理装置(CPU:central processing unit)およびグラフィック処理装置(GPU:Graphics Processing Unit)などによって直接的に、または解釈およびマイクロコードの実行などを通して実行され得る命令を含むコードを作成するために、アセンブリ、コンパイル、リンキング、または同様のメカニズムを受け得る任意の適切な機械コードまたはコンピュータ言語を使用してコード化され得る。
【0157】
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーミングデバイス、およびモノのインターネットデバイスなどを含む様々なタイプのコンピュータまたはその構成要素上で実行され得る。
【0158】
コンピュータシステム(2700)に関して図27に示されている構成要素は、本質的に例示であり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する限定を示唆することを意図されていない。構成要素の構成は、コンピュータシステム(2700)の例示的な実施形態に示されている構成要素のいずれか1つまたは組み合わせに関して依存性も要件も有していないと解釈されるべきである。
【0159】
コンピュータシステム(2700)は、特定のヒューマンインターフェース入力デバイスを含み得る。このようなヒューマンインターフェース入力デバイスは、例えば触覚入力(キーストローク、スワイプ、データグローブの動きなど)、オーディオ入力(声、拍手など)、視覚入力(ジェスチャなど)、嗅覚入力(図示せず)を用いた1人以上の人間のユーザによる入力に応答し得る。ヒューマンインターフェースデバイスは、オーディオ(音声、音楽、環境音など)、画像(走査画像、写真画像は静止画像カメラから取得など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)などの、必ずしも人間による意識的な入力に直接関連しない特定の媒体を取り込むためにも使用され得る。
【0160】
入力ヒューマンインターフェースデバイスは、キーボード(2701)、マウス(2702)、トラックパッド(2703)、タッチスクリーン(2710)、データグローブ(図示せず)、ジョイスティック(2705)、マイクロフォン(2706)、スキャナ(2707)、およびカメラ(2708)(それぞれの1つのみが示されている)のうちの1つ以上を含み得る。
【0161】
コンピュータシステム(2700)はまた、特定のヒューマンインターフェース出力デバイスを含み得る。このようなヒューマンインターフェース出力デバイスは、例えば触覚出力、音、光、および臭い/味によって1人以上の人間のユーザの感覚を刺激し得る。このようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(2710)、データグローブ(図示せず)、またはジョイスティック(2705)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもあり得る)、オーディオ出力デバイス(スピーカ(2709)、ヘッドフォン(図示せず)など)、視覚出力デバイス(CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーン(それぞれタッチスクリーン入力機能の有無にかかわらない、それぞれ触覚フィードバック機能の有無にかかわらない、これらの一部は、2次元視覚出力、またはステレオグラフィック出力などの手段による3次元を超える出力を出力することができ得る)を含むスクリーン(2710)、仮想現実眼鏡(図示せず)、ホログラフィックディスプレイ、およびスモークタンク(図示せず)など)、ならびにプリンタ(図示せず)を含み得る。これらの視覚出力デバイス(スクリーン(2710)など)は、グラフィックアダプタ(2750)を介してシステムバス(2748)に接続され得る。
【0162】
コンピュータシステム(2700)はまた、CD/DVDまたは同様の媒体(2721)を伴うCD/DVD ROM/RW(2720)を含む光学媒体、サムドライブ(2722)、取り外し可能なハードドライブまたはソリッドステートドライブ(2723)、テープおよびフロッピーディスクなどのレガシー磁気媒体(図示せず)、ならびにセキュリティドングル(図示せず)などの専用のROM/ASIC/PLDベースのデバイスなど、人間がアクセス可能な記憶デバイスおよびこれに関連する媒体を含み得る。
【0163】
当業者はまた、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が伝送媒体、搬送波、または他の一時的信号を包含しないことを理解すべきである。
【0164】
コンピュータシステム(2700)はまた、1つ以上の通信ネットワーク(2755)へのネットワークインターフェース(2754)を含み得る。1つ以上の通信ネットワーク(2755)は、例えば、無線、有線、光であり得る。1つ以上の通信ネットワーク(2755)はさらに、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、ならびに遅延耐性などであり得る。1つ以上の通信ネットワーク(2755)の例は、イーサネット、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5G、およびLTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、および地上放送TVを含む有線または無線TVワイドエリアデジタルネットワーク、ならびにCANBusを含む車両および産業用のものなどを含む。特定のネットワークは、一般的には、特定の汎用データポートまたは周辺バス(2749)(例えば、コンピュータシステム(2700)のUSBポートなど)に接続される外部ネットワークインターフェースアダプタを必要とし、他のものは、一般的には、以下で説明されるようにシステムバスへの接続によってコンピュータシステム(2700)のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(2700)は他のエンティティと通信し得る。このような通信は、単方向、受信のみ(例えば、放送TV)、単方向送信のみ(例えば、特定のCANbusデバイスへのCANbus)、または例えばローカルもしくはワイドエリアデジタルネットワークを使用した他のコンピュータシステムに対する双方向のものであり得る。特定のプロトコルおよびプロトコルスタックは、上記で説明されたように、それらのネットワークおよびネットワークインターフェースの各々で使用され得る。
【0165】
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム(2700)のコア(2740)に接続され得る。
【0166】
コア(2740)は、1つ以上の中央処理装置(CPU)(2741)、グラフィック処理装置(GPU)(2742)、フィールドプログラマブルゲート領域(FPGA:Field Programmable Gate Area)(2743)の形式の専用のプログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ(2744)、およびグラフィックアダプタ(2750)などを含み得る。これらのデバイスは、読み出し専用メモリ(ROM:Read-only memory)(2745)、ランダムアクセスメモリ(2746)、ユーザアクセス不可能な内蔵ハードドライブおよびSSDなどの内部大容量ストレージ(2747)と共に、システムバス(2748)を介して接続され得る。一部のコンピュータシステムでは、システムバス(2748)は、追加のCPUおよびGPUなどによる拡張を可能にするために1つ以上の物理プラグの形式でアクセス可能であり得る。周辺デバイスは、コアのシステムバス(2748)に直接接続され得るか、または周辺バス(2749)を介して接続され得る。一例では、スクリーン(2710)はグラフィックアダプタ(2750)に接続され得る。周辺バスのアーキテクチャは、PCIおよびUSBなどを含む。
【0167】
CPU(2741)、GPU(2742)、FPGA(2743)、およびアクセラレータ(2744)は、組み合わせで前述のコンピュータコードを構成し得る特定の命令を実行し得る。このコンピュータコードは、ROM(2745)またはRAM(2746)に記憶され得る。RAM(2746)には一時的なデータも記憶され得、一方、恒久的なデータは、例えば内部大容量ストレージ(2747)に記憶され得る。メモリデバイスのいずれかへの高速記憶および検索は、1つ以上のCPU(2741)、GPU(2742)、大容量ストレージ(2747)、ROM(2745)、およびRAM(2746)などに密接に関連付けられ得るキャッシュメモリの使用によって可能になり得る。
【0168】
コンピュータ可読媒体は、様々なコンピュータ実施動作を実行するためのコンピュータコードを有し得る。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構成されたものであり得るし、またはそれらは、コンピュータソフトウェア技術の当業者に周知の利用可能な種類のものであり得る。
【0169】
限定としてではなく一例として、アーキテクチャを有するコンピュータシステム(2700)、具体的にはコア(2740)は、1つ以上の有形のコンピュータ可読媒体で具現化されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、およびアクセラレータなどを含む)の結果として機能を提供し得る。このようなコンピュータ可読媒体は、上記で紹介されたユーザアクセス可能な大容量ストレージ、およびコア内部の大容量ストレージ(2747)またはROM(2745)などの非一時的性質を有するコア(2740)の特定のストレージに関連付けられた媒体であり得る。本開示の様々な実施形態を実施するソフトウェアは、このようなデバイスに記憶され、コア(2740)によって実行され得る。コンピュータ可読媒体は、特定の必要性に応じて、1つ以上のメモリデバイスまたはチップを含み得る。ソフトウェアは、コア(2740)に、具体的にはその中のプロセッサ(CPU、GPU、およびFPGAなどを含む)に、RAM(2746)に記憶されたデータ構造を定義すること、およびソフトウェアによって定義されたプロセスに従ってこのようなデータ構造を変更することを含む、本明細書で説明されている特定のプロセスまたは特定のプロセスの特定の部分を実行させ得る。加えて、または代替として、コンピュータシステムは、本明細書で説明されている特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりにまたはソフトウェアと共に動作し得る、回路にハードワイヤードされた、または他の方法で具現化された論理(例えば、アクセラレータ(2744))の結果として機能を提供し得る。適切な場合には、ソフトウェアへの言及は論理を包含し得、その逆もまた同様である。適切な場合には、コンピュータ可読媒体への言及は、実行のためのソフトウェアを記憶する回路(集積回路(IC:integrated circuit)など)、実行のための論理を具現化する回路、またはこれらの両方を包含し得る。本開示は、ハードウェアとソフトウェアとの任意の適切な組み合わせを包含する。
【0170】
本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある修正例、置換例、および様々な代替均等例がある。したがって、当業者は、本明細書では明示的に示されていないか、または説明されていないが、本開示の原理を具現化し、したがってその精神および範囲内にある多数のシステムおよび方法を考案できることが理解されよう。
付記A:頭字語
ALF:適応ループフィルタ(Adaptive Loop Filter)
AMVP:高度動きベクトル予測(Advanced Motion Vector Prediction)
APS:適応パラメータセット(Adaptation Parameter Set)
ASIC:特定用途向け集積回路(Application-Specific Integrated Circuit)
ATMVP:代替/高度時間動きベクトル予測(Alternative/Advanced Temporal Motion Vector Prediction)
AV1:AOMedia Video 1
AV2:AOMedia Video 2
BMS:ベンチマークセット(Benchmark Set)
BV:ブロックベクトル(Block Vector)
CANBus:コントローラエリアネットワークバス(Controller Area Network Bus)
CB:コーディングブロック(Coding Block)
CC-ALF:Cross-Component Adaptive Loop Filter
CD:コンパクトディスク(Compact Disc)
CDEF:Constrained Directional Enhancement Filter
CPR:現在のピクチャ参照(Current Picture Referencing)
CPU:中央処理装置(Central Processing Unit)
CRT:ブラウン管(Cathode Ray Tube)
CTB:コーディングツリーブロック(Coding Tree Block)
CTU:コーディングツリーユニット(Coding Tree Unit)
CU:コーディングユニット(Coding Unit)
DPB:デコーダピクチャバッファ(Decoder Picture Buffer)
DPS:デコーディングパラメータセット(Decoding Parameter Set)
DVD:デジタルビデオディスク(Digital Video Disc)
FPGA:フィールドプログラマブルゲートエリア(Field Programmable Gate Area)
JCCR:共同CbCr残差コーディング(Joint CbCr Residual Coding)
JVET:共同ビデオ探索チーム(Joint Video Exploration Team)
GOP:グループオブピクチャ(Group of Picture)
GPU:グラフィック処理装置(Graphics Processing Unit)
GSM:グローバル移動体通信システム(Global System for Mobile communication)
HDR:ハイダイナミックレンジ(High Dynamic Range)
HEVC:高効率ビデオコーディング(High Efficiency Video Coding)
HRD:仮想参照デコーダ(Hypothetical Reference Decoder)
IBC:イントラブロックコピー(Intra Block Copy)
IC:集積回路(Integrated Circuit)
ISP:イントラサブ区分(Intra Sub-Partition)
JEM:共同探索モデル(Joint Exploration Model)
LAN:ローカルエリアネットワーク(Local Area Network)
LCD:液晶ディスプレイ(Liquid-Crystal Display)
LR:ループ復元フィルタ(Loop Restoration Filter)
LTE:ロングタームエボリューション(Long-Term Evolution)
MPM:最も可能性の高いモード(Most Probable Mode)
MV:動きベクトル(Motion Vector)
OLED:有機発光ダイオード(Organic Light-Emitting Diode)
PB:予測ブロック(Prediction Block)
PCI:周辺構成要素相互接続(Peripheral Component Interconnect)
PDPC:Position Dependent Prediction Combination
PLD:プログラマブル論理デバイス(Programmable Logic Device)
PPS:ピクチャパラメータセット(Picture Parameter Set)
PU:予測ユニット(Prediction Unit)
RAM:ランダムアクセスメモリ(Random Access Memory)
ROM:読み出し専用メモリ(Read-Only Memory)
SAO:サンプル適応オフセット(Sample Adaptive Offset)
SCC:スクリーンコンテンツコーディング(Screen Content Coding)
SDR:標準ダイナミックレンジ(Standard Dynamic Range)
SEI:補足拡張情報(Supplementary Enhancement Information)
SNR:信号ノイズ比(Signal Noise Ratio)
SPS:シーケンスパラメータセット(Sequence Parameter Set)
SSD:ソリッドステートドライブ(Solid-state Drive)
TU:変換ユニット(Transform Unit)
USB:ユニバーサルシリアルバス(Universal Serial Bus)
VPS:ビデオパラメータセット(Video Parameter Set)
VUI:ビデオのユーザビリティ情報(Video Usability Information)
VVC:多用途ビデオコーディング(Versatile Video Coding)
WAIP:広角イントラ予測(Wide-Angle Intra Prediction)
【符号の説明】
【0171】
101 サンプル
102 矢印
103 矢印
104 正方形ブロック
105 イントラ予測方向を示す概略図
111 現在のブロック
112 周囲サンプル
113 周囲サンプル
114 周囲サンプル
115 周囲サンプル
116 周囲サンプル
200 通信システム
210 端末デバイス
220 端末デバイス
230 端末デバイス
240 端末デバイス
250 通信ネットワーク
301 ビデオソース
302 ビデオピクチャのストリーム
303 ビデオエンコーダ
304 エンコーディングされたビデオデータ、エンコーディングされたビデオビットストリーム
305 ストリーミングサーバ
306 クライアントサブシステム
307 入力コピー、エンコーディングされたビデオデータ
308 クライアントサブシステム
309 コピー、エンコーディングされたビデオデータ
310 ビデオデコーダ
311 ビデオピクチャの出力ストリーム
312 ディスプレイ
313 キャプチャサブシステム
320 電子デバイス
330 電子デバイス
401 チャネル
410 ビデオデコーダ
412 描画デバイス
415 バッファメモリ
420 パーサ
421 シンボル
430 電子デバイス
431 受信機
451 スケーラ/逆変換ユニット
452 イントラピクチャ予測ユニット、イントラ予測モジュール
453 動き補償予測ユニット
455 アグリゲータ
456 ループフィルタユニット
457 参照ピクチャメモリ
458 現在のピクチャバッファ
501 ビデオソース
503 ビデオエンコーダ、ビデオコーダ
520 電子デバイス
530 ソースコーダ
532 コーディングエンジン
533 ローカルビデオデコーダ
534 参照ピクチャメモリ、参照ピクチャキャッシュ
535 予測器
540 送信機
543 コーディングされたビデオシーケンス
545 エントロピーコーダ
550 コントローラ
560 通信チャネル
603 ビデオエンコーダ
621 汎用コントローラ
622 イントラエンコーダ
623 残差計算器
624 残差エンコーダ
625 エントロピーエンコーダ
626 スイッチ
628 残差デコーダ
630 インターエンコーダ
710 ビデオデコーダ
771 エントロピーデコーダ
772 イントラデコーダ
773 残差デコーダ
774 再構築モジュール
780 インターデコーダ
2511 参照サンプル
2512 参照サンプル
2513 参照サンプル
2514 参照サンプル
2520 サンプル
2521 参照サンプル
2522 参照サンプル
2523 参照サンプル
2524 参照サンプル
2530 サンプル
2531 参照サンプル
2532 参照サンプル
2533 参照サンプル
2534 参照サンプル
2540 サンプル
2541 参照サンプル
2542 参照サンプル
2543 参照サンプル
2544 参照サンプル
2600 プロセス
2700 コンピュータシステム
2701 キーボード
2702 マウス
2703 トラックパッド
2705 ジョイスティック
2706 マイクロフォン
2707 スキャナ
2708 カメラ
2709 スピーカ
2710 タッチスクリーン、視覚出力デバイススクリーン
2720 CD/DVD ROM/RW
2721 CD/DVDまたは同様の媒体
2722 サムドライブ
2723 取り外し可能なハードドライブまたはソリッドステートドライブ
2740 コア
2741 中央処理装置
2742 グラフィック処理装置
2743 フィールドプログラマブルゲート領域
2744 アクセラレータ
2745 読み出し専用メモリ
2746 ランダムアクセスメモリ
2747 内部大容量ストレージ
2748 システムバス
2749 周辺バス
2750 グラフィックアダプタ
2754 ネットワークインターフェース
2755 通信ネットワーク
図1A
図1B
図1C
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17A
図17B
図17C
図17D
図17E
図17F
図18
図19A
図19B
図20A
図20B
図20C
図20D
図21
図22A
図22B
図23A
図23B
図24
図25A
図25B
図26
図27