(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-11
(45)【発行日】2024-10-22
(54)【発明の名称】コーディングされたビデオストリームの現在のブロックに対してイントラ予測を実行するための方法、装置、およびコンピュータプログラム
(51)【国際特許分類】
H04N 19/463 20140101AFI20241015BHJP
H04N 19/11 20140101ALI20241015BHJP
【FI】
H04N19/463
H04N19/11
(21)【出願番号】P 2023518519
(86)(22)【出願日】2022-01-28
(86)【国際出願番号】 US2022014284
(87)【国際公開番号】W WO2022260722
(87)【国際公開日】2022-12-15
【審査請求日】2023-03-22
(32)【優先日】2021-06-11
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-01-11
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】リアン・ジャオ
(72)【発明者】
【氏名】シャン・リュウ
【審査官】松元 伸次
(56)【参考文献】
【文献】特表2014-534748(JP,A)
【文献】国際公開第2021/108734(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00-19/98
(57)【特許請求の範囲】
【請求項1】
コーディングされたビデオストリームの現在のブロックに対してイントラ予測を実行するための方法であって、
前記現在のブロックのイントラ予測のためのセットインデックスおよび位置インデックスを含む前記コーディングされたビデオストリームを受信するステップと、
前記ビデオストリーム内の前記現在のブロックの少なくとも1つの隣接ブロックに対応するイントラ予測モードを参照モードとして決定するステップと、
前記参照モードに基づいて、P個の事前定義されたイントラ予測モードをM個のイントラ予測モードセットに分割する方法を決定するステップであって、各イントラ予測モードセットは、N
i個の位置インデックス付きイントラ予測モードを含み、PおよびMは、1より大きい整数であり、N
iは、i番目のイントラ予測モードセット内の予測モードの数であり、iは、前記M個のイントラ予測モードセットのうちのイントラ予測モードセットインデックスを表す整数である、ステップと、
前記受信したセットインデックス、前記位置インデックス、および前記分割する方法に基づいて、前記P個の事前定義されたイントラ予測モードの中からターゲットイントラ予測モードを識別するステップと、
前記現在のブロックの前記セットインデックスおよび前記位置インデックスに基づいて識別された前記ターゲットイントラ予測モードに少なくとも基づいて、前記コーディングされたビデオストリームの前記現在のブロックをデコーディングするステップと
を
含み、
前記P個の事前定義されたイントラ予測モードは、方向性を持たないイントラ予測モードのサブセットを含み、
前記M個のイントラ予測モードセット内の方向性を持たないイントラ予測モードの前記サブセットの相対的な順序は、前記参照モードに関係なく固定される
方法。
【請求項2】
N
maxは2の累乗であり、N
maxはN
iの中の最大値である、請求項1に記載の方法。
【請求項3】
Mが2より大きい場合、N
iは第1の数および第2の数から選択される、請求項2に記載の方法。
【請求項4】
N
iは、M個のイントラ予測モードセットすべてに対して同じ値である、請求項3に記載の方法。
【請求項5】
前記M個のイントラ予測モードセットのうちの1つが前記第2の数のイントラ予測モードを含み、前記M個のイントラ予測モードセットのうちの他のすべてが前記第1の数のイントラ予測モードを含む、請求項3に記載の方法。
【請求項6】
M=4であり、N
max=16である、請求項3に記載の方法。
【請求項7】
コーディングされたビデオストリームの現在のブロックに対してイントラ予測を実行するための方法であって、
前記現在のブロックのイントラ予測のためのセットインデックスおよび位置インデックスを含む前記コーディングされたビデオストリームを受信するステップと、
前記ビデオストリーム内の前記現在のブロックの少なくとも1つの隣接ブロックに対応するイントラ予測モードを参照モードとして決定するステップと、
前記参照モードに基づいて、P個の事前定義されたイントラ予測モードをM個のイントラ予測モードセットに分割する方法を決定するステップであって、各イントラ予測モードセットは、N
i
個の位置インデックス付きイントラ予測モードを含み、PおよびMは、1より大きい整数であり、N
i
は、i番目のイントラ予測モードセット内の予測モードの数であり、iは、前記M個のイントラ予測モードセットのうちのイントラ予測モードセットインデックスを表す整数である、ステップと、
前記受信したセットインデックス、前記位置インデックス、および前記分割する方法に基づいて、前記P個の事前定義されたイントラ予測モードの中からターゲットイントラ予測モードを識別するステップと、
前記現在のブロックの前記セットインデックスおよび前記位置インデックスに基づいて識別された前記ターゲットイントラ予測モードに少なくとも基づいて、前記コーディングされたビデオストリームの前記現在のブロックをデコーディングするステップと
を含み、
N
max
は2の累乗であり、N
max
はN
i
の中の最大値であり、
Mが2より大きい場合、N
i
は第1の数および第2の数から選択され、
M=4であり、N
max
=16であり、
P=61であり、前記第1の数は16であり、前記第2の数は13である
方法。
【請求項8】
前記P個の事前定義されたイントラ予測モードに含まれる方向性を持たないイントラ予測モードのサブセットは、前記参照モードに関係なく、前記M個のイントラ予測モードセット内の最初に位置するイントラ予測モードセット内にある、請求項1か
ら7のいずれか一項に記載の方法。
【請求項9】
方向性を持たないイントラ予測モードの前記サブセットは、前記参照モードに関係なく、前記最初に位置するイントラ予測モードセット内で常に順番が最初のものとして配置されたDC予測モードを含む、請求
項8に記載の方法。
【請求項10】
再帰フィルタリングに基づくイントラ予測モードが、前記DC予測モードのサブモードとしてシグナリングされる、請求
項9に記載の方法。
【請求項11】
方向性を持たないイントラ予測モードの前記サブセットは、前記参照モードに関係なく、前記最初に位置するイントラ予測モードセット内で常に順番が2番目のものとして配置されたSMOOTH予測モードを含む、請求
項8に記載の方法。
【請求項12】
方向性を持たないイントラ予測モードの前記サブセットは、前記参照モードに関係なく、前記最初に位置するイントラ予測モードセット内で常に順番が3番目のものとして配置されたSMOOTH_V予測モードを含む、請求
項8に記載の方法。
【請求項13】
方向性を持たないイントラ予測モードの前記サブセットは、前記参照モードに関係なく、前記最初に位置するイントラ予測モードセット内で常に順番が4番目のものとして配置されたSMOOTH_H予測モードを含む、請求
項8に記載の方法。
【請求項14】
方向性を持たないイントラ予測モードの前記サブセットは、前記参照モードに関係なく、前記最初に位置するイントラ予測モードセット内で常に順番が5番目のものとして配置されたPAETH予測モードを含む、請求
項8に記載の方法。
【請求項15】
前記P個の事前定義されたイントラ予測モードは、再帰フィルタリングに基づくイントラ予測モードを含み、
前記再帰フィルタリングに基づくイントラ予測モードは、前記参照モードに関係なく、順番が前記M個のイントラ予測モードセットのうち
の最初に位置するイントラ予測モードセットとして配置され、
前記再帰フィルタリングに基づくイントラ予測モードは、いずれのDCイントラ予測モードとは無関係にシグナリングされる、
請求項1か
ら7のいずれか一項に記載の方法。
【請求項16】
前記現在のブロックに対する前記識別されたターゲットイントラ予測モードが、前記再帰フィルタリングに基づくイントラ予測モードである場合、前記方法は、再帰フィルタリングに基づくイントラ予測モードのセットのうちのどれが前記セットインデックスと前記位置インデックスとは別に選択されるかを決定するステップをさらに含む、請求
項15に記載の方法。
【請求項17】
前記再帰フィルタリングに基づくイントラ予測モードは、前記参照モードに関係なく、前記最初に位置するイントラ予測モードセット内の6番目の位置に常に配置される、請求
項15に記載の方法。
【請求項18】
前記P個の事前定義されたイントラ予測モードは、少なくとも1つの方向のイントラ予測モード、少なくとも1つの方向性を持たないイントラ予測モード、および少なくとも1つのluma対chromaイントラ予測モードを含む、請求
項15に記載の方法。
【請求項19】
コーディングされたビデオストリームの現在のブロックに対してイントラ予測を実行するための装置であって、
請求項1か
ら18のいずれか一項に記載の方法を実行するように構成された処理回路を備える、装置。
【請求項20】
プロセッサによって実行されると、請求項1か
ら18のいずれか一項に記載の方法を前記プロセッサに実行させるように構成された、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2021年6月11日に出願された「IMPROVED INTRA MODE CODING」と題する米国仮特許出願第63/209,806号の優先権を主張する、2022年1月11日に出願された米国非仮特許出願第17/573,306号の優先権の利益に基づき、その利益を主張する。両出願とも、その全体が参照により本明細書に組み込まれる。
【0002】
本開示では最新のビデオコーディング技術の集合を説明する。より具体的には、開示された技術は、イントラモードコーディングのための様々な方式を含む。
【背景技術】
【0003】
本明細書で提供される背景技術の説明は、本開示の文脈を一般的に提示することを目的としている。本発明者らの研究は、その研究がこの背景技術の項に記載されている限りにおいて、またそれ以外の本出願の出願時に先行技術として認められない可能性のある説明の態様と共に、本開示に対する先行技術としては明示的にも暗示的にも認められない。
【0004】
ビデオコーディングおよびデコーディングは、動き補償を伴うインターピクチャ予測を使用して実行することができる。非圧縮デジタルビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば1920×1080の輝度サンプルおよび関連するフルサンプリングまたはサブサンプリングされた色差サンプルの空間次元を有する。一連のピクチャは、例えば毎秒60ピクチャまたは毎秒60フレームの固定または可変のピクチャレート(あるいはフレームレートとも呼ばれる)を有することができる。非圧縮ビデオは、ストリーミングまたはデータ処理のための特定のビットレート要件を有する。例えば、1920×1080の画素解像度、60フレーム/秒のフレームレート、および色チャネルあたり画素あたり8ビットで4:2:0のchromaサブサンプリングを有するビデオは、1.5Gbit/sに近い帯域幅を必要とする。そのようなビデオの1時間は、600Gバイトを超える記憶空間を必要とする。
【0005】
ビデオコーディングおよびビデオデコーディングの1つの目的は、圧縮による非圧縮入力ビデオ信号の冗長性の低減であり得る。圧縮は、前述の帯域幅および/または記憶空間要件を、場合によっては2桁以上低減させるのに役立ち得る。可逆圧縮と非可逆圧縮の両方、およびそれらの組み合わせを使用することができる。可逆圧縮とは、原信号の正確なコピーをデコーディングプロセスによって圧縮された原信号から再構成することができる技術を指す。非可逆圧縮とは、元のビデオ情報がコーディング時に完全に保持されず、デコーディング時に完全に回復できないコーディング/デコーディングプロセスを指す。非可逆圧縮を使用する場合、再構成された信号は原信号と同一ではない可能性があるが、原信号と再構成された信号との間の歪みは、多少の情報損失はあっても、再構成された信号を意図された用途に役立てるのに十分なほど小さくなる。ビデオの場合、非可逆圧縮が多くの用途で広く採用されている。耐容できる歪みの量は用途に依存する。例えば、特定の消費者ビデオストリーミング用途のユーザは、映画やテレビ放送用途のユーザよりも高い歪みを容認し得る。特定のコーディングアルゴリズムによって達成可能な圧縮比を、様々な歪み耐性を反映するように選択または調整することができる。すなわち、一般に、歪み耐性が高いほど、高い損失および高い圧縮比をもたらすコーディングアルゴリズムが可能になる。
【0006】
ビデオエンコーダおよびビデオデコーダは、例えば、動き補償、フーリエ変換、量子化、およびエントロピーコーディングを含む、いくつかの広範なカテゴリおよびステップからの技術を利用することができる。
【0007】
ビデオコーデック技術は、イントラコーディングとして知られる技法を含むことができる。イントラコーディングでは、サンプル値は、以前に再構成された参照ピクチャからのサンプルまたは他のデータを参照せずに表される。一部のビデオコーデックでは、ピクチャがサンプルのブロックに、空間的に細分される。サンプルのすべてのブロックがイントラモードでコーディングされる場合、そのピクチャをイントラピクチャと呼ぶことができる。イントラピクチャおよび独立したデコーダリフレッシュピクチャなどのそれらの派生ピクチャは、デコーダ状態をリセットするために使用することができ、したがって、コーディングされたビデオビットストリームおよびビデオセッション内の最初のピクチャとして、または静止画像として使用することができる。次いで、イントラ予測後のブロックのサンプルに周波数領域への変換を施すことができ、そのように生成された変換係数をエントロピーコーディングの前に量子化することができる。イントラ予測は、変換前領域におけるサンプル値を最小化する技術を表す。場合によっては、変換後のDC値が小さいほど、かつAC係数が小さいほど、エントロピーコーディング後のブロックを表すために所与の量子化ステップのサイズにおいて必要とされるビットは少なくなる。
【0008】
例えば、MPEG-2生成コーディング技術から知られているような従来のイントラコーディングは、イントラ予測を使用しない。しかしながら、いくつかのより新しいビデオ圧縮技術は、例えば、空間的隣接のエンコーディングおよび/またはデコーディング時に取得される、イントラコーディングまたはイントラデコーディングされているデータのブロックにデコーディング順序で先行する、周囲のサンプルデータおよび/またはメタデータに基づいて、ブロックのコーディング/デコーディングを試みる技術を含む。そのような技術を、これ以降、「イントラ予測」技術と呼ぶ。少なくともいくつかの場合において、イントラ予測は、再構成中の現在のピクチャのみからの参照データを使用し、他の参照ピクチャからの参照データは使用しないことに留意されたい。
【0009】
イントラ予測には多くの異なる形式があり得る。そのような技術のうちの2つ以上が所与のビデオコーディング技術において利用可能である場合、使用される技術を、イントラ予測モードと呼ぶことができる。1つまたは複数のイントラ予測モードが特定のコーデックで提供され得る。特定の場合には、モードは、サブモードを有することができ、かつ/または様々なパラメータと関連付けられていてもよく、モード/サブモード情報およびビデオのブロックのイントラコーディングパラメータは、個別にコーディングされるか、またはまとめてモードのコードワードに含めることができる。所与のモード、サブモード、および/またはパラメータの組み合わせにどのコードワードを使用するかは、イントラ予測を介したコーディング効率向上に影響を与える可能性があり、そのため、コードワードをビットストリームに変換するために使用されるエントロピーコーディング技術も影響を与える可能性がある。
【0010】
イントラ予測の特定のモードは、H.264で導入され、H.265において改良され、共同探索モデル(JEM)、多用途ビデオコーディング(VVC)、およびベンチマークセット(BMS)などのより新しいコーディング技術においてさらに改良された。一般に、イントラ予測では、利用可能になった隣接サンプル値を使用して予測子ブロックを形成することができる。例えば、特定の方向および/または線に沿った特定の隣接サンプルセットの利用可能な値が、予測子ブロックにコピーされ得る。使用中の方向への参照は、ビットストリーム内でコーディングされ得るか、またはそれ自体が予測されてもよい。
【0011】
図1Aを参照すると、右下に示されているのは、(H.265で指定される35のイントラモードのうちの33の角度モードに対応する)H.265の33の可能な予測器方向で指定される9つの予測器方向のサブセットである。矢印が集中する点(101)は、予測されているサンプルを表す。矢印は、隣接サンプルがそこから101のサンプルを予測するために使用される方向を表す。例えば、矢印(102)は、サンプル(101)が、1つまたは複数の隣接サンプルから右上へ、水平方向から45度の角度で予測されることを示している。同様に、矢印(103)は、サンプル(101)が、1つまたは複数の隣接サンプルからサンプル(101)の左下へ、水平方向から22.5度の角度で予測されることを示している。
【0012】
さらに
図1Aを参照すると、左上には、(太い破線によって示された)4×4サンプルの正方形ブロック(104)が描写されている。正方形ブロック(104)は16個のサンプルを含み、各々、「S」、Y次元のその位置(例えば、行インデックス)、およびX次元のその位置(例えば、列インデックス)でラベル付けされている。例えば、サンプルS21は、Y次元の(上から)2番目のサンプルであり、X次元の(左から)1番目のサンプルである。同様に、サンプルS44は、ブロック(104)内のY次元およびX次元の両方の4番目のサンプルである。ブロックのサイズは4×4サンプルであるため、S44は右下にある。同様の番号付け方式に従う参照サンプルの例がさらに示されている。参照サンプルは、R、ブロック(104)に対するそのY位置(例えば、行インデックス)およびX位置(列インデックス)でラベル付けされている。H.264とH.265の両方で、再構成中のブロックに隣接する予測サンプルが使用される。
【0013】
ブロック104のイントラピクチャ予測は、シグナリングされた予測方向に従って隣接サンプルから参照サンプル値をコピーすることから開始し得る。例えば、コーディングされたビデオビットストリームは、このブロック104について、矢印(102)の予測方向を示すシグナリングを含む、すなわち、サンプルは1つまたは複数の予測サンプルから右上へ、水平方向から45度の角度で予測されると仮定する。そのような場合、サンプルS41、S32、S23、S14が、同じ参照サンプルR05から予測される。次いで、参照サンプルR08からサンプルS44が予測される。
【0014】
特定の場合には、参照サンプルを計算するために、特に方向が45度によって均等に割り切れないときは、複数の参照サンプルの値は、例えば補間によって組み合わされてもよい。
【0015】
可能な方向の数は、ビデオコーディング技術が発展し続けるにつれて増加してきた。H.264(2003年)では、例えば、9つの異なる方向がイントラ予測に利用可能である。これは、H.265(2013年)では33まで増加し、JEM/VVC/BMSは、本開示の時点で、最大65の方向をサポートすることができる。最も適切なイントラ予測方向を特定するのに役立つ実験研究が行われており、エントロピーコーディングの特定の技術を使用して、方向についての特定のビットペナルティを受け入れて、それらの最も適切な方向が少数のビットでエンコーディングされ得る。さらに、方向自体を、デコーディングされた隣接ブロックのイントラ予測で使用された隣接する方向から予測できる場合もある。
【0016】
図1Bに、時間の経過と共に発展した様々なエンコーディング技術における増加する予測方向の数を例示するために、JEMによる65のイントラ予測方向を示す概略図(180)を示す。
【0017】
コーディングされたビデオビットストリームにおけるイントラ予測方向を表すビットの予測方向へのマッピングは、ビデオコーディング技術によって異なる可能性があり、例えば、予測方向対イントラ予測モードの単純な直接マッピングから、コードワード、最も可能性の高いモードを含む複雑な適応方式、および同様の技術にまで及ぶ場合がある。ただし、すべての場合において、他の特定の方向よりもビデオコンテンツで発生する可能性が統計的に低いイントラ予測の特定の方向が存在し得る。ビデオ圧縮の目的は冗長性の低減であるため、適切に設計されたビデオコーディング技術においては、より可能性の低い方向はより可能性の高い方向よりも多くのビット数で表される。
【0018】
インターピクチャ予測、またはインター予測は、動き補償に基づくものあり得る。動き補償では、以前に再構成されたピクチャまたはその一部(参照ピクチャ)からのサンプルデータが、動きベクトル(これ以降はMV)によって示される方向に空間的にシフトされた後、新たに再構成されたピクチャまたはピクチャ部分(例えば、ブロック)の予測に使用され得る。場合によっては、参照ピクチャは、現在再構成中のピクチャと同じであり得る。MVは、2つの次元XおよびY、または3つの次元を有していてもよく、第3の次元は、(時間次元と類似した)使用される参照ピクチャの指示である。
【0019】
いくつかのビデオ圧縮技術では、サンプルデータの特定のエリアに適用可能な現在のMVを、他のMVから、例えば再構成中のエリアに空間的に隣接し、デコーディング順序で現在のMVに先行する、サンプルデータの他のエリアに関連する他のMVから予測することができる。そうすることにより、相関するMVの冗長性の除去に依拠することによってMVをコーディングするのに必要とされる全体のデータ量を大幅に削減することができ、それによって圧縮効率が高まる。MV予測が効果的に機能することができるのは、例えば、(自然なビデオとして知られている)カメラから導出された入力ビデオ信号をコーディングするときに、単一のMVが適用可能なエリアよりも大きいエリアは、ビデオシーケンスにおいて同様の方向に移動する統計的尤度があり、したがって、場合によっては、隣接するエリアのMVから導出された同様の動きベクトルを使用して予測することができるからである。その結果として、所与のエリアの実際のMVが周囲のMVから予測されたMVと同様または同一になる。そのようなMVはさらに、エントロピーコーディング後に、MVが(1つまたは複数の)隣接するMVから予測されるのではなく直接コーディングされた場合に使用されることになるビット数よりも少ないビット数で表され得る。場合によっては、MV予測を、原信号(すなわち、サンプルストリーム)から導出された信号(すなわち、MV)の可逆圧縮の一例とすることができる。他の場合、MV予測自体は、例えば、いくつかの周囲のMVから予測器を計算するときの丸め誤差のために、非可逆であり得る。
【0020】
様々なMV予測メカニズムが、H.265/HEVC(ITU-T Rec.H.265、「High Efficiency Video Coding」、2016年12月)に記載されている。H.265が指定する多くのMV予測機構のうち、以下で説明するのは、これ以降「空間マージ」と呼ぶ技術である。
【0021】
具体的には、
図2を参照すると、現在のブロック(201)は、動き探索プロセス中にエンコーダによって、空間的にシフトされた同じサイズの前のブロックから予測可能であると検出されたサンプルを含む。そのMVを直接コーディングする代わりに、MVを、A0、A1、およびB0、B1、B2(それぞれ202から206)で表された5つの周囲のサンプルのいずれか1つと関連付けられたMVを使用して、1つまたは複数の参照ピクチャと関連付けられたメタデータから、例えば、(デコーディング順序で)最後の参照ピクチャから導出することができる。H.265では、MV予測は、隣接ブロックが使用しているのと同じ参照ピクチャからの予測子を使用することができる。
【発明の概要】
【課題を解決するための手段】
【0022】
本開示の態様は、イントラモードコーディングのための様々な方式を含むビデオエンコーディングおよびデコーディングのための方法および装置を提供する。
【0023】
いくつかの例示的実装形態では、コーディングされたビデオストリーム内の現在のブロックに対してイントラ予測を実行するための方法が開示される。この方法は、現在のブロックのイントラ予測のためのセットインデックスおよび位置インデックスを含むコーディングされたビデオストリームを受信するステップと、ビデオストリーム内の現在のブロックの少なくとも1つの隣接ブロックに対応するイントラ予測モードを参照モードとして決定するステップと、参照モードに基づいて、P個の事前定義されたイントラ予測モードをM個のイントラ予測モードセットに分割する方法を決定するステップであって、各イントラ予測モードセットは、Ni個の位置インデックス付きイントラ予測モードを含み、PおよびMは、1より大きい整数であり、Niは、i番目のイントラ予測モードセット内の予測モードの数であり、iは、M個のイントラ予測モードセットのうちのイントラ予測モードセットインデックスを表す整数である、ステップと、受信したセットインデックス、位置インデックス、および分割する方法に基づいて、P個の事前定義されたイントラ予測モードの中からターゲットイントラ予測モードを識別するステップと、現在のブロックのセットインデックスおよび位置インデックスに基づいて識別されたターゲットイントラ予測モードに少なくとも基づいて、コーディングされたビデオストリームの現在のブロックをデコーディングするステップとを含むことができる。
【0024】
上記の実装形態では、Nmaxは2の累乗であり、Nmax はNiの中の最大値である。いくつかの実装形態では、Mが2より大きい場合、Niは第1の数および第2の数から選択される。いくつかの実装形態では、Niは、M個のイントラ予測モードセットすべてに対して同じ値である。いくつかの実装形態では、M個のイントラ予測モードセットのうちの1つが第2の数のイントラ予測モードを含み、M個のイントラ予測モードセットのうちの他のすべてが第1の数のイントラ予測モードを含む。いくつかの実装形態では、M=4であり、Nmax=16である。いくつかの実装形態では、P=61であり、第1の数は16であり、第2の数は13である。
【0025】
上記のいくつかの例示的実装形態では、P個の事前定義されたイントラ予測モードは、方向性を持たないイントラ予測モードのサブセットを含むことができ、M個のイントラ予測モードセット内の方向性を持たないイントラ予測モードのサブセットの相対的な順序は、参照モードに関係なく固定される。
【0026】
上記のいくつかの例示的実装形態では、方向性を持たないイントラ予測モードのサブセットは、参照モードに関係なく、M個のイントラ予測モードセット内の最初に位置するイントラ予測モードセット内にある。
【0027】
上記のいくつかの例示的実装形態では、方向性を持たないイントラ予測モードのサブセットは、参照モードに関係なく、最初に位置するイントラ予測モードセット内で常に順番が最初のものとして配置されたDC予測モードを含む。
【0028】
上記のいくつかの例示的実装形態では、再帰フィルタリングに基づくイントラ予測モードが、DC予測モードのサブモードとしてシグナリングされる。さらに、方向性を持たないイントラ予測モードのサブセットは、参照モードに関係なく、最初に位置するイントラ予測モードセット内で常に順番が2番目のものとして配置されたSMOOTH予測モードを含み得る。いくつかの実装形態では、方向性を持たないイントラ予測モードのサブセットは、参照モードに関係なく、最初に位置するイントラ予測モードセット内で常に順番が3番目のものとして配置されたSMOOTH_V予測モードを含む。
【0029】
上記のいくつかの例示的実装形態では、方向性を持たないイントラ予測モードのサブセットは、参照モードに関係なく、最初に位置するイントラ予測モードセット内で常に順番が4番目のものとして配置されたSMOOTH_H予測モードを含み得る。
【0030】
上記のいくつかの例示的実装形態では、方向性を持たないイントラ予測モードのサブセットは、参照モードに関係なく、最初に位置するイントラ予測モードセット内で常に順番が5番目のものとして配置されたPAETH予測モードを含み得る。
【0031】
上記のいくつかの例示的実装形態では、P個の事前定義されたイントラ予測モードは、再帰フィルタリングに基づくイントラ予測モードを含むことができ、再帰フィルタリングに基づくイントラ予測モードは、参照モードに関係なく、順番がM個のイントラ予測モードセットのうちの最初に位置するイントラ予測モードセットとして配置され、再帰フィルタリングに基づくイントラ予測モードは、DCイントラ予測モードとは無関係にシグナリングされる。
【0032】
上記のいくつかの例示的実装形態では、現在のブロックに対する識別されたターゲットイントラ予測モードが、再帰フィルタリングに基づくイントラ予測モードである場合、方法は、再帰フィルタリングに基づくイントラ予測モードのセットのうちのどれがセットインデックスと位置インデックスとは別に選択されるかを決定することをさらに含み得る。
【0033】
上記のいくつかの例示的実装形態では、再帰フィルタリングに基づくイントラ予測モードは、参照モードに関係なく、最初に位置するイントラ予測モードセット内の6番目の位置に常に配置される。P個の事前定義されたイントラ予測モードは、少なくとも1つの方向のイントラ予測モード、少なくとも1つの方向性を持たないイントラ予測モード、および少なくとも1つのluma対chromaイントラ予測モードを含む。
【0034】
本開示の態様はまた、ビデオのデコーディングおよび/またはエンコーディングのための上記の方法の実装形態のうちのいずれか1つを実行するように構成された処理回路を含む装置を提供する。本開示の態様はまた、ビデオのデコーディングおよび/またはエンコーディングのためにコンピュータによって実行されると、ビデオのデコーディングおよび/またはエンコーディングのための上記の方法の実装形態のうちのいずれか1つをコンピュータに実行させる命令を格納する非一時的コンピュータ可読媒体を提供する。
【0035】
開示された主題のさらなる特徴、性質、および様々な利点は、以下の詳細な説明および添付の図面からより明らかになるであろう。
【図面の簡単な説明】
【0036】
【
図1A】イントラ予測方向モードの例示的なサブセットの概略図である。
【
図1B】例示的なイントラ予測方向を示す図である。
【
図2】一例における現在のブロックおよび動きベクトル予測のためのその周囲の空間マージ候補を示す概略図である。
【
図3】一例示的実施形態に係る通信システム(300)の簡略化されたブロック図を示す概略図である。
【
図4】一例示的実施形態に係る通信システム(400)の簡略化されたブロック図を示す概略図である。
【
図5】一例示的実施形態に係るビデオデコーダの簡略化されたブロック図を示す概略図である。
【
図6】一例示的実施形態に係るビデオエンコーダの簡略化されたブロック図を示す概略図である。
【
図7】別の例示的実施形態に係るビデオエンコーダを示すブロック図である。
【
図8】別の例示的実施形態に係るビデオデコーダを示すブロック図である。
【
図9】本開示の実施形態に係る方向性イントラ予測モードを示す。
【
図10】本開示の実施形態に係る方向性を持たないイントラ予測モードを示す。
【
図11】本開示の実施形態に係る再帰的イントラ予測モードを示す。
【
図12】本開示の実施形態に係るイントラ予測ブロックの変換ブロックの分割およびスキャンを示す。
【
図13】本開示の実施形態に係るインター予測ブロックの変換ブロックの分割およびスキャンを示す。
【
図14】本開示の例示的な実施形態に係るフローチャートを示す。
【
図15】本開示の例示的な実施形態に係るコンピュータシステムの概略図を示す。
【発明を実施するための形態】
【0037】
図3に、本開示の一実施形態による通信システム(300)の簡略化されたブロック図を示す。通信システム(300)は、例えば、ネットワーク(350)を介して互いに通信することができる複数の端末デバイスを含む。例えば、通信システム(300)は、ネットワーク(350)を介して相互接続された第1の対の端末デバイス(310)および(320)を含む。
図3の例では、第1の対の端末デバイス(310)および(320)は、データの単方向伝送を実行し得る。例えば、端末デバイス(310)は、ネットワーク(350)を介して他方の端末デバイス(320)に送信するための(例えば、端末デバイス(310)によって取り込まれたビデオピクチャのストリームの)ビデオデータをコーディングし得る。エンコーディングされたビデオデータは、1つまたは複数のコーディングされたビデオビットストリームの形で送信され得る。端末デバイス(320)は、ネットワーク(350)からコーディングされたビデオデータを受信し、コーディングされたビデオデータをデコーディングしてビデオピクチャを復元し、復元されたビデオデータに従ってビデオピクチャを表示し得る。一方向データ伝送は、メディアサービング用途などで実施され得る。
【0038】
別の例では、通信システム(300)は、例えばビデオ会議用途の間に実施され得るコーディングされたビデオデータの双方向伝送を実行する第2の対の端末デバイス(330)および(340)を含む。データの双方向伝送のために、一例では、端末デバイス(330)および(340)の各端末デバイスは、ネットワーク(350)を介して端末デバイス(330)および(340)の他方の端末デバイスに送信するための(例えば、その端末デバイスによって取り込まれたビデオピクチャのストリームの)ビデオデータをコーディングし得る。端末デバイス(330)および(340)の各端末デバイスはまた、端末デバイス(330)および(340)の他方の端末デバイスによって送信されたコーディングされたビデオデータを受信し、コーディングされたビデオデータをデコーディングしてビデオピクチャを復元し、復元されたビデオデータに従ってアクセス可能な表示装置でビデオピクチャを表示し得る。
【0039】
図3の例では、端末デバイス(310)、(320)、(330)、および(340)は、サーバ、パーソナルコンピュータ、およびスマートフォンとして実施され得るが、本開示の基礎となる原理の適用性はそのように限定されない。本開示の実施形態は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、メディアプレーヤ、ウェアラブルコンピュータ、専用のビデオ会議機器などにおいて実装され得る。ネットワーク(350)は、例えば、有線(有線接続)および/または無線通信ネットワークを含む、端末デバイス(310)、(320)、(330)および(340)間でコーディングされたビデオデータを伝達する任意の数またはタイプのネットワークを表す。通信ネットワーク(350)は、回線交換チャネル、パケット交換チャネル、および/または他のタイプのチャネルでデータを交換し得る。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、および/またはインターネットが含まれる。本考察の目的にとって、ネットワーク(350)のアーキテクチャおよびトポロジーは、本明細書で明示的に説明されない限り、本開示の動作にとって重要ではない場合がある。
【0040】
図4に、開示の主題の用途の一例として、ビデオストリーミング環境におけるビデオエンコーダおよびビデオデコーダの配置を示す。開示の主題は、例えば、ビデオ会議、デジタルテレビ放送、ゲーム、仮想現実、CD、DVD、メモリスティックなどを含むデジタルメディア上の圧縮ビデオの格納などを含む、他のビデオ対応用途に等しく適用され得る。
【0041】
ビデオストリーミングシステムは、圧縮されていないビデオピクチャまたは画像のストリーム(402)を作成するためのビデオソース(401)、例えばデジタルカメラを含むことができるビデオ取り込みサブシステム(413)を含み得る。一例では、ビデオピクチャのストリーム(402)は、ビデオソース401のデジタルカメラによって記録されたサンプルを含む。ビデオピクチャのストリーム(402)は、エンコーディングされたビデオデータ(404)(またはコーディングされたビデオビットストリーム)と比較した場合の高データ量を強調するために太線で示されており、ビデオソース(401)に結合されたビデオエンコーダ(403)を含む電子デバイス(420)によって処理され得る。ビデオエンコーダ(403)は、以下でより詳細に説明されるように開示の主題の態様を可能にし、または実装するために、ハードウェア、ソフトウェア、またはそれらの組み合わせを含むことができる。エンコーディングされたビデオデータ(404)(またはエンコーディングされたビデオビットストリーム(404))は、非圧縮ビデオピクチャのストリーム(402)と比較した場合の低データ量を強調するために細線で示されており、将来の使用のためにストリーミングサーバ(405)に、または下流のビデオデバイス(図示せず)に直接格納され得る。
図4のクライアントサブシステム(406)および(408)などの1つまたは複数のストリーミングクライアントサブシステムは、ストリーミングサーバ(405)にアクセスして、エンコーディングされたビデオデータ(404)のコピー(407)および(409)を取得することができる。クライアントサブシステム(406)は、例えば電子デバイス(430)内のビデオデコーダ(410)を含むことができる。ビデオデコーダ(410)は、エンコーディングされたビデオデータの入力コピー(407)をデコーディングし、圧縮されていない、ディスプレイ(412)(例えば、表示画面)または他のレンダリングデバイス(図示せず)上にレンダリングすることができるビデオピクチャの出力ストリーム(411)を作成する。ビデオデコーダ410は、本開示に記載される様々な機能の一部または全部を実行するように構成され得る。一部のストリーミングシステムでは、エンコーディングされたビデオデータ(404)、(407)、および(409)(例えば、ビデオビットストリーム)を、特定のビデオコーディング/圧縮規格に従ってエンコーディングすることができる。それらの規格の例には、ITU-T勧告H.265が含まれる。一例では、開発中のビデオコーディング規格は、多用途ビデオコーディング(VVC)として非公式に知られている。開示の主題は、VVC、および他のビデオコーディング規格の文脈で使用され得る。
【0042】
電子デバイス(420)および(430)は、他の構成要素(図示せず)を含むことができることに留意されたい。例えば、電子デバイス(420)はビデオデコーダ(図示せず)を含むことができ、電子デバイス(430)はビデオエンコーダ(図示せず)も含むことができる。
【0043】
図5に、以下の本開示の任意の実施形態によるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、電子デバイス(530)に含めることができる。電子デバイス(530)は、受信機(531)(例えば、受信回路)を含むことができる。ビデオデコーダ(510)は、
図4の例のビデオデコーダ(410)の代わりに使用することができる。
【0044】
受信機(531)は、ビデオデコーダ(510)によってデコーディングされるべき1つまたは複数のコーディングされたビデオシーケンスを受信し得る。同じまたは別の実施形態では、一度に1つのコーディングされたビデオシーケンスがデコーディングされ得、各コーディングされたビデオシーケンスのデコーディングは、他のコーディングされたビデオシーケンスから独立している。各ビデオシーケンスは、複数のビデオフレームまたはビデオ画像と関連付けられ得る。コーディングされたビデオシーケンスはチャネル(501)から受信され得、チャネル(501)は、エンコーディングされたビデオデータを格納する記憶装置へのハードウェア/ソフトウェアリンク、またはエンコーディングされたビデオデータを送信するストリーミングソースであり得る。受信機(531)は、エンコーディングされたビデオデータを、それぞれの処理回路(図示せず)に転送され得る、コーディングされたオーディオデータおよび/または補助データストリームなどの他のデータと共に受信し得る。受信機(531)は、コーディングされたビデオシーケンスを他のデータから分離し得る。ネットワークジッタに対抗するために、バッファメモリ(515)が、受信機(531)とエントロピーデコーダ/パーサ(520)(これ以降は「パーサ(520)」)との間に配置されてもよい。特定の用途では、バッファメモリ(515)は、ビデオデコーダ(510)の一部として実装され得る。他の用途では、バッファメモリ(515)は、ビデオデコーダ(510)から分離されて外部にあり得る(図示せず)。さらに他の用途では、例えばネットワークジッタに対抗するためにビデオデコーダ(510)の外部にバッファメモリ(図示せず)があってもよく、例えば再生タイミングを処理するためにビデオデコーダ(510)の内部に別のバッファメモリ(515)があり得る。受信機(531)が十分な帯域幅および可制御性の記憶/転送デバイスから、またはアイソシンクロナス(isosynchronous)ネットワークからデータを受信しているときには、バッファメモリ(515)は不要であり得るか、または小さくすることができる。インターネットなどのベストエフォートパケットネットワークで使用するために、十分なサイズのバッファメモリ(515)が必要とされる場合があり、そのサイズは比較的大きくなり得る。そのようなバッファメモリは、適応サイズで実装されてもよく、ビデオデコーダ(510)の外部のオペレーティングシステムまたは同様の要素(図示せず)に少なくとも部分的に実装され得る。
【0045】
ビデオデコーダ(510)は、コーディングされたビデオシーケンスからシンボル(521)を再構成するためのパーサ(520)を含み得る。それらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報と、潜在的に、
図5に示すように、電子デバイス(530)の不可欠な部分である場合もそうでない場合もあるが、電子デバイス(530)に結合することができるディスプレイ(512)(例えば、表示画面)などのレンダリングデバイスを制御するための情報とを含む。(1つまたは複数の)レンダリングデバイスのための制御情報は、補足拡張情報(SEIメッセージ)またはビデオユーザビリティ情報(VUI)パラメータセットフラグメント(図示せず)の形であり得る。パーサ(520)は、パーサ(520)によって受け取られるコーディングされたビデオシーケンスを構文解析/エントロピーデコーディングし得る。コーディングされたビデオシーケンスのエントロピーコーディングは、ビデオコーディング技術または規格に従ったものとすることができ、可変長コーディング、ハフマンコーディング、文脈依存性ありまたはなしの算術コーディングなどを含む様々な原理に従ったものとすることができる。パーサ(520)は、コーディングされたビデオシーケンスから、サブグループに対応する少なくとも1つのパラメータに基づいて、ビデオデコーダ内の画素のサブグループのうちの少なくとも1つのサブグループパラメータのセットを抽出し得る。サブグループには、Groups of Pictures(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含めることができる。パーサ(520)はまた、コーディングされたビデオシーケンスから、変換係数(例えば、フーリエ変換係数)、量子化パラメータ値、動きベクトルなどの情報も抽出し得る。
【0046】
パーサ(520)は、シンボル(521)を作成するために、バッファメモリ(515)から受け取られたビデオシーケンスに対してエントロピーデコーディング/パース操作を実行し得る。
【0047】
シンボル(521)の再構成は、コーディングされたビデオピクチャまたはその部分のタイプ(インターピクチャおよびイントラピクチャ、インターブロックおよびイントラブロックなど)、ならびに他の要因に応じて、複数の異なる処理ユニットまたは機能ユニットを含むことができる。含まれるユニットおよびユニットがどのように含まれるかは、パーサ(520)によってコーディングされたビデオシーケンスから構文解析されたサブグループ制御情報によって制御され得る。パーサ(520)と以下の複数の処理ユニットまたは機能ユニットとの間のそのようなサブグループ制御情報の流れは、簡潔にするために図示されていない。
【0048】
すでに述べた機能ブロックを超えて、ビデオデコーダ(510)を、以下で説明するように、いくつかの機能ユニットに概念的に細分することができる。商業的制約の下で動作する実際の実装形態では、これらの機能ユニットの多くは互いに密接に相互作用し、少なくとも部分的に、互いに統合され得る。しかしながら、開示の主題の様々な機能を明確に説明するために、以下の開示においては機能ユニットへの概念的細分を採用する。
【0049】
第1のユニットはスケーラ/逆変換ユニット(551)である。スケーラ/逆変換ユニット(551)は、量子化変換係数、ならびにどのタイプの逆変換を使用するかを示す情報、ブロックサイズ、量子化係数/パラメータ、量子化スケーリング行列などを含む制御情報を、パーサ(520)から(1つまたは複数の)シンボル(521)として受信し得る。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力することができるサンプル値を備えるブロックを出力することができる。
【0050】
場合によっては、スケーラ/逆変換(551)の出力サンプルは、イントラコーディングされたブロック、すなわち、以前に再構成されたピクチャからの予測情報を使用しないが、現在のピクチャの以前に再構成された部分からの予測情報を使用することができるブロックに関係し得る。そのような予測情報を、イントラピクチャ予測ユニット(552)によって提供することができる。場合によっては、イントラピクチャ予測ユニット(552)は、すでに再構成され、現在のピクチャバッファ(558)に格納されている周囲のブロックの情報を使用して、再構成中のブロックと同じサイズおよび形状のブロックを生成してもよい。現在のピクチャバッファ(558)は、例えば、部分的に再構成された現在のピクチャおよび/または完全に再構成された現在のピクチャをバッファする。アグリゲータ(555)は、いくつかの実装形態では、サンプル毎に、イントラ予測ユニット(552)が生成した予測情報を、スケーラ/逆変換ユニット(551)によって提供される出力サンプル情報に追加し得る。
【0051】
他の場合には、スケーラ/逆変換ユニット(551)の出力サンプルは、インターコーディングされ、潜在的に動き補償されたブロックに関係し得る。そのような場合、動き補償予測ユニット(553)は、参照ピクチャメモリ(557)にアクセスして、インターピクチャ予測に使用されるサンプルをフェッチすることができる。ブロックに関連するシンボル(521)に従ってフェッチされたサンプルを動き補償した後、これらのサンプルを、出力サンプル情報を生成するために、アグリゲータ(555)によってスケーラ/逆変換ユニット(551)の出力に追加することができる(ユニット551の出力は、残差サンプルまたは残差信号と呼ばれ得る)。動き補償予測ユニット(553)がそこから予測サンプルをフェッチする参照ピクチャメモリ(557)内のアドレスは、例えば、X成分、Y成分(シフト)、および参照ピクチャ成分(時間)を有することができるシンボル(521)の形で動き補償予測ユニット(553)が利用可能な、動きベクトルによって制御され得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ(557)からフェッチされたサンプル値の補間も含んでいてもよく、動きベクトル予測機構などと関連付けられてもよい。
【0052】
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、コーディングされたビデオシーケンス(コーディングされたビデオビットストリームとも言う)に含まれるパラメータによって制御され、パーサ(520)からのシンボル(521)としてループフィルタユニット(556)が利用可能なインループフィルタ技術を含むことができるが、コーディングされたピクチャまたはコーディングされたビデオシーケンスの(デコーディング順序で)前の部分のデコーディング中に取得されたメタ情報に応答することもでき、以前に再構成され、ループフィルタリングされたサンプル値に応答することもできる。以下でさらに詳細に説明するように、いくつかのタイプのループフィルタが、様々な順序でループフィルタユニット556の一部として含まれ得る。
【0053】
ループフィルタユニット(556)の出力は、レンダリングデバイス(512)に出力することができると共に、将来のインターピクチャ予測で使用するために参照ピクチャメモリ(557)に格納することもできるサンプルストリームであり得る。
【0054】
特定のコーディングされたピクチャは、完全に再構成されると、将来のインターピクチャ予測のための参照ピクチャとして使用することができる。例えば、現在のピクチャに対応するコーディングされたピクチャが完全に再構成され、コーディングされたピクチャが(例えば、パーサ(520)によって)参照ピクチャとして識別されると、現在のピクチャバッファ(558)は、参照ピクチャメモリ(557)の一部になることができ、次のコーディングされたピクチャの再構成を開始する前に、新しい現在のピクチャバッファを再割り振りすることができる。
【0055】
ビデオデコーダ(510)は、例えばITU-T Rec.H.265などの規格で採用された所定のビデオ圧縮技術に従ってデコーディング動作を実行し得る。コーディングされたビデオシーケンスは、コーディングされたビデオシーケンスがビデオ圧縮技術または規格の構文と、ビデオ圧縮技術または規格に文書化されたプロファイルの両方に忠実であるという意味において、使用されているビデオ圧縮技術または規格によって指定された構文に準拠し得る。具体的には、プロファイルは、そのプロファイルの下でのみ使用に供されるツールとして、ビデオ圧縮技術または規格で利用可能なすべてのツールの中から特定のツールを選択することができる。規格に準拠するために、コーディングされたビデオシーケンスの複雑さが、ビデオ圧縮技術または規格のレベルによって定義される範囲内にあり得る。場合によっては、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば、毎秒のメガサンプル数で測定される)、最大参照ピクチャサイズなどを制限する。レベルによって設定される制限は、場合によっては、仮想参照デコーダ(HRD)仕様およびコーディングされたビデオシーケンスでシグナリングされたHRDバッファ管理のためのメタデータによってさらに制限され得る。
【0056】
いくつかの例示的実施形態では、受信機(531)は、エンコーディングされたビデオと共に追加の(冗長な)データを受信し得る。追加のデータは、(1つまたは複数の)コーディングされたビデオシーケンスの一部として含まれ得る。追加のデータは、データを適切にデコーディングするために、かつ/または元のビデオデータをより正確に復元するために、ビデオデコーダ(510)によって使用されてもよい。追加のデータは、例えば、時間、空間、または信号対雑音比(SNR)増強層、冗長スライス、冗長ピクチャ、前方誤り訂正コードなどの形であり得る。
【0057】
図6に、本開示の一例示的実施形態によるビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は、電子デバイス(620)に含まれ得る。電子デバイス(620)は、送信機(640)(例えば、送信回路)をさらに含み得る。ビデオエンコーダ(603)は、
図4の例のビデオエンコーダ(403)の代わりに使用することができる。
【0058】
ビデオエンコーダ(603)は、ビデオエンコーダ(603)によってコーディングされるべき(1つまたは複数の)ビデオ画像を取り込み得るビデオソース(601)(
図6の例では電子デバイス(620)の一部ではない)からビデオサンプルを受信し得る。別の例では、ビデオソース(601)は電子デバイス(620)の一部分として実装され得る。
【0059】
ビデオソース(601)は、ビデオエンコーダ(603)によってコーディングされるべきソースビデオシーケンスを、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット、...)、任意の色空間(例えば、BT.601 YCrCb、RGB、XYZ...)、および任意の適切なサンプリング構造(例えば、YCrCb 4:2:0、YCrCb 4:4:4)のものとすることができるデジタルビデオサンプルストリームの形で提供し得る。メディアサービングシステムでは、ビデオソース(601)は、以前に準備されたビデオを格納することができる記憶装置であり得る。ビデオ会議システムでは、ビデオソース(601)は、ローカル画像情報をビデオシーケンスとして取り込むカメラであり得る。ビデオデータは、順を追って見たときに動きを与える複数の個別のピクチャまたは画像として提供され得る。ピクチャ自体は、画素の空間配列として編成されてもよく、各画素は、使用されているサンプリング構造、色空間などに応じて、1つまたは複数のサンプルを含むことができる。当業者であれば、画素とサンプルとの関係を容易に理解することができる。以下の説明はサンプルに焦点を当てている。
【0060】
いくつかの例示的実施形態によれば、ビデオエンコーダ(603)は、リアルタイムで、または用途によって必要とされる他の任意の時間制約の下で、ソースビデオシーケンスのピクチャをコーディングされたビデオシーケンス(643)にコーディングおよび圧縮し得る。適切なコーディング速度を強制することが、コントローラ(650)の1つの機能を構成する。いくつかの実施形態では、コントローラ(650)は、以下で説明されるように、他の機能ユニットに機能的に結合され、他の機能ユニットを制御し得る。簡潔にするために、結合は図示されていない。コントローラ(650)によって設定されるパラメータには、レート制御関連のパラメータ(ピクチャスキップ、量子化器、レート歪み最適化手法のラムダ値など)、ピクチャサイズ、Group of Pictures(GOP)レイアウト、最大動きベクトル探索範囲などが含まれ得る。コントローラ(650)は、特定のシステム設計のために最適化されたビデオエンコーダ(603)に関係する他の適切な機能を有するように構成することができる。
【0061】
いくつかの例示的実施形態では、ビデオエンコーダ(603)は、コーディングループで動作するように構成され得る。過度に簡略化された説明として、一例では、コーディングループは、ソースコーダ(630)(例えば、コーディングされるべき入力ピクチャと、(1つまたは複数の)参照ピクチャとに基づいて、シンボルストリームなどのシンボルを作成する役割を担う)と、ビデオエンコーダ(603)に組み込まれた(ローカル)デコーダ(633)とを含むことができる。デコーダ(633)は、組み込まれたデコーダ633がエントロピーコーディングなしでソースコーダ630によってコーディングされたビデオストリームを処理するとしても、シンボルを再構成して、(リモート)デコーダが作成することになるのと同様の方法でサンプルデータを作成する(開示の主題で考慮されるビデオ圧縮技術では、シンボルとコーディングされたビデオビットストリームとの間の任意の圧縮が可逆であり得るため)。再構成されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(634)に入力される。シンボルストリームのデコーディングは、デコーダの場所(ローカルまたはリモート)に関係なくビット正確な結果につながるので、参照ピクチャメモリ(634)内のコンテンツも、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分は、デコーディング中に予測を使用するときにデコーダが「見る」ことになるのとまったく同じサンプル値を参照ピクチャサンプルとして「見る」。参照ピクチャの同期性(および、例えばチャネル誤差が原因で同期性を維持することができない場合には、結果として生じるドリフト)のこの基本原理はコーディング品質を向上させるために使用される。
【0062】
「ローカル」デコーダ(633)の動作は、
図5に関連して上記で詳細に説明した、ビデオデコーダ(510)などの「リモート」デコーダの動作と同じであり得る。
図5も簡単に参照すると、しかしながら、シンボルが利用可能であり、エントロピーコーダ(645)およびパーサ(520)によるコーディングされたビデオシーケンスへのシンボルのエンコーディング/デコーディングが可逆であり得るため、バッファメモリ(515)およびパーサ(520)を含むビデオデコーダ(510)のエントロピーデコーディング部分は、エンコーダ内のローカルデコーダ(633)においては完全に実装されない場合がある。
【0063】
この時点で言えることは、デコーダ内にのみ存在し得るパース/エントロピーデコーディングを除く任意のデコーダ技術もまた必然的に、対応するエンコーダにおいて、実質的に同一の機能形態で存在する必要があり得るということである。このため、開示の主題はデコーダ動作に焦点を当てる場合があり、この動作はエンコーダのデコーディング部分と同様である。よって、エンコーダ技術の説明は、包括的に説明されるデコーダ技術の逆であるので、省略することができる。特定の領域または態様においてのみ、エンコーダのより詳細な説明を以下に示す。
【0064】
動作中、いくつかの例示的実装形態では、ソースコーダ(630)は、「参照ピクチャ」として指定されたビデオシーケンスからの1つまたは複数の以前にコーディングされたピクチャを参照して入力ピクチャを予測的にコーディングする、動き補償予測コーディングを実行する場合がある。このようにして、コーディングエンジン(632)は、入力ピクチャの画素ブロックと、入力ピクチャへの(1つまたは複数の)予測参照として選択され得る(1つまたは複数の)参照ピクチャの画素ブロックとの間の色チャネルの差分(または残差)をコーディングする。用語「残差(residue)」およびその形容詞形「残差の(residual)」は、互換的に使用され得る。
【0065】
ローカルビデオデコーダ(633)は、ソースコーダ(630)によって作成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータをデコーディングし得る。コーディングエンジン(632)の動作は、有利なことに、非可逆プロセスであってもよい。コーディングされたビデオデータが(
図6には示されていない)ビデオデコーダでデコーディングされ得るとき、再構成されたビデオシーケンスは、通常、いくつかの誤差を伴うソースビデオシーケンスのレプリカであり得る。ローカルビデオデコーダ(633)は、参照ピクチャに対してビデオデコーダによって実行され得るデコーディングプロセスを複製し、再構成された参照ピクチャを参照ピクチャキャッシュ(634)に格納させ得る。このようにして、ビデオエンコーダ(603)は、遠端(リモート)ビデオデコーダによって取得される再構成された参照ピクチャと共通の内容を有する再構成された参照ピクチャのコピーをローカルに格納し得る(伝送誤差なしで)。
【0066】
予測器(635)は、コーディングエンジン(632)のための予測探索を実行し得る。すなわち、コーディングされる新しいピクチャの場合、予測器(635)は、新しいピクチャのための適切な予測参照として役立つことができる、(候補参照ピクセルブロックとしての)サンプルデータまたは参照ピクチャ動きベクトル、ブロック形状などの特定のメタデータを求めて、参照ピクチャメモリ(634)を検索することができる。予測器(635)は、適切な予測参照を見つけるために、ピクセルブロック毎にサンプルブロックに対して動作することができる。場合によっては、予測器(635)によって取得された探索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ(634)に格納された複数の参照ピクチャから引き出された予測参照を有し得る。
【0067】
コントローラ(650)は、例えば、ビデオデータをエンコーディングするために使用されるパラメータおよびサブグループパラメータの設定を含む、ソースコーダ(630)のコーディング動作を管理し得る。
【0068】
前述のすべての機能ユニットの出力は、エントロピーコーダ(645)でエントロピーコーディングされ得る。エントロピーコーダ(645)は、ハフマンコーディング、可変長コーディング、算術コーディングなどといった技術に従ったシンボルの可逆圧縮により、様々な機能ユニットによって生成されたシンボルをコーディングされたビデオシーケンスに変換する。
【0069】
送信機(640)は、エントロピーコーダ(645)によって作成された(1つまたは複数の)コーディングされたビデオシーケンスを、エンコーディングされたビデオデータを格納することになる記憶装置へのハードウェア/ソフトウェアリンクであり得る、通信チャネル(660)を介した送信に備えてバッファし得る。送信機(640)は、ビデオコーダ(603)からのコーディングされたビデオデータを、送信されるべき他のデータ、例えば、コーディングされたオーディオデータおよび/または補助データストリーム(ソースは図示せず)とマージし得る。
【0070】
コントローラ(650)は、ビデオエンコーダ(603)の動作を管理し得る。コーディング中に、コントローラ(650)は、各コーディングされたピクチャに特定のコーディングされたピクチャタイプを割り当てることができ、それは、それぞれのピクチャに適用され得るコーディング技法に影響を及ぼす場合がある。例えば、ピクチャは多くの場合、以下のピクチャタイプのうちの1つとして割り当てられ得る。
【0071】
イントラピクチャ(Iピクチャ)は、シーケンス内の任意の他のピクチャを予測ソースとして使用せずに、コーディングおよびデコーディングされ得るピクチャであり得る。一部のビデオコーデックは、例えば、独立したデコーダリフレッシュ(「IDR」)ピクチャを含む異なるタイプのイントラピクチャを可能にする。当業者であれば、Iピクチャのそれらの変形ならびにそれらそれぞれの用途および特徴を認識している。
【0072】
予測ピクチャ(Pピクチャ)は、最大で1つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するイントラ予測またはインター予測を使用してコーディングおよびデコーディングされ得るピクチャであり得る。
【0073】
双方向予測ピクチャ(Bピクチャ)は、最大で2つの動きベクトルおよび参照インデックスを使用して各ブロックのサンプル値を予測するイントラ予測またはインター予測を使用してコーディングおよびデコーディングされ得るピクチャであり得る。同様に、複数予測ピクチャは、単一のブロックの再構成のために3つ以上の参照ピクチャおよび関連するメタデータを使用することができる。
【0074】
ソースピクチャは、一般に、複数のサンプルコーディングブロック(例えば、各々4×4、8×8、4×8、または16×16サンプルのブロック)に空間的に細分され、ブロック毎にコーディングされ得る。ブロックは、ブロックそれぞれのピクチャに適用されたコーディング割り当てによって決定されるように他の(すでにコーディングされた)ブロックを参照して予測的にコーディングされ得る。例えば、Iピクチャのブロックは、非予測的にコーディングされ得るか、または、同じピクチャのすでにコーディングされたブロックを参照して、予測的にコーディングされ得る(空間予測またはイントラ予測)。Pピクチャのピクセルブロックは、1つの以前にコーディングされた参照ピクチャを参照して、空間予測を介して、または時間予測を介して、予測的にコーディングされてもよい。Bピクチャのブロックは、1つまたは2つの以前にコーディングされた参照ピクチャを参照して、空間予測によって、または時間予測によって予測的にコーディングされ得る。ソースピクチャまたは中間処理されたピクチャは、他の目的で他のタイプのブロックに細分されてもよい。コーディングブロックおよびその他のタイプのブロックの分割は、以下でさらに詳細に説明するように、同じ方法に従う場合もそうでない場合もある。
【0075】
ビデオエンコーダ(603)は、ITU-T Rec.H.265などの所定のビデオコーディング技術または規格に従ってコーディング動作を実行することができる。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間および空間の冗長性を利用する予測コーディング動作を含む、様々な圧縮動作を実行することができる。したがって、コーディングされたビデオデータは、使用されているビデオコーディング技術または規格によって指定された構文に準拠し得る。
【0076】
いくつかの例示的実施形態では、送信機(640)は、エンコーディングされたビデオと共に追加のデータを送信し得る。ソースコーダ(630)は、そのようなデータをコーディングされたビデオシーケンスの一部として含み得る。追加のデータは、時間/空間/SNR増強層、冗長なピクチャやスライスなどの他の形の冗長データ、SEIメッセージ、VUIパラメータセットフラグメントなどを含み得る。
【0077】
ビデオは、複数のソースピクチャ(ビデオピクチャ)として時系列で取り込まれ得る。イントラピクチャ予測(しばしばイントラ予測と略される)は、所与のピクチャにおける空間相関を利用し、インターピクチャ予測は、ピクチャ間の時間またはその他の相関を利用する。例えば、現在のピクチャと呼ばれる、エンコーディング/デコーディング中の特定のピクチャがブロックに分割され得る。現在のピクチャ内のブロックは、ビデオ内の以前にコーディングされたまだバッファされている参照ピクチャ内の参照ブロックに類似している場合、動きベクトルと呼ばれるベクトルによってコーディングされ得る。動きベクトルは、参照ピクチャ内の参照ブロックを指し示し、複数の参照ピクチャが使用されている場合には、参照ピクチャを識別する第3の次元を有することができる。
【0078】
いくつかの例示的実施形態では、インターピクチャ予測に双予測技術を使用することができる。そのような双予測技術によれば、第1の参照ピクチャおよび第2の参照ピクチャなどの2つの参照ピクチャが使用され、これらは両方ともビデオ内の現在のピクチャをデコーディング順序で進める(ただし、表示順序では、それぞれ過去または未来にあり得る)。現在のピクチャ内のブロックは、第1の参照ピクチャ内の第1の参照ブロックを指し示す第1の動きベクトルと、第2の参照ピクチャ内の第2の参照ブロックを指し示す第2の動きベクトルとによってコーディングされ得る。ブロックは、第1の参照ブロックと第2の参照ブロックの組み合わせによって協調して予測することができる。
【0079】
さらに、マージモード技術が、インターピクチャ予測においてコーディング効率を改善するために使用されてもよい。
【0080】
本開示のいくつかの例示的実施形態によれば、インターピクチャ予測およびイントラピクチャ予測などの予測は、ブロック単位で実行される。例えば、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット(CTU)に分割され、ピクチャ内のCTUは、64×64画素、32×32画素、または16×16画素などの同じサイズを有し得る。一般に、CTUは、3つの並列のコーディングツリーブロック(CTB)、すなわち、1つのluma CTBおよび2つのchroma CTBを含み得る。各CTUを、1つまたは複数のコーディングユニット(CU)に再帰的に四分木分割することができる。例えば、64×64画素のCTUを、64×64画素の1つのCU、または32×32画素の4つのCUに分割することができる。32×32ブロックのうちの1つまたは複数の各々は、16×16画素の4つのCUにさらに分割され得る。いくつかの例示的実施形態では、各CUは、インター予測タイプやイントラ予測タイプなどの様々な予測タイプの中からそのCUの予測タイプを決定するためにエンコーディング中に分析され得る。CUは、時間的および/または空間的予測可能性に応じて、1つまたは複数の予測ユニット(PU)に分割され得る。一般に、各PUは、1つのluma予測ブロック(PB)と、2つのchroma PBとを含む。一実施形態では、コーディング(エンコーディング/デコーディング)における予測動作は、予測ブロック単位で実行される。CUのPU(または異なる色チャネルのPB)への分割は、様々な空間パターンで実行され得る。luma PBまたはchroma PBは、例えば、8×8画素、16×16画素、8×16画素、16×8画素などといった、サンプルの値(例えば、luma値)の行列を含み得る。
【0081】
図7に、本開示の別の例示的実施形態によるビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオピクチャのシーケンスにおける現在のビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受け取り、処理ブロックを、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャにエンコーディングするように構成される。例示的なビデオエンコーダ(703)は、
図4の例のビデオエンコーダ(403)の代わりに使用され得る。
【0082】
例えば、ビデオエンコーダ(703)は、8×8サンプルの予測ブロックなどの処理ブロックのサンプル値の行列を受け取る。次いでビデオエンコーダ(703)は、例えばレート歪み最適化(RDO)を使用して、処理ブロックがそれを使用して最良にコーディングされるのは、イントラモードか、インターモードか、それとも双予測モードかを決定する。処理ブロックがイントラモードでコーディングされると決定された場合、ビデオエンコーダ(703)は、イントラ予測技術を使用して処理ブロックをコーディングされたピクチャにエンコーディングし、処理ブロックがインターモードまたは双予測モードでコーディングされると決定された場合、ビデオエンコーダ(703)は、それぞれインター予測技術または双予測技術を使用して、処理ブロックをコーディングされたピクチャにエンコーディングし得る。いくつかの例示的実施形態では、インターピクチャ予測のサブモードとして、動きベクトルが予測器の外側のコーディングされた動きベクトル成分の恩恵を受けずに1つまたは複数の動きベクトル予測器から導出されるマージモードが使用され得る。いくつかの他の例示的実施形態では、対象ブロックに適用可能な動きベクトル成分が存在し得る。したがって、ビデオエンコーダ(703)は、処理ブロックの予測モードを決定するために、モード決定モジュールなどの、
図7に明示的に示されていない構成要素を含み得る。
【0083】
図7の例では、ビデオエンコーダ(703)は、
図7の例示的な構成に示されるように互いに結合されたインターエンコーダ(730)、イントラエンコーダ(722)、残差計算器(723)、スイッチ(726)、残差エンコーダ(724)、汎用コントローラ(721)、およびエントロピーエンコーダ(725)を含む。
【0084】
インターエンコーダ(730)は、現在のブロック(例えば、処理ブロック)のサンプルを受け取り、そのブロックを参照ピクチャ内の1つまたは複数の参照ブロック(例えば、表示順序で前のピクチャ内および後のピクチャ内のブロック)と比較し、インター予測情報(例えば、インターエンコーディング技術による冗長情報、動きベクトル、マージモード情報の記述)を生成し、任意の適切な技術を使用してインター予測情報に基づいてインター予測結果(例えば、予測されたブロック)を計算するように構成される。いくつかの例では、いくつかの例では、参照ピクチャは、(以下でさらに詳細に説明するように、
図7の残差デコーダ728として示されている)
図6の例示的なエンコーダ620に組み込まれたデコーディングユニット633を使用してエンコーディングされたビデオ情報に基づいてデコーディングされたデコーディングされた参照ピクチャである。
【0085】
イントラエンコーダ(722)は、現在のブロック(例えば、処理ブロック)のサンプルを受け取り、ブロックを同じピクチャ内のすでにコーディングされたブロックと比較し、変換後の量子化係数を生成し、場合によってはイントラ予測情報(例えば、1つまたは複数のイントラエンコーディング技術によるイントラ予測方向情報)も生成するように構成される。イントラエンコーダ(722)は、イントラ予測情報と、同じピクチャ内の参照ブロックとに基づいて、イントラ予測結果(例えば、予測されたブロック)を計算し得る。
【0086】
汎用コントローラ(721)は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ(703)の他の構成要素を制御するように構成され得る。一例では、汎用コントローラ(721)は、ブロックの予測モードを決定し、予測モードに基づいてスイッチ(726)に制御信号を提供する。例えば、予測モードがイントラモードである場合、汎用コントローラ(721)は、スイッチ(726)を制御して、残差計算器(723)が使用するためのイントラモード結果を選択させ、エントロピーエンコーダ(725)を制御して、イントラ予測情報を選択させてそのイントラ予測情報をビットストリームに含めさせ、ブロックの叙述モードがインターモードである場合、汎用コントローラ(721)は、スイッチ(726)を制御して、残差計算器(723)が使用するためのインター予測結果を選択させ、エントロピーエンコーダ(725)を制御して、インター予測情報を選択させてそのインター予測情報をビットストリームに含めさせる。
【0087】
残差計算器(723)は、受け取ったブロックと、イントラエンコーダ(722)またはインターエンコーダ(730)から選択されたブロックについての予測結果との差分(残差データ)を計算するように構成され得る。残差エンコーダ(724)は、残差データをエンコーディングして変換係数を生成するように構成され得る。例えば、残差エンコーダ(724)は、残差データを空間領域から周波数領域に変換して変換係数を生成するように構成され得る。次いで、変換係数は、量子化変換係数を取得するために量子化処理を受ける。様々な例示的実施形態において、ビデオエンコーダ(703)は残差デコーダ(728)も含む。残差デコーダ(728)は逆変換を実行し、デコーディングされた残差データを生成するように構成される。デコーディングされた残差データを、イントラエンコーダ(722)およびインターエンコーダ(730)によって適切に使用することができる。例えば、インターエンコーダ(730)は、デコーディングされた残差データとインター予測情報とに基づいてデコーディングされたブロックを生成することができ、イントラエンコーダ(722)は、デコーディングされた残差データとイントラ予測情報とに基づいてデコーディングされたブロックを生成することができる。デコーディングされたブロックは、デコーディングされたピクチャを生成するために適切に処理され、デコーディングされたピクチャは、メモリ回路(図示せず)にバッファされ、参照ピクチャとして使用されることができる。
【0088】
エントロピーエンコーダ(725)は、ビットストリームをエンコーディングされたブロックを含むようにフォーマットし、エントロピーコーディングを実行するように構成され得る。エントロピーエンコーダ(725)は、ビットストリームに様々な情報を含めるように構成される。例えば、エントロピーエンコーダ(725)は、汎用制御データ、選択された予測情報(例えば、イントラ予測情報やインター予測情報)、残差情報、および他の適切な情報をビットストリームに含めるように構成され得る。インターモードまたは双予測モードのどちらかのマージサブモードでブロックをコーディングするときには、残差情報が存在しない場合がある。
【0089】
図8は、本開示の別の実施形態による例示的なビデオデコーダ(810)の図を示す。ビデオデコーダ(810)は、コーディングされたビデオシーケンスの一部であるコーディングされたピクチャを受け取り、コーディングされたピクチャをデコーディングして再構成されたピクチャを生成するように構成される。一例では、ビデオデコーダ(810)は、
図4の例のビデオデコーダ(410)の代わりに使用され得る。
【0090】
図8の例では、ビデオデコーダ(810)は、
図8の例示的な構成に示されるように、互いに結合されたエントロピーデコーダ(871)、インターデコーダ(880)、残差デコーダ(873)、再構成モジュール(874)、およびイントラデコーダ(872)を含む。
【0091】
エントロピーデコーダ(871)は、コーディングされたピクチャから、コーディングされたピクチャが構成される構文要素を表す特定のシンボルを復元するように構成することができる。そのようなシンボルは、例えば、ブロックがコーディングされているモード(例えば、イントラモード、インターモード、双予測モード、マージサブモードまたは別のサブモード)、イントラデコーダ(872)またはインターデコーダ(880)によって予測に使用される特定のサンプルまたはメタデータを識別することができる予測情報(例えば、イントラ予測情報やインター予測情報)、例えば量子化変換係数の形の残差情報などを含むことができる。一例では、予測モードがインターモードまたは双予測モードである場合、インター予測情報がインターデコーダ(880)に提供され、予測タイプがイントラ予測タイプである場合、イントラ予測情報がイントラデコーダ(872)に提供される。残差情報は、逆量子化を受けることができ、残差デコーダ(873)に提供される。
【0092】
インターデコーダ(880)は、インター予測情報を受け取り、インター予測情報に基づいてインター予測結果を生成するように構成され得る。
【0093】
イントラデコーダ(872)は、イントラ予測情報を受け取り、イントラ予測情報に基づいて予測結果を生成するように構成され得る。
【0094】
残差デコーダ(873)は逆量子化を実行して逆量子化変換係数を抽出し、逆量子化変換係数を処理して残差を周波数領域から空間領域に変換するように構成され得る。残差デコーダ(873)はまた(量子化パラメータ(QP)を含めるために)特定の制御情報を利用する場合もあり、その情報はエントロピーデコーダ(871)によって提供され得る(これは少量の制御情報のみであり得るためデータパスは図示しない)。
【0095】
再構成モジュール(874)は、空間領域において、残差デコーダ(873)による出力としての残差と、(場合によって、インター予測モジュールまたはイントラ予測モジュールによる出力としての)予測結果とを組み合わせて、再構成されたビデオの一部としての再構成されたピクチャの一部を形成する再構成されたブロックを形成するように構成され得る。視覚品質を改善するために、非ブロック化動作などの他の適切な動作が実行されてもよいことに留意されたい。
【0096】
ビデオエンコーダ(403)、(603)、および(703)、ならびにビデオデコーダ(410)、(510)、および(810)は、任意の適切な技法を使用して実装することができることに留意されたい。いくつかの例示的実施形態では、ビデオエンコーダ(403)、(603)、および(703)、ならびにビデオデコーダ(410)、(510)、および(810)を、1つまたは複数の集積回路を使用して実装することができる。別の実施形態では、ビデオエンコーダ(403)、(603)、および(603)、ならびにビデオデコーダ(410)、(510)、および(810)は、ソフトウェア命令を実行する1つまたは複数のプロセッサを使用して実装することができる。
【0097】
イントラ予測プロセスに戻るが、本プロセスでは、ブロック(例えば、luma予測ブロックもしくはchroma予測ブロック、または予測ブロックにさらに分割されていない場合にはコーディングブロック)中のサンプルを、近傍にあるもの、次に近傍にあるものもしくは他の1つ以上のラインのサンプルまたはこれらの組み合わせによって予測して予測ブロックを生成する。その後、コーディング中の実際のブロックと予測ブロックとの間の残差を量子化後に変換により処理してもよい。様々なイントラ予測モードを利用可能にするすることができ、イントラモードの選択に関連するパラメータおよびその他パラメータをビットストリームでシグナリングすることができる。当該様々なイントラ予測モードは、例えば、サンプルの予測に用いられる1つ以上のライン位置、予測サンプルを1つ以上の予測ラインから選択する際に進む方向や、他の特別なイントラ予測モードに関係してもよい。
【0098】
例えば、イントラ予測モード(「イントラモード」とも呼びかえられる)の集合は既定の個数の方向性イントラ予測モードを含んでもよい。
図1の実現例に関して上述されているように、これらのイントラ予測モードは、特定のブロック内の予測中のサンプルの予測先としてブロック外のサンプルを選択する際に進む既定の個数の方向に対応してもよい。別の特定の実現例では、水平軸に対する45~207度の角度に対応する8つの主要な方向モードがサポートされた既定のモードであってもよい。
【0099】
イントラ予測の他の実現例では、方向テクスチャにおいてより多くの種類の空間的冗長さをさらに利用するために、方向イントラモードを粒度の高い角度集合にさらに拡張してもよい。例えば、
図9に示されているように、上記の8つの角度の実現例を、名称を付した8つの角度(V_PRED、H_PRED、D45_PRED、D135_PRED、D113_PRED、D157_PRED、D203_PREDおよびD67_PREDと称する)を提供するように構成してもよく、名称を付した角度毎に、既定の個数(例えば7つ)のより刻みの小さい角度を加えてもよい。このように拡張すれば、方向の角度の総数が大きくなり(例えば、本例では56個)、当該総数の方向の角度をイントラ予測に用いることができ、これらはそれと同数の既定の方向イントラモードに対応する。予測角度を、名称を付したイントラ角度と、これに付随する角度刻み(angle delta)とで表してもよい。名称を付した角度毎に刻みの小さい7つの角度方向がある上記の特定の例では、角度刻みは-3~3であってもよく、ステップサイズが増加して3度増加する。
【0100】
いくつかの実現例では、上記の方向イントラモードに加えて、または上記の方向イントラモードの代わりに、方向性を持たない既定の個数のイントラ予測モードも既定のモードであってもよく、これらのモードも利用可能にしてもよい。例えば、スムーズイントラ予測モードと称される方向性を持たない5つのイントラモードを指定してもよい。これらの方向性を持たないイントラモード予測モードを特にDCイントラモード、PAETHイントラモード、SMOOTHイントラモード、SMOOTH_VイントラモードおよびSMOOTH_Hイントラモードと称する場合がある。これらの方向性を持たないモードの例を用いた特定のブロックのサンプルの予測が
図10に示されている。例えば、
図10は、上の近傍ラインおよび/または左の近傍ラインから得られるサンプルによって4×4ブロック1002が予測される様子を示す。ブロック1002内の特定のサンプル1010は、ブロック1002の上の近傍ラインにおいてサンプル1010の真上のサンプル1004と、上の近傍ラインと左の近傍ラインとの交差部分としてサンプル1010の左上にあるサンプル1006と、ブロック1002の左の近傍のラインにおいてサンプル1010の真左にあるサンプル1008とに対応してもよい。DCイントラ予測モードの例では、左の近傍サンプル1008と上の近傍サンプル1004との平均値をサンプル1010の予測値として用いてもよい。PAETHイントラ予測モードの例では、上、左および左上参照サンプル1004,1008および1006を取得してもよく、その後、(上+左-左上)に最も近い、これらの3つの参照サンプル間のどのような値でもサンプル1010の予測値として設定してもよい。SMOOTH_Vイントラ予測モードの例では、左上の近傍サンプル1006および左の近傍サンプル1008の垂直方向の2次補間(quadratic interpolation)によってサンプル1010を予測してもよい。SMOOTH_Hイントラ予測モードの例では、左上の近傍サンプル1006および上の近傍サンプル1004の水平方向の2次補間によってサンプル1010を予測してもよい。SMOOTHイントラ予測モードの例では、垂直方向および水平方向の2次補間の平均によってサンプル1010を予測してもよい。上記の方向性を持たないイントラモードの実現例は限定を課さない例として示されているのにすぎない。他の近傍ラインや、方向性を持たない他のサンプル選択法も考えられ、予測ブロック内の特定のサンプルを予測するための予測サンプルの組み合わせ方も考えられる。
【0101】
様々なコーディングの規模(ピクチャ、スライス、ブロック、unitなど)の上記の方向モードや方向性を持たないモードからエンコーダによってどのイントラ予測モードを選択したかをビットストリームでシグナリングしてもよい。いくつかの実現例では、まず、名称を付した8つの典型的な方向モードを角度を用いない5つのスムーズモードと共に(合計13個の選択肢)シグナリングしてもよい。その後、シグナリングされたモードが、名称を付した角度を用いる8つのイントラモードのうちの1つである場合、対応するシグナリングされた名称を付した角度に対して選択された角度刻みを示すインデックスをさらにシグナリングする。他の実現例では、シグナリングのためにすべてのイントラ予測モード(例えば、56個の方向モードに方向性を持たない5つのモードを足して61個のイントラ予測モードを得る)に一斉にインデックスを付してもよい。
【0102】
いくつかの実現例では、56個または他の個数の方向性イントラ予測モードの例を、ブロックの各サンプルを参照サブサンプル位置まで射影(project)して2タップのbilinearフィルタによって参照サンプルを内挿する統一的な方向予測値を用いて実施してもよい。
【0103】
いくつかの実現例では、辺の参照との弱い空間的相関を捉えるために、FILTER INTRAモードと称するさらなるフィルタモードを設計してもよい。当該モードでは、ブロック外のサンプルに加えてブロック内で予測されるサンプルをイントラ予測参照サンプルとしてブロック内のいくつかのパッチに用いてもよい。これらのモードは、例えば、事前定義され、少なくともlumaブロック(またはlumaブロックのみ)のイントラ予測に利用可能にされ得る。予め定義された数(例えば、5)のフィルタイントラモードを予め設計することができ、その各々は、例えば4×2パッチ内のサンプルとそれに隣接するn個の隣接要素との間の相関を反映するnタップフィルタ(例えば、7タップフィルタ)のセットによって表される。言い換えれば、nタップフィルタの重み係数は位置に依存し得る。
図11に示されているように、一例として8×8ブロック、4×2パッチおよび7タップフィルタリングを用いる場合、8×8ブロック1102を8個の4×2パッチに分割してもよい。
図11ではこれらのパッチはB0,B1,B1,B3,B4,B5,B6,およびB7で示されている。パッチ毎に、パッチの7つの近傍物(
図11でR0~R7で示されている)を対象のパッチ内のサンプルを予測するのに用いてもよい。パッチB0については、すべての近傍物がすでに再構成されている場合がある。一方で他のパッチについては、近傍物の一部が現在のブロック内にあるので、再構成されていない場合があり、その際には、直に隣接するものの予測値を参照として用いる。例えば、
図11に示されているパッチB7のすべての近傍物が再構成されていないので、代わりに近傍物の予測サンプルが用いられる。
【0104】
イントラ予測のいくつかの実現例では、1つの色成分を1つ以上の他の色成分を用いて予測してもよい。色成分がYCrCb色空間、RGB色空間、XYZ色空間などの成分のいずれか1つであってもよい。例えば、luma成分(例えばluma参照サンプル)からchroma成分(例えばchromaブロック)を予測する予測Chroma from LumaすなわちCfLと称する)を実施してもよい。いくつかの実現例では、クロスカラー予測(cross-color prediction)について多くがlumaからchromaにしか許容されない。例えば、chromaブロック内のchromaサンプルは、一致する再構成されたlumaサンプルの線形関数としてモデル化することができる。CfL予測は、以下のように実施することができる。
CfL(α)=α×LAC+DC (1)
【0105】
ここで、LACはluma成分のAC寄与分を示し、αは線形モデルのパラメータを示し、DCはchroma成分のDC寄与分を示す。例えば、AC成分がブロックのサンプル毎に得られるのに対して、DC成分はブロック全体に対して得られる。さらに言えば、再構成されたlumaサンプルにサブサンプリングを行ってchroma解像度を得てもよく、その後、各luma値から平均luma値(lumaのDC)を差し引いてlumaのAC寄与分を生成してもよい。その後、LumaのAC寄与分を式(1)の線形モードに用いてchroma成分のAC値を予測する。luma AC寄与分からchroma AC成分の近似値を得たり予測したりするために、スケーリングパラメータを計算することをデコーダに要求する代わりに、CfLの実現例では、元のchromaサンプルに基づいてパラメータαを決定してこれをビットストリームでシグナリングしてもよい。これにより、デコーダの複雑さが緩和され、より正確な予測が得られる。chroma成分のDC寄与分については、いくつかの実現例ではchroma成分中のイントラDCモードを用いて計算してもよい。
【0106】
次に、イントラ予測ブロックまたはインター予測ブロックのいずれかの残差の変換を実施し、続いて変換係数を量子化することができる。変換を実行するために、イントラコーディングされたブロックとインターコーディングされたブロックとを変換の前に複数の変換ブロック(用語「ユニット(unit)」が3色チャネルの集合を表すのに通常の用法で用いられる場合(例えば、「コーディングユニット(coding unit)」が1つのlumaコーディングブロックと複数のchromaコーディングブロックとを含む場合)であっても、代わりに「変換ユニット(transform unit)」として用いられる場合がある)にさらに分割してもよい。いくつかの実現例では、コーディングされたブロック(または予測ブロック)の最大分割深度(maximum partitioning depth)を指定してもよい(用語「コーディングされたブロック(coded block)」を「コーディングブロック(coding block)」の代わりに用いてもよい)。例えば、当該分割は、2段階以下のレベルのものであってもよい。予測ブロックを変換ブロックに分割する際、イントラ予測ブロックとインター予測ブロックとで異なる処理を行ってもよい。しかしながら、いくつかの実装形態では、そのような分割は、イントラ予測ブロックとインター予測ブロックとの間で同様であり得る。
【0107】
いくつかの例示的実装形態では、イントラコーディングされたブロックの場合、変換パーティションは、すべての変換ブロックが同じサイズを有するように行われ得、変換ブロックはラスタスキャン順にコーディングされる。イントラコーディングされたブロックの当該変換ブロック分割の一例が
図12に示されている。具体的には、
図12は、コーディングされたブロック1202が中間レベルの四分木分割1204を介して1206によって示されている同じブロックサイズの16個の変換ブロックに分割される様子を示す。コーディングのための例示的なラスタスキャン順序は、
図12の順序付けられた矢印によって示されている。
【0108】
いくつかの例示的実装形態では、およびインターコーディングされたブロックの場合、変換ユニット分割は、分割深度が所定のレベル数(例えば、2つのレベル)までで再帰的に行われてもよい。
図13に示されているように、分割を中止したり、何らかの細分のために任意のレベルで再帰的に分割を継続したりしてもよい。具体的には、
図13は、ブロック1302が4つの四分木サブブロック1304に分割され、サブブロックの1つが4つの第2段階のレベルの変換ブロックにさらに分割されるのに対して、その他のサブブロックの分割が第1段階のレベルの後に中止され、異なる2つのサイズの合計7つの変換ブロックが得られる例を示す。
図13には、コーディングのラスタスキャン順序の例が順番に並んだ矢印によってさらに示されている。
図13は最高で第2段階のレベルの正方形変換ブロックの四分木分割の実現例を示しているが、生成に関するいくつかの実現例では、変換についての分割が1:1(正方形)、1:2/2:1および1:4/4:1の変換ブロック形状と、4×4から64×64に及ぶサイズとをサポートしてもよい。いくつかの実現例では、コーディングブロックが64×64以下である場合、変換ブロックの分割をluma成分のみに適用してもよい(言い換えると、この状態でchroma変換ブロックがコーディングブロックと同じになる)。そうではなく、コーディングブロックの幅または高さが64よりも大きい場合には、lumaコーディングブロックとchromaコーディングブロックの両方が、それぞれ、min(W,64)×min(H,64)およびmin(W,32)×min(H,32)の変換ブロックの倍数に、暗黙的に分割され得る。
【0109】
その後、上記の変換ブロックの各々は1次変換を受けてもよい。1次変換により、変換ブロックの残差が空間ドメインから周波数ドメインに実質的に移動する。実際の1次変換のいくつかの実現例では、上記の拡張されたコーディングブロック分割の例をサポートするために、複数の変換サイズ(2つの次元の各次元について4点から64点に及ぶ)と変換形状(正方形、幅/高さの比2:1/1:2および4:1/1:4を持つ矩形)とを許容してもよい。
【0110】
特にイントラモードコーディングに目を向けると、イントラコーディングされた特定のコーディングブロック、コーディングユニット、予測ブロック、または予測ユニットの場合、そのイントラモードは、ビットストリーム内の1つまたは複数の構文要素によってシグナリングされる必要がある。上述のように、可能なイントラ予測モードの数は膨大であり得る。例えば、上記の実装形態のいくつかでは、利用可能なイントラ予測モードの数は、例えば、56の方向性イントラ予測モード(例えば、公称方向毎に7つの細かい角度を持つ8つの公称方向)と、5つの方向性を持たないモードと、1つのlumaからのchromaモード(chroma 成分に対してのみ)とを含む、62の異なるモードを含み得る。特定のコーディングブロック、コーディングユニット、予測ブロック、または予測のためのコーディングプロセス中にイントラモードが選択されると、選択されたイントラモードに対応するシグナリングをビットストリームに含める必要がある。シグナリング構文(複数可)は、これら62のモードすべてを何らかの方法で区別できなければならない。例えば、これらの62のモードは、それぞれが1つのモードに対応する62のインデックスに対して単一の構文を使用してシグナリングされ得る。いくつかの他の例示的実装形態では、現在のブロックでどの公称角度または方向性を持たないモードが公称モードとして使用されているかを示すために、1つの構文をシグナリングすることができ、その後、現在のブロックの公称モードが方向モードである場合、現在のブロックに対してどのデルタ角度が選択されているかを示すために、別の構文が追加的にシグナリングされ得る。
【0111】
イントラコーディングに関連する様々な構文は、通常、ビットストリームの大部分を占め、イントラモードの選択は、様々なコーディングレベルなどで信号的に頻繁に行う必要があるため、イントラモードシグナリングに使用されるビット数の削減は、ビデオコーディング効率を改善する上で重要になる。実際には、様々なイントラ予測モードの使用は、特定の統計的パターンに従うことができ、そのような使用パターンを利用して、シグナリング効率を高めることができるように、イントラモードのインデックス付けとシグナリング構文を設計することができる。さらに、ブロックからブロックへのイントラモード選択の間に、平均して、いくつかの相関関係が存在する可能性がある。このような相関関係は、統計に基づいてオフラインで取得され、イントラモードの選択をシグナリングするための構文(複数可)の設計で考慮され得る。目標は、コーディングされたビットストリーム内のシグナリング構文要素に対するビット数を平均して減らすことである。例えば、いくつかの一般的な統計は、現在のブロックの最適なイントラ予測モードとその隣接ブロックとの間に強い相関関係がある可能性があることを示している可能性がある。このような相関関係は、イントラモードコーディングのための構文(複数可)を設計するときに利用できる。
【0112】
以下の様々な例示的実装形態は、別々に使用されてもよいし、任意の順序で組み合わされてもよい。さらに、これらの実装形態の各々は、エンコーダおよび/またはデコーダの一部として具体化されてもよく、ハードウェアまたはソフトウェアのいずれかで実装されてもよい。例えば、それらは専用処理回路(例えば、1つまたは複数の集積回路)でハードコーディングされてもよい。他の一例では、それらは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する1つまたは複数のプロセッサによって実装されてもよい。
【0113】
いくつかの例示的実装形態では、コーディングされている現在のブロックに対して利用可能なイントラ予測モードまたはモードオプションは、複数のイントラ予測モードセットに分割され得る。各セットには、モードセットインデックスを割り当てることができる。各セットには、イントラモード予測モード数を含めることができる。利用可能なイントラ予測モードが分割および順序付けされ、モードセットのそれぞれにおいてイントラ予測モードが順序付けされる方法は、ブロック間のイントラ予測モード間の相関に基づいて、その隣接ブロックによって使用されるイントラ予測モードに従って少なくとも部分的に決定され得る。隣接ブロックによって使用されるイントラ予測モードは、「参照イントラ予測モード」または「参照モード」と呼ばれることがある。特定のユニットに対するイントラ予測モードを決定し、選択することができる。イントラ予測モードの選択はシグナリングされ得る。第1に、選択されたイントラ予測モードを含むイントラ予測モードセットのモードセットインデックスを示すために、モードセットインデックスがシグナリングされ得る。第2に、モードセット内の選択されたイントラ予測モードのインデックスを示すために、モードインデックス(あるいは、セット内のモード位置インデックスと呼ばれる)がシグナリングされ得る。
【0114】
上記のイントラ予測モードの分割と順序付けの一般的な実装形態、および以下の特定の例は、コーディングされたビデオビットストリーム内でそれらの選択をシグナリングするための構文の設計を最適化して、コーディング効率を改善できるように、これらのモードに動的にインデックス付けするために、統計的効果と隣接相関を利用する。例えば、これらの実装形態は、シグナリング用の構文の数を減らすのに役立ち、エントロピーコーディング用のより効率的な文脈生成に役立ち得る。
【0115】
いくつかの例示的な実施形態では、エンコーダに利用可能な事前定義されたイントラ予測モードのセットは、P モードを含み得る。例えば、Pは、62(例えば、56の方向モード、5つの方向性を持たないモード、および1つのluma対chroma モード)、または任意の他の所定の数であり得る。イントラ予測モードセットの数は、Mで示すことができ、各モードセットのイントラ予測モードの数は、Niで示され、ここで、iは、例えば1~Mまたは0~M-1の範囲の、モードセットインデックスを示すために使用される。異なるNiのうちの最大値をNmaxとする。
【0116】
いくつかの例示的実装形態では、Nmaxは、2のべき乗に等しい数に制限され得る。例えば、Nmaxは、8、16、または32に制限され得る。このような設計は、シグナリング構文でシグナリングビットを効率的に使用するのに役立ち得る。
【0117】
いくつかの例示的実装形態では、Mが2より大きい場合、M個のモードセットのすべてのNiは、最大で2つの異なる値のみを持つように制限され得る。このようにして、モードセットの各々の中のモードインデックスをシグナリングするための構文は、単純化され合理化され得る。
【0118】
いくつかの例示的実装形態では、現在のブロックに対する利用可能なイントラ予測モードの数がNmaxの倍数に等しい場合、各モードセット内のモードの数は等しく、Nmaxに設定される。換言すれば、PがNmaxで割り切れる場合、M個のモードセットの各々は、同じNmax個のイントラ予測モードを含む。例えば、P=64、M=4の場合、各モードセットは、16(Nmax=16、または2の4乗)のイントラ予測モードを含み得る。このように、Niは、M個のモードセットすべてで同じ数となり、選択されたイントラ予測モードに対するM個のモードセット内のモードインデックスをシグナリングするための構文設計をさらに最適化する。
いくつかの例示的実装形態では、現在のブロック(P)に対する利用可能なイントラ予測モードの数がNmaxの倍数に等しくない場合、1つのセット内のイントラモードの数は、Nmaxよりも小さくなり得るが、すべての他のモードセット内のイントラモードの数は、Nmaxに等しい。言い換えると、NiはすべてのM個のモードセットの中で2つの可能な値を持つ。値のうちの1つは、Nmaxであり得る。他の値は、Nmaxより小さくすることができる。モードの数が少ない1つのセットを除いて、M個のモードセットのすべてがNmax個のイントラ予測モードを有する。例えば、Pは62とすることができ、Mは4とすることができ、Nmaxは16とすることができ、4つのモードグループのうちの3つがそれぞれ16のモードを含むことができ、他の1つのモードセットが14のモードを含むことができる。別の一例では、luma成分の利用可能なイントラ予測モードの総数は61とすることができ、Mは4に設定され、N0は13であり、N1、N2、およびN3はすべて16 に等しい。繰り返しになるが、そのような実装形態は、選択されたイントラ予測モードに対するM個のモードセット内のモードインデックスをシグナリングするための構文設計を簡素化するのに役立ち得る。
【0119】
いくつかの例示的実施形態では、隣接ブロックのイントラ予測モードに関係なく、すべての方向性を持たないモードの(相対的な)位置が事前に決定され、固定される。換言すると、利用可能なすべてのモードの中のモードセット内への、およびモードセット内での、方向性を持たないモードの配置および構成は、隣接ブロックのイントラ予測モード(または参照モード)とは無関係であり得るが、モードセット内への、またはモードセット内での、他のイントラ予測モードの配置は、参照モードに依存し得る。このようにして、方向性を持たないモードが隣接ブロック間でそれほど相関し得ないという統計を利用して、モードセットの動的決定が単純化され得る。
【0120】
いくつかの例示的実装形態では、隣接ブロックのイントラ予測モードに関係なく、P個の利用可能なモードのすべての方向性を持たないモードは、(モードセットインデックスが最も低い)最初のイントラモードセットに配置され得る。
【0121】
いくつかの例示的実装形態では、DC予測モード(方向性を持たないモード)は、隣接ブロックのイントラ予測モードに関係なく、常に、最初のイントラモードセット(インデックスが最も低いモードセット)の第1の相対位置(モードセット内の最も低い位置インデックス)に配置される。
【0122】
いくつかの例示的実装形態では、1つまたは複数の再帰フィルタリングに基づくイントラ予測モードが、DC予測モードのサブモードとしてシグナリングされ得る。したがって、再帰フィルタリングに基づくイントラ予測モードは、モードセットインデックスおよび位置インデックスが、DCモードが選択されていることを示す(例えば、モードインデックスおよび位置インデックスの両方が最も低い、例えば、前の例示的実装形態において両方とも0に等しい)場合にのみ追加的にシグナリングされ得る。
【0123】
いくつかの例示的実装形態では、上記のようなSMOOTH予測モードは、隣接ブロックのイントラ予測モードに関係なく、常に、最初のイントラモードセット(モードセットインデックスが最も低いモードセット)の2番目の位置(2番目に低い位置インデックス)に配置され得る。
【0124】
いくつかの例示的実装形態では、上記のようなSMOOTH_V予測モードは、隣接ブロックのイントラ予測モードに関係なく、常に、最初のイントラモードセット(モードセットインデックスが最も低いモードセット)の3番目の位置(3番目に低い位置インデックス)に配置され得る。
【0125】
いくつかの例示的実装形態では、上記のSMOOTH_H予測モードは、隣接ブロックのイントラ予測モードに関係なく、常に、最初のイントラモードセット(モードセットインデックスが最も低いモードセット)の4番目の位置(4番目に低い位置インデックス)に配置され得る。
【0126】
いくつかの例示的実装形態では、上記のようなPAETH予測モードは、隣接ブロックのイントラ予測モードに関係なく、常に、最初のイントラモードセット(モードセットインデックスが最も低いモードセット)の5番目の位置(5番目に低い位置インデックス)に配置され得る。
【0127】
いくつかの他のまたはさらなる例示的実装形態では、再帰フィルタリングに基づくイントラ予測モードは、DCイントラ予測モードとは独立してシグナリングされることができ、サブモードではなくPモードの1つとすることができ、隣接ブロックのイントラ予測モードに関係なく、最初のイントラモードセット(モードセットインデックスが最も低いモードセット)に配置され得る。
【0128】
いくつかのさらなる例示的実装形態では、再帰フィルタリングに基づくイントラ予測モードのセットが存在し、そのうちの1つが選択され、追加的なシグナリングを使用して、再帰フィルタリングに基づくイントラ予測モードのセットの中でどの再帰ベースのイントラ予測モードが現在のブロックに対して選択されているかを示すことができる。
【0129】
いくつかの例示的実装形態では、DCイントラ予測モードとは無関係にシグナリングされると、再帰フィルタリングに基づくイントラ予測モードは、隣接ブロックのイントラ予測モードに関わらず、常に、最初のイントラモードセット(モードセットインデックスが最も低いモードセット)の6番目の位置に配置され得る。この場合、DCイントラ予測モードは、最も低いインデックスモードセット内の最も低いインデックス位置に配置され得る。
【0130】
図14は、イントラモードコーディングのための上記の実装形態の基礎となる原理に従う例示的な方法のフローチャート1400を示す。例示的な方法フローは、1401から始まる。S1410では、コーディングされたビデオストリームが受信され、コーディングされたビデオストリームは、現在のブロックのイントラ予測のためのセットインデックスおよび位置インデックスを含む。S1420では、ビデオストリーム内の現在のブロックの少なくとも1つの隣接ブロックに対応するイントラ予測モードが参照モードとして決定される。S1430では、P個の事前定義されたイントラ予測モードをM個のイントラ予測モードセットに分割する方法が、参照モードに基づいて決定され、各イントラ予測モードセットは、Ni個の位置インデックス付きイントラ予測モードを含み、PおよびMは、1より大きい整数であり、Niは、i番目のイントラ予測モードセットにおける予測モードの数であり、iは、M個のイントラ予測モードセットの中のイントラ予測モードセットインデックスを表す整数である。S1440では、受信されたセットインデックスおよび位置インデックス、および分割方法に基づいて、P個の事前定義されたイントラ予測モードの中からターゲットイントラ予測モードが識別される。S1450において、コーディングされたビデオストリームの現在のブロックは、現在のブロックのセットインデックスおよび位置インデックスに基づいて識別されたターゲットイントラ予測モードに少なくとも基づいてデコーディングされる。例示的な方法の流れは、S1499で終了する。上記の方法フローはエンコーディングにも適用される。
【0131】
本開示の実施形態は、別々に使用されてもよく、任意の順序で組み合わされてもよい。さらに、方法(または実施形態)の各々、エンコーダ、およびデコーダは、処理回路(例えば、1つもしくは複数のプロセッサまたは1つもしくは複数の集積回路)によって実装されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。本開示の実施形態は、lumaブロックまたはchromaブロックに適用されてもよい。
【0132】
上記で説明した技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つまたは複数のコンピュータ可読媒体に物理的に記憶され得る。例えば、
図15は、開示された主題の特定の実施形態を実施するのに適したコンピュータシステム(1500)を示す。
【0133】
コンピュータソフトウェアは、1つまたは複数のコンピュータ中央処理装置(CPU:central processing unit)およびグラフィック処理装置(GPU:Graphics Processing Unit)などによって直接的に、または解釈およびマイクロコードの実行などを通して実行され得る命令を含むコードを生成するために、アセンブリ、コンパイル、リンキング、または同様のメカニズムを受け得る任意の適切なマシンコードまたはコンピュータ言語を使用してコーディングされ得る。
【0134】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、インターネット・オブ・シングス・デバイスなどを含む、様々なタイプのコンピュータまたはその構成要素で実行されてもよい。
【0135】
コンピュータシステム(1500)の
図15に示す構成要素は、本質的に例示的なものであり、本開示の実施形態を実施するコンピュータソフトウェアの使用または機能の範囲に関する限定を示唆することを意図するものではない。また、構成要素の構成は、コンピュータシステム(1500)の例示的な実施形態に示されている構成要素のいずれか1つまたはそれらの組み合わせに関する依存性または要件を有するものとして解釈されるべきではない。
【0136】
コンピュータシステム(1500)は、特定のヒューマンインターフェース入力デバイスを含むことができる。そのようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなど)、オーディオ入力(音声、拍手など)、視覚入力(ジェスチャーなど)、嗅覚入力(図示せず)など、1人または複数のユーザによる入力に応答することができる。ヒューマンインターフェースデバイスを用いて、音声(発話、音楽、周囲音など)、画像(スキャン画像、静止画像カメラから取得される写真画像など)、ビデオ(2次元ビデオ、立体ビデオを含む3次元ビデオなど)など、人間による意識的な入力に必ずしも直接関係ない特定の媒体をキャプチャし得る。
【0137】
入力ヒューマンインターフェースデバイスは、キーボード(1501)、マウス(1502)、トラックパッド(1503)、タッチスクリーン(1510)、データグローブ(図示せず)、ジョイスティック(1505)、マイク(1506)、スキャナ(1507)、カメラ(1508)などのうちの1つまたは複数を含むことができる(それぞれ1つのみ図示されている)。
【0138】
コンピュータシステム(1500)はまた、特定のヒューマンインターフェース出力デバイスを含むことができる。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音、光、および嗅覚/味覚を通じて、1人または複数のユーザの感覚を刺激している可能性がある。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(1510)、データグローブ(図示せず)、またはジョイスティック(1505)による触覚フィードバックだが、入力デバイスとして機能しない触覚フィードバックデバイスも存在する場合がある)、オーディオ出力デバイス(スピーカ(1509)、ヘッドホン(図示せず)など)、視覚出力デバイス(CRT画面、LCD画面、プラズマ画面、OLED画面を含むスクリーン(1510)などであり、それぞれタッチ画面入力機能があってもなくてもよく、それぞれ触覚フィードバック機能があってもなくてもよく、ステレオグラフィック出力、仮想現実の眼鏡(図示せず)、ホログラフィックディスプレイおよびスモークタンク(図示せず)などの手段を介して2次元の視覚的出力または3次元以上の出力を出力できるものもある)、およびプリンタ(図示せず)を含んでもよい。
【0139】
コンピュータシステム(1500)はまた、人間がアクセス可能な記憶装置およびそれらの関連媒体、例えば、CD/DVDなどの媒体(1521)と共にCD/DVD ROM/RW(1520)を含む光学媒体、サムドライブ(1522)、取り外し可能なハードドライブまたはソリッドステートドライブ(1523)、テープおよびフロッピーディスク(図示せず)などのレガシー磁気媒体、セキュリティドングル(図示せず)などの専用のROM/ASIC/PLDベースのデバイスなどを含むことができる。
【0140】
当業者はまた、現在開示された主題に関連して使用される「コンピュータ可読媒体」という用語が、送信媒体、搬送波、または他の一時的な信号を包含しないことを理解するはずである。
【0141】
コンピュータシステム(1500)はまた、1つまたは複数の通信ネットワーク(1555)へのインターフェース(1554)を含むことができる。ネットワークは、例えば、ワイヤレス、有線、光であり得る。ネットワークはさらに、ローカル、広域、メトロポリタン、車両および産業、リアルタイム、遅延耐性などとすることができる。ネットワークの例には、Ethernetなどのローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどを含むセルラネットワーク、ケーブルテレビ、衛星テレビおよび地上波テレビを含むテレビの有線または無線広域デジタルネットワーク、CAN busを含む車両用および産業用などが含まれる。特定のネットワークは通常、特定の汎用データポートまたは周辺バス(1549)(例えば、コンピュータシステム(1500)のUSBポート)に接続された外部ネットワークインターフェースアダプタを必要とし、他のものは一般に、以下に説明するように、システムバスに接続することによってコンピュータシステム(1500)のコアに統合される(例えば、PCコンピュータシステムに対するイーサネットインターフェース、またはスマートフォンコンピュータシステムに対するセルラーネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(1500)は他のエンティティと通信できる。このような通信は、単方向、受信のみ(例えば、放送TV)、単方向送信のみ(例えば、CANbusから特定のCANbusデバイス)、または双方向、例えば、ローカルエリアまたはワイドエリアデジタルネットワークを使用した他のコンピュータシステムへの通信である。特定のプロトコルおよびプロトコルスタックは、上記で説明したように、それらのネットワークおよびネットワークインターフェースのそれぞれで使用され得る。
【0142】
前述のヒューマンインターフェースデバイス、ヒューマンアクセス可能な記憶装置、およびネットワークインターフェースは、コンピュータシステム(1500)のコア(1540)に接続することができる。
【0143】
コア(1540)は、1つまたは複数の中央処理装置(CPU)(1541)、グラフィック処理装置(GPU)(1542)、フィールド・プログラマブル・ゲート・エリア(FPGA)(1543)の形態の専用プログラマブル処理装置、特定のタスク用のハードウェアアクセラレータ(1544)、グラフィックアダプタ(1550)などを含むことができる。これらのデバイスは、読み取り専用メモリ(ROM)(1545)、ランダムアクセスメモリ(1546)、ユーザがアクセスできない内部ハードドライブ、SSDなどの内部大容量記憶装置(1547)と共に、システムバス(1548)を介して接続することができる。一部のコンピュータシステムでは、システムバス(1548)に1つまたは複数の物理プラグの形でアクセスして、追加のCPU、GPUなどによる拡張を可能にすることができる。周辺機器は、コアのシステムバス(1548)に直接、または周辺バス(1549)を介して接続することができる。一例では、スクリーン(1510)をグラフィックアダプタ(1550)に接続することができる。周辺バスのアーキテクチャは、PCI、USBなどを含む。
【0144】
CPU(1541)、GPU(1542)、FPGA(1543)、およびアクセラレータ(1544)は、組み合わせて前述のコンピュータコードを構成できる特定の命令を実行できる。コンピュータコードは、ROM(1545)またはRAM(1546)に記憶させることができる。また、移行データをRAM(1546)に格納することもでき、永続データを、例えば内部大容量ストレージ(1547)に格納することができる。キャッシュメモリを使用することによって、任意のメモリ装置に素早く記憶し検索することが可能になり、1つまたは複数のCPU(1541)、GPU(1542)、大容量記憶装置(1547)、ROM(1545)、RAM(1546)などに密接に関連付けることができる。
【0145】
コンピュータ可読媒体は、様々なコンピュータ実施動作を実行するためのコンピュータコードを有し得る。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであり得るか、またはそれらは、コンピュータソフトウェア技術のスキルを有する人々に周知かつ利用可能な種類であり得る。
【0146】
非限定的な例として、アーキテクチャを有するコンピュータシステム(1500)、特にコア(1540)は、(CPU、GPU、FPGA、アクセラレータなどを含む)(1つまたは複数の)プロセッサが、1つまたは複数の有形のコンピュータ可読媒体において具体化されたソフトウェアを実行した結果として機能を提供することができる。そのようなコンピュータ可読媒体は、上で紹介したユーザがアクセス可能な大容量記憶装置、およびコア内部大容量記憶装置(1547)やROM(1545)などの非一時的な性質を持つコア(1540)の特定の記憶装置に関連する媒体であり得る。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納され、コア(1540)によって実行され得る。コンピュータ可読媒体は、特定のニーズに従って、1つまたは複数のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア(1540)および特にその中のプロセッサ(CPU、GPU、FPGAなどを含む)に、RAM(1546)に格納されたデータ構造の定義やソフトウェアで定義されたプロセスに従ってそのようなデータ構造を変更することを含む、ここで説明する特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。加えて、または代替として、コンピュータシステムは、ここで説明する特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりにまたはソフトウェアと一緒に動作することができる回路(例えばアクセラレータ(1544))にハードワイヤードまたは別の方法で組み込まれたロジックの結果として機能を提供できる。ソフトウェアへの言及はロジックを含むことができ、必要に応じてその逆も可能である。必要に応じて、コンピュータ可読媒体への言及は、実行のためのソフトウェアを記憶する回路(集積回路(IC:integrated circuit)など)、実行のためのロジックを具体化する回路、またはこれらの両方を包含し得る。本開示は、ハードウェアとソフトウェアの任意の適切な組み合わせを包含する。
【0147】
本開示はいくつかの例示的な実施形態を説明してきたが、本開示の範囲内にある修正例、置換例、および様々な代替均等例がある。上述した実装形態および実施形態では、プロセスの任意の動作が、必要に応じて、任意の量または順序で組み合わされてもよく、または構成されてもよい。また、上述したプロセスの動作の2つ以上が並行して実行されてもよい。したがって、当業者は、本明細書に明示的に示されていないまたは記載されていないが、本開示の原理を具体化し、したがってその趣旨および範囲内にある多数のシステムおよび方法を考案することができることが理解されよう。
付記A:頭字語
JEM:共同探索モデル
VVC:多用途ビデオコーディング
BMS:ベンチマークセット
MV:動きベクトル
HEVC:高効率ビデオコーディング
SEI:補足拡張情報
VUI:ビデオユーザビリティ情報
GOP:ピクチャグループ
TU:変換ユニット
PU:予測ユニット
CTU:コーディングツリーユニット
CTB:コーディングツリーブロック
PB:予測ブロック
HRD:仮想参照デコーダ
SNR:信号対雑音比
CPU:中央処理装置
GPU:グラフィックス処理装置
CRT:陰極線管
LCD:液晶ディスプレイ
OLED:有機発光ダイオード
CD:コンパクトディスク
DVD:デジタルビデオディスク
ROM:読み取り専用メモリ
RAM:ランダムアクセスメモリ
ASIC:特定用途向け集積回路
PLD:プログラマブル論理デバイス
LAN:ローカルエリアネットワーク
GSM:モバイル通信用グローバルシステム
LTE:ロングタームエボリューション
CANBus:コントローラエリアネットワークバス
USB:ユニバーサルシリアルバス
PCI:周辺構成要素相互接続
FPGA:フィールドプログラマブルゲートエリア
SSD:ソリッドステートドライブ
IC:集積回路
HDR:ハイダイナミックレンジ
SDR:標準ダイナミックレンジ
JVET:共同ビデオ探索チーム
MPM:最確モード
WAIP:広角イントラ予測
CU:コーディングユニット
PU:予測ユニット
TU:変換ユニット
CTU:コーディングツリーユニット
PDPC:位置依存予測組み合わせ
ISP:イントラサブパーティション
SPS:シーケンスパラメータ設定
PPS:ピクチャパラメータセット
APS:適応パラメータセット
VPS:ビデオパラメータセット
DPS:デコーディングパラメータセット
ALF:適応ループフィルタ
SAO:サンプル適応オフセット
CC-ALF:交差成分適応ループフィルタ
CDEF:制約付き指向性強化フィルタ
CCSO:交差成分サンプルオフセット
LSO:ローカルサンプルオフセット
LR:ループ復元フィルタ
AV1:AOMedia Video 1
AV2:AOMedia Video 2
【符号の説明】
【0148】
101 サンプル
102 矢印
103 矢印
104 正方形ブロック
201 現在のブロック
300 通信システム
310 端末デバイス
320 端末デバイス
330 端末デバイス
340 端末デバイス
350 通信ネットワーク
400 通信システム
401 ビデオソース
402 ストリーム
403 ビデオエンコーダ
404 ビデオデータ、ビデオビットストリーム
405 ストリーミングサーバ
406 クライアントサブシステム
407 ビデオデータ、入力コピー
408 クライアントサブシステム
409 ビデオデータ、入力コピー
410 ビデオデコーダ
411 出力ストリーム
412 ディスプレイ
413 ビデオ取り込みサブシステム
420 電子デバイス
430 電子デバイス
501 チャネル
510 ビデオデコーダ
512 レンダリングデバイス、ディスプレイ
515 バッファメモリ
520 パーサ
521 シンボル
530 電子デバイス
531 受信機
551 逆変換ユニット
552 イントラピクチャ予測ユニット、イントラ予測ユニット
553 動き補償予測ユニット
555 アグリゲータ
556 ループフィルタユニット
557 参照ピクチャメモリ
558 ピクチャバッファ
601 ビデオソース
603 ビデオエンコーダ
620 電子デバイス、エンコーダ
630 ソースコーダ
632 コーディングエンジン
633 ローカルデコーダ、デコーディングユニット、ローカルビデオデコーダ
634 参照ピクチャメモリ、参照ピクチャキャッシュ
635 予測器
640 送信機
643 ビデオシーケンス
645 エントロピーコーダ
650 コントローラ
660 通信チャネル
703 ビデオエンコーダ
721 汎用コントローラ
722 イントラエンコーダ
723 残差計算器
724 残差エンコーダ
725 エントロピーエンコーダ
726 スイッチ
728 残差デコーダ
730 インターエンコーダ
810 ビデオデコーダ
871 エントロピーデコーダ
872 イントラデコーダ
873 残差デコーダ
874 再構成モジュール
880 インターデコーダ
1002 ブロック
1004 サンプル
1006 サンプル
1008 サンプル
1010 サンプル
1102 ブロック
1202 ブロック
1204 四分木分割
1302 ブロック
1304 四分木サブブロック
1400 フローチャート
1500 コンピュータシステム
1501 キーボード
1502 マウス
1503 トラックパッド
1505 ジョイスティック
1506 マイク
1507 スキャナ
1508 カメラ
1509 オーディオ出力デバイススピーカ
1510 タッチスクリーン
1521 媒体
1522 サムドライブ
1523 ソリッドステートドライブ
1540 コア
1541 中央処理装置、CPU
1542 グラフィック処理装置、GPU
1543 フィールド・プログラマブル・ゲート・エリア、FPGA
1544 ハードウェアアクセラレータ
1545 読み取り専用メモリ、ROM
1546 ランダムアクセスメモリ、RAM
1547 コア内部大容量記憶装置、内部大容量ストレージ
1548 システムバス
1549 周辺バス
1550 グラフィックアダプタ
1554 インターフェース
1555 通信ネットワーク