(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024024115
(43)【公開日】2024-02-21
(54)【発明の名称】ビデオ符号化のための方法、及び装置
(51)【国際特許分類】
H04N 19/11 20140101AFI20240214BHJP
H04N 19/176 20140101ALI20240214BHJP
H04N 19/136 20140101ALI20240214BHJP
【FI】
H04N19/11
H04N19/176
H04N19/136
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024002546
(22)【出願日】2024-01-11
(62)【分割の表示】P 2023026221の分割
【原出願日】2019-05-29
(31)【優先権主張番号】62/679,664
(32)【優先日】2018-06-01
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/147,284
(32)【優先日】2018-09-28
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】リィウ,シャン
(72)【発明者】
【氏名】ウェンジャー,ステファン
(72)【発明者】
【氏名】ジャオ,シン
(72)【発明者】
【氏名】リ,シアン
(72)【発明者】
【氏名】ジャオ,リアン
(57)【要約】
【課題】本開示の内容は、ビデオ復号化のための方法及び装置を提供する。
【解決手段】幾つかの実施例において、ビデオ復号化のための装置は処理回路を含む。前記処理回路は、符号化されたビデオビットストリームからの少なくとも1つの文法要素を復号化する。当該少なくとも1つの文法要素は、再構築中の矩形形状を持つ非正方形ブロックのブロックサイズを指示する。ブロックサイズは第1次元での第1サイズ、及び第2次元での第2サイズを含む。第1サイズは第2サイズと異なる。当該処理回路は、非正方形ブロックの第1セットのフレーム内予測方向に基づいて非正方形ブロックのサンプルを予測する。第1セットのフレーム内予測方向は正方形ブロックの第2セットのフレーム内予測方向における少なくとも1つのフレーム内予測方向を含まない。
【選択図】
図12
【特許請求の範囲】
【請求項1】
デコーダがビデオ符号化技術によってビデオ復号化を行う方法であって、
符号化されたビデオビットストリームからの少なくとも1つのシンタックス要素を復号化するステップであって、前記少なくとも1つのシンタックス要素は、再構築中の矩形形状を持つ非正方形ブロックのブロックサイズを指示し、前記ブロックサイズは第1次元での第1サイズ及び第2次元での第2サイズを含み、前記第1サイズは前記第2サイズと異なるステップと、
正方形ブロックの第2セットのフレーム内予測方向から、前記非正方形ブロックの第1セットのフレーム内予測方向を決定するステップであって、前記第1セットのフレーム内予測方向は、前記第2セットのフレーム内予測方向の第1角度サブ範囲を含み、前記非正方形ブロックの高さが幅より小さい場合、前記正方形ブロックの左下の対角線方向から所定の範囲にある前記第2セットのフレーム内予測方向の第2角度サブ範囲を含まず、前記非正方形ブロックの高さが幅より大きい場合、前記正方形ブロックの右上の対角線方向から所定の範囲にある前記第2セットのフレーム内予測方向の第3角度サブ範囲を含ないステップと、
前記非正方形ブロックの前記第1セットのフレーム内予測方向に基づいて前記非正方形ブロックのサンプルを予測するステップ、を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、2018年6月1日に提出された米国仮出願第62 / 679,664の優先権の優先権を主張し、その全体が本明細書に援用される。
【0002】
本開示の内容は、一般的にビデオ符号化に関する実施例を説明する。
【背景技術】
【0003】
本明細書で提供される背景記載は、本開示内容の背景を総体的に体現することを目的とする。該背景技術部分に記載の作業程度から見れば、現在署名の発明者の作業、及び提出の際別に従来技術の記載として限定されていない態様について、明確且つ暗黙的に本開示内容に対する従来技術として認められない。
【0004】
動き補償を有するピクチャ間予測を使用してビデオの符号化と復号化を実行することができる。非圧縮のデジタルビデオは一連のピクチャを含み得、各ピクチャは空間次元、例えば、1920x1080の輝度サンプルと関連するクロミナンスサンプルを有する。当該一連のピクチャは、例えば、1秒あたり60のピクチャ又は60Hzの固定又は可変のピクチャレート(非正式にはフレームレートとも呼ばれる)を有してもよい。非圧縮のビデオには、高いビットレート要件を有する。例えば、サンプルあたりの8ビットの1080r604:2:0ビデオ(60Hzフレームレートでの1920×1080の輝度サンプル解像度)は、1.5Gbit/sに近い帯域幅が必要である。このような1時間のビデオは、600GBを超えるストレージスペースが必要である。
【0005】
ビデオ符号化及び復号化は、圧縮により、ビデオ信号入力における冗長を減少させることを1つの目的とする。圧縮は、以上に言及された帯域幅または記憶空間に対する需求を減少させることに寄与し、ある状況で、2つまたはより多いオーダーを減少させる。可逆圧縮、非可逆圧縮、及びその組み合わせを利用できる。可逆圧縮は、圧縮された元の信号から元の信号の正確なコピーを再構築する技術を指す。非可逆圧縮を利用する場合、再構築された信号は元の信号と異なるかもしれないが、元の信号と再構築された信号との間の歪みは十分に小さいから、再構築された信号は予期の応用に役立つ。ビデオの場合、非可逆圧縮は大幅に応用される。許容の歪み量はアプリケーションに依存し、例えば、テレビ貢献アプリケーションのユーザーより、消費者ストリーミング媒体プリケーションのユーザーが高い歪みを許容する。達する圧縮比は、許可/許容可能な歪みが高いほど、圧縮比が高くなることを反映する。
【0006】
ビデオエンコーダとデコーダは、例えば、動き補償、変換、量子化、エントロピー符号化などを含む幾つかの幅広いカテゴリからの技術を利用し得る。
【0007】
ビデオコーデック技術には、フレーム内符号化と呼ばれる技術が含まれる。フレーム内符号化では、以前に再構築された参照ピクチャからのサンプル又は他のデータを参照しない場合にサンプル値を表す。一部のビデオコーデックでは、ピクチャは空間的にサンプルブロックに細分される。フレーム内モードにおいて全てのサンプルブロックを符号化する場合、そのピクチャはフレーム内ピクチャであってもよい。フレーム内ピクチャとその派生物、例えば、独立したデコーダリフレッシュピクチャは、デコーダの状態をリセットするために使用できるため、符号化されたビデオビットストリームとビデオセッションにおける第1ピクチャ、又は静止ピクチャとして使用し得る。フレーム内ブロックのサンプルを変換させ、エントロピー符号化の前に変換係数を量子化してもよい。フレーム内予測は、事前変換ドメインにおけるサンプル値を最小化する技術であり得る。ある場合に、変換後のDC値が小さいほど、且つAC係数が小さいほど、所定の量子化ステップサイズでエントロピー符号化後のブロックを表すために必要なビットが少なくなる。
【0008】
例えば、MPEG―2代符号化技術から知られている従来のフレーム内符号化は、フレーム内予測を使用しない。しかしながら、新しいビデオ圧縮技術は、例えば、空間的に隣接する符号化/復号化の間に取得し且つ復号化順序で先行する周囲のサンプルデータ及び/又はメタデータから、データブロックを試みる技術を含む。このような技術は、「フレーム内予測」技術と呼ばれる。少なくとも幾つかのケースでは、フレーム内予測は、再構築中の現在ピクチャからの参照データのみを使用し、参照ピクチャからの参照データを使用しない。
【0009】
フレーム内予測には様々な形式がある。所定のビデオ符号化技術に一つよりも多いこのような技術を使用できる場合、フレーム内予測モードで使用される技術を符号化できる。幾つかの場合に、モードはサブモード及び/又はパラメータを有してもよく、サブモード及び/又はパラメータは個別に符号化されるか、モードコードワードに含まれる。所定のモード/サブモード/パラメーターの組み合わせにどのコードワードを使用するかは、フレーム内予測により符号化効率のゲインに影響を与える可能性があり、コードワードをビットストリームに変換するためのエントロピー符号化技術も符号化効率のゲインに影響を与える可能性がある。
【0010】
フレーム内予測のあるモードはH.264から導入され、H.265で細分され、さらに、共同の探査モデル(JEM)、多用途ビデオ符号化(VVC)、ベンチマークセット(BMS)などの新しい符号化技術で詳細化される。既に利用可能なサンプルに属する隣接サンプル値を使用して予測値ブロックを形成してもよい。隣接サンプルのサンプル値は、方向に従って予測値ブロックにコピーされる。使用される方向の参照は、ビットストリームで符号化されるか、それ自体が予測されてもよい。
【0011】
図1を参照し、右下に、H.265の35個の可能な予測値方向から得られる9つの予測値方向のサブセットが描かれている。矢印が集まる点(101)は、予測中のサンプルを表す。矢印は、サンプルが予測される方向を表す。例えば、矢印(102)は、右上の、水平から45度の角度である一つ又は複数のサンプルに応じてサンプル(101)を予測することを指示する。同様に、矢印(103)は、サンプル(101)の右下の、水平から22.5の角度である一つ又は複数のサンプルに応じてサンプル(101)を予測することを指示する。
【0012】
引き続き
図1を参照すると、左上に、4×4サンプルの正方形のブロック(104)が描かれている(破線の太字の線で示されている)。正方形のブロック(104)には16個のサンプルが含まれ、それぞれは「S」、Y次元での位置(例えば、行インデックス)及びX次元での位置(例えば、列インデックス)で標記されている。例えば、サンプルS21は、Y次元での2番目のサンプル(上から)であり、X次元での一番目のサンプル(左から)である。同様に、サンプルS44は、ブロック(104)のY次元とX次元の両方での4番目のサンプルである。ブロック(104)のサイズは4x4サンプルであるので、サンプルS44は右下にある。また、類似の番号付けスキームに従う参照サンプルを示した。参照サンプルは、R、ブロック(104)に対するY位置(例えば、行インデックス)及びX位置(列インデックス)で標記されている。H.264とH.265の両方で、予測サンプルは再構築中のブロックで隣接する。したがって、負の値を使用する必要はない。
【0013】
フレーム内ピクチャ予測は、信号で表される予測方向に応じて、隣接するサンプルから参照サンプル値をコピーすることで行う。例えば、符号化されたビデオビットストリームにシグナリングが含まれると仮定すると、このブロックについて、このシグナリングは矢印(102)と一致する予測方向を指示し、つまり、右上の、水平から45度の角度である一つ又は複数の予測サンプルに応じてこのサンプルを予測する。その場合、サンプルS41、S32、S23、及びS14は、同じR05に応じて予測される。次に、R08に応じてサンプルS44を予測する。
【0014】
幾つかの場合に、参照サンプルを計算するために、複数の参照サンプルの値は、例えば補間によって組み合わせることができ、特に方向が45度で均等に分割できない場合である。
【0015】
ビデオ符号化技術の開発に伴い、可能な方向の数は増加している。H.264(2003年)では、9つの異なる方向を表すことができる。H.265(2013年)で33に増え、JEM/VVC/BMSは最大65の方向をサポートできる。既に実験が行われて最も可能性の高い方向を認識しており、エントロピー符号化の技術が使用されて、可能性の低い方向へのペナルティを受け入れる場合に、これらの可能な方向を少ないビットで表す。また、隣接するすでに復号化されたブロックで使用される隣接方向から方向自体を予測できる場合がある。
【0016】
図2は、経時的に増加する予測方向の数を示すために、JEMによる67の予測モードを描く模式
図201である。
【0017】
符号化されたビデオビットストリームにおいて方向を表すフレーム内予測方向ビットのマッピングは、ビデオ符号化技術によって異なる可能性があり、そして、範囲は、例えば、予測方向→フレーム内予測モード→コードワードという単純な直接マッピングであり、最も可能性の高いモードや類似の技術に係るという複雑な自己適応スキームであってもよい。当業者はそれらの技術をよく知っている。ただし、すべての場合において、統計的に、ある方向は他の方向よりもビデオコンテンツで発生する可能性が低い。ビデオ圧縮の目的は冗長性の削減であるため、適切に機能するビデオ符号化技術では、これらの可能性の低い方向は、可能性の高い方向よりも多くのビット数で表される。
【発明の概要】
【0018】
本開示の内容の各局面は、ビデオ復号化のための方法及び装置を提供する。幾つかの実施例において、ビデオ復号化のための装置は処理回路を含む。当該処理回路は符号化されたビデオビットストリームからの少なくとも1つの文法要素を復号化する。当該少なくとも1つの文法要素は、再構築中の矩形形状を持つ非正方形ブロックのブロックサイズを指示する。ブロックサイズは第1次元での第1サイズ、及び第2次元での第2サイズを含む。第1サイズは第2サイズと異なる。当該処理回路は、非正方形ブロックの第1セットのフレーム内予測方向に基づいて当該非正方形ブロックのサンプルを予測する。第1セットのフレーム内予測方向は正方形ブロックの第2セットのフレーム内予測方向における少なくとも1つのフレーム内予測方向を含まない。
【0019】
幾つかの実施例において、前記第2セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向は、前記第2セットのフレーム内予測方向によってカバーされる角度範囲のサブ範囲をカバーする。例において、前記サブ範囲は、前記角度範囲の第1端を含む。
【0020】
幾つかの実施例において、前記第1セットのフレーム内予測方向に用いられるフレーム内予測モードは、前記第2セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向に用いられる少なくとも1つのフレーム内予測モードを含まない。
【0021】
幾つかの実施例において、前記第2セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向に用いられる少なくとも1つのフレーム内予測モードは、前記第1セットのフレーム内予測方向における少なくとも1つのフレーム内予測方向に割り当てられる。前記第1セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向は、前記第2セットのフレーム内予測方向に含まれない。
【0022】
幾つかの実施例において、前記第1セットのフレーム内予測方向及び前記第2セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向によってカバーされる組み合わされた角度範囲において、前記第1セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向は、前記組み合わされた角度範囲の第1端を含むサブ範囲によってカバーされる。前記第2セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向は、前記組み合わされた角度範囲の第2端を含む別のサブ範囲によってカバーされる。
【0023】
幾つかの実施例において、第1角度範囲は前記第1セットのフレーム内予測方向によってカバーされる。第2角度範囲は前記第2セットのフレーム内予測方向によってカバーされる。前記第1セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向によってカバーされる前記第1角度範囲のサブ範囲は前記第2角度範囲外である。
【0024】
幾つかの実施例において、前記第1セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向の数は前記第2セットのフレーム内予測方向のうちの前記少なくとも1つのフレーム内予測方向の数に等しい。
【0025】
幾つかの実施例において、前記正方形ブロックの前記第2セットのフレーム内予測方向に用いられるフレーム内予測モードの数は前記非正方形ブロックの前記第1セットのフレーム内予測方向に用いられるフレーム内予測モードの数に等しい。
【0026】
幾つかの実施例において、前記第2セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向は、前記非正方形ブロックの形状に基づく。
【0027】
幾つかの実施例において、前記第2セットのフレーム内予測方向における前記少なくとも1つのフレーム内予測方向は、前記非正方形ブロックのアスペクト比に基づく。
【0028】
本開示の内容の各局面は、さらに、プログラムが記憶される非一時的コンピュータ可読記憶媒体を提供し、当該プログラムは、ビデオ復号化のための少なくとも1つプロセッサーによって実行されることで、ビデオ復号化のための方法における任意の方法を実行させることができる。
【図面の簡単な説明】
【0029】
以下の詳しい記載及び図面に基づいて、開示のテーマの他の特徴、性質及び様々な利点はより明確になり、図面において、
【
図1】例示的なフレーム内予測モードの模式図である。
【
図2】例示的なフレーム内予測モードの別の図である。
【
図3】一実施例による通信システム(300)の概略的なブロック図の模式図である。
【
図4】一実施例による通信システム(400)の概略的なブロック図の模式図である。
【
図5】一実施例によるデコーダの概略的なブロック図の模式図である。
【
図6】一実施例によるエンコーダの概略的なブロック図の模式図である。
【
図7】別の実施例によるエンコーダのブロック図を示す。
【
図8】別の実施例によるデコーダのブロック図を示す。
【
図9】一実施例による非正方形ブロックにおけるサンプルのフレーム内予測の模式図を示す。
【
図10】一実施例による非正方形ブロックにおけるサンプルのフレーム内予測の模式図を示す。
【
図11】一実施例による非正方形ブロックにおけるサンプルのフレーム内予測の模式図を示す。
【
図12】本開示の幾つかの実施例によるプロセス(1200)を概説するフローチャートを示す。
【
図13】一実施例によるコンピュータシステムの模式図である。
【発明を実施するための形態】
【0030】
本開示の実施形態は、例えば、再構築中のブロックに空間的に近い参照サンプルを参照することで非正方形ブロックのフレーム内予測を改善することに係る。また、幾つかの実施例において、当該処理は、使用方向の数を最小化ことで実行される。
【0031】
図3は、本開示の実施例による通信システム(300)の概略的なブロック図を示す。通信システム(300)は、例えばネットワーク(350)を介して互いに通信できる複数の端末デバイスを含む。例えば、通信システム(300)は、ネットワーク(350)を介して互いに接続される第1ペアの端末デバイス(310)と(320)を含む。
図3に示す例において、第1ペアの端末デバイス(310)と(320)は一方向のデータ伝送を実行する。例えば、端末デバイス(310)は、ネットワーク(350)を介して他の端末(320)に伝送するために、ビデオデータ(端末デバイス(310)によってキャプチャされたビデオピクチャストリーム)を符号化することができる。符号化されたビデオデータは一つ又は複数の符号化されたビデオビットストリームの形で伝送できる。端末デバイス(320)は、ネットワーク(350)から符号化されたビデオデータを受信し、符号化されたデータを復号化し、ビデオピクチャを復元し、復元されたビデオデータに応じて、ビデオピクチャを表示してもよい。一方向のデータ伝送は、媒体サービスアプリケーションなどではよく見られる。
【0032】
他の例において、通信システム(300)は、符号化されたビデオデータの双方向伝送を実行する第2ペアの端末(330)と(340)を含み、双方向伝送は、例えば、ビデオ会議中に発生してもよい。データの双方向伝送の場合、端末デバイス(330)と(340)のそれぞれは、ネットワーク(350)を介して端末デバイス(330)と(340)のうちの他の端末に伝送するために、ビデオデータ(端末デバイスによってキャプチャされたビデオピクチャストリーム)を符号化することができる。端末デバイス(330)と(340)のそれぞれは、また、端末デバイス(330)と(340)のうちの他の端末デバイスによって伝送された符号化されたビデオデータを受信し得、符号化されたデータを復号化してビデオピクチャを復元し、復元されたビデオデータに応じて、アクセス可能な表示デバイスでビデオピクチャを表示してもよい。
【0033】
図3に示す例において、端末デバイス(310)、(320)、(330)及び(340)は、サーバ、パーソナルコンピュータ及びスマートフォンとして示され得るが、本開示内容の原理はこれに限定されない。本開示の実施例はラップトップコンピュータ、タブレット、媒体プレイヤー及び/又は専門ビデオ会議機器に適用される。ネットワーク(350)は端末デバイス(310)、(320)、(330)及び(340)の間で符号化されたビデオデータを伝送する任意の数のネットワークを示し、例えば、有線及び/又は無線通信ネットワークを含む。通信ネットワーク(350)は回路交換及び/又はパケット交換チャネルにおいてデータを交換し得る。代表的なネットワークは通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又はインターネットを含む。本出願の検討のために、ネットワーク(350)のアーキテクチャとトポロジーは、以下本明細書で特に説明しない限り、本開示の操作にとって重要ではない。
【0034】
開示のテーマのアプリケーションの例として、
図4は、ストリーム伝送環境におけるビデオエンコーダとデコーダの配置例の図を示し、開示のテーマは、同等にビデオをサポートする他のアプリケーションに適用され、例えばビデオ会議、デジタルテレビ、CD、DVD、メモリースティックなどを含むデジタルメデイアで圧縮ビデオなどを記憶することを含む。
【0035】
ストリーム伝送システムは、キャプチャサブシステム(413)を含み得、当該キャプチャサブシステムは、例えば非圧縮ビデオピクチャストリーム(402)を構築するためのビデオソース(401)、例えば、デジタル撮影装置を含んでもよい。例において、ビデオピクチャストリーム(402)はデジタル撮影装置によって撮影されたサンプルを含む。符号化されたビデオデータ(404)(又は符号化されたビデオビットストリーム)と比較して高いデータ量を強調するために太線として描かれるビデオピクチャストリーム(402)は、ビデオソース(401)に接続されたビデオエンコーダ(403)を含む電子機器(420)で処理できる。ビデオエンコーダ(403)は、以下でより詳細に説明する開示のテーマの各態様を実現又は実施するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。ビデオピクチャスレリーム(402)と比較して低いデータ量を強調するために細い線として描かれる符号化されたビデオデータ(404)(または符号化されたビデオビットストリーム(404))は、後で使用のために、ストリームサーバ(405)に記憶され得る。1つ又は複数のストリームクライアントサブシステム、例えば、
図4のクライアントサブシステム(406)と(408)は、ストリームサーバ(405)にアクセスして、符号化されたビデオデータ(404)のコピー(407)と(409)を検索し得る。クライアントサブシステム(406)は、例えば、電子機器(430)におけるビデオデコーダ(410)を含んでもよい。ビデオデコーダ(410)は、符号化されたビデオデータの着信コピー(407)を復号化し、ディスプレイ(412)(例えば、スクリーン)又は他の表示デバイス(図示せず)で表示できる発信ビデオピクチャストリーム(411)を構築する。あるストリーム伝送システムでは、あるビデオ符号化/圧縮規格に従って符号化されたビデオビットストリーム(403)、(407)、(409)(例えば、ビデオビットストリーム)を符号化してもよい。これらの規格の例には、ITU-T H.265推奨書を含む。一例として、開発中のビデオ符号化基準は非正式に多用途ビデオ符号化又はVVCと呼ばれる。開示のテーマは、VVCのコンテキストに使用されてもよい。
【0036】
なお、電子機器(420)と(430)は、他の構成要素(図示せず)を含むことができる。例えば、電子機器(420)はビデオデコーダ(図示せず)を含んでもよく、電子機器(430)は同様にビデオエンコーダ(図示せず)を含んでもよい。
【0037】
図5は、本開示の実施例によるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は電子機器(530)に含まれてもよい。電子機器(530)は受信機(531)(例えば、受信回路)を含んでもよい。ビデオデコーダ(510)は、
図4に示す例におけるビデオデコーダ(410)の代わりに使用されてもよい。
【0038】
受信機(531)は、ビデオデコーダ(510)によって復号化される1つ又は複数の符号化されたビデオシーケンスを受信してもよく、同一又は別の実施例では、一回に1つの符号化されたビデオシーケンスを受信し、各符号化されたビデオシーケンスの復号化は他の符号化されたビデオシーケンスと独立している。チャネル(501)から符号化されたビデオシーケンスを受信してもよく、チャネル(501)は、符号化されたビデオデータを記憶するストレージデバイスへのハードウェア/ソフトウェアリンクであってもよい。受信機(531)は、符号化されたビデオデータ及び他のデータ、例えば、それぞれの使用エンティティ(図示せず)に転送され得る符号化されたオーディオデータ及び/又は補助データストリームを受信してもよい。受信機(531)は、符号化されたビデオシーケンスを他のデータから分離することができる。ネットワークジッタを防止するために、バッファメモリ(515)は、受信機(511)とエントロピーデコーダ/パーサ(520)(以降、「パーサ」と呼ばれる)との間に接続され得る。幾つかのアプリケーションでは、バッファメモリ(515)はビデオデコーダ(510)の一部である。他のアプリケーションでは、バッファメモリ(515)はビデオデコーダ(510)(図示せず)の外部にあってもよい。更なるアプリケーションでは、ビデオデコーダ(510)の外部には、ネットワークジッタを防止するために、バッファメモリ(描画せず)があってもよく、さらに例えばビデオデコーダ(510)内に、再生タイミングを処理するために、別のバッファメモリ(515)があってもよい。受信機(531)が十分な帯域幅と制御可能性を有する記憶/転送デバイスから、又は等時性ネットワークからデータを受信する場合に、バッファメモリ(515)は必要としないか、又はバッファメモリ(515)は小さくなり得る。例えばインターネットのベストパケットネットワークで使用するために、バッファメモリ(515)が必要となる場合があり、バッファメモリ(515)は、比較的大きく、自己適応サイズを有利に有することができ、そして、少なくとも一部はオペレーティングシステム又はビデオデコーダ(510)の外側の類似の構成要素(図示せず)で実現されてもよい。
【0039】
ビデオデコーダ(510)は、符号化されたビデオシーケンスからシンボル(521)を再構築するために、パーサ(520)を含み得る。これらのシンボルのカテゴリには、ビデオデコーダ(510)の操作を管理するための情報と、電子機器(530)の一体部分ではなく電子機器(530)に接続される表示デバイス(512)を制御するための情報とを含んでもよく、
図5に示すようである。一つ又は複数の表示デバイスに用いられる制御情報は、補助拡張情報(SEIメッセージ)又はビデオユーザビリティ情報(VUI)パラメータセットフラグメント(図示せず)の形であってよい。パーサ(520)は、受信された符号化されたビデオシーケンスに対して解析/エントロピー復号化を行うことができる。符号化されたビデオシーケンスの符号化は、ビデオ符号化技術又は基準に従うことができ、可変長符号化、エルフマン符号化、コンテキスト感度を有する又は有しない算術符号化などを含む様々な原理に従うことができる。パーサ(520)は、グループに対応する少なくとも一つのパラメーターに基づいて、符号化されたビデオシーケンスから、ビデオデコーダにおける画素のサブグループのうちの少なくとも1つのサブグループパラメータのセットを抽出することができる。サブグループは、ピクチャのグループ(GOP)、ピクチャ、タイル、スライス、マクロブロック、符号化ユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)などを含んでもよい。パーサー(520)は、また、符号化されたビデオシーケンス情報から、例えば、変換係数、量子化器パラメーター値、動きベクトルなどを抽出してもよい。
【0040】
パーサ(520)は、バッファメモリ(515)から受信したビデオシーケンスに対してエントロピー復号化/解析操作を実行することで、シンボル(521)を構築することができる。
【0041】
符号化されたビデオピクチャ又は他の部分(例えば、フレーム間ピクチャとフレーム内ピクチャ、フレーム間ブロックとフレーム内ブロック)のタイプ及び他の要因に依存し、シンボル(521)の再構築は複数の異なるユニットに係る。どのユニットに係るか、及び係る形態は、パーサ(520)が符号化されたビデオシーケンスから解析したサブグループ制御情報により制御されてもよい。簡略化のために、パーサ(520)と以下の複数のユニットとの間のそのようなサブグループ制御情報の流れについて説明しない。
【0042】
すでに言及された機能ブロックに加えて、ビデオデコーダ(510)は概念的には、以下に説明する複数の機能ユニットに細分することができる。商業的な制約の下で運行する実際の実現形態では、これらのユニットの多くは互いに密接にインタラクトし、少なくとも部分的に互いに統合することができる。但し、開示のテーマを説明する目的のために、概念的には、以下の機能ユニットへの細分は適切である。
【0043】
第1ユニットはスケーラ/逆変換ユニット(551)である。当該スケーラ/逆変換ユニット(551)はパーサ(520)から(1つ又は複数の)シンボル(521)としての量子化変換係数及び制御情報を受信し、どの変換方法を使用するか、ブロックサイズ、量子化係数、量子化スケーリングマトリックスなどを含む。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力できるサンプル値を含むブロックを出力できる。
【0044】
幾つかの場合に、スケーラ/逆変換ユニット(551)の出力サンプルはフレーム内符号化ブロックに属してもよく、即ち、以前に再構築されたピクチャからの予測性情報を使用しないが、現在ピクチャからの以前に再構築された一部の予測性情報のブロックを使用してもよい。そのような予測性情報は、フレーム内ピクチャ予測ユニット(552)によって提供され得る。幾つかの場合に、フレーム内ピクチャ予測ユニット(552)は現在ピクチャバッファ(558)から抽出された周りの既に再構築された情報を使用して再構築中のブロックのサイズ及び形状と同じなブロックを生成してもよい。現在ピクチャバッファ(558)は、例えば、部分的に再構築された現在ピクチャ及び/又は完全に再構築された現在ピクチャをバッファリングする。幾つかの場合に、アグリゲータ(555)は各サンプルに基づいて、フレーム内予測ユニット(552)によって生成された予測情報を、スケーラ/逆変換ユニット(551)から提供される出力サンプル情報に追加する。
【0045】
他の場合に、スケーラ/逆変換ユニット(551)の出力サンプルはフレーム間符号化及び潜在動き補償ブロックに属してもよい。このような場合に、動き補償予測ユニット(553)は、参照ピクチャメモリ(557)にアクセスして予測のためのサンプルを抽出してもよい。当該ブロックに属するシンボル(521)に応じて抽出されたサンプルに対して動き補償を行った後に、これらのサンプルは、アグリゲータ(555)によりスケーラ/逆変換ユニットの出力(この場合に、残差サンプル又は残差信号と呼ばれる)に追加されることで、出力サンプル情報を生成することができる。動き補償ユニット(553)がサンプルを抽出する参照ピクチャメモリにおけるアドレスは動きベクトルにより制御されてもよく、動きベクトルはシンボル(521)の形で動き補償ユニットに提供され、シンボル(521)は、例えば、X、Y、及び参照ピクチャコンポーネントを有してもよい。動き補償は、サブサンプルの正確な動きベクトルを使用する場合参照ピクチャメモリから抽出されたサンプル値の補間、動きベクトル予測メカニズムなどを含んでもよい。
【0046】
アグリゲータ(555)の出力サンプルはループフィルタユニット(556)において様々なループフィルタリング技術が応用される。ビデオ圧縮技術は、ループ内フィルタ技術を含んでもよく、ループ内フィルタ技術は、符号化されたビデオシーケンス(符号化されたビデオビットストリームとも呼ばれる)に含まれ且つパーサ(520)からのシンボル(521)としてループフィルタユニット(556)に使用可能なパラメータにより制御されるが、ビデオ圧縮技術は、符号化されたピクチャ又は符号化されたビデオシーケンスの以前の(復号化順序で)一部復号化する間に得られたメタ情報に応答してもよいし、以前に再構築されループフィルター処理されたサンプル値に応答してもよい。
【0047】
ループフィルタユニット(556)の出力はサンプルストリームであってもよく、当該サンプルストリームは表示デバイス(512)に出力され、参照ピクチャメモリ(557)に記憶されて、後のフレーム間ピクチャ予測に使用される。
【0048】
完全に再構築されると、一部の符号化されたピクチャは参照ピクチャとして将来の予測に使用することができる。現在ピクチャに対応する符号化されたピクチャが完全に再構築され、且つ符号化されたピクチャが(例えば、パーサ(520)により)参照ピクチャとして認識されると、現在ピクチャバッファ(558)は参照ピクチャメモリ(557)の一部になり、そして、後の符号化されたピクチャの再構築を開始する前に、新しい現在ピクチャバッファを再割り当てることができる。
【0049】
ビデオデコーダ(510)は、例えばITU-TH.255推奨書の基準における所定のビデオ圧縮技術に従って復号化操作を実行してもよい。符号化されたビデオシーケンスがビデオ圧縮技術又は基準文法及びビデオ圧縮技術又は基準に記録されたプロファイルに準拠する意味で、符号化されたビデオシーケンスは、使用のビデオ圧縮技術又は基準で指定される文法に符合してもよい。具体的に、プロファイルは、ビデオ圧縮技術又は基準で利用可能なすべてのツールから、幾つかのツールを選択してプロファイルで使用され得るツールとしてもよい。コンプライアンスについて、符号化されたビデオシーケンスの複雑さがビデオ圧縮技術又は基準のレベルで限定された範囲内にあることも要求する。場合によっては、レベルは、最大ピクチャのサイズ、最大フレームレート、最大再構築サンプルレート(例えば1秒あたりのメガのサンプルを単位として測定する)、最大参照ピクチャサイズなどを制限する。場合によっては、レベルによって設定される制限は仮想参照デコーダ(HRD)の仕様及び符号化されたビデオシーケンスにおいてシグナリングされるHRDバッファの管理するメタデータによってさらに制限されてもよい。
【0050】
一実施例において、受信機(531)は、付加的な(冗長な)データと符号化されたビデオを受信してもよい。付加的なデータは(1つ又は複数の)符号化されたビデオシーケンスの一部として含まれてもよい。付加的なデータは、ビデオデコーダ(510)がデータを正確に復号及び/又は元のビデオデータをより正確に再構築するために使用してもよい。付加的なデータは、例えば、時間、空間、又は信号対雑音比(SNR)、強化層、冗長スライス、冗長ピクチャ、前方誤り訂正符号などの形であってもよい。
【0051】
図6は、本開示の実施例によるビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は電子機器(620)に含まれる。電子機器(620)は、伝送器(640)(例えば、伝送回路)を含む。ビデオエンコーダ(603)は
図4に示す例におけるビデオエンコーダ(403)に代わりに使用し得る。
【0052】
ビデオエンコーダ(603)は、ビデオエンコーダ(603)によって符号される(一つ又は複数の)ビデオ画像をキャプチャし得るビデオソース(601)(
図6に示す例における電子機器(620)の一部ではない)からビデオサンプルを受信してもよい。別の例では、ビデオソース(601)は、電子機器(620)の一部である。
【0053】
ビデオソース(601)は、ビデオエンコーダ(603)によって符号化されるデジタルビデオサンプルストリームの形であるソースビデオシーケンスを提供してもよく、デジタルビデオサンプルストリームは、任意の適切なビット深度(例えば、8ビット、10ビット、12ビット…)、任意の色空間(例えば、BT.601YCrCB、RGB…)及び任意の適切なサンプリング構成(例えば、YCrCb 4:2:0、YCrCb 4:4:4)を有してもよい。媒体サービスシステムでは、ビデオソース(601)は、以前に準備されたビデオを記憶するストレージデバイスであってもよい。ビデオ会議システムでは、ビデオソース(601)は、ロカール画像情報をビデオシーケンスとしてキャプチャする撮影装置であってもよい。ビデオデータは、順番に見る際に動きを付与する複数の個別のピクチャとして提供されてもよい。ピクチャ自体は空間画素アレイとして構成されてもよく、使用中のサンプリング構成、色空間などに依存し、各画素は、1つ又は複数のサンプルを含んでもよい。当業者は、画素とサンプルとの間の関係を容易に理解することができる。以下の説明では、サンプルを中心に説明する。
【0054】
一実施例によれば、ビデオエンコーダ(603)は、リアルタイムで、又はアプリケーションに必要な他の任意の時間制約の下で、ソースビデオシーケンスのピクチャを符号化し、それを符号化されたビデオシーケンス(643)に圧縮してもよい。適切な符号化速度を実行することはコントローラ(650)の機能の1つである。場合によっては、コントローラ(650)は、以下に説明する他の機能ユニットを制御し、これらのユニットに機能的に接続する。簡略化のために、カップリング接続は図示されていない。コントローラ(650)によって設置されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のλ値…)、ピクチャサイズ、ピクチャグループ(GOP)レイアウト、最大動きベクトル検索範囲などを含んでもよい。コントローラ(650)は、あるシステムに対して設計し最適化されたビデオエンコーダ(603)に属する他の適切な機能を有するように配置できる。
【0055】
幾つかの実施例において、ビデオエンコーダ(603)は符号化ループで操作するように配置されている。非常に簡略化した説明として、一例として、符号化ループは、ソースエンコーダ(630)(例えば、符号化しようとする入力ピクチャ及び(1つ又は複数の)参照ピクチャに基づいてシンボルストリームのようなシンボルを構築することを担当する)、ビデオエンコーダ(603)に組み込まれた(ロカールの)デコーダ(733)を含んでもよい。デコーダ(633)は(リモート)デコーダと類似してサンプルデータを構築するようにシンボルを再構築して、サンプルデータを再構築する(開示のテーマで考慮されるビデオ圧縮技術でシンボルと符号化されたビデオビットストリームとの間の圧縮は無損失であるため)。再構築されたサンプルストリーム(サンプルデータ)を参照ピクチャメモリ(634)に入力する。シンボルストリームの復号化によって、デコーダの位置(ロカール又はリモート)に関係がないビット正確結果が得られるため、参照ピクチャメモリ(634)の内容もロカールエンコーダとリモートエンコーダ間でビット正確である。つまり、エンコーダの予測部分が「見る」参照ピクチャサンプルと、デコーダが復号化で予測を使用する際に「見る」サンプル値とは全く同じである。当該参照ピクチャの同期性という基本的な原理(及び、例えば、チャネル誤差のため、同期性を維持できない場合に生じるドリフト)は、関連技術でも使用される。
【0056】
「ロカール」デコーダ(633)の操作は、以上で
図5に基づいて詳細に説明されたビデオデコーダ(510)の「リモート」デコーダの操作と同じであってもよい。簡単に
図5を参照し、シンボルが利用可能であり、且つエントロピーエンコーダ(645)及びパーサ(520)は無損失でシンボルを、符号化されたビデオシーケンスに符号化/復号化できる場合に、バッファメモリ(515)及びパーサ(520)を含むビデオデコーダ(510)のエントロピー復号化部分はロカールデコーダ(633)で完全に実現されない場合がある。
【0057】
また、デコーダに存在する解析/エントロピー復号化以外の任意のデコーダ技術も必ず対応するエンコーダに基本的に同じ機能形式で存在する。この原因で、開示のテーマはデコーダ操作に注目する。エンコーダ技術は詳細に説明されたデコーダー技術の逆であるため、エンコーダ技術の説明を簡略化する。特定の領域のみに必要とされ、以下より詳細に説明する。
【0058】
操作中に、幾つかの例において、ソースエンコーダ(630)は動き補償予測符号化を実行してもよく、動き補償予測符号化は、ビデオシーケンスからの「参照ピクチャ」として指定された1つ又は複数の以前に符号化されたピクチャを参照することで入力ピクチャに対して予測符号化を行う。このようにして、符号化エンジン(632)は入力ピクチャの画素ブロックと、入力ピクチャ(1つ又は複数の)予測参照の(1つ又は複数の)参照ピクチャとして選択され得る画素ブロックとの間の差異を符号化してもよい。
【0059】
ロカールビデオデコーダ(633)は、ソースエンコーダ(630)によって構築されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャの符号化されたビデオデータを復号化してもよい。符号化エンジン(632)の操作は、有利には、損失処理であり得る。符号化されたビデオデータがビデオデコーダ(
図6に図示せず)で復号化される場合、再構築されたビデオシーケンスは、通常、多少の誤差を有するソースビデオシーケンスのコピーであり得る。ローカルビデオデコーダ(633)は、参照ピクチャに対してビデオデコーダによって実行され得る復号化処理を複製し、再構築された参照ピクチャを参照ピクチャバッファ(634)に記憶させてもよい。このようにして、エンコーダ(603)は、遠端ビデオデコーダによって取得される再構築された参照ピクチャと共通のコンテンツを有する、再構築された参照ピクチャのコピーをローカルに記憶することができる(伝送誤差がない)。
【0060】
予測器(635)は、符号化エンジン(632)に対して予測検索を実行することができる。つまり、符号化対象の新しいピクチャについて、予測器(635)は、参照ピクチャメモリ(634)において新しいピクチャの適切な予測参照として使用し得るサンプルデータ(候補参照画素ブロックとして)又は特定のメタデータ、例えば、参照ピクチャの動きベクトル、ブロック形状などを検索してもよい。予測器(635)は、サンプルブロックに基づいて、画素ブロックごとに操作し、適切な予測参照を見つけることができる。場合によっては、予測器(635)により取得された検索結果によって決定され、入力ピクチャは、参照ピクチャメモリ(634)に記憶された複数の参照ピクチャから抽出された予測参照を有してもよい。
【0061】
コントローラ(650)は、ビデオエンコーダ(630)の符号化操作を管理することができ、例えば、ビデオデータを符号化するためのパラメータとサブグループパラメータの設置を含む。
【0062】
エントロピーエンコーダ(645)において以上で言及されたすべての機能ユニットの出力に対してエントロピー符号化を行ってもよい。エントロピーエンコーダ(645)は、当業者に知られている技術、例えばハフマン符号化、可変長符号化、算術符号化等に従って、各機能ユニットによって生成されたシンボルに対して無損失圧縮を行うことにより、シンボルを、符号化されたビデオシーケンスに変換する。
【0063】
伝送器(640)は、エントロピーエンコーダ(646)によって構築された(1つ又は複数の)符号化されたビデオシーケンスをバッファリングし、通信チャネル(660)を介する伝送の準備をすることができ、この通信チャネルは、符号化されたビデオデータを記憶するストレージデバイスへのハードウェア/ソフトウェアリンクであってもよい。伝送器(640)は、ビデオエンコーダ(630)からの符号化されたビデオデータを、伝送しようとする他のデータ、例えば、符号化されたオーディオデータ及び/又は補助データストリーム(ソースは図示せず)とともに合併してもよい。
【0064】
コントローラ(650)は、エンコーダ(603)の操作を管理することができる。コントローラ(650)は、符号化期間に、各符号化されたピクチャに、相応するピクチャに適用し得る符号化技術に影響する可能性がある特定の符号化ピクチャタイプを割り当てる。例えば、通常、ピクチャは、以下のピクチャタイプの一つに割り当てられる。
【0065】
フレーム内ピクチャ(Iピクチャ)であって、シーケンスにおけるいずれの他のピクチャも予測のソースとしていない場合に、符号化及び復号化されるピクチャであってもよい。例えば独立復号器リフレッシュ(「IDR」)ピクチャが含まれる異なるタイプのフレーム内ピクチャを許容するビデオコーデックもある。当業者は、Iピクチャの変体及びその相応的な応用、特徴を理解できる。
【0066】
予測性ピクチャ(Pピクチャ)であって、多くても1つの動きベクトル及び参照インデックスによって各ブロックのサンプル値を予測する場合、フレーム内予測またはフレーム間予測を利用して符号化及び復号化を行うピクチャであってもよい。
【0067】
双方向予測性ピクチャ(Bピクチャ)であって、多くても2つの動きベクトル及び参照インデックスによって、各ブロックのサンプル値を予測する場合、フレーム内予測またはフレーム間予測を利用して符号化及び復号化を行うピクチャであってもよい。類似するように、複数の予測性ピクチャは、2つより多い参照ピクチャと関するメタデータを、単一のブロックの再構築に使用できる。
【0068】
ソースピクチャは一般的に、空間で複数のサンプルブロック(例えば、4×4、8×8、4×8または16×16個のサンプルのブロック)に細分できるとともに、ブロックごとに符号化を行う。これらのブロックは、他の(符号化された)ブロックを参照し、予測性的に符号化を行って、他のブロックはブロックの相応的なピクチャに適用される符号化割当によって決定される。例えば、Iピクチャのブロックに対して非予測符号化を行うか、またはIピクチャのブロックは、同一のピクチャの符号化されたブロックを参照して、予測性符号化(空間予測またはフレーム内予測)を行う。Pピクチャの画素ブロックは、前に符号化された1つの参照ピクチャを参照し、空間予測または時間予測を介して予測性的に符号化を行ってもよい。Bピクチャのブロックは、前に符号化された1つまたは2つの参照ピクチャを参照し、空間予測または時間予測を介して予測性的に符号化を行ってもよい。
【0069】
ビデオエンコーダ(603)は、例えばITU-T H.266推奨書の所定のビデオ符号化技術又は基準に従って、符号化操作を実行することができる。ビデオエンコーダ(403)は、その操作中に、様々な圧縮動作を実行することができ、入力ビデオシーケンスにおける時間的及び空間的冗長性を利用した予測符号化操作を含む。従って、符号化されたビデオデータは、使用のビデオ符号化技術又は基準によって指定された文法に合う。
【0070】
一実施例において、伝送器(640)は付加的なデータと符号化されたビデオとを伝送してもよい。ソースエンコーダ(630)はこのようなデータを、符号化されたビデオシーケンスの一部として含んでもよい。付加的なデータは、時間的/空間的/SNR強化層、例えば冗長なピクチャ、スライスのような他の形の冗長データ、補助強化情報(SEI)メッセージ、視覚的ユーザビリティ情報(VUI)パラメータセットスニペットなどを含んでもよい。
【0071】
キャプチャされたビデオは、時間シーケンスを呈する複数のソースピクチャ(ビデオピクチャ)としてもよい。フレーム内ピクチャ予測(一般的にフレーム内予測に簡略化される)は特定のピクチャにおける空間の関連性を利用し、フレーム間ピクチャ予測はピクチャの間の(時間または他の)関連性を利用する。例示において、現在ピクチャと呼ばれる符号化/復号化における特定ピクチャは、ブロックに分割される。現在ピクチャにおけるブロックは、ビデオにおける前に符号化され且つ依然としてバッファリングされる参照ピクチャにおける参照ブロックに類似する場合、動きベクトルと呼ばれるベクトルによって、現在ピクチャにおけるブロックを符号化することができる。動きベクトルは参照ピクチャにおける参照ブロックを指し、複数の参照ピクチャを利用する場合、参照ピクチャを認識するための第3次元を有してもよい。
【0072】
いくつかの実施例において、双方向予測技術はフレーム間ピクチャ予測に用いられる。双方向予測技術に基づき、復号化順次でいずれもビデオにおける現在ピクチャの前(ただし、表示順次で、それぞれ過去と将来にあるかもしれない)にある、第1参照ピクチャと第2参照ピクチャのような2つの参照ピクチャを利用する。第1参照ピクチャにおける第1参照ブロックを指す第1動きベクトル、及び第2参照ピクチャにおける第2参照ブロックを指す第2動きベクトルによって現在ピクチャにおけるブロックを符号化することができる。第1参照ブロックと第2参照ブロックとの組み合わせで、ブロックを予測できる。
【0073】
また、合併モード技術は、フレーム間ピクチャ予測に適用して、符号化効率を向上させることができる。
【0074】
本開示内容のいくつかの実施例に基づき、ブロックごとにフレーム間ピクチャ予測及びフレーム内ピクチャ予測のような予測を実行する。例えば、HEVC基準に基づき、ビデオピクチャシーケンスにおけるピクチャは符号化ツリーブユニット(CTU)に分割され、圧縮に用いられ、ピクチャにおけるCTUは、例えば64×64画素、32×32画素または16×16画素のような同じサイズを有する。一般的に、CTUは、1つの輝度CTBと2つのクロミナンスCTBとが含まれた3つの符号化ツリーブロック(CTB)を含む。各CTUは再帰に、クワッドツリーで1つ又は複数の符号化ユニット(CU)に分割される。例えば、64×64画素であるCTUを64×64画素である1つのCU、または32×32画素である4つのCU、或いは16×16画素である16個のCUに分割する。例示において、各CUを分析することで、フレーム間予測タイプまたはフレーム内予測タイプのような、CUのための予測タイプを決定する。時間及び/または空間の予測可能性に依存し、CUは1つ又は複数の予測ユニット(PU)に分割される。一般的に、各PUは輝度予測ブロック(PB)と2つのクロミナンスPBとを含む。1つの実施例において、符号化(符号化/復号化)における予測操作は、予測ブロックごとに実行される。予測ブロックの例示として、輝度予測ブロックを利用し、予測ブロックは、8×8画素、16×16画素、8×16画素、16×8画素などのような画素値(例えば、輝度値)の行列を含む。
【0075】
図7は、本開示の他の実施例によるビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオピクチャシーケンスにおける現在ビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受信するように配置され、且つ、処理ブロックを、符号化されたビデオシーケンスの一部である符号化されたピクチャに符号化する。例において、ビデオエンコーダ(703)は
図4に示す例におけるビデオエンコーダ(403)の代わりに使用される。
【0076】
HEVC例示において、ビデオ符号器(703)は、処理ブロック、例えば8×8サンプルの予測ブロックなどのサンプル値の行列を受信する。ビデオ符号器(703)は、例えばレート歪み最適化によって、フレーム内モード、フレーム間モードまたは双方向予測モードを利用して最適に処理ブロックを符号化するかということを決定する。フレーム内モードで処理ブロックを符号化しようとすると、ビデオ符号器(703)はフレーム内予測技術によって、処理ブロックを符号化ピクチャに符号化し、フレーム間モードまたは双方向予測モードで処理ブロックを符号化しようとすると、ビデオ符号器(703)はそれぞれフレーム間予測または双方向予測技術によって、処理ブロックを符号化ピクチャに符号化することができる。あるビデオ符号化技術において、合併モードはフレーム間ピクチャ予測サブモードであってもよく、予測値の外部にある符号化された動きベクトル成分を借りない場合、1つ又は複数の動きベクトル予測値から動きベクトルを導出する。ある他のビデオ符号化技術において、テーマブロックに適用される動きベクトル成分が存在し得る。例示において、ビデオ符号器(703)は、処理ブロックのモードを決定するためのモード決定モジュール(図示せず)のような、他の部材を含む。
【0077】
図7に示す例において、ビデオエンコーダ(703)は
図7に示すように、一体に接続されたフレーム間エンコーダ(730)、フレーム内エンコーダ(722)、残差計算器(723)、スイッチ(726)、残差エンコーダ(724)、汎用コントローラ(721)及びエントロピーエンコーダ(725)を含む。
【0078】
フレーム間エンコーダ(730)は、現在ブロック(例えば、処理ブロック)のサンプルを受信し、当該ブロックと参照ピクチャにおける1つ又は複数の参照ブロック(例えば、前のピクチャ及び後のピクチャにおけるブロック)とを比較し、フレーム間予測情報(例えば、フレーム間符号化技術による冗長情報説明、動きベクトル、合併モード情報)を生成し、フレーム間予測情報に基づいて任意の適切な技術を使用してフレーム間予測結果(例えば、予測ブロック)を算出するように配置されている。
【0079】
フレーム内エンコーダ(722)は現在ブロック(例えば、処理ブロック)のサンプルを受信し、幾つかの場合に、当該ブロックと、同一のピクチャにおける既に符号化されたブロックとを比較し、変換後に量子化係数を生成し、幾つかの場合に、また(例えば、1つ又は複数のフレーム内符号化技術のフレーム内予測方向情報に応じて)フレーム内予測情報を生成するように配置されている。
【0080】
汎用コントローラ(721)は、汎用制御データを決定し、当該汎用制御データに基づいてビデオエンコーダ(703)の他の構成要素を制御するように配置されている。例において、汎用コントローラ(721)は、ブロックのモードを決定し、当該モードに基づいて制御信号をスイッチ(726)に提供する。例えば、モードがフレーム内モードである場合に、汎用コントローラ(721)はスイッチ(726)を制御して残差計算器(723)に使用されるフレーム内モード結果を選択し、エントロピーエンコーダ(725)を制御してフレーム内予測情報を選択しフレーム内予測情報をビットストリームに含ませ、モードがフレーム間モードである場合に、汎用コントローラ(721)はスイッチ(726)制御して残差計算器(723)に使用されるフレーム間予測結果を選択し、エントロピーエンコーダ(725)を制御してフレーム間予測情報を選択しフレーム間予測情報をビットストリームに含ませる。
【0081】
残差計算器(723)は、受信したブロックと、フレーム内エンコーダ(722)又はフレーム間エンコーダ(730)から選択した予測結果との差(残差データ)を算出するように配置されている。残差エンコーダ(724)は、残差データ操作に基づいて、残差データを符号化することで変換係数を生成するように配置されている。例において、残差エンコーダ(724)は、周波数領域における残差データを変換し、変換係数を生成するように配置されている。変換係数は、量子化処理されて、量子化された変換係数を取得する。
【0082】
エントロピーエンコーダ(725)は、ビットストリームをフォーマットすることで符号化されたブロックを含ませるように配置されている。エントロピーエンコーダ(725)は、例えばHEVC規格のような適切な規格に従って様々な情報を含むように配置されている。例において、エントロピーエンコーダ(725)は、汎用制御データ、選択された予測情報(例えば、フレーム内予測情報又はフレーム間予測情報)、残差情報及びビットストリームにおける他の適切な情報を含むように配置されている。開示のテーマによれば、フレーム間モード又は双方向予測モードの合併サブモードでブロックを符号化する場合に残差情報がない。
【0083】
図8は、本開示の別の実施例によるビデオデコーダ(810)の図を示す。ビデオデコーダ(810)は、符号化されたビデオシーケンスの一部である符号化されたピクチャを受信し、符号化されたピクチャを復号化して再構築されたピクチャを生成するように配置されている。例において、ビデオデコーダ(810)は、
図4に示す例におけるビデオデコーダ(410)の代わりに使用される。
【0084】
図8に示す例において、ビデオデコーダ(810)は、
図8に示すように、一体に接続されたエントロピーデコーダ(871)、フレーム間デコーダ(880)、残差デコーダ(873)、再構築モジュール(874)及びフレーム内デコーダ(872)を含む。
【0085】
エントロピーデコーダ(871)は、符号化されたピクチャに応じて、当該符号化されたピクチャを構成する文法要素を表すシンボルを再構築するように配置されてもよい。そのようなシンボルは、例えば、ブロックを符号化するためのモード(例えば、フレーム内モード、フレーム間モード、双方向予測モード、フレーム間モードと双方向予測モードとの合併サブモード又は別のサブモード)を含んでもよく、フレーム内デコーダ(872)又はフレーム間デコーダ(880)に使用されて予測を行うサンプル又はメタデータの予測情報(例えば、フレーム内予測情報又はフレーム間予測情報)、例えば量子化された変換係数の形式である残差情報などをそれぞれ認識してもよい。例において、予測モードがフレーム間又は双方向予測モードである場合に、フレーム間予測情報をフレーム間デコーダ(880)に提供し、予測タイプがフレーム内予測タイプである場合に、フレーム内予測情報をフレーム内デコーダ(872)に提供する。残差情報は逆量子化され、残差デコーダ(873)に提供されてもよい。
【0086】
フレーム間デコーダ(880)は、フレーム間予測情報を受信し、フレーム間予測情報に基づいてフレーム間予測結果を生成するように配置されている。
【0087】
フレーム内デコーダ(872)はフレーム内予測情報を受信し、フレーム内予測情報に基づいて予測結果を生成するように配置されている。
【0088】
残差デコーダ(873)は、逆量子化を実行して逆量子化変換係数を抽出し、逆量子化変換係数を処理して残差を周波数領域から空間領域に変換するように配置されている。残差デコーダ(873)は、幾つかの制御情報(量子化パラメータQPを含むため)を必要とする可能性があり、情報はエントロピーデコーダ(871)から提供されてもよい(これは少ない制御情報であるから、データ経路を図示せず)。
【0089】
再構築モジュール(874)は空間領域において、残差デコーダ(873)から出力される残差と予測結果を組み合わせて(場合によってフレーム間予測モジュール又はフレーム内予測モジュールにより出力される)再構築されたブロックを生成するように配置され、再構築されたブロックは再構築されたピクチャの一部であってもよく、再構築されたピクチャは、再構築されたビデオの一部であってもよい。視覚的品質を改善するために、デブロッキング操作などの他の適切な操作を実行できることに留意されたい。
【0090】
任意の適切な技術を使用してビデオエンコーダ(403)、(603)及び(703)及びビデオデコーダ(410)、(510)及び(810)を実現できることに留意されたい。一実施例において、1つ又は複数の集積回路を使用してビデオエンコーダ(403)、(603)及び(703)及びビデオデコーダ(410)、(510)及び(810)を実現してもよい。別の実施例において、ソフトウェア命令を実行する1つ又は複数のプロセッサーを使用してビデオエンコーダ(403)、(603)と(603)及びビデオデコーダ(410)、(510)と(810)を実現してもよい。
【0091】
以下、開示のテーマによるフレーム内予測方法(フレーム内予測とも呼ばれる)の様々な実施例を説明する。
【0092】
幾つかのビデオ圧縮技術では、所定のピクチャの複数のサンプルに対してフレーム内予測を行い、当該複数のサンプルは、以降で「ユニット」又はブロックと呼ばれる。ユニットにおける複数のサンプルについて、当該ユニットは任意の形状を有することができる。当該ユニットは、連続的又は非連続的である。幾つかのビデオ圧縮技術で、ユニットの形状がサンプルの矩形ブロックに制限される。矩形ブロックの次元は正の整数であってもよい。
【0093】
幾つかのビデオ圧縮技術は、矩形ブロックの各次元例えばX次元及びY次元でのサイズを2の累乗(例えば、4つのサンプル、八つのサンプル、16のサンプル…)に制限する。
【0094】
幾つかのビデオ圧縮技術は、矩形ブロックの形状を正方形に制限し、即ち、矩形ブロックのX次元及びY次元でのサイズが等しい。幾つかの例において、当該サイズは2の累乗であってもなくてもよい。
【0095】
本開示をさらに説明する前に、「利用可能」及び「利用可能性」という用語を以下に紹介する。サンプルのユニットを考慮する。サンプルは正方形、矩形又はその他の任意の適切な形状に配置されてもよい。他の要因を除き、ピクチャにおけるユニットの空間位置、スライス、タイルなどに分割されるビットストリームを含む符号化されたビットストリーム構造、ある予測サンプル又は他の予測エンティティ(例えば、周りのユニットの予測方向)のメタデータは、サンプルの予測又はユニットの他の予測エンティティの予測にとって「利用可能」であり得るか「利用可能」でない。幾つかのビデオ符号化技術では、ユニットの復号化順序がスキャン順序に従い、即ち、左から右、上から下であり、従って、復号化順序で再構築中のユニットの後のユニットからの潜在的な参照情報及びサンプルは自然に利用不可である。したがって、再構築中のユニットの右側又は下にある予測データは利用不可である。
【0096】
幾つかの例において、ある予測サンプルが復号化順序で再構築中のユニットに先行するユニットに含まれ且つ当該再構築中のユニットの左側又は上にあっても、前記ある予測サンプル及び他の予測エンティティは利用不可であり得る。例えば、再構築中のユニットが、例えば、スライス又は(独立した)タイルのピクチャ又は図スニペットの境界にある場合、サンプル又は予測エンティティは利用不可であり得る。様々な例において、予測の目的で、スライス及びタイルの境界をピクチャ境界と見なす。同様に、予測エンティティの生成又は使用を許容しないモードで参照ユニットを符号化する場合に、予測サンプルが利用可能であっても、予測サンプル以外の予測エンティティも利用不可であり得る。例えば、スキップモードで符号化される予測ユニットは当該予測ユニットに関連する予測方向を有しない。
【0097】
予測サンプル又は予測エンティティが利用不可である場合に、少なくとも幾つかの場合において、当該予測サンプルの隣接サンプに応じて当該予測サンプル又は予測エンティティの値を予測することができる。予測サンプル/予測エンティティが予測される場合に、予測方法的正確性は、例えば次善であり得る。ただし、エンコーダが予測サンプル値と、予測サンプル値をどのように生成するかとの両方を含む状態情報に基づいて予測モードを選択する場合に(利用不可のために予測されたサンプルからの予測を含む)、少なくとも幾つかの場合に、エンコーダは、フレーム内予測に依存しないモードを使用できる。幾つかの例において、レート歪み最適化技術を使用して適切なモードを選択してもよい。
【0098】
予測されたサンプルと利用可能な隣接予測サンプルの両方は、例えば輝度サンプル、クロマサンプル、所定の色平面に属するサンプルなどであってもよい。例えば、ビデオデコーダを使用する一部のビデオ処理システムでは、ビデオは、YCrCb 4:2:0サンプリング構造でサンプリングされ、なお、クロマサンプルCrとCbは相応するクロマティシティ平面でサブサンプリングされて処理されるため、フレーム内予測はY、Cr及びCb色平面における各色平面で個別に発生する。幾つかの場合に、エンコーダにおいてY平面に基づいてフレーム内予測の制御を生成してもよく、Y平面に関連して符号化されたビデオビットストリームにおいて当該フレーム内予測の制御がシグナリングされ、そして、デコーダにおいてそれぞれ当該フレーム内予測の制御をY平面及びCr/Cb平面に適用する。別の例において、サンプルは、RGB色空間のピクチャの緑サンプルを使用して、相応するR色平面及びB色平面で赤いサンプルと青いサンプルを処理する。他のシナリオにおいて、エンコーダとデコーダとの両方は、他の色平面と独立した1つ又は複数の色平面に対してフレーム内予測を実行する。他の適切なサンプリング構成、色空間などがフレーム内予測に使用されてもよい。
【0099】
図9を参照して、一実施例において、再構築中のユニット(以下「ブロック」と呼ばれる)(901)は非正方形形状ではないが矩形形状を有し、再構築中のブロック(901)は非正方形ブロック(901)と呼ぶことができる。例において、ブロック(901)は、符号化されたピクチャにおけるサンプルS11-S14及びS21-S24を含む。例において、フレーム内予測に基づいてブロック(901)の同一の符号化ピクチャにおける予測サンプル、例えば予測サンプルR01-R09及びR10-R70を使用して、ブロック(901)におけるサンプルを予測してもよい。本開示で予測方向とも呼ばれるフレーム内予測方向に沿って、ブロック(901)におけるサンプルのフレーム内予測を実行してもよい。
【0100】
幾つかの実施例において、例えば、
図9に示すように、非正方形ブロック(901)の幅は左から右であり、非正方形ブロック(901)の高さは上から下である。同様に、第1方向(915)は左から右を指し、第2方向(925)は上から下を指す。第1方向(915)と第2方向(925)は4つの象限、即ち、左下象限I、左上象限II、右上象限III、及び右下象限IVを形成する。対角線方向(928)は右上から左下を指し、左下の象限Iと右上の象限IIIをそれぞれ等分する。
【0101】
通常、正方形ブロックに対して、ビデオ圧縮技術のフレーム内予測方向を最適化することができる。
図9を参照して、正方形ブロックの第2セットのフレーム内予測方向(920)は、フレーム内予測方向(902-912)を含む。正方形ブロックの第2セットのフレーム内予測方向(920)は第2角度範囲(924)をカバーする。幾つかの実施例において、第2角度範囲(924)は、第1方向(915)から時計回り(CW)135°に第1方向(915)から反時計回り(CCW)45°まで広がり、したがって180°の角度範囲をカバーする。
図9を参照し、第2角度範囲(924)と呼ばれる第1端の予測方向902は第1方向(915)から時計回りに135°である。予測方向902は対角線方向(928)に平行である。第2角度範囲(924)の第2端と呼ばれる予測方向912は第1方向(915)から反時計回りに45°である。様々な実施例において、第2セット(920)は、
図9に示されていない他の予測方向を含むことができる。通常、第2セットのフレーム内予測方向(920)は、例えば、第1端(902)と第2端(912)との間の任意の適切なフレーム内予測方向を含んでもよい。例えば、HEVCでは、65のフレーム内予測方向を使用する。
【0102】
正方形ブロックに役立つ可能性があるフレーム内予測方向は、例えば、ブロック(901)のような非正方形ブロックにあまり役立たない可能性があり、ブロック(901)のあるサンプルは、あるフレーム内予測方向に使用する予測サンプルとの空間関連性が低いためである。例えば、フレーム内予測方向(902)をフレーム内予測に使用する場合に、例えば、ブロック(901)におけるサンプルS11及びS21はブロック(901)の直接隣接である各参照サンプルR20とR30に応じて予測されてもよい。直接隣接ではなく相対的に(空間的に)ブロック(901)から遠い参照サンプルに応じてブロック(901)のあるサンプルを予測する。例えば、サンプルS24は、空間的から遠い参照サンプルR60に応じて予測される。様々な実施例において、フレーム内予測は、参照サンプルと予測しようとするサンプルとの間の密接な空間関係でうまく機能し、例えば、予測しようとするサンプルは空間的に参照サンプルに近い。したがって、様々な実施形態では、非正方形ブロック(901)について、レート歪み最適化エンコーダは、例えばフレーム内予測方向(902)のフレーム内予測方向を選択しない可能性がある。
【0103】
幾つかの実施例において、フレーム内予測方向は、フレーム内予測モード(予測モードとも呼ばれる)にマッピングされ、フレーム内予測モードはまた、コードワードにマッピングされてもよい。以上のように、統計的に、あるフレーム内予測方向は他のフレーム内予測方向よりも使用される可能性が高い。当該あるフレーム内予測方向は第1コードワードにマッピングされ、他のフレーム内予測方向は、第2コードワードにマッピングされてもよい。従って、第1コードワードは、第2コードワードよりも少ないビット数を使用することができ、したがって、第2コードワードよりも短い。幾つかの例において、第1コードワードにマッピングされるフレーム内予測方向/モードは「ショート」モードと呼ばれる。「ショート」モードは、レート歪み最適化エンコーダによって選択される可能性が高いモードであり得る。例えば、正方形ブロックについて、フレーム内予測方向(902)はショートモードに対応することができる。
【0104】
正方形ブロックに対して設計及び最適化されたフレーム内予測方向からフレーム内予測モードへの同じマッピングを使用する場合、例えば、フレーム内予測方向(902)の非正方形ブロック(901)に用いられるフレーム内予測方向にとって、正方形ブロックに用いられるフレーム内予測方向の価値のある「ショート」モードは無駄になる可能性がある。上述のように、フレーム内予測モードと可変長コードワードの間に直接マッピングがある場合、「ショート」モードは、短い可変長コードワードによって表すことができる。
【0105】
同じ又は別の実施例では、正方形ブロックに用いられる第2セットのフレーム内予測方向(920)の第2角度範囲(924)の端に、例えば第1端(902)に位置するあるフレーム内予測方向は、レート歪み最適化エンコーダによって非正方形ブロック(901)に対して選択される可能性が低く、非正方形ブロック(901)におけるあるサンプルと、前記端に位置するあるフレーム内予測方向に基づいて使用される対応する参照サンプルとの間に低い空間関連性を有するためである。従って、非正方形ブロック(901)の第1セットのフレーム内予測方向で前記あるフレーム内予測方向を使用しない。例えば、あるブロック形状、例えば非正方形ブロック(901)について(以下の説明も参照する)、第1端(902)と、第1端(902)から22.5°CWであるフレーム内予測方向(904)との間の予測方向は第2角度範囲(924)のサブ範囲(922)を形成でき、且つ、当該サブ範囲(922)は、非正方形ブロック(901)の第1セットのフレーム内予測方向で使用されないフレーム内予測方向を含む。サブ範囲(922)は削除のサブ範囲(922)とも呼ばれる。一例において、サブ範囲(922)はフレーム内予測方向(904)を含まず、第1端(902)及び第1端(902)とフレーム内予測方向(904)との間の第2セット(920)における任意のフレーム内予測方向、例えばフレーム内予測方向(903)を含む。
図9を参照し、非正方形ブロック(901)の第1セットのフレーム内予測方向は2つの端、即ちフレーム内予測方向(904と912)を有する第1角度範囲(926)をカバーする。
【0106】
同じ又は別の実施例では、非正方形ブロック(901)の第1セットのフレーム内予測方向で使用されないフレーム内予測方向を含むサブ範囲(922)は非正方形ブロック(901)のの空間特性に依存し得る。同じ又は別の実施例では、ブロック(901)の空間特性はブロック(901)の形状を含んでもよい。幾つかの例において、ブロック(901)の形状は、ブロック(901)のX次元及びY次元でのサイズの関係、ブロック(901)のX次元でのサイズ、即ち、X次元での第1サイズ、左から右への幅、及びブロック(901)のY次元でのサイズ、即ちY次元での第2サイズ、上から下への高さであってもよい。例として、同じ又は別の実施形態では、
図9に示すように、X次元での第1サイズとY次元での第2サイズとのアスペクト比が2:1であるブロック(901)について、サブ範囲(922)は左下の象限Iにおけるフレーム内予測方向(902)(第1方向(915)から135°CWであり)とフレーム内予測方向(904)(フレーム内予測方向(902)から22.5°CWである)との間にあってもよい。
【0107】
アスペクト比が1よりも大きいと、サブ範囲(922)は第2セット(920)の第1端(902)を含み、且つ左下の象限Iに位置してもよい。1よりも大きいアスペクト比が増加すると、サブ範囲(922)は大きくなり得るので、第2セット(920)のより多くのフレーム内予測方向を含む。
【0108】
一般的に、対角線方向(928)に沿った対称性に基づいてサブ範囲を決定し、当該サブ範囲は、非正方形ブロックの第1セットのフレーム内予測方向で使用されない正方形ブロックの第2セットにおけるフレーム内予測方向を含む。
【0109】
幾つかの実施例において、再構築中の非正方形ブロックのアスペクト比が1未満であると、第2セット(920)におけるサブ範囲は第2セット(920)の第2端(912)を含み、且つ、右上の象限IIIに位置する。第2セット(920)における当該サブ範囲は非正方形ブロックの第1セットのフレーム内予測方向に含まれないことに留意されたい。同じ又は別の実施例では、X次元での第1サイズとY次元での第2サイズとのアスペクト比が1:2である非正方形ブロックについて、サブ範囲は、右上の象限IIIにおける第2端(912)とフレーム内予測方向(911)との間にあってもよい。様々な実施例において、当該サブ範囲は第2端(912)を含む。第2端(912)は対角線方向928と反対であり、且つフレーム内予測方向(911)は第2端(912)から22.5°CCWである。1未満であるアスペクト比が減少すると、当該サブ範囲は大きくなり得るので、第2セット(920)におけるより多くのフレーム内予測方向を含んでもよい。
【0110】
図10を参照し、1×4サンプルの非正方形ブロック又はブロック(1001)を示し、当該1×4サンプルは、1:4のアスペクト比を有するブロックサイズを示す。同様に、正方形ブロックの第2セットのフレーム内予測方向(920)は、フレーム内予測方向(902-912)を含み、
図10の右下に示すようである。各例において、正方形ブロックの第2セットのフレーム内予測方向(920)及び第2角度範囲(924)は
図9に示した第2セットのフレーム内予測方向及び第2角度範囲と同じであるので、明確にするために詳細な説明は省略される。四つの象限I-IVも
図9の四つの象限と同じであるので、明確にするために詳細な説明は省略される。
【0111】
様々な実施例において、第1セットのフレーム内予測方向は非正方形ブロック(1001)に用いられてもよく、当該第1セットは第2角度範囲(924)のサブ範囲(1022)におけるフレーム内予測方向を含まない。
図10に示すように、サブ範囲(1022)は第2端(912)とフレーム内予測方向(910)との間にあってもよい。第2端(912)は対角線方向928と逆である、又は、第1方向(915)から45°CCWであり、フレーム内予測方向(910)は第2方向(925)と反対のフレーム内予測方向(909)から11.25°CWである。様々な例において、サブ範囲(1022)は第2端(912)を含み、且つフレーム内予測方向(910)を含まない。
図10を参照し、前記第1セットは第1角度範囲(1026)をカバーする。例において、第1角度範囲(1026)は第2セット(920)の第1端(902)、フレーム内予測方向(910)、及び第1端(902)とフレーム内予測方向(910)との間の前記第2セット(920)の他のフレーム内予測方向を含む。
【0112】
他のブロック形状及び/又は他のアスペクト比の非正方形ブロックに用いられる他の適切なサブ範囲は、前記非正方形ブロックの第1セットに使用されない正方形ブロックの第2セット(920)における1つ又は複数のフレーム内予測方向を含んでもよい。
【0113】
同じ又は別の実施例では、削除のサブ範囲の一部であるフレーム内予測方向に対応する正方形ブロックのフレーム内予測モードは非正方形ブロックに使用されない。例として、
図9において、サブ範囲(922)の一部であるフレーム内予測方向(903)に関連するフレーム内予測モードは非正方形ブロック(901)に使用されない。幾つかの実施例において、モードのテーブルは、フレーム内予測方向と、ブロックの対応するフレーム内予測モードとを関連付ける。それに応じて非正方形ブロック(901)のモードのテーブルを短くすることができ、フレーム内予測モードに用いられる数が少なくなるため、最適化されたエントロピー符号化とより良い符号化効率を可能にする。同じ又は別の実施例では、モードのテーブルに依然として表されているフレーム内予測方向の可能性に従ってモードのテーブルを新たにソートすることができる。
【0114】
同じ又は別の実施例では、削除のサブ範囲におけるフレーム内予測方向が非正方形ブロックに用いられないと、関連するフレーム内予測モードを新たに割り当て他の目的に使用してもよく、例えば以前に未使用の方向、予測方向に直接関連しないモード、参照サンプル又はフレーム内予測のサンプルに関連するフィルタのフィルタ制御などをシグナリングすることを含む。
【0115】
同じ又は別の実施例では、追加のフレーム内予測方向と呼ばれるあるフレーム内予測方向を非正方形ブロックに用いられる第1セットのフレーム内予測方向に追加する。追加のフレーム内予測方向の数は上記の削除のサブ範囲におけるフレーム内予測方向(削除のフレーム内予測方向と呼ばれる)の数と同じであり得る。追加のフレーム内予測方向は追加のサブ範囲と呼ばれるサブ範囲を含んでもよい。追加のサブ範囲は非正方形ブロックの第1セットのフレーム内予測方向によってカバーされる第1角度範囲に含まれる。以下のように、追加のサブ範囲は、削除のサブ範囲と同じ幾何学構造を有してもよい。
【0116】
図11は、再構築中の4×2ブロックの非正方形ブロック(1101)を示し、
図9に示された非正方形ブロック(901)のアスペクト比と同じアスペクト比を有する。また、正方形ブロックの第2セットのフレーム内予測方向(920)を示す。各例において、正方形ブロックの第2セットのフレーム内予測方向(920)及び第2角度範囲(924)は
図9に示された第2セットのフレーム内予測方向及び第2角度範囲と同じであるので、明確にするために詳細な説明は省略される。正方形ブロックのフレーム内予測方向902-912を示したが、明確にするために、
図11にフレーム内予測方向902-904、911-912のみが示されている。四つの象限I-IVは
図9における四つの象限と同じであるため、明確にするために詳細な説明は省略される。
【0117】
同様に、削除のサブ範囲又はサブ範囲(922)におけるフレーム内予測方向は非正方形ブロック(1101)の第1セットのフレーム内予測方向に含まれない。サブ範囲(922)は
図9に示されたサブ範囲と同じであり、従って、明確にするために詳細な説明は省略される。破線を使用してサブ範囲(922)における2つのフレーム内予測方向(902、903)を描く。この例において、再び、正方形ブロックのフレーム内予測方向(902、903)を表すフレーム内予測モードを使用して、追加のサブ範囲(1108)における2つの追加のフレーム内予測方向(1106、1107)を表すことができる。したがって、非正方形ブロック(1101)の第1セットのフレーム内予測方向は、第1端(904)と第2端(1107)を有する第1角度範囲(1126)をカバーする。第1端又はフレーム内予測方向(904)は対角線方向(928)から22.5°CWであり、第2端(1107)は対角線方向(928)と反対のフレーム内予測方向(912)から22.5°CWである。第1角度範囲(1126)は追加のサブ範囲(1108)を含み、且つ削除のサブ範囲(922)を含まない。例えば、
図11に示す幾つかの例において、削除のサブ範囲(922)はフレーム内予測方向(902)とフレーム内予測方向(904)との間のフレーム内予測方向を含む。また、削除のサブ範囲(922)は、フレーム内予測方向(902)を含み、且つフレーム内予測方向(904)を含まない。一方、追加のサブ範囲(1108)は第2セット(920)の第2端(912)と追加のフレーム内予測方向(1107)との間のフレーム内予測方向を含む。また、追加のサブ範囲(1108)は追加のフレーム内予測方向(1107)を含み、且つ第2端(912)を含まない。
【0118】
例えば、
図11に示される幾つかの例では、削除のサブ範囲(922)及び追加のサブ範囲(1108)は、対角線方向(928)に対して対称である。上記のように、削除のサブ範囲(922)は対角線方向(928)から22.5°CWの角度範囲をカバーし、追加のサブ範囲(1108)は対角線方向(928)の反対方向から22.5°CWの角度範囲をカバーする。
【0119】
追加のフレーム内予測方向は、
図11に示す非正方形ブロック(1101)に適用されると有益である。例えば、追加のフレーム内予測方向(1107)を考慮する。フレーム内予測方向(1107)を使用して、参照サンプルR03に応じて非正方形ブロック(1101)におけるサンプルS11を予測し、非正方形ブロック(1101)の直接隣接R05と隣接する参照サンプルR06に応じてサンプルS14を予測してもよい。従って、追加のフレーム内予測方向(1107)でブロック(1101)に含まれるサンプルを予測し、削除のサブ範囲(922)におけるフレーム内予測方向を使用する場合と比べて、ブロック(1101)におけるサンプルを予測するための参照サンプルは、ブロック(1101)におけるサンプルに比較的近い。
【0120】
正方形ブロックのフレーム内予測モードの数と比較して、非正方形ブロック(1101)のフレーム内予測モードの数を増加することなく増加のサブ範囲取得の利点を得る。幾つかの実施例において、削除のサブ範囲(922)におけるフレーム内予測方向の数は、追加のサブ範囲(1108)におけるフレーム内予測方向の数と同じであるので、非正方形ブロック(1101)の第1セットにおけるフレーム内予測方向の数は正方形ブロックの第2セット(920)におけるフレーム内予測方向の数と同じである。幾つかの例において、以上のように、正方形ブロックの削除のサブ範囲(922)におけるフレーム内予測方向に割り当てられるフレーム内予測モードは、非正方形ブロックの追加のサブ範囲(1108)におけるフレーム内予測方向に新たに割り当てられるので、非正方形ブロック(1101)の第1セットに用いられるフレーム内予測モードの数は、正方形ブロックの第2セット(920)に用いられるフレーム内予測モードの数に等しい。
【0121】
幾つかの例において、追加のサブ範囲におけるフレーム内予測方向の数は削除のサブ範囲におけるフレーム内予測方向の数よりも小さい場合に、非正方形ブロック(1101)の第1セットにおけるフレーム内予測方向の数は正方形ブロックの第2セット(920)におけるフレーム内予測方向の数よりも小さくてもよい。例えば、
図9に示す幾つかの他の例において、第1セットが追加のサブ範囲を含まないと、第1セットにおけるフレーム内予測方向の数は、第2セットにおけるフレーム内予測方向の数よりも小さくてもよい。従って、非正方形ブロック(1101)のフレーム内予測モードの数は正方形ブロックのフレーム内予測モードの数よりも小さい。
【0122】
幾つかの例において、フレーム内予測方向(1106)又は(1107)を使用して非正方形ブロック(1101)の2行目におけるサンプル(S21-S24)を予測するために、好ましくは補間/フィルタリング技術を利用して1つよりも多い参照サンプルに応じてサンプル(S21-S24)を予測するか、又はエイリアシングアーティファクトを回避することができる。このような補間/フィルタリング技術には、あるフレーム内予測方向に対して指定する技術を含み、前記あるフレーム内予測方向は、例えば、対角線方向(928)から45°の倍数の方向ではなく、例えば、H.265で指定される。例えば、追加のフレーム内予測方向(1106と1107)は、対角線方向(928)の反対方向から11.25°CWと22.5°CWであるため、対角線方向(928)から45°の倍数ではない。一方、フレーム内予測方向907は、対角線方向(928)から90°CWであるため、対角線方向(928)から45°の倍数(2倍)となる。
【0123】
以上で削除のフレーム内予測方向を削除するコンテキストで説明した対称性の考慮は、追加のフレーム内予測方向を追加する場合にも同様に適用できる。同様に、削除のサブ範囲のサイズがブロックサイズに依存することと類似するように、追加のサブ範囲のサイズは、ブロック(1101)のブロック形状に依存できる。以上で
図9を参照して説明したように、1よりも大きい非正方形ブロック(901)のアスペクト比が増加すると、サブ範囲(922)が大きくなり、したがって、第2セット(920)はより多くのフレーム内予測方向を含む。
【0124】
図12は、本開示の実施例による処理(1200)を概説するフローチャートである。処理(1200)は、フレーム内予測に使用されて、再構築中の非正方形ブロックの予測ブロックを生成する。様々な実施例において、処理(1200)は、例えば、端末装置(310、320、330及び340)における処理回路、ビデオエンコーダ(403)の機能を実行する処理回路、ビデオデコーダ(410)の機能を実行する処理回路、ビデオデコーダ(510)の機能を実行する処理回路、フレーム内予測モジュール(552)の機能を実行する処理回路、ビデオエンコーダ(603)の機能を実行する処理回路、予測器(635)の機能を実行する処理回路、デコーダ(633)の機能を実行する処理回路、フレーム内エンコーダ(722)の機能を実行する処理回路、フレーム内デコーダ(872)の機能を実行する処理回路などによって実行される。処理は(S1201)から開始し、(S1210)に進む。
【0125】
(S1210)において、再構築中の非正方形ブロックのブロックサイズを取得する。例えば、符号化されたビデオビットストリームからの少なくとも1つの文法要素を復号化する。当該少なくとも1つの文法要素は、非正方形ブロックのブロックサイズを指示する。ブロックサイズは、第1次元での第1サイズ、例えば非正方形ブロックの幅、及び第2次元での第2サイズ、例えば非正方形ブロックの高さを含み、そして、第1サイズは第2サイズと異なる。幾つかの例において、例えば、再構築中のピクチャ内の非正方形ブロックの位置の付加的な情報を取得する。
【0126】
(S1220)において、処理回路は、非正方形ブロックのフレーム内予測モードを決定する。様々な実施例において、フレーム内予測モードは非正方形ブロックの第1セットのフレーム内予測方向におけるフレーム内予測方向に対応する。以上のように、
図9ないし
図11を参照して説明したように、第1セットのフレーム内予測方向は、正方形ブロックの第2セットのフレーム内予測方向における1つ又は複数のフレーム内予測方向を含まない。
【0127】
(S1230)において、処理回路は、フレーム内予測モードに基づいて前記非正方形ブロックにおけるサンプルの参照サンプルを選択する。
図11を参照し、幾つかの例において、非正方形ブロックはブロック(901)であり、且つ、フレーム内予測モードはフレーム内予測方向(912)を示す。例えば、フレーム内予測方向(912)を使用してサンプルS21を予測するために、処理回路は参照サンプルがR03であると決定する。
【0128】
(S1240)において、上記のように、処理回路は、当該参照サンプルの利用可否を決定する。参照サンプルが利用可能である場合に、処理(1200)は(S1260)に進む。参照サンプルが利用不可である場合に、処理(1200)は(S1250)に進む。
【0129】
(S1250)において、以上のように、処理回路は、例えば、参照サンプルの隣接サンプルを使用して参照サンプルの値を決定する。例えば、参照サンプルR03が利用不可である場合に、例えば、R02などの他のサンプルを使用して参照サンプルR03の値を決定してもよい。次に、処理(1200)は(S1260)に進む。
【0130】
(S1260)において、処理回路は、参照サンプルに基づいて非正方形ブロックにおけるサンプルを予測する。幾つかの実施例において、参照サンプルR03の値に基づいてサンプルS21の値を取得する。例えば、サンプルS21の値は参照サンプルR03の値に等しい。幾つかの例において、フレーム内予測モードが例えばフレーム内予測方向(911)を示す場合、補間、フィルタリングなどを使用して1つよりも多い参照サンプルに基づいてサンプルS21の値を決定してもよい。次に、処理は(S1299)に進み、終了する。
【0131】
処理(1200)は適切に調整されてもよい。例えば、(S1230)で、フレーム内予測モードが例えばフレーム内予測方向(910)を示す場合に、処理回路は、フレーム内予測モードに基づいて非正方形ブロック内のサンプルの1つよりも多い参照サンプルを選択してもよい。
【0132】
前記技術はコンピュータ読み取り可能な命令によってコンピュータソフトウェアとして実現され、物理的に1つ又は複数のコンピュータ読み取り可能な媒体に記憶されてもよい。例えば、
図13は開示のテーマのいくつかの実施例を実現するためのコンピュータシステム(1300)を示す。
【0133】
コンピュータソフトウェアは任意の適切なマシンコードまたはコンピュータ言語によって符号化を行って、マシンコードまたはコンピュータ言語は編集、コンパイル、リンクなどのメカニズムを介して命令が含まれるコードを構築し、該命令は1つ又は複数のコンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)などによって直接的に実行されるか、または解釈、マイクロコード実行などによって実行される。
【0134】
当該命令は各種タイプのコンピュータ又はその部材で実行でき、例えばパーソナルコンピュータ、タブレット、サーバ、スマートフォン、ゲーム機器、モノのインターネット機器などを含む。
【0135】
図13に示すコンピュータシステム(1300)の部材は、本開示内容を実現するための実施例のコンピュータソフトウェアの使用範囲または機能に対して限定せず、本質に例示的である。部材の配置も、コンピュータシステム(1300)の例示性の実施例で示した部材におけるいずれかの部材、またはその組み合わせに関する依存性または要求を有するように解釈されるべきではない。
【0136】
コンピュータシステム(1300)はいくつかのヒューマンマシンインターフェイス入力機器を含んでもよい。このようなヒューマンマシンインターフェイス入力機器は、1つ又はの人類ユーザーの、例えば触覚入力(例えば:キーストローク、スライド、データグローブ移動)、オーディオ入力(例えば:音声、たたき)、視覚入力(例えば:姿勢)、嗅覚入力(図示せず)による入力に応答できる。マンマシンインタフェース機器はさらに、必ずしも人類の意識的な入力に直接的に関していない、ある媒体例えば、オーディオ(例えば:音声、音楽、環境音)、画像(例えば:スキャン画像、静態画像撮影装置から取得された写真画像)、ビデオ(例えば2次元ビデオ、立体ビデオが含まれる3次元ビデオ)をキャプチャできる。
【0137】
入力マンマシンインタフェース機器は、キーボード(1301)、マウス(1302)、タッチパッド(1303)、タッチパネル(1310)、データグローブ(図示せず)、ジョイスティック(1305)、マイク(1306)、スキャナ(1307)、撮影装置(1308)のうちの1つ又は複数を有してもよい(記載の各々のうちの1つのみ)。
【0138】
コンピュータシステム(1300)はさらにマンマシンインタフェース出力機器を有してもよい。このようなマンマシンインタフェース出力機器は、例えば触覚出力、音、光及び匂い/味を介して1つ又は複数の人類ユーザーの感覚を刺激できる。このようなマンマシンインタフェース出力機器は触覚出力機器(例えば、タッチパネル(1310)、データグローブ(図示せず)またはジョイスティック(1305)による触覚フィードバック、但し入力機器として用いられない触覚フィードバック機器も存在する)、オーディオ出力機器(例えば、スピーカー(1309)、ヘッドフォン(図示せず))、視覚出力機器(例えば、スクリーン(1310)、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含み、各スクリーンはタッチパネル入力能力、触覚フィードバック能力を有してもよく、有してなくてもよく、そのうちのいくつかは、立体画像出力のような手段で、2次元の視覚を出力または3次元以上の出力を行い、バーチャルリアリティ眼鏡(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず)がある)、プリンター(図示せず)を含む。
【0139】
コンピュータシステム(1300)はさらに人類がアクセスし得る記憶機器及びその関連する媒体を有してもよく、例えば、CD/DVDなどの媒体(1321)を有するCD/DVD ROM/RW(1320)を含む光学媒体、サムドライブ(1322)、取り外し可能なハードドライブまたはソリッドステートドライブ(1323)、磁気テープとフロッピーディスク(図示せず)のような伝統の磁気媒体、専用ROM/ASIC/PLDに基づく機器、例えばドングル(図示せず)などを含む。
【0140】
当業者は、現在開示のテーマを結合して、使用される用語「コンピュータ読み取り可能な媒体」には伝送媒体、搬送波または他の瞬間信号が含まれないことを理解できる。
【0141】
コンピュータシステム(1300)は、さらに1つ又は複数の通信ネットワークのインタフェースを有してもよい。ネットワークは、例えば無線、有線、光学であってもよい。ネットワークはさらに、ロカール、広域、都市用、車両用、工業用、リアルタイム、遅延耐性ネットワークなどであってもよい。ネットワークの例示はイーサネットのようなローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTEなどが含まれたセルラーネットワーク、有線テレビ、衛星テレビ及び地上波テレビが含まれるテレビ有線または無線広域デジタルネットワーク、CANBusが含まれる車両及び工業ネットワークなどを含む。あるネットワークは一般的に、ある汎用データポートまたは周辺バス(1349)(例えば、コンピュータシステム(1300)のUSBポート)に連結される外部ネットワークインタフェースアダプタを必要とし、他のネットワークは一般的に、以下に記載のシステムバス(例えば、PCコンピュータシステムへのイーサネットインタフェース、またはスマートフォンコンピュータシステムへのセルラーネットワークインタフェース)に連結されることで、コンピュータシステム(1300)のコアに集積される。これらのネットワークのうちのいずれかのネットワークを介して、コンピュータシステム(1300)は他のエンティティと通信できる。このような通信は一方向で受信だけ(例えば、放送テレビ)、一方向で送信だけ(例えば、あるCANbus機器へのCANbus)、または双方向である(例えば、ローカルエリアまたは広域デジタルネットワークを介して他のコンピュータシステムへ)。以上に記載のこれらのネットワーク及びネットワークインタフェースのうちの各ネットワーク及びネットワークインタフェースに、特定のプロトコル及びプロトコルスタックを利用できる。
【0142】
前記マンマシンインタフェース機器、人類がアクセスし得る記憶機器及びネットワークインタフェースは、コンピュータシステム(1300)のコア(1340)に連結できる。
【0143】
コア(1340)は1つ又は複数の中央処理ユニット(CPU)(1341)、グラフィック処理ユニット(GPU)(1342)、フィールドプログラム可能なゲートアレイ(FPGA)(1343)という形式の専門プログラム可能な処理ユニット、あるタスクのためのハードウェアアクセラレータ(1344)などを含む。これらの機器は、読み取り専用メモリ(ROM)(1345)、ランダムアクセスメモリ(1346)、内部のユーザーがアクセスできないハードディスクドライブ、SSDなどのような内部大容量記憶装置(1347)とともに、システムバス(1348)を介して接続される。あるコンピュータシステムにおいて、1つ又は複数の物理プラグという形式で、システムバス(1348)にアクセスすることで、別のCPU、GPUなどによって拡張できる。周囲機器は直接的または周辺バス(1349)を介してコアのシステムバス(1348)に連結される。周辺バスのアーキテクチャはPCI、USBなどを含む。
【0144】
CPU(1341)、GPU(1342)、FPGA(1343)及びアクセラレータ(1344)はいくつかの命令を実行でき、これらの命令を組み合わせて、以上に言及されたコンピュータコードを構成する。該コンピュータコードはROM(1345)またはRAM(1346)に記憶される。移行データはRAM(1346)に記憶され、永久データは、例えば内部大容量記憶装置(1347)に記憶されてもよい。キャッシュメモリによってメモリ機器のうちのいずれかのメモリ機器の快速記憶及び検索を実現でき、該キャッシュメモリは1つ又は複数のCPU(1341)、GPU(1342)、大容量記憶装置(1347)、ROM(1345)、RAM(1346)などに密接に関連できる。
【0145】
コンピュータ読み取り可能な媒体は、コンピュータが実現する各種操作を実行するためのコンピュータコードを有する。媒体とコンピュータコードとは、本開示内容の目的のために、専門に設計され及び構築された媒体とコンピュータコードであってもよいし、またはコンピュータソフトウェアの当業者にとって、公知且つ利用可能なタイプであってもよい。
【0146】
限定ではなく例示として、アーキテクチャ(1300)を有するコンピュータシステム、特にコア(1340)は、(1つ又は複数)プロセッサ(CPU、GPU、FPGA、アクセラレータなどを含む)が1つ又は複数の有形コンピュータ読み取り可能な媒体に体現されるソフトウェアを実行することで、機能を提供できる。このようなコンピュータ読み取り可能な媒体は、以上に紹介された、ユーザがアクセスし得る大容量記憶装置に関する媒体、及び非一時的なコア(1340)を有する、コア内部大容量記憶装置(1347)またはROM(1345)のような記憶装置であってもよい。本開示内容を実現するための各種実施例のソフトウェアはこのような機器に記憶され、コア(1340)に実行される。特定の需要に応じて、コンピュータ読み取り可能な媒体には1つ又は複数の記憶機器またはチップが含まれてもよい。ソフトウェアはコア(1340)、特にそのうちのプロセッサ(CPU、GPU、FPGAなどが含まれた)に、本明細書に記載の特定プロセスまたは特定プロセスの特定部分を実行させ、RAM(1346)に記憶されるデータ構成を限定すること、及びソフトウェアにより限定されたプロセスに基づき、このようなデータ構成を修正することが含まれる。また或いは代わりとして、コンピュータシステムは、論理的な固定接続または他の方式で回路(例えば、アクセラレータ(1344))に体現されることで機能を提供し、該回路は、ソフトウェアの代わりとして、またはソフトウェアとともに操作することで、本明細書に記載の特定プロセスまたは特定プロセスの特定部分を実行できる。適切な場合、言及のソフトウェアにはロジックが含まれ、逆に、言及ロジックにはソフトウェアが含まれてもよい。適切な場合、言及のコンピュータ読み取り可能な媒体には、実行するためのソフトウェアが記憶される回路(例えば、集積回路(IC))、実行するためのロジックを体現する回路、或いは前記両者が含まれてもよい。本開示内容にはハードウェアとソフトウェアとの任意の適切な組み合わせが含まれる。
付録A:頭字語
MV:動きベクトル
HEVC:高効率ビデオ符号化
SEI:補足増強情報
VUI:ビデオ有用性情報
GOP:ピクチャグループ
TU:変換ユニット
PU:予測ユニット
CTU:符号化ツリーユニット
CTB:符号化ツリーブロック
PB:予測ブロック
HRD:仮定的参照デコーダ
SNR:信号対雑音比
CPU:中央処理ユニット
GPU:グラフィックス処理ユニット
CRT:陰極線管
LCD:液晶ディスプレイ
OLED:有機発光ダイオード
CD:コンパクトディスク
DVD:デジタルビデオディスク
ROM:読み取り専用メモリ
RAM:ランダムアクセスメモリ
ASIC:特定用途向け集積回路
PLD:プログラマブルロジックデバイス
LAN:ローカルエリアネットワーク
GSM:モバイル通信のグローバルシステム
LTE:長期的な進化
CANBus:コントローラエリアネットワークバス
USB:ユニバーサルシリアルバス
PCI:周辺コンポーネント相互接続
FPGA:フィールドプログラマブルゲートエリア
SSD:ソリッドステートドライブ
IC:集積回路
CU:符号化ユニット
JEM:共同探査モデル
VVC:汎用ビデオ符号化
BMS:ベンチマークセット
CU:符号化ユニット
【0147】
本開示内容には若干の例示性の実施例が記載されているが、本開示内容の範囲内にある変更、置き換え及びいろんな置換等価物が存在する。従って、本明細書には明らかに記載されていないが、本開示内容の原理を体現し本開示内容の精神及び範囲内に属する多いシステム及び方法は、当業者にとって想到し得る。
【外国語明細書】