(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-15
(54)【発明の名称】ビデオ復号の方法、機器、及びコンピュータプログラム
(51)【国際特許分類】
H04N 19/593 20140101AFI20231208BHJP
H04N 19/11 20140101ALI20231208BHJP
H04N 19/176 20140101ALI20231208BHJP
H04N 19/157 20140101ALI20231208BHJP
【FI】
H04N19/593
H04N19/11
H04N19/176
H04N19/157
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023534148
(86)(22)【出願日】2022-09-07
(85)【翻訳文提出日】2023-06-05
(86)【国際出願番号】 US2022076050
(87)【国際公開番号】W WO2023044254
(87)【国際公開日】2023-03-23
(32)【優先日】2021-09-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-09-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】リー,リン
(72)【発明者】
【氏名】リー,シャン
(72)【発明者】
【氏名】チェン,リエン-フェイ
(72)【発明者】
【氏名】リウ,シャン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159LC09
5C159MA04
5C159MA05
5C159MC11
5C159ME01
5C159PP04
5C159TA32
5C159TB08
5C159TC24
5C159TC42
5C159UA02
5C159UA05
(57)【要約】
方法では、ビデオのピクチャの中のコーディングユニット(CU)のコーディング情報が、コーディングビデオビットストリームから受信される。CUは、幾何学パーティションモード(GPM)に基づき第1パーティション及び第2パーティションにパーティションされる。第1パーティション及び第2パーティションは、直線パーティションラインにより分割された互いに隣接する長方形パーティションである。CUの第1パーティションの第1イントラ予測モード及びCUの第2パーティションの第2イントラ予測モードが決定される。第1イントラ予測モードは第2イントラ予測モードと異なる。CUの第1パーティションは、第1イントラ予測モードに基づき再構成され、CUの第2パーティションは、第2イントラ予測モードに基づき再構成される。
【特許請求の範囲】
【請求項1】
ビデオデコーダにおいて実行されるビデオ復号の方法であって、前記方法は、前記ビデオデコーダが、
コーディングビデオビットストリームからビデオのピクチャの中のコーディングユニット(CU)のコーディング情報を受信するステップと、
幾何学パーティションモード(GPM)に基づき、前記CUを第1パーティション及び第2パーティションにパーティションするステップであって、前記第1パーティション及び前記第2パーティションは、直線パーティションラインにより分割された互いに隣接する長方形パーティションである、ステップと、
前記CUの前記第1パーティションの第1イントラ予測モード、及び前記CUの前記第2パーティションの第2イントラ予測モードを決定するステップであって、前記第1イントラ予測モードは前記第2イントラ予測モードと異なる、ステップと、
前記第1イントラ予測モードに基づき前記CUの前記第1パーティションを、及び前記第2イントラ予測モードに基づき前記CUの前記第2パーティションを再構成するステップと、
を含む方法。
【請求項2】
決定するステップは、
前記コーディング情報に含まれるシンタックス要素に基づき、複数の候補イントラモードから、前記CUの前記第1パーティションの前記第1イントラ予測モードを決定するステップと、
前記CUの前記第2パーティションの前記第2イントラ予測モードが平面イントラモードであると決定するステップと、
を更に含む、請求項1に記載の方法。
【請求項3】
決定するステップは、
前記CUの前記第1パーティションの近隣サンプルに基づき、前記CUの前記第1パーティションの前記第1イントラ予測モードを導出するステップと、
前記CUの前記第2パーティションの前記第2イントラ予測モードが平面イントラモードであると決定するステップと、
を更に含む、請求項1に記載の方法。
【請求項4】
決定するステップは、
前記CUの前記第1パーティションの近隣サンプルに基づき、前記CUの前記第1パーティションの前記第1イントラ予測モードを導出するステップと、
前記CUの前記第2パーティションの近隣サンプルに基づき、前記CUの前記第2パーティションの前記第2イントラ予測モードを導出するステップと、
を更に含む、請求項1に記載の方法。
【請求項5】
決定するステップは、
前記コーディング情報に含まれるシンタックス要素に基づき、複数の候補イントラモードから、前記CUの前記第1パーティションの前記第1イントラ予測モードを決定するステップと、
前記CUの前記第2パーティションの前記第2イントラ予測モードが、前記第1イントラ予測モードに隣接するイントラモードであると決定するステップであって、前記第1イントラ予測モードに隣接するイントラモードは、調整済み第1イントラ予測モードを正の整数により除算した剰余に等しく、前記調整済み第1イントラ予測モードは、前記第1イントラ予測モードとオフセットの和に等しく、前記正の整数は前記CUの利用可能なイントラ予測モードの数を示す、ステップと、
を更に含む、請求項1に記載の方法。
【請求項6】
前記CUのルマサンプルの数は64以上である、請求項1に記載の方法。
【請求項7】
前記CUの前記第1パーティションが前記CUの前記第2パーティションより広い領域を有することに基づき、前記CUの前記第1パーティションの前記第1イントラ予測モードを格納するステップ、
を更に含む請求項1に記載の方法。
【請求項8】
前記CUの前記第1パーティションが前記CUの上側及び左側のうちの一方のより大きな部分を有することに基づき、前記CUの前記第1パーティションの前記第1イントラ予測モードを格納するステップ、
を更に含む請求項1に記載の方法。
【請求項9】
前記第1イントラ予測モードが方向性イントラ予測モードであること、及び前記第2イントラ予測モードが非方向性イントラ予測モードであることに基づき、前記CUの前記第1パーティションの前記第1イントラ予測モードを格納するステップ、
を更に含む請求項1に記載の方法。
【請求項10】
前記第1イントラ予測モード及び前記第2イントラ予測モードが方向性イントラ予測モードであることに基づき、前記GPMの第1パーティションインデックスに関連付けられた前記CUの前記第1パーティションの前記第1イントラ予測モードを格納するステップ、
を更に含む請求項1に記載の方法。
【請求項11】
前記第1イントラ予測モード及び前記第2イントラ予測モードが方向性イントラ予測モードであることに基づき、前記CUの前記第2パーティションの前記第2イントラ予測モードを格納するステップであって、前記CUの前記第1パーティションは前記GPMの第1パーティションインデックスに関連付けられ、前記CUの前記第2パーティションは前記GPMの第2パーティションインデックスに関連付けられる、ステップ、
を更に含む請求項1に記載の方法。
【請求項12】
機器であって、請求項1~11のいずれか一項に記載の方法を実行するよう構成される処理回路を含む、機器。
【請求項13】
機器のプロセッサに請求項1~11のいずれか一項に記載の方法を実行させるコンピュータプログラム。
【請求項14】
ビデオエンコーダにおいて実行されるビデオ復号の方法であって、前記方法は、前記ビデオエンコーダが、
ビデオのピクチャの中のコーディングユニット(CU)のコーディング情報を受信するステップと、
幾何学パーティションモード(GPM)に基づき、前記CUを第1パーティション及び第2パーティションにパーティションするステップであって、前記第1パーティション及び前記第2パーティションは、直線パーティションラインにより分割された互いに隣接する長方形パーティションである、ステップと、
前記CUの前記第1パーティションの第1イントラ予測モード、及び前記CUの前記第2パーティションの第2イントラ予測モードを決定するステップであって、前記第1イントラ予測モードは前記第2イントラ予測モードと異なる、ステップと、
前記第1イントラ予測モードに基づき前記CUの前記第1パーティションを、及び前記第2イントラ予測モードに基づき前記CUの前記第2パーティションを再構成するステップと、
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本願は、米国仮特許出願番号第63/261,248号、「Geometric Partition Based Intra Prediction」、2021年9月15日出願、の優先権の利益を主張する米国特許出願番号第17/903,719号、「GEOMETRIC PARTITION BASED INTRA PREDICTION」、2022年9月6日出願の優先権の利益を主張する。前述の出願の開示は、それらの全体が参照によりここに組み込まれる。
【0002】
[技術分野]
本開示は、概して、ビデオコーディングに関連する実施形態を記載する。
【背景技術】
【0003】
ここに提供される背景の説明は、本開示のコンテキストの概要を提示するためである。現在名前の挙げられた発明者の研究は、この背景の章に記載された研究の範囲で、出願時に従来技術として見なされない可能性のある記載の態様と同様に、本開示に対する従来技術として明示的に又は暗示的にも認められるものではない。
【0004】
ビデオコーディング及び復号は、動き補償を伴うインターピクチャ予測を用いて実行できる。非圧縮デジタルビデオは、一連のピクチャを含むことができ、各ピクチャは、例えば1920×1080個のルミナンスサンプル及び関連するクロミナンスサンプルの空間次元を有する。一連のピクチャは、例えば毎秒60ピクチャ又は60Hzの固定又は可変ピクチャレート(略式にフレームレートとしても知られている)を有することができる。非圧縮ビデオは、特定のビットレート要件を有する。例えば、8ビット/サンプルの1080p60 4:2:0ビデオ(60Hzフレームレートで1920×1080ルミナンスサンプル解像度)は、1.5Gbit/sに近い帯域幅を必要とする。1時間のこのようなビデオは600GByteより多くの記憶空間を必要とする。
【0005】
ビデオコーディング及び復号の1つの目的は、圧縮を通じて、入力ビデオ信号の中の冗長性を削減することであり得る。圧縮は、幾つかの場合には大きさで2桁以上も、前述の帯域幅及び/又は記憶空間要件を軽減するのを助けることができる。無損失圧縮又は損失圧縮の両方、及びそれらの組み合わせが利用できる。無損失圧縮は、元の信号の正確なコピーが圧縮された元の信号から再構成可能である技術を表す。損失圧縮を用いると、再構成された信号は、元の信号と同一ではないが、元の信号と再構成された信号との間の歪みは、意図される用途のために有用な再構成された信号を生成するのに十分に小さい。ビデオの場合には、損失圧縮が広く利用される。耐えうる歪みの量は、アプリケーションに依存し、特定の消費者ストリーミングアプリケーションのユーザは、テレビジョン配信アプリケーションのユーザよりも高い歪みに耐え得る。達成可能な圧縮比は、許容可能/耐性歪みが高いほど、高い圧縮比を生じ得ることを反映できる。
【0006】
ビデオエンコーダ及びデコーダは、例えば動き補償、変換、量子化、及びエントロピーコーディングを含む幾つかの広い分類からの技術を利用できる。
【0007】
ビデオコーデック技術は、イントラコーディングとして知られる技術を含むことができる。イントラコーディングでは、サンプル値は、前に再構成された参照ピクチャからのサンプル又は他のデータを参照することなく、表現される。幾つかのビデオコーデックでは、ピクチャは、サンプルのブロックに空間的に細分化される。サンプルの全部のブロックがイントラモードでコーディングされるとき、そのピクチャはイントラピクチャであり得る。イントラピクチャ、及び独立したデコーダリフレッシュピクチャのようなそれらの派生物は、デコーダ状態をリセットするために使用でき、従って、コーディングビデオビットストリーム及びビデオセッションの中の第1ピクチャとして、又は静止画像として使用できる。イントラブロックのサンプルは変換されることができ、変換係数は、エントロピーコーディングの前に量子化できる。イントラ予測は、変換前のドメインにおけるサンプル値を最小化する技術であり得る。幾つかの場合には、変換後のDC値が小さいほど、及びAC係数が小さいほど、エントロピーコーディングの後にブロックを表現するために所与の量子化ステップサイズで必要なビット数が少ない。
【0008】
例えばMPEG-2生成コーディング技術から知られているような伝統的なイントラコーディングは、イントラ予測を使用しない。しかしながら、幾つかの新しいビデオ圧縮技術は、例えば、復号順において先行する空間的近隣のデータブロックの符号化及び/又は復号の間に取得される周囲のサンプルデータ及び/又はメタデータから試行する。このような技術は、以後、「イントラ予測」技術と呼ばれる。少なくとも幾つかの場合には、イントラ予測は、参照ピクチャからではなく、再構成中の現在ピクチャからの参照データのみを使用する。
【0009】
多くの異なる形式のイントラ予測が存在し得る。1つより多くのこのような技術が所与のビデオコーディング技術において使用できるとき、使用される技術は、イントラ予測モードでコーディングされ得る。特定の場合には、モードは、サブモード及び/又はパラメータを有することができ、それらは、個々にコーディングされ又はモードコードワードに含まれることができる。所与のモード、サブモード、及び/又はパラメータの組合せのためにどのコードワードを使用すべきかは、イントラ予測を通じてコーディング効率の向上に影響を与えることができ、従って、コードワードをビットストリームに変換するためにエントロピーコーディング技術を使用できる。
【0010】
特定のイントラ予測モードが、H.264により導入され、H.265で改良され、共同探索モデル(joint exploration model (JEM))、バーサタイルビデオコーディング(versatile video coding (VVC))、及びベンチマークセット(benchmark set (BMS))のような更に新しいコーディング技術において改良された。予測ブロックは、既に利用可能なサンプルに属する近隣サンプル値を用いて形成されることができる。近隣サンプルのサンプル値は、方向に従い予測ブロックにコピーされる。使用中の方向の参照は、ビットストリーム内に符号化でき、又はそれ自体が予測されてよい。
【0011】
図1を参照すると、右下に、H.265の33個の可能な予測方向(35個のイントラモードのうちの33個の角度モードに対応する)から分かる9個の予測方向の部分集合が示される。矢印が集中する点(101)は、予測中のサンプルを表す。矢印は、サンプルが予測されている方向を表す。例えば、矢印(102)は、サンプル(101)が1つ以上のサンプルから、水平から45度の角度で右上へと予測されることを示す。同様に、矢印(103)は、サンプル(101)が1つ以上のサンプルから、水平から22.5度の角度でサンプル(101)の左下へと予測されることを示す。
【0012】
更に
図1を参照すると、左上に、(太い破線で示される)4×4個のサンプルの正方形ブロック(104)が示される。正方形ブロック(104)は、16個のサンプルを含み、各サンプルは「S」、そのY次元の位置(例えば、行インデックス)、及びそのX次元の位置(例えば、列インデックス)でラベル付けされる。例えば、サンプルS21は、Y次元の(上から)2番目のサンプル、且つX次元の(左から)1番目のサンプルである。同様に、サンプルS44は、Y及びXの両方の次元で、ブロック(104)内の4番目のサンプルである。ブロックが4×4サンプルのサイズであるとき、S44は右下にある。更に、同様の番号付け方式に従う参照サンプルが示される。参照サンプルは、R、ブロック(104)に対するそのY位置(例えば、行インデックス)及びX位置(列インデックス)によりラベル付けされる。H.264及びH.265の両方で、予測サンプルは、再構成中のブロックの近隣にあり、従って、負の値は使用される必要がない。
【0013】
イントラピクチャ予測は、シグナリングされた予測方向により適切であるとき、近隣サンプルから参照サンプル値をコピーすることにより、動作できる。例えば、コーディングビデオビットストリームは、このブロックについて、矢印(102)と一致する予測方向を示すシグナリングを含む。つまり、サンプルは、1つ以上の予測サンプルから、水平から45度の角度で右上へと予測される。この場合、サンプルS41、S32、S23、及びS14は、同じ参照サンプルR05から予測される。サンプルS44は、次に、参照サンプルR08から予測される。
【0014】
特定の場合には、参照サンプルを計算するために、特に方向が45度により均等に分割できないとき、複数の参照サンプルの値が、例えば補間を通じて結合されてよい。
【0015】
可能な方向の数は,ビデオコーディング技術が発展するにつれ、増加してきた。H.264(2003年)では、9個の異なる方向が提示されることができた。それは、H.265(2013年)では33に増加し、JEM/VVC/BMSは、本開示の時点で、最大65個の方向をサポートできる。最も可能性の高い方向を識別するために実験が行われ、あまり可能性の高くない方向の特定のペナルティを受け入れながら、これらの可能性の高い方向を少数のビットで表現するために、エントロピーコーディングにおいて特定の技術が使用されている。更に、方向自体は、近隣の既に復号されたブロックにおける近隣の方向から予測できることがある。
【0016】
図2は、時間に渡り予測方向の数が増大することを説明するために、JEMに従う65個のイントラ予測方向を示す図(201)を示す。
【0017】
方向を表すコーディングビデオビットストリーム内のイントラ予測方向ビットのマッピングは、ビデオコーディング技術により異なり、例えば、予測方向のイントラ予測モードへの、コードワードへの、単純な直接マッピングから、最確モードを含む複雑な適応型方式、及び同様の技術にまで及ぶ。しかしながら、全ての場合で、ビデオコンテンツにおいて統計的に生じる可能性が、特定の他の方向よりあまり高くない特定の方向が存在し得る。ビデオ圧縮の目標は、冗長性の削減であるので、これらのあまり可能性の高くない方向は、良好に動作するビデオコーディング技術では、より可能性の高い方向より多数のビットにより表されるだろう。
【発明の概要】
【0018】
開示の態様は、ビデオ符号化/復号のための方法及び機器を提供する。幾つかの例では、ビデオ復号のための機器は、受信回路と処理回路とを含む。
【0019】
本開示の態様によると、ビデオデコーダにおいて実行されるビデオ復号の方法が提供される。方法では、ビデオのピクチャの中のコーディングユニット(CU)のコーディング情報が、コーディングビデオビットストリームから受信できる。CUは、幾何学パーティションモード(geometric partition mode (GPM))に基づき第1パーティション及び第2パーティションにパーティションでき、第1パーティション及び第2パーティションにパーティションは、直線パーティションラインにより分割された互いに隣接する長方形パーティションである。CUの第1パーティションの第1イントラ予測モード及びCUの第2パーティションの第2イントラ予測モードが決定できる。第1イントラ予測モードは第2イントラ予測モードと異なることができる。CUの第1パーティションは、第1イントラ予測モードに基づき再構成でき、CUの第2パーティションは、第2イントラ予測モードに基づき再構成できる。
【0020】
幾つかの実施形態では、CUの第1パーティションの第1イントラ予測モードは、コーディング情報に含まれるシンタックス要素に基づき、複数の候補イントラモードから決定できる。CUの第2パーティションの第2イントラ予測モードは、平面イントラモードであると決定できる。
【0021】
幾つかの実施形態では、CUの第1パーティションの第1イントラ予測モードは、CUの第1パーティションの近隣サンプルに基づき導出できる。CUの第2パーティションの第2イントラ予測モードは、平面イントラモードであると決定できる。
【0022】
幾つかの実施形態では、CUの第1パーティションの第1イントラ予測モードは、CUの第1パーティションの近隣サンプルに基づき導出できる。CUの第2パーティションの第2イントラ予測モードは、CUの第2パーティションの近隣サンプルに基づき導出できる。
【0023】
幾つかの実施形態では、CUの第1パーティションの第1イントラ予測モードは、コーディング情報に含まれるシンタックス要素に基づき、複数の候補イントラモードから決定できる。CUの第2パーティションの第2イントラ予測モードは、第1イントラ予測モードに隣接するイントラモードであると決定できる。第1イントラ予測モードに隣接するイントラモードは、調整済み第1イントラ予測モードを正の整数により除算した剰余に等しくなり得る。調整済み第1イントラ予測モードは、第1イントラ予測モードとオフセットの和に等しくなり得る。正の整数は、CUの利用可能なイントラ予測モードの数を示すことができる。
【0024】
方法では、CUのルマサンプルの数は64以上であり得る。
【0025】
方法では、CUの第1パーティションがCUの第2パーティションより広い領域を有することに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。
【0026】
方法では、CUの第1パーティションがCUの上側のより大きな部分を含むことに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。
【0027】
方法では、CUの第1パーティションがCUの左側のより大きな部分を含むことに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。
【0028】
方法では、第1イントラ予測モードが方向性イントラ予測モードであること、及び第2イントラ予測モードが非方向性イントラ予測モードであることに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。
【0029】
方法では、第1イントラ予測モード及び第2イントラ予測モードが方向性イントラ予測モードであることに基づき、CUの第1パーティションの第1イントラ予測モードを格納でき、第1パーティションはGPMの第1パーティションインデックスに関連付けることができる。
【0030】
方法では、第1イントラ予測モード及び第2イントラ予測モードが方向性イントラ予測モードであることに基づき、CUの第2パーティションの第2イントラ予測モードを格納できる。CUの第1パーティションをGPMの第1パーティションインデックスに関連付けることができ、CUの第2パーティションをGPMの第2パーティションインデックスに関連付けることができる。
【0031】
本開示の別の態様によると、機器が提供される。機器は、処理回路を含む。処理回路は、ビデオコーディングのいずれかの方法を実行するよう構成できる。
【0032】
本開示の態様は、ビデオコーディングのためのコンピュータにより実行されると該コンピュータにビデオコーディングのいずれかの方法を実行させる命令を格納する非一時的コンピュータ可読媒体も提供する。
【図面の簡単な説明】
【0033】
開示の主題の更なる特徴、特性、及び種々の利点は、以下の詳細な説明及び添付の図面から一層明らかになるだろう。
【0034】
【
図1】イントラ予測モードの例示的な部分集合の概略図である。
【0035】
【0036】
【
図3】一実施形態による、通信システム(300)の簡易ブロック図の概略図である。
【0037】
【
図4】一実施形態による、通信システム(400)の簡易ブロック図の概略図である。
【0038】
【
図5】実施形態による、デコーダの簡易ブロック図の概略図である。
【0039】
【
図6】実施形態による、エンコーダの簡易ブロック図の概略図である。
【0040】
【
図7】別の実施形態による、エンコーダのブロック図を示す。
【0041】
【
図8】別の実施形態による、デコーダのブロック図を示す。
【0042】
【
図9】実施形態による、幾何学パーティションモード(GPM)の例示的な角度分布を示す。
【0043】
【
図10】実施形態による、GPMの例示的なパーティションラインを示す。
【0044】
【
図11】実施形態による、例示的な事前定義された幾何学パーティションを示す。
【0045】
【
図12】実施形態による、4分木及び2分木(QTBT)パーティションと幾何学パーティションの例示的な組み合わせを示す。
【0046】
【
図13A】実施形態による、サンプルのユニットを横切る第1の例示的なパーティションを示す。
【0047】
【
図13B】実施形態による、サンプルのユニットを横切る第2の例示的なパーティションを示す。
【0048】
【
図14】本開示の幾つかの実施形態による、例示的な復号処理の概要を示すフローチャートを示す。
【0049】
【
図15】本開示の幾つかの実施形態による、例示的な符号化処理の概要を示すフローチャートを示す。
【0050】
【
図16】一実施形態による、コンピュータシステムの概略図である。
【発明を実施するための形態】
【0051】
図3は、本開示の実施形態による通信システム(300)の簡易ブロック図を示す。通信システム(300)は、例えばネットワーク(350)を介して互いに通信できる複数の端末装置を含む。例えば、通信システム(300)は、ネットワーク(350)を介して相互接続された端末装置(310)及び(320)の第1ペアを含む。
図3の例では、端末装置(310)及び(320)の第1ペアは、データの単方向伝送を実行する。例えば、端末装置(310)は、ネットワーク(350)を介して他の端末装置(320)への送信のために、ビデオデータ(端末装置(310)によりキャプチャされたビデオピクチャのストリーム)を符号化する。符号化ビデオデータは、1つ以上のコーディングビデオビットストリームの形式で、送信できる。端末装置(320)は、ネットワーク(350)からコーディングビデオデータを受信し、コーディングビデオデータを復号してビデオピクチャを復元し、復元したビデオデータに従いビデオピクチャを表示してよい。単方向データ伝送は、メディアサービングアプリケーション等で共通であってよい。
【0052】
別の例では、通信システム(300)は、例えばビデオ会議の間に生じ得るコーディングビデオデータの双方向伝送を実行する端末装置(330)及び(340)の第2ペアを含む。データの双方向伝送では、端末装置(330)及び(340)は、ネットワーク(350)を介して端末装置(330)及び(340)への送信のために、ビデオデータ(例えば、端末装置によりキャプチャされたビデオピクチャのストリーム)をコーディングしてよい。端末装置(330)及び(340)のうちの各端末装置は、端末装置(330)及び(340)のうちの他方の端末装置により送信されたコーディングビデオデータを受信してよく、コーディングビデオデータを復号してビデオピクチャを復元してよく、復元したビデオデータに従い、アクセス可能なディスプレイ装置においてビデオピクチャを表示してよい。
【0053】
図3の例では、端末装置(310)、(320)、(330)及び(340)は、サーバ、パーソナルコンピュータ、及びスマートフォンとして示されてよいが、本開示の原理はこれらに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤ、及び/又は専用ビデオ会議設備による適用がある。ネットワーク(350)は、端末装置(310)、(320)、(330)、及び(340)の間でコーディングビデオデータを運ぶ任意の数のネットワークを表し、例えば有線(ワイヤード)及び/又は無線通信ネットワークを含む。通信ネットワーク(350)は、回線交換及び/又はパケット交換チャネルでデータを交換してよい。代表的なネットワークは、電子通信ネットワーク、ローカルエリアネットワーク、広域ネットワーク、及び/又はインターネットを含む。本発明の議論の目的で、ネットワーク(350)のアーキテクチャ及びトポロジは、以下で特に断りの無い限り、本開示の動作にとって重要でないことがある。
【0054】
図4は、開示の主題の適用の一例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を示す。開示の主題は、例えばビデオ会議、デジタルTV、CD、DVD、メモリスティック、等を含むデジタル媒体への圧縮ビデオの格納、他のビデオ可能アプリケーション、等に等しく適用可能である。
【0055】
ストリーミングシステムは、例えば非圧縮のビデオピクチャストリーム(402)を生成するビデオソース(401)を含み得るキャプチャサブシステム(413)を含んでよい。一例では、ビデオピクチャストリーム(402)は、デジタルカメラにより取り込まれたサンプルを含む。ビデオピクチャストリーム(402)は、符号化ビデオデータ(404)(又はコーディングビデオビットストリーム)と比べたとき、高データ容量を強調するために太線で示され、ビデオソース(401)と結合されたビデオエンコーダ(403)を含む電子装置(420)により処理され得る。ビデオエンコーダ(403)は、ハードウェア、ソフトウェア、又はそれらの組み合わせを含み、以下に詳述するように開示の主題の態様を可能にし又は実装することができる。符号化ビデオデータ(404)(又は符号化ビデオビットストリーム(404))は、ビデオピクチャストリーム(402)と比べたとき、低データ容量を強調するために細線で示され、将来の使用のためにストリーミングサーバ(405)に格納され得る。
図4のクライアントサブシステム(406)及び(408)のような1つ以上のストリーミングクライアントサブシステムは、ストリーミングサーバ(405)にアクセスして、符号化ビデオデータ(404)のコピー(407)及び(409)を読み出すことができる。クライアントサブシステム(406)は、例えば電子装置(430)内にビデオデコーダ(410)を含み得る。ビデオデコーダ(410)は、符号化ビデオデータの入力コピー(407)を復号し、ディスプレイ(412)(例えばディスプレイスクリーン)又は他のレンダリング装置(図示しない)上でレンダリングできる出力ビデオピクチャストリーム(411)を生成する。幾つかのストリーミングシステムでは、符号化ビデオデータ(404)、(407)、及び(409)(例えば、ビデオビットストリーム)は、特定のビデオコーディング/圧縮標準に従い符号化され得る。これらの規格の例は、ITU-T Recommendation H.265を含む。一例では、策定中のビデオコーディング規格は、略式にVVC(Versatile Video Coding)として知られている。開示の主題は、VVCの文脈で使用されてよい。
【0056】
電子装置(420)及び(430)は他のコンポーネント(図示しない)を含み得ることに留意する。例えば、電子装置(420)は、ビデオデコーダ(図示しない)を含むことができ、電子装置(430)もビデオエンコーダ(図示しない)を含むことができる。
【0057】
図5は、本開示の一実施形態によるビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、電子装置(530)に含まれ得る。電子装置(530)は、受信機(531)(例えば、受信回路)を含み得る。ビデオデコーダ(510)は、
図4の例では、ビデオデコーダ(410)の代わりに使用できる。
【0058】
受信機(531)は、ビデオデコーダ(510)により復号されるべき1つ以上のコーディングビデオシーケンスを、同じ又は別の実施形態では、一度に1つのコーディングビデオシーケンスを受信してよい。ここで、各コーディングビデオシーケンスの復号は、他のコーディングビデオシーケンスと独立している。コーディングビデオシーケンスは、符号化ビデオデータを格納する記憶装置へのハードウェア/ソフトウェアリンクであってよいチャネル(501)から受信されてよい。受信機(531)は、他のデータ、例えば、各々の使用エンティティ(図示しない)へと転送され得るコーディング音声データ及び/又は補助データストリームと共に、符号化ビデオデータを受信してよい。受信機(531)は、他のデータからコーディングビデオシーケンスを分離してよい。ネットワークジッタを除去するために、バッファメモリ(515)は、受信機(531)とエントロピーデコーダ/パーサ(520)(以後、「パーサ(520)」)との間に結合されてよい。特定の適用では、バッファメモリ(515)は、ビデオデコーダ(510)の一部である。他に、ビデオデコーダ(510)(図示しない)の外部にあり得る。更に他では、例えばネットワークジッタを除去するために、ビデオデコーダ(510)の外部に、例えば再生(playout)タイミングを処理するために、ビデオデコーダ(510)の内部にある別のバッファメモリ(515)に加えて、バッファメモリ(図示しない)が存在し得る。受信機(531)が、十分な帯域幅の記憶/転送装置から制御可能に、又はアイソクロナス(isosynchronous)ネットワークから、データを受信しているとき、バッファメモリ(515)は、必要なくてよく又は小さくできる。インターネットのようなベストエフォート型パケットネットワークで使用するために、バッファメモリ(515)が必要とされてよく、比較的大きくなり、有利なことに適応型サイズであり、少なくとも部分的にオペレーティングシステム又はビデオデコーダ(510)の外部の同様の要素(図示しない)に実装されてよい。
【0059】
ビデオデコーダ(510)は、コーディングビデオシーケンスからシンボル(521)を再構成するために、パーサ(520)を含んでよい。これらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報、及び場合によっては
図5に示したように電子装置(530)の統合部分ではないが電子装置(530)に結合され得るレンダー装置(512)(例えば、ディスプレイスクリーン)のようなレンダリング装置を制御するための情報を含む。レンダリング装置のための制御情報は、SEI(Supplemental Enhancement Information)メッセージ又はVUI(Video Usability Information)パラメータセットフラグメント(図示しない)の形式であってよい。パーサ(520)は、受信されたコーディングビデオシーケンスをパース/エントロピー復号してよい。コーディングビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、コンテキスト依存性を有する又は有しない算術コーディング、等を含む、種々の原理に従うことができる。パーサ(520)は、コーディングビデオシーケンスから、ビデオデコーダの中のピクセルのサブグループのうちの少なくとも1つについて、該グループに対応する少なくとも1つのパラメータに基づき、サブグループパラメータのセットを抽出してよい。サブグループは、GOP(Groups of Picture)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(Coding Units:CU)、ブロック、変換ユニット(Transform Units:TU)、予測ユニット(Prediction Units:PU)、等を含み得る。パーサ(520)は、符号化ビデオシーケンスから、変換係数、量子化パラメータ値、動きベクトル、等のような情報も抽出してよい。
【0060】
パーサ(520)は、バッファメモリ(515)から受信したビデオシーケンスに対してエントロピー復号/パース動作を実行して、シンボル(521)を生成してよい。
【0061】
シンボル(521)の再構成は、コーディングビデオピクチャ又はその部分の種類(例えば、インター及びイントラピクチャ、インター及びイントラブロック)及び他の要因に依存して、複数の異なるユニットを含み得る。どのユニットがどのように含まれるかは、パーサ(520)によりコーディングビデオシーケンスからパースされたサブグループ制御情報により制御できる。パーサ(520)と以下の複数のユニットとの間のこのようなサブグループ制御情報のフローは、明確さのために示されない。
【0062】
既に言及した機能ブロックを超えて、ビデオデコーダ(510)は、後述のように、多数の機能ユニットに概念的に細分化できる。商用的制約の下で動作する実際の実装では、これらのユニットの多くは、互いに密に相互作用し、少なくとも部分的に互いに統合され得る。しかしながら、開示の主題を説明する目的で、機能ユニットへの以下の概念的細分化は適切である。
【0063】
第1ユニットは、スケーラ/逆変換ユニット551である。スケーラ/逆変換ユニット(551)は、量子化済み変換係数、及び、どの変換を使用すべきか、ブロックサイズ、量子化係数、量子化スケーリングマトリクス、等を含む制御情報を、パーサ(520)からのシンボル(521)として受信する。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)に入力され得るサンプル値を含むブロックを出力できる。
【0064】
幾つかの例では、スケーラ/逆変換ユニット(551)の出力サンプルは、イントラコーディングブロック、つまり、前に再構成されたピクチャからの予測情報を使用しないが現在ピクチャの前に再構成された部分からの予測情報を使用可能なブロック、に属することができる。このような予測情報は、イントラピクチャ予測ユニット(552)により提供できる。幾つかの場合には、イントラピクチャ予測ユニット(552)は、再構成中のブロックと同じサイズ及び形状のブロックを、現在ピクチャバッファ(558)からフェッチした周囲の既に再構成された情報を用いて、生成する。現在ピクチャバッファ(558)は、例えば、再構成された現在ピクチャを部分的に及び/又は再構成された現在ピクチャを完全にバッファリングする。アグリゲータ(555)は、幾つかの場合には、サンプル毎に、イントラ予測ユニット(552)の生成した予測情報を、スケーラ/逆変換ユニット(551)により提供された出力サンプル情報に追加する。
【0065】
他の場合には、スケーラ/逆変換ユニット(551)の出力サンプルは、インターコーディングされた、場合によっては動き補償されたブロックに関連し得る。このような場合には、動き補償予測ユニット(553)は、参照ピクチャメモリ(557)にアクセスして、予測ために使用されるサンプルをフェッチできる。ブロックに関連するシンボル(521)に従いフェッチしたサンプルを動き補償した後に、これらのサンプルは、アグリゲータ(555)により、出力サンプル情報を生成するために、スケーラ/逆変換ユニット(551)の出力に追加され得る(この場合、残差サンプル又は残差信号と呼ばれる)。動き補償予測ユニット(553)が予測サンプルをフェッチする参照ピクチャメモリ(557)内のアドレスは、例えばX、Y及び参照ピクチャコンポーネントを有し得るシンボル(521)の形式で、動き補償予測ユニット(553)の利用可能な動きベクトルにより制御できる。動き補償は、サブサンプルの正確な動きベクトルが使用中であるとき参照ピクチャメモリ(557)からフェッチされたサンプル値の補間、動きベクトル予測メカニズム、等を含み得る。
【0066】
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)において種々のループフィルタリング技術を受け得る。ビデオ圧縮技術は、コーディングビデオシーケンス(コーディングビデオビットストリームとも呼ばれる)に含まれ且つパーサ(520)からのシンボル(521)としてループフィルタユニット(556)に利用可能にされたパラメータにより制御されるが、コーディングピクチャ又はコーディングビデオシーケンスの(復号順序で)前の部分の復号中に取得されたメタ情報にも応答し、前に再構成されループフィルタリングされたサンプル値にも応答し得るインループフィルタ技術を含み得る。
【0067】
ループフィルタユニット(556)の出力は、レンダー装置(512)へと出力でき及び将来のインターピクチャ予測で使用するために参照ピクチャメモリ(557)に格納され得るサンプルストリームであり得る。
【0068】
特定のコーディングピクチャは、一旦完全に再構成されると、将来の予測のための参照ピクチャとして使用できる。例えば、現在ピクチャに対応するコーディングピクチャが完全に再構成され、コーディングピクチャが(例えばパーサ(520)により)参照ピクチャとして識別されると、現在ピクチャバッファ(558)は、参照ピクチャメモリ(557)の一部になることができ、後続のコーディングピクチャの再構成を開始する前に、新鮮な現在ピクチャバッファを再割り当てできる。
【0069】
ビデオデコーダ(510)は、ITU-T Rec.H.265のような標準の所定のビデオ圧縮技術に従い復号動作を実行してよい。コーディングビデオシーケンスがビデオ圧縮技術又は規格、及びビデオ圧縮技術又は規格において文書化されたプロファイルの両方に従うという意味で、コーディングビデオシーケンスは、使用中のビデオ圧縮技術又は規格により指定されたシンタックスに従ってよい。具体的に、プロファイルは、ビデオ圧縮技術又は標準において利用可能な全部のツールから、プロファイルの下でのみ使用可能なツールとして、特定のツールを選択できる。また、遵守のために必要なことは、コーディングビデオシーケンスの複雑さが、ビデオ圧縮技術又は規格のレベルにより定められる限界の範囲内であることであり得る。幾つかの場合には、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えばメガサンプル/秒で測定される)、最大参照ピクチャサイズ、等を制限する。レベルにより設定される限界は、幾つかの場合には、HRD(Hypothetical Reference Decoder)仕様及びコーディングビデオシーケンスの中でシグナリングされるHRDバッファ管理のためのメタデータを通じて更に制限され得る。
【0070】
実施形態では、受信機(531)は、符号化ビデオと共に追加(冗長)データを受信してよい。追加データは、コーディングビデオシーケンスの部分として含まれてよい。追加データは、データを正しく復号するため及び/又は元のビデオデータをより正確に再構成するために、ビデオデコーダ(510)により使用されてよい。追加データは、例えば、時間的、空間的、又は信号雑音比(SNR)の拡張レイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、等の形式であり得る。
【0071】
図6は、本開示の一実施形態によるビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は、電子装置(620)に含まれる。電子装置(620)は、送信機(640)(例えば、送信回路)を含む。ビデオエンコーダ(603)は、
図4の例では、ビデオエンコーダ(403)の代わりに使用できる。
【0072】
ビデオエンコーダ(603)は、ビデオサンプルを、ビデオエンコーダ(603)によりコーディングされるべきビデオ画像をキャプチャし得るビデオソース(601)(
図6の例では、電子装置(620)の部分ではない)から受信してよい。別の例では、ビデオソース(601)は、電子装置(620)の一部である。
【0073】
ビデオソース(601)は、ビデオエンコーダ(603)によりコーディングされるべきソースビデオシーケンスを、任意の適切なビット深さ(例えば、8ビット、10ビット、12ビット、...)、任意の色空間(例えば、BT.601 Y CrCB, RGB、...)、及び任意の適切なサンプリング構造(例えば、YCrCb 4:2:0、YCrCb 4:4:4)のデジタルビデオサンプルストリームの形式で、提供してよい。メディア提供システムでは、ビデオソース(601)は、前に準備されたビデオを格納する記憶装置であってよい。ビデオ会議システムでは、ビデオソース(601)は、ビデオシーケンスとしてローカル画像情報をキャプチャするカメラであってよい。ビデオデータは、続けて閲覧されると動きを与える複数の個別ピクチャとして提供されてよい。ピクチャ自体は、ピクセルの空間的配列として組織化されてよい。各ピクセルは、使用中のサンプリング構造、色空間、等に依存して、1つ以上のサンプルを含み得る。当業者は、ピクセルとサンプルとの間の関係を直ちに理解できる。以下の説明はサンプルに焦点を当てる。
【0074】
実施形態によると、ビデオエンコーダ(603)は、ソースビデオシーケンスのピクチャを、コーディングビデオシーケンス(643)へと、リアルタイムに又はアプリケーションにより要求される任意の他の時間制約の下でコーディングし圧縮してよい。適切なコーディング速度の実施は、制御部(650)の1つの機能である。幾つかの実施形態では、制御部(650)は、後述する他の機能ユニットを制御し、他の機能ユニットに機能的に結合される。結合は、明確さのために図示されない。制御部(650)により設定されるパラメータは、レート制御関連パラメータ(ピクチャスキップ、量子化器、レート歪み最適化技術のラムダ値、...)、ピクチャサイズ、GOP(group of pictures)レイアウト、最大動きベクトル探索範囲、等を含み得る。制御部(650)は、特定のシステム設計に最適化されたビデオエンコーダ(603)に関連する他の適切な機能を有するよう構成され得る。
【0075】
幾つかの実施形態では、ビデオエンコーダ(603)は、コーディングループの中で動作するよう構成される。非常に簡略化された説明として、一例では、コーディングループは、ソースコーダ(630)(例えば、シンボルストリームのようなシンボルを、コーディングされるべき入力ピクチャ及び参照ピクチャに基づき生成することを担う)、及びビデオエンコーダ(603)に内蔵された(ローカル)デコーダ(633)を含み得る。デコーダ(633)は、(シンボルとコーディングビットストリームとの間の任意の圧縮が、開示の主題において検討されるビデオ圧縮技術において無損失であるとき)(遠隔にある)デコーダが生成するのと同様の方法で、シンボルを再構成して、サンプルデータを生成する。再構成されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(634)に入力される。シンボルストリームの復号が、デコーダ位置(ローカル又はリモート)と独立にビット正確な結果をもたらすとき、参照ピクチャメモリ(634)の内容も、ローカルエンコーダとリモートエンコーダとの間でビット正確である。言い換えると、エンコーダの予測部分が、復号中に予測を用いるときデコーダが「見る」のと正確に同じサンプル値を、参照ピクチャサンプルとして「見る」。参照ピクチャ同期性のこの基本原理(及び、例えばチャネルエラーのために同期生が維持できない場合には、結果として生じるドリフト)は、幾つかの関連技術で同様に使用される。
【0076】
「ローカル」デコーダ(633)の動作は、
図5と関連して以上に詳述したビデオデコーダ(510)のような「リモート」デコーダのものと同じであり得る。簡単に一時的に
図5も参照すると、しかしながら、シンボルが利用可能であり、エントロピーコーダ(645)及びパーサ(520)による符号化ビデオシーケンスへのシンボルの符号化/復号が無損失であり得るので、バッファメモリ(515)を含むビデオデコーダ(510)のエントロピー復号部分、及びパーサ(520)は、ローカルデコーダ(633)に完全に実装されなくてよい。
【0077】
この点で行われる考察は、デコーダ内に存在するパース/エントロピー復号を除く任意のデコーダ技術も、対応するエンコーダ内と実質的に同一の機能形式で存在する必要があるということである。この理由から、開示の主題は、デコーダ動作に焦点を当てる。エンコーダ技術の説明は、それらが包括的に説明されるデコーダ技術の逆であるので、省略できる。特定の領域においてのみ、より詳細な説明が必要であり、以下に提供される。
【0078】
動作中、幾つかの例では、ソースコーダ(630)は、動き補償された予測符号化を実行してよい。これは、「参照ピクチャ」として指定されたビデオシーケンスからの1つ以上の前の符号化ピクチャを参照して予測的に入力ピクチャを符号化する。この方法では、コーディングエンジン(632)は、入力ピクチャのピクセルブロックと、入力ピクチャに対する予測基準として選択されてよい参照ピクチャのピクセルブロックとの間の差分をコーディングする。
【0079】
ローカルビデオデコーダ(633)は、ソースコーダ(630)により生成されたシンボルに基づき、参照ピクチャとして指定されてよいピクチャのコーディングビデオデータを復号してよい。コーディングエンジン(632)の動作は、有利なことに、損失処理であってよい。コーディングビデオデータがビデオデコーダ(
図6に図示されない)において復号され得るとき、再構成ビデオシーケンスは、標準的に、幾つかのエラーを有するソースビデオシーケンスの複製であってよい。ローカルビデオデコーダ(633)は、参照ピクチャに対してビデオデコーダにより実行され得る復号処理を複製し、参照ピクチャキャッシュ(634)に格納されるべき再構成参照ピクチャを生じ得る。このように、ビデオエンコーダ(603)は、(伝送誤りが無ければ)遠端ビデオデコーダにより取得される再構成参照ピクチャと共通の内容を有する再構成参照ピクチャのコピーを格納してよい。
【0080】
予測器(635)は、コーディングエンジン(632)のために予測探索を実行してよい。つまり、符号化されるべき新しいピクチャについて、予測器(635)は、新しいピクチャのための適切な予測基準として機能し得る(候補参照ピクセルブロックのような)サンプルデータ又は参照ピクチャ動きベクトル、ブロック形状、等のような特定のメタデータについて、参照ピクチャメモリ(634)を検索してよい。予測器(635)は、適切な予測基準を見付けるために、サンプルブロック-ピクセルブロック毎に動作してよい。幾つかの例では、予測器(635)により取得された検索結果により決定されるように、入力ピクチャは、参照ピクチャメモリ(634)に格納された複数の参照ピクチャから引き出された予測基準を有してよい。
【0081】
制御部(650)は、例えば、ビデオデータの符号化のために使用されるパラメータ及びサブグループパラメータの設定を含む、ソースコーダ(630)のコーディング動作を管理してよい。
【0082】
全ての前述の機能ユニットの出力は、エントロピーコーダ(645)におけるエントロピーコーディングを受けてよい。エントロピーコーダ(645)は、ハフマンコーディング、可変長コーディング、算術コーディング、等のような技術に従いシンボルを無損失圧縮することにより、種々の機能ユニットにより生成されたシンボルを、コーディングビデオシーケンスへと変換する。
【0083】
送信機(640)は、符号化ビデオデータを格納し得る記憶装置へのハードウェア/ソフトウェアリンクであってよい通信チャネル(660)を介する伝送のために準備するために、エントロピーコーダ(645)により生成されたコーディングビデオシーケンスをバッファリングしてよい。送信機(640)は、ビデオコーダ(603)からのコーディングビデオデータを、送信されるべき他のデータ、例えばコーディング音声データ及び/又は補助データストリーム(図示されないソース)とマージ(merge)してよい。
【0084】
制御部(650)は、ビデオエンコーダ(603)の動作を管理してよい。コーディング中、制御部(650)は、各々のピクチャに適用され得るコーディング技術に影響し得る特定のコーディングピクチャタイプを、各コーディングピクチャに割り当ててよい。例えば、ピクチャは、多くの場合、以下のピクチャタイプのうちの1つとして割り当てられてよい。
【0085】
イントラピクチャ(Iピクチャ)は、予測のソースとしてシーケンス内の任意の他のピクチャを使用せずにコーディング及び復号され得るピクチャであってよい。幾つかのビデオコーデックは、例えばIDR(Independent Decoder Refresh)ピクチャを含む異なる種類のイントラピクチャを許容する。当業者は、Iピクチャの変形、及びそれらの個々の適用及び特徴を認識する。
【0086】
予測ピクチャ(Pピクチャ)は、殆どの場合、各ブロックのサンプル値を予測するために1つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。
【0087】
双方向予測ピクチャ(Bピクチャ、Bi-directionally Predictive Picture (B Picture))は、各ブロックのサンプル値を予測するために最大で2つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測を用いてコーディング及び復号され得るピクチャであってよい。同様に、マルチ予測ピクチャは、単一のブロックの再構成のために、2つより多くの参照ピクチャ及び関連付けられたメタデータを使用できる。
【0088】
ソースピクチャは、一般に、複数のサンプルブロック(例えば、各々4×4、8×8、4×8、又は16×16個のサンプルのブロック)に空間的に細分化され、ブロック毎にコーディングされてよい。ブロックは、ブロックの各々のピクチャに適用されるコーディング割り当てにより決定される他の(既にコーディングされた)ブロックへの参照により予測的にコーディングされてよい。例えば、Iピクチャのブロックは、非予測的にコーディングされてよく、又はそれらは同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてよい(空間予測又はイントラ予測)。Pピクチャのピクセルブロックは、1つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、予測的にコーディングされてよい。Bピクチャのブロックは、1つ又は2つの前にコーディングされた参照ピクチャを参照して、空間予測を介して又は時間予測を介して、予測的にコーディングされてよい。
【0089】
ビデオエンコーダ(603)は、ITU-TRec.H.265のような所定のビデオコーディング技術又は規格に従いコーディング動作を実行してよい。その動作において、ビデオエンコーダ(603)は、入力ビデオシーケンスの中の時間的及び空間的冗長性を利用する予測コーディング動作を含む種々の圧縮動作を実行してよい。コーディングビデオデータは、従って、使用されているビデオコーディング技術又は規格により指定されたシンタックスに従ってよい。
【0090】
一実施形態では、送信機(640)は、符号化ビデオと共に追加データを送信してよい。ソースコーダ(630)は、このようなデータをコーディングビデオシーケンスの部分として含んでよい。追加データは、時間/空間/SNR拡張レイヤ、冗長ピクチャ及びスライスのような他の形式の冗長データ、SEIメッセージ、VUIパラメータセットフラグメント、等を含んでよい。
【0091】
ビデオは、時系列の中の複数のソースピクチャ(ビデオピクチャ)としてキャプチャされてよい。イントラピクチャ予測(イントラ予測と省略されることがある)は、所与のピクチャの中の空間的相関を利用し、インターピクチャ予測は、ピクチャ間の(時間的又は他の)相関を利用する。一例では、符号化/復号中の特定のピクチャは、現在ピクチャと呼ばれ、ブロックにパーティションされる。現在ピクチャの中のブロックが、ビデオの中の前に符号化され且つ未だバッファリングされている参照ピクチャの中の参照ブロックと同様であるとき、現在ピクチャの中のブロックは、動きベクトルと呼ばれるベクトルにより符号化できる。動きベクトルは、参照ピクチャ内の参照ブロックを指し、複数の参照ピクチャが使用中である場合には、参照ピクチャを識別する第3次元を有することができる。
【0092】
幾つかの実施形態では、双予測(bi-prediction)技術が、インターピクチャ予測で使用できる。双予測技術によると、両方とも復号順序でビデオの中の現在ピクチャより前にある(が、各々表示順序で過去及び未来にあってよい)第1参照ピクチャ及び第2参照ピクチャのような2つの参照ピクチャが使用される。現在ピクチャ内のブロックは、第1参照ピクチャ内の第1参照ブロックを指す第1動きベクトル、及び第2参照ピクチャ内の第2参照ブロックを指す第2動きベクトルによりコーディングできる。ブロックは、第1参照ブロック及び第2参照ブロックの結合により予測できる。
【0093】
さらに、コーディング効率を向上するために、インターピクチャ予測においてマージモード技術が使用できる。
【0094】
本開示の幾つかの実施形態によると、インターピクチャ予測及びイントラピクチャ予測のような予測は、ブロックのユニットの中で実行される。例えば、HEVC規格によると、ビデオピクチャシーケンスの中のピクチャは、圧縮のためにコーディングツリーユニット(coding tree unit:CTU)にパーティションされる。ピクチャ内のCTUは、64×64ピクセル、32×32ピクセル、又は16×16ピクセルのような、同じサイズを有する。通常、CTUは、3個のコーディングツリーブロック(coding tree blocks:CTB)、つまり1個のルマCTB及び2個のクロマCTB、を含む。各CTUは、1又は複数の符号化ユニット(coding unit:CU)に再帰的に4分木分割できる。例えば、64×64ピクセルのCTUは、64×64ピクセルの1個のCU、又は32×32ピクセルの4個のCU、又は16×16ピクセルの16個のCUに分割できる。一例では、各CUは、インター予測タイプ又はイントラ予測タイプのようなCUの予測タイプを決定するために分析される。CUは、時間的及び/又は空間的予測性に依存して、1つ以上の予測ユニット(prediction unit:PU)に分割される。通常、各PUは、ルマ予測ブロック(prediction block:PB)、及び2個のクロマPBを含む。一実施形態では、コーディング(符号化/復号)における予測演算が、予測ブロックのユニットの中で実行される。ルマ予測ブロックを予測ブロックの一例として用いると、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセル、等のようなピクセルについて値(例えば、ルマ値)のマトリクスを含む。
【0095】
図7は、本開示の別の実施形態によるビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオピクチャシーケンスの中の現在ビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受信し、処理ブロックをコーディングビデオシーケンスの部分であるコーディングピクチャに符号化するよう構成される。一例では、ビデオエンコーダ(703)は、
図4の例では、ビデオエンコーダ(403)の代わりに使用される。
【0096】
HEVCの例では、ビデオエンコーダ(703)は、8×8サンプル等の予測ブロックのような、処理ブロックのサンプル値のマトリクスを受信する。ビデオエンコーダ(703)は、例えばレート歪み最適化を用いて、処理ブロックがイントラモード、インターモード、又は双予測モードを用いて最適にコーディングされるかを決定する。処理ブロックはイントラモードでコーディングされるとき、ビデオエンコーダ(703)は、処理ブロックをコーディングピクチャへと符号化するために、イントラ予測技術を使用してよい。処理ブロックがインターモード又は双予測モードでコーディングされるとき、ビデオエンコーダ(703)は、処理ブロックをコーディングピクチャへと符号化するために、各々インター予測又は双予測技術を使用してよい。特定のビデオコーディング技術では、マージモードは、予測器の外部のコーディング動きベクトル成分の利益無しに、動きベクトルが1つ以上の動きベクトル予測器から導出されるインターピクチャ予測サブモードであり得る。特定の他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル成分が存在し得る。一例では、ビデオエンコーダ(703)は、処理ブロックのモードを決定するために、モード決定モジュール(図示しない)のような他のコンポーネントを含む。
【0097】
図7の例では、ビデオエンコーダ(703)は、
図7に示したように一緒に結合されたインターエンコーダ(730)、イントラエンコーダ(722)、残差計算器(723)、スイッチ(726)、残差エンコーダ(724)、一般制御部(721)、及びエントロピーエンコーダ(725)を含む。
【0098】
インターエンコーダ(730)は、現在ブロック(例えば、処理中のブロック)のサンプルを受信し、ブロックを参照ピクチャ内の1つ以上の参照ブロック(例えば、前のピクチャ及び後のピクチャの中のブロック)と比較し、インター予測情報(例えば、インター符号化技術による冗長情報の説明、動きベクトル、マージモード情報)を生成し、任意の適切な技術を用いてインター予測情報に基づきインター予測結果(例えば、予測ブロック)を計算するよう構成される。幾つかの例では、参照ピクチャは、符号化ビデオ情報に基づき復号された、復号参照ピクチャである。
【0099】
イントラエンコーダ(722)は、現在ブロック(例えば、処理中のブロック)のサンプルを受信し、幾つかの場合には、ブロックをサンプルピクチャ内の既にコーディングされたブロックと比較し、変換後に量子化済み係数を、幾つかの場合にはイントラ予測情報(例えば、1つ以上のイントラ符号化技術によるイントラ予測方向情報)も生成するよう構成される。一例では、イントラエンコーダ(722)は、イントラ予測情報及び同じピクチャ内の参照ブロックに基づき、イントラ予測結果(例えば、予測したブロック)も計算する。
【0100】
一般制御部(721)は、一般制御データを決定し、一般制御データに基づきビデオエンコーダ(703)の他のコンポーネントを制御するよう構成される。一例では、一般制御部(721)は、ブロックのモードを決定し、モードに基づき、制御信号をスイッチ(726)に提供する。例えば、モードがイントラモードであるとき、一般制御部(721)は、残差計算器(723)による使用のためにイントラモード結果を選択するようスイッチ(726)を制御し、イントラ予測情報を選択してビットストリーム内にイントラ予測情報を含めるよう、エントロピーエンコーダ(725)を制御し、モードがインターモードであるとき、一般制御部(721)は、残差計算器(723)による使用のためにインター予測結果を選択するようスイッチ(726)を制御し、インター予測情報を選択してビットストリーム内にインター予測情報を含めるよう、エントロピーエンコーダ(725)を制御する。
【0101】
残差計算器(723)は、受信したブロックとイントラエンコーダ(722)又はインターエンコーダ(730)からの選択された予測結果との間の差(残差データ)を計算するよう構成される。残差エンコーダ(724)は、残差データに基づき動作して、残差データを符号化し、変換係数を生成するよう構成される。一例では、残差エンコーダ(724)は、残差データを空間ドメインから周波数ドメインへと変換し、変換係数を生成するよう構成される。変換係数は、次に、量子化変換係数を得るために、量子化処理を受ける。種々の実施形態では、ビデオエンコーダ(703)も残差デコーダ(728)を含む。残差デコーダ(728)は、逆変換を実行し、復号残差データを生成するよう構成される。復号残差データは、イントラエンコーダ(722)及びインターエンコーダ(730)により適切に使用できる。例えば、インターエンコーダ(730)は、復号残差データ及びインター予測情報に基づき復号ブロックを生成でき、イントラエンコーダ(722)は、復号残差データ及びイントラ予測情報に基づき復号ブロックを生成できる。復号ブロックは、復号ピクチャを生成するために適切に処理され、復号ピクチャは、幾つかの例ではメモリ回路(図示しない)にバッファリングされ、参照ピクチャとして使用できる。
【0102】
エントロピーエンコーダ(725)は、符号化ブロックを含めるために、ビットストリームをフォーマットするよう構成される。エントロピーエンコーダ(725)は、HEVC標準のような適切な標準に従い種々の情報を含むよう構成される。一例では、エントロピーエンコーダ(725)は、ビットストリームに、一般制御データ、選択された予測情報(例えば、イントラ予測情報又はインター予測情報)、残差情報、及び他の適切な情報を含めるよう構成される。開示の主題によると、インターモード又は双予測モードのいずれかのマージサブモードでブロックをコーディングするとき、残差情報は存在しないことに留意する。
【0103】
図8は、本開示の別の実施形態によるビデオエンコーダ(810)の図を示す。ビデオデコーダ(810)は、コーディングビデオシーケンスの部分であるコーディングピクチャを受信し、コーディングピクチャを復号して再構成ピクチャを生成するよう構成される。一例では、ビデオデコーダ(810)は、
図4の例では、ビデオデコーダ(410)の代わりに使用される。
【0104】
図8の例では、ビデオデコーダ(810)は、
図8に示したように一緒に結合されたエントロピーデコーダ(871)、インターデコーダ(880)、残差デコーダ(873)、再構成モジュール(874)、イントラデコーダ(872)を含む。
【0105】
エントロピーデコーダ(871)は、コーディングピクチャから、コーディングピクチャの生成されたシンタックス要素を表す特定のシンボルを再構成するよう構成され得る。このようなシンボルは、例えば、ブロックのコーディングされたモード(例えば、イントラモード、インターモード、双方向モード、マージサブモード又は別のサブモードの後者の2つ)、各々イントラデコーダ(872)又はインターデコーダ(880)による予測のために使用される特定のサンプル又はメタデータを特定できる予測情報(例えば、イントラ予測情報又はインター予測情報)、例えば量子化された変換係数の形式の残差情報、等を含み得る。一例では、予測モードがインター又は双方向予測モードであるとき、インター予測情報がインターデコーダ(880)に提供され、予測タイプがイントラ予測タイプであるとき、イントラ予測情報がイントラデコーダ(872)に提供される。残差情報は、逆量子化され、残差デコーダ(873)に提供される。
【0106】
インターデコーダ(880)は、インター予測情報を受信し、インター予測情報に基づきインター予測結果を生成するよう構成される。
【0107】
イントラデコーダ(872)は、イントラ予測情報を受信し、イントラ予測情報に基づき予測結果を生成するよう構成される。
【0108】
残差デコーダ(873)は、逆量子化を実行して、逆量子化された変換係数を抽出し、逆量子化された変換係数を処理して、残差を周波数ドメインから空間ドメインへと変換するよう構成される。残差デコーダ(873)は、(量子化器パラメータ(Quantizer Parameter:QP)を含むための)特定の制御情報も要求してよい。この情報は、エントロピーデコーダ(871)により提供されてよい(これは低容量制御情報のみなので、データ経路は示されない)。
【0109】
再構成モジュール(874)は、空間ドメインで、残差デコーダ(873)による出力としての残差と(場合によりインター又はイントラ予測モジュールによる出力としての)予測結果とを結合して、再構成ピクチャの部分であり得る、一方で再構成ビデオの部分であり得る、再構成ブロックを形成するよう構成される。デブロッキング動作などのような他の適切な動作が、視覚的品質を向上するために実行できる。
【0110】
ビデオエンコーダ(403)、(603)、及び(703)、並びにビデオデコーダ(410)、(510)、及び(810)は、任意の適切な技術を用いて実装できることに留意する。一実施形態では、ビデオエンコーダ(403)、(603)、及び(703)、並びにビデオデコーダ(410)、(510)、及び(810)は、1つ以上の集積回路を用いて実装できる。別の実施形態では、ビデオエンコーダ(403)、(603)、及び(603)、並びにビデオデコーダ(410)、(510)、及び(810)は、ソフトウェア命令を実行する1つ以上のプロセッサを用いて実装できる。
【0111】
本開示は、幾何学パーティションに基づくイントラ予測を対象とする実施形態を含む。
【0112】
ITU-T VCEG(Q6/16) 及びISO/IEC MPEG (JTC1/SC29/WG11)の発行したH.265/HEVC (High Efficiency Video Coding)規格、 2013 (version 1) 、2014 (version 2) 、2015 (version 3) 、及び 2016 (version 4)。2015年に、これらの2つの標準化組織は、一緒にJVET(Joint Video Exploration Team)を形成して、HEVC以後の次世代ビデオコーディング規格を開発する可能性を探索した。この会議の結果として、JVETは、HEVC以後の次世代ビデオコーディングの標準化プロセスを正式に発表した。新たな規格は、VVC(Versatile Video Coding)と名付けられ、JVETはJoint Video Expert Teamに改名した。2020年7月に、H.266/VVC version1が確定した。2021年1月に、VVC能力を超える拡張圧縮を研究するために、アドホック(ad hoc)グループが設立された。
【0113】
幾何学パーティションモード(geometric partition mode (GPM))は、インター予測に適用できる。GPMは、8×8のサイズ、又は8×8より大きいサイズを有するCUにのみ適用できる。GPMは、例えばCUレベルのフラグを用いてシグナリングでき、一種のマージモードとして動作できる。他のマージモードは、普通のマージモード、MMVDモード、CIIPモード、及び/又はサブブロックマージモードを含むことができる。
【0114】
GPMが使用されるとき、CUは、複数のパーティション方法のうちの1つを使用して、2個の幾何学形状パーティションに分割できる。実施形態では、64個の異なるパーティション方法がGPMに適用できる。64個の異なるパーティション方法は、0~360°の間で不均一に量子化される24個の角度、及びCUの中心に対して最大4本のエッジにより区別できる。
図9は、GPMにおいて適用される例示的な24個の角度を示す。
図10は、CU(1002)内のインデックス3を有する角度に関連付けられた例示的な4本の可能なパーティションエッジを示し、パーティションエッジの各々は各々の距離インデックスに関連付けることができる。距離インデックスは、CU(1002)の中心に対する距離を示すことができる。GPMでは、CUの各幾何学パーティションは、各々の動きベクトルを用いてインター予測できる。更に、各パーティションについて、単予測(uni-prediction)のみが許可できる。例えば、各パーティションは、1つの動きベクトル及び1つの参照インデックスを有することができる。各パーティションについて単予測の動きのみが許可されるという制約は、各CUについて2個の動き補償された予測のみが必要であることを保証できる。これは、例えば従来の双予測(bi-prediction)にも適用される。
【0115】
GPMが現在CUに使用される場合、幾何学パーティションインデックスを示す信号、及び2個のマージインデックス(パーティション毎に1つ)が更にシグナリングできる。最大GPM候補サイズは、例えばスライスレベルで明示的にシグナリングできる。最大GPM候補サイズは、GPMマージインデックスのシンタックスの2値化を指定できる。2つの幾何学パーティションの各々が予測された後、幾何学パーティションエッジに沿ったサンプル値は、適応重みにより融合処理を用いて調整できる。CU全体の予測信号は、従って、融合処理の後に生成できる。他の予測モードで、変換及び量子化処理が更にCU全体に適用できる。最後に、GPMを用いて予測されたCUの動きフィールドが格納できる。
【0116】
GPMはインター及びイントラ予測に適用でき、例えばVVCを超えてコーディング性能を向上する。例えば、幾何学パーティションに対して(又は関して)事前定義されたイントラ予測モードが、動きベクトルに加えて、GPMの適用されたCU内の各幾何学パーティションについてマージ候補リストから選択できる。イントラ予測モード又はインター予測モードは、フラグに基づき、各幾何学パーティションについて決定できる。インター予測が選択されると、マージ候補リストからMVにより、単予測信号が生成できる。或いは、イントラ予測モードが選択されると、イントラ予測モードの指定されたインデックスから予測された近隣サンプルから、単予測信号が生成できる。可能なイントラ予測モードの変形は、幾何学形状により制約できる。最後に、通常のGPMと同じ方法で、2つの単予測信号が融合できる。
【0117】
複雑さとシグナリングオーバヘッドを削減するために、可能なイントラ予測モードも変形を研究(又は定義)することができる。例えば、インター及びイントラ予測モードを有するGPMにおける可能なイントラ予測モードの変形の効果は、2つの例示的な構成について研究された。第1構成は、幾何学パーティションラインに対して(又は関して)平行及び垂直イントラ方向性モードを試しただけである。幾何学パーティションラインに対する(又は関する)平行及び垂直イントラ角度モードに加えて、第2構成では、平面モードもテストされた。2又は3つの可能なイントラ予測モードが、インター及びイントラ予測を有するGPMの幾何学パーティションについてテストされた。
【0118】
幾何学パーティション(geometric partitioning (GEO))によるイントラ予測では、ブロックパーティションは、事前定義されたテンプレイトを用いて各CUを幾何学的にパーティションするために使用できる。例示的な幾何学パーティションは
図11に示される。
図11に示すように、16個の例示的な事前定義された幾何学パーティションが、16個のCU(1102)~(1117)に各々適用できる。CU(1102)~(1117)の各々は、各々の事前定義されたテンプレイトによりパーティションできる。例えば、CU(1102)では、直線パーティションライン(1118)がCU(1102)をパーティションA及びパーティションBにパーティションでき、パーティションAはCU(1102)の左上角を含むことができる。
【0119】
CU内の各パーティション領域について、イントラ予測又はインター予測のいずれかが使用できる。
図12は、4分木及び2分木(QTBT)パーティションと幾何学パーティションの例示的な組み合わせを示す。
図12に示すように、GEOブロック(又はGEOによりパーティションされたブロック)において、GEOブロックの各パーティションされた領域は、イントラコーディング又はインターコーディングできる。例えば、GEOブロック(1202)において、第1パーティションAはイントラコーディングでき、第2パーティションBはインターコーディングできる。別のGEOブロック(1204)において、第1パーティションA及び第2パーティションBの両方がインターコーディングできる。更に
図12を参照すると、非GEOブロック(1206)は、QTBTパーティションによりパーティションA及びパーティションBにパーティションできる。非GEOブロック(1206)のパーティションA及びパーティションBの両方は、インターコーディング又はイントラコーディングされてよい。
【0120】
イントライントラ予測による長方形ブロックについて、変更された平面イントラ予測が、長方形ブロックの各サブパーティションに適用できる。続いて、長方形ブロックの元のサンプル値から長方形ブロックの予測サンプル値を減算したものに等しい残差サンプル値に、形状適応型変換が適用できる。
【0121】
関連する例では、幾何学パーティションによるイントラ予測のコーディング効率は、特定の期待に合わない場合がある。従って、幾何学パーティションの改良が必要である。
【0122】
本開示では、長方形ブロックを幾何学パーティションする代わりに、幾何学パーティションベースによるイントラ予測(又は幾何学パーティションに基づくイントラ予測)が、長方形ブロックに対して実行できる。長方形ブロックでは、幾何学パーティションに基づくイントラ予測が適用されるとき、直線パーティションラインは、長方形ブロックを2つのサブ領域に分割できる。各サブ領域は、異なるイントラ予測方法又はモードを使用して、イントラ予測を実行してよい。
【0123】
幾何学パーティションに基づくイントラ予測が適用されるとき、一方のサブ領域は、ビットストリームによりシグナリングされるイントラモードのような、ビットストリーム内で示された情報に基づきイントラモードを適用でき、他方のサブ領域は、平面イントラモードのような事前定義されたイントラモードを適用できる。ビットストリームによりシグナリングされるイントラモードは、VVCにおけるMPM方法のような、任意の形式のシンタックス要素でシグナリングされた任意のイントラモードを含めることができる。
【0124】
幾何学パーティションに基づくイントラ予測が適用されるとき、一方のサブ領域は、デコーダ側で導出されたイントラモードを適用でき、他方のサブ領域は、平面イントラモードのような事前定義されたイントラモードを適用できる。デコーダ側で導出したイントラモードは、デコーダ側で実行される任意のイントラモード導出方法で取得できる。例えば、デコーダ側で導出したイントラモードは、デコーダ側のイントラモード導出(decoder-side intra mode derivation (DIMD))又はテンプレイトに基づくイントラモード導出(template-based intra mode derivation (TIMD))を含むことができる。DIMDでは、ブロックの隣接サンプルに関連付けられた勾配のヒストグラム(histogram of gradient (HoG))に基づいて、複数の候補イントラモードを決定できる。TIMDでは、ブロックの隣接サンプルのコスト値(例えば、絶対差の和(sum of absolute difference (SAD))や絶対変換差の和(absolute transformed difference (SATD)))に基づいて、複数の候補イントラモードを決定できる。
【0125】
幾何学パーティションに基づくイントラ予測を適用すると、両方のサブ領域を同様の方法で決定できる。例えば、両方のサブ領域はデコーダ側で導出されたイントラモードを使用できる。デコーダ側で導出されるイントラモードは、DIMDやTIMDなど、デコーダ側で導出される任意のイントラモードにすることができる。
【0126】
幾何学パーティションに基づくイントラ予測が適用される場合、あるサブ領域のイントラモードを使用して、別のサブ領域のイントラモードを決定することができる。例えば、他のサブ領域のイントラモードは、1つのサブ領域のイントラモードに隣接することができる。1つのサブ領域のイントラモードは、例えばシグナリングされることができる。実施形態では、1つのサブ領域は、ビットストリームでシグナリングされたイントラモード(例えば、signaled_intra_mode)を使用することができ、他のサブ領域は、ビットストリームでシグナリングされたイントラモードに隣接するイントラモードを使用することができる。ビットストリームによりシグナリングされるイントラモードは、VVCにおけるMPM方法のような、任意の形式のシンタックス要素でシグナリングされた任意のイントラモードを含めることができる。
【0127】
隣接イントラモード(例えば、adjacent_intra_mode)は、事前定義されたオフセットOを使用して導出できる。例えば、隣接イントラモードは、式(1)に基づいて次のように決定できる:
adjacent_intra_mode=(signaled_intra_mode+O)%N (式1)
ここで、Nは各ブロック(又は各CU)で使用可能なイントラモードの総数を示すことができる。例えば、Nは66であり得る。事前定義されたオフセットOは、SPS、PPS、ピクチャヘッダ、又はスライスヘッダのように、ビットストリーム内でシグナリングすることもできる。したがって、(式1)に従って、ビットストリームでシグナリングされたイントラモードに隣接するイントラモードは、シグナリングされたイントラモードと事前定義されたオフセットOの合計をNで割った余りとして決定できる。
【0128】
本開示では、幾何学パーティションに基づくイントラ予測は、長方形ブロックのルマサンプル数が64などの閾値以上の場合にのみ適用できる。
【0129】
本開示では、幾何学パーティションに基づくイントラ予測について、幾何学パーティションに基づくイントラ予測に関連するイントラモードを、ピクセルサンプルの事前定義されたユニットに格納できる。例えば、イントラモードは、4x4ルマサンプルのユニットに格納できる。位置(x,y)の(又はその位置に関連付けられた)イントラモードが、MPMリストの構築やクロマの導出モード(derived mode (DM))(例えば、ルマブロックのイントラモードに対応するクロマブロック参照)など、様々なケースで参照される場合、位置(x,y)を含む4x4ルマサンプルのユニットに格納されたイントラモードを参照できる。例えば、位置(x,y)を含む4x4ルマサンプルのユニットに格納されているイントラモードは、MPMリストのインターモードとして決定でき、又は、対応するルマブロックのイントラモードとしても決定できる。クロマブロックは、イントラ予測のために、対応するルマブロックのイントラモードをさらに適用できる。
【0130】
サンプルのユニットを2つのサブ領域に分割し、2つのサブ領域が異なるイントラモードに関連付けられている場合、そのユニットに格納されているイントラモードは、サブ領域のサイズに基づいて決定できる。実施形態では、より大きな領域を持つサブ領域のイントラモードは、そのユニット(又はサンプルのユニット)に格納できる。例えば、
図13Aに示すように、ブロック(1302)は、4x4ルマサンプルのユニットのようなユニットとすることができ、直線パーティションライン(1304)によってパーティションBとパーティションAに分割される。パーティションBの領域は、パーティションAの領域よりも大きくすることができる。これにより、パーティションBのイントラモードを格納できる。
【0131】
サンプルのユニットを2つのサブ領域に均等に分割し、異なるイントラモードが2つのサブ領域に関連付けられるか又はその中で使用され、そのユニットに格納されたイントラモードは、サブ領域に含まれるユニットの側面の部分に基づいて決定できる。側面は、例えば上側又は左側であることができる。
【0132】
実施形態では、上ラインのより多く(又は上側のより大きな部分)をカバーするサブ領域は、そのユニット(又はサンプルのユニット)に格納できる。例えば、
図13Bに示すように、ブロック(1306)は、直線のパーティションライン(1308)によって、パーティションCとパーティションDに分割できる。パーティションCは、ブロック(1306)の上ラインのより多く(又は上側のより大きな部分)をカバーする。これにより、パーティションCのイントラモードを格納できる。
【0133】
実施形態では、サンプルのユニットが2つのサブ領域に等しく分割され、異なるイントラモードが2つのサブ領域に関連付けられるか又はその中で使用されている場合、より多くの左ラインをカバーするサブ領域をそのユニットに格納することができる。例えば、
図13Bに示すように、パーティションDは、ブロック(1306)の左ラインのより多く(又は上側のより大きな部分)をカバーする。これにより、パーティションDのイントラモードを格納できる。
【0134】
サンプルのユニットが2つのサブ領域に分割され、異なるイントラモードが2つのサブ領域に関連付けられているか又はその中で使用されており、1つのパーティションのみが方向性予測で符号化されている場合、どのパーティションが方向性イントラ予測モードで符号化されているかに基づき、格納されるべきイントラモードを決定することができる。実施形態では、方向性イントラ予測モードで符号化されたサブ領域をそのユニットに格納することができる。例えば、
図13Bに示すように、パーティションDのイントラモードが方向性イントラ予測モードであり、パーティションCのイントラモードが非方向性イントラ予測モードである場合、パーティションDのイントラモードを格納することができる。
【0135】
サンプルのユニットが2つのサブ領域に分割され、異なるイントラモードが2つのサブ領域に関連付けられているか又はその中で使用されており、2つのサブ領域の両方のイントラ予測モードが方向性イントラモードである場合、幾何学パーティションインデックスなどのインデックスを使用して、どのイントラモードが格納されているかを決定することができる。実施形態では、幾何学パーティションインデックス0(又は第1パーティションインデックス)のイントラ予測モードのみを格納することができる。例えば、
図13Bに示すように、パーティションCのイントラモードとパーティションDのイントラモードの両方が方向性イントラモードであり、パーティションCがGPMのパーティションインデックス0(又は第1パーティションインデックス)に関連付けられている場合、パーティションCのイントラモードを格納することができる。
【0136】
実施形態では、サンプルのユニットが分割され、異なるイントラモードを含み、両方のイントラ予測モードが方向性イントラモードである場合、幾何学パーティションインデックス1のイントラ予測モードのみを格納することができる。例えば、
図13Bに示すように、パーティションCのイントラモードとパーティションDのイントラモードの両方が方向性イントラモードであり、パーティションDがGPMのパーティションインデックス1(又は第2パーティションインデックス)に関連付けられている場合、パーティションDのイントラモードを格納することができる。
【0137】
図14は、本開示の幾つかの実施形態による、例示的な復号処理(1400)の概要を示すフローチャートを示す。
図15は、本開示の幾つかの実施形態による、例示的な符号化処理(1500)の概要を示すフローチャートを示す。提案される処理は、別個に使用され、又は任意の順序で結合されてよい。さらに、処理(又は実施形態)、エンコーダ、及びデコーダの各々は、処理回路(例えば、1つ以上のプロセッサ、又は1つ以上の集積回路)によって実装されてもよい。一例では、1つ以上のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。
【0138】
実施形態では、処理(例えば、(1400)及び(1500))の任意の動作は、必要に応じて、任意の量又は順序で結合又は配置することができる。実施形態では、処理(例えば、(1400)及び(1500))の任意の動作の2つ以上を並行して実行することができる。
【0139】
処理(例えば、(1400)と(1500))は、再構成中のブロックについて予測ブロックを生成するために、ブロックの再構成及び/又は符号化において使用できる。種々の実施形態では、処理(例えば、(1400)と(1500))は、端末装置(310)、(320)、(330)及び(340)内の処理回路、ビデオエンコーダ(403)の機能を実行する処理回路、ビデオデコーダ(410)の機能を実行する処理回路、ビデオデコーダ(510)の機能を実行する処理回路、ビデオエンコーダ(603)の機能を実行する処理回路、等のような処理回路により実行される。幾つかの実施形態では、処理(例えば、(1400)と(1500))は、ソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路が処理(例えば、(1400)と(1500))を実行する。
【0140】
図14に示すよう処理(1400)は、(S1401)から開始し、(S1410)に進むことができる。(S1410)で、ビデオのピクチャの中のCUのコーディング情報が、コーディングビデオビットストリームから受信できる。
【0141】
(S1420)で、CUをGPMに基づいて第1パーティションと第2パーティションに分割することができる。第1パーティション及び第2パーティションは、直線パーティションラインにより分割された互いに隣接する長方形パーティションであり得る。
【0142】
(S1430)で、CUの第1パーティションの第1イントラ予測モード及びCUの第2パーティションの第2イントラ予測モードが決定できる。第1イントラ予測モードは第2イントラ予測モードと異なることができる。
【0143】
(S1440)で、CUの第1パーティションは、第1イントラ予測モードに基づき再構成でき、CUの第2パーティションは、第2イントラ予測モードに基づき再構成できる。
【0144】
幾つかの実施形態では、CUの第1パーティションの第1イントラ予測モードは、コーディング情報に含まれるシンタックス要素に基づき、複数の候補イントラモードから決定できる。CUの第2パーティションの第2イントラ予測モードは、平面イントラモードであると決定できる。
【0145】
幾つかの実施形態では、CUの第1パーティションの第1イントラ予測モードは、CUの第1パーティションの近隣サンプルに基づき導出できる。CUの第2パーティションの第2イントラ予測モードは、平面イントラモードであると決定できる。
【0146】
幾つかの実施形態では、CUの第1パーティションの第1イントラ予測モードは、CUの第1パーティションの近隣サンプルに基づき導出できる。CUの第2パーティションの第2イントラ予測モードは、CUの第2パーティションの近隣サンプルに基づき導出できる。
【0147】
幾つかの実施形態では、CUの第1パーティションの第1イントラ予測モードは、コーディング情報に含まれるシンタックス要素に基づき、複数の候補イントラモードから決定できる。CUの第2パーティションの第2イントラ予測モードは、第1イントラ予測モードに隣接するイントラモードであると決定できる。第1イントラ予測モードに隣接するイントラモードは、調整済み第1イントラ予測モードを正の整数により除算した剰余に等しくなり得る。調整済み第1イントラ予測モードは、第1イントラ予測モードとオフセットの和に等しくなり得る。正の整数は、CUの利用可能なイントラ予測モードの数を示すことができる。
【0148】
処理(1400)では、CUのルマサンプルの数は64以上であり得る。
【0149】
処理(1400)では、CUの第1パーティションがCUの第2パーティションより広い領域を有することに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。
【0150】
処理(1400)では、CUの第1パーティションがCUの上側のより大きな部分を含むことに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。
【0151】
処理(1400)では、CUの第1パーティションがCUの左側のより大きな部分を含むことに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。
【0152】
処理(1400)では、第1イントラ予測モードが方向性イントラ予測モードであること、及び第2イントラ予測モードが非方向性イントラ予測モードであることに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。
【0153】
処理(1400)では、第1イントラ予測モード及び第2イントラ予測モードが方向性イントラ予測モードであることに基づき、CUの第1パーティションの第1イントラ予測モードを格納できる。第1パーティションは、GPMの第1パーティションインデックスに関連付けることができる。
【0154】
処理(1400)では、第1イントラ予測モード及び第2イントラ予測モードが方向性イントラ予測モードであることに基づき、CUの第2パーティションの第2イントラ予測モードを格納できる。CUの第1パーティションをGPMの第1パーティションインデックスに関連付けることができ、CUの第2パーティションをGPMの第2パーティションインデックスに関連付けることができる。
【0155】
図15に示すよう処理(1500)は、(S1501)から開始し、(S1510)に進むことができる。(S1510)で、ビデオのピクチャ内のCUは、GPMに基づき、第1パーティション及び第2パーティションにパーティションでき、GPMではCUが第1パーティション及び第2パーティションにパーティションされ、第1パーティション及び第2パーティションにパーティションは、直線パーティションラインにより分割された互いに隣接する長方形パーティションであり得る。
【0156】
(S1520)で、CUの第1パーティションの第1イントラ予測モード及びCUの第2パーティションの第2イントラ予測モードが決定できる。第1イントラ予測モードは第2イントラ予測モードと異なることができる。
【0157】
(S1530)で、第1イントラ予測モードに基づいてCUの第1パーティションに対して第1イントラ予測を実行でき、第2イントラ予測モードに基づいてCUの第2パーティションに対して第2イントラ予測を実行できる。
【0158】
(S1540)で、GPMに関連付けられた第1イントラ予測と第2イントラ予測に基づいて、CUのコーディング情報を生成できる。
【0159】
上述の技術は、コンピュータ可読命令を用いてコンピュータソフトウェアとして実装でき、1つ以上のコンピュータ可読媒体に物理的に格納でる。例えば、
図16は、本開示の主題の特定の実施形態を実装するのに適するコンピュータシステム(1600)を示す。
【0160】
コンピュータソフトウェアは、アセンブリ、コンパイル、リンク等のメカニズムにより処理されて、1つ以上のコンピュータ中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、等により直接又はインタープリット、マイクロコード実行、等を通じて実行可能な命令を含むコードを生成し得る、任意の適切な機械コード又はコンピュータ言語を用いてコーディングできる。
【0161】
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム装置、モノのインターネット装置、等を含む種々のコンピュータ又はそのコンポーネントで実行できる。
【0162】
コンピュータシステム(1600)の
図16に示すコンポーネントは、本来例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用又は機能の範囲に対するようないかなる限定も示唆しない。更に、コンポーネントの構成も、コンピュータシステム(1600)の例示的な実施形態に示されたコンポーネントのうちのいずれか又は組み合わせに関連する任意の依存性又は要件を有すると解釈されるべきではない。
【0163】
コンピュータシステム(1600)は、特定のヒューマンインタフェース入力装置を含んでよい。このようなヒューマンインタフェース入力装置は、例えば感覚入力(例えば、キーストローク、スワイプ、データグラブ動作)、音声入力(例えば、音声、クラッピング)、視覚的入力(例えば、ジェスチャ)、嗅覚入力(示されない)を通じた1人以上の人間のユーザによる入力に応答してよい。ヒューマンインタフェース装置は、必ずしも人間による意識的入力に直接関連する必要のない特定の媒体、例えば音声(例えば、会話、音楽、環境音)、画像(例えば、スキャンされた画像、デジタルカメラから取得された写真画像)、ビデオ(例えば、2次元ビデオ、3次元ビデオ、立体ビデオを含む)をキャプチャするためにも使用できる。
【0164】
入力ヒューマンインタフェース装置は、キーボード(1601)、マウス(1602)、トラックパッド(1603)、タッチスクリーン(1610)、データグラブ(図示しない)、ジョイスティック(1605)、マイクロフォン(1606)、スキャナ(1607)、カメラ(1608)、のうちの1つ以上を含んでよい(そのうちの1つのみが示される)。
【0165】
コンピュータシステム(1600)は、特定のヒューマンインタフェース出力装置も含んでよい。このようなヒューマンインタフェース出力装置は、例えば感覚出力、音声、光、及び匂い/味を通じて1人以上の人間のユーザの感覚を刺激してよい。このようなヒューマンインタフェース出力装置は、感覚出力装置を含んでよい(例えば、タッチスクリーン(1610)、データグラブ(図示しない)、又はジョイスティック(1605(による感覚フィードバック、しかし入力装置として機能しない感覚フィードバック装置も存在し得る)、音声出力装置(例えば、スピーカ(1609)、ヘッドフォン(図示しない)、視覚的出力装置(例えば、スクリーン(1610)、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含み、各々タッチスクリーン入力能力を有し又は有さず、各々感覚フィードバック能力を有し又は有さず、これらのうちの幾つかは例えば立体出力、仮想現実眼鏡(図示しない)、ホログラフィックディスプレイ、及び発煙剤タンク(図示しない)、及びプリンタ(図示しない)のような手段を通じて2次元視覚出力又は3次元以上の出力を出力可能であってよい))。
【0166】
コンピュータシステム(1600)は、人間のアクセス可能な記憶装置、及び、例えばCD/DVD等の媒体(1621)を備えるCD/DVD ROM/RW(1620)を含む光学媒体、サムドライブ(1622)、取り外し可能ハードドライブ又は固体ドライブ(1623)、テープ及びフロッピディスク(図示しない)のようなレガシー磁気媒体、セキュリティドングル(図示しない)等のような専用ROM/ASIC/PLDに基づく装置のような関連する媒体も含み得る。
【0167】
当業者は、本開示の主題と関連して使用される用語「コンピュータ可読媒体」が伝送媒体、搬送波、又は他の一時的信号を包含しないことも理解すべきである。
【0168】
コンピュータシステム(1600)は、1つ以上の通信ネットワーク(1655)へのインタフェース(1654)も含み得る。ネットワークは、例えば無線、有線、光であり得る。ネットワークへは、更に、ローカル、広域、都市域、車両及び産業、リアルタイム、耐遅延性、等であり得る。ネットワークの例は、イーサネットのようなローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、LTE等を含むセルラネットワーク、ケーブルTV、衛星TV、地上波放送TVを含むTV有線又は無線広域デジタルネットワーク、CANBusを含む車両及び産業、等を含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺機器バス(1649)(例えば、コンピュータシステム(1600)のUSBポート)に取り付けられる外部ネットワークインタフェースを必要とする。他のものは、一般に、後述するようなシステムバスへの取り付けによりコンピュータシステム(1600)のコアに統合される(例えば、イーサネットインタフェースをPCコンピュータシステムへ、又はセルラネットワークインタフェースをスマートフォンコンピュータシステムへ)。これらのネットワークを用いて、コンピュータシステム(1600)は、他のエンティティと通信できる。このような通信は、単方向受信のみ(例えば、放送TV)、単方向送信のみ(例えば、特定のCANbus装置へのCANbus)、又は例えばローカル又は広域デジタルネットワークを用いて他のコンピュータシステムへの双方向であり得る。特定のプロトコル及びプロトコルスタックが、上述のネットワーク及びネットワークインタフェースの各々で使用され得る。
【0169】
前述のヒューマンインタフェース装置、人間のアクセス可能な記憶装置、及びネットワークインタフェースは、コンピュータシステム(1600)のコア(1640)に取り付け可能である。
【0170】
コア(1640)は、1つ以上の中央処理ユニット(CPU)(1641)、グラフィック処理ユニット(GPU)(1642)、FPGAの形式の専用プログラマブル処理ユニット(1643)、特定タスクのためのハードウェアアクセラレータ(1644)、グラフィックアダプタ(1650)、等を含み得る。これらの装置は、読み出し専用メモリ(ROM)(1645)、ランダムアクセスメモリ(1646)、内部のユーザアクセス不可能なハードドライブ、SSD、等のような内蔵大容量記憶装置(1647)と共に、システムバス(1648)を通じて接続されてよい。幾つかのコンピュータシステムでは、追加CPU、GPU、等による拡張を可能にするために、システムバス(1648)は、1つ以上の物理プラグの形式でアクセス可能である。周辺機器は、コアのシステムバス(1648)に直接に、又は周辺機器バス(1649)を通じて、取り付け可能である。例では、スクリーン(1610)は、グラフィックアダプタ(1650)に接続できる。周辺機器バスのアーキテクチャは、PCI、USB等を含む。
【0171】
CPU(1641)、GPU(1642)、FPGA(1643)、及びアクセラレータ(1644)は、結合されて前述のコンピュータコードを生成可能な特定の命令を実行できる。該コンピュータコードは、ROM(1645)又はRAM(1646)に格納できる。一時的データもRAM(1646)に格納でき、一方で、永久的データは例えば内蔵大容量記憶装置(1647)に格納できる。メモリ装置のうちのいずれかへの高速記憶及び読み出しは、CPU(1641)、GPU(1642)、大容量記憶装置(1647)、ROM(1645)、RAM(1646)等のうちの1つ以上に密接に関連付けられ得るキャッシュメモリの使用を通じて可能にできる。
【0172】
コンピュータ可読媒体は、種々のコンピュータにより実施される動作を実行するためのコンピュータコードを有し得る。媒体及びコンピュータコードは、本開示の目的のために特別に設計され構成されたものであり得、又は、コンピュータソフトウェア分野の当業者によく知られ利用可能な種類のものであり得る。
【0173】
例として及び限定ではなく、アーキテクチャを有するコンピュータシステム(1600)、及び具体的にはコア(1640)は、プロセッサ(CPU、GPU、FPGA、アクセラレータ、等を含む)が1つ以上の有形コンピュータ可読媒体内に具現化されたソフトウェアを実行した結果として、機能を提供できる。このようなコンピュータ可読媒体は、コア内蔵大容量記憶装置(1647)又はROM(1645)のような非一時的特性のコア(1640)の特定の記憶装置、及び上述のようなユーザアクセス可能な大容量記憶装置と関連付けられた媒体であり得る。本開示の種々の実施形態を実装するソフトウェアは、このような装置に格納されコア(1640)により実行できる。コンピュータ可読媒体は、特定の必要に従い、1つ以上のメモリ装置又はチップを含み得る。ソフトウェアは、コア(1640)及び具体的にはその中のプロセッサ(CPU、GPU、FPGA、等を含む)に、ソフトウェアにより定義された処理に従うRAM(1646)に格納されたデータ構造の定義及び該データ構造の変更を含む、ここに記載した特定の処理又は特定の処理の特定の部分を実行させることができる。追加又は代替として、コンピュータシステムは、ここに記載の特定の処理又は特定の処理の特定の部分を実行するためにソフトウェアと一緒に又はそれに代わって動作可能な論理ハードワイヤド又は他の回路内の実装(例えば、アクセラレータ(1644))の結果として機能を提供できる。ソフトウェアへの言及は、ロジックを含み、適切な場合にはその逆も同様である。コンピュータ可読媒体への言及は、適切な場合には、実行のためにソフトウェアを格納する(集積回路(IC)のような)回路、実行のためにロジックを実装する回路、又はそれらの両方を含み得る。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを含む。
付録A:用語集
JEM: joint exploration model
VVC: versatile video coding
BMS: benchmark set
MV: Motion Vector
HEVC: High Efficiency Video Coding
SEI: Supplementary Enhancement Information
VUI: Video Usability Information
GOPs: Groups of Pictures
TUs: Transform Units,
PUs: Prediction Units
CTUs: Coding Tree Units
CTBs: Coding Tree Blocks
PBs: Prediction Blocks
HRD: Hypothetical Reference Decoder
SNR: Signal Noise Ratio
CPUs: Central Processing Units
GPUs: Graphics Processing Units
CRT: Cathode Ray Tube
LCD: Liquid-Crystal Display
OLED: Organic Light-Emitting Diode
CD: Compact Disc
DVD: Digital Video Disc
ROM: Read-Only Memory
RAM: Random Access Memory
ASIC: Application-Specific Integrated Circuit
PLD: Programmable Logic Device
LAN: Local Area Network
GSM: Global System for Mobile communications
LTE: Long-Term Evolution
CANBus: Controller Area Network Bus
USB: Universal Serial Bus
PCI: Peripheral Component Interconnect
FPGA: Field Programmable Gate Areas
SSD: solid-state drive
IC: Integrated Circuit
CU: Coding Unit
【0174】
本開示は、幾つかの例示的な実施形態を記載したが、代替、置換、及び種々の代用の均等物が存在し、それらは本開示の範囲に包含される。当業者に明らかなことに、ここに明示的に示され又は説明されないが、本開示の原理を実施し、従って、本開示の精神及び範囲に含まれる多数のシステム及び方法を考案可能である。
【国際調査報告】