IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特表2022-525337デコーダが実行するビデオデコーディングのための方法、装置及び非一時的なコンピュータ可読媒体、並びにエンコーダが実行するビデオエンコーディングのための方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-05-12
(54)【発明の名称】デコーダが実行するビデオデコーディングのための方法、装置及び非一時的なコンピュータ可読媒体、並びにエンコーダが実行するビデオエンコーディングのための方法
(51)【国際特許分類】
   H04N 19/70 20140101AFI20220502BHJP
   H04N 19/503 20140101ALI20220502BHJP
   H04N 19/593 20140101ALI20220502BHJP
【FI】
H04N19/70
H04N19/503
H04N19/593
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021555365
(86)(22)【出願日】2020-10-01
(85)【翻訳文提出日】2021-09-13
(86)【国際出願番号】 US2020053752
(87)【国際公開番号】W WO2021071735
(87)【国際公開日】2021-04-15
(31)【優先権主張番号】62/912,764
(32)【優先日】2019-10-09
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/035,051
(32)【優先日】2020-09-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】シュイ,シアオジョォン
(72)【発明者】
【氏名】チョイ,ビョンドゥ
(72)【発明者】
【氏名】リィウ,シャン
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159NN11
5C159RC11
5C159UA02
5C159UA05
5C159UA33
(57)【要約】
開示の態様は、ビデオデコーディングのための方法及びそのための処理回路を含む装置を提供する。処理回路は、コーディングされたビデオビットストリームから、現在のピクチャのコーディング情報を受け取る。コーディング情報内の少なくとも1つのフラグは、現在のピクチャ内のサブパーティションに対する1つ以上の許されるコーディングタイプを示す。1つ以上の許されるコーディングタイプは、サブパーティションに対するイントラコーディング及びインターコーディングのうちの少なくとも1つを含む。処理回路は、少なくとも1つのフラグに基づいて、イントラサブパーティションコーディングのためにのみ使用されるイントラシンタックス要素をデコードすべきかどうかと、インターサブパーティションコーディングのためにのみ使用されるインターシンタックス要素をデコードすべきかどうかとを決定する。処理回路は、イントラシンタックス要素がデコードされるべきであると決定される場合には、コーディング情報内のイントラシンタックス要素をデコードし、インターシンタックス要素がデコードされるべきであると決定される場合には、コーディング情報内のインターシンタックス要素をデコードする。
【特許請求の範囲】
【請求項1】
デコーダが実行するビデオデコーディングのための方法であって、
コーディングされたビデオビットストリームから、現在のピクチャのコーディング情報を受け取るステップであり、前記コーディング情報内の少なくとも1つのフラグは、前記現在のピクチャ内のサブパーティションに対する1つ以上の許されるコーディングタイプを示し、前記1つ以上の許されるコーディングタイプは、前記サブパーティションに対するイントラコーディング及びインターコーディングのうちの少なくとも1つを含む、前記受け取るステップと、
前記少なくとも1つのフラグに基づいて、イントラサブパーティションコーディングのためにのみ使用されるイントラシンタックス要素をデコードすべきかどうかと、インターサブパーティションコーディングのためにのみ使用されるインターシンタックス要素をデコードすべきかどうかとを決定するステップと、
前記イントラシンタックス要素がデコードされるべきであると決定されることに基づいて、前記コーディング情報内の前記イントラシンタックス要素をデコードするステップと、
前記インターシンタックス要素がデコードされるべきであると決定されることに基づいて、前記コーディング情報内の前記インターシンタックス要素をデコードするステップと
を有する方法。
【請求項2】
前記少なくとも1つのフラグは、インターコーディングされたサブパーティションが前記現在のピクチャにおいて許されるかどうかを示す第1フラグ、及びイントラコーディングされたサブパーティションが前記現在のピクチャにおいて許されるかどうかを示す第2フラグ、のうちの少なくとも1つを含む、
請求項1に記載の方法。
【請求項3】
前記少なくとも1つのフラグは、前記第1フラグのみを含み、前記第1フラグは、インターコーディングされたサブパーティションが前記現在のピクチャにおいてにおいて許されないことを示し、前記1つ以上のコーディングタイプは、前記サブパーティションに対する前記イントラコーディングであり、
前記イントラシンタックス要素をデコードすべきかどうかと、前記インターシンタックス要素をデコードすべきかどうかとを決定する前記ステップは、
インターシンタックス要素が前記現在のピクチャに対してデコードされるべきではないことを決定するステップと、
前記イントラシンタックス要素が前記サブパーティションに対してデコードされるべきであることを決定するステップと
を含む、
請求項2に記載の方法。
【請求項4】
前記少なくとも1つのフラグは、前記第1フラグ及び前記第2フラグを含み、前記第1フラグは、前記インターコーディングされたサブパーティションが前記現在のピクチャにおいて許されることを示し、前記第2フラグは、イントラコーディングされたサブパーティションが前記現在のピクチャにおいて許されないことを示し、
前記イントラシンタックス要素をデコードすべきかどうかと、前記インターシンタックス要素をデコードすべきかどうかとを決定する前記ステップは、
前記インターシンタックス要素が前記インターコーディングで前記サブパーティションに対してデコードされるべきであることを決定するステップと、
イントラシンタックス要素が前記現在のピクチャに対してデコードされるべきではないことを決定するステップと
を含む、
請求項2に記載の方法。
【請求項5】
前記少なくとも1つのフラグは、前記第1フラグ及び前記第2フラグを含み、前記第1フラグは、インターコーディングされたサブパーティションが前記現在のピクチャにおいて許されないことを示し、前記第2フラグは、前記イントラコーディングされたサブパーティションが前記現在のピクチャにおいて許されることを示し、
前記イントラシンタックス要素をデコードすべきかどうかと、前記インターシンタックス要素をデコードすべきかどうかとを決定する前記ステップは、
インターシンタックス要素が前記現在のピクチャに対してデコードされるべきではないことを決定するステップと、
前記イントラシンタックス要素が前記サブパーティションに対してデコードされるべきであることを決定するステップと
を含む、
請求項2に記載の方法。
【請求項6】
前記少なくとも1つのフラグは、前記第1フラグ及び前記第2フラグを含み、前記第1フラグは、前記インターコーディングされたサブパーティションが前記現在のピクチャにおいて許されることを示し、前記第2フラグは、前記イントラコーディングされたサブパーティションが前記現在のピクチャにおいて許されることを示し、
前記イントラシンタックス要素をデコードすべきかどうかと、前記インターシンタックス要素をデコードすべきかどうかとを決定する前記ステップは、
前記インターシンタックス要素が前記インターコーディングで前記サブパーティションのうちの少なくとも1つに対してデコードされるべきであることを決定するステップと、
前記イントラシンタックス要素が前記イントラコーディングで前記サブパーティションのうちの少なくとも1つに対してデコードされるべきであることを決定するステップと
を含む、
請求項2に記載の方法。
【請求項7】
前記少なくとも1つのフラグは、前記現在のピクチャを含む1つ以上のピクチャに対するピクチャパラメータセット(PPS)において、又は前記現在のピクチャのピクチャヘッダにおいてシグナリングされる、
請求項1乃至6のうちいずれか一項に記載の方法。
【請求項8】
前記サブパーティションは、前記現在のピクチャにおける少なくとも1つのスライス、少なくとも1つのタイル、又は少なくとも1つのタイルグループを含む、
請求項1乃至7のうちいずれか一項に記載の方法。
【請求項9】
ビデオデコーディングのための装置であって、
処理回路と、
プログラムを記憶している非一時的なコンピュータ可読媒体と
を有し、
前記プログラムは、前記処理回路によって実行される場合に、前記処理回路に、請求項1乃至8のうちいずれか一項に記載の方法を実行させる、
装置。
【請求項10】
ビデオデコーディングのためにコンピュータによって実行される場合に、該コンピュータに、請求項1乃至8のうちいずれか一項に記載の方法を実行させるプログラムを記憶している非一時的なコンピュータ可読媒体。
【請求項11】
エンコーダが実行するビデオエンコーディングのための方法であって、
ビデオビットストリームをエンコーディングして、コーディングされたビデオビットストリームを生成するステップと、
前記コーディングされたビデオビットストリームから、現在のピクチャのコーディング情報を受け取るステップであり、前記コーディング情報内の少なくとも1つのフラグは、前記現在のピクチャ内のサブパーティションに対する1つ以上の許されるコーディングタイプを示し、前記1つ以上の許されるコーディングタイプは、前記サブパーティションに対するイントラコーディング及びインターコーディングのうちの少なくとも1つを含む、前記受け取るステップと、
前記少なくとも1つのフラグに基づいて、イントラサブパーティションコーディングのためにのみ使用されるイントラシンタックス要素をデコードすべきかどうかと、インターサブパーティションコーディングのためにのみ使用されるインターシンタックス要素をデコードすべきかどうかとを決定するステップと、
前記イントラシンタックス要素がデコードされるべきであると決定されることに基づいて、前記コーディング情報内の前記イントラシンタックス要素をデコードするステップと、
前記インターシンタックス要素がデコードされるべきであると決定されることに基づいて、前記コーディング情報内の前記インターシンタックス要素をデコードするステップと
を有する方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ビデオコーディングに概して関係がある実施形態について記載する。
【背景技術】
【0002】
本明細書中で与えられている背景の説明は、本開示の背景を一般的に提示することを目的とするものである。現在指名されている発明者の研究は、その研究がこの背景の項で説明されている範囲で、及び出願時に先行技術としてさもなければ適格でない可能性がある説明の側面は、本開示に対する先行技術として明示的にも暗黙的にも認められない。
【0003】
ビデオコーディング及びデコーディングは、動き補償を伴ったインターピクチャ予測を用いて実行可能である。圧縮されていないデジタルビデオは、ピクチャの連続を含むことができ、各ピクチャは、例えば、1920×1080のルミナンスサンプル及び関連するクロミナンスサンプルの空間寸法を有する。ピクチャの連続は、例えば、毎秒60ピクチャ、つまり60Hzの固定又は可変のピクチャレート(俗にフレームレートとしても知られている。)を有することができる。圧縮されていないビデオは、有意なビットレート要件を有している。例えば、サンプル当たり8ビットでの1080p60 4:2:0ビデオ(60Hzのフレームレートでの1920×1080のルミナンスサンプル解像度)は、1.5Gビット/sに近いバンド幅を必要とする。そのようなビデオの1時間は、600Gバイト超の記憶空間を必要とする。
【0004】
ビデオコーディング及びデコーディングの1つの目的は、圧縮による入力ビデオ信号の冗長性の低減であることができる。圧縮は、いくつかの場合に2桁以上、上記のバンド幅又は記憶空間要件を減らすことを助けることができる。可逆及び不可逆圧縮の両方並びにそれらの組み合わせが用いられ得る。可逆圧縮は、原信号の厳密なコピーが圧縮された原信号から再構成可能である技術を指す。不可逆圧縮を使用する場合に、再構成された信号は、原信号と同じでない場合があるが、原信号と再構成された信号との間のひずみは、再構成された信号を、意図された用途にとって有用なものとするほど十分に小さい。ビデオの場合には、不可逆圧縮が広く用いられている。許容されるひずみの量は用途に依存し、例えば、特定の消費者ストリーミング用途のユーザは、テレビジョン配信用途のユーザよりも高いひずみを許容し得る。達成可能な圧縮比は、より高い許容可能な/受け入れ可能なひずみがより高い圧縮比をもたらし得ることを反映することができる。
【0005】
ビデオエンコーダ及びデコーダは、例えば、動き補償、変換、量子化、及びエントロピコーディングを含むいくつかの広いカテゴリからの技術を利用することができる。
【0006】
ビデオコーデック技術は、イントラコーディングとして知られている技術を含むことができる。イントラコーディングでは、サンプル値は、前に再構成された参照ピクチャからのサンプル又は他のデータを参照せずに表現される。いくつかのビデオコーデックでは、ピクチャは、空間的にサンプルのブロックに細分される。サンプルの全てのブロックがイントラモードでコーディングされる場合に、そのピクチャはイントラピクチャであることができる。イントラピクチャ及びそれらの派生物、例えば、独立したデコーダリフレッシュピクチャは、デコーダ状態をリセットするために使用され得るので、コーディングされたビデオビットストリーム及びビデオセッションの最初のピクチャとして、又は静止画像として使用され得る。イントラブロックのサンプルは、変換を受けることができ、変換係数は、エントロピコーディング前に量子化され得る。イントラ予測は、変換前領域でサンプル値を最小限にする技術であることができる。いくつかの場合に、変換後のDC値が小さければ小さいほど、かつ、AC係数が小さければ小さいほど、エントロピコーディング後にブロックを表すために所与の量子化ステップサイズで必要とされるビットはますます少ない。
【0007】
例えば、MPEG-2世代のコーディング技術から知られているような、従来のイントラコーディングは、イントラ予測を使用しない。しかし、いくつかのより新しいビデオ圧縮技術は、例えば、データの空間的に隣接しかつデコーディング順序において先行するブロックのエンコーディング/デコーディング中に得られた周囲サンプルデータ及び/又はメタデータから試みる技術を含む。かような技術は、以降「イントラ予測」技術と呼ばれる。少なくともいくつかの場合に、イントラ予測は、再構成中の現在のピクチャからのみ参照データを使用し、参照ピクチャからは使用しない点に留意されたい。
【0008】
多種多様な形態のイントラ予測が存在し得る。かような技術の1つよりも多くが所与のビデオコーディング技術で使用され得る場合に、使用中の技術はイントラ予測モードでコーディングされ得る。特定の場合に、モードは、サブモード及び/又はパラメータを有することができ、それらは、独立してコーディングされ得るか、又はモードコードワードに含まれ得る。所与のモード/サブモード/パラメータ組み合わせのためにどのコードワードを使用すべきは、イントラ予測を通してコーディング効率利得に影響を及ぼし得るので、エントロピコーディング技術が、コードワードをビットストリームに変換するために使用され得る。
【0009】
特定のモードのイントラ予測が、H.264により導入され、H.265で洗練され、Joint Exploration Model(JEM)、Versatile Video Coding(VVC)、及びBenchmark Set(BMS)などのより新しいコーディング技術で更に洗練された。予測子ブロックは、既に利用可能なサンプルに属する隣接サンプル値を用いて形成され得る。隣接サンプルのサンプル値は、方向に応じて予測子ブロック内にコピーされる。使用中の方向の参照は、ビットストリームの中にコーディングされ得るか、又はそれ自体予測されてもよい。
【0010】
図1Aを参照すると、右下には、H.265の33個のとり得る予測子方向(35個のイントラモードのうちの33個の角度モードに対応)から知られている9つの予測子方向のサブセットが表されている。矢印が集まる点(101)は、予測中のサンプルに相当する。矢印は、サンプルが予測されている方向を表す。例えば、矢印(102)は、サンプル(101)が、水平から45度の角度で右上にある1つ又は複数のサンプルから予測される、ことを示す。同様に、矢印(103)は、サンプル(101)が、水平から22.5度の角度でサンプル(101)の左下にある1つ又は複数のサンプルから予測される、ことを示す。
【0011】
依然として図1Aを参照して、左上には、4×4個のサンプル(太破線によって示される。)の正方形ブロック(104)が表されている。正方形ブロック(104)は16個のサンプルを含み、各サンプルは、「S」、Y次元でのその位置(例えば、行インデックス)、及びX次元でのその位置(例えば、列インデックス)を用いてラベル付けされている。例えば、サンプルS21は、Y次元で(上から)2番目のサンプルかつX次元で(左から)1番目のサンプルである。同様に、サンプルS44は、Y及びXの両方の次元でブロック(104)内の4番目のサンプルである。ブロックはサイズが4×4サンプルであるということで、S44は右下にある。更には、類似した番号付け方式に従う参照サンプルが示されている。参照サンプルは、ブロック(104)に対して、「R」、そのY位置(例えば行インデックス)及びX位置(列インデックス)を用いてラベル付けされている。H.264及びH.265の両方で、予測サンプルは、再構成中のブロックに隣接し、従って、負値が使用される必要はない。
【0012】
イントラピクチャ予測は、信号により伝えられた予測方向によって必要に応じて隣接サンプルから参照サンプル値をコピーすることによって、働くことができる。例えば、コーディングされたビデオビットストリームが、このブロックについて、矢印(102)と一致する予測方向を示す、すなわち、サンプルが水平から45度の角度で右上にある1つ以上の予測サンプルから予測される、とのシグナリングを含む、とする。その場合に、サンプルS41、S32、S23、及びS14は、同じ参照サンプルR05から予測される。それから、サンプルS44は、参照サンプルR08から予測される。
【0013】
特定の場合に、複数の参照サンプルの値は、参照サンプルを計算するために、特に、方向が45度で等しく分割可能でない場合に、例えば、補間を通じて、組み合わされてよい。
【0014】
とり得る方向の数は、ビデオコーディング技術が発展するとともに増えている。H.264(2003年)では、9つの異なる方向が表現可能であった。それは、H.265(2013年)では33個にまで増え、そして、JEM/VVC/BMSは、本開示の時点で、最大65個の方向をサポートすることができる。最もありそうな方向を識別するために実験が行われており、エントロピコーディングにおける特定の技術が、可能性が低い方向に対する若干のペナルティを受け入れながら、少数のビットでそれらのありそうな方向を表現するために使用されている。更に、方向それ自体は、時々、隣接する、既にデコードされたブロックで使用された隣接方向から予測され得る。
【0015】
図1Bは、時間とともに増大する予測方向の数を説明するために、JEMによる65個のイントラ予測方向を表す概略図(180)を示す。
【0016】
方向を表すコーディングされたビデオビットストリーム内のイントラ予測方向ビットのマッピングは、ビデオコーディング技術ごとに異なる可能性があり、例えば、予測方向の単純な直接マッピングから、イントラ予測モードまで、コードワードまで、最確モードを含む複雑な適応スキーム、及び同様の技術まで及び得る。全ての場合で、しかしながら、特定の他の方向よりも統計的にビデオコンテンツで起こる可能性が低い特定の方向が存在し得る。ビデオ圧縮の目標は冗長性の低減であるということで、それらの可能性が低い方向は、上手く働くビデオコーディング技術では、よりありそうな方向よりも多いビット数によって表現されることになる。
【0017】
動き補償は、不可逆圧縮技術であることができ、前に再構成されたピクチャ又はその部分(参照ピクチャ)からのサンプルデータのブロックが、動きベクトル(以降MV)によって示された方向において空間的にシフトされた後に、新たに再構成されるピクチャ又はピクチャ部分の予測のために使用される技術に関係があり得る。いくつかの場合に、参照ピクチャは、現在再構成中のピクチャと同じであることができる。MVは2つの次元X及びY、又は3つの次元を有することができ、3番目の次元は、使用中の参照ピクチャの指示である(後者は、間接的に、時間次元であることができる。)。
【0018】
いくつかのビデオ圧縮技術では、サンプルデータの特定のエリアに適用可能なMVは、他のMVから、例えば、再構成中のエリアに空間的に隣接するサンプルデータの他のエリアに関係があり、デコーディング順序においてそのMVに先行するものから、予測され得る。そうすることで、MVをコーディングするために必要なデータの量を大幅に減らすことができ、それによって、冗長性を取り除きかつ圧縮を高める。例えば、カメラから得られた入力ビデオ信号(ナチュラルビデオとして知られる。)をコーディングする場合に、単一のMVが適用可能であるエリアよりも大きいエリアが同様の方向に移動するという統計的可能性があり、従って、いくつかの場合には、隣接するエリアのMVから導出された同様の動きベクトルを用いて予測可能であるということで、MV予測は有効に働くことができる。その結果、所与のエリアについて求められるMVは、周囲のMVから予測されたMVと類似又は同じであり、エントロピコーディング後に、MVを直接コーディングする場合に使用されることになるビット数よりも少ないビットで表され得る。いくつかの場合に、MV予測は、原信号(すなわち、サンプルストリーム)から導出された信号(すなわち、MV)の可逆圧縮の例であることができる。他の場合には、MV予測それ自体は、例えば、いくつかの周囲のMVから予測子を計算するときの丸め誤差のために、不可逆であり得る。
【0019】
様々なMV予測メカニズムがH.265/HEVC(ITU-T Rec. H265,“High Efficiency Video Coding”,2016年12月)で説明されている。H.265が提案する多くのMV予測メカニズムの中から、本明細書では、以降「空間マージ」と呼ばれる技術が説明される。
【0020】
図2を参照すると、現在のブロック(201)は、空間的にシフトされた同じサイズの前のブロックから予測可能であると動き探索プロセス中にエンコーダによって認められたサンプルを有する。そのMVを直接にコーディングする代わりに、MVは、1つ以上の参照ピクチャと関連付けられたメタデータから、例えば、(デコーディング順序において)最も最近の参照ピクチャから、A0、A1及びB0、B1、B2(夫々、202乃至206)と表される5つの周囲サンプルのうちのいずれか1つと関連付けられたMVを用いて導出され得る。H.265では、MV予測は、隣接するブロックが使用している同じ参照ピクチャからの予測子を使用することができる。
【発明の概要】
【0021】
開示の態様は、ビデオエンコーディング/デコーディングのための方法及び装置を提供する。いくつかの例で、ビデオデコーディングのための装置は、処理回路を含む。処理回路は、コーディングされたビデオビットストリームから、現在のピクチャのコーディング情報を受け取ることができる。コーディング情報内の少なくとも1つのフラグは、現在のピクチャ内のサブパーティションに対する1つ以上の許されるコーディングタイプを示すことができる。1つ以上の許されるコーディングタイプは、サブパーティションに対するイントラコーディング及びインターコーディングのうちの少なくとも1つを含むことができる。処理回路は、少なくとも1つのフラグに基づいて、イントラサブパーティションコーディングのためにのみ使用されるイントラシンタックス要素をデコードすべきかどうかと、インターサブパーティションコーディングのためにのみ使用されるインターシンタックス要素をデコードすべきかどうかとを決定することができる。処理回路は、イントラシンタックス要素がデコードされるべきであると決定されることに基づいて、コーディング情報内のイントラシンタックス要素をデコードすることができる。処理回路は、インターシンタックス要素がデコードされるべきであると決定されることに基づいて、コーディング情報内のインターシンタックス要素をデコードすることができる。
【0022】
実施形態において、少なくとも1つのフラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかを示す第1フラグ、及びイントラコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかを示す第2フラグ、のうちの少なくとも1つを含む。
【0023】
例において、少なくとも1つのフラグは、第1フラグのみを含む。第1フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されないことを示すことができる。1つ以上のコーディングタイプは、サブパーティションに対する前記イントラコーディングであることができる。処理回路は、インターシンタックス要素が現在のピクチャに対してデコードされるべきではないことを決定し、イントラシンタックス要素がサブパーティションに対してデコードされるべきであることを決定することができる。
【0024】
例において、少なくとも1つのフラグは、第1フラグ及び第2フラグを含む。第1フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されることを示すことができる。第2フラグは、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されないことを示すことができる。処理回路は、インターシンタックス要素がインターコーディングでサブパーティションに対してデコードされるべきであることを決定することができる。処理回路は、イントラシンタックス要素が前記現在のピクチャに対してデコードされるべきではないことを決定することができる。
【0025】
例において、少なくとも1つのフラグは、第1フラグ及び第2フラグを含む。第1フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されないことを示すことができる。第2フラグは、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されることを示すことができる。処理回路は、インターシンタックス要素が現在のピクチャに対してデコードされるべきではないことを決定することができ、イントラシンタックス要素がサブパーティションに対してデコードされるべきであることを決定することができる。
【0026】
例において、少なくとも1つのフラグは、第1フラグ及び第2フラグを含む。第1フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されることを示すことができる。第2フラグは、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されることを示すことができる。処理回路は、インターシンタックス要素がインターコーディングでサブパーティションのうちの少なくとも1つに対してデコードされるべきであることを決定することができる。処理回路は、イントラシンタックス要素がイントラコーディングでサブパーティションのうちの少なくとも1つに対してデコードされるべきであることを決定することができる。
【0027】
例において、少なくとも1つのフラグは、現在のピクチャを含む1つ以上のピクチャに対するピクチャパラメータセット(PPS)において、又は現在のピクチャのピクチャヘッダにおいてシグナリングされる。
【0028】
例において、サブパーティションは、現在のピクチャにおける少なくとも1つのスライス、少なくとも1つのタイル、又は少なくとも1つのタイルグループを含む。
【0029】
開示の態様は、ビデオデコーディングのためにコンピュータによって実行される場合に、コンピュータに、ビデオデコーディングのための方法のいずれかを実行させる命令を記憶している非一時的なコンピュータ可読媒体も提供する。
【0030】
開示されている対象の更なる特徴、性質、及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになる。
【図面の簡単な説明】
【0031】
図1A】イントラ予測モードの例示的なサブセットの概略図である。
図1B】例示的なイントラ予測方向の説明図である。
図2】一例における現在のブロック及びその周囲空間マージ候補の概略図である。
図3】実施形態に従う通信システム(300)の略ブロック図の概略図である。
図4】実施形態に従う通信システム(400)の略ブロック図の概略図である。
図5】実施形態に従うデコーダの略ブロック図の概略図である。
図6】実施形態に従うエンコーダの略ブロック図の概略図である。
図7】他の実施形態に従うエンコーダのブロック図を示す。
図8】他の実施形態に従うデコーダのブロック図を示す。
図9】本開示の実施形態に従うピクチャ(900)のラスタスキャンスライスパーティショニングの例を示す。
図10】本開示の実施形態に従うピクチャ(1000)の長方形スライスパーティショニングの例を示す。
図11】本開示の実施形態に従って、タイル、ブリック(1101~1111)、及び長方形スライス(1121~1124)にパーティション化されたピクチャ(1100)の例を示す。
図12】本開示の実施形態に従うピクチャ(1200)のサブピクチャパーティショニングの例を示す。
図13A】本開示の実施形態に従う高レベルシンタックス構造の例を示す。
図13B】本開示の実施形態に従う高レベルシンタックス構造の例を示す。
図13C】本開示の実施形態に従う高レベルシンタックス構造の例を示す。
図13D】本開示の実施形態に従う高レベルシンタックス構造の例を示す。
図14A】本開示の実施形態に従って、イントラ専用フラグに関係がある例示的なシンタックステーブル1を示す。
図14B】本開示の実施形態に従って、インター専用フラグに関係がある例示的なシンタックステーブル2を示す。
図15】本開示の実施形態に従うプロセス(1500)を説明するフローチャートを示す。
図16】実施形態に従うコンピュータシステムの概略図である。
【発明を実施するための形態】
【0032】
図3は、本開示の実施形態に従う通信システム(300)の略ブロック図を表す。通信システム(300)は、例えば、ネットワーク(350)を介して、互いと通信することができる複数の端末デバイスを含む。例えば、通信システム(300)は、ネットワーク(350)を介して相互接続されている端末デバイス(310)及び(320)の第1対を含む。図3では、端末デバイス(310)及び(320)の第1対は、データの一方向伝送を実行する。例えば、端末デバイス(310)は、ネットワーク(350)を介した他の端末デバイス(320)への伝送のためにビデオデータ(例えば、端末デバイス(310)によって捕捉されるビデオデータのストリーム)をコーディングしてよい。エンコードされたビデオデータは、1つ以上のコーディングされたビデオビットストリームの形で伝送可能である。端末デバイス(320)は、コーディングされたビデオデータをネットワーク(350)から受信し、コーディングされたビデオデータをデコードしてビデオピクチャを回復し、回復されたビデオデータに従ってビデオピクチャを表示してよい。一方向データ伝送は、メディアサービングアプリケーションなどにおいて一般的であり得る。
【0033】
他の例では、通信システム(300)は、例えば、ビデオ会議中に、現れ得るコーディングされたビデオデータの双方向伝送を実行する端末デバイス(330)及び(340)の第2対を含む。データの双方向伝送のために、例において、端末デバイス(330)及び(340)の各端末デバイスは、ネットワーク(350)を介した端末デバイス(330)及び(340)のうちの他方の端末デバイスへの伝送のためにビデオデータ(例えば、その端末デバイスによって捕捉されるビデオピクチャのストリーム)をコーディングしてよい。端末デバイス(330)及び(340)の各端末デバイスはまた、端末デバイス(330)及び(340)のうちの他方の端末デバイスによって送信されたコーディングされたビデオデータを受信してよく、コーディングされたビデオデータをデコードしてビデオピクチャを回復してよく、回復されたビデオデータに従って、アクセス可能な表示デバイスでビデオピクチャを表示してよい。
【0034】
図3の例では、端末デバイス(310)、(320)、(330)及び(340)は、サーバ、パーソナルコンピュータ、及びスマートフォンとして表され得るが、本開示の原理はそのように限定され得ない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、メディアプレイヤー、及び/又は専用のビデオ会議装置により用途を見出す。ネットワーク(350)は、例えば、ワイヤライン(有線)及び/又はワイヤレス通信ネットワークを含む、端末デバイス(310)、(320)、(330)及び(340)の間でコーディングされたビデオデータを伝達する任意数のネットワークに相当する。通信ネットワーク(350)は、回路交換及び/又はパケット交換チャネルにおいてデータを交換してもよい。代表的なネットワークには、電気通信網、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又はインターネットがある。本議論のために、ネットワーク(350)のアーキテクチャ及びトポロジは、以降で説明されない限りは本開示の動作に無関係であってよい。
【0035】
図4は、開示されている対象の応用例として、ストリーミング環境におけるビデオエンコーダ及びビデオデコーダの配置を表す。開示されている対象は、例えば、ビデオ会議と、デジタルTVと、CD、DVD、メモリスティックなどを含むデジタル媒体上での圧縮されたビデオの記憶と、などを含む他のビデオ対応用途に同様に適用可能であることができる。
【0036】
ストリーミングシステムは、例えば、圧縮されていないビデオピクチャのストリーム(402)を生成するビデオソース(401)、例えば、デジタルカメラ、を含むことができる捕捉サブシステム(413)を含んでよい。例において、ビデオピクチャのストリーム(402)は、デジタルカメラによって撮影されるサンプルを含む。ビデオピクチャのストリーム(402)は、エンコードされたビデオデータ(404)(又はコーディングされたビデオビットストリーム)と比較して高いデータボリュームを強調するために太線で表されており、ビデオソース(401)へ結合されたビデオエンコーダ(403)を含む電子デバイス(420)によって処理され得る。ビデオエンコーダ(403)は、以下で更に詳細に記載されるように、開示されている対象の態様を可能にする又は実装するためのハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。エンコードされたビデオデータ(404)(又はエンコードされたビデオビットストリーム(404))は、ビデオピクチャのストリーム(402)と比較してより低いデータボリュームを強調するために細線で表されており、将来の使用のためにストリーミングサーバ(405)に記憶され得る。図4のクライアントサブシステム(406)及び(408)などの1つ以上のストリーミングクライアントサブシステムは、エンコードされたビデオデータ(404)のコピー(407)及び(409)を読み出すためにストリーミングサーバ(405)にアクセスすることができる。クライアントサブシステム(406)は、例えば、電子デバイス(430)において、ビデオデコーダ(410)を含むことができる。ビデオデコーダ(410)は、エンコードされたビデオデータの入来するコピー(407)をデコードし、ディスプレイ(412)(例えば、表示スクリーン)又は他のレンダリングデバイス(図示せず。)でレンダリングされ得るビデオピクチャの送出ストリーム(411)を生成する。いくつかのストリーミングシステムにおいて、エンコードされたビデオデータ(404)、(407)、及び(409)(例えば、ビデオビットストリーム)は、特定のビデオコーディング/圧縮規格に従ってエンコードされ得る。そのような規格の例には、ITU-T推奨H.265がある。例において、開発中のビデオコーディング規格は、Versatile Video Coding(VVC)として俗に知られている。開示されている対象は、VVCに関連して使用されてもよい。
【0037】
なお、電子デバイス(420)及び(430)は、他のコンポーネント(図示せず。)を含むことができる。例えば、電子デバイス(420)は、ビデオデコーダ(図示せず。)を含むことができ、電子デバイス(430)は、ビデオエンコーダ(図示せず。)を同様に含むことができる。
【0038】
図5は、本開示の実施形態に従うビデオデコーダ(510)のブロック図を示す。ビデオデコーダ(510)は、電子デバイス(530)に含まれ得る。電子デバイス(530)は、受信器(531)(例えば、受信回路)を含むことができる。ビデオデコーダ(510)は、図4の例のビデオデコーダ(410)の代わりに使用され得る。
【0039】
受信器(531)は、ビデオデコーダ(510)によってデコードされるべき1つ以上のコーディングされたビデオシーケンスを、同じ又は他の実施形態では、一度に1つのコーディングされたビデオシーケンスを、受信してよい。ここで、夫々のコーディングされたビデオシーケンスのデコーディングは、他のコーディングされたビデオシーケンスから独立している。コーディングされたビデオシーケンスは、チャネル(501)から受信されてよく、チャネルは、エンコードされたビデオデータを記憶している記憶デバイスへのハードウェア/ソフトウェアリンクであってよい。受信器(531)は、エンコードされたビデオデータを他のデータ、例えば、コーディングされたオーディオデータ及び/又は補助的なデータストリームとともに受信してよく、それらは、それらの各々の使用エンティティ(図示せず。)へ転送されてよい。受信器(531)は、コーディングされたビデオシーケンスを他のデータから分離してよい。ネットワークジッタに対抗するために、バッファメモリ(515)が受信器(531)とエントロピデコーダ/パーサ(520)(以降「パーサ(520)」)との間に結合されてよい。特定の用途では、バッファメモリ(515)は、ビデオデコーダ(510)の部分である。他では、それは、ビデオデコーダ(510)の外にあることができる(図示せず。)。更に他では、例えば、ネットワークジッタに対抗するための、ビデオデコーダ(510)の外にあるバッファメモリ(図示せず。)と、加えて、例えば、再生タイミングを操作するための、ビデオデコーダ(510)内のもう1つのバッファメモリ(515)とが存在することができる。受信器(531)が十分なバンド幅及び可制御性の記憶/転送デバイスから、又はアイソシンクロナス(isosynchronous)ネットワークからデータを受信しているときに、バッファメモリ(515)は必要とされなくてもよく、あるいは、小さくてよい。インターネットなどのベストエフォートのパケットネットワークでの使用のために、バッファメモリ(515)は必要とされる場合があり、比較的に大きく、かつ、有利なことには、適応サイズであることができ、ビデオデコーダ(510)の外のオペレーティングシステム又は同様の要素(図示せず。)に少なくとも部分的に実装され得る。
【0040】
ビデオデコーダ(510)は、コーディングされたビデオシーケンスからシンボル(521)を再構成するためのパーサ(520)を含んでよい。それらのシンボルのカテゴリは、ビデオデコーダ(510)の動作を管理するために使用される情報と、潜在的に、電子デバイス(530)の必須部分でないが、図5に示されたように、電子デバイス(530)へ結合され得るレンダーデバイス(512)(例えば、表示スクリーン)などのレンダリングデバイスを制御するための情報とを含む。レンダリングデバイスのための制御情報は、Supplemental Enhancement Information(SEI)メッセージ又はVideo Usability Information(VUI)パラメータセットフラグメント(図示せず。)の形をとってよい。パーサ(520)は、受信されるコーディングされたビデオシーケンスをパース/エントロピデコードしてよい。コーディングされたビデオシーケンスのコーディングは、ビデオコーディング技術又は規格に従うことができ、可変長コーディング、ハフマンコーディング、文脈依存による又はよらない算術コーディング、などを含む様々な原理に従うことができる。パーサ(520)は、コーディングされたビデオシーケンスから、ビデオデコーダにおけるピクセルのサブグループのうちの少なくとも1つについてのサブグループパラメータの組を、そのグループに対応する少なくとも1つのパラメータに基づいて抽出し得る。サブグループは、グループ・オブ・ピクチャ(GOP)、ピクチャ、タイル、スライス、マクロブロック、コーディングユニット(CU)、ブロック、変換ユニット(TU)、予測ユニット(PU)、などを含むことができる。パーサ(520)はまた、変換係数などのコーディングされたビデオシーケンス情報から、量子化パラメータ値、動きベクトル、なども抽出し得る。
【0041】
パーサ(520)は、シンボル(521)を生成するために、バッファメモリ(515)から受信されたビデオシーケンスに対してエントロピデコーディング/パーシング動作を実行してよい。
【0042】
シンボル(521)の再構成は、コーディングされたビデオピクチャ又はその部分(例えば、インター及びイントラピクチャ、インター及びイントラブロック)のタイプ及び他の因子に応じて多数の異なるユニットを有することができる。どのユニットがどのように含まれるかは、コーディングされたビデオシーケンスからパーサ(520)によってパースされたサブグループ制御情報によって制御され得る。パーサ(520)と以下の複数のユニットとの間のそのようなサブグループ制御情報のフローは、明りょうさのために表されていない。
【0043】
既に述べられた機能ブロックを超えて、ビデオデコーダ(510)は、概念的に、以下で説明される多数の機能ユニットに細分され得る。商業上の制約の下で動作する実際の実施では、それらのユニットの多くが互いに密に相互作用し、少なくとも部分的に互いに組み込まれ得る。しかし、開示されている対象を説明することを目的として、以下での機能ユニットへの概念的細分は適切である。
【0044】
第1ユニットは、スケーラ/逆変換ユニット(551)である。スケーラ/逆変換ユニット(551)は、パーサ(520)からシンボル(521)として、量子化された変換係数とともに、使用するために変換するもの、ブロックサイズ、量子化係数、量子化スケーリングマトリクスなどを含む制御情報を受信する。スケーラ/逆変換ユニット(551)は、アグリゲータ(555)へ入力することができるサンプル値を含むブロックを出力することができる。
【0045】
いくつかの場合に、スケーラ/逆変換器(551)の出力サンプルは、イントラコーディングされたブロック、すなわち、前に再構成されたピクチャからの予測情報を使用しておらず、現在のピクチャの前に再構成された部分からの予測情報を使用することができるブロック、に関係することができる。かような予測情報は、イントラピクチャ予測ユニット(552)によって供給され得る。いくつかの場合に、イントラピクチャ予測ユニット(552)は、現在ピクチャバッファ(558)からフェッチされた周囲の既に再構成された情報を用いて、再構成中のブロックと同じサイズ及び形状のブロックを生成する。現在ピクチャバッファ(558)は、例えば、部分的に再構成された現在のピクチャ及び/又は完全に再構成された現在のピクチャをバッファリングする。アグリゲータ(555)は、いくつかの場合に、サンプルごとに、イントラ予測ユニット(552)が生成した予測情報を、スケーラ/逆変換ユニット(551)によって供給される出力サンプル情報に加える。
【0046】
他の場合では、スケーラ/逆変換ユニット(551)の出力サンプルは、インターコーディングされた、そして潜在的に動き補償されたブロックに関係することができる。かような場合に、動き補償予測ユニット(553)は、予測のために使用されるサンプルをフェッチするよう参照ピクチャメモリ(557)にアクセスすることができる。ブロックに関係するシンボル(521)に従って、フェッチされたサンプルを動き補償した後に、それらのサンプルは、出力サンプル情報を生成するために、アグリゲータ(555)によって、スケーラ/逆変換ユニット(551)の出力(この場合に、残差サンプル又は残差信号と呼ばれる。)に加えられ得る。動き補償予測ユニット(553)が予測サンプルをフェッチする参照ピクチャメモリ(557)内のアドレスは、例えば、X、Y及び参照ピクチャコンポーネントを有することができるシンボル(521)の形で動き補償予測ユニット(553)が利用することができる動きベクトルによって制御され得る。動き補償はまた、サブサンプルの正確な動きベクトルが使用されているときに参照ピクチャメモリ(557)からフェッチされるサンプル値の補間や、動きベクトル予測メカニズムなどを含むことができる。
【0047】
アグリゲータ(555)の出力サンプルは、ループフィルタユニット(556)において様々なループフィルタリング技術を受けることができる。ビデオ圧縮技術は、インループフィルタ技術を含むことができる。この技術は、コーディングされたビデオシーケンス(コーディングされたビデオビットストリームとも呼ばれる。)に含まれており、パーサ(520)からのシンボル(521)としてループフィルタユニット(556)に利用可能にされたパラメータによって制御されるが、コーディングされたピクチャ又はコーディングされたビデオシーケンスの(デコーディング順序において)前の部分のデコーディング中に得られたメタ情報にも応答することができ、更には、前に構成されたループフィルタ処理されたサンプル値に応答することができる。
【0048】
ループフィルタユニット(556)の出力は、レンダーデバイス(512)へ出力され、更には、将来のインターピクチャ予測における使用のために参照ピクチャメモリ(557)に記憶され得るサンプルストリームであることができる。
【0049】
特定のコーディングされたピクチャは、完全に再構成されると、将来の予測のための参照ピクチャとして使用され得る。例えば、現在のピクチャに対応するコーディングされたピクチャが完全に再構成され、コーディングされたピクチャが(例えば、パーサ(520)によって)参照ピクチャとして識別されると、現在ピクチャバッファ(558)は、参照ピクチャメモリ(557)の部分になることができ、未使用の現在ピクチャバッファが、後続のコーディングされたピクチャの再構成を開始する前に再割り当てされ得る。
【0050】
ビデオデコーダ(510)は、ITU-T推奨H.265などの規格における所定のビデオ圧縮技術に従ってデコーディング動作を実行してよい。コーディングされたビデオシーケンスは、そのコーディングされたビデオシーケンスが、ビデオ圧縮技術又は規格のシンタックス及びビデオ圧縮技術又は規格において文書化されているプロファイルの両方に従うという意味で、使用中のビデオ圧縮技術又は規格によって規定されたシンタックスに従い得る。具体的には、プロファイルは、ビデオ圧縮技術又は規格で利用可能な全てのツールからそのプロファイルの下での使用のために利用可能な最適なツールとして特定のツールを選択することができる。また、コーディングされたビデオシーケンスの複雑さは、ビデオ圧縮技術又は規格のレベルによって定義された境界内にあることが、順守のために必要である。いくつかの場合に、レベルは、最大ピクチャサイズ、最大フレームレート、最大再構成サンプルレート(例えば、メガサンプル/秒で測定される。)、最大参照ピクチャサイズ、などを制限する。レベルによって設定される制限は、いくつかの場合に、Hypothetical Reference Decoder(HRD)仕様と、コーディングされたビデオシーケンスにおいて通知されるHRDバッファ管理のためのメタデータとを通じて更に制限され得る。
【0051】
実施形態において、受信器(531)は、エンコードされたビデオとともに、追加の(冗長な)データを受信してもよい。追加のデータは、コーディングされたビデオシーケンスの部分としても含まれてもよい。追加のデータは、ビデオデコーダ(510)によって、データを適切にデコードするために及び/又は原ビデオデータをより正確に再構成するために使用されてよい。追加のデータは、例えば、時間、空間、又は信号対雑音比(SNR)エンハンスメントレイヤ、冗長スライス、冗長ピクチャ、前方誤り訂正符号、などの形をとることができる。
【0052】
図6は、本開示の実施形態に従うビデオエンコーダ(603)のブロック図を示す。ビデオエンコーダ(603)は、電子デバイス(620)に含まれている。電子デバイス(620)は、送信器(640)(例えば、送信回路)を含む。ビデオエンコーダ(603)は、図4の例のビデオエンコーダ(403)の代わりに使用され得る。
【0053】
ビデオエンコーダ(603)は、ビデオエンコーダ(603)によってコーディングされるべきビデオ画像を捕捉し得るビデオソース(601)(図6の例では電子デバイス(560)の部分ではない。)からビデオサンプルを受信してよい。他の例では、ビデオソース(601)は、電子デバイス(620)の部分である。
【0054】
ビデオソース(601)は、任意の適切なビットデプス(例えば、8ビット、10ビット、12ビットなど)、任意の色空間(例えば、BT.601 YCrCB、RGBなど)、及び任意の適切なサンプリング構造(例えば、YCrCb 4:2:0、YCrCb 4:4:4)であることができるデジタルビデオサンプルストリームの形で、ビデオエンコーダ(603)によってコーディングされるべきソースビデオシーケンスを供給してよい。メディアサービングシステムでは、ビデオソース(601)は、前に準備されたビデオを記憶している記憶デバイスであってよい。ビデオ会議システムでは、ビデオソース(601)は、ローカル画像情報をビデオシーケンスとして捕捉するカメラであってよい。ビデオデータは、順に見られる場合に動きを授ける複数の個別ピクチャとして供給されてもよい。ピクチャ自体は、ピクセルの空間アレイとして編成されてよく、各ピクセルは、使用中のサンプリング構造、色空間、などに依存する1つ以上のサンプルを有することができる。当業者であれば、ピクセルとサンプルとの間の関係を容易に理解することができる。本明細書は、以下、サンプルに焦点を当てる。
【0055】
実施形態に従って、ビデオエンコーダ(603)は、実時間において、又は用途によって必要とされる任意の他の時間制約の下で、ソースビデオシーケンスのピクチャを、コーディングされたビデオシーケンス(643)へとコーディング及び圧縮してよい。適切なコーディング速度を強いることは、コントローラ(650)の一機能である。いくつかの実施形態において、コントローラ(650)は、以下で記載されるような他の機能ユニットを制御し、他の機能ユニットへ機能的に結合される。結合は明りょうさのために表されていない。コントローラ(650)によってセットされるパラメータには、レート制御に関連したパラメータ(ピクチャスキップ、量子化器、レートひずみ最適化技術のラムダ値、など)、ピクチャサイズ、グループ・オブ・ピクチャ(GOP)レイアウト、最大動きベクトル探索範囲、などが含まれ得る。コントローラ(650)は、特定のシステム設計のために最適化されたビデオエンコーダ(603)に関係する他の適切な機能を有するよう構成され得る。
【0056】
いくつかの実施形態において、ビデオエンコーダ(603)は、コーディングループで動作するよう構成される。過度に単純化された記載として、例において、コーディングループは、ソースコーダ(630)(例えば、コーディングされるべき入力ピクチャと、参照ピクチャとに基づいて、シンボルストリームなどのシンボルを生成することに関与する。)と、ビデオエンコーダ(603)に埋め込まれた(ローカル)デコーダ(633)とを含むことができる。デコーダ(633)は、(シンボルとコーディングされたビデオストリームとの間の如何なる圧縮も、開示されている対象で考えられているビデオ圧縮技術において可逆であるということで)(遠隔の)デコーダも生成することになるのと同様の方法でサンプルデータを生成するようにシンボルを再構成する。その再構成されたサンプルストリーム(サンプルデータ)は、参照ピクチャメモリ(634)へ入力される。シンボルストリームのデコーディングは、デコーダの場所(ローカル又は遠隔)に依存しないビットパーフェクト(bit-exact)な結果をもたらすので、参照ピクチャメモリ(634)内のコンテンツも、ローカルのエンコーダと遠隔のエンコーダとの間でビットパーフェクトである。すなわち、エンコーダの予測部分は、デコーダがデコーディング中に予測を使用するときに“見る”ことになるのとまさに同じサンプル値を参照ピクチャサンプルとして“見る”。参照ピクチャのシンクロニシティ(及び、例えば、チャネルエラーのために、シンクロニシティが維持され得ない場合に、結果として生じるドリフト)のこの基本原理は、いくつかの関連技術でも使用されている。
【0057】
“ローカル”のデコーダ(633)の動作は、図5とともに先に詳細に既に説明されている、ビデオデコーダ(510)などの“遠隔”のデコーダと同じであることができる。一時的に図5も参照すると、しかしながら、シンボルが利用可能であり、エントロピコーダ(645)及びパーサ(520)によるコーディングされたビデオシーケンスへのシンボルのエンコーディング/デコーディングが可逆であることができるということで、バッファメモリ(515)及びパーサ(520)を含むビデオデコーダ(510)のエントロピデコーディング部分は、ローカルのデコーダ(633)において完全には実装されなくてもよい。
【0058】
この時点で行われ得る観察は、デコーダに存在するパーシング/エントロピデコーディングを除く如何なるデコーダ技術も、対応するエンコーダにおいて、実質的に同じ機能形態で、必ずしも存在する必要がないことである。この理由により、開示されている対象は、デコーダの動作に焦点を当てる。エンコーダ技術の説明は、それらが、包括的に記載されるデコーダ技術の逆であるということで、省略され得る。特定の範囲においてのみ、より詳細な説明が必要とされ、以下で与えられている。
【0059】
動作中、いくつかの例では、ソースコーダ(630)は、動き補償された予測コーディングを実行してよい。これは、「参照ピクチャ」として指定されたビデオシーケンスからの1つ以上の前にコーディングされたピクチャを参照して予測的に入力ピクチャをコーディングする。このようにして、コーディングエンジン(632)は、入力ピクチャに対する予測参照として選択され得る参照ピクチャのピクセルブロックと入力ピクチャのピクセルブロックとの間の差をコーディングする。
【0060】
ローカルのビデオデコーダ(633)は、ソースコーダ(630)によって生成されたシンボルに基づいて、参照ピクチャとして指定され得るピクチャのコーディングされたビデオデータをデコードしてよい。コーディングエンジン(632)の動作は、有利なことに、不可逆プロセスであってよい。コーディングされたビデオデータがビデオデコーダ(図6には図示せず。)でデコードされ得るとき、再構成されたビデオシーケンスは、通常は、いくらかのエラーを伴ったソースビデオシーケンスの複製であり得る。ローカルのビデオデコーダ(633)は、参照ピクチャに対してビデオデコーダによって実行され得るデコーディングプロセスを再現し、再構成された参照ピクチャを参照ピクチャキャッシュ(634)に格納されるようにしてよい。このように、ビデオエンコーダ(603)は、(伝送エラーなしで)遠端のビデオデコーダによって取得されることになる再構成された参照ピクチャと共通の内容を有している再構成された参照ピクチャのコピーをローカルで記憶し得る。
【0061】
予測器(635)は、コーディングエンジン(632)のための予測探索を実行してよい。すなわち、新しいピクチャがコーディングされるために、予測器(635)は、その新しいピクチャのための適切な予測基準となり得る参照ピクチャ動きベクトル、ブロック形状、などの特定のメタデータ又は(候補参照ピクセルブロックとしての)サンプルデータを参照ピクチャメモリ(634)から探してよい。予測器(635)は、適切な予測基準を見つけるためにサンプルブロック・バイ・ピクセルブロックベース(sample block-by-pixel block basis)で動作してよい。いくつかの場合に、予測器(635)によって取得された探索結果によって決定されるように、入力ピクチャは、参照ピクチャメモリ(634)に記憶されている複数の参照ピクチャから引き出された予測基準を有してよい。
【0062】
コントローラ(650)は、例えば、ビデオデータをエンコードするために使用されるパラメータ及びサブグループパラメータの設定を含め、ソースコーダ(630)のコーディング動作を管理してよい。
【0063】
上記の全ての機能ユニットの出力は、エントロピコーダ(645)においてエントロピコーディングを受けてよい。エントロピコーダ(645)は、ハフマンコーディング、可変長コーディング、算術コーディングなどの技術に従ってシンボルを可逆圧縮することによって、様々な機能ユニットによって生成されたシンボルを、コーディングされたビデオシーケンスへと変換する。
【0064】
送信器(640)は、エントロピコーダ(645)によって生成されたコーディングされたビデオシーケンスを、通信チャネル(660)を介した伝送のために準備するようにバッファリングしてよい。通信チャネル(660)は、エンコードされたビデオデータを記憶する記憶デバイスへのハードウェア/ソフトウェアリンクであってよい。送信器(640)は、ビデオコーダ(603)からのコーディングされたビデオデータを、送信されるべき他のデータ、例えば、コーディングされたオーディオデータ及び/又は補助的なデータストリーム(ソースは図示せず)とマージしてもよい。
【0065】
コントローラ(650)は、ビデオエンコーダ(603)の動作を管理してよい。コーディング中、コントローラ(650)は、各々のピクチャに適用され得るコーディング技術に影響を及ぼす可能性がある特定のコーディングされたピクチャタイプを夫々のコーディングされたピクチャに割り当ててよい。例えば、ピクチャはしばしば、次のピクチャタイプのうちの1つとして割り当てられてよい。
【0066】
イントラピクチャ(Intra Picture)(Iピクチャ)は、予測のソースとしてシーケンス内の如何なる他のピクチャも使用せずにコーディング及びデコードされ得るピクチャであってよい。いくつかのビデオコーデックは、例えば、独立したデコーダリフレッシュ(Independent Decoder Refresh,IDR)ピクチャを含む種々のタイプのイントラピクチャを許容する。当業者であれば、Iピクチャのそのような変形並びにそれらの各々の応用及び特徴に気づく。
【0067】
予測ピクチャ(Predictive Picture)(Pピクチャ)は、各ブロックのサンプル値を予測するために多くても1つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測によりコーディング及びデコードされ得るピクチャであってよい。
【0068】
双方向予測ピクチャ(Bi-directionally Predictive Picture)(Bピクチャ)は、各ブロックのサンプル値を予測するために多くても2つの動きベクトル及び参照インデックスを用いてイントラ予測又はインター予測によりコーディング及びデコードされ得るピクチャであってよい。同様に、多重予測ピクチャ(multiple-predictive picture(s))は、単一のブロックの再構成のために2つよりも多い参照ピクチャ及び関連するメタデータを使用することができる。
【0069】
ソースピクチャは、一般に、複数のサンプルブロック(例えば、夫々、4×4、8×8、4×8、又は16×16のサンプルのブロック)に空間的に細分され、ブロックごとにコーディングされてよい。ブロックは、ブロックの各々のピクチャに適用されているコーディング割り当てによって決定される他の(既にコーディングされた)ブロックを参照して予測的にコーディングされてよい。例えば、Iピクチャのブロックは、非予測的にコーディングされてよく、あるいは、それらは、同じピクチャの既にコーディングされたブロックを参照して予測的にコーディングされてもよい(空間予測又はイントラ予測)。Pピクチャのピクセルブロックは、1つの前にコーディングされた参照ピクチャを参照して空間予測により又は時間予測により、予測的にコーディングされてよい。Bピクチャのブロックは、1つ又は2つの前にコーディングされた参照ピクチャを参照して空間予測により又は時間予測により、予測的にコーディングされてよい。
【0070】
ビデオエンコーダ(603)は、ITU-T推奨H.265のような所定のビデオコーディング技術又は規格に従ってコーディング動作を実行してよい。その動作中に、ビデオエンコーダ(603)は、入力ビデオシーケンスにおける時間及び空間冗長性を利用する予測コーディング動作を含む様々な圧縮動作を実行してよい。従って、コーディングされたビデオデータは、使用されているビデオコーディング技術又は規格によって定められているシンタックスに従い得る。
【0071】
実施形態において、送信器(640)は、エンコードされたビデオとともに追加のデータを送信してもよい。ソースコーダ(630)は、コーディングされたビデオシーケンスの部分としてそのようなデータを含めてよい。追加のデータは、時間/空間/SNRエンハンスメントレイヤ、冗長ピクチャ及びスライスなどの他の形式の冗長データ、SEIメッセージ又はVUIパラメータセットフラグメント、などを有してよい。
【0072】
ビデオは、時間シーケンスにおいて複数のソースピクチャ(ビデオピクチャ)として捕捉されてよい。イントラピクチャ予測(しばしばイントラ予測と省略される。)は、所与のピクチャにおける空間相関を利用し、インターピクチャ予測は、ピクチャ間の(時間又は他の)相関を利用する。例において、現在のピクチャと呼ばれる、エンコーディング/デコーディング中の特定のピクチャは、ブロックにパーティション化される。現在のピクチャ内のあるブロックが、ビデオ内の前にコーディングされた依然としてバッファリングされている参照ピクチャ内の参照ブロックと類似している場合に、現在にピクチャ内のそのブロックは、動きベクトルと呼ばれるベクトルによってコーディングされ得る。動きベクトルは、参照ピクチャ内の参照ブロックを指し示し、複数の参照ピクチャが使用されている場合には、参照ピクチャを識別する第3の次元を有することができる。
【0073】
いくつかの実施形態において、双予測技術がインターピクチャ予測において使用され得る。双予測技術に従って、2つの参照ピクチャ、例えば、ビデオ内で現在のピクチャに対してデコーディング順序において両方とも先行する(しかし、表示順序では、夫々、過去及び将来にあってよい。)第1参照ピクチャ及び第2参照ピクチャが、使用される。現在のピクチャ内のあるブロックは、第1参照ピクチャ内の第1参照ブロックを指し示す第1動きベクトルと、第2参照ピクチャ内の第2参照ブロックを指し示す第2動きベクトルとによって、コーディングされ得る。そのブロックは、第1参照ブロック及び第2参照ブロックの組み合わせによって予測可能である。
【0074】
更に、マージモード技術が、コーディング効率を改善するためにインターピクチャ予測において使用され得る。
【0075】
本開示のいくつかの実施形態に従って、インターピクチャ予測及びイントラピクチャ予測などの予測は、ブロックのユニットにおいて実行される。例えば、HEVC規格に従って、ビデオピクチャのシーケンス内のピクチャは、圧縮のためにコーディングツリーユニット(CTU)にパーティション化され、ピクチャ内のCTUは、64×64ピクセル、32×32ピクセル、又は16×16ピクセルといった同じサイズを有する。一般に、CTUは、1つのルーマCTB及び2つのクロマCTBである3つのコーディングツリーブロック(CTB)を含む。各CTUは、1つ又は複数のコーディングユニット(CU)に再帰的に四分木分割され得る。例えば、64×64ピクセルのCTUは、64×64ピクセルの1つのCU、又は32×32ピクセルの4つのCU、又は16×16ピクセルの16個のCUに分割可能である。例において、各CUは、インター予測タイプ又はイントラ予測タイプなどのCUのための予測タイプを決定するよう解析される。CUは、時間及び/又は空間予測可能性に応じて1つ以上の予測ユニット(PU)に分割される。一般に、各PUは、1つのルーマ予測ブロック(PB)及び2つのクロマPBを含む。実施形態において、コーディング(エンコーディング/デコーディング)における予測動作は、予測ブロックの単位で実行される。予測ブロックの例としてルーマ予測ブロックを使用すると、予測ブロックは、8×8ピクセル、16×16ピクセル、8×16ピクセル、16×8ピクセルなどのような、ピクセルの値(例えば、ルーマ値)の行列を含む。
【0076】
図7は、本開示の他の実施形態に従うビデオエンコーダ(703)の図を示す。ビデオエンコーダ(703)は、ビデオピクチャの連続に含まれる現在のビデオピクチャ内のサンプル値の処理ブロック(例えば、予測ブロック)を受け取り、コーディングされたビデオシーケンスの部分であるコーディングされたピクチャへと処理ブロックをエンコードするよう構成されてよい。例において、ビデオエンコーダ(703)は、図4の例のビデオエンコーダ(403)の代わりに使用される。
【0077】
HEVCの例では、ビデオエンコーダ(703)は、8×8サンプルの予測ブロックなどのような処理ブロックのサンプル値の行列を受け取る。ビデオエンコーダ(703)は、例えば、レートひずみ最適化を用いて、処理ブロックがイントラモード、インターモード、又は双予測モードにより最も良くコーディングされるかどうかを決定する。処理ブロックがイントラモードでコーディングされるべきである場合には、ビデオエンコーダ(703)は、コーディングされたピクチャへと処理ブロックをエンコードするようイントラ予測技術を使用してよく、処理ブロックがインターモード又は双予測モードでコーディングされるべきである場合には、ビデオエンコーダ(703)は、コーディングされたピクチャへと処理ブロックをエンコードするようインター予測又は双予測技術を夫々使用してよい。特定のビデオコーディング技術において、マージモードは、予測子の外にあるコーディングされた動きベクトル成分の恩恵を受けずに1つ以上の動きベクトル予測子から動きベクトルが導出されるインターピクチャ予測サブモードであることができる。特定の他のビデオコーディング技術では、対象ブロックに適用可能な動きベクトル成分が存在することがある。例において、ビデオエンコーダ(703)は、処理ブロックのモードを決定するモード決定モジュール(図示せず。)などの他のコンポーネントを含む。
【0078】
図7の例では、ビデオエンコーダ(703)は、図7に示されるように結合されているインターエンコーダ(730)、イントラエンコーダ(722)、残差計算部(723)、スイッチ(726)、残差エンコーダ(724)、汎用コントローラ(721)、及びエントロピエンコーダ(725)を含む。
【0079】
インターエンコーダ(730)は、現在のブロック(例えば、処理ブロック)のサンプルを受け取り、そのブロックを参照ピクチャ内の1つ以上の参照ブロック(例えば、前のピクチャ及び後のピクチャ内のブロック)と比較し、インター予測情報(例えば、インターエンコーディング技術に従う残差情報の記述、動きベクトル、マージモード情報)を生成し、何らかの適切な技術を用いてインター予測情報に基づいてインター予測結果(例えば、予測ブロック)を計算するよう構成される。いくつかの例において、参照ピクチャは、エンコードされたビデオ情報に基づいてデコードされているデコードされた参照ピクチャである。
【0080】
イントラエンコーダ(722)は、現在のブロック(例えば、処理ブロック)のサンプルを受け取り、いくつかの場合には、同じピクチャ内で既にコーディングされたブロックとそのブロックを比較し、変換後の量子化された係数を、更には、いくつかの場合には、イントラ予測情報(例えば、1つ以上のイントラエンコーディング技術に従うイントラ予測方向情報)も生成するよう構成される。例において、イントラエンコーダ(722)はまた、イントラ予測情報及び同じピクチャ内の参照ブロックに基づいてイントラ予測結果(例えば、予測ブロック)を計算する。
【0081】
汎用コントローラ(721)は、汎用制御データを決定し、汎用制御データに基づいてビデオエンコーダ(703)の他のコンポーネントを制御するよう構成される。例において、汎用コントローラ(721)は、ブロックのモードを決定し、モードに基づいて制御信号をスイッチ(726)へ供給する。例えば、モードがイントラモードである場合には、汎用コントローラ(721)は、残差計算部(723)による使用のためにイントラモード結果を選択するようスイッチ(726)を制御し、そして、イントラ予測情報を選択し、イントラ予測情報をビットストリームに含めるようエントロピエンコーダ(725)を制御する。モードがインターモードである場合には、汎用コントローラ(721)は、残差計算部(723)による使用のためにインター予測結果を選択するようスイッチ(726)を制御し、そして、インター予測情報を選択し、インター予測情報をビットストリームに含めるようエントロピエンコーダ(725)を制御する。
【0082】
残差計算部(723)は、受け取られたブロックと、イントラエンコーダ(722)又はインターエンコーダ(730)から選択された予測結果との間の差(残差データ)を計算するよう構成される。残差エンコーダ(724)は、変換係数を生成するよう残差データをエンコードするように残差データに基づいて動作するよう構成される。例において、残差エンコーダ(724)は、残差データを空間領域から周波数領域に変換し、変換係数を生成するよう構成される。次いで、変換係数は、量子化された変換係数を取得するよう量子化処理を受ける。様々な実施形態において、ビデオエンコーダ(703)はまた、残差デコーダ(728)も含む。残差デコーダ(728)は、逆変換を実行し、デコードされた残差データを生成するよう構成される。デコードされた残差データは、イントラエンコーダ(722)及びインターエンコーダ(730)によって適切に使用され得る。例えば、インターエンコーダ(730)は、デコードされた残差データ及びインター予測情報に基づいて、デコードされたブロックを生成することができ、イントラエンコーダ(722)は、デコードされた残差データ及びイントラ予測情報に基づいて、デコードされたブロックを生成することができる。デコードされたブロックは、デコードされたピクチャを生成するよう適切に処理され、デコードされたピクチャは、メモリ回路(図示せず。)にバッファリングされ、いくつかの例では参照ピクチャとして使用され得る。
【0083】
エントロピエンコーダ(725)は、エンコードされたブロックを含めるようにビットストリームをフォーマット化するよう構成される。エントロピエンコーダ(725)は、HEVC規格などの適切な規格に従って様々な情報を含めるよう構成される。例において、エントロピエンコーダ(725)は、汎用制御データ、選択された予測情報(例えば、イントラ予測情報又はインター予測情報)、残差情報、及び他の適切な情報をビットストリームに含めるよう構成される。開示されている対象に従って、インターモード又は双予測モードのどちらか一方のマージサブモードでブロックをコーディングする場合に、残差情報は存在しない点に留意されたい。
【0084】
図8は、本開示の他の実施形態に従うビデオデコーダ(810)の図を示す。ビデオデコーダ(810)は、コーディングされたビデオシーケンスの部分であるコーディングされたピクチャを受け取り、コーディングされたピクチャをデコードして、再構成されたピクチャを生成するよう構成される。例において、ビデオデコーダ(810)は、図4の例のビデオデコーダ(410)の代わりに使用される。
【0085】
図8の例では、ビデオデコーダ(810)は、図8に示されるように結合されているエントロピデコーダ(871)、インターデコーダ(880)、残差デコーダ(873)、再構成モジュール(874)、及びイントラデコーダ(872)を含む。
【0086】
エントロピデコーダ(871)は、コーディングされたピクチャから、シンタックス要素を表す特定のシンボルを再構成するよう構成され得、それらから、コーディングされたピクチャは構成されている。かようなシンボルは、例えば、ブロックがコーディングされるモード(例えば、イントラモード、又はマージサブモード若しくは他のサブモードにおけるインターモード若しくは双予測モード)、イントラデコーダ(872)又はインターデコーダ(880)による予測のために夫々使用される特定のサンプル又はメタデータを識別することができる予測情報(例えば、イントラ予測情報又はインター予測情報)、例えば、量子化された変換係数の形をとる残差情報、などを含むことができる。例において、予測モードがインター又は双予測モードである場合には、インター予測情報がインターデコーダ(880)へ供給され、予測タイプがイントラ予測タイプである場合には、イントラ予測情報がイントラデコーダ(872)へ供給される。残差情報は、逆量子化を受けることができ、残差デコーダ(873)へ供給される。
【0087】
インターデコーダ(880)は、インター予測情報を受け取り、インター予測情報に基づいてインター予測結果を生成するよう構成される。
【0088】
イントラデコーダ(872)は、イントラ予測情報を受け取り、イントラ予測情報に基づいて予測結果を生成するよう構成される。
【0089】
残差デコーダ(873)は、逆量子化された変換係数を取り出すように逆量子化を実行し、逆量子化された変換係数を処理して、残差を周波数領域から空間領域に変換するよう構成される。残差デコーダ(873)はまた、(量子化パラメータ(QP)を含めるための)特定の制御情報を要求してもよく、その情報は、エントロピデコーダ(871)によって供給されてよい(これは低容量の制御情報のみであるということで、データパスは示されない。)。
【0090】
再構成モジュール(874)は、残差デコーダ(873)によって出力された残差と、(場合によっては、インター又はイントラ予測モジュールによって出力された)予測結果とを空間領域において組み合わせて、再構成されたブロックを形成するよう構成される。再構成されたブロックは、再構成されたピクチャの部分であってよく、次いで、再構成されたピクチャは、再構成されたビデオの部分であってよい。なお、デブロッキング動作などのような他の適切な動作が、視覚品質を改善するために実行されてもよい。
【0091】
なお、ビデオエンコーダ(403)、(603)及び(703)並びにビデオデコーダ(410)、(510)及び(810)は、如何なる適切な技術によっても実装可能である。実施形態において、ビデオエンコーダ(403)、(603)及び(703)並びにビデオデコーダ(410)、(510)及び(810)は、1つ以上の集積回路を用いて実装可能である。他の実施形態では、ビデオエンコーダ(403)、(603)及び(703)並びにビデオデコーダ(410)、(510)及び(810)は、ソフトウェア命令を実行する1つ以上のプロセッサを用いて実装可能である。
【0092】
ピクチャは、サブピクチャ、スライス、タイル、タイルグループ、及び/又は同様のものなどの、ピクチャ内のサブパーティションにパーティション化され得る。ピクチャは、1つ以上のタイル行及び1つ以上のタイル列に分割され得る。タイルは、ピクチャの長方形領域をカバーするCTUの連続であることができる。タイルは、1つ以上のブリック(bricks)に分割され得る。各ブリックは、タイル内の多数のCTU行を含むことができる。複数のブリックにパーティション化されないタイルも、ブリックと呼ばれ得る。しかし、タイルの真のサブセットであるブリックは、タイルとは呼ばれない。
【0093】
スライスは、ピクチャ内の多数のタイル又はタイル内の多数のブリックを含むことができる。スライスの2つのモード、例えば、ラスタスキャンスライスモード及び長方形スライスモードがサポートされ得る。ラスタスキャンスライスモードでは、スライスは、ピクチャのタイルラスタスキャンにおけるタイルの連続を含むことができる。長方形スライスモードでは、スライスは、ピクチャの長方形領域を集合的に形成することができるピクチャの多数のブリックを含むことができる。長方形スライス内のブリックは、スライスのブリックラスタスキャンの順序にある。
【0094】
ピクチャは、タイル及びラスタスキャンスライスにパーティション化され得る。図9は、本開示の実施形態に従うピクチャ(900)のラスタスキャンスライスパーティショニングの例を示す。ピクチャ(900)は、12個のタイル(901)~(912)(例えば、3つの列(又はタイル列)及び4つの行(又はタイル行)での12個のタイル)及び3つのラスタスキャンスライス(921)~(923)に分割され得る。例えば、ラスタスキャンスライス(921)は、タイル(901)~(902)を含み、ラスタスキャンスライス(922)は、タイル(903)~(907)を含み、ラスタスキャンスライス(923)は、タイル(908)~(912)を含む。例において、ピクチャ(900)内のサブパーティションは、ラスタスキャンスライス(921)~(923)を含む。例において、ピクチャ(900)内のサブパーティションは、タイル(901)~(912)を含む。代替的に、ピクチャ(900)内のサブパーティションは、タイルグループを含む。
【0095】
ピクチャは、タイル及び長方形スライスにパーティション化され得る。図10は、本開示の実施形態に従うピクチャ(1000)の長方形スライスパーティショニングの例を示す。ピクチャ(1000)は、24個のタイル(1001)~(1024)(例えば、6つの列(又はタイル列)及び4つの行(又はタイル行)での24個のタイル)及び9個の長方形スライス(1031)~(1039)に分割され得る。例えば、長方形スライス(1031)は、タイル(1001)~(1002)を含み、長方形スライス(1032)は、タイル(1003)~(1004)を含み、長方形スライス(1033)は、タイル(1005)~(1006)を含み、長方形スライス(1034)は、タイル(1007)、(1008)、(1013)及び(1014)を含み、長方形スライス(1035)は、タイル(1009)、(1010)、(1015)及び(1016)を含み、長方形スライス(1036)は、タイル(1011)、(1012)、(1017)及び(1018)を含み、長方形スライス(1037)は、タイル(1019)~(1020)を含み、長方形スライス(1038)は、タイル(1021)~(1022)を含み、長方形スライス(1039)は、タイル(1023)~(1024)を含む。例において、ピクチャ(1000)内のサブパーティションは、長方形スライス(1031)~(1039)を含む。例において、ピクチャ(1000)内のサブパーティションは、タイル(1001)~(1024)を含む。
【0096】
ピクチャは、タイル、ブリック、及び長方形スライスにパーティション化され得る。図11は、本開示の実施形態に従ってタイル、ブリック(1101)~(1111)、及び長方形スライス(1121)~(1124)にパーティション化されたピクチャ(1100)の例を示す。ピクチャ(1100)は、4つのタイル(例えば、2つのタイル列及び2つのタイル行)、11個のブリック(1101)~(1111)、及び4つの長方形スライス(1121)~(1124)に分割され得る。左上のタイルは、1つのブリック(1101)を含み、右上のタイルは、5つのブリック(1102)~(1106)を含み、左下のタイルは、2つのブリック(1107)~(1108)を含み、右下のタイルは、3つのブリック(1109)~(1111)を含む。長方形スライス(1121)は、ブリック(1101)、(1107)及び(1108)を含み、長方形スライス(1122)は、ブリック(1122)及び(1123)を含み、長方形スライス(1123)は、ブリック(1104)~(1106)を含み、長方形スライス(1124)は、ブリック(1109)~(1111)を含む。例において、ピクチャ(1100)内のサブパーティションは、長方形スライス(1121)~(1124)を含む。
【0097】
図12は、本開示の実施形態に従うピクチャ(1200)のサブピクチャパーティショニングの例を示す。ピクチャ(1200)は、18個のタイル、24個のスライス、及び24個のサブピクチャにパーティション化され得る。図12に示される例では、24個のスライスの夫々は、24個のサブピクチャの異なる1つと対応しており同一である。ピクチャ(1200)の左側の12個のタイルの夫々は、4×4のCTUを含むスライスをカバーし、ピクチャ(1200)の右側の6つのタイルの夫々は、2×2のCTUを含む2つの垂直にスタックされたスライスをカバーする。24個のスライスも24個のサブピクチャも、可変な寸法を有している。
【0098】
本開示は、ビデオコーディングのための高レベルシンタックス(High Level Syntax,HLS)制御に関係がある実施形態を含む。
【0099】
上位コーディングレイヤのための高レベルシンタックス又は高レベルシンタックス構造は、より下位のコーディングレイヤによって共有され得るパラメータを定めることができる。例えば、コーディングブロックのCTUサイズ又は最大サイズは、シーケンスレベルで又はシーケンスパラメータセット(SPS)において指定され、ピクチャごとに変化しない。例となるHLSは、SPS、ピクチャパラメータセット(PPS)、ピクチャヘッダ、スライスヘッダ、適応パラメータセット(APS)、などを含むことができる。
【0100】
各HLSは、空間範囲などの特定のカバレッジ範囲を有することができる。PPSは、1つ以上のピクチャによって共有されてよい共通のシンタックス要素を指定することができる。ピクチャヘッダは、ピクチャ内で使用されている共通のシンタックス要素を指定することができる。より低いレベルのHLSは、より低いレベルが参照するより高いレベルのHLSにおいて供給されるものをオーバーライドすることができる。例えば、現在のピクチャのピクチャヘッダは、現在のピクチャが参照するPPSにおいて供給されるものをオーバーライドしてよい。現在のピクチャに属するスライスヘッダは、現在のピクチャのピクチャヘッダで割り当てられている1つ以上のシンタックス要素(パラメータとも呼ばれる。)をオーバーライドしてよい。
【0101】
一般に、各スライスヘッダで通知される共通のシンタックス要素は、共通のシンタックス要素がスライスごとに変化しない場合には、ピクチャヘッダに置かれてもよい。
【0102】
ピクチャヘッダ及びスライスヘッダを使用するいくつかの例で、スライスヘッダ内又はピクチャヘッダ内の特定のシンタックス要素は、特定のコーディングツールに特有である。特定のシンタックス要素は、特定のコーディングツールが使用されるときに使用され得る。いくつかのシナリオにおいて、特定のシンタックス要素は、特定のコーディングツールが使用されないときには必要とされない。よって、特定のシンタックス要素は、常に使用されていなくてもよい。ヘッダ(例えば、スライスヘッダ、ピクチャヘッダ)での未使用シンタックス要素のシグナリングは、必要でないことがある。HLSの各レイヤでのシンタックス要素が適切に構造化されるHLSでの適切なシンタックス構造の設計は、例えば、ビデオコーディングで使用されないシンタックス要素を送らないことによってコーディング効率を改善するよう、有利である。
【0103】
本開示の態様に従って、高レベルフラグ(高レベル制御フラグとも呼ばれる。)が、1つ以上のピクチャに対応するレベル(例えば、SPS、PPS)、ピクチャレベル(例えば、ピクチャヘッダ)、及び/又はピクチャ内のサブパーティションに対応するサブパーティションレベルを含む1つ以上のレベルで、シグナリングされ得るが、シグナリングされることに限定されない。サブパーティションは、スライス(例えば、スライスヘッダ)、タイル、タイルグループ、などを含むことができ、このようにして、サブパーティションレベルは、スライスレベル、タイルレベル、タイルグループレベル、などを含むことができる。実施形態において、高レベルフラグは、次の、SPS、PPS、ピクチャヘッダ、スライスヘッダ、タイル、タイルグループ、及び任意の適切なサブピクチャレベル、のうちの1つ以上のレベルでシグナリングされる。
【0104】
いくつかの実施形態において、コーディングツールは、ピクチャ内のサブパーティションをコーディングするインターコーディングを含み、インターコーディングによるサブパーティションは、インターコーディングされたサブパーティションと呼ばれ得る。例において、インターコーディングされたサブパーティションは、インターコーディングされたスライス、インターコーディングされたタイル、などを含む。コーディングツールは、ピクチャ内のサブパーティションをコーディングするイントラコーディングのみを含み、ただイントラコーディングだけによるサブパーティションは、イントラコーディングされたサブパーティションと呼ばれ得る。例において、イントラコーディングされたサブパーティションは、イントラコーディングされたスライス、イントラコーディングされたタイル、などを含む。インターコーディングによるサブパーティション又はインターコーディングされたサブパーティションは、イントラコーディング又はイントラ予測を含んでも含まなくてもよいことに留意されたい。
【0105】
特定のシンタックス要素又はパラメータ(例えば、シンタックス要素又はパラメータの組)は、インターコーディングのために又はインターコーディングされたサブパーティション(例えば、インターコーディングされたスライス)のインター予測のためにのみ使用又は考慮される。よって、特定のシンタックス要素は、インターコーディングのためにのみ使用される又はインターコーディングされたサブパーティションにのみ存在するインターシンタックス要素と呼ばれ得る。インターシンタックス要素は、如何なる適切なレベルでもシグナリングされ得る。本開示の態様に従って、インターシンタックス要素は、高レベルで、例えば、HLSでシグナリングされ得る。インターシンタックス要素は、例えば、インター予測のためにのみ使用又は考慮される、如何なる適切なシンタックス要素も含むことができる。インターシンタックス要素は、次の、マージ候補の最大数、アフィン又はサブブロックベースのマージ候補の最大数、三角マージ候補の最大数、参照ピクチャリスト0(L0)内の1つ以上の参照ピクチャインデックスの数、参照ピクチャリスト1(L1)内の1つ以上の参照ピクチャインデックスの数、時間動きベクトル予測(Temporal Motion Vector Prediction,TMVP)可能フラグ及び同一位置(collocated)ピクチャを指し示す参照インデックス、スライスレベルデコーダ側動きベクトル精緻化(Decoder side Motion Vector Refinement,DMVR)及び双方向オプティカルフロー(Bi-Directional Optical Flow,BDOF)有効化フラグ、動きベクトル差分によるマージモード(Merge mode with Motion Vector Difference,MMVD)のためのスライスレベル分数ペル無効化フラグ、mvd_l1_zero_flag、cabac_init_flag、temporal_mvp_enabled_flag、collocated_from_l0_flag、collocated_ref_idx、及び/又は同様のもの、のうちの1つ以上のシンタックス要素を含むことができるが、これらに限られない。いくつかの例では、インターシンタックス要素又はインターシンタックス要素のサブセットがシグナリングされるかどうかは、例えば、追加のフラグによって、更に決定される。
【0106】
実施形態において、特定のシンタックス要素又はパラメータ(例えば、シンタックス要素又はパラメータの組)は、イントラコーディングのために又はイントラコーディングされたサブパーティション(例えば、イントラコーディングされたスライス)のイントラ予測のためにのみ使用又は考慮される。よって、特定のシンタックス要素は、イントラコーディングのためにのみ使用される又はイントラコーディングされたサブパーティションにのみ存在するイントラシンタックス要素と呼ばれ得る。イントラシンタックス要素は、如何なる適切なレベルでもシグナリングされ得る。本開示の態様に従って、イントラシンタックス要素は、高レベルで、例えば、HLSでシグナリングされ得る。イントラシンタックス要素は、例えば、イントラ予測のためにのみ使用又は考慮される、如何なる適切なシンタックス要素も含むことができる。イントラシンタックス要素は、次の、log2_diff_min_qt_min_cb_chroma(例えば、スライスレベルでのslice_log2_diff_min_qt_min_cb_chroma)、max_mtt_hierarchy_depth_chroma(例えば、スライスレベルでのslice_max_mtt_hierarchy_depth_chroma)、log2_diff_max_bt_min_qt_chroma(例えば、ピクチャレベルでのpic_log2_diff_max_bt_min_qt_chroma)、log2_diff_max_tt_min_qt_chroma(例えば、pic_log2_diff_max_tt_min_qt_chroma)などの、イントラコーディングされたスライスのみに適用することができる二分木に関連したシンタックス要素(例えば、全ての二分木に関連したシンタックス要素)、のうちの1つ以上のシンタックス要素を含むことができるが、これらに限られない。いくつかの例では、イントラシンタックス要素又はイントラシンタックス要素のサブセットがシグナリングされるかどうかは、例えば、追加のフラグによって、更に決定される。
【0107】
本開示の態様に従って、現在のピクチャを含む1つ以上のピクチャのコーディング情報が、コーディングされたビデオビットストリームから受け取られ得る。コーディング情報内の少なくとも1つのフラグは、現在のピクチャ内のサブパーティションに対する1つ以上の許されるコーディングタイプを示すことができる。1つ以上の許されるコーディングタイプは、サブパーティションに対するイントラコーディング及びインターコーディングのうちの少なくとも1つを含むことができる。イントラサブパーティションコーディングのためにのみ使用されるイントラシンタックス要素をデコードすべきかどうかと、インターサブパーティションコーディングのためにのみ使用されるインターシンタックス要素をデコードすべきかどうかとが、少なくとも1つのフラグに基づいて決定され得る。コーディング情報内のイントラシンタックス要素は、イントラシンタックス要素がデコードされるべきであると決定されることに基づいてデコードされ得る。コーディング情報内のインターシンタックス要素は、インターシンタックス要素がデコードされるべきであると決定されることに基づいてデコードされ得る。例において、少なくとも1つのフラグは、現在のピクチャを含む1つ以上のピクチャに対するPPSでシグナリングされる。例において、少なくとも1つのフラグは、現在のピクチャに対するピクチャヘッダでシグナリングされる。サブパーティションは、ピクチャ内のスライス、タイル、及び/又はタイルグループなどの、現在のピクチャ内の任意の適切なパーティションを含むことができる。
【0108】
少なくとも1つのフラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかを示す第1フラグ、及び/又はイントラコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかを示す第2フラグを含むことができる。
【0109】
第1フラグは、inter-slice-allowedフラグ又はph_inter_slice_allowed_flagなどの、現在のピクチャに対するinter-sub-parition-allowedフラグであることができる。0(又は偽)に等しい第1フラグは、現在のピクチャの全てのコーディングされたサブパーティション(例えば、スライス)がイントラコーディングのコーディングタイプを有すること、例えば、全てがIスライスであるコーディングスライス又は2に等しいスライスタイプ(例えば、sh_slice_type)を示すことができ、よって、現在のピクチャでは、インターコーディングされたサブパーティションは許されない。1(又は真)に等しい第1フラグは、インターコーディングのコーディングタイプが現在のピクチャにおいて許されることを示すことができる。よって、現在のピクチャには、1つ以上のインターコーディングされたサブパーティション(例えば、スライス)が存在してもしなくてもよい。インターコーディングされたサブパーティションは、Bスライス(例えば、0に等しいスライスタイプ)及び/又はPスライス(例えば、1に等しいスライスタイプ)を含むことができる。第1フラグが1に等しい場合に、現在のピクチャにおいて、サブパーティションをイントラコーディングすることは、許されても許されなくてもよい。
【0110】
第2フラグは、intra-slice-allowedフラグ又はph_intra_slice_allowed_flagなどの、現在のピクチャに対するintra-sub-parition-allowedフラグであることができる。0(又は偽)に等しい第2フラグは、現在のピクチャの全てのコーディングされたサブパーティション(例えば、スライス)がインターコーディングのコーディングタイプを有すること、例えば、全てがB及び/又はPスライスであるコーディングスライスを示すことができ、よって、現在のピクチャでは、イントラコーディングされたサブパーティションは許されない。1(又は真)に等しい第2フラグは、イントラコーディングのコーディングタイプが現在のピクチャにおいて許されることを示すことができる。よって、現在のピクチャには、1つ以上のイントラコーディングされたサブパーティション(例えば、スライス)が存在してもしなくてもよい。イントラコーディングされたサブパーティションは、Iスライスを含むことができる。第2フラグが1に等しい場合に、現在のピクチャにおいて、サブパーティションをインターコーディングすることは、許されても許されなくてもよい。
【0111】
例において、第2フラグ(例えば、ph_intra_slice_allowed_flag)が存在しない場合に、例えば、第2フラグがシグナリングされない場合に、第2フラグの値は、1に等しいと推測され得る。例において、第2フラグがシグナリングされない場合に、第2フラグの値は、1に等しいと推測され、インターコーディングは、現在のピクチャにおいて許されない。
【0112】
実施形態において、第1フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されないことを示す偽である。そのため、少なくとも1つのフラグは、第1フラグのみを含むことができ、第2フラグを含む必要がない。図13A~13Dは、本開示の実施形態に従う高レベルシンタックス構造の例を示す。例えば、少なくとも1つのフラグは、図13Aでボックス(1310)によって示されるように、第1フラグのみを含む。第2フラグはシグナリングされないが、第2フラグの値は、上述されたように、1であると推測され得る。1つ以上の許されるコーディングタイプは、サブパーティションに対するイントラコーディングに対応する。よって、現在のピクチャの全てのコーディングされたサブパーティション(例えば、スライス)は、イントラコーディングされている。例えば、全てのコーディングされたスライスは、Iスライスである。従って、インターシンタックス要素はシグナリングされる必要がなく、よって、インターシンタックス要素は現在のピクチャに対してデコードされる必要がない。更に、イントラシンタックス要素は、HLSでシグナリングされ得、よって、図13B及び13Cでボックス(1311)~(1312)によって示されるように、サブパーティションに対してデコードされると決定され得る。イントラシンタックス要素のどの1つがシグナリングされ、デコードされるべきであるかは、図13B及び13Cでボックス(1311)~(1312)によって示されるように、追加のフラグに基づいて更に決定され得る。
【0113】
実施形態において、少なくとも1つのフラグは、第1フラグ及び第2フラグを含むことができる。第1フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されないことを示すことができる。第2フラグは、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されることを示すことができる。従って、1つ以上の許されるコーディングタイプは、サブパーティションに対するイントラコーディングに対応する。よって、現在のピクチャの全てのコーディングされたサブパーティション(例えば、スライス)は、イントラコーディングされており、イントラサブパーティションである。例において、インターシンタックス要素は、現在のピクチャに対してデコードされるべきではない。更に、イントラシンタックス要素は、サブパーティションに対してデコードされ得る。
【0114】
実施形態において、第1フラグは真であり、インターコーディングされたサブパーティションが現在のピクチャにおいて許されることを示す。少なくとも1つのフラグは、第1フラグ及び第2フラグを含むことができる。インターシンタックス要素は、HLSでシグナリングされ得、よって、図13Cでボックス(1312)によって示されるように、インターコーディングでサブパーティションのうちの少なくとも1つに対してデコードされると決定され得る。インターシンタックス要素のどの1つがシグナリングされ、デコードされるべきであるかは、図13Cでボックス(1313)によって示されるように、追加のフラグに基づいて更に決定され得る。第2フラグが、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されないことを示す偽である場合には、1つ以上の許されるコーディングタイプは、サブパーティションに対するインターコーディングであると決定され、イントラシンタックス要素は、現在のピクチャに対してデコードされるべきではない。第2フラグが、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されることを示す真である場合には、1つ以上の許されるコーディングタイプは、サブパーティションに対するインターコーディング及びイントラコーディングを含むことができる。イントラシンタックス要素は、図13B及び13Cでボックス(1311)~(1312)によって示されるように、HLSでシグナリングされ得る。イントラシンタックス要素は、イントラコーディングでサブパーティションのうちの少なくとも1つに対してデコードされ得る。イントラシンタックス要素のどの1つがシグナリングされ、デコードされるべきであるかは、図13B及び13Cでボックス(1311)~(1312)によって示されるように、追加のフラグに基づいて更に決定され得る。
【0115】
本開示の態様に従って、上位コーディングレイヤに関連した高レベルフラグ(又は高レベル制御フラグ)は、特定のコーディングツール(例えば、イントラコーディング又はインターコーディング)のためのパラメータ(例えば、イントラシンタックス要素又はインターシンタックス要素)の組が、上位コーディングレイヤに対応する1つ以上の下位コーディングレイヤのために使用されるべきであることを示すことができる。いくつかの例では、パラメータの組は、特定のコーディングツールが高レベルパーティション(例えば、サブパーティションを含むピクチャ)内の特定の低レベルパーティション(例えば、ピクチャ内のサブパーティション)に使用されるか又はそれに適用可能である場合にのみ、高レベルパーティション内のその特定の低レベルパーティションに使用されるか又は適用可能である。よって、パラメータの組は、特定のコーディングツールが特定の低レベルパーティションのうちの少なくとも1つのために使用される場合にのみ、高レベルパーティション(例えば、ピクチャ)のためのHLS(例えば、ピクチャヘッダ、PPS)でシグナリングされ得る。特定のコーディングツールが特定の低レベルパーティションのうちのいずれにも使用されないか又は適用可能でない場合に、パラメータの組は、高レベルパーティションのためのHLSでシグナリングされず、よって、HLSでシグナリングされるシンタックス要素の数を減らすことによってコーディング効率を改善し得る。更に、エンコーダ及び/又はデコーダは、パラメータの組をコーディングする必要がない。例えば、パラメータの組は、特定のコーディングツールが特定の低レベルパーティションのうちの少なくとも1つのために使用される場合にしか、高レベルパーティションのためのHLSでシグナリングされる必要がない。
【0116】
例において、インターシンタックス要素又はインター予測に関連したシンタックス要素は、ピクチャが少なくとも1つのインターコーディングされたサブパーティション(例えば、少なくとも1つのインターコーディングされたスライス)を含む場合にしか、(ピクチャヘッダ又はPPSで)シグナリングされる必要がない。さもなければ、ピクチャがインターコーディングされたサブパーティションを含まない場合には、全てのインターシンタックス要素はシグナリングされる必要がなく、例えば、インターシンタックス要素はシグナリングされない。
【0117】
本開示の態様に従って、少なくとも1つのフラグは、サブパーティションがイントラコーディングによるイントラコーディングされたサブパーティションしか含まないかどうかを示す第3フラグ、及び/又はサブパーティションがインターコーディングによるインターコーディングされたサブパーティションしか含まないかどうかを示す第4フラグを含むことができる。
【0118】
第3フラグは、サブパーティションがイントラコーディングによるイントラコーディングされたサブパーティションしか含まないかどうかを示すことができるので、第3フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかを示すことができる。例えば、第3フラグにより、サブパーティションがイントラコーディングされたサブパーティションしか含まないことが示される場合に、インターコーディングされたサブパーティションは、現在のピクチャにおいて許されない。さもなければ、第3フラグにより、サブパーティションがイントラコーディングされたサブパーティションしか含まないわけではないことが示される場合には、インターコーディングされたサブパーティションが現在のピクチャにおいて許される。従って、第1フラグ及び第3フラグは両方とも、インターコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかを示すことができる。
【0119】
第4フラグは、サブパーティションがインターコーディングによるインターコーディングされたサブパーティションしか含まないかどうかを示すことができるので、第4フラグは、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかを示すことができる。例えば、第4フラグにより、サブパーティションがインターコーディングされたサブパーティションしか含まないことが示される場合に、イントラコーディングされたサブパーティションは、現在のピクチャにおいて許されない。さもなければ、第4フラグにより、サブパーティションがインターコーディングされたサブパーティションしか含まないわけではないことが示される場合には、イントラコーディングされたサブパーティションが現在のピクチャにおいて許される。従って、第2フラグ及び第4フラグは両方とも、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかを示すことができる。
【0120】
実施形態において、第3フラグ(ピクチャヘッダ内の高レベル制御フラグ)は、イントラ専用(intra-only)フラグ(例えば、pic_intra_only_flag)と呼ばれる。イントラ専用フラグは、ピクチャの全てのサブパーティション(例えば、スライス)がイントラコーディング(又はイントラ予測、非インター関連予測)のみを有しているかどうかを示すようシグナリングされ得る。従って、イントラ専用フラグは、インターコーディングされたサブパーティション又はインターコーディングが現在のピクチャにおいて許されるかどうかを示すようシグナリングされる。イントラ専用フラグが真である場合に、ピクチャの全てのサブパーティションは、イントラコーディングしか有さず、インターコーディングされたサブパーティション又はインターコーディングは、現在のピクチャにおいて許されない。さもなければ、イントラ専用フラグが偽である場合に、ピクチャの全てのサブパーティションはイントラコーディングを有するわけではなく、インターコーディングされたサブパーティション又はインターコーディングが現在のピクチャにおいて許される。
【0121】
イントラ専用フラグが真である場合には、イントラシンタックス要素(又はイントラコーディングに関連したシンタックス要素)しか、ピクチャヘッダにおいてシグナリングされる必要がない。さもなければ、イントラ専用フラグが偽である場合には、インターシンタックス要素はシグナリングされ得る。
【0122】
例において、イントラサブパーティションのためにのみ使用されるイントラシンタックス要素(例えば、全てのイントラシンタックス要素)又はイントラ予測に関連したシンタックス要素は、ピクチャが少なくとも1つのイントラコーディングされたサブパーティション(例えば、少なくとも1つのイントラコーディングされたスライス)を含む場合にのみ、(例えば、ピクチャヘッダ又はPPSで)シグナリングされる必要がある。さもなければ、ピクチャがイントラコーディングされたサブパーティションを含まない場合には、イントラシンタックス要素はシグナリングされる必要がなく、例えば、イントラシンタックス要素はシグナリングされない。
【0123】
実施形態において、第4フラグ(ピクチャヘッダ内の高レベル制御フラグ)は、インター専用(inter-only)フラグ(例えば、pic_inter_only_flag)と呼ばれる。インター専用フラグは、ピクチャの全てのサブパーティション(例えば、スライス)がインターコーディング(又はインター予測、非イントラ関連予測)のみを有しているかどうかを示すようシグナリングされ得る。従って、インター専用フラグは、イントラコーディングされたサブパーティション又はイントラコーディングが現在のピクチャにおいて許されるかどうかを示すようシグナリングされる。インター専用フラグが真である場合に、ピクチャの全てのサブパーティションは、インターコーディングしか有さず、イントラコーディングされたサブパーティション又はイントラコーディングは、現在のピクチャにおいて許されない。さもなければ、インター専用フラグが偽である場合に、ピクチャの全てのサブパーティションがインターコーディングを有するわけではなく、イントラコーディングされたサブパーティション又はイントラコーディングが現在のピクチャにおいて許される。インター専用フラグが真である場合には、インターシンタックス要素は、ピクチャヘッダにおいてシグナリングされる必要がない。例えば、インターシンタックス要素(又はインターコーディングに関連したシンタックス要素)のみが、ピクチャヘッダにおいてシグナリングされる必要がある。さもなければ、インター専用フラグが偽である場合には、1つ以上のイントラサブパーティションがピクチャにおいて使用される可能性があり、イントラシンタックス要素はシグナリングされ得る。
【0124】
図14A~14Bは、本開示に従って、イントラ専用フラグ(例えば、pic_intra_only_flag)及びインター専用フラグ(例えば、pic_inter_only_flag)に夫々関係がある例示的なシンタックステーブル1~2を示す。図14Aを参照すると、イントラ専用フラグが真である場合に、インターシンタックス要素(例えば、pic_temporal_mvp_enabled_flag、mvd_l1_zero_flag、pic_six_minus_max_num_merge_cand、pic_five_minus_max_num_subblock_merge_cand、pic_fpel_mmvd_enabled_flag、pic_disable_bdof_dmvr_flag、及びpic_max_num_merge_cand_minus_max_num_trianglee_cand)はシグナリングされない。イントラ専用フラグが偽である場合に、インターシンタックス要素はシグナリングされ得る。インターシンタックス要素のうちのどれがシグナリングされるかは、例えば、図14Aに示されるように、追加フラグに基づいて決定され得る。
【0125】
図14Bを参照すると、インター専用フラグが真である場合に、イントラシンタックス要素(例えば、pic_log2_diff_min_qt_min_cb_chroma、pic_max_mtt_hierarchy_depth_chroma、pic_log2_diff_max_bt_min_qt_chroma、pic_log2_diff_max_tt_min_qt_chroma)はシグナリングされない。インター専用フラグが偽である場合に、イントラシンタックス要素はシグナリングされ得る。イントラシンタックス要素のうちのどれがシグナリングされるかは、例えば、図14Bに示されるように、追加フラグに基づいて決定され得る。
【0126】
図14A~14Bについての説明に基づいて、イントラ専用フラグが真である場合に、インターシンタックス要素はシグナリングされず、イントラシンタックス要素のみがシグナリングされ得る。例において、少なくとも1つのフラグは、第3フラグ(又はイントラ専用フラグ)しか含まず、第3フラグは、現在のピクチャ内のサブパーティションがイントラコーディングされたサブパーティションしか含まないことを示す。よって、インターシンタックス要素はシグナリングされず、インターシンタックス要素は現在のピクチャに対してデコードされるべきではない。イントラシンタックス要素は、イントラコーディングされたサブパーティションに対してデコードされると決定され得る。
【0127】
インター専用フラグが真である場合に、イントラシンタックス要素はシグナリングされず、インターシンタックス要素のみがシグナリングされ得る。例において、少なくとも1つのフラグは、第4フラグ(又はインター専用フラグ)しか含まず、第4フラグは、現在のピクチャ内のサブパーティションがインターコーディングされたサブパーティションしか含まないことを示す。よって、イントラシンタックス要素はシグナリングされず、イントラシンタックス要素は現在のピクチャに対してデコードされるべきではない。インターシンタックス要素は、インターコーディングされたサブパーティションに対してデコードされると決定され得る。
【0128】
インター専用フラグ及びイントラ専用フラグの両方が偽である場合に、インターシンタックス要素及びイントラシンタックス要素は、例えば、図14A~14Bにリストアップされている追加条件に応じて、シグナリングされ得る。例において、少なくとも1つのフラグは、現在のピクチャ内のサブパーティションがイントラコーディングによる少なくとも1つのイントラコーディングされたサブパーティション及びインターコーディングによる少なくとも1つのインターコーディングされたサブパーティションを含むことを示す第3フラグ及び第4フラグを含む。インターシンタックス要素は、少なくとも1つのインターコーディングされたサブパーティションに対してデコードされると決定され得る。イントラシンタックス要素は、少なくとも1つのイントラコーディングされたサブパーティションに対してデコードされると決定され得る。
【0129】
本開示の態様に従って、第1フラグ又は第3フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかと、サブパーティションがイントラコーディングによるイントラコーディングされたサブパーティションしか含まないかどうかとを示すことができる。
【0130】
いくつかの例では、第1フラグ又は第3フラグは、現在のピクチャ内のサブパーティションに対する1つ以上の許されるコーディングタイプを決定し、よって、第2フラグ及び第4フラグは不要である。例えば、第1フラグが偽であるか、あるいは、第3フラグが真である場合に、第1フラグ又は第3フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されず、サブパーティションがイントラコーディングによるイントラコーディングされたサブパーティションしか含まないことを示す。
【0131】
本開示の態様に従って、第2フラグ又は第4フラグは、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかと、サブパーティションがインターコーディングによるインターコーディングされたサブパーティションしか含まないかどうかとを示すことができる。
【0132】
いくつかの例では、第2フラグ又は第4フラグは、現在のピクチャ内のサブパーティションに対する1つ以上の許されるコーディングタイプを決定し、よって、第1フラグ及び第3フラグは不要である。例えば、第2フラグが偽であるか、あるいは、第4フラグが真である場合に、第2フラグ又は第4フラグは、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されず、サブパーティションがインターコーディングによるインターコーディングされたサブパーティションしか含まないことを示す。
【0133】
本開示の態様に従って、ピクチャは、イントラピクチャ、インターピクチャ、などのようなピクチャタイプを有することができる。よって、高レベル制御フラグ(例えば、pic_intra_only_flag及びpic_inter_only_flag)は、シグナリングされる必要がなくてもよく、高レベル制御フラグの対応する値は、ピクチャタイプから導出可能である。例において、ピクチャタイプはHLSでシグナリングされる。
【0134】
例において、現在のピクチャがイントラ専用ピクチャとしてピクチャタイプを有している(例えば、現在のピクチャ内の全てのスライスがIスライスである)場合に、pic_intra_only_flagは、真であると推測されてよい。他の例では、現在のピクチャがインター専用ピクチャとしてピクチャタイプを有している(例えば、現在のピクチャ内の全てのスライスがP又はBスライスである)場合に、pic_inter_only_flagは、真であると推測されてよい。他の例では、現在のピクチャが、イントラスライス及びインタースライスの両方が現在のピクチャにおいて許されることを示すピクチャタイプを有している場合に、pic_intra_only_flag及びpic_inter_only_flagの両方が、偽であると推測され得る。
【0135】
図15は、本開示の実施形態に従うプロセス(1500)を説明するフローチャートを示す。プロセス(1500)は、コーディングされたビデオシーケンス内のブロックを再構成するために使用され得る。プロセス(1500)は、再構成中のブロックに対する予測ブロックを生成するために、ブロックの再構成において使用され得る。「ブロック」との用語は、予測ブロック、CB、CU、などとして解釈されてよい。様々な実施形態において、プロセス(1500)は、端末デバイス(310)、(320)、(330)及び(340)内の処理回路、ビデオエンコーダ(403)の機能を実行する処理回路、ビデオデコーダ(410)の機能を実行する処理回路、ビデオデコーダ(510)の機能を実行する処理回路、ビデオエンコーダ(603)の機能を実行する処理回路、などのような処理回路によって実行される。いくつかの実施形態では、プロセス(1500)は、ソフトウェア命令で実施されるので、処理回路がソフトウェア命令を実行するとき、処理回路はプロセス(1500)を実行する。プロセス(1500)は、(S1501)から始まって、(S1510)へ進む。
【0136】
(S1510)で、現在のピクチャのコーディング情報が、コーディングされたビデオビットストリームから受け取られ得る。コーディング情報内の少なくとも1つのフラグは、現在のピクチャ内のサブパーティションに対して許されている1つ以上の許されるコーディングタイプを示すことができる。1つ以上の許されるコーディングタイプは、サブパーティションに対するイントラコーディング及びインターコーディングのうちの少なくとも1つを含むことができる。少なくとも1つのフラグは、現在のピクチャを含む1つ以上のピクチャに対するPPS、現在のピクチャに対するピクチャヘッダ、などのような、HLSでシグナリングされる高レベル制御フラグであることができる。サブパーティションは、現在のピクチャにおける少なくとも1つのスライス、少なくとも1つのタイル、又は少なくとも1つのタイルグループを含むことができる。
【0137】
少なくとも1つのフラグは、第1フラグ及び/又は第2フラグを含むことができる。第1フラグは、インターコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかと、サブパーティションがイントラコーディングによるイントラコーディングされたサブパーティションしか含まないかどうかとを示すことができる。第2フラグは、イントラコーディングされたサブパーティションが現在のピクチャにおいて許されるかどうかと、サブパーティションがインターコーディングによるインターコーディングされたサブパーティションしか含まないかどうかとを示すことができる。
【0138】
(S1520)で、イントラサブパーティションコーディングのみ使用されるイントラシンタックス要素をデコードすべきかどうかと、インターサブパーティションコーディングにのみ使用されるインターシンタックス要素をデコードすべきかどうかとが、少なくとも1つのフラグに基づいて決定され得る。様々な例において、1つ以上のコーディングタイプは、イントラコーディング及び/又はインターコーディングを含むので、イントラシンタックス要素及びインターシンタックス要素のうちの少なくとも1つがデコードされるべきであり、よって、イントラシンタックス要素及び/又はインターシンタックス要素をデコードすべきかどうかは、少なくとも1つのフラグに基づいて決定され得る。イントラシンタックス要素のみがデコードされると決定される場合に、プロセス(1500)は(S1530)へ進む。インターシンタックス要素のみがデコードされると決定される場合に、プロセス(1500)は(S1540)へ進む。イントラシンタックス要素及びインターシンタックス要素がデコードされると決定される場合に、プロセス(1500)は(S1550)へ進む。
【0139】
(S1530)で、コーディング情報内のイントラシンタックス要素がデコードされ得る。プロセス(1500)は(S1599)へ進んで終了する。
【0140】
(S1540)で、コーディング情報内のインターシンタックス要素がデコードされ得る。プロセス(1500)は(S1599)へ進んで終了する。
【0141】
(S1555)で、コーディング情報内のイントラシンタックス要素及びインターシンタックス要素がデコードされ得る。プロセス(1500)は(S1599)へ進んで終了する。
【0142】
プロセス(1500)は、適切に適応され得る。プロセス(1500)のステップは、変更及び/又は省略され得る。追加のステップが加えられ得る。実施の如何なる適切な順序も、使用され得る。例えば、サブパーティションのうちの1つにおけるコーディングブロックは、サブパーティションのうちのその1つに関連したイントラシンタックス要素又はインターシンタックス要素に基づいて再構成される。
【0143】
本開示内の実施形態は、適切に使用されても、あるいは、如何なる順序で組み合わされてもよい。更に、方法(又は実施形態)、エンコーダ、及びデコーダの夫々は、処理回路(例えば、1つ以上のプロセッサ又は1つ以上の集積回路)によって実装されてよい。一例では、1つ以上のプロセッサは、非一時的なコンピュータ可読媒体に記憶されているプログラムを実行する。
【0144】
上記の技術は、コンピュータ読み出し可能な命令を使用しかつ1つ以上のコンピュータ可読媒体に物理的に記憶されているコンピュータソフトウェアとして実装可能である。例えば、図16は、開示されている対象の特定の実施形態を実装することに適したコンピュータシステム(1600)を示す。
【0145】
コンピュータソフトウェアは、1つ以上の中央演算処理装置(CPU)、グラフィクス処理ユニット(GPU)などによって、直接に、又は解釈、マイクロコード実行などを通じて、実行され得る命令を含むコードを生成するように、アセンブリ、コンパイル、リンキングなどのメカニズムに従い得る如何なる適切な機械コード又はコンピュータ言語によってもコーディング可能である。
【0146】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、モノのインターネット(Internet of Things)のためのデバイス、などを含む様々なタイプのコンピュータ又はその構成要素で実行可能である。
【0147】
コンピュータシステム(1600)に関して図16に示される構成要素は、本質的に例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用又は機能の範囲に関して如何なる限定も示唆することを意図しない。構成要素の構成は、コンピュータシステム(1600)の例示的な実施形態において説明される構成要素のうちのいずれか1つ又は組み合わせに関して何らかの依存又は要件を有するものとして解釈されるべきではない。
【0148】
コンピュータシステム(1600)は、特定のヒューマンインターフェース入力デバイスを含んでよい。かようなヒューマンインターフェース入力デバイスは、例えば、触覚入力(例えば、キーボード、スワイプ、データグロープ動作)、音声入力(例えば、声、拍手)、視覚入力(例えば、ジェスチャ)、嗅覚入力(図示せず。)を通じた一人以上のユーザによる入力に反応してよい。ヒューマンインターフェースデバイスはまた、音声(例えば、発話、音楽、周囲音)、画像(例えば、スキャンされた画像、静止画カメラから取得された写真画像)、映像(例えば、二次元映像、立体視映像を含む三次元映像)などの、人による意識的な入力に必ずしも直接には関係しない特定のメディアを捕捉するためにも使用され得る。
【0149】
入力ヒューマンインターフェースデバイスは、キーボード(1601)、マウス(1602)、トラックパッド(1603)、タッチスクリーン(1610)、データグローブ(図示せず。)、ジョイスティック(1605)、マイク(1606)、スキャナ(1607)、カメラ(1608)(各1つしか表されていない。)のうちの1つ以上を含んでよい。
【0150】
コンピュータシステム(1600)は、特定のヒューマンインターフェース出力デバイスも含んでよい。かようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、音響、光、及び匂い/味を通じて一人以上のユーザの感覚を刺激し得る。かようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(1610)、データグローブ(図示せず。)、又はジョイスティック(1605)による触覚フィードバック、しかし、入力デバイスとして機能しない触覚フィードバックデバイスも存在し得る。)、音声出力デバイス(例えば、スピーカ(1609)、ヘッドホン(図示せず。))、視覚出力デバイス(例えば、夫々タッチスクリーン入力機能の有無によらず、夫々触覚フィードバック機能の有無によらず、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含み、それらのうちのいくつかは、立体視出力、仮想現実メガネ(図示せず。)、ホログラフィックディスプレイ及びスモークタンク(図示せず。)などの手段により二次元視覚出力又は三次元よりも多い次元の出力を出力可能なスクリーン(1610))、及びプリンタ(図示せず。)を含んでよい。
【0151】
コンピュータシステム(1600)は、人がアクセス可能な記憶デバイス及びそれらの関連する媒体、例えば、CD/DVD又は同様の媒体(1621)を伴ったCD/DVD ROM/RW(1620)、サムドライブ(1622)、リムーバブルハードディスク又はソリッドステートドライブ(1623)、レガシー磁気媒体、例えば、テープ及びフロッピー(登録商標)ディスク(図示せず。)、専用のROM/ASIC/PLDベースデバイス、例えば、セキュリティドングル(図示せず。)、なども含むことができる。
【0152】
当業者であれば、目下開示されている対象に関連して使用されている「コンピュータ可読媒体」という用語が、伝送媒体、搬送波、又は他の一時的な信号を含まないことも理解するはずである。
【0153】
コンピュータシステム(1600)は、1つ以上の通信ネットワーク(1655)へのインターフェース(1654)も含むことができる。ネットワークは、例えば、ワイヤレス、ワイヤライン、光であることができる。ネットワークは更に、ローカル、ワイドエリア、メトロポリタン、車両及び工業、実時間、遅延耐性、などであることができる。ネットワークの例には、イーサネット(登録商標)などのローカルエリアネットワーク、ワイヤレスLAN、GSM、3G、4G、5G、LTEなどを含むセルラーネットワーク、ケーブルTV、衛星TV、及び地上放送TVを含むTVワイヤライン又はワイヤレス広域デジタルネットワーク、CANバスを含む車両及び工場ネットワーク、などがある。特定のネットワークは、一般に、特定の汎用デジタルポート又はペリフェラルバス(1649)(例えば、コンピュータシステム(1600)のUSBポートなど)に取り付けられた外付けネットワークインターフェースアダプタを必要とする。他は、一般に、後述されるようなシステムバスへの取り付け(例えば、PCコンピュータシステムへのイーサネットネットワーク、又はスマートフォンコンピュータシステムへのセルラーネットワークインターフェース)によってコンピュータシステム(1600)のコアに組み込まれる。これらのネットワークのいずれかを使用して、コンピュータシステム(1600)は他のエンティティと通信することができる。そのような通信は、単方向の受信専用(例えば、ブロードキャストTV)又は単方向の送信専用(例えば、特定のCANバスデバイスへのCANバス)であることができ、あるいは、例えば、ローカル若しくは広域デジタルネットワークを使用して他のコンピュータシステムに対して双方向であることができる。特定のプロトコル又はプロトコルスタックが、上述されたようなネットワーク及びネットワークインターフェースの夫々で使用可能である。
【0154】
上記のヒューマンインターフェースデバイス、人がアクセス可能な記憶デバイス、及びネットワークインターフェースは、コンピュータシステム(1600)のコア(1640)へ取り付けられ得る。
【0155】
コア(1640)は、1つ以上の中央演算処理装置(CPU)(1641)、グラフィクス処理ユニット(GPU)(1642)、フィールドプログラマブルゲートエリア(FPGA)(1643)の形をとる専用のプログラム可能処理ユニット、特定のタスクのためのハードウェアアクセラレータ(1644)、グラフィクスアダプタ(1650)などを含むことができる。これらのデバイスは、リードオンリーメモリ(ROM)(1645)、ランダムアクセスメモリ(RAM)(1646)、内部のユーザアクセス不能ハードドライブなどの内蔵大容量記憶装置、SSD、など(1647)とともに、システムバス(1648)を通じて接続されてよい。いくつかのコンピュータシステムでは、システムバス(1648)は、追加のCPU、GPUなどによる拡張を可能にするように、1つ以上の物理プラグの形でアクセス可能であることができる。コアのシステムバス(1648)へ直接に又はペリフェラルバス(1649)を通じて、周辺機器が取り付けられ得る。例において、ディスプレイ(1610)は、グラフィクスアダプタ(1650)へ接続され得る。ペリフェラルバスのためのアーキテクチャには、PCI、USBなどがある。
【0156】
CPU(1641)、GPU(1642)、FPGA(1643)、及びアクセラレータ(1644)は、組み合わせて上記のコンピュータコードを構成することができる特定の命令を実行可能である。そのコンピュータコードは、ROM(1645)又はRAM(1646)に記憶され得る。一時データもRAM(1646)に記憶可能であり、一方、永続性データは、例えば、内蔵大容量記憶装置(1647)に記憶可能である。メモリデバイスのいずれかへの高速な格納及び読み出しは、キャッシュメモリの使用により可能にされ得る。キャッシュメモリは、1つ以上のCPU(1641)、GPU(1642)、大容量記憶装置(1647)、ROM(1645)、RAM(1646)などと密接に関連し得る。
【0157】
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構成されたものであることができ、あるいは、それらは、コンピュータソフトウェア技術で通常の知識を有する者によく知られており利用可能である種類のものであることができる。
【0158】
例として、限定としてではなく、アーキテクチャ(1600)、具体的にはコア(1640)を有するコンピュータシステムは、1つ以上の有形なコンピュータ可読媒体において具現されているソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータ、などを含む。)の結果として機能を提供することができる。かようなコンピュータ可読媒体は、コア内蔵大容量記憶装置(1647)又はROM(1645)などの、非一時的な性質であるコア(1640)の特定の記憶装置に加えて、先に紹介されたユーザアクセス可能な大容量記憶装置に関連した媒体であることができる。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに記憶され、コア(1640)によって実行可能である。コンピュータ可読媒体には、特定のニーズに応じて、1つ以上のメモリデバイス又はチップが含まれ得る。ソフトウェアは、コア(1640)、及び、具体的には、その中のプロセッサ(CPU、GPU、FPGAなどを含む。)に、RAM(1646)に記憶されているデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を変更することとを含め、本明細書で説明されている特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。追加的に、又は代替案として、コンピュータシステムは、本明細書で説明されている特定のプロセス又は特定のプロセスの特定の部分を実行するようにソフトウェアの代わりに又はそれとともに動作することができる、回路内でハードウェアにより実現されるか又は別なふうに具現されるロジック(例えば、アクセラレータ(1344))の結果として、機能を提供することができる。ソフトウェアへの言及は、必要に応じて、ロジックを包含することができ、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶している回路(例えば、集積回路(IC))、実行のためのロジックを具現する回路、又は両方を包含することができる。本開示は、ハードウェア及びソフトウェアの如何なる適切な組み合わせも包含する。
【0159】
本開示は、いくつかの例示的な実施形態について記載してきたが、本開示の範囲内にある代替、交換、及び様々な置換均等物が存在する。よって、明らかなように、当業者であれば、たとえ本明細書で明示的に図示又は説明されていないとしても、本開示の原理を具現し、よって、その精神及び範囲の中にある多数のシステム及び方法に想到可能である。
【0160】
付録A:頭字語
JEM:Joint Exploration Model
VVC:Versatile Video Coding
BMS:Benchmark Set
MV:Motion Vector
HEVC:High Efficiency Video Coding
MPM:Most Probable Mode
WAIP:Wide-Angle Intra Prediction
SEI:Supplementary Enhancement Information
VUI:Video Usability Information
GOP:Group of Picture(s)
TU:Transform Unit(s)
PU:Prediction Unit(s)
CTU:Coding Tree Unit(s)
CTB:Coding Tree Block(s)
PB:Prediction Block(s)
HRD:Hypothetical Reference Decoder
SDR:Standard Dynamic Range
SNR:Signal Noise Ratio
CPU:Central Processing Unit(s)
GPU:Graphics Processing Unit(s)
CRT:Cathode Ray Tube
LCD:Liquid-Crystal Display
OLED:Organic Light-Emitting Diode
CD:Compact Disc
DVD:Digital Video Disc
ROM:Read-Only Memory
RAM:Random Access Memory
ASIC:Application-Specific Integrated Circuit
PLD:Programmable Logic Device
LAN:Local Area Network
GSM:Global System for Mobile communications
LTE:Long-Term Evolution
CANBus:Controller Area Network Bus
USB:Universal Serial Bus
PCI:Peripheral Component Interconnect
FPGA:Field Programmable Gate Area(s)
SSD:Solid-State Drive
IC:Integrated Circuit
CU:Coding Unit
PDPC:Position Dependent Prediction Combination
ISP:Intra Sub-Partitions
SPS:Sequence Parameter Setting
【0161】
[参照による援用]
本開示は、「High Level Syntax Control for Video Coding」と題されて2019年10月9日付けで出願された米国特許仮出願第62/912764号の優先権の利益を主張して「METHOD AND APPARATUS FOR VIDEO CODING」と題されて2020年9月28日付けで出願された米国特許出願第17/035051号の優先権の利益を主張するものである。これらの先願の全開示は、その全文を参照により本願に援用される。
図1A
図1B
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13A
図13B
図13C
図13D
図14A
図14B
図15
図16
【国際調査報告】