IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ クゥアルコム・インコーポレイテッドの特許一覧

特表2024-514113ビデオコーディングのためのテンプレートマッチングベースのアフィン予測
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-28
(54)【発明の名称】ビデオコーディングのためのテンプレートマッチングベースのアフィン予測
(51)【国際特許分類】
   H04N 19/54 20140101AFI20240321BHJP
   H04N 19/53 20140101ALI20240321BHJP
【FI】
H04N19/54
H04N19/53
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023561191
(86)(22)【出願日】2022-04-08
(85)【翻訳文提出日】2023-10-04
(86)【国際出願番号】 US2022024024
(87)【国際公開番号】W WO2022221140
(87)【国際公開日】2022-10-20
(31)【優先権主張番号】63/173,861
(32)【優先日】2021-04-12
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/173,949
(32)【優先日】2021-04-12
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/715,571
(32)【優先日】2022-04-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】595020643
【氏名又は名称】クゥアルコム・インコーポレイテッド
【氏名又は名称原語表記】QUALCOMM INCORPORATED
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】チェン、チュン-チー
(72)【発明者】
【氏名】ファン、ハン
(72)【発明者】
【氏名】ジャン、ジー
(72)【発明者】
【氏名】チャン、ヤオ-ジェン
(72)【発明者】
【氏名】ジャン、ヤン
(72)【発明者】
【氏名】セレジン、バディム
(72)【発明者】
【氏名】カルチェビチ、マルタ
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MA21
5C159MC11
5C159ME01
5C159NN10
5C159NN16
5C159NN32
5C159PP04
5C159RC11
5C159TA30
5C159TB08
5C159TC42
5C159UA02
5C159UA05
(57)【要約】
ビデオデコーダは、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを行うように構成され得る。
【選択図】図15
【特許請求の範囲】
【請求項1】
ビデオデータを復号する方法であって、
前記ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、
前記現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、
前記1つまたは複数のCPMVを使用して、参照ピクチャ中の前記現在のブロックのための最初の予測ブロックを識別することと、
前記現在のピクチャ中の前記現在のブロックのための現在のテンプレートを決定することと、
前記参照ピクチャ中の前記最初の予測ブロックのための最初の参照テンプレートを決定することと、
前記最初の参照テンプレートと前記現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することと、
を備える方法。
【請求項2】
前記修正された予測ブロックを決定するために前記動きベクトル改良プロセスを実施することは、
前記最初の参照テンプレートよりも前記現在のテンプレートに密接に一致する後続の参照テンプレートを求めて、前記最初の参照テンプレートの周りの探索エリア内を探索すること
をさらに備える、請求項1に記載の方法。
【請求項3】
前記最初の参照テンプレートと前記現在のテンプレートとの前記比較は、テンプレートマッチングコストを備える、請求項1に記載の方法。
【請求項4】
前記最初の参照テンプレート中のサンプルと前記現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいて、前記テンプレートマッチングコストを決定すること、
をさらに備える、請求項3に記載の方法。
【請求項5】
前記最初の参照テンプレートは、前記最初の予測ブロックの上にまたは前記最初の予測ブロックの左側に位置する複数のサブブロックを備える、請求項1に記載の方法。
【請求項6】
前記アフィン予測モードは、4パラメータアフィン予測モードを備える、請求項1に記載の方法。
【請求項7】
前記アフィン予測モードは、6パラメータアフィン予測モードを備える、請求項1に記載の方法。
【請求項8】
前記修正された予測ブロックに基づいて予測ブロックを決定することと、
再構築されたブロックを決定するために、残差ブロックに前記予測ブロックを加算することと、
前記再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、
前記フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することと、
をさらに備える、請求項1に記載の方法。
【請求項9】
復号の前記方法は、ビデオ符号化プロセスの部分として実施される、請求項1に記載の方法。
【請求項10】
ビデオデータを復号するためのデバイスであって、
メモリと、
前記メモリに結合され、回路中に実装された1つまたは複数のプロセッサと、
を備え、前記1つまたは複数のプロセッサは、
前記ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、
前記現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、
前記1つまたは複数のCPMVを使用して、参照ピクチャ中の前記現在のブロックのための最初の予測ブロックを識別することと、
前記現在のピクチャ中の前記現在のブロックのための現在のテンプレートを決定することと、
前記参照ピクチャ中の前記最初の予測ブロックのための最初の参照テンプレートを決定することと、
前記最初の参照テンプレートと前記現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することと、
を行うように構成された、デバイス。
【請求項11】
前記修正された予測ブロックを決定するために前記動きベクトル改良プロセスを実施するために、前記1つまたは複数のプロセッサは、さらに、
前記最初の参照テンプレートよりも前記現在のテンプレートに密接に一致する後続の参照テンプレートを求めて、前記最初の参照テンプレートの周りの探索エリア内を探索すること、
を行うようにさらに構成された、請求項10に記載のデバイス。
【請求項12】
前記最初の参照テンプレートと前記現在のテンプレートとの前記比較は、テンプレートマッチングコストを備える、請求項10に記載のデバイス。
【請求項13】
前記1つまたは複数のプロセッサは、
前記最初の参照テンプレート中のサンプルと前記現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいて、前記テンプレートマッチングコストを決定すること、
を行うようにさらに構成された、請求項12に記載のデバイス。
【請求項14】
前記最初の参照テンプレートは、前記最初の予測ブロックの上にまたは前記最初の予測ブロックの左側に位置する複数のサブブロックを備える、請求項10に記載のデバイス。
【請求項15】
前記アフィン予測モードは、4パラメータアフィン予測モードを備える、請求項10に記載のデバイス。
【請求項16】
前記アフィン予測モードは、6パラメータアフィン予測モードを備える、請求項10に記載のデバイス。
【請求項17】
前記1つまたは複数のプロセッサは、
前記修正された予測ブロックに基づいて予測ブロックを決定することと、
再構築されたブロックを決定するために、残差ブロックに前記予測ブロックを加算することと、
前記再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、
前記フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することと、
を行うようにさらに構成された、請求項10に記載のデバイス。
【請求項18】
前記デバイスは、符号化ビデオデータを受信するように構成された受信機をさらに備えるワイヤレス通信デバイスを備える、請求項10に記載のデバイス。
【請求項19】
前記ワイヤレス通信デバイスは、電話ハンドセットを備え、
前記受信機は、ワイヤレス通信規格に従って、前記符号化ビデオデータを備える信号を復調するように構成された、請求項18に記載のデバイス。
【請求項20】
復号ビデオデータを表示するように構成されたディスプレイ、
をさらに備える、請求項10に記載のデバイス。
【請求項21】
前記デバイスは、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの1つまたは複数を備える、請求項10に記載のデバイス。
【請求項22】
前記デバイスは、ビデオ符号化デバイスを備える、請求項10に記載のデバイス。
【請求項23】
コンピュータ可読記憶媒体であって、1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
前記ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、
前記現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、
前記1つまたは複数のCPMVを使用して、参照ピクチャ中の前記現在のブロックのための最初の予測ブロックを識別することと、
前記現在のピクチャ中の前記現在のブロックのための現在のテンプレートを決定することと、
前記参照ピクチャ中の前記最初の予測ブロックのための最初の参照テンプレートを決定することと、
前記最初の参照テンプレートと前記現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することと、
を行わせる命令を記憶したコンピュータ可読記憶媒体。
【請求項24】
前記修正された予測ブロックを決定するために前記動きベクトル改良プロセスを実施するために、さらに、前記命令は、前記1つまたは複数のプロセッサに、
前記最初の参照テンプレートよりも前記現在のテンプレートに密接に一致する後続の参照テンプレートを求めて、前記最初の参照テンプレートの周りの探索エリア内を探索すること、
を行わせる、請求項23に記載のコンピュータ可読記憶媒体。
【請求項25】
前記最初の参照テンプレートと前記現在のテンプレートとの前記比較は、テンプレートマッチングコストを備える、請求項23に記載のコンピュータ可読記憶媒体。
【請求項26】
前記命令は、前記1つまたは複数のプロセッサに、
前記最初の参照テンプレート中のサンプルと前記現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいて、前記テンプレートマッチングコストを決定すること、
を行わせる、請求項25に記載のコンピュータ可読記憶媒体。
【請求項27】
前記最初の参照テンプレートは、前記最初の予測ブロックの上にまたは前記最初の予測ブロックの左側に位置する複数のサブブロックを備える、請求項23に記載のコンピュータ可読記憶媒体。
【請求項28】
前記命令は、前記1つまたは複数のプロセッサに、
前記修正された予測ブロックに基づいて予測ブロックを決定することと、
再構築されたブロックを決定するために、残差ブロックに前記予測ブロックを加算することと、
前記再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、
前記フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することと、
を行わせる、請求項23に記載のコンピュータ可読記憶媒体。
【請求項29】
ビデオデータを復号するための装置であって、
前記ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定するための手段と、
前記現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定するための手段と、
前記1つまたは複数のCPMVを使用して、参照ピクチャ中の前記現在のブロックのための最初の予測ブロックを識別するための手段と、
前記現在のピクチャ中の前記現在のブロックのための現在のテンプレートを決定するための手段と、
前記参照ピクチャ中の前記最初の予測ブロックのための最初の参照テンプレートを決定するための手段と、
前記最初の参照テンプレートと前記現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するための手段と、
を備える装置。
【請求項30】
前記最初の参照テンプレートと前記現在のテンプレートとの前記比較は、テンプレートマッチングコストを備え、前記装置は、
前記最初の参照テンプレート中のサンプルと前記現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいて、前記テンプレートマッチングコストを決定するための手段
をさらに備える、請求項29に記載の装置。
【発明の詳細な説明】
【優先権の主張】
【0001】
[0001]本出願は、各々の内容全体が参照により本明細書に組み込まれる、2022年4月7日に出願された米国特許出願第17/715,571号、2021年4月12日に出願された米国仮出願第63/173,861号、および2021年4月12日に出願された米国仮出願第63/173,949号の優先権を主張する。2022年4月7日に出願された米国特許出願第17/715,571号は、2021年4月12日に出願された米国仮出願第63/173,861号および2021年4月12日に出願された米国仮出願第63/173,949号の利益を主張する。
【技術分野】
【0002】
[0002]本開示は、ビデオ符号化およびビデオ復号に関する。
【背景技術】
【0003】
[0003]デジタルビデオ能力は、デジタルテレビ、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末(PDA)、ラップトップまたはデスクトップコンピュータ、タブレットコンピュータ、電子ブックリーダー、デジタルカメラ、デジタルレコーディングデバイス、デジタルメディアプレーヤ、ビデオゲーミングデバイス、ビデオゲーム機、セルラーまたは衛星無線電話、いわゆる「スマートフォン」、ビデオ遠隔会議デバイス、ビデオストリーミングデバイスなどを含む、幅広いデバイスの中に組み込まれ得る。デジタルビデオデバイスは、MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4,Part10,アドバンストビデオコーディング(AVC)、ITU-T H.265/高効率ビデオコーディング(HEVC)によって定義された規格、およびそのような規格の拡張に記載されているビデオコーディング技法など、ビデオコーディング技法を実施する。ビデオデバイスは、そのようなビデオコーディング技法を実施することによって、より効率的にデジタルビデオ情報を送信、受信、符号化、復号、および/または記憶し得る。
【0004】
[0004]ビデオコーディング技法は、ビデオシーケンスに固有の冗長性を低減または除去するための空間(イントラピクチャ)予測および/または時間(インターピクチャ)予測を含む。ブロックベースビデオコーディングでは、ビデオスライス(たとえば、ビデオピクチャまたはビデオピクチャの一部分)が、コーディングツリーユニット(CTU)、コーディングユニット(CU)および/またはコーディングノードと呼ばれることもある、ビデオブロックに区分され得る。ピクチャのイントラコーディングされた(I)スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間予測を使用して符号化される。ピクチャのインターコーディングされた(PまたはB)スライス中のビデオブロックは、同じピクチャ中の隣接ブロック中の参照サンプルに対する空間予測、または他の参照ピクチャ中の参照サンプルに対する時間予測を使用し得る。ピクチャはフレームと呼ばれることがあり、参照ピクチャは参照フレームと呼ばれることがある。
【発明の概要】
【0005】
[0005]本開示は、一連のピクチャに発生することができるオブジェクトの回転を潜在的に考慮するインター予測モードのタイプであるアフィン予測モードに関係する技法について説明する。ブロックのアフィン動きモデルは、制御点動きベクトル(CPMV:control-point motion vector)と呼ばれることがあるブロックの制御点の動きベクトルに基づいて決定され得る。いくつかの実装形態では、ブロックの制御点は、ブロックの左上隅および右上隅である。いくつかの実装形態では、ブロックの制御点は、ブロックの左下隅をさらに含む。ビデオコーダ(すなわち、ビデオエンコーダまたはビデオデコーダ)は、参照ピクチャ中の予測サブブロックの位置を特定するためにブロックのCPMVに基づいてブロックのサブブロックの動きベクトルを計算し得る。予測サブブロックは、予測ブロックを形成し得る。
【0006】
[0006]本開示は、予測サブブロック、したがって、予測ブロックを改良し得るデコーダ側の技法について説明する。すなわち、本開示の技法は、ビデオデコーダが、CPMVを使用して最初に決定されたまたは位置を特定されたサブブロックとは異なるサブブロックを使用して予測ブロックを形成することを生じ得る。本開示において説明される方式でアフィンコーディングされるブロックのための修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することによって、ビデオデコーダは、従来のアフィン予測と比較してより正確な予測ブロックを決定し得る。本開示の技法を利用してより正確な予測ブロックを決定することは、シグナリングオーバーヘッドを増加させることなしに全体的なコーディング品質を改善し得る。
【0007】
[0007]本開示の一例によれば、ビデオデータを復号する方法は、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを含む。
【0008】
[0008]本開示の別の例によれば、ビデオデータを復号するためのデバイスは、メモリと、メモリに結合された、回路中に実装された1つまたは複数のプロセッサとを含み、1つまたは複数のプロセッサは、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを行うように構成される。
【0009】
[0009]本開示の別の例によれば、コンピュータ可読記憶媒体は、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを行わせる命令を記憶する。
【0010】
[0010]本開示の別の例によれば、ビデオデータを復号するための装置は、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定するための手段と、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定するための手段と、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別するための手段と、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定するための手段と、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定するための手段と、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するための手段とを含む。
【0011】
[0011]1つまたは複数の例の詳細が添付の図面および以下の説明に記載される。他の特徴、目的、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0012】
図1】[0012]本開示の技法を実施し得る例示的なビデオ符号化および復号システムを示すブロック図。
図2A】[0013]例示的なクワッドツリーバイナリツリー(QTBT)構造を示す概念図。
図2B】対応するコーディングツリーユニット(CTU)を示す概念図。
図3A】[0014]マージモードのための空間隣接動きベクトル候補を示す概念図。
図3B】[0015]高度動きベクトル予測(AMVP)モードのための空間隣接動きベクトル候補を示す概念図。
図4A】[0016]時間動きベクトル候補を示す概念図。
図4B】[0017]動きベクトルスケーリングを示す概念図。
図5】[0018]最初の動きベクトルの周りの探索エリアに対して実施されるテンプレートマッチングの一例を示す図。
図6A】[0019]制御点ベースの6パラメータアフィン動きモデルを示す概念図。
図6B】[0020]制御点ベースの4パラメータアフィン動きモデルを示す概念図。
図7】[0021]サブブロックごとのアフィン動きベクトルフィールドの一例を示す図。
図8】[0022]サブブロック動きベクトルの一例を示す図。
図9A】[0023]現在のテンプレートブロックと参照テンプレートブロックとを示す図。
図9B】現在のテンプレートブロックと参照テンプレートブロックとを示す図。
図9C】現在のテンプレートブロックと参照テンプレートブロックとを示す図。
図10】[0024]テンプレートマッチングコストを計算するために隣接ブロックのサンプルに割り当てられ得るサンプルごとの重みの例を示す概念図。
図11】[0025]本開示の技法を実施し得る例示的なビデオエンコーダを示すブロック図。
図12】[0026]本開示の技法を実施し得る例示的なビデオデコーダを示すブロック図。
図13】[0027]本開示の技法による、現在のブロックを符号化するための例示的なプロセスを示すフローチャート。
図14】[0028]本開示の技法による、現在のブロックを復号するための例示的なプロセスを示すフローチャート。
図15】[0029]本開示の技法による、現在のブロックを復号するための例示的なプロセスを示すフローチャート。
【発明を実施するための形態】
【0013】
[0030]ビデオコーディング(たとえば、ビデオ符号化および/またはビデオ復号)は、一般に、同じピクチャ中のビデオデータのすでにコーディングされたブロックからビデオデータのブロックを予測すること(たとえば、イントラ予測)または異なるピクチャ中のビデオデータのすでにコーディングされたブロックからビデオデータのブロックを予測すること(たとえば、インター予測)のいずれかを伴う。いくつかの事例では、ビデオエンコーダはまた、予測ブロックを元のブロックと比較することによって残差データを計算する。したがって、残差データは、予測ブロックと元のブロックとの間の差分を表す。残差データをシグナリングするために必要とされるビット数を低減するために、ビデオエンコーダは、残差データを変換および量子化し、変換および量子化された残差データを符号化ビットストリーム中でシグナリングする。変換および量子化プロセスによって達成される圧縮は、変換および量子化プロセスが復号ビデオデータにひずみを導入し得ることを意味する、ロッシーであり得る。
【0014】
[0031]ビデオデコーダは、予測ブロック単独でよりもぴったり元のビデオブロックに一致する再構築ビデオブロックを生成するために、残差データを復号し、予測ブロックに加算する。残差データの変換および量子化によってもたらされるロスにより、最初の再構築ブロックは、ひずみまたはアーティファクトを有し得る。アーティファクトまたはひずみの1つの通例のタイプはブロッキネスと呼ばれ、ここで、ビデオデータをコーディングするために使用されるブロックの境界が視認できる。
【0015】
[0032]復号ビデオの品質をさらに改善するために、ビデオデコーダは、再構築ビデオブロックに対して1つまたは複数のフィルタ処理演算を実施することができる。これらのフィルタ処理演算の例は、デブロッキングフィルタ処理、サンプル適応オフセット(SAO)フィルタ処理、および適応ループフィルタ処理(ALF)を含む。これらのフィルタ処理演算のためのパラメータは、ビデオエンコーダによって決定され、符号化ビデオビットストリーム中で明示的にシグナリングされるか、またはパラメータが符号化ビデオビットストリーム中で明示的にシグナリングされる必要なしにビデオデコーダによって暗黙的に決定されるかのいずれかであり得る。
【0016】
[0033]本開示は、一連のピクチャに発生することができるオブジェクトの回転を潜在的に考慮するインター予測モードのタイプであるアフィン予測モードに関係する技法について説明する。ブロックのアフィン動きモデルは、制御点動きベクトル(CPMV)と呼ばれることがあるブロックの制御点の動きベクトルに基づいて決定され得る。いくつかの実装形態では、ブロックの制御点は、ブロックの左上隅および右上隅である。いくつかの実装形態では、ブロックの制御点は、ブロックの左下隅をさらに含む。ビデオコーダ(すなわち、ビデオエンコーダまたはビデオデコーダ)は、参照ピクチャ中の予測サブブロックの位置を特定するためにブロックのCPMVに基づいてブロックのサブブロックの動きベクトルを計算し得る。予測サブブロックは、予測ブロックを形成し得る。
【0017】
[0034]本開示は、予測サブブロック、したがって、予測ブロックを改良し得るデコーダ側の技法について説明する。すなわち、本開示の技法は、ビデオデコーダが、CPMVを使用して最初に決定されたまたは位置を特定されたサブブロックとは異なるサブブロックを使用して予測ブロックを形成することを生じ得る。本開示において説明される方式でアフィンコーディングされたブロックのための修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することによって、ビデオデコーダは、従来のアフィン予測と比較してより正確な予測ブロックを決定し得る。本開示の技法を利用してより正確な予測ブロックを決定することは、シグナリングオーバーヘッドを増加させることなしに全体的なコーディング品質を改善し得る。
【0018】
[0035]本開示の技法が、概して、ビデオデコーダによって実施されるものとして説明されているが、本明細書で説明される技法は、ビデオエンコーダによっても実施され得ることを理解されたい。たとえば、本開示の技法は、ビデオブロックをどのように符号化するのかを決定することおよびビデオの後続のピクチャを符号化するために使用され得る参照ピクチャを生成することを行うためのプロセスの部分としてビデオエンコーダによって実施され得る。
【0019】
[0036]図1は、本開示の技法を実施し得る例示的なビデオ符号化および復号システム100を示すブロック図である。本開示の技法は、概して、ビデオデータをコーディング(符号化および/または復号)することを対象とする。概して、ビデオデータは、ビデオを処理するための任意のデータを含む。したがって、ビデオデータは、生の符号化されていないビデオ、符号化されたビデオ、復号された(たとえば、再構築された)ビデオ、およびシグナリングデータなどのビデオメタデータを含み得る。
【0020】
[0037]図1に示されているように、システム100は、この例では、宛先デバイス116によって復号および表示されるべき符号化されたビデオデータを提供するソースデバイス102を含む。特に、ソースデバイス102は、コンピュータ可読媒体110を介して宛先デバイス116にビデオデータを提供する。ソースデバイス102と宛先デバイス116とは、デスクトップコンピュータ、ノートブック(すなわち、ラップトップ)コンピュータ、モバイルデバイス、タブレットコンピュータ、セットトップボックス、スマートフォンなどの電話ハンドセット、テレビジョン、カメラ、ディスプレイデバイス、デジタルメディアプレーヤ、ビデオゲームコンソール、ビデオストリーミングデバイス、ブロードキャスト受信機デバイスなどを含む、広範囲にわたるデバイスのいずれかを備え得る。いくつかの場合には、ソースデバイス102と宛先デバイス116とは、ワイヤレス通信のために装備され得、したがって、ワイヤレス通信デバイスと呼ばれることがある。
【0021】
[0038]図1の例では、ソースデバイス102は、ビデオソース104と、メモリ106と、ビデオエンコーダ200と、出力インターフェース108とを含む。宛先デバイス116は、入力インターフェース122と、ビデオデコーダ300と、メモリ120と、ディスプレイデバイス118とを含む。本開示によれば、ソースデバイス102のビデオエンコーダ200と、宛先デバイス116のビデオデコーダ300とは、テンプレートベースのアフィン予測を実施するための技法を適用するように構成され得る。したがって、ソースデバイス102はビデオ符号化デバイスの一例を表し、宛先デバイス116はビデオ復号デバイスの一例を表す。他の例では、ソースデバイスと宛先デバイスとは、他の構成要素または配置を含み得る。たとえば、ソースデバイス102は、外部カメラなどの外部ビデオソースからビデオデータを受信し得る。同様に、宛先デバイス116は、一体型ディスプレイデバイスを含むのではなく、外部ディスプレイデバイスとインターフェースし得る。
【0022】
[0039]図1に示されているシステム100は一例にすぎない。概して、いかなるデジタルビデオ符号化および/または復号デバイスも、テンプレートベースのアフィン予測を実施するための技法を実施し得る。ソースデバイス102と宛先デバイス116とは、ソースデバイス102が宛先デバイス116への送信のためにコーディングされたビデオデータを生成するようなコーディングデバイスの例にすぎない。本開示は、データのコーディング(符号化および/または復号)を実施するデバイスとして「コーディング」デバイスに言及する。したがって、ビデオエンコーダ200とビデオデコーダ300とは、コーディングデバイス、特に、それぞれビデオエンコーダとビデオデコーダとの例を表す。いくつかの例では、ソースデバイス102および宛先デバイス116は、ソースデバイス102および宛先デバイス116の各々がビデオ符号化構成要素およびビデオ復号構成要素を含むように、実質的に対称的に動作し得る。したがって、システム100は、たとえば、ビデオストリーミング、ビデオ再生、ビデオブロードキャスティング、またはビデオテレフォニーのために、ソースデバイス102と宛先デバイス116との間の一方向または二方向ビデオ送信をサポートし得る。
【0023】
[0040]概して、ビデオソース104は、ビデオデータ(すなわち、生の符号化されていないビデオデータ)のソースを表し、ビデオデータの連続的な一連のピクチャ(「フレーム」とも呼ばれる)をビデオエンコーダ200に提供し、ビデオエンコーダ200は、ピクチャのためにデータを符号化する。ソースデバイス102のビデオソース104は、ビデオカメラ、前にキャプチャされた生のビデオを含んでいるビデオアーカイブ、および/またはビデオコンテンツプロバイダからビデオを受信するためのビデオフィードインターフェースなど、ビデオキャプチャデバイスを含み得る。さらなる代替として、ビデオソース104は、ソースビデオとしてコンピュータグラフィックスベースのデータ、またはライブビデオとアーカイブビデオとコンピュータ生成されたビデオとの組合せを生成し得る。各場合において、ビデオエンコーダ200は、キャプチャされたビデオデータ、プリキャプチャされたビデオデータ、またはコンピュータ生成されたビデオデータを符号化する。ビデオエンコーダ200は、ピクチャを、(「表示順序」と呼ばれることがある)受信順序から、コーディングのためのコーディング順序に再配置し得る。ビデオエンコーダ200は、符号化されたビデオデータを含むビットストリームを生成し得る。ソースデバイス102は、次いで、たとえば、宛先デバイス116の入力インターフェース122による受信および/または取出しのために、出力インターフェース108を介して符号化されたビデオデータをコンピュータ可読媒体110上に出力し得る。
【0024】
[0041]ソースデバイス102のメモリ106と、宛先デバイス116のメモリ120とは、汎用メモリを表す。いくつかの例では、メモリ106、120は、生のビデオデータ、たとえば、ビデオソース104からの生のビデオと、ビデオデコーダ300からの生の復号されたビデオデータとを記憶し得る。追加または代替として、メモリ106、120は、たとえば、それぞれ、ビデオエンコーダ200とビデオデコーダ300とによって実行可能なソフトウェア命令を記憶し得る。メモリ106およびメモリ120は、この例ではビデオエンコーダ200およびビデオデコーダ300とは別個に示されているが、ビデオエンコーダ200およびビデオデコーダ300は、機能的に同様のまたは等価な目的で内部メモリをも含み得ることを理解されたい。さらに、メモリ106、120は、符号化されたビデオデータ、たとえば、ビデオエンコーダ200からの出力と、ビデオデコーダ300への入力とを記憶し得る。いくつかの例では、メモリ106、120の部分は、たとえば、生の復号および/または符号化されたビデオデータを記憶するために、1つまたは複数のビデオバッファとして割り振られ得る。
【0025】
[0042]コンピュータ可読媒体110は、ソースデバイス102から宛先デバイス116に符号化されたビデオデータを移送することが可能な任意のタイプの媒体またはデバイスを表し得る。一例では、コンピュータ可読媒体110は、ソースデバイス102が、たとえば、無線周波数ネットワークまたはコンピュータベースネットワークを介して、符号化されたビデオデータを宛先デバイス116にリアルタイムで直接送信することを可能にするための通信媒体を表す。出力インターフェース108は、符号化されたビデオデータを含む送信信号を変調し得、入力インターフェース122は、ワイヤレス通信プロトコルなどの通信規格に従って、受信された送信信号を復調し得る。通信媒体は、無線周波数(RF)スペクトルまたは1つまたは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体を備え得る。通信媒体は、ローカルエリアネットワーク、ワイドエリアネットワーク、またはインターネットなどのグローバルネットワークなど、パケットベースのネットワークの一部を形成し得る。通信媒体は、ルータ、スイッチ、基地局、またはソースデバイス102から宛先デバイス116への通信を容易にするのに有用であり得る任意の他の機器を含み得る。
【0026】
[0043]いくつかの例では、ソースデバイス102は、符号化されたデータを出力インターフェース108から記憶デバイス112に出力し得る。同様に、宛先デバイス116は、入力インターフェース122を介してストレージデバイス112からの符号化されたデータにアクセスし得る。ストレージデバイス112は、ハードドライブ、Blu-ray(登録商標)ディスク、DVD、CD-ROM、フラッシュメモリ、揮発性または不揮発性メモリ、あるいは符号化されたビデオデータを記憶するための任意の他の好適なデジタル記憶媒体など、様々な分散されたまたはローカルにアクセスされるデータ記憶媒体のいずれかを含み得る。
【0027】
[0044]いくつかの例では、ソースデバイス102は、ソースデバイス102によって生成された符号化されたビデオデータを記憶し得るファイルサーバ114または別の中間ストレージデバイスに符号化されたビデオデータを出力し得る。宛先デバイス116は、ストリーミングまたはダウンロードを介してファイルサーバ114からの記憶されたビデオデータにアクセスし得る。
【0028】
[0045]ファイルサーバ114は、符号化されたビデオデータを記憶し、その符号化されたビデオデータを宛先デバイス116に送信することが可能な任意のタイプのサーバデバイスであり得る。ファイルサーバ114は、(たとえば、ウェブサイトのための)ウェブサーバ、(ファイル転送プロトコル(FTP)または単方向トランスポート上ファイル配信(FLUTE:File Delivery over Unidirectional Transport)プロトコルなどの)ファイル転送プロトコルサービスを提供するように構成されたサーバ、コンテンツ配信ネットワーク(CDN)デバイス、ハイパーテキスト転送プロトコル(HTTP)サーバ、マルチメディアブロードキャストマルチキャストサービス(MBMS)または拡張MBMS(eMBMS)サーバ、および/あるいはネットワーク接続ストレージ(NAS)デバイスを表し得る。ファイルサーバ114は、追加または代替として、動的適応ストリーミングオーバーHTTP(DASH)、HTTPライブストリーミング(HLS)、リアルタイムストリーミングプロトコル(RTSP)、HTTP動的ストリーミングなど、1つまたは複数のHTTPストリーミングプロトコルを実装し得る。
【0029】
[0046]宛先デバイス116は、インターネット接続を含む、任意の標準のデータ接続を通してファイルサーバ114から符号化されたビデオデータにアクセスし得る。これは、ファイルサーバ114に記憶された符号化されたデータにアクセスするのに好適であるワイヤレスチャネル(たとえば、Wi-Fi(登録商標)接続)、ワイヤード接続(たとえば、デジタル加入者回線(DSL)、ケーブルモデムなど)、またはその両方の組合せを含み得る。入力インターフェース122は、ファイルサーバ114からメディアデータを取り出すまたは受信するための上記で説明された様々なプロトコル、あるいはメディアデータを取り出すための他のそのようなプロトコルのうちのいずれか1つまたは複数に従って動作するように構成され得る。
【0030】
[0047]出力インターフェース108と入力インターフェース122とは、ワイヤレス送信機/受信機、モデム、ワイヤードネットワーキング構成要素(たとえば、イーサネット(登録商標)カード)、様々なIEEE802.11規格のいずれかに従って動作するワイヤレス通信構成要素、または他の物理的構成要素を表し得る。出力インターフェース108および入力インターフェース122がワイヤレス構成要素を備える例では、出力インターフェース108および入力インターフェース122は、4G、4G-LTE(登録商標)(ロングタームエボリューション)、LTEアドバンスト、5Gなど、セルラー通信規格に従って、符号化されたビデオデータなどのデータを転送するように構成され得る。出力インターフェース108がワイヤレス送信機を備えるいくつかの例では、出力インターフェース108と入力インターフェース122とは、IEEE802.11仕様、IEEE802.15仕様(たとえば、ZigBee(登録商標))、Bluetooth(登録商標)規格など、他のワイヤレス規格に従って、符号化ビデオデータなどのデータを転送するように構成され得る。いくつかの例では、ソースデバイス102および/または宛先デバイス116は、それぞれのシステムオンチップ(SoC)デバイスを含み得る。たとえば、ソースデバイス102は、ビデオエンコーダ200および/または出力インターフェース108に帰属する機能を実施するためのSoCデバイスを含み得、宛先デバイス116は、ビデオデコーダ300および/または入力インターフェース122に帰属する機能を実施するためのSoCデバイスを含み得る。
【0031】
[0048]本開示の技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、動的適応ストリーミングオーバーHTTP(DASH)などのインターネットストリーミングビデオ送信、データ記憶媒体上に符号化されたデジタルビデオ、データ記憶媒体上に記憶されたデジタルビデオの復号、または他の適用例など、様々なマルチメディア適用例のいずれかをサポートするビデオコーディングに適用され得る。
【0032】
[0049]宛先デバイス116の入力インターフェース122は、コンピュータ可読媒体110(たとえば、通信媒体、記憶デバイス112、ファイルサーバ114など)から符号化ビデオビットストリームを受信する。符号化されたビデオビットストリームは、ビデオブロックまたは他のコーディングされたユニット(たとえば、スライス、ピクチャ、ピクチャグループ、シーケンスなど)の特性および/または処理を記述する値を有するシンタックス要素など、ビデオデコーダ300によっても使用される、ビデオエンコーダ200によって定義されるシグナリング情報を含み得る。ディスプレイデバイス118は、復号されたビデオデータの復号されたピクチャをユーザに表示する。ディスプレイデバイス118は、液晶ディスプレイ(LCD)、プラズマディスプレイ、有機発光ダイオード(OLED)ディスプレイ、または別のタイプのディスプレイデバイスなど、様々なディスプレイデバイスのいずれかを表し得る。
【0033】
[0050]図1には示されていないが、いくつかの例では、ビデオエンコーダ200およびビデオデコーダ300は各々、オーディオエンコーダおよび/またはオーディオデコーダと統合され得、共通のデータストリーム中にオーディオとビデオの両方を含む多重化ストリームをハンドリングするために、適切なMUX-DEMUXユニット、あるいは他のハードウェアおよび/またはソフトウェアを含み得る。適用可能な場合、MUX-DEMUXユニットはITU H.223マルチプレクサプロトコル、またはユーザデータグラムプロトコル(UDP)などの他のプロトコルに準拠し得る。
【0034】
[0051]ビデオエンコーダ200およびビデオデコーダ300は各々、1つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダおよび/またはデコーダ回路のいずれか、あるいはそれらの任意の組合せとして実装され得る。本技法が部分的にソフトウェアで実装されるとき、デバイスは、好適な非一時的コンピュータ可読媒体にソフトウェアの命令を記憶し、本開示の技法を実施するために1つまたは複数のプロセッサを使用してその命令をハードウェアで実行し得る。ビデオエンコーダ200とビデオデコーダ300との各々は、1つまたは複数のエンコーダまたはデコーダに含まれ得、それらのいずれかが、それぞれのデバイス中の複合エンコーダ/デコーダ(CODEC)の一部として統合され得る。ビデオエンコーダ200および/またはビデオデコーダ300を含むデバイスは、集積回路、マイクロプロセッサ、および/またはセルラー電話機などのワイヤレス通信デバイスを備え得る。
【0035】
[0052]ビデオエンコーダ200およびビデオデコーダ300は、高効率ビデオコーディング(HEVC)とも呼ばれるITU-T H.265、あるいはマルチビューおよび/またはスケーラブルビデオコーディング拡張などのそれらの拡張など、ビデオコーディング規格に従って動作し得る。代替または追加として、ビデオエンコーダ200とビデオデコーダ300とは、汎用ビデオコーディング(VVC)とも呼ばれるITU-T H.266などの他のプロプライエタリまたは業界標準および画面コンテンツまたはハイダイナミックレンジのための拡張などのそれの拡張に従って動作し得る。VVC規格のドラフトは、Brossら、「Versatile Video Coding(Draft10)」、ITU-T SG16 WP3およびISO/IEC JTC1/SC29/WG11のジョイントビデオエキスパートチーム(JVET)、第18回会合、遠隔会議による、2020年6月22日~7月1日、JVET-S2001-v17(以下、「VVCドラフト10」)に記載されている。しかしながら、本開示の技法は、どんな特定のコーディング規格にも限定されない。
【0036】
[0053]概して、ビデオエンコーダ200およびビデオデコーダ300は、ピクチャのブロックベースコーディングを実施し得る。「ブロック」という用語は、概して、処理されるべき(たとえば、符号化されるべき、復号されるべき、または、符号化および/もしくは復号プロセスにおいて他の方法で使用されるべき)データを含む構造を指す。たとえば、ブロックは、ルミナンスおよび/またはクロミナンスデータのサンプルの2次元行列を含み得る。概して、ビデオエンコーダ200およびビデオデコーダ300は、YUV(たとえば、Y、Cb、Cr)フォーマットで表されるビデオデータをコーディングし得る。すなわち、ピクチャのサンプルのために赤色、緑色、および青色(RGB)データをコーディングするのではなく、ビデオエンコーダ200およびビデオデコーダ300は、ルミナンス成分とクロミナンス成分とをコーディングし得、ここで、クロミナンス成分は、赤色相と青色相の両方のクロミナンス成分を含み得る。いくつかの例では、ビデオエンコーダ200は、符号化より前に、受信されたRGBフォーマットのデータをYUV表現にコンバートし、ビデオデコーダ300は、YUV表現をRGBフォーマットにコンバートする。代替的に、前処理および後処理ユニット(図示せず)が、これらのコンバージョンを実施し得る。
【0037】
[0054]本開示は、概して、ピクチャのデータを符号化または復号するプロセスを含むように、ピクチャのコーディング(たとえば、符号化および復号)に言及することがある。同様に、本開示は、ブロックのためのデータを符号化または復号するプロセス、たとえば、予測および/または残差コーディングを含むように、ピクチャのブロックのコーディングに言及することがある。符号化されたビデオビットストリームは、概して、コーディング決定(たとえば、コーディングモード)とブロックへのピクチャの区分とを表すシンタックス要素についての一連の値を含む。したがって、ピクチャまたはブロックをコーディングすることへの言及は、概して、ピクチャまたはブロックを形成するシンタックス要素の値をコーディングすることとして理解されるべきである。本開示では、現在のブロックまたは現在のピクチャは、概して、復号済みのブロックもしくはピクチャまたはまだ復号されていないブロックもしくはピクチャとは反対に、現在符号化または復号されているブロックまたはピクチャを指す。
【0038】
[0055]HEVCは、コーディングユニット(CU)、予測ユニット(PU)、および変換ユニット(TU)を含む、様々なブロックを定義する。HEVCに従って、(ビデオエンコーダ200などの)ビデオコーダは、クワッドツリー構造に従ってコーディングツリーユニット(CTU)をCUに区分する。すなわち、ビデオコーダは、CTUとCUとを4つの等しい重複しない正方形に区分し、クワッドツリーの各ノードは、0個または4つのいずれかの子ノードを有する。子ノードのないノードは、「リーフノード」と呼ばれることがあり、そのようなリーフノードのCUは、1つまたは複数のPUおよび/または1つまたは複数のTUを含み得る。ビデオコーダは、PUとTUとをさらに区分し得る。たとえば、HEVCでは、残差クワッドツリー(RQT)は、TUの区分を表す。HEVCでは、PUはインター予測データを表すが、TUは残差データを表す。イントラ予測されるCUは、イントラモード指示などのイントラ予測情報を含む。
【0039】
[0056]別の例として、ビデオエンコーダ200およびビデオデコーダ300は、VVCに従って動作するように構成され得る。VVCによれば、(ビデオエンコーダ200などの)ビデオコーダは、ピクチャを複数のCTUに区分する。ビデオエンコーダ200は、クワッドツリーバイナリツリー(QTBT)構造またはマルチタイプツリー(MTT)構造など、ツリー構造に従ってCTUを区分し得る。QTBT構造は、HEVCのCUとPUとTUとの間の分離など、複数の区分タイプの概念を除去する。QTBT構造は、2つのレベル、すなわち、クワッドツリー区分に従って区分される第1のレベルと、バイナリツリー区分に従って区分される第2のレベルとを含む。QTBT構造のルートノードは、CTUに対応する。バイナリツリーのリーフノードは、CUに対応する。
【0040】
[0057]MTT区分構造では、ブロックは、クワッドツリー(QT)区分と、バイナリツリー(BT)区分と、1つまたは複数のタイプのトリプルツリー(TT)(ターナリツリー(TT)とも呼ばれる)区分とを使用して区分され得る。トリプルツリーまたはターナリツリー区分は、ブロックが3つのサブブロックにスプリットされる区分である。いくつかの例では、トリプルツリーまたはターナリツリー区分は、中心を通して元のブロックを分割することなしにブロックを3つのサブブロックに分割する。MTTにおける区分タイプ(たとえば、QT、BT、およびTT)は、対称または非対称であり得る。
【0041】
[0058]いくつかの例では、ビデオエンコーダ200およびビデオデコーダ300は、ルミナンス成分とクロミナンス成分との各々を表すために単一のQTBTまたはMTT構造を使用し得、他の例では、ビデオエンコーダ200およびビデオデコーダ300は、ルミナンス成分のための1つのQTBT/MTT構造、および両方のクロミナンス成分のための別のQTBT/MTT構造(またはそれぞれのクロミナンス成分のための2つのQTBT/MTT構造)など、2つまたはそれ以上のQTBTまたはMTT構造を使用し得る。
【0042】
[0059]ビデオエンコーダ200およびビデオデコーダ300は、HEVCに従うクワッドツリー区分、QTBT区分、MTT区分、または他の区分構造を使用するように構成され得る。説明の目的で、本開示の技法の説明はQTBT区分に関して提示される。しかしながら、本開示の技法は、クワッドツリー区分、または同様に他のタイプの区分を使用するように構成されたビデオコーダにも適用され得ることを理解されたい。
【0043】
[0060]いくつかの例では、CTUは、ルーマサンプルのコーディングツリーブロック(CTB)、3つのサンプルアレイを有するピクチャのクロマサンプルの2つの対応するCTB、あるいはモノクロームピクチャ、またはサンプルをコーディングするために使用される3つの別個の色プレーンとシンタックス構造とを使用してコーディングされるピクチャのサンプルのCTBを含む。CTBは、CTBへの成分の分割が区分になるような何らかの値のNについて、サンプルのN×Nブロックであり得る。成分は、ピクチャを4:2:0、4:2:2、または4:4:4色フォーマットに構成する3つのアレイ(ルーマおよび2つのクロマ)のうちの1つからのアレイまたは単一のサンプル、あるいはピクチャをモノクロームフォーマットに構成するアレイまたはアレイの単一のサンプルである。いくつかの例では、コーディングブロックは、コーディングブロックへのCTBの分割が区分になるような何らかの値のMとNとについて、サンプルのM×Nブロックである。
【0044】
[0061]ブロック(たとえば、CTUまたはCU)は、ピクチャ中で様々な方法でグループ化され得る。一例として、ブリックは、ピクチャ中の特定のタイル内のCTU行の矩形領域を指し得る。タイルは、ピクチャ中の特定のタイル列および特定のタイル行内のCTUの矩形領域であり得る。タイル列は、ピクチャの高さに等しい高さと、(たとえば、ピクチャパラメータセット中などの)シンタックス要素によって指定された幅とを有するCTUの矩形領域を指す。タイル行は、(たとえば、ピクチャパラメータセット中などの)シンタックス要素によって指定された高さと、ピクチャの幅に等しい幅とを有するCTUの矩形領域を指す。
【0045】
[0062]いくつかの例では、タイルは複数のブリックに区分され得、それらの各々は、タイル内に1つまたは複数のCTU行を含み得る。複数のブリックに区分されないタイルもブリックと呼ばれることがある。しかしながら、タイルの真のサブセットであるブリックは、タイルと呼ばれないことがある。
【0046】
[0063]ピクチャ中のブリックはまた、スライス中に配置され得る。スライスは、もっぱら単一のネットワークアブストラクションレイヤ(NAL)ユニット中に含まれていることがあるピクチャの整数個のブリックであり得る。いくつかの例では、スライスは、いくつかの完全なタイル、または1つのタイルの完全なブリックの連続シーケンスのみのいずれかを含む。
【0047】
[0064]本開示は、「N×N(NxN)」および「N×N(N by N)」は、垂直寸法と水平寸法とに関して(CUまたは他のビデオブロックなどの)ブロックのサンプル寸法を指すために、「N×N(NxN)」および「N×N(N by N)」、たとえば、16×16サンプル(16x16 samples)または16×16サンプル(16 by 16 samples)を互換的に使用し得る。概して、16×16のCUは、垂直方向に16個のサンプルを有し(y=16)、水平方向に16個のサンプルを有する(x=16)。同様に、N×NのCUは、概して、垂直方向にN個のサンプルを有し、水平方向にN個のサンプルを有し、ここで、Nは非負整数値を表す。CU中のサンプルは、行と列とに配置され得る。その上、CUは、必ずしも、水平方向において垂直方向と同じ数のサンプルを有する必要があるとは限らない。たとえば、CUはN×Mサンプルを備え得、ここで、Mは必ずしもNに等しいとは限らない。
【0048】
[0065]ビデオエンコーダ200は、予測および/または残差情報、ならびに他の情報を表すCUについてのビデオデータを符号化する。予測情報は、CUについて予測ブロックを形成するためにCUがどのように予測されるべきかを示す。残差情報は、概して、符号化より前のCUのサンプルと予測ブロックとの間のサンプルごとの差分を表す。
【0049】
[0066]CUを予測するために、ビデオエンコーダ200は、概して、インター予測またはイントラ予測を通してCUについて予測ブロックを形成し得る。インター予測は、概して、以前にコーディングされたピクチャのデータからCUを予測することを指すが、イントラ予測は、概して、同じピクチャの以前にコーディングされたデータからCUを予測することを指す。インター予測を実施するために、ビデオエンコーダ200は、1つまたは複数の動きベクトルを使用して予測ブロックを生成し得る。ビデオエンコーダ200は、概して、たとえば、CUと参照ブロックとの間の差分に関して、CUに密接に一致する(closely matches)参照ブロックを識別するために動き探索を実施し得る。ビデオエンコーダ200は、参照ブロックが現在のCUに密接に一致するかどうかを決定するために、絶対差分和(SAD)、2乗差分和(SSD)、平均絶対差(MAD)、平均2乗差(MSD)、または他のそのような差分計算を使用して差分メトリックを計算し得る。いくつかの例では、ビデオエンコーダ200は、単方向予測または双方向予測を使用して現在のCUを予測し得る。
【0050】
[0067]VVCのいくつかの例はまた、インター予測モードと見なされ得るアフィン動き補償モードを提供する。アフィン動き補償モードでは、ビデオエンコーダ200は、ズームインまたはアウト、回転、パースペクティブの動き、あるいは他の変則の動きタイプなど、非並進の動きを表す2つまたはそれ以上の動きベクトルを決定し得る。
【0051】
[0068]イントラ予測を実施するために、ビデオエンコーダ200は、予測ブロックを生成するようにイントラ予測モードを選択し得る。VVCのいくつかの例は、様々な方向性モード、ならびにプレーナ(planar)モードおよびDCモードを含む、67個のイントラ予測モードを提供する。概して、ビデオエンコーダ200は、現在のブロック(たとえば、CUのブロック)のサンプルをそれから予測すべき、現在のブロックに対する隣接サンプルを記述するイントラ予測モードを選択する。そのようなサンプルは、ビデオエンコーダ200がラスタ走査順序で(左から右に、上から下に)CTUとCUとをコーディングすると仮定すると、概して、現在のブロックと同じピクチャ中の現在のブロックの上、左上、または左にあり得る。
【0052】
[0069]ビデオエンコーダ200は、現在のブロックの予測モードを表すデータを符号化する。たとえば、インター予測モードでは、ビデオエンコーダ200は、様々な利用可能なインター予測モードのうちのどれが使用されるか、ならびに対応するモードのための動き情報を表すデータを符号化し得る。たとえば、単方向または双方向インター予測では、ビデオエンコーダ200は、高度動きベクトル予測(AMVP)またはマージモードを使用して動きベクトルを符号化し得る。ビデオエンコーダ200は、アフィン動き補償モードのための動きベクトルを符号化するために、同様のモードを使用し得る。
【0053】
[0070]ブロックのイントラ予測またはインター予測などの予測に続いて、ビデオエンコーダ200は、ブロックについて残差データを計算し得る。残差ブロックなどの残差データは、ブロックと、対応する予測モードを使用して形成された、ブロックについての予測ブロックとの間の、サンプルごとの差分を表す。ビデオエンコーダ200は、サンプルドメインではなく変換ドメイン中に変換データを作り出すために、残差ブロックに1つまたは複数の変換を適用し得る。たとえば、ビデオエンコーダ200は、離散コサイン変換(DCT)、整数変換、ウェーブレット変換、または概念的に同様の変換を残差ビデオデータに適用し得る。さらに、ビデオエンコーダ200は、モード依存非分離可能2次変換(MDNSST)、信号依存変換、カルーネンレーベ変換(KLT)など、第1の変換に続いて2次変換を適用し得る。ビデオエンコーダ200は、1つまたは複数の変換の適用に続いて変換係数を作り出す。
【0054】
[0071]上述のように、変換係数を作り出すための任意の変換に続いて、ビデオエンコーダ200は変換係数の量子化を実施し得る。量子化は、概して、変換係数を表すために使用されるデータの量をできるだけ低減するために変換係数が量子化され、さらなる圧縮を行うプロセスを指す。量子化プロセスを実施することによって、ビデオエンコーダ200は、変換係数の一部または全部に関連するビット深度を低減し得る。たとえば、ビデオエンコーダ200は、量子化の間にnビット値をmビット値に切り捨てることがあり、ここで、nはmよりも大きい。いくつかの例では、量子化を実施するために、ビデオエンコーダ200は、量子化されるべき値のビットごとの右シフトを実施し得る。
【0055】
[0072]量子化に続いて、ビデオエンコーダ200は、変換係数を走査して、量子化された変換係数を含む2次元行列から1次元ベクトルを作り出し得る。走査は、より高いエネルギー(したがって、より低い頻度)の変換係数をベクトルの前方に配置し、より低いエネルギー(したがって、より高い頻度)の変換係数をベクトルの後方に配置するように設計され得る。いくつかの例では、ビデオエンコーダ200は、あらかじめ定義された走査順序を利用して、量子化された変換係数を走査してシリアル化されたベクトルを作り出し、次いで、ベクトルの量子化された変換係数をエントロピー符号化し得る。他の例では、ビデオエンコーダ200は、適応走査を実施し得る。1次元ベクトルを形成するために、量子化された変換係数を走査した後に、ビデオエンコーダ200は、たとえば、コンテキスト適応型バイナリ算術コーディング(CABAC)に従って、1次元ベクトルをエントロピー符号化し得る。ビデオエンコーダ200はまた、ビデオデータを復号する際のビデオデコーダ300による使用のために、符号化されたビデオデータに関連付けられたメタデータを記述するシンタックス要素の値をエントロピー符号化し得る。
【0056】
[0073]CABACを実施するために、ビデオエンコーダ200は、送信されるべきシンボルにコンテキストモデル内のコンテキストを割り当て得る。コンテキストは、たとえば、シンボルの隣接値が0値であるのか否かに関係し得る。確率決定は、シンボルに割り当てられたコンテキストに基づき得る。
【0057】
[0074]ビデオエンコーダ200は、さらに、ブロックベースシンタックスデータ、ピクチャベースシンタックスデータ、およびシーケンスベースシンタックスデータなどのシンタックスデータを、たとえば、ピクチャヘッダ、ブロックヘッダ、スライスヘッダ、あるいはシーケンスパラメータセット(SPS)、ピクチャパラメータセット(PPS)、またはビデオパラメータセット(VPS)などの他のシンタックスデータ中で、ビデオデコーダ300に対して生成し得る。ビデオデコーダ300は、対応するビデオデータをどのように復号すべきかを決定するために、そのようなシンタックスデータを同様に復号し得る。
【0058】
[0075]このようにして、ビデオエンコーダ200は、符号化されたビデオデータ、たとえば、ブロック(たとえば、CU)へのピクチャの区分ならびにブロックについての予測および/または残差情報を記述するシンタックス要素を含むビットストリームを生成し得る。最終的に、ビデオデコーダ300は、ビットストリームを受信し、符号化されたビデオデータを復号し得る。
【0059】
[0076]概して、ビデオデコーダ300は、ビットストリームの符号化されたビデオデータを復号するために、ビデオエンコーダ200によって実施されたものの逆プロセスを実施する。たとえば、ビデオデコーダ300は、ビデオエンコーダ200のCABAC符号化プロセスと逆ではあるが、それと実質的に同様の様式でCABACを使用してビットストリームのシンタックス要素についての値を復号し得る。シンタックス要素は、CTUのCUを定義するために、ピクチャをCTUに区分するための区分情報と、QTBT構造などの対応する区分構造に従う、各CTUの区分とを定義し得る。シンタックス要素は、ビデオデータのブロック(たとえば、CU)についての予測および残差情報をさらに定義し得る。
【0060】
[0077]残差情報は、たとえば、量子化された変換係数によって表され得る。ビデオデコーダ300は、ブロックのための残差ブロックを再生するために、ブロックの量子化された変換係数を逆量子化し、逆変換し得る。ビデオデコーダ300は、ブロックのための予測ブロックを形成するために、シグナリングされた予測モード(イントラまたはインター予測)と、関連する予測情報(たとえば、インター予測のための動き情報)とを使用する。ビデオデコーダ300は、次いで、元のブロックを再生するために(サンプルごとに)予測ブロックと残差ブロックとを組み合わせ得る。ビデオデコーダ300は、ブロックの境界に沿って視覚的アーティファクトを低減するためにデブロッキングプロセスを実施することなど、追加の処理を実施し得る。
【0061】
[0078]本開示は、概して、シンタックス要素などのある情報を「シグナリング」することに言及し得る。「シグナリング」という用語は、概して、符号化ビデオデータを復号するために使用されるシンタックス要素および/または他のデータについての値の通信を指し得る。すなわち、ビデオエンコーダ200は、ビットストリームにおいてシンタックス要素についての値をシグナリングし得る。概して、シグナリングは、ビットストリームにおいて値を生成することを指す。上述のように、ソースデバイス102は、宛先デバイス116による後の取出しのためにシンタックス要素を記憶デバイス112に記憶するときに起こり得る、ビットストリームを、実質的にリアルタイムで、またはリアルタイムではなく、宛先デバイス116に移送し得る。
【0062】
[0079]図2A図2Bとは、例示的なクワッドツリーバイナリツリー(QTBT)構造130と、対応するCTU132とを示す概念図である。実線はクワッドツリースプリッティングを表し、点線はバイナリツリースプリッティングを示す。バイナリツリーの各スプリット(すなわち、非リーフ)ノードでは、どのスプリッティングタイプ(すなわち、水平または垂直)が使用されるかを示すために1つのフラグがシグナリングされ、ここで、この例では、0は水平スプリッティングを示し、1は垂直スプリッティングを示す。クワッドツリースプリッティングでは、クワッドツリーノードが、ブロックを、等しいサイズをもつ4つのサブブロックに水平および垂直にスプリットするので、スプリッティングタイプを示す必要がない。したがって、QTBT構造130の領域ツリーレベルについての(スプリッティング情報などの)シンタックス要素(すなわち、実線)と、QTBT構造130の予測ツリーレベルについての(スプリッティング情報などの)シンタックス要素(すなわち、破線)とを、ビデオエンコーダ200は符号化し得、ビデオデコーダ300は復号し得る。QTBT構造130の端末リーフノードによって表されるCUについての、予測および変換データなどのビデオデータを、ビデオエンコーダ200は符号化し得、ビデオデコーダ300は復号し得る。
【0063】
[0080]概して、図2BのCTU132は、第1および第2のレベルにおいてQTBT構造130のノードに対応するブロックのサイズを定義するパラメータに関連付けられ得る。これらのパラメータは、(サンプル中のCTU132のサイズを表す)CTUサイズと、最小クワッドツリーサイズ(最小許容クワッドツリーリーフノードサイズを表すMinQTSize)と、最大バイナリツリーサイズ(最大許容バイナリツリールートノードサイズを表すMaxBTSize)と、最大バイナリツリー深度(最大許容バイナリツリー深度を表すMaxBTDepth)と、最小バイナリツリーサイズ(最小許容バイナリツリーリーフノードサイズを表すMinBTSize)とを含み得る。
【0064】
[0081]CTUに対応するQTBT構造のルートノードは、QTBT構造の第1のレベルにおいて4つの子ノードを有し得、それらの各々は、クワッドツリー区分に従って区分され得る。すなわち、第1のレベルのノードは、(子ノードを有しない)リーフノードであるか、または4つの子ノードを有するかのいずれかである。QTBT構造130の例は、分岐のために実線を有する親ノードと子ノードとを含むようなノードを表す。第1のレベルのノードが最大許容バイナリツリールートノードサイズ(MaxBTSize)よりも大きくない場合、ノードは、それぞれのバイナリツリーによってさらに区分され得る。1つのノードのバイナリツリースプリッティングは、スプリットから生じるノードが最小許容バイナリツリーリーフノードサイズ(MinBTSize)または最大許容バイナリツリー深度(MaxBTDepth)に達するまで反復され得る。QTBT構造130の例は、分岐のために破線を有するようなノードを表す。バイナリツリーリーフノードはCUと呼ばれ、CUは、さらなる区分なしに予測(たとえば、イントラピクチャまたはインターピクチャ予測)および変換のために使用される。上記で説明されたように、CUは「ビデオブロック」または「ブロック」と呼ばれることもある。
【0065】
[0082]QTBT区分構造の一例では、CTUサイズは、128×128(ルーマサンプルおよび2つの対応する64×64クロマサンプル)としてセットされ、MinQTSizeは16×16としてセットされ、MaxBTSizeは64×64としてセットされ、(幅と高さの両方について)MinBTSizeは4としてセットされ、MaxBTDepthは4としてセットされる。クワッドツリー区分は、クワッドツリーリーフノードを生成するために、最初にCTUに適用される。クワッドツリーリーフノードは、16×16(すなわち、MinQTSize)から128×128(すなわち、CTUサイズ)までのサイズを有し得る。クワッドツリーリーフノードが128×128である場合、リーフクワッドツリーノードは、サイズがMaxBTSize(すなわち、この例では、64×64)を超えるので、バイナリツリーによってさらにスプリットされないことがある。他の場合、クワッドツリーリーフノードは、バイナリツリーによってさらに区分され得る。したがって、クワッドツリーリーフノードはまた、バイナリツリーのためのルートノードであり、0としてのバイナリツリー深度を有する。バイナリツリー深度がMaxBTDepth(この例では4)に達したとき、さらなるスプリッティングは許可されない。MinBTSize(この例では、4)に等しい幅を有するバイナリツリーノードは、そのバイナリツリーノードのためにさらなる垂直スプリッティング(すなわち、幅の分割)が許可されないことを暗示する。同様に、MinBTSizeに等しい高さを有するバイナリツリーノードは、そのバイナリツリーノードのためにさらなる水平スプリッティング(すなわち、高さの分割)が許可されないことを暗示する。上述のように、バイナリツリーのリーフノードは、CUと呼ばれ、さらなる区分なしに予測および変換に従ってさらに処理される。
【0066】
[0083]上記で紹介されたように、ビデオエンコーダ200とビデオデコーダ300とは、動きベクトル予測を実施するように構成され得る。HEVCでは、予測ユニット(PU)のために、それぞれ、マージモード(スキップはマージの特殊な場合と見なされる)およびAMVPモードと称される2つのインター予測モードがある。AMVPモードおよびマージモードでは、ビデオエンコーダ200とビデオデコーダ300とは、複数の動きベクトル予測子のための動きベクトル(MV)候補リストを維持する。現在のPUの、動きベクトル、ならびにマージモードにおける参照インデックスは、MV候補リストから1つの候補を選択することによって生成される。
【0067】
[0084]HEVCの実装形態では、MV候補リストは、マージモードのための最高5つの候補とAMVPモードのための2つの候補とを含んでいる。マージ候補は、動き情報のセット、たとえば、両方の参照ピクチャリスト(リスト0およびリスト1)に対応する動きベクトルと、参照インデックスとを含み得る。マージインデックスによって識別されるマージ候補を受信することによって、ビデオデコーダ300は、現在ブロックの予測のために使用される参照ピクチャならびに関連する動きベクトルを決定する。一方、AMVPモードの下では、リスト0またはリスト1のいずれかからの可能な予測方向ごとに、AMVP候補が動きベクトルしか含んでいないので、ビデオデコーダ300は、MV候補リストへのMV予測子(MVP)インデックスを受信する。ビデオデコーダ300は、さらに、動きベクトル差(MVD)と参照ピクチャを明示的に識別する参照インデックスとを受信する。AMVPモードでは、予測される動きベクトルがさらに改良され得る。
【0068】
[0085]両方のモードのための候補は、同じ空間隣接ブロックおよび時間隣接ブロックから同様に導出される。HEVCでは、ビデオエンコーダ200とビデオデコーダ300とは、特定のPU(PU0)について、図3Aおよび図3Bに示されるように、隣接ブロックから空間MV候補を導出し得るが、ブロックから候補を生成する技法はマージモードとAMVPモードで異なる。
【0069】
[0086]図3Aは、マージモードのためのブロック140の空間隣接候補を示す概念図である。図3Bは、AMVPモードのためのブロック142の空間隣接候補を示す概念図である。マージモードでは、ビデオエンコーダ200およびビデオデコーダ300は、図3Aに示されている順序で最高で4つの空間MV候補を導出し得る。順序は、左のブロック(0,A1)、上のブロック(1,B1)、右上のブロック(2,B0)、左下のブロック(3,A0)、および左上のブロック(4,B2)である。
【0070】
[0087]AMVPモードでは、ビデオエンコーダ200およびビデオデコーダ300は、図3Bに示されるように、2つのグループ、すなわち、ブロック0と1とを含む左グループ、およびブロック2と3と4とを含む上グループに隣接ブロックを分割し得る。各グループについて、シグナリングされた参照インデックスによって示された参照ピクチャと同じ参照ピクチャを参照する近隣ブロック中の潜在的候補が、グループの最終候補を形成するために選定されるべき最高優先度を有する。すべての近隣ブロックが、同じ参照ピクチャを指す動きベクトルを含んでいるとは限らない可能性がある。したがって、そのような候補が発見され得ない場合、ビデオエンコーダ200およびビデオデコーダ300は、最終候補を形成するために第1の利用可能な候補をスケーリングし得る。したがって、時間距離差が補償され得る。
【0071】
[0088]HEVCにおける時間動きベクトル予測がここで論じられる。ビデオエンコーダ200およびビデオデコーダ300は、時間動きベクトル予測子(TMVP)候補が有効であり利用可能である場合、それを空間動きベクトル候補の後にMV候補リストへと追加するように構成され得る。TMVP候補に対する動きベクトル導出のプロセスは、マージモードとAMVPモードの両方に対して同じである。しかしながら、HEVCでは、マージモードにおけるTMVP候補に対するターゲット参照インデックスは0に設定される。
【0072】
[0089]図4Aはブロック154(PU0)のための例示的なTMVP候補を示し、図4Bは動きベクトルスケーリングプロセス156を示す。TMVP候補導出の主要なブロック位置は、併置された(collocated、コロケートされた)PUの外側の右下のブロックである。この候補は、図4Aではブロック「T」として示されている。ブロックTの位置は、空間隣接候補を生成するために使用される左上のブロックへの偏りを補償するために使用される。しかしながら、そのブロックが現在のCTB行の外側に位置するか、または動き情報が利用可能ではない場合、ブロックはPUの中心ブロックと置換される。
【0073】
[0090]ビデオエンコーダ200とビデオデコーダ300とは、スライスレベルで示されている、コロケートされたピクチャのコロケートされたPUからTMVP候補のための動きベクトルを導出し得る。コロケートされたPUのための動きベクトルは、コロケートされたMVと呼ばれる。AVCにおける時間ダイレクトモードと同様に、TMVP動きベクトル候補を導出するために、コロケートされたMVは、図4Bに示されるように、時間距離差分を補償するためにスケーリングされ得る。
【0074】
[0091]次に、本明細書で説明される技法に関係するHEVCにおける動き予測の他の態様について説明する。ビデオエンコーダ200とビデオデコーダ300とは、動きベクトルスケーリングを実施するように構成され得る。動きベクトルの値がプレゼンテーション時間におけるピクチャの距離に比例することが想定される。動きベクトルは、2つのピクチャ、すなわち、参照ピクチャと、動きベクトルを含んでいるピクチャ(すなわち、含有ピクチャ)とを関連付ける。他の動きベクトルを予測するために動きベクトルが利用されるとき、含有ピクチャと参照ピクチャとの距離は、ピクチャ順序カウント(POC)値に基づいて計算される。
【0075】
[0092]予測されるべき動きベクトルについて、関連する含有ピクチャは、参照ピクチャとは異なり得る。したがって、ビデオエンコーダ200とビデオデコーダ300とは、POCに基づいて新しい距離を計算し得る。ビデオエンコーダ200とビデオデコーダ300とは、これらの2つのPOC距離に基づいて動きベクトルをスケーリングし得る。空間的な隣接候補にとって、2つの動きベクトルに対する含有ピクチャは同じであるが、参照ピクチャは異なる。HEVCでは、空間的および時間的な隣接候補に対してTMVPとAMVPの両方に動きベクトルスケーリングが適用される。
【0076】
[0093]ビデオエンコーダ200とビデオデコーダ300とは、擬似(artificial)動きベクトル候補生成を実施するように構成され得る。動きベクトル候補リストが完全でない場合、擬似動きベクトル候補が生成され、リストが満たされるまでリストの最後に挿入される。
【0077】
[0094]マージモードでは、2つのタイプの擬似MV候補、すなわち、Bスライスについてのみ導出された複合候補と、第1のタイプが十分な擬似候補を与えない場合にAMVPのためにのみ使用されるゼロ候補とがある。すでに候補リスト中にあり、必要な動き情報を有する候補の各ペアについて、双方向複合動きベクトル候補が、リスト0中のピクチャを参照する第1の候補の動きベクトルとリスト1中のピクチャを参照する第2の候補の動きベクトルとの組合せによって導出される。
【0078】
[0095]ビデオエンコーダ200とビデオデコーダ300とは、候補挿入のためのプルーニングプロセスを実施するように構成され得る。異なるブロックからの候補は偶然同じであり得、これはマージ/AMVP候補リストの効率を減少させる。この問題を解決するために、プルーニングプロセスが適用される。プルーニングプロセスを実装するとき、ビデオエンコーダ200またはビデオデコーダ300は、同一の候補を挿入するのをある程度回避するために、ある候補を現在の候補リストの中の他の候補と比較する。複雑さを低減するために、それぞれの潜在的な候補をすべての他の既存の候補と比較する代わりに、限られた数のプルーニングプロセスのみが適用される。
【0079】
[0096]ビデオエンコーダ200とビデオデコーダ300とは、テンプレートマッチング予測を実施するように構成され得る。テンプレートマッチング予測は、フレームレートアップコンバージョン(FRUC)技法に基づく特殊なマージモードである。このモードでは、ブロックの部分的な動き情報は、シグナリングされないが、デコーダ側で導出される。テンプレートマッチングは、AMVPモードと通常のマージモードとの両方に適用され得る。AMVPモードでは、MVP候補の選択は、現在のブロックのテンプレートと参照ブロックのテンプレートとの間の最小の差に達するテンプレートをピックアップするためにテンプレートマッチングに基づいて決定される。通常のマージモードでは、テンプレートマッチングモードフラグが、テンプレートマッチングの使用を示すためにシグナリングされる。次いで、ビデオエンコーダ200とビデオデコーダ300とは、MV改良のためにマージインデックスによって示されるマージ候補にテンプレートマッチングを適用し得る。
【0080】
[0097]図5に示されているように、テンプレートマッチングは、現在のピクチャ中の現在のテンプレート162と参照ピクチャ中の参照テンプレート164(テンプレートと同じサイズ)との間の最も近接した一致を見つけることによって現在のCU160の動き情報を導出するために使用される。AMVP候補が最初のマッチングエラーに基づいて選択される場合、ビデオエンコーダ200とビデオデコーダ300とは、テンプレートマッチングを使用してMVPを改良し得る。マージ候補がシグナリングされたマージインデックスによって示される場合、ビデオエンコーダ200とビデオデコーダ300とは、テンプレートマッチングによって独立してL0およびL1に対応するMVを改良し、次いで、より正確なMVに基づいてあまり正確でないMVをさらに改良するように構成され得る。
【0081】
[0098]ビデオエンコーダ200とビデオデコーダ300とは、コスト関数を決定するように構成され得る。動きベクトルが分数サンプル位置を指すとき、動き補償補間が必要とされる。複雑さを低減するために、通常の8タップDCT-IF補間の代わりに双一次補間が、参照ピクチャ上にテンプレートを生成するためにテンプレートマッチングのために使用され得る。テンプレートマッチングのマッチングコストCは、次のように計算される。
【0082】
【数1】
【0083】
ここで、wは、0、1、2、3または4などの整数に設定され得る重み付け係数であり、MVとMVsとは、それぞれ、現在テストしているMVと最初のMV(すなわち、AMVPモードにおけるMVP候補またはマージモードにおけるマージされた動き)を示す。SADは、テンプレートマッチングのマッチングコストとして使用される。
【0084】
[0099]テンプレートマッチングが使用されるとき、ビデオエンコーダ200とビデオデコーダ300とは、ルーマサンプルのみを使用して動きを改良するように構成され得る。導出された動きは、動き補償(MC)インター予測のためにルーマとクロマの両方のために使用され得る。MVが決定された後に、ルーマのために8タップ補間フィルタを使用し、クロマのために4タップ補間フィルタを使用して最終的なMCが実施される。
【0085】
[0100]ビデオエンコーダ200とビデオデコーダ300とは、探索プロセスを決定し、実装するように構成され得る。MV改良は、テンプレートマッチングコストの基準と階層構造とをもつパターンベースのMV探索である。MV改良のためにダイヤモンド探索とクロス探索との2つの探索パターンがサポートされる。階層構造は、粗いMVD精度(たとえば、クォーターペル)において開始し、精細なMVD精度(たとえば、1/8ペル)において終了するMVを改良するための反復プロセスを指定する。MVは、ダイヤモンドパターンをもつ1/4ルーマサンプルMVD精度で直接探索され、その後、クロスパターンをもつ1/4ルーマサンプルMVD精度が続き、次いで、クロスパターンをもつ1/8ルーマサンプルMVD改良が続き得る。MV改良の探索範囲は、最初のMVの周りの(-8,+8)ルーマサンプルに等しく設定される。現在のブロックが双予測のものであるとき、両方のMVは、独立して改良され、次いで、(マッチングコストの点で)それらのうちの最良のMVが、BCW重み値を用いて他のMVをさらに改良するために優先するものとして設定される。
【0086】
[0101]ビデオエンコーダ200とビデオデコーダ300とは、アフィン予測を実施するように構成され得る。HEVCでは、変換動きモデルのみが、動き補償予測(MCP)のために適用される。実世界にいる間、多くの種類の動き、たとえばズームイン/アウト、回転、遠近法の動きおよび他の不規則な動きがある。VTM-6では、ブロックベースのアフィン変換動き補償予測が適用される。図6Aに示されているように、ブロックのアフィン動きフィールドは、4パラメータモデルとも呼ばれる、2つの制御点(170Aおよび170B)の動き情報によって記述される。図6Bに示されているように、ブロックのアフィン動きフィールドは、6パラメータモデルとも呼ばれる、3つの制御点(172A~172C)と3つの制御点動きベクトルとの動き情報によって記述される。
【0087】
[0102]4パラメータアフィン動きモデルの場合、ブロック中のサンプルロケーション(x,y)において動きベクトルは、次のように導出される。
【0088】
【数2】
【0089】
[0103]6パラメータアフィン動きモデルの場合、ブロック中のサンプルロケーション(x,y)において動きベクトルは、次のように導出される。
【0090】
【数3】
【0091】
[0104]上記の式では、(mv0x,mv0y)は左上隅のCPMVを表し、(mv1x,mv1y)および(mv2x,mv2y)は、それぞれ、右上隅および左下隅のCPMVを表す。
【0092】
[0105]動き補償予測を簡略化するために、ビデオエンコーダ200とビデオデコーダ300とは、ブロックベースのアフィン変換予測を適用するように構成され得る。図7は、16個の4×4ルーマサブブロックを含む16×16ルーマブロックであるブロック170を示す。各4×4ルーマサブブロックの動きベクトルを導出するために、ビデオエンコーダ200とビデオデコーダ300とは、上記の式に従って図7に示されているように各サブブロックの中心サンプルの動きベクトルを計算し、1/16の分数確度に丸められる。矢印172Aおよび172Bは、サブブロックのための16個の動きベクトルのうちの2つを識別する。その他の14個の矢印も動きベクトルに対応するが、図7では標示されていない。動き補償補間フィルタは、導出された動きベクトルで各サブブロックの予測を生成するために適用される。クロマ成分のサブブロックサイズも、4×4になるように設定される。4×4クロマサブブロックのMVは、4つの対応する4×4ルーマサブブロックのMVの平均として計算される。
【0093】
[0106]ビデオエンコーダ200とビデオデコーダ300とは、アフィンモードのためのオプティカルフローを用いて予測改良を実施するように構成され得る。オプティカルフローを用いた予測改良(PROF:prediction refinement with optical flow)は、動き補償のためのメモリアクセス帯域幅を増加させることなしにサブブロックベースのアフィン動き補償予測を改良するために使用される。VVCでは、サブブロックベースのアフィン動き補償が実施された後、ルーマ予測サンプルは、オプティカルフロー式によって導出された差を加算することによって改良される。
【0094】
[0107]PROFの例示的な一実装形態では、ビデオデコーダ300は、以下の4つのステップを実施するように構成され得る。
【0095】
ステップ1)サブブロックベースのアフィンMCが、サブブロック予測I(i,j)を生成するために実施される。
【0096】
ステップ2)サブブロック予測の空間勾配gx(i,j)およびgy(i,j)が、3タップフィルタ[-1,0,1]を使用して各サンプルロケーションにおいて計算される。勾配計算は、BDOFにおける勾配計算とまったく同じである。
【0097】
【数4】
【0098】
ここで、shift1は、勾配の精度を制御するために使用される。サブブロック(たとえば、4×4)予測は、勾配計算のための両側の1つのサンプルだけ延長される。追加のメモリ帯域幅および追加の補間計算を回避するために、拡張された境界上のそれらの拡張されたサンプルは、参照ピクチャ中の最も近い整数ピクセル位置からコピーされる。
【0099】
ステップ3)ルーマ予測改良が、以下のオプティカルフロー式によって計算される。
【0100】
【数5】
【0101】
ここで、Δv(i,j)は、図8に示されているように、v(i,j)によって示されるサンプルロケーション(i,j)のために計算されたサンプルMVと、サンプル(i,j)が属するサブブロックのサブブロックMVとの間の差である。Δv(i,j)は、1/32のルーマサンプル精度の単位で量子化される。図8は、サブブロックMV VSBとピクセルΔv(i,j)(矢印190)とを示す。
【0102】
[0108]アフィンモデルパラメータとサブブロックの中心に対するサンプルロケーションとがサブブロックごとに変更されないので、Δv(i,j)は、第1のサブブロックについて計算され、同じCU中の他のサブブロックのために再使用され得る。dx(i,j)およびdy(i,j)をサンプルロケーション(i,j)からサブブロック(xSB,ySB)の中心に向けた水平オフセットおよび垂直オフセットであるとすると、Δv(i、j)は、以下の式によって導出され得る。
【0103】
【数6】
【0104】
[0109]精度を保つために、サブブロック(xSB,ySB)の中心は、((WSB-1)/2,(HSB-1)/2)として計算され、ここで、WSBおよびHSBは、それぞれ、サブブロックの幅および高さである。
【0105】
[0110]4パラメータアフィンモデルの場合、次のようになる。
【0106】
【数7】
【0107】
[0111]6パラメータアフィンモデルの場合、次のようになる。
【0108】
【数8】
【0109】
ここで、(v0x,v0y)、(v1x,v1y)および(v2x,v2y)は、左上、右上、および左下の制御点動きベクトルであり、wおよびhは、CUの幅および高さである。
【0110】
ステップ4)最後に、ルーマ予測改良ΔI(i,j)がサブブロック予測I(i,j)に加算される。最終的な予測I’は、以下の式として生成される。
【0111】
【数9】
【0112】
[0112]PROFは、アフィンコーディングされたCUの場合2つの事例で適用されない。1)すべての制御点MVが同じであり、これは、CUが並進運動しか有さないことを示す。2)サブブロックベースのアフィンMCが、大きいメモリアクセス帯域幅要件を回避するためにCUベースのMCに劣化されているので、アフィン動きパラメータが指定された制限よりも大きい。
【0113】
[0113]ビデオエンコーダ200とビデオデコーダ300とは、PROFを用いるアフィン動き推定の符号化の複雑性を低減するために高速符号化プロセスを適用するように構成され得る。PROFは、後続の2つの状況ではアフィン動き推定段階において適用されない。a)このCUがルートブロックでなく、それの親ブロックが、それの最良のモードとしてアフィンモードを用いてコーディングされていない場合、現在のCUが最良のモードとしてアフィンモードを使用する可能性が低いので、PROFは適用されない。4つのアフィンパラメータ(C,D,E,F)の大きさがすべて、あらかじめ定義されたしきい値よりも小さく、現在のピクチャが低遅延ピクチャでない場合、PROFによって導入される改善がこの事例では小さいので、PROFは適用されない。このようにして、PROFを用いたアフィン動き推定は、加速され得る。
【0114】
[0114]既存の技法は、いくつかの潜在的な問題を有する。CPMVのシグナリングオーバーヘッドは、インター予測の並進モデルのものと比較したとき、ブロックについて著しく増加し得る。したがって、CPMVのためのデコーダ側の改良は、CPMVの精度を改善し、シグナリングオーバーヘッドを低減し得る。本開示では、これらの問題のいくつかに対処し得る技法について説明する。
【0115】
[0115](以下、AffTMとして短縮される)テンプレートマッチングベースのアフィン予測は、アフィンコード化ブロックのCPMVを改良するためのデコーダ側のインター予測モードである。テンプレートマッチングと同様に、上記で説明されたように、ビデオデコーダ300は、最初に決定されたCPMVに基づいて最初の参照テンプレートブロックを決定し、次いで、低減されたマッチングコストを有する他の参照テンプレートのための探索エリア内を探索し得る。ビデオデコーダ300は、次いで、最初のCPMVの代わりになるCPMVの最良のセットを決定し得る。
【0116】
[0116]ビデオエンコーダ200とビデオデコーダ300とは、参照テンプレートブロックを決定するように構成され得る。参照テンプレートブロックのサンプルは、CPMVを使用して導出される動きフィールドに基づいてサブブロックベースで生成される。現在のブロックと対応する現在のテンプレートブロック192とが同じアフィン動きフィールド内に位置するという仮定の下で、ビデオエンコーダ200とビデオデコーダ300とは、式(2-1)または(2-2)を使用して、サブブロックのMV(たとえば、現在のテンプレートブロック192上の図9AのA0,A1,...,An-1およびL0,L1,...Ln-1)を決定することができ、ここで、サンプルロケーション(x,y)は、それぞれのサブブロックの重心である。次いで、ビデオエンコーダ200とビデオデコーダ300とは、それぞれのサブブロックMVに基づいて参照テンプレートブロックのためのサブブロックのサンプルをフェッチまたは補間する。図9Bが示す例における参照テンプレート194Aによって示されているように、参照テンプレートサブブロックが予測ブロックの任意の境界サブブロックのすぐ横にある必要はない。さらに、参照テンプレートブロック上にサブブロックサンプルを生成するために使用される補間フィルタは、フィルタなし(したがって、参照サンプルをフェッチする前にサブブロックMVが整数精度にクリッピングまたは丸められる)、2タップ双一次フィルタ、AVCの場合のように6タップDCTIF、HEVCもしくはVVCの場合のように8タップDCTIF、またはVVCの場合のように切替え可能なフィルタのうちの任意の1つまたは複数であり得る。
【0117】
[0117]別の例では、図9Cの参照テンプレート194Bによって示されているように、参照テンプレートサブブロックは、対応する予測ブロックの境界サブブロックのすぐ横にあることができる。したがって、各サブブロックのMV(A0,...,n-1およびL0,...,n-1)は、現在のブロックの境界上に位置する対応するすぐ隣の隣接サブブロックと同一である。
【0118】
[0118]別の例では、現在のテンプレートブロック上のA0およびL0以外のサブブロックのMVは、サブブロック自体と現在のブロックの境界上のそれのすぐ隣の隣接サブブロックとの間の重心上にあるサンプルロケーション(x,y)において式(2-1)または(2-2)を通して計算され得る。A0およびL0について、サンプルロケーション(x,y)は、A0とL0との両方が存在する場合は(0,0)であり、A0しか存在しない場合はA0と現在のブロック上の第1のサブブロックとの間の重心であり、L0しか存在しない場合はL0と現在のブロック上の第1のサブブロックとの間の重心であり得る。
【0119】
[0119]別の例では、ビデオエンコーダ200とビデオデコーダ300とは、参照テンプレートブロックにPROFを適用するように構成され得る。
【0120】
[0120]別の例では、すべてのCPMVが互いに同一であるとき、ビデオエンコーダ200とビデオデコーダ300とは、上記で説明されたように、AffTMの予測プロセスを通常のブロックベースのテンプレートマッチングのものと置き換え得る。CPMVのうちの1つは、最初のMVと見なされ、ブロックベースのテンプレートマッチングのために使用され得る。
【0121】
[0121]別の例では、すべての最初のCPMVが互いに同一であるとき、ビデオエンコーダ200とビデオデコーダ300とは、最初のCPMVを改良するためにAffTMより前に、上記で説明されたように、通常のブロックベースのテンプレートマッチングを実施するように構成され得る。CPMVのうちの1つは、通常のテンプレートマッチングプロセスのための最初のMVと見なされ得る。この例は、上記で説明されたように、並進モデルの探索にさらに拡張され得る。
【0122】
[0122]ビデオエンコーダ200とビデオデコーダ300とは、探索プロセスを実施するように構成され得る。このセクションは、AffTMのためのいくつかの探索プロセスを提示する。一般性を失うことなく、すべてのアルゴリズムが、6パラメータアフィンモデルを用いて提示される。これらのアルゴリズムは、記述から左下のCPMVを単に除去することによって簡単に4パラメータアフィンモードのために変換され得る。探索範囲、たとえば、±2、±4、±6、±8ピクセルは、あらかじめ定義されるかまたはシグナリングされ得る。CPMVの最初の探索点は、AMVP候補、マージ候補の参照ピクチャリストに対応するCPMV、またはブロックの参照ピクチャリストに対応するCPMVのいずれかであり得る。
【0123】
[0123]ビデオエンコーダ200とビデオデコーダ300とは、方形探索を実施するように構成され得る。方形探索は、CUのCPMVを順番に、一度に1つのベクトルずつ、左上のCPMVから開始し、次に、右上のものを行い、左下のもので終わるように改良するために方形パターンを適用する。CUがこの第3のCPMVを有するために6パラメータモデルのものであるときにのみ左下のCPMVが探索されることに留意されたい。方形探索パターンは、これらの9つのデルタ動きベクトルに基づいて一連のデルタ動きベクトル、dMv={(0,0),(-1,1),(0,1),(1,1),(1,0),(1,-1),(0,-1),(-1,-1),(-1,0)}または任意の他の順序として指定され得る。一般性を失うことなく、このセクションは、上述のdMvを、CUが、それぞれ、アフィンAMVPモードおよびアフィンマージモードによってコーディングされているときAMVRインデックスまたは1/16の表示に従って決定される最初の探索ステップサイズs0および最小探索ステップサイズsminを用いる一例として取る。すべてのi∈{0,1,...,min}について、s0の値は、smin以上に設定され得、si+1は、siに等しく設定される。方形探索プロセスは、次のように指定される7ステップのプロセスである。
1. 探索ステップサイズのセット{s0,s1,...,smin}、dMvならびに、それぞれ、左上、右上、および左下のCPMVを表すmv0 (0)、mv1 (0)およびmv2 (0)を仮定すれば、探索プロセスは、反復i=0において開始する。
2. si、dMv、および{mv0 (i),mv1 (i),mv2 (i)}を用いて、探索サブプロセスは、始めにmv0 (i)、次に、mv1 (i)、最後にmv1 (i)を探索するために連続プロセスを開始する。(順番は、いくつかの例では、{mv2 (i),mv1 (i),mv0 (i)}であり得ることに留意されたい。)
3. si、dMvおよびmv0 (i)を用いて、探索サブプロセスは、CPMVのこれらのセットのすべてのために個々にそれぞれのテンプレートマッチングコストを計算する。S={mv0 (i)+d*si,mv1 (i),mv2 (i)、すべてのd∈dMvについて}。この探索サブプロセスは、mv0 (i)*=mv0 (i)+argmind{cost(S0),cost(S1),...,cost(S8)}*siとして示され得る。
4. ステップ3と同様に、探索サブプロセスは、S={mv0 (i)*,mv1 (i)+d*si,mv2 (i)、すべてのd∈dMvについて}のためのそれぞれのテンプレートマッチングコストを計算し、最良の結果は、mv1 (i)*として示される。
5. ステップ3と同様に、探索サブプロセスは、S={mv0 (i)*,mv1 (i)*,mv2 (i)+d*si、すべてのd∈dMvについて}のためのそれぞれのテンプレートマッチングコストを計算し、最良の結果は、mv2 (i)*として示される。
6. すべてのCPMVがステップ3~5において探索されるまで、探索サブプロセスの出力は、{mv0 (i)*,mv1 (i)*,mv2 (i)*}である。
【0124】
・探索プロセスが、探索ステップサイズがsiであるときにあらかじめ定義されたしきい値を超える回数ステップ6を訪問した場合、探索プロセスは、{mv0 (i+1),mv1 (i+1),mv2 (i+1)}をサブプロセス出力に等しく設定し、ステップ7に進む。
【0125】
・そうでなく、サブプロセス出力が、{mv0 (i),mv1 (i),mv2 (i)}と正確に同じである場合、探索プロセスは、{mv0 (i+1),mv1 (i+1),mv2 (i+1)}をサブプロセス出力と等しく設定し、ステップ7に進む。
【0126】
・そうでない場合(サブプロセス出力が、{mv0 (i),mv1 (i),mv2 (i)}と正確に同じでない場合)、{mv0 (i),mv1 (i),mv2 (i)}は、{mv0 (i)*,mv1 (i)*,mv2 (i)*}と等しく設定され、探索プロセスは、ステップ2において続く。
7. siがsminに等しくない場合、探索プロセスは、iをi+1に等しく設定し、ステップ2に戻る。そうでない場合、探索プロセスは、出力{mv0 (i+1),mv1 (i+1),mv2 (i+1)}で終了する。
【0127】
[0124]ビデオエンコーダ200とビデオデコーダ300とは、クロス探索を実施するように構成され得る。クロス探索は、CPMVを改良するためにクロスパターンを用いるものである。それの探索プロセスは、デルタ動きベクトルが別様に定義されることを除いて方形探索と同一である。この探索パターンのデルタ動きベクトルは、dMv={(0,0),(-1,0),(0,-1)(0,1),(1,0)}として定義される。
【0128】
[0125]ビデオエンコーダ200とビデオデコーダ300とは、対角探索を実施するように構成され得る。対角探索は、CPMVを改良するために対角パターンを用いるものである。それの探索プロセスは、デルタ動きベクトルがdMv={(0,0),(-1,-1),(-1,1),(1,1),(1,-1)}のように別様に定義されることを除いて方形探索と同一である。
【0129】
[0126]ビデオエンコーダ200とビデオデコーダ300とは、ダイヤモンド探索を実施するように構成され得る。ダイヤモンド探索は、CPMVを改良するために対角パターンを用いるものである。それの探索プロセスは、デルタ動きベクトルがdMv={(0,0),(0,2),(1,1),(2,0),(1,-1),(0,-2),(-1,-1),(-2,0),(-1,1)}のように別様に定義されることを除いて方形探索と同一である。
【0130】
[0127]別の例では、ダイヤモンド探索の出力は、クロス探索のための入力として使用され得、クロス探索の出力は、組み合わされた探索プロセスの最終的な出力として扱われる。
【0131】
[0128]ビデオエンコーダ200とビデオデコーダ300とは、2パス8点探索を実施するように構成され得る。2パス8点探索は、それの探索プロセス中に条件付きで使用される2つの探索パターン(すなわち、クロスパターンおよび対角パターン)を用いる探索プロセスである。それの探索プロセスは、ステップ3~5を除いて方形探索と同一である。2パス8点探索では、dMVは、2つのセットのデルタ動きベクトル、dMv0={(0,0),(-1,0),(0,-1)(0,1),(1,0)}およびdMv1={(-1,-1),(-1,1),(1,1),(1,-1)})を備える。下記は、方形探索に対する差を示す。
1~2.これらのステップは、方形探索のためのものと同じである。
3. si、dMvおよびmv0 (i)を用いて、探索サブプロセスは、CPMVのこれらのセットのすべてのために個々にそれぞれのテンプレートマッチングコストを計算する。S={mv0 (i)+d*si,mv1 (i),mv2 (i)、すべてのd∈dMv0について}。この探索サブプロセスは、d0 *=argmind{cost(S0),cost(S1),...,cost(S5)}として示され得る。
次いで、d0 *が(0,0)に等しくなる場合、mv0 (i)*は、mv0 (i)に等しく設定される。
そうでない場合、サブプロセスは、S={mv0 (i)+d*si,mv1 (i),mv2(i)、すべてのd∈dMv1 U d0 *について}のためのそれぞれのテンプレートマッチングコストを計算し、それらの最良のデルタ動きベクトルは、d1 *として示される。結果は、mv0 (i)*=mv0 (i)+d1 **siである。
4. ステップ3と同様に、探索サブプロセスは、S={mv0 (i)*,mv1 (i)+d*si, mv2 (i)、すべてのd∈dMv0について}のためのそれぞれのテンプレートマッチングコストを計算し、必要なときに、他のS={mv0 (i)*,mv1 (i)+d*si, mv2 (i)、すべてのd∈dMv1 U d0 *について}のためのそれぞれのテンプレートマッチングコストを計算する。最良の探索結果は、mv1 (i)*= mv1 (i)+d1 **si(d0 *≠(0,0)の場合)またはmv1 (i)(d0 *=(0,0)の場合)として示される。
5. ステップ3と同様に、探索サブプロセスは、S={mv0 (i)*,mv1 (i)*,mv2 (i)+d*si、すべてのd∈dMv0について}のためのそれぞれのテンプレートマッチングコストを計算し、必要なときに、他のS={mv0 (i)*,mv1(i),mv2 (i)+d*si、すべてのd∈dMv1 U d0 *について}のためのそれぞれのテンプレートマッチングコストを計算する。最良の探索結果は、mv2 (i)*=mv2 (i)+d1 **si(d0 *≠(0,0)の場合)またはmv2 (i)(d0 *=(0,0)の場合)として示される。
6~7. これらのステップは、方形探索のためのものと同じである。
【0132】
[0129]ビデオエンコーダ200とビデオデコーダ300とは、すべてのCPMVを同時に更新するために勾配ベースの探索を実施するように構成され得る。最初のCPMVが{mv0 (0),mv1 (0),mv2 (0)}であると仮定すると、CPMVは、サンプル領域勾配値を水平および垂直に計算し、予測残余(すなわち、現在のテンプレートブロックと参照テンプレートブロックとの間でデルタ)を計算するために使用される参照テンプレートブロックを生成するために使用される。次いで、これらの値は、所与のCPMVを更新するために勾配ベースの探索において使用される。{mv0 (1),mv1 (1),mv2 (1)}として示される新しいCPMVは、次いで、勾配ベースの探索の別の反復への入力として働く。反復プロセスは、条件が満たされるときに終了し得る。条件は、たとえば、反復の数があらかじめ定義された(またはシグナリングされた)しきい値を超えることまたはCPMVが2つの反復の間で変化しないことであり得る。
【0133】
[0130]ビデオエンコーダ200とビデオデコーダ300とは、並進モデル探索を実施するように構成され得る。上述の探索プロセスが適用する前に、それの間に、またはそれの後にすべてのCPMVが偶然同じになるとき、AffTMのすべての探索プロセスは、終了し、最良のCPMVのうちの1つ(たとえば、すべてのCPMVが同じであるのでランダムの1つ)が、さらなる動きベクトルの改良のためのそれの最初の探索点として、上記のテンプレートマッチング予測で説明されたように、通常のブロックベースのテンプレートマッチングで使用される。
【0134】
[0131]ビデオエンコーダ200とビデオデコーダ300とは、テンプレートマッチングコストを計算するように構成され得る。テンプレートマッチングコストは、SAD、絶対変換差分和(SATD)、誤差平方和(SSE)、平均除去絶対差分和(MRSAD)、平均除去絶対変換差分和(MRSATD)のメトリックのうちの1つとして定義(またはシグナリング)され得る。照明補償が現在処理しているブロックのために使用される場合、MRSADが条件付きで使用され得る。
【0135】
[0132]別の例では、ビデオエンコーダ200とビデオデコーダ300とは、テンプレートブロック上の各サンプルにサンプルごとの重み値を割り当て得る。たとえば、W×Hのテンプレートブロックの場合、サンプルごとの重み値は、N*wx,yとして示され、現在のブロックテンプレートおよび参照ブロックテンプレートのそれぞれのサンプルcx,yおよびpx,yに適用され得、ここで、Nは、正の整数(たとえば、1、2、3、4、5など)とすることができる。テンプレートマッチングコストは、簡略化のために次のように定義され得る。
【0136】
【数10】
【0137】
または
【0138】
【数11】
【0139】
[0133]局所照明補償(LIC)またはMRSADが使用されるとき、式は、簡略化のために以下の通りであり得る。
【0140】
【数12】
【0141】
または
【0142】
【数13】
【0143】
これらの式では、Δx,yは、px,yの平均値からcx,yの平均値を減算したものである(要するに、mean(px,y)-mean(cx,y)である)。左側のテンプレートの重み値の割当てが、上のテンプレートの重み値の転置であるので、上のテンプレートの重み値の割当てしか決定される必要がない。
【0144】
[0134]別の例では、サンプルごとの重み値は領域ベースであり得、テンプレートブロックは、16個の領域に等しく分割され、領域内のテンプレートサンプルは、単一の重み値を共有する。
【0145】
[0135]図10は、テンプレートマッチングコストを計算するために隣接ブロックのサンプルに割り当てられ得るサンプルごとの重みの例を示す概念図である。いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、現在のブロックにより近い領域により大きい重み値を割り当て得、および/またはより小さい重み値が、現在のブロックの左上隅により近い領域に割り当てられる。図10に2つの例を示す。現在のCU198Aおよび198Bについての両方の例では、ビデオエンコーダ200とビデオデコーダ300とは、現在のブロックにより近い領域により大きい重み値を割り当て得、一方、198Aの例では、ビデオエンコーダ200とビデオデコーダ300とは、さらに、現在のブロックの左上隅により近い領域のための重み値を調整して下げる。
【0146】
[0136]別の例では、上述のメトリックは、すべてのCPMVのデルタ動きベクトルがAffTMによって導出された状態で、上記のテンプレートマッチング予測で説明されたように、重み付け方式で加算され得る。
【0147】
[0137]ビデオエンコーダ200とビデオデコーダ300とは、双予測探索プロセスを実施するように構成され得る。いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、双予測ブロックの各参照ピクチャリストに対応するCPMVをAffTMによって個々に改良するように構成され得る。
【0148】
[0138]いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、最初に、双予測ブロックの各参照ピクチャリストに対応するCPMVをAffTMを使用して最初に個々に改良するように構成され得る。次いで、ビデオエンコーダ200とビデオデコーダ300とは、さらに、参照ピクチャリストに対応するCPMVを改良し、これらは、優先するものとして他の参照ピクチャリストに対応し得る。たとえば、ビデオエンコーダ200とビデオデコーダ300とは、L1のための双予測重みwとさらに改良されることになるL1のCPMVとを選択し得る。最初に、改良中に使用される現在のテンプレートブロックが、元の現在のテンプレートブロックCとL0に対応する参照テンプレートブロックR0との間の加重デルタになる。
【0149】
C’=(C-(1-w)R0)/w
[0139]この減算プロセスは、高周波除去とも呼ばれ、C’は、L1 CPMVの探索プロセス中に使用される現在のテンプレートブロックと同じ方式で使用される。この高周波除去がC’=(C-wR0)/(1-w)として逆に実施することができることに留意されたい。
【0150】
[0140]いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、参照ピクチャリストLxのCPMVが改良されることになっているときに高周波除去を適用するように構成され得、ここで、xは、0または1であり得る。いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、参照ピクチャリストLxのCPMVが改良されることになっているときに高周波除去を適用するように構成され得、ここで、xは、0または1であり得る。AffTMがLxのCPMVに対して実施した後、高周波除去が、LxのCPMVに基づいて適用され、次いで、AffTMは、他の参照ピクチャリストのCPMVに対して実施することができる。この反復プロセスは、CPMVのいずれもAffTMの探索プロセス中に変更されなくなると終了する。
【0151】
[0141]いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、BWC重み値に応じてLxのCPMVに高周波除去を最初に適用するように構成され得る。ルールが適用し得る。ルールは、たとえば、L0のBCW重みがより大きいときL0のCPMVが最初に改良されるものまたはL0のBCW重みがより小さいときL0のCPMVが最初に改良されるものであり得る。
【0152】
[0142]いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、(L1 CPMVのMVDが常に0であることを示し、ビデオコーディング規格にわたって別様に名前がつけられ得る)ph_mvd_l1_zero_flagフラグに応じてLxのCPMVに高周波除去を最初に適用するように構成され得る。ルールが適用し得る。ルールは、たとえば、フラグが真であるときL0のCPMVが最初に改良されるものまたはフラグが偽であるときL0のCPMVが最初に改良されるものであり得る。
【0153】
[0143]いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、テンプレートマッチングコストが、上記の例で説明されているように、他の参照ピクチャリストのものよりも高いときに参照ピクチャリストLxのCPMVを最初に改良するように構成され得る。
【0154】
[0144]いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、参照ピクチャリストLxのCPMVを最初に改良するように構成され得、それらのCPMVは、最初のCPMVに基づくコストが参照ピクチャリストごとにそれぞれ計算された後に他の参照ピクチャリストのものよりも高いテンプレートマッチングコストを達成する。
【0155】
[0145]いくつかの例では、ビデオエンコーダ200とビデオデコーダ300とは、双予測CPMVを単予測CPMVに変換するように構成され得る。AffTMを実施した後に、高周波除去が適用される前にL0に対応するCPMVのためのcost0とL1に対応するCPMVのためのcost1との2つのテンプレートマッチングコスト値があると考えられている。第3のコスト値は、高周波除去が適用した後にAffTMによって生成されたものからのものである。第3のものが他の2つのうちの1つよりも高い場合、cost0およびcost1のうちのいずれかがより大きいのかに応じてCPMVが参照L0に対応するか、またはL1がドロップされる。
【0156】
[0146]ビデオエンコーダ200とビデオデコーダ300とは、4パラメータモデルから6パラメータモデルへのモデル変換を実施するように構成され得る。アフィンモデルは、4パラメータのものから6パラメータのものに変換され得る。現在のブロック上の左下隅の座標位置(すなわち(0、ブロックの高さ))では、左下隅のCPMVは、式(2-1)に基づいて計算され得る。次いで、現在のブロックの動きモデルは、AffTMのための6パラメータアフィンモデルとして扱われる。
【0157】
[0147]ビデオエンコーダ200とビデオデコーダ300とは並進モデルから、アフィンモデルへのモデル変換を実施するように構成され得る。いくつかの例では、前に説明されたAffTMプロセスは、テンプレートマッチングマージモードでの通常のブロックベースのテンプレートマッチングの上に適用され得、最初のCPMVはすべて、テンプレートマッチングプロセスによって生成された並進MVに等しく設定される。追加のAffTMプロセスを適用することのテンプレートマッチングコストが通常のテンプレートマッチングのコストよりも小さい場合、AffTMプロセスのCPMVは、元のテンプレートマッチングプロセスからの並進動きモデルの代わりに現在のブロックのためのアフィン動き補償のために使用される。
【0158】
[0148]いくつかの例では、バイラテラルマッチング(またはVVCの場合のようなデコーダ側動き改良(DMVR))も双方向オプティカルフロー(BDOF)も現在のブロックに適用されない場合にのみ、変換が適用される。
【0159】
[0149]いくつかの例では、ビデオデコーダ300は、ターゲット変換モデルとして4パラメータアフィンモデルを常に使用するように構成され得る。いくつかの例では、ビデオデコーダ300は、ターゲット変換モデルとして6パラメータアフィンモデルを使用するように構成され得る。いくつかの例では、ビデオデコーダ300は、テンプレートマッチングコストを最小化することによって最終的な動きモデルを決定し得る。
【0160】
[0150]図11は、本開示の技法を実施し得る例示的なビデオエンコーダ200を示すブロック図である。図11は、説明のために提供されるものであり、本開示で広く例示され記載される技法を限定するものと見なされるべきではない。説明の目的で、本開示は、VVC(開発中のITU-T H.266)およびHEVC(ITU-T H.265)の技法に従って、ビデオエンコーダ200について説明する。しかしながら、本開示の技法は、他のビデオコーディング規格に構成されたビデオ符号化デバイスによって実施され得る。
【0161】
[0151]図11の例では、ビデオエンコーダ200は、ビデオデータメモリ230と、モード選択ユニット202と、残差生成ユニット204と、変換処理ユニット206と、量子化ユニット208と、逆量子化ユニット210と、逆変換処理ユニット212と、再構成ユニット214と、フィルタユニット216と、復号ピクチャバッファ(DPB)218と、エントロピー符号化ユニット220とを含む。ビデオデータメモリ230と、モード選択ユニット202と、残差生成ユニット204と、変換処理ユニット206と、量子化ユニット208と、逆量子化ユニット210と、逆変換処理ユニット212と、再構築ユニット214と、フィルタユニット216と、DPB218と、エントロピー符号化ユニット220とのいずれかまたはすべては、1つまたは複数のプロセッサ中にあるいは処理回路中に実装され得る。たとえば、ビデオエンコーダ200のユニットは、1つまたは複数の回路または論理要素として、ハードウェア回路構成の一部として、またはプロセッサ、ASIC、もしくはFPGAの一部として、実装され得る。その上、ビデオエンコーダ200は、これらおよび他の機能を実施するための追加または代替のプロセッサまたは処理回路を含み得る。
【0162】
[0152]ビデオデータメモリ230は、ビデオエンコーダ200の構成要素によって符号化されるべきビデオデータを記憶し得る。ビデオエンコーダ200は、たとえば、ビデオソース104(図1)からビデオデータメモリ230中に記憶されたビデオデータを受信し得る。DPB218は、ビデオエンコーダ200による後続のビデオデータの予測において使用するための参照ビデオデータを記憶する参照ピクチャメモリとして働き得る。ビデオデータメモリ230とDPB218とは、同期DRAM(SDRAM)を含むダイナミックランダムアクセスメモリ(DRAM)、磁気抵抗RAM(MRAM)、抵抗性RAM(RRAM(登録商標))、または他のタイプのメモリデバイスなど、様々なメモリデバイスのいずれかによって形成され得る。ビデオデータメモリ230とDPB218とは、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、ビデオデータメモリ230は、図示のように、ビデオエンコーダ200の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。
【0163】
[0153]本開示では、ビデオデータメモリ230への言及は、特にそのように説明されない限り、ビデオエンコーダ200の内部のメモリに限定されるものとして解釈されるべきではなく、または特にそのように説明されない限り、ビデオエンコーダ200の外部のメモリに限定されるものとして解釈されるべきではない。そうではなく、ビデオデータメモリ230への言及は、ビデオエンコーダ200が符号化のために受信するビデオデータ(たとえば、符号化されるべきである現在のブロックについてのビデオデータ)を記憶する参照メモリとして理解されるべきである。図1のメモリ106はまた、ビデオエンコーダ200の様々なユニットからの出力の一時的なストレージを提供し得る。
【0164】
[0154]図11の様々なユニットは、ビデオエンコーダ200によって実行される動作を理解するのを支援するために示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。固定機能回路は、特定の機能を提供する回路を指し、実施され得る動作に関してあらかじめ設定される。プログラマブル回路は、様々なタスクを実施するように、および実施され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義された様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、(たとえば、パラメータを受信するかまたはパラメータを出力するために)ソフトウェア命令を実行し得るが、固定機能回路が実施する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの1つまたは複数は、別個の回路ブロック(固定機能またはプログラマブル)であり得、いくつかの例では、ユニットのうちの1つまたは複数は、集積回路であり得る。
【0165】
[0155]ビデオエンコーダ200は、算術論理ユニット(ALU)、基本機能ユニット(EFU)、デジタル回路、アナログ回路、および/またはプログラマブル回路から形成されるプログラマブルコアを含み得る。ビデオエンコーダ200の動作が、プログラマブル回路によって実行されるソフトウェアを使用して実施される例では、メモリ106(図1)は、ビデオエンコーダ200が受信し、実行するソフトウェアの命令(たとえば、オブジェクトコード)を記憶し得るか、またはビデオエンコーダ200内の別のメモリ(図示せず)が、そのような命令を記憶し得る。
【0166】
[0156]ビデオデータメモリ230は、受信されたビデオデータを記憶するように構成される。ビデオエンコーダ200は、ビデオデータメモリ230からビデオデータのピクチャを取り出し、残差生成ユニット204とモード選択ユニット202とにビデオデータを提供し得る。ビデオデータメモリ230中のビデオデータは、符号化されるべきである生のビデオデータであり得る。
【0167】
[0157]モード選択ユニット202は、動き推定ユニット222と、動き補償ユニット224と、イントラ予測ユニット226とを含む。モード選択ユニット202は、他の予測モードに従ってビデオ予測を実施するための追加の機能ユニットを含み得る。例として、モード選択ユニット202は、パレットユニット、(動き推定ユニット222および/または動き補償ユニット224の一部であり得る)イントラブロックコピーユニット、アフィンユニット、線形モデル(LM)ユニットなどを含み得る。
【0168】
[0158]モード選択ユニット202は、概して、符号化パラメータの組合せをテストするために複数の符号化パスを協調させ、そのような組合せのためのレートひずみ値を生じる。符号化パラメータは、CUへのCTUの区分、CUのための予測モード、CUの残差データのための変換タイプ、CUの残差データのための量子化パラメータなどを含み得る。モード選択ユニット202は、他のテストされた組合せよりも良好であるレートひずみ値を有する符号化パラメータの組合せを最終的に選択し得る。
【0169】
[0159]ビデオエンコーダ200は、ビデオデータメモリ230から取り出されたピクチャを一連のCTUに区分し、スライス内の1つまたは複数のCTUをカプセル化し得る。モード選択ユニット202は、上記で説明されたHEVCのQTBT構造またはクワッドツリー構造など、ツリー構造に従ってピクチャのCTUを区分し得る。上記で説明されたように、ビデオエンコーダ200は、ツリー構造に従ってCTUを区分することから1つまたは複数のCUを形成し得る。そのようなCTUはまた、一般に「ビデオブロック」または「ブロック」と呼ばれることもある。
【0170】
[0160]概して、モード選択ユニット202はまた、現在のブロック(たとえば、現在のCU、またはHEVCでは、PUとTUとの重複する部分)についての予測ブロックを生成するように、それの構成要素(たとえば、動き推定ユニット222、動き補償ユニット224、およびイントラ予測ユニット226)を制御する。現在のブロックのインター予測のために、動き推定ユニット222は、1つまたは複数の参照ピクチャ(たとえば、DPB218に記憶されている1つまたは複数の以前のコード化ピクチャ)中で1つまたは複数のぴったり一致する参照ブロックを識別するために動き探索を実行し得る。特に、動き推定ユニット222は、たとえば、絶対差分和(SAD)、2乗差分和(SSD)、平均絶対差(MAD)、平均2乗差(MSD)などに従って、現在のブロックに対して潜在的参照ブロックがどのくらい類似しているかを表す値を計算し得る。動き推定ユニット222は、概して、現在のブロックと考慮されている参照ブロックとの間のサンプルごとの差分を使用してこれらの計算を実施し得る。動き推定ユニット222は、現在のブロックに最も密接に一致する参照ブロックを示す、これらの計算から得られた最も低い値を有する参照ブロックを識別し得る。
【0171】
[0161]動き推定ユニット222は、現在のピクチャ中の現在のブロックの位置に対して参照ピクチャ中の参照ブロックの位置を定義する1つまたは複数の動きベクトル(MV)を形成し得る。動き推定ユニット222は、次いで、動きベクトルを動き補償ユニット224に提供し得る。たとえば、単方向インター予測では、動き推定ユニット222は、単一の動きベクトルを提供し得るが、双方向インター予測では、動き推定ユニット222は、2つの動きベクトルを提供し得る。動き補償ユニット224は、次いで、動きベクトルを使用して予測ブロックを生成し得る。たとえば、動き補償ユニット224は、動きベクトルを使用して参照ブロックのデータを取り出し得る。別の例として、動きベクトルが分数サンプル精度を有する場合、動き補償ユニット224は、1つまたは複数の補間フィルタに従って予測ブロックについての値を補間し得る。さらに、双方向インター予測では、動き補償ユニット224は、それぞれの動きベクトルによって識別された2つの参照ブロックのためのデータを取り出し、たとえば、サンプルごとの平均化または重み付け平均化を通して取り出されたデータを組み合わせ得る。
【0172】
[0162]本明細書で説明される技法によれば、動き推定ユニット222と動き補償ユニット224とは、アフィン予測モードを使用してビデオデータのブロックを符号化および復号するように構成され得る。さらに、動き推定ユニット222と動き補償ユニット224とは、本明細書で説明される動きベクトル改良プロセスを実施するように構成され得る。
【0173】
[0163]別の例として、イントラ予測、またはイントラ予測コーディングでは、イントラ予測ユニット226は、現在のブロックに隣接しているサンプルから予測ブロックを生成し得る。たとえば、方向性モードでは、イントラ予測ユニット226は、概して、予測ブロックを作り出すために、隣接サンプルの値を数学的に組み合わせ、現在のブロックにわたって定義された方向にこれらの計算された値をポピュレートし得る。別の例として、DCモードでは、イントラ予測ユニット226は、現在のブロックに対する隣接サンプルの平均を計算し、予測ブロックの各サンプルについてこの得られた平均を含むように予測ブロックを生成し得る。
【0174】
[0164]モード選択ユニット202は、残差生成ユニット204に予測ブロックを与える。残差生成ユニット204は、ビデオデータメモリ230から現在のブロックの生の、符号化されていないバージョンを受信し、モード選択ユニット202から予測ブロックを受信する。残差生成ユニット204は、現在のブロックと予測ブロックとの間のサンプルごとの差分を計算する。得られたサンプルごとの差分は、現在のブロックについての残差ブロックを定義する。いくつかの例では、残差生成ユニット204はまた、残差差分パルスコード変調(RDPCM)を使用して残差ブロックを生成するために、残差ブロック中のサンプル値間の差分を決定し得る。いくつかの例では、残差生成ユニット204は、バイナリ減算を実施する1つまたは複数の減算器回路を使用して形成され得る。
【0175】
[0165]モード選択ユニット202がCUをPUに区分する例では、各PUは、ルーマ予測ユニットと、対応するクロマ予測ユニットとに関連付けられ得る。ビデオエンコーダ200とビデオデコーダ300とは、様々なサイズを有するPUをサポートし得る。上記で示されたように、CUのサイズは、CUのルーマコーディングブロックのサイズを指し得、PUのサイズは、PUのルーマ予測ユニットのサイズを指し得る。特定のCUのサイズが2N×2Nであると仮定すると、ビデオエンコーダ200は、イントラ予測のための2N×2NまたはN×NのPUサイズと、インター予測のための2N×2N、2N×N、N×2N、N×N、または同様のものの対称PUサイズとをサポートし得る。ビデオエンコーダ200およびビデオデコーダ300はまた、インター予測のための2N×nU、2N×nD、nL×2N、およびnR×2NのPUサイズについて非対称区分をサポートし得る。
【0176】
[0166]モード選択ユニット202がCUをPUにさらに区分しない例では、各CUは、ルーマコーディングブロックと、対応するクロマコーディングブロックとに関連付けられ得る。上記のように、CUのサイズは、CUのルーマコーディングブロックのサイズを指し得る。ビデオエンコーダ200とビデオデコーダ300とは、2N×2N、2N×N、またはN×2NのCUサイズをサポートし得る。
【0177】
[0167]いくつかの例として、イントラブロックコピーモードコーディング、アフィンモードコーディング、および線形モデル(LM)モードコーディングなどの他のビデオコーディング技法では、モード選択ユニット202は、コーディング技法に関連付けられたそれぞれのユニットを介して、符号化されている現在のブロックについての予測ブロックを生成する。パレットモードコーディングなど、いくつかの例では、モード選択ユニット202は、予測ブロックを生成せず、代わりに、選択されたパレットに基づいてブロックを再構築すべき様式を示すシンタックス要素を生成し得る。そのようなモードでは、モード選択ユニット202は、符号化されるべきこれらのシンタックス要素をエントロピー符号化ユニット220に提供し得る。
【0178】
[0168]上記で説明されたように、残差生成ユニット204は、現在のブロックについてのビデオデータと、対応する予測ブロックとを受信する。残差生成ユニット204は、次いで、現在のブロックについての残差ブロックを生成する。残差ブロックを生成するために、残差生成ユニット204は、予測ブロックと現在のブロックとの間のサンプルごとの差分を計算する。
【0179】
[0169]変換処理ユニット206は、(本明細書では「変換係数ブロック」と呼ばれる)変換係数のブロックを生成するために、残差ブロックに1つまたは複数の変換を適用する。変換処理ユニット206は、変換係数ブロックを形成するために、残差ブロックに様々な変換を適用し得る。たとえば、変換処理ユニット206は、離散コサイン変換(DCT)、方向性変換、カルーネンレーベ変換(KLT)、または概念的に同様の変換を残差ブロックに適用し得る。いくつかの例では、変換処理ユニット206は、残差ブロックに複数の変換、たとえば、回転変換など、1次変換および2次変換を実施し得る。いくつかの例では、変換処理ユニット206は、残差ブロックに変換を適用しない。
【0180】
[0170]量子化ユニット208は、量子化された変換係数ブロックを生成するために、変換係数ブロック中の変換係数を量子化し得る。量子化ユニット208は、現在のブロックに関連付けられた量子化パラメータ(QP)値に従って変換係数ブロックの変換係数を量子化し得る。ビデオエンコーダ200は(たとえば、モード選択ユニット202を介して)、CUに関連付けられたQP値を調整することによって、現在のブロックに関連付けられた変換係数ブロックに適用される量子化の程度を調整し得る。量子化は情報の損失をもたらし得、したがって、量子化変換係数は、変換処理ユニット206によって生成された元の変換係数よりも低い精度を有し得る。
【0181】
[0171]逆量子化ユニット210および逆変換処理ユニット212は、変換係数ブロックから残差ブロックを再構築するために、それぞれ、量子化変換係数ブロックに逆量子化および逆変換を適用し得る。再構築ユニット214は、再構築された残差ブロックとモード選択ユニット202によって生成された予測ブロックとに基づいて(潜在的にある程度のひずみを伴うが)現在のブロックに対応する再構築されたブロックを生成し得る。たとえば、再構築ユニット214は、再構築されたブロックを作り出すために、モード選択ユニット202によって生成された予測ブロックからの対応するサンプルに、再構築された残差ブロックのサンプルを加算し得る。
【0182】
[0172]フィルタユニット216は、再構築されたブロックに対して1つまたは複数のフィルタ演算を実施し得る。たとえば、フィルタユニット216は、CUのエッジに沿ってブロッキネスアーティファクトを低減するためのデブロッキング動作を実施し得る。いくつかの例では、フィルタユニット216の動作はスキップされ得る。
【0183】
[0173]ビデオエンコーダ200は、DPB218中に再構築されたブロックを記憶する。たとえば、フィルタユニット216の動作が実施されない例では、再構築ユニット214は、再構築されたブロックをDPB218に記憶し得る。フィルタユニット216の動作が実施される例では、フィルタユニット216は、フィルタ処理された再構築されたブロックをDPB218に記憶し得る。動き推定ユニット222および動き補償ユニット224は、後で符号化されるピクチャのブロックをインター予測するために、再構築(および潜在的にフィルタリング)されたブロックから形成された参照ピクチャをDPB218から取り出し得る。さらに、イントラ予測ユニット226は、現在のピクチャ中の他のブロックをイントラ予測するために、現在のピクチャのDPB218中の再構築されたブロックを使用し得る。
【0184】
[0174]概して、エントロピー符号化ユニット220は、ビデオエンコーダ200の他の機能構成要素から受信されたシンタックス要素をエントロピー符号化し得る。たとえば、エントロピー符号化ユニット220は、量子化ユニット208からの量子化変換係数ブロックをエントロピー符号化し得る。別の例として、エントロピー符号化ユニット220は、モード選択ユニット202からの予測シンタックス要素(たとえば、インター予測のための動き情報、またはイントラ予測のためのイントラモード情報)をエントロピー符号化し得る。エントロピー符号化ユニット220は、エントロピー符号化データを生成するために、ビデオデータの別の例であるシンタックス要素に対して1つまたは複数のエントロピー符号化動作を実施し得る。たとえば、エントロピー符号化ユニット220は、コンテキスト適応型可変長コーディング(CAVLC)動作、CABAC動作、可変対可変(V2V)長コーディング動作、シンタックスベースコンテキスト適応型バイナリ算術コーディング(SBAC)動作、確率間隔区分エントロピー(PIPE)コーディング動作、指数ゴロム符号化動作、または別のタイプのエントロピー符号化動作をデータに対して実施し得る。いくつかの例では、エントロピー符号化ユニット220は、シンタックス要素がエントロピー符号化されないバイパスモードで動作し得る。
【0185】
[0175]ビデオエンコーダ200は、スライスまたはピクチャのブロックを再構築するために必要とされるエントロピー符号化シンタックス要素を含むビットストリームを出力し得る。特に、エントロピー符号化ユニット220がビットストリームを出力し得る。
【0186】
[0176]上記で説明された動作は、ブロックに関して説明される。そのような説明は、ルーマコーディングブロックおよび/またはクロマコーディングブロックのための動作であるものとして理解されるべきである。上記で説明されたように、いくつかの例では、ルーマコーディングブロックとクロマコーディングブロックとは、CUのルーマ成分とクロマ成分とである。いくつかの例では、ルーマコーディングブロックおよびクロマコーディングブロックは、PUのルーマ成分およびクロマ成分である。
【0187】
[0177]いくつかの例では、ルーマコーディングブロックに関して実施される動作は、クロマコーディングブロックのために繰り返される必要はない。一例として、ルーマコーディングブロックのための動きベクトル(MV)と参照ピクチャとを識別するための動作は、クロマブロックのためのMVと参照ピクチャとを識別するために繰り返される必要はない。むしろ、ルーマコーディングブロックのためのMVは、クロマブロックのためのMVを決定するためにスケーリングされ得、参照ピクチャは同じであり得る。別の例として、イントラ予測プロセスは、ルーマコーディングブロックとクロマコーディングブロックとについて同じであり得る。
【0188】
[0178]図12は、本開示の技法を実行し得る例示的なビデオデコーダ300を示すブロック図である。図12は説明のために提供され、本開示で広く例示され記載される技法を限定するものではない。説明の目的で、本開示は、VVC(ITU-T H.266)およびHEVC(開発中のITU-T H.265)の技法に従って、ビデオデコーダ300について説明する。しかしながら、本開示の技法は、他のビデオコーディング規格に構成されたビデオコーディングデバイスによって実行され得る。
【0189】
[0179]図12の例では、ビデオデコーダ300は、コード化ピクチャバッファ(CPB)メモリ320と、エントロピー復号ユニット302と、予測処理ユニット304と、逆量子化ユニット306と、逆変換処理ユニット308と、再構成ユニット310と、フィルタユニット312と、復号ピクチャバッファ(DPB)314とを含む。CPBメモリ320と、エントロピー復号ユニット302と、予測処理ユニット304と、逆量子化ユニット306と、逆変換処理ユニット308と、再構築ユニット310と、フィルタユニット312と、DPB314とのいずれかまたはすべては、1つまたは複数のプロセッサ中にあるいは処理回路中に実装され得る。たとえば、ビデオデコーダ300のユニットは、1つまたは複数の回路または論理要素として、ハードウェア回路の一部として、あるいはプロセッサ、ASIC、またはFPGAの一部として実装され得る。その上、ビデオデコーダ300は、これらおよび他の機能を実施するための追加または代替のプロセッサまたは処理回路を含み得る。
【0190】
[0180]予測処理ユニット304は、動き補償ユニット316と、イントラ予測ユニット318とを含む。予測処理ユニット304は、他の予測モードに従って予測を実施するための追加のユニットを含み得る。例として、予測処理ユニット304は、パレットユニット、(動き補償ユニット316の一部を形成し得る)イントラブロックコピーユニット、アフィンユニット、線形モデル(LM)ユニットなどを含み得る。他の例では、ビデオデコーダ300は、より多数の、より少数の、または異なる機能構成要素を含み得る。
【0191】
[0181]CPBメモリ320は、ビデオデコーダ300の構成要素によって復号されるべき、符号化されたビデオビットストリームなどのビデオデータを記憶し得る。CPBメモリ320に記憶されるビデオデータは、たとえば、コンピュータ可読媒体110(図1)から取得され得る。CPBメモリ320は、符号化されたビデオビットストリームからの符号化されたビデオデータ(たとえば、シンタックス要素)を記憶するCPBを含み得る。また、CPBメモリ320は、ビデオデコーダ300の様々なユニットからの出力を表す一時データなど、コード化ピクチャのシンタックス要素以外のビデオデータを記憶し得る。DPB314は、一般に、ビデオデコーダ300が符号化されたビデオビットストリームの後続のデータまたはピクチャを復号するときに出力しおよび/または参照ビデオデータとして使用し得る復号されたピクチャを記憶する。CPBメモリ320およびDPB314は、SDRAMを含むDRAM、MRAM、RRAM、または他のタイプのメモリデバイスなどの、様々なメモリデバイスのいずれかによって形成され得る。CPBメモリ320およびDPB314は、同じメモリデバイスまたは別個のメモリデバイスによって提供され得る。様々な例では、CPBメモリ320は、ビデオデコーダ300の他の構成要素とともにオンチップであるか、またはそれらの構成要素に対してオフチップであり得る。
【0192】
[0182]追加または代替として、いくつかの例では、ビデオデコーダ300は、メモリ120(図1)からコード化ビデオデータを取り出し得る。すなわち、メモリ120は、CPBメモリ320とともに上記で説明されたようにデータを記憶し得る。同様に、メモリ120は、ビデオデコーダ300の機能の一部または全部が、ビデオデコーダ300の処理回路によって実行されるべきソフトウェアにおいて実装されたとき、ビデオデコーダ300によって実行されるべき命令を記憶し得る。
【0193】
[0183]図12に示されている様々なユニットは、ビデオデコーダ300によって実行される動作を理解するのを支援するために図示されている。ユニットは、固定機能回路、プログラマブル回路、またはそれらの組合せとして実装され得る。図11と同様に、固定機能回路は、特定の機能を提供する回路を指し、実施され得る動作に関してあらかじめ設定される。プログラマブル回路は、様々なタスクを実施するように、および実施され得る動作においてフレキシブルな機能を提供するようにプログラムされ得る回路を指す。たとえば、プログラマブル回路は、ソフトウェアまたはファームウェアの命令によって定義される様式でプログラマブル回路を動作させるソフトウェアまたはファームウェアを実行し得る。固定機能回路は、(たとえば、パラメータを受信するかまたはパラメータを出力するために)ソフトウェア命令を実行し得るが、固定機能回路が実施する動作のタイプは、概して不変である。いくつかの例では、ユニットのうちの1つまたは複数は、別個の回路ブロック(固定機能またはプログラマブル)であり得、いくつかの例では、ユニットのうちの1つまたは複数は、集積回路であり得る。
【0194】
[0184]ビデオデコーダ300は、ALU、EFU、デジタル回路、アナログ回路、および/またはプログラマブル回路から形成されるプログラマブルコアを含み得る。ビデオデコーダ300の動作が、プログラマブル回路上で実行するソフトウェアによって実施される例では、オンチップまたはオフチップメモリは、ビデオデコーダ300が受信し、実行するソフトウェアの命令(たとえば、オブジェクトコード)を記憶し得る。
【0195】
[0185]エントロピー復号ユニット302は、CPBから、符号化されたビデオデータを受信し、シンタックス要素を再生するためにビデオデータをエントロピー復号し得る。予測処理ユニット304、逆量子化ユニット306、逆変換処理ユニット308、再構築ユニット310、およびフィルタユニット312は、ビットストリームから抽出されたシンタックス要素に基づいて、復号されたビデオデータを生成し得る。
【0196】
[0186]概して、ビデオデコーダ300は、ブロックごとにピクチャを再構築する。ビデオデコーダ300は、各ブロックに対して個々に再構築動作を実施し得る(ここで、現在再構築されている、すなわち、復号されているブロックは、「現在のブロック」と呼ばれることがある)。
【0197】
[0187]エントロピー復号ユニット302は、量子化された変換係数ブロックの量子化された変換係数を定義するシンタックス要素、ならびに量子化パラメータ(QP)および/または(1つまたは複数の)変換モード指示などの変換情報をエントロピー復号し得る。逆量子化ユニット306は、量子化の程度と、同様に、逆量子化ユニット306が適用すべき逆量子化の程度とを決定するために、量子化された変換係数ブロックに関連付けられたQPを使用し得る。逆量子化ユニット306は、量子化された変換係数を逆量子化するために、たとえば、ビット単位左シフト動作を実施し得る。逆量子化ユニット306は、それにより、変換係数を含む変換係数ブロックを形成し得る。
【0198】
[0188]逆量子化ユニット306が変換係数ブロックを形成した後、逆変換処理ユニット308は、現在のブロックに関連付けられた残差ブロックを生成するために、変換係数ブロックに1つまたは複数の逆変換を適用し得る。たとえば、逆変換処理ユニット308は、逆DCT、逆整数変換、逆カルーネンレーベ変換(KLT)、逆回転変換、逆方向変換、または別の逆変換を変換係数ブロックに適用し得る。
【0199】
[0189]さらに、予測処理ユニット304は、エントロピー復号ユニット302によってエントロピー復号された予測情報シンタックス要素に従って予測ブロックを生成する。たとえば、現在のブロックがインター予測されることを予測情報シンタックス要素が示す場合、動き補償ユニット316は予測ブロックを生成し得る。この場合、予測情報シンタックス要素は、参照ブロックをそれから取り出すべきDPB314中の参照ピクチャ、ならびに現在ピクチャ中の現在ブロックのロケーションに対する参照ピクチャ中の参照ブロックのロケーションを識別する動きベクトルを示し得る。動き補償ユニット316は、概して、動き補償ユニット224(図11)に関して説明された方式と実質的に同様である方式でインター予測プロセスを実施し得る。本明細書で説明される技法によれば、動き補償ユニット316は、アフィン予測モードを使用してビデオデータのブロックを復号するように構成され得、本明細書で説明されて動きベクトル改良プロセスを実施するように構成され得る。
【0200】
[0190]別の例として、予測情報シンタックス要素が、現在のブロックがイントラ予測されることを示す場合、イントラ予測ユニット318は、予測情報シンタックス要素によって示されるイントラ予測モードに従って予測ブロックを生成し得る。この場合も、イントラ予測ユニット318は、概して、イントラ予測ユニット226(図11)に関して説明されたものと実質的に同様である様式でイントラ予測プロセスを実施し得る。イントラ予測ユニット318は、DPB314から、現在のブロックに対する隣接サンプルのデータを取り出し得る。
【0201】
[0191]再構築ユニット310は、予測ブロックと残差ブロックとを使用して現在のブロックを再構築し得る。たとえば、再構築ユニット310は、現在のブロックを再構築するために、予測ブロックの対応するサンプルに残差ブロックのサンプルを加算し得る。
【0202】
[0192]フィルタユニット312は、再構築されたブロックに対して1つまたは複数のフィルタ動作を実施し得る。たとえば、フィルタユニット312は、再構築されたブロックのエッジに沿ってブロッキネスアーティファクトを低減するためのデブロッキング動作を実施し得る。フィルタユニット312の動作は、必ずしもすべての例において実施されるとは限らない。
【0203】
[0193]ビデオデコーダ300は、DPB314中に再構成されたブロックを記憶し得る。たとえば、フィルタユニット312の動作が実施されない例では、再構築ユニット310は、再構築されたブロックをDPB314に記憶し得る。フィルタユニット312の動作が実施される例では、フィルタユニット312は、フィルタ処理された再構築されたブロックをDPB314に記憶し得る。上記で説明されたように、DPB314は、イントラ予測のための現在ピクチャのサンプル、および後続の動き補償のための前に復号されたピクチャなど、参照情報を、予測処理ユニット304に提供し得る。その上、ビデオデコーダ300は、DPB314からの復号ピクチャ(たとえば、復号ビデオ)を、図1のディスプレイデバイス118などのディスプレイデバイス上での後続の提示のために、出力し得る。
【0204】
[0194]図13は、本開示の技法による、現在のブロックを符号化するための例示的なプロセスを示すフローチャートである。現在のブロックは現在のCUを備え得る。ビデオエンコーダ200(図1および図11)に関して説明されるが、他のデバイスが図13のプロセスと同様のプロセスを実施するように構成され得ることを理解されたい。
【0205】
[0195]この例では、ビデオエンコーダ200は、最初に、現在のブロックを予測する(350)。たとえば、ビデオエンコーダ200は、本開示で説明するように、テンプレートベースのアフィン予測を使用して現在のブロックのための予測ブロックを形成し得る。ビデオエンコーダ200は、次いで、現在のブロックのための残差ブロックを計算し得る(352)。残差ブロックを計算するために、ビデオエンコーダ200は、元の符号化されていないブロックと、現在のブロックのための予測ブロックとの間の差分を計算し得る。ビデオエンコーダ200は、次いで、残差ブロックを変換し、残差ブロックの変換係数を量子化し得る(354)。次に、ビデオエンコーダ200は、残差ブロックの量子化された変換係数を走査し得る(356)。走査中に、または走査に続いて、ビデオエンコーダ200は、変換係数をエントロピー符号化し得る(358)。たとえば、ビデオエンコーダ200は、CAVLCまたはCABACを使用して変換係数を符号化し得る。ビデオエンコーダ200は、次いで、ブロックのエントロピー符号化されたデータを出力し得る(360)。
【0206】
[0196]図14は、本開示の技法による、ビデオデータの現在のブロックを復号するための例示的なプロセスを示すフローチャートである。現在のブロックは、現在のCUを備え得る。ビデオデコーダ300(図1および図12)に関して説明されるが、他のデバイスが図14のプロセスと同様のプロセスを実施するように構成され得ることを理解されたい。
【0207】
[0197]ビデオデコーダ300は、エントロピー符号化された予測情報、および現在のブロックに対応する残差ブロックの変換係数についてのエントロピー符号化されたデータなど、現在のブロックについてのエントロピー符号化されたデータを受信し得る(370)。ビデオデコーダ300は、現在のブロックのための予測情報を決定するために、および残差ブロックの変換係数を再生するために、エントロピー符号化されたデータをエントロピー復号し得る(372)。ビデオデコーダ300は、たとえば、現在ブロックの予測ブロックを計算するために、現在ブロックの予測情報によって示されるイントラまたはインター予測モードを使用して、現在ブロックを予測し得る(374)。ビデオデコーダ300は、たとえば、本開示で説明されるテンプレートベースのアフィン予測を使用して現在のブロックを予測し得る。ビデオデコーダ300は、次いで、量子化された変換係数のブロックを作成するために、再生された変換係数を逆走査し得る(376)。ビデオデコーダ300は、次いで、残差ブロックを作り出すために、変換係数を逆量子化し、変換係数に逆変換を適用し得る(378)。ビデオデコーダ300は、予測ブロックと残差ブロックとを組み合わせることによって、最終的に現在のブロックを復号し得る(380)。
【0208】
[0198]図15は、本開示の技法による、ビデオデータの現在のブロックを復号するための例示的なプロセスを示すフローチャートである。現在のブロックは、現在のCUを備え得る。ビデオデコーダ300(図1および図12)に関して説明されるが、ビデオエンコーダを含む他のデバイスが図15のプロセスと同様のプロセスを実施するように構成され得ることを理解されたい。
【0209】
[0199]ビデオデコーダ300は、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定し得る(400)。アフィン予測モードは、たとえば、4パラメータアフィン予測モード、6パラメータアフィン予測モード、または何らかの他のそのようなアフィン予測モードであり得る。
【0210】
[0200]ビデオデコーダ300は、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定し得る(402)。ビデオデコーダ300は、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別し得る(404)。現在のブロックの最初の予測ブロックを識別するために、ビデオデコーダ300は、たとえば、CPMVを使用して参照フレーム中の複数のサブブロックの位置を特定し得る。
【0211】
[0201]ビデオデコーダ300は、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定し得る(406)。現在のテンプレートは、たとえば、図9Aに示されているように、現在のブロックの上にまたは現在のブロックの左側に位置する複数のサブブロックを含み得る。
【0212】
[0202]ビデオデコーダ300は、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定し得る(408)。最初の参照テンプレートは、たとえば、図9Bおよび図9Cに示されているように、最初の予測ブロックの上にまたは最初の予測ブロックの左側に位置する複数のサブブロックを含み得る。
【0213】
[0203]ビデオデコーダ300は、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施し得る(410)。修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するために、さらに、ビデオデコーダ300は、たとえば、最初の参照テンプレートよりも現在のテンプレートに密接に一致する後続の参照テンプレートを求めて最初の参照テンプレートの周りの探索エリア内を探索し得る。最初の参照テンプレートと現在のテンプレートとの比較は、たとえば、テンプレートマッチングコストであり得、ビデオデコーダ300は、最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定し得る。
【0214】
[0204]ビデオデコーダ300は、修正された予測ブロックに基づいて予測ブロックを決定することと、再構築されたブロックを決定するために残差ブロックに予測ブロックを加算することと、再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することとを行い得る。
【0215】
[0205]以下の番号付けされた条項は、本開示において説明されるデバイスおよび技法の1つまたは複数の態様を示す。
【0216】
[0206]条項1A.ビデオデータを復号する方法であって、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、ここにおいて、1つまたは複数のCPMVは、現在のブロックのための最初の予測ブロックに対応する、修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを備える方法。
【0217】
[0207]条項2A.動きベクトル改良プロセスは、テンプレートマッチングを実施することを備える、条項1Aに記載の方法。
【0218】
[0208]条項3A.1つまたは複数のCPMVは、最初のCPMVのセットを備え、テンプレートマッチングプロセスは、改良されたCPMVのセットを決定することを備える、条項2Aに記載の方法。
【0219】
[0209]条項4A.改良されたCPMVのセットを決定することは、改良されたCPMVのセットを決定するために1つまたは複数のCPMVに1つまたは複数のデルタ動きベクトル値を加算することを備える、条項3Aに記載の方法。
【0220】
[0210]条項5A.1つまたは複数のCPMVに基づいて探索エリアを決定すること、ここにおいて、改良されたCPMVのセットを決定することは、探索エリア内のあるように改良されたCPMVを制限することを備える、をさらに備える、条項3Aまたは4Aに記載の方法。
【0221】
[0211]条項6A.探索パターンを決定することと、探索パターンに基づいて改良されたCPMVのセットを決定することとをさらに備える、条項3A~5Aのいずれかに記載の方法。
【0222】
[0212]条項7A.修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することは、1つまたは複数のテンプレートマッチングコスト計算を実施することを備える、条項1A~6Aのいずれかに記載の方法。
【0223】
[0213]条項8A.復号の方法は、符号化プロセスの部分として実施される、条項1A~7Aのいずれかに記載の方法。
【0224】
[0214]条項9A.ビデオデータを復号するためのデバイスであって、条項1A~8Aのいずれかに記載の方法を実施するための1つまたは複数の手段を備えるデバイス。
【0225】
[0215]条項10A.1つまたは複数の手段が、回路中に実装された1つまたは複数のプロセッサを備える、条項9Aに記載のデバイス。
【0226】
[0216]条項11A.ビデオデータを記憶するためのメモリをさらに備える、条項9Aおよび10Aのいずれかに記載のデバイス。
【0227】
[0217]条項12A.復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、条項9A~11Aのいずれかに記載のデバイス。
【0228】
[0218]条項13A.デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの1つまたは複数を備える、条項9A~12Aのいずれかに記載のデバイス。
【0229】
[0219]条項14A.デバイスがビデオデコーダを備える、条項9A~13Aのいずれかに記載のデバイス。
【0230】
[0220]条項15A.デバイスがビデオエンコーダを備える、条項9A~14Aのいずれかに記載のデバイス。
【0231】
[0221]条項16A.命令を記憶したコンピュータ可読記憶媒体であって、命令が、実行されたとき、1つまたは複数のプロセッサに、条項1A~8Aのいずれかに記載の方法を実施させる、コンピュータ可読記憶媒体。
【0232】
[0222]条項1B.ビデオデータを復号する方法であって、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを備える方法。
【0233】
[0223]条項2B.修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することは、最初の参照テンプレートよりも現在のテンプレートに密接に一致する後続の参照テンプレートを求めて最初の参照テンプレートの周りの探索エリア内を探索することをさらに備える、条項1Bに記載の方法。
【0234】
[0224]条項3B.最初の参照テンプレートと現在のテンプレートとの比較は、テンプレートマッチングコストを備える、条項1Bに記載の方法。
【0235】
[0225]条項4B.最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定することをさらに備える、条項3Bに記載の方法。
【0236】
[0226]条項5B.最初の参照テンプレートは、最初の予測ブロックの上にまたは最初の予測ブロックの左側に位置する複数のサブブロックを備える、条項1Bに記載の方法。
【0237】
[0227]条項6B.アフィン予測モードは、4パラメータアフィン予測モードを備える、条項1Bに記載の方法。
【0238】
[0228]条項7B.アフィン予測モードは、6パラメータアフィン予測モードを備える、条項1Bに記載の方法。
【0239】
[0229]条項8B.修正された予測ブロックに基づいて予測ブロックを決定することと、再構築されたブロックを決定するために残差ブロックに予測ブロックを加算することと、再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することとをさらに備える、条項1Bに記載の方法。
【0240】
[0230]条項9B.復号の方法が、ビデオ符号化プロセスの部分として実施される、条項1Bに記載の方法。
【0241】
[0231]条項10B.ビデオデータを復号するためのデバイスであって、メモリと、メモリに結合された、回路中に実装された1つまたは複数のプロセッサとを備え、1つまたは複数のプロセッサは、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを行うように構成された、デバイス。
【0242】
[0232]条項11B.修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するために、さらに、1つまたは複数のプロセッサは、最初の参照テンプレートよりも現在のテンプレートに密接に一致する後続の参照テンプレートを求めて最初の参照テンプレートの周りの探索エリア内を探索することを行うようにさらに構成された、条項10Bに記載のデバイス。
【0243】
[0233]条項12B.最初の参照テンプレートと現在のテンプレートとの比較は、テンプレートマッチングコストを備える、条項10Bに記載のデバイス。
【0244】
[0234]条項13B.1つまたは複数のプロセッサは、最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定することを行うようにさらに構成された、条項12Bに記載のデバイス。
【0245】
[0235]条項14B.最初の参照テンプレートは、最初の予測ブロックの上にまたは最初の予測ブロックの左側に位置する複数のサブブロックを備える、条項10Bに記載のデバイス。
【0246】
[0236]条項15B.アフィン予測モードは、4パラメータアフィン予測モードを備える、条項10Bに記載のデバイス。
【0247】
[0237]条項16B.アフィン予測モードは、6パラメータアフィン予測モードを備える、条項10Bに記載のデバイス。
【0248】
[0238]条項17B.1つまたは複数のプロセッサは、修正された予測ブロックに基づいて予測ブロックを決定することと、再構築されたブロックを決定するために残差ブロックに予測ブロックを加算することと、再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することとを行うようにさらに構成された、条項10Bに記載のデバイス。
【0249】
[0239]条項18B.デバイスが、符号化ビデオデータを受信するように構成された受信機をさらに備えるワイヤレス通信デバイスを備える、条項10Bに記載のデバイス。
【0250】
[0240]条項19B.ワイヤレス通信デバイスは、電話ハンドセットを備え、ここにおいて、受信機は、ワイヤレス通信規格に従って、符号化ビデオデータを備える信号を復調するように構成された、条項18Bに記載のデバイス。
【0251】
[0241]条項20B.号ビデオデータを表示するように構成されたディスプレイをさらに備える、条項10Bに記載のデバイス。
【0252】
[0242]条項21B.デバイスは、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの1つまたは複数を備える、条項10Bに記載のデバイス。
【0253】
[0243]条項22B.デバイスは、ビデオ符号化デバイスを備える、条項10Bに記載のデバイス。
【0254】
[0244]条項23B.コンピュータ可読記憶媒体であって、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを行わせる命令を記憶したコンピュータ可読記憶媒体。
【0255】
[0245]条項24B.修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するために、さらに、命令は、1つまたは複数のプロセッサに、最初の参照テンプレートよりも現在のテンプレートに密接に一致する後続の参照テンプレートを求めて最初の参照テンプレートの周りの探索エリア内を探索することを行わせる、条項23Bに記載のコンピュータ可読記憶媒体。
【0256】
[0246]条項25B.最初の参照テンプレートと現在のテンプレートとの比較は、テンプレートマッチングコストを備える、条項23Bに記載のコンピュータ可読記憶媒体。
【0257】
[0247]条項26B.命令は、1つまたは複数のプロセッサに、最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定することを行わせる、条項25Bに記載のコンピュータ可読記憶媒体。
【0258】
[0248]条項27B.最初の参照テンプレートは、最初の予測ブロックの上にまたは最初の予測ブロックの左側に位置する複数のサブブロックを備える、条項23Bに記載のコンピュータ可読記憶媒体。
【0259】
[0249]条項28B.命令は、1つまたは複数のプロセッサに、修正された予測ブロックに基づいて予測ブロックを決定することと、再構築されたブロックを決定するために残差ブロックに予測ブロックを加算することと、再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することとを行わせる、条項23Bに記載のコンピュータ可読記憶媒体。
【0260】
[0250]条項29B.ビデオデータを復号するための装置であって、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定するための手段と、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定するための手段と、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別するための手段と、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定するための手段と、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定するための手段と、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するための手段とを備える装置。
【0261】
[0251]条項30B.最初の参照テンプレートと現在のテンプレートとの比較は、テンプレートマッチングコストを備え、装置は、最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定するこための手段をさらに備える、条項29Bに記載の装置。
【0262】
[0252]条項1C.ビデオデータを復号する方法であって、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを備える方法。
【0263】
[0253]条項2C.修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することは、最初の参照テンプレートよりも現在のテンプレートに密接に一致する後続の参照テンプレートを求めて最初の参照テンプレートの周りの探索エリア内を探索することをさらに備える、条項1Cに記載の方法。
【0264】
[0254]条項3C.最初の参照テンプレートと現在のテンプレートとの比較は、テンプレートマッチングコストを備える、条項1Cまたは2Cに記載の方法。
【0265】
[0255]条項4C.最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定することをさらに備える、条項3Cに記載の方法。
【0266】
[0256]条項5C.最初の参照テンプレートは、最初の予測ブロックの上にまたは最初の予測ブロックの左側に位置する複数のサブブロックを備える、条項1C~4Cのいずれかに記載の方法。
【0267】
[0257]条項6C.アフィン予測モードは、4パラメータアフィン予測モードを備える、条項1C~5Cのいずれかに記載の方法。
【0268】
[0258]条項7C.アフィン予測モードは、6パラメータアフィン予測モードを備える、条項1C~5Cのいずれかに記載の方法。
【0269】
[0259]条項8C.修正された予測ブロックに基づいて予測ブロックを決定することと、再構築されたブロックを決定するために残差ブロックに予測ブロックを加算することと、再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することとをさらに備える、条項1C~7Cのいずれかに記載の方法。
【0270】
[0260]条項9C.復号の方法は、ビデオ符号化プロセスの部分として実施される、条項1C~8Cのいずれかに記載の方法。
【0271】
[0261]条項10C.ビデオデータを復号するためのデバイスであって、メモリと、メモリに結合された、回路中に実装された1つまたは複数のプロセッサとを備え、1つまたは複数のプロセッサは、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを行うように構成された、デバイス。
【0272】
[0262]条項11C.修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するために、さらに、1つまたは複数のプロセッサは、最初の参照テンプレートよりも現在のテンプレートに密接に一致する後続の参照テンプレートを求めて最初の参照テンプレートの周りの探索エリア内を探索することを行うようにさらに構成された、条項10Cに記載のデバイス。
【0273】
[0263]条項12C.最初の参照テンプレートと現在のテンプレートとの比較は、テンプレートマッチングコストを備える、条項10Cまたは11Cに記載のデバイス。
【0274】
[0264]条項13C.1つまたは複数のプロセッサは、最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定することを行うようにさらに構成された、条項12Cに記載のデバイス。
【0275】
[0265]条項14C.最初の参照テンプレートは、最初の予測ブロックの上にまたは最初の予測ブロックの左側に位置する複数のサブブロックを備える、条項10C~13Cのいずれかに記載のデバイス。
【0276】
[0266]条項15C.アフィン予測モードは、4パラメータアフィン予測モードを備える、条項10C~14Cのいずれかに記載のデバイス。
【0277】
[0267]条項16C.アフィン予測モードは、6パラメータアフィン予測モードを備える、条項10C~14Cのいずれかに記載のデバイス。
【0278】
[0268]条項17C.1つまたは複数のプロセッサは、修正された予測ブロックに基づいて予測ブロックを決定することと、再構築されたブロックを決定するために残差ブロックに予測ブロックを加算することと、再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することとを行うようにさらに構成された、条項10C~16Cのいずれかに記載のデバイス。
【0279】
[0269]条項18C.デバイスは、符号化ビデオデータを受信するように構成された受信機をさらに備えるワイヤレス通信デバイスを備える、条項10C~17Cのいずれかに記載のデバイス。
【0280】
[0270]条項19C.ワイヤレス通信デバイスは、電話ハンドセットを備え、ここにおいて、受信機は、ワイヤレス通信規格に従って、符号化ビデオデータを備える信号を復調するように構成された、条項18Cに記載のデバイス。
【0281】
[0271]条項20C.復号されたビデオデータを表示するように構成されたディスプレイをさらに備える、条項10C~19Cのいずれかに記載のデバイス。
【0282】
[0272]条項21C.デバイスが、カメラ、コンピュータ、モバイルデバイス、ブロードキャスト受信機デバイス、またはセットトップボックスのうちの1つまたは複数を備える、条項10C~20Cのいずれかに記載のデバイス。
【0283】
[0273]条項22C.デバイスは、ビデオ符号化デバイスを備える、条項10C~21Cのいずれかに記載のデバイス。
【0284】
[0274]条項23C.コンピュータ可読記憶媒体であって、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定することと、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定することと、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別することと、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定することと、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定することと、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施することとを行わせる命令を記憶したコンピュータ可読記憶媒体。
【0285】
[0275]条項24C.修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するために、さらに、命令は、1つまたは複数のプロセッサに、最初の参照テンプレートよりも現在のテンプレートに密接に一致する後続の参照テンプレートを求めて最初の参照テンプレートの周りの探索エリア内を探索することを行わせる、条項23Cに記載のコンピュータ可読記憶媒体。
【0286】
[0276]条項25C.最初の参照テンプレートと現在のテンプレートとの比較は、テンプレートマッチングコストを備える、条項23Cに記載のコンピュータ可読記憶媒体。
【0287】
[0277]条項26C.命令は、1つまたは複数のプロセッサに、最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定することを行わせる、条項25Cに記載のコンピュータ可読記憶媒体。
【0288】
[0278]条項27C.最初の参照テンプレートは、最初の予測ブロックの上にまたは最初の予測ブロックの左側に位置する複数のサブブロックを備える、条項23Cに記載のコンピュータ可読記憶媒体。
【0289】
[0279]条項28C.命令は、1つまたは複数のプロセッサに、修正された予測ブロックに基づいて予測ブロックを決定することと、再構築されたブロックを決定するために残差ブロックに予測ブロックを加算することと、再構築されたブロックに1つまたは複数のフィルタ処理演算を適用することと、フィルタ処理された再構築されたブロックを含む復号されたビデオデータのピクチャを出力することとを行わせる、条項23Cに記載のコンピュータ可読記憶媒体。
【0290】
[0280]条項29C.ビデオデータを復号するための装置であって、ビデオデータの現在のピクチャ中の現在のブロックがアフィン予測モードでコーディングされると決定するための手段と、現在のブロックのための1つまたは複数の制御点動きベクトル(CPMV)を決定するための手段と、1つまたは複数のCPMVを使用して参照ピクチャ中の現在のブロックのための最初の予測ブロックを識別するための手段と、現在のピクチャ中の現在のブロックのための現在のテンプレートを決定するための手段と、参照ピクチャ中の最初の予測ブロックのための最初の参照テンプレートを決定するための手段と、最初の参照テンプレートと現在のテンプレートとの比較に基づいて修正された予測ブロックを決定するために動きベクトル改良プロセスを実施するための手段とを備える装置。
【0291】
[0281]条項30C.最初の参照テンプレートと現在のテンプレートとの比較は、テンプレートマッチングコストを備え、装置は、最初の参照テンプレート中のサンプルと現在のテンプレート中のサンプルとの加重されたサンプルごとの比較に基づいてテンプレートマッチングコストを決定するこための手段をさらに備える、条項29Cに記載の装置。
【0292】
[0282]上記例に応じて、本明細書で説明された技法のいずれかのいくつかの行為またはイベントは、異なるシーケンスで実施され得、追加、マージ、または完全に除外され得る(たとえば、すべての説明された行為またはイベントが本技法の実践のために必要であるとは限らない)ことを認識されたい。その上、いくつかの例では、行為またはイベントは、連続的にではなく、たとえば、マルチスレッド処理、割込み処理、または複数のプロセッサを通して同時に実施され得る。
【0293】
[0283]1つまたは複数の例では、説明した機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアに実装される場合、機能は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され、ハードウェアベース処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応する、コンピュータ可読記憶媒体を含み得るか、または、たとえば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、(1)非一時的である有形のコンピュータ可読記憶媒体、または(2)信号もしくは搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明された技法の実装のための命令、コードおよび/またはデータ構造を取り出すために、1つまたは複数のコンピュータまたは1つまたは複数のプロセッサによってアクセスされ得る、任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。
【0294】
[0284]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD-ROMまたは他の光ディスクストレージ、磁気ディスクストレージ、または他の磁気ストレージデバイス、フラッシュメモリ、あるいは、命令またはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は媒体の定義に含まれる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、代わりに、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびBlu-rayディスク(disc)を含み、ここで、ディスク(disk)は通常、データを磁気的に再生し、ディスク(disc)は、レーザーを用いてデータを光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲に含まれるべきである。
【0295】
[0285]命令は、1つまたは複数のDSP、汎用マイクロプロセッサ、ASIC、FPGA、あるいは他の等価な集積回路またはディスクリート論理回路など、1つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」および「処理回路」という用語は、上記の構造、または本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。さらに、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成された専用ハードウェアおよび/またはソフトウェアモジュール内に提供されるか、あるいは複合コーデックに組み込まれ得る。また、本技法は、1つまたは複数の回路または論理要素において十分に実装され得る。
【0296】
[0286]本開示の技法は、ワイヤレスハンドセット、集積回路(IC)またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置において実装され得る。様々な構成要素、モジュール、またはユニットが、開示された技法を実行するように構成されたデバイスの機能的態様を強調するために本開示で説明されるが、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアおよび/またはファームウェアとともに、上記で説明された1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって与えられ得る。
【0297】
[0287]様々な例が説明された。これらおよび他の例は添付の特許請求の範囲内に入る。
図1
図2A
図2B
図3A
図3B
図4A
図4B
図5
図6A
図6B
図7
図8
図9A
図9B
図9C
図10
図11
図12
図13
図14
図15
【国際調査報告】