(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-16
(54)【発明の名称】デコーダ側イントラモード導出における角度離散化の改善
(51)【国際特許分類】
H04N 19/11 20140101AFI20241008BHJP
H04N 19/136 20140101ALI20241008BHJP
H04N 19/176 20140101ALI20241008BHJP
H04N 19/593 20140101ALI20241008BHJP
【FI】
H04N19/11
H04N19/136
H04N19/176
H04N19/593
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024514531
(86)(22)【出願日】2022-09-16
(85)【翻訳文提出日】2024-04-08
(86)【国際出願番号】 EP2022075843
(87)【国際公開番号】W WO2023052156
(87)【国際公開日】2023-04-06
(32)【優先日】2021-09-28
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】518341334
【氏名又は名称】インターディジタル・シーイー・パテント・ホールディングス・ソシエテ・パ・アクシオンス・シンプリフィエ
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(74)【代理人】
【識別番号】110002848
【氏名又は名称】弁理士法人NIP&SBPJ国際特許事務所
(72)【発明者】
【氏名】デュマ、ティエリー
(72)【発明者】
【氏名】ル リアネック、ファブリース
(72)【発明者】
【氏名】ガルピン、フランク
(72)【発明者】
【氏名】ボルド、フィリップ
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MA21
5C159MC11
5C159ME01
5C159RC12
5C159TA31
5C159TB08
5C159TC02
5C159TC42
5C159TD05
5C159UA02
5C159UA05
5C159UA16
(57)【要約】
デコーダ側イントラモード導出(DIMD)能力は、現在のビデオブロックの上のいくつかの行及び左のいくつかの列に拡張し、現在のビデオブロックの上及び左の画素、並びに現在のビデオブロックの上及び右の列及び下及び左の行も含む参照画素を使用することによって強化される。参照画素は、現在のビデオブロックを取り囲む周囲の再構成された/前に符号化されたサンプルから形成される。イントラ予測モードの導出は、定義された周囲領域内の参照画素の各々から決定された勾配から決定される。1つの実施形態では、勾配は、水平フィルタ及び垂直フィルタを使用して決定される。副実施形態では、フィルタは、画定された周囲領域を越えて拡張しない。別の実施形態では、ターゲットイントラ予測モードを示すインデックスの再割り当てが実行される。
【特許請求の範囲】
【請求項1】
方法であって、
現在のビデオブロックを取り囲む参照画素のための1つ以上の勾配を決定することと、
前記勾配に基づいて、前記現在のビデオブロックを符号化するために使用すべきイントラ予測モードを決定することと、
前記決定されたイントラ予測モードを使用して前記現在のビデオブロックを符号化することとを含む、方法。
【請求項2】
装置であって、
プロセッサであって、
現在のビデオブロックを取り囲む参照画素のための1つ以上の勾配を決定することと、
前記勾配に基づいて、前記現在のビデオブロックを符号化するために使用すべきイントラ予測モードを決定することと、
前記決定されたイントラ予測モードを使用して前記現在のビデオブロックを符号化することとを実行するように構成された、プロセッサとを備える、装置。
【請求項3】
方法であって、
現在のビデオブロックを取り囲む参照画素のための1つ以上の勾配を決定することと、
前記勾配に基づいて、前記現在のビデオブロックを復号化するために使用すべきイントラ予測モードを決定することと、
前記決定されたイントラ予測モードを使用して前記現在のビデオブロックを復号化することとを含む、方法。
【請求項4】
装置であって、
プロセッサであって、
現在のビデオブロックを取り囲む参照画素のための1つ以上の勾配を決定することと、
前記勾配に基づいて、前記現在のビデオブロックを復号化するために使用すべきイントラ予測モードを決定することと、
前記決定されたイントラ予測モードを使用して前記現在のビデオブロックを復号化することとを実行するように構成された、プロセッサとを備える、装置。
【請求項5】
前記参照画素が、前記現在のビデオブロックの上の1つ以上の行と、前記現在のビデオブロックの左の1つ以上の列と、前記現在のビデオブロックの上及び左の画素とを含む、請求項1若しくは3に記載の方法又は請求項2若しくは4に記載の装置。
【請求項6】
前記参照画素が、現在のビデオブロックの上及び右、並びに前記現在のビデオブロックの左下に更に拡張する、請求項5に記載の方法又は装置。
【請求項7】
前記勾配が、水平フィルタ及び垂直フィルタを使用して決定される、請求項1、3、5、6のいずれか一項に記載の方法、又は請求項2、4~6のいずれか一項に記載の装置。
【請求項8】
前記勾配が、前記水平フィルタ及び垂直フィルタの畳み込みを使用して更に決定される、請求項7に記載の方法又は装置。
【請求項9】
イントラ予測モードにインデックスを割り当てることを更に含む、請求項1、3、5~8のいずれか一項に記載の方法、又は請求項2、4~8のいずれか一項に記載の装置。
【請求項10】
前記インデックスが、前記インデックス値に基づいて再割り当てされる、請求項9に記載の方法又は装置。
【請求項11】
前記勾配の決定が、参照領域内の参照画素を使用する、請求項1、3、5~10のいずれか一項に記載の方法、又は請求項2、4~10のいずれか一項に記載の装置。
【請求項12】
デバイスであって、
請求項4に記載の装置と、
(i)信号を受信するように構成されたアンテナであって、前記信号が前記コーディングユニットを含む、アンテナと、(ii)受信された前記信号を、前記コーディングユニットを含む周波数帯域に制限するように構成されたバンドリミッタと、(iii)コーディングユニットを表す出力を表示するように構成されたディスプレイとのうちの少なくとも1つとを備える、デバイス。
【請求項13】
請求項1、及び5~11のいずれか一項に記載の方法に従って生成された、又は請求項2及び5~11のいずれか一項に記載の装置によって生成された、プロセッサを使用して再生するためのデータコンテンツを含む、非一時的なコンピュータ可読媒体。
【請求項14】
請求項1及び5~11のいずれか一項に記載の方法に従って生成された、又は請求項2及び5~11のいずれか一項に記載の装置によって生成された、プロセッサを使用して再生するためのビデオデータを含む、信号。
【請求項15】
コンピュータプログラム製品であって、前記プログラムがコンピュータによって実行されるとき、請求項1、3、及び5~11のいずれか一項に記載の前記方法を、前記コンピュータに実行させる命令を含む、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本実施形態のうちの少なくとも1つは、概して、ビデオの符号化又は復号化、圧縮又は解凍のための方法又は装置に関する。
【背景技術】
【0002】
高い圧縮効率を実現するために、画像及びビデオの符号化スキームは、通常、動きベクトル予測を含む予測、並びにビデオコンテンツ内の空間的冗長性及び時間的冗長性を活用するための変換を採用している。一般に、フレーム内又はフレーム間の相関を活かすためにイントラ予測又はインター予測が使用され、それにより、しばしば予測誤差又は予測残差を意味する原画像と予測画像との差分が、変換され、量子化され、エントロピ符号化される。ビデオを再構成するには、エントロピ符号化、量子化、変換、及び予測に対応する逆プロセスによって、圧縮データを復号化する。
【発明の概要】
【0003】
本実施形態のうちの少なくとも1つは、概して、ビデオ符号化若しくは復号化のための方法又は装置に関し、より具体的には、周囲の参照画素からのデコーダ側イントラモード導出のコーディング効率を改善するための方法又は装置に関する。
【0004】
第1の態様によれば、方法が提供される。本方法は、現在のビデオブロックを取り囲む参照画素について1つ以上の勾配を決定する工程と、上記勾配に基づいて現在のビデオブロックを符号化するために使用すべきイントラ予測モードを決定する工程と、決定されたイントラ予測モードを使用して現在のビデオブロックを符号化する工程とを含む。
【0005】
第2の態様によれば、別の方法が提供される。本方法は、現在のビデオブロックを取り囲む参照画素について1つ以上の勾配を決定する工程と、上記勾配に基づいて現在のビデオブロックを符号化するために使用すべきイントラ予測モードを決定する工程と、決定されたイントラ予測モードを使用して現在のビデオブロックを復号化する工程とを含む。
【0006】
別の一態様によれば、装置が提供される。装置は、プロセッサを備える。プロセッサは、前述した方法のいずれかを実行することによって、ビデオのブロックを符号化する、又はビットストリームを復号化するように構成することができる。
【0007】
少なくとも1つの実施形態の別の一般的態様によれば、復号化する実施形態のいずれかによる装置と、(i)信号を受信するように構成されたアンテナであって、信号がビデオブロックを含む、アンテナ、(ii)受信された信号を、ビデオブロックを含む周波数帯域に制限するように構成されたバンドリミッタ、又は(iii)ビデオブロックを表す出力を表示するように構成されたディスプレイ、のうちの少なくとも1つと、を備えるデバイスが提供される。
【0008】
少なくとも1つの実施形態の別の一般的態様によれば、説明された符号化する実施形態又は変形形態のうちのいずれかに従って生成されるデータコンテンツを含む非一時的コンピュータ可読媒体が提供される。
【0009】
少なくとも1つの実施形態の別の一般的態様によれば、説明された符号化実施形態又は変形形態のいずれかに従って生成されたビデオデータを含む信号が提供される。
【0010】
少なくとも1つの実施形態の別の一般的態様によれば、説明された符号化する実施形態又は変形形態のうちのいずれかに従って生成されるデータコンテンツを含むようにビットストリームをフォーマットする。
【0011】
少なくとも1つの実施形態の別の一般的態様によれば、命令を含むコンピュータプログラム製品であって、命令は、プログラムがコンピュータによって実行されるとき、記載される復号化する実施形態又は変形形態のうちのいずれかをコンピュータに行わせる、コンピュータプログラム製品が提供される。
【0012】
一般的態様の上記及び他の態様、特徴、及び利点は、例示的な実施形態の以下の詳細な説明を添付の図面を参照しながら読み進めることによって明らかになるであろう。
【図面の簡単な説明】
【0013】
【
図1】VVC(多用途ビデオコーディング)におけるイントラ予測のための復号化された参照サンプルを示す。
【
図2】予測される正方形ブロックについてのVVCにおけるコアイントラ予測モードを示す。
【
図3】インデックスk∈[|0,15|]のMIPモードを介した4×4輝度ブロックの予測を示す。
【
図4】インデックスk∈[|0,7|]のMIPモードを介した8×4輝度ブロックの予測を示す。
【
図5】予測される4×4輝度ブロックについてのMIPモードのインデックスからMIP行列のインデックスへのマッピングを示す。
【
図6】予測される8×4輝度ブロックについてのMIPモードのインデックスからMIP行列のインデックスへのマッピングを示す。
【
図7】予測されるWxHブロックのコンテキストからの勾配の抽出を示す。
【
図8】G
VER及びG
HORの絶対値及びG
VER及びG
HORの符号からのターゲットイントラ予測モードインデックスの範囲の識別を示す。
【
図9】|G
VER|>|G
HOR|の場合、成分G
VER及びG
HORの参照軸と勾配Gに垂直な方向との間の角度θの計算を示す。なお、ここでは、G
VER<0及びG
HOR<0である。
【
図10】|G
HOR|≧|G
VER|の場合、成分G
VER及びG
HORの参照軸と勾配Gに垂直な方向との間の角度θの計算を示す。なお、ここでは、G
VER<0及びG
HOR<0である。
【
図11】
図9の条件、すなわち|G
VER|>|G
HOR|におけるターゲットイントラ予測モードインデックスのインデックスの計算を示す。なお、ここでは、G
VER<0及びG
HOR<0である。
【
図12】
図10の条件、すなわち|G
HOR|≧|G
VER|におけるターゲットイントラ予測モードインデックスのインデックスの計算を示す。なお、ここでは、G
VER<0及びG
HOR<0である。
【
図13】WxHブロックのDIMDコンテキストの拡張を示す。
【
図14】第1の特定の条件下でのブロックのDIMDコンテキストの拡張を示す。
【
図15】第2の特定の条件下でのブロックのDIMDコンテキストの拡張を示す。
【
図16】第3の特定の条件下でのブロックのDIMDコンテキストの拡張を示す。
【
図17】第4の特定の条件下でのブロックのDIMDコンテキストの拡張を示す。
【
図18】第5の特定の条件下でのブロックのDIMDコンテキストの拡張を示す。
【
図19】記載された態様を実行するための方法の1つの実施形態を示す。
【
図20】記載された態様を実行するための方法の別の実施形態を示す。
【
図21】記載された態様を実行するための装置の1つの実施形態を示す。
【
図22】汎用ビデオ符号化又は圧縮システムを示す。
【
図23】汎用ビデオ復号化又は解凍システムを示す。
【
図24】記載された態様を実装するためのプロセッサベースのシステムを示す。
【発明を実施するための形態】
【0014】
本明細書で記載される一般的な態様は、ブロックベースのビデオコーディングのためのイントラ予測ツールである、デコーダ側イントラモード導出(DIMD)に関する。このセクションでは、まず、VVC(現在、圧縮性能に関して上位のブロックベースのビデオコーデックの1つ)において重要なイントラ予測ツールを導入する。次に、ECM(強化圧縮モデル)ソフトウェアにDIMD及びその定式化を提示する。ECMは、VVCよりも改善された圧縮性能を示すためにJVETで開発されている。最後に、DIMDにおけるコンテキスト及び角度離散化に関する問題が指摘される。
【0015】
HEVCから継承されたVVCにおけるコアイントラ予測
予測される所与のブロックについて、VVCにおけるイントラ予測は、復号化された参照サンプルを収集することと、復号化された参照サンプルを予測されたブロックに伝搬することと、最後に、予測されたブロックのサンプルを後処理することとからなる。
【0016】
復号化された参照サンプルの生成が
図1に示されており、
図1は、予測されるW×Hブロックの場合のVVCにおけるイントラ予測のための復号化された参照サンプルを示す。座標(x,y)における復号化された参照サンプル値は、P(x,y)によって示される。ビデオ圧縮において従来使用されている座標系が使用され、すなわち(x,y)において、xは画素列を示し、yは画素行を示すことに留意されたい。予測されるW×Hブロックは白色で表示され、その復号化された参照サンプルは灰色で表示される。ここでは、H=4及びW=8である。2Wサンプルの「上」行は、現在のブロックの上に位置する前に復号化された画素から形成され、Wはブロック幅を示す。同様に、2Hサンプルの「左」列は、現在のブロックの左側に位置する復号化された画素から形成され、Hはブロックの高さを示す。角画素はまた、「上」行参照と「左」列参照との間のギャップを埋めるために使用される。現在のブロックの上及び/又はその左側のサンプルのうちのいくつかが利用可能でない場合、参照サンプル置換と呼ばれる方法が実行され、欠けているサンプルが、利用可能なサンプルから時計回り方向にコピーされる。次に、現在のコーディングユニット(CU)サイズ及び使用されるイントラ予測モードに応じて、参照サンプルは、指定されたフィルタを使用してフィルタリングされる。
【0017】
コアイントラ予測のモデル
VVCは、イントラ予測モードと呼ばれるイントラ予測のための線形モデルの範囲を含む。各モードは、復号化された参照サンプルを、異なる方法で予測ブロックに伝搬する。PLANARモード及びDCモードは、滑らかで徐々に変化する領域を予測する。対照的に、指向性モードは指向性構造を捕捉する。VVCには65個の指向性イントラ予測モードが存在し(
図2を参照されたい)、これらは矩形ブロック形状ごとに異なるように編成される。
図2は、予測される正方形ブロックについてのVVCにおけるコアイントラ予測モードを示す。各矢印は、異なる指向性イントラ予測モードに関連付けられた予測ブロックへの復号化された参照サンプルの伝搬方向を表す。矢印の半分は、HEVCに存在する指向性イントラ予測モードに関連付けられる。残りの矢印は、HEVCに存在しないが、VVCに追加的に存在する指向性イントラ予測モードに関連付けられる。
【0018】
VVCに特有のイントラ予測ツール
VVCに特有の2つの主要なイントラ予測ツールは、2つの理由から、行列ベースイントラ予測(MIP)及び成分間線形モデル(CCLM)であるように見える。第1に、MIP及びCCLMは、HEVCからVVCへの圧縮性能に関して最大の利得をもたらす2つの純粋なイントラ予測ツールであると思われる。第2に、MIP及びCCLMは新しいイントラ予測モードを導入するが、複数参照ライン、イントラ部分分割、及び位置依存予測組み合わせと呼ばれるVVCに特有の他のイントラ予測ツールは、前のセクションで記載したイントラ予測モードの変形と見なすことができる。特に、MIPは、この記載においてより適切であると思われる。実際、ここでの主要な話題であるDIMDは、文献において、DIMD及びMIPが輝度ブロックに対して使用されるのに対して、CCLMはクロミナンスのみのツールとして分類されるので、CCLMと直接相互作用しない。
【0019】
行列ベースのイントラ予測(MIP)
MIPは、エンコーダ側及びデコーダ側の両方で固定された学習行列を有する線形イントラ予測モードにある。
【0020】
MIPモードを介したW×H輝度ブロックの予測は、3つのステップに分解される。まず、ブロックの上のW個の復号化された参照サンプル及びその左側のH個の復号化された参照サンプルはダウンサンプリングされる。次に、ダウンサンプリングの結果は、縮小予測に線形変換される。最後に、必要であれば、縮小予測は、補間された予測がW×H輝度ブロックと同じサイズを有するように線形補間される。
【0021】
より正確には、W=4及びH=4である場合、ダウンサンプリング係数は2である。加えて、線形変換におけるMIP行列は、サイズ16×4(4入力サンプル及び16出力サンプル)を有する(
図3を参照されたい)。W=4及びH=8又はW=8及びH=4又はW=8及びH=8である場合、W個の復号化された参照サンプルのダウンサンプリング係数は、W/4であり、H個の復号化された参照サンプルのダウンサンプリング係数は、H/4である。加えて、線形変換におけるMIP行列は、サイズ16×8(8入力サンプル及び16出力サンプル)を有する(
図4を参照されたい)。他の全てのブロックサイズに対して、W個の復号化された参照サンプルのダウンサンプリング係数は、W/4であり、H個の復号化された参照サンプルのダウンサンプリング係数は、H/4である。加えて、線形変換におけるMIP行列のサイズは、64×8(8入力サンプル及び64出力サンプル)である。補間ステップの場合、縮小予測の水平補間は、H個の復号化された参照サンプルのうちのいくつかを使用し、それらのダウンサンプリングされたバージョンは使用しないことに留意されたい。縮小予測の垂直補間は、W個の復号化された参照サンプルのいくつかを使用し、ダウンサンプリングされたバージョンは使用しない。
【0022】
W=4及びH=4である場合、32個のMIPモードが存在する。これらのモードは対に分割され、各対は同じMIP行列を使用するが、各対の第2のモードでは、輝度ブロックの上のダウンサンプリングされた参照サンプルとその左側のダウンサンプリングされた参照サンプルとが交換される。MIPモードインデックスからMIP行列インデックスへのマッピングが
図5に示されている。ダウンサンプリングされた参照サンプルの交換が適用されるとき、縮小予測は、補間される前に転置される。W=4及びH=8又はW=8及びH=4又はW=8及びH=8である場合、16個のMIPモードが存在し、モード対が依然として適用される(
図6を参照されたい)。他の全てのブロックサイズについて、12個のMIPモードが使用され、モード対が依然として適用される。
【0023】
デコーダ側イントラモード導出(DIMD)
DIMDは、予測される所与のブロックを取り囲む復号化された画素が、このブロックにおけるテクスチャ指向性、すなわち、最高品質を有する予測を生成する可能性が最も高いイントラ予測モードを推測するための情報を搬送するという仮定に依拠する。このセクションはまず、DIMD処理について説明する。次いで、DIMDにおけるコンテキスト及び角度離散化に関連する問題に焦点を当てる。先に指摘したように、全ての説明はエンコーダ側及びデコーダ側の両方に同じ方法で適用されることに留意されたい。
【0024】
DIMDにおける推論
DIMDに従って最高品質の予測を生成する可能性が最も高いイントラ予測モードのインデックスの推論は、3つのステップに分解される。最初に、予測される所与のブロックの周りの復号化された画素のコンテキストから勾配が抽出される。次いで、これらの勾配は、勾配方向のヒストグラム(HOG)を埋めるために使用される。最後に、最高品質を有する予測を与える可能性が最も高いイントラ予測モードのインデックスが、このHOGから導出され、ブレンドが実行され得る。
【0025】
コンテキストからの勾配の抽出
予測される所与のブロックに対して、このブロックの上の復号化された画素のh行及びこのブロックの左側の復号化された画素のw列のL字型コンテキストが考慮され(
図7を参照されたい)、これは予測されるW×Hブロックのコンテキストからの勾配の抽出を示す。予測されるブロックは白色で表示される。このブロックのコンテキストは灰色で表示される。コンテキストは、ブロックの上に位置する復号化された画素のh行及びブロックの左側に位置する画素のw列を含む。勾配フィルタは黒い枠で囲まれている。このコンテキストにおける各復号化された関心画素において、局所垂直勾配及び局所水平勾配が計算される。従来の研究では、局所垂直勾配及び局所水平勾配は、3×3の垂直及び水平ソーベルフィルタによって計算される。更に、従来の方法では、このコンテキストにおける復号化された関心画素は、勾配フィルタがコンテキスト境界から外れない復号化された画素を指す。したがって、これらの研究では、勾配の完全な抽出は、コンテキストによる3×3の垂直及び水平ソーベルフィルタの「有効な」畳み込みによって要約することができる。
【0026】
勾配方向のヒストグラム(HOG)の充填
HOGでは、各ビンは、異なる指向性イントラ予測モードのインデックスに関連付けられる。初期化時に、全てのHOGビンは0となる。局所垂直勾配GVER及び局所水平勾配GHORが計算される関心の復号化画素ごとに、方向は、GVER及びGHORから導出され、その方向が導出された方向に最も近い指向性イントラ予測モードのインデックスに関連付けられたビンが増分される。このインデックスは、「ターゲットイントラ予測モードインデックス」と呼ばれる。
【0027】
より正確には、所与の復号化された関心画素に対して、G
VER及びG
HORからの方向の導出は、以下の観察に基づく。指向性イントラ予測モードによるブロックの予測の間、絶対値における最大勾配は、通常、モード方向に垂直に従う。したがって、G
VER及びG
HORから導出される方向は、成分G
VER及びG
HORの勾配に垂直でなければならない。例えば、ECMの枠組みでは、65個のVVC指向性イントラ予測モードを使用して、正の垂直勾配の方向が上から下に進み、正の水平勾配の方向が右から左に進む垂直及び水平勾配フィルタを考慮して、G
VER及びG
HORの絶対値及びG
VER及びG
HORの符号からターゲットイントラ予測モードインデックスの範囲までのマッピングは、
図8に表示される。
【0028】
ここで、|G
VER|>|G
HOR|の場合、参照軸は水平軸である。そうでない場合、参照軸は垂直軸である。成分G
VER及びG
HORの参照軸と勾配Gに垂直な方向との間の角度θは、tan(θ)=|G
HOR|/|G
VER|によって与えられ、|G
VER|>|G
HOR|である場合、tan(θ)=|G
VER|/|G
HOR|であり、それ以外は、
図9及び
図10を参照されたい。
【0029】
局所垂直勾配G
VER及び局所水平勾配G
HORが計算される現在の復号化された関心画素について、
図8のように見つけられたイントラ予測モードインデックスの範囲の場合、ここで参照軸に対する角度がθに最も近いイントラ予測モードのインデックスを見つけることが可能である。次いで、見つかったターゲットイントラ予測モードのインデックスに関連付けられたビンは、|G
HOR|+|G
VER|だけ増分される。これは、HOGをH、及び発見されたターゲットイントラ予測モードのインデックスに関連付けられたビンをiとすることにより、H[i]=H[i]+|G
HOR|+|G
VER|となることを意味する。
【0030】
現在の復号化された関心画素について、GHOR=GVER=0である場合、HOG内のビンは増分されないことに留意されたい。
【0031】
イントラ予測モード(複数の場合もある)の推定
HOGの充填が完了すると、最高品質を有する予測を生成する可能性が最も高い指向性イントラ予測モードのインデックスは、最大の大きさのビンに関連付けられたものである。DIMDのいくつかの変形では、最大の大きさを有する2つのビンが、DIMDに従って最高品質を有する2つの予測をもたらす可能性が最も高い指向性イントラ予測モードのインデックスを見つけるために識別され、これらの2つのモードは、任意選択でPLANARと線形結合される。
【0032】
ECMにおけるDIMDのシグナリング
ECMでは、予測される所与の輝度コーディングブロック(CB)について、DIMDは、この輝度CBを予測するために選択されたイントラ予測モードのシグナリングの決定木において最初に、すなわち、テンプレートマッチング予測フラグ及びMIPフラグの前に配置されたDIMDフラグを介してシグナリングされる。
【0033】
DIMDに関連する問題
コンテキストの限定拡張
予測される所与のブロックについて、コンテキストは、その一般的な設計において、このブロックの右上側に復号化された画素を含まず、その左下側に復号化された画素を含まない。しかし、現在のコーディングユニット(CU)のサイズ、現在のコーディングツリーユニット(CTU)内のその位置、及び現在の枠内のその位置に応じて、このブロックの右上側及び/又は左下側の復号化された画素が利用可能であり得る。関連する強度勾配の大部分がこのブロックの右上側及び/又は左下側に位置する場合、これらの復号化された画素がコンテキストに含まれないという事実は、利用可能な情報の重大な損失と見なすことができる。
【0034】
角度離散化における不連続性
ECM-2.0ソフトウェア内のファイル「IntraPrediction.cpp」内のもののような、DIMDの一般的な実施態様では、所与の復号化された画素の場合、局所垂直勾配G
VER及び局所水平勾配G
HORは、ターゲットイントラ予測モードインデックスの見出された範囲について計算され(
図8を参照されたい)、角度θは、この範囲内の参照軸に対する各イントラ予測モードの角度と直接比較されない。実際、VVC及びECMでは、その参照軸に対する各イントラ予測モードの絶対角度は、スケーリングされた整数形式で記憶される。したがって、
【0035】
【数1】
は、参照軸i∈[|0,16|]からのインデックスiの指向性イントラ予測モードの角度のスケーリングされた整数形式A
iと比較される。関数床は、フロア動作を示す。次いで、参照軸のインデックスからターゲットイントラ予測モードのインデックスまでの絶対シフト
【0036】
【数2】
である。ターゲットイントラ予測モードインデックスは、最終的に、i
*だけシフトされた参照軸のインデックスとなる。
図9の条件において、
図11は、θの上述の離散化を使用したターゲットイントラ予測モードのインデックスの計算を示す。
図10の条件において、
図12は、θの上記の離散化を使用したターゲットイントラ予測モードのインデックスの計算を示す。
【0037】
ECM-2.0ソフトウェアのファイル「IntraPrediction.cpp」内のもののような、DIMDの一般的な実施態様では、|GHOR|=|GVER|すなわち、
【0038】
【0039】
【数4】
はスキップされ、i
*=-1である。結果として、|G
HOR|及び|G
VER|が同じ符号を有する場合、ターゲットイントラ予測モードのインデックスは、51となる。|G
HOR|及び|G
VER|が反対の符号を有する場合、ターゲットイントラ予測モードインデックスは49となる。これは、ターゲットイントラ予測モードインデックスを計算するためのルールにおける明確な不連続性であるように見える。
【0040】
この記載における一般的な態様は、DIMDコンテキストの限定された範囲及び角度離散化における不連続性を直すことを目的とする。
【0041】
DIMDコンテキストの限定された範囲に関して、DIMDコンテキストを現在のブロックの右上側及びその左下側に向かって拡張することが提案される。
【0042】
角度離散化における不連続性に関して、|GHOR|=|GVER|、すなわち、
【0043】
【数5】
は、ECM-2.0の現在の実施態様では、その最大値、例えば65536となる場合、
【0044】
【数6】
は、最大値A
iに最も近いと見なされる。したがって、ECM-2.0の現在の実施態様では、i
*=16である。
【0045】
DIMDコンテキストの拡張
所与の予測されるW×Hブロックについて、DIMDコンテキストは、このブロックの右上側及びその左下側に向かって拡張され得る。例では、このブロックの右上側への拡張は、復号化された画素のW個の追加の列の限界において、可能な限り多くの利用可能な復号化された画素をカバーすることができる。このブロックの左下側への拡張は、復号化された画素のH個の追加の行の限界において、可能な限り多くの利用可能な復号化された画素をカバーすることができる(
図13、
図14、
図15、
図16、及び
図17を参照されたい)。
【0046】
図13は、このブロックの左下側のH個の行では、全ての復号化された画素が利用可能であり、このブロックの右上側のW個の行では、全ての復号化された画素が利用可能である場合、このブロックの右上側及びその左下側に向かうW×HブロックのDIMDコンテキストの拡張を示す。コンテキストは灰色で表示される。ブロックは白色で示されている。黒い破線は、利用可能な復号化された画素と利用不可能な画素との間の境界を示す。ここではH=4であり、W=8であり、h=w=4である。
【0047】
図14は、このブロックの左下側のH個の行では、復号化された画素がいずれも利用できず、このブロックの右上側のW個の行では、全ての復号化された画素が利用可能である場合、このブロックの右上側及びその左下側に向かうW×HブロックのDIMDコンテキストの拡張を示す。コンテキストは灰色で表示される。ブロックは白色で示されている。黒い破線は、利用可能な復号化された画素と利用不可能な画素との間の境界を示す。ここではH=4であり、W=8であり、h=w=4である。
【0048】
図15は、このブロックの左下側のH個の行では、全ての復号化された画素が利用可能であり、このブロックの右上側のW個の行では、復号化された画素がいずれも利用できない場合、このブロックの右上側及びその左下側に向かうW×HブロックのDIMDコンテキストの拡張を示す。コンテキストは灰色で表示される。ブロックは白色で示されている。黒い破線は、利用可能な復号化された画素と利用不可能な画素との間の境界を示す。ここではH=4であり、W=8であり、h=w=4である。
【0049】
図16は、このブロックの左下側では復号化された画素がいずれも利用できず、このブロックの右上側のW個の行では、全ての復号化された画素が利用可能である場合、このブロックの右上側及びその左下側に向かうW×HブロックのDIMDコンテキストの拡張を示す。コンテキストは灰色で表示される。ブロックは白色で示されている。黒い破線は、利用可能な復号化された画素と利用不可能な画素との間の境界を示す。ここではH=4であり、W=8であり、h=w=4である。
【0050】
図17は、このブロックの左下側のH個の行では、全ての復号化された画素が利用可能であり、このブロックの上の復号化された画素がいずれも利用できない場合、このブロックの右上側及びその左下側に向かうW×HブロックのDIMDコンテキストの拡張を示す。コンテキストは灰色で表示される。ブロックは白色で示されている。黒い破線は、利用可能な復号化された画素と利用不可能な画素との間の境界を示す。ここではH=4であり、W=8であり、h=w=4である。
【0051】
したがって、復号化された参照画素の利用可能性に関して、DIMDコンテキストの抽出は、DIMDコンテキストが、このブロックの左側の復号化された画素のw個の列(1の代わりに)及びこのブロックの上の復号化された画素のh個の行(1の代わりに)を含むことを除いて、VVCにおける復号化された参照サンプルの収集と同等である。この場合、予測される所与のW×Hブロックに対して、復号化された参照サンプルのセットは常にDIMDコンテキストに含まれるので、DIMDによって推測されるイントラ予測モード(複数の場合もある)を介してこのブロックの予測を実行するために使用される復号化された参照サンプルは、DIMDにおける勾配の計算に必然的に含まれる。これにより、DIMDにおけるテクスチャ分析と、DIMDによって推測されるイントラ予測モード(複数の場合もある)を介した予測との間の何らかの一貫性が保証される。
【0052】
例では、VVCにおける復号化された参照サンプルの収集とは異なり、現在のブロックのDIMDコンテキストの抽出において、利用不可能な復号化された画素の置換はない。実際に、置換され復号化された画素において、局所的な勾配値は、人工的に導入された画素値によって上方に傾斜され得る。
【0053】
例では、利用可能な復号化された画素において排他的に、局所勾配を計算することができ、それらの値は、HOGビンを増分するために使用することができる。利用不可能な復号化された画素では、局所勾配を計算することができず、この利用不可能な復号化された画素に対してHOGビンのいずれも増分されない。
図18は、
図14の場合、3×3水平勾配フィルタと3×3垂直勾配フィルタと使用して、利用可能な復号化された画素において局所勾配が計算されることを示す。すなわち、
図18は、W×HブロックのDIMDコンテキストにおける利用可能な復号化された画素を示し、黒で塗りつぶされた局所勾配が計算される。3×3水平勾配フィルタと3×3垂直勾配フィルタとを使用して、黒で塗りつぶされた各復号化された画素における2つの局所勾配を計算する。灰色の利用可能な復号化された画素は、DIMDコンテキストに属するが、勾配フィルタがDIMDコンテキストの境界から外れるので、それらにおいて局所勾配は計算されない。ここではH=4であり、W=8であり、h=w=4である。
【0054】
DIMDにおける連続角度離散化
上述したように、|GHOR|=|GVER|、すなわち、
【0055】
【数7】
は、ECM-2.0の現在の実施態様では、その最大値、例えば65536となる場合、
【0056】
【数8】
は、最大値A
iに最も近いと考えられる。したがって、ECM-2.0の現在の実施態様では、i
*=16である。
【0057】
したがって、ECM-2.0の現在の実施態様では、|GHOR|=|GVER|及びGHOR及びGVERが同じ符号を有する場合、ターゲットイントラ予測モードインデックスは34である。|GHOR|=|GVER|及びGHOR及びGVERが反対の符号を有する場合、ターゲットイントラ予測モードインデックスは、66である。
【0058】
上述の原理は、DIMDが推論することができる指向性イントラ予測モードの異なるパラメータ付けに簡単に一般化することができる。例えば、DIMDが推論することができる指向性イントラ予測モードの数が、65から129まで増加すると、水平モードのインデックスは34になり、対角モードのインデックスは66になり、垂直モードのインデックスは、98になり、垂直対角モードのインデックスは130になる。更に、θから
【0059】
【数9】
までの変換におけるスケーリングは、新しいパラメータ付けに適応されなければならず、i∈[|0,32|]である。この場合、この原理は次のように定式化することができる。|G_HOR|=|G_VER|である場合、すなわち、
【0060】
【0061】
【数11】
は、最大値A
i.i
*=32に最も近いと考えられる。|G
HOR|=|G
VER|及びG
HOR及びG
VERが同じ符号を有する場合、ターゲットイントラ予測モードインデックスは、66である。|G
HOR|=|G
VER|及びG
HOR及びG
VERが反対の符号を有する場合、ターゲットイントラ予測モードインデックスは、130である。
【0062】
本明細書で記載する一般的な態様下での方法1900の1つの実施形態が
図19に示される。この方法は開始ブロック1901で始まり、制御は、現在のビデオブロックを取り囲む参照画素の1つ以上の勾配を決定するブロック1910に進む。制御は、ブロック1910からブロック1920に進み、当該勾配に基づいて現在のビデオブロックを符号化するために使用するイントラ予測モードを決定し、制御は、ブロック1920からブロック1930に進み、決定されたイントラ予測モードを使用して現在のビデオブロックを符号化する。
【0063】
本明細書で記載する一般的な態様下での方法2000の1つの実施形態が
図20に示されている。この方法は開始ブロック2001で始まり、制御はブロック2010に進み、現在のビデオブロックを取り囲む参照画素の1つ以上の勾配を決定する。制御は、ブロック2010からブロック2020に進み、当該勾配に基づいて現在のビデオブロックを復号化するために使用するイントラ予測モードを決定し、制御は、ブロック2020からブロック2030に進み、決定されたイントラ予測モードを使用して現在のビデオブロックを復号化する。
【0064】
図7は、デコーダイントラモード導出のために拡張参照領域を使用してビデオデータを符号化、復号化、圧縮、又は解凍するための装置700の1つの実施形態を示す。この装置は、プロセッサ710を備えており、少なくとも1つのポートを通じてメモリ720に相互接続することができる。プロセッサ710及びメモリ720は両方とも、外部接続への1つ以上の追加の相互接続を有することもできる。
【0065】
更にプロセッサ710は、ビットストリームにおいて情報を挿入又は受信し、記載した態様のいずれかを使用して圧縮、符号化、又は復号化するように構成されている。
【0066】
本明細書で説明する実施形態は、ツール、特徴、実施形態、モデル、手法などを含む、様々な態様を含む。これらの態様の多くは、具体的に記載され、少なくとも個々の特性を示すために、多くの場合、限定的に聞こえ得る方法で記載されている。しかしながら、これは、説明を明確にすることを目的としており、それらの態様の適用又は範囲を限定するものではない。実際には、異なる態様の全てを組み合わせ、かつ置き換えて、更なる態様を提供することができる。更に、これらの態様はまた同様に、以前の出願に記載の態様と組み合わせ、かつ置き換えすることができる。
【0067】
本出願において説明され、企図される態様は、多くの異なる形態で実装することができる。
図22、
図23、及び
図24は、いくつかの実施形態を提供するが、他の実施形態も企図されており、
図22、
図23、及び
図24の考察は、実施態様の範囲を制限しない。態様のうちの少なくとも1つは、概して、ビデオ符号化及び復号化に関し、少なくとも1つの他の態様は、概して、生成又は符号化されたビットストリームを送信することに関する。これら及び別の態様は、方法、装置、説明した方法のいずれかに従ってビデオデータを符号化又は復号化するための命令を自体に記憶したコンピュータ可読記憶媒体、及び/又は、説明した方法のいずれかに従って生成されたビットストリームを自体に記憶したコンピュータ可読記憶媒体、として実装することができる。
【0068】
本出願では、「再構成された」及び「復号化された」という用語は交換可能に使用され得、「ピクセル」及び「サンプル」という用語は交換可能に使用され得、「画像」、「ピクチャ」、及び「フレーム」という用語は交換可能に使用され得る。通常、必ずしもそうではないが、「再構成された」という用語は、エンコーダ側で使用され、一方、「復号化された」という用語は、デコーダ側で使用される。
【0069】
様々な方法が本明細書に説明されており、本方法の各々は、説明された方法を達成するための1つ以上のステップ又はアクションを含む。ステップ又はアクションの特定の順序が方法の適切な動作のために必要とされない限り、特定のステップ及び/又はアクションの順序及び/又は使用は、修正又は組み合わされ得る。
【0070】
本出願に記載されている様々な方法及び他の態様を使用して、
図22及び
図23に示されるようなビデオエンコーダ100及びビデオデコーダ200のモジュール、例えば、イントラ予測モジュール、エントロピコーディングモジュール、及び/又は復号化モジュール(160、360、145、330)を修正することができる。更に、本開示の態様は、VVC又はHEVCに限定されず、例えば、既存のものであれ将来進展するものであれ、他の規格及び勧告、またこのようないかなる規格及び勧告(VVC及びHEVCを含む)の拡張にも適用することができる。特に断りのない限り、又は技術上除外されない限り、本出願に記載の態様は、個々に、又は組み合わせて使用することができる。
【0071】
本出願において、様々な数値が使用されている。具体的な値は、例示目的のためであり、記載の態様は、これらの具体的な値に限定されない。
【0072】
図22は、エンコーダ100を示す。このエンコーダ100の変形形態も企図されるが、以下では、分かりやすいように、予想される全ての変形形態を説明せずに、エンコーダ100について説明される。
【0073】
符号化される前に、ビデオシーケンスは、符号化前処理(101)、例えば、カラー変換を入力カラーピクチャに適用すること(例えば、RGB4:4:4からYCbCr4:2:0への変換)、又は圧縮に対してより弾力的な信号分布を得るために入力ピクチャ成分の再マッピングを実行する(例えば、色成分のうちの1つのヒストグラム等化を使用して)ことを経ることができる。メタデータを前処理に関連付け、ビットストリームに付加することができる。
【0074】
エンコーダ100では、以下に記載のように、ピクチャは、エンコーダ要素によって符号化される。符号化されるピクチャは、例えば、CUという単位に分割され(102)、処理される。各ユニットは、例えば、イントラモード又はインターモードのいずれかを使用して符号化される。ユニットがイントラモードで符号化されるとき、そのユニットは、イントラ予測(160)を実行する。インターモードでは、動き推定(175)及び動き補償(170)が実行される。エンコーダは、ユニットを符号化するためにイントラモード又はインターモードのうちのどちらを使用すべきかを決定し(105)、例えば、予測モードフラグによってイントラ/インターの決定を示す。予測残差は、例えば、原画像ブロックから予測されたブロックを減算することによって(110)計算される。
【0075】
その予測残差は、次いで、変換され(125)、量子化される(130)。量子化された変換係数、並びに動きベクトル及び他のシンタックス要素は、ビットストリームを出力するためにエントロピコーディングされる(145)。エンコーダは、変換をスキップし、量子化を非変換残差信号に直接適用することができる。エンコーダは、変換及び量子化の両方をバイパスすることができ、すなわち、残差は、変換プロセス又は量子化プロセスを適用することなく直接コーディングされる。
【0076】
エンコーダは、符号化されたブロックを復号化して、更なる予測のための参照を提供する。量子化された変換係数は、予測残差を復号化するために逆量子化され(140)、逆変換される(150)。復号化された予測残差と予測されたブロックとを組み合わせて(155)、画像ブロックが再構成される。ループ内フィルタ(165)は、例えば、符号化アーチファクトを低減するためのデブロッキング/サンプル適応オフセット(Sample Adaptive Offset、SAO)フィルタリングを実行するために、再構成されたピクチャに適用される。フィルタリングされた画像は、参照ピクチャバッファ(180)に記憶される。
【0077】
図23は、ビデオデコーダ200のブロック図を示している。デコーダ200では、以下に説明するように、ビットストリームが、デコーダ要素によって復号化される。ビデオデコーダ200は、概して、
図22で記載したような符号化パスとは逆の復号化パスを実行する。エンコーダ100もまた、概して、ビデオデータを符号化することの一部としてビデオ復号化を実行する。
【0078】
特に、デコーダの入力は、ビデオビットストリームを含み、このビデオビットストリームは、ビデオエンコーダ100によって生成され得るものである。ビットストリームは、最初に、変換係数、動きベクトル、及び他のコーディングされた情報を取得するために、エントロピ復号化される(230)。ピクチャ分割情報は、ピクチャがどのように分割されているかを示す。デコーダは、したがって、復号化されたピクチャ分割情報に従ってピクチャを分割し得る(235)。変換係数は、予測残差を復号化するために、逆量子化され(240)、逆変換される(250)。復号化された予測残差と予測されたブロックとを組み合わせて(255)、画像ブロックが再構成される。イントラ予測(260)又は動き補償予測(すなわち、インター予測)(275)から、予測ブロックを得ることができる(270)。ループ内フィルタ(265)は、再構成された画像に適用される。フィルタリングされた画像は、参照ピクチャバッファ(280)に記憶される。
【0079】
復号化されたピクチャは、復号化後処理(285)、例えば、逆カラー変換(例えば、YcbCr4:2:0からRGB4:4:4への転換)、又は符号化前処理(101)において実行された再マッピングプロセスの逆を実行する逆再マッピングを更に経ることができる。復号化後処理は、符号化前処理において導出され、ビットストリームにおいてシグナリングされたメタデータを使用することができる。
【0080】
図24は、様々な態様及び実施形態が実装されているシステムの一例のブロック図を示す。システム1000は、以下に記載の様々な構成要素を含むデバイスとして具体化することができ、本明細書に記載の態様のうちの1つ以上を行うように構成されている。このようなデバイスの例としては、パーソナルコンピュータ、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、デジタルマルチメディアセットトップボックス、デジタルテレビ受信機、パーソナルビデオ録画システム、接続型家電、及びサーバなどの様々な電子デバイスが挙げられるが、これらに限定されない。システム1000の要素を、単独で又は組み合わせて、単一の集積回路(integrated circuit、IC)、複数のIC、及び/又は別個の構成要素に具体化することができる。例えば、少なくとも1つの実施形態では、システム1000の処理要素及びエンコーダ要素/デコーダ要素は、複数のIC及び/又は別個の構成要素にわたって分散している。様々な実施形態では、システム1000は、例えば、通信バスを介して、又は専用の入力ポート及び/若しくは出力ポートを通じて、1つ以上の他のシステム又は他の電子デバイスに通信可能に結合される。様々な実施形態では、システム1000は、本文書に説明される態様のうちの1つ以上を実装するように構成されている。
【0081】
システム1000は、例えば、本明細書に記載される様々な態様を実装するために、それ自体にロードされた命令を実行するように構成された少なくとも1つのプロセッサ1010を含む。プロセッサ1010は、埋め込みメモリ、入出力インターフェース、及び当該技術分野において知られている様々な他の回路を含むことができる。システム1000は、少なくとも1つのメモリ1020(例えば、揮発性メモリデバイス及び/又は不揮発性メモリデバイス)を含む。システム1000は、記憶デバイス1040を含み、これは、不揮発性メモリ及び/又は揮発性メモリを含むことができ、これらのメモリとしては、電気的消去可能なプログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read-Only Memory、EEPROM)、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(Programmable Read-Only Memory、PROM)、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、スタティックランダムアクセスメモリ(Static Random Access Memory、SRAM)、フラッシュ、磁気ディスクドライブ、及び/又は光ディスクドライブが挙げられるが、これらに限定されない。記憶デバイス1040は、非限定的な例として、内部記憶デバイス、付属記憶デバイス(取り外し可能及び取り外し不可能な記憶デバイスを含む)、及び/又はネットワークアクセス可能な記憶デバイスを含むことができる。
【0082】
システム1000は、例えば、符号化されたビデオ又は復号化されたビデオを提供するためにデータを処理するように構成されたエンコーダ/デコーダモジュール1030を含み、エンコーダ/デコーダモジュール1030は、それ自体のプロセッサ及びメモリを含むことができる。エンコーダ/デコーダモジュール1030は、符号化機能及び/又は復号化機能を実行するためのデバイスに含めることができるモジュール(複数可)を表す。既知であるように、デバイスは、符号化モジュール及び復号化モジュールのうちの一方又は両方を含むことができる。更に、エンコーダ/デコーダモジュール1030を、システム1000の別個の要素として実装することができるが、又は当業者には既知であるように、ハードウェアとソフトウェアとの組み合わせとしてプロセッサ1010内に組み込むことができる。
【0083】
本明細書に記載の様々な態様を行うためにプロセッサ1010又はエンコーダ/デコーダ1030に読み込まれるプログラムコードは、記憶デバイス1040に格納することができ、続いて、プロセッサ1010による実行のためにメモリ1020に読み込むことができる。様々な実施形態によれば、プロセッサ1010、メモリ1020、記憶デバイス1040、及びエンコーダ/デコーダモジュール1030のうちの1つ以上は、本明細書で説明されたプロセスの実行中に様々なアイテムのうちの1つ以上を格納することができる。かかる記憶されたアイテムは、これらに限定されないが、入力ビデオ、復号化されたビデオ、又は復号化されたビデオの部分、ビットストリーム、マトリックス、変数、並びに、方程式、式、動作、及び動作論理の処理からの中間結果又は最終結果を含むことができる。
【0084】
いくつかの実施形態では、プロセッサ1010及び/又はエンコーダ/デコーダモジュール1030の内部のメモリは、命令を記憶し、符号化又は復号化中に必要とされる処理のための作業メモリを提供するために使用される。しかし、他の実施形態では、処理デバイス(例えば、処理デバイスを、プロセッサ1010か、又はエンコーダ/デコーダモジュール1030のいずれかとすることができる)の外部のメモリを、これらの機能のうちの1つ以上のために使用する。外部メモリを、メモリ1020及び/又は記憶デバイス1040、例えば、動的揮発性メモリ及び/又は不揮発性フラッシュメモリとすることができる。いくつかの実施形態では、外部不揮発性フラッシュメモリを使用して、例えば、テレビのオペレーティングシステムを格納する。少なくとも1つの実施形態では、RAMなどの高速な外部の動的揮発性メモリは、MPEG-2(MPEGはMoving Picture Experts Groupと称され、MPEG-2はISO/IEC13818とも称され、13818-1はH.222としても既知であり、13818-2はH.262としても既知である)、HEVC(HEVCは高効率映像符号化と称され、H.265及びMPEG-H Part2としても既知である)、又はVVC(JVETによって開発中の新しい標準である多用途ビデオ符号化)などのビデオの符号化動作及び復号化動作のための作業メモリとして使用される。
【0085】
システム1000の要素への入力を、ブロック1130に示されるような様々な入力デバイスを通じて提供することができる。このような入力デバイスには、(i)例えば、放送事業者による放送全体にわたり送信されるRF信号を受信する無線周波数(radio frequency、RF)部分、(ii)コンポーネント(Component、COMP)入力端子(又はCOMP入力端子セット)、(iii)ユニバーサルシリアルバス(Universal Serial Bus、USB)入力端子、及び/又は(iv)高解像度マルチメディアインターフェース(High Definition Multimedia Interface、HDMI)入力端子が含まれるが、これらに限定されない。
図24には示されていないが、他の例は、コンポジットビデオを含む。
【0086】
様々な実施形態では、ブロック1130の入力デバイスは、当該技術分野において知られているように、関連付けられたそれぞれの入力処理要素を有する。例えば、RF部分は、(i)所望の周波数を選択すること(信号を選択すること、又は信号をある周波数帯域に帯域制限することとも称される)と、(ii)選択された信号をダウンコンバートすることと、(iii)(例えば)特定の実施形態でチャネルと称され得る信号周波数帯域を選択するために、より狭い周波数帯域に再び帯域制限することと、(iv)ダウンコンバートされ、帯域制限された信号を復調することと、(v)エラー訂正を実行することと、(vi)所望のデータパケットのストリームを選択するために逆多重化することと、に好適な要素と関連付けられ得る。様々な実施形態のRF部分は、これらの機能を実行する1つ以上の要素、例えば、周波数セレクタ、信号セレクタ、バンドリミッタ、チャネルセレクタ、フィルタ、ダウンコンバータ、復調器、誤差訂正器、及びデマルチプレクサを含む。RF部分は、様々なこれらの機能を実行するチューナを含むことができ、例えば、受信した信号をより低い周波数(例えば、中間周波数又は近ベースバンド周波数)に又はベースバンドにダウンコンバートすることを含む。セットトップボックスの一実施形態では、RF部分及びその関連する入力処理要素は、有線(例えば、ケーブル)媒体を介して送信されるRF信号を受信し、所望の周波数バンドにフィルタリング、ダウンコンバート、及び再フィルタリングすることによって周波数選択を実行する。様々な実施形態では、上で説明される(及び他の)要素の順序を並べ替える、これらの要素の一部を削除する、並びに/又は、類似若しくは異なる機能を実行する他の要素を追加する。要素を追加することは、例えば、増幅器及びアナログ-デジタル変換器を挿入するなど、既存の要素間に要素を挿入することを含み得る。様々な実施形態において、RF部分は、アンテナを含む。
【0087】
更に、USB端子及び/又はHDMI端子は、システム1000をUSB接続及び/又はHDMI接続を介して他の電子デバイスに接続するためのそれぞれのインターフェースプロセッサを含むことができる。入力処理の様々な態様、例えば、リード-ソロモンエラー訂正を、例えば、必要に応じて、別個の入力処理IC内に又はプロセッサ1010内に実装することができることを理解すべきである。同様に、USB又はHDMIインターフェース処理の態様は、必要に応じて、別個のインターフェースIC内、又はプロセッサ1010内で実装することができる。例えば、プロセッサ1010、並びにメモリ及び記憶要素と組み合わせて動作するエンコーダ/デコーダ1030を含む様々な処理要素に、復調され、誤り訂正され、逆多重化されたストリームを提供して、出力デバイス上に提示するために、必要に応じて、データストリームを処理する。
【0088】
システム1000の様々な要素は、統合されたハウジング内に提供され得、統合されたハウジング内では、様々な要素は、好適な接続配設、例えば、Inter-IC(I2C)バス、配線、及びプリント回路基板を含む、当該技術分野で既知の内部バスを使用して相互に接続され、互いの間でデータを送信することができる。
【0089】
システム1000は、通信チャネル1060を介して他のデバイスとの通信を可能にする通信インターフェース1050を含む。通信インターフェース1050は、通信チャネル1060によってデータを送信及び受信するように構成されたトランシーバを含むことができるが、これに限定されない。通信インターフェース1050は、モデム又はネットワークカードを含むことができるが、これらに限定されず、通信チャネル1060を、例えば、有線媒体及び/又は無線媒体内に実装することができる。
【0090】
データは、様々な実施形態では、Wi-Fiネットワーク、例えば、IEEE802.11(IEEEは、米国電気電子技術者協会(Institute of Electrical and Electronics Engineers)を指す)などの無線ネットワークを使用して、システム1000にストリーミングされるか、又は別様に提供される。これらの実施形態のWi-Fi信号は、Wi-Fi通信用に適合された通信チャネル1060及び通信インターフェース1050によって受信される。これらの実施形態の通信チャネル1060は、典型的には、ストリーミングアプリケーション及び他のオーバザトップ通信を可能にするために、インターネットを含む外部ネットワークへのアクセスを提供するアクセスポイント又はルータに接続される。他の実施形態では、入力ブロック1130のHDMI接続によってデータを配信するセットトップボックスを使用して、システム1000にストリーミングされたデータを提供する。更に他の実施形態では、入力ブロック1130のRF接続を使用して、システム1000にストリーミングされたデータを提供する。上で示されるように、様々な実施形態は、データを非ストリーミングの様式で提供する。追加的に、様々な実施形態は、Wi-Fi以外の無線ネットワーク、例えば、セルラネットワーク又はBluetoothネットワークを使用する。
【0091】
システム1000は、ディスプレイ1100、スピーカ1110、及び他の周辺デバイス1120を含む様々な出力デバイスに出力信号を提供することができる。様々な実施形態のディスプレイ1100は、例えば、タッチスクリーンディスプレイ、有機発光ダイオード(OLED)ディスプレイ、湾曲ディスプレイ、及び/又は折り畳み式ディスプレイのうちの1つ以上を含む。ディスプレイ1100は、テレビ、タブレット、ラップトップ、携帯電話(移動電話)、又は別のデバイス用とすることができる。また、ディスプレイ1100を、他の構成要素と統合することができ(例えば、スマートフォンの場合のように)、又は別個にする(例えば、ラップトップ用の外部モニタ)こともできる。他の周辺デバイス1120は、実施形態の様々な例において、スタンドアロンのデジタルビデオディスク(又はデジタル多用途ディスク)(両方の用語でDVR)、ディスクプレーヤ、ステレオシステム、及び/又は照明システムのうちの1つ以上を含む。様々な実施形態は、システム1000の出力に基づいて機能を提供する1つ以上の周辺デバイス1120を使用する。例えば、ディスクプレーヤは、システム1000の出力を再生する機能を実行する。
【0092】
様々な実施形態では、制御信号が、システム1000と、ディスプレイ1100、スピーカ1110、又は他の周辺デバイス1120との間で、AV.Link、家庭用電子制御(Consumer Electronics Control、CEC)、又はユーザ介入の有無にかかわらずデバイス間の制御を可能にする他の通信プロトコルなどの信号伝送を使用して通信される。出力デバイスは、それぞれのインターフェース1070、1080、及び1090を通じた専用接続を介してシステム1000に通信可能に連結することができる。代替的に、出力デバイスを、通信インターフェース1050を介し、通信チャネル1060を使用して、システム1000に接続させることができる。ディスプレイ1100及びスピーカ1110を、例えば、テレビなどの電子デバイスにおけるシステム1000の他の構成要素と単一のユニットに統合することができる。様々な実施形態において、ディスプレイインターフェース1070は、例えば、タイミングコントローラ(timing controller、T Con)チップなどのディスプレイドライバを含む。
【0093】
例えば、入力1130のRF部分が別個のセットトップボックスの一部である場合、ディスプレイ1100及びスピーカ1110を、代替的に、他の構成要素のうちの1つ以上から分かれたものとすることができる。ディスプレイ1100及びスピーカ1110が外部構成要素である様々な実施形態では、例えば、HDMIポート、USBポート、又はCOMP出力を含む専用の出力接続を介して出力信号を提供することができる。
【0094】
実施形態は、プロセッサ1010によって実装されるコンピュータソフトウェアによって、又はハードウェアによって、又はハードウェアとソフトウェアとの組み合わせによって、実行することができる。非限定的な例として、1つ以上の集積回路によって実施形態を実装することができる。メモリ1020は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、光メモリデバイス、磁気メモリデバイス、半導体ベースのメモリデバイス、固定メモリ、及びリムーバブルメモリデバイス等、任意の適切なデータ記憶技術を使用して実装することができる。プロセッサ1010は、技術環境に適切な任意のタイプのものとすることができ、非限定的な例として、マイクロプロセッサ、汎用コンピュータ、専用コンピュータ、及びマルチコアアーキテクチャに基づくプロセッサのうちの1つ以上を包含することができる。
【0095】
様々な実装形態は、復号化を伴う。本出願で使用される「復号化」は、例えば、表示するのに適した最終出力を生成するために、受信した符号化シーケンスに対して実行される処理の全て又は一部を包含することができる。様々な実施形態において、このようなプロセスには、例えば、エントロピ復号化、逆量子化、逆変換、及び差動復号化など、通常、デコーダによって行われるプロセスのうちの1つ以上が含まれる。様々な実施形態において、このようなプロセスには、更に又は代替として、本出願に記載の様々な実装形態のデコーダによって行われるプロセスも含まれる。
【0096】
更なる例として、一実施形態では、「復号化」とは、エントロピ復号化のみを指し、別の実施形態では、「復号化」とは、差動復号化のみを指し、別の実施形態では、「復号化」とは、エントロピ復号化と差動復号化との組み合わせを指す。「復号化プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な復号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
【0097】
様々な実装形態は、符号化を伴う。本出願で使用される「符号化」は、「復号化」に関する上記の説明と同様に、例えば、符号化されたビットストリームを生成するために入力ビデオシーケンスに対して実行される処理の全て又は一部を包含することができる。様々な実施形態において、このようなプロセスは、例えば、分割、差動符号化、変換、量子化、及びエントロピ符号化など、エンコーダによって典型的に実行されるプロセスのうちの1つ以上を含む。様々な実施形態において、このようなプロセスには、更に又は代替的に、本出願に記載の様々な実装形態のエンコーダによって行われるプロセスが含まれる。
【0098】
更なる例として、一実施形態では、「符号化」とは、エントロピ符号化のみを指し、別の実施形態では、「符号化」とは、差動符号化のみを指し、別の実施形態では、「符号化」とは、差動符号化とエントロピ符号化との組み合わせを指す。「符号化プロセス」という句が、具体的に作業部分集合を指すことを目的とするものであるか、又は全体としてより広範な符号化プロセスを指すことを目的とするものであるかは、具体的な説明の背景に基づいて明らかになり、当業者によって十分に理解されると考えられる。
【0099】
本明細書で使用されるシンタックス要素は、説明上の用語であることに留意されたい。したがって、これらは他のシンタックス要素名の使用を排除するものではない。
【0100】
図がフロー図として提示されている場合、その図は対応する装置のブロック図も提供するものと理解されたい。同様に、図がブロック図として提示されている場合、その図は対応する方法/プロセスのフロー図も提供するものと理解されたい。
【0101】
様々な実施形態が、パラメトリックモデル又はレート歪み最適化に関連し得る。特に、符号化プロセス中に、しばしば計算複雑性の制約ゆえに、レートと歪みとの間のバランス又はトレードオフが通常考慮される。レート歪み最適化(Rate Distortion Optimization、RDO)メトリックを通して、あるいは最小二乗平均(Least Mean Square、LMS)、絶対誤差平均(Mean of Absolute Errors、MAE)、又は他のかかる測定を通して、これを測定することができる。レート歪み最適化は、通常、レートと歪みとの加重和であるレート歪み関数を最小化するように定式化される。レート歪み最適化問題を解くには、異なる手法がある。例えば、これらの手法は、全ての考慮されるモード又は符号化パラメータ値を含む全ての符号化オプションの広範なテストに基づき得るが、それらの符号化コスト、並びに符号化及び復号化後の再構成された信号の関連する歪みの完全な評価を伴う。符号化複雑性を抑えるために、特に、再構成された信号ではなく、予測又は予測残差信号に基づく近似歪みの計算とともに、より素早い手法を使用することもできる。考えられる符号化選択肢の一部のみに対して近似歪みを使用し、他の符号化選択肢に対しては完全な歪みを使用することなどによって、これらの2つの手法の混合を使用することもできる。他の手法では、考えられる符号化選択肢部分集合のみを評価する。より一般的には、多くの手法は、最適化を実行するために様々な技術のいずれかを採用するが、最適化は、必ずしも符号化コスト及び関連する歪みの両方の完全な評価ではない。
【0102】
本明細書に記載の実装形態及び態様は、例えば、方法若しくはプロセス、装置、ソフトウェアプログラム、データストリーム、又は信号において実装することができる。たとえ単一の形態の実装形態の文脈でのみ考察される場合でも(例えば、方法としてのみ考察される)、考察された特徴の実装形態は、他の形態(例えば、装置又はプログラム)でも実装することができる。例えば、適切なハードウェア、ソフトウェア、及びファームウェアにおいて装置を実装することができる。この方法は、例えば、コンピュータ、マイクロプロセッサ、集積回路、又はプログラマブル論理デバイスを含む、一般に処理デバイスを指すプロセッサで実装され得る。プロセッサはまた、例えば、コンピュータ、携帯電話、携帯型/携帯情報端末(portable/personal digital assistant、「PDA」)及びエンドユーザ間の情報の通信を容易にする他のデバイスなどの通信デバイスを含む。
【0103】
「一実施形態」若しくは「ある実施形態」又は「一実装形態」若しくは「ある実装形態」、並びにそれらの他の変形形態への言及は、その実施形態に関連して説明する特定の特徴、構造、特性などが、少なくとも1つの実施形態に含まれることを意味する。したがって、本出願全体を通して様々な場所に現れる「一実施形態では」若しくは「ある実施形態では」又は「一実装形態では」若しくは「ある実装形態では」、並びに他の変形形態という句が現れるとき、必ずしも全てが同じ実施形態を指しているのではない。
【0104】
加えて、本出願は、様々な情報を「判定する」ことに言及し得る。情報を判定することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、又は情報をメモリから取り出すことのうちの1つ以上を含むことができる。
【0105】
更に、本出願は、様々な情報に「アクセスすること」に言及する場合がある。情報にアクセスすることは、例えば、情報を受信すること、(例えば、メモリから)情報を取得すること、情報を記憶すること、情報を移動すること、情報をコピーすること、情報を計算すること、情報を判定すること、情報を予測すること、又は情報を推定することのうちの1つ以上を含むことができる。
【0106】
加えて、本出願は、様々な情報を「受信すること」に言及する場合がある。受信することは、「アクセスすること」と同様に、広義の用語であることを意図している。情報を受信することは、例えば、情報にアクセスすること、又は(例えば、メモリから)情報を取得することのうちの1つ以上を含むことができる。更に、「受信すること」は、一般には、例えば、情報を記憶する、情報を処理する、情報を送信する、情報を移動する、情報をコピーする、情報を消去する、情報を計算する、情報を判定する、情報を予測する、又は情報を推定するなどの操作時に、何らかの方式で関与する。
【0107】
例えば、「A/B」、「A及び/又はB」及び「A及びBのうちの少なくとも1つ」の場合、次の「/」、「及び/又は」、及び「のうちの少なくとも1つ」のいずれかの使用は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は両方の選択肢(A及びB)の選択を包含することが意図されていることを理解されるべきである。更なる実施例として、「A、B、及び/又はC」及び「A、B、及びCのうちの少なくとも1つ」の場合、かかる表現は、第1のリストされた選択肢(A)のみの選択、又は第2のリストされた選択肢(B)のみの選択、又は第3のリストされた選択肢(C)のみの選択、又は第1及び第2のリストされた選択肢(A及びB)のみの選択、又は第1及び第3のリストされた選択肢(A及びC)のみの選択、又は第2及び第3のリストされた選択肢のみの選択(B及びC)のみ、又は3つ全ての選択肢の選択(A及びB及びC)を包含することが意図される。このことは、当該技術分野及び関連技術分野の当業者に明らかであるように、リストされたアイテムの数だけ拡張され得る。
【0108】
また、本明細書で使用されるとき、「シグナリングする」という語は、特に、対応するデコーダに対して何かを示すことを意味する。例えば、特定の実施形態では、エンコーダは、複数の変換、符号化モード又はフラグのうちの特定の1つをシグナリングする。このように、ある実施形態では、同じ変換、パラメータ又はモードが、エンコーダ側及びデコーダ側の両方で使用される。したがって、例えば、エンコーダは、デコーダが同じ特定のパラメータを使用することができるように、特定のパラメータをデコーダに送信することができる(明示的なシグナリング)。これに対し、デコーダが既にその特定のパラメータとともに他のパラメータも有する場合は、単にデコーダがその特定のパラメータを知ること、及びそれを選択することを可能にするように、送信を行わないシグナリング(暗黙的なシグナリング)を使用することができる。いかなる実際の機能の送信も回避することにより、様々な実施形態において、ビットの節約が実現される。シグナリングは、様々な方法で達成することができることが理解されよう。例えば、1つ以上のシンタックス要素、フラグなどが、様々な実施形態において、対応するデコーダに情報をシグナリングするために使用される。上記は、「信号」という語の動詞形に関連し、「信号」という語は、本明細書では名詞としても使用されることがある。
【0109】
当業者には明白であるように、実装形態は、例えば、記憶され得る、又は送信され得る情報を搬送するようにフォーマットされた様々な信号をもたらすことができる。情報は、例えば、方法を実施するための命令、又は説明されている実装形態の1つによって生成されるデータを含むことができる。例えば、記載の実施形態のビットストリームを搬送するように、信号をフォーマットすることができる。例えば、電磁波として(例えば、スペクトルの無線周波数部分を使用して)、又はベースバンド信号として、このような信号をフォーマットすることができる。フォーマットすることは、例えば、データストリームを符号化することと、符号化されたデータストリームで搬送波を変調することと、を含むことができる。信号が搬送する情報は、例えば、アナログ情報又はデジタル情報とすることができる。既知であるように、様々な異なる有線リンク又は無線リンク上で信号を送信することができる。信号は、プロセッサ可読媒体に記憶することができる。
【0110】
前述のセクションは、様々な請求項のカテゴリ及びタイプにわたる、いくつかの実施形態を説明している。これらの実施形態の特徴は、単独で、又は任意の組み合わせで提供することができる。更に、実施形態は、様々な特許請求のカテゴリ及びタイプにわたる、以下の特徴、デバイス、又は態様のうちの1つ以上を、単独で、又は任意の組み合わせにおいて、含むことができる。
・デコーダ側イントラモード導出のために参照画素の拡張領域を使用する。
・参照画素の拡張領域を使用して各参照画素に対する勾配を実行する上記方法。
・勾配が2次元フィルタを使用して決定される上記方法。
・フィルタが参照画素の拡張領域外の画素を使用しない上記方法。
・参照画素の拡張領域が、現在のビデオブロックの上、右上、及び左上の1つ以上の行、並びに現在のビデオブロックの左、左上、及び左下の1つ以上の列に拡張する、上記方法のいずれか。
・上記の機能を実行するための1つ以上のシンタックス要素を含むビットストリーム若しくは信号、又はその変形。
・ビットストリーム又は信号は、記載される実施形態のうちのいずれかに従って生成される情報を運ぶシンタックスを含む。
・説明された実施形態のいずれかによって、ビットストリーム又は信号を、創出及び/若しくは送信し、かつ/又は受信及び/若しくは復号化する。
・説明された実施形態のいずれかによって、方法、プロセス、装置、命令を記憶する媒体、データ又は信号を記憶する媒体を提供する。
・エンコーダによって使用される様態に対応する様態で、デコーダが復号化情報を判定することを可能にするシンタックス要素をシグナリングに挿入する。
・記載されるシンタックス要素、又はその変形形態のうちの1つ以上を含むビットストリーム又は信号を、創出及び/若しくは送信し、かつ/又は受信及び/若しくは復号化する。
・テレビ、セットトップボックス、携帯電話、タブレットなどの電子デバイスは、記載される実施形態のいずれかによる変換方法(複数可)を実行する。
・テレビ、セットトップボックス、携帯電話、タブレットなどの電子デバイスは、記載される実施形態のいずれかにより、変換方法(複数可)を決定し、結果としてもたらされた画像を表示する(例えば、モニタ、スクリーン、又はその他のタイプのディスプレイを使用して表示する)。
・テレビ、セットトップボックス、携帯電話、タブレット、又は他の電子デバイスは、説明される実施形態のいずれかによって、チャネルを選択し、帯域制限し、又はチューニングし(例えば、チューナを使用してチューニングし)て、符号化済み画像を含む信号を受信し、変換方法(複数可)を実行する。
・テレビ、セットトップボックス、携帯電話、タブレット、又は他の電子デバイスは、符号化済み画像を含む信号を放送により受信(例えばアンテナを使用して受信)し、変換方法(複数可)を実行する。
【国際調査報告】