(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-10
(45)【発行日】2024-07-19
(54)【発明の名称】ビデオ符号化およびビデオ復号における変換の選択のための方法および装置
(51)【国際特許分類】
H04N 19/12 20140101AFI20240711BHJP
H04N 19/157 20140101ALI20240711BHJP
H04N 19/176 20140101ALI20240711BHJP
【FI】
H04N19/12
H04N19/157
H04N19/176
【外国語出願】
(21)【出願番号】P 2022128799
(22)【出願日】2022-08-12
(62)【分割の表示】P 2020124479の分割
【原出願日】2009-10-21
【審査請求日】2022-09-07
(32)【優先日】2009-01-27
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2009-02-17
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518338149
【氏名又は名称】インターデジタル ヴイシー ホールディングス, インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ソレ,ジヨエル
(72)【発明者】
【氏名】イン,ペン
(72)【発明者】
【氏名】ジエン,ユンフエイ
(72)【発明者】
【氏名】ゴミラ,クリステイーナ
【審査官】岩井 健二
(56)【参考文献】
【文献】特開2005-167655(JP,A)
【文献】特開2003-204550(JP,A)
【文献】特開2002-314428(JP,A)
【文献】国際公開第2008/157360(WO,A2)
【文献】国際公開第2006/028088(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00 - 19/98
(57)【特許請求の範囲】
【請求項1】
方法であって、
ピクチャ内の少なくとも1つのブロックの復号を、2種類以上の逆変換のセットから、ビデオ・シーケンスにおける前記ブロックの逆量子化された残差に適用する少なくとも1つの逆変換を決定することによって行うことを含み、
逆変換の選択は、前記ブロックの領域に対して使用するために決定することができるいくつかの逆変換の中から、前記ブロックのサイズと、前記ブロックのためにインター予測モードが使用されていないかどうかとに依存し、
前記選択は、異なる離散三角関数逆変換の間で行われ、
前記逆変換は方向性の逆変換であり、前記選択は、ブロックのために予測されたデータの方向の要素に依存する、方法。
【請求項2】
装置であって、
ピクチャ内の少なくとも1つのブロックのためのビデオ復号器であって、2種類以上の逆変換のセットから、ビデオ・シーケンスにおける前記ブロックの逆量子化された残差に適用する少なくとも1つの逆変換を決定するビデオ復号器を備え、
逆変換の選択は、前記ブロックの領域に対して使用するために決定することができるいくつかの逆変換の中から、前記ブロックのサイズと、前記ブロックのためにインター予測モードが使用されていないかどうかとに依存し、
前記選択は、異なる離散三角関数逆変換の間で行われ、
前記逆変換は方向性の逆変換であり、前記選択は、ブロックのために予測されたデータの方向の要素に依存する、装置。
【請求項3】
方法であって、
ピクチャ内の少なくとも1つのブロックの符号化を、2種類以上の変換のセットから、ビデオ・シーケンスにおける前記ブロックの残差に適用する少なくとも1つの変換を決定することによって行うことを含み、
変換の選択は、前記ブロックの領域に対して使用するために決定することができるいくつかの変換の中から、前記ブロックのサイズと、前記ブロックのためにインター予測モードが使用されていないかどうかとに依存し、
前記選択は、異なる離散三角関数変換の間で行われ、
前記変換は方向性の変換であり、前記選択は、ブロックのために予測されたデータの方向の要素に依存する、方法。
【請求項4】
装置であって、
ピクチャ内の少なくとも1つのブロックを符号化するためのビデオ符号化器であって、2種類以上の変換のセットから、ビデオ・シーケンスにおける前記ブロックの残差に適用する少なくとも1つの変換を決定することによって符号化を行うビデオ符号化器を備え、
変換の選択は、前記ブロックの領域に対して使用するために決定することができるいくつかの変換の中から、前記ブロックのサイズと、前記ブロックのためにインター予測モードが使用されていないかどうかとに依存し、
前記選択は、異なる離散三角関数変換の間で行われ、
前記変換は方向性の変換であり、前記選択は、ブロックのために予測されたデータの方向の要素に依存する、装置。
【請求項5】
前記変換のセットをオフラインで決定することをさらに含む、請求項3に記載の方法。
【請求項6】
(i)トレーニング・データの使用と、
(ii)変換の系列のサブセットの選択と、
のうちの少なくとも1つによって前記変換のセットが決定される、請求項3に記載の方法。
【請求項7】
前記セットにおける各変換が、可分、または不可分であり、各変換が可分である場合に、各変換の水平方向および垂直方向を異ならせることができる、請求項3に記載の方法。
【請求項8】
閾値のブロック・サイズより大きなブロック・サイズについてのみ、前記選択された変換を記述する情報が明示的に信号送信される、請求項3に記載の方法。
【請求項9】
ブロック・サイズが閾値のブロック・サイズよりも小さい場合に、前記選択された変換を記述するフラグが前記変換の係数に埋め込まれる、請求項3に記載の方法。
【請求項10】
閾値のブロック・サイズより大きなブロック・サイズについてのみ、前記選択された変換を記述する情報が明示的に信号送信される、請求項4に記載の装置。
【請求項11】
ブロック・サイズが閾値のブロック・サイズよりも小さい場合に、前記選択された変換を記述するフラグが前記変換の係数に埋め込まれる、請求項4に記載の装置。
【請求項12】
前記セットにおける各変換が、可分、または不可分であり、各変換が可分である場合に、各変換の水平方向および垂直方向を異ならせることができる、請求項1に記載の方法。
【請求項13】
非一時的なコンピュータ可読記憶媒体であって、命令を含み、前記命令は、プロセッサによって実行されると請求項1に記載の方法を実行する、非一時的なコンピュータ可読記憶媒体。
【請求項14】
非一時的なコンピュータ可読記憶媒体であって、命令を含み、前記命令は、プロセッサによって実行されると請求項3に記載の方法を実行する、非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願とのクロスリファレンス)
本出願は、2009年1月27日付で出願された仮出願第61/147,705号の利益を主張するものであり、その開示内容全体を本願に盛り込んだものとする。さらに、本出願は、2009年2月17日付で出願された仮出願第61/207,783号の利益を主張するものであり、その開示内容全体を本願に盛り込んだものとする。またさらに、本出願は、2つの別の出願との関連性が高い。これらの出願は、本願と同時に出願され、本願と発明者および出願人が同じであり(代理人整理番号PU090137およびPU090138)、各々の開示内容全体を本願に盛り込んだものとし、各々は、2009年1月27日付で出願された仮出願第61/147,705号および2009年2月17日付で出願された仮出願第61/207,783号の利益を主張するものである。
【0002】
本発明は、一般的には、ビデオ符号化および復号に関し、より具体的には、ビデオ符号化および復号のために使用される変換を選択する方法および装置に関する。
【背景技術】
【0003】
ブロックベースの離散変換は、Joint Photographic Experts Group(JPEG)規格、International Telecommunication Union, Telecommunication Sector(ITU-T)H.263勧告(以下、「H.263勧告」と呼ぶ)、International Organization for Standardization/International Electrotechnical Commission(ISO/IEC) Moving Picture Experts Group-1(MPEG-1)規格、MPEG-2規格、ISO/IEC MPEG-4 Part 10 Advanced Video Coding(AVC)規格/ITU-T H.264勧告(以下、「MPEG-4 AVC規格」と呼ぶ)などを含む、多くの画像および映像(イメージおよびビデオ)の規格および勧告の基本的なコンポーネントであり、広範囲のアプリケーションで使用されている。
【0004】
離散コサイン変換(DCT)は、最も広く使用されているブロック変換である。DCTスキームは、イメージ/フレームを画素のブロック(通常は、4×4および8×8)に分割し、離散コサイン変換を使用して各ブロックを空間ドメインから周波数ドメインに変換し、DCT係数を量子化することによって、イメージ/フレームのローカル空間相関プロパティを活用する。イメージおよびビデオの圧縮規格の多くは、固定された二次元(2-D)の可分のDCTブロック変換を使用する。幾つかのブロック・サイズ(通常、4×4~16×16のブロック)を使用可能である場合は、これらは、ブロックに対応するサイズを有するDCTを使用するが、各ブロック・サイズについて、1つの変換のみが存在しうる。
【0005】
しかしながら、イメージおよびビデオのコンテンツのデータは、統計およびプロパティが変化する。従って、ブロックのサイズ毎に単一の変換が利用可能であること、すなわち、ブロックのサイズ毎に単一の変換を強制的に使用することでは、このようなブロックのサイズ毎に利用可能な単一の変換ではなく、異なる変換を使用した場合に利用可能となるであろう潜在的な圧縮利得を実現することはできない。
【0006】
例えば、MPEG-4 AVC 規格のようなイメージおよびビデオの符号化規格においては、ブロックのサイズ毎に、ブロック変換にはただ1つの選択肢しか存在しない。ブロック変換に選択は存在しない。
【0007】
図1を参照すると、MPEG-4 AVC規格に従ったビデオ符号化を実行することが可能なビデオ符号化器が概ね参照符号100によって示されている。ビデオ符号化器100は、結合器185の非反転入力部と信号通信する出力部を有するフレーム順序付けバッファ110を含む。結合器185の出力部は、変換器/量子化器125の第1の入力部と信号通信するように結合されている。変換器/量子化器125の出力部は、エントロピー符号化器145の第1の入力部と、逆変換器/逆量子化器150の第1の入力部と信号通信するように結合されている。エントロピー符号化器145の出力部は、結合器190の第1の非反転入力部と信号通信するように結合されている。結合器190の出力部は、出力バッファ135の第1の入力部と信号通信するように結合されている。
【0008】
符号化器制御器105の第1の出力部は、フレーム順序付けバッファ110の第2の入力部と、逆変換器/逆量子化器150の第2の入力部と、ピクチャ・タイプ決定モジュール115の入力部と、マクロブロック・タイプ(MBタイプ)決定モジュール120の第1の入力部と、イントラ予測モジュール160の第2の入力部と、デブロッキング・フィルタ165の第2の入力部と、動き補償器170の第1の入力部と、動き推定器175の第1の入力部と、参照ピクチャ・バッファ180の第2の入力部と信号通信するように結合されている。
【0009】
符号化器制御器105の第2の出力部は、補助拡張情報(Supplemental Enhancement Information(SEI))挿入器130の第1の入力部と、変換器/量子化器125の第2の入力部と、エントロピー符号化器145の第2の入力部と、出力バッファ135の第2の入力部と、シーケンス・パラメータ・セット(Sequence Parameter Set(SPS))/ピクチャ・パラメータ・セット(Picture Parameter Set(PPS))挿入器140の入力部と信号通信するように結合されている。
【0010】
SEI挿入器130の出力部は、結合器190の第2の非反転入力部と信号通信するように結合されている。
【0011】
ピクチャ・タイプ決定モジュール115の第1の出力部は、フレーム順序付けバッファ110の第3の入力部と信号通信するように結合されている。ピクチャ・タイプ決定モジュール115の第2の出力部は、マクロブロック・タイプ決定モジュール120の第2の入力部と信号通信するように結合されている。
【0012】
シーケンス・パラメータ・セット(Sequence Parameter Set(SPS))/ピクチャ・パラメータ・セット(Picture Parameter Set(PPS))挿入器140の出力部は、結合器190の第3の非反転入力部と信号通信するように結合されている。
【0013】
逆変換器/逆量子化器150の出力部は、結合器119の第1の非反転入力部と信号通信するように結合されている。結合器119の出力部は、イントラ予測モジュール160の第1の入力部と、デブロッキング・フィルタ165の第1の入力部と信号通信するように結合されている。デブロッキング・フィルタ165の出力部は、参照ピクチャ・バッファ180の第1の入力部と信号通信するように結合されている。参照ピクチャ・バッファ180の出力部は、動き推定器175の第2の入力部と信号通信するように結合されている。動き推定器175の第1の出力部は、動き補償器170の第2の入力部と信号通信するように結合されている。動き推定器175の第2の出力部は、エントロピー符号化器145の第3の入力部と信号通信するように結合されている。
【0014】
動き補償器170の出力部は、スイッチ197の第1の入力部と信号通信するように結合されている。イントラ予測モジュール160の出力部は、スイッチ197の第2の入力部と信号通信するように結合されている。マクロブロック・タイプ決定モジュール120の出力部は、スイッチ197の第3の入力部と信号通信するように結合されている。スイッチ197の第3の入力は、スイッチの「データ」入力(これは、制御入力、即ち、第3の入力と比較される。)が、動き補償器170またはイントラ予測モジュール160によって供給されるかどうかを判定する。スイッチ197の出力部は、結合器119の第2の非反転入力部および結合器185の反転入力部と信号通信するように結合されている。
【0015】
フレーム順序付けバッファ110の入力部および符号化器制御器105の入力部は、符号化器100の入力部として、入力ピクチャを受信するために利用可能である。さらに、補助拡張情報(SEI)挿入器130の第2の入力部は、符号化器100の入力部として、メタデータを受信するために利用可能である。出力バッファ135の出力部は、符号化器100の出力部として、ビットストリームを出力するために利用可能である。
【0016】
図2を参照すると、MPEG-4 AVC規格に従ったビデオ復号処理を実行することが可能なビデオ復号器が概ね参照符号200によって示されている。ビデオ復号器200は、エントロピー復号器245の第1の入力部と信号通信するように結合された出力部を有する入力バッファ210を含む。エントロピー復号器245の第1の出力部は、逆変換器/逆量子化器250の第1の入力部と信号通信するように結合されている。逆変換器/逆量子化器250の出力部は、結合器225の第2の非反転入力部と信号通信するように結合されている。結合器225の出力部は、デブロッキング・フィルタ265の第2の入力部と、イントラ予測モジュール260の第1の入力部と信号通信するように結合されている。デブロッキング・フィルタ265の第2の出力部は、参照ピクチャ・バッファ280の第1の入力部と信号通信するように結合されている。参照ピクチャ・バッファ280の出力部は、動き補償器270の第2の入力部と信号通信するように結合されている。
【0017】
エントロピー復号器245の第2の出力部は、動き補償器270の第3の入力部と、デブロッキング・フィルタ265の第1の入力部と信号通信するように結合されている。エントロピー復号器245の第3の出力部は、復号器制御器205の入力部と信号通信するように結合されている。復号器制御器205の第1の出力部は、エントロピー復号器245の第2の入力部と信号通信するように結合されている。復号器制御器205の第2の出力部は、逆変換器/逆量子化器250の第2の入力部と信号通信するように結合されている。復号器制御器205の第3の出力部は、デブロッキング・フィルタ265の第3の入力部と信号通信するように結合されている。復号器制御器205の第4の出力部は、イントラ予測モジュール260の第2の入力部と、動き補償器270の第1の入力部と、参照ピクチャ・バッファ280の第2の入力部と信号通信するように結合されている。
【0018】
動き補償器270の出力部は、スイッチ297の第1の入力部と信号通信するように結合されている。イントラ予測モジュール260の出力部は、スイッチ297の第2の入力部と信号通信するように結合されている。スイッチ297の出力部は、結合器225の第1の非反転入力部と信号通信するように結合されている。
【0019】
入力バッファ210の入力部は、復号器200の入力部として、入力ビットストリームを受信するために利用可能である。デブロッキング・フィルタ265の第1の出力部は、復号器200の出力部として、出力ピクチャを出力するために利用可能である。
【0020】
単一の符号化スキームにおいて複数の変換を使用するために、従来、幾つかの提案がなされている。第1の従来技術においては、最適な線形変換が開示され、これは、カルーネン・レーベ(Karhunen Loeve(KLT))変換と呼ばれる。KLTは、MPEG-4 AVC規格における9個のイントラ予測モードの各々について、最良の変換を導出するために用いられる。各モードの統計が抽出され、対応するKLTが導出される。各イントラ予測残差がKLTを用いて符号化される。9個のイントラ・モードは、データ空間を効果的に分割する。これは、DCTがもはや最良の変換に近いものとはならないような方法で行い、独特な最良の変換を導出可能で、うまく適用されるように行われる。要するに、この提案は、幾つかの変換を使用するものであるが、各々は選択されたイントラ予測モードに固定されている。
【0021】
第2の従来技術に係るアプローチは、幾つかの周波数にDCT変換を修正すること、即ち、様々なワープした周波数応答を得るために、複数の異なるオールパス・フィルタを用いて基本機能を変換することを提案している。結果として得られた変換は、ワープされたDCT(warped DCT(WDCT))と呼ばれる。各ブロックについて、徹底的なレート歪み(rate distortion(R‐D))サーチが実行され、選択された変換は、副情報を用いて示される。このアイディアは、画像圧縮に適用される。
【0022】
第3の従来技術に係るアプローチは、WDCTを使用し、変換された係数自体の内に変換選択を埋め込むことを記載している。この方法は、低ビットレートの画像圧縮では良好なパフォーマンスを示す。さらに、この方法は、平均二乗誤差(MSE)を最小化するポスト・フィルタリングを行うステップを追加するものである。フィルタは、符号化器側で決定され、ビッストリームに多重化される。
【0023】
第4の従来技術に係るアプローチは、大規模なデータベースのための変換のセットの代数的な最適化を提案している。このセットは、データの特定のサブセットについて、各変換がスパース・オプティマル(sparse‐optimal)となる安定ポイントに達するまで、反復して分割される。符号化器は、各ブロックにおいてどの変換が使用されるかを、四分木を介して示す。従って、変換の選択は、各ブロックに対して独立して行われるものではない。
【0024】
第5の従来技術に係るアプローチは、インター・フレーム・モードのための整数サイン変換(integer sine transform(IST))を提案している。インター・フレーム残差は、低相関値を有し、DCTは、相関性の高いデータに対してのみ適している。従って、このアプローチは、-0.5~0.5の相関値を有するデータに対して効率的な、サイン変換を提案する。この範囲において、部分的に、KLTは、サイン変換と一致する。ISTは、MPEG-4 AVC規格における整数コサイン変換と全く同様に、サイン変換から導出される。第5の従来技術に係るアプローチは、4×4および8×8のISTのバージョンを実施している。マクロブロックが4個のサブマクロブロックに分割されない場合には、同じ変換が、マクロブロック全体に適用され、フラグが送信される。次に、各サブマクロブロックにおいて用いられる変換を特定する4個のフラグが送信される。
【0025】
第6の従来技術に係るアプローチは、第5の従来技術に係るアプローチにおいて提案されているものと同様のスキームを提案している。第6の従来技術に係るアプローチは、空間および周波数ドメインにおいて適応型の予測エラー符号化を可能にする適応型予測エラー符号化(adaptive prediction error coding(APEC))を提案する。予測エラーの各ブロックについて、変換符号化または空間ドメイン符号化が適用される。より低いレート歪みコストを有するアルゴリズムが選択される。
【0026】
上述した各アプローチは、最良な変換を選択する範囲が限られたものを提案しており、利用可能な、想定可能なものの全てを十分に活用するものではない。
【発明の概要】
【0027】
従来技術のこれらの欠点および短所、さらに、その他の欠点および短所は、ビデオ符号化における変換選択のための方法および装置に関する本願発明の原理によって対処される。
【0028】
本願発明の原理の一態様によれば、装置が提供される。この装置はビデオ符号化器を備え、このビデオ符号化器はピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に適用する変換を選択することによって行う。ブロックのための少なくとも1つのリファレンスを予測するために使用されるインター予測モードと、動きベクトルに対応する1つ以上の値と、1つ以上の既に符号化されているブロックの残差の値と、ブロックの予測データの値と、1つ以上の隣接する再構成されたブロックの1つ以上の変換選択と、ブロックの残差のための変換係数に対して適用される量子化ステップと、のうちの少なくとも1つに基づいて変換が選択される。
【0029】
本願発明の原理の別の態様によれば、装置が提供される。この装置はビデオ符号化器を備え、このビデオ符号化器はピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に適用する変換を選択することによって行う。ビデオ符号化器は、選択された変換を記述する情報を、少なくとも1つのフラグを使用して情報を明示的に送信することと、ビットストリーム内部のツリー構造を使用して情報を送信することと、選択された変換に対応する変換係数の内部に情報を埋め込むことと、対応する復号器が既に符号化されているデータから選択された変換を推定できるようにすることと、のうちの少なくとも1つによって送信する。
【0030】
本願発明の原理のさらに別の態様によれば、装置が提供される。この装置はビデオ符号化器を備え、このビデオ符号化器はビデオ・シーケンスにおけるピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に適用する変換を選択することによって行う。ビデオ・シーケンスにおける1つ以上の前のピクチャからの再構成されたデータを使用して、変換のセットの決定およびリファインメントのうちの少なくとも一方が行われる。
【0031】
本願発明の原理のさらに別の態様によれば、装置が提供される。この装置はビデオ符号化器を備え、このビデオ符号化器はピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に適用する変換を選択することによって行う。変換のセットは、ブロックのために符号化されることになるデータから決定される。
【0032】
本願発明の原理の別の態様によれば、ビデオ符号化器における方法が提供される。この方法は、ピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に適用する変換を選択することによって行うことを含む。ブロックのための少なくとも1つのリファレンスを予測するために使用されるインター予測モードと、動きベクトルに対応する1つ以上の値と、1つ以上の既に符号化されているブロックの残差の値と、ブロックの予測データの値と、1つ以上の隣接する再構成されたブロックの1つ以上の変換選択と、ブロックの残差のための変換係数に対して適用される量子化ステップと、のうちの少なくとも1つに基づいて変換が選択される。
【0033】
本願発明の原理のさらに別の態様によれば、ビデオ符号化器における方法が提供される。この方法は、ピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に適用する変換を選択することによって行うことと、選択された変換を記述する情報を、少なくとも1つのフラグを使用して情報を明示的に送信することと、ビットストリーム内部のツリー構造を使用して情報を送信することと、選択された変換に対応する変換係数の内部に情報を埋め込むことと、対応する復号器が既に符号化されているデータから選択された変換を推定できるようにすることと、のうちの少なくとも1つによって送信するステップとを含む。
【0034】
本願発明の原理のさらに別の態様によれば、ビデオ符号化器における方法が提供される。この方法は、ピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の変換のセットからブロックの残差に適用する変換を選択することによって行う、符号化するステップを含む。ビデオ・シーケンスにおける1つ以上の前のピクチャからの再構成されたデータを使用して、変換のセットの決定およびリファインメントのうちの少なくとも一方が行われる。
【0035】
本願発明の原理のさらに別の態様によれば、ビデオ符号化器における方法が提供される。この方法は、1つ以上の変換のセットを決定することと、ピクチャ内の少なくとも1つのブロックの符号化を、変換のセットからブロックの残差に対して適用する変換を選択することによって行うことと、を含む。変換のセットは、ブロックのために符号化されるべきデータから決定される。
【0036】
本願発明の原理のこれらの態様、特徴、および利点、さらに、その他の態様、特徴、および利点は、添付の図面と併せて以下の例示的な実施の形態の詳細な説明を参照することによって明らかになるであろう。
【0037】
本願発明の原理は、以下の例示的な図面に従ってより良好に理解されるであろう。
【図面の簡単な説明】
【0038】
【
図1】MPEG-4 AVC規格に従ったビデオ符号化を実行する機能を有するビデオ符号化器を示すブロック図である。
【
図2】MPEG-4 AVC規格に従ったビデオ復号を実行する機能を有するビデオ復号器を示すブロック図である。
【
図3】本願発明の原理の実施の形態に従った、本願発明の原理が適用される変換の選択を用いる例示的なビデオ符号化器を示すブロック図である。
【
図4】本願発明の原理の実施の形態に従った、本願発明の原理が適用される変換の選択を用いる例示的なビデオ復号器を示すブロック図である。
【
図5】本願発明の原理の実施の形態に従った、ビデオ符号化器における変換の選択のための例示的な方法を示すフロー図である。
【
図6】本願発明の原理の実施の形態に従った、ビデオ復号器における変換の選択のための例示的な方法を示すフロー図である。
【
図7】本願発明の原理の実施の形態に従った、ビデオ符号化器における変換の選択および伝達のための例示的な方法を示すフロー図である。
【
図8】本願発明の原理の実施の形態に従った、ビデオ復号器における変換の伝達および選択のための例示的な方法を示すフロー図である。
【
図9】本願発明の原理の実施の形態に従った、ビデオ符号化器における変換の選択および伝達のための別の例示的な方法を示すフロー図である。
【
図10】本願発明の原理の実施の形態に従った、ビデオ復号器における変換の伝達および選択のための別の例示的な方法を示すフロー図である。
【発明を実施するための形態】
【0039】
本願の原理は、ビデオ符号化における変換の選択のための方法および装置に関する。
【0040】
本説明は、本願発明の原理を例示するものである。従って、本願明細書において明示的に記載、または図示されていなくとも、当業者が本願発明の原理を実施する様々な構成を企図することが可能であり、このような構成が本願発明の精神および範囲の中に包含されることが理解できるであろう。
【0041】
本願明細書に記載された全ての例および条件付の文言は、技術を発展させる、発明者によって寄与された本願発明の原理および概念を読者が理解するのを助けるための教示目的のものであり、このような具体的に記載された例や条件に限定されることなく解釈されるべきである。
【0042】
また、本願明細書における本願発明の原理、態様、および、本願発明の実施の形態についての全ての記載、さらに、それらの特定の例は、構造的、機能的な均等物を包含するように意図したものである。さらに、このような均等物は、現在公知の均等物だけでなく、将来において開発される均等物、即ち、構造に係らず、同一の機能を実行するように開発された全ての要素を包含するように意図されている。
【0043】
従って、例えば、当業者であれば、本願明細書において示されたブロック図は、本願発明の原理を実施する回路を例示する概念図であることが理解できよう。同様に、フローチャート、フロー図、状態遷移図、擬似コードなどは、いずれも様々な処理を表すことが理解できよう。これらの処理は、コンピュータによって読み取り可能なメディアにおいて実質的に表すことができ、コンピュータまたはプロセッサにより実行され、このようなコンピュータまたはプロセッサがはっきりと図示されているかどうかに係るものではない。
【0044】
各図面において示される様々な要素の機能は、専用のハードウエアの使用により提供されてもよく、適切なソフトウエアと関連付けてソフトウエアを実行することが可能なハードウエアの使用によって提供されてもよい。機能がプロセッサによって提供される場合にも、単一の専用プロセッサによって提供されてもよく、単一の共有プロセッサによって提供されてもよく、複数の別個のプロセッサによって提供されてもよく、幾つかのプロセッサが共有されていてもよい。さらに、用語「プロセッサ」または「コントローラ」を明示的に使用した場合であっても、ソフトウエアを実行することが可能なハードウエアのみを意味するように解釈されるべきではなく、限定するものではないが、ディジタル信号プロセッサ(DSP)・ハードウエア、ソフトウエアを格納する読み出し専用メモリ(ROM)、ランダム・アクセス・メモリ(RAM、および不揮発性の記憶装置を暗黙的に含むことがある。
【0045】
また、従来のおよび/または慣習的な他のハードウエアを含むこともある。同様に、図面に示されたどのスイッチも概念的なものに過ぎない。これらの機能はプログラム・ロジックの動作を介して、専用のロジックを介して、プログラム制御と専用のロジックとのインタラクションを介して、または、手動でも実行されることがある。文脈からより具体的に理解できるように、実施者により、特定の技術を選択可能である。
【0046】
特許請求の範囲において、特定の機能を実施するための手段として表現されたいずれの要素も、この機能をどのような方法で実行するものも包含するように意図している。例えば、a)機能を実行する回路要素を組み合わせたもの、または、b)形態に関わらず、ソフトウエア、つまり、ファームウエア、マイクロコード等を含み、機能を実施するためにソフトウエアを実行する適当な回路と組み合わせたものも包含する。このような請求の範囲によって定義される本願発明の原理は、請求項に記載された様々な手段によって提供される機能が請求の範囲の要件として、組み合わせられ、まとめられている事実に基づいたものである。従って、このような機能を提供することが可能な手段はどのようなものであっても、本願において示されているものと均等であるとみなされる。
【0047】
明細書において、本願発明の原理の「一実施の形態」、「実施の形態」、または、この類の表現が言及されている場合、これは、実施の形態に関して記載される特定の特徴事項、構造、特性などが本願の原理の少なくとも1つの実施の形態に含まれることを意味する。従って、明細書全体に渡って様々な箇所に存在する文言「一実施の形態においては」、「実施の形態においては」、または、この類の表現は、必ずしも、同一の実施の形態について言及するものではない。さらに、本願明細書において、「実施の形態」、「実施態様」という表現は、同じ意味で使用されている。
【0048】
さらに、本願明細書において、「ピクチャ」および「イメージ(画像)」は、同じ意味で使用されており、静止画像またはビデオ・シーケンスからのピクチャを指す。よく知られているように、ピクチャは、フレームまたはフィールドである。
【0049】
さらに、本願明細書において使用されている単語「ブロック」は、スーパーマクロブロック、マクロブロック・パーティション、さらに、サブマクロブロック・パーティションを含み、任意のブロック・サイズのブロックを指す。
【0050】
さらに、変換のセット、または、変換に関し、本願明細書において使用されている単語「リファインメント」は、リファレンス(参照)の変換/変換のセットから変換/変換のセットを導出するのに必要な情報を指す。通常、ゼロから変換/変換のセットを導出するために必要な全ての情報を送信するよりも、変換/変換のセットの「差」(リファインメント)の情報を送信する方がより効率的である。
【0051】
さらに、本願明細書において使用されている用語「副情報」は、通常のビットストリーム内に存在しない追加的なデータを復号器に伝達するためにビットストリーム内に含まれていなければならない追加的な情報を指す。例えば、2つの変換がブロックを符号化するために使用される場合には、選択された変換が信号送信されて復号器が何の逆変換を使用するべきか分かるようにしなければならない。従って、符号化器は、何の逆変換が使用されるべきかを示す1ビットの「副情報」を含む場合がある。
【0052】
「/(スラッシュ)」、「および/または」、さらに、「~のうちの少なくとも一方(~のうちの少なくとも1つ)」の使用は、例えば、「A/B」、「Aおよび/またはB」、「AおよびBのうちの少なくとも一方」の場合、1番目に列挙されたオプション(A)のみの選択、2番目に列挙されたオプション(B)のみの選択、または、両方のオプション(AおよびB)の選択を包含するものと意図されている。別の例として、「A、B、および/またはC」、さらに、「A、B、およびCのうちの少なくとも1つ」の場合、このような文言は、1番目に列挙されたオプション(A)のみの選択、2番目に列挙されたオプション(B)のみの選択、3番目に列挙されたオプション(C)のみの選択、1番目および2番目に列挙されたオプション(AおよびB)のみの選択、2番目および3番目に列挙されたオプション(AおよびC)のみの選択、2番目および3番目に列挙されたオプション(BおよびC)のみ、または、全ての3つのオプション(A、B、およびC)の選択を包含するものと意図されている。列挙された数の項目の分だけ、このことが拡張されることは、当該技術分野、さらに、関連する技術分野における通常の技術知識を有するものであれば容易に理解できるであろう。
【0053】
さらに、本願明細書において、本願発明の原理の1つ以上の実施の形態は、MPEG-4 AVC規格に対する(または、MPEG-4 AVC規格に関する)改良として記載されているが、本願発明の原理は、この規格のみに限定されるものではない。従って、本願発明の原理は、本願発明の原理の精神を逸脱することなく、MPEG-4 AVC規格の拡張版を含む、他のビデオ符号化規格、勧告およびその拡張版にも利用することができる。
【0054】
さらに、本願発明の原理は、ビデオ符号化における変換選択のための方法および装置に関する。画像および映像(イメージおよびビデオ)のコンテンツのデータは、統計およびプロパティが変化することが分かれば、さらに、各ブロックについて幾つかの変換が使用される可能性があり、状況毎に、選択肢の範囲内で最も好ましい変換を選択する場合、潜在的に実現されうる圧縮利得が存在することが分かる。少なくとも1つの実施の形態においては、所与の統計またはパターンに対して変換のセットを最適化/設計し、このセットから、各領域またはブロックについて、最良の変換を選択することを提案する。
【0055】
従来技術において考慮されていない代替手段を含む、より一般的で広範囲のアプローチを提案する。本願発明の原理に従って、変換のセット(2つ以上の変換)を使用することを記載し、各領域、スライス、ブロック、または、マクロブロックについて、このセットのうち、最良の変換を選択してイメージまたはビデオを符号化する。変換のセットは、統計またはイメージ/ビデオ・パターンの範囲について、最適化、または設計することができる。さらに、本願発明の原理は、最良の変換を選択し、選択された変換を適切に信号送信して、イメージ/ビデオ復号器が選択情報を効率的に復元できるようにする方法に関する。
【0056】
ビデオ符号化器およびビデオ復号器を1つの可能な変換のみを有するように制限する必要はない。一実施の形態においては、最良のパフォーマンスを得るために、各ブロック、マクロブロック、または、領域について、複数の異なる変換からの選択をビデオ符号化器が行えるようにすることを提案する。そこで、一実施の形態においては、符号化器内の変換のセットを、潜在的な利得を損なわせることのないようなライト(light)・シンタックスと組み合わせる。
【0057】
図3を参照すると、変換選択を有する例示的なビデオ符号化器が概ね参照符号300によって示されている。ビデオ符号化器300は、結合器385の非反転入力部と信号通信する出力部を有するフレーム順序付けバッファ310を含む。結合器385の出力部は、変換器/量子化器1 325の入力部と、変換器/量子化器2 326の入力部と、変換器/量子化器n 327の入力部と信号通信するように結合されている。変換器/量子化器1 325の出力部は、変換セレクタ329の第1の入力部と信号通信するように結合されている。変換器/量子化器2 326の出力部は、変換セレクタ329の第2の入力部と信号通信するように結合されている。変換器/量子化器n 327の出力部は、変換セレクタ329の第3の入力部と信号通信するように結合されている。変換セレクタ329の出力部は、エントロピー符号化器345の第1の入力部と、逆変換器/逆量子化器350の第1の入力部と信号通信するように結合されている。エントロピー符号化器345の出力部は、結合器390の第1の非反転入力部と信号通信するように結合されている。結合器390の出力部は、出力バッファ335の第1の入力部と信号通信するように結合されている。
【0058】
符号化器制御器305の第1の出力部は、フレーム順序付けバッファ310の第2の入力部と、逆変換器/逆量子化器350の第2の入力部と、ピクチャ・タイプ決定モジュール315の入力部と、マクロブロック・タイプ(MBタイプ)決定モジュール320の第1の入力部と、イントラ予測モジュール360の第2の入力部と、デブロッキング・フィルタ365の第2の入力部と、動き補償器370の第1の入力部と、動き推定器375の第1の入力部と、参照ピクチャ・バッファ380の第2の入力部と信号通信するように結合されている。
【0059】
符号化器制御器305の第2の出力部は、補助拡張情報(Supplemental Enhancement Information(SEI))挿入器330の第1の入力部と、エントロピー符号化器345の第2の入力部と、出力バッファ335の第2の入力部と、シーケンス・パラメータ・セット(Sequence Parameter Set(SPS))/ピクチャ・パラメータ・セット(Picture Parameter Set(PPS))挿入器340の入力部と信号通信するように結合されている。
【0060】
SEI挿入器330の出力部は、結合器390の第2の非反転入力部と信号通信するように結合されている。
【0061】
ピクチャ・タイプ決定モジュール315の第1の出力部は、フレーム順序付けバッファ310の第3の入力部と信号通信するように結合されている。ピクチャ・タイプ決定モジュール315の第2の出力部は、マクロブロック・タイプ決定モジュール320の第2の入力部と信号通信するように結合されている。
【0062】
シーケンス・パラメータ・セット(SPS)/ピクチャ・パラメータ・セット(PPS)挿入器340の出力部は、結合器390の第3の非反転入力部と信号通信するように結合されている。
【0063】
逆変換器/逆量子化器350の出力部は、結合器319の第1の非反転入力部と信号通信するように結合されている。結合器319の出力部は、イントラ予測モジュール360の第1の入力部と、デブロッキング・フィルタ365の第1の入力部と信号通信するように結合されている。デブロッキング・フィルタ365の出力部は、参照ピクチャ・バッファ380の第1の入力部と信号通信するように結合されている。参照ピクチャ・バッファ380の出力部は、動き推定器375の第2の入力部と、動き補償器370の第3の入力部と信号通信するように結合されている。動き推定器375の第1の出力部は、動き補償器370の第2の入力部と信号通信するように結合されている。動き推定器375の第2の出力部は、エントロピー符号化器345の第3の入力部と信号通信するように結合されている。
【0064】
動き補償器370の出力部は、スイッチ397の第1の入力部と信号通信するように結合されている。イントラ予測モジュール360の出力部は、スイッチ397の第2の入力部と信号通信するように結合されている。マクロブロック・タイプ決定モジュール320の出力部は、スイッチ397の第3の入力部と信号通信するように結合されている。スイッチ397の第3の入力は、スイッチの(制御入力、即ち、第3の入力と比較される)「データ」入力が、動き補償器370またはイントラ予測モジュール360によって提供されるかどうかを判定する。スイッチ397の出力部は、結合器319の第2の非反転入力部および結合器385の反転入力部と信号通信するように結合されている。
【0065】
フレーム順序付けバッファ310の入力部および符号化器制御器305の入力部は、符号化器300の入力部として、入力ピクチャを受信するために利用可能である。さらに、補助拡張情報(SEI)挿入器330の入力部は、符号化器300の入力部として、メタデータを受信するために利用可能である。出力バッファ335の出力部は、符号化器300の出力部として、ビットストリームを出力するために利用可能である。
【0066】
一実施の形態においては、ビデオ符号化器300は、n個の変換のセットから最良の変換を選択し、選択された変換の副情報を送信する。そして、選択された変換(iで示す)について、逆変換が実行される。本実施の形態においては、符号化器および復号器側で、各変換がオフラインで導出されて利用可能である。一実施の形態においては、エントロピー符号化器345によって実行されるエントロピー符号化は、変更/修正され、どのような変換が使用されているかについての追加的な情報を受け入れる。さらに、これは、各変換が異なるエントロピー符号化(異なる走査順、異なるコンテキストなど)を必要とすることがあるためである。
【0067】
図4を参照すると、変換選択を有する例示的なビデオ復号器が概ね参照符号400によって示されている。ビデオ復号器400は、エントロピー復号器445の第1の入力部と信号通信するように結合された出力を有する入力バッファ410を含む。エントロピー復号器445の第1の出力部は、逆変換器/逆量子化器i 450の第1の入力部と信号通信するように結合されている。逆変換器/逆量子化器i 450の出力部は、結合器425の第2の非反転入力部と信号通信するように結合されている。結合器425の出力部は、デブロッキング・フィルタ465の第2の入力部と、イントラ予測モジュール460の第1の入力部と信号通信するように結合されている。デブロッキング・フィルタ465の第2の出力部は、参照ピクチャ・バッファ480の第1の入力部と信号通信するように結合されている。参照ピクチャ・バッファ480の出力部は、動き補償器470の第2の入力部と信号通信するように結合されている。
【0068】
エントロピー復号器445の第2の出力部は、動き補償器470の第3の入力部と、デブロッキング・フィルタ465の第1の入力部と信号通信するように結合されている。エントロピー復号器445の第3の出力部は、復号器コントローラ405の入力部と信号通信するように結合されている。復号器コントローラ405の第1の出力部は、エントロピー復号器445の第2の入力部と信号通信するように結合されている。復号器コントローラ405の第2の出力部は、逆変換器/逆量子化器i 450の第2の入力部と信号通信するように結合されている。復号器コントローラ405の第3の出力部は、デブロッキング・フィルタ465の第3の入力部と信号通信するように結合されている。復号器コントローラ405の第4の出力部は、イントラ予測モジュール460の第2の入力部と、動き補償器470の第1の入力部と、参照ピクチャ・バッファ480の第2の入力部と信号通信するように結合されている。
【0069】
動き補償器470の出力部は、スイッチ497の第1の入力部と信号通信するように結合されている。イントラ予測モジュール460の出力部は、スイッチ497の第2の入力部と信号通信するように結合されている。スイッチ497の出力部は、結合器425の第1の非反転入力部と信号通信するように結合されている。
【0070】
入力バッファ410の入力部は、復号器400の入力部として、入力ビットストリームを受信するために利用可能である。デブロッキング・フィルタ465の第1の出力部は、復号器400の出力部として、出力ピクチャを出力するために利用可能である。
【0071】
符号化されるデータが利用可能であるとき、または、適切なトレーニング・データのセットが存在するときに、変換の最適なセットを導出する技術が存在する。例えば、幾つかのシーケンスのトレーニング・セットが利用可能であり、これらの技術は、データの各部分について、各変換が最良となるように、データ空間を分割する変換のセットを提供する。そこで、所与のブロックについて、符号化器は、ブロックが属するデータのタイプを決定し、適切な変換を使用しなければならない。変換のセットを導出するこれらの技術は、共通のKLT、スパース性目的関数(sparsity objective function)、さらに/または、本技術分野および関連する技術分野の当業者によって公知であるか、容易に導き出される技術に基づくものにすることができる。このような技術が利用可能であることを想定した上で、効率的に変換のセットを使用する方法、即ち、最良の変換を選択する方法、さらに、符号化器から情報を復号器に効率的に伝達する方法について述べる。
【0072】
変換のセットの決定
次に、本願において、使用されている変換のセットを決定する方法について説明する。
【0073】
一つの実施形態においては、変換のセットは、トレーニング・データとしてシーケンスのセットを用いて、オフラインで導出される。上述したように、良好なトレーニング・セットが確定されると、KLTに基づく方法、スパース性に基づく方法、エネルギー圧縮、または、その他の方法を使用して変換のセットを導出することができる。
【0074】
変換のセットに対して、先験的な(priori)設計基準(方向性、周波数など)に基づいて変換を導出する方法が存在する。さらに、上述した第4の従来技術は、代数最適化処理を用いたトレーニング・データに基づくオフライン最適化を提案している。この処理は、所与のデータのために適した変換のセットを取得することを意図したコスト関数によって行われる。コスト関数は、圧縮の目的に沿った2つの条件からなる。このアルゴリズムは、再構成エラー条件を最小にしようとする一方で、変換係数表現のスパース性に関連する条件を最大にしようとするものである。原理上は、スパース性が高まることは、係数の情報を伝達するビットレートが低下することを意味する。本願では、さらに、上記従来技術の少なくとも2つの欠点を克服するアプローチを提案する。第一に、上記のコスト関数の両方の条件のバランスをとるために、重みを明示的に提供する。第二に、より重要なこととして、単一の2-Dの不可分の変換の代わりに、最適な垂直の変換および水平の変換を導出することを提案する。このアプローチは、これらの方向の双方の同時最適化を連結することを提案しており、これには、可分な変換のセットに必要な演算量およびメモリが不可分な変換のセットに必要な演算量とメモリよりも少なくなるという、実際のアプリケーションにおいて重要となる利点がある。これと同時に、垂直方向および水平方向における変換を異ならせることができるようにすることにより、両方の方向のために単一のカーネルを有する場合よりもイメージおよびビデオの各ブロックの豊かさをより良好にとらえることが可能となる。
【0075】
「変換のセット」という表現を用いる際、これらの変換の各々は、不可分である場合もあるし、可分である場合もある。これらの変換が可分である場合、各方向(垂直/水平)は、同じであることもあれば、異なることもある。
【0076】
別の実施の形態においては、変換の系列(family)のサブセットが選択され、この際、入力データを符号化するためにこのサブセットが良好な特性を有するようにする。例として、符号化するビデオ・データのためにWDCTのサブセットを決定することができる。さらに、重複変換のサブセットを決定することができる。サブセットが決まると、符号化器は、系列のサブセット内で何の変換が使用されるかの情報を伝達するだけでよい。
【0077】
別の実施の形態においては、再構成されたビデオの品質に従って、変換のサブセットが選択される。符号化器の量子化ステップ、量子化パラメータ(QP)、目標ビットレート、PSNR、および/または、所望な出力ビデオ品質を示す任意の尺度パラメータによって、出力の品質が決定される。
【0078】
別の実施の形態においては、変換のセットは、既に符号化されているデータからオンライン(online)で導出される。本実施の形態の2つの例示的な実施態様を、以下の通りに示す。1つの例示的な実施態様によれば、前のフレームの再構成されたデータは、利用可能な方法のいずれかにより変換のセットを導出するために、トレーニング・セットとして使用される。別の例示的な実施態様においては、再構成されたデータが使用されて、現在使用中の変換のリファインメントを行うことにより、現在のデータの統計と一致するように、変換がオンラインで更新されるようにする。
【0079】
別の実施の形態においては、符号化されることになるデータから変換のセットが導出される。符号化されることになるこのようなデータには、限定するものではないが、符号化する次のフレームから得られるオリジナルのフレームまたは統計値が挙げられる。従って、符号化器は、シーケンス、または、シーケンスの次の部分を分析し、利用可能な方法のいずれかを用いて使用する最良の変換のセットを決定するか、または、使用する最良の変換の系列を選択する。この場合、符号化器は、副情報として、使用しようとする変換のセットを送信する必要がある。本実施の形態の幾つかの例示的な実施態様を以下に示す。第1の例示的な実施態様においては、符号化器は、変換の最良のセットを見つけ、使用する全ての変換を送信する。第2の例示的な実施態様においては、使用する最良の変換のセットを見つけ、復号器は、前に復号されたデータから最良のセットを推定することを試行し、これにより、復号器によって推定された変換のリファインメントを符号化器が送信するだけでよいようにする(符号化器と復号器との間でエラーやミスマッチが生じないようにする)。第3の例示的な実施態様においては、符号化器は、(符号化器側と復号器側の双方で利用可能な)変換の様々なセットから、使用する最良のセットを選択し、この特定のセットを復号器に信号送信する。第4の実施態様においては、符号化器は、データに最も適している変換の系列から変換の特定のセットを見つける。次に、符号化器は、選択されている変換の系列の特定のサブセットを復号器に伝達する。
【0080】
選択された変換の伝達
次に、符号化器と復号器との間で一致が確保されるように、選択された変換を復号器に示す方法について説明する。
【0081】
一実施態様においては、符号化器は、スライス、マクロブロック、または、ブロック・レベルでのシンタックスに含まれるフラグを用いて選択された変換を復号器に送信することができる。一つの実施形態においては、符号化器側で、各ブロックについて、最良の変換がレート歪みコスト関数を用いて決定される。
【0082】
別の実施形態においては、選択された変換がフレーム内の複数の異なる領域のために、選択された変換を明示的かつフレキシブルに特定可能なように、四分木(クワッドツリー)または他のタイプのツリーを用いて選択された変換が伝達される。このように、変換の領域は、前の実施の形態の単純なブロック形状よりも、自由に決められるものである。
【0083】
別の実施形態においては、選択された変換は、変換係数自体の内部の(どの変換を使用することになるかを示す)フラグを隠すことによって、送信することができる。この代替的手段の、想定される実施形態について、以下に説明する。変換のセットにおいて、2つの変換のみが存在するものと仮定する。そこで、変換1が選択されると、符号化器は、変換係数の合計を偶数にする。変換2が選択されると、符号化器は、変換係数の合計を奇数にする。復号器側において、変換係数が復元され、これらの合計のパリティが算出される。パリティが偶数であれば、適用する逆変換は、変換1のものである。パリティが奇数であれば、適用される逆変換は、変換2のものである。このようにして、フラグは、変換係数の中に隠すことができ、復号器側で復元可能であるため、符号化器と復号器の双方が同期している。係数の中にフラグを隠すことは、2つの変換を有するように限定されないことは明らかである。このような技術は、簡単に、任意の数の変換に拡張することができる。
【0084】
別の実施の形態においては、選択された変換の明示的な情報が送信されない。この場合、そのような情報を既に復号されているデータから推定することができる。この情報は、符号化器と復号器の両方で利用可能でなければならず、データから選択された変換を抽出する方法は、符号化器と復号器の両方において、同じでなければならず、これらは同期している。様々な情報から変換を選択することができる。以下、この暗黙的な信号送信の5つの特定の実施の形態について述べる。もちろん、本願の原理は、暗黙的な信号送信に関する以下の実施の形態に限定されるものではなく、本明細書中に提供された本願の原理の開示内容に鑑み、本技術分野、さらに、関連する技術分野における当業者であれば、本願の原理を逸脱することなく、これらの実施態様およびその他の実施態様を企図することができるであろう。
【0085】
第1の実施の形態においては、変換を暗黙的に信号送信するためにインター予測モードが用いられる。この実施の形態の一実施態様においては、直接モードであれば、変換1が使用される。そうでない場合には、変換2が使用される。
【0086】
第2の実施の形態においては、動きベクトルを使用して変換を暗黙的に信号送信する。使用される変換は、ブロック(ブロックのサイズ、方向、参照ピクチャなど)の動きベクトルに依存させることができる。
【0087】
第3の実施の形態においては、変換は、前に符号化されたブロックの残差に依存する。そこで、前に符号化されたブロックの残差の統計値がセット内の何の変換が使用されるかを決定する。
【0088】
第4の実施の形態においては、変換の選択は、ブロックのために予測されたデータに依存する。残差と予測データの間には、最良の変換を選択する際に利用可能な、何らかの相関が存在する。例として、予測が方向の要素を有している場合には、この方向性は、通常、残差においても明白である。そこで、所与の方向に対する方向性の変換を使用することで、良好なパフォーマンスが生み出される。なぜならば、方向性の変換は、非方向性の変換とは異なり、残差の方向性の要素を利用できるからである。
【0089】
第5の実施の形態においては、変換の選択は、符号化器側と復号器側の双方で利用可能な、隣接する再構成済のブロックの変換選択に依存させることができる。
【0090】
システム
本願発明の原理は、2つの部分、即ち、変換のセットの選択の方法、さらに、各々の特定のブロックのセットの内で選択された変換を伝達する方法に関すると考えることができる。これらの2つの部分の各々のために、幾つかの代替手段が提案される。これらの提案されたアプローチは、各々の部分のために提案された代替手段のいずれかを組み合わせることができる。また、各変換は、特定の量子化処理、さらに、エントロピー符号化に先立って、各係数の異なる走査順を必要とする場合がある。さらに、各走査順は、各変換の統計値に対して適応したものである場合がある。一つの実施形態においては、各変換の走査順は、特定の係数の位置が以前に有意なものとして符号化された回数に適応させることができる。本願発明の原理は、以下の変換の拡張を考慮している。これらは、変換の量子化処理、変換の走査順、さらに、この走査順の潜在的な適応可能性である。
【0091】
図5を参照すると、ビデオ符号化器における変換選択のための例示的な方法が概ね参照符号500によって示されている。方法500は、制御を機能ブロック510に受け渡す開始ブロック505を含む。機能ブロック510は、符号化のためのビデオ・シーケンスを受信し、制御を機能ブロック515に受け渡す。機能ブロック515は、トレーニング・データ、各々が変換の各系列を表す1つ以上の変換のセット、既に符号化されているデータ、さらに、符号化されるべきデータのうちの1つ以上を決定し、制御を機能ブロック520に受け渡す。機能ブロック520は、トレーニング・データ、各々が変換の系列の各部分を表す1つ以上の変換のサブセット、既に符号化されているデータ、さらに、符号化されるべきデータのうちの1つ以上に依存して変換iを選択し、制御を機能ブロック525に受け渡す。機能ブロック525は、選択された変換iを使用して変換し、ビデオ・シーケンスのピクチャ内のブロックのブロック残差データを量子化し、制御を機能ブロック530に受け渡す。機能ブロック530は、量子化された係数を出力し、制御を終了ブロック599に受け渡す。
【0092】
トレーニング・データと1つ以上の変換のセットのうちの1つ以上は、オンラインで決定されてもよく(即ち、ビデオ・シーケンスの符号化の間に決定されてもよく)、オフラインで決定されてもよい(例えば、ビデオ・シーケンスの符号化の前に決定されてもよい)ことが理解できよう。
【0093】
図6を参照すると、ビデオ復号器における変換選択のための例示的な方法が概ね参照符号600によって示されている。方法600は、制御を機能ブロック610に受け渡す開始ブロック605を含む。機能ブロック610は、復号のためのビットストリームを受信し、ビットストリームの復号を開始し、制御を機能ブロック615に受け渡す。機能ブロック615は、トレーニング・データ、各々が変換の各系列を表す1つ以上の変換のセット、既に復号されているデータ、さらに、復号されることになるデータのうちの1つ以上を決定し、制御を機能ブロック620に受け渡す。機能ブロック620は、トレーニング・データ、各々が変換の系列の各部分を表す1つ以上の変換のサブセット、既に復号されているデータ、さらに、復号されることになるデータのうちの1つ以上に依存して変換iを選択し、制御を機能ブロック625に受け渡す。機能ブロック625は、選択された変換iを用いて、ビデオ・シーケンスのピクチャ内のブロックに対し、逆変換を行い、量子化された係数を逆量子化し、制御を機能ブロック630に受け渡す。機能ブロック630は、ブロック残差データを出力し、制御を終了ブロック699に受け渡す。
【0094】
トレーニング・データと1つ以上の変換のセットのうちの1つ以上は、オンラインで決定されてもよく(即ち、ビデオ・シーケンスの復号の間に決定されてもよく)、オフラインで決定されてもよい(例えば、ビデオ・シーケンスの復号の前に決定されてもよい)ことが理解できよう。
【0095】
図7を参照すると、ビデオ符号化器における変換の選択および伝達のための例示的な方法が概ね参照符号700によって示されている。方法700は、制御を機能ブロック710に受け渡す開始ブロック705を含む。機能ブロック710は、符号化のための入力フレームを受信し、制御を機能ブロック715に受け渡す。機能ブロック715は、1つ以上の変換のセットのトレーニングを行い、制御を機能ブロック765およびループ端ブロック720に受け渡す。機能ブロック765は、フレーム内で使用される変換のセットを出力し、制御を機能ブロック770に受け渡す。ループ端ブロック720は入力フレームに渡った各ブロックに対してループを実行し、制御を機能ブロック725に受け渡す。機能ブロック725は、ブロック残差を取得し、制御をループ端ブロック730に受け渡す。ループ端ブロック730は、1つ以上の変換のセットに対してループを実行し、制御を機能ブロック735に受け渡す。機能ブロック735は、1つ以上の変換のセットにおける各変換に関してレート歪み分析を実行し、制御をループ端ブロック740に受け渡す。ループ端ブロック740は、各変換に対するループを終了し、制御を機能ブロック745に受け渡す。機能ブロック745は、現在のブロックのために最良の変換を決定し、制御をループ端ブロック750に受け渡す。ループ端ブロック750は、各ブロック対するループを終了し、制御を機能ブロック755および機能ブロック760に受け渡す。機能ブロック755は、各ブロックについて、量子化された係数を出力し、制御を機能ブロック770に受け渡す。機能ブロック760は、各ブロックについて、選択された変換を出力し、制御を機能ブロック770に受け渡す。機能ブロック770は、量子化された係数、フレームにおいて使用されることになる変換のセット(または、セットに対するリファインメント)、さらに、フレーム内の各ブロックの選択された変換を送信する。この際、フレームにおいて使用されることになる変換のセット(または、セットに対するリファインメント)および/またはフレーム内の各ブロックの選択された変換は、明示的または暗黙的に送信される。そして、機能ブロック770は、制御を終了ブロック799に受け渡す。ブロック770に関し、フレームにおいて使用されることになる変換のセット(または、セットに対するリファインメント)および/またはフレーム内の各ブロックの選択された変換が暗黙的に送信される場合には、フレームにおいて使用されることになる変換のセット(または、セットに対するリファインメント)および/またはフレーム内の各ブロックの選択された変換を示す情報が実際の変換の代わりに送信されることがある点が理解できよう。このような場合、復号器は、暗黙的な情報から変換を導出することができる。さらに、フレームにおいて使用されることになる変換のセット(または、セットに対するリファインメント)、フレーム内の各ブロックの選択された変換、および/または、上述したもののうちの少なくとも1つを表す情報がビットストリームに関する副情報として送信されることがある。さらに、フレームにおいて使用されることになる変換のセット(または、セットに対するリファインメント)、フレーム内の各ブロックの選択された変換、および/または、上述したもののうちの少なくとも1つを表す情報は、1つ以上のフラグおよび/またはシンタックス要素を用いて送信されることがある。
【0096】
図8を参照すると、ビデオ復号器における変換の伝達および選択のための例示的な方法が概ね参照符号800によって示されている。方法800は、制御を機能ブロック810、機能ブロック815、および、機能ブロック820に受け渡す開始ブロック805を含む。機能ブロック810は、明示的または暗黙的に、復号しようとする現在のフレームのために使用されることになる変換のセット、または、セットに対するリファインメントを受信し、制御を機能ブロック830に受け渡す。機能ブロック815は、現在のフレーム内の各ブロックについて、量子化された係数を受信し、制御をループ端ブロック825に受け渡す。機能ブロック820は、明示的または暗黙的に、現在のフレーム内の各ブロックについて、選択された変換を受信し、制御を機能ブロック830に受け渡す。ループ端ブロック825は、現在のフレーム内の各ブロックに対してループを実行し、制御を機能ブロック830に受け渡す。機能ブロック830は、現在のブロックのための逆変換を決定し、制御を機能ブロック835に受け渡す。機能ブロック835は、ブロックのために決定された逆変換を適用し、制御をループ端ブロック840に受け渡す。ループ端ブロック840は、ループを終了し、制御を機能ブロック845に受け渡す。機能ブロック845は、各ブロックについて、ブロック残差を出力し、制御を終了ブロック899に受け渡す。
【0097】
機能ブロック810および820に関し、フレームにおいて使用されることになる変換のセット(または、セットに対するリファインメント)および/またはフレーム内の各ブロックの選択された変換が暗黙的に送信される場合には、フレームにおいて使用されるべき変換のセット(または、セットに対するリファインメント)および/またはフレーム内の各ブロックの選択された変換を示す情報が実際の変換の代わりに受信されることがある点が理解できよう。このような場合、復号器は、暗黙的な情報から(例えば、機能ブロック830によって)変換を導出することができる。さらに、フレームにおいて使用されることになる変換のセット(または、セットに対するリファインメント)、フレーム内の各ブロックの選択された変換、および/または、上述したもののうちの少なくとも1つを表す情報がビットストリームに関する副情報として受信されることがある。
【0098】
図9を参照すると、ビデオ符号化器における変換の選択および伝達のための別の例示的な方法が概ね参照符号900によって示されている。方法900は、制御を機能ブロック910に受け渡す開始ブロック905を含む。機能ブロック910は、符号化されるべきフレームを入力し、制御を機能ブロック915に受け渡す。機能ブロック915は、1つ以上の変換のセットのトレーニングを行い、制御を機能ブロック970およびループ端ブロック920に受け渡す。ループ端ブロック920は、フレーム内の各ブロックに対してループを実行し、制御を機能ブロック925に受け渡す。機能ブロック925は、現在のブロックのブロック残差を取得し、制御をループ端ブロック930に受け渡す。ループ端ブロック930は、1つ以上の変換のセットに対してループを実行し、制御を機能ブロック935に受け渡す。機能ブロック935は、現在のブロックの変換および係数の量子化を行い、制御を機能ブロック940に受け渡す。機能ブロック940は、各係数の中にフラグを埋め込み、制御を機能ブロック945に受け渡す。機能ブロック945は、レート歪み(RD:rate-distortion)分析を実行し、制御をループ端ブロック950に受け渡す。ループ端ブロック950は、各変換に対するループを終了し、制御を機能ブロック955に受け渡す。機能ブロック955は、現在のブロックのために最良の変換を決定し、制御を機能ブロック960に受け渡す。機能ブロック960は、各ブロックについて、量子化された係数を出力し、制御をループ端ブロック965に受け渡す。ループ端ブロック965は、各ブロックに対するループを終了し、制御を終了ブロック999に受け渡す。
【0099】
図10を参照すると、ビデオ復号器における変換の伝達および選択のための別の例示的な方法が概ね参照符号1000によって示されている。方法1000は、制御を機能ブロック1010およびループ端ブロック1015に受け渡す開始ブロック1005を含む。機能ブロック1010は、明示的または暗黙的に、復号しようとする現在のフレームのために使用されるべき変換のセットを受信し、制御を機能ブロック1030に受け渡す。ループ端ブロック1015は、現在のフレーム内の各ブロックに対するループを実行し、制御を機能ブロック1020に受け渡す。機能ブロック1020は、現在のフレーム内の各ブロックについて、量子化された係数を受信し、制御を機能ブロック1025に受け渡す。機能ブロック1025は、係数から埋め込まれたフラグを抽出し、制御を機能ブロック1030に受け渡す。機能ブロック1030は、埋め込まれたフラグに基づいて現在のブロックに適用する逆変換を決定し、制御を機能ブロック1035に受け渡す。機能ブロック1035は、決定された逆変換を使用してブロックを逆変換し、制御を機能ブロック1040に受け渡す。機能ブロック1040は、ブロック残差を出力し、制御をループ端ブロック1045に受け渡す。ループ端ブロック1045は、ループを終了し、制御を終了ブロック1099に受け渡す。
【0100】
本発明の多くの付随する利点/特徴の幾つかについて説明する。これらの幾つかは既に述べた通りのものである。例えば、1つの利点/特徴は、ピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に対して適用する変換を選択することによって行うビデオ符号化器を有する装置である。ブロックのための少なくとも1つのリファレンスを予測するために使用されるインター予測モードと、動きベクトルに対応する1つ以上の値と、1つ以上の既に符号化されているブロックの残差の値と、ブロックの予測データの値と、1つ以上の隣接する再構成されたブロックの1つ以上の変換選択と、ブロックの残差のための変換係数に対して適用される量子化ステップと、のうちの少なくとも1つに基づいて変換が選択される。
【0101】
さらに、別の利点/特徴は、上述した符号化器を有する装置であって、変換のセットがオフラインで決定される、この装置である。
【0102】
さらに、別の利点/特徴は、上述したような、変換のセットがオフラインで決定される符号化器を有する装置であって、変換のセットが、トレーニング・データの使用と、変換の系列のサブセットの選択と、のうちの少なくとも1つによって決定される、この装置である。
【0103】
さらに、別の利点/特徴は、上述した符号化器を有する装置であって、セットにおける各変換が、可分、または不可分であり、各変換が可分である場合に、各変換の水平方向および垂直方向を異ならせることができる、この装置である。
【0104】
さらに、別の利点/特徴は、ピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に対して適用する変換を選択することによって行うビデオ符号化器を有する装置である。このビデオ符号化器は、選択された変換を記述する情報を、1つ以上のフラグを使用して情報を明示的に送信することと、ビットストリーム内部のツリー構造を使用して情報を送信することと、選択された変換に対応する変換係数の内部に情報を埋め込むことと、対応する復号器が既に符号化されているデータから選択された変換を推定できるようにすることと、のうちの少なくとも1つによって送信する。
【0105】
さらに、別の利点/特徴は、上述した符号化器を有する装置であって、変換のセットは、トレーニング・データを使用することと変換系列のサブセットを選択することのうちの少なくとも一方によって決定される、この装置である。
【0106】
さらに、別の利点/特徴はビデオ・シーケンスにおけるピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に対して適用する変換を選択することによって行うビデオ符号化器を有する装置である。ビデオ・シーケンスにおける1つ以上の前のピクチャからの再構成されたデータを使用して、変換のセットの決定およびリファインメントのうちの少なくとも一方が行われる。
【0107】
さらに、別の利点/特徴は、ピクチャ内の少なくとも1つのブロックの符号化を、2つ以上の利用可能な変換のセットからブロックの残差に対して適用する変換を選択することによって行うビデオ符号化器を有する装置である。変換のセットは、ブロックのために符号化されるべきデータから決定される。
【0108】
さらに、別の利点/特徴は、上述した符号化器を有する装置であって、ビデオ符号化器は、変換のセットを決定し、変換のセットを副情報として対応する復号器に送信する、この装置である。
【0109】
さらに、別の利点/特徴は、上述した符号化器を有する装置であって、ビデオ符号化器は、変換のセットを決定し、ビデオ符号化器と同じ変換のセットを導出するために、リファインメントおよび既に復号されているデータから対応する復号器が変換のセットを予測できるようにする、変換のセットに対するリファインメントを決定し、リファインメントを対応する復号器に送信する、この装置である。
【0110】
さらに、別の利点/特徴は、上述した符号化器を有する装置であって、ビデオ符号化器は、複数の変換のセットから変換のセットを決定し、変換のセットを副情報として送信する、この装置である。
【0111】
さらに、別の利点/特徴は、上述した符号化器を有する装置であって、ビデオ符号化器は、変換の系列から、変換の系列のサブセットを表す変換のセットを決定し、ビデオ符号化器は、変換の系列のサブセットのみを送信する、この装置である。
【0112】
本願の原理のこれらの特徴およびその他の特徴は、関連する分野において通常の知識を有するものであれば、本明細書中の開示内容に基づいて、容易に解明することができるであろう。本願の原理の開示内容は、ハードウエア、ソフトウエア、ファームウエア、特定用途向けプロセッサ、または、これらを組み合わせたものの形態で実施することができることが理解できよう。
【0113】
より好ましくは、本願の原理の開示内容は、ハードウエアおよびソフトウエアを組み合わせて実施される。さらに、ソフトウエアは、プログラム・ストレージ・ユニットに上に現実的に実装されるアプリケーション・プログラムとして実施される。アプリケーション・プログラムは、適切なアーキテクチャからなるマシンにアップロードされ、このマシンによって実行されるようにしてもよい。好ましくは、このマシンは、1つ以上の中央処理装置(CPU)、ランダム・アクセス・メモリ(RAM)、入出力部(I/O)インタフェースを有するコンピュータ・プラットフォーム上で実施される。また、コンピュータ・プラットフォームは、オペレーティング・システムおよびマイクロインストラクション・コードを含むようにしてもよい。本明細書中で開示される様々な処理および機能は、マイクロインストラクション・コードの一部を構成するものでもよいし、アプリケーション・プログラムの一部を構成するものであってもよいし、これらを組み合わせたものであってもよいし、CPUによって実行されるものであってもよい。さらに、追加的なデータ記憶装置や印刷機等、コンピュータ・プラットフォームに様々な他の周辺機器を結合するようにしてもよい。
【0114】
添付図面に示すシステムの構成要素および方法のステップの幾つかは、好ましくは、ソフトウエアの形態によって実施されるため、システムの構成要素または処理機能ブロック間の実際の結合は、本願の原理をプログラムする方法によって異なる場合があることが理解できよう。本願明細書の開示する内容に基づいて、関連する技術における通常の技術知識を有するものであれば、本願発明の原理の実施の形態または構成、さらに、類似した実施の形態または構成を企図することができるであろう。
【0115】
添付図面を参照して本願明細書中で例示的な実施の形態について説明したが、本発明はこれらの実施の形態に厳格に限定されるものではなく、関連技術に関して通常の技術を有する者であれば、本願発明の原理の範囲または精神を逸脱することなく、様々な変更、改変を施すことが可能であることが理解できるであろう。このような変更、改変は、全て、添付の特許請求の範囲に定義されたような本願の原理の範囲に含まれるように意図されている。