特許第6953497号(P6953497)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社NTTドコモの特許一覧

特許6953497ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ
<>
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000050
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000051
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000052
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000053
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000054
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000055
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000056
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000057
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000058
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000059
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000060
  • 特許6953497-ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ 図000061
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6953497
(24)【登録日】2021年10月1日
(45)【発行日】2021年10月27日
(54)【発明の名称】ビデオ符号化方法、ビデオ復号方法、ビデオエンコーダ、及びビデオデコーダ
(51)【国際特許分類】
   H04N 19/593 20140101AFI20211018BHJP
   H04N 19/12 20140101ALI20211018BHJP
   H04N 19/159 20140101ALI20211018BHJP
   H04N 19/176 20140101ALI20211018BHJP
   H04N 19/61 20140101ALI20211018BHJP
【FI】
   H04N19/593
   H04N19/12
   H04N19/159
   H04N19/176
   H04N19/61
【請求項の数】12
【全頁数】28
(21)【出願番号】特願2019-200786(P2019-200786)
(22)【出願日】2019年11月5日
(62)【分割の表示】特願2018-163393(P2018-163393)の分割
【原出願日】2011年12月21日
(65)【公開番号】特開2020-18022(P2020-18022A)
(43)【公開日】2020年1月30日
【審査請求日】2019年11月5日
(31)【優先権主張番号】61/425,670
(32)【優先日】2010年12月21日
(33)【優先権主張国】US
(31)【優先権主張番号】61/449,528
(32)【優先日】2011年3月4日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】392026693
【氏名又は名称】株式会社NTTドコモ
(74)【代理人】
【識別番号】100088155
【弁理士】
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【弁理士】
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100121980
【弁理士】
【氏名又は名称】沖山 隆
(74)【代理人】
【識別番号】100128107
【弁理士】
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】ボッセン, フランク, ジャン
(72)【発明者】
【氏名】カヌムリ サンディープ
【審査官】 鉢呂 健
(56)【参考文献】
【文献】 特許第6615290(JP,B2)
【文献】 特開平05−095538(JP,A)
【文献】 米国特許出願公開第2009/0310677(US,A1)
【文献】 Sandeep Kanumuri et al.,Enhancements to Intra Coding, Joint Collaborative Team on Video Coding (JCT-VC),2011年01月22日,[JCTVC-D235] (version 3)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00−19/98
(57)【特許請求の範囲】
【請求項1】
平面モードの下で対象ブロック内のピクセル値を予測するためのビデオ符号化方法であり、ビデオエンコーダのプロセッサによって実行されるコンピュータ実行可能な複数のステップを含むビデオ符号化方法であって、
前記対象ブロックの外側かつ上側にある水平境界ピクセルそれぞれのピクセル値と、前記対象ブロックの外側かつ左側にある垂直境界ピクセルのうちの1つのピクセルであって前記対象ブロックに隣接する前記垂直境界ピクセルのうち最も下にあるピクセルのピクセル値との間の線形補間を用いて第1の予測値を計算するステップと、
前記垂直境界ピクセルそれぞれのピクセル値と、前記水平境界ピクセルのうちの1つのピクセルであって前記対象ブロックに隣接する前記水平境界ピクセルのうち最も右にあるピクセルのピクセル値との間の線形補間を用いて第2の予測値を計算するステップと、
前記第1の予測値と前記第2の予測値とを平均して、予測ブロック内の予測ピクセル値の各々を導出するステップと、
を含み、
前記対象ブロック内の右下のピクセルの予測値はシグナリングされない、ビデオ符号化方法。
【請求項2】
前記予測ブロックと前記対象ブロックとの間の残差をシグナリングするステップ、
をさらに含む請求項1に記載のビデオ符号化方法。
【請求項3】
前記平面モード以外の予測モードの下で生成された残差を変換するときに変換カーネルの主セットH(i,j)が使用され、前記平面モードの下で生成された残差を変換するときに変換カーネルの副セットG(i,j)が使用されるように、変換カーネルの前記主セットH(i,j)から変換カーネルの前記副セットG(i,j)に切り替えるステップと、
変換カーネルの前記副セットG(i,j)を用いて、前記平面モードの下で生成された前記残差を変換するステップと、
をさらに含む請求項2に記載のビデオ符号化方法。
【請求項4】
サイズN×Nの変換カーネルの前記副セットG(i,j)が、サイズM×Mの変換カーネルの主セットH(i,j)によって定義され、ここで、M>Nである請求項3に記載のビデオ符号化方法。
【請求項5】
平面モードの下で対象ブロック内のピクセル値を予測するためのビデオ復号方法であり、ビデオデコーダのプロセッサによって実行されるコンピュータ実行可能な複数のステップを含むビデオ復号方法であって、
前記対象ブロックの外側かつ上側にある水平境界ピクセルそれぞれのピクセル値と、前記対象ブロックの外側かつ左側にある垂直境界ピクセルのうちの1つのピクセルであって前記対象ブロックに隣接する前記垂直境界ピクセルのうち最も下にあるピクセルのピクセル値との間の線形補間を用いて第1の予測値を計算するステップと、
前記垂直境界ピクセルそれぞれのピクセル値と、前記水平境界ピクセルのうちの1つのピクセルであって前記対象ブロックに隣接する前記水平境界ピクセルのうち最も右にあるピクセルのピクセル値との間の線形補間を用いて第2の予測値を計算するステップと、
前記第1の予測値と前記第2の予測値とを平均して、予測ブロック内の予測ピクセル値の各々を導出するステップと、
を含み、
前記対象ブロック内の右下のピクセルの予測値は、前記垂直境界ピクセル及び前記水平境界ピクセルのみから導出され
エンコーダからの前記対象ブロック内の前記右下のピクセルの前記予測値はシグナリングされない、ビデオ復号方法。
【請求項6】
エンコーダにおいて前記平面モードの下で生成された、エンコーダからシグナリングされた残差を復号するステップと、
復号された前記残差を前記予測ブロックに加算して画像データを再構築するステップと、
をさらに含む請求項5に記載のビデオ復号方法。
【請求項7】
平面モードの下で対象ブロック内のピクセル値を予測するビデオエンコーダであって、
コンピュータシステムのプロセッサと、
前記プロセッサによって実行可能なプログラムを記憶するメモリと、
を備え、
前記プロセッサは、
前記対象ブロックの外側かつ上側にある水平境界ピクセルそれぞれのピクセル値と、前記対象ブロックの外側かつ左側にある垂直境界ピクセルのうちの1つのピクセルであって前記対象ブロックに隣接する前記垂直境界ピクセルのうち最も下にあるピクセルのピクセル値との間の線形補間を用いて第1の予測値を計算し、
前記垂直境界ピクセルそれぞれのピクセル値と、前記水平境界ピクセルのうちの1つのピクセルであって前記対象ブロックに隣接する前記水平境界ピクセルのうち最も右にあるピクセルのピクセル値との間の線形補間を用いて第2の予測値を計算し、
前記第1の予測値と前記第2の予測値とを平均して、予測ブロック内の予測ピクセル値の各々を導出し、
前記対象ブロック内の右下のピクセルの予測値はシグナリングされない、
ビデオエンコーダ。
【請求項8】
前記プロセッサは、前記予測ブロックと前記対象ブロックとの間の残差をシグナリングする、請求項に記載のビデオエンコーダ。
【請求項9】
前記プロセッサは、
前記平面モード以外の予測モードの下で生成された残差を変換するときに変換カーネルの主セットH(i,j)が使用され、前記平面モードの下で生成された残差を変換するときに変換カーネルの副セットG(i,j)が使用されるように、変換カーネルの前記主セットH(i,j)から変換カーネルの前記副セットG(i,j)に切り替え、
変換カーネルの前記副セットG(i,j)を用いて、前記平面モードの下で生成された前記残差を変換する、
請求項に記載のビデオエンコーダ。
【請求項10】
サイズN×Nの変換カーネルの前記副セットG(i,j)が、サイズM×Mの変換カーネルの主セットH(i,j)によって定義され、ここで、M>Nである請求項に記載のビデオエンコーダ。
【請求項11】
平面モードの下で対象ブロック内のピクセル値を予測するビデオデコーダであって、
コンピュータシステムのプロセッサと、
前記プロセッサによって実行可能なプログラムを記憶するメモリと、
を備え、
前記プロセッサは、
前記対象ブロックの外側かつ上側にある水平境界ピクセルそれぞれのピクセル値と、前記対象ブロックの外側かつ左側にある垂直境界ピクセルのうちの1つのピクセルであって前記対象ブロックに隣接する前記垂直境界ピクセルのうち最も下にあるピクセルのピクセル値との間の線形補間を用いて第1の予測値を計算し、
前記垂直境界ピクセルそれぞれのピクセル値と、前記水平境界ピクセルのうちの1つのピクセルであって前記対象ブロックに隣接する前記水平境界ピクセルのうち最も右にあるピクセルのピクセル値との間の線形補間を用いて第2の予測値を計算し、
前記第1の予測値と前記第2の予測値とを平均して、予測ブロック内の予測ピクセル値の各々を導出し、
前記対象ブロック内の右下のピクセルの予測値は、前記垂直境界ピクセル及び前記水平境界ピクセルのみから導出され
エンコーダからの前記対象ブロック内の前記右下のピクセルの前記予測値はシグナリングされない
ビデオデコーダ。
【請求項12】
前記プロセッサは、
エンコーダからシグナリングされた残差を復号し、
復号された前記残差を前記予測ブロックに加算する、
請求項11に記載のビデオデコーダ。
【発明の詳細な説明】
【技術分野】
【0001】
[0002]本発明は、ビデオ符号化に関し、特に、低複雑性平面予測モード符号化(low complexity planar prediction mode coding)によって拡張されたフレーム内予測に関する。
【0002】
[関連出願]
[0001]本特許明細書は、2010年12月21日に出願された米国特許仮出願第61/425,670号及び2011年3月4日に出願された米国特許仮出願第61/449,528号の、合衆国法典第35編(米国特許法)第119条(e)項の下での出願日の利益を主張するものであり、これらの仮出願の内容全体は、参照により本明細書に援用される。
【背景技術】
【0003】
[0003]デジタルビデオは、非圧縮式にデジタルビデオシーケンス(例えば、一連のフレーム)の1つ1つのフレームを表すために大量のデータを必要とする。帯域幅の制限のために、非圧縮デジタルビデオをコンピュータネットワークを介して送信することはほとんどの応用で実現不可能である。さらに、非圧縮デジタルビデオは、大量の記憶スペースを必要とする。デジタルビデオは、必要なストレージを減らし、必要な帯域幅を減らすために、通常、何らかの方法で符号化される。
【0004】
[0004]デジタルビデオを符号化するための1つの技術は、フレーム間予測、即ちインター予測(inter−prediction)である。インター予測は、異なるフレームの間の時間的な冗長性を利用する。ビデオの時間的に隣接するフレームは、一般的に、ほとんど同じままであるピクセルのブロックを含む。符号化プロセス中、動きベクトルが、あるフレームのピクセルのブロックの別のフレームの同様のピクセルのブロックへの動きを相互に関連付ける。したがって、システムは、そのピクセルのブロックを2回符号化することを求められず、むしろ、そのピクセルのブロックを1回符号化し、他方のピクセルのブロックを予測するために動きベクトルを提供する。
【0005】
[0005]デジタルビデオを符号化するための別の技術は、フレーム内予測、即ちイントラ予測(intra−prediction)である。イントラ予測は、その他のフレームのピクセルを参照することなくフレーム又はそのフレームの一部を符号化する。イントラ予測は、フレーム内のピクセルのブロックの間の空間的な冗長性を利用する。空間的に隣接するピクセルのブロックは一般的に同様の属性を有するので、隣接するブロックの間の空間的な相関を参照することによって符号化プロセスの効率が改善される。この相関は、隣接するブロックで使用される予測モード(prediction mode)に基づいて対象ブロックの予測によって利用され得る。
【0006】
[0006]一般的に、エンコーダはピクセル予測器(pixel predictor)を備え、ピクセル予測器はインター予測器(inter−predictor)、イントラ予測器(intra−predictor)、及びモードセレクタを備える。インター予測器は、動き補償された参照フレームに基づいて、受信された画像に関する予測を実行する。イントラ予測器は、現在のフレーム又はピクチャの既に処理された部分に基づいて、受信された画像に関する予測を実行する。イントラ予測器は、複数の異なるイントラ予測モードをさらに備え、それぞれの予測モードの下で予測を実行する。インター予測器及びイントラ予測器からの出力は、モードセレクタに供給される。
【0007】
[0007]モードセレクタは、インター予測符号化か、又はイントラ予測符号化か、どちらの符号化方法が使用されるべきかを判定し、イントラ予測符号化が使用されるべきであるときは、複数のイントラ予測モードの中でイントラ予測符号化のどのモードが使用されるべきかを判定する。判定プロセスにおいて、モードセレクタは、コスト関数を使用して、どの符号化方法又はどのモードが符号化の効率及び処理のコストに関して最も効率のよい結果をもたらすかを分析する。
【0008】
[0008]イントラ予測モードは、DCモード及び方向モード(directional mode)を含む。DCモードは、ピクセル値がブロック中で一定であるブロックを適切に表す。方向モードは、特定の方向の縞模様を有するブロックを表すのに適している。画像が平滑で、その画像のピクセル値がブロック内で徐々に変化する別の画像パターンが存在する。DCモード及び方向モードは、画像コンテンツ内の小さく緩やかな変化を予測するのには向いておらず、特に低〜中ビットレートにおいてやっかいなブロッキングアーティファクト(blocking artifact)をもたらす可能性がある。これは、緩やかに変化するピクセル値を有するブロックが符号化されるときに、ブロックのAC係数が0に量子化される傾向がある一方、DC係数が非ゼロの値を有するからである。
【0009】
[0009]この問題に対処するために、H.264/AVC規格の下でのイントラ予測モードは、小さな平面の傾きでピクセル値が徐々に変化する平滑な画像を有するブロックを表すための平面モード(planar mode)をさらに含む。H.264/AVC規格の平面モードの下では、平面の傾きが推定され、デコーダにビットストリームでシグナリングされる。
【発明の概要】
【0010】
[0010]本発明は、イントラ予測符号化の符号化効率を改善することができる低複雑性平面モード符号化を提供する。本発明においては、平面予測モードの下で、エンコーダが、第1の予測値及び第2の予測値を計算する。第1の予測値は、水平境界ピクセルそれぞれの値と垂直境界ピクセルのうちの1つの値との間の線形補間を用いて計算される。第2の予測値は、垂直境界ピクセルそれぞれの値と水平境界ピクセルのうちの1つの値との間の線形補間を用いて計算される。エンコーダは、さらに、第1の予測値と第2の予測値とを平均して、予測ブロック内の予測ピクセル値それぞれを導出する。
【0011】
[0011]本発明の一態様において、エンコーダは、予測ブロックと対象ブロックの間の残差をビットストリームでデコーダにシグナリングする。
【0012】
[0012]本発明の別の態様においては、変換カーネルの主セットH(i,j)が、変換カーネルの副セットG(i,j)に切り替えられる。エンコーダは、変換カーネルの副セットG(i,j)を用いて残差を変換する。
【0013】
[0013]変換カーネルの副セットG(i,j)は、以下の式、すなわち、
【数1】

と、
【数2】

と、
【数3】

のうちの1つによって定義され得る。
【0014】
[0014]本発明の別の態様においては、サイズN×Nの変換カーネルの副セットG(i,j)が、サイズM×Mの変換カーネルの主セットH(i,j)によって定義され、ここで、M>Nである。特に、変換カーネルの副セットG(i,j)は、
サイズ2N×2Nの変換カーネル(H2N)がサポートされる場合、
(i,j)=k×H2N(2i,N+1−j)
によって定義され、
サイズ2N×2Nの変換カーネル(H2N)がサポートされない場合、
(i,j)=H(i,j)
によって定義されてもよい。
【0015】
[0015]本発明は、復号に使用される低複雑性平面モード符号化も提供する。平面モードの下で、デコーダは、第1の予測値及び第2の予測値を計算する。第1の予測値は、水平境界ピクセルそれぞれの値と垂直境界ピクセルのうちの1つの値との間の線形補間を用いて計算される。第2の予測値は、垂直境界ピクセルそれぞれの値と水平境界ピクセルのうちの1つの値との間の線形補間を用いて計算される。次に、デコーダは、第1の予測値と第2の予測値とを平均して、予測ブロック内の予測ピクセル値それぞれを導出することを実行する。デコーダは、エンコーダにおいて平面モードの下で生成された、エンコーダからシグナリングされた残差を復号し、復号された残差を予測ブロックに加算して画像データを再構築する。
【図面の簡単な説明】
【0016】
図1】本発明が実装され得る例示的なハードウェアアーキテクチャを示すブロック図である。
図2】本発明が適用され得るビデオエンコーダの全体像を示すブロック図である。
図3】本発明が適用され得るビデオデコーダの全体像を示すブロック図である。
図4】本発明の一実施形態によるエンコーダの機能モジュールを示すブロック図である。
図5】本発明の一実施形態によるビデオエンコーダによって実行される符号化プロセスを示す流れ図である。
図6】本発明の一実施形態によるデコーダの機能モジュールを示すブロック図である。
図7】本発明の一実施形態によるビデオデコーダによって実行される復号プロセスを示す図である。
図8】8×8ピクセルP(i,j)と該ピクセルP(i,j)を予測するために使用される参照ピクセルとを含む対象ブロックの概略図である。
図9】JCT−VC A119で提案された平面モード符号化による予測ピクセルを生成するプロセスを示す概略図である。
図10】本発明の平面モード符号化による予測ピクセルを生成するプロセスを示す概略図である。
図11】本発明の平面モード符号化による予測ピクセルを生成するプロセスを示す別の概略図である。
図12】変換カーネルの主セットと変換カーネルの副セットとの間を切り替えるプロセスを示す流れ図である。
【発明を実施するための形態】
【0017】
[0028]図1は、本発明が実装され得るコンピュータ100の例示的なハードウェアアーキテクチャを示す。図1に示されるハードウェアアーキテクチャは、本発明の実施形態を実装するビデオエンコーダとビデオデコーダの両方に共通であってもよいことに留意されたい。コンピュータ100は、プロセッサ101と、メモリ102と、ストレージデバイス105と、1つ又は複数の入出力(I/O)デバイス106を含み、これらはローカルインターフェース107経由で互いに通信可能に接続されている。ローカルインターフェース107は、当該技術分野で知られているように、例えば、1つ若しくは複数のバス、又は、その他の有線接続若しくは無線接続であってもよいが、これらに限定されない。
【0018】
[0029]プロセッサ101は、ソフトウェア、特に、メモリ102に記憶されたソフトウェアを実行するためのハードウェアデバイスである。プロセッサ101は、任意の特別製の若しくは市販のプロセッサ、中央演算処理装置(CPU)、コンピュータ100に関連するいくつかのプロセッサの中の補助プロセッサ、(マイクロチップ若しくはチップセットの形態の)半導体に基づくマイクロプロセッサ、又はソフトウェア命令を実行するための一般的な任意のデバイスであってもよい。
【0019】
[0030]メモリ102は、揮発性メモリ要素(例えば、ランダムアクセスメモリ(DRAM、SRAM、SDRAMなどのRAM))及び不揮発性メモリ要素(例えば、ROM、ハードドライブ、テープ、CDROMなど)のうちのいずれか1つ又はそれらの組み合わせを含み得るコンピュータ可読媒体を含む。さらに、メモリ102は、電子的、磁気的、光学的、及び/又はその他の種類のストレージ媒体を組み込んでもよい。コンピュータ可読媒体は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを記憶するか、伝達するか、伝搬するか、又は転送することができる任意の手段であってもよい。メモリ102は、さまざまな構成要素が互いに離れて置かれるが、プロセッサ101によってアクセスされ得る分散型アーキテクチャを有してもよいことに留意されたい。
【0020】
[0031]メモリ102内のソフトウェア103は、1つ又は複数の別々のプログラムを含んでもよく、それらのプログラムのそれぞれは、以下で説明されるようにコンピュータ100の論理的機能を実装するための実行可能命令の順序付けられたリストを含む。図1の例において、メモリ102内のソフトウェア103は、本発明によるコンピュータ100のビデオ符号化又はビデオ復号機能を定義する。加えて、必須ではないが、メモリ102がオペレーティングシステム(O/S)104を含むことも可能である。オペレーティングシステム104は、基本的に、コンピュータプログラムの実行を制御し、スケジューリング、入出力の制御、ファイル及びデータの管理、メモリの管理、並びに通信の制御及び関連するサービスを提供する。
【0021】
[0032]コンピュータ100のストレージデバイス105は、固定式のストレージデバイス又は可搬型のストレージデバイスを含む多くの異なる種類のストレージデバイスのうちの1つであってもよい。例として、ストレージデバイス105は、磁気テープ、ディスク、フラッシュメモリ、揮発性メモリ、又は異なるストレージデバイスであってもよい。加えて、ストレージデバイス105は、セキュアデジタルメモリカード又は任意のその他の取り外し可能なストレージデバイス105であってもよい。
【0022】
[0033]I/Oデバイス106は、入力デバイス、例えば、タッチスクリーン、キーボード、マウス、スキャナ、マイクロホン、又はその他の入力デバイスを含み得るがこれらに限定されない。さらに、I/Oデバイス106は、出力デバイス、例えば、ディスプレイ又はその他の出力デバイスも含み得るがこれらに限定されない。I/Oデバイス106は、入力と出力の両方によって通信するデバイス、例えば、変調器/復調器(例えば、別のデバイス、システム、若しくはネットワークにアクセスするためのモデム)、無線周波数(RF)、無線若しくはその他のトランシーバ、電話インターフェース、ブリッジ、ルータ、又は入力と出力の両方として機能するその他のデバイスをさらに含み得るがこれらに限定されない。
【0023】
[0034]当業者によってよく知られているように、ビデオ圧縮は、ビデオシーケンス内の冗長な情報を削除することによって実現される。多くの異なるビデオ符号化規格が存在し、それらのビデオ符号化規格の例には、MPEG−1、MPEG−2、MPEG−4、H.261、H.263、及びH.264/AVCが含まれる。本発明は、どの特定のビデオ符号化規格の応用にも限定されるように意図されていないことに留意されたい。しかし、本発明の以下の説明は、参照により本明細書に援用されるH.264/AVC規格の例を用いて与えられる。H.264/AVCは、最も新しいビデオ符号化規格であり、MPEG−1、MPEG−2、H.261、及びH.263などの従来の符号化規格と比べて著しい性能の改善を実現する。
【0024】
[0035]H.264/AVCにおいては、ビデオの各フレーム又は各ピクチャは、いくつかのスライスに分解可能とされている。それから、スライスは、マクロブロックと呼ばれる16×16ピクセルのブロックに分割され、そして、マクロブロックは、8×16、16×8、8×8、4×8、8×4から4×4ピクセルまでのブロックにさらに分割され得る。H.264/AVCによってサポートされる5種類のスライスが存在する。Iスライスにおいては、すべてのマクロブロックが、イントラ予測を用いて符号化される。Pスライスでは、マクロブロックは、イントラ又はインター予測を用いて符号化可能とされている。Pスライスは、マクロブロックごとに1つの動き補償予測(motion compensated prediction)(MCP)信号のみが使用されることを可能にする。Bスライスでは、マクロブロックは、イントラ又はインター予測を用いて符号化可能とされている。予測ごとに2つのMCP信号が使用され得る。SPスライスは、Pスライスが異なるビデオストリームの間で効率的に切り替えられることを可能にする。SIスライスは、ランダムアクセス又は誤り回復のためのSPスライスに完全に一致するが、ただし、イントラ予測のみを使用する。
【0025】
[0036]図2は、本発明が適用され得るビデオエンコーダの全体像を示す。図2に示されるブロックは、メモリ102内のソフトウェア103を実行するプロセッサ101によって実現される機能モジュールを表す。ビデオフレームのピクチャ200が、ビデオエンコーダ201に与えられる。ビデオエンコーダは、マクロブロック200A単位でピクチャ200を処理する。各マクロブロックは、ピクチャ200のいくつかのピクセルを含む。各マクロブロックで、変換係数への変換が実行され、その後に変換係数レベル(transform coefficient level)への量子化が続く。さらに、符号化ステップをピクセルデータに対して直接実行するのではなく、そのピクセルデータの予測されたピクセル値に対する差に対して実行し、それによってより容易に圧縮される小さな値を得るようにイントラ予測又はインター予測が使用される。
【0026】
[0037]各スライスに関して、エンコーダ201は、それぞれのスライスのマクロブロックの符号化されたバージョンを形成するいくつかのシンタックス要素(syntax element)を生成する。変換係数レベル、又は飛ばされる変換係数レベルを示す有意性マップ(significance map)などの、変換係数の符号化に関連するシンタックス要素のうちのすべての残差データ要素は、残差データシンタックス要素(residual data syntax element)と呼ばれる。これらの残差データシンタックス要素に加えて、エンコーダ201によって生成されるシンタックス要素はそれぞれ、各マクロブロックがどのように符号化されたか、及び各マクロブロックがどのように復号されなければならないかに関する制御情報を含む制御情報シンタックス要素(control information syntax element)を含む。換言すると、シンタックス要素は、2つのカテゴリーに分けることができる。第1のカテゴリーでは、制御情報シンタックス要素は、例えば、マクロブロックの種類と、サブマクロブロックの種類と、空間的な種類と時間的な種類の両方の予測モードに関する情報と、スライスに基づく及びマクロブロックに基づく制御情報とに関連する要素を含む。第2のカテゴリーでは、量子化された変換係数のブロック内のすべての有意な係数の位置を示す有意性マップ、及び量子化ステップに対応するレベルの単位で示される有意な係数の値などのすべての残差データ要素が組み合わされ、残差データシンタックス要素となる。
【0027】
[0038]エンコーダ201は、シンタックス要素を符号化し、各スライスに関する算術的な符号語を生成するエントロピーコーダを備える。スライスに関する算術的な符号語を生成するとき、エントロピーコーダは、ビデオ信号のビットストリームのシンタックス要素のデータ値の間の統計的な依存関係を利用する。エンコーダ201は、ピクチャ200のスライスに関する符号化されたビデオ信号を図3に示されるビデオデコーダ301に出力する。
【0028】
[0039]図3は、本発明が適用され得るビデオデコーダの全体像を示す。同様に、図3に示されるブロックは、メモリ102内のソフトウェア103を実行するプロセッサ101によって実現される機能モジュールを表す。ビデオデコーダ301は、符号化されたビデオ信号を受信し、初めに、その信号をエントロピー復号してシンタックス要素に戻す。デコーダ301は、ピクチャ300内のピクセルのピクチャサンプル300Aをマクロブロックごとに、次いでスライスごとに再構築するためにシンタックス要素を使用する。
【0029】
[0040]図4は、ビデオエンコーダ201の機能モジュールを示す。これらの機能モジュールは、メモリ102内のソフトウェア103を実行するプロセッサ101によって実現される。入力ビデオピクチャは、色差(「クロマ」)及び輝度(「ルマ(luma)」)(その他の成分、例えば、色相、彩度、及び明度があり得る)などの、元の色の成分を表すサンプル点によって定義される未加工の(非圧縮の)ビデオ画像のフレーム又はフィールドである。入力ビデオピクチャは、それぞれがピクチャの色のルマ成分の16×16ピクセルから成る正方形ピクチャ領域を表すマクロブロック400に分割される。入力ビデオピクチャは、それぞれがピクチャの色の2つのクロマ成分のそれぞれの8×8ピクセルを表すマクロブロックにも分けられる。通常のエンコーダの動作において、入力されるマクロブロックは、インター又はイントラ予測を用いて時間的又は空間的に予測され得る。しかし、考察を目的として、マクロブロック400はすべてIスライス型のマクロブロックであり、イントラ予測のみを施されると仮定される。
【0030】
[0041]イントラ予測は、イントラ予測モジュール401によってなされ、イントラ予測モジュール401の動作は、以下で詳細に検討される。イントラ予測モジュール401は、既に符号化され、再構築され、フレームメモリ403に記憶された隣接するブロックの水平及び垂直の境界ピクセルから予測ブロック402を生成する。対象ブロック400と予測ブロック402との間の差である予測ブロック402の残差404が、変換モジュール405によって変換され、次いで、量子化器406によって量子化される。変換モジュール405は、残差404を変換係数のブロックに変換する。量子化器406は、変換係数を量子化された変換係数407に量子化する。それから、量子化された変換係数407が、エントロピー符号化モジュール408によってエントロピー符号化され、符号化されたビデオ信号409として(選択されたイントラ予測モードに関連するその他の情報と一緒に)送信される。
【0031】
[0042]ビデオエンコーダ201は、対象ブロックに対するイントラ予測を実行するための復号機能を含む。復号機能は逆量子化器410及び逆変換モジュール411を含み、逆量子化器410及び逆変換モジュール411は、量子化された変換係数407に対する逆量子化及び逆変換を実行して復号された予測残差412を生成し、この予測残差412が予測ブロック402に加算される。復号された予測残差410と予測ブロック402との合計が再構築されたブロック413であり、再構築されたブロック413はフレームメモリ403に記憶される。再構築されたブロック413は、フレームメモリ403から読み出され、次の対象ブロック400の復号のための予測ブロック402を生成するために、イントラ予測モジュール401によって使用される。デブロッキングフィルタ(deblocking filter)が、再構築された画像からブロッキングアーティファクトを除去するためにフレームメモリ403の入力又は出力のどちらかに任意で配置されてもよい。
【0032】
[0043]図5は、ビデオエンコーダ201によって実行されるプロセスを示す流れ図である。H.264/AVC規格によれば、イントラ予測は、既に符号化され、再構築された隣接するブロックの境界ピクセル(「参照ピクセル」)の補間処理により、複数の予測モードの下で対象ブロック400の各ピクセルを予測することを含む。予測モードは、それぞれが対象ブロック400の特定のピクセルを予測するための異なる命令又はアルゴリズムに関連付けられた正の整数0、1、2...によって識別される。イントラ予測モジュール401は、それぞれの予測モードの下でイントラ予測を実行し、異なる予測ブロックを生成する。全探索(「FS」)アルゴリズムの下では、予測モードの中で予測残差404を最小化するか又はより少ない予測残差404をもたらす最適な予測モードを見つけるために、生成された予測ブロックそれぞれが対象ブロック400と比較される(ステップ501)。最適な予測モードの識別情報が圧縮され(ステップ502)、その他の制御情報シンタックス要素とともにデコーダ301にシグナリングされる。
【0033】
[0044]各予測モードは、口頭で説明されるように予測の全体的な方向によって説明され得る(すなわち、水平方向上、垂直方向及び斜め方向左下)。予測方向は、図式的には角度方向によって説明され得る。予測モードに対応する角度は、目標ピクセルを予測するために使用される参照ピクセルの加重平均位置(weighted average location)から目標ピクセル位置への方向に全体的に関連する。DC予測モードにおいては、予測ブロック402は、予測ブロック402の各ピクセルが一様に参照ピクセルの平均値に設定されるように生成される。
【0034】
[0045]再び図5に目を向けると、イントラ予測モジュール401が、予測ブロック402を取得し、その予測ブロック402が、残差404を得るために対象ブロック400から引かれる(ステップ503)。変換モジュール405が、残差404を変換係数のブロックに変換する(ステップ504)。量子化器406が、変換係数を量子化された変換係数に量子化する。エントロピー符号化モード408が、最適な予測モードの圧縮された識別子と一緒に送信される量子化された変換係数をエントロピー符号化する(ステップ506)。逆量子化器410が、量子化された変換係数を逆量子化する(ステップ507)。逆変換モジュール411が、逆変換を実行して復号された予測残差412を導出し(ステップ508)、その復号された予測残差412が予測ブロック402に加算されて再構築されたブロック413となる(ステップ509)。
【0035】
[0046]図6は、ビデオデコーダ301の機能モジュールを示す。これらの機能モジュールは、メモリ102内のソフトウェア103を実行するプロセッサ101によって実現される。エンコーダ201からの符号化されたビデオ信号が、最初にエントロピーデコーダ600によって受信され、エントロピー復号されて量子化された変換係数601に戻る。量子化された変換係数601は、予測残差604を生成するために逆量子化器602によって逆量子化され、逆変換モジュール603によって逆変換される。イントラ予測モジュール605は、エンコーダ201によって選択された予測モードを知らされる。選択された予測モードに応じて、イントラ予測モジュール605は、既に再構築され、フレームメモリ607に記憶された隣接するブロックの境界ピクセルを用いて、図5のステップ503で実行されるイントラ予測プロセスと同様のイントラ予測プロセスを実行して予測ブロック606を生成する。予測ブロック606は、復号されたビデオ信号のブロック608を再構築するために、予測残差604に加算される。再構築されたブロック608は、次のブロックの予測で使用するためにフレームメモリ607に記憶される。
【0036】
[0047]図7は、ビデオデコーダ301によって実行されるプロセスを示す流れ図である。ビデオデコーダ301が、ビデオエンコーダ201からシグナリングされた最適な予測モードの識別情報を復号する(ステップ701)。復号された予測モードを使用して、イントラ予測モジュール605が、既に再構築され、フレームメモリ607に記憶された隣接するブロックの境界ピクセルを用いて、予測ブロック606を生成する(ステップ702)。エントロピーデコーダ600が、エンコーダ201からの符号化されたビデオ信号を復号して量子化された変換係数601に戻す(ステップ703)。逆量子化器602が、量子化された変換係数を変換係数に逆量子化する(ステップ704)。逆変換モジュール603が、変換係数を予測残差604に逆変換し(ステップ705)、その予測残差604が、復号されたビデオ信号のブロック608を再構築するために、予測ブロック606に加算される(ステップ706)。
【0037】
[0048]ビデオエンコーダ201によって実行される符号化プロセスが、図8を参照してさらに説明され得る。図8は、8×8ピクセルP(i,j)を含む対象ブロックと、ピクセルP(i,j)を予測するために使用される参照ピクセルとの概略図である。図8において、参照ピクセルは、17個の水平ピクセル及び17個の垂直ピクセルから成り、左上のピクセルは、水平の境界と垂直の境界に共通である。したがって、32個の異なるピクセルが、対象ブロックに関する予測ピクセルを生成するために利用可能である。図8は8×8のブロックが予測されることを示すが、以下の説明は、異なる構成のさまざまな数のピクセルに適用可能になるように一般化されることに留意されたい。例えば、予測されるべきブロックは、ピクセルの4×4の配列を含み得る。予測ブロックは、ピクセルの8×8の配列、ピクセルの16×16の配列、又はピクセルのさらに大きな配列も含み得る。正方配列と長方形配列の両方を含むその他のピクセルの構成も、予測ブロックを構成し得る。
【0038】
[0049]ピクセルのブロック({P(i,j):1≦i,j≦N})が、水平参照ピクセル及び垂直参照ピクセル({P(i,0):0≦i≦2N}∪{P(0,j):0≦j≦2N})を用いてイントラ予測符号化されるものとする。P(i,j)が対象ブロックの元のピクセル値を表し、P(i,j)が予測されたピクセル値を表し、P(i,j)が残差値を表し、P(i,j)が圧縮された残差値を表し、P(i,j)がピクセルP(i,j)の圧縮された値を表す場合、以下の式がそれらの関係を定義する。
【数4】

【数5】

は、順変換カーネルを表すN×N行列である。
【数6】

は、逆変換カーネルを表すN×N行列である。P(1:N,1:N)は、ビットストリームの変換及び量子化された残差信号を表す。Q()は、量子化演算を表し、Q()は逆量子化演算を表す。
【0039】
[0050]予測されたピクセル値P(i,j)は、参照ピクセル
{P(i,0):0≦i≦2N}∪{P(0,j):0≦j≦2N}
を用いて実行されるイントラ予測モードによって決定される。H.264/AVCは、Intra_4×4予測、Intra_8×8予測、及びIntra_16×16予測をサポートする。Intra_4×4予測は、垂直予測モード(vertical prediction mode)、水平予測モード(horizontal prediction mode)、DC予測モード、及び6つの角度の予測モードを含む9つの予測モードの下で実行される。Intra_8×8予測は、Intra_4×4予測で実行される9つの予測モードの下で実行される。Intra_16×16予測は、垂直予測モード、水平予測モード、DC予測モード、及び平面予測モードを含む4つの予測モードの下で実行される。例えば、DC予測モード、垂直予測モード、及び水平予測モードの下で導出される予測されたピクセル値P(i,j)は、以下のように定義される。
DC予測モード:
【数7】

垂直予測モード:
(i,j)=P(0,j),∀1≦i,j≦N
水平予測モード:
(i,j)=P(i,0),∀1≦i,j≦N
【0040】
[0051]最近、提案番号JCT−VC A119が映像符号化共同研究部会(Joint Collaborative Team on Video Coding)(JCT−VC)に提出され、この提案は、参照により本明細書に援用される。提案番号JCT−VC A119は、小さな平面の傾きで徐々に変化するピクセル値を予測するために線形補間演算と双線形補間(bi−linear interpolation)演算の組み合わせを使用する低複雑性平面モード演算を提案する。提案された平面モードのプロセスが、図9に概略的に示される。プロセスは、予測されるべきブロック内の右下のピクセルの値P(N,N)を特定することから始まる。次に、ブロック内の最下行の予測されるピクセル値P(N,j)を得るために値P(N,N)と参照ピクセル値P(N,0)の間で線形補間が実行される。同様に、ブロック内の最右列の予測されるピクセル値P(i,N)を得るために値P(N,N)と参照ピクセル値P(0,N)の間で線形補間が実行される。その後、ブロック内のピクセル値の残りP(i,j)を得るために、予測されたピクセル値P(N,j)及びP(i,N)並びに参照ピクセル値P(i,0)及びP(0,j)の間で双線形補間が実行される。提案された平面モードのプロセスは、
右列:
【数8】

最下行:
【数9】

ピクセルの残り:
【数10】

といった式によって表され得る。
【0041】
[0052]JCT−VC A119で提案された平面モードのプロセスで見つかる可能性がある解決されるべき2つの問題が存在する。提案されたプロセスにおいては、右下のピクセルの値P(N,N)がデコーダにビットストリームでシグナリングされ、デコーダにおいて対象ブロックを復号するために使用される。換言すれば、デコーダが、提案された平面モードの下で予測を実行するために右下のピクセルの値を必要とする。また、提案された方法では、残差が平面モードの下で導出されず、したがって、デコーダにシグナリングされない。残差のシグナリングの省略は、送信されるべき符号化されたビデオデータの削減に寄与することができるが、平面モードの適用を低ビットレートのビデオ符号化に制限する。
【0042】
[0053]本発明による平面モードは、JCT−VC A119で提案された平面モードのプロセスに関連する上述の問題を解決するように設計される。本発明の一実施形態によれば、右下のピクセルの値P(N,N)が、参照ピクセルから導出される。したがって、右下のピクセルのピクセル値P(N,N)をデコーダにシグナリングする必要がない。本発明の別の実施形態においては、平面モードの下で形成された予測ブロックが、残差を導出するために使用され、その残差が、デコーダにシグナリングするために変換され、量子化される。通常の離散コサイン変換(DCT)、及び中間的な又は粗い量子化パラメータを用いた量子化の適用は、平面モードの下で得られた残差からゼロであるAC係数及び非ゼロのDC係数を生じる傾向がある。これを避けるために、本発明の実施形態は、平面モードの下で得られた残差を変換するために、主変換カーネルの代わりに副変換カーネルを使用する。また、別の実施形態は、平面モードの下で適応的な量子化を実行し、量子化パラメータが、対象ブロック中の空間的な動き(spatial activity)に応じて適応的に変化する。
【0043】
[0054]本発明の一実施形態においては、右下のピクセルの値P(N,N)が、参照ピクセルから計算される。値P(N,N)は、以下の3つの方法のうちの1つにしたがって計算される。
方法1:
(N,N)=((P(N,0)+P(0,N))>>1)
ここで、演算子「>>」は、ローテーションあり又はローテーションなしの右シフト演算を表す。
【0044】
[0055]方法2:
(N,N)=w×P(N,0)+w×P(0,N)
ここで、w及びwは、P(0,1:N)及びP(1:N,0)を用いて決定された重みである。例えば、w及びwは以下のように計算される。
【数11】

ここで、演算子「var()」は、分散を計算する演算を表す。
【0045】
[0056]方法3:
【数12】

ここで、
【数13】

であり、
【数14】

である。y=f(x,x,...,x2N)は、ある算術演算を表す。本発明の一実施形態において、この算術演算は、
【数15】

と定義される。本発明の別の実施形態においては、この算術演算は、単純に、y=f(x,x,...,x2N)=x2Nと定義される。本発明において、右下のピクセルの値P(N,N)はデコーダにシグナリングされないことに留意されたい。その代わりに、デコーダが、エンコーダによって採用された方法にしたがって値P(N,N)を計算し、エンコーダによって採用された方法は事前に決められていてもよく、又は、その方法の識別情報がデコーダにシグナリングされてもよい。
【0046】
[0057]図10は、上述の方法1が実施される、本発明の実施形態による平面モードの下で実行されるピクセル値を予測するプロセスを示す概略図である。プロセスは、方法1を使用してブロック内の右下のピクセルの値P(N,N)を計算することから始まる。値P(N,N)が計算された後、ブロック内の最下行の予測されるピクセル値P(N,j)を得るために値P(N,N)と参照ピクセル値P(N,0)の間で線形補間が実行される。同様に、ブロック内の最右列の予測されるピクセル値P(i,N)を得るために値P(N,N)と参照ピクセル値P(0,N)の間で線形補間が実行される。その後、ブロック内のピクセル値の残りP(i,j)を得るために、予測されたピクセル値P(N,j)及びP(i,N)並びに参照ピクセル値P(i,0)及びP(0,j)の間で双線形補間が実行される。以下の式及び図11によって示されるように、方法1は、対象ブロック内のピクセル値P(i,j)を予測する演算を単純化することができる。
【数16】

ここで、小数の精度が必要とされる場合、
【数17】

であり、
【数18】

である。
【0047】
[0058]上記の式は、ブロック内のピクセル値P(i,j)を計算するために値Nで割ることを必要とする。以下のように整数計算を用いることによって除算を避けることができる。
【数19】

ここで、
【数20】

であり、
【数21】

である。
整数の精度で十分な場合、ピクセル値P(i,j)は、
【数22】

によって表されてもよく、ここで、
【数23】

であり、
【数24】

である。
【0048】
[0059]方法1は以下のように修正され得る。
【数25】

ここで、y=f(x,x,...,x2N)は、ある算術演算を表す。本発明の一実施形態において、この算術演算は、
【数26】

と定義される。本発明の別の実施形態においては、この算術演算は、単純に、y=f(x,x,...,x2N)=x2Nと定義される。
【0049】
[0060]方法1は以下のようにさらに修正され得る。
【数27】

ここで、y=g(i,x,x,...,x2N)は、以下の4つの式のうち1つによって定義され得る関数を表す。
式1:
y=g(i,x,x,...,x2N)=x2N
式2:
y=g(i,x,x,...,x2N)=x(N+i)
式3:
【数28】

式4:
【数29】

ここで、
【数30】

は、フィルタが配列[x,x,...x2N]に適用されるときの
【数31】

のフィルタリングされた値である。本発明の一実施形態において、フィルタは、3タップフィルタ(3−tap filter)
【数32】

であってもよい。
【0050】
[0061]上記の実施形態においては、垂直及び水平参照ピクセル
{P(i,0):0≦i≦2N}∪{P(0,j):0≦j≦2N}
が予測のためにすべて利用可能であると仮定される。参照ピクセルは、対象ブロックがスライス又はフレームの境界に位置する場合、利用できない可能性がある。垂直参照ピクセル
{P(i,0):0≦i≦2N}
は予測に利用できないが、水平参照ピクセル
{P(0,j):0≦j≦2N}
は利用可能である場合、予測のための垂直参照ピクセルを生成するために割り当て
(i,0)=P(0,1),∀1≦i≦2N
が行われる。水平参照ピクセル
{P(0,j):0≦i≦2N}
は予測に利用できないが、垂直参照ピクセル
{P(i,0):0≦j≦2N}
は利用可能である場合、予測のための水平参照ピクセルを生成するために割り当て
(0,j)=P(1,0),∀1≦j≦2N
が行われる。垂直参照ピクセルも水平参照ピクセルも予測に利用できない場合、垂直参照ピクセルと水平参照ピクセルの両方を生成するために割り当て
(i,0)=P(0,j)=(1<<(N−1)),∀1≦i,j≦2N
が行われる。この式において、Nは、ピクセル値を表現するために使用されるビット深度を表す。
【0051】
[0062]本発明の一実施形態においては、その他の予測モードの下で生成される予測ブロックと同様に、平面モードの下で生成された予測ブロックが、残差P(1:N,1:N)を導出するために使用され、残差P(1:N,1:N)が、変換モジュール405によって変換され、量子化器406によって量子化される。変換及び量子化された残差P(1:N,1:N)は、ビットストリームでデコーダにシグナリングされる。また、変換及び量子化された残差P(1:N,1:N)は、逆変換モジュール410及び逆量子化器411によって逆変換及び逆量子化されて圧縮された残差P(1:N,1:N)になり、その圧縮された残差P(1:N,1:N)は、後続の対象ブロックを予測する際に使用するためにフレームメモリ403に記憶される。
【0052】
[0063]変換及び量子化された残差全体P(1:N,1:N)が、ビットストリームでデコーダにシグナリングされ得る。代替的に、残差の一部P(1:K,1:K)のみが、ビットストリームでデコーダにシグナリングされてもよい。KはN未満であり(K<N)、事前に決められた値、例えば1に設定される。Kの値が、ビットストリームでデコーダにシグナリングされ得る。デコーダは、残差の一部P(1:K,1:K)のみを受信する場合、残差の一部を復号し、残差の残りの部分に0を設定する。残差の一部しかデコーダにシグナリングされないが、残差全体P(1:N,1:N)が、後続の対象ブロックを予測する目的で、圧縮された残差P(1:N,1:N)を導出するために逆変換され、逆量子化される。
【0053】
[0064]さらに、本発明の別の実施形態においては、量子化パラメータが、平面モードの下で生成された残差を量子化するために適応的に変更される。平面モードが、小さな平面の傾きでピクセル値が徐々に変化する平滑な画像を有するブロックに適用される。そのような平滑なブロックからの残差は、中間的な又は粗い量子化パラメータによって0に量子化される傾向がある。量子化が非ゼロの係数を生じることを保証するために、本発明の実施形態においては、平面モードの下で生成された残差が量子化されるとき、量子化パラメータがより細かい量子化パラメータに切り替えられる。平面モードの下で生成された残差を量子化するために使用される量子化パラメータ(QPPlanar)は、基本量子化パラメータ(QPbaseP)を用いて定義され得る。QPbasePは、より細かい量子化パラメータを表す事前に決められた値に設定され得る。QPbasePは、デコーダに知られていない場合、ビットストリームでデコーダにシグナリングされるか、又はより詳細には、H.264/AVCで定義されたように設定されるスライスヘッダ若しくはピクチャパラメータでシグナリングされてもよい。
【0054】
[0065]本発明の一実施形態において、QPPlanarは、単にQPbasePに設定される(QPPlanar=QPbaseP)。QPPlanarは、QPbasePとQPとの合計によって定義されてもよく(QPPlanar=QPbaseP+QP)、ここで、QPは、Nの値に関連してQPの値を一覧化するルックアップテーブルを用いて決定される。QPPlanarは、代替的に、QPPlanar=QPbaseP+QPdiff(N)と定義されてもよい。QPdiff(N)は、値Nに応じて決まり、ビットストリームでデコーダにシグナリングされるか、又はより詳細には、H.264/AVCで定義されたように設定されるスライスヘッダ若しくはピクチャパラメータでシグナリングされる。デコーダは、そのデコーダのビデオコーデック方式でサポートされる値Nのそれぞれに関してビットストリームからQPdiff(N)を決定する。
【0055】
[0066]本発明の別の実施形態においては、差分量子化パラメータ(QPdelta)を追加することによって、QPbasePが、QPbaseP=QPbaseP+QPdeltaと修正される。QPdeltaは、空間的な動きに対して適応的にQPbasePを調整するためにブロック又はブロックのグループ内の空間的な動きから決定される。QPdeltaは、ビットストリームでデコーダにシグナリングされる。QPdeltaは、ブロック内の空間的な動きから決定されるので、ブロック内の画像の内容によってはゼロになってもよく、平面予測モードに関するQPbasePに影響しない。
【0056】
[0067]さらに、本発明の別の実施形態においては、QPPlanarは、平面モード以外の予測モードの下で生成された残差を量子化するために使用される通常量子化パラメータQPnormalを用いて決定される。そのような実施形態において、QPPlanarは、以下の5つの方法のうちの1つによって決定される。
1.QPPlanar=QPnormal
2.QPPlanar=QPnormal+QP
ここで、QPは、Nの値に関連してQPの値を一覧化するルックアップテーブルから決定される。
3.QPPlanar=QPnormal+QPdiff(N)
ここで、QPdiff(N)は、値Nに応じて決まり、ビットストリームでデコーダにシグナリングされる。
4.QPPlanar=QPnormal+QPdelta
ここで、QPdeltaは、QPnormalを適応的に調整するためにブロック又はブロックのグループ内の空間的な動きから決定され、ビットストリームでデコーダにシグナリングされる。
5.QPPlanar=QPnormal+QP+QPdelta
【0057】
[0068]本発明の別の実施形態においては、変換モジュール405及び逆変換モジュール410が、順変換カーネル及び逆変換カーネルの主セット
【数33】

を使用する代わりに、平面モードの下で生成された残差の順変換及び逆変換のために順変換カーネル及び逆変換カーネルの副セット
【数34】

を使用する。変換カーネルの主セットは、平面モード以外の予測モードの下で生成された残差を変換するために使用され、高周波エネルギーが存在するブロックに適する。一方、平面予測モードにかけられるべきブロックは、そのブロック内に小さな空間的な動きを有し、平滑な画像を有するブロック用に適合された変換カーネルを必要とする。この実施形態において、変換モジュール405及び逆変換モジュール410は、図12に示されるように、変換カーネルの主セットと変換カーネルの副セットの間を切り替え、平面モード以外の予測モードの下で生成された残差を変換するときは変換カーネルの主セットを使用し、一方、平面予測モードの下で生成された残差を変換するときは変換カーネルの副セットを使用する。しかし、変換カーネルの副セットは、平面予測モードの下で生成された残差を変換することに限定されず、平面モード以外の予測モードの下で生成された残差を変換するために使用され得ることに留意されたい。
【0058】
[0069]順変換カーネルの副セット
【数35】

は、以下の選択肢のうちの1つから導出される固定小数点近似(fixed−point approximation)であってもよい。
選択肢1(タイプ7 DST):
【数36】

選択肢2(タイプ4 DST):
【数37】

選択肢3(DCTとしてよく知られているタイプ2 DCT):
【数38】

選択肢4:
サイズ2N×2Nの変換カーネル
【数39】

がビデオコーデックによってサポートされる場合、
【数40】

そうでない場合は、
【数41】

したがって、選択肢4においては、ビデオコーデックでサポートされる最小変換サイズ及び最大変換サイズが4×4及び32×32である場合、サイズ4×4の変換カーネルの副セットは、サイズ8×8の変換カーネルの主セットから導出される。同様に、サイズ8×8の変換カーネルの副セットは、サイズ16×16の変換カーネルの主セットから導出され、サイズ16×16の変換カーネルの副セットは、サイズ32×32の変換カーネルの主セットから導出される。しかし、サポートされる最大サイズが32×32であるサイズの制限のために、サイズ32×32の変換カーネルの副セットは、サイズ32×32の変換カーネルの主セットから導出される。
【0059】
[0070]倍率kは、
【数42】

を満たすように定義され得る。倍率kは、H.264/AVCで使用される量子化パラメータを調整するために使用され得る。逆変換カーネルの副セット
【数43】

は、順変換カーネル
【数44】

を用いて、
【数45】

から導出可能であり、ここで、IはサイズN×Nの単位行列を表す。
【0060】
[0071]変換カーネルの主セットが性質
【数46】

を満たす場合は、選択肢4で定義された変換カーネルの副セットが好ましい。選択肢4は、副セットが主セットから導出され得るので、変換カーネルの副セットが変換カーネルの主セットと別に記憶される必要がないという点で有利である。サイズ2N×2Nの変換カーネルの主セット
【数47】

がタイプ2のDCTの近似である場合、上記の性質が満たされ、サイズN×Nの変換カーネルの副セット
【数48】

はタイプ4のDSTの近似であってもよい。変換カーネルの主セットが上記の性質を満たさない場合は、選択肢1で定義された変換カーネルの副セットが好ましい。
【0061】
[0072]平面予測モードが、2つの方法のうちの1つで選択され得る。第1の方法においては、平面予測モードの下で生成された予測ブロックが、その他の予測モードで生成された予測ブロックとともに符号化効率に関して評価される。平面モードの下で生成された予測ブロックが予測ブロックの中で最良の符号化効率を示す場合、平面モードが選択される。或いは、平面モードが、単独で符号化効率に関して評価される。平面予測モードは、画像が平滑で、その画像の平面の傾きが小さい領域に対して好ましい。したがって、対象ブロックの内容が、ブロック内の高周波エネルギーの量と、ブロックの端に沿った画像の不連続性とを調べるために分析される。高周波エネルギーの量が閾値未満であり、ブロックの端に沿って大きな不連続性が見られない場合、平面モードが選択される。そうでない場合、その他の予測モードの下で生成された予測ブロックが、1つのモードを選択するために評価される。どちらの場合も、平面予測モードの選択が、ビットストリームでデコーダにシグナリングされる。
【0062】
[0073]本発明の多くの変更形態及び修正形態が、上述の説明を読んだ後、当業者に間違いなく明らかになるであろうが、例として示され、説明されたどの特定の実施形態も限定とみなされるように全く意図されていないことを理解されたい。したがって、さまざまな実施形態の詳細に関する言及は、本発明に必須と考えられる特徴だけをそれ自体で記載する特許請求の範囲を限定するように意図されていない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12