(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明の目的は、予測的ビデオコーディングおよび/またはフィルタリング後 応用におけるノイズ低減のためにノイズを含むデジタルビデオ・シーケンスの効率的な処理方法を提供することである。
【0005】
本発明の更なる目的は、予測的ビデオコーディングおよび/またはフィルタリング後応用におけるノイズ低減のためにノイズを含むデジタルビデオ・シーケンスを効率的に処理する能力のある装置を提供することである。
【課題を解決するための手段】
【0006】
本発明の一実施の形態は、エンコードされたビデオ・シーケンスを処理する方法であって、前記エンコードされたビデオ・シーケンスを復元し、複数の隣接する画像を提供するステップと、前記隣接する画像のそれぞれまたは隣接する各画像の少なくともコヒーレント領域を、動きモデルに基づいて基準画像の座標系へ変換し、もって、変換された画像からなる画像群を生成するステップと、重み関数を用いて前記変換された画像における対応する画素同士の画素振幅を組み合せて、前記基準画像の少なくとも1つの画素について加工された画素振幅を形成するステップと、前記少なくとも1つの画素の前記加工された画素振幅に基づいて加工された画像を生成するステップとを備える。
なお、前記コヒーレント領域とは、隣接する複数画像にわたって一貫性のあるイメージの領域である。また、画素振幅とは、画素値と等価的意味を持つ。
【0007】
例えば、エンコードされたビデオ・シーケンスの復元は、エンコードされたビデオ・シーケンス のデコーディング(復号化)によって行ってもよい。
【0008】
前記加工された画像に対して長さ値を割り当てることが好ましく、該長さ値は、前記画像群の前記隣接する画像の数を規定する。
【0009】
例えば、前記加工された画像を復元したビデオ・シーケンスに組み込むことでフィルタリングされたビデオ・シーケンスを生成することができる。ビデオ・シーケンス内に加工の画素振幅の存在を示すためのマーカービットを割り当てることが好ましい。
【0010】
前記隣接する画像を変換するステップは、基準画像に対して先行しかつ連続する画像の変換を含めんでいてよい。
【0011】
さらに、前記画素の前記加工された画素振幅を形成するために、前記変換された画像の複数の画素に対応する複数の画素を含む空間的に隣接する画像を有する更なるビデオ・シーケンスを考慮してもよい。
【0012】
その上、少なくとも2つの異なるプロセスモードを実行してもよく、各プロセスモードにおいて画像群を生成するための画像の最大数を考慮し、ビットストリーム内で実行されたプロセスモードを表すフラグを割り当てる。
【0013】
さらに、その方法はエンコードされたビットストリームを生成するステップを含んでもよい。
【0014】
上述した前記加工された画像は或る画像の予測に使用することができる。
【0015】
更なる好ましい実施形態によれば、その方法は、基準画像をエンコードするための以下のステップを含んでもよい。
基準画像に対して別々の数の隣接する画像を含む複数の画像群を定義するステップ。
各画像群に対して、前記隣接する画像のそれぞれまたは隣接する各画像の少なくともコヒーレント領域を動きモデルに基づいて基準画像の座標系へ変換し、それにより変換画像からなる画像群を生成し、重み関数を用いて前記変換画像の対応する画素振幅を組み合わせて基準画像の少なくとも一つの画素に対する加工された画素振幅を形成し、前記少なくとも一つの画素の前記加工された画素振幅に基づき加工された画像を生成し、各加工された画像に対して個々の画像群長さを規定する長さ値を割り当てるステップ。
各加工された画像に対して基準画像を参照する予測画像を生成するステップ。
加工された画像を用いて基準画像をエンコードし、エンコードされたビットストリームを生成するステップ。
エンコードされたビットストリームに、エンコードするために使用される画像の個々の画像群長さを表す値を付加するステップ。
前記隣接する画像のそれぞれまたは隣接する各画像の少なくともコヒーレント領域を、エンコードされたビットストリームに対する動きモデルに基づいて基準画像の座標系へ変換するためのパラメータをエンコードするステップ。
【0016】
例えば、各加工画像に対して、予測画像と基準画像との間のズレを測定して、最小のズレを有する加工画像を決定することができる。次に、最小のズレを有する加工画像を用いて基準画像をエンコードすることができる。
【0017】
最小のズレを有する加工画像は、絶対誤差、二乗誤差、平均二乗誤差、二乗平均平方根誤差など、加工画像と基準画像との間の任意の前記誤差測定の算出により決定できる。
【0018】
前記予測画像に加えて、基準画像に先行する少なくとも一つの画像に基づく予測の実行によりフィルタリングなしの予測画像を生成することができる。予測画像とフィルタリングなしの予測画像は、ブロックに分割され得る 。基準画像の各ブロックは、予測画像の内の一つの対応するブロックまたはフィルタリングなしの予測画像の対応するブロックに基づいてエンコードすることができる。各ブロックに対して、予測画像の内の一つまたはフィルタリングなしの予測画像のどちらを用いてブロックがエンコードできるかを表すフラグが与えられてもよい。前記フラグはエンコードされたビットストリーム内に含めてもよい。
【0019】
さらに、予測画像の各ブロックとそれに対応する基準画像の各ブロックとの間のズレを測定することもできる。加えて、フィルタリングなしの予測画像の各ブロックとそれに対応する基準画像の各ブロックとの間のズレを測定することもできる。続いて、どちらが最小のズレを示すかに応じて、予測画像の内の一つの対応するブロックまたはフィルタリングなしの予測画像の対応するブロックに基づいて、基準画像の各ブロックをエンコードすることができる。
【0020】
動きモデルは、並進、アフィン、透視、および/または放物線動きモデルであることが好ましい。
【0021】
本発明は、上述の任意の方法を実行し得るように構成されたデコーダにも関する。
【0022】
本発明は、上述の任意の方法を実行し得るように構成されたエンコーダにも関する。
【0023】
発明の上記および他の利点を得られる様が容易に理解できるよう、上記で簡潔に述べられた本発明のより具体的な説明は、添付図面に示された本発明の個々の実施形態を参照することにより提供される。これらの図は発明の典型的な実施形態だけを表し、従って発明の範囲を限定するものでないと理解することを前提に、本発明は添付の図面の利用によりさらに具体的で詳細に説明される。
【図面の簡単な説明】
【0024】
【
図1】H.264/AVC(前記非特許文献1を参照)の基本的エンコーディング構造を例示的に示す図。
【0025】
【
図2】長時間グローバル動きパラメータの生成を例示的に示す図。
【0026】
【
図3】時間フィルタリングを行う前の空間的に整列された画像セットの生成例を示す図。
【0027】
【
図4a】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方においてセグメンテーション(分割)と画素ベースGMEを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。
【0028】
【
図4b】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方においてセグメンテーション(分割)と画素ベースGMEを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。
【0029】
【
図5】予め後処理のためにデコードされた画像からの画像I
tのフィルタリングバージョン生成例を示す図であって、画像バッファ内部の画像を、多視点コーディング環境下における異なる視点からの画像とともにビデオ・シーケンスの内の過去および/または未来の画像とすることができることを示す図。
【0030】
【
図6】後処理のための時間フィルタリングプロセスを例示的に示す図であって、整列した一連の画像中の一つの配列y
kが示されている図。
【0031】
【
図7a】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方においてセグメンテーションと動きベクトルベースGMEを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。
【0032】
【
図7b】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方においてセグメンテーションと動きベクトルベースGMEを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。
【0033】
【
図8a】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ画素ベースGMEを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されず、エンコーダは変化しないことを示す。
【0034】
【
図8b】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ画素ベースGMEを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されず、エンコーダは変化しないことを示す。
【0035】
【
図9a】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ動きベクトルベースGMEを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されず、エンコーダは変化しないことを示す図。
【0036】
【
図9b】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ動きベクトルベースGMEを用いて実行され、フィルタリングに使用されるフレームインデックスはレシーバに伝送されず、エンコーダは変化しないことを示す。
【0037】
【
図10a】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方において画素ベースGMEを用いて実行され、セグメンテーションは実行されず、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。
【0038】
【
図10b】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方において画素ベースGMEを用いて実行され、セグメンテーションは実行されず、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。
【0039】
【
図11a】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方において動きベクトルベースGMEを用いて実行され、セグメンテーションは実行されず、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。
【0040】
【
図11b】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはエンコーダとデコーダの両方において動きベクトルベースGMEを用いて実行され、セグメンテーションは実行されず、フィルタリングに使用されるフレームインデックスはレシーバに伝送されることを示す。
【0041】
【
図12a】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングはデコーダにおいてのみ画素ベースGMEを用いて実行され、セグメンテーションがオブジェクトマスク伝送のために実行されることを示す。
【0042】
【
図12b】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングはデコーダにおいてのみ画素ベースGMEを用いて実行され、セグメンテーションがオブジェクトマスク伝送のために実行されることを示す。
【0043】
【
図13a】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ動きベクトルベースGMEを用いて実行され、セグメンテーションがオブジェクトマスク伝送のために実行されることを示す。
【0044】
【
図13b】ハイブリッドビデオコーディング環境下の後処理のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングはデコーダにおいてのみ動きベクトルベースGMEを用いて実行され、セグメンテーションがオブジェクトマスク伝送のために実行されることを示す。
【0045】
【
図14a】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングに加えて画素ベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキングまたは時間フィルタリングを使用するかを決定することを示す。
【0046】
【
図14b】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングに加えて画素ベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキングまたは時間フィルタリングを使用するかを決定することを示す。
【0047】
【
図15】ブロックベース動き推定のためのフィルタリングされた基準画像I
pt,t-1/filteredの生成例を示す図であって、画像バッファ内部の画像を、多視点コーディング環境下における異なる視点からの画像とともにビデオ・シーケンスの内の過去および/または未来の画像とすることができることを示す図。
【0048】
【
図16】ブロックベース動き推定におけるフィルタリングされた基準画像I
pt,t-1/filteredの生成のための時間フィルタリングプロセスを例示的に示す図であって、整列した一連の画像中の一つの配列y
kが示されている図。
【0049】
【
図17a】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングに加えて動きベクトルベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキングまたは時間フィルタリングを使用するかを決定することを示す。
【0050】
【
図17b】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングに加えて動きベクトルベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキングまたは時間フィルタリングを使用するかを決定することを示す。
【0051】
【
図18a】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングの後に画素ベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または時間フィルタリングと空間デブロッキングを組み合わせて使用するかを決定することを示す。
【0052】
【
図18b】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングの後に画素ベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または時間フィルタリングと空間デブロッキングを組み合わせて使用するかを決定することを示す。
【0053】
【
図19a】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの後に動きベクトルベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または時間フィルタリングと空間デブロッキングを組み合わせて使用するかを決定することを示す。
【0054】
【
図19b】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの後に動きベクトルベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または時間フィルタリングと空間デブロッキングを組み合わせて使用するかを決定することを示す。
【0055】
【
図20a】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの前に画素ベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または空間デブロッキングと時間フィルタリングを組み合わせて使用するかを決定することを示す。
【0056】
【
図20b】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの前に画素ベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または空間デブロッキングと時間フィルタリングを組み合わせて使用するかを決定することを示す。
【0057】
【
図21a】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、画像バッファ内の画像に対して通常の空間デブロッキングの前に動きベクトルベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または空間デブロッキングと時間フィルタリングを組み合わせて使用するかを決定することを示す。
【0058】
【
図21b】ハイブリッドビデオコーディング環境下の動き推定向上のための時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、画像バッファ内の画像に対して通常の空間デブロッキングの前に動きベクトルベースGMEを用いて時間フィルタリングが実行され、予測誤差が最小になるようにエンコーダが空間デブロッキング、または空間デブロッキングと時間フィルタリングを組み合わせて使用するかを決定することを示す。
【0059】
【
図22a】ハイブリッドビデオコーディング環境下の追加の予測モードとしての時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが画素ベースGME手法を用いて実行されることを示す。
【0060】
【
図22b】ハイブリッドビデオコーディング環境下の追加の予測モードとしての時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、時間フィルタリングが画素ベースGME手法を用いて実行されることを示す。
【0061】
【
図23】現在の画像I
tに対する予測信号I
t,predの生成例を示す図であって、画像バッファ内部の画像を、多視点コーディング環境下における異なる視点からの画像とともにビデオ・シーケンスの内の過去および/または未来の画像とすることができることを示す図。
【0062】
【
図24】現在の画像I
tに対する予測信号I
t,predを生成する時間予測プロセスを例示的に示す図であって、整列した一連の画像中の一つの配列y
kが示されている図。
【0063】
【
図25a】ハイブリッドビデオコーディング環境下の追加の予測モードとしての時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが動きベクトルベースGME手法を用いて実行されることを示す。
【0064】
【
図25b】ハイブリッドビデオコーディング環境下の追加の予測モードとしての時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが動きベクトルベースGME手法を用いて実行されることを示す。
【0065】
【
図26a】追加の予測モードと動き推定向上のためのフィルタリングの組合せとして通常のハイブリッドビデオコーディング環境に組み込まれる時間フィルタリングをエンコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが画素ベースGME手法を用いて実行されることを示す。
【0066】
【
図26b】追加の予測モードと動き推定向上のためのフィルタリングの組合せとして通常のハイブリッドビデオコーディング環境に組み込まれる時間フィルタリングをデコーダ部分に関連して例示的に示すブロック図であって、ここでは、時間フィルタリングが画素ベースGME手法を用いて実行されることを示す。
【発明を実施するための形態】
【0067】
以下で説明する本発明は、予測ビデオコーディング(符号化)および/または後処理のためのグローバル動き時間フィルタリングの実施により、ノイズを含むデジタルビデオ・シーケンスの効率的な処理方法を可能にする。従って、複数の画像(picture: 1枚の画像、フレーム画像)間、またはビデオ・シーケンス内の複数の領域間、もしくは多視点コーディング(multi-view coding)状況での複数の視点間での、全体的な動きが推定または補償される。それにより、フィルタリング後の動き推定向上において、または予測においてでさえノイズを低減したビデオ・シーケンスの復元を実現できる。
【0068】
通常のハイブリッドビデオエンコーダは、原信号から予測値を減算して残余データを生成する。次にこれらの残余値はブロック毎に変換および量子化されてレシーバに伝送される。エンコーダもまたローカルデコーダを備える。ローカルデコーダは、量子化された変換係数をサイズ変更し、逆変換して残余データの表現を生成してそれにより原信号の表現(画像)を生成する。画像バッファに記憶されている事前にデコード(復号化)された画像のセットを用いて予測信号を生成する。典型的なハイブリッドビデオエンコーダを
図1に示す。
【0069】
現在なお残されているビデオコーディングの課題の一つに歪みの問題、すなわちブロッキングアーティファクト(ブロック化による画像劣化)があり、レシーバにおいて知覚される画質と予測信号の客観的品質に大きな影響を及ぼす。これらのアーティファクトには主に2つの要因がある。その一つは変換係数の量子化である。量子化の粗さ次第では、量子化によりブロック境界間にエッジの乱れを生ずる恐れがある。第二の要因は動き補償予測である。すなわち、既に局所的にデコードされ、それ故にブロック境界での不連続性を含む時間的隣接画像からブロックが予測される。これらは、大抵は予測信号の内部にコピーされる。局所的にデコードされたデータの客観的品質向上を達成することが望ましい。そうすることで予測信号が改善され、それは残余データが小さくなり、従ってビデオ信号の伝送に要するビットレートの抑制につながることを意味する。さらに、伝送データのコーディング後のブロッキングアーティファクトの低減は、ビデオ信号のより良い主観的評価につながる。
【0070】
これらの課題の解決のために膨大な研究がなされてきた。H.264/AVC規格(前記非特許文献1を参照)は、List等による研究(前記非特許文献2を参照)に基づくデブロッキングフィルタを規定する。そのアルゴリズムは、先ず、境界解析を用いて異なる種類の不連続性の区別を試みる。ここでは、隣接するブロックの種類により、すなわちイントラコードされるかインターコードされるかにより、境界はシビアさが異なると考えられる。次のステップは、水平および垂直のエッジの空間フィルタリングである。主観的品質と予測信号は大幅に改善できるが、低ビットレートでデコードされたビデオではブロッキングアーティファクトが依然として目に見える。
【0071】
上述のような空間的技術に加えて、伝送する画像とそれの局所的にデコードされた時間的隣接画像との間の時間的相関関係も予測信号の改善に利用されてきた。これらの所謂動き補償予測(MCP)スキームは、ビデオ信号の連続する画像間の類似性を活用することにより(信号)圧縮を実現する。2次元予測(B)および階層的Bピクチャコーディング技術(前記非特許文献3を参照)は、エンコードされる現在の画像近傍に位置する局所的にデコードされた1つまたは2つの画像からの情報を利用する。ここでは、ブロックベース動き推定技術を用いて現在の画像のマクロブロックが予測される。2つ以上のブロックが予測信号の生成に用いられる場合、考え得る全候補の加重平均が用いられる。しかし、2つの対応するブロック間の動きは、並進動きモデルを用いて推定されるだけである。カメラズーミング、回転、シャーリング、透視変換のそれぞれにおいては、このモデルは、2つのブロック間の関係を十分に特徴付けているとは言えず、不十分な予測につながる。
【0072】
動き推定および補償のために事前にデコードされた画像を用いることは、Wiegand等の研究(前記非特許文献4を参照)により、基準画像選択における可変時間遅延に拡張されてきた。長時間メモリMCPにおいて、マクロブロックに対する空間変位ベクトルは、エンコーダとデコーダ間の事前のやりとり(情報交換)によってのみ境界付けられる任意の距離の基準画像を指し示すことができる。可変時間遅延は、追加的なビットレートを生む付帯的情報としてレシーバに伝送する必要があり、それは改良されたMCPによって正当化される。この技術もまた、現行のH.264/AVC規格の中の全ての既存のプロファイルにおいて義務化されてきた。
【0073】
可変時間遅延を有するマクロブロックの予測、すなわち現在の画像に対して直に時間的に隣接していない基準画像からの予測は、幾つかの画像による基準の重ね合わせに拡張できる。これは多重仮説MCPと称し、例えば前記非特許文献5で提案されてきた。この場合、予測信号は、幾つかのMCP信号の線形重ね合わせからなる。これらのブロックの全ては個々の動きベクトルおよび可変時間遅延によって参照されるため、最高性能を得るためにはレート歪みの最適化(RDO)が活用されなければならない。 それにも拘らず、重ね合わせの候補ブロックは、並進動きモデルのみを用いて事前にデコードされた画像からコピーされたブロックである。このことは、通常のブロックベースMCPにおける場合と同様の制約を課すことになる。
【0074】
アフィンマルチピクチャMCP(前記非特許文献6を参照)において、長時間MCPの考え方は、事前にデコードされた可変時間遅延を有する画像およびそれのワーピングされたバージョンの使用に拡張されてきた。ワーピングは、基準画像とエンコードされる現在の画像との間のグローバル動きパラメータの推定によって行われる。前記非特許文献6では、アフィン高次動きモデルが用いられている。次に、通常の長時間画像バッファとそれのワーピングされた表現(画像)セットに対してブロックベースMCPが実行される。
【0075】
MPEG−4パート2/ビジュアルのアドバンスドシンプルプロファイル(前記非特許文献7を参照)は、追加の予測モードとしてグローバル動き補償(GMC)を規定する。従来のMCP技術に加えて、エンコードされる画像とその基準画像との間の動きは、並進モデルを用いたブロックベースでなく、ズーミング、回転、シャーリングを特徴付けるパラメータにより並進モデルを拡張する高次元動きモデルのための画像ベースで推定される。動きモデルのパラメータは付帯的情報としてエンコーダに伝送する必要があり、追加のビットレートが上乗せされる。GMCを用いることで、あらゆる異なる種類の動きを有する広範なコヒーレント領域の予測が、残余分を低減させ、従って伝送に要するビットレートを低減できる効率的な方法で可能となる。MPEG−4ビジュアルの規格化に当たって、スプライトと称する技術が背景のシーケンス(ひと並び)のモデルとして検討されてきた。これらのモデルの利点は、統計的長時間依存性を非常に効率的に活用する点にある。これらのスプライトは、オンラインまたはオフラインのどちらでも生成可能で、それぞれ動的スプライトまたは静的スプライトと呼ばれる。静的スプライトだけがMPEG−4ビジュアル規格に含まれている。
【0076】
ここで、事前にデコードされた画像の時間フィルタリングの手法をグローバル動き推定(GME)に基づいて説明する。本明細書で説明するアルゴリズムは量子化ノイズとブロッキングアーティファクトを低減できるので、レシーバにおける主観的評価を向上させるデブロッキングおよび予測信号改善の両目的のために使用でき、従ってビットレート低減のために使用できる。上述の最新手法に加えて、本アルゴリズムは、長時間メモリ画像バッファと高次動きモデルの採用とを組み合わせることで、並進および事前にデコードされた画像からの幾つかの空間的に整列した信号による重ね合わせ以外の他の種類の動きにも対応している。
【0077】
所与の基準に対して、ブロッキングアーティファクトを含む幾つかの時間的に隣接する画像は、基準の座標系へ変換されて空間的に整列した画像群を形成する。変換のためには、グローバル動き(全体的な動き)、すなわち画像とその基準との間のカメラの動きを知る必要がある。それは、高次動きモデルに基づく任意のGMEアルゴリズムを用いて実現できる。次に、基準画像のフィルタリングされたバージョンが、画像群における全ての空間的に整列した画像の重ね合わせにより生成される。こうして、時間平均を用いて量子化ノイズとブロッキングアーティファクトが低減される。その後、基準画像のフィルタリングされた表現(画像)は、通常のハイブリッドビデオコーディングにおいて幾つかの目的で使用できる。
【0078】
この文書に記載される発明は、上記で略述された種々の手法の実施形態を含む幾つかの応用に注意を向ける 。
【0079】
第一の応用は、復元ビデオ・シーケンスの主観的評価向上のためのレシーバにおける後処理である。レシーバに示される所与の基準画像に対して、画像バッファ内で入手可能な特定のデコードされた画像セットを重ね合わせて改良された表現(画像)を生成する。フィルタリングのために使用される画像のインデックスは、原画像が利用できるのはそこだけであるので、エンコーダにおいて推定できる。画像バッファ内の候補サブセットはフィルタリングされて、任意の客観的ビデオ品質評価基準を用いて原画像と比較される。エンコーダにおいて推定される場合、最良サブセットのインデックスがレシーバに伝送されるため追加のビットレートを生むことになる。
【0080】
第二の応用は、ブロックベース動き予測を用いたMCPにおける基準画像の向上である。通常、動き推定は画像バッファからの局所的にデコードされた画像を用いて実行される。量子化のステップサイズの粗さに応じてこの画像が量子化ノイズとブロッキングアーティファクトを含むため、ブロックベース動き推定は、次善の動きベクトルと高い残余値に結び付く。基準画像は、本明細書で説明されるアルゴリズムを用いて改善できる。MCPの基準として用いられることになる所与の基準画像に対して、同じく画像バッファ内で入手可能な時間的に隣接する画像は、その座標系へ変換されて重ね合わされる。MCPは、基準画像のこのフィルタリングされた表現(画像)を用いて改善結果を導くことが示される。さらに、時間フィルタリング手法は、最新のビデオコーディング規格で規定される空間デブロッキングとの組合せが可能である。
【0081】
第三の応用は、通常のイントラおよびインター予測以外のビデオコーディング環境に組み込まれる追加の予測モードである。画像バッファ内で入手可能な特定の画像セットは、現在エンコードされつつある画像の座標系へ直接変換されて重ね合わされる。そうすることで、時間的な隣接画像からの情報を用いて画像内の広い領域を効率的に予測できる。
【0082】
全ての実施形態は、画像バッファ内の画像の画素ベースのグローバル動き推定と動きベクトル場ベースのグローバル動き推定のそれぞれを用いることで実現可能である。さらに、3Dまたは多視点ビデオコーディングの場合と同様に、時間的隣接画像のみならず空間的隣接画像に対してもフィルタリングの実行が可能である。この場合、フィルタリングは、各視点から時間的および空間的に隣接する画像を処理するよう拡張される。さらに、デプスマップまでもフィルタリング手法に含めることができる。
【0083】
グローバル動き時間フィルタリング
所与の信号におけるノイズ低減のための簡易技術は平均化に基づく。エンコーディングおよびデコーディング後のブロッキングアーティファクトは、ホワイトノイズと同じ特性を有するとみなされる。従って、ブロッキングアーティファクトおよび量子化ノイズの削減に時間平均フィルタリングの考え方を適用できる。画像信号Xのノイズを含む特定の表現(画像)セットYの入手可能性を前提に、算術平均を用いて画素x(m,n)毎に歪みを減らすことができる。その目的のために、N個の画像信号Xの合計が画素毎に算出される。下式をk番目の画像の歪みを含む画素の値とする。
【数1】
平均値は下式で算出され、
【数2】
ここで、r(m,n)は平均ノイズ信号である。ホワイトノイズは、分散σn
2と下式の自己相関行列によって決まる。
【数3】
ノイズの分散は、時間フィルタリング手法を用いて因数Nで低減される(1/Nに低減される)。従って、平均ノイズ信号の分散は下式で算出される。
【数4】
このように、ノイズの分散は因数Nで低減される(1/Nに低減される)。
【0084】
通常のハイブリッドビデオコーデックの画像バッファには、ビデオ・シーケンスからデコードされた画像が収納される。量子化の粗さに応じて、これらの画像のブロッキングアーティファクトと量子化ノイズの程度が増減する。本発明では、上述した理論的背景をデコードされたデータの効率的な品質向上手段としている。それはより良い主観的評価をもたらすとともに、エンコーダとデコーダのそれぞれにおいて生成される予測信号の品質を向上させる。
【0085】
多くのビデオ・シーケンスは移動カメラで記録されてきたため、これらのビデオ・シーケンスの背景領域は固定されていない。理論考察の観点から、これは、画像バッファが、重畳されたノイズのみ異なる一連の同等信号を含むのでなく、ノイズを含む一連の異なる信号を含むことを意味する。この問題は、カメラが行う動きを説明し、この動きを補償して信号が空間的に整列するようにする、高次の動きモデルを使用することで解決できる。空間的に整列された表現(画像)は、結果としてノイズ分だけが異なる同等信号とみなせる。殆どの場合、下式による周知の透視動きモデルのような8パラメータ高次動きモデルは、背景の動きを十分に上手く説明する。
【数5】
上式において、(x
p,y
p)
Tは画像I
p内の画素の位置であり、(x
q,y
q)
Tは画像I
q内のそれに対応する位置である。パラメータm
0乃至m
7は、並進、拡大縮小、回転および透視変換による動きを特徴付ける。
【0086】
画像バッファからの一対の画像に対する動きモデルは、任意のGMEアルゴリズムを用いて推定できる。基本的に2つの種類のアルゴリズムがあり、画素ベースと動きベクトルベースである。画素ベース手法は非常に巧妙に動作するが、低い計算量への対応能力に欠ける。また一方の動きベクトルベース手法は、しばしば非常に素早く動作するが精度は落ちる。
【0087】
画素ベースアルゴリズムは例えば、研究(前記非特許文献8,9を参照)に基づく階層的勾配降下技法として応用できる。このアルゴリズムは、先ず、レジストレーションを行う2つの画像に対する4ステップ画像ピラミッドを生成する。画像ピラミッドは、原画像、2つのダウンサンプリングされた画像、およびアップサンプリング領域の画像を含む。ダウンサンプリング用として5タップルガル(Le−Gall)ウェーブレットフィルタを用い、アップサンプリング用として7タップドブシー(Daubechies)ウェーブレットフィルタを用いる。第1勾配降下ステップは、最も粗い解像度で実行され、Kanade等によって提唱された特徴追跡装置(フィーチャートラッカー)(前記非特許文献10を参照)を用いた並進動きモデル(translational motion model)で開始される。続いて、そのアルゴリズムは、初期設定として前のステップによる動きパラメータを用いて画像ピラミッドの他の各層毎に勾配降下ステップを実行する。このようにして、N個の画像を持つ1シーケンスにつき、時間的隣接画像間の短時間変位を表す下式の1セットの変換行列
【数6】
と、下式で表されるそれの逆行列セット
【数7】
とが作成され得る。但し、各W
p,qは下記の通りである。
【数8】
【0088】
次に、これらの短時間動きモデルは、単純な行列の掛け算によって長時間パラメータセットに変換できる。このようにして、そのセットからの任意の画像ペア間の動きが得られる。長時間動きモデルの生成は
図2に示される。
【0089】
画像バッファからとり出されるN個の画像からなる1画像セットは、グローバル動き時間フィルタリングに使用されるものとする。先ず、基準座標系が選択されなければならない。これは、画像バッファ内の任意の画像の座標系であってよいし、若しくは現在エンコードされつつある画像の座標系ですらあってよい。選択された座標系へ画像を変換するために、次に画像とその基準画像との間の長時間動きが補償される。このようにして、空間的に整列した画像群(a stack of spatially aligned pictures)が生成され、それは
図3に例示的に示される。
【0090】
次に、この1画像群内の画像を合成して基準画像のフィルタリングされた表現(画像)を形成する。この目的のために所謂混合(ブレンディング)フィルタが用いられる。混合フィルタは、例えば基準画像までの時間的間隔に応じた加重算術平均、または重ね合わせる全ての画素の単純なメジアンの算出など任意の手法とすることができる。前景または背景の動きの激しさ次第で、前景オブジェクトは基準画像のフィルタリングされた表現(画像)から消え去る。従って、応用によっては、レシーバがフィルタリング後の前景オブジェクトを復元できるようフィルタリング前に基準画像に対して追加のセグメンテーションステップを実行しても良い。
【0091】
ビデオ・シーケンスにおいてグローバル動き補償時間フィルタリングされた画像を生成する技術は、超解像度画像作成、すなわち幾つかのより低解像度の表現(画像)から画像の高解像度複製を生成する手法にも適用できる。超解像度画像作成のためのアルゴリズムは、ある任意の画素は通常、列内の多数の画像内で観察されるという事実に基づく。動き補償の後、画素の変換後座標が完全整数の画素位置に該当するは殆どない。従って、より解像度が高いバージョンの生成が可能となる。後から説明する実施形態のうちの幾つかにおいて、この事実は準画素動き推定精度に活用され得る。時間フィルタリングされた画像はどのような方法でも生成されるので、その超解像度バージョンの生成も可能となり、それは通常のハイブリッドビデオコーディング環境に組み込まれた補間の代わりとなる。
【0092】
応用シナリオ
この章では、3つの考えられる応用シナリオおよび、通常のハイブリッドビデオコーディング環境に組み込まれる、2章で述べられているアルゴリズムに関する様々な実施形態を述べる。第1のシナリオは、エンコーダにおいて考え得る最高の品質の評価が可能なレシーバ用後処理フィルタとしての使用法を説明する。第2のシナリオでは、グローバル動き時間フィルタリング手法が、エンコーダ内とデコーダ内の同じ位置で通常のH.264/AVCデブロッキングフィルタとして使用される。ここでは、その目的は、MCPを強化して予測信号生成を改善し、残余値および伝送に必要なビットレートを低減させることである。さらに、時間フィルタリング手法は、通常の空間的デブロッキング技術と組み合わせることができる。 最後のシナリオは、通常のイントラおよびインター予測に加えてビデオコーディング環境に新たな予測モードを追加する。ここでは、エンコーダは、RDOの観点から、通常モードのひとつ、または新たなグローバル動き時間フィルタリングモードのどちらを用いてマクロブロックを予測するかを決定する。
【0093】
後処理
第1の好ましい実施形態において、上記の手法を用いてレシーバにビデオ(映像)の考え得る最高の品質の提供を確保することができる。通常のハイブリッドビデオコーディング環境に組み込まれるグローバル動き時間フィルタリングアルゴリズムは
図4a,
図4bに示される。単純化のため、ここで重要でない情報は省略されている。エンコーダとデコーダの両方において、そのアルゴリズムは実行される。エンコーダ側においては、それは、画像バッファから歪みを有する考え得る最良の時間的隣接画像セットを選択して、現在の画像のフィルタリングされたバージョンを生成するためだけに行われる。
【0094】
アルゴリズムは、エンコーダループ内に直接組み込まれていないが、画像バッファおよび原画像に自在にアクセスできる。予測構造の種類に応じて、すなわちI‐ピクチャ、P‐ピクチャ、またはB‐ピクチャを用いて、画像バッファは現在の画像I
pの時間的隣接画像セットI
pb,t-iを収納する。また一方、画像バッファは、多視点コーディング環境においては異なる視点からの空間的に隣接する画像も収納できる。現在の画像は局所的にデコードされ次第、画像バッファ内に歪みを有する表現(画像)I
pb,tとしても格納される。次に、画像バッファ内の要素の全てまたはサブセットだけを用いて現在の画像のフィルタリングされた表現(画像)I
t,filteredを形成する。現在の画像は局所的にデコードされたばかりで今画像バッファの一部を占めていると想定する。グローバル動き時間フィルタリングアルゴリズムは、引き続いて画像または画像のコヒーレント領域だけをI
pb,tの座標系へ変換する。よって、関連する画像間の長時間動きパラメータは既知でなければならない。そのために、バッファ内で画像間、または領域間でGMEが実行される。画像バッファのサブセットをI
pb,tの座標系へ変換することにより、画像群が生成され合成されて現在の画像のフィルタリングされた予備的表現(画像)が形成される。そのアルゴリズムは、画像バッファの考え得る全てのサブセットに対する予備的表現(画像)を生成できる。画像バッファサイズによっては、考え得る全てのサブセットの使用は計算量の問題になり得るため、ここでは連続する画像セットだけを使用する。
【0095】
図5は、画像バッファ内部での例示的画像変換プロセスを示す。時間的または空間的隣接画像I
pb,t-1乃至I
pb,t-3に加えて、現在の画像I
pb,tが画像バッファ内に格納されていることが分る。そのアルゴリズムは小さな領域に限定されることなく画像全体に対しても実行が可能であるが、この例では、一部のマクロブロックの小さなコヒーレント領域だけがフィルタリングされねばならない。フィルタリングを施される領域が元の画像の中で変換を受けたことが分る。この変換は、グローバル動きに対する補償によって元に戻すことができる。その結果、画像I
pb,tとその隣接画像間の長時間グローバル動きは、2章で述べたGMEアルゴリズムを用いて推定された。その領域は画像I
pb,tの座標系へ変換され、空間的に整列された画像の画像群を生成する。
【0096】
この画像群の一部が
図6に見られる。描かれているのは、空間的に整列された画像の1つの配列である。フィルタリングを施される領域内の画素に陰影が付けられている。画像I
pb,tそのものとそれの隣接画像の変換された表現(画像)I
pb,t-1乃至I
pb,t-3が、陰影付き領域に対する所与のフィルタを用いて合成される。それによって、フィルタリングされた予備的表現(画像)が生成される。最高品質を有する表現(画像)が最終的なフィルタリングされた画像I
t,filteredとして選択される。生成のために用いられる画像の数またはそのインデックスは、付帯的情報としてレシーバに伝送される。
【0097】
品質を測定するために、背景領域に対してPSNRまたはSSIMのような客観品質評価基準を用いて、各予備的表現(画像)は原画像I
tと比較される。フィルタリングが施される領域によっては、品質評価の前に前景エリアと背景エリアとに領域を分割する追記のセグメンテーションステップが必要となる場合がある。それは、前景オブジェクトがしばしばグローバル動き以外の動きをしてフィルタリングされた画像から消え去ってしまうことがあるという事実によるためである。それに対し、領域全体がグローバル動きに準拠している場合には、セグメンテーションを行う必要はない。セグメンテーションは、前処理ステップにおいて非圧縮データを用いて、または画像バッファを用いて行うことができる。正しいバイナリマスクを確保しさえすればよいので、更なるアルゴリズムの定義はされない。本発明では、非等方的拡散ベース背景除去技術(前記非特許文献11を参照)を使用している。このマスクを用いることで、レシーバにおいてグローバル動き時間フィルタリングステップ中除去されていた前景セグメントが復元可能となる。エンコーダにおいて、このマスクは、単に前景領域を品質測定対象から外すために用いられる。前景エリアは、後で通常の空間的デブロッキング技術を用いてフィルタリングできる。
【0098】
オリジナルビデオデータを用いてバイナリ前景オブジェクトマスクが生成されている場合、エンコーダは、通常のビットストリームに加えてバイナリ前景オブジェクトマスクを伝送する。同時に伝送されるのは、フィルタリングされた表現(画像)の生成に用いられる画像の数またはそのインデックスである。このようにして、レシーバは、生成ステップおよび前景セグメントの復元を繰り返すことでビデオ・シーケンスを復元できる。
【0099】
第2の好ましい実施形態において、時間フィルタリングは、エンコーダとデコーダの両方において実行される。これは
図7a,
図7bに示されている。時間フィルタリングは、画像バッファと動き補償予測によって作られる動きベクトルの両方にアクセス可能である。第1の好ましい実施形態を除いて、動きベクトルがGMEのために用いられる。従って、デコーダの時間フィルタリングもまた動きベクトルにアクセス可能であり、エンコーダにおける結果を再生する。ここでもまた、追加のセグメンテーションを行って前景エリアをフィルタリングの対象から外す。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0100】
第3の好ましい実施形態において、エンコーダひいてはエンコードされたビットストリームは変化しない。時間フィルタリングは、ビデオ・シーケンスをレシーバに示す前にデコーダにおいてのみ実行される。フィルタリングは、画素ベースGMEを用いて行われる。フィルタリングに最適なフレームインデックスがレシーバに伝送されないため、その手法は、所定の隣接画像セットをフィルタリングするか、または基準として原画像を採用することに依存しない品質基準を利用するかのいずれかしかない。この実施形態は
図8a,8bで例示される。それは、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0101】
第4の好ましい実施形態においても、時間フィルタリングはデコーダにおいてのみ実行される。第3の好ましい実施形態を除いて、第4の好ましい実施形態は通常のGMEのためのビデオエンコーダによって伝送される動きベクトル場を利用する。これは
図9a,9bに見られる。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0102】
第5の好ましい実施形態において、時間フィルタリングは、エンコーダとデコーダの両方において実行される。初めの2つの実施形態を除いて、追加のセグメンテーションは行われず、従って前景オブジェクトマスクはレシーバに伝送されない。この手法は
図10a,10bに見られる。時間フィルタリングに必要なGMEは、画像バッファ内の画像に対して所与の画素ベース手法を用いて行われる。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0103】
第6の好ましい実施形態において、時間フィルタリングは、GMEのための動き補償予測によって与えられる動きベクトル場を用いてエンコーダとデコーダの両方において実行される。例示的ブロック図については
図11a,11bを参照。エンコーダにおいてセグメンテーションマスクは生成されない。従って、レシーバに伝送される唯一の追加の情報は、フィルタリングのための参照用インデックスセットである。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0104】
第7の好ましい実施形態において、後処理のための時間フィルタリングはデコーダにおいてのみ実行されるが、さらに、レシーバにバイナリオブジェクトマスクを伝送するために、エンコーダにおいてオリジナルデータを用いてセグメンテーションステップが行われる。これは
図12a,12bで例示的に示される。ここでは、時間フィルタリングは、画素ベースGME手法を備えたデコーダにおいて画像バッファ内のデータのみを用いて実行される。
【0105】
第8の好ましい実施形態は第7の実施形態の発展形である。それは
図13a,13bに示され、時間フィルタリングシーケンスの演算だけが異なり、すなわち、それは通常のビットストリームによって与えられる動きベクトル場を利用している。
【0106】
予測1‐ 動き推定向上
上記の実施形態を除いて、グローバル動き時間フィルタリング手法は予測に直接使用することができる。
図14a,14bは、通常のハイブリッドビデオコーディング環境の予測ループに組み込まれる新技術としての第9の好ましい実施形態を示す。単純化のため、インター予測以外の予測モードは省略されている。
【0107】
ブロッキングアーティファクトの低減能力故に、通常のデブロッキングフィルタがMCPのための前処理ステップとしての予測ループ内に組み込まれている。これらのアーティファクトは、知覚される画質に影響を及ぼすだけでなく、動き推定の結果を損なう。最新のデブロッキングフィルタは性能が向上しているが、依然としてブロッキングアーティファクトは目に見える。それ故に、通常のH.264/AVCデブロッキングフィルタの他にグローバル動き時間フィルタリング手法が使用される。
【0108】
使用する手法に関わらず、MCPのためには常に基準に対してフィルタリングが実行される。グローバル動き時間フィルタリングの場合、合成および品質評価を行う前に画像バッファからの時間的または空間的に隣接する画像の変換が行われる。上記の実施形態以外では、フィルタリングされた画像は暫くの間保存する必要がある。それは、フィルタリングされた表現(画像)は、動き推定のための基準として利用可能にする必要があるという事情による。
【0109】
図15は、画像バッファからの画像のMCPのための基準の座標系への変換プロセスを例示的に示す。現在の画像I
tはインター予測を用いてエンコードされることになる。従って、その基準I
pb,t-1は動き推定を用いてブロック一致を見出すために使用されることになる。基準がブロッキングアーティファクトを含むと仮定して、これらのアーティファクトはグローバル動き時間フィルタリング手法を用いることで低減できる。時間的隣接画像I
pb,t-2およびI
pb,t-3からのフィルタリングを施される領域は、結果として基準画像の座標系へ変換される。3.1章で述べたように、動き補償のプロセスに関わる画像間の長時間動きを知る必要がある。こうして、GMEもまたその手法に組み込まれる。変換プロセスは空間的に整列された画像による画像群を生成する。
【0110】
この画像群の一部が
図16に見られる。描かれているのは、空間的に整列された画像の1つの配列である。フィルタリングを施される領域内の画素に陰影が付けられている。画像I
pb,t-1すなわちMCPのための基準とその隣接画像I
pb,t-2およびI
pb,t-3から変換された領域は、陰影付き領域に対する所与のフィルタを用いて合成される。それによって、フィルタリングされた予備的表現(画像)が生成される。例えばPSNRまたはSSIMの観点から見て最高品質を有する表現(画像)が最終的なフィルタリングされた画像I
pb、t-1,filteredとして選択できる。従って、画像バッファから一定量の見込みのあるサブセットがフィルタリングプロセスのためにテストされる必要がある。
【0111】
最良となる見込みのあるフィルタリングされた基準の表現(画像)が入手可能となった後、それはMCPにおいて使用される。動き推定は、普通にデブロッキングされた画像と時間フィルタリングされた画像の両方を基準として用いてブロック毎に実行される。並進動きベクトルを用いたかかるブロック一致例は
図15に見られる。誤差をより小さくする基準からのブロックは、続いて動き補償に使用される。前景オブジェクトが時間フィルタリングされた画像から消え去っても、上記の実施形態の内の幾つかで述べられたような追加のセグメンテーションステップは、この場合は必要としないことを明確に述べなければならない。それは、これらのエリアは、前景セグメントが消え去らない普通にデブロッキングされた画像を用いる場合よりも誤差が大きくなる可能性が非常に大きいからである。
【0112】
準画素動き推定については、全ての更なる実施形態の場合と同様に、超解像度バージョンの生成が可能となる。
【0113】
通常のビットストリーム以外に、エンコーダは、フィルタリングされた表現(画像)の生成に使用する画像の数またはそのインデックスをレシーバに伝送しなければならない。さらに、ブロック毎に使用されるフィルタの種類を付帯的情報として伝送しなければならない。ビデオ信号の復元のために、レシーバは、通常のビットストリーム、フィルタの種類およびフレームインデックスをデコードして、ブロック毎に使用されるフィルタの種類に応じて通常のデブロッキングまたはグローバル動き時間フィルタリングを適用する。
【0114】
第10の好ましい実施形態において、通常の空間的デブロッキングに加えて時間フィルタリングが実行される。第9の好ましい実施形態を除いて、時間フィルタリングは、GMEのための動き補償予測によって生成される動きベクトル場を用いて実行される。エンコーダは、予測誤差を最小化するように通常の空間的デブロッキング又は時間フィルタリングを使用するかを決定する。従って、動き推定のために最良が見込まれるものが用いられる。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。この手法は
図17a,17bに見られる。
【0115】
第11の好ましい実施形態において、通常の空間的デブロッキングは、時間フィルタリングが行われる前に実行される。これは、
図18a,18bに示すブロック図で例示される。エンコーダは、空間的デブロッキングまたは空間的デブロッキングと動き推定のための時間フィルタリングとの組合せのどちらを使用するかを決定する。時間フィルタリングは、画素ベースGMEを用いて画像バッファ内の画像に対して実行される。本章の他の実施形態と同様に、フィルタリングに使用される画像インデックスは、フィルタリングされる画像または領域のために用いられるフィルタリングの種類とともに付帯的情報としてレシーバに伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0116】
第12の好ましい実施形態において、通常の空間的デブロッキングは、時間フィルタリングが行われる前に実行される。第11の好ましい実施形態を除いて、時間フィルタリング内のGMEは、動き補償予測によって生成される動きベクトル場を利用して実行される。これは
図19a,19bに見られる。ここでもまた、エンコーダは、画像または領域ベースで使用される技術を決定する。フレームインデックスも同じく伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0117】
第13の好ましい実施形態において、通常の空間的デブロッキングが、時間フィルタリングと空間的デブロッキングとの組合せに加えて実行される。ここでは、空間的デブロッキングは時間フィルタリングの後で実行される。時間フィルタリングには、グローバル動き補償のための画素ベースGME手法が用いられる。エンコーダは、生成される最良の予測信号に応じて使用すべき技術を決定する。フレームインデックスならびに画像および/または領域に使用される技術がレシーバに伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0118】
第14の好ましい実施形態は第13の実施形態の発展形である。第13の実施形態と異なる点として、動き補償予測によって生成される動きベクトル場は、時間フィルタ内のGMEに使用される。ここでもまた、エンコーダは、空間的デブロッキングだけを使うか、または時間フィルタリングと空間的デブロッキングとの組合せを使うかを決定する。また、フレームインデックスならびに画像および/または領域に使用される技術もレシーバに伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0119】
予測2‐ 追加の予測モード
通常のハイブリッドビデオコーディング環境に組み込まれるグローバル動き時間フィルタリングのための実施形態の三番目の一群は、追加の予測モードとしてのその使用法を説明する。第15の好ましい実施形態は
図22に示される。この応用シナリオにとって重要でない情報は省略されている。
【0120】
ここでは、通常のイントラおよびインター予測に加えて追加の予測モードとしてその手法が用いられる。インター予測におけるMCPは、動き推定に用いられるブロックマッチング技術に依存するだけである。伝送される変換パラメータの量子化が粗くなると、ブロッキングアーティファクトと大量の量子化ノイズを含む局所的にデコードされた画像を生み出す。これは、局所的にデコードされた画像の品質に強く依存するブロックマッチングの結果を左右し、ひいては誤りを含む動きベクトルデータを生み出す。さらに、最新のブロックマッチング技術は、最高1/4画素レベルの精度を有するものの、並進動きベクトルを遂行するだけである。2つの連続する画像間の動きは並進動きモデルで近似できるという仮定は、一部の場合では正しいかも知れないが、ズーミング、回転、シャーリング、透視変換等の複雑な動きタイプが発生する場合は、その限界に突き当たる。これらの問題はコーダ(符号器)の機能性には影響を及ぼさなくとも、原画像と予測信号の間の減算後の無益な大きな残余データにつながる恐れがあることを強調しなければならない。これもまた、レシーバに伝送する不要な余剰ビットを生み出す。
【0121】
追加の予測モードとしてグローバル動き時間フィルタリングを用いて予測を大幅に向上させることが可能で、ひいては予測誤差すなわち残余データを低減できる。エンコードされる現在の画像の時間的フィルタリングされた表現(画像)が、より高次の動きモデル、この場合は8パラメータ透視動きモデルを用いて生成されるため、それが達成できる。さらに、それは幾つかの時間的または空間的に隣接する局所的にデコードされた画像を用いて形成される。量子化のレベルに応じて、これらの画像はブロッキングアーティファクトと量子化ノイズを含み、それらはフィルタリングされた画像において低減されるべきものであり、フィルタリングされた画像の生成においてそれらを考慮すればするほど、画像間の動きの推定は向上する。
【0122】
図23は、現在の画像に対する予測信号を生成するための画像バッファからの情報の変換プロセスを例示的に示す。現在エンコードされつつある画像をI
tとする。その場合、画像全体またはそれの小さなコヒーレント領域だけを事前にデコードされた画像を用いて予測できる。この例では、画像I
t内の一部のマクロブロックに対して前の画像において変換プロセスが行われた。現在の画像と画像バッファに含まれる画像との間の長時間動きを予測することにより、その動きに対する補償が可能となる。それにより、空間的に整列された画像による画像群が生成される。画像I
tはグローバル動き推定の一部であるが、デコーダはそれに対する知識がない中予測信号を再生しなければならないため、画像I
tは合成プロセスの中に含まれてはならないことを明確に述べなければならない。
【0123】
画像群と合成プロセスが
図24に見られる。画像I
pb,t-1乃至I
pb,t-3は、I
tの座標系へ変換されてI’
pb,t-1乃至I’
pb,t-3となる。フィルタリングが施されるコヒーレント領域は、陰影付き画素として表されている。次に、対応する画素が合成されて現在の画像I
tに対する予測信号I
t,predを形成する。
【0124】
予測信号の生成に対して、画像バッファからの画像の全てまたはサブセットだけを考慮することができる。現在の画像の考え得る全ての予備的表現(画像)をすでに生成しているので、これらからのマクロブロックを予測するのにこれらを使用できる。画像バッファのコンテンツは常に利用可能なため、新予測モードをスライスおよび画像それぞれのインター予測とともにイントラ予測に使用できる。任意のマクロブロックに対して、考え得る全ての表現(画像)を使用して、最小誤差の観点から最良の予測を実現するものが選択される。その上、通常の規格化された全ての予測モードを試してみて、最小の予測誤差を達成するものがその先の処理のために選択される。マクロブロックに対してグローバル動き時間フィルタリング予測が使用される場合、エンコーダは、通常のビットストリームに加えて、付帯的情報として予測信号の生成のために使用される画像のインデックスをレシーバに伝送しなければならない。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0125】
第16の好ましい実施形態において、追加の予測モード内の時間フィルタリングは、動き補償予測によって与えられる動きベクトル場を用いて実行される。この手法は
図25a,25bに示される。ここでもまた、エンコーダは、領域毎にレート歪みの観点でどの種類の予測を選択するかを決定する。フレームインデックスは、デコーダにおける予測の再生のために付帯的情報としてレシーバに伝送される。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。
【0126】
組合せの応用
第17の好ましい実施形態において、時間フィルタリングは、通常のハイブリッドビデオコーディング環境に二重に組み込まれる。この実施形態は、ブロック図として
図26a,26bに示される。ここでは、時間フィルタリングは、一方で画像バッファ内にある利用可能な画像を用いる追加の予測モードとして実行される。他方で、時間フィルタリングは、動き推定向上のための通常のデブロッキングに加えて行われる。このようにして、エンコーダは、考え得る最良の予測モードおよびフィルタリング方法を選択して最適レート歪みを達成する。この実施形態は、画像バッファが異なる多視点からの空間的に隣接する画像で構成される多視点コーディング状況に拡張できる。この実施形態は、先に説明した全ての実施形態についての可能な組合せの一例に過ぎない。