(58)【調査した分野】(Int.Cl.,DB名)
前記低オブジェクト重み付けフレームについてオリジナルのマクロブロック画素と2つ以上の符号化モードの符号化されたマクロブロック画素との間の絶対値差の合計(SAD)を決定するステップと、
前記低オブジェクト重み付けフレームについての前記絶対値差の合計を決定するステップにおいて少なくとも1つの他の符号化モードよりも小さな絶対値差の合計を有する符号化モードを選択するステップと、
当該選択するステップで選択されたそれぞれの符号化モードに従って前記低オブジェクト重み付けフレームを符号化するステップと、
を含む、請求項1記載の方法。
【発明を実施するための形態】
【0013】
本発明は、量子化パラメータ(QP:quantization parameter)オフセット、重み付け歪みメトリック、及び知覚量子化(QP)オフセットを含むハイブリッド方法によってオブジェクトプレザベーション(preservation)を改良することを目的とする。
【0014】
本発明は種々のタイプのオブジェクト認識エンコーダに適用可能であり、重要なオブジェクト若しくは領域を構成するマクロブロックについてQP若しくは量子化ステップサイズを減ずることを含むことができ、さらに、重要でないオブジェクト若しくは領域を構成するマクロブロックについてQP若しくは量子化ステップサイズを減ずることも含み得る。
【0015】
本発明の一実施形態において、方法はビデオの中の重要なオブジェクトをプレザーブする。幾つかの条件に基づいて、エンコーダは例えばQPオフセット、重み付け歪み計測値、及び知覚的QPオフセット(またはこれらの組み合わせ)を関連マクロブロック(MB)に対して使用することができる。新規な重み付け歪み計測値が導入され、これにより、オブジェクト情報は符号化モード決定に影響を与えることができる。
【0016】
図1は本発明の実施形態に適用することができるオブジェクト強調表示システムを示している。特に、本発明に従って構成されたオブジェクト強化(強調)システムはトランスミッタ10内に全コンポーネントを含むか、オブジェクト強化コンポーネントはレシーバ20内にある。オブジェクト強調表示が実行されるプロセスチェーンにおいて3つのステージがある。3つのステージとは、(1)オブジェクトが符号化(圧縮)ステージの前にトランスミッタ10において強化(強調)されるという前処理と、(2)オブジェクトおよびその位置に関する情報をリファインすることによって、オブジェクトを含む対象領域に対して、トランスミッタ10において特別な処理を行うという符号化と、(3)メタデータとしてビットストリームを介してトランスミッタ10から送信されるオブジェクト及びその位置に関する副次的情報を使用して復号化した後、オブジェクトをレシーバ20内で強化するという後処理である。本発明に従って構成されたオブジェクト強化システムは、前記した3つのステージの1つのステージのみにおいてオブジェクト強調表示を提供するか、2つのステージにおいてオブジェクト強調表示を提供するか、3つのステージ全てにおいてオブジェクト強調表示を提供することができる。
【0017】
デジタル映像内のオブジェクトの見え方(ビジビリティ、視感度、鮮明度)を強化する
図1のシステムは、対象オブジェクトを含む入力ビデオを提供する手段を備える。ビジビリティ強化対象となるオブジェクトを含むデジタル映像のソースは、従来の構造及び機能を有するテレビカメラであってよく、矢印12によって表されている。
【0018】
図1のシステムはまた、対象オブジェクトの性質及び特徴を表す情報(例えば、オブジェクトテンプレート)を記憶すると共に、ビデオ入力、当該オブジェクトの性質及び特徴を表す情報に応じてオブジェクトを特定してその位置を見つけるオブジェクト位置特定情報を生成する手段を備える。このような手段は
図1においてオブジェクト位置特定モジュール14として示されており、入力ビデオをフレーム毎に走査して、記憶されている対象オブジェクトの性質及び特徴を表す情報と同様の性質及び特徴を有する映像中のオブジェクトを特定し(つまり、何がオブジェクトであるのかを見つけ)、オブジェクトの位置を見つける(つまり、オブジェクトがどこにあるのかを見つける)手段を含む。オブジェクト位置特定モジュール14は入力ビデオのデジタル映像をフレーム毎に走査する従来の構造及び機能を有するユニットであってよい。このユニットは、走査された入力ビデオのデジタル映像のセクタ(sectors)を記憶された対象オブジェクトの性質及び特徴を表す情報と比較して、対象オブジェクトを特定し、デジタル映像のグリッド座標値によりその位置を見つける(位置を確認・特定する)。ユニットによる比較及び位置確認は、特定のセクタの走査から得られる情報が前記記憶されたオブジェクトの性質及び特徴を表す情報と同様な情報である場合に行われる。
【0019】
通常、オブジェクト位置特定モジュール14は対象オブジェクトを特定して位置を確認(認識)する際に下記の方法の1つまたは複数を実行する。
【0020】
・オブジェクトトラッキング法。オブジェクトトラッカ(トラッキング手段)の目的は、ビデオ内で動いているオブジェクトの位置(軌道)を見つけることである。典型的な場合、トラッカは、前のフレームから移動するオブジェクトの履歴が与えられると、現在のフレームにおけるオブジェクトパラメータ(例えば、位置、サイズ)を推定・予測する。トラッキング法は例えば、テンプレートマッチング、オプティカルフロー(optical flow)、カルマンフィルタ、平均値シフト法(mean shift analysis)、隠れマルコフモデル、パーティクルフィルタ(particle filter)に基づいて実施され得る。
【0021】
・オブジェクト検出法。オブジェクト検出法の目的は、オブジェクトに関する前の知識に基づいて画像若しくはビデオフレーム内のオブジェクトの存在及び位置を検出することである。通常、オブジェクト検出法はトップダウンアプローチ及びボトムアップアプローチの組み合わせを採用する。トップダウンアプローチでは、オブジェクト検出法は、検出中のオブジェクトの人知(人間が持っている知識)から導出されるルールに基づいて行われる。ボトムアップアプローチでは、オブジェクト検出法はオブジェクトに低レベルの構造的特徴(部分)若しくはパターンを関連付け、これら特徴若しくはパターンをサーチすることによってオブジェクトの位置を見つける。
【0022】
・オブジェクトセグメンテーション法。この方法では、画像またはビデオがその構成「オブジェクト」に分解され、「オブジェクト」はセマンティックエンティティ(semantic entities)またはビジュアルストラクチャ(例えば、カラーパッチ)を含み得る。一般的に、この分解は、オブジェクトの動作、色、及びテクスチャ属性に基づく。オブジェクトセグメンテーション法は幾つかのアプリケーション・用途を有する(例えば、コンパクトビデオ符号化、自動コンテンツベース説明、半自動コンテンツベース説明、フィルムポストプロダクション、及びシーン解釈)。特に、セグメンテーション法は、シーンのオブジェクトベースの説明を提供することによってオブジェクト位置特定の問題を単純にする。
【0023】
図2はオブジェクト位置特定モジュール14によって提供される近似オブジェクト位置特定を示している。ユーザは例えば、オブジェクトが位置している領域の回りに楕円を描き、オブジェクトのおおよその位置を特定する。最終的には、近似オブジェクト位置特定情報(即ち、楕円の中心点パラメータ、長軸パラメータ、及び短軸パラメータ)を微調整することができる。
【0024】
理想的には、オブジェクト位置特定モジュール14は完全に自動化されたモードで動作する。しかし、現実的には(実際には)、システムによって生ずる誤差・エラーを補正すために幾らかのマニュアル補助が必要になるであろう。少なくとも、システムが位置特定すべき重要なオブジェクトを決める(画定する)ためには、マニュアル補助が必要になるであろう。オブジェクトではないエリアを強化すると、視聴者は混乱してしまい、本当の動作(アクション)がわからなくなってしまう可能性がある。この問題を回避するか最小限に抑えるために、ユーザは上記したようにオブジェクトの回りに楕円を描くことができ、その後、システムは指定された位置からオブジェクトをトラッキングする(たどる)ことができる。もしオブジェクトをフレーム内に見つけることができれば、オブジェクト位置特定モジュール14はこれに対応する楕円パラメータ(即ち、中心点、長軸、及び短軸)を出力する。理想的には、この範囲決定(境界画定)楕円の輪郭はオブジェクトの輪郭に一致する。
【0025】
しかし、パラメータがおおよそのものに過ぎず、結果として得られる楕円がオブジェクトをぴったり(隙間なく)オブジェクトを含まずにオブジェクト強化(強調)が適用されると、2つの問題が生じ得る。第1に、オブジェクトの全体が強化されない可能性がある。なぜなら、楕円がオブジェクト全体を含まないからである。第2に、オブジェクトではないエリアが強化されてしまう可能性がある。これら2つの結果は望まれないものであるので、このような場合、強化前にオブジェクト領域を微調整(精度向上、リファイン)することが有益である。オブジェクト位置特定情報の微調整(精度向上)については、下記に詳しく説明する。
【0026】
図1のシステムはさらに、オブジェクト位置特定モジュール14から受信されたオブジェクト位置特定情報及びビデオ入力に応じて、デジタル映像の一部の強化ビデオを作る手段を備える。デジタル映像の一部とは、対象オブジェクトを含み且つオブジェクトが位置している領域を含む部分である。このような手段は
図1においてオブジェクト強化モジュール16として示されており、従来の画像処理をこの領域に適用することによって、対象オブジェクトを含むデジタル映像の領域の見え方を強化する従来のユニット(構成も機能も従来技術)であってよい。オブジェクト位置特定情報はフレーム毎にオブジェクト位置特定モジュール14から受信される情報であって、対象オブジェクトが位置している所定サイズの領域のグリッド座標値を含む。さらに、上記したように、オブジェクト強化は強化ステージに続く符号化ステージの間にオブジェクトの品質低下を抑制するのに役立つ。これについては後述する。この時点までの
図1のシステムの動作が、上記において前処理モードと称されていた動作に対応する。
【0027】
オブジェクトを強化する際、オブジェクトの見え方(ビジビリティ)は対象オブジェクトが位置している領域に画像処理を適用することによって改善される。この処理は、オブジェクトの境界に沿って適用され(例えば、エッジをシャープにする)、オブジェクトの中に適用され(例えば、テクスチャ強化)、さらにオブジェクトの外にも適用されることもある(例えば、コントラストの増強、オブジェクトエリア外のぼかし)。例えば、オブジェクトにより多くの注意が向くようにする1つの手法は、オブジェクト内のエッジ及びオブジェクトの輪郭に沿ったエッジをシャープにすることである。これにより、オブジェクトの細部がよりはっきりと見えるようになり、且つ、オブジェクトが背景から際立つようになる。さらに、エッジがシャープになると、符号化が良い状態で維持される。可能性のある他の手法はオブジェクトの増補である。例えば、スムージング処理、シャープニング処理、及びオブジェクト精緻化(リファインメント)処理を繰り返し適用する(必ずしもこの順序で適用する必要はない)ことによって、オブジェクトを増補する。
【0028】
図3においてより簡素化した形で示されたオブジェクト強調表示システムは入力ビデオ305内の重要なオブジェクト310を検出し、適切な前処理315によってオブジェクト強化を行う。このシステムはまた、オブジェクトをプレザーブするオブジェクト認識エンコーダ320を有する。オブジェクト認識エンコーダは、符号化処理の間、対象オブジェクトをより良くプレザーブするためにオブジェクト位置特定モジュールからのオブジェクト情報を使用する。
【0029】
ビデオフレームのためのオブジェクト情報は「エンコーダ重みアレイ」W(x,y)で表される。これは複数の値のシーケンスであり、各値がフレーム内の各画素(x,y)に対応している。より重要なオブジェクトほど、その構成画素について、より大きな重みを有している。背景画素の重みは、慣例により0に設定することができる。
【0030】
オブジェクトをより良くプレザーブするために、幾つかの方法がオブジェクト認識ビデオエンコーダで使用されてもよい。これらプレザーブ法は、例えば、ナイーブQPオフセット、重み付け歪計測及び知覚QPオフセットである。
【0031】
ナイーブQPオフセット法は通常、エンコーダ重みアレイ(配列)を使用して、フレーム内のどのマクロブロック(MB)が対象オブジェクトを含むかを判定することができる。オブジェクトの重み及びマクロブロック内のオブジェクト画素数に応じて、適切なオフセットを適用してマクロブロックのQPを低減することができる。これにより、より多くのビットをマクロブロックに割り当てることができ、知覚品質を向上することができる。
【0032】
重み付け歪み計測を実行する場合、エンコーダは各マクロブロックについて幾つかのモード決定(例えば、イントラコーディング(intra coding)、インターコーディング、スキップコーディング、ディレクトコーディング、及び
図4に示されているマクロブロック区分け法(16x16、8x8、4x4等))を行う。このような決定はレートと歪(ディストーション)の間のトレードオフ(R−D tradeoff)に基づき、レートは割り当てられたビットの数に対応し、歪は符号化忠実度(コーディングフィディリティ)の計測値である。歪は通常、オリジナルのマクロブロックの画素値と符号化されたマクロブロックの画素値との間の絶対値差合計(SAD)として計算される。オブジェクトをより良くプレザーブするために、プロセスは重み付けされたSADを使用する。オブジェクト画素における差はオブジェクトでない画素(非オブジェクト画素)より大きな値で重み付けされる(1より大きな値で乗算される)。オブジェクト画素の重みはエンコーダ重みアレイから得られる。画素(x,y)の重みはW(x,y)+1によって与えられる。オブジェクト画素における歪を強調することによって、重み付けされた歪を計測すると、より良いオブジェクトのプレザベーションが得られる。なぜならレートと歪の最適化を行おうとすれば、マクロブロック歪全体を最小化するモードを選択することになるからである。
【0033】
知覚QPオフセット法は知覚フレームレベルQPオフセット法として特徴付けることができる。知覚QPオフセットは特に、知覚されるべきオブジェクトが多くのマクロブロックに亘っている場合に有用(便利)である。本質的に、知覚QPオフセットは基準フレーム(Iフレーム及びPフレーム)の質を向上し、よって、符号化効率全体を向上する。知覚QPオフセットは以下の関係を前提としている。
QP
I<QP
P<QP
B (1)
ここで、QP
I、QP
P、及びQP
BはそれぞれIフレームのQP、PフレームのQP、及びBフレームのQPを示している。一定の(定数の)フレームQPを用いたレート制御の式、つまり、フレームの最終的なQPを用いたレート制御の式は想定された一定のQP(全てのフレームについて同じ)をこのフレームのQPオフセットに合計したものである。この場合、各フレームタイプについて好ましいQPオフセットは同じように、
ΔQP
I<ΔQP
P<ΔQP
B (2)
となる。ここで、ΔQP
I、ΔQP
P、及びΔQP
BはそれぞれIフレームのQPオフセット、PフレームのQPオフセット及びBフレームのQPオフセットを示している。
【0034】
フレームレベルのQPオフセットの計算における他の重要なファクタは人間視覚システム(HVS:human visual system)のテンポラルマスキング効果またはモーションマスキング効果である。基本的に、人間の目の感度は、ハイモーション(high motion)フレームの品質低下に対する感度の方がローモーション(low motion)フレームより鈍い。よって、ローモーションフレームに適用されるQPよりも小さなQPがハイモーションフレームに適用されるべきである。なぜならハイモーションフレームは高いテンポラルマスキング効果を有しているからである。このとき、符号化されたビデオにおいては依然として同じレベルの知覚品質が知覚され得る。
【0035】
フレームにおけるテンポラルマスキング効果の量からフレーム毎のQPオフセット寄与度を効率的に計算する手法を探し、この手法をフレームタイプから得られるオリジナルの(元の)QPオフセット寄与度に適切に組み合わせる。結果として得られるフレームレベルのQPオフセットは、フレームタイプとテンポラルマスキング効果の双方を表しており、よって、より包括的なものになっている。この手法は、オフラインビデオ符号化におけるビデオクリップ全体またはビデオシーケンス全体のフレームビット割り当て(FBA:frame bit allocation)のために微調整される。これにも拘わらず、通常、この手法はオンラインのリアルタイムビデオ符号化にも適用することができる。この際、種々の程度の品質改善が、含まれた先読時間に応じて得られる。徹底的な(広範な、十分な)実験によって以下のことが判明した。即ち、オフラインビデオ符号化において全域最適化フレームビット割り付けから顕著な視覚品質向上を確実に得るためには、フレームタイプファクタよりもテンポラルマスキング効果をフレーム毎のQPオフセットにおいて説明する(重視する)ことが、より必要で且つ重要である。
【0036】
オンラインまたはオフラインのビデオ符号化についてのほとんどのレート制御スキームはフレームビット割り当てにおいてフレームタイプファクタだけを説明し、HVSマスキング効果による影響を全く説明しない。よって、オフライン符号化の場合、たとえ平均ピークSN比(PSNR:peak signal−to−noise ratio)で計測された客観的な符号化効率がフレームタイプベースのフレーム毎のQPオフセットのフレームビット割り当てを介したオンライン符号化よりも著しく改善されたとしても、顕著な知覚品質改善を見ることはできない。シーケンスの全フレームビット割り当ての全域最適化の故に、ハイモーションフレームはオンライン符号化の場合よりも多くのビットが割り当てられて符号化される。オンライン符号化の場合、ビットはまず各GOP(group of pictures)に割り当てられ、一定のビットレート(CBR:constant bit rate)を保証するために、GOPの割り当てられたビットは関与しているフレーム数だけに比例し(即ち、GOPのサイズだけに比例し)、異なる符号化複雑度(例えば、ハイモーションであるかローモーションであるか等)によって影響されない。従って、オフライン符号化の場合、多くのビットが与えられれば、ハイモーションフレームはオンライン符号化の場合よりも高いPSNRで符号化される。一方、ビットの総量(総数)は同じであるので、ローモーションフレームは低いPSNRで符号化される。この場合、PSNRの変化はかなり低減される。しかし、ほぼ一定のPSNRであることは、ほぼ一定の知覚品質であることを意味しない。HVSテンポラルマスキング効果のために、ハイモーションフレームPSNRゲインはローモーションフレームPSNR低下より著しく知覚されにくい。よって、全体的な知覚品質は大抵の場合、オンライン符号化より悪い。従って、クリップ全体の全域FBAにおけるテンポラルマスキング効果を考慮することが必要であり、知覚品質強化(向上)のためには重要であることが、本発明の手法により判明した。
【0037】
尚、テンポラルマスキングの原因となるFBAを含む手法はしばしば、分類分けベース若しくはフレーム複雑度ベースの基本レートモデルを有しているが、これはレート制御に広く採用されているR−QPモデリング法ほど正確ではなく、一般的でものでもない。さらに、テンポラルマスキングを考慮する広く採用された方法はFBAにおけるフレーム毎のQPを利用しないので、R−QPモデルベースのレート制御による手法に適用することはできない。
【0038】
よって、知覚フレームレベルQPオフセット法は実際には、テンポラルマスキングによるQPオフセット部分(ΔQP
Maskingとして示されている)とフレームタイプによる部分(ΔQP
Typeとして示されている)の適切な組み合わせである。このスキーム(考え方、やり方)は、リアルタイムのシングルパスコーディングに対してオフラインのマルチパスコーディングの知覚品質を著しく向上するために、重要なスキームである。
【0039】
フレーム複雑度メトリックを有するテンポラルマスキング効果は次のように定義される。
【0041】
Cmpl=max(0.1,Compl−2) (4)
ここで、Cmplはフレームの複雑度を示す。
【0043】
はフレームのMB毎の(1MB当たりの)平均MV符号化ビットを示す。
【0045】
はフレームにおける全MBに対する予測残余の平均化された平均絶対値差(MAD:mean−absolute−difference)を示す。よって、これらの合計はまさに現在のフレームのモーション強度を示し、等しく符号化複雑度及びフレーム間変化を意味する。式(3)の簡単な足し算は広範な実験による十分な経験則(ヒューリスティックス)から導出されている。
【0050】
、即ちCmplはすべて、フレームの符号化の前に最初の(元の)入力フレームに基づいて計算され、
【0052】
は輝度成分だけに関与する。計算は簡単な符号化プロセス(例えば、インター16x16モード及びイントラ16x16モードをチェックするだけ、並びに、整数モーションベクトルをサーチするだけ)に従う。
【0053】
式(3)から計算されるフレームの複雑度はさらに、式(4)によって制限が付けられる。複雑度が0.1未満の場合、予測残余はもともと含まれている(内在的な)画像ノイズによって存在すると考えられる。よって、最小複雑度を0.1に設定することができ、「ゼロで割り算する」エラーを回避することもできる。また、たとえモーションベクトル差が無くても、式(3)における最小平均モーションベクトルビット
【0055】
は2のままである。従って、この部分は常に除去される。
【0056】
尚、本明細書において、フレーム複雑度は順方向フレーム間予測だけによってフレーム毎に計算される。なぜなら、フレーム表示順序または視聴順序は順方向に進行するからである。つまり、任意のフレームについて、フレームタイプがどのようなタイプであったとしても(即ち、IフレームであってもPフレームであってもBフレームであっても)、モーション強度やそのモーションマスキング効果を計測する際には式(3)で計算されるフレーム複雑度を使用するだけである。
【0057】
下記の式(10)から分かるように、最終的なQPオフセットは実際に、テンポラルマスキングによるQPオフセット部分(ΔQP
Maskingとして示されている)とフレームタイプによる部分(ΔQP
Typeとして示されている)の適切な組み合わせである。このスキームは、リアルタイムのシングルパスコーディングに対してオフラインのマルチパスコーディングの知覚品質を著しく向上するために、重要なスキームである。このスキームは次の計算を含む。
【0058】
・フレームnについてΔQP
Maskingを計算する。
【0060】
・フレームnがシーン変化フレームである場合、式(5)の代わりに次の式を用いる。
【0062】
ΔQP
Masking(n)=a・Compl
Masking(n) (7)
【0065】
ここで、K=1。2K+1=3がウインドゥサイズである。Complmax=40。a=0.5。Nはビデオクリップにおける全フレーム数である。ΔQP
Masking.max=8であるとき、
ΔQP
Masking.min=−8
・フレームnについてΔQP
Typeを計算する。
【0066】
・Iフレームなら、
GOPSize=1の場合 →ΔQP
Type(n)=0
それ以外で、もしGOPSize
<10なら
{
もしGOPAvgCompl<6なら、→ΔQP
Type(n)=−6
それ以外で、もしGOPAvgComple<14なら、→ΔQP
Type(n)
=−4
それ以外は →ΔQP
Type(n)=−2
}
それ以外
{
もしGOPAvgCompl<6なら、 →ΔQP
Type(n)=−8
それ以外で、もしGOPAvgCompl<14なら、→ΔQP
Type(n)=
−6
それ以外は →ΔQP
Type(n)=−4
}
・Pフレームなら、
もしBフレームの予測に用いられるならば、→ΔQP
Type(n)=−2
それ以外は →ΔQP
Type(n)=0
・Bフレームなら、→ΔQP
Type(n)=+4
ここで、GOPAvgComplは最初のIフレームを除く現在のGOPの平均フレーム複雑度である。
【0067】
・フレームnについて最終的なΔQPを計算する。
ΔQP(n)=min(ΔQP
max,max(ΔQP
min,ΔQP
Masking(n)+ΔQP
Type(n))) (10)
ここで、ΔQP
max=15、ΔQP
min=−15。
【0068】
式(5)においてフレームのテンポラルマスキング複雑度は所定サイズのウインドゥ(即ち、2K+1)において現在のフレームの隣にある複数のフレームの平均フレーム複雑度として計算される。これにより幾らかのローパスフィルタリング処理を適用することになり、フレーム複雑度のハイダイナミック変化(high dynamic change)によるフレームのテンポラルマスキング複雑度のハイダイナミック変化を回避する。
【0069】
シーン変化フレームの場合、そのフレーム複雑度は非常に高い可能性がある。よって、そのテンポラルマスキング複雑度は特別に式(6)のように計算される。ここで、最大の制約がフレーム複雑度に適用され、平均化処理は同じシーン内の順方向の複数の隣接フレームにのみ適用される。
【0070】
テンポラルマスキングフレーム複雑度が与えられると、テンポラルマスキング効果から得られるQPオフセットの部分は式(7)のように線形マッピングによって計算される。これは十分な経験則から導き出され、複雑度メトリックと共に効率的に使うことができる。次に、式(7)から得られるΔQP
Masking(n)が平均ΔQP
Maskingによって正規化され、式(9)に示されるように、所定の合理的な範囲内に納まる。
【0071】
本発明のΔQP
Typeの計算は式(2)に記載したような経験的な規則(ヒューリスティックルール)を具現化するものである。詳しくは、もしGOPがより多くのフレームを有するなら、または、もしGOPがローモーションであるなら、GOPの最初のIフレームにより多くのビットを割り当てることがより好ましい。なぜならGOPにおける後続フレームにとって、より大きな符号化効率(の利益)を与えるからである。従って、このような場合、よりネガティブなQPオフセットが望まれ、反対の場合もしかりである。
【0072】
テンポラルマスキング効果とフレームタイプ効果の双方からのQPオフセット寄与は、式(10)における簡単な加算及び限界値(範囲)設定により組み合わされる。式(10)から得られるフレーム毎のQPオフセットは、その後、R−QPモデリングベースのレート制御法に使用されて、シーケンス内の各フレームへの割り当てビットを計算する。この際、ビット割り当てにおける一定の品質のために、QPは一定であると仮定する。
【0073】
フレームレベルのビット割り当てについてのレート制御法に関する簡単な説明が下記においてなされる。
1.最適QP(QP
Opt)を探す場合、
【0075】
2.QP
Optに基づいて各フレームの割り当てビット予定量を計算する。
R
i,alloc=R
i(QP
Opt+ΔQP
i) (12)
ここで、R
Totalはビデオシーケンス全体に対するビットの総数を示す。Nはビデオシーケンス中のフレーム総数である。R
iはフレームiのビット数である。ΔQP
iは式(8)において計算された知覚フレームレベルQPオフセットである。R
i,allocはフレームiに対する割り当てビット数である。
【0076】
全域最適化R−QPモデルベースのフレームレベルビット割り当てにおいて知覚フレームレベルQPオフセットを使用したビデオシーケンス全体の処理方法500の例が
図5のフロー図に示されている。図示されているように、入力ビデオシーケンス全体が受信され、各フレーム毎に上記した簡素化された符号化法(式(3)及び(4))を用いてフレーム複雑度が計算される(502)。その後、各フレーム毎に、各GOPのGOP符号化パターン及びGOP境界(範囲)についての決定を使用してフレームタイプが選択される(504)。次に、各フレーム毎に、上記した式(7)及びΔQP
Typeを使用してΔQP
Maskingが計算される(506)。その後、全フレームについての平均ΔQP
Maskingが計算される(508)。各フレーム毎に、式(9)を用いてΔQP
Maskingが正規化され、式(10)を用いて最終的なΔQPが計算される(510)。計算された最終的なΔQPを使用して、式(11)及び(12)に関して説明したようにR−QPベースのレート制御を用い、各フレーム毎の割り当てビット予定量を計算する(512)。この段階で、シーケンス全体は、MBレベルのレート制御及び符号化を用いて求めた各フレーム毎の割り当てビット予定量により符号化される(514)。
【0077】
徹底的な実験結果から次のことが判明した。即ち、テンポラルマスキング効果を考慮することなしに、フレームQPオフセットとしてΔQP
Typeのみを使用すると、式(9)及び(10)のようにシーケンス全体を用いる全域最適化レート制御は、現時点で利用できる1つのGOPだけで局所的最適化レート制御をする場合に比べて優れてはいない。しかしながら、本発明の実施形態で記載されているようにテンポラルマスキング効果をさらに考慮すると、知覚品質において著しい改善が達成される。即ち、GOP最適化レート制御に比べて、上記において提案されているフレームベースのQPオフセットを用いてシーケンス最適化レート制御を行うと、(i)ハイモーションフレームに隣接するローモーションフレームに対してかなり良い符号化品質が得られ、且つ、(ii)シーンの終わりのローモーションショートGOPに対してかなり良い符号化品質が得られると共にローモーションGOPの品質はわずかに低下するだけである。全体的には、符号化ビデオの視覚経験は常に向上(改善)される。
【0078】
図6は本発明を適用することができる例示的ビデオエンコーダ600のブロック図である。まず、プロセッサ601及びメモリ602がエンコーダの全要素と信号通信可能にされ、全要素を制御するよう動作する。ビデオエンコーダ600の入力は加算接合点610の非反転入力に信号通信可能に接続されている。加算接合点610の出力は変換器/量子化器620に信号通信可能に接続されている。変換器/量子化器620の出力はエントロピ符号化器640に信号通信可能に接続されている。エントロピ符号化器640の出力はエンコーダ600の出力として利用可能である。
【0079】
変換器/量子化器620の出力はさらに、逆変換器/量子化器650に信号通信可能に接続されている。逆変換器/量子化器450の出力は非ブロック化(ブロック分解、デブロック)フィルタ660の入力に信号通信可能に接続されている。非ブロック化フィルタ660の出力は基準映像記憶部670に信号通信可能に接続されている。基準映像記憶部670の第1の出力はモーションエスティメータ680の第1の入力に信号通信可能に接続されている。エンコーダ600の入力はさらに、モーションエスティメータ680の第2の入力に信号通信可能に接続されている。モーションエスティメータ680の出力はモーション補償器690の第1の入力に信号通信可能に接続されている。基準映像記憶部670の第2の出力はモーション補償器690の第2の入力に信号通信可能に接続されている。モーション補償器の出力は加算接合点610の反転入力に信号通信可能に接続されている。
【0080】
ナイーブQPオフセット法においては、フレームレベルレート制御法がMBのQPを決定した後にQPを変える。しかしながら、このように多くのMBを変えると、レート制御が不安定になる可能性があり、全体の知覚品質を下げてしまう可能性がある。フレームレベルのレート制御を行う前に(所望の知覚品質に基づいて)各MBの所望のQPオフセットを特定した方が良いことがわかった。レート制御法は、各MBに適切にリソースを割り当てるために、全ての情報を考慮する。
【0081】
本発明に従って対象オブジェクトをどのようにプレザーブするかは、上記した3つの方法(ナイーブ量子化パラメータ(QP)オフセット法、重み付け歪みメトリック法、及び知覚量子化(QP)オフセット法)の組み合わせによって決めてもよい。この組み合わせは、プレザーブされるべきオブジェクト及びシーンの特徴を考慮し得る幾つかの条件に依存してもよい。
【0082】
1つの方法では、フレーム内における対象オブジェクトのトータルエリア(総面積)を考慮する。もし0を超えるエンコーダ重み(つまりW(x,y)>0)で画素の数が所定の閾値エリア(T
area)より小さなエリアを画定するなら、知覚QPオフセット法が採用されるべきである。
【0083】
2番目の方法では、オブジェクト画素を含むMBの総数またはオブジェクト画素の数を考慮する。もしオブジェクト画素を含むMBの総数またはオブジェクト画素の数が、閾値(T
area)より小さなエリアを有するなら、ナイーブQPオフセット法または重み付け歪む計測法が使用される。
【0084】
前記2つの方法は、プレザーブされるべきMBの数が多いとき、知覚QPオフセット法はエラーに対して強いという期待・予想に基づいている。しかし、ナイーブQPオフセット法及び重み付け歪み計測法は、少ないMBが関与している場合にのみ、より良い結果を提供する。
【0085】
どの方法にするかを決める条件は、オブジェクトの数及びシーンの特徴(例えば、対象オブジェクトのエリア、オブジェクトの重要度、オブジェクトの速度、及びオブジェクトプレザベーションの履歴)に基づいて決定される(例えば、前のフレームにおける対応MBに高いQPが与えられていたかどうかに基づいて決定される)。
【0086】
本発明の1つの適用例において、顔領域はテレビ会議(ウェブ会議)のビデオ(画像)内で検出され、背景領域の量子化粒度を制御するために用いられる。
【0087】
上記の記載は本発明を実施することができる形態の幾つかの例を示している。本発明の精神及び範囲の中で多くの他の実施形態が可能である。従って、上記の説明は例示的なものであり限定的なものでないと解釈されるべきであると共に、本発明の範囲は特許請求の範囲及びその最大限の均等物によって決められるべきである。
本発明は以下の態様を含む。
(付記1)
複数のフレームを有するビデオシーケンスから少なくとも2つのフレームを選択するステップと、
前記選択されたフレームの各々における少なくとも1つの対象オブジェクトのトータルエリアを判別するステップと、
各トータルエリアを閾値エリアと比較するステップと、
前記閾値エリアを超えるトータルエリアを有する選択されたフレームの各々を低オブジェクト重み付けフレームとして分類するステップと、
前記閾値エリアを超えないトータルエリアを有する選択されたフレームの各々を高オブジェクト重み付けフレームとして分類するステップと、
各低オブジェクト重み付けフレームを第1の符号化モードに従って符号化すると共に各高オブジェクト重み付けフレームを異なる符号化モードに従って符号化するステップと、
を含む、方法。
(付記2)
フレーム内のどのマクロブロックが前記少なくとも1つの対象オブジェクトを含むかを判別するステップと、
前記少なくとも2つのフレームの各々について当初QPを決定するステップと、
前記低オブジェクト重み付けフレームについては、前記当初QPにオフセットを与えるステップと、
前記オフセットを与えるステップに応じて、前記少なくとも1つの対象オブジェクトに含まれている前記マクロブロックへのビット割り当てを増大するステップと、
を含む、付記1記載の方法。
(付記3)
連続する高オブジェクト重み付けフレームについてフレームにおけるテンポラルマスキング効果の量からフレーム毎のQPオフセット寄与(ΔQP
Masking)を判定するステップと、
前記ΔQP
Maskingをフレームタイプから得られたQPオフセット寄与(ΔQP
Type)に組み合わせるステップと、
連続する高オブジェクト重み付けフレームを、前記フレームタイプから得られたQPオフセット寄与(ΔQP
Type)に組み合わされた計算済みΔQP
Maskingを使用することによって得られるビットレートを使用して符号化するステップと、
を含む、付記1記載の方法。
(付記4)
連続する高オブジェクト重み付けフレームに関するフレーム複雑度を計算するステップと、
連続する高オブジェクト重み付けフレームの各GOPについてGOP範囲及びGOP符号化パターンに基づいてフレームタイプを選択するステップと、
フレームタイプに基づいてフレーム毎のQPオフセット寄与(ΔQP
Type)を計算するステップと、
をさらに含む、付記3記載の方法。
(付記5)
全ての高オブジェクト重み付けフレームについての平均ΔQP
Maskingを計算するステップと、
ΔQP
Maskingを正規化するステップと、
最終的なフレーム毎のΔQPを計算するステップと、
をさらに含む、付記4記載の方法。
(付記6)
前記計算された最終的なフレーム毎のΔQPを用いて、割り当てられるビット量及びレート制御量を計算するステップをさらに含む、付記5記載の方法。
(付記7)
前記フレームにおけるテンポラルマスキング効果の量からフレーム毎のQPオフセット寄与(ΔQP
Masking)を計算するステップは、ΔQP
Masking(n)=a・Compl
Masking(n)を使用して実行され、Compl
Masking(n)は、高オブジェクト重み付けフレームの所定サイズのウインドウにおける現在のフレームに隣接する複数のフレームの平均として計算されたフレームのテンポラルマスキング複雑度を含む、付記3記載の方法。
(付記8)
高オブジェクト重み付けフレームについて各フレームのフレーム複雑度を計算する前記ステップは、順方向フレーム間予測を使用して実行される、付記4記載の方法。
(付記9)
フレーム内のどのマクロブロックが前記少なくとも1つの対象オブジェクトを含むかを判定するステップと、
前記少なくとも2つのフレームの各々について当初QPを決定するステップと、
前記低オブジェクト重み付けフレームの前記当初QPにオフセットを与えるステップであって、これにより、前記少なくとも1つの対象オブジェクトに含まれる前記マクロブロックへのビット割り当てが増加する、ステップと、
を含む、付記3記載の方法。
(付記10)
フレーム内のどのマクロブロックが前記少なくとも1つの対象オブジェクトを含むかを判定するステップと、
前記少なくとも2つのフレームの各々について当初QPを決定するステップと、
前記低オブジェクト重み付けフレームの前記当初QPにオフセットを与えるステップであって、これにより、前記少なくとも1つの対象オブジェクトに含まれる前記マクロブロックへのビット割り当てが増加する、ステップと、
を含む、付記4記載の方法。
(付記11)
前記低オブジェクト重み付けフレームについてオリジナルのマクロブロック画素と2つ以上の符号化モードの符号化されたマクロブロック画素との間の絶対値差合計(SAD)を判定するステップと、
前記低オブジェクト重み付けフレームについての絶対値差合計判定ステップにおける少なくとも1つの他の符号化モードよりも小さな絶対値差合計を有する符号化モードを選択するステップと、
当該選択するステップで選択されたそれぞれの符号化モードに従って前記低オブジェクト重み付けフレームを符号化するステップと、
を含む、付記1記載の方法。
(付記12)
前記絶対値差合計判定ステップにおいてエンコーダ重みアレイを適用して、前記オブジェクトの画素にオブジェクトではない画素よりも大きな重みが割り当てられるようにするステップを含む、付記11記載の方法。
(付記13)
ビデオシーケンスを符号化するエンコーダであって、
ビデオフレームにおける対象オブジェクトのエリアを判定する手段と、
モード選択閾値エリアを設定する手段と、
複数のフレームについて前記オブジェクトのエリアを前記閾値エリアと比較する手段と、
前記比較する手段に応答して符号化モードを選択する手段であって、異なるフレームについて異なる符号化モードを選択するように適合される、前記選択する手段と、
符号化手段であって、前記異なるフレームを前記異なる符号化モードで符号化するように適合される、前記符号化手段と、
を含む、前記エンコーダ。
(付記14)
前記判定する手段は、前記対象オブジェクトを構成する画素の数を判定し、
前記選択する手段は、前記閾値エリアを越える画素数のエリアを有するフレームについて知覚量子化パラメータオフセット判定を使用し、
前記符号化手段は、前記知覚量子化パラメータオフセット判定に応じた符号化モードで前記フレームを符号化する、付記13記載のエンコーダ。
(付記15)
前記判定する手段は、前記対象オブジェクトを構成する画素の数を判定し、
前記選択する手段は、ナイーブQPオフセット判定を使用し、前記選択する手段は、前記閾値を超えない画素数のエリアを有する少なくとも2つのフレームの各々について当初QPを決定し、前記少なくとも2つのフレームについてオフセットを前記当初QPに与え、前記オフセットに応答して前記少なくとも1つの対象オブジェクトに含まれるマクロブロックへのビット割り当てを増大させるのに適合し、
前記符号化手段は、前記オフセットに応じた符号化モードで前記閾値フレームを超えない画素数のエリアを有する前記少なくとも2つのフレームを符号化する、付記14記載のエンコーダ。
(付記16)
前記判定する手段は、前記対象オブジェクトを構成する画素の数を判定し、
前記選択する手段は、ナイーブQPオフセット判定を使用し、前記選択する手段は前記閾値を超えない画素数のエリアを有する少なくとも2つのフレームの各々について当初QPを決定し、前記少なくとも2つのフレームについてオフセットを前記当初QPに与え、前記オフセットに応答して前記少なくとも1つの対象オブジェクトに含まれるマクロブロックへのビット割り当てを増大させるのに適合し、
前記符号化手段は、前記オフセットに応じた符号化モードで前記閾値フレームを超えない画素数のエリアを有する前記少なくとも2つのフレームを符号化する、付記13記載のエンコーダ。