(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5974089
(24)【登録日】2016年7月22日
(45)【発行日】2016年8月23日
(54)【発明の名称】ビデオ信号のリフレーミング及びエンコーディングのための方法及び装置
(51)【国際特許分類】
H04N 19/85 20140101AFI20160809BHJP
H04N 19/132 20140101ALI20160809BHJP
H04N 19/147 20140101ALI20160809BHJP
H04N 19/176 20140101ALI20160809BHJP
【FI】
H04N19/85
H04N19/132
H04N19/147
H04N19/176
【請求項の数】16
【全頁数】17
(21)【出願番号】特願2014-520583(P2014-520583)
(86)(22)【出願日】2012年6月25日
(65)【公表番号】特表2014-521272(P2014-521272A)
(43)【公表日】2014年8月25日
(86)【国際出願番号】EP2012062196
(87)【国際公開番号】WO2013010751
(87)【国際公開日】20130124
【審査請求日】2015年6月24日
(31)【優先権主張番号】11305937.2
(32)【優先日】2011年7月19日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】501263810
【氏名又は名称】トムソン ライセンシング
【氏名又は名称原語表記】Thomson Licensing
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】アーバン,ファブリス
(72)【発明者】
【氏名】シャマレ,クリステル
(72)【発明者】
【氏名】ギヨテル,フィリップ
【審査官】
岩井 健二
(56)【参考文献】
【文献】
特表2008−533892(JP,A)
【文献】
特開2007−035038(JP,A)
【文献】
国際公開第2007/014850(WO,A2)
【文献】
国際公開第2006/072536(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 19/00 − 19/98
(57)【特許請求の範囲】
【請求項1】
原ビデオ信号をリフレーミングした後に、該リフレーミングされたビデオ信号のエンコーディングを行う方法であって、
前記原ビデオ信号の現在のピクチャについて、ユーザアテンションマップを表す特徴マップを計算するステップと、
前記原ビデオ信号の前記現在のピクチャについて、マクロブロック符号化効率費用マップを提供するステップと、
前記原ビデオ信号の前記現在のピクチャ内で、候補となるリフレーミングウィンドウのサイズ及び位置を選択するステップと、
前記特徴マップ及び前記マクロブロック符号化効率費用マップを組み合わせて用いることによって、前記原ビデオ信号において、前記リフレーミングされたビデオ信号のための符号化費用が前記候補となるリフレーミングウィンドウのサイズ及び位置のための符号化費用よりも小さくなる前記リフレーミングウィンドウの異なる位置及び/又はサイズを決定するステップと、
対応するリフレーミングされたビデオ信号をエンコーディングするステップと
を有する方法。
【請求項2】
カルマンフィルタが、時間に対する前記特徴マップの内容の変化による前記リフレーミングウィンドウの位置及びサイズの変化を制御するために使用される、
請求項1に記載の方法。
【請求項3】
前記カルマンフィルタ
は、前記リフレーミングウィンドウのパラメータを安定させるように前の状態x
k−1に対する現在の状態x
kと状態遷移モデルとを予測するステップと、該予測をノイズ測定により補正するステップとにおいて、ピクチャごとに使用され、
状態x
kは、前記リフレーミングウィンドウの中心の位置と、そのサイズとを定義し、
次の式
【数1】
のように表される、
請求項2に記載の方法。
【請求項4】
前記マクロブロック符号化効率費用マップが与えられ、
前記特徴マップの現在の内容から得られる前記候補となるリフレーミングウィンドウのアスペクト比が前記原ビデオ信号のアスペクト比と異なる場合は、前記候補となるリフレーミングウィンドウは、前記原ビデオ信号のアスペクト比を達成するように垂直方向又は水平方向において相応して拡大され、該拡大の方向は、現在の候補となるリフレーミングウィンドウについて、現在のマクロブロック符号化効率費用マップから導出されるマクロブロック符号化費用が低減されるように、実行される、
請求項1乃至3のうちいずれか一項に記載の方法。
【請求項5】
前記特徴マップは、符号化費用がかかるマクロブロックが、適用される最終の特徴マップにおいて対応する特徴値を下げるように、前記マクロブロック符号化効率費用マップをマージされる、
請求項1乃至4のうちいずれか一項に記載の方法。
【請求項6】
前記エンコーディングはH.264/AVCエンコーディングである、請求項1乃至5のうちいずれか一項に記載の方法。
【請求項7】
前記リフレーミングは、エンコーディングループ内に含まれるが、全ピクチャがエンコーディングされ、
SEIメッセージが、使用されるリフレーミングウィンドウをデコーダへ知らせるために使用される、
請求項6に記載の方法。
【請求項8】
前記リフレーミングウィンドウは、マクロブロック境界に整列される、
請求項1乃至7のうちいずれか一項に記載の方法。
【請求項9】
原ビデオ信号をリフレーミングした後に、該リフレーミングされたビデオ信号のエンコーディングを行う装置であって、
前記原ビデオ信号の現在のピクチャについて、ユーザアテンションマップを表す特徴マップを計算し、前記原ビデオ信号の前記現在のピクチャについて、マクロブロック符号化効率費用マップを提供するよう構成される手段と、
前記原ビデオ信号の前記現在のピクチャ内で、候補となるリフレーミングウィンドウのサイズ及び位置を選択し、前記特徴マップ及び前記マクロブロック符号化効率費用マップを組み合わせて用いることによって、前記原ビデオ信号において、前記リフレーミングされたビデオ信号のための符号化費用が前記候補となるリフレーミングウィンドウのサイズ及び位置のための符号化費用よりも小さくなる前記リフレーミングウィンドウの異なる位置及び/又はサイズを決定するよう構成される手段と、
対応するリフレーミングされたビデオ信号をエンコーディングするエンコーディング手段と
を有する装置。
【請求項10】
カルマンフィルタが、時間に対する前記特徴マップの内容の変化による前記リフレーミングウィンドウの位置及びサイズの変化を制御するために使用される、
請求項9に記載の装置。
【請求項11】
前記カルマンフィルタ
は、前記リフレーミングウィンドウのパラメータを安定させるように前の状態x
k−1に対する現在の状態x
kと状態遷移モデルとを予測するステップと、該予測をノイズ測定により補正するステップとにおいて、ピクチャごとに使用され、
状態x
kは、前記リフレーミングウィンドウの中心の位置と、そのサイズとを定義し、
次の式
【数2】
のように表される、
請求項10に記載の装置。
【請求項12】
前記マクロブロック符号化効率費用マップが与えられ、
前記特徴マップの現在の内容から得られる前記候補となるリフレーミングウィンドウのアスペクト比が前記原ビデオ信号のアスペクト比と異なる場合は、前記候補となるリフレーミングウィンドウは、前記原ビデオ信号のアスペクト比を達成するように垂直方向又は水平方向において相応して拡大され、該拡大の方向は、現在の候補となるリフレーミングウィンドウについて、現在のマクロブロック符号化効率費用マップから導出されるマクロブロック符号化費用が低減されるように、実行される、
請求項9乃至11のうちいずれか一項に記載の装置。
【請求項13】
前記特徴マップは、符号化費用がかかるマクロブロックが、適用される最終の特徴マップにおいて対応する特徴値を下げるように、前記マクロブロック符号化効率費用マップをマージされる、
請求項9乃至12のうちいずれか一項に記載の装置。
【請求項14】
前記エンコーディングする手段はH.264/AVCエンコーディング手段である、請求項9乃至13のうちいずれか一項に記載の装置。
【請求項15】
前記リフレーミングは、エンコーディングループ内に含まれるが、全ピクチャがエンコーディングされ、
SEIメッセージが、使用されるリフレーミングウィンドウをデコーダへ知らせるために使用される、
請求項14に記載の装置。
【請求項16】
前記リフレーミングウィンドウは、マクロブロック境界に整列される、
請求項9乃至15のうちいずれか一項に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、原ビデオ信号のリフレーミング及びエンコーディングのための方法及び装置であって、リフレーミングウィンドウの位置及び/又はサイズが、リフレーミングされたビデオ信号の符号化費用を低減するように適応される方法及び装置に関する。
【背景技術】
【0002】
リフレーミングは、例えば、異なるアスペクト比を有するディスプレイにおいて所与のアスペクト比を有してビデオ信号を表示するために、画像又はビデオコンテンツをリサイズするよう使用される。例えば、高精細(HD)ビデオコンテンツは、小型の携帯機器での表示には上手く適さないことがある。
【0003】
欧州特許出願公開第1748385(A2)号明細書(特許文献1)は、ヒューマンビジュアルアテンションモデルに基づく動的なリフレーミングを開示しており、ソースビデオコンテンツが関心領域を保つために適切にクロッピングされる。出力信号は、エンコーディングされ、ネットワークを介して送信されてよい。
【0004】
また、C.Chamaret,O.LeMeur,“Attention-based video reframing: validation using eye-tracking”,19th International Conference on Pattern Recognition ICPR’08,2008年12月8〜11日,米国フロリダ州タンパ(非特許文献1)は、リフレーミングアプリケーションについて記載している。
【0005】
O.LeMeur,P.LeCallet及びD.Barba,“Predicting visual fixations on video based on low-level visual features”,Vision Research,vol.47,no.19,pp.2483-2498,2007年9月(非特許文献2)は、ビジュアルアテンションモデルに基づく動的な特徴マップの計算について記載している。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】欧州特許出願公開第1748385(A2)号明細書
【非特許文献】
【0007】
【非特許文献1】C.Chamaret,O.LeMeur,“Attention-based video reframing: validation using eye-tracking”,19th International Conference on Pattern Recognition ICPR’08,2008年12月8〜11日,米国フロリダ州タンパ
【非特許文献2】O.LeMeur,P.LeCallet及びD.Barba,“Predicting visual fixations on video based on low-level visual features”,Vision Research,vol.47,no.19,pp.2483-2498,2007年9月
【発明の概要】
【発明が解決しようとする課題】
【0008】
既知のリフレーミング処理は、出力されるクロッピング及びエンコーディングを受けたビデオ信号のビットレート及び歪みに注意を向けていないように思われる。例えば、クロッピングウィンドウは、エンコーディングされたビデオ信号の符号化の複雑性を考慮せずに、関心領域を追跡する。これは、複数回のズーム及びズーム解除、パニングを生じさせ、それにより、出現領域のための符号化費用が高くなる。最終のリフレーミングされたビデオ信号が、例えば、H.264/AVCエンコーダを用いることによって、エンコーディングされる場合に、これは、ビデオ品質の低下及び/又はビットレートの増大をもたらしうる。
【0009】
本発明によって解決されるべき課題は、クロッピングウィンドウの位置及びサイズが、そのクロッピングされたウィンドウを含むエンコーディングされた出力ビデオ信号のレート/歪みを考慮するビデオソース信号のリフレーミングを提供することである。
【課題を解決するための手段】
【0010】
上記の課題は、請求項1において開示される方法によって解決される。この方法を利用する装置は請求項2において開示される。
【0011】
本発明に従って、クロッピングウィンドウパラメータ(時間にわたる位置及びサイズ)は、エンコーディングされた出力ビデオ信号のレート/歪みを最適化するために制約される。最初のリフレーミングは、ビデオ符号化コンテキストを考慮することによって、及びリフレーミングされたビデオシーケンスがエンコーディングされる場合に導入される符号化効率費用を考慮することによって、改善される。
【0012】
原理上、本発明の方法は、原ビデオ信号をリフレーミングした後に、該リフレーミングされたビデオ信号のエンコーディングを行うのに適し、当該方法は、
前記原ビデオ信号の現在のピクチャについて、ユーザアテンションマップを表す特徴マップを計算するステップと、
前記原ビデオ信号の前記現在のピクチャについて、マクロブロック符号化効率費用マップを提供するステップと、
前記原ビデオ信号の前記現在のピクチャ内で、候補となるリフレーミングウィンドウのサイズ及び位置を選択するステップと、
前記特徴マップ又は前記特徴マップと前記マクロブロック符号化効率費用マップとの組み合わせを用いることによって、前記原ビデオ信号において、前記リフレーミングされたビデオ信号のための符号化費用が前記候補となるリフレーミングウィンドウのサイズ及び位置のための符号化費用よりも小さくなる前記リフレーミングウィンドウの異なる位置及び/又はサイズを決定するステップと、
対応するリフレーミングされたビデオ信号をエンコーディングするステップと
を有する。
【0013】
原理上、本発明の装置は、原ビデオ信号をリフレーミングした後に、該リフレーミングされたビデオ信号のエンコーディングを行うのに適し、当該装置は、
前記原ビデオ信号の現在のピクチャについて、ユーザアテンションマップを表す特徴マップを計算し、前記原ビデオ信号の前記現在のピクチャについて、マクロブロック符号化効率費用マップを提供するよう構成される手段と、
前記原ビデオ信号の前記現在のピクチャ内で、候補となるリフレーミングウィンドウのサイズ及び位置を選択し、前記特徴マップ又は前記特徴マップと前記マクロブロック符号化効率費用マップとの組み合わせを用いることによって、前記原ビデオ信号において、前記リフレーミングされたビデオ信号のための符号化費用が前記候補となるリフレーミングウィンドウのサイズ及び位置のための符号化費用よりも小さくなる前記リフレーミングウィンドウの異なる位置及び/又はサイズを決定するよう構成される手段と、
対応するリフレーミングされたビデオ信号をエンコーディングするエンコーディング手段と
を有する。
【0014】
本発明の有利な更なる実施形態は、夫々の従属請求項において開示される。
【図面の簡単な説明】
【0015】
【
図3】クロッピングウィンドウの異方性拡大を表す。
【
図4】マクロブロック費用マップに基づく異方性拡大を表す。
【
図5】符号化費用C
iに関して複数のクロッピングウィンドウの間での選択を示す。
【
図6】ビデオ符号化のために最適化されたクロッピングウィンドウの移動を示す。
【発明を実施するための形態】
【0016】
本発明の実施例は、添付の図面を参照して記載される。
【0017】
図1において、ソースビデオ信号が特徴計算ステップ又は段12へ及びリフレーミングステップ/段16へ供給される。特徴計算ステップ又は段12は、現在のソースビデオ信号コンテンツの特徴マップ13を計算する。特徴マップ13はユーザアテンションマップを表し、例えばピクセルごとに、その知覚上の関連性を特徴付ける特徴値を提供する。入力は現在のピクチャコンテンツであり、一方、出力は、そのピクチャを見るか又はビデオシーケンス内でそのピクチャを見る場合にピクチャのどの部分が人によってどのような注意を得るのかを示すマップである。ブロック又はマクロブロック符号化効率費用マップが、対応するステップ/段14において計算される。ステップ/段14は、その入力信号をソースビデオ信号のエンコーディングされたものから受信する。ステップ/段14が存在する場合は、その出力信号は、15で特徴マップ13と結合される。結果はまた、リフレーミングステップ/段16へ入力され、リフレーミングステップ/段16は、以下で記載されるように動作して、符号化費用が低減されたリフレーミングされたビデオ信号17を出力する。リフレーミングされたビデオ信号17は、エンコーダ18において(例えば、H.264処理を用いることによって)エンコーディングされ、最適化されたレート/歪み特性を備えるエンコーディングされたリフレーミングされたビデオ信号を生じさせる。
【0018】
出力ビデオ信号のエンコーディングのレート/歪みを最適化するよう、クロッピングウィンドウは幾つかの規則に従う:
・イントラ符号化モードを導入し且つインター符号化モード又はスキップモードよりもエンコーディングのために多くのビットを必要とするので、ウィンドウ境界上に現れる領域又はオブジェクトを回避する。必要に応じて、電子式画像安定化装置(electronic image stabiliser)が使用されるべきである。
・オブジェクトのサイズ変更を回避する:良好なインター予測を支持するよう、ズーム比はビデオモーションパラメータに従うべきである。
・一定のドミナントモーションを支持する:エンコーディングは、コンテンツモーションが一定である場合に、より効率的である(双方向予測、スキップ及びダイレクトモードの善用)。
・エンコーディングするのが難しいマクロブロックを入れないようにする。圧縮されたビデオをリフレーミングする場合に、画像の費用がかかる領域を、かかる領域に関心がない場合は拒否しようと試みるために、マクロブロック符号化効率費用マップを使用する。
【0019】
図2は、より詳細にリフレーミング処理を示す。原のソースシーケンス21は、ビジュアルアテンションモデル22によりチェックされて、現在のピクチャについて特徴マップを得る(
図1の12及び13に対応)。続くクロッピングウィンドウ抽出23(
図1の16に対応)はリフレーミングされたシーケンス24を出力し、以下で記載されるような最初のウィンドウ抽出231、時間一貫性検査232及びアスペクト比処理233を有する。
【0020】
以下は、エンコーディングされた出力されるリフレーミングされたビデオシーケンスのビットレート低減に対処する幾つかの補足的な実施形態である。
【0021】
A.時間一貫性の改善
この項では、時間的に安定した画像ほど原理上はエンコーディングのためにビットを必要としないという事実が使用される。
【0022】
A.1 単純な時間的制約
カルマンフィルタが、クロッピングウィンドウの位置及びサイズを制御するために使用される。第1の実施において、共分散ノイズ行列Qが制約される。カルマンフィルタ適用の目的は、アテンションモデル22によって与えられる原の値の変化(すなわち、時間に対する特徴マップの内容の変化)を平滑化することである。カルマンモデライゼーションにおいて、アテンションモデル22によって与えられる原の値は、ノイズ測定を表すと見なされ、一方、最適なクロッピングパラメータ(ウィンドウの中心及びサイズ)を推定することが試みられる。クロッピングウィンドウのパラメータの現在の状態x
kは、x
k=A
kx
k−1+B
ku
k+w
kとして定義される。ここで、A
kは、前の状態に適用される状態遷移モデルであり、B
kは、制御入力モデルであり、u
kは、制御ベクトルであり、w
kは、
<外1>
による定常ノイズであり、Nは、零平均及び共分散Q
kを有する正規分布である。
【0023】
時間kで、実際の状態x
kの観測又は測定z
kは、z
k=H
kx
k+v
kとして定義される。ここで、H
kは、実際の状態の空間を観測される空間にマッピングする観測モデルであり、v
kは、
<外2>
による観測ノイズであり、共分散R
kを有する零平均ガウスホワイトノイズであると推定される。
【0024】
リフレーミング適用において、カルマンフィルタは、以下のように使用される。状態x
kは、クロッピングウィンドウの中心の位置とそのサイズとを定義する。それは、次のように定義される:
【数1】
各画像ごとに、カルマンフィルタは2つのステップ、すなわち、予測フェーズ及び更新フェーズにおいて適用される。
【0025】
予測フェーズにおいて、予測ステップは、前の状態と状態遷移モデルとにより現在の状態を推定する。この特定の場合において、カルマンフィルタは、クロッピングウィンドウパラメータを安定させるために使用される。結果として、予測される状態
<外3>
は、大部分は、前の状態の複製である:
【数2】
ここで、Pkは、システムノイズを制御する共分散行列である。
【0026】
更新フェーズは、ノイズ測定を用いる予測の補正である:
【数3】
上記の数3は測定残余であり、z
kは、アテンションモデルによって与えられる原のウィンドウパラメータであり、H
kは、単位行列である。
【0027】
【数4】
【数5】
上記の数5は、事後エラー共分散(posteriori error covariance)を最小とする行列ゲインである。
【0028】
最初の推定として、スクリーンの中心が選択され得る。R及びQは夫々、状態を定義し且つ共分散ノイズを測定する一定の対角行列である。これに関連して、時間的制約を実施するための最も簡単な方法は、状態共分散ノイズ行列Qにおける値を低くすることである。
【0029】
この解決法は、動く背景(又は非零のドミナントモーション)を伴うビデオコンテンツを考慮しない。次の項は、このようなより複雑な場合を検討する。
【0030】
A.2 ドミナントモーション制約
非零のドミナントモーションを伴う、すなわち、背景転換及び/又はズームを伴うビデオコンテンツの場合において、符号化効率を改善するよう、クロッピングウィンドウは、より良いインタピクチャ予測のために画像の境界における出現ブロックを回避し且つオブジェクトのサイズ変更を回避するように、ドミナントモーションに従う。
【0031】
ビジュアルアテンションモデルにおいて、動き推定器が使用され、6−パラメータ・アフィンモデルによりドミナントモーションのパラメータを計算する。先に記載された状況において、それらのパラメータは、背景転換及びズームを導出するために使用される。
【0032】
前述同様、カルマンフィルタ状態は、次のように定義される:
【数6】
今度は、コマンドはヌルではなく、ドミナントモーションに従うよう使用される:
【数7】
先と同じく、各画像ごとに、カルマンフィルタは2つのステップ、すなわち、予測フェーズ及び更新フェーズにおいて適用される。
【0033】
予測フェーズにおいて、予測ステップは、前の状態と状態遷移モデルとにより現在の状態を推定する。クロッピングウィンドウパラメータは、ドミナントモーションに
のみ従って変化することを認められる:
【数8】
更新フェーズは、ノイズ測定を用いる予測の補正である:
【数9】
上記の数9は測定残余であり、z
kは、アテンションモデルによって与えられる原のウィンドウパラメータであり、H
kは、単位行列である。
【0034】
【数10】
上記の数10は、事後エラー共分散(posteriori error covariance)を最小とする行列ゲインである。
【0035】
【数11】
最初の推定として、スクリーンの中心が選択され得る。Q及びRは夫々、状態を定義し且つ共分散ノイズを測定する一定の対角行列である。ここで、先と同じく、状態共分散ノイズ行列Qは、モデルと実際の出力との間の関係を定義する。それはまた、ドミナントモーションパラメータの推定においてノイズを考慮する。Qが低い値を有する場合は、出力はモデルに強く拘束され、そうではなくQが高い値を有する場合は、それはアテンションモデル出力と、場合によりノイズに起因する高い偏差とに、より速く従う。
【0036】
ドミナントモーションu
kの出力はまた、時間一貫性を改善するためにカルマンフィルタに組み込まれ得る。
【0037】
B.マクロブロック費用による制約
原のビデオシーケンス11,21は、それが圧縮されたビデオシーケンスである場合に、エンコーディング費用の値が付随しているとされる。よく知られているように、所与のマクロブロックの符号化費用は、現在の量子化パラメータqを用いてそのマクロブロックをエンコーディングするのに必要とされるビットの数として表される。本発明に従って、それらの入力シーケンス符号化費用は、リフレーミングを制約するために使用される。以下で定義される処理は、項目Aにおいて記載された処理に加えて、又はそれとは無関係に使用され得る。
【0038】
B.1 全体的な画像費用による制約
カルマンフィルタの状態共分散ノイズ行列Qは、ピクチャシーケンスの総費用から導出され得る。入力シーケンスの費用が低い場合は、クロッピングされたピクチャの費用も低いと予測され得、結果として、クロッピングされたシーケンスの費用を低減するための制約は下げられ得る。
【0039】
例として、行列QはQ=I・(σ−λ・cost)として定義され得る。ここで、Iは単位行列であり、σは定数であり、λは、より大きい又は小さい重みを費用に与える重み付けパラメータであり、costは、メガバイト毎秒(MB/s)におけるシーケンスの符号化費用である。
【0040】
B.2 マクロブロック費用マップによるウィンドウ拡張の制約
この実施は、
図2において記載されるアスペクト比ステップ/段233を扱う。第1のクロッピングウィンドウが特徴マップからステップ/段231において外挿されると、その位置及びサイズが時間的に平滑化される。その後、異方性拡大が実行される。その様々な変数及び表記が
図3において表される。
【0041】
アスペクト比ARは、原ビデオ信号11及び12の幅及び高さの間の比である。異方性拡大は、現在のアスペクト比R
SMに依存した方向においてクロッピングウィンドウCW
iSM(x
SM,y
SM,w
SM,h
SM)を拡大することによって、クロッピングウィンドウのサイズを精緻化する。なお、SMは特徴マップ(salience map)を参照する。拡大は、目標のアスペクト比R
TGを達成するために幅又は高さのいずれかに対する。R
SW=w
SM/h
SMは、特徴マップからの拡大により得られるアスペクト比であり、R
TG=w
TG/h
TG=W
AR/h
ARは、目標のアスペクト比である。
【0042】
R
TG>R
SMの場合は、水平拡大が(現在の長方形の幅に対して)実行され、さもなければ、垂直拡張が(現在の長方形の高さに対して)実行される。
【0043】
水平拡張(垂直拡張については括弧内)を考えると、次のような定義が成り立つ:
h
AR=h
SM(w
AR=w
SM)
w
AR=w
SM+d
w(h
AR=h
SM+d
h)
x
AR=x
SM+d
x(x
AR=x
SM)
y
AR=y
SM(y
AR=y
SM+d
y)
ここで、
d
w=d
left+d
right=w
AR/h
AR×h
SM−w
SM=R
TG×h
SM−w
SM、
d
x=x
SM+(d
right−d
left)/2、及び
w
AR=w
SM+d
left+d
right。
拡張の側が定義されると、依然としてウィンドウを拡大する複数の方法が存在する。換言すると、d
right及びd
leftは、異なる方法において計算されてよい。以下で、幅w
SMは、最終のアスペクト比に到達するよう拡大されるとされる。拡大は、d
left=d
w及びd
right=0のように左側へ、又はd
left=0及びd
right=d
wのように右側へ、又はd
left=d
w/2及びd
right=d
w/2のように同じ割合で両側へ、全体に移動されてよい。そのような解決法は、コンテンツの観点から最適ではない。従って、先行技術においては、特徴マップの更に細かい解析が、一方の側又は他方の側を支持するよう実行されてきた。
【0044】
本発明に従って、新しい基準が、拡大される方向の選択のために使用される。すなわち、現在のピクチャのための符号化費用に基づくマクロブロック符号化効率費用マップであり、これは
図4において表される。一方の方向の領域が他方の方向よりも多くのビットが符号化されるべきである場合に(マクロブロック費用マップによる推定)、他方の方向が支持される。すなわち、クロッピングウィンドウは、夫々の方向におけるビット費用に比例して反対の方向において拡大され、これにより、かかる費用は最小限とされる。左へ及び/又は右への拡大は、以下のように計算される:
d
right及びd
leftは、d
right/d
left=C
rightmax/C
leftmaxのように求められるべきである(1)。
ビット費用C
rightmax及びC
leftmaxは、完全に左への拡大(d
left=w
AR−W
SM及びd
right=0)及び完全に右への拡大(d
right=w
AR−W
SM及びd
left=0)を考えることによって、計算される。なお:
【数12】
x
inf=x
SM−w
SM/2−(w
AR−w
SM)及びx
sup=x
SM+W
SM/2−(w
AR−w
SM)が定義され得る。夫々の側において利用可能な特徴量が知られると、夫々の方向に対する拡大d
right及びd
leftが推定可能であり、式(1)を用いる場合は、次のとおりである:
【数13】
B.3 マクロブロック費用マップにより選択される所定のウィンドウ配置
クロッピングウィンドウボックスの位置を制約する他の方法は、
図5において表されるように、近傍にある複数の到達可能なクロッピングウィンドウに対応する費用のみを計算し、最小の符号化費用を持ち続けることである。M個の候補となるクロッピングウィンドウの組は、対応する費用{C
0・・・C
M}を有する。クロッピングウィンドウの最終の位置の符号化費用、ひいては最終の位置自体は、C
final=Min{C
0・・・C
M}によって決定される。
【0045】
C.他の特徴
C.1 特徴マップレベルにおける制約
他の興味深い実施形態は、符号化費用がかかるマクロブロックが最終の特徴マップにおいて対応する特徴値を下げるように、特徴マップをマクロブロック符号化効率費用マップによりマージすることである。それにより、費用がかかるマクロブロックの潜在的影響は、最終のクロッピングウィンドウの位置の決定において小さくされる。
【0046】
2つのマップをマージする1つの方法は、CNSP(Coherent Normalisation,Sum plus Product)と呼ばれる次の処理を適用することである:
SM
final=N
C(SM)+N
C(MB
inv)+(1+N
C(SM))・(1+N
C(MB
inv))
ここで、MBは、範囲0〜255にあるマクロブロック符号化効率費用マップの値であり、MB
inv=255−MBであり、SMは、特徴マップの値であり、N
Cは、演繹的知識によって駆動される正規化演算子である。夫々のマップの全体の最大を用いることに代えて、この演算子は経験的値を用いる。
【0047】
C.2 エンコーダアーキテクチャによるクロッピングウィンドウ移動制約
幾つかの簡単化が、クロッピングウィンドウをエンコーダアーキテクチャに適応させるよう実行され得るが、幾つかの場合においては符号化効率を改善するためにも実行される:
・予測フレームと現在の
フレームとの間のマクロブロック格子におけるクロッピングウィンドウの整列を保証する。それは時間的予測品質を改善するが、更に、適切なブロックサイズを選択するのを助ける。欠点は、クロッピングウィンドウの滑らかな時間的変化が何としても保証されるべき点であり、さもなければ、何らかの時間的アーティファクトが目に見える。
・同様に、クロッピングウィンドウの位置は、ピクセルサンプリング格子に一致するよう設定され得る。その場合に、動きベクトルは必然的にピクセルの数の倍数であり、1ピクセル単位よりもっと精密な動き推定は不要である。有利に、これは、エンコーダの有意な簡単化をもたらす。
・リフレーミング処理からの如何なる情報も再利用する。例えば、特徴領域を計算するために、フレーム間の動きを計算する必要がある。この情報はビデオエンコーダへ送られて、エンコーダの動き推定を助け又は置換することができる。同様に、クロッピングウィンドウの時間的変化は、撮影者による撮影手法と同様に滑らかな挙動を確かにするようモニタされ管理される。それらの仮想的なカメラの動きはまた、動き推定を助けるためにエンコーダによって使用され得る。
・ソース入力ビデオ信号がエンコードされたビデオ信号(エンコーダフォーマットであるものは何でも)である場合は、ビデオ信号のトランスコーディング又は変換から知られるように、符号化情報のようなパラメータを再利用することが可能である。
【0048】
エンコーディングのためのリフレーミング処理のそのような適応に加えて、エンコーディングループ内にリフレーミング処理を含めることも可能である。例えば、クロッピングウィンドウは、フレームのエンコーディングの間に計算され得、それにより、エンコーディング及びリフレーミングは、前処理として実行される代わりに、まとめて最適化される。そうすることにおける幾つかの利点が存在する:
・第1に、ピクチャ全体がエンコーディングされ得、あるエンコーディングストラテジはクロッピングウィンドウに適応され得る。すなわち、H.264/AVC SEIメッセージが、デコーダへ任意のクロッピングウィンドウを伝えるために使用され、より高いビットレート/エンコーディング品質がクロッピングウィンドウのために設定され得、異なるスライスが2つの領域について使用され得、スキップモードが非クロッピングウィンドウのために設定され得る。
・第2に、フレーム全体がエンコーダにおいて使用され得るが、クロッピングウィンドウのみがエンコーディングされる。これは、上述されたように、クロッピングウィンドウのサイズ及び位置の最適化とエンコーディングとをひとまとめにすることを可能にし、動き推定は、境界効果を防ぎ且つ動きフィールドのエンコーディング(より良い同質性)を容易にするようフレーム全体に対して実行され得、クロッピングウィンドウからフレーム全体への動的な切り替えの可能性を提供する。
・第3に、上述されたように、1の処理からの多くの計算が、それらを2回実行することに代えて、後の処理によって再利用され得る。アーキテクチャ及びCPU性能(又はハードウェア複雑性)は全体的に下げられ、そのようなシステムは更なる機能性及び柔軟性を提供する。
上記の実施形態に加えて、以下の付記を開示する。
(付記1)
原ビデオ信号をリフレーミングした後に、該リフレーミングされたビデオ信号のエンコーディングを行う方法であって、
前記原ビデオ信号の現在のピクチャについて、ユーザアテンションマップを表す特徴マップを計算するステップと、
前記原ビデオ信号の前記現在のピクチャについて、マクロブロック符号化効率費用マップを提供するステップと、
前記原ビデオ信号の前記現在のピクチャ内で、候補となるリフレーミングウィンドウのサイズ及び位置を選択するステップと、
前記特徴マップ又は前記特徴マップと前記マクロブロック符号化効率費用マップとの組み合わせを用いることによって、前記原ビデオ信号において、前記リフレーミングされたビデオ信号のための符号化費用が前記候補となるリフレーミングウィンドウのサイズ及び位置のための符号化費用よりも小さくなる前記リフレーミングウィンドウの異なる位置及び/又はサイズを決定するステップと、
対応するリフレーミングされたビデオ信号をエンコーディングするステップと
を有する方法。
(付記2)
原ビデオ信号をリフレーミングした後に、該リフレーミングされたビデオ信号のエンコーディングを行う装置であって、
前記原ビデオ信号の現在のピクチャについて、ユーザアテンションマップを表す特徴マップを計算し、前記原ビデオ信号の前記現在のピクチャについて、マクロブロック符号化効率費用マップを提供するよう構成される手段と、
前記原ビデオ信号の前記現在のピクチャ内で、候補となるリフレーミングウィンドウのサイズ及び位置を選択し、前記特徴マップ又は前記特徴マップと前記マクロブロック符号化効率費用マップとの組み合わせを用いることによって、前記原ビデオ信号において、前記リフレーミングされたビデオ信号のための符号化費用が前記候補となるリフレーミングウィンドウのサイズ及び位置のための符号化費用よりも小さくなる前記リフレーミングウィンドウの異なる位置及び/又はサイズを決定するよう構成される手段と、
対応するリフレーミングされたビデオ信号をエンコーディングするエンコーディング手段と
を有する装置。
(付記3)
カルマンフィルタが、時間に対する前記特徴マップの内容の変化による前記リフレーミングウィンドウの位置及びサイズの変化を制御するために使用される、
付記1に記載の方法、又は付記2に記載の装置。
(付記4)
カルマンフィルタが、前記リフレーミングウィンドウのパラメータを安定させるように前の状態xk−1に対する現在の状態xkと状態遷移モデルとを予測するステップと、該予測をノイズ測定により補正するステップとにおいて、ピクチャごとに使用され、
状態xkは、前記リフレーミングウィンドウの中心の位置と、そのサイズとを定義し、
【数14】
付記3に記載の方法、又は付記3に記載の装置。
(付記5)
前記マクロブロック符号化効率費用マップが与えられ、
前記特徴マップの現在の内容から得られる前記候補となるリフレーミングウィンドウのアスペクト比が前記原ビデオ信号のアスペクト比と異なる場は、前記候補となるリフレーミングウィンドウは、前記原ビデオ信号のアスペクト比を達成するように垂直方向又は水平方向において相応して拡大され、該拡大の方向は、現在の候補となるリフレーミングウィンドウについて、現在のマクロブロック符号化効率費用マップから導出されるマクロブロック符号化費用が低減されるように、実行される、
付記1、3及び4のうちいずれか一項に記載の方法、又は付記2乃至4のうちいずれか一項に記載の装置。
(付記6)
前記特徴マップは、符号化費用がかかるマクロブロックが、適用される最終の特徴マップにおいて対応する特徴値を下げるように、前記マクロブロック符号化効率費用マップをマージされる、
付記1及び3乃至5のうちいずれか一項に記載の方法、又は付記2乃至5のうちいずれか一項に記載の装置。
(付記7)
前記エンコーディングはH.264/AVCエンコーディングである、付記1及び3乃至6のうちいずれか一項に記載の方法、又は
前記エンコーディングする手段はH.264/AVCエンコーディング手段である、付記2乃至6のうちいずれか一項に記載の装置。
(付記8)
前記リフレーミングは、エンコーディングループ内に含まれるが、全ピクチャがエンコーディングされ、
SEIメッセージが、使用されるリフレーミングウィンドウをデコーダへ知らせるために使用される、
付記7に記載の方法、又は付記7に記載の装置。
(付記9)
前記リフレーミングウィンドウは、マクロブロック境界に整列される、
付記1及び3乃至8のうちいずれか一項に記載の方法、又は付記2乃至8のうちいずれか一項に記載の装置。
(付記10)
前記エンコーディングの前に付記1及び3乃至9のうちいずれか一項に記載の方法に従ってリフレーミングされた、エンコーディングされたデジタルビデオ信号。