特許第6067737号(P6067737)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ トムソン ライセンシングの特許一覧

特許6067737ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体
<>
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000011
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000012
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000013
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000014
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000015
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000016
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000017
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000018
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000019
  • 特許6067737-ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体 図000020
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6067737
(24)【登録日】2017年1月6日
(45)【発行日】2017年1月25日
(54)【発明の名称】ビデオ品質測定のための方法、装置、コンピュータプログラム、及び記憶媒体
(51)【国際特許分類】
   H04N 17/00 20060101AFI20170116BHJP
   H04N 17/02 20060101ALI20170116BHJP
   G06T 5/20 20060101ALI20170116BHJP
   H04N 1/409 20060101ALI20170116BHJP
   G06T 7/00 20170101ALI20170116BHJP
【FI】
   H04N17/00 Z
   H04N17/02 A
   G06T5/20
   H04N1/40 101D
   G06T7/00 Q
【請求項の数】16
【全頁数】18
(21)【出願番号】特願2014-543751(P2014-543751)
(86)(22)【出願日】2012年4月23日
(65)【公表番号】特表2015-500581(P2015-500581A)
(43)【公表日】2015年1月5日
(86)【国際出願番号】CN2012074522
(87)【国際公開番号】WO2013078822
(87)【国際公開日】20130606
【審査請求日】2015年4月23日
(31)【優先権主張番号】PCT/CN2011/083154
(32)【優先日】2011年11月29日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】501263810
【氏名又は名称】トムソン ライセンシング
【氏名又は名称原語表記】Thomson Licensing
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ジャン ファン
(72)【発明者】
【氏名】シエ カイ
(72)【発明者】
【氏名】ジアン ウェンフェイ
(72)【発明者】
【氏名】チェン ジーボー
【審査官】 秦野 孝一郎
(56)【参考文献】
【文献】 特表2011−510562(JP,A)
【文献】 特開2011−134204(JP,A)
【文献】 特表2011−507404(JP,A)
【文献】 特開2008−278185(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 17/00
H04N 17/02
G06T 5/20
H04N 1/409
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
ビデオ品質を推定するための方法であって、
少なくとも1つの画像領域を有する画像データにアクセスするステップと、
前記画像領域をストラクチャ成分およびテクスチャ成分に分解するステップと
前記画像領域の前記ストラクチャ成分のエッジ強度を判断するステップと
前記エッジ強度に応じてテクスチャマスキング重みを判断するステップと
前記テクスチャマスキング重みに応じて品質メトリックを判断するステップと
を含む、前記方法。
【請求項2】
双方向フィルタを使用して、前記画像領域を前記ストラクチャ成分および前記テクスチャ成分に分解する、請求項1に記載の方法。
【請求項3】
前記エッジ強度が閾値を超える場合、前記画像領域にエッジが存在すると判断するステップであって、前記エッジが前記画像領域に存在すると判断したとき、テクスチャマスキング特性が使用されないように前記テクスチャマスキング重みを設定する、ステップ
をさらに含む、請求項1に記載の方法。
【請求項4】
前記画像領域の前記テクスチャ成分に対してテクスチャ強度を判断するステップであって、前記テクスチャマスキング重みを前記判断するステップは、前記エッジ強度および前記テクスチャ強度に応じたものである、ステップ
をさらに含む、請求項1に記載の方法。
【請求項5】
前記テクスチャ強度は、前記画像領域の前記テクスチャ成分の分散として判断される、請求項4に記載の方法。
【請求項6】
前記テクスチャ強度が閾値を超えない場合、前記画像領域が滑らかであると判断するステップであって、前記画像領域が滑らかであると判断したとき、テクスチャマスキング特性が使用されないように前記テクスチャマスキング重みを設定する、ステップ
をさらに含む、請求項4に記載の方法。
【請求項7】
前記画像データは、重複しない複数の画像領域を含み、前記分解するステップ、前記エッジ強度を判断するステップ、および前記テクスチャマスキング重みを判断するステップは、前記複数の画像領域の各々に対して実行され、前記品質メトリックは局所歪みの重み付けされた組合せに応じて判断され、前記局所歪みは前記テクスチャマスキング重みによって重み付けされる、請求項1に記載の方法。
【請求項8】
ビデオ品質を推定するための装置であって、
画像領域をストラクチャ成分およびテクスチャ成分に分解する画像分解器と
前記画像領域の前記ストラクチャ成分のエッジ強度を判断するエッジ検出器と
前記エッジ強度に応じてテクスチャマスキング重みを判断するテクスチャマスキング計算機と
前記テクスチャマスキング重みに応じて品質メトリックを判断する品質予測器と
を含む、前記装置。
【請求項9】
前記画像分解器において双方向フィルタが使用される、請求項8に記載の装置。
【請求項10】
前記エッジ検出器は、前記エッジ強度が閾値を超える場合、前記画像領域にエッジが存在すると判断し、前記テクスチャマスキング計算機は、前記エッジが前記画像領域に存在すると判断したとき、テクスチャマスキング特性が使用されないように前記テクスチャマスキング重みを設定する、請求項8に記載の装置。
【請求項11】
前記画像領域の前記テクスチャ成分に対してテクスチャ強度を判断するテクスチャ強度計算機をさらに含み、前記テクスチャマスキング計算機は前記エッジ強度および前記テクスチャ強度に応じて前記テクスチャマスキング重みを判断する、請求項8に記載の装置。
【請求項12】
前記テクスチャ強度は、前記画像領域の前記テクスチャ成分の分散として判断される、請求項11に記載の装置。
【請求項13】
前記テクスチャ強度計算機は、前記テクスチャ強度が閾値を超えない場合、前記画像領域が滑らかであると判断し、前記テクスチャマスキング計算機は、前記画像領域が滑らかであると判断されるときテクスチャマスキング特性が使用されないように前記テクスチャマスキング重みを設定する、請求項11に記載の装置。
【請求項14】
前記装置によりアクセスされる画像データは、重複しない複数の画像領域を含み、前記画像分解器における分解、前記エッジ検出器におけるエッジ強度の判断、および前記テクスチャマスキング計算機におけるテクスチャマスキング重みの判断が、前記複数の画像領域の各々に対して実行され、前記品質予測器は局所歪みの重み付けされた組合せに応じて前記品質メトリックを判断し、前記局所歪みは前記テクスチャマスキング重みによって重み付けされる、請求項8に記載の装置。
【請求項15】
請求項1ないし7のうち何れか1項に記載の方法を装置のプロセッサに実行させる命令を有するコンピュータプログラム。
【請求項16】
請求項15に記載のコンピュータプログラムを格納した記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本出願は、参照により組み込まれる、2011年11月29日に出願された国際特許出願第PCT/CN2011/083154号の利益を主張する。
【0002】
本発明は、ビデオ品質測定に関し、より詳細には、人間の視覚系のテクスチャマスキング特性に応じたビデオ品質測定法を判断するための方法および装置に関する。
【背景技術】
【0003】
ビデオ符号化、ネットワークスケジューリング、およびマルチメディアサービスの提案において、ビデオ品質メトリックが使用されることがある。一般に、ビデオコンテンツがよりテクスチャのあるものであるほど、ビデオコンテンツ中のより多くのアーチファクトは、人間の目に許容される可能性がある。すなわち、ビデオコンテンツが人間の目によって見られるとき、視覚アーチファクトが、ビデオコンテンツ自体によってマスクされることがある。人間の目のこの特性は、テクスチャマスキング特性(texture masking property)として知られている。
【発明の概要】
【課題を解決するための手段】
【0004】
一般的な態様によれば、少なくとも1つの画像領域を有する画像データがアクセスされる。画像領域は、ストラクチャ成分およびテクスチャ成分に分解される。画像領域のストラクチャ成分について、エッジ強度が判断され、画像領域のエッジ強度に応じて、テクスチャマスキング重みが判断される。次にテクスチャマスキング重みに応じて、品質メトリックが判断される。
【0005】
別の一般的な態様によれば、複数の画像領域を有する画像データがアクセスされる。画像データは、ストラクチャ成分およびテクスチャ成分に分解される。各画像領域のストラクチャ成分について、エッジ強度が判断され、各画像領域のエッジ強度に応じて、テクスチャマスキング重みが判断される。テクスチャマスキング重みで重み付けされた局所歪みの、重み付けされた組合せに応じて、品質メトリックが判断される。
【0006】
1つまたは複数の実装の詳細について、添付の図面および以下の説明で示す。1つの特定の方法で説明される場合でも、実装は様々な方法で構成される、または具体化されることがあることは明らかであろう。例えば、実装は、方法として行われる、例えば一連の動作を行うように構成された装置、もしくは一連の動作を行うための命令を格納する装置のような、装置として具体化されるか、または信号で具体化される場合がある。添付の図面および特許請求の範囲と併せて検討される次の詳細な説明から、他の態様および特徴が明らかになるであろう。
【図面の簡単な説明】
【0007】
図1A】ピクチャを示す画像の例である。
図1B】ピクチャのストラクチャ成分を示す画像の例である。
図1C】ピクチャのテクスチャ成分を示す画像の例である。
図2】本原理の一実施形態による、ビデオ品質メトリックを計算するための例を示す流れ図である。
図3A】エッジマップを示す画像の例である。
図3B】分散マップを示す画像の例である。
図3C】本原理の一実施形態によるマスクされた分散マップを示す画像の例である。
図4】本原理の1つまたは複数の実装とともに使用することができるテクスチャマスキング重み計算装置の例を示すブロック図である。
図5】本原理の1つまたは複数の実装とともに使用されることがあるビデオ品質測定装置の例を示すブロック図である。
図6】本原理の1つまたは複数の実装とともに使用されることがあるビデオ処理システムの例を示すブロック図である。
【発明を実施するための形態】
【0008】
ビデオ符号化、ネットワークスケジューリング、およびマルチメディアサービスにおいて、ビデオ品質メトリックが使用されることがある。基準ビデオの可用度によって、ビデオ品質メトリックは、フルリファレンスメトリック(full−reference metric)またはノーリファレンスメトリック(no−reference metric)として分類することができる。フルリファレンス品質メトリックについては、基準画像/ビデオと劣化画像/ビデオとの差が、画質に影響を与える主要な要因であるとすることができる。ノーリファレンス品質メトリックについては、量子化パラメータ(QP)またはブロック誤り率のような構成パラメータが、主要な要因となり得る。
【0009】
主要な要因に加えて、人間の視覚系のテクスチャマスキング特性もまた、認識される画質に影響を与える。したがって、多くの場合テクスチャマスキング特性は、ビデオ品質メトリックを設計するときシミュレートされる。例えば、ピクチャ中の領域は、視覚アーチファクトがマスクされる可能性があるテクスチャのある範囲とみなされることがあり、認識されるビデオ品質にあまり影響を与えないと考えられることがある。別の例では、ピクチャ中の領域は、テクスチャのない範囲(例えば、滑らかな範囲もしくはエッジを有する範囲)とみなされることがあり、認識される画質により多くの影響を与えると考えられることがある。
【0010】
テクスチャマスキング特性を活用するために、ピクチャ中の領域が、テクスチャのある領域、またはテクスチャのない領域として識別される必要がある。領域は、詳細なパターンおよび/または不規則なパターンを含んでいる場合、テクスチャのある領域と呼ばれる。そうでなければ、それはテクスチャのない領域と呼ばれ、通常、例えばエッジおよび輪郭のような構造(すなわち、重要な視覚情報を有する、広域的および規則的なパターン)を含む。
【0011】
領域がテクスチャのある領域またはテクスチャのない領域であるかどうかを識別するには、一般的な手法は、空間周波数または信号特異点を使用することになる。例えば、いくつかの既存の方法は、変換係数(例えば、DCT係数)の分布を使用して、画像ブロックを平滑領域、テクスチャのある領域、およびエッジ領域に分類する。しかしながら、テクスチャのある領域またはテクスチャのない領域は、ともに低空間周波数サブバンドおよび高空間周波数サブバンドを含み、滑らかでない視覚信号を含む可能性がある。したがって、空間周波数または信号特異点を使用してテクスチャのある領域を識別することは、あまり正確ではない可能性がある。別の一般的な手法は、局所信号分散を使用することになる。しかしながら、テクスチャのある領域またはテクスチャのない領域は、ともに高い信号の分散を有し、したがって分散によって適切に識別されることは不可能である。
【0012】
テクスチャのある領域が識別された後には、テクスチャマスキング特性をシミュレートする方法、すなわち、領域がテクスチャのあるものか、テクスチャのないものかに従ってビデオ品質メトリックを調整する方法が、さらなる困難な問題となる。いくつかの既存の方法は、視覚心理実験で観測される感度定数(例えば、Watsonの視覚マスク)を使用して、歪みを重み付けし、品質メトリックを取得する。しかしながら、このような視覚心理実験は、簡略化された観察条件下での人工的な視覚刺激を用いて設計されており、画質評価のために実際の条件を正確にシミュレートすることができない可能性がある。
【0013】
本原理は、フルリファレンス画質メトリックおよびノーリファレンス画質メトリックの精度を上げることができるテクスチャマスキング関数の推定を目的とするものである。
【0014】
図2は、テクスチャマスキング関数を使用してビデオ品質メトリックを推定するための例示的方法200を示す。ステップ210において、画像が、例えば双方向フィルタ、異方性フィルタ、またはトータルバリエーション(total variation)の調整により、ストラクチャ成分およびテクスチャ成分に分解される。ストラクチャ成分については、ステップ220においてエッジ検出が行われて、エッジマップを取得する。例えば、SobelフィルタまたはCannyエッジ検出器により、エッジ検出からエッジ強度を判断することができる。エッジ強度は、2値化することができる、すなわち、エッジが存在するかどうかを判断する。テクスチャ成分については、例えば分散によって測定されるテクスチャ強度が、ステップ225において計算されて、テクスチャ強度マップを取得する。より一般的には、テクスチャ強度は、画素値の局所統計量モーメント、または自己回帰の残差の局所統計量モーメントによって測定することができる。
【0015】
次にテクスチャマスキング重みが、ステップ230においてエッジ情報およびテクスチャ強度に基づいて推定される。以下に述べる例示的実施形態では、テクスチャマスキング重みは、0と1との間の値に設定され、ここで1は、「変化なし」を意味し、したがって「マスキングなし」を意味する。しかしながら、テクスチャマスキング重みの値は、他の領域に容易に拡張することができる。テクスチャマスキング重み付け関数を使用して、局所歪みはステップ240において品質全般のメトリックに変換することができる。
【0016】
以下において、画像をストラクチャ成分およびテクスチャ成分に分解するステップ(210)、テクスチャマスキング重みを計算するステップ(230)、およびビデオ品質メトリックを生成するステップ(240)は、さらに詳細に説明される。
画像をストラクチャ成分およびテクスチャ成分に分解する
例として双方向フィルタを使用して、画像がどのようにしてストラクチャ成分およびテクスチャ成分に分解されるかについて説明する。分解に他の方法が使用されるとき、本原理は容易に拡張することができる。
【0017】
画像Iを分解するために、双方向フィルタが繰り返し使用されて、スライディングウィンドウ内の画素を処理する。画像のサイズがm×mであり、スライディングウィンドウのサイズが(2n+1)×(2n+1)であると仮定すると、画素I(x,y)のフィルタリング処理は、次のように行われる:
a)ウィンドウ中の各隣接画素I(i,j)の近接度(closeness)パラメータを計算する:
【0018】
【数1】
【0019】
ここで、σが近接度の影響を抑制する。
b)ウィンドウ中の各隣接画素I(i,j)の類似度パラメータを計算する:
【0020】
【数2】
【0021】
一方、σが類似度の影響に作用する。
c)各隣接画素のフィルタリング係数を計算する:
【0022】
【数3】
【0023】
d)画像をフィルタリングすることによってストラクチャ成分S(x,y)を計算する:
【0024】
【数4】
【0025】
e)画像とストラクチャ成分との差としてテクスチャ成分T(x,y)を計算する:
T(x,y)=I(x,y)−S(x,y)
一実施形態では、n=3、σ=3、およびσ=0.03である。パラメータの値は、用途によって異なる可能性があり、例えばσは、ビデオの解像度に適合されることがあり、σは、ビデオのビット深度に適合されることがある。
【0026】
図1A〜1Cは、3つの例示的ピクチャを提供し、図1Aが画像を表示し、図1B図1Aの画像のストラクチャ成分を示し、図1C図1Aの画像のテクスチャ成分を示す。
【0027】
テクスチャマスキング重みを計算する
テクスチャマスキング重みを計算するために、入力されたピクチャは、重複しないブロックに分けられることが可能である。ほとんどの既存のビデオ圧縮規格、例えばH.264およびMPEG−2は、基本符号化単位として16×16のマクロブロック(MB)を使用する。したがって、次の実施形態は、基本処理単位として16×16のブロックを使用する。しかしながら、本原理は、例えば8×8のブロック、16×8のブロック、32×32のブロック、および64×64のブロックのような、異なるサイズのブロックを使用するように適合されることも可能である。本原理は、重複するブロックを使用するように拡張されることも可能である。
【0028】
テクスチャ成分のブロックについては、テクスチャ強度を推定するために信号の分散を計算することができる。一実施形態では、テクスチャ強度は、(0,1)の範囲にマップされる。輝度チャンネルおよび/またはクロミナンスチャンネルは、分散を計算するために使用することができる。個々のブロックの分散を使用して、テクスチャ強度マップを生成することができ、ブロックの分散が、テクスチャ強度マップのサンプルに対応する。分散に基づいたこのようなテクスチャ強度マップは、分散マップとも呼ばれる。前述のように、テクスチャ強度の測定に他の方法が使用されることがある。
【0029】
テクスチャ強度は、閾値と比較することによって2値化することができる。テクスチャ強度が閾値を超えない場合、対応するブロックは、滑らかであるとみなすことができ、そうでなければ、ブロックは滑らかではない可能性がある。
【0030】
ストラクチャ成分については、エッジマップを生成することができる。一実施形態では、ストラクチャ成分は、エッジ検出の前に、例えば縦横に16分の1にダウンサンプルされることがある。ダウンサンプルされたストラクチャ成分から、エッジマップが推定される。エッジ検出に3×3のSobelフィルタが使用されると仮定すると、フィルタリングされた画素の絶対応答が加算されてエッジ強度を表すことができる。原ピクチャ中のブロックのエッジ強度は、エッジマップ中のサンプルに対応する。エッジ強度は、(0,1)の範囲にマップすることができる。
【0031】
エッジ強度もまた、閾値と比較することによって2値化することができる。エッジ強度が閾値を超える場合、広域的なエッジが現れる可能性が高く、対応する領域がエッジとして分類され、そうでなければ、領域はエッジなしと分類される。
【0032】
別の実施形態では、エッジ検出は、ダウンサンプリングの前に行われることがある。通常、ダウンサンプリングを用いて、エッジマップは、テクスチャ強度マップと同じサイズを有するべきである。したがって、テクスチャ強度を計算するためのブロックサイズが変われば、エッジマップを計算するためのダウンサンプリング比は、それに応じて変わるべきである。
【0033】
テクスチャ強度は、次にエッジ強度によって調整することができる。すなわち、テクスチャ強度およびエッジ強度は連帯的に考慮されて、テクスチャマスキング重みを推定する。テクスチャ強度マップ中のサンプルを、T(u,v)、およびエッジマップ中のサンプルをE(u,v)と示し、ここでuおよびvは、入力ピクチャ中の各ブロックの左右のインデックスおよび上下のインデックスである。
【0034】
テクスチャ強度マップが2値のテクスチャ強度情報を含むとき、
【0035】
【数5】
【0036】
エッジマップが2値のエッジ強度情報を含むとき、
【0037】
【数6】
【0038】
エッジ強度を用いて、調整されるテクスチャ強度、R(u,v)は、次のように計算することができる:
R(u,v)=T(u,v)×[1−E(u,v)] (2)
すなわち、テクスチャ強度が低くなるほど、またはエッジ強度が高くなるほど、調整されるテクスチャ強度は低くなる。式(2)では、T(u,v)およびE(u,v)が、(0,1)の範囲内であると仮定されることに注意されたい。T(u,v)およびE(u,v)が他の数値範囲にあると設定されるとき、式(2)はこれに応じて調整されるべきである。
【0039】
図3Aは、例示的な2値エッジマップを示し、白いサンプルがエッジを表し、黒いサンプルがエッジなしを表す。図3Bは、例示的な分散マップを示し、より明るいサンプルがより強い分散に対応する。図3Cは、例示的なマスクされた分散マップを示し、エッジマップにエッジがあるとき、分散は0に設定される。
【0040】
次に、ブロック単位のテクスチャマスキング重み、W(u,v)が、例えば調整されたテクスチャ強度R(u,v)の対数ロジスティック関数として、計算することができる。
【0041】
【数7】
【0042】
ここで、パラメータcは、正の実数であり、主観データベースを使用してトレーニングすることができる。対数ロジスティック関数は、正の独立変数を(0,1)の範囲内となるようにマップする。例えば、画像領域がエッジマップ中のエッジと分類される(labeled)とき、テクスチャマスキング重みは1に設定される。シグモイド形状の関数(例えば、ゴンペルツ(Gompertz)関数、反曲線(Ogee curve)、一般化ロジスティック関数(generalized logistic function)、代数曲線、逆正接関数、または誤差関数)のような、他の関数が使用されて、調整されたテクスチャ強度をテクスチャマスキング重みにマップすることができる。
【0043】
結果として、テクスチャ強度が低くなるほど、またはエッジ強度が高くなるほど、テクスチャマスキング重みは高くなる(すなわち、ビデオ品質メトリックを判断する際にマスクされていると考えられるアーチファクトがより少ない)。これは、人間の目のテクスチャマスキング特性と一致する。
【0044】
2値テクスチャ強度マップおよび2値エッジマップを考慮しながら、テクスチャマスキング重みが画像内容にどのように関連しているかをさらに詳細に述べる。個々のブロックは、以下を有する:
(1)滑らかなテクスチャ成分、およびストラクチャ成分にエッジなし(T(u,v)=0,E(u,v)=0)、
(2)滑らかなテクスチャ成分、およびストラクチャ成分にエッジ(T(u,v)=0,E(u,v)=1)、
(3)滑らかでないテクスチャ成分、およびストラクチャ成分にエッジなし(T(u,v)=1,E(u,v)=0)、あるいは
(4)滑らかでないテクスチャ成分、およびストラクチャ成分にエッジ(T(u,v)=1,E(u,v)=1)。
【0045】
対応するテクスチャマスキング重みW(u,v)が表1に示されている。すなわち、テクスチャ成分が滑らかである、またはストラクチャ成分がエッジを含むとき、テクスチャマスキング重みは、1である(すなわち、マスキングなし)と計算され、テクスチャ成分が滑らかではなく、ストラクチャ成分にエッジがないとき、テクスチャマスキング重みは0であると計算される。上述のように、アーチファクトが、テクスチャのある範囲ではマスクされる可能性があるが、テクスチャのない範囲(例えば、滑らかな範囲、またはエッジのある範囲)でマスクされる可能性がない。したがって、ブロックに対して計算されたテクスチャマスキング重みは、対応する画像内容に一致し、したがって人間の視覚系のテクスチャマスキング特性に一致する。
【0046】
【表1】
【0047】
画像をテクスチャ成分およびストラクチャ成分に分解することによって、本原理は、領域をテクスチャのある領域、またはテクスチャのない領域としてより正確に分類し、したがって人間の目のテクスチャマスキング特性をより綿密にシミュレートすることができる。画質の測定に加えて、推定されたテクスチャマスキング重みは、他の用途に、例えばビデオ圧縮のレート制御アルゴリズムを設計する際に、使用することが可能である。
【0048】
ビデオ品質メトリックを生成する
D(u,v)において局所歪みが測定されると仮定すると、全体的な品質メトリックQは、局所歪みの重み付けされた和として計算することができる。
Q=Σu,v[W(u,v)・D(u,v)] (4)
次に、損失の大きいネットワークを通じて伝送されるビデオに対してビデオ品質メトリックを推定する際に、テクスチャマスキング重みが使用可能である例示的実施形態について述べる。
【0049】
伝送中に画像ブロックが失われるとき、ブロックは適切に再構成できず、視覚アーチファクトを引き起こす可能性がある。一方、破損したブロックを指す、正確に受信されたインター予測された(inter predicted)ブロックもまた、適切に再構成できず、したがって、エラー伝播として知られる別のタイプの視覚アーチファクトを引き起こす可能性がある。知覚されるアーチファクトを低減するために、復号器がエラー隠蔽技術によって、損なわれたブロックを回復しようと試みることができる。エラー隠蔽後のピクチャには、目に見えるアーチファクトが残っていることがある。
【0050】
一部の失われたブロックは、エラー隠蔽によって適切に回復され、したがって、知覚されるビデオ品質にほとんど影響を及ぼさないことがある。失われたブロックが十分に高い品質で(すなわち、あたかもブロックが正確に受信されるかのように)回復されたかどうかをチェックするために、ピクチャはビットストリームから画素に復号され、復号されたピクチャ上でモザイクアーチファクトが検出される。ブロック境界に沿ってモザイクアーチファクトが検出されるとき、ブロックのモザイクアーチファクト強度は1に設定される。そうでなければ、それは0に設定され、ブロックは適切に回復されたと考えられる。
【0051】
視覚アーチファクトを測定するために、テクスチャマスキング効果を考慮しないメトリックは、次のように計算可能である:
u,v,t=MAu,v,t(ECu,v,t+EPu,v,t) (5)
Q=Σu,v,tu,v,t=Σu,v,t[MAu,v,t(ECu,v,t+EPu,v,t)] (6)
ここで、Du,v,tは、ブロック(u,v)の時間tにおける歪みであり、ECu,v,tは、ブロックが失われているかどうかを示す2値であり、EPu,v,tは、ブロックが伝播されたブロックであるかどうか、すなわちブロックが予測のために失われたブロックを直接的もしくは間接的に使用するかどうかを示す2値であり、MAu,v,tは、ブロックがその境界に沿ってモザイクアーチファクトを含んでいるかどうかを示す2値である。
【0052】
局所歪み測定は、他の方法を使用して、例えば原画像が利用できるとき、原画像と損なわれた画像との差として、計算されることも可能であることに注意されたい。
【0053】
テクスチャマスキング特性を考慮して、式(6)で定義されたメトリックを改善することが可能である。詳細には、式(3)に記載するテクスチャマスキング関数が使用されて、式(5)に記載する局所歪みを重み付けし、重み付けされた局所歪みがまとめてプールされて、最終的な品質スコアを形成する:
【0054】
【数8】
【0055】
ここで、W(u,v,t)は、ブロック(u,v)の時間tにおけるテクスチャマスキング重みである。主観データベース上でトレーニングした後、例示的パラメータcが0.5〜1の間となるように設定される。
【0056】
テクスチャマスキング重みは、さらに複雑なプーリング戦略を有する品質測定で結合することも可能である。例えば、次のようにメトリックが計算可能である:
Q=Σ[Σu,vW(u,v,t)MAu,v,t(ECu,v,t+EPu,v,t)]γ
ここで、局所歪みは2つのレベルの総和によってプールされる。内部の総和(inner summation)では、各ピクチャ内の局所歪みが空間的にプールされ、外部の総和(outer summation)では、γまでの各ピクチャ電力の歪みが時間的にプールされ、γは時間的プーリング戦略に影響を与えるパラメータであり、例示的γは0.6〜1の間である。
【0057】
図4は、例えば方法200により、テクスチャマスキング重みを計算するために使用可能である例示的装置400のブロック図を示す。装置400の入力は、画像またはビデオを含む。
【0058】
画像は、画像分解器(410)によって、ストラクチャ成分およびテクスチャ成分に分解される。ストラクチャ成分は、ダウンサンプリングモジュール(420)によってダウンサンプルされ、そのエッジ強度は、エッジ検出器(430)によって計算される。テクスチャ成分については、局所テクスチャ強度が、テクスチャ強度計算機(440)によって、例えば分散計算機によって、計算される。エッジ強度およびテクスチャ強度を使用して、テクスチャマスキング重みは、テクスチャマスキング計算機(450)によって、例えば式(3)を使用して、計算することができる。
【0059】
図5は、画像のビデオ品質メトリックを生成するために使用することが可能な例示的ビデオ品質測定装置500のブロック図である。装置500の入力は、ビットストリームを含んだトランスポートストリームを含む。入力は、ビットストリームを含んだ他の方式であることもある。システムレベルにおける受信機が、受信されたビットストリーム中のパケット損失を判断する。
【0060】
デマルチプレクサ510が、入力されたストリームをパースして、例示的ストリームまたはビットストリームを取得する。それはまた、パケット損失に関する情報を復号器520に渡す。復号器520は、ビデオの品質を推定するためのパラメータを生成するために、各ブロックもしくはマクロブロックに対して、QP、変換係数、および動きベクトルなどの、必要な情報をパースする。復号器はまた、パケット損失に関する情報を使用して、ビデオ中のどのマクロブロックが失われたかを判断する。復号器520は、完全な復号が行われない、すなわちビデオは再構成されないことを強調するために、部分的な復号器として示されている。
【0061】
復号器520からパースされたMBレベルのQPを使用して、QPパーサ533がピクチャの、およびビデオクリップ全体の、平均QPを取得する。復号器520から取得された変換係数を使用して、変換係数パーサ532が、係数をパースし、内容予測不能性パラメータ計算機534が、個々のピクチャの、およびビデオクリップ全体の、内容予測不能性パラメータを計算する。どのマクロブロックが失われているかに関する情報を使用して、失われたMBのタガー531がどのMBが失われているかをマーク付けする。動き情報をさらに使用して、伝播されたMBのタガー535が、予測のために、どのMBが失われたブロックを直接的または間接的に使用しているか(すなわち、どのブロックがエラー伝播によって影響を受けているか)をマーク付けする。ブロックの動きベクトルを使用して、MVパーサ536が、MB、ピクチャ、およびビデオクリップ全体の平均動きベクトルを計算する。エラー隠蔽間隔、フリーズの継続時間、およびフレームレートを判断するために、他のモジュール(図示せず)を使用することができる。
【0062】
圧縮歪み予測器540が圧縮歪み率を推定し、スライシング歪み予測器542がスライシング歪み率を推定し、フリージング歪み予測器544がフリージング歪み率を推定する。推定された歪み率に基づいて、品質予測器550が、ビデオ全体の品質メトリックを推定する。
【0063】
追加の計算が可能であるとき、復号器570はピクチャを復号する。復号器570は、完全な復号器として示され、これはピクチャを再構成し、必要であればエラー隠蔽を行う。モザイク検出器580は、再構成されたビデオ上でモザイク検出を行う。モザイク検出の結果を使用して、失われたMBのタガー531および伝播されたMBのタガー535は、関連するパラメータ、例えば失われたブロックのフラグおよび伝播されたブロックのフラグを更新する。
【0064】
テクスチャマスキング推定器585が、テクスチャマスキング重みを計算する。装置400は、テクスチャマスキング推定器として使用することができる。テクスチャマスキング重みは、歪みを重み付けするために使用することができる。
【0065】
図6を参照すると、上述の特徴および原理が適用可能であるビデオ伝送システムまたは装置600が示されている。プロセッサ605がビデオを処理し、符号器610はビデオを符号化する。符号器から生成されたビットストリームは、配信ネットワーク620を介して復号器630に伝送される。ビデオ品質モニタまたはビデオ品質測定装置、例えば装置500を、様々な段階で使用することができる。
【0066】
一実施形態では、ビデオ品質モニタ640が、コンテンツクリエータによって使用されることができる。例えば、推定されたビデオ品質は、モード決定またはビットレートの割当てのような符号化パラメータを決定する際に符号器によって使用されることができる。別の例では、ビデオが符号化された後に、コンテンツクリエータは、ビデオ品質モニタを使用して、符号化されたビデオの品質を監視する。品質メトリックがあらかじめ定められた品質レベルを満たさない場合、コンテンツクリエータは、ビデオ品質を向上させるためにビデオを再符号化することを選択することができる。コンテンツクリエータはまた、品質に基づいて符号化されたビデオをランク付けすることもでき、それに応じてコンテンツをチャージする。
【0067】
別の実施形態では、ビデオ品質モニタ650が、コンテンツ配信業者によって使用されることができる。ビデオ品質モニタは、配信ネットワークに配置することができる。ビデオ品質モニタは、品質メトリックを計算し、これらをコンテンツ配信業者に報告する。ビデオ品質モニタからのフィードバックに基づいて、コンテンツ配信業者が、帯域幅の割当ておよびアクセス制御を調整することにより、そのサービスを向上させることができる。
【0068】
コンテンツ配信業者はまた、フィードバックをコンテンツクリエータに送信して、符号化を調整することも可能である。高品質符号化ビデオは、通常より多くの帯域幅を必要とし、伝送保護用の帯域幅はより少なくなるので、符号器における符号化品質を向上させることが、必ずしも復号器側における品質を向上させるわけではないことに注意されたい。したがって、復号器において最適な品質を得るために、符号化ビットレートと、チャネル保護用の帯域幅とのバランスが考慮されるべきである。
【0069】
別の実施形態では、ビデオ品質モニタ660が、ユーザデバイスによって使用されることができる。例えば、ユーザデバイスがインターネットでビデオを検索するとき、検索結果が多くのビデオまたはリクエストされたビデオコンテンツに対応するビデオへの多くのリンクを返すことができる。検索結果中のビデオは、様々な品質レベルを有することがある。ビデオ品質モニタが、これらのビデオの品質メトリックを計算し、どのビデオを格納すべきかの選択を決定することができる。別の例では、復号器は、様々なエラー隠蔽モードに関して隠蔽されたビデオの品質を推定する。推定に基づいて、よりよい隠蔽品質を提供するエラー隠蔽が、復号器によって選択されることが可能である。
【0070】
本明細書に記載する実装は、例えば、方法もしくはプロセス、装置、ソフトウェアプログラム、データストリーム、または信号において実装することができる。単一の形態の実装の状況で説明される(例えば、単に1つの方法として説明される)としても、記載した特徴の実装は、他の形態(例えば、装置、またはプログラム)で実装することも可能である。装置は、例えば、適切なハードウェア、ソフトウェア、およびファームウェアで実装することができる。方法は、例えばコンピュータ、マイクロプロセッサ、集積回路、またはプログラマブル論理デバイスなどの、一般に処理装置を指す、例えばプロセッサのような、例えば装置に実装することができる。また、プロセッサは、例えばコンピュータ、携帯電話、携帯/個人情報端末(portable/personal digital assistants、「PDA」)、およびエンドユーザ間の情報の通信を容易にするその他のデバイスのような、通信デバイスを含む。
【0071】
本原理の「一実施形態」または「実施形態」または「1つの実装」または「実装」への言及、ならびにその他の変形は、実施形態に関連して説明した特定の特徴、構造、特性、その他が、本原理の少なくとも一実施形態に含まれることを意味する。したがって、本明細書にわたって様々な箇所で現れる「一実施形態では」または「実施形態では」または「1つの実装では」または「実装では」という語句、ならびにその他の変形の出現は、必ずしもすべて同じ実施形態を指しているとは限らない。
【0072】
さらに、この出願またはその特許請求の範囲は、情報の様々な部分を「判断すること(determining)」に言及することがある。情報を判断することは、例えば、情報を推定すること、情報を計算すること、情報を予測すること、またはメモリから情報を検索することのうちの1つまたは複数を含むことがある。
【0073】
さらに、この出願またはその特許請求の範囲は、情報の様々な部分に「アクセスすること」に言及することがある。情報にアクセスすることは、例えば、情報を受信すること、(例えばメモリから)情報を検索すること、情報を格納すること、情報を処理すること、情報を伝送すること、情報を移動させること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を判断すること、情報を予測すること、または情報を推定することのうちの1つまたは複数を含むことがある。
【0074】
さらに、この出願またはその特許請求の範囲は、情報の様々な部分を「受信すること」に言及することがある。受信することは、「アクセスすること」と同様に、広義の用語とするものである。情報を受信することは、例えば、情報にアクセスすること、または(例えばメモリから)情報を検索することのうちの1つまたは複数を含むことがある。さらに、「受信すること」は一般的に、例えば、情報を格納すること、情報を処理すること、情報を伝送すること、情報を移動させること、情報をコピーすること、情報を消去すること、情報を計算すること、情報を判断すること、情報を予測すること、または情報を推定することのような動作中に様々な方法で含まれる。
【0075】
当業者には明らかであるように、実装は、例えば格納するかまたは伝送することができる情報を搬送するようにフォーマットされた様々な信号を生成することができる。情報は、例えば方法を行うための命令、または記載した実装の1つによって作成されるデータを含むことができる。例えば、信号は、記載した実施形態のビットストリームを搬送するようにフォーマットすることができる。このような信号は、例えば電磁波(例えば、スペクトルの無線周波数部分を使用する)として、またはベースバンド信号として、フォーマットすることができる。フォーマットすることは、例えばデータストリームを符号化すること、および符号化されたデータストリームを用いて搬送波を変調することを含むことができる。信号が搬送する情報は、例えばアナログ情報、またはディジタル情報とすることができる。信号は、知られているように、様々な異なる有線リンクまたは無線リンクを通じて伝送することができる。信号は、プロセッサ読取可能媒体に格納することができる。
以下、本願により教示される手段を例示的に列挙する。
(付記1)
ビデオ品質を推定するための方法であって、
少なくとも1つの画像領域を有する画像データにアクセスするステップと、
前記画像領域をストラクチャ成分およびテクスチャ成分に分解するステップ(210)と、
前記画像領域の前記ストラクチャ成分のエッジ強度を判断するステップ(220)と、
前記エッジ強度に応じてテクスチャマスキング重みを判断するステップ(230)と、
前記テクスチャマスキング重みに応じて品質メトリックを判断するステップ(240)と、
を含む、前記方法。
(付記2)
双方向フィルタを使用して、前記画像領域を前記ストラクチャ成分および前記テクスチャ成分に分解する、付記1に記載の方法。
(付記3)
前記エッジ強度が閾値を超える場合、前記画像領域にエッジが存在すると判断するステップであって、前記エッジが前記画像領域に存在すると判断したとき、テクスチャマスキングを行わないように前記テクスチャマスキング重みを設定する、ステップ
をさらに含む、付記1に記載の方法。
(付記4)
前記画像領域の前記テクスチャ成分に対してテクスチャ強度を判断するステップ(225)であって、前記テクスチャマスキング重みを前記判断するステップは、前記エッジ強度および前記テクスチャ強度に応じたものである、ステップ
をさらに含む、付記1に記載の方法。
(付記5)
前記テクスチャ強度は、前記画像領域の前記テクスチャ成分の分散として判断される、付記4に記載の方法。
(付記6)
前記テクスチャ強度が閾値を超えない場合、前記画像領域が滑らかであると判断するステップであって、前記画像領域が滑らかであると判断したとき、テクスチャマスキングを行わないように前記テクスチャマスキング重みを設定する、ステップ
をさらに含む、付記4に記載の方法。
(付記7)
前記画像データは、複数の画像領域を含み、前記分解するステップ、前記エッジ強度を判断するステップ、および前記テクスチャマスキング重みを判断するステップは、前記複数の画像領域に対し、分解するステップ、それぞれのエッジ強度を判断するステップ、およびそれぞれのテクスチャマスキング重みを判断するステップを含み、前記品質メトリックは局所歪みの重み付けされた組合せに応じて判断され、前記局所歪みは前記テクスチャマスキング重みによって重み付けされる、付記1に記載の方法。
(付記8)
ビデオ品質を推定するための装置であって、
画像領域をストラクチャ成分およびテクスチャ成分に分解する画像分解器(410)と、
前記画像領域の前記ストラクチャ成分のエッジ強度を判断するエッジ検出器(430)と、
前記エッジ強度に応じてテクスチャマスキング重みを判断するテクスチャマスキング計算機(450)と、
前記テクスチャマスキング重みに応じて品質メトリックを判断する品質予測器(500)と、
を含む、前記装置。
(付記9)
前記画像分解器(410)において双方向フィルタが使用される、付記8に記載の装置。
(付記10)
前記エッジ検出器(430)は、前記エッジ強度が閾値を超える場合、前記画像領域にエッジが存在すると判断し、前記テクスチャマスキング計算機(450)は、前記エッジが前記画像領域に存在すると判断したとき、テクスチャマスキングを行わないように前記テクスチャマスキング重みを設定する、付記8に記載の装置。
(付記11)
前記画像領域の前記テクスチャ成分に対してテクスチャ強度を判断するテクスチャ強度計算機(440)をさらに含み、前記テクスチャマスキング計算機(450)は前記エッジ強度および前記テクスチャ強度に応じて前記テクスチャマスキング重みを判断する、付記8に記載の装置。
(付記12)
前記テクスチャ強度は、前記画像領域の前記テクスチャ成分の分散として判断される、付記11に記載の装置。
(付記13)
前記テクスチャ強度計算機(440)は、前記テクスチャ強度が閾値を超えない場合、前記画像領域が滑らかであると判断し、前記テクスチャマスキング計算機(450)は、前記画像領域が滑らかであると判断されるときテクスチャマスキングを行わないように前記テクスチャマスキング重みを設定する、付記11に記載の装置。
(付記14)
前記画像データは、複数の画像領域を含み、前記複数の画像領域に対して、前記画像分解器(410)、前記エッジ検出器(430)および前記テクスチャマスキング計算機(450)は、それぞれ分解し、それぞれのエッジ強度を判断し、およびそれぞれのテクスチャマスキング重みを判断し、ならびに前記品質予測器(500)は局所歪みの重み付けされた組合せに応じて前記品質メトリックを判断し、前記局所歪みは前記テクスチャマスキング重みによって重み付けされる、付記8に記載の装置。
(付記15)
画像領域をストラクチャ成分およびテクスチャ成分に分解するステップ(210)と、
前記画像領域の前記ストラクチャ成分に対してエッジ強度を判断するステップ(220)と、
前記エッジ強度に応じてテクスチャマスキング重みを判断するステップ(230)と、
前記テクスチャマスキング重みに応じて品質メトリックを判断するステップ(240)と、
を1つまたは複数のプロセッサに一括して実行させるための命令を格納した、プロセッサ読取可能媒体。
図2
図4
図5
図6
図1A
図1B
図1C
図3A
図3B
図3C