(58)【調査した分野】(Int.Cl.,DB名)
前記ビデオ・シーケンスの品質は、前記第1のパラメータと前記第2のパラメータと前記第3のパラメータとの線形結合として測定され、前記線形結合の各係数は、実験によって決められる、請求項1に記載の方法。
前記組み合わせユニットは、前記ビデオ・シーケンスの品質の結果を、前記第1のパラメータと前記第2のパラメータと前記第3のパラメータとの線形結合によって取得し、前記線形結合の各係数は実験によって決められる、請求項8に記載の装置。
前記組み合わせユニットは、前記ビデオ・シーケンスの品質の結果を、前記第1のパラメータと前記第2のパラメータと前記第3のパラメータとについてのトレーニング・マシンのマシン・トレーニングによって取得する、請求項8に記載の装置。
【背景技術】
【0002】
この欄は、後述する、及び/又は、特許請求の範囲の各請求項に記載する本発明の種々の態様に関連するであろう技術の種々の態様を読者に紹介することを意図したものである。この欄で説明する事項は、本発明の種々の態様をより良く理解することを容易にするための背景情報を読者に提供するのに役立つと確信する。従って、この欄での記載事項は、この観点から読まれるべきであり、従来技術の自認として読まれるべきではない。
【0003】
無線通信技術の急速な発展により、テレビ電話(ビデオ・フォン)、ビデオ・ストリーミング、及び、ビデオ・ブロードキャスティングを用いたビデオ通信が、益々、普及している。そのような通信プロセスに於いて、圧縮されたメディア・データのパケットが、不安定なネットワークを介して送信されることがあり、その間に、圧縮に於けるデータ損失、或いは、送信に於けるパケット損失によって、空間的、及び、時間的な歪みが生じることがある。ビット・レート適応技術とネットワークに於けるパケット損失は、知覚されるビデオ品質の劣化の起源となり得る。送信元の符号化処理の段階に於いて、時間的なダウン・サンプリングは、ビット・レート適応処理に採用される技術の1つであるが、その過程で、シーケンスは、ビデオの動きの連続性に影響を及ぼすコマ落ち(フレーム・ドロッピング)の影響を被る。
【0004】
知覚ジッターは、フレーム損失によって生じる一般的なビデオ品質劣化である。一般的に、知覚ジッターは、ビデオ・フレーム・シーケンスに於ける1つ或いは複数の連続したフレームがビデオ・ストリーミング期間中に失われて、その後の表示段階に於いて、最後に正確に受信されたフレームに置き換えられる場合に知覚される、一種の一時的なアーティファクトである。
図1は、フレームのドロッピング、或いは、破棄のようなフレーム損失によって生じる知覚ジッターを示す代表的な図である。
図1には、フレーム損失のプロセスとビデオ品質に対するその影響とが示されている。
図1中の線はオブジェクトの移動の軌道を表しており、X軸が時間、Y軸がオブジェクトの位置である。時間B
0と時間Bとの間のフレームがコマ落ちしている。この場合、最後に正確に受信された、時間B
0に於けるフレームが、新たなフレームが時間Bに於いて正確に受信されるまで表示されるので、この表示されたオブジェクトは、その期間中、静止状態を保ち、その後、即座に新しい位置にジャンプすることになる。この期間が比較的に短く、且つ、オブジェクトの動きが僅かである場合、視聴者は、オブジェクトが何をしているかを推測でき、動きの不連続性を知覚しないであろう。そうでない場合、視聴者の脳は「動きの不連続性」の現象を隠し損ね、その結果、視聴者は、この一時的なアーティファクトを認識することになる。
【0005】
知覚ジッターによって生じる一時的な劣化の知覚的影響を評価するいくつかの研究が為されている。非特許文献1に記載された特定の主観的なテストによれば、コマ落ちしたフレームの数が増加するに従って、知覚品質が低下すると結論づけられている。この結論は、非特許文献2による研究によって、知覚的影響がコンテンツに顕著に依存するという結論にまで拡張されている。非特許文献3に於ける結論は、上記2つの文献と類似してはいるが、依存するコンテンツの要素を動き活動度とし、動き活動度の低いビデオは、ジッターが存在しても、知覚品質に於いて、動き活動度の高いビデオほどは、その影響を受けないとしている。これらの前提に基づいて、定量的なモデルも提案されている。
【0006】
しかしながら、知覚ジッターに利用可能な、体系化された評価方式は未だ無い。
【発明を実施するための形態】
【0014】
本発明の一実施形態を、ビデオ・ストリーム・システムに関連して説明する。本実施形態によれば、ビデオ・シーケンス内の1つ或いは複数の連続したフレームが、ストリーミング期間中に失われて、表示の際に、最後に正確に受信されたフレームによって置き換えられ、その後、当該ビデオ・シーケンス内の後続のフレームが正確に受信される場合、当該ビデオ・シーケンスの知覚ジッターは、次の3つの態様によって影響を受ける。
1)フレーム・フリーズ:1つ或いは複数の連続したフレームが失われた場合に、最後に正確に受信されたフレームの表示から次のフレームの表示までの期間中、その最後に正確に受信されたフレームが静止状態/フリーズ状態を保つことによって生じる作用。
2)動きの不連続性:上記期間中に、オブジェクトの動きが、最後に正確に受信されたフレームと次のフレームとの間の不連続性により、不連続になるという作用。例えば、視聴者がビデオのバスケット・ボールに注目している場合、動きの不連続性は、そのバスケット・ボールが、短期間の間、消えて見えなくなり、その後突然、別の場所に現れて見えることを意味する。
3)サイコロジカル・ジャーク(心理的な急な動き):コヒーレント・モーション、特にカメラ・モーションによって生じる作用。特に、速いパン撮り(panning)の場合に1つ或いは複数の連続したフレームが失われた場合、視聴者の知覚は著しく低下する。これは、大量の心理的な活動が生じた為に、両目と脳が急激に疲れてしまうからである。
【0015】
上述の点に鑑みて、本発明の実施形態では、歪んだビデオ・シーケンスの知覚ジッターを、上記の3つの作用のそれぞれに関する3つのパラメータの関数として測定することを提案する。
【0016】
本発明の実施形態の一態様は、フレーム損失によって歪んだビデオ・シーケンスの知覚ジッターを測定する方法を提供する。
【0017】
図2は、フレーム損失によって歪んだビデオ・シーケンスの知覚ジッターを測定する方法のワークフローを示すフローチャートである。
【0018】
図2に示されているように、本方法は、以下の各ステップを含む。
S201:フレーム損失によって歪んだビデオ・シーケンスのフレーム・フリーズを評価する。
S202:フレーム損失によって歪んだビデオ・シーケンスの動きの不連続性を評価する。
S203:フレーム損失によって歪んだビデオ・シーケンスのサイコロジカル・ジャークを評価する。
S204:上記の3つの先行する各ステップの結果を組み合わせることによって、ビデオ・シーケンスの知覚ジッターを測定する。
【0019】
変形例によれば、ステップS204に於いて、上記の3つの結果の全てではなく、上記の3つの結果から選択された2つの結果を組み合わせる。
【0020】
本発明の実施形態の他の態様は、フレーム損失によって歪んだビデオ・シーケンスの知覚ジッターを測定する装置を提供する。
【0021】
本発明の実施形態によれば、まず、上記の3つの影響の各々が当該装置によって個別に評価され、次に、その3つの別個の結果を組み合わせることによって、総合的な知覚ジッターの測定結果が得られる。
【0022】
図3は、ビデオ・シーケンスの知覚ジッターを測定する装置300の高レベルのブロック図である。
図3に示されているように、装置300の入力は、1つ或いは複数の連続したフレームの損失を有する歪んだビデオ・シーケンスであり、その出力は、歪んだビデオ・シーケンスに於ける1つ或いは複数の連続したフレームの損失によって生じた品質劣化レベルを示す値であり、このケースでは知覚ジッターである。
【0023】
装置300は、歪んだビデオ・シーケンスを受信して、フレーム・フリーズによって生じたビデオ・シーケンスの知覚ジッターを評価するフレーム・フリーズ評価モジュール301と、歪んだビデオ・シーケンスを受信して、動きの不連続性によって生じたビデオ・シーケンスの知覚ジッターを評価する動き不連続性評価モジュール302と、歪んだビデオ・シーケンスを受信して、サイコロジー・ジャークによって生じたビデオ・シーケンスの知覚ジッターを評価するサイコロジー・ジャーク評価モジュール303と、モジュール301,302及び303からの各出力を受信して、これらの出力を組み合わせて、フレーム損失によって生じた総合的な知覚ジッター測定結果を得る組み合わせモジュール304と、を有している。
【0024】
次に、装置300の動作について詳細に説明する。
【0025】
先ず、幾つかの表記を以下に説明する。
【0026】
本実施形態についての以下の説明に於いて、元のビデオ・シーケンスをv={f
1,f
2,...,f
N}と表す。フレームf
k+1,f
k+2,...,f
m−1が送信期間中に失われたとすると、ストリーミングされたビデオ・シーケンス/歪んだビデオ・シーケンスをV’={f
1’,f
2’,...,f
N’}と表す。
ここで、
【数1】
である。
【0027】
手短に言えば、装置300は、元のシーケンスの(m−k−1)個のフレームが失われた場合に、歪んだビデオ・シーケンスに於けるフレームf
k’とフレームf
m’との間の一時的な品質劣化のレベルを評価するために使用される。
【0028】
以下の説明に於いて、フレーム・レートをFPSとして表し、表示コンテンツが静止状態に保たれるf
k’とf
m’との間の期間をT=(m−k)/FPSと表す。また、ビデオ・シーケンスVのi番目のフレームに於ける(x,y)で示されるマクロブロックの動きベクトルをMV
i,x,yと表す。
【0029】
1.フレーム・フリーズ評価モジュール301
本発明の一実施形態によれば、フレーム・フリーズ評価モジュール301は、次の等式(1)によって、フレーム・フリーズによって生じたビデオの知覚ジッターを測定できる。
【数2】
【0030】
視聴者は、動きの非常に小さい極めて静的なビデオ・シーケンスに於けるフレーム・フリーズを認識しないことが分かる。上記の等式(1)に於いて、g
1(MV
k)により、このケースが特定される。ここで、MV
kは、ビデオ・シーケンスVのk番目のフレームの動きベクトルの測定値である。
【数3】
【0031】
等式(1)に於いて、g
2(T)は、フレーム・フリーズによって生じた知覚的影響の評価に於ける重要な要因であるフレーム・フリーズの期間Tを特定することに用いられる。
【数4】
【0032】
上記のように、当該期間が定数より小さい(T<C
2)場合、人間の脳は、フレーム・フリーズの前後の映像を結び付けようとし、それによって当該期間を連続した動きに入れてしまう。この場合、視聴者は、フレーム・フリーズ自体を認識しない。
【0033】
2.動き不連続性評価モジュール302
ビデオ・ブラウジングに於いて、視聴者の眼球運動は、主に3つのタイプ、即ち、サッカード(saccade)、固視(fixation)、及び、円滑な追従視(smooth pursuit)に分解される。サッカードは、視聴者が視野を探索することを可能にする非常に速い眼球運動である。固視は、凝視が視野の特定領域に固定される場合の目の残留運動である。追従視の運動は、動いているオブジェクトの像を円滑に追跡する目の能力である。
【0034】
視聴者は、主に、固視/円滑な追従視の段階から情報を得る。これらの段階に於いて、人間の目は、興味あるオブジェクトの小さい領域を注視する。フレーム損失が生じると、人間の目は、新たなフレームが正確に送信されるまで、静止状態を保つ。そのため、現在注視している領域の画素値が異なれば異なるほど、それだけ、動きの不連続性に気付き易くなることが分かる。
【0035】
上述の説明に従って、動き不連続性評価モジュール302は、次の等式(2)によって、動きの不連続性によって生じた知覚ジッターを評価できる。
【数5】
ここで、Nは画素数であり、p
i,jは、フレームf
j’に於けるi番目の画素の画素値を表す。
【0036】
3.サイコロジー・ジャーク評価モジュール303
オブジェクトの運動によって生じる動きの不連続性の影響とは異なり、サイコロジー・ジャークの影響は広範囲のカメラ・モーションによって生じる。
【0037】
図1を参照して説明したように、時間B0とBとの間のフレームが失われると、時間Bに於ける新たなフレームが送信されるまで、時間B0に於けるフレームが静止状態を保つ。しかしながら、視聴者は、正確には、このようには知覚しない。ビデオ・コンテンツが時間B0に於いて突然、静止状態になると、視聴者の脳は、オブジェクトの動きが時間B0の前と同じスピードであると解釈して、時間B0とBとに於けるコンテンツを自然に結び付けようとする。時間B0とBとの間の期間が短い場合、脳は、「見かけ上の動き理論(apparent movement theory)」に従って、そのように出来る。当該期間が短くない場合には、そのように出来ない。人間の脳が上記のように解釈出来るか出来ないかに関係なく、多くの心理的な活動が生じる。
【0038】
広範囲のカメラ・モーションを有するビデオ・シーケンスにフレーム損失が生じると、そのビデオ・シーケンスの各々の画素によって、この種の心理的な活動が求められる。その結果、視聴者は、この種のアーティファクトを考慮すると、疲れて不快感を覚え易くなる。本発明に於いて、この種の現象を「サイコロジー・ジャーク」と呼び、これをカメラ・モーションのレベルによって評価する。
【0039】
非特許文献4には、上述の広範囲のモーションの評価に使用可能な、いわゆる、8パラメータ・パースペクティブ動きモデル(eight−parameter perspective motion model)が記載されている。
x
i’=(a
0+a
2x
i+a
3y
i)/(1+a
6x
i+a
7y
i)
y
i’=(a
1+a
4x
i+a
5y
i)/(1+a
6x
i+a
7y
i)
ここで、(a
0,...,a
7)は広範囲のモーションのパラメータであり、(x
i,y
i)は現在のフレームに於けるi番目の画素の空間座標を表し、(x
i’,y
i’)は前のフレームに於ける対応する画素の座標を表す。動きモデル・パラメータと記号レベルの解釈との間の関係を次のように設定する。
Pan=a
0
Tilt=a
1
Zoom=(a
2+a
5)/2
【0040】
サイコロジー・ジャーク評価モジュール303は、上記のアルゴリズムを使用して、フレーム・フリーズによって生じた知覚ジッターを次の等式(3)によって評価できる。
【数6】
ここで、c
4は、当該値を[0,1]の範囲内に正規化する係数である。
【0041】
異なる重み付け係数を相異なるカメラ動作(pan(パン)、tilt(チルト)及びzoom(ズーム))に適用できる。その理由は、これらのカメラ動作が知覚ジッターに相異なる種類の影響を及ぼす為である。
【0042】
4.組み合わせモジュール304
モジュール301、302及び303からの各評価出力が組み合わせモジュール304によって組み合わされて、総合的な知覚ジッターの測定結果が得られる。
【0043】
一例として、組み合わせモジュール304は、線形結合を用いて、総合的な知覚ジッターの測定結果を得ることが出来る。この線形結合は次の等式(4)によって表すことが出来る。
【数7】
ここで、3つの係数k
1、k
2及びk
3は、実験によって決定される。
【0044】
データセットDS={s
i|i=1,2,...,M}が、主観的なテストの記述によって収集される。このデータセットに於ける各々のサンプルs
iは、フレーム損失を有する送信されたビデオ・ショットである。D
F(i)、D
D(i)及びD
P(i)は、それぞれ、s
iのフレーム・フリーズ、動きの不連続性、及び、サイコロジー・ジャークの知覚感覚評価を表す。また、J
1(i)が、等式(4)に従うサンプルs
iについての知覚ジッターの客観的評価を表すとすると、J
S(i)は、そのサンプルs
iについての知覚ジッターの主観的スコアを表す。そうすると、係数k
1、k
2及びk
3は、次の等式によって求めれれる。
【数8】
【0045】
あるいは、機械学習(マシン・ラーニング)を用いても、総合的な知覚ジッターの測定結果を得ることが出来る。即ち、D
F、D
D及びD
Pを、抽出される特徴とし、知覚ジッターの総合的な評価を機械出力(マシン・アウトプット)とする。この場合、人工神経ネットワーク(アーティフィシャル・ニューラル・ネットワーク:ANN)を、
図3に示されたトレーニング・マシン305として採用でき、以下のように表すことが出来る。
【数9】
【0046】
組み合わせモジュール304に於いて、フレーム・フリーズ、動きの不連続性、及び、サイコロジー・ジャークに対する視聴者の異なる感度を示す重み付け値として、幾つかの係数が必要である。これらの係数の各値のデフォルト・セットが、当該データセットについてのトレーニングによって、提供される。しかしながら、これらの値は、個別の人用に、また、個別の適用ケース用に修正できる。
【0047】
図4は、ビデオ・シーケンスの品質の主観的なテストを行うように設計されたソフトウェア・ツールのインタフェースを示す図である。
図3に示されているように、ビデオ・シーケンスからのランダムなクリップが、連続フレームの損失が当該シーケンスのランダムな位置に、且つランダムな長さで生じた状態で、表示される。
【0048】
視聴者は、以下のように、ジッターの知覚を採点することが求められる。
0:知覚的品質劣化なし。
1:品質劣化は認められるが、あまり気にならない。
2:明確な品質劣化であり、非常に気になる。
【0049】
この主観的スコアはJ
Sとして表される。採点スコアを有するシーケンス全体によってデータセットDSが構成される。
【0050】
次に、主観的なテストについてのパラメータの設定について説明する。
【0051】
当該テストに於いて、以下の各定数が経験的に決定される。β
1=β
2=1,β
3=2;c
1=1;c
2=1/15(s),c
3=1/3(s)。
【0052】
主観的なテストに従って、デフォルトの値が、J
1の評価に於けるk
1、k
2及びk
3の各々と、J
2の評価に於けるトレーニング・マシン・パラメータとに割り当てられる。しかしながら、フレーム・フリーズ、動きの不連続性、及び、サイコロジー・ジャークの知覚感覚は、全く相違し、独立している場合もある。即ち、サイコロジー・ジャークに非常に敏感な人もいれば、自分が注視するオブジェクトの動きの不連続性を嫌う人もいるであろう。従って、知覚ジッターの総合的な評価に対する、フレーム・フリーズ、動きの不連続性、及び、サイコロジー・ジャークの知覚感覚の寄与度は、適用ケースによって、及び、人によって全く異なる場合がある。
【0053】
柔軟性を持たせるために、一組のコンフィギュレーションがこれらのパラメータに通常のやり方で提供される。しかしながら、これらの値設定は変更できる。
【0054】
上述のように、組み合わせモジュール304は、線形結合、或いは、機械学習によって、総合的な知覚ジッターの評価結果を得ることが出来る。上述の2つのオプションの予測精度は、客観的評価結果(J
1/J
2)と主観的スコアJ
Sとを比較することによって測定できる。このような予測精度の測定には、ピアソン相関(Pearson Correlation)を用いることが出来る。
【0055】
以下に示す表には、本発明のピアソン相関(予測精度)と、非特許文献3に於いて提案されている方法とが示されている。各予測精度は、200サンプル(2名の視聴者)についてテストされた。
【表1】
【0056】
「ポージング・ウィズ・スキッピング(pausing with skipping)」は、不安定なネットワーク状況に於ける標準的なプレー・モードであり、ビデオが、或る期間の間、ポーズ(停止)し、その後、ビデオ情報の或る程度の損失を伴って再スタートする事象として定義されている。ポージング・ウィズ・スキッピングの一例は、IPテレビ電話であり、ネットワークの通信量が多いと、IPテレビ電話の表示が短期間の間フリーズし、IPテレビ電話の表示が継続する場合には、或る程度のコンテンツが失われる。他の例は、一定のフレーム・スキッピング、或いは、変動するフレーム・スキッピングを伴うテレビ会議システムである。ポージング・ウィズ・スキッピングを含む処理されたビデオ・シーケンスは、対応する元のビデオ・シーケンスとほぼ同じ再生期間(duration)を有する(VQEG MM Test Plan参照)。
【0057】
ここに提案した知覚ジッター測定方法および装置は、任意の「ポージング・ウィズ・スキッピング」状態において取り込まれる品質劣化の数値化に、そのまま適用できる。
【0058】
更に、帯域幅が制限された状況に於いてドロップすべきフレームを適応的に選択でき、且つ、ここに提案したアルゴリズムを用いて、取り込まれる品質劣化を最小に出来る。また、ビデオ・シーケンスに於ける各々のフレームの時間的な重要性は、損失フレーム数を定数に設定することによって測定できる。
【0059】
上述の各事項は、単に、本発明の実施形態を例示するものであり、当業者であれば、ここに明示的に記載されてはいないが、本発明の原理を実施する、本発明の範囲内に在る様々な別の構成を考案できることが分かるであろう。
【0060】
詳細な説明と(適切である場合は)特許請求の範囲及び各図面とに開示された各々の特徴は、単独でも、或いは、任意に組み合わせても、提供できる。各特徴は、適切である場合は)ハードウェア、ソフトウェア、或いは、両者の組み合わせに於いて実施できる。特許請求の範囲において記す参照符号は、単なる例示であり、特許請求の範囲の権利範囲について制限的な効力を有するものではない。