(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-21
(54)【発明の名称】符号化パラメータ算出装置、符号化パラメータ算出方法及びプログラム
(51)【国際特許分類】
H04N 19/115 20140101AFI20241114BHJP
H04N 19/132 20140101ALI20241114BHJP
H04N 19/179 20140101ALI20241114BHJP
H04N 19/164 20140101ALI20241114BHJP
【FI】
H04N19/115
H04N19/132
H04N19/179
H04N19/164
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024528465
(86)(22)【出願日】2021-11-17
(85)【翻訳文提出日】2024-05-14
(86)【国際出願番号】 JP2021042318
(87)【国際公開番号】W WO2023089707
(87)【国際公開日】2023-05-25
(81)【指定国・地域】
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】レブレトン,ピエール
(72)【発明者】
【氏名】山岸 和久
【テーマコード(参考)】
5C159
【Fターム(参考)】
5C159TA06
5C159TA60
5C159TB02
5C159TC45
(57)【要約】
符号化パラメータ算出装置であって、プロセッサ;及びメモリ、を備え、前記メモリは、前記プロセッサに、原映像を複数のシーンに分割し、前記複数のシーンのうち1つのシーンを選択ステップ;前記選択した1つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ;前記符号化した各シーンの品質を評価するステップ;前記1つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ;前記1つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ;前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のN個の離散的な量子化値を算出するステップ;及び前記N個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ;を実行させる命令を含む、符号化パラメータ算出装置。
【特許請求の範囲】
【請求項1】
符号化パラメータ算出装置であって、
プロセッサ;及び
メモリ、
を備え、
前記メモリは、前記プロセッサに、
原映像を複数のシーンに分割し、前記複数のシーンのうち1つのシーンを選択ステップ;
前記選択した1つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ;
前記符号化した各シーンの品質を評価するステップ;
前記1つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ;
前記1つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ;
前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のN個の離散的な量子化値を算出するステップ;及び
前記N個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ;
を実行させる命令を含む、
符号化パラメータ算出装置。
【請求項2】
前記視聴中止率のN個の離散的な量子化値を算出するステップにおいて、前記プロセッサは、前記視聴中止率の前記複数の値のうち、所定の閾値以下の値に対してクラスタ分類アルゴリズムを適用する、
請求項1記載の符号化パラメータ算出装置。
【請求項3】
前記関係性を推定するステップにおいて、前記プロセッサは、前記ビットレートとして音声のビットレート及び映像のビットレートを含める、
請求項1記載の符号化パラメータ算出装置。
【請求項4】
前記音声のビットレートは、所定の高いビットレートである、
請求項3記載の符号化パラメータ算出装置。
【請求項5】
前記音声のビットレートは、前記映像のビットレートに特定の係数を乗算して得られるビットレートである、
請求項3記載の符号化パラメータ算出装置。
【請求項6】
コンピュータによって実行される符号化パラメータ算出方法であって、
原映像を複数のシーンに分割し、前記複数のシーンのうち1つのシーンを選択ステップ;
前記選択した1つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ;
前記符号化した各シーンの品質を評価するステップ;
前記1つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ;
前記1つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ;
前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のN個の離散的な量子化値を算出するステップ;及び
前記N個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ;
を備える、符号化パラメータ算出方法。
【請求項7】
符号化パラメータ算出プログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記符号化パラメータ算出プログラムがコンピュータにより実行される場合、前記コンピュータは、
原映像を複数のシーンに分割し、前記複数のシーンのうち1つのシーンを選択ステップ;
前記選択した1つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ;
前記符号化した各シーンの品質を評価するステップ;
前記1つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ;
前記1つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ;
前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のN個の離散的な量子化値を算出するステップ;及び
前記N個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ;
を実行する、非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、符号化パラメータ算出装置、符号化パラメータ算出方法及びプログラムに関する。
【背景技術】
【0002】
YouTube(登録商標)、Netflix、及びTwitch等の映像ストリーミングサービスの使用の増大は、新たな課題を示している。送信されるデータの量の増大に伴い、記憶容量を確保し、かつネットワークの使用を削減するために、映像の符号化の最適化が必要となっている。また、ネットワークの状態は、ネットワークに対する負荷及びユーザの場所に応じて変動するので、アダプティブビットレート(ABR)映像ストリーミングを使用して、視聴者に対して最適な視聴品質を確保すべきである。ABR映像ストリーミングを使用するには、解像度、フレームレート、及びビットレートの組み合わせ等の複数のパラメータを定義する必要がある。パラメータのセット毎に、異なるスループットの要件が定まり、これらの複数のパラメータのセットによって、様々なネットワークの状況でのストリーミングが可能となる。従って、映像を複数の異なるビットレート値で符号化する。映像を複数の異なるビットレート値で符号化することをビットレートラダーと呼ぶ。
【0003】
ビットレートラダーを定義する複数の異なる方法が存在する。まず、事前定義された符号化レセプト(pre-defined coding recepts)が存在する。これらは、様々な解像度に対応するビットレート値などのエンコード設定に関する推奨事項を提供する、ビデオストリーミングプラットフォームによって公開されたテーブルとなっている。高品質を実現するためのビットレートの要件が全てのコンテンツに対して同じではないことが、この方法の明確な制限となっている。従って、異なるコンテンツに対して同じビットレート値を使用すると、符号化するのが容易な映像に対してビットが過剰に割り当てられ、サーバ上のスペースが無駄になり、ネットワークが不必要に使用されることになります。また、その一方で、符号化が容易ではない映像については、符号化の乱れが現れ、低品質となり得る。
【0004】
この問題に対処するには、コンテンツ符号化複雑性に基づいてビットレートラダーを定義することが必要である。コンテンツ符号化複雑性に基づいてビットレートラダーを定義することは、「タイトル毎の映像符号化」と呼ばれる。これを実現するための一般的な方法は、複数の解像度とビットレート値で映像を符号化し、Video Multi-method Assessment Fusion(VMAF)等の品質メトリックを使用して映像を評価することである。VMAFは、機械学習を利用して、符号化及び/又はリスケーリングされた映像の品質を予測するコンピュータープログラムである。このアルゴリズムでは、符号化映像及び符号化前のソースコンテンツを入力し、符号化前後のピクセル値の変化を測定することで、符号化映像の品質を予測する。このようなアルゴリズムを使用して、映像コンテンツの符号化複雑性を考慮し、かつ所定のビットレートで使用する解像度を特定しながら、解像度ごとのレート歪み曲線を測定する。ビットレート値に関しては、1つのJust Noticeable Difference(JND)で映像の品質が分離されるように値を設定する方法が一般的である。この方法を拡張したシーン毎の分析も提案されている。
【0005】
しかし、まだいくつかの課題が残されている。まず、この方法は、膨大な計算量を必要とし、複数の符号化トライアルに依存する。第2に、この方法は、符号化条件のサーチスペースの次元を1次元(ビットレート)に低減するが、使用すべき最適値を定めていない。計算複雑性に対処するために、空間的及び時間的テクスチャ特徴の両方を使用するサポートベクター回帰法が提案されている。この方法は、符号化の数を大幅に減らしつつ、所定の解像度が使用されるべきビットレートの範囲を予測する。追加的に、機械学習に基づく、符号化複雑性又はビットレートラダーを直接予測する独自のソリューションも提案されている。しかし、アルゴリズムの詳細は公開されておらず、これらの方法を比較又は評価することは困難となっている。ネットワークに対して最適化されたビットレートラダーの問題を扱うために、研究者は、ネットワークの使用を最小限に抑えながら最低限の品質を確保することを目的として、確率的モデルに基づいてビットレートラダーを定義するために、実際のスループット履歴データを使用している。非線形の制約付き最適化に基づくビットレートラダーの解析的な評価方法が知られている。プレイヤーのシミュレーションモデルが定義され、履歴データに基づくスループット確率を考慮しつつセッション品質を最大化するためのビットレートラダーが定義されている。この方法が拡張され、同じラダーで複数の映像コーデックがサポートされている。ビットレートラダーを特定する問題は、National Telecommunications and Information Administration Video Quality Metric(NTIA VQM)を使用して測定された体感品質(QoE)を最大化しつつ、整数線形計画法を使用することで、解決されている。
【0006】
しかし、これらの研究には共通の特定の制約がある。つまり、上述の方法ではネットワークに対してラダーを最適化する問題について対処しているが、これらの研究は、動作が単純なビデオプレイヤー(既知の将来的なスループット値に基づいて、常に使用可能な最高品質を選択する)のモデルに基づいている。常に使用可能な最高品質を選択するプレイヤーは、望ましくない頻繁な品質変更を行うので、上述のようにする場合には、制限が多くなる。従って、より高度なアルゴリズムを利用するより高度なビデオプレイヤーモデルに対応する、プレイヤーに依存しない、コンテンツ及びネットワークに対して最適化したビットレートラダーの選択方法が提案されている。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】P. Lebreton and K. Yamagishi, "Network and content-dependent bitrate ladder estimation for adaptive bitrate video streaming," IEEE International Conference on Acoustics, Speech and Signal Processing, 2021, pp.1-5.
【非特許文献2】S. Chen, X. Nie, D. Fan, D. Zhang, V. Bhat, R. Hamid, "Shot Conservative Self-Supervised Learning for Scene Boundary Detection," Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 1-10.
【発明の概要】
【発明が解決しようとする課題】
【0008】
多数の視聴者に対して映像のストリーミングを行うことには多くの課題がある。各ユーザは、利用可能なスループットの点で異なる性能でインターネットにアクセスし、利用可能なスループットは時間に関する関数として変動する可能性がある。従って、全てのユーザに映像をストリーミングするには、ユーザの利用可能なスループットに一致するようにユーザの利用可能なスループットに一致するように映像のビットレート要件を適合させることを可能とするために、異なる表現(様々な解像度、ビットレート、フレームレート値で符号化された映像)を使用することが必要である。品質を利用可能なスループットに適応させるこのような方法は、適応ビットレート映像ストリーミングと呼ばれ、可能な各表現に対応するビットレート値はビットレートラダーと呼ばれる。
【0009】
ビットレートラダーを定義する場合、各ユーザがインターネットアクセスで許容される最高の品質を享受できるように、ビットレート値に関して十分な粒度を設定する必要がある。しかし、オペレータの観点からは、ネットワークの不必要な使用やサーバ上のストレージスペースの不必要な使用を回避することも必要である。従って、運用コストを削減しながらユーザの体感を最適化するには、映像を最適に符号化することが必要である。
【0010】
最適なビットレートラダーを見出すことは、既に対処されている。しかし、いくつかの課題がまだ残されている。ユーザの体感を向上させ、ユーザがサービスを中止する可能性を低減する、ビットレートラダーを定義することが必要となっている。
【課題を解決するための手段】
【0011】
本発明の一態様によれば、符号化パラメータ算出装置であって、プロセッサ;及びメモリ、を備え、前記メモリは、前記プロセッサに、原映像を複数のシーンに分割し、前記複数のシーンのうち1つのシーンを選択ステップ;前記選択した1つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ;前記符号化した各シーンの品質を評価するステップ;前記1つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ;前記1つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ;前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のN個の離散的な量子化値を算出するステップ;及び前記N個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ;を実行させる命令を含む、符号化パラメータ算出装置、が提供される。
【発明の効果】
【0012】
実施例によれば、ユーザの体感を向上し、かつユーザがサービスを中止する可能性を低減するようにビットレートラダーを定義することが可能となる。
【図面の簡単な説明】
【0013】
【
図1】実施の形態における符号化パラメータ算出装置10のハードウェア構成例を示す図である。
【
図2】本発明の実施の形態における符号化パラメータ算出装置10の機能構成例を示す図である。
【
図3】符号化パラメータ算出装置10が実行する処理手順の一例を説明するためのフローチャートである。
【
図5】様々な解像度におけるレート歪み曲線によるコンテンツ符号化複雑性分析の例を示す図である。
【
図6】複数の解像度の中で達成可能な最も高い品質を特定する例を示す図である。
【
図7】ビットレートと視聴中止率との間の関係性の例を示す図である。
【
図8】視聴セッションに対するスループットの時系列の例を示す図である。
【
図9】使用可能なスループットを考慮した達成可能な最高品質の時系列の例を示す図である。
【
図11】多数のストリーミングセッションにおける視聴中止率の分布関数の例を示す図である。
【
図12】最適量子化によってビットレートラダーのステップを特定する例を示す図である。
【
図13】視聴中止率分析に基づく、視聴中止率のビットレート値への逆射影の例を示す図である。
【
図14】コンテンツ符号化複雑性の分析を使用して、視聴中止率に対応して使用される解像度を特定する例を示す図である。
【
図15】コンテンツ及びネットワークに基づいて最適化したビットレートラダーの例を示す図である。
【発明を実施するための形態】
【0014】
背景技術の部分において記載した通り、最適なビットレートラダーを見出すことは既に対応済みである。しかし、いくつかの課題がまだ残されている。実際、以前の研究によれば、品質に基づいてビットレートラダーを最適化すること可能であるが、以前の研究では、ビットレートラダーを定義する際に、視聴を中止する動作については対処されていない。ラダーにおけるビットレート値によって制御されるサービスの品質と、ユーザがサービスの使用の続行を求めるか否かとの間の関係性は明らかではないため、視聴を中止する動作について対処することは困難である。サービスプロバイダは品質自体ではなくユーザがサービスを使用したいか否かに関心があるため、このようなタイプのラダー決定メカニズムは重要である。従って、ユーザがサービスの使用を継続するか、中止するかについての品質の影響を考慮したビットレートラダーの最適化戦略を開発が必要である。品質と受け入れ可能性との間の関係性は時間に依存するため、ラダーを定義する際に刺激の持続時間を考慮することも新しい課題である。この点についても以前の研究では取り上げられておらず、以下の実施例において考慮される。
【0015】
符号化条件の定義が明らかではないことを考慮して、以下の実施例では、コンテンツの特性及びネットワーク統計に関してビットレートラダーを最適化するための解決方法が説明される。
【0016】
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明の実施の形態における符号化パラメータ算出装置10のハードウェア構成例を示す図である。
図1の符号化パラメータ算出装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、中央処理装置(CPU)104、及びインタフェース装置105等を有する。
【0017】
符号化パラメータ算出装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
【0018】
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従って符号化パラメータ算出装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
【0019】
図2は、本発明の実施の形態における符号化パラメータ算出装置10の機能構成例を示す図である。
図2において、符号化パラメータ算出装置10は、分割部11、符号化部12、視聴中止率算出部13、スループット入力部14、変換部15、分析部16を有する。これら各部は、符号化パラメータ算出装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。すなわち、これら各部は、符号化パラメータ算出装置10のハードウェア資源と、符号化パラメータ算出装置10にインストールされたプログラム(ソフトウェア)との協働によって実現される。
【0020】
以下、符号化パラメータ算出装置10が実行する処理手順の例について説明する。
図3は、符号化パラメータ算出装置10が実行する処理手順の一例を説明するためのフローチャートである。
【0021】
ステップS101において、分割部11は、入力された原映像を分析し、原映像を複数のシーンに分割する。一般に、シーンとはある場所での動作の一区切りを指す。映像におけるシーンとは、ある場所での一連のショットを複数まとめたものである。
【0022】
図4は、原映像を複数のシーンに分割する例を示す図である。原映像を複数のシーンに分割する目的として、主に、以下の2つの目的が考えられる。原映像における符号化複雑性は、シーン毎に異なっているので、最適なビットレートラダーをシーン毎に定義することが考えられる。また、原映像を複数のシーンに分割することによって、各シーンの持続時間が得られる。所定の品質モデルの受け入れやすさには、時間的な側面があるので、映像のシーンの持続時間を特定することは重要である。
【0023】
原映像を複数のシーンに分割する方法としては、公知の方法を使用することができる。例えば、非特許文献2に記載されている方法を使用することができる。非特許文献2の方法は1つの例であり、原映像を複数のシーンに分割する方法は、非特許文献2の方法には限定されない。
【0024】
以下の処理では、上記のように、原映像を複数のシーンに分割した上で、シーン毎にビットレートラダーを定義する。以下、原映像を複数のシーンに分割して得られた各シーンについての処理を示す。
【0025】
ステップS102において、符号化部12は、評価の対象とする一つのシーンを複数の解像度及び複数のビットレートの複数の組み合わせで符号化する。
【0026】
符号化の複雑さおよびビットレートの要件は映像(シーン)ごとに異なるので、符号化部12は、AVCおよびHEVCについては12から48の範囲内で4によって分離され、VP 8、VP 9およびAV 1については12から60の範囲内で4によって分離される一定レート係数(CRF)を使用して映像(シーン)を符号化する。これにより、解像度毎に、10~14の異なる符号化映像が得られる。一定のレートファクタを用いて符号化することにより、フレーム内の動きに依存する一定の量子化で映像を符号化することが可能となる。大きい動きを含むフレームには、量子化パラメータ(QP)のより高い値が用いられ、動きによる符号化圧縮歪みをマスクする効果が得られ、より高い符号化効率を達成することが可能になる。さらに、広い範囲で一定のレートファクタの符号化映像を使用することによって、可能な符号化条件の品質に関して、ほぼ均一なサンプリングを得ることができる。
【0027】
ステップS103において、符号化部12は、異なる量子化パラメータを使用して得られた、複数の符号化したシーンの品質を、Video Multimethod Assessment Fusion(VMAF)等の、コンテンツに依存する品質評価方法を使用して評価する。例えば、符号化部12は、VMAFを用いて、複数の符号化したシーンのそれぞれについて、視聴者の体感品質(QoE)の推定値を示す指標の値を算出する。
【0028】
VMAFは、オリジナルの映像信号と受信した映像信号とを比較することによって、品質の違いを算出する、完全参照方法(Full-reference method)である。つまり、VMAFでは、符号化された映像とオリジナルの映像とを比較し、0から100の範囲で映像の品質を評価する。この場合において、0は最も低い品質であり、100は最も高い品質である。VMAF以外の品質評価方法を使用する場合には、品質の評価値は、0から100の範囲とは異なる場合がある。例えば、出力される品質値の範囲は、1から5の範囲であってもよい。
【0029】
以上の処理を実行することで、
図5に示される特性(符号化パラメータの値とQoEとの関係)が得られる。さらに、ビットレートに対し、最大のQoEを取得するように曲線を描くことで、
図5の破線の曲線が得られる。この破線を一般にCovex hullと呼ぶ。符号化部12は、
図5の破線の曲線によって示されるCovex hullを導出する。
【0030】
Convex hullは、
図5の破線で示される曲線によって表現される。Covex hullは、1つのビットレートに対して、全ての解像度(有限個の解像度全て)の中で解像度を変化させた場合に得られる最も高い品質を示している。
【0031】
図6は、Convex hullを導出する処理の例を示す図である。
図6の例において、符号化部12は、各ビットレート値に対して、全ての解像度(有限個の解像度全て)の中で解像度を変化させた場合に得られる最も高い品質値を特定する。
【0032】
図6において、各符号化したシーンは、星印で示されている。Convex hullを導出するために、符号化部12は、各符号化したシーンに対して、当該符号化したシーンと同じビットレートであり、異なる解像度のシーンの品質評価結果とを比較する。
【0033】
図6はこの手順の例を示している。720pかつビットレート値bで符号化されたシーンは、解像度720pで品質値Q
720を示し、解像度1080pで品質値Q
1080を示す。Q
1080>Q
720であり、Q
1080は、ビットレートbで達成可能な最も高い品質であるため、Convex hullは、データポイント[b,Q
1080]に基づいて算出される。
【0034】
ここで、解像度1080p及びビットレートbにおける符号化した映像は存在しないので、Q
1080を推定することが必要である。
図6に示されるように、符号化部12は、1080pの符号化映のうち、ビットレート値bの前後のビットレート値と対応する2つの品質値に対して線形回帰を使用することによって、Q
1080の推定を行う。
【0035】
符号化部12は、この手順を適用することによって、各ビットレートについて、全ての解像度(有限個の解像度全て)の中で解像度を変化させた場合に得られる最も高い品質値を得る。
【0036】
各ビットレートと、全ての解像度(有限個の解像度全て)の中で解像度を変化させた場合に得られる最も高い品質値と、を関連付けるモデル(例えば、Convex hull)は、以下の数式1で示されるシグモイド関数によって定式化できる。
【0037】
【数1】
数式1において、Fc、Gc、Kcは、モデルパラメータである。これらのパラメータは、各ビットレートと最も高い品質値との関係において、データポイントを合わせることによる、非線形回帰を使用して、シーン毎に得られる。
【0038】
VMAFが使用される場合には、品質値は、[0,100]の範囲で定められる。しかし、視聴を中止する可能性を予測するユーザ視聴中止予測モデルでは、映像品質の評価を[1,5]の範囲で行う。そこで、符号化部12は、Convex hullを使用して評価したVMAFの品質値を、数式2で定義される線形関数を使用して、範囲[1,5]にマッピングする。
【0039】
【数2】
式2において、A
1及びA
2は、モデル係数であり、全てのコンテンツ及び全てのシーンにおいて、定数である。これらのパラメータは、VMAFで得られた品質値を、大規模実験によって得られた[1,5]の範囲の品質値にマッピングすることによる線形回帰を使用して調整されている。
【0040】
VMAF以外の品質評価方法が使用される場合において、使用される評価方法が統一的な品質値を与えるようにするために、この線形関数を維持することで、品質予測を基準となるデータと合わせるようにしてもよい。
【0041】
ビットレートとコンテンツ符号化品質との間の関係性を特定した後、視聴中止率算出部13は、品質が低いことを理由として、シーンの終わりにおいてユーザが視聴を中止する確率を、数式3を使用してモデル化する。
【0042】
【数3】
式3において、C
1、C
2、C
3、C
4は、モデルパラメータである。MOSvは映像の品質である。MOSaは音声の品質である。
【0043】
視聴中止率算出部13は、数式2を使用して、映像の品質であるMOSvを得る。視聴中止率算出部13は、数式4を使用して、音声の品質であるMOSaを得る。
【0044】
【0045】
式4において、B1、B2、B3は、音声品質の評価の学習用のデータベースにおける回帰分析を用いて得られるモデルパラメータである。モデルパラメータB1、B2、B3は、コンテンツには依存せず、全てのシーンにおいて一定である。符号化効率は、音声コーデック毎に異なるため、モデルパラメータB1、B2、B3は、音声の符号化に使用する音声コーデックにのみ依存する。
【0046】
異なる複数のデータベースにおける回帰分析を用いて音声コーデックに対するモデルパラメータB1、B2、B3の表が得られる。視聴中止率算出部13は、音声符号化に使用するコーデックに基づいて、適切なモデルパラメータB1、B2、B3を選択する。
【0047】
数式4において、baは、音声のビットレートである。音声のビットレートについては、異なるオプションが考えられる。
【0048】
1つめのオプションでは、音声のビットレートを、例えば、384 kbpsといった、高い品質レベルに設定する。この場合には、視聴の中止は、映像の品質のみに依存することになる。
【0049】
しかし、ユーザ視聴中止予測モデルでは、音声の品質も考慮する。従って、映像のビットレートと音声のビットレートとの間に関係性を定義することも考えられる。例えば、音声のビットレートを、32kbpsから384kbpsの範囲に限定した上で、映像のビットレートの42分の1に設定するといった、線形の関係性を規定することも考えられる。代替的に、より一般的な、映像のビットレートと音声のビットレートとの間のロジスティック関数を規定することも考えられる。
【0050】
ステップS104において、視聴中止率算出部13は、映像品質の評価及び音声品質の評価を使用して、期間dの視聴セッションの後の視聴中止率を評価する。
【0051】
シーンの期間は、
図4に示したシーンの分割分析を使用して得られる。このモデルに基づいて、視聴中止率算出部13は、ステップS105において、各シーンについて、視聴中止率とビットレートとの間の関係性を得る。
図7は、評価対象のシーンに対する、視聴停止率とビットレートとの間の関係性の例を示す図である。
【0052】
ステップS106において、スループット入力部14は、評価対象のシーンに対する、ネットワークスループット履歴データを入力する。なお、一定期間において複数回の視聴(配信)が行われた場合には、複数の時系列データが入力されてもよい。各時系列データの時間軸は、映像の視聴時間に対応する。スループット入力部14は、斯かる時系列データから、
図8に示されるような特性(視聴時間とスループットとの関係)を過去の視聴(配信)ごとに得ることができる。
【0053】
図8は、評価対象のシーンに対するスループット値の時系列の例を示す図である。
図8に示されるスループット値は、クライアントが使用できるデータ伝送率(bandwidth)を示している。
【0054】
ステップS107において、変換部15は、スループット値の時系列を、達成可能な品質値に変換する。例えば、変換部15は、数式(1)‐(4)において、ビットレートとしてスループット値を適用することで、スループットの時系列を達成可能な品質値に変換する。
図9は、スループット値の時系列を達成可能な品質に変換する例を示す図である。
【0055】
ステップS108において、変換部15は、スループット値の時系列を、視聴中止率に変換する。例えば、変換部15は、ステップS105で得られる視聴停止率とビットレートとの間の関係性に基づいて、スループット値の時系列を、視聴中止率の時系列に変換する。
図10は、スループット値の時系列を視聴中止率に変換する例を示す図である。
【0056】
ステップS109において、分析部16は、評価対象のシーンに対するネットワークスループット履歴データに基づいて、評価対象のシーンに対する視聴中止率の分析を行うことで、視聴中止率の分布関数を導出する。例えば、分析部16は、過去の視聴(配信)ごとに得られる評価対象のシーンに対するスループット値の時系列を、視聴中止率の時系列に変換する。このようにして得られる視聴中止率の複数の時系列から、複数の視聴中止率を収集して、各視聴中止率の値の頻度を分析することによって、視聴中止率の分布関数を導出してもよい。
【0057】
図11は、評価対象のシーンに対する、視聴中止率の分布関数の例を示す図である。
【0058】
達成可能な品質値及び視聴中止率の全ての値を考慮した場合、評価対象のシーンに対するビットレートラダーを特定することは、最適量子化の問題として表現することができる。
【0059】
最適なビットレートラダーを見出すことは、視聴中止率がとる連続値をより良く近似するN個の離散値を特定することであると考えることができる。以下に示す数式5のLを、ビットレートラダーのN個の離散値の集合であると定義する。
【0060】
【0061】
最適なビットレートラダーを特定する問題は、以下の数式6によって定式化することができる。
【0062】
【数6】
数式6の
【数7】
は、視聴中止率の実測値である
【数8】
に対する、Lの中の複数の値のうち、視聴中止率の値である
【数9】
に最も近い量子化代表値である。
【0063】
数式6の
【数10】
は、視聴中止率の値である
【数11】
とその量子化代表値との間の量子化誤差である。
【0064】
数式6に記載されているように、量子化誤差を、視聴中止率の値である
【数12】
全てに対して加算する。数式6によって、ビットレートラダーの使用による量子化誤差の全体が得られる。
【0065】
ステップS110において、ラダー算出部17は、データ数を視聴中止率の値である
【数13】
の数とし、クラスタ数kをNとして、視聴中止率の値である
【数14】
に対して、k平均法(k-means algorithm)を適用する。ここで、k平均法は、クラスタリングアルゴリズムの例である。実施例は、k平均法には限定されない。例えば、クラスタリングアルゴリズムとして、k-means++が使用されてもよい。
【0066】
なお、ラダー算出部17は、考慮すべき視聴中止率
【数15】
の値に対して、希望する最大値(例えば、0より大きく1より小さい閾値)を設定してもよい。その上で、ラダー算出部17は、当該希望する最大値以下の
【数16】
の値に対して、k平均法を適用してもよい。
【0067】
k平均法によるクラスタ割り当てが収束した後、N個の値、
【数17】
、のうちの各値は、k平均法によって特定されるN個のクラスタのうちのいずれかのクラスタの中心に対応する。
【0068】
図12は、k平均法による分類の結果の例を示す図である。
【0069】
視聴中止率の値
【数18】
,の量子化代表値、
【数19】
、が得られた後、ラダー算出部17は、数式3、数式2、数式1を連続的に逆算することで
、ビットレート値を得る。従って、ラダー算出部17は、視聴中止率の値、
【数20】
、を確保するために必要な品質値を得ることができる。
【0070】
ステップS110において、ラダー算出部17は、視聴中止率の値
【数21】
の量子化代表値、
【数22】
、に対応するビットレート値を算出する。
図13は、視聴中止率から対応するビットレートを算出する例を示す図である。
【0071】
ステップS110において、ラダー算出部は、Covex hullを特定する際に行われた符号化複雑性分析から、これらのビットレート値と共に使用される解像度の値を得る。さらに、ラダー算出部17は、Covex hullを用いて、使用される解像度に対応するQoEを特定する。
図14は、符号化複雑性分析を使用して、視聴中止率に対応して使用される解像度及び対応するQoEを特定する例を示す図である。
【0072】
従って、符号化パラメータ算出装置10は、視聴中止率の値の量子化代表値ごとに、ビットレート値、解像度、及びQoEの組を得ることができる。その結果、解像度、ビットレート(VBR)及びQoEが対応付けられたビットレートラダーが、
図15のように得られる。
【0073】
映像符号化の複雑性分析をユーザの視聴中止率の観点から行うことが可能であることが示された。品質に基づく評価方法及び品質に基づくレート歪み曲線を使用する従来の分析方法と比較して、ユーザの視聴中止率の観点から分析を行うことによって、刺激の持続時間及び低品質のユーザの視聴時間に対する時間的影響を考慮することが可能になる。
【0074】
品質は重要な指標ではあるが、視聴時間及び視聴行動に対する品質の影響を知ることは、ネットワークオペレータにとって重要な点である。このため、ユーザの視聴中止率によって分析を行うことは、ビットレートラダーの選択のサービスに対する影響について高い解釈可能性を与えることになる。
【0075】
本実施の形態によれば、ユーザの視聴中止行動を最小化するように、ビットレートラダーを定義することが可能である。ビットレートラダーの最適化は、コンテンツ符号化複雑性及びネットワークのスループットの履歴データに基づいている。コンテンツ符号化複雑性及びネットワークのスループットの履歴データを組み合わせることで、ユーザの視聴中止率を推定することが可能であることが示されている。コンテンツ符号化複雑性及びネットワークのスループットの履歴データの組み合わせに基づいて、映像を符号化する際に使用するビットレートラダーを選択することが可能である。
【0076】
また、本実施の形態によれば、ビデオプレイヤー及びビデオプレイヤーによって使用される適応ビットレート制御方式に関する事前知識無しで、ユーザの視聴中止率によって測定される映像符号化複雑性を最適化するビットレートラダーを規定することが可能である。
【0077】
また、本実施の形態によれば、視聴中止率のモデルを使用することによって、映像品質と共に音声品質を考慮して、映像符号化に使用するビットレートラダーを規定することが可能である。
【0078】
以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【国際調査報告】