特表2024-543480 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 日本電信電話株式会社の特許一覧

特表2024-543480符号化パラメータ算出装置、符号化パラメータ算出方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-21

(54)【発明の名称】符号化パラメータ算出装置、符号化パラメータ算出方法及びプログラム

(51)【国際特許分類】

H04N 19/115 20140101AFI20241114BHJP

H04N 19/132 20140101ALI20241114BHJP

H04N 19/179 20140101ALI20241114BHJP

H04N 19/164 20140101ALI20241114BHJP

【ＦＩ】

H04N19/115

H04N19/132

H04N19/179

H04N19/164

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024528465

(86)(22)【出願日】2021-11-17

(85)【翻訳文提出日】2024-05-14

(86)【国際出願番号】 JP2021042318

(87)【国際公開番号】W WO2023089707

(87)【国際公開日】2023-05-25

(81)【指定国・地域】

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】レブレトン，ピエール

(72)【発明者】

【氏名】山岸和久

【テーマコード（参考）】

5C159

【Ｆターム（参考）】

5C159TA06

5C159TA60

5C159TB02

5C159TC45

(57)【要約】

符号化パラメータ算出装置であって、プロセッサ；及びメモリ、を備え、前記メモリは、前記プロセッサに、原映像を複数のシーンに分割し、前記複数のシーンのうち１つのシーンを選択ステップ；前記選択した１つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ；前記符号化した各シーンの品質を評価するステップ；前記１つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ；前記１つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ；前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のＮ個の離散的な量子化値を算出するステップ；及び前記Ｎ個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ；を実行させる命令を含む、符号化パラメータ算出装置。

【特許請求の範囲】

【請求項1】

符号化パラメータ算出装置であって、
プロセッサ；及び
メモリ、
を備え、
前記メモリは、前記プロセッサに、
原映像を複数のシーンに分割し、前記複数のシーンのうち１つのシーンを選択ステップ；
前記選択した１つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ；
前記符号化した各シーンの品質を評価するステップ；
前記１つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ；
前記１つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ；
前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のＮ個の離散的な量子化値を算出するステップ；及び
前記Ｎ個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ；
を実行させる命令を含む、
符号化パラメータ算出装置。

【請求項2】

前記視聴中止率のＮ個の離散的な量子化値を算出するステップにおいて、前記プロセッサは、前記視聴中止率の前記複数の値のうち、所定の閾値以下の値に対してクラスタ分類アルゴリズムを適用する、
請求項１記載の符号化パラメータ算出装置。

【請求項3】

前記関係性を推定するステップにおいて、前記プロセッサは、前記ビットレートとして音声のビットレート及び映像のビットレートを含める、
請求項１記載の符号化パラメータ算出装置。

【請求項4】

前記音声のビットレートは、所定の高いビットレートである、
請求項３記載の符号化パラメータ算出装置。

【請求項5】

前記音声のビットレートは、前記映像のビットレートに特定の係数を乗算して得られるビットレートである、
請求項３記載の符号化パラメータ算出装置。

【請求項6】

コンピュータによって実行される符号化パラメータ算出方法であって、
原映像を複数のシーンに分割し、前記複数のシーンのうち１つのシーンを選択ステップ；
前記選択した１つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ；
前記符号化した各シーンの品質を評価するステップ；
前記１つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ；
前記１つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ；
前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のＮ個の離散的な量子化値を算出するステップ；及び
前記Ｎ個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ；
を備える、符号化パラメータ算出方法。

【請求項7】

符号化パラメータ算出プログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記符号化パラメータ算出プログラムがコンピュータにより実行される場合、前記コンピュータは、
原映像を複数のシーンに分割し、前記複数のシーンのうち１つのシーンを選択ステップ；
前記選択した１つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ；
前記符号化した各シーンの品質を評価するステップ；
前記１つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ；
前記１つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ；
前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のＮ個の離散的な量子化値を算出するステップ；及び
前記Ｎ個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ；
を実行する、非一時的なコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、符号化パラメータ算出装置、符号化パラメータ算出方法及びプログラムに関する。

【背景技術】

【0002】

ＹｏｕＴｕｂｅ（登録商標）、Ｎｅｔｆｌｉｘ、及びＴｗｉｔｃｈ等の映像ストリーミングサービスの使用の増大は、新たな課題を示している。送信されるデータの量の増大に伴い、記憶容量を確保し、かつネットワークの使用を削減するために、映像の符号化の最適化が必要となっている。また、ネットワークの状態は、ネットワークに対する負荷及びユーザの場所に応じて変動するので、アダプティブビットレート（ＡＢＲ）映像ストリーミングを使用して、視聴者に対して最適な視聴品質を確保すべきである。ＡＢＲ映像ストリーミングを使用するには、解像度、フレームレート、及びビットレートの組み合わせ等の複数のパラメータを定義する必要がある。パラメータのセット毎に、異なるスループットの要件が定まり、これらの複数のパラメータのセットによって、様々なネットワークの状況でのストリーミングが可能となる。従って、映像を複数の異なるビットレート値で符号化する。映像を複数の異なるビットレート値で符号化することをビットレートラダーと呼ぶ。

【0003】

ビットレートラダーを定義する複数の異なる方法が存在する。まず、事前定義された符号化レセプト（ｐｒｅ－ｄｅｆｉｎｅｄｃｏｄｉｎｇｒｅｃｅｐｔｓ）が存在する。これらは、様々な解像度に対応するビットレート値などのエンコード設定に関する推奨事項を提供する、ビデオストリーミングプラットフォームによって公開されたテーブルとなっている。高品質を実現するためのビットレートの要件が全てのコンテンツに対して同じではないことが、この方法の明確な制限となっている。従って、異なるコンテンツに対して同じビットレート値を使用すると、符号化するのが容易な映像に対してビットが過剰に割り当てられ、サーバ上のスペースが無駄になり、ネットワークが不必要に使用されることになります。また、その一方で、符号化が容易ではない映像については、符号化の乱れが現れ、低品質となり得る。

【0004】

この問題に対処するには、コンテンツ符号化複雑性に基づいてビットレートラダーを定義することが必要である。コンテンツ符号化複雑性に基づいてビットレートラダーを定義することは、「タイトル毎の映像符号化」と呼ばれる。これを実現するための一般的な方法は、複数の解像度とビットレート値で映像を符号化し、ＶｉｄｅｏＭｕｌｔｉ－ｍｅｔｈｏｄＡｓｓｅｓｓｍｅｎｔＦｕｓｉｏｎ（ＶＭＡＦ）等の品質メトリックを使用して映像を評価することである。ＶＭＡＦは、機械学習を利用して、符号化及び／又はリスケーリングされた映像の品質を予測するコンピュータープログラムである。このアルゴリズムでは、符号化映像及び符号化前のソースコンテンツを入力し、符号化前後のピクセル値の変化を測定することで、符号化映像の品質を予測する。このようなアルゴリズムを使用して、映像コンテンツの符号化複雑性を考慮し、かつ所定のビットレートで使用する解像度を特定しながら、解像度ごとのレート歪み曲線を測定する。ビットレート値に関しては、１つのＪｕｓｔＮｏｔｉｃｅａｂｌｅＤｉｆｆｅｒｅｎｃｅ（ＪＮＤ）で映像の品質が分離されるように値を設定する方法が一般的である。この方法を拡張したシーン毎の分析も提案されている。

【0005】

しかし、まだいくつかの課題が残されている。まず、この方法は、膨大な計算量を必要とし、複数の符号化トライアルに依存する。第２に、この方法は、符号化条件のサーチスペースの次元を１次元（ビットレート）に低減するが、使用すべき最適値を定めていない。計算複雑性に対処するために、空間的及び時間的テクスチャ特徴の両方を使用するサポートベクター回帰法が提案されている。この方法は、符号化の数を大幅に減らしつつ、所定の解像度が使用されるべきビットレートの範囲を予測する。追加的に、機械学習に基づく、符号化複雑性又はビットレートラダーを直接予測する独自のソリューションも提案されている。しかし、アルゴリズムの詳細は公開されておらず、これらの方法を比較又は評価することは困難となっている。ネットワークに対して最適化されたビットレートラダーの問題を扱うために、研究者は、ネットワークの使用を最小限に抑えながら最低限の品質を確保することを目的として、確率的モデルに基づいてビットレートラダーを定義するために、実際のスループット履歴データを使用している。非線形の制約付き最適化に基づくビットレートラダーの解析的な評価方法が知られている。プレイヤーのシミュレーションモデルが定義され、履歴データに基づくスループット確率を考慮しつつセッション品質を最大化するためのビットレートラダーが定義されている。この方法が拡張され、同じラダーで複数の映像コーデックがサポートされている。ビットレートラダーを特定する問題は、ＮａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＩｎｆｏｒｍａｔｉｏｎＡｄｍｉｎｉｓｔｒａｔｉｏｎＶｉｄｅｏＱｕａｌｉｔｙＭｅｔｒｉｃ（ＮＴＩＡＶＱＭ）を使用して測定された体感品質（ＱｏＥ）を最大化しつつ、整数線形計画法を使用することで、解決されている。

【0006】

しかし、これらの研究には共通の特定の制約がある。つまり、上述の方法ではネットワークに対してラダーを最適化する問題について対処しているが、これらの研究は、動作が単純なビデオプレイヤー（既知の将来的なスループット値に基づいて、常に使用可能な最高品質を選択する）のモデルに基づいている。常に使用可能な最高品質を選択するプレイヤーは、望ましくない頻繁な品質変更を行うので、上述のようにする場合には、制限が多くなる。従って、より高度なアルゴリズムを利用するより高度なビデオプレイヤーモデルに対応する、プレイヤーに依存しない、コンテンツ及びネットワークに対して最適化したビットレートラダーの選択方法が提案されている。

【先行技術文献】

【非特許文献】

【0007】

【非特許文献1】P. Lebreton and K. Yamagishi, "Network and content-dependent bitrate ladder estimation for adaptive bitrate video streaming," IEEE International Conference on Acoustics, Speech and Signal Processing, 2021, pp.1-5.

【非特許文献2】S. Chen, X. Nie, D. Fan, D. Zhang, V. Bhat, R. Hamid, "Shot Conservative Self-Supervised Learning for Scene Boundary Detection," Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 1-10.

【発明の概要】

【発明が解決しようとする課題】

【0008】

多数の視聴者に対して映像のストリーミングを行うことには多くの課題がある。各ユーザは、利用可能なスループットの点で異なる性能でインターネットにアクセスし、利用可能なスループットは時間に関する関数として変動する可能性がある。従って、全てのユーザに映像をストリーミングするには、ユーザの利用可能なスループットに一致するようにユーザの利用可能なスループットに一致するように映像のビットレート要件を適合させることを可能とするために、異なる表現（様々な解像度、ビットレート、フレームレート値で符号化された映像）を使用することが必要である。品質を利用可能なスループットに適応させるこのような方法は、適応ビットレート映像ストリーミングと呼ばれ、可能な各表現に対応するビットレート値はビットレートラダーと呼ばれる。

【0009】

ビットレートラダーを定義する場合、各ユーザがインターネットアクセスで許容される最高の品質を享受できるように、ビットレート値に関して十分な粒度を設定する必要がある。しかし、オペレータの観点からは、ネットワークの不必要な使用やサーバ上のストレージスペースの不必要な使用を回避することも必要である。従って、運用コストを削減しながらユーザの体感を最適化するには、映像を最適に符号化することが必要である。

【0010】

最適なビットレートラダーを見出すことは、既に対処されている。しかし、いくつかの課題がまだ残されている。ユーザの体感を向上させ、ユーザがサービスを中止する可能性を低減する、ビットレートラダーを定義することが必要となっている。

【課題を解決するための手段】

【0011】

本発明の一態様によれば、符号化パラメータ算出装置であって、プロセッサ；及びメモリ、を備え、前記メモリは、前記プロセッサに、原映像を複数のシーンに分割し、前記複数のシーンのうち１つのシーンを選択ステップ；前記選択した１つのシーンに対してビットレート及び解像度の複数の組み合わせを適用して、複数の符号化したシーンを生成するステップ；前記符号化した各シーンの品質を評価するステップ；前記１つのシーンに対して、視聴中止率とビットレートとの間の関係性を推定するステップ；前記１つのシーンに対するスループット履歴データに前記関係性を適用して、前記視聴中止率の複数の値を取得するステップ；前記視聴中止率の複数の値に対してクラスタアルゴリズムを適用し、前記視聴中止率のＮ個の離散的な量子化値を算出するステップ；及び前記Ｎ個の離散的な量子化値に対応するビットレート、解像度、及び品質の複数の組み合わせを特定するステップ；を実行させる命令を含む、符号化パラメータ算出装置、が提供される。

【発明の効果】

【0012】

実施例によれば、ユーザの体感を向上し、かつユーザがサービスを中止する可能性を低減するようにビットレートラダーを定義することが可能となる。

【図面の簡単な説明】

【0013】

【図1】実施の形態における符号化パラメータ算出装置１０のハードウェア構成例を示す図である。

【図2】本発明の実施の形態における符号化パラメータ算出装置１０の機能構成例を示す図である。

【図3】符号化パラメータ算出装置１０が実行する処理手順の一例を説明するためのフローチャートである。

【図4】映像をシーンに分割する例を示す図である。

【図5】様々な解像度におけるレート歪み曲線によるコンテンツ符号化複雑性分析の例を示す図である。

【図6】複数の解像度の中で達成可能な最も高い品質を特定する例を示す図である。

【図7】ビットレートと視聴中止率との間の関係性の例を示す図である。

【図8】視聴セッションに対するスループットの時系列の例を示す図である。

【図9】使用可能なスループットを考慮した達成可能な最高品質の時系列の例を示す図である。

【図10】視聴中止率の時系列の例を示す図である。

【図11】多数のストリーミングセッションにおける視聴中止率の分布関数の例を示す図である。

【図12】最適量子化によってビットレートラダーのステップを特定する例を示す図である。

【図13】視聴中止率分析に基づく、視聴中止率のビットレート値への逆射影の例を示す図である。

【図14】コンテンツ符号化複雑性の分析を使用して、視聴中止率に対応して使用される解像度を特定する例を示す図である。

【図15】コンテンツ及びネットワークに基づいて最適化したビットレートラダーの例を示す図である。

【発明を実施するための形態】

【0014】

背景技術の部分において記載した通り、最適なビットレートラダーを見出すことは既に対応済みである。しかし、いくつかの課題がまだ残されている。実際、以前の研究によれば、品質に基づいてビットレートラダーを最適化すること可能であるが、以前の研究では、ビットレートラダーを定義する際に、視聴を中止する動作については対処されていない。ラダーにおけるビットレート値によって制御されるサービスの品質と、ユーザがサービスの使用の続行を求めるか否かとの間の関係性は明らかではないため、視聴を中止する動作について対処することは困難である。サービスプロバイダは品質自体ではなくユーザがサービスを使用したいか否かに関心があるため、このようなタイプのラダー決定メカニズムは重要である。従って、ユーザがサービスの使用を継続するか、中止するかについての品質の影響を考慮したビットレートラダーの最適化戦略を開発が必要である。品質と受け入れ可能性との間の関係性は時間に依存するため、ラダーを定義する際に刺激の持続時間を考慮することも新しい課題である。この点についても以前の研究では取り上げられておらず、以下の実施例において考慮される。

【0015】

符号化条件の定義が明らかではないことを考慮して、以下の実施例では、コンテンツの特性及びネットワーク統計に関してビットレートラダーを最適化するための解決方法が説明される。

【0016】

以下、図面を参照して本発明の実施の形態を説明する。図１は、本発明の実施の形態における符号化パラメータ算出装置１０のハードウェア構成例を示す図である。図１の符号化パラメータ算出装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、中央処理装置（ＣＰＵ）１０４、及びインタフェース装置１０５等を有する。

【0017】

符号化パラメータ算出装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0018】

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従って符号化パラメータ算出装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

【0019】

図２は、本発明の実施の形態における符号化パラメータ算出装置１０の機能構成例を示す図である。図２において、符号化パラメータ算出装置１０は、分割部１１、符号化部１２、視聴中止率算出部１３、スループット入力部１４、変換部１５、分析部１６を有する。これら各部は、符号化パラメータ算出装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。すなわち、これら各部は、符号化パラメータ算出装置１０のハードウェア資源と、符号化パラメータ算出装置１０にインストールされたプログラム（ソフトウェア）との協働によって実現される。

【0020】

以下、符号化パラメータ算出装置１０が実行する処理手順の例について説明する。図３は、符号化パラメータ算出装置１０が実行する処理手順の一例を説明するためのフローチャートである。

【0021】

ステップＳ１０１において、分割部１１は、入力された原映像を分析し、原映像を複数のシーンに分割する。一般に、シーンとはある場所での動作の一区切りを指す。映像におけるシーンとは、ある場所での一連のショットを複数まとめたものである。

【0022】

図４は、原映像を複数のシーンに分割する例を示す図である。原映像を複数のシーンに分割する目的として、主に、以下の２つの目的が考えられる。原映像における符号化複雑性は、シーン毎に異なっているので、最適なビットレートラダーをシーン毎に定義することが考えられる。また、原映像を複数のシーンに分割することによって、各シーンの持続時間が得られる。所定の品質モデルの受け入れやすさには、時間的な側面があるので、映像のシーンの持続時間を特定することは重要である。

【0023】

原映像を複数のシーンに分割する方法としては、公知の方法を使用することができる。例えば、非特許文献２に記載されている方法を使用することができる。非特許文献２の方法は１つの例であり、原映像を複数のシーンに分割する方法は、非特許文献２の方法には限定されない。

【0024】

以下の処理では、上記のように、原映像を複数のシーンに分割した上で、シーン毎にビットレートラダーを定義する。以下、原映像を複数のシーンに分割して得られた各シーンについての処理を示す。

【0025】

ステップＳ１０２において、符号化部１２は、評価の対象とする一つのシーンを複数の解像度及び複数のビットレートの複数の組み合わせで符号化する。

【0026】

符号化の複雑さおよびビットレートの要件は映像（シーン）ごとに異なるので、符号化部１２は、ＡＶＣおよびＨＥＶＣについては１２から４８の範囲内で４によって分離され、ＶＰ８、ＶＰ９およびＡＶ１については１２から６０の範囲内で４によって分離される一定レート係数（ＣＲＦ）を使用して映像（シーン）を符号化する。これにより、解像度毎に、１０～１４の異なる符号化映像が得られる。一定のレートファクタを用いて符号化することにより、フレーム内の動きに依存する一定の量子化で映像を符号化することが可能となる。大きい動きを含むフレームには、量子化パラメータ（ＱＰ）のより高い値が用いられ、動きによる符号化圧縮歪みをマスクする効果が得られ、より高い符号化効率を達成することが可能になる。さらに、広い範囲で一定のレートファクタの符号化映像を使用することによって、可能な符号化条件の品質に関して、ほぼ均一なサンプリングを得ることができる。

【0027】

ステップＳ１０３において、符号化部１２は、異なる量子化パラメータを使用して得られた、複数の符号化したシーンの品質を、ＶｉｄｅｏＭｕｌｔｉｍｅｔｈｏｄＡｓｓｅｓｓｍｅｎｔＦｕｓｉｏｎ（ＶＭＡＦ）等の、コンテンツに依存する品質評価方法を使用して評価する。例えば、符号化部１２は、ＶＭＡＦを用いて、複数の符号化したシーンのそれぞれについて、視聴者の体感品質（ＱｏＥ）の推定値を示す指標の値を算出する。

【0028】

ＶＭＡＦは、オリジナルの映像信号と受信した映像信号とを比較することによって、品質の違いを算出する、完全参照方法（Ｆｕｌｌ－ｒｅｆｅｒｅｎｃｅｍｅｔｈｏｄ）である。つまり、ＶＭＡＦでは、符号化された映像とオリジナルの映像とを比較し、０から１００の範囲で映像の品質を評価する。この場合において、０は最も低い品質であり、１００は最も高い品質である。ＶＭＡＦ以外の品質評価方法を使用する場合には、品質の評価値は、０から１００の範囲とは異なる場合がある。例えば、出力される品質値の範囲は、１から５の範囲であってもよい。

【0029】

以上の処理を実行することで、図５に示される特性（符号化パラメータの値とＱｏＥとの関係）が得られる。さらに、ビットレートに対し、最大のＱｏＥを取得するように曲線を描くことで、図５の破線の曲線が得られる。この破線を一般にＣｏｖｅｘｈｕｌｌと呼ぶ。符号化部１２は、図５の破線の曲線によって示されるＣｏｖｅｘｈｕｌｌを導出する。

【0030】

Ｃｏｎｖｅｘｈｕｌｌは、図５の破線で示される曲線によって表現される。Ｃｏｖｅｘｈｕｌｌは、１つのビットレートに対して、全ての解像度（有限個の解像度全て）の中で解像度を変化させた場合に得られる最も高い品質を示している。

【0031】

図６は、Ｃｏｎｖｅｘｈｕｌｌを導出する処理の例を示す図である。図６の例において、符号化部１２は、各ビットレート値に対して、全ての解像度（有限個の解像度全て）の中で解像度を変化させた場合に得られる最も高い品質値を特定する。

【0032】

図６において、各符号化したシーンは、星印で示されている。Ｃｏｎｖｅｘｈｕｌｌを導出するために、符号化部１２は、各符号化したシーンに対して、当該符号化したシーンと同じビットレートであり、異なる解像度のシーンの品質評価結果とを比較する。

【0033】

図６はこの手順の例を示している。７２０ｐかつビットレート値ｂで符号化されたシーンは、解像度７２０ｐで品質値Ｑ_７２０を示し、解像度１０８０ｐで品質値Ｑ_１０８０を示す。Ｑ_１０８０＞Ｑ_７２０であり、Ｑ_１０８０は、ビットレートｂで達成可能な最も高い品質であるため、Ｃｏｎｖｅｘｈｕｌｌは、データポイント［ｂ，Ｑ_１０８０］に基づいて算出される。

【0034】

ここで、解像度１０８０ｐ及びビットレートｂにおける符号化した映像は存在しないので、Ｑ_１０８０を推定することが必要である。図６に示されるように、符号化部１２は、１０８０ｐの符号化映のうち、ビットレート値ｂの前後のビットレート値と対応する２つの品質値に対して線形回帰を使用することによって、Ｑ_１０８０の推定を行う。

【0035】

符号化部１２は、この手順を適用することによって、各ビットレートについて、全ての解像度（有限個の解像度全て）の中で解像度を変化させた場合に得られる最も高い品質値を得る。

【0036】

各ビットレートと、全ての解像度（有限個の解像度全て）の中で解像度を変化させた場合に得られる最も高い品質値と、を関連付けるモデル（例えば、Ｃｏｎｖｅｘｈｕｌｌ）は、以下の数式１で示されるシグモイド関数によって定式化できる。

【0037】

【数1】

数式１において、Ｆｃ、Ｇｃ、Ｋｃは、モデルパラメータである。これらのパラメータは、各ビットレートと最も高い品質値との関係において、データポイントを合わせることによる、非線形回帰を使用して、シーン毎に得られる。

【0038】

ＶＭＡＦが使用される場合には、品質値は、［０，１００］の範囲で定められる。しかし、視聴を中止する可能性を予測するユーザ視聴中止予測モデルでは、映像品質の評価を［１，５］の範囲で行う。そこで、符号化部１２は、Ｃｏｎｖｅｘｈｕｌｌを使用して評価したＶＭＡＦの品質値を、数式２で定義される線形関数を使用して、範囲［１，５］にマッピングする。

【0039】

【数2】

式２において、Ａ_１及びＡ_２は、モデル係数であり、全てのコンテンツ及び全てのシーンにおいて、定数である。これらのパラメータは、ＶＭＡＦで得られた品質値を、大規模実験によって得られた［１，５］の範囲の品質値にマッピングすることによる線形回帰を使用して調整されている。

【0040】

ＶＭＡＦ以外の品質評価方法が使用される場合において、使用される評価方法が統一的な品質値を与えるようにするために、この線形関数を維持することで、品質予測を基準となるデータと合わせるようにしてもよい。

【0041】

ビットレートとコンテンツ符号化品質との間の関係性を特定した後、視聴中止率算出部１３は、品質が低いことを理由として、シーンの終わりにおいてユーザが視聴を中止する確率を、数式３を使用してモデル化する。

【0042】

【数3】

式３において、Ｃ_１、Ｃ_２、Ｃ_３、Ｃ_４は、モデルパラメータである。ＭＯＳｖは映像の品質である。ＭＯＳａは音声の品質である。

【0043】

視聴中止率算出部１３は、数式２を使用して、映像の品質であるＭＯＳｖを得る。視聴中止率算出部１３は、数式４を使用して、音声の品質であるＭＯＳａを得る。

【0044】

【数4】

【0045】

式４において、Ｂ_１、Ｂ_２、Ｂ_３は、音声品質の評価の学習用のデータベースにおける回帰分析を用いて得られるモデルパラメータである。モデルパラメータＢ_１、Ｂ_２、Ｂ_３は、コンテンツには依存せず、全てのシーンにおいて一定である。符号化効率は、音声コーデック毎に異なるため、モデルパラメータＢ_１、Ｂ_２、Ｂ_３は、音声の符号化に使用する音声コーデックにのみ依存する。

【0046】

異なる複数のデータベースにおける回帰分析を用いて音声コーデックに対するモデルパラメータＢ_１、Ｂ_２、Ｂ_３の表が得られる。視聴中止率算出部１３は、音声符号化に使用するコーデックに基づいて、適切なモデルパラメータＢ_１、Ｂ_２、Ｂ_３を選択する。

【0047】

数式４において、ｂ_ａは、音声のビットレートである。音声のビットレートについては、異なるオプションが考えられる。

【0048】

１つめのオプションでは、音声のビットレートを、例えば、３８４ｋｂｐｓといった、高い品質レベルに設定する。この場合には、視聴の中止は、映像の品質のみに依存することになる。

【0049】

しかし、ユーザ視聴中止予測モデルでは、音声の品質も考慮する。従って、映像のビットレートと音声のビットレートとの間に関係性を定義することも考えられる。例えば、音声のビットレートを、３２ｋｂｐｓから３８４ｋｂｐｓの範囲に限定した上で、映像のビットレートの４２分の１に設定するといった、線形の関係性を規定することも考えられる。代替的に、より一般的な、映像のビットレートと音声のビットレートとの間のロジスティック関数を規定することも考えられる。

【0050】

ステップＳ１０４において、視聴中止率算出部１３は、映像品質の評価及び音声品質の評価を使用して、期間ｄの視聴セッションの後の視聴中止率を評価する。

【0051】

シーンの期間は、図４に示したシーンの分割分析を使用して得られる。このモデルに基づいて、視聴中止率算出部１３は、ステップＳ１０５において、各シーンについて、視聴中止率とビットレートとの間の関係性を得る。図７は、評価対象のシーンに対する、視聴停止率とビットレートとの間の関係性の例を示す図である。

【0052】

ステップＳ１０６において、スループット入力部１４は、評価対象のシーンに対する、ネットワークスループット履歴データを入力する。なお、一定期間において複数回の視聴（配信）が行われた場合には、複数の時系列データが入力されてもよい。各時系列データの時間軸は、映像の視聴時間に対応する。スループット入力部１４は、斯かる時系列データから、図８に示されるような特性（視聴時間とスループットとの関係）を過去の視聴（配信）ごとに得ることができる。

【0053】

図８は、評価対象のシーンに対するスループット値の時系列の例を示す図である。図８に示されるスループット値は、クライアントが使用できるデータ伝送率（ｂａｎｄｗｉｄｔｈ）を示している。

【0054】

ステップＳ１０７において、変換部１５は、スループット値の時系列を、達成可能な品質値に変換する。例えば、変換部１５は、数式（１）‐（４）において、ビットレートとしてスループット値を適用することで、スループットの時系列を達成可能な品質値に変換する。図９は、スループット値の時系列を達成可能な品質に変換する例を示す図である。

【0055】

ステップＳ１０８において、変換部１５は、スループット値の時系列を、視聴中止率に変換する。例えば、変換部１５は、ステップＳ１０５で得られる視聴停止率とビットレートとの間の関係性に基づいて、スループット値の時系列を、視聴中止率の時系列に変換する。図１０は、スループット値の時系列を視聴中止率に変換する例を示す図である。

【0056】

ステップＳ１０９において、分析部１６は、評価対象のシーンに対するネットワークスループット履歴データに基づいて、評価対象のシーンに対する視聴中止率の分析を行うことで、視聴中止率の分布関数を導出する。例えば、分析部１６は、過去の視聴（配信）ごとに得られる評価対象のシーンに対するスループット値の時系列を、視聴中止率の時系列に変換する。このようにして得られる視聴中止率の複数の時系列から、複数の視聴中止率を収集して、各視聴中止率の値の頻度を分析することによって、視聴中止率の分布関数を導出してもよい。

【0057】

図１１は、評価対象のシーンに対する、視聴中止率の分布関数の例を示す図である。

【0058】

達成可能な品質値及び視聴中止率の全ての値を考慮した場合、評価対象のシーンに対するビットレートラダーを特定することは、最適量子化の問題として表現することができる。

【0059】

最適なビットレートラダーを見出すことは、視聴中止率がとる連続値をより良く近似するＮ個の離散値を特定することであると考えることができる。以下に示す数式５のＬを、ビットレートラダーのＮ個の離散値の集合であると定義する。

【0060】

【数5】

【0061】

最適なビットレートラダーを特定する問題は、以下の数式６によって定式化することができる。

【0062】

【数6】

数式６の

【数7】

は、視聴中止率の実測値である

【数8】

に対する、Ｌの中の複数の値のうち、視聴中止率の値である

【数9】

に最も近い量子化代表値である。

【0063】

数式６の

【数10】

は、視聴中止率の値である

【数11】

とその量子化代表値との間の量子化誤差である。

【0064】

数式６に記載されているように、量子化誤差を、視聴中止率の値である

【数12】

全てに対して加算する。数式６によって、ビットレートラダーの使用による量子化誤差の全体が得られる。

【0065】

ステップＳ１１０において、ラダー算出部１７は、データ数を視聴中止率の値である

【数13】

の数とし、クラスタ数ｋをＮとして、視聴中止率の値である

【数14】

に対して、ｋ平均法（ｋ－ｍｅａｎｓａｌｇｏｒｉｔｈｍ）を適用する。ここで、ｋ平均法は、クラスタリングアルゴリズムの例である。実施例は、ｋ平均法には限定されない。例えば、クラスタリングアルゴリズムとして、ｋ－ｍｅａｎｓ＋＋が使用されてもよい。

【0066】

なお、ラダー算出部１７は、考慮すべき視聴中止率

【数15】

の値に対して、希望する最大値（例えば、０より大きく１より小さい閾値）を設定してもよい。その上で、ラダー算出部１７は、当該希望する最大値以下の

【数16】

の値に対して、ｋ平均法を適用してもよい。

【0067】

ｋ平均法によるクラスタ割り当てが収束した後、Ｎ個の値、

【数17】

、のうちの各値は、ｋ平均法によって特定されるＮ個のクラスタのうちのいずれかのクラスタの中心に対応する。

【0068】

図１２は、ｋ平均法による分類の結果の例を示す図である。

【0069】

視聴中止率の値

【数18】

,の量子化代表値、

【数19】

、が得られた後、ラダー算出部１７は、数式３、数式２、数式１を連続的に逆算することで
、ビットレート値を得る。従って、ラダー算出部１７は、視聴中止率の値、

【数20】

、を確保するために必要な品質値を得ることができる。

【0070】

ステップS１１０において、ラダー算出部１７は、視聴中止率の値

【数21】

の量子化代表値、

【数22】

、に対応するビットレート値を算出する。図１３は、視聴中止率から対応するビットレートを算出する例を示す図である。

【0071】

ステップＳ１１０において、ラダー算出部は、Ｃｏｖｅｘｈｕｌｌを特定する際に行われた符号化複雑性分析から、これらのビットレート値と共に使用される解像度の値を得る。さらに、ラダー算出部１７は、Ｃｏｖｅｘｈｕｌｌを用いて、使用される解像度に対応するＱｏＥを特定する。図１４は、符号化複雑性分析を使用して、視聴中止率に対応して使用される解像度及び対応するＱｏＥを特定する例を示す図である。

【0072】

従って、符号化パラメータ算出装置１０は、視聴中止率の値の量子化代表値ごとに、ビットレート値、解像度、及びＱｏＥの組を得ることができる。その結果、解像度、ビットレート（ＶＢＲ）及びＱｏＥが対応付けられたビットレートラダーが、図１５のように得られる。

【0073】

映像符号化の複雑性分析をユーザの視聴中止率の観点から行うことが可能であることが示された。品質に基づく評価方法及び品質に基づくレート歪み曲線を使用する従来の分析方法と比較して、ユーザの視聴中止率の観点から分析を行うことによって、刺激の持続時間及び低品質のユーザの視聴時間に対する時間的影響を考慮することが可能になる。

【0074】

品質は重要な指標ではあるが、視聴時間及び視聴行動に対する品質の影響を知ることは、ネットワークオペレータにとって重要な点である。このため、ユーザの視聴中止率によって分析を行うことは、ビットレートラダーの選択のサービスに対する影響について高い解釈可能性を与えることになる。

【0075】

本実施の形態によれば、ユーザの視聴中止行動を最小化するように、ビットレートラダーを定義することが可能である。ビットレートラダーの最適化は、コンテンツ符号化複雑性及びネットワークのスループットの履歴データに基づいている。コンテンツ符号化複雑性及びネットワークのスループットの履歴データを組み合わせることで、ユーザの視聴中止率を推定することが可能であることが示されている。コンテンツ符号化複雑性及びネットワークのスループットの履歴データの組み合わせに基づいて、映像を符号化する際に使用するビットレートラダーを選択することが可能である。

【0076】

また、本実施の形態によれば、ビデオプレイヤー及びビデオプレイヤーによって使用される適応ビットレート制御方式に関する事前知識無しで、ユーザの視聴中止率によって測定される映像符号化複雑性を最適化するビットレートラダーを規定することが可能である。

【0077】

また、本実施の形態によれば、視聴中止率のモデルを使用することによって、映像品質と共に音声品質を考慮して、映像符号化に使用するビットレートラダーを規定することが可能である。

【0078】

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【図1】