IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヴィド スケール インコーポレイテッドの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-12
(45)【発行日】2022-05-20
(54)【発明の名称】品質ドリブンストリーミング
(51)【国際特許分類】
   H04N 21/434 20110101AFI20220513BHJP
   H04N 21/442 20110101ALI20220513BHJP
   H04M 11/00 20060101ALI20220513BHJP
   H04L 67/2869 20220101ALI20220513BHJP
   H04L 67/30 20220101ALI20220513BHJP
   H04L 67/00 20220101ALI20220513BHJP
【FI】
H04N21/434
H04N21/442
H04M11/00 302
H04L67/2869
H04L67/30
H04L67/00
【請求項の数】 18
(21)【出願番号】P 2020012784
(22)【出願日】2020-01-29
(62)【分割の表示】P 2015521764の分割
【原出願日】2013-07-10
(65)【公開番号】P2020080547
(43)【公開日】2020-05-28
【審査請求日】2020-02-28
(31)【優先権主張番号】61/835,105
(32)【優先日】2013-06-14
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】61/669,983
(32)【優先日】2012-07-10
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】514041959
【氏名又は名称】ヴィド スケール インコーポレイテッド
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】ユーリー レズニック
(72)【発明者】
【氏名】エドゥアルド アスバン
(72)【発明者】
【氏名】チェン ジーフォン
(72)【発明者】
【氏名】ラーフル ヴァナム
【審査官】川中 龍太
(56)【参考文献】
【文献】国際公開第2012/109520(WO,A1)
【文献】特表2014-513449(JP,A)
【文献】国際公開第2011/047335(WO,A1)
【文献】米国特許出願公開第2012/0141089(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 - 21/858
H04M 11/00
H04L 67/2869
H04L 67/30
H04L 67/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
無線送信/受信ユニット(WTRU)によって実行される方法であって、
メディアコンテンツの複数のセグメントの記述を含むマニフェストファイルを受信するステップであって、各々のセグメントは、前記メディアコンテンツの時間に基づいた部分を表しており、前記マニフェストファイルは、前記複数のセグメントの各々についてのビットレートおよび品質値を指定しており、前記品質値は、エンコードされる前記複数のセグメントの各々についての品質測定値であり、前記品質値は、品質上限レベルと関連付けられている、ステップと、
第1のビットレートおよび第1の品質値に基づいて、前記複数のセグメントから第1のセグメントを選択するステップであって、前記第1のビットレートおよび前記第1の品質値は、前記第1のセグメントと関連付けられている、ステップと、
第2のビットレートおよび第2の品質値に基づいて、前記複数のセグメントから第2のセグメントを選択するステップであって、前記第2のビットレートおよび前記第2の品質値は、前記第2のセグメントと関連付けられ、前記第2のビットレートは、前記第1のビットレートよりも低く、前記第2のセグメントは、前記品質上限レベル以上である前記第2の品質値に基づいて選択されている、ステップと、
前記第2のセグメントについての要求を送信するステップと、
前記第2のセグメントを受信するステップと
を備えたことを特徴とする方法。
【請求項2】
前記品質値は、ピーク信号対雑音比(PSNR)、構造的類似性(SSIM:structural similarity)、ビデオ品質メトリック(VQM)、視覚情報忠実度(VIF:visual information fidelity)、J.341、または平均オピニオンスコア(MOS:mean opinion score)のうちの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記マニフェストファイルは、メディアプレゼンテーションディスクリプション(MPD)ファイルを含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記マニフェストファイルは更に、前記メディアコンテンツの複数のレプレゼンテーションの記述を含み、各々のレプレゼンテーションは、前記メディアコンテンツの少なくとも1つのセグメントを含むことを特徴とする請求項1に記載の方法。
【請求項5】
前記マニフェストファイルは、前記複数のセグメントの各々のセグメントについての前記メディアコンテンツの同一の時間間隔を指定することを特徴とする請求項1に記載の方法。
【請求項6】
前記マニフェストファイルは、セグメントインデックスファイルを含むことを特徴とする請求項1に記載の方法。
【請求項7】
前記セグメントインデックスファイルは、MP4ファイルまたはM4Sファイルのうちの少なくとも1つを含むことを特徴とする請求項に記載の方法。
【請求項8】
前記セグメントインデックスファイルは、少なくとも1つのボックスを含むISOBMFFベースのファイルコンテナを含み、セグメント品質パラメータが前記ISOBMFFベースのファイルコンテナのうちの少なくとも1つのボックス内に含まれることを特徴とする請求項に記載の方法。
【請求項9】
記マニフェストファイルにおけるフラグに基づいて、前記品質値の存在を識別するステップを更に備えたことを特徴とする請求項1に記載の方法。
【請求項10】
メディアコンテンツの複数のセグメントの記述を含むマニフェストファイルを受信し、各々のセグメントは、前記メディアコンテンツの時間に基づいた部分を表しており、前記マニフェストファイルは、前記複数のセグメントの各々についてのビットレートおよび品質値を指定しており、前記品質値は、エンコードされる前記複数のセグメントの各々についての品質測定値であり、前記品質値は、品質上限レベルと関連付けられている
第1のビットレートおよび第1の品質値に基づいて、前記複数のセグメントから第1のセグメントを選択し、前記第1のビットレートおよび前記第1の品質値は、前記第1のセグメントと関連付けられ、
第2のビットレートおよび第2の品質値に基づいて、前記複数のセグメントから第2のセグメントを選択し、前記第2のビットレートおよび前記第2の品質値は、前記第2のセグメントと関連付けられ、前記第2のビットレートは、前記第1のビットレートよりも低く、前記第2のセグメントは、前記品質上限レベル以上である前記第2の品質値に基づいて選択され、
前記第2のセグメントについての要求を送信し、
前記第2のセグメントを受信する
ように構成されたプロセッサを備えたことを特徴とする無線送信/受信ユニット(WTRU)。
【請求項11】
前記品質値は、ピーク信号対雑音比(PSNR)、構造的類似性(SSIM:structural similarity)、ビデオ品質メトリック(VQM)、視覚情報忠実度(VIF:visual information fidelity)、J.341、または平均オピニオンスコア(MOS:mean opinion score)のうちの少なくとも1つを含むことを特徴とする請求項10に記載のWTRU。
【請求項12】
前記マニフェストファイルは、メディアプレゼンテーションディスクリプション(MPD)ファイルを含むことを特徴とする請求項10に記載のWTRU。
【請求項13】
前記マニフェストファイルは更に、前記メディアコンテンツの複数のレプレゼンテーションの記述を含み、各々のレプレゼンテーションは、前記メディアコンテンツの少なくとも1つのセグメントを含むことを特徴とする請求項10に記載のWTRU。
【請求項14】
前記マニフェストファイルは、前記複数のセグメントの各々のセグメントについての前記メディアコンテンツの同一の時間間隔を指定することを特徴とする請求項10に記載のWTRU。
【請求項15】
前記マニフェストファイルは、セグメントインデックスファイルを含むことを特徴とする請求項10に記載のWTRU。
【請求項16】
前記セグメントインデックスファイルは、MP4ファイルまたはM4Sファイルのうちの少なくとも1つを含むことを特徴とする請求項15に記載のWTRU。
【請求項17】
前記セグメントインデックスファイルは、少なくとも1つのボックスを含むISOBMFFベースのファイルコンテナを含み、セグメント品質パラメータが前記ISOBMFFベースのファイルコンテナのうちの少なくとも1つのボックス内に含まれることを特徴とする請求項15に記載のWTRU。
【請求項18】
前記プロセッサは、前記マニフェストファイルにおけるフラグに基づいて、前記品質値の存在を識別するようにさらに構成されたことを特徴とする請求項10に記載のWTRU。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、画像圧縮技術に関する。
【背景技術】
【0002】
本出願は、2012年7月10日に出願された米国仮特許出願第61/669,983号明細書、および2013年6月14日に出願された米国仮特許出願第61/835,105号の優先権を主張するものであり、それらの内容はこれによって、参照により本明細書に組み込まれる。
【0003】
MPEG/3GPP動的適応HTTPストリーミング(DASH:Dynamic Adaptive HTTP Streaming)標準は、無線および有線ネットワーク上での、ストリーミングコンテンツの帯域幅適応配信(bandwidth-adaptive delivery)の設計に対するフレームワークを定義することがある。しかしながら、MPEG/3GPP DASH標準は、エンコードされたビデオコンテンツの複雑性および品質を感知および適応することに対するメカニズムを提供しないことがある。これは、ネットワーク帯域幅リソースの使用において一定の非効率をもたらすことがあり、および、次善の最適なユーザ経験につながることがある。
【発明の概要】
【課題を解決するための手段】
【0004】
ストリーミングコンテンツの配信プロセスの品質ベースの最適化を可能にするためのシステム、方法、および手段が開示される。最適化は、品質ベースの(例えば、品質ドリブン(quality-driven)または品質アウェア(quality-aware)などともまた称されてもよい)切替えの形式を取ってもよい。品質ベースの切替えは、適応HTTPベースのストリーミングのフレームワークにおいて有効とされてもよい。クライアントが、それが受信するエンコードされたセグメントの各々の品質に関する情報を有する場合、クライアントは、品質ベースの切替えを有効にしてもよい。セグメント品質に関する情報が、それによってクライアントに通信することができる種々の方法が存在してもよい。そのような通信は、クライアントにおける品質ベースの適応を有効にしてもよい。
【0005】
ストリーミングクライアントにおける品質ベースの決定を有効にするために、クライアントは、各エンコードされたセグメントの品質に関する情報へのアクセスを有してもよい。品質に関する情報は、エンコードされたセグメントおよび/またはエンコードされたサブセグメントに関する1または複数の品質メトリック(metrics)を含んでもよい。品質に関する情報の追加は、品質に関する情報をマニフェストファイル(manifest file)(例えば、.mdpファイル)に含むことによって実現されてもよい。例えば、品質に関する情報は、セグメントインデックスファイル(例えば、MP4またはM4Sファイル)に記憶されたセグメントインデックスに含まれてよく、および/または、例えば、マニフェストファイルから情報へのリンクを提供することによって、品質に関するセグメント情報が追加のファイルに提供されてもよい。品質に関する情報を受信すると、クライアントは、低ビットレートを有するストリームを要求および/または受信し、それによって、ストリーミングコンテンツの品質を保持しながら帯域幅を節約することができる。例えば、クライアントは、ストリームに対してクライアントにとっての容認可能な品質を有する、低ビットレートストリームを要求および/または受信してもよい。
【0006】
無線送信/受信ユニット(WTRU)におけるコンテンツ切替えの方法が、複数のストリームとしてエンコードされたコンテンツセグメントに関する品質情報を受信するステップを含んでもよい。コンテンツセグメントは、コンテンツ期間の一部を形成してもよい。コンテンツセグメントのストリームは、ストリームに関連付けられたそれぞれのビットレートおよび品質情報に応じて選択されてもよい。選択されたストリームは、WTRUによって要求および/または受信されてもよい。
【0007】
無線送信/受信ユニット(WTRU)におけるコンテンツ切替えの方法が、複数のストリームとしてエンコードされたコンテンツセグメントに関する品質情報を受信するステップを含んでもよい。コンテンツサブセグメントは、コンテンツ期間の一部を形成することができる、コンテンツセグメントの一部を形成してもよい。コンテンツセグメントのストリームは、ストリームに関連付けられたそれぞれのビットレートおよび品質情報に応じて選択されてもよい。選択されたストリームは、WTRUによって要求および/または受信されてもよい。
【0008】
無線送信/受信ユニット(WTRU)における品質ドリブン切替えの方法であって、方法は、第1のビットレートでコンテンツの第1のストリームを受信するステップを含んでもよい。コンテンツの第1のストリームは、少なくとも品質の閾値レベルを有してもよい。コンテンツの第1のストリームの期間のセグメントに関する品質情報が受信されてもよい。第2のビットレートでのコンテンツの第2のストリームが、受信された品質情報に基づいて判定されてもよい。第2のビットレートは、第1のビットレートよりも低くてもよく、および、コンテンツの第2のストリームは、少なくとも品質の閾値レベルを有してもよい。コンテンツの第2のストリームは、第2のビットレートで要求および/または受信されてもよい。
【図面の簡単な説明】
【0009】
図1A】1または複数の開示される実施形態を実装することができる、例示的な通信システムのシステム図である。
図1B図1Aで示された通信システム内で使用することができる、例示的な無線送信/受信ユニット(WTRU)のシステム図である。
図1C図1Aで示された通信システム内で使用することができる、例示的な無線アクセスネットワークおよび例示的なコアネットワークのシステム図である。
図1D図1Aで示された通信システム内で使用することができる、例示的な無線アクセスネットワークおよび別の例示的なコアネットワークのシステム図である。
図1E図1Aで示された通信システム内で使用することができる、例示的な無線アクセスネットワークおよび別の例示的なコアネットワークのシステム図である。
図2】ビットレートベースのエンコーディングおよび品質ベースのエンコーディングでのMOS変動(MOS fluctuations)の例を示すグラフである。
図3】ビットレートベースのエンコーディングおよび品質ベースのエンコーディングに対するMOSスコアの例示的な分布を示すグラフである。
図4】適応HTTPベースのストリーミングシステムのアーキテクチャの例を示す図である。
図5】品質ベースの適応を使用することによって、ビットレートを削減するための潜在性の例を示す図である。
図6】クライアントバッファフル状態(client buffer fullness states)の例を示す図である。
図7】品質情報が提供されないときのDASHストリーミングクライアントの動作のモデルレプレゼンテーション(representation)を示す図である。
図8】品質情報を使用するDASHストリーミングクライアントの動作のモデルレプレゼンテーションを示す図である。
図9】DASHプレゼンテーション(DASH presentation)に追加される品質情報トラックの例を示す図である。
図10】DASHセグメント内のmdatボックスに記憶された品質情報の例を示す図である。
図11】DASHセグメント内のfreeまたはskipボックスに記憶された品質情報の例を示す図である。
図12】DASHシステムの高レベルアーキテクチャの例を示す図である。
図13】DASHクライアントモデルの論理コンポーネントの例を示す図である。
図14】DASHメディアプレゼンテーション高レベルデータモデルの例を示す図である。
図15】3つの異なるタイプのフレームでのエンコードされたビデオストリームの例を示す図である。
図16】6つの異なるDASHプロファイルの例の図である。
図17】ブロックベースビデオエンコーダの例を示すブロック図である。
図18】ブロックベースビデオエンコーダの例を示すブロック図である。
【発明を実施するための形態】
【0010】
次に、例示的な実施形態の詳細な説明が、種々の図面を参照して説明されることになる。この説明は、考えられる実装の詳細な例を提供するが、詳細は、例示的であり、本出願の範囲を限定するものではないことを意図されることに留意すべきである。
【0011】
図1Aは、1または複数の開示される実施形態を実装することができる、例示的な通信システム100の図である。通信システム100は、音声、データ、ビデオ、メッセージング、放送、その他などのコンテンツを、複数の無線ユーザに提供する、多重アクセスシステムであってもよい。通信システム100は、多数の無線ユーザが、無線帯域幅を含むシステムリソースの共有を通じて、そのようなコンテンツにアクセスすることを可能にしてもよい。例えば、通信システム100は、符号分割多重アクセス(CDMA)、時分割多重アクセス(TDMA)、周波数分割多重アクセス(FDMA)、直交FDMA(OFDMA)、およびシングルキャリアFDMA(SC-FDMA)などの、1または複数のチャネルアクセス方法を採用してもよい。
【0012】
図1Aに示されるように、通信システム100は、無線送信/受信ユニット(WTRU)102a、102b、102c、および/または102d(全体的に、または総称して、WTRU102と称されてもよい)と、無線アクセスネットワーク(RAN)103/104/105と、コアネットワーク106/107/109と、公衆交換電話ネットワーク(PSTN)108と、インターネット110と、他のネットワーク112とを含んでもよいが、開示される実施形態は、任意の数のWTRU、基地局、ネットワーク、および/またはネットワーク要素を意図していることが認識される。WTRU102a、102b、102c、102dの各々は、無線環境で動作および/または通信するように構成された任意のタイプのデバイスであってよい。例として、WTRU102a、102b、102c、102dは、無線信号を送信および/または受信するように構成されてもよく、ユーザ機器(UE)、移動局、固定または移動加入者ユニット、ページャ、セルラ電話、携帯情報端末(PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、および家庭用電化製品などを含んでもよい。
【0013】
通信システム100はまた、基地局114aおよび基地局114bを含んでもよい。基地局114a、114bの各々は、WTRU102a、102b、102c、102dの少なくとも1つと無線でインターフェースして、コアネットワーク106/107/109、インターネット110、および/またはネットワーク112などの、1または複数の通信ネットワークへのアクセスを促進するように構成された任意のタイプのデバイスであってもよい。例として、基地局114a、114bは、基地局送受信機(BTS)、NodeB、eNodeB、ホームNodeB、ホームeNodeB、サイトコントローラ、アクセスポイント(AP)、および無線ルータなどであってよい。基地局114a、114bのそれぞれは、単一の要素として示されているが、基地局114a、114bは、任意の数の相互接続された基地局および/またはネットワーク要素を含んでもよいことを理解されるであろう。
【0014】
基地局114aは、RAN103/104/105の一部であってよく、RAN103/104/105はまた、基地局コントローラ(BSC)、無線ネットワークコントローラ(RNC)、および中継ノードなどの、他の基地局および/またはネットワーク要素(図示せず)を含んでもよい。基地局114aおよび/または基地局114bは、セル(図示せず)と称されてもよい特定の地理的領域内で、無線信号を送信および/または受信するように構成されてもよい。セルは、セルセクタにさらに分割されてもよい。例えば、基地局114aに関連付けられたセルは、3つのセクタに分割されてもよい。したがって、一実施形態において、基地局114aは、例えば、3つの送受信機、例えば、セルのセクタごとに1つの送受信機を含んでもよい。別の実施形態において、基地局114aは、多入力多出力(MIMO)技術を採用してもよく、したがって、セルのセクタごとに複数の送受信機を利用してもよい。
【0015】
基地局114a、114bは、任意の適切な無線通信リンク(例えば、無線周波数(RF)、マイクロウェーブ、赤外線(IR)、紫外線(UV)、および可視光など)とすることができる、エアインターフェース115/116/117上で、WTRU102a、102b、102c、102dの1または複数と通信してもよい。エアインターフェース115/116/117は、任意の適切な無線アクセス技術(RAT)を使用して確立されてもよい。
【0016】
特に、上述したように、通信システム100は、多重アクセスシステムであってもよく、CDMA、TDMA、FDMA、OFDMA、およびSC-FDMAなどの、1または複数のチャネルアクセススキームを採用してもよい。例えば、RAN103/104/105における基地局114a、およびWTRU102a、102b、102cは、広帯域CDMA(WCDMA(登録商標))を使用してエアインターフェース115/116/117を確立することができる、ユニバーサルモバイルテレコミュニケーションシステム(UMTS)地上波無線アクセス(UTRA)などの無線技術を実装してもよい。WCDMAは、高速パケットアクセス(HSPA)および/または進化型HSPA(HSPA+)などの通信プロトコルを含んでもよい。HSPAは、高速ダウンリンクパケットアクセス(HSDPA)および/または高速アップリンクパケットアクセス(HSUPA)を含んでもよい。
【0017】
別の実施形態において、基地局114a、およびWTRU102a、102b、102cは、ロングタームエボリューション(LTE)および/またはLTEアドバンス(LTE-A)を使用してエアインターフェース115/116/117を確立することができる、進化型UMTS地上波無線アクセス(E-UTRA)などの無線技術を実装してもよい。
【0018】
他の実施形態において、基地局114a、およびWTRU102a、102b、102cは、IEEE802.16(例えば、Worldwide Interoperability for Microwave Access(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、Interim Standard2000(IS-2000)、Interim Standard95(IS-95)、Interim Standard856(IS-856)、Global System for Mobile communications(GSM(登録商標))、Enhanced Data rate for GSM(EDGE)、およびGSM EDGE(GERAN)などの無線技術を実装してもよい。
【0019】
図1Aの基地局114bは、例えば、無線ルータ、ホームNodeB、ホームeNodeB、またはアクセスポイントであってもよく、ならびに、ビジネス、家庭、車両、およびキャンパスなどの局所化されたエリアにおいて無線接続性を促進するための任意の適切なRATを利用してもよい。一実施形態において、基地局114b、およびWTRU102c、102dは、IEEE802.11などの無線技術を実装して、無線ローカルエリアネットワーク(WLAN)を確立してもよい。別の実施形態において、基地局114b、およびWTRU102c、102dは、IEEE802.15などの無線技術を実装して、無線パーソナルエリアネットワーク(WPAN)を確立してもよい。さらに別の実施形態において、基地局114b、およびWTRU102c、102dは、セルラベースのRAT(例えば、WCDMA、CDMA2000、GSM、LTE、LTE-A、その他)を利用して、ピコセルまたはフェムトセルを確立してもよい。図1Aに示されるように、基地局114bは、インターネット110への直接接続を有してもよい。したがって、基地局114bは、コアネットワーク106/107/109を介してインターネット110にアクセスすることを要求されなくてもよい。
【0020】
RAN103/104/105は、音声、データ、アプリケーション、および/またはボイスオーバインターネットプロトコル(VoIP)サービスを、WTRU102a、102b、102c、102dの1または複数に提供するように構成された任意のタイプのネットワークとすることができる、コアネットワーク106/107/109と通信していてよい。例えば、コアネットワーク106/107/109は、呼制御、課金サービス、ロケーションベースサービス、プリペイドコーリング、インターネット接続性、およびビデオ配信などを提供してもよく、ならびに/または、ユーザ認証などの高レベルなセキュリティ機能を実施してもよい。図1Aには示されていないが、RAN103/104/105および/またはコアネットワーク106/107/109は、RAN103/104/105と同一のRAT、または異なるRATを採用する他のRANと、直接的にまたは間接的に通信してもよいことを理解されるであろう。例えば、E-UTRA無線技術を利用することができるRAN103/104/105に接続されていることに加えて、コアネットワーク106/107/109はまた、GSM無線技術を採用する別のRAN(図示せず)と通信してもよい。
【0021】
コアネットワーク106/107/109はまた、WTRU102a、102b、102c、102dがPSTN108、インターネット110、および/または他のネットワーク112にアクセスするための、ゲートウェイとしてサービスしてもよい。PSTN108は、基本電話サービス(POTS)を提供する回線交換電話ネットワークを含んでもよい。インターネット110は、TCP/IPインターネットプロトコルスイートにおける、送信制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、およびインターネットプロトコル(IP)などの共通の通信プロトコルを使用する、相互接続されたコンピュータネットワークおよびデバイスのグローバルシステムを含んでもよい。ネットワーク112は、他のサービスプロバイダによって所有および/または操作される、有線または無線通信ネットワークを含んでもよい。例えば、ネットワーク112は、RAN103/104/105と同一のRAT、または異なるRATを採用することができる、1または複数のRANに接続された別のコアネットワークを含んでもよい。
【0022】
通信システム100におけるWTRU102a、102b、102c、102dの一部または全部は、マルチモード能力を含んでもよく、例えば、WTRU102a、102b、102c、102dは、異なる無線リンク上で異なる無線ネットワークと通信するための複数の送受信機を含んでもよい。例えば、図1Aに示されたWTRU102cは、セルラベースの無線技術を採用することができる基地局114aと、およびIEEE802無線技術を採用することができる基地局114bと通信するように構成されてもよい。
【0023】
図1Bは、例示的なWTRU102のシステム図である。図1Bに示されるように、WTRU102は、プロセッサ118と、送受信機120と、送受信要素122と、スピーカ/マイクロフォン124と、キーパッド126と、ディスプレイ/タッチパッド128と、着脱不能メモリ130と、着脱可能メモリ132と、電源134と、グローバルポジショニングシステム(GPS)チップセット136と、他の周辺機器138とを含んでもよい。WTRU102は、実施形態との整合性を維持しながら、上述した要素の任意のサブ組合せを含んでもよいことを理解されるであろう。また、実施形態は、基地局114aおよび114b、ならびに/または、とりわけ、それらに限定されないが、ベーストランシーバ局(BTS)、NodeB、サイトコントローラ、アクセスポイント(AP)、ホームNodeB、進化型ホームNodeB(eNodeB)、ホーム進化型NodeB(HeNB)、ホーム進化型NodeBゲートウェイ、およびプロキシノードなどの、基地局114aおよび114bが表示することができるノードが、図1Bに表され、および本明細書で説明される要素の一部または全部を含んでもよいことを理解される。
【0024】
プロセッサ118は、汎用プロセッサ、特殊目的プロセッサ、従来型プロセッサ、デジタルシグナルプロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアに関連付けられた1または複数のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)回路、任意の他のタイプの集積回路(IC)、およびステートマシンなどであってもよい。プロセッサ118は、信号符号化、データ処理、電力制御、入力/出力処理、および/または、WTRU102が無線環境において動作することを可能にする任意の他の機能性を実施してもよい。プロセッサ118は、送受信要素122に結合することができる送受信機120に結合されてもよい。図1Bは、プロセッサ118および送受信機120を別々のコンポーネントとして示すが、プロセッサ118および送受信機120は、電子パッケージまたはチップにおいてともに統合されてもよいことを理解されるであろう。
【0025】
送受信要素122は、エアインターフェース115/116/117上で、基地局(例えば、基地局114a)に信号を送信し、または基地局から信号を受信するように構成されてもよい。例えば、一実施形態において、送受信要素122は、RF信号を送信および/または受信するように構成されたアンテナであってよい。別の実施形態において、送受信要素122は、例えば、IR、UV、または可視光信号を送信および/または受信するように構成されたエミッタ/ディテクタであってもよい。さらに別の実施形態において、送受信要素122は、RFと光信号との両方を送信および受信するように構成されてもよい。送受信要素122は、任意の組合せの無線信号を送信および/または受信するように構成されてもよいことを理解されるであろう。
【0026】
加えて、送受信要素122は単一の要素として図1Bに示されているが、WTRU102は、任意の数の送受信要素122を含んでもよい。特に、WTRU102は、MIMO技術を採用してもよい。したがって、一実施形態において、WTRU102は、エアインターフェース115/116/117上で無線信号を送信および受信するための、2以上の送受信要素122(例えば、多数のアンテナ)を含んでもよい。
【0027】
送受信機120は、送受信要素122によって送信されることになる信号を変調し、および、送受信要素122によって受信される信号を復調するように構成されてもよい。上述したように、WTRU102は、マルチモード能力を有してもよい。したがって、送受信機120は、WTRU102が、例えば、UTRAおよびIEEE802.11などの多数のRATを介して通信することを可能にするための複数の送受信機を含んでもよい。
【0028】
WTRU102のプロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128(例えば、液晶ディスプレイ(LCD)ディスプレイユニットもしくは有機発光ダイオード(OLED)ディスプレイユニット)に結合されてもよく、ならびに、それらから、ユーザ入力データを受信してもよい。プロセッサ118はまた、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128に、ユーザデータを出力してもよい。加えて、プロセッサ118は、着脱不能メモリ130および/または着脱可能メモリ132などの、任意のタイプの適切なメモリからの情報にアクセスし、および、任意のタイプの適切なメモリにデータを記憶してもよい。着脱不能メモリ130は、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、ハードディスク、または任意の他のタイプのメモリ記憶装置を含んでもよい。着脱可能メモリ132は、加入者識別モジュール(SIM)カード、メモリスティック、およびセキュアデジタル(SD)メモリカードなどを含んでもよい。他の実施形態において、プロセッサ118は、サーバまたはホームコンピュータ(図示せず)上などの、物理的にWTRU102に配置されていないメモリからの情報にアクセスし、およびメモリにデータを記憶してもよい。
【0029】
プロセッサ118は、電源134から電力を受信してもよく、ならびに、WTRU102における他のコンポーネントに電力を分配および/または制御するように構成されてもよい。電源134は、WTRU102を電力供給するための任意の適切なデバイスであってもよい。例えば、電源134は、1または複数の乾電池(例えば、ニッケルカドミウム(NiCd)、ニッケル亜鉛(NiZn)、ニッケル金属水素化物(NiMH)、リチウムイオン(Li-ion)その他)、ソーラセル、および燃料セルなどを含んでもよい。
【0030】
プロセッサ118はまた、WTRU102の現在の位置に関して位置情報(例えば、経度および緯度)を提供するように構成することができる、GPSチップセット136に結合されてもよい。GPSチップセット136からの情報に加えて、またはそれに代えて、WTRU102は、エアインターフェース115/116/117上で基地局(例えば、基地局114a、114b)から位置情報を受信し、および/または、2以上の近隣の基地局から受信されている信号のタイミングに基づいて、その場所を判定してもよい。WTRU102は、実施形態との整合性を維持しながら、任意の適切な位置判定方法によって位置情報を取得してもよいことを理解されるであろう。
【0031】
プロセッサ118は、他の周辺機器138にさらに結合されてよく、周辺機器138は、追加の特徴、機能性、および/またはワイヤードもしくは無線接続性を提供する、1または複数のソフトウェアモジュールおよび/またはハードウェアモジュールを含んでもよい。例えば、周辺機器138は、加速度計、電子コンパス、衛星送受信機、デジタルカメラ(写真またはビデオ用)、ユニバーサルシリアルバス(USB)ポート、振動デバイス、テレビ送受信機、ハンズフリーハンドセット、Bluetooth(登録商標)モジュール、周波数変調(FM)無線ユニット、デジタル音楽プレイヤ、メディアプレイヤ、ビデオゲームプレイヤモジュール、およびインターネットブラウザなどを含んでもよい。
【0032】
図Cは、実施形態に従った、RAN103およびコアネットワーク106のシステム図である。上述したように、RAN103は、UTRA無線技術を採用して、エアインターフェース115上でWTRU102a、102b、102cと通信してもよい。RAN103はまた、コアネットワーク106とも通信してもよい。図1Cに示されるように、RAN103は、エアインターフェース115上でWTRU102a、102b、102cと通信するための1または複数の送受信機をそれぞれ含むことができる、NodeB140a、140b、140cを含んでもよい。NodeB140a、140b、140cはそれぞれ、RAN103内で特定のセル(図示せず)に関連付けられてもよい。RAN103はまた、RNC142a、142bを含んでもよい。RAN103は、実施形態との整合性を維持しながら、任意の数のNodeBおよびRNCを含んでもよいことを理解されるであろう。
【0033】
図1Cに示されるように、NodeB140a、140bは、RNC142aと通信してもよい。加えて、NodeB140cは、RNC142bと通信してもよい。NodeB140a、140b、140cは、Iubインターフェースを介して、それぞれのRNC142a、142bと通信してもよい。RNC142a、142bは、Iurインターフェースを介して、互いに通信してもよい。RNC142a、142bの各々は、それが接続されているそれぞれのNodeB140a、140b、140cを制御するように構成されてもよい。加えて、RNC142a、142bの各々は、アウタループ電力制御、負荷制御、アドミッション制御、パケットスケジューリング、ハンドオーバ制御、マクロダイバーシティ、セキュリティ機能、およびデータ暗号化などの他の機能性を実行またはサポートするように構成されてもよい。
【0034】
図1Cに示されるコアネットワーク106は、メディアゲートウェイ(MGW)144、モバイルスイッチングセンタ(MSC)146、サービングGPRSサポートノード(SGSN)148、および/またはゲートウェイGPRSサポートノード(GGSN)150を含んでもよい。上述した要素の各々は、コアネットワーク106の一部として示されているが、これらの要素の任意の1つが、コアネットワークオペレータ以外のエンティティによって所有および/または操作されてもよいことを理解されるであろう。
【0035】
RAN103におけるRNC142aは、IuCSインターフェースを介して、コアネットワーク106におけるMSC146に接続されてもよい。MSC146は、MGW144に接続されてもよい。MSC146およびMGW144は、WTRU102a、102b、102cに、PSTN108などの回線交換ネットワークへのアクセスを提供して、WTRU102a、102b、102cと、従来の地上線通信デバイスとの間の通信を促進してもよい。
【0036】
RAN103におけるRNC142aはまた、IuPSインターフェースを介して、コアネットワーク106におけるSGSN148に接続されてもよい。SGSN148は、GGSN150に接続されてもよい。SGSN148およびGGSN150は、WTRU102a、102b、102cにインターネット110などのパケット交換ネットワークへのアクセスを提供して、WTRU102a、102b、102cと、IP対応デバイスとの間の通信を促進してもよい。
【0037】
上述したように、コアネットワーク106はまた、他のサービスプロバイダによって所有および/または操作される、他の有線または無線ネットワークを含むことができる、ネットワーク112に接続されてもよい。
【0038】
図1Dは、実施形態に従った、RAN104およびコアネットワーク107のシステム図である。上述したように、RAN104は、E-UTRA無線技術を採用して、エアインターフェース116上で、WTRU102a、102b、102cと通信してもよい。RAN104はまた、コアネットワーク107と通信してもよい。
【0039】
RAN104は、eNodeB160a、160b、160cを含んでもよいが、RAN104は、実施形態との一貫性を維持しながら、任意の数のeNodeBを含んでもよいことを理解されるであろう。eNodeB160a、160b、160cは、エアインターフェース116上で、WTRU102a、102b、102cと通信するための1または複数の送受信機をそれぞれ含んでもよい。一実施形態において、eNodeB160a、160b、160cは、MIMO技術を実装してもよい。したがって、eNodeB160aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、および、WTRU102aから無線信号を受信してもよい。
【0040】
eNodeB160a、160b、160cの各々は、特定のセル(図示せず)に関連付けられてもよく、ならびに、無線リソース管理決定、ハンドオーバ決定、アップリンクおよび/またはダウンリンクにおけるユーザのスケジューリングなどを扱うように構成されてもよい。図1Dに示されるように、eNodeB160a、160b、160cは、X2インターフェース上で互いに通信してもよい。
【0041】
図1Dに示されるコアネットワーク107は、モビリティ管理ゲートウェイ(MME)162と、サービングゲートウェイ164と、パケットデータネットワーク(PDN)ゲートウェイ166とを含んでもよい。上述した要素の各々は、コアネットワーク107の一部として示されているが、これらの要素の任意の1つが、コアネットワークオペレータ以外のエンティティによって所有および/または操作されてもよいことを理解されるであろう。
【0042】
MME162は、S1インターフェースを介して、RAN104におけるeNodeB160a、160b、160cの各々に接続されてもよく、および、制御ノードとしてサービスしてもよい。例えば、MME162は、WTRU102a、102b、102cのユーザを認証すること、ベアラアクティブ化/非アクティブ化、およびWTRU102a、102b、102cの初期アタッチの間に特定のサービングゲートウェイを選択することなどの役割を果たしてもよい。MME162はまた、RAN104と、GSMまたはWCDMAなどの他の無線技術を採用する他のRAN(図示せず)との間を切替えるための、制御プレーン機能を提供してもよい。
【0043】
サービングゲートウェイ164は、S1インターフェースを介して、RAN104におけるeNodeB160a、160b、160cの各々に接続されてもよい。サービングゲートウェイ164は一般に、WTRU102a、102b、102cへの/WTRU102a、102b、102cからのユーザデータパケットをルーティングおよび転送してもよい。サービングゲートウェイ164はまた、eNodeB間のハンドオーバの間に、ユーザプレーンをアンカリングすること(anchoring)、ダウンリンクデータがWTRU102a、102b、102cに利用可能なときにページングをトリガすること、WTRU102a、102b、102cのコンテキストを管理および記憶することなどの他の機能を実行してもよい。
【0044】
サービングゲートウェイ164はまた、WTRU102a、102b、102cにインターネット110などのパケット交換ネットワークへのアクセスを提供して、WTRU102a、102b、102cと、IP対応デバイスとの間の通信を促進することができる、PDNゲートウェイ166に接続されてもよい。
【0045】
コアネットワーク107は、他のネットワークとの通信を促進してもよい。例えば、コアネットワーク107は、WTRU102a、102b、102cにPSTN108などの回線交換ネットワークへのアクセスを提供して、WTRU102a、102b、102cと、従来の地上線通信デバイスとの間の通信を促進してもよい。例えば、コアネットワーク107は、コアネットワーク107と、PSTN108との間でインターフェースとしてサービスするIPゲートウェイ(例えば、IPマルチメディアサブシステム(IMS)サーバ)を含んでもよく、またはIPゲートウェイと通信してもよい。加えて、コアネットワーク107は、WTRU102a、102b、102cに、他のサービスプロバイダによって所有および/または操作される、他の無線または無線ネットワークを含むことができる、ネットワーク112へのアクセスを提供してもよい。
【0046】
図1Eは、実施形態に従った、RAN105およびコアネットワーク109のシステム図である。RAN105は、IEEE802.16無線技術を採用して、エアインターフェース117上でWTRU102a、102b、102cと通信するアクセスサービスネットワーク(ASN)であってもよい。以下でさらに議論されるように、WTRU102a、102b、102c、RAN105、およびコアネットワーク109の異なる機能エンティティの間の通信リンクが、参照ポイントとして定義されてもよい。
【0047】
図1Eに示されるように、RAN105は、基地局180a、180b、180c、およびASNゲートウェイ182を含んでもよいが、RAN105は、実施形態との整合性を維持しながら、任意の数の基地局およびASNゲートウェイを含んでもよいことを理解されるであろう。基地局180a、180b、180cはそれぞれ、RAN105における特定のセル(図示せず)に関連付けられてよく、および、エアインターフェース117上でWTRU102a、102b、102cと通信するための1または複数の送受信機を含んでもよい。一実施形態において、基地局180a、180b、180cは、MIMO技術を実装してもよい。したがって、基地局180aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、および、WTRU102aから無線信号を受信してもよい。基地局180a、180b、180cはまた、ハンドオフトリガリング、トンネル確立、無線リソース管理、トラフィック分類、およびサービス品質(QoS)ポリシ施行などのモビリティ管理機能を提供してもよい。ASNゲートウェイ182は、トラフィックアグリゲーションポイントとしてサービスしてもよく、ならびに、ページング、加入者プロファイルのキャッシング、およびコアネットワーク109へのルーティングなどの役割を果たしてもよい。
【0048】
WTRU102a、102b、102cと、RAN105との間のエアインターフェース117は、IEEE802.16仕様を実装するR1参照ポイントとして定義されてもよい。加えて、WTRU102a、102b、102cの各々は、コアネットワーク109との論理インターフェース(図示せず)を確立してもよい。WTRU102a、102b、102cと、コアネットワーク109との間の論理インターフェースは、認証、認可、IPホスト構成管理、および/またはモビリティ管理に使用することができるR2参照ポイントとして定義されてもよい。
【0049】
基地局180a、180b、180cの各々の間の通信リンクは、WTRUハンドオーバおよび基地局間のデータの転送を促進するためのプロトコルを含むR8参照ポイントとして定義されてもよい。基地局180a、180b、180cと、ASNゲートウェイ182との間の通信リンクは、R6参照ポイントとして定義されてもよい。R6参照ポイントは、WTRU102a、102b、102cの各々に関連付けられたモビリティイベントに基づいてモビリティ管理を促進するためのプロトコルを含んでもよい。
【0050】
図1Eに示されるように、RAN105は、コアネットワーク109に接続されてもよい。RAN105と、コアネットワーク109との間の通信リンクは、例えば、データ転送およびモビリティ管理能力を促進するためのプロトコルを含むR3参照ポイントとして定義されてもよい。コアネットワーク109は、モバイルIPホームエージェント(MIP-HA)184、認証、認可、アカウンティング(AAA)サーバ186、およびゲートウェイ188を含んでもよい。上述した要素の各々は、コアネットワーク109の一部として示されているが、これらの要素の任意の1つが、コアネットワークオペレータ以外のエンティティによって所有および/または操作されてもよいことを理解されるであろう。
【0051】
MIP-HAは、IPアドレス管理の役割を果たしてもよく、ならびに、WTRU102a、102b、102cが、異なるASNの間、および/または異なるコアネットワークとの間でローミングすることを可能にしてもよい。MIP-HA184は、WTRU102a、102b、102cにインターネット110などのパケット交換ネットワークへのアクセスを提供して、WTRU102a、102b、102cと、IP対応デバイスとの間の通信を促進してもよい。AAAサーバ186は、ユーザ認証およびユーザサービスをサポートすることの役割を果たしてもよい。ゲートウェイ188は、他のネットワークとの対話を促進してもよい。例えば、ゲートウェイ188は、WTRU102a、102b、102cにPSTN108などの回線交換ネットワークへのアクセスを提供して、WTRU102a、102b、102cと、従来の地上線通信デバイスとの間の通信を促進してもよい。加えて、ゲートウェイ188は、WTRU102a、102b、102cに、他のサービスプロバイダによって所有および/または操作される、他の有線または無線ネットワークを含むことができるネットワーク112へのアクセスを提供してもよい。
【0052】
図1Eには示されていないが、RAN105は、他のASNに接続されてもよく、および、コアネットワーク109は、他のコアネットワークに接続されてもよいことを理解されるであろう。RAN105と他のASNとの間の通信リンクは、RAN105と他のASNとの間でWTRU102a、102b、102cのモビリティを調整するためのプロトコルを含むことができる、R4参照ポイントとして定義されてよい。コアネットワーク109と、他のコアネットワークとの間の通信リンクは、ホームコアネットワークと移動先コアネットワークとの間の対話を促進するためのプロトコルを含むことができる、R5参照ポイントとして定義されてよい。
【0053】
本明細書で議論される技術は、WTRU102a、102b、102c、102d、RAN104、コアネットワーク106、インターネット110、および/または他のネットワーク112によって、部分的にまたは全面的に実行されてもよい。例えば、WTRU102a、102b、102c、102dによって実行されているビデオストリーミングは、本明細書で議論されるような種々の処理に関与してもよい。
【0054】
ビデオ配信の品質ベースの最適化を可能にするためのシステム、方法、および手段が開示される。開示される技術は、MPEG/3GPP DASH標準を参照して示されるが、それらに限定されない。例えば、セグメント品質に関する情報をDASHクライアントに通信することができる方法が、本明細書で説明されてよい。そのような通信は、クライアントにおける品質ベースの適応を有効にしてもよい。本明細書で説明される技術は、MPEG-DASH標準に対する拡張として実装されてもよい。
【0055】
画像圧縮の効果は、例えば、信号を送信するためのビットレートおよび/もしくは帯域幅、ならびに/または、再構築された画像の品質を使用して評価されてもよい。画像/フレームまたはビデオの時間および/またはシーケンスが考慮される場合、各フレームに対するビデオコーデックによって達成することができる、複数のビットレートおよび/または品質特性が存在することがある。
【0056】
シーケンスに対するレートおよび/または品質パラメータ(例えば、PSNR、SSIM、および/またはMOS)を報告するために、1または複数のフレームにわたるビットレートおよび/または品質パラメータの平均値が使用されてもよい。例えば、同一の平均スコアを達成するために、例えば、全体的な品質経験への異なる影響を有することがある異なる方法が存在することがあるので、平均値は信頼できないことがある。例えば、エンコーダは、ビデオシーケンスにおける個々のフレームに対する品質とレートとの間で、即時的なトレードオフのバランスを取るために、異なる方策を使用することがある。ビットレートは、このレートを前提として、最良の考えられる(possible)ピクチャ/フレーム品質を達成しながら、所与のターゲットに可能な限り近接して(as close as possible)維持されることがある。この方策は、一定ビットレート(CBR)エンコーディング(constant bitrate (CBR) encoding)と称されてもよい。品質は、各フレームに対するそのような品質を達成するのに必要とされる最小の考えられる数のビットを使用しながら、所与のターゲットに近接して維持されてもよい。この方策は、一定品質エンコーディングと称されてもよい。
【0057】
ビデオコンテンツの変化する複雑性に順応するために、エンコーダは、エンコーダが、レートおよび/または品質がフレームからフレームへと変動することを許容する、一定レートおよび/または一定品質のエンコーディングのバージョンを実装してもよい。例えば、エンコーダは、そのような変動を削減または最小限にするように試みてもよい。そのようなエンコーディングの方策は、それぞれ、ビットレートベースエンコーディングおよび品質ベースエンコーディングと称されてもよい。
【0058】
図2は、同一のシーケンスのビットレートベースエンコーディングおよび品質ベースエンコーディングでのMOS変動の例を示すグラフである。図2は、ビデオシーケンスのビットレートベースエンコーディングおよび品質ベースのエンコーディングによって生成されるMOSスコアの例を示す。この例において、品質ベースエンコーディングは、より高いピークビットレート(2.7Mbps)を利用することができるが、ビットレートベースエンコーディングとおおよそ同一の平均ビットレート(1.8Mbps)を達成することができる。品質ベースエンコーディングは、より一貫した品質によって特徴付けられてもよい。品質ベースエンコーディングは、ある容認可能なレベル(例えば、フェア(fair))未満に品質が低下する、フレーム/セグメントの少数のインスタンスを有することがある。
【0059】
図3は、ビットレートベースエンコーディングおよび品質ベースエンコーディングに対するMOSスコアの分布の例である。容認可能なレベル未満の品質低下がないことは、より良好な全体的な品質経験につながることがある。これは、種々の異なるタイプのビジュアルコンテンツおよび再現設定に当てはまることがある。
【0060】
図4は、適応HTTPベースのストリーミングシステム400の動作の例を示す図である。ストリーミングシステムは、例えば、異なるターゲットレートでエンコードされた複数のストリームを作成することによって、ビデオのレートベースエンコーディングを採用してもよい。クライアントアプリケーションは、1または複数のエンコードされたストリームの間で動的に選択するために使用されてもよい。クライアントによって実装されるストリーム切替えは、例えば、実際には約2~10秒であることがある一定の粒度を有することがある。クライアントがエンコードされたストリーム間を切替えることができるポイントは、切替えポイントと称されてもよい。エンコードされたストリーム間でエンコードされたコンテンツの一部は、セグメントと称されてもよい。
【0061】
ストリーミングセッションの間、ストリーミングクライアントは、1または複数のセグメントの配信のレートを計算してもよい。セグメントの配信のレートは、クライアントに、次のセグメントを受信するために利用可能であるネットワークの帯域幅の推定を与えてもよい。この推定に基づいて、クライアントは、いずれの次のエンコーディング/レートが次のセグメントに使用するかを決定してもよい。これは、クライアントが変化するネットワーク状態に適応することを許容する。例えば、それらに限定はされないがそれらのレートを含む、各エンコードされたストリームに関する高レベルな情報が、マニフェストファイル、またはマルチメディアプレゼンテーションディスクリプション(MPD)ファイル(multimedia presentation description (MPD) file)に記憶されてもよい。例えば、ストリーム内のエンコードされたセグメントに対するオフセットおよびタイミング情報は、1または複数のセグメントインデックスファイルに記憶されてもよい。
【0062】
マニフェストファイルおよび/またはインデックスファイルは、エンコードされたセグメントの各々の品質に関する情報を含まなくてもよい。ストリーミングクライアントは、各セグメントの品質についての情報(knowledge)を有さなくてもよい。この情報なしで、ストリーミングクライアントは、品質ドリブン適応(quality driven adaptation)を実装することが可能でないことがある。これは、ストリーミング配信システムにおいて一定の非効率性をもたらすことがある。例えば、コンテンツをエンコードするのが困難な状況があることがあり、それが、現在のレートで、フェアな品質という結果になることがある。例えば、コンテンツをエンコードするのが容易な状況があることがあり、その場合、品質への影響なしにレートを低くすることは道理にかなう。これの一例が、図5に示される。
【0063】
図5は、品質ベースの適応(quality-based adaptation)を使用することによって、ビットレートを削減するための潜在性の例を示す図である。図5に示されるように、ビデオは、エンコードするのに容易とすることができる1または複数のセグメントを含んでもよい。そのような例では、より低いレートに切替えることが、一定の上限レベルで品質を保持しながら、帯域幅を節約することができる。適応HTTPベースストリーミング(adaptive HTTP-based streaming)のフレームワーク、特に、MPEG/3GPP DASH標準において、そのような品質アウェア(例えば、品質ドリブン)切替えがどのように有効とされてもよいかが、本明細書で説明されてもよい。
【0064】
ストリーミングクライアントは、例えば、図5に示されるような、一部の品質上限(quality cap)を課してもよい。クライアントは、セグメントに対して達成される1または複数の品質値(例えば、PSNR)を認識してもよい。例えば、次のセグメントが所与の品質ターゲット(例えば、ターゲット38dBの代わりに48dB)以上である1または複数の品質値を達成することをクライアントが判定した場合、クライアントは、所与の品質ターゲットに到達するのに十分なより低いレートで、エンコードを選択してもよい。クライアントは、帯域幅を節約することができ、および/または、配信されているビジュアルコンテンツの品質の一貫性を改善することができる。
【0065】
ビデオ配信を改善するために、品質情報がDASHストリーミングクライアントによって使用されてもよい。クライアントバッファモデルが説明されてよい。図6は、いくつかのクライアントバッファフル状態の例を示す図である。クライアントは、一定の長さ(例えば、10~30秒)のプリロールバッファで動作してもよい。クライアントは、例えば、Low_buf602およびHigh_buf604などの、1または複数のバッファフル閾値を利用してもよい。Low_buf602は、そこでクライアントが再バッファリング状態で稼動するリスクになることがある、閾値を意味してもよい。Low_buf閾値602にあるとき、クライアントは、バッファを補充する(replenish)するために測定を実行してもよい。High_buf604は、クライアントが切替えおよび/またはスロットリング(throttling)(例えば、最高レートに到達した場合)を考慮するための情報の量を蓄積することができる、閾値を意味してもよい。
【0066】
図7は、品質情報が提供されないときのDASHストリーミングクライアントの動作のモデルレプレゼンテーション700を示す図である。DASHクライアント動作モデルが説明されてもよい。図7を参照すると、702で示されるように、バッファレベルBufがlow_buf閾値未満であるとき、クライアントは、最低レートレプレゼンテーションを選択して、再バッファリングを回避してもよい。704で示されるように、バッファレベルBufがlow_buf閾値とhigh_buf閾値との間にあるとき、クライアントは、例えば、利用可能な帯域幅未満である最高レートレプレゼンテーションを選択してもよい。706で示されるように、バッファレベルBufがhigh_buf閾値よりも大きいとき、クライアントは、最高レートレプレゼンテーションに到達したかをチェックしてもよく、そうである場合、クライアントは、それが既にリアルタイム再生のために十分なデータを有するとき、セグメント負荷の間に(例えば、スロットリング)1または複数の中断(pauses)を導入してもよい。
【0067】
セグメントごとの品質およびレート情報を使用するクライアント適応モデルが提供されてもよい。図8は、例えば、ビットレートに関わらず、例えば、その品質が閾値quality_capよりも大きいストリーム/セグメントの選択を回避することができる、品質情報を使用するDASHストリーミングクライアントの動作のモデルレプレゼンテーション800を示す図である。そのような選択は、より帯域幅の使用を控え、および/またはエンドユーザへの体験の品質をより一貫したものとさせる。この品質情報は、例えば、バッファフル情報に加えて使用されてもよい。図8において802に示されるように、バッファレベルBufがlow_buf閾値未満であるとき、クライアントは、最低レートレプレゼンテーションを選択して、再バッファリングを回避してもよい。804で示されるように、バッファレベルBufがlow_buf閾値とhigh_buf閾値との間にあるとき、クライアントは、例えば、利用可能な帯域幅よりも低く、品質閾値quality_capを超えない品質を有する、最高レートレプレゼンテーションを選択してもよい。806で示されるように、バッファレベルBufがbuf_high閾値よりも大きいとき、クライアントは、最高レートレプレゼンテーションに到達したかをチェックしてもよい。そうである場合、クライアントは、それが既にリアルタイム再生のために十分なデータを有するとき、セグメント負荷の間に(例えば、スロットリング)1または複数の中断を導入してもよい。
【0068】
ストリーミングクライアントにおいて品質ベースの決定を有効にするために、クライアントは、エンコードされたセグメントの1または複数の品質に関する情報へのアクセスを有してもよい。そのような情報をどのようにMPEG-DASH標準に導入することができるかに関する複数の箇所(places)および複数の方法があってよい。例えば、PSNR、SSIM、VQM、VIF、J.341、MOSの1もしくは複数(例えば、任意の許容可能な組合せにおいて)、ならびに/または、別の客観的および/もしくは主観的測定が、追加された品質メトリックとして使用されてもよい。
【0069】
品質メトリックは、例えば、PSNRなどのdBスケールを利用してもよい。品質メトリックは、インターバルに、例えば、5レベルMOSスケールに関連付けることができるインターバル[1・・・5]にマッッピングされてもよい。品質値に対するシグナリングは、例えば、追加および拡張を許容することによって、フレキシブルであってもよい。品質値に対するシグナリングは、値範囲にスケーリングすることができるメトリックの通信を許容することができる。例えば、メトリックは、1(最低)から5(最高)などの、MOSスコアの値範囲にスケーリングされてもよい。品質値に対するシグナリングは、PSNRの通信を許容することができる。
【0070】
品質情報は、粒状(granular)であってもよい。例えば、品質情報は、DASHクライアントが決定を行うことを可能にする、セグメントおよび/またはサブセグメントレベルで定義されてもよい。品質情報は、アクセス可能であってもよい。例えば、DASHクライアントが、前もって、および実際のデータセグメントをロードする前に、品質情報を取り出す(例えば、独立して取り出す)ことができるように、例えば、品質情報は、適応セットにおいてセグメントおよび/またはレプレゼンテーションに対してアクセス可能であってもよい。品質情報は、コンパクトであってもよい。例えば、品質情報のローディングが、ストリーミングクライアントがロードしているデータに関して重大なオーバーヘッドを生じさせないように、品質情報は、コンパクトであってのよい。
【0071】
エンコードされたセグメントの品質に関する情報を追加するための1つの方法は、MPDファイルのセグメントリスト部においてタグ(例えば、追加のタグ)を使用することによるものであってもよい。適応セットは、セグメントリストにおいて品質値の存在を示すタグを含んでもよい。そのような宣言の例が、以下に提示される。
【0072】
【0073】
独立した品質シーケンス記述子(quality sequence descriptor)が、本明細書で説明されてもよい。品質情報は、例えば、レプレゼンテーションレベルにおいて、別々の記述子として含まれてもよい。この記述子は、品質メトリックを定義してもよく、品質レプレゼンテーションの精度を定義してもよく(例えば、粗いレプレゼンテーションが使用されて、それをよりコンパクトにしてもよい)、および/または、レプレゼンテーションにおいてセグメントに関連付けられた品質値のシーケンスを定義してもよい。
【0074】
レプレゼンテーションレベルにおける品質情報記述子は、例えば、MPDがセグメントテンプレート、および/または個々のセグメントファイルへのURLを使用することができるときのケースでは、各セグメントの実際の圧縮された長さに関する情報を含んでもよい。レプレゼンテーションレベルにおける品質情報記述子は、SupplementalProperty記述子のケースとして定義されてよく、例えば、品質シグナリング情報に関連付けられた一意の識別子を提供することができる、スキーマユニフォームリソース名(URN)(schema uniform resource name (URN))を含んでもよい。
【0075】
品質シーケンス記述子の例示的な実装が、表1において提供される。
【0076】
【表1】
【0077】
エンコードされたセグメントの品質に関する情報を追加する方法は、セグメントインデックス(またはインデックスセグメント)ファイルを使用することであってもよい。セグメントインデックスファイルは、セグメントインデックス情報を含むことができる、ファイル(例えば、特殊化ファイル)を含んでもよく、および/または、HTTPサーバ上で.mpdファイルおよびセグメントファイルとともに記憶されてよい。セグメントインデックスファイルは、.mp4ファイルのバージョン(例えば、特殊化バージョン)を含んでもよい。セグメントインデックスファイルは、例えば、エンコードされたレプレゼンテーションに対するセグメントインデックス情報を有するSTYP.SIDXおよび/またはSSIXタイプボックスを含んでもよい。セグメントインデックスは、インデックス関連ボックス(index-related boxes)がファイルの先頭に位置してよもよいケースで、エンコードされたメディアファイル(例えば、フル.mp4ファイル)に埋め込まれてもよい。
【0078】
セグメントインデックスファイルは、例えば、レプレゼンテーションに対するセグメントインデックスを提供するRepresentationIndex要素の存在によって、MPDファイルから参照されてもよい。セグメントインデックスファイルは、例えば、SegmentList.SegmentURL要素における2つの属性、@indexまたは@indexRangeの少なくとも1つの存在によって、MPDファイルから参照されてもよい。セグメントインデックスファイルは、例えば、SegmentTemplate@index属性の存在によって、MPDファイルから参照されてもよい。
【0079】
@indexRange属性が使用されて、メディアセグメント内のインデックスに対してバイト範囲を提供してもよい。これは、メディアセグメントフォーマットによって許可されるときに行われてよい。例えば、@index属性は存在しなくてもよく、および、指定された範囲が、メディアセグメントに対して指定されたバイト範囲内に部分的にまたは完全に存在してもよい。
【0080】
品質のシグナリングに使用されるセグメントインデックスファイルは、品質情報がインデックスファイルに存在してもよい(例えば、MPDファイルにおける記述子または属性によって)ことのインジケーション、品質メトリックのタイプの指定(例えば、MPDに含まれ、および/もしくはセグメントインデックスボックス内に含まれる)、ならびに/または、レプレゼンテーションにおけるセグメントおよび/またはサブセグメントに対する品質値のリストを含んでもよい。品質値のリストは、例えば、ランレングスエンコーディングによって圧縮されてもよい。
【0081】
品質のシグナリングに使用されるセグメントインデックスファイルは、いくつかの記述要素を含んでもよい。例えば、セグメントインデックスファイルは、例えばMPDファイルにおける記述子または属性を使用して、品質情報がインデックスファイルに存在することを示してもよい。セグメントインデックスファイルは、例えば、MPDファイルにおける、またはセグメントインデックスボックス内の、品質メトリックのタイプの指定を備えてもよい。セグメントインデックスファイルは、レプレゼンテーションにおける1もしくは複数のセグメントまたはサブセグメントに対する品質値のリストを備えてもよい。このリストは、例えば、ランレングスエンコーディングを使用して圧縮されてもよい。
【0082】
ISOBMFFベースのファイルコンテナに品質パラメータを記憶するために、ボックスが定義されてよい。例えば、以下に一覧化された表2が、ISO/IEC14496-12の表1の最後に追加されてよい。
【0083】
【表2】
【0084】
以下の定義を適用することができる。qtypは、PSNR、SSIM、MS-SSIM、および/またはVQMなどの、品質メトリックのタイプを記述するボックスを示してもよいが、それらに限定されない。sqlsは、レプレゼンテーションにおけるセグメントに対する品質メトリックのリストを含むボックスを示してもよい。例示的な構文が、以下に示される。
【0085】
【0086】
ssqlは、セグメントにおけるサブセグメントに対する品質メトリックのリストを含むボックスを示してもよい。例示的な構文が、以下に示される。
【0087】
【0088】
クライアントに、品質情報がインデックスファイルに存在することを示すために、MPDファイル構文が拡張されて、特別なqualityInfoPresentInIndexFilesフラグが可能となってもよい。このファイルの使用の例が、以下に示される。
【0089】
【0090】
エンコードされたセグメントの品質に関する情報は、それら自体の構文を有する別々のファイルを使用および/または記憶することによって、追加されてもよい。そのようなファイルは、例えば、記述子によって、MPDファイルにおける対応する適応セットに関連付けられてもよい。そのような記述子の例が、以下に示される。
【0091】
【0092】
これは、システム(例えば既存のシステム)での配置およびエンコードされたコンテンツへのパスを提供してもよい。
【0093】
図9は、DASHプレゼンテーション(DASH presentation)に追加される品質情報トラック900の例を示す図である。品質情報は、メディアデータコンテナ(mdat)ボックス902に埋め込まれてよい。品質情報は、プレゼンテーション内のビデオトラック904と共に品質情報トラック900として、メディアデータコンテナ(mdat)ボックス902内に記憶されてもよい。品質情報トラック900を追加するために、例えば、図9に示されるように、DASH初期化セグメントは、追加されるトラックをリスト化してもよい。
【0094】
トラックにおけるメディア情報に対するコンテナ906(trakボックス)内では、トラックにおけるメディア情報に対するコンテナ908(例えば、mdiaボックス)は、メディア情報コンテナ910(例えば、minfボックス)を備えてもよい。品質情報トラック900に対し、メディア情報コンテナ910(例えば、minfボックス)は、ヌルメディアヘッダ(例えば、nmhdボックス912)タイプを利用してもよい。nmhdボックス912では、品質情報が提供されてもよく、および、例えば、品質メトリックのタイプ(例えば、PSNR、SSIM、その他)を備えてもよい。品質情報を含むことができるnmhdボックス912に対する構文の例が、以下に提供される。
【0095】
【0096】
quality_metric_typeは、計数(enumeration)であってよい。例えば、0は、PSNRを示してもよく、1は、SSIMを示してもよい、などである。品質情報トラック900の存在は、例えば、以下に提供するように、記述ファイルにおいてシグナリングされてもよい。
【0097】
【0098】
図10に示されるように、sidx(セグメントインデックス)ボックス1002は、moofボックス1004とmdatボックス1006のペアへのポインタのリストを含んでもよい。各ペアは、例えば、図10に示されるようにサブセグメントを表示してもよい。moofボックス1004は、mdatボックス1006に存在するトラックをリスト化してもよい。
【0099】
図10は、DASHセグメント1008内のmdatボックスに記憶された品質情報の例を示す図である。品質情報は、サブセグメントレベルで追加されてもよい。例えば、品質トラック1010は、例えば、サブセグメントレベルでのビデオトラックの品質情報を要約することができる、mdatボックス1006において追加されてよい。品質情報は、mdatボックス1006の最初に現れてもよく、それによって、例えば、それを、クライアントによって容易に取り出すことができる。moofボックス1004は、品質トラック1010の存在を示すことができる、リスト1012を備えてもよい。mdatボックス1006における品質情報に対する例示的な構文が、以下に提供されてもよい。
【0100】
【0101】
品質情報は、フリースペース(例えば、freeまたはskip)ボックスに提供されてもよい。品質に関する情報は、MPEG DASHセグメント内のフリースペース(例えば、freeまたはskip)ボックス内に記憶されてもよい。例えば、フリースペースボックスのコンテンツは、プレゼンテーションに影響することなく、関係せず、および/または考慮されなくてもよい。freeまたはskipボックスは、トップレベルボックス(例えば、Movie Box mboxボックスおよび/またはMedia Data mdatボックスに対するピア)であってもよい。図11に示されるように、freeまたはskipボックスは、MPEG DASHセグメント1102におけるセグメントインデックスsidxボックス1100の後に、例えば、セグメントの先頭付近などに配置されてもよい。moofボックス1104および/もしくはmdatボックス1106のペアは、サブセグメントを表示してもよく、ならびに/または、MP4ファイルにおけるmoovおよび/もしくはmdatペアに対応してもよい。freeおよび/またはskipボックス1108は、セグメントの先頭付近に追加されてよく、それによって、例えば、それらは、セグメント全体をフェッチすることに先立ってアクセスされてもよい。
【0102】
freeおよび/またはskipボックス1108の存在は、例えば、以下に提供されるように、記述ファイルにおいてシグナリングされてもよい。
【0103】
【0104】
図11は、DASHセグメント1102内のfreeまたはskipボックス1108に記憶された品質情報の例を示す図である。例えば、freeおよび/またはskipボックス1108は、セグメントが作成される時間に追加されてよい。freeおよび/またはskipボックス1108が、セグメントが作成された後に追加される場合(例えば、あらかじめ作成されたDASHコンテンツにおいて)、sidxのサンプルテーブルで使用されるオフセットが再計算されてよい。
【0105】
freeおよび/またはskipボックス1108のフォーマットが定義されてもよい。例えば、セグメントインデックスファイルでの使用のために提案されるものと同様の構文が利用されてもよい。例示的な構文が以下に提供される。
【0106】
【0107】
本明細書で説明される特徴および要素は、HTTPライブストリーミング(HLS)および/または他のストリーミングシステムに適用されてもよい。セグメントに対する品質情報のシグナリングは、前もって追加されてよい。この情報は、いずれに要求および/または加入(subscribe)するためのストリームを選択するときに、クライアントによって使用されてもよい。
【0108】
品質に関する情報の追加は、品質に関する情報をマニフェストファイル(例えば、.mdpファイル)に含めることによって、品質に関する情報をセグメントインデックスファイル(例えば、MP4ファイルもしくはM4Sファイル)に記憶されたセグメントインデックスに含めることによって、ならびに/または、追加のファイルに品質/セグメント情報を提供し、およびMPDファイルからそれへのリンクを提供することによって、実現されてもよい。
【0109】
動的適応HTTPストリーミング(DASH)は、HTTPストリーミングに対するいくつかのアプローチを統合(consolidate)することができる標準である。MPEG DASHは、「3GP-DASH」の拡張であってよい。DASHは、無線および有線ネットワークにおける可変帯域幅に対処するために使用されてもよく、ならびにコンテンツプロバイダおよびデバイスによってサポートされてもよい。DASHは、任意のデバイスへの任意のアクセスネットワーク上で、マルチメディアストリーミングサービスを有効にしてもよい。
【0110】
図12は、DASHシステム1200の高レベルアーキテクチャの例を示す図である。DASHシステムは、適切なフォーマットで作成されているライブコンテンツおよび/またはオンデマンドコンテンツを配信することができる、HTTPサーバ1202のセットとして配置されてもよい。クライアントは、これらのHTTPサーバから、および/または、コンテンツ分配ネットワーク(CDN)1204から、直接コンテンツにアクセスしてもよい。CDNは、それらがコンテンツをキャッシュすることができ、およびネットワークの境界でクライアント付近に位置してもよいことから、多くの数のクライアントが予想される配置に使用されてよい。
【0111】
DASHでは、ストリーミングセッションは、HTTPを使用してセグメントを要求し、および、それらがコンテンツプロバイダおよび/またはCDN1204から受信されるときにそれらを一緒に接合する(splice)ことによって、クライアント1206によって制御されてもよい。クライアントは、ネットワーク状態(例えば、パケットエラーレート、遅延ジッタ)およびそれら自体の状態(例えば、バッファフルネス、ユーザ振舞い、選好(preference))に基づいてメディアレートを監視し、例えば継続的に監視し、および調整してもよく、ネットワークからクライアントへとインテリジェンスを効果的に機能させる(move)。
【0112】
DASH標準は、インフォマティブ(informative)クライアントモデルと同様であってよい。図13は、概念的なDASHクライアントモデル1300の論理コンポーネントの例である。DASHアクセスエンジンは、メディアプレゼンテーションディスクリプションファイル(MPD)を受信してもよい。DASHアクセスエンジン1302は、要求を構築および発行し、ならびにセグメントまたはセグメントの一部を受信してもよい。DASHアクセスエンジン1302の出力は、MPEGコンテナフォーマット(例えば、MP4ファイルフォーマットおよび/もしくはMPEG-2トランスポートストリーム)における媒体、ならびに/または、媒体の内部タイミング(internal timing)をプレゼンテーションのタイムラインにマッピングすることができるタイミング情報を備えてもよい。エンコードされた媒体のまとまり(chunk)、および/またはタイミング情報の組合せは、コンテンツの正確なレンダリングに対して十分であってもよい。
【0113】
DASHが、エンコードされたメディアセグメントに課す制約の一部は、デコーディング、後処理、および/または再生が、エンコードされたメディアセグメントの性質に関する情報、および/またはエンコードされたメディアセグメントがどのように配信されたかに関する情報を有さないことがあるメディアエンジン1304によって行われてもよい、という仮定に基づいている。メディアエンジン1304は、DASHアクセスエンジンによってまとまりで供給される連続メディアファイルを、デコードおよび再生してもよい。
【0114】
例えば、DASHアクセスエンジン1302は、JavaScript(登録商標)を使用してもよく、一方で、メディアエンジン1304は、ブラウザ、ブラウザプラグイン(限定はされないが、Flash(登録商標)またはSilverlight(登録商標)などの)、および/またはオペレーティングシステムによって提供されてもよい。
【0115】
図14は、DASHメディアプレゼンテーションの高レベルデータモデル1400の例を示す図である。DASHでは、マルチメディアプレゼンテーション1402の構成(organization)が、階層データモデルに基づいていてよい。メディアプレゼンテーションディスクリプション(MPD)は、DASHメディアプレゼンテーション(例えば、マルチメディアコンテンツ)を作成する期間1404のシーケンスを記述してもよい。期間1404は、メディアコンテンツのエンコードされたバージョンのセットが利用可能である、メディアコンテンツ期間を表示してもよい。例えば、利用可能なビットレート、言語、および/またはキャプション(caption)のセットは、期間1404の間、変化しなくてもよい。
【0116】
適応セット1406は、1または複数のメディアコンテンツコンポーネントの交換可能なエンコードされたバージョンのセットを表示してもよい。例えば、ビデオに対する、一次音声に対する1つ、二次音声に対する1つ、および/またはキャプションに対する1つの、適応セット1406があってもよい。多重送信の交換可能なバージョンが単一の適応セット1406として記述することができるケースでは、適応セット1406が多重化されてもよい。例えば、適応セット1406は、期間1406に対する、ビデオおよび/または音声を含んでもよい。
【0117】
レプレゼンテーション1408は、1または複数のメディアコンテンツコンポーネントの配信可能なエンコードされたバージョンを記述してもよい。レプレゼンテーション1408は、1または複数のメディアストリーム(例えば、多重送信における各メディアコンテンツコンポーネントに対する1つ)を備えてもよい。適応セット1406内の単一のレプレゼンテーション1408は、含まれるメディアコンテンツコンポーネントをレンダリングするのに十分であってもよい。クライアントは、ネットワーク状態または他の要因を適応させるために、適応セット1406内で、1つのレプレゼンテーション1408から別のレプレゼンテーション1408へと切り替えてもよい。クライアントは、クライアントがサポートしないコーデック、プロファイル、および/またはパラメータを使用するレプレゼンテーション1408を考慮しなくてもよい。レプレゼンテーション1408内のコンテンツは、固定または可変の長さのセグメント1410に、そのうち(in time)分割されてもよい。URLは、各セグメント1410に対して提供されてもよい。セグメント1410は、単一のHTTP要求で取り出すことができるデータの最大ユニットであってもよい。
【0118】
メディアプレゼンテーションディスクリプション(MPD)は、DASHクライアントによって使用することができるメタデータを備えたXMLドキュメントであってもよく、適切なHTTP-URLを構築して、セグメントにアクセスし、および/または、ユーザにストリーミングサービスを提供してもよい。MPDにおけるベースURLは、クライアントによって使用されて、メディアプレゼンテーションにおけるセグメントおよび他のリソースへのHTTP GET要求を生成してもよい。HTTP部分GET要求が使用されて、バイト範囲を使用することによって(例えば、「Range」HTTPヘッダを介して)セグメントの限定された部分にアクセスしてもよい。代替的なベースURLが指定されて、位置が利用可能でないケースにおいて、プレゼンテーションへのアクセスを可能にし、マルチメディアストリームの配信に冗長性を提供し、クライアント側の負荷分散および/または並列ダウンロードを可能にしてもよい。
【0119】
MPDは、タイプにおいて静的または動的であってもよい。静的なMPDタイプは、メディアプレゼンテーションの間に変化しても、しなくてもよく、および、オンデマンドプレゼンテーションに使用されてもよい。動的なMPDタイプは、メディアプレゼンテーションの間に更新されてもよく、および、ライブプレゼンテーションに使用されてもよい。MPDが更新されて、各レプレゼンテーションに対するセグメントのリストを拡張し、新たな期間を導入し、および/または、メディアプレゼンテーションを終了してもよい。
【0120】
DASHでは、異なるメディアコンテンツコンポーネント(例えば、ビデオ、音声)のエンコードされたバージョンは、共通のタイムラインを共有してもよい。メディアコンテンツ内のアクセス単位(access unit)のプレゼンテーション時間は、メディアプレゼンテーションタイムラインと称されてもよい、グローバルな共通プレゼンテーションタイムラインにマッピングされてもよい。このマッピングは、異なるメディアコンポーネントの同期を可能にし、および、同一のメディアコンポーネントの異なるコーディングされたバージョン(例えば、レプレゼンテーション)のシームレスな切り替えを促進することができる。
【0121】
セグメントは、実際のセグメント化されたメディアストリームを備えてもよい。それらは、切り替え、および/または他のレプレゼンテーションとの同期のプレゼンテーションのために、どのようにメディアストリームをメディアプレゼンテーションタイムラインにマッピングするかに関する情報を含んでもよい。
【0122】
セグメント可用性タイムライン(Segment Availability Timeline)が、指定されたHTTP URLにおいて、セグメントの可用性時間をクライアントにシグナリングするのに使用されてもよい。例えば、これらの時間は、実測時間(wall-clock time)で提供されてよい。指定されたHTTP URLにおいてセグメントにアクセスする前に、クライアントは、実測時間とセグメント可用性時間と比較してもよい。オンデマンドコンテンツに対し、セグメントの可用性時間は、同一であってよい。セグメントが利用可能になると、メディアプレゼンテーションのセグメントは、サーバ上で利用可能であってよい。MPDは、静的ドキュメントであってもよい。
【0123】
ライブコンテンツに対し、セグメントの可用性時間は、メディアプレゼンテーションタイムライン(Media Presentation Timeline)におけるセグメントの位置に依存してよい。セグメントは、コンテンツが生成されるときの時間に利用可能となってもよい。MPDは、周期的に更新されて、プレゼンテーションにおける変化を経時的に反映してもよい。例えば、新たなセグメントに対するセグメントURLが、MPDに追加されてもよい。もはや利用可能ではない旧セグメントは、MPDから除去されてもよい。MPDを更新することは、セグメントURLがテンプレートを使用して記述される場合には、省略されてもよい。
【0124】
セグメントの存続時間は、通常の速度で提示されるときの、セグメントに含まれるメディアの存続時間を表示してもよい。レプリゼンテーション(Representation)におけるセグメントは、同一、またはほぼ同一の存続時間を有してよい。セグメント存続時間は、レプリゼンテーションからレプリゼンテーションへと異なってもよい。DASHプレゼンテーションは、比較的短いセグメント(例えば、数秒)、または全体的なレプリゼンテーションに対する単一セグメントを含む、より長いセグメントで構築されてよい。
【0125】
ショートセグメントは、ライブコンテンツに適切であってよく(例えば、エンドツーエンドの待ち時間を削減することによって)、およびセグメントレベルでの高い切り替え粒度を可能にする。スモールセグメントは、プレゼンテーションにおけるファイルの数を増大させることがある。ロングセグメントは、プレゼンテーションにおけるファイルの数を削減することによって、キャッシュ性能を改善させることがある。ロングセグメントは、クライアントが、要求サイズを可変(flexible)にすることを可能にする(例えば、バイト範囲要求を使用することによって)。ロングセグメントを使用することは、セグメントインデックスを使用することを含んでもよく、および、ライブイベントにはより適切でないことがある。セグメントは、経時的に拡大されてもよく、またはされなくてもよい。セグメントは、その全体において利用可能にすることができる、完全かつ別個のユニットであってもよい。
【0126】
セグメントは、サブセグメントにさらに分割されてもよい。各サブセグメントは、整数の完全なアクセス単位を備えてもよい。アクセス単位は、割り当てられたメディアプレゼンテーション時間を有するメディアストリームの単位であってもよい。セグメントがサブセグメントに分割される場合、これらは、セグメントインデックスによって記述されてもよい。セグメントインデックスは、レプレゼンテーションにおけるプレゼンテーション時間範囲と、各サブセグメントによって占有されるセグメントにおける対応するバイト範囲とを提供してもよい。クライアントは、このインデックスを事前にダウンロードし、および、例えば、HTTP部分GET要求を使用して、個々のサブセグメントに対する要求を発行してもよい。セグメントインデックスは、例えば、ファイルの先頭において、メディアセグメントに含まれてもよい。セグメントインデックス情報は、別々のインデックスセグメントにおいて提供されてもよい。
【0127】
DASHは、例えば、限定はされないが、初期化セグメント、メディアセグメント、インデックスセグメント、および/またはビットストリームスイッチングセグメントを含む、いくつかのタイプのセグメントを定義してもよい。初期化セグメントは、レプレゼンテーションにアクセスするための初期化情報を含んでもよい。初期化セグメントは、割り当てられたプレゼンテーションj巻を有するメディアデータを含んでもよく、または含まなくてもよい。概念上、初期化セグメントは、クライアントによって処理されて、レプレゼンテーションを含むことのメディアセグメントのプレイアウト(play-out)を可能にするための、メディアエンジンを初期化してもよい。
【0128】
メディアセグメントは、メディアセグメント内で記述され、および/またはレプレゼンテーションの初期化セグメントによって記述されるかのいずれかの、メディアストリームを備えてもよく、およびメディアストリームをカプセル化してもよい。メディアセグメントは、いくつかの完全なアクセス単位を備えてもよく、および、含まれるメディアストリームの各々に対する少なくとも1つのストリームアクセスポイント(SAP)を備えてもよい。
【0129】
インデックスセグメントは、メディアセグメントに関する情報を備えてもよい。インデックスセグメントは、メディアセグメントに対するインデックス情報を備えてもよい。インデックスセグメントは、1または複数のメディアセグメントに対する情報を提供してもよい。インデックスセグメントは、メディアフォーマット固有であってよく、および、詳細は、インデックスセグメントをサポートする各メディアフォーマットに対して定義されてもよい。
【0130】
ビットストリームスイッチングセグメントは、それが割り当てられるレプレゼンテーションに切り替えるためのデータを備えてもよい。ビットストリームスイッチングセグメントは、メディアフォーマット固有であってよく、および、詳細は、ビットストリームスイッチングセグメントを許可するメディアフォーマットに対して定義されてもよい。1つのビットストリームスイッチングセグメントは、各レプレゼンテーションに対して定義されてもよい。
【0131】
クライアントは、メディアにおける任意のポイントで、適応セット内のレプリゼンテーションからレプリゼンテーションへと切り替えてもよい。随意の位置における切り替えは、レプリゼンテーション内のコーディング依存性および他の要因のために、複雑であることがある。オーバーラップするデータのダウンロード(例えば、複数のレプリゼンテーションからの同一の期間に対するメディア)は、回避されてもよい。切り替えは、新たなストリームにおいて、ランダムアクセスポイントでより単純であってもよい。DASHは、ストリームアクセスポイント(SAP)のコーデック独立の概念(codec-independent concept)を定義し、および種々のタイプのストリームアクセスポイントを識別してもよい。ストリームアクセスポイントタイプは、適応セットのプロパティの1つとして通信されてもよい(例えば、適応セット内のすべてのセグメントが同一のSAPタイプを有することを想定して)。
【0132】
ストリームアクセスポイント(SAP)は、1または複数のメディアストリームのファイルコンテナへのランダムアクセスを可能にしてもよい。SAPは、その位置から前方に(onward)開始するコンテナに含まれる情報、および/または、コンテナの別の部分もしくは他の部分からの考えられる(possible)初期化データを使用して、識別されたメディアストリームの再生が開始されるのを可能にする、コンテナにおける位置であってよい。初期化データは、外部で利用可能であってもよい。
【0133】
いくつかのファイルコンテナプロパティが定義されてもよい。TSAPは、プレゼンテーション時間、例えば、TSAP以上のプレゼンテーション時間を有するメディアストリームのすべてのアクセス単位が、ISAPにおいて開始するビットストリームにおけるデータを使用して、およびISAPよりも前のデータなしで、適正にデコードされるような、メディアストリームのアクセス単位の最早プレゼンテーション時間であってもよい。
【0134】
SAPは、TSAP以上のプレゼンテーション時間を有するメディアストリームのアクセス単位が、ISAPにおいて開始するビットストリームデータを使用して、およびISAPよりも前に開始するデータで、もしくはISAPよりも前に開始するデータなしで、適正にデコードされるような、ビットストリームにおける位置であってよい。
【0135】
SAUは、TSAP以上のプレゼンテーション時間を有するメディアストリームのアクセス単位が、この最遅アクセス単位、およびデコード順序において続くアクセス単位を使用して、かつデコード順序におけるより早いアクセス単位なしで、適正にデコードされるような、メディアストリーム内のデコード順序における最遅アクセス単位のビットストリームにおける開始位置であってよい。
【0136】
DECは、ISAUにおいて開始するビットストリームにおけるデータを使用して、およびISAUよりも前に開始するデータで、もしくはISAUよりも前に開始するデータなしで、適正にデコードすることができる、メディアストリームのアクセス単位の最早プレゼンテーション時間であってもよい。TEPTは、ビットストリームにおいて、ISAUにおいて開始するメディアストリームのアクセス単位の最早プレゼンテーション時間であってもよい。TPTFは、ISAUにおいて開始するビットストリームにおけるデコード順序においてメディアストリームの最初のアクセス単位のプレゼンテーション時間であってもよい。
【0137】
図15は、パラメータを有するストリームアクセスポイントの例である。図15は、3つの異なるタイプのフレーム、I、P、およびBでエンコードされたビデオストリーム1500を示す。Pフレームは、デコードされることになる前のIまたはPフレームを利用してもよく(例えば、単に利用する)、一方Bフレームは、前後のIおよび/またはPフレームを利用してもよい。I、P、および/もしくはBフレームにおける送信、デコード、ならびに/またはプレゼンテーション順序は、異なってもよい。
【0138】
SAPのタイプは、どのアクセス単位が適正にデコード可能であるか、および/または、プレゼンテーション順序におけるそれらの配列に依存してよい。6つのSAPタイプの例が、本明細書で説明される。TEPT=TDEC=TSAP=TPFTである1つのタイプは、「クローズドGoPランダムアクセスポイント」(Closed GoP random access point)として知られるものに対応してもよい。ISAPから開始するアクセス単位(デコード順序で)が、適正にデコードされてもよい。結果は、途切れのない(no gap)適正にデコードされたアクセス単位の連続的な時間シーケンスであってもよい。デコード順序における最初のアクセス単位が、プレゼンテーション順序における最初のアクセス単位であってもよい。
【0139】
別のSAPタイプにおいては、TEPT=TDEC=TSAP<TPFTである。このSAPタイプは、ISAUから開始するメディアストリームにおけるデコード順序における最初のアクセス単位が、プレゼンテーション順序における最初のアクセス単位でないことがある、「クローズドGoPランダムアクセスポイント」として知られるものに対応してもよい。例えば、最初の2つのフレームは、後方に予測されるPフレーム(構文的には、H.264および一部の他のコーデックにおいて前方のみBフレーム(forward-only B-frames)としてコーディングされてもよい)であってよく、および/または、それらはデコードされることになる第3のフレームを必要としてもよく、もしくは必要としなくてもよい。
【0140】
別のSAPタイプにおいては、TEPT<TDEC=TSAP≦TPTFである。このSAPタイプは、「オープンGoPランダムアクセスポイント」(Open GoP random access point)として知られるものに対応してもよく、ここでは、適正にデコーディングされないことがあり、および/または、TSAP未満のプレゼンテーションタイムを有することがある、ISAUに続くデコード順序においていくつかのアクセス単位があってもよい。
【0141】
別のSAPタイプにおいては、TEPT≦TPFT<TDEC=TSAPである。このSAPタイプは、「グラジュアルデコーディングリフレッシュ(GDR)ランダムアクセスポイント」(Gradual decoding Refresh (GDR) random access point)または「ダーティ」(dirty)ランダムアクセスとして知られるものに対応してもよく、ここでは、適正にデコーディングされないことがあり、および/または、TSAPに満たないプレゼンテーションタイムを有することがある、ISAUから開始し、およびISAUに続くデコード順序においていくつかのアクセス単位があってもよい。GDRの1つの例示的なケースは、イントラMBでコーディングされるフレームの一部を有するN個のフレーム上で拡張することができる、イントラリフレッシングプロセス8intra refreshing process)であってもよい。オーバーラップしない部分は、N個のフレームにわたってイントラコーディング(intra coded across N frames)されてもよい。このプロセスは、全フレームがリフレッシュされるまで繰り返されてもよい。
【0142】
別のSAPタイプにおいては、TEPT=TDEC<TSAPである。このSAPタイプは、適正にデコーディングされないことがあり、TDECよりも大きいプレゼンテーション時間を有することがあり、および/または、TDECがISAUから開始するアクセス単位の最早プレゼンテーション時間であることがある、ISAPから開始するデコード順序において少なくとも1つのアクセス単位があるケースに対応してもよい。
【0143】
別のSAPタイプにおいては、TEPT<TDEC<TSAPである。このSAPタイプは、適正にデコーディングされないことがあり、TDECよりも大きいプレゼンテーション時間を有することがあり、および/または、TDECがISAUから開始するアクセス単位の最早プレゼンテーション時間ではないことがある、ISAPから開始するデコード順序において少なくとも1つのアクセス単位があるケースに対応してもよい。
【0144】
DASHのプロファイルは、機能の使用の相互運用性およびシグナリングを可能にするように定義されてもよい。プロファイルは、制限のセットを課してもよい。これらの制限は、メディアプレゼンテーションディスクリプション(MPD)文書の機能上、および/またはセグメントフォーマット上にあってもよい。制限は、限定はされないが、メディアコンテンツタイプ、メディアフォーマット、コーデック、および/もしくは保護フォーマット上などのセグメント内の配信されるコンテンツ上、ならびに/または、限定はされないが、ビットレート、セグメント存続時間とサイズ、および/もしくは、水平・垂直ビジュアルプレゼンテーションサイズなどの定量的測定(quantitative measures)上にあってもよい。
【0145】
例えば、DASHは、図16に示されるいくつかのプロファイルを定義してもよい。プロファイルは、セグメントに使用されるファイルコンテナのタイプに基づいて、2つのカテゴリに編成されてもよい。3つのプロファイル1600、1602、1604は、ISOベースメディアファイルコンテナを使用してもよく、2つのプロファイル1606、1608は、MPEG-2トランスポートストリーム(TS)ベースのファイルコンテナを使用することができ、および1つのプロファイル1610は、両方のファイルコンテナタイプをサポートしてもよい。いずれのコンテナタイプも、コーデック独立であってもよい。
【0146】
オンデマンドプロファイル1602のISOベースメディアファイルフォーマットは、オンデマンドコンテンツに対する基本的なサポートを提供してもよい。オンデマンドプロファイル1602の制約は、各レプリゼンテーションが単一セグメントとして提供され、サブセグメントが適応セット内のレプリゼンテーションにわたって調節され、および/または、サブセグメントがストリームアクセスポイントで開始されることであってもよい。オンデマンドプロファイル1602は、比較的わずかなコンテンツ管理で、大規模なビデオオンデマンド(VoD)ライブラリをサポートしてもよい。オンデマンドプロファイル1602は、HTTPサーバのスケーラブルかつ効率的な使用を許可してもよく、およびシームレスな切り替えを単純化してもよい。
【0147】
ISOベースメディアファイルフォーマットライブプロファイル1604は、比較的短い存続時間を有する、ISOファイルフォーマットの単一ムービーフラグメントからなるセグメントの、ライブエンコーディングおよび/または低待ち時間の配信に対して最適化されてもよい。各ムービーフラグメントは、利用可能なときに要求されてもよい。これは、例えば、テンプレート生成URLを使用して実現されてもよい。MPD更新に対する要求は、一部のセグメント要求に対して省略されてもよい。セグメントは、それらがセグメント境界上で連結され、ならびにメディアデータにおいて途切れおよび/またはオーバーラップなしにデコーディングされるように、制約されてよい。これは、適応セットにおけるレプリゼンテーションの適応切り替えに関係なくてもよい。このプロファイル1604は、非ライブコンテンツを分配するのに使用されてもよい。例えば、ライブメディアプレゼンテーションが終了し、しかし、オンデマンドサービスとして利用可能のままでいるときに、ライブプロファイル1604が使用されてもよい。ISOベースメディアファイルフォーマットメインプロファイル1600は、ISOベースメディアファイルフォーマットオンデマンドプロファイル1602およびライブプロファイル1604のスーパーセットであってもよい。
【0148】
MPEG-2 TSメインプロファイル1606は、MPEG-2トランスポートストリーム(TS)コンテンツに対するメディアセグメントフォーマットに、わずかな制約を課してもよい。例えば、レプリゼンテーションは多重化されてもよく、そのため、クライアントにおけるメディアストリーム(音声、ビデオ)をバインディングすることは要求されなくてもよい。例えば、セグメントは、整数のMPEG-2TSパケットを含んでもよい。例えば、インデキシングおよびセグメント調節が、推奨されてよい。HTTPライブストリーミング(HLS)コンテンツは、HLSメディアプレゼンテーション記述(.m3u8)をDASH MPDに変換することによって、このプロファイル1606と統合されてもよい。
【0149】
MPEG-2TSシンプルプロファイル1608は、MPEG-2TSメインプロファイル1606のサブセットであってよい。それは、シームレスな切り替えのシンプルな実装を可能にするために、コンテンツのエンコーディングおよび多重化に、より多くの制限を課してもよい。シームレスなスイッチングは、ISO/IEC13818-1(MPEG-2システム)に準拠するメディアエンジンが、同一の適応セット内の任意のレプリゼンテーションからの連続するセグメントを連結する(concatenate)ことによって生成されたあらゆるビットストリームを再生することを保証することによって、達成されてもよい。フルプロファイル1610は、ISOベースメディアファイルフォーマットメインプロファイル1600およびMPEG-2TSメインプロファイル1606のスーパーセットであってよい。
【0150】
図17は、ブロックベースのビデオエンコーダ、例えば、ハイブリッドビデオエンコーディングシステムの例を示すブロック図である。入力ビデオ信号1702は、ブロックごとに処理されてよい。ビデオブロックユニットは、16×16画素を含んでもよい。そのようなブロックユニットは、マクロブロック(MB)と称されてもよい。高効率ビデオコーディング(HEVC)において、拡大されたブロックサイズ(例えば、「コーディングユニット」またはCUと称されてもよい)が使用されて、高分解能(例えば、1080p以上)ビデオ信号を効率的に圧縮することができる。HEVCにおいて、CUは、最大64×64画素(up to 64x64)であってもよい。CUは、別々の予測方法を適用することができる予測ユニット(PU)に区分されてもよい。
【0151】
入力ビデオブロック(例えば、MBまたはCU)に対し、空間予測1760および/または時間予測1762が実行されてもよい。空間予測(例えば、「イントラ予測」)は、同一のビデオピクチャ/スライスにおける既にコーディングされた近傍ブロックからの画素を使用して、現在のビデオブロックを予測してもよい。空間予測は、ビデオ信号における本来の空間冗長性を削減することができる。時間予測(例えば、「インター予測」または「動き補償予測」)は、既にコーディングされたビデオピクチャ(例えば、「参照ピクチャ」と称されてもよい)からの画素を使用して、現在のビデオブロックを予測してもよい。時間予測は、ビデオ信号における本来の時間冗長性を削減することができる。ビデオブロックに対する時間予測信号は、参照ピクチャにおいて現在のブロックとその予測ブロックとの間の動きの量および/または方向を示すことができる、1または複数の動きベクトルによってシグナリングされてもよい。(例えば、H.264/AVCおよび/またはHEVCの場合に当てはまることがあるように)多数の参照ピクチャがサポートされる場合、ビデオブロックごとに、その参照ピクチャインデックスが追加的に送信されてもよい。参照インデックスが使用されて、時間予測信号が参照ピクチャストア1764(例えば「デコーディングされたピクチャバッファ」またはDPBと称されてもよい)におけるどの参照ピクチャからであるかを識別してもよい。
【0152】
空間および/または時間予測の後で、エンコーダにおけるモード決定ブロック1780は、予測モードを選択してもよい。予測ブロックは、現在のビデオブロック1716から減算されてもよい。予測残差は、変換(1704)および/または量子化(1706)されてもよい。量子化された残差係数は、逆量子化(1710)および/または逆変換(1712)されて、再構築された残差を形成してもよく、それが予測ブロック1726に再度、追加されて、再構築されたビデオブロックを形成してもよい。
【0153】
限定はされないが、デブロッキングフィルタ、サンプル適応オフセット、および/または適応ループフィルタなどのインループフィルタリングは、それが参照ピクチャストア1764に入れられ、および/または、未来のビデオブロックをコード化するために使用される前に、再構築されたビデオブロックに適用されてもよい(1766)。出力ビデオビットストリーム1720を形成するために、コーディングモード(例えば、インター予測モードまたはイントラ予測モード)、予測モード情報、動き情報、および/または量子化された残差係数が、圧縮および/またはパッキングされるためにエントロピーコーディングユニット1708に送信されて、ビットストリームを形成してもよい。
【0154】
図18は、ブロックベースのビデオデコーダの例を示すブロック図である。ビデオビットストリーム1802は、エントロピデコーディングユニット1808で、アンパックおよび/またはエントロピデコーディングされてもよい。コーディングモード、および/または予測情報は、空間予測ユニット1860(例えば、イントラコード化される場合)、および/または時間予測ユニット1862(例えば、インターコード化される場合)に送信されて、予測ブロックを形成してもよい。インターコード化される場合、予測情報は、予測ブロックサイズ、1もしくは複数の動きベクトル(例えば、動きの方向および量を示すことができる)、ならびに/または、1もしくは複数の参照インデックス(例えば、どの参照ピクチャから予測信号が取得されることになるかを示すことができる)を含んでもよい。
【0155】
動き補償予測は、時間予測ユニット1862によって適用されて、時間予測ブロックを形成してもよい。残差変換係数が、逆量子化ユニット1810および逆変換ユニット1812に送信されて、残差ブロックを再構築してもよい。予測ブロックおよび残差ブロックは、1826で一緒に追加されてもよい。再構築されたブロックは、それが参照ピクチャストア1864に記憶される前に、インループフィルタリングを通過してもよい。参照ピクチャストア1864における再構築されたビデオは、ディスプレイデバイスを駆動するために使用されてもよい、および/または未来のビデオブロックを予測するために使用されてもよい。
【0156】
単一レイヤのビデオエンコーダは、単一ビデオシーケンス入力を取り、単一レイヤのデコーダに送信される単一の圧縮されたビットストリームを生成してもよい。ビデオコーデックは、デジタルビデオサービス(例えば、限定はされないが、衛星、ケーブル、および地上送信チャネル上でTV信号を送信することなど)のために、設計されてもよい。異機種環境において展開されるビデオ中心の(centric)アプリケーションで、マルチレイヤのビデオコーディング技術が、ビデオコーディング標準の拡張として展開されて、さまざまなアプリケーションを有効にすることができる。例えば、スケーラブルなビデオコーディング技術が設計されて、2以上のビデオレイヤを取り扱うことができ、そこでは、各レイヤがデコーディングされて、特定の空間分解能、時間分解能、忠実度、および/またはビュー(view)のビデオ信号を再構築してもよい。本明細書で説明される概念のいずれも、例えば、図17および図18を参照して説明されるエンコーダおよび/またはデコーダによって実行されてもよい。さらに、単一レイヤのエンコーダおよびデコーダが図17および図18を参照して説明されるが、本明細書で説明される概念は、例えば、マルチレイヤまたはスケーラブルなコーディング技術のためのマルチレイヤのエンコーダおよびデコーダを利用してもよい。
【0157】
上で説明されたプロセスは、コンピュータおよび/またはプロセッサによる実行のためのコンピュータ可読メディアに組み込まれた、コンピュータプログラム、ソフトウェア、および/またはファームウェアにおいて実装されてもよい。コンピュータ可読媒体の例は、(有線および/もしくは無線接続上で送信される)電子信号、ならびに/またはコンピュータ可読記憶媒体を含むが、限定はされない。コンピュータ可読記憶媒体の例は、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、限定はされないが内部ハードディスクおよびリムーバブルディスクなどの磁気媒体、磁気光学媒体、ならびに/または、CD-ROMディスク、および/もしくはデジタル多用途ディスク(DVD)などの光学媒体を含むが、それらに限定はされない。ソフトウェアと関連してプロセッサが使用されて、WTRU、ユーザ装置(UE)、端末、基地局、RNC、および/または任意のホストコンピュータにおいて使用するための無線周波数トランシーバを実装してもよい。
図1A
図1B
図1C
図1D
図1E
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18