(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0014】
説明的な実施形態の詳細な説明が、様々な図を参照して今から行われる。この説明は可能な実施の詳細な例を提供するが、詳細は例示的なものであり、決して本出願の範囲を限定するものではないことが意図されていることに留意されたい。
【0015】
図1Aは、1または複数の開示される実施形態が実施される例示的な通信システム100の図である。通信システム100は、音声、データ、ビデオ、メッセージング、放送などのコンテンツを複数の無線ユーザに提供する、多元接続システムである。通信システム100は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共用を通して、そのようなコンテンツにアクセスすることを可能にする。例えば、通信システム100は、符号分割多元接続(CDMA)、時分割多元接続(TDMA)、周波数分割多元接続(FDMA)、直交FDMA(OFDMA)、およびシングルキャリアFDMA(SC−FDMA)など、1または複数のチャネルアクセス方法を利用する。
【0016】
図1Aに示されるように、通信システム100は、(一般にまたは一括してWTRU102と呼ばれる)無線送信/受信ユニット(WTRU)102a、102b、102c、および/または102d、無線アクセスネットワーク(RAN)103/104/105、コアネットワーク106/107/109、公衆交換電話網(PSTN)108、インターネット110、ならびに他のネットワーク112を含むが、開示される実施形態は、任意の数のWTRU、基地局、ネットワーク、および/またはネットワーク要素を企図していることが理解される。WTRU102a、102b、102c、102dの各々は、無線環境において動作および/または通信するように構成された任意のタイプのデバイスである。例を挙げると、WTRU102a、102b、102c、102dは、無線信号を送信および/または受信するように構成され、ユーザ機器(UE)、移動局、固定もしくは移動加入者ユニット、ページャ、セルラ電話、携帯情報端末(PDA)、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、家電製品などを含む。
【0017】
通信システム100は、基地局114aおよび基地局114bも含む。基地局114a、114bの各々は、コアネットワーク106/107/109、インターネット110、および/またはネットワーク112などの1または複数の通信ネットワークへのアクセスを容易にするために、WTRU102a、102b、102c、102dの少なくとも1つと無線でインターフェースを取るように構成された、任意のタイプのデバイスである。例を挙げると、基地局114a、114bは、基地トランシーバ局(BTS)、ノードB、eノードB、ホームノードB、ホームeノードB、サイトコントローラ、アクセスポイント(AP)、および無線ルータなどである。基地局114a、114bは各々、単一の要素として示されているが、基地局114a、114bは、任意の数の相互接続された基地局および/またはネットワーク要素を含むことが理解される。
【0018】
基地局114aはRAN103/104/105の部分であり、RANは他の基地局、および/または基地局コントローラ(BSC)、無線ネットワークコントローラ(RNC)、中継ノードなどのネットワーク要素(図示されず)も含む。基地局114aおよび/または基地局114bは、セル(図示されず)と呼ばれる特定の地理的領域内で、無線信号を送信および/または受信するように構成される。セルは、さらにセルセクタに分割される。例えば、基地局114aに関連付けられたセルは、3つのセクタに分割される。したがって、一実施形態では、基地局114aは、送受信機を3つ、例えば、セルのセクタ毎に1つずつ含む。別の実施形態では、基地局114aは、多入力多出力(MIMO)技術を利用し、したがって、セルのセクタ毎に複数の送受信機を利用する。
【0019】
基地局114a、114bは、エアインターフェース115/116/117の上で、WTRU102a、102b、102c、102dの1または複数と通信し、エアインターフェースは、任意の適切な無線通信リンク(例えば、無線周波(RF)、マイクロ波、赤外線(IR)、紫外線(UV)、可視光など)である。エアインターフェース115/116/117は、任意の適切な無線アクセス技術(RAT)を使用して確立される。
【0020】
より具体的には、上述したように、通信システム100は、多元接続システムであり、CDMA、TDMA、FDMA、OFDMA、およびSC−FDMAなどの、1または複数のチャネルアクセス方式を利用する。例えば、RAN103/104/105内の基地局114a、およびWTRU102a、102b、102cは、広帯域CDMA(WCDMA(登録商標))を使用してエアインターフェース115/116/117を確立する、ユニバーサル移動体通信システム(UMTS)地上無線アクセス(UTRA)などの無線技術を実施する。WCDMAは、高速パケットアクセス(HSPA)および/または進化型HSPA(HSPA+)などの通信プロトコルを含む。HSPAは、高速ダウンリンクパケットアクセス(HSDPA)および/または高速アップリンクパケットアクセス(HSUPA)を含む。
【0021】
別の実施形態では、基地局114a、およびWTRU102a、102b、102cは、ロングタームエボリューション(LTE)および/またはLTEアドバンスト(LTE−A)を使用してエアインターフェース115/116/117を確立する、進化型UMTS地上無線アクセス(E−UTRA)などの無線技術を実施する。
【0022】
他の実施形態では、基地局114a、およびWTRU102a、102b、102cは、IEEE802.16(例えば、マイクロ波アクセス用の世界的相互運用性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV−DO、暫定標準2000(IS−2000)、暫定標準95(IS−95)、暫定標準856(IS−856)、移動体通信用グローバルシステム(GSM(登録商標))、GSMエボリューション用の高速データレート(EDGE)、およびGSM EDGE(GERAN)などの無線技術を実施する。
【0023】
図1Aの基地局114bは、例えば、無線ルータ、ホームノードB、ホームeノードB、またはアクセスポイントであり、職場、家庭、乗物、およびキャンパスなどの局所的エリアにおける無線接続性を容易にするために、任意の適切なRATを利用する。一実施形態では、基地局114b、およびWTRU102c、102dは、IEEE802.11などの無線技術を実施して、無線ローカルエリアネットワーク(WLAN)を確立する。別の実施形態では、基地局114b、およびWTRU102c、102dは、IEEE802.15などの無線技術を実施して、無線パーソナルエリアネットワーク(WPAN)を確立する。また別の実施形態では、基地局114b、およびWTRU102c、102dは、セルラベースのRAT(例えば、WCDMA、CDMA2000、GSM、LTE、LTE−Aなど)を利用して、ピコセルまたはフェムトセルを確立する。
図1Aに示されるように、基地局114bは、インターネット110への直接的な接続を有する。したがって、基地局114bは、コアネットワーク106/107/109を介して、インターネット110にアクセスする必要がない。
【0024】
RAN103/104/105は、コアネットワーク106/107/109と通信し、コアネットワーク106/107/109は、音声、データ、アプリケーション、および/またはボイスオーバインターネットプロトコル(VoIP)サービスをWTRU102a、102b、102c、102dの1または複数に提供するように構成された、任意のタイプのネットワークである。例えば、コアネットワーク106/107/109は、呼制御、請求サービス、モバイルロケーションベースのサービス、プリペイド通話、インターネット接続性、ビデオ配信などを提供し、および/またはユーザ認証など、高レベルのセキュリティ機能を実行する。
図1Aには示されていないが、RAN103/104/105および/またはコアネットワーク106/107/109は、RAN103/104/105と同じRATまたは異なるRATを利用する他のRANと直接的または間接的に通信することが理解される。例えば、E−UTRA無線技術を利用するRAN103/104/105に接続するのに加えて、コアネットワーク106/107/109は、GSM無線技術を利用する別のRAN(図示されず)とも通信する。
【0025】
コアネットワーク106/107/109は、PSTN108、インターネット110、および/または他のネットワーク112にアクセスするための、WTRU102a、102b、102c、102dのためのゲートウェイとしてもサービスする。PSTN108は、基本電話サービス(POTS)を提供する回路交換電話網を含む。インターネット110は、TCP/IPインターネットプロトコルスイート内の伝送制御プロトコル(TCP)、ユーザデータグラムプロトコル(UDP)、およびインターネットプロトコル(IP)など、共通の通信プロトコルを使用する、相互接続されたコンピュータネットワークとデバイスとからなるグローバルシステムを含む。ネットワーク112は、他のサービスプロバイダによって所有および/または運営される有線または無線通信ネットワークを含む。例えば、ネットワーク112は、RAN103/104/105と同じRATまたは異なるRATを利用する1または複数のRANに接続された、別のコアネットワークを含む。
【0026】
通信システム100内のWTRU102a、102b、102c、102dのいくつかまたはすべては、マルチモード機能を含み、例えば、WTRU102a、102b、102c、102dは、異なる無線リンクの上で異なる無線ネットワークと通信するための複数の送受信機を含む。例えば、
図1Aに示されたWTRU102cは、セルラベースの無線技術を利用する基地局114aと通信するように構成され、またIEEE802無線技術を利用する基地局114bと通信するように構成される。
【0027】
図1Bは、例示的なWTRU102のシステム図である。
図1Bに示されるように、WTRU102は、プロセッサ118と、送受信機120と、送信/受信要素122と、スピーカ/マイクロフォン124と、キーパッド126と、ディスプレイ/タッチパッド128と、着脱不能メモリ130と、着脱可能メモリ132と、電源134と、全地球測位システム(GPS)チップセット136と、他の周辺機器138とを含む。WTRU102は、一実施形態との整合性を保ちながら、上記の要素の任意のサブコンビネーションを含むことが理解される。また、実施形態は、基地局114a、114b、および/または、基地局114a、114bが表すノード、とりわけ、それらに限定されないが、送受信機局(BTS)、ノードB、サイトコントローラ、アクセスポイント(AP)、ホームノードB、進化型ホームノードB(eNodeB)、ホーム進化型ノードB(HeNB)、ホーム進化型ノードBゲートウェイ、およびプロキシノードなどが、
図1Bに示され、本明細書で説明される要素のいくつかまたはすべてを含むことを企図している。
【0028】
プロセッサ118は、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ(DSP)、複数のマイクロプロセッサ、DSPコアと連携する1または複数のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)回路、他の任意のタイプの集積回路(IC)、および状態機械などである。プロセッサ118は、信号符号化、データ処理、電力制御、入出力処理、および/またはWTRU102が無線環境で動作することを可能にする他の任意の機能を実行する。プロセッサ118は、送受信機120に結合され、送受信機120は、送信/受信要素122に結合される。
図1Bは、プロセッサ118と送受信機120を別々のコンポーネントとして示しているが、プロセッサ118と送受信機120は、電子パッケージまたはチップ内に一緒に統合されることが理解される。
【0029】
送信/受信要素122は、エアインターフェース115/116/117の上で、基地局(例えば、基地局114a)に信号を送信し、または基地局から信号を受信するように構成される。例えば、一実施形態では、送信/受信要素122は、RF信号を送信および/または受信するように構成されたアンテナである。別の実施形態では、送信/受信要素122は、例えば、IR、UV、または可視光信号を送信および/または受信するように構成された放射器/検出器である。また別の実施形態では、送信/受信要素122は、RF信号と光信号の両方を送信および受信するように構成される。送信/受信要素122は、無線信号の任意の組み合わせを送信および/または受信するように構成されることが理解される。
【0030】
加えて、
図1Bでは、送信/受信要素122は単一の要素として示されているが、WTRU102は、任意の数の送信/受信要素122を含む。より具体的には、WTRU102は、MIMO技術を利用する。したがって、一実施形態では、WTRU102は、エアインターフェース115/116/117の上で無線信号を送信および受信するための2つ以上の送信/受信要素122(例えば、複数のアンテナ)を含む。
【0031】
送受信機120は、送信/受信要素122によって送信される信号を変調し、送信/受信要素122によって受信された信号を復調するように構成される。上述したように、WTRU102は、マルチモード機能を有する。したがって、送受信機120は、WTRU102が、例えば、UTRAおよびIEEE802.11などの複数のRATを介して通信することを可能にするための複数の送受信機を含む。
【0032】
WTRU102のプロセッサ118は、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128(例えば、液晶表示(LCD)ディスプレイユニットもしくは有機発光ダイオード(OLED)ディスプレイユニット)に結合され、それらからユーザ入力データを受け取る。プロセッサ118はまた、スピーカ/マイクロフォン124、キーパッド126、および/またはディスプレイ/タッチパッド128にユーザデータを出力する。加えて、プロセッサ118は、着脱不能メモリ130および/または着脱可能メモリ132など、任意のタイプの適切なメモリから情報を入手し、それらにデータを記憶する。着脱不能メモリ130は、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、ハードディスク、または他の任意のタイプのメモリ記憶デバイスを含む。着脱可能メモリ132は、加入者識別モジュール(SIM)カード、メモリスティック、およびセキュアデジタル(SD)メモリカードなどを含む。他の実施形態では、プロセッサ118は、サーバまたはホームコンピュータ(図示されず)などのWTRU102上に物理的に配置されてないメモリから情報を入手し、および該メモリにデータを記憶する。
【0033】
プロセッサ118は、電源134から電力を受け取り、WTRU102内の他のコンポーネントへの電力の分配および/または制御を行うように構成される。電源134は、WTRU102に給電するための任意の適切なデバイスである。例えば、電源134は、1または複数の乾電池(例えば、ニッケル−カドミウム(NiCd)、ニッケル−亜鉛(NiZn)、ニッケル水素(NiMH)、リチウムイオン(Li−ion)など)、太陽電池、および燃料電池などを含む。
【0034】
また、プロセッサ118は、GPSチップセット136に結合され、GPSチップセット136は、WTRU102の現在位置に関する位置情報(例えば、経度および緯度)を提供するように構成される。GPSチップセット136からの情報に加えて、またはその代わりに、WTRU102は、基地局(例えば、基地局114a、114b)からエアインターフェース115/116/117の上で位置情報を受け取り、および/または2つ以上の近くの基地局から受信した信号のタイミングに基づいて、自らの位置を決定する。WTRU102は、一実施形態との整合性を保ちながら、任意の適切な位置決定方法を用いて、位置情報を獲得することが理解される。
【0035】
プロセッサ118は、他の周辺機器138にさらに結合され、他の周辺機器138は、追加的な特徴、機能、および/または有線もしくは無線接続性を提供する、1または複数のソフトウェアモジュールおよび/またはハードウェアモジュールを含む。例えば、周辺機器138は、加速度計、eコンパス、衛星送受信機、(写真またはビデオ用の)デジタルカメラ、ユニバーサルシリアルバス(USB)ポート、バイブレーションデバイス、テレビ送受信機、ハンズフリーヘッドセット、Bluetooth(登録商標)モジュール、周波数変調(FM)ラジオユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、およびインターネットブラウザなどを含む。
【0036】
図1Cは、一実施形態による、RAN103およびコアネットワーク106のシステム図である。上述したように、RAN103は、UTRA無線技術を利用して、エアインターフェース115の上でWTRU102a、102b、102cと通信する。RAN103は、コアネットワーク106とも通信する。
図1Cに示されるように、RAN103は、ノードB140a、140b、140cを含み、ノードB140a、140b、140cは各々、エアインターフェース115の上でWTRU102a、102b、102cと通信するための1または複数の送受信機を含む。ノードB140a、140b、140cは各々、RAN103内の特定のセル(図示されず)に関連付けられる。RAN103は、RNC142a、142bも含む。RAN103は、一実施形態との整合性を保ちながら、任意の数のノードBおよびRNCを含むことが理解される。
【0037】
図1Cに示されるように、ノードB140a、140bは、RNC142aと通信する。加えて、ノードB140cは、RNC142bと通信する。ノードB140a、140b、140cは、Iubインターフェースを介して、それぞれのRNC142a、142bと通信する。RNC142a、142bは、Iurインターフェースを介して、互いに通信する。RNC142a、142bの各々は、それが接続されたそれぞれのノードB140a、140b、140cを制御するように構成される。加えて、RNC142a、142bの各々は、アウタループ電力制御、負荷制御、アドミッションコントロール、パケットスケジューリング、ハンドオーバ制御、マクロダイバーシティ、セキュリティ機能、およびデータ暗号化など、他の機能を実施またはサポートするように構成される。
【0038】
図1Cに示されるコアネットワーク106は、メディアゲートウェイ(MGW)144、モバイル交換センタ(MSC)146、サービングGPRSサポートノード(SGSN)148、および/またはゲートウェイGPRSサポートノード(GGSN)150を含む。上記の要素の各々は、コアネットワーク106の部分として示されているが、これらの要素は、どの1つをとっても、コアネットワーク運営体とは異なるエンティティによって所有および/または運営されることが理解される。
【0039】
RAN103内のRNC142aは、IuCSインターフェースを介して、コアネットワーク106内のMSC146に接続される。MSC146は、MGW144に接続される。MSC146とMGW144は、PSTN108などの回路交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cと従来の陸線通信デバイスとの間の通信を容易にする。
【0040】
RAN103内のRNC142aは、IuPSインターフェースを介して、コアネットワーク106内のSGSN148にも接続される。SGSN148は、GGSN150に接続される。SGSN148とGGSN150は、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にする。
【0041】
上述したように、コアネットワーク106は、ネットワーク112にも接続され、ネットワーク112は、他のサービスプロバイダによって所有および/または運営される他の有線または無線ネットワークを含む。
【0042】
図1Dは、一実施形態による、RAN104およびコアネットワーク107のシステム図である。上述したように、RAN104は、エアインターフェース116の上でWTRU102a、102b、102cと通信するために、E−UTRA無線技術を利用する。RAN104は、コアネットワーク107とも通信する。
【0043】
RAN104は、eノードB160a、160b、160cを含むが、RAN104は、一実施形態との整合性を保ちながら、任意の数のeノードBを含むことが理解される。eノードB160a、160b、160cは、各々が、エアインターフェース116上でWTRU102a、102b、102cと通信するための1または複数の送受信機を含む。一実施形態では、eノードB160a、160b、160cは、MIMO技術を実施する。したがって、eノードB160aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、WTRU102aから無線信号を受信する。
【0044】
eノードB160a、160b、160cの各々は、特定のセル(図示されず)に関連付けられ、無線リソース管理決定、ハンドオーバ決定、アップリンクおよび/またはダウンリンクにおけるユーザのスケジューリングなどを処理するように構成される。
図1Dに示されるように、eノードB160a、160b、160cは、X2インターフェースの上で互いに通信する。
【0045】
図1Dに示されるコアネットワーク107は、モビリティ管理ゲートウェイ(MME)162、サービングゲートウェイ164、およびパケットデータネットワーク(PDN)ゲートウェイ166を含む。上記の要素の各々は、コアネットワーク107の部分として示されているが、これらの要素は、どの1つをとっても、コアネットワーク運営体とは異なるエンティティによって所有および/または運営されることが理解される。
【0046】
MME162は、S1インターフェースを介して、RAN104内のeノードB160a、160b、160cの各々に接続され、制御ノードとしての役割を果たす。例えば、MME162は、WTRU102a、102b、102cのユーザの認証、ベアラアクティブ化/非アクティブ化、WTRU102a、102b、102cの初期接続中における特定のサービングゲートウェイの選択などを担う。MME162は、RAN104とGSMまたはWCDMAなどの他の無線技術を利用する他のRAN(図示されず)との間の交換のためのコントロールプレーン機能を提供もする。
【0047】
サービングゲートウェイ164は、S1インターフェースを介して、RAN104内のeノードB160a、160b、160cの各々に接続される。サービングゲートウェイ164は、一般に、ユーザデータパケットのWTRU102a、102b、102cへの/からの経路選択および転送を行う。サービングゲートウェイ164は、eノードB間ハンドオーバ中におけるユーザプレーンのアンカリング(anchoring)、ダウンリンクデータがWTRU102a、102b、102cに利用可能な場合に行う一斉呼出(paging)のトリガ、WTRU102a、102b、102cのコンテキストの管理および記憶など、他の機能を実行する。
【0048】
サービングゲートウェイ164は、PDNゲートウェイ166にも接続され、PDNゲートウェイ166は、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にする。
【0049】
コアネットワーク107は、他のネットワークとの通信を容易にする。例えば、コアネットワーク107は、PSTN108などの回路交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cと従来の陸線通信デバイスとの間の通信を容易にする。例えば、コアネットワーク107は、コアネットワーク107とPSTN108との間のインターフェースとしての役割を果たすIPゲートウェイ(例えば、IPマルチメディアサブシステム(IMS)サーバ)を含み、またはIPゲートウェイと通信する。加えて、コアネットワーク107は、ネットワーク112へのアクセスをWTRU102a、102b、102cに提供し、ネットワーク112は、他のサービスプロバイダによって所有および/または運営される他の有線または無線ネットワークを含む。
【0050】
図1Eは、一実施形態による、RAN105およびコアネットワーク109のシステム図である。RAN105は、IEEE802.16無線技術を利用して、エアインターフェース117の上でWTRU102a、102b、102cと通信する、アクセスサービスネットワーク(ASN)である。以下でさらに説明するように、WTRU102a、102b、102c、RAN105、およびコアネットワーク109の異なる機能エンティティ間の通信リンクは、参照点として定義される。
【0051】
図1Eに示されるように、RAN105は、基地局180a、180b、180cと、ASNゲートウェイ182とを含むが、RAN105は、一実施形態との整合性を保ちながら、任意の数の基地局とASNゲートウェイとを含むことが理解される。基地局180a、180b、180cは、各々が、RAN105内の特定のセル(図示されず)に関連付けられ、各々が、エアインターフェース117の上でWTRU102a、102b、102cと通信するための1または複数の送受信機を含む。一実施形態では、基地局180a、180b、180cは、MIMO技術を実施する。したがって、基地局180aは、例えば、複数のアンテナを使用して、WTRU102aに無線信号を送信し、WTRU102aから無線信号を受信する。基地局180a、180b、180cは、ハンドオフトリガリング、トンネル確立、無線リソース管理、トラフィック分類、およびサービス品質(QoS)ポリシ実施などの、モビリティ管理機能も提供する。ASNゲートウェイ182は、トラフィック集約ポイントとしてサービスし、ページング、加入者プロファイルのキャッシング、およびコアネットワーク109へのルーティングなどを担う。
【0052】
WTRU102a、102b、102cとRAN105との間のエアインターフェース117は、IEEE802.16仕様を実施する、R1参照点として定義される。加えて、WTRU102a、102b、102cの各々は、コアネットワーク109との論理インターフェース(図示されず)を確立する。WTRU102a、102b、102cとコアネットワーク109との間の論理インターフェースは、R2参照点として定義され、R2参照点は、認証、認可、IPホスト構成管理、および/またはモビリティ管理のために使用される。
【0053】
基地局180a、180b、180cの各々の間の通信リンクは、WTRUハンドオーバおよび基地局間でのデータの転送を容易にするためのプロトコルを含む、R8参照点として定義される。基地局180a、180b、180cとASNゲートウェイ182の間の通信リンクは、R6参照点として定義される。R6参照点は、WTRU102a、102b、102cの各々に関連するモビリティイベントに基づいたモビリティ管理を容易にするためのプロトコルを含む。
【0054】
図1Eに示されるように、RAN105は、コアネットワーク109に接続される。RAN105とコアネットワーク109との間の通信リンクは、例えばデータ転送およびモビリティ管理機能を容易にするためのプロトコルを含む、R3参照点として定義される。コアネットワーク109は、モバイルIPホームエージェント(MIP−HA)184と、認証認可課金(AAA)サーバ186と、ゲートウェイ188とを含む。上記の要素の各々は、コアネットワーク109の部分として示されているが、これらの要素は、どの1つをとっても、コアネットワーク運営体とは異なるエンティティによって所有および/または運営されることが理解される。
【0055】
MIP−HAは、IPアドレス管理を担い、WTRU102a、102b、102cが、異なるASNの間で、および/または異なるコアネットワークの間でローミングを行うことを可能にする。MIP−HA184は、インターネット110などのパケット交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cとIP対応デバイスとの間の通信を容易にする。AAAサーバ186は、ユーザ認証、およびユーザサービスのサポートを担う。ゲートウェイ188は、他のネットワークとの網間接続を容易にする。例えば、ゲートウェイ188は、PSTN108などの回路交換ネットワークへのアクセスをWTRU102a、102b、102cに提供して、WTRU102a、102b、102cと従来の陸線通信デバイスとの間の通信を容易にする。加えて、ゲートウェイ188は、ネットワーク112へのアクセスをWTRU102a、102b、102cに提供し、ネットワーク112は、他のサービスプロバイダによって所有および/または運営される他の有線または無線ネットワークを含む。
【0056】
図1Eには示されていないが、RAN105は、他のASNに接続され、コアネットワーク109は、他のコアネットワークに接続されることが理解される。RAN105と他のASNとの間の通信リンクは、R4参照点として定義され、R4参照点は、RAN105と他のASNとの間で、WTRU102a、102b、102cのモビリティを調整するためのプロトコルを含む。コアネットワーク109と他のコアネットワークとの間の通信リンクは、R5参照として定義され、R5参照は、ホームコアネットワークと在圏コアネットワークとの間の網間接続を容易にするためのプロトコルを含む。
【0057】
有線および無線ネットワーク(例えば、3G、WiFi、インターネット、
図1Aないし
図1Eに示されるネットワーク)におけるストリーミングは、ネットワークにおける帯域幅が可変的であるため、適応を伴う。例えば、メディアがクライアントにストリーミングされるレートが、変化するネットワーク条件に適応する、帯域幅適応ストリーミングが利用される。帯域幅適応ストリーミングは、クライアント(例えば、WTRU)が、メディアが受信されるレートを、それら自体の変化する利用可能な帯域幅により良く一致させることを可能にする。
【0058】
帯域幅適応ストリーミングシステムでは、コンテンツプロバイダは、例えば、
図2に示されるように、1または複数の異なるビットレートで、同じコンテンツを提供する。
図2は、異なるビットレートで符号化されるコンテンツの一例を示す図である。コンテンツ201は、例えば、符号化器202によって、多数のターゲットビットレート(例えば、r1、r2、...、rM)で符号化される。これらのターゲットビットレートを達成するため、視覚品質もしくはSNR(例えば、ビデオ)、フレーム解像度(例えば、ビデオ)、フレームレート(例えば、ビデオ)、サンプリングレート(例えば、オーディオ)、チャネル数(例えば、オーディオ)、またはコーデック(例えば、ビデオおよびオーディオ)などのパラメータが変更される。(例えば、マニフェストファイルと呼ばれる)記述ファイルが、コンテンツおよびその複数の表現に関連する技術情報およびメタデータを提供し、それが、1または複数の異なる利用可能なレートの選択を可能にする。
【0059】
複数のレートでのコンテンツの発行は、例えば、生産増加、品質保証管理、ストレージコストなどの課題をもたらす。多数のレート/解像度(例えば、3、4、5など)が、利用可能にされる。
【0060】
図3は、帯域幅適応ストリーミングの一例を示す図である。マルチメディアストリーミングシステムは、帯域幅適応をサポートする。ストリーミングメディアプレーヤ(例えば、ストリーミングクライアント)は、メディアコンテンツ記述から利用可能なビットレートについて学ぶ。ストリーミングクライアントは、ネットワーク301の利用可能な帯域幅を測定および/または推定し、異なるビットレート302で符号化されたメディアコンテンツのセグメントを要求することによって、ストリーミングセッションを制御する。これは、ストリーミングクライアントが、例えば、
図3に示されるように、マルチメディアコンテンツの再生中に、帯域幅変動に適応することを可能にする。クライアントは、バッファレベル、誤り率、遅延ジッタなどのうちの1または複数に基づいて、利用可能な帯域幅を測定および/または推定する。クライアントは、どのレートおよび/またはセグメントを使用すべきかを決定するときに、例えば、帯域幅に加えて、視聴条件などの他の要因も検討する。
【0061】
ストリーム切り換え挙動は、例えば、クライアントまたはネットワークフィードバックに基づいて、サーバによって制御される。このモデルは、例えば、RTP/RTSPプロトコルに基づいたストリーミング技術とともに使用される。
【0062】
アクセスネットワークの帯域幅は、例えば、(例えば、表1に示されるような)使用される下層技術、および/またはユーザ数、ロケーション、信号強度などが原因で変化する。表1は、アクセスネットワークのピーク帯域幅の一例を示している。
【0064】
コンテンツは、例えば、異なるサイズを有する画面上で、例えば、スマートフォン、タブレット、ラップトップ、およびHDTVなどのより大きな画面上で視聴される。表2は、マルチメディアストリーミング機能を含む様々なデバイスのサンプル画面解像度の一例を示している。少数のレートの提供は、様々なクライアントに良好なユーザエクスペリエンスを提供するのに十分ではない。
【0066】
本明細書で説明される実施によって利用される画面解像度の一例が、表3に列挙されている。
【0068】
例えば、YouTube(登録商標)、iTunes(登録商標)、Hulu(登録商標)などのコンテンツプロバイダは、HTTPプログレッシブダウンロードを使用して、マルチメディアコンテンツを配信する。HTTPプログレッシブダウンロードは、再生され得る前に(例えば、部分的または完全に)ダウンロードされるコンテンツを含む。HTTPを使用する配信は、ファイヤウォールによってブロックされないインターネットトランスポートプロトコルである。例えば、RTP/RTSPまたはマルチキャストなどの他のプロトコルは、ファイヤウォールによってブロックされ、またはインターネットサービスプロバイダによって使用不可能である。プログレッシブダウンロードは、帯域幅適応をサポートしない。HTTP上での帯域幅適応マルチメディアストリーミングのための技術が、パケットネットワーク上でライブおよびオンデマンドコンテンツを配信するために開発される。
【0069】
メディアプレゼンテーションは、例えば、HTTP上での帯域幅適応ストリーミングでは、1または複数のビットレートで符号化される。メディアプレゼンテーションの符号化は、例えば、
図4に示されるように、持続時間がより短い1または複数のセグメントに分割される。
図4は、符号化器402によって異なるビットレートで符号化され、セグメントに分割される、コンテンツ401の一例を示す図である。クライアントは、HTTPを使用して、例えば、レート適応を提供する、現在の条件に最も良く一致するビットレートで、セグメントを要求する。
【0070】
図5は、HTTPストリーミングセッション500の一例を示す図である。例えば、
図5は、ストリーミングセッション中におけるクライアントとHTTPサーバとの間の対話の例示的なシーケンスを示す。記述/マニフェストファイルおよび1または複数のストリーミングセグメントが、HTTP GET要求によって獲得される。記述/マニフェストファイルは、例えば、URLを介して、セグメントのロケーションを指定する。
【0071】
帯域幅適応HTTPストリーミング技法は、例えば、HTTPライブストリーミング(HLS)、スムーズストリーミング、HTTP動的ストリーミング、HTTP適応ストリーミング(HAS)、および適応HTTPストリーミング(AHS)を含む。
【0072】
動的適応HTTPストリーミング(DASH)は、HTTPストリーミングのためのいくつかの手法を統合したものである。DASHは、無線および有線ネットワークにおいて、可変帯域幅に対処するために使用される。DASHは、多数のコンテンツプロバイダおよびデバイスによってサポートされる。
【0073】
図6は、DASH高水準システムアーキテクチャ600の一例を示す図である。DASHは、適切な形式で準備されているライブまたはオンデマンドコンテンツ605を配信する、1組のHTTPサーバ602として配備される。クライアント601は、DASH HTTPサーバ602から直接的にコンテンツにアクセスし、および/または、
図6に示されるように、例えば、インターネット604を介してコンテンツ配信ネットワーク(CDN)603からコンテンツにアクセスする。CDN603は、コンテンツをキャッシュし、ネットワークのエッジにクライアントに近づけて配置されるので、例えば、多数のクライアントが予想される配備のために使用される。クライアント601は、WTRUであり、および/またはWTRU上に存在し、例えば、WTRUは、
図1Bに示されるようなものである。CDN603は、
図1Aないし
図1Eに示される要素の1または複数を含む。
【0074】
DASHでは、ストリーミングセッションは、HTTPを使用してセグメントを要求して、それらがコンテンツプロバイダおよび/またはCDN603から受信されたときにセグメントを継ぎ合わせることによって、クライアント601によって制御される。クライアント601は、例えば、インテリジェンスをネットワークからクライアント601に有効に移動させるために、例えば、ネットワーク条件(例えば、パケット誤り率、遅延ジッタなど)、ならびに/またはクライアント601の状態(例えば、バッファ満杯、ユーザ挙動およびプリファレンスなど)に基づいて、メディアレートを監視(例えば、継続的に監視)し、調整する。
【0075】
図7は、DASHクライアントモードの一例を示す図である。DASHクライアントモードは、情報伝達的なクライアントモデルに基づいている。DASHアクセスエンジン701は、メディアプレゼンテーション記述(MPD)ファイル702を受信し、要求を構成および発行し、ならびに/または1もしくは複数のセグメント、および/もしくはセグメント703の部分を受信する。DASHアクセスエンジン701の出力は、例えば、メディアの内部タイミングをプレゼンテーションのタイムラインにマッピングするタイミング情報を有する、MPEGコンテナ形式(例えば、MP4ファイル形式またはMPEG−2トランスポートストリーム)のメディアを含む。メディアの符号化されたチャンクとタイミング情報との組み合わせは、コンテンツの正確な描画のために十分である。
【0076】
図8は、DASHメディアプレゼンテーション高水準データモデル800の一例を示す図である。DASHでは、マルチメディアプレゼンテーションの組織は、例えば、
図8に示されるような、階層的データモデルに基づく。MPDファイルは、DASHメディアプレゼンテーション(例えば、マルチメディアコンテンツ)を構成する一連の期間を記述する。期間(period)とは、メディアコンテンツの一貫した1組の符号化バージョンが利用可能な、メディアコンテンツ期間のことである。例えば、1組の利用可能なビットレート、言語、キャプションなどは、期間中は変化しない。
【0077】
適応セット(adaptation set)とは、1または複数のメディアコンテンツ構成要素の1組の交換可能な符号化バージョンのことである。例えば、ビデオ、1次オーディオ、2次オーディオ、キャプションなどのための適応セットが存在する。適応セットは、多重化される。多重化の交換可能なバージョンは、単一の適応セットとして記述される。例えば、適応セットは、期間についてのビデオとメインオーディオの両方を含む。
【0078】
表現(representation)とは、1または複数のメディアコンテンツ構成要素の配送可能な符号化バージョンのことである。表現は、1または複数のメディアストリーム(例えば、多重化内の各メディアコンテンツ構成要素に1つ)を含む。適応セット内の表現は、メディアコンテンツ構成要素を描画するのに十分である。クライアントは、ネットワーク条件および/または他の要因に適応するために、適応セット内で表現から表現に切り換える。クライアントは、クライアントがサポートしない、コーデック、プロファイル、および/またはパラメータを使用する表現を無視する。
【0079】
表現内のコンテンツは、時間的に、固定長または可変長の1または複数のセグメントに分割される。URLが、セグメントに(例えば、各セグメントに)提供される。セグメントは、単一のHTTP要求を用いて取得できるデータの最大単位である。
【0080】
メディアプレゼンテーション記述(MPD)ファイルは、1もしくは複数のセグメントにアクセスするための、および/またはストリーミングサービスをユーザに提供するための、適切なHTTP−URLを構成するために、DASHクライアントによって使用されるメタデータを含むXMLドキュメントである。MPDファイル内のベースURLは、1もしくは複数のセグメント、および/またはメディアプレゼンテーション内の他のリソースを求めるHTTP GET要求を生成するために、クライアントによって使用される。HTTP部分GET要求は、例えば、(例えば、「Range」HTTPヘッダを介して)バイト範囲を使用することによって、セグメントの限られた部分にアクセスするために使用される。代替ベースURLは、ロケーションが利用不可能な場合に、プレゼンテーションへのアクセスを可能にするために指定される。代替ベースURLは、例えば、クライアント側のロードバランシングおよび/または並列ダウンロードを可能にする、マルチメディアストリームの配信に冗長性を提供する。
【0081】
MPDファイルは、静的または動的な種類(type)をとる。静的MPDファイル種類は、メディアプレゼンテーション中に変化しない。静的MPDファイルは、オンデマンドプレゼンテーションのために使用される。動的MPDファイル種類は、メディアプレゼンテーション中に更新される。動的MPDファイル種類は、ライブプレゼンテーションのために使用される。MPDファイルは、例えば、表現についてのセグメントのリストを拡張するために、新しい期間を導入するために、メディアプレゼンテーションを終了するために、および/またはタイムラインを処理もしくは調整するために、更新される。
【0082】
DASHでは、異なるメディアコンテンツ構成要素(例えば、ビデオ、オーディオ)の符号化バージョンは、共通のタイムラインを共有する。メディアコンテンツ内のアクセスユニットのプレゼンテーション時間は、メディアプレゼンテーションタイムラインと呼ばれる、グローバル共通プレゼンテーションタイムラインにマッピングされる。メディアプレゼンテーションタイムラインは、異なるメディア構成要素の同期を可能にする。メディアプレゼンテーションタイムラインは、同じメディア構成要素の異なる符号化バージョン(例えば、表現)のシームレスな切り換えを可能にする。
【0083】
セグメントは、実際のセグメント化されたメディアストリームを含む。セグメントは、例えば、切り換えおよび他の表現との同期プレゼンテーションのための、メディアストリームをメディアプレゼンテーションタイムラインにどのようにマッピングするかに関する追加情報を含む。
【0084】
セグメント利用可能タイムラインは、指定されたHTTP URLにおける1または複数のセグメントの利用可能時間をクライアントに知らせるために使用される。利用可能時間は、ウォールクロック時間で提供される。クライアントは、例えば、指定されたHTTP URLにおいてセグメントにアクセスする前に、ウォールクロック時間をセグメント利用可能時間と比較する。
【0085】
例えば、オンデマンドコンテンツの場合、1または複数のセグメントの利用可能時間は、同一である。メディアプレゼンテーションのセグメント(例えば、すべてのセグメント)は、セグメントの1つが利用可能になると、サーバ上で利用可能になる。MPDファイルは、静的ドキュメントである。
【0086】
例えば、ライブコンテンツの場合、1または複数のセグメントの利用可能時間は、メディアプレゼンテーションタイムラインにおけるセグメントの位置に依存する。セグメントは、時間とともにコンテンツが生成されるにつれて利用可能になる。MPDファイルは、時間経過に伴うプレゼンテーションの変化を反映するように、(例えば、定期的に)更新される。例えば、1または複数の新しいセグメントのための1または複数のセグメントURLが、MPDファイルに追加される。もはや利用可能ではないセグメントは、MPDファイルから削除される。例えば、セグメントURLがテンプレートを使用して記述される場合、MPDファイルの更新は必要ではない。
【0087】
セグメントの持続時間は、例えば、通常速度で提示される場合のセグメント内に含まれるメディアの持続時間を表す。表現内のセグメントは、同じまたはほぼ同じ持続時間を有する。セグメント持続時間は、表現ごとに異なる。DASHプレゼンテーションは、1もしくは複数の短いセグメント(例えば、2ないし8秒)、および/または1もしくは複数のより長いセグメントを用いて構成される。DASHプレゼンテーションは、表現全体に対して単一のセグメントを含む。
【0088】
短いセグメントは、(例えば、エンドツーエンド待ち時間を短縮することによって)ライブコンテンツに適しており、セグメントレベルの高い切り換え粒度を可能にする。長いセグメントは、プレゼンテーションにおけるファイルの数を減らすことによって、キャッシュ性能を改善する。長いセグメントは、クライアントが、例えば、バイト範囲要求を使用することによって、柔軟な要求サイズを作ることを可能にする。長いセグメントの使用は、セグメントインデックスの使用を強いる。
【0089】
セグメントは、時間経過に伴って拡張されることはない。セグメントは、全体として利用可能にされる完全な孤立したユニットである。セグメントは、ムービーフラグメントと呼ばれる。セグメントは、サブセグメントに細分される。サブセグメントは、整数個の完全なアクセスユニットを含む。アクセスユニットは、メディアプレゼンテーション時間が割り当てられた、メディアストリームのユニットである。セグメントは、1または複数のサブセグメントに分割される場合、セグメントはセグメントインデックスによって記述される。セグメントインデックスは、表現内におけるプレゼンテーション時間範囲、および/または各サブセグメントによって占められる、セグメント内の対応するバイト範囲を提供する。クライアントは、事前にセグメントインデックスをダウンロードする。クライアントは、HTTP部分GET要求を使用して、個々のサブセグメントを求める要求を発行する。セグメントインデックスは、メディアセグメント内に、例えば、ファイルの先頭に含まれる。セグメントインデックス情報は、1または複数のインデックスセグメント(例えば、別々のインデックスセグメント)で提供される。
【0090】
DASHは、複数(例えば、4)種類のセグメントを利用する。セグメントの種類は、初期化セグメント、メディアセグメント、インデックスセグメント、および/またはビットストリーム切り換えセグメントを含む。初期化セグメントは、表現にアクセスするための初期化情報を含む。初期化セグメントは、プレゼンテーション時間が割り当てられたメディアデータを含まない。初期化セグメントは、含まれる表現のメディアセグメントのプレイアウトを可能にするためのメディアエンジンの初期化を行うために、クライアントによって処理される。
【0091】
メディアセグメントは、このメディアセグメント内で記述される、および/または表現の初期化セグメントによって記述される、1または複数のメディアストリームを含み、および/またはカプセル化する。メディアセグメントは、1または複数の完全なアクセスユニットを含む。メディアセグメントは、例えば、含まれる各メディアストリームのための、少なくとも1つのストリームアクセスポイント(SAP)を含む。
【0092】
インデックスセグメントは、1または複数のメディアセグメントに関連する情報を含む。インデックスセグメントは、1または複数のメディアセグメントのためのインデックス情報を含む。インデックスセグメントは、1または複数のメディアセグメントのための情報を提供する。インデックスセグメントは、メディア形式に固有である。インデックスセグメントをサポートするメディア形式について、さらなる詳細が定義される。
【0093】
ビットストリーム切り換えセグメントは、割り当てられた表現に切り換えるためのデータを含む。ビットストリーム切り換えセグメントは、メディア形式に固有である。ビットストリーム切り換えセグメントをサポートする各メディア形式について、さらなる詳細が定義される。各表現に対して、1つのビットストリーム切り換えセグメントが定義される。
【0094】
クライアントは、例えば、メディア内の任意のポイントにおいて、適応セット内の表現から表現に切り換える。任意の位置における切り換えは、例えば、表現内における符号化依存のために複雑である。オーバラップするデータのダウンロード、例えば、複数の表現からの同じ期間のメディアのダウンロードが、実行される。切り換えは、新しいストリーム内のランダムアクセスポイントにおいて実行される。
【0095】
DASHは、コーデック独立の概念であるストリームアクセスポイント(SAP)を定義し、および/または1もしくは複数の種類のSAPを識別する。ストリームアクセスポイント種類は、例えば、適応セット内のすべてのセグメントが同じSAP種類を有すると仮定して、適応セットの特性の1つとして伝達される。SAPは、1または複数のメディアストリームのファイルコンテナ内へのランダムアクセスを可能にする。SAPは、例えば、コンテナ内でその位置以降に含まれる情報を使用して、識別されたメディアストリームの再生が開始されることを可能にする、コンテナ内の位置である。コンテナの他の部分からのおよび/または外部的に入手可能な、初期化データが使用される。SAPは、例えば、DASH内におけるストリーム間の接続部である。例えば、SAPは、クライアントが、例えば別の表現から表現に切り換える、表現内の位置によって特徴付けられる。SAPは、SAPでつながるストリームの連鎖が、正しく復号可能なデータストリーム(例えば、MPEGストリーム)をもたらすことを保証する。
【0096】
T
SAPは、メディアストリームのいずれかのアクセスユニットの最も早いプレゼンテーション時間であり、例えば、T
SAP以上のプレゼンテーション時間を有するメディアストリームのアクセスユニットは、I
SAPで開始するビットストリーム内のデータを使用し、およびI
SAPよりも前のデータを使用せずに、正しく復号される。I
SAPは、ビットストリームにおける最大の位置であり、例えば、T
SAP以上のプレゼンテーション時間を有するメディアストリームのアクセスユニットは、I
SAPで開始するビットストリームデータを使用し、およびI
SAPよりも前のデータを使用せずに、正しく復号される。I
SAUは、メディアストリーム内おいて復号順で最新のアクセスユニットのビットストリームにおける開始位置であり、例えば、T
SAP以上のプレゼンテーション時間を有するメディアストリームのアクセスユニットは、復号順で最新のアクセスユニットおよび以降のアクセスユニットを使用し、および復号順でより早いアクセスユニットを使用せずに、正しく復号される。
【0097】
T
DECは、I
SAUで開始するビットストリーム内のデータを使用し、I
SAUよりも前のいずれのデータも使用せずに、正しく復号される、メディアストリームのアクセスユニットの最も早いプレゼンテーション時間である。T
EPTは、ビットストリームにおいてI
SAUで開始するメディアストリームのアクセスユニットの最も早いプレゼンテーション時間である。T
PTFは、ビットストリームにおいてI
SAUで開始するメディアストリームの復号順で最初のアクセスユニットのプレゼンテーション時間である。
【0098】
図9は、ストリームアクセスポイント(SAP)の例示的なパラメータを示す図である。
図9の例は、3つの異なる種類のフレーム、すなわち、Iフレーム、Pフレーム、およびBフレームを有する、符号化ビデオストリームの一例を示している。Pフレームは、先行するIまたはPフレームを利用して復号される。Bフレームは、先行および後続するIまたはPフレームを利用する。Iフレーム、Pフレーム、および/またはBフレームの送信順、復号順、および/またはプレゼンテーション順には違いがある。
【0099】
複数(例えば、6)のSAP種類が定義される。異なるSAP種類の使用は、プロファイルに基づいて制限される。例えば、種類1、2、3のSAPは、いくつかのプロファイルに対して許可される。SAPの種類は、どのアクセスユニットが正しく復号可能であるか、および/またはアクセスユニットのプレゼンテーション順での配置に依存する。
【0100】
図10は、種類1のSAP1000の一例を示す図である。種類1のSAPは、T
EPT=T
DEC=T
SAP=T
PFTによって説明される。種類1のSAPは、「クローズドGoPランダムアクセスポイント」に対応し、および/またはそのように呼ばれる。I
SAPから開始する(例えば、復号順の)アクセスユニットは、種類1のSAP内で正しく復号される。その結果は、いかなるギャップも存在しない正しく復号されたアクセスユニットの連続時間シーケンスである。復号順で最初のアクセスユニットは、プレゼンテーション順で最初のアクセスユニットである。
【0101】
図11は、種類2のSAP1100の一例を示す図である。種類2のSAPは、T
EPT=T
DEC=T
SAP<T
PFTによって説明される。種類2のSAPは、「クローズドGoPランダムアクセスポイント」に対応し、および/またはそのように呼ばれ、例えば、I
SAUから開始するメディアストリームにおける復号順で最初のアクセスユニットは、プレゼンテーション順で最初のアクセスユニットではない。最初のフレーム(例えば、最初の2つのフレーム)は、(例えば、前方限定Bフレームとして構文的に符号化される)後方予測されるPフレームであり、後続フレーム(例えば、第3のフレーム)を利用して復号される。
【0102】
図12は、種類3のSAP1200の一例を示す図である。種類3のSAPは、T
EPT<T
DEC=T
SAP<=T
PTFによって説明される。種類3のSAPは、「オープンGoPランダムアクセスポイント」に対応し、および/またはそのように呼ばれ、例えば、正しく復号されない、および/またはT
SAPよりも小さいプレゼンテーション時間を有する、復号順でI
SAU以降のアクセスユニットが存在する。
【0103】
図13は、3フレームの持続時間および6フレームの間隔を有する、漸進的復号リフレッシュ(GDR)1300の一例を示す図である。種類4のSAPは、T
EPT<=T
PFT<T
DEC=T
SAPによって説明される。種類4のSAPは、「漸進的復号リフレッシュ(GDR)ランダムアクセスポイント」(例えば、「ダーティ」ランダムアクセス)に対応し、および/またはそのように呼ばれ、例えば、正しく復号されない、および/またはT
SAPよりも小さいプレゼンテーション時間を有する、復号順でI
SAUから開始する、I
SAU以降のアクセスユニットが存在する。
【0104】
GDRの一例は、イントラリフレッシュプロセスであり、それは、N個のフレームまで拡張され、フレームの一部は、イントラマクロブロック(MB)を用いて符号化される。オーバラップしない部分は、N個のフレームにわたってイントラ符号化される。このプロセスは、フレーム全体がリフレッシュされるまで繰り返される。
【0105】
種類5のSAPは、Τ
ΕPT=T
DEC<T
SAPによって説明される。種類5のSAPは、正しく復号され得ず、および/もしくはT
DECよりも大きいプレゼンテーション時間を有する、復号順でI
SAPから開始する少なくとも1つのアクセスユニットが存在する場合、ならびに/または、T
DECがI
SAUから開始するアクセスユニットの最も早いプレゼンテーション時間である場合に対応する。
【0106】
種類6のSAPは、T
EPT<T
DEC<T
SAPによって説明される。種類6のSAPは、正しく復号されず、および/またはT
DECよりも大きいプレゼンテーション時間を有する、復号順でI
SAPから開始する少なくとも1つのアクセスユニットが存在する場合、ならびに、T
DECがI
SAUから開始するアクセスユニットの最も早いプレゼンテーション時間でない場合に対応する。種類4、5、および/または6のSAPは、オーディオ符号化における遷移を処理する場合に利用される。
【0107】
ビデオおよび/またはオーディオの符号化および復号における滑らかなストリーム切り換えが提供される。滑らかなストリーム切り換えは、異なるレートで符号化されたメディアコンテンツのストリーム(例えば、ストリームの部分)間で利用される、1または複数の遷移フレームの生成および/または表示を含む。遷移フレームは、クロスフェードおよびオーバラップ、クロスフェードおよびトランスコード、フィルタリングを使用する後処理技法、再量子化を使用する後処理技法などを介して生成される。
【0108】
滑らかなストリーム切り換えは、メディアコンテンツの第1のデータストリームおよびメディアコンテンツの第2のデータストリームを受信することを含む。メディアコンテンツは、ビデオおよび/またはオーディオを含む。メディアコンテンツは、MPEGコンテナ形式を取る。第1のデータストリームおよび/または第2のデータストリームは、MPDファイル内で識別される。第1のデータストリームは、符号化されたデータストリームである。第2のデータストリームは、符号化されたデータストリームである。第1のデータストリームおよび第2のデータストリームは、同じデータストリームの一部である。例えば、第1のデータストリームは、第2のデータストリームに時間的に先行する(例えば、直前に先行する)。例えば、第1のデータストリームおよび/または第2のデータストリームは、メディアコンテンツのSAPにおいて開始および/または終了する。
【0109】
第1のデータストリームは、第1の信号対雑音比(SNR)によって特徴付けられる。第2のデータストリームは、第2のSNRによって特徴付けられる。例えば、第1のSNRおよび第2のSNRは、それぞれ、第1のデータストリームおよび第2のデータストリームの符号化に関連する。第1のSNRは第2のSNRよりも大きく、または第1のSNRは第2のSNRよりも小さい。
【0110】
遷移フレームは、第1のデータストリームのフレームおよび第2のデータストリームのフレームの少なくとも一方を使用して生成される。遷移フレームは、第1のSNRと第2のSNRの間にある、1または複数のSNR値によって特徴付けられる。遷移フレームは、遷移時間間隔によって特徴付けられる。遷移フレームは、メディアコンテンツの1つのセグメントの一部である。第1のデータストリームの1または複数のフレームが表示され、遷移フレームが表示され、第2のデータストリームの1または複数のフレームが表示され、例えば、表示順は上記のとおりである。第1のデータストリームから遷移フレームへの切り換え、および/または、遷移フレームから第2のデータストリームへの切り換えは、メディアコンテンツのSAPにおいて行われる。
【0111】
遷移フレームの生成は、遷移フレームを生成するために、第1のSNRによって特徴付けられるフレームと、第2のSNRによって特徴付けられるフレームとをクロスフェードすることを含む。クロスフェードは、遷移フレームを生成するために、第1のSNRによって特徴付けられるフレームと、第2のSNRによって特徴付けられるフレームとの加重平均を計算することを含む。加重平均は、時間につれて変化する。クロスフェードは、第1のSNRによって特徴付けられるフレームに第1の重みを適用し、および第2のSNRによって特徴付けられるフレームに第2の重みを適用することによって、第1のSNRによって特徴付けられるフレームと、第2のSNRによって特徴付けられるフレームとの加重平均を計算することを含む。第1の重みおよび第2の重みの少なくとも一方は、遷移時間間隔にわたって変化する。クロスフェードは、第1のデータストリームと第2のデータストリームとの間の線形的な遷移または非線形的な遷移を使用して実行される。
【0112】
第1のデータストリームと第2のデータストリームは、メディアコンテンツのオーバラップするフレームを含む。遷移フレームを生成するための、第1のSNRによって特徴付けられるフレームと、第2のSNRによって特徴付けられるフレームとのクロスフェードは、遷移フレームを生成するために、第1のデータストリームと第2のデータストリームのオーバラップするフレームをクロスフェードすることを含む。オーバラップするフレームは、第1のデータストリームと第2のデータストリームとの対応するフレームによって特徴付けられる。オーバラップするフレームは、オーバラップ時間間隔によって特徴付けられる。第1のデータストリームの1または複数のフレームはオーバラップ時間間隔の前に表示され、遷移フレームはオーバラップ時間間隔の間じゅうに表示され、第2のデータストリームの1または複数のフレームはオーバラップ時間間隔の後に表示される。第1のデータストリームの1または複数のフレームはオーバラップ時間間隔に先行する時間によって特徴付けられ、第2のデータストリームの1または複数のフレームはオーバラップ時間間隔に後続する時間によって特徴付けられる。
【0113】
第1のデータストリームのフレームのサブセットは、第2のSNRによって特徴付けられる対応するフレームを生成するために、トランスコードされる。遷移フレームを生成するための、第1のSNRによって特徴付けられるフレームと、第2のSNRによって特徴付けられるフレームとのクロスフェードは、遷移フレームを生成するために、第1のデータストリームのフレームのサブセットと、第2のSNRによって特徴付けられる対応するフレームとをクロスフェードすることを含む。
【0114】
遷移フレームの生成は、遷移フレームを生成するために、遷移時間間隔にわたって変化するカットオフ周波数によって特徴付けられるローパスフィルタを使用して、第1のSNRによって特徴付けられるフレームをフィルタリングすることを含む。遷移フレームの生成は、遷移フレームを生成するために、ステップサイズの1または複数を使用して、第1のSNRによって特徴付けられるフレームを変換および量子化することを含む。
【0115】
符号化メディアコンテンツのビットレートに変化をもたらすため、メディアコンテンツ(例えば、ビデオシーケンス)の1または複数のパラメータが、符号化中に制御される。例えば、パラメータは、限定することなく、信号対雑音比(SNR)、フレーム解像度、フレームレートなどを含む。様々なビットレートを有するメディアコンテンツの符号化バージョンを生成するため、メディアコンテンツのSNRが、符号化中に制御される。例えば、符号化中に変換係数に対して使用される量子化パラメータ(QP)を介して、SNRが制御される。例えば、QPの変更は、符号化ビデオシーケンスのSNR(例えば、およびビットレート)に影響する。例えば、QPの変化は、異なる視覚品質および/またはSNRを有するビデオシーケンスをもたらす。SNRとビットレートには関係がある。例えば、符号化中のQPの変更は、ビットレートを制御するための方法である。例えば、QPが低い場合、符号化ビデオシーケンスは、より高いSNR、より高いビットレート、および/またはより高い視覚品質を有する。
【0116】
メディアコンテンツ(例えば、符号化ビデオストリーム)のSNRは、メディアコンテンツの符号化に関連する。例えば、メディアコンテンツのSNRは、メディアコンテンツの符号化中に使用されるQPによって制御される。例えば、メディアコンテンツは、例えば、
図2、
図4、および
図6を参照して説明されたように、異なるレートで符号化されて、異なるSNR値によって特徴付けられるメディアコンテンツの対応するバージョンを生成する。例えば、高いレートで符号化されたメディアコンテンツは、高いSNR値によって特徴付けられ、一方、低いレートで符号化されたメディアコンテンツは、低いSNR値によって特徴付けられる。例えば、メディアコンテンツのSNRは、メディアコンテンツの符号化を参照し、メディアコンテンツがクライアントによって受信される送信チャネルに関係しない。
【0117】
様々なビットレートを有するメディアコンテンツの符号化バージョンを生成するため、メディアコンテンツの1または複数のフレームのフレーム解像度(例えば、ピクセルを単位とするビデオフレームの水平および垂直寸法)が、符号化中に(例えば、240p、360p、720p、1080pなどの間で)制御される。例えば、符号化中のフレーム解像度の変更は、メディアコンテンツの符号化バージョン(例えば、符号化ビデオシーケンス)のビットレートを変更する。フレーム解像度とビットレートには関係がある。例えば、フレーム解像度が低い場合、同様の視覚品質でビデオシーケンスを符号化するために、より低いビットレートが使用される。
【0118】
様々なビットレートを有するメディアコンテンツの符号化バージョンを生成するため、メディアコンテンツのフレームレート(例えば、秒当たりのフレームの数(fps))が、符号化中に(例えば、15fps、20fps、30fps、60fpsなどの間で)制御される。例えば、符号化中のフレームレートの変更は、メディアコンテンツの符号化バージョン(例えば、符号化ビデオシーケンス)のビットレートを変更する。フレームレートとビットレートには関係がある。例えば、フレームレートが低い場合、同様の主観的な視覚品質でビデオシーケンスを符号化するために、より低いビットレートが使用される。
【0119】
帯域幅適応ストリーミングのためのメディアコンテンツの目標ビットレートを達成するために、メディアコンテンツ(例えば、ビデオシーケンス)のパラメータの1または複数が、符号化中に制御(例えば、変更)される。異なるビットレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツの(例えば、QPを介する)SNRが、符号化中に制御される。例えば、1または複数の異なるビットレートに対して、ビデオシーケンスは、同じフレームレート(例えば、30フレーム毎秒)および同じ解像度(例えば、720p)で符号化されるが、符号化ビデオシーケンスのSNRは変更される。例えば、ビデオシーケンスのQPの変更は、所望の目標ビットレートにおいて良好な視覚品質のビデオシーケンスを生成するので、符号化ビデオシーケンスのSNRの変更は、目標ビットレートの範囲が相対的に小さい(例えば、1Mbpsと2Mbpsの間の)場合に有益である。
【0120】
異なるビットレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツのフレーム解像度が制御される。メディアコンテンツ(例えば、ビデオシーケンス)は、同じフレームレート(例えば、30フレーム毎秒)および同じSNRで符号化されるが、メディアコンテンツのフレームのフレーム解像度は変更される。例えば、ビデオシーケンスは、1または複数の異なる解像度(例えば、240p、360p、720p、1080pなど)で符号化される一方で、同じフレームレート(例えば、30fps)および同じSNRを維持する。メディアコンテンツのフレーム解像度の変更は、目標ビットレートの範囲が大きい(例えば、500kbpsと10Mbpsの間の)場合に有益である。
【0121】
異なるビットレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツのフレームレートが、符号化中に制御される。メディアコンテンツ(例えば、ビデオシーケンス)は、同じフレーム解像度(例えば、720p)および同じSNRで符号化されるが、メディアコンテンツのフレームレート(例えば、15fps、20fps、30fps、60fpsなど)は変更される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスは、より低いフレームレートを用いて符号化される。例えば、より高いビットレートのビデオシーケンスは、フル30fpsで符号化されるが、より低いビットレートのビデオシーケンスは、同じ解像度(例えば、720p)および同じSNRを維持しながら、5ないし20fpsで符号化される。
【0122】
異なるレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツの(例えば、QPを介する)SNRおよびフレーム解像度が、符号化中に制御される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスは、より低いSNRおよびフレーム解像度を用いて符号化されるが、同じフレームレートが、符号化ビデオシーケンスのために使用される。例えば、より高いレートのビデオシーケンスは、720p、30fps、および何らかのSNRポイントで符号化され、一方、より低いレートのシーケンスは、360p、30fps、および同じSNRで符号化される。
【0123】
異なるレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツの(例えば、QPを介する)SNRおよびフレームレートが、符号化中に制御される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスはより低いSNRおよびフレームレートを用いて符号化されるが、同じフレーム解像度が符号化ビデオシーケンスのために維持される。例えば、より高いレートのビデオシーケンスは、720p、30fps、および何らかのSNRポイントで符号化され、一方、より低いレートのビデオシーケンスは、720p、10fps、および同じSNRで符号化される。
【0124】
異なるレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツのフレーム解像度およびフレームレートが符号化中に制御される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスは、より低いフレーム解像度およびフレームレートを用いて符号化されるが、符号化ビデオシーケンスのために同じ視覚品質(例えば、SNR)を維持する。例えば、より高いビットレートのビデオシーケンスは、720p、20ないし30fpsのフレームレートで、同じSNRを用いて符号化され、より低いビットレートのシーケンスは、360p、10ないし20fpsのフレームレートで同じSNRを用いて符号化される。
【0125】
異なるレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツの(例えば、QPを介する)SNR、フレーム解像度、およびフレームレートが、符号化中に制御される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスは、より低いSNR、フレーム解像度、およびフレームレートを用いて符号化される。例えば、より高いビットレートのビデオシーケンスは、720p、30fps、およびより高いSNRポイントで符号化され、一方、より低いビットレートのビデオシーケンスは、360p、10fps、およびより低いSNRポイントで符号化される。
【0126】
本明細書で説明される実施は、異なるビットレート、SNR、フレーム解像度、および/またはフレームレートによって特徴付けられる、メディアコンテンツ(例えば、ビデオ、オーディオなど)のメディアストリーム(例えば、ビデオストリーム、オーディオストリームなど)間の遷移を滑らかにするために使用される。2つの異なるビットレート(例えば、高(H)と低(L))、SNR、フレーム解像度、および/またはフレームレートで符号化されたメディアストリーム間の遷移として本明細書では説明されるが、本明細書で説明される実施は、任意の数の異なるビットレート、SNR、フレーム解像度、および/またはフレームレートで符号化されたメディアストリーム間の遷移に適用される。
【0127】
図14は、滑らかな遷移を含まないストリーミングセッション中のレート間の遷移の一例を示すグラフ1400である。メディアコンテンツ(例えば、ビデオ)は、例えば、
図14に示されるように、複数(例えば、2)の異なるビデオレートで、例えば、高いレート(例えば、レートH)と低いレート(例えば、レートL)で符号化される。例えば、
図14に示されるように、高いレート(H)から低いレート(L)への遷移1401、および/または低いレートから高いレートへの遷移1402が発生する。滑らかな遷移を含まないストリーミングセッションにおける遷移(例えば、
図14に示されるような、1401および1402)は、例えば、メディアコンテンツが、メディアコンテンツの介在部分(例えば、セグメント、フレームなど)を有さずに、1つのレートから別のレート(例えば、高から低、または低から高)に遷移するので、突然の遷移と呼ばれる。メディアコンテンツのレートは、例えば、ビットレート、SNR、解像度、および/またはフレームレートなど、メディアコンテンツの1または複数のパラメータ/特徴を参照する。
【0128】
図15は、滑らかな遷移を含むストリーミングセッション中のレート間の遷移の一例を示すグラフ1500である。滑らかなストリーム切り換えは、メディアコンテンツの視覚品質のグレースフルなステップアップ/ダウンを達成するために利用される、レート間(例えば、レートHとレートLの間)の滑らかな遷移1501、1502を利用する。例えば、滑らかな遷移1501はレートHからレートLへの切り換えのために利用され、一方、滑らかな遷移1502はレートLからレートHへの切り換えのために利用される。滑らかな遷移1501、1502は、エクスペリエンスの質(QoE)の改善を提供する。例えば、滑らかな遷移は、異なるレート(例えば、レートHとレートL)で符号化された時間的に対応するフレームのパラメータの間にある、1または複数のパラメータによって特徴付けられる、遷移フレームを使用することによって達成される。
【0129】
図16Aは、滑らかなストリーム切り換えを用いない遷移の一例を示す図である。
図16Bは、滑らかなストリーム切り換えを用いる遷移の一例を示す図である。滑らかな遷移は、異なるレートで符号化されたメディアコンテンツの間に、メディアコンテンツの1または複数の介在部分(例えば、セグメント、遷移フレームなど)を含む。例えば、滑らかなストリーム切り換えの結果として、(例えば、
図16Bに示されるように)レートHまたはレートLのフレームのいくつかは、視覚品質が下がった(例えば、HからLへの遷移)、または上がった(例えば、LからHへの遷移)フレームによって置換される。滑らかな遷移中に利用されるフレームは、遷移フレームと呼ばれる。
【0130】
例えば、
図16Aに示されるように、滑らかなストリーム切り換えが利用されない場合、レートHとレートLの間の遷移は、突然であり、例えば、いかなる遷移フレームもなしに、1つのレートのフレームから他のレートのフレームに移動する。例えば、
図16Bに示されるように、滑らかなストリーム切り換えが利用される場合、1または複数の遷移フレーム1601、1602が、レートの間で利用される。
図16Bに示される例では、各遷移において4つの遷移フレームが利用されるが、任意の数の遷移フレームが、遷移において利用される。
図16Bに示される例では、2つの異なる値の遷移フレーム1601、1602が、各遷移において利用されるが、任意の数の遷移フレーム値が、遷移において利用される。1つの遷移(例えば、HからLへの遷移)における遷移フレームの値は、別の遷移(例えば、LからHへの遷移)における遷移フレームと同じであり、または異なる。任意の数の遷移フレーム値が、遷移において利用される。遷移フレームの値は、遷移フレームを特徴付けるパラメータ(例えば、SNR、フレーム解像度、フレームレートなど)の1または複数に関連する。例えば、遷移フレーム1601は、レートHのフレームの特徴により近い特徴によって定義され、遷移フレーム1602は、レートLのフレームの特徴により近い特徴によって定義される。遷移フレーム1601、1602の使用は、改善されたQoEをユーザに提供する。
【0131】
滑らかなストリーム切り換えは、ユーザにあまり気付かれることがなく、および、ユーザエクスペリエンスを改善する、ストリーム切り換えを提供する。滑らかなストリーム切り換えは、例えば、アーチファクトの差を実質的に除去することによって、メディアコンテンツの異なるセグメントが異なるコーデックを利用することを可能にする。滑らかなストリーム切り換えは、メディアコンテンツのためにコンテンツプロバイダによって生成される符号化/レートの数を減らす。
【0132】
ストリーミングクライアントは、DASH準拠の符号化器によって準備されたメディアコンテンツ(例えば、ビデオ、オーディオなど)の1または複数のストリームを受信する。例えば、メディアコンテンツの1または複数のストリームは、例えば、種類1ないし6など、任意の種類のストリームアクセスポイントを含む。
【0133】
クライアントは、符号化メディアセグメントを連結して、それを再生エンジンに供給するための処理を含む。クライアントは、メディアセグメントを復号するための、ならびに/またはクロスフェード操作および/もしくは後処理操作を適用するための処理を含む。クライアントは、例えば、本明細書で説明される処理を介して、メディアセグメントのオーバラップする部分をロードし、および/または滑らかなストリーム切り換えのためにオーバラップするセグメントを利用する。
【0134】
異なるSNR(例えば、SNRポイント)を有するストリーム間での滑らかなストリーム切り換えは、本明細書で説明される実施の1または複数を使用して、例えば、オーバラップおよびクロスフェードを使用して、トランスコードおよびクロスフェードを使用して、スケーラブルなコーデックとともにクロスフェードを使用して、漸進的なトランスコードを使用して、ならびに/または後処理を使用して実行される。これらの実施は、例えば、HからLへの遷移、および/またはLからHへの遷移のために使用される。
【0135】
2つの異なるレート(例えば、HとL)で符号化されたストリームを参照して説明されたが、本明細書で説明される滑らかなストリーム切り換えの実施は、任意の数の異なるレートで符号化されたメディアコンテンツのストリームに対して利用される。メディアコンテンツの符号化ストリーム(例えば、HとL)のフレームレートおよび/または解像度は同じであるが、メディアコンテンツの符号化ストリームのSNRは異なる。
【0136】
図17は、オーバラップおよびクロスフェードを使用する滑らかなストリーム切り換え遷移の例を示すグラフである。クライアントは、メディアコンテンツのオーバラップするセグメントまたはサブセグメントを要求および/または受信し、例えば、オーバラップするセグメントまたはサブセグメントを使用して、メディアコンテンツの符号化ストリームの間でクロスフェードを実行する。オーバラップ要求は、1または複数の異なるレートで符号化された、メディアコンテンツの1または複数のセグメントの要求である。オーバラップするセグメントは、2以上の異なるレート(例えば、および異なるSNR)で符号化された、メディアコンテンツの時間的に対応するセグメントによって特徴付けられる。2以上の異なるレートで符号化されたセグメントは、例えば、少なくとも遷移時間の持続時間の間に、受信される。例えば、
図17に示されるように、レートHおよびレートLで符号化されたオーバラップするセグメントは、t
aからt
bの時間間隔の間に受信される。オーバラップ要求に関連付けられた時間間隔は、オーバラップ時間間隔と呼ばれる(例えば、
図17のt
aからt
b)。グラフ1701はレートHからレートLへの遷移を示しており、一方、グラフ1702はレートLからレートHへの遷移を示している。
【0137】
クライアントは、メディアコンテンツのオーバラップするセグメントまたはサブセグメントを要求および/または受信し、例えば、オーバラップするセグメントまたはサブセグメントを使用して、メディアコンテンツの符号化ストリームの間でクロスフェードを実行する。特定のセグメントのサブセグメントが、滑らかなストリーム切り換えのために利用される。例えば、セグメントが、例えば、30秒よりも大きいなど、より長い持続時間を有する場合、クライアントは、滑らかなストリーム切り換えを実行するために、例えば、2ないし5秒に相当するサブセグメントなど、そのセグメントのオーバラップするサブセグメントを要求および/または受信する。セグメントとは、完全なセグメントのことであり、および/またはセグメントの1もしくは複数のサブセグメントのことである。
【0138】
オーバラップするセグメントを受信した後、1または複数の遷移フレームを生成するために、オーバラップするセグメントのフレームの間でクロスフェードが実行される。例えば、クロスフェードは、
図17に示されるように、レートHで符号化されたフレームと、レートLで符号化された時間的に対応する(例えば、オーバラップする)フレームとの間で実行される。例えば、クロスフェードは、t
aからt
bまでのオーバラップ時間間隔のうちの一部または全体にわたって実行される。遷移フレームは、オーバラップするセグメントのクロスフェードを介して、オーバラップ時間間隔(例えば、
図17のt
aからt
bまでの時間)において生成される。遷移フレームは、遷移時間間隔によって特徴付けられる。遷移時間間隔は、クライアントが1つのレートで符号化されたメディアコンテンツから別のレートで符号化されたメディアコンテンツに遷移する期間に関連する。遷移フレームの数は、オーバラップするフレームの数に等しく、または等しくない。したがって、遷移時間間隔は、オーバラップ時間間隔に等しく、または等しくない。
【0139】
クロスフェードは、1つのレートで符号化されたオーバラップするフレームと、別のレートで符号化されたオーバラップするフレームとの加重平均を計算することを含み、結果の遷移フレームは、遷移時間間隔にわたって1つのレートから別のレートに緩やかに遷移するパラメータを有する。例えば、各レートで符号化されたオーバラップするフレームに適用される重みは、時間につれて(例えば、遷移時間間隔にわたって)変化し、生成された遷移フレームは、様々なレートで符号化されたメディアコンテンツの間のより緩やかな遷移のために利用される。例えば、クロスフェードは、例えば、第1のレートによって特徴付けられるフレームに第1の重みを適用し、および第2のレートによって特徴付けられるフレームに第2の重みを適用することによって、1つのレート(例えば、第1のSNR)によって特徴付けられる1または複数のフレームと、別のレート(例えば、第2のSNR)によって特徴付けられる1または複数のフレームとの加重平均を計算することを含む。第1の重みおよび第2の重みの少なくとも一方は、時間につれて(例えば、遷移時間間隔にわたって)変化する。例えば、クロスフェードは、滑らかなフェードインまたはアルファブレンディングに関連する。
【0140】
クロスフェードを介して遷移フレームを生成した後、例えば、時間的に対応するフレームがレートの1または複数(例えば、レートHおよび/またはレートL)で表示される代わりに、遷移フレームがクライアントによって表示される。例えば、クライアントは、遷移および/またはオーバラップ時間間隔の前に、1つのレート(例えば、レートH)で符号化されたメディアコンテンツの1または複数のフレームを表示し、遷移および/またはオーバラップ時間間隔の間じゅうに1または複数の遷移フレームを表示し、遷移および/またはオーバラップ時間間隔の後に、別のレート(例えば、レートL)で符号化されたメディアコンテンツの1または複数のフレームを表示し、例えば、表示順は上記のとおりである。これは異なるレートで符号化されたメディアコンテンツの間で滑らかな遷移を提供する。
【0141】
図18は、ストリームをオーバラップおよびクロスフェードするためのシステム1800の一例を示す図である。
図18に示されるシステム1800は、HからLへの遷移のために利用される。
図18に示されるシステム1800は、以下の式に従って、メディアコンテンツのオーバラップするセグメントのクロスフェードを実行する。
z=α(t)L+[1−α(t)]H、ここで、α(t)=(t−t
a)/(t
b−t
a)、t
a<t<t
b
【0142】
図19は、ストリームをオーバラップおよびクロスフェードするためのシステム1900の一例を示す図である。
図19に示されるシステム1900は、LからHへの遷移のために利用される。
図19に示されるシステム1900は、以下の式に従って、メディアコンテンツのオーバラップするセグメントのクロスフェードを実行する。
z=α(t)H+[1−α(t)]L、ここで、α(t)=(t−t
a)/(t
b−t
a)、t
a<t<t
b
【0143】
図18および
図19のシステムを参照して説明される式は、異なるレートで符号化されたメディアコンテンツのフレーム(例えば、HフレームとLフレーム)の間での線形的な遷移を使用して、クロスフェードを実行するために利用される。線形的な遷移は、遷移時間を通じて、例えば、0と1の間で、(例えば、線形的または非線形的に)変化するα(t)によって特徴付けられる。
【0144】
レート(例えば、レートL)のオーバラップするストリームは、例えば、DASHにおいてオーバラップおよびクロスフェード遷移を利用する場合、サブセグメントに分割される。例えば、レートLのオーバラップするストリームが、サブセグメントに分割される場合、(例えば、HからLへの遷移の場合の)時間t
a、または(例えば、LからHへの遷移の場合の)時間t
bは、例えば、
図17に示されるように、それら時間が、それぞれ、サブセグメントの開始または終了に一致するように選択される。レートLのオーバラップするストリームがサブセグメントに分割されない場合、オーバラップ要求において、完全なセグメントが獲得され、その後、復号される。(例えば、HからLへの遷移の場合の)時間t
a、または(例えば、LからHへの遷移の場合の)時間t
bは、滑らかな遷移を実行するのに十分なフレームが利用可能であるように選択される。
【0145】
図20は、トランスコードおよびクロスフェードを使用する滑らかなストリーム切り換えの例を示すグラフである。例えば、(例えば、
図20に示されるように、t
aとt
bの間の時間に)高いSNRと低いSNRの両方で時間的に対応するメディアコンテンツを生成するために、高い(H)SNRのメディアコンテンツは、低い(L)SNRのレートまたはレベルにトランスコードされる。例えば、レートHによって特徴付けられる1または複数のセグメントを使用して、レートLによって特徴付けられるメディアコンテンツの1または複数の時間的に対応するセグメントを生成するために、トランスコードが実行される。
【0146】
トランスコードの後、レートH(例えば、高いSNR)およびレートL(例えば、低いSNR)の時間的に対応するメディアコンテンツが、本明細書で説明されるオーバラップするセグメントと同様に利用される。例えば、1または複数の遷移セグメントを生成するために、レートH(例えば、高いSNR)およびレートL(例えば、低いSNR)の時間的に対応するメディアコンテンツが、クロスフェードされる。遷移フレームは、例えば、遷移時間(例えば、
図20のt
aとt
bの間の時間)の間、レートH(例えば、SNR H)の時間的に対応するフレームの代わりに表示される。グラフ2001は、レートHからレートLへの遷移を示しており、一方、グラフ2002は、レートLからレートHへの遷移を示している。HからL SNRレベルへの滑らかな遷移、および/またはLからH SNRレベルへの滑らかな遷移は、例えば、
図20に示されるように、トランスコードおよびクロスフェードを使用することによって達成される。
【0147】
図21は、トランスコードおよびクロスフェードを行うためのシステム2100の一例を示す図である。
図21に示されるシステム2100は、HからLへの遷移のために利用される。
図21に示されるシステム2100は、以下の式に従って、高いSNRのメディアと低いSNRのトランスコードされたメディアとのクロスフェードを実行する。
z=α(t)L+[1−α(t)]H、
ここで、α(t)=(t−t
a)/(t
b−t
a)、t
a<t<t
b
【0148】
図22は、トランスコードおよびクロスフェードを行うためのシステム2200の一例を示す図である。
図22に示されるシステム2200は、LからHへの遷移のために利用される。
図22に示されるシステム2200は、以下の式に従って、高いSNRのメディアと低いSNRのトランスコードされたメディアとのクロスフェードを実行する。
z=α(t)H+[1−α(t)]L、
ここで、α(t)=(t−t
a)/(t
b−t
a)、t
a<t<t
b
【0149】
図23は、レートHとレートLの間の線形的な遷移を使用するクロスフェードの例を示すグラフである。グラフ2301は、レートHからレートLへの線形的な遷移を示しており、一方、グラフ2302は、レートLからレートHへの線形的な遷移を示している。
図23は、以下の式に従った、2点上を通過する直線の一例を示している。
y−y1=m(x−x1)、
ここで、m=(y2−y1)/(x2−x1)
【0150】
例えば、非線形的な遷移など、線形的な遷移とは別の、他の種類のクロスフェードが使用される。例えば、α(t)は、非線形的に変化する。
図24は、非線形的なクロスフェード関数の例を示すグラフ2400である。例えば、
図24は、HからLへの線型的なクロスフェード関数と比較して、より遅いHからLへの非線形的なクロスフェード関数2401、およびより速いHからLへの非線形的なクロスフェード関数2402の一例を示している。
【0151】
例えば、非線形的な遷移の場合、α(t)は、非線形関数、対数関数、および/または指数関数である。例えば、非線形関数は次数が2以上の多項式である(例えば、α(t)は、次数2の多項式であり、その場合、α(t)=a×t
2+b×t+cである)。例えば、対数関数は、α(t)=log(α(t))と定義され、ここで、logは、「b」を底とする対数であり、α(t)は、tの関数である。例えば、指数関数は、α(t)=exp(α(t))と定義され、ここで、expは、底(例えば、「2」、「e」、「10」など)であり、α(t)は、tの関数である。α(t)は、tの線形関数、非線形関数、対数関数、または指数関数である。
【0152】
図25は、スケーラブルなビデオビットストリームをクロスフェードするためのシステム2500の一例を示す図である。
図26は、スケーラブルなビデオビットストリームをクロスフェードするためのシステム2600の一例を示す図である。スケーラブルなビデオコーデックが使用される場合、例えば、オーバラップするセグメントに関して本明細書で説明されたように、ベースレイヤとエンハンスメントレイヤとの間のクロスフェードを使用して、異なるレイヤ間で滑らかな切り換えが実行される。
図25および
図26は、スケーラブルなビデオコーデックの場合の、それぞれ、HからLへの遷移およびLからHへの遷移における滑らかなストリーム切り換えのための例示的なシステム2500、2600を示している。スケーラブルなビデオビットストリームに対して、1つのベースレイヤと、1または複数のエンハンスメントレイヤが存在する。エンハンスメントレイヤは、先行するレイヤ(例えば、ベースレイヤまたはより低いエンハンスメントレイヤ)を改善したものである。例えば、エンハンスメントレイヤは、先行するレイヤのSNR、フレームレート、および/または解像度を改善したものである。例えば、ベースレイヤを復号することによってL表現が獲得され、一方、ベースレイヤおよび1または複数のエンハンスメントレイヤを復号することによってH表現が獲得される。
【0153】
図27は、QPクロスフェードを使用する漸進的なトランスコードのためのシステム2700の一例を示す図である。滑らかな切り換えは、例えば、
図27に示されるように、SNRがレートHにあるメディアコンテンツ(例えば、ビデオストリーム)をトランスコードし、QPHとQPLとの間でクロスフェードを使用してQPを制御することによって実行される。
図27には示されていないが、復号器は符号化器の後に提供され、それによって、この復号器の出力は滑らかなストリーム切り換えのために利用される1または複数の遷移フレームとなる。H表現およびL表現のQPが獲得される。例えば、QPは、ビットストリームで伝達され、MPDで伝達され、および/または復号器によって推定される。クロスフェードは、H表現およびL表現のQPの間で実行される。結果のQP値は、シーケンスを再符号化して、1または複数の遷移フレームを生成するために使用される。例えば、1または複数の遷移フレームが、
図21および
図22を参照して説明されたのと同様の方法で生成され、例えば、例として、様々なSNRを有するビットストリームを生成するために、(
図21ないし
図22におけるように)復号されたフレーム上でクロスフェードを実行する代わりに、QP領域内でクロスフェードが実行される。
【0154】
図28は、後処理を使用する滑らかなストリーム切り換えの例を示す図である。後処理を使用する滑らかなストリーム切り換えは、異なるパラメータ(例えば、SNR、解像度、ビットレートなど)を有するストリームの間で切り換えを行うために使用される1または複数の遷移フレームを生成するための、例えば、フィルタリングおよび再量子化などの後処理技法の使用に関連する。後処理は、1または複数のより高いパラメータ(例えば、
図28に示されるような、より高いSNR)によって特徴付けられるメディアコンテンツ上で実行される。例えば、レートHのストリームは、レートLのストリームへの、またはレートLのストリームからの緩やかな遷移を達成するために、後処理を施される。後処理は、他の方法による場合は、オーバラップおよびクロスフェード、ならびに/またはトランスコードおよびクロスフェードを介して生成または獲得される、遷移フレームを生成するために利用される。後処理を介して生成された遷移フレームは、例えば、
図28に示されるように、時間的に対応するレートHのフレームの代わりに、遷移時間(例えば、t
aとt
bの間の時間)中に表示される。グラフ2801は、レートHからレートLへの遷移を示しており、一方、グラフ2802は、レートLからレートHへの遷移を示している。後処理は、クライアントにおける計算負荷を低減する。後処理は、オーバラップ要求が利用されないので、ネットワークトラフィックを増加させない。
【0155】
後処理の入力は、より高いレートで符号化され、および/またはより高いパラメータ(例えば、より高いSNRを用いて符号化されたフレーム)によって特徴付けられる、メディアコンテンツである。後処理の出力は、1つのレートで符号化されたストリームから別のレートで符号化されたストリームにより緩やかに遷移するために、遷移時間中に利用される、遷移フレームである。メディアコンテンツの視覚品質を低下させて、遷移フレームを生成するために、例えば、フィルタリングおよび再量子化など、様々な後処理技法が使用される。
【0156】
滑らかなストリーム切り換えのための遷移フレームを生成するために、フィルタリングが、後処理技法として利用される。
図29は、異なるカットオフ周波数を有するローパスフィルタの周波数応答の一例を示すグラフ2900である。例えば、1または複数の遷移フレームを生成するため、強度が変化するローパスフィルタ(例えば、または強度が変化しない1もしくは複数のローパスフィルタ)が、より高いレートで符号化された、および/またはより高いパラメータ(例えば、より高いSNRを用いて符号化されたフレーム)によって特徴付けられる、メディアコンテンツに適用される。ローパスフィルタは、Hよりも低いレートの遷移フレームを生成するために使用される、より高い圧縮の効果をシミュレートする。
【0157】
ローパスフィルタの強度(例えば、カットオフ周波数)は、例えば、
図29に示されるように、レートHのフレームを低下させる所望の程度に従って変化する。例えば、h(m,n)がレートHのフレームであり、lp(k,l)がローパスフィルタの有限インパルス応答(FIR)である場合、以下の式に従って、後処理フレームp(m,n)(例えば、遷移フレーム)が生成される。
p(m,n)=h(m,n)*lp(k,l)、
ここで、「*」は、畳み込みを表す。
【0158】
滑らかなストリーム切り換えのための1または複数の遷移フレームを生成するために、再量子化が、後処理技法として利用される。例えば、Hよりも低いレートの遷移フレームを生成するため、レートHのフレームのピクセル値が、変換され、異なるレベルで量子化される。1または複数の量子化器(例えば、一様な量子化器)は、遷移フレームを生成するために利用される。例えば、1または複数の量子化器は、レートHのフレームを低下させる所望の程度に従って変化する、ステップサイズによって特徴付けられる。より大きなステップサイズは、より大きい/より高い低下をもたらし、および/またはレートLのフレームにより良く類似した遷移フレームを生成するために利用される。量子化レベルの数は、輪郭の描画を回避するのに十分なものにする(例えば、一定レベルを有するピクセルからなる連続領域の境界は輪郭と呼ばれる)。h(m,n)がレートHのフレームであり、Q(・,s)がステップサイズsの一様な量子化器である場合、後処理フレームp(m,n)(例えば、遷移フレーム)は、以下の式に従って、ピクセル量子化を使用して生成される。
p(m,n)=Q(h(m,n),s)
【0159】
異なる空間解像度を有するストリームとともに、滑らかな切り換えが利用される。クライアントデバイス(例えば、スマートフォン、タブレットなど)は、ストリーミング再生中に、ビデオをフルスクリーンに拡大する。ビデオのフルスクリーンへの拡大は、ストリーミングセッション中に、異なる空間解像度で符号化されたストリームの間の切り換えを可能にする。例えば、ダウンサンプリング中に高周波数情報が失われるので、低い解像度からのストリームのアップサンプリングは、ビデオが不鮮明になる原因となる、視覚的なアーチファクトを生じさせる。
【0160】
図30は、異なるフレーム解像度を有するストリームについての滑らかな切り換えの一例を示す図である。
図3000は、滑らかなストリーム切り換えを利用せず、突然の遷移3001を含む例である。
図3010は、滑らかなストリーム切り換えを利用し、滑らかな遷移3011を含む例である。異なるフレーム解像度を有するストリームの間で滑らかな切り換えを実行する場合、例えば、
図30に示されるように、低解像度フレームのアップサンプリングが原因で生じる視覚的なアーチファクトが最低限に抑えられる。ストリームHおよびLにおけるフレームレートおよび/またはフレーム露出時間は同じである。
【0161】
図31は、異なるフレーム解像度を有するストリームのための1または複数の遷移フレームを生成する一例を示す図である。例えば、
図31に示されるように、異なるレートで符号化されたメディアコンテンツ(例えば、フレームレートHおよび/またはフレームレートLのビデオストリーム)からの情報を使用して、1または複数の遷移フレーム3101が生成される。(例えば、t
aからt
bの)遷移時間にわたる、1つのフレーム解像度(例えば、フレーム解像度L)にある、メディアコンテンツ3102のオーバラップするセグメントが、クライアントによって要求および/または受信される。(例えば、taとtbの間の)遷移時間にわたって、1または複数のアップサンプリングされたフレーム3103を生成するために、より低いレートで符号化されたメディアコンテンツからの、同じ時間位置にある1または複数のフレーム3102が、より高い解像度で符号化されたメディアコンテンツと同じ解像度にアップサンプリングされる。例えば、ストリームLの1または複数のフレーム3102は、ストリームHからのフレームと同じ解像度にアップサンプリングされる。アップサンプリングは、クライアントの組み込み機能を使用して実行される。ストリームH3104およびL3102からのフレームと同じ時間位置にあるアップサンプリングされたフレーム3103が、例えば、クロスフェードを使用することによって、時間的に対応する遷移フレーム3101を生成するために利用される。その後、再生中に、1つの解像度から別の解像度(例えば、HからL、またはLからH)への滑らかな切り換えを行うときに、遷移フレーム3101が利用される。
【0162】
図32は、異なるフレーム解像度を有するストリームについてのH−L遷移におけるクロスフェードのためのシステム3200の一例を示す図である。
図32のシステム3200は、以下の式に従って、HからLへの遷移においてクロスフェードを実行する。
z=α(t)L+[1−α(t)]H、
ここで、α(t)=(t−t
a)/(t
b−t
a)、t
a<t<t
b
【0163】
図33は、異なるフレーム解像度を有するストリームについてのL−H遷移におけるクロスフェードのためのシステム3300の一例を示す図である。
図33のシステム3300は、以下の式に従って、LからHへの遷移においてクロスフェードを実行する。
z=α(t)H+[1−α(t)]L、
ここで、α(t)=(t−t
a)/(t
b−t
a)、t
a<t<t
b
【0164】
異なるフレームレートを有するストリームとともに、滑らかなストリーム切り換えが利用される。低いフレームレートを有するメディアコンテンツ(例えば、ビデオストリーム)は、例えば、より高いフレームレートを有するメディアコンテンツと比較して、フレームが時間的に互いに遠く離れているので、フレーム間の貧弱な時間的相関に悩まされる。低いフレームレートを有するメディアコンテンツのストリームを高いフレームレートに変換するために、フレームレートアップサンプリング(FRU)技法が利用される。
【0165】
図34は、異なるフレームレートを有するストリームについての滑らかな切り換えのためのシステム3400の一例を示す図である。例えば、
図34に示されるように、低いフレームレートに起因する視覚的なアーチファクトを最低限に抑えるため、異なるフレームレートを有するストリーム間の滑らかな切り換えが利用される。HフレームレートストリームとLフレームレートストリームのフレーム解像度は同じである。
【0166】
図35は、異なるフレームレートを有するストリームのための1または複数の遷移フレームを生成する一例を示す図である。例えば、
図35に示されるように、高いフレームレート(例えば、フレームレートH)で符号化されたメディアコンテンツのストリームからの情報、および低いフレームレート(例えば、フレームレートL)で符号化されたメディアコンテンツのストリームからの情報を使用して、1または複数の遷移フレーム3501が生成される。クライアントは、(例えば、t
aとt
bの間の)遷移時間にわたる、より低いフレームレート(例えば、フレームレートL)にある、メディアコンテンツのオーバラップするセグメントを要求および/または受信する。高いレートで符号化された時間的に対応するフレームに加えて、オーバラップするフレームが要求および/または受信される。(例えば、t
aとt
bの間の)遷移時間にわたって、1または複数の遷移フレーム3501が生成される。例えば、フレームレートHで符号化されたフレーム3502と、フレームレートLで符号化された時間的に先行するフレーム3503とを使用して、例えば、フレームを組み合わせることによって、遷移フレーム3501が生成される。生成された遷移フレーム3501は、フレームレートHで符号化されたフレーム3502と同じ時間位置で利用され、フレームレートLで符号化されたフレーム3503と同じ時間位置では利用されない。例えば、
図35に示されるように、生成された遷移フレーム3501と同じ時間位置に、フレームレートLで符号化されたフレームは存在しない。
【0167】
図36は、異なるフレームレートを有するストリームについてのH−L遷移におけるクロスフェードのためのシステム3600の一例を示す図である。
図36のシステム3600は、以下の式に従って、HからLへの遷移においてクロスフェードを実行する。
z=α(t)L+[1−α(t)]H、
ここで、α(t)=(t−t
a)/(t
b−t
a)、t
a<t<t
b
【0168】
図37は、異なるフレームレートを有するストリームについてのL−H遷移におけるクロスフェードのためのシステム3700の一例を示す図である。
図37のシステム3700は、以下の式に従って、LからHへの遷移においてクロスフェードを実行する。
z=α(t)H+[1−α(t)]L、
ここで、α(t)=(t−t
a)/(t
b−t
a)、t
a<t<t
b
【0169】
HからLへの遷移および/またはLからHへの遷移を滑らかにするために、持続時間の非対称性が利用される。低い品質の表現から高い品質の表現への遷移は、高い品質の表現から低い品質の表現への遷移よりも低い低下効果によって特徴付けられる。HからLへの遷移およびLからHへの遷移を滑らかにするための時間遅延は異なる。例えば、より長い遷移(例えば、より多くの遷移フレームを含む遷移)は、HからLへの遷移の場合はより長く、LからHへの遷移の場合はより短い。例えば、H品質からL品質への遷移については、数秒(例えば、2秒)の遷移が利用され、および/または、L品質からH品質への遷移については、僅かに短い(例えば、1秒)の遷移が利用される。
【0170】
例えば、DASHでは、滑らかなストリーム切り換えが、オーディオ遷移のために利用される。DASH規格は、SAPと呼ばれる、ストリーム間に1または複数の種類の接続を定義する。SAPは、これらのポイントでつながるストリームの連鎖が正しく復号可能なMPEGストリームをもたらすことを保証するために利用される。
【0171】
図38は、MDCTベースの音声およびオーディオコーデックで使用される重畳加算窓の一例を示すグラフ3800である。オーディオストリームは、Iフレーム(例えば、またはIフレームの等価物)を含まない。例えば、MP3、MPEG−4 AAC、HE−AACなどのオーディオコーデックは、ブロックと呼ばれるユニット(例えば、1024および960のサンプルブロック)で、オーディオサンプルを符号化する。ブロックは、相互に依存する。この相互依存性は、例えば、
図38に示されるように、変換(例えば、MDCT)を計算する前にこれらのブロック内のサンプルに適用される、オーバラップする窓に起因する。
【0172】
オーディオコーデックは、最初に1つのブロックを復号し、廃棄する。これは、例えば、オーバラップする窓を利用するMDCT変換の完全再構成特性のため、後続するすべてのブロックを正しく復号するのに数学的には十分である。例えば、ランダムアクセスを達成するために、要求されたデータを復号する前に、復号されるブロックに先行するブロックが、取得され、復号され、その後、廃棄される。オーディオコーデック(例えば、HE−AAC、AAC−ELD、MPEGサラウンドなど)の場合、最初に廃棄されるブロックの数は、例えば、SBRツールを使用するため、おおよそ1(例えば、3ブロック)である。
【0173】
オーディオセグメントは、分類されず(例えば、Start WithSAPアトリビュートを含まず)、もしくは例えば、ストリーム切り換えが存在しない場合、および/または同じコーデックを使用するストリーム間の切り換えが存在する場合、SAP種類=1に分類され、同じサンプリングレートおよび同じカットオフ周波数でキャプチャされたオーディオで動作し、同じ数のチャネルを使用し、ならびに/またはコーデックにおいて同じツールおよびモードを使用する(例えば、SBRツールの追加/除去はなく、同じステレオ符号化モードを使用するなど)。
【0174】
例えば、高品質再生のために、128KbpsのステレオAACストリームが利用される。より低い品質のために、ストリームは、約64ないし80Kbpsに低減される。32ないし48Kbpsのレートにするために、SBRツール(例えば、HE−AACを使用)、パラメトリックステレオへの切り換えなどが利用される。
【0175】
図39は、廃棄可能ブロックを有するオーディオアクセスポイントの一例3900を示す図である。例えば、
図39に示されるように、(例えば、AACおよびMP3オーディオコーデックを用いる場合)最初の1つのブロック3901が廃棄される。オーディオアクセスポイントについて、TEPT=TPTF<TSAP=TDECが成り立つ。これは、例えば、TEPT<=TPFT<TDEC=TSAPで示される、DASHのSAP種類4にマッピングされる。
【0176】
図40は、3つの廃棄可能ブロックを有するHE−ACCオーディオアクセスポイントの一例4000を示す図である。復号器は、2以上(例えば、3)の先頭ブロック4001を復号し、廃棄する。これは、HE−AACコーデックへの切り換えのために実行され、AACコーダは、半分のサンプリングレートで動作し、および/または、SBRツールを始動させるために特別なデータを利用する。例えば、3つのブロック4001が復号され、廃棄される場合、第2および第3のブロックは、コアAACコーデックの観点から、正しく復号されたと見なされるが、TSAPは、フルスペクトル再構成のため、種類6のDASH SAPに設定される。例えば、DASHの種類6のSAPは、データ種類またはそれを使用する手段に関連なく、TEPT<TDEC<TSAPによって特徴付けられる。
【0177】
切り替え可能なオーディオストリームのために、SAPポイント宣言が利用される。例えば、MDCTコアAAC、ドルビAC3、および/またはMP3コーデックの場合、SAPは、SAP種類4のポイントとして定義される。例えば、HE−AAC、AAC−ELD、MPEGサラウンド、MPEG SAOC、および/またはMPEG USACコーデックについては、SAPは、SAP種類6のポイントとして定義される。例えば、オーディオコーデックとともに使用するために、新しいSAP種類(例えば、SAP種類「0」)が定義される。新しいSAP種類は、TEPT<=TPFT<TDEC<=TSAPによって特徴付けられる。例えば、TDEC<TSAPである場合、ポイント間の距離を定義するために、追加のパラメータが利用される。例えば、DASHのほとんどのプロファイルは、種類<=3のSAPをサポートするので、例えば、新しいSAP種類(例えば、種類0)の使用は、プロファイルの変更を伴わない。
【0178】
オーディオストリーム間のシームレスなストリーム切り換えが実施される。SAP種類が正しく定義された場合、セグメントの連鎖は、再生中に最良のユーザエクスペリエンス(experience)をもたらさない。コーデックまたはサンプリングレートの変更は、再生中のクリック音として現れる。そのようなクリック音を回避するため、クライアント(例えば、DASHクライアント)は、例えば、ビデオ切り換えに関して上で説明されたものと同様の、復号および/またはクロスフェード操作を実施する。
【0179】
図41は、H−L遷移におけるオーディオストリームのクロスフェードのためのシステム4100の一例を示す図である。
図41のシステム4100は、以下の式に従って、HからLへの遷移においてオーディオのクロスフェードを実行する。
z=α(t)L+[1−α(t)]H
【0180】
図42は、LからHへの遷移におけるオーディオストリームのクロスフェードのためのシステム4200の一例を示す図である。
図42のシステム4200は、以下の式に従って、HからLへの遷移においてオーディオのクロスフェードを実行する。
z=α(t)H+[1−α(t)]L
【0181】
実施のいくつかは符号化または復号の一方に関して上では説明されたが、実施がメディアコンテンツのストリームの符号化および復号の両方に対して利用されることを当業者は理解される。
【0182】
上では特徴および要素が特定の組み合わせで説明されたが、各特徴または要素は、単独で使用でき、または他の特徴および要素との任意の組み合わせで使用できることを当業者は理解される。加えて、本明細書で説明された方法は、コンピュータまたはプロセッサによって実行される、コンピュータ可読媒体内に包含された、コンピュータプログラム、ソフトウェア、またはファームウェアで実施される。コンピュータ可読媒体の例は、(有線または無線接続上で送信される)電子信号、およびコンピュータ可読記憶媒体を含む。コンピュータ可読記憶媒体の例は、読出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスクおよび着脱可能ディスクなどの磁気媒体、光磁気媒体、ならびにCD−ROMディスクおよびデジタル多用途ディスク(DVD)などの光媒体を含むが、それらに限定されない。ソフトウェアと連携するプロセッサは、WTRU、UE、端末、基地局、RNC、または任意のホストコンピュータのための無線周波送受信機を実施するために使用される。