(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-30
(54)【発明の名称】ビデオ処理のための方法、装置及び媒体
(51)【国際特許分類】
H04L 65/60 20220101AFI20240920BHJP
【FI】
H04L65/60
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024519951
(86)(22)【出願日】2022-09-29
(85)【翻訳文提出日】2024-04-03
(86)【国際出願番号】 US2022077299
(87)【国際公開番号】W WO2023056386
(87)【国際公開日】2023-04-06
(32)【優先日】2021-10-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520477474
【氏名又は名称】バイトダンス インコーポレイテッド
【氏名又は名称原語表記】BYTEDANCE INC.
【住所又は居所原語表記】12655 West Jefferson Boulevard, Sixth Floor, Suite No. 137 Los Angeles, California 90066 United States of America
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ワン,イェ-クイ
(57)【要約】
本開示の実施形態は、ビデオ処理のための方案を提供する。ビデオ処理方法が提案される。前記方法は、第1のデバイスで、第2のデバイスからメタデータファイルを受信するステップと、前記メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がメインストリーム表現(MSR)であることを示すステップとを含む。
【選択図】
図12
【特許請求の範囲】
【請求項1】
ビデオ処理方法であって、
第1のデバイスで、第2のデバイスからメタデータファイルを受信するステップと、
前記メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がメインストリーム表現(MSR)であることを示すステップとを含む、方法。
【請求項2】
ビデオ処理方法であって、
第2のデバイスで、メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がMSRであることを示すステップと、
前記メタデータファイルを第1のデバイスに送信するステップとを含む、方法。
【請求項3】
前記記述子は、ユニフォームリソースネーム(URN:uniform resource name)文字列に等しい属性を持つデータ構造として定義される、請求項1又は2に記載の方法。
【請求項4】
前記メタデータファイルはメディアプレゼンテーション記述(MPD:media presentation description)であり、前記データ構造は前記MPDにおけるEssentialPropertyである、請求項3に記載の方法。
【請求項5】
前記メタデータファイルはメディアプレゼンテーション記述(MPD)であり、前記データ構造は前記MPDにおけるSupplementalPropertyである、請求項3に記載の方法。
【請求項6】
前記属性はschemeIdUri属性であり、前記URN文字列は「urn:mpeg:dash:msr:2022」である、請求項4~5のいずれか一項に記載の方法。
【請求項7】
前記データセットは、アダプテーションセット又は表現である、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記データセットはアダプテーションセットであり、前記アダプテーションセットにおける表現の全部又は一部がMSRである、請求項1~6のいずれか一項に記載の方法。
【請求項9】
前記MSRにおける拡張従属ランダムアクセスポイント(EDRAP:extended dependent random access point)サンプルは、ストリームアクセスポイント(SAP:stream access point)の開始アクセスユニット(SAU:starting access unit)の指示を含む、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記EDRAPサンプルは、前記EDRAPサンプルに関連付けられた外部ストリーム表現(ESR:external stream representation)サンプルがデコーダに提供された後に前記デコーダに提供される、請求項9に記載の方法。
【請求項11】
前記EDRAPサンプルの第1のバイト位置は、前記SAUのインデックスである、請求項9~10のいずれか一項に記載の方法。
【請求項12】
前記メタデータファイルはMDPであり、前記MDP内のセグメントは前記MSR内のEDRAPピクチャで始まる、請求項1~11のいずれか一項に記載の方法。
【請求項13】
プロセッサと命令を備えた非一時的なメモリとを含むビデオデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに請求項1~12のいずれか一項に記載の方法を実行させる、装置。
【請求項14】
プロセッサに請求項1~12のいずれか一項に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2021年10月1日に出願された米国仮出願第63/251,336号の優先権の利益を主張し、その全内容は、参照により本明細書に組み込まれる。
【0002】
本開示の実施形態は、概して、ビデオ符号化技術に関し、より詳細には、メインストリーム表現記述子に関する。
【背景技術】
【0003】
メディアストリーミングアプリケーションは、通常、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、及びハイパーテキスト転送プロトコル(HTTP)トランスポート方法に基づいており、通常、ISOベースメディアファイルフォーマット(ISOBMFF)などのファイルフォーマットに依存している。このようなストリーミングシステムの1つは、HTTPベースの動的適応ストリーミング(DASH)である。DASHでは、マルチメディアコンテンツのビデオ及び/又はオーディオデータの多重表現が存在し得るが、異なる表現は、異なる符号化特性(例えば、ビデオ符号化規格の異なるプロファイ又はレベル、異なるビットレート、異なる空間解像度など)に対応し得る。また、拡張従属ランダムアクセスポイント(EDRAP)ピクチャベースのビデオ符号化及びストリーミングが提案されている。したがって、メインストリーム表現を識別するメカニズムについては研究する価値がある。
【発明の概要】
【0004】
本開示の実施形態は、ビデオ処理のための方案を提供する。
【0005】
第1の態様では、ビデオ処理方法が提案される。前記方法は、第1のデバイスで、第2のデバイスからメタデータファイルを受信するステップと;前記メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がメインストリーム表現(MSR)であることを示すステップと;を含む。
【0006】
本開示の第1の態様による方法に基づいて、MSRを識別するために記述子が使用される。属性を利用してMSRを識別する従来の方案と比較して、提案された方法は、より効率的にMSRを識別できるという利点がある。
【0007】
第2の態様では、別のビデオ処理方法が提案される。前記方法は、第2のデバイスで、メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がMSRであることを示すステップと;前記メタデータファイルを第1のデバイスに送信するステップと;を含む。
【0008】
本開示の第2の態様による方法に基づいて、MSRを識別するために記述子が使用される。属性を利用してMSRを識別する従来の方案と比較して、提案された方法は、より効率的にMSRを識別できるという利点がある。
【0009】
第3の態様では、ビデオデータを処理する装置が提案される。前記ビデオデータを処理する装置は、プロセッサと、命令を備えた非一時的なメモリとを含む。前記命令は前記プロセッサによって実行されると、前記プロセッサに本開示の第1又は第2の態様による方法を実行させる。
【0010】
第4の態様では、非一時的なコンピュータ可読記憶媒体が提案される。前記非一時的なコンピュータ可読記憶媒体は、プロセッサに本開示の第1又は第2の態様による方法を実行させる命令を記憶する。
【0011】
この発明の概要は、以下の詳細な説明でさらに記述される概念の選択を簡略化した形で紹介するために提供される。この発明の内容は、特許請求の範囲に記載された主題の主な特徴又は本質的な特徴を特定することを意図したものではなく、また、特許請求の範囲に記載された主題の範囲を制限するために使用されることを意図したものでもない。
【図面の簡単な説明】
【0012】
添付の図面を参照した以下の詳細な説明を通じて、本開示の例示的な実施形態の上記及び他の目的、特徴、及び利点がより明らかになるであろう。本開示の例示的な実施形態では、同じ参照番号は通常、同じ構成要素を指す。
【
図1】本開示のいくつかの実施形態による例示的なビデオ符号化システムのブロック図を示す。
【
図2】本開示のいくつかの実施形態による例示的なビデオエンコーダのブロック図を示す。
【
図3】本開示のいくつかの実施形態による例示的なビデオデコーダのブロック図を示す。
【
図4】ランダムアクセスポイント(RAP)の概念を示す。
【
図5】ランダムアクセスポイント(RAP)の概念を示す。
【
図6】依存型ランダムアクセスポイント(DRAP)の概念を示す。
【
図7】依存型ランダムアクセスポイント(DRAP)の概念を示す。
【
図8】拡張従属ランダムアクセスポイント(EDRAP)の概念を示す。
【
図9】拡張従属ランダムアクセスポイント(EDRAP)の概念を示す。
【
図10】EDRAPベースのビデオストリーミングを示す。
【
図11】EDRAPベースのビデオストリーミングを示す。
【
図12】本開示のいくつかの実施形態によるビデオ処理方法のフローチャートを示す。
【
図13】本開示のいくつかの実施形態によるビデオ処理方法のフローチャートを示す。
【
図14】本開示の様々な実施形態を実施できるコンピューティングデバイスのブロック図を示す。 図面の全体にわたって、同じ又は類似の参照番号は通常、同じ又は類似の要素を指す。
【発明を実施するための形態】
【0013】
次に、いくつかの実施形態を参照して、本開示の原理を説明する。これらの実施形態は、説明のみを目的として記載されており、当業者が本開示を理解し実施するのを助けるものであり、本開示の範囲に関していかなる限定も示唆するものではないことを理解すべきである。本明細書に記載の開示は、以下に記載する方法以外にも様々な方法で実施されることができる。
【0014】
以下の説明及び特許請求の範囲において、別段の定義がない限り、本明細書で使用されるすべての技術用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。
【0015】
本開示における「一つの実施形態」、「一実施形態」、「例示的な実施形態」などへの言及は、記載される実施形態が特定の特徴、構造、又は特性を含み得ることを示すが、必ずしもすべての実施形態が特定の特徴、構造、又は特性を含むとは限らない。また、そのような語句は必ずしも同じ実施形態を指しているわけではない。さらに、特定の特徴、構造、又は特性が例示的な実施形態に関連して説明される場合、明示的に記載されているかどうかにかかわらず、他の実施形態に関連してそのような特徴、構造、又は特性に影響を与えることは当業者の知識の範囲内であることが指摘される。
【0016】
「第1」及び「第2」などの用語は、本明細書では様々な要素を説明するために使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことを理解すべきである。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、例示的な実施形態の範囲から逸脱することなく、第1の要素が第2の要素と呼ばれ得、同様に、第2の要素が第1の要素と呼ばれ得る。本明細書で使用される「及び/又は」という用語には、列挙された用語の1つ又は複数のあらゆる組み合わせが含まれる。
【0017】
本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用されるように、単数形「a(一つの)」、「an(一つの)」、及び「the(その)」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。「含む」、「備える」、「有する」、「持つ」、「含む」及び/又は「包含する」という用語は、本明細書で使用される場合、記載された特徴、要素、及び/又は構成要素などの存在を特定するが、1つ又は複数の他の特徴、要素、構成要素及び/又はそれらの組み合わせの存在又は追加を排除するものではないことがさらに理解されるであろう。
【0018】
例示的な環境
図1は、本開示の技術を利用し得る例示的なビデオ符号化システム100を示すブロック図である。図示されるように、ビデオ符号化システム100は、ソース(送信元)デバイス110と、宛先(送信先)デバイス120を含み得る。ソースデバイス110は、ビデオ符号化デバイスとも呼ばれ得、宛先デバイス120は、ビデオ復号デバイスとも呼ばれ得る。動作中、ソースデバイス110は、符号化されたビデオデータを生成するように構成されることができ、宛先デバイス120は、ソースデバイス110によって生成された符号化されたビデオデータを復号するように構成されることができる。ソースデバイス110は、ビデオソース112と、ビデオエンコーダ114と、入出力(I/O)インターフェース116とを含み得る。
【0019】
ビデオソース112は、ビデオキャプチャデバイスなどのソースを含み得る。ビデオキャプチャデバイスの例には、ビデオコンテンツプロバイダからビデオデータを受信するインターフェース、ビデオデータを生成するコンピュータグラフィックスシステム、及び/又はそれらの組み合わせが含まれるが、これらに限定されない。
【0020】
ビデオデータは、1つ又は複数のピクチャを含み得る。ビデオエンコーダ114は、ビデオソース112からのビデオデータを符号化してビットストリームを生成する。ビットストリームには、ビデオデータの符号化表現を形成する一連のビットが含まれ得る。ビットストリームには、符号化ピクチャ及び関連データが含まれ得る。符号化ピクチャは、ピクチャの符号化表現である。関連データには、シーケンスパラメータセット、ピクチャパラメータセット、及び他のシンタックス構造が含まれ得る。I/Oインターフェース116は、変調器/復調器及び/又は送信機を含み得る。符号化されたビデオデータは、I/Oインターフェース116を介してネットワーク130Aを通して宛先デバイス120に直接送信され得る。符号化されたビデオデータは、宛先デバイス120によるアクセスのために記憶媒体/サーバ130Bに記憶され得る。
【0021】
宛先デバイス120は、I/Oインターフェース126と、ビデオデコーダ124と、表示デバイス122とを含み得る。I/Oインターフェース126は、受信機及び/又はモデムを含み得る。I/Oインターフェース126は、ソースデバイス110又は記憶媒体/サーバ130Bから符号化されたビデオデータを取得し得る。ビデオデコーダ124は、符号化されたビデオデータを復号し得る。表示デバイス122は、復号されたビデオデータをユーザに表示し得る。表示デバイス122は、宛先デバイス120と一体化されてもよいし、或いは外部表示デバイスとインターフェースするように構成された宛先デバイス120の外部にあってもよい。
【0022】
ビデオエンコーダ114及びビデオデコーダ124は、High Efficiency Video Coding(高効率ビデオ符号化、HEVC)規格、Versatile Video Coding(多用途ビデオ符号化、VVC)規格及び他の現在及び/又はさらなる規格などのビデオ圧縮規格に従って動作し得る。
【0023】
図2は、本開示のいくつかの実施形態による、
図1に示されるシステム100内のビデオエンコーダ114の一例であり得るビデオエンコーダ200の一例を示すブロック図である。
【0024】
ビデオエンコーダ200は、本開示の技術のいずれか又はすべてを実施するように構成され得る。
図2の例では、ビデオエンコーダ200は複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオエンコーダ200の様々なコンポーネント間で共有され得る。いくつかの例では、プロセッサは、本開示で説明された技術のいずれか又はすべてを実行するように構成され得る。
【0025】
いくつかの実施形態では、ビデオエンコーダ200は、分割ユニット201と、モード選択ユニット203、動き推定ユニット204、動き補償ユニット205及びイントラ予測ユニット206を含み得る予測ユニット202と、残差生成ユニット207と、変換ユニット208と、量子化ユニット209と、逆量子化ユニット210と、逆変換ユニット211と、再構築ユニット212と、バッファ213と、エントロピー符号化ユニット214とを含み得る。
【0026】
他の例では、ビデオエンコーダ200は、より多くの、より少ない、又は異なる機能コンポーネントを含み得る。一例では、予測ユニット202は、イントラブロックコピー(IBC)ユニットを含み得る。IBCユニットは、少なくとも1つの参照ピクチャが、現在ビデオブロックが位置するピクチャであるIBCモードで予測を実行し得る。
【0027】
さらに、動き推定ユニット204及び動き補償ユニット205などのいくつかの構成要素は統合され得るが、
図2の例では説明の目的で別々に表されている。
【0028】
分割ユニット201は、ピクチャを1つ又は複数のビデオブロックに分割し得る。ビデオエンコーダ200及びビデオデコーダ300は、多様なビデオブロックサイズをサポートし得る。
【0029】
モード選択ユニット203は、例えば、エラー結果に基づいて、イントラ又はインターの符号化モードのうちの1つを選択し、その結果から得られるイントラ符号化又はインター符号化されたブロックを、残差ブロックデータを生成するように残差生成ユニット207に提供し、符号化されたブロックを再構築して参照ピクチャとして使用するように再構築ユニット212に提供し得る。いくつかの例では、モード選択ユニット203は、予測がインター予測信号及びイントラ予測信号に基づくイントラ及びインター予測の組み合わせ(CIIP)モードを選択し得る。モード選択ユニット203は、インター予測の場合、ブロックの動きベクトルの解像度(例えば、サブピクセル又は整数ピクセル精度)を選択し得る。
【0030】
現在ビデオブロックに対してインター予測を実行するために、動き推定ユニット204は、バッファ213からの1つ又は複数の参照フレームを現在ビデオブロックと比較することによって現在ビデオブロックの動き情報を生成し得る。動き補償ユニット205は、現在ビデオブロックに関連するピクチャ以外のバッファ213からのピクチャの動き情報及び復号化サンプルに基づいて、現在ビデオブロックの予測ビデオブロックを決定し得る。
【0031】
動き推定ユニット204及び動き補償ユニット205は、例えば、現在ビデオブロックがIスライス、Pスライス、又はBスライスのいずれにあるかに応じて、現在ビデオブロックに対して異なる演算を実行し得る。本明細書で使用されるように、「Iスライス」は、マクロブロックから構成されるピクチャの一部を指し得、そのすべてが同じピクチャ内のマクロブロックに基づいている。さらに、本明細書で使用されるように、いくつかの態様では、「Pスライス」及び「Bスライス」は、同じピクチャ内のマクロブロックに依存しないマクロブロックから構成されるピクチャの部分を指し得る。
【0032】
いくつかの例では、動き推定ユニット204は、現在ビデオブロックに対して単方向予測を実行し得、動き推定ユニット204は、現在ビデオブロックの参照ビデオブロックに対するリスト0又はリスト1の参照ピクチャを探し得る。次に、動き推定ユニット204は、参照ビデオブロックを含むリスト0又はリスト1内の参照ピクチャを示す参照インデックスと、現在ビデオブロックと参照ビデオブロックとの間の空間変位を示す動きベクトルとを生成し得る。動き推定ユニット204は、参照インデックス、予測方向指示子、及び動きベクトルを現在ビデオブロックの動き情報として出力し得る。動き補償ユニット205は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。
【0033】
代替形態として、他の例では、動き推定ユニット204は、現在ビデオブロックに対して双方向予測を実行し得る。動き推定ユニット204は、現在ビデオブロックの参照ビデオブロックに対するリスト0内の参照ピクチャを探してもよいし、現在ビデオブロックの別の参照ビデオブロックに対するリスト1内の参照ピクチャを探してもよい。次に、動き推定ユニット204は、参照ビデオブロックを含むリスト0及びリスト1内の参照ピクチャを示す参照インデックスと、参照ビデオブロックと現在ビデオブロックとの間の空間変位を示す動きベクトルとを生成し得る。動き推定ユニット204は、現在ビデオブロックの参照インデックス及び動きベクトルを現在ビデオブロックの動き情報として出力し得る。動き補償ユニット205は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。
【0034】
いくつかの例では、動き推定ユニット204は、デコーダの復号処理のためのフルセットの動き情報を出力し得る。代替形態として、いくつかの実施形態では、動き推定ユニット204は、別のビデオブロックの動き情報を参照して現在ビデオブロックの動き情報をシグナリングし得る。例えば、動き推定ユニット204は、現在ビデオブロックの動き情報が隣接するビデオブロックの動き情報と十分に類似していると判定し得る。
【0035】
一例では、動き推定ユニット204は、現在ビデオブロックに関連付けられたシンタックス構造において、現在ビデオブロックが別のビデオブロックと同じ動き情報を有することをビデオデコーダ300に示す値を示し得る。
【0036】
別の例では、動き推定ユニット204は、現在ビデオブロックに関連付けられたシンタックス構造において、別のビデオブロック及び動きベクトル差分(MVD)を識別し得る。動きベクトル差分は、現在ビデオブロックの動きベクトルと、指示されたビデオブロックの動きベクトルとの間の差分を示す。ビデオデコーダ300は、指示されたビデオブロックの動きベクトル及び動きベクトル差分を使用して現在ビデオブロックの動きベクトルを決定し得る。
【0037】
上で論じたように、ビデオエンコーダ200は、動きベクトルを予測的にシグナリングし得る。ビデオエンコーダ200によって具現化され得る予測シグナリング技術の2つの例には、アドバンスト動きベクトル予測(AMVP)とマージモードシグナリングとが含まれる。
【0038】
イントラ予測ユニット206は、現在ビデオブロックに対してイントラ予測を実行し得る。イントラ予測ユニット206が現在ビデオブロックに対してイントラ予測を実行するとき、イントラ予測ユニット206は、同じピクチャ内の他のビデオブロックの復号されたサンプルに基づいて、現在ビデオブロックに対する予測データを生成し得る。現在ビデオブロックに対する予測データには、予測されたビデオブロック及び様々なシンタックス要素が含まれ得る。
【0039】
残差生成ユニット207は、現在ビデオブロックから現在ビデオブロックの予測ビデオブロックを減算する(例えば、マイナス記号によって示される)ことによって、現在ビデオブロックに対する残差データを生成し得る。現在ビデオブロックの残差データは、現在ビデオブロック内のサンプルの異なるサンプル成分に対応する残差ビデオブロックを含み得る。
【0040】
他の例では、例えばスキップモードにおいて、現在ビデオブロックに対する残差データが存在しなくてもよいし、残差生成ユニット207は減算演算を実行しなくてもよい。
【0041】
変換処理ユニット208は、現在ビデオブロックに関連付けられた残差ビデオブロックに1つ又は複数の変換を適用することによって、現在ビデオブロックに対する1つ又は複数の変換係数ビデオブロックを生成し得る。
【0042】
変換処理ユニット208が現在ビデオブロックに関連付けられた変換係数ビデオブロックを生成した後、量子化ユニット209は、現在ビデオブロックに関連付けられた1つ又は複数の量子化パラメータ(QP)値に基づいて、現在ビデオブロックに関連付けられた変換係数ビデオブロックを量子化し得る。
【0043】
逆量子化ユニット210及び逆変換ユニット211は、それぞれ、変換係数ビデオブロックに逆量子化及び逆変換を適用して、変換係数ビデオブロックから残差ビデオブロックを再構築し得る。再構築ユニット212は、再構築された残差ビデオブロックを、予測ユニット202によって生成された1つ又は複数の予測ビデオブロックからの対応するサンプルに追加して、バッファ213に記憶するために現在ビデオブロックに関連付けられた再構築ビデオブロックを生成し得る。
【0044】
再構築ユニット212がビデオブロックを再構成した後、ループフィルタリング動作が実行されて、ビデオブロック内のビデオブロッキングアーティファクトを低減し得る。
【0045】
エントロピー符号化ユニット214は、ビデオエンコーダ200の他の機能コンポーネントからデータを受信し得る。エントロピー符号化ユニット214がデータを受信すると、エントロピー符号化ユニット214は、1つ又は複数のエントロピー符号化動作を実行して、エントロピー符号化データを生成し、エントロピー符号化データを含むビットストリームを出力し得る。
【0046】
図3は、本開示のいくつかの実施形態による、
図1に示されるシステム100内のビデオデコーダ124の一例であり得るビデオデコーダ300の一例を示すブロック図である。
【0047】
ビデオデコーダ300は、本開示の技術のいずれか又はすべてを実行するように構成され得る。
図3の例では、ビデオデコーダ300は複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオデコーダ300の様々なコンポーネント間で共有され得る。いくつかの例では、プロセッサは、本開示で説明された技術のいずれか又はすべてを実行するように構成され得る。
【0048】
図3の例では、ビデオデコーダ300は、エントロピー復号ユニット301と、動き補償ユニット302と、イントラ予測ユニット303と、逆量子化ユニット304と、逆変換ユニット305と、再構築ユニット306と、バッファ307とを含む。ビデオデコーダ300は、いくつかの例では、ビデオエンコーダ200に関して説明した符号化パスと一般に逆の復号パスを実行し得る。
【0049】
エントロピー復号ユニット301は、符号化されたビットストリームを検索し得る。符号化されたビットストリームは、エントロピー符号化されたビデオデータ(例えば、ビデオデータの符号化されたブロック)を含み得る。エントロピー復号ユニット301は、エントロピー符号化されたビデオデータを復号し得、エントロピー復号されたビデオデータから、動き補償ユニット302は、動きベクトル、動きベクトル精度、参照ピクチャリストインデックス及び他の動き情報を含む動き情報を決定し得る。動き補償ユニット302は、例えば、AMVP及びマージモードを実行することによってそのような情報を決定し得る。AMVPが使用され、隣接するPB及び参照ピクチャからのデータに基づいた最もあり得るいくつかの候補の導出を含む。動き情報には、通常、水平及び垂直動きベクトル変位値、1つ又は2つの参照ピクチャインデックス、及びBスライス内の予測領域の場合は、どの参照ピクチャリストが各インデックスに関連付けられているかの識別が含まれる。本明細書で使用されるように、いくつかの態様では、「マージモード」は、空間的又は時間的に隣接するブロックから動き情報を導出することを指し得る。
【0050】
動き補償ユニット302は、おそらく補間フィルタに基づいて補間を実行しながら、動き補償されたブロックを生成し得る。サブピクセル精度で使用される補間フィルタの識別子は、シンタックス要素に含まれ得る。
【0051】
動き補償ユニット302は、ビデオブロックの符号化中にビデオエンコーダ200によって使用される補間フィルタを使用して、参照ブロックのサブ整数ピクセルに対する補間値を計算し得る。動き補償ユニット302は、受信したシンタックス情報に従ってビデオエンコーダ200によって使用される補間フィルタを決定し、その補間フィルタを使用して予測ブロックを生成し得る。
【0052】
動き補償ユニット302は、シンタックス情報の少なくとも一部を使用して、符号化されたビデオシーケンスのフレーム及び/又はスライスを符号化するために使用されるブロックのサイズ、符号化されたビデオシーケンスのピクチャの各マクロブロックがどのように分割されるかを説明するパーティション情報、各パーティションがどのように符号化されるかを示すモード、各インターエンコードされたブロックの1つ又は複数の参照フレーム(及び参照フレームリスト)、及び符号化されたビデオシーケンスを復号するその他の情報を決定し得る。本明細書で使用されるように、いくつかの態様では、「スライス」は、エントロピー符号化、信号予測、及び残差信号再構築に関して、同じピクチャの他のスライスから独立して復号できるデータ構造を指し得る。スライスは、ピクチャ全体又はピクチャの領域のいずれかになり得る。
【0053】
イントラ予測ユニット303は、例えばビットストリームで受信されたイントラ予測モードを使用して、空間的に隣接するブロックから予測ブロックを形成し得る。逆量子化ユニット304は、ビットストリームで提供され、エントロピー復号ユニット301によって復号された量子化ビデオブロック係数を逆量子化、即ち量子化解除する。逆変換ユニット305は、逆変換を適用する。
【0054】
再構築ユニット306は、例えば、残差ブロックと、動き補償ユニット302又はイントラ予測ユニット303によって生成された対応する予測ブロックとを加算することによって、復号されたブロックを取得し得る。必要に応じて、デブロッキングフィルタが適用されて、ブロックノイズアーティファクトを除去するよう、復号されたブロックをフィルタリングしてもよい。次に、復号されたビデオブロックはバッファ307に記憶され、バッファ307は、後続の動き補償/イントラ予測のための参照ブロックを提供し、また、表示デバイス上にプレゼンテーションするための復号されたビデオも生成する。
【0055】
本開示のいくつかの例示的な実施形態について以下に詳細に説明することにする。本明細書では理解を容易にするためにセクション見出しが使用されているが、セクションで開示される実施形態をそのセクションのみに限定するものではないことを理解すべきである。さらに、特定の実施形態が多用途ビデオ符号化又は他の特定のビデオコーデックを参照して説明されるが、開示された技術は他のビデオ符号化技術にも適用可能である。さらに、いくつかの実施形態はビデオ符号化ステップを詳細に説明するが、符号化を元に戻す対応する復号化ステップはデコーダによって実施されることが理解されるであろう。さらに、ビデオ処理という用語には、ビデオの符号化又は圧縮、ビデオのデ符号化(復号化)又は解凍、及びビデオピクセルを1つの圧縮フォーマットから別の圧縮フォーマット又は異なる圧縮ビットレートで表現するビデオトランス符号化が包含される。
1.概要
この開示はビデオストリーミングに関する。具体的には、拡張従属ランダムアクセスポイント(EDRAP:extended dependent random access point)ベースのビデオストリーミング用のメインストリーム表現記述子と外部ストリーム表現記述子の設計、及びメインストリーム表現におけるストリームアクセスポイント(SAP)のシグナリングに関する。このアイデアは、例えば、Dynamic Adaptive Streaming over HTTP(DASH)規格又はその拡張に基づいて、メディアストリーミングシステムに、個別に又は様々な組み合わせで適用され得る。
2.背景
2.1.ビデオ符号化規格
ビデオ符号化規格は、主によく知られたITU-T及びISO/IEC規格の開発を通じて進化してきた。ITU-TがH.261及びH.263を作成し、ISO/IECがMPEG-1及びMPEG-4 Visualを作成し、この2つの組織が共同でH.262/MPEG-2 Video及びH.264/MPEG-4 Advanced Video Coding(AVC)及びH.265/HEVC規格を作成した。H.262以来、ビデオ符号化規格は、時間予測プラス変換符号化が利用されるハイブリッドビデオ符号化構造に基づいている。HEVCを超える未来ビデオ符号化技術を探すために、Joint Video Exploration Team(ジョイント ビデオ エクスプロレーション チーム、JVET)が2015年にVCEGとMPEGによって共同で設立された。それ以来、多くの新しい方法がJVETによって採用され、JEM(Joint Exploration Model、ジョイント エクスプロレーション モデル)という名前のリファレンスソフトウェアに組み込まれた。その後、Versatile Video coding(VVC)プロジェクトが正式に開始されたときに、JVETはJoint Video Experts Team(JVET)に名前変更された。VVCは、HEVCと比較して50%ビットレート低減を目標とする新しい符号化規格であり、2020年7月1日に終了した第19回会議でJVETによって最終完了された。
Versatile Video Coding(VVC)規格(ITU-T H.266 |ISO/IEC 23090-3)及び関連するVersatile Supplemental Enhancement Information(多用途拡張情報、VSEI)規格(ITU-T H.274|ISO/IEC 23002-7)は、テレビ放送、ビデオ会議、又は記憶媒体からの再生などの従来の用途と、アダプティブビットレートストリーミング、ビデオ領域の抽出、多重コード化ビデオビットストリームからのコンテンツの合成と結合、マルチビュービデオ、スケーラブルなレイヤードコーディング、及びビューポートアダプティブ360度イマーシブメディアなどのより新しく高度な用途の両方を含む、最大限広範囲のアプリケーションで使用されるように設計されている。
Essential Video Coding(EVC)規格(ISO/IEC 23094-1)は、MPEGによって最近開発された別のビデオ符号化規格である。
2.2.ファイルフォーマット規格
メディアストリーミングアプリケーションは通常、IP、TCP、及びHTTPトランスポート方法に基づいており、ISOベースメディアファイルフォーマット(ISOBMFF)などのファイルフォーマットに依存する。このようなストリーミングシステムの1つは、HTTPベースの動的適応型ストリーミング(DASH)である。ISOBMFF及びDASHでビデオフォーマットを使用する場合、AVCファイルフォーマットやHEVCファイルフォーマットなど、ビデオフォーマットに特有のファイルフォーマット仕様がISOBMFFトラック及びDASH表現とセグメントでのビデオコンテンツのカプセル化に必要な場合がある。ビデオビットストリームに関する重要な情報、例えばプロファイル、階層、レベル、その他多くの情報は、コンテンツ選択の目的、例えばストリーミングセッションの開始時の初期化とストリーミングセッション中のストリーム適応の両方のための適切なメディアセグメントの選択のために、ファイルフォーマットレベルメタデータ及び/又はDASHメディアプレゼンテーション記述(MPD:media presentation description)として公開されるべきである場合がある。
同様に、ISOBMFFで画像フォーマットを使用する場合、AVC画像ファイルフォーマット及びHEVC画像ファイルフォーマットなど、画像フォーマットに特有のファイルフォーマット仕様が必要な場合がある。
ISOBMFFに基づいたVVCビデオコンテンツを保存するためのファイルフォーマットである、VVCビデオファイルフォーマットは、現在MPEGによって開発されている。
ISOBMFFに基づいた、VVCを使用して符号化された画像コンテンツを保存するためのファイル形式である、VVC画像ファイルフォーマットは、現在MPEGによって開発されている。
2.3.DASH
Dynamic Adaptive Streaming over HTTP(DASH)では、マルチメディアコンテンツのビデオ及び/又はオーディオデータの多重表現が存在し得るが、異なる表現は、異なる符号化特性(例えば、ビデオ符号化規格の異なるプロファイル又はレベル、異なるビットレート、異なる空間解像度など)に対応し得る。このような表現のマニフェストは、Media Presentation Description(MPD)データ構造で定義され得る。メディアプレゼンテーションは、DASHストリーミングクライアントデバイスにアクセス可能なデータの構造化コレクションに対応し得る。DASHストリーミングクライアントデバイスは、クライアントデバイスのユーザにストリーミングサービスを提供するようにメディアデータ情報を要求し、ダウンロードし得る。メディアプレゼンテーションは、MPDの更新を含むMPDデータ構造で記述され得る。
メディアプレゼンテーションには、一連の1つ又は複数の期間が含まれ得る。各期間は、次の期間の開始まで、又は最後の期間の場合は、メディアプレゼンテーションの終了まで延長され得る。各期間には、同じメディアコンテンツの1つ又は複数の表現が含まれ得る。表現は、オーディオ、ビデオ、タイムドテキスト、又はその他のそのようなデータの多数の代替的符号化バージョンのうちの1つになり得る。表現は、符号化タイプ、例えばビデオデータのビットレート、解像度、及び/又はコーデック、及びオーディオデータのビットレート、言語、及び/又はコーデックによって異なり得る。表現という用語は、マルチメディアコンテンツの特定の期間に対応し、特定の方式で符号化された、符号化されたオーディオ又はビデオデータのセクションを指すために使用され得る。
特定の期間の表現は、その表現が属するアダプテーションセットを示すMPDにおける属性によって示されるグループに割り当てられ得る。同じアダプテーションセット内の表現は、クライアントデバイスがこれらの表現を動的かつシームレスに切り替えて、例えば帯域幅アダプテーションを実行できるという点で、一般に互いの代替と見なされる。例えば、特定の期間のビデオデータの各表現は同じアダプテーションセットに割り当てられ得るが、対応する期間のマルチメディアコンテンツのビデオデータ又はオーディオデータなどのメディアデータを提示するように、いずれかの表現が復号化用に選択され得る。1つの期間内のメディアコンテンツは、いくつかの例では、グループ0(存在する場合)からの1つの表現、又は各非ゼログループからの最大1つの表現の組み合わせのいずれかによって表現され得る。期間の各表現のタイミングデータは、期間の開始時刻に対して相対的に表され得る。
表現には1つ又は複数のセグメントが含まれ得る。各表現には初期化セグメントが含まれ得、表現の各セグメントは自己初期化であり得る。存在する場合、初期化セグメントはその表現にアクセスするための初期化情報が含まれ得る。一般に、初期化セグメントにはメディアデータが含まれない。セグメントは、ユニフォームリソースロケーター(URL)、ユニフォームリソースネーム(URN)、又はユニフォームリソース識別子(URI)などの識別子によって一意的に参照され得る。MPDは各セグメントに識別子を提供し得る。いくつかの例では、MPDは、URL、URN、又はURIによってアクセス可能なファイル内のセグメントのデータに対応し得るバイト範囲を範囲属性の形式で提供してもよい。
異なるタイプのメディアデータを実質的に同時に検索するために、異なる表現が選択され得る。例えば、クライアントデバイスは、セグメントを検索するためのオーディオ表現、ビデオ表現、及びタイムドテキスト表現を選択し得る。いくつかの例では、クライアントデバイスは、帯域幅適応を実行するための特定のアダプテーションセットを選択し得る。即ち、クライアントデバイスは、ビデオ表現を含むアダプテーションセット、オーディオ表現を含むアダプテーションセット、及び/又はタイムドテキストを含むアダプテーションセットを選択し得る。代替形態として、クライアントデバイスは、特定の種類のメディア(例えば、ビデオ)のアダプテーションセットを選択し、他の種類のメディア(例えば、オーディオ及び/又はタイムドテキスト)の表現を直接選択し得る。
一般的なDASHストリーミング手順を次のステップで示す。
1)クライアントはMPDを取得する。
2)クライアントはダウンリンク帯域幅を推定し、推定されたダウンリンク帯域幅及びコーデック、復号能力、表示サイズ、音声言語設定に従ってビデオ表現及びオーディオ表現を選択する。
3)メディアプレゼンテーションの終わりに達しない限り、クライアントは選択された表現のメディアセグメントを要請し、ストリーミングコンテンツをユーザに提示する。
4)クライアントはダウンリンク帯域幅を推定し続ける。帯域幅がある方向に著しく変化した場合(例えば、低くなった場合)、クライアントは新たに推定された帯域幅に合致する異なるビデオ表現を選択し、ステップ3に進む。
2.4.拡張従属ランダムアクセスポイント(EDRAP)ピクチャベースのビデオ符号化及びストリーミング
補助拡張情報(SEI)メッセージを使用したEDRAPピクチャのシグナリングは、JVET-U0084の提案で提案され、2021年1月の第21回JVET会議でVSEI仕様に採用された。2021年1月の第133回MPEG会議で、EDRAPサンプルグループがMPEG入力ドキュメントm56020の提案に基づいて合意された。EDRAPベースのビデオストリーミングのサポートについては、2021年4月の第134回MPEG会議で、MPEG入力ドキュメントm56675はISOBMFFの外部ストリームトラック(EST)設計を提案した。MPEG入力ドキュメントm57430は、DASHの外部ストリーム表現(ESR:external stream representation)設計を提案した。
図4及び
図5は、ランダムアクセスポイント(RAP)の既存の概念を示している。アプリケーション(例えば、適応ストリーミング)は、ランダムアクセスポイント(RAP)の頻度(例えばRAP期間1秒又は2秒など)を決定する。従来、RAPは、
図4に示すように、IRAPピクチャの符号化によって提供される。RAPピクチャ間の非キーピクチャのインター予測参照が示されておらず、左から右への出力順序であることに注意されたい。CRA6からランダムアクセスすると、
図5に示すように、デコーダはピクチャを受信して正しく復号する。
図6及び
図7は、依存型ランダムアクセスポイント(DRAP)の概念を示す。DRAPアプローチは、
図6に示すように、DRAPピクチャ(及び後続のピクチャ)がインター予測のために前のIRAPピクチャを参照可能にすることで、向上された符号化効率を提供する。RAPピクチャ間の非キーピクチャのインター予測が示されておらず、左から右への出力順序であることに注意されたい。DRAP6からランダムアクセスすると、
図7に示すように、デコーダはピクチャを受信して正しく復号する。
図8及び
図9は、拡張従属ランダムアクセスポイント(EDRAP)の概念を示す。EDRAPアプローチは、例えば
図8に示すように、EDRAPピクチャ(及び後続のピクチャ)がいくつかの以前のRAPピクチャ(IRAP又はEDRAP)を参照可能にすることで、より高い柔軟性を提供する。RAPピクチャ間の非キーピクチャのインター予測が示されておらず、左から右への出力順であることに注意されたい。EDRAP6からランダムアクセスすると、
図9に示すように、デコーダはピクチャを受信して正しく復号する。
図10及び
図11は、EDRAPベースのビデオストリーミングを示す。EDRAP6から始まるセグメントからランダムアクセスするか又は該セグメントに切り替えると、
図11に示すように、デコーダはセグメントを受信して復号する。
MPEG入力ドキュメントm57430で提案されるESR設計は次のとおりである。
2.1.1 概要
外部ストリーム表現(ESR)は、関連するメインストリーム表現(MSR)、つまり「通常の」表現と時間同期される。ESRには、MSR内の時間同期拡張従属ランダムアクセスポイント(EDRAP)ピクチャ/サンプルからランダムアクセスする時に追加で必要なランダムアクセスポイント(RAP)ピクチャのみが含まれる。
設計を要約すると次のようになる:
1)EDRAPピクチャ、外部エレメンタリストリーム、外部ピクチャ、外部ストリーム表現(ESR)、メインストリーム表現(MSR)という用語の5つの定義が提案されている。
2)@esasFlagという名前のオプションのアダプテーションセットレベル属性が、アダプテーションセット内のリプレゼンテーションがESRであるかMSRであるかを示すために提案されている。
3)@esasFlag属性のセマンティクスの一部として、以下が提案されている:
a.既存のリプレゼンテーション属性@associationId及び@associationTypeを介したESRとMSRの関連付けは、新しく指定された関連付けタイプ値「aest」(「関連付けられた外部ストリームトラック」、ISOBMFFトラック参照タイプと同じ4CC)に基づいている。
b.新しい“EssentialProperty”記述子は、ESRを含むアダプテーションセットに含まれることが提案され、そのようなアダプテーションセットにおけるリプレゼンテーションは他のビデオリプレゼンテーションなしでは単独で消費又は再生できないことを示す。
c.EDRAPベースのストリーミング操作を簡素化するためのいくつかの制約:
i.MSR内の各EDRAPピクチャは、セグメント内の第1のピクチャであるものとする。
ii.相互に関連付けられたMSRとESRには、次の制約が適用される:
1.EDRAPピクチャで始まるMSR内の各セグメントについて、MSR内のセグメントとしてMPDから導出された同じセグメント開始時刻を持つESR内のセグメントが存在するものとし、ESR内のセグメントは、そのEDRAPピクチャの復号に必要な外部ピクチャと、MSRで搬送されるビットストリームにおける復号順序での後続のピクチャを搬送する。
2.EDRAPピクチャで開始しないMSR内の各セグメントについて、MSR内のセグメントと同じMPDから導出されたセグメント開始時刻を持つESR内のセグメントは存在しないものとする。
2.1.2 定義
拡張従属ランダムアクセスポイント(EDRAP)ピクチャ
ISOBMFFトラック内のEDRAP又はDRAPサンプルグループのメンバーであるサンプルにおけるピクチャ
外部エレメンタリストリーム
外部ピクチャを持つアクセスユニットを含むエレメンタリストリーム
外部ピクチャ
ESR内の外部エレメンタリストリームにあり、MSR内の特定のEDRAPピクチャからランダムアクセスする場合に、MSR内のエレメンタリストリームの復号化におけるインター予測参照に必要なピクチャ
外部ストリーム表現(ESR:external stream representation)
外部エレメンタリストリームを含む表現
メインストリーム表現(MSR)
ビデオエレメンタリストリームを含む表現
【0056】
2.1.3 AdaptationSet要素のセマンティクス
【表1】
【0057】
【0058】
3.問題点
MPEG入力ドキュメントm57430で提案されている設計には、次のような問題がある。メインストリーミング表現(MSR)の場合、異なるトラック又はリプレゼンテーションからの外部ピクチャが必要となるため、異なるストリームアクセスポイント(SAP)タイプの現在定義はEDRAPベースのランダムアクセスポイントに適用できない。これにより、セグメントがSAPで始まるかどうか、またどのタイプのSAPであるかをシグナリングすることができなくなる。
4.詳細な方案
上記問題を解決するために、以下に要約するような方法が開示される。実施形態は、一般的な概念を説明するための例として考慮されるべきであり、狭く解釈されるべきではない。さらに、これらの実施形態は、個別に適用することも、任意の方式で組み合わせて適用することもできる。
1)メインストリーム表現(MSR)記述子がMSRを識別するために指定される。
a.一例では、MSR記述子は、@schemeIdUriの特定の値(例:urn:mpeg:dash:msr:2021)を持つ“EssentialProperty”記述子として定義される。
i.一例では、MSR記述子は、アダプテーションセットに含まれるように、即ち、アダプテーションセットレベルになるように指定される。アダプテーションセットに含まれる場合、アダプテーションセット内のすべてのリプレゼンテーション(Representations)がMSRであることを示す。
ii.一例では、MSR記述子は、リプレゼンテーションに含まれるように、即ち、リプレゼンテーションレベルになるように指定される。リプレゼンテーションに含まれる場合、その表現がMSRであることを示す。
iii.一例では、MSR記述子は、アダプテーションセットセット又はリプレゼンテーションのいずれかに含まれるように、即ち、アダプテーションセットレベル又はリプレゼンテーションレベルのいずれかであるように指定される。
1.アダプテーションセットに含まれる場合、アダプテーションセット内のすべてのリプレゼンテーションがMSRであることを示す。
a.代替形態として、アダプテーションセットに含まれる場合アダプテーションセット内のリプレゼンテーションの一部又はすべてがMSRであり得ることを示す。
2.リプレゼンテーションに含まれる場合、そのリプレゼンテーションがMSRであることを示す。
b.一例では、MSR記述子は、@schemeIdUriの特定の値(例:urn:mpeg:dash:msr:2021)を持つ“SupplementalProperty”記述子として定義される。
2)MSR内の各ストリームアクセスポイント(SAP)は、関連するESRで搬送されるトラック内に時間同期化サンプルが存在する場合、クライアントが利用できる場合に限り、リプレゼンテーション内のコンテンツにアクセスするために使用できることを指定する。
3)オプションで、MSR内の各EDRAPピクチャがセグメント内の第1のピクチャであるものとすることを指定する(即ち、各EDRAPピクチャがセグメントを開始するものとする)。
4)外部ストリーム表現(ESR)記述子がESRを識別するために指定される。
a.一例では、ESR記述子は、@schemeIdUriの特定の値(例:urn:mpeg:dash:esr:2021に等しい)を持つ“EssentialProperty”記述子として定義される。
i.一例では、ESR記述子は、アダプテーションセットに含まれるように、即ち、アダプテーションセットレベルになるように指定される。アダプテーションセットに含まれる場合、アダプテーションセット内のすべてのリプレゼンテーションがESRであることを示す。
ii.一例では、ESR記述子は、リプレゼンテーションに含まれるように、即ちリプレゼンテーションレベルになるように指定される。リプレゼンテーションに含まれる場合、そのリプレゼンテーションがESRであることを示す。
iii.一例では、ESR記述子は、アダプテーションセット又はリプレゼンテーションのいずれかに含まれるように、即ち、アダプテーションセットレベル又は又はリプレゼンテーションレベルのずれかになるように指定される。
1.アダプテーションセットに含まれる場合、アダプテーションセット内のすべてのリプレゼンテーションがESRであることを示す。
a.代替形態として、アダプテーションセットに含まれる場合、アダプテーションセット内のリプレゼンテーションの一部又はすべてがESRであり得ることを示す。
2.リプレゼンテーションに含まれる場合、そのリプレゼンテーションがESRであることを示す。
b.一例では、ESR記述子は、@schemeIdUriの特定の値(例:urn:mpeg:dash:msr:2021)を持つ“SupplementalProperty”記述子として定義される。
5)各ESRは、次のように、MSR内の(既存の)リプレゼンテーションレベル属性@associationId及び@associationTypeを通じてMSRに関連付けられるものとすることを指定する:関連付けられたESRの@idは、属性@associationTypeの対応する値が「aest」に等しい、属性@associationIdに含まれる値によって参照されるものとする。
5.実施形態
以下は、セクション4で上記にまとめたすべての方案項目及びそれらの下位項目の一部かに関するいくつかの例示的な実施形態である。
これらの実施形態は、DASHに適用することができる。変更点は、条項2.4のデザインのテキストに関連してマークされている。追加又は変更されたほとんどの関連部分には下線が付けられ、削除された部分の一部には取り消し線が表示されている。他にも編集上の性質のため強調されていない変更がいくつかあり得る。
5.1.1 定義
拡張従属ランダムアクセスポイント(EDRAP)ピクチャ
ISOBMFFトラック内のEDRAP又はDRAPサンプルグループのメンバーであるサンプルにおけるピクチャ
外部エレメンタリストリーム
外部ピクチャを持つアクセスユニットを含むエレメンタリストリーム
外部ピクチャ
ESR内の外部エレメンタリストリームにあり、MSR内の特定のEDRAPピクチャからランダムアクセスする場合に、MSR内のエレメンタリストリームの復号化におけるインター予測参照に必要なピクチャ
外部ストリーム表現(ESR:external stream representation)
外部エレメンタリストリームを含む表現
メインストリーム表現(MSR)
ビデオエレメンタリストリームを含む表現
5.1.2 MSR及びESR記述子
アダプテーションセットは、@schemeIdUriがurn:mpeg:dash:msr:2021に等しい“EssentialProperty”記述子を有し得る。この記述子はMSR記述子と呼ばれる。この“EssentialProperty”の存在は、このアダプテーションセット内の各リプレゼンテーションがMSRであることを示す。
MSRには、以下が適用される:
- アダプテーションセット内のMSRリプレゼンテーション内の各SAPは、関連するESRで搬送されるトラック内に時間同期化サンプルが存在する場合、クライアントが利用できる場合に限り、リプレゼンテーション内のコンテンツにアクセスするために使用できる。
- MSR内の各EDRAPピクチャは、セグメント内の第1のピクチャであるものとする(即ち、各EDRAPピクチャはセグメントを開始するものとする)。
アダプテーションセットは、@schemeIdUriがurn:mpeg:dash:esr:2021に等しい“EssentialProperty”記述子を有し得る。この記述子はESR記述子と呼ばれる。この“EssentialPropert”の存在は、このアダプテーションセット内の各リプレゼンテーションがESRであることを示す。ESRは、他のビデオリプレゼンテーションなしでは単独で消費又は再生されないものとする。
各MSRは、次のように、MSR内の(既存の)リプレゼンテーションレベル属性@associationId及び@associationTypeを通じてMSRに関連付けられるものとする:関連付けられたESRの@idは、属性@associationTypeの対応する値が「aest」に等しい、属性@associationIdに含まれる値によって参照されるものとする。
オプションで、MSR内のリプレゼンテーション属性@associationId及び@associationTypeを通じて相互に関連付けられたMSRとESRには、次の制約が適用される:
- EDRAPピクチャで始まるMSR内の各セグメントについて、MSR内のセグメントと同じMPDから導出されたセグメント開始時刻を持つESR内のセグメントが存在するものとし、ESR内のセグメントは、そのEDRAPピクチャの復号に必要な外部ピクチャと、MSRで搬送されるビットストリーム内の復号順序での後続のピクチャを搬送する。
- EDRAPピクチャで開始しないMSR内の各セグメントについて、MSR内のセグメントと同じMPDから導出されたセグメント開始時刻を持つESR内のセグメントは存在しないものとする。
【0059】
5.1.3 AdaptationSet要素のセマンティクス
【表2】
【0060】
【0061】
本開示の実施形態は、メインストリーム表現記述子に関する。
【0062】
図12は、本開示のいくつかの実施形態によるビデオ処理のための方法1200のフローチャートを示す。方法1200は、第1のデバイスで具現化され得る。例えば、方法1200は、クライアント又は受信機に埋め込まれ得る。本明細書で使用される「クライアント」という用語は、コンピュータネットワークのクライアントサーバモデルの一部としてサーバによって利用可能にされるサービスにアクセスするコンピューターハードウェア又はソフトウェアを指し得る。単なる例として、クライアントはスマートフォン又はタブレットであり得る。いくつかの実施形態では、第1のデバイスは、
図1に示される宛先デバイス120で具現化され得る。
【0063】
ブロック1210で、第1のデバイスは第2のデバイスからメタデータファイルを受信する。前記メタデータファイルは、ビデオビットストリームに関する重要な情報、例えば、プロファイル、階層、レベルなどを含み得る。例えば、前記メタデータファイルは、DASHメディアプレゼンテーション記述(MPD)であり得る。上記の例は、単に説明を目的として記載されたものであることを理解すべきである。本開示の範囲は、この点に限定されない。
【0064】
ブロック1220で、第1のデバイスは、メタデータファイル内のデータセットにおける記述子を決定する。前記記述子の存在は、データセット内の表現がメインストリーム表現(MSR)であることを示す。言い換えれば、前記データセットが前記記述子を含む場合、前記データセット内の表現がMSRであることを意味する。
【0065】
方法1200によれば、MSRを識別するために記述子が使用される。属性を利用してMSRを識別する従来の方案と比較して、提案された方法は、より効率的にMSRを識別できるという利点がある。
【0066】
いくつかの実施形態では、記述子は、ユニフォームリソースネーム(URN)文字列に等しい属性を持つデータ構造として定義され得る。一例では、前記メタデータファイルはメディアプレゼンテーション記述(MPD)であり得、前記データ構造はMPD内のEssentialPropertyであり得る。さらに、前記属性はschemeIdUri属性であり得、前記URN文字列は「urn:mpeg:dash:msr:2022」であり得る。即ち、前記記述子は、特定のURN文字列(例:「urn:mpeg:dash:msr:2022」)に等しい@schemeIdUriの値を持つEssentialProperty記述子として定義され得る。ここで説明されるURN文字列の可能な実施は、単に説明的なものであり、したがって、いかなる形でも本開示を限定するものとして解釈されるべきではないことを理解すべきである。
【0067】
別の例では、前記メタデータファイルはMPDであり得、前記データ構造はMPD内のSupplementalPropertyであり得る。同様に、前記属性はschemeIdUri属性であり得、前記URN文字列は「urn:mpeg:dash:msr:2022」であり得る。即ち、前記記述子は、特定のURN文字列(例:「urn:mpeg:dash:msr:2022」)に等しい@schemeIdUriの値を持つSupplementalProperty記述子として定義され得る。ここで説明されるURN文字列の可能な実施は、単に説明的なものであり、したがって、いかなる形でも本開示を限定するものとして解釈されるべきではないことを理解すべきである。
【0068】
いくつかの実施形態では、前記データセットはアダプテーションセットであり得る。この場合、前記アダプテーションセット内のすべてのリプレゼンテーションがMSRであり得る。代替形態として、前記アダプテーションセット内の表現の一部がMSRであり得る。
【0069】
いくつかの実施形態では、前記データセットは表現であり得る。この場合、前記表現はMSRであり得る。
【0070】
いくつかの実施形態では、MSR内の拡張従属ランダムアクセスポイント(EDRAP)サンプルは、ストリームアクセスポイント(SAP)の開始アクセスユニット(SAU)の指示を含み得る。一例では、前記EDRAPサンプルの第1のバイト位置は、SAUのインデックスであり得る。上記の例は、単に説明を目的として記載されたものであることを理解すべきである。本開示の範囲は、この点に限定されない。これにより、提案される方法は、MSRとストリームアクセスポイント(SAP)との互換性を向上させることができるという利点がある。
【0071】
いくつかの追加の実施形態では、前記EDRAPサンプルは、前記EDRAPサンプルに関連付けられた外部ストリーム表現(ESR)サンプルがデコーダに提供された後に前記デコーダに提供され得る。即ち、MSR内の各EDRAPサンプルの第1のバイト位置は、SAPのISAUであり得、これにより、対応するESRメディアサンプルがEDRAPサンプルの直前にメディアデコーダに提供されるという条件で、MSRでのメディアストリームの再生が可能になる。これにより、提案される方法は、セグメントがSAPで始まるかどうか、及びどのタイプのSAPであるかをシグナリングすることが可能になる。
【0072】
いくつかの実施形態では、前記メタデータファイルはMDPであり得、前記MDP内のセグメントは前記MSR内のEDRAPピクチャで始まる。一例では、MSR内の各EDRAPピクチャは、セグメント内の第1のピクチャである。
【0073】
図13は、本開示のいくつかの実施形態によるビデオ処理のための方法1300のフローチャートを示す。方法1300は、第2のデバイスで具現化され得る。例えば、方法1300は、サーバ又は送信機に埋め込まれ得る。本明細書で使用される「サーバ」という用語は、コンピューティング可能なデバイスを指し得るが、その場合、クライアントはネットワークを介してサービスにアクセスする。サーバは、物理コンピューティングデバイス又は仮想コンピューティングデバイスであり得る。いくつかの実施形態では、第2のデバイスは、
図1に示されるソースデバイス110で具現化され得る。
【0074】
ブロック1310で、第2のデバイスは、メタデータファイル内のデータセット内の記述子を決定する。前記メタデータファイルは、ビデオビットストリームに関する重要な情報、例えば、プロファイル、階層、レベルなどを含み得る。例えば、前記メタデータファイルは、DASHメディアプレゼンテーション記述(MPD)であり得る。前記記述子の存在は、データセット内の表現がメインストリーム表現(MSR)であることを示す。言い換えれば、前記データセットが前記記述子を含む場合、前記データセット内の表現がMSRであることを意味する。
【0075】
ブロック1320で、第2のデバイスはメタデータファイルを第1のデバイスに送信する。
【0076】
方法1300によれば、MSRを識別するために記述子が使用される。属性を利用してMSRを識別する従来の方案と比較して、提案される方法は、より効率的にMSRを識別できるという利点がある。
【0077】
いくつかの実施形態では、記述子は、ユニフォームリソースネーム(URN)文字列に等しい属性を持つデータ構造として定義され得る。一例では、前記メタデータファイルはメディアプレゼンテーション記述(MPD)であり得、前記データ構造はMPD内のEssentialPropertyであり得る。さらに、前記属性はschemeIdUri属性であり得、前記URN文字列は「urn:mpeg:dash:msr:2022」であり得る。即ち、前記記述子は、特定のURN文字列(例:「urn:mpeg:dash:msr:2022」)に等しい@schemeIdUriの値を持つEssentialProperty記述子として定義され得る。ここで説明されるURN文字列の可能な具現化は、単に説明的なものであり、したがって、いかなる形でも本開示を限定するものとして解釈されるべきではないことを理解すべきである。
【0078】
別の例では、前記メタデータファイルはMPDであり得、前記データ構造は前記MPD内のSupplementalPropertyであり得る。同様に、前記属性はschemeIdUri属性であり得、前記URN文字列は「urn:mpeg:dash:msr:2022」であり得る。即ち、前記記述子は、特定のURN文字列(例:「urn:mpeg:dash:msr:2022」)に等しい@schemeIdUriの値を持つSupplementalProperty記述子として定義され得る。ここで説明されるURN文字列の可能な具現化は、単に説明的なものであり、したがって、いかなる形でも本開示を限定するものとして解釈されるべきではないことを理解すべきである。
【0079】
いくつかの実施形態では、前記データセットはアダプテーションセットであり得る。この場合、前記アダプテーションセット内のすべてのリプレゼンテーションがMSRであり得る。代替形態として、前記アダプテーションセット内の表現の一部がMSRであり得る。
【0080】
いくつかの実施形態では、前記データセットは表現であり得る。この場合、前記表現はMSRであり得る。
【0081】
いくつかの実施形態では、MSR内の拡張従属ランダムアクセスポイント(EDRAP)サンプルは、ストリームアクセスポイント(SAP)の開始アクセスユニット(SAU)の指示を含み得る。一例では、前記EDRAPサンプルの第1のバイト位置は、SAUのインデックスであり得る。上記の例は、単に説明を目的として記載されたものであることを理解すべきである。本開示の範囲は、この点に限定されない。これにより、提案される方法は、MSRとストリームアクセスポイント(SAP)との互換性を向上させることができるという利点がある。
【0082】
いくつかの追加の実施形態では、前記EDRAPサンプルは、前記EDRAPサンプルに関連付けられた外部ストリーム表現(ESR)サンプルがデコーダに提供された後に前記デコーダに提供され得る。即ち、MSR内の各EDRAPサンプルの第1のバイト位置は、SAPのISAUであり得、これにより、対応するESRメディアサンプルがEDRAPサンプルの直前にメディアデコーダに提供されるという条件で、MSRでのメディアストリームの再生が可能になる。これにより、提案される方法は、セグメントがSAPで始まるかどうか、及びどのタイプのSAPであるかをシグナリングすることが可能になる。
【0083】
いくつかの実施形態では、前記メタデータファイルはMDPであり得、前記MDP内のセグメントは前記MSR内のEDRAPピクチャで始まる。一例では、MSR内の各EDRAPピクチャは、セグメント内の第1のピクチャである。
【0084】
本開示の実施形態は、個別に具現化することができる。代替形態として、本開示の実施形態は、任意の適切な組み合わせで具現化することができる。本開示の具現化は、以下の条項を考慮して説明することができ、その特徴は任意の合理的な方式で組み合わせることができる。
【0085】
条項1.ビデオ処理方法であって、第1のデバイスで、第2のデバイスからメタデータファイルを受信するステップと;前記メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がメインストリーム表現(MSR)であることを示すステップと;を含む方法。
【0086】
条項2.ビデオ処理方法であって、第2のデバイスで、メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がMSRであることを示すステップと;前記メタデータファイルを第1のデバイスに送信するステップと;を含む方法。
【0087】
条項3.前記記述子は、ユニフォームリソースネーム(URN:uniform resource name)文字列に等しい属性を持つデータ構造として定義される、条項1から2のいずれか一項に記載の方法。
【0088】
条項4.前記メタデータファイルはメディアプレゼンテーション記述(MPD:media presentation description)であり、前記データ構造は前記MPDにおけるEssentialPropertyである、条項3に記載の方法。
【0089】
条項5.前記メタデータファイルはメディアプレゼンテーション記述(MPD)であり、前記データ構造は前記MPDにおけるSupplementalPropertyである、条項3に記載の方法。
【0090】
条項6.前記属性はschemeIdUri属性であり、前記URN文字列は「urn:mpeg:dash:msr:2022」である、条項4から5のいずれか一項に記載の方法。
【0091】
条項7.前記データセットは、アダプテーションセット又は表現である、条項1から6のいずれか一項に記載の方法。
【0092】
条項8.前記データセットはアダプテーションセットであり、前記アダプテーションセットにおける表現の全部又は一部がMSRである、条項1から6のいずれか一項に記載の方法。
【0093】
条項9.前記MSRにおける拡張従属ランダムアクセスポイント(EDRAP:extended dependent random access point)サンプルは、ストリームアクセスポイント(SAP:stream access point)の開始アクセスユニット(SAU:starting access unit)の指示を含む、条項1から8のいずれか一項に記載の方法。
【0094】
条項10.前記EDRAPサンプルは、前記EDRAPサンプルに関連付けられた外部ストリーム表現(ESR:external stream representation)サンプルがデコーダに提供された後に前記デコーダに提供される、条項9に記載の方法。
【0095】
条項11.前記EDRAPサンプルの第1のバイト位置は、前記SAUのインデックスである、条項9から10のいずれか一項に記載の方法。
【0096】
条項12.前記メタデータファイルはMDPであり、前記MDP内のセグメントは前記MSR内のEDRAPピクチャで始まる、条項1から11のいずれか一項に記載の方法。
【0097】
条項13.プロセッサと命令を備えた非一時的なメモリとを含むビデオデータを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに条項1から12のいずれか一項に記載の方法を実行させる装置。
【0098】
条項14.プロセッサに条項1から12のいずれか一項に記載の方法を実行させる命令を記憶する非一時的なコンピュータ可読記憶媒体。
【0099】
例示的なデバイス
図14は、本開示の様々な実施形態を具現化できるコンピューティングデバイス1400のブロック図を示す。コンピューティングデバイス1400は、ソースデバイス110(或いは、ビデオエンコーダ114又は200)又は宛先デバイス120(或いはビデオデコーダ124又は300)として具現化されるか、又はそれに含まれ得る。
【0100】
図14に示されるコンピューティングデバイス1400は、単に説明を目的としたものであり、本開示の実施形態の機能及び範囲をいかなる形でも制限することを示唆するものではないことが理解されるだろう。
【0101】
図14に示すように、コンピューティングデバイス1400は、汎用コンピューティングデバイス1400を含む。コンピューティングデバイス1400は、少なくとも1つ又は複数のプロセッサ又は処理ユニット1410と、メモリ1420と、記憶ユニット1430と、1つ又は複数の通信ユニット1440と、1つ又は複数の入力デバイス1450と、1つ又は複数の出力デバイス1460とを含み得る。
【0102】
いくつかの実施形態では、コンピューティングデバイス1400は、コンピューティング能力を有する任意のユーザ端末又はサーバ端末として具現化され得る。前記サーバ端末は、サービスプロバイダが提供するサーバや大規模コンピューティングデバイスなどであり得る。前記ユーザ端末は、例えば、携帯電話、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム(PCS)デバイス、パーソナルナビゲーションデバイス、携帯情報端末(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位デバイス、テレビ受信機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス、又はそれらの任意の組み合わせ(これらのデバイスのアクセサリ及び周辺機器、又はそれらの任意の組み合わせを含む)を含む、任意のタイプの移動端末、固定端末、又は携帯端末であり得る。コンピューティングデバイス1400は、ユーザに対する任意のタイプのインターフェース(「ウェアラブル」回路など)をサポートできることが考えられる。
【0103】
処理ユニット1410は、物理又は仮想プロセッサであり得、メモリ1420に格納されたプログラムに基づいて様々なプロセスを具現化することができる。マルチプロセッサシステムでは、コンピューティングデバイス1400の並列処理能力を向上させるために、複数の処理ユニットがコンピュータ実行可能命令を並列に実行する。処理ユニット1410は、中央処理ユニット(CPU)、マイクロプロセッサ、コントローラ、又はマイクロコントローラと呼ばれ得る。
【0104】
コンピューティングデバイス1400は、通常、様々なコンピュータ記憶媒体を含む。このような媒体は、揮発性及び不揮発性媒体、又は取り外し可能及び取り外し不可能な媒体を含むがこれらに限定されない、コンピューティングデバイス1400によってアクセス可能な任意の媒体であり得る。メモリ1420は、揮発性メモリ(例えば、レジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュメモリ)、又はそれらの任意の組み合わせであり得る。記憶ユニット1430は、任意の取り外し(削除)可能又は取り外し(削除)不可能な媒体であり得、情報及び/又はデータを記憶するために使用でき、コンピューティングデバイス1400でアクセスできる、メモリ、フラッシュメモリドライブ、磁気ディスク、又は別の他の媒体などの機械可読媒体を含み得る。
【0105】
コンピューティングデバイス1400は、追加の取り外し可能/取り外し不可能、揮発性/不揮発性メモリ媒体をさらに含み得る。なお、
図14には示していないが、着脱可能な不揮発性磁気ディスクの読み書きを行う磁気ディスクドライブや、着脱可能な不揮発性光ディスクの読み書きを行う光ディスクドライブを提供することが可能である。このような場合、各ドライブは、1つ又は複数のデータ媒体インターフェイスを介してバス(図示せず)に接続され得る。
【0106】
通信ユニット1440は、通信媒体を介してさらなるコンピューティングデバイスと通信する。さらに、コンピューティングデバイス1400内のコンポーネントの機能は、通信接続を介して通信できる単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって具現化することができる。したがって、コンピューティングデバイス1400は、1つ又は複数の他のサーバ、ネットワーク化されたパーソナルコンピュータ(PC)、又はさらなる一般的なネットワークノードとの論理接続を使用して、ネットワーク化された環境で動作することができる。
【0107】
入力デバイス1450は、マウス、キーボード、トラッキングボール、音声入力デバイスなどの様々な入力デバイスのうちの1つ又は複数であり得る。出力デバイス1460は、ディスプレイ、スピーカ、プリンタなどの様々な出力デバイスのうちの1つ又は複数であり得る。通信ユニット1440によって、コンピューティングデバイス1400は、記憶デバイス及び表示デバイスなどの1つ又は複数の外部デバイス(図示せず)とさらに通信することができ、1つ又は複数のデバイスにより、ユーザがコンピューティングデバイス1400と対話可能にするか、又は、必要に応じて、任意のデバイス(ネットワークカード、モデムなど)により、コンピューティングデバイス1400が1つ又は複数の他のコンピューティングデバイスと通信可能にする。このような通信は、入出力(I/O)インターフェイス(図示せず)を介して実行できる。
【0108】
いくつかの実施形態では、単一のデバイスに統合される代わりに、コンピューティングデバイス1400のいくつかの又はすべてのコンポーネントがクラウドコンピューティングアーキテクチャに配置され得る。クラウドコンピューティングアーキテクチャでは、コンポーネントは遠隔的に提供され、連携して本開示で説明される機能を具現化し得る。いくつかの実施形態では、クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供し、これらのサービスを提供するシステム又はハードウェアの物理的な位置又は構成をエンドユーザが認識する必要はない。様々な実施形態において、クラウドコンピューティングは、適切なプロトコルを使用して広域ネットワーク(インターネットなど)を介してサービスを提供する。例えば、クラウドコンピューティングプロバイダーは、Webブラウザ又はその他のコンピューティングコンポーネントを通じてアクセスできる広域ネットワーク経由でアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔地にあるサーバに保存され得る。クラウドコンピューティング環境におけるコンピューティングリソースは、リモートデータセンターの場所に併合又は分散され得る。クラウドコンピューティングインフラストラクチャは、ユーザにとって単一のアクセスポイントとして動作するが、共有データセンターを通じてサービスを提供し得る。したがって、クラウドコンピューティングアーキテクチャを使用して、本明細書で説明されるコンポーネント及び機能を遠隔地にあるサービスプロバイダから提供し得る。代替形態として、それらは従来のサーバから提供されるか、又はクライアントデバイスに直接又はその他の方法でインストールされ得る。
【0109】
コンピューティングデバイス1400は、本開示の実施形態においてビデオ符号化/復号化を具現化するために使用され得る。メモリ1420は、1つ又は複数のプログラム命令を有する1つ又は複数のビデオ符号化モジュール1425を含み得る。これらのモジュールは、本明細書で説明される様々な実施形態の機能を実行するように、処理ユニット1410によってアクセス可能かつ実行可能である。
【0110】
ビデオ符号化を実行する例示的な実施形態では、入力デバイス1450は、符号化されるビデオデータを入力1470として受信し得る。ビデオデータは、例えば、ビデオ符号化モジュール1425によって処理されて、符号化されたビットストリームを生成し得る。符号化されたビットストリームは、出力デバイス1460を介して出力1480として提供され得る。
【0111】
ビデオ復号を実行する例示的な実施形態では、入力デバイス1450は、符号化されたビットストリームを入力1470として受信し得る。符号化されたビットストリームは、例えば、ビデオ符号化モジュール1425によって処理されて、復号されたビデオデータを生成し得る。復号されたビデオデータは、出力デバイス1460を介して出力1480として提供され得る。
【0112】
本開示は、その好ましい実施形態を参照して特に図示及び説明されたが、添付の特許請求の範囲によって定義される本出願の精神及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることが当業者には理解されるであろう。このような変形は、本出願の範囲に含まれるものとする。したがって、本出願の実施形態に関する前述の説明は限定することを意図したものではない。
【手続補正書】
【提出日】2024-04-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ビデオ処理方法であって、
第1のデバイスで、第2のデバイスからメタデータファイルを受信するステップと、
前記メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がメインストリーム表現(MSR)であることを示すステップとを含む、方法。
【請求項2】
前記記述子は、ユニフォームリソースネーム(URN:uniform resource name)文字列に等しい属性を持つデータ構造として定義される、請求項
1に記載の方法。
【請求項3】
前記メタデータファイルはメディアプレゼンテーション記述(MPD:media presentation description)であり、前記データ構造は前記MPDにおけるEssentialPropertyである、請求項
2に記載の方法。
【請求項4】
前記属性はschemeIdUri属性であり、前記URN文字列は「urn:mpeg:dash:msr:2022」である、請求項
3に記載の方法。
【請求項5】
前記データセットは、アダプテーションセット又は表現である、請求項
1に記載の方法。
【請求項6】
前記MSRにおける拡張従属ランダムアクセスポイント(EDRAP:extended dependent random access point)サンプルは、ストリームアクセスポイント(SAP:stream access point)の開始アクセスユニット(SAU:starting access unit)の指示を含む、請求項
1に記載の方法。
【請求項7】
前記EDRAPサンプルは、前記EDRAPサンプルに関連付けられた外部ストリーム表現(ESR:external stream representation)サンプルがデコーダに提供された後に前記デコーダに提供される、請求項
6に記載の方法。
【請求項8】
前記EDRAPサンプルの第1のバイト位置は、前記SAUのインデックスである、請求項
6に記載の方法。
【請求項9】
ビデオ処理方法であって、
第2の装置で、メタデータファイル内のデータセットにおける記述子を決定するステップであって、前記記述子の存在は、前記データセットにおける表現がMSRであることを示すステップと、
前記メタデータファイルを第1のデバイスに送信するステップとを含む方法。
【請求項10】
前記記述子は、ユニフォームリソースネーム(URN)文字列に等しい属性を持つデータ構造として定義される、請求項9に記載の方法。
【請求項11】
前記メタデータファイルはメディアプレゼンテーション記述(MPD)であり、前記データ構造は前記MPDにおけるEssentialPropertyである、請求項10に記載の方法。
【請求項12】
前記属性はschemeIdUri属性であり、前記URN文字列は「urn:mpeg:dash:msr:2022」である、請求項11に記載の方法。
【請求項13】
前記データセットはアダプテーションセットである、請求項9に記載の方法。
【請求項14】
前記MSR内の拡張従属ランダムアクセスポイント(EDRAP)サンプルは、ストリームアクセスポイント(SAP)の開始アクセスユニット(SAU)の指示を含む、請求項9に記載の方法。
【請求項15】
前記EDRAPサンプルは、前記EDRAPサンプルに関連付けられた外部ストリーム表現(ESR)サンプルがデコーダに提供された後に前記デコーダに提供される、請求項14に記載の方法。
【請求項16】
前記EDRAPサンプルの第1のバイト位置は、前記SAUのインデックスである、請求項14に記載の方法。
【請求項17】
プロセッサと命令を備えた非一時的メモリとを含むビデオデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに
、
第1のデバイスで、第2のデバイスからメタデータファイルを受信することと、
前記メタデータファイル内のデータセットにおける記述子を決定することであって、前記記述子の存在は、前記データセットにおける表現がメインストリーム表現(MSR)であることを示すこととを含む動作を実行させる、装置。
【請求項18】
プロセッサに
、
第1のデバイスで、第2のデバイスからメタデータファイルを受信することと、
前記メタデータファイル内のデータセットにおける記述子を決定することであって、前記記述子の存在は、前記データセットにおける表現がメインストリーム表現(MSR)であることを示すこととを含む動作を実行させる命令を記憶する、非一時的なコンピュータ可読記憶媒体。
【請求項19】
プロセッサと命令を備えた非一時的メモリとを含むビデオデータを処理する装置であって、前記命令は前記プロセッサによって実行されると、前記プロセッサに、
第2の装置で、メタデータファイル内のデータセットにおける記述子を決定することであって、前記記述子の存在は、前記データセットにおける表現がMSRであることを示すことと、
前記メタデータファイルを第1のデバイスに送信することとを含む動作を実行させる、装置。
【請求項20】
プロセッサに、
第2の装置で、メタデータファイル内のデータセットにおける記述子を決定することであって、前記記述子の存在は、前記データセットにおける表現がMSRであることを示すことと、
前記メタデータファイルを第1のデバイスに送信することとを含む動作を実行させる命令を記憶する、非一時的なコンピュータ可読記憶媒体。
【国際調査報告】