(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-10
(54)【発明の名称】メディア処理方法、装置、及び、媒体
(51)【国際特許分類】
H04N 21/235 20110101AFI20241003BHJP
H04N 21/236 20110101ALI20241003BHJP
【FI】
H04N21/235
H04N21/236
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024525861
(86)(22)【出願日】2022-11-04
(85)【翻訳文提出日】2024-06-28
(86)【国際出願番号】 US2022079305
(87)【国際公開番号】W WO2023081826
(87)【国際公開日】2023-05-11
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520477474
【氏名又は名称】バイトダンス インコーポレイテッド
【氏名又は名称原語表記】BYTEDANCE INC.
【住所又は居所原語表記】12655 West Jefferson Boulevard, Sixth Floor, Suite No. 137 Los Angeles, California 90066 United States of America
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ワン,イエ-クォイ
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164MB44S
5C164SB06P
5C164SB11P
5C164SC01S
(57)【要約】
本開示の実施形態は、メディア処理のための方案を提供し、メディア処理方法を提案する。当該方法は、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、メディア・プレゼンテーションは、メインストリーム表現(MSR)及びMSRに関連付けられる外部ストリーム表現(ESR)を含む。ESR内の第1セグメント、第1セグメントに対応するMSR内の第2セグメント、及び、MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。従来の方案に比べて、提案した方法は、拡張依存ランダムアクセスポイント(EDRAP)ベースの技術を、より効率的にサポートすることができるという利点がある。
【選択図】
図12
【特許請求の範囲】
【請求項1】
メディア処理方法であって、
メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップ、を含み、
前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、
前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、
方法。
【請求項2】
前記ファイル・フォーマット規格は、国際標準化機構ベースのメディア・ファイル・フォーマット(ISOBMFF)である、
請求項1に記載の方法。
【請求項3】
前記MSRは、前記MSR内の表現レベル属性のセットを通じて前記ESRに関連付けられる、
請求項1又は2に記載の方法。
【請求項4】
前記表現レベル属性のセットは、associationId属性、及び、associationType属性を含む、
請求項3に記載の方法。
【請求項5】
前記変換を実行するステップは、
前記メディア・プレゼンテーション内のデータセットにおける第1記述子を決定するステップであり、前記第1記述子の存在は、前記データセット内の表現がMSRであることを示す、ステップと、
前記第1記述子に基づいて前記変換を実行するステップと、を含む、
請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記第1記述子は、ユニフォームリソース名(URN)文字列に等しい属性を持つデータ構造として定義される、
請求項5に記載の方法。
【請求項7】
前記メディア・プレゼンテーションは、メディア・プレゼンテーション記述(MPD)を含み、
前記データ構造は、前記MPD内のEssentialPropertyである、
請求項6に記載の方法。
【請求項8】
前記属性は、schemeIdUri属性であり、
前記URN文字列は、「urn:mpeg:darqdsh:msr:2022」である、
請求項7に記載の方法。
【請求項9】
前記変換を実行するステップは、
前記メディア・プレゼンテーション内のデータセットにおける第2記述子を決定するステップであり、前記第2記述子の存在は、前記データセット内の表現がESRであることを示す、ステップと、
前記第2記述子に基づいて前記変換を実行するステップと、を含む、
請求項1~4のいずれか1項に記載の方法。
【請求項10】
前記第2記述子は、URN文字列に等しい属性を持つデータ構造として定義される、
請求項9に記載の方法。
【請求項11】
前記メディア・プレゼンテーションは、MPDを含み、
前記データ構造は、前記MPD内のEssentialPropertyである、
請求項10に記載の方法。
【請求項12】
前記属性は、schemeIdUri属性であり、
前記URN文字列は、「urn:mpeg:dash:esr:2022」である、
請求項11に記載の方法。
【請求項13】
前記変換を実行するステップは、
前記メディア・ファイルを前記メディア・プレゼンテーション内にパックするステップ、を含む、
請求項1~12のいずれか1項に記載の方法。
【請求項14】
前記変換を実行するステップは、前記メディア・プレゼンテーションから前記メディア・ファイルをアンパックするステップ、を含む、
請求項1~12のいずれか1項に記載の方法。
【請求項15】
プロセッサと、命令を備える非一時的なメモリとを含む、メディアデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに請求項1~14のいずれか1項に記載の方法を実行させる、
装置。
【請求項16】
プロセッサに請求項1~14のいずれか1項に記載の方法を実行させる命令を記憶する、
非一時的なコンピュータ可読記憶媒体。
【請求項17】
メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する非一時的なコンピュータ可読記憶媒体であって、
前記方法は、
前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップ、を含み、
前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、
前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、
非一時的なコンピュータ可読記憶媒体。
【請求項18】
メディアのメディア・ファイルを記憶する方法であって、
前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、
前記メディア・ファイルを非一時的なコンピュータ可読記憶媒体内に記憶するステップと、を含み、
前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、
前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、
方法。
【請求項19】
メディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する非一時的なコンピュータ可読記憶媒体であって、
前記方法は、
前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップ、を含み、
前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、
前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、
非一時的なコンピュータ可読記憶媒体。
【請求項20】
メディアのメディア・プレゼンテーションを記憶する方法であって、
前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、
前記メディア・プレゼンテーションを非一時的なコンピュータ可読記憶媒体内に記憶するステップと、を含み、
前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、
前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、
方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示の実施形態は、概して、メディアコーディング技術に関し、より具体的には、メインストリーム表現(MSR)及び外部ストリーム表現(ESR)に基づく、ストリーミングのための改良設計に関する。
【0002】
関連出願の相互参照
本出願は、2021年11月5日に出願された米国仮特許出願第63/276,442号について優先権を主張するものであり、その内容全体が、ここに参照として取り込まれている。
【背景技術】
【0003】
メディアストリーミングアプリケーションは、通常、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、及び、ハイパーテキスト転送プロトコル(HTTP)の転送方法に基づくものであり、通常、国際標準化機構ベースのメディア・ファイル・フォーマット(ISOBMFF)などのファイル・フォーマットに依存する。このようなストリーミングシステムの1つは、HTTPベースの動的適応型ストリーミング(dynamic adaptive streaming over HTTP、略してDASH)である。DASHでは、マルチメディアコンテンツのビデオ及び/又はオーディオデータの多重表現が存在し得るが、異なる表現は、異なるコーディング特性(例えば、ビデオコーディング規格の異なるプロファイル又はレベル、異なるビットレート、異なる空間解像度、など)に対応し得る。また、拡張依存ランダムアクセスポイント(extended dependent random access point、略してEDRAP)ピクチャベースのビデオコーディング及びストリーミングが、提案されている。従って、MSR及びESRに基づくストリーミングについて研究する価値はある。
【発明の概要】
【0004】
本開示の実施形態は、メディア処理のための方案を提供する。
【0005】
第1態様では、メディア処理方法を提案する。前記方法は、メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0006】
本開示の第1態様による方法によれば、ESR内のセグメント、それに対応するMSR内のセグメント、及び、MSR内のすべての後続のセグメントを連結することで得られるファイルは、ファイル・フォーマット規格に適合する。このようなファイルがファイル・フォーマット規格に適合すると要求されない従来の方案に比べて、提案した方法は、EDRAPベースのランダムアクセス技術をより効率的にサポートすることができるという利点がある。
【0007】
第2態様では、メディアデータを処理する装置を提案する。前記メディアデータを処理する装置は、プロセッサと、命令を備える非一時的なメモリとを含む。前記命令は、前記プロセッサによって実行されると、前記プロセッサに、本開示の第1態様による方法を実行させる。
【0008】
第3態様では、非一時的なコンピュータ可読記憶媒体を提案する。非一時的なコンピュータ可読記憶媒体は、プロセッサに、本開示の第1態様による方法を実行させる命令を記憶する。
【0009】
第4態様では、他の非一時的なコンピュータ可読記憶媒体を提案する。前記非一時的なコンピュータ可読記憶媒体は、メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する。前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0010】
第5態様では、メディアのメディア・ファイルを記憶する方法を提案する。前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・ファイルを非一時的なコンピュータ可読記憶媒体内に記憶するステップと、を含む。前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0011】
第6態様では、他の非一時的なコンピュータ可読記憶媒体を提案する。前記非一時的なコンピュータ可読記憶媒体は、メディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する。前記方法は、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップを含む。前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0012】
第7態様では、メディアのメディア・プレゼンテーションを記憶する方法を提案する。前記方法は、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・プレゼンテーションを非一時的なコンピュータ可読記憶媒体内に記憶するステップと、を含む。前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0013】
この発明の概要は、以下の詳細な説明でさらに記述される概念の選択を、簡略化した形で紹介するために提供される。この発明の概要は、請求される技術的事項の主な特徴又は本質的な特徴を特定することを意図したものではなく、また、請求される技術的事項の範囲を制限するために使用されることを意図したものでもない。
【図面の簡単な説明】
【0014】
添付の図面を参照した、以下の詳細な説明を通じて、本開示の例示的な実施形態の上記及び他の目的、特徴、及び、利点が、より明らかになるであろう。本開示の例示的な実施形態では、同じ参照番号は、通常、同じ構成要素を指す。
【
図1】本開示のいくつかの実施形態に係る、例示的なビデオコーディングシステムのブロック図を示す。
【
図2】本開示のいくつかの実施形態に係る、例示的なビデオエンコーダのブロック図を示す。
【
図3】本開示のいくつかの実施形態に係る、例示的なビデオデコーダのブロック図を示す。
【
図4】ランダムアクセスポイント(random access point、略してRAP)を説明するための図である。
【
図5】RAPのコンセプトを説明するための他の図である。
【
図6】依存ランダムアクセスポイント(dependent random access point、略してDRAP)のコンセプトを説明するための図である。
【
図7】DRAPのコンセプトを説明するための他の図である。
【
図8】拡張依存ランダムアクセスポイント(EDRAP)のコンセプトを説明するための図である。
【
図9】EDRAPのコンセプトを説明するための他の図である。
【
図10】EDRAPベースのビデオストリーミングを説明するための図である。
【
図11】EDRAPベースのビデオストリーミングを説明するための他の図である。
【
図12】本開示のいくつかの実施形態に係る、メディア処理方法のフローチャートを示す。
【
図13】本開示の様々な実施形態を実施できるコンピューティングデバイスに係るブロック図を示す。
【0015】
図面の全体にわたって、同じ又は類似の参照番号は、通常、同じ又は類似の要素を指す。
【発明を実施するための形態】
【0016】
以下、いくつかの実施形態を参照しながら本開示の原理を説明する。これらの実施形態は、例示の目的で、かつ、当業者が本開示を理解して実施することに寄与するために記載されるにすぎず、本開示の範囲に関していかなる限定も示唆しないと理解すべきである。本明細書に記載の開示は、以下に記載する方法以外にも、様々な方法で実施することができる。
【0017】
以下の説明及び特許請求の範囲において、別段の定義がない限り、本明細書で使用されるすべての技術用語及び科学用語は、本開示が属する技術分野の当業者によって、一般に理解されるものと同じ意味を有する。
【0018】
本開示における「一つの実施形態」、「一実施形態」、「例示的な実施形態」などへの言及は、記載される実施形態が、特定の特徴、構造、又は、特性を含み得ることを示すが、必ずしもすべての実施形態が、特定の特徴、構造、又は、特性を含むとは限らない。また、そのような語句は、必ずしも同じ実施形態を指しているわけではない。さらに、特定の特徴、構造、又は、特性が、例示的な実施形態に関連して説明される場合、明示的に記載されているかどうかにかかわらず、他の実施形態に関連して、そのような特徴、構造、又は、特性に影響を与えることは、当業者の知識の範囲内であることが指摘される。
【0019】
「第1」及び「第2」などの用語は、本明細書では、様々な要素を説明するために使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことを理解すべきである。これらの用語は、ある要素を別の要素と区別するためにのみ使用されている。例えば、例示的な実施形態の範囲から逸脱することなく、第1の要素が、第2の要素と呼ばれ得る。同様に、第2の要素が、第1の要素と呼ばれ得る。本明細書で使用される「及び/又は」という用語には、列挙された用語の1つ以上のあらゆる組み合わせが含まれる。
【0020】
本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用されるように、単数形「a(一つの)」、「an(一つの)」、及び「the(その)」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。「含む」、「備える」、「有する」、「持つ」、「含む」、及び/又は、「包含する」という用語は、本明細書で使用される場合、記載された特徴、要素、及び/又は、コンポーネントなど、の存在を特定するが、1つ以上の他の特徴、要素、コンポーネント、及び/又は、それらの組み合わせの存在又は追加を排除するものではないことが、さらに、理解されるであろう。
【0021】
例示的な環境
図1は、本開示の技術を利用し得る例示的なビデオコーディングシステム100を示すブロック図である。図示されるように、ビデオコーディングシステム100は、ソースデバイス110、及び、宛先デバイス120を含み得る。ソースデバイス110は、ビデオエンコーディング(encoding)デバイスとも呼ばれ得る。宛先デバイス120は、ビデオデコーディング(decoding)デバイスとも呼ばれ得る。動作中、ソースデバイス110は、エンコーディングされたビデオデータを生成するように構成され、宛先デバイス120は、ソースデバイス110によって生成されたエンコーディングされたビデオデータを、デコーディングするように構成され得る。ソースデバイス110は、ビデオソース112と、ビデオエンコーダ114と、入出力(I/O)インターフェース116と、を含み得る。
【0022】
ビデオソース112は、ビデオキャプチャデバイスなどのソースを含み得る。ビデオキャプチャデバイスの例には、ビデオコンテンツプロバイダからビデオデータを受信するインターフェース、ビデオデータを生成するコンピュータグラフィックスシステム、及び/又は、それらの組み合わせが含まれるが、これらに限定されない。
【0023】
ビデオデータは、1つ以上のピクチャを含み得る。ビデオエンコーダ114は、ビデオソース112からのビデオデータをエンコーディングして、ビットストリームを生成する。ビットストリームには、ビデオデータのコード化(coded)表現を形成する一連のビットが含まれ得る。ビットストリームには、コード化ピクチャ及び関連データが含まれ得る。コード化ピクチャは、ピクチャのコード化表現である。関連データには、シーケンスパラメータセット、ピクチャパラメータセット、及び、他の構文構造が含まれ得る。I/Oインターフェース116は、変調器/復調器、及び/又は、送信機を含み得る。エンコーディングされたビデオデータは、I/Oインターフェース116を介して、ネットワーク130Aを通じて、宛先デバイス120に直接送信され得る。エンコーディングされたビデオデータは、宛先デバイス120によるアクセスのために、記憶媒体/サーバ130Bに記憶され得る。
【0024】
宛先デバイス120は、I/Oインターフェース126と、ビデオデコーダ124と、表示デバイス122と、を含み得る。I/Oインターフェース126は、受信機及び/又はモデムを含み得る。I/Oインターフェース126は、ソースデバイス110又は記憶媒体/サーバ130Bから、エンコーディングされたビデオデータを取得し得る。ビデオデコーダ124は、エンコーディングされたビデオデータをデコーディングし得る。表示デバイス122は、デコーディングされたビデオデータを、ユーザに表示し得る。表示デバイス122は、宛先デバイス120と一体化されてもよいし、或いは、外部表示デバイスとインターフェースするように構成された、宛先デバイス120の外部にあってもよい。
【0025】
ビデオエンコーダ114及びビデオデコーダ124は、HEVC(High Efficiency Video Coding)規格、VVC(Versatile Video Coding)規格、及び、他の現在、及び/又は、さらなる規格などのビデオ圧縮規格に従って、動作し得る。
【0026】
図2は、本開示のいくつかの実施形態に係る、
図1に示すシステム100内のビデオエンコーダ114の一例である、ビデオエンコーダ200の一例を示すブロック図である。
【0027】
ビデオエンコーダ200は、本開示の技術のいずれか、又は、すべてを実施するように構成され得る。
図2の例において、ビデオエンコーダ200は、複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオエンコーダ200の様々なコンポーネント間で共有され得る。いくつかの例において、プロセッサは、本開示で説明された技術のいずれか、又は、すべてを実行するように構成され得る。
【0028】
いくつかの実施形態において、ビデオエンコーダ200は、分割ユニット201と、モード選択ユニット203、動き推定ユニット204、動き補償ユニット205、及び、イントラ予測ユニット206を含み得る、予測ユニット202と、残差生成ユニット207と、変換ユニット208と、量子化ユニット209と、逆量子化ユニット210と、逆変換ユニット211と、再構築ユニット212と、バッファ213と、エントロピー符号化ユニット214と、を含み得る。
【0029】
他の例において、ビデオエンコーダ200は、より多くの機能コンポーネント、より少ない機能コンポーネント、又は、異なる機能コンポーネントを含み得る。一例において、予測ユニット202は、イントラブロックコピー(IBC)ユニットを含み得る。IBCユニットは、少なくとも1つの参照ピクチャが現在ビデオブロックの位置するピクチャであるIBCモードで、予測を実行し得る。
【0030】
さらに、動き推定ユニット204、及び、動き補償ユニット205などのいくつかの構成要素は、統合され得るが、
図2の例では、説明の目的で、別々に表されている。
【0031】
分割ユニット201は、ピクチャを1つ以上のビデオブロックに分割し得る。ビデオエンコーダ200、及び、ビデオデコーダ300は、多様なビデオブロックサイズをサポートし得る。
【0032】
モード選択ユニット203は、例えば、エラー結果に基づいて、イントラエンコーディングモード又はインターコーディングモードのうちの1つを選択し、その結果から得られるイントラコーディング又はインターコーディングされたブロックを、残差ブロックデータを生成するように、残差生成ユニット207に提供し、エンコーディングされたブロックを再構築して、参照ピクチャとして使用するように、再構築ユニット212に提供し得る。いくつかの例では、モード選択ユニット203は、予測が、インター予測信号及びイントラ予測信号に基づく、イントラ予測及びインター予測の組み合わせ(CIIP)モードを選択し得る。モード選択ユニット203は、インター予測の場合、ブロックの動きベクトルの解像度(例えば、サブピクセル又は整数ピクセル精度)を選択し得る。
【0033】
現在ビデオブロックに対してインター予測を実行するために、動き推定ユニット204は、バッファ213からの1つ以上の参照フレームを現在ビデオブロックと比較することによって、現在ビデオブロックの動き情報を生成し得る。動き補償ユニット205は、現在ビデオブロックに関連するピクチャ以外の、バッファ213からのピクチャの動き情報及びデコーディングサンプルに基づいて、現在ビデオブロックの予測ビデオブロックを決定し得る。
【0034】
動き推定ユニット204及び動き補償ユニット205は、例えば、現在ビデオブロックが、Iスライス、Pスライス、又は、Bスライスのいずれにあるかに応じて、現在ビデオブロックに対して異なる演算を実行し得る。本明細書で使用されるように、「Iスライス」は、マクロブロックから構成されるピクチャの一部を指すことができ、そのすべてが同じピクチャ内のマクロブロックに基づいている。さらに、本明細書で使用されるように、いくつかの態様では、「Pスライス」及び「Bスライス」は、同じピクチャ内のマクロブロックに依存しないマクロブロックから構成されるピクチャの部分を指し得る。
【0035】
いくつかの例では、動き推定ユニット204は、現在ビデオブロックに対して単方向予測を実行することができ、動き推定ユニット204は、現在ビデオブロックの参照ビデオブロックに対するリスト0又はリスト1の参照ピクチャを探し得る。次に、動き推定ユニット204は、参照ビデオブロックを含む、リスト0又はリスト1内の参照ピクチャを示す参照インデックス、及び、現在ビデオブロックと参照ビデオブロックとの間の空間変位を示す動きベクトルを生成し得る。動き推定ユニット204は、参照インデックス、予測方向指示子、及び、動きベクトルを、現在ビデオブロックの動き情報として出力し得る。動き補償ユニット205は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。
【0036】
代替形態として、他の例では、動き推定ユニット204は、現在ビデオブロックに対して双方向予測を実行し得る。動き推定ユニット204は、現在ビデオブロックの参照ビデオブロックに対するリスト0内の参照ピクチャをサーチしてもよいし、現在ビデオブロックの別の参照ビデオブロックに対するリスト1内の参照ピクチャをサーチしてもよい。次に、動き推定ユニット204は、参照ビデオブロックを含む、リスト0及びリスト1内の参照ピクチャを示す参照インデックス、及び、参照ビデオブロックと現在ビデオブロックとの間の空間変位を示す、動きベクトルを生成し得る。動き推定ユニット204は、現在ビデオブロックの参照インデックス及び動きベクトルを、現在ビデオブロックの動き情報として出力し得る。動き補償ユニット205は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。
【0037】
いくつかの例では、動き推定ユニット204は、デコーダのデコーディング処理のためのフルセットの動き情報を出力し得る。代替形態として、いくつかの実施形態では、動き推定ユニット204は、別のビデオブロックの動き情報を参照して、現在ビデオブロックの動き情報をシグナリングし得る。例えば、動き推定ユニット204は、現在ビデオブロックの動き情報が隣接するビデオブロックの動き情報と十分に類似していると判定し得る。
【0038】
一例では、動き推定ユニット204は、現在ビデオブロックに関連付けられた構文構造において、現在ビデオブロックが別のビデオブロックと同じ動き情報を有することをビデオデコーダ300へ示す値を示し得る。
【0039】
別の例では、動き推定ユニット204は、現在ビデオブロックに関連付けられた構文構造において、別のビデオブロック及び動きベクトル差分(MVD)を識別し得る。動きベクトル差分は、現在ビデオブロックの動きベクトルと、指示されたビデオブロックの動きベクトルとの間の差分を示す。ビデオデコーダ300は、指示されたビデオブロックの動きベクトル及び動きベクトル差分を使用して、現在ビデオブロックの動きベクトルを決定し得る。
【0040】
上記のように、ビデオエンコーダ200は、動きベクトルを予測的にシグナリングし得る。ビデオエンコーダ200によって実施され得る予測シグナリング技術の2つの例には、アドバンスト動きベクトル予測(AMVP)、及び、マージモードシグナリングが含まれる。
【0041】
イントラ予測ユニット206は、現在ビデオブロックに対してイントラ予測を実行し得る。イントラ予測ユニット206が現在ビデオブロックに対してイントラ予測を実行するとき、イントラ予測ユニット206は、同じピクチャ内の他のビデオブロックのデコーディングされたサンプルに基づいて、現在ビデオブロックに対する予測データを生成し得る。現在ビデオブロックに対する予測データには、予測されたビデオブロック及び様々な構文要素が含まれ得る。
【0042】
残差生成ユニット207は、現在ビデオブロックから現在ビデオブロックの予測ビデオブロックを減算する(例えば、マイナス記号によって示される)ことによって、現在ビデオブロックに対する残差データを生成し得る。現在ビデオブロックの残差データは、現在ビデオブロック内のサンプルの異なるサンプル成分に対応する残差ビデオブロックを含み得る。
【0043】
他の例では、現在ビデオブロックに対する残差データは、例えば、スキップモードにおいて存在しなくてもよく、残差生成ユニット207は、減算演算を実行しなくてもよい。
【0044】
変換処理ユニット208は、現在ビデオブロックに関連付けられた残差ビデオブロックに1つ以上の変換を適用することによって、現在ビデオブロックに対する1つ以上の変換係数ビデオブロックを生成し得る。
【0045】
変換処理ユニット208が現在ビデオブロックに関連付けられた変換係数ビデオブロックを生成した後で、量子化ユニット209は、現在ビデオブロックに関連付けられた1つ以上の量子化パラメータ(QP)値に基づいて、現在ビデオブロックに関連付けられた変換係数ビデオブロックを量子化し得る。
【0046】
逆量子化ユニット210及び逆変換ユニット211は、それぞれ、変換係数ビデオブロックに逆量子化及び逆変換を適用して、変換係数ビデオブロックから、残差ビデオブロックを再構築し得る。再構築ユニット212は、再構築された残差ビデオブロックを、予測ユニット202によって生成された1つ以上の予測ビデオブロックからの対応するサンプルに追加して、バッファ213に記憶するために現在ビデオブロックに関連付けられた再構築ビデオブロックを生成し得る。
【0047】
再構築ユニット212がビデオブロックを再構築した後で、ビデオブロック内のビデオブロッキングアーティファクトを低減するために、ループフィルタリング動作が、実行され得る。
【0048】
エントロピー符号化ユニット214は、ビデオエンコーダ200の他の機能コンポーネントからデータを受信し得る。エントロピー符号化ユニット214がデータを受信すると、エントロピー符号化ユニット214は、1つ以上のエントロピー符号化動作を実行することでエントロピー符号化データを生成し、そして、エントロピー符号化データを含むビットストリームを出力し得る。
【0049】
図3は、本開示のいくつかの実施形態に係る、
図1に示すシステム100内のビデオデコーダ124の一例である、ビデオデコーダ300の一例を示すブロック図である。
【0050】
ビデオデコーダ300は、本開示の技術のいずれか又はすべてを実行するように構成され得る。
図3の例では、ビデオデコーダ300は、複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオデコーダ300の様々なコンポーネント間で共有され得る。いくつかの例では、プロセッサは、本開示で説明された技術のいずれか又はすべてを実行するように構成され得る。
【0051】
図3の例では、ビデオデコーダ300は、エントロピー復号ユニット301と、動き補償ユニット302と、イントラ予測ユニット303と、逆量子化ユニット304と、逆変換ユニット305と、再構築ユニット306と、バッファ307とを含む。ビデオデコーダ300は、いくつかの例では、ビデオエンコーダ200に関して説明したエンコーディングパスとは、一般に、逆のデコーディングパスを実行し得る。
【0052】
エントロピー復号ユニット301は、エンコーディングされたビットストリームを検索し得る。エンコーディングされたビットストリームは、エントロピー符号化されたビデオデータ(例えば、ビデオデータのエンコーディングされたブロック)を含み得る。エントロピー復号ユニット301は、エントロピー符号化されたビデオデータをデコーディングし得る。そして、動き補償ユニット302は、エントロピー復号されたビデオデータから、動きベクトル、動きベクトル精度、参照ピクチャリストインデックス、及び、他の動き情報を含む動き情報を決定し得る。動き補償ユニット302は、例えば、AMVP及びマージモードを実行することによって、そのような情報を決定し得る。AMVPが使用され、隣接するPB及び参照ピクチャからのデータに基づいた、最も可能性の高い、いくつかの候補の導出を含む。動き情報には、通常、水平及び垂直動きベクトル変位値、1つ又は2つの参照ピクチャインデックス、及び、Bスライス内の予測領域の場合は、どの参照ピクチャリストが各インデックスに関連付けられているかの識別が含まれる。本明細書で使用されるように、いくつかの態様では、「マージモード」は、空間的又は時間的に隣接するブロックから動き情報を導出することを指し得る。
【0053】
動き補償ユニット302は、動き補償されたブロックを生成し、当該ブロックは、補間フィルタに基づいて、補間を実行することができる。サブピクセル精度で使用される補間フィルタの識別子は、構文要素に含まれ得る。
【0054】
動き補償ユニット302は、ビデオブロックのエンコーディング中にビデオエンコーダ200によって使用される補間フィルタを使用して、参照ブロックのサブ整数ピクセルに対する補間値を計算し得る。動き補償ユニット302は、受信した構文情報に従って、ビデオエンコーダ200によって使用される補間フィルタを決定し、その補間フィルタを使用して、予測ブロックを生成し得る。
【0055】
動き補償ユニット302は、構文情報の少なくとも一部を使用して、エンコーディングされたビデオシーケンスのフレーム及び/又はスライスをエンコーディングするために使用されるブロックのサイズ、エンコーディングされたビデオシーケンスのピクチャの各マクロブロックがどのように分割されるかを説明するパーティション情報、各パーティションがどのようにエンコーディングされるかを示すモード、各インターエンコードされたブロックの1つ以上の参照フレーム(及び、参照フレームリスト)、及び、エンコーディングされたビデオシーケンスをデコーディングするその他の情報、を決定し得る。本明細書で使用されるように、いくつかの態様では、「スライス」は、エントロピー符号化、信号予測、及び、残差信号再構築に関して、同じピクチャの他のスライスと別個にデコーディングできるデータ構造を指し得る。スライスは、ピクチャ全体又はピクチャの領域のいずれかになり得る。
【0056】
イントラ予測ユニット303は、例えば、ビットストリーム内で受信されたイントラ予測モードを使用して、空間的に隣接するブロックから予測ブロックを形成し得る。逆量子化ユニット304は、ビットストリームで提供され、エントロピー復号ユニット301によってデコーディングされた量子化ビデオブロック係数を逆量子化、即ち、量子化解除する。逆変換ユニット305は、逆変換を適用する。
【0057】
再構築ユニット306は、例えば、残差ブロック、及び、動き補償ユニット302又はイントラ予測ユニット303によって生成された対応する予測ブロックを加算することによって、デコーディングされたブロックを取得し得る。必要に応じて、デブロッキングフィルタが適用されて、ブロックノイズアーティファクトを除去するように、デコーディングされたブロックをフィルタリングしてもよい。次に、デコーディングされたビデオブロックは、バッファ307に記憶され、バッファ307は、後続の動き補償/イントラ予測のための参照ブロックを提供し、また、表示デバイス上にプレゼンテーションするためのデコーディングされたビデオも生成する。
【0058】
本開示のいくつかの例示的な実施形態について、以下に、詳細に説明することにする。本明細書では、理解を容易にするためにセクション見出しが使用されているが、セクションで開示される実施形態をそのセクションのみに限定するものではないことを理解すべきである。さらに、特定の実施形態が多用途ビデオコーディング又は他の特定のビデオコーデックを参照して説明されているが、開示された技術は、他のビデオコーディング技術にも適用可能である。さらに、いくつかの実施形態は、ビデオコーディングステップを詳細に説明するが、コーディングを元に戻す対応するデコーディングステップは、デコーダによって実施されることが理解されるであろう。さらに、ビデオ処理という用語には、ビデオのエンコーディング又は圧縮、ビデオのコーディング又は解凍、及び、ビデオピクセルを1つの圧縮フォーマットから別の圧縮フォーマット又は異なる圧縮ビットレートで表現するビデオトランスエンコーディングが包含される。
1. 概要
本開示は、ビデオストリーミングに関する。具体的には、メインストリーム表現(MSR)及び外部ストリーム表現(ESR)に基づくビデオストリーミングの設計に関する。このアイデアは、DASH規格やその拡張などに基づいて、メディアストリーミングシステムについて、個別に又は様々な組み合わせで適用され得る。
2. 背景
2.1 ビデオコーディング規格
ビデオコーディング規格は、主によく知られているITU-T及びISO/IEC規格の開発を通じて進化してきた。ITU-Tが、H.261及びH.263を作成し、ISO/IECが、MPEG-1及びMPEG-4 Visualを作成し、この2つの組織が共同でH.262/MPEG-2 Video及びH.264/MPEG-4 AVC(Advanced Video Coding)及びH.265/HEVC規格を作成した。H.262以来、ビデオコーディング規格は、時間予測プラス変換コーディングが利用されるハイブリッドビデオコーディング構造に基づくものである。HEVCを超える未来ビデオコーディング技術を検討するために、ジョイントビデオエクスプロレーションチーム(Joint Video Exploration Team、JVET)が、2015年にVCEGとMPEGによって、共同で設立された。それ以来、多くの新しい方法がJVETによって採用され、ジョイントエクスプロレーションモデル(Joint Exploration Model、JEM)という名前のリファレンスソフトウェアに組み込まれた。その後、VVC(Versatile Video coding)プロジェクトが正式に開始されたときに、JVETは、Joint Video Experts Team(JVET)に名前変更された。VVCは、HEVCと比較して、50%ビットレート低減を目標とする新しいコーディング規格であり、2020年7月1日に終了した第19回会議でJVETによって最終的に完了された。
VVC(Versatile Video coding)規格(ITU-T H.266 |ISO/IEC 23090-3)、及び、関連する多用途付加拡張情報(Versatile Supplemental Enhancement Information、略してVSEI)規格(ITU-T H.274|ISO/IEC 23002-7)は、テレビ放送、ビデオ会議、又は記憶媒体からの再生などの従来の用途と、アダプティブビットレートストリーミング、ビデオ領域の抽出、多重コード化ビデオビットストリームからのコンテンツの合成と結合、マルチビュービデオ、スケーラブルなレイヤードコーディング、及び、ビューポート適応360度没入型メディアなどのより新しく高度な用途の両方を含む、最大限広範囲のアプリケーションで使用されるように設計されている。
EVC(Essential Video Coding)規格(ISO/IEC 23094-1)は、MPEGによって最近開発された別のビデオコーディング規格である。
2.2 ファイル・フォーマット規格
メディアストリーミングアプリケーションは、通常、IP、TCP、及びHTTPトランスポート方法に基づくものであり、ISOベースのメディア・ファイル・フォーマット(ISOBMFF)などのファイル・フォーマットに依存する。このようなストリーミングシステムの1つは、HTTPベースの動的適応型ストリーミング(DASH)でする。ISOBMFF及びDASHでビデオフォーマットを使用する場合、AVCファイル・フォーマットやHEVCファイル・フォーマットなど、ビデオフォーマットに特有なファイル・フォーマット仕様は、ISOBMFFトラック及びDASH表現とセグメントでのビデオコンテンツのカプセル化に必要な場合がある。ビデオビットストリームに関する重要な情報、例えば、プロファイル、階層、レベル、その他多くの情報は、コンテンツ選択の目的、例えば、ストリーミングセッションの開始時の初期化とストリーミングセッション中のストリーム適応の両方のための適切なメディアセグメントの選択のために、ファイル・フォーマットレベルメタデータ及び/又はDASHメディア・プレゼンテーション記述(Media Presentation Description、略してMPD)として公開されるべきであることがある。
同様に、ISOBMFFで画像フォーマットを使用する場合、AVC画像ファイル・フォーマット及びHEVC画像ファイル・フォーマットなど、画像フォーマットに特有のファイル・フォーマット仕様が必要なことがある。
ISOBMFFに基づいたVVCビデオコンテンツを保存するためのファイル・フォーマットである、VVCビデオファイル・フォーマットは、現在、MPEGによって開発されている。
ISOBMFFに基づいた、VVCを使用してコーディングされた画像コンテンツを保存するためのファイル形式である、VVC画像ファイル・フォーマットは、現在、MPEGによって開発されている。
2.3 DASH
HTTPベースの動的適応型ストリーミング(DASH)では、マルチメディアコンテンツのビデオ及び/又はオーディオデータの多重表現が存在し得るが、異なる表現は、異なるコーディング特性(例えば、ビデオコーディング規格の異なるプロファイル又はレベル、異なるビットレート、異なる空間解像度、など)に対応し得る。このような表現のマニフェストは、メディア・プレゼンテーション記述(MPD)データ構造として定義され得る。メディア・プレゼンテーションは、DASHストリーミングクライアントデバイスにアクセス可能なデータの構造化コレクションに対応し得る。DASHストリーミングクライアントデバイスは、クライアントデバイスのユーザにストリーミングサービスを提供するようにメディアデータ情報を要求し、ダウンロードし得る。メディア・プレゼンテーションは、MPDの更新を含む、MPDデータ構造で記述され得る。
メディア・プレゼンテーションには、一連の1つ以上の期間が含まれ得る。各期間は、次の期間の開始まで延長され、又は、最後の期間の場合に、メディア・プレゼンテーションの終了まで延長され得る。各期間には、同じメディアコンテンツの1つ以上の表現が含まれ得る。表現は、オーディオ、ビデオ、タイムドテキスト、又は、その他のそのようなデータの多数の代替的エンコーディングバージョンのうちの1つであり得る。表現は、エンコーディングタイプ、例えば、ビデオデータのビットレート、解像度、及び/又は、コーデック、及び、オーディオデータのビットレート、言語、及び/又は、コーデックによって異なってもよい。表現という用語は、マルチメディアコンテンツの特定の期間に対応し、特定の方式でエンコーディングされた、エンコーディングされたオーディオ又はビデオデータのセクションを指すために使用され得る。
特定の期間の表現は、その表現が属するアダプテーションセットを示すMPDにおける属性によって示されるグループに割り当てられ得る。同じアダプテーションセット内の表現は、クライアントデバイスがこれらの表現を、動的かつシームレスに切り替えて、例えば、帯域幅アダプテーションを実行できるという点で、一般に、相互の代替と見なされる。例えば、特定の期間のビデオデータの各表現は、同じアダプテーションセットに割り当てられ得るが、対応する期間のマルチメディアコンテンツのビデオデータ又はオーディオデータなどのメディアデータを提示するように、いずれかの表現がデコーディング用に選択され得る。1つの期間内のメディアコンテンツは、いくつかの例では、グループ0(存在する場合)からの1つの表現、又は、各非ゼログループからの最大1つの表現の組み合わせのいずれかによって表現され得る。期間の各表現のタイミングデータは、期間の開始時刻に対して相対的に表され得る。
表現には、1つ以上のセグメントが含まれ得る。各表現には、初期化セグメントが含まれ、表現の各セグメントは、自己初期化であり得る。存在する場合、初期化セグメントには、その表現にアクセスするための初期化情報が含まれ得る。一般に、初期化セグメントには、メディアデータが含まれない。セグメントは、ユニフォームリソースロケーター(URL)、ユニフォームリソース名(URN)、又は、ユニフォームリソース識別子(URI)などの識別子によって、一意的に参照され得る。MPDは、各セグメントに識別子を提供し得る。いくつかの例では、MPDは、URL、URN、又は、URIによってアクセス可能なファイル内のセグメントのデータに対応し得るバイト範囲を、範囲属性の形式で提供してもよい。
異なるタイプのメディアデータを実質的に同時に検索するために、異なる表現が選択され得る。例えば、クライアントデバイスは、セグメントを検索するためのオーディオ表現、ビデオ表現、及び、タイムドテキスト表現を選択し得る。いくつかの例では、クライアントデバイスは、帯域幅適応を実行するための特定の適応セットを選択し得る。即ち、クライアントデバイスは、ビデオ表現を含むアダプテーションセット、オーディオ表現を含むアダプテーションセット、及び/又は、タイムドテキストを含むアダプテーションセットを選択し得る。代替形態として、クライアントデバイスは、特定の種類のメディア(例えば、ビデオ)のアダプテーションセットを選択し、他の種類のメディア(例えば、オーディオ及び/又はタイムドテキスト)の表現を直接的に選択し得る。
一般的なDASHストリーミング手順を次のステップで示す。
1)クライアントは、MPDを取得する。
2)クライアントは、ダウンリンク帯域幅を推定し、推定されたダウンリンク帯域幅及びコーデック、デコーディング能力、表示サイズ、音声言語設定に従って、ビデオ表現及びオーディオ表現を選択する。
3)メディア・プレゼンテーションの終了に達していない限り、クライアントは、選択された表現のメディアセグメントを要求し、ストリーミングコンテンツをユーザへ提示する。
4)クライアントは、ダウンリンク帯域幅を推定し続ける。帯域幅がある方向に著しく変化した場合(例えば、低くなった場合)、クライアントは、新たに推定された帯域幅に合致する別のビデオ表現を選択し、ステップ3に進む。
2.4 拡張依存ランダムアクセスポイント(EDRAP)ベースのビデオコーディング及びストリーミング
付加拡張情報(SEI)メッセージを使用するEDRAPピクチャのシグナリングは、JVET-U0084により提案され、2021年1月の第21回JVET会議でVSEI仕様に採用された。2021年1月の第133回のMPEG会議で、EDRAPサンプルグループは、入力文書m56020内の提案に基づいて合意された。EDRAPベースのビデオストリーミングをサポートするために、2021年4月の第134回のMPEG会議で、MPEG入力文書m56675は、ISOBMFFの外部ストリームトラック(EST)の設計を提案した。
「WD of ISO/IEC 23009-1 5th edition AMD2 EDRAPストリームing and other extensions」というタイトルのMPEG出力文書MDS21030_WG03_N0425は、DASHにおけるEDRAPベースのストリーミングをサポートするためのメインストリーム表現(MSR)及び外部ストリーム表現(ESR)の記述子の設計を含む。
図4及び
図5は、ランダムアクセスポイント(RAP)の従来のコンセプトを示す図である。アプリケーション(例えば、適応型ストリーミング)は、ランダムアクセスポイント(RAP)の周波数を決定し、例えば、RAPの周期は、1s又は2sである。従来、RAPは、
図4に示されるように、IRAPピクチャのコーディングによって提供される。RAPピクチャ間の非キーピクチャ(non-key picture)のインター予測参照は示されておらず、左から右への出力順であることに注意すべきである。CRA6からランダムアクセスする際に、
図5に示されるように、デコーダは、ピクチャを受信して、正しくデコーディングする。
図6及び
図7は、依存ランダムアクセスポイント(DRAP)のコンセプトを示す図である。DRAPアプローチは、
図6に示されるように、DRAPピクチャ(及び、後続のピクチャ)がインター予測のために、その前のIRAPピクチャを参照することを可能にすることで、コーディング効率を向上させる。RAPピクチャ間の非キーピクチャのインター予測は示されておらず、左から右への出力順であることに注意すべきである。DRAP6からランダムアクセスする際に、
図7に示されるように、デコーダは、ピクチャを受信して、正しくデコーディングする。
図8及び
図9は、拡張依存ランダムアクセスポイント(EDRAP)のコンセプトを示す図である。EDRAPアプローチは、例えば、
図8に示されるように、EDRAPピクチャ(及び、後続のピクチャ)が、以前のいくつかのRAPピクチャ(IRAP又はEDRAP)のいくつかを参照することを可能にすることで、もう少し柔軟性を提供する。RAPピクチャ間の非キーピクチャのインター予測は示されておらず、左から右への出力順であることに注意すべきである。EDRAP6からランダムアクセスする際には、
図9に示されるように、デコーダは、ピクチャを受信して、正しくデコーディングする。
図10及び
図11は、EDRAPベースのビデオストリーミングを示す図である。EDRAP6から始まるセグメントからランダムアクセスする際に、又は、当該セグメントへ切り替えられる際に、
図11に示されるように、デコーダは、セグメントを受信して、デコーディングする。
MPEG出力文書MDS21030_WG03_N0425内の設計文書は、以下に示す。
2.4.1 定義
・拡張依存ランダムアクセスポイント(EDRAP)ピクチャ:
ISOBMFFトラック内のEDRAP又はDRAPサンプルグループのメンバーであるサンプル内のピクチャ
・外部エレメンタリストリーム:
外部ピクチャを持つアクセスユニットを含むエレメンタリストリーム
・外部ピクチャ:
ESR内の外部エレメンタリストリーム内のピクチャであって、MSR内のあるEDRAPからランダムアクセスする際、MSR内のエレメンタリストリームのデコーディング中にインター予測に必要なピクチャ
・外部ストリーム表現(ESR):
外部エレメンタリストリームを含む表現
・メインストリーム表現(MSR):
ビデオエレメンタリストリームを含む表現
2.4.2 MSR及びESR記述子
アダプテーションセットは、@schemeIdUriが、urn:mpeg:dash:msr:2021に等しい、EssentialProperty記述子を含み得る。当該記述子は、MSR記述子と呼ばれる。EssentialPropertyの存在は、当該アダプテーションセット内の各表現がMSRであることを示す。
以下は、MSRに適用される。すなわち、
-時間同期されたサンプルが、関連するESR内で運ばれるトラック内に存在する場合に、クライアントに利用可能であれば、アダプテーションセット内のMSR表現における各SAPは、表現内のコンテンツへのアクセスに使用されることができる。
-MSR内の各EDRAPピクチャは、セグメント内の最初のピクチャであるべきである(即ち、各EDRAPピクチャは、セグメントを開始すべきである)。
アダプテーションセットは、@schemeIdUriがUrn:mpeg:dash:esr:2021に等しい、EssentialProperty記述子を含み得る。当該記述子は、ESR記述子と呼ばれる。EssentialPropertyの存在は、当該アダプテーションセット内の各表現が、ESRであることを示す。ESRは、他のビデオ表現なしに、それ自身で、消費又は再生されるべきではない。
各MSRは、以下のように、MSR内の(既存の)表現レベル属性@associationId及び@associationTypeを通じて、MSRに関連付けられる。すなわち、関連するESRの@idは、属性@associationIdに含まれる値によって参照されるべきであり、属性@associationType内の対応する値は、「aest」に等しい。
オプションとして、MSR内の表現属性@associationId及び@associationTypeを通じて、相互に関連付けられたMSR及びESRには、以下の制約が適用される。すなわち、
-MSR内の、EDRAPピクチャで始まるセグメントごとに、ESR内には、MSR内のセグメントと同じセグメント開始時間(MPDから導出されたもの)を持つセグメントが存在すべきであり、ここで、ESR内のセグメントは、MSR内で運ばれるビットストリーム内のデコーディング順での当該EDRAPピクチャ及び後続のピクチャをデコーディングすることに必要な外部ピクチャを運ぶ。
- MSR内の、EDRAPピクチャで始まるのではないセグメントごとに、ESR内には、MSR内のセグメントと同じセグメント開始時間(MPDから導出されたもの)をもつセグメントが存在すべきではない。
3. 問題点
MPEG出力文書MDS21030_WG03_N0425の設計は、以下のような問題がある。すなわち、
1)メインストリーム表現(MSR)が関連する外部ストリーム表現(ESR)を持たないことは許可される。
2)EDRAPピクチャという用語は、「ISOBMFFトラック内のEDRAP又はDRAPサンプルグループのメンバーであるサンプル内のピクチャ」として定義される。しかしながら、当該定義は、ISOBMFFに基づくものではない表現に適用されることができず、そして、当該定義は、ビデオ以外の他の種類のメディアに適用されることもできない。
3)MSR内のEDRAPサンプルからランダムアクセスすることで得られたビットストリームが、適合なビットストリームであること、を要求する制約はない。
4. 詳細なソリューション
上記の問題を解決するために、以下のように要約される方法を開示する。ソリューションは、一般的な概念を説明するための例として考慮されるべきであり、狭く解釈されるべきではない。さらに、これらのソリューションは、任意の態様で組み合わせて、適用することもできる。
1)1つ目の問題を解消するために、メインストリーム表現(MSR)が関連する外部ストリーム表現(ESR)を持つべきであると指定される。
2)2つ目の問題を解消するために、以下の項目の1つ以上が指定される。すなわち、
a.ESR内の、特定のプレゼンテーション時間を持つメディアサンプルごとに、MSR内には、同じプレゼンテーション時間を持つ対応するメディアサンプルが存在すべきである。
b.MSR内の、対応するESRメディアサンプルを持つ各メディアサンプルは、EDRAPサンプルと呼ばれる。
c.MSR内の各EDRAPサンプルの最初のバイト位置は、SAPのI
SAUであり、これは、対応するESRメディアサンプルが、MSR内のEDRAPサンプル及び後続のサンプルの直前にメディアデコーダへ提供されれば、MSR内のメディアストリームを再生可能にする。
3)3つ目の問題を解決するために、以下のことは指定される。すなわち、ESR内の任意のセグメントとMSR内の対応するセグメント、及び、すべての後続のセグメントとの連結は、適合なビットストリームを生成すべきである。
5. 実施形態
【表1】
5.1.1 MSR及びESR記述子
【表2】
【表3】
【0059】
本開示の実施形態は、MSR及びESRに基づくストリーミングのための改良設計に関する。本明細書で使用される「メディア」という用語は、オーディオ、ビデオなどを含み得る。
【0060】
図12は、本開示のいくつかの実施形態に係るメディア処理方法1200のフローチャートを示す。当該方法1200は、クライアント又はサーバで実施され得る。本明細書で使用される「クライアント」という用語は、コンピュータネットワークのクライアントサーバモデルの一部として、サーバによって利用可能であるサービスにアクセスする、コンピューターハードウェア又はソフトウェアを指し得る。一例として、クライアントは、スマートフォン又はタブレットであり得る。本明細書で使用される「サーバ」という用語は、コンピューティング可能なデバイスを指す場合があり、この場合、クライアント、はネットワークを介して、サービスにアクセスする。サーバは、物理コンピューティングデバイス又は仮想コンピューティングデバイスであり得る。
【0061】
図12に示されるように、1202では、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換が実行される。メディア・ファイルは、ISOBMFFなどのファイル等のファイル・フォーマットのコンテキスト内で、メディアコンテンツの制限付き又は制限なしのプレゼンテーションを確立するデータのコレクションである。メディア・プレゼンテーションは、DASHなどのストリーミングフォーマットのコンテキスト内で、メディアコンテンツの制限付き又は制限なしのプレゼンテーションを確立するデータのコレクションである。メディア・プレゼンテーションは、メインストリーム表現(MSR)及び当該MSRに関連付けられる外部ストリーム表現(ESR)を含み、ESR内の第1セグメント、第1セグメントに対応するMSR内の第2セグメント、及び、MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。例えば、ファイル・フォーマット規格は、国際標準化機構ベースのメディア・ファイル・フォーマット(ISOBMFF)であり得る。ファイル・フォーマット規格は、他の任意の適切なファイル・フォーマット規格であってもよいと理解すべきである。本開示の範囲は、これに限定されない。
【0062】
上記を考慮すると、ESR内のセグメント、それに対応するMSR内のセグメント、及び、MSR内のすべての後続のセグメントを連結することで得られるファイルは、ファイル・フォーマット規格に適合し得る。このようなファイルがファイル・フォーマット規格に適合すると要求されない従来の方案に比べて、提案した方法は、EDRAPベースのランダムアクセス技術をより効率的にサポートすることができるという利点がある。
【0063】
いくつかの実施形態では、MSRは、MSR内の表現レベル属性のセットを通じてESRに関連付けられ得る。一例では、表現レベル属性のセットは、associationId属性及びassociationType属性を含み得る。一例として、関連するESRの@idは、属性@associationIdに含まれる値によって参照され、属性@associationType内の対応する値は「aest」に等しい。上記の例は、単に説明を目的として記載されたものであることを理解すべきである。本開示の範囲は、これに限定されない。
【0064】
いくつかの実施形態では、メディア・プレゼンテーション内のデータセットにおける第1記述子は、1202での変換中に決定される。第1記述子の存在は、データセット内の表現がMSRであり得ることを示す。変換は、第1記述子に基づいて実行され得る。一例として、第1記述子は、ユニフォームリソース名(URN)文字列に等しい属性を持つデータ構造として定義され得る。一例として、属性は、schemeIdUri属性であり得る。そして、URN文字列は、「urn:mpeg:dash:msr:2022」であり得る。さらに、メディア・プレゼンテーションは、メディア・プレゼンテーション記述(MPD)を含み得る。そして、データ構造は、MPD内のEssentialPropertyであり得る。追加的又は代替的な例では、データセットは、アダプテーションセットであり得る。上記の例は、単に説明を目的として記載されたものであることを理解すべきである。本開示の範囲は、これに限定されない。
【0065】
追加的に、又は、代替的に、メディア・プレゼンテーション内のデータセットにおける第2記述子は、1202での変換中に決定される。第2記述子の存在は、データセット内の表現がESRであり得ることを示す。変換は、第2記述子に基づいて実行され得る。一例として、第2記述子は、URN文字列に等しい属性を持つデータ構造として定義され得る。一例として、属性は、schemeIdUri属性であり得る。そして、URN文字列は、「urn:mpeg:dash:esr:2022」であり得る。さらに、メディア・プレゼンテーションは、MPDを含み、データ構造は、MPD内のEssentialPropertyであり得る。追加的又は代替的な例では、データセットは、アダプテーションセットであり得る。上記の例は、単に説明を目的として記載されたものであることを理解すべきである。本開示の範囲は、これに限定されない。
【0066】
本開示の実施形態によれば、非一時的なコンピュータ可読記憶媒体を提案する。メディアのメディア・ファイルは、非一時的なコンピュータ可読記憶媒体内に記憶される。メディアのメディア・ファイルは、メディア処理装置によって実行される方法で生成されることができる。当該方法によれば、メディア・ファイルと、メディアのメディア・プレゼンテーションとの間の変換が実行される。メディア・プレゼンテーションは、MSR、及び、当該MSRに関連付けられるESRを含む。ESR内の第1セグメント、第1セグメントに対応するMSR内の第2セグメント、及び、MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0067】
本開示の実施形態によれば、メディアのメディア・プレゼンテーションを記憶する方法を提案する。当該方法では、メディアのメディア・ファイルと、メディアのメディア・プレゼンテーションとの間の変換が実行され、メディア・ファイルは、非一時的なコンピュータ可読記憶媒体内に記憶される。メディア・プレゼンテーションは、MSR、及び、当該MSRに関連付けられるESRを含む。ESR内の第1セグメント、第1セグメントに対応するMSR内の第2セグメント、及び、MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0068】
本開示の実施形態によれば、非一時的なコンピュータ可読記憶媒体を提案する。メディアのメディア・プレゼンテーションは、非一時的なコンピュータ可読記憶媒体内に記憶される。メディアのメディア・プレゼンテーションは、メディア処理装置によって実行される方法で生成されることができる。当該方法によれば、メディアのメディア・ファイルと、メディア・プレゼンテーションとの間の変換が実行される。メディア・プレゼンテーションは、MSR、及び、当該MSRに関連付けられるESRを含む。ESR内の第1セグメント、第1セグメントに対応するMSR内の第2セグメント、及び、MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0069】
本開示の実施形態によれば、メディアのメディア・プレゼンテーションを記憶する方法を提案する。当該方法では、メディアのメディア・ファイルと、メディアのメディア・プレゼンテーションとの間の変換が実行され、メディア・プレゼンテーションは、非一時的なコンピュータ可読記憶媒体内に記憶される。メディア・プレゼンテーションは、MSR、及び、当該MSRに関連付けられるESRを含む。ESR内の第1セグメント、第1セグメントに対応するMSR内の第2セグメント、及び、MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される。
【0070】
本開示の実施形態は、以下の条項を考慮して説明することができ、その特徴は、任意の合理的な態様で組み合わせることができる。
【0071】
条項1.メディア処理方法であって、メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、方法。
【0072】
条項2.前記ファイル・フォーマット規格は、国際標準化機構ベースのメディア・ファイル・フォーマット(ISOBMFF)である、条項1に記載の方法。
【0073】
条項3.前記MSRは、前記MSR内の表現レベル属性のセットを通じて前記ESRに関連付けられる、条項1又は2に記載の方法。
【0074】
条項4.前記表現レベル属性のセットは、associationId属性及びassociationType属性を含む、条項1~3のいずれか1項に記載の方法。
【0075】
条項5.前記変換を実行するステップは、前記メディア・プレゼンテーション内のデータセットにおける第1記述子を決定するステップであり、前記第1記述子の存在は、前記データセット内の表現がMSRであることを示す、ステップと、前記第1記述子に基づいて前記変換を実行するステップと、を含む、条項1~4のいずれか1項に記載の方法。
【0076】
条項6.前記第1記述子は、ユニフォームリソース名(URN)文字列に等しい属性を持つデータ構造として定義される、条項5に記載の方法。
【0077】
条項7.前記メディア・プレゼンテーションは、メディア・プレゼンテーション記述(MPD)を含み、前記データ構造は、前記MPD内のEssentialPropertyである、条項6に記載の方法。
【0078】
条項8.前記属性は、schemeIdUri属性であり、前記URN文字列は、「urn:mpeg:darqdsh:msr:2022」である、条項7に記載の方法。
【0079】
条項9.前記変換を実行するステップは、前記メディア・プレゼンテーション内のデータセットにおける第2記述子を決定するステップであり、前記第2記述子の存在は、前記データセット内の表現がESRであることを示す、ステップと、前記第2記述子に基づいて前記変換を実行するステップと、を含む、条項1~4のいずれか1項に記載の方法。
【0080】
条項10.前記第2記述子は、URN文字列に等しい属性を持つデータ構造として定義される、条項9に記載の方法。
【0081】
条項11.前記メディア・プレゼンテーションは、MPDを含み、前記データ構造は、前記MPD内のEssentialPropertyである、条項10に記載の方法。
【0082】
条項12.前記属性は、schemeIdUri属性であり、前記URN文字列は、「urn:mpeg:dash:esr:2022」である、条項11に記載の方法。
【0083】
条項13.前記を実行するステップ変換は、前記メディア・ファイルを前記メディア・プレゼンテーション内にパックするステップを含む、条項1~12のいずれか1項に記載の方法。
【0084】
条項14.前記変換を実行するステップは、前記メディア・プレゼンテーションから前記メディア・ファイルをアンパックするステップを含む、条項1~12のいずれか1項に記載の方法。
【0085】
条項15.プロセッサと、命令を備える非一時的なメモリとを含む、メディアデータを処理する装置であって、前記命令は、前記プロセッサによって実行されると、前記プロセッサに条項1~14のいずれか1項に記載の方法を実行させる、装置。
【0086】
条項16.プロセッサに条項1~14に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ可読記憶媒体。
【0087】
条項17.メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する非一時的なコンピュータ可読記憶媒体であって、前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、非一時的なコンピュータ可読記憶媒体。
【0088】
条項18.メディアのメディア・ファイルを記憶する方法であって、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・ファイルを非一時的なコンピュータ可読記憶媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、方法。
【0089】
条項19.メディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する非一時的なコンピュータ可読記憶媒体であって、前記方法は、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、非一時的なコンピュータ可読記憶媒体。
【0090】
条項20.メディアのメディア・プレゼンテーションを記憶する方法であって、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・プレゼンテーションを非一時的なコンピュータ可読記憶媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、方法。
【0091】
例示的なデバイス
図13は、本開示の様々な実施形態を実施できるコンピューティングデバイス1300のブロック図を示す。コンピューティングデバイス1300は、ソースデバイス110(或いは、ビデオエンコーダ114又は200)、又は、宛先デバイス120(或いは、ビデオデコーダ124又は300)として実施されるか、又は、それに含まれ得る。
【0092】
図13に示されるコンピューティングデバイス1300は、単に説明を目的としたものであり、本開示の実施形態の機能及び範囲をいかなる形でも制限することを示唆するものではないことが理解されるだろう。
【0093】
図13に示すように、コンピューティングデバイス1300は、汎用コンピューティングデバイス1300を含む。コンピューティングデバイス1300は、少なくとも1つ以上のプロセッサ又は処理ユニット1310と、メモリ1320と、記憶ユニット1330と、1つ以上の通信ユニット1340と、1つ以上の入力デバイス1350と、1つ以上の出力デバイス1360と、を含み得る。
【0094】
いくつかの実施形態では、コンピューティングデバイス1300は、コンピューティング能力を有する任意のユーザ端末又はサーバ端末として実施され得る。前記サーバ端末は、サービスプロバイダが提供するサーバや大規模コンピューティングデバイス、などであり得る。前記ユーザ端末は、例えば、携帯電話、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム(PCS)デバイス、パーソナルナビゲーションデバイス、携帯情報端末(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位デバイス、テレビ受信機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス、又は、それらの任意の組み合わせ(これらのデバイスのアクセサリ及び周辺機器、又は、それらの任意の組み合わせを含む)を含む、任意のタイプの移動端末、固定端末、又は、携帯端末であり得る。コンピューティングデバイス1300は、ユーザに対する任意のタイプのインターフェース(「ウェアラブル」回路など)をサポートすることができると考えられる。
【0095】
処理ユニット1310は、物理又は仮想プロセッサであり、メモリ1320に格納されたプログラムに基づいて、様々なプロセスを実施し得る。マルチプロセッサシステムでは、コンピューティングデバイス1300の並列処理能力を向上させるために、複数の処理ユニットが、コンピュータ実行可能命令を並列に実行する。処理ユニット1310は、中央処理ユニット(CPU)、マイクロプロセッサ、コントローラ、又は、マイクロコントローラと呼ばれ得る。
【0096】
コンピューティングデバイス1300は、通常、様々なコンピュータ記憶媒体を含む。このような媒体は、揮発性及び不揮発性媒体、又は、取り外し可能及び取り外し不可能な媒体を含むが、これらに限定されない、コンピューティングデバイス1300によってアクセス可能な任意の媒体であり得る。メモリ1320は、揮発性メモリ(例えば、レジスタ、キャッシュ、ランダムアクセスメモリ(RAM))、不揮発性メモリ(例えば、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュ メモリ)、又は、それらの任意の組み合わせであり得る。記憶ユニット1330は、任意の取り外し可能又は取り外し不可能な媒体であり、情報及び/又はデータを記憶するために使用でき、コンピューティングデバイス1300でアクセスできる、メモリ、フラッシュメモリドライブ、磁気ディスク、又は別の他の媒体などの機械可読媒体を含み得る。
【0097】
コンピューティングデバイス1300は、追加の取り外し可能/取り外し不可能、揮発性/不揮発性メモリ媒体を、さらに含み得る。なお、
図13には示していないが、着脱可能な不揮発性磁気ディスクの読み書きを行う磁気ディスクドライブや、着脱可能な不揮発性光ディスクの読み書きを行う光ディスクドライブを提供することが可能である。このような場合、各ドライブは、1つ以上のデータ媒体インターフェースを介して、バス(図示せず)に接続され得る。
【0098】
通信ユニット1340は、通信媒体を介して、さらなるコンピューティングデバイスと通信する。さらに、コンピューティングデバイス1300内のコンポーネントの機能は、通信接続を介して通信できる単一のコンピューティングクラスタ、又は、複数のコンピューティングマシンによって実施することができる。したがって、コンピューティングデバイス1300は、1つ以上の他のサーバ、ネットワーク化されたパーソナルコンピュータ(PC)、又は、さらなる一般的なネットワークノードとの論理接続を使用して、ネットワーク化された環境で動作することができる。
【0099】
入力デバイス1350は、マウス、キーボード、トラッキングボール、音声入力デバイス、などの様々な入力デバイスのうちの1つ以上であり得る。出力デバイス1360は、ディスプレイ、スピーカ、プリンタ、などの様々な出力デバイスのうちの1つ以上であり得る。通信ユニット1340によって、コンピューティングデバイス1300は、記憶デバイス及び表示デバイス、などの1つ以上の外部デバイス(図示せず)と、さらに通信することができ、1つ以上のデバイスにより、ユーザがコンピューティングデバイス1300と対話可能にするか、又は、必要に応じて、任意のデバイス(ネットワークカード、モデム、など)により、コンピューティングデバイス1300が1つ以上の他のコンピューティングデバイスと通信可能にする。このような通信は、入出力(I/O)インターフェース(図示せず)を介して、実行できる。
【0100】
いくつかの実施形態では、単一のデバイスに統合される代わりに、コンピューティングデバイス1300のいくつかの、又は、すべてのコンポーネントが、クラウドコンピューティングアーキテクチャに配置され得る。クラウドコンピューティングアーキテクチャでは、コンポーネントは、遠隔的に提供され、連携して、本開示で説明される機能を実施し得る。いくつかの実施形態では、クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス、及びストレージサービスを提供し、これらのサービスを提供するシステム又はハードウェアの物理的な位置又は構成をエンドユーザが認識する必要はない。様々な実施形態において、クラウドコンピューティングは、適切なプロトコルを使用して、広域ネットワーク(インターネットなど)を介して、サービスを提供する。例えば、クラウドコンピューティングプロバイダーは、Webブラウザ又はその他のコンピューティングコンポーネントを通じてアクセスできる、広域ネットワーク経由で、アプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔地にあるサーバに保存され得る。クラウドコンピューティング環境におけるコンピューティングリソースは、リモートデータセンターの場所に併合又は分散され得る。クラウドコンピューティングインフラストラクチャは、ユーザにとって単一のアクセスポイントとして動作するが、共有データセンターを通じて、サービスを提供し得る。したがって、クラウドコンピューティングアーキテクチャを使用して、本明細書で説明されるコンポーネント及び機能を、遠隔地にあるサービスプロバイダから提供し得る。代替形態として、それらは、従来のサーバから提供されるか、又は、クライアントデバイスに直接又はその他の方法で、インストールされ得る。
【0101】
コンピューティングデバイス1300は、本開示の実施形態において、ビデオコーディング/デコーディングを実施するために使用され得る。メモリ1320は、1つ以上のプログラム命令を有する1つ以上のビデオコーディングモジュール1325を含み得る。これらのモジュールは、本明細書で説明される様々な実施形態の機能を実行するように、処理ユニット1310によって、アクセス可能かつ実行可能である。
【0102】
ビデオコーディングを実行する例示的な実施形態では、入力デバイス1350は、エンコーディングされるビデオデータを、入力1370として受信し得る。ビデオデータは、例えば、ビデオコーディングモジュール1325によって処理されて、エンコーディングされたビットストリームを生成し得る。エンコーディングされたビットストリームは、出力デバイス1360を介して、出力1380として提供され得る。
【0103】
ビデオデコーディングを実行する例示的な実施形態では、入力デバイス1350は、エンコーディングされたビットストリームを、入力1370として受信し得る。エンコーディングされたビットストリームは、例えば、ビデオコーディングモジュール1325によって処理されて、デコーディングされたビデオデータを生成し得る。デコーディングされたビデオデータは、出力デバイス1360を介して、出力1380として提供され得る。
【0104】
本開示は、その好ましい実施形態を参照して、特に、図示及び説明されてきたが、添付の特許請求の範囲によって定義される本出願の精神及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることが当業者には理解されるであろう。このような変形は、本出願の範囲に含まれるものとする。したがって、本出願の実施形態に関する前述の説明は、限定することを意図したものではない。
【手続補正書】
【提出日】2024-06-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
メディア処理方法であって、
メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップ、を含み、
前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、
前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、
方法。
【請求項2】
前記ファイル・フォーマット規格は、国際標準化機構ベースのメディア・ファイル・フォーマット(ISOBMFF)である、
請求項1に記載の方法。
【請求項3】
前記MSRは、前記MSR内の表現レベル属性のセットを通じて前記ESRに関連付けられる、
請求項
1に記載の方法。
【請求項4】
前記表現レベル属性のセットは、associationId属性、及び、associationType属性を含む、
請求項3に記載の方法。
【請求項5】
前記変換を実行するステップは、
前記メディア・プレゼンテーション内のデータセットにおける第1記述子を決定するステップであり、前記第1記述子の存在は、前記データセット内の表現がMSRであることを示す、ステップと、
前記第1記述子に基づいて前記変換を実行するステップと、を含む、
請求項
1に記載の方法。
【請求項6】
前記第1記述子は、ユニフォームリソース名(URN)文字列に等しい属性を持つデータ構造として定義される、
請求項5に記載の方法。
【請求項7】
前記メディア・プレゼンテーションは、メディア・プレゼンテーション記述(MPD)を含み、
前記データ構造は、前記MPD内のEssentialPropertyである、
請求項6に記載の方法。
【請求項8】
前記属性は、schemeIdUri属性であり、
前記URN文字列は、「urn:mpeg:darqdsh:msr:2022」である、
請求項7に記載の方法。
【請求項9】
前記変換を実行するステップは、
前記メディア・プレゼンテーション内のデータセットにおける第2記述子を決定するステップであり、前記第2記述子の存在は、前記データセット内の表現がESRであることを示す、ステップと、
前記第2記述子に基づいて前記変換を実行するステップと、を含む、
請求項
1に記載の方法。
【請求項10】
前記第2記述子は、URN文字列に等しい属性を持つデータ構造として定義される、
請求項9に記載の方法。
【請求項11】
前記メディア・プレゼンテーションは、MPDを含み、
前記データ構造は、前記MPD内のEssentialPropertyである、
請求項10に記載の方法。
【請求項12】
前記属性は、schemeIdUri属性であり、
前記URN文字列は、「urn:mpeg:dash:esr:2022」である、
請求項11に記載の方法。
【請求項13】
前記変換を実行するステップは、
前記メディア・ファイルを前記メディア・プレゼンテーション内にパックするステップ、を含む、
請求項
1に記載の方法。
【請求項14】
前記変換を実行するステップは、前記メディア・プレゼンテーションから前記メディア・ファイルをアンパックするステップ、を含む、
請求項
1に記載の方法。
【請求項15】
プロセッサと、命令を備える非一時的なメモリとを含む、メディアデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに請求項1~14のいずれか1項に記載の方法を実行させる、
装置。
【請求項16】
プロセッサに請求項1~14のいずれか1項に記載の方法を実行させる命令を記憶する、
非一時的なコンピュータ可読記憶媒体。
【請求項17】
メディアのメディア・プレゼンテーションを記憶する方法であって、
前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、
前記メディア・プレゼンテーションを非一時的なコンピュータ可読記憶媒体内に記憶するステップと、を含み、
前記メディア・プレゼンテーションは、メインストリーム表現(MSR)及び前記MSRに関連付けられる外部ストリーム表現(ESR)を含み、
前記ESR内の第1セグメント、前記第1セグメントに対応する前記MSR内の第2セグメント、及び、前記MSR内の第2セグメントに続く後続のセグメントの連結により、ファイル・フォーマット規格に適合するファイルが生成される、
方法。
【国際調査報告】