(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-18
(54)【発明の名称】メディア処理方法、装置、及び媒体
(51)【国際特許分類】
H04N 19/70 20140101AFI20241010BHJP
H04N 21/845 20110101ALI20241010BHJP
【FI】
H04N19/70
H04N21/845
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024526481
(86)(22)【出願日】2022-11-04
(85)【翻訳文提出日】2024-05-02
(86)【国際出願番号】 US2022079303
(87)【国際公開番号】W WO2023081824
(87)【国際公開日】2023-05-11
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520477474
【氏名又は名称】バイトダンス インコーポレイテッド
【氏名又は名称原語表記】BYTEDANCE INC.
【住所又は居所原語表記】12655 West Jefferson Boulevard, Sixth Floor, Suite No. 137 Los Angeles, California 90066 United States of America
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ワン,イェ-クイ
【テーマコード(参考)】
5C159
5C164
【Fターム(参考)】
5C159MA04
5C159MA05
5C159MA21
5C159MC11
5C159ME01
5C159PP04
5C159RC11
5C159UA02
5C159UA05
5C164MA02S
5C164MB44P
5C164SC03S
(57)【要約】
本開示の実施形態は、メディア処理のための方案を提供する。メディア処理方法を提供する。当該方法は、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、ESR内のメディア・サンプルのプレゼンテーション時間は、MSR内の対応するメディア・サンプルのプレゼンテーション時間と同じである。これにより、提案した方法は、拡張依存ランダム・アクセスポイント(EDRAP)ベースの技術をより効率的にサポートすることができるという利点がある。
【選択図】
図12
【特許請求の範囲】
【請求項1】
メディア処理方法であって、
メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、
前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
【請求項2】
前記MSR内の前記メディア・サンプルは、拡張依存ランダム・アクセスポイント(EDRAP)サンプルである、
請求項1に記載の方法。
【請求項3】
前記EDRAPサンプルは、ストリーム・アクセスポイント(SAP)の開始アクセスユニット(SAU)の指示を含む、
請求項2に記載の方法。
【請求項4】
前記EDRAPサンプル内の最初の位置でのバイトは、前記SAUのインデックスを表す、
請求項3に記載の方法。
【請求項5】
前記EDRAPサンプルは、前記EDRAPサンプルに対応する前記ESR内のメディア・サンプルがメディアデコーダへ提供された後、前記メディアデコーダへ提供される、
請求項3又は4に記載の方法。
【請求項6】
前記EDRAPサンプルは、前記MSR内の第1セグメントの最初の位置にある、
請求項2~5のいずれか1項に記載の方法。
【請求項7】
前記第1セグメントは、前記ESR内の第2セグメントに関連付けられ、前記第1セグメントのセグメント開始時間は、前記第2セグメントのセグメント開始時間と同じである、
請求項6に記載の方法。
【請求項8】
前記メディア・プレゼンテーションは、メディア・プレゼンテーション記述(MPD)を含む、
請求項1~7のいずれか1項に記載の方法。
【請求項9】
前記変換は、前記メディア・ファイルを前記メディア・プレゼンテーション内にパックするステップを含む、
請求項1~8のいずれか1項に記載の方法。
【請求項10】
前記変換は、前記メディア・プレゼンテーションから前記メディア・ファイルをアンパックするステップを含む、
請求項1~8のいずれか1項に記載の方法。
【請求項11】
プロセッサと命令を備える非一時的なメモリとを含む、メディアデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに請求項1~10のいずれか1項に記載の方法を実行させる、装置。
【請求項12】
プロセッサに請求項1~10に記載の方法を実行させる命令を記憶する、
非一時的なコンピュータ可読記憶媒体。
【請求項13】
メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する非一時的なコンピュータ可読記録媒体であって、
前記方法は、
前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、
前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、
非一時的なコンピュータ可読記録媒体。
【請求項14】
メディアのメディア・ファイルを記憶する方法であって、
前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、
前記メディア・ファイルを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、
前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
【請求項15】
メディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する非一時的なコンピュータ可読記録媒体であって、
前記方法は、
前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップを含み、
前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、
非一時的なコンピュータ可読記録媒体。
【請求項16】
メディアのメディア・プレゼンテーションを記憶する方法であって、
前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、
前記メディア・プレゼンテーションを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、
前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
【発明の詳細な説明】
【技術分野】
【0001】
〔関連出願の相互参照〕
本出願は、2021年11月5日に出願された米国仮出願第63/276,442号の優先権を主張し、その内容全体がここに参照として取り込まれる。
【0002】
本開示の実施形態は、概して、メディアコーディング技術に関し、より具体的には、メインストリーム表現(MSR)及び外部ストリーム表現(ESR)に基づくストリーミングのための改良設計に関する。
【背景技術】
【0003】
メディアストリーミングアプリケーションは、通常、インターネットプロトコル(IP)、伝送制御プロトコル(TCP)、及びハイパーテキスト転送プロトコル(HTTP)の転送方法に基づくものであり、通常、ISOベースのメディア・ファイルフォーマット(ISOBMFF)などのファイルフォーマットに依存する。このようなストリーミングシステムの1つは、HTTPベースの動的適応型ストリーミング(dynamic adaptive streaming over HTTP、略してDASH)である。DASHでは、マルチメディアコンテンツのビデオ及び/又はオーディオデータの多重表現が存在し得るが、異なる表現は、異なるコーディング特性(例えば、ビデオコーディング規格の異なるプロファイル又はレベル、異なるビットレート、異なる空間解像度など)に対応し得る。また、拡張依存ランダム・アクセスポイント(extended dependent random access point、略してEDRAP)ピクチャベースのビデオコーディング及びストリーミングは提案されている。従って、MSR及びESRに基づくストリーミングについて研究する価値はある。
【発明の概要】
【0004】
本開示の実施形態は、メディア処理のための方案を提供する。
【0005】
第1態様では、メディア処理方法を提案する。前記方法は、メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内のESR内の各メディア・サンプルは、前記メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応し、前記ESR内のメディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0006】
本開示の第1態様による方法によれば、前記メディアサンプは、オーディオサンプル、ビデオサンプルなどであってもよい。EDRAPピクチャという用語がビデオにのみ適用される従来の方案と比べて、提案した方法は、ビデオ以外の他の種類のメディアにも適用できるという利点があるため、EDRAPベースの技術をより柔軟にする。さらに、ESR内の、プレゼンテーション時間を持つメディア・サンプルごとに、MSR内には同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在する。これにより、提案した方法は、EDRAPベースの技術をより効率的にサポートすることができるという利点がある。
【0007】
第2態様では、メディアデータを処理する装置を提案する。前記メディアデータを処理する装置は、プロセッサと命令を備える非一時的なメモリとを含む。前記命令は、前記プロセッサによって実行されると、前記プロセッサに本開示の第1態様による方法を実行させる。
【0008】
第3態様では、非一時的なコンピュータ可読記憶媒体を提案する。非一時的なコンピュータ可読記憶媒体は、プロセッサに本開示の第1態様による方法を実行させる命令を記憶する。
【0009】
第4態様では、他の非一時的なコンピュータ可読記録媒体を提案する。前記非一時的なコンピュータ可読記録媒体は、メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する。前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内のESR内の各メディア・サンプルは、前記メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応し、前記ESR内のメディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0010】
第5態様では、メディアのメディア・ファイルを記憶する方法を提案する。前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・ファイルを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーション内のESR内の各メディア・サンプルは、前記メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応し、前記ESR内のメディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0011】
第6態様では、他の非一時的なコンピュータ可読記録媒体を提案する。前記非一時的なコンピュータ可読記録媒体はメディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する。前記方法は、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内のESR内の各メディア・サンプルは、前記メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応し、前記ESR内のメディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0012】
第7態様では、メディアのメディア・プレゼンテーションを記憶する方法を提案する。前記方法は前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・プレゼンテーションを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーション内のESR内の各メディア・サンプルは、前記メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応し、前記ESR内のメディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0013】
この発明の概要は、以下の詳細な説明でさらに記述される概念の選択を簡略化した形で紹介するために提供される。この発明の概要は、請求される技術的事項の主な特徴又は本質的な特徴を特定することを意図したものではなく、また、請求される技術的事項の範囲を制限するために使用されることを意図したものでもない。
【図面の簡単な説明】
【0014】
添付の図面を参照した以下の詳細な説明を通じて、本開示の例示的な実施形態の上記及び他の目的、特徴、及び利点がより明らかになるであろう。本開示の例示的な実施形態では、同じ参照番号は、通常、同じ構成要素を指す。
【0015】
【
図1】本開示のいくつかの実施形態に係る例示的なビデオコーディングシステムのブロック図を示す。
【0016】
【
図2】本開示のいくつかの実施形態に係る例示的なビデオエンコーダのブロック図を示す。
【0017】
【
図3】本開示のいくつかの実施形態に係る例示的なビデオデコーダのブロック図を示す。
【0018】
【
図4】ランダム・アクセスポイント(random access point、略してRAP)を説明するための図である。
【0019】
【
図5】RAPのコンセプトを説明するための他の図である。
【0020】
【
図6】依存ランダム・アクセスポイント(dependent random access point、略してDRAP)のコンセプトを説明するための図である。
【0021】
【
図7】DRAPのコンセプトを説明するための他の図である。
【0022】
【
図8】拡張依存ランダム・アクセスポイント(EDRAP)のコンセプトを説明するための図である。
【0023】
【
図9】EDRAPのコンセプトを説明するための他の図である。
【0024】
【
図10】EDRAPベースのビデオストリーミングを説明するための図である。
【0025】
【
図11】EDRAPベースのビデオストリーミングを説明するための他の図である。
【0026】
【
図12】本開示のいくつかの実施形態に係るメディア処理方法のフローチャートを示す。
【0027】
【
図13】本開示の様々な実施形態を実施できるコンピューティングデバイスに係るブロック図を示す。
【0028】
図面の全体にわたって、同じ又は類似の参照番号は、通常、同じ又は類似の要素を指す。
【発明を実施するための形態】
【0029】
以下、いくつかの実施形態を参照しながら本開示の原理を説明する。これらの実施形態は、例示の目的で、かつ、当業者が本開示を理解して実施することに寄与するために記載されるにすぎず、本開示の範囲に関していかなる限定も示唆しないと理解すべきである。本明細書に記載の開示は、以下に記載する方法以外にも、様々な方法で実施することができる。
【0030】
以下の説明及び特許請求の範囲において、別段の定義がない限り、本明細書で使用されるすべての技術用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。
【0031】
本開示における「一つの実施形態」、「一実施形態」、「例示的な実施形態」などへの言及は、記載される実施形態が、特定の特徴、構造、又は特性を含み得ることを示すが、必ずしもすべての実施形態が、特定の特徴、構造、又は特性を含むとは限らない。また、そのような語句は、必ずしも同じ実施形態を指しているわけではない。さらに、特定の特徴、構造、又は特性が、例示的な実施形態に関連して説明される場合、明示的に記載されているかどうかにかかわらず、他の実施形態に関連して、そのような特徴、構造、又は特性に影響を与えることは、当業者の知識の範囲内であることが指摘される。
【0032】
「第1」及び「第2」などの用語は、本明細書では、様々な要素を説明するために使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことを理解すべきである。これらの用語は、ある要素を別の要素と区別するためにのみ使用されている。例えば、例示的な実施形態の範囲から逸脱することなく、第1の要素が第2の要素と呼ばれ得る。同様に、第2の要素が第1の要素と呼ばれ得る。本明細書で使用される「及び/又は」という用語には、列挙された用語の1つ又は複数のあらゆる組み合わせが含まれる。
【0033】
本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用されるように、単数形「a(一つの)」、「an(一つの)」、及び「the(その)」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。「含む」、「備える」、「有する」、「持つ」、「含む」、及び/又は「包含する」という用語は、本明細書で使用される場合、記載された特徴、要素、及び/又は、コンポーネントなど、の存在を特定するが、1つ又は複数の他の特徴、要素、コンポーネント、及び/又は、それらの組み合わせの存在又は追加を排除するものではないことが、さらに理解されるであろう。
例示的な環境
【0034】
図1は、本開示の技術を利用し得る例示的なビデオコーディングシステム100を示すブロック図である。図示されるように、ビデオコーディングシステム100は、ソースデバイス110、及び、宛先デバイス120を含み得る。ソースデバイス110は、ビデオ符号化デバイスとも呼ばれ得る。宛先デバイス120は、ビデオ復号デバイスとも呼ばれ得る。動作中、ソースデバイス110は、符号化されたビデオデータを生成するように構成され、宛先デバイス120は、ソースデバイス110によって生成された符号化されたビデオデータを復号するように構成され得る。ソースデバイス110は、ビデオソース112と、ビデオエンコーダ114と、入出力(I/O)インターフェース116とを含み得る。
【0035】
ビデオソース112は、ビデオキャプチャデバイスなどのソースを含み得る。ビデオキャプチャデバイスの例には、ビデオコンテンツプロバイダからビデオデータを受信するインターフェース、ビデオデータを生成するコンピュータグラフィックスシステム、及び/又は、それらの組み合わせが含まれるが、これらに限定されない。
【0036】
ビデオデータは、1つ又は複数のピクチャを含み得る。ビデオエンコーダ114は、ビデオソース112からのビデオデータを符号化して、ビットストリームを生成する。ビットストリームには、ビデオデータのコード化表現を形成する一連のビットが含まれ得る。ビットストリームには、コード化ピクチャ及び関連データが含まれ得る。コード化ピクチャは、ピクチャのコード化表現である。関連データには、シーケンスパラメータセット、ピクチャパラメータセット、及び、他の構文構造が含まれ得る。I/Oインターフェース116は、変調器/復調器、及び/又は、送信機を含み得る。符号化されたビデオデータは、I/Oインターフェース116を介して、ネットワーク130Aを通じて、宛先デバイス120に直接送信され得る。符号化されたビデオデータは、宛先デバイス120によるアクセスのために、記憶媒体/サーバ130Bに記憶され得る。
【0037】
宛先デバイス120は、I/Oインターフェース126と、ビデオデコーダ124と、表示デバイス122とを含み得る。I/Oインターフェース126は、受信機及び/又はモデムを含み得る。I/Oインターフェース126は、ソースデバイス110又は記憶媒体/サーバ130Bから、符号化されたビデオデータを取得し得る。ビデオデコーダ124は、符号化されたビデオデータを復号し得る。表示デバイス122は、復号されたビデオデータを、ユーザに表示し得る。表示デバイス122は、宛先デバイス120と一体化されてもよいし、或いは、外部表示デバイスとインターフェースするように構成された、宛先デバイス120の外部にあってもよい。
【0038】
ビデオエンコーダ114及びビデオデコーダ124は、HEVC(High Efficiency Video Coding)規格、VVC(Versatile Video Coding)規格、及び、他の現在及び/又はさらなる規格などのビデオ圧縮規格に従って、動作し得る。
【0039】
図2は、本開示のいくつかの実施形態に係る、
図1に示すシステム100内のビデオエンコーダ114の一例である、ビデオエンコーダ200の一例を示すブロック図である。
【0040】
ビデオエンコーダ200は、本開示の技術のいずれか又はすべてを実施するように構成され得る。
図2の例において、ビデオエンコーダ200は、複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオエンコーダ200の様々なコンポーネント間で共有され得る。いくつかの例において、プロセッサは、本開示で説明された技術のいずれか又はすべてを実行するように構成され得る。
【0041】
いくつかの実施形態において、ビデオエンコーダ200は、分割ユニット201と、モード選択ユニット203、動き推定ユニット204、動き補償ユニット205、及びイントラ予測ユニット206を含み得る予測ユニット202と、残差生成ユニット207と、変換ユニット208と、量子化ユニット209と、逆量子化ユニット210と、逆変換ユニット211と、再構築ユニット212と、バッファ213と、エントロピー符号化ユニット214とを含み得る。
【0042】
他の例において、ビデオエンコーダ200は、より多くの機能コンポーネント、より少ない機能コンポーネント、又は、異なる機能コンポーネントを含み得る。一例において、予測ユニット202は、イントラブロックコピー(IBC)ユニットを含み得る。IBCユニットは、少なくとも1つの参照ピクチャが現在ビデオブロックの位置するピクチャであるIBCモードで予測を実行し得る。
【0043】
さらに、動き推定ユニット204及び動き補償ユニット205などのいくつかの構成要素は統合され得るが、
図2の例では、説明の目的で別々に表されている。
【0044】
分割ユニット201は、ピクチャを1つ又は複数のビデオブロックに分割し得る。ビデオエンコーダ200及びビデオデコーダ300は、多様なビデオブロックサイズをサポートし得る。
【0045】
モード選択ユニット203は、例えば、エラー結果に基づいて、イントラ符号化モード又はインターコーディングモードのうちの1つを選択し、その結果から得られるイントラコーディング又はインターコーディングされたブロックを、残差ブロックデータを生成するように残差生成ユニット207に提供し、符号化されたブロックを再構築して、参照ピクチャとして使用するように再構築ユニット212に提供し得る。いくつかの例では、モード選択ユニット203は、予測がインター予測信号及びイントラ予測信号に基づくイントラ予測及びインター予測の組み合わせ(CIIP)モードを選択し得る。モード選択ユニット203は、インター予測の場合、ブロックの動きベクトルの解像度(例えば、サブピクセル又は整数ピクセル精度)を選択し得る。
【0046】
現在ビデオブロックに対してインター予測を実行するために、動き推定ユニット204は、バッファ213からの1つ又は複数の参照フレームを現在ビデオブロックと比較することによって、現在ビデオブロックの動き情報を生成し得る。動き補償ユニット205は、現在ビデオブロックに関連するピクチャ以外の、バッファ213からのピクチャの動き情報及び復号化サンプルに基づいて、現在ビデオブロックの予測ビデオブロックを決定し得る。
【0047】
動き推定ユニット204及び動き補償ユニット205は、例えば、現在ビデオブロックがIスライス、Pスライス、又はBスライスのいずれにあるかに応じて、現在ビデオブロックに対して異なる演算を実行し得る。本明細書で使用されるように、「Iスライス」は、マクロブロックから構成されるピクチャの一部を指すことができ、そのすべてが同じピクチャ内のマクロブロックに基づいている。さらに、本明細書で使用されるように、いくつかの態様では、「Pスライス」及び「Bスライス」は、同じピクチャ内のマクロブロックに依存しないマクロブロックから構成されるピクチャの部分を指し得る。
【0048】
いくつかの例では、動き推定ユニット204は、現在ビデオブロックに対して単方向予測を実行することができ、動き推定ユニット204は、現在ビデオブロックの参照ビデオブロックに対するリスト0又はリスト1の参照ピクチャを探し得る。次に、動き推定ユニット204は、参照ビデオブロックを含むリスト0又はリスト1内の参照ピクチャを示す参照インデックス、及び、現在ビデオブロックと参照ビデオブロックとの間の空間変位を示す動きベクトルを生成し得る。動き推定ユニット204は、参照インデックス、予測方向指示子、及び動きベクトルを、現在ビデオブロックの動き情報として出力し得る。動き補償ユニット205は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。
【0049】
代替形態として、他の例では、動き推定ユニット204は、現在ビデオブロックに対して双方向予測を実行し得る。動き推定ユニット204は、現在ビデオブロックの参照ビデオブロックに対するリスト0内の参照ピクチャをサーチしてもよいし、現在ビデオブロックの別の参照ビデオブロックに対するリスト1内の参照ピクチャをサーチしてもよい。次に、動き推定ユニット204は、参照ビデオブロックを含むリスト0及びリスト1内の参照ピクチャを示す参照インデックス、及び、参照ビデオブロックと現在ビデオブロックとの間の空間変位を示す動きベクトルを生成し得る。動き推定ユニット204は、現在ビデオブロックの参照インデックス及び動きベクトルを、現在ビデオブロックの動き情報として出力し得る。動き補償ユニット205は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。
【0050】
いくつかの例では、動き推定ユニット204は、デコーダの復号処理のためのフルセットの動き情報を出力し得る。代替形態として、いくつかの実施形態では、動き推定ユニット204は、別のビデオブロックの動き情報を参照して、現在ビデオブロックの動き情報をシグナリングし得る。例えば、動き推定ユニット204は、現在ビデオブロックの動き情報が隣接するビデオブロックの動き情報と十分に類似していると判定し得る。
【0051】
一例では、動き推定ユニット204は、現在ビデオブロックに関連付けられた構文構造において、現在ビデオブロックが別のビデオブロックと同じ動き情報を有することをビデオデコーダ300へ示す値を示し得る。
【0052】
別の例では、動き推定ユニット204は、現在ビデオブロックに関連付けられた構文構造において、別のビデオブロック及び動きベクトル差分(MVD)を識別し得る。動きベクトル差分は、現在ビデオブロックの動きベクトルと、指示されたビデオブロックの動きベクトルとの間の差分を示す。ビデオデコーダ300は、指示されたビデオブロックの動きベクトル及び動きベクトル差分を使用して、現在ビデオブロックの動きベクトルを決定し得る。
【0053】
上記のように、ビデオエンコーダ200は、動きベクトルを予測的にシグナリングし得る。ビデオエンコーダ200によって実施され得る予測シグナリング技術の2つの例には、アドバンスト動きベクトル予測(AMVP)及びマージモードシグナリングが含まれる。
【0054】
イントラ予測ユニット206は、現在ビデオブロックに対してイントラ予測を実行し得る。イントラ予測ユニット206が現在ビデオブロックに対してイントラ予測を実行するとき、イントラ予測ユニット206は、同じピクチャ内の他のビデオブロックの復号されたサンプルに基づいて、現在ビデオブロックに対する予測データを生成し得る。現在ビデオブロックに対する予測データには、予測されたビデオブロック及び様々な構文要素が含まれ得る。
【0055】
残差生成ユニット207は、現在ビデオブロックから現在ビデオブロックの予測ビデオブロックを減算する(例えば、マイナス記号によって示される)ことによって、現在ビデオブロックに対する残差データを生成し得る。現在ビデオブロックの残差データは、現在ビデオブロック内のサンプルの異なるサンプル成分に対応する残差ビデオブロックを含み得る。
【0056】
他の例では、現在ビデオブロックに対する残差データは例えばスキップモードにおいて存在しなくてもよく、残差生成ユニット207は減算演算を実行しなくてもよい。
【0057】
変換処理ユニット208は、現在ビデオブロックに関連付けられた残差ビデオブロックに1つ又は複数の変換を適用することによって、現在ビデオブロックに対する1つ又は複数の変換係数ビデオブロックを生成し得る。
【0058】
変換処理ユニット208が現在ビデオブロックに関連付けられた変換係数ビデオブロックを生成した後、量子化ユニット209は、現在ビデオブロックに関連付けられた1つ又は複数の量子化パラメータ(QP)値に基づいて、現在ビデオブロックに関連付けられた変換係数ビデオブロックを量子化し得る。
【0059】
逆量子化ユニット210及び逆変換ユニット211は、それぞれ、変換係数ビデオブロックに逆量子化及び逆変換を適用して、変換係数ビデオブロックから残差ビデオブロックを再構築し得る。再構築ユニット212は、再構築された残差ビデオブロックを、予測ユニット202によって生成された1つ又は複数の予測ビデオブロックからの対応するサンプルに追加して、バッファ213に記憶するために現在ビデオブロックに関連付けられた再構築ビデオブロックを生成し得る。
【0060】
再構築ユニット212がビデオブロックを再構成した後、ビデオブロック内のビデオブロッキングアーティファクトを低減するために、ループフィルタリング動作が実行され得る。
【0061】
エントロピー符号化ユニット214は、ビデオエンコーダ200の他の機能コンポーネントからデータを受信し得る。エントロピー符号化ユニット214がデータを受信すると、エントロピー符号化ユニット214は、1つ又は複数のエントロピー符号化動作を実行することでエントロピー符号化データを生成し、そして、エントロピー符号化データを含むビットストリームを出力し得る。
【0062】
図3は、本開示のいくつかの実施形態に係る、
図1に示すシステム100内のビデオデコーダ124の一例である、ビデオデコーダ300の一例を示すブロック図である。
【0063】
ビデオデコーダ300は、本開示の技術のいずれか又はすべてを実行するように構成され得る。
図3の例では、ビデオデコーダ300は複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオデコーダ300の様々なコンポーネント間で共有され得る。いくつかの例では、プロセッサは、本開示で説明された技術のいずれか又はすべてを実行するように構成され得る。
【0064】
図3の例では、ビデオデコーダ300は、エントロピー復号ユニット301と、動き補償ユニット302と、イントラ予測ユニット303と、逆量子化ユニット304と、逆変換ユニット305と、再構築ユニット306と、バッファ307とを含む。ビデオデコーダ300は、いくつかの例では、ビデオエンコーダ200に関して説明した符号化パスとは、一般に、逆の復号パスを実行し得る。
【0065】
エントロピー復号ユニット301は、符号化されたビットストリームを検索し得る。符号化されたビットストリームは、エントロピーコーディングされたビデオデータ(例えば、ビデオデータの符号化されたブロック)を含み得る。エントロピー復号ユニット301は、エントロピーコーディングされたビデオデータを復号し得、そして、動き補償ユニット302は、エントロピー復号されたビデオデータから、動きベクトル、動きベクトル精度、参照ピクチャリストインデックス、及び他の動き情報を含む動き情報を決定し得る。動き補償ユニット302は、例えば、AMVP及びマージモードを実行することによって、そのような情報を決定し得る。AMVPが使用され、隣接するPB及び参照ピクチャからのデータに基づいた、最も可能性の高いいくつかの候補の導出を含む。動き情報には、通常、水平及び垂直動きベクトル変位値、1つ又は2つの参照ピクチャインデックス、及びBスライス内の予測領域の場合は、どの参照ピクチャリストが各インデックスに関連付けられているかの識別が含まれる。本明細書で使用されるように、いくつかの態様では、「マージモード」は、空間的又は時間的に隣接するブロックから動き情報を導出することを指し得る。
【0066】
動き補償ユニット302は、動き補償されたブロックを生成し、当該ブロックは、補間フィルタに基づいて補間を実行することができる。サブピクセル精度で使用される補間フィルタの識別子は、構文要素に含まれ得る。
【0067】
動き補償ユニット302は、ビデオブロックの符号化中にビデオエンコーダ200によって使用される補間フィルタを使用して、参照ブロックのサブ整数ピクセルに対する補間値を計算し得る。動き補償ユニット302は、受信した構文情報に従って、ビデオエンコーダ200によって使用される補間フィルタを決定し、その補間フィルタを使用して、予測ブロックを生成し得る。
【0068】
動き補償ユニット302は、構文情報の少なくとも一部を使用して、符号化されたビデオシーケンスのフレーム及び/又はスライスを符号化するために使用されるブロックのサイズ、符号化されたビデオシーケンスのピクチャの各マクロブロックがどのように分割されるかを説明するパーティション情報、各パーティションがどのように符号化されるかを示すモード、各インターエンコードされたブロックの1つ又は複数の参照フレーム(及び、参照フレームリスト)、及び、符号化されたビデオシーケンスを復号するその他の情報を決定し得る。本明細書で使用されるように、いくつかの態様では、「スライス」は、エントロピーコーディング、信号予測、及び残差信号再構築に関して、同じピクチャの他のスライスと別個に復号できるデータ構造を指し得る。スライスは、ピクチャ全体又はピクチャの領域のいずれかになり得る。
【0069】
イントラ予測ユニット303は、例えば、ビットストリーム内で受信されたイントラ予測モードを使用して、空間的に隣接するブロックから予測ブロックを形成し得る。逆量子化ユニット304は、ビットストリームで提供され、エントロピー復号ユニット301によって復号された量子化ビデオブロック係数を逆量子化、即ち、量子化解除する。逆変換ユニット305は、逆変換を適用する。
【0070】
再構築ユニット306は、例えば、残差ブロック、及び、動き補償ユニット302又はイントラ予測ユニット303によって生成された対応する予測ブロックを加算することによって、復号されたブロックを取得し得る。必要に応じて、デブロッキングフィルタが適用されて、ブロックノイズアーティファクトを除去するよう、復号されたブロックをフィルタリングしてもよい。次に、復号されたビデオブロックは、バッファ307に記憶され、バッファ307は、後続の動き補償/イントラ予測のための参照ブロックを提供し、また、表示デバイス上にプレゼンテーションするための復号されたビデオも生成する。
【0071】
本開示のいくつかの例示的な実施形態について、以下に、詳細に説明することにする。本明細書では、理解を容易にするためにセクション見出しが使用されているが、セクションで開示される実施形態をそのセクションのみに限定するものではないことを理解すべきである。さらに、特定の実施形態が多用途ビデオコーディング又は他の特定のビデオコーデックを参照して説明されているが、開示された技術は、他のビデオコーディング技術にも適用可能である。さらに、いくつかの実施形態は、ビデオコーディングステップを詳細に説明するが、コーディングを元に戻す対応する復号化ステップは、デコーダによって実施されることが理解されるであろう。さらに、ビデオ処理という用語には、ビデオの符号化又は圧縮、ビデオのコーディング又は解凍、及び、ビデオピクセルを1つの圧縮フォーマットから別の圧縮フォーマット又は異なる圧縮ビットレートで表現するビデオトランス符号化が包含される。
1.概要
本開示は、ビデオストリーミングに関する。具体的には、メインストリーム表現(MSR)及び外部ストリーム表現(ESR)に基づくビデオストリーミングの設計に関する。このアイデアは、DASH規格やその拡張などに基づいて、メディアストリーミングシステムに個別に又は様々な組み合わせで適用され得る。
2.背景
2.1 ビデオコーディング規格
ビデオコーディング規格は、主によく知られているITU-T及びISO/IEC規格の開発を通じて進化してきた。ITU-TがH.261及びH.263を作成し、ISO/IECがMPEG-1及びMPEG-4 Visualを作成し、この2つの組織が共同でH.262/MPEG-2 Video及びH.264/MPEG-4 AVC(Advanced Video Coding)及びH.265/HEVC規格を作成した。H.262以来、ビデオコーディング規格は、時間予測プラス変換コーディングが利用されるハイブリッドビデオコーディング構造に基づくものである。HEVCを超える未来ビデオコーディング技術を検討するために、ジョイントビデオエクスプロレーションチーム(Joint Video Exploration Team、JVET)が2015年にVCEGとMPEGによって共同で設立された。それ以来、多くの新しい方法がJVETによって採用され、ジョイントエクスプロレーションモデル(Joint Exploration Model、JEM)という名前のリファレンスソフトウェアに組み込まれた。その後、VVC(Versatile Video coding)プロジェクトが正式に開始されたときに、JVETはJoint Video Experts Team(JVET)に名前変更された。VVCは、HEVCと比較して、50%ビットレート低減を目標とする新しいコーディング規格であり、2020年7月1日に終了した第19回会議でJVETによって最終的に完了された。
VVC(Versatile Video coding)規格(ITU-T H.266 |ISO/IEC 23090-3)及び関連する多用途付加拡張情報(Versatile Supplemental Enhancement Information、略してVSEI)規格(ITU-T H.274|ISO/IEC 23002-7)は、テレビ放送、ビデオ会議、又は記憶媒体からの再生などの従来の用途と、アダプティブビットレートストリーミング、ビデオ領域の抽出、多重コード化ビデオビットストリームからのコンテンツの合成と結合、マルチビュービデオ、スケーラブルなレイヤードコーディング、及びビューポート適応360度没入型メディアなどのより新しく高度な用途の両方を含む、最大限広範囲のアプリケーションで使用されるように設計されている。
EVC(Essential Video Coding)規格(ISO/IEC 23094-1)は、MPEGによって最近開発された別のビデオコーディング規格である。
2.2 ファイルフォーマット規格
メディアストリーミングアプリケーションは、通常、IP、TCP、及びHTTPトランスポート方法に基づくものであり、ISOベースのメディア・ファイルフォーマット(ISOBMFF)などのファイルフォーマットに依存する。このようなストリーミングシステムの1つは、HTTPベースの動的適応型ストリーミング(DASH)でする。ISOBMFF及びDASHでビデオフォーマットを使用する場合、AVCファイルフォーマットやHEVCファイルフォーマットなど、ビデオフォーマットに特有なファイルフォーマット仕様は、ISOBMFFトラック及びDASH表現とセグメントでのビデオコンテンツのカプセル化に必要な場合がある。ビデオビットストリームに関する重要な情報、例えば、プロファイル、階層、レベル、その他多くの情報は、コンテンツ選択の目的、例えば、ストリーミングセッションの開始時の初期化とストリーミングセッション中のストリーム適応の両方のための適切なメディアセグメントの選択のために、ファイルフォーマットレベルメタデータ及び/又はDASHメディア・プレゼンテーション記述(Media Presentation Description、略してMPD)として公開されるべきである場合がある。
同様に、ISOBMFFで画像フォーマットを使用する場合、AVC画像ファイルフォーマット及びHEVC画像ファイルフォーマットなど、画像フォーマットに特有のファイルフォーマット仕様が必要な場合がある。
ISOBMFFに基づいたVVCビデオコンテンツを保存するためのファイルフォーマットである、VVCビデオファイルフォーマットは、現在MPEGによって開発されている。
ISOBMFFに基づいた、VVCを使用してコーディングされた画像コンテンツを保存するためのファイル形式である、VVC画像ファイルフォーマットは、現在MPEGによって開発されている。
2.3 DASH
HTTPベースの動的適応型ストリーミング(DASH)では、マルチメディアコンテンツのビデオ及び/又はオーディオデータの多重表現が存在し得るが、異なる表現は、異なるコーディング特性(例えば、ビデオコーディング規格の異なるプロファイル又はレベル、異なるビットレート、異なる空間解像度など)に対応し得る。このような表現のマニフェストは、メディア・プレゼンテーション記述(MPD)データ構造で定義され得る。メディア・プレゼンテーションは、DASHストリーミングクライアントデバイスにアクセス可能なデータの構造化コレクションに対応し得る。DASHストリーミングクライアントデバイスは、クライアントデバイスのユーザにストリーミングサービスを提供するようにメディアデータ情報を要求し、ダウンロードし得る。メディア・プレゼンテーションは、MPDの更新を含むMPDデータ構造で記述され得る。
メディア・プレゼンテーションには、一連の1つ又は複数の期間が含まれ得る。各期間は、次の期間の開始まで延長され、又は、最後の期間の場合にメディア・プレゼンテーションの終了まで延長され得る。各期間には、同じメディアコンテンツの1つ又は複数の表現が含まれ得る。表現は、オーディオ、ビデオ、タイムドテキスト、又はその他のそのようなデータの多数の代替的符号化バージョンのうちの1つであり得る。表現は、符号化タイプ、例えば、ビデオデータのビットレート、解像度、及び/又はコーデック、及びオーディオデータのビットレート、言語、及び/又はコーデックによって異なってもよい。表現という用語は、マルチメディアコンテンツの特定の期間に対応し、特定の方式で符号化された、符号化されたオーディオ又はビデオデータのセクションを指すために使用され得る。
特定の期間の表現は、その表現が属するアダプテーションセットを示すMPDにおける属性によって示されるグループに割り当てられ得る。同じアダプテーションセット内の表現は、クライアントデバイスがこれらの表現を、動的かつシームレスに切り替えて、例えば、帯域幅アダプテーションを実行できるという点で、一般に、互いの代替と見なされる。例えば、特定の期間のビデオデータの各表現は、同じアダプテーションセットに割り当てられ得るが、対応する期間のマルチメディアコンテンツのビデオデータ又はオーディオデータなどのメディアデータを提示するように、いずれかの表現が復号化用に選択され得る。1つの期間内のメディアコンテンツは、いくつかの例では、グループ0(存在する場合)からの1つの表現、又は、各非ゼログループからの最大1つの表現の組み合わせのいずれかによって表現され得る。期間の各表現のタイミングデータは、期間の開始時刻に対して相対的に表され得る。
表現には、1つ又は複数のセグメントが含まれ得る。各表現には、初期化セグメントが含まれ、表現の各セグメントは、自己初期化であり得る。存在する場合、初期化セグメントは、その表現にアクセスするための初期化情報が含まれ得る。一般に、初期化セグメントには、メディアデータが含まれない。セグメントは、ユニフォームリソースロケーター(URL)、ユニフォームリソース名(URN)、又はユニフォームリソース識別子(URI)などの識別子によって、一意的に参照され得る。MPDは、各セグメントに識別子を提供し得る。いくつかの例では、MPDは、URL、URN、又はURIによってアクセス可能なファイル内のセグメントのデータに対応し得るバイト範囲を範囲属性の形式で提供してもよい。
異なるタイプのメディアデータを実質的に同時に検索するために、異なる表現が選択され得る。例えば、クライアントデバイスは、セグメントを検索するためのオーディオ表現、ビデオ表現、及びタイムドテキスト表現を選択し得る。いくつかの例では、クライアントデバイスは、帯域幅適応を実行するための特定の適応セットを選択し得る。即ち、クライアントデバイスは、ビデオ表現を含むアダプテーションセット、オーディオ表現を含むアダプテーションセット、及び/又は、タイムドテキストを含むアダプテーションセットを選択し得る。代替形態として、クライアントデバイスは、特定の種類のメディア(例えば、ビデオ)のアダプテーションセットを選択し、他の種類のメディア(例えば、オーディオ及び/又はタイムドテキスト)の表現を直接的に選択し得る。
一般的なDASHストリーミング手順を次のステップで示す。
1)クライアントは、MPDを取得する。
2)クライアントは、ダウンリンク帯域幅を推定し、推定されたダウンリンク帯域幅及びコーデック、復号能力、表示サイズ、音声言語設定に従って、ビデオ表現及びオーディオ表現を選択する。
3)メディア・プレゼンテーションの終了に達していない限り、クライアントは、選択された表現のメディアセグメントを要求し、ストリーミングコンテンツをユーザへ提示する。
4)クライアントは、ダウンリンク帯域幅を推定し続ける。帯域幅がある方向に著しく変化した場合(例えば、低くなった場合)、クライアントは、新たに推定された帯域幅に合致する別のビデオ表現を選択し、ステップ3に進む。
2.4 拡張依存ランダム・アクセスポイント(EDRAP)ベースのビデオコーディング及びストリーミング
付加拡張情報(SEI)メッセージを使用するEDRAPピクチャのシグナリングは、JVET-U0084の提案で提案され、2021年1月の第21回JVET会議でVSEI仕様に採用されました。2021年1月の第133回のMPEG会議で、EDRAPサンプルグループは、入力文書m56020内の提案に基づいて合意された。EDRAPベースのビデオストリーミングをサポートするために、2021年4月の第134回のMPEG会議で、MPEG入力文書m56675は、ISOBMFFの外部ストリームトラック(EST)の設計を提案した。
「WD of ISO/IEC 23009-1 5th edition AMD2 EDRAPストリームing and other extensions」というタイトルのMPEG出力文書MDS21030_WG03_N0425は、DASHにおけるEDRAPベースのストリーミングをサポートするためのメインストリーム表現(MSR)及び外部ストリーム表現(ESR)の記述子の設計を含む。
図4及び
図5は、ランダム・アクセスポイント(RAP)の従来のコンセプトを示す図である。アプリケーション(例えば、適応型ストリーミング)は、ランダム・アクセスポイント(RAP)の周波数を決定し、例えば、RAPの周期は1s又は2sである。従来、RAPは、
図4に示されるように、IRAPピクチャのコーディングによって提供される。RAPピクチャ間の非キーピクチャ(non-key picture)のインター予測参照は示されておらず、左から右への出力順であることに注意すべきである。CRA6からランダム・アクセスする際に、
図5に示されるように、デコーダは、ピクチャを受信して正しく復号する。
図6及び
図7は、依存ランダム・アクセスポイント(DRAP)のコンセプトを示す図である。DRAPアプローチは、
図6に示されるように、DRAPピクチャ(及び後続のピクチャ)がインター予測のためにその前のIRAPピクチャを参照することを可能にすることで、コーディング効率を向上させる。RAPピクチャ間の非キーピクチャのインター予測は示されておらず、左から右への出力順であることに注意すべきである。DRAP6からランダム・アクセスする際に、
図7に示されるように、デコーダは、ピクチャを受信して正しく復号する。
図8及び
図9は、拡張依存ランダム・アクセスポイント(EDRAP)のコンセプトを示す図である。EDRAPアプローチは、例えば
図8に示されるように、EDRAPピクチャ(及び後続のピクチャ)が以前のいくつかのRAPピクチャ(IRAP又はEDRAP)のいくつかを参照することを可能にすることで、もう少し柔軟性を提供する。RAPピクチャ間の非キーピクチャのインター予測は示されておらず、左から右への出力順であることに注意すべきである。EDRAP6からランダム・アクセスする際に、
図9に示されるように、デコーダは、ピクチャを受信して正しく復号する。
図10及び11は、EDRAPベースのビデオストリーミングを示す図である。EDRAP6から始まるセグメントからランダム・アクセスする際に、又は、当該セグメントへ切り替えられる際に、
図11に示されるように、デコーダは、セグメントを受信して復号する。
MPEG出力文書MDS21030_WG03_N0425内の設計文書は、以下に示す。
2.4.1 定義
・拡張依存ランダム・アクセスポイント(EDRAP)ピクチャ
ISOBMFFトラック内のEDRAP又はDRAPサンプルグループのメンバーであるサンプル内のピクチャ
・外部エレメンタリストリーム
外部ピクチャを持つアクセスユニットを含むエレメンタリストリーム
・外部ピクチャ
ESR内の外部エレメンタリストリーム内のピクチャであって、MSR内のあるEDRAPからランダム・アクセスする際にMSR内のエレメンタリストリームの復号中にインター予測に必要なピクチャ
・外部ストリーム表現(ESR)
外部エレメンタリストリームを含む表現
・メインストリーム表現(MSR)
ビデオエレメンタリストリームを含む表現
2.4.2 MSR及びESR記述子
アダプテーションセットは、@schemeIdUriがurn:mpeg:dash:msr:2021に等しいEssentialProperty記述子を含み得る。当該記述子は、MSR記述子と呼ばれる。EssentialPropertyの存在は、当該アダプテーションセット内の各表現がMSRであることを示す。
以下はMSRに適用される:
- 時間同期されたサンプルが、関連するESR内で運ばれるトラック内に存在する場合にクライアントに利用可能であれば、アダプテーションセット内のMSR表現における各SAPは、表現内のコンテンツへのアクセスに使用されることができる。
- MSR内の各EDRAPピクチャは、セグメント内の最初のピクチャであるべきである(即ち、各EDRAPピクチャは、セグメントを開始すべきである)。
アダプテーションセットは、@schemeIdUriがUrn:mpeg:dash:esr:2021に等しいEssentialProperty記述子を含み得る。当該記述子は、ESR記述子と呼ばれる。EssentialPropertyの存在は、当該アダプテーションセット内の各表現がESRであることを示す。ESRは、他のビデオ表現なしにそれ自身で消費又は再生されるべきではない。
各MSRは、以下のように、MSR内の(既存の)表現レベル属性@associationId及び@associationTypeを通じてMSRに関連付けられる:関連するESRの@idは、属性@associationIdに含まれる値によって参照されるべきであり、属性@associationType内の対応する値は「aest」に等しい。
オプションとして、MSR内の表現属性@associationId及び@associationTypeを通じてお互いに関連付けられたMSR及びESRには、以下の制約が適用される:
- MSR内の、EDRAPピクチャで始まるセグメントごとに、ESR内には、MSR内のセグメントと同じセグメント開始時間(MPDから導出されたもの)を持つセグメントが存在すべきであり、ここで、ESR内のセグメントは、MSR内で運ばれるビットストリーム内の復号順での当該EDRAPピクチャ及び後続のピクチャを復号することに必要な外部ピクチャを運ぶ。
- MSR内の、EDRAPピクチャで始まるのではないセグメントごとに、ESR内には、MSR内のセグメントと同じセグメント開始時間(MPDから導出されたもの)をもつセグメントが存在すべきではない。
3.問題点
MPEG出力文書MDS21030_WG03_N0425の設計は、以下のような問題がある:
1) メインストリーム表現(MSR)が関連する外部ストリーム表現(ESR)を持たないことは許可される。
2) EDRAPピクチャという用語は、「ISOBMFFトラック内のEDRAP又はDRAPサンプルグループのメンバーであるサンプル内のピクチャ」として定義される。しかしながら、当該定義はISOBMFFに基づくものではない表現に適用されることができず、そして、当該定義はビデオ以外の他の種類のメディアに適用されることもできない。
3) MSR内のEDRAPサンプルからランダム・アクセスすることで得られたビットストリームが適合なビットストリームであることを要求する制約はない。
4.詳細な解決方案
上記の問題を解決するために、以下のように要約される方法を開示する。解決方案は、一般的な概念を説明するための例として考慮されるべきであり、狭く解釈されるべきではない。さらに、これらの解決方案は、任意の態様で組み合わせて適用することもできる。
1) 1つ目の問題を解消するために、メインストリーム表現(MSR)が関連する外部ストリーム表現(ESR)を持つべきであると指定される。
2) 2つ目の問題を解消するために、以下の項目の1つ又は複数が指定される:
a. ESR内の、特定のプレゼンテーション時間を持つメディア・サンプルごとに、MSR内には、同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在すべきである。
b. MSR内の、対応するESRメディア・サンプルを持つ各メディア・サンプルは、EDRAPサンプルと呼ばれる。
c. MSR内の各EDRAPサンプルの最初のバイト位置は、SAPのI
SAUであり、これは、対応するESRメディア・サンプルがMSR内のEDRAPサンプル及び後続のサンプルの直前にメディアデコーダへ提供されれば、MSR内のメディアストリームを再生可能にする。
3) 3つ目の問題を解決するために、以下のことは指定される:ESR内の任意のセグメントとMSR内の対応するセグメント及びすべての後続のセグメントとの連結は、適合なビットストリームを生成すべきである。
5.実施形態
以下は、セクション4で上記に要約されたすべての解決方案の項目及びその下位項目のためのいくつかの例示的な実施形態である。これらの実施形態はDASHに適用されることができる。変更点について、条項2.4の設計のテキストに関連してマーキングされる。以下では、追加又は変更された最も関連性の高い部分には
下線が付けられており、削除された部分の一部は二重括弧[[]]で示される。他に編集上の性質のため強調されていない変更点がいくつかあることもある。
[[定義
・拡張依存ランダム・アクセスポイント(EDRAP)ピクチャ
ISOBMFFトラック内のEDRAP又はDRAPサンプルグループのメンバーであるサンプル内のピクチャ
・外部エレメンタリストリーム
外部ピクチャを持つアクセスユニットを含むエレメンタリストリーム
・外部ピクチャ
ESR内の外部エレメンタリストリーム内のピクチャであって、MSR内のあるEDRAPからランダム・アクセスする際にMSR内のエレメンタリストリームの復号中にインター予測に必要なピクチャ
・外部ストリーム表現(ESR)
外部エレメンタリストリームを含む表現
・メインストリーム表現(MSR)
ビデオエレメンタリストリームを含む表現]]
5.1.1 MSR及びESR 記述子
5.8.5.15.1 概要
アダプテーションセット@schemeIdUriがurn:mpeg:dash:msr:2021に等しいEssentialProperty記述子を含み得る。当該記述子は、MSR記述子と呼ばれる。アダプテーションセット内にMSR記述子が存在することは、アダプテーションセット内の各表現がMSRであることを示す。
アダプテーションセットは、@schemeIdUriがUrn:mpeg:dash:esr:2021に等しいEssentialProperty記述子を含み得る。当該記述子は、ESR記述子と呼ばれる。アダプテーションセット内にESR記述子が存在することは、アダプテーションセット内の各表現がESRであることを示す。ESRは、それに関連するMSRとともにのみ消費又は再生されるべきである。
各ESRは、以下のように、MSR内の表現レベル属性@associationId及び@associationTypeを通じてMSRに関連付けられ:関連するESRの@idは属性@associationIdに含まれる値によって参照されるべきであり、属性@associationType内の対応する値は「aest」に等しい。
各MSRは、関連するESRを持つべきである。
お互いに関連付けられるMSR及びESRについて、以下は適用される:
-
ESR内の、特定のプレゼンテーション時間を持つメディア・サンプルごとに、MSR内には、同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在すべきである。
-
MSR内の、対応するESRメディア・サンプルを持つ各
メディア・サンプルは、EDRAPサンプルと呼ばれる
-
MSR内の各EDRAPサンプルの最初のバイト位置は、SAPのI
SAU
であり、これは、対応するESRメディア・サンプルがMSR内のEDRAPサンプル及び後続のサンプルの直前にメディアデコーダへ提供されれば、MSR内のメディアストリームを再生可能にする。
- MSR内の各EDRAPサンプルは、セグメント内の最初のサンプルのべきである(即ち、各EDRAPサンプルは、セグメントを開始すべきである)。
- MSR内の、EDRAPサンプルで始まるセグメントごとに、ESR内には、MSRセグメントと同じセグメント開始時間を持つセグメントが存在すべきである。
-
ESR内の任意のセグメントとMSR内の対応するセグメント及びすべての後続のセグメントとの連結は、適合なビットストリームを生成すべきである。
- MSR内の、EDRAPピクチャで始まるのではないセグメントごとに、ESR内には、MSRセグメントと同じセグメント開始時間を持つ対応するセグメントが存在すべきではない。
5.8.5.15.2 例示的なコンテンツの準備及びクライアントの操作
以下は、MSR及びそれらに関連するESRに基づく例示的なコンテンツの準備及びクライアントの操作である。
コンテンツの準備操作例は以下のとおりである:
1) ビデオコンテンツは1つ又は複数の表現に符号化され、各表現は、特定の空間解像度、時間解像度、及び品質を有する。
2) ビデオコンテンツの各表現は、お互いに関連付けられたMSR及びESRのペアによって表現される。
3) ビデオコンテンツのMSRは、1つのアダプテーションセットに含まれる。ビデオコンテンツのESRは、もう1つのアダプテーションセットに含まれる。
クライアントの操作例は以下のとおりである:
1) クライアントは、メディア・プレゼンテーションのMPDを取得し、MPDを解析し、MSRを選択し、そして、開始プレゼンテーション時間を決定し、当該開始プレゼンテーション時間からコンテンツが消費される。
2) クライアントは、決定された開始プレゼンテーション時間と等しい(又は十分に近い)プレゼンテーション時間を持つサンプルを含むセグメントから、MSRのセグメントを要求し始める。
a. 始めのセグメントの最初のサンプルがEDRAPサンプルである場合に、関連するESR内の(同じセグメント開始時間を持つ)対応するセグメントも、なるべくMSRセグメントの要求の前に要求される。それ以外の場合に、関連するESRのセグメントは要求されない。
3) 別のMSRに切り替えられた場合に、クライアントは、切替元のMSRの最後に要求されたセグメントのセグメント開始時間よりも長いセグメント開始時間を持つ最初のセグメントから、切替先のMSRのセグメントを要求し始める。
a. 切替先のMSR内の始めのセグメントの最初のサンプルがEDRAPサンプルである場合に、関連するESR内の対応するセグメントも、なるべくMSRセグメントの要求の前に要求される。それ以外の場合に、関連するESRのセグメントは要求されない。
4) 同じMSRで動作し続ける場合(シーク又はストリーム切替操作の後に始めのセグメントを復号した後)に、EDRAPサンプルで始まる任意の後続のセグメントを要求する場合を含め、関連するESRのセグメントを要求する必要がない。
【0072】
本開示の実施形態は、MSR及びESRに基づくストリーミングのための改良設計に関する。本明細書で使用される「メディア」という用語は、オーディオ、ビデオなどを含み得る。
【0073】
図12は、本開示のいくつかの実施形態に係るメディア処理方法1200のフローチャートを示す。当該方法1200はクライアント又はサーバで実施され得る。本明細書で使用される「クライアント」という用語は、コンピュータネットワークのクライアントサーバモデルの一部としてサーバによって利用可能であるサービスにアクセスするコンピューターハードウェア又はソフトウェアを指し得る。一例として、クライアントは、スマートフォン又はタブレットであり得る。本明細書で使用される「サーバ」という用語は、コンピューティング可能なデバイスを指す場合があり、この場合、クライアントはネットワークを介してサービスにアクセスする。サーバは、物理コンピューティングデバイス又は仮想コンピューティングデバイスであり得る。
【0074】
図12に示されるように、1202で、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換は実行される。メディア・ファイルは、ISOBMFFなどのファイルなどのファイルフォーマットのコンテキスト内でメディアコンテンツの制限付き又は制限なしのプレゼンテーションを確立するデータのコレクションである。メディア・プレゼンテーションは、DASHなどのストリーミングフォーマットのコンテキスト内でメディアコンテンツの制限付き又は制限なしのプレゼンテーションを確立するデータのコレクションである。メディア・プレゼンテーション内のESR内の各メディア・サンプルは、メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応する。ESR内のメディア・サンプルのプレゼンテーション時間は、MSR内の対応するメディア・サンプルのプレゼンテーション時間と同じである。言い換えれば、ESR内の、プレゼンテーション時間を持つメディア・サンプルごとに、MSR内には同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在すべきである。
図10を参照すると、ESR1010内の各メディア・サンプルは、MSR1020内のメディア・サンプルに対応する。例えば、ESR1010内のメディア・サンプル1015-1は、MSR1020内のメディア・サンプル1025-1に対応し、ESR1010内のメディア・サンプル1015-2は、MSR1020内のメディア・サンプル1025-2に対応する。一例では、メディア・サンプルは、オーディオサンプルであり得る。代替的な例では、メディア・サンプルは、ビデオサンプルであり得る。上記の例は、単に説明を目的として記載されたものであることを理解すべきである。本開示の範囲は、これに限定されない。
【0075】
上記を考慮すると、メディア・サンプルは、オーディオサンプル、ビデオサンプルなどであってもよい。EDRAPピクチャという用語がビデオにのみ適用される従来の方案と比べて、提案した方法は、ビデオ以外の他の種類のメディアにも適用できるという利点があるため、EDRAPベースの技術をより柔軟にする。さらに、ESR内の、プレゼンテーション時間を持つメディア・サンプルごとに、MSR内には同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在する。これにより、提案した方法は、EDRAPベースの技術をより効率的にサポートすることができるという利点がある。
【0076】
いくつかの実施形態では、MSR内のメディア・サンプルは、EDRAPサンプルであり得る。さらに、対応するESRメディア・サンプルを持つMSR内の各メディア・サンプルは、EDRAPサンプルと呼ばれる場合がある。
【0077】
いくつかの実施形態では、EDRAPサンプルは、ストリーム・アクセスポイント(SAP)の開始アクセスユニット(SAU)の指示を含み得る。一例では、EDRAPサンプル内の最初の位置でのバイトは、SAUのインデックスを表し得る。SAUのインデックスは、例えばEDRAPサンプル内の別の位置でのバイトを通じて他の適切な方法で表されてもよい。さらに、MSR内のメディアストリームの再生の場合、EDRAPサンプルは、EDRAPサンプルに対応するESR内のメディア・サンプルがメディアデコーダへ提供された後、メディアデコーダへ提供され得る。
【0078】
いくつかの代替又は追加的な実施形態では、EDRAPサンプルは、MSR内の第1セグメントの最初の位置にあり得る。さらに、第1セグメントは、ESR内の第2セグメントに関連付けられ得る。第1セグメントのセグメント開始時間は、第2セグメントのセグメント開始時間と同じである。いくつかの実施形態では、メディア・プレゼンテーションは、メディア・プレゼンテーション記述(MPD)を含み得る。
【0079】
本開示の実施形態によれば、非一時的なコンピュータ可読記録媒体を提案する。メディアのメディア・ファイルは非一時的なコンピュータ可読記録媒体内に記憶される。メディアのメディア・ファイルは、メディア処理装置によって実行される方法で生成されることができる。当該方法によれば、メディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換は実行される。メディア・プレゼンテーション内のESR内の各メディア・サンプルは、メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応する。ESR内のメディア・サンプルのプレゼンテーション時間は、MSR内の対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0080】
本開示の実施形態によれば、メディアのメディア・プレゼンテーションを記憶する方法を提案する。当該方法では、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換は実行され、メディア・ファイルは、非一時的なコンピュータ可読記録媒体内に記憶される。メディア・プレゼンテーション内のESR内の各メディア・サンプルは、メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応する。ESR内のメディア・サンプルのプレゼンテーション時間は、MSR内の対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0081】
本開示の実施形態によれば、非一時的なコンピュータ可読記録媒体を提案する。メディアのメディア・プレゼンテーションは、非一時的なコンピュータ可読記録媒体内に記憶される。メディアのメディア・プレゼンテーションは、メディア処理装置によって実行される方法で生成されることができる。当該方法によれば、メディアのメディア・ファイルとメディア・プレゼンテーションとの間の変換は実行される。メディア・プレゼンテーション内のESR内の各メディア・サンプルは、メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応する。ESR内のメディア・サンプルのプレゼンテーション時間は、MSR内の対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0082】
本開示の実施形態によれば、メディアのメディア・プレゼンテーションを記憶する方法を提案する。当該方法では、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換は実行され、メディア・プレゼンテーションは、非一時的なコンピュータ可読記録媒体内に記憶される。メディア・プレゼンテーション内のESR内の各メディア・サンプルは、メディア・プレゼンテーション内のMSR内のメディア・サンプルに対応する。ESR内のメディア・サンプルのプレゼンテーション時間は、MSR内の対応するメディア・サンプルのプレゼンテーション時間と同じである。
【0083】
本開示の実施形態は、以下の条項を考慮して説明することができ、その特徴は任意の合理的な態様で組み合わせることができる。
【0084】
条項1.メディア処理方法であって、メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
【0085】
条項2.前記MSR内の前記メディア・サンプルは、拡張依存ランダム・アクセスポイント(EDRAP)サンプルである、条項1に記載の方法。
【0086】
条項3.前記EDRAPサンプルは、ストリーム・アクセスポイント(SAP)の開始アクセスユニット(SAU)の指示を含む、条項2に記載の方法。
【0087】
条項4.前記EDRAPサンプル内の最初の位置でのバイトは、前記SAUのインデックスを表す、条項3に記載の方法。
【0088】
条項5.前記EDRAPサンプルは、前記EDRAPサンプルに対応する前記ESR内のメディア・サンプルがメディアデコーダへ提供された後、前記メディアデコーダへ提供される、条項3又は4に記載の方法。
【0089】
条項6.前記EDRAPサンプルは、前記MSR内の第1セグメントの最初の位置にある、条項2~5のいずれか1項に記載の方法。
【0090】
条項7.前記第1セグメントは、前記ESR内の第2セグメントに関連付けられ、前記第1セグメントのセグメント開始時間は、前記第2セグメントのセグメント開始時間と同じである、条項6に記載の方法。
【0091】
条項8.前記メディア・プレゼンテーションは、メディア・プレゼンテーション記述(MPD)を含む、条項1~7のいずれか1項に記載の方法。
【0092】
条項9.前記変換は、前記メディア・ファイルを前記メディア・プレゼンテーション内にパックするステップを含む、条項1~8のいずれか1項に記載の方法。
【0093】
条項10.前記変換は、前記メディア・プレゼンテーションから前記メディア・ファイルをアンパックするステップを含む、条項1~8のいずれか1項に記載の方法。
【0094】
条項11.プロセッサと命令を備える非一時的なメモリとを含む、メディアデータを処理する装置であって、前記命令は、前記プロセッサによって実行されると、前記プロセッサに条項1~10のいずれか1項に記載の方法を実行させる、装置。
【0095】
条項12.プロセッサに条項1~10に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ可読記憶媒体。
【0096】
条項13.メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する非一時的なコンピュータ可読記録媒体であって、前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、非一時的なコンピュータ可読記録媒体。
【0097】
条項14.メディアのメディア・ファイルを記憶する方法であって、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・ファイルを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
【0098】
条項15.メディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する非一時的なコンピュータ可読記録媒体であって、前記方法は、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、非一時的なコンピュータ可読記録媒体。
【0099】
条項16.メディアのメディア・プレゼンテーションを記憶する方法であって、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・プレゼンテーションを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
例示的なデバイス
【0100】
図13は、本開示の様々な実施形態を実施できるコンピューティングデバイス1300のブロック図を示す。コンピューティングデバイス1300は、ソースデバイス110(或いは、ビデオエンコーダ114又は200)又は宛先デバイス120(或いは、ビデオデコーダ124又は300)として実施されるか、又は、それに含まれ得る。
【0101】
図13に示されるコンピューティングデバイス1300は、単に説明を目的としたものであり、本開示の実施形態の機能及び範囲をいかなる形でも制限することを示唆するものではないことが理解されるだろう。
【0102】
図13に示すように、コンピューティングデバイス1300は、汎用コンピューティングデバイス1300を含む。コンピューティングデバイス1300は、少なくとも1つ又は複数のプロセッサ又は処理ユニット1310と、メモリ1320と、記憶ユニット1330と、1つ又は複数の通信ユニット1340と、1つ又は複数の入力デバイス1350と、1つ又は複数の出力デバイス1360と、を含み得る。
【0103】
いくつかの実施形態では、コンピューティングデバイス1300は、コンピューティング能力を有する任意のユーザ端末又はサーバ端末として実施され得る。前記サーバ端末は、サービスプロバイダが提供するサーバや大規模コンピューティングデバイスなどであり得る。前記ユーザ端末は、例えば、携帯電話、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム(PCS)デバイス、パーソナルナビゲーションデバイス、携帯情報端末(PDA)、オーディオ/ビデオプレーヤー、デジタルカメラ/ビデオカメラ、測位デバイス、テレビ受信機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス、又は、それらの任意の組み合わせ(これらのデバイスのアクセサリ及び周辺機器、又は、それらの任意の組み合わせを含む)を含む、任意のタイプの移動端末、固定端末、又は、携帯端末であり得る。コンピューティングデバイス1300は、ユーザに対する任意のタイプのインターフェース(「ウェアラブル」回路など)をサポートすることができることが考えられる。
【0104】
処理ユニット1310は、物理又は仮想プロセッサであり、メモリ1320に格納されたプログラムに基づいて様々なプロセスを実施し得る。マルチプロセッサシステムでは、コンピューティングデバイス1300の並列処理能力を向上させるために、複数の処理ユニットが、コンピュータ実行可能命令を並列に実行する。処理ユニット1310は、中央処理ユニット(CPU)、マイクロプロセッサ、コントローラ、又はマイクロコントローラと呼ばれ得る。
【0105】
コンピューティングデバイス1300は、通常、様々なコンピュータ記憶媒体を含む。このような媒体は、揮発性及び不揮発性媒体、又は、取り外し可能及び取り外し不可能な媒体を含むが、これらに限定されない、コンピューティングデバイス1300によってアクセス可能な任意の媒体であり得る。メモリ1320は、揮発性メモリ(例えば、レジスタ、キャッシュ、ランダム・アクセスメモリ(RAM))、不揮発性メモリ(例えば、読み取り専用メモリ(ROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、フラッシュ メモリ)、又は、それらの任意の組み合わせであり得る。記憶ユニット1330は、任意の取り外し可能又は取り外し不可能な媒体であり、情報及び/又はデータを記憶するために使用でき、コンピューティングデバイス1300でアクセスできる、メモリ、フラッシュメモリドライブ、磁気ディスク、又は別の他の媒体などの機械可読媒体を含み得る。
【0106】
コンピューティングデバイス1300は、追加の取り外し可能/取り外し不可能、揮発性/不揮発性メモリ媒体をさらに含み得る。なお、
図13には示していないが、着脱可能な不揮発性磁気ディスクの読み書きを行う磁気ディスクドライブや、着脱可能な不揮発性光ディスクの読み書きを行う光ディスクドライブを提供することが可能である。このような場合、各ドライブは、1つ又は複数のデータ媒体インターフェースを介して、バス(図示せず)に接続され得る。
【0107】
通信ユニット1340は、通信媒体を介して、さらなるコンピューティングデバイスと通信する。さらに、コンピューティングデバイス1300内のコンポーネントの機能は、通信接続を介して通信できる単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって実施することができる。したがって、コンピューティングデバイス1300は、1つ又は複数の他のサーバ、ネットワーク化されたパーソナルコンピュータ(PC)、又は、さらなる一般的なネットワークノードとの論理接続を使用して、ネットワーク化された環境で動作することができる。
【0108】
入力デバイス1350は、マウス、キーボード、トラッキングボール、音声入力デバイスなどの様々な入力デバイスのうちの1つ又は複数であり得る。出力デバイス1360は、ディスプレイ、スピーカ、プリンタなどの様々な出力デバイスのうちの1つ又は複数であり得る。通信ユニット1340によって、コンピューティングデバイス1300は、記憶デバイス及び表示デバイスなどの1つ又は複数の外部デバイス(図示せず)とさらに通信することができ、1つ又は複数のデバイスにより、ユーザがコンピューティングデバイス1300と対話可能にするか、又は、必要に応じて、任意のデバイス(ネットワークカード、モデムなど)により、コンピューティングデバイス1300が1つ又は複数の他のコンピューティングデバイスと通信可能にする。このような通信は、入出力(I/O)インターフェース(図示せず)を介して、実行できる。
【0109】
いくつかの実施形態では、単一のデバイスに統合される代わりに、コンピューティングデバイス1300のいくつかの又はすべてのコンポーネントが、クラウドコンピューティングアーキテクチャに配置され得る。クラウドコンピューティングアーキテクチャでは、コンポーネントは遠隔的に提供され、連携して本開示で説明される機能を実施し得る。いくつかの実施形態では、クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供し、これらのサービスを提供するシステム又はハードウェアの物理的な位置又は構成をエンドユーザが認識する必要はない。様々な実施形態において、クラウドコンピューティングは、適切なプロトコルを使用して、広域ネットワーク(インターネットなど)を介して、サービスを提供する。例えば、クラウドコンピューティングプロバイダーは、Webブラウザ又はその他のコンピューティングコンポーネントを通じてアクセスできる、広域ネットワーク経由でアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔地にあるサーバに保存され得る。クラウドコンピューティング環境におけるコンピューティングリソースは、リモートデータセンターの場所に併合又は分散され得る。クラウドコンピューティングインフラストラクチャは、ユーザにとって単一のアクセスポイントとして動作するが、共有データセンターを通じて、サービスを提供し得る。したがって、クラウドコンピューティングアーキテクチャを使用して、本明細書で説明されるコンポーネント及び機能を、遠隔地にあるサービスプロバイダから提供し得る。代替形態として、それらは、従来のサーバから提供されるか、又は、クライアントデバイスに直接又はその他の方法でインストールされ得る。
【0110】
コンピューティングデバイス1300は、本開示の実施形態において、ビデオコーディング/復号化を実施するために使用され得る。メモリ1320は、1つ又は複数のプログラム命令を有する1つ又は複数のビデオコーディングモジュール1325を含み得る。これらのモジュールは、本明細書で説明される様々な実施形態の機能を実行するように、処理ユニット1310によって、アクセス可能かつ実行可能である。
【0111】
ビデオコーディングを実行する例示的な実施形態では、入力デバイス1350は、符号化されるビデオデータを、入力1370として受信し得る。ビデオデータは、例えば、ビデオコーディングモジュール1325によって処理されて、符号化されたビットストリームを生成し得る。符号化されたビットストリームは、出力デバイス1360を介して、出力1380として提供され得る。
【0112】
ビデオ復号を実行する例示的な実施形態では、入力デバイス1350は、符号化されたビットストリームを、入力1370として受信し得る。符号化されたビットストリームは、例えば、ビデオコーディングモジュール1325によって処理されて、復号されたビデオデータを生成し得る。復号されたビデオデータは、出力デバイス1360を介して、出力1380として提供され得る。
【0113】
本開示は、その好ましい実施形態を参照して、特に、図示及び説明されたが、添付の特許請求の範囲によって定義される本出願の精神及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることが当業者には理解されるであろう。このような変形は、本出願の範囲に含まれるものとする。したがって、本出願の実施形態に関する前述の説明は、限定することを意図したものではない。
【手続補正書】
【提出日】2024-05-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
メディア処理方法であって、
メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、
前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
【請求項2】
ESRのメディアサンプルに対応する前記MSR内の
メディア・サンプルは、拡張依存ランダム・アクセスポイント
サンプル
(EDRAPサンプル)である、
請求項1に記載の方法。
【請求項3】
前記EDRAPサンプルは、ストリーム・アクセスポイント(SAP)の開始アクセスユニット(SAU)の
インデックスを含む、
請求項2に記載の方法。
【請求項4】
前記EDRAPサンプル内の最初の位置でのバイトは、前記SAUの
前記インデックスを表す、
請求項3に記載の方法。
【請求項5】
前記ESR内の対応するメディアサンプルが、前記EDRAPサンプル
の直前にメディアデコーダへ提供され
る場合、
前記MSR内のメディアストリームの再生が有効になる、
請求項3又は4に記載の方法。
【請求項6】
前記EDRAPサンプルは、前記MSR内の第1セグメントの最初の位置にある、
請求項2~
4のいずれか1項に記載の方法。
【請求項7】
前記第1セグメントは、前記ESR内の第2セグメントに関連付けられ、前記第1セグメントのセグメント開始時間は、前記第2セグメントのセグメント開始時間と同じである、
請求項6に記載の方法。
【請求項8】
前記メディア・プレゼンテーションは、メディア・プレゼンテーション記述(MPD)を含む、
請求項1~
4のいずれか1項に記載の方法。
【請求項9】
前記変換は、前記メディア・ファイルを前記メディア・プレゼンテーション内にパックするステップを含む、
請求項1~
4のいずれか1項に記載の方法。
【請求項10】
前記変換は、前記メディア・プレゼンテーションから前記メディア・ファイルをアンパックするステップを含む、
請求項1~
4のいずれか1項に記載の方法。
【請求項11】
プロセッサと命令を備える非一時的なメモリとを含む、メディアデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに請求項1~
4のいずれか1項に記載の方法を実行させる、装置。
【請求項12】
プロセッサに請求項1~
4のいずれか1項に記載の方法を実行させる命令を記憶する、
非一時的なコンピュータ可読記憶媒体。
【請求項13】
メディアのメディア・プレゼンテーションを記憶する方法であって、
前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、
前記メディア・プレゼンテーションを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、
前記メディア・プレゼンテーション内の外部ストリーム表現(ESR)内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現(MSR)内のメディア・サンプルに対応し、前記ESR内の前記メディア・サンプルのプレゼンテーション時間は、前記MSR内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
【国際調査報告】