特表2024-538330 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ バイトダンス　インコーポレイテッドの特許一覧

特表2024-538330メディア処理方法、装置、及び媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-18

(54)【発明の名称】メディア処理方法、装置、及び媒体

(51)【国際特許分類】

H04N 19/70 20140101AFI20241010BHJP

H04N 21/845 20110101ALI20241010BHJP

【ＦＩ】

H04N19/70

H04N21/845

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024526481

(86)(22)【出願日】2022-11-04

(85)【翻訳文提出日】2024-05-02

(86)【国際出願番号】 US2022079303

(87)【国際公開番号】W WO2023081824

(87)【国際公開日】2023-05-11

(31)【優先権主張番号】63/276,442

(32)【優先日】2021-11-05

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】520477474

【氏名又は名称】バイトダンスインコーポレイテッド

【氏名又は名称原語表記】ＢＹＴＥＤＡＮＣＥＩＮＣ．

【住所又は居所原語表記】１２６５５ＷｅｓｔＪｅｆｆｅｒｓｏｎＢｏｕｌｅｖａｒｄ，ＳｉｘｔｈＦｌｏｏｒ，ＳｕｉｔｅＮｏ．１３７ＬｏｓＡｎｇｅｌｅｓ，Ｃａｌｉｆｏｒｎｉａ９００６６ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】ワン，イェ－クイ

【テーマコード（参考）】

5C159

5C164

【Ｆターム（参考）】

5C159MA04

5C159MA05

5C159MA21

5C159MC11

5C159ME01

5C159PP04

5C159RC11

5C159UA02

5C159UA05

5C164MA02S

5C164MB44P

5C164SC03S

(57)【要約】

本開示の実施形態は、メディア処理のための方案を提供する。メディア処理方法を提供する。当該方法は、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、ＭＳＲ内の対応するメディア・サンプルのプレゼンテーション時間と同じである。これにより、提案した方法は、拡張依存ランダム・アクセスポイント（ＥＤＲＡＰ）ベースの技術をより効率的にサポートすることができるという利点がある。
【選択図】図１２

【特許請求の範囲】

【請求項1】

メディア処理方法であって、
メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、
前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。

【請求項2】

前記ＭＳＲ内の前記メディア・サンプルは、拡張依存ランダム・アクセスポイント（ＥＤＲＡＰ）サンプルである、
請求項１に記載の方法。

【請求項3】

前記ＥＤＲＡＰサンプルは、ストリーム・アクセスポイント（ＳＡＰ）の開始アクセスユニット（ＳＡＵ）の指示を含む、
請求項２に記載の方法。

【請求項4】

前記ＥＤＲＡＰサンプル内の最初の位置でのバイトは、前記ＳＡＵのインデックスを表す、
請求項３に記載の方法。

【請求項5】

前記ＥＤＲＡＰサンプルは、前記ＥＤＲＡＰサンプルに対応する前記ＥＳＲ内のメディア・サンプルがメディアデコーダへ提供された後、前記メディアデコーダへ提供される、
請求項３又は４に記載の方法。

【請求項6】

前記ＥＤＲＡＰサンプルは、前記ＭＳＲ内の第１セグメントの最初の位置にある、
請求項２～５のいずれか１項に記載の方法。

【請求項7】

前記第１セグメントは、前記ＥＳＲ内の第２セグメントに関連付けられ、前記第１セグメントのセグメント開始時間は、前記第２セグメントのセグメント開始時間と同じである、
請求項６に記載の方法。

【請求項8】

前記メディア・プレゼンテーションは、メディア・プレゼンテーション記述（ＭＰＤ）を含む、
請求項１～７のいずれか１項に記載の方法。

【請求項9】

前記変換は、前記メディア・ファイルを前記メディア・プレゼンテーション内にパックするステップを含む、
請求項１～８のいずれか１項に記載の方法。

【請求項10】

前記変換は、前記メディア・プレゼンテーションから前記メディア・ファイルをアンパックするステップを含む、
請求項１～８のいずれか１項に記載の方法。

【請求項11】

プロセッサと命令を備える非一時的なメモリとを含む、メディアデータを処理する装置であって、
前記命令は、前記プロセッサによって実行されると、前記プロセッサに請求項１～１０のいずれか１項に記載の方法を実行させる、装置。

【請求項12】

プロセッサに請求項１～１０に記載の方法を実行させる命令を記憶する、
非一時的なコンピュータ可読記憶媒体。

【請求項13】

メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する非一時的なコンピュータ可読記録媒体であって、
前記方法は、
前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、
前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、
非一時的なコンピュータ可読記録媒体。

【請求項14】

メディアのメディア・ファイルを記憶する方法であって、
前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、
前記メディア・ファイルを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、
前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。

【請求項15】

メディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する非一時的なコンピュータ可読記録媒体であって、
前記方法は、
前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップを含み、
前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、
非一時的なコンピュータ可読記録媒体。

【請求項16】

メディアのメディア・プレゼンテーションを記憶する方法であって、
前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、
前記メディア・プレゼンテーションを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、
前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願の相互参照〕
本出願は、２０２１年１１月５日に出願された米国仮出願第６３／２７６，４４２号の優先権を主張し、その内容全体がここに参照として取り込まれる。

【0002】

本開示の実施形態は、概して、メディアコーディング技術に関し、より具体的には、メインストリーム表現（ＭＳＲ）及び外部ストリーム表現（ＥＳＲ）に基づくストリーミングのための改良設計に関する。

【背景技術】

【0003】

メディアストリーミングアプリケーションは、通常、インターネットプロトコル（ＩＰ）、伝送制御プロトコル（ＴＣＰ）、及びハイパーテキスト転送プロトコル（ＨＴＴＰ）の転送方法に基づくものであり、通常、ＩＳＯベースのメディア・ファイルフォーマット（ＩＳＯＢＭＦＦ）などのファイルフォーマットに依存する。このようなストリーミングシステムの１つは、ＨＴＴＰベースの動的適応型ストリーミング（ｄｙｎａｍｉｃａｄａｐｔｉｖｅｓｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ、略してＤＡＳＨ）である。ＤＡＳＨでは、マルチメディアコンテンツのビデオ及び／又はオーディオデータの多重表現が存在し得るが、異なる表現は、異なるコーディング特性（例えば、ビデオコーディング規格の異なるプロファイル又はレベル、異なるビットレート、異なる空間解像度など）に対応し得る。また、拡張依存ランダム・アクセスポイント（ｅｘｔｅｎｄｅｄｄｅｐｅｎｄｅｎｔｒａｎｄｏｍａｃｃｅｓｓｐｏｉｎｔ、略してＥＤＲＡＰ）ピクチャベースのビデオコーディング及びストリーミングは提案されている。従って、ＭＳＲ及びＥＳＲに基づくストリーミングについて研究する価値はある。

【発明の概要】

【0004】

本開示の実施形態は、メディア処理のための方案を提供する。

【0005】

第１態様では、メディア処理方法を提案する。前記方法は、メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、前記メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応し、前記ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0006】

本開示の第１態様による方法によれば、前記メディアサンプは、オーディオサンプル、ビデオサンプルなどであってもよい。ＥＤＲＡＰピクチャという用語がビデオにのみ適用される従来の方案と比べて、提案した方法は、ビデオ以外の他の種類のメディアにも適用できるという利点があるため、ＥＤＲＡＰベースの技術をより柔軟にする。さらに、ＥＳＲ内の、プレゼンテーション時間を持つメディア・サンプルごとに、ＭＳＲ内には同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在する。これにより、提案した方法は、ＥＤＲＡＰベースの技術をより効率的にサポートすることができるという利点がある。

【0007】

第２態様では、メディアデータを処理する装置を提案する。前記メディアデータを処理する装置は、プロセッサと命令を備える非一時的なメモリとを含む。前記命令は、前記プロセッサによって実行されると、前記プロセッサに本開示の第１態様による方法を実行させる。

【0008】

第３態様では、非一時的なコンピュータ可読記憶媒体を提案する。非一時的なコンピュータ可読記憶媒体は、プロセッサに本開示の第１態様による方法を実行させる命令を記憶する。

【0009】

第４態様では、他の非一時的なコンピュータ可読記録媒体を提案する。前記非一時的なコンピュータ可読記録媒体は、メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する。前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、前記メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応し、前記ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0010】

第５態様では、メディアのメディア・ファイルを記憶する方法を提案する。前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・ファイルを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、前記メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応し、前記ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0011】

第６態様では、他の非一時的なコンピュータ可読記録媒体を提案する。前記非一時的なコンピュータ可読記録媒体はメディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する。前記方法は、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、前記メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応し、前記ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0012】

第７態様では、メディアのメディア・プレゼンテーションを記憶する方法を提案する。前記方法は前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・プレゼンテーションを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、前記メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応し、前記ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0013】

この発明の概要は、以下の詳細な説明でさらに記述される概念の選択を簡略化した形で紹介するために提供される。この発明の概要は、請求される技術的事項の主な特徴又は本質的な特徴を特定することを意図したものではなく、また、請求される技術的事項の範囲を制限するために使用されることを意図したものでもない。

【図面の簡単な説明】

【0014】

添付の図面を参照した以下の詳細な説明を通じて、本開示の例示的な実施形態の上記及び他の目的、特徴、及び利点がより明らかになるであろう。本開示の例示的な実施形態では、同じ参照番号は、通常、同じ構成要素を指す。

【0015】

【図1】本開示のいくつかの実施形態に係る例示的なビデオコーディングシステムのブロック図を示す。

【0016】

【図2】本開示のいくつかの実施形態に係る例示的なビデオエンコーダのブロック図を示す。

【0017】

【図3】本開示のいくつかの実施形態に係る例示的なビデオデコーダのブロック図を示す。

【0018】

【図4】ランダム・アクセスポイント（ｒａｎｄｏｍａｃｃｅｓｓｐｏｉｎｔ、略してＲＡＰ）を説明するための図である。

【0019】

【図5】ＲＡＰのコンセプトを説明するための他の図である。

【0020】

【図6】依存ランダム・アクセスポイント（ｄｅｐｅｎｄｅｎｔｒａｎｄｏｍａｃｃｅｓｓｐｏｉｎｔ、略してＤＲＡＰ）のコンセプトを説明するための図である。

【0021】

【図7】ＤＲＡＰのコンセプトを説明するための他の図である。

【0022】

【図8】拡張依存ランダム・アクセスポイント（ＥＤＲＡＰ）のコンセプトを説明するための図である。

【0023】

【図9】ＥＤＲＡＰのコンセプトを説明するための他の図である。

【0024】

【図10】ＥＤＲＡＰベースのビデオストリーミングを説明するための図である。

【0025】

【図11】ＥＤＲＡＰベースのビデオストリーミングを説明するための他の図である。

【0026】

【図12】本開示のいくつかの実施形態に係るメディア処理方法のフローチャートを示す。

【0027】

【図13】本開示の様々な実施形態を実施できるコンピューティングデバイスに係るブロック図を示す。

【0028】

図面の全体にわたって、同じ又は類似の参照番号は、通常、同じ又は類似の要素を指す。

【発明を実施するための形態】

【0029】

以下、いくつかの実施形態を参照しながら本開示の原理を説明する。これらの実施形態は、例示の目的で、かつ、当業者が本開示を理解して実施することに寄与するために記載されるにすぎず、本開示の範囲に関していかなる限定も示唆しないと理解すべきである。本明細書に記載の開示は、以下に記載する方法以外にも、様々な方法で実施することができる。

【0030】

以下の説明及び特許請求の範囲において、別段の定義がない限り、本明細書で使用されるすべての技術用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。

【0031】

本開示における「一つの実施形態」、「一実施形態」、「例示的な実施形態」などへの言及は、記載される実施形態が、特定の特徴、構造、又は特性を含み得ることを示すが、必ずしもすべての実施形態が、特定の特徴、構造、又は特性を含むとは限らない。また、そのような語句は、必ずしも同じ実施形態を指しているわけではない。さらに、特定の特徴、構造、又は特性が、例示的な実施形態に関連して説明される場合、明示的に記載されているかどうかにかかわらず、他の実施形態に関連して、そのような特徴、構造、又は特性に影響を与えることは、当業者の知識の範囲内であることが指摘される。

【0032】

「第１」及び「第２」などの用語は、本明細書では、様々な要素を説明するために使用され得るが、これらの要素は、これらの用語によって限定されるべきではないことを理解すべきである。これらの用語は、ある要素を別の要素と区別するためにのみ使用されている。例えば、例示的な実施形態の範囲から逸脱することなく、第１の要素が第２の要素と呼ばれ得る。同様に、第２の要素が第１の要素と呼ばれ得る。本明細書で使用される「及び／又は」という用語には、列挙された用語の１つ又は複数のあらゆる組み合わせが含まれる。

【0033】

本明細書で使用される用語は、特定の実施形態を説明することのみを目的としており、例示的な実施形態を限定することを意図したものではない。本明細書で使用されるように、単数形「ａ（一つの）」、「ａｎ（一つの）」、及び「ｔｈｅ（その）」は、文脈上明らかに別段の指示がない限り、複数形も含むものとする。「含む」、「備える」、「有する」、「持つ」、「含む」、及び／又は「包含する」という用語は、本明細書で使用される場合、記載された特徴、要素、及び／又は、コンポーネントなど、の存在を特定するが、１つ又は複数の他の特徴、要素、コンポーネント、及び／又は、それらの組み合わせの存在又は追加を排除するものではないことが、さらに理解されるであろう。
例示的な環境

【0034】

図１は、本開示の技術を利用し得る例示的なビデオコーディングシステム１００を示すブロック図である。図示されるように、ビデオコーディングシステム１００は、ソースデバイス１１０、及び、宛先デバイス１２０を含み得る。ソースデバイス１１０は、ビデオ符号化デバイスとも呼ばれ得る。宛先デバイス１２０は、ビデオ復号デバイスとも呼ばれ得る。動作中、ソースデバイス１１０は、符号化されたビデオデータを生成するように構成され、宛先デバイス１２０は、ソースデバイス１１０によって生成された符号化されたビデオデータを復号するように構成され得る。ソースデバイス１１０は、ビデオソース１１２と、ビデオエンコーダ１１４と、入出力（Ｉ／Ｏ）インターフェース１１６とを含み得る。

【0035】

ビデオソース１１２は、ビデオキャプチャデバイスなどのソースを含み得る。ビデオキャプチャデバイスの例には、ビデオコンテンツプロバイダからビデオデータを受信するインターフェース、ビデオデータを生成するコンピュータグラフィックスシステム、及び／又は、それらの組み合わせが含まれるが、これらに限定されない。

【0036】

ビデオデータは、１つ又は複数のピクチャを含み得る。ビデオエンコーダ１１４は、ビデオソース１１２からのビデオデータを符号化して、ビットストリームを生成する。ビットストリームには、ビデオデータのコード化表現を形成する一連のビットが含まれ得る。ビットストリームには、コード化ピクチャ及び関連データが含まれ得る。コード化ピクチャは、ピクチャのコード化表現である。関連データには、シーケンスパラメータセット、ピクチャパラメータセット、及び、他の構文構造が含まれ得る。Ｉ／Ｏインターフェース１１６は、変調器／復調器、及び／又は、送信機を含み得る。符号化されたビデオデータは、Ｉ／Ｏインターフェース１１６を介して、ネットワーク１３０Ａを通じて、宛先デバイス１２０に直接送信され得る。符号化されたビデオデータは、宛先デバイス１２０によるアクセスのために、記憶媒体／サーバ１３０Ｂに記憶され得る。

【0037】

宛先デバイス１２０は、Ｉ／Ｏインターフェース１２６と、ビデオデコーダ１２４と、表示デバイス１２２とを含み得る。Ｉ／Ｏインターフェース１２６は、受信機及び／又はモデムを含み得る。Ｉ／Ｏインターフェース１２６は、ソースデバイス１１０又は記憶媒体／サーバ１３０Ｂから、符号化されたビデオデータを取得し得る。ビデオデコーダ１２４は、符号化されたビデオデータを復号し得る。表示デバイス１２２は、復号されたビデオデータを、ユーザに表示し得る。表示デバイス１２２は、宛先デバイス１２０と一体化されてもよいし、或いは、外部表示デバイスとインターフェースするように構成された、宛先デバイス１２０の外部にあってもよい。

【0038】

ビデオエンコーダ１１４及びビデオデコーダ１２４は、ＨＥＶＣ（ＨｉｇｈＥｆｆｉｃｉｅｎｃｙＶｉｄｅｏＣｏｄｉｎｇ）規格、ＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏＣｏｄｉｎｇ）規格、及び、他の現在及び／又はさらなる規格などのビデオ圧縮規格に従って、動作し得る。

【0039】

図２は、本開示のいくつかの実施形態に係る、図１に示すシステム１００内のビデオエンコーダ１１４の一例である、ビデオエンコーダ２００の一例を示すブロック図である。

【0040】

ビデオエンコーダ２００は、本開示の技術のいずれか又はすべてを実施するように構成され得る。図２の例において、ビデオエンコーダ２００は、複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオエンコーダ２００の様々なコンポーネント間で共有され得る。いくつかの例において、プロセッサは、本開示で説明された技術のいずれか又はすべてを実行するように構成され得る。

【0041】

いくつかの実施形態において、ビデオエンコーダ２００は、分割ユニット２０１と、モード選択ユニット２０３、動き推定ユニット２０４、動き補償ユニット２０５、及びイントラ予測ユニット２０６を含み得る予測ユニット２０２と、残差生成ユニット２０７と、変換ユニット２０８と、量子化ユニット２０９と、逆量子化ユニット２１０と、逆変換ユニット２１１と、再構築ユニット２１２と、バッファ２１３と、エントロピー符号化ユニット２１４とを含み得る。

【0042】

他の例において、ビデオエンコーダ２００は、より多くの機能コンポーネント、より少ない機能コンポーネント、又は、異なる機能コンポーネントを含み得る。一例において、予測ユニット２０２は、イントラブロックコピー（ＩＢＣ）ユニットを含み得る。ＩＢＣユニットは、少なくとも１つの参照ピクチャが現在ビデオブロックの位置するピクチャであるＩＢＣモードで予測を実行し得る。

【0043】

さらに、動き推定ユニット２０４及び動き補償ユニット２０５などのいくつかの構成要素は統合され得るが、図２の例では、説明の目的で別々に表されている。

【0044】

分割ユニット２０１は、ピクチャを１つ又は複数のビデオブロックに分割し得る。ビデオエンコーダ２００及びビデオデコーダ３００は、多様なビデオブロックサイズをサポートし得る。

【0045】

モード選択ユニット２０３は、例えば、エラー結果に基づいて、イントラ符号化モード又はインターコーディングモードのうちの１つを選択し、その結果から得られるイントラコーディング又はインターコーディングされたブロックを、残差ブロックデータを生成するように残差生成ユニット２０７に提供し、符号化されたブロックを再構築して、参照ピクチャとして使用するように再構築ユニット２１２に提供し得る。いくつかの例では、モード選択ユニット２０３は、予測がインター予測信号及びイントラ予測信号に基づくイントラ予測及びインター予測の組み合わせ（ＣＩＩＰ）モードを選択し得る。モード選択ユニット２０３は、インター予測の場合、ブロックの動きベクトルの解像度（例えば、サブピクセル又は整数ピクセル精度）を選択し得る。

【0046】

現在ビデオブロックに対してインター予測を実行するために、動き推定ユニット２０４は、バッファ２１３からの１つ又は複数の参照フレームを現在ビデオブロックと比較することによって、現在ビデオブロックの動き情報を生成し得る。動き補償ユニット２０５は、現在ビデオブロックに関連するピクチャ以外の、バッファ２１３からのピクチャの動き情報及び復号化サンプルに基づいて、現在ビデオブロックの予測ビデオブロックを決定し得る。

【0047】

動き推定ユニット２０４及び動き補償ユニット２０５は、例えば、現在ビデオブロックがＩスライス、Ｐスライス、又はＢスライスのいずれにあるかに応じて、現在ビデオブロックに対して異なる演算を実行し得る。本明細書で使用されるように、「Ｉスライス」は、マクロブロックから構成されるピクチャの一部を指すことができ、そのすべてが同じピクチャ内のマクロブロックに基づいている。さらに、本明細書で使用されるように、いくつかの態様では、「Ｐスライス」及び「Ｂスライス」は、同じピクチャ内のマクロブロックに依存しないマクロブロックから構成されるピクチャの部分を指し得る。

【0048】

いくつかの例では、動き推定ユニット２０４は、現在ビデオブロックに対して単方向予測を実行することができ、動き推定ユニット２０４は、現在ビデオブロックの参照ビデオブロックに対するリスト０又はリスト１の参照ピクチャを探し得る。次に、動き推定ユニット２０４は、参照ビデオブロックを含むリスト０又はリスト１内の参照ピクチャを示す参照インデックス、及び、現在ビデオブロックと参照ビデオブロックとの間の空間変位を示す動きベクトルを生成し得る。動き推定ユニット２０４は、参照インデックス、予測方向指示子、及び動きベクトルを、現在ビデオブロックの動き情報として出力し得る。動き補償ユニット２０５は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。

【0049】

代替形態として、他の例では、動き推定ユニット２０４は、現在ビデオブロックに対して双方向予測を実行し得る。動き推定ユニット２０４は、現在ビデオブロックの参照ビデオブロックに対するリスト０内の参照ピクチャをサーチしてもよいし、現在ビデオブロックの別の参照ビデオブロックに対するリスト１内の参照ピクチャをサーチしてもよい。次に、動き推定ユニット２０４は、参照ビデオブロックを含むリスト０及びリスト１内の参照ピクチャを示す参照インデックス、及び、参照ビデオブロックと現在ビデオブロックとの間の空間変位を示す動きベクトルを生成し得る。動き推定ユニット２０４は、現在ビデオブロックの参照インデックス及び動きベクトルを、現在ビデオブロックの動き情報として出力し得る。動き補償ユニット２０５は、現在ビデオブロックの動き情報によって示される参照ビデオブロックに基づいて、現在ビデオブロックの予測ビデオブロックを生成し得る。

【0050】

いくつかの例では、動き推定ユニット２０４は、デコーダの復号処理のためのフルセットの動き情報を出力し得る。代替形態として、いくつかの実施形態では、動き推定ユニット２０４は、別のビデオブロックの動き情報を参照して、現在ビデオブロックの動き情報をシグナリングし得る。例えば、動き推定ユニット２０４は、現在ビデオブロックの動き情報が隣接するビデオブロックの動き情報と十分に類似していると判定し得る。

【0051】

一例では、動き推定ユニット２０４は、現在ビデオブロックに関連付けられた構文構造において、現在ビデオブロックが別のビデオブロックと同じ動き情報を有することをビデオデコーダ３００へ示す値を示し得る。

【0052】

別の例では、動き推定ユニット２０４は、現在ビデオブロックに関連付けられた構文構造において、別のビデオブロック及び動きベクトル差分（ＭＶＤ）を識別し得る。動きベクトル差分は、現在ビデオブロックの動きベクトルと、指示されたビデオブロックの動きベクトルとの間の差分を示す。ビデオデコーダ３００は、指示されたビデオブロックの動きベクトル及び動きベクトル差分を使用して、現在ビデオブロックの動きベクトルを決定し得る。

【0053】

上記のように、ビデオエンコーダ２００は、動きベクトルを予測的にシグナリングし得る。ビデオエンコーダ２００によって実施され得る予測シグナリング技術の２つの例には、アドバンスト動きベクトル予測（ＡＭＶＰ）及びマージモードシグナリングが含まれる。

【0054】

イントラ予測ユニット２０６は、現在ビデオブロックに対してイントラ予測を実行し得る。イントラ予測ユニット２０６が現在ビデオブロックに対してイントラ予測を実行するとき、イントラ予測ユニット２０６は、同じピクチャ内の他のビデオブロックの復号されたサンプルに基づいて、現在ビデオブロックに対する予測データを生成し得る。現在ビデオブロックに対する予測データには、予測されたビデオブロック及び様々な構文要素が含まれ得る。

【0055】

残差生成ユニット２０７は、現在ビデオブロックから現在ビデオブロックの予測ビデオブロックを減算する（例えば、マイナス記号によって示される）ことによって、現在ビデオブロックに対する残差データを生成し得る。現在ビデオブロックの残差データは、現在ビデオブロック内のサンプルの異なるサンプル成分に対応する残差ビデオブロックを含み得る。

【0056】

他の例では、現在ビデオブロックに対する残差データは例えばスキップモードにおいて存在しなくてもよく、残差生成ユニット２０７は減算演算を実行しなくてもよい。

【0057】

変換処理ユニット２０８は、現在ビデオブロックに関連付けられた残差ビデオブロックに１つ又は複数の変換を適用することによって、現在ビデオブロックに対する１つ又は複数の変換係数ビデオブロックを生成し得る。

【0058】

変換処理ユニット２０８が現在ビデオブロックに関連付けられた変換係数ビデオブロックを生成した後、量子化ユニット２０９は、現在ビデオブロックに関連付けられた１つ又は複数の量子化パラメータ（ＱＰ）値に基づいて、現在ビデオブロックに関連付けられた変換係数ビデオブロックを量子化し得る。

【0059】

逆量子化ユニット２１０及び逆変換ユニット２１１は、それぞれ、変換係数ビデオブロックに逆量子化及び逆変換を適用して、変換係数ビデオブロックから残差ビデオブロックを再構築し得る。再構築ユニット２１２は、再構築された残差ビデオブロックを、予測ユニット２０２によって生成された１つ又は複数の予測ビデオブロックからの対応するサンプルに追加して、バッファ２１３に記憶するために現在ビデオブロックに関連付けられた再構築ビデオブロックを生成し得る。

【0060】

再構築ユニット２１２がビデオブロックを再構成した後、ビデオブロック内のビデオブロッキングアーティファクトを低減するために、ループフィルタリング動作が実行され得る。

【0061】

エントロピー符号化ユニット２１４は、ビデオエンコーダ２００の他の機能コンポーネントからデータを受信し得る。エントロピー符号化ユニット２１４がデータを受信すると、エントロピー符号化ユニット２１４は、１つ又は複数のエントロピー符号化動作を実行することでエントロピー符号化データを生成し、そして、エントロピー符号化データを含むビットストリームを出力し得る。

【0062】

図３は、本開示のいくつかの実施形態に係る、図１に示すシステム１００内のビデオデコーダ１２４の一例である、ビデオデコーダ３００の一例を示すブロック図である。

【0063】

ビデオデコーダ３００は、本開示の技術のいずれか又はすべてを実行するように構成され得る。図３の例では、ビデオデコーダ３００は複数の機能コンポーネントを含む。本開示で説明される技術は、ビデオデコーダ３００の様々なコンポーネント間で共有され得る。いくつかの例では、プロセッサは、本開示で説明された技術のいずれか又はすべてを実行するように構成され得る。

【0064】

図３の例では、ビデオデコーダ３００は、エントロピー復号ユニット３０１と、動き補償ユニット３０２と、イントラ予測ユニット３０３と、逆量子化ユニット３０４と、逆変換ユニット３０５と、再構築ユニット３０６と、バッファ３０７とを含む。ビデオデコーダ３００は、いくつかの例では、ビデオエンコーダ２００に関して説明した符号化パスとは、一般に、逆の復号パスを実行し得る。

【0065】

エントロピー復号ユニット３０１は、符号化されたビットストリームを検索し得る。符号化されたビットストリームは、エントロピーコーディングされたビデオデータ（例えば、ビデオデータの符号化されたブロック）を含み得る。エントロピー復号ユニット３０１は、エントロピーコーディングされたビデオデータを復号し得、そして、動き補償ユニット３０２は、エントロピー復号されたビデオデータから、動きベクトル、動きベクトル精度、参照ピクチャリストインデックス、及び他の動き情報を含む動き情報を決定し得る。動き補償ユニット３０２は、例えば、ＡＭＶＰ及びマージモードを実行することによって、そのような情報を決定し得る。ＡＭＶＰが使用され、隣接するＰＢ及び参照ピクチャからのデータに基づいた、最も可能性の高いいくつかの候補の導出を含む。動き情報には、通常、水平及び垂直動きベクトル変位値、１つ又は２つの参照ピクチャインデックス、及びＢスライス内の予測領域の場合は、どの参照ピクチャリストが各インデックスに関連付けられているかの識別が含まれる。本明細書で使用されるように、いくつかの態様では、「マージモード」は、空間的又は時間的に隣接するブロックから動き情報を導出することを指し得る。

【0066】

動き補償ユニット３０２は、動き補償されたブロックを生成し、当該ブロックは、補間フィルタに基づいて補間を実行することができる。サブピクセル精度で使用される補間フィルタの識別子は、構文要素に含まれ得る。

【0067】

動き補償ユニット３０２は、ビデオブロックの符号化中にビデオエンコーダ２００によって使用される補間フィルタを使用して、参照ブロックのサブ整数ピクセルに対する補間値を計算し得る。動き補償ユニット３０２は、受信した構文情報に従って、ビデオエンコーダ２００によって使用される補間フィルタを決定し、その補間フィルタを使用して、予測ブロックを生成し得る。

【0068】

動き補償ユニット３０２は、構文情報の少なくとも一部を使用して、符号化されたビデオシーケンスのフレーム及び／又はスライスを符号化するために使用されるブロックのサイズ、符号化されたビデオシーケンスのピクチャの各マクロブロックがどのように分割されるかを説明するパーティション情報、各パーティションがどのように符号化されるかを示すモード、各インターエンコードされたブロックの１つ又は複数の参照フレーム（及び、参照フレームリスト）、及び、符号化されたビデオシーケンスを復号するその他の情報を決定し得る。本明細書で使用されるように、いくつかの態様では、「スライス」は、エントロピーコーディング、信号予測、及び残差信号再構築に関して、同じピクチャの他のスライスと別個に復号できるデータ構造を指し得る。スライスは、ピクチャ全体又はピクチャの領域のいずれかになり得る。

【0069】

イントラ予測ユニット３０３は、例えば、ビットストリーム内で受信されたイントラ予測モードを使用して、空間的に隣接するブロックから予測ブロックを形成し得る。逆量子化ユニット３０４は、ビットストリームで提供され、エントロピー復号ユニット３０１によって復号された量子化ビデオブロック係数を逆量子化、即ち、量子化解除する。逆変換ユニット３０５は、逆変換を適用する。

【0070】

再構築ユニット３０６は、例えば、残差ブロック、及び、動き補償ユニット３０２又はイントラ予測ユニット３０３によって生成された対応する予測ブロックを加算することによって、復号されたブロックを取得し得る。必要に応じて、デブロッキングフィルタが適用されて、ブロックノイズアーティファクトを除去するよう、復号されたブロックをフィルタリングしてもよい。次に、復号されたビデオブロックは、バッファ３０７に記憶され、バッファ３０７は、後続の動き補償／イントラ予測のための参照ブロックを提供し、また、表示デバイス上にプレゼンテーションするための復号されたビデオも生成する。

【0071】

本開示のいくつかの例示的な実施形態について、以下に、詳細に説明することにする。本明細書では、理解を容易にするためにセクション見出しが使用されているが、セクションで開示される実施形態をそのセクションのみに限定するものではないことを理解すべきである。さらに、特定の実施形態が多用途ビデオコーディング又は他の特定のビデオコーデックを参照して説明されているが、開示された技術は、他のビデオコーディング技術にも適用可能である。さらに、いくつかの実施形態は、ビデオコーディングステップを詳細に説明するが、コーディングを元に戻す対応する復号化ステップは、デコーダによって実施されることが理解されるであろう。さらに、ビデオ処理という用語には、ビデオの符号化又は圧縮、ビデオのコーディング又は解凍、及び、ビデオピクセルを１つの圧縮フォーマットから別の圧縮フォーマット又は異なる圧縮ビットレートで表現するビデオトランス符号化が包含される。
１．概要
本開示は、ビデオストリーミングに関する。具体的には、メインストリーム表現（ＭＳＲ）及び外部ストリーム表現（ＥＳＲ）に基づくビデオストリーミングの設計に関する。このアイデアは、ＤＡＳＨ規格やその拡張などに基づいて、メディアストリーミングシステムに個別に又は様々な組み合わせで適用され得る。
２．背景
２．１ビデオコーディング規格
ビデオコーディング規格は、主によく知られているＩＴＵ－Ｔ及びＩＳＯ／ＩＥＣ規格の開発を通じて進化してきた。ＩＴＵ－ＴがＨ．２６１及びＨ．２６３を作成し、ＩＳＯ／ＩＥＣがＭＰＥＧ－１及びＭＰＥＧ－４Ｖｉｓｕａｌを作成し、この２つの組織が共同でＨ．２６２／ＭＰＥＧ－２Ｖｉｄｅｏ及びＨ．２６４／ＭＰＥＧ－４ＡＶＣ（ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ）及びＨ．２６５／ＨＥＶＣ規格を作成した。Ｈ．２６２以来、ビデオコーディング規格は、時間予測プラス変換コーディングが利用されるハイブリッドビデオコーディング構造に基づくものである。ＨＥＶＣを超える未来ビデオコーディング技術を検討するために、ジョイントビデオエクスプロレーションチーム（ＪｏｉｎｔＶｉｄｅｏＥｘｐｌｏｒａｔｉｏｎＴｅａｍ、ＪＶＥＴ）が２０１５年にＶＣＥＧとＭＰＥＧによって共同で設立された。それ以来、多くの新しい方法がＪＶＥＴによって採用され、ジョイントエクスプロレーションモデル（ＪｏｉｎｔＥｘｐｌｏｒａｔｉｏｎＭｏｄｅｌ、ＪＥＭ）という名前のリファレンスソフトウェアに組み込まれた。その後、ＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏｃｏｄｉｎｇ）プロジェクトが正式に開始されたときに、ＪＶＥＴはＪｏｉｎｔＶｉｄｅｏＥｘｐｅｒｔｓＴｅａｍ（ＪＶＥＴ）に名前変更された。ＶＶＣは、ＨＥＶＣと比較して、５０％ビットレート低減を目標とする新しいコーディング規格であり、２０２０年７月１日に終了した第１９回会議でＪＶＥＴによって最終的に完了された。
ＶＶＣ（ＶｅｒｓａｔｉｌｅＶｉｄｅｏｃｏｄｉｎｇ）規格（ＩＴＵ－ＴＨ．２６６｜ＩＳＯ／ＩＥＣ２３０９０－３）及び関連する多用途付加拡張情報（ＶｅｒｓａｔｉｌｅＳｕｐｐｌｅｍｅｎｔａｌＥｎｈａｎｃｅｍｅｎｔＩｎｆｏｒｍａｔｉｏｎ、略してＶＳＥＩ）規格（ＩＴＵ－ＴＨ．２７４｜ＩＳＯ／ＩＥＣ２３００２－７）は、テレビ放送、ビデオ会議、又は記憶媒体からの再生などの従来の用途と、アダプティブビットレートストリーミング、ビデオ領域の抽出、多重コード化ビデオビットストリームからのコンテンツの合成と結合、マルチビュービデオ、スケーラブルなレイヤードコーディング、及びビューポート適応３６０度没入型メディアなどのより新しく高度な用途の両方を含む、最大限広範囲のアプリケーションで使用されるように設計されている。
ＥＶＣ（ＥｓｓｅｎｔｉａｌＶｉｄｅｏＣｏｄｉｎｇ）規格（ＩＳＯ／ＩＥＣ２３０９４－１）は、ＭＰＥＧによって最近開発された別のビデオコーディング規格である。
２．２ファイルフォーマット規格
メディアストリーミングアプリケーションは、通常、ＩＰ、ＴＣＰ、及びＨＴＴＰトランスポート方法に基づくものであり、ＩＳＯベースのメディア・ファイルフォーマット（ＩＳＯＢＭＦＦ）などのファイルフォーマットに依存する。このようなストリーミングシステムの１つは、ＨＴＴＰベースの動的適応型ストリーミング（ＤＡＳＨ）でする。ＩＳＯＢＭＦＦ及びＤＡＳＨでビデオフォーマットを使用する場合、ＡＶＣファイルフォーマットやＨＥＶＣファイルフォーマットなど、ビデオフォーマットに特有なファイルフォーマット仕様は、ＩＳＯＢＭＦＦトラック及びＤＡＳＨ表現とセグメントでのビデオコンテンツのカプセル化に必要な場合がある。ビデオビットストリームに関する重要な情報、例えば、プロファイル、階層、レベル、その他多くの情報は、コンテンツ選択の目的、例えば、ストリーミングセッションの開始時の初期化とストリーミングセッション中のストリーム適応の両方のための適切なメディアセグメントの選択のために、ファイルフォーマットレベルメタデータ及び／又はＤＡＳＨメディア・プレゼンテーション記述（ＭｅｄｉａＰｒｅｓｅｎｔａｔｉｏｎＤｅｓｃｒｉｐｔｉｏｎ、略してＭＰＤ）として公開されるべきである場合がある。
同様に、ＩＳＯＢＭＦＦで画像フォーマットを使用する場合、ＡＶＣ画像ファイルフォーマット及びＨＥＶＣ画像ファイルフォーマットなど、画像フォーマットに特有のファイルフォーマット仕様が必要な場合がある。
ＩＳＯＢＭＦＦに基づいたＶＶＣビデオコンテンツを保存するためのファイルフォーマットである、ＶＶＣビデオファイルフォーマットは、現在ＭＰＥＧによって開発されている。
ＩＳＯＢＭＦＦに基づいた、ＶＶＣを使用してコーディングされた画像コンテンツを保存するためのファイル形式である、ＶＶＣ画像ファイルフォーマットは、現在ＭＰＥＧによって開発されている。
２．３ＤＡＳＨ
ＨＴＴＰベースの動的適応型ストリーミング（ＤＡＳＨ）では、マルチメディアコンテンツのビデオ及び／又はオーディオデータの多重表現が存在し得るが、異なる表現は、異なるコーディング特性（例えば、ビデオコーディング規格の異なるプロファイル又はレベル、異なるビットレート、異なる空間解像度など）に対応し得る。このような表現のマニフェストは、メディア・プレゼンテーション記述（ＭＰＤ）データ構造で定義され得る。メディア・プレゼンテーションは、ＤＡＳＨストリーミングクライアントデバイスにアクセス可能なデータの構造化コレクションに対応し得る。ＤＡＳＨストリーミングクライアントデバイスは、クライアントデバイスのユーザにストリーミングサービスを提供するようにメディアデータ情報を要求し、ダウンロードし得る。メディア・プレゼンテーションは、ＭＰＤの更新を含むＭＰＤデータ構造で記述され得る。
メディア・プレゼンテーションには、一連の１つ又は複数の期間が含まれ得る。各期間は、次の期間の開始まで延長され、又は、最後の期間の場合にメディア・プレゼンテーションの終了まで延長され得る。各期間には、同じメディアコンテンツの１つ又は複数の表現が含まれ得る。表現は、オーディオ、ビデオ、タイムドテキスト、又はその他のそのようなデータの多数の代替的符号化バージョンのうちの１つであり得る。表現は、符号化タイプ、例えば、ビデオデータのビットレート、解像度、及び／又はコーデック、及びオーディオデータのビットレート、言語、及び／又はコーデックによって異なってもよい。表現という用語は、マルチメディアコンテンツの特定の期間に対応し、特定の方式で符号化された、符号化されたオーディオ又はビデオデータのセクションを指すために使用され得る。
特定の期間の表現は、その表現が属するアダプテーションセットを示すＭＰＤにおける属性によって示されるグループに割り当てられ得る。同じアダプテーションセット内の表現は、クライアントデバイスがこれらの表現を、動的かつシームレスに切り替えて、例えば、帯域幅アダプテーションを実行できるという点で、一般に、互いの代替と見なされる。例えば、特定の期間のビデオデータの各表現は、同じアダプテーションセットに割り当てられ得るが、対応する期間のマルチメディアコンテンツのビデオデータ又はオーディオデータなどのメディアデータを提示するように、いずれかの表現が復号化用に選択され得る。１つの期間内のメディアコンテンツは、いくつかの例では、グループ０（存在する場合）からの１つの表現、又は、各非ゼログループからの最大１つの表現の組み合わせのいずれかによって表現され得る。期間の各表現のタイミングデータは、期間の開始時刻に対して相対的に表され得る。
表現には、１つ又は複数のセグメントが含まれ得る。各表現には、初期化セグメントが含まれ、表現の各セグメントは、自己初期化であり得る。存在する場合、初期化セグメントは、その表現にアクセスするための初期化情報が含まれ得る。一般に、初期化セグメントには、メディアデータが含まれない。セグメントは、ユニフォームリソースロケーター（ＵＲＬ）、ユニフォームリソース名（ＵＲＮ）、又はユニフォームリソース識別子（ＵＲＩ）などの識別子によって、一意的に参照され得る。ＭＰＤは、各セグメントに識別子を提供し得る。いくつかの例では、ＭＰＤは、ＵＲＬ、ＵＲＮ、又はＵＲＩによってアクセス可能なファイル内のセグメントのデータに対応し得るバイト範囲を範囲属性の形式で提供してもよい。
異なるタイプのメディアデータを実質的に同時に検索するために、異なる表現が選択され得る。例えば、クライアントデバイスは、セグメントを検索するためのオーディオ表現、ビデオ表現、及びタイムドテキスト表現を選択し得る。いくつかの例では、クライアントデバイスは、帯域幅適応を実行するための特定の適応セットを選択し得る。即ち、クライアントデバイスは、ビデオ表現を含むアダプテーションセット、オーディオ表現を含むアダプテーションセット、及び／又は、タイムドテキストを含むアダプテーションセットを選択し得る。代替形態として、クライアントデバイスは、特定の種類のメディア（例えば、ビデオ）のアダプテーションセットを選択し、他の種類のメディア（例えば、オーディオ及び／又はタイムドテキスト）の表現を直接的に選択し得る。
一般的なＤＡＳＨストリーミング手順を次のステップで示す。
１）クライアントは、ＭＰＤを取得する。
２）クライアントは、ダウンリンク帯域幅を推定し、推定されたダウンリンク帯域幅及びコーデック、復号能力、表示サイズ、音声言語設定に従って、ビデオ表現及びオーディオ表現を選択する。
３）メディア・プレゼンテーションの終了に達していない限り、クライアントは、選択された表現のメディアセグメントを要求し、ストリーミングコンテンツをユーザへ提示する。
４）クライアントは、ダウンリンク帯域幅を推定し続ける。帯域幅がある方向に著しく変化した場合（例えば、低くなった場合）、クライアントは、新たに推定された帯域幅に合致する別のビデオ表現を選択し、ステップ３に進む。
２．４拡張依存ランダム・アクセスポイント（ＥＤＲＡＰ）ベースのビデオコーディング及びストリーミング
付加拡張情報（ＳＥＩ）メッセージを使用するＥＤＲＡＰピクチャのシグナリングは、ＪＶＥＴ－Ｕ００８４の提案で提案され、２０２１年１月の第２１回ＪＶＥＴ会議でＶＳＥＩ仕様に採用されました。２０２１年１月の第１３３回のＭＰＥＧ会議で、ＥＤＲＡＰサンプルグループは、入力文書ｍ５６０２０内の提案に基づいて合意された。ＥＤＲＡＰベースのビデオストリーミングをサポートするために、２０２１年４月の第１３４回のＭＰＥＧ会議で、ＭＰＥＧ入力文書ｍ５６６７５は、ＩＳＯＢＭＦＦの外部ストリームトラック（ＥＳＴ）の設計を提案した。
「ＷＤｏｆＩＳＯ／ＩＥＣ２３００９－１５ｔｈｅｄｉｔｉｏｎＡＭＤ２ＥＤＲＡＰストリームｉｎｇａｎｄｏｔｈｅｒｅｘｔｅｎｓｉｏｎｓ」というタイトルのＭＰＥＧ出力文書ＭＤＳ２１０３０＿ＷＧ０３＿Ｎ０４２５は、ＤＡＳＨにおけるＥＤＲＡＰベースのストリーミングをサポートするためのメインストリーム表現（ＭＳＲ）及び外部ストリーム表現（ＥＳＲ）の記述子の設計を含む。

図４及び図５は、ランダム・アクセスポイント（ＲＡＰ）の従来のコンセプトを示す図である。アプリケーション（例えば、適応型ストリーミング）は、ランダム・アクセスポイント（ＲＡＰ）の周波数を決定し、例えば、ＲＡＰの周期は１ｓ又は２ｓである。従来、ＲＡＰは、図４に示されるように、ＩＲＡＰピクチャのコーディングによって提供される。ＲＡＰピクチャ間の非キーピクチャ（ｎｏｎ－ｋｅｙｐｉｃｔｕｒｅ）のインター予測参照は示されておらず、左から右への出力順であることに注意すべきである。ＣＲＡ６からランダム・アクセスする際に、図５に示されるように、デコーダは、ピクチャを受信して正しく復号する。
図６及び図７は、依存ランダム・アクセスポイント（ＤＲＡＰ）のコンセプトを示す図である。ＤＲＡＰアプローチは、図６に示されるように、ＤＲＡＰピクチャ（及び後続のピクチャ）がインター予測のためにその前のＩＲＡＰピクチャを参照することを可能にすることで、コーディング効率を向上させる。ＲＡＰピクチャ間の非キーピクチャのインター予測は示されておらず、左から右への出力順であることに注意すべきである。ＤＲＡＰ６からランダム・アクセスする際に、図７に示されるように、デコーダは、ピクチャを受信して正しく復号する。
図８及び図９は、拡張依存ランダム・アクセスポイント（ＥＤＲＡＰ）のコンセプトを示す図である。ＥＤＲＡＰアプローチは、例えば図８に示されるように、ＥＤＲＡＰピクチャ（及び後続のピクチャ）が以前のいくつかのＲＡＰピクチャ（ＩＲＡＰ又はＥＤＲＡＰ）のいくつかを参照することを可能にすることで、もう少し柔軟性を提供する。ＲＡＰピクチャ間の非キーピクチャのインター予測は示されておらず、左から右への出力順であることに注意すべきである。ＥＤＲＡＰ６からランダム・アクセスする際に、図９に示されるように、デコーダは、ピクチャを受信して正しく復号する。
図１０及び１１は、ＥＤＲＡＰベースのビデオストリーミングを示す図である。ＥＤＲＡＰ６から始まるセグメントからランダム・アクセスする際に、又は、当該セグメントへ切り替えられる際に、図１１に示されるように、デコーダは、セグメントを受信して復号する。

ＭＰＥＧ出力文書ＭＤＳ２１０３０＿ＷＧ０３＿Ｎ０４２５内の設計文書は、以下に示す。
２．４．１定義
・拡張依存ランダム・アクセスポイント（ＥＤＲＡＰ）ピクチャ
ＩＳＯＢＭＦＦトラック内のＥＤＲＡＰ又はＤＲＡＰサンプルグループのメンバーであるサンプル内のピクチャ
・外部エレメンタリストリーム
外部ピクチャを持つアクセスユニットを含むエレメンタリストリーム
・外部ピクチャ
ＥＳＲ内の外部エレメンタリストリーム内のピクチャであって、ＭＳＲ内のあるＥＤＲＡＰからランダム・アクセスする際にＭＳＲ内のエレメンタリストリームの復号中にインター予測に必要なピクチャ
・外部ストリーム表現（ＥＳＲ）
外部エレメンタリストリームを含む表現
・メインストリーム表現（ＭＳＲ）
ビデオエレメンタリストリームを含む表現
２．４．２ＭＳＲ及びＥＳＲ記述子
アダプテーションセットは、＠ｓｃｈｅｍｅＩｄＵｒｉがｕｒｎ：ｍｐｅｇ：ｄａｓｈ：ｍｓｒ：２０２１に等しいＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙ記述子を含み得る。当該記述子は、ＭＳＲ記述子と呼ばれる。ＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙの存在は、当該アダプテーションセット内の各表現がＭＳＲであることを示す。
以下はＭＳＲに適用される：
－時間同期されたサンプルが、関連するＥＳＲ内で運ばれるトラック内に存在する場合にクライアントに利用可能であれば、アダプテーションセット内のＭＳＲ表現における各ＳＡＰは、表現内のコンテンツへのアクセスに使用されることができる。
－ＭＳＲ内の各ＥＤＲＡＰピクチャは、セグメント内の最初のピクチャであるべきである（即ち、各ＥＤＲＡＰピクチャは、セグメントを開始すべきである）。
アダプテーションセットは、＠ｓｃｈｅｍｅＩｄＵｒｉがＵｒｎ：ｍｐｅｇ：ｄａｓｈ：ｅｓｒ：２０２１に等しいＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙ記述子を含み得る。当該記述子は、ＥＳＲ記述子と呼ばれる。ＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙの存在は、当該アダプテーションセット内の各表現がＥＳＲであることを示す。ＥＳＲは、他のビデオ表現なしにそれ自身で消費又は再生されるべきではない。
各ＭＳＲは、以下のように、ＭＳＲ内の（既存の）表現レベル属性＠ａｓｓｏｃｉａｔｉｏｎＩｄ及び＠ａｓｓｏｃｉａｔｉｏｎＴｙｐｅを通じてＭＳＲに関連付けられる：関連するＥＳＲの＠ｉｄは、属性＠ａｓｓｏｃｉａｔｉｏｎＩｄに含まれる値によって参照されるべきであり、属性＠ａｓｓｏｃｉａｔｉｏｎＴｙｐｅ内の対応する値は「ａｅｓｔ」に等しい。
オプションとして、ＭＳＲ内の表現属性＠ａｓｓｏｃｉａｔｉｏｎＩｄ及び＠ａｓｓｏｃｉａｔｉｏｎＴｙｐｅを通じてお互いに関連付けられたＭＳＲ及びＥＳＲには、以下の制約が適用される：
－ＭＳＲ内の、ＥＤＲＡＰピクチャで始まるセグメントごとに、ＥＳＲ内には、ＭＳＲ内のセグメントと同じセグメント開始時間（ＭＰＤから導出されたもの）を持つセグメントが存在すべきであり、ここで、ＥＳＲ内のセグメントは、ＭＳＲ内で運ばれるビットストリーム内の復号順での当該ＥＤＲＡＰピクチャ及び後続のピクチャを復号することに必要な外部ピクチャを運ぶ。
－ＭＳＲ内の、ＥＤＲＡＰピクチャで始まるのではないセグメントごとに、ＥＳＲ内には、ＭＳＲ内のセグメントと同じセグメント開始時間（ＭＰＤから導出されたもの）をもつセグメントが存在すべきではない。
３．問題点
ＭＰＥＧ出力文書ＭＤＳ２１０３０＿ＷＧ０３＿Ｎ０４２５の設計は、以下のような問題がある：
１）メインストリーム表現（ＭＳＲ）が関連する外部ストリーム表現（ＥＳＲ）を持たないことは許可される。
２）ＥＤＲＡＰピクチャという用語は、「ＩＳＯＢＭＦＦトラック内のＥＤＲＡＰ又はＤＲＡＰサンプルグループのメンバーであるサンプル内のピクチャ」として定義される。しかしながら、当該定義はＩＳＯＢＭＦＦに基づくものではない表現に適用されることができず、そして、当該定義はビデオ以外の他の種類のメディアに適用されることもできない。
３）ＭＳＲ内のＥＤＲＡＰサンプルからランダム・アクセスすることで得られたビットストリームが適合なビットストリームであることを要求する制約はない。
４．詳細な解決方案
上記の問題を解決するために、以下のように要約される方法を開示する。解決方案は、一般的な概念を説明するための例として考慮されるべきであり、狭く解釈されるべきではない。さらに、これらの解決方案は、任意の態様で組み合わせて適用することもできる。
１）１つ目の問題を解消するために、メインストリーム表現（ＭＳＲ）が関連する外部ストリーム表現（ＥＳＲ）を持つべきであると指定される。
２）２つ目の問題を解消するために、以下の項目の１つ又は複数が指定される：
ａ．ＥＳＲ内の、特定のプレゼンテーション時間を持つメディア・サンプルごとに、ＭＳＲ内には、同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在すべきである。
ｂ．ＭＳＲ内の、対応するＥＳＲメディア・サンプルを持つ各メディア・サンプルは、ＥＤＲＡＰサンプルと呼ばれる。
ｃ．ＭＳＲ内の各ＥＤＲＡＰサンプルの最初のバイト位置は、ＳＡＰのＩ_ＳＡＵであり、これは、対応するＥＳＲメディア・サンプルがＭＳＲ内のＥＤＲＡＰサンプル及び後続のサンプルの直前にメディアデコーダへ提供されれば、ＭＳＲ内のメディアストリームを再生可能にする。
３）３つ目の問題を解決するために、以下のことは指定される：ＥＳＲ内の任意のセグメントとＭＳＲ内の対応するセグメント及びすべての後続のセグメントとの連結は、適合なビットストリームを生成すべきである。
５．実施形態
以下は、セクション４で上記に要約されたすべての解決方案の項目及びその下位項目のためのいくつかの例示的な実施形態である。これらの実施形態はＤＡＳＨに適用されることができる。変更点について、条項２．４の設計のテキストに関連してマーキングされる。以下では、追加又は変更された最も関連性の高い部分には下線が付けられており、削除された部分の一部は二重括弧［［］］で示される。他に編集上の性質のため強調されていない変更点がいくつかあることもある。

［［定義
・拡張依存ランダム・アクセスポイント（ＥＤＲＡＰ）ピクチャ
ＩＳＯＢＭＦＦトラック内のＥＤＲＡＰ又はＤＲＡＰサンプルグループのメンバーであるサンプル内のピクチャ
・外部エレメンタリストリーム
外部ピクチャを持つアクセスユニットを含むエレメンタリストリーム
・外部ピクチャ
ＥＳＲ内の外部エレメンタリストリーム内のピクチャであって、ＭＳＲ内のあるＥＤＲＡＰからランダム・アクセスする際にＭＳＲ内のエレメンタリストリームの復号中にインター予測に必要なピクチャ
・外部ストリーム表現（ＥＳＲ）
外部エレメンタリストリームを含む表現
・メインストリーム表現（ＭＳＲ）
ビデオエレメンタリストリームを含む表現］］
５．１．１ＭＳＲ及びＥＳＲ記述子
５．８．５．１５．１概要
アダプテーションセット＠ｓｃｈｅｍｅＩｄＵｒｉがｕｒｎ：ｍｐｅｇ：ｄａｓｈ：ｍｓｒ：２０２１に等しいＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙ記述子を含み得る。当該記述子は、ＭＳＲ記述子と呼ばれる。アダプテーションセット内にＭＳＲ記述子が存在することは、アダプテーションセット内の各表現がＭＳＲであることを示す。
アダプテーションセットは、＠ｓｃｈｅｍｅＩｄＵｒｉがＵｒｎ：ｍｐｅｇ：ｄａｓｈ：ｅｓｒ：２０２１に等しいＥｓｓｅｎｔｉａｌＰｒｏｐｅｒｔｙ記述子を含み得る。当該記述子は、ＥＳＲ記述子と呼ばれる。アダプテーションセット内にＥＳＲ記述子が存在することは、アダプテーションセット内の各表現がＥＳＲであることを示す。ＥＳＲは、それに関連するＭＳＲとともにのみ消費又は再生されるべきである。
各ＥＳＲは、以下のように、ＭＳＲ内の表現レベル属性＠ａｓｓｏｃｉａｔｉｏｎＩｄ及び＠ａｓｓｏｃｉａｔｉｏｎＴｙｐｅを通じてＭＳＲに関連付けられ：関連するＥＳＲの＠ｉｄは属性＠ａｓｓｏｃｉａｔｉｏｎＩｄに含まれる値によって参照されるべきであり、属性＠ａｓｓｏｃｉａｔｉｏｎＴｙｐｅ内の対応する値は「ａｅｓｔ」に等しい。各ＭＳＲは、関連するＥＳＲを持つべきである。
お互いに関連付けられるＭＳＲ及びＥＳＲについて、以下は適用される：
－ＥＳＲ内の、特定のプレゼンテーション時間を持つメディア・サンプルごとに、ＭＳＲ内には、同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在すべきである。
－ＭＳＲ内の、対応するＥＳＲメディア・サンプルを持つ各メディア・サンプルは、ＥＤＲＡＰサンプルと呼ばれる
－ＭＳＲ内の各ＥＤＲＡＰサンプルの最初のバイト位置は、ＳＡＰのＩ_ＳＡＵであり、これは、対応するＥＳＲメディア・サンプルがＭＳＲ内のＥＤＲＡＰサンプル及び後続のサンプルの直前にメディアデコーダへ提供されれば、ＭＳＲ内のメディアストリームを再生可能にする。
－ＭＳＲ内の各ＥＤＲＡＰサンプルは、セグメント内の最初のサンプルのべきである（即ち、各ＥＤＲＡＰサンプルは、セグメントを開始すべきである）。
－ＭＳＲ内の、ＥＤＲＡＰサンプルで始まるセグメントごとに、ＥＳＲ内には、ＭＳＲセグメントと同じセグメント開始時間を持つセグメントが存在すべきである。
－ＥＳＲ内の任意のセグメントとＭＳＲ内の対応するセグメント及びすべての後続のセグメントとの連結は、適合なビットストリームを生成すべきである。
－ＭＳＲ内の、ＥＤＲＡＰピクチャで始まるのではないセグメントごとに、ＥＳＲ内には、ＭＳＲセグメントと同じセグメント開始時間を持つ対応するセグメントが存在すべきではない。
５．８．５．１５．２例示的なコンテンツの準備及びクライアントの操作
以下は、ＭＳＲ及びそれらに関連するＥＳＲに基づく例示的なコンテンツの準備及びクライアントの操作である。
コンテンツの準備操作例は以下のとおりである：
１）ビデオコンテンツは１つ又は複数の表現に符号化され、各表現は、特定の空間解像度、時間解像度、及び品質を有する。
２）ビデオコンテンツの各表現は、お互いに関連付けられたＭＳＲ及びＥＳＲのペアによって表現される。
３）ビデオコンテンツのＭＳＲは、１つのアダプテーションセットに含まれる。ビデオコンテンツのＥＳＲは、もう１つのアダプテーションセットに含まれる。
クライアントの操作例は以下のとおりである：
１）クライアントは、メディア・プレゼンテーションのＭＰＤを取得し、ＭＰＤを解析し、ＭＳＲを選択し、そして、開始プレゼンテーション時間を決定し、当該開始プレゼンテーション時間からコンテンツが消費される。
２）クライアントは、決定された開始プレゼンテーション時間と等しい（又は十分に近い）プレゼンテーション時間を持つサンプルを含むセグメントから、ＭＳＲのセグメントを要求し始める。
ａ．始めのセグメントの最初のサンプルがＥＤＲＡＰサンプルである場合に、関連するＥＳＲ内の（同じセグメント開始時間を持つ）対応するセグメントも、なるべくＭＳＲセグメントの要求の前に要求される。それ以外の場合に、関連するＥＳＲのセグメントは要求されない。
３）別のＭＳＲに切り替えられた場合に、クライアントは、切替元のＭＳＲの最後に要求されたセグメントのセグメント開始時間よりも長いセグメント開始時間を持つ最初のセグメントから、切替先のＭＳＲのセグメントを要求し始める。
ａ．切替先のＭＳＲ内の始めのセグメントの最初のサンプルがＥＤＲＡＰサンプルである場合に、関連するＥＳＲ内の対応するセグメントも、なるべくＭＳＲセグメントの要求の前に要求される。それ以外の場合に、関連するＥＳＲのセグメントは要求されない。
４）同じＭＳＲで動作し続ける場合（シーク又はストリーム切替操作の後に始めのセグメントを復号した後）に、ＥＤＲＡＰサンプルで始まる任意の後続のセグメントを要求する場合を含め、関連するＥＳＲのセグメントを要求する必要がない。

【0072】

本開示の実施形態は、ＭＳＲ及びＥＳＲに基づくストリーミングのための改良設計に関する。本明細書で使用される「メディア」という用語は、オーディオ、ビデオなどを含み得る。

【0073】

図１２は、本開示のいくつかの実施形態に係るメディア処理方法１２００のフローチャートを示す。当該方法１２００はクライアント又はサーバで実施され得る。本明細書で使用される「クライアント」という用語は、コンピュータネットワークのクライアントサーバモデルの一部としてサーバによって利用可能であるサービスにアクセスするコンピューターハードウェア又はソフトウェアを指し得る。一例として、クライアントは、スマートフォン又はタブレットであり得る。本明細書で使用される「サーバ」という用語は、コンピューティング可能なデバイスを指す場合があり、この場合、クライアントはネットワークを介してサービスにアクセスする。サーバは、物理コンピューティングデバイス又は仮想コンピューティングデバイスであり得る。

【0074】

図１２に示されるように、１２０２で、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換は実行される。メディア・ファイルは、ＩＳＯＢＭＦＦなどのファイルなどのファイルフォーマットのコンテキスト内でメディアコンテンツの制限付き又は制限なしのプレゼンテーションを確立するデータのコレクションである。メディア・プレゼンテーションは、ＤＡＳＨなどのストリーミングフォーマットのコンテキスト内でメディアコンテンツの制限付き又は制限なしのプレゼンテーションを確立するデータのコレクションである。メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応する。ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、ＭＳＲ内の対応するメディア・サンプルのプレゼンテーション時間と同じである。言い換えれば、ＥＳＲ内の、プレゼンテーション時間を持つメディア・サンプルごとに、ＭＳＲ内には同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在すべきである。図１０を参照すると、ＥＳＲ１０１０内の各メディア・サンプルは、ＭＳＲ１０２０内のメディア・サンプルに対応する。例えば、ＥＳＲ１０１０内のメディア・サンプル１０１５－１は、ＭＳＲ１０２０内のメディア・サンプル１０２５－１に対応し、ＥＳＲ１０１０内のメディア・サンプル１０１５－２は、ＭＳＲ１０２０内のメディア・サンプル１０２５－２に対応する。一例では、メディア・サンプルは、オーディオサンプルであり得る。代替的な例では、メディア・サンプルは、ビデオサンプルであり得る。上記の例は、単に説明を目的として記載されたものであることを理解すべきである。本開示の範囲は、これに限定されない。

【0075】

上記を考慮すると、メディア・サンプルは、オーディオサンプル、ビデオサンプルなどであってもよい。ＥＤＲＡＰピクチャという用語がビデオにのみ適用される従来の方案と比べて、提案した方法は、ビデオ以外の他の種類のメディアにも適用できるという利点があるため、ＥＤＲＡＰベースの技術をより柔軟にする。さらに、ＥＳＲ内の、プレゼンテーション時間を持つメディア・サンプルごとに、ＭＳＲ内には同じプレゼンテーション時間を持つ対応するメディア・サンプルが存在する。これにより、提案した方法は、ＥＤＲＡＰベースの技術をより効率的にサポートすることができるという利点がある。

【0076】

いくつかの実施形態では、ＭＳＲ内のメディア・サンプルは、ＥＤＲＡＰサンプルであり得る。さらに、対応するＥＳＲメディア・サンプルを持つＭＳＲ内の各メディア・サンプルは、ＥＤＲＡＰサンプルと呼ばれる場合がある。

【0077】

いくつかの実施形態では、ＥＤＲＡＰサンプルは、ストリーム・アクセスポイント（ＳＡＰ）の開始アクセスユニット（ＳＡＵ）の指示を含み得る。一例では、ＥＤＲＡＰサンプル内の最初の位置でのバイトは、ＳＡＵのインデックスを表し得る。ＳＡＵのインデックスは、例えばＥＤＲＡＰサンプル内の別の位置でのバイトを通じて他の適切な方法で表されてもよい。さらに、ＭＳＲ内のメディアストリームの再生の場合、ＥＤＲＡＰサンプルは、ＥＤＲＡＰサンプルに対応するＥＳＲ内のメディア・サンプルがメディアデコーダへ提供された後、メディアデコーダへ提供され得る。

【0078】

いくつかの代替又は追加的な実施形態では、ＥＤＲＡＰサンプルは、ＭＳＲ内の第１セグメントの最初の位置にあり得る。さらに、第１セグメントは、ＥＳＲ内の第２セグメントに関連付けられ得る。第１セグメントのセグメント開始時間は、第２セグメントのセグメント開始時間と同じである。いくつかの実施形態では、メディア・プレゼンテーションは、メディア・プレゼンテーション記述（ＭＰＤ）を含み得る。

【0079】

本開示の実施形態によれば、非一時的なコンピュータ可読記録媒体を提案する。メディアのメディア・ファイルは非一時的なコンピュータ可読記録媒体内に記憶される。メディアのメディア・ファイルは、メディア処理装置によって実行される方法で生成されることができる。当該方法によれば、メディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換は実行される。メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応する。ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、ＭＳＲ内の対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0080】

本開示の実施形態によれば、メディアのメディア・プレゼンテーションを記憶する方法を提案する。当該方法では、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換は実行され、メディア・ファイルは、非一時的なコンピュータ可読記録媒体内に記憶される。メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応する。ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、ＭＳＲ内の対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0081】

本開示の実施形態によれば、非一時的なコンピュータ可読記録媒体を提案する。メディアのメディア・プレゼンテーションは、非一時的なコンピュータ可読記録媒体内に記憶される。メディアのメディア・プレゼンテーションは、メディア処理装置によって実行される方法で生成されることができる。当該方法によれば、メディアのメディア・ファイルとメディア・プレゼンテーションとの間の変換は実行される。メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応する。ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、ＭＳＲ内の対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0082】

本開示の実施形態によれば、メディアのメディア・プレゼンテーションを記憶する方法を提案する。当該方法では、メディアのメディア・ファイルとメディアのメディア・プレゼンテーションとの間の変換は実行され、メディア・プレゼンテーションは、非一時的なコンピュータ可読記録媒体内に記憶される。メディア・プレゼンテーション内のＥＳＲ内の各メディア・サンプルは、メディア・プレゼンテーション内のＭＳＲ内のメディア・サンプルに対応する。ＥＳＲ内のメディア・サンプルのプレゼンテーション時間は、ＭＳＲ内の対応するメディア・サンプルのプレゼンテーション時間と同じである。

【0083】

本開示の実施形態は、以下の条項を考慮して説明することができ、その特徴は任意の合理的な態様で組み合わせることができる。

【0084】

条項１．メディア処理方法であって、メディアのメディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。

【0085】

条項２．前記ＭＳＲ内の前記メディア・サンプルは、拡張依存ランダム・アクセスポイント（ＥＤＲＡＰ）サンプルである、条項１に記載の方法。

【0086】

条項３．前記ＥＤＲＡＰサンプルは、ストリーム・アクセスポイント（ＳＡＰ）の開始アクセスユニット（ＳＡＵ）の指示を含む、条項２に記載の方法。

【0087】

条項４．前記ＥＤＲＡＰサンプル内の最初の位置でのバイトは、前記ＳＡＵのインデックスを表す、条項３に記載の方法。

【0088】

条項５．前記ＥＤＲＡＰサンプルは、前記ＥＤＲＡＰサンプルに対応する前記ＥＳＲ内のメディア・サンプルがメディアデコーダへ提供された後、前記メディアデコーダへ提供される、条項３又は４に記載の方法。

【0089】

条項６．前記ＥＤＲＡＰサンプルは、前記ＭＳＲ内の第１セグメントの最初の位置にある、条項２～５のいずれか１項に記載の方法。

【0090】

条項７．前記第１セグメントは、前記ＥＳＲ内の第２セグメントに関連付けられ、前記第１セグメントのセグメント開始時間は、前記第２セグメントのセグメント開始時間と同じである、条項６に記載の方法。

【0091】

条項８．前記メディア・プレゼンテーションは、メディア・プレゼンテーション記述（ＭＰＤ）を含む、条項１～７のいずれか１項に記載の方法。

【0092】

条項９．前記変換は、前記メディア・ファイルを前記メディア・プレゼンテーション内にパックするステップを含む、条項１～８のいずれか１項に記載の方法。

【0093】

条項１０．前記変換は、前記メディア・プレゼンテーションから前記メディア・ファイルをアンパックするステップを含む、条項１～８のいずれか１項に記載の方法。

【0094】

条項１１．プロセッサと命令を備える非一時的なメモリとを含む、メディアデータを処理する装置であって、前記命令は、前記プロセッサによって実行されると、前記プロセッサに条項１～１０のいずれか１項に記載の方法を実行させる、装置。

【0095】

条項１２．プロセッサに条項１～１０に記載の方法を実行させる命令を記憶する、非一時的なコンピュータ可読記憶媒体。

【0096】

条項１３．メディア処理装置によって実行される方法で生成される、メディアのメディア・ファイルを記憶する非一時的なコンピュータ可読記録媒体であって、前記方法は、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、非一時的なコンピュータ可読記録媒体。

【0097】

条項１４．メディアのメディア・ファイルを記憶する方法であって、前記メディア・ファイルと前記メディアのメディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・ファイルを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。

【0098】

条項１５．メディア処理装置によって実行される方法で生成される、メディアのメディア・プレゼンテーションを記憶する非一時的なコンピュータ可読記録媒体であって、前記方法は、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップを含み、前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、非一時的なコンピュータ可読記録媒体。

【0099】

条項１６．メディアのメディア・プレゼンテーションを記憶する方法であって、前記メディアのメディア・ファイルと前記メディア・プレゼンテーションとの間の変換を実行するステップと、前記メディア・プレゼンテーションを非一時的なコンピュータ可読記録媒体内に記憶するステップと、を含み、前記メディア・プレゼンテーション内の外部ストリーム表現（ＥＳＲ）内の各メディア・サンプルは、前記メディア・プレゼンテーション内のメインストリーム表現（ＭＳＲ）内のメディア・サンプルに対応し、前記ＥＳＲ内の前記メディア・サンプルのプレゼンテーション時間は、前記ＭＳＲ内の前記対応するメディア・サンプルのプレゼンテーション時間と同じである、方法。
例示的なデバイス

【0100】

図１３は、本開示の様々な実施形態を実施できるコンピューティングデバイス１３００のブロック図を示す。コンピューティングデバイス１３００は、ソースデバイス１１０（或いは、ビデオエンコーダ１１４又は２００）又は宛先デバイス１２０（或いは、ビデオデコーダ１２４又は３００）として実施されるか、又は、それに含まれ得る。

【0101】

図１３に示されるコンピューティングデバイス１３００は、単に説明を目的としたものであり、本開示の実施形態の機能及び範囲をいかなる形でも制限することを示唆するものではないことが理解されるだろう。

【0102】

図１３に示すように、コンピューティングデバイス１３００は、汎用コンピューティングデバイス１３００を含む。コンピューティングデバイス１３００は、少なくとも１つ又は複数のプロセッサ又は処理ユニット１３１０と、メモリ１３２０と、記憶ユニット１３３０と、１つ又は複数の通信ユニット１３４０と、１つ又は複数の入力デバイス１３５０と、１つ又は複数の出力デバイス１３６０と、を含み得る。

【0103】

いくつかの実施形態では、コンピューティングデバイス１３００は、コンピューティング能力を有する任意のユーザ端末又はサーバ端末として実施され得る。前記サーバ端末は、サービスプロバイダが提供するサーバや大規模コンピューティングデバイスなどであり得る。前記ユーザ端末は、例えば、携帯電話、ステーション、ユニット、デバイス、マルチメディアコンピュータ、マルチメディアタブレット、インターネットノード、コミュニケータ、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、パーソナルコミュニケーションシステム（ＰＣＳ）デバイス、パーソナルナビゲーションデバイス、携帯情報端末（ＰＤＡ）、オーディオ／ビデオプレーヤー、デジタルカメラ／ビデオカメラ、測位デバイス、テレビ受信機、ラジオ放送受信機、電子ブックデバイス、ゲームデバイス、又は、それらの任意の組み合わせ（これらのデバイスのアクセサリ及び周辺機器、又は、それらの任意の組み合わせを含む）を含む、任意のタイプの移動端末、固定端末、又は、携帯端末であり得る。コンピューティングデバイス１３００は、ユーザに対する任意のタイプのインターフェース（「ウェアラブル」回路など）をサポートすることができることが考えられる。

【0104】

処理ユニット１３１０は、物理又は仮想プロセッサであり、メモリ１３２０に格納されたプログラムに基づいて様々なプロセスを実施し得る。マルチプロセッサシステムでは、コンピューティングデバイス１３００の並列処理能力を向上させるために、複数の処理ユニットが、コンピュータ実行可能命令を並列に実行する。処理ユニット１３１０は、中央処理ユニット（ＣＰＵ）、マイクロプロセッサ、コントローラ、又はマイクロコントローラと呼ばれ得る。

【0105】

コンピューティングデバイス１３００は、通常、様々なコンピュータ記憶媒体を含む。このような媒体は、揮発性及び不揮発性媒体、又は、取り外し可能及び取り外し不可能な媒体を含むが、これらに限定されない、コンピューティングデバイス１３００によってアクセス可能な任意の媒体であり得る。メモリ１３２０は、揮発性メモリ（例えば、レジスタ、キャッシュ、ランダム・アクセスメモリ（ＲＡＭ））、不揮発性メモリ（例えば、読み取り専用メモリ（ＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ）、又は、それらの任意の組み合わせであり得る。記憶ユニット１３３０は、任意の取り外し可能又は取り外し不可能な媒体であり、情報及び／又はデータを記憶するために使用でき、コンピューティングデバイス１３００でアクセスできる、メモリ、フラッシュメモリドライブ、磁気ディスク、又は別の他の媒体などの機械可読媒体を含み得る。

【0106】

コンピューティングデバイス１３００は、追加の取り外し可能／取り外し不可能、揮発性／不揮発性メモリ媒体をさらに含み得る。なお、図１３には示していないが、着脱可能な不揮発性磁気ディスクの読み書きを行う磁気ディスクドライブや、着脱可能な不揮発性光ディスクの読み書きを行う光ディスクドライブを提供することが可能である。このような場合、各ドライブは、１つ又は複数のデータ媒体インターフェースを介して、バス（図示せず）に接続され得る。

【0107】

通信ユニット１３４０は、通信媒体を介して、さらなるコンピューティングデバイスと通信する。さらに、コンピューティングデバイス１３００内のコンポーネントの機能は、通信接続を介して通信できる単一のコンピューティングクラスタ又は複数のコンピューティングマシンによって実施することができる。したがって、コンピューティングデバイス１３００は、１つ又は複数の他のサーバ、ネットワーク化されたパーソナルコンピュータ（ＰＣ）、又は、さらなる一般的なネットワークノードとの論理接続を使用して、ネットワーク化された環境で動作することができる。

【0108】

入力デバイス１３５０は、マウス、キーボード、トラッキングボール、音声入力デバイスなどの様々な入力デバイスのうちの１つ又は複数であり得る。出力デバイス１３６０は、ディスプレイ、スピーカ、プリンタなどの様々な出力デバイスのうちの１つ又は複数であり得る。通信ユニット１３４０によって、コンピューティングデバイス１３００は、記憶デバイス及び表示デバイスなどの１つ又は複数の外部デバイス（図示せず）とさらに通信することができ、１つ又は複数のデバイスにより、ユーザがコンピューティングデバイス１３００と対話可能にするか、又は、必要に応じて、任意のデバイス（ネットワークカード、モデムなど）により、コンピューティングデバイス１３００が１つ又は複数の他のコンピューティングデバイスと通信可能にする。このような通信は、入出力（Ｉ／Ｏ）インターフェース（図示せず）を介して、実行できる。

【0109】

いくつかの実施形態では、単一のデバイスに統合される代わりに、コンピューティングデバイス１３００のいくつかの又はすべてのコンポーネントが、クラウドコンピューティングアーキテクチャに配置され得る。クラウドコンピューティングアーキテクチャでは、コンポーネントは遠隔的に提供され、連携して本開示で説明される機能を実施し得る。いくつかの実施形態では、クラウドコンピューティングは、コンピューティング、ソフトウェア、データアクセス及びストレージサービスを提供し、これらのサービスを提供するシステム又はハードウェアの物理的な位置又は構成をエンドユーザが認識する必要はない。様々な実施形態において、クラウドコンピューティングは、適切なプロトコルを使用して、広域ネットワーク（インターネットなど）を介して、サービスを提供する。例えば、クラウドコンピューティングプロバイダーは、Ｗｅｂブラウザ又はその他のコンピューティングコンポーネントを通じてアクセスできる、広域ネットワーク経由でアプリケーションを提供する。クラウドコンピューティングアーキテクチャのソフトウェア又はコンポーネント及び対応するデータは、遠隔地にあるサーバに保存され得る。クラウドコンピューティング環境におけるコンピューティングリソースは、リモートデータセンターの場所に併合又は分散され得る。クラウドコンピューティングインフラストラクチャは、ユーザにとって単一のアクセスポイントとして動作するが、共有データセンターを通じて、サービスを提供し得る。したがって、クラウドコンピューティングアーキテクチャを使用して、本明細書で説明されるコンポーネント及び機能を、遠隔地にあるサービスプロバイダから提供し得る。代替形態として、それらは、従来のサーバから提供されるか、又は、クライアントデバイスに直接又はその他の方法でインストールされ得る。

【0110】

コンピューティングデバイス１３００は、本開示の実施形態において、ビデオコーディング／復号化を実施するために使用され得る。メモリ１３２０は、１つ又は複数のプログラム命令を有する１つ又は複数のビデオコーディングモジュール１３２５を含み得る。これらのモジュールは、本明細書で説明される様々な実施形態の機能を実行するように、処理ユニット１３１０によって、アクセス可能かつ実行可能である。

【0111】

ビデオコーディングを実行する例示的な実施形態では、入力デバイス１３５０は、符号化されるビデオデータを、入力１３７０として受信し得る。ビデオデータは、例えば、ビデオコーディングモジュール１３２５によって処理されて、符号化されたビットストリームを生成し得る。符号化されたビットストリームは、出力デバイス１３６０を介して、出力１３８０として提供され得る。

【0112】

ビデオ復号を実行する例示的な実施形態では、入力デバイス１３５０は、符号化されたビットストリームを、入力１３７０として受信し得る。符号化されたビットストリームは、例えば、ビデオコーディングモジュール１３２５によって処理されて、復号されたビデオデータを生成し得る。復号されたビデオデータは、出力デバイス１３６０を介して、出力１３８０として提供され得る。

【0113】

本開示は、その好ましい実施形態を参照して、特に、図示及び説明されたが、添付の特許請求の範囲によって定義される本出願の精神及び範囲から逸脱することなく、形態及び詳細における様々な変更を行うことができることが当業者には理解されるであろう。このような変形は、本出願の範囲に含まれるものとする。したがって、本出願の実施形態に関する前述の説明は、限定することを意図したものではない。

【図1】