(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025014055
(43)【公開日】2025-01-28
(54)【発明の名称】エンコードされた6DOFオーディオビットストリームのレンダリング及び遅延型更新
(51)【国際特許分類】
G10L 19/008 20130101AFI20250121BHJP
G10L 19/00 20130101ALI20250121BHJP
【FI】
G10L19/008 200
G10L19/00 330A
【審査請求】有
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2024192915
(22)【出願日】2024-11-01
(62)【分割の表示】P 2022555784の分割
【原出願日】2021-03-09
(31)【優先権主張番号】62/990,022
(32)【優先日】2020-03-16
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100141162
【弁理士】
【氏名又は名称】森 啓
(72)【発明者】
【氏名】スジート シャムスンダル マテ
(72)【発明者】
【氏名】アンティ エロネン
(72)【発明者】
【氏名】ユッシ レッパネン
(57)【要約】
【課題】コンテンツ作成時に位置がわからないオーディオ要素のレンダリングをサポートすることは、オーディオソースの音響モデリングにとって課題である。
【解決手段】本発明は、オーディオコンテンツレンダリングを可能にする装置、方法、及びコンピュータプログラムに関する。例示的な装置は、オーディオコンテンツを含むビットストリームを受信する手段と、ビットストリームとは独立した動的コンテンツを受信する手段と、受信したビットストリームまたは受信した動的コンテンツの少なくとも一方から動的コンテンツのための少なくとも一つの命令を受信する手段と、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、および少なくとも一つの命令に基づいて、レンダラを用いてオーディオをレンダリングする手段と、を備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
オーディオコンテンツを含むビットストリームを受信することと、
前記ビットストリームから独立した動的コンテンツを受信することと、
受信した前記ビットストリームまたは受信した前記動的コンテンツの少なくとも一方から、前記動的コンテンツのための少なくとも1つの命令を受信することと、
前記ビットストリームの前記オーディオコンテンツ、受信した前記動的コンテンツ、および前記少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることと、
を含む方法。
【請求項2】
受信された前記ビットストリームは、オーディオシーンを含む、請求項1に記載の方法。
【請求項3】
受信した前記動的コンテンツが、レンダラインタフェースで、またはMPEG-Hオーディオストリームパケットとして、受信される、請求項1または2に記載の方法。
【請求項4】
受信した前記動的コンテンツが、受信した前記動的コンテンツと、再生タイムライン、または1つ以上のビットストリームコンテンツ時間セグメントとの関連付けを可能にするために、タイムスタンプとともに到着する、請求項1乃至3のいずれか一項に記載の方法。
【請求項5】
前記動的コンテンツ内の少なくとも1つのアンカーオブジェクトに関する情報を決定することをさらに含む、請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記動的コンテンツ内の前記少なくとも1つのアンカーオブジェクトを前記ビットストリーム内の少なくとも1つのアンカーオブジェクトと関連付けることをさらに含む、請求項5に記載の方法。
【請求項7】
前記ビットストリーム内の前記少なくとも1つのアンカーオブジェクトに対する位置が定義される、前記動的コンテンツ内のオーディオ要素の位置を修正することをさらに含む、請求項6に記載の方法。
【請求項8】
前記動的コンテンツにおける空間オーディオフラグ値を決定することと、
前記空間オーディオフラグ値が偽の場合、さらなる音響モデリングを行わずに、動的コンテンツ通信オーディオをレンダリングするか、あるいは、
前記空間オーディオフラグ値が真の場合、前記ビットストリーム内の前記情報に従って、音響モデリングを用いて動的コンテンツ通信オーディオをレンダリングするか、
を選択することと、
をさらに含む、請求項6に記載の方法。
【請求項9】
前記ビットストリームのオーディオシーンにおけるオーディオ要素および前記動的コンテンツにおけるオーディオ要素の位置を決定することと、
前記オーディオシーン内の前記オーディオ要素および前記動的コンテンツの前記オーディオ要素が同じ音響環境にある場合、受信した前記動的コンテンツに基づいてオーディオを適合させずに、前記ビットストリームの前記オーディオコンテンツに基づいて、レンダラを用いて前記オーディオをレンダリングするか、あるいは、
前記オーディオシーン内の前記オーディオ要素および前記動的コンテンツ内の前記オーディオ要素が同じ音響環境にない場合、前記ビットストリームの前記オーディオコンテンツおよび受信した前記動的コンテンツの両方に基づいて、前記レンダラを用いて前記オーディオをレンダリングするか、を選択することと、をさらに含む、請求項1乃至8のいずれか一項に記載の方法。
【請求項10】
前記ビットストリームのオーディオシーンにおけるオーディオ要素の位置、および前記動的コンテンツにおけるオーディオ要素の位置を決定することと、
前記オーディオ要素を音響環境の外に移動させることによって、前記動的コンテンツ内の前記オーディオ要素の位置を修正するか、あるいは、
前記オーディオ要素をコンステレーションとしてまとめて移動させることにより、前記動的コンテンツ内の前記オーディオ要素の位置を修正するか、
を選択することと、
をさらに含む、請求項1乃至9のいずれか一項に記載の方法。
【請求項11】
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つの非一時的メモリであって、前記少なくとも1つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、装置に
オーディオコンテンツを含むビットストリームを受信することと、
前記ビットストリームから独立した動的コンテンツを受信することと、
受信した前記ビットストリームまたは受信した前記動的コンテンツの少なくとも一方から、前記動的コンテンツのための少なくとも1つの命令を受信することと、
前記ビットストリームの前記オーディオコンテンツ、受信した前記動的コンテンツ、および前記少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることと、
を実行させるように構成される、少なくとも1つのメモリ及び非一時的メモリと、
を備える装置。
【請求項12】
オーディオコンテンツを含むビットストリームを受信する手段と、
前記ビットストリームから独立した動的コンテンツを受信する手段と、
受信した前記ビットストリームまたは受信した前記動的コンテンツの少なくとも一方から、前記動的コンテンツのための少なくとも1つの命令を受信する手段と、
前記ビットストリームの前記オーディオコンテンツ、受信した前記動的コンテンツ、および前記少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングする手段と、
を備える装置。
【請求項13】
オーディオコンテンツを含むビットストリームを受信することと、
前記ビットストリームから独立した動的コンテンツを受信することと、
前記ビットストリームにおける動的コンテンツのための少なくとも1つの命令の存在を判定することと、を含み、
前記ビットストリームが、受信した前記動的コンテンツのための前記少なくとも1つの命令を含んでいない場合、受信した前記動的コンテンツに基づいてオーディオを適合させることなく、前記ビットストリームの前記オーディオコンテンツに基づいて、レンダラを用いて前記オーディオをレンダリングするか、あるいは、
前記ビットストリームが受信した前記動的コンテンツのための前記少なくとも1つの命令を含む場合、前記ビットストリームの前記オーディオコンテンツ、受信した前記動的コンテンツ、および前記少なくとも1つの命令に基づいて、レンダラを用いて前記オーディオをレンダリングするか、
を選択する、方法。
【請求項14】
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つの非一時的メモリであって、前記少なくとも1つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、装置に、
オーディオコンテンツを含むビットストリームを受信することと、
前記ビットストリームから独立した動的コンテンツを受信することと、
前記ビットストリームにおける動的コンテンツのための少なくとも1つの命令の存在を判定することと、
を行わせるように構成される、少なくとも1つのメモリ及び非一時的メモリと、を備え、
前記ビットストリームが、受信した前記動的コンテンツのための前記少なくとも1つの命令を含んでいない場合、受信した前記動的コンテンツに基づいてオーディオを適合させずに、前記ビットストリームの前記オーディオコンテンツに基づいて、レンダラを用いて前記オーディオをレンダリングするか、あるいは、
前記ビットストリームが、受信した前記動的コンテンツのための前記少なくとも1つの命令を含む場合、前記ビットストリームの前記オーディオコンテンツ、受信した前記動的コンテンツ、および前記少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングするか、
を選択する、装置。
【請求項15】
オーディオコンテンツを含むビットストリームを受信する手段と、
前記ビットストリームから独立した動的コンテンツを受信する手段と、
前記ビットストリームにおける動的コンテンツのための少なくとも1つの命令の存在を判定する手段と、を備え、
前記ビットストリームが、受信した前記動的コンテンツのための前記少なくとも1つの命令を含んでいない場合、受信した前記動的コンテンツに基づいてオーディオを適合させずに、前記ビットストリームの前記オーディオコンテンツに基づいて、レンダラを用いて前記オーディオをレンダリングするか、あるいは、
前記ビットストリームが、受信した前記動的コンテンツのための前記少なくとも1つの命令を含む場合、前記ビットストリームの前記オーディオコンテンツ、受信した前記動的コンテンツ、および前記少なくとも1つの命令に基づいて、レンダラを用いて前記オーディオをレンダリングするか、を選択する、装置。
【請求項16】
オーディオコンテンツを有するオーディオシーンを含むビットストリームを受信することと、
前記ビットストリームとは別の動的コンテンツを受信することと、
前記オーディオシーンのオーディオ要素および前記動的コンテンツ内のオーディオ要素の位置を決定することと、を有し、
前記オーディオシーン内の前記オーディオ要素および前記動的コンテンツの前記オーディオ要素が同じ音響環境にある場合、受信した前記動的コンテンツに基づいてオーディオを適合させずに、前記ビットストリームの前記オーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、
前記オーディオシーン内の前記オーディオ要素および前記動的コンテンツの前記オーディオ要素が同じ音響環境にない場合、前記ビットストリームの前記オーディオコンテンツおよび受信した前記動的コンテンツの両方に基づいて、前記レンダラを用いて前記オーディオをレンダリングするか、を選択する、方法。
【請求項17】
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つの非一時的メモリであって、前記少なくとも1つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサを用いて、装置に、
オーディオコンテンツを有するオーディオシーンを含むビットストリームを受信することと、
前記ビットストリームとは別の動的コンテンツを受信することと、
前記オーディオシーン内のオーディオ要素及び前記動的コンテンツのオーディオ要素の位置を決定することと、
を行わせるように構成される、少なくとも1つの非一時的メモリと、を備え、
前記オーディオシーン内の前記オーディオ要素および前記動的コンテンツ内の前記オーディオ要素が同じ音響環境にある場合、受信した前記動的コンテンツに基づいてオーディオを適合させずに、前記ビットストリームの前記オーディオコンテンツに基づいて、レンダラを用いて前記オーディオをレンダリングするか、あるいは、
前記オーディオシーン内の前記オーディオ要素および前記動的コンテンツの前記オーディオ要素が同じ音響環境にない場合、前記ビットストリームの前記オーディオコンテンツおよび受信した前記動的コンテンツの両方に基づいてレンダラを用いてオーディオをレンダリングするか、を選択する、装置。
【請求項18】
オーディオコンテンツを有するオーディオシーンを含むビットストリームを受信する手段と、
前記ビットストリームとは別の動的コンテンツを受信する手段と、
前記オーディオシーン内のオーディオ要素および前記動的コンテンツ内のオーディオ要素の位置を決定する手段と、を備え、
前記オーディオシーンの前記オーディオ要素および前記動的コンテンツの前記オーディオ要素が同じ音響環境にある場合、受信した前記動的コンテンツに基づいてオーディオを適合させずに、前記ビットストリームの前記オーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、
前記オーディオシーンの前記オーディオ要素および前記動的コンテンツの前記オーディオ要素が同じ音響環境にない場合、前記ビットストリームの前記オーディオコンテンツおよび受信した前記動的コンテンツの両方に基づいて前記レンダラを用いて前記オーディオをレンダリングするか、
を選択する、装置。
【請求項19】
オーディオシーンのアンカーオブジェクトを決定することと、
前記アンカーオブジェクトに関連する動的コンテンツのための少なくとも1つの命令を決定することと、
前記オーディオシーンをビットストリームで送信することであって、前記ビットストリームが前記少なくとも1つの命令を含む、送信することと、
を含む方法。
【請求項20】
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つの非一時的メモリであって、前記少なくとも1つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサと共に、装置に、
オーディオシーン内のアンカーオブジェクトを決定することと、
前記アンカーオブジェクトに関連する動的コンテンツのための少なくとも1つの命令を決定することと、
前記オーディオシーンをビットストリームで送信することであって、前記ビットストリームが前記少なくとも1つの命令を含む、送信することと、
を実行させるように構成される、少なくとも1つのメモリと、
を備える装置。
【請求項21】
オーディオシーン内のアンカーオブジェクトを決定する手段と、
前記アンカーオブジェクトに関連する動的コンテンツのための少なくとも1つの命令を決定する手段と、
前記オーディオシーンをビットストリームで送信する手段であって、前記ビットストリームが前記少なくとも1つの命令を含む、送信する手段と、
を備える装置。
【発明の詳細な説明】
【技術分野】
【0001】
例示的かつ非限定的な実施形態は、広くオーディオレンダリングに関するものである。
【背景技術】
【0002】
本明細書で説明される特徴は、オーディオコンテンツレンダリングの適合方法を提供するために使用されてもよい。これは、例えば、コンテンツ作成者の指示に従いながら、例えば、MPEG-Iオーディオビットストリームコンテンツなどのオーディオの6自由度(6DOF)レンダリングを行い、動的コンテンツを取り込むことを含んでもよい。ビットストリームコンテンツは、6DOFオーディオシーン記述、生オーディオ信号、MPEG-Hエンコード/デコードオーディオ信号を符号化して作成されたデータである。他の互換性のある用語として、符号化コンテンツ、MPEGビットストリームがある。符号化ビットストリームの表現例としては、「EIF」(エンコーダ入力フォーマット)として取得されたシーン記述と、6DoFレンダリングに必要なメタデータを含んでよい。SixDoFMetaエンティティは、例えば、関連する反射面、及び音響環境パラメータなどのエンコーダによって生成された情報を含んでもよい。音響環境パラメータは、例えば、残響パラメータのようなパラメータから構成されてもよい。以下、一例を示す(これは、本発明の範囲を限定するものとして、または制限的にとらえるべきではない)。
【0003】
<AudioScene id=”Scene1”>
….
….
<Scene description describing the audio element entities, acoustic parameters, reflecting surfaces, etc.>
…
…
….
</AudioScene>
<SixDoFMeta id="as:Scene1 SixDoF Metadata">
<ReflectingElement id="wall_1_1">
<Vertex position="3.750000 0.000000 4.650000"/>
<Vertex position="3.750000 0.000000 -4.650000"/>
<Vertex position="3.750000 4.199100 -4.650000"/>
<Vertex position="3.750000 4.199100 4.650000"/>
</ReflectingElement>
<ReflectingElement id="wall_1_2">
<Vertex position="-3.750000 0.000000 4.650000"/>
<Vertex position="3.750000 0.000000 4.650000"/>
<Vertex position="3.750000 4.199100 4.650000"/>
<Vertex position="-3.750000 4.199100 4.650000"/>
</ReflectingElement>
<ReflectingElement id="wall_1_3">
<Vertex position="-3.750000 0.000000 -4.650000"/>
<Vertex position="-3.750000 0.000000 4.650000"/>
<Vertex position="-3.750000 4.199100 4.650000"/>
<Vertex position="-3.750000 4.199100 -4.650000"/>
</ReflectingElement>
<AcousticEnvironmentMeta id="acEnv:Lab">
<ReverberatorParameters>
<maxDelay="5000.000000" />
<speedOfSound="343.000000" />
<fs="48000.000000" />
<xSize="7.500000" />
<ySize="4.199100" />
<zSize="9.300000" />
<reverbTime="0.290000" />
<reverbTimeAt1kHz="0.113333" />
<randomness="1.000000" />
</ReverberatorParameters>
</AcousticEnvironmentMeta>
</SixDoFMeta>
【0004】
動的コンテンツとは、再生中にレンダラに直接届くデータのことである。他の互換性のある用語として、低遅延コンテンツ、予測不可能なコンテンツがある。
【0005】
コンテンツ作成者の指示は、ビットストリームコンテンツおよび動的コンテンツの処理においてレンダラを誘導するために、ビットストリームにおいてコンテンツ作成者が定義した指示を含んでよい。動的コンテンツは、ビットストリームに定義されていないが、レンダリング時にレンダラに直接届くオーディオシーンの変更(ビットストリームに定義されているオーディオシーンの変更とは対照的に)を含んでよい。したがって、本明細書に記載の機能は、ビットストリーム内の命令に基づいて、ビットストリーム内で定義されたコンテンツおよびビットストリーム内にないコンテンツのレンダリングを修正するために使用され得る。
【発明の概要】
【0006】
例示的な実施形態において、ビットストリームは、例えば、動的に対してビットストリームで定義されているものなど、どのタイプのオーディオシーン変更がオーディオシーンに対して許可されているかについての指示を含んでもよい。さらに、指示は、オーディオシーン変更のタイプに基づく優先順位を含んでよい。
【図面の簡単な説明】
【0007】
本願のより良い理解のために、次に、添付の図面を例として参照する。
【
図1】
図1は、MPEG-Iオーディオ参照アーキテクチャと動的シーン更新(または、ビットストリームコンテンツレンダリングと共に動的コンテンツレンダリング)の関連性を示す。
【
図2】
図2は、ARシナリオのための動的コンテンツアシストレンダリングの概要を示したものである。
【
図3】
図3は、アンカーオブジェクトの定義をEIFで表現したものである。
【
図4】
図4は、アンカーオブジェクトの位置情報とその識別子を用いた動的コンテンツの図を示す。
【
図5】
図5は、コンテンツ作成者の指示に基づいて6DoFレンダリングの適合を実行するMPEG-Iレンダラの実装例を示す図である。
【
図6】
図6は、低遅延オーディオのためのMPEG-Iオーディオ動的シーン更新を示す。
【
図7】
図7は、アンカーオブジェクトの定義をEIFで表現したものである。
【
図8】
図8は、動的コンテンツを示す図であり、さらに受信したオーディオが残響であるかドライであるかを示す図である。
【
図9】
図9は、ソーシャルAR/VRのために受信した動的コンテンツの6DoFレンダリング適合を実施するステップの例を示す。
【
図10】
図10は、説明した機能を実現するように構成された装置の例を示している。
【
図11A】
図11Aは、MPEG-I 6DoFビットストリームを生成する従来の方法を示す図である。
【発明を実施するための形態】
【0008】
6DoFレンダリング適合の例
【0009】
1.一例は、動的なオーディオシーンの変化にビットストリームコンテンツとは異なる位置が含まれる場合、コンテンツ作成者が指定したアプローチに基づいて実行されるオーディオ要素の位置の再調整を含んでよい。例えば、オーディオ要素のグループが常に共通の音響環境に属するように割り当てられている場合(例えば、コンテンツ作成者によって割り当てられたものなど)、動的更新の適合により、この条件が維持されることを保証してもよい。音響環境は、特定の音響特性を有する空間であり、MPEG-Iエンコーダの入力フォーマットで定義される。実際には、この条件は、オーディオ要素がグループ全体として特定の空間に配置される可能性があることを意味する。したがって、一部の要素は空間の外に出ないようにする(例えば、壁で区切られた2つの異なる部屋にある等)。
【0010】
2.他の例としては、ビットストリーム中のコンテンツ制作者の意図に基づいて、レンダラが、ソーシャルバーチャルリアリティ(VR)における遠隔ユーザからの通信オーディオからなる動的コンテンツに対する音響モデリングの適用を制御することが考えられる。これは、ソーシャルARにも適用可能である。一例として、コンテンツ制作者は、通信オーディオを反響させる必要があることをビットストリームで指示することができる。ドライ通信オーディオの場合、レンダラはビットストリームの指示に従って信号に音響モデリングを適用することができるが、通信オーディオが既に残響である場合(IVASオーディオ)、音響モデリングは適用されない。
【0011】
一例として、以下のような方法で実現することができる。
【0012】
・MPEG-Iオーディオビットストリームに関連メタデータ及び修正メタデータを追加すること。関連及び修正メタデータは、エンコーダ入力フォーマット(EIF)において、新たなエンティティである「アンカーオブジェクト」として定義できる。EIFは、MPEG-Iオーディオエンコーダによってビットストリームに組み込まれてよい。
【0013】
MPEG-Iオーディオレンダラの新しいレイトバインディング採用モジュールのために、動的コンテンツ(すなわち、オーディオデータまたは再生中にのみ利用可能な情報)を取り込むための新しいインタフェースをMPEG-Iオーディオレンダラに追加することができる。情報採用モジュールは、ビットストリームコンテンツ内のアンカーオブジェクトエンティティによって示される動的コンテンツ情報の採用を実行してもよい。動的コンテンツ情報は、レンダリングパラメータを決定するための命令を含んでもよい。
【0014】
拡張現実(AR)などで利用できる、現実世界またはリアルタイムの特徴やオブジェクトに関連するオーディオ要素の位置の知識は、コンテンツ消費時に利用可能である。コンテンツ作成時(例えば、MPEG-Iオーディオビットストリームのエンコードまたは作成時)に位置がわからないオーディオ要素のレンダリングをサポートすることは、オーディオソースの音響モデリングにとって課題である。この問題は、必ずしもオーディオコンテンツに限らず、現実世界の特徴やオブジェクトに関連する全てのモダリティ(例えば、ビジュアルコンテンツなど)にも当てはまる。しかしながら、この問題は、特に、MPEG-Iオーディオレンダラの実装がARドメインで有用であるために必要な機能である。MPEG-Iオーディオ要素に対応する現実世界オブジェクトの座標、範囲などは、コンテンツの消費または再生中にのみ知ることができる。この情報は、現実世界のレンダリング時間オブジェクト(複数可)に基づいているため、AR消費デバイスのセンサ(例えば、部屋の形状、素材等の音響環境等)などから、ジャストインタイムで到着してもよく、本明細書では「動的コンテンツ」とも称される。本明細書で説明する機能は、オーディオレンダリングの観点から、この現実世界のリアルタイムシナリオを処理するために使用することができる。これは、動的なシーンの更新及びAR評価に関連し得る。これは、MPEG-I 6DoFオーディオの提案募集のために評価されることに合意した2つの主要なカテゴリのうちの1つである。
【0015】
また、エンコードされたコンテンツ(位置、方向、音響特性など、レンダリング特性が完全に既知)を含む音響シーンで動的コンテンツをレンダリングする方法は、現在のところ存在しない。そのため、適切なレンダリングパラメータを決定するためにエンコーダが必要な処理を行わず、コンテンツの消費または再生中にレンダラに到着したばかりの動的コンテンツをレンダリングすると、動的コンテンツのレンダリングとビットストリームコンテンツの間の一致が不十分になる可能性がある。これは、主観的な品質の低下を招き、ユーザーエクスペリエンスに悪影響を及ぼす。
【0016】
本明細書で説明する機能は、動的なシーン更新およびソーシャルVRに関連するMPEG-I要件に対処するために使用され得る(w18158,MPEG-Iオーディオのアーキテクチャ及び要求事項)。例えば、
図1は、オーディオ基準アーキテクチャと動的シーン更新(または、ビットストリームコンテンツレンダリングを備えた動的コンテンツレンダリング)の関連性を示す図である。
【0017】
ソーシャルVR
仕様は、仮想環境における他のユーザの発話やオーディオのレンダリングをサポートしてよい。発話及びオーディオは没入型であってもよい。
a.本仕様は、所定の仮想環境内におけるユーザ間の低遅延の会話をサポートすることができる。
b.本仕様は、所定の仮想環境内のユーザと所定の仮想環境外のユーザとの間の低遅延の会話をサポートしてもよい。
c.本仕様は、ユーザおよびシーンのオーディオならびに映像の同期を可能としてよい。
d.本仕様は、他のユーザからの音声/オーディオのレンダリングに関する制限や推奨事項を指定するメタデータをサポートしてもよい(例えば、配置やサウンドレベルについて)。
【0018】
次に、本明細書に記載された特徴を、2つの実施形態を参照して実装に関して説明する。第1の実施形態は、ARコンテンツの消費を可能にすることに関するものであり、第2の実施形態は、ソーシャルVRコンテンツの消費を可能にすることに関するものである。
【0019】
図2は、ARシナリオのための動的コンテンツアシストレンダリングの概要を示したものである。これは現実世界の拡張に関するものであり、現実世界は常に静的であるとは限らない。そのため、ARシナリオでは、コンテンツ作成時(ARコンテンツ用ビットストリーム作成時)にはわからなかったオーディオシーンの変化が想定される。そのため、動的コンテンツとして取得された情報を採用することで、高品質で信頼できる、一貫性のある体験ができる可能性がある。
【0020】
図2を用いて説明したように、従来のコンテンツ作成パイプラインは、コンテンツ作成者が想定するオーディオシーンを記述したEIF(エンコーダ入力フォーマット)ファイル200を含む。EIF200は、オーディオデータ(オーディオ信号、SOFAファイルなど)と共に、オーディオエンコーダ202で処理されてビットストリーム204を生成することができる。ビットストリーム204は、ARセンシング可能なビットストリームであってもよい。オーディオシーンが全てコンテンツ作成者によって制御されるVRの場合、デフォルトのオーディオシーンの記述で十分である場合がある。しかしながら、ARセンシング可能なビットストリームの場合、デフォルトのオーディオシーンの記述と比較して、追加情報が追加されてもよい。この追加情報は、レンダラがARコンテンツの消費中に適合させる必要があるコンテンツを特定することを可能にするアンカーオブジェクトを含む。アンカーオブジェクトは、それ自体が別個のオブジェクトである。オーディオオブジェクトなどは、シーンを記述するビットストリーム内のアンカーオブジェクトの「内側」に定義することができる。したがって、オーディオオブジェクトの位置は、入ってくる動的更新がアンカーオブジェクトの位置を修正するたびに、修正され得る。適合できるコンテンツの例は、現実のオブジェクト(例えば、現実のコンサートの広告ポスターの隣にある楽器のオーディオオブジェクト)に対して配置されることを意図したオーディオオブジェクトの位置/方向を含む。さらに、適合されたコンテンツは、オーディオシーンの残響特性(RT60値またはオーディオシーンの寸法)であり得る。他の例としては、音響環境の位置またはそのパラメータの変更が考えられる。アンカーオブジェクトは、適合方法に関するさらなる詳細、および動的コンテンツから得られた情報とビットストリーム内の情報との間の優先順位を示すこともできる。例えば、アンカーオブジェクトは、ビットストリームにおいて既に定義されていない場合にのみ、オーディオオブジェクトの位置を適合させるための情報を含むことができる。別の例として、特定のレンダリングモードにおいてのみ、動的コンテンツがビットストリーム情報を上書きする(例えば、ARモードのレンダリング時)。
【0021】
特徴は、210で例示されるようなARセンシングを含んでよい。これは、関連付けおよび修正ブロック208に入力を提供してもよい。レンダラ206において、関連付けおよび修正ブロック208からの出力は、可聴化212に提供されてもよい。動的レンダリングパイプライン602およびビットストリームレンダリングパイプライン600を含む少なくとも2つのパイプラインが提供されてもよい。
【0022】
アンカーオブジェクト記述は、動的コンテンツ情報をビットストリーム内のオーディオエンティティ及びそのパラメータと関連付けることを容易にする。コンテンツ消費アプリケーションは、受信したオーディオコンテンツ内の表示の存在によって、AR対応コンテンツを識別してもよい。AR対応オーディオビットストリーム表示は、MPEG-Hファイルフォーマットのヘッダ内のファイルタイプとして実装されてもよい。
【0023】
現在のMPEG-Hビットストリームは、それがシングルストリームまたはマルチストリームMPEG-Hビットストリーム(例えば、単一ファイルの再生用)からなるオーディオトラックを有する単一ファイルであるか、任意のサンプルでその構成を変更できるシングル/マルチストリーミングMPEG-Hビットストリーム(例えば、DASH、MMTなどでのストリーミングに有用)であるかを示す情報をサンプルテーブルボックスで搬送する。同様に、6DOF VRのみの存在を示すために、コンテンツは、6DOF VRコンテンツを含む新しいMPEG-Hビットストリームとして実装され、「mi6v」とラベル付けされる場合がある。
ボックスタイプ:「mi6v」,「mi6a」
コンテナ:サンプルテーブルボックス(「stbl」)
必須:いいえ
数量:1つまたは複数のサンプルエントリが存在する可能性がある
【0024】
6DoFストリーミングまたは放送環境(例えば、MPEG-DASHまたはMPEG-H MMTなど)に基づく場合、MPEG-H 3Dオーディオ構成は、必ずしもフラグメント境界のみならず、ストリームの任意の位置で変化し得る6DoFメタデータ対応パケットを含んでもよい。このユースケースを可能にするために、新しいMHASampleEntryを定義して、MPEG-H 3Dオーディオファイルの6DoFレンダリング関連メタデータを示すことができる。
【0025】
ビットストリームコンテンツがARにおいても使用可能な場合、サンプルエントリは、AR消費だけでなく6DOFレンダリングに適したMPEG-Hオーディオビットストリームを表す「mi6a」である可能性がある。
【0026】
ARサポートを追加する別の構成要素は、MPEG-I 6DoFオーディオレンダラに新しいインタフェースを実装して、AR消費デバイスの
図2に示すセンシング装置210から取得されるシーン情報を含む動的コンテンツを取り込むことを含み得る。動的シーン更新情報は、現実の実装では、センサシステムがデバイスに対してローカルである場合は、APIなどの適切なインタフェースを介して、ネットワーク経由で受信する場合は適切なトランスポートプロトコルを介して更新を受信するインタフェースであってよい。
【0027】
動的コンテンツは取り込まれ、
図2に示すビットストリーム204のコンテンツ作成者の指示等に従って、ビットストリームコンテンツで定義されたパラメータに対して必要なレンダリング適合を実行することができる。この特定の例の説明では、ビットストリームのシーン記述におけるパラメータ(例えば、オーディオシーンにおけるアンカーオブジェクトの位置)が、現実世界で変更される場合がある。その結果、オーディオシーン内の対応するオブジェクトの対応する変更を動的コンテンツとして配信して、ビットストリームに基づく6DoFオーディオシーンレンダリングを修正することができる。オーディオビジュアルの一貫性を維持するために、シーンのビジュアルコンポーネントに対しても同様の手順を実行することができる。
【0028】
AR AnchorObjects
一実施形態例では、ビットストリームに定義されたAudioElementのセットの位置は、レンダリング時にのみ知ることができる。ビットストリームは、少なくとも以下の情報を有するAudioSceneを含むことができる。
・シーン内のAudioElementに対応するオーディオ信号
・レンダリング命令を含むAnchorObject(下記参照)。
・AudioElementの位置は、AnchorObjectの位置を基準として定義される。(AnchorObjectの位置は、この時点ではわからない場合がある)。
・AudioEnvironment(部屋など)の位置および寸法。AudioEnviromentはビットストリームに含まれず、動的な更新として入力される場合もある。
【0029】
AnchorObjectのレンダリング命令には、以下のものが含まれる場合がある(
図3参照)。
・どの動的更新が関連付けられるかを示す識別子ref_id
・AnchorObjectに対する相対位置が定義されるAudioElement(ObjectSourceなど)の位置が同じ音響環境である必要があるか否かの指示(CommonAcousticEnvironment=true/false)。
・AnchorObjectに対する相対位置が定義されたAudioElementの相対位置が修正可能か否かを示す(Deformable=true/false)。
【0030】
EIFにおける動的更新適合情報のXML記述の例を
図3に示す。
図3は、コンテンツ作成段階でビットストリームに含まれるアンカーオブジェクトの定義をEIFで表現したものである。EIFで定義されるObjectSourcesの位置は、動的コンテンツとして取得されるAnchorObjectの位置に対して相対的である。
【0031】
レンダリング中、レンダラは、動的取り込みインタフェースを介して、または新しいタイプのMPEG-Hオーディオストリーム(MHAS)パケットとして、動的更新を受信することができる。この更新には、アンカーオブジェクトの位置、および/または現在のユーザ環境における表面(壁、床、天井など)の位置が含まれる場合がある。したがって、この時点で、1)ビットストリーム内のオーディオシーン、2)同じくビットストリーム内の動的更新のためのレンダリング命令、および、3)レンダリング時の動的更新を有することができる。これらに基づいて、
図2に示すレンダラ206は、関連付け及び修正ブロック208において、以下のように実行して、6DOFレンダリング適合を実行することができる。
【0032】
1)ビットストリームからAudioSceneとレンダリング命令を取得する。
【0033】
2)
図4に示すように、「アンカーオブジェクトの位置情報」及びその識別子を用いて動的更新を取得する。
【0034】
3)識別子を用いて、動的更新をビットストリームに定義されたAnchorObjectに関連付ける。
【0035】
4)「アンカーオブジェクトの位置情報」に基づいて、AnchorObjectの位置を修正する。
【0036】
・これにより、AnchorObjectに対して相対的に位置が定義されている全てのAudioElementsの位置が修正される可能性がある。
【0037】
5)必要に応じて、ビットストリームのレンダリング命令に基づいて、レンダリングを修正する。
【0038】
・AnchorObjectに関連するように定義された全てのAudioElementsが同じAudioEnvironment内にある場合は、修正する必要はない。
【0039】
・AnchorObjectに関連するように定義されたAudioElementsのうち、少なくとも1つがAnchorObjectと異なるAudioEnvironmentにある場合、レンダリング命令によって義務付けられている場合は、修正が必要(CommonAcousticEnvironment=true)である。
【0040】
・修正は、以下のいずれかの方法で行うことができる。
AudioEnvironmentの外にあるAudioElementの位置を、AudioEnviroment内の最も近い位置に移動して修正する(Deformable=true)。
全てのAudioElementの位置を同じ量だけ修正し、全てのAudioElementがAudioEnvironment内にあるようにする(Deformable=false)。
【0041】
図4は、ビットストリーム内の対象AnchorObjectと一致するref_idを持つAnchorUpdateを含む動的コンテンツの図を示す。
図5は、再生中に受信した動的コンテンツについて、MPEG-Iビットストリーム内のコンテンツ作成者の指示を考慮して、6DoFレンダリングの適合を行うMPEG-Iレンダラの実装例を示したものである。この例では、手順は、以下のように構成されてもよい。
【0042】
・AudioSceneおよびレンダリング命令は、再生中にプレーヤーによって取得されたビットストリームから、またはボックス502で示されるように、保存されたファイルから取得する。
【0043】
・ボックス504に示すように、レンダラインタフェースから、またはMHAS動的コンテンツパケットとして動的コンテンツを取得する(これは、例えば、実装に応じて、ポートから更新を読み取るか、コールバックとして動的コンテンツバッファを取得することによって行われ得る)。
【0044】
・ボックス506に示すように、動的コンテンツを取得し、アンカーオブジェクト関連情報(
図4ではAnchorUpdateとして示されている)を解析する(取得した動的コンテンツ情報を解析して、ビットストリーム内の動的更新インジケータと整合している有効なアンカーオブジェクトの存在を判定してもよい)。
【0045】
・ボックス508に示すように、動的コンテンツAnchorUpdateをビットストリーム内の対応するAnchorObjectと関連付ける(この関連付けは、アンカーオブジェクトおよびアンカーアップデートが一致する識別子を有する場合に成功したとみなすことができる)。
【0046】
・ボックス510に示すように、ビットストリーム内のAnchorObjectに対して相対的に位置が規定されている全てのオーディオ要素の位置を修正する。
【0047】
・ボックス512に示すように、ビットストリームにおける動的コンテンツ適合のためのレンダリング命令の存在を確認する。
【0048】
ボックス514に示すように、存在しない場合は、動的コンテンツパラメータに従って修正し、レンダリングする。
【0049】
・存在する場合、ボックス516に示すように、ビットストリームの適合構築、CommonAcousticEnvironmentはTrue(真)に等しくなる。
【0050】
・ボックス518に示すように、全てのオーディオ要素が同じ音響環境にあるか否かを確認する。
【0051】
「はい」の場合、ボックス514に示すように、動的コンテンツパラメータに従って修正し、レンダリングする。
【0052】
「いいえ」の場合、ボックス520に示すように、DeformableがTrueまたはFalse(偽)に等しいかに応じて位置を修正する。
【0053】
Trueの場合、ボックス522に示すように、オーディオ要素をAcousticEnvironmentの外に移動することによって修正する。
【0054】
Falseの場合、ボックス524に示すように、オーディオ要素を集合として一緒に移動することによって修正し、ボックス526に示すように、AudioElementsの修正された値に基づいてオーディオをレンダリングする。
【0055】
フローチャートのステップの追加は、以降に含まれるすべてのフローチャートに適用される。
【0056】
また、アンカーオブジェクトに関連するAudioElementsは、レンダリング適合のためにCommonAcousticEnvironment及びDeformableコンテンツ作成者の指示を考慮して実装されたマルチチャンネルObjectSourceであってもよい。したがって、マルチチャネルオブジェクトが単一のAcousticEnvironmentに収まらない場合は、シフトすることができる。しかしながら、例えば「deformable==1」を示すようなフラグがある場合、オブジェクト全体を単一のAcousticEnvironmentに収まるように、オブジェクトを圧縮してもよい。
【0057】
別の例示的な実施形態では、EIFで定義される更新メッセージは、現在指定されている更新に加えて、動的コンテンツによる更新を可能にするように拡張されてもよい。現在規定されている更新は、所定のタイムスタンプ、条件ベースの更新(例えば、位置ベースのトリガ)、および明示的なユーザ操作(例えば、ラジオをオンにするなど)に基づいて行われてもよい。EIFアップデートは、MPEG-I 6DoFオーディオエンコーダ入力フォーマット,ISO/IEC JTC 1/SC 29/WG 11,N18979,January 17,2020の2.2項に記載されているものと同様であってもよく、scene.xmlファイル内の宣言部を有するシーンアップデートは、任意の数の<Update>ノードに続けてよい。それらは、次のような構文である。
【0058】
【0059】
【0060】
すべての属性が変更できるわけではないことに注意されたい。修正を許可するエンティティタイプの仕様を有するエンティティのみが修正可能である(ラベル「M」が付されている)。
【0061】
以下の更新は、走行中の車両の3つのObjectSourceを軌跡に沿って同期して移動させるものである。
【0062】
<Update time=”0.2”>
<Modify id=”engine” position=”2.2 1.7 -1.25” />
<Modify id=”tire1” position=”2.2 1.7 0.75” />
<Modify id=”tire2” position=”2.2 1.7 -0.95” />
</Update>
<Update time=”0.4”>
<Modify id=”engine” position=”2.4 1.7 -1.20” />
<Modify id=”tire1” position=”2.4 1.7 0.70” />
<Modify id=”tire2” position=”2.4 1.7 -0.95” />
</Update>
...
【0063】
次の例は、リスナーが近づくと車のソースをオンするものである。
【0064】
<Box id=”geo:region1” position=”5 0 -5” size=”10 2 10” />
<ListenerProximityCondition id=”cond:listenerNearCar” region=”geo:region1” />
<!-- Turn on the engine sound 100ms after the listener entered
the region. Smoothly activate the source within 50ms. -->
<Update condition=”cond:listenerNearCar” delay=”0.1”>
<Modify id=”engine” transition=”continuous”
duration=”0.05” active=”true” />
</Update>
<!-- Turn on the other sources 100ms later from the engine -->
<Update condition=”cond:listenerNearCar” delay=”0.2”>
<Modify id=”radio” transition=”continuous” duration=”0.2” active=”true” />
<Modify id=”exhaust” transition=”continuous” duration=”0.1” active=”true”/>
</Update>
【0065】
シーンは、AudioScene属性で指定されたシーンの継続時間の割合でループする。シーンのループごとに時限更新がトリガされる。
【0066】
EIFで提案されている更新は、以下のようになる。
【0067】
<Update api=”<api id>” >
<Modify id=(int)(AnchorObject.ref_id) transition=”immediate” position=”<from API>” orientation="0,0,0", <timestamp> />
</Update>
【0068】
上記により、APIインタフェースに以下のようなメッセージが表示される。
【0069】
{anchorObject.ref_id, X1, Y1, Z1, timestamp}
【0070】
上記において、タイムスタンプは、ビットストリームコンテンツとの時間的な関連付けを可能にするシーケンス番号とすることも可能である。
【0071】
例えば、レンダラループは、動的コンテンツをビットストリームコンテンツの右側の時間セグメントに適用する。このように、タイムスタンプは、更新メッセージを適切な再生タイムラインに関連付けるために使用される。
【0072】
ソーシャルAR/VR用動的コンテンツ
図6を参照して、ソーシャルAR/VR用の動的コンテンツについて説明する。
図6は、低遅延オーディオのためのMPEG-Iオーディオ動的シーンの更新を示す図である。
【0073】
ソーシャルVRは、MPEG-Iオーディオ規格のもう一つの要件であり、動的コンテンツの更新を利用することが考えられる。
図6に回路図の一例を示す。この図に示されるように、2つの並列パイプラインが存在する。第1のパイプライン600は、MPEG-Iオーディオビットストリーム作成、配信、およびレンダリングのパイプラインである。第2のパイプライン602は、ソーシャルAR/VRの参加者の通信オーディオ、および再生中(または、レンダリング時間)に得られた情報に従ってレンダリングされる対応するメタデータを取り込むことができる動的コンテンツパイプラインである。ソーシャルAR/VRの場合、シーン情報に加えて、通信オーディオも再生中に受信する。このようなコンテンツのレンダリングは、MPEG-Iオーディオビットストリームコンテンツに適合させて、歪みを導入することなく、調和のとれたマージを確保することができる。
【0074】
EIFにおける動的更新適合情報のXML記述の例を
図7に示す。これは、コンテンツ作成段階でビットストリームに含まれるアンカーオブジェクト定義のEIF表現である。この特定のソーシャルVRユーザに対してEIFに定義されたObjectSourcesの位置と方向は「null null null」であり、このエンティティに対応する動的コンテンツが受信されない限り、表示されないことを示す。さらに、このオーディオオブジェクトのオーディオ信号は、MPEG-Iオーディオビットストリームに存在するオーディオトラックではないため、「通信オーディオ」と表示される。
【0075】
図8は、ビットストリーム中の対象AnchorObjectと一致するref_idを持つAnchorUpdateを含むダイナミックコンテンツを示す図である。さらに、ダイナミックコンテンツは、受信した音声が既に残響であるか(spatialAudio==true)、ドライであるか(spatialAudio==false)を示すこともできる。
図9は、オーディオシーンにおけるソーシャルAR/VRを表す、受信した動的コンテンツの6DoFレンダリング適合を実施するための例示的なステップを示す図である。図に示すように、通信オーディオ信号の種類とビットストリーム内のコンテンツの意図の両方に応じて、それらを活用することができる。
図9に示す例は、以下のように構成されている。
【0076】
・ボックス920に示すように、ビットストリームからAudioSceneおよびレンダリング命令を取得する。
【0077】
・ボックス922に示すように、レンダラインタフェースから、またはMHAS動的コンテンツパケットとして、動的コンテンツを取得する。
【0078】
・ボックス924に示すように、動的コンテンツを取得し、アンカーオブジェクト関連情報(
図4ではAnchorUpdateとして示されている)を解析する。
【0079】
・ボックス926に示すように、動的コンテンツAnchorUpdateをビットストリーム内の対応するAnchorObjectに関連付ける。
【0080】
・ボックス928に示すように、動的コンテンツの更新におけるSpatialAudioフラグ値を確認する。
【0081】
Trueの場合、ボックス930に示すように、MPEG-Iビットストリーム情報に従って、音響モデリングを使用して動的コンテンツ通信オーディオをレンダリングする。
【0082】
Falseの場合、ボックス932に示すように、すでに残響があるため、さらなる音響モデリングなしで動的コンテンツ通信オーディオをレンダリングする。
【0083】
図10は、本明細書に記載されるような特徴を実装するように構成された例示的な装置900である。装置900は、少なくとも1つのプロセッサ902と、コンピュータプログラムコード905を含む少なくとも1つの非一時的メモリ904と、を備え、少なくとも1つのメモリ904及びコンピュータプログラムコード905は、少なくとも1つのプロセッサ902を用いて、装置に、本明細書に記載の特徴を実装するためのプロセス、コンポーネント、モジュール、又は機能を実行させるよう構成される。装置900は、908によって概略的に示されるように、ディスプレイ、および/またはサウンドトランスデューサ、および/またはサウンドトランスデューサまたはレンダリングデバイスのためのような入力および/または出力を任意に含んでもよい。サウンドトランスデューサは、例えば、ヘッドフォン、小型イヤホン、スピーカ、または任意の他のタイプのレンダリングデバイス912を含んでよい。装置はまた、例えば無線リンクのためのような、910によって概略的に示されるような、1つまたは複数のネットワークインタフェースを含んでいてもよい。
【0084】
MPEGオーディオは、6DOFオーディオコーデックの標準化を進めている。現在のところ、以下のサポートはしていない。
・ARシナリオ
・ソーシャルVR
【0085】
MPEG-I 6DoFオーディオアーキテクチャ及び要件[w18158]によれば、上記2つは重要な要件である。これは、コンテンツ作成時に利用できない情報を組み込む仕組みがないためである。以下に例示する。
・コンテンツの消費中に変化する可能性のある現実世界のオブジェクトの位置やシーンの方向。
・6DOFオーディオコンテンツの消費中に位置が変化する可能性のある、ソーシャルVRリモート参加者の位置。
【0086】
合意されたシーンは全て、事前に完全に分かっているコンテンツであり、作成されたコンテンツと比較して異なることは想定されていない。即ち、6DoFオーディオコンテンツの消費または再生時には、未知のパラメータは存在しない。オーディオ要素の位置や向きなどのオーディオシーン情報は、MPEG-Iオーディオエンコーダで使用されるエンコーダ入力フォーマット(EIF)において、全て事前にわかっている。
【0087】
図11Aを参照すると、MPEG-I 6DoFビットストリームを生成する従来の方法は、ブロック1102に示すようにシーン記述(EIF)を取得し、ブロック1104に示すようにMPEG-H符号化オーディオデータを取得し、ブロック1106に示すようにEIFおよびオーディオデータを解析してMPEG-I 6DOFビットストリームパラメータを生成し、ブロック1108に示すようにMPEG-I 6DoFの従来型のビットストリームを生成することを含む場合がある。
図11Bは、ブロック1102に示すように、シーン記述(EIF)を取得し、ブロック1104に示すようにMPEG-Hエンコードされたオーディオデータを取得し、ブロック1110に示すようにEIF内の動的コンテンツ影響エンティティを決定し、ブロック1112に示すように選択したエンティティに対する動的コンテンツパラメータを決定する、ことを含む、修正された例示的な方法を示す。ブロック1114に示すように、MPEG-I 6DoFビットストリームに動的コンテンツパラメータおよび適合命令(コンテンツ作成者の意図を表す)を挿入し、ブロック1106に示すように、EIFおよびオーディオデータを解析してMPEG-I 6DOFビットストリームパラメータを生成し、ブロック1108´に示すように動的更新をサポートするMPEG-I 6DoFビットストリームを生成することを実行する。
【0088】
本明細書で説明される機能は、記録されたオーディオコンテンツと、動的コンテンツの管理または処理のための少なくとも1つの命令とを含むビットストリームを受信することと、ビットストリームとは別の動的コンテンツを受信することであって、動的コンテンツが動的オーディオコンテンツを含む、受信することと、ビットストリームの記録済みオーディオコンテンツ、受信した動的コンテンツ、および動的コンテンツの管理または処理のためのビットストリーム内の少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることと、を備える例示的な方法によって提供され得る。
【0089】
動的コンテンツが常にオーディオコンテンツを有するとは限らない例もある。オーディオデータを含まない、シーンの説明の変更やレンダリングパラメータの変更のみを行う動的コンテンツが存在する場合もある。
【0090】
上記では「記録された」としたが、本明細書で説明される機能をリアルタイムで使用してもよく、オーディオコンテンツは(オーディオ通信と同様に)送信可能であることに留意されたい。動的コンテンツのビットストリームにおける受信した命令は、受信した動的コンテンツとは別に受信されてもよい。レンダリングされたオーディオは、(上述したように)受信したオーディオコンテンツと、受信した命令(複数可)に基づく動的コンテンツを含んでよい。管理は、動的コンテンツおよび(ビットストリームからの)オーディオコンテンツを相互に使用または処理することを含んでよい。ビットストリームにおける指示は、オーディオシーンの特定の部分が動的コンテンツでレンダリングされる可能性があることを示すものであってもよい。動的コンテンツからの位置更新が、異なる音響環境をもたらすようなものである場合、レンダラは、新しい情報に適合しながら、オーディオレンダリングが同じ音響環境に留まるように、レンダリングを修正してもよい。
【0091】
動的コンテンツに含まれる可能性のあるものの例としては、以下のものが挙げられる(ただし、これらに限定されるものではない)。
・フィルタリングされた、フィルタリングされていないなどの、レンダリングされるオーディオ要素の位置。必ずしもビットストリームコンテンツに発生したのと同じ位置フィルタリング処理を行う必要はない。
・音響モデリング用に修正された音響要素、または新規の音響要素。
・オーディオデータ(例えば、ソーシャルVR通信オーディオ用)。
・シーン内のオーディオソースの空間的な範囲及び/または方向性。
【0092】
ビットストリームに含まれる受信されたオーディオコンテンツは、例えば、以下のようなものであってもよい(ただし、これらに限定されるものではない)。
・オーディオデータ
・オーディオシーンのシーン記述(含む)。
・反射面などの音響環境情報
・音響特性(RT60、残響比に対する直響など)。
・コンテンツ制作者の意図
・EIF
【0093】
上述した動的コンテンツとビットストリームのオーディオコンテンツとの「オーディオデータ」の類似性については、ビットストリームコンテンツのオーディオデータは、例えば、MPEG-H符号化オーディオデータであってもよく、一方、動的コンテンツのオーディオデータは、例えば、低遅延符号化コンテンツ(AMR、EVS、IVAS等)であってもよい。
【0094】
例示的な実施形態は、記録されたオーディオコンテンツと動的コンテンツの管理のための少なくとも1つの命令とを含むビットストリームを受信することと、ビットストリームとは独立した動的コンテンツを受信することであって、動的コンテンツが動的オーディオコンテンツを含む、受信することと、ビットストリームの記録されたオーディオコンテンツ、受信した動的コンテンツ、および動的コンテンツの管理のためのビットストリームのうちの少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることと、を備える方法を提供し得る。
【0095】
受信したビットストリームは、オーディオシーンを含むことができる。受信した動的コンテンツは、レンダラインタフェースで受信してもよいし、MPEG-Hオーディオストリームパケットとして受信してもよい。動的コンテンツの更新は、更新を再生タイムライン、または1つ以上のビットストリームコンテンツの時間セグメントと関連付けることを可能にするために、タイムスタンプとともに到着してもよい。本方法は、動的コンテンツ内の少なくとも1つのアンカーオブジェクトに関する情報を決定することをさらに含んでよい。本方法は、動的コンテンツ内の少なくとも1つのアンカーオブジェクトをビットストリーム内の少なくとも1つのアンカーオブジェクトと関連付けることをさらに含んでよい。本方法は、動的コンテンツ中のオーディオ要素の位置を修正することをさらに含んでよく、その位置は、ビットストリーム内の少なくとも1つのアンカーオブジェクトに対して定義される。本方法は、動的コンテンツにおける空間オーディオフラグ値を決定することと、空間オーディオフラグ値がFalseの場合、さらなる音響モデリングを行わずに動的コンテンツ通信オーディオをレンダリングするか、あるいは、空間オーディオフラグ値がTrueの場合、ビットストリーム内の情報に従って音響モデリングを行い、動的コンテンツ通信オーディオをレンダリングするか、を選択することをさらに備えていてもよい。この方法は、ビットストリームのオーディオシーンにおけるオーディオ要素および動的コンテンツにおけるオーディオ要素の位置を決定することをさらに含み、オーディオシーンのオーディオ要素と動的コンテンツのオーディオ要素とが同じ音響環境にある場合、受信した動的コンテンツに基づいて記録されたオーディオを適合させずに、ビットストリームの記録されたオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、オーディオシーンのオーディオ要素と動的コンテンツのオーディオ要素とが同じ音響環境にない場合、ビットストリームの記録されたオーディオコンテンツおよび受信した動的コンテンツの両方に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択することと、を含んでもよい。この方法は、ビットストリームのオーディオシーンにおけるオーディオ要素および動的コンテンツにおけるオーディオ要素の位置を決定することを含み、音響環境の外にオーディオ要素を移動させることによって動的コンテンツにおけるオーディオ要素の位置を修正するか、あるいは、コンステレーションとしてオーディオ要素を一緒に移動させることによって動的コンテンツにおけるオーディオ要素の位置を修正するか、を選択することを含むことができる。
【0096】
例示的な実施形態は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つの非一時的メモリと、を備える装置を提供することができ、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、オーディオコンテンツと動的コンテンツのための少なくとも1つの命令とを含むビットストリームを受信することと、ビットストリームから独立した動的コンテンツを受信することであって、動的コンテンツは動的オーディオコンテンツを含む、受信することと、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、およびビットストリーム内の少なくとも1つの命令に基づいて、レンダラを用いてオーディオのレンダリングを実行することと、を実行させるように構成される。
【0097】
例示的な実施形態は、機械によって読み取り可能な非一時的プログラム記憶装置であって、動作を実行するために機械によって実行可能な命令のプログラムを具体的に具現化するものを提供し、動作は、オーディオコンテンツと動的コンテンツのための少なくとも1つの命令とを含むビットストリームを受信することと、ビットストリームから独立して動的コンテンツを受信することであって、動的コンテンツは動的オーディオコンテンツを含む、受信することと、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、および、ビットストリーム内の少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることと、を含む。
【0098】
例示的な実施形態は、オーディオコンテンツと動的コンテンツのための少なくとも1つの命令とを含むビットストリームを受信する手段と、ビットストリームから独立した動的コンテンツを受信する手段であって、動的コンテンツは動的オーディオコンテンツを含む、受信する手段と、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、およびビットストリーム内の少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングする手段と、を備える装置を提供してもよい。
【0099】
例示的な実施形態は、オーディオコンテンツと動的コンテンツのための少なくとも1つの命令とを含むビットストリームを受信するように構成された回路と、ビットストリームから独立して動的コンテンツを受信するように構成された回路であって、動的コンテンツは動的オーディオコンテンツを含む、回路と、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、およびビットストリーム内の少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングするよう構成された回路と、を備える機器を提供し得る。
【0100】
例示的な実施形態は、記録されたオーディオコンテンツを含むビットストリームを受信することと、ビットストリームとは独立した動的コンテンツを受信することであって、動的コンテンツが動的オーディオコンテンツを含む、受信することと、ビットストリームにおける動的コンテンツの管理のための少なくとも1つの命令の存在を判定することと、ビットストリームが、受信した動的コンテンツのための少なくとも1つの命令を含んでいない場合、受信した動的コンテンツに基づいて、記録されたオーディオを適合させずに、ビットストリームの記録されたオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、ビットストリームが、受信した動的コンテンツのための少なくとも1つの命令を含む場合、ビットストリームの記録されたオーディオコンテンツ、受信した動的コンテンツ、および少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択することと、を含む方法を提供することができる。
【0101】
例示的な実施形態は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つの非一時的メモリと、を備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、オーディオコンテンツを含むビットストリームを受信することと、ビットストリームから独立した動的コンテンツを受信することであって、動的コンテンツは動的オーディオコンテンツを含む、受信することと、ビットストリームにおける動的コンテンツのための少なくとも1つの命令の存在を判定することと、を実行させ、ビットストリームが受信した動的コンテンツのための少なくとも1つの命令を含んでいない場合、受信した動的コンテンツに基づいてオーディオを適合させずに、ビットストリームのオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、ビットストリームが受信した動的コンテンツのための少なくとも1つの命令を含んでいる場合、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、および少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択する装置を提供してもよい。
【0102】
例示的な実施形態は、機械によって読み取り可能な非一時的プログラム記憶装置を備え、動作を実行するために機械によって実行可能な命令のプログラムを具体的に具現化する、装置を備え、動作は、オーディオコンテンツを含むビットストリームを受信することと、ビットストリームから独立して動的コンテンツを受信することであって、動的コンテンツは動的オーディオコンテンツを含む、受信することと、ビットストリームにおける動的コンテンツのための少なくとも1つの命令の存在を判定することと、を含み、ビットストリームが受信した動的コンテンツのための少なくとも1つの命令を含んでいない場合、受信した動的コンテンツに基づいてオーディオを適合させずに、ビットストリームのオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、ビットストリームが受信した動的コンテンツのための少なくとも1つの命令を含んでいる場合、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、および少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択する、装置を提供する。
【0103】
例示的な実施形態は、オーディオコンテンツを含むビットストリームを受信する手段と、ビットストリームから独立した動的コンテンツを受信する手段であって、動的コンテンツは動的オーディオコンテンツを含む、手段と、ビットストリームにおける動的コンテンツのための少なくとも1つの命令の存在を判定する手段と、を備え、ビットストリームが受信した動的コンテンツのための少なくとも1つの命令を含んでいない場合、受信した動的コンテンツに基づいてオーディオを適合させずに、ビットストリームのオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、ビットストリームが、受信した動的コンテンツのための少なくとも1つの命令を含んでいる場合、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、および少なくとも1つの命令に基づいて、レンダラを用いてでオーディオをレンダリングするか、を選択する、装置を提供することができる。
【0104】
例示的な実施形態は、オーディオコンテンツを含むビットストリームを受信するように構成された回路と、ビットストリームから独立した動的コンテンツを受信するように構成された回路であって、動的コンテンツは、動的オーディオコンテンツを含む、回路と、ビットストリームにおける動的コンテンツのための少なくとも一つの命令の存在を判定するように構成された回路と、を備え、ビットストリームが受信した動的コンテンツのための少なくとも1つの命令を含んでいない場合、受信した動的コンテンツに基づいてオーディオを適合させずに、ビットストリームのオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、ビットストリームが、受信した動的コンテンツのための少なくとも1つの命令を含んでいる場合、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、および少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択する、装置を提供することができる。
【0105】
例示的な実施形態は、記録されたオーディオコンテンツを有するオーディオシーンを含むビットストリームを受信することと、ビットストリームとは別の動的コンテンツを受信することであって、動的コンテンツが動的オーディオコンテンツを含む、受信することと、オーディオシーン内のオーディオ要素および動的コンテンツ内のオーディオ要素の位置を決定することと、を含み、オーディオシーンのオーディオ要素及び動的コンテンツのオーディオ要素が同じ音響環境にある場合、受信した動的コンテンツに基づいて、記録されたオーディオを適合させずに、ビットストリームの記録されたオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、オーディオシーンのオーディオ要素及び動的コンテンツのオーディオ要素が同じ音響環境にない場合、ビットストリームの記録されたオーディオコンテンツおよび受信した動的コンテンツの両方に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択する、方法を提供し得る。
【0106】
例示的な実施形態は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つの非一時的メモリと、を備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、オーディオコンテンツを有するオーディオシーンを含むビットストリームを受信することと、ビットストリームとは別の動的コンテンツを受信することであって、動的コンテンツは動的オーディオコンテンツを含む、受信することと、オーディオシーンにおけるオーディオ要素および動的コンテンツにおけるオーディオ要素の位置を決定することと、を実行させるように構成され、オーディオシーンのオーディオ要素と動的コンテンツのオーディオ要素が同じ音響環境にある場合、受信した動的コンテンツに基づいてオーディオを適合させずに、ビットストリームのオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、オーディオシーンのオーディオ要素および動的コンテンツのオーディオ要素が同じ音響環境にない場合、ビットストリームのオーディオコンテンツおよび受信した動的コンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、を選択する、装置を提供してよい。
【0107】
例示的な実施形態は、機械によって読み取り可能な非一時的プログラム記憶装置を含み、動作を実行するために機械によって実行可能な命令のプログラムを具体的に具現化する、装置であって、動作は、オーディオコンテンツを有するオーディオシーンを含むビットストリームを受信することと、ビットストリームとは別の動的コンテンツを受信することであって、動的コンテンツは動的オーディオコンテンツを含む、受信することと、オーディオシーンにおけるオーディオ要素および動的コンテンツのオーディオ要素の位置を決定することと、を含み、オーディオシーンのオーディオ要素および動的コンテンツのオーディオ要素が同じ音響環境にある場合、受信した動的コンテンツに基づいてオーディオを適合させずに、ビットストリームのオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、オーディオシーンのオーディオ要素および動的コンテンツのオーディオ要素が同じ音響環境にない場合、ビットストリームのオーディオコンテンツおよび受信した動的コンテンツの両方に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択する、装置を提供し得る。
【0108】
例示的な実施形態は、オーディオコンテンツを有するオーディオシーンを含むビットストリームを受信する手段と、ビットストリームとは別の動的コンテンツを受信する手段であって、動的コンテンツは動的オーディオコンテンツを含む、受信する手段と、オーディオシーン内のオーディオ要素および動的コンテンツ内のオーディオ要素の位置を決定する手段と、を有し、オーディオシーンのオーディオ要素および動的コンテンツのオーディオ要素が同じ音響環境にある場合、受信した動的コンテンツに基づいてオーディオを適合させずに、ビットストリームのオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、オーディオシーンのオーディオ要素および動的コンテンツのオーディオ要素が同じ音響環境にない場合、ビットストリームのオーディオコンテンツおよび受信した動的コンテンツの両方に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択する、装置を提供することができる。
【0109】
例示的な実施形態は、オーディオコンテンツを有するオーディオシーンを含むビットストリームを受信するように構成された回路と、ビットストリームとは別の動的コンテンツを受信するように構成された回路であって、動的コンテンツが動的オーディオコンテンツを含む、回路と、オーディオシーンにおけるオーディオ要素および動的コンテンツにおけるオーディオ要素の位置を決定する回路と、を有し、オーディオシーンのオーディオ要素および動的コンテンツのオーディオ要素が同じ音響環境にある場合、受信した動的コンテンツに基づいてオーディオを適合させずに、ビットストリームのオーディオコンテンツに基づいて、レンダラを用いてオーディオをレンダリングするか、あるいは、オーディオシーンのオーディオ要素および動的コンテンツのオーディオ要素が同じ音響環境にない場合、ビットストリームのオーディオコンテンツおよび受信した動的コンテンツの両方に基づいて、レンダラを用いてオーディオをレンダリングするか、を選択する、装置を提供することができる。
【0110】
例示的な実施形態は、オーディオシーンにおけるアンカーオブジェクトを決定することと、アンカーオブジェクトに関連する動的コンテンツの管理のための少なくとも1つの命令を決定することと、オーディオシーンをビットストリームで送信することであって、ビットストリームが少なくとも1つの命令を含む、送信することと、とを備える方法を提供し得る。
【0111】
例示的な実施形態は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つの非一時的メモリと、を備える装置であって、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、オーディオシーンのアンカーオブジェクトを決定することと、アンカーオブジェクトに対する動的コンテンツのための少なくとも1つの命令を決定することと、ビットストリームでオーディオシーンを送信することであって、ビットストリームが少なくとも1つの命令を含む、送信することと、を実行させるように構成される、装置を提供し得る。
【0112】
例示的な実施形態は、機械によって読み取り可能な非一時的プログラム記憶装置を備え、操作を実行するために機械によって実行可能な命令のプログラムを具体的に具現化する、装置を備え、操作は、オーディオシーン内のアンカーオブジェクトを決定することと、アンカーオブジェクトに対する動的コンテンツのための少なくとも一つの命令を決定することと、ビットストリームでオーディオシーンを送信することであって、ビットストリームが少なくとも一つの命令を含む、送信することと、を有する、装置を提供し得る。
【0113】
例示的な実施形態は、オーディオシーンのアンカーオブジェクトを決定する手段と、アンカーオブジェクトに対する動的コンテンツのための少なくとも1つの命令を決定する手段と、オーディオシーンをビットストリームで送信する手段であって、ビットストリームが少なくとも1つの命令を含む、送信する手段と、を備える装置を提供することができる。
【0114】
例示的な実施形態は、オーディオシーンのアンカーオブジェクトを決定するように構成された回路と、アンカーオブジェクトに対する動的コンテンツのための少なくとも1つの命令を決定するように構成された回路と、オーディオシーンをビットストリームで送信するように構成された回路であって、ビットストリームが少なくとも1つの命令を含む、回路と、を備える装置を提供し得る。
【0115】
一実施形態では、動的コンテンツに含まれる1つ以上の命令を受信することが可能である。動的コンテンツ情報は、レンダリングパラメータを決定するための命令を含んでいてもよい。1つ以上の命令は、動的コンテンツとともに到着してもよい。これは、例えばソーシャルVRを実装するための有効な代替方法である。1つ以上の命令がビットストリームを介して受信され、1つ以上の命令、または他の部分を動的コンテンツに含めることができる。
【0116】
例示的な実施形態は、オーディオコンテンツを含むビットストリームを受信することと、ビットストリームから独立した動的コンテンツを受信することと、受信したビットストリームまたは受信した動的コンテンツの少なくとも一方から、動的コンテンツのための少なくとも一つの命令を受信することと、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、および少なくとも一つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることと、を備える方法を提供し得る。
【0117】
例示的な実施形態は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つの非一時的メモリと、を備え、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に、オーディオコンテンツと動的コンテンツのための少なくとも1つの命令とを含むビットストリームを受信することと、ビットストリームから独立した動的コンテンツを受信することであって、動的コンテンツは動的オーディオコンテンツを含む、受信することと、受信したビットストリームまたは受信した動的コンテンツの少なくとも一方から、動的コンテンツのための少なくとも1つの命令を受信し、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、およびビットストリーム内の少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることと、を実行させるように構成される、装置を提供することができる。
【0118】
例示的な実施形態は、機械によって読み取り可能な非一時的プログラム記憶装置を備え、操作を実行するために機械によって実行可能な命令のプログラムを具体的に具現化する、装置であって、操作は、オーディオコンテンツと動的コンテンツのための少なくとも1つの命令とを含むビットストリームを受信することと、ビットストリームから独立した動的コンテンツを受信することであって、動的コンテンツが動的オーディオコンテンツを含む、受信することと、受信したビットストリームまたは受信した動的コンテンツの少なくとも1つから動的コンテンツのための少なくとも1つの命令を受信することと、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、および少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることと、を含む、装置を提供することができる。
【0119】
例示的な実施形態は、オーディオコンテンツと動的コンテンツのための少なくとも1つの命令とを含むビットストリームを受信する手段と、ビットストリームから独立した動的コンテンツを受信する手段であって、動的コンテンツは、動的オーディオコンテンツを含む、受信する手段と、受信したビットストリームまたは受信した動的コンテンツの少なくとも一方から動的コンテンツの少なくとも1つの命令を受信する手段と、ビットストリーム中のオーディオコンテンツ、受信した動的コンテンツ、およびビットストリーム中の少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングする手段と、を備える装置を提供し得る。
【0120】
例示的な実施形態は、オーディオコンテンツと動的コンテンツのための少なくとも1つの命令とを含むビットストリームを受信する手段と、ビットストリームから独立した動的コンテンツを受信する手段であって、動的コンテンツは、動的オーディオコンテンツを含む、受信する手段と、受信したビットストリームまたは受信した動的コンテンツの少なくとも一方から動的コンテンツの少なくとも1つの命令を受信する手段と、ビットストリームのオーディオコンテンツ、受信した動的コンテンツ、およびビットストリーム中の少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングする手段と、を備える装置を提供し得る。
【0121】
前述の説明は例示に過ぎないことを理解されたい。当業者は、様々な代替案および修正案を考案することができる。例えば、様々な従属請求項に記載された特徴は、任意の適切な組み合わせ(複数可)で互いに組み合わせることができる。さらに、上述した異なる実施形態からの特徴は、新しい実施形態に選択的に組み合わせることができる。したがって、本明細書は、添付の特許請求の範囲に含まれる全ての代替案、修正、および変形を包含することを意図している。
【手続補正書】
【提出日】2024-12-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオコンテンツを決定することと、
動的コンテンツを決定することと、
前記動的コンテンツのための少なくとも1つの命令を決定することと、
を含む方法。
【請求項2】
前記オーディオコンテンツ、前記動的コンテンツ、および前記少なくとも1つの命令に基づいて、レンダラを用いてオーディオをレンダリングすることをさらに含む、請求項1に記載の方法。
【請求項3】
前記オーディオコンテンツを含むビットストリーム、および、
前記ビットストリームから独立した前記動的コンテンツ、
のうちの少なくとも1つを受信することをさらに含む、請求項2に記載の方法。
【請求項4】
前記動的コンテンツのための前記少なくとも1つの命令を決定することは、受信した前記ビットストリームおよび前記動的コンテンツのうちの少なくとも1つから、前記少なくとも1つの命令を受信することを含む、請求項3に記載の方法。
【請求項5】
前記動的コンテンツは、
レンダラインタフェースで、またはMPEG-Hオーディオストリームパケットとして、受信される、
前記動的コンテンツを再生タイムラインまたは1つ以上のビットストリームコンテンツの時間セグメントと関連付けることを可能にするタイムスタンプを伴って到着する、
のうちの少なくとも一方である、請求項1に記載の方法。
【請求項6】
前記動的コンテンツ内の少なくとも1つのアンカーオブジェクトに関する情報を決定することと、
前記動的コンテンツ内の前記少なくとも1つのアンカーオブジェクトを前記ビットストリーム内の少なくとも1つのアンカーオブジェクトに関連付けること、
前記ビットストリーム内の前記少なくとも1つのアンカーオブジェクトに対して位置が規定される前記動的コンテンツ内のオーディオ要素の位置を修正すること、
のうちの少なくとも1つをさらに含む、請求項3に記載の方法。
【請求項7】
前記動的コンテンツにおける空間オーディオフラグ値を決定することと、
前記空間オーディオフラグ値が偽の場合、音響モデリングをさらに行わずに動的コンテンツ通信オーディオをレンダリングするか、あるいは、
前記空間オーディオフラグ値が真の場合、前記ビットストリーム内の前記情報に従って、音響モデリングを用いて動的コンテンツ通信オーディオをレンダリングするか、
を選択することと、
をさらに含む、請求項3に記載の方法。
【請求項8】
前記ビットストリームの前記オーディオコンテンツ内のオーディオ要素および前記動的コンテンツ内のオーディオ要素の位置を決定することと、
前記オーディオコンテンツ内の前記オーディオ要素および前記動的コンテンツの前記オーディオ要素が同じ音響環境にある場合、受信した前記動的コンテンツに基づいてオーディオを適合させることなく、前記ビットストリームの前記オーディオコンテンツに基づいて、前記オーディオをレンダリングするか、あるいは、
前記オーディオコンテンツ内の前記オーディオ要素および前記動的コンテンツ内の前記オーディオ要素が同じ音響環境にない場合、前記ビットストリームの前記オーディオコンテンツおよび受信した前記動的コンテンツの両方に基づいて、オーディオをレンダリングするか、
を選択することと、
をさらに含む、請求項3に記載の方法。
【請求項9】
前記ビットストリームの前記オーディオコンテンツ内のオーディオ要素の位置、および前記動的コンテンツ内のオーディオ要素の位置を決定することと、
前記オーディオ要素を音響環境の外に移動させることによって、前記動的コンテンツ内の前記オーディオ要素の位置を修正するか、あるいは、
前記オーディオ要素をコンステレーションとして一緒に移動させることにより、前記動的コンテンツ内の前記オーディオ要素の位置を修正するか、
を選択することと、
をさらに含む、請求項3に記載の方法。
【請求項10】
前記動的コンテンツのための少なくとも1つの命令の存在を判定することと、
前記ビットストリームが、前記動的コンテンツのための前記少なくとも1つの命令を含んでいない場合、受信した前記動的コンテンツに基づいて前記オーディオを適合させることなく、前記ビットストリームの前記オーディオコンテンツに基づいて、オーディオをレンダリングするか、あるいは、
前記ビットストリームが受信した前記動的コンテンツのための前記少なくとも1つの命令を含む場合、前記ビットストリームの前記オーディオコンテンツ、受信した前記動的コンテンツ、および前記少なくとも1つの命令に基づいて、オーディオをレンダリングするか、
を選択することと、
をさらに含む、請求項3に記載の方法。
【請求項11】
前記オーディオコンテンツ内のオーディオ要素および前記動的コンテンツ内のオーディオ要素の位置を決定することと、
前記オーディオコンテンツ内の前記オーディオ要素および前記動的コンテンツ内の前記オーディオ要素が同じ音響環境にある場合、受信した前記動的コンテンツに基づいてオーディオを適合させずに、前記ビットストリームの前記オーディオコンテンツに基づいて、オーディオをレンダリングするか、あるいは、
前記オーディオコンテンツ内の前記オーディオ要素および前記動的コンテンツの前記オーディオ要素が同じ音響環境にない場合、前記ビットストリームの前記オーディオコンテンツおよび受信した前記動的コンテンツの両方に基づいて、オーディオをレンダリングするか、
を選択することと、
をさらに含む、請求項3に記載の方法。
【請求項12】
前記オーディオコンテンツは、オーディオコンテンツを受信することを含むことを決定すること、
前記動的コンテンツは、動的コンテンツを受信することを含むことを決定すること、
のうちの少なくとも1つをさらに含む、請求項1に記載の方法。
【請求項13】
前記オーディオコンテンツ内のアンカーオブジェクトを決定することであって、前記オーディオコンテンツはオーディオシーンを含む、決定することと、
前記アンカーオブジェクトに対する前記動的コンテンツのための前記少なくとも1つの命令を決定することと、
前記オーディオシーンをビットストリームで送信することであって、前記ビットストリームが前記少なくとも1つの命令を含む、送信することと、
をさらに含む、請求項1に記載の方法。
【請求項14】
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つの非一時的メモリであって、前記少なくとも1つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサと共に、装置に、
オーディオコンテンツを決定することと、
動的コンテンツを決定することと、
前記動的コンテンツのための少なくとも1つの命令を決定することと、
を実行させるようにされる、少なくとも1つのメモリと、
を備える装置。
【請求項15】
前記オーディオコンテンツを含むビットストリーム、および、
前記ビットストリームから独立した前記動的コンテンツ、
のうちの少なくとも1つを受信するようにされる、請求項14に記載の装置。
【請求項16】
前記動的コンテンツのための決定された前記少なくとも1つの命令は、前記装置に、受信された前記ビットストリームおよび前記動的コンテンツのうちの少なくとも1つから前記少なくとも1つの命令を受信させる、請求項15に記載の装置。
【請求項17】
前記動的コンテンツは、
レンダラインタフェースに、またはMPEG-Hオーディオストリームパケットとして、受信される、
前記動的コンテンツを再生タイムラインまたは1つ以上のビットストリームコンテンツの時間セグメントと関連付けることを可能にするタイムスタンプを伴って到着する、
のうちの少なくとも1つである、請求項14に記載の装置。
【請求項18】
前記動的コンテンツ内の少なくとも1つのアンカーオブジェクトに関する情報を決定することと、
前記動的コンテンツ内の少なくとも1つのアンカーオブジェクトを前記ビットストリーム内の少なくとも1つのアンカーオブジェクトに関連付けることと、
前記ビットストリーム内の前記少なくとも1つのアンカーオブジェクトに対して位置が規定される前記動的コンテンツ内のオーディオ要素の位置を修正することと、
のうちの少なくとも1つをさらに実行するようにされる、請求項15に記載の装置。
【請求項19】
受信したオーディオコンテンツに基づいて前記オーディオコンテンツを決定することと、
受信した動的コンテンツに基づいて前記動的コンテンツを決定することと、
の少なくとも1つをさらに実行するようにされる、請求項14に記載の装置。
【請求項20】
オーディオシーンを含む前記オーディオコンテンツ内のアンカーオブジェクトを決定することと、
前記アンカーオブジェクトに関連する前記動的コンテンツのための前記少なくとも1つの命令を決定することと、
前記オーディオシーンをビットストリームで送信することであって、前記ビットストリームが前記少なくとも1つの命令を含む、送信することと、
をさらに実行するようにされる、請求項14に記載の装置。