IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ノキア テクノロジーズ オサケユイチアの特許一覧

特許7579311低複雑性低ビットレート6DOF HOAのレンダリング方法および装置
<>
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図1
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図2
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図3
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図4
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図5
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図6
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図7
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図8
  • 特許-低複雑性低ビットレート6DOF  HOAのレンダリング方法および装置 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-29
(45)【発行日】2024-11-07
(54)【発明の名称】低複雑性低ビットレート6DOF HOAのレンダリング方法および装置
(51)【国際特許分類】
   G10L 19/008 20130101AFI20241030BHJP
   H04S 7/00 20060101ALI20241030BHJP
【FI】
G10L19/008 100
H04S7/00 320
【請求項の数】 18
【外国語出願】
(21)【出願番号】P 2022165971
(22)【出願日】2022-10-17
(65)【公開番号】P2023060836
(43)【公開日】2023-04-28
【審査請求日】2023-02-20
(31)【優先権主張番号】2114833.3
(32)【優先日】2021-10-18
(33)【優先権主張国・地域又は機関】GB
(73)【特許権者】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100141162
【弁理士】
【氏名又は名称】森 啓
(74)【代理人】
【識別番号】100151459
【弁理士】
【氏名又は名称】中村 健一
(72)【発明者】
【氏名】スジート シャムスンダル マテ
(72)【発明者】
【氏名】ユッシ アルットゥリ レッパネン
(72)【発明者】
【氏名】アルト ユハニ レフティニエミ
【審査官】堀 洋介
(56)【参考文献】
【文献】国際公開第2021/170900(WO,A1)
【文献】特表2020-527746(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/008
H04S 1/00- 7/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサにより、前記装置に、少なくとも、
2つ以上のオーディオシーンベースのソースを取得することであって、前記2つ以上のオーディオシーンベースのソースは、オーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を含む、取得することと、
前記取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連付けられた少なくとも1つの位置を決定することであって、前記少なくとも1つの位置は、レンダリングのために決定される、決定することと、
前記決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成することであって、前記少なくとも1つのオーディオソースを生成するように構成された手段は、
前記決定された少なくとも1つの位置に関連して、前記取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに前記関連する前記少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成し、
前記決定された少なくとも1つの位置に関連して、前記取得された2つ以上のオーディオシーンベースのソースの前記少なくとも1つのオーディオ信号に基づいて、前記少なくとも1つのオーディオソースのための少なくとも1つのオーディオソース信号を生成するように構成される、生成することと、
前記生成された少なくとも1つの空間オーディオパラメータと、前記取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する前記少なくとも1つのオーディオ信号との間の関係に関する情報を生成することであって、前記生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成することと、
を行わせるように構成される装置。
【請求項2】
前記装置は、前記少なくとも1つの位置を決定するようにされ、前記装置は、前記少なくとも1つのさらなる装置から前記少なくとも1つの位置を取得するようにされ、前記装置は、さらに、 前記少なくとも1つのさらなる装置に前記情報を送信することと、
前記2つ以上のオーディオシーンベースのソースを選択するときに、前記選択された2つ以上のソースの少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を出力することと、
前記少なくとも1つのオーディオソースを選択するときに、前記オーディオソースの前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオソース信号を出力することと、
を行うように構成されている、請求項1に記載の装置。
【請求項3】
少なくとも1つのさらなる装置からの前記1つの位置に基づいて、前記2つ以上のオーディオシーンベースのソースまたは前記少なくとも1つのオーディオソースを選択するようにされた前記装置は、
前記装置と前記さらなる装置との間の伝送または記憶チャネルの帯域幅、および、
前記さらなる装置の計算能力、
のうちの少なくとも1つに基づいて、前記2つ以上のオーディオシーンベースのソース、または、前記少なくとも1つのオーディオソースを選択するようにされる、請求項2に記載の装置。
【請求項4】
前記決定された少なくとも1つの位置に基づいて、前記少なくとも1つのオーディオソースを生成するようにされた前記装置は、前記少なくとも1つのさらなる装置からの前記決定された少なくとも1つの位置に基づいて、前記少なくとも1つのオーディオソースの位置を決定するようにされている、請求項2に記載の装置。
【請求項5】
前記決定された少なくとも1つの位置に基づいて、前記少なくとも1つのオーディオソースを生成するようにされた前記装置は、
前記2つ以上のオーディオシーンベースのソース内のオーディオシーンベースのソースのグループを選択または定義することと、
前記2つ以上のオーディオシーンベースのソースと、前記2つ以上のオーディオシーンベースのソース内の前記選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つの空間パラメータとの組み合わせに基づいて、前記少なくとも1つの空間オーディオパラメータを生成することと、
前記2つ以上のオーディオシーンベースのソースと、前記2つ以上のオーディオシーンベースのソース内の前記選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つのオーディオ信号との組み合わせに基づいて、前記少なくとも1つのオーディオソース信号を生成することと、
を行うようにされる、請求項1に記載の装置。
【請求項6】
前記2つ以上のオーディオシーンベースのソースを取得するようにされた前記装置は、
前記オーディオシーンに配置されたマイクから、少なくとも2つのオーディオ信号を取得することと、
前記少なくとも2つのオーディオ信号を解析して、前記2つ以上のオーディオシーンベースのソースと、前記2つ以上のオーディオシーンベースのソースの各々に関連する少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号とを識別することと、
を行うようにされる、請求項1に記載の装置。
【請求項7】
2つ以上のオーディオシーンベースのソースを取得するように構成された前記手段は、前記2つ以上のオーディオシーンベースのソースを受信または合成するように構成される、請求項1に記載の装置。
【請求項8】
前記2つ以上のオーディオシーンベースのソースは、高次アンビソニクスソースである、請求項1に記載の装置。
【請求項9】
前記決定された少なくとも1つの位置に基づいて生成された前記少なくとも1つのオーディオソースは、位置補間された高次アンビソニクスソースである、請求項1に記載の装置。
【請求項10】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、前記少なくとも1つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサにより、前記装置に、少なくとも、
生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースおよび生成された少なくとも1つのオーディオソースのうちの少なくとも1つに関連付けられた少なくとも1つのオーディオ信号との間の関係に関する情報を取得することと、
ユーザ位置の値およびユーザ方向の値を取得することと、
前記ユーザ位置の値に基づいて、前記生成された少なくとも1つのオーディオソース、および/または、前記2つ以上のオーディオシーンベースのソースの少なくとも2つの選択を要求することと、
前記要求に基づいて、少なくとも1つのレンダリングソース空間パラメータを取得することと、
前記要求に基づいて、少なくとも1つのレンダリングソースオーディオ信号を取得することと、
前記ユーザ方向の値、前記少なくとも1つのレンダリングソース空間パラメータ、および、前記少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成することと、
を行わせるように構成され、
前記ユーザ位置の値に基づいて、前記生成された少なくとも1つのオーディオソース、および/または、前記2つ以上のオーディオシーンベースのソースのうちの少なくとも2つの選択を要求するようにされた前記装置は、さらに、
前記少なくとも1つのレンダリングソース空間パラメータおよび前記少なくとも1つのレンダリングソースオーディオ信号が取得される前記装置とさらなる装置との間の伝送または記憶チャネルの帯域幅、および、
前記装置の計算能力、
のうちの少なくとも1つを決定することと、
前記伝送または記憶チャネルの前記帯域幅または前記計算能力に基づいて、前記少なくとも1つのオーディオソースまたは前記2つ以上のオーディオシーンベースのソースのうちの少なくとも2つを選択することと、
を行うようにされる、装置。
【請求項11】
イマーシブオーディオシーンを生成する装置のための方法であって、該方法は、
2つ以上のオーディオシーンベースのソースを取得することであって、前記2つ以上のオーディオシーンベースのソースは、オーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を含む、取得することと、
前記取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連付けられた少なくとも1つの位置を決定することであって、前記少なくとも1つの位置は、レンダリングのために決定される、決定することと、
前記決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成することであって、前記少なくとも1つのオーディオソースを生成することは、
前記決定された少なくとも1つの位置に関連して、前記取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに前記関連する前記少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成することと、
前記決定された少なくとも1つの位置に関連して、前記取得された2つ以上のオーディオシーンベースのソースの前記少なくとも1つのオーディオ信号に基づいて、前記少なくとも1つのオーディオソースのための少なくとも1つのオーディオソース信号を生成することと、
を含む、生成することと、
前記生成された少なくとも1つの空間オーディオパラメータと、前記取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する前記少なくとも1つのオーディオ信号との間の関係に関する情報を生成することであって、前記生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成することと、
を含む方法。
【請求項12】
前記取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つの位置を決定することは、少なくとも1つのさらなる装置から前記少なくとも1つの位置を取得することを含み、前記方法は、さらに、
前記少なくとも1つのさらなる装置に前記情報を送信することと、
前記2つ以上のオーディオシーンベースのソースを選択するときに、前記選択された2つ以上のソースの少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号を出力することと、
前記少なくとも1つのオーディオソースを選択するときに、前記オーディオソースの前記少なくとも1つの空間オーディオパラメータおよび前記少なくとも1つのオーディオソース信号を出力することと、
を含む、請求項11に記載の方法。
【請求項13】
少なくとも1つのさらなる装置からの1つの位置に基づいて、前記2つ以上のオーディオシーンベースのソースまたは前記少なくとも1つのオーディオソースを選択することは、
前記装置と前記さらなる装置との間の伝送または記憶チャネルの帯域幅、および、
前記さらなる装置の計算能力、
のうちの少なくとも1つに基づいて、前記2つ以上のオーディオシーンベースのソース、または、前記少なくとも1つのオーディオソースを選択することをさらに含む、請求項12に記載の方法。
【請求項14】
前記決定された少なくとも1つの位置に基づいて、前記少なくとも1つのオーディオソースを生成することは、前記少なくとも1つのさらなる装置からの前記決定された少なくとも1つの位置に基づいて、前記少なくとも1つのオーディオソースの前記位置を決定することを含む、請求項12に記載の方法。
【請求項15】
前記決定された少なくとも1つの位置に基づいて、前記少なくとも1つのオーディオソースを生成することは、
前記2つ以上のオーディオシーンベースのソース内のオーディオシーンベースのソースのグループを選択または定義することと、
前記2つ以上のオーディオシーンベースのソースと、前記2つ以上のオーディオシーンベースのソース内の前記選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つの空間パラメータとの組み合わせに基づいて、前記少なくとも1つの空間オーディオパラメータを生成することと、
前記2つ以上のオーディオシーンベースのソースと、前記2つ以上のオーディオシーンベースのソース内の前記選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つのオーディオ信号との組み合わせに基づいて、前記少なくとも1つのオーディオソース信号を生成すること、
のうちの少なくとも1つを含む、請求項11に記載の方法。
【請求項16】
前記2つ以上のオーディオシーンベースのソースを取得することは、
前記オーディオシーンに配置されたマイクから、少なくとも2つのオーディオ信号を取得することと、
前記少なくとも2つのオーディオ信号を解析して、前記2つ以上のオーディオシーンベースのソースと、前記2つ以上のオーディオシーンベースのソースの各々に関連する前記少なくとも1つの空間パラメータおよび前記少なくとも1つのオーディオ信号とを識別することと、
のうちの少なくとも1つを含む、請求項11に記載の方法。
【請求項17】
前記2つ以上のオーディオシーンベースのソースを取得することは、前記2つ以上のオーディオシーンベースのソースを受信または合成することを含む、請求項11に記載の方法。
【請求項18】
空間オーディオ信号レンダリングのための装置のための方法であって、該方法は、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースおよび生成された少なくとも1つのオーディオソースのうちの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を取得することと、ユーザ位置の値およびユーザ方向の値を取得することと、前記ユーザ位置の値に基づいて、前記生成された少なくとも1つのオーディオソース、および/または、前記2つ以上のオーディオシーンベースのソースのうちの少なくとも2つの選択を要求することと、前記要求に基づいて、少なくとも1つのレンダリングソース空間パラメータを取得することと、前記要求に基づいて、少なくとも1つのレンダリングソースオーディオ信号を取得することと、前記ユーザ方向の値、前記少なくとも1つのレンダリングソース空間パラメータ、および、前記少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成することと、を含み、
前記ユーザ位置の値に基づいて、前記生成された少なくとも1つのオーディオソース、および/または、前記2つ以上のオーディオシーンベースのソースのうちの少なくとも2つの選択を要求することは、
前記少なくとも1つのレンダリングソース空間パラメータおよび前記少なくとも1つのレンダリングソースオーディオ信号が取得される前記装置とさらなる装置との間の伝送または記憶チャネルの帯域幅、および、
前記装置の計算能力、
のうちの少なくとも1つを決定することと、
前記伝送または記憶チャネルの前記帯域幅または前記計算能力に基づいて、前記少なくとも1つのオーディオソースまたは前記2つ以上のオーディオシーンベースのソースのうちの少なくとも2つを選択することと、
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、6自由度のユーザのために、既知の位置にある高次アンビソニクスソースを含むオーディオシーンに対して、空間メタデータ補間を伴うオーディオレンダリングの装置および方法に関する。
【背景技術】
【0002】
空間オーディオキャプチャのアプローチは、オーディオ環境がリスナに効果的な方法で知覚的に再現され、さらに、リスナが再現されたオーディオ環境内で移動および/または回転することができるように、オーディオ環境をキャプチャしようとするものである。例えば、あるシステム(3自由度-3DoF)では、リスナは頭を回転させることができ、レンダリングされたオーディオ信号は、この回転運動を反映する。一部のシステム(3自由度プラス-3DoF+)では、リスナは頭を回転させると同時に環境内でわずかに「動く」ことができ、他のシステム(6自由度-6DoF)では、リスナは環境内で自由に動き、頭を回転させることができる。
【0003】
線形空間オーディオキャプチャとは、処理が、キャプチャされたオーディオの特徴に適応しないオーディオキャプチャ方法を指す。代わりに、出力は、キャプチャされたオーディオ信号の所定の線形結合である。
【0004】
録音空間のある位置で空間音をリニアに録音するためには、ハイエンドのマイクアレイが必要である。そのひとつが球状の32本マイク「Eigenmike」である。このマイクアレイから高次のアンビソニクス(HOA)信号を取得し、レンダリングに使用することができる。HOA信号を用いることで、異なる方向から到来する音を適切な可聴帯域幅で十分に分離するように空間オーディオをレンダリングすることができる。
【0005】
リニア空間オーディオのキャプチャ技術では、マイクアレイの性能が問題となる。短波長(高い周波数のオーディオ信号)には小さなマイク間隔が、長波長(低い周波数のオーディオ信号)には大きなアレイサイズが必要で、1つのマイクアレイで両方の条件を満たすことは困難である。
【0006】
キャプチャデバイスにリニアな空間オーディオキャプチャを実装すると、1つの位置でのみ取得される空間オーディオになる。
【0007】
パラメトリック空間オーディオキャプチャとは、マイクでキャプチャされたオーディオ信号に基づいて知覚的に関連するパラメータを推定し、これらのパラメータとオーディオ信号に基づいて、空間音を合成するシステムである。解析と合成は、通常、人間の空間的な聴覚解像度に近い周波数帯域で行われる。
【0008】
MPEG-Iイマーシブオーディオの標準化が進められている。MPEG-Iイマーシブオーディオでは、オブジェクト、チャンネル、HOAの3種類のオーディオ信号フォーマットを受信することが想定されている。MPEG-Iで採用されている信号フォーマットのひとつである高次アンビソニクス(HOA)ソースは、オブジェクトオーディオのキャプチャが不可能な場合や複雑すぎる場合に有効である。HOAオーディオは、ライブキャプチャから作成することも、多数のオブジェクトを含む仮想シーンから合成することもできる。シーンを表す複数のHOAソースを使用して、6自由度で移動できる。一般的に、シーンベースのオーディオキャプチャの場合、1つ以上のHOAソースは、適切なマイク(例えば、マイクアレイ)を用いてオーディオシーンをキャプチャすることによって作成される。
【0009】
レンダリングとは、キャプチャしたオーディオ信号(または、キャプチャしたオーディオ信号から派生したトランスポートオーディオ信号)、および、パラメータを処理して、例えば、ヘッドホンやラウドスピーカなど、適切なオーディオトランスデューサを介して、リスナに出力するのに適した出力を生成するプロセスである。
【発明の概要】
【発明が解決しようとする課題】
【0010】
本願発明の実施形態は、従来技術に関連する課題を解決することを目的とする。
【課題を解決するための手段】
【0011】
第1の態様によれば、イマーシブオーディオシーンを生成するための装置が提供され、該装置は、2つ以上のオーディオシーンベースのソースを取得することであって、該2つ以上のオーディオシーンベースのソースは、オーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を含む、取得することと、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの位置を決定することであって、少なくとも1つの位置は、レンダリングのために決定される、決定することと、決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成することであって、少なくとも1つのオーディオソースを生成するように構成された手段は、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成し、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオソースのための少なくとも1つのオーディオソース信号を生成するように構成される、生成することと、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を生成することであって、生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成することと、を行うように構成された手段を備える。
【0012】
取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの位置を決定するように構成された手段は、少なくとも1つのさらなる装置から少なくとも1つの位置を取得するように構成されており、手段は、さらに、少なくとも1つのさらなる装置に情報を送信することと、2つ以上のオーディオシーンベースのソースを選択するときに、選択された2つ以上のソースの少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を出力することと、少なくとも1つのオーディオソースを選択するときに、オーディオソースの少なくとも1つの空間オーディオパラメータ、および、少なくとも1つのオーディオソース信号を出力することと、を行うように構成されてよい。
【0013】
少なくとも1つのさらなる装置からの1つの位置に基づいて、2つ以上のオーディオシーンベースのソース、または、少なくとも1つのオーディオソースを選択するように構成された手段は、装置とさらなる装置との間の伝送または記憶チャネルの帯域幅、および、さらなる装置の計算能力のうちの少なくとも1つに基づいて、2つ以上のオーディオシーンベースのソース、または、少なくとも1つのオーディオソースを選択するように構成されてよい。
【0014】
決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成するように構成された手段は、少なくとも1つのさらなる装置からの決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースの位置を決定するように構成されてよい。
【0015】
決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成するように構成された手段は、2つ以上のオーディオシーンベースのソース内のオーディオシーンベースのソースのグループを選択または定義することと、2つ以上のオーディオシーンベースのソースと、2つ以上のオーディオシーンベースのソース内の選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つの空間パラメータとの組み合わせに基づいて、少なくとも1つの少なくとも1つの空間オーディオパラメータを生成し、2つ以上のオーディオシーンベースのソースと、2つ以上のオーディオシーンベースのソース内の選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つのオーディオ信号との組み合わせに基づいて、少なくとも1つのオーディオソース信号を生成する、ように構成されてよい。
【0016】
2つ以上のオーディオシーンベースのソースを取得するように構成された手段は、オーディオシーンに配置されたマイクから、少なくとも2つのオーディオ信号を取得することと、少なくとも2つのオーディオ信号を解析して、2つ以上のオーディオシーンベースのソースと、2つ以上のオーディオシーンベースのソースの各々に関連する少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号とを識別することと、を行うように構成されてもよい。
【0017】
2つ以上のオーディオシーンベースのソースを取得するように構成された手段は、2つ以上のオーディオシーンベースのソースを受信または合成するように構成されてよい。
【0018】
2つ以上のオーディオシーンベースのソースは、高次アンビソニクスソースであってよい。
【0019】
決定された少なくとも1つの位置に基づいて生成された少なくとも1つのオーディオソースは、位置補間された高次アンビソニクスソースであってよい。
【0020】
第2の態様によれば、空間オーディオ信号レンダリングのための装置が提供され、該装置は、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースおよび生成された少なくとも1つのオーディオソースのうちの少なくとも1つに関連する、少なくとも1つのオーディオ信号と、の間の関係に関する情報を取得することと、ユーザ位置の値およびユーザ方向の値を取得することと、ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースの少なくとも2つを選択するように要求することと、要求に基づいて、少なくとも1つのレンダリングソース空間パラメータを取得することと、要求に基づいて少なくとも1つのレンダリングソースオーディオ信号を取得することと、ユーザ方向の値、少なくとも1つのレンダリングソース空間パラメータ、および、少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成することと、を行うように構成された手段を備える。
【0021】
ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースのうちの少なくとも2つの選択を要求するように構成された手段は、少なくとも1つのレンダリングソース空間パラメータおよび少なくとも1つのレンダリングソースオーディオ信号が取得される装置とさらなる装置との間の伝送または記憶チャネルの帯域幅、および、装置の計算能力、のうちの少なくとも1つを決定することと、伝送または記憶チャネルの帯域幅または計算能力に基づいて、少なくとも1つのオーディオソースまたは2つ以上のオーディオシーンベースのソースのうちの少なくとも2つを選択することと、を行うように構成されてよい。
【0022】
第3の態様によれば、イマーシブオーディオシーンを生成する装置のための方法が提供され、該方法は、2つ以上のオーディオシーンベースのソースを取得することであって、該2つ以上のオーディオシーンベースのソースはオーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を含む、取得することと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連付けられた少なくとも1つの位置を決定することであって、少なくとも1つの位置はレンダリングのために決定される、決定することと、決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成することであって、少なくとも1つのオーディオソースを生成することは、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成することと、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオソースのための少なくとも1つのオーディオソース信号を生成することと、を含む、生成することと、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を生成することであって、生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成することと、を含む。
【0023】
取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つの位置を決定することは、少なくとも1つのさらなる装置から少なくとも1つの位置を取得することを含み、方法は、さらに、少なくとも1つのさらなる装置に情報を送信することと、2つ以上のオーディオシーンベースのソースを選択するときに、選択された2つ以上のソースの少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を出力することと、少なくとも1つのオーディオソースを選択するときに、オーディオソースの少なくとも1つの空間オーディオパラメータ、および、少なくとも1つのオーディオソース信号を出力することと、を含んでよい。
【0024】
少なくとも1つのさらなる装置からの1つの位置に基づいて、2つ以上のオーディオシーンベースのソースまたは少なくとも1つのオーディオソースを選択することは、装置とさらなる装置との間の伝送または記憶チャネルの帯域幅、および、さらなる装置の計算能力の少なくとも1つに基づいて、2つ以上のオーディオシーンベースのソース、または、少なくとも1つのオーディオソースを選択することを含む。
【0025】
決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成することは、少なくとも1つのさらなる装置からの、決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースの位置を決定することを含んでよい。
【0026】
決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成することは、2つ以上のオーディオシーンベースのソースのうちのオーディオシーンベースのソースのグループを選択または定義することと、2つ以上のオーディオシーンベースのソースと、2つ以上のオーディオシーンベースのソースのちの選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つの空間パラメータとの組み合わせに基づいて、少なくとも1つの少なくとも1つの空間オーディオパラメータを生成することと、2つ以上のオーディオシーンベースのソースと、2つ以上のオーディオシーンベースのソースのうちの選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つのオーディオ信号との組み合わせに基づいて、少なくとも1つのオーディオソース信号を生成することと、を含んでよい。
【0027】
2つ以上のオーディオシーンベースのソースを取得することは、オーディオシーンに位置するマイクから少なくとも2つのオーディオ信号を取得することと、少なくとも2つのオーディオ信号を解析して、2つ以上のオーディオシーンベースのソース、ならびに、2つ以上のオーディオシーンベースのソースのそれぞれに関連する、少なくとも1つの空間パラメータ、および、少なくとも1つのオーディオ信号を識別することと、を含んでよい。
【0028】
2つ以上のオーディオシーンベースのソースを取得することは、2つ以上のオーディオシーンベースのソースを受信または合成することを含んでよい。
【0029】
2つ以上のオーディオシーンベースのソースは、高次アンビソニクスソースであってよい。
【0030】
決定された少なくとも1つの位置に基づいて生成された少なくとも1つのオーディオソースは、位置補間された高次アンビソニクスソースであってよい。
【0031】
第4の態様によれば、空間オーディオ信号レンダリングのための装置のための方法が提供され、該方法は、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つ、および、生成された少なくとも1つのオーディオソースに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を取得することと、ユーザ位置の値およびユーザ方向の値を取得することと、ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースの少なくとも2つの選択を要求することと、要求に基づいて少なくとも1つのレンダリングソース空間パラメータを取得することと、要求に基づいて少なくとも1つのレンダリングソースオーディオ信号を取得することと、ユーザ方向の値、少なくとも1つのレンダリングソース空間パラメータ、および、少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成することと、を含む。
【0032】
ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースのうちの少なくとも2つの選択を要求することは、少なくとも1つのレンダリングソース空間パラメータおよび少なくとも1つのレンダリングソースオーディオ信号が取得される装置とさらなる装置との間の伝送または記憶チャネルの帯域幅、ならびに、装置の計算能力のうちの少なくとも1つを決定することと、伝送または記憶チャネルの帯域幅、または、計算能力に基づいて、少なくとも1つのオーディオソース、または、2つ以上のオーディオシーンベースのソースのうちの少なくとも2つを選択することと、を含んでよい。
【0033】
第5の態様によれば、イマーシブオーディオシーンを生成するための装置が提供され、この装置は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサを用いて、装置に少なくとも、2つ以上のオーディオシーンベースのソースを取得することであって、該2つ以上のオーディオシーンベースのソースは、オーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を含む、取得することと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連付けられた少なくとも1つの位置を決定することであって、少なくとも1つの位置はレンダリングのために決定される、決定することと、決定した少なくとも1つの位置に基づいて少なくとも1つのオーディオソースを生成することであって、少なくとも1つのオーディオソースを生成するように構成されている手段は、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの空間パラメータに基づいて少なくとも1つの空間オーディオパラメータを生成し、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つのオーディオ信号に基づいて少なくとも1つのオーディオソース用の信号を生成する、ように構成されている、生成することと、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を生成することであって、生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成することと、を行わせるように構成される。
【0034】
取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つの位置を決定するようにされた装置は、少なくとも1つのさらなる装置から、少なくとも1つの位置を取得するようにされてもよく、装置は、さらに、情報を少なくとも1つのさらなる装置に送信することと、2つ以上のオーディオシーンベースのソースを選択するときに、少なくとも1つの空間パラメータおよび選択した2つ以上のソースの少なくとも1つのオーディオ信号を出力することと、少なくとも1つのオーディオソースを選択するときに、オーディオソースの少なくとも1つの空間オーディオパラメータおよび少なくとも1つのオーディオソース信号を出力することと、を行わせるようにされてよい。
【0035】
少なくとも1つのさらなる装置からの1つの位置に基づいて、2つ以上のオーディオシーンベースのソース、または、少なくとも1つのオーディオソースを選択するようにされる装置は、装置とさらなる装置との間の伝送または記憶チャネルの帯域幅、および、さらなる装置の計算能力の少なくとも1つに基づいて、2つ以上のオーディオシーンベースのソース、または、少なくとも1つのオーディオソースを選択するようにされてよい。
【0036】
決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成するようにされた装置は、少なくとも1つのさらなる装置からの決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースの位置を決定するようにされてよい。
【0037】
決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成するようにされた装置は、2つ以上のオーディオシーンベースのソース内のオーディオシーンベースのソースのグループを選択または定義し、2つ以上のオーディオシーンベースのソースと、2つ以上のオーディオシーンベースのソース内の選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つの空間パラメータとの組み合わせに基づいて、少なくとも1つの少なくとも1つの空間オーディオパラメータを生成し、2つ以上のオーディオシーンベースのソースと、2つ以上のオーディオシーンベースのソース内の選択または定義されたオーディオシーンベースのソースのグループからの少なくとも1つのオーディオ信号との組み合わせに基づいて、少なくとも1つのオーディオソース信号を生成する、ことを行うようにされてよい。
【0038】
2つ以上のオーディオシーンベースのソースを取得するようにされた装置は、オーディオシーンに配置されたマイクから少なくとも2つのオーディオ信号を取得し、少なくとも2つのオーディオ信号を解析して、2つ以上のオーディオシーンベースのソース、ならびに、2つ以上のオーディオシーンベースのソースのそれぞれに関連する少なくとも1つの空間パラメータ、および、少なくとも1つのオーディオ信号を識別する、ことを行うようにされてもよい。
【0039】
2つ以上のオーディオシーンベースのソースを取得するようにされた装置は、2つ以上のオーディオシーンベースのソースを受信または合成するようにされてよい。
【0040】
2つ以上のオーディオシーンベースのソースは、高次アンビソニクスソースであってよい。
【0041】
決定された少なくとも1つの位置に基づいて生成された少なくとも1つのオーディオソースは、位置補間された高次アンビソニクスソースであってよい。
【0042】
第6の態様によれば、空間オーディオ信号レンダリングのための装置が提供され、この装置は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備え、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサにより、装置に少なくとも、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースおよび生成された少なくとも1つのオーディオソースのうちの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を取得することと、ユーザ位置の値およびユーザ方向の値を取得することと、ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースの少なくとも2つの選択を要求することと、要求に基づいて、少なくとも1つのレンダリングソース空間パラメータを取得することと、要求に基づいて、少なくとも1つのレンダリングソースオーディオ信号を取得することと、ユーザ方向の値、少なくとも1つのレンダリングソース空間パラメータ、および、少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成することと、を行わせるように構成される。
【0043】
ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースのうちの少なくとも2つの選択を要求される装置は、さらに、少なくとも1つのレンダリングソース空間パラメータおよび少なくとも1つのレンダリングソースオーディオ信号が取得される装置とさらなる装置との間の伝送または記憶チャネルの帯域幅、および、装置の計算能力、のうちの少なくとも1つを決定することと、伝送または記憶チャネルの帯域幅、または、計算能力に基づいて、少なくとも1つのオーディオソースまたは2つ以上のオーディオシーンベースのソースのうちの少なくとも2つを選択することと、を行うようにされてよい。
【0044】
第7の態様によれば、ユーザ位置に基づいて空間化されたオーディオ出力を生成するための装置が提供され、該装置は、2つ以上のオーディオシーンベースのソースを取得するための手段であって、2つ以上のオーディオシーンベースのソースはオーディオシーン内の1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を含む、取得するための手段と、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連付けられた少なくとも1つの位置を決定するための手段であって、少なくとも1つの位置はレンダリングのために決定される、決定するための手段と、決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成するための手段であって、少なくとも1つのオーディオソースを生成するための手段は、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成するための手段と、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオソース用の少なくとも1つのオーディオソース信号を生成するための手段と、を備える、生成するための手段と、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を生成するための手段であって、生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成するための手段と、を備える。
【0045】
第8の態様によれば、ユーザ位置に基づいて空間化されたオーディオ出力を生成するための装置が提供され、該装置は、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソース、および、生成された少なくとも1つのオーディオソースのうちの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を取得するための手段と、ユーザ位置の値およびユーザ方向の値を取得するための手段と、ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースの少なくとも2つを選択することを要求するための手段と、要求に基づいて少なくとも1つのレンダリングソース空間パラメータを取得するための手段と、要求に基づいて少なくとも1つのレンダリングソースオーディオ信号を取得するための手段と、ユーザ方向の値、少なくとも1つのレンダリングソース空間パラメータ、および、少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成するための手段と、を備える。
【0046】
第9の態様によれば、装置に、少なくとも、2つ以上のオーディオシーンベースのソースを取得することであって、2つ以上のオーディオシーンベースのソースはオーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータ、および、少なくとも1つのオーディオ信号を含む、取得することと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連付けられた少なくとも1つの位置を決定することであって、少なくとも1つの位置はレンダリングのために決定される、決定することと、決定した少なくとも1つの位置に基づいて少なくとも1つのオーディオソースを生成することであって、少なくとも1つのオーディオソースの生成は、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成し、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオソースのための少なくとも1つのオーディオ信号を生成する、ことを実施可能である、生成することと、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を生成することであって、生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成することと、を実行させるための命令[または、プログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
【0047】
第9の態様によれば、装置に少なくとも、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つ、および、生成された少なくとも1つのオーディオソースに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を取得し、ユーザ位置の値およびユーザ方向の値を取得し、ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースのうちの少なくとも2つの選択を要求し、要求に基づいて少なくとも1つのレンダリングソース空間パラメータを取得し、要求に基づいて少なくとも1つのレンダリングソースオーディオ信号を取得し、ユーザ方向の値、少なくとも1つのレンダリングソース空間パラメータ、および、少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成する、ことを実行させるための命令[または、プログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
【0048】
第11の態様によれば、装置に少なくとも、2つ以上のオーディオシーンベースのソースを取得することであって、該2つ以上のオーディオシーンベースのソースは、オーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータおよび少なくとも1つのオーディオ信号を含む、取得することと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連付けられた少なくとも1つの位置を決定することであって、少なくとも1つの位置はレンダリングのために決定される、決定することと、決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成することであって、少なくとも1つのオーディオソースの生成は、装置に、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成し、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオソースのための少なくとも1つのオーディオソース信号を生成する、ことを行わせる、生成することと、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を生成することであって、生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成することと、を実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。
【0049】
第12の態様によれば、装置に、少なくとも、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つ、および、生成された少なくとも1つのオーディオソースに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を取得することと、ユーザ位置の値およびユーザ方向の値を取得することと、ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースの少なくとも2つの選択を要求することと、要求に基づいて少なくとも1つのレンダリングソース空間パラメータを取得することと、要求に基づいて少なくとも1つのレンダリングソースオーディオ信号を取得することと、ユーザ方向の値、少なくとも1つのレンダリングソース空間パラメータ、および、少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成することと、を実行させるためのプログラム命令を含む非一時的なコンピュータ可読媒体が提供される。
【0050】
第13の態様によれば、2つ以上のオーディオシーンベースのソースを取得するように構成された取得回路であって、2つ以上のオーディオシーンベースのソースはオーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータ、および、少なくとも1つのオーディオ信号を含む、取得回路と、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つと関連付けられた少なくとも1つの位置を決定するように構成された決定回路であって、少なくとも1つの位置はレンダリングのために決定される、決定回路と、決定された少なくとも1つの位置に基づいて少なくとも1つのオーディオソースを生成することであって、少なくとも1つのオーディオソースを生成するように構成された生成回路は、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成し、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオソース用の少なくとも1つのオーディオソース信号を生成する、ように構成される、生成することと、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を生成するように構成された生成回路であって、生成された少なくとも1つのオーディオソースがレンダラのプリファレンスに基づいて選択される、生成回路と、を備える装置が提供される。
【0051】
第14の態様によれば、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つ、および、生成された少なくとも1つのオーディオソースに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を取得するように構成された取得回路と、ユーザ位置の値およびユーザ方向の値を取得することと、ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースの少なくとも2つの選択を要求するように構成されている取得回路と、要求に基づいて少なくとも1つのレンダリングソース空間パラメータを取得するように構成された取得回路と、要求に基づいて少なくとも1つのレンダリングソースオーディオ信号を取得するように構成された取得回路と、ユーザ方向の値、少なくとも1つのレンダリングソース空間パラメータ、および、少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成するように構成された生成回路と、を備える装置が提供される。
【0052】
第15の態様によれば、装置に、少なくとも、2つ以上のオーディオシーンベースのソースを取得することであって、2つ以上のオーディオシーンベースのソースはオーディオシーンにおける1つ以上の位置に関連付けられ、各オーディオシーンベースのソースは、少なくとも1つの空間パラメータ、および、少なくとも1つのオーディオ信号を含む、取得することと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連付けられた少なくとも1つの位置を決定することであって、少なくとも1つの位置はレンダリングのために決定される、決定することと、決定された少なくとも1つの位置に基づいて、少なくとも1つのオーディオソースを生成することであって、少なくとも1つのオーディオソースの生成は、装置に、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースのうちの少なくとも1つに関連する少なくとも1つの空間パラメータに基づいて、少なくとも1つの空間オーディオパラメータを生成し、決定された少なくとも1つの位置に関連して、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つのオーディオ信号に基づいて、少なくとも1つのオーディオソースのための少なくとも1つのオーディオソース信号を生成する、ことを行わせる、生成することと、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を生成することであって、生成された少なくとも1つのオーディオソースは、レンダラのプリファレンスに基づいて選択される、生成することと、を実行させるためのプログラム命令を含む、コンピュータ可読媒体が提供される。
【0053】
第16の態様によれば、装置に少なくとも、生成された少なくとも1つの空間オーディオパラメータと、取得された2つ以上のオーディオシーンベースのソースの少なくとも1つ、および、生成された少なくとも1つのオーディオソースに関連する少なくとも1つのオーディオ信号との間の関係に関する情報を取得することと、ユーザ位置の値およびユーザ方向の値を取得することと、ユーザ位置の値に基づいて、生成された少なくとも1つのオーディオソース、および/または、2つ以上のオーディオシーンベースのソースの少なくとも2つの選択を要求することと、要求に基づいて少なくとも1つのレンダリングソース空間パラメータを取得することと、要求に基づいて少なくとも1つのレンダリングソースオーディオ信号を取得することと、ユーザ方向の値、少なくとも1つのレンダリングソース空間パラメータ、および、少なくとも1つのレンダリングソースオーディオ信号に基づいて、少なくとも1つの出力オーディオ信号を生成することと、を実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。
【0054】
電子機器は、本明細書に記載されるような装置を備えてよい。
【0055】
チップセットは、本明細書で説明するような装置を備えてよい。
【図面の簡単な説明】
【0056】
本願のより良い理解のために、次に、添付の図面を例として参照する。
図1図1は、実施形態が実装され得るシナリオオーディオシーンを模式的に示す。
図2図2は、6自由度高次アンビソニクスのレンダリングに採用される現在の操作の一例のフロー図である。
図3図3は、実施形態が実装され得る、位置補間された高次アンビソニクスソースを追加した図1に示すシナリオオーディオシーンを模式的に示す図である。
図4図4は、いくつかの実施形態による、図3に示すような高次アンビソニックソースおよび位置補間された高次アンビソニックソースのためのデータ構造を模式的に示す。
図5図5は、いくつかの実施形態が採用され得る例示的な装置を示す。
図6図6は、いくつかの実施形態による図5に示される例示的な装置の動作のフロー図である。
図7図7は、補間された高次アンビソニックおよび高次アンビソニックソースを含むレンダリングメタデータを有するMPHOAレンダリングのためのレンダラHOAソース選択基準のフロー図である。
図8図8は、実施形態が実装され得るシステムを示す。
図9図9は、図示された装置を実装するのに適した例示的な装置を概略的に示す図である。
【発明を実施するための形態】
【0057】
マルチポイント高次アンビソニクス(MPHOA)レンダリングは、一般的に、計算量が多い。レンダリング処理には、複数の高次アンビソニクス(HOA)オーディオソースのオーディオ信号が必要である。そのため、複数のオーディオソースからオーディオ信号を伝送するために、通常、必要な帯域幅が大きくなる。
【0058】
既存のシステムでは、通常、3つのHOAソースのオーディオ信号と、3~5個のHOAソースの空間メタデータセット(例えば、リスナ位置が5つのHOAソースで形成される2つの三角形の境界にある場合)を配信する必要がある。
【0059】
そのため、現在、より高次のアンビソニクスベースのシステムには、大きな計算能力と大きな帯域幅が必要とされている。
【0060】
例えば、図1に示すように、実施形態が適用され、現在の手法に対する利点をもたらし得るシナリオの一例が示されている。図1において、オーディオシーンにおける、第1オーディオソースAS101、第2オーディオソースAS103、第3オーディオソースAS105、および、第4オーディオソースAS107の4つのオーディオソースが示されており、これらは、6つのマイク(または、マイクアレイ)によりキャプチャされて、キャプチャした高次アンビソニクス(HOA)ソースである、第1HOAソースH111、第2HOAソースH113、第3HOAソースH115、第4HOAソースH117、第5HOAソースH119、および、第6HOAソースH121を作成することが可能である。以下の例では、HOAソースH113、H115、H117を含むHOAソースの第1サブセットS123と、HOAソースH115、H117、および、H119を含むHOAソースの第2サブセットS125が定義されうる。リスニング位置P131とP133を結ぶ曲線で表される経路をたどるリスナ位置に応じて、レンダラは、3~5個のHOAソース空間メタデータおよびオーディオ信号データを要求することになる。例では、キャプチャされたHOAソースについて説明したが、いくつかの実施形態では、合成HOAソースも存在し得る。
【0061】
図2は、6DoF HOAシステムをレンダリングするために採用されている現在の方法を示す。
【0062】
まず、図2において、ステップ201で示すように、エンコーダ入力フォーマット(EIF)情報を受信、または、他の方法により取得する。EIF(エンコーダ入力フォーマット)は、コンテンツ作成者指定のオーディオシーン記述の一形態である。HOAソースH、H、H、H、Hは、EIF(または、それに相当するコンテンツ作成者のシーン記述)に含まれる。
【0063】
さらに、図2において、ステップ202で示すように、MPEG-H、または、他のフォーマットのオーディオ信号データを受信、または、その他の方法で取得する。
【0064】
図2において、ステップ203で示すように、EIFおよびオーディオ信号データは、MPEG-I MPHOAエンコーダへ送られる。
【0065】
次に、図2において、ステップ205で示すように、エンコーダは、6自由度を持つリスナ動作を可能にするためのMPHOA処理を行うために一緒に処理すべきHOAグループの数を決定するためにEIFを解析するように構成される。
【0066】
次に、図2において、ステップ207で示すように、エンコーダは、HOAグループにおいて高次アンビソニックソース(OH)を決定するように構成され得る。
【0067】
続いて、エンコーダは、HOAソースの各々を処理して、6DOFレンダリングに必要な空間メタデータを生成するように構成される。高次アンビソニックオーディオ信号からの高次アンビソニックソースのための空間メタデータの生成は、図2において、ステップ209で示される。
【0068】
これらの操作は、その後、図2に参照番号200で示すように、EIFに基づいてレンダリングメタデータを生成する動作としてまとめることができる。
【0069】
EIFにおけるHOAソースは、コンテンツ作成者がEIFにおいて定義したものであるため、オリジナルHOAソースと呼ばれる。
【0070】
図2において、ステップ211で示すように、(再生装置)プレーヤは、リスナ位置(LP)に基づいて、HOAソース空間メタデータおよびオーディオ信号を選択するように構成されている。
【0071】
図1に示すシナリオを参照すると、リスナが位置P131にいる場合、ソースの選択はサブセットS123であり、位置P133の場合、選択はサブセットS125である。リスナ位置(LP)に基づくOHソース空間メタデータおよびオーディオ信号の選択は、図2において、ステップ211で示される。
【0072】
その後、選択されたコンテンツが取り出される(retrieved)。通常、この動作は、帯域幅のかなりの量を消費する。LPの周りに三角形を形成するOHソース空間メタデータおよびオーディオ信号を取り出す動作は、図2において、ステップ213で示されている。
【0073】
図2において、ステップ210で示すように、ステップ211および213は、LP(3~5個のOHソース空間メタデータおよびオーディオ信号)に基づくコンテンツ選択および取り出しとして要約することができる。
【0074】
その後、取り出されたサブセットは、再生装置またはレンダリング装置におけるレンダリング処理のために入力される。最も近いHOAオーディオ信号から始まる、LPに基づくHOA空間メタデータ補間の実行は、図2において、ステップ221で示されている。このレンダリング処理は、複数のHOAソースからのデータを含む処理であるため、計算集約的な動作となる。ステップ221は、3~5個のOHソースから空間メタデータ補間の処理およびメモリに必要な計算リソースとしてまとめることができる。
【0075】
以下の説明では、オリジナルの高次アンビソニクスソース(OHソース)は、オーディオシーンの作成の一部として、コンテンツ作成者によって提供される、HOAまたはシーンベースのオーディオである。オリジナルのHOA(OH)ソースは、オーディオシーンにおける1つ以上の位置からシーンをキャプチャするマイク(または、マイクアレイ)のいずれかから生成される。また、HOAソースは、オーディオオブジェクトのセットから合成によって生成することもできる。OHソースはコンテンツ作成時に、シーンに導入されるものであるため、オーディオシーン記述に存在する。MPEG-Iイマーシブオーディオの標準化規格では、コンテンツ作成者のオーディオシーン記述はEIF(エンコーダ入力フォーマット)である。
【0076】
さらに以下の説明では、位置補間HOAソース(PIHソース)は、コンテンツ消費の選択の柔軟性を高めるために、レンダリングメタデータ作成の一部として生成されるHOAソースである。PIHソースは、MPEG-Iエンコーダによる6自由度レンダリングメタデータ作成段階で導入されるため、MPEG-Iイマーシブオーディオ標準化規格では、コンテンツ作成者のシーン記述やEIFにPIHソースが存在しない。しかしながら、PIHソースは、MPEG-Iプレーヤがコンテンツの選択および取り出しのために利用できるMPEG-Iビットストリームに存在する。
【0077】
以下の実施形態に示すコンセプトでは、レンダリングメタデータ作成段階で、追加の位置補間HOA(PIH)ソース(空間メタデータ付き)を生成し、PIHソースに対して関連するHOAソースオーディオ情報を生成して、単一のHOAソースのみで6DoF移動(translation)レンダリングを可能にすることによって、複数のオリジナルHOA(OH)ソースを含むシーンに対する6DOFレンダリングに必要なレンダリング計算およびネットワーク帯域を低減する方法および装置について説明する。
【0078】
事前に生成されたPIHソースおよび関連するメタデータは、OHソースとともにコンテンツ配信サーバによってホストされ得る。その結果、レンダラやプレーヤは、適切なPIHソースおよび指示されたオーディオ信号を直接取り出すことができる。その結果、(通常、3つのHOAソースメタデータの代わりに)単一のHOAソースメタデータ処理を含む計算が少なくなり、単一のHOAソース空間メタデータおよび関連するOHソースオーディオ信号のみを取り出す必要性により、帯域幅が減少する。
【0079】
したがって、低複雑性、低帯域幅の移動再生は、いくつかの実施形態において、
レンダリングメタデータ作成中に、OHオーディオ信号から補間された空間メタデータを含む1つまたは複数のPIHソースを生成することと、
少なくとも1つの基準(例えば、PIHソースの位置に最も近い、2番目に近いが別の隣接するPIHソースに近い)に基づいて、PIHソースの各々に関連する少なくとも1つのHOAオーディオ信号を決定することと、
PIH空間メタデータとHOAオーディオ信号との間を関連付ける情報を生成することと、
OHおよびPIH表示を含むHOAソース情報をレンダラに生成することと、
によって達成することができる。
いくつかの実施形態では、PIHソースおよびOHソースメタデータは、HTTP上の動的適応ストリーミング(DASH)ベースの配信のためのコンテンツ選択を可能にするために、メディア表示記述(またはマニフェスト)において示される。
いくつかの実施形態において、レンダラは、帯域幅および/または計算リソースの制約に応じて、異なるモードで動作するように構成され得る。いくつかの実施形態では、3つのモードが存在し得る。
モード1:2つ以上のOHソースの空間メタデータおよびオーディオ信号によるレンダリング。
モード2:単一のOHソース空間メタデータ、および、6DoFが制限された関連するOHオーディオ信号によるレンダリング。
モード3:3DoFレンダリングで最も近い単一のOHまたはPIHソース空間メタデータおよび関連するOHオーディオ信号によるレダリング。
【0080】
モード1では、ユーザの動きの自由度が高くなる。モード2はモード1に比べてユーザの動きの自由度は低いが、モード1に比べて計算量が少なく、帯域幅も狭くなる。モード3は、モード1やモード2に比べて計算量が最も少ないが、想定されるリスニング位置においてOHおよびPIHのソースが利用可能であることが期待される。リスナ位置のホットスポットが分かっている場合、MPEG-Iエンコーダは、適切なLPにおいてPIHソースを生成することができる。本発明の一実施形態において、コンテンツ処理サーバ(すなわち、MPEG-Iエンコーダをホストする)は、ユーザの動きから収集されるLPの軌跡によって取得されるクラウドソースされたコンテンツ消費ホットスポットに基づいて、利用可能なPIHソースを定期的に更新する。上記のいずれのモードにおいても、プレーヤは、3つのモードすべてにおいて、PIHソースと同等の方法でレンダリングを実行することができる。PIHソースを追加する必要性は、完全な6DoFのためのOHソースサブセットの使用と比較して、単一のPIHレンダリング(限定的6DoF)で、音質の有意な損失なしに、限られたユーザの移動に起因する。
【0081】
本明細書に記載された実施形態を採用することにより、MPHOAレンダリング帯域幅を最大1/3まで削減することができる。さらに、計算に制約のある消費デバイスでのMPHOAレンダリングにより、ローエンド機器を6DoF MPHOAレンダリングの対象となる市場とすることができる。
【0082】
本明細書に記載された実施形態では、サーバにおける追加の記憶装置および事前計算を利用することによって、レンダラ/プレーヤにおける計算の複雑性とネットワーク帯域幅の要件との間のトレードが実施され得る。
【0083】
そのため、複雑なシーンのレンダリングにおいて、柔軟な機器構成が可能となる。
【0084】
実施形態において、OHソースの助けを借りて位置補間HOAまたは位置補間HOA(PIH)ソースを生成し、6DoFレンダリングメタデータ作成段階で適切なOHオーディオソース情報を追加することは、現在、他で議論されていない概念である。上記で示したように、これは、コンテンツ作成に影響を与えることなく、計算の複雑性をレンダラからコンテンツ処理またはコンテンツホスティング(例えば、PIHソース空間メタデータをホストするDASHサーバ)にシフトさせるものである。
【0085】
さらに本明細書で説明するコンセプトは、複数のHOAソースオーディオ信号データの配信の必要性を大幅に削減する単一のOHオーディオソースの信号を示すように構成されている。
【0086】
コンセプトおよび実施形態は、MPEG規格内での実装に適しているが、本技術は、他のフォーマットおよび空間オーディオキャプチャコンテンツに適用することができる。さらに、本明細書で説明する実施形態は、オーディオ信号データを変更する必要がなく、最適なものの使用のみを示すように構成される。
【0087】
本発明のコンセプトは、図1に示されるようなシーンを示す図3を参照して説明される。しかしながら、この例のシーンでは、さらなる第5のオーディオソースAS109と、リスナ装置135および137のためのさらなる位置も存在する。シーンは、さらに(位置補正HOA)PIHソース301、303、305、および、307を含む。PIHソースは、単一のHOAソース空間メタデータおよび単一のHOAソースオーディオ信号データのみを取得することによって、レンダラがレンダリングを実行できる追加のリスニング位置を作成する。
【0088】
図4に関連して、シーンラベル401「poal」に関連するPIHソース410、および、HOAソース420、430、440のデータ構造の例を示す。
【0089】
この例では、ソース420、430、440などのOH(HOA)ソースのデータ構造は、以下の通りである。
ソースタイプ識別子(hoa_source_type OH)441
一意のソース識別子(hoa_source_id)443
HOAソース情報445
6DOF HOAオーディオデータトラックヘッダ447
HOAオーディオ信号データトラック449
【0090】
本実施例におけるソース410のようなPIHソースのデータ構造は、以下の通りである。
ソースタイプ識別子(hoa_source_type PIH)411
一意のソース識別子(hoa_source_id)413
HOAソース情報415
6DOF HOA空間メタデータトラックヘッダ417
HOAレンダリングメタデータトラック419
【0091】
図5に関して、いくつかの実施形態を実施するのに適した装置の例示的なシステムを示す。
【0092】
この例では、システムは、エンコーダ(この例では、MPEG-Iエンコーダ505)に渡されるように構成されたEIF502入力を含む。
【0093】
さらに、システムは、エンコーダ505に渡されるように構成されたMPEG-Iオーディオ504入力を含む。
【0094】
システムは、さらに、(MPEG-I)エンコーダ505を有する。エンコーダ505は、(MPEG-I)オーディオ504およびEIF502を受信し、受信したシーン記述(EIF)およびオーディオ生信号からレンダリングメタデータを生成するように構成される。
【0095】
いくつかの実施形態では、エンコーダは、シーン記述情報(EIF)を使用して、1つ以上のHOAグループの存在を検出または決定する。各HOAグループは、2つ以上のHOAソースを含む。EIF情報においてコンテンツ作成者によって特定されたHOAソースは、オリジナルHOAソースまたはOHソースと呼ばれる。
【0096】
さらに、エンコーダ505は、追加の位置補間HOAソース(PIHソース)を生成するための少なくとも1つの候補位置を決定するように構成される。
【0097】
いくつかの実施形態におけるエンコーダ505は、候補PIHソースのそれぞれを包含するOHソースを使用して空間メタデータ補間を実行し、位置補間された空間メタデータを生成する。空間メタデータ補間を実行する方法は、GB出願2002710.8で議論されているように行うことができる。
【0098】
いくつかの実施形態では、エンコーダは、使用されるPIH空間メタデータを計算するために使用される1つまたは複数のOHソースからオーディオ信号を決定するようにさらに構成される。
【0099】
例えば、いくつかの実施形態において、最も近いOHソースオーディオ信号が、特定のPIHソースと関連するOHソースオーディオ信号として追加される。
【0100】
いくつかの実施形態では、エンコーダは、近隣のPIHソースにも関連するオーディオ信号であるように、OHソースオーディオ信号を選択するように構成される。このようなアプローチは、プレーヤ/レンダラが、リスナの動きに応答してシームレスな動作を保証するために、オーディオコンテンツのより長い持続時間を取得することを可能にする。
【0101】
いくつかの実施形態において、特定または決定されたリスナ位置の数は、OHソースの数およびOHソース間の距離に依存し得る。
【0102】
さらにいくつかの実施形態では、決定されたPIHソースの数は、許可される移動の量に依存する。PIHソースの数は、各PIHソースに対して許可される移動の範囲と、許容可能な記憶装置のサイズとの間のトレードオフに依存する。
【0103】
例えば、簡単に説明すると、マイクは(オーディオシーンの各マイクに対して)正三角形になるように配置される。三角形の面積Aは次式で与えられる。
【数1】
ここで、aは三角形の辺の長さである。
【0104】
各PIHソースの移動距離が6分の1になるように、PIHソースがOHソースの間に埋め込まれる場合、各PIHソースによる6DoFレンダリングの対象領域は、(a/d)^2*πとなり、ここでd>1である。通常、単一のPIHソースのパラメトリックレンダリングでは、dが1に近づくと顕著な劣化はあるが、限られた移動距離では高い品質を維持することができる。
【0105】
AをカバーするPIHソースの数は、以下の式で与えられる。
【数2】
【0106】
a=3mとすると、A=3.9平方メートルとなる。0.5mの移動が可能なPIHの場合(すなわち、d=6)、必要なPIHソースの数は、この例では、5個である。
【0107】
正三角形に対する定義は、あらゆる三角形に拡張することができる。
【0108】
いくつかの実施形態では、必要とされる追加の記憶容量が制約となるように、PIH間距離を決定することができる。
【0109】
さらにいくつかの実施形態では、OHソースのサブセットのみがPIHソースと共に埋め込まれる。例えば、このサブセット実装は、リスナ位置ヒートマップに基づいて、PIHソースとの追加のデータ格納が制御される大きなオーディオシーンで採用することができる。
【0110】
さらに、このサブセットの選択は、レンダリングメタデータやオーディオ信号データをホストするCDN(コンテンツデリバリーネットワーク)に基づいて、地域ごとにカスタマイズすることも可能である。
【0111】
いくつかの実施形態では、OHソースのHOAソース情報は、以下のようにすることができる。

aligned(8) HOASourceInformationStruct(){
unsigned int(2) hoa_source_type; //OH or PIH source
HOASourcePositionStruct(); //position of the HOA source
unsigned int(16) hoa_source_id; //unique identifier for each HOA source
unsigned int(3) hoa_order; //order of HOA source
bit (3) reserved = 0;
HOAGroupInformationStruct(); //grouping information of the HOA source


aligned(8) HOAGroupInformationStruct(){
unsigned int(16) hoa_source_group_id; //Unique HOA group identifier
【0112】
【表1】
【0113】
図4に示すように、レンダリング401のための信頼できる代替であるOHソース、PIHソース、および、OHオーディオ信号のグループ化は、PIHソースメタデータを含むトラックおよび関連する代替OHオーディオ信号を同じエンティティグループに含めることを指定する、「poal」(PIHおよびOHのソースオーディオの代替)に等しいgrouping_typeを有するEntityToGroupBoxを用いて定義することが可能である。
aligned(8) class HOASourceOHAudioAlternativesBox(version, flags) extends EntityToGroupBox('poal', version, flags) {
// conditionally mandatory
for(i=0; i<num_entities_in_group; i++)
unsigned int(16) ref_ohaudio_id[i];
【0114】
この例では、ref_ohaudio_id[i]は、このグループ内のPIHソースのレンダリングに信頼できるオーディオ信号であるi番目のentity_idで識別されるトラックからのhoa_source_idを指定する。PIHソースのレンダリングに適したOHオーディオ信号のentity_idは、最小のインデックスが最も高い優先順位となるように並べられる。ref_ohaudio_id[0]で識別されるOHは、最も好ましいOHオーディオ信号ソースである。i番目の参照されるトラックは、ref_ohaudio_id[i]に等しいhoa_source_idを有することができる。単一のオーディオ信号が適している場合、エンティティの数は存在しないようにすることができる。
【0115】
いくつかの実装形態では、6DOF OHソースは、空間レンダリングメタデータトラックのサンプルエントリに含まれる新しいボックス-6DOFOHSourceBox(「6dohb」)として、HOASourceInformationStruct()をシグナリングすることにより示され、関連するOHオーディオ信号データについての情報を搬送する。
aligned(8) 6DOFHOABox() extends FullBox('6dhb',0,flags) { #container: AudioSampleEntry or Timed metadata. New definition
HOASourceInformationStruct();
unsigned int(1) hoa_source_audio_or_render_meta;
bit(7) reserved = 0;
【0116】
いくつかの実施形態では、(MPEG-I)エンコーダ505は、コンテンツ選択のためのメタデータマニフェストをレンダリングまたは生成するようにさらに構成される。
【0117】
いくつかの実施形態では、コンテンツ選択のためのメタデータマニフェストの生成は、DASHメディアプレゼンテーション記述(MPD)に対して、「urn:mpeg:mpegI:mia:2021:6DOH」に等しい@schemeIdUri属性を有するHOAソース要素が、オリジナルHOAソース(EIFで定義されたOHソース)、6DOH記述子として言及されるものである。さらに、HOAソースは、HOASourceInformationStruct()において記述され、hoa_source_typeの値は0に等しい。
【0118】
また、@schemeIdUri属性が「urn:mpeg:mpegI:mia:2021:6DPH」であるHOAソース要素は、位置補間HOAソース(PIHソース)、6DPH記述子として参照される。HOAソースは、HOASourceInformationStruct()に記述され、hoa_source_typeの値は1に等しい。
【0119】
いくつかの実施形態では、6DOH適応セットの数は、コンテンツ作成者シーン記述におけるOHソースのそれぞれについてのデータ(オーディオ信号データおよび空間メタデータ)に対して存在する。同様に、レンダリングメタデータ作成段階で追加された1つ以上のPIHソースがある場合、それらは、補間された空間メタデータ表現の各々に対応する6DPH記述子を有する適応セットとして存在する。
【0120】
PIHソースがない場合、レンダリングはOHソース(オーディオおよび空間メタデータ)のみを使用して実行される。メディアマニフェスト内にPIHソースがある場合、プレーヤは、レンダリング装置の計算リソースおよび帯域幅の利用可能性に応じて、取り出しと再生のための適切な適応セットを自由に選択することができる。
【0121】
いくつかの実施形態における6DOHおよび6DPH記述子は、@value属性と、以下の表に規定される副要素および属性を有するHOASourceInfo要素を含むものとする。
【0122】
【表2-1】
【表2-2】
【0123】
いくつかの実施形態では、他のマニフェスト実装アプローチは、すべてのHOAソース(OHおよびPIH)に対する単一の記述子を含む。そのような実施形態におけるメディアプレゼンテーション記述(MPD)は、適応セットがOHソースを表しているか、または、PIHソースを表しているかを示す追加の必須パラメータhoa_source_typeを有する。
【0124】
いくつかの実施形態では、OHおよびPIHソースは、Java(登録商標)Script Object Notation(JSON)形式の属性としてリストされる。これは、DASH以外の配信方法が使用される場合に有用であり得る。配信方法の選好に応じて、セッション記述プロトコル(SDP)も、利用可能なHOAソースを記述するために使用され得る。これは、コンテンツのブロードキャストおよびマルチキャスト配信のために有益である。このようなシナリオでは、プレーヤは、OHまたはPIHソースを表すアプローチストリームを選択して、6DOFレンダリングを実行することができる。
【0125】
レンダリングビットストリームおよびHOAソースオーディオ信号506を生成した後、これらを適切なMPEG-Iコンテンツノード508(サーバまたはクラウドベースの記憶素子であってもよい)に渡すことができる。
【0126】
コンテンツノード508は、さらに、1つの位置補間されたHOAソースメタデータおよび1つのHOAソースオーディオ510を(MPEG-I)レンダラ511に転送することができる。
【0127】
いくつかの実施形態では、レンダラ511は、6DoFオーディオシーンにおけるOHおよびPIHソースの存在を利用するために、異なるモードで動作するように構成され得る。いくつかの実施形態では、異なるプレーヤは、計算リソースの利用可能性およびネットワーク帯域幅の利用可能性に応じた選好を有するため、これらのモードは、決定された推定計算リソース要件および利用可能なネットワーク帯域幅に基づいて選択され得る。
【0128】
以下の例では、以下のモードを提示しているが、他の動作モードを実装することも可能である。
【0129】
いくつかの実施形態では、第1レンダリングモード(Mode1)が存在する。第1レンダリングモードは、レンダラ511が、最先端のMPHOAレンダリングを実行するために計算機を備えて装備されている、いくつかの実施形態において採用され得る。この動作モードでは、レンダラ511は、リスナ位置に基づいて三角形を形成するOHソースおよび対応するオーディオ信号を取得するように構成される。
【0130】
このモードでは、(通常)3つ以上のOHソースを使用できるため、リスナの移動の自由度が高いという利点がある。さらに、3つのOHソースを包含する三角形内にリスナが移動する可能性が高いため、より多くのデータを事前に取得できる利点がある。
【0131】
また、このモードでは、OHソースのオーディオ信号データに加えて、OHソースのためだけに生成された空間メタデータをレンダラで使用することができる。
【0132】
さらに、このモードでは、レンダラがリスナの位置に依存して、いずれかのオーディオ信号を切り替える可能性があるため、オーディオ信号だけでなく3~5個のHOAソースの空間メタデータを取得するための帯域も必要となる。
【0133】
しかしながら、提案されたOHソースオーディオ信号データの助けを借りて、いくつかの実施形態では、任意の適切なMPHOAレンダリングは、「最適な」OHソースオーディオ信号データのみの使用を要求することによって最適化され得る。「最適」は、実装に依存して、最も近いか、または、最も変化が少ないかのいずれかであり得る。
【0134】
いくつかの実施形態では、第2レンダリングモード(Mode2)が存在する。このモードは、レンダラ511が計算能力を備えているが、帯域幅によって制約される場合に実施することができる。そのような実施形態では、レンダラ511は、リスナ位置、1つのPIHソース空間メタデータ、および、関連するOHソースオーディオ信号に基づいて取得するように構成され得る。レンダラは、取り出されたデータを用いて、限定的な6自由度の動作を実行することができる。レンダラ511は、いくつかの実施形態において、レンダリングのために、次の近接したPIHソース空間メタデータおよび関連するソースオーディオ信号を取得するように構成され得る。
【0135】
そのため、このモードでは、単一のPIHソースの空間メタデータおよび単一のOHソースのオーディオ信号データを取得するだけでよい。
【0136】
さらに、第2レンダリングモードは、OHソースに加えて、PIHソースのための空間メタデータを生成するように構成される。したがって、このモードは、コンテンツノード508(例えば、DASH配信のためのCDN)上に追加の記憶装置を必要とする。
【0137】
実施形態では、このモードは、レンダラ511が計算および帯域幅で制約されている場合に採用され得る。そのような実施形態では、レンダリングモードは、レンダラ511が、PIHソース空間メタデータおよび関連するオーディオ信号を取得するように構成されている。そのような実施形態におけるレンダラ511は、限定された6DOFレンダリングを実行するように構成される。
【0138】
いくつかの実施形態では、第3レンダリングモード(Mode3)が存在する。第3レンダリングモードは、レンダラ511が計算上著しく制約されるものである。そのような実施形態では、レンダラ511は、最も近いPIHソースメタデータおよび関連するOHオーディオ信号データを選択して、3DOFレンダリングのみを実行するように構成される。
【0139】
この第3レンダリングモードにおいて、レンダラ511は、レンダラが計算上の制約のために3DOFレンダリングを実行することしかできない場合、最も近いOHソースの使用(これは、デフォルト動作であり得る)と比較して、より良いリスニング体験を提供するように構成される。さらに、コンテンツ作成者は、計算上の制約が大きいレンダラに対して、空間的にローカライズされた体験を提供するための追加のコンテンツ作成を行う必要がないという利点もある。MPEG-Iエンコーダは、レンダリングのための空間メタデータを作成する際に、必要なPIHソースを生成する。
【0140】
図6に関して、システムの動作、および、レンダラのモード1およびモード2に関する動作を示す。
【0141】
したがって、図6において、ステップ601によって、EIFを受信する動作が示されている。
【0142】
さらに、図6において、ステップ602で示すように、MPEG-Hオーディオを受信する動作が示されている。
【0143】
そして、図6において、ステップ603で示すように、EIF情報およびMPEG-Hオーディオを受信すると、MPEG-I MPHOAを符号化する動作となる。
【0144】
図6において、ステップ605で示すように、MPEG-I MPHOAを生成した後、MPHOAグループが決定される。
【0145】
さらに、図6において、ステップ607で示すように、HOAグループのOHソースの決定が示されている。
【0146】
ステップ609、611、613、615では、OHソースに基づき、PIHソースを用いない方法を説明する。
【0147】
例えば、図6において、ステップ609で示すように、レンダリングの第1モードでは、OHオーディオ信号からOH用空間メタデータを生成する動作が示されている。
【0148】
さらに、図6において、ステップ611で示すように、レンダリングの第1モードでは、リスナ位置(LP)に基づくOHソース空間メタデータおよびオーディオ信号の選択が示されている。
【0149】
さらに、図6において、ステップ613で示すように、レンダリングの第1モードでは、LPの周りに三角形を形成するOHソース空間メタデータおよびオーディオ信号の取得が示されている。
【0150】
次に、図6において、ステップ615で示すように、レンダリングの第1モードについては、最も近いHOAオーディオ信号から始まるLPに基づいて、HOA空間メタデータ補間をレンダリングすることが示されている。
【0151】
ステップ610、612、614、616は、追加エンコーダ生成PIHソースおよび関連するOHオーディオデータシグナリングに基づく方法を説明する。
【0152】
例えば、図6において、ステップ610で示すように、第2レンダリングモードでは、PIHソースを生成するための補間位置を決定する動作が示される。
【0153】
さらに、図6において、ステップ612で示すように、レンダリングの第2モードでは、空間メタデータおよび関連するオーディオ信号情報を含むPIHソースを生成することが示されている。
【0154】
さらに、図6において、ステップ614で示すように、レンダリングの第2モードでは、LPに基づいて単一のPIHソース空間メタデータおよび関連するオーディオ信号を取得することが示されている。
【0155】
次に、図6において、ステップ616で示すように、レンダリングの第2モードについて、LPに基づいてPIHソース空間メタデータおよび関連オーディオ信号からレンダリングし、最も近いHOAオーディオ信号から開始することが示されている。
【0156】
図7は、補間された高次アンビソニクスおよび高次アンビソニックソースを含むレンダリングメタデータによるMPHOAレンダリングのためのレンダラHOAソース選択基準のフロー図を示す。
【0157】
したがって、図7において、ステップ701で示すように、いくつかの実施形態では、OHおよびPIHソースを含むMPHOAシーンの再生を開始する。
【0158】
そして、図7において、ステップ703で示すように、レンダリング装置および取得帯域に十分な計算リソースがあるか否かの判定が行われる。
【0159】
図7において、ステップ707で示すように、レンダリング装置および再生帯域幅に十分な計算リソースがある場合は、LPに基づいて三角形を形成するソースからのOH空間メタデータおよびオーディオ信号で再生が開始される。換言すれば、第1レンダリングモードまたはデフォルトモードが採用される。
【0160】
図7において、ステップ705で示すように、レンダリング装置および取得帯域幅に十分な計算リソースがない場合、3DoF+レンダリングを実施するための十分な計算リソースがあるか否かを判断するために、さらなるチェックを実施することができる。
【0161】
図7において、ステップ712で示すように、十分な計算リソースがない場合、再生は、LPに基づいて最も近いPIH空間メタデータおよびオーディオ信号による3DoF再生を開始する。換言すれば、(低帯域幅最小複雑性のための)第3レンダリングモードが採用される。
【0162】
図7において、ステップ711で示すように、3Dof+レンダリングを実施するための十分な計算機リソースがある場合、LPに基づいてPIH空間メタデータおよびオーディオ信号で再生が開始される。換言すれば、(低帯域幅低複雑性のための)第2レンダリングモードが採用される。
【0163】
図8に関して、N個のOHソース890を生成するように構成されているコンテンツ作成者スコープ800が存在するシステムのさらなる図が示されている。
【0164】
この部分には、オーディオ入力803、EIF入力またはジェネレータ801がある。
【0165】
さらに、MPEG-Hエンコーダおよびデコーダ805は、オーディオ入力からオーディオ信号を受信し、これらをMPEG-H符号化/復号化されたオーディオバッファ/記憶装置807に渡すように構成されている。
【0166】
MPEG-H符号化/復号化されたオーディオバッファ/記憶装置807は、さらに、符号化されたオーディオ信号を(MPEG-I)エンコーダ809に渡すように構成され得る。
【0167】
さらにこのセクションは、エンコーダ809(ただし、これはレンダリングメタデータ作成820部内に実装されてもよい)を含んでよい。エンコーダ809は、EIF情報、オーディオ入力803からの(生の)オーディオ信号、および、符号化された(MPEG-H)オーディオを取得または受信し、さらにPIHソースを生成するように構成される。
【0168】
いくつかの実施形態では、レンダリングメタデータ作成820部が存在し得る。上記に示したように、これは、エンコーダ809を含み得るか、またはエンコーダ809の出力を取得し得る。
【0169】
レンダリングメタデータ作成820部は、いくつかの実施形態において、上記に示したように、メタデータを生成するように構成されたメタデータレンダラ821を有することができる。
【0170】
このように、レンダリングメタデータ作成820部の出力は、(N個の)OHソースと、さらに(M個の)PIHソース892が存在するものである。
【0171】
システム内のさらなるセクションは、配信用コンテンツホスティング840部である。配信用コンテンツホスティング840部は、OHおよびPIHソース、ならびに、OHソースオーディオのPIHソースとの関連性の表示894を提供することができる。
【0172】
いくつかの実施形態における配信用コンテンツホスティング840部は、MPEG-I 6DoFコンテンツビットストリームバッファ/記憶装置841を有する。MPEG-I 6DoFコンテンツビットストリームバッファ/記憶装置841は、ビットストリーム中のOHおよびPIHソースを受信または取得し、それを保持するための適切なバッファ/記憶素子を提供するように構成される。
【0173】
さらに配信用コンテンツホスティング840部は、コンテンツマニフェストセレクタ843を有する。コンテンツマニフェストセレクタ843は、マニフェスト862、ならびに、空間メタデータおよびオーディオデータ864を生成し、再生装置861に出力するように構成される。
【0174】
いくつかの実施形態における再生860部は、OHソースベースレンダリングおよびPIHソースベースレンダリングなどの様々なレンダリングモード896を実装するように構成される。
【0175】
いくつかの実施形態では、再生装置861は、プレーヤ863を有する。プレーヤ863は、さらに、MPHOAレンダラ865およびコンテンツセレクタ867を有する。プレーヤ863は、レンダラオーディオをヘッドホン出力866としてヘッドホン/トラッカに出力するように構成され、さらに、そこから6DoFトラッキング情報868を取得するように構成される。
【0176】
図9に関して、コンピュータ、エンコーダプロセッサ、デコーダプロセッサ、または、本明細書に記載された機能ブロックのいずれかとして使用することができる電子装置の例を示している。装置は、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、装置1600は、携帯端末、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。
【0177】
いくつかの実施形態では、装置1600は、少なくとも1つのプロセッサまたは中央処理装置1607を備える。プロセッサ1607は、本明細書に記載されるような方法など、様々なプログラムコードを実行するように構成され得る。
【0178】
いくつかの実施形態では、装置1600は、メモリ1611を有する。いくつかの実施形態では、少なくとも1つのプロセッサ1607は、メモリ1611に接続される。メモリ1611は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ1611は、プロセッサ1607に実装可能なプログラムコードを格納するためのプログラムコード部を有する。さらに、いくつかの実施形態では、メモリ1611は、データ、例えば、本明細書に記載されるような実施形態に従って処理された、または、処理されるべきデータを格納するための格納データ部をさらに備えることができる。プログラムコード部内に格納された実装プログラムコードおよび格納データ部内に格納されたデータは、メモリ-プロセッサ接続を介して必要なときにいつでもプロセッサ1607によって取り出すことができる。
【0179】
いくつかの実施形態では、装置1600は、ユーザインタフェース1605を有する。ユーザインタフェース1605は、いくつかの実施形態では、プロセッサ1607に接続され得る。いくつかの実施形態では、プロセッサ1607は、ユーザインタフェース1605の動作を制御し、ユーザインタフェース1605から入力を受け取ることができる。いくつかの実施形態では、ユーザインタフェース1605は、ユーザが、例えばキーパッドを介して、装置1600にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインタフェース1605は、ユーザが装置1600から情報を取得することを可能にすることができる。例えば、ユーザインタフェース1605は、ユーザに対して装置1600からの情報を表示するように構成されたディスプレイを含んでよい。ユーザインタフェース1605は、いくつかの実施形態において、装置1600に情報を入力することを可能にし、さらに、装置1600のユーザに対して情報を表示することの両方が可能なタッチスクリーンまたはタッチインタフェースを有することができる。
【0180】
いくつかの実施形態では、装置1600は、入力/出力ポート1609を有する。いくつかの実施形態における入力/出力ポート1609は、トランシーバを備える。そのような実施形態におけるトランシーバは、プロセッサ1607に接続され、例えば、無線通信ネットワークを介して他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の適切なトランシーバ、あるいは、送信機および/または受信機手段は、いくつかの実施形態において、有線または有線接続を介して他の電子デバイスまたは装置と通信するように構成され得る。
【0181】
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム(UMTS)プロトコル、例えばIEEE802.Xなどの無線ローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
【0182】
トランシーバ入力/出力ポート1609は、適切なコードを実行するプロセッサ1607を使用することによって、オーディオ信号、ビットストリームを送信/受信し、いくつかの実施形態では、上述のような動作および方法を実行するように構成され得る。
【0183】
一般に、本発明の様々な実施形態は、ハードウェアまたは特殊用途回路、ソフトウェア、ロジック、または、それらの任意の組み合わせで実装されてもよい。例えば、いくつかの態様は、ハードウェアで実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または、他のコンピューティングデバイスによって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はこれらには限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または、他の何らかの図形的表現を用いて図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術、または、方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特殊用途回路、もしくは、論理、汎用ハードウェア、もしくは、コントローラ、もしくは、他のコンピューティングデバイス、または、これらの何らかの組み合わせで実施されてよいことは十分に理解されよう。
【0184】
本発明の実施形態は、プロセッサエンティティなどの携帯端末のデータプロセッサによって実行可能なコンピュータソフトウェアによって、または、ハードウェアによって、または、ソフトウェアとハードウェアの組み合わせによって実装されてもよい。さらに、この点で、図示したような論理フローの任意のブロックは、プログラムステップ、または、相互接続された論理回路、ブロックおよび機能、または、プログラムステップと論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、または、プロセッサ内に実装されたメモリブロック、磁気媒体、および、光媒体などの物理的媒体に格納されてもよい。
【0185】
メモリは、ローカルな技術環境に適した任意のタイプであってよく、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光学メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなどの任意の適切なデータ記憶技術を使用して実装されてもよい。データプロセッサは、ローカルな技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、特殊用途コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路およびマルチコアプロセッサアーキテクチャに基づくプロセッサの1つ以上を含んでよい。
【0186】
本発明の実施形態は、集積回路モジュールなどの様々な部品において実施することができる。集積回路の設計は、概して高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成するのに適した半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
【0187】
カリフォルニア州マウンテンビューのシノプシス社や、カリフォルニア州サンノゼのケイデンスデザイン社などのプログラムは、確立された設計ルールと、あらかじめ保存された設計モジュールのライブラリを使用して、半導体チップ上の導体の配線や部品の配置を自動的に行う。半導体回路の設計が完了したら、製造のために、設計結果を標準化された電子フォーマット(Opus、GDSIIなど)で半導体製造施設(ファブ)に送信する。
【0188】
上記の説明は、例示的かつ非限定的な例によって、この発明の例示的な実施形態の完全かつ有益な説明を提供した。しかしながら、添付の図面および添付の特許請求の範囲と併せて読むと、上記の説明を考慮して、様々な変更および修正が当業者には明らかになるであろう。しかしながら、この発明の教示のすべてのそのようなおよび類似の修正は、やはり添付の特許請求の範囲で定義されるこの発明の範囲内に入るであろう。
図1
図2
図3
図4
図5
図6
図7
図8
図9