特表2023-516303 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ノキア　テクノロジーズ　オサケユイチアの特許一覧

特表2023-516303オーディオ表現および関連するレンダリング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-04-19

(54)【発明の名称】オーディオ表現および関連するレンダリング

(51)【国際特許分類】

G10L 19/008 20130101AFI20230412BHJP

【ＦＩ】

G10L19/008 200

G10L19/008 100

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022551652

(86)(22)【出願日】2021-02-10

(85)【翻訳文提出日】2022-10-25

(86)【国際出願番号】 FI2021050089

(87)【国際公開番号】W WO2021170903

(87)【国際公開日】2021-09-02

(31)【優先権主張番号】2002900.5

(32)【優先日】2020-02-28

(33)【優先権主張国・地域又は機関】GB

(81)【指定国・地域】

(71)【出願人】

【識別番号】515076873

【氏名又は名称】ノキアテクノロジーズオサケユイチア

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100092624

【弁理士】

【氏名又は名称】鶴田準一

(74)【代理人】

【識別番号】100141162

【弁理士】

【氏名又は名称】森啓

(72)【発明者】

【氏名】アンッシラモ

(72)【発明者】

【氏名】ラッセラークソネン

(72)【発明者】

【氏名】スイェートシャイアムスンダーマテ

(57)【要約】

【課題】オーディオ表現および関連するレンダリング。
【解決手段】少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信し、ここで、前記第１オーディオストリームおよび第２オーディオストリームのうちの少なくとも１つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備え、前記受信された第１および第２オーディオデータストリームのうちのいずれが前記空間オーディオストリームを備えるかを識別するために、前記第１オーディオストリームおよび第２オーディオストリームの各々のタイプを決定し、前記決定されたタイプに依存する少なくとも１つのパラメータで前記第２オーディオデータストリームを処理し、前記第１オーディオデータストリームおよび前記処理された第２オーディオデータストリームをレンダリングするように構成される手段を備えるイマーシブオーディオ通信のための装置。
【選択図】図１

【特許請求の範囲】

【請求項1】

少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信し、ここで、該第１オーディオストリームおよび該第２オーディオストリームのうちの少なくとも１つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを含んでおり、
受信された前記第１オーディオデータストリームおよび前記第２オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するために、前記第１オーディオストリームおよび前記第２オーディオストリームの各々のタイプを決定し、
前記決定されたタイプに依存する少なくとも１つのパラメータを用いて、前記第２オーディオデータストリームを処理し、
前記第１オーディオデータストリームおよび処理された前記第２オーディオデータストリームをレンダリングする、手段を含む通信のための装置。

【請求項2】

前記第２オーディオデータストリームは、少なくとも１つのさらなるオーディオデータストリームを含むように構成され、
前記少なくとも１つのさらなるオーディオデータストリームは決定されたタイプを含み、
前記少なくとも１つのさらなるオーディオデータストリームは、前記第２オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項１に記載の装置。

【請求項3】

前記少なくとも１つのさらなるオーディオデータストリームは、少なくとも１つのさらなる埋め込みレベルを備え、
各埋め込みレベルは、決定されたタイプを有する少なくとも１つのさらなるオーディオデータストリームを備える、
請求項２に記載の装置。

【請求項4】

前記第２オーディオデータストリームは、マスタ・レベルのオーディオデータストリームである、請求項１ないし３のいずれか１項に記載の装置。

【請求項5】

各オーディオデータストリームは、さらに、前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、前記オーディオデータストリームの前記タイプを記述するように構成されたストリーム記述子とのうちの少なくとも１つに関連付けられる、請求項１ないし４のいずれか１項に記載の装置。

【請求項6】

前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイスおよびオーディオサービスオーディオ信号のうちの１つである、請求項１ないし５のいずれか１項に記載の装置。

【請求項7】

前記少なくとも１つのパラメータは、部屋特性またはシーン記述を定義するように構成される、請求項１ないし６のいずれか１項に記載の装置。

【請求項8】

部屋特性またはシーン記述を規定する前記少なくとも１つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも１つを備える、請求項７に記載の装置。

【請求項9】

前記手段はさらに、追加オーディオデータストリームを受信し、前記第１オーディオデータストリームおよび前記第２オーディオデータストリームのうちの一方または他方の中に前記追加オーディオデータストリームを埋め込むように構成される、請求項１ないし８のいずれか１項に記載の装置。

【請求項10】

イマーシブオーディオ通信のための装置のための方法であって、前記方法は、
少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信するステップであって、該第１オーディオストリームおよび該第２オーディオストリームのうちの少なくとも１つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを含む、ステップと、
受信された該第１オーディオストリームおよび該第２オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するための、該第１オーディオストリームおよび該第２オーディオストリームの各々のタイプを決定するステップと、
前記決定されたタイプに依存する少なくとも１つのパラメータを用いて前記第２オーディオデータストリームを処理するステップと、
前記第１オーディオデータストリームおよび前記処理された第２オーディオデータストリームをレンダリングするステップと、
を含む、方法。

【請求項11】

前記第２オーディオデータストリームは、少なくとも１つのさらなるオーディオデータストリームを備えるように構成され、
前記少なくとも１つのさらなるオーディオデータストリームは、決定されたタイプを備え、
前記少なくとも１つのさらなるオーディオデータストリームは、前記第２オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項１０に記載の方法。

【請求項12】

前記少なくとも１つのさらなるオーディオデータストリームは、少なくとも１つのさらなる埋め込みレベルを備え、
各埋め込みレベルは、決定されたタイプを有する少なくとも１つのさらなるオーディオデータストリームを備える、
請求項１１に記載の方法。

【請求項13】

前記第２オーディオデータストリームは、マスタレベル・オーディオデータストリームである、請求項１０ないし１２のいずれか１項に記載の方法。

【請求項14】

各オーディオデータストリームは、さらに、前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、前記オーディオデータストリームのタイプを記述するように構成されたストリーム記述子と、のうちの少なくとも１つに関連付けられる、請求項１０ないし１３のいずれか１項に記載の方法。

【請求項15】

前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイス、および、オーディオサービスオーディオ信号のうちの１つである、請求項１０ないし１４のいずれか１項に記載の方法。

【請求項16】

少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備えた装置であって、該少なくとも１つのメモリおよび該コンピュータプログラムコードは、該少なくとも１つのプロセッサを用いて、前記装置に、少なくとも、
少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信させ、ここで、前記第１オーディオストリームおよび前記第２オーディオストリームのうちの少なくとも１つは、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備えるものであり、
前記受信された第１および第２オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するために、前記第１オーディオストリームおよび前記第２オーディオストリームの各々のタイプを決定させ、
前記決定されたタイプに依存する少なくとも１つのパラメータを用いて前記第２オーディオデータストリームを処理させ、
前記第１オーディオデータストリームおよび前記処理された第２オーディオデータストリームをレンダリングさせる
ように構成される、装置。

【請求項17】

前記第２オーディオデータストリームは、少なくとも１つのさらなるオーディオデータストリームを含むように構成され、
前記少なくとも１つのさらなるオーディオデータストリームは、決定されたタイプを含み、
前記少なくとも１つのさらなるオーディオデータストリームは、前記第２オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項１６に記載の装置。

【請求項18】

前記少なくとも１つのさらなるオーディオデータストリームは、少なくとも１つのさらなる埋め込みレベルを含み、
各埋め込みレベルは、決定されたタイプを有する少なくとも１つのさらなるオーディオデータストリームを含む、
請求項１７に記載の装置。

【請求項19】

前記第２オーディオデータストリームは、マスターレベルオーディオデータストリームである、請求項１６ないし１８のいずれか１項に記載の装置。

【請求項20】

各オーディオデータストリームは、さらに、
前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、
前記オーディオデータストリームのタイプを記述するように構成されたストリーム記述子と
のうちの少なくとも１つに関連付けられる、
請求項１６ないし１９のいずれか１項に記載の装置。

【請求項21】

前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイス、および、オーディオサービスオーディオ信号のうちの１つである、請求項１６ないし２０のいずれか１項に記載の装置。

【請求項22】

前記少なくとも１つのパラメータは、部屋特性またはシーン記述を定義するように構成される、請求項１６ないし２１のいずれか１項に記載の装置。

【請求項23】

前記部屋特性またはシーン記述を規定する前記少なくとも１つのパラメータは、方向、
方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも１つを備える、請求項２２に記載の装置。

【請求項24】

前記装置は、さらに、
追加オーディオデータストリームを受信することと、
前記追加オーディオデータストリームを、前記第１オーディオデータストリームおよび前記第２オーディオデータストリームのうちの一方または他方の中に埋め込むことと、
を実行する、請求項１６ないし２３のいずれか１項に記載の装置。

【発明の詳細な説明】

【技術分野】

【0001】

本出願は音技術分野関連オーディオ表現および関連するレンダリングのための装置および方法に関し、オーディオエンコーダおよびデコーダのためのオーディオ表現の装置および方法に関する。しかし、これに限定されるものではない。

【背景技術】

【0002】

イマーシブオーディオコーデックは、低ビットレート動作から透明度までの範囲の多数の動作点をサポートするように実装されている。そのようなコーデックの例は、３ＧＰＰ（登録商標）・４Ｇ／５Ｇネットワークなどの通信ネットワーク上での使用に適しているように設計されているイマーシブボイスおよびオーディオサービス（ＩＶＡＳ）コーデックである。そのようなイマーシブサービスはたとえば、仮想現実（ＶＲ）、拡張現実（ＡＲ）、および複合現実（ＭＲ）などのアプリケーションのためのイマーシブボイスおよびオーディオにおける使用を含む。このオーディオコーデックは、スピーチ、音楽、および汎用オーディオの符号化、復号、およびレンダリングを処理することが期待される。さらに、音場および音源に関する空間情報を含む、チャネルベースのオーディオ入力およびシーンベースのオーディオ入力をサポートすることが期待される。コーデックはまた、会話サービスを可能にし、様々な送信条件下で高い誤りロバスト性をサポートするために、低レイテンシで動作することが期待される。

【0003】

さらに、パラメトリック空間オーディオ処理はオーディオ信号処理の分野であり、音の空間的側面が、パラメータのセットを使用して記述される。例えば、マイクロフォンアレイからのパラメトリック空間オーディオキャプチャではマイクロフォンアレイから、周波数帯域における音の方向、および周波数帯域におけるキャプチャされた音の指向性部分と非指向性部分との間の比などのパラメータのセットを信号伝達することが、典型的かつ有効な選択である。これらのパラメータは、マイクロフォンアレイの位置におけるキャプチャされた音の知覚的空間特性を十分に記述することが知られている。これらのパラメータはそれに応じて空間音の合成において、ヘッドホンのバイノーラル、ラウドスピーカのために、またはアンビソニックスなどの他のフォーマットに利用することができる。

【発明の概要】

【0004】

第１の態様によれば、少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信し、ここで、第１および第２オーディオストリームの少なくとも一方は、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを構成するものであり、受信された第１オーディオデータストリームおよび第２オーディオデータストリームのうちのどれが、空間オーディオストリームを備えるかを識別するために、第１オーディオストリームおよび第２オーディオストリームの各々のタイプを決定し、決定されたタイプに依存する少なくとも１つのパラメータを用いて、第２オーディオデータストリームを処理し、第１オーディオデータストリームおよび処理された第２オーディオデータストリームをレンダリングするように構成された手段を備える装置が提供される。

【0005】

第２オーディオデータストリームは、少なくとも１つのさらなるオーディオデータストリームを備えるように構成されることができ、少なくとも１つのさらなるオーディオデータストリームは決定されたタイプを備えることができ、少なくとも１つのさらなるオーディオデータストリームは第２オーディオデータストリームに対する埋め込みレベルオーディオデータストリームであり得る。

【0006】

少なくとも１つのさらなるオーディオデータストリームは、少なくとも１つのさらなる埋め込みレベルを備えることができ、各埋め込みレベルは決定されたタイプを有する少なくとも１つの追加のオーディオデータストリームを備えることができる。

【0007】

第２オーディオデータストリームは、マスターレベルオーディオデータストリームであり得る。

【0008】

各オーディオデータストリームは、オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、オーディオデータストリームのタイプを記述するように構成されたストリーム記述子とのうちの少なくとも１つとさらに関連付けられることができる。

【0009】

このタイプは、モノラルオーディオ信号タイプ、イマーシブボイス及びオーディオサービスオーディオ信号のうちの１つとすることができる。

【0010】

少なくとも１つのパラメータは、部屋特性またはシーン記述を定義するように構成されることができる。

【0011】

部屋特性またはシーン記述を定義する少なくとも１つのパラメータは、方向、方位角、方位仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも１つを含むことができる。

【0012】

この手段は、追加のオーディオデータストリームを受信し、第１オーディオデータストリームおよび第２オーディオデータストリームのうちの一方または他方の中に追加のオーディオデータストリームを埋め込むようにさらに構成されることができる。

【0013】

第２の態様によれば、装置のための方法が提供され、この手法は、少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信するステップであって、第１オーディオストリームおよび第２オーディオストリームのうちの少なくとも１つは通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、ステップと、受信された第１および第２オーディオデータストリームのうちのどれが空間オーディオストリームを備えるかを識別するために、第１オーディオストリームおよび第２オーディオストリームの各々のタイプを決定するステップと、決定されたタイプに依存する少なくとも１つのパラメータを用いて第２オーディオデータストリームを処理するステップと、第１オーディオデータストリームおよび処理された第２オーディオデータストリームをレンダリングするステップと、を含む。

【0014】

【0015】

【0016】

第２オーディオデータストリームは、マスターレベルオーディオデータストリームであり得る。

【0017】

各オーディオデータストリームは、さらに、オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、オーディオデータストリームのタイプを記述するように構成されたストリーム記述子とのうちの少なくとも１つと関連付けられることができる。

【0018】

このタイプは、モノラルオーディオ信号タイプ、イマーシブボイス及びオーディオサービスオーディオ信号のうちの１つとすることができる。

【0019】

少なくとも１つのパラメータは、部屋特性またはシーン記述を定義するように構成されることができる。

【0020】

部屋特性またはシーン記述を定義する少なくとも１つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および位置のうちの少なくとも１つを含むことができる。本方法は、追加のオーディオデータストリームを受信するステップと、追加のオーディオデータストリームを第１オーディオデータストリームおよび第２オーディオデータストリームのうちの一方または他方の中に埋め込むステップとをさらに含むことができる。

【0021】

第３の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備える装置が提供され、該少なくとも１つのメモリおよび該コンピュータプログラムコードは、該少なくとも１つのプロセッサを用いて、該装置に、少なくとも、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信させ、受信された第１オーディオデータストリームおよび第２オーディオデータストリームのうちのどちらが空間オーディオストリームを備えるかを識別するために、第１オーディオストリームおよび第２オーディオストリームの各々のタイプを決定させ、前記決定されたタイプに依存する少なくとも１つのパラメータで前記第２のオーディオデータストリームを処理させ、前記第１のオーディオデータストリームと前記処理された第２のオーディオデータストリームをレンダリングさせるように構成される。

【0022】

第２オーディオデータストリームは少なくとも１つのさらなるオーディオデータストリームを備えるように構成されることができ、少なくとも１つのさらなるオーディオデータストリームは決定されたタイプを備えることができ、少なくとも１つのさらなるオーディオデータストリームは、第２オーディオデータストリームに対する埋め込みレベルオーディオデータストリームであり得る。

【0023】

【0024】

第２オーディオデータストリームは、マスターレベルオーディオデータストリームであり得る。

【0025】

【0026】

このタイプは、モノラルオーディオ信号タイプ、イマーシブボイス及びオーディオサービスオーディオ信号のうちの１つとすることができる。少なくとも１つのパラメータは、部屋特性またはシーン記述を定義するように構成されることができる。部屋特性またはシーン記述を定義する少なくとも１つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも１つを含むことができる。

【0027】

この装置は、さらに、追加のオーディオデータストリームを受信することと、第１オーディオデータストリームおよび第２オーディオデータストリームのうちの一方または他方の中に追加のオーディオデータストリームを埋め込むこととを実行することができる。

【0028】

第４の態様によれば、少なくとも第１のオーディオデータストリームおよび第２のオーディオデータストリームを受信し、ここで、前記第１および第２のオーディオストリームの少なくとも１つは、通信中にイマーシブオーディオを可能にする空間オーディオストリームを含むものであり、前記受信した第１及び第２のオーディオデータストリームのいずれが前記空間オーディオストリームを構成するかを識別するために、前記第１及び第２のオーディオストリームの各々のタイプを決定するように構成された受信回路と、前記決定されたタイプに依存する少なくとも１つのパラメータで前記第２のオーディオデータストリームを処理するように構成された処理回路と、前記第１のオーディオデータストリームおよび前記処理された第２のオーディオデータストリームをレンダリングするように構成されたレンダリング回路と、を備える装置が提供される。

【0029】

第５の態様によれば、装置に、少なくとも、少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信するステップであって、第１オーディオストリームおよび第２オーディオストリームのうちの少なくとも１つは、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、ステップと、受信された第１および第２オーディオデータストリームのうちのどれが空間オーディオストリームを備えるかを識別するために、第１オーディオストリームおよび第２オーディオストリームの各々のタイプを決定するステップと、決定されたタイプに依存する少なくとも１つのパラメータを用いて、第２オーディオデータストリームを処理するステップと、第１オーディオデータストリームおよび処理された第２オーディオデータストリームをレンダリングするステップと、を実行させるための命令［またはプログラム命令を備えるコンピュータ可読媒体］を備えるコンピュータプログラムが提供される。

【0030】

第６の態様によれば、装置に少なくとも、少なくとも、第１オーディオデータストリームおよび第２オーディオデータストリームを受信することであって、第１オーディオデータストリームおよび第２オーディオデータストリームは、通信の間イマーシブオーディオを可能にする空間オーディオストリームを含むものである、ことと、受信された第１および第２オーディオデータストリームのうちのどちらが空間オーディオストリームを備えるかを識別するために、第１オーディオストリームおよび第２オーディオストリームの各々のタイプを決定することと、決定されたタイプに依存する少なくとも１つのパラメータを用いて、第２オーディオデータストリームを処理することと、第１オーディオデータストリームおよび処理された第２オーディオデータストリームをレンダリングすることと、を実行させるプログラム命令を備える非一時的コンピュータ可読媒体が提供される。

【0031】

第７の態様によれば、少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信するための手段であって、第１オーディオストリームおよび第２オーディオストリームのうちの少なくとも１つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、手段と、受信された第１および第２オーディオデータストリームのうちのいずれを備えるかを識別するための第１オーディオストリームおよび第２オーディオストリームの各々のタイプを決定するための手段と、決定されたタイプに依存する少なくとも１つのパラメータで第２オーディオデータストリームを処理するための手段と、第１オーディオデータストリームおよび処理された第２オーディオデータストリームをレンダリングするための手段と、を備える装置が提供される。

【0032】

第８の態様によれば、装置に、少なくとも、少なくとも、第１オーディオストリームおよび第２オーディオストリームを受信することと、ここで、第１オーディオストリームおよび第２オーディオストリームのうちの少なくとも１つは通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備え、受信された第１および第２オーディオデータストリームのうちのどちらが空間オーディオストリームを備えるかを識別するために、第１オーディオストリームおよび第２オーディオストリームの各々のタイプを決定することと、決定されたタイプに依存する少なくとも１つのパラメータを用いて第２オーディオデータストリームを処理することと、第１オーディオデータストリームおよび処理された第２オーディオデータストリームをレンダリングすることと、を実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。

【0033】

この装置は、上述のような動作を実行するための手段を含む。

【0034】

この装置は、上述のような方法の動作を実行するように構成される。

【0035】

このコンピュータプログラムは、コンピュータに上述の方法を実行させるためのプログラム命令を含む。

【0036】

媒体上に記憶されたコンピュータプログラム製品は装置に、本明細書に記載する方法を実行させることができる。

【0037】

電子デバイスは、本明細書で説明されるような装置を備えることができる。

【0038】

チップセットは、本明細書に記載の装置を備えてもよい。本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。

【図面の簡単な説明】

【0039】

本出願をより良く理解するために、ここで、例として添付の図面を参照する。

【図1】図１は、いくつかの実施形態を採用するのに適した例示的な会議システムを概略的に示す。

【図2】図２ａ～２ｄは、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。

【図3】図３は、いくつかの実施形態によるビットストリーム－オブジェクト－ビットストリーム変換器を概略的に示す。

【図4】図４は、いくつかの実施形態による、図３に示されるようなビットストリーム－オブジェクト－ビットストリーム変換器の動作のフロー図を概略的に示す。

【図5】図５ａ～５ｄは、いくつかの実施形態による例示的なオブジェクトフォーマットを示す。

【図6】図６は、いくつかの実施形態による例示的なオブジェクトのネスティングを示す。

【図7】図７は、いくつかの実施形態による例示的な動作シナリオを示す。

【図8】図８ａ～図８ｃはいくつかの実施形態による例示的なオブジェクトパケット化を示す。

【図9】図９は、示される装置を実装するのに適した例示的なデバイスを示す。

【発明を実施するための形態】

【0040】

以下では、空間ストリームをオブジェクトストリームとして埋め込み、空間ストリームをそのままオブジェクトとして受信する参加者に送信するための、好適な装置および可能な機構をさらに詳細に説明する。オブジェクトメタデータは、空間シーンに基づいて更新される。言い換えれば、オブジェクトストリームタイプは、それ自体、処理要素によって生成されたそれぞれのオブジェクトメタデータを有する別のオーディオストリームである。この動作は、２つ以上の入力フォーマットを受信する適切なデバイス（たとえば、モバイル、ユーザ機器ＵＥ）、または、たとえば、会議ブリッジ（たとえば、マルチポイント制御ユニット－ＭＣＵ）によって実行され得る。

【0041】

本発明は、多くの入力オーディオフォーマット、イマーシブオーディオシーン表現、および着信符号化オーディオが例えば、混合され、再符号化され、および／またはリスナに転送され得るサービスをサポートすることが可能なイマーシブオーディオコーデックに関する。

【0042】

上記で説明したＩＶＡＳコーデックは３ＧＰＰＥＶＳコーデックの延伸方向であり、４Ｇ／５Ｇを超える新しいリアルタイムイマーシブボイスおよびオーディオサービスを意図したものである。そのようなイマーシブサービスはたとえば、仮想現実（ＶＲ）および拡張現実（ＡＲ）のためのイマーシブボイスおよびオーディオを含む。多目的オーディオコーデックは、スピーチ、音楽、および汎用オーディオの符号化、復号、およびレンダリングを処理することが期待される。音場および音源に関する空間情報を含むチャネルベースのオーディオおよびシーンベースのオーディオ入力をサポートすることが期待される。また、会話サービスを可能にし、様々な送信条件下で高い誤りロバスト性をサポートするために、低レイテンシで動作することも期待される。

【0043】

ＩＶＡＳエンコーダは、サポートされるフォーマットで（およびフォーマットのいくつかの許容される組み合わせで）入力を受信することができるように構成される。同様に、デコーダは、いくつかのサポートされるフォーマットでオーディオを出力することができることが期待される。伝達（符号化／復号）後にオーディオを元のフォーマットで提供することができるパススルーモードが提案されている。

【0044】

適切な（モノ）オーディオ信号と組み合わされた空間メタデータを処理するように構成され、ユーザにレンダリングすることができるＩＶＡＳコーデックのための許容可能なフォーマットとして実装されているオブジェクトベースオーディオを記述する方法が提案されている。メタデータパラメータは例えば、任意の視覚的もしくは聴覚的追跡方法、または任意の他のモダリティからの助けを借りて、現実の環境からキャプチャすることができる。いくつかの実施形態では、メタデータを生成するために無線ベースの技術を使用することができ、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＷｉｆｉまたはＧＰＳロケータ技術を使用して、オブジェクト座標を取得することができる。方位データは、磁力計、加速度計、および／またはジャイロメータなどのセンサを使用して、いくつかの実施形態で受信することができる。また、近接センサなどの他のセンサを使用して、現実環境からシーン関連メタデータを生成することができる。

【0045】

あるいは、メタデータが定義された仮想シーンに従って、例えば、テレビ会議ブリッジによって、またはユーザ機器（例えば、スマートフォン）によって人工的に作成され得る。例えば、ユーザは、適切なＵＩを介して、いくつかの所望の音響特徴を設定または示すことができる。

【0046】

いくつかの実施形態では、オブジェクトベースのオーディオ空間メタデータは、１つまたは複数のオブジェクトとして定義することができ、各オブジェクトは方位角、仰角、距離、利得、および空間範囲などのパラメータによって定義することができる。

【0047】

さらに、メタデータ支援空間オーディオ（ＭＡＳＡ）は、パラメトリック空間オーディオフォーマットおよび表現である。高レベルでは、「Ｎチャネル＋空間メタデータ」からなる表現とみなすことができる。これは、スマートフォンなどの実用的なデバイス上での空間オーディオキャプチャに特に適したシーンベースのオーディオフォーマットである。ここで、ＦＯＡ／ＨＯＡキャプチャのための球状アレイは、現実的ではなく、利便性もない。このアイデアは、時間および頻度が変化する音源方向に関して、サウンドシーンを記述することである。指向性音源が検出されない場合、オーディオは、拡散として記述される。
ＭＡＳＡ（現在ＩＶＡＳのために提案されている）では、各時間－周波数（ＴＦ）タイルに対して１つまたは２つの方向があり得る。空間メタデータは方向に関して記述され、例えば、各方向についての空間メタデータと、方向とは無関係である共通の空間メタデータとを含むことができる。

【0048】

たとえば、方向に対する空間メタデータは、方向インデックス、直接エネルギー対総エネルギー比、拡散コヒーレンス、および距離などのパラメータを備えることができる。方向に依存しない空間メタデータは、拡散対全エネルギー比、サラウンドコヒーレンス、および残余対全エネルギー比などのパラメータを含むことができる。

【0049】

ＩＶＡＳの例示的な使用事例は、ＡＲ／ＶＲ遠隔会議のためのものである。各参加者は、３Ｄ空間において自由に見渡す（パンする）ことができる自身のオブジェクトを有することができる。遠隔会議シナリオでは、会議ブリッジが例えば、複数の参加者からいくつかのＩＶＡＳストリームを受信することができる。次いで、これらのストリームは例えば、少なくとも各アクティブな参加者のためのオブジェクトを使用して、共通のストリームに結合される。
あるいは、プリレンダリングされた空間シーンが作成され、例えばＭＡＳＡまたはＦＯＡ／ＨＯＡオーディオフォーマットとして表されてもよい。オブジェクトが使用される場合、
到来するオブジェクトまたは他のモノストリーム（例えば、ＥＶＳストリーム）は、適切なメタデータ表現を波形に添付することによって、出て行く共通会議ストリームのオブジェクトストリームになるように直接コピーすることができる。これは、オーディオ波形の再符号化を含んでも含まなくてもよい。しかしながら、参加者がＭＡＳＡまたはＨＯＡのような空間オーディオストリームを送信している場合、会議ブリッジは（モノラル）オーディオオブジェクトとしてダウンストリームを送信する前に、すべての着信ＩＶＡＳストリームを復号し、ストリームをモノラルに縮小しなければならない。

【0050】

さらなる使用事例は、ユーザが、空間オーディオキャプチャが可能にされた固定スタンド上のモバイルデバイスを用いてシーンをキャプチャしている（たとえば、ライブポッドキャストビデオを作成している）場合である。加えて、ヘッドセットまたは他の何らかの形態のクローズアップマイクロフォンを使用して、音声記録を向上させることができる。クローズアップキャプチャデバイスは、例えば、空間オーディオ対応ラバリエマイクロフォンからのヘッドセットまたはＭＡＳＡからのバイノーラルキャプチャを用いて、空間オーディオをキャプチャすることも可能である。次いで、クローズアップキャプチャされた音声は、オブジェクトストリームとして、ＩＶＡＳ空間オーディオストリームをキャプチャしたデバイスに追加され得る。オブジェクトの位置および距離は例えば、クローズアップキャプチャデバイスに取り付けられた適切な位置ビーコンを使用して、都合よくキャプチャすることができる。ＩＶＡＳでモノラルオブジェクトのみが許可される場合、デバイスはそれをＩＶＡＳストリームに埋め込む前に、クローズアップキャプチャからモノラルに到来する空間ストリームをダウンミックスしなければならない。本明細書に記載される実施形態は追加される待ち時間および複雑さを回避または最小化することを試み、さらに、最大達成可能品質を増加させることを試みる。

【0051】

したがって、本明細書で説明するいくつかの実施形態は、オーディオソースミキシングおよびフォワーディングにおける各種ＩＶＡＳオーディオ入力の柔軟性を高める。例えば、ＡＲ／ＶＲ遠隔会議および他のイマーシブユースケースである。

【0052】

加えて、いくつかの実施形態では、実質的により少ない遅延および複雑さがあり、ＡＲ／ＶＲ会議ブリッジまたはキャプチャデバイスにおいてダウン混合空間ストリームを生成することを回避する。さらに、変換されたオーディオフォーマットでは、オリジナルの入力プロパティの損失や品質の損失はない。

【0053】

いくつかの実施形態では、デコーダがインターフェース出力フォーマット、いわゆるパススルーモードを有するように構成され、出力モードとして動作する通常の統合レンダラよりも高い能力を有する外部レンダラを有する。

【0054】

図１に関して、いくつかの実施形態が実装され得る例示的なシステムが示される。システム２００は一部の参加者がモノラル及び一部の空間ストリームを送信し、一部の参加者がモノラル、一部の空間、及び一部の６ＤｏＦのレンダリング及び再生能力を有する会議シナリオを示す。例えば、図１の部屋Ａ２０９に示されるように、ユーザ２０２はモノキャプチャおよび固定空間再生を使用しており、部屋Ｂ２１３ではユーザ２０６が空間キャプチャおよび６ＤｏＦ（自由度）再生を使用しており、部屋Ｃ２１１ではユーザ２０４がモノキャプチャおよび再生を使用しており、部屋Ｄ２１５ではユーザ２０８および２１０が空間キャプチャおよびモノオブジェクトキャプチャおよび空間再生を使用しているが、ヘッドトラッキングは使用していない。会議サービス２０１は、全てのユーザを接続する。

【0055】

図１に示すシステムは異なる能力を有するユーザ操作装置を有し、本明細書で説明する実施形態は会議サービス２０１が様々な入力を別々に復号し、混合し、符号化することを必要とせずに、ユーザの体験を最適化しようと試みる。本明細書に記載の実施形態では、没入度（イマーシブ度）のレベルに関連する任意の決定が行われる。たとえば、いくつかの実施形態では、装置が受信ＵＥにおいて実装され得る。したがって、いくつかの実施形態では、（ＩＶＡＳ）オブジェクトストリームが別の「客観化（ｏｂｊｅｃｔｉｆｉｅｄ）」（ＩＶＡＳ）データストリームを備えるように構成されることができる。さらに、オブジェクトメタデータは、オブジェクトが（モノラル）オブジェクトベースのオーディオ表現（例えば、空間メタデータを有するＥＶＳストリーム）であるか、またはオブジェクトのようなメタデータ（例えば、位置メタデータ）を与えることができるフルＩＶＡＳ空間ストリーム（例えば、ＭＡＳＡもしくはステレオ、またはＩＶＡＳを含むオブジェクト）であるかどうかという情報を含むように構成される。そのような実施形態では、任意の「客観化」（ＩＶＡＳ）データストリームが別の（ＩＶＡＳ）オブジェクトを含むことができる。これらの（ＩＶＡＳ）オブジェクトは、他の（ＩＶＡＳ）オブジェクトまたは「主（メイン）の」（ＩＶＡＳ）データストリームの一部となるように移動させることができる。その後、オブジェクトメタデータは、新しく形成されたＩＶＡＳストリーム全体に対して有意義なままであるように更新される。さらに、いくつかの実施形態では、オブジェクトメタデータ技術分野の残りは空間シーン記述に従って更新される。

【0056】

そのような実施形態では、入力オーディオストリームが空間的にキャプチャ／作成される会議ブリッジ使用事例のためのより高い品質およびより低い遅延が期待される。さらに、いくつかの実施形態は、使用事例（ユースケース）において実装され得る。たとえば、モバイルフォン（ＵＥ）によってキャプチャされた主空間オーディオがあり、追加の空間オーディオオブジェクトが無線マイクロフォンによってキャプチャされて、たとえば、ボイスキャプチャ利益を同様に強化し、さらなる符号化を可能にするためにＵＥにおいてオーディオを復号する必要なしに、新しいクラスのデバイス（無線マイクロフォン）上での（ＩＶＡＳ）符号化を可能にする。代わりに、ストリームは、そのまま単に埋め込むことができる。

【0057】

実施形態をさらに説明する前に、いくつかの実施形態で使用され得る空間オーディオ信号を取得し、レンダリングするためのシステムについて最初に説明する。

【0058】

図２に関して、図１に示されるようなシステム内で使用され、本明細書に記載されるようないくつかの実施形態を実装するのに適した例示的な装置が示される。

【0059】

図２Ａは、例えば、部屋Ａのユーザに関していくつかの実施形態を実装するのに適した装置を示す。この例では、装置がエンコーダ１０３に渡されるモノラルオーディオ信号を生成するように構成された単一のマイクロフォン１０１を備える。装置は、適切な会議ネットワークに送信する前に、モノラルオーディオ信号を受信し、モノラルオーディオ信号を符号化するように構成されたエンコーダ１０３をさらに備える。

【0060】

図２Ａはさらに、復号化され、適切なオーディオ信号出力にレンダリングされる符号化された空間／モノラルオーディオ信号を受信するように構成されたデコーダ／レンダラ１０５を示し、これらは、空間オーディオ信号をユーザに出力するために複数のスピーカ１０７に渡される。

【0061】

図２Ｂは、部屋Ｂのユーザに関していくつかの実施形態を実装するのに適した例示的な装置をさらに示す。この例では、この装置は、エンコーダ１１３に渡される空間オーディオ信号を生成するために使用され得る複数のオーディオ信号を生成するように構成された複数のマイクロフォン１１１オーディオ入力を備える。装置はさらに、適切な会議ネットワークに送信する前に、空間オーディオ信号を受信し、空間オーディオ信号を符号化するように構成されたエンコーダ１１３を備える。

【0062】

図２Ｂはさらに、復号化され、適切なオーディオ信号出力にレンダリングされる符号化された空間／モノオーディオ信号を受信するように構成されたデコーダ／レンダラ１１５を示し、この信号出力はヘッドトラッカ／ロケータ１１７を備えたヘッドフォンに渡され、空間オーディオ信号をユーザに出力し、ユーザ位置をデコーダ／レンダラ１１５に渡してレンダリングを制御する。

【0063】

図２Ｃは部屋Ｃのユーザに関していくつかの実施形態を実装するのに適した例示的な装置を示す。この例では装置がモノラルオーディオ信号を生成するように構成されたモノラルマイクロフォン１２１オーディオ入力を備え、モノラルオーディオ信号はエンコーダ１２３に渡されるモノラルオーディオ信号を生成するために使用され得る。装置はさらに、適切な会議ネットワークに送信する前に、モノラルオーディオ信号を受信し、モノラルオーディオ信号を空間オーディオ信号として符号化するように構成されたエンコーダ１２３を備える。

【0064】

図２Ｃはさらに、復号化され、適切なオーディオ信号出力にレンダリングされる符号化された空間／モノオーディオ信号を受信するように構成されたデコーダ／レンダラ１２５を示し、これは、モノスピーカ１２７に渡されて、オーディオ信号をユーザに出力する。

【0065】

図２Ｄは部屋Ｄのユーザに関していくつかの実施形態を実装するのに適した例示的な装置をさらに示す。この例では、装置が、複数のオーディオ信号を生成するように構成された複数のマイクロフォン１３１オーディオ入力と、エンコーダ１３３に渡される空間オーディオ信号および外部モノ／空間オーディオ信号を生成するために使用され得る外部マイクロフォン（たとえば、モノマイクロフォンまたはマルチマイクロフォン）とを備える。装置はさらに、適切な会議ネットワークに送信する前に、空間／モノオーディオ信号を受信し、空間／モノオーディオ信号を符号化するように構成されたエンコーダ１３３を備える。

【0066】

図２Ｄはさらに、復号化され、適切なオーディオ信号出力にレンダリングされる符号化された空間／モノラルオーディオ信号を受信するように構成されたデコーダ／レンダラ１３５を示し、これらは、ユーザに空間オーディオ信号を出力するためにヘッドホン１３７に渡される。

【0067】

図３に関して、例示的な（ＩＶＡＳ）エンコーダ１０３／１１３／１２３／１３３のハイレベルビューが示されており、これは、非排他的な例として、コーデックのために予想され得る様々な入力を含む。

【0068】

いくつかの実施形態におけるエンコーダ１０３／１１３／１２３／１３３は、オーディオ（ＩＶＡＳ）入力３０１を含む。オーディオ入力３０１は、ローカルまたはリモートのいずれかの複数のソースから空間データ（ＩＶＡＳ）ストリームの１つまたは複数の設定を受信することができるように構成される。ソース（複数可）は、例えば、エンコーダの場所にある既知の空間構成の複数の空間キャプチャデバイス、および／または空間ＩＶＡＳストリームを送信する複数のリモート参加者のようなローカルなものであってもよい。オーディオ入力３０１はオーディオデータストリームをオブジェクト・ヘッダクリエータ３０３に、およびＩＶＡＳデータ・ストリーム・プロセッサ３１３の一部として（ＩＶＡＳ）デコーダ３１１に渡すように構成される。

【0069】

いくつかの実施形態におけるエンコーダ１０３／１１３／１２３／１３３は、受信されたオーディオ入力３０１の処理を制御するように構成されたシーン制御部３０５を備える。

【0070】

例えば、いくつかの実施形態では、エンコーダ１０３／１１３／１２３／１３３がオブジェクトヘッダクリエータ３０３を備える。シーン制御部３０５によって制御されるオブジェクトヘッダクリエータ３０３は、各データストリームをオブジェクトとして「マスタ」データストリームに挿入するように構成される。いくつかの実施形態では、オブジェクトヘッダクリエータ３０５が、さらに、真の空間構成または仮想的に定義されたシーンのいずれかに基づいて、距離および方向などの欠落オブジェクトパラメータを追加するように構成されることができる。

【0071】

いくつかの実施形態では、オブジェクトヘッダクリエータ３０３が挿入されたデータストリームがオブジェクトを含むかどうかを決定し、「マスタ」ＩＶＡＳストリームの直接の一部であるようにそれらのオーディオオブジェクトを自由に移動させ、それらのメタデータを更新するか、または任意の他のＩＶＡＳオブジェクトの下でオブジェクトを移動するように構成される。さらに、オブジェクトヘッダクリエータ３０３は、オブジェクトメタデータが空間構成全体に対して正しいようにオブジェクトメタデータを更新するように構成される。

【0072】

いくつかの実施形態におけるエンコーダ１０３／１１３／１２３／１３３は、ＩＶＡＳデータストリームプロセッサ３１３を備える。ＩＶＡＳデータストリームプロセッサ３１３は、（ＩＶＡＳ）デコーダ３１１を備えることができる。（ＩＶＡＳ）デコーダ３１１は空間オーディオデータストリームの１つまたは複数の設定を受信し、空間オーディオ信号を復号し、それらをオーディオシーンレンダラ２３１に渡すように構成される。

【0073】

ＩＶＡＳデータストリームプロセッサ３１３は、オーディオ信号を受信し、復号された（ＩＶＡＳ）空間オーディオ信号に基づいてオーディオシーンレンダリングを生成するように構成されたオーディオシーンレンダラ２３１を備えることができる。オーディオシーンレンダリングはたとえば、（ＩＶＡＳ）デコーダ３１１からの様々な入力のダウンミックスを構成し得る。次いで、レンダリングされたオーディオシーンオーディオ信号は、エンコーダ３１５に渡され得る。

【0074】

ＩＶＡＳデータストリームプロセッサ３１３はレンダリングされた空間オーディオ信号を受信し、それらを符号化するエンコーダ３１５を備えることができる。言い換えれば、ＩＶＡＳデータストリームプロセッサ３１３はすべてまたは少なくともいくつかの着信データストリームを復号し、たとえば、ＩＶＡＳＭＡＳＡ、ＩＶＡＳＨＯＡ／ＦＯＡまたはＩＶＡＳモノオブジェクトを使用して、共通の空間シーンを生成するように構成される。

【0075】

複数の埋め込まれたオブジェクトがあるいくつかの実施形態では、これらは利用可能な高い能力レンダリングを有する受信機のために送信することができる。残りの受信者は、プリレンダリングされた空間シーンのみを受信する。あるいは、少なくとも１つの「ＩＶＡＳストリームオブジェクト」と、予めレンダリングされた「空間シーンＩＶＡＳストリームオブジェクト」との組み合わせを使用して、ビットレートを低減することができる。

【0076】

さらに、エンコーダはオブジェクトを結合し、結合されたオブジェクトデータストリームを出力するように構成されたオーディオ・オブジェクトマルチプレクサ３０９を備える。

【0077】

エンコーダの動作はさらに、図４の流れ図によって示される。

【0078】

ステップ４０１において、オーディオ（ＩＶＡＳ）データストリームが図４において受信される。

【0079】

さらに、空間シーン構成および制御は、ステップ４１１で図４において決定される。

【0080】

決定された空間シーン構成および制御と入力オーディオデータストリームとに基づいて、
オーディオデータストリームのオブジェクトヘッダが、ステップ４０３によって図４に示されるように作成される。

【0081】

さらに、任意選択で、データストリームは、ステップ４０４によって、図４に示されるように、決定された空間シーン構成および制御ならびに入力オーディオデータストリームに基づいて復号される。

【0082】

次いで、ステップ４０６によって、図４に示すように、復号されたデータストリームをレンダリングすることができる。

【0083】

次いで、レンダリングされたオーディオシーンはステップ４０８によって、図４に示すように、適切な（ＩＶＡＳ）エンコーダを使用してエンコードされる。

【0084】

次いで、ステップ４０９によって、図４に示すように、データストリームを多重化し、出力することができる。

【0085】

ＩＶＡＳオブジェクトストリームメタデータは、任意の適切な音響／空間メタデータを利用することができる。その一例を以下の表に示す。

【表1】

【0086】

しかしながら、いくつかの実施形態では、ｘ－ｙ－ｚまたはデカルト座標などの他の位置情報が方位角－仰角－距離の代わりに使用され得る。例えば、さらなる構成が、テーブルによって提供されてもよい。

【表2】

【0087】

しかしながら、いくつかの最小ストリーム記述メタデータは、（ＩＶＡＳ）オブジェクトデータストリーム構成情報をシグナリングするために追加的に必要とされる。例えば、この情報は、以下のフォーマットを使用してシグナリングされ得る。

【表3】

【0088】

そのような実施形態では、「ストリームＩＤ」パラメータが現在のセッションにおいて各ＩＶＡＳオブジェクトストリームを一意に識別するために使用される。したがって、それは、各オリジナルおよび混合されたオーディオ成分（入力ストリーム）をシグナリングすることができる。例えば、信号は、システム内またはユーザインターフェース上の構成要素の同定を可能にする。「ストリームタイプ」パラメータは、各「オーディオオブジェクト」の意味を定義する。したがって、いくつかの実施形態では、オーディオオブジェクトがオブジェクトベースのオーディオ入力だけではない。むしろ、オブジェクトデータストリームはオブジェクトベースのオーディオ（入力）であってもよいし、任意のＩＶＡＳシーンであってもよい。この例は図５に示されており、ここでは、３つのタイプのオブジェクトが示されている。

【0089】

例えば、図５Ａには、単純な従来の（モノラル）オーディオオブジェクト５０１が示されている。オーディオオブジェクト５０１は、ＰＣＭオーディオ信号部５０５および音響（空間）メタデータ部５０３によって定義される。追加のメタデータが存在し得ることが理解される。

【0090】

図５Ｂに関して、図５Ａに示されるのと同じオーディオオブジェクトの符号化表現５０７が示される。

【0091】

図５Ｃは図５Ａおよび図５Ｂに示されるものと同じオーディオオブジェクトを示すが、本明細書で論じられるように、いくつかの実施形態に従って処理される。処理されたオーディオ・オブジェクトは、「ストリーム・タイプ＝０」パラメータ５１３によって定義されるオブジェクト・データ・ストリーム５０９として記述される。言い換えれば、オブジェクトデータストリーム５０９は、オブジェクトベースのオーディオＩＶＡＳオブジェクトストリームであることを識別するデータストリーム識別子を含む。さらに、オブジェクト・データ・ストリーム５０９は、オブジェクト・オーディオ・ビットストリーム部分５１５（オーディオ・オブジェクトの符号化表現）と、オブジェクト・データ・ストリームを一意に識別するストリーム識別子５１１とを含む。

【0092】

図５Ｄは、さらなる（ＩＶＡＳ）オブジェクトデータストリーム５１７を示す。さらなるオブジェクト・データ・ストリーム５１７は、「ストリーム・タイプ＝１」を有する識別子部分５２１を含む。いくつかの実施形態では、ストリームタイプ＝０が「単純な」オブジェクトタイプ、例えばモノラル信号に対応する。さらに、いくつかの実施形態では、ストリームタイプ＝１が潜在的に「複雑な」ストリームに対応する。例えば、この例ではストリームタイプ＝１が完全なＩＶＡＳストリームに対応し、この場合、それはＭＡＳＡ空間ストリームを含む。ＩＶＡＳには１つ以上のオブジェクトオブジェクトストリームが含まれている可能性があるため、ネストされたオブジェクトを許可する。ストリームタイプ＝０の場合、それ以上のオブジェクトは存在せず、ストリームは単純なタイプ（実際にはモノラルオブジェクト）であることがわかる。

【0093】

さらなるオブジェクト・データ・ストリーム５１７は明示的ストリーム記述部５２３をさらに備えることができ、または、ストリーム・コンテンツがオブジェクトストリームの復号を開始することによって決定することができる。この場合、ＭＡＳＡベースのシーンとして明示的に記述される（例えば、「ストリーム記述＝ＭＡＳＡ」）。

【0094】

さらに、オブジェクト・データ・ストリーム５１７は、ＭＡＳＡフォーマット・ビットストリーム部分５２５（オーディオ・オブジェクトの符号化表現）と、オブジェクト・データ・ストリームを一意に識別するストリーム識別子５１９「ストリームＩＤ＝０００００２」とを備える。

【0095】

本明細書で論じられるアプローチの第１の利点は、ＩＶＡＳ入力が多くの場合、復号／符号化動作なしに便利に転送され得ることである。たとえば、ミキサデバイス、遠隔会議ブリッジ（たとえば、ＡＲ／ＶＲ会議サーバ）、またはオーディオ入力を結合および／または転送するために使用される他のエンティティがＩＶＡＳエンドツーエンドサービスに存在する場合、復号／符号化動作は必要ない。したがって、受信された（符号化された）入力をＩＶＡＳオブジェクトストリームとして再割り当てすることによって、動作の複雑さおよび遅延が低減される。例えば、受信機の再生能力が未知である場合、サーバは、単に受信されたシーンをそのまま提供することによって複雑さを最適化することができる。任意のＩＶＡＳストリームは最も単純なＩＶＡＳデバイスでさえもサポートするために、モノとして復号され、レンダリングされ得る。また、中間点（例えば、会議サーバ）で復号化／符号化動作をスキップすることは、そのオーディオコンポーネントのエンドツーエンド遅延を低減する。したがって、ユーザ体験が改善される。

【0096】

さらに、実施形態は、浅く埋め込まれた「客観的」ＩＶＡＳストリームのみが存在するように構成される。言い換えれば、オブジェクトをも含む（したがって、複数のレベルのオブジェクトを含むことができる）オブジェクトストリームが存在する場合、深いデータ構造が回避され、したがって、デコーダの複雑さが低減される。したがって、いくつかの実施形態で提案されるような埋め込みはＩＶＡＳオブジェクトが別のＩＶＡＳオブジェクトを含むことを可能にするが、言い換えれば、ＩＶＡＳオブジェクトは任意の「深い」オブジェクトがいくつかの実施形態では「マスター」ＩＶＡＳストリームにより近い「上位」オブジェクトに移動されることができ、そのメタデータはその表現が新しく形成されたシーンにとって有意義なままであるように更新されることができる。
いくつかの実施形態では、ＩＶＡＳオブジェクトが別のＩＶＡＳオブジェクトの一部となるように移動することができる。したがって、オブジェクトは「より深く」移動される。これは、たとえば、複雑さまたはビットレートを節約するために、オーディオオブジェクト（たとえば、モノラルオブジェクト）を一緒に符号化または復号することを可能にし得る。同じタイプのフォーマットが構造内の異なるレベルにある場合、それらは、一般に、異なる時間に、または異なるインスタンスを使用して、符号化／復号される必要がある。これは、さらなる複雑さをもたらすことができる。

【0097】

さらに、本明細書で論じられる実施形態は、例えば、コンテンツ配信目的のために、ＩＶＡＳオブジェクトストリームを便利にネストすることが可能であるという第２の利点を有することができる。そのような実施形態では、より複雑なシーンが単一の（モノラル）オーディオオブジェクトとして扱うことができる。ネストされたパケット化の例を図６に示す。これは、例えば、復号の複雑さを分散するために使用することができる。これは、例えば、エッジクラウドサービスに非常に有用である。

【0098】

したがって、例えば、図６は、全シーンオブジェクトデータストリーム６０１を示す。全体シーンオブジェクトデータストリーム６０１は、複数のオブジェクトデータストリーム６０２、６０４、６０６、および６０８を含む。例えば、第１のオブジェクトデータストリーム６０２は、オブジェクトデータストリームを一意に識別するストリームＩＤ６２１（ストリームＩＤ＝０００００１）と、ストリームタイプ識別子６２３（ストリームタイプ＝０）と、データ部６２５とを備える。第２のオブジェクトデータストリーム６０４は、オブジェクトデータストリームを一意に識別するストリームＩＤ６３１（ストリームＩＤ＝０００００６）と、ストリームタイプ識別子６３３（ストリームタイプ＝１）と、データ部６３５とを備える。第３のオブジェクトデータストリーム６０６は、オブジェクトデータストリームを一意に識別するストリームＩＤ６４１（ストリームＩＤ＝０００００７）と、ストリームタイプ識別子６４３（ストリームタイプ＝１）と、データ部６４５とを備える。第４のオブジェクトデータストリーム６０８は、オブジェクトデータストリームを一意に識別するストリームＩＤ６５１（ストリームＩＤ＝０００００８）と、ストリームタイプ識別子６５３（ストリームタイプ＝０）と、データ部６５５とを備える。

【0099】

さらに、図６に示すように、第２のオブジェクト・データ・ストリーム６０４は、ネストされたオブジェクト・データ・ストリーム６１２および６１４をさらに備える。これらは、例えば、シーン全体のサブセクションに関連付けられたオブジェクトデータストリームであってもよい。第５のオブジェクトデータストリーム６１２は、オブジェクトデータストリームを一意に識別するストリームＩＤ６６１（ストリームＩＤ＝０００００４）と、ストリームタイプ識別子６６３（ストリームタイプ＝０）と、データ部６６５とを備える。第６のオブジェクトデータストリーム６１４は、オブジェクトデータストリームを一意に識別するストリームＩＤ６７１（ストリームＩＤ＝０００００５）と、ストリームタイプ識別子６７３（ストリームタイプ＝１）と、データ部６７５とを備える。

【0100】

さらに、ネストされた第６のオブジェクトデータストリーム６１４はさらに、ネストされたオブジェクトデータストリーム６２２および６２４を含む。これらは、例えば、シーン全体のサブセクションのサブセクションに関連付けられたオブジェクトデータストリームであってもよい。第７のオブジェクトデータストリーム６２２は、オブジェクトデータストリームを一意に識別するストリームＩＤ６８１（ストリームＩＤ＝０００００２）と、ストリームタイプ識別子６８３（ストリームタイプ＝１）と、データ部６８５とを備える。第８のオブジェクトデータストリーム６２４は、オブジェクトデータストリームを一意に識別するストリームＩＤ６９１（ストリームＩＤ＝０００００３）と、ストリームタイプ識別子６９３（ストリームタイプ＝１）と、データ部６９５とを備える。

【0101】

いくつかの実施形態を実施する際のさらなる利点は、空間パラメータ、例えば位置特性をすでに含む任意のＩＶＡＳ入力またはＩＶＡＳシーンがそのような特性を決定することができることである。例えば、これは、音響空間メタデータ（例えば、以前の表からのパラメータのうちの１つ）をＩＶＡＳオブジェクトストリーム（「ストリームタイプ＝１」）に追加することによって実装することができる。これは、例えば、ＡＲ／ＶＲ遠隔会議ユースケースにおける、強化された経験を可能にする。

【0102】

例えば、図７は、第１の（ＵＥ）位置での空間キャプチャを実装するＵＥまたは同様のキャプチャデバイス７０７と、第２（ユーザ）位置での第２の空間キャプチャ（またはオブジェクトキャプチャ）を実装する第２のキャプチャデバイス７０５とがあるキャプチャシーン７０１を示す。

【0103】

図１の右上に示される従来の手法はオーディオオブジェクトレンダリング７１３が位置し、第１空間キャプチャシーン７１１が位置することを示す。したがって、ユーザはマルチマイクロフォンＵＥを使用して（たとえば、ＭＡＳＡフォーマットで）空間シーンをキャプチャすることができるが、ユーザはオーディオオブジェクトをキャプチャするために、クローズアップマイクロフォンまたはたとえば、「マスタ」デバイスと接続することが可能な第２のＵＥを使用することができる。これらの２つの入力は、組み合わされ、ＩＶＡＳエンコーダに提供される。リスニングエクスペリエンスに関しては、空間オーディオ（例えば、背景オーディオ）とオーディオオブジェクト（例えば、ユーザボイス）との複合レンダリングをリスニングすることが可能である。

【0104】

本明細書に記載されるような実施形態を実施することにより、リスナは、第２の空間キャプチャ７２３のオーディオオブジェクトレンダリングの第１のオプションと、第１の空間キャプチャシーン７２１または第１の空間キャプチャ７３３および第２の空間キャプチャシーン７３１のオーディオオブジェクトレンダリングの第２のオプションとの間で切り替える（７３０）ことができる。したがって、ＩＶＡＳコーデックは、ＩＶＡＳオブジェクトストリームとして第２の空間オーディオ表現をインポートすることができる。したがって、ユーザがユーザのＵＥを使用して空間オーディオシーンをキャプチャするとき、無線マルチマイクロフォンデバイスまたは実際には、「マスタ」ＵＥに接続された第２のＵＥが第２の位置におけるサウンドシーンの完全な空間表現をキャプチャすることができる。
このサウンドシーンは第２のデバイスによってＩＶＡＳビットストリームとして符号化され、「会議ブリッジとして動作し」、ＩＶＡＳビットストリームを取り込み、それをＩＶＡＳオブジェクトストリームとして埋め込むことができる第２のＵＥに提供され得る。それは、次いで、リスナに２つの空間オーディオシーンで配信される。例えば、ユーザは、各シーンのモノラルダウンミックスがユーザのためにレンダリングされている他のシーンのオーディオオブジェクトレンダリングとして提供されるように、それらの間で切り替えることができる。

【0105】

図６はオブジェクトストリームネスティングの例を示すが、これは本発明によって可能にされるＩＶＡＳストリームトランスポート／パケット化の唯一の機構ではないことを理解されたい。図８は、いくつかの実施形態によるＩＶＡＳストリームパケット化の２つの例を示す。

【0106】

いくつかの実施形態では、パケット内容を指定するルックアップテーブルを使用することができる。ルックアップテーブルは「ペイロードヘッダ」として定義することができ、例えば、ＲＴＰペイロードヘッダとすることができる。これは、たとえば、様々なブロックのサイズなどを含み得る。ヘッダーに続くのはペイロードである。

【0107】

例えば、図８に示すように、データストリームは、各種ＩＶＡＳオブジェクトストリーム及びＩＶＡＳ含有量を含むことができる。したがって、シーンオブジェクトストリーム８０１全体は、パケット内容を指定することができるペイロードヘッダ８１１またはルックアップテーブルを備える。例えば、図８Ａに示すように、第１のオブジェクトデータストリーム８１３および第２のオブジェクトデータストリーム８１９、ならびに第１のペイロード８１５（ＭＡＳＡおよびオブジェクト）および第２のペイロード８１７（５．１チャネルオーディオデータ）などのペイロードを指定する。

【0108】

図８Ｃに示されるいくつかの実施形態では、データストリームがＩＶＡＳオブジェクトストリームのみを含むことができる。したがって、シーンオブジェクトストリーム全体８３１はオブジェクトデータストリーム８３３を含むパケットコンテンツを指定することができるペイロードヘッダまたはルックアップテーブルを備え、このパケットコンテンツはネストされたオブジェクトデータストリーム８３５を備えることができ、さらに、ネストされたオブジェクトデータストリームを備えることができる。

【0109】

図８Ｂは、シーン全体におけるペイロードおよびネストされたオブジェクトデータストリーム８１３を有する「ハイブリッド」実施形態を示す。

【0110】

追加の「ペイロードヘッダ」情報の生成およびそれらの解析において、ネスティングの関連コストが存在する。

【0111】

デコーダ／レンダラ１０５、１１５、１２５、１３５に関して。デコーダ／レンダラ１０５、１１５、１２５、１３５は各種（ＩＶＡＳ）オブジェクトデータストリームを受信し、データストリームを並列に復号およびレンダリングするように構成される。

【0112】

いくつかの実施形態では、ネストされたオーディオオブジェクトデータストリームの処理が各サブシーンレベルに対して個別に実行され、次いで、より高いレベルで組み合わされ得る。

【0113】

例えば、図６に示される例に関して、ここで、復号は、「ストリームＩＤ＝０００００２」および「ストリームＩＤ＝０００００３」で始まり得る。したがって、「ストリームＩＤ＝０００００５」がデコードされている（サブシーンのコンテナとして）。デコーダは、次いで、次の「ストリームＩＤ＝０００００４」を復号するように構成されることができる。この後、他のストリームがデコードされる。このアプローチは、例えば、サブシーンレベル間で一定のメモリが解放され得、したがって、全体的なメモリフットプリントが、組み合わされたすべてのストリームによって定義されないメモリ消費において、利点を有することができる。

【0114】

そのような実施形態では、レンダリングがレンダリングされたドメイン内の総和を用いてサブシーンレベルで実行されてもよく、または複合レンダリングは復号の先端時に実行されてもよい。

【0115】

いくつかの実施形態では、デコーダがサブシーンごとに別個のデコーダインスタンスを起動するように構成される。したがって、「ストリームタイプ＝１」ごとに、別個のＩＶＡＳデコーダインスタンスが初期化される。

【0116】

図９に関して、分析または合成デバイスとして使用され得る例示的な電子デバイスが示される。デバイスは、任意の適切な電子デバイスまたは装置であってもよい。例えば、いくつかの実施形態では、デバイス１４００がモバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。

【0117】

いくつかの実施形態では、デバイス１４００が少なくとも１つのプロセッサまたは中央処理装置１４０７を備える。プロセッサ１４０７は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成されることができる。

【0118】

いくつかの実施形態では、デバイス１４００がメモリ１４１１を備える。いくつかの実施形態では、少なくとも１つのプロセッサ１４０７がメモリ１４１１に結合される。メモリ１４１１は、任意の適切な記憶手段とすることができる。いくつかの実施形態では、メモリ１４１１がプロセッサ１４０７上で実施可能なプログラムコードを記憶するためのプログラムコードセクションを備える。さらに、いくつかの実施形態では、メモリ１４１１は、データ、たとえば、本明細書で説明する実施形態に従って処理された、または処理されるべきデータを記憶するための記憶データセクションをさらに備えることができる。プログラムコードセクション内に記憶された実施されたプログラムコードおよび記憶されたデータセクション内に記憶されたデータは、必要に応じて、メモリ－プロセッサ結合を介してプロセッサ１４０７によって取り出すことができる。

【0119】

いくつかの実施形態では、デバイス１４００がユーザインターフェース１４０５を備える。
ユーザインターフェース１４０５は、いくつかの実施形態ではプロセッサ１４０７に結合され得る。いくつかの実施形態では、プロセッサ１４０７がユーザインターフェース１４０５の動作を制御し、ユーザインターフェース１４０５から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース１４０５は、ユーザが例えばキーパッドを介して、デバイス１４００にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース１４０５は、ユーザがデバイス１４００から情報を取得することを可能にすることができる。たとえば、ユーザインターフェース１４０５は、デバイス１４００からの情報をユーザに表示するように構成されたディスプレイを備えることができる。ユーザインターフェース１４０５は、いくつかの実施形態では、情報がデバイス１４００に入力されることを可能にすることと、デバイス１４００のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース１４０５が本明細書で説明されるように、位置決定器と通信するためのユーザインターフェースであり得る。

【0120】

いくつかの実施形態では、デバイス１４００が入力／出力ポート１４０９を備える。いくつかの実施形態では、入力／出力ポート１４０９がトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ１４０７に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成されることができる。前記トランシーバまたは任意の好適なトランシーバまたは送信機および／または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成されることができる。

【0121】

トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。たとえば、いくつかの実施形態では、トランシーバは、適切なユニバーサルモバイルテレコミュニケーションシステム（ＵＭＴＳ）プロトコル、たとえばＩＥＥＥ８０２．Ｘなどのワイヤレスローカルエリアネットワーク（ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈ（登録商標）などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路（ＩＲＤＡ）を使用することができる。

【0122】

トランシーバ入力／出力ポート１４０９は、信号を受信するように構成されることができ、いくつかの実施形態では、適切なコードを実行するプロセッサ１４０７を使用することによって、本明細書で説明するようにパラメータを決定する。さらに、デバイスは、合成デバイスに送信されるべき適切なダウンミックス信号およびパラメータ出力を生成し得る。

【0123】

いくつかの実施形態では、デバイス１４００が合成デバイスの少なくとも一部として使用され得る。したがって、入力／出力ポート１４０９は、ダウンミックス信号を受信し、いくつかの実施形態では、本明細書で説明するようにキャプチャデバイスまたは処理デバイスにおいて決定されたパラメータを受信し、適切なコードを実行するプロセッサ１４０７を使用することによって適切なオーディオ信号フォーマット出力を生成するように構成されることができる。入力／出力ポート１４０９は、任意の適切なオーディオ出力に、例えば、マルチチャネルスピーカシステムおよび／またはヘッドフォン（ヘッドトラック付きまたは非トラック付きヘッドフォンであり得る）または同様のものに結合され得る。

【0124】

一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実装され得る。たとえば、いくつかの態様はハードウェアで実装され得るが、他の態様はコントローラ、マイクロプロセッサ、または他の計算デバイスによって実行され得るファームウェアまたはソフトウェアで実装され得るが、本発明はそれらに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図表現を使用して図示および目的され得るが、本明細書で目的するこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路または論理、汎用ハードウェアもしくはコントローラ、または他の計算デバイス、あるいはそれらの何らかの組合せで実装され得ることが十分に理解される。

【0125】

本発明の実施形態は、プロセッサエンティティ内などのモバイルデバイスのデータプロセッサによって、またはハードウェアによって、またはソフトウェアとハードウェアとの組合せによって実行可能なコンピュータソフトウェアによって実装され得る。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表し得ることに留意されたい。ソフトウェアは、メモリチップなどのオブジェクト理的媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー（登録商標）ディスクなどの磁気媒体、およびたとえばＤＶＤおよびそのデータ変異体ＣＤなどの光媒体に記憶され得る。

【0126】

メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなどの任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの１つまたは複数を含み得る。

【0127】

本発明の実施形態は、集積回路モジュールなどの様々な部品において実施することができる。集積回路の設計は、大規模で高度に自動化された処理によるものである。論理レベル設計を、エッチングされて半導体基板上に形成される準備ができた半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。

【0128】

カリフォルニア州マウンテンビューのシノプシス社、カリフォルニア州サンノゼのケイデンス・デザイン社によって提供されるプログラムなどのプログラムは、導体を自動的にルーティングし、十分に確立された設計規則および事前に格納された設計モジュールのライブラリを使用して半導体チップ上の構成要素を位置特定する。半導体回路の設計が完了すると、標準化された電子フォーマット（例えば、Ｏｐｕｓ、ＧＤＳＩＩなど）で得られた設計は、製造のために半導体製造設備または「ファブ」に送信されることができる。

【0129】

前述の説明は、例示的かつ非限定的な例として、本発明の例示的な実施形態の完全かつ有益な説明を提供してきた。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になる。しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2022-10-25

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備えた装置であって、
該少なくとも１つのメモリおよび該コンピュータプログラムコードは、該少なくとも１つのプロセッサを用いて、該装置に、少なくとも、
少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信させ、ここで、該第１オーディオストリームおよび該第２オーディオストリームのうちの少なくとも１つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを含むものであり、
受信された前記第１オーディオデータストリームおよび前記第２オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するために、前記第１オーディオストリームおよび前記第２オーディオストリームの各々のタイプを決定させ、
前記決定されたタイプに依存する少なくとも１つのパラメータを用いて、前記第２オーディオデータストリームを処理させ、
前記第１オーディオデータストリームおよび前記処理された第２オーディオデータストリームをレンダリングさせる
ように構成される、装置。

【請求項2】

前記第２オーディオデータストリームは、少なくとも１つのさらなるオーディオデータストリームを備えるように構成され、
前記少なくとも１つのさらなるオーディオデータストリームは、決定されたタイプを含み、
前記少なくとも１つのさらなるオーディオデータストリームは、前記第２オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項１に記載の装置。

【請求項3】

前記少なくとも１つのさらなるオーディオデータストリームは、少なくとも１つのさらなる埋め込みレベルを備え、
各埋め込みレベルは、決定されたタイプを有する少なくとも１つのさらなるオーディオデータストリームを含む、
請求項２に記載の装置。

【請求項4】

前記第２オーディオデータストリームは、マスターレベルオーディオデータストリームである、請求項１に記載の装置。

【請求項5】

各オーディオデータストリームは、さらに、前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、
前記オーディオデータストリームのタイプを記述するように構成されたストリーム記述子とのうちの少なくとも１つに関連付けられる、
請求項１に記載の装置。

【請求項6】

前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイス、および、オーディオサービスオーディオ信号のうちの１つである、請求項１に記載の装置。

【請求項7】

前記少なくとも１つのパラメータは、部屋特性またはシーン記述を定義するように構成される、請求項１に記載の装置。

【請求項8】

前記部屋特性またはシーン記述を規定する前記少なくとも１つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも１つを含む、請求項７に記載の装置。

【請求項9】

前記少なくとも１つのパラメータは、空間オーディオキャプチャに基づいて生成される、請求項７に記載の装置。

【請求項10】

前記装置は、さらに、追加オーディオデータストリームを受信することと、
前記追加オーディオデータストリームを、前記第１オーディオデータストリームおよび前記第２オーディオデータストリームのうちの一方または他方の中に埋め込むことと、
を実行する、請求項７に記載の装置。

【請求項11】

イマーシブオーディオ通信のための装置のための方法であって、
少なくとも第１オーディオデータストリームおよび第２オーディオデータストリームを受信するステップであって、前記第１オーディオストリームおよび前記第２オーディオストリームのうちの少なくとも１つは、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、ステップと、
前記受信された第１および第２オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するために、前記第１オーディオストリームおよび前記第２オーディオストリームの各々のタイプを決定ステップと、
前記決定されたタイプに依存する少なくとも１つのパラメータを用いて前記第２オーディオデータストリームを処理するステップと、
前記第１オーディオデータストリームおよび前記処理された第２オーディオデータストリームをレンダリングするステップと
を含む、方法。

【請求項12】

【請求項13】

前記少なくとも１つのさらなるオーディオデータストリームは、少なくとも１つのさらなる埋め込みレベルを含み、
各埋め込みレベルは、決定されたタイプを有する少なくとも１つのさらなるオーディオデータストリームを含む、
請求項１２に記載の方法。

【請求項14】

前記第２オーディオデータストリームは、マスターレベルオーディオデータストリームである、請求項１１に記載の方法。

【請求項15】

各オーディオデータストリームは、さらに、
前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、
前記オーディオデータストリームのタイプを記述するように構成されたストリーム記述子との
うちの少なくとも１つに関連付けられる、
請求項１１に記載の方法。

【請求項16】

前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイス、および、オーディオサービスオーディオ信号のうちの１つである、請求項１１に記載の方法。

【請求項17】

前記少なくとも１つのパラメータは、部屋特性またはシーン記述を定義するように構成される、請求項１１に記載の方法。

【請求項18】