IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ノキア テクノロジーズ オサケユイチアの特許一覧

特表2023-516303オーディオ表現および関連するレンダリング
<>
  • 特表-オーディオ表現および関連するレンダリング 図1
  • 特表-オーディオ表現および関連するレンダリング 図2
  • 特表-オーディオ表現および関連するレンダリング 図3
  • 特表-オーディオ表現および関連するレンダリング 図4
  • 特表-オーディオ表現および関連するレンダリング 図5
  • 特表-オーディオ表現および関連するレンダリング 図6
  • 特表-オーディオ表現および関連するレンダリング 図7
  • 特表-オーディオ表現および関連するレンダリング 図8
  • 特表-オーディオ表現および関連するレンダリング 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-04-19
(54)【発明の名称】オーディオ表現および関連するレンダリング
(51)【国際特許分類】
   G10L 19/008 20130101AFI20230412BHJP
【FI】
G10L19/008 200
G10L19/008 100
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022551652
(86)(22)【出願日】2021-02-10
(85)【翻訳文提出日】2022-10-25
(86)【国際出願番号】 FI2021050089
(87)【国際公開番号】W WO2021170903
(87)【国際公開日】2021-09-02
(31)【優先権主張番号】2002900.5
(32)【優先日】2020-02-28
(33)【優先権主張国・地域又は機関】GB
(81)【指定国・地域】
(71)【出願人】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100141162
【弁理士】
【氏名又は名称】森 啓
(72)【発明者】
【氏名】アンッシ ラモ
(72)【発明者】
【氏名】ラッセ ラークソネン
(72)【発明者】
【氏名】スイェート シャイアムスンダー マテ
(57)【要約】
【課題】オーディオ表現および関連するレンダリング。
【解決手段】少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信し、ここで、前記第1オーディオストリームおよび第2オーディオストリームのうちの少なくとも1つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備え、前記受信された第1および第2オーディオデータストリームのうちのいずれが前記空間オーディオストリームを備えるかを識別するために、前記第1オーディオストリームおよび第2オーディオストリームの各々のタイプを決定し、前記決定されたタイプに依存する少なくとも1つのパラメータで前記第2オーディオデータストリームを処理し、前記第1オーディオデータストリームおよび前記処理された第2オーディオデータストリームをレンダリングするように構成される手段を備えるイマーシブオーディオ通信のための装置。
【選択図】図1
【特許請求の範囲】
【請求項1】
少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信し、ここで、該第1オーディオストリームおよび該第2オーディオストリームのうちの少なくとも1つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを含んでおり、
受信された前記第1オーディオデータストリームおよび前記第2オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するために、前記第1オーディオストリームおよび前記第2オーディオストリームの各々のタイプを決定し、
前記決定されたタイプに依存する少なくとも1つのパラメータを用いて、前記第2オーディオデータストリームを処理し、
前記第1オーディオデータストリームおよび処理された前記第2オーディオデータストリームをレンダリングする、手段を含む通信のための装置。
【請求項2】
前記第2オーディオデータストリームは、少なくとも1つのさらなるオーディオデータストリームを含むように構成され、
前記少なくとも1つのさらなるオーディオデータストリームは決定されたタイプを含み、
前記少なくとも1つのさらなるオーディオデータストリームは、前記第2オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項1に記載の装置。
【請求項3】
前記少なくとも1つのさらなるオーディオデータストリームは、少なくとも1つのさらなる埋め込みレベルを備え、
各埋め込みレベルは、決定されたタイプを有する少なくとも1つのさらなるオーディオデータストリームを備える、
請求項2に記載の装置。
【請求項4】
前記第2オーディオデータストリームは、マスタ・レベルのオーディオデータストリームである、請求項1ないし3のいずれか1項に記載の装置。
【請求項5】
各オーディオデータストリームは、さらに、前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、前記オーディオデータストリームの前記タイプを記述するように構成されたストリーム記述子とのうちの少なくとも1つに関連付けられる、請求項1ないし4のいずれか1項に記載の装置。
【請求項6】
前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイスおよびオーディオサービスオーディオ信号のうちの1つである、請求項1ないし5のいずれか1項に記載の装置。
【請求項7】
前記少なくとも1つのパラメータは、部屋特性またはシーン記述を定義するように構成される、請求項1ないし6のいずれか1項に記載の装置。
【請求項8】
部屋特性またはシーン記述を規定する前記少なくとも1つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも1つを備える、請求項7に記載の装置。
【請求項9】
前記手段はさらに、追加オーディオデータストリームを受信し、前記第1オーディオデータストリームおよび前記第2オーディオデータストリームのうちの一方または他方の中に前記追加オーディオデータストリームを埋め込むように構成される、請求項1ないし8のいずれか1項に記載の装置。
【請求項10】
イマーシブオーディオ通信のための装置のための方法であって、前記方法は、
少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信するステップであって、該第1オーディオストリームおよび該第2オーディオストリームのうちの少なくとも1つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを含む、ステップと、
受信された該第1オーディオストリームおよび該第2オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するための、該第1オーディオストリームおよび該第2オーディオストリームの各々のタイプを決定するステップと、
前記決定されたタイプに依存する少なくとも1つのパラメータを用いて前記第2オーディオデータストリームを処理するステップと、
前記第1オーディオデータストリームおよび前記処理された第2オーディオデータストリームをレンダリングするステップと、
を含む、方法。
【請求項11】
前記第2オーディオデータストリームは、少なくとも1つのさらなるオーディオデータストリームを備えるように構成され、
前記少なくとも1つのさらなるオーディオデータストリームは、決定されたタイプを備え、
前記少なくとも1つのさらなるオーディオデータストリームは、前記第2オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項10に記載の方法。
【請求項12】
前記少なくとも1つのさらなるオーディオデータストリームは、少なくとも1つのさらなる埋め込みレベルを備え、
各埋め込みレベルは、決定されたタイプを有する少なくとも1つのさらなるオーディオデータストリームを備える、
請求項11に記載の方法。
【請求項13】
前記第2オーディオデータストリームは、マスタレベル・オーディオデータストリームである、請求項10ないし12のいずれか1項に記載の方法。
【請求項14】
各オーディオデータストリームは、さらに、前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、前記オーディオデータストリームのタイプを記述するように構成されたストリーム記述子と、のうちの少なくとも1つに関連付けられる、請求項10ないし13のいずれか1項に記載の方法。
【請求項15】
前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイス、および、オーディオサービスオーディオ信号のうちの1つである、請求項10ないし14のいずれか1項に記載の方法。
【請求項16】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備えた装置であって、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、前記装置に、少なくとも、
少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信させ、ここで、前記第1オーディオストリームおよび前記第2オーディオストリームのうちの少なくとも1つは、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備えるものであり、
前記受信された第1および第2オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するために、前記第1オーディオストリームおよび前記第2オーディオストリームの各々のタイプを決定させ、
前記決定されたタイプに依存する少なくとも1つのパラメータを用いて前記第2オーディオデータストリームを処理させ、
前記第1オーディオデータストリームおよび前記処理された第2オーディオデータストリームをレンダリングさせる
ように構成される、装置。
【請求項17】
前記第2オーディオデータストリームは、少なくとも1つのさらなるオーディオデータストリームを含むように構成され、
前記少なくとも1つのさらなるオーディオデータストリームは、決定されたタイプを含み、
前記少なくとも1つのさらなるオーディオデータストリームは、前記第2オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項16に記載の装置。
【請求項18】
前記少なくとも1つのさらなるオーディオデータストリームは、少なくとも1つのさらなる埋め込みレベルを含み、
各埋め込みレベルは、決定されたタイプを有する少なくとも1つのさらなるオーディオデータストリームを含む、
請求項17に記載の装置。
【請求項19】
前記第2オーディオデータストリームは、マスターレベルオーディオデータストリームである、請求項16ないし18のいずれか1項に記載の装置。
【請求項20】
各オーディオデータストリームは、さらに、
前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、
前記オーディオデータストリームのタイプを記述するように構成されたストリーム記述子と
のうちの少なくとも1つに関連付けられる、
請求項16ないし19のいずれか1項に記載の装置。
【請求項21】
前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイス、および、オーディオサービスオーディオ信号のうちの1つである、請求項16ないし20のいずれか1項に記載の装置。
【請求項22】
前記少なくとも1つのパラメータは、部屋特性またはシーン記述を定義するように構成される、請求項16ないし21のいずれか1項に記載の装置。
【請求項23】
前記部屋特性またはシーン記述を規定する前記少なくとも1つのパラメータは、方向、
方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも1つを備える、請求項22に記載の装置。
【請求項24】
前記装置は、さらに、
追加オーディオデータストリームを受信することと、
前記追加オーディオデータストリームを、前記第1オーディオデータストリームおよび前記第2オーディオデータストリームのうちの一方または他方の中に埋め込むことと、
を実行する、請求項16ないし23のいずれか1項に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は音技術分野関連オーディオ表現および関連するレンダリングのための装置および方法に関し、オーディオエンコーダおよびデコーダのためのオーディオ表現の装置および方法に関する。しかし、これに限定されるものではない。
【背景技術】
【0002】
イマーシブオーディオコーデックは、低ビットレート動作から透明度までの範囲の多数の動作点をサポートするように実装されている。そのようなコーデックの例は、3GPP(登録商標)・4G/5Gネットワークなどの通信ネットワーク上での使用に適しているように設計されているイマーシブボイスおよびオーディオサービス(IVAS)コーデックである。そのようなイマーシブサービスはたとえば、仮想現実(VR)、拡張現実(AR)、および複合現実(MR)などのアプリケーションのためのイマーシブボイスおよびオーディオにおける使用を含む。このオーディオコーデックは、スピーチ、音楽、および汎用オーディオの符号化、復号、およびレンダリングを処理することが期待される。さらに、音場および音源に関する空間情報を含む、チャネルベースのオーディオ入力およびシーンベースのオーディオ入力をサポートすることが期待される。コーデックはまた、会話サービスを可能にし、様々な送信条件下で高い誤りロバスト性をサポートするために、低レイテンシで動作することが期待される。
【0003】
さらに、パラメトリック空間オーディオ処理はオーディオ信号処理の分野であり、音の空間的側面が、パラメータのセットを使用して記述される。例えば、マイクロフォンアレイからのパラメトリック空間オーディオキャプチャではマイクロフォンアレイから、周波数帯域における音の方向、および周波数帯域におけるキャプチャされた音の指向性部分と非指向性部分との間の比などのパラメータのセットを信号伝達することが、典型的かつ有効な選択である。これらのパラメータは、マイクロフォンアレイの位置におけるキャプチャされた音の知覚的空間特性を十分に記述することが知られている。これらのパラメータはそれに応じて空間音の合成において、ヘッドホンのバイノーラル、ラウドスピーカのために、またはアンビソニックスなどの他のフォーマットに利用することができる。
【発明の概要】
【0004】
第1の態様によれば、少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信し、ここで、第1および第2オーディオストリームの少なくとも一方は、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを構成するものであり、受信された第1オーディオデータストリームおよび第2オーディオデータストリームのうちのどれが、空間オーディオストリームを備えるかを識別するために、第1オーディオストリームおよび第2オーディオストリームの各々のタイプを決定し、決定されたタイプに依存する少なくとも1つのパラメータを用いて、第2オーディオデータストリームを処理し、第1オーディオデータストリームおよび処理された第2オーディオデータストリームをレンダリングするように構成された手段を備える装置が提供される。
【0005】
第2オーディオデータストリームは、少なくとも1つのさらなるオーディオデータストリームを備えるように構成されることができ、少なくとも1つのさらなるオーディオデータストリームは決定されたタイプを備えることができ、少なくとも1つのさらなるオーディオデータストリームは第2オーディオデータストリームに対する埋め込みレベルオーディオデータストリームであり得る。
【0006】
少なくとも1つのさらなるオーディオデータストリームは、少なくとも1つのさらなる埋め込みレベルを備えることができ、各埋め込みレベルは決定されたタイプを有する少なくとも1つの追加のオーディオデータストリームを備えることができる。
【0007】
第2オーディオデータストリームは、マスターレベルオーディオデータストリームであり得る。
【0008】
各オーディオデータストリームは、オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、オーディオデータストリームのタイプを記述するように構成されたストリーム記述子とのうちの少なくとも1つとさらに関連付けられることができる。
【0009】
このタイプは、モノラルオーディオ信号タイプ、イマーシブボイス及びオーディオサービスオーディオ信号のうちの1つとすることができる。
【0010】
少なくとも1つのパラメータは、部屋特性またはシーン記述を定義するように構成されることができる。
【0011】
部屋特性またはシーン記述を定義する少なくとも1つのパラメータは、方向、方位角、方位仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも1つを含むことができる。
【0012】
この手段は、追加のオーディオデータストリームを受信し、第1オーディオデータストリームおよび第2オーディオデータストリームのうちの一方または他方の中に追加のオーディオデータストリームを埋め込むようにさらに構成されることができる。
【0013】
第2の態様によれば、装置のための方法が提供され、この手法は、少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信するステップであって、第1オーディオストリームおよび第2オーディオストリームのうちの少なくとも1つは通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、ステップと、受信された第1および第2オーディオデータストリームのうちのどれが空間オーディオストリームを備えるかを識別するために、第1オーディオストリームおよび第2オーディオストリームの各々のタイプを決定するステップと、決定されたタイプに依存する少なくとも1つのパラメータを用いて第2オーディオデータストリームを処理するステップと、第1オーディオデータストリームおよび処理された第2オーディオデータストリームをレンダリングするステップと、を含む。
【0014】
第2オーディオデータストリームは、少なくとも1つのさらなるオーディオデータストリームを備えるように構成されることができ、少なくとも1つのさらなるオーディオデータストリームは決定されたタイプを備えることができ、少なくとも1つのさらなるオーディオデータストリームは第2オーディオデータストリームに対する埋め込みレベルオーディオデータストリームであり得る。
【0015】
少なくとも1つのさらなるオーディオデータストリームは、少なくとも1つのさらなる埋め込みレベルを備えることができ、各埋め込みレベルは決定されたタイプを有する少なくとも1つの追加のオーディオデータストリームを備えることができる。
【0016】
第2オーディオデータストリームは、マスターレベルオーディオデータストリームであり得る。
【0017】
各オーディオデータストリームは、さらに、オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、オーディオデータストリームのタイプを記述するように構成されたストリーム記述子とのうちの少なくとも1つと関連付けられることができる。
【0018】
このタイプは、モノラルオーディオ信号タイプ、イマーシブボイス及びオーディオサービスオーディオ信号のうちの1つとすることができる。
【0019】
少なくとも1つのパラメータは、部屋特性またはシーン記述を定義するように構成されることができる。
【0020】
部屋特性またはシーン記述を定義する少なくとも1つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および位置のうちの少なくとも1つを含むことができる。本方法は、追加のオーディオデータストリームを受信するステップと、追加のオーディオデータストリームを第1オーディオデータストリームおよび第2オーディオデータストリームのうちの一方または他方の中に埋め込むステップとをさらに含むことができる。
【0021】
第3の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備える装置が提供され、該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信させ、受信された第1オーディオデータストリームおよび第2オーディオデータストリームのうちのどちらが空間オーディオストリームを備えるかを識別するために、第1オーディオストリームおよび第2オーディオストリームの各々のタイプを決定させ、前記決定されたタイプに依存する少なくとも1つのパラメータで前記第2のオーディオデータストリームを処理させ、前記第1のオーディオデータストリームと前記処理された第2のオーディオデータストリームをレンダリングさせるように構成される。
【0022】
第2オーディオデータストリームは少なくとも1つのさらなるオーディオデータストリームを備えるように構成されることができ、少なくとも1つのさらなるオーディオデータストリームは決定されたタイプを備えることができ、少なくとも1つのさらなるオーディオデータストリームは、第2オーディオデータストリームに対する埋め込みレベルオーディオデータストリームであり得る。
【0023】
少なくとも1つのさらなるオーディオデータストリームは、少なくとも1つのさらなる埋め込みレベルを備えることができ、各埋め込みレベルは決定されたタイプを有する少なくとも1つの追加のオーディオデータストリームを備えることができる。
【0024】
第2オーディオデータストリームは、マスターレベルオーディオデータストリームであり得る。
【0025】
各オーディオデータストリームは、オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、オーディオデータストリームのタイプを記述するように構成されたストリーム記述子とのうちの少なくとも1つとさらに関連付けられることができる。
【0026】
このタイプは、モノラルオーディオ信号タイプ、イマーシブボイス及びオーディオサービスオーディオ信号のうちの1つとすることができる。少なくとも1つのパラメータは、部屋特性またはシーン記述を定義するように構成されることができる。部屋特性またはシーン記述を定義する少なくとも1つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも1つを含むことができる。
【0027】
この装置は、さらに、追加のオーディオデータストリームを受信することと、第1オーディオデータストリームおよび第2オーディオデータストリームのうちの一方または他方の中に追加のオーディオデータストリームを埋め込むこととを実行することができる。
【0028】
第4の態様によれば、少なくとも第1のオーディオデータストリームおよび第2のオーディオデータストリームを受信し、ここで、前記第1および第2のオーディオストリームの少なくとも1つは、通信中にイマーシブオーディオを可能にする空間オーディオストリームを含むものであり、前記受信した第1及び第2のオーディオデータストリームのいずれが前記空間オーディオストリームを構成するかを識別するために、前記第1及び第2のオーディオストリームの各々のタイプを決定するように構成された受信回路と、前記決定されたタイプに依存する少なくとも1つのパラメータで前記第2のオーディオデータストリームを処理するように構成された処理回路と、前記第1のオーディオデータストリームおよび前記処理された第2のオーディオデータストリームをレンダリングするように構成されたレンダリング回路と、を備える装置が提供される。
【0029】
第5の態様によれば、装置に、少なくとも、少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信するステップであって、第1オーディオストリームおよび第2オーディオストリームのうちの少なくとも1つは、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、ステップと、受信された第1および第2オーディオデータストリームのうちのどれが空間オーディオストリームを備えるかを識別するために、第1オーディオストリームおよび第2オーディオストリームの各々のタイプを決定するステップと、決定されたタイプに依存する少なくとも1つのパラメータを用いて、第2オーディオデータストリームを処理するステップと、第1オーディオデータストリームおよび処理された第2オーディオデータストリームをレンダリングするステップと、を実行させるための命令[またはプログラム命令を備えるコンピュータ可読媒体]を備えるコンピュータプログラムが提供される。
【0030】
第6の態様によれば、装置に少なくとも、少なくとも、第1オーディオデータストリームおよび第2オーディオデータストリームを受信することであって、第1オーディオデータストリームおよび第2オーディオデータストリームは、通信の間イマーシブオーディオを可能にする空間オーディオストリームを含むものである、ことと、受信された第1および第2オーディオデータストリームのうちのどちらが空間オーディオストリームを備えるかを識別するために、第1オーディオストリームおよび第2オーディオストリームの各々のタイプを決定することと、決定されたタイプに依存する少なくとも1つのパラメータを用いて、第2オーディオデータストリームを処理することと、第1オーディオデータストリームおよび処理された第2オーディオデータストリームをレンダリングすることと、を実行させるプログラム命令を備える非一時的コンピュータ可読媒体が提供される。
【0031】
第7の態様によれば、少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信するための手段であって、第1オーディオストリームおよび第2オーディオストリームのうちの少なくとも1つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、手段と、受信された第1および第2オーディオデータストリームのうちのいずれを備えるかを識別するための第1オーディオストリームおよび第2オーディオストリームの各々のタイプを決定するための手段と、決定されたタイプに依存する少なくとも1つのパラメータで第2オーディオデータストリームを処理するための手段と、第1オーディオデータストリームおよび処理された第2オーディオデータストリームをレンダリングするための手段と、を備える装置が提供される。
【0032】
第8の態様によれば、装置に、少なくとも、少なくとも、第1オーディオストリームおよび第2オーディオストリームを受信することと、ここで、第1オーディオストリームおよび第2オーディオストリームのうちの少なくとも1つは通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備え、受信された第1および第2オーディオデータストリームのうちのどちらが空間オーディオストリームを備えるかを識別するために、第1オーディオストリームおよび第2オーディオストリームの各々のタイプを決定することと、決定されたタイプに依存する少なくとも1つのパラメータを用いて第2オーディオデータストリームを処理することと、第1オーディオデータストリームおよび処理された第2オーディオデータストリームをレンダリングすることと、を実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。
【0033】
この装置は、上述のような動作を実行するための手段を含む。
【0034】
この装置は、上述のような方法の動作を実行するように構成される。
【0035】
このコンピュータプログラムは、コンピュータに上述の方法を実行させるためのプログラム命令を含む。
【0036】
媒体上に記憶されたコンピュータプログラム製品は装置に、本明細書に記載する方法を実行させることができる。
【0037】
電子デバイスは、本明細書で説明されるような装置を備えることができる。
【0038】
チップセットは、本明細書に記載の装置を備えてもよい。本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。
【図面の簡単な説明】
【0039】
本出願をより良く理解するために、ここで、例として添付の図面を参照する。
図1図1は、いくつかの実施形態を採用するのに適した例示的な会議システムを概略的に示す。
図2図2a~2dは、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。
図3図3は、いくつかの実施形態によるビットストリーム-オブジェクト-ビットストリーム変換器を概略的に示す。
図4図4は、いくつかの実施形態による、図3に示されるようなビットストリーム-オブジェクト-ビットストリーム変換器の動作のフロー図を概略的に示す。
図5図5a~5dは、いくつかの実施形態による例示的なオブジェクトフォーマットを示す。
図6図6は、いくつかの実施形態による例示的なオブジェクトのネスティングを示す。
図7図7は、いくつかの実施形態による例示的な動作シナリオを示す。
図8図8a~図8cはいくつかの実施形態による例示的なオブジェクトパケット化を示す。
図9図9は、示される装置を実装するのに適した例示的なデバイスを示す。
【発明を実施するための形態】
【0040】
以下では、空間ストリームをオブジェクトストリームとして埋め込み、空間ストリームをそのままオブジェクトとして受信する参加者に送信するための、好適な装置および可能な機構をさらに詳細に説明する。オブジェクトメタデータは、空間シーンに基づいて更新される。言い換えれば、オブジェクトストリームタイプは、それ自体、処理要素によって生成されたそれぞれのオブジェクトメタデータを有する別のオーディオストリームである。この動作は、2つ以上の入力フォーマットを受信する適切なデバイス(たとえば、モバイル、ユーザ機器UE)、または、たとえば、会議ブリッジ(たとえば、マルチポイント制御ユニット-MCU)によって実行され得る。
【0041】
本発明は、多くの入力オーディオフォーマット、イマーシブオーディオシーン表現、および着信符号化オーディオが例えば、混合され、再符号化され、および/またはリスナに転送され得るサービスをサポートすることが可能なイマーシブオーディオコーデックに関する。
【0042】
上記で説明したIVASコーデックは3GPP EVSコーデックの延伸方向であり、4G/5Gを超える新しいリアルタイムイマーシブボイスおよびオーディオサービスを意図したものである。そのようなイマーシブサービスはたとえば、仮想現実(VR)および拡張現実(AR)のためのイマーシブボイスおよびオーディオを含む。多目的オーディオコーデックは、スピーチ、音楽、および汎用オーディオの符号化、復号、およびレンダリングを処理することが期待される。音場および音源に関する空間情報を含むチャネルベースのオーディオおよびシーンベースのオーディオ入力をサポートすることが期待される。また、会話サービスを可能にし、様々な送信条件下で高い誤りロバスト性をサポートするために、低レイテンシで動作することも期待される。
【0043】
IVASエンコーダは、サポートされるフォーマットで(およびフォーマットのいくつかの許容される組み合わせで)入力を受信することができるように構成される。同様に、デコーダは、いくつかのサポートされるフォーマットでオーディオを出力することができることが期待される。伝達(符号化/復号)後にオーディオを元のフォーマットで提供することができるパススルーモードが提案されている。
【0044】
適切な(モノ)オーディオ信号と組み合わされた空間メタデータを処理するように構成され、ユーザにレンダリングすることができるIVASコーデックのための許容可能なフォーマットとして実装されているオブジェクトベースオーディオを記述する方法が提案されている。メタデータパラメータは例えば、任意の視覚的もしくは聴覚的追跡方法、または任意の他のモダリティからの助けを借りて、現実の環境からキャプチャすることができる。いくつかの実施形態では、メタデータを生成するために無線ベースの技術を使用することができ、例えば、Bluetooth(登録商標)、WifiまたはGPSロケータ技術を使用して、オブジェクト座標を取得することができる。方位データは、磁力計、加速度計、および/またはジャイロメータなどのセンサを使用して、いくつかの実施形態で受信することができる。また、近接センサなどの他のセンサを使用して、現実環境からシーン関連メタデータを生成することができる。
【0045】
あるいは、メタデータが定義された仮想シーンに従って、例えば、テレビ会議ブリッジによって、またはユーザ機器(例えば、スマートフォン)によって人工的に作成され得る。例えば、ユーザは、適切なUIを介して、いくつかの所望の音響特徴を設定または示すことができる。
【0046】
いくつかの実施形態では、オブジェクトベースのオーディオ空間メタデータは、1つまたは複数のオブジェクトとして定義することができ、各オブジェクトは方位角、仰角、距離、利得、および空間範囲などのパラメータによって定義することができる。
【0047】
さらに、メタデータ支援空間オーディオ(MASA)は、パラメトリック空間オーディオフォーマットおよび表現である。高レベルでは、「Nチャネル+空間メタデータ」からなる表現とみなすことができる。これは、スマートフォンなどの実用的なデバイス上での空間オーディオキャプチャに特に適したシーンベースのオーディオフォーマットである。ここで、FOA/HOAキャプチャのための球状アレイは、現実的ではなく、利便性もない。このアイデアは、時間および頻度が変化する音源方向に関して、サウンドシーンを記述することである。指向性音源が検出されない場合、オーディオは、拡散として記述される。
MASA(現在IVASのために提案されている)では、各時間-周波数(TF)タイルに対して1つまたは2つの方向があり得る。空間メタデータは方向に関して記述され、例えば、各方向についての空間メタデータと、方向とは無関係である共通の空間メタデータとを含むことができる。
【0048】
たとえば、方向に対する空間メタデータは、方向インデックス、直接エネルギー対総エネルギー比、拡散コヒーレンス、および距離などのパラメータを備えることができる。方向に依存しない空間メタデータは、拡散対全エネルギー比、サラウンドコヒーレンス、および残余対全エネルギー比などのパラメータを含むことができる。
【0049】
IVASの例示的な使用事例は、AR/VR遠隔会議のためのものである。各参加者は、3D空間において自由に見渡す(パンする)ことができる自身のオブジェクトを有することができる。遠隔会議シナリオでは、会議ブリッジが例えば、複数の参加者からいくつかのIVASストリームを受信することができる。次いで、これらのストリームは例えば、少なくとも各アクティブな参加者のためのオブジェクトを使用して、共通のストリームに結合される。
あるいは、プリレンダリングされた空間シーンが作成され、例えばMASAまたはFOA/HOAオーディオフォーマットとして表されてもよい。オブジェクトが使用される場合、
到来するオブジェクトまたは他のモノストリーム(例えば、EVSストリーム)は、適切なメタデータ表現を波形に添付することによって、出て行く共通会議ストリームのオブジェクトストリームになるように直接コピーすることができる。これは、オーディオ波形の再符号化を含んでも含まなくてもよい。しかしながら、参加者がMASAまたはHOAのような空間オーディオストリームを送信している場合、会議ブリッジは(モノラル)オーディオオブジェクトとしてダウンストリームを送信する前に、すべての着信IVASストリームを復号し、ストリームをモノラルに縮小しなければならない。
【0050】
さらなる使用事例は、ユーザが、空間オーディオキャプチャが可能にされた固定スタンド上のモバイルデバイスを用いてシーンをキャプチャしている(たとえば、ライブポッドキャストビデオを作成している)場合である。加えて、ヘッドセットまたは他の何らかの形態のクローズアップマイクロフォンを使用して、音声記録を向上させることができる。クローズアップキャプチャデバイスは、例えば、空間オーディオ対応ラバリエマイクロフォンからのヘッドセットまたはMASAからのバイノーラルキャプチャを用いて、空間オーディオをキャプチャすることも可能である。次いで、クローズアップキャプチャされた音声は、オブジェクトストリームとして、IVAS空間オーディオストリームをキャプチャしたデバイスに追加され得る。オブジェクトの位置および距離は例えば、クローズアップキャプチャデバイスに取り付けられた適切な位置ビーコンを使用して、都合よくキャプチャすることができる。IVASでモノラルオブジェクトのみが許可される場合、デバイスはそれをIVASストリームに埋め込む前に、クローズアップキャプチャからモノラルに到来する空間ストリームをダウンミックスしなければならない。本明細書に記載される実施形態は追加される待ち時間および複雑さを回避または最小化することを試み、さらに、最大達成可能品質を増加させることを試みる。
【0051】
したがって、本明細書で説明するいくつかの実施形態は、オーディオソースミキシングおよびフォワーディングにおける各種IVASオーディオ入力の柔軟性を高める。例えば、AR/VR遠隔会議および他のイマーシブユースケースである。
【0052】
加えて、いくつかの実施形態では、実質的により少ない遅延および複雑さがあり、AR/VR会議ブリッジまたはキャプチャデバイスにおいてダウン混合空間ストリームを生成することを回避する。さらに、変換されたオーディオフォーマットでは、オリジナルの入力プロパティの損失や品質の損失はない。
【0053】
いくつかの実施形態では、デコーダがインターフェース出力フォーマット、いわゆるパススルーモードを有するように構成され、出力モードとして動作する通常の統合レンダラよりも高い能力を有する外部レンダラを有する。
【0054】
図1に関して、いくつかの実施形態が実装され得る例示的なシステムが示される。システム200は一部の参加者がモノラル及び一部の空間ストリームを送信し、一部の参加者がモノラル、一部の空間、及び一部の6DoFのレンダリング及び再生能力を有する会議シナリオを示す。例えば、図1の部屋A209に示されるように、ユーザ202はモノキャプチャおよび固定空間再生を使用しており、部屋B213ではユーザ206が空間キャプチャおよび6DoF(自由度)再生を使用しており、部屋C211ではユーザ204がモノキャプチャおよび再生を使用しており、部屋D215ではユーザ208および210が空間キャプチャおよびモノオブジェクトキャプチャおよび空間再生を使用しているが、ヘッドトラッキングは使用していない。会議サービス201は、全てのユーザを接続する。
【0055】
図1に示すシステムは異なる能力を有するユーザ操作装置を有し、本明細書で説明する実施形態は会議サービス201が様々な入力を別々に復号し、混合し、符号化することを必要とせずに、ユーザの体験を最適化しようと試みる。本明細書に記載の実施形態では、没入度(イマーシブ度)のレベルに関連する任意の決定が行われる。たとえば、いくつかの実施形態では、装置が受信UEにおいて実装され得る。したがって、いくつかの実施形態では、(IVAS)オブジェクトストリームが別の「客観化(objectified)」(IVAS)データストリームを備えるように構成されることができる。さらに、オブジェクトメタデータは、オブジェクトが(モノラル)オブジェクトベースのオーディオ表現(例えば、空間メタデータを有するEVSストリーム)であるか、またはオブジェクトのようなメタデータ(例えば、位置メタデータ)を与えることができるフルIVAS空間ストリーム(例えば、MASAもしくはステレオ、またはIVASを含むオブジェクト)であるかどうかという情報を含むように構成される。そのような実施形態では、任意の「客観化」(IVAS)データストリームが別の(IVAS)オブジェクトを含むことができる。これらの(IVAS)オブジェクトは、他の(IVAS)オブジェクトまたは「主(メイン)の」(IVAS)データストリームの一部となるように移動させることができる。その後、オブジェクトメタデータは、新しく形成されたIVASストリーム全体に対して有意義なままであるように更新される。さらに、いくつかの実施形態では、オブジェクトメタデータ技術分野の残りは空間シーン記述に従って更新される。
【0056】
そのような実施形態では、入力オーディオストリームが空間的にキャプチャ/作成される会議ブリッジ使用事例のためのより高い品質およびより低い遅延が期待される。さらに、いくつかの実施形態は、使用事例(ユースケース)において実装され得る。たとえば、モバイルフォン(UE)によってキャプチャされた主空間オーディオがあり、追加の空間オーディオオブジェクトが無線マイクロフォンによってキャプチャされて、たとえば、ボイスキャプチャ利益を同様に強化し、さらなる符号化を可能にするためにUEにおいてオーディオを復号する必要なしに、新しいクラスのデバイス(無線マイクロフォン)上での(IVAS)符号化を可能にする。代わりに、ストリームは、そのまま単に埋め込むことができる。
【0057】
実施形態をさらに説明する前に、いくつかの実施形態で使用され得る空間オーディオ信号を取得し、レンダリングするためのシステムについて最初に説明する。
【0058】
図2に関して、図1に示されるようなシステム内で使用され、本明細書に記載されるようないくつかの実施形態を実装するのに適した例示的な装置が示される。
【0059】
図2Aは、例えば、部屋Aのユーザに関していくつかの実施形態を実装するのに適した装置を示す。この例では、装置がエンコーダ103に渡されるモノラルオーディオ信号を生成するように構成された単一のマイクロフォン101を備える。装置は、適切な会議ネットワークに送信する前に、モノラルオーディオ信号を受信し、モノラルオーディオ信号を符号化するように構成されたエンコーダ103をさらに備える。
【0060】
図2Aはさらに、復号化され、適切なオーディオ信号出力にレンダリングされる符号化された空間/モノラルオーディオ信号を受信するように構成されたデコーダ/レンダラ105を示し、これらは、空間オーディオ信号をユーザに出力するために複数のスピーカ107に渡される。
【0061】
図2Bは、部屋Bのユーザに関していくつかの実施形態を実装するのに適した例示的な装置をさらに示す。この例では、この装置は、エンコーダ113に渡される空間オーディオ信号を生成するために使用され得る複数のオーディオ信号を生成するように構成された複数のマイクロフォン111オーディオ入力を備える。装置はさらに、適切な会議ネットワークに送信する前に、空間オーディオ信号を受信し、空間オーディオ信号を符号化するように構成されたエンコーダ113を備える。
【0062】
図2Bはさらに、復号化され、適切なオーディオ信号出力にレンダリングされる符号化された空間/モノオーディオ信号を受信するように構成されたデコーダ/レンダラ115を示し、この信号出力はヘッドトラッカ/ロケータ117を備えたヘッドフォンに渡され、空間オーディオ信号をユーザに出力し、ユーザ位置をデコーダ/レンダラ115に渡してレンダリングを制御する。
【0063】
図2Cは部屋Cのユーザに関していくつかの実施形態を実装するのに適した例示的な装置を示す。この例では装置がモノラルオーディオ信号を生成するように構成されたモノラルマイクロフォン121オーディオ入力を備え、モノラルオーディオ信号はエンコーダ123に渡されるモノラルオーディオ信号を生成するために使用され得る。装置はさらに、適切な会議ネットワークに送信する前に、モノラルオーディオ信号を受信し、モノラルオーディオ信号を空間オーディオ信号として符号化するように構成されたエンコーダ123を備える。
【0064】
図2Cはさらに、復号化され、適切なオーディオ信号出力にレンダリングされる符号化された空間/モノオーディオ信号を受信するように構成されたデコーダ/レンダラ125を示し、これは、モノスピーカ127に渡されて、オーディオ信号をユーザに出力する。
【0065】
図2Dは部屋Dのユーザに関していくつかの実施形態を実装するのに適した例示的な装置をさらに示す。この例では、装置が、複数のオーディオ信号を生成するように構成された複数のマイクロフォン131オーディオ入力と、エンコーダ133に渡される空間オーディオ信号および外部モノ/空間オーディオ信号を生成するために使用され得る外部マイクロフォン(たとえば、モノマイクロフォンまたはマルチマイクロフォン)とを備える。装置はさらに、適切な会議ネットワークに送信する前に、空間/モノオーディオ信号を受信し、空間/モノオーディオ信号を符号化するように構成されたエンコーダ133を備える。
【0066】
図2Dはさらに、復号化され、適切なオーディオ信号出力にレンダリングされる符号化された空間/モノラルオーディオ信号を受信するように構成されたデコーダ/レンダラ135を示し、これらは、ユーザに空間オーディオ信号を出力するためにヘッドホン137に渡される。
【0067】
図3に関して、例示的な(IVAS)エンコーダ103/113/123/133のハイレベルビューが示されており、これは、非排他的な例として、コーデックのために予想され得る様々な入力を含む。
【0068】
いくつかの実施形態におけるエンコーダ103/113/123/133は、オーディオ(IVAS)入力301を含む。オーディオ入力301は、ローカルまたはリモートのいずれかの複数のソースから空間データ(IVAS)ストリームの1つまたは複数の設定を受信することができるように構成される。ソース(複数可)は、例えば、エンコーダの場所にある既知の空間構成の複数の空間キャプチャデバイス、および/または空間IVASストリームを送信する複数のリモート参加者のようなローカルなものであってもよい。オーディオ入力301はオーディオデータストリームをオブジェクト・ヘッダクリエータ303に、およびIVASデータ・ストリーム・プロセッサ313の一部として(IVAS)デコーダ311に渡すように構成される。
【0069】
いくつかの実施形態におけるエンコーダ103/113/123/133は、受信されたオーディオ入力301の処理を制御するように構成されたシーン制御部305を備える。
【0070】
例えば、いくつかの実施形態では、エンコーダ103/113/123/133がオブジェクトヘッダクリエータ303を備える。シーン制御部305によって制御されるオブジェクトヘッダクリエータ303は、各データストリームをオブジェクトとして「マスタ」データストリームに挿入するように構成される。いくつかの実施形態では、オブジェクトヘッダクリエータ305が、さらに、真の空間構成または仮想的に定義されたシーンのいずれかに基づいて、距離および方向などの欠落オブジェクトパラメータを追加するように構成されることができる。
【0071】
いくつかの実施形態では、オブジェクトヘッダクリエータ303が挿入されたデータストリームがオブジェクトを含むかどうかを決定し、「マスタ」IVASストリームの直接の一部であるようにそれらのオーディオオブジェクトを自由に移動させ、それらのメタデータを更新するか、または任意の他のIVASオブジェクトの下でオブジェクトを移動するように構成される。さらに、オブジェクトヘッダクリエータ303は、オブジェクトメタデータが空間構成全体に対して正しいようにオブジェクトメタデータを更新するように構成される。
【0072】
いくつかの実施形態におけるエンコーダ103/113/123/133は、IVASデータストリームプロセッサ313を備える。IVASデータストリームプロセッサ313は、(IVAS)デコーダ311を備えることができる。(IVAS)デコーダ311は空間オーディオデータストリームの1つまたは複数の設定を受信し、空間オーディオ信号を復号し、それらをオーディオシーンレンダラ231に渡すように構成される。
【0073】
IVASデータストリームプロセッサ313は、オーディオ信号を受信し、復号された(IVAS)空間オーディオ信号に基づいてオーディオシーンレンダリングを生成するように構成されたオーディオシーンレンダラ231を備えることができる。オーディオシーンレンダリングはたとえば、(IVAS)デコーダ311からの様々な入力のダウンミックスを構成し得る。次いで、レンダリングされたオーディオシーンオーディオ信号は、エンコーダ315に渡され得る。
【0074】
IVASデータストリームプロセッサ313はレンダリングされた空間オーディオ信号を受信し、それらを符号化するエンコーダ315を備えることができる。言い換えれば、IVASデータストリームプロセッサ313はすべてまたは少なくともいくつかの着信データストリームを復号し、たとえば、IVAS MASA、IVAS HOA/FOAまたはIVASモノオブジェクトを使用して、共通の空間シーンを生成するように構成される。
【0075】
複数の埋め込まれたオブジェクトがあるいくつかの実施形態では、これらは利用可能な高い能力レンダリングを有する受信機のために送信することができる。残りの受信者は、プリレンダリングされた空間シーンのみを受信する。あるいは、少なくとも1つの「IVASストリームオブジェクト」と、予めレンダリングされた「空間シーンIVASストリームオブジェクト」との組み合わせを使用して、ビットレートを低減することができる。
【0076】
さらに、エンコーダはオブジェクトを結合し、結合されたオブジェクトデータストリームを出力するように構成されたオーディオ・オブジェクトマルチプレクサ309を備える。
【0077】
エンコーダの動作はさらに、図4の流れ図によって示される。
【0078】
ステップ401において、オーディオ(IVAS)データストリームが図4において受信される。
【0079】
さらに、空間シーン構成および制御は、ステップ411で図4において決定される。
【0080】
決定された空間シーン構成および制御と入力オーディオデータストリームとに基づいて、
オーディオデータストリームのオブジェクトヘッダが、ステップ403によって図4に示されるように作成される。
【0081】
さらに、任意選択で、データストリームは、ステップ404によって、図4に示されるように、決定された空間シーン構成および制御ならびに入力オーディオデータストリームに基づいて復号される。
【0082】
次いで、ステップ406によって、図4に示すように、復号されたデータストリームをレンダリングすることができる。
【0083】
次いで、レンダリングされたオーディオシーンはステップ408によって、図4に示すように、適切な(IVAS)エンコーダを使用してエンコードされる。
【0084】
次いで、ステップ409によって、図4に示すように、データストリームを多重化し、出力することができる。
【0085】
IVASオブジェクトストリームメタデータは、任意の適切な音響/空間メタデータを利用することができる。その一例を以下の表に示す。
【表1】
【0086】
しかしながら、いくつかの実施形態では、x-y-zまたはデカルト座標などの他の位置情報が方位角-仰角-距離の代わりに使用され得る。例えば、さらなる構成が、テーブルによって提供されてもよい。
【表2】
【0087】
しかしながら、いくつかの最小ストリーム記述メタデータは、(IVAS)オブジェクトデータストリーム構成情報をシグナリングするために追加的に必要とされる。例えば、この情報は、以下のフォーマットを使用してシグナリングされ得る。
【表3】
【0088】
そのような実施形態では、「ストリームID」パラメータが現在のセッションにおいて各IVASオブジェクトストリームを一意に識別するために使用される。したがって、それは、各オリジナルおよび混合されたオーディオ成分(入力ストリーム)をシグナリングすることができる。例えば、信号は、システム内またはユーザインターフェース上の構成要素の同定を可能にする。「ストリームタイプ」パラメータは、各「オーディオオブジェクト」の意味を定義する。したがって、いくつかの実施形態では、オーディオオブジェクトがオブジェクトベースのオーディオ入力だけではない。むしろ、オブジェクトデータストリームはオブジェクトベースのオーディオ(入力)であってもよいし、任意のIVASシーンであってもよい。この例は図5に示されており、ここでは、3つのタイプのオブジェクトが示されている。
【0089】
例えば、図5Aには、単純な従来の(モノラル)オーディオオブジェクト501が示されている。オーディオオブジェクト501は、PCMオーディオ信号部505および音響(空間)メタデータ部503によって定義される。追加のメタデータが存在し得ることが理解される。
【0090】
図5Bに関して、図5Aに示されるのと同じオーディオオブジェクトの符号化表現507が示される。
【0091】
図5C図5Aおよび図5Bに示されるものと同じオーディオオブジェクトを示すが、本明細書で論じられるように、いくつかの実施形態に従って処理される。処理されたオーディオ・オブジェクトは、「ストリーム・タイプ=0」パラメータ513によって定義されるオブジェクト・データ・ストリーム509として記述される。言い換えれば、オブジェクトデータストリーム509は、オブジェクトベースのオーディオIVASオブジェクトストリームであることを識別するデータストリーム識別子を含む。さらに、オブジェクト・データ・ストリーム509は、オブジェクト・オーディオ・ビットストリーム部分515(オーディオ・オブジェクトの符号化表現)と、オブジェクト・データ・ストリームを一意に識別するストリーム識別子511とを含む。
【0092】
図5Dは、さらなる(IVAS)オブジェクトデータストリーム517を示す。さらなるオブジェクト・データ・ストリーム517は、「ストリーム・タイプ=1」を有する識別子部分521を含む。いくつかの実施形態では、ストリームタイプ=0が「単純な」オブジェクトタイプ、例えばモノラル信号に対応する。さらに、いくつかの実施形態では、ストリームタイプ=1が潜在的に「複雑な」ストリームに対応する。例えば、この例ではストリームタイプ=1が完全なIVASストリームに対応し、この場合、それはMASA空間ストリームを含む。IVASには1つ以上のオブジェクトオブジェクトストリームが含まれている可能性があるため、ネストされたオブジェクトを許可する。ストリームタイプ=0の場合、それ以上のオブジェクトは存在せず、ストリームは単純なタイプ(実際にはモノラルオブジェクト)であることがわかる。
【0093】
さらなるオブジェクト・データ・ストリーム517は明示的ストリーム記述部523をさらに備えることができ、または、ストリーム・コンテンツがオブジェクトストリームの復号を開始することによって決定することができる。この場合、MASAベースのシーンとして明示的に記述される(例えば、「ストリーム記述=MASA」)。
【0094】
さらに、オブジェクト・データ・ストリーム517は、MASAフォーマット・ビットストリーム部分525(オーディオ・オブジェクトの符号化表現)と、オブジェクト・データ・ストリームを一意に識別するストリーム識別子519「ストリームID=000002」とを備える。
【0095】
本明細書で論じられるアプローチの第1の利点は、IVAS入力が多くの場合、復号/符号化動作なしに便利に転送され得ることである。たとえば、ミキサデバイス、遠隔会議ブリッジ(たとえば、AR/VR会議サーバ)、またはオーディオ入力を結合および/または転送するために使用される他のエンティティがIVASエンドツーエンドサービスに存在する場合、復号/符号化動作は必要ない。したがって、受信された(符号化された)入力をIVASオブジェクトストリームとして再割り当てすることによって、動作の複雑さおよび遅延が低減される。例えば、受信機の再生能力が未知である場合、サーバは、単に受信されたシーンをそのまま提供することによって複雑さを最適化することができる。任意のIVASストリームは最も単純なIVASデバイスでさえもサポートするために、モノとして復号され、レンダリングされ得る。また、中間点(例えば、会議サーバ)で復号化/符号化動作をスキップすることは、そのオーディオコンポーネントのエンドツーエンド遅延を低減する。したがって、ユーザ体験が改善される。
【0096】
さらに、実施形態は、浅く埋め込まれた「客観的」IVASストリームのみが存在するように構成される。言い換えれば、オブジェクトをも含む(したがって、複数のレベルのオブジェクトを含むことができる)オブジェクトストリームが存在する場合、深いデータ構造が回避され、したがって、デコーダの複雑さが低減される。したがって、いくつかの実施形態で提案されるような埋め込みはIVASオブジェクトが別のIVASオブジェクトを含むことを可能にするが、言い換えれば、IVASオブジェクトは任意の「深い」オブジェクトがいくつかの実施形態では「マスター」IVASストリームにより近い「上位」オブジェクトに移動されることができ、そのメタデータはその表現が新しく形成されたシーンにとって有意義なままであるように更新されることができる。
いくつかの実施形態では、IVASオブジェクトが別のIVASオブジェクトの一部となるように移動することができる。したがって、オブジェクトは「より深く」移動される。これは、たとえば、複雑さまたはビットレートを節約するために、オーディオオブジェクト(たとえば、モノラルオブジェクト)を一緒に符号化または復号することを可能にし得る。同じタイプのフォーマットが構造内の異なるレベルにある場合、それらは、一般に、異なる時間に、または異なるインスタンスを使用して、符号化/復号される必要がある。これは、さらなる複雑さをもたらすことができる。
【0097】
さらに、本明細書で論じられる実施形態は、例えば、コンテンツ配信目的のために、IVASオブジェクトストリームを便利にネストすることが可能であるという第2の利点を有することができる。そのような実施形態では、より複雑なシーンが単一の(モノラル)オーディオオブジェクトとして扱うことができる。ネストされたパケット化の例を図6に示す。これは、例えば、復号の複雑さを分散するために使用することができる。これは、例えば、エッジクラウドサービスに非常に有用である。
【0098】
したがって、例えば、図6は、全シーンオブジェクトデータストリーム601を示す。全体シーンオブジェクトデータストリーム601は、複数のオブジェクトデータストリーム602、604、606、および608を含む。例えば、第1のオブジェクトデータストリーム602は、オブジェクトデータストリームを一意に識別するストリームID621(ストリームID=000001)と、ストリームタイプ識別子623(ストリームタイプ=0)と、データ部625とを備える。第2のオブジェクトデータストリーム604は、オブジェクトデータストリームを一意に識別するストリームID631(ストリームID=000006)と、ストリームタイプ識別子633(ストリームタイプ=1)と、データ部635とを備える。第3のオブジェクトデータストリーム606は、オブジェクトデータストリームを一意に識別するストリームID641(ストリームID=000007)と、ストリームタイプ識別子643(ストリームタイプ=1)と、データ部645とを備える。第4のオブジェクトデータストリーム608は、オブジェクトデータストリームを一意に識別するストリームID651(ストリームID=000008)と、ストリームタイプ識別子653(ストリームタイプ=0)と、データ部655とを備える。
【0099】
さらに、図6に示すように、第2のオブジェクト・データ・ストリーム604は、ネストされたオブジェクト・データ・ストリーム612および614をさらに備える。これらは、例えば、シーン全体のサブセクションに関連付けられたオブジェクトデータストリームであってもよい。第5のオブジェクトデータストリーム612は、オブジェクトデータストリームを一意に識別するストリームID661(ストリームID=000004)と、ストリームタイプ識別子663(ストリームタイプ=0)と、データ部665とを備える。第6のオブジェクトデータストリーム614は、オブジェクトデータストリームを一意に識別するストリームID671(ストリームID=000005)と、ストリームタイプ識別子673(ストリームタイプ=1)と、データ部675とを備える。
【0100】
さらに、ネストされた第6のオブジェクトデータストリーム614はさらに、ネストされたオブジェクトデータストリーム622および624を含む。これらは、例えば、シーン全体のサブセクションのサブセクションに関連付けられたオブジェクトデータストリームであってもよい。第7のオブジェクトデータストリーム622は、オブジェクトデータストリームを一意に識別するストリームID681(ストリームID=000002)と、ストリームタイプ識別子683(ストリームタイプ=1)と、データ部685とを備える。第8のオブジェクトデータストリーム624は、オブジェクトデータストリームを一意に識別するストリームID691(ストリームID=000003)と、ストリームタイプ識別子693(ストリームタイプ=1)と、データ部695とを備える。
【0101】
いくつかの実施形態を実施する際のさらなる利点は、空間パラメータ、例えば位置特性をすでに含む任意のIVAS入力またはIVASシーンがそのような特性を決定することができることである。例えば、これは、音響空間メタデータ(例えば、以前の表からのパラメータのうちの1つ)をIVASオブジェクトストリーム(「ストリームタイプ=1」)に追加することによって実装することができる。これは、例えば、AR/VR遠隔会議ユースケースにおける、強化された経験を可能にする。
【0102】
例えば、図7は、第1の(UE)位置での空間キャプチャを実装するUEまたは同様のキャプチャデバイス707と、第2(ユーザ)位置での第2の空間キャプチャ(またはオブジェクトキャプチャ)を実装する第2のキャプチャデバイス705とがあるキャプチャシーン701を示す。
【0103】
図1の右上に示される従来の手法はオーディオオブジェクトレンダリング713が位置し、第1空間キャプチャシーン711が位置することを示す。したがって、ユーザはマルチマイクロフォンUEを使用して(たとえば、MASAフォーマットで)空間シーンをキャプチャすることができるが、ユーザはオーディオオブジェクトをキャプチャするために、クローズアップマイクロフォンまたはたとえば、「マスタ」デバイスと接続することが可能な第2のUEを使用することができる。これらの2つの入力は、組み合わされ、IVASエンコーダに提供される。リスニングエクスペリエンスに関しては、空間オーディオ(例えば、背景オーディオ)とオーディオオブジェクト(例えば、ユーザボイス)との複合レンダリングをリスニングすることが可能である。
【0104】
本明細書に記載されるような実施形態を実施することにより、リスナは、第2の空間キャプチャ723のオーディオオブジェクトレンダリングの第1のオプションと、第1の空間キャプチャシーン721または第1の空間キャプチャ733および第2の空間キャプチャシーン731のオーディオオブジェクトレンダリングの第2のオプションとの間で切り替える(730)ことができる。したがって、IVASコーデックは、IVASオブジェクトストリームとして第2の空間オーディオ表現をインポートすることができる。したがって、ユーザがユーザのUEを使用して空間オーディオシーンをキャプチャするとき、無線マルチマイクロフォンデバイスまたは実際には、「マスタ」UEに接続された第2のUEが第2の位置におけるサウンドシーンの完全な空間表現をキャプチャすることができる。
このサウンドシーンは第2のデバイスによってIVASビットストリームとして符号化され、「会議ブリッジとして動作し」、IVASビットストリームを取り込み、それをIVASオブジェクトストリームとして埋め込むことができる第2のUEに提供され得る。それは、次いで、リスナに2つの空間オーディオシーンで配信される。例えば、ユーザは、各シーンのモノラルダウンミックスがユーザのためにレンダリングされている他のシーンのオーディオオブジェクトレンダリングとして提供されるように、それらの間で切り替えることができる。
【0105】
図6はオブジェクトストリームネスティングの例を示すが、これは本発明によって可能にされるIVASストリームトランスポート/パケット化の唯一の機構ではないことを理解されたい。図8は、いくつかの実施形態によるIVASストリームパケット化の2つの例を示す。
【0106】
いくつかの実施形態では、パケット内容を指定するルックアップテーブルを使用することができる。ルックアップテーブルは「ペイロードヘッダ」として定義することができ、例えば、RTPペイロードヘッダとすることができる。これは、たとえば、様々なブロックのサイズなどを含み得る。ヘッダーに続くのはペイロードである。
【0107】
例えば、図8に示すように、データストリームは、各種IVASオブジェクトストリーム及びIVAS含有量を含むことができる。したがって、シーンオブジェクトストリーム801全体は、パケット内容を指定することができるペイロードヘッダ811またはルックアップテーブルを備える。例えば、図8Aに示すように、第1のオブジェクトデータストリーム813および第2のオブジェクトデータストリーム819、ならびに第1のペイロード815(MASAおよびオブジェクト)および第2のペイロード817(5.1チャネルオーディオデータ)などのペイロードを指定する。
【0108】
図8Cに示されるいくつかの実施形態では、データストリームがIVASオブジェクトストリームのみを含むことができる。したがって、シーンオブジェクトストリーム全体831はオブジェクトデータストリーム833を含むパケットコンテンツを指定することができるペイロードヘッダまたはルックアップテーブルを備え、このパケットコンテンツはネストされたオブジェクトデータストリーム835を備えることができ、さらに、ネストされたオブジェクトデータストリームを備えることができる。
【0109】
図8Bは、シーン全体におけるペイロードおよびネストされたオブジェクトデータストリーム813を有する「ハイブリッド」実施形態を示す。
【0110】
追加の「ペイロードヘッダ」情報の生成およびそれらの解析において、ネスティングの関連コストが存在する。
【0111】
デコーダ/レンダラ105、115、125、135に関して。デコーダ/レンダラ105、115、125、135は各種(IVAS)オブジェクトデータストリームを受信し、データストリームを並列に復号およびレンダリングするように構成される。
【0112】
いくつかの実施形態では、ネストされたオーディオオブジェクトデータストリームの処理が各サブシーンレベルに対して個別に実行され、次いで、より高いレベルで組み合わされ得る。
【0113】
例えば、図6に示される例に関して、ここで、復号は、「ストリームID=000002」および「ストリームID=000003」で始まり得る。したがって、「ストリームID=000005」がデコードされている(サブシーンのコンテナとして)。デコーダは、次いで、次の「ストリームID=000004」を復号するように構成されることができる。この後、他のストリームがデコードされる。このアプローチは、例えば、サブシーンレベル間で一定のメモリが解放され得、したがって、全体的なメモリフットプリントが、組み合わされたすべてのストリームによって定義されないメモリ消費において、利点を有することができる。
【0114】
そのような実施形態では、レンダリングがレンダリングされたドメイン内の総和を用いてサブシーンレベルで実行されてもよく、または複合レンダリングは復号の先端時に実行されてもよい。
【0115】
いくつかの実施形態では、デコーダがサブシーンごとに別個のデコーダインスタンスを起動するように構成される。したがって、「ストリームタイプ=1」ごとに、別個のIVASデコーダインスタンスが初期化される。
【0116】
図9に関して、分析または合成デバイスとして使用され得る例示的な電子デバイスが示される。デバイスは、任意の適切な電子デバイスまたは装置であってもよい。例えば、いくつかの実施形態では、デバイス1400がモバイルデバイス、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。
【0117】
いくつかの実施形態では、デバイス1400が少なくとも1つのプロセッサまたは中央処理装置1407を備える。プロセッサ1407は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成されることができる。
【0118】
いくつかの実施形態では、デバイス1400がメモリ1411を備える。いくつかの実施形態では、少なくとも1つのプロセッサ1407がメモリ1411に結合される。メモリ1411は、任意の適切な記憶手段とすることができる。いくつかの実施形態では、メモリ1411がプロセッサ1407上で実施可能なプログラムコードを記憶するためのプログラムコードセクションを備える。さらに、いくつかの実施形態では、メモリ1411は、データ、たとえば、本明細書で説明する実施形態に従って処理された、または処理されるべきデータを記憶するための記憶データセクションをさらに備えることができる。プログラムコードセクション内に記憶された実施されたプログラムコードおよび記憶されたデータセクション内に記憶されたデータは、必要に応じて、メモリ-プロセッサ結合を介してプロセッサ1407によって取り出すことができる。
【0119】
いくつかの実施形態では、デバイス1400がユーザインターフェース1405を備える。
ユーザインターフェース1405は、いくつかの実施形態ではプロセッサ1407に結合され得る。いくつかの実施形態では、プロセッサ1407がユーザインターフェース1405の動作を制御し、ユーザインターフェース1405から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース1405は、ユーザが例えばキーパッドを介して、デバイス1400にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース1405は、ユーザがデバイス1400から情報を取得することを可能にすることができる。たとえば、ユーザインターフェース1405は、デバイス1400からの情報をユーザに表示するように構成されたディスプレイを備えることができる。ユーザインターフェース1405は、いくつかの実施形態では、情報がデバイス1400に入力されることを可能にすることと、デバイス1400のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース1405が本明細書で説明されるように、位置決定器と通信するためのユーザインターフェースであり得る。
【0120】
いくつかの実施形態では、デバイス1400が入力/出力ポート1409を備える。いくつかの実施形態では、入力/出力ポート1409がトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ1407に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成されることができる。前記トランシーバまたは任意の好適なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成されることができる。
【0121】
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。たとえば、いくつかの実施形態では、トランシーバは、適切なユニバーサルモバイルテレコミュニケーションシステム(UMTS)プロトコル、たとえばIEEE802.Xなどのワイヤレスローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)などの適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
【0122】
トランシーバ入力/出力ポート1409は、信号を受信するように構成されることができ、いくつかの実施形態では、適切なコードを実行するプロセッサ1407を使用することによって、本明細書で説明するようにパラメータを決定する。さらに、デバイスは、合成デバイスに送信されるべき適切なダウンミックス信号およびパラメータ出力を生成し得る。
【0123】
いくつかの実施形態では、デバイス1400が合成デバイスの少なくとも一部として使用され得る。したがって、入力/出力ポート1409は、ダウンミックス信号を受信し、いくつかの実施形態では、本明細書で説明するようにキャプチャデバイスまたは処理デバイスにおいて決定されたパラメータを受信し、適切なコードを実行するプロセッサ1407を使用することによって適切なオーディオ信号フォーマット出力を生成するように構成されることができる。入力/出力ポート1409は、任意の適切なオーディオ出力に、例えば、マルチチャネルスピーカシステムおよび/またはヘッドフォン(ヘッドトラック付きまたは非トラック付きヘッドフォンであり得る)または同様のものに結合され得る。
【0124】
一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実装され得る。たとえば、いくつかの態様はハードウェアで実装され得るが、他の態様はコントローラ、マイクロプロセッサ、または他の計算デバイスによって実行され得るファームウェアまたはソフトウェアで実装され得るが、本発明はそれらに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図表現を使用して図示および目的され得るが、本明細書で目的するこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路または論理、汎用ハードウェアもしくはコントローラ、または他の計算デバイス、あるいはそれらの何らかの組合せで実装され得ることが十分に理解される。
【0125】
本発明の実施形態は、プロセッサエンティティ内などのモバイルデバイスのデータプロセッサによって、またはハードウェアによって、またはソフトウェアとハードウェアとの組合せによって実行可能なコンピュータソフトウェアによって実装され得る。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表し得ることに留意されたい。ソフトウェアは、メモリチップなどのオブジェクト理的媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー(登録商標)ディスクなどの磁気媒体、およびたとえばDVDおよびそのデータ変異体CDなどの光媒体に記憶され得る。
【0126】
メモリはローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなどの任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプであってよく、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つまたは複数を含み得る。
【0127】
本発明の実施形態は、集積回路モジュールなどの様々な部品において実施することができる。集積回路の設計は、大規模で高度に自動化された処理によるものである。論理レベル設計を、エッチングされて半導体基板上に形成される準備ができた半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
【0128】
カリフォルニア州マウンテンビューのシノプシス社、カリフォルニア州サンノゼのケイデンス・デザイン社によって提供されるプログラムなどのプログラムは、導体を自動的にルーティングし、十分に確立された設計規則および事前に格納された設計モジュールのライブラリを使用して半導体チップ上の構成要素を位置特定する。半導体回路の設計が完了すると、標準化された電子フォーマット(例えば、Opus、GDSIIなど)で得られた設計は、製造のために半導体製造設備または「ファブ」に送信されることができる。
【0129】
前述の説明は、例示的かつ非限定的な例として、本発明の例示的な実施形態の完全かつ有益な説明を提供してきた。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になる。しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2022-10-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備えた装置であって、
該少なくとも1つのメモリおよび該コンピュータプログラムコードは、該少なくとも1つのプロセッサを用いて、該装置に、少なくとも、
少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信させ、ここで、該第1オーディオストリームおよび該第2オーディオストリームのうちの少なくとも1つが、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを含むものであり、
受信された前記第1オーディオデータストリームおよび前記第2オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するために、前記第1オーディオストリームおよび前記第2オーディオストリームの各々のタイプを決定させ、
前記決定されたタイプに依存する少なくとも1つのパラメータを用いて、前記第2オーディオデータストリームを処理させ、
前記第1オーディオデータストリームおよび前記処理された第2オーディオデータストリームをレンダリングさせる
ように構成される、装置。
【請求項2】
前記第2オーディオデータストリームは、少なくとも1つのさらなるオーディオデータストリームを備えるように構成され、
前記少なくとも1つのさらなるオーディオデータストリームは、決定されたタイプを含み、
前記少なくとも1つのさらなるオーディオデータストリームは、前記第2オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項1に記載の装置。
【請求項3】
前記少なくとも1つのさらなるオーディオデータストリームは、少なくとも1つのさらなる埋め込みレベルを備え、
各埋め込みレベルは、決定されたタイプを有する少なくとも1つのさらなるオーディオデータストリームを含む、
請求項2に記載の装置。
【請求項4】
前記第2オーディオデータストリームは、マスターレベルオーディオデータストリームである、請求項1に記載の装置。
【請求項5】
各オーディオデータストリームは、さらに、前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、
前記オーディオデータストリームのタイプを記述するように構成されたストリーム記述子とのうちの少なくとも1つに関連付けられる、
請求項1に記載の装置。
【請求項6】
前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイス、および、オーディオサービスオーディオ信号のうちの1つである、請求項1に記載の装置。
【請求項7】
前記少なくとも1つのパラメータは、部屋特性またはシーン記述を定義するように構成される、請求項1に記載の装置。
【請求項8】
前記部屋特性またはシーン記述を規定する前記少なくとも1つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも1つを含む、請求項7に記載の装置。
【請求項9】
前記少なくとも1つのパラメータは、空間オーディオキャプチャに基づいて生成される、請求項7に記載の装置。
【請求項10】
前記装置は、さらに、追加オーディオデータストリームを受信することと、
前記追加オーディオデータストリームを、前記第1オーディオデータストリームおよび前記第2オーディオデータストリームのうちの一方または他方の中に埋め込むことと、
を実行する、請求項7に記載の装置。
【請求項11】
イマーシブオーディオ通信のための装置のための方法であって、
少なくとも第1オーディオデータストリームおよび第2オーディオデータストリームを受信するステップであって、前記第1オーディオストリームおよび前記第2オーディオストリームのうちの少なくとも1つは、通信中にイマーシブオーディオを可能にするための空間オーディオストリームを備える、ステップと
前記受信された第1および第2オーディオデータストリームのうちのどれが前記空間オーディオストリームを含むかを識別するために、前記第1オーディオストリームおよび前記第2オーディオストリームの各々のタイプを決定ステップと
前記決定されたタイプに依存する少なくとも1つのパラメータを用いて前記第2オーディオデータストリームを処理するステップと
前記第1オーディオデータストリームおよび前記処理された第2オーディオデータストリームをレンダリングするステップと
を含む、方法
【請求項12】
前記第2オーディオデータストリームは、少なくとも1つのさらなるオーディオデータストリームを含むように構成され、
前記少なくとも1つのさらなるオーディオデータストリームは、決定されたタイプを含み、
前記少なくとも1つのさらなるオーディオデータストリームは、前記第2オーディオデータストリームに対する埋め込みレベルオーディオデータストリームである、
請求項11に記載の方法
【請求項13】
前記少なくとも1つのさらなるオーディオデータストリームは、少なくとも1つのさらなる埋め込みレベルを含み、
各埋め込みレベルは、決定されたタイプを有する少なくとも1つのさらなるオーディオデータストリームを含む、
請求項12に記載の方法
【請求項14】
前記第2オーディオデータストリームは、マスターレベルオーディオデータストリームである、請求項11に記載の方法
【請求項15】
各オーディオデータストリームは、さらに、
前記オーディオデータストリームを一意に識別するように構成されたストリーム識別子と、
前記オーディオデータストリームのタイプを記述するように構成されたストリーム記述子との
うちの少なくとも1つに関連付けられる、
請求項11に記載の方法
【請求項16】
前記タイプは、モノラルオーディオ信号タイプ、イマーシブボイス、および、オーディオサービスオーディオ信号のうちの1つである、請求項11に記載の方法
【請求項17】
前記少なくとも1つのパラメータは、部屋特性またはシーン記述を定義するように構成される、請求項11に記載の方法
【請求項18】
前記部屋特性またはシーン記述を規定する前記少なくとも1つのパラメータは、方向、方位角、方向仰角、距離、利得、空間範囲、エネルギー比、および、位置のうちの少なくとも1つを含む、請求項17に記載の方法
【請求項19】
追加オーディオデータストリームを受信するステップと、
前記追加オーディオデータストリームを、前記第1オーディオデータストリームおよび前記第2オーディオデータストリームのうちの一方または他方の中に埋め込むステップと、
をさらに含む、請求項11に記載の方法
【請求項20】
前記少なくとも1つのパラメータは、空間オーディオキャプチャに基づいて生成される、請求項11に記載の方法。
【国際調査報告】