特開2024-102276 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧 ▶ ドルビー・インターナショナル・アーベーの特許一覧

特開2024-102276没入的オーディオ・サービスにおけるオーディオ処理

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024102276

(43)【公開日】2024-07-30

(54)【発明の名称】没入的オーディオ・サービスにおけるオーディオ処理

(51)【国際特許分類】

G10L 19/00 20130101AFI20240723BHJP

H04S 7/00 20060101ALI20240723BHJP

G10L 19/008 20130101ALI20240723BHJP

【ＦＩ】

G10L19/00 330B

H04S7/00 360

H04S7/00 300

G10L19/008 100

G10L19/008 200

【審査請求】有

【請求項の数】19

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024076517

(22)【出願日】2024-05-09

(62)【分割の表示】P 2021525072の分割

【原出願日】2019-11-12

(31)【優先権主張番号】62/760,262

(32)【優先日】2018-11-13

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/793,666

(32)【優先日】2019-01-17

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/795,236

(32)【優先日】2019-01-22

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/797,563

(32)【優先日】2019-01-28

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．３ＧＰＰ

(71)【出願人】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(71)【出願人】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ブルーン，シュテファン

(72)【発明者】

【氏名】トレス，ジュアンフェリックス

(72)【発明者】

【氏名】マグラス，デイヴィッドエス．

(72)【発明者】

【氏名】リー，ブライアン

(57)【要約】

【課題】本明細書における開示は、概括的には、オーディオ・シーンの方向性オーディオの捕捉、音響的前処理、エンコード、デコード、およびレンダリングに関する。
【解決手段】詳細には、本開示は、方向性オーディオを捕捉するマイクロフォン・システムの空間データに応答して、捕捉された方向性オーディオの方向特性を修正するように適応された装置に関する。本開示は、さらに、受領された空間データに応答して、受領された方向性オーディオの方向特性を修正するように構成されたレンダリング装置に関する。
【選択図】図１

【特許請求の範囲】

【請求項1】

空間的オーディオをエンコードする方法であって、当該方法は：
マイクロフォン・システムの一つまたは複数のマイクロフォンによって捕捉された方向性オーディオを取得する段階と；
前記マイクロフォン・システムに関連付けられたメタデータを取得する段階であって、前記メタデータは、前記マイクロフォン・システムの空間配向および／または空間位置を示し、前記マイクロフォン・システムの方位角、ピッチ角、ロール角、および空間座標のリストからの少なくとも1つを含む空間データを含む、段階と；
前記方向性オーディオを修正して、修正された方向性オーディオを生成する段階であって、前記方向性オーディオの方向特性が前記メタデータに応答して修正されて、前記修正された方向性オーディオを生成する、段階と；
前記修正された方向性オーディオと、前記メタデータの少なくとも一部とをデジタル・オーディオ・データにエンコードする段階とを含む、
方法。

【請求項2】

エンコードすることは、没入的音声・音響サービス（IVAS）への準拠のために前記デジタル・オーディオ・データをエンコードすることを含む、請求項１に記載の方法。

【請求項3】

前記デジタル・オーディオ・データを記憶すること、または前記デジタル・オーディオ・データを送信することのうちの一つまたは複数によって、前記デジタル・オーディオ・データを出力する段階をさらに含む、請求項１に記載の方法。

【請求項4】

前記マイクロフォン・システムの空間配向は、前記空間データにおいて、1自由度DoFで回転運動／配向を記述するパラメータを用いて表現される、請求項１に記載の方法。

【請求項5】

前記マイクロフォン・システムの空間配向は、前記空間データにおいて、3DoFで回転運動／配向を記述するパラメータを用いて表現される、請求項１に記載の方法。

【請求項6】

前記マイクロフォン・システムの空間データは、6DoFで表現される、請求項１または５に記載の方法。

【請求項7】

前記エンコードのために前記メタデータをどのように扱うかの命令を受領する段階をさらに含む、請求項１ないし６のうちいずれか一項に記載の方法。

【請求項8】

前記マイクロフォン・システムの空間データを含む前記メタデータの前記少なくとも一部を前記デジタル・オーディオ・データに含めるかどうかを示す第1の命令を受領する段階をさらに含む、請求項１ないし７のうちいずれか一項に記載の方法。

【請求項9】

前記マイクロフォン・システムの空間データのどのパラメータ（単数または複数）を前記デジタル・オーディオ・データに含めるかを示す第2の命令を受領する段階をさらに含む、請求項１ないし８のうちいずれか一項に記載の方法。

【請求項10】

前記デジタル・オーディオ・データをさらなる装置に送信する段階をさらに含み、前記第1の命令に関する指示は、前記さらなる装置から受領される、請求項８に記載の方法。

【請求項11】

前記デジタル・オーディオ・データをさらなる装置に送信する段階をさらに含み、前記第2の命令に関する指示は、前記さらなる装置から受領される、請求項９に記載の方法。

【請求項12】

メタデータを受領することが、前記方向性オーディオの捕捉時間を示すタイムスタンプを含むメタデータを受領することを含み、エンコードすることが、前記タイムスタンプを前記デジタル・オーディオ・データにおいてエンコードすることを含む、請求項１ないし１１のうちいずれか一項に記載の方法。

【請求項13】

前記修正された方向性オーディオをエンコードすることは、前記修正された方向性オーディオをダウンミックスすることであって、該ダウンミックスすることは、前記マイクロフォン・システムの空間配向を考慮に入れる、ことと、ダウンミックスされた修正された方向性オーディオと、該ダウンミックスすることにおいて使用されたダウンミックス行列とを前記デジタル・オーディオ・データ中にエンコードすることを含む、請求項１ないし１２のうちいずれか一項に記載の方法。

【請求項14】

前記ダウンミックスすることは、ビームフォーミングを含む、請求項１３に記載の方法。

【請求項15】

前記メタデータに応答して前記方向性オーディオの前記方向特性を修正することは、少なくとも部分的に、回転運動または並進運動を補償する、請求項１ないし１４のうちいずれか一項に記載の方法。

【請求項16】

空間的オーディオをデコードする方法であって、当該方法は：
符号化された方向性オーディオを取得する段階であって、前記符号化された方向性オーディオはデジタル・オーディオ・データの符号化された表現である、段階と；
前記符号化された方向性オーディオから前記デジタル・オーディオ・データをデコードする段階であって、前記デジタル・オーディオ・データは、マイクロフォン・システムの前記一つまたは複数のマイクロフォンに関連付けられたメタデータおよび空間的オーディオを含む、段階と；
前記メタデータに応答して前記空間的オーディオをレンダリングして、方向性オーディオ表現を生成する段階であって、前記方向性オーディオ表現の少なくとも1つの方向性オーディオ特性が、デコードされたメタデータに応答して修正される、段階とを含み、
前記デコードされたメタデータは、前記マイクロフォン・システムの空間データを含み、該空間データは、前記マイクロフォン・システムの空間配向および／または空間位置を示し、前記マイクロフォン・システムの方位角、ピッチ角、ロール角、および空間座標の少なくとも1つを含む、
方法。

【請求項17】

前記メタデータに応答して前記空間的オーディオをレンダリングして、方向性オーディオ表現を生成することは、以前に補償された前記音響シーン回転の少なくとも一部を再適用する、請求項１６に記載の方法。

【請求項18】

前記メタデータは、前記デジタル・オーディオ・データの受領側によって前記デジタル・オーディオ・データの送信側に送信された指示に基づいて、条件付きで、前記デジタル・オーディオ・データの一部である、請求項１６に記載の方法。

【請求項19】

請求項１ないし１８のうちいずれか一項に記載の方法であって、一つまたは複数のマイクロフォンをもつマイクロフォン・システムと、ヘッドトラッキング・システムとを含む装置として実装され、前記装置は、仮想現実VRギア（602a～e）または拡張現実ARギア（602a～e）を含み、前記ヘッドトラッキング・システムは前記装置の空間データを3～6DoFにおいて決定するように構成されている、方法。

【発明の詳細な説明】

【技術分野】

【0001】

本願の開示は、概括的には、オーディオ・シーンの方向性オーディオの捕捉、音響的前処理、エンコード、デコード、およびレンダリングに関する。詳細には、本開示は、方向性オーディオを捕捉するマイクロフォン・システムの空間データに応答して、捕捉された方向性オーディオの方向特性を修正するように適応された装置に関する。本開示は、さらに、受領された空間データに応答して受領された方向性オーディオの方向特性を修正するように構成されたレンダリング装置に関する。

【背景技術】

【0002】

通信ネットワークへの4G/5G高速無線アクセスの導入は、ますます強力なハードウェア・プラットフォームの利用可能性と相まって、先進的な通信およびマルチメディア・サービスが、これまで以上に迅速かつ容易に展開されるための基盤を提供している。

【0003】

第三世代パートナーシッププロジェクト（3GPP）向上音声サービス（Enhanced Voice Services、EVS）コーデックは、改善されたパケット損失耐久性とともに、スーパーワイドバンド（SWB）およびフルバンド（FB）の音声・音響符号化（speech and audio coding）の導入により、ユーザー体験において非常に有意な改善をもたらした。しかしながら、拡張されたオーディオ帯域幅は、真に没入的な体験に必要な次元の1つでしかない。資源効率の良い仕方で説得力のある仮想世界にユーザーを没入させるためには、理想的には、現在EVSによって提供されているモノおよびマルチモノを超えたサポートが要求される。

【0004】

さらに、3GPPで現在規定されているオーディオ・コーデックは、ステレオ・コンテンツのために好適な品質および圧縮を提供するものの、会話音声およびテレビ会議に必要な会話機能（たとえば、十分に低い待ち時間）を欠いている。これらの符号化器はまた、ライブおよびユーザー生成コンテンツ・ストリーミング、仮想現実（VR）および没入的テレビ会議のような、没入的サービスに必要なマルチチャネル機能をも欠いている。

【0005】

この技術ギャップを埋め、リッチなマルチメディア・サービスに対する増大する需要に応じる没入的音声・音響サービス（Immersive Voice and Audio Services、IVAS）のために、EVSコーデックに対する拡張の開発が提案されている。さらに、4G/5Gでのテレビ会議アプリケーションは、マルチストリーム符号化（たとえば、チャネル、オブジェクト、およびシーン・ベースのオーディオ）をサポートする改善された会話符号化器として使用されるIVASコーデックの恩恵を受ける。この次世代コーデックの使用事例は、会話音声、マルチストリームテレビ会議、VR会話、およびユーザー生成のライブおよび非ライブのコンテンツ・ストリーミングを含むが、これらに限定されない。

【発明の概要】

【発明が解決しようとする課題】

【0006】

IVASは、このように、没入的ならびにVR、AR、および／またはXRのユーザー体験を提供すると期待される。これらのアプリケーションの多くでは、方向性（没入型）オーディオを捕捉する装置（たとえば、携帯電話）は、多くの場合、セッション中に音響シーンに対して動いていて、捕捉されたオーディオ・シーンの空間的回転および／または並進運動を引き起こすことがある。提供される経験の種類、たとえば、没入型、VR、ARまたはXRに依存し、かつ特定の使用事例に依存して、この挙動は望ましいことがありうるし、あるいは望ましくないこともありうる。たとえば、レンダリングされるシーンが、捕捉装置が回転するたびに常に回転する場合、それは聴取者にとってわずらわしいことがありうる。最悪の場合、動き酔いが生じることがある。

【0007】

よって、この文脈において、改善が必要である。

【図面の簡単な説明】

【0008】

ここで、添付図面を参照して例示的実施形態が記述される。

【図1】実施形態による、方向性オーディオをエンコードする方法を示している。

【図2】実施形態による、方向性オーディオをレンダリングする方法を示している。

【図3】実施形態による、図1の方法を実行するように構成されたエンコーダ装置を示している。

【図4】実施形態による、図2の方法を実行するように構成されたレンダリング装置を示している。

【図5】実施形態による、図3および図4の装置を備えるシステムを示している。

【図6】実施形態による、物理的なVR会議シナリオを示している。

【図7】実施形態による、仮想会議空間を示している。

【0009】

すべての図は概略的であり、一般に、本開示を説明するために必要な部分のみを示す。他方、他の部分は省略されたり、あるいは単に示唆されたりすることがある。特に断りのない限り、同様の参照符号は、異なる図における同様の部分を指す。

【発明を実施するための形態】

【0010】

上記に鑑み、方向性オーディオを捕捉するマイクロフォン・システムの意図しない動きから生じうる空間音シーンの望ましくない動きを補償するための、捕捉、音響的前処理、および／またはエンコードのための装置および関連する方法を提供することが目的である。さらに、方向性オーディオをデコードおよびレンダリングするための対応するデコーダおよび／またはレンダリング装置ならびに関連する方法を提供することが目的である。たとえば、エンコーダ装置およびレンダリング装置を含むシステムも提供される。

【0011】

I. 概観‐送信側
第1の側面によれば、オーディオを捕捉するための一つまたは複数のマイクロフォンを含むマイクロフォン・システムを備えるか、またはそれに接続される装置が提供される。
該装置（本明細書では送信側、または捕捉装置とも呼ばれる）は：
・マイクロフォン・システムによって捕捉された方向性オーディオを受領する段階と；
・前記マイクロフォン・システムに関連するメタデータを受領する段階であって、前記メタデータは、前記マイクロフォン・システムの空間データを含み、前記空間データは、前記マイクロフォン・システムの空間配向および／または空間位置を示し、前記マイクロフォン・システムの方位角、ピッチ角、ロール角（単数または複数）、および空間座標のリストからの少なくとも1つを含む、段階とを実行するように構成された
受領ユニットを有する。

【0012】

本開示において、用語「方向性オーディオ（directional audio）」（方向性音）は、一般に、没入的オーディオ、すなわち、到来する方向を含めて音を拾うことができる方向性マイクロフォン・システムによって捕捉されるオーディオを指す。方向性オーディオの再生は、自然な三次元サウンド体験（バイノーラル・レンダリング）を許容する。オーディオ・オブジェクトおよび／またはチャネル（たとえば、アンビソニックスBフォーマットのシーン・ベースのオーディオまたはチャネル・ベースのオーディオを表現する）を含みうるオーディオは、このように、それが受領される方向に関連付けられる。換言すれば、方向性オーディオは、方向性源に由来し、たとえば方位角および仰角によって表わされる到来方向（direction of arrival、DOA）から入射する。対照的に、拡散環境音（diffuse ambient sound）は、全方向性、すなわち、空間的に不変である、または空間的に一様であると想定される。「方向性オーディオ」の特徴について使用されうる他の表現は、「空間的オーディオ」、「空間的サウンド」、「没入的オーディオ」、「没入的サウンド」、「ステレオ」および「サラウンドオーディオ」を含む。

【0013】

本開示において、「空間座標」という用語は、一般に、空間におけるマイクロフォン・システムまたは捕捉装置の空間位置を指す。デカルト座標は空間座標の一つの実現である。他の例は、円筒座標または球面座標を含む。空間内での位置は相対的（たとえば、室内での座標、または他の装置／ユニットに対する座標）または絶対的（たとえば、GPS座標など）であってもよいことに注意しておくべきである。

【0014】

本開示において、「空間データ」は、一般に、マイクロフォン・システムの現在の回転配向および／または空間位置、またはマイクロフォン・システムの以前の配向／位置と比較した回転配向および／または空間位置の変化のいずれかを示す。

【0015】

本装置は、このように、方向性オーディオを捕捉するマイクロフォン・システムの空間配向および／または空間位置を示す空間データを含むメタデータを受領する。

【0016】

本装置はさらに、修正された方向性オーディオを生成するように方向性オーディオの少なくとも一部を修正するように構成されたコンピューティング・ユニットを有し、それにより、オーディオの方向特性がマイクロフォン・システムの空間配向および／または空間位置に応答して修正される。

【0017】

修正は、任意の好適な手段を使って、たとえば空間データに基づいて回転／並進行列を定義し、この行列を方向性オーディオに乗算して修正された方向性オーディオを達成することによって、行なうことができる。行列乗算は非パラメトリック空間的オーディオに好適である。パラメトリックな空間的オーディオは、たとえば音オブジェクトの方向パラメータのような、空間メタデータを調整することによって修正されてもよい。

【0018】

次いで、修正された方向性オーディオは、エンコードされてデジタル・オーディオ・データにされ、そのデータは、本装置の送信ユニットによって送信される。

【0019】

本発明者らは、音捕捉装置（マイクロフォン・システム）の回転／並進運動が、送信端において、すなわち、オーディオを捕捉する端で最もよく補償されることを認識するに至った。これは、たとえば意図しない動きに関して、捕捉されたオーディオ・シーンのできうる最善の安定化を許容する可能性が高いことがありうる。そのような補償は、捕捉プロセスの一部、すなわち、音響前処理の間、またはIVASエンコード段の一部であってもよい。さらに、送信端で補償を実行することにより、送信端から受領端に空間データを送信する必要性が緩和される。音捕捉装置の回転／並進運動の補償がオーディオの受信器において実行されるものであった場合には、全空間データが受信端に送信される必要があった。3つの軸すべての回転座標がそれぞれ8ビットで表現され、50Hzの速度で推定されて伝達されると想定すると、結果として得られるビットレートは1.2kbpsとなる。同様の想定は、マイクロフォン・システムの空間座標について行なうことができる。

【0020】

いくつかの実施形態によれば、マイクロフォン・システムの空間配向は、空間データにおいて1自由度DoFの回転運動／配向を記述するパラメータで表わされる。たとえば、電話会議のためには方位角のみを考慮すれば十分でありうる。

【0021】

いくつかの実施形態によれば、マイクロフォン・システムの空間配向は、空間データにおいて3自由度DoFを有する回転配向／運動を記述するパラメータで表わされる。

【0022】

いくつかの実施形態によれば、マイクロフォン・システムの空間データは6DoFで表現される。この実施形態では、マイクロフォン・システムの空間データは、3つの垂直軸における前／後（サージ（surge））、上／下（持ち上がり（heave））、左／右（振り（sway））の並進としてのマイクロフォン・システムの変化した位置（本明細書では空間座標と称する）を、しばしば、ヨーまたは方位角（法線／鉛直軸）、ピッチ（横軸）、およびロール（縦軸）と称される、3つの垂直軸のまわりの回転を通じたマイクロフォン・システムの配向の変化（または現在の回転配向）と組み合わせて捉える。

【0023】

いくつかの実施形態によれば、受領された方向性オーディオは、方向性メタデータを含むオーディオを含む。たとえば、そのようなオーディオは、オーディオ・オブジェクト、すなわち、オブジェクト・ベースのオーディオ（object-based audio、OBA）を含んでいてもよい。OBAは空間メタデータをもつ空間的／方向性オーディオのパラメトリックな形である。パラメトリックな空間的オーディオのある具体的な形は、メタデータ支援空間的オーディオ（metadata-assisted spatial audio、MASA）である。

【0024】

いくつかの実施形態によれば、コンピューティング・ユニットは、さらに、マイクロフォン・システムの空間データを含むメタデータの少なくとも一部を前記デジタル・オーディオ・データ中にエンコードするように構成される。有利には、これは、受信端で、捕捉されたオーディオに対してなされた方向調整の補償を許容する。好適な回転参照系、たとえばz軸が鉛直方向に対応するものの定義にもよるが、多くの場合、単に方位角を送信すればよいことがある（たとえば、400bpsで）。回転参照系内の捕捉装置のピッチ角およびロール角は、ある種のVRアプリケーションで要求されるだけであることがある。送信側でマイクロフォン・システムの空間データを補償し、そしてエンコードされたデジタル・オーディオ・データに空間データの少なくとも一部を条件付きで含めることによって、レンダリングされた音響シーンが捕捉装置の位置から不変であるべき場合、およびレンダリングされた音響シーンが捕捉装置の対応する動きとともに回転すべきである残りの場合が有利にサポートされる。

【0025】

いくつかの実施形態によれば、受領ユニットはさらに、マイクロフォン・システムの空間データを含むメタデータの前記少なくとも一部を前記デジタル・オーディオ・データに含めるかどうかをコンピューティング・ユニットに示す第1の命令を受領するように構成され、それにより、コンピューティング・ユニットはそれに従って動作する。結果として、送信側は、可能なときはビットレートを節約するために、空間データの一部を条件付きでデジタル・オーディオ・データ内に含める。空間データ（の一部）がデジタル・オーディオ・データに含められるべきか否かが時間とともに変化するよう、前記命令はセッション中に複数回受領されてもよい。換言すれば、セッション内適応が存在してもよく、ここで、前記第1の命令は連続的および不連続的の両方で本装置によって受領されることができる。連続的とは、たとえばフレーム毎に1回であろう。不連続とは、新しい命令が与えられるべきであるときに一度だけでありうる。セッション・セットアップにおいて一度だけ前記第1の命令を受領する可能性もある。

【0026】

いくつかの実施形態によれば、受領ユニットは、マイクロフォン・システムの空間データのどのパラメータ（単数または複数）をデジタル・オーディオ・データに含めるかをコンピューティング・ユニットに示す第2の命令を受領するようにさらに構成され、それによりコンピューティング・ユニットはそれに従って動作する。
上述のように、送信側は、方位角のみを含めるように、またはマイクロフォン・システムの空間配向を定義する全データを含めるように命令されうる。命令は、デジタル・オーディオ・データに含まれるパラメータの数が時間とともに変化するように、セッション中に複数回受領されてもよい。換言すれば、セッション内適応が存在してもよく、前記第2の命令は連続的および不連続的の両方で本装置によって受領されることができる。連続的とは、たとえばフレーム毎に1回であろう。不連続とは、新しい命令が与えられるべきであるときに一度だけでありうる。セッション・セットアップにおいて一度だけ前記第2の命令を受領する可能性もある。

【0027】

いくつかの実施形態によれば、送信ユニットは、デジタル・オーディオ・データをさらなる装置に送信するように構成され、前記第1の命令および／または第2の命令に関する指示は、前記さらなる装置から受領される。換言すれば、受信側（受領されたデコードされたオーディオをレンダリングするためのレンダラーを含む）は、コンテキストに依存して、送信側に、空間データの一部をデジタル・オーディオ・データに含めるか否か、および／または、どのパラメータを含めるかを命令しうる。他の実施形態では、前記第1および／または第2の命令に関する指示が、たとえば、マルチユーザー没入型オーディオ／ビデオ会議のための調整ユニット（コール・サーバー）、または方向性オーディオのレンダリングに直接関与しない他の任意のユニットから受領されてもよい。

【0028】

いくつかの実施形態によれば、受領ユニットは、方向性オーディオの捕捉時間を示すタイムスタンプを含むメタデータを受領するようにさらに構成され、コンピューティング・ユニットは、前記タイムスタンプを前記デジタル・オーディオ・データ中にエンコードするように構成される。有利には、このタイムスタンプは、受信側における同期、たとえば、オーディオ・レンダリングをビデオ・レンダリングと同期させること、または異なる捕捉装置から受領された複数のデジタル・オーディオ・データを同期させることのために使用されうる。

【0029】

いくつかの実施形態によれば、修正されたオーディオ信号のエンコードは、修正された方向性オーディオをダウンミックスすることであって、該ダウンミックスすることは、マイクロフォン・システムの空間配向を考慮に入れて実行される、ことと、そのダウンミックスと、該ダウンミックスすることにおいて使用されたダウンミックス行列とを前記デジタル・オーディオ・データ中にエンコードすることとを含む。たとえば、方向性オーディオの特定の方向性源に向けた音響ビームフォーミングは、方向性オーディオに対してなされた方向修正に基づいて有利に適応される。

【0030】

いくつかの実施形態によれば、本装置は、前記マイクロフォン・システムと、3～6DoFで本装置の空間データを決定するように構成されたヘッドトラッキング装置とを有する仮想現実VRギアまたは拡張現実ARギアにおいて実装される。他の実施形態では、本装置は、マイクロフォン・システムを有する携帯電話において実装される。

【0031】

II. 概観‐受信側
第2の側面によれば、オーディオ信号をレンダリングするための装置が提供される。本装置（本明細書では受信〔受領〕側、またはレンダリング装置とも称される）は、デジタル・オーディオ・データを受領するように構成された受領ユニットを有する。本装置はさらに、受領されたデジタル・オーディオ・データをデコードして方向性オーディオとメタデータにするように構成されたデコード・ユニットを含み、前記メタデータは、方位角、ピッチ、ロール角（単数または複数）、および空間座標のリストからの少なくとも1つを含む空間データを含む。空間データは、たとえば、パラメータ、たとえば3DoF角度の形で受領されてもよい。他の実施形態では、空間データは、回転／並進行列として受領されてもよい。

【0032】

本装置は、さらに：
回転空間データを用いて方向性オーディオの方向特性を修正し；
修正された方向性オーディオをレンダリングするように構成された
レンダリング・ユニットを有する。

【0033】

有利なことに、この側面による装置は、メタデータに示されるように方向性オーディオを修正することができる。たとえば、オーディオを捕捉する装置の動きがレンダリング中に考慮されてもよい。

【0034】

いくつかの実施形態によれば、空間データは、方向性オーディオを捕捉する一つまたは複数のマイクロフォンを含むマイクロフォン・システムの空間配向および／または空間位置を示し、レンダリング・ユニットは、少なくとも部分的にマイクロフォン・システムのオーディオ環境を再現するよう、方向性オーディオの方向特性を修正する。この実施形態では、装置は、捕捉装置で補償された音響シーン回転（相対的な音響シーン回転すなわち、動くマイクロフォン・システムに対するシーン回転）の少なくとも一部を再適用することによって音響シーン回転を適用する。

【0035】

いくつかの実施形態によれば、空間データは、1自由度DoFの回転運動／配向を記述するパラメータを含む。

【0036】

いくつかの実施形態によれば、空間データは、3自由度DoFの回転運動／配向を記述するパラメータを含む。

【0037】

いくつかの実施形態によれば、デコードされた方向性オーディオは、方向性メタデータを含むオーディオを含む。たとえば、デコードされた方向性オーディオは、オーディオ・オブジェクト、すなわち、オブジェクト・ベースのオーディオ（OBA）を含んでいてもよい。デコードされた方向性オーディオは、他の実施形態では、たとえば、アンビソニックスBフォーマットでのシーン・ベースのオーディオまたはチャネル・ベースのオーディオを表わす、チャネル・ベースであってもよい。

【0038】

いくつかの実施形態によれば、本装置は、デジタル・オーディオがそこから受領されるさらなる装置に命令を送信するように構成された送信ユニットを有し、該命令は、（もしあれば）どのパラメータ（単数または複数）を回転データが含むべきであるかを前記さらなる装置に対して示す。結果として、レンダリング装置は、使用事例および／または利用可能な帯域幅に依存して、たとえば、回転パラメータのみ、方位角パラメータのみ、または全6DoFパラメータを送信するように捕捉装置に命令しうる。さらに、レンダリング装置は、音響シーン回転を適用するためのレンダラーにおける利用可能な計算資源、またはレンダリング・ユニットの複雑さのレベルに基づいて、この決定を行なってもよい。前記命令は、セッション中に2回以上送信され、よって、時間とともに、すなわち、上記に基づいて変化してもよい。換言すれば、セッション内適応が存在してもよく、ここで、本装置は、前記命令を連続的および不連続的の両方で送信できる。連続的とは、たとえばフレーム毎に1回であろう。不連続とは、新しい命令が与えられるべきであるときに一度だけでありうる。セッション・セットアップにおいて一度だけ前記命令を送信する可能性もある。

【0039】

いくつかの実施形態によれば、デコード・ユニットは、デジタル・オーディオ・データから方向性オーディオの捕捉時間を示すタイムスタンプを抽出するようにさらに構成される。このタイムスタンプは、上記で論じた同期の理由のために使用されうる。

【0040】

いくつかの実施形態によれば、デコード・ユニットによる、受領されたデジタル・オーディオ・データの方向性オーディオへのデコードは：
受領されたデジタル・オーディオ・データをダウンミックスされたオーディオにデコードし、
デコード・ユニットによって、受領されたデジタル・オーディオ・データに含まれるダウンミックス行列を用いて、前記ダウンミックスされたオーディオを方向性オーディオにアップミックスすることを含む。

【0041】

いくつかの実施形態によれば、空間データは空間座標を含み、レンダリング・ユニットは、空間座標に基づいて、レンダリングされたオーディオのボリュームを調整するようにさらに構成される。この実施形態では、「遠く」から受領されたオーディオのボリュームは、より近い位置から受領されたオーディオに比べて減衰されうる。受領されたオーディオの相対的な近さは、仮想空間に基づいて、好適な距離メトリック、たとえばユークリッド測度を適用することによって判定されてもよく、この空間における受領装置に対する捕捉装置の位置は、それらの装置の空間座標に基づいて決定されることに注意しておくべきである。さらなるステップは、距離メトリックから、音レベルのようなオーディオ・レンダリング・パラメータを決定する何らかの任意のマッピング方式を使用することを含みうる。有利なことに、この実施形態では、レンダリングされたオーディオの没入経験が改善されうる。

【0042】

いくつかの実施形態によれば、本装置は、6DoFで本装置の空間配向および空間位置を測定するように構成されたヘッドトラッキング装置を有する仮想現実VRギアまたは拡張現実ARギアにおいて実装される。この実施形態では、レンダリング装置の空間データも、方向性オーディオの方向特性を修正するときに使用されてもよい。たとえば、受領された回転／並進行列は、たとえば、レンダリング装置の回転状態を定義する同様の行列と乗算され、次いで、結果として得られた行列が、方向性オーディオの方向特性を修正するために使用されてもよい。有利なことに、この実施形態では、レンダリングされたオーディオの没入経験が改善されうる。他の実施形態では、本装置は、静止しているものと想定される電話会議装置または類似の装置において実装され、本装置の回転状態は一切無視される。

【0043】

いくつかの実施形態によれば、レンダリング・ユニットは、バイノーラル・オーディオ・レンダリングのために構成される。

【0044】

III. 概観‐システム
第3の側面によれば：
デジタル・オーディオ・データを第2の側面による第2の装置に送信するように構成された第1の側面による第1の装置を有するシステムであって、前記システムはオーディオおよび／またはビデオ会議用に構成されている、システム
が提供される。

【0045】

いくつかの実施形態によれば、第1の装置は、ビデオ記録ユニットをさらに有しており、記録されたビデオをデジタル・ビデオ・データにエンコードし、デジタル・ビデオ・データを第2の装置に送信するように構成され、第2の装置は、デコードされたデジタル・ビデオ・データを表示するためのディスプレイをさらに有する。

【0046】

第4の側面によれば：
デジタル・オーディオ・データを第2の装置に送信するように構成された第1の側面による第1の装置を有するシステムであって、前記第2の装置は：
デジタル・オーディオ・データを受領するように構成された受領ユニットと；
受領されたデジタル・オーディオ・データを、方向性オーディオとメタデータにデコードするように構成されたデコード・ユニットであって、メタデータは、方位角、ピッチ、ロール角（単数または複数）、および空間座標のリストからの少なくとも1つを含む空間データを含む、デコード・ユニットと；
オーディオをレンダリングするためのレンダリング・ユニットとを有しており、
前記レンダリング・ユニットは、前記第2の装置が前記第1の装置からのエンコードされたビデオ・データをさらに受領したとき：
前記空間データを使用して方向性オーディオの方向特性を修正し、
修正された方向性オーディオをレンダリングするように構成され、
前記レンダリング・ユニットは、前記第2の装置がエンコードされたビデオ・データを前記第1の装置から受領しないときは：
前記方向性オーディオをレンダリングするように構成される、
システムが提供される。

【0047】

有利には、マイクロフォン・システムの空間配向および／または空間位置を補償することによってマイクロフォン・システムのオーディオ環境を再現するか否かの決定は、ビデオが送信されるか否かに基づいて行なわれる。この実施形態では、送信装置は、その動きの補償が必要であるまたは望ましい時を常に認識してはいないことがある。たとえば、オーディオがビデオと一緒にレンダリングされる状況を考える。その場合、少なくとも、ビデオ捕捉がオーディオを捕捉するのと同じ装置で行なわれるときは、オーディオ・シーンを動いているビジュアル・シーンとともに回転させるか、またはオーディオ・シーンを安定に保つことが可能であることが有利でありうる。ビデオが消費されない場合は、捕捉装置の動きを補償することによりオーディオ・シーンを安定に保つことが、好ましい選択でありうる。

【0048】

第5の側面によれば、一つまたは複数のプロセッサによって実行されると、該一つまたは複数のプロセッサに1～4の側面のいずれかの動作を実行させる命令を記憶する非一時的なコンピュータ読み取り可能媒体が提供される。

【0049】

IV. 概観‐一般論
第2～第5の側面は、一般に、第1の側面と同じまたは対応する特徴および利点を有してもよい。
本発明の他の目的、特徴および利点は、以下の詳細な開示、添付の従属請求項および図面から明らかになるであろう。
本明細書に開示される任意の方法、または一連の工程を実装する装置の工程は、明示的に記載されない限り、開示される正確な順序で実行される必要はない。

【0050】

V. 例示的実施形態
没入的音声・音響サービスは、没入的でバーチャル・リアリティ（VR）のユーザー体験を提供すると期待されている。拡張現実（AR）およびエクステンデッド現実（XR）体験も提供されうる。本開示は、没入的シーンまたはAR/VR/XRシーンを捕捉するハンドヘルドUEのようなモバイル装置が、多くの場合、セッション中に音響シーンに対して移動していることがあるという事実を扱う。これは、捕捉装置の回転運動が受領装置によって対応するレンダリングされたシーン回転として再現されることが避けられるべきである場合をハイライトする。本開示は、コンテキストに依存して、ユーザーが没入的オーディオに対してもつ要件を満たすために、上記がいかにして効率的に扱われうるかに関する。

【0051】

本明細書のいくつかの例はIVASエンコーダ、デコーダ、および／またはレンダラーの文脈で記述されるが、これは単に、本発明の一般原理が適用できるエンコーダ／デコーダ／レンダラーの1つのタイプであり、本明細書で記述されるさまざまな実施形態と併せて使用されうる多くの他のタイプのエンコーダ、デコーダ、およびレンダラーがありうることに注意しておくべきである。

【0052】

また、本稿を通じて「アップミックス」および「ダウンミックス」という用語が使用されるが、これらは必ずしもそれぞれチャネル数の増加および減少を意味するわけではない。このことはしばしば成り立つことがあるものの、いずれの用語もチャネル数の減少または増加のいずれをも意味できることを注意しておくべきである。このように、両方の用語は、「混合〔ミックス〕」という、より一般的な概念の下にはいる。

【0053】

ここで図1を参照すると、ある実施形態に従って、方向性オーディオの表現をエンコードして送信するための方法1が記載されている。

【0054】

方法1を実行するように構成された装置300が図3に示されている。装置300は、一般に、携帯電話（スマートフォン）であってもよいが、VR/AR/XR設備の一部であってもよく、また、方向オーディオを捕捉するための一つまたは複数のマイクロフォンを有するマイクロフォン・システム302を有する、またはそれに接続される任意の他のタイプの装置であってもよい。よって、装置300は、マイクロフォン・システム302を有していてもよいし、離れた位置にあるマイクロフォン・システム302に接続（有線または無線）されてもよい。いくつかの実施形態では、装置300は、マイクロフォン・システム302と、1～6DoFで本装置の空間データを決定するように構成されたヘッドトラッキング装置とを有するVRギアまたはARギアにおいて実装される。

【0055】

いくつかのオーディオ捕捉シナリオでは、方向性オーディオの捕捉中に、マイクロフォン・システム302の位置および／または空間配向が変化していることがありうる。

【0056】

ここで、2つの例示的なシナリオについて述べる。

【0057】

オーディオ捕捉中のマイクロフォン・システム302の位置および／または空間配向の変化は、受領装置において、レンダリングされたシーンの空間的回転／並進を引き起こす可能性がある。提供される経験の種類、たとえば、没入型、VR、ARまたはXRに依存し、特定の使用事例に依存して、この挙動は、望ましいこともあるし、あるいは望ましくないこともある。これが望まれうる1つの例は、サービスが追加的に視覚成分を提供する場合であり、捕捉カメラ（たとえば、図1には示されていない360度のビデオ捕捉）とマイクロフォン302が同じ装置に統合される場合である。その場合、捕捉装置の回転は、レンダリングされるオーディオビジュアル・シーンの対応する回転をもたらすことが期待されるはずである。

【0058】

他方、オーディオビジュアル捕捉が同じ物理的な装置によって行なわれない場合、あるいはビデオ成分がない場合は、捕捉装置が回転するたびにレンダリングされるシーンが回転すると、聴取者にとってわずらわしいことがある。最悪の場合、動き酔いが起こることがある。よって、捕捉装置の位置変化（並進および／または回転）を補償することが望ましい。例は、捕捉装置（すなわち、マイクロフォン302のセットを含むもの）としてスマートフォンを使用する没入的電話および没入的会議アプリケーションを含む。これらの使用事例では、マイクロフォンのセットが、手で持っているため、または動作中にユーザーが触れるために、意図せずして動かされるということが頻繁に起こりうる。捕捉装置のユーザーは、捕捉装置を動かすと、受領装置において、レンダリングされる空間的オーディオの不安定性を引き起こす可能性があることを認識していないことがある。一般に、会話状況において電話を静止状態に保持することは、ユーザーからは期待できない。

【0059】

以下に記載される方法および装置は、上記シナリオのいくつかまたはすべてに定義される。

【0060】

よって、装置300は、オーディオを捕捉するための一つまたは複数のマイクロフォンを含むマイクロフォン・システム302を有するか、またはそれに接続される。よって、マイクロフォン・システムは、1、2、3、5、10個などのマイクロフォンを含んでいてもよい。いくつかの実施形態では、マイクロフォン・システムは、複数のマイクロフォンを含む。装置300は、複数の機能ユニットを有する。それらのユニットは、ハードウェアおよび／またはソフトウェアで実装されてもよく、それらのユニットの機能性を扱うための一つまたは複数のプロセッサを有していてもよい。

【0061】

装置300は、マイクロフォン・システム302によって捕捉された方向性オーディオ320を受領する（S13）ように構成された受領ユニット304を有する。方向性オーディオ320は、好ましくは、オーディオ・シーンの回転および／または並進を容易に許容するオーディオ表現である。方向性オーディオ320は、たとえば、オーディオ・シーンの回転および／または並進を許容するオーディオ・オブジェクトおよび／またはチャネルを含んでいてもよい。方向性オーディオは、以下を含みうる：
・チャネル・ベースのオーディオ（channel-based audio、CBA）、たとえばステレオ、マルチチャネル／サラウンド、5.1、7.1など
・シーン・ベースのオーディオ（scene-based audio、SBA）、たとえば1次および高次アンビソニックス
・オブジェクト・ベースのオーディオ（object-based audio、OBA）。

【0062】

CBAおよびSBAは空間的／方向性オーディオの非パラメトリックな形であり、一方、OBAは空間メタデータをもちパラメトリックである。パラメトリックな空間的オーディオのある具体的な形は、メタデータ支援空間的オーディオ（MASA）である。

【0063】

受領ユニット304は、さらに、マイクロフォン・システム302に関連付けられたメタデータ322を受領する（S14）ように構成される。メタデータ322は、マイクロフォン・システム302の空間データを含む。空間データは、マイクロフォン・システム302の空間配向および／または空間位置を示す。マイクロフォン・システムの空間データは、マイクロフォン・システムの方位角、ピッチ、ロール角（単数または複数）、および空間座標のリストからの少なくとも1つを含む。空間データは、1自由度、DoF（たとえば、マイクロフォン・システムの方位角のみ）、3DoF（たとえば、3DoFでのマイクロフォン・システムの空間配向）、または6DoF（3DoFでの空間配向と3DoFでの空間位置の両方）で表現されうる。空間データは、もちろん、1～6の任意のDoFで表現されうる。

【0064】

装置300は、さらに、方向性オーディオ320およびメタデータ322を受領ユニット304から受領し、方向性オーディオ320の少なくとも一部（たとえば、方向性オーディオのオーディオ・オブジェクトの少なくともいくつか）を修正して（S15）、修正された方向性オーディオを生成するコンピューティング・ユニット306を有する。この修正の結果、マイクロフォン・システムの空間配向および／または空間位置に応じて、オーディオの方向特性が修正される。

【0065】

次いで、コンピューティング・ユニット306は、修正された方向性オーディオをデジタル・オーディオ・データ328にエンコードする（S17）ことによって、デジタル・データをエンコードする（S16）。装置300は、デジタル・オーディオ・データ328をたとえばビットストリームとして送信（有線または無線）するように構成された送信ユニット310をさらに有する。

【0066】

エンコード装置300（送り側装置、捕捉装置、送信装置、送信側などと称されることもある）においてすでにマイクロフォン・システム302の回転および／または並進運動を補償することによって、マイクロフォン・システム302の空間データを送信するための要件が緩和される。そのような補償がエンコードされた方向性オーディオを受領する装置（たとえば、没入的オーディオ・レンダラー）によって行なわれるとした場合、必要とされるすべてのメタデータが、常にデジタル・オーディオ・データ328に含まれる必要がある。3つの軸すべてにおけるマイクロフォン・システム302の回転座標が、それぞれ8ビットで表わされ、50Hzのレートで推定され、伝達されると想定すると、その結果生じる、信号332のビットレートの増加は1.2kbpsであろう。さらに、捕捉側において動き補償がない場合の聴覚シーンのバリエーションは、空間的オーディオ符号化をより要求の厳しいものにし、潜在的に効率を低下させる可能性がある。

【0067】

さらに、修正決定の基礎をなす情報は装置300において容易に利用可能であるので、ここですでにマイクロフォン・システム302の回転／並進運動を補償することが適切であり、そのことは効率的に行える。よって、この動作のための最大アルゴリズム遅延は短縮されうる。

【0068】

さらに別の利点は、捕捉装置300における回転／並進運動を常に（要求に際して、条件付きにではなく）補償し、捕捉システムの空間配向データを受信端に条件付きで提供することにより、マルチパーティー会議使用事例のような異なるレンダリング・ニーズをもつ複数のエンドポイントがサービスされる場合の潜在的な衝突が回避されることである。

【0069】

上記は、レンダリングされた音響シーンが、方向性オーディオを捕捉するマイクロフォン・システム302の位置および回転で不変であるべきすべての場合をカバーする。レンダリングされた音響シーンがマイクロフォン・システム302の対応する動きと一緒に回転すべき残りの場合に対処するために、コンピューティング・ユニット306は、任意的に、マイクロフォン・システムの空間データを含むメタデータ322の少なくとも一部を、前記デジタル・オーディオ・データ328中にエンコードする（S18）ように構成されてもよい。たとえば、z軸が鉛直方向に対応するなど、好適な回転参照系の定義にもよるが、多くの場合、単に方位角を送信すればよいことがある（たとえば、400bpsで）。回転参照系内のマイクロフォン・システム302のピッチ角およびロール角は、ある種のVRアプリケーションにおいて要求されるだけでありうる。

【0070】

条件付きで提供される回転／並進パラメータは、典型的には、IVAS RTPペイロード・フォーマットの1つの条件付き要素として送信されてもよい。よって、これらのパラメータは、割り当てられた帯域幅のわずかな部分を要求する。

【0071】

これらの異なるシナリオを満たすために、受領ユニット304は、任意的に、コンピューティング・ユニット306がデジタル・オーディオ・データ328をエンコードしているときに、メタデータ322をどのように扱うかの命令を受領する（S10）ように構成されてもよい。該命令は、レンダリング装置（たとえば、オーディオ会議の別の部分）から、またはコール・サーバーなどの調整装置から、受領（S10）されてもよい。

【0072】

いくつかの実施形態では、受領ユニット304は、マイクロフォン・システムの空間データを含むメタデータ322の前記少なくとも一部を前記デジタル・オーディオ・データ中に含めるかどうかをコンピューティング・ユニット306に対して示す第1の命令を受領する（S11）ようにさらに構成される。換言すれば、第1の命令は、メタデータのいずれかがデジタル・オーディオ・データ328に含まれるべきであるかメタデータが全くデジタル・オーディオ・データ328に含まれるべきでないかを装置300に通知する。たとえば、装置300がオーディオ会議の一部としてデジタル・オーディオ・データ328を送信している場合、第1の命令は、メタデータ322のいかなる部分も含まれないべきであると規定してもよい。

【0073】

代替的または追加的に、いくつかの実施形態では、受領ユニット304は、マイクロフォン・システムの空間データのどのパラメータ（単数または複数）をデジタル・オーディオ・データに含めるかをコンピューティング・ユニットに示す第2の命令を受領するようにさらに構成され、それによりコンピューティング・ユニットはそれに従って動作する。たとえば、帯域幅の理由または他の理由のために、第2の命令は、デジタル・オーディオ・データ328に方位角のみを含めることをコンピューティング・ユニット306に対して規定することができる。

【0074】

第1および／または第2の命令は、典型的には、セッション・セットアップ・ネゴシエーションの対象であってもよい。よって、これらの命令のいずれも、セッション中の送信を必要とせず、たとえば、没入的オーディオ／ビデオ会議のための、割り当てられた帯域幅のいずれも必要としないであろう。

【0075】

上述のように、装置300は、ビデオ会議の一部であってもよい。このため、受領ユニット304は、方向性オーディオの捕捉時間を示すタイムスタンプを含むメタデータ（図1には示さず）を受領するようにさらに構成されてもよく、計算ユニット306は、前記タイムスタンプを前記デジタル・オーディオ・データ中にエンコードするように構成される。有利には、次いで、修正された方向性オーディオは、レンダリング側で、捕捉されたビデオと同期させられてもよい。

【0076】

いくつかの実施形態では、修正された方向性オーディオのエンコードS17は、修正された方向性オーディオをダウンミックスすることを含み、該ダウンミックスすることは、マイクロフォン・システム302の空間配向を考慮し、ダウンミックスと該ダウンミックスすることにおいて使用されるダウンミックス行列を前記デジタル・オーディオ・データ328中にエンコードすることによって実行される。ダウンミックスすることは、たとえば、マイクロフォン・システム302の空間データに基づいて方向性オーディオ320のビームフォーミング動作を調整することを含んでいてもよい。

【0077】

よって、デジタル・オーディオ・データは、装置300から、たとえば、没入的オーディオ／ビデオ会議シナリオの送信部分として、送信される（S19）。次いで、デジタル・オーディオ・データは、オーディオ信号をレンダリングするための装置によって、たとえば、没入的オーディオ／ビデオ会議シナリオの受領部分によって受領される。ここで、レンダリング装置400について、図2および図4に関連して述べる。

【0078】

オーディオ信号をレンダリングする装置400は、デジタル・オーディオ・データ328を受領（S21）（有線または無線）するように構成された受領ユニット402を有する。

【0079】

装置400はさらに、受領されたデジタル・オーディオ・データ328を方向性オーディオ420およびメタデータ422にデコードする（S22）ように構成されたデコード・ユニット404を有しており、メタデータ422は、方位角、ピッチ、ロール角（単数または複数）、および空間座標のリストからの少なくとも1つを含む空間データを含む。

【0080】

いくつかの実施形態では、アップミックスがデコード・ユニット404によって実行される。これらの実施形態では、デコード・ユニット404による受領されたデジタル・オーディオ・データ328の方向性オーディオ420へのデコードは：受領されたデジタル・オーディオ・データ328をダウンミックスされたオーディオにデコードし、受領されたデジタル・オーディオ・データ328に含まれるダウンミックス行列を使用して、デコード・ユニット404によって、ダウンミックスされたオーディオを方向性オーディオ420にアップミックスすることを含む。

【0081】

本装置はさらに、空間データを用いて方向性オーディオの方向特性を修正し（S23）、修正された方向性オーディオ424をスピーカーまたはヘッドフォンを使ってレンダリングする（S24）ように構成されたレンダリング・ユニット406を有する。

【0082】

よって、装置400（そのレンダリング・ユニット406）は、受領された空間データに基づいて音響シーン回転／並進を適用するように構成される。

【0083】

いくつかの実施形態では、空間データは、方向性オーディオを捕捉する一つまたは複数のマイクロフォンを含むマイクロフォン・システムの空間配位および／または空間位置を示し、レンダリング・ユニットは、少なくとも部分的にはマイクロフォン・システムのオーディオ環境を再現するように方向性オーディオの方向特性を修正する（S23）。この実施形態では、装置400は、図3の装置300によって捕捉端で補償された音響シーン回転の少なくとも一部を再適用する。

【0084】

空間データは、3自由度DoFで動きを表わす回転データを含む空間データを含んでいてもよい。代替的または追加的に、空間データは空間座標を含んでいてもよい。

【0085】

デコードされた方向性オーディオは、いくつかの実施形態では、上述のように、オーディオ・オブジェクト、より一般には、空間メタデータに関連付けられたオーディオを含んでいてもよい。

【0086】

デコード・ユニット404による受領されたデジタル・オーディオ・データの方向性オーディオへのデコードS22は、いくつかの実施形態では、受領されたデジタル・オーディオ・データをダウンミックスされたオーディオにデコードし、デコード・ユニット404によって、受領されたデジタル・オーディオ・データ328に含まれるダウンミックス行列を用いて、該ダウンミックスされたオーディオを方向性オーディオにアップミックスすることを含んでいてもよい。増大した柔軟性を提供するため、および／または帯域幅要件を満たすために、装置400は、デジタル・オーディオ・データ328がそこから受領されるさらなる装置に命令を送信する（S20）ように構成された送信ユニット306を有していてもよく、該命令は、回転または並進データが（もしあるとすれば）どのパラメータ（単数または複数）を含むべきかを前記さらなる装置に対して示す。よって、この機能は、潜在的なユーザー選好またはレンダリングおよび／または使用されるサービスの種類に関連する選好を満たすことを容易にしうる。

【0087】

いくつかの実施形態では、装置400は、空間データを含むメタデータをデジタル・オーディオ・データ328に含めるか否かを前記さらなる装置に対して示す命令を送信するように構成されてもよい。これらの実施形態では、受領されたS21デジタル・オーディオ・データ328がそのようなメタデータを含まない場合、レンダリング・ユニットは、捕捉装置300においてなされる補償に起因する方向性オーディオの方向特性のいかなる修正もなしに、受領されたままの（上述のようにアップミックスされる可能性はある）デコードされた方向性オーディオをレンダリングする。しかしながら、いくつかの実施形態では、受領された方向性オーディオは、レンダラーのヘッドトラッキング情報に応答して修正される（後述）。

【0088】

装置400は、いくつかの実施形態では、6DoFで装置の空間配向を測定するように構成されたヘッドトラッキング装置を有するVRギアまたはARギアにおいて実装されてもよい。レンダリング・ユニット406は、バイノーラル・オーディオ・レンダリングのために構成されてもよい。

【0089】

いくつかの実施形態において、レンダリング・ユニット406は、メタデータにおいて受領される空間座標に基づいて、レンダリングされるオーディオのボリュームを調整する（S25）ように構成される。この機能は、図6～図7と関連して、のちにさらに記述される
図5は、捕捉装置300（図3に関連して述べた）と、レンダリング装置400（図4に関連して述べた）とを含むシステムを示す。捕捉装置300は、いくつかの実施形態では、捕捉装置300が捕捉装置のマイクロフォン・システムの空間データをデジタル・オーディオ・データ328に含めるべきかどうか、およびどの程度含めるべきかを示す、レンダリング装置400から送信された（S20）の命令334を受領（S10）してもよい。

【0090】

いくつかの実施形態では、捕捉装置300は、ビデオ記録ユニットをさらに有し、記録されたビデオをデジタル・ビデオ・データ502にエンコードし、該デジタル・ビデオ・データをレンダリング装置400に送信するように構成され、レンダリング装置400は、デコードされたデジタル・ビデオ・データを表示するためのディスプレイをさらに有する。

【0091】

上述のように、オーディオ捕捉中の捕捉装置300のマイクロフォン・システムの位置および／または空間方向の変化は、レンダリング装置400におけるレンダリングされるシーンの空間的回転／並進を引き起こすことがある。提供される経験の種類、たとえば、没入型、VR、ARまたはXRに依存し、特定の使用事例に依存して、この挙動は望ましいこともあり、あるいは望ましくないこともある。これが望まれうる1つの例は、サービスが追加的に視覚成分502を提供する場合であり、捕捉カメラと前記一つまたは複数のマイクロフォン302が同じ装置に統合される場合である。その場合、捕捉装置300の回転は、レンダリング装置400において、レンダリングされるオーディオビジュアル・シーンの対応する回転をもたらすことが期待されるはずである。

【0092】

他方、オーディオビジュアル捕捉が同じ物理的な装置によって行なわれない場合、あるいはビデオ成分がない場合は、捕捉装置300が回転するたびにレンダリングされるシーンが回転すると、聴取者にとってわずらわしいことがある。最悪の場合、動き酔いが起こることがある。

【0093】

この理由で、いくつかの実施形態によれば、レンダリング装置400のレンダリング・ユニットは、レンダリング装置400が、さらに、捕捉装置300からエンコードされたビデオ・データ502を受領すると、空間データを使用して（デジタル・オーディオ・データ328において受領された）方向性オーディオの方向特性を修正し、修正された方向性オーディオをレンダリングするように構成されてもよい。

【0094】

しかしながら、レンダリング装置400が捕捉装置300からエンコードされたビデオ・データを受領しないときは、レンダリング装置400のレンダリング・ユニットは、方向修正なしに方向性オーディオをレンダリングするように構成されてもよい。

【0095】

他の実施形態では、レンダリング装置400は、会議の前に、捕捉装置300から受領されるデータにビデオ成分が含まれないであろうことを知らされる。この場合、レンダリング装置400は、命令334において、捕捉装置300のマイクロフォン・システムの空間データがデジタル・オーディオ・データ328に含まれる必要がないことを示してもよく、それにより、レンダリング装置400のレンダリング・ユニットは、デジタル・オーディオ・データ328において受領された方向性オーディオを、方向修正なしでレンダリングするように構成される。

【0096】

上記では、捕捉装置上の方向性オーディオのダウンミックスおよび／またはエンコードについて簡単に概説した。ここでこれについてさらに詳しく述べる。

【0097】

多くの場合、捕捉装置300は、（レンダリング装置において）デコードされた呈示が単一のモノスピーカーへのものか、ステレオスピーカーへのものか、またはヘッドフォンへのものかについての情報を有しない。実際のレンダリング・シナリオは、たとえば携帯電話へのヘッドフォンの接続または切断のような、たとえば接続された再生設備との、変化しうるサービス・セッションの間にも変動しうる。レンダリング装置の機能が未知であるさらに別のシナリオは、単一の捕捉装置300が複数のエンドポイント（レンダリング装置400）をサポートする必要がある場合である。たとえば、IVAS会議またはVRコンテンツ配信使用事例では、あるエンドポイントはヘッドセットを使用していることがあり、別のエンドポイントがステレオスピーカーにレンダリングすることがあり、それでいて、単一のエンコードを両方のエンドポイントに供給できることが有利である。これはエンコード側の複雑さを低減し、必要とされる総合ネットワーク帯域幅をも削減しうるからである。

【0098】

これらの場合をサポートする、それほど望ましくないがストレートな仕方は、常に最低の受領装置機能、すなわちモノを想定して、対応するオーディオ動作モードを選択することである。しかしながら、より合理的なのは、使用されるコーデック（たとえばIVASコーデック）が、たとえ空間的、バイノーラル、またはステレオ・オーディオをサポートする呈示モードで動作させられている場合でも、常に、それぞれより低いオーディオ機能をもつ装置400上で呈示できるデコードされたオーディオ信号を生成することができることを要求することである。いくつかの実施形態では、空間的オーディオ信号としてエンコードされた信号は、バイノーラル、ステレオ、および／またはモノ・レンダリングのためにデコード可能であってもよい。同様に、バイノーラルとしてエンコードされた信号は、ステレオまたはモノとして復号可能であってもよく、ステレオとしてエンコードされた信号は、モノ呈示のためにデコード可能であってもよい。例解として、捕捉装置300は、単一のエンコード（デジタル・オーディオ・データ328）を実装し、複数のエンドポイント400に同じエンコードを送信するだけでよい。複数のエンドポイント400のいくつかは、バイノーラル呈示をサポートしてもよく、いくつかはステレオのみであってもよい。

【0099】

上記で論じたコーデックは、捕捉装置においてまたはコール・サーバーにおいて実装されうることに注意しておくべきである。コール・サーバーの場合、コール・サーバーは、捕捉装置からデジタル・オーディオ・データ328を受領し、上記の要件を満たすためにデジタル・オーディオ・データのトランスコードを行ない、その後、トランスコードされたデジタル・オーディオ・データを前記一つまたは複数のレンダリング装置400に送信する。そのようなシナリオが、ここで、図6に関連して例示される。

【0100】

物理的なVR会議シナリオ600が図6に示されている。異なるサイトからの5人のVR/AR会議ユーザー602a～eが、仮想ミーティングしている。VR/AR会議ユーザー602a～eは、IVASを有向にされて（IVAS-enabled）いてもよい。各ユーザーは、たとえばHMDを使用したバイノーラル再生およびビデオ再生を含むVR/ARギアを使用している。すべてのユーザーの設備は、対応するヘッドトラッキングで6DOFでの動きをサポートする。ユーザーのユーザー装置、UE、602は、符号化されたオーディオを上りおよび下りで会議コール・サーバー604と交換する。視覚的には、ユーザーは、相対位置パラメータおよび回転配向に関連する情報に基づいてレンダリングできるそれぞれのアバターを通じて表現されうる。

【0101】

没入的ユーザー体験をさらに改善するために、会議シナリオにおいて他の参加者（単数または複数）から受け取ったオーディオをレンダリングするときに、聴取者の頭部の回転運動および／または並進運動も考慮される。結果として、ヘッドトラッキングは、ユーザーのレンダリング装置（図4～図5の参照符号400）のレンダリング・ユニットに、ユーザーのVR/ARギアの現在の空間データ（6DOF）を通知する。この空間データは、別のユーザー602から受領されたデジタル・オーディオ・データにおいて受領された空間データと組み合わされ（たとえば行列乗算または方向性オーディオに関連付けられたメタデータの修正を通じて）、それにより、レンダリング・ユニットは、空間データの組み合わせに基づいて、前記別のユーザー602から受領された方向性オーディオの方向特性を修正する。次いで、修正された方向性オーディオがユーザーに対してレンダリングされる。

【0102】

さらに、特定のユーザーから受け取ったレンダリングされたオーディオのボリュームは、デジタル・オーディオ・データにおいて受け取った空間座標に基づいて調整されてもよい。2ユーザー間の仮想（または実）距離（レンダリング装置またはコール・サーバー604によって計算される）に基づいて、ボリュームは、没入的なユーザー体験をさらに改善するよう、増加または減少されうる。

【0103】

図7は、例として、会議コール・サーバーによって生成された仮想会議空間700を示す。初期に、サーバーは会議ユーザーUi、i＝1…5（702a～eとも称される）を仮想位置座標K_i＝(x_i,y_i,z_i)に配置する。仮想会議空間は、ユーザー間で共有される。よって、各ユーザーのためのオーディオビジュアル・レンダリングは、その空間において行なわれる。たとえば、ユーザーU5の観点（図6のユーザー602dに対応）からは、レンダリングは、実質的に、他の会議参加者を相対位置K_i－K₅、i≠5に配置する。たとえば、ユーザーU5は、ユーザーU2を距離|K_i－K₅|のところに、ベクトル(K_i－K₅)/|K_i－K₅|の方向のもとに知覚し、それにより、方向性レンダリングはU5の回転位置に対してなされる。図2には、U5のU4に向かう動きも示されている。この動きは、他のユーザーに対するU5の位置に影響し、それはレンダリング時に考慮される。同時に、U5のUEは、その変化する位置を会議サーバー604に送信し、会議サーバーは、U5の新しい座標を用いて仮想会議空間を更新する。仮想会議空間は共有されているので、ユーザーU1～U4は動いているユーザーU5に気づき、それに応じてそれぞれのレンダリングを適応させることができる。ユーザーU2の同時の動きは、対応する原理に従って機能する。コール・サーバー604は、共有される会議空間における参加者702a～eの位置データを維持するように構成される。

【0104】

図6～図7のシナリオでは、オーディオに関しては、以下の6DOF要件の一つまたは複数が、コーディング・フレームワークに適用されうる：
・空間座標および／または回転座標を含む、受領エンドポイントの位置情報の表現および上流伝送のためのメタデータ・フレームワークの提供（図1～図4に関連して上述したように）。
・入力オーディオ要素（オブジェクトなど）を空間座標、回転座標、方向性を含む6DOF属性に関連付ける機能。
・それぞれ関連付けられている6DOF属性の複数の受領されたオーディオ要素の同時の空間的レンダリングの機能。
・聴取者の頭部の回転および並進運動に際しての、レンダリングされるシーンの十分な調整。

【0105】

上記は、物理的な会議と仮想的な会議の混合であるXR会議にも当てはまることに注意しておくべきである。物理的な参加者は、AR眼鏡とヘッドフォンを通じて、リモート参加者を表わすアバターを見たり聞いたりする。参加者は、議論においてそれらのアバターたちと、あたかもそれらのアバターが物理的に存在している参加者であるかのように、対話する。彼らにとって、他の物理的な参加者および仮想的な参加者との対話は、混合現実の中で起こる。実際の参加者および仮想的な参加者の位置は、物理的な会議空間内の実際の参加者の位置と整合する、（たとえばコール・サーバー604によって）組み合わされた共有される仮想会議空間中にマージされ、絶対的および相対的な物理的な／現実の位置データを使用して仮想会議空間中にマッピングされる。

【0106】

VR/AR/XRシナリオでは、仮想会議のサブグループが形成されてもよい。これらのサブグループは、どのユーザー間でたとえばサービスの品質QoSが高いべきか、どのユーザー間でQoSはより低くてもよいかをコール・サーバー604に通知するために使用されてもよい。いくつかの実施形態では、VR/AR/XRギアを介してこれらのサブグループに提供される仮想環境には、同じサブグループの参加者のみが含まれる。たとえば、サブグループが形成されうるシナリオは、リモート位置からの仮想参加を提供するポスターセッションである。リモート参加者はHMDとヘッドフォンを装備する。彼らは仮想的に存在し、ポスターからポスターへ歩くことができる。彼らは、進行中のポスタープレゼンテーションを聞き、トピックや進行中の議論が興味深いと思えば、プレゼンテーションに近づくことができる。仮想参加者と物理的な参加者との間の没入的な対話の可能性を改善するために、サブグループは、たとえば前記複数のポスターのうちのどのポスターに参加者が現在関心をもっているかに基づいて形成されてもよい。

【0107】

このシナリオの実施形態は、以下を含む:
・遠隔会議システムによって、仮想会議の参加者からトピックを受領する；
・遠隔会議システムによって、トピックに基づいて、参加者を仮想会議のサブグループにグループ分けする；
・遠隔会議システムによって、新しい参加者の装置からの、仮想会議に参加するための要求を受領する。この要求は、好ましいトピックを示すインジケータに関連付けられる；
・遠隔会議システムによって、前記好ましいトピックと諸サブグループの諸トピックとに基づいて、諸サブグループのうちからサブグループを選択する；
・遠隔会議システムによって、新しい参加者の装置に、仮想会議の仮想環境を提供する。仮想環境は、新しい参加者と選択されたサブグループの一または複数の参加者との間の視覚的な仮想的近接または聴覚上の仮想的近接のうちの少なくとも1つを示す。

【0108】

いくつかの実施形態では、仮想環境は、少なくとも、新しい参加者のアバターと選択されたサブグループの参加者の一つまたは複数のアバターが互いに近接している仮想現実ディスプレイまたは仮想現実音場を提供することによって、視覚的な仮想的近接または聴覚上の仮想的近接を示す。

【0109】

いくつかの実施形態では、各参加者は、開放型ヘッドフォンおよびAR眼鏡によって接続される。

【0110】

VI. 等価物、拡張、代替およびその他
上記の記述を吟味したのちには本開示のさらなる実施形態が当業者には明白となるであろう。本記述および図面は実施形態および例を開示しているが、本開示はそうした特定の例に制約されるものではない。数多くの修正および変形が、付属の請求項によって定義される本開示の範囲から外れることなく、なされることができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。

【0111】

さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する際に、当業者によって、開示される実施形態への変形が理解され、実施されることができる。請求項において、単語「有する／含む」は、他の要素やステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項において記載されているというだけの事実が、それらの施策の組み合わせが有利に使用できないことを示すものではない。

【0112】

上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。逆に、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体（または非一時的な媒体）および通信媒体（または一時的な媒体）を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク（DVD）または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、当業者には、通信媒体が典型的には、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことはよく知られている。

【0113】

すべての図は概略図であり、一般に、本開示を説明するために必要な部分のみを示す．一方、他の部分は省略されることがあり、または示唆されるだけのこともある。特に断りのない限り、同様の参照符号は、異なる図における同様の部分を指す。

【0114】

〔態様１〕
オーディオを捕捉するための一つまたは複数のマイクロフォンを含むマイクロフォン・システムを有する、または該マイクロフォン・システムに接続される装置であって、当該装置は：
受領ユニットであって：
前記マイクロフォン・システムによって捕捉された方向性オーディオを受領する段階と；
前記マイクロフォン・システムに関連するメタデータを受領する段階であって、前記メタデータは、前記マイクロフォン・システムの空間データを含み、前記空間データは、前記マイクロフォン・システムの空間配向および／または空間位置を示し、前記マイクロフォン・システムの方位角、ピッチ角、ロール角、および空間座標のリストからの少なくとも1つを含む、段階とを実行するように構成されている受領ユニットと；
方向性オーディオの少なくとも一部を修正して、修正された方向性オーディオを生成する段階であって、それにより、前記オーディオの方向特性が前記マイクロフォン・システムの空間配向および／または空間位置に応答して修正される、段階と；
修正された方向性オーディオをデジタル・オーディオ・データにエンコードする段階とを実行するように構成されたコンピューティング・ユニットと；
前記デジタル・オーディオ・データを送信するように構成された送信ユニットとを有する、
装置。
〔態様２〕
前記マイクロフォン・システムの前記空間配向は、前記空間データにおいて1自由度DoFの回転運動／配向を記述するパラメータで表わされる、態様１に記載の装置。
〔態様３〕
前記マイクロフォン・システムの前記空間配向は、前記空間データにおいて3DoFの回転運動／配向を記述するパラメータで表わされる、態様１に記載の装置。
〔態様４〕
前記マイクロフォン・システムの前記空間データは6DoFで表現される、態様１ないし３のうちいずれか一項に記載の装置。
〔態様５〕
受領された方向性オーディオは、方向性メタデータを含むオーディオを含む、態様１ないし４のうちいずれか一項に記載の装置。
〔態様６〕
前記コンピューティング・ユニットは、さらに、前記マイクロフォン・システムの空間データを含む前記メタデータの少なくとも一部を前記デジタル・オーディオ・データ中にエンコードするように構成されている、態様１ないし５のうちいずれか一項に記載の装置。
〔態様７〕
前記受領ユニットはさらに、前記マイクロフォン・システムの空間データを含む前記メタデータの前記少なくとも一部を前記デジタル・オーディオ・データに含めるかどうかを前記コンピューティング・ユニットに示す第1の命令を受領するように構成され、前記コンピューティング・ユニットはそれに従って動作する、態様６に記載の装置。
〔態様８〕
前記受領ユニットは、前記マイクロフォン・システムの前記空間データのどのパラメータ（単数または複数）を前記デジタル・オーディオ・データに含めるかを前記コンピューティング・ユニットに示す第2の命令を受領するようにさらに構成され、前記コンピューティング・ユニットはそれに従って動作する、態様６または７に記載の装置。
〔態様９〕
前記送信ユニットは、前記デジタル・オーディオ・データをさらなる装置（400）に送信するように構成され、前記第1の命令および／または第2の命令に関する指示が、前記さらなる装置から受領される、態様７または８に記載の装置。
〔態様１０〕
前記受領ユニットは、前記方向性オーディオの捕捉時間を示すタイムスタンプを含むメタデータを受領するようにさらに構成され、前記コンピューティング・ユニットは、前記タイムスタンプを前記デジタル・オーディオ・データ中にエンコードするように構成される、態様１ないし９のうちいずれか一項に記載の装置。
〔態様１１〕
前記修正された方向性オーディオのエンコードは、前記修正された方向性オーディオをダウンミックスすることを含み、前記ダウンミックスすることは、前記マイクロフォン・システムの前記空間配向を考慮に入れて、ダウンミックスと、前記ダウンミックスすることにおいて使用されるダウンミックス行列とを前記デジタル・オーディオ・データ中にエンコードすることによって実行される、態様１ないし１０のうちいずれか一項に記載の装置。
〔態様１２〕
前記ダウンミックスすることがビームフォーミングを含む、態様１１に記載の装置。
〔態様１３〕
前記マイクロフォン・システムと、3～6DoFで当該装置の空間データを決定するように構成されたヘッドトラッキング装置とを有する仮想現実VRギアまたは拡張現実ARギアにおいて実装される、態様１ないし１２のうちいずれか一項に記載の装置。
〔態様１４〕
オーディオ信号をレンダリングするための装置であって、当該装置は：
デジタル・オーディオ・データを受領するように構成された受領ユニットと；
受領されたデジタル・オーディオ・データを方向性オーディオとメタデータにデコードするように構成されたデコード・ユニットであって、前記メタデータは、方位角、ピッチ角、ロール角、および空間座標のリストからの少なくとも1つを含む空間データを含む、デコード・ユニットと；
前記空間データを用いて前記方向性オーディオの方向特性を修正し；
修正された方向性オーディオをレンダリングするように構成された
レンダリング・ユニットとを有する、
装置。
〔態様１５〕
前記空間データは、前記方向性オーディオを捕捉する一つまたは複数のマイクロフォンを含むマイクロフォン・システムの前記空間配向および／または空間位置を示し、前記レンダリング・ユニットは、少なくとも部分的に前記マイクロフォン・システムのオーディオ環境を再現するよう、前記方向性オーディオの前記方向特性を修正する、態様１４に記載の装置。
〔態様１６〕
前記空間データは、1自由度DoFで回転運動／配向を記述するパラメータを含む、態様１４または１５に記載の装置。
〔態様１７〕
前記空間データは、3DoFで回転運動／配向を記述するパラメータを含む、態様１４または１５に記載の装置。
〔態様１８〕
デコードされた方向性オーディオは、方向性メタデータを含むオーディオを含む、態様１４ないし１７のうちいずれか一項に記載の装置。
〔態様１９〕
前記デジタル・オーディオがそこから受領されるさらなる装置（300）に命令を送信するように構成された送信ユニットをさらに有しており、前記命令は、前記回転データがどのパラメータ（単数または複数）を含むべきであるかを前記さらなる装置に対して示す、態様１４ないし１８のうちいずれか一項に記載の装置。
〔態様２０〕
前記デコード・ユニットは、前記デジタル・オーディオ・データから前記方向性オーディオの捕捉時間を示すタイムスタンプを抽出するようにさらに構成される、態様１４ないし１９のうちいずれか一項に記載の装置。
〔態様２１〕
前記デコード・ユニットによる、受領されたデジタル・オーディオ・データの方向性オーディオへのデコードは：
受領されたデジタル・オーディオ・データをダウンミックスされたオーディオにデコードし、
前記デコード・ユニットによって、受領されたデジタル・オーディオ・データに含まれるダウンミックス行列を用いて、前記ダウンミックスされたオーディオを前記方向性オーディオにアップミックスすることを含む、
態様１４ないし２０のうちいずれか一項に記載の装置。
〔態様２２〕
前記空間データは空間座標を含み、前記レンダリング・ユニットは、前記空間座標に基づいて、レンダリングされたオーディオのボリュームを調整するようにさらに構成される、態様１４ないし２１のうちいずれか一項に記載の装置。
〔態様２３〕
6DoFで当該装置の空間配向および空間位置を測定するように構成されたヘッドトラッキング装置を有する仮想現実VRギアまたは拡張現実ARギアにおいて実装される、態様１４ないし２２のうちいずれか一項に記載の装置。
〔態様２４〕
前記レンダリング・ユニットがバイノーラル・オーディオ・レンダリングのために構成されている、態様１４ないし２３のうちいずれか一項に記載の装置。
〔態様２５〕
デジタル・オーディオ・データを、態様１４ないし２４のうちいずれか一項に記載の第2の装置に送信するように構成された、態様１ないし１３のうちいずれか一項に記載の第1の装置を有するシステムであって、当該システムはオーディオおよび／またはビデオ会議用に構成されている、システム。
〔態様２６〕
前記第1の装置は、ビデオ記録ユニットをさらに有しており、記録されたビデオをデジタル・ビデオ・データにエンコードし、該デジタル・ビデオ・データを前記第2の装置に送信するように構成されており、前記第2の装置は、デコードされたデジタル・ビデオ・データを表示するためのディスプレイをさらに有する、システム。
〔態様２７〕
デジタル・オーディオ・データを第2の装置に送信するように構成された、態様１ないし１３のうちいずれか一項に記載の第1の装置を有するシステムであって、前記第2の装置は：
デジタル・オーディオ・データを受領するように構成された受領ユニットと；
受領されたデジタル・オーディオ・データを、方向性オーディオとメタデータにデコードするように構成されたデコード・ユニットであって、前記メタデータは、方位角、ピッチ角、ロール角、および空間座標のリストからの少なくとも1つを含む空間データを含む、デコード・ユニットと；
オーディオをレンダリングするためのレンダリング・ユニットとを有しており、
前記レンダリング・ユニットは、前記第2の装置が前記第1の装置からのエンコードされたビデオ・データをさらに受領したとき：
前記空間データを使用して前記方向性オーディオの方向特性を修正し、
修正された方向性オーディオをレンダリングするように構成されており；
前記レンダリング・ユニットは、前記第2の装置が前記第1の装置からのエンコードされたビデオ・データを受領しないときは：
前記方向性オーディオをレンダリングするように構成されている、
システム。
〔態様２８〕
一つまたは複数のプロセッサによって実行されると、該一つまたは複数のプロセッサに態様１ないし２７のうちいずれか一項に記載の動作を実行させる命令を記憶している非一時的なコンピュータ可読媒体。

【図1】