(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-09
(45)【発行日】2024-09-18
(54)【発明の名称】オーディオ信号及び関連するメタデータによる空間オーディオの表現
(51)【国際特許分類】
G10L 19/008 20130101AFI20240910BHJP
【FI】
G10L19/008 100
(21)【出願番号】P 2020544909
(86)(22)【出願日】2019-11-12
(86)【国際出願番号】 US2019060862
(87)【国際公開番号】W WO2020102156
(87)【国際公開日】2020-05-22
【審査請求日】2022-11-07
(32)【優先日】2018-11-13
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-01-22
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-04-02
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-10-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ブルーン,ステファン
【審査官】大野 弘
(56)【参考文献】
【文献】特表2016-528542(JP,A)
【文献】特表2009-532735(JP,A)
【文献】米国特許出願公開第2009/0264114(US,A1)
【文献】特表2015-528926(JP,A)
【文献】特表2012-503792(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/18
(57)【特許請求の範囲】
【請求項1】
指向性サウンドと拡散サウンドとの組み合わせである空間オーディオを表現する方法であって、
前記空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号をダウンミキシングすることによって単一チャネル又はマルチチャネルのダウンミックスオーディオ信号を作り出すこと、
前記ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータを決定することであって、該第1のメタデータパラメータは、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、決定すること、並びに
前記作り出されるダウンミックスオーディオ信号と前記第1のメタデータパラメータを結合させて前記空間オーディオの表現にすることを含み、
前記第1のメタデータパラメータは、定義フィールド及びセレクタフィールドに編成され、前記定義フィールドは、前記複数のマイクロホンと関連付けられる少なくとも1つの遅延補償パラメータセットを指定し、前記セレクタフィールドは、遅延補償パラメータセットの選択を指定する、
方法。
【請求項2】
前記作り出されるダウンミックスオーディオ信号と前記第1のメタデータパラメータとを結合させて前記空間オーディオの表現にすることは、
前記空間オーディオの前記表現に第2のメタデータパラメータを含めることを更に含み、該第2のメタデータパラメータは、前記入力オーディオ信号のためのダウンミックス構成を示す、
請求項1に記載の方法。
【請求項3】
前記第1のメタデータパラメータは、前記マイクロホン入力オーディオ信号の1つ又はそれよりも多くの周波数帯域について決定される、請求項1又は2に記載の方法。
【請求項4】
単一チャネル又はマルチチャネルのダウンミックスオーディオ信号を作り出すためにダウンミキシングすることは、
x=D×m
によって表され、ここで、
Dは、前記複数のマイクロホンからの各入力オーディオ信号xについての重みを定義するダウンミックス係数を含むダウンミックス行列であり、
mは、前記複数のマイクロホンからの前記入力オーディオ信号を表す行列である、
請求項1乃至3のうちのいずれか1項に記載の方法。
【請求項5】
前記ダウンミックス係数は、前記指向性サウンドに関する最良の信号対雑音比を現在有する前記マイクロホンの前記入力オーディオ信号を選択し、且つ任意の他のマイクロホンからの信号入力オーディオ信号を廃棄する、ように選ばれる、請求項4に記載の方法。
【請求項6】
前記選択は、時間-周波数(TF)タイル毎ベースについて行われる、請求項5に記載の方法。
【請求項7】
前記選択は、特定のオーディオフレームの全ての周波数帯域について行われる、請求項5に記載の方法。
【請求項8】
前記ダウンミックス係数は、異なるマイクロホンからの前記入力オーディオ信号を結合させるときに、前記指向性サウンドに関する前記信号対雑音比を最大化するように選ばれる、請求項5に記載の方法。
【請求項9】
前記最大化することは、特定の周波数帯域について行われる、請求項8に記載の方法。
【請求項10】
前記最大化することは、特定のオーディオフレームについて行われる、請求項8に記載の方法。
【請求項11】
第1のメタデータパラメータを決定することは、前記複数のマイクロホンからの前記入力オーディオ信号の遅延、利得及び位相特性のうちの1つ又はそれよりも多くを分析することを含む、請求項1乃至10のうちのいずれか1項に記載の方法。
【請求項12】
前記第1のメタデータパラメータは、時間-周波数(TF)タイル毎ベースで決定される、請求項1乃至11のうちのいずれか1項に記載の方法。
【請求項13】
前記ダウンミキシングすることの少なくとも一部は、前記オーディオキャプチャユニットにおいて起こる、請求項1乃至12のうちのいずれか1項に記載の方法。
【請求項14】
前記ダウンミキシングすることの少なくとも一部は、エンコーダにおいて起こる、請求項1乃至12のうちのいずれか1項に記載の方法。
【請求項15】
1つよりも多くの指向性音源を検出することに応答して、各音源について前記第1のメタデータパラメータを決定することを更に含む、請求項1乃至14のうちのいずれか1項に記載の方法。
【請求項16】
前記空間オーディオの前記表現は、方向指標、直接対総エネルギ比、拡散コヒーレンス、各マイクロホンについての到達時間、利得及び位相、拡散対総エネルギ比、サラウンドコヒーレンス、残余対総エネルギ比、及び距離のうちの少なくとも1つを含む、請求項1乃至15のうちのいずれか1項に記載の方法。
【請求項17】
前記第2又は第1のメタデータパラメータのメタデータパラメータは、作り出されるダウンミックスオーディオ信号が、左右ステレオ信号、平面一次アンビソニックス(FOA)信号、又は一次アンビソニックス成分信号から生成されるかどうかを示す、請求項2又は請求項2を直接的又は間接的に従属するときの請求項3乃至16のうちのいずれか1項に記載の方法。
【請求項18】
前記セレクタフィールドは、どの遅延補償パラメータセットが任意の所与の時間-周波数タイルに適用されるかを指定する、請求項1に記載の方法。
【請求項19】
前記相対時間遅延値は、[-2.0ms,2.0ms]の間隔内にある、請求項1乃至18のうちのいずれか1項に記載の方法。
【請求項20】
前記空間オーディオの前記表現中の前記第1のメタデータパラメータは、適用される利得調整を指定するフィールドと、位相調整を指定するフィールドとを更に含む、請求項1に記載の方法。
【請求項21】
前記利得調整は、[+30dB,-30dB]の間隔内にある、請求項20に記載の方法。
【請求項22】
前記第1及び/又は第2のメタデータパラメータのうちの少なくとも部分は、メモリ内に格納されるルックアップテーブルを使用して前記オーディオキャプチャユニットで決定される、請求項1乃至21のうちのいずれか1項に記載の方法。
【請求項23】
前記第1及び/又は第2のメタデータパラメータの少なくとも部分は、前記オーディオキャプチャユニットに接続される遠隔デバイスで決定される、請求項1乃至22のうちのいずれか1項に記載の方法。
【請求項24】
空間オーディオを表現するシステムであって、
前記空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンから入力オーディオ信号を受信するように構成される受信コンポーネントと、
前記受信するオーディオ信号をダウンミキシングすることによって単一チャネル又はマルチチャネルのダウンミックスオーディオ信号を作り出すように構成されるダウンミキシングコンポーネントと、
前記ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータを決定するように構成されるメタデータ決定コンポーネントであって、前記第1のメタデータパラメータは、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、メタデータ決定コンポーネントと、
前記作り出されるダウンミックスオーディオ信号と前記第1のメタデータパラメータとを結合させて前記空間オーディオの表現にするように構成される結合コンポーネントとを含み、
前記第1のメタデータパラメータは、定義フィールド及びセレクタフィールドに編成され、前記定義フィールドは、前記複数のマイクロホンと関連付けられる少なくとも1つの遅延補償パラメータセットを指定し、前記セレクタフィールドは、遅延補償パラメータセットの選択を指定する、
システム。
【請求項25】
前記結合コンポーネントは、前記空間オーディオの前記表現中に第2のメタデータパラメータを含むように更に構成され、該第2のメタデータパラメータは、前記入力オーディオ信号のためのダウンミックス構成を示す、請求項24に記載のシステム。
【請求項26】
空間オーディオを表現するためのデータフォーマットにおいてデータを格納する方法であって、
オーディオ信号を受信することと、
前記オーディオ信号をコンピュータ可読フォーマットに変換することと、を含み、前記オーディオ信号を前記コンピュータ可読フォーマットに変換することは、
前記空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号のダウンミックスから生じる単一チャネル又はマルチチャネルのダウンミックスオーディオ信号を、非一時的なコンピュータ可読媒体に書き込むことと、
前記入力オーディオ信号のためのダウンミックス構成、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、第1のメタデータパラメータを、前記非一時的なコンピュータ可読媒体に書き込むことと、を含み、
前記第1のメタデータパラメータは、定義フィールド及びセレクタフィールドに編成され、前記定義フィールドは、前記複数のマイクロホンと関連付けられる少なくとも1つの遅延補償パラメータセットを指定し、前記セレクタフィールドは、遅延補償パラメータセットの選択を指定する、
方法。
【請求項27】
前記オーディオ信号を前記コンピュータ可読フォーマットに変換することは、前記入力オーディオ信号のためのダウンミックス構成を示す第2のメタデータパラメータを、前記非一時的なコンピュータ可読媒体に書き込むことを更に含む、請求項26に記載の
方法。
【請求項28】
請求項1乃至23のうちのいずれか1項に記載の方法を実行するための命令を含むコンピュータプログラムを格納する、コンピュータ可読媒体。
【請求項29】
エンコーダであって、
空間オーディオの表現を受信するように構成され、
前記表現は、
前記空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号をダウンミキシングすることによって作り出される単一チャネル又はマルチチャネルのダウンミックスオーディオ信号と、
該ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータであって、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの少なくとも1つを示す、第1のメタデータパラメータとを含み、
以下のこと、すなわち、
前記第1のメタデータパラメータを使用して前記単一チャネル又はマルチチャネルのダウンミックスオーディオ信号をビットストリームに符号化すること、及び
前記単一チャネル又はマルチチャネルのダウンミックスオーディオ信号及び前記第1のメタデータパラメータをビットストリームに符号化すること
のうちの1つを実行するように構成され、
前記第1のメタデータパラメータは、定義フィールド及びセレクタフィールドに編成され、前記定義フィールドは、前記複数のマイクロホンと関連付けられる少なくとも1つの遅延補償パラメータセットを指定し、前記セレクタフィールドは、遅延補償パラメータセットの選択を指定する、
エンコーダ。
【請求項30】
前記空間オーディオの前記表現は、前記入力オーディオ信号のためのダウンミックス構成を示す第2のメタデータパラメータを更に含み、
当該エンコーダは、前記第1及び第2のメタデータパラメータを使用して前記単一チャネル又はマルチチャネルのダウンミックスオーディオ信号をビットストリームに符号化するように構成される、
請求項29に記載のエンコーダ。
【請求項31】
前記ダウンミキシングの一部は、前記オーディオキャプチャユニットにおいて起こり、前記ダウンミキシングの一部は、当該エンコーダにおいて起こる、請求項29に記載のエンコーダ。
【請求項32】
空間オーディオのコード化された表現を示すビットストリームを受信するように構成され、
前記表現は、
前記空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号をダウンミキシングすることによって作り出される単一チャネル又はマルチチャネルのダウンミックスオーディオ信号と、
該ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータであって、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、第1のメタデータパラメータとを含み、
前記第1のメタデータパラメータを使用することによって前記ビットストリームを前記空間オーディオの近似に復号化するように構成され、
前記第1のメタデータパラメータは、定義フィールド及びセレクタフィールドに編成され、前記定義フィールドは、前記複数のマイクロホンと関連付けられる少なくとも1つの遅延補償パラメータセットを指定し、前記セレクタフィールドは、遅延補償パラメータセットの選択を指定する、
デコーダ。
【請求項33】
前記空間オーディオの表現は、前記入力オーディオ信号についてのダウンミックス構成を示す第2のメタデータパラメータを更に含み、
当該デコーダは、前記第1及び第2のメタデータパラメータを使用することによって、前記ビットストリームを前記空間オーディオの近似に復号化するように構成される、
請求項32に記載のデコーダ。
【請求項34】
第1のメタデータパラメータを使用してチャネル内時間差を回復すること或いは復号化されるオーディオ出力の大きさ又は位相を調整することを更に含む、請求項32又は33に記載のデコーダ。
【請求項35】
第2のメタデータパラメータを使用して指向性サウンド信号の回復又は周囲サウンド信号の回復のためのアップミックス行列を決定することを更に含む、請求項33に記載のデコーダ。
【請求項36】
空間オーディオの表現を受信するように構成され、
前記表現は、
前記空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号をダウンミキシングすることによって作り出される単一チャネル又はマルチチャネルのダウンミックスオーディオ信号と、
該ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータであって、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、第1のメタデータパラメータとを含み、
該第1のメタデータパラメータを使用して前記空間オーディオをレンダリングするように構成され、
前記第1のメタデータパラメータは、定義フィールド及びセレクタフィールドに編成され、前記定義フィールドは、前記複数のマイクロホンと関連付けられる少なくとも1つの遅延補償パラメータセットを指定し、前記セレクタフィールドは、遅延補償パラメータセットの選択を指定する、
レンダラ。
【請求項37】
前記空間オーディオの前記表現は、前記入力オーディオ信号のためのダウンミックス構成を示す第2のメタデータパラメータを更に含み、
当該レンダラは、前記第1及び第2のメタデータパラメータを使用して空間オーディオをレンダリングするように構成される、
請求項36に記載のレンダラ。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の参照)
この出願は、2018年11月13日に出願された米国仮特許出願第62/760,262号、2019年1月22日に出願された米国仮特許出願第62/795,248号、2019年4月2日に出願された米国仮特許出願第62/828,038号、及び2019年10月28日に出願された米国仮特許出願第62/926,719号に対する優先権の利益を主張し、それらの内容を参照として本明細書に援用する。
【0002】
本明細書における開示は、一般的に、オーディオオブジェクト(audio objects)を含むオーディオシーン(audio scene)のコーディング(coding)に関する。特に、本発明は、空間オーディオ(spatial audio)を表現するための方法、システム、コンピュータプログラム(製品)及びデータフォーマット、ならびに空間オーディオを符号化する(encoding)、復号化する(decoding)及びレンダリングする(rendering)ための関連するエンコーダ、デコーダ及びレンダラに関する。
【背景技術】
【0003】
通信ネットワークへの4G/5G高速無線アクセスの導入は、ますます強力なハードウェアプラットフォームの利用可能性と相まって、先進的な通信及びマルチメディアサービスが、これまで以上に迅速かつ容易に開発されるための基盤を提供している。
【0004】
第三世代パートナーシッププロジェクト(3GPP)強化音声サービス(Enhanced Voice Service)(EVS)コーデックは、パケット損失弾力性の改良と共に、スーパーワイドバンド(SWB)とフルバンド(FB)スピーチ及びオーディオコーディングの導入で、ユーザ体験における非常に有意な改良をもたらした。しかしながら、拡張されたオーディオ帯域幅は、真に没入型の体験のために必要とされる寸法の1つに過ぎない。EVSによって現在提供されているモノ(mono)及びマルチモノ(multi-mono)を超えるサポートは、理想的には、資源効率の良い方法で説得力のある仮想世界にユーザを没入させることが必要とされる。
【0005】
加えて、3GPPで現在指定されているオーディオコーデックは、ステレオコンテンツに適した品質及び圧縮を提供するが、会話音声及びテレビ会議に必要とされる会話機能(例えば、十分に低い待ち時間)を欠く。これらのコーダ(coders)は、ライブストリーミング、バーチャルリアリティ(VR)及び没入型テレビ会議のような、没入型サービスに必要なマルチチャネル機能性を欠く。
【0006】
この技術的ギャップを埋め、リッチマルチメディアサービスに対する増大する需要に対処するために、EVSコーデックへの拡張が、没入型音声及びオーディオサービス(Immersive Voice and Audio Services)(IVAS)のために提案されている。加えて、4G/5G以上のテレビ会議アプリケーションは、マルチストリームコーディング(例えば、チャネル、オブジェクト、及びシーンベースのオーディオ)をサポートする改良された会話コーダとして使用されるIVASコーデックの恩恵を受ける。この次世代コーデックの使用事例は、会話音声、マルチストリームテレビ会議、VR会話、及びユーザ生成のライブコンテンツストリーミング及び非ライブコンテンツストリーミングを含むが、これらに限定されない。
【0007】
目標は、魅力的な構成と性能(例えば、優れたオーディオ品質、低遅延、空間的オーディオコーディングサポート、適切なビットレート範囲、高品質の誤り耐性、実用的な実装の複雑性)を備える単一のコーデックを開発することであるが、現在のところIVASコーデックのオーディオ入力フォーマットに関する最終的な合意はない。メタデータ支援空間オーディオフォーマット(Metadata Assisted Spatial Audio Format)(MASA)が、1つの可能なオーディオ入力フォーマットとして提案されている。しかしながら、従来的なMASAパラメータは、オーディオキャプチャが単一ポイントで行われることのような、特定の理想的な仮定を行う。しかしながら、携帯電話又はタブレットがオーディオキャプチャデバイスとして使用される現実世界シナリオにおいて、単一ポイントにおけるそのようなサウンド(音)キャプチャの仮定は、当て嵌まらないことがある。むしろ、特定のデバイスのフォームファクタに依存して、デバイスの様々なマイクは、ある距離だけ離れて配置されることがあり、異なってキャプチャされたマイクロホン信号は、完全に時間整列されないことがある。これは、オーディオの音源が空間的でどのように移動するかも考慮されるときに、特に当て嵌まる。
【0008】
MASAフォーマット別の基礎をなす仮定は、全てのマイクロホンチャネルは等しいレベルで提供されること、並びにそれらの間で周波数及び位相応答に差がないことである。やはり、現実世界シナリオにおいて、マイクロホンチャネルは、異なる方向依存周波数及び位相特性を有することがあり、それらも時変性である(time-variant)ことがある。例えば、マイクロホンのうちの1つが閉塞されるように或いは到達する音波の反射又は回折を引き起こす電話の近傍に何らかの物体があるようにオーディオ取込みデバイスが一時的に保持されると仮定されることができる。よって、どのオーディオフォーマットがIVASコーデックのようなコーデックと共に適切であるかを決定するときに考慮すべき多くの追加的な要因がある。
【発明の概要】
【0009】
次に、添付図面を参照して例示的な実施形態を記載する。
【図面の簡単な説明】
【0010】
【
図1】例示的実施形態に従った空間オーディオを表すための方法のフローチャートである。
【0011】
【
図2】例示的実施形態に従ったオーディオ取込みデバイス及び指向性拡散音源の概略図である。
【0012】
【
図3A】例示的な実施形態に従った、チャネルビット値パラメータがMASAフォーマットのために使用されるチャネルの数をどのように示すかの表(表1A)を示している。
【0013】
【
図3B】例示的な実施形態に従った、ダウンミックスを有する平面的FOA及びFOAキャプチャを2つのMASAチャネル内に表現するために使用することができるメタデータ構造の表(表1B)を示している。
【0014】
【
図4】例示的な実施形態に従った、各マイクロホンについての及びTFタイル毎の遅延補償値の表(表2)を示している。
【0015】
【
図5】例示的な実施形態に従った、どの補償値のセットがどのTFタイルに当て嵌まるかを示すために使用することができるメタデータ構造の表(表3)を示している。
【0016】
【
図6】例示的な実施形態に従った、各マイクロホンについての利得調整を表すために使用することができるメタデータ構造の表(表4)を示している。
【0017】
【
図7】例示的な実施形態に従った、オーディオ取込みデバイス、エンコーダ、デコーダ、及びレンダラを含む、システムを示している。
【0018】
【
図8】例示的な実施形態に従ったオーディオ取込みデバイスを示している。
【0019】
【
図9】例示的な実施形態に従ったデコーダ及びレンダラを示している。
【発明を実施するための形態】
【0020】
全ての図は、概略図であり、一般的に、本開示を解明するために必要な部分のみを示しているのに対し、他の部分は省略されることがあり、或いは単に示唆されることがある。特段の断わりがない限り、同等の参照番号は、異なる図における同等の部分を指している。
【0021】
よって、上記に鑑みれば、空間オーディオの改良された表現のための方法、システム、コンピュータプログラム(製品)及びデータフォーマットを提供することが目的である。空間オーディオのためのエンコーダ、デコーダ及びレンダラ(renderer)も提供される。
【0022】
(I.概要-空間オーディオ表現)
第1の態様によれば、空間オーディオ(spatial audio)を表現するための方法、システム、コンピュータプログラム(製品)及びデータフォーマットが提供される。
【0023】
例示的な実施形態によれば、空間オーディオを表現するための方法が提供され、空間オーディオは、指向性サウンド(directional sound)と拡散サウンド(diffuse sound)との結合(組み合わせ)(combination)であり、方法は、以下のこと、すなわち、
● 空間オーディオを取り込む(キャプチャする)オーディオキャプチャユニット内の複数のマイクロホンから入力オーディオ信号をダウンミックスすること(downmixing)によって単一チャネル又はマルチチャネルダウンミックスオーディオ信号(downmix audio signal)を作り出すこと、
● ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータを決定することであって、第1のメタデータパラメータは、各入力オーディオ信号と関連付けられた相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、決定すること、並びに
● 作り出されるダウンミックスオーディオ信号と第1のメタデータパラメータを結合させて空間オーディオの表現にすること
を含む。
【0024】
上述の構成では、複数のマイクロホンの異なる特性及び/又は空間位置を考慮して、空間オーディオの改良された表現が達成されることがある。その上、符号化(encoding)、復号化(decoding)又はレンダリング(rendering)の後続の処理段階においてメタデータを使用することは、ビットレート効率の良いコード化された形式でオーディオを表現しながら、取り込まれるオーディオを忠実に表現し且つ再構築することに寄与することがある。
【0025】
例示的な実施形態によれば、作り出されるダウンミックスオーディオ信号と第1のメタデータパラメータとを結合させて空間オーディオの表現にすることは、空間オーディオの表現内に第2のメタデータパラメータを含めることを更に含んでよく、第2のメタデータパラメータは、入力オーディオ信号のためのダウンミックス構成を示す。
【0026】
これは、それがデコーダで入力オーディオ信号を再構成することを可能にするという点で有利である。その上、第2のメタデータを提供することによって、空間オーディオの表現をビットストリームに符号化する前に、別個のユニットによって更なるダウンミックスが行われることがある。
【0027】
例示的な実施形態によれば、第1のメタデータパラメータは、マイクロホン入力オーディオ信号の1つ又はそれよりも多くの周波数帯域について決定されることがある。
【0028】
これは、それが、例えば、マイクロホン信号の異なる周波数帯域についての異なる周波数応答を考慮して、個別に適合された遅延、利得及び/又は位相調整パラメータを可能にする点で有利である。
【0029】
例示的な実施形態によれば、単一チャネル又はマルチチャネルダウンミックスオーディオ信号xを作り出すダウンミックスは、
【数1】
によって表されてよく、ここで、
Dは、複数のマイクロホンからの各入力オーディオ信号の重みを定義するダウンミックス係数を含むダウンミックス行列であり、
mは、複数のマイクロホンからの入力オーディオ信号を表す行列である。
【0030】
例示的な実施形態によれば、ダウンミックス係数は、指向性サウンド(音)に対する最良の信号対雑音比を現在有するマイクロホンの入力オーディオ信号を選択し、任意の他のマイクロホンからの信号入力オーディオ信号を廃棄する、ように選択されてよい。
【0031】
これは、それがオーディオキャプチャユニットにおいて計算の複雑性を低減した良好な品質の空間オーディオの表現を達成することを可能にするという点で有利である。この実施形態では、特定のオーディオフレーム及び/又は時間周波数タイルにおいて空間オーディオを表すために、1つの入力オーディオ信号のみが選択される。結果的に、ダウンミキシング操作(operation)の計算の複雑性が減少させられる。
【0032】
例示的な実施形態によれば、選択は、時間-周波数(TF)タイルベースで決定されてよい。
【0033】
これは、それが、例えば、マイクロホン信号の異なる周波数帯域についての異なる周波数応答を考慮して、改良されたダウンミキシング操作を可能にする点で有利である。
【0034】
例示的な実施形態によれば、選択は、特定のオーディオフレームについて行われてよい。
【0035】
有利には、これは、時間的に変化するマイクロホンキャプチャ信号に関する適応を可能にし、ひいては、改良されたオーディオ品質を可能にする。
【0036】
例示的な実施形態によれば、ダウンミックス係数は、異なるマイクロホンからの入力オーディオ信号を結合するときに、指向性サウンドに関して信号対雑音比を最大化するように選択されてよい。
【0037】
これは、それが指向性音源に由来しない望ましくない信号成分の減衰に起因するダウンミックスの改良された品質を可能にするという点で有利である。
【0038】
例示的な実施形態によれば、最大化は、特定の周波数帯域について行われてよい。
【0039】
例示的な実施形態によれば、最大化は、特定のオーディオフレームについて行われてよい。
【0040】
例示的な実施形態によれば、第1のメタデータパラメータを決定することは、複数のマイクロホンからの入力オーディオ信号の遅延、利得及び位相特性のうちの1つ又はそれよりも多くを分析することを含んでよい。
【0041】
例示的な実施形態によれば、第1のメタデータパラメータは、時間-周波数(TF)タイルベースで決定されてよい。
【0042】
例示的な実施形態によれば、ダウンミキシングの少なくとも一部は、オーディオキャプチャユニット内で起こることがある。
【0043】
例示的な実施形態によれば、ダウンミックスの少なくとも一部は、エンコーダ内で起こることがある。
【0044】
例示的な実施形態によれば、1つよりも多くの指向性音源を検出するとき、第1のメタデータは、各音源について決定されてよい。
【0045】
例示的な実施形態によれば、空間オーディオの表現は、以下のパラメータ、すなわち、方向指標(direction index)、直接対総エネルギ比(direct-to-total energy ratio)、拡散コヒーレンス(spread coherence)、各マイクロホンについての到達時間、利得及び位相、拡散対総エネルギ比(diffuse-to-total energy ratio)、サラウンドコヒーレンス(surround coherence)、残余対総エネルギ比(remainder-to-total energy ratio)、及び距離(distance)のうちの少なくとも1つを含んでよい。
【0046】
例示的な実施形態によれば、第2又は第1のメタデータパラメータのうちのメタデータパラメータは、作り出されるダウンミックスオーディオ信号が、左右ステレオ信号、平面状の一次アンビソニックス(First Order Ambisonics)(FOA)信号、又はFOA成分信号から生成されているかどうかを示すことがある。
【0047】
例示的な実施形態によれば、空間オーディオの表現は、定義フィールド(definition field)及びセレクタフィールド(selector field)に編成された(organized)メタデータパラメータを含んでよく、定義フィールドは、複数のマイクロホンと関連付けられる少なくとも1つの遅延補償パラメータセットを指定し、セレクタフィールドは、遅延補償パラメータセットの選択を指定する。
【0048】
例示的な実施形態によれば、セレクタフィールドは、どの遅延補償パラメータセットが任意の所与の時間-周波数タイルに適用されるかを指定してよい。
【0049】
例示的な実施形態によれば、相対時間遅延値は、ほぼ[-2.0ms、2.0ms]の間隔であってよい。
【0050】
例示的な実施形態によれば、空間オーディオの表現におけるメタデータパラメータは、適用される利得調整を指定するフィールド及び位相調整を指定するフィールドを更に含んでよい。
【0051】
例示的な実施形態によれば、利得調整は、ほぼ[+10dB、-30dB]の間隔であってよい。
【0052】
例示的な実施形態によれば、第1及び第2のメタデータ要素のうちの少なくとも一部は、格納されるルックアップテーブルを使用して、オーディオ取込みデバイスで決定される。
【0053】
例示的な実施形態によれば、第1及び第2のメタデータ要素のうちの少なくとも一部は、オーディオ取込みデバイスに接続された遠隔デバイスで決定される
【0054】
(II.概要-システム)
第2の態様によれば、空間オーディオを表現するためのシステムが提供される。
【0055】
例示的な実施形態によれば、
空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンから入力オーディオ信号を受信するように構成される受信コンポーネントと、
受信するオーディオ信号をダウンミックスすることによって単一チャネル又はマルチチャネルのダウンミックスオーディオ信号を作り出すように構成されるダウンミキシングコンポーネントと、
ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータを決定するように構成されるメタデータ決定コンポーネントであって、第1のメタデータパラメータは、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを表す、メタデータ決定コンポーネントと、
作り出されるダウンミックスオーディオ信号と第1のメタデータパラメータとを結合させて空間オーディオの表現とするように構成された結合コンポーネントとを含む、
空間オーディオを表現するためのシステムが提供される。
【0056】
(III.概要-データフォーマット)
第3の態様によれば、空間オーディオを表現するためのデータフォーマット(data format)が提供される。データフォーマットは、有利には、オーディオ取込みデバイス、エンコーダ、デコーダ、レンダラ等のような、空間オーディオに関する物理的コンポーネント、様々なタイプのコンピュータプログラム製品、並びにデバイス及び/又は場所間で空間オーディオを伝送するために使用されるその他の機器と共に使用されてよい。
【0057】
例示的な実施形態によれば、データフォーマットは、
空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号のダウンミックスから生じるダウンミックスオーディオ信号と、
入力オーディオ信号についてのダウンミックス構成、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、第1のメタデータパラメータとを含む。
【0058】
一例によれば、データフォーマットは、非一時メモリに格納される。
【0059】
(IV.概要-エンコーダ)
第4の態様によれば、空間オーディオの表現を符号化するためのエンコーダが提供される。
【0060】
例示的な実施形態によれば、
空間オーディオの表現であって、
表現は、
空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号をダウンミックスすることによって作り出される単一又はマルチチャネルのダウンミックスオーディオ信号、及び
ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータであって、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、第1のメタデータパラメータを含む、
空間オーディオの表現を受信し、
第1のメタデータを用いて単一チャネル又はマルチチャネルのダウンミックスオーディオ信号をビットストリームに符号化するか、或いは
単一チャネル又はマルチチャネルのダウンミックスオーディオ信号及び第1のメタデータを符号化してビットストリームにする、
ように構成される、
エンコーダが提供される
【0061】
(V.概要-デコーダ)
第5の態様によれば、空間オーディオの表現を復号化するためのデコーダが提供される。
【0062】
例示的実施形態によれば、
空間オーディオの符号化された表現であって、
表現は、
空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号をダウンミックスすることによって作り出される単一チャネル又はマルチチャネルのダウンミックスオーディオ信号、及び
ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータであって、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、第1のメタデータパラメータを含む、
空間オーディオの符号化された表現を示すビットストリームを受信し、
第1のメタデータパラメータを使用することによって、ビットストリームを空間オーディオの近似に復号化する、
ように構成される、
デコーダが提供される。
【0063】
(VI.概要-レンダラ)
第6の態様によれば、空間オーディオの表現をレンダリングするためのレンダラが提供される。
【0064】
例示的実施形態によれば、
空間オーディオの表現であって、
表現は、
空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号をダウンミックスすることによって作り出される単一チャネル又はマルチチャネルのダウンミックスオーディオ信号、及び
ダウンミックスオーディオ信号と関連付けられる第1のメタデータパラメータであって、各入力オーディオ信号と関連付けられる相対時間遅延値、利得値、及び位相値のうちの1つ又はそれよりも多くを示す、第1のメタデータパラメータを含む、
空間オーディオの表現を受信し、
第1のメタデータを使用して空間オーディオをレンダリングする、
ように構成される、
レンダラが提供される。
【0065】
(VII.概要-一般的)
第2乃至第6の態様は、一般的に、第1の態様と同じ構成及び利点を有することがある。
【0066】
本発明の他の目的、構成及び利点は、以下の詳細な記述から、添付の従属項から、並びに図面から明らかである。
【0067】
本明細書に開示するいずれかの方法のステップは、明示的に記載されない限り、開示の正確な順序で行われなくてよい。
【0068】
(VIII.例示的な実施形態)
上述のように、空間オーディオの取込み(キャプチャ)及び表現は、取り込まれるオーディオが受信端で忠実に再生され得るように、特定のセットのチャレンジを提示する。本明細書に記載する本発明の様々な実施形態は、ダウンミックスオーディオ信号を送信するときに、ダウンミックスオーディオ信号と共に様々なメタデータパラメータを含めることによって、これらの問題の様々な側面に対処する。
【0069】
本発明は、一例として、MASAオーディオフォーマットを参照して記載される。しかしながら、本発明の一般的な原理はオーディオを表現するために使用されることがある広範囲のフォーマットに適用可能であること及び本明細書中の記述はMASAに限定されないことを認識することが重要である。
【0070】
更に、以下に記載するメタデータパラメータは、メタデータパラメータの完全なリストでないが、オーディオを符号化、復号化、及びレンダリングするときに使用される様々なデバイスにダウンミックスオーディオ信号に関するデータを伝達するために使用することができる追加的なメタデータパラメータ(又はメタデータパラメータのより小さなサブセット)があってよいことが認識されるべきである。
【0071】
また、本明細書中の例は、IVASエンコーダの文脈で記載されるが、これは本発明の一般原理を適用することができるエンコーダの1つのタイプに過ぎないこと、並びに本明細書に記載する様々な実施形態と共に使用されることがある多くの他のタイプのエンコーダ、デコーダ、及びレンダラがあってよいことが留意されるべきである。
【0072】
最後に、「アップミキシング(upmixing)」及び「ダウンミキシング(downmixing)」という用語が本文書を通じて用いられるが、それらは必ずしもチャネル数の増加及び減少をそれぞれ意味しないことがある。これはしばしば起こることがあるが、いずれの用語もチャネル数の減少又は増加のいずれかを意味し得ることが認識されるべきである。よって、両方の用語は、より一般的な「ミキシング(mixing)」の概念に入る。同様に、「ダウンミックスオーディオ信号(downmix audio signal)」という用語は、本明細書を通じて使用されるが、時には、「MASAチャネル(MASA channel)」、「トランスポートチャネル(transport channel)」又は「ダウンミックスチャネル(downmix channel)」のような、他の用語が使用されることがあり、それらの全ては、「ダウンミックスオーディオ信号(downmix audio signal)」と本質的に同じ意味を有することが認識されるべきである。
【0073】
ここで、
図1を参照すると、1つの実施形態に従って、空間オーディオを表現するための方法100が記載される。
図1に見ることができるように、方法は、オーディオ取込みデバイスを使用して空間オーディオを取り込むによって開始する(ステップ102)。
図2は、例えば、携帯電話又はタブレットコンピュータのようなオーディオ取込みデバイス202(audio capturing device)が、例えば、拡散周囲源204(diffuse ambient source)とトーカ(talker)のような指向性音源206(directional source)とからのオーディオをキャプチャする(取り込む)、サウンド環境200(sound environment)の概略図を示している。例示の実施形態において、オーディオ取込みデバイス202は、3つのマイクロホンm1、m2、m3をそれぞれ有する。
【0074】
指向性サウンドは、方位角と仰角とによって表される到達方向(direction of arrival)(DOA)から入射する。拡周囲サウンドは、全方向性、すなわち、空間的に不変又は空間的に均一であると推定される。また、後続の議論では、
図2には示されていない第2の指向性音源の潜在的な発生も考慮される。
【0075】
次に、マイクロホンからの信号をダウンミックスして単一チャネル又はマルチチャネルのダウンミックスオーディオ信号を作り出す(ステップ104)。モノダウンミックスオーディオ信号のみを伝搬させる多くの理由がある。例えば、ビーム形成及び等化又はノイズ抑制のような特定の専有の強化が行われた後に、高品質のモノダウンミックスオーディオ信号を利用可能にする意図又はビットレート制限があってよい。他の実施形態において、ダウンミックスは、マルチチャネルダウンミックスオーディオ信号をもたらす。一般的に、ダウンミックスオーディオ信号中のチャネルの数は、入力オーディオ信号の数よりも少ないが、幾つかの場合には、ダウンミックスオーディオ信号中のチャネルの数は、入力オーディオ信号の数と等しくてよく、ダウンミックスは、むしろ増大したSNRを達成するか、或いは入力オーディオ信号と比較して、結果として生じるダウンミックスオーディオ信号中のデータ量を減少させる。これは以下で更に詳しく説明される。
【0076】
MASAメタデータの一部としてダウンミックス中に使用される関連するパラメータをIVASコーデックに伝搬させることは、ステレオ信号及び/又は空間ダウンミックスオーディオ信号を最良の可能な忠実度で復元する可能性をもたらすことがある。
【0077】
このシナリオでは、以下のダウンミックス操作によって単一のMASAチャネルが得られる。
【数2】
【0078】
信号m及びxは、様々な処理段階の間に、必ずしもフルバンド時間信号として表現されないことがあるが、場合によっては時間又は周波数領域(TFタイル)内の様々なサブバンドの成分信号としても表現されないことがある。その場合、それらは最終的に再結合され、IVASコーデックに伝搬される前に時間領域に潜在的に変換される。
【0079】
オーディオ符号化/復号化システムは、典型的には、例えば、入力オーディオ信号に適切なフィルタバンク(filter banks)を適用することによって、時間-周波数空間を時間/周波数タイル(time/frequency tile)に分割する。時間/周波数タイルは、一般的に、時間間隔及び周波数帯域に対応する時間-周波数空間の一部を意味する。時間間隔は、典型的には、オーディオ符号化/復号化システムにおいて使用される時間フレームの持続時間に対応することがある。周波数帯域は、符号化又は復号化されるオーディオ信号/オブジェクトの全周波数範囲の一部である。周波数帯域は、典型的には、符号化/復号化システムにおいて使用されるフィルタバンクによって定義される1つ又は幾つかの隣接する周波数帯域に対応することがある。周波数帯域がフィルタバンクによって定義される幾つかの隣接する周波数帯域に対応する場合、これは、ダウンミックスオーディオ信号の復号化プロセスにおいて不均一な周波数帯域、例えば、ダウンミックスオーディオ信号のより高い周波数のためのより広い周波数帯域を有することを可能にする。
【0080】
単一のMASAチャネルを使用する実装では、ダウンミックス行列Dをどのように定義し得るかについて少なくとも2つの選択肢がある。1つの選択肢は、指向性サウンドに関して最良の信号対雑音比(SNR)を有するマイクロホン信号を選択することである。
図2に示す構成では、マイクロホンm1は、最良の信号を取り込む可能性が高い。何故ならば、それは指向性音源に向かって方向付けられているからである。次に、他のマイクロホンからの信号を廃棄することができる。その場合、ダウンミックス行列は、以下のようになり得る。
【数3】
【0081】
音源がオーディオ取込みデバイスに対して移動する間に、いずれかの信号m2又はm3が結果として生じるMASAチャネルとして使用されるように、別のより適切なマイクロホンを選択することができる。
【0082】
マイクロホン信号を切り替えるときには、MASAチャネル信号が如何なる潜在的な不連続性を被らないようにすることが重要である。不連続性は、異なるマイクでの指向性音源の異なる到達時間に起因して、或いは音源からマイクへの音響経路の異なる利得又は位相特性に起因して発生し得る。結果的に、異なるマイクロホン入力の個々の遅延、利得及び位相特性は分析さらえて、補償されなければならない。従って、実際のマイクロホン信号は、MASAダウンミックスの前に、特定の何らかの遅延調整及びフィルタリング操作を受けてよい。
【0083】
別の実施形態において、ダウンミックス行列の係数は、指向性音源に関するMASAチャネルのSNRが最大化されるように設定される。これは、例えば、適切に調整された重みk1,1、k1,2、k1,3を有する異なるマイクロホン信号を加えることによって達成されることができる。この作業を効果的な方法で行うためには、異なるマイクロホン入力の個々の遅延、利得及び位相特性を再び分析して補償しなければならず、それも指向性音源に向かう音響ビーム形成として理解されることができる。
【0084】
利得/位相調整は、周波数選択性フィルタリング操作として理解されなければならない。よって、対応する調整は、例えば、ウィナーアプローチに従って、音響ノイズ削減又は指向性サウンド信号の増強を達成するために最適化されてもよい。
【0085】
更なる変形として、3つのMASAチャネルを持つ例があってよい。その場合には、以下の3×3行列によってダウンミックス行列Dを定義することができる。
【数4】
【0086】
結果的に、今や(最初の例における1つの信号でなく)IVASコーデックで符号化し得る3つの信号x1、x2、x3がある。
【0087】
第1のMASAチャネルは、第1の例に記載されるに生成されてよい。第2の指向性サウンドがあるならば、第2のMASAチャネルを使用して第2の指向性サウンドを伝えることができる。しかしながら、その場合、ダウンミックスマトリックス係数は、第2の指向性サウンドのSNRが最大化されるように、第1のMASAチャネルと類似の原理に従って選択されることができる。第3のMASAチャネルについてのダウンミックスマトリックス係数k3,1、k3,2、k3,3は、指向性サウンドを最小限に抑えながら拡散サウンド成分を抽出するように構成されてよい。
【0088】
典型的には、
図2に示すように並びに上述のように、幾つかの周囲サウンドの存在の下での支配的な指向性音源のステレオキャプチャが行われてよい。これは、特定の使用事例、例えば、電話通信において、頻繁に起こることがある。本明細書に記載する様々な実施形態によれば、メタデータパラメータも、ダウンミキシングスステップ104と共に決定され、それらは引き続き単一のモノダウンミックスオーディオ信号に追加され、それと共に伝搬される。
【0089】
1つの実施形態では、3つの主要なメタデータパラメータ、すなわち、相対時間遅延値、利得値、及び位相値が、各々の取り込まれるオーディオ信号と関連付けられる。一般的なアプローチによれば、MASAチャネルは、以下の操作に従って取得される。
● 量τi=Δτi+τrefだけの各マイクロホン信号mi(i=1,2)の遅延調整。
● それぞれ利得及び位相調整パラメータα及びφだけの各遅延調整マイクロホン信号の各時間周波数(TF)成分/タイルの利得及び位相調整。
【0090】
上記式中の遅延調整項τiは、指向性音源の方向からの平面音波の到達時間として解釈されることができ、よって、それはオーディオ取込みデバイス202の幾何学的中心のような基準点τrefでの音波の到達時間に対する到達時間として便利に表わされることもできるが、任意の基準点が使用されることができる。例えば、2つのマイクロホンが使用されるとき、遅延調整は、基準点を第2のマイクロホンの位置に移動させことに等しい、τ1とτ2との間の差として定式化されることができる。1つの実施形態において、到達時間パラメータは、約68cmの原点に対するマイクロホンの最大変位に対応する[-2.0ms、2.0ms]の間隔で相対到達時間をモデリングすることを可能にする。
【0091】
利得及び位相調整に関して、1つの実施形態において、それらは、利得変化を[+10dB、-30dB]の範囲内でモデル化し得る一方で、位相変化を[-Pi、+Pi]の範囲内で表現し得るように、各TFタイルについてパラメータ化される。
【0092】
図2に示す音源206のような単一の支配的な指向性音源のみを有する基本的な場合において、遅延調整は、典型的には、全周波数スペクトルに亘って一定である。指向性音源206の位置は変化することがあるので、(各マイクロホンについて1つの)2つの遅延調整パラメータは、時間の経過に亘って変化する。よって、遅延調整パラメータは、信号に依存する。
【0093】
複数の指向性音源206があるより複雑な場合、第1の方向からの1つの音源は、特定の周波数帯域において支配的であり得る一方で、他の方向からの異なる音源は、別の周波数帯域において支配的であることがある。そのようなシナリオにおいて、遅延調整は、代わりに、各周波数帯域について有利に実行される。
【0094】
1つの実施形態において、これは支配的であると認められるサウンド方向に関して所与の時間-周波数(TF)タイル内でマイクロホン信号を遅延補償することによって行われることができる。支配的なサウンド方向がTFタイルにおいて検出されないならば、遅延補償は実行されない。
【0095】
異なる実施形態では、全てのマイクロホンによって取り込まれるように、指向性サウンドに関して信号対雑音比(SNR)を最大化するという目標で、所与のTFタイル内のマイクロホン信号を遅延補償することができる。
【0096】
1つの実施形態では、遅延補償を行うことができる異なる音源の適切な限界は、3である。これは3つの主要な音源のうちの1つに関してTFタイルにおける遅延補償を行うか或いは全く行わないかのいずれかの可能性をもたらす。よって、TFタイル当たり2ビットのみによって対応するセットの遅延補償値(セットは全てのマイクロホン信号に適用される)を信号化することができる。これは最も実際的に関連するキャプチャシナリオをカバーし、メタデータの量又はそれらのビットレートは低いままであるという利点を有する。
【0097】
別の可能なシナリオは、ステレオ信号ではなく一次アンビソニックス(First Order Ambisonics)(FOA)信号が取り込まれ、例えば、単一のMASAチャネルにダウンミックスされる場合である。FOAの概念は、当業者によく知られているが、三次元360度オーディオを記録し、ミキシングし、且つ再生する方法として簡単に記載されることができる。アンビソニックスの基本的なアプローチは、録音中にマイクロホンが置かれている或いは再生中に聴取者の「スイートスポット(sweet spot)」が置かれている中心点の周りの異なる方向から来る完全な360度の音の球として、オーディオシーンを取り扱うことである。
【0098】
単一のMASAチャネルにダウンミックスした平面FOA及びFOAキャプチャは、上述のステレオキャプチャ事例の比較的単純な拡張である。平面FOAの事例は、ダウンミックスの前にキャプチャを行う、
図2に示すようなマイクロホントリプルによって特徴付けられる。後者のFOAの場合、取込みは、4つのマイクロホンで行われ、その配置又は方向選択性は、全ての3つの空間次元に及ぶ。
【0099】
遅延補償、振幅及び位相調整パラメータを用いて、それぞれ3つ又は4つの元のキャプチャ信号を復元することができ、モノダウンミックス信号だけに基づいて可能であるよりも忠実なMASAメタデータを用いた空間レンダリングを可能にすることができる。代替的に、遅延補償、振幅及び位相調整パラメータを使用して、規則的なマイクロホン格子(グリッド)で取り込まれるものにより近づく、より正確な(平面)FOA表現を生成することができる。
【0100】
更に別のシナリオでは、平面FOA又はFOAが取り込まれ、2つ又はそれよりも多くのMASAチャネルにダウンミックスされてよい。この事例は、取り込まれる3つ又は4つのマイクロホン信号が、ただ1つのMASAチャネルよりもむしろ2つのMASAチャネルにダウンミックスされるという相違を伴う前の事例の拡張である。同じ原理が適用され、その場合、遅延補償、振幅及び位相調整パラメータを提供する目的は、ダウンミックスの前に、元の信号の最良の可能な再構成を可能にすることである。
【0101】
熟練した読者が認識するように、全てのこれらの使用シナリオに順応するために、空間オーディオの表現は、遅延、利得及び位相についてのメタデータのみならず、ダウンミックスオーディオ信号のためのダウンミックス構成を示すパラメータについてのメタデータも含む必要がある。
【0102】
次に
図1に戻ると、決定されたメタデータパラメータは、ダウンミックスオーディオ信号と結合されて、空間オーディオの表現になり(ステップ108)、それはプロセス100を終了させる。以下は、これらのメタデータパラメータを本発明の1つの実施形態に従ってどのように表すことができるかの記述である。
【0103】
単一又は複数のMASAチャネルにダウンミックスした上述の使用事例をサポートするために、2つのメタデータ要素が使用される。1つのメタデータ要素は、ダウンミックスを示す、信号に依存しない構成のメタデータである。このメタデータ要素は、
図3A~
図3Bと関連して以下に記載される。他のメタデータ要素は、ダウンミックスと関連付けられる。このメタデータ要素は、
図4~
図6に関連して以下に記載され、
図1に関連して上述されたように決定されてよい。このメタデータ要素は、ダウンミックスが合図されるときに必要とされる。
【0104】
図3Aに示す表1Aは、MASAチャネルの数を、単一の(モノ)MASAチャネルから、2つの(ステレオ)MASAチャネルに亘って、チャネルビット値00、01、10、及び11によってそれぞれ表される、最大4つのMASAチャネルまで示すために使用することができる、メタデータ構造である。
【0105】
図3Bに示す表1Bは、表1Aからのチャネルビット値を含み(この特定の場合には、チャネル値「00」及び「01」のみが例示的な目的のために示されている)、マイクロホンキャプチャ構成をどのように表すことができるかを示している。例えば、単一の(モノ)MASAチャネルについて、表1Bに見ることができるように、キャプチャ構成がモノ、ステレオ、平面FOA又はFOAであるかが信号化される(知らされる)(signaled)ことができる。表1Bに更に見ることができるように、マイクロホンキャプチャ構成は、(ビット値と名付けられた列内に)2ビットフィールドとしてコード化される。表1Bは、メタデータの追加的な記述も含む。更なる信号に依存しない構成は、例えば、オーディオがスマートフォン又は類似のデバイスのマイクロフォングリッドに由来したことを表している。
【0106】
ダウンミックスメタデータが信号に依存する場合、次に記載するように、幾つかの更なる詳細が必要とされる。特定の場合について、表1Bに示されているように、トランスポート信号がマルチマイクロホン信号のダウンミックスを通じて得られるモノ信号であるとき、これらの詳細は、信号依存メタデータフィールドにおいて提供される。そのメタデータフィールドにおいて提供される情報は、ダウンミックスの前に、(指向性音源に向かう音響ビーム形成の可能な目的での)適用される遅延調整及び(等化/ノイズ抑制の可能な目的での)マイクロホン信号のフィルタリングを記述する。これは、符号化、復号化、及び/又はレンダリングに利益を与え得る追加的な情報を提供する。
【0107】
1つの実施形態において、ダウンミックスメタデータは、4つのフィールド、すなわち、適用される遅延補償を信号化する(知らせる)ための定義フィールド及びセレクタフィールドを含み、適用される利得及び位相調整をそれぞれ信号化するための2つのフィールドがそれぞれ続く。
【0108】
ダウンミックスされたマイク信号の数nは、表1Bの「ビット値」フィールドによって信号化される、すなわち、ステレオダウンミックスについてはn=2(「ビット値=01」)、平面FOAダウンミックスについてはn=3(「ビット値=10」)、FOAダウンミックスについてはn=4(「ビット値=11」)によって信号化される。
【0109】
n個までのマイクロホン信号について3つまでの異なるセットの遅延補償値をTFタイル毎に定義し、信号化することができる。各セットは、指向性音源の方向のそれぞれである。どのセットがどのTFタイルに適用されるかの信号化及び遅延補償値のセットの定義は、2つの別個の(定義及びセレクタ)フィールドで行われる。
【0110】
1つの実施形態において、定義フィールドは、適用される遅延補償Δτ
i,jを符号化する8ビット要素B
i,jを有するx3行列である。これらのパラメータは、それらが属するセットのそれぞれ、すなわち、指向性音源の方向のそれぞれである(j=1...3)。8ビット要素は、更に、取込みマイクロホン(又は関連するキャプチャ信号)のそれぞれである(i=1...n,n≦4)。これは
図4に示す表2に概略的に例示されている。
【0111】
よって、
図4は、
図3と共に、空間オーディオの表現が、定義フィールド及びセレクタフィールドに編成されるメタデータパラメータを含む、ある実施形態を示している。定義フィールドは、複数のマイクロホンと関連付けられた少なくとも1つの遅延補償パラメータセットを指定し、セレクタフィールドは、遅延補償パラメータセットの選択を指定する。有利には、マイクロホン間の相対時間遅延値の表現は、コンパクトであり、よって、後続のエンコーダ又は類似のものに送信されるとき、より少ないビットレートを必要とする。
【0112】
遅延補償パラメータは、オーディオ取込みデバイス202の(無作為の)幾何学的中心点での波の到達と比較した、音源の方向からの推定される平面音波の相対到達時間を表す。8ビット整数コード語Bによるそのパラメータのコーディングは、以下の式(Equation No. (1))に従って行われる。
【数5】
【0113】
これは約68cmの原点に対するマイクロホンの最大変位に対応する[-2.0ms、2.0ms]の間隔において線形に相対遅延パラメータを量子化する。これは、もちろん、単なる一例であり、他の量子化特性及び解決策(solutions)も考慮されてよい。
【0114】
遅延補償値のどのセットがどのTFタイルに適用されるかの信号化が、24周波数帯域及び20msフレーム内の4サブフレームを想定する20msフレーム内の4×24TFタイルを表すセレクタフィールドを用いて行われる。各フィールド要素は、それぞれのコード「01」、「10」、「11」を備える遅延補償値の2ビットエントリ符号化セット1...3を含む。遅延補償がTFタイルに適用されないならば、「00」エントリが使用される。これは
図5に示す表3に概略的に例示されている。
【0115】
利得調整は、マイクロホン毎に1つずつ、2~4のメタデータフィールドにおいて行われる。各フィールドは、20msフレーム内の4×24TFタイルについてそれぞれ、8ビット利得調整コードB
αの行列である。整数コード語B
αを用いた利得調整パラメータのコーディングは、以下の式(Equation No. (2))に従って行われる。
【数6】
【0116】
各マイクロホンについての2~4のメタデータフィールドは、
図6に示す表4に示すように編成される。
【0117】
位相調整は、マイクロホン毎に1つずつ、2~4のメタデータフィールドにおける利得調整と同様に信号化される。各フィールドは、20msフレームの4×24TFタイルについてそれぞれ、8ビット位相調整コードBφの行列である。整数コード語Bφを用いた位相調整パラメータのコーディングは、以下の式(Equation No. (3))に従って行われる
【数7】
【0118】
各マイクロホンの2~4についてのメタデータフィールドは、表4に示すように編成され、唯一の相違点は、フィールド要素が位相調整コード語Bφであることである。
【0119】
次に、記録された空間サウンド環境を送信し、受信し、且つ忠実に復元するために使用されるエンコーダ、デコーダ、レンダラ及び他のタイプのオーディオ機器によって、関連するメタデータを含むMASA信号のこの表現を使用することができる。これを行うための技法は、当業者によってよく知られており、本明細書に記載する空間オーディオの表現に適合するように容易に適合させられることができる。従って、これらの特定のデバイスに関する更なる議論は、この脈絡において必要でないとみなされる。
【0120】
当業者によって理解されるように、上述のメタデータ要素は、異なる方法で存在してよく、或いは決定されてよい。例えば、メタデータは、(オーディオ取込みデバイス、エンコーダデバイスなどのような)デバイス上でローカルに決定されてよく、他のデータから(例えば、クラウド又はその他の遠隔サービスから)導出されてよく、或いは所定の値のテーブルに格納されてよい。例えば、マイクロホン間の遅延調整に基づいて、マイクロホンについての遅延補償値(
図4)は、オーディオ取込みデバイスで格納されるルックアップテーブルによって決定されてよく、或いはオーディオ取込みデバイスで行われた遅延調整計算に基づいて遠隔デバイスから受信されてよく、或いはその遠隔デバイスで行われる遅延調整計算に基づいて(すなわち、入力信号に基づいて)そのような遠隔デバイスから受信されてよい。
【0121】
図7は、本発明の上述の構成を実装することができる例示的な実施形態によるシステム700を示している。システム700は、オーディオ取込みデバイス202と、エンコーダ704と、デコーダ706と、レンダラ708とを含む。システム700の異なるコンポーネントは、有線もしくは無線接続、又はそれらの任意の組み合わせを通じて、互いに通信することができ、データは、典型的には、ビットストリームの形態においてユニット間で送信される。オーディオ取込みデバイス202は、
図2と関連して上述されており、指向性サウンドと拡散サウンドとの組み合わせである空間オーディオを取り込むように構成される。オーディオ取込みデバイス202は、空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号をダウンミックスすることによって、単一チャネル又はマルチチャネルのダウンミックスオーディオ信号を作り出す。次に、オーディオ取込みデバイス202は、ダウンミックスオーディオ信号と関連する第1のメタデータパラメータを決定する。これは
図8と関連して以下に更に説明される。第1のメタデータパラメータは、各入力オーディオ信号と関連する相対時間遅延値、利得値、及び/又は位相値を示す。最後に、オーディオ取込みデバイス202は、ダウンミックスオーディオ信号と第1のメタデータパラメータとを結合させて空間オーディオの表現にする。現在の実施形態において、全てのオーディオ取込み及び結合は、オーディオ取込みデバイス202で行われるが、作り出す操作、決定する操作、及び結合させる操作の特定の部分がエンコーダ704で行われる、代替的な実施形態があってよい。
【0122】
エンコーダ704は、オーディオ取込みデバイス202から空間オーディオの表現を受信する。すなわち、エンコーダ704は、空間オーディオを取り込むオーディオキャプチャユニット内の複数のマイクロホンからの入力オーディオ信号のダウンミックスから生じる単一チャネル又はマルチチャネルのダウンミックスオーディオ信号と、入力オーディオ信号についてのダウンミックス構成、各入力オーディオ信号に関連する相対時間遅延値、利得値、及び/又は位相値を示す、第1メタデータパラメータとを含む、データフォーマットを受信する。データフォーマットは、エンコーダによって受信される前/後に非一時メモリに格納されてよいことが留意されるべきである。次に、エンコーダ704は、第1のメタデータを使用して、単一チャネル又はマルチチャネルのダウンミックスオーディオ信号を符号化してビットストリームにする。幾つかの実施形態において、エンコーダ704は、上述のように、IVASエンコーダであり得るが、当業者が認識するように、他のタイプのエンコーダ704が類似の能力を有してよく、或いは使用することが可能であってもよい。
【0123】
空間オーディオのコード化された表現を示す符号化ビットストリームは、次に、デコーダ706によって受信される。デコーダ706は、エンコーダ704からのビットストリームに含まれるメタデータパラメータを使用することによって、ビットストリームを空間オーディオの近似に復号化する。最後に、レンダラ708は、空間オーディオの復号化された表現を受信し、メタデータを用いて空間オーディオをレンダリングして、例えば、1つ又はそれよりも多くのスピーカによって、受信端で空間オーディオの忠実な再生を作り出す。
【0124】
図8は、幾つかの実施形態に従ったオーディオ取込みデバイス202を示している。オーディオ取込みデバイス202は、一部の実施形態において、第1及び/又は第2のメタデータを決定するための格納されたルックアップテーブルを備えるメモリ802を含んでよい。オーディオ取込みデバイス202は、一部の実施形態において、(クラウド内に配置されてよい或いはオーディオ取込みデバイス202に接続される物理的デバイスであってよい)遠隔デバイス804に接続されてよく、遠隔デバイス804は、第1及び/又は第2のメタデータを決定するための格納されたルックアップテーブルを備えるメモリ806を含んでよい。オーディオ取込みデバイスは、幾つかの実施形態において、例えば、各入力オーディオ信号と関連する相対時間遅延値、利得値、及び位相値を決定するために、(例えば、プロセッサ803を使用して)必要な計算/処理を行い、そのようなパラメータを遠隔デバイスに送信して、このデバイスから第1及び/又は第2のメタデータを受信してよい。他の実施形態において、オーディオ取込みデバイス202は、入力信号を遠隔デバイス804に送信し、遠隔デバイス804は、(例えば、プロセッサ805を用いて)必要な計算/処理を行い、オーディオ取込みデバイス202に戻す送信のための第1及び/又は第2のメタデータを決定する。更に別の実施形態において、必要な計算/処理を行う遠隔デバイス804は、パラメータをオーディオ取込みデバイス202に送信して戻し、オーディオ取込みデバイス202は、(例えば、格納されるルックアップテーブルを備えるメモリ806の使用によって)受信したパラメータに基づいてローカルに第1及び/又は第2のメタデータをローカルに決定する。
【0125】
図9は、実施形態に従った、(それぞれが様々な処理、例えば、復号化、レンダリングなどを行うためのプロセッサ910、912を含む)デコーダ706及びレンダラ708を示している。デコーダ及びレンダラは、別個のデバイスであってよく、或いは同じデバイス内にあってよい。(複数の)プロセッサ910、912は、デコーダとレンダラ又は別個のプロセッサとの間で共有されてよい。
図8に関連して記載するのと同様に、第1及び/又は第2のメタデータの解釈は、デコーダ706にあるメモリ902、レンダラ708にあるメモリ904、又はデコーダもしくはレンダラのいずれかに接続される(プロセッサ908を含む)遠隔デバイス905にあるメモリ906のいずれかに格納されるルックアップテーブルを使用して行われてよい。
【0126】
(均等物、拡張物、代替物及びその他)
本開示の更なる実施形態は、上記の記述を研究した後に、当業者に明らかになるであろう。本記述及び図面は、実施形態及び例を開示するが、本開示は、これらの特定の例に限定されない。添付の特許請求の範囲によって定義される本開示の範囲から逸脱することなく、多数の修正及び変形を行うことができる。請求項中に現れる参照符号は、それらの範囲を限定するものとして理解されてならない。
【0127】
加えて、当業者は、本開示を実施する際に、図面、本開示、及び添付の特許請求の範囲の研究から開示の実施形態に対する変形を理解し、実施することができる。請求項において、「含む」という語は、他の要素又はステップを除外せず、単数形の表現は、複数を除外しない。特定の手段が相互に異なる従属項において引用されているという単なる事実は、これらの手段の組み合わせを有利に使用し得ないことを示さない。
【0128】
上記で開示するシステム及び方法は、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせとして実装されてよい。ハードウェアの実装において、上記の記述において言及される機能的ユニット間のタスクの分割は、必ずしも物理的ユニットへの分割に対応しない。逆に、1つの物理的コンポーネントは、複数の機能性を有してよく、1つのタスクは、複数の物理的コンポーネントによって協働において実行されてよい。特定のコンポーネント又は全てのコンポーネントは、デジタル信号プロセッサ又はマイクロプロセッサによって実行されるソフトウェアとして実装されてよく、或いはハードウェアとして又は特定用途向け集積回路として実装されてよい。そのようなソフトウェアは、コンピュータ記憶媒体(又は非一時的媒体)と通信媒体(又は一時的媒体)とを含むことがあるコンピュータ可読媒体上で分散されてよい。当業者によく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラムモジュール又は他のデータのような、情報の格納のための任意の方法又は技術で実施される、揮発性及び不揮発性、取外可能及び取外不能な媒体の両方を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ又は他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)又は他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置又は他の磁気記憶装置、又は所望の情報を記憶するために使用することができ且つコンピュータによってアクセスすることができる任意の他の媒体を含むが、それらに限定されない。更に、通信媒体が、典型的には、搬送波又は他の輸送機構のような変調されたデータ信号においてコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータを具現し、任意の情報送達媒体を含むことが、当業者によく知られている。
【0129】
全ての図は概略的であり、一般的に、本開示を解明するために必要な部分のみを示すのに対し、他の部分は、省略されることがあり、或いは単に示唆されることがある。特に断りのない限り、同等の参照番号は、異なる図において同等の部分を指す。