IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ノキア テクノロジーズ オサケユイチアの特許一覧

<>
  • 特許-空間オーディオ表現およびレンダリング 図1
  • 特許-空間オーディオ表現およびレンダリング 図2
  • 特許-空間オーディオ表現およびレンダリング 図3
  • 特許-空間オーディオ表現およびレンダリング 図4
  • 特許-空間オーディオ表現およびレンダリング 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-18
(45)【発行日】2024-11-26
(54)【発明の名称】空間オーディオ表現およびレンダリング
(51)【国際特許分類】
   H04S 7/00 20060101AFI20241119BHJP
   H04S 1/00 20060101ALI20241119BHJP
【FI】
H04S7/00 300
H04S1/00 500
【請求項の数】 14
(21)【出願番号】P 2022521323
(86)(22)【出願日】2020-09-29
(65)【公表番号】
(43)【公表日】2022-12-16
(86)【国際出願番号】 FI2020050639
(87)【国際公開番号】W WO2021069793
(87)【国際公開日】2021-04-15
【審査請求日】2022-06-08
(31)【優先権主張番号】1914712.3
(32)【優先日】2019-10-11
(33)【優先権主張国・地域又は機関】GB
【前置審査】
(73)【特許権者】
【識別番号】515076873
【氏名又は名称】ノキア テクノロジーズ オサケユイチア
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100108903
【弁理士】
【氏名又は名称】中村 和広
(74)【代理人】
【識別番号】100114018
【弁理士】
【氏名又は名称】南山 知広
(72)【発明者】
【氏名】ユハ ビルカモ
(72)【発明者】
【氏名】ミッコ-ビッレ ライティネン
【審査官】川▲崎▼ 博章
(56)【参考文献】
【文献】特表2013-541275(JP,A)
【文献】国際公開第2019/193248(WO,A1)
【文献】国際公開第2018/079254(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 7/00
H04S 1/00
(57)【特許請求の範囲】
【請求項1】
少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備えた装置であって、該装置は、少なくとも、
空間オーディオ信号を受信するステップであって、該空間オーディオ信号は、少なくとも1つのオーディオ信号と、前記少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを含む、ステップと、
室内効果制御標示を取得するステップと、
前記室内効果制御標示に基づいて、室内効果が前記少なくとも1つのオーディオ信号に適用されるべきかどうかを決定するステップと、
を実行するように構成され、
該装置は、さらに、前記室内効果が空間オーディオ信号に適用されるべきときに、
前記少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成するステップと、
前記少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するステップであって、少なくとも第2部分バイノーラルオーディオ信号は、前記第1部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果で生成されるものである、ステップと、
結合バイノーラルオーディオ信号を生成するために、前記第1部分バイノーラルオーディオ信号と前記第2部分バイノーラルオーディオ信号とを結合するステップと、
を実行するように構成され、
前記第1部分バイノーラルオーディオ信号を生成した前記装置は、さらに、
少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定するために、前記少なくとも1つのオーディオ信号を分析するステップと、
前記少なくとも1つのオーディオ信号に関連する前記少なくとも1つの確率的特性にさらに基づいて、前記第1部分バイノーラルオーディオ信号を生成するステップと、
を実行するように構成され、
前記少なくとも1つのオーディオ信号は、少なくとも2つのオーディオ信号を含み、
前記少なくとも1つのオーディオ信号は、該装置に、前記少なくとも2つのオーディオ信号間の共分散を推定させる前記少なくとも1つの確率的特性を決定するために、解析され、
前記少なくとも1つの確率的特性にさらに基づいて、前記第1部分バイノーラルオーディオ信号を生成した前記装置は、さらに、
前記少なくとも2つのオーディオ信号間の推定共分散に基づいてミキシング係数を生成するステップと、
最初のパートのバイノーラルオーディオ信号を生成するために、混合係数に基づいて少なくとも2つのオーディオ信号を混合するステップと、
を実行するように構成され、
前記装置は、さらに、
前記推定共分散に基づく総合エネルギー推定値を生成するステップと、
少なくとも1つの方向パラメータに基づいて頭部伝達関数データを決定するステップであって、前記空間メタデータは少なくとも1つの方向パラメータを含む、ステップと、
前記頭部伝達関数データと、前記空間メタデータと、全体エネルギー推定とに基づいて、目標共分散を決定するステップと、
を実行するように構成される、
装置
【請求項2】
前記空間メタデータは少なくとも1つの方向パラメータを含み、
前記装置は、前記少なくとも1つのオーディオ信号および前記少なくとも1つの方向パラメータに基づいて前記第1部分バイノーラルオーディオ信号を生成する、
請求項1に記載の装置。
【請求項3】
前記空間メタデータは、少なくとも1つの比率パラメータを含み、
前記装置は、前記少なくとも1つのオーディオ信号および前記少なくとも1つの比率パラメータに基づいて前記第2部分バイノーラルオーディオ信号を生成する、
請求項1に記載の装置。
【請求項4】
前記少なくとも1つの方向パラメータは、周波数帯域に関連する方向である、請求項2に記載の装置。
【請求項5】
前記混合係数は、目標共分散に基づいて生成される、請求項1に記載の装置。
【請求項6】
前記第2部分バイノーラルオーディオ信号を生成した前記装置は、さらに、残響器を前記少なくとも1つのオーディオ信号に適用するステップを実行するように構成される、請求項1に記載の装置。
【請求項7】
前記室内効果制御標示を取得した前記装置は、さらに、
前記空間オーディオ信号のエンコーダによってセットされたフラグとして前記室内効果制御標示を受信するステップと、
ユーザ入力として前記室内効果制御標示を受信するステップと、
空間音声信号のタイプを示す指標を得ることに基づいて前記室内効果制御標示を決定するステップと、
空間音声信号のタイプを決定するために、前記空間音声信号の分析に基づいて前記室内効果制御標示を決定するステップと、
のうちの少なくとも1つを実行する、
請求項1に記載の装置。
【請求項8】
前記少なくとも1つのオーディオ信号は、エンコーダによって生成された少なくとも1つの搬送オーディオ信号である、請求項1に記載の装置。
【請求項9】
空間オーディオ信号を受信するステップであって、前記空間オーディオ信号は、
少なくとも1つのオーディオ信号と、前記少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを備える、ステップと、
室内効果制御標示を取得するステップと、
室内効果制御標示に基づいて、室内効果が前記少なくとも1つのオーディオ信号に適用されるべきかどうかを決定するステップと、
前記室内効果が空間オーディオ信号に適用されるとき、前記少なくとも1つのオーディオ信号および空間メタデータに基づいて、第1部分バイノーラルオーディオ信号を生成するステップと、
前記室内効果が空間オーディオ信号に適用されるとき、前記少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するステップであって、少なくとも第2部分バイノーラルオーディオ信号は、前記第1部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果で生成されるものである、ステップと、
室内効果が空間オーディオ信号に適用されるとき、結合バイノーラルオーディオ信号を生成するために、前記第1部分バイノーラルオーディオ信号と前記第2部分バイノーラルオーディオ信号とを結合するステップと、
を含
前記少なくとも1つのオーディオ信号および空間メタデータに基づいて前記第1部分バイノーラルオーディオ信号を生成するステップは、
少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定するために、前記少なくとも1つのオーディオ信号を分析するステップと、
前記少なくとも1つのオーディオ信号に関連する前記少なくとも1つの確率的特性にさらに基づいて、前記第1部分バイノーラルオーディオ信号を生成するステップと、
を含み、
前記少なくとも1つのオーディオ信号は、少なくとも2つのオーディオ信号を含み、
前記少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定するために、前記少なくとも1つのオーディオ信号を分析するステップは、前記少なくとも2つのオーディオ信号間の共分散を推定するステップを含み、
前記少なくとも1つのオーディオ信号に関連する前記少なくとも1つの確率的特性にさらに基づいて、前記第1部分バイノーラルオーディオ信号を生成するステップは、
前記少なくとも2つのオーディオ信号間の推定共分散に基づいて混合係数を生成するステップと、
最初のパートのバイノーラルオーディオ信号を生成するために、混合係数に基づいて少なくとも2 つのオーディオ信号を混合するステップと、
を含み、
前記推定共分散に基づく全体エネルギー推定値を生成するステップと、
少なくとも1つの方向パラメータに基づいて頭部伝達関数データを決定するステップであって、前記空間メタデータは前記少なくとも1つの方向パラメータを含む、ステップと、
前記頭部伝達関数データ、前記空間メタデータ、および前記全体エネルギー推定値に基づいて、目標共分散を決定するステップと、
を更に含む、方法。
【請求項10】
前記空間メタデータは少なくとも1つの方向パラメータを含み、
前記少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成するステップは、前記少なくとも1つのオーディオ信号および前記少なくとも1つの方向パラメータに基づいて前記第1部分バイノーラルオーディオ信号を生成するステップを含む、
請求項9に記載の方法。
【請求項11】
前記空間メタデータは、少なくとも1つの比率パラメータを含み、
前記少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するステップは、
前記少なくとも1つのオーディオ信号および前記少なくとも1つの比率パラメータに基づいて、第2部分バイノーラルオーディオ信号を生成するステップをさらに含む、
請求項9に記載の方法。
【請求項12】
前記推定共分散に基づいて混合係数を生成するステップは、目標共分散に基づいて前記混合係数を生成するステップを更に含む、請求項9に記載の方法。
【請求項13】
前記少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するステップは、前記少なくとも1つのオーディオ信号に残響器を適用するステップを含む、
請求項9に記載の方法。
【請求項14】
室内効果制御表示を得ることが、空間オーディオ信号のエンコーダによってセットされたフラグとして室内効果制御指標を受信するステップと、
ユーザ入力として前記室内効果制御指標を受信するステップと、
空間音声信号のタイプを示す指標を得ることに基づいて前記室内効果制御標示を決定するステップと、
空間音声信号のタイプを決定するために、前記空間音声信号の分析に基づいて前記室内効果制御標示を決定するステップと、
のうちの少なくとも1つを含む、請求項9に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は空間オーディオ表現およびレンダリングのための装置および方法に関する。ただし、オーディオデコーダのためのオーディオ表現に限定されるものではない。
【背景技術】
【0002】
低ビットレート動作からトランスペアレンシーまでの範囲の多数の動作点をサポートするイマーシブ(Immersive)オーディオコーデックが実装されている。このようなコーデックの一例は、仮想現実(VR)のためのイマーシブ音声およびオーディオのようなイマーシブサービスでの使用を含む3GPP(登録商標)4G/5Gネットワークのような通信ネットワーク上での使用に適するように設計されているイマーシブ音声およびオーディオサービス(IVAS)コーデックである。この音声コーデックは、音声、音楽、汎用音声の符号化、復号、レンダリングを扱うことが期待される。さらに、音場および音源に関する空間情報を含むチャネルベースのオーディオおよびシーンベースのオーディオ入力をサポートすることが期待される。コーデックはまた、様々な伝送条件下で会話サービスを可能にし、高いエラーロバスト性をサポートするために、短い待ち時間で動作することが期待される。
【0003】
入力信号は、いくつかのサポートされたフォーマットのうちの1つで(およびフォーマットのいくつかの許容された組み合わせで)IVASエンコーダに提示され得る。例えば、モノラルオーディオ信号(メタデータなし)は、EVS(Enhanced Voice Service)エンコーダを使用して符号化され得る。他の入力フォーマットは、新たなIVAS符号化ツールを利用することができる。IVASのために提案される1つの入力フォーマットは、メタデータ支援空間オーディオ(MASA)フォーマットであり、エンコーダは例えば、フォーマットの効率的な送信のためにモノラルおよびステレオ符号化ツールとメタデータ符号化ツールとの組み合わせを利用することができる。MASAは、空間オーディオ処理に適したパラメトリック空間オーディオフォーマットである。パラメータ空間オーディオ処理はオーディオ信号処理の分野であり、音(または音シーン)の空間的側面は、パラメータのセットを使用して記述される。例えば、マイクロホンアレイからのパラメトリック空間オーディオキャプチャでは、例えば周波数帯域における直接-全体比や周囲-全体エネルギー比として表される、マイクロホンアレイの信号から、周波数帯域における音の方向や、周波数帯域において捕捉された音の方向性部分と無方向性部分の相対的なエネルギーなどのパラメータのセットを推定することは、典型かつ有効な選択である。これらのパラメータは、マイクロフォンアレイの位置における捕捉された音の知覚空間特性をよく記述することが知られている。これらのパラメータは、それに応じて空間音の合成、バイノーラルでのヘッドホン、ラウドスピーカ、またはアンビソニック(Ambisonics)のような他のフォーマットに利用することができる。
【0004】
例えば、オーディオ信号および空間メタデータの2つのチャネル(ステレオ)が存在し得る。空間メタデータは、さらに、時間周波数パラメータ区間における音の到来方向を記述する方向インデックス、レベル/位相差、方位指数のエネルギー比率を表す直接対全エネルギー比(Direct-to-total energy ratio)、拡散性、方向指数を表すエネルギーの広がりを表す拡散コヒーレンスなどのコヒーレンス、周囲の方向に対する無指向性音のエネルギー比を表す拡散全エネルギー比(Diffuse-to-total energy ratio)、無指向性音の周囲の方向に対するコヒーレンスを表すサラウンドコヒーレンス、エネルギー比の合計が1であることが必要である残響(マイクノイズなど)音のエネルギー比を表す残響対全エネルギー比、指標の方向から発生した音の距離をメートル単位で対数スケールで表す距離、マルチチャンネルラウドスピーカー信号に関する共分散マトリクス、またはこれらの共分散マトリクスに関連する任意のデータ、特定のデコーダを導く他のパラメータ、例えば、中心予測係数や1対2復号化係数(MPEGサラウンドなどで使用)、のようなパラメータを定義することができる。これらのパラメータのいずれも、周波数帯域で決定することができる。
【0005】
日常環境において自然なオーディオシーンを聞くことは、特定の方向の音についてだけではない。背景の雰囲気がなくても、耳に到達する音のエネルギーの大部分は直接音からではなく、音響環境からの間接音(すなわち、反射や残響)であることが典型的である。離散的な反射および残響を含む室内効果に基づいて、リスナは他の特徴の中でも音源距離および室内(room)特性(小型、大きい、ウェット、残響)を聴覚的に知覚し、室内は、オーディオコンテンツの知覚される感覚を追加する。言い換えれば、音響環境は、空間音の本質的かつ知覚的に関連する特徴である。
【0006】
リスナは(例えば、無響室とは対照的に)通常の室内で音楽を聴き、音楽(例えば、ステレオまたは5.1含有量)は、通常の残響を有する室内で聴かれることが期待される方法で典型的に生成され、これは音に対する包絡および広がりを作り出す。無響室で通常の音楽を聴くことは、室内効果の欠如のために不快であることが知られている。したがって、通常の音楽は、通常の室内で残響を伴って聴かれることになる(基本的には常に聴かれる)。
【発明の概要】
【0007】
第1の態様によれば、空間オーディオ信号を受信するように構成され、空間オーディオ信号は少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを含み、室内効果制御指標を取得し、室内効果制御指標に基づいて、室内効果が少なくとも1つのオーディオ信号に適用されるべきかどうかを決定し、ここで、前記手段は室内効果が空間オーディオ信号に適用されるべきとき、少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成し、少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成し、ここで、少なくとも第2部分バイノーラルオーディオ信号は、第1部分バイノーラルオーディオ信号の応答とは異なった応答を有するように、室内効果を少なくとも部分的に有して生成され、結合されたバイノーラルオーディオ信号を生成するように、第1部分バイノーラルオーディオ信号および第2部分バイノーラルオーディオ信号を結合するように構成される、手段を備える装置が提供される。
【0008】
空間メタデータは、少なくとも1つの方向パラメータを備えることができ、少なくとも1つのオーディオ信号に基づいて第1部分バイノーラルオーディオ信号を生成するように構成される手段と、空間メタデータとは、少なくとも1つのオーディオ信号および少なくとも1つの方向パラメータに基づいて第1部分バイノーラルオーディオ信号を生成するように構成されることができる。
【0009】
空間メタデータは、少なくとも1つの比率パラメータを含むことができ、少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するように構成された手段は、少なくとも1つのオーディオ信号および少なくとも1つの比率パラメータに基づいて第2部分バイノーラルオーディオ信号を生成するようにさらに構成することができる。
【0010】
少なくとも1つの方向パラメータは、周波数帯に関連付けられた方向であることができる。
【0011】
少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成するように構成された手段は、少なくとも1つのオーディオ信号を分析して、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定し、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性にさらに基づいて第1部分バイノーラルオーディオ信号を生成するように構成され得る。
【0012】
少なくとも1つのオーディオ信号は、少なくとも2つのオーディオ信号を含むことができ、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定するために少なくとも1つのオーディオ信号を分析するように構成された手段は、少なくとも2つのオーディオ信号間の共分散を推定するように構成することができ、第1部分バイノーラルオーディオ信号を生成するように構成された前記手段は、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性にさらに基づいて、少なくとも2つのオーディオ信号間の推定共分散に基づいて混合係数を生成し、混合係数に基づいて少なくとも2つのオーディオ信号を混合して第1部分バイノーラルオーディオ信号を生成するように構成することができる。
【0013】
少なくとも2つの搬送オーディオ信号間の推定共分散に基づいて混合係数を生成するように構成された手段は、目標共分散に基づいて混合係数を生成するようにさらに構成されてもよい。
【0014】
この手段は、推定共分散に基づいて総合エネルギー推定値を生成し、方向パラメータに基づいて頭部関連伝達関数データを決定し、頭部関連伝達関数データ、空間メタデータ、および総合エネルギー推定値に基づいて目標共分散を決定するようにさらに構成され得る。
【0015】
少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するように構成された手段は、少なくとも1つのオーディオ信号に残響器(reverberator)を適用するように構成され得る。
【0016】
室内効果制御指標を取得するように構成された手段は、空間オーディオ信号の符号器によって設定されたフラグとして室内効果制御指標を受信することと、ユーザ入力として室内効果制御指標を受信することと、空間オーディオ信号のタイプを示すインジケータを取得することに基づいて室内効果制御指標を決定することと、空間オーディオ信号のタイプを決定するために空間オーディオ信号の分析に基づいて室内効果制御指標を決定することとのうちの少なくとも1つを実行するように構成され得る。
【0017】
少なくとも1つのオーディオ信号は、エンコーダによって生成される少なくとも1つの搬送オーディオ信号であることができる。
【0018】
第2部分バイノーラル信号は、第1部分バイノーラルオーディオ信号の時間応答よりも長い時間応答を有することができる。
【0019】
第2の態様によれば、空間オーディオ信号を受信するステップであって、空間オーディオ信号は少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを含む、ステップと、室内効果制御指標を取得するステップと、室内効果制御指標に基づいて、室内効果が少なくとも1つのオーディオ信号に適用されるべきかどうかを決定するステップとを含む、方法が提供される。前記方法は、前記空間オーディオ信号に適用されるべきときに、前記少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成するステップと、前記少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するステップであって、前記少なくとも第2部分バイノーラルオーディオ信号は、前記第1部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、前記室内効果とともに少なくとも部分的に生成される、ステップと、結合されたバイノーラルオーディオ信号を生成するために、前記第1部分バイノーラルオーディオ信号および前記第2部分バイノーラルオーディオ信号を結合するステップを含む。
【0020】
空間メタデータは、少なくとも1つの方向パラメータを備えることができ、少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成することは、少なくとも1つのオーディオ信号および少なくとも1つの方向パラメータに基づいて第1部分バイノーラルオーディオ信号を生成することを含むことができる。
【0021】
空間メタデータは少なくとも1つの比率パラメータを含み、少なくとも1つのオーディオ信号に基づいて第2部分のバイノーラルオーディオ信号を生成することは、少なくとも1つのオーディオ信号と少なくとも1つの比率パラメータに基づいて第2部分のバイノーラルオーディオ信号を生成することを更に含み得る。
【0022】
少なくとも1つの方向パラメータは、周波数帯に関連付けられた方向であることができる。
【0023】
少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分のバイノーラルオーディオ信号を生成することは、少なくとも1つのオーディオ信号を分析して、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定することと、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性にさらに基づいて、第1部分のバイノーラルオーディオ信号を生成することとを含み得る。
【0024】
少なくとも1つのオーディオ信号は少なくとも2つのオーディオ信号を含むことができ、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定するために、少なくとも1つのオーディオ信号を分析することは、少なくとも2つのオーディオ信号の間の共分散を推定することを含むことができ、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性にさらに基づいて、第1部分のバイノーラルオーディオ信号を生成することは、少なくとも2つのオーディオ信号の間の推定共分散に基づいて混合係数を生成することと、混合係数に基づいて少なくとも2つのオーディオ信号を混合して第1部分のバイノーラルオーディオ信号を生成することを含んでもよい。
【0025】
少なくとも2つの搬送オーディオ信号間の推定共分散に基づいて混合係数を生成することは、目標共分散に基づいて混合係数を生成することを更に含み得る。
【0026】
本方法は、推定共分散に基づいて全体エネルギー推定値を生成するステップと、方向パラメータに基づいて頭部関連伝達関数データを決定するステップと、頭部関連伝達関数データ、空間メタデータ、および全体エネルギー推定値に基づいて目標共分散を決定するステップとをさらに含むことができる。
【0027】
少なくとも1つのオーディオ信号に基づいて第2部分のバイノーラルオーディオ信号を生成することは、少なくとも1つのオーディオ信号にリバーブを適用することを含み得る。
【0028】
室内演出制御表示を得るステップは、空間オーディオ信号のエンコーダによって設定されたフラグとして室内演出制御表示を受信ステップと、ユーザ入力として室内演出制御表示を受信するステップと、空間オーディオ信号のタイプを示すインジケータを得ることに基づいて室内演出制御表示を決定するステップと、空間オーディオ信号のタイプを決定するために空間オーディオ信号の分析に基づいて室内演出制御表示を決定するステップとのうちの少なくとも1つを含むことができる。
【0029】
少なくとも1つのオーディオ信号は、エンコーダによって生成される少なくとも1つの搬送オーディオ信号であることができる。
【0030】
第2部分バイノーラル信号は、第1部分バイノーラルオーディオ信号の時間応答よりも長い時間応答を有することができる。
【0031】
第3の態様によれば、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリとを備える装置であって、少なくとも1つのメモリと、コンピュータプログラムコードとを含み、少なくとも1つのメモリと、コンピュータプログラムコードとを含み、少なくとも1つのメモリと、コンピュータプログラムコードとを含み、少なくとも1つのプロセッサと、を備え、少なくとも1つのプロセッサとは、装置に、空間オーディオ信号を受信し、ここで、空間オーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータと、を備える空間オーディオ信号と、を含み、室内効果制御指標を取得し、室内効果制御指標に基づいて、室内効果が空間オーディオ信号に適用されるべきかどうかを決定し、ここで、手段は、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成し、少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成し、ここで、少なくとも第2部分バイノーラルオーディオ信号は、少なくとも部分的に、第1部分のバイノーラルオーディオ信号の応答とは異なった応答を有するように室内効果で生成され、第1部分のバイノーラルオーディオ信号と第2部分のバイノーラルオーディオ信号とを結合して、結合されたバイノーラルオーディオ信号を生成するように構成されるようにさせる、装置が提供される。
【0032】
空間メタデータは、少なくとも1つの方向パラメータを含むことができ、この装置は、少なくとも1つのオーディオ信号に基づいて第1部分バイノーラルオーディオ信号を生成させることができ、空間メタデータは、少なくとも1つのオーディオ信号および少なくとも1つの方向パラメータに基づいて第1部分バイノーラルオーディオ信号を生成させることができる。
【0033】
空間メタデータは少なくとも1つの比率パラメータを含むことができ、少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成させる装置は、少なくとも1つのオーディオ信号および少なくとも1つの比率パラメータに基づいて第2部分バイノーラルオーディオ信号を生成させることができる。
【0034】
少なくとも1つの方向パラメータは、周波数帯に関連付けられた方向であることができる。
【0035】
少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成するようにされた装置は、少なくとも1つのオーディオ信号を分析して、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定し、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性にさらに基づいて第1部分バイノーラルオーディオ信号を生成するようにすることができる。
【0036】
少なくとも1つのオーディオ信号は少なくとも2つのオーディオ信号を含むことができ、少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性を決定するために少なくとも1つのオーディオ信号を分析するようにされた装置は、少なくとも2つのオーディオ信号の間の共分散を推定するようにされることができ、装置は少なくとも1つのオーディオ信号に関連する少なくとも1つの確率的特性にさらに基づいて、第1部分のバイノーラルオーディオ信号を生成するようにされた装置は、少なくとも2つのオーディオ信号の間の推定共分散に基づいて混合係数を生成し、第1部分のバイノーラルオーディオ信号を生成するために、混合係数に基づいて少なくとも2つのオーディオ信号を混合するようにされることができる。
【0037】
少なくとも2つの搬送オーディオ信号間の推定共分散に基づいてミキシング係数を生成するようにした装置はさらに、目標共分散に基づいてミキシング係数を生成するようにすることができる。
【0038】
この装置はさらに、推定共分散に基づいて全体的エネルギー推定値を生成し、方向パラメータに基づいて頭部関連伝達関数データを決定し、頭部関連伝達関数データ、空間メタデータ、および全体的エネルギー推定値に基づいて目標共分散を決定するようにされ得る。
【0039】
少なくとも1つのオーディオ信号に基づいて第2部分のバイノーラルオーディオ信号を生成するようにした装置は、少なくとも1つのオーディオ信号にリバーブ器を適用するようにされることができる。
【0040】
室内効果制御指標を取得するようにされた装置は、空間オーディオ信号のエンコーダによって設定されたフラグとして室内効果制御指標を受信することと、ユーザ入力として室内効果制御指標を受信することと、空間オーディオ信号のタイプを示すインジケータを取得することに基づいて室内効果制御指標を決定することと、空間オーディオ信号のタイプを決定するために空間オーディオ信号の分析に基づいて室内効果制御指標を決定することとのうちの少なくとも1つを実行するようにされ得る。
【0041】
少なくとも1つのオーディオ信号は、エンコーダによって生成される少なくとも1つの搬送オーディオ信号であることができる。
【0042】
第4の態様によれば、空間オーディオ信号を受信するように構成された受信回路であって、前記空間オーディオ信号は少なくとも1つのオーディオ信号と、前記少なくとも1つのオーディオ信号に関連する空間メタデータとを含む、受信回路と、室内効果制御表示を得るように構成された回路と、前記室効果制御表示に基づいて、室効果が前記空間オーディオ信号に加えられるべきか否かを判断するように構成された判断回路とを備える装置が提供される。ここで、前記装置は、前記空間オーディオ信号に室効果が加えられるべきか否かを判断するように構成された判断回路であって、前記少なくとも1つのオーディオ信号および空間メタデータに基づいて、第1部分バイノーラルオーディオ信号を生成するように構成された回路と、前記追加された室効果が前記空間オーディオ信号に加えられるべきときに、前記少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成し、前記少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成し、少なくとも前記第2部分バイノーラルオーディオ信号は、前記第1部分バイノーラルオーディオ信号の応答と異なる応答を有するように、少なくとも部分的に前記室効果と共に生成されるように構成された回路と、第1部分のバイノーラルオーディオ信号と第2部分のバイノーラルオーディオ信号とを結合して結合されたバイノーラルオーディオ信号を生成するように構成された結合回路とを備える。
【0043】
第5の態様によれば、装置に、空間オーディオ信号を受信するステップであって、空間オーディオ信号は少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを含む、ステップと、室内効果制御指標を取得するステップと、室内効果制御指標に基づいて、室内効果が空間オーディオ信号に適用されるべきかどうかを決定するステップと、を含む方法を実行させる命令[またはプログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。この方法は、空間オーディオ信号に適用されるべきとき、少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成するステップと、少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するステップであって、少なくとも第2部分バイノーラルオーディオ信号は、第1部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果で生成される、ステップと、結合されたバイノーラルオーディオ信号を生成するために、第1部分バイノーラルオーディオ信号および第2部分バイノーラルオーディオ信号を結合するステップと、を含む。
【0044】
第6の態様によれば、装置に、空間オーディオ信号を受信するステップであって、該空間オーディオ信号は、少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連付けられた空間メタデータとを備える、ステップと、室内効果制御指標を取得するステップと、室内効果制御指標に基づいて、室内効果が空間オーディオ信号に適用されるべきかどうかを決定するステップと、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成するステップと、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成するステップと、少なくとも第2部分バイノーラルオーディオ信号は第1部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果を用いて生成するステップと、室内効果が空間オーディオ信号に適用されるべきとき、結合されたバイノーラルオーディオ信号を生成するために、第1部分バイノーラルオーディオ信号および第2部分バイノーラルオーディオ信号を結合するステップと、を実行させるためのプログラム命令を備える非一時的コンピュータ可読媒体が提供される。
【0045】
第7の態様によれば、空間オーディオ信号を受信する手段であって、空間オーディオ信号を含み、空間オーディオ信号は少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを含む、手段と、室内効果制御指標を取得する手段と、室内効果制御指標に基づいて、室内効果制御指標が空間オーディオ信号に適用されるべきかどうかを決定する手段と、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも1つのオーディオ信号と空間メタデータとに基づいて第1部分バイノーラルオーディオ信号とを生成する手段と、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成する手段であって、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも第2部分バイノーラルオーディオ信号は第1部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果を用いて生成される、手段と、結合バイノーラル音声信号を生成するために、前記空間音声信号に室内効果を適用する場合、前記第1部分バイノーラル音声信号と前記第2部分バイノーラル音声信号とを結合する手段と、を備える装置が提供される。
【0046】
第8の態様によれば、空間オーディオ信号を受信し、空間オーディオ信号は少なくとも1つのオーディオ信号と、少なくとも1つのオーディオ信号に関連する空間メタデータとを備え、室内効果制御指標を取得し、室内効果制御指標に基づいて、室内効果制御指標が空間オーディオ信号に適用されるべきかどうかを決定し、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも1つのオーディオ信号および空間メタデータに基づいて第1部分バイノーラルオーディオ信号を生成し、室内効果が空間オーディオ信号に適用されるべきときに、少なくとも1つのオーディオ信号に基づいて第2部分バイノーラルオーディオ信号を生成し、少なくとも第2部分バイノーラルオーディオ信号は、第1部分バイノーラルオーディオ信号の応答とは異なる応答を有するように、少なくとも部分的に室内効果を用いて生成され、室内効果が空間オーディオ信号に適用されるべきときに、結合されたバイノーラルオーディオ信号を生成するために、第1部分バイノーラルオーディオ信号、および第2部分バイノーラルオーディオ信号を結合することを、装置に少なくとも実行させるためのプログラム命令を備えるコンピュータ可読媒体が提供される。
【0047】
上述の動作を実行するための手段を備える装置。
【0048】
上述の方法の動作を実行するように構成された装置。
【0049】
コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。
【0050】
媒体に記憶されたコンピュータプログラム製品は、装置に本明細書に記載された方法を実行させることができる。
【0051】
電子デバイスは、本明細書で説明されるような装置を備えることができる。
【0052】
チップセットは、本明細書に記載されるような装置を備えてもよい。
【0053】
本出願の実施形態は、最新技術に関連する課題に対処することを目的とする。
【図面の簡単な説明】
【0054】
本出願をより良く理解するために、添付の図面を例として参照する。
図1図1は、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。
図2図2は、いくつかの実施形態に従う例示的な装置の動作のフロー図を示す。
図3図3は、いくつかの実施形態による、図1に示されるような合成プロセッサを概略的に示す。
図4図4はいくつかの実施形態に従う、図3に示されるような例示的な装置の動作のフロー図を示す。
図5図5は先の図に示される装置を実施するのに適した例示的な装置を示す。
【発明を実施するための形態】
【0055】
以下に、レンダリングされた空間メタデータ支援オーディオ信号に対する室内効果の制御および付加のための適切な装置および可能な機構をさらに詳細に説明する。
【0056】
以下の例はMASA符号化および復号に焦点を当てているが、提示された方法は搬送オーディオ信号および空間メタデータを利用する任意のシステムに適用可能であることに留意されたい。空間メタデータは、例えば、方向、レベル/位相差、直接対全エネルギー比、拡散性、コヒーレンス(拡散および/周囲コヒーレンスなど)、および距離の任意のタイプの組合せで、以下のパラメータのうちのいくつかを含むことができる。典型的には、パラメータは時間周波数領域で与えられる。したがって、以下において、用語IVASおよび/またはMASAが使用される場合、それらは、任意の他の適切なコーデックおよび/またはメタデータフォーマットおよび/またはシステムと置き換えることができることを理解されたい。
【0057】
以下の例では、IVASストリームがバイノーラル出力、マルチチャネル出力、およびアンビソニック(FOA/HOA)出力を含む様々な出力フォーマットに復号化およびレンダリングすることができる。さらに、出力フォーマットが入力フォーマットなどに対応できる、外部レンダリングのためのインタフェースがある可能性がある。
【0058】
空間(例えばMASA)メタデータは、出力フォーマットに依存しない方法で所望の空間オーディオ認識を描写するので、空間メタデータを有する任意のストリームを、上述の任意の出力フォーマットに柔軟に描写することができる。しかし、MASAストリームはさまざまな入力から発生することができるため、デコーダが受信する搬送オーディオ信号の特性が異なる場合がある。したがって、デコーダは最適なオーディオ品質を生成することができるように、これらの態様を考慮に入れるように構成される。
【0059】
パラメトリックオーディオ信号をレンダリングするための方法は、MPEGサラウンドにおいて、5.1音が5.1音を再合成するための情報を含むステレオダウンミックスおよび空間メタデータの形成で伝達されることを含む。本質的に、空間メタデータはステレオ音を5.1音にステレオ音をステアリングし、デコリレーションを適用するためのデコーディングマトリクスを生成する係数からなる。MPEGサラウンドバイノーラルデコーダでは、これらのパラメータを利用して適切なHRTFを選択・混合し、中間の5.1ラウドスピーカ音を生成する必要なしに、効率的なステレオ・イノーラル(2x2)ミキシング手順を生成する。
【0060】
さらに、パラメトリックオーディオ信号のレンダリングは指向性オーディオ符号化(DirAC)を用いて実施することができ、この指向性オーディオ符号化(DirAC)は、その第1の形成において、Bフォーマットマイクロフォン信号(4つの異なるビームパターンからなる)に基づいて空間メタデータを推定する。レンダリング段階では、マイクロホン信号は拡散度パラメータ(アンビエンス/トータルエネルギー比パラメータ)の関数として周波数帯域の直接信号と周囲信号に分割される。バイノーラル再生に関連して、一構成では、再生が直接部分が、仮想サラウンドラウドスピーカセットアップに振幅パンされ、アンビエンスが、仮想ラウドスピーカセットアップのすべてまたはサブセットに非相関化され、次いで、仮想3Dラウドスピーカ信号が、頭部関連伝達関数(HRTF)で処理されてバイノーラル出力を生成するように実施される。
【0061】
さらに、パラメトリックオーディオ信号をレンダリングすることは、任意の中間信号生成(例えば、直接的および周囲的な部分)を回避するパラメトリック空間オーディオ合成フレームワークを含むことができ、最小二乗法最適化ミキシングソリューションが利用可能なオーディオ信号から対象の空間音を直接生成することを可能にする。このアプローチはオーディオ信号で独立した信号を効率的に利用し、再生音の知覚品質を低下させることが知られている低減相関手順を使用する必要性を低減らす。この方法は特定のパラメトリックレンダラではなく、パラメトリックレンダラによって適用することができる方法であり、例えば、DirACに関連して、例えば、マルチチャネルレンダリングおよびバイノーラルレンダリングにおいて利用することができる。例えば、このアプローチは、「空間オーディオの時間周波数処理のための最適化共分散領域フレームワーク」、J Vilkamo、T B偏カストローム、A Kuntz、Journal of Audio Engineering Society 61、no。6(2013):403-411にさらに詳細に記載されている。
【0062】
以下の実施形態で論じられる概念は、レンダリングされた空間オーディオ信号への室内効果の付加に関する。日常環境において自然なオーディオシーンを聞くことは、特定の方向の音についてだけではない。背景の雰囲気がなくても、耳に到達する音エネルギーの大部分は直接音ではなく、典型的には音響環境からの間接音(すなわち、反射や残響)である。離散的な反射および残響を含む室内効果に基づいて、我々は他の特徴の中でも音源距離および室内特性(小型、大きい、ウェット、残響)を聴覚的に知覚し、室内は、オーディオコンテンツの知覚される感覚を追加する。言い換えれば、音響環境は空間音の知覚的に関連した特徴である。
【0063】
リスナは通常、(例えば、無響室とは対照的に)通常の室内で音楽を聴くので、音楽(例えば、ステレオまたは5.1チャンネルコンテンツ)は通常の残響を有する室内で聴かれることが期待される方法で生成され、これは音に対する包絡および広がりを作り出す。無響室で通常の音楽を聴くことは、室内効果の欠如のために不快であることが知られている。したがって、通常の音楽は、通常の室内で残響を伴って聴かれるべきである(基本的には常に聴かれる)。
【0064】
例えば、頭部伝達関数(HRTF)ベースのレンダリングを使用するマルチチャネルコンテンツ(例えば、5.1)のバイナウラル空間音レンダリングは、無響室での聴取に対応する。このように、室内効果の欠如により、不自然で不快であると感じられる。室内効果を加えるためのバイノーラル室内インパルス応答(BRIR)ベースの技術は、典型的にはマルチチャネルコンテンツ(5.1など)のバイノーラルレンダリングに使用される。
【0065】
しかしながら、室内効果を加えることが望ましくない信号タイプもある。例えば、モバイルデバイスでキャプチャされた空間音のバイノーラルレンダリングである。モバイルデバイスキャプチャされたオーディオの目的は、典型的には空間音がキャプチャされた位置にリスナを「移送」し、リスナが存在するかのように音シーンを忠実にレンダリングすることである。キャプチャされたオーディオは記録空間の自然な残響を含み、したがって、追加の残響を追加しないHRTFベースのバイノーラルレンダリング方法が好ましい。レンダリングされたオーディオはキャプチャ空間の室内効果とレンダリングの室内効果の両方を含むので、レンダリングに室内効果を追加することは不自然なリスニング体験を引き起こす。
【0066】
したがって、バイノーラルレンダリングにおいて室内効果を追加する必要がある状況があり、室内効果を追加する必要がない状況がある。
【0067】
以下でさらに詳細に論じられる概念は、装置および方法の提供であり、例えば、いくつかの実施形態では、空間オーディオストリームの上で動作するバイノーラルレンダラおよび/またはバイノーラルレンダリングのための方法が提供され、これは、(様々なソースからの、任意の特性を有する)搬送オーディオ信号と、典型的には少なくとも周波数帯域の方向を含む空間メタデータ(方向は任意の値を有することができる)を含むことができる。さらに、いくつかの実施形態では、バイノーラルレンダリングのためのバイノーラルレンダラおよび/または方法が、(それをレンダリングするかどうかの指標に基づいて)追加された室内効果を伴っておよび伴わずにバイノーラル信号をレンダリングするように構成される。
【0068】
したがって、実施形態は、搬送オーディオ信号(1つ以上)および空間メタデータ(少なくとも、周波数帯域内の方向からなる)を含む空間オーディオストリームのバイノーラルレンダリングに関する。そのような実施形態では、空間オーディオストリーム(モバイルおよび5.1などの様々なソースからのものとすることができる)に基づいて、室内効果を伴う、および伴わないバイノーラルオーディオ出力をレンダリングすることができる方法が提案される。さらに、いくつかの実施形態では、このレンダラが、空間メタデータ、早期部分レンダリングのためのバイノーラルレンダリングデータ、および、搬送オーディオ信号の確率的分析に基づいて、バイノーラル信号をレンダリングすることによって、また、指標が、付加室効果用バイノーラルレンダリングデータに基づき、付加室効果用バイノーラル信号(「早期部分」信号と組み合わせられる)「追加室内効果」を示す場合、これらの信号をレンダリングすることによって、レンダリングを実行するように構成される。
【0069】
いくつかの実施形態では、1つ以上の搬送オーディオ信号および空間メタデータからなる、パラメトリックオーディオストリームを取得するレンダラおよび/またはデコーダがあってもよい。空間オーディオストリームは例えば、それを記憶装置から検索することによって、またはネットワークを介してそれを受信することによって、得ることができる。
【0070】
空間メタデータは、少なくとも周波数帯域の方向を含むことができる。これらの方向は、(ラウドスピーカセットアップ方向のような所定の方向の代わりに)任意の方向を指すことができる。したがって、レンダリング方法は、任意の方向へのレンダリングをサポートするように設定する必要がある。他のパラメータは、音が周波数帯域内にどのように指向性または周囲があるかを示す比率パラメータを含むことができる。さらなるパラメータは、指向性音が点状または幅広に再生されるべきかどうか、または任意の他のパラメータを含むことができる。
【0071】
いくつかの実施形態では、搬送オーディオ信号が例えば、(任意の潜在的な前処理が実行される)空間マイクロフォン信号、同時入射マイクロフォン信号、サラウンドラウドスピーカ信号のダウンミックス、オーディオオブジェクトのダウンミックス、任意の順序のアンビソニック信号、または任意の順序のアンビソニック信号のサブセット、上記の任意の混合、または任意の他のタイプのうちの1つとすることができる。
【0072】
レンダラはさらに、いくつかの実施形態では、追加されたルーム応答をレンダリングするかどうかに関する指標を受信するように構成される。指標は、様々な方法で得ることができる。例えば、それは利用者から得られるか、または空間オーディオストリームと共に受信されてもよい。また、空間オーディオストリームに基づいて決定されてもよい。例えば、5.1音のダウンミックスがトランスポート信号として検出された場合、指標は「室内効果を追加する」ように設定されてもよい。一方、マイク信号がトランスポート信号として検出された場合、表示が「室内効果なし」に設定されることができる。
【0073】
いくつかの実施形態では、「早期部分」および「室内効果」バイノーラル信号が別々にレンダリングされる。早期の部分のバイノーラル信号は周波数帯域でレンダリングされ、したがって、一部の実施形態における搬送信号は時間周波数領域に変換され得る。
【0074】
一部の実施形態では、初期部レンダラが周波数帯における搬送信号確率特性(共分散マトリクス)を推定することによって、レンダリングを実行するように構成される。共分散マトリクスは輸送チャネルのエネルギー、相関、相互位相の情報を含んでいる。次いで、この情報は、多くの搬送オーディオ信号タイプに起因して、様々な信号特性に適応するようにレンダリングを構成するために使用される。例えば、「離間した」、「一致した」、「ダウンミックス」タイプは、空間メタデータが類似している状況であっても、非常に異なる確率的特性を有することができる。
【0075】
さらに、いくつかの実施形態では、ターゲット共分散マトリクスが空間メタデータを使用して周波数帯域において決定される。例えば、音が一定の角度から到来する場合、左右の耳(各周波数)に一定のスペクトルを有し、一定の位相依存性を有する必要がある。これらは、早期パートレンダリングのためのバイノーラルレンダリングデータを使用して、例えば、その特定の角度におけるHRTFペアを使用して決定される。同様に、比率パラメータは、バイノーラル出力チャネルがどのように相関されるべきかに影響を及ぼす、等々である。したがって、受信された空間メタデータに対応するこれらのバイノーラル特性のすべてを反映するターゲット共分散マトリクスが構築される。
【0076】
そして、搬送信号共分散マトリクスと目標共分散マトリクスが既知であれば、混合ソリューションを定式化することができる。混合ソリューション(周波数帯域単位)は、トランスポートオーディオ信号に適用すると、判定されたターゲット共分散マトリクスにしたがって共分散マトリクスを持つ出力信号を生成するようになっている。結果として得られる信号は時間領域に戻され、結果はレンダリングされた早期部分バイノーラル信号である。
【0077】
このように、信号確率特性を測定し、それに応じて処理を構成する手順のために、処理は、各種搬送信号タイプに対して最適化され得る。このような処理は、室内効果を付加しない。
【0078】
いくつかの実施形態では、指標が室内効果をレンダリングするように設定されると、室内効果がレンダリングされる。室内効果のレンダリングは、例えば、測定されたBRIRの後期部分を含むことができる追加の室内レンダリングのために、搬送オーディオ信号をバイノーラルレンダリングデータと畳み込むことによって実行されることができる。例えば、ペアのBRIRから早期/方向部分を減衰/除去し、後期(バイノーラル)応答のみを畳み込み残響器として使用することが可能である。畳み込みは、FFTベースの畳み込み技法を用いて効率的に実装できる。
【0079】
さらに、いくつかの実施形態では、早期部分バイノーラル信号および追加された室内効果バイノーラル信号が(例えば、それらを合計することによって)組み合わされ、ヘッドホンを介して再生され得る適切な出力形式のバイノーラル信号をもたらす。
【0080】
いくつかの実施形態では、結合の前に、他の経路の1つがより長い遅延を有することが知られている信号経路の1つに、さらなる「整列」遅延が導入されてもよい。
【0081】
したがって、種々のソースからのパラメトリック空間オーディオ信号をバイノーラル出力にレンダリングする結果として、本明細書でさらに詳細に説明するような実施形態は(適当な指標に基づいて)室内効果を有する(または付加されない)バイノーラル信号を生成することができ、さらに、バイノーラル信号出力は、搬送オーディオ信号の変化する、事前定義されていない特性のために最適化することができる。実施形態は、オーディオ信号を任意の方向にレンダリングするように構成することができる。
【0082】
図1を参照すると、いくつかの実施形態による、オーディオキャプチャおよびレンダリングを実施するための例示的な装置およびシステムが示されている。
【0083】
システム199は、エンコーダ/アナライザ101部分およびデコーダ/シンセサイザ105部分とともに示されている。
【0084】
いくつかの実施形態におけるエンコーダ/アナライザ101部分は、入力オーディオ信号110を受信するように構成されたオーディオ信号入力を含む。入力オーディオ信号は、例えば、携帯電話に搭載された2つ以上のマイクロフォン、例えばBフォーマットマイクロフォンまたはアイゲンマイク(Eigenmike)のような他のマイクロフォンアレイ、アンビソニック信号、例えば、一次アンビソニック(FOA)、高次アンビソニック(HOA)、ラウドスピーカサラウンドミックスおよび/またはオブジェクトなど、任意の適切なソースから得ることができる。入力オーディオ信号110は、分析プロセッサ111および輸送信号発生器113に供給されてもよい。
【0085】
エンコーダ/アナライザ101部分は、分析プロセッサ111を含むことができる。分析プロセッサ111は、適切なメタデータ112を生成する入力オーディオ信号に対して空間分析を実行するように構成される。したがって、分析プロセッサ111の目的は、周波数帯域における空間メタデータを推定することである。前述の入力タイプのすべてについて、適切な空間メタデータ、例えば、周波数帯域における方向および直接対総エネルギー比(または拡散性、すなわち、周囲対総比などの同様のパラメータ)を生成するための既知の方法が存在する。これらの方法は本明細書で詳述されるが、いくつかの例は入力信号に対して適切な時間周波数変換を実行し、次いで、入力が携帯電話マイクロフォンアレイであるときの周波数帯域において、マイクロフォン間相関を最大化するマイクロフォンペアの遅延値を推定し、その遅延に対応する方向値を定式化すること(GB特許出願第1619573.7号およびPCT特許出願第PCT/FI2017/050778号に記載されるように)、および相関値に基づいて比率パラメータを定式化することを含み得る。
【0086】
メタデータにはさまざまな形式があり、空間メタデータやその他のメタデータを含めることができる。空間メタデータの典型的なパラメータ化は、各周波数帯域θ(k,n)における1つの方向パラメータと、各周波数帯域r(k,n)における関連する直接対総エネルギー比であり、ここで、kは、周波数帯域インデックスであり、nは、時間フレームインデックスである。方向および比率を決定または推定することは、オーディオ信号が得られる装置または実装に依存する。例えば、メタデータは、GB特許出願第1619573.7号およびPCT特許出願第PCT/FI2017/050778号に記載されている方法を使用して、空間オーディオキャプチャ(SPAC)を使用して取得または推定することができる。言い換えれば、この特定の状況では、空間オーディオパラメータが音場を特徴付けることを目的とするパラメータを含む。一部の実施形態では、生成されるパラメータが周波数帯域ごとに異なる場合がある。したがって、例えば、帯域Xではすべてのパラメータが生成され、送信されるが、帯域Yではパラメータのうちの1つだけが生成され、送信され、さらに、帯域Zではパラメータは生成または送信されない。これの実際的な例は、最高帯域のようないくつかの周波数帯域に対して、パラメータのいくつかが知覚上の理由のために必要とされないことであり得る。
【0087】
入力がFOA信号またはBフォーマットマイクロフォンである場合、分析プロセッサ111は、方向パラメータが得られる強度ベクトルなどのパラメータを決定し、強度ベクトル長さを全体的な音場エネルギー推定値と比較して比パラメータを決定するように構成することができる。この方法は、指向性オーディオ符号化(Directional Audio Coding:DirAC)として文献で知られている。
【0088】
入力がHOA信号である場合、分析プロセッサ111は、信号のFOAサブセットを取り、上記の方法を使用するか、またはHOA信号を複数のセクタに分割するかのいずれかを行うことができ、その各セクタにおいて、上記の方法が利用される。このセクタベースの方法は、高次DirAC(HO-DirAC)として文献で知られている。この場合、周波数帯域当たり2つ以上の同時方向パラメータが存在する。
【0089】
入力がラウドスピーカサラウンドミックスおよび/またはオブジェクトである場合、解析プロセッサ111は信号を(球面調和エンコードゲインの使用を介して)FOA信号に変換し、上述のように方向および比パラメータを解析するように構成されてもよい。
【0090】
したがって、分析プロセッサ111の出力は、周波数帯域で決定された空間メタデータである。空間メタデータは周波数帯域における方向および比率を含むことができるが、先に列挙したメタデータタイプのいずれかを有することもできる。空間メタデータは、時間、また頻度的に変化することができる。
【0091】
いくつかの実施形態では、空間分析がシステム199の外部で実施することができる。例えば、いくつかの実施形態では、オーディオ信号に関連する空間メタデータが別個のビットストリームとしてエンコーダに提供されてもよい。いくつかの実施形態では、空間メタデータが空間(方向)インデックス値のセットとして提供されてもよい。
【0092】
エンコーダ/分析器101部分は、搬送信号発生器113を備えることができる。搬送信号発生器113は入力信号を受信し、適切な搬送音声信号114を生成するように構成される。搬送オーディオ信号は、ステレオまたはモノラルオーディオ信号であることができる。搬送オーディオ信号114の生成は、以下に要約されるような公知方法を使用して実施することができる。
【0093】
入力が携帯電話マイクロフォンアレイ音声信号である場合、搬送信号発生器113は、左右のマイクロフォン対を選択し、自動利得制御、マイクロフォン雑音除去、風雑音除去、および等化などの適当な処理を信号対に適用するように構成されてもよい。
【0094】
入力がFOA/HOA信号またはBフォーマットマイクロフォンである場合、トランスポート信号生成器113は、2つの対向するカージオイド信号などの左右方向に向かう指向性ビーム信号を定式化するように構成され得る。
【0095】
入力がラウドスピーカーのサラウンドミックスおよび/またはオブジェクトである場合、搬送信号発生器113は、左辺チャネルを左ダウンミックスチャネルに組み合わせ、右辺については同じダウンミックス信号を発生させ、適切なゲインで両方の搬送チャネルにセンターチャネルを追加するように構成することができる。
【0096】
いくつかの実施形態では、トランスポート信号発生器113が入力をバイパスするように構成される。例えば、解析および合成が中間符号化なしに、単一の処理ステップで同じ装置で行われる状況もある。トランスポートチャネルの数はまた、任意の適切な数であり得る(むしろ、実施例において議論されるように、1つまたは2つのチャネル)。
【0097】
いくつかの実施形態では、エンコーダ/アナライザ部101がエンコーダ/マルチプレクサ115を備えることができる。エンコーダ/マルチプレクサ115は、搬送オーディオ信号114およびメタデータ112を受信するように構成することができる。エンコーダ/マルチプレクサ115はさらに、エンコードされた、または圧縮された形態のメタデータ情報および搬送オーディオ信号を生成するように構成され得る。いくつかの実施形態では、エンコーダ/マルチプレクサ115は、さらに、伝送または記憶の前に、単一のデータストリーム116にインターリーブし、多重化し、またはエンコードされたオーディオ信号内にメタデータを埋め込むことができる。多重化は、任意の適切なスキームを使用して実施することができる。
【0098】
エンコーダ/マルチプレクサ115は例えば、IVASエンコーダ、または任意の他の適切なエンコーダとして実装することができる。したがって、エンコーダ/マルチプレクサ115はオーディオ信号およびメタデータを符号化し、ビットストリーム116(たとえば、IVASビットストリーム)を形成するように構成される。
【0099】
次いで、このビットストリーム116は鎖線によって示されるように、送信/格納103され得る。いくつかの実施形態では、エンコーダ/マルチプレクサ115は存在しない(したがって、以下で説明するように、デコーダ/デマルチプレクサ121は存在しない)。
【0100】
システム199はさらに、デコーダ/シンセサイザ部105を含むことができる。デコーダ/シンセサイザ部105は、ビットストリーム116を受信し、取り出し、または他の方法で取得し、ビットストリームから、リスナ/リスナ再生装置に提示される適切なオーディオ信号を生成するように構成される。
【0101】
デコーダ/シンセサイザ部105は、ビットストリームを受信し、符号化されたストリームを逆多重化し、次いでオーディオ信号を復号してトランスポート信号124およびメタデータ122を得るように構成されたデコーダ/デマルチプレクサ121を備えることができる。
【0102】
さらに、いくつかの実施形態では、上述したように、デマルチプレクサ/デコーダ121が存在しなくてもよい(例えば、エンコーダ/アナライザ部101およびデコーダ/シンセサイザ105の両方が同じ装置内に位置するので、関連するエンコーダ/マルチプレクサ115が存在しない場合)。
【0103】
デコーダ/シンセサイザ部105は、合成プロセッサ123を備えることができる。合成プロセッサ123は、搬送オーディオ信号124、空間メタデータ122、および追加された室内効果制御信号またはインジケータを取得するように構成され、ヘッドホンを介して再生することができるバイノーラル出力信号128を生成する。
【0104】
このシステムの動作は図2に示すようなフロー・ダイアグラムに関して要約され、図2はステップ201に示すような入力オーディオ信号の受信の例を示している。
【0105】
次に、流れ図は、ステップ203によって図2に示されるような空間メタデータを生成するための入力オーディオ信号の分析(空間)を示す。
【0106】
次いで、ステップ204によって、図2に示すように、入力オーディオ信号から搬送オーディオ信号が生成される。
【0107】
生成された搬送オーディオ信号およびメタデータは次に、ステップ205によって図2に示されるように多重化され得る。これは、図2に任意の破線のボックスとして示されている。
【0108】
符号化された信号はステップ207によって図2に示されるように、搬送オーディオ信号および空間メタデータを生成するために、さらに逆多重化され、復号化されることができる。これは、任意の破線のボックスとしても示されている。
【0109】
次に、ステップ209によって図2に示すように、バイノーラルオーディオ信号を、搬送オーディオ信号、空間メタデータ、および追加された室内効果制御信号またはインジケータに基づいて合成することができる。
【0110】
次いで、合成されたバイノーラルオーディオ信号を、ステップ211によって図2に示すように、適当な出力装置、例えばヘッドフォンのセットに出力することができる。
【0111】
図3を参照すると、合成プロセッサ123がさらに詳細に示されている。
【0112】
いくつかの実施形態では、合成プロセッサ123が時間周波数変換器301を備える。時間周波数変成器301は、時間周波数領域に変換する(時間領域)搬送オーディオ信号122を受信するように構成される。適切な変換は例えば、短時間Fourier変換(STFT)および複素変調直交ミラーフィルタバンク(QMF)を含む。結果として得られる信号は、x(b,n)として示され得る。ここで、iは、チャネルインデックス、bは、時間周波数変換の周波数ビンインデックス、および、nは、時間インデックスである。時間周波数信号は、例えば、ここではベクトル形式で表現される(例えば、ベクトル形式が2つのチャネルの場合)
【数1】
【0113】
次に、以下の処理動作を、時間周波数領域内で、周波数帯域にわたって実施することができる。周波数帯域は、適用された時間周波数トランスフォーマー(フィルターバンク)の1つまたは複数の周波数ビン(個々の周波数成分)とすることができる。いくつかの実施形態では、周波数帯がバーク周波数帯のような知覚的に関連した解像度に近似することができ、この解像度は高周波数よりも低周波数においてスペクトル的により選択的である。あるいは、いくつかの実装形態では周波数帯域が周波数ビンに対応することができる。周波数帯域は、典型的には空間メタデータが分析プロセッサによって決定された周波数帯域(または近似周波数帯域)である。各周波数帯kは、最低周波数ビンblow(k)および最高周波数ビンbhigh(k)に関して定義され得る。
【0114】
いくつかの実施形態における時間周波数搬送信号302は、共分散マトリクス推定器307およびミキサ311に供給され得る。
【0115】
合成プロセッサ123は、いくつかの実施形態では共分散マトリクス推定器307を備える。共分散マトリクス推定器307は時間周波数領域搬送信号302を受信し、時間周波数搬送信号の共分散マトリクスと、それらの全体的エネルギー推定値(周波数帯域内)を推定するように構成される。共分散マトリクスは例えば、いくつかの実施形態では、
【数2】
のように推定することができる。ここで、上付き文字Hは共役転置を示す。共分散マトリクスの推定は、いくつかの時間指数nにわたるIIR平均またはFIR平均のような時間的平均化を含み得る。
【0116】
推定共分散マトリクス310は、混合ルール決定器309に出力することができる。
【0117】
また、共分散マトリクス推定器307は、全体のエネルギー推定値E(k,n)308、すなわち、C(k,n)の対角値の和を生成し、この全体のエネルギー推定値を目標共分散マトリクス決定器305に提供するように構成することができる。
【0118】
いくつかの実施形態では、合成プロセッサ123がHRTF決定器303を備える。HRTF決定器303は、適切に密集したHRTFの設定またはHRTF補間器を含んでもよい。HRTF判定器は、角度θ(k,n)および周波数帯域kに対する2x1複素値ヘッド関連伝達関数(HRTF)h(θ(k,n),k)を決定するように構成される。いくつかの実施形態では、HRTF決定器303が空間メタデータ124を受信し、(空間メタデータにおける方向パラメータである)角度から出力HRTFを決定するように構成される。
【0119】
例えば、帯域kの中間周波数におけるHRTFを決定することができる。リスナの頭方位追跡が含まれる場合、方向パラメータθ(k,n)は現在の頭方位を考慮するために、HRTFを取得する前に修正することができる。
【0120】
HRTF決定器303のHRTFデータセットはいくつかの実施形態では合成プロセッサ123のために事前に定式化され、固定されることができ、複数のHRTFデータセットから選択することができる。いくつかの実施形態ではHRTF決定器303のHRTFデータセットがまた、各帯域kについて拡散フィールド共分散マトリクスを有し、これは例えば、d=1..Dである、方向θの等しく分布したセットをとることによって定式化され得る。拡散フィールドの共分散マトリクスを、
【数3】
のように推定する。
【0121】
HRTFデータは、任意の適切な方法を使用することによってレンダリングされ、補間され得る。例えば、いくつかの実施形態では、HRTFの設定が周波数の関数として、左耳と右耳の両耳間時間差およびエネルギーに分解される。次いで、所与の角度におけるHRTFが必要とされるとき、HRTFセットにおける最も近い既存のデータ点が見出され、所与の角度における遅延およびエネルギーが補間される。これらのエネルギーおよび遅延は次に、使用される複素乗算器として変換することができる。
【0122】
いくつかの実施形態では、HRTFがHRTFデータセットを、周波数帯域内の球面調和バイノーラル復号マトリクスのセットに変換するために内挿される。次いで、任意の角度に対するHRTFはその角度に対する球面調和重みベクトルを定式化し、それをそのマトリックスと乗算することにより決定できる。結果は、再び2×1HRTFベクトルである。
【0123】
幾つかの実施例では、HRTFの補間がそれらを仮想拡声器として扱い、例えば振幅パンニングを介して補間HRTFを得ることによって実施することができる。
【0124】
定義により、HRTFは、無響空間における耳への特定の方向からの応答を指す。しかしながら、HRTFデータセットの代わりに、(HRTF部分に加えて)バイノーラルルームインパルス応答の早期部分も含む別のデータセットを使用することが完全に可能である。このようなデータセットは例えば、1階または壁面の反射に起因するスペクトルおよび他の特徴も含む。
【0125】
HRTFデータ304(これは、h(θ(k,n),k)およびC(k)から構成される)は、HRTF決定器303によって出力され、ターゲット共分散マトリクス決定器305に渡され得る。
【0126】
いくつかの実施形態では、合成プロセッサ123がターゲット共分散マトリクス決定器305を備える。ターゲット共分散マトリクス決定器305は、この例では少なくとも1つの方向パラメータθ(k,n)と、少なくとも1つの直接対総エネルギー比パラメータr(k,n)と、HRTFデータ304と、総エネルギー推定値E(k,n)308とを備えることができる空間メタデータ124を受信するように構成される。次に、共分散マトリクス決定器305は、空間メタデータ124、HRTFデータ304、および全体エネルギー推定値308に基づいて、ターゲット共分散マトリクス306を決定するように構成される。例えば、対象共分散マトリクス決定器305は、
【数4】
により対象共分散マトリクスを定式化することができる。
【0127】
次に、目標共分散マトリクスC(k,n)306を混合規則決定器309に供給することができる。
【0128】
合成プロセッサ123は、いくつかの実施形態では混合規則決定器309を備える。混合ルール決定器309は、ターゲット共分散マトリクス306および推定共分散マトリクス310を受信するように構成される。混合ルール決定器309は、ターゲット共分散マトリクスC(k,n)306および測定された共分散マトリクスC(k,n)310に基づいて混合マトリクスM(k,n)312を生成するように構成される。
【0129】
いくつかの実施形態では、混合マトリクスが、「空間オーディオの時間周波数処理のための最適化共分散領域フレームワーク(Optimized covariance domain framework for time-frequency processing of spatial audio)」、J Vilkamo、T Backstrom, A Kuntz、Journal of Audio Engineering Society 61、no.6(2013):403-411に記載された方法に基づいて生成される。
【0130】
いくつかの実施形態では、混合規則決定器309が混合マトリクスの生成を導くプロトタイプ・マトリクス
【数5】
を決定するように構成される。
【0131】
まとめると、共分散マトリクスC(k,n)を持つ信号に適用すると、共分散マトリクスC(k,n)を持つ信号を生成する混合マトリクスM(k,n)を、最小二乗最適化された方法で提供することができる。マトリックスQは、このようなミキシングにおける信号コンテンツをガイドする。この例ではマトリックスは単に恒等マトリックスであるということになる。左右の処理された信号が元の左右の信号にできるだけ似ているはずだからである。言い換えれば、設計は処理された出力のためにC(k,n)を取得しながら、信号を最小限に変更することである。混合マトリックスM(k,n)は、各周波数帯kについて定式化され、ミキサー311に提供される。
【0132】
この例では、混合マトリクスが入力が、2チャネル搬送オーディオ信号であることに基づいて定義される。しかしながら、これらの方法は、任意の数の搬送オーディオチャネルのための実施形態に適合させることができる。合成プロセッサ123は、いくつかの実施形態ではミキサー311を備える。ミキサー311は、時間周波数オーディオ信号302およびミキシングマトリクス312を受信する。ミキサー311は、各周波数ビンb内の時間周波数オーディオ信号(入力信号)を処理して、2つの処理された(第1または初期の部分)時間周波数信号314を生成するように構成される。これは、例えば、
【数6】
の式に基づいて形成することができる。ここで、周波数帯bは、ビンbが存在するバンドである。
【0133】
上記の手順は、入力信号x(b,n)は、所望の目標共分散マトリクス特性を有する出力信号y(b,n)をレンダリングするために、それらの間に適切なインコヒーレンスを有することを仮定する。状況によっては、入力信号が、例えば、単一のチャネル搬送信号のみが存在する場合、または、そうでなければ信号が高度に相関している場合、適切なチャネル間インコヒーレンスを有さない。したがって、いくつかの実施形態では、相関除去動作が実装されて、相関除去された信号x(b,n)に基づいて相関除去された信号を生成し、上の方程式の信号y(b,n)に追加される特定の残留信号に非相関信号を混合する。このような残留信号を得る手順は公知であり、例えば、上記の基準に記載されている。
【0134】
処理されたバイノーラル(早期の部分)時間周波数信号y(b,n)314は、逆T/F変圧器313に供給される。
【0135】
いくつかの実施形態では、合成プロセッサ123がバイノーラル(早期の部分)時間周波数信号y(b,n)314を受信し、T/F変圧器301によって印加される印加された時間周波数変換に対応する逆時間周波数変換を印加するように構成された逆T/F変圧器313を含む。逆数T/F変換器313の出力は、バイノーラル処理の早期の/ドライ部分(すなわち、遅い残響を含まない)に対応するバイノーラル(早期の部分)信号316である。したがって、上記の手順はバイノーラル処理の(第1の)早い/ドライ部分を説明し、以下のプロセスは、バイノーラル処理の(第2の)遅い/ウェット部分を説明する。ある実施形態では、合成プロセッサ123は、搬送オーディオ信号122を受信し、時間領域残響動作を搬送オーディオ信号122に適用して、追加された室内効果制御(インジケータ)126に基づいて後期残響バイノーラル室効果信号318を生成するように構成された残響器351を備える。しかしながら、いくつかの実施形態における残響器は時間周波数領域の残響器を含み、これは実装される場合、時間周波数搬送信号(例えば、T/F変圧器301によって生成されるよう)を受信するように構成され、その出力は、逆数T/F変圧器313の前で、混合器311の出力と混合されるか、または結合される(または混合器内のバイノーラルT/F早期部分信号314に結合される)。
【0136】
残響器351は、室内効果(すなわち、バイノーラル残響)が出力されるべきかどうかの指標を含む、追加された室内効果制御信号または情報126も受信するように構成される。室内効果が出力されるべきでない場合、残響器351は、出力を提供しないように構成される。室内効果が出力されるべき場合、残響器は以下でさらに詳細に説明されるように、室内効果を追加するように構成されてもよい。追加の室内効果制御126の判定または取得は、任意の適切な方法に基づくことができる。例えば、いくつかの実施形態では、追加の室内効果制御126が利用者から取得されてもよい。いくつかのさらなる実施形態では、追加された室内効果制御126が空間オーディオストリーム(例えば、空間メタデータの中でエンコーダによって設定されたフラグ)と一緒に受信されてもよい。追加室内効果制御126は、空間オーディオストリームに基づいて決定されてもよい。例えば、追加された室内効果制御126は空間オーディオ信号のタイプに基づいて決定されてもよい(例えば、ビットストリームは空間オーディオ信号が5.1サラウンドミックスから生じるという指標を含み、次いで、デコーダは、室内効果をレンダリングすることを知っている)。いくつかの実施形態では、追加された室内効果制御が空間オーディオ信号の分析に基づいて決定されてもよい。例えば、空間オーディオ信号およびメタデータは、空間オーディオ信号が、5.1チャネル信号、または、追加の室内効果が望まれる他の何らかのタイプから生じるかどうかを決定するために監視される。ここでは、追加の室内効果が望ましくないような、空間オーディオをキャプチャする携帯電話などの空間オーディオキャプチャシステムからではなく、追加の室内効果が望ましい。追加の室内効果が望ましくないのは、例えば、空間オーディオ信号に必要な雰囲気および/または残響が既に存在するからである。
【0137】
例えば、5.1サウンドのダウンミックスがトランスポート信号として検出された場合、指標は「室内効果を追加する」ように設定されてもよい。一方、マイク信号がトランスポート信号として検出された場合、表示が「室内効果なし」に設定されることができる。いくつかの実施形態では、追加された室内効果制御はまた、残響を制御する他の情報、例えば、残響時間および周波数の関数としての全体的なレベルを有する可能性がある。
【0138】
残響器351は、残響を生成するために任意の適切な残響方法を実装することができる。例えば、いくつかの実施形態では、残響器351が事前に規定された残響応答を伴う畳み込みを実行するように構成される。例えば、Gardner、William G.「入力/出力遅延なしの効率的な畳み込み(Efficient convolution without input/output delay)」In Audio Engineering Society Convention 97.Audio Engineering Society、1994に記載があるように、畳み込みは、高速フーリエ変換(FFT)畳み込みまたは部分FFT畳み込みを用いて効率的に適用することができる。
【0139】
残響応答は、例えば、BRIRの第1または早期部分(HRTF/乾燥レンダリングに対応する)が完全に減衰され、第2または遅い部分のみを残す、適切なウィンドウ処理によってバイノーラル室インパルス応答(BRIR)から取得されてもよい。このような応答はバイノーラル室内効果信号を生成するために、効率的な畳み込み演算で適用することができる。
【0140】
いくつかの実施形態では、搬送オーディオ信号が1ペアの残響応答で処理される単一のチャネルに加算される。BRIRの典型的な設定と同様に、いくつかの方向からの応答があり、残響応答はセンターフロントBRIRのように、設定内の応答の1つから窓を開けることができるのであろう。残響応答はまた、複数の方向からのBRIRに基づく結合(例えば平均化)応答であることができる。
【0141】
いくつかの実施形態では搬送オーディオチャネルが異なるペアの残響応答で処理され、結果は2チャネル出力を得るために一緒に合計される。この場合、左側のトランスポート信号に対する残響反応は例えば左側の90度のBRIRから、そしてそれに対応して右側に窓を開けることができる。これらの実施形態では、残響応答が複数の方向からのBRIRに基づいて組み合わせる(例えば、平均化する)こともできる。
【0142】
いくつかの実施形態では、残響器は、Vilkamo、J.、Neugebauer、Band Plogsties、J.、「スパース時間領域残響器(sparse frequency-domain reverberator)」、Journal of Audio Engineering Society、59(12)、pp.936-943記載されているような、時間領域残響器またはスパース周波数領域残響器であるフィードバック遅延ネットワーク(FDN)を含む。このような実施形態では、残響時間(T60、すなわち、音が60dB減衰するのに要する時間)および周波数帯域のエネルギーを構成することを可能にする任意の残響構造によって、既存の後期残響応答を知覚的に近似することが可能であり得る。残響器アルゴリズムのこれらの残響パラメータは、近似されている既存の応答の対応する特性に一致するように設定することができる。また、残響パラメータは、目的が既存の遅い部分の応答を模倣しない場合、手動で構成されてもよい。
【0143】
バイノーラル出力のための後期残響は、拡散音場相関が周波数の関数として一致するように生成されるべきであるが、これは既知の様々な方法で説明されている特徴である。周波数帯域に対する拡散技術分野相関は、拡散技術分野共分散マトリクスC(k)から求めることができる。
【0144】
次いで、バイノーラル室効果信号318(残響処理された時間領域信号)を結合器315に供給することができる。
【0145】
コンバイナ315は初期(逆数T/F変成器313からの双胴初期部分信号316)および後期(リバーブ器351からの双胴室効果信号318)を受信し、これらを(別々に左右のチャンネルについて)組み合わせるか、または合計するように構成される。したがって、この組み合わせは、バイノーラル処理の初期/乾燥部分に対応するバイノーラル時間領域信号とバイノーラル室効果信号とを組み合わせて、必要/要求されたときに追加の室効果を有する、結果として得られる空間化されたバイノーラル時間領域信号を生成する。この信号はヘッドホンで再生されることができる。
【0146】
図4を参照すると、合成プロセッサの動作を示す流れ図が示されている。
【0147】
流れ図はステップ401によって図4に示されるように、搬送オーディオ信号、空間メタデータ、および追加された室内効果制御インジケータなどを受信する動作を示す。
【0148】
さらに、HRTFデータは、ステップ402によって図4に示すように決定される。
【0149】
搬送オーディオ信号と追加ルームエフェクト制御に基づくルームエフェクトバイノーラルオーディオ信号の生成が、ステップ403によって図4に示されている。
【0150】
時間周波数領域搬送オーディオ信号の生成は、ステップ405によって図4に示される。
【0151】
T/F搬送オーディオ信号および共分散マトリクスに基づく全体エネルギーに基づく共分散マトリクスの推定を、ステップ407によって図4に示す。
【0152】
HRTFデータ、空間メタデータ、エネルギー推定値に基づく目標共分散マトリクスの判定は、ステップ409によって図4に示される。
【0153】
目標共分散マトリクスと推定共分散マトリクスを決定したら、ステップ411によって図4に示すように、推定共分散マトリクスと目標共分散マトリクスに基づいて混合ルールを決定する。
【0154】
次いで、時間周波数搬送信号は、ステップ413によって図4に示されるような混合ルールに基づいて混合され得る。
【0155】
次いで、これらの混合オーディオ信号は時間領域に戻って変換されるか、または時間領域等価オーディオ信号が図4に示すように、ステップ415によって生成される。
【0156】
室内効果バイノーラルオーディオ信号(必要な場合)および早期混合オーディオ信号は次に、ステップ417によって図4に示すように結合(または合計)することができる。
【0157】
次いで、組み合わせられたバイノーラルオーディオ信号は、ステップ419によって、図4に示されるように出力されてもよい。
【0158】
いくつかの実施形態では、後期残響処理を制御するために空間メタデータを利用することが可能である。バイノーラル再生の文脈におけるバイノーラル残響の重要な目的は、音の外部化/距離知覚を可能にすることである。したがって、状況によっては、残響を、周囲部分よりも多くの音を導くようにレンダリングすることが有用であり得る。したがって、リバーブに供給される信号を制御するために、直接対全エネルギー比パラメータ(または当量のパラメータ)を適用することができる。これは、リバーバレータを適用する前に、周波数帯域内のトランスポート信号に√(r(k,n))を乗算し、周波数領域バイノーラルリバーバレータアルゴリズムを使用することによって達成することができる。さらに、空間メタデータに基づいてリバーバレータに供給される信号の量に対する任意のタイプの制御を実施することができる。
【0159】
図5に関して、上述したように、システムの装置部品のいずれかとして使用され得る例示的な電子装置。デバイスは、任意の適切な電子デバイスまたは装置であることができる。例えば、いくつかの実施形態では、デバイス1700がモバイルデバイス、ユーザ装置、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。この装置は例えば、図1に示すようにエンコーダ/アナライザ部101またはデコーダ/シンセサイザ部105、または上述のような任意の機能ブロックを実装するように構成することができる。
【0160】
いくつかの実施形態では、デバイス1700が少なくとも1つのプロセッサまたは中央処理装置1707を備える。
【0161】
プロセッサ1707は、本明細書で説明されるような方法などの様々なプログラムコードを実行するように構成され得る。
【0162】
いくつかの実施形態では、装置1700が記憶装置1711を備える。
【0163】
いくつかの実施形態では、少なくとも1つのプロセッサ1707が記憶装置1711に結合される。記憶装置1711は、任意の適切な記憶手段とすることができる。
【0164】
ある実施形態では、記憶装置1711がプロセッサ1707上に実装可能なプログラムコードを格納するためのプログラムコードセクションを含む。さらに、いくつかの実施形態では、記憶装置1711が、データ、例えば、本明細書で説明される実施形態にしたがって処理された、または処理されるべきデータを格納するための格納されたデータセクションをさらに備えることができる。プログラム・コード・セクション内に記憶された実施されたプログラム・コードおよび記憶されたデータ・セクション内に記憶されたデータは、メモリ・プロセッサ結合を介して必要なときにいつでもプロセッサ1707によって検索することができる。
【0165】
いくつかの実施形態では、装置1700がユーザインターフェース1705を備える。ユーザインターフェース1705は、いくつかの実施形態ではプロセッサ1707に結合することができる。いくつかの実施形態では、プロセッサ1707がユーザインターフェース1705の動作を制御し、ユーザインターフェース1705から入力を受信することができる。いくつかの実施形態では、ユーザインターフェース1705がユーザが例えばキーパッドを介してデバイス1700にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインターフェース1705が、ユーザが装置1700から情報を取得することを可能にすることができる。例えば、ユーザインターフェース1705は、装置1700からユーザに情報を表示するように構成されたディスプレイを備えることができる。ユーザインターフェース1705は、いくつかの実施形態では情報を装置1700に入力することを可能にすることと、装置1700のユーザに情報をさらに表示することとの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態では、ユーザインターフェース1705が通信するためのユーザインターフェースであることができる。
【0166】
いくつかの実施形態では、装置1700が入力/出力ポート1709を備える。入出力ポート1709は、いくつかの実施形態ではトランシーバを備える。そのような実施形態におけるトランシーバはプロセッサ1707に結合され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバまたは任意の好適なトランシーバまたは送信機および/または受信機手段は、いくつかの実施形態では有線または有線結合を介して他の電子デバイスまたは装置と通信するように構成することができる。
【0167】
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、 トランシーバが適切なユニバーサル移動通信システム(UMTS)プロトコル、例えばIEEE802.Xのような無線ローカルエリアネットワーク(WLAN)プロトコル、ブルートゥース(登録商標)(Bluetooth(登録商標))のような適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路(IRDA)を使用することができる。
【0168】
トランシーバ入出力ポート1709は、信号を受信するように構成されてもよい。
【0169】
いくつかの実施形態では、装置1700が合成装置の少なくとも一部として使用されてもよい。入力/出力ポート1709は、ヘッドホン(ヘッドトラック式または非トラック式ヘッドホンであることができる)または同様のものに結合されてもよい。
【0170】
一般に、本発明の様々な実施形態は、ハードウェアまたは専用回路、ソフトウェア、ロジック、またはそれらの任意の組合せで実施することができる。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様はコントローラ、マイクロプロセッサ、または他の計算装置によって実行されてもよいファームウェアまたはソフトウェアで実装されてもよいが、本発明はそれに限定されない。本発明の様々な態様はブロック図、フローチャートとして、またはいくつかの他の絵画的表現を使用して図示および目的され得るが、本明細書で目的されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラ、または他の計算装置、あるいはそれらのいくつかの組合せで実装され得ることをよく理解されたい。
【0171】
本発明の実施形態は、モバイルデバイスのデータプロセッサによって、実行可能なコンピュータソフトウェアで実現することができる。例えば、プロセッサ・エンティティのような、またはハードウェアによって、またはソフトウェアとハードウェアの組み合わせによって実装される。さらに、この点に関して、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップと論理回路、ブロックおよび機能の組合せを表すことができることに留意されたい。このソフトウェアは、メモリチップなどの物理媒体、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー(登録商標)ディスクなどの磁気媒体、およびたとえばDVDやそのデータの別形のCDなどの光学媒体に格納することができる。
【0172】
メモリは、ローカル技術環境に適した任意のタイプのものとすることができ、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよびリムーバブルメモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データプロセッサは、ローカル技術環境に適した任意のタイプとすることができ、非限定的な例として、汎用コンピュータ、専用コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路、およびマルチコアプロセッサアーキテクチャに基づくプロセッサのうちの1つ以上を含むことができる。
【0173】
本発明の実施形態は、集積回路モジュールなどの様々な部品で実施することができる。集積回路の設計は高度に自動化された処理によるものであり、大規模である。論理レベルの設計を、エッチングされ、半導体基板上に形成される準備ができている整った半導体回路設計に変換するための、複雑で強力なソフトウェアツールが利用可能である。
【0174】
カリフォルニア州サンノゼにあるSynopsys、Incof Mountain View、California and Cadence Designから提供されているようなプログラムは設計の十分に確立されたルール、および予め記憶された設計モジュールのライブラリを用いて、導体を自動的にルーティングし、半導体チップ上の部品の位置を特定する。
【0175】
半導体回路の設計が完了すると、標準化された電子フォーマット(例えば、Opus、GDSIIなど)の結果として得られる設計は、製造のために半導体製造施設または「ファブ」に送信されてもよい。
【0176】
前述の説明は、本発明の例示的な実施形態の完全かつ有益な説明を、例示的かつ非限定的な例として提供した。
【0177】
しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になるのであろう。
【0178】
しかしながら、本発明の教示の全てのそのような同様の修正は、添付の特許請求の範囲に定義される本発明の範囲内に依然として含まれる。
図1
図2
図3
図4
図5