IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特許7043533音場記述を生成する装置、方法、及びコンピュータプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-18
(45)【発行日】2022-03-29
(54)【発明の名称】音場記述を生成する装置、方法、及びコンピュータプログラム
(51)【国際特許分類】
   G10L 19/008 20130101AFI20220322BHJP
【FI】
G10L19/008 100
【請求項の数】 16
(21)【出願番号】P 2020037421
(22)【出願日】2020-03-05
(62)【分割の表示】P 2018523004の分割
【原出願日】2017-03-10
(65)【公開番号】P2020098365
(43)【公開日】2020-06-25
【審査請求日】2020-04-06
(31)【優先権主張番号】16160504.3
(32)【優先日】2016-03-15
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085660
【弁理士】
【氏名又は名称】鈴木 均
(72)【発明者】
【氏名】ハーベツ,エマニュエル
(72)【発明者】
【氏名】ティエルガルト,オリヴァー
(72)【発明者】
【氏名】ケッヒ,ファビアン
(72)【発明者】
【氏名】ニーダーライトナー,アレクサンダー
(72)【発明者】
【氏名】カーン,アファン-ハサン
(72)【発明者】
【氏名】マーネ,ディルク
【審査官】菊池 智紀
(56)【参考文献】
【文献】特表2015-537256(JP,A)
【文献】特表2013-545382(JP,A)
【文献】特表2014-501945(JP,A)
【文献】特表2015-527609(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/008
H04R 3/00-31/00
H04S 1/00- 7/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
1つ以上の音場コンポーネントの表現を有する音場記述を生成する装置であって、
複数の音信号の複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を判定する方向判定器(102)と、
前記装置は、各時間-周波数タイルに対して、前記1つ以上の音方向に応じて1つ以上の応答関数を計算するように構成され、
前記装置は、各時間―周波数タイルに対して、複数の音信号から1つ以上の基準音信号または1つ以上の直接音信号および1つ以上の拡散音信号を得るように構成され、
前記複数の時間-周波数タイルの各時間-周波数タイルに対して、前記1つ以上の応答関数を用いて、前記1つ以上の基準音信号または前記1つ以上の直接音信号および前記1つ以上の拡散音信号を評価し、前記1つ以上の音場コンポーネントを得るか、1つ以上の直接音場コンポーネントおよび1つ以上の拡散音場コンポーネントを得る音場コンポーネント計算器(201)と、を備える装置。
【請求項2】
前記複数の時間-周波数タイルの各時間-周波数タイルに対して、前記1つ以上の音方向を用いて1つ以上の空間基底関数を評価して、1つ以上の応答関数を得る空間基底関数評価器(103)、をさらに備える請求項1に記載の装置。
【請求項3】
前記音場コンポーネント計算器(201)は、所望の次数またはモードの複数の音場コンポーネントを計算するように構成され、
さらに、前記音場コンポーネント計算器(201)は、所望の次数またはモードの最終的な音場コンポーネントを得て、対応する音場コンポーネントを合計するように構成される請求項1または2に記載の装置。
【請求項4】
前記音場コンポーネント計算器は、異なる次数またはモードについて前記1つ以上の拡散音場コンポーネントを非相関化するように構成される、請求項1に記載の装置。
【請求項5】
前記音場コンポーネント計算器(201)は、前記1つ以上の直接音場コンポーネントのうちの直接音場コンポーネントと前記1つ以上の拡散音場コンポーネントのうちの拡散音場コンポーネントとを合計するように構成され、
特定の次数またはモードに対して、前記特定の次数またはモードの最終的な音場コンポーネントを得る、請求項1または4に記載の装置。
【請求項6】
複数の時間領域音信号のそれぞれを、前記複数の時間-周波数タイルを有する時間-周波数表現に変換する時間-周波数変換器(101)をさらに備える、請求項1乃至5の何れか1項に記載の装置。
【請求項7】
前記1つ以上の音場コンポーネント、または前記1つ以上の直接音場コンポーネントと前記1つ以上の拡散音場コンポーネントとを結合したものを、前記音場コンポーネントの時間領域表現に変換する周波数-時間変換器(20)をさらに備える、請求項1乃至6の何れか1項に記載の装置。
【請求項8】
前記周波数-時間変換器(20)は、前記1つ以上の直接音場コンポーネントを処理して複数の時間領域直接音場コンポーネントを得るように構成され、前記周波数-時間変換器(20)は、前記拡散音場コンポーネントを処理して複数の時間領域拡散音場コンポーネントを得るように構成され、
結合器(401)は、時間領域において直接音場コンポーネントと前記時間領域拡散音場コンポーネントとの結合を行うように構成され、
また結合器(401)は、周波数領域において、ある時間-周波数タイルの前記1つ以上の直接音場コンポーネントと、該当する時間-周波数タイルの前記1つ以上の拡散音場コンポーネントとを結合するように構成され、
前記周波数-時間変換器(20)は、前記結合器(401)の結果を処理して前記時間領域の音場コンポーネントを得るように構成される、請求項7に記載の装置。
【請求項9】
前記1つ以上の音方向を用いて、前記1つ以上の音方向に基づいて前記複数の音信号から特定の音信号を選択することを用いて、或いは、
前記複数の音信号のうちの2つ以上の音信号に適用される多チャンネルフィルタであって、前記1つ以上の音方向と、前記複数の音信号が得られるマイクロフォンの個々の位置とに依存する多チャンネルフィルタを用いて、
前記複数の音信号から1つ以上の参照音信号を計算する参照信号計算器(104)をさらに備える、請求項1乃至8のいずれか一項に記載の装置。
【請求項10】
前記空間基底関数評価器(103)は、前記1つ以上の空間基底関数のうちの1つの空間基底関数として、パラメータが音方向であるパラメータ化表現を用い、前記音方向に対応するパラメータを前記パラメータ化表現に挿入して各空間基底関数または前記1つ以上の空間基底関数の評価結果を得るように構成される、或いは、
前記空間基底関数評価器(103)は、入力として空間基底関数識別と、前記音方向とを有し、出力として評価結果を有する前記1つ以上の空間基底関数のうちの各空間基底関数に対して、ルックアップ・テーブルを用い、前記空間基底関数評価器(103)は、前記方向判定器によって判定された前記1つ以上の音方向に対して、前記ルックアップ・テーブル入力の対応する音方向を判定する、または前記方向判定器によって判定された前記1つ以上の音方向に隣接する2つのルックアップ・テーブル入力の加重または非加重平均を計算するように構成される、或いは、
前記空間基底関数評価器(103)は、前記1つ以上の空間基底関数のうちの空間基底関数として、パラメータが音方向であり、前記音方向が、二次元状況では方位角などの一次元または三次元状況では方位角および仰角などの二次元である、パラメータ化表現を用い、前記音方向に対応するパラメータを前記パラメータ化表現に挿入して、前記1つ以上の空間基底関数のうちの各空間基底関数に対する評価結果を得るように構成される、請求項2に記載の装置。
【請求項11】
前記空間基底関数評価器(103)は、時間方向または周波数方向で動作する、評価結果を平滑化するゲイン平滑器(111)を備え、
前記音場コンポーネント計算器(201)は、前記1つ以上の音場コンポーネントまたは前記1つ以上の直接音場コンポーネントおよび前記1つ以上の拡散音場コンポーネントを計算する際に、平滑化された評価器結果を使用するように構成される、請求項2に記載の装置。
【請求項12】
前記空間基底関数評価器(103)は、二次元または三次元状況のアンビソニックスに対して前記1つ以上の空間基底関数を用いるように構成される、請求項2に記載の装置。
【請求項13】
前記空間基底関数評価器(103)は、少なくとも2つのレベルまたは次数または少なくとも2つのモードの前記1つ以上の空間基底関数のうちの空間基底関数を少なくとも用いるように構成される、請求項12に記載の装置。
【請求項14】
前記音場コンポーネント計算器(201)は、レベル0、レベル1、レベル2、レベル3、レベル4からなるレベルのグループのうち少なくとも2つのレベルに対する前記音場コンポーネントを計算するように構成される、或いは、
前記音場コンポーネント計算器(201)は、モード-4、モード-3、モード-2、モード-1、モード0、モード1、モード2、モード3、モード4からなるモードのグループのうち少なくとも2つのモードに対する前記音場コンポーネントを計算するように構成される、請求項13に記載の装置。
【請求項15】
音場コンポーネントの表現を有する音場記述を生成する方法であって、
複数の音信号の複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を判定し(102)、
各時間-周波数タイルに対して、前記1つ以上の音方向に応じて1つ以上の応答関数を計算し、
各時間-周波数タイルに対して、複数の音信号から1つ以上の基準音信号または1つ以上の直接音信号および1つ以上の拡散音信号を得て、さらに、
前記複数の時間-周波数タイルの各時間-周波数タイルに対して、前記1つ以上の基準音信号または前記1つ以上の直接音信号および前記1つ以上の拡散音信号を前記1つ以上の応答関数を用いて評価し、前記1つ以上の音場コンポーネントを得る、または1つ以上の直接音場コンポーネントおよび1つ以上の拡散音場コンポーネントを得る、ことを含む方法。
【請求項16】
コンピュータまたはプロセッサ上で実行されるときに、請求項15に記載の、音場コンポーネントの表現を有する音場記述を生成する方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音場記述を生成する装置、方法、及びコンピュータプログラムに関し、さらに、音方向情報を用いた時間-周波数領域の(高次)アンビソニックス信号の合成に関する。
【背景技術】
【0002】
本発明は、空間音声記録再生の分野に属する。空間音声記録は、再生側において聞き手が収録場所にいるかのようにサウンド・イメージを認識するよう、多数のマイクロフォンで音場を捕らえることを目指す。空間音声記録の標準的な手法では、通常、間隔をあけて配置した全指向性マイクロフォン(例えば、ABステレオ)、または同位置の指向性マイクロフォン(例えば、インテンシティステレオ)を用いる。
記録された信号は、標準的なステレオ・ラウドスピーカー・セットアップから再生されて、ステレオサウンド・イメージを得ることができる。
例えば、5.1ラウドスピーカー・セットアップを用いたサラウンド音響再生には、同様の録音技術、例えばラウドスピーカーの位置に向けた5つのカーディオイドマイクロフォン[ArrayDesign](非特許文献3)を用いることができる。
最近では、7.1+4ラウドスピーカー・セットアップなどの3D音響再生システムが登場し、4つの高さスピーカーを用いて高度な音を再生している。
このようなラウドスピーカー・セットアップ用の信号は、例えば非常に特定の、間隔をあけて配置された3Dマイクロフォン・セットアップ[MicSetup3D](非特許文献13)で記録することができる。これらすべての録音技術は、特定のラウドスピーカー・セットアップ用に設計されているため、例えば記録された音を異なるラウドスピーカー構成で再生すべき時など、実用適用性が限られているという点において共通である。
【0003】
特定のラウドスピーカー・セットアップ用の信号を直接記録する代わりに中間フォーマットの信号を記録すれば、任意のラウドスピーカー・セットアップの信号を再生側で生成でき、柔軟性が高くなる。
このような中間フォーマットは実用面において確立されており、(高次)アンビソニックス[Ambisonics](非特許文献1)に代表される。アンビソニックス信号からは、ヘッドフォン再生用のバイノーラル信号を含む、各所望のラウドスピーカー・セットアップの信号を生成することができる。これには、標準的なアンビソニックスレンダラー[Ambisonics](非特許文献1)、指向性オーディオ符号化(DirAC)[DirAC](非特許文献6)、HARPEX[HARPEX](非特許文献11)など、アンビソニックス信号に適用される特定のレンダラーが必要である。
【0004】
アンビソニックス信号は、各チャンネル(アンビソニックスコンポーネントと言う)がいわゆる空間基底関数の係数に相当する、多チャンネル信号を表す。これらの(各係数に対応する重みを持つ)空間基底関数の加重和により、録音場所での元の音場を再生成することができる[FourierAcoust](非特許文献10)。
したがって、空間基底関数係数(すなわち、アンビソニックスコンポーネント)は、録音場所での音場のコンパクトな記述を表す。空間基底関数には、例えば、球面調和関数(SHs)[FourierAcoust](非特許文献10)や円筒調和関数(CHs)[FourierAcoust](非特許文献10)など異なるタイプのものがある。CHsは、(例えば2D音再生のために)2D空間の音場を記述する時に用いることができ、SHsは、(例えば2Dおよび3D音再生のために)2Dおよび3D空間の音場を記述するのに用いることができる。
【0005】
3D空間基底関数(SHsなど)の場合、異なる次数lとモードmに対する空間基底関数が存在する。この後者の場合、mとlがl≧0かつ-l≦m≦lの範囲の整数である場合、各次数lに対してm=2l+1モードが存在する。対応する空間基底関数の例が図1aに示されていて、異なる次数lとモードmに対する球面調和関数が図示されている。
ただし、次数lは「レベル」と称されることもあり、モードmは「度」と称されることもある。
図1aから分かるように、ゼロ次(第ゼロのレベル)l=0の球面調和関数は、記録場所での全指向音圧を表し、1次(第1のレベル)l=1の球面調和関数は、デカルト座標系の3次元に沿った双極子コンポーネントを表している。
これは、ある特定の次数(レベル)の空間基底関数は、次数lのマイクロフォンの指向性を記述することを意味する。
言い換えると、空間基底関数の係数は、次数(レベル)lおよびモードmのマイクロフォンの信号に対応する。ただし、異なる次数およびモードの空間基底関数は互いに直交する。これは、例えば純粋な拡散音場において、全ての空間基底関数の係数が互いに無相関であることを意味する。
【0006】
上述したように、あるアンビソニックス信号の各アンビソニックスコンポーネントは、特定のレベル(およびモード)の空間基底関数係数に対応する。
例えば、SHsを空間基底関数として用いて音場をレベルl=1まで記述した場合、アンビソニックス信号は、4つのアンビソニックスコンポーネントを備えることになる(なぜなら次数l=0に対する1モード+次数l=1に対する3モードがあるため)。
以下では、最高次l=1のアンビソニックス信号を1次アンビソニックス(FOA)と呼び、最高次l>1のアンビソニックス信号を高次アンビソニックス(HOA)と呼ぶ。音場を記述するために高次のlを用いた場合、空間分解能が高くなる、すなわち音場を高精度で記述または再生成することができる。
したがって、ごくわずかの次数のみでも音場を記述することはできるが精度が低くなり(ただしデータ量は少ない)、より高い次数を用いれば精度を高く(データ量を多く)することができる。
【0007】
異なる空間基底関数には、異なるが密接に関連した数学的定義がある。例えば、複素数値球面調和関数だけでなく、実数値球面調和関数も演算することができる。さらに、球面調和関数は、SN3D、N3DまたはN2D正規化などの異なる正規化項で演算してもよい。異なる定義は、例えば[Ambix](非特許文献2)において見られる。幾つかの具体例を本発明の説明および実施の形態とともに後で示す。
【発明の概要】
【発明が解決しようとする課題】
【0008】
所望のアンビソニックス信号は、多数のマイクロフォンによる録音から判定することができる。アンビソニックス信号を得る簡単な方法は、マイクロフォン信号からアンビソニックス信号(空間基底関数係数)を直接計算することである。
この手法では、例えば円上または球の表面上など、非常に特定の位置で音圧を測定することが要求される。
その後、空間基底関数係数は、例えば[FourierAcoust, p. 218](非特許文献10)に述べられているように、測定した音圧を積分することによって演算することができる。
この直接的な手法では、特定のマイクロフォン・セットアップ、例えば全指向性マイクロフォンの円配列または球面配列が必要となる。商用のマイクロフォン・セットアップの2つの典型的な例は、SoundField ST350マイクロフォンと、EigenMike(登録商標)[EigenMike](非特許文献7)である。
残念ながら、特定のマイクロフォン配置が必要であるために、例えばマイクロフォンを小型の装置に組み込む必要がある時、あるいはマイクロフォン配列をビデオカメラと組み合わせる必要がある場合に、実用適用性がかなり限定されてしまう。
さらに、この直接的な手法で高次の空間係数を決定するには、ノイズに対する十分なロバスト性を確保するために比較的多数のマイクロフォンが必要となる。従って、アンビソニックス信号を得る直接的な方法は、非常に費用がかかることが多い。
【0009】
本発明の目的は、音場コンポーネントの表現を有する音場記述を生成するための改良された概念を提供することにある。
【課題を解決するための手段】
【0010】
この目的は、請求項1による装置、請求項23による方法、または請求項24によるコンピュータプログラムによって達成される。
【0011】
本発明は、音場コンポーネントの表現を有する音場記述を生成する装置、方法、またはコンピュータプログラムに関する。方向判定器では、複数のマイクロフォン信号の複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向が判定される。空間基底関数評価器は、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を用いて1つ以上の空間基底関数を評価する。
さらに、音場コンポーネント計算器は、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を用いて評価された1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントを、対応する時間-周波数タイルに対する、複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出された参照信号を用いて計算する。
【0012】
本発明は、任意の複合音場を記述する音場記述は、時間-周波数タイルからなる時間-周波数表現内の複数のマイクロフォン信号から効率的に導出できるという研究結果に基づくものである。
これらの時間-周波数タイルは、一方では複数のマイクロフォン信号を参照し、他方では音方向を判定するために用いられる。よって、音方向判定は、時間-周波数表現の時間-周波数タイルを用いてスペクトル領域内で行われる。そして、以降の処理の大部分は、同じ時間-周波数表現内で行われることが好ましい。
この目的のために、空間基底関数の評価は、各時間-周波数タイルに対して判定された1つ以上の音方向を用いて実行される。空間基底関数は、音方向に依存するが、周波数には影響されない。よって、周波数領域信号、すなわち時間-周波数タイルの信号による空間基底関数の評価が適用される。同じ時間-周波数表現内では、1つ以上の音方向を用いて評価された1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントは、やはり同じ時間-周波数表現内に存在する参照信号とともに計算される。
【0013】
信号の各ブロックおよび各周波数ビンに対する、すなわち各時間-周波数タイルに対する、これら1つ以上の音場コンポーネントを最終結果としてもよいし、あるいは1つ以上の空間基底関数に対応する1つ以上の時間領域音場コンポーネントを得るために、時間領域への再変換を行ってもよい。
実施によっては、上記1つ以上の音場コンポーネントは、時間-周波数タイルを用いて時間-周波数表現内で判定された直接音場コンポーネントであってもよいし、典型的には直接音場コンポーネントに加えて判定される拡散音場コンポーネントであってもよい。そして、直接部分と拡散部分を有する最終的な音場コンポーネントは、直接音場コンポーネントと拡散音場コンポーネントを結合することによって得ることができ、この結合は、実際の実施に応じて時間領域または周波数領域のいずれかで行うことができる。
【0014】
1つ以上のマイクロフォン信号から参照信号を導出するために、いくつかの手順を実行することができる。このような手順は、複数のマイクロフォン信号から、あるマイクロフォン信号を単純に選択すること、あるいは上記1つ以上の音方向に基づいた高度な選択を行うことからなることができる。
高度な参照信号判定では、マイクロフォン信号が導出されたマイクロフォンのうち、音方向の最も近くに位置するマイクロフォンからの特定のマイクロフォン信号を、上記複数のマイクロフォン信号から選択する。さらなる代替案では、多チャンネルフィルタを2つ以上のマイクロフォン信号に適用して、これらのマイクロフォン信号を一緒にフィルタリングすることによって、時間ブロックのすべての周波数タイルに対して共通の参照信号が得られる。
あるいは、時間ブロック内の異なる周波数タイルに対して異なる参照信号を導出してもよい。異なる時間ブロックに対するものではあるが、これら異なる時間ブロック内の同じ周波数に対する異なる参照信号も、もちろん生成することができる。
従って、実施によっては、ある時間-周波数タイルに対する参照信号を、複数のマイクロフォン信号から自由に選択または導出することができる。
【0015】
これに関連して、マイクロフォンは任意の場所に配置することができることを強調しておく。マイクロフォンは、異なる指向性を有していても良い。さらに、複数のマイクロフォン信号は、必ずしも実在する物理的マイクロフォンによって録音された信号である必要はない。むしろ、マイクロフォン信号は、実在する物理的マイクロフォンを模倣した、あるデータ処理操作を用いて、ある音場から人工的に作成したマイクロフォン信号であってもよい。
【0016】
いくつかの実施の形態では、拡散音場コンポーネントを判定するために、異なる手順が可能であり、実施によってはこれらが有用である。典型的には、拡散部分は複数のマイクロフォン信号から参照信号として導出され、この(拡散)参照信号は、ある次数(またはレベルおよび/またはモード)の空間基底関数の平均応答とともに後に処理されて、この次数またはレベルまたはモードに対する拡散音コンポーネントが得られる。
従って、直接音コンポーネントは、所定の到来方向により、所定の空間基底関数の評価を用いて計算され、拡散音コンポーネントは当然、所定の到来方向を用いて計算されるのではなく、拡散参照信号を用い、かつ、この拡散参照信号と、ある次数またはレベルまたはモードの空間基底関数の平均応答を、所定の関数によって結合することによって計算される。
この関数による結合は、例えば、直接音コンポーネントの計算でも実行できるように乗算であってもいいし、例えば対数領域での計算が行われる際には、この結合は、加重乗算または加算または減算であってもよい。
乗算または加算/減算とは異なる他の結合は、さらなる非線形または線形関数を用いて実行することができるが、非線形関数が好ましい。ある直接音場コンポーネントと拡散音場コンポーネントを生成した後、直接音場コンポーネントと拡散音場コンポーネントを各時間-周波数タイルごとにスペクトル領域内で結合することによって、結合を実行することができる。
あるいは、ある次数の拡散音場コンポーネントと直接音場コンポーネントを、周波数領域から時間領域に変換することができ、その後、ある次数の直接時間領域コンポーネントと拡散時間領域コンポーネントの時間領域組み合わせも行うことができる。
【0017】
状況によっては、拡散音場コンポーネントを非相関化するために更に非相関器を用いても良い。あるいは、非相関化された拡散音場コンポーネントは、異なる次数の異なる拡散音場コンポーネントに対する異なるマイクロフォン信号または異なる時間/周波数ビンを用いることによって、あるいは直接音場コンポーネントの計算のための異なるマイクロフォン信号と、拡散音場コンポーネントの計算のための異なるマイクロフォン信号とを用いることによって、生成されることができる。
【0018】
好適な実施の形態では、上記空間基底関数は、公知のアンビソニックス音場記述の、あるレベル(次数)およびモードに関連した空間基底関数である。ある次数およびあるモードの音場コンポーネントは、あるレベルおよびあるモードと関連したアンビソニックス音場コンポーネントに対応するであろう。典型的には、第1の音場コンポーネントは、図1aに次数l=0およびモードm=0に対して示すように、全指向性空間基底関数に関連した音場コンポーネントとなるであろう。
【0019】
第2の音場コンポーネントは、例えば、図1aに関して次数l=1およびモードm=-1に対応するx方向内の最大指向性を有する空間基底関数と関連づけられてもよかろう。第3の音場コンポーネントは、例えば、図1aのモードm=0、次数l=1に対応するであろうy方向の指向性を有する空間基底関数とすることができ、第4の音場コンポーネントは、例えば図1aのモードm=1、次数l=1に対応するz方向の指向性を有する空間基底関数とすることができよう。
【0020】
ただし、もちろん、アンビソニックスとは別の他の音場記述も当業者にとって公知であり、アンビソニックス空間基底関数とは異なる空間基底関数に依存する、このような他の音場コンポーネントを、先に述べたように時間-周波数表現内で計算することも有益である。
【0021】
以下の発明の実施形態では、アンビソニックス信号を得る実用的な方法について述べる。上述した最先端の手法とは対照的に、本手法は、2つ以上のマイクロフォンを有する任意のマイクロフォン・セットアップに適用することができる。さらに、高次のアンビソニックスコンポーネントを、比較的少ないマイクロフォンのみを用いて算出することができる。
従って、本手法は、比較的安価で実用的である。提案される実施の形態では、アンビソニックスコンポーネントは、上述した最先端の手法に関して特定の面に沿った音圧情報から直接算出するのではなく、パラメトリック手法に基づいて合成される。
このために、例えばDirAC[DirAC](非特許文献6)で用いたのと同様の、やや単純な音場モデルが想定される。さらに詳細には、録音場所の音場は、特定の音方向から到来する1つまたは数個の直接音に加えて、全ての方向から到来する拡散音からなると想定される。
このモデルに基づき、さらに直接音の音方向など音場に関するパラメトリック情報を用いることにより、アンビソニックスコンポーネントまたは任意の他の音場コンポーネントを、音圧をごく数回測定したものから合成することができる。本手法については、以下の項で詳細に説明する。
【0022】
本発明の好適な実施の形態について、添付の図面を参照して以下で説明する。
【図面の簡単な説明】
【0023】
図1a図1aは、異なる次数およびモードの球面調和関数を示す。
図1b図1bは、どのように参照マイクロフォンを到来方向情報に基づいて選択するかの一例を示す。
図1c図1cは、音場記述を生成する装置または方法の好ましい実施を示す。
図1d図1dは、例示的なマイクロフォン信号の時間-周波数変換を示し、周波数ビン10、時間ブロック1の特定の時間-周波数タイル(10,1)と、周波数ビン5、時間ブロック2の時間-周波数タイル(5,2)が明確に特定されている。
図1e図1eは、特定された周波数ビン(10,1)および(5,2)に対する音方向を用いた4つの例示的な空間基底関数の評価を図示する。
図1f図1fは、2つのビン(10,1)および(5,2)に対する音場コンポーネントの計算、およびその後の周波数-時間変換とクロスフェード/重畳加算処理を図示する。
図1g図1gは、図1fの処理で得られた例示的な4つの音場コンポーネントb~bの時間領域表現を図示する。
図2a図2aは、本発明の概略ブロック図を示す。
図2b図2bは、本発明の概略ブロック図を示し、結合器の前に逆時間-周波数変換が適用されている。
図3a図3aは、参照マイクロフォン信号および音方向情報から、所望のレベルおよびモードのアンビソニックスコンポーネントを算出する本発明の実施の形態を示す。
図3b図3bは、参照マイクロフォンを到来方向情報に基づいて選択する本発明の実施の形態を示す。
図4図4は、直接音アンビソニックスコンポーネントと拡散音アンビソニックスコンポーネントを算出する本発明の実施の形態を示す。
図5図5は、拡散音アンビソニックスコンポーネントを非相関化する本発明の実施の形態を示す。
図6図6は、直接音と拡散音を多数のマイクロフォンおよび音方向情報から抽出する本発明の実施の形態を示す。
図7図7は、拡散音を多数のマイクロフォンから抽出し、拡散音アンビソニックスコンポーネントを非相関化する本発明の実施の形態を示す。
図8図8は、ゲイン平滑化を空間基底関数応答に適用する本発明の実施の形態を示す。
【発明を実施するための形態】
【0024】
好適な実施の形態を図1cに示す。図1cは、音場コンポーネントの時間領域表現や音場コンポーネントの周波数領域表現、符号化または復号化表現、または中間表現などの音場コンポーネントの表現を有する音場記述130を生成する装置または方法の実施の形態を示す。
【0025】
この目的で、方向判定器102は、複数のマイクロフォン信号の複数の時間-周波数タイルの各時間-周波数タイルに対して1つ以上の音方向131を判定する。
【0026】
従って、方向判定器は、その入力132において、少なくとも2つの異なるマイクロフォン信号を受信し、これら2つのマイクロフォン信号のそれぞれに対して、典型的には、スペクトルビンの次のブロックからなる時間-周波数表現が利用でき、スペクトルビンのブロックは、ある時間インデックスnと関連付けられ、周波数インデックスはkである。ある時間インデックスに対する周波数ビンのブロックは、あるウインドウ化操作によって生成される時間領域サンプルのブロックに対する時間領域信号のスペクトルを表す。
【0027】
音方向131は、空間基底関数評価器103によって、複数の時間-周波数タイルの各時間-周波数タイルごとに、1つ以上の空間基底関数を評価するために用いられる。よって、ブロック103における処理の結果は、各時間-周波数タイルごとの1つ以上の評価空間基底関数となる。
図1eおよび1fを参照して述べるように、4つの空間基底関数など、2つあるいはさらに多くの異なる空間基底関数を用いるのが好ましい。よって、ブロック103の出力133では、時間-スペクトル表現の異なる時間-周波数タイルに対する異なる次数およびモードの評価空間基底関数が得られ、音場コンポーネント計算器201に入力される。
音場コンポーネント計算器201は、参照信号計算器(図1cには図示せず)によって生成される参照信号134もさらに用いる。参照信号134は、複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出され、同じ時間/周波数表現内の音場コンポーネント計算器によって用いられる。
【0028】
よって、音場コンポーネント計算器201は、複数の時間-周波数タイルの各時間-周波数タイルに、その時間-周波数タイルに対する1つ以上の参照信号の助けを借りて、1つ以上の音方向を用いて評価された1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントを計算するように構成されている。
【0029】
実施によっては、空間基底関数評価器103は、二次元の場合は一次元、三次元の場合は二次元となる音方向がパラメータであるパラメータ化表現を空間基底関数に対して用い、音方向に対応するパラメータをパラメータ化表現に挿入して各空間基底関数に対する評価結果を得るように構成されている。
【0030】
あるいは、空間基底関数評価器は、入力として空間基底関数識別および音方向を有し、出力として評価結果を有する各空間基底関数に対するルックアップ・テーブルを用いるように構成されている。この場合、空間基底関数評価器は、方向判定器102によって判定された1つ以上の音方向に対して、ルックアップ・テーブル入力の対応する音方向を判定するように構成されている。典型的には、例えば10種類の異なる音方向など、一定数のテーブル入力が存在するように異なる方向入力が量子化される。
【0031】
空間基底関数評価器103は、ルックアップ・テーブルに対する音方向入力とは直ちに一致しない特定の音方向に対して、対応するルックアップ・テーブル入力を判定するように構成される。これは、例えば、ある判定された音方向に対して、次に高い、あるいは次に低いルックアップ・テーブルへの音方向入力を用いることによって実行することができる。あるいは、2つの隣り合うルックアップ・テーブル入力の加重平均が計算されるようにテーブルを用いる。よって、手順は、次に低い方向入力に対するテーブル出力が判定されるというものになろう。さらに、次に高い入力に対するルックアップ・テーブル出力を判定して、それらの値の平均を計算する。
【0032】
この平均は、2つの出力を加算し、その結果を2で割ることによって得られる単純平均であってもよいし、次に高いテーブル出力および次に低いテーブル出力に対する判定された音方向の位置に応じた加重平均であってもよい。よって、典型的には、重み付け係数は、判定された音方向と、これに対応する次に高い/次に低いルックアップ・テーブルへの入力との差に依存することになる。例えば、測定された方向が次に低い入力に近い場合、次に低い入力に対するルックアップ・テーブル結果には、次に高い入力に対するルックアップ・テーブル出力が重み付けされる重み付け係数よりも高い重み付け係数が乗算される。よって、判定された方向と次に低い入力との差が小さければ、次に低い入力に対するルックアップ・テーブルの出力は、音の方向に対する次に高いルックアップ・テーブル入力に対応するルックアップ・テーブルの出力を重み付けするために用いられる重み付け係数よりも高い重み付け係数で重み付けされることになる。
【0033】
次に、異なるブロックの特定の計算に対する例をより詳細に示すために、図1dから図1gについて説明する。
【0034】
図1dの上の図は、概略的なマイクロフォン信号を示す。ただし、マイクロフォン信号の実際の振幅を示すものではない。代わりに、ウインドウ、特にウインドウ151および152が図示されている。ウインドウ151は第1のブロック1を定義し、ウインドウ152は第2のブロック2を特定、判定する。よって、マイクロフォン信号は、好ましくは重複が50%に等しい重複ブロックで処理される。ただし、より高度あるいは低度の重複を用いてもよく、全く重複していなくても構わない。ただし、重複処理は、ブロックアーチファクトを避けるために行われる。
【0035】
マイクロフォン信号のサンプリング値の各ブロックは、スペクトル表現に変換される。時間インデックスn=1のブロック、すなわちブロック151に対するスペクトル表現またはスペクトルが、図1dの中央の図に示されており、参照番号152に対応する第2のブロック2のスペクトル表現が図1dの下の図に示されている。さらに、例を示すために、各スペクトルは、10個の周波数ビンを有する、すなわち周波数インデックスkが例えば1から10にわたるように図示されている。
【0036】
よって、時間-周波数タイル(k,n)は、153における時間-周波数タイル(10,1)であり、さらなる例では154における別の時間-周波数タイル(5,2)を示している。音場記述を生成する装置によって実行される更なる処理が、例えば、参照番号153と154によって示される時間-周波数タイルを用いて例として図示された図1dに示されている。
【0037】
さらに、方向判定器102は、例として単位ノルムベクトルnで示される音方向または“DOA”(到来方向)を判定するものとする。代替的な方向指標としては、方位角、仰角、またはその両方の角度がある。このために、各マイクロフォン信号が図1dに示すように周波数ビンの以降のブロックによって表現される、上記複数のマイクロフォン信号の全てのマイクロフォン信号が方向判定器102によって用いられ、図1cの方向判定器102は、例えば音方向またはDOAを判定する。
よって、例として、図1eの上部に示すように、時間-周波数タイル(10,1)は音方向n(10,1)を有し、時間-周波数タイル(5,2)は音方向n(5,2)を有する。三次元の場合、音方向はx、y、z成分を有する三次元ベクトルである。もちろん、2つの角度と1つの動径に依る球面座標などの他の座標系を用いてもよい。あるいは、角度を例えば方位角および仰角とすることができる。この場合、動径は必要ない。同様に、デカルト座標などの二次元の場合には、音方向の成分が2つ、すなわちx方向とy方向があり、あるいは動径と角度または方位角および仰角を有する円座標を用いても良い。
【0038】
この手順は、時間-周波数タイル(10,1)と(5,2)に対してだけでなく、マイクロフォン信号が表現される全ての時間-周波数タイルに対して実行される。
【0039】
次に、必要な1つ以上の空間基底関数を判定する。特に、いくつの音場コンポーネント、あるいは一般的には音場コンポーネントの表現を生成すべきか判定される。ここで図1cの空間基底関数評価器103が用いる空間基底関数の数が、最終的に、スペクトル表現における各時間-周波数タイルに対する音場コンポーネントの数、または時間領域における音場コンポーネントの数を決める。
【0040】
さらなる実施の形態に対しては、4つの音場コンポーネントの数を判定すべきとされ、例示的にはこれら4つの音場コンポーネントは、1つの全指向性音場コンポーネント(0に等しい次数に対応する)と、デカルト座標系の対応する座標方向の指向性を有する3方向音場コンポーネントとすることができる。
【0041】
図1eの下の図は、異なる時間-周波数タイルに対する評価された空間基底関数Gを図示する。よって、この例では、各時間-周波数タイルに対する4つの評価空間基底関数が判定されることが明らかになる。例として各ブロックが10個の周波数ビンを有するとした場合、図1eに図示するように、ブロックn=1に対して、およびブロックn=2に対してなど、各ブロックに対して40個の評価空間基底関数Gが判定される。従って、まとめると、2つのみのブロックについて考え、各ブロックが10個の周波数ビンを有するとした場合、これらの2つのブロックには20個の時間-周波数タイルがあり、各時間-周波数タイルが4つの評価空間基底関数を有するので、この手順によって80個の評価された空間基底関数が得られる。
【0042】
図1fは、図1cの音場コンポーネント計算器201の好ましい実施を示す。図1fは、上の2つの図において、図1cのブロック201にライン134を介して入力される、判定された参照信号に対する周波数ビンの2つのブロックを示している。特に、特定のマイクロフォン信号または異なるマイクロフォン信号の組み合わせとすることができる参照信号は、図1dを参照して述べたのと同様に処理される。よって、例示的に、参照信号は、ブロックn=1に対する参照スペクトル、およびブロックn=2に対する参照信号スペクトルで表される。よって、参照信号は、ブロック103からブロック201にライン133を介して出力される時間-周波数タイルに対する評価空間基底関数の計算のために用いられたのと同じ時間-周波数パターンに分解される。
【0043】
次に、音場コンポーネントの実際の計算を、155に示すような参照信号Pに対応する時間-周波数タイルと、これに関連した評価空間基底関数Gとの関数による結合によって行う。f(...)によって表される関数による結合は、後に述べる図3a、3bでは115で示す乗算であることが好ましい。ただし、先に述べたように、他の関数による結合を用いても良い。ブロック155の関数による結合を利用して、ブロックn=1に対して156、ブロックn=2に対して157に示すような音場コンポーネントBの周波数領域(スペクトル)表現を得るために、各時間-周波数タイルに対して1つ以上の音場コンポーネントBを算出する。
【0044】
よって、例示的に、一方には時間-周波数タイル(10,1)に対する音場コンポーネントBの周波数領域表現を、他方には第2ブロックの時間-周波数タイル(5,2)に対する音場コンポーネントBの周波数領域表現を図示している。ただし、繰り返しになるが、図1fにおいて156および157に図示された音場コンポーネントBの数が、図1eの下部に図示した評価空間基底関数の数と同じであることは明らかである。
【0045】
周波数領域音場コンポーネントのみが必要な場合、上記の計算は、ブロック156および157の出力で完了する。しかし、他の実施の形態では、第1の音場コンポーネントBのための時間領域表現、第2の音場コンポーネントBのためのさらなる時間領域表現などを得るために、音場コンポーネントの時間領域表現が必要とされる。
【0046】
このため、第1のブロック156における周波数ビン1から周波数ビン10の音場コンポーネントBが周波数-時間転送ブロック159に挿入されて、第1のブロックおよび第1のコンポーネントに対する時間領域表現を得る。
【0047】
同様に、時間領域の第1のコンポーネント、すなわちb(t)を判定、計算するために、周波数ビン1から周波数ビン10の第2のブロックに対するスペクトル音場コンポーネントBが、さらなる周波数-時間変換160によって時間領域表現に変換される。
【0048】
図1dの上部に示すように重複ウインドウが用いられているために、図1gの162に示すブロック1とブロック2との重複領域における第1のスペクトル表現b(d)の出力時間領域サンプルを計算するために、図1fの下部に示すクロスフェードまたは重畳加算処理161を用いることができる。
【0049】
第1のブロックと第2のブロックとの重複領域163内の第2の時間領域音場コンポーネントb(t)を計算するために、同様の手順が行われる。さらに、時間領域の第3の音場コンポーネントb(t)を計算するために、特に、重複領域164のサンプルを計算するために、第1のブロックからのコンポーネントDおよび第2のブロックからのコンポーネントDが、手順159、160によって時間領域表現に対応して変換された後、得られた値がブロック161でクロスフェード/重畳加算される。
【0050】
最後に、図1gに図示するように、重複領域165における第4の時間領域表現音場コンポーネントb(t)の最終サンプルを得るために、第1のブロックの第4のコンポーネントB4と、第2のブロックの第4のコンポーネントB4に対して同様の手順を行う。
【0051】
ただし、時間-周波数タイルを得るために、重複するブロックで処理を行うのでなく、重複しないブロックで処理を行う場合には、ブロック161に図示されるようなクロスフェード/重畳加算は必要ないことに留意すべきである。
【0052】
さらに、2つよりも多い数のブロックが互いに重複するより高度の重複の場合、これに対応してより多くのブロック159、160が必要となり、図1gに示す時間領域表現のサンプルを最終的に得るために、2つの入力だけではなく3つの入力でブロック161のクロスフェード/重畳加算が計算される。
【0053】
さらに、例えば重複領域OL23に対する時間領域表現のサンプルは、ブロック159、160における手順を第2のブロックと第3のブロックに適用することによって得られることに留意すべきである。これに対応して、重複領域OL01に対するサンプルは、ブロック0とブロック1のある数iの、対応するスペクトル音場コンポーネントBに手順159、160を実行することによって計算される。
【0054】
さらに、既に概略を説明したように、音場コンポーネントの表現は、156および157に対して図1fで示すように周波数領域表現とすることができる。あるいは、音場コンポーネントの表現は図1gに示すように時間領域表現としてもよく、この場合、4つの音場コンポーネントは、あるサンプリングレートと関連したサンプル列を有する簡単な音信号を表している。さらに、音場コンポーネントの周波数領域表現あるいは時間領域表現を符号化してもよい。この符号化は、各音場コンポーネントが単一信号として符号化されるように別々に行ってもよいし、例えば4つの音場コンポーネントB~Bが4つのチャンネルを有する多チャンネル信号とみなされるように、一緒に符号化されてもよい。よって、任意の有用な符号化アルゴリズムで符号化される周波数領域表現あるいは時間領域表現もまた、音場コンポーネントの表現の1つである。
【0055】
さらに、ブロック161によって行われるクロスフェード/重畳加算の前の時間領域における表現も、ある実施にとっては音場コンポーネントの有用な表現となりうる。さらに、コンポーネント1など、あるコンポーネントに対するブロックnにわたるベクトル量子化の一種も、送信、保存、あるいは他の処理タスクのための音場コンポーネントの周波数領域表現を圧縮するために実行することができる。
【0056】
[好適な実施の形態]
図2aは、ブロック(10)によって得られる、多数の(2つ以上の)マイクロフォンの信号から所望の次数(レベル)およびモードのアンビソニックスコンポーネントを合成することができる本新規な手法を示している。関連する最先端の手法とは異なり、マイクロフォン・セットアップには何ら制約がない。これは、多数のマイクロフォンを例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置してもよいことを意味する。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0057】
所望のアンビソニックスコンポーネントを得るために、複数のマイクロフォン信号はまず、ブロック(101)を用いて時間-周波数表現に変換される。このために、例えば、フィルターバンクまたは短時間フーリエ変換(STFT)を用いることができる。ブロック(101)の出力は、時間-周波数領域の多数のマイクロフォン信号である。ただし、以下の処理は、時間-周波数タイルごとに別々に実行される。
【0058】
時間-周波数領域の多数のマイクロフォン信号を変換した後、2つ以上のマイクロフォン信号からブロック(102)において1つ以上の音方向(時間-周波数タイルに対して)を判定する。音方向は、ある時間-周波数タイルに対する顕著な音がどこからマイクロフォン配列に届いているかを記述するものである。この方向は、通常、音の到来方向(DOA)と呼ばれる。
DOAの代わりに、DOAの逆方向である音の伝搬方向、あるいは音方向を記述する他の手段を考えてもよい。1つまたは多数の音方向またはDOAはブロック(102)において、例えば、ほとんどどのマイクロフォン・セットアップに対しても利用可能な最先端の狭帯域DOA推定器を用いて推定される。DOA推定器の適切な例が実施の形態1に挙げられている。
ブロック(102)で算出される音方向またはDOAの数(1つ以上)は、例えば、許容される計算複雑性に依存するとともに、用いられるDOA推定器の性能またはマイクロフォン形状に依存する。音方向は、例えば二次元空間(例えば方位角の形式で表される)において、または三次元空間(例えば、方位角と仰角の形式で表される)において推定することができる。
以下では、大半の記述は、より一般的な三次元の場合に基づくが、全ての処理工程を二次元の場合にも適用するのは容易である。多くの場合、ユーザは、いくつの音方向またはDOA(例えば、1つ、2つ、または3つ)を推定するかを時間-周波数タイルごとに指定する。あるいは、最先端の手法、例えば[SourceNum](非特許文献20)に説明されている手法を用いて、顕著な音の数を推定してもよい。
【0059】
ある時間-周波数タイルに対してブロック(102)で推定された1つ以上の音方向は、その時間-周波数タイルに対する所望の次数(レベル)およびモードの空間基底関数の1つ以上の応答を算出するためにブロック(103)で用いられる。評価された各音方向に対して、1つの応答が算出される。
先の項で説明したように、空間基底関数は、例えば球面調和関数(例えば、処理が三次元空間で実行される場合)または円調和関数(例えば、処理が二次元空間で実行される場合)を表現することができる。空間基底関数の応答は、第1の実施の形態でより詳細に説明するように、対応する推定音方向において評価された空間基底関数である。
【0060】
ある時間-周波数タイルに対して推定された1つ以上の音方向は、さらにブロック(201)において、つまりこの時間-周波数タイルに対して所望の次数(レベル)およびモードの1つ以上のアンビソニックスコンポーネントを算出するために用いられる。
このようなアンビソニックスコンポーネントは、推定された音方向から到来する指向性音に対するアンビソニックスコンポーネントを合成する。この時間-周波数タイルに対してブロック(103)で算出された空間基底関数の1つ以上の応答、および所定の時間-周波数タイルに対する1つ以上のマイクロフォン信号も、ブロック(201)に更に入力される。
ブロック(201)では、推定された各音方向および対応する空間基底関数の応答に対して、所望の次数(レベル)およびモードの1つのアンビソニックスコンポーネントが算出される。ブロック(201)の処理工程については、以下の実施の形態でさらに説明する。
【0061】
本発明(10)は、ある時間-周波数タイルに対して所望の次数(レベル)およびモードの拡散音アンビソニックスコンポーネントを算出することができる任意のブロック(301)を含んでいる。このコンポーネントは、例えば純粋拡散音場に対する、または周囲音に対するアンビソニックスコンポーネントを合成する。
ブロック(301)には、1つ以上のマイクロフォン信号に加え、ブロック(102)で推定された1つ以上の音方向が入力される。ブロック(301)の処理工程については、後の実施の形態でさらに説明する。
【0062】
任意のブロック(301)で算出される拡散音アンビソニックスコンポーネントは、任意のブロック(107)においてさらに非相関化されてもよい。このために、最先端の非相関器を用いることができる。幾つかの例が実施の形態4に挙げられている。典型的には、異なる次数(レベル)およびモードに対して異なる非相関器または非相関器の異なる実施を適用することになるであろう。
こうすることで、非相関化された異なる次数(レベル)およびモードの拡散音アンビソニックスコンポーネントが、相互に無相関になる。これにより予期された物理的挙動が起こる、すなわち異なる次数(レベル)およびモードのアンビソニックスコンポーネントが、例えば[SpCoherence](非特許文献21)で説明されるように、拡散音または周囲音に対して相互に無相関になる。
【0063】
ある時間-周波数タイルに対してブロック(201)で算出された所望の次数(レベル)およびモードの1つ以上の(直接音)アンビソニックスコンポーネントと、ブロック(301)で算出された対応する拡散音アンビソニックスコンポーネントとが、ブロック(401)で結合される。
後の実施の形態で説明するように、結合は、例えば(加重)和として実現することができる。ブロック(401)の出力は、所定の時間-周波数タイルに対する所望の次数(レベル)およびモードの最終的な合成アンビソニックスコンポーネントである。
当然、ある時間-周波数タイルに対して所望の次数(レベル)およびモードの単一の(直接音)アンビソニックスコンポーネントのみがブロック(201)で算出される(また、拡散音アンビソニックスコンポーネントがない)場合、結合器(401)は必要ない。
【0064】
すべての時間-周波数タイルに対して所望の次数(レベル)およびモードの最終的なアンビソニックスコンポーネントを算出した後、アンビソニックスコンポーネントは、例えば、逆フィルターバンクや逆STFTとして実現することができる逆時間-周波数変換(20)で、元の時間領域に変換しなおしてもよい。
ただし、逆時間-周波数変換は全ての適用において必要というわけではなく、したがって本発明の一部ではない。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対してアンビソニックスコンポーネントを算出することになるであろう。
【0065】
図2bは、同様の本発明を若干変更した実現例を示す。この図では、結合器(401)の前に逆時間-周波数変換(20)が適用されている。
これは、逆時間-周波数変換が通常、線形変換であるため可能である。結合器(401)の前に逆時間-周波数変換を適用することによって、例えば、時間領域(図2aのように時間―周波数領域ではなく)において非相関化を実行することができる。これによって、本発明を実施する際、ある適用では実用的な利点が得られる。
【0066】
逆フィルターバンクは、どこか他の場所であってもよいことに留意すべきである。結合器および非相関器は一般に(非相関器は通常)、時間領域で適用されるべきである。
しかし、両方または一方のブロックのみを周波数領域で適用してもよい。
【0067】
従って、好適な実施の形態は、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散コンポーネント計算器301を備えている。さらに、これらの実施の形態は、音場コンポーネントの周波数領域表現または時間領域表現を得るために拡散音情報と直接音場情報とを結合する結合器401を備えている。
さらに、実施によっては、拡散コンポーネント計算器は拡散音情報を非相関化する非相関器107をさらに備え、非相関器は、相関が拡散音コンポーネントの時間-周波数タイル表現で行われるように、周波数領域内に実装することができる。あるいは、非相関器は、図2bに図示するように時間領域内で動作するように構成されて、ある次数のある拡散音コンポーネントの時間表現の時間領域内で非相関化が行われる。
【0068】
本発明に関する更なる実施の形態は、複数の時間領域マイクロフォン信号のそれぞれを、複数の時間-周波数タイルを有する周波数表現に変換する時間-周波数変換器101などの時間-周波数変換器を備える。
更なる実施の形態は、1つ以上の音場コンポーネント、または1つ以上の音場コンポーネント、すなわち直接音場コンポーネントと拡散音コンポーネントの組み合わせを、音場コンポーネントの時間領域表現に変換する図2aまたは図2bのブロック20などの周波数-時間変換器を備える。
【0069】
特に、周波数-時間変換器20は、1つ以上の音場コンポーネントを処理して複数の時間領域音場コンポーネントを得るように構成されていて、これらの時間領域音場コンポーネントは直接音場コンポーネントである。
さらに、周波数-時間変換器20は、拡散音(場)コンポーネントを処理して複数の時間領域拡散(音場)コンポーネントを得るように構成され、結合器は、例えば図2bに示すように時間領域において時間領域(直接)音場コンポーネントと時間領域拡散(音場コンポーネント)の結合を実行するように構成されている。
あるいは、結合器401は、ある時間-周波数タイルの1つ以上の(直接)音場コンポーネントと、対応する時間-周波数タイルの拡散音(場)コンポーネントを周波数領域内で結合するように構成されており、周波数-時間変換器20は、例えば図2aに示すように、結合器401の結果を処理して時間領域の音場コンポーネント、すなわち時間領域の音場コンポーネントの表現を得るように構成される。
【0070】
以下の実施の形態では、本発明のいくつかの実現例について、より詳細に説明する。ただし、実施の形態1~7では、時間-周波数タイルあたり1つの音方向(よって、レベル、モード、時間、周波数あたり1つのみの空間基底関数の応答および1つのみの直接音アンビソニックスコンポーネント)を考える。
実施の形態8では、時間-周波数タイルあたり1より多い音方向を考えた例について説明している。この実施の形態の概念は、全ての他の実施の形態に容易に適用できる。
【0071】
[実施の形態1]
図3aは、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の実施の形態を示す。
【0072】
本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0073】
多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間-周波数領域に変換される。時間-周波数変換(101)の出力は、時間-周波数領域の多数のマイクロフォン信号であり、P1...M(k,n)で表される。ここで、kは周波数インデックス、nは時間インデックス、Mはマイクロフォンの数である。ただし、以下の処理は、各時間-周波数タイル(k,n)に対して別々に実行される。
【0074】
マイクロフォン信号を時間-周波数領域に変換した後、2つ以上のマイクロフォン信号P1...M(k,n)を用いて時間および周波数ごとに、音方向推定がブロック(102)において実行される。この実施の形態では、時間および周波数あたり単一の音方向を判定する。
(102)における音方向推定には、最先端の狭帯域到来方向(DOA)推定器を用いることができ、これは文献において異なるマイクロフォン配列形状に利用可能である。例えば、任意のマイクロフォン・セットアップに適用可能なMUSICアルゴリズム[MUSIC](非特許文献14)を用いることができる。
全指向性マイクロフォンの均等直線配列、等距離格子点を備えた不均等直線配列、あるいは円配列の場合、MUSICよりも計算上効率の良いRoot MUSICアルゴリズム[RootMUSIC1, RootMUSIC2, RootMUSIC3](非特許文献16~18)を適用することができる。回転不変サブアレイ構造を備えた直線配列または平面配列に適用できる他の公知の狭帯域DOA推定器としてはESPRIT[ESPRIT](非特許文献9)がある。
【0075】
この実施の形態では、音方向推定器(102)の出力は、時間インスタンスnと周波数インデックスkに対する音方向である。音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは例えば以下のような関係にある。
(数1)
【0076】
仰角θ(k,n)推定されない場合(二次元の場合)、以下の工程ではゼロ仰角、すなわちθ(k,n)=0と仮定することができる。この場合、単位ノルムベクトル

は、以下のように記すことができる。
(数2)
【0077】
ブロック(102)で音方向を推定した後、所望の次数(レベル)lおよびモードmの空間基底関数の応答が、推定した音方向情報を用いて時間および周波数ごとに個々にブロック(103)で判定される。
次数(レベル)lおよびモードmの空間基底関数の応答は、

で表され、以下のように計算される。
(数3)
【0078】
ここで、

は次数(レベル)lおよびモードmの空間基底関数であり、ベクトル

または方位角φ(k,n)および/または仰角θ(k,n)によって示される方向に依存する。
従って、応答

は、ベクトル

あるいは方位角φ(k,n)および/または仰角θ(k,n)によって示される方向から到来する音の空間基底関数

の応答を表す。
例えば、空間基底関数としてN3D正規化による実数値の球面調和関数を考えた場合、

は、[SphHarm, Ambix, FourierAcoust](非特許文献22,2,10)として算出することができる。
(数4)
ここで、
(数5)
は、N3D正規化定数であり、

は、仰角によって決まる、次数(レベル)lおよびモードmの関連するルジャンドル多項式であり、例えば[FourierAcoust](非特許文献10)に定義されている。
ただし、所望の次数(レベル)lおよびモードmの空間基底関数

の応答は、各方位角および/または仰角ごとに予め算出してルックアップ・テーブルに保存した後、推定された音方向に応じて選択してもよい。
【0079】
この実施の形態では、第1のマイクロフォン信号を参照マイクロフォン信号Pref(k,n)呼んでも一般性が失われることはない、すなわち、
(数6)
である。
【0080】
この実施の形態では、参照マイクロフォン信号Pref(k,n)、時間-周波数タイル(k,n)対して、ブロック(103)において判定した空間基底関数の応答

が乗算115などして結合される、すなわち、
(数7)

であり、これにより、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント

が得られる。
得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生適用のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになる。
【0081】
[実施の形態2]
図3bは、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態1と類似しているが、複数のマイクロフォンの信号から参照マイクロフォン信号を判定するブロック(104)をさらに備えている。
【0082】
実施の形態1と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0083】
実施の形態1と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間-周波数領域に変換される。時間-周波数変換(101)の出力は時間-周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間-周波数タイル(k,n)に対して別々に実行される。
【0084】
実施の形態1と同様に、2つ以上のマイクロフォン信号P1...M(k,n)を用いて時間および周波数ごとに、ブロック(102)で音方向推定を実行する。対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0085】
実施の形態1と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103)で判定する。空間基底関数の応答は、

と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態1で説明したように判定することができる。
【0086】
この実施の形態では、参照マイクロフォン信号Pref(k,n)をブロック(104)において多数のマイクロフォン信号P1...M(k,n)から判定する。このために、ブロック(104)は、ブロック(102)で推定した音方向情報を用いる。
異なる時間-周波数タイルに対して、異なる参照信号を判定してもよい。音方向情報に基づいて多数のマイクロフォン信号P1...M(k,n)から参照マイクロフォン信号Pref(k,n)を判定するという異なる可能性がある。
例えば、多数のマイクロフォンから、推定した音方向に最も近いマイクロフォンを時間および周波数ごとに選択することができる。この手法が、図1bに視覚的に示されている。
例えば、マイクロフォン位置が位置ベクトル

によって与えられると仮定した場合、最も近いマイクロフォンのインデックスi(k,n)は、以下の問題を解くことによって得られる。
(数8)

その結果、検討中の時間および周波数に対する参照マイクロフォン信号は、以下によって与えられる。
(数9)
【0087】
図1bの例では、



に最も近いので、時間-周波数タイル(k,n)の参照マイクロフォンはマイクロフォンNo.3、すなわちi(k,n)=3である。参照マイクロフォン信号Pref(k,n)を判定する別の手法は、多チャンネルフィルタをマイクロフォン信号に適用する、すなわち、
(数10)
である。ここで

は、推定された音方向に応じた多チャンネルフィルタで、ベクトル

は、多数のマイクロフォン信号を含む。
文献には、Pref(k,n)を算出するのに用いることができる、多くの異なる最適な多チャンネルフィルタ

があり、例えば、[OptArrayPr](非特許文献15)で導出されるdelay&sumフィルタやLCMVフィルタがある。多チャンネルフィルタを用いることには[OptArrayPr](非特許文献15)で説明されるような異なる利点と欠点があるが、例えば、マイクロフォンの自生雑音を減少させることができる。
【0088】
実施の形態1と同様に、参照マイクロフォン信号Pref(k,n)には、最後に、ブロック(103)で判定した空間基底関数の応答

が、時間および周波数ごとに結合されて(乗算115されて)、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント

が得られる。得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
【0089】
[実施の形態3]
図4は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態1と類似しているが、直接音信号と拡散音信号のアンビソニックスコンポーネントを算出する。
【0090】
実施の形態1と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0091】
実施の形態1と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間-周波数領域に変換される。
時間-周波数変換(101)の出力は時間-周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間-周波数タイル(k,n)に対して別々に実行される。
【0092】
実施の形態1と同様に、2つ以上のマイクロフォン信号P1...M(k,n)を用いて時間および周波数ごとに、ブロック(102)で音方向推定を実行する。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。
音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0093】
実施の形態1と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103)で判定する。
空間基底関数の応答は、

で表される。
例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態1で説明したように判定することができる。
【0094】
この実施の形態では、時間インデックスnに依存しない、所望の次数(レベル)lおよびモードmの空間基底関数の平均応答がブロック(106)から得られる。この平均応答は

で示され、全ての可能な方向から到来する音(拡散音や周囲音など)に対する空間基底関数の応答を記述している。平均応答

を定義する一つの例は、全ての可能な角度φおよび/またはθに対して空間基底関数

の二乗振幅の積分を考えることである。例えば、球上の全ての角度に対して積分した場合、
(数11)

が得られる。
【0095】
このような平均応答

の定義は、以下のように解釈することができる。実施の形態1で説明したように、空間基底関数

は、次数lのマイクロフォンの指向性と解釈することができる。
次数が高くなると、このようなマイクロフォンはますます指向性が高くなり、従って、全指向性マイクロフォン(次数l=0のマイクロフォン)と比較して実際の音場で得られる拡散音エネルギーまたは周囲音エネルギーが少なくなる。
上記において定められた

の定義によれば、平均応答

によって実数値係数が得られ、これは全指向性マイクロフォンに比べて、次数lのマイクロフォンの信号においてどのくらい拡散音エネルギーまたは周囲音エネルギーが減衰されるかを表している。
明らかに、球の方向に対して空間基底関数

の二乗振幅を積分することに加え、例えば、円の方向に対して

の二乗振幅を積分する、所望の方向(φ,θ)の任意の組に対して

の二乗振幅を積分する、所望の方向(φ,θ)の任意の組に対して

の二乗振幅を平均する、二乗振幅の代わりに

の振幅を積分または平均する、所望の方向(φ,θ)の任意の組に対して

の加重和を取る、または拡散音または周囲音に対して次数lの上述した仮想マイクロフォンの所望の感度に対応する

の任意の所望の実数値を特定するなど、平均応答

を定義する異なる代替案がある。
【0096】
平均空間基底関数応答は、あらかじめ計算してルックアップ・テーブルに保存しておいてもよく、応答値の判定は、ルックアップ・テーブルにアクセスして対応する値を読み出すことによって実行される。
【0097】
実施の形態1と同様に、第1のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわち、Pref(k,n)=P(k,n)である。
【0098】
この実施の形態では、参照マイクロフォン信号Pref(k,n)は、Pdir(k,n)で表される直接音信号と、Pdiff(k,n)で表される拡散音信号を計算するためにブロック(105)で用いられる。
ブロック(105)では、直接音信号Pdir(k,n)は、例えば、単一チャンネルフィルタWdir(k,n)を参照マイクロフォン信号に適用することによって計算することができる、すなわち、
(数12)
dir(k,n)=Wdir(k,n)Pref(k,n)
である。
【0099】
文献には、最適な単一チャンネルフィルタWdir(k,n)を算出する異なる可能性がある。例えば、公知の平方根ウィーナフィルタを用いることができ、これは例えば[VictaulMic](非特許文献23)に以下のように定義された。
(数13)

ここで、SDR(k,n)は時間インスタンスnおよび周波数インデックスkにおける信号対拡散比(SDR)であり、[VirtualMic](非特許文献23)で説明されるように直接音と拡散音の出力比を表す。
SDRは、多数のマイクロフォン信号P1...M(k,n)のうち任意の2つのマイクロフォンを用いて、文献において利用可能な最先端のSDR推定器、例えば2つの任意のマイクロフォン信号間の空間コヒーレンスに基づいた、[SDRestim](非特許文献19)に提案される推定器で推定することができる。
ブロック(105)において、拡散音信号Pdiff(k,n)は、例えば単一チャネルフィルタWdiff(k,n)を参照マイクロフォン信号に適用することによって計算することができる、すなわち、
(数14)

である。
【0100】
文献には、最適な単一チャネルフィルタWdiff(k,n)を算出する異なる可能性がある。例えば、公知の平方根ウィーナフィルタを用いることができ、これは例えば[VirtualMic](非特許文献23)において以下のように定義された。
(数15)

ここで、SDR(k,n)は先に述べたように推定できるSDRである。
【0101】
この実施の形態において、ブロック(105)で判定した直接音信号Pdir(k,n)には、ブロック(103)で判定した空間基底関数の応答

が時間および周波数ごとに結合される(乗算115aされる)、すなわち、
(数16)

これにより、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント

が得られる。さらに、ブロック(105)で判定した拡散音信号Pdiff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答

が時間および周波数ごとに結合される(乗算115bされる)、すなわち、
(数17)

であり、これにより、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント

が得られる。
【0102】
最後に、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

を、例えば加算演算(109)によって結合して、時間-周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント

を得る、すなわち、
(数18)
である。
【0103】
得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
【0104】
例えば逆フィルターバンクまたは逆STFTを用いた時間領域への再変換は、

を算出する前、すなわち演算(109)の前に実行してもよいことを強調することは重要である。
これは、まず



を元の時間領域に変換しなおした後、両方のコンポーネントを演算(109)によって合計して最終的なアンビソニックスコンポーネント

を得ても良いことを意味する。これは、逆フィルターバンクまたは逆STFTが一般に線形演算であるため可能である。
【0105】
この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

が異なるモード(次数)lに対して算出されるように構成できることに留意すべきである。
例えば、

は次数l=4まで算出することができ、一方、

は次数l=1までのみ算出してもよい(この場合、

は、l=1より大きい次数に対してはゼロになる)。
これによって、実施の形態4で説明するような一定の利点が得られる。例えば特定の次数(レベル)lまたはモードmに対して

ではなく

のみを計算することが望ましい場合、例えばブロック(105)を、拡散音信号Pdiff(k,n)がゼロに等しくなるように構成することができる。これは、例えば、先の式におけるフィルタWdiff(k,n)をゼロに、フィルタWdir(k,n)を1に設定することによって実現できる。あるいは、手作業で先の式におけるSDRを非常に高い値に設定することも可能であろう。
【0106】
[実施の形態4]
図5は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。
この実施の形態は、実施の形態3と類似しているが、拡散アンビソニックスコンポーネントに対する非相関器をさらに備えている。
【0107】
実施の形態3と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0108】
実施の形態3と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間-周波数領域に変換される。時間-周波数変換(101)の出力は時間-周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間-周波数タイル(k,n)に対して別々に実行される。
【0109】
実施の形態3と同様に、2つ以上のマイクロフォン信号P1...M(k,n)を用いて時間および周波数ごとに、ブロック(102)で音方向推定を実行する。対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0110】
実施の形態3と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103)で判定する。
空間基底関数の応答は、

と表される。
例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態1で説明したように判定することができる。
【0111】
実施の形態3と同様に、時間インデックスnに依存しない、所望の次数(レベル)lおよびモードmの空間基底関数の平均応答がブロック(106)から得られる。この平均応答は

で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答

は、実施の形態3で説明したように得られる。
【0112】
実施の形態3と同様に、第1のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわち、Pref(k,n)=P(k,n)である。
【0113】
実施の形態3と同様に、参照マイクロフォン信号Pref(k,n)は、Pdir(k,n)で表される直接音信号とPdiff(k,n)で表される拡散音信号を計算するためにブロック(105)で用いられる。
dir(k,n)とPdiff(k,n)の算出については、実施の形態3に説明した通りである。
【0114】
実施の形態3と同様に、ブロック(105)で判定した直接音信号Pdir(k,n)には、ブロック(103)で判定した空間基底関数の応答

が時間および周波数ごとに結合されて(乗算115aされて)、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント

が得られる。さらに、ブロック(105)で判定した拡散音信号Pdiff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答

が時間および周波数ごとに結合されて(乗算115bされて)、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント

が得られる。
【0115】
この実施の形態では、計算された拡散音アンビソニックスコンポーネント

は、非相関器を用いてブロック(107)で非相関化され、

で表される非相関拡散音アンビソニックスコンポーネントが得られる。非相関化には、最先端の非相関化技術を用いることができる。異なるレベルおよびモードの非相関拡散音アンビソニックスコンポーネント

が互いに無相関になるよう、異なる次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント

には、通常、異なる非相関器または非相関器の実現例が適用される。こうする際、拡散音アンビソニックスコンポーネント

は期待された物理的挙動を有する、すなわち異なる次数およびモードのアンビソニックスコンポーネントは、音場が周囲のものまたは拡散している場合に相互に無相関になる[SpCoherence](非特許文献21)。ただし、拡散音アンビソニックスコンポーネント

は、非相関器(107)を適用する前に、例えば逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおしてもよいことに留意すべきである。
【0116】
最後に、直接音アンビソニックスコンポーネント

と非相関拡散音アンビソニックスコンポーネント

を、例えば加算(109)によって結合して、時間-周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント

を得る、すなわち、
(数19)
である。
【0117】
得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
【0118】
例えば逆フィルターバンクまたは逆STFTを用いた時間領域への再変換は、

を算出する前、すなわち、演算(109)の前に実行してもよいことを強調することは重要である。
これは、まず



を元の時間領域に変換しなおした後、両方のコンポーネントを演算(109)によって合計して最終的なアンビソニックスコンポーネント

を得ても良いことを意味する。これは、逆フィルターバンクまたは逆STFTが一般に線形演算であるため可能である。
同様に、非相関器(107)は、拡散音アンビソニックスコンポーネント

を元の時間領域に変換しなおした後に

に対して適用してもよい。非相関器の中には時間領域信号で動作するものがあるので、実用においてこれが有益かもしれない。
【0119】
さらに、非相関器の前に逆フィルターバンクなどのブロックを図5に追加することができることに留意すべきで、逆フィルターバンクは本システムのいずれの場所に追加してもよい。
【0120】
実施の形態3で説明したように、この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

が異なるモード(次数)lに対して算出されるように構成できる。
例えば、

は、次数l=4まで算出することができ、一方、

は次数l=1までのみ算出してもよい。これによって、計算複雑性が低くなる。
【0121】
[実施の形態5]
図6は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態4と類似しているが、直接音信号と拡散音信号が、複数のマイクロフォン信号から、到来方向情報を活用することによって判定される。
【0122】
実施の形態4と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0123】
実施の形態4と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間-周波数領域に変換される。
時間-周波数変換(101)の出力は時間-周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間-周波数タイル(k,n)に対して別々に実行される。
【0124】
実施の形態4と同様に、2つ以上のマイクロフォン信号P1...M(k,n)を用いて時間および周波数ごとに、ブロック(102)で音方向推定を実行する。対応する推定器については、実施の形態1で述べた通りである。
音方向推定器(102)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0125】
実施の形態4と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103)で判定する。
空間基底関数の応答は、

と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態1で説明したように判定することができる。
【0126】
実施の形態4と同様に、時間インデックスnに依存しない、所望の次数(レベル)lおよびモードmの空間基底関数の平均応答がブロック(106)から得られる。この平均応答は

で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答

は、実施の形態3で説明したように得られる。
【0127】
この実施の形態では、直接音信号Pdir(k,n)および拡散音信号Pdiff(k,n)は、ブロック(110)において2つ以上の利用可能なマイクロフォン信号P1...M(k,n)から時間インデックスnおよび周波数インデックスkごとに判定される。
このために、ブロック(110)は通常、ブロック(102)で判定した音方向情報を用いる。以下では、どのようにPdir(k,n)およびPdiff(k,n)を判定するかを述べた、ブロック(110)の異なる例について説明する。
【0128】
ブロック(110)の第1の例では、Pref(k,n)で表される参照マイクロフォン信号を、ブロック(102)によって得られる音方向情報に基づいて多数のマイクロフォン信号P1...M(k,n)から判定する。
参照マイクロフォン信号Pref(k,n)は、検討中の時間および周波数に対する推定音方向に最も近いマイクロフォン信号を選択することによって判定してもよい。
この参照マイクロフォン信号Pref(k,n)を判定するための選択処理については、実施の形態2で説明した。Pref(k,n)を判定した後、例えば、単一チャネルフィルタWdir(k,n)とWdiff(k,n)をそれぞれ参照マイクロフォン信号Pref(k,n)に適用することによって、直接音信号Pdir(k,n)と拡散音信号Pdiff(k,n)を計算することができる。この手法および対応する単一チャネルフィルタの算出については、実施の形態3で説明した。
【0129】
ブロック(110)の第2の例では、参照マイクロフォン信号Pref(k,n)を先の例のように判定し、単一チャネルフィルタWdir(k,n)をPref(k,n)に適用することによってPdir(k,n)を算出する。
しかし、拡散信号を判定するためには、第2の参照信号

を選択し、単一チャネルフィルタ

を第2の参照信号

に適用する、すなわち
(数20)
である。
【0130】
フィルタWdiff(k,n)は、例えば実施の形態3で説明したように算出することができる。
第2の参照信号

は、利用可能なマイクロフォン信号P1...M(k,n)の1つに対応する。
しかし、異なる次数lおよびモードmに対しては、異なるマイクロフォン信号を第2の参照信号として用いても良い。例えば、レベルl=1、モードm=-1に対しては、第1のマイクロフォン信号を第2の参照信号として用いてもよい、すなわち、

である。レベルl=1、モードm=0に対しては、第2のマイクロフォン信号を用いることができる、すなわち、

である。
レベルl=1、モードm=1に対しては、第3のマイクロフォン信号を用いることができる、すなわち、

である。利用可能なマイクロフォン信号P1...M(k,n)は、例えば、異なる次数およびモードに対する第2の参照信号

にランダムに割り当てることができる。拡散または周囲録音状況に対しては、全てのマイクロフォン信号が通常同様の音響出力を備えるので、これは実用において合理的な手法である。
異なる次数およびモードに対して異なる第2の参照マイクロフォン信号を選択することには、得られる拡散音信号が異なる次数およびモードに対してしばしば(少なくとも部分的に)相互に無相関になるという利点がある。
【0131】
ブロック(110)の第3の例では、直接音信号Pdir(k,n)を、wdir(n)で示す多チャンネルフィルタを多数のマイクロフォン信号P1...M(k,n)に適用することによって判定する、すなわち、
(数21)
であり、ここで、多チャンネルフィルタ

は推定された音方向に依存し、ベクトル

は多数のマイクロフォン信号を含む。
文献には、音方向情報からPdir(k,n)を算出するために用いることができる、多くの異なる最適な多チャンネルフィルタ

、例えば、[InformedSF](非特許文献12)で導出されたフィルタなどがある。
同様に、拡散音信号Pdiff(k,n)は、多数のマイクロフォン信号P1...M(k,n)に

で示す多チャンネルフィルタを適用することによって判定される、すなわち、
(数22)
であり、ここで、多チャンネルフィルタ

は推定された音方向に依存する。
文献には、Pdiff(k,n)を算出するために用いることができる、多くの異なる最適な多チャンネルフィルタ

、例えば[DiffuseBF](非特許文献5)で導出されたフィルタなどがある。
【0132】
ブロック(110)の第4の例では、Pdir(k,n)およびPdiff(k,n)を先の例と同様に多チャンネルフィルタ



をマイクロフォン信号

に適用することによってそれぞれ判定する。
しかし、異なる次数lおよびモードmに対して得られた拡散音信号Pdiff(k,n)が相互に無相関となるよう、異なる次数lおよびモードmに対して異なるフィルタ

を用いる。出力信号の相関を最小にする、これらの異なるフィルタ

は、例えば[CovRender](非特許文献4)で説明するように算出することができる。
【0133】
実施の形態4と同様に、ブロック(105)で判定した直接音信号Pdir(k,n)には、ブロック(103)で判定した空間基底関数の応答

が時間および周波数ごとに結合されて(乗算115aされて)、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント

が得られる。
さらに、ブロック(105)で判定した拡散音信号Pdiff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答

が時間および周波数ごとに結合されて(乗算115bされて)、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント

が得られる。
【0134】
実施の形態3と同様に、算出された直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

は、例えば加算演算(109)によって結合されて、時間-周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント

が得られる。得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。実施の形態3で説明したように、時間領域への再変換は、

を算出する前、すなわち演算(109)の前に実行してもよい。
【0135】
この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

が異なるモード(次数)lに対して算出されるように構成できることに留意すべきである。
例えば、

は、次数l=4まで算出することができ、一方、

は次数l=1までのみ算出してもよい(この場合、

はl=1より大きい次数に対してはゼロになる)。例えば特定の次数(レベル)lまたはモードmに対して

ではなく

のみを計算することが望ましい場合、例えばブロック(110)を、拡散音信号Pdiff(k,n)がゼロに等しくなるように構成することができる。
これは、例えば、先の式におけるフィルタWdiff(k,n)をゼロに、フィルタWdir(k,n)を1に設定することによって実現できる。同様に、フィルタ

をゼロに設定することもできよう。
【0136】
[実施の形態6]
図7は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態5と類似しているが、拡散アンビソニックスコンポーネントに対する非相関器をさらに備える。
【0137】
実施の形態5と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0138】
実施の形態5と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間-周波数領域に変換される。時間-周波数変換(101)の出力は時間-周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間-周波数タイル(k,n)に対して別々に実行される。
【0139】
実施の形態5と同様に、2つ以上のマイクロフォン信号P1...M(k,n)を用いて時間および周波数ごとに、ブロック(102)で音方向推定を実行する。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0140】
実施の形態5と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103)で判定する。空間基底関数の応答は、

と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態1で説明したように判定することができる。
【0141】
実施の形態5と同様に、時間インデックスnに依存しない、所望の次数(レベル)lおよびモードmの空間基底関数の平均応答がブロック(106)から得られる。この平均応答は

で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答

は、実施の形態3で説明したように得られる。
【0142】
実施の形態5と同様に、直接音信号Pdir(k,n)および拡散音信号Pdiff(k,n)は、ブロック(110)において2つ以上の利用可能なマイクロフォン信号P1...M(k,n)から時間インデックスnおよび周波数インデックスkごとに判定される。
このために、ブロック(110)は通常、ブロック(102)で判定した音方向情報を用いる。ブロック(110)の異なる例については実施の形態5で説明した通りである。
【0143】
実施の形態5と同様に、ブロック(105)で判定した直接音信号Pdir(k,n)には、ブロック(103)で判定した空間基底関数の応答

が時間および周波数ごとに結合されて(乗算115aされて)、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント

が得られる。
さらに、ブロック(105)で判定した拡散音信号Pdiff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答

が時間および周波数ごとに結合されて(乗算115bされて)、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント

が得られる。
【0144】
実施の形態4と同様に、計算された拡散音アンビソニックスコンポーネント

は、非相関器を用いてブロック(107)で非相関化され、

で表される非相関拡散音アンビソニックスコンポーネントが得られる。非相関化の根拠およびその方法については実施の形態4に述べた通りである。
実施の形態4と同様に、拡散音アンビソニックスコンポーネント

は、非相関器(107)を適用する前に、例えば逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおしてもよい。
【0145】
実施の形態4と同様に、直接音アンビソニックスコンポーネント

と非相関拡散音アンビソニックスコンポーネント

は、例えば加算演算(109)によって結合されて、時間-周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント

が得られる。得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。実施の形態4で説明したように、時間領域への再変換は、

を算出する前、すなわち演算(109)の前に実行してもよい。
【0146】
実施の形態4と同様に、この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント

と拡散音アンビソニックスコンポーネント

が異なるモード(次数)lに対して算出されるように構成することができる。例えば、

は、次数l=4まで計算することができ、一方、

は次数l=1までのみ算出してもよい。
【0147】
[実施の形態7]
図8は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。
この実施の形態は、実施の形態1と類似しているが、計算された空間基底関数の応答

に平滑化演算を適用するブロック(111)をさらに含む。
【0148】
実施の形態1と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。
さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0149】
実施の形態1と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間-周波数領域に変換される。
時間-周波数変換(101)の出力は時間-周波数領域のマイクロフォン信号であり、P1...M(k,n)で表される。以下の処理は、各時間-周波数タイル(k,n)に対して別々に実行される。
【0150】
実施の形態1と同様に、第1のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわちPref(k,n)=P(k,n)である。
【0151】
実施の形態1と同様に、2つ以上のマイクロフォン信号P1...M(k,n)を用いて時間および周波数ごとに、ブロック(102)で音方向推定を実行する。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル

で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0152】
実施の形態1と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103)で判定する。空間基底関数の応答は、

と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、

は実施の形態1で説明したように判定することができる。
【0153】
実施の形態1とは異なり、応答

は、平滑化演算を

に適用するブロック(111)への入力として用いられる。ブロック(111)の出力は、

と表される平滑化応答関数である。
平滑化演算の目的は、実用において例えばブロック(102)で推定した音方向φ(k,n)および/またはθ(k,n)にノイズが多い場合に起こる、

の値の望ましくない推定変動を低下させることにある。

に適用される平滑化は、例えば時間および/または周波数に対して実行することができる。例えば、時間平滑化は、以下の公知の再帰平均化フィルタを用いて実現することができる。
(数23)

ここで、

は直前の時間フレームで算出された応答関数である。さらに、αは0と1の間の実数値であって、時間平滑化の強度を制御する。ゼロに近いαの値に対しては強い時間平均化を実行し、1に近いαの値に対しては短い時間平均化を実行する。
実際の適用ではαの値は適用によって変わり、例えばα=0.5など一定にしてもよい。あるいは、スペクトル平滑化をブロック(111)で実行することもでき、これは応答

が多数の周波数帯域にわたって平均化されることを意味する。例えば、いわゆるERB帯域内でのこのようなスペクトル平滑化が、[ERBsmooth](非特許文献8)に記述されている。
【0154】
この実施の形態では、参照マイクロフォン信号Pref(k,n)は、最後に、ブロック(111)で判定した空間基底関数の平滑化応答

と、時間および周波数ごとに結合されて(乗算115されて)など、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント

が得られる。得られたアンビソニックスコンポーネント

は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
【0155】
当然ながら、ブロック(111)のゲイン平滑化は、本発明の他のすべての実施の形態にも適用することができる。
【0156】
[実施の形態8]
本発明は、時間-周波数タイルごとに1つより多い音方向が考えられる、いわゆる多重波の場合にも適用できる。例えば、図3bに示す実施の形態2は、多重波の場合において実現できる。この場合、ブロック(102)は、時間および周波数ごとにJ個の音方向を推定する。
なお、Jは1より大きい整数、例えばJ=2である。多数の音方向を推定するためには、最先端の推定器、例えば[ESPRIT, RootMUSIC1](非特許文献9,16)に述べられるESPRITまたはRoot MUSICを用いることができる。この場合、ブロック(102)の出力は、例えば、多数の方位角φ1...j(k,n)および/または仰角θ1…J(k,n)で示される多数の音方向である。
【0157】
その後、多数の音方向をブロック(103)で用いて、各推定音方向に対して1つの応答が対応する多数の応答

を、例えば実施の形態1で説明したように算出する。
さらに、ブロック(102)で計算した多数の音方向は、各多数の音方向に対して1つが対応する多数の参照信号Pref,1...j(k,n)を計算するためにブロック(104)で用いられる。多数の参照信号はそれぞれ、例えば、実施の形態2で説明したのと同様に、多数のマイクロフォン信号に多チャンネルフィルタw1…J(n)を適用することによって計算することができる。
例えば、第1の参照信号Pref,1(k,n)は、方向φ(k,n)および/またはθ(k,n)からの音を抽出しつつ全ての他の方向からの音を減衰する、最先端の多チャンネルフィルタ

を適用することによって得られる。このようなフィルタは、例えば[InformedSF](非特許文献12)で説明されるインフォームドLCMVフィルタとして算出することができる。そして、多数の参照信号Pref,1...j(k,n)には、対応する多数の応答

が乗算されて多数のアンビソニックスコンポーネント

が得られる。例えば、j番目の音方向および参照信号にそれぞれ対応するj番目のアンビソニックスコンポーネントは、以下のように計算される。
(数24)
【0158】
最後に、J個のアンビソニックスコンポーネントを合計して、時間-周波数タイル(k,n)に対する次数(レベル)lおよびモードmの最終的な所望のアンビソニックスコンポーネント

を得る、すなわち、
(数25)
である。
【0159】
当然、上述した他の実施の形態も多重波の場合に広げることができる。例えば、実施の形態5および6では、この実施の形態で述べたのと同様の多チャンネルフィルタを用いて、多数の音方向それぞれに対して1つが対応する多数の直接音Pdir,1…J(k,n)を算出することができる。
多数の直接音には、その後、対応する多数の応答

が乗算されて多数の直接音アンビソニックスコンポーネント

が得られ、これらを合計して最終的な所望の直接音アンビソニックスコンポーネント

を得ることができる。
【0160】
なお、本発明は二次元(円筒形)または三次元(球形)アンビソニックス技術だけでなく、任意の音場コンポーネントを計算するための空間基底関数に依る他の技術にも適用可能であることに留意すべきである。
【0161】
[本発明の実施の形態の一覧]
1.複数のマイクロフォン信号を時間-周波数領域に変換する。
2.上記複数のマイクロフォン信号から時間および周波数ごとに1つ以上の音方向を計算する。
3.上記1つ以上の音方向に依存する1つ以上の応答関数を各時間および周波数に対して算出する。
4.各時間および周波数に対して1つ以上の参照マイクロフォン信号を得る。
5.各時間および周波数に対して、上記1つ以上の参照マイクロフォン信号を上記1つ以上の応答関数で乗算して、所望の次数およびモードの1つ以上のアンビソニックスコンポーネントを得る。
6.所望の次数およびモードのアンビソニックスコンポーネントが複数得られた場合、該当するアンビソニックスコンポーネントを合計して最終的な所望のアンビソニックスコンポーネントを得る。
4.いくつかの実施の形態では、ステップ4で、上記1つ以上の参照マイクロフォン信号ではなく1つ以上の直接音および拡散音を複数のマイクロフォン信号から算出する。
5.上記1つ以上の直接音および拡散音を1つ以上の対応する直接音応答および拡散音応答で乗算して、所望の次数およびモードの1つ以上の直接音アンビソニックスコンポーネントおよび拡散音アンビソニックスコンポーネントを得る。
6.拡散音アンビソニックスコンポーネントは、異なる次数およびモードに対して、さらに非相関化してもよい。
7.直接音アンビソニックスコンポーネントと拡散音アンビソニックスコンポーネントを合計して、所望の次数およびモードの最終的な所望のアンビソニックスコンポーネントを得る。
【先行技術文献】
【非特許文献】
【0162】
【文献】[Ambisonics] R. K. Furness, “Ambisonics - An overview,” in AES 8th International Conference, April 1990, pp. 181-189.
【文献】[Ambix] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, “AMBIX - A Suggested Ambisonics Format”, Proceedings of the Ambisonics Symposium 2011.
【文献】[ArrayDesign] M. Williams and G. Le Du, “Multichannel Microphone Array Design,” in Audio Engineering Society Convention 108, 2008.
【文献】[CovRender] J. Vilkamo and V. Pulkki, “Minimization of Decorrelator Artifacts in Directional Audio Coding by Covariance Domain Rendering ”, J. Audio Eng. Soc, vol. 61, no. 9, 2013.
【文献】[DiffuseBF] O. Thiergart and E. A. P. Habets, “Extracting Reverberant Sound Using a Linearly Constrained Minimum Variance Spatial Filter,” IEEE Signal Processing Letters, vol. 21, no. 5, May 2014.
【文献】[DirAC] V. Pulkki, “Directional audio coding in spatial sound reproduction and stereo upmixing,” in Proceedings of The AES 28th International Conference, pp. 251-258, June, 2006.
【文献】[EigenMike] J. Meyer and T. Agnello, “Spherical microphone array for spatial sound recording,” in Audio Engineering Society Convention 115, October 2003
【文献】[ERBsmooth] A. Favrot and C. Faller, “Perceptually Motivated Gain Filter Smoothing for Noise Suppression”, Audio Engineering Society Convention 123, 2007.
【文献】[ESPRIT] R. Roy, A. Paulraj, and T. Kailath, “Direction-of-arrival estimation by subspace rotation methods - ESPRIT,” in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April, 1986.
【文献】[FourierAcoust] E. G. Williams, “Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography,” Academic Press, 1999.
【文献】[HARPEX] S. Berge and N. Barrett, “High Angular Resolution Planewave Expansion, ” in 2nd International Symposium on Ambisonics and Spherical Acoustics, May, 2010.
【文献】[InformedSF] O. Thiergart, M. Taseska, and E. A. P. Habets, “An Informed Parametric Spatial Filter Based on Instantaneous Direction-of-Arrival Estimates,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 12, December 2014.
【文献】[MicSetup3D] H. Lee and C. Gribben, “On the optimum microphone array configuration for height channels,” in 134 AES Convention, Rome, 2013.
【文献】[MUSIC] R. Schmidt, “Multiple emitter location and signal parameter estimation,” IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986.
【文献】[OptArrayPr] B. D. Van Veen and K. M. Buckley, “Beamforming: A versatile approach to spatial filtering”, IEEE ASSP Magazine, vol. 5, no. 2, 1988.
【文献】[RootMUSIC1] B. Raoand and K .Hari, “Performance analysis of root-MUSIC,” in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582.
【文献】[RootMUSIC2] A. Mhamdi and A. Samet, “Direction of arrival estimation for nonuniform linear antenna,” in Communications, Computing and Control Applications (CCCA), 2011 International Conference on, March 2011, pp. 1-5.
【文献】[RootMUSIC3] M. Zoltowski and C. P. Mathews, “Direction finding with uniform circular arrays via phase mode excitation and beamspace root-MUSIC,” in Acoustics, Speech, and Signal Processing, 1992. ICASSP-92., 1992 IEEE International Conference on, vol. 5, 1992, pp. 245-248.
【文献】[SDRestim] O. Thiergart, G. Del Galdo, and E A. P. Habets, “On the spatial coherence in mixed sound fields and its application to signal-to-diffuse ratio estimation”, The Journal of the Acoustical Society of America, vol. 132, no. 4, 2012.
【文献】[SourceNum] J.-S. Jiang and M.-A. Ingram, “Robust detection of number of sources using the transformed rotational matrix,” in Wireless Communications and Networking Conference, 2004. WCNC. 2004 IEEE, vol. 1, March, 2004.
【文献】[SpCoherence] D. P. Jarrett, O. Thiergart, E. A. P. Habets, and P. A. Naylor, “Coherence-Based Diffuseness Estimation in the Spherical Harmonic Domain,” IEEE 27th Convention of Electrical and Electronics Engineers in Israel (IEEEI), 2012.
【文献】[SphHarm] F. Zotter, “Analysis and Synthesis of Sound-Radiation with Spherical Arrays”, PhD thesis, University of Music and Performing Arts Graz, 2009.
【文献】[VirtualMic] O. Thiergart, G. Del Galdo, M. Taseska, and E. A. P. Habets, “Geometry-based Spatial Sound Acquisition Using Distributed Microphone Arrays,” IEEE Transactions on in Audio, Speech, and Language Processing, vol. 21, no. 12, De
【0163】
いくつかの態様について装置の文脈において説明したが、これらの態様は、対応する方法の記述も表し、ブロックまたは装置は、方法工程または方法工程の特徴に対応することは明らかである。同様に、方法工程の文脈において説明した態様も、対応する装置の対応するブロック、項目、または特徴の記述も表す。
【0164】
本発明の信号は、デジタル記憶媒体に記憶することができる、あるいは無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。
【0165】
実施要件によっては、本発明の実施の形態は、ハードウェアまたはソフトウェアに実装することができる。その実装は、各方法が実行されるようにプログラム可能なコンピュータシステムと連携する(または連携可能な)電子的に読み取り可能な制御信号を記憶した、例えばフロッピーディスク、DVD、CD、ROM,PROM、EPROM,EEPROM、またはフラッシュメモリなどのデジタル記憶媒体を用いて実施することができる。
【0166】
本発明による幾つかの実施形態は、ここに述べた方法の1つが実行されるように、プログラム可能なコンピュータシステムと連携可能な電子的に読み取り可能な制御信号を有する持続性データ・キャリアを備えている。
【0167】
概して、本発明の実施の形態は、プログラムコードを備えたコンピュータプログラム製品として実施することができ、このプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行された場合に上記の方法の1つを行うように働く。プログラムコードは、例えば機械可読キャリアに保存することができる。
【0168】
他の実施の形態は、機械可読キャリアに保存された、上述した方法の1つを行うためのコンピュータプログラムを備える。
【0169】
言い換えると、従って、本発明の方法の実施の形態は、コンピュータプログラムがコンピュータ上で実行された場合に、上述した方法の1つを行うためのプログラムコードを有するコンピュータプログラムである。
【0170】
従って、本発明の方法のさらなる実施の形態は、上述した方法の1つを行うためのコンピュータプログラムを記録した、データ・キャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
【0171】
従って、本発明の方法のさらなる実施の形態は、上述した方法の1つを行うためのコンピュータプログラムを表すデータストリームまたは信号列である。データストリームまたは信号列は、例えば、データ通信接続、例えばインターネットを介して転送されるように構成してもよい。
【0172】
さらなる実施の形態は、上述した方法の1つを行うように構成または適応された、処理手段、例えば、コンピュータまたはプログラマブル・ロジック・デバイスを備える。
【0173】
さらなる実施の形態は、上述した方法の1つを行うためのコンピュータプログラムをインストールしたコンピュータを備える。
【0174】
いくつかの実施の形態では、上述した方法の機能のいくつかまたは全てを実行するために、プログラマブル・ロジック・デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を用いてもよい。いくつかの実施の形態では、フィールド・プログラマブル・ゲート・アレイは、上述した方法の1つを行うためにマイクロプロセッサと協働することができる。概して、上記の方法は、任意のハードウェア装置によって実行されるのが好ましい。
【0175】
上述した実施の形態は、本発明の原理を説明したものにすぎない。上述した配置および詳細の改良や変形が当業者にとって明らかであろうことは理解されよう。従って、これらの実施の形態の記載や説明によって提示される特定の詳細によってではなく、以下の特許請求項の範囲によってのみ限定されることが意図される。
【0176】
<本実施形態の態様例のまとめ>
<第1態様>
本態様の装置は、音場コンポーネントの表現を有する音場記述を生成する装置であって、複数のマイクロフォン信号の複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を判定する方向判定器(102)と、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を用いて1つ以上の空間基底関数を評価する空間基底関数評価器(103)と、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を用いて評価された1つ以上の空間基底関数を用い、かつ対応する時間-周波数タイルに対する、複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出された参照信号を用いて、1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントを計算する音場コンポーネント計算器(201)と、を備える。
【0177】
<第2態様>
本態様の装置は、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散コンポーネント計算器(301)と、
拡散音情報と直接音場情報を結合して音場コンポーネントの周波数領域表現または時間領域表現を得る結合器(401)と、をさらに備える。
【0178】
<第3態様>
本態様の拡散コンポーネント計算器(301)は、拡散音情報を非相関化する非相関器(107)をさらに備える。
【0179】
<第4態様>
本態様の装置は、複数の時間領域マイクロフォン信号のそれぞれを、複数の時間-周波数タイルを有する周波数表現に変換する時間-周波数変換器(101)をさらに備える。
【0180】
<第5態様>
本態様の装置は、1つ以上の音場コンポーネント、または1つ以上の音場コンポーネントと拡散音コンポーネントとを結合したものを、音場コンポーネントの時間領域表現に変換する周波数-時間変換器(20)をさらに備える。
【0181】
<第6態様>
本態様の周波数-時間変換器(20)は、1つ以上の音場コンポーネントを処理して複数の時間領域音場コンポーネントを得るように構成され、周波数-時間変換器は、拡散音コンポーネントを処理して複数の時間領域拡散コンポーネントを得るように構成され、結合器(401)は、時間領域において時間領域音場コンポーネントと時間領域拡散コンポーネントとの結合を行うように構成され、または、結合器(401)は、周波数領域において、ある時間-周波数タイルの1つ以上の音場コンポーネントと、該当する時間-周波数タイルの拡散音コンポーネントとを結合するように構成され、周波数-時間変換器(20)は、結合器(401)の結果を処理して時間領域の音場コンポーネントを得るように構成される。
【0182】
<第7態様>
本態様の装置は、1つ以上の音方向を用いて、1つ以上の音方向に基づいて複数のマイクロフォン信号から特定のマイクロフォン信号を選択することを用いて 、或いは、2つ以上のマイクロフォン信号に適用される多チャンネルフィルタであって、1つ以上の音方向と、複数のマイクロフォン信号が得られるマイクロフォンの個々の位置とに依存する多チャンネルフィルタを用いて、複数のマイクロフォン信号から参照信号を計算する参照信号計算器(104)をさらに備える。
【0183】
<第8態様>
本態様の空間基底関数評価器(103)は、空間基底関数として、パラメータが音方向であるパラメータ化表現を用い、音方向に対応するパラメータをパラメータ化表現に挿入して各空間基底関数の評価結果を得るように構成される、或いは、空間基底関数評価器(103)は、入力として空間基底関数識別と、音方向とを有し、出力として評価結果を有する各空間基底関数に対して、ルックアップ・テーブルを用い、空間基底関数評価器(103)は、方向判定器によって判定された1つ以上の音方向に対して、ルックアップ・テーブル入力の対応する音方向を判定する、または方向判定器によって判定された1つ以上の音方向に隣接する2つのルックアップ・テーブル入力の加重または非加重平均を計算するように構成される、或いは、空間基底関数評価器(103)は、空間基底関数として、パラメータが音方向であり、音方向が、二次元状況では方位角などの一次元または三次元状況では方位角および仰角などの二次元である、パラメータ化表現を用い、音方向に対応するパラメータをパラメータ化表現に挿入して、各空間基底関数に対する評価結果を得るように構成される。
【0184】
<第9態様>
本態様の装置は、参照信号として、複数のマイクロフォン信号の直接部分または拡散部分を判定する直接または拡散音判定器(105)をさらに備え、音場コンポーネント計算器(201)は、1つ以上の直接音場コンポーネントを計算する際にのみ直接部分を用いるように構成される。
【0185】
<第10態様>
本態様の装置は、平均空間基底関数応答を判定する平均応答基底関数判定器(106)であって、計算処理またはルックアップ・テーブルアクセス処理を備える判定器と、参照信号として拡散部分のみを、平均空間基底関数応答とともに用いて1つ以上の拡散音場コンポーネントを計算する拡散音コンポーネント計算器(301)と、をさらに備える。
【0186】
<第11態様>
本態様の装置は、直接音場コンポーネントと、拡散音場コンポーネントとを結合して音場コンポーネントを得る結合器(109、401)をさらに備える。
【0187】
<第12態様>
本態様の拡散音コンポーネント計算器(301)は、拡散音コンポーネントを所定の第1の数または次数まで計算するように構成され、音場コンポーネント計算器(201)は、直接音場コンポーネントを所定の第2の数または次数まで計算するように構成され、所定の第2の数または次数は、所定の第1の数または次数より大きく、所定の第1の数または次数は、1以上である。
【0188】
<第13態様>
本態様の拡散信号コンポーネント計算器(105)は、周波数領域表現または時間領域表現での空間基底関数の平均応答との結合の前または後に、拡散音コンポーネントを非相関化する非相関器(107)を備える。
【0189】
<第14態様>
本態様の直接または拡散音判定器(105)は、単一のマイクロフォン信号から直接部分と拡散部分を計算するように構成され、拡散音コンポーネント計算器(301)は、拡散部分を参照信号として用いて1つ以上の拡散音コンポーネントを計算するように構成され、音場コンポーネント計算器(201)は、直接部分を参照信号として用いて1つ以上の直接音場コンポーネントを計算するように構成される、或いは、直接部分が計算されるマイクロフォン信号とは異なるマイクロフォン信号から拡散部分を計算するように構成され、拡散音コンポーネント計算器は、拡散部分を参照信号として用いて1つ以上の拡散音コンポーネントを計算するように構成され、音場コンポーネント計算器(201)は、直接部分を参照信号として用いて1つ以上の直接音場コンポーネントを計算するように構成される、或いは、異なるマイクロフォン信号を用いて異なる空間基底関数の拡散部分を計算するように構成され、拡散音コンポーネント計算器(301)は、第1の数に対応する平均空間基底関数応答に対する参照信号として第1の拡散部分を用い、第2の数の平均空間基底関数応答に対応する参照信号として異なる第2の拡散部分を使用するように構成され、第1の数は第2の数とは異なり、第1の数および第2の数は1つ以上の空間基底関数の任意の次数またはレベルおよびモードを示し、或いは、複数のマイクロフォン信号に適用される第1の多チャンネルフィルタを用いて直接部分を計算し、複数のマイクロフォン信号に適用される第2の多チャンネルフィルタを用いて拡散部分を計算するように構成され、第2の多チャンネルフィルタは、第1の多チャンネルフィルタとは異なり、拡散音コンポーネント計算器(301)は、拡散部分を参照信号として用いて1つ以上の拡散音コンポーネントを計算するように構成され、音場コンポーネント計算器(201)は、直接部分を参照信号として用いて1つ以上の直接音場コンポーネントを計算するように構成される、或いは、異なる空間基底関数の拡散部分を、異なる空間基底関数に対する異なる多チャンネルフィルタを用いて計算するように構成され、拡散音コンポーネント計算器(301)は、拡散部分を参照信号として用いて1つ以上の拡散音コンポーネントを計算するように構成され、音場コンポーネント計算器(201)は、直接部分を参照信号として用いて1つ以上の直接音場コンポーネントを計算するように構成される。
【0190】
<第15態様>
本態様の空間基底関数評価器(103)は、時間方向または周波数方向で動作する、評価結果を平滑化するゲイン平滑器(111)を備え、音場コンポーネント計算器(201)は、1つ以上の音場コンポーネントを計算する際に、平滑化された評価器結果を使用するように構成される。
【0191】
<第16態様>
本態様の空間基底関数評価器(103)は、時間-周波数タイルに対し、方向判定器によって判定された少なくとも2つの音方向のそれぞれの音方向に、1つ以上の2つの空間基底関数の空間基底関数ごとに、評価結果を計算するように構成され、参照信号計算器(104)は、各音方向に対して別々の参照信号を計算するように構成され、音場コンポーネント計算器(103)は、各方向に対する音場コンポーネントを、音方向の評価結果と、音方向の参照信号とを用いて計算するように構成され、音場コンポーネント計算器は、空間基底関数を用いて計算された異なる方向に対する音場コンポーネントを加算して、時間-周波数タイルにおける空間基底関数の音場コンポーネントを得るように構成される。
【0192】
<第17態様>
本態様の空間基底関数評価器(103)は、二次元または三次元状況のアンビソニックスに対して1つ以上の空間基底関数を用いるように構成される。
【0193】
<第18態様>
本態様の空間基底関数評価器(103)は、少なくとも2つのレベルまたは次数または少なくとも2つのモードの空間基底関数を少なくとも用いるように構成される。
【0194】
<第19態様>
本態様の音場コンポーネント計算器(201)は、レベル0、レベル1、レベル2、レベル3、レベル4からなるレベルのグループのうち少なくとも2つのレベルに対する音場コンポーネントを計算するように構成される、或いは、音場コンポーネント計算器(201)は、モード-4、モード-3、モード-2、モード-1、モード0、モード1、モード2、モード3、モード4からなるモードのグループのうち少なくとも2つのモードに対する音場コンポーネントを計算するように構成される。
【0195】
<第20態様>
本態様の装置は、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散コンポーネント計算器(301)と、拡散音情報と直接音場情報とを結合して、音場コンポーネントの周波数領域表現または時間領域表現を得る結合器(401)と、を備え、拡散コンポーネント計算器または結合器は、音場コンポーネント計算器(201)が直接音場コンポーネントを計算するように構成された次数または数よりも小さい、所定の次数または数まで拡散コンポーネントを計算または結合するように構成される。
【0196】
<第21態様>
本態様の所定の次数または数は1またはゼロであり、音場コンポーネント計算器(201)が音場コンポーネントを計算するように構成された次数または数は2以上である。
【0197】
<第22態様>
本態様の音場コンポーネント計算器(201)は、参照信号の時間-周波数タイルの信号を、空間基底関数から得た評価結果で乗算(115)して、空間基底関数に関連する音場コンポーネントの情報を得て、参照信号の時間-周波数タイルの信号を、更なる空間基底関数から得た更なる評価結果で乗算(115)して更なる空間基底関数に関連する更なる音場コンポーネントの情報を得るように構成される。
【0198】
<第23態様>
本態様の方法は、音場コンポーネントの表現を有する音場記述を生成する方法であって、複数のマイクロフォン信号の複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を判定し(102)、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を用いて1つ以上の空間基底関数を評価し(103)、複数の時間-周波数タイルの各時間-周波数タイルに対して、1つ以上の音方向を用いて評価された1つ以上の空間基底関数を用い、かつ対応する時間-周波数タイルに対する、複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出された参照信号を用いて、1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントを計算する(201)、ことを含む。
【0199】
<第24態様>
本態様のコンピュータプログラムは、コンピュータまたはプロセッサ上で実行されるときに、第23態様に記載の、音場コンポーネントの表現を有する音場記述を生成する方法を実行する。
【符号の説明】
【0200】
101 時間-周波数変換器
102 方向判定器
103 空間基底関数評価器
107 非相関器
201 音場コンポーネント計算器
301 拡散コンポーネント計算器
401 結合器
20 周波数-時間変換器
図1a
図1b
図1c
図1d
図1e
図1f
図1g
図2a
図2b
図3a
図3b
図4
図5
図6
図7
図8