(58)【調査した分野】(Int.Cl.,DB名)
前記1つ以上の音場コンポーネント、または前記1つ以上の音場コンポーネントと拡散音コンポーネントとを結合したものを、前記音場コンポーネントの時間領域表現に変換する周波数−時間変換器(20)をさらに備える、請求項1乃至4の何れか1項に記載の装置。
前記周波数−時間変換器(20)は、前記1つ以上の音場コンポーネントを処理して複数の時間領域音場コンポーネントを得るように構成され、前記周波数−時間変換器は、前記拡散音コンポーネントを処理して複数の時間領域拡散コンポーネントを得るように構成され、
結合器(401)は、時間領域において前記時間領域音場コンポーネントと前記時間領域拡散コンポーネントとの結合を行うように構成され、または、結合器(401)は、周波数領域において、ある時間−周波数タイルの前記1つ以上の音場コンポーネントと、該当する時間−周波数タイルの前記拡散音コンポーネントとを結合するように構成され、
前記周波数−時間変換器(20)は、前記結合器(401)の結果を処理して前記時間領域の音場コンポーネントを得るように構成される、請求項5に記載の装置。
前記1つ以上の音方向を用いて、前記1つ以上の音方向に基づいて前記複数のマイクロフォン信号から特定のマイクロフォン信号を選択することを用いて、或いは、2つ以上のマイクロフォン信号に適用される多チャンネルフィルタであって、前記1つ以上の音方向と、前記複数のマイクロフォン信号が得られるマイクロフォンの個々の位置とに依存する多チャンネルフィルタを用いて、前記複数のマイクロフォン信号から前記参照信号を計算する参照信号計算器(104)をさらに備える、請求項1乃至6の何れか1項に記載の装置。
前記空間基底関数評価器(103)は、空間基底関数として、パラメータが音方向であるパラメータ化表現を用い、前記音方向に対応するパラメータを前記パラメータ化表現に挿入して各空間基底関数の評価結果を得るように構成される、或いは、
前記空間基底関数評価器(103)は、入力として空間基底関数識別と、前記音方向とを有し、出力として評価結果を有する各空間基底関数に対して、ルックアップ・テーブルを用い、前記空間基底関数評価器(103)は、前記方向判定器によって判定された前記1つ以上の音方向に対して、前記ルックアップ・テーブル入力の対応する音方向を判定する、または前記方向判定器によって判定された前記1つ以上の音方向に隣接する2つのルックアップ・テーブル入力の加重または非加重平均を計算するように構成される、或いは、
前記空間基底関数評価器(103)は、空間基底関数として、パラメータが音方向であり、前記音方向が、二次元状況では方位角などの一次元または三次元状況では方位角および仰角などの二次元である、パラメータ化表現を用い、前記音方向に対応するパラメータを前記パラメータ化表現に挿入して、各空間基底関数に対する評価結果を得るように構成される、請求項1乃至7の何れか1項に記載の装置。
前記空間基底関数評価器(103)は、時間−周波数タイルに対し、前記方向判定器によって判定された少なくとも2つの音方向のそれぞれの音方向に、前記1つ以上の2つの空間基底関数の空間基底関数ごとに、評価結果を計算するように構成され、
参照信号計算器(104)は、各音方向に対して別々の参照信号を計算するように構成され、
前記音場コンポーネント計算器(201)は、各方向に対する前記音場コンポーネントを、前記音方向の評価結果と、前記音方向の参照信号とを用いて計算するように構成され、
前記音場コンポーネント計算器は、空間基底関数を用いて計算された異なる方向に対する音場コンポーネントを加算して、時間−周波数タイルにおける前記空間基底関数の音場コンポーネントを得るように構成される、請求項1乃至15の何れか1項に記載の装置。
前記空間基底関数評価器(103)は、二次元または三次元状況のアンビソニックスに対して前記1つ以上の空間基底関数を用いるように構成される、請求項1乃至16の何れか1項に記載の装置。
前記空間基底関数評価器(103)は、少なくとも2つのレベルまたは次数または少なくとも2つのモードの空間基底関数を少なくとも用いるように構成される、請求項17に記載の装置。
前記音場コンポーネント計算器(201)は、レベル0、レベル1、レベル2、レベル3、レベル4からなるレベルのグループのうち少なくとも2つのレベルに対する前記音場コンポーネントを計算するように構成される、或いは、
前記音場コンポーネント計算器(201)は、モード(−4)、モード(−3)、モード(−2)、モード(−1)、モード(0)、モード(+1)、モード(+2)、モード(+3)、モード(+4)からなるモードのグループのうち少なくとも2つのモードに対する前記音場コンポーネントを計算するように構成される、請求項18に記載の装置。
前記所定の次数または数は1またはゼロであり、前記音場コンポーネント計算器(201)が音場コンポーネントを計算するように構成された次数または数は2以上である、請求項20に記載の装置。
前記音場コンポーネント計算器(201)は、前記参照信号の時間−周波数タイルの信号を、空間基底関数から得た評価結果で乗算(115)して、前記空間基底関数に関連する音場コンポーネントの情報を得て、前記参照信号の時間−周波数タイルの信号を、更なる空間基底関数から得た更なる評価結果で乗算(115)して前記更なる空間基底関数に関連する更なる音場コンポーネントの情報を得るように構成される、請求項1乃至21の何れか1項に記載の装置。
コンピュータまたはプロセッサ上で実行されるときに、請求項23に記載の、音場コンポーネントの表現を有する音場記述を生成する方法を実行するためのコンピュータプログラム。
【発明を実施するための形態】
【0024】
好適な実施の形態を
図1cに示す。
図1cは、音場コンポーネントの時間領域表現や音場コンポーネントの周波数領域表現、符号化または復号化表現、または中間表現などの音場コンポーネントの表現を有する音場記述130を生成する装置または方法の実施の形態を示す。
【0025】
この目的で、方向判定器102は、複数のマイクロフォン信号の複数の時間−周波数タイルの各時間−周波数タイルに対して1つ以上の音方向131を判定する。
【0026】
従って、方向判定器は、その入力132において、少なくとも2つの異なるマイクロフォン信号を受信し、これら2つのマイクロフォン信号のそれぞれに対して、典型的には、スペクトルビンの次のブロックからなる時間−周波数表現が利用でき、スペクトルビンのブロックは、ある時間インデックスnと関連付けられ、周波数インデックスはkである。ある時間インデックスに対する周波数ビンのブロックは、あるウインドウ化操作によって生成される時間領域サンプルのブロックに対する時間領域信号のスペクトルを表す。
【0027】
音方向131は、空間基底関数評価器103によって、複数の時間−周波数タイルの各時間−周波数タイルごとに、1つ以上の空間基底関数を評価するために用いられる。よって、ブロック103における処理の結果は、各時間−周波数タイルごとの1つ以上の評価空間基底関数となる。
図1eおよび1fを参照して述べるように、4つの空間基底関数など、2つあるいはさらに多くの異なる空間基底関数を用いるのが好ましい。よって、ブロック103の出力133では、時間−スペクトル表現の異なる時間−周波数タイルに対する異なる次数およびモードの評価空間基底関数が得られ、音場コンポーネント計算器201に入力される。
音場コンポーネント計算器201は、参照信号計算器(
図1cには図示せず)によって生成される参照信号134もさらに用いる。参照信号134は、複数のマイクロフォン信号のうち1つ以上のマイクロフォン信号から導出され、同じ時間/周波数表現内の音場コンポーネント計算器によって用いられる。
【0028】
よって、音場コンポーネント計算器201は、複数の時間−周波数タイルの各時間−周波数タイルに、その時間−周波数タイルに対する1つ以上の参照信号の助けを借りて、1つ以上の音方向を用いて評価された1つ以上の空間基底関数に対応する1つ以上の音場コンポーネントを計算するように構成されている。
【0029】
実施によっては、空間基底関数評価器103は、二次元の場合は一次元、三次元の場合は二次元となる音方向がパラメータであるパラメータ化表現を空間基底関数に対して用い、音方向に対応するパラメータをパラメータ化表現に挿入して各空間基底関数に対する評価結果を得るように構成されている。
【0030】
あるいは、空間基底関数評価器は、入力として空間基底関数識別および音方向を有し、出力として評価結果を有する各空間基底関数に対するルックアップ・テーブルを用いるように構成されている。この場合、空間基底関数評価器は、方向判定器102によって判定された1つ以上の音方向に対して、ルックアップ・テーブル入力の対応する音方向を判定するように構成されている。典型的には、例えば10種類の異なる音方向など、一定数のテーブル入力が存在するように異なる方向入力が量子化される。
【0031】
空間基底関数評価器103は、ルックアップ・テーブルに対する音方向入力とは直ちに一致しない特定の音方向に対して、対応するルックアップ・テーブル入力を判定するように構成される。これは、例えば、ある判定された音方向に対して、次に高い、あるいは次に低いルックアップ・テーブルへの音方向入力を用いることによって実行することができる。あるいは、2つの隣り合うルックアップ・テーブル入力の加重平均が計算されるようにテーブルを用いる。よって、手順は、次に低い方向入力に対するテーブル出力が判定されるというものになろう。さらに、次に高い入力に対するルックアップ・テーブル出力を判定して、それらの値の平均を計算する。
【0032】
この平均は、2つの出力を加算し、その結果を2で割ることによって得られる単純平均であってもよいし、次に高いテーブル出力および次に低いテーブル出力に対する判定された音方向の位置に応じた加重平均であってもよい。よって、典型的には、重み付け係数は、判定された音方向と、これに対応する次に高い/次に低いルックアップ・テーブルへの入力との差に依存することになる。例えば、測定された方向が次に低い入力に近い場合、次に低い入力に対するルックアップ・テーブル結果には、次に高い入力に対するルックアップ・テーブル出力が重み付けされる重み付け係数よりも高い重み付け係数が乗算される。よって、判定された方向と次に低い入力との差が小さければ、次に低い入力に対するルックアップ・テーブルの出力は、音の方向に対する次に高いルックアップ・テーブル入力に対応するルックアップ・テーブルの出力を重み付けするために用いられる重み付け係数よりも高い重み付け係数で重み付けされることになる。
【0033】
次に、異なるブロックの特定の計算に対する例をより詳細に示すために、
図1dから
図1gについて説明する。
【0034】
図1dの上の図は、概略的なマイクロフォン信号を示す。ただし、マイクロフォン信号の実際の振幅を示すものではない。代わりに、ウインドウ、特にウインドウ151および152が図示されている。ウインドウ151は第1のブロック1を定義し、ウインドウ152は第2のブロック2を特定、判定する。よって、マイクロフォン信号は、好ましくは重複が50%に等しい重複ブロックで処理される。ただし、より高度あるいは低度の重複を用いてもよく、全く重複していなくても構わない。ただし、重複処理は、ブロックアーチファクトを避けるために行われる。
【0035】
マイクロフォン信号のサンプリング値の各ブロックは、スペクトル表現に変換される。時間インデックスn=1のブロック、すなわちブロック151に対するスペクトル表現またはスペクトルが、
図1dの中央の図に示されており、参照番号152に対応する第2のブロック2のスペクトル表現が
図1dの下の図に示されている。さらに、例を示すために、各スペクトルは、10個の周波数ビンを有する、すなわち周波数インデックスkが例えば1から10にわたるように図示されている。
【0036】
よって、時間−周波数タイル(k,n)は、153における時間−周波数タイル(10,1)であり、さらなる例では154における別の時間−周波数タイル(5,2)を示している。音場記述を生成する装置によって実行される更なる処理が、例えば、参照番号153と154によって示される時間−周波数タイルを用いて例として図示された
図1dに示されている。
【0037】
さらに、方向判定器102は、例として単位ノルムベクトルnで示される音方向または“DOA”(到来方向)を判定するものとする。代替的な方向指標としては、方位角、仰角、またはその両方の角度がある。このために、各マイクロフォン信号が
図1dに示すように周波数ビンの以降のブロックによって表現される、上記複数のマイクロフォン信号の全てのマイクロフォン信号が方向判定器102によって用いられ、
図1cの方向判定器102は、例えば音方向またはDOAを判定する。
よって、例として、
図1eの上部に示すように、時間−周波数タイル(10,1)は音方向n(10,1)を有し、時間−周波数タイル(5,2)は音方向n(5,2)を有する。三次元の場合、音方向はx、y、z成分を有する三次元ベクトルである。もちろん、2つの角度と1つの動径に依る球面座標などの他の座標系を用いてもよい。あるいは、角度を例えば方位角および仰角とすることができる。この場合、動径は必要ない。同様に、デカルト座標などの二次元の場合には、音方向の成分が2つ、すなわちx方向とy方向があり、あるいは動径と角度または方位角および仰角を有する円座標を用いても良い。
【0038】
この手順は、時間−周波数タイル(10,1)と(5,2)に対してだけでなく、マイクロフォン信号が表現される全ての時間−周波数タイルに対して実行される。
【0039】
次に、必要な1つ以上の空間基底関数を判定する。特に、いくつの音場コンポーネント、あるいは一般的には音場コンポーネントの表現を生成すべきか判定される。ここで
図1cの空間基底関数評価器103が用いる空間基底関数の数が、最終的に、スペクトル表現における各時間−周波数タイルに対する音場コンポーネントの数、または時間領域における音場コンポーネントの数を決める。
【0040】
さらなる実施の形態に対しては、4つの音場コンポーネントの数を判定すべきとされ、例示的にはこれら4つの音場コンポーネントは、1つの全指向性音場コンポーネント(0に等しい次数に対応する)と、デカルト座標系の対応する座標方向の指向性を有する3方向音場コンポーネントとすることができる。
【0041】
図1eの下の図は、異なる時間−周波数タイルに対する評価された空間基底関数G
iを図示する。よって、この例では、各時間−周波数タイルに対する4つの評価空間基底関数が判定されることが明らかになる。例として各ブロックが10個の周波数ビンを有するとした場合、
図1eに図示するように、ブロックn=1に対して、およびブロックn=2に対してなど、各ブロックに対して40個の評価空間基底関数G
iが判定される。従って、まとめると、2つのみのブロックについて考え、各ブロックが10個の周波数ビンを有するとした場合、これらの2つのブロックには20個の時間−周波数タイルがあり、各時間−周波数タイルが4つの評価空間基底関数を有するので、この手順によって80個の評価された空間基底関数が得られる。
【0042】
図1fは、
図1cの音場コンポーネント計算器201の好ましい実施を示す。
図1fは、上の2つの図において、
図1cのブロック201にライン134を介して入力される、判定された参照信号に対する周波数ビンの2つのブロックを示している。特に、特定のマイクロフォン信号または異なるマイクロフォン信号の組み合わせとすることができる参照信号は、
図1dを参照して述べたのと同様に処理される。よって、例示的に、参照信号は、ブロックn=1に対する参照スペクトル、およびブロックn=2に対する参照信号スペクトルで表される。よって、参照信号は、ブロック103からブロック201にライン133を介して出力される時間−周波数タイルに対する評価空間基底関数の計算のために用いられたのと同じ時間−周波数パターンに分解される。
【0043】
次に、音場コンポーネントの実際の計算を、155に示すような参照信号Pに対応する時間−周波数タイルと、これに関連した評価空間基底関数Gとの関数による結合によって行う。f(...)によって表される関数による結合は、後に述べる
図3a、3bでは115で示す乗算であることが好ましい。ただし、先に述べたように、他の関数による結合を用いても良い。ブロック155の関数による結合を利用して、ブロックn=1に対して156、ブロックn=2に対して157に示すような音場コンポーネントB
iの周波数領域(スペクトル)表現を得るために、各時間−周波数タイルに対して1つ以上の音場コンポーネントB
iを算出する。
【0044】
よって、例示的に、一方には時間−周波数タイル(10,1)に対する音場コンポーネントB
iの周波数領域表現を、他方には第2ブロックの時間−周波数タイル(5,2)に対する音場コンポーネントB
iの周波数領域表現を図示している。ただし、繰り返しになるが、
図1fにおいて156および157に図示された音場コンポーネントB
iの数が、
図1eの下部に図示した評価空間基底関数の数と同じであることは明らかである。
【0045】
周波数領域音場コンポーネントのみが必要な場合、上記の計算は、ブロック156および157の出力で完了する。しかし、他の実施の形態では、第1の音場コンポーネントB
1のための時間領域表現、第2の音場コンポーネントB
2のためのさらなる時間領域表現などを得るために、音場コンポーネントの時間領域表現が必要とされる。
【0046】
このため、第1のブロック156における周波数ビン1から周波数ビン10の音場コンポーネントB
1が周波数−時間転送ブロック159に挿入されて、第1のブロックおよび第1のコンポーネントに対する時間領域表現を得る。
【0047】
同様に、時間領域の第1のコンポーネント、すなわちb
1(t)を判定、計算するために、周波数ビン1から周波数ビン10の第2のブロックに対するスペクトル音場コンポーネントB
1が、さらなる周波数−時間変換160によって時間領域表現に変換される。
【0048】
図1dの上部に示すように重複ウインドウが用いられているために、
図1gの162に示すブロック1とブロック2との重複領域における第1のスペクトル表現b
1(d)の出力時間領域サンプルを計算するために、
図1fの下部に示すクロスフェードまたは重畳加算処理161を用いることができる。
【0049】
第1のブロックと第2のブロックとの重複領域163内の第2の時間領域音場コンポーネントb
2(t)を計算するために、同様の手順が行われる。さらに、時間領域の第3の音場コンポーネントb
3(t)を計算するために、特に、重複領域164のサンプルを計算するために、第1のブロックからのコンポーネントD
3および第2のブロックからのコンポーネントD
3が、手順159、160によって時間領域表現に対応して変換された後、得られた値がブロック161でクロスフェード/重畳加算される。
【0050】
最後に、
図1gに図示するように、重複領域165における第4の時間領域表現音場コンポーネントb
4(t)の最終サンプルを得るために、第1のブロックの第4のコンポーネントB4と、第2のブロックの第4のコンポーネントB4に対して同様の手順を行う。
【0051】
ただし、時間−周波数タイルを得るために、重複するブロックで処理を行うのでなく、重複しないブロックで処理を行う場合には、ブロック161に図示されるようなクロスフェード/重畳加算は必要ないことに留意すべきである。
【0052】
さらに、2つよりも多い数のブロックが互いに重複するより高度の重複の場合、これに対応してより多くのブロック159、160が必要となり、
図1gに示す時間領域表現のサンプルを最終的に得るために、2つの入力だけではなく3つの入力でブロック161のクロスフェード/重畳加算が計算される。
【0053】
さらに、例えば重複領域OL
23に対する時間領域表現のサンプルは、ブロック159、160における手順を第2のブロックと第3のブロックに適用することによって得られることに留意すべきである。これに対応して、重複領域OL
01に対するサンプルは、ブロック0とブロック1のある数iの、対応するスペクトル音場コンポーネントB
iに手順159、160を実行することによって計算される。
【0054】
さらに、既に概略を説明したように、音場コンポーネントの表現は、156および157に対して
図1fで示すように周波数領域表現とすることができる。あるいは、音場コンポーネントの表現は
図1gに示すように時間領域表現としてもよく、この場合、4つの音場コンポーネントは、あるサンプリングレートと関連したサンプル列を有する簡単な音信号を表している。さらに、音場コンポーネントの周波数領域表現あるいは時間領域表現を符号化してもよい。この符号化は、各音場コンポーネントが単一信号として符号化されるように別々に行ってもよいし、例えば4つの音場コンポーネントB
1〜B
4が4つのチャンネルを有する多チャンネル信号とみなされるように、一緒に符号化されてもよい。よって、任意の有用な符号化アルゴリズムで符号化される周波数領域表現あるいは時間領域表現もまた、音場コンポーネントの表現の1つである。
【0055】
さらに、ブロック161によって行われるクロスフェード/重畳加算の前の時間領域における表現も、ある実施にとっては音場コンポーネントの有用な表現となりうる。さらに、コンポーネント1など、あるコンポーネントに対するブロックnにわたるベクトル量子化の一種も、送信、保存、あるいは他の処理タスクのための音場コンポーネントの周波数領域表現を圧縮するために実行することができる。
【0056】
[好適な実施の形態]
図2aは、ブロック(10)によって得られる、多数の(2つ以上の)マイクロフォンの信号から所望の次数(レベル)およびモードのアンビソニックスコンポーネントを合成することができる本新規な手法を示している。関連する最先端の手法とは異なり、マイクロフォン・セットアップには何ら制約がない。これは、多数のマイクロフォンを例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置してもよいことを意味する。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0057】
所望のアンビソニックスコンポーネントを得るために、複数のマイクロフォン信号はまず、ブロック(101)を用いて時間−周波数表現に変換される。このために、例えば、フィルターバンクまたは短時間フーリエ変換(STFT)を用いることができる。ブロック(101)の出力は、時間−周波数領域の多数のマイクロフォン信号である。ただし、以下の処理は、時間−周波数タイルごとに別々に実行される。
【0058】
時間−周波数領域の多数のマイクロフォン信号を変換した後、2つ以上のマイクロフォン信号からブロック(102
A)において1つ以上の音方向(時間−周波数タイルに対して)を判定する。音方向は、ある時間−周波数タイルに対する顕著な音がどこからマイクロフォン配列に届いているかを記述するものである。この方向は、通常、音の到来方向(DOA)と呼ばれる。
DOAの代わりに、DOAの逆方向である音の伝搬方向、あるいは音方向を記述する他の手段を考えてもよい。1つまたは多数の音方向またはDOAはブロック(102
A)において、例えば、ほとんどどのマイクロフォン・セットアップに対しても利用可能な最先端の狭帯域DOA推定器を用いて推定される。DOA推定器の適切な例が実施の形態1に挙げられている。
ブロック(102
A)で算出される音方向またはDOAの数(1つ以上)は、例えば、許容される計算複雑性に依存するとともに、用いられるDOA推定器の性能またはマイクロフォン形状に依存する。音方向は、例えば二次元空間(例えば方位角の形式で表される)において、または三次元空間(例えば、方位角と仰角の形式で表される)において推定することができる。
以下では、大半の記述は、より一般的な三次元の場合に基づくが、全ての処理工程を二次元の場合にも適用するのは容易である。多くの場合、ユーザは、いくつの音方向またはDOA(例えば、1つ、2つ、または3つ)を推定するかを時間−周波数タイルごとに指定する。あるいは、最先端の手法、例えば[SourceNum](非特許文献20)に説明されている手法を用いて、顕著な音の数を推定してもよい。
【0059】
ある時間−周波数タイルに対してブロック(102
A)で推定された1つ以上の音方向は、その時間−周波数タイルに対する所望の次数(レベル)およびモードの空間基底関数の1つ以上の応答を算出するためにブロック(103
A)で用いられる。評価された各音方向に対して、1つの応答が算出される。
先の項で説明したように、空間基底関数は、例えば球面調和関数(例えば、処理が三次元空間で実行される場合)または円調和関数(例えば、処理が二次元空間で実行される場合)を表現することができる。空間基底関数の応答は、第1の実施の形態でより詳細に説明するように、対応する推定音方向において評価された空間基底関数である。
【0060】
ある時間−周波数タイルに対して推定された1つ以上の音方向は、さらにブロック(201
A)において、つまりこの時間−周波数タイルに対して所望の次数(レベル)およびモードの1つ以上のアンビソニックスコンポーネントを算出するために用いられる。
このようなアンビソニックスコンポーネントは、推定された音方向から到来する指向性音に対するアンビソニックスコンポーネントを合成する。この時間−周波数タイルに対してブロック(103
A)で算出された空間基底関数の1つ以上の応答、および所定の時間−周波数タイルに対する1つ以上のマイクロフォン信号も、ブロック(201
A)に更に入力される。
ブロック(201
A)では、推定された各音方向および対応する空間基底関数の応答に対して、所望の次数(レベル)およびモードの1つのアンビソニックスコンポーネントが算出される。ブロック(201
A)の処理工程については、以下の実施の形態でさらに説明する。
【0061】
本発明(10)は、ある時間−周波数タイルに対して所望の次数(レベル)およびモードの拡散音アンビソニックスコンポーネントを算出することができる任意のブロック(301)を含んでいる。このコンポーネントは、例えば純粋拡散音場に対する、または周囲音に対するアンビソニックスコンポーネントを合成する。
ブロック(301)には、1つ以上のマイクロフォン信号に加え、ブロック(102
A)で推定された1つ以上の音方向が入力される。ブロック(301)の処理工程については、後の実施の形態でさらに説明する。
【0062】
任意のブロック(301)で算出される拡散音アンビソニックスコンポーネントは、任意のブロック(107)においてさらに非相関化されてもよい。このために、最先端の非相関器を用いることができる。幾つかの例が実施の形態4に挙げられている。典型的には、異なる次数(レベル)およびモードに対して異なる非相関器または非相関器の異なる実施を適用することになるであろう。
こうすることで、非相関化された異なる次数(レベル)およびモードの拡散音アンビソニックスコンポーネントが、相互に無相関になる。これにより予期された物理的挙動が起こる、すなわち異なる次数(レベル)およびモードのアンビソニックスコンポーネントが、例えば[SpCoherence](非特許文献21)で説明されるように、拡散音または周囲音に対して相互に無相関になる。
【0063】
ある時間−周波数タイルに対してブロック(201
A)で算出された所望の次数(レベル)およびモードの1つ以上の(直接音)アンビソニックスコンポーネントと、ブロック(301)で算出された対応する拡散音アンビソニックスコンポーネントとが、ブロック(401)で結合される。
後の実施の形態で説明するように、結合は、例えば(加重)和として実現することができる。ブロック(401)の出力は、所定の時間−周波数タイルに対する所望の次数(レベル)およびモードの最終的な合成アンビソニックスコンポーネントである。
当然、ある時間−周波数タイルに対して所望の次数(レベル)およびモードの単一の(直接音)アンビソニックスコンポーネントのみがブロック(201
A)で算出される(また、拡散音アンビソニックスコンポーネントがない)場合、結合器(401)は必要ない。
【0064】
すべての時間−周波数タイルに対して所望の次数(レベル)およびモードの最終的なアンビソニックスコンポーネントを算出した後、アンビソニックスコンポーネントは、例えば、逆フィルターバンクや逆STFTとして実現することができる逆時間−周波数変換(20)で、元の時間領域に変換しなおしてもよい。
ただし、逆時間−周波数変換は全ての適用において必要というわけではなく、したがって本発明の一部ではない。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対してアンビソニックスコンポーネントを算出することになるであろう。
【0065】
図2bは、同様の本発明を若干変更した実現例を示す。この図では、結合器(401)の前に逆時間−周波数変換(20)が適用されている。
これは、逆時間−周波数変換が通常、線形変換であるため可能である。結合器(401)の前に逆時間−周波数変換を適用することによって、例えば、時間領域(
図2aのように時間―周波数領域ではなく)において非相関化を実行することができる。これによって、本発明を実施する際、ある適用では実用的な利点が得られる。
【0066】
逆フィルターバンクは、どこか他の場所であってもよいことに留意すべきである。結合器および非相関器は一般に(非相関器は通常)、時間領域で適用されるべきである。
しかし、両方または一方のブロックのみを周波数領域で適用してもよい。
【0067】
従って、好適な実施の形態は、複数の時間−周波数タイルの各時間−周波数タイルに対して、1つ以上の拡散音コンポーネントを計算する拡散コンポーネント計算器301を備えている。さらに、これらの実施の形態は、音場コンポーネントの周波数領域表現または時間領域表現を得るために拡散音情報と直接音場情報とを結合する結合器401を備えている。
さらに、実施によっては、拡散コンポーネント計算器は拡散音情報を非相関化する非相関器107をさらに備え、非相関器は、相関が拡散音コンポーネントの時間−周波数タイル表現で行われるように、周波数領域内に実装することができる。あるいは、非相関器は、
図2bに図示するように時間領域内で動作するように構成されて、ある次数のある拡散音コンポーネントの時間表現の時間領域内で非相関化が行われる。
【0068】
本発明に関する更なる実施の形態は、複数の時間領域マイクロフォン信号のそれぞれを、複数の時間−周波数タイルを有する周波数表現に変換する時間−周波数変換器101などの時間−周波数変換器を備える。
更なる実施の形態は、1つ以上の音場コンポーネント、または1つ以上の音場コンポーネント、すなわち直接音場コンポーネントと拡散音コンポーネントの組み合わせを、音場コンポーネントの時間領域表現に変換する
図2aまたは
図2bのブロック20などの周波数−時間変換器を備える。
【0069】
特に、周波数−時間変換器20は、1つ以上の音場コンポーネントを処理して複数の時間領域音場コンポーネントを得るように構成されていて、これらの時間領域音場コンポーネントは直接音場コンポーネントである。
さらに、周波数−時間変換器20は、拡散音(場)コンポーネントを処理して複数の時間領域拡散(音場)コンポーネントを得るように構成され、結合器は、例えば
図2bに示すように時間領域において時間領域(直接)音場コンポーネントと時間領域拡散(音場コンポーネント)の結合を実行するように構成されている。
あるいは、結合器401は、ある時間−周波数タイルの1つ以上の(直接)音場コンポーネントと、対応する時間−周波数タイルの拡散音(場)コンポーネントを周波数領域内で結合するように構成されており、周波数−時間変換器20は、例えば
図2aに示すように、結合器401の結果を処理して時間領域の音場コンポーネント、すなわち時間領域の音場コンポーネントの表現を得るように構成される。
【0070】
以下の実施の形態では、本発明のいくつかの実現例について、より詳細に説明する。ただし、実施の形態1〜7では、時間−周波数タイルあたり1つの音方向(よって、レベル、モード、時間、周波数あたり1つのみの空間基底関数の応答および1つのみの直接音アンビソニックスコンポーネント)を考える。
実施の形態8では、時間−周波数タイルあたり1より多い音方向を考えた例について説明している。この実施の形態の概念は、全ての他の実施の形態に容易に適用できる。
【0071】
[実施の形態1]
図3aは、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の実施の形態を示す。
【0072】
本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0073】
多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間−周波数領域に変換される。時間−周波数変換(101)の出力は、時間−周波数領域の多数のマイクロフォン信号であり、P
1...M(k,n)で表される。ここで、kは周波数インデックス、nは時間インデックス、Mはマイクロフォンの数である。ただし、以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
【0074】
マイクロフォン信号を時間−周波数領域に変換した後、2つ以上のマイクロフォン信号P
1...M(k,n)を用いて時間および周波数ごとに、音方向推定がブロック(102
B)において実行される。この実施の形態では、時間および周波数あたり単一の音方向を判定する。
(102
B)における音方向推定には、最先端の狭帯域到来方向(DOA)推定器を用いることができ、これは文献において異なるマイクロフォン配列形状に利用可能である。例えば、任意のマイクロフォン・セットアップに適用可能なMUSICアルゴリズム[MUSIC](非特許文献14)を用いることができる。
全指向性マイクロフォンの均等直線配列、等距離格子点を備えた不均等直線配列、あるいは円配列の場合、MUSICよりも計算上効率の良いRoot MUSICアルゴリズム[RootMUSIC1, RootMUSIC2, RootMUSIC3](非特許文献16〜18)を適用することができる。回転不変サブアレイ構造を備えた直線配列または平面配列に適用できる他の公知の狭帯域DOA推定器としてはESPRIT[ESPRIT](非特許文献9)がある。
【0075】
この実施の形態では、音方向推定器(102
B)の出力は、時間インスタンスnと周波数インデックスkに対する音方向である。音方向は、例えば、単位ノルムベクトル
[この文献は図面を表示できません]
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは例えば以下のような関係にある。
(数1)
[この文献は図面を表示できません]
【0076】
仰角θ(k,n)推定されない場合(二次元の場合)、以下の工程ではゼロ仰角、すなわちθ(k,n)=0と仮定することができる。この場合、単位ノルムベクトル
[この文献は図面を表示できません]
は、以下のように記すことができる。
(数2)
[この文献は図面を表示できません]
【0077】
ブロック(102
B)で音方向を推定した後、所望の次数(レベル)lおよびモードmの空間基底関数の応答が、推定した音方向情報を用いて時間および周波数ごとに個々にブロック(103
B)で判定される。
次数(レベル)lおよびモードmの空間基底関数の応答は、
[この文献は図面を表示できません]
で表され、以下のように計算される。
(数3)
[この文献は図面を表示できません]
【0078】
ここで、
[この文献は図面を表示できません]
は次数(レベル)lおよびモードmの空間基底関数であり、ベクトル
[この文献は図面を表示できません]
または方位角φ(k,n)および/または仰角θ(k,n)によって示される方向に依存する。
従って、応答
[この文献は図面を表示できません]
は、ベクトル
[この文献は図面を表示できません]
あるいは方位角φ(k,n)および/または仰角θ(k,n)によって示される方向から到来する音の空間基底関数
[この文献は図面を表示できません]
の応答を表す。
例えば、空間基底関数としてN3D正規化による実数値の球面調和関数を考えた場合、
[この文献は図面を表示できません]
は、[SphHarm, Ambix, FourierAcoust](非特許文献22,2,10)として算出することができる。
(数4)
[この文献は図面を表示できません]
ここで、
(数5)
[この文献は図面を表示できません]
は、N3D正規化定数であり、
[この文献は図面を表示できません]
は、仰角によって決まる、次数(レベル)lおよびモードmの関連するルジャンドル多項式であり、例えば[FourierAcoust](非特許文献10)に定義されている。
ただし、所望の次数(レベル)lおよびモードmの空間基底関数
[この文献は図面を表示できません]
の応答は、各方位角および/または仰角ごとに予め算出してルックアップ・テーブルに保存した後、推定された音方向に応じて選択してもよい。
【0079】
この実施の形態では、第1のマイクロフォン信号を参照マイクロフォン信号P
ref(k,n)
と呼んでも一般性が失われることはない、すなわち、
(数6)
[この文献は図面を表示できません]
である。
【0080】
この実施の形態では、参照マイクロフォン信号P
ref(k,n)、時間−周波数タイル(k,n)対して、ブロック(103
B)において判定した空間基底関数の応答
[この文献は図面を表示できません]
が乗算115などして結合される、すなわち、
(数7)
[この文献は図面を表示できません]
であり、これにより、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。
得られたアンビソニックスコンポーネント
[この文献は図面を表示できません]
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生適用のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになる。
【0081】
[実施の形態2]
図3bは、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態1と類似しているが、複数のマイクロフォンの信号から参照マイクロフォン信号を判定するブロック(104)をさらに備えている。
【0082】
実施の形態1と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0083】
実施の形態1と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間−周波数領域に変換される。時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P
1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
【0084】
実施の形態1と同様に、2つ以上のマイクロフォン信号P
1...M(k,n)を用いて時間および周波数ごとに、ブロック(102
B)で音方向推定を実行する。対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102
B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル
[この文献は図面を表示できません]
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0085】
実施の形態1と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103
B)で判定する。空間基底関数の応答は、
[この文献は図面を表示できません]
と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
[この文献は図面を表示できません]
は実施の形態1で説明したように判定することができる。
【0086】
この実施の形態では、参照マイクロフォン信号P
ref(k,n)をブロック(104)において多数のマイクロフォン信号P
1...M(k,n)から判定する。このために、ブロック(104)は、ブロック(102
B)で推定した音方向情報を用いる。
異なる時間−周波数タイルに対して、異なる参照信号を判定してもよい。音方向情報に基づいて多数のマイクロフォン信号P
1...M(k,n)から参照マイクロフォン信号P
ref(k,n)を判定するという異なる可能性がある。
例えば、多数のマイクロフォンから、推定した音方向に最も近いマイクロフォンを時間および周波数ごとに選択することができる。この手法が、
図1bに視覚的に示されている。
例えば、マイクロフォン位置が位置ベクトル
[この文献は図面を表示できません]
によって与えられると仮定した場合、最も近いマイクロフォンのインデックスi(k,n)は、以下の問題を解くことによって得られる。
(数8)
[この文献は図面を表示できません]
その結果、検討中の時間および周波数に対する参照マイクロフォン信号は、以下によって与えられる。
(数9)
[この文献は図面を表示できません]
【0087】
図1bの例では、
[この文献は図面を表示できません]
が
[この文献は図面を表示できません]
に最も近いので、時間−周波数タイル(k,n)の参照マイクロフォンはマイクロフォンNo.3、すなわちi(k,n)=3である。参照マイクロフォン信号P
ref(k,n)を判定する別の手法は、多チャンネルフィルタをマイクロフォン信号に適用する、すなわち、
(数10)
[この文献は図面を表示できません]
である。ここで
[この文献は図面を表示できません]
は、推定された音方向に応じた多チャンネルフィルタで、ベクトル
[この文献は図面を表示できません]
は、多数のマイクロフォン信号を含む。
文献には、P
ref(k,n)を算出するのに用いることができる、多くの異なる最適な多チャンネルフィルタ
[この文献は図面を表示できません]
があり、例えば、[OptArrayPr](非特許文献15)で導出されるdelay&sumフィルタやLCMVフィルタがある。多チャンネルフィルタを用いることには[OptArrayPr](非特許文献15)で説明されるような異なる利点と欠点があるが、例えば、マイクロフォンの自生雑音を減少させることができる。
【0088】
実施の形態1と同様に、参照マイクロフォン信号P
ref(k,n)には、最後に、ブロック(103
B)で判定した空間基底関数の応答
[この文献は図面を表示できません]
が、時間および周波数ごとに結合されて(乗算115されて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。得られたアンビソニックスコンポーネント
[この文献は図面を表示できません]
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
【0089】
[実施の形態3]
図4は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態1と類似しているが、直接音信号と拡散音信号のアンビソニックスコンポーネントを算出する。
【0090】
実施の形態1と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0091】
実施の形態1と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間−周波数領域に変換される。
時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P
1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
【0092】
実施の形態1と同様に、2つ以上のマイクロフォン信号P
1...M(k,n)を用いて時間および周波数ごとに、ブロック(102
B)で音方向推定を実行する。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102
B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。
音方向は、例えば、単位ノルムベクトル
[この文献は図面を表示できません]
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0093】
実施の形態1と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103
B)で判定する。
空間基底関数の応答は、
[この文献は図面を表示できません]
で表される。
例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
[この文献は図面を表示できません]
は実施の形態1で説明したように判定することができる。
【0094】
この実施の形態では、時間インデックスnに依存しない、所望の次数(レベル)lおよびモードmの空間基底関数の平均応答がブロック(106)から得られる。この平均応答は
[この文献は図面を表示できません]
で示され、全ての可能な方向から到来する音(拡散音や周囲音など)に対する空間基底関数の応答を記述している。平均応答
[この文献は図面を表示できません]
を定義する一つの例は、全ての可能な角度φおよび/またはθに対して空間基底関数
[この文献は図面を表示できません]
の二乗振幅の積分を考えることである。例えば、球上の全ての角度に対して積分した場合、
(数11)
[この文献は図面を表示できません]
が得られる。
【0095】
このような平均応答
[この文献は図面を表示できません]
の定義は、以下のように解釈することができる。実施の形態1で説明したように、空間基底関数
[この文献は図面を表示できません]
は、次数lのマイクロフォンの指向性と解釈することができる。
次数が高くなると、このようなマイクロフォンはますます指向性が高くなり、従って、全指向性マイクロフォン(次数l=0のマイクロフォン)と比較して実際の音場で得られる拡散音エネルギーまたは周囲音エネルギーが少なくなる。
上記において定められた
[この文献は図面を表示できません]
の定義によれば、平均応答
[この文献は図面を表示できません]
によって実数値係数が得られ、これは全指向性マイクロフォンに比べて、次数lのマイクロフォンの信号においてどのくらい拡散音エネルギーまたは周囲音エネルギーが減衰されるかを表している。
明らかに、球の方向に対して空間基底関数
[この文献は図面を表示できません]
の二乗振幅を積分することに加え、例えば、円の方向に対して
[この文献は図面を表示できません]
の二乗振幅を積分する、所望の方向(φ,θ)の任意の組に対して
[この文献は図面を表示できません]
の二乗振幅を積分する、所望の方向(φ,θ)の任意の組に対して
[この文献は図面を表示できません]
の二乗振幅を平均する、二乗振幅の代わりに
[この文献は図面を表示できません]
の振幅を積分または平均する、所望の方向(φ,θ)の任意の組に対して
[この文献は図面を表示できません]
の加重和を取る、または拡散音または周囲音に対して次数lの上述した仮想マイクロフォンの所望の感度に対応する
[この文献は図面を表示できません]
の任意の所望の実数値を特定するなど、平均応答
[この文献は図面を表示できません]
を定義する異なる代替案がある。
【0096】
平均空間基底関数応答は、あらかじめ計算してルックアップ・テーブルに保存しておいてもよく、応答値の判定は、ルックアップ・テーブルにアクセスして対応する値を読み出すことによって実行される。
【0097】
実施の形態1と同様に、第1のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわち、P
ref(k,n)=P
1(k,n)である。
【0098】
この実施の形態では、参照マイクロフォン信号P
ref(k,n)は、P
dir(k,n)で表される直接音信号と、P
diff(k,n)で表される拡散音信号を計算するためにブロック(105)で用いられる。
ブロック(105)では、直接音信号P
dir(k,n)は、例えば、単一チャンネルフィルタW
dir(k,n)を参照マイクロフォン信号に適用することによって計算することができる、すなわち、
(数12)
P
dir(k,n)=W
dir(k,n)P
ref(k,n)
である。
【0099】
文献には、最適な単一チャンネルフィルタW
dir(k,n)を算出する異なる可能性がある。例えば、公知の平方根ウィーナフィルタを用いることができ、これは例えば[VictaulMic](非特許文献23)に以下のように定義された。
(数13)
[この文献は図面を表示できません]
ここで、SDR(k,n)は時間インスタンスnおよび周波数インデックスkにおける信号対拡散比(SDR)であり、[VirtualMic](非特許文献23)で説明されるように直接音と拡散音の出力比を表す。
SDRは、多数のマイクロフォン信号P
1...M(k,n)のうち任意の2つのマイクロフォンを用いて、文献において利用可能な最先端のSDR推定器、例えば2つの任意のマイクロフォン信号間の空間コヒーレンスに基づいた、[SDRestim](非特許文献19)に提案される推定器で推定することができる。
ブロック(105)において、拡散音信号P
diff(k,n)は、例えば単一チャネルフィルタW
diff(k,n)を参照マイクロフォン信号に適用することによって計算することができる、すなわち、
(数14)
[この文献は図面を表示できません]
である。
【0100】
文献には、最適な単一チャネルフィルタW
diff(k,n)を算出する異なる可能性がある。例えば、公知の平方根ウィーナフィルタを用いることができ、これは例えば[VirtualMic](非特許文献23)において以下のように定義された。
(数15)
[この文献は図面を表示できません]
ここで、SDR(k,n)は先に述べたように推定できるSDRである。
【0101】
この実施の形態において、ブロック(105)で判定した直接音信号P
dir(k,n)には、ブロック(103
B)で判定した空間基底関数の応答
[この文献は図面を表示できません]
が時間および周波数ごとに結合される(乗算115aされる)、すなわち、
(数16)
[この文献は図面を表示できません]
これにより、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。さらに、ブロック(105)で判定した拡散音信号P
diff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答
[この文献は図面を表示できません]
が時間および周波数ごとに結合される(乗算115bされる)、すなわち、
(数17)
[この文献は図面を表示できません]
であり、これにより、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。
【0102】
最後に、直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
と拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
を、例えば加算演算(109)によって結合して、時間−周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント
[この文献は図面を表示できません]
を得る、すなわち、
(数18)
[この文献は図面を表示できません]
である。
【0103】
得られたアンビソニックスコンポーネント
[この文献は図面を表示できません]
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
【0104】
例えば逆フィルターバンクまたは逆STFTを用いた時間領域への再変換は、
[この文献は図面を表示できません]
を算出する前、すなわち演算(109)の前に実行してもよいことを強調することは重要である。
これは、まず
[この文献は図面を表示できません]
と
[この文献は図面を表示できません]
を元の時間領域に変換しなおした後、両方のコンポーネントを演算(109)によって合計して最終的なアンビソニックスコンポーネント
[この文献は図面を表示できません]
を得ても良いことを意味する。これは、逆フィルターバンクまたは逆STFTが一般に線形演算であるため可能である。
【0105】
この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
と拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が異なるモード(次数)lに対して算出されるように構成できることに留意すべきである。
例えば、
[この文献は図面を表示できません]
は次数l=4まで算出することができ、一方、
[この文献は図面を表示できません]
は次数l=1までのみ算出してもよい(この場合、
[この文献は図面を表示できません]
は、l=1より大きい次数に対してはゼロになる)。
これによって、実施の形態4で説明するような一定の利点が得られる。例えば特定の次数(レベル)lまたはモードmに対して
[この文献は図面を表示できません]
ではなく
[この文献は図面を表示できません]
のみを計算することが望ましい場合、例えばブロック(105)を、拡散音信号P
diff(k,n)がゼロに等しくなるように構成することができる。これは、例えば、先の式におけるフィルタW
diff(k,n)をゼロに、フィルタW
dir(k,n)を1に設定することによって実現できる。あるいは、手作業で先の式におけるSDRを非常に高い値に設定することも可能であろう。
【0106】
[実施の形態4]
図5は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。
この実施の形態は、実施の形態3と類似しているが、拡散アンビソニックスコンポーネントに対する非相関器をさらに備えている。
【0107】
実施の形態3と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0108】
実施の形態3と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間−周波数領域に変換される。時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P
1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
【0109】
実施の形態3と同様に、2つ以上のマイクロフォン信号P
1...M(k,n)を用いて時間および周波数ごとに、ブロック(102
B)で音方向推定を実行する。対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102
B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル
[この文献は図面を表示できません]
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0110】
実施の形態3と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103
B)で判定する。
空間基底関数の応答は、
[この文献は図面を表示できません]
と表される。
例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
[この文献は図面を表示できません]
は実施の形態1で説明したように判定することができる。
【0111】
実施の形態3と同様に、時間インデックスnに依存しない、所望の次数(レベル)lおよびモードmの空間基底関数の平均応答がブロック(106)から得られる。この平均応答は
[この文献は図面を表示できません]
で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答
[この文献は図面を表示できません]
は、実施の形態3で説明したように得られる。
【0112】
実施の形態3と同様に、第1のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわち、P
ref(k,n)=P
1(k,n)である。
【0113】
実施の形態3と同様に、参照マイクロフォン信号P
ref(k,n)は、P
dir(k,n)で表される直接音信号とP
diff(k,n)で表される拡散音信号を計算するためにブロック(105)で用いられる。
P
dir(k,n)とP
diff(k,n)の算出については、実施の形態3に説明した通りである。
【0114】
実施の形態3と同様に、ブロック(105)で判定した直接音信号P
dir(k,n)には、ブロック(103
B)で判定した空間基底関数の応答
[この文献は図面を表示できません]
が時間および周波数ごとに結合されて(乗算115aされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。さらに、ブロック(105)で判定した拡散音信号P
diff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答
[この文献は図面を表示できません]
が時間および周波数ごとに結合されて(乗算115bされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。
【0115】
この実施の形態では、計算された拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
は、非相関器を用いてブロック(107)で非相関化され、
[この文献は図面を表示できません]
で表される非相関拡散音アンビソニックスコンポーネントが得られる。非相関化には、最先端の非相関化技術を用いることができる。異なるレベルおよびモードの非相関拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が互いに無相関になるよう、異なる次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
には、通常、異なる非相関器または非相関器の実現例が適用される。こうする際、拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
は期待された物理的挙動を有する、すなわち異なる次数およびモードのアンビソニックスコンポーネントは、音場が周囲のものまたは拡散している場合に相互に無相関になる[SpCoherence](非特許文献21)。ただし、拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
は、非相関器(107)を適用する前に、例えば逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおしてもよいことに留意すべきである。
【0116】
最後に、直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
と非相関拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
を、例えば加算(109)によって結合して、時間−周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント
[この文献は図面を表示できません]
を得る、すなわち、
(数19)
[この文献は図面を表示できません]
である。
【0117】
得られたアンビソニックスコンポーネント
[この文献は図面を表示できません]
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
【0118】
例えば逆フィルターバンクまたは逆STFTを用いた時間領域への再変換は、
[この文献は図面を表示できません]
を算出する前、すなわち、演算(109)の前に実行してもよいことを強調することは重要である。
これは、まず
[この文献は図面を表示できません]
と
[この文献は図面を表示できません]
を元の時間領域に変換しなおした後、両方のコンポーネントを演算(109)によって合計して最終的なアンビソニックスコンポーネント
[この文献は図面を表示できません]
を得ても良いことを意味する。これは、逆フィルターバンクまたは逆STFTが一般に線形演算であるため可能である。
同様に、非相関器(107)は、拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
を元の時間領域に変換しなおした後に
[この文献は図面を表示できません]
に対して適用してもよい。非相関器の中には時間領域信号で動作するものがあるので、実用においてこれが有益かもしれない。
【0119】
さらに、非相関器の前に逆フィルターバンクなどのブロックを
図5に追加することができることに留意すべきで、逆フィルターバンクは本システムのいずれの場所に追加してもよい。
【0120】
実施の形態3で説明したように、この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
と拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が異なるモード(次数)lに対して算出されるように構成できる。
例えば、
[この文献は図面を表示できません]
は、次数l=4まで算出することができ、一方、
[この文献は図面を表示できません]
は次数l=1までのみ算出してもよい。これによって、計算複雑性が低くなる。
【0121】
[実施の形態5]
図6は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態4と類似しているが、直接音信号と拡散音信号が、複数のマイクロフォン信号から、到来方向情報を活用することによって判定される。
【0122】
実施の形態4と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0123】
実施の形態4と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間−周波数領域に変換される。
時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P
1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
【0124】
実施の形態4と同様に、2つ以上のマイクロフォン信号P
1...M(k,n)を用いて時間および周波数ごとに、ブロック(102
B)で音方向推定を実行する。対応する推定器については、実施の形態1で述べた通りである。
音方向推定器(102
B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル
[この文献は図面を表示できません]
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0125】
実施の形態4と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103
B)で判定する。
空間基底関数の応答は、
[この文献は図面を表示できません]
と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
[この文献は図面を表示できません]
は実施の形態1で説明したように判定することができる。
【0126】
実施の形態4と同様に、時間インデックスnに依存しない、所望の次数(レベル)lおよびモードmの空間基底関数の平均応答がブロック(106)から得られる。この平均応答は
[この文献は図面を表示できません]
で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答
[この文献は図面を表示できません]
は、実施の形態3で説明したように得られる。
【0127】
この実施の形態では、直接音信号P
dir(k,n)および拡散音信号P
diff(k,n)は、ブロック(110)において2つ以上の利用可能なマイクロフォン信号P
1...M(k,n)から時間インデックスnおよび周波数インデックスkごとに判定される。
このために、ブロック(110)は通常、ブロック(102)で判定した音方向情報を用いる。以下では、どのようにP
dir(k,n)およびP
diff(k,n)を判定するかを述べた、ブロック(110)の異なる例について説明する。
【0128】
ブロック(110)の第1の例では、P
ref(k,n)で表される参照マイクロフォン信号を、ブロック(102
B)によって得られる音方向情報に基づいて多数のマイクロフォン信号P
1...M(k,n)から判定する。
参照マイクロフォン信号P
ref(k,n)は、検討中の時間および周波数に対する推定音方向に最も近いマイクロフォン信号を選択することによって判定してもよい。
この参照マイクロフォン信号P
ref(k,n)を判定するための選択処理については、実施の形態2で説明した。P
ref(k,n)を判定した後、例えば、単一チャネルフィルタW
dir(k,n)とW
diff(k,n)をそれぞれ参照マイクロフォン信号P
ref(k,n)に適用することによって、直接音信号P
dir(k,n)と拡散音信号P
diff(k,n)を計算することができる。この手法および対応する単一チャネルフィルタの算出については、実施の形態3で説明した。
【0129】
ブロック(110)の第2の例では、参照マイクロフォン信号P
ref(k,n)を先の例のように判定し、単一チャネルフィルタW
dir(k,n)をP
ref(k,n)に適用することによってP
dir(k,n)を算出する。
しかし、拡散信号を判定するためには、第2の参照信号
[この文献は図面を表示できません]
を選択し、単一チャネルフィルタ
[この文献は図面を表示できません]
を第2の参照信号
[この文献は図面を表示できません]
に適用する、すなわち
(数20)
[この文献は図面を表示できません]
である。
【0130】
フィルタW
diff(k,n)は、例えば実施の形態3で説明したように算出することができる。
第2の参照信号
[この文献は図面を表示できません]
は、利用可能なマイクロフォン信号P
1...M(k,n)の1つに対応する。
しかし、異なる次数lおよびモードmに対しては、異なるマイクロフォン信号を第2の参照信号として用いても良い。例えば、レベルl=1、モードm=−1に対しては、第1のマイクロフォン信号を第2の参照信号として用いてもよい、すなわち、
[この文献は図面を表示できません]
である。レベルl=1、モードm=0に対しては、第2のマイクロフォン信号を用いることができる、すなわち、
[この文献は図面を表示できません]
である。
レベルl=1、モードm=1に対しては、第3のマイクロフォン信号を用いることができる、すなわち、
[この文献は図面を表示できません]
である。利用可能なマイクロフォン信号P
1...M(k,n)は、例えば、異なる次数およびモードに対する第2の参照信号
[この文献は図面を表示できません]
にランダムに割り当てることができる。拡散または周囲録音状況に対しては、全てのマイクロフォン信号が通常同様の音響出力を備えるので、これは実用において合理的な手法である。
異なる次数およびモードに対して異なる第2の参照マイクロフォン信号を選択することには、得られる拡散音信号が異なる次数およびモードに対してしばしば(少なくとも部分的に)相互に無相関になるという利点がある。
【0131】
ブロック(110)の第3の例では、直接音信号P
dir(k,n)を、w
dir(n)で示す多チャンネルフィルタを多数のマイクロフォン信号P
1...M(k,n)に適用することによって判定する、すなわち、
(数21)
[この文献は図面を表示できません]
であり、ここで、多チャンネルフィルタ
[この文献は図面を表示できません]
は推定された音方向に依存し、ベクトル
[この文献は図面を表示できません]
は多数のマイクロフォン信号を含む。
文献には、音方向情報からP
dir(k,n)を算出するために用いることができる、多くの異なる最適な多チャンネルフィルタ
[この文献は図面を表示できません]
、例えば、[InformedSF](非特許文献12)で導出されたフィルタなどがある。
同様に、拡散音信号P
diff(k,n)は、多数のマイクロフォン信号P
1...M(k,n)に
[この文献は図面を表示できません]
で示す多チャンネルフィルタを適用することによって判定される、すなわち、
(数22)
[この文献は図面を表示できません]
であり、ここで、多チャンネルフィルタ
[この文献は図面を表示できません]
は推定された音方向に依存する。
文献には、P
diff(k,n)を算出するために用いることができる、多くの異なる最適な多チャンネルフィルタ
[この文献は図面を表示できません]
、例えば[DiffuseBF](非特許文献5)で導出されたフィルタなどがある。
【0132】
ブロック(110)の第4の例では、P
dir(k,n)およびP
diff(k,n)を先の例と同様に多チャンネルフィルタ
[この文献は図面を表示できません]
と
[この文献は図面を表示できません]
をマイクロフォン信号
[この文献は図面を表示できません]
に適用することによってそれぞれ判定する。
しかし、異なる次数lおよびモードmに対して得られた拡散音信号P
diff(k,n)が相互に無相関となるよう、異なる次数lおよびモードmに対して異なるフィルタ
[この文献は図面を表示できません]
を用いる。出力信号の相関を最小にする、これらの異なるフィルタ
[この文献は図面を表示できません]
は、例えば[CovRender](非特許文献4)で説明するように算出することができる。
【0133】
実施の形態4と同様に、ブロック(105)で判定した直接音信号P
dir(k,n)には、ブロック(103
B)で判定した空間基底関数の応答
[この文献は図面を表示できません]
が時間および周波数ごとに結合されて(乗算115aされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。
さらに、ブロック(105)で判定した拡散音信号P
diff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答
[この文献は図面を表示できません]
が時間および周波数ごとに結合されて(乗算115bされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。
【0134】
実施の形態3と同様に、算出された直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
と拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
は、例えば加算演算(109)によって結合されて、時間−周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。得られたアンビソニックスコンポーネント
[この文献は図面を表示できません]
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。実施の形態3で説明したように、時間領域への再変換は、
[この文献は図面を表示できません]
を算出する前、すなわち演算(109)の前に実行してもよい。
【0135】
この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
と拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が異なるモード(次数)lに対して算出されるように構成できることに留意すべきである。
例えば、
[この文献は図面を表示できません]
は、次数l=4まで算出することができ、一方、
[この文献は図面を表示できません]
は次数l=1までのみ算出してもよい(この場合、
[この文献は図面を表示できません]
はl=1より大きい次数に対してはゼロになる)。例えば特定の次数(レベル)lまたはモードmに対して
[この文献は図面を表示できません]
ではなく
[この文献は図面を表示できません]
のみを計算することが望ましい場合、例えばブロック(110)を、拡散音信号P
diff(k,n)がゼロに等しくなるように構成することができる。
これは、例えば、先の式におけるフィルタW
diff(k,n)をゼロに、フィルタW
dir(k,n)を1に設定することによって実現できる。同様に、フィルタ
[この文献は図面を表示できません]
をゼロに設定することもできよう。
【0136】
[実施の形態6]
図7は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。この実施の形態は、実施の形態5と類似しているが、拡散アンビソニックスコンポーネントに対する非相関器をさらに備える。
【0137】
実施の形態5と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0138】
実施の形態5と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間−周波数領域に変換される。時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P
1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
【0139】
実施の形態5と同様に、2つ以上のマイクロフォン信号P
1...M(k,n)を用いて時間および周波数ごとに、ブロック(102
B)で音方向推定を実行する。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102
B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル
[この文献は図面を表示できません]
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0140】
実施の形態5と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103
B)で判定する。空間基底関数の応答は、
[この文献は図面を表示できません]
と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
[この文献は図面を表示できません]
は実施の形態1で説明したように判定することができる。
【0141】
実施の形態5と同様に、時間インデックスnに依存しない、所望の次数(レベル)lおよびモードmの空間基底関数の平均応答がブロック(106)から得られる。この平均応答は
[この文献は図面を表示できません]
で示され、全ての可能な方向から到来する音(拡散音または周囲音など)に対する空間基底関数の応答を表している。平均応答
[この文献は図面を表示できません]
は、実施の形態3で説明したように得られる。
【0142】
実施の形態5と同様に、直接音信号P
dir(k,n)および拡散音信号P
diff(k,n)は、ブロック(110)において2つ以上の利用可能なマイクロフォン信号P
1...M(k,n)から時間インデックスnおよび周波数インデックスkごとに判定される。
このために、ブロック(110)は通常、ブロック(102
B)で判定した音方向情報を用いる。ブロック(110)の異なる例については実施の形態5で説明した通りである。
【0143】
実施の形態5と同様に、ブロック(105)で判定した直接音信号P
dir(k,n)には、ブロック(103)で判定した空間基底関数の応答
[この文献は図面を表示できません]
が時間および周波数ごとに結合されて(乗算115aされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。
さらに、ブロック(105)で判定した拡散音信号P
diff(k,n)には、ブロック(106)で判定した空間基底関数の平均応答
[この文献は図面を表示できません]
が時間および周波数ごとに結合されて(乗算115bされて)、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。
【0144】
実施の形態4と同様に、計算された拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
は、非相関器を用いてブロック(107)で非相関化され、
[この文献は図面を表示できません]
で表される非相関拡散音アンビソニックスコンポーネントが得られる。非相関化の根拠およびその方法については実施の形態4に述べた通りである。
実施の形態4と同様に、拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
は、非相関器(107)を適用する前に、例えば逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおしてもよい。
【0145】
実施の形態4と同様に、直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
と非相関拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
は、例えば加算演算(109)によって結合されて、時間−周波数タイル(k,n)に対する所望の次数(レベル)lおよびモードmの最終的なアンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。得られたアンビソニックスコンポーネント
[この文献は図面を表示できません]
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。実施の形態4で説明したように、時間領域への再変換は、
[この文献は図面を表示できません]
を算出する前、すなわち演算(109)の前に実行してもよい。
【0146】
実施の形態4と同様に、この実施の形態におけるアルゴリズムは、直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
と拡散音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が異なるモード(次数)lに対して算出されるように構成することができる。例えば、
[この文献は図面を表示できません]
は、次数l=4まで計算することができ、一方、
[この文献は図面を表示できません]
は次数l=1までのみ算出してもよい。
【0147】
[実施の形態7]
図8は、多数(2つ以上)のマイクロフォンの信号から所望の次数(レベル)lおよびモードmのアンビソニックスコンポーネントを合成することができる、本発明の別の実施の形態を示す。
この実施の形態は、実施の形態1と類似しているが、計算された空間基底関数の応答
[この文献は図面を表示できません]
に平滑化演算を適用するブロック(111)をさらに含む。
【0148】
実施の形態1と同様に、本発明への入力は、多数(2つ以上)のマイクロフォンの信号である。マイクロフォンは、例えば、同位置セットアップ、直線配列、平面配列、または三次元配列として任意の形状に配置することができる。
さらに、各マイクロフォンは、全方向または任意の方向の指向性を有することができる。各マイクロフォンの指向性が異なっていても良い。
【0149】
実施の形態1と同様に、多数のマイクロフォン信号は、例えばフィルターバンクまたは短時間フーリエ変換(STFT)を用いてブロック(101)で時間−周波数領域に変換される。
時間−周波数変換(101)の出力は時間−周波数領域のマイクロフォン信号であり、P
1...M(k,n)で表される。以下の処理は、各時間−周波数タイル(k,n)に対して別々に実行される。
【0150】
実施の形態1と同様に、第1のマイクロフォン信号を参照マイクロフォン信号と呼んでも一般性が失われることはない、すなわちP
ref(k,n)=P
1(k,n)である。
【0151】
実施の形態1と同様に、2つ以上のマイクロフォン信号P
1...M(k,n)を用いて時間および周波数ごとに、ブロック(102
B)で音方向推定を実行する。
対応する推定器については、実施の形態1で述べた通りである。音方向推定器(102
B)の出力は、時間インスタンスnおよび周波数インデックスkごとの音方向である。音方向は、例えば、単位ノルムベクトル
[この文献は図面を表示できません]
で、あるいは方位角φ(k,n)および/または仰角θ(k,n)で表現することができ、これらは実施の形態1で説明したような関係にある。
【0152】
実施の形態1と同様に、所望の次数(レベル)lおよびモードmの空間基底関数の応答を、推定した音方向情報を用いて時間および周波数ごとにブロック(103)で判定する。空間基底関数の応答は、
[この文献は図面を表示できません]
と表される。例えば、N3D正規化による実数値の球面調和関数を空間基底関数とすることができ、
[この文献は図面を表示できません]
は実施の形態1で説明したように判定することができる。
【0153】
実施の形態1とは異なり、応答
[この文献は図面を表示できません]
は、平滑化演算を
[この文献は図面を表示できません]
に適用するブロック(111)への入力として用いられる。ブロック(111)の出力は、
[この文献は図面を表示できません]
と表される平滑化応答関数である。
平滑化演算の目的は、実用において例えばブロック(102
B)で推定した音方向φ(k,n)および/またはθ(k,n)にノイズが多い場合に起こる、
[この文献は図面を表示できません]
の値の望ましくない推定変動を低下させることにある。
[この文献は図面を表示できません]
に適用される平滑化は、例えば時間および/または周波数に対して実行することができる。例えば、時間平滑化は、以下の公知の再帰平均化フィルタを用いて実現することができる。
(数23)
[この文献は図面を表示できません]
ここで、
[この文献は図面を表示できません]
は直前の時間フレームで算出された応答関数である。さらに、αは0と1の間の実数値であって、時間平滑化の強度を制御する。ゼロに近いαの値に対しては強い時間平均化を実行し、1に近いαの値に対しては短い時間平均化を実行する。
実際の適用ではαの値は適用によって変わり、例えばα=0.5など一定にしてもよい。あるいは、スペクトル平滑化をブロック(111)で実行することもでき、これは応答
[この文献は図面を表示できません]
が多数の周波数帯域にわたって平均化されることを意味する。例えば、いわゆるERB帯域内でのこのようなスペクトル平滑化が、[ERBsmooth](非特許文献8)に記述されている。
【0154】
この実施の形態では、参照マイクロフォン信号P
ref(k,n)は、最後に、ブロック(111)で判定した空間基底関数の平滑化応答
[この文献は図面を表示できません]
と、時間および周波数ごとに結合されて(乗算115されて)など、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの所望のアンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。得られたアンビソニックスコンポーネント
[この文献は図面を表示できません]
は、最終的に、逆フィルターバンクまたは逆STFTを用いて元の時間領域に変換しなおして、保存、送信、または例えば空間音再生のために用いてもよい。
実際には、所望の最大次数(レベル)の所望のアンビソニックス信号を得るために、全ての所望の次数およびモードに対するアンビソニックスコンポーネントを算出することになるであろう。
【0155】
当然ながら、ブロック(111)のゲイン平滑化は、本発明の他のすべての実施の形態にも適用することができる。
【0156】
[実施の形態8]
本発明は、時間−周波数タイルごとに1つより多い音方向が考えられる、いわゆる多重波の場合にも適用できる。例えば、
図3bに示す実施の形態2は、多重波の場合において実現できる。この場合、ブロック(102
B)は、時間および周波数ごとにJ個の音方向を推定する。
なお、Jは1より大きい整数、例えばJ=2である。多数の音方向を推定するためには、最先端の推定器、例えば[ESPRIT, RootMUSIC1](非特許文献9,16)に述べられるESPRITまたはRoot MUSICを用いることができる。この場合、ブロック(102
B)の出力は、例えば、多数の方位角φ
1...j(k,n)および/または仰角θ
1…J(k,n)で示される多数の音方向である。
【0157】
その後、多数の音方向をブロック(103
B)で用いて、各推定音方向に対して1つの応答が対応する多数の応答
[この文献は図面を表示できません]
を、例えば実施の形態1で説明したように算出する。
さらに、ブロック(102
B)で計算した多数の音方向は、各多数の音方向に対して1つが対応する多数の参照信号P
ref,1...j(k,n)を計算するためにブロック(104)で用いられる。多数の参照信号はそれぞれ、例えば、実施の形態2で説明したのと同様に、多数のマイクロフォン信号に多チャンネルフィルタw
1…J(n)を適用することによって計算することができる。
例えば、第1の参照信号P
ref,1(k,n)は、方向φ
1(k,n)および/またはθ
1(k,n)からの音を抽出しつつ全ての他の方向からの音を減衰する、最先端の多チャンネルフィルタ
[この文献は図面を表示できません]
を適用することによって得られる。このようなフィルタは、例えば[InformedSF](非特許文献12)で説明されるインフォームドLCMVフィルタとして算出することができる。そして、多数の参照信号P
ref,1...j(k,n)には、対応する多数の応答
[この文献は図面を表示できません]
が乗算されて多数のアンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られる。例えば、j番目の音方向および参照信号にそれぞれ対応するj番目のアンビソニックスコンポーネントは、以下のように計算される。
(数24)
[この文献は図面を表示できません]
【0158】
最後に、J個のアンビソニックスコンポーネントを合計して、時間−周波数タイル(k,n)に対する次数(レベル)lおよびモードmの最終的な所望のアンビソニックスコンポーネント
[この文献は図面を表示できません]
を得る、すなわち、
(数25)
[この文献は図面を表示できません]
である。
【0159】
当然、上述した他の実施の形態も多重波の場合に広げることができる。例えば、実施の形態5および6では、この実施の形態で述べたのと同様の多チャンネルフィルタを用いて、多数の音方向それぞれに対して1つが対応する多数の直接音P
dir,1…J(k,n)を算出することができる。
多数の直接音には、その後、対応する多数の応答
[この文献は図面を表示できません]
が乗算されて多数の直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
が得られ、これらを合計して最終的な所望の直接音アンビソニックスコンポーネント
[この文献は図面を表示できません]
を得ることができる。
【0160】
なお、本発明は二次元(円筒形)または三次元(球形)アンビソニックス技術だけでなく、任意の音場コンポーネントを計算するための空間基底関数に依る他の技術にも適用可能であることに留意すべきである。
【0161】
[本発明の実施の形態の一覧]
1.複数のマイクロフォン信号を時間−周波数領域に変換する。
2.上記複数のマイクロフォン信号から時間および周波数ごとに1つ以上の音方向を計算する。
3.上記1つ以上の音方向に依存する1つ以上の応答関数を各時間および周波数に対して算出する。
4.各時間および周波数に対して1つ以上の参照マイクロフォン信号を得る。
5.各時間および周波数に対して、上記1つ以上の参照マイクロフォン信号を上記1つ以上の応答関数で乗算して、所望の次数およびモードの1つ以上のアンビソニックスコンポーネントを得る。
6.所望の次数およびモードのアンビソニックスコンポーネントが複数得られた場合、該当するアンビソニックスコンポーネントを合計して最終的な所望のアンビソニックスコンポーネントを得る。
7.いくつかの実施の形態では、ステップ4で、上記1つ以上の参照マイクロフォン信号ではなく1つ以上の直接音および拡散音を複数のマイクロフォン信号から算出する。
8.上記1つ以上の直接音および拡散音を1つ以上の対応する直接音応答および拡散音応答で乗算して、所望の次数およびモードの1つ以上の直接音アンビソニックスコンポーネントおよび拡散音アンビソニックスコンポーネントを得る。
9.拡散音アンビソニックスコンポーネントは、異なる次数およびモードに対して、さらに非相関化してもよい。
10.直接音アンビソニックスコンポーネントと拡散音アンビソニックスコンポーネントを合計して、所望の次数およびモードの最終的な所望のアンビソニックスコンポーネントを得る。