(58)【調査した分野】(Int.Cl.,DB名)
前記フィルタ生成モジュールは、前記少なくとも2つの入力信号にビーム形成を適用するように、かつ少なくとも2つの異なる指向性に対応する少なくとも2つの音響ビーム信号を得るように構成され動作可能なビーム形成モジュールをさらに備え、
前記方向分析モジュールは、前記第1の処理を前記少なくとも2つの音響ビーム信号に施して前記方向データを決定するように構成されることを特徴とする請求項1に記載のシステム。
前記方向データは、前記分析される信号の別々の部分における、直接の音響成分および拡散音響成分のパワーと、前記直接の音響成分が生じる方向とを示すことを特徴とする請求項1に記載のシステム。
前記フィルタリングモジュールは、前記動作パラメータを利用して前記少なくとも1つの入力信号にスペクトル修正を適用するように構成され動作可能であることを特徴とする請求項1に記載のシステム。
前記少なくとも2つの入力信号にビーム形成を適用して、少なくとも2つの異なる指向性に対応する少なくとも2つの音響ビーム信号を得る段階をさらに含むことを特徴とする請求項11に記載の方法。
前記分析される信号を、少なくとも時間フレームおよび周波数帯域パラメータによって特徴付けられる別々の部分に分解する段階を含むことを特徴とする請求項14に記載の方法。
前記方向データは、前記分析される信号の別々の部分の直接の音響成分および拡散音響成分のパワーと、前記直接の音響成分が生じる方向とを示すことを特徴とする請求項15に記載の方法。
音響信号のフィルタリングに使用するための、コンピュータにより実行可能なプログラムが格納されているコンピュータ読み取り可能な記録媒体であって、前記プログラムは、
所望の出力指向性の既定パラメータ、および前記フィルタリングによって得られるべき出力信号の拡散音の必要とされる減衰の既定パラメータを示すデータを前記コンピュータに供給させるコンピュータ可読プログラムコードと、
音響場に対応する少なくとも2つの異なる入力信号を前記コンピュータに受け取らせるコンピュータ可読プログラムコードと、
前記少なくとも2つの受信した信号を分析する第1の処理を前記コンピュータに施させて、分析される信号中の直接音と拡散音の量を含む方向データを得るコンピュータ可読プログラムコードであって、前記直接音と拡散音は、前記分析される信号においてそれぞれ、相対的に高い相関と、相対的に低い相関を有するプログラムコードと、
前記出力指向性の既定パラメータ、および前記出力信号の拡散音の必要とされる量の既定パラメータを示す前記データと、前記得られた方向データを利用して、前記出力指向性の既定パラメータと、出力信号中の拡散音の必要とされる量の前記既定パラメータに従って、前記音響場に対応する単一の入力信号をフィルタリングするための動作パラメータを決定するコンピュータ可読プログラムコードと、
前記音響場に対応する前記単一の入力信号に、前記動作パラメータに基づいて前記単一の入力信号をフィルタリングする第2の処理を前記コンピュータに施させて、これにより前記出力指向性と前記出力信号中の拡散音の必要とされる減衰とに対応する出力音響信号を生成するコンピュータ可読プログラムコードと、
を含むことを特徴とするコンピュータ読み取り可能な記録媒体。
【発明の概要】
【発明が解決しようとする課題】
【0011】
当分野では、入力チャネルからの音響信号の高SNRフィルタリングが可能な新規のフィルタリング技法が、背景雑音を抑制するために、かつこのようなチャネルを介して受け取られる音響場内の前景音響信号を増強するために必要とされている。現在、携帯電話、ラップトップ型コンピュータ、電話および遠隔会議デバイスなどの様々な電子デバイスに2つ以上のマイクロフォンが備えられているが、マイクロフォンの信号は、前景信号対背景雑音比を向上し、遠端聴取者のそばで明瞭度を改善するように処理される必要がある。
【0012】
入力信号の信号対雑音比を向上させる既存の技法は、一般に、マイクロフォン位相アレイを利用する「ビーム形成」技法、つまり適切な遅延(例えば、位相遅延)がある複数のチャネル(複数のマイクロフォンと結合)からの信号入力を、指向性が向上した出力信号になるように組み合わせる技法と、出力信号が通常、単一入力信号に適用される雑音フィルタリング手法によって生成される「雑音抑制」技法とに分類される。
【0013】
雑音抑制技法およびシステムは一般に、入力信号yをy[n]=x[n]+v[n]として、すなわち、増強/保存されるべき前景信号xと、フィルタリングされるべき背景信号v(雑音)との合計としてモデル化することに基づいている(nは時間サンプル指数)。雑音フィルタリングは、雑音推定手法に基づいており、この手法によれば、入力信号中の雑音のパワーは通常、個別の応用例、および雑音抑制/低減が求められる音場の性質に応じて選択される。
【0014】
既存の雑音抑制技法では、高SNR出力を得ることができるようにする適切な雑音推定方法/アルゴリズムが実現されず、したがって雑音抑制技法の性能が低下する。既存の雑音推定法は通常、音声強調などの特定の用途向けに設計されている。これらの方法は一般に、信号に関する仮定に依拠し、この仮定は、各時間フレームおよび各周波数帯域内の雑音量を推定するためのベースとしての役割を果たす。
【0015】
「ビーム形成」は一般に、特定の方向に置かれた音源からの音に対して方向感度が高められた出力信号を得ることを目的とする。この目的は、適切な遅延および増幅率を用いて加算または減算された2つ以上の音声チャネルからの入力信号を重ね合わせることによって達成される。この遅延および増幅率は、加算された出力信号が、特定の所望の方向から感知システムに到着する信号に対しより高い感度を有するように、感知システムのセットアップ(マイクロフォンの指向性および位置)に応じて設計される。一般にこれらの技法によれば、所望の方向からの音に対応する1つまたは複数のチャネルからの入力信号は、同相で重ね合わされ、したがって増幅される一方で、所望の方向以外からの音に対応する信号は、位相をずらして重ね合わされ、抑制される。
【0016】
典型的なビーム形成応用例の感知システムでは、マイクロフォンのアレイを利用する。コストを低減し処理量を低減するために、このようなアレイに使用されるマイクロフォン(音声チャネル)の数は最小限にすることが望ましい。しかし、ビーム形成がマイクロフォン間の距離と、マイクロフォンによって感知される音波の波長との間の関係に関連しているので、少数のマイクロフォンを利用してビーム形成を行うと、出力信号に様々なアーチファクトが生じる一方で、指向性でフィルタリングできる周波数範囲に厳しい制限が課され、また必要な処理速度およびサンプリング速度(スペクトル帯域間隔に対応する)にも厳しい制限が課される。
【0017】
例えば、間隔を置いて離れた2つのマイクロフォンを含むビーム形成セットアップを考えると、マイクロフォン間の間隔/距離よりもずっと長い波長の入力信号では、両方のマイクロフォンでほとんど同一の出力信号が生成するはずである。非常に短い波長では、マイクロフォンで雑音が多く、合算した計算結果が不正確になる。マイクロフォン間の距離程度の波長では、応答性が周波数に大きく依存するようになり、異なるマイクロフォンに到達する信号の位相を同期させることは困難であり、さらには不可能でもある。したがって、典型的なビーム形成システムでは、前述のアーチファクトを低減することが、複数のマイクロフォン(3つ以上)のアレイを利用すること、およびより強力な処理ユニットを使用することによって達成される。したがって、ビーム形成システムは、その数のマイクロフォンで限定された空間、および限定された処理資源によりコストが高く、また携帯電話などの小型デバイスに使用するにはあまり適さない。ビーム形成技法の別の種類のアーチファクトは、アレイ内の異なるマイクロフォンカプセルの応答性の差(製造および音響設置の際の制限事項に起因する)から生じる。これらのアーチファクトは本質的に、異なる応答性を有する複数のマイクロフォンからの信号を重ね合わせることによって、出力信号中に生成される。本発明は、指向性音響(特に音声)フィルタに関連し、このフィルタでは、少数の音響(音声)チャネル(2つまで減る)を利用してある指向性を実現できるようになる一方で、上記のビーム形成技法のアーチファクトが最小限になる。本発明は、ある既定のフィルタモジュールで前記信号の指向性フィルタリングの動作パラメータを決定することによって、音響信号からの雑音抑制を可能にする。動作パラメータは、既定のフィルタモジュールに応じて、かつ音場の方向分析を利用することによって決定される。典型的には、使用されるフィルタモジュールは適応フィルタモジュールであり、その動作パラメータ(例えば、フィルタ係数)が、フィルタリングされるべき信号の部分(時間フレーム)ごとに連続して決定される。あるいは、フィルタモジュールは、短時間フーリエ変換(STFT)領域などの短時間スペクトルまたはフィルタバンク領域で実施することができる。この場合、動作パラメータは、フィルタリングされるべき信号の部分(時間-周波数タイル)ごとに連続して決定することができる。
【課題を解決するための手段】
【0018】
この点で限定されないが、音場の方向分析は、異なる方向からの音響場を感知することに対応する2つ(以上)の音響チャネル(入力信号)に基づいて実施することができる。音響チャネルは、異なる指向性を有する2つ以上のマイクロフォンから、および/またはフィルタリングされる音響場に対して別々の位置に置かれた2つ以上のマイクロフォンから(直接、または入力信号の録音によって)得ることができる。
【0019】
より具体的には、本発明は、音声域の音響信号をフィルタリングするために使用され、したがって、この具体的な応用例に関して以下で説明する。しかし、本発明は、音関連の応用例に限定されないことを理解されたい。
【0020】
本発明は、音場の方向分析により、雑音抑制システムの動作を最適にできる正確な方向性雑音推定を行うことができるという理解に基づいている。より具体的には、音場についてのパラメータの方向分析が、2つ以上のチャネル/マイクロフォンから受信した入力信号に基づいて実施される(以下で説明するように)。方向分析は、例えば、入力信号の各部分(タイル)(特定の時間フレームおよび/または特定の周波数帯域と関連している)の拡散信号および直接信号のパワーと、直接音が生じる方向とを含む、音場の方向特性(データ)を良好な精度で決定することを目的とする。
【0021】
この点において、雑音低減フィルタの動作パラメータを決定することは、方向性雑音推定を行うための音場の前記方向特性を利用して、フィルタリング後に得られて出力信号中で強調されなければならない特定の所望の方向に対して(例えば、特定の所望の出力指向性について)行われると共に、入力信号中の直接音および拡散音の大きさに基づいている。一般に、前記所望の方向と異なる方向から生じる入力信号の一部分は、フィルタリングされるべき入力信号中の雑音部(または拡散音成分)とみなされ、したがって、フィルタリングされた出力信号中では減衰していなければならない。したがって、フィルタリングされるべき信号からの雑音低減のための動作パラメータ/フィルタ係数は、所望の出力指向性に基づいて、また直接音が生じるそのような方向に基づいて構築して、出力信号中の雑音成分を低減/減衰することができる。通常は、動作フィルタパラメータは、出力信号中のそのような信号の別々の部分の増幅(または抑制)にそれぞれ関連する複数の係数を含む。
【0022】
しかし、出力信号から全ての、またはほとんどの拡散音(雑音部)をフィルタで除去しようとすると、出力音信号中に可聴のアーチファクトが生じるおそれがある。一般に、出力信号からフィルタで除去される雑音が多いほど、信号中のアーチファクトのレベルが高くなる。したがって、本発明によれば、最適な雑音フィルタリングを可能にするために、動作パラメータは、出力信号中の拡散音の必要とされる量を示す別のパラメータに応じて構築される。このパラメータを利用すると、雑音抑制のレベル、および出力信号中のフィルタリングアーチファクトのレベルを最適化することが可能になる。また、システムの少なくとも2つの入力チャネルのいずれか1つに雑音抑制を適用することによって出力信号が得られるので、方向性雑音抑制が複数の入力信号の加算/重ね合わせ(ビーム形成技法)に基づく場合に生じるアーチファクトを回避することも可能になる。
【0023】
したがって、本発明の技法によって得られる出力信号は、少数のチャネルのビーム形成の結果として生じる前述のアーチファクトを伴わずに、指向性が高まっている。また、複数のマイクロフォンからの出力信号が、雑音推定に役立つだけで出力信号の最終生成には役立たないので、異なる指向性の波長感度の差によるアーチファクトも低減される。また、方向分析を目的とする本発明の文脈では、ビーム形成を利用する場合、以下でさらに説明するように、振幅補正フィルタをビーム形成信号に適用することによってビーム形成の特定のアーチファクトをさらに抑制することもできる。
【0024】
これに関連して、雑音抑制および前記動作パラメータの決定が音場の方向分析に基づく本発明の文脈では、直接音および拡散音という用語は、それぞれ入力信号の無雑音部および雑音部を示すために使用されることに留意されたい。直接音は一般に、音源からマイクロフォンに直接到達する音とみなされ、通常はマイクロフォン間で互いに関連している。拡散音は、例えば直接音の反射から生じる周囲音とみなされ、音場を感知するマイクロフォン間で互いに関連することが一般に少ない。出力信号のフィルタリングに関して、出力信号からの拡散を抑制することが好ましく、また、出力信号が増強されるべき所望の方向(前記所望の出力方向と一致する)とは異なる方向から生じる直接音の部分を抑制することも好ましい。
【0025】
したがって、以下では、フィルタ係数の構築との関連において、感知システムによって特定(規定/既定)の感知ビーム内の方向(所望の出力指向性)から受け取られる音波は、直接音とみなされ、他の方向からの音波は拡散音とみなされる。感知ビームという用語は、出力信号で得られるべき特定の所望の出力指向性と関連している。
【0026】
上記のように、感知システムから入力音信号が受け取られ、この感知システムは、マイクロフォンのアレイを含むことができ、このマイクロフォンは、無指向性のマイクロフォンとすることができ、または特定の好ましい指向性を伴うことができる。本発明のいくつかの特定の実施形態では、2つのマイクロフォンを含む感知システムが、2つの入力音信号を得るのに役立つ。2つのマイクロフォンは、実質的に無指向性とすることができる。異なる指向性を有する2つの音響ビーム信号を生成するために2つの入力信号を重ね合わせることは、いわゆる遅延減算法を利用する勾配処理(gradient processing)によって実施して、2つの勾配(カージオイド)信号を形成することができ、この信号から直接音および拡散音の量が計算される。本発明のいくつかの実施形態による方向分析は、2つの異なる指向性(少なくとも一方は非等方性)に対応する少なくとも2つの音響ビーム信号を得ること、および/または形成(計算)することを含む。特定の指向性(例えば、特定の増強(抑制)の方向)に関して音響ビーム信号を形成(計算)することは、感知システムから受け取られる、それぞれ異なる信号間の時間遅延がある入力音信号を重ね合わせることによって得ることができる。感知システムから音響ビーム信号を得る(受信する)ことは一般に、特定の好ましい感度方向を本質的に有する実質的に指向性のマイクロフォンを感知システムが含む場合に、可能である。
【0027】
したがって、本発明の広範な一態様によれば、音響信号のフィルタリングに使用するための、かつ拡散音の量が減衰された出力信号を生成するためのシステムが提供される。このシステムは、フィルタリングモジュールと、方向分析モジュールおよびフィルタ構築モジュールを備えるフィルタ生成モジュールとを含む。フィルタ生成モジュールは、音響場に対応する少なくとも2つの入力信号を受信するように構成される。
【0028】
方向分析モジュールは、第1の処理を施して前記少なくとも2つの受信した入力信号を分析するように、かつ分析される信号中の拡散音の量を示すデータを含む方向データを決定するように構成され動作可能である。フィルタ構築モジュールは、所望の出力指向性と、出力信号中の拡散音の必要とされる減衰との各既定パラメータを利用して前記方向データを分析するように、かつフィルタリングモジュールの動作パラメータ(フィルタ係数)を示す出力データを生成するように構成される。出力信号からのアーチファクトを低減するために、フィルタ構築モジュールはまた、動作パラメータに時間平滑化を施すように適合させることもできる。
【0029】
このフィルタリングモジュールは、動作パラメータを利用して入力信号の少なくとも1つに第2の処理を施し、前記所望の出力指向性と、拡散音の必要とされる減衰に対応する拡散音の量とを伴う出力音響信号を生成するように構成される。本発明のいくつかの実施形態では、フィルタリングモジュールは、前記動作パラメータを利用して入力信号の1つにスペクトル修正を加えるように構成され動作可能である。フィルタリングモジュールは、様々なタイプのフィルタ(例えば、利得フィルタ/ウィーナフィルタ)によって実施することができる。
【0030】
本発明のいくつかの実施形態によれば、フィルタ生成モジュールは、入力信号にビーム形成を適用して異なる指向性と関連する少なくとも2つの音響ビーム信号を得るように構成され動作可能であるビーム形成モジュールを含む。これらの実施形態では通常、方向分析モジュールは、音響ビーム信号の第1の処理を施して方向データを決定するように構成される。音響ビーム信号は、任意のビーム形成技法によって、例えば入力信号間に遅延(時間遅延または位相遅延)がある入力信号の重ね合わせを利用することによって、得ることができる。信号のビーム形成に伴うアーチファクトを低減するために、ビーム形成モジュールは、前記音響ビーム信号に振幅補正フィルタを適用するように適合させることができる。
【0031】
少数の入力信号が供給される場合、遅延減算技法をビーム形成に使用することができる。例えば、本発明のいくつかの実施形態では、入力信号は無指向性マイクロフォンから生じることができ、遅延減算技法が、カージオイド指向性の音響ビーム信号を得るために使用される。
【0032】
本発明のいくつかの実施形態によれば、フィルタ生成モジュールは、信号を複数の部分(例えば、時間-周波数タイル)に分解するように構成される。前記部分について方向分析を実施して、前記部分に対応する直接の音響成分および拡散音響成分のパワーを得ること、および前記直接の音響成分が生じる方向を決定することができる。
【0033】
本発明のいくつかの実施形態によれば、システムは、例えば短時間フーリエ変換を利用して信号を時間フレームおよび周波数帯域に分割することを場合により利用することによって、前記分析される信号を時間および/または周波数部分に分解するように構成された時間-スペクトル変換モジュールを含む。あるいは、または加えて、入力信号の一部をフーリエ領域に供給することもできる。
【0034】
本発明の別の広範な態様によれば、音響信号のフィルタリングに使用する方法が提供される。この方法は、所望の出力指向性の既定パラメータ、および音響信号のフィルタリングによって出力信号中に得られるべき拡散音の必要とされる減衰の既定パラメータを示すデータを利用する。この方法は、音響場に対応する少なくとも2つの異なる入力信号を受信する段階と、入力信号に第1の処理を施して処理信号中の拡散音の量を示す方向データを得る段階とを含む。次に、この方向データと、出力指向性の既定パラメータおよび拡散音の必要とされる量を示すデータとを利用して、入力信号のうちの1つをフィルタリングするための動作パラメータを生成する。
【0035】
本発明のいくつかの実施形態によれば、動作パラメータを利用する第2の処理を入力信号のうちの1つに施して、信号をフィルタリングし、前記出力指向性の出力音響信号を生成し、出力信号の拡散音の必要とされる減衰を得る。
【0036】
本発明のいくつかの実施形態では、方向推定および拡散音推定の方法は、適切な方向情報を得るのに適した任意の既知の処理法、または将来まださらに考案されるべき処理法を使用して実施することができ、必ずしも勾配法に限定されない。
【0037】
本発明によるシステムは、適切にプログラムされたコンピュータであってよいこともまた理解されたい。同様に、本発明は、本発明の方法を実行するコンピュータによって読み取り可能なコンピュータプログラムを企図している。本発明はさらに、本発明の方法を実行する機械によって実行可能な命令のプログラムを明確に具体化する機械可読メモリを企図している。
【0038】
したがって、本発明のいくつかの実施形態によれば、2つ以上のマイクロフォンから到来する信号を処理するシステム、方法および装置が提供される。本発明のいくつかの実施形態によれば、処理のための装置は、2つ以上の時間同期化音声信号を受信するための、かつ受信した音声信号のうちの1つがフィルタリングされた音である単一の音声信号を出力するための音声処理回路を含み、この装置では、あらかじめ規定された空間方向とは異なる方向から到来する音が減衰される。
【0039】
本発明を理解し、それが実際にどのように実施されるかが分かるように、次に、諸実施形態を非限定的な例だけで、添付の図面を参照して説明する。
【発明を実施するための形態】
【0041】
図を簡単に分かりやすくするために、図示の要素は必ずしも原寸に比例して示されていないことを理解されたい。例えば、分かりやすくするために、要素のうちのいくつかは大きさが他の要素に対して誇張されていることがある。さらに、適切と考えられる場合には、相当または類似する要素を示すために参照数字が複数の図の中で繰り返されることがある。
【0042】
以下の詳細な説明では、本発明の完全な理解が得られるように、多数の具体的詳説が示される。しかし、本発明は、これらの具体的詳説がなくても実施できることが当業者には理解されよう。他の例では、よく知られている方法、手順、構成要素および回路は、本発明を不明瞭にしないように詳細に説明していない。
【0043】
本発明のいくつかの実施形態は、それぞれのマイクロフォンから、場合により信号の増幅後および/またはアナログデジタル変換および時間同期化の後に到来する、複数の入力音声信号(音声チャンネル)を処理するシステム、方法および回路に関する。また場合により、追加のマイクロフォン較正がマイクロフォン較正モジュールによって施されることがある。このような較正モジュールの使用は任意選択である。すなわち較正モジュールは本発明の要素ではなく、説明のために言及するだけである。適切なマイクロフォン較正は、本発明の処理の入力部のマイクロフォン信号の一部分とみなされ、そのモジュールは、2つのマイクロフォン間の整合を改善することが目的である任意の種類のフィルタとすることができる。このフィルタは、あらかじめ取り付けることができ、あるいは受け取られる信号に応じて適合させることができる。したがって、本明細書の実施形態および図面では、マイクロフォン信号に言及することが較正フィルタリング後の信号と関係がありうる。
【0044】
図1Aを参照すると、本発明による音響(音)フィルタリングシステム100Aの動作の一般的原理が例示されている。システム100Aは、フィルタ生成モジュール150を含み、このフィルタ生成モジュールは、感知システム110と連係し、また特定のフィルタリングモジュール160とも連係し、かつフィルタリングモジュールの動作パラメータを決定するように構成され動作可能である。後者は、システム100Aの構成部分であってもなくてもよく、フィルタ生成モジュール150の出力に応答する。
【0045】
本発明によるシステムのモジュールは、任意選択で電子回路によって、およびまたはソフトウェアまたはハードウェアモジュールによって、あるいは両方の組合せによって実施できることを理解されたい。この点において、図には特に示されていないが、本発明のモジュールには、本発明の方法を実施するように動作可能な1つまたは複数のプロセッサ(例えば、デジタル信号プロセッサ)および記憶ユニットが付随する。また、フィルタ生成モジュール150およびフィルタリングモジュール160には、システムによって処理されるべき入力信号を受信するための、および/またはフィルタリングされた信号を出力するための1つまたは複数の音響ポートが付随する。
【0046】
フィルタ生成モジュール150は、音響場(例えば音場)と関連する少なくとも2つの入力信号(この例では、n個の入力信号x
1、x
2 ... x
n)を感知システム110から受け取り、これらの入力信号を処理および分析して、フィルタリングモジュールの動作パラメータを決定するように構成され動作可能であり、フィルタリングモジュールがこの動作パラメータで動作することによって、前記入力信号のうちの1つにさらなる処理を施すことが可能になる。フィルタ生成モジュール150は、n個の入力信号に処理を施し、信号の差異を示すデータを含む方向データを得る。そうして得られたデータは次に、フィルタ生成モジュール150によって、所望の出力指向性および出力信号中の拡散の必要とされる量の各既定パラメータを示す特定の理論データを利用して分析される。この分析により、音場に対応する入力信号x
0をフィルタリングする既定のフィルタモジュールに使用するのに適した動作パラメータ(フィルタ係数)Wが決定される。フィルタリングモジュール160は、最適動作パラメータ(フィルタ係数)を用いて加えられた場合に雑音が低減された(背景雑音が低減された)出力信号xが得られるようにする入力信号x
0に、方向性フィルタリングを施すように構成され動作可能である。
【0047】
好ましくは、前記既定のフィルタリングモジュール160は、時間領域および/またはスペクトル領域のいずれかで、入力信号x
0に適合フィルタリングを施すように構成され動作可能である。したがって、最適フィルタ係数Wは、フィルタリングモジュール160による入力信号x
0の適合フィルタリングを可能にするために、適合フィルタリング時間フレーム/スペクトル帯域ごとに動的に決定される。フィルタ生成モジュール150は、方向分析モジュール130、フィルタ構築モジュール140を含み、場合によりビーム形成モジュール120も含む。方向分析モジュール130は、異なる指向性の音ビーム信号を利用して音場の方向特性を決定するように構成される一方で、フィルタ構築モジュール140は、前記方向特性を利用して既定のフィルタモジュール(例えば、適合スペクトル修正フィルタ)の動作パラメータを決定する。
【0048】
本発明のいくつかの実施形態では、入力信号x
1〜x
nは、異なる指向性に対応する。この場合、前記音ビーム信号y
1〜y
mのうちの少なくともいくつかは入力の一部で構成され、したがって、ビーム形成モジュール120の使用が不要になりうる。あるいは、または加えて、ビーム形成モジュール120を使用して音ビーム信号y
1〜y
mを生成する。ビーム形成モジュール120は、複数の入力信号x
1〜x
nを受信するように、またこれら入力信号から、それぞれ異なる指向性を有する少なくとも2つの音ビーム信号(この例では、複数m個の音ビーム信号y
1〜y
m)を形成するように適合される。ビーム形成は、供給される入力信号に使用するのに適した任意のビーム形成技法により実現できることに留意されたい。少数の入力信号が使用される場合には、音ビーム信号からの低周波アーチファクトを低減するために、振幅補正フィルタが音響ビーム信号に適用されることが好ましい。
【0049】
方向分析モジュール130は、複数の音ビーム信号y
1〜y
mを受け取り分析し、音場内の音(例えば音波)の伝搬の推定方向を示すデータ、および音場を特徴付ける方向(パラメータ)データDDを得る。このような方向データDDは、一般に音場内の音の方向に対応し、また場合により、拡散/周囲音成分および直接音成分の量/パワーと、直接音成分が生じる方向とに対応する。方向データ/パラメータDDは、方向分析モジュール130、およびフィルタ構築モジュール140への入力によって生成される。フィルタ構築モジュール140では、方向データDDを利用して、既定のフィルタリングモジュール(160)に使用するのに適した動作パラメータ(係数)Wを決定する。フィルタリングモジュールは、音響場に対応する入力信号x
0に適用されるべき方向性フィルタを実施する。このx
0は、n個の入力信号のうちの1つでありうる。係数Wは通常、フィルタリングされた出力信号で得られるべき所望の出力指向性DRおよび拡散の必要とされる量Gに関する所与の基準に基づいて、フィルタ構築モジュール140によって決定される。
【0050】
その動作パラメータWが決定されるフィルタリングモジュール160は、入力音響信号に特定のフィルタリング機能を適用することによって入力音響信号x
0をフィルタリングして、雑音が減衰された出力信号を得るように構成される。フィルタリング機能は、動作パラメータWに基づく場合、所望の出力指向性DRと類似の出力指向性と、拡散の必要とされる量Gとを有する出力信号を得ることを可能にする。したがって、雑音減衰は、拡散音の抑制/減衰と、所望の出力指向性の感知ビームの外側の方向から生じる音の抑制/減衰とで達成される。雑音減衰の程度はまた、出力信号x
0中の拡散の必要とされる量Gにも依存する。
【0051】
出力指向性という用語は、出力信号に望まれるどんな指向性関数にも対応しうることに留意されたい。このような指向性を規定するパラメータは、例えば、音が増強または減衰されるべき指向性ビームの1つまたは複数の方向および幅を含むことができる。出力音響信号xの拡散音成分(拡散)の量/利得Gは、入力(マイクロフォン)信号中の拡散音の量に対するdB値として、出力信号の所望のアンビエンスを表すことができる。
【0052】
雑音フィルタリングの従来の手法では、フィルタリングされるべき音声チャネル(信号)の内容だけが、そのチャネルで抑制されるべき雑音を推定するのに使用されることを理解されたい。本発明によれば、雑音推定は、音響場/音場を示す追加データ(複数のチャネル/入力信号)に基づく。これにより、より正確な雑音推定および優れた結果が得られる。
【0053】
したがって、本発明では、複数のチャネルを組み合わせるために、また音場の方向分析を実施するために、ビーム形成技法を利用する。音場の方向分析が得られた後、動作パラメータ(フィルタ係数)が決定される。これにより、単一の音声チャネル(入力信号)をフィルタリングするための動作パラメータを適用することが可能になり、それによってビーム形成のアーチファクトがなくなる。
【0054】
本発明によれば、雑音推定およびフィルタ構築は、音場の方向分析に基づく。これは、実質的に無指向性の入力音信号(例えば、x
1およびx
n)を受信することによって(例えば、音感知システム110の実質的に無指向性マイクロフォンM
1〜M
nから)、また特定の好ましい指向性を有する(すなわち特定の方向に対し感度が高められた)音ビーム信号(例えば、y
1およびy
m)を生成するようにビーム形成を利用する(例えば、ビーム形成モジュール120を利用する)ことによって、実現することができる。しかし、ビーム形成モジュール120は任意選択であり、感知システム110自体が、異なる指向性の入力信号(例えば、y
1およびy
2)(例えば、そのうちの少なくとも1つが非無指向性のマイクロフォンから生じる、または非等方的指向性を有する)を供給する場合には、省略することができる。この場合、感知システムからの入力信号はそれ自体、特定の方向に対して高められた(または抑制された)指向性を有し、したがって、方向分析モジュール130用の音ビーム信号として役立ちうる。
【0055】
音波の方向を決定するための方向推定は一般に、異なる指向性を有する2つ以上の音ビーム(入力信号から生成されたビーム形成信号)の対応する各部分の強度/パワーを比較することによって行うことができる。例えば、2つの異なる非等方的指向性の2つの音ビーム(例えば、音の増強/抑制のそれぞれ異なる主方向を有する)を考えると、平面音波は通常、波の伝搬の方向で、その主方向の投射がより大きい音ビームによって、より大きな強度で感知される。したがって、2つ以上の音ビーム中の同じ音波に対応する各信号部分の強度を比較することによって、また音ビームの指向性に関する知識を利用することによって、信号発生の方向φ(音波がこの方向から伝搬する)を推定/分析することができる。
【0056】
さらに、信号部分の直接音成分の強度P
DIR(すなわちその方向から伝搬する)および拡散音成分P
DIFFは、例えば2つの音ビームの信号部分間の相関に基づいて推定することができる。この点について、異なる音ビームの信号間の高い相関値は一般に、直接音P
DIRの高い強度と関連し、比較的低い相関値は通常、信号部分内の拡散音P
DIFFの高い強度に対応する。
【0057】
音発生の方向ならびに直接音および拡散音の量は、音ビーム信号の部分(例えば、時間フレームおよび周波数帯域)ごとに(また入力音信号の各部分、例えばフィルタリングされるべき音信号の部分に応じて)推定できることに留意されたい。したがって、音信号の部分という用語は、音信号の特定のデータ片を示すのに用いられる。デジタル信号に関して、この信号は、時間領域で(個別サンプル指数/時間フレームの関数としての強度)、スペクトル領域で(周波数帯域(周波数bin指数)の関数としての強度および任意選択で位相)、あるいは強度および任意選択で位相が時間フレーム指数および周波数帯域指数の両方の関数として表される組合せ領域で、表すことができる。したがって、以下では、また他の意味が示唆されない場合には、信号の部分という用語は、特定の時間フレーム指数、または周波数帯域指数と関連する、あるいは両方の指数と関連するデータ片を示す。
【0058】
上記のように、出力信号中の雑音量を低減することは、本発明により、フィルタリングされるべき信号に、その信号から所望の指向性DRの出力信号が発生するように適用される方向性フィルタ(フィルタ係数)を構築することによって実現される。例えば、これは、増強されるべき音源が想定されている特定の1つまたは複数の方向(指向性データDRに含まれる)から生じる音声などの音を増強する一方で、他の方向からの音は抑制することを目的とする。指向性データDRは、どの音が増強されるべきかに関するいくつか固定の所与の方向(感知システム110に対する)によって、フィルタ構築モジュール140に供給することができ、または構成することができる。これらの方向DRにより、フィルタリングモジュール160の動作パラメータは、異なる音波(したがって、フィルタリングされるべき音信号の異なる部分)が生じる方向の上記方向分析に基づいて、フィルタ計算モジュール140によって決定される。
【0059】
フィルタリングされるべき音信号x
0(およびその各部分)は、特定の方向DRからの音(直接音)の強度を示す信号成分x
0DIRと、前記方向DRに対して非方向性音の特定の方向外の音(拡散音を示す)の強度を示す雑音音成分x
0DIFF(不要信号または雑音信号とみなされることが多い)とを含むと考えられる(例えばX
0=x
0DIR+x
0DIFF)。この点について、音場の方向分析を利用して推定される直接音成分の強度P
DIRおよび拡散音成分の強度P
DIFFと直接音の到来の方向φとは、フィルタリングされるべき信号中の信号成分x
0DIRおよび拡散音成分x
0DIFFの強度またはパワーの推定に役立ちうる。x
0DIFFおよびP
DIRは、それぞれ拡散音の信号およびパワーを指し、これらは雑音とみなすことができるが、従来の意味の雑音とは必ずしも関連がないことを理解されたい。実際には、入力信号チャネル間で独立している信号もまた、拡散音と特定されることがある。
【0060】
上記により、方向性フィルタは、音信号の各部分が生じる推定方向である方向データDD(例えば、P
DIR、P
DIFFおよびφ)に基づいて得ることができる。様々なタイプのフィルタリング方式を、このような方向性フィルタを生成するのに適合させることができる。例えば、非常に狭い指向性ビームを想定するフィルタ方式が、厳密な方向DRから生じないフィルタリングされるべき信号の各部分の音声強度を減衰することによって得られることがある。上述の方向推定を利用することによって、フィルタリングされるべき信号の各部分の直接音成分および拡散音成分の量が、特定の方向DR、およびこれらの方向の特定の幅に関して推定される。
【0061】
本発明のいくつかの実施形態によれば、その方向からの音が増強されるべき方向DR(対象の音源の方向)は、感知システム110(例えば、感知システム110の前で生じる音を増強する)に対して固定されることに留意されたい。あるいは、これらの方向DRは、フィルタ生成モジュール150への入力として与えられる。これらの方向DRは、ユーザが入力することができ、あるいは、例えば音場内の特定の音源を検出することに基づいた処理によって得ることができる。本例では、音源検出モジュール190が、システム100によって増強されるべき音源がある方向DRの検出のために、システム100と連係して使用される。これは、例えば音声活動検出器VADを利用することによって実現することができる。
【0062】
図1Aおよび
図1Bの例では、最終的にフィルタリングされる信号x
0は、任意選択でフィルタ生成モジュール150の入力信号としても供給される。通常、少数のマイクロフォンからなる音感知システムが使用される場合では、フィルタリングされるべき信号は、実際にはフィルタ生成モジュール150に供給される。しかし、これは不必要であり、多くの場合、フィルタリングされるべき実際の入力信号は、方向分析に使用されるものではない。例えば、ある種類のマイクロフォンが方向分析およびフィルタ生成に使用され、別の種類のマイクロフォンが、フィルタリングされるべき音声信号の感知に使用される。
【0063】
図1Aの例では、音信号(x
1〜x
n)および後に続く信号処理が、信号が供給され、処理が行われる領域(時間/周波数)は示さずに大まかに描写されている。しかし、このシステムは、時間領域、スペクトル/周波数領域での動作/信号処理をするように、または音場の短時間スペクトル分析である信号の処理をするように構成できることに留意されたい。
【0064】
提案するアルゴリズムのいくつかの実施形態は、複数の周波数帯域で実行するのに有利であり、
図1Bに例示的に示されているように、マイクロフォン信号が、変換またはフィルタバンクを使用してサブ帯域表示に変換される。複数の帯域への周波数分割を行うために、
図2Bに示されている、分割に離散フーリエ変換を使用する非限定的な例を示す。離散時間信号が小文字でサンプル添え字n、例えばx(n)と共に示されている。信号x(n)の離散短時間フーリエ変換(STFT)はX(k,i)で示され、ここでkはスペクトル時間添え字、iは周波数添え字である。
【0065】
次に
図1Bに移ると、本発明による、音信号がスペクトル領域で処理されるシステム100Bが示されている。本発明の全ての実施形態に共通の要素が、対応する図に同じ参照数字と共に示されている。
【0066】
この例では、時間/サンプル領域の信号x(n)は、帯域分割モジュール180Aで、特定の時間フレームにおける特定の周波数帯域内の音の強度(また場合により位相)をそれぞれ示す時間フレームおよびスペクトル帯域タイル/部分X(k,i)に分割される。上記のように、この入力信号の分割は、入力信号x(n)にSTFTを適用することによって得られる。例えば、これは、入力信号を時間フレームに分割し、次に、各時間フレームに離散フーリエ変換を適用することによって達成される。一般に、各時間フレームの持続時間(各時間フレーム内の音サンプルの数)は、信号(x(n))のスペクトル構成が、時間方向に沿って静止していると仮定できるように十分に短く選択される一方でまた、信号xの十分な数のサンプルを含むのに十分なだけ長い。例えば、音声信号は短時間フレームにわたって、例えば10msから40msの間、安定していると想定することができる。20kHzの音サンプリング速度および20msの音安定持続時間を考えると、各時間フレームkは、入力信号の400個のサンプルを含み、これらのサンプルにDFT(離散フーリエ変換)が施されてX(k,i)が得られる。上記と同様に、時間-周波数領域の信号タイルX(k,i)=X
DIR(k,i)+X(k,i)
DIFFは、直接X
DIR(k,i) (増強されるべき信号)音成分、および拡散X(k,i)
DIFF (雑音)音成分を含むと想定される。信号タイル中の雑音内容X'
0(k,i)
DIFFの推定は、本発明の方向性フィルタ生成モジュール150を利用して、入力信号X
0(k,i)〜X
n(k,i)のうちの少なくとも2つの方向分析に基づいて、上述のように実現される。時間フレームkの各スペクトル帯域i内の拡散音X(k,i)
DIFFの量は、音場の方向分析に基づいて推定される(音場のパラメータ特徴付けが得られる複数の入力信号を利用して)。したがって、フィルタGは、例えば出力信号X'
0中の拡散音(雑音と関連する)の量を低減するために、出力信号中のそれぞれのスペクトル帯域を修正するように構築される。
【0067】
利得フィルタWは、推定された雑音X'
0(k,i)
DIFFに応じて構築される。利得フィルタは、フィルタリングモジュール160によって、フィルタリングされるべき信号X
0の1つに適用され、X'
0〜X
0DIR+(X
0DIFF-X'
0DIFF)という形の出力信号が得られる。フィルタリングモジュール160は、実際には入力信号X
0の時間スペクトルタイル部分X
0(k,i)上でスペクトル修正(SM)を行う。その後、短時間フーリエ変換(STFT)の逆が、適用されるスペクトル-時間変換モジュール180Bによって行われ、実質的に無雑音の音信号x
0'(n)が得られる。
【0068】
出力信号X'
0(時間-周波数領域内)は、実際の雑音X
0DIFFのスペクトル内容と推定された雑音のスペクトル内容X'
0DIFFとの差だけ、望ましい無雑音信号X
0とは異なることに留意されたい。したがって、正確な雑音推定を実現することは、高い信号対雑音比の出力が伴う雑音抑制技法を実施するのに非常に望ましい。一般に、雑音推定は、使用される雑音推定方式(フィルタリング方式)に応じて、1つまたは複数の時間フレームごとに実施される適合処理とすることができる。また、人間の知覚が位相破綻に対し相対的に低感度であるので、雑音X'
0DIFFの推定位相は、使用される雑音推定方式により大まかに評価することができる。したがって、所望の音信号を回復するには、雑音X'
0DIFFの推定のためのSTFT入力信号|X(k,i)|の振幅(強度)(位相ではない)を利用するだけで十分でありうる。ひいてはこれにより、本発明の技法における雑音推定および方向分析で必要な処理が簡単になり低減されるが、出力信号中の信号対雑音SNT(または少なくとも可聴SNR)は阻害されない。
【0069】
上記のように、本発明の技法の主な利点の1つは、少数の(2つまで減る)音受容器/マイクロフォンを使用して音信号の方向性フィルタリングを行うことが、そのような少数のマイクロフォンに基づく出力信号の生成にビーム形成が使用されるときに生じるアーチファクトを伴わずに、可能になることである。以下の説明では、2つのマイクロフォン信号の、デジタル領域での処理を論じる。しかし、上でも述べたように、本発明のいくつかの実施形態はこの点に限定されず、本発明は、3つ以上のマイクロフォン、および3つ以上の信号/音声チャネルに対して実施することもできる。また、本発明は、アナログ信号を処理するために(例えば、アナログ電子回路によって)実施できることにも留意されたい。しかし、デジタル領域では、本発明のシステムのモジュールは、電子回路(ハードウェア)、またはソフトウェアモジュール、または両方の組合せとして実施することができる。
図2Aは、マルチバンドの場合の2つのマイクロフォン信号の方向処理の説明図であり、本発明の一実施形態による同じ処理を実施するシステム200Aを示す。2つのマイクロフォンの信号は、場合により増幅され、デジタル領域に変換され、システム200Aで処理される前に時間同期されて、フィルタリングされた単一の出力音声信号が得られる。
【0070】
システム200Aの処理モジュールは、事前処理モジュールおよび事後処理モジュール、すなわち時間-スペクトル変換モジュール180Aおよびスペクトル-時間変換モジュール180Bを含み、これらはそれぞれ、2つの(またはそれより多い)入力マイクロフォン信号の事前周波数帯域分割と、時間領域の出力信号を得るための事後周波数-帯域加算処理とを行う。音フィルタの主要な処理は、少なくとも2つのマイクロフォンから(帯域分割後に)信号を受け取り利用して方向性フィルタを生成するフィルタ生成モジュール150と、そのように生成されたフィルタに基づいて入力信号のうちの少なくとも1つをスペクトル修正(SM)するように構成されたフィルタリングモジュール160とによって行われる。フィルタ生成モジュール150は、この例では、入力信号の勾配処理(GP)を行ってこの入力信号から音ビーム(カージオイド)信号を生成するように構成されたビーム形成モジュール120と、方向パラメータ推定モジュール130と、利得フィルタ計算(GFC)モジュール140とを含む、3つのサブモジュールを含む。
【0071】
図1Bの実施形態と同様に、ここでもまた、フィルタ生成(フィルタ生成モジュール150で実行される)および入力信号のフィルタリング(フィルタリングモジュール160で実行される)は、スペクトル領域(例えば、STFTによって得られる時間スペクトルタイル)の入力音信号の表示X
1およびX
2を利用して行われる。それに応じて、帯域分割モジュール180A(時間-スペクトル変換モジュール)が使用されて入力信号が、異なるスペクトル帯域に対応する複数の部分に分割される。これにより、本発明によるフィルタ生成および入力信号のフィルタリングをスペクトル帯域部分ごとに独立して実行することが可能になる。最終的に、フィルタリングされるべき入力信号の別々のスペクトル部分(フィルタリング後)は、スペクトル-時間変換モジュール180Bで加算される。
【0072】
時間-スペクトル変換モジュール180Aおよびスペクトル-時間変換モジュール180Bは、必ずしもシステム200の一部ではなく、その帯域分割動作および加算動作が、本発明の音フィルタリングシステム(200)外のモジュールによって行われることもあることに留意されたい。また、時間-スペクトル変換(帯域分割)モジュール180Aの出力はマルチバンド信号であり、したがって、この場合の勾配処理(GP)モジュールは、それぞれの帯域に対して繰返し適用される。
【0073】
図2Bは、マルチバンド処理が短時間離散フーリエ変換(STFT)を用いて行われる場合の処理のより詳細な説明図である。この図のシステム200Bは、上述のシステム200Aのものと類似のモジュールを含む。
【0074】
図2Aおよび
図2Bの両方の音フィルタリングシステム200Aおよび200Bは、2つのマイクロフォン信号を入力として受け取り処理する方向性フィルタモジュールと、これらの信号に基づき信号の一方に適用されてフィルタリングされた単一の音声信号が出力として得られるフィルタリングモジュールとを実施する。システム200Aおよび200Bは、電子回路として、および/または、異なるモジュールがソフトウェアモジュール、ハードウェア要素、またはこれらの組合せによって実施される、コンピュータシステムとして実施することができる。
【0075】
ここで、スペクトル-時間モジュール180Aは、入力信号に対し短時間フーリエ変換(STFT)を実行するように構成され、時間-スペクトルモジュール180Bでは、逆STFT(ISTFT)を実施して時間領域の出力信号を得る。この例では、2つの時間領域マイクロフォン信号が、各FFTフレームの間で固定時間領域ステップ(ホップサイズ)を用いて短時間離散フーリエ変換され、その結果、固定フレーム重複部分が生じるようになる。サイン分析STFT窓、および同じサイン合成STFT窓が使用されることがある。いくつかの実施形態では、時間変化フレームサイズおよび窓ホップサイズもまた、場合により使用されることがある。以下で詳細に説明するように、方向性フィルタが生成され、入力信号のうちの1つのスペクトル帯域に適用された後、フィルタリングの結果が逆フーリエ変換され、変換窓が重なり合って出力信号が生成される。この例では、FFTモジュールの出力は複素周波数領域にあり、そのため、ビーム形成(勾配処理(GP))は、周波数領域binに対し複素操作(complex operation)として施されることにも留意されたい。この例では、方向性フィルタ生成モジュール150およびフィルタリングモジュール160は、2つのマイクロフォン信号(x
1およびx
2)を受信する。これらの信号は、この例ではデジタル形式で供給され、時間同期される。信号x
1およびx
2は、STFTによってスペクトル領域X
1およびX
2に変換され、方向性フィルタ生成モジュール150で処理されてフィルタが得られ(フィルタリングモジュールの動作パラメータ)、このフィルタは次に、フィルタリングされた単一の音声信号が出力として得られるように、上述のスペクトル修正フィルタリングにより入力信号の1つ(この例ではX
1)に適用される。
【0076】
前記のように、フィルタ生成モジュール150は、ビーム形成モジュール120、方向分析モジュール130、およびフィルタ計算モジュール140の3つのサブモジュールを含む。次に、これらのモジュールの動作を、
図2Bおよび
図2Cを共に参照して詳細に例示する。
図2Cは、本発明のいくつかの実施形態による、
図2Bのシステム200Bで使用するのに適したフィルタ生成方法300の主要な段階を示す。
【0077】
第1の段階320で(
図2Aのビーム形成モジュール120で実施される)、ビーム形成が2つの入力音信号X
1およびX
2に施されて、これらの信号から2つの音ビーム信号Y
1およびY
2が、特定の非等方的指向性(指向性の少なくとも1つが非等方的)を有して生成される。一般に、ビーム形成は、任意の適切なビーム形成技法により実施して、異なる指向性をそれぞれが有する少なくとも2つの音ビーム信号を生成することができる。本例では、入力音声信号X
1およびX
2のビーム形成が遅延減算法を利用して行われて、いわゆるカージオイド指向性の2つの音ビーム信号Y
1およびY
2が得られる。したがって、以下では、2つの音ビーム信号Y
1およびY
2はまた、カージオイド信号または音ビーム信号と区別なく呼ばれる。この例では、ビーム形成モジュール120は、勾配処理ユニットGPを含み、このユニットは、2つの入力信号X
1およびX
2(スペクトル領域で示される)を遅延および減算し、2つの音ビーム信号Y
1およびY
2を出力するように適合される。
【0078】
勾配処理(GP)は、マイクロフォン信号を遅延および減算することを含み、遅延および減算の両方を広い意味で参照することができる。例えば、遅延を時間領域または周波数領域に導入することができ、また全通過フィルタを使用して導入することもでき、減算では、重み付け差分を使用することができる。非限定的な例として、本発明のいくつかの実施形態についての以下の説明では、周波数領域での複素乗算を使用して遅延を実施する。マイクロフォンが無指向性の場合、上記のGPの後の勾配信号は、仮想カージオイドマイクロフォンと呼ぶことができ、傾斜処理信号は、本明細書では単に説明を簡単にするために「カージオイド」と呼ぶ。
【0079】
この例では、後続の方向分析がカージオイドSTFTスペクトルに基づいて行われる場合、傾斜処理(GP)が入力信号に施されて、反対の方向に向いている2つのカージオイド信号が得られる。
【0080】
以下の説明で、カージオイド信号がマイクロフォン間隔の関数としてどのように計算されるかを示す。2つの無指向性マイクロフォンの間の間隔をd
mメートルと想定する。マイクロフォン1および2の方に向く2つのカージオイド信号は、周波数領域で遅延および減算動作を実施することによって得られる(この動作は、当業者によれば時間領域でも実施できることに留意されたい)。
Y
1(k,i)=X
1(k,i)-exp(-j×(I×Tao×Fs)/N
FFT)×X
2(k,i)
Y
2(k,i)=X
2(k,i)-exp(-j×(I×Tao×Fs)/N
FFT)×X
1(k,i)
ここで、N
FFTはFFTサイズ、Taoは音が一方のマイクロフォンから他方のマイクロフォンまで進むのに必要な時間であり、Tao=dm/Vsで与えられ、ここでVsは空気中の音の速度、すなわち340m/sである。
【0081】
入力信号X
1およびX
2が2つの無指向性マイクロフォンから生じると考えると、
図2Dに示された2つのカージオイド信号Y
1およびY
2の指向性は、それぞれ(φは音の到来方向)、
Dy1(φ)=0.5+0.5cos(φ)
Dy2(φ)=0.5-0.5cos(φ)
である。
【0082】
これらの指向性は、カージオイド信号を生成するように施された特定の遅延減算処理によって決まることに留意されたい。この例では、2つのカージオイド信号は、図に示された無指向性D_omniを有する2つの無指向性マイクロフォンからの入力信号を処理することにより得られる。
【0083】
好ましくは、低周波数で値が大きくなることを防止するために、振幅補償フィルタH(i)が2つのカージオイド信号に以下のように適用される。
Y
1(k,i)=H(i)×(X
1(k,i)-exp(-j×(I×Tao×Fs)/N
FFT)×X
2(k,i))
Y
2(k,i)=H(i)×(X
2(k,i)-exp(-j×(I×Tao×Fs)/N
FFT)×X
1(k,i))
【0084】
振幅補償フィルタの一例は、H(i)=min(Hmax,0.5/sin(Tao×wi))で与えられ、ここでw
i=2×Pi×I×f
s/N
FFTであり、H
maxはこのフィルタの上限である。カージオイド信号の所望の周波数応答によっては、他の振幅補償フィルタを使用することもできる。
【0085】
いくつかの実施形態によれば、遅延および減算動作は、第1および第2のマイクロフォンx
1(n)およびx
2(n)からのサンプリングされた入力信号(時間領域内)に対し、時間領域でまず行われることに留意されたい。これらの実施形態によれば、マイクロフォンからの信号x
1(n)およびx
2(n)は、まずビーム形成モジュール120(例えば、勾配処理ユニット(GP))に供給されて音ビーム信号y
1(n)およびy
2(n)が得られ、次に、これらの時間領域の音ビーム信号は、帯域分割モジュール180Aで(例えばSTFTによって)スペクトル領域に変換される。
【0086】
第2の段階330で(
図2Aの方向分析モジュール130で実施される)、勾配処理ユニット(GP)は、出力として勾配信号Y
1およびY
2を供給する。時間インスタンスnの勾配信号Y
1およびY
2が方向分析モジュール130に供給されて、方向推定、直接音推定および拡散音推定が計算される。提案された、この段階で実行される方向分析アルゴリズムは、指向性音を異なる方向と区別し、さらに指向性音を拡散音と区別するように適合される。これは、前の段階で遅延減算処理によって得られた2つのカージオイド信号を利用して実現される。
【0087】
音場の方向分析は一般に、2つの音ビーム(カージオイド)信号Y
1(k,i)およびY
2(k,i)が同じ音場と関連していると想定することによって得られる。この例では、カージオイド信号Y
1(k,i)およびY
2(k,i)は、ステレオ信号分析(参照文献[2]に記載)で使用される信号モデルと同様に次式のようにモデル化することができる。
Y
1(k,i)=S(k,i)+N
1(k,i)
Y
2(k,i)=a(k,i)S(k,i)+N
2(k,i)
ここで、a(k,i)は、2つの信号の異なる指向性から生じる利得係数であり、S(k,i)は直接音であり、N
1(k,i)およびN
2(k,i)は拡散音を表す。
【0088】
表記を簡単にするために、以下では時間および周波数の添え字kおよびiを無視することが多いことに留意されたい。以下の説明では、拡散音のパワーP
DIFF(k,i)、直接音のパワーP
DIR(k,i)、および直接音の到来方向(例えば、利得係数a(k,i)で示される)に対応する方向パラメータデータDDは、フィルタリングされるべき入力信号の時間フレーム-スペクトル帯域タイルのそれぞれについて導出/推定される。これらは次に、出力信号を生成するのに適用されるフィルタを導出するために後で使用される。
【0089】
本発明のこの実施形態では、音場の方向分析は、音ビームの統計的分析に基づく。音ビーム信号Yのタイル中の拡散音のパワーP
DIFFは、一般にP
DIFF(k,i)=E{|N(k,i)|
2}に等しく、直接音のパワーP
DIR(k,i)=E{|S(k,i)|
2}であり、ここでE{.}は信号タイルの短時間平均動作を表し(例えば、1つまたは複数の時間フレームにわたる、または繰返し「単極平均」による)、|S|
2=S・S
*であり、ここで
*は複素共役を示す。したがって、上記のパラメータ(P
DIFF、P
DIR、および到来方向)の導出は、以下の想定を考慮に入れることによって、時間フレームおよび周波数バンク(k,i)ごとに統計的に得ることができる。
両方のカージオイド信号の拡散音のパワーは等しく、すなわちE{N
1×N
1*}=E{N
2×N
2*}=E{|N|
2}である。
【0090】
2つのカージオイド信号N
1およびN
2中の拡散音の間の正規化相互相関係数は、ある一定値Φ
diffになる(本発明のこの実施形態ではΦ
diff=1/3がよく当てはまる)。
【0091】
直接音と拡散音は直交する信号であり、したがってその平均はゼロになり、E{S*・N
1*}=E{S*・N
2*}=0である。
【0092】
したがって、直接音成分および拡散音成分は、音ビーム(カージオイド)信号Y
1(k,i)およびY
2(k,i)の対相関E{|Y
1|
2}、E{|Y
2|
2}、E{Y
1・Y
2}の統計的計算を利用することによって次式のように取り出すことができる。
E{|Y
1|
2}=E{|S|
2}+E{|N|
2}
E{|Y
2|
2}=a
2×E{|S|
2}+E{N|
2}
E{Y
1Y
2*}=aE{|S|
2}+Φ
diff×E{|N|
2}
【0093】
したがって、この例では段階330で、2つの音ビーム信号の間の相関が計算され(例えば、信号対E{|Y
1|
2}、E{|Y
2|
2}、E{Y
1×Y
2}の短時間平均によって)、結果として生じた相関値を用いて上記の3式を解き、直接音のパワーP
DIR(k,i)=E{|S(k,i)|
2}、拡散音のパワーP
DIFF(k,i)=E{|N(k,i)|
2}、および方向表示データa(k,i)を決定する。
【0094】
感知システムに向かって到来する直接音(音波)の到来方向φ(k,i)は、そうして得られた利得係数a(k,i)に基づいて、また音ビーム信号Y
1およびY
2の指向性Dy1(φ)、Dy2(φ)に基づいて決定することができる。一般にa(k,i)は、スペクトル帯域i内の各音波がそれぞれの音ビーム信号Y
1およびY
2によって時間フレームk中に感知された強度間の比を示す。したがって、方向φから到来する指向性音に関し、利得係数aはY
1とY
2の2つの指向性の比に等しく、すなわち、音波が生じる方向(角度)φ(k,i)は、aを比Dy2/Dy1と等しくすることによって、得ることができる。
-a(k,i)=Dy2(φ(k,i))/Dy1(φ(k,i))
【0095】
この例では、2つのカージオイド音ビームの上記の特定の指向性Dy2およびDy1を置換することによる。
a=(1-cos(φ))/(1+cos(φ))→φ(k,i)=cos
-1((1-a(k,i))/(1+a(k,i)))
【0096】
第3の段階340で、方向データDD(φ、P
DIR、方向推定に対応するP
DIFF、直接音(パワー)推定、および拡散音(パワー)推定)が、これらのパラメータの少なくとも一部に基づいてフィルタ構築を行うフィルタ計算モジュール140(GFC)に供給される。実際にこの例では、φ(k,i)、P
DIR(k,i)、P
DIFF(k,i)が、信号の時間フレームkおよび周波数帯域iの一部分とそれぞれ関連する方向データのデータ片DDを構成する。モジュール140(GFC)によって構築されるフィルタは、それが入力信号の1つ(この例ではx1(n))に適用された場合に、方向性フィルタリングされた出力信号が所望の指向性を有して得られるように構成される。
【0097】
出力信号は元のマイクロフォン信号のうちの1つからのみ生成される(音ビーム(カージオイド)信号からは生成されない)ことに留意することは重要である。これにより、低周波数で信号対雑音比(SNR)(音ビーム信号のビーム形成の1つのアーチファクト)が低くなることが防止される。
【0098】
上記のように、入力信号x
1(n)の方向性フィルタは、対象の音が感知システムに到来する特定の方向(および信号x
1が生じるマイクロフォン)に対して構成/実施される。したがって、出力信号で得られるべき所望の指向性の方向および幅を含む出力指向性パラメータDRが得られる。本例では、方向データは、出力信号指向性の方向を示す角度φ
0パラメータ、および幅パラメータVを含む。
【0099】
出力信号が導出される、フィルタリングされるべき入力(マイクロフォン)信号X
1は、出力指向性パラメータDRに関する直接音成分X
DIRと拡散音成分X
DIFFの合計を含むと考えられる。
X
1=X
DIR+X
DIFF
ここで、X
DIRとX
DIFFは直交すると想定され、これらのパワーはP
DIRおよびP
DIFFによって明示される。カージオイド(Y
1,Y
2)から得られる直接音成分P
DIRおよび拡散音成分P
DIFFは、無指向性マイクロフォン(無指向性を有する)で受け取られる直接音および拡散音のパワーに相当することを理解されたい。したがって、これらのパワーを用いて、フィルタリングされるべき信号X
1中の直接音成分および拡散音成分を決定することができる。
【0100】
以下では、フィルタ係数を計算して上記で説明した単一のマイクロフォン信号を処理する非限定的な例を説明する。以下の例では、周波数領域処理に言及するが、当業者には理解できるように、時間領域で同様な処理を施すこともまた可能である。
【0101】
好ましくは、フィルタWは、それが入力信号X
1に適用されたときにX=w
1X
DIR+w
2X
DIFFという形の出力信号が得られるように、フィルタ計算モジュール140によって構築され、ここで、重みw
1およびw
2は、所望の出力信号X中の直接音X
DIRおよび拡散音X
DIFFの量を決定する。
【0102】
重みw
1(k,i)は、結果として生じる信号が所望の指向性(本例ではφ
0)を有するように、出力信号指向性の所望の方向φ
0と、それぞれの音部分(k,i)音中の直接音の到来方向φ(k,i)とに基づいて得られる。重みw
2は、出力信号X中の拡散音の量を決定し、多くの場合、所望の出力指向性の所望の幅パラメータVに応じて(例えば、ユーザが)選択/選別することができる。
【0103】
フィルタW(本明細書ではウィーナフィルタとも呼ばれる)は、入力信号X
1の1つから、所望の出力信号Xの推定値である出力信号Xest、すなわちXest=W×X
1を得るために使用される。
【0104】
この特定の例では、フィルタ係数W(k,i)は次式で与えられる。
W(k,i)=E{X(k,i)・Xl(k,i)}/E{X
2(k
,i)}=(w
12(k,i)・P
DIR(k,i)+w
22(k,i)×P
DIFF(k,i))/(P
DIR(k,i)+P
DIFF(k,i))
【0105】
上記のように、重みw
1およびw
2は出力信号の特性を決定する。:重みw
1は、所望の指向性を実現するように制御され、本例では下記が用いられる。
w
1(k,i)=0.5×(1+cos(max(min(V(abs(φ(k,i))-φ
o),pi),-pi)))
【0106】
所望のdB単位の拡散音利得G
diffを考えると、w
2はw
2=10
Λ(0.05×G
diff)と計算できる。
【0107】
一般に、フィルタWはこのように得られ、入力信号X
1に対してスペクトル修正を行うように適用され、それによって所望の指向性の出力信号Xが得られる。しかし、フィルタWが適合フィルタであるので(例えば、1つまたは複数の時間フレームごとに計算される)、別々のフレームでの方向分析の変化により音楽性雑音が出力信号に導入されることがある。このような変化は、可聴周波数の場合、フィルタ係数の変化に影響を及ぼし、出力信号中に可聴のアーチファクトを生じさせる可能性がある。したがって、これらの変化、および結果として生じる音楽性雑音アーチファクトを低減するために、周波数および時間平滑化がフィルタWに適用されることがある。
【0108】
例えば、周波数領域で適用される適合ウィーナフィルタWの音声品質を改善することは(上記で導出されたように)、以下で説明するように信号に依存して、フィルタWを適時に平滑化することによって実現することができる。ウィーナフィルタが経時的に生成する速度は、信号統計データを計算するのに用いられるE{.}演算に使用する時定数によって決まる。ある時間周波数タイル中の所望の直接音の相対量D(k,j)は、D(k,i)=w
12×P
DIR/(P
DIR+P
DIFF)で計算される。d(k,i)が、ある特定の閾値THRより小さいときはいつも、フィルタWは、その以前の値を用いて経時的に次式のように平滑化される。
W(k,i)= alpha×W(k,i)+(1-alpha)×W(k-1,i)
ここで、αは平滑化フィルタ係数であり、フィルタリングの時間領域アーチファクトを低減するように計算される。
【0109】
上記では、2つの無指向性入力信号の場合の(フィルタ生成モジュール150で実行される)フィルタ生成の方法300を特定の実施形態200Bに関して詳細に説明した。ここでフィルタ係数は、各時間フレーム、および入力信号の周波数(スペクトル)帯域タイルに対して(別々に)計算されることに留意されたい。
【0110】
本発明の技法によれば、フィルタWは、フィルタリングモジュール160によって、元のマイクロフォン入力信号(X
1)のうちの1つの短時間スペクトルに対して適用される。結果として生じるスペクトルは時間領域に変換されて、提案された方式の出力信号が生じる。これらのフィルタ係数W(I,K)を時間フレームおよびスペクトル帯域タイルに適用することによって、入力信号に対する1つの入力フィルタリングモジュール160スペクトル修正が行われる。
【0111】
入力マイクロフォン信号のうちの1つだけにフィルタを適用することによって所望の指向性の出力信号を得ることには、同様の指向性の出力を得るのにビーム形成技法を使用することに比べて、いくつかの利点がある(特に、小数のマイクロフォン/入力信号だけが使用される場合)。
【0112】
・前記入力信号のビーム形成(例えば、遅延および減算)によって得られる導出カージオイド信号は、SNRが低周波数で相対的に低く、したがって、出力信号波形を生成するには、これらのカージオイド信号を直接使用しないことが好ましい。
【0113】
・出力信号を生成するために両方の入力マイクロフォン信号を組み合わせると、コムフィルタおよび着色アーチファクトが生じ、したがって品質が悪い結果を伴うことになりうる。
【0114】
図2Bおよび
図2Cの実施形態によるフィルタ生成技法は、複素短時間スペクトル領域(STFT)を用いて説明したが、別の実施形態では、非複素時間周波数変換またはフィルタバンクを使用できることに留意されたい。非複素時間周波数変換またはフィルタバンクが使用される場合、以下の説明にあるような統計値は、STFTの例で示されたものと意図が類似の動作により推定することができる。例えば、現実のフィルタバンク出力信号では、振幅の2乗を得るための複素共役をする必要がないので、E{X1X1
Λ*}は簡単にE{X1
Λ2}と置き換えられる。同様に、E{X1X2
Λ*}を用いることとは対照的に、E{X1X2}を用いることもできる。
【0115】
次に
図3に移ると、
図2Bおよび
図2Cを参照して上で説明したシステム200Bによって得られる縦型アンテナアレイ構成(例えばビーム方向は、マイクロフォン位置をつなぐラインとほぼ平行である)に対応する出力指向性の例が示されている。これらの出力指向性は、例えば、φ
0=0であるような指向性パラメータDR、およびビーム幅パラメータvの様々な値を利用して、出力信号で得られる。
【0116】
図4〜6に、本発明の方向性音フィルタリングシステムからの出力信号の、別の出力指向性の追加例が示されている。
図4に、ラインアレイ構成の出力指向性(φ
0=90°設定で得られた)が示されている。それに相当するが、側方に60度向けられたビームが
図5に示されている。ビーム幅パラメータV=2で様々な方向φ
0に向けられたビームが
図6に示されている。
【0117】
図2A、2Bおよび2Cを参照して説明した上記の2マイクロフォン処理のシステムおよび方法は、3つ以上のマイクロフォンと共に次のようにして、すなわち、3つ以上のマイクロフォン信号から2対以上のマイクロフォン信号を前記3つ以上のマイクロフォン信号のうちで選択して、使用できることに留意されたい。各対の信号に対して、前述の段階320および330で2マイクロフォン方向推定処理を行う。次に、3つ以上のマイクロフォン信号の推定到来方向が、マイクロフォンの対の可能な組合せのいくつかから、各時間インスタンスおよび各サブ帯域において得られた個々の推定を組み合わせることによって得られる。非限定的な一例として、このような組合せは、全ての対のうちで最も低い拡散音レベル推定を生じる対が選択されたものとすることができる。
【0118】
また、方向性フィルタWを生成する方法300は、本発明のいくつかの実施形態についての説明が目的の、単なる具体的な一例として提示するにすぎないことにも留意されたい。また、代替的やり方が、ビーム形成(例えば、勾配処理)、および/または方向分析、および/またはフィルタリングを実施するために、本発明の範囲内で、本発明の一般性を低下させることなく考案できることは、当業者には理解されよう。
【0119】
一般に、いくつかの実施形態によれば、本発明のフィルタリング技法は、アナログ音入力信号(例えば、x
1(t)、x
2(t)、tは時間を表す)に直接適用される。これらの実施形態では、本発明によるシステムは通常、前記アナログ入力信号を受け取り、方向性フィルタ生成をアナログ的に行い、適切なフィルタリングを入力信号の1つに適用することができるアナログ電子回路によって実施される。あるいは、いくつかの実施形態によれば、本発明のフィルタリング技法は、デジタル化入力音信号に適用され、この場合システムのモジュールは、ソフトウェアモジュールまたはハードウェアモジュールとして実施することができる。
【0120】
本発明のいくつかの実施形態によれば、音声処理システムはさらに、以下の、追加のフィルタ、および/または利得、および/またはデジタル遅延、および/または全通過フィルタのうちの1つ以上を含むことができる。
【0121】
また、本明細書全体にわたって説明したシステム(回路/コンピュータシステム)は、コンピュータソフトウェア、特注コンピュータ化デバイス、標準コンピュータ化デバイス(例えば、市販のコンピュータ化デバイス)、およびこれらの任意の組合せとして実施できることも理解されたい。同様に、本発明のいくつかの実施形態では、本発明の方法を実行するコンピュータによって読み取り可能なコンピュータプログラムを企図することができる。本発明の別の実施形態ではさらに、機械可読メモリを企図することができ、このメモリは、本発明のいくつかの実施形態による方法を実行する機械によって実行可能な命令のプログラムを明確に具体化するものである。
【0122】
本明細書では、本発明のいくつかの特徴を図示し説明してきたが、当業者によれば、同様な結果が伴う多くの修正、置換え、変更、および処理段階を適用することができる。したがって、添付の特許請求の範囲は、このような修正および変更の全てを本発明の真の趣旨の範囲内に入るものとして包含するものであることを理解されたい。