(58)【調査した分野】(Int.Cl.,DB名)
雑音の除去された信号からどれだけ多くの第1音響信号が除去されたかを示す少なくとも1つのエネルギー比に基づき、NPゲインを決定するよう構成されたゲイン・モジュール、
を更に有する請求項10に記載のシステム。
【発明を実施するための形態】
【0012】
本発明は、音声信号内の雑音の適応型抑制のための例であるシステム及び方法を提供する。実施形態は、雑音抑制と、最小限の又は全くない音声劣化(つまり、音声損失歪み)との調和を試みる。例である実施形態では、雑音抑制は、音源の場所に基づいており、単なる乗法性雑音抑制処理とは対照的に減法性雑音抑制処理を適用する。
【0013】
本発明の実施形態は、以下のものに限定されないが、携帯電話、電話のハンドセット、ヘッドセット及び会議システムのような音を受信するように構成された如何なる音声装置上で実施されてもよい。有利なことに、例である実施形態は、音声歪みを最小限に抑えながら、改善された雑音抑制を提供するよう構成される。本発明の幾つかの実施形態は携帯電話での動作を参照して説明されるが、本発明は、如何なる音声装置上で実施されてもよい。
【0014】
図1を参照すると、本発明の実施形態が実施されうる環境が示される。ユーザは、音声装置104に対して会話音源102として動作する。例である音声装置104は、マイクロホン・アレイを含んでもよい。マイクロホン・アレイは、クローズ・マイクロホン・アレイ又はスプレッド・マイクロホン・アレイを有する。
【0015】
例である実施形態では、マイクロホン・アレイは、会話音源102に関連する第1マイクロホン106を有し、第1マイクロホン106から離れた場所に第2マイクロホンを有してもよい。本発明の実施形態は、2つのマイクロホン106及び108を有することに関して議論されるが、代替の実施形態は、マイクロホン・アレイ内に如何なる数のマイクロホン又は音響センサを含んでもよい。幾つかの実施形態では、マイクロホン106及び108は、全方向性マイクロホンを有してもよい。
【0016】
マイクロホン106及び108は、音源102から音(つまり、音響信号)を受信すると同時に、マイクロホン106及び108は、雑音110も拾う。
図1では、雑音110は、単一の場所から来るように示されるが、雑音110は、音源102とは異なる1以上の場所からの如何なる音を有してもよく、反響音やエコーを含んでもよい。雑音110は、定常、非定常、又は定常雑音及び非定常雑音の組み合わせであってもよい。
【0017】
図2を参照すると、例である音声装置104がより詳細に示される。例である実施形態では、音声装置104は、プロセッサ202、第1マイクロホン106、第2マイクロホン108、音声処理システム204及び出力装置206を有する音声受信装置である。音声装置104は、音声装置104の動作に必要な更なる構成要素(示されていない)を有してもよい。音声処理システム204は、
図3に関連してより詳細に議論される。
【0018】
例である実施形態では、第1及び第2マイクロホン106及び108は、それらの間のエネルギー・レベルの差を考慮に入れるために、間隔を離して配置される。マイクロホン106及び108により受信されると、音響信号は、電気信号(つまり、第1電気信号及び第2電気信号)へと変換されてもよい。幾つかの実施形態によると、これらの電気信号自体は、処理のため、アナログデジタル変換器(示されない)によりデジタル信号に変換されてもよい。音響信号を区別するために、第1マイクロホン106により受信された音響信号は、本願明細書では第1音響信号として参照され、第2マイクロホン108により受信された音響信号は、本願明細書では第2音響信号として参照される。
【0019】
出力装置206は、ユーザに音声出力を提供する如何なる装置であってよい。たとえば、出力装置206は、ヘッドセット又はハンドセットのイヤホン、又は会議装置のスピーカを有してもよい。
【0020】
図3は、本発明のある実施形態による例である音声処理システム204aの詳細なブロック図である。例である実施形態では、音声処理システム204aは、メモリ装置内で実施される。
図3の音声処理システム204aは、スプレッド・マイクロホン・アレイを有する実施形態で利用されてもよい。
【0021】
実際には、第1及び第2マイクロホン106及び108で受信された音響信号は、電気信号に変換され、周波数分析モジュール302を通じて処理される。ある実施形態では、周波数分析モジュール302は、音響信号を取得し、フィルタ・バンクによってシミュレートされた蝸牛(つまり、蝸牛領域)の周波数分析を模倣する。ある例では、周波数分析モジュール302は、音響信号を周波数サブバンドに分割する。サブバンドは、フィルタの帯域幅が周波数分析モジュール302により受信された信号の帯域幅よりも狭いときの入力信号に対するフィルタリング動作の結果である。或いは、短時間フーリエ変換(STFT)、サブバンド・フィルタ・バンク、変調複素重複変換、蝸牛モデル、ウェーブレット等のような他のフィルタも周波数分析及び合成に用いられうる。ほとんどの音(例えば、音響信号)は、複雑であり、1つ以上の周波数を有しているので、音響信号のサブバンド分析は、あるフレーム(例えば所定の時間期間)内の複雑な音響信号の中に、どんな個々の周波数が存在しているかを決定する。ある実施形態によると、そのフレームは、8msの長さである。別の実施形態は、他のフレーム長を利用してもよい。また、フレームを全く用いなくてもよい。その結果は、高速蝸牛変換(FCT)領域内にサブバンド信号を有してもよい。
【0022】
サブバンド信号が決定されると、該サブバンド信号は、雑音除去エンジン304へ転送される。例である雑音除去エンジン304は、各サブバンドの第1音響信号から雑音成分を適応して除去するように構成される。このように、雑音除去エンジン304の出力は、雑音が除去されたサブバンド信号を有する雑音が除去された信号である。雑音除去エンジン304は、
図7A及び
図7Bに関してより詳細に議論される。留意すべき点は、雑音が除去されたサブバンド信号は、会話音声又は非会話音声(例えば、音楽)である所望の音声を有してもよいことである。雑音除去エンジン304の結果は、ユーザへの出力であってよく、又は更なる雑音抑制システム(例えば、雑音抑制エンジン306)を通じて処理されてもよい。説明を目的として、本発明の実施形態は、雑音除去エンジン304の出力が、更なる雑音抑制システムを通じて処理される実施形態を議論する。
【0023】
第2音響信号のサブバンド信号と共に雑音が除去されたサブバンド信号は、次に雑音抑制エンジン306aへと供給される。例である実施形態によると、雑音抑制エンジン306aは、雑音が除去された会話音声信号に残っている雑音成分を更に低減させるために、雑音が除去されたサブバンド信号に適用されるべきゲインマスクを生成する。雑音抑制エンジン306aは、以下の
図4に関してより詳細に議論される。
【0024】
雑音抑制エンジン306aによって決定されたゲインマスクは、次にマスキング・モジュール308において雑音が除去された信号に適用されてもよい。従って、各ゲインマスクは、マスクされた周波数サブバンドを生成するために、関連する雑音が除去された周波数サブバンドに適用されうる。
図3に示されたように、乗法性雑音抑制システム312aは、雑音抑制エンジン306a及びマスキング・モジュール308を有する。
【0025】
次に、マスクされた周波数サブバンドは、蝸牛領域から時間領域へと変換して戻される。この変換は、周波数合成モジュール310において、マスクされた周波数サブバンドを取得すること及び蝸牛チャネルの位相シフトされた信号と足し合わせることを有してもよい。或いは、この変換は、周波数合成モジュール310において、マスクされた周波数サブバンドを取得すること及び蝸牛チャネルの逆周波数とマスクされた周波数サブバンドを掛け合わせることを有してもよい。変換が完了すると、合成された音響信号がユーザへと出力されてもよい。
【0026】
図4を参照すると、
図3の雑音抑制エンジン306aが示される。例である雑音抑制エンジン306aは、エネルギー・モジュール402、マイクロホン間レベル差(ILD)モジュール404、適応型分類器406、雑音推定モジュール408及び適応型高機能抑制(AIS)生成器410を有する。留意すべき点は、雑音抑制エンジン306aは例であり、引用されることによりに援用される米国特許出願番号11/343524に示され記載されているようなモジュールの他の組み合わせを有してもよいことである。
【0027】
本発明の例である実施形態によると、雑音が除去された信号内の雑音を抑制し、会話音声を強めるために、AIS生成器410は、時間的及び周波数的に変動するゲイン、又はマスキング・モジュール308で用いられるゲインマスクを得る。しかしながら、ゲインマスクを得るために、AIS生成器410には特定の入力が必要となる。これらの入力は、雑音のパワー・スペクトル密度(つまり、雑音スペクトル)、雑音が除去された信号のパワー・スペクトル密度(本願明細書では第1スペクトルとして参照される)及びマイクロホン間レベル差(ILD)を有する。
【0028】
例である実施形態によると、雑音除去エンジン304の結果生じる雑音が除去された信号(c’(k))及び第2音響信号(f’(k))は、音響信号の各周波数帯に対するある時間間隔中のエネルギー/パワー推定値(つまり、パワー推定値)を計算するエネルギー・モジュール402へ転送される。
図7Bに示すように、f’(k)は、状況に応じてf(k)と等しくてもよい。その結果、全周波数帯域に渡る第1スペクトル(つまり、雑音が除去された信号のパワー・スペクトル密度)は、エネルギー・モジュール402によって決定されてもよい。この第1スペクトルは、AIS生成器410及びILDモジュール404に供給されてもよい(本願明細書で更に議論される)。同様に、エネルギー・モジュール402は、全周波数帯域に渡る第2スペクトル(つまり、第2音響信号のパワー・スペクトル密度)も決定する。第2スペクトルも、ILDモジュール404に供給される。パワー推定値及びパワー・スペクトルの計算に関しての更なる詳細は、継続中の米国特許出願番号11/343524及び継続中の米国特許出願番号11/699732から分かる。これらの米国特許出願は参照されることにより本願明細書に援用される。
【0029】
2つのマイクロホンの実施形態では、パワー・スペクトルは、第1及び第2マイクロホン106及び108間のエネルギー比を決定するために、マイクロホン間レベル差(ILD)モジュール404によって用いられる。例である実施形態では、ILDは、時間的及び周波数的に変動するILDであってもよい。第1及び第2マイクロホン106及び108は特定の方向に指向性があってもよいため、会話音声が活発なときはあるレベル差が生じ、雑音が活発なときは別のレベル差が生じうる。ILDは、次に、適応型分類器406及びAIS生成器410に転送される。ILDを計算するための実施形態に関しての更なる詳細は、継続中の米国特許出願番号11/343524及び継続中の米国特許出願番号11/699732から分かる。別の実施形態では、第1及び第2マイクロホン106及び108間の別の形式のILD又はエネルギー差が利用されてもよい。例えば、第1及び第2マイクロホン106及び108のエネルギー比が用いられてもよい。留意すべき点は、代替の実施形態が適応型分類及び雑音抑制(つまり、ゲインマスク計算)にILD以外のものを用いてもよいことである。例えば、雑音下限閾値が使われてもよい。また、ILDの利用への参照は、別のものにも適用可能であると考えられうる。例である適応型分類器406は、各フレームにおける各周波数帯の音響信号において、雑音及び混乱させるもの(例えば、負のILDを有する音源)を会話音声と区別するよう構成される。特徴(例えば、会話音声、雑音及び混乱させるもの)は、変化し、環境内の音響条件に依存するので、適応型分類器406は適応できると考えられる。例えば、ある状況で会話音声を示すILDは、別の状況では雑音を示しうる。従って、適応型分類器406は、ILDに基づいて分類境界を調整してもよい。
【0030】
例である実施形態によると、適応型分類器406は、雑音及び混乱させるものを会話音声と区別し、雑音推定値を導き出す雑音推定モジュール408へ、結果を供給する。最初に、適応型分類器406は、各周波数におけるチャネル間の最大エネルギーを決定してもよい。各周波数のローカルILDもまた決定される。グローバルILDは、エネルギーをローカルILDに適用することによって計算されてもよい。新たに計算されたグローバルILDに基づいて、移動平均グローバルILD及び/又はILD観測のための移動平均及び分散(つまり、グローバル・クラスタ)が更新されてもよい。次に、フレーム・タイプが、グローバル・クラスタに対するグローバルILDの位置に基づき分類されてもよい。フレーム・タイプは、音源、背景騒音及び混乱させるものを有してもよい。
【0031】
フレーム・タイプが決められると、適応型分類器406は、音源、背景騒音及び混乱させるものに対するグローバル平均の移動平均及び分散(つまり、クラスタ)を更新してもよい。ある例では、フレームが音源、背景騒音又は混乱させるものとして分類された場合、対応するグローバル・クラスタは活動的であると考えられ、グローバルILDの方へ動かされる。フレーム・タイプが一致しないグローバルな音源、背景騒音又は混乱させるもののグローバル・クラスタは、非活動的であると考えられる。所定の期間の間、非活動的なままの音源及び混乱させるもののグローバル・クラスタは、背景騒音のグローバル・クラスタの方へ移動しうる。背景騒音のグローバル・クラスタが所定の期間の間、非活動的なままの場合、背景騒音のグローバル・クラスタは、グローバル平均へと移動する。
【0032】
フレーム・タイプが決められると、適応型分類器406は、音源、背景騒音及び混乱させるものに対するローカル平均の移動平均及び分散(つまり、クラスタ)も更新してもよい。ローカルの活動的及び非活動的クラスタを更新する処理は、グローバルの活動的及び非活動的クラスタを更新する処理と同様である。
【0033】
音源及び背景騒音のクラスタの位置に基づき、エネルギー・スペクトル内の点は、音源又は雑音として分類される。この結果は、雑音推定モジュール408へと渡される。
【0034】
別の実施形態では、適応型分類器406の例は、最小統計量推定器を用いて、各周波数帯の最小ILDを追跡するものを有する。分類の閾は、各帯域の最小ILDより固定値(例えば、3dB)だけ上に置かれてもよい。或いは、閾値は、各帯域において観測されたILD値の直近の観測範囲に基づき、各帯域の最小ILDから可変の距離だけ上に置かれてもよい。例えば、観測されたILDの範囲が6dBを超えていた場合、ある特定の期間(例えば、2秒)に各帯域で観測される最小ILDと最大ILDの中ほどになるように、閾値が置かれうる。適応型分類器は、更に2007年7月6日出願の米国非仮出願番号11/825563、発明の名称「System and Method for Adaptive Intelligent Noise Supression」で議論されている。該出願は参照されることにより本願明細書に援用される。
【0035】
例である実施形態では、雑音推定は、第1マイクロホン106からの音響信号及び適用型分類器406からの結果に基づく。例である雑音推定モジュール408は、雑音推定値を生成する。本発明のある実施形態により、雑音推定値は、以下の式で数学的に近似されうる要素である。
【0036】
【数1】
示されるように、この実施形態の雑音推定値は、第1音響信号E
1(t,ω)の現在のエネルギー推定値及び前の時間フレームN(t−1,ω)の雑音推定値の最小統計量に基づく。結果として、雑音推定は、効率的かつ低遅延で実行される。
【0037】
上述の式中のλ
1(t,ω)は、ILDモジュール404によって近似されたILDから以下のように導き出されうる。
【0038】
【数2】
つまり、第1マイクロホン106が閾(たとえば、閾=0.5)よりも小さく、該閾より上に会話音声があると見込まれるとき、λ
1は小さい。従って、雑音推定モジュール408は、雑音を厳密に調べる。ILDが上がり出すとき(例えば、会話音声が大きなILD範囲内にあるため)、λ
1は大きくなる。その結果、雑音推定モジュール408は、雑音推定処理のスピードを落とし、会話音声エネルギーは、最終的な雑音推定値にあまり寄与しない。別の実施形態は、雑音推定値又は雑音スペクトルを決定する別の方法を意図する。雑音スペクトル(つまり、音響信号の全周波数帯域の雑音推定値)は、次にAIS生成器410へ転送されてもよい。
【0039】
AIS生成器410は、エネルギー・モジュール402から第1スペクトルの会話音声エネルギーを受け取る。この第1スペクトルは、雑音除去エンジン304による処理の後でも、幾つかの残余雑音も有しうる。AIS生成器410は、雑音推定モジュール408から雑音スペクトルも受け取ってよい。これらの入力とILDモジュール404からの任意のILDに基づき、会話音声スペクトルが推測されてもよい。ある実施形態では、会話音声スペクトルは、第1スペクトルのパワー推定値から雑音スペクトルの雑音推定値を減算することによって推測される。次に、AIS生成器410は、第1音響信号に適用するゲインマスクを決定してもよい。適応型分類器は、更に2007年7月6日出願の米国特許出願番号11/825563、発明の名称「System and Method for Adaptive Intelligent Noise Supression」から分かる。該出願は参照されることにより本願明細書に援用される。例である実施形態では、AIS生成器410からの時間及び周波数に依存するゲインマスク出力は、音声損失歪みを抑制する一方で、雑音抑制を最大化する。
【0040】
留意すべき点は、この雑音抑制エンジン306aのシステム・アーキテクチャは例であるということである。別の実施形態は、更なる構成要素、少ない構成要素又は同じ数の構成要素を有してもよい。また、本発明の実施形態の範囲に包含される。雑音抑制エンジン306aの種々のモジュールは、1つのモジュールに結合されてもよい。例えば、ILDモジュール404の機能は、エネルギー・モジュール304の機能に結合されてもよい。
【0041】
図5を参照すると、代替の音声処理システム204bの詳細なブロック図が示される。
図3の音声処理システム204aとは対照的に、
図5の音声処理システム204bは、クローズ・マイクロホン・アレイを有する実施形態に利用されてもよい。周波数分析モジュール302、マスキング・モジュール308及び周波数合成モジュール310の機能は、
図3の音声処理システム204aに関して説明されたものと同一である。よって、詳細には議論しない。
【0042】
周波数分析モジュール302によって決定されたサブバンド信号は、雑音除去エンジン304及びアレイ処理エンジン502へと転送されてもよい。例である雑音除去エンジン304は、各サブバンドの第1音響信号から雑音成分を適応して除去するように構成される。このように、雑音除去エンジン304の出力は、雑音が除去されたサブバンド信号を有する雑音が除去された信号である。本実施形態では、雑音除去エンジン304は、雑音抑制エンジン306aに対しヌル処理(NP)ゲインも供給する。NPゲインは、雑音が除去された信号からどれだけ多くの第1信号が除去されたかを示すエネルギー比を有する。第1信号が雑音で占められている場合、NPゲインは大きくなる。反対に、第1信号が会話音声で占められている場合、NPゲインはゼロに近くなる。雑音除去エンジン304は、以下の
図7A及び
図7Bに関してより詳細に議論される。
【0043】
例である実施形態では、アレイ処理エンジン502は、クローズ・マイクロホン・アレイ(例えば、第1及び第2マイクロホン106及び108)のために指向性パターン(つまり、合成された指向性マイクロホン応答)第1信号及び第2信号のサブバンド信号を適応して処理するように構成される。指向性パターンは、第1音響(サブバンド)信号に基づく前方を向いたカージオイド・パターン及び第2(サブバンド)音響信号に基づく後方を向いたカージオイド・パターンを有する。ある実施形態では、サブバンド信号は、後方を向いたカージオイド・パターンが音源102の方を向くように適応されてもよい。アレイ処理エンジン502の実装及び機能に関しての更なる詳細は、米国特許出願番号12/080115、発明の名称「System and Method for Providing Close−Microphone Array Noise Reduction」から分かる(適応型アレイ処理エンジンとして参照される。)。該出願は参照されることにより本願明細書に援用される。カージオイド信号(つまり、前方を向いたカージオイド・パターンを実装する信号及び後方を向いたカージオイド・パターンを実装する信号)は、次に、アレイ処理エンジン502によって、雑音抑制エンジン306bに供給される。
【0044】
雑音抑制エンジン306bは、カージオイド信号と共にNPゲインを受け取る。例である実施形態によると、雑音抑制エンジン306bは、雑音が除去された会話音声信号に残りうる雑音成分を更に低減するために、雑音除去エンジン304からの雑音が除去されたサブバンド信号に適用するためのゲインマスクを生成する。雑音抑制エンジン306bは、以下の
図6に関してより詳細に議論される。
【0045】
雑音抑制エンジン306bによって決定されたゲインマスクは、次にマスキング・モジュール308において雑音が除去された信号に適用されてもよい。従って、各ゲインマスクは、マスクされた周波数サブバンドを生成するために、関連する雑音が除去された周波数サブバンドに適用されうる。
【0046】
次に、マスクされた周波数サブバンドは、周波数合成モジュール310により、蝸牛領域から時間領域へと変換して戻される。変換が完了すると、合成された音響信号がユーザへと出力されてもよい。
図5に示されたように、乗法性雑音抑制システム312bは、アレイ処理エンジン502、雑音抑制エンジン306b及びマスキング・モジュール308を有する。
【0047】
図6を参照すると、例である雑音抑制エンジン306bがより詳細に示されている。例である雑音抑制エンジン306bは、エネルギー・モジュール402、マイクロホン間レベル差(ILD)モジュール404、適応型分類器406、雑音推定モジュール408及び適応型高機能抑制(AIS)生成器410を有する。留意すべき点は、雑音抑制エンジン306bの種々のモジュールは、雑音抑制エンジン306aのモジュールと同様に機能することである。
【0048】
例である実施形態によると、第1音響信号(c’’(k))及び第2音響信号(f’’(k))は、音響信号の各周波数帯に対するある時間間隔中のエネルギー/パワー推定値(つまり、パワー推定値)を計算するエネルギー・モジュール402によって受け取られる。その結果、全周波数帯域に渡る第1スペクトル(つまり、第1サブバンド信号のパワー・スペクトル密度)は、エネルギー・モジュール402によって決定されてもよい。この第1スペクトルは、AIS生成器410及びILDモジュール404に供給されてもよい。同様に、エネルギー・モジュール402は、全周波数帯域に渡る第2スペクトル(つまり、第2サブバンド信号のパワー・スペクトル密度)も決定する。第2スペクトルも、ILDモジュール404に供給される。パワー推定値及びパワー・スペクトルの計算に関しての更なる詳細は、継続中の米国特許出願番号11/343524及び継続中の米国特許出願番号11/699732から分かる。これらの米国特許出願は参照されることにより本願明細書に援用される。
【0049】
前に議論したように、パワー・スペクトルは、第1及び第2マイクロホン106及び108間のエネルギー差を決定するために、ILDモジュール404によって用いられてもよい。ILDは、次に、適応型分類器406及びAIS生成器410に転送されてもよい。代替の実施形態では、第1及び第2マイクロホン106及び108間の別の形式のILD又はエネルギー差が利用されてもよい。例えば、第1及び第2マイクロホン106及び108のエネルギー比が用いられてもよい。留意すべき点は、代替の実施形態が適応型分類及び雑音抑制(つまり、ゲインマスク計算)にILD以外のものを用いてもよいことである。例えば、雑音下限閾値が使われてもよい。また、ILDの利用への参照は、別のものにも適用可能であると考えられうる。
【0050】
例である適応型分類器406及び雑音推定モジュール408は、
図4に基づき説明したのと同様な機能を実行する。つまり、適応型分類器は、雑音及び混乱させるものを会話音声と区別し、雑音推定値を引き出す雑音推定モジュール408へ、その結果を供給する。
【0051】
AIS生成器410は、エネルギー・モジュール402から第1スペクトルの会話音声エネルギーを受け取る。AIS生成器410は、雑音推定モジュール408から雑音スペクトルも受け取ってよい。これらの入力とILDモジュール404からの任意のILDに基づき、会話音声スペクトルが推測されてもよい。ある実施形態では、会話音声スペクトルは、第1スペクトルのパワー推定値から雑音スペクトルの雑音推定値を減算することによって推測される。また、AIS生成器410は、NPゲインを用いる。NPゲインは、第1音響信号に適用するゲインマスクを決定するために、信号が雑音抑制システム306b(つまり、乗法性マスク)に届いた時までにどれだけ多くの雑音がすでに除去されたかを示す。ある例では、NPゲインが増加するにつれて、入力の推定SNRが減少する。例である実施形態では、AIS生成器410からの時間及び周波数に依存するゲインマスク出力は、音声損失歪みを抑制する一方で、雑音抑制を最大化してもよい。
【0052】
留意すべき点は、この雑音抑制エンジン306bのシステム・アーキテクチャは例であるということである。別の実施形態は、更なる構成要素、少ない構成要素又は同じ数の構成要素を有してもよい。また、本発明の実施形態の範囲に包含される。
【0053】
図7Aは例である雑音除去エンジン304のブロック図である。例である雑音除去エンジン304は、減算処理を用いて雑音を抑制するよう構成されている。雑音除去エンジン304は、第1の分岐で、まず、第1信号から所望の成分(例えば、所望の会話音声成分)を減算することによって、雑音が除去された信号を決定し、従って雑音成分を生じてもよい。次に、第2の分岐で、第1信号から雑音成分を除去するために、適応が実行されてもよい。例である実施形態では、雑音除去エンジン304は、ゲイン・モジュール702、分析モジュール704、適応モジュール706及び信号減算を実行するよう構成された少なくとも1つの加算モジュール708を有する。種々のモジュール702−708の機能は、
図7Aに関して議論される。また、
図7Bに関して動作中のところが更に示される。
【0054】
図7Aを参照すると、例であるゲイン・モジュール702は、雑音除去エンジン304によって用いられる種々のゲインを決定するよう構成される。本実施形態の目的のために、これらのゲインは、エネルギー比を表す。第1の分岐で、どれだけの量の所望の成分が第1信号から除去されているかを示す基準エネルギー比(g
1)が決められてもよい。第2の分岐で、雑音除去エンジン304の出力の際、どれだけの量のエネルギーが第1の分岐の結果から低減されたかを示す予測エネルギー比(g
2)が決められてもよい。更に、エネルギー比(つまり、NPゲイン)は、雑音除去エンジン304によって第1信号からどれだけの量の雑音が除去されたかを示すエネルギー比を表すように決められてもよい。前に議論したように、NPゲインは、ゲインマスクを調整するために、クローズ・マイクロホンの実施形態において、AIS生成器410によって用いられてもよい。
【0055】
例である分析モジュール704は、雑音除去エンジン304の第1の分岐において分析を実行するよう構成される。一方、例である適用モジュール306は、雑音除去エンジン304の第2の分岐において適応を実行するよう構成されている。
【0056】
図7bを参照すると、雑音除去エンジン304の動作を図示した概略図が示される。第1マイクロホン信号のサブバンド信号c(k)及び第2マイクロホン信号のサブバンド信号f(k)は、雑音除去エンジン304によって受け取られる。ここで、kは、離散時間又はサンプル・インデックスを表す。c(k)は、会話音声信号s(k)及び雑音信号n(k)の重ね合わせを表す。f(k)は、複素数の係数σによりスケーリングされた会話音声信号s(k)及び複素数の係数νによりスケーリングされた雑音信号n(k)の重ね合わせとしてモデル化されている。νは、どれだけの量の第1信号中の雑音が、第2信号の中にあるかを表す。例である実施形態では、雑音の音源は動的でありうるので、νは未知数である。
【0057】
例である実施形態では、σは、会話音声の場所(例えば、音声源の場所)を表す固定係数である。例である実施形態に従って、σは較正を通じて決定されてよい。1カ所以上に基づきキャリブレートすることによって、許容値は、較正に含まれうる。クローズ・マイクロホンでは、σの大きさは1に近い。スプレッド・マイクロホンでは、σの大きさは、話者の口に対して音声装置102がどこに置かれるかに依存する。σの大きさ及び位相は、それぞれのサブバンド(例えば、蝸牛タップ)によって表される周波数での話者の口の位置に対するチャネル間クロス・スペクトルを表す。雑音除去エンジン304は、σが何であるかを知っているので、分析モジュール704は、会話音声成分σs(k)(つまり、所望の成分)を第2信号から除去するために、σを第1信号(つまり、σ(s(k)+ν(k)))に適用し、第2信号(つまり、σs(k)+ν(k))からその結果を減算する。その結果、加算モジュール708から雑音成分が出る。会話音声がない実施形態では、αは、およそ1/(ν−σ)であり、適用モジュール706は自由に適応してもよい。
【0058】
話者の口の位置がσによって適切に表されているならば、f(k)−σc(k)=(ν―σ)n(k)である。この方程式は、適用モジュール706(適用モジュール706は、順々に、適用係数α(k)を適用する)に与えられる加算モジュール708の出力信号が、σ(例えば、所望の会話音声信号)によって表される位置から生じる信号を欠いているということを示している。例である実施形態では、分析モジュール704は、σを第2信号f(k)に適用し、c(k)からその結果を減算する。加算モジュール708からの残りの信号(本願明細書では「雑音成分信号」として参照されている)は、第2の分岐において除去されてもよい。
【0059】
第1信号が会話場所(σで表される)でない音源102によって占められているとき、適応モジュール706は、適応してもよい。第1信号がσで表される会話場所から生ずる信号によって占められているとき、適応は、機能停止されてもよい。例である実施形態では、信号c(k)から雑音成分n(k)を除去するために、適用モジュール706は、一般的な最小二乗法の1つを用いて適応してもよい。ある実施形態によると、係数は、あるフレーム・レートにおいて更新されてもよい。
【0060】
n(k)が白色雑音であり、s(k)とn(k)の相互相関が、あるフレーム内でゼロである実施形態では、適応は、完全に除去されている雑音n(k)及び完全に影響を受けていない会話音声s(k)を有する全てのフレームで生じてもよい。しかしながら、特にフレーム・サイズが短い場合は、実際にはこれらの条件が満たされることは生じ難い。このように、望ましくは、適応において制約が適用される。例である実施形態では、適用係数α(k)は、基準エネルギー比g
1及び予測エネルギー比g
2が以下の条件を満たすとき、タップ毎/フレーム毎に基づき更新されてもよい。
【0061】
【数3】
ここで、γ>0である。
例えば、
【0062】
【数4】
であり、s(k)及びn(k)が無相関であると仮定すると、以下の式が得られる。
【0064】
【数6】
ここで、E{...}は期待値、Sは信号エネルギー、そして、Nは雑音エネルギーである。
【0065】
前の3つの方程式から、以下の式が得られる。
【0066】
【数7】
ここで、SNR=S/Nである。雑音が、ターゲットの会話音声と同じ場所である(つまり、σ=ν)とき、この条件は満たされない。よって、SNRに拘わらず、適応は起こりえない。雑音源がターゲットの場所から遠ければ遠いほど、より大きな|ν−σ|
4及びより大きなSNRが許容され、依然として、雑音を除去することを試みる適応がなされる。例である実施形態では、第1の分岐とは対照的に第2の分岐でより多くの信号が除去されるフレームで、適応が起こってもよい。従って、ゲイン・モジュール702によって第1の分岐の後、エネルギーは計算され、g
1が決められてもよい。αの適応を許すかどうかを示すg
2を決定するために、エネルギー計算も実行されてもよい。γ
2|ν−σ|
4>SNR
2+SNR
4が真ならば、αの適応が実行されてもよい。しかしながら、この方程式が真でなければ、αは適応されない。
【0067】
係数γは、αの適応と非適応の境界を定義するために選ばれてもよい。マイクロホン106及び108の間の直線に対して90度の角度で遠距離場にある実施形態では、この実施形態では、信号は、マイクロホン106及び108の間で同じパワーとゼロの位相シフトを有してもよい(例えば、ν=1)。SNR=1ならば、γ
2|ν−σ|
4=2であり、これは次式と等価である。
【0068】
【数8】
この値に対してγを低くすることにより、雑音漏れの増加を代償として、除去からの近端音源の保護が改善されうる。留意すべき点は、マイクロホン106及び108において、ν=1は90度の角度の遠距離場状況の十分に良い近似ではなく、較正測定から得られる値に置き換えられなければならないかもしれないということである。
【0069】
図8は、音声装置の雑音抑制の例である方法のフローチャート800である。段階802で、音声信号は音声装置102により受信される。例である実施形態では、複数のマイクロホン(例えば、第1及び第2マイクロホン106及び108)が、音声信号を受信する。この複数のマイクロホンは、クローズ・マイクロホン・アレイ又はスプレッド・マイクロホン・アレイを有する。
【0070】
段階804で、第1及び第2音響信号の周波数分析が実行されてもよい。ある実施形態では、周波数分析モジュール302は、第1及び第2音響信号の周波数サブバンドを決定するために、フィルタ・バンクを利用する。
【0071】
段階806で、雑音除去処理が実行される。段階806は、
図9に関して、更に詳細に議論される。
【0072】
次に段階808で、雑音抑制処理が実行されてもよい。ある実施形態では、雑音抑制処理は、最初に、第1信号又は雑音が除去された信号、並びに第2信号のエネルギー・スペクトルを計算する。次に、2つの信号間のエネルギー差が決定されてもよい。続いて、会話音声及び雑音成分が、ある実施形態に従って適応して分類されてもよい。次に、雑音スペクトルが決定されてもよい。ある実施形態では、雑音推定値は、雑音成分に基づいてもよい。雑音推定値に基づき、ゲインマスクが、適応して決定されてもよい。
【0073】
次に段階810で、ゲインマスクが適用されてもよい。ある実施形態では、ゲインマスクは、サブバンド信号毎にマスキング・モジュール308によって適用されてもよい。幾つかの実施形態では、ゲインマスクは、雑音が除去された信号に適用されてもよい。次に段階812で、サブバンド信号は、出力を生成するために合成されてもよい。ある実施形態では、サブバンド信号は、周波数領域から時間領域へ変換して戻されてもよい。変換されると、段階814で、音声信号はユーザへと出力されてもよい。出力は、スピーカ、イヤホン又は他の類似の装置を介してもよい。
【0074】
図9を参照すると、雑音除去処理(段階806)を実行する例である方法のフローチャートが示される。段階902で、周波数が分析された信号(例えば、周波数サブバンド信号又は第1信号)が雑音除去エンジン304によって受け取られる。第1音響信号は、c(k)=s(k)+n(k)として表されてもよい。ここで、s(k)は、所望の信号(例えば、会話音声信号)を表し、n(k)は、雑音信号を表す。第2の周波数を分析された信号(例えば、第2信号)は、f(k)=σs(k)+νn(k)で表される。
【0075】
段階904で、σは、分析モジュール704によって第1信号に適用されてもよい。次に段階906で、第1信号へのσの適用結果は、加算モジュール708によって第2信号から減算されてもよい。この結果は、雑音成分信号を有する。
【0076】
段階908で、ゲイン・モジュール702によって、ゲインが計算されてもよい。これらのゲインは、種々の信号のエネルギー比を表す。第1の分岐で、どれだけの量の所望の成分が第1信号から除去されているかを示す基準エネルギー比(g
1)が決められてもよい。第2の分岐で、雑音除去エンジン304の出力の際、どれだけの量のエネルギーが第1の分岐の結果から低減されたかを示す予測エネルギー比(g
2)が決められてもよい。
【0077】
段階910で、αが適用されるべきかどうかの決定がなされる。ある実施形態に基づき、γ
2|ν−σ|
4>SNR
2+SNR
4が真ならば、段階912で、αの適応が実行されてもよい。しかしながら、この方程式が真でなければ、αは適応されず、段階914で機能停止される。
【0078】
段階916で、適応されるか否かに拘わらず、雑音成分信号は加算モジュール708によって第1信号から除去される。その結果は、雑音が除去された信号である。幾つかの実施形態では、雑音が除去された信号は、乗法性雑音抑制処理による更なる雑音抑制処理のために、雑音抑制エンジン306に供給される。別の実施形態では、雑音が除去された信号は、更なる雑音抑制処理なしに、ユーザへ出力されてもよい。留意すべき点は、1つより多い加算モジュール708が提供されてもよいことである(例えば、雑音除去エンジン304の各分岐に対して1つ)。
【0079】
段階918で、NPゲインが計算されてもよい。NPゲインは、雑音が除去された信号からどれだけ多くの第1信号が除去されたかを示すエネルギー比を有する。留意すべき点は、段階918は、任意(例えば、クローズ・マイクロホン・システムの場合)であることである。
【0080】
上述のモジュールは、機械可読媒体(例えば、コンピュータ可読媒体)のような記憶媒体に格納された命令を有してもよい。それらの命令は、プロセッサ202によって読み出され、実行されてもよい。命令の幾つかの例は、ソフトウェア、プログラム・コード及びファームウェアを含む。記憶媒体の幾つかの例は、メモリ装置及び集積回路を有する。命令は、プロセッサ202によって実行されるとき、プロセッサ202に本発明の実施形態に従って動作するよう指示するように動作可能である。当業者は、命令、プロセッサ及び記憶媒体に精通している。
【0081】
本発明は、例である実施形態を参照し上述された。本発明の広範な範囲から逸脱することなく、種々の変形がなされうること及び別の実施形態が使われうることは、当業者には明らかである。例えば、本願明細書で議論されたマイクロホン・アレイは、第1及び第2マイクロホン106及び108を有する。しかし、別の実施形態は、マイクロホン・アレイの中に更に多くのマイクロホンを利用することを意図してもよい。従って、例である実施形態についてのこれら及び他の変更は、本発明に含まれていると意図される。
【0082】
[関連出願の相互参照]
本出願は、2007年7月6日出願の米国特許出願番号11/825563、発明の名称「System and Method for Adaptive Intelligent Noise Suppression」、2008年3月31日出願の米国特許出願番号12/080115、発明の名称「System and Method for Providing Close−Microphone Array Noise Reduction」に関連する。両出願は参照されることにより本願明細書に援用される。
【0083】
本出願は、2006年1月30日出願の米国特許出願番号11/343524、発明の名称「System and Method for Utilizing Inter−Microphone Level Differences for Speech Enhancement」、2007年1月29日出願の米国特許出願番号11/699732、発明の名称「System and Method for Utilizing Omni−Directional Microphones for Speech Enhancement」に関連する。両出願は参照されることにより本願明細書に援用される。