(58)【調査した分野】(Int.Cl.,DB名)
前記音声方向判定部は、前記第1および第2の収音信号のうちの一方を基準信号とする基準信号サンプル群と他方を比較信号とする比較信号サンプル群とを用いて取得された相互相関値から位相差を算出する、請求項2に記載のノイズ低減装置。
前記ノイズ低減処理部は、前記音声方向判定部において前記第1の収音信号と前記第2の収音信号の位相差が所定の範囲内であると判定された場合、および前記第1の収音信号の位相が前記第2の収音信号の位相よりも遅いと判定された場合の少なくとも一方の場合に、前記ノイズ低減処理部におけるノイズ低減量を低減する、請求項2または3に記載のノイズ低減装置。
前記ノイズ低減処理部は、前記音声方向判定部において前記第1の収音信号の大きさと前記第2の収音信号の大きさとの差であるパワー差が所定の範囲内であると判定された場合、および前記第1の収音信号の大きさが前記第2の収音信号の大きさよりも小さいと判定された場合の少なくとも一方の場合に、前記ノイズ低減処理部におけるノイズ低減量を低減する、請求項5に記載のノイズ低減装置。
前記音声方向判定部は、前記第1の収音信号および前記第2の収音信号の位相差、並びに前記第1の収音信号の大きさおよび前記第2の収音信号の大きさの差であるパワー差に基づき前記音声の到来方向を判定する、請求項1に記載のノイズ低減装置。
前記音声区間判定部は、前記第1の収音信号に含まれる音声成分の母音周波数成分のピークと帯域毎に設定されたノイズレベルとの比が所定の値以上であり、且つ、当該所定の値以上のピークの数が所定数以上である場合に音声区間であると判定する、請求項1乃至9のいずれか一項に記載のノイズ低減装置。
前記音声区間判定部は、前記第1の収音信号に含まれる音声成分の子音スペクトルパターンを所定の周波数帯域毎に測定し、前記周波数帯域の増加に従い前記子音スペクトルパターンが増加する場合に音声区間であると判定する、請求項1乃至9のいずれか一項に記載のノイズ低減装置。
【発明を実施するための形態】
【0025】
以下、図面を参照して本発明の実施の形態について説明する。
図1は、実施の形態にかかるノイズ低減装置を示すブロック図である。
図1に示すように、本実施の形態にかかるノイズ低減装置1は、音声区間判定部11、音声方向判定部12、およびノイズ低減処理部13を有する。ノイズ低減処理部13は、適応フィルタ14、適応係数調整部15、ノイズ低減量調整部16、および加算器17、18を備える。
【0026】
本実施の形態にかかるノイズ低減装置1は、主として音声成分を含む第1の収音信号(音声信号)21および主としてノイズ成分を含む第2の収音信号(参照信号)22を入力し、収音信号21および収音信号22を用いてノイズ低減処理を実施し、ノイズ低減処理後の信号を出力信号29として出力する。例えば、収音信号21および収音信号22は、
図8に示すノイズ低減装置1'が備える音声用マイクロフォン111および参照音用マイクロフォン112を用いてそれぞれ取得する。
【0027】
図8に示す音声用マイクロフォン111は、主に音声成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ113に出力する。参照音用マイクロフォン112は、主にノイズ成分を含む音を収音してアナログ信号に変換し、変換後のアナログ信号をADコンバータ114に出力する。参照音用マイクロフォン112で収音された音に含まれるノイズ成分は、音声用マイクロフォン111で収音された音に含まれるノイズ成分を低減するために用いられる。
【0028】
ADコンバータ113は、音声用マイクロフォン111から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号21を生成する。ADコンバータ114は、参照音用マイクロフォン112から出力されたアナログ信号を所定のサンプリングレートでサンプリングしてデジタル信号に変換し、収音信号22を生成する。
【0029】
例えば、音声用マイクロフォン111および参照音用マイクロフォン112に入力される音声の周波数帯域は、おおよそ100Hzから4000Hz程度である。よって、ADコンバータ113、114におけるサンプリング周波数を8kHz〜12kHz程度とすることで、音声成分を含むアナログ信号をデジタル信号として取り扱うことができる。
【0030】
図1に示すように、収音信号21は、音声区間判定部11、音声方向判定部12、およびノイズ低減処理部13の加算器17、18に供給される。また、収音信号22は音声方向判定部12および適応フィルタ14に供給される。なお、本明細書では、主に音声成分を含む収音信号21を音声信号とも記載し、主にノイズ成分を含む収音信号22を参照信号(ノイズ信号)とも記載する。
【0031】
音声区間判定部11は、供給された収音信号21に基づき音声区間を判定する。そして、音声区間判定部11は、音声区間を示す音声区間情報23を、音声方向判定部12および適応係数調整部15にそれぞれ出力する。例えば、音声区間判定部11は、収音信号21に音声成分が含まれる確率が所定の値以上となった場合に音声区間であると判定する。
【0032】
音声区間判定部11における音声区間判定処理には任意の技術を用いることができる。なお、ノイズレベルが高い環境下でノイズ低減装置が使用される場合は、高い精度で音声区間を判定することが好ましく、例えば、後述する音声区間判定技術Aや音声区間判定技術Bを用いることで、音声区間を高い精度で判定することができる。音声には人の声以外の音も含まれるが、これらの例では、主に人の声を検出する。なお、音声区間判定技術Aは、一例として、特願2010−260798に基づく優先権を主張する出願である特願2011−254578にも記載されている。また、音声区間判定技術Bは、一例として、特願2011−020459にも記載されている。
【0033】
最初に、音声区間判定技術Aについて説明する。音声区間判定技術Aでは、音声の主要部分である母音成分の持つ周波数スペクトルに着目し、音声区間を判定している。音声区間判定技術Aでは、適切なノイズレベルを帯域毎に設定し、母音周波数成分のピークとの信号対ノイズレベル比を求め、信号対ノイズレベル比が所定のレベル比かつ所定のピーク数であるか否かを観察することで、音声区間を判定している。
【0034】
図2は、音声区間判定技術Aを用いた音声区間判定部11'の一例を示すブロック図である。
図2に示す音声区間判定部11'は、フレーム化部31、スペクトル生成部32、帯域分割部33、周波数平均部34、保持部35、時間平均部36、ピーク検出部37、および音声判定部38を備える。
【0035】
フレーム化部31は、収音信号21を予め定められた時間幅を有するフレーム単位(所定サンプル数長)で順次切り出し、フレーム単位の入力信号(以下、フレーム化入力信号と称す)を生成する。
【0036】
スペクトル生成部32は、フレーム化部31から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFT(Fast Fourier Transform)やDCT(Discrete Cosine Transform)等の直交変換法を用いるとよい。本実施の形態において、スペクトル生成部32は、少なくとも200Hzから700Hzのスペクトルパターンを生成する。
【0037】
後述する音声判定部38が音声区間を判定する際に検出する対象である、音声の特徴を示すスペクトル(以下、フォルマントと称す)には、通常、基音に相当する第1フォルマントから、その倍音部分である第nフォルマント(nは自然数)まで複数ある。このうち、第1フォルマントや第2フォルマントは200Hz未満の周波数帯域に存在することが多い。しかし、この帯域には、低域ノイズ成分が比較的高いエネルギーで含まれているため、フォルマントが埋没し易い。また700Hz以上のフォルマントは、フォルマント自体のエネルギーが低いため、やはりノイズ成分に埋没し易い。そのため、ノイズ成分に埋没し難い200Hzから700Hzのスペクトルパターンを音声区間の判定に用いることで、判定対象を絞り、効率的に音声区間の判定を行うことができる。
【0038】
帯域分割部33は、適切な周波数帯域単位で音声に特徴的なスペクトルを検出するため、スペクトルパターンの各スペクトルを、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域に分割する。本実施の形態において、予め定められた帯域幅は、100Hzから150Hz程度の帯域幅とする。
【0039】
周波数平均部34は、分割周波数帯域毎の平均エネルギーを求める。本実施の形態では、周波数平均部34は、分割周波数帯域毎に、分割周波数帯域におけるすべてのスペクトルのエネルギーを平均するが、演算負荷軽減のためスペクトルのエネルギーの代わりにスペクトルの最大または平均振幅値(絶対値)を代用してもよい。
【0040】
保持部35は、RAM(Random Access Memory)、EEPROM(Electrically Erasable and Programmable Read Only Memory)、フラッシュメモリ等の記憶媒体で構成され、帯域毎の平均エネルギーを過去の予め定められた数(本実施の形態においてはNとする)のフレーム分保持する。
【0041】
時間平均部36は、分割周波数帯域毎に、周波数平均部34で導出された平均エネルギーの時間方向の複数のフレームに渡る平均である帯域別エネルギーを導出する。すなわち、帯域別エネルギーは、分割周波数帯域毎の平均エネルギーの時間方向の複数のフレームに渡る平均値である。また、時間平均部36は、直前のフレームの分割周波数帯域毎の平均エネルギーに、重み付け係数と時定数を用いて平均化に準じる処理をして、帯域別エネルギーの代用値を求めてもよい。
【0042】
ピーク検出部37は、スペクトルパターンの各スペクトルと、そのスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比(SNR:Signal to Noise ratio)を導出する。そして、ピーク検出部37は、スペクトル毎のSNRと、予め定められた第1閾値とを比較し、第1閾値を超えるか否かを判定する。SNRが第1閾値を超えるスペクトルがあると、このスペクトルをフォルマントとみなし、フォルマントが検出された旨を示す情報を、音声判定部38に出力する。
【0043】
音声判定部38は、フォルマントが検出されたという情報をピーク検出部37から受け付けると、ピーク検出部37の判定結果に基づいて、該当フレームのフレーム化入力信号が音声であるか否か判定する。音声判定部38は、フレーム化入力信号が音声であると判定した場合、音声方向判定部12および適応係数調整部15に音声区間情報23を出力する。
【0044】
図2に示す音声区間判定部11'は、分割周波数帯域毎に、その分割周波数帯域の帯域別エネルギーを設定している。そのため、音声判定部38は、他の分割周波数帯域のノイズ成分の影響を受けずに、それぞれの分割周波数帯域毎にフォルマントの有無を精度よく判定することができる。
【0045】
上述したように、フォルマントには、第1フォルマントから、その倍音部分である第nフォルマントまで複数ある。したがって、任意の分割周波数帯域の帯域別エネルギー(ノイズレベル)が上昇し、フォルマントの一部がノイズに埋没しても、他の複数のフォルマントを検出できる場合がある。特に、周囲ノイズは低域に集中するため、基音に相当する第1フォルマントや2倍音に相当する第2フォルマントが低域のノイズに埋没していても、3倍音以上のフォルマントを検出できる可能性がある。よって、音声判定部38は、SNRが第1閾値を超えるスペクトルが所定数以上である場合、フレーム化入力信号が音声であると判定することで、よりノイズに強い音声区間の判定を行うことができる。
【0046】
以上で説明したように、音声区間判定技術Aを用いた音声区間判定部11'は、入力信号を予め定められた時間幅を有するフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部31と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部32と、スペクトルパターンの各スペクトルと、予め定められた帯域幅で分割された周波数帯域である複数の分割周波数帯域のうちスペクトルが含まれる分割周波数帯域における帯域別エネルギーとのエネルギー比が、予め定められた第1閾値を超えるか否かを判定するピーク検出部37と、ピーク検出部の判定結果に基づいて、フレーム化入力信号が音声であるか否か判定する音声判定部38と、スペクトルパターンの各分割周波数帯域におけるスペクトルの周波数方向の平均エネルギーを導出する周波数平均部34と、分割周波数帯域毎に、平均エネルギーの時間方向の平均である前記帯域別エネルギーを導出する時間平均部36と、を備える。
【0047】
例えば、音声判定部38は、エネルギー比が第1閾値を超えるスペクトルが予め定められた数以上であると、フレーム化入力信号が音声であると判定する。
【0048】
次に、音声区間判定技術Bについて説明する。音声区間判定技術Bでは、子音の特徴であるスペクトルパターンが右上がりになる傾向があるという性質に着目して、音声区間を判定している。音声区間判定技術Bでは、子音のスペクトルパターンを中高域の周波数帯において測定し、更に部分的にノイズ成分によって埋没してしまった子音の周波数分布の特徴を、ノイズの影響があまり無かった帯域に特化して抽出することで、音声区間を高精度で判定することを可能にしている。
【0049】
図3は、音声区間判定技術Bを用いた音声区間判定部11''の一例を示すブロック図である。音声区間判定部11''は、フレーム化部41、スペクトル生成部42、帯域分割部43、平均導出部44、ノイズレベル導出部45、判定選択部46、および子音判定部47を備える。
【0050】
フレーム化部41は、収音信号21を予め定められた時間幅を有するフレーム単位で順次切り出し、フレーム単位の入力信号であるフレーム化入力信号を生成する。
【0051】
スペクトル生成部42は、フレーム化部41から出力されたフレーム化入力信号の周波数分析を行い、時間領域のフレーム化入力信号を周波数領域のフレーム化入力信号に変換して、スペクトルを集めたスペクトルパターンを生成する。スペクトルパターンは、所定の周波数帯域に渡って、周波数とその周波数におけるエネルギーとが対応付けられた、周波数毎のスペクトルを集めたものである。ここで用いられる周波数変換法は、特定の手段に限定しないが、音声のスペクトルを認識するために必要な周波数分解能が必要であるため、比較的分解能が高いFFTやDCT等の直交変換法を用いるとよい。
【0052】
帯域分割部43は、スペクトル生成部42が生成したスペクトルパターンの各スペクトルを、予め定められた帯域幅毎に分割し、複数の分割周波数帯域を生成する。本実施の形態において、帯域分割部43は、例えば、800Hz〜3.5kHzの周波数範囲について、例えば、100Hz〜300Hz程度の帯域幅毎に分割する。
【0053】
平均導出部44は、スペクトルパターンにおける、連接する、帯域分割部43が分割した分割周波数帯域(バンド)毎の平均エネルギーである帯域別平均エネルギーを導出する。
【0054】
子音判定部47は、平均導出部44が導出した帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、そのフレーム化入力信号に子音が含まれると判定する。
【0055】
一般的に、子音はスペクトルパターンが右上がりになる傾向がある。そこで、音声区間判定技術Bを用いた音声区間判定部11''は、スペクトルパターンにおける帯域別平均エネルギーを導出し、その帯域別エネルギー同士を比較することで子音に特徴的な、スペクトルパターンにおける右上がりの傾向を検出する。そのため、音声区間判定部11''は、入力信号に子音が含まれる子音区間を精度よく検出することができる。
【0056】
子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた第1閾値以上であると、子音が含まれると判定する第1判定手段を備える。また、子音判定部47は、隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計測し、更にこの組み合わせが帯域を跨いで連続する場合に重み付けをして計数し、計数した計数値が、予め定められた第2閾値以上であると、子音が含まれると判定する第2判定手段を備える。子音判定部47は、第1判定手段と第2判定手段をそれぞれノイズレベルに応じて使い分ける。
【0057】
ここで、第1判定手段と第2判定手段とを適宜選択すべく、ノイズレベル導出部45は、フレーム化入力信号のノイズレベルを導出する。例えば、ノイズレベルは、フレーム化入力信号のすべての周波数帯域の帯域別平均エネルギーの平均値とする。また、ノイズレベル導出部45は、フレーム化入力信号毎にノイズレベルを導出してもよいし、所定時間分のフレーム化入力信号のノイズレベルの平均値を用いてもよい。判定選択部46は、導出されたノイズレベルが所定の閾値未満の場合、第1判定手段を選択し、所定の閾値以上の場合、第2判定手段を選択する。
【0058】
以上で説明したように、音声区間判定技術Bを用いた音声区間判定部11''は、入力信号を予め定められたフレーム単位で切り出し、フレーム化入力信号を生成するフレーム化部41と、フレーム化入力信号を、時間領域から周波数領域に変換して、周波数毎のスペクトルを集めたスペクトルパターンを生成するスペクトル生成部42と、スペクトルパターンにおける、連接する予め定められた帯域幅毎の平均エネルギーである帯域別平均エネルギーを導出する平均導出部44と、導出された帯域別平均エネルギー同士を比較し、より高周波数帯域の帯域別平均エネルギー程、高いエネルギーとなっていると、フレーム化入力信号に子音が含まれると判定する子音判定部47と、を備える。
【0059】
例えば、子音判定部47は、スペクトルパターンの隣接する帯域間の帯域別平均エネルギーが、高い周波数の帯域の方が隣接する低い周波数の帯域より大きい組み合わせを計数し、計数した計数値が、予め定められた閾値以上であると、子音が含まれると判定する。
【0060】
なお、本実施の形態にかかるノイズ低減装置に上記の音声区間判定技術A、Bを適用する場合、製品毎にパラメータを設定することができる。すなわち、より確実な音声区間の判定が要求される製品に音声区間判定技術A、Bを適用する場合、音声区間判定のパラメータとしてより厳しい閾値を設定することができる。
【0061】
図1に示すノイズ低減装置1が備える音声方向判定部12は、収音信号21、22を用いて音声の到来方向を判定し、音声方向情報24をノイズ低減量調整部16に出力する。例えば、音声の到来方向は音声用マイクロフォンに対する音声の入射角に対応している。音声の到来方向を判定する方法は、例えば収音信号21と収音信号22の位相差に基づいて音声の到来方向を判定する方法や、音声用マイクロフォン111で収音された音(収音信号21)の大きさと参照音用マイクロフォン112で収音された音(収音信号22)の大きさの差や比(パワー差やパワー比であり、これらを総称してパワー情報と称す)に基づき、音声の到来方向を判定する方法等がある。このとき、音声方向判定部12は、音声区間判定部11が音声区間と判定した場合に、音声の到来方向を判定している。つまり、音声方向判定部12は、音声が到来している音声区間において音声方向を判定し、音声区間以外のときは音声方向を判定していない。
【0062】
また、例えば、トランシーバーのような携帯機器や、無線通信装置に付属するスピーカーマイクロフォンのような小型機器に、本実施の形態にかかるノイズ低減装置を適用する場合、音声を拾い易い表側に音声用マイクロフォン111を設け、音声を拾い難い裏側に参照音用マイクロフォン112を設ける。これにより、音声用マイクロフォン111では音声成分を主に収音し、参照音用マイクロフォン112ではノイズ成分を主に収音することができる。
【0063】
上記の無線通信装置や音声入力装置は、一般的に人間の握りこぶしよりも少し小さい程度の大きさである。よって、音源と音声用マイクロフォン111との距離と、音源と参照音用マイクロフォン112との距離の差は、機器毎やマイクロフォンの配置により異なるものの、5〜10cm程度であると考えられる。ここで、音声の空間伝達速度を34000cm/sとすると、サンプリング周波数が8kHzの場合、1サンプル間において音声が伝達する距離は34000÷8000=4.25であるので、4.25cmとなる。仮に、音声用マイクロフォン111と参照音用マイクロフォン112との距離が5cmであれば、サンプリング周波数が8kHzでは音声の方向を推定するには不十分である。
【0064】
この場合、サンプリング周波数を8kHzの3倍である24kHzとすると、34000÷24000≒1.42cmとなり、5cmの間に3〜4点の位相差ポイントを測定することができる。よって、収音信号21と収音信号22の位相差に基づいて音声の到来方向を判定する場合は、音声方向判定部12に入力される収音信号21と収音信号22のサンプリング周波数を24kHz以上にするとよい。
【0065】
図8に示すノイズ低減装置1'において、例えばADコンバータ113、114から出力された収音信号21、22のサンプリング周波数が8〜12kHzである場合は、ADコンバータ113、114と音声方向判定部12との間に、サンプリング周波数変換器を設け、音声方向判定部12に供給される収音信号21、22のサンプリング周波数を24kHz以上に変換してもよい。
【0066】
一方、例えばADコンバータ113、114から出力された収音信号21、22のサンプリング周波数が24kHz以上である場合は、ADコンバータ113と音声区間判定部11との間、およびADコンバータ113、114とノイズ低減処理部13との間に、サンプリング周波数変換器を設け、音声区間判定部11およびノイズ低減処理部13に供給される収音信号21、22のサンプリング周波数を8〜12kHzに変換してもよい。
【0067】
まず、収音信号21と収音信号22の位相差(つまり、収音信号21と収音信号22の入力時刻の違い)に基づいて音声の到来方向を判定する場合について説明する。
図4は、本実施の形態にかかるノイズ低減装置1が備える音声方向判定部の一例を示すブロック図である。
図4に示す音声方向判定部12'は、基準信号バッファ51、基準信号抽出部52、比較信号バッファ53、比較信号抽出部54、相互相関値算出部55、および位相差情報取得部56を備える。基準信号バッファ51は、収音信号21を一時的に蓄積する。比較信号バッファ53は、収音信号22を一時的に蓄積する。
【0068】
通常、ある瞬間に収音された収音信号は様々な周囲音を含んでおり、各マイクロフォン111、112への伝達経路が異なるため各マイクロフォン111、112で検出される位相や振幅値は異なる。しかし、音声の音源(音声源)は一つであるため、各マイクロフォン111、112で検出される音声成分の位相や振幅値は類似しており相関性は非常に高いといえる。特に、本実施の形態では、音声区間において音声の到来方向を判定しているので、各マイクロフォン111、112で検出される音声成分の相関性は非常に高いといえる。よって、この相関性を測定することで位相差を求めることができ、音声源の方向を推定することができる。2つのマイクロフォン111、112の間における位相差は、例えば相互相関関数や最小二乗法を用いて算出する。
【0069】
2つの信号波形x1(t)とx2(t)の相互相関関数は次の式で表すことができる。
【数1】
【0070】
基準信号抽出部52は、収音信号(基準信号)21に含まれる信号波形x1(t)を抽出して固定する。比較信号抽出部54は、収音信号(比較信号)22に含まれる信号波形x2(t)を抽出し、当該信号波形x2(t)を移動する。相互相関値算出部55は、信号波形x1(t)と信号波形x2(t)とに対して畳み込み演算(積和演算)を実施することで、収音信号21と収音信号22の相関が高いポイントを判断する。このとき、収音信号22のサンプリング周波数とマイクロフォン111、112の空間的な距離から算出される最大位相差分に応じて、信号波形x2(t)を前後にシフトしながら畳み込み演算値を計算する。畳み込み演算値が最大となるポイントは符号が一致する場所であり最も相関が高いと判断することができる。
【0071】
また、最小二乗法を用いる場合は、次の式を用いることができる。
【数2】
【0072】
最小二乗法を用いる場合、基準信号抽出部52は、収音信号(基準信号)21に含まれる信号波形を抽出して固定する。比較信号抽出部54は、収音信号(比較信号)22に含まれる信号波形を抽出し、当該信号波形を移動する。相互相関値算出部55は、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形との差分値の二乗和を計算する。この二乗和が最小となるポイントは、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形とが互いに相似形となる(重なり合う)場所であり、最も相関が高いと判断することができる。最小二乗法を用いる場合は基準信号と比較信号の大きさを揃えることが望ましく、一方を基準として予め正規化しておくのが好ましい。
【0073】
相互相関値算出部55は、上記の演算により得られた、基準信号と比較信号の相関関係に関する情報を位相差情報取得部56に出力する。すなわち、相互相関値算出部55で相関が高いと判断された2つの信号波形(つまり、収音信号21に含まれる信号波形と収音信号22に含まれる信号波形)は、音源を同一とする音声の信号波形である可能性が高い。よって、位相差情報取得部56は、相関が高いと判断された2つの信号波形の位相差を求めることで、音声用マイクロフォン111で収音された音声成分と参照音用マイクロフォン112で収音された音声成分の位相差を求めることができる。
【0074】
そして、音声用マイクロフォン111で収音された音に含まれる音声成分の位相(つまり、収音信号21の音声成分の位相)が、参照音用マイクロフォン112で収音された音に含まれる音声成分の位相(つまり、収音信号22の音声成分の位相)よりも早い場合(つまり、位相差がプラスの場合)、参照音用マイクロフォン112よりも音声用マイクロフォン111に近い位置に音声源がある(つまり、音声用マイクロフォン111に向かって話者が話している)と推測することができる。
【0075】
一方、音声用マイクロフォン111で収音された音に含まれる音声成分の位相が、参照音用マイクロフォン112で収音された音に含まれる音声成分の位相よりも遅い場合(つまり、位相差がマイナスの場合)、音声用マイクロフォン111よりも参照音用マイクロフォン112に近い位置に音声源がある(つまり、参照音用マイクロフォン112に向かって話者が話している)と推測することができる。
【0076】
また、音声用マイクロフォン111で収音された音に含まれる音声成分の位相と、参照音用マイクロフォン112で収音された音に含まれる音声成分の位相との位相差が所定の範囲内である場合(−T<位相差<T、つまり、位相差の絶対値が所定の値Tよりも小さい場合)、音声用マイクロフォン111と参照音用マイクロフォン112の中間付近に音声源が位置していると推測することができる。
【0077】
位相差情報取得部56は、取得した位相差情報を音声方向情報24として、ノイズ低減量調整部16に出力する。
【0078】
音声方向判定部12は、音声区間判定部11が音声区間と判定した場合に、音声の到来方向を判定している。よって、ノイズが混入した場合であっても、音声区間判定部11が音声区間と判定した場合は、音声用マイクロフォン111で収音される音声成分と参照音用マイクロフォン112で収音される音声成分の位相差を精度よく算出することができるので、音声方向を高精度に判定することができる。
【0079】
次に、収音信号21と収音信号22のパワー情報に基づいて音声の到来方向を判定する場合について説明する。
図5は、本実施の形態にかかるノイズ低減装置1が備える音声方向判定部の他の例を示すブロック図である。
図5に示す音声方向判定部12''は、音声信号バッファ61、音声信号パワー算出部62、参照信号バッファ63、参照信号パワー算出部64、パワー差算出部65、およびパワー情報取得部66を備える。
図5に示す音声方向判定部12''は、ある一定の単位時間における収音信号21および収音信号22のパワー情報(
図5に示す場合は、パワー差)を求めることができる。
【0080】
音声信号バッファ61は、単位時間分の収音信号21を蓄積するために、供給された収音信号21を一時的に蓄積する。参照信号バッファ63は、単位時間分の収音信号22を蓄積するために、供給された収音信号22を一時的に蓄積する。
【0081】
音声信号パワー算出部62は、音声信号バッファ61に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。また、参照信号パワー算出部64は、参照信号バッファ63に蓄積された単位時間分の収音信号を用いて、単位時間当たりのパワー値を算出する。
【0082】
ここで、単位時間当たりのパワー値とは、単位時間における収音信号21、22の大きさであり、例えば、単位時間における収音信号21、22の振幅の最大値や、単位時間における収音信号21、22の振幅の積分値等を用いる。なお、本実施の形態では、収音信号21、22の大きさを示す値であれば、パワー値として上記の最大値や積分値以外の値を用いてもよい。
【0083】
パワー差算出部65は、音声信号パワー算出部62で求めた収音信号のパワー値と、参照信号パワー算出部64で求めた収音信号のパワー値とのパワー差を算出し、算出されたパワー差をパワー情報取得部66に出力する。
【0084】
パワー情報取得部66は、パワー差算出部65から出力されたパワー差に基づいて、収音信号21と収音信号22のパワー情報を取得する。
【0085】
例えば、音声用マイクロフォン111で収音された音の大きさが、参照音用マイクロフォン112で収音された音の大きさよりも大きい場合、つまり、収音信号21の大きさ(パワー値)が収音信号22の大きさよりも大きい場合、参照音用マイクロフォン112よりも音声用マイクロフォン111に近い位置に音声源がある(つまり、音声用マイクロフォン111に向かって話者が話している)と推測することができる。
【0086】
一方、音声用マイクロフォン111で収音された音の大きさが、参照音用マイクロフォン112で収音された音の大きさよりも小さい場合、つまり、収音信号21の大きさが収音信号22の大きさよりも小さい場合、音声用マイクロフォン111よりも参照音用マイクロフォン112に近い位置に音声源がある(つまり、参照音用マイクロフォン112に向かって話者が話している)と推測することができる。
【0087】
また、音声用マイクロフォン111で収音された音の大きさと、参照音用マイクロフォン112で収音された音の大きさとの差が所定の範囲内である場合(−P<パワー差<P、つまり、パワー差の絶対値が所定の値Pよりも小さい場合)、音声用マイクロフォン111と参照音用マイクロフォン112の中間付近に音声源が位置していると推測することができる。
【0088】
パワー情報取得部66は、取得したパワー情報(つまり、パワー差に関する情報)を音声方向情報24として、ノイズ低減量調整部16に出力する。
【0089】
以上で説明したように、音声方向判定部12は、収音信号21と収音信号22の位相差に基づいて音声の到来方向を判定する方法や、収音信号21と収音信号22のパワー情報に基づいて音声の到来方向を判定する方法を用いることができる。位相差を用いる方法とパワー情報を用いる方法は、それぞれ単独で使用してもよいし、互いに組み合わせて使用してもよい。例えば、トランシーバーのような携帯機器(無線通信装置)や、無線通信装置に付属するスピーカーマイクロフォン(音声入力装置)のような小型機器は、持ち方によりマイク開口部が手で塞がれたり、衣服などによってマイク開口部が遮蔽されたりする場合がある。よって、位相差を用いる方法とパワー情報を用いる方法を組み合わせて使用することで、音声方向をより高精度に判定することができる。
【0090】
図1に示すノイズ低減処理部13は、収音信号22を用いて収音信号21に含まれるノイズ成分を低減するノイズ低減処理を実施する。このとき、ノイズ低減処理部13は、音声の到来方向に応じてノイズ低減量を調整することができる。ノイズ低減処理部13は、適応フィルタ14、適応係数調整部15、ノイズ低減量調整部16、および加算器17、18を備える。
【0091】
適応フィルタ14は、主としてノイズ成分を含む収音信号22を用いて収音信号21に含まれるノイズ成分に対応したノイズ推定信号25を生成する。つまり、適応フィルタ14は、収音信号22を用いて、収音信号21に含まれている可能性があるノイズ成分を擬似的に生成し、ノイズ推定信号25として出力する。ここで、ノイズ推定信号25は、収音信号21に対して位相反転された信号である。
【0092】
加算器17は、収音信号21と位相反転されたノイズ推定信号25とを加算することで、フィードバック信号(誤差信号)26を生成し、適応係数調整部15に出力する。換言すると、加算器17は、収音信号21からノイズ推定信号25を差し引くことで、フィードバック信号(誤差信号)26を生成することができる。なお、本実施の形態では、加算器17を用いて収音信号21と位相反転されたノイズ推定信号25とを加算しているが、加算器の代わりに減算器を用いて収音信号21からノイズ推定信号25(この場合は位相反転されていない)を減算するように構成してもよい。
【0093】
適応係数調整部15は、収音信号21とノイズ推定信号25との演算により求めたフィードバック信号26に基づき適応フィルタ14の適応係数を調整する。このとき、適応係数調整部15は、音声区間情報23に応じて適応フィルタ14の係数を調整することができる。つまり、適応係数調整部15は、音声区間情報23が音声区間を示さない場合(ノイズ区間の場合)、適応誤差が少なくなるように係数を調整する。一方、音声区間情報23が音声区間を示している場合、適応フィルタ14の係数を維持するか、または係数を微調整するのみとする。
【0094】
ノイズ低減量調整部16は、音声の到来方向を示す音声方向情報24に応じてノイズ推定信号25を調整し、調整後のノイズ推定信号28を加算器18に出力する。
【0095】
例えば、ノイズ低減量調整部16は、音声方向判定部12において収音信号21および収音信号22の位相差が所定の範囲内(−T<位相差<T)であると判定された場合、ノイズ推定信号25を低減する。また、ノイズ低減量調整部16は、収音信号21の位相が収音信号22の位相よりも遅いと判定された場合(つまり、位相差がマイナスの場合)、ノイズ推定信号25を低減する。ノイズ低減量調整部16でノイズ推定信号25を低減することで、ノイズ低減処理部13におけるノイズ低減量を低減する。
【0096】
また、例えば、ノイズ低減量調整部16は後述する
図12に示すような、音声源の位置に対するノイズ低減量調整値を記憶しておく。そして、ノイズ低減量調整部16は、音声方向判定部12を用いて判定された音声の到来方向(音声源の位置)により、記憶した音声源の位置に対するノイズ低減量調整値を参照して、ノイズ推定信号25に乗算するノイズ低減量調整値を決めて、ノイズ推定信号25に乗算する。このようにして、ノイズ低減量調整部16はノイズ推定信号25の大きさを調整し、ノイズ低減処理部13におけるノイズ低減量を低減する。例えば、ノイズ低減量調整値を1とした場合はノイズ推定信号25がそのままの大きさで出力され、ノイズ低減量調整値を0とした場合はノイズ推定信号25がゼロとなる(つまり、ノイズ低減処理が実施されない)。
【0097】
また、例えば、ノイズ低減量調整部16は、音声方向判定部12において収音信号21の大きさおよび収音信号22の大きさの差であるパワー差が所定の範囲内であると判定された場合(−P<パワー差<P)、ノイズ推定信号25を低減することができる。また、ノイズ低減量調整部16は、収音信号21の大きさが収音信号22の大きさよりも小さいと判定された場合(つまり、パワー差がマイナスの場合)、ノイズ推定信号25を低減する。この場合も、ノイズ低減量調整部16でノイズ推定信号25を低減することで、ノイズ低減処理部13におけるノイズ低減量を低減する。
【0098】
加算器(演算部)18は、ノイズ低減量調整部16で調整された後のノイズ推定信号28と収音信号21とを用いて収音信号21に含まれるノイズ成分を低減する。つまり、加算器18は、収音信号21と位相反転された調整後のノイズ推定信号28とを加算することで、ノイズ低減処理された信号を生成し、生成された信号を出力信号29として出力する。換言すると、加算器18は、収音信号21から調整後のノイズ推定信号28を差し引くことで、ノイズ低減処理された出力信号29を生成することができる。なお、本実施の形態では、加算器18を用いて収音信号21と位相反転された調整後のノイズ推定信号28とを加算しているが、加算器の代わりに減算器を用いて収音信号21から調整後のノイズ推定信号28(この場合は位相反転されていない)を減算するように構成してもよい。
【0099】
図6は、本実施の形態にかかるノイズ低減装置が備えるノイズ低減処理部13の一例を示すブロック図である。
図6では、適応フィルタ14をFIR(Finite Impulse Response)フィルタで構成した例を示している。なお、ノイズ低減量調整部16、および加算器17、18については、上記で説明した場合と同様である。
【0100】
図6に示す適応フィルタ14は、遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nを備える。遅延素子71_1〜71_n、乗算器72_1〜72_n+1、および加算器73_1〜73_nを用いて収音信号22を処理することで、ノイズ推定信号25が生成される。
【0101】
適応係数調整部15は、乗算器72_1〜72_n+1の係数を調整する。つまり、適応係数調整部15は、音声区間情報23が音声区間を示さない場合(ノイズ区間の場合)、ノイズ推定信号25と収音信号21との差分(フィードバック信号26)が最小化されるように適応フィルタ14の係数を調整する。これにより、適応フィルタ14から出力されるノイズ推定信号25を、収音信号21に含まれるノイズ成分に近づけることができる。
【0102】
一方、音声区間情報23が音声区間を示している場合は、収音信号21に音声成分が含まれている。この場合は、音声成分の影響により適応フィルタ14の係数がノイズ成分に適応せず収束しないおそれもある。よって、安定的に適応フィルタ14の係数を更新するためには、音声区間情報23が音声区間を示している場合は、適応フィルタ14の係数を維持するか、または係数を微調整するのみとすることが望ましい。
【0103】
換言すると、音声区間判定部11から出力された音声区間情報23は、適応係数調整部15における適応係数の学習スピードを調整する働きをしている。また、音声区間情報23は、ノイズ低減装置が配置された環境における空間音響特性(音声用マイクロフォン111と参照音用マイクロフォン112との間の伝達特性)を正確に取得するためにも、適応フィルタ14にとって重要な情報となる。
【0104】
ここで、適応フィルタ14を用いたノイズ低減処理では、収音信号(ノイズ信号)22に音声成分が含まれると、適応フィルタ14において音声の逆位相成分を含むノイズ推定信号25が生成されるため、ノイズ低減処理後の出力信号においてエコー感が発生したり音声の音圧レベルが低下したりするという問題がある。
【0105】
図7は、本実施の形態にかかるノイズ低減装置のノイズ低減処理を説明するための図であり、ノイズ低減装置1'が配置された環境における空間音響特性を説明するための図である。
図7に示すノイズ低減装置1'には音声用マイクロフォン111と参照音用マイクロフォン112とが互いに逆向きとなるように配置されている。パターンAでは、ノイズ源のみが存在する場合を示している。パターンBでは、パターンAと同一の位置にノイズ源があり、また音声源が理想の位置にある場合、つまり音声源が音声用マイクロフォン111と向かい合う位置にある場合を示している。パターンCでは、パターンAと同一の位置にノイズ源があり、また音声源が音声用マイクロフォン111と参照音用マイクロフォン112との中間の位置にある場合を示している。なお、
図7ではノイズ源を点状の音源として表しているが、複数のノイズ源が存在し、複数のノイズが混じった環境として扱うこともできる。
【0106】
ノイズ源におけるノイズ信号をN(t)、音声源における音声信号をV(t)、音声用マイクロフォン111で収音された収音信号をRa(t)、Rb(t)、参照音用マイクロフォン112で収音された収音信号をXa(t)、Xb(t)とする。また、音声用マイクロフォン111と参照音用マイクロフォン112との間の伝達特性をH、音声用マイクロフォン111で収音される音声およびノイズの空間音響特性モデルをそれぞれCV1、CN1、参照音用マイクロフォン112で収音される音声およびノイズの空間音響特性モデルをそれぞれCV2、CN2とする。また、ノイズ低減処理後の出力信号をY(t)とする。なお、tは時間を表す変数である。
【0107】
パターンAの場合、音声用マイクロフォン111で収音された収音信号Ra(t)および参照音用マイクロフォン112で収音された収音信号Xa(t)は、次のように表すことができる。
【0108】
Ra(t)=CN1×N(t) ・・・式3
Xa(t)=CN2×N(t) ・・・式4
【0109】
ここで、ノイズ推定信号25と音声用マイクロフォン111で収音された収音信号Ra(t)とが一致するので、伝達特性Hを用いると、次のように表すことができる。
Ya(t)=Ra(t)−H×Xa(t)=0 ・・・式5
【0110】
よって、式3〜式5を用いることで、次の関係を導くことができる。
【0112】
次に、音声源が加えられたパターンBについて説明する。適応フィルタ14にて生成されるノイズ推定信号の伝達特性Hは、ノイズ成分のみに適応されると仮定すると、モデルが共通であるので伝達特性Hに変化はない。よって、パターンBの場合は、下記のように表すことができる。
【0113】
Rb(t)=CN1×N(t)+CV1×V(t) ・・・式7
Xb(t)=CN2×N(t)+CV2×V(t) ・・・式8
【0114】
そして、式5〜式8を用いることで、下記の式を導くことができる。
【0115】
Yb(t)=CN1×N(t)+CV1×V(t)−H×(CN2×N(t)+CV2×V(t))
=CV1×V(t)−H×CV2×V(t) ・・・式9
【0116】
パターンBのように、話者(音声源)が音声用マイクロフォン111側から音声を発している場合は、空間音響特性CV2は空間音響特性CV1と比べて大きく減衰し、更に音声の到来時間差により遅延量が加わる。よって、式9におけるノイズ推定信号に含まれる音声成分である"H×CV2×V(t)"は小さくなり、ノイズ低減処理後の出力信号Yb(t)の音声の明瞭性は維持される。
【0117】
一方、パターンCの場合は、話者(音声源)の位置が音声用マイクロフォン111と参照音用マイクロフォン112の中間の位置となっている。この場合、空間音響特性はCV1≒CV2となり、式9におけるノイズ推定信号に含まれる音声成分である"H×CV2×V(t)"が大きくなるため、ノイズ低減処理後の出力信号Yb(t)の音声の音圧レベルが低下する。
【0118】
伝達特性Hはノイズ源の位置に依存する。例えば、ノイズ源がパターンCの音声源と同じように音声用マイクロフォン111と参照音用マイクロフォン112の中間の位置に存在している場合や、支配的なノイズ源がなく全方向からのノイズ成分に対して均等に適応する場合は、伝達特性HがH≒1となり、出力信号Yb(t)は参照信号Xb(t)に近い信号となる。このような条件が重なることで、音声源の位置に応じ音声の音圧レベルは大きく低下し、音声の明瞭性が損なわれる。
【0119】
このような音声の音圧レベルの低下は、空間音響特性CV1と空間音響特性CV2の差が大きく、更に音声源の空間音響特性CV2(又はCV1)とノイズ源の空間音響特性CN2(又はCN1)の差が大きい場合には生じにくい。よって、これ以外の場合、つまり、空間音響特性CV1と空間音響特性CV2の差が小さい場合や、音声源の空間音響特性CV2(又はCV1)とノイズ源の空間音響特性CN2(又はCN1)の差が小さい場合を検出することで、音声の音圧レベルが低下する現象を予測することができる。
【0120】
しかしながら、ノイズ環境下において各々のマイクロフォンにおける音声の伝達特性を正確に求めることは困難であり、現実的ではない。そこで、本実施の形態にかかるノイズ低減装置では、空間音響特性CV1、CV2を求める代わりに、音声方向判定部12を用いて音声の到来方向を検出している。
【0121】
例えば、音声方向判定部12は、収音信号21と収音信号22の位相差に基づいて音声の到来方向を判定する。つまり、収音信号21と収音信号22の位相差がプラスの場合は、音声源が音声用マイクロフォン111側にあると判定することができる(パターンB)。また、位相差がマイナスの場合は、音声源が参照音用マイクロフォン112側にあると判定することができる。また、位相差が所定の範囲内である場合は、音声源が音声用マイクロフォン111と参照音用マイクロフォン112の中間付近にあると判定することができる(パターンC)。
【0122】
また、例えば、音声方向判定部12は、収音信号21の大きさと収音信号22の大きさとの差であるパワー差に基づいて音声の到来方向を判定する。つまり、収音信号21と収音信号22のパワー差がプラスの場合は、音声源が音声用マイクロフォン111側にあると判定することができる(パターンB)。また、パワー差がマイナスの場合は、音声源が参照音用マイクロフォン112側にあると判定することができる。また、パワー差が所定の範囲内である場合は、音声源が音声用マイクロフォン111と参照音用マイクロフォン112の中間付近にあると判定することができる(パターンC)。
【0123】
そして、本実施の形態にかかるノイズ低減装置では、ノイズ低減処理後の出力信号29において音声の音圧レベルが低下する可能性があると判定された場合、ノイズ低減量調整部16においてノイズ推定信号25を低減することで、ノイズ低減処理部13におけるノイズ低減量を低減している。これにより、ノイズ低減後の出力信号29において音声の音圧レベルが低下することを抑制することができる。換言すると、式9におけるノイズ推定信号に含まれる音声成分である"H×CV2×V(t)"をノイズ低減量調整部16において低減することで、ノイズ低減後の出力信号29において音声の音圧レベルが低下することを抑制することができる。よって、本実施の形態にかかるノイズ低減装置により、収音信号(音声信号)21に含まれるノイズを低減しつつ、出力信号29の音圧レベルの低下を抑制することができるノイズ低減装置を提供することができる。
【0124】
ここで、ノイズ低減処理後の出力信号29において音声の音圧レベルが低下する可能性があると判定された場合とは、例えば、音声源が音声用マイクロフォン111と参照音用マイクロフォン112の中間付近にあると判定された場合(パターンC)や、音声源が参照音用マイクロフォン112側にあると判定された場合などである。
【0125】
図9は、従来技術にかかるノイズ低減装置を用いた際の、音声用マイクロフォンに対する音声源の位置と、ノイズ低減処理後の出力信号の音圧レベルとの関係を示す図である。
図10は、音声用マイクロフォンに対する音声源の位置と、音声用マイクロフォンで収音された収音信号の音圧レベルとの関係を示す図である。ノイズ低減装置の音声用マイクロフォンおよび参照音用マイクロフォンは、
図7に示すように、互いに逆向きになるように配置されている。音声用マイクロフォンに対する音声源の位置は、ノイズ低減装置を中心として、音声用マイクロフォンと参照音用マイクロフォンとを結んだ直線上の音声用マイクロフォン側に音声源がある場合を0度とし、当該直線上の参照音用マイクロフォン側に音声源がある場合を180度としている。音声用マイクロフォンおよび参照音用マイクロフォンの中間の位置にある場合は、90度または270度となる。
図9、
図10では、話者が同じフレーズを発話しながら、ノイズ低減装置を中心としてノイズ低減装置と一定の距離を保ちながら360度移動した場合の出力信号の音圧レベルを測定した結果を示している。また、
図9に示す関係を測定する場合、ノイズ源の位置とノイズ低減装置の位置を固定している。
【0126】
図10に示すように、音声源が90度付近から270度付近に位置している場合(つまり音声源が音声用マイクロフォンの側面や背面にある場合)は、音声源が音声用マイクロフォンの影になる影響や音声源と音声用マイクロフォンとの距離が遠くなる影響で、若干の音圧レベルの低下が見られる。しかし、音声用マイクロフォンで収音された収音信号自体の音圧レベルが大きく低下することはないため、音声の明瞭性が損なわれることはない。
【0127】
一方、
図9に示すように、従来技術にかかるノイズ低減装置を用いてノイズ低減処理を実施した場合は、全体としてノイズレベルが低下するが、参照音用マイクロフォンに混入する音声信号の影響が如実に現れる。つまり、
図9に示す波形と
図10に示す波形を比較すると、音声源が90度付近および270度付近にあるとき、つまり、音声源が音声用マイクロフォンおよび参照音用マイクロフォンの中間の位置付近にあるときに、出力信号の音圧レベルが低下している。これは、音声源が90度付近および270度付近にあるときには、参照音用マイクロフォンにも音声成分が混入するためである(
図7のパターンC参照)。なお、
図9では、音声源が180度付近にある場合であっても出力信号の音圧レベルが低下していないように見える。しかし、この場合の出力信号は音声の逆位相成分(ノイズ推定信号に対応する)を含むため、実際の音声は不明瞭となる場合もある。また、ノイズ源の方向により音声が減衰する角度も異なるものの、参照音用マイクロフォンに音声が混入することで、音声の音圧レベルの低下や明瞭性の低下は避けられない。
【0128】
これに対して、本実施の形態にかかるノイズ低減装置を用いた場合は、
図11に示すように、音声源が90度付近および270度付近にある場合であっても、出力信号の音圧レベルが著しく低下することはない。すなわち、本実施の形態にかかるノイズ低減装置では、音声方向判定部12を用いて音声の到来方向を判定し、例えば音声源が90度付近および270度付近にあると判定された場合、ノイズ低減量調整部16においてノイズ推定信号25を低減している。これにより、ノイズ低減処理部13におけるノイズ低減量を低減することができ、結果的に音声の音圧レベルを音声源の位置に依存することなくほぼ一定に保つことができる。
【0129】
図12は、音声源の位置に対するノイズ低減量調整値の一例を示す図である。本実施の形態にかかるノイズ低減装置では、例えば、
図12に示す音声源の位置に対するノイズ低減量調整値をノイズ低減量調整部16において記憶しておく。そして、ノイズ低減量調整部16は、音声方向判定部12を用いて判定された音声の到来方向(音声源の位置)により、記憶した音声源の位置に対するノイズ低減量調整値を参照して、ノイズ推定信号25に乗算するノイズ低減量調整値を決める。ここで、音声源の位置は、音声用マイクロフォンに対する音声の入射角に対応しており、収音信号21および収音信号22の位相差やパワー差に対応している。ノイズ低減量調整値は、例えば0以上1以下の値とする。ノイズ低減量調整部16は、ノイズ推定信号25に0以上1以下のノイズ低減量調整値を乗算することで、ノイズ推定信号25の大きさを調整することができる。なお、ノイズ低減量調整値を1とした場合はノイズ推定信号25がそのままの大きさで出力され、ノイズ低減量調整値を0とした場合はノイズ推定信号25がゼロとなる(つまり、ノイズ低減処理が実施されない)。
【0130】
図12では、音声源が音声用マイクロフォン側から参照音用マイクロフォン側へ移動するに従い、ノイズ低減量調整値を小さくしている。つまり、音声源が約60度の位置から約90度の位置に近づくにつれて、また約300度の位置から約270度の位置に近づくにつれてノイズ低減量調整値を徐々に小さくし、約90度〜約270度の範囲ではノイズ低減量調整値を約0.2程度としている。
【0131】
また、音声方向情報24(位相差やパワー差)が急激に変化した場合は、ノイズ低減量調整値も急激に変化する。このため、出力信号の音圧レベルも急激に変化し、使用者に違和感を与える可能性がある。よって、このような場合は、所定の時定数を用いてノイズ低減量調整値が急激に変化することを抑制する緩和処理を実施してもよい。時定数をT、基準となるノイズ低減量調整値をAbase、緩和処理後のノイズ低減量調整値をA、緩和処理直前のノイズ低減量調整値をAlastとすると、例えば緩和処理は次の式を用いて実施する。
【0132】
A=Abase×(1/T)+Alast×((T−1)/T) ・・・ 式10
【0133】
背景技術で説明したように、ノイズ低減処理技術では、例えば、音声を主に収音するマイクロフォンによって収音された音声信号から、ノイズを主に収音するマイクロフォンによって収音されたノイズ信号(参照信号)を差し引くことで、音声信号に含まれるノイズ成分を除去している。
【0134】
しかしながら、主として音声成分を含む音声信号と主としてノイズ成分を含む参照信号とを用いてノイズ低減処理を実施する場合、ノイズ低減装置の使用状況によっては、参照信号に音声成分も混入する場合があった。このように参照信号に音声成分が混入すると、ノイズ低減処理を実施した際に音声信号に含まれる音声成分もキャンセルされてしまい、ノイズ低減処理後の信号の音圧レベルが低下するという問題があった。
【0135】
すなわち、例えば、作業用機械の動作音などのかなり大きな騒音が発生している工場内や雑踏や交差点などで用いられることが多い、トランシーバーのような携帯型の無線通信装置(
図14参照)では、マイクロフォンに混入するノイズ成分の低減が必要となる。携帯電話と違い、本体側のスピーカーから送信される音声を耳元から離した状態で聞くといった使われ方をする無線通信装置は、一般的に身体から離れた状態で所持する。また、無線通信装置の持ち方にも様々なスタイルがある。
【0136】
更に、無線通信装置本体から収音部と再生部を分離し携帯性を高めたスピーカーマイクロフォン装置(
図13に示す音声入力装置を参照)は、利便性のある使用形態を提供可能である。例えば、音声入力装置を首からぶら下げたり肩に置いたりなど、話者がマイクロフォンに向かうこと意識することなく会話を行うような使用形態や、音声入力装置の表側よりむしろ音声入力装置の背面に近い方向からしゃべるような使用形態もある。このような場合は、音声の到来方向は理想的な到来方向(例えば、音声用マイクロフォンの正面方向)とはならない。
【0137】
したがって、トランシーバー(音声入力装置や無線通信装置)のような装置に対して適応フィルタを用いたノイズ低減処理を実施する場合は、参照信号にも音声成分が含まれることを前提としなければならず、音声信号の音圧レベルの低下を抑制する技術が必要となる。
【0138】
特許文献1には、適応フィルタにおけるフィルタ係数を観察し、音声成分が打ち消される状態を検出することで、音声の明瞭性を維持する方法が開示されている。この方法によれば、主として音声を収音する音声用マイクロフォンと、音声の到来方向に対し感度が低い主としてノイズを収音する参照音用マイクロフォンを配置している。そして、適応フィルタにて処理をする際に、音声の到来方向に近い成分をノイズキャンセル信号として生成する状況になった場合、適応フィルタ係数全体にかかる利得因子を調整して適応フィルタ処理に制限をかけることで、音声成分の音圧レベルの低下を防止している。
【0139】
しかしながら、特許文献1にかかる技術では、音声用マイクロフォン側に音声源が存在することを前提としている。また、参照音用マイクロフォンに指向性を持たせているため、参照音用マイクロフォンに音声成分が混入する可能性があるトランシーバーで使用することは困難である。
【0140】
また、特許文献2にかかる技術では、誤差信号の音圧レベルまたは入力信号の音圧レベルを調整することで音声信号の音圧レベルの低下を防止している。しかしながら、音声の音圧レベルを維持するために雑音信号である誤差信号の音圧レベルを制御するか、又は雑音信号が混入した入力信号(遅延信号を含む)の音圧レベルを制御するかの何れかを実施するため、音声信号の音圧レベルを維持する一方、ノイズ低減効果が得られないという問題がある。
【0141】
更に、特許文献2に開示されている適応フィルタを用いたノイズ低減処理では、自らの信号を用いてフィルタリング処理によるノイズキャンセル処理を実施している。このため、混入する音声信号の影響を強く受け、音声信号区間中のノイズ成分を減ずることができない。また、システムの構成上、適応フィルタ出力信号に誤差信号を加算してシステム出力信号としている。しかし、音声信号区間中の適応フィルタ出力信号若しくは入力信号と誤差信号をそのまま加算してもノイズ低減効果は得られず、音圧レベル制御を付加したからといって音声の明瞭度は向上しない。
【0142】
このように、特許文献1や特許文献2に開示されている技術を用いたとしても、音声の音圧レベルを十分に維持することができないという問題があった。
【0143】
そこで本実施の形態にかかるノイズ低減装置では、音声方向判定部12で判定された音声の到来方向に応じて、ノイズ低減処理部13におけるノイズ低減量を調整している。つまり、音声源が音声用マイクロフォン111と参照音用マイクロフォン112の中間付近にあると判定された場合や、音声源が参照音用マイクロフォン112側にあると判定された場合に、ノイズ低減処理部13におけるノイズ低減量を低減している。これにより、ノイズ低減処理後の出力信号29において音声の音圧レベルが低下することを抑制することができる。
【0144】
また、本実施の形態にかかるノイズ低減装置では、加算器17と加算器18を独立に設けている。よって、適応フィルタ14の係数の更新に必要なフィードバック信号(誤差信号)26は、ノイズ低減量調整部16におけるノイズ低減量の調整の影響を受けることはない。よって、周囲のノイズ信号に随時適応するように適応フィルタ14の係数を更新することができるので、適応フィルタ14は常に最大限の能力を発揮することができる。したがって、話者が複数いる場合、つまり音声の到来方向が複数ある場合であっても、話者の位置が良好な条件を満たしていれば、適切にノイズ低減処理を実施することができる。また、仮に話者の位置が良好な条件から外れていたとしても、音声方向情報24に応じてノイズ低減処理部13におけるノイズ低減量を低減することで、音声の音圧レベルを維持することができる。よって、様々な環境下においても十分なノイズ低減効果を発揮しつつ、音声の明瞭度を向上させることができるノイズ低減装置を提供することができる。
【0145】
次に、本実施の形態にかかるノイズ低減装置を用いた音声入力装置について説明する。
図13は、本実施の形態にかかるノイズ低減装置を用いた音声入力装置500の一例を示す図である。
図13(a)は、音声入力装置500の前面図であり、
図13(b)は、音声入力装置500の背面図である。
図13に示すように、音声入力装置500はコネクタ503を介して無線通信装置510に接続可能に構成されている。無線通信装置510は一般的な無線機であり、所定の周波数において他の無線通信装置と通信可能に構成されている。無線通信装置510には音声入力装置500を介して話者の音声が入力される。
【0146】
音声入力装置500は、本体501、コード502、及びコネクタ503を有する。本体501は、話者の手で把持されるのに適するサイズ及び形状に構成されており、マイクロフォン、スピーカー、電子回路、ノイズ低減装置を内蔵する。
図13(a)に示すように、本体501の前面にはスピーカー506および音声用マイクロフォン505が設けられている。
図13(b)に示すように、本体501の背面には参照音用マイクロフォン508およびベルトクリップ507が設けられている。本体501の頂面には、LED509が設けられている。本体501の側面にはPTT(Push To Talk)504が設けられている。LED509は、音声入力装置500による話者の音声の検出状態を話者に対して報知する。PTT504は、無線通信装置510を音声送信状態とするためのスイッチであり、突起状部分が筐体内に押し込まれることを検出する。
【0147】
本実施の形態にかかるノイズ低減装置1'(
図8参照)は音声入力装置500に内蔵されており、ノイズ低減装置1'が備える音声用マイクロフォン111が音声入力装置500の音声用マイクロフォン505に対応し、ノイズ低減装置1'が備える参照音用マイクロフォン112が音声入力装置500の参照音用マイクロフォン508に対応している。また、ノイズ低減装置1'から出力される出力信号29は、音声入力装置500のコード502を経由して無線通信装置510に供給される。すなわち、音声入力装置500は、ノイズ低減装置1'でノイズ低減処理された後の出力信号29を、無線通信装置510に供給する。よって、無線通信装置510から他の無線通信装置に送信される音声はノイズ低減処理された音声となる。
【0148】
次に、本実施の形態にかかるノイズ低減装置を用いた無線通信装置(トランシーバー)600について説明する。
図14は、本実施の形態にかかるノイズ低減装置を用いた無線通信装置600の一例を示す図である。
図14(a)は、無線通信装置600の前面図であり、
図14(b)は、無線通信装置600の背面図である。
図14に示すように、無線通信装置600は、入力ボタン601、表示部602、スピーカー603、音声用マイクロフォン604、PTT(Push To Talk)605、スイッチ606、アンテナ607、参照音用マイクロフォン608、および蓋609を備える。
【0149】
本実施の形態にかかるノイズ低減装置1'(
図8参照)は無線通信装置600に内蔵されており、ノイズ低減装置1'が備える音声用マイクロフォン111が無線通信装置600の音声用マイクロフォン604に対応し、ノイズ低減装置1'が備える参照音用マイクロフォン112が無線通信装置600の参照音用マイクロフォン608に対応している。また、ノイズ低減装置1'から出力される出力信号29は、無線通信装置600の内部回路において高周波処理されて、アンテナ607から他の無線通信装置に無線送信される。ここで、ノイズ低減装置1'から出力される出力信号29はノイズ低減処理が実施された信号であるので、他の無線通信装置に送信される音声はノイズ低減処理された音声となる。ユーザによるPTT605の押下により音の送信が開始されたときに、ノイズ低減処理を開始し、ユーザがPTT608の押下を中止して、音の送信が終了したときに、ノイズ低減処理を終了する。
【0150】
以上、本発明を上記実施形態に即して説明したが、上記実施形態の構成にのみ限定されるものではなく、本願特許請求の範囲の請求項の発明の範囲内で当業者であればなし得る各種変形、修正、組み合わせを含むことは勿論である。例えば、参照音用マイクロフォンは2つ以上の参照音用マイクロフォンから1つを選択するものであってもよい。