【文献】
藤枝大他,ミュージカルノイズを軽減したスペクトル減算法,電子情報通信学会2012年基礎・境界ソサイエティ大会講演論文集,2012年 8月28日,p.64
(58)【調査した分野】(Int.Cl.,DB名)
上記音声らしさ算出手段が、所定の広義単調増加な非線形関数を用いて、上記平滑化音声対雑音比を、上記音声らしさを示す値に変換することを特徴とする請求項3に記載の雑音抑圧装置。
上記第1の抑圧ゲインを周波数軸及び時間軸の両方向に平滑化して上記第2の抑圧ゲインを算出する抑圧ゲイン平滑化手段を備えることを特徴とする請求項1〜6のいずれかに記載の雑音抑圧装置。
【背景技術】
【0002】
非特許文献1には、入力音声信号のスペクトル(入力スペクトル)から雑音成分のスペクトル(雑音スペクトル)を減算するスペクトルサブトラクション(SS:Spectral Subtraction)法が開示されている。
【0003】
また、非特許文献2には、音声成分が強調されるように選定されたスペクトルゲインを入力スペクトルに乗算するMMSE−STSA(Minimum Mean Square Error Short Time Spectral Amplitude)法が開示されている。
【0004】
非特許文献1及び2に記載のいずれの方法も入力スペクトルに重畳されている雑音スペクトルを必要とするが、雑音スペクトルは別途推定される。推定された雑音スペクトルには推定誤差が含まれる。この推定誤差の影響によって、非特許文献1や非特許文献2の記載技術のように周波数領域で雑音を抑圧すると、抑圧後のスペクトル(出力スペクトル)には時間軸上及び周波数軸上に分散的に点在する成分(孤立周波数成分)が残ってしまう。この孤立周波数成分は、耳障りなミュージカルノイズとして受聴者に知覚される。
【0005】
上記のようなミュージカルノイズを軽減するため、特許文献1及び特許文献2には、入力スペクトルの特性に応じて、相異なる2つの雑音抑圧方法を切り替える技術が開示されている。
【0006】
特許文献1の記載技術は、雑音成分が支配的に存在している区間か否かを判定する区間判定手段と、第1のグループ数のグループ毎に周波数帯域をまとめて雑音成分を抑圧する第1の雑音抑圧手段と、第1のグループ数より多い第2のグループ数のグループ毎に周波数帯域をまとめて雑音成分を抑圧する第2の雑音抑圧手段とを備え、区間判定手段が「雑音成分が支配的である」と判定した場合には第1の雑音抑圧手段によって雑音成分を抑圧し、区間判定手段が「雑音成分が支配的でない」と判定した場合には第2の雑音抑圧手段が雑音成分を抑圧するというものである。第1の雑音抑圧手段は、1つのグループにグループ化する周波数ビン数が少ない(周波数解像度が粗い)ので、孤立周波数成分が生じることを防ぎ、その結果としてミュージカルノイズを軽減することができるが、音声成分は歪んでしまう。一方、第2の雑音抑圧手段は、第1のグループ数よりもグループ化する周波数ビン数が多い(周波数解像度が細かい)ので、音声成分は歪みづらいが、孤立周波数成分が生じるため、雑音成分が支配的な区間ではミュージカルノイズが生じてしまう。したがって、特許文献1の記載技術は、雑音成分が支配的な区間か否かに応じてこれらの2つの雑音抑圧手段を切り替えることで、ミュージカルノイズの発生と音声成分の歪みとの両方を軽減しようとしている。
【0007】
特許文献2の記載技術は、音響信号(スペクトル)の強度の度数分布における尖度が、雑音抑圧処理の前後で変化した度合を示す尖度指標値を算出する尖度指標値算出手段と、SS法を用いる第1の雑音抑圧手段と、MMSE−STSA法を用いる第2の雑音抑圧手段とを具備しており、尖度指標値は第1の雑音抑圧手段と第2の雑音抑圧手段との両方に対して算出し、尖度指標値が小さい方の雑音抑圧手段によって雑音成分を抑圧するものである。つまり、尖度指標値は、雑音成分の抑圧後に生じるミュージカルノイズの量と正の相関を有する。従って、特許文献2の記載技術は、尖度指標値に応じてこれら2つの雑音抑圧手段を切り替えることで、ミュージカルノイズの発生を軽減しようとしている。
【発明を実施するための形態】
【0019】
(A)第1の実施形態
以下では、本発明に係る雑音抑圧装置、方法及びプログラムの第1の実施形態を、図面を参照しながら詳細に説明する。
【0020】
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る雑音抑圧装置の内部構成を示すブロック図である。第1の実施形態の雑音抑圧装置100は、CPUが実行するソフトウェア(雑音抑圧プログラム)として実現することも可能であり、また、DSP(Digital Signal Processor)、ASIC(Application Specific IC)、PLD(Programmable Logic Device)などの電子回路を利用して実現することも可能であるが、機能的には、
図1で表すことができる。なお、
図1は、第1の実施形態の雑音抑圧装置100における雑音抑圧処理の流れを示すフローチャートと見ることもできる。
【0021】
図1において、第1の実施形態に係る雑音抑圧装置1は、周波数解析手段101、雑音推定手段102、SNR(Signal−to−Noise Ratio)算出手段103、SNR平滑化手段104、音声らしさ算出手段105、抑圧ゲイン算出手段106、抑圧ゲイン合成手段107、乗算手段108、波形復元手段109を有する。
【0022】
雑音抑圧装置100には、デジタル音声信号でなる入力音声が入力される。例えば、マイクロフォンが音声を捕捉して得たアナログ音声信号をA/D変換器でデジタル変換したものが入力音声であっても良い。また、通信回線を介して転送されたデジタル音声信号が入力音声であっても良い。さらに、記録媒体から読み出したデジタル音声信号が入力音声であっても良い。
【0023】
周波数解析手段101は、所定の周波数解析方法で、入力音声を周波数解析し、入力スペクトルを算出するものである。周波数解析方法は、特に限定されるものではなく様々な手法を広く適用することができ、例えばFFT(Fast Fourier Transform)が好適である。この実施形態では、FFTを用いる場合を例示する。しかし、周波数解析方法は、これに限定されることなく、FFT以外に、Wavelet変換や直交ミラーフィルタバンク等を用いるようにしても良い。
【0024】
また、周波数解析手段101により得られる入力スペクトルは、複素数である。以下、当該入力スペクトルの各周波数帯域のパワーを算出し、スペクトルとして構成したものを入力パワースペクトルと称して言及する。
【0025】
周波数解析手段101は、得られた入力スペクトルを、雑音推定手段102、SNR算出手段103、抑圧ゲイン算出手段106及び乗算手段108に与える。
【0026】
雑音推定手段102は、周波数解析手段101からの入力スペクトル中に含まれている雑音成分を周波数帯域毎に推定し、周波数帯域毎の推定パワースペクトルを算出するものである。また、雑音推定手段102は、得られた雑音パワースペクトルをSNR算出手段103及び抑圧ゲイン算出手段106に与える。
【0027】
ここで、雑音推定手段102における雑音推定方法は、例えば、参考文献1(R.Martin,“Spectral Subtraction based on minimum statistics”,in Proc. EUSIPCO,pp.1182−1185,1994)に記載される技術を用いることができるが、これに限定されるものではない。なお、多くの雑音推定方法は、雑音パワースペクトルを算出するものであり、雑音スペクトルが必要な場合には、当該雑音パワースペクトルを各周波数帯域の平方根を算出してスペクトルとして構成する雑音スペクトルを得るようにしても良い。また、もし使用した雑音推定方法が、雑音スペクトルを算出する場合には、雑音パワースペクトルを得るために、当該雑音スペクトルの各周波数帯域のパワーを算出してスペクトルとして構成したものを雑音パワースペクトルとしても良い。いずれの方法を用いる場合でも、雑音スペクトルの各周波数帯域は振幅を表す実数値で与えられる。
【0028】
SNR算出手段103は、周波数解析手段101からの入力パワースペクトルと、雑音推定手段102からの雑音パワースペクトルとを受け取り、周波数帯域毎に、入力パワースペクトルを雑音パワースペクトルで除してSNRを算出する。SNR算出手段103は、得られたSNRをSNR平滑化手段104に与える。第1の実施形態では、SNR算出手段102が観測信号としての入力パワースペクトルを雑音パワースペクトルで除したものをSNRとして算出する場合を例示する。しかし、SNR算出手段102は、音声成分のパワースペクトルを観測信号としての入力パワースペクトルで除したものを算出するようにしても良い。
【0029】
SNR平滑化手段104は、SNR算出手段103から与えられたSNRを周波数軸と時間軸との両方向に平滑化して平滑化SNRを算出するものである。SNR平滑化手段104は、得られた平滑化SNRを音声らしさ算出手段105に与える。このように、音声らしさを示す値を算出するための材料であるSNRを周波数軸及び時間軸の両方向に平滑化することで、後述する抑圧ゲイン合成手段107において算出される最終的な第3の抑圧ゲインの特性の急激な変化を抑えることができるので、聴感上の不自然さをより抑えることができる。
【0030】
また、SNR平滑化手段104は、周波数軸及び時間軸の両方向にSNRを平滑化するが、周波数軸、時間軸のいずれかを先に実施するようにしても良いし、周波数軸及び時間軸を同時に実施するようにしても良いが、周波数軸方向にSNRを平滑化した後に時間軸方向に平滑化する構成が好適に用いられる。
【0031】
さらに、周波数軸方向と時間軸方向への平滑化方法はいずれも同じ方法を適用するようにしても良いし、又はそれぞれ異なる方法を適用するようにしても良い。周波数軸方向と時間軸方向との平滑化方法はそれぞれ、何ら制限されるものではなく種々の方法を適用することができるが、周波数軸方向への平滑化には移動平均法が好適であり、時間軸方向への平滑化には時定数フィルタが好適である。なお、両方向に同時に平滑化を実施する場合には、2次元フィルタを用いることで実現できる。以下、移動平均法と時定数フィルタについて、それぞれ簡単に説明する。
【0032】
移動平均法は、平滑化される値をpi(i=0,1,3,…,I−1)とし、平滑化窓をwj(j=−J1,…,J2)、平滑化された値をqiとすると、式(1)のように表現することができる。ここで、I>0、J1>0,J2>0で、平滑化窓の長さはJ=J1+J2+1となり、式(1)のmin{α,β}は、αとβのうち小さい方を選択する演算を表す。平滑化窓は矩形窓関数やハミング窓関数によって算出される。周波数方向への平滑化に移動平行法を用いる場合、J1=J2とすることが望ましく、平滑化の度合いはJが200〜400Hzに相当する長さとするのが良い。また、時間軸方向への平滑化に移動平均法を用いる場合、J1=0とすれば未来の値を使用しない構成となり、平滑化の度合いはJ=J2+1が50〜100ミリ秒に相当する長さとすることが良い。
【数1】
【0033】
時定数フィルタは、平滑化される値をpi、時定数をc(0<c<1)、平滑化された値をqiとすると、式(2)のように表すことができる。式(2)において、時定数cが1に近いほど、平滑化の度合いが強いことを意味し、より滑らかな値が得られる。時定数フィルタは、時間軸方向への平滑化には好んで用いられるが、周波数軸方向に用いられることは少ない。時間軸方向への平滑化に時定数フィルタを用いる場合、平滑化の度合いは時定数cが0.7〜0.9程度とするのが良い。
【数2】
【0034】
音声らしさ算出手段105は、SNR平滑化手段104から与えられた平滑化SNRを所定の広義単調増加な非線形関数で変換した値を、音声らしさを示す値として算出する。音声らしさ算出手段105は、得られた音声らしさを示す値を、抑圧ゲイン合成手段107に与える。
【0035】
ここで、音声らしさを示す値は、周波数帯域毎の入力スペクトル中に音声成分が存在している度合いをいう。第1の実施形態では、音声らしさ算出手段105が、SNR平滑化手段104によって平滑化SNRを、非線形関数の値に変換することで、周波数帯域毎の入力スペクトル中に存在している音声成分の度合いを算出する。
【0036】
図2は、第1の実施形態に係る音声らしさ算出手段105において用いられる非線形関数を説明する説明図である。
【0037】
図2において、縦軸は非線形関数の値を示し、横軸は平滑化SNRの値を示す。
図2の非線形関数は、広義単調増加な関数であり、音声らしさを示す値は0以上1以下の値に制限されている。
図2において、平滑化SNRの値がr1からr2までの値のときには、平滑化SNRの値が大きくなるにつれて、非線形関数の値は0以上1以下の値を取る。平滑化SNRの値がr1以下のときには、非線形関数の値が0の値を取り、平滑化SNRの値がr2以上のときには、非線形関数の値が1の値を取る。
【0038】
音声らしさ算出手段105は、例えば
図2に例示する非線形関数を用いて、SNRを、音声らしさを示す値に変換することが好適であるが、任意の広義単調増加な関数を用いて、音声らしさを示す値を算出するようにしても良い。特に、値域が0以上1以下の関数に限定する場合にはシグモイド関数を用いるのも良い選択である。
図2では、r1は1〜4程度の値とすることが良く、r2は12〜20程度の値とすることが良い。
【0039】
なお、SNR算出手段103が、音声成分のパワースペクトルを観測信号としての入力パワースペクトルで除したものを求めるようにしても良く、その場合でも、SNR平滑化手段104は、SNR算出手段103からの出力を周波数軸方向及び時間軸方向への平滑化を行う。この場合でも、音声らしさ算出手段105は、上記と同様にして、広義単調増加な所定の非線形関数を用いて、周波数帯域毎に、平滑化された値を非線形関数の値に変換するようにしても良い。
【0040】
抑圧ゲイン算出手段106は、周波数帯域毎に、周波数解析手段101からの入力パワースペクトルと、雑音推定手段102からの雑音パワースペクトルとを用いて、第1の抑圧ゲインを算出するものである。抑圧ゲイン算出手段106は、得られた第1の抑圧ゲインを抑圧ゲイン合成手段107に与える。
【0041】
抑圧ゲイン合成手段107は、周波数帯域毎に、抑圧ゲイン算出手段106から第1の抑圧ゲインと、予め定められた所定の定数値である第2の抑圧ゲインとを、音声らしさを示す値に基づいて合成して、第3の抑圧ゲインを算出するものである。抑圧ゲイン合成手段107は、得られた第3の抑圧ゲインを乗算手段108に与える。
【0042】
乗算手段108は、周波数解析手段101からの周波数帯域毎の入力スペクトルに、抑圧ゲイン合成手段107からの周波数帯域毎の第3の抑圧ゲインを乗じて出力スペクトルを算出するものである。乗算手段108は、得られた出力スペクトルを波形復元手段109に与える。
【0043】
波形復元手段109は、周波数解析手段101による周波数解析方法に対応して波形復元を行うものであり、乗算手段108から出力された出力スペクトルを、時間波形に変換して音声出力信号を得るものである。波形復元手段100は、得られた音声出力信号を雑音抑圧装置100の出力信号として出力する。例えば、周波数解析手段101がFFTを用いた場合、波形復元手段109はIFFT(Inverse Fast Fourier Transform)を用いて波形を復元する。
【0044】
(A−2)第1の実施形態の動作
次に、第1の実施形態に係る雑音抑圧装置100における雑音抑圧方法を、
図1を参照しながら説明する。
【0045】
雑音抑圧装置100に入力した入力音声は、周波数解析手段101に与えられる。周波数解析手段101では、所定の周波数解析方法により、入力音声から入力スペクトルを算出する。得られた入力スペクトルは、乗算手段108、SNR算出手段103、雑音推定手段102及び抑圧ゲイン算出手段106に与えられる。
【0046】
雑音推定手段102では、所定の雑音推定方法により、周波数帯域毎の入力スペクトル中に含まれる雑音成分が周波数帯域毎に推定され、推定された雑音成分の雑音パワースペクトルが算出される。得られた周波数帯域毎の雑音パワースペクトルは、SNR算出手段103及び抑圧ゲイン算出手段106に与えられる。
【0047】
SNR算出手段103では、周波数帯域毎に、入力パワースペクトルを雑音パワースペクトルで除して、周波数帯域毎のSNRが算出される。この周波数帯域毎のSNRはSNR平滑化手段104に与えられる。
【0048】
SNR平滑化手段104では、聴感上の不自然さを抑えるために、SNR算出手段103からのSNRを周波数軸及び時間軸の両方向に平滑化して、平滑化SNRが算出される。得られた平滑化SNRは、音声らしさ算出手段105に与えられる。
【0049】
上述したように、SNR平滑化手段104による周波数軸方向への平滑化及び時間軸方向への平滑化の方法は、特に限定されるものではないが、ここでは、例えば、周波数軸方向への平滑化については移動平均法を用いて行い、時間軸方向への平滑化については時定数フィルタを用いて行う場合を例示する。この場合、SNR平滑化手段104は、周波数軸方向への平滑化について、平滑化される値をpi(i=0,1,…,I−1)、平滑化窓をwj(j=−J1,…,J2)、平滑化された値をqiとすると、式(1)のように表すことができる。式(1)において、I>0、J1>0、J2>0、J1=J2とし、平滑化窓の長さJ=J1+J2+1を200〜400Hz程度に相当する長さとして、周波数軸方向への平滑化を行う。また、時間軸方向への平滑化について、平滑化される値pi、時定数をc(0<c<1)、平滑化された値をqiとすると、式(2)のように表すことができる。そして、時定数cを0.7〜0.9程度として時間軸方向への平滑化を行う。
【0050】
音声らしさ算出手段105では、所定の広義単調増加な非線形関数を用いて、平滑化されたSNRを、音声らしさを示す値に変換する。得られた音声らしさを示す値は、抑圧ゲイン合成手段107に与えられる。
【0051】
例えば、広義単調増加な非線形関数は、
図2に例示するように、平滑化SNRの値がr1からr2までの範囲で、音声らしさを示す値bkの値域が0以上1以下に制限されるようなものを用いる。このとき、
図2のr1は1〜4程度とするのが良く、r2は12〜20程度とするのが良い。
【0052】
抑圧ゲイン算出手段106では、周波数帯域毎に、入力パワースペクトルと雑音パワースペクトルとを用いて、第1の抑圧ゲインが算出される。得られた周波数帯域毎の第1の抑圧ゲインは、抑圧ゲイン合成手段107に与えられる。
【0053】
ここで、抑圧ゲイン算出手段106による第1の抑圧ゲインの算出方法は、例えば、非特許文献1に開示されているSS法や、又は非特許文献2に開示されているMMSE−STSA法等を用いることができる。SS法は、演算量が少ないが、ミュージカルノイズが多く発生する。一方、MMSE−STSA法は、ミュージカルノイズの発生量は少ないが演算量が多い。第1の実施形態では、音声成分が存在しない部分の歪みを完全に抑えることができるので、演算量の少ないSS法を用いることが好適である。
【0054】
この実施形態では、抑圧ゲイン算出手段106が、SS法を用いて第1の抑圧ゲインを算出する場合を例示する。例えば、入力スペクトルをXk、雑音スペクトルをDk、SS法に基づく抑圧ゲインをGk、抑圧係数をa、抑圧ゲインの最小値である最小抑圧ゲイン(すなわち、最大抑圧量)をGminとすると、第1の抑圧ゲインGkは式(3)のように表現することができる。kは、周波数帯域を示す番号である。ここで、max{α,β}は、αとβのうち大きい方を選択する演算である。一般には、ミュージカルノイズを抑えるために、aには1未満の値が用いられ、Gminは0.25(−12dB相当)程度の値が良く好まれる。一方、第1の実施形態に係る雑音抑圧装置100では、後述するようにミュージカルノイズが発生しないため、a=1が好適に用いられ、Gminも0.1(−20dB相当の抑圧量)や0.01(−40dB相当の抑圧量)といった小さな値を用いることが好適である。
【数3】
【0055】
抑圧ゲイン合成手段107には、音声らしさ算出手段105から音声らしさを示す値bkと、抑圧ゲイン算出手段106からの第1の抑圧ゲインGkと、所定の定数値である第2の抑圧ゲインFとが与えられる。抑圧ゲイン合成手段107は、例えば、式(4)を用いて、第3の抑圧ゲインHkを算出する。得られた第3の抑圧ゲインHkは、乗算手段108に与えられる。
【数4】
【0056】
ここで、第2の抑圧ゲインFは、任意の定数値を設定することができるが、以下に述べる理由から、SS法の最小抑圧ゲインが好適に用いられる。つまり、式(4)において、F>Gminの場合、音声成分の存在する部分は音声成分が存在しない部分よりも強く抑圧されるため、不自然に音声成分が強調されてしまう。また、F<Gminの場合、音声成分の存在する部分において雑音成分抑圧後に残留する雑音成分が不自然に受聴者に知覚される。なお、第2の抑圧ゲインFは、図示しない記憶部に記憶されているものであっても良いし、又は必要に応じてユーザ操作により設定されるものであっても良い。
【0057】
上述したように、音声らしさを示す値bkは0以上1以下の実数である。従って、第1の抑圧ゲインGkと第2の抑圧ゲインFには、0〜1の実数で与えられる係数を乗じることになるので、第3の抑圧ゲインHkの特性の急激な変化による不自然さは受聴者に知覚されない。
【0058】
音声らしさを示す値bkは、周波数帯域毎に算出される。従って、第1の抑圧ゲインGkと第2の抑圧ゲインFとの合成割合は周波数帯域毎に異なるため、抑圧ゲインの切り替わりによる不自然さは受聴者に知覚されない。
【0059】
第2の抑圧ゲインFは定数値であるから、第2の抑圧ゲインFを乗じることは入力音声信号のボリュームを変更しているだけであり、歪みはまったく生じない。したがって、音声が存在する部分では第1の抑圧ゲインGkを乗じることで音声成分を強調するので従来技術と同等の音質が得られ、音声が存在しない部分では第2の抑圧ゲインFを乗じることでボリュームを小さくするので信号の歪み(ミュージカルノイズを含む)が全く生じない。
【0060】
乗算手段108では、周波数解析手段101からの周波数帯域毎の入力スペクトルに、抑圧ゲイン合成手段107からの周波数帯域毎の第3の抑圧ゲインを乗じて出力スペクトルが算出され、得られた出力スペクトルが波形復元手段109に与えられる。
【0061】
波形復元手段109では、乗算手段108からの出力スペクトルを時間波形に変換して音声出力信号が得られ、その音声出力信号が雑音抑圧装置100の出力信号として出力される。
【0062】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、音声成分が存在する部分では音声成分を強調しながら従来技術と同等の音質を得ることができ、音声成分が存在しない部分では出力信号の歪みが全く生じない。
【0063】
(B)第2の実施形態
次に、本発明に係る雑音抑圧装置、方法及びプログラムの第2の実施形態を、図面を参照しながら詳細に説明する。
【0064】
上述した第1の実施形態では、第2の抑圧ゲインが予め定められた所定の定数値である場合を例示した。しかし、第1の抑圧ゲインによる音声成分が存在する部分における雑音の抑圧のされ方は、入力信号に含まれる音声成分と雑音成分との性質によって変化するため、値が変化しない第2の抑圧ゲインを用いると音声成分が存在する部分と存在しない部分とで音質の差が生じ得る。
【0065】
そこで、第2の実施形態では、第1の抑圧ゲインに基づいて第2の抑圧ゲインを算出することにより、音声成分が存在する部分と存在しない部分との間で音質の差が生じないようにする。
【0066】
(B−1)第2の実施形態の構成
図3は、第2の実施形態に係る雑音抑圧装置200の内部構成を示すブロック図である。
【0067】
図3において、第2の実施形態に係る雑音抑圧装置200は、周波数解析手段101、雑音抑圧手段102、SNR算出手段103、SNR平滑化手段104、音声らしさ算出手段105、抑圧ゲイン算出手段106、抑圧ゲイン合成手段107、乗算手段108、波形復元手段109、抑圧ゲイン平滑化手段210を有する。
【0068】
図3において、第1の実施形態に係る
図1の雑音抑圧装置100が有する構成要素と同一又は対応するものには、同一符号を付している。第2の実施形態が、第1の実施形態と異なる点は、抑圧ゲイン平滑化手段210を有する点である。
【0069】
図3において、抑圧ゲイン算出手段106は、第1の実施形態と同様にして、第1の抑圧ゲインを算出するものである。得られた第1の抑圧ゲインは、第1の実施形態と同様に抑圧ゲイン合成手段107に与えられると共に、抑圧ゲイン平滑化手段210にも与えられる。
【0070】
抑圧ゲイン平滑化手段210は、抑圧ゲイン算出手段106により算出された第1の抑圧ゲインを、周波数軸及び時間軸の両方向に平滑化して第2の抑圧ゲインを算出するものである。また、抑圧ゲイン平滑化手段210は、得られた第2の抑圧ゲインを抑圧ゲイン合成手段107に与える。
【0071】
(B−2)第2の実施形態の動作
次に、第2の実施形態に係る雑音抑圧装置200における雑音抑圧方法を、図面を参照しながら詳細に説明する。以下では、第1の実施形態で詳細に説明した動作については省略し、第2の実施形態に係る雑音抑圧方法の特徴的な動作を詳細に説明する。
【0072】
抑圧ゲイン算出手段106では、第1の実施形態と同様にして、第1の抑圧ゲインが算出される。得られた第1の抑圧ゲインは、抑圧ゲイン合成手段107及び抑圧ゲイン平滑化手段210に与えられる。
【0073】
抑圧ゲイン平滑化手段210は、第1の抑圧ゲインを周波数軸と時間軸の両方向に平滑化して第2の抑圧ゲインを算出する。ここで、抑圧ゲイン平滑化手段210は、まったく歪みを生じさせない特性を持つ抑圧ゲインを算出するために、第1の抑圧ゲインを周波数軸及び時間軸の両方向に十分に平滑化して第2の抑圧ゲインを算出する。
【0074】
抑圧ゲイン平滑化手段210による平滑化方法は、上述したSNR平滑化手段104における平滑化方法と同じ方法を用いることが好適である。しかし、SNR平滑化手段104と異なる方法を用いるようにしても良い。例えば、周波数軸方向への平滑化として、抑圧ゲイン平滑化手段210は全周波数帯域の第1の抑圧ゲインの平均値を算出し、得られた平均値を各周波数帯域に与えるという方法は、演算量が少なく歪みも最小となるので一つの良い選択であるが、低い周波数帯域(特に、音声成分のピッチ周波数を有する100〜400Hz)と高い周波数帯域(例えば3kHz以上)とでは第1の抑圧ゲインの大きさに差があることが多いため、この第1の抑圧ゲインの大きさの差が第2の抑圧ゲインに反映される方がより望ましい。
【0075】
周波数軸及び時間軸の両方向に平滑化する方法として、SNR平滑化手段104と同じ平滑化方法を行う場合、平滑化の度合いはSNR平滑化手段104と同じ程度としても良いし、又は異なる値としても良い。
【0076】
例えば、周波数軸方向の平滑化に移動平均法を用いる場合、より強く平滑化するために、平滑化の度合いとしての平滑化窓の長さは500Hz程度に相当する長さが好適に用いられる。また時間軸方向の平滑化に時定数フィルタを用いる場合、より強く平滑化するために、平滑化の度合いとしての時定数の値には0.9以上の値が好適に用いられる。つまり、抑圧ゲイン平滑化手段210は、より強く平滑化するために、平滑化の度合いを大きくして、より滑らかな定常的な値とした第2の抑圧ゲインを算出する。
【0077】
上記のようにして、抑圧ゲイン平滑化手段210において得られた第2の抑圧ゲインは、ゲイン合成手段107に与えられる。
【0078】
抑圧ゲイン合成手段107では、音声らしさ算出手段105からの音声らしさを示す値bkと、抑圧ゲイン算出手段106からの第1の抑圧ゲインGkと、抑圧ゲイン平滑化手段210からの平滑化された第2の抑圧ゲインFkとに基づき、例えば、式(5)を用いて、周波数帯域毎に、第3の抑圧ゲインを算出する。得られた第3の抑圧ゲインは、乗算手段108に与えられる。
【数5】
【0079】
第2の抑圧ゲインFkは、第1の抑圧ゲインGkを平滑化したものであるから、第1の抑圧ゲインGkを反映させた値とすることができる。したがって、音声成分が存在する部分と音声成分が存在しない部分との音質の差を小さくすることができるため、自然な音質の音声を出力することができる。
【0080】
(B−3)第2の実施形態の効果
以上のように,第2の実施形態によれば、第1の実施形態で説明した効果に加えて、以下の効果を奏する。
【0081】
第2の実施形態によれば、第2の抑圧ゲインが第1の抑圧ゲインに基づいて決定されるので,音声成分が存在する部分と存在しない部分との間の音質の差が第1の実施形態よりも小さくなり,より自然な音質の出力信号を得ることができる。
【0082】
また、第1の実施形態の場合、例えば第1の抑圧ゲインの算出方法にMMSE−STSA法を用いた場合、MMSE−STSA法には最小抑圧ゲインという概念がないため、予め定数値で与えられる第2の抑圧ゲインの設計に経験的スキルが必要となる。これに対して、第2の実施形態では、第1の抑圧ゲインに連動して第2の抑圧ゲインが自動的に設定されるので、自然な音質の出力信号をより簡単に得ることができる。
【0083】
(C)他の実施形態
上述した各実施形態においても種々の変形実施形態を言及したが、本発明は以下の変形実施形態にも適用可能である。
【0084】
(C−1)上述した各実施形態では、雑音抑圧装置にデジタル音声信号が入力されるものを示したが、入力スペクトルが雑音抑圧装置に入力される場合にも、本発明を適用することができる。例えば、対向する装置から、通信回線を介して転送されてくる信号が入力スペクトルXkの場合には、それをデジタル音声信号に変換することなく、雑音抑圧装置に入力するようにしても良い。
【0085】
(C−2)上述した各実施形態では、SS法をベースとした雑音抑圧装置を示したが、SS法をベースとした雑音抑圧方法と、他の雑音抑圧方法(例えば、ウィナーフィルタ、コヒーレンスフィルタなど)のいずれか1つ以上とを併用して、雑音抑圧装置を構成するようにしても良い。
【0086】
(C−3)上述した各実施形態では、入力音声信号が入力する場合を例示したが、音楽などの信号が入力して、上述した各実施形態の雑音抑圧装置を用いて入力信号に含まれる雑音成分を抑圧するようにしても良い。