(58)【調査した分野】(Int.Cl.,DB名)
目的音成分と雑音成分とを包含する音響信号の時間変化に追従する第1指標値と、前記第1指標値と比較して低い追従性で前記音響信号の時間変化に追従する第2指標値との相違に応じて、前記音響信号の各単位期間が前記目的音成分および前記雑音成分の一方に該当する確度の指標である信頼度を単位期間毎に算定する指標算定手段と、
前記指標算定手段が算定した各単位期間の信頼度を利用して前記音響信号から推定雑音成分を生成する推定処理手段と
を具備する音響処理装置。
前記指標算定手段は、前記音響信号の各単位期間が前記目的音成分に該当する確度の指標である基礎指標を前記第1指標値と前記第2指標値とに相違に応じて単位期間毎に算定し、前記基礎指標が第1閾値を上回る単位期間または前記音響信号の強度が第2閾値を下回る単位期間については信頼度を所定値に設定する一方、他の単位期間については前記基礎指標に応じて前記信頼度を算定する
請求項1の音響処理装置。
前記推定処理手段は、前記指標算定手段が算定した信頼度に応じた平滑化係数を前記音響信号の各単位期間の強度の指数移動平均に適用することで前記推定雑音成分を生成する
請求項1または請求項2の音響処理装置。
前記推定処理手段は、前記指標算定手段が算定した信頼度と第1係数とに応じた平滑化係数を前記音響信号の各単位期間の強度の指数移動平均に適用することで第1推定雑音成分を生成し、前記指標算定手段が算定した信頼度と前記第1係数とは相違する第2係数とに応じた平滑化係数を前記音響信号の各単位期間の強度の指数移動平均に適用することで第2推定雑音成分を生成し、前記第1推定雑音成分と前記第2推定雑音成分とに応じて前記推定雑音成分を生成する
請求項1から請求項3の何れかの音響処理装置。
【発明を実施するための形態】
【0014】
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。
図1に示すように、第1実施形態の音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、目的音成分と雑音成分との混合音の波形を示す時間領域の音響信号x(t)を音響処理装置100に供給する(t:時間)。目的音成分は、例えば音声や楽音等の音響成分であり、雑音成分は、例えば空調設備の動作音や人混み内の雑踏音等の環境音に代表される加法性雑音の音響成分である。周囲の音響を収音して音響信号x(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から音響信号x(t)を取得して音響処理装置100に供給する再生装置や、通信網から音響信号x(t)を受信して音響処理装置100に供給する通信装置が信号供給装置12として採用され得る。
【0015】
音響処理装置100は、信号供給装置12が供給する音響信号x(t)から雑音成分を抑圧(目的音成分を強調)した音響信号y(t)を生成する信号処理装置(雑音抑圧装置)である。放音装置14(例えばスピーカやヘッドホン)は、音響処理装置100が生成した音響信号y(t)に応じた音波を放射する。なお、音響信号y(t)をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略されている。
【0016】
図1に示すように、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムや演算処理装置22が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体などの公知の記録媒体または複数種の記録媒体の組合せが記憶装置24として任意に採用され得る。音響信号x(t)を記憶装置24に記憶した構成(したがって信号供給装置12は省略される)も好適である。
【0017】
演算処理装置22は、記憶装置24に格納されたプログラムを実行することで、音響信号x(t)から音響信号y(t)を生成するための複数の機能(周波数分析部32,雑音推定部34,雑音抑圧部36,波形生成部38)を実現する。なお、演算処理装置22の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が一部の機能を実現する構成も採用され得る。
【0018】
周波数分析部32は、周波数軸上の複数の周波数の各々に対応する音響信号x(t)の成分(以下「観測成分」という)X(k,m)を時間軸上の単位期間(フレーム)毎に順次に生成する。記号kは周波数軸上の任意の1個の周波数(周波数ビン)を意味し、記号mは時間軸上の任意の1個の単位期間を意味する。各観測成分(周波数スペクトル)X(k,m)の算定には、短時間フーリエ変換等の公知の周波数分析が任意に採用される。なお、通過帯域が相違する複数の帯域通過フィルタの系列(フィルタバンク)を周波数分析部32として利用することも可能である。
【0019】
雑音推定部34は、音響信号x(t)(観測成分X(k,m))に包含される雑音成分(以下「推定雑音成分」という)N(k,m)を単位期間毎に順次に推定する。第1実施形態の推定雑音成分N(k,m)はパワー(パワースペクトル)に相当する。雑音推定部34の具体的な構成および動作については後述する。
【0020】
雑音抑圧部36は、雑音推定部34が推定した推定雑音成分N(k,m)を音響信号x(t)(観測成分X(k,m))から抑圧することで音響信号y(t)の周波数毎の成分(以下「雑音抑圧成分」という)Y(k,m)を単位期間毎に順次に生成する。具体的には、第1実施形態の雑音抑圧部36は、周波数領域で観測成分X(k,m)のパワー(パワースペクトル)|X(k,m)|
2から推定雑音成分N(k,m)を減算(スペクトル減算)する以下の数式(1)の演算で雑音抑圧成分Y(k,m)を算定する。
【数1】
【0021】
数式(1)の記号max{ }は、括弧内の最大値を選択する演算を意味する。数式(1)の記号jは虚数単位を意味し、記号θ(k,m)は、音響信号x(t)の位相角(位相スペクトル)を意味する。数式(1)から理解される通り、所定の定数(フロアリング係数)βを下限値として観測成分X(k,m)のパワー|X(k,m)|
2から推定雑音成分N(k,m)を減算した結果の平方根が雑音抑圧成分Y(k,m)の振幅(振幅スペクトル)|Y(k,m)|に相当する。
【0022】
図1の波形生成部38は、雑音抑圧部36が単位期間毎に順次に生成する雑音抑圧成分Y(k,m)から時間領域の音響信号y(t)を生成する。具体的には、波形生成部38は、各単位期間の雑音抑圧成分Y(k,m)を短時間逆フーリエ変換で時間領域に変換するとともに前後の単位期間について相互に連結することで音響信号y(t)を生成する。波形生成部38が生成した音響信号y(t)が放音装置14に供給されて音波として放射される。
【0023】
図2は、雑音推定部34のブロック図である。
図2に示すように、第1実施形態の雑音推定部34は、指標算定部42と推定処理部44とを含んで構成される。指標算定部42は、音響信号x(t)の単位期間毎に各周波数の信頼度CN(k,m)を算定する。信頼度CN(k,m)は、音響信号x(t)の観測成分X(k,m)が雑音成分に該当する確度(観測成分X(k,m)内で雑音成分が目的音成分と比較して優勢である度合)の指標であり、0以上かつ1以下の範囲内で可変に設定される。
図2に示すように、第1実施形態の指標算定部42は、平滑処理部422と算定処理部424とを含んで構成される。
【0024】
平滑処理部422は、音響信号x(t)の時間変化(具体的には観測成分X(k,m)のパワー|X(k,m)|
2の時間変化)に追従する第1指標値P1(k,m)および第2指標値P2(k,m)を単位期間毎に順次に算定する。具体的には、平滑処理部422は、以下の数式(2A)および数式(2B)で表現される通り、観測成分X(k,m)のパワー|X(k,m)|
2の指数移動平均(平滑化)で第1指標値P1(k,m)および第2指標値P2(k,m)を算定する。
【数2】
【0025】
数式(2A)の記号α1および数式(2B)の記号α2は、指数移動平均の平滑化係数(忘却係数)を意味し、0以上かつ1以下の範囲内で設定される。数式(2A)および数式(2B)から理解される通り、第1指標値P1(k,m)および第2指標値P2(k,m)は、観測成分X(k,m)のパワー|X(k,m)|
2の時間軸上の包絡線(パワーエンベロープ)に相当する。
【0026】
数式(2B)の平滑化係数α2は数式(2A)の平滑化係数α1を下回る(0≦α2<α1≦1)。したがって、第2指標値P2(k,m)は、第1指標値P1(k,m)と比較して低い追従性で観測成分X(k,m)のパワー|X(k,m)|
2の時間変化に追従する。すなわち、数式(2B)による平滑化の時定数τ2は数式(2A)による平滑化の時定数τ1を上回る(τ2>τ1)。なお、平滑化係数α1を1に設定する(すなわち、観測成分X(k,m)のパワー|X(k,m)|
2を第1指標値P1(k,m)として利用する)ことも可能である。
【0027】
図2の算定処理部424は、平滑処理部422が算定した第1指標値P1(k,m)と第2指標値P2(k,m)とを利用して信頼度(観測成分X(k,m)が雑音成分に該当する確度)CN(k,m)を算定する。第1実施形態の算定処理部424は、観測成分X(k,m)が目的音成分に該当する確度(観測成分X(k,m)内で目的音成分が雑音成分と比較して優勢である度合)を意味する信頼度(基礎指標)CS(k,m)を第1指標値P1(k,m)と第2指標値P2(k,m)との相違に応じて算定し、信頼度CS(k,m)を適用した演算で信頼度CN(k,m)を算定する。
【0028】
具体的には、算定処理部424は、以下の数式(3)の演算で信頼度CS(k,m)を算定する。
【数3】
すなわち、算定処理部424は、第2指標値P2(k,m)に対する第1指標値P1(k,m)の相対比(P1(k,m)/P2(k,m))を、所定値(第1実施形態の例示では1)以下の範囲内(0≦CS(k,m)≦1)で信頼度CS(k,m)として算定する。なお、第1指標値P1(k,m)と第2指標値P2(k,m)との差分を信頼度CS(k,m)として算定する構成も採用され得る。
【0029】
音声や楽音等の目的音成分は雑音成分と比較して時間的な変動が顕著であるという概略的な傾向がある。第1指標値P1(k,m)は第2指標値P2(k,m)と比較して高い追従性で観測成分X(k,m)の時間変化に追従するから、以上の傾向のもとでは、観測成分X(k,m)内で目的音成分が雑音成分と比較して優勢である場合には第1指標値P1(k,m)が第2指標値P2(k,m)を上回り、結果的に観測成分X(k,m)の信頼度CS(k,m)は増加する。したがって、観測成分X(k,m)が目的音成分に該当する確度の指標として信頼度CS(k,m)を利用することが可能である。
【0030】
図2の算定処理部424は、以下の数式(4)で表現される通り、数式(3)の演算で算定した信頼度CS(k,m)を所定値(第1実施形態の例示では1)から減算することで信頼度CN(k,m)を算定する。すなわち、信頼度CS(k,m)が増加するほど信頼度CN(k,m)が減少するように信頼度CN(k,m)は算定される。
【数4】
前述の通り、観測成分X(k,m)内で目的音成分が優勢であるほど信頼度CS(k,m)は0以上かつ1以下の範囲内で大きい数値となる(雑音成分が優勢であるほど信頼度CS(k,m)は小さい数値となる)から、観測成分X(k,m)内で雑音成分が目的音成分と比較して優勢である(観測成分X(k,m)が雑音成分に該当する確度が高い)ほど信頼度CN(k,m)は大きい数値となる。したがって、観測成分X(k,m)が雑音成分に該当する確度の指標として信頼度CN(k,m)を利用することが可能である。以上に説明した通り、
図2の指標算定部42は、第1指標値P1(k,m)と第2指標値P2(k,m)との相違(具体的には両者間の相対比)に応じて各周波数の信頼度CN(k,m)を単位期間毎に順次に算定する。
図2の推定処理部44は、指標算定部42が算定した信頼度CN(k,m)を利用して音響信号x(t)の推定雑音成分N(k,m)を単位期間毎に順次に生成する。
【0031】
具体的には、推定処理部44は、以下の数式(5)で表現される通り、各単位期間の観測成分X(k,m)のパワー|X(k,m)|
2の指数移動平均を推定雑音成分N(k,m)として算定する。すなわち、推定雑音成分N(k,m)は、現在の単位期間の観測成分X(k,m)のパワー|X(k,m)|
2と過去の単位期間(直前の単位期間)の推定雑音成分N(k,m-1)との加重和とも換言される。
【数5】
【0032】
数式(5)の平滑化係数(加重値)ω(k,m)は、指標算定部42が算定した信頼度CN(k,m)に応じて設定される。具体的には、第1実施形態の平滑化係数ω(k,m)は、以下の数式(6)で表現される通り、信頼度CN(k,m)と所定の係数Aとの乗算値である。
【数6】
係数Aは、0以上かつ1以下の範囲内で適切な数値に設定される。具体的には、抑圧対象として想定される雑音成分の定常性(時間的な変動の程度)に応じて係数Aは可変に設定される。例えば、時間的な変動が比較的に大きい雑音成分が想定される場合には係数Aが0.2から0.5程度の数値に設定され、時間的な変動が小さい雑音成分が想定される場合には係数Aが0.02程度の数値に設定される。利用者からの指示に応じて係数Aを可変に設定することも可能である。
【0033】
推定処理部44は、指標算定部42が単位期間毎に算定する信頼度CN(k,m)を適用した数式(5)の演算を実行することで、推定雑音成分N(k,m)を信頼度CN(k,m)に応じて単位期間毎に更新する。推定雑音成分N(k,m)の初期値(N(k,0))は、例えば以下の数式(7)で表現される通り、雑音区間内のM0個の単位期間にわたる観測成分X(k,m)のパワー|X(k,m)|
2の平均値(単純平均)に設定される。
【数7】
雑音区間は、音響信号x(t)のうち目的音成分が存在しないと推定される区間である。例えば、雑音抑圧の開始点から所定の時間長にわたる区間(例えば音響信号x(t)の始点から500ミリ秒の区間)が雑音区間として好適である。
【0034】
数式(5)および数式(6)から理解される通り、信頼度CN(k,m)が大きい(平滑化係数ω(k,m)が大きい)ほど、現在の単位期間の観測成分X(k,m)のパワー|X(k,m)|
2の影響(観測成分X(k,m)が推定雑音成分N(k,m)に反映される度合)が増加する。すなわち、雑音成分が優勢な観測成分X(k,m)が優先的に推定雑音成分N(k,m)に反映される(雑音成分が優勢な観測成分X(k,m)の重み(混合比率)が増加する)ように推定雑音成分N(k,m)は単位期間毎に更新される。したがって、第1実施形態によれば、音響信号x(t)の雑音成分が時間的に変動する場合でも雑音成分を高精度に推定することが可能である。
図1の雑音抑圧部36は、以上の手順で雑音推定部34が推定した各単位期間の推定雑音成分N(k,m)をその単位期間の観測成分X(k,m)から抑圧する(数式(1))。したがって、第1実施形態によれば、雑音成分を高精度に抑圧した音響信号(すなわち、目的音成分が高精度に強調された音響信号)y(t)を生成できるという利点がある。
【0035】
図3の領域F31には、雑音成分のみを含む音響信号x(t)のスペクトログラムが図示されている。
図3および後掲の
図4のスペクトログラムでは、表示階調が低い地点(黒色に近い地点)ほど強度が低いことを意味する。
図3では、時間軸上の原点で1種類の雑音成分が開始し、原点から約3秒が経過した時点T0で他の種類の雑音成分を音響信号x(t)に追加した場合が想定されている。すなわち、音響信号x(t)の雑音成分の音響特性は時点T0で変動する。
図3の領域F32には、領域F31の音響信号x(t)から第1実施形態の方法で推定された推定雑音成分N(k,m)のスペクトログラムが図示されている。また、
図3の領域F31の音響信号x(t)のうち雑音区間(時間軸上の原点から500ミリ秒の区間)内の観測成分X(k,m)のパワー|X(k,m)|
2の平均を雑音成分の推定結果とする場合(以下「対比例」という)の推定雑音成分のスペクトログラムが
図3の領域F33に図示されている。対比例では、時点T0での雑音成分の変動は推定結果に反映されない。他方、第1実施形態によれば、音響信号x(t)の雑音成分が高精度に推定され、かつ、雑音成分が変動した場合に変動後の雑音成分を迅速に推定できることが
図3から明確に把握される。
【0036】
図4の領域F41には、
図3の領域F31に例示した雑音成分を目的音成分(音声)に重畳した音響信号x(t)のスペクトログラムが図示されている。また、
図4の領域F42には、第1実施形態の方法で生成された推定雑音成分N(k,m)(
図3の領域F32)を音響信号x(t)から抑圧した音響信号y(t)のスペクトログラムが図示され、
図4の領域F43には、
図3の領域F33の推定雑音成分を音響信号x(t)から抑圧した場合の抑圧後のスペクトログラムが図示されている。対比例では特に時点T0以降の雑音成分が抑圧後にも残留するのに対し、第1実施形態によれば、時点T0の前後にわたり雑音成分が良好に抑圧されることが
図4から確認できる。
【0037】
また、第1実施形態では、信頼度CN(k,m)に応じた平滑化係数ω(k,m)を観測成分X(k,m)のパワー|X(k,m)|
2の指数移動平均に適用することで推定雑音成分N(k,m)が算定される。したがって、音響信号のうち数秒程度の長時間にわたる区間を対象としてパワーの最小値を探索する非特許文献1の技術と比較して、推定雑音成分N(k,m)の算定のためにパワー|X(k,m)|
2を保持すべき単位期間の総数(観測成分X(k,m)のパワー|X(k,m)|
2の保持に必要な記憶容量)が削減されるという利点がある。
【0038】
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0039】
第2実施形態の指標算定部42(算定処理部424)は、前掲の数式(4)に代えて、以下の数式(8)の演算を実行することで信頼度CS(k,m)から信頼度CN(k,m)を算定する。
【数8】
【0040】
数式(8)から理解される通り、信頼度CS(k,m)が閾値TH1を上回る場合(CS(k,m)>TH1)、指標算定部42は、信頼度CN(k,m)をゼロに設定する。閾値TH1は、観測成分X(k,m)内の目的音成分が充分に優勢であると評価できる信頼度CS(k,m)の数値(例えば0.6〜0.9程度の1に近い正数)に好適に設定される。
【0041】
第1実施形態のもとで信頼度CS(k,m)が閾値TH1を上回るほど観測成分X(k,m)内で目的音成分が優勢である場合(雑音成分が極端に少ない場合)、数式(4)で算定される信頼度CN(k,m)は、充分に小さい数値ではあるが正数(CN(k,m)>0)に設定される。目的音成分は雑音成分と比較してパワー(エネルギー)が充分に高いから、信頼度CN(k,m)が充分に小さい数値に設定された場合でも、観測成分X(k,m)の目的音成分は推定雑音成分N(k,m)に反映される。したがって、雑音成分の推定精度が低下する可能性がある。他方、第2実施形態では、信頼度CS(k,m)が閾値TH1を上回るほど観測成分X(k,m)内で目的音成分が優勢である場合には信頼度CN(k,m)がゼロに設定され、結果的に観測成分X(k,m)は推定雑音成分N(k,m)に反映されない。したがって、観測成分X(k,m)内で目的音成分が充分に優勢な場合でも推定雑音成分N(k,m)を高精度に推定できるという利点がある。
【0042】
また、数式(8)から理解される通り、現在の単位期間における観測成分X(k,m)のパワー|X(k,m)|
2が閾値TH2を下回る場合(|X(k,m)|
2<TH2)も同様に、指標算定部42は、信頼度CN(k,m)をゼロに設定する。閾値TH2は、充分に小さいと評価できるパワー|X(k,m)|
2の数値に設定される。具体的には、閾値TH2は、所定の係数λと直前の単位期間の推定雑音成分N(k,m-1)との乗算値(したがって可変値)に設定される(TH2=λ・N(k,m-1))。係数λは所定の正数(例えば0.1以下の数値)に設定される。
【0043】
雑音成分は、長期的に観察すれば定常的な音響成分と評価できるが、単位期間程度の短時間に着目すれば短時間で急激に変動する音響成分と評価できる。したがって、長期的には雑音成分を定常的と評価できる場合でも観測成分X(k,m)のパワー|X(k,m)|
2が少数の単位期間にて瞬間的に低下する可能性がある。以上のようにパワー|X(k,m)|
2の瞬間的な低下を推定雑音成分N(k,m)に反映させた場合、長期的な推定雑音成分N(k,m)が実際の雑音成分から乖離する可能性がある。第2実施形態では、観測成分X(k,m)のパワー|X(k,m)|
2が閾値TH2を下回るほど低下した場合には信頼度CN(k,m)がゼロに設定され、結果的に観測成分X(k,m)は推定雑音成分N(k,m)に反映されない。すなわち、観測成分X(k,m)のパワー|X(k,m)|
2の瞬間的な低下は推定雑音成分N(k,m)に影響しない。したがって、瞬間的なパワー|X(k,m)|
2の低下も推定雑音成分N(k,m)に反映される第1実施形態と比較して、推定雑音成分N(k,m)を高精度に推定できるという効果は格別に顕著である。
【0044】
なお、数式(8)から理解される通り、信頼度CS(k,m)が閾値TH1以下であり(CS(k,m)≦TH1)、かつ、観測成分X(k,m)のパワー|X(k,m)|
2が閾値TH2以下である場合(|X(k,m)|
2≦TH2)、信頼度CN(k,m)は、第1実施形態と同様の方法で信頼度CS(k,m)に応じた数値に設定される。
【0045】
<第3実施形態>
第3実施形態の推定処理部44は、第1推定雑音成分Q1(k,m)と第2推定雑音成分Q2(k,m)とを単位期間毎に順次に算定する。第1推定雑音成分Q1(k,m)は、以下の数式(9A)で表現される通り、平滑化係数ω1(k,m)を適用した観測成分X(k,m)のパワー|X(k,m)|
2の指数移動平均である。同様に、第2推定雑音成分Q2(k,m)は、以下の数式(9B)で表現される通り、平滑化係数ω2(k,m)を適用した観測成分X(k,m)のパワー|X(k,m)|
2の指数移動平均である。
【数9】
【0046】
数式(9A)の平滑化係数ω1(k,m)は、指標算定部42(算定処理部424)が算定した信頼度CN(k,m)と所定の第1係数A1とに応じて設定され、数式(9B)の平滑化係数ω2(k,m)は、信頼度CN(k,m)と所定の第2係数A2とに応じて設定される。例えば、平滑化係数ω1(k,m)は、以下の数式(10A)のように信頼度CN(k,m)と第1係数A1との乗算値であり、平滑化係数ω2(k,m)は、以下の数式(10B)のように信頼度CN(k,m)と第2係数A2との乗算値である。第1係数A1および第2係数A2は、0以上かつ1以下の範囲内で相異なる数値に設定される(0≦A1<A2≦1)。
【数10】
【0047】
以上のように第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)は信頼度CN(k,m)に応じて生成されるから、第1実施形態と推定雑音成分N(k,m)と同様に、音響信号x(t)の雑音成分の推定結果に相当する。ただし、第1係数A1は第2係数A2を下回る(A1<A2)。すなわち、平滑化係数ω1(k,m)は平滑化係数ω2(k,m)を下回る(ω1(k,m)<ω2(k,m))。したがって、第1推定雑音成分Q1(k,m)は、第2推定雑音成分Q2(k,m)と比較して低い追従性で音響信号x(t)の雑音成分の時間変化に追従する。
【0048】
第3実施形態の推定処理部44は、第1推定雑音成分Q1(k,m)と第2推定雑音成分Q2(k,m)とに応じた推定雑音成分N(k,m)を単位期間毎に順次に生成する。具体的には、以下の数式(11)で表現されるように、推定処理部44は、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の最小値を推定雑音成分N(k,m)として選択する。
【数11】
【0049】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、相異なる平滑化係数(ω1(k,m),ω2(k,m))を適用してパワー|X(k,m)|
2を移動平均した第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)に応じて推定雑音成分N(k,m)が算定される。非特許文献1の最小統計法でも前提とされる通り、雑音成分は目的音成分と比較してパワーが低いという傾向があるから、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の最小値を推定雑音成分N(k,m)として選択する第3実施形態によれば、第1実施形態と比較して高精度に音響信号x(t)の雑音成分を推定できるという利点がある。
【0050】
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0051】
(1)信頼度CN(k,m)に応じた推定雑音成分N(k,m)を算定する方法は任意であり、前述の各形態で例示した方法には限定されない。推定雑音成分N(k,m)の他の算定方法を以下に例示する。
【0052】
[例1]推定雑音成分N(k,m)の算定に適用される平滑化係数ω(k,m)の算定方法は任意であり、前掲の数式(6)の演算には限定されない。例えば、以下の数式(12A)のように信頼度CN(k,m)のρ乗(ρ>1)に応じて平滑化係数ω(k,m)を算定する構成が採用され得る。また、以下の数式(12B)のように信頼度CN(k,m)の逆数を冪指数とする係数Aの冪乗を平滑化係数ω(k,m)として算定することも可能である。
【数12】
【0053】
数式(12A)および数式(12B)の何れを採用した場合でも、前述の実施形態と同様に、信頼度CN(k,m)が大きいほど、平滑化係数ω(k,m)は大きい数値(すなわち、観測成分X(k,m)が推定雑音成分N(k,m)に反映される度合を増加させる数値)に設定される。なお、第1実施形態および第2実施形態の平滑化係数ω(k,m)と同様に、第3実施形態の平滑化係数ω1(k,m)および平滑化係数ω2(k,m)の算定方法も任意であり、数式(12A)や数式(12B)と同様の演算が採用され得る。
【0054】
[例2]第3実施形態で例示した数式(11)を以下の数式(13)に置換することも可能である。
【数13】
すなわち、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の最小値(min{Q1(k,m),Q2(k,m)})が閾値σ1を上回る単位期間では推定雑音成分N(k,m)が閾値σ1に設定される。すなわち、閾値σ1を上限値として推定雑音成分N(k,m)が設定される。閾値σ1は、例えば観測成分X(k,m)のパワー|X(k,m)|
2に設定される。数式(13)を採用した構成では、推定雑音成分N(k,m)の上限値が閾値σ1に制限されるから、周波数領域での雑音抑圧に起因したミュージカルノイズを低減することが可能である。
【0055】
[例3]第3実施形態では、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の最小値を推定雑音成分N(k,m)として選択したが(数式(11))、以下の数式(14)で表現されるように、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の最大値を推定雑音成分N(k,m)として選択することも可能である。
【数14】
数式(14)を採用した構成では、数式(11)の演算で推定雑音成分N(k,m)を算定する構成と比較して音響信号x(t)における雑音成分の時間変化に迅速に追従するように推定雑音成分N(k,m)を算定できるという利点がある。
【0056】
なお、数式(14)を以下の数式(15)に置換することも可能である。
【数15】
すなわち、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の最大値(max{Q1(k,m),Q2(k,m)})が閾値σ2を上回る単位期間では推定雑音成分N(k,m)が閾値σ2に設定される。すなわち、閾値σ2を上限値として推定雑音成分N(k,m)が設定される。閾値σ2は、例えば観測成分X(k,m)のパワー|X(k,m)|
2に設定される。数式(15)を採用した構成では、推定雑音成分N(k,m)の上限値が閾値σ2に制限されるから、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の最大値が誤推定等に起因して極端に大きい数値となった場合でも推定雑音成分N(k,m)を適切な範囲内に抑制することが可能である。
【0057】
[例4]第3実施形態や本変形例の例2および例3では、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の一方を選択したが、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の双方を加味して推定雑音成分N(k,m)を算定することも可能である。例えば、第1推定雑音成分Q1(k,m)と第2推定雑音成分Q2(k,m)との加重和を推定雑音成分N(k,m)として算定する構成が好適に採用される。第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の各々の加重値は、例えば利用者からの指示に応じて可変に設定される。
【0058】
[例5]推定事前SNRξ(m)を適用した以下の数式(16)の演算で推定雑音成分N(k,m)を算定することも可能である。
【数16】
すなわち、第1推定雑音成分Q1(k,m)および第2推定雑音成分Q2(k,m)の最小値(min{Q1(k,m),Q2(k,m)})と観測成分X(k,m)のパワー|X(k,m)|
2とを推定事前SNRξ(m)に応じた加重値で加重平均することで推定雑音成分N(k,m)が算定される。係数ηは、推定事前SNRξ(m)の寄与度を制御するための変数である。
【0059】
推定事前SNRξ(m)は、例えば推定事後SNRγ(k,m)を適用した以下の数式(17A)で算定され、数式(17A)の推定事後SNRγ(k,m)は例えば以下の数式(17B)で算定される。数式(17A)の記号max{ ,0}は、演算結果を正数の範囲内に制限する演算を意味する。数式(17A)のうち推定事後SNRγ(k,m)(K個の周波数にわたる平均値)から1を減算する演算が、推定事前SNRを算定する演算に相当する。
【数17】
数式(17A)の記号εは所定の数値に設定される。なお、ゼロの対数は負の無限大であるから、数値εをゼロに設定すると数式(17A)の演算(log
10ε)が不安定となる可能性がある。そこで、数値εは非常に小さい正数(ε>0)に設定される。
【0060】
[例6]前述の各形態では、信頼度CN(k,m)に応じた平滑化係数ω(k,m)を適用した観測成分X(k,m)のパワー|X(k,m)|
2の指数移動平均を推定雑音成分N(k,m)として算定したが、以下の数式(18)で表現される通り、観測成分X(k,m)のパワー|X(k,m)|
2の加重移動平均で推定雑音成分N(k,m)を算定することも可能である。
【数18】
数式(18)から理解される通り、第m番目の単位期間を最後尾とするM個の単位期間の各々の観測成分X(k,m)のパワー|X(k,m)|
2を、M個の単位期間にわたる信頼度CN(k,m)の合計値に対するその単位期間の信頼度CN(k,m)の相対比(CN(k,m)/ΣCN(k,m-n))を加重値として加重平均(加重加算)することで推定雑音成分N(k,m)が算定される。
【0061】
以上の例示から理解されるように、推定処理部44は、各単位期間の信頼度CN(k,m)を利用して音響信号x(t)(観測成分X(k,m))から推定雑音成分N(k,m)を生成する要素(推定処理手段)として包括され、信頼度CN(k,m)および音響信号x(t)から推定雑音成分N(k,m)を生成する具体的な方法の如何は不問である。
【0062】
(2)前述の各形態では、観測成分X(k,m)が雑音成分に該当する確度の指標である信頼度CN(k,m)を推定雑音成分N(k,m)の算定に適用したが、観測成分X(k,m)が目的音成分に該当する確度の指標である信頼度CS(k,m)を推定雑音成分N(k,m)の算定に適用することも可能である。例えば、前掲の数式(5)および数式(6)は以下の数式(5A)および数式(6A)に置換され得る。信頼度CN(k,m)の算定は省略される。
【数19】
【0063】
数式(5A)および数式(6A)を利用した構成では、信頼度CS(k,m)が小さい(観測成分X(k,m)内で雑音成分が目的音成分と比較して優勢である)ほど平滑化係数ω(k,m)が小さい数値となり、現在の単位期間の観測成分X(k,m)のパワー|X(k,m)|
2の影響が増加する。すなわち、観測成分X(k,m)内の雑音成分の優劣と観測成分X(k,m)が推定雑音成分N(k,m)に反映される度合との関係は、第1実施形態と同様に制御される。以上の説明から理解される通り、前述の各形態における指標算定部42は、音響信号x(t)の各単位期間が目的音成分および雑音成分の一方に該当する確度の指標である信頼度(CS(k,m),CN(k,m))を単位期間毎に算定する要素(指標算定手段)として包括される。
【0064】
(3)前述の各形態では、観測成分X(k,m)のパワー|X(k,m)|
2の指数移動平均を第1指標値P1(k,m)および第2指標値P2(k,m)として算定したが(数式(2A),数式(2B))、第1指標値P1(k,m)および第2指標値P2(k,m)を算定する方法は適宜に変更される。例えば、以下の数式(19A)および数式(19B)のように観測成分X(k,m)のパワー|X(k,m)|
2の単純移動平均で第1指標値P1(k,m)および第2指標値P2(k,m)を算定することも可能である。
【数20】
【0065】
数式(19A)から理解される通り、第1指標値P1(k,m)は、第m番目の単位期間を最後尾とするM1個(M1は1以上の自然数)の単位期間にわたる観測成分X(k,m)のパワー|X(k,m)|
2の平均である。また、数式(19B)から理解される通り、第2指標値P2(k,m)は、第m番目の単位期間を最後尾とするM2個の単位期間にわたる観測成分X(k,m)のパワー|X(k,m)|
2の平均である。数式(19B)の平均個数M2は、数式(19A)の平均個数M1を上回る(M2>M1)。したがって、数式(19B)による平滑化の時定数τ2は、数式(19A)による平滑化の時定数τ1を上回る(τ2>τ1)。すなわち、第1実施形態と同様に、第2指標値P2(k,m)は、第1指標値P1(k,m)と比較して低い追従性で観測成分X(k,m)のパワー|X(k,m)|
2の時間変化に追従する。なお、数式(19A)および数式(19B)では単純移動平均を例示したが、複数の単位区間にわたるパワー|X(k,m)|
2の加重移動平均を第1指標値P1(k,m)および第2指標値P2(k,m)として算定することも可能である。
【0066】
以上の説明から理解される通り、第1指標値P1(k,m)は、音響信号x(t)の時間変化(観測成分X(k,m)のパワー|X(k,m)|
2の時間変化)に追従する数値として包括され、第2指標値P2(k,m)は、第1指標値P1(k,m)と比較して低い追従性で音響信号x(t)の時間変化に追従する数値として包括される。
【0067】
(4)前述の各形態では、推定雑音成分N(k,m)を周波数領域にて観測成分X(k,m)から減算することで雑音成分を抑圧したが、推定雑音成分N(k,m)を利用して音響信号x(t)から雑音成分を抑圧する処理の内容は適宜に変更される。例えば、推定雑音成分N(k,m)に応じた調整値(スペクトルゲイン)を観測成分X(k,m)に乗算することで雑音成分を抑圧する乗算型の雑音抑圧にも本発明は適用され得る。具体的には、ウィナーフィルタを利用した雑音抑圧、MMSE-STSA法やMMSE-LSA法を利用した雑音抑圧、あるいは、MAP推定を利用した音声強調等に代表される任意の雑音抑圧技術に、以上の各形態で算定された推定雑音成分N(k,m)を適用することが可能である。
【0068】
(5)前述の各形態では、音響信号x(t)を周波数軸上で分割した複数の観測成分X(k,m)の各々について推定雑音成分N(k,m)の算定および抑圧を並列に実行したが、周波数毎の推定雑音成分N(k,m)の算定および抑圧は本発明に必須の要件ではない。例えば、音響信号x(t)を周波数軸上で分割した複数の観測成分X(k,m)の何れかについて推定雑音成分N(k,m)の算定および抑圧を実行する構成や、音響信号x(t)を複数の観測成分X(k,m)に分割せずに(すなわち処理対象の全帯域にわたり一括的に)推定雑音成分N(m)の算定および抑圧を実行する構成も採用され得る。
【0069】
(6)前述の各形態で例示した推定雑音成分N(k,m)の生成および抑圧は、公知の他の音響処理技術に適用され得る。例えば、複数の収音機器(マイクロフォンアレイ)で生成された各チャネルの音響信号x(t)について前述の各形態と同様に推定雑音成分N(k,m)の生成および抑圧を実行することで音響信号y(t)をチャネル毎に生成し、各チャネルの音響信号y(t)を利用した指向性制御処理(例えば遅延加算型や死角制御型等のビーム形成)で既知の音源方向に収音ビーム(収音感度が高い領域)を形成することも可能である。
【0070】
(7)前述の各形態で例示した各種の演算に適用される音響信号x(t)(観測成分X(k,m))のパワー|X(k,m)|
2を振幅|X(k,m)|や振幅|X(k,m)|の冪乗(例えば4乗や1/2乗)に置換することも可能である。音響信号x(t)の振幅|X(k,m)|の冪乗は、音響信号x(t)の強度として包括される。音響信号x(t)のパワー|X(k,m)|
2や振幅|X(k,m)|は、音響信号x(t)の強度の典型例である。
【0071】
(8)前述の各形態では、推定雑音成分N(k,m)の生成および抑圧の双方を実行する音響処理装置100(雑音抑圧装置)を例示したが、音響信号x(t)から推定雑音成分N(k,m)を算定する音響処理装置(雑音推定装置)としても本発明は適用され得る。すなわち、
図1の雑音抑圧部36を省略することも可能である。
【0072】
また、音響信号x(t)の各単位期間が目的音成分に該当する確度の指標である信頼度CS(k,m)、または、音響信号x(t)の各単位期間が雑音成分に該当する確度の指標である信頼度CN(k,m)を算定する音響処理装置(指標算定装置)としても本発明は適用され得る。信頼度CS(k,m)および信頼度CN(k,m)を利用する方法の典型例は、前述の各形態で例示した雑音成分の推定(推定雑音成分N(k,m)の算定)であるが、雑音成分の推定以外の用途に信頼度CS(k,m)または信頼度CN(k,m)を利用することも可能である。具体的には、信頼度CS(k,m)または信頼度CN(k,m)に応じて音響信号x(t)を時間軸上で雑音区間と目的音区間とに区別する構成が想定される。例えば、複数の周波数にわたる信頼度CN(k,m)の平均値が所定の閾値を上回る単位期間を雑音区間に選別する構成や、複数の周波数にわたる信頼度CS(k,m)の平均値が所定の閾値を上回る単位期間を目的音区間に選別する構成が好適に採用される。以上の説明から理解されるように、推定処理部44による推定雑音成分N(k,m)の生成は省略され得る。
【0073】
(9)携帯電話機等の端末装置と通信するサーバ装置で音響処理装置100(または雑音抑圧装置)を実現することも可能である。例えば、音響処理装置100は、端末装置から受信した音響信号x(t)から音響信号y(t)を生成して端末装置に送信する。なお、音響信号x(t)の各観測成分X(k,m)を音響処理装置100が端末装置から受信する構成(端末装置が周波数分析部32を具備する構成)では周波数分析部32が省略され、各雑音抑圧成分Y(k,m)を音響処理装置100から端末装置に送信する構成(端末装置が波形生成部38を具備する構成)では波形生成部38が省略される。また、音響処理装置100が、端末装置から受信した音響信号x(t)から推定雑音成分N(k,m)を生成して端末装置に送信する構成(例えば端末装置が雑音抑圧部36を具備する構成)では雑音抑圧部36が省略され得る。