(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022156943
(43)【公開日】2022-10-14
(54)【発明の名称】雑音判定プログラム、雑音判定方法及び雑音判定装置
(51)【国際特許分類】
G10L 25/84 20130101AFI20221006BHJP
【FI】
G10L25/84
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021060888
(22)【出願日】2021-03-31
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】松尾 直司
(57)【要約】
【課題】音声信号に含まれる非定常雑音を抑圧すること。
【解決手段】雑音判定プログラムは、音声信号のスペクトルにおいて、周波数別の音圧レベルと、音声信号で閾値よりも周波数が低い帯域の音圧レベルとを比較し、周波数別の音圧レベルと、帯域の音圧レベルとの類似度に基づいて、各周波数に対応する成分が音声または雑音のいずれであるかを判定する、処理をコンピュータに実行させる。
【選択図】
図6
【特許請求の範囲】
【請求項1】
音声信号のスペクトルにおいて、周波数別の音圧レベルと、前記音声信号で閾値よりも周波数が低い帯域の音圧レベルとを比較し、
前記周波数別の音圧レベルと、前記帯域の音圧レベルとの類似度に基づいて、各周波数に対応する成分が音声または雑音のいずれであるかを判定する、
処理をコンピュータに実行させることを特徴とする雑音判定プログラム。
【請求項2】
前記比較する処理は、前記周波数別の音圧レベルの時間変化と、前記帯域の音圧レベルの時間変化とを比較する処理を含み、
前記判定する処理は、前記周波数別の音圧レベルの時間変化と、前記帯域の音圧レベルの時間変化との類似度が低い周波数の成分を雑音と判定する処理を含む、
ことを特徴とする請求項1に記載の雑音判定プログラム。
【請求項3】
前記周波数別の音圧レベルの時間変化と、前記帯域の音圧レベルの時間変化との各々を、前記スペクトルを分析する分析フレーム間の音圧レベルの比から算出する処理を前記コンピュータにさらに実行させる、
ことを特徴とする請求項1または2に記載の雑音判定プログラム。
【請求項4】
前記算出する処理は、前記類似度として、前記周波数別の音圧レベルの時間変化と、前記帯域の音圧レベルの時間変化との比を算出する処理を含む、
ことを特徴とする請求項3に記載の雑音判定プログラム。
【請求項5】
前記判定する処理で雑音と判定された周波数の成分を抑圧する処理を前記コンピュータにさらに実行させる、
ことを特徴とする請求項1~4のいずれか1つに記載の雑音判定プログラム。
【請求項6】
前記抑圧する処理は、前記音声信号に対する音声区間の検出結果に応じて、前記判定する処理で雑音と判定された周波数の成分を抑圧するか、あるいは全ての周波数の成分を抑圧するのかを切り替える処理を含む、
ことを特徴とする請求項5に記載の雑音判定プログラム。
【請求項7】
音声信号のスペクトルにおいて、周波数別の音圧レベルと、前記音声信号で閾値よりも周波数が低い帯域の音圧レベルとを比較し、
前記周波数別の音圧レベルと、前記帯域の音圧レベルとの類似度に基づいて、各周波数に対応する成分が音声または雑音のいずれであるかを判定する、
処理をコンピュータが実行することを特徴とする雑音判定方法。
【請求項8】
音声信号のスペクトルにおいて、周波数別の音圧レベルと、前記音声信号で閾値よりも周波数が低い帯域の音圧レベルとを比較し、
前記周波数別の音圧レベルと、前記帯域の音圧レベルとの類似度に基づいて、各周波数に対応する成分が音声または雑音のいずれであるかを判定する、
処理を実行する制御部を含む雑音判定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、雑音判定技術に関する。
【背景技術】
【0002】
テレワークの普及に伴い、ソフトフォンなどを用いた通話や会議が増えている。例えば、イヤホンケーブルの途中に接続される無指向性のモノラルマイクを用いる場合、キーボードの打鍵音や周囲からの音声が高いレベルの非定常雑音として送話音声に混じることがある。従って、送話品質向上の側面から、モノラル信号において送話音声に混じった非定常雑音を抑圧することが求められる。
【0003】
コンピュータのファンや空調の動作音などのパワーの時間軸上での変化が小さい定常雑音については、定常雑音のパワースペクトルを推定して雑音混じり音声のパワースペクトルから差し引くスペクトルサブトラクション方式の雑音抑圧技術が普及している。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の従来技術では、あくまでパワー変化が小さい定常雑音に対応するものに過ぎないので、キーボードの打鍵音などのパワー変化が大きい非定常雑音を抑圧することが困難な一面がある。また、音源位置の違いを利用して非定常雑音も抑圧対象に可能なマイクアレイは、広いスペースやコストの面で制約が生じるので、適用範囲が限られる一面もある。
【0006】
1つの側面では、本発明は、音声信号に含まれる非定常雑音を抑圧できる雑音判定プログラム、雑音判定方法及び雑音判定装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
一態様では、雑音判定プログラムは、音声信号のスペクトルにおいて、周波数別の音圧レベルと、前記音声信号で閾値よりも周波数が低い帯域の音圧レベルとを比較し、前記周波数別の音圧レベルと、前記帯域の音圧レベルとの類似度に基づいて、各周波数に対応する成分が音声または雑音のいずれであるかを判定する、処理をコンピュータに実行させる。
【発明の効果】
【0008】
音声信号に含まれる非定常雑音を抑圧できる。
【図面の簡単な説明】
【0009】
【
図1】
図1は、信号処理装置の機能構成例を示すブロック図である。
【
図2】
図2は、音声のパワースペクトルの一例を示す図である。
【
図3】
図3は、マスキング効果の範囲の一例を示す模式図である。
【
図4】
図4は、パワースペクトルの一例を示す模式図である。
【
図5】
図5は、パワースペクトルの一例を示す模式図である。
【
図6】
図6は、雑音判定部の機能構成例を示すブロック図である。
【
図7】
図7は、SNR及び抑圧ゲインの上限値の関係の一例を示す図である。
【
図8】
図8は、抑圧ゲイン、抑圧ゲインの上限値及び類似度の関係の一例を示す図である。
【
図9】
図9は、信号処理の手順を示すフローチャートである。
【
図10】
図10は、雑音混じり音声の入力信号の一例を示す図である。
【
図11】
図11は、非定常雑音のパワースペクトルの一例を示す図である。
【
図12】
図12は、音声及び非定常雑音のパワースペクトルの一例を示す図である。
【
図13】
図13は、非定常雑音の抑圧後の雑音混じり音声信号の一例を示す図である。
【
図14】
図14は、非定常雑音の抑圧後のパワースペクトルの一例を示す図である。
【
図15】
図15は、応用例に係る信号処理装置の機能構成例を示すブロック図である。
【
図16】
図16は、雑音判定部の機能構成例を示すブロック図である。
【
図17】
図17は、抑圧ゲイン及び類似度の関係の一例を示す図である。
【
図18】
図18は、応用例に係る信号処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、添付図面を参照して本願に係る雑音判定プログラム、雑音判定方法及び雑音判定装置の実施例について説明する。各実施例には、あくまで1つの例や側面を示すに過ぎず、このような例示により数値や機能の範囲、利用シーンなどは限定されない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【実施例0011】
図1は、信号処理装置の機能構成例を示すブロック図である。
図1に示す信号処理装置10は、雑音混じり音声信号を処理する信号処理機能を提供するものである。このような信号処理機能の一環として、音声信号に混じった雑音を判定、あるいは抑圧するための雑音判定機能が提供される。
【0012】
1つの側面として、雑音判定機能は、雑音混じり音声信号の中でもモノラル信号をターゲットとすることが可能であると共に、雑音の中でも、とりわけキーボードの打鍵音や周囲の会話音声などといった非定常雑音の判定や抑圧をターゲットとすることが可能である。
【0013】
<利用シーンの一例>
1つの側面として、上記の雑音判定機能は、コールセンター向けの交換機に搭載される機能としてアドオンされ得る。他の側面として、上記の雑音判定機能は、ソフトフォンやWeb会議のアプリケーションにアドオンされ得る。更なる側面として、上記の雑音判定機能は、マイクロフォンユニットのファームウェアとして実現され得る。
【0014】
この他、上記の雑音判定機能は、クラウド型サービス、例えば音声認識サービスや音声分析AI(Artificial Intelligence)などのフロントエンドで参照されるライブラリの機能、例えばAPI(Application Programming Interface)として実現され得る。
【0015】
<音声の特性の一側面>
母音、例えば「あ」、「い」、「う」、「え」、「お」などは、声帯の振動によってパルス信号列が時間軸上で生じ、さらに、声帯から口までの声道で共鳴が生じることにより発声される。
【0016】
図2は、音声のパワースペクトルの一例を示す図である。
図2に示すグラフの横軸は、周波数を指し、グラフの縦軸は、各周波数の音声のパワー、言い換えれば音圧レベルを指す。なお、横軸の周波数は4kHzを256点で量子化した場合の例である。
図2に示すパワースペクトルによれば、声帯振動によるパルス信号列特性は、細かい山谷の繰り返し、いわゆる調波構造を有することが明らかである。さらに、声道の調音特性は、低域の透過率が高いローパス特性と共に、複数のピーク、例えば
図2に示された帯域P1~P4に対応する4つのピークを持つバンドパス特性を有することがわかる。
【0017】
<マスキング効果>
図3は、マスキング効果の範囲の一例を示す模式図である。
図3に示すグラフの横軸は、周波数を指し、グラフの縦軸は、パワーを指す。
図3には、一例として、音声成分S1が実線および太線で示されると共に、雑音成分N1及びN2が破線および太線で示されている。さらに、
図3には、音声成分S1によるマスキング効果の範囲がハッチングで示されている。
【0018】
図3に示すように、音声成分S1が周波数F11であるとする。この場合、周波数F11の近傍である周波数F12を持つ雑音成分N1のパワーは、音声成分S1のマスキング効果の範囲内となる。このため、雑音成分N1は、音声成分S1によりマスクされるので、知覚されない。一方、音声成分S1のマスキング効果は、周波数F11の近傍でない周波数F21を持つ雑音成分N2に対しては小さくなる。そして、雑音成分N2のパワーは、聴覚の閾値を超えるので、知覚される。
【0019】
<課題の一側面>
背景技術の欄で説明したスペクトルサブトラクション方式の雑音抑圧技術とは別の、非定常雑音を抑圧する従来技術では、周波数軸上において、高レベルの雑音成分が音声のパワースペクトルのエンベロープのレベルまで抑圧される。
【0020】
しかしながら、上記の従来技術では、音声成分のマスキング効果が及ばない雑音の残留成分が知覚されるので、定常雑音に比べてパワー変化が大きい非定常雑音を抑圧するのが困難な一面がある。
【0021】
このように音声成分のマスキング効果が及ばない事例として、雑音の残留成分の周波数近傍で音声成分のパワーが低い場合、あるいは雑音の残留成分の周波数近傍に音声成分が無い場合が挙げられる。例えば、音声の中でも、特に母音では、発声器官である声帯の周期的な振動によりパワースペクトルが山谷繰り返しの調波構造となるので、音声成分のパワーが低い帯域が発生しやすい。
【0022】
図4及び
図5は、パワースペクトルの一例を示す模式図である。
図4には、原音(音声+雑音)のパワースペクトルPS1が示されている一方で、
図5には、上記の非定常雑音を抑圧する従来技術による抑圧後のパワースペクトルPS2が示されている。
図4及び
図5に示すグラフの横軸は、周波数を指し、グラフの縦軸は、パワーを指す。さらに、
図4には、音声成分S1およびS2が実線および太線で示されると共に、雑音成分N1及びN2が破線および太線で示されている。さらに、
図5には、抑圧後の音声成分S11およびS22が実線および太線で示されると共に、抑圧後の雑音成分N11及びN22が破線および太線で示されている。さらに、
図5には、音声成分S11およびS22によるマスキング効果の範囲がハッチングで示されている。
【0023】
例えば、上記の従来技術では、
図4に示す原音のパワースペクトルPS1から低域のエンベロープが算出された上で低域のエンベロープから推定のエンベロープが算出されることにより、エンベロープEc1が得られる。そして、原音のパワースペクトルPS1がエンベロープEc1まで抑圧されることにより、
図5に示す抑圧後のパワースペクトルPS2が得られる。この結果、雑音成分N1が雑音成分N11まで抑圧されると共に、雑音成分N2が雑音成分N22まで抑圧される。これらのうち、雑音成分N11の周波数F12は、音声成分S11の周波数F11の近傍であり、雑音成分N11は、音声成分S11のマスキング効果の範囲内となる。このため、雑音成分N11は、音声成分S11によりマスクされるので、知覚されない。一方、音声成分S22のマスキング効果は、周波数F21の近傍でない周波数F22を持つ雑音成分N22に対しては小さい。そして、雑音成分N22のパワーは、聴覚の閾値を超えるので、知覚される。
【0024】
このように、上記の従来技術では、雑音成分N22の周波数F22近傍で音声成分S22のパワーが低い場合、音声成分S22のマスキング効果が及ばないので、雑音成分N22が知覚される。
【0025】
<課題解決アプローチの一側面>
そこで、本実施例に係る雑音判定機能は、モノラル信号の低域のパワーの時間変化と各々の周波数のパワーの時間変化との類似度のうち類似度が低い周波数の信号成分を非定常雑音として判定、あるいは抑圧するアプローチにより課題を解決する。
【0026】
このような課題解決アプローチのモチベーションは、次のような技術的知見があって始めて得られる。すなわち、音声は、発声器官である声帯の振動などが低域強調のバンドパス特性を持つ声道で共鳴されて発生するので、周波数軸上の低域から高域の広い帯域において、パワーの時間変化が類似する。従って、音声成分のレベルが高い低域のパワーの時間変化を音声成分のパワー変化とし、各周波数のパワーの時間変化との似かよりさを検出することにより、似かよりさが低い周波数の成分を、音声とは異なる非定常雑音と判定して抑圧できる。つまり、モノラル信号に混じる非定常雑音を狙い撃ちする抑圧、例えば1未満のゲイン乗算を実現できる。この結果、非定常雑音に対応する雑音の残留成分のパワーを聴覚で知覚する閾値を超えないレベル、あるいは音声成分によるマスキング効果が得られるレベルまで抑圧できる。
【0027】
したがって、本実施例に係る雑音判定機能によれば、音声信号に含まれる非定常雑音を抑圧できる。
【0028】
<信号処理装置の構成>
次に、本実施例に係る信号処理装置の機能構成例を説明する。
図1には、上記の信号処理機能に対応するブロックが模式化されている。
図1に示すように、信号処理装置10は、入力部11と、窓掛部12と、FFT(Fast Fourier Transform)部13と、音声区間検出部14と、IFFT(Inverse FFT)部15と、加算部16と、雑音判定部17とを有する。
【0029】
入力部11は、雑音混じり音声である入力信号を窓掛部12へ入力する処理部である。あくまで一例として、入力信号は、図示しないマイクロフォン、例えばモノラルマイクから取得することができる。他の一例として、入力信号は、ネットワークを介して取得されてよい。この他、入力信号は、ストレージ、あるいはリムーバブルメディアなどから取得されてもよい。このように、入力信号は、任意のソースから取得されてよい。
【0030】
窓掛部12は、雑音混じり音声である入力信号のデータに時間軸上で特定の分析フレーム長の窓関数を掛ける処理部である。あくまで一例として、窓掛部12は、フレーム周期ごとに、入力部11により入力される入力信号のうち特定の時間長のフレームを抽出して窓関数、例えばハニング窓を掛ける。このとき、窓関数による情報欠損を軽減する側面から、窓掛部12は、前後の分析フレームを任意の割合でオーバーラップさせることができる。例えば、一定間隔、例えばフレーム周期256サンプルごとに、固定長、例えば512サンプルを分析フレーム長とすることで、オーバーラップ率を50%とすることができる。このようにして得られた分析フレームは、FFT部13および音声区間検出部14へ出力される。
【0031】
FFT部13は、FFT、いわゆる高速フーリエ変換を実行する処理部である。あくまで一例として、FFT部13は、窓掛部12により窓関数が掛けられた分析フレームにFFTを適用する。これにより、分析フレームの入力信号が振幅スペクトルおよび位相スペクトルへ変換される。その後、FFT部13は、FFTで得られた振幅スペクトルからパワースペクトルを算出して雑音判定部17へ出力する一方で、FFTで得られた位相スペクトルをIFFT部15へ出力する。なお、ここでは、FFTを適用する例を挙げたが、フーリエ変換、あるいは離散フーリエ変換などの他のアルゴリズムを適用して時間領域から周波数領域へ変換することとしてもよい。
【0032】
音声区間検出部14は、音声区間を検出する処理部である。あくまで一例として、音声区間検出部14は、入力信号の振幅および零交差に基づいて音声区間の開始および終了を検出することができる。他の一例として、音声区間検出部14は、分析フレームごとにGMM(Gaussian mixture model)に従って音声の尤度および非音声の尤度を算出してこれらの尤度の比から音声区間を検出することもできる。これにより、入力信号の分析フレームごとに当該分析フレームが音声区間または非音声区間にラベリングされる。その後、音声区間検出部14は、分析フレームのラベル、例えば音声区間または非音声区間やその尤度などを雑音判定部17へ出力する。
【0033】
IFFT部15は、IFFT、いわゆる逆高速フーリエ変換を実行する処理部である。あくまで一例として、IFFT部15は、FFT部13により出力される位相スペクトルと、雑音判定部17による抑圧ゲイン乗算後に出力されるパワースペクトルとから得られる振幅スペクトルにIFFTを適用する。これにより、スペクトルが分析フレーム長の時間波形へ逆変換される。このようにIFFTで得られた分析フレーム長の時間波形が加算部16へ出力される。
【0034】
加算部16は、分析フレームの時間波形と、前の分析フレームで得られた時間波形とをオーバーラップ加算を行う処理部である。あくまで一例として、加算部16は、IFFT部15により分析フレームの時間波形が出力された場合、当該分析フレームの時間波形と、1つ前の分析フレームの時間波形とをオーバーラップ率に対応する割合でオーバーラップさせて加算する。このようにして得られる雑音抑圧後の音声信号は、信号処理装置10の利用シーンに応じて任意の出力先へ出力することができる。
【0035】
<雑音判定部17の構成>
図6は、雑音判定部17の機能構成例を示すブロック図である。
図6には、上記の雑音判定機能に対応するブロックが模式化されている。
図6に示すように、雑音判定部17は、第1時間変化算出部17Aと、第2時間変化算出部17Bと、類似度算出部17Cと、上限値算出部17Dと、抑圧ゲイン算出部17Eと、抑圧部17Fとを有する。
【0036】
第1時間変化算出部17Aは、低域のパワーの時間変化を算出する処理部である。ここで言う「低域」とは、入力信号の周波数レンジのうち低い方から特定の割合、例えば1/4に対応する周波数帯域を指す。このような低域からは直流成分を除外することができる。
【0037】
あくまで一例として、第1時間変化算出部17Aは、下記の式(1)に従って低域のパワー Pow_low(t)を算出する。下記の式(1)における「t」は、分析フレームの番号を指す。下記の式(1)における「f」は、周波数ビンのインデックスを指し、例えば、0からN-1までの番号で識別される。下記の式(1)における「N」は、分析フレーム長を指す。
【数1】
【0038】
例えば、上記の式(1)の例で言えば、fの下限値を指定する周波数ビンのインデックスに1番を設定することで、周波数ビンのインデックスの0番に対応する直流成分が除去される。さらに、fの上限値を指定する周波数ビンのインデックスにN/8番を設定することで、周波数レンジの1/4に対応する周波数帯域を低域の上限に指定できる。
【0039】
FFTでは、分析フレームの時間波形は周波数軸上のスペクトルに変換され、0Hzからサンプリング周波数までの範囲が分析フレーム長N(=512)で離散化される。ここで、標本化定理の側面から、時間波形の周波数レンジは、サンプリング周波数の1/2未満とされるので、周波数レンジに含まれる周波数ビンの総数は、直流成分も含めるとN/2となる。このため、周波数レンジの1/4を低域とする場合、低域に含まれる周波数ビンの数は、N/8(=(N/2)/4)となる。また、サンプリング周波数が8kHzで分析フレーム長が512であるとしたとき、周波数分解能は、約15.6Hzとなる。
【0040】
このように低域のパワー Pow_low(t)が算出された後、第1時間変化算出部17Aは、下記の式(2)に従って低域のパワー Pow_low(t)の時間変化R_Pow_low(t)を算出することができる。
【数2】
【0041】
第2時間変化算出部17Bは、各周波数のパワーの時間変化を算出する処理部である。あくまで一例として、第2時間変化算出部17Bは、下記の式(3)に従って各周波数のパワーPow(t,f)の時間変化R_Pow(t,f)を算出することができる。
【数3】
【0042】
類似度算出部17Cは、低域のパワーの時間変化と各周波数のパワーの時間変化との類似度を算出する処理部である。あくまで一例として、類似度算出部17Cは、下記の式(4)に従って低域のパワーの時間変化R_Pow_low(t)と各周波数のパワーの時間変化R_Pow(t,f)との類似度S(t,f)を算出できる。この類似度S(t,f)の値が1に近いほど両者が似通っていることを意味する。
【数4】
【0043】
上限値算出部17Dは、抑圧ゲインの上限値を算出する処理部である。あくまで一例として、上限値算出部17Dは、音声区間の確からしさ、例えば尤度に基づいて抑圧ゲインの上限値を算出する。ここで、音声区間の確からしさは、一例として、音声区間検出部14による音声区間の検出結果から計算する雑音区間の平均パワーと現在の分析フレームの入力信号のパワーの比、いわゆるSNRを下記の式(5)に従って算出できる。例えば、SNRの値が大きいほど音声区間であることが確からしいことを意味する。なお、下記の式(5)における「N」は、定常雑音の平均パワー(長時間平均)に対応し得る。
SNR=10log10(入力信号のパワー/雑音区間の平均パワー)・・・(5)
【0044】
上記のSNRを用いて、上限値算出部17Dは、抑圧ゲインの上限値g_max(≦1)を算出する。このような抑圧ゲインの上限値g_maxの算出には、SNRおよび抑圧ゲインの上限値の対応関係が定義されたルックアップテーブルや関数などを用いることができる。
図7は、SNR及び抑圧ゲインの上限値の関係の一例を示す図である。
図7に示すグラフの横軸は、SNRを指し、グラフの縦軸は、抑圧ゲインの上限値を指す。
図7に示すように、ルックアップテーブルには、SNRの値が高いほど高い抑圧ゲインの上限値g_maxが定義される。
図7に示すΔ、Δ′およびεの各々は、一例として、Δ=3.0(dB)、Δ′=6.0(dB)、ε=0.25が設定される。
【0045】
抑圧ゲイン算出部17Eは、抑圧ゲインを算出する処理部である。あくまで一例として、抑圧ゲイン算出部17Eは、上限値算出部17Dにより算出された抑圧ゲインの上限値g_maxと、類似度算出部17Cにより算出された類似度S(t,f)とに基づいて抑圧ゲインg(t,f)を算出する。
図8は、抑圧ゲイン、抑圧ゲインの上限値及び類似度の関係の一例を示す図である。
図8に示すように、抑圧ゲインは、類似度が低いほど、すなわちS(t,f)の値が1から離れるほど小さく算出される。
図8に示すα、α′、β、β′およびγの各々は、一例として、α=1.4、α′=2.0、β=0.7、β′=0.5、γ=0.25が設定される。
【0046】
抑圧部17Fは、パワースペクトルの雑音成分を抑圧する処理部である。あくまで一例として、抑圧部17Fは、下記の式(6)の通り、各周波数のパワースペクトルPow(t,f)と、抑圧ゲインg(t,f)とを乗算することにより、雑音抑圧後のパワースペクトルPow′(t,f)を算出する。
Pow′(t,f)=g(t,f)Pow(t,f)・・・(6)
【0047】
<処理の流れ>
図9は、信号処理の手順を示すフローチャートである。この処理は、あくまで一例として、雑音混じり音声信号の入力が終了するまで一定間隔ごとに反復して実行され得る。
図9に示すように、窓掛部12は、入力部11により入力される雑音混じり音声の入力信号から、窓関数を分析フレーム長の50%シフトして、最新の分析フレームを抽出して窓関数を掛ける(ステップS101)。
【0048】
続いて、FFT部13は、ステップS101で窓関数が掛けられた分析フレームにFFTを適用する(ステップS102)。そして、音声区間検出部14は、ステップS101で得られた分析フレームの音声区間を検出する(ステップS103)。
【0049】
その後、第1時間変化算出部17Aは、ステップS102のFFTで得られたパワースペクトルから低域のパワー Pow_low(t)の時間変化R_Pow_low(t)を算出する(ステップS104)。
【0050】
また、ステップS102で実行されるFFTの周波数ビンの個数N-1に対応する回数の分、下記のステップS105から下記のステップS108までの処理を繰り返すループ処理1が開始される。
【0051】
すなわち、第2時間変化算出部17Bは、ステップS102のFFTで得られたパワースペクトルからループ処理中の周波数ビンfのパワーPow(t,f)の時間変化R_Pow(t,f)を算出する(ステップS105)。
【0052】
続いて、類似度算出部17Cは、ステップS104で得られた低域のパワーの時間変化R_Pow_low(t)と、ループ処理中の周波数ビンfのパワーの時間変化R_Pow(t,f)との類似度S(t,f)を算出する(ステップS106)。
【0053】
そして、上限値算出部17Dは、ステップS103で得られる音声区間の検出結果から求まるSNRを用いて、抑圧ゲインの上限値g_max(≦1)を算出する(ステップS107)。
【0054】
その上で、抑圧ゲイン算出部17Eは、ステップS107で算出された抑圧ゲインの上限値g_maxと、ステップS106で算出された類似度S(t,f)とに基づいて抑圧ゲインg(t,f)を算出する(ステップS108)。
【0055】
このようなループ処理1が繰り返されることにより、1番目の周波数ビンからN番目の周波数ビンまでの各周波数の抑圧ゲインg(t,f)を得ることができる。そして、ループ処理1が終了すると、抑圧部17Fは、各周波数のパワースペクトルPow(t,f)と、抑圧ゲインg(t,f)とを乗算することにより、雑音抑圧後のパワースペクトルPow′(t,f)を算出する(ステップS109)。
【0056】
その後、IFFT部15は、ステップS102によるFFTの実行結果として出力される位相スペクトルと、ステップS109で算出された抑圧後のパワースペクトルPow′(t,f)とから得られる振幅スペクトルにIFFTを適用する(ステップS110)。
【0057】
そして、加算部16は、ステップS110のIFFTで得られた分析フレームの時間波形の前半50%と、1つ前の分析フレームの時間波形の後半50%とをオーバーラップさせて加算し(ステップS111)、処理を終了する。
【0058】
なお、
図9に示すフローチャートでは、上記のステップS105から上記のステップS108までの処理がループ処理として実行される例を挙げたが、これに限定されず、並列して実行されることとしてもよい。
【0059】
<効果の一側面>
上述してきたように、本実施例に係る雑音判定部17は、モノラル信号のうち、低域のパワーの時間変化と、各々の周波数のパワーの時間変化との類似度のうち類似度が低い周波数の信号成分を非定常雑音として判定、あるいは抑圧する。
【0060】
図6には、あくまで一例として、従来技術であるスペクトルサブトラクションによる抑圧では抑圧しきれない非定常雑音が混じる音声信号のパワースペクトルPS1が雑音判定部17へ入力される例が示されている。このようなパワースペクトルPS1が入力されたとしても、低域のパワーの時間変化と各々の周波数のパワーの時間変化との類似度のうち類似度が低い周波数の信号成分、すなわち雑音成分N1およびN2を狙い撃ちする抑圧を実現できる。この結果、
図6に示すパワースペクトルPS3に示す通り、非定常雑音に対応する雑音の残留成分N31およびN42のパワーを聴覚で知覚する閾値を超えないレベル、あるいは音声成分によるマスキング効果が得られるレベルまで抑圧できる。
【0061】
したがって、本実施例に係る雑音判定部17によれば、音声信号に混じる非定常雑音を抑圧することが可能である。
【0062】
図10は、雑音混じり音声の入力信号の一例を示す図である。
図10に示すように、入力信号には、非定常雑音のみが含まれる時間波形の区間と、音声および非定常雑音が同時に存在する時間波形の区間とが含まれる。これらのうち、前者のパワースペクトルを
図11に示すと共に、後者のパワースペクトルを
図12に示す。
図11は、非定常雑音のパワースペクトルの一例を示す図である。
図12は、音声及び非定常雑音のパワースペクトルの一例を示す図である。
図11及び
図12に示すように、非定常雑音のパワースペクトルに含まれる帯域P5の雑音成分が音声及び非定常雑音のパワースペクトルの帯域P5の音声成分に重畳することにより、音声の調波構造を不明瞭にしている。これにより、音声の知覚が困難になる。
【0063】
図13は、非定常雑音の抑圧後の雑音混じり音声信号の一例を示す図である。
図14は、非定常雑音の抑圧後のパワースペクトルの一例を示す図である。
図13に示す非定常雑音の抑圧後の音声信号と、
図10に示された雑音混じり音声の入力信号とを対比すると、本実施例に係る雑音判定機能が
図11に示された雑音に適用されることにより、非定常雑音のみが含まれる区間でパワーのレベルが低減できていることが明らかである。さらに、
図14に示す非定常雑音の抑圧後のパワースペクトルと、
図12に示されたパワースペクトルとを対比すると、帯域P5の雑音成分が抑圧されており、音声の調波構造が明確化されていることが明らかである。したがって、本実施例に係る雑音判定機能によれば、音声の知覚が可能になる。
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。
切替え部21Aは、FFTで得られたパワースペクトルを抑圧部22または雑音判定部23のいずれに入力するのかを切り替える処理部である。1つの側面として、切替え部21Aは、分析フレームが非音声区間である場合、FFTで得られたパワースペクトルを抑圧部22へ入力する。他の側面として、切替え部21Aは、分析フレームが音声区間である場合、FFTで得られたパワースペクトルを雑音判定部23へ入力する。
切替え部21Bは、抑圧部22または雑音判定部23のいずれかの出力をIFFT部15へ入力する処理部である。1つの側面として、切替え部21Bは、分析フレームが非音声区間である場合、抑圧部22により抑圧されたパワースペクトルをIFFT部15へ入力する。他の側面として、切替え部21Bは、分析フレームが音声区間である場合、雑音判定部23により抑圧されたパワースペクトルをIFFT部15へ入力する。
抑圧部22は、FFTで得られたパワースペクトルを抑圧する処理部である。あくまで一例として、抑圧部22は、FFTで得られた各周波数のパワースペクトルPow(t,f)に一律の抑圧ゲイン、例えば0.25を乗算する。
続いて、FFT部13は、ステップS101で窓関数が掛けられた分析フレームにFFTを適用する(ステップS102)。そして、音声区間検出部14は、ステップS101で得られた分析フレームの音声区間または非音声区間を検出する(ステップS103)。
このとき、分析フレームが音声区間である場合(ステップS301Yes)、第1時間変化算出部17Aは、ステップS102のFFTで得られたパワースペクトルから低域のパワー Pow_low(t)の時間変化R_Pow_low(t)を算出する(ステップS104)。
また、ステップS102で実行されるFFTの周波数ビンの個数N-1に対応する回数の分、ステップS105、ステップS106およびステップS302の処理を繰り返すループ処理1が開始される。
すなわち、第2時間変化算出部17Bは、ステップS102のFFTで得られたパワースペクトルからループ処理中の周波数ビンfのパワーPow(t,f)の時間変化R_Pow(t,f)を算出する(ステップS105)。
続いて、類似度算出部17Cは、ステップS104で得られた低域のパワーの時間変化R_Pow_low(t)と、ループ処理中の周波数ビンfのパワーの時間変化R_Pow(t,f)との類似度S(t,f)を算出する(ステップS106)。
その上で、抑圧ゲイン算出部23Aは、抑圧ゲインの固定上限値、例えば「1」と、ステップS106で算出された類似度S(t,f)とに基づいて抑圧ゲインg(t,f)を算出する(ステップS302)。
このようなループ処理1が繰り返されることにより、1番目の周波数ビンからN番目の周波数ビンまでの各周波数の抑圧ゲインg(t,f)を得ることができる。そして、ループ処理1が終了すると、抑圧部17Fは、各周波数のパワースペクトルPow(t,f)と、抑圧ゲインg(t,f)とを乗算することにより、雑音抑圧後のパワースペクトルPow′(t,f)を算出する(ステップS109)。
一方、分析フレームが非音声区間である場合(ステップS301No)、抑圧部22は、次のような処理を実行する。すなわち、抑圧部22は、FFTで得られた各周波数のパワースペクトルPow(t,f)に一律の抑圧ゲイン、例えば0.25を乗算することにより、抑圧後のパワースペクトルPow′(t,f)を算出する(ステップS303)。
その後、IFFT部15は、ステップS102のFFTの実行結果として出力される位相スペクトルと、ステップS109又はS303で算出された抑圧後のパワースペクトルPow′(t,f)とから得られる振幅スペクトルにIFFTを適用する(ステップS110)。
そして、加算部16は、ステップS110のIFFTで得られた分析フレームの時間波形の前半50%と、1つ前の分析フレームの時間波形の後半50%とをオーバーラップさせて加算し(ステップS111)、処理を終了する。
以上のように、応用例に係る雑音判定部23においても、上記の実施例1と同様、音声信号に混じる非定常雑音を抑圧することが可能であると共に、抑圧ゲインの上限値の固定が可能である。
上記の実施例1では、類似度に基づいてパワースペクトルを抑圧する例を挙げたが、類似度に基づいて各周波数の成分が音声または雑音のいずれであるのかを判定することとしてもよい。例えば、類似度が低いほど雑音の可能性が高く、類似度が高いほど音声の可能性が高いと判定できる。また、上記の実施例1では、低域のパワーの時間変化と、各周波数ビンのパワーの時間変化とを比較する例を挙げたが、低域のパワーと、各周波数ビンのパワーとを比較してその類似度に基づいて各周波数の成分が音声または雑音のいずれであるのかを判定することとしてもよい。
なお、上記の雑音判定プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に雑音判定プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から雑音判定プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに雑音判定プログラム170aを記憶させておく。このように記憶された雑音判定プログラム170aをコンピュータ100にダウンロードさせた上で実行させるようにしてもよい。
(付記3)前記周波数別の音圧レベルの時間変化と、前記帯域の音圧レベルの時間変化との各々を、前記スペクトルを分析する分析フレーム間の音圧レベルの比から算出する処理を前記コンピュータにさらに実行させる、
ことを特徴とする付記2に記載の雑音判定プログラム。
(付記6)前記抑圧する処理は、前記音声信号に対する音声区間の検出結果に応じて、前記判定する処理で雑音と判定された周波数の成分を抑圧するか、あるいは全ての周波数の成分を抑圧するのかを切り替える処理を含む、
ことを特徴とする付記5に記載の雑音判定プログラム。
(付記9)前記周波数別の音圧レベルの時間変化と、前記帯域の音圧レベルの時間変化との各々を、前記スペクトルを分析する分析フレーム間の音圧レベルの比から算出する処理を前記コンピュータがさらに実行する、
ことを特徴とする付記8に記載の雑音判定方法。
(付記12)前記抑圧する処理は、前記音声信号に対する音声区間の検出結果に応じて、前記判定する処理で雑音と判定された周波数の成分を抑圧するか、あるいは全ての周波数の成分を抑圧するのかを切り替える処理を含む、
ことを特徴とする付記11に記載の雑音判定方法。
(付記15)前記周波数別の音圧レベルの時間変化と、前記帯域の音圧レベルの時間変化との各々を、前記スペクトルを分析する分析フレーム間の音圧レベルの比から算出する処理を前記制御部がさらに実行する、
ことを特徴とする付記14に記載の雑音判定装置。
(付記18)前記抑圧する処理は、前記音声信号に対する音声区間の検出結果に応じて、前記判定する処理で雑音と判定された周波数の成分を抑圧するか、あるいは全ての周波数の成分を抑圧するのかを切り替える処理を含む、
ことを特徴とする付記17に記載の雑音判定装置。