(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-23
(45)【発行日】2022-07-01
(54)【発明の名称】畳み込みニューラルネットワークに基づく電話音声信号の強調のための方法
(51)【国際特許分類】
G10L 21/0232 20130101AFI20220624BHJP
G10L 25/30 20130101ALI20220624BHJP
G10L 25/24 20130101ALI20220624BHJP
G10L 25/60 20130101ALI20220624BHJP
【FI】
G10L21/0232
G10L25/30
G10L25/24
G10L25/60
【外国語出願】
(21)【出願番号】P 2020174530
(22)【出願日】2020-10-16
【審査請求日】2021-05-13
(32)【優先日】2020-02-14
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】520404458
【氏名又は名称】システム・ワン・ノック・アンド・ディベロップメント・ソリューションズ・ソシエダッド・アノニマ
【氏名又は名称原語表記】SYSTEM ONE NOC & DEVELOPMENT SOLUTIONS, S.A.
(74)【代理人】
【識別番号】100145403
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100132241
【氏名又は名称】岡部 博史
(74)【代理人】
【識別番号】100135703
【氏名又は名称】岡部 英隆
(72)【発明者】
【氏名】ハビエル・ガリャルト・マウリ
(72)【発明者】
【氏名】イニゴ・ガルシア・モルテ
(72)【発明者】
【氏名】ダヤナ・リバス・ゴンサレス
(72)【発明者】
【氏名】アントニオ・ミゲル・アルティアガ
(72)【発明者】
【氏名】アルフォンソ・オルテガ・ヒメネス
(72)【発明者】
【氏名】エドゥアルド・リェイダ・ソラノ
【審査官】米倉 秀明
(56)【参考文献】
【文献】特開2018-028580(JP,A)
【文献】特表2021-516786(JP,A)
【文献】特表2002-517021(JP,A)
【文献】特表2019-531494(JP,A)
【文献】Israel Cohen, Baruch Berdugo,Speech enhancement for non-stationary noise environments,Signal Processing,Volume 81, Issue 11,2001年06月26日,pp.2403-2418
【文献】Yang Xiang, Changchun Bao,Speech Enhancement Based on Cepstral Mapping and Deep Neural Networks,2018 IEEE 4th International Conference on Computer and Communications,2018年12月10日,pp.1263-1267
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0232
G10L 25/30
G10L 25/24
G10L 25/60
(57)【特許請求の範囲】
【請求項1】
畳み込みニューラルネットワークに基づいて電話音声信号を強調するための方法であって、
前記電話音声信号のスペクトル表現の振幅及び位相を抽出することを含む前処理段階(A);
前記電話音声信号のスペクトル表現の振幅に以下のステップを適用することを含む雑音低減段階(B):
スペクトル推定(15)を適用するステップ;
知覚的表現(16、17)を計算するステップ;
畳み込みニューラルネットワーク(18)を適用し、スペクトル推定値(15)と前記知覚的表現(16、17)とに対応した入力を用いて、周波数に依存して時間的に変化する行列/ベクトルからなるウィーナーゲイン推定値(19)を出力として生成するステップ;
次式の関数f1の強調フィルタ内で前記ウィーナーゲイン推定値を使用するステップ:
【数1】
ここで、tは時間セグメント、fは周波数ビン、x
tをスペクトル及び知覚パラメータのベクトルとして
【数2】
、G
minは定数、p(t,f)は音声存在確率、及び
【数3】
であり;
及び前記ウィーナーゲイン推定値を音声存在確率(21)として使用する;
前記関数f1を音声強調フィルタとして適用するステップ;
前記雑音低減段階(B)で強調された振幅と初期位相をマージすることを含む後処理段階(C)
を含む、方法。
【請求項2】
前記畳み込みニューラルネットワーク(18)は、最適ウィーナー推定量と前記畳み込みニューラルネットワーク(18)の出力との間の平均二乗誤差であって次式により定義されるコスト関数
【数4】
を用いて訓練され、ここで、
【数5】
は教師あり手法で得られ、S
X(t,f)及びS
N(t,f)は、それぞれクリーンな音声信号及び雑音のパワースペクトル密度の推定値である
請求項1に記載の方法。
【請求項3】
前記電話音声信号のスペクトル表現の振幅及び位相を抽出するための前記前処理段階(A)は、音声信号を数十ミリ秒の重なり合うセグメントに分割し、ハミング窓またはハニング窓を適用した後、フーリエ変換を行うことをさらに含む
請求項1に記載の方法。
【請求項4】
前記スペクトル推定値は、ウェルチ法を用いて計算される
請求項1に記載の方法。
【請求項5】
前記知覚的表現は、メル尺度フィルタバンク(16)を適用することにより計算される
請求項1に記載の方法。
【請求項6】
前記知覚的表現は、メル周波数ケプストラム係数(MFCC)(17)により行われる
請求項1に記載の方法。
【請求項7】
前記前処理段階(A)において得られた位相と前記雑音低減段階(B)において得られたスペクトル振幅とをマージするための前記後処理段階(C)は、逆フーリエ変換を適用し、その後、音声信号の時間的再構成アルゴリズムを適用することをさらに含む
請求項1又は6に記載の方法。
【請求項8】
前記畳み込みニューラルネットワーク(18)は、因果的であって且つ低遅延性を有する少なくとも1つの畳み込み層を備える
請求項2に記載の方法。
【請求項9】
前記前処理段階(A)は、SNR、歪み、及びPOLQAから選択された音響品質尺度を用いて、音声信号の品質を客観的に評価すること(2)をさらに含む
請求項1に記載の方法。
【発明の詳細な説明】
【発明の目的】
【0001】
深層畳み込みニューラルネットワーク(CNN)に基づく電話音声信号の強調のための本方法は、通話中に日常的なシナリオで発生する音響歪みの影響を低減することが可能である。これらの歪みは、加法性雑音または残響などの形で現れ、電話回線によって伝送される音声の明瞭度に影響を与えて、これにより通話者間に不快感をもたらし、あるいは通話を諦める原因にさえなり得る。本発明は、単一チャネルの電話音声信号を低遅延で強調する方法である。本発明の方法の新規性は、本方法が古典的なゲイン法に基づいて、畳み込みニューラルネットワーク(CNN)を用いてウィーナー推定量を学習する雑音低減方法でるという事実にある。そして本方法は、これを用いて、信号の各時間周波数成分に対して、雑音電力よりも音声電力を高めるためのフィルタのゲインを計算する。本方法の本質的な要素としてウィーナーゲイン推定量を選択することで、この尺度はその特性から深層学習アプローチにより推定されることに非常に適しているため、推定誤差に対する脆弱性を減少させることができる。本発明の方法は、音声信号の品質を評価する機能を任意に組み入れてもよく、それに応じて、続けて音響増強を適用する。
【0002】
従来の研究と比較して、本発明は、効率を大幅に向上させ、現実的な雑音(非定常、混合、音声との相関など)の処理を可能にする点、及び推定が非再帰的に行われるため、誤差が伝播することを防ぐという点においても改善されている。本発明は、2つの動作モードを可能にする。1つは、因果的処理に基づくリアルタイム解析を必要とする用途、及び因果性を要する環境に適した動作モードであり、もう1つは、非因果的な方法で完全な信号を利用する、そのような利用を可能にする要件を備えた用途のための動作モードである。最後に、本方法は処理における低遅延性を示す実装で構成されることが強調される。
【技術分野】
【0003】
本発明は、電気通信技術の分野に属し、より具体的には、電話音声における音響歪みを低減することを可能にする技術に関する。
【背景技術】
【0004】
日常的な場面、例えば、家庭、オフィス、公共の公園、街路などで行われる電話での会話は、ほとんどの場合、環境騒音、屋内環境でハンズフリー装置を使用するときに通常発生する残響効果、遠くのマイクなどの影響を受ける。これらの音響歪みは、音声と組み合わさり、全体として電話回線を介して伝送される。このようにして、相手側に到達する音声の明瞭度は、音声信号の影響のレベルに応じて損なわれる。中程度の歪みであれば、会話に参加している話者に不快感を与え得る。しかし、信号の影響度が高くなると、通話者は通話の終了を検討することさえあり得る。音声を強調するための方法の使用は、このような望ましくない状況の繰り返しがサービスの品質に影響を与えないことに寄与し、したがって電話サービスプロバイダの評判を良くすることに寄与する。
【0005】
これらの方法は、実環境に典型的な歪みを有する音声信号を処理することができ、より良い音響品質を有する信号を提供することができる。ゲインに基づいてスペクトル領域で音声を強調する方法は、単一チャネルの音声信号における雑音を低減するための確立されたパラダイムである(非特許文献1)。ゲイン法は、音声信号の時間周波数表現を取得し、各スペクトル領域の雑音の影響度に応じて、周波数に依存して且つ時間的に変化するゲインを推定することから構成される。このゲインは、音声の存在確率によって決定される音声または雑音の優勢に応じて、信号のスペクトル表現の時間周波数成分を修正するために使用される。音声信号の時間周波数表現に強調フィルタを適用すると、クリーンな音声信号に近くなる修正版のスペクトルが生成される。その後、時間領域において強調された信号のサンプルを得るために、再構成アルゴリズムにより、初めに使用された変換に従って逆変換が適用される。
【0006】
先行技術では、このパラダイムから派生した統計的アルゴリズムの大規模なファミリーが存在する。その中でも、古典的なウィーナーフィルタリング(非特許文献2)及びスペクトル減算(非特許文献3)に加えて、その多数の変種;短時間スペクトル振幅推定(STSA)(非特許文献4)及びその進化形、対数スペクトル振幅推定(LSA)(非特許文献5)に言及することは不可欠である。これらもまた多くの提案、例えば、最適修正された対数スペクトル振幅推定(Estimator of the Optimally-Modified Logarithmic Spectral Amplitude (OMLSA))(非特許文献6)などのためのインスピレーションとなっている。しかしながら、この枠組みの統計的基礎は、特に、雑音の種類の混合、インパルス雑音、音声と相関のある雑音などを有し得る現実の雑音環境に直面したとき、手法の内部推定の有効性に限界がある。
【0007】
深層機械学習の復活は、古典的な雑音低減技術に影響を与えている。一般に、深層ニューラルネットワークに基づく単一チャネル音声強調は、マスク学習またはマスク近似ベースの手法と、特徴マッピングまたは信号近似ベースの手法との2つの基本的な動向に分けられる。しかし、何れの場合においても、ゲイン法は基本的なパラダイムとして維持される。
【0008】
本提案に関連する文脈での先行研究、すなわち、深層ニューラルネットワーク(DNN)及びマスクベースの手法を用いた単一チャンネル音声の強調手法は、それらが提案する手法の適用の文脈と、それらが提示する新規性の本質との両方によって相違する。
【0009】
本発明の基礎となる先行技術は、以下で構成される。
【0010】
非特許文献7は、オートエンコーダーDNNを用いてクリーンな音声信号のスペクトルを推定し、再帰的推定処理を続けて音声強調フィルタを得ることを提案した。これは、ゲイン法の深層学習への予備的な近似であった。しかし、一般的な雑音低減法の文脈は、この提案とは顕著に異なっていた。非特許文献7では、DNNは、ウィーナーゲインを得るための中間段階であるクリーンな音声信号を推定するためにのみ使用されたが、本発明では、DNNは、ウィーナーゲインを直接推定する。そして、非特許文献7では、古典的なゲイン法の枠組みを構成する以下の要素(the following elements)をそのまま維持することで、結果の非常に控えめな改善が得られた。
【0011】
さらに、いくつかの研究は、計算的聴覚情景分析(Computational Auditory Scene Analysis (CASA))の観点からの解決策の進展に基づく。これらは、理想バイナリマスク(IBM)または理想比率マスク(IRM)を推定することに重点を置いている。これらのマスクの定義は、ウィーナーゲイン推定に似ているが、完全に同じではない。数学的には、IRMはウィーナーゲインよりも一般的に定義されており、その実装のバリエーションを可能にしている。
【0012】
非特許文献8では、DNNは、ウィーナーゲイン推定から離れて、IRMから生じて(starting from the IRM)瞬時SNRを充足する確率変数(a variant which implements the instantaneous SNR)を推定する。そして、修正された信号の時間周波数表現が音声認識システムに配信され、信号の強調が復元される(reconstructed)ことはない。
【0013】
非特許文献9の手法は、IRMの平方根を推定する。一方、非特許文献10では、IRMが直接推定される。本発明とは異なり、これらの方法は補聴器の分野で機能するため、処理後に得られる信号は補聴器デバイスに直接渡され、したがって復元されることはない。
【先行技術文献】
【非特許文献】
【0014】
【文献】Philipos C. Loizou, Speech Enhancement: Theory and Practice, CRC Press, New York, 2013
【文献】Norbert Wiener. “Extrapolation, Interpolation, and Smoothing of Stationary Time Series”. New York: Wiley. ISBN 978-0-262-73005-1, 1949
【文献】S. Boll, “Suppression of acoustic noise in speech using spectral subtraction” IEEE Trans. on Acoustic, Speech and Signal Processing, vol. 27, no. 2, pp. 113-120, 1979
【文献】Y. Ephraim and D. Malah, “Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator” IEEE Trans. on Acoustic, Speech and Signal Processing, vol. 32, no. 6, pp. 1109-1121, 1984
【文献】Y. Ephraim and D. Malah, “Speech enhancement using minimum-mean square log spectral amplitude estimator” IEEE Trans. on Acoustic, Speech and Signal Processing, vol. 33, no. 2, pp. 443-445, 1985
【文献】I. Cohen and B. Berdugo, “Speech enhancement for non-stationary noise environments” Signal Processing, vol. 81, no. 11, pp. 2403-2418, 2001
【文献】B.Y. Xia and C.-C. Bao, “Speech enhancement with weighted denoising auto-encoder,” in Proc. Interspeech, 2013
【文献】A. Narayanan and D. L. Wang, “Ideal ratio mask estimation using deep neural networks for robust speech recognition” in IEEE International Conference on Acoustic, Speech and Signal Processing (ICASSP), 2013, pp. 7092-7096
【文献】E. W. Healy, S. E. Yoho, J. Chen, Y. Wang, and D. Wang, “An algorithm to increase speech intelligibility for hearing-impaired listeners in novel segments of the same noise type”, The Journal of the Acoustical Society of America, vol. 138, no. 3, pp. 1660-1669, 2015
【文献】Tobias Goehring, F. Bolner, J.J. Monaghan, B. van Dijk, A. Zarowski, and S. Bleeck, “Speech enhancement based on neural networks improves speech intelligibility in noise for cochlear implant users”, The Journal of Hearing research, vol. 344, pp. 183-194, 2017
【発明の概要】
【0015】
本発明の第1の態様では、畳み込みニューラルネットワークに基づいて電話音声信号を強調するための方法が開示される。本発明の方法は、振幅及びスペクトル位相から構成される電話音声信号に適用される。本方法は、以下の段階を含む:
電話音声信号のスペクトル表現の振幅及び位相を抽出することを含む前処理段階;
電話音声信号のスペクトル表現の振幅に以下のステップを適用することを含む雑音低減段階:
スペクトル推定を適用する;
知覚的表現(perceptual representation)を計算する;
畳み込みニューラルネットワークを適用し、スペクトル推定値と知覚的表現とに対応した入力を用いて、周波数に依存して時間的に変化する行列/ベクトルからなるウィーナーゲイン推定値を出力として生成する;
次の関数(関数f1)の強調フィルタのゲイン内でウィーナーゲイン推定値を使用する:
【数1】
ここで、tは時間セグメント、fは周波数ビン、x
tをスペクトル及び知覚パラメータのベクトルとして
【数2】
、G
minは定数、p(t,f)は音声存在確率、及び
【数3】
であり、及び並行してウィーナーゲイン推定値を音声存在確率の推定値として使用する;
前項目で定義した関数(関数f1)を音声強調フィルタとして適用する。
雑音低減段階において強調された振幅と初期位相をマージすることを含む後処理段階。
【0016】
畳み込みニューラルネットワークは、最適ウィーナー推定量と畳み込みニューラルネットワークの出力との間のMMSEである次のように定義されたコスト関数を用いて訓練される。
【数4】
ここで、
【数5】
は教師あり手法で得られ、S
X(t,f)及びS
N(t,f)は、それぞれクリーンな音声信号及び雑音のパワースペクトル密度の推定値である。
【0017】
畳み込みニューラルネットワークは、因果的であり(すなわち、畳み込み層は、処理対象のサンプル以前の信号サンプルのみを使用し、後続の信号サンプルは使用しない)、かつ低遅延性を有する畳み込み層を構成できる。
【0018】
さらに、スペクトル推定値はウェルチ法を用いて得られる。
【0019】
知覚的表現に関しては、メル尺度フィルタバンク及びメル周波数ケプストラム係数(MFCC)に基づく表現の二つの方法が考えられる。
【0020】
電話音声信号の振幅及び位相を抽出するための前処理段階に関して、本発明の方法は、音声信号を数十ミリ秒の重なり合うセグメントに分割し、ハミング窓、ハニング窓、または他の同等の窓を適用した後、フーリエ変換を行うことをさらに含み得る。
【0021】
電話音声信号の振幅及び位相を抽出するための前処理段階は、さらに、SNR(信号対雑音比)、歪み、POLQA(受聴品質の知覚的客観的分析)、または他の同等な尺度から選択された音響品質尺度を用いて、音声信号の品質を客観的に評価し、その結果に応じて音響増強を行うか否かを決定することを含み得る。
【0022】
前処理段階で得られた位相と雑音低減段階で得られた振幅とをマージする後処理段階では、さらに、逆フーリエ変換を適用し、その後、音声信号の時間的再構成アルゴリズムを適用することを含む。
【0023】
本発明の別の態様では、畳み込みニューラルネットワークに基づいて電話音声信号を強調するためのシステムであって、本発明の第1の態様において定義された本発明の方法を実行するように構成されたシステムが開示される。本発明は、第1の信号抽出ブロックと、第2の信号品質評価ブロックと、第3の音声強調ブロックと、第4の音声挿入ブロックとを備える。そうして、第1のブロックは、電話が開始されると、電話回線から音声信号を抽出して並列処理サーバに送信する。次に、第2のブロックは、例えば、予め定められた音響品質尺度を用いて、音声セグメントの音響品質を評価する。第2のブロックは、例えばSNR、歪み、POLQA、または別の同等な尺度を使用し、使用された品質尺度に関連する先行研究に従って予め設定された閾値と比較する。このようにして、本方法は、セグメントが音響増強を受ける必要があるか否かを決定する。決定が肯定的であれば、第3のブロックは、分析された音声セグメントに本発明の音声強調方法を実行する。決定が否定的であった場合、本方法は、音声信号のセグメントを電話回線に挿入する役割を担う第4の音声挿入ブロックに直接渡し、通話者の音響知覚に影響を与え得る切断または他の望ましくない影響の出現を防止する。その後、説明されたプロセスが繰り返され、次の音声セグメントが分析される。
【図面の簡単な説明】
【0024】
本発明の特徴のより良い理解を助けるため、及び本明細書を補完するために、以下の図は、限定ではなく例示のために、本明細書(the same)の不可欠な部分として添付されている。
【0025】
【
図1】電話音声信号を強調するための方法が記載されたシステムのブロック図
【
図2】前処理またはパラメータ化のための段階Aと、新規性が存在する雑音低減のための段階Bと、音声信号の後処理または再構成のための段階Cとを含む本発明のブロック図
【発明を実施するための形態】
【0026】
頭字語:
FB:フィルタバンク
MFCC:メル周波数ケプストラム係数
DNN:深層ニューラルネットワーク
CNN:畳み込みニューラルネットワーク
MMSE:最小平均二乗誤差
SNR:信号対雑音比
POLQA:受聴品質の知覚的客観的分析
【0027】
本発明の方法は、音声を強調するための方法であって、任意に、音声信号の音響品質を分析し、当該音声信号が音響増強処理を受ける必要があるか否かを決定するモジュールを含み得る。この決定は、品質尺度の予め設定された閾値を使用して行われる。操作者は、増強処理が常に実行されるように、閾値を可能な限り柔軟にすることを決定してもよく、或いは代わりに、電話回線を通過する信号が強調されないように、当該処理を可能な限り制限してもよい。これらの2つの使用例は、操作者により決定された特定の用途または状況に対応し得る。信号が強調を受ける場合、当該信号はその後、より良い音響品質を示しながら、電話回線に再投入され、このようにして相手側まで経路を継続する。
【0028】
本発明の方法は、
図1に示すようなシステムに展開できる。
図1に示すシステムは、信号抽出ブロック1と、信号評価ブロック2と、音声強調ブロック3と、音声挿入ブロック4とを備える。このように、
図1に示すような本発明の畳み込みニューラルネットワークに基づく電話音声信号を強調するためのシステムは、通話が開始されると、電話回線から音声信号を抽出し(1)、それを並列処理サーバに送信する。次に、ブロック2は、予め定義された音響品質尺度、例えばSNR、歪み、POLQA、または他の同等な尺度を用いて、音声セグメントの音響品質を評価し、当該品質尺度に関連する先行研究に従って予め設定された閾値と比較する。このようにして、本方法は、セグメントが音響増強を受ける必要があるか否かを決定する。決定が肯定的である場合、次のブロック3は、分析された音声セグメント上で本発明の音声を強調するための方法を実施する。決定が否定的であった場合、それは挿入ブロック4に直接渡される。当該ブロックは、発話者の音響知覚に影響を与える可能性のある切断または他の望ましくない影響の出現を防ぎながら、音声セグメントを電話の流れに戻す役割を担う。その後、説明されたプロセスが繰り返され、次の音声セグメントが分析される。
【0029】
本発明は、マスクベースの方法のカテゴリーにおいて、CNNベースの単一チャネル電話信号の音声強調または雑音低減(3)のための方法からなる。本発明は、全体として、観測された音声信号の強調版を生成するために、当該音声信号のスペクトルを変更するマスク(またはフィルタ)を推定することからなる。このことは、ゲイン法の枠組みを利用するが、事前SNR、事後SNR、雑音スペクトルの推定、及びクリーンな音声スペクトルの推定の中間推定ブロックを、誤差が発生する傾向があることから置き換える。代わりに、本発明の方法では、信号の各時間周波数セグメントの解析を非再帰的に行うことができるCNNベースの推定を採用し、これにより、この種の推定に典型的な誤差の伝播を防ぐことができる。具体的には、CNNは、強調マスクまたはフィルタを生成するために使用されるウィーナーゲイン推定値を得る役割を担う。そのために、CNNは、ウィーナーゲイン推定量としても知られるクリーンな音声信号のMMSE推定量を学習する回帰モデルを実装する。この項は、そのダイナミックレンジとCNNの学習方法の動作により、前述の中間推定ステップよりも推定誤差の影響を受けにくい。このように、音声強調のための本方法によれば、雑音の影響を顕著に受けない音声信号においても、音響品質が低下しないようにすることができる。
【0030】
本発明の新規性は、CNNベースの雑音低減方法の設計にあり、これは方法自体の本質的な性質と、その適用の文脈との両方に起因する。本方法の主要な新規性は、本発明の方法の本質的な要素としてウィーナーゲイン推定量を選択することからなり、その特性から機械学習アプローチにより適切に推定されることで、推定誤差の影響を低減する。
【0031】
図2は、3段階の処理によって形成される実装された本方法のフローチャートを示す。段階Aは、雑音の多い音声信号10を時間周波数領域で表現するための前処理を行う。これは、音声の準定常特性を保存する数十ミリ秒の短い重なり合うセグメントに、音声信号10をセグメント化することから始まる。当該セグメントには、歪みを防ぐために、ハミング、ハニング、または他の適切な窓掛けが適用される(11)。次いで、スペクトル時間領域で変換が実行され(12)、これは、フーリエ変換または別の同等な変換から開始して実施され得る。次に、得られたスペクトルは、振幅13とスペクトル位相14に分割される。振幅13は雑音低減段階Bの入力として使用され、スペクトル位相14は段階Cにおいて実施される再構成のために保存される。
【0032】
雑音低減段階Bには、本提案の新規性が集中している。これは、分析対象のセグメントのスペクトル振幅13における音響ノイズの影響を補正するための強調フィルタを生成する役割を担う。当該フィルタ22のゲインは、クリーンな音声信号のMMSE推定量のゲイン関数20及び音声存在確率21に依存する。これらの要素を得るために、音声信号スペクトルと、それに対応する関連付けられた雑音スペクトルとの複数の例を別々に見て、雑音の多い音声の構造を学習することから始めてウィーナーゲイン19を推定するCNNが使用される。
【0033】
この場合のDNNアーキテクチャは、1つまたは複数のスペクトル表現と観測された音声信号の1つまたは複数の知覚的表現とを含むベクトルに積み重ねられた複数の成分を有する畳み込みニューラルネットワーク(CNN)18から構成される。当該スペクトル表現は、例えばウェルチ法により得られたスペクトル推定値15または別の同等な表現であり、当該知覚的表現は、例えばメル尺度フィルタバンク(FB)16、メル周波数ケプストラム係数(MFCC)17、または他の同等な表現である。本発明において、畳み込み層の処理は因果的に構成される。すなわち当該処理は過去からの情報のみを利用し、これにより、それらがリアルタイムで動作することを可能にする。CNNの出力は、ウィーナーゲインの推定値19であり、周波数に依存して且つ時間とともに変化する行列/ベクトルで構成される。この行列/ベクトルは、クリーンな音声信号のMMSE推定量のゲイン20として、及び音声存在確率21の推定値として使用される。その後、両者は、以下の定義に従って音声強調フィルタ22の関数を得るために使用される(非特許文献6)。
【数6】
ここで、tは時間セグメント、fは周波数ビン、x
tを時間tの瞬間におけるスペクトル及び知覚パラメータのベクトルとして
【数7】
、G
minは定数、p(t,f)は音声存在確率、及び
【数8】
である。
【0034】
音声強調フィルタの関数は、ウィーナーゲインに基づく前述と同じ時間周波数分解能で定義され、音声セグメントと非音声セグメントに対して異なる処理を適用する。この基準は、音響ノイズの影響が音声領域と非音声領域とで異なって現れることを考慮することに基づく。最後に、このフィルタは音声信号のスペクトルを強調する役割があり、したがって、段階Aから得られたスペクトル振幅13に適用される。ここで、ある信号セグメントに起因する潜在的な誤差は、その後の処理段階に影響を与えないことから、雑音の低減は非再帰的な方法で実装される。
【0035】
本発明の畳み込みニューラルネットワークは訓練される必要がある。本ケースでは、訓練段階におけるコスト関数は、最適ウィーナー推定量とネットワークの出力との間の平均二乗誤差である。
【数9】
【0036】
教師ありの方法でそのようにするために、
【数10】
が計算され、これは、クリーンな音声信号のパワースペクトル密度の推定値S
X(t,f)と、観測された電話音声信号に生じた雑音のパワースペクトル密度の推定値S
N(t,f)とを用いる。このスペクトルは、分散の小さい推定値を得るためにM個の重複する時間セグメントの平均を行うウェルチ法に従って推定される。ニューラルネットワークは、多数のクリーンな音声信号(数百時間の音声)とそれに対応する雑音信号とを用いて訓練される。訓練で使用される雑音信号は、例えば様々なタイプ及びレベルの雑音または残響のような、実際の適用シナリオにおいて出現する可能性がある広範な雑音状態に及ぶ。実際の雑音信号に加えて、ネットワークが学習段階で見る最大数の事例をカバーするように、音声と雑音の混合に人工的な変更が加えられる。例えば特に、スケールの変更、圧縮などが行われる。
【0037】
最後に、後処理段階Cで雑音低減処理が終了し、強調された音声信号26が得られる。そのために後処理段階Cは、前処理段階Aから得られたスペクトル位相14と、段階Bの処理から得られた強調されたスペクトル振幅23を使用する。何れもスペクトル逆変換ブロック24に挿入され、段階Aで使用されたアルゴリズムに対応するスペクトル変換アルゴリズムが使用される。次に、時間的再構成アルゴリズム25が使用される。これは、段階Aの時間的セグメンテーション11で使用された重ね合わせ及び窓掛けを考慮に入れたアルゴリズムである。最終的に、音声信号の強調された波形26が得られる。