IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 本田技研工業株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特開2022-133727音声強調装置、音声強調方法、およびプログラム
<>
  • 特開-音声強調装置、音声強調方法、およびプログラム 図1
  • 特開-音声強調装置、音声強調方法、およびプログラム 図2
  • 特開-音声強調装置、音声強調方法、およびプログラム 図3
  • 特開-音声強調装置、音声強調方法、およびプログラム 図4
  • 特開-音声強調装置、音声強調方法、およびプログラム 図5
  • 特開-音声強調装置、音声強調方法、およびプログラム 図6
  • 特開-音声強調装置、音声強調方法、およびプログラム 図7
  • 特開-音声強調装置、音声強調方法、およびプログラム 図8
  • 特開-音声強調装置、音声強調方法、およびプログラム 図9
  • 特開-音声強調装置、音声強調方法、およびプログラム 図10
  • 特開-音声強調装置、音声強調方法、およびプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022133727
(43)【公開日】2022-09-14
(54)【発明の名称】音声強調装置、音声強調方法、およびプログラム
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20220907BHJP
【FI】
G10L21/0208 100Z
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2021032585
(22)【出願日】2021-03-02
(71)【出願人】
【識別番号】000005326
【氏名又は名称】本田技研工業株式会社
(71)【出願人】
【識別番号】304021417
【氏名又は名称】国立大学法人東京工業大学
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100126664
【弁理士】
【氏名又は名称】鈴木 慎吾
(74)【代理人】
【識別番号】100154852
【弁理士】
【氏名又は名称】酒井 太一
(74)【代理人】
【識別番号】100194087
【弁理士】
【氏名又は名称】渡辺 伸一
(72)【発明者】
【氏名】藤田 雅彦
(72)【発明者】
【氏名】糸山 克寿
(72)【発明者】
【氏名】中臺 一博
(72)【発明者】
【氏名】西田 健次
(57)【要約】
【課題】音声強調のロバスト性を向上することができる音声強調装置、音声強調方法、およびプログラムを提供することを目的とする。
【解決手段】音声強調装置は、音声信号の振幅スペクトログラムを生成する前処理部と、得られた振幅スペクトログラムに対して2つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で時間周波数マスクを作成するマスク作成部と、作成された複数の時間周波数マスクのうち少なくとも2つを統合して統合マスクを作成する統合部と、作成された統合マスクを用いて取得した音声信号の強調処理を行う音声強調部と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
音声信号の振幅スペクトログラムを生成する前処理部と、
得られた振幅スペクトログラムに対して2つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成するマスク作成部と、
作成された複数の前記時間周波数マスクのうち少なくとも2つを統合して統合マスクを作成する統合部と、
作成された前記統合マスクを用いて取得した音声信号の強調処理を行う音声強調部と、
を備える音声強調装置。
【請求項2】
前記統合部は、作成された複数の前記時間周波数マスクのうちの2つ以上に対して、重みづけ係数を乗じて統合する、
請求項1に記載の音声強調装置。
【請求項3】
前記2つ以上の時間周波数マスクを推定する手法は、双方向LSTM(BLSTM(Bidirectional Long Short-Term Memory)手法、多チャネル非負値行列因子分解(MNMF)とDNN(Deep Neural Network)とを組み合わせたMNMFDP手法、2種類のLSTM(DTLN(Dual-signal Transformation LSTM)手法、敵対性生成ネットワークを音声強調に用いた手法であるSEGAN(Speech Enhancement GAN(敵対性生成ネットワーク)手法のうちの2つ以上である、
請求項1または請求項2に記載の音声強調装置。
【請求項4】
前記統合部は、前記2つ以上の時間周波数マスクのうちの2つ以上に対して、単純平均または加重平均を行う、
請求項1から請求項3のうちのいずれか1項に記載の音声強調装置。
【請求項5】
前記音声強調部は、前記統合マスクを用いて、GEV(Generalized EigenValue)ビームフォーミングを行うことで、目的音声を強調抽出する、
請求項1から請求項4のうちのいずれか1項に記載の音声強調装置。
【請求項6】
前記重みづけ係数は、理想マスクと、前記時間周波数マスクを推定する手法によって制裁された目的音声または雑音の前記時間周波数マスクの平均二乗誤差を最小にする最適化問題を解いて求められる、
請求項2に記載の音声強調装置。
【請求項7】
前処理部が、音声信号の振幅スペクトログラムを生成し、
マスク作成部が、得られた振幅スペクトログラムに対して2つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成し、
統合部が、作成された複数の前記時間周波数マスクのうち少なくとも2つを統合して統合マスクを作成し、
音声強調部が、作成された前記統合マスクを用いて取得した音声信号の強調処理を行う、
音声強調方法。
【請求項8】
コンピュータに、
音声信号の振幅スペクトログラムを生成させ、
得られた振幅スペクトログラムに対して2つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成させ、
作成された複数の前記時間周波数マスクのうち少なくとも2つを統合して統合マスクを作成させ、
作成された前記統合マスクを用いて取得した音声信号の強調処理を行わせる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声強調装置、音声強調方法、およびプログラムに関する。
【背景技術】
【0002】
音声認識における問題の一つは、雑音が酷い環境において単語や発話個所の誤検出が増え、認識精度が劣化することである。この問題に対し、音声強調技術が研究されている(例えば特許文献1参照)。その中でも時間周波数マスクとビームフォーミングを組み合わせた音声強調手法は、高い強調性能があることが報告されている(例えば非特許文献1参照)。
【0003】
図11は、従来技術の音声強調処理の流れの概要を示す図である。図11のように、従来の音声強調手法では、観測信号のスペクトログラムg901に対して各音源の時間周波数マスクg902を用いて時間周波数マスク推定を行う。時間周波数マスクは、観測された音声信号の振幅スペクトログラムに含まれる各音源由来の成分を通過させ、他の成分を遮断する。次に、従来の音声強調手法では、ビームフォーミング処理を行い目的音声のスペクトログラムg903を得る。なお、ビームフォーミングは、目的とする方向から到来する音を強調し、その他の方向からの音を抑制することができる。従来手法では、ニューラルネットワークや何らかのモデルを用いてマスクを推定している。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2012-88404号公報
【非特許文献】
【0005】
【非特許文献1】J. Heymann et al. “Neural network based spectral mask estimation for acoustic beamforming” In Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2016.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の音声強調手法は、単一のモデルやネットワークから時間周波数マスクを推定するため、音声特徴量を生かし切れておらず、精度良く音声強調できていない場合もあり得る。この結果、従来の音声強調手法では、音声強調のロバスト性が十分でない可能性がある。
【0007】
本発明は、上記の問題点に鑑みてなされたものであって、音声強調のロバスト性を向上することができる音声強調装置、音声強調方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
(1)上記目的を達成するため、本発明の一態様に係る音声強調装置は、音声信号の振幅スペクトログラムを生成する前処理部と、得られた振幅スペクトログラムに対して2つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成するマスク作成部と、作成された複数の前記時間周波数マスクのうち少なくとも2つを統合して統合マスクを作成する統合部と、作成された前記統合マスクを用いて取得した音声信号の強調処理を行う音声強調部と、を備える。
【0009】
(2)また、本発明の一態様に係る音声強調装置において、前記統合部は、作成された複数の前記時間周波数マスクのうちの2つ以上に対して、重みづけ係数を乗じて統合するようにしてもよい。
【0010】
(3)また、本発明の一態様に係る音声強調装置において、前記2つ以上の時間周波数マスクを推定する手法は、双方向LSTM(BLSTM(Bidirectional Long Short-Term Memory))手法、多チャネル非負値行列因子分解(MNMF)とDNN(Deep Neural Network)とを組み合わせたMNMFDP手法、2種類のLSTM(DTLN(Dual-signal Transformation LSTM))手法、敵対性生成ネットワークを音声強調に用いた手法であるSEGAN(Speech Enhancement GAN(敵対性生成ネットワーク))手法のうちの2つ以上であるようにしてもよい。
【0011】
(4)また、本発明の一態様に係る音声強調装置において、前記統合部は、前記2つ以上の時間周波数マスクのうちの2つ以上に対して、単純平均または加重平均を行うようにしてもよい。
【0012】
(5)また、本発明の一態様に係る音声強調装置において、前記音声強調部は、前記統合マスクを用いて、GEV(Generalized EigenValue)ビームフォーミングを行うことで、目的音声を強調抽出するようにしてもよい。
【0013】
(6)また、本発明の一態様に係る音声強調装置において、前記重みづけ係数は、理想マスクと、前記時間周波数マスクを推定する手法によって制裁された目的音声または雑音の前記時間周波数マスクの平均二乗誤差を最小にする最適化問題を解いて求められるようにしてもよい。
【0014】
(7)上記目的を達成するため、本発明の一態様に係る音声強調方法は、前処理部が、音声信号の振幅スペクトログラムを生成し、マスク作成部が、得られた振幅スペクトログラムに対して2つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成し、統合部が、作成された複数の前記時間周波数マスクのうち少なくとも2つを統合して統合マスクを作成し、音声強調部が、作成された前記統合マスクを用いて取得した音声信号の強調処理を行う。
【0015】
(8)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、音声信号の振幅スペクトログラムを生成させ、得られた振幅スペクトログラムに対して2つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成させ、作成された複数の前記時間周波数マスクのうち少なくとも2つを統合して統合マスクを作成させ、作成された前記統合マスクを用いて取得した音声信号の強調処理を行わせる。
【発明の効果】
【0016】
上述した(1)~(8)によれば、複数のマスク推定手法を組み合わせて時間周波数マスクを設定するようにしたので、音声強調のロバスト性を向上することができる。
上述した(2)、(6)によれば、設計が異なる複数の思想に基づく時間周波数マスクを推定する手法に対して重み付けをおこなうので、環境や音声や用途に応じて最適化できる。
上述した(3)によれば、設計が異なる複数の思想に基づいた総合的な手法によってマスクを推定するので、音声強調性能を向上させることができる。
上述した(4)によれば、環境や音声や用途に応じて最適化できる。
【図面の簡単な説明】
【0017】
図1】実施形態に係る音声処理の流れの概要を示す図である。
図2】実施形態に係る音声強調装置の構成例を示すブロック図である。
図3】実施形態に係る理想マスクIのイメージ図である。
図4】実施形態に係る手法nの時間周波数マスクMのイメージ図である。
図5】第1のマスク作成方法であるBLSTMの処理の概要を示す図である。
図6】第2のマスク作成方法であるMNMFDPの処理の概要を示す図である。
図7】第3のマスク作成方法であるDTLNの処理の概要を示す図である。
図8】第4のマスク作成方法であるSEGANの処理の概要を示す図である。
図9】実施形態に係る音声強調装置の処理手順例のフローチャートである。
図10】実施形態に係る評価結果を示す図である。
図11】従来技術の音声強調処理の流れの概要を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施の形態について図面を参照しながら説明する。
【0019】
[概要]
まず、本実施形態の音声処理の流れの概要を説明する。
図1は、本実施形態に係る音声処理の流れの概要を示す図である。図1のように、本実施形態では、観測信号のスペクトログラムg11に対して、時間周波数マスクg21とビームフォーミングg22による音声強調を行って目的音声のスペクトログラムg13を得る。そして、本実施形態では、複数の音声強調手法を用いて複数の時間周波数マスクを作り、これらをアンサンブルすることで新しい1つのマスクであるアンサンブル時間周波数マスクg12を作成する。
【0020】
[音声強調装置の構成例]
次に、本実施形態の音声強調装置の構成例を説明する。
図2は、本実施形態に係る音声強調装置1の構成例を示すブロック図である。図1のように、音声強調装置1は、音声信号取得部11(前処理部)、短時間フーリエ変換部12(前処理部)、マスク作成部13、統合部14、音声強調部15、逆短時間フーリエ変換部17、および出力部18を備える。
【0021】
マスク作成部13は、例えば、第1マスク作成部131、第2マスク作成部132、第3マスク作成部133、および第4マスク作成部134を備える。なお、図1では、マスク作成部13は、4つの第Nマスク作成部を備える例を説明したが、2つ以上の第Nマスク作成部を備えていればよい。
音声強調部15は、例えば、ビームフォーミング部16を備える。
【0022】
音声信号取得部11は、音声信号を取得し、取得した音声信号を短時間フーリエ変換部12に出力する。なお、音声信号取得部11は、マイクロホン、複数のマイクを備えるマイクロホンアレイであってもよい。または、音声信号取得部11は、例えば録音済みの音声信号を取得するようにしてもよい。
【0023】
短時間フーリエ変換部12は、取得された音声信号に対して短時間フーリエ変換を行って振幅スペクトログラムに変換する。短時間フーリエ変換部12は、振幅スペクトログラムをマスク作成部13に出力する。
【0024】
マスク作成部13は、振幅スペクトログラムに対してN(Nは2以上の整数、例えば4)個の音声強調手法を適用して、N個の時間周波数マスクを推定する。
第1マスク作成部131は、第1の手法によって時間周波数マスク推定を行う。
第2マスク作成部132は、第1の手法と異なる第2の手法によって時間周波数マスク推定を行う。
第3マスク作成部133は、第1、第2の手法と異なる第3の手法によって時間周波数マスク推定を行う。
第4マスク作成部134は、第1~第3の手法と異なる第4の手法によって時間周波数マスク推定を行う。
なお、各手法例については、後述する。
【0025】
統合部14は、マスク作成部13が推定したN個の時間周波数マスクを統合(アンサンブル)することで、アンサンブル時間周波数マスクを作成する。統合部14は、作成したアンサンブル時間周波数マスクから空間相関行列を推定し、推定した空間相関行列をビームフォーミング部16に出力する。なお、本実施形態では、統合方法として、例えば単純平均と加重平均を用いる。単純平均と加重平均については、後述する。
【0026】
ビームフォーミング部16は、例えばGEV(Generalized EigenValue)ビームフォーミング手法によって、目的音声のスペクトログラムを抽出する。
【0027】
逆短時間フーリエ変換部17は、抽出された目的音声のスペクトログラムに対して、短時間フーリエ変換を行い時間領域の信号に変換する。逆短時間フーリエ変換部17は、変換した信号を目的音声信号として出力部18に出力する。
【0028】
出力部18は、強調抽出された目的音声信号を出力する。出力部18は、例えばスピーカーである。
【0029】
[時間周波数マスクの統合方法]
次に、時間周波数マスクの統合の方法例を説明する。本実施形態では、時間周波数マスクの統合方法として、例えば単純平均または加重平均を用いる。
単純平均アンサンブルでは、全ての強調手法から2つ以上の手法を取り出して、全ての場合に対し単純平均を行ってマスクを作成する。
【0030】
加重平均では、学習用のデータを用いて、事前に最適化問題を解き、各手法のマスクに対する重みを決定する。本実施形態では、N個の強調手法を用いる場合、次式(1)で表すように、理想マスクIとアンサンブル時間周波数マスクの平均二乗誤差を最小化するマスク重みα=[α,α,…,αを求める最適化問題として定義した。
【0031】
【数1】
【0032】
式(1)において、I(∈R(二重線文字)D×F×T)は理想マスクであり、M(∈R(二重線文字)D×F×T)は強調手法n(n=1,2,…,N)から生成した目的音声または雑音の時間周波数マスクである。また、Σn=1 αndftの項が、アンサンブル時間周波数マスクである。
【0033】
αは各マスクに対する重みを表す。Nは統合に用いる手法の個数である。図3図4のように、Dはデータ数であり、Fは周波数であり、Tはフレーム数である。d,f,tは、これらに対応するインデックスを示す。図4は、本実施形態に係る理想マスクIのイメージ図である。図5は、本実施形態に係る手法nの時間周波数マスクMのイメージ図である。
【0034】
なお、本実施形態では、制約条件として、次式(2)を課した。統合部14は、制約条件の下、式(1)を最小化するような重みαを求める最適化問題を解く。このように本実施形態では、設計が異なる複数の思想に基づく時間周波数マスクを推定する手法に対して重み付けをおこなうので、環境や音声や用途に応じて最適化できる。
【0035】
【数2】
【0036】
なお、統合部14は、例えば学習済みのモデルを用いて重みの算出を行うようにしてもよい。また、統合部14は、複数のマスク作成手法の各組み合わせに対して統合を行うようにしてもよい。そして、統合部14は、例えば、音声強調した結果を人が聞いて判断した結果に基づいて学習済みのモデルを更新したり、音声や環境や用途毎のマスク作成手法の組み合わせを学習するようにしてもよい。
【0037】
[マスク作成方法例]
次に、マスク作成方法例を、図5図8を参照しつつ説明する。
図5は、第1のマスク作成方法であるBLSTMの処理の概要を示す図である。
第1のマスク作成方法は、例えば双方向LSTM(BLSTM(Bidirectional Long Short-Term Memory))手法(非特許文献1参照)である。
【0038】
図5のように、BLSTMでは、マルチチャネルの観測信号を入力として絶対値化(201)した後、ニューラルネットワーク(202)により目的音声と雑音の時間周波数マスクの推定後、メディアンフィルター(203a、203b)によって平滑化し、PSD(204a,204b)によって音声と雑音のPSD(Power Spectral Density)行列を推定し、その後、ビームフォーミング処理(205)を行う。
なお、時間周波数マスクを推定するためのネットワークは2種類であり、双方向LSTMを用いる。
【0039】
図6は、第2のマスク作成方法であるMNMFDPの処理の概要を示す図である。
第2のマスク作成方法は、例えばMNMF(Multichannel Non-negative Matrix Factorization)とDNN(Deep Neural Network)とを組み合わせたMNMFDP手法(参考文献1参照)である。
【0040】
図6のように、MNMFDPでは、DNNベースのネットワークによる音声のモデル化(301)と、Multi-channel NMFによる雑音のモデル化(302)を行う。また、推定マスクを用いて音声と雑音のコスト関数のSCM(Spatial Covariance Matrices)を計算する。MNMFDPでは、これらを用いて、目的音声を強調して観測されたマルチチャネル信号のスペクトル(304)を得る。このように、MNMFDPでは、Multi-channel NMFとDeep Neural Networkを組み合わせによりMulti-channel NMFよりも正確に音源のモデル化ができる。
【0041】
参考文献1:Sekiguchi et.al. , “Semi-Supervised Multichannel Speech Enhancement With a Deep Speech Prior”, IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 27, NO. 12, DECEMBER 2019
【0042】
図7は、第3のマスク作成方法であるDTLNの処理の概要を示す図である。
第3のマスク作成方法は、例えば2種類のLSTM(DTLN(Dual-signal Transformation LSTM))手法(参考文献2参照)である。
【0043】
図7のように、DTLNでは、例えば、時間周波数マスキングのLSTMネットワーク(401)と、信号特徴表現のLSTMネットワーク(402)とによって信号を変換することで目的音声を強調する。
時間周波数マスキングのLSTMネットワーク(401)は、例えば、STFT(短時間フーリエ変換)層、絶対値化層、多層のLSTM、FC(Fully Connected)層、シグモイド関数層、iFFT(逆高速フーリエ変換)層等を備える。
信号特徴表現のLSTMネットワーク(402)は、例えば、特徴表現を抽出する1D-Conv層、iLN(instant Layer Normalization)層、多層のLSTM、FC層、シグモイド関数層、信号をオーバーラップと加算の手順で再構成するOverlap-Add層等を備える。
本実施形態では、強調前と強調後の信号から時間周波数マスクを作成して統合に用いた。
【0044】
参考文献2:Westhausen et.al., “Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression”, arXiv preprint,2020
【0045】
図8は、第4のマスク作成方法であるSEGANの処理の概要を示す図である。
第3のマスク作成方法は、例えば敵対性生成ネットワークを音声強調に用いた手法であるSEGAN(Speech Enhancement GAN(敵対性生成ネットワーク))手法(参考文献3参照)であり、GANの結果から時間周波数マスク推定を行う。
【0046】
SEGANは、敵対性生成ネットワーク(GAN)を用いた音声強調手法である。図8のように、SEGANでは、例えば、生成器(Generator)に単一チャネルの観測信号を入力すると強調音声を出力する。SEGANでは、雑音のない音声データを真のデータとし、真のデータを模倣するように生成器によって出力されたデータを偽のデータとする。次に、SEGANでは、真のデータと偽のデータを正解ラベルと共に判別器に入力し学習させる。SEGANでは、最後に判別器が誤判別するまで生成器を学習させる。
SEGANでは、学習を行った生成器に観測信号を入力することで強調音声が得られる。
本実施形態では、DTLNと同様、強調前と後の信号から時間周波数マスクを作成して統合に用いた。
【0047】
参考文献3:Pascual et.al., “SEGAN: Speech Enhancement Generative Adversarial Network”, arXiv preprint,2020
【0048】
なお、図5図9を用いて説明した4つのマスク作成方法(音声強調手法)は一例であり、マスク作成部13が用いる手法は、これに限らない。マスク作成部13が用いる手法は、環境や音声信号や用途に応じて、他の手法であってもよい。また、本実施形態によれば、設計が異なる複数の思想に基づいた総合的な手法によってマスクを推定するので、最終的な音声強調性能を向上させることができる。
【0049】
[処理手順]
次に、音声強調装置1の処理手順例を説明する。
図9は、本実施形態に係る音声強調装置1の処理手順例のフローチャートである。
【0050】
(ステップS1)声信号取得部11は、音声信号を取得する。
【0051】
(ステップS2)短時間フーリエ変換部12は、取得された音声信号に対して短時間フーリエ変換を行って振幅スペクトログラムに変換する。
【0052】
(ステップS3)マスク作成部13は、振幅スペクトログラムに対してN個の手法を適用して、4個の時間周波数マスクを推定する。
【0053】
(ステップS4)統合部14は、マスク作成部13が推定したN個の時間周波数マスクを統合することで、アンサンブル時間周波数マスクを作成する。
【0054】
(ステップS5)ビームフォーミング部16は、例えばGEVビームフォーミング手法によって、目的音声のスペクトログラムを抽出することで音声強調処理を行う。
【0055】
(ステップS6)逆短時間フーリエ変換部17は、抽出された目的音声のスペクトログラムに対して、短時間フーリエ変換を行い時間領域の信号に変換する。
【0056】
(ステップS7)出力部18は、強調抽出された目的音声信号を出力する。
【0057】
[評価結果]
次に、本実施形態の手法を評価した結果例を説明する。
本実施形態の手法の有効性を評価するため、人間の聴感と相関があるSTOI(Short-Time Objective Intelligibility measure)(参考文献4参照)とPESQ(Perceptual Evaluation of Speech Quality)(参考文献5参照)を用いて強調した音声の品質の評価を行った。STOIは0~1、PESQは1~5のそれぞれ実数で算出され、値が大きいほど人にとって聴きやすい音声となる。
【0058】
参考文献4;Cees H. Taal; Richard C. Hendriks et al, ”An Algorithm for Intelligibility Prediction of Time-Frequency Weighted Noisy Speech”, IEEE, p2125-2136, 2011
参考文献5;ITU-T Recommendation. Perceptual evaluation of speech quality (pesq): “An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”, International Telecommunication Union Telecommunication Standardization Sector Recommendation P. 862, 2001
【0059】
評価のためのデータは、音声強調のベンチマークとして広く使われているCHiME3データ(参考文献6参照)を用いた。CHiME-3データセットはWSJ0コーパスと環境雑音を組み合わせて作成され、実録音と模擬録音で構成されている。評価には、“on the bus”,“cafe”,“pedestrian area”,“street”の4種類の雑音環境でそれぞれ330発話を6ch、16kHzで録音して作られた合計1320個の実データを用いた。
【0060】
参考文献6;Jon Barker et al. “The third‘ chime ’speech separation and recognition challenge: Dataset, task and baselines”, In 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), pages 504-511. IEEE, 2015.
【0061】
統合に用いる手法の種類は、4つである。統合に用いる手法には、上述したBLSTM,MNMFDP,DTLN,SEGANを用いた。なお、BLSTMでは、双方向LSTMネットワーク(BLSTM)によって時間周波数マスクを推定した。MNMFDPでは、多チャネル非負値行列因子分解(MNMF)とDNNを組み合わせてマスクを推定した。DTLNでは、2種類のLSTMネットワークによる2つの信号変換(Dual-signal Transformation LSTM Network:DTLN)によって音声を強調した。統合の対象として4つの音声強調手法を用いたので、全部で11通りの単純平均の統合を行った。
【0062】
評価実験を行う前に、加重平均の統合の重み決定アルゴリズムを用いて、4つの手法から生成したマスクに対する重みαを推定した。重み推定には、84人の発話と4種類の雑音から作成された合計7138個で構成されるCHiME-3データセットの学習用模擬録音を用いた。各強調手法(BLSTM,MNMF,DTLN,SEGAN)から生成された目的音声と雑音の時間周波数マスクに対する重みα、αは、次式(3)、(4)であった。なお、式(3)、(4)において、上付きTは転置を表す。
【0063】
【数3】
【0064】
【数4】
【0065】
図10は、本実施形態に係る評価結果を示す図である。図10は、強調なし音声と単純平均の統合、加重平均の統合によって強調された音声をSTOIとPESQで評価し、平均をとったグラフと、組み合わせ表である。グラフg51は、STOIで評価し平均をとったグラフである。グラフg52は、PESQで評価し平均をとったグラフである。グラフg51、g52の横軸は項目であり、縦軸は評価値である。
【0066】
表g53は、どの手法によって強調された音声かの組み合わせである。例えば、鎖線枠g55の列は、BLSTMとMNMFDPに〇がついているので、2つの単純平均を表している。
【0067】
図10のように、STOIとPESQのどちらの評価においてもBLSTMとDTLNの単純平均が最も良い評価値が得られた。
また、加重平均の結果は、BLSTMとDTLNの単純平均と同等の結果が得られた。
【0068】
この結果より、統合部14は、単純平均の統合、または目的関数の最適化を用いた加重平均の統合を行うようにしてもよい。または、統合部14は、単純平均の統合、および目的関数の最適化を用いた加重平均の統合を行い、両方の結果を出力するようにしてもよい。
【0069】
以上のように、本実施形態では、複数のマスク推定手法を組み合わせて時間周波数マスクを設定するようにした。また、音声強調装置1は、例えば環境や音声信号や用途に応じて、単純平均の統合または目的関数の最適化を用いた加重平均の統合を行うようにしてもよい。
【0070】
従来技術では、単一のモデルやネットワークから時間周波数マスクを推定するため、入力信号に含まれる音声強調の鍵となる特徴量を十分に活かしきれていなかった。
これに対して、本実施形態では、異なる複数のマスク作成手法から推定される複数の時間周波数マスクを統合するようにしたので、入力信号に含まれる音声強調の鍵となる特徴量を十分に活かせ、目的音声を強調することで雑音を抑圧でき、音声強調性能が向上し、音声強調のロバスト性が向上する。
【0071】
なお、上述した音声強調装置1は、例えば、ロボット、車両、音声認識装置、スマートフォン、タブレット端末、音声認識装置を備える玩具、補聴器、人工内耳等が備えていてもよい。また、アプリケーションは、クラウド経由であってもよい。
【0072】
なお、本発明における音声強調装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声強調装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0073】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0074】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0075】
1…音声強調装置、11…音声信号取得部、12…短時間フーリエ変換部、13…マスク作成部、14…統合部、15…音声強調部、16…ビームフォーミング部、17…逆短時間フーリエ変換部、18…出力部、131…第1マスク作成部、132…第2マスク作成部、133…第3マスク作成部、134…第4マスク作成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11