特開2022-133727 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 本田技研工業株式会社の特許一覧 ▶ 国立大学法人東京工業大学の特許一覧

特開2022-133727音声強調装置、音声強調方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022133727

(43)【公開日】2022-09-14

(54)【発明の名称】音声強調装置、音声強調方法、およびプログラム

(51)【国際特許分類】

G10L 21/0208 20130101AFI20220907BHJP

【ＦＩ】

G10L21/0208 100Z

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021032585

(22)【出願日】2021-03-02

(71)【出願人】

【識別番号】000005326

【氏名又は名称】本田技研工業株式会社

(71)【出願人】

【識別番号】304021417

【氏名又は名称】国立大学法人東京工業大学

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100126664

【弁理士】

【氏名又は名称】鈴木慎吾

(74)【代理人】

【識別番号】100154852

【弁理士】

【氏名又は名称】酒井太一

(74)【代理人】

【識別番号】100194087

【弁理士】

【氏名又は名称】渡辺伸一

(72)【発明者】

【氏名】藤田雅彦

(72)【発明者】

【氏名】糸山克寿

(72)【発明者】

【氏名】中臺一博

(72)【発明者】

【氏名】西田健次

(57)【要約】

【課題】音声強調のロバスト性を向上することができる音声強調装置、音声強調方法、およびプログラムを提供することを目的とする。
【解決手段】音声強調装置は、音声信号の振幅スペクトログラムを生成する前処理部と、得られた振幅スペクトログラムに対して２つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で時間周波数マスクを作成するマスク作成部と、作成された複数の時間周波数マスクのうち少なくとも２つを統合して統合マスクを作成する統合部と、作成された統合マスクを用いて取得した音声信号の強調処理を行う音声強調部と、を備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

音声信号の振幅スペクトログラムを生成する前処理部と、
得られた振幅スペクトログラムに対して２つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成するマスク作成部と、
作成された複数の前記時間周波数マスクのうち少なくとも２つを統合して統合マスクを作成する統合部と、
作成された前記統合マスクを用いて取得した音声信号の強調処理を行う音声強調部と、
を備える音声強調装置。

【請求項2】

前記統合部は、作成された複数の前記時間周波数マスクのうちの２つ以上に対して、重みづけ係数を乗じて統合する、
請求項１に記載の音声強調装置。

【請求項3】

前記２つ以上の時間周波数マスクを推定する手法は、双方向ＬＳＴＭ（ＢＬＳＴＭ（ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）手法、多チャネル非負値行列因子分解（ＭＮＭＦ）とＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）とを組み合わせたＭＮＭＦＤＰ手法、２種類のＬＳＴＭ（ＤＴＬＮ（Ｄｕａｌ－ｓｉｇｎａｌＴｒａｎｓｆｏｒｍａｔｉｏｎＬＳＴＭ）手法、敵対性生成ネットワークを音声強調に用いた手法であるＳＥＧＡＮ（ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔＧＡＮ（敵対性生成ネットワーク）手法のうちの２つ以上である、
請求項１または請求項２に記載の音声強調装置。

【請求項4】

前記統合部は、前記２つ以上の時間周波数マスクのうちの２つ以上に対して、単純平均または加重平均を行う、
請求項１から請求項３のうちのいずれか１項に記載の音声強調装置。

【請求項5】

前記音声強調部は、前記統合マスクを用いて、ＧＥＶ（ＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎＶａｌｕｅ）ビームフォーミングを行うことで、目的音声を強調抽出する、
請求項１から請求項４のうちのいずれか１項に記載の音声強調装置。

【請求項6】

前記重みづけ係数は、理想マスクと、前記時間周波数マスクを推定する手法によって制裁された目的音声または雑音の前記時間周波数マスクの平均二乗誤差を最小にする最適化問題を解いて求められる、
請求項２に記載の音声強調装置。

【請求項7】

前処理部が、音声信号の振幅スペクトログラムを生成し、
マスク作成部が、得られた振幅スペクトログラムに対して２つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成し、
統合部が、作成された複数の前記時間周波数マスクのうち少なくとも２つを統合して統合マスクを作成し、
音声強調部が、作成された前記統合マスクを用いて取得した音声信号の強調処理を行う、
音声強調方法。

【請求項8】

コンピュータに、
音声信号の振幅スペクトログラムを生成させ、
得られた振幅スペクトログラムに対して２つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成させ、
作成された複数の前記時間周波数マスクのうち少なくとも２つを統合して統合マスクを作成させ、
作成された前記統合マスクを用いて取得した音声信号の強調処理を行わせる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声強調装置、音声強調方法、およびプログラムに関する。

【背景技術】

【0002】

音声認識における問題の一つは、雑音が酷い環境において単語や発話個所の誤検出が増え、認識精度が劣化することである。この問題に対し、音声強調技術が研究されている（例えば特許文献１参照）。その中でも時間周波数マスクとビームフォーミングを組み合わせた音声強調手法は、高い強調性能があることが報告されている（例えば非特許文献１参照）。

【0003】

図１１は、従来技術の音声強調処理の流れの概要を示す図である。図１１のように、従来の音声強調手法では、観測信号のスペクトログラムｇ９０１に対して各音源の時間周波数マスクｇ９０２を用いて時間周波数マスク推定を行う。時間周波数マスクは、観測された音声信号の振幅スペクトログラムに含まれる各音源由来の成分を通過させ、他の成分を遮断する。次に、従来の音声強調手法では、ビームフォーミング処理を行い目的音声のスペクトログラムｇ９０３を得る。なお、ビームフォーミングは、目的とする方向から到来する音を強調し、その他の方向からの音を抑制することができる。従来手法では、ニューラルネットワークや何らかのモデルを用いてマスクを推定している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１２－８８４０４号公報

【非特許文献】

【0005】

【非特許文献1】J. Heymann et al. “Neural network based spectral mask estimation for acoustic beamforming” In Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2016.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、従来の音声強調手法は、単一のモデルやネットワークから時間周波数マスクを推定するため、音声特徴量を生かし切れておらず、精度良く音声強調できていない場合もあり得る。この結果、従来の音声強調手法では、音声強調のロバスト性が十分でない可能性がある。

【0007】

本発明は、上記の問題点に鑑みてなされたものであって、音声強調のロバスト性を向上することができる音声強調装置、音声強調方法、およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

（１）上記目的を達成するため、本発明の一態様に係る音声強調装置は、音声信号の振幅スペクトログラムを生成する前処理部と、得られた振幅スペクトログラムに対して２つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成するマスク作成部と、作成された複数の前記時間周波数マスクのうち少なくとも２つを統合して統合マスクを作成する統合部と、作成された前記統合マスクを用いて取得した音声信号の強調処理を行う音声強調部と、を備える。

【0009】

（２）また、本発明の一態様に係る音声強調装置において、前記統合部は、作成された複数の前記時間周波数マスクのうちの２つ以上に対して、重みづけ係数を乗じて統合するようにしてもよい。

【0010】

（３）また、本発明の一態様に係る音声強調装置において、前記２つ以上の時間周波数マスクを推定する手法は、双方向ＬＳＴＭ（ＢＬＳＴＭ（ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ））手法、多チャネル非負値行列因子分解（ＭＮＭＦ）とＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）とを組み合わせたＭＮＭＦＤＰ手法、２種類のＬＳＴＭ（ＤＴＬＮ（Ｄｕａｌ－ｓｉｇｎａｌＴｒａｎｓｆｏｒｍａｔｉｏｎＬＳＴＭ））手法、敵対性生成ネットワークを音声強調に用いた手法であるＳＥＧＡＮ（ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔＧＡＮ（敵対性生成ネットワーク））手法のうちの２つ以上であるようにしてもよい。

【0011】

（４）また、本発明の一態様に係る音声強調装置において、前記統合部は、前記２つ以上の時間周波数マスクのうちの２つ以上に対して、単純平均または加重平均を行うようにしてもよい。

【0012】

（５）また、本発明の一態様に係る音声強調装置において、前記音声強調部は、前記統合マスクを用いて、ＧＥＶ（ＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎＶａｌｕｅ）ビームフォーミングを行うことで、目的音声を強調抽出するようにしてもよい。

【0013】

（６）また、本発明の一態様に係る音声強調装置において、前記重みづけ係数は、理想マスクと、前記時間周波数マスクを推定する手法によって制裁された目的音声または雑音の前記時間周波数マスクの平均二乗誤差を最小にする最適化問題を解いて求められるようにしてもよい。

【0014】

（７）上記目的を達成するため、本発明の一態様に係る音声強調方法は、前処理部が、音声信号の振幅スペクトログラムを生成し、マスク作成部が、得られた振幅スペクトログラムに対して２つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成し、統合部が、作成された複数の前記時間周波数マスクのうち少なくとも２つを統合して統合マスクを作成し、音声強調部が、作成された前記統合マスクを用いて取得した音声信号の強調処理を行う。

【0015】

（８）上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、音声信号の振幅スペクトログラムを生成させ、得られた振幅スペクトログラムに対して２つ以上の時間周波数マスクを推定する手法を用いてそれぞれの手法で前記時間周波数マスクを作成させ、作成された複数の前記時間周波数マスクのうち少なくとも２つを統合して統合マスクを作成させ、作成された前記統合マスクを用いて取得した音声信号の強調処理を行わせる。

【発明の効果】

【0016】

上述した（１）～（８）によれば、複数のマスク推定手法を組み合わせて時間周波数マスクを設定するようにしたので、音声強調のロバスト性を向上することができる。
上述した（２）、（６）によれば、設計が異なる複数の思想に基づく時間周波数マスクを推定する手法に対して重み付けをおこなうので、環境や音声や用途に応じて最適化できる。
上述した（３）によれば、設計が異なる複数の思想に基づいた総合的な手法によってマスクを推定するので、音声強調性能を向上させることができる。
上述した（４）によれば、環境や音声や用途に応じて最適化できる。

【図面の簡単な説明】

【0017】

【図1】実施形態に係る音声処理の流れの概要を示す図である。

【図2】実施形態に係る音声強調装置の構成例を示すブロック図である。

【図3】実施形態に係る理想マスクＩのイメージ図である。

【図4】実施形態に係る手法ｎの時間周波数マスクＭ_ｎのイメージ図である。

【図5】第１のマスク作成方法であるＢＬＳＴＭの処理の概要を示す図である。

【図6】第２のマスク作成方法であるＭＮＭＦＤＰの処理の概要を示す図である。

【図7】第３のマスク作成方法であるＤＴＬＮの処理の概要を示す図である。

【図8】第４のマスク作成方法であるＳＥＧＡＮの処理の概要を示す図である。

【図9】実施形態に係る音声強調装置の処理手順例のフローチャートである。

【図10】実施形態に係る評価結果を示す図である。

【図11】従来技術の音声強調処理の流れの概要を示す図である。

【発明を実施するための形態】

【0018】

以下、本発明の実施の形態について図面を参照しながら説明する。

【0019】

［概要］
まず、本実施形態の音声処理の流れの概要を説明する。
図１は、本実施形態に係る音声処理の流れの概要を示す図である。図１のように、本実施形態では、観測信号のスペクトログラムｇ１１に対して、時間周波数マスクｇ２１とビームフォーミングｇ２２による音声強調を行って目的音声のスペクトログラムｇ１３を得る。そして、本実施形態では、複数の音声強調手法を用いて複数の時間周波数マスクを作り、これらをアンサンブルすることで新しい１つのマスクであるアンサンブル時間周波数マスクｇ１２を作成する。

【0020】

［音声強調装置の構成例］
次に、本実施形態の音声強調装置の構成例を説明する。
図２は、本実施形態に係る音声強調装置１の構成例を示すブロック図である。図１のように、音声強調装置１は、音声信号取得部１１（前処理部）、短時間フーリエ変換部１２（前処理部）、マスク作成部１３、統合部１４、音声強調部１５、逆短時間フーリエ変換部１７、および出力部１８を備える。

【0021】

マスク作成部１３は、例えば、第１マスク作成部１３１、第２マスク作成部１３２、第３マスク作成部１３３、および第４マスク作成部１３４を備える。なお、図１では、マスク作成部１３は、４つの第Ｎマスク作成部を備える例を説明したが、２つ以上の第Ｎマスク作成部を備えていればよい。
音声強調部１５は、例えば、ビームフォーミング部１６を備える。

【0022】

音声信号取得部１１は、音声信号を取得し、取得した音声信号を短時間フーリエ変換部１２に出力する。なお、音声信号取得部１１は、マイクロホン、複数のマイクを備えるマイクロホンアレイであってもよい。または、音声信号取得部１１は、例えば録音済みの音声信号を取得するようにしてもよい。

【0023】

短時間フーリエ変換部１２は、取得された音声信号に対して短時間フーリエ変換を行って振幅スペクトログラムに変換する。短時間フーリエ変換部１２は、振幅スペクトログラムをマスク作成部１３に出力する。

【0024】

マスク作成部１３は、振幅スペクトログラムに対してＮ（Ｎは２以上の整数、例えば４）個の音声強調手法を適用して、Ｎ個の時間周波数マスクを推定する。
第１マスク作成部１３１は、第１の手法によって時間周波数マスク推定を行う。
第２マスク作成部１３２は、第１の手法と異なる第２の手法によって時間周波数マスク推定を行う。
第３マスク作成部１３３は、第１、第２の手法と異なる第３の手法によって時間周波数マスク推定を行う。
第４マスク作成部１３４は、第１～第３の手法と異なる第４の手法によって時間周波数マスク推定を行う。
なお、各手法例については、後述する。

【0025】

統合部１４は、マスク作成部１３が推定したＮ個の時間周波数マスクを統合（アンサンブル）することで、アンサンブル時間周波数マスクを作成する。統合部１４は、作成したアンサンブル時間周波数マスクから空間相関行列を推定し、推定した空間相関行列をビームフォーミング部１６に出力する。なお、本実施形態では、統合方法として、例えば単純平均と加重平均を用いる。単純平均と加重平均については、後述する。

【0026】

ビームフォーミング部１６は、例えばＧＥＶ（ＧｅｎｅｒａｌｉｚｅｄＥｉｇｅｎＶａｌｕｅ）ビームフォーミング手法によって、目的音声のスペクトログラムを抽出する。

【0027】

逆短時間フーリエ変換部１７は、抽出された目的音声のスペクトログラムに対して、短時間フーリエ変換を行い時間領域の信号に変換する。逆短時間フーリエ変換部１７は、変換した信号を目的音声信号として出力部１８に出力する。

【0028】

出力部１８は、強調抽出された目的音声信号を出力する。出力部１８は、例えばスピーカーである。

【0029】

［時間周波数マスクの統合方法］
次に、時間周波数マスクの統合の方法例を説明する。本実施形態では、時間周波数マスクの統合方法として、例えば単純平均または加重平均を用いる。
単純平均アンサンブルでは、全ての強調手法から２つ以上の手法を取り出して、全ての場合に対し単純平均を行ってマスクを作成する。

【0030】

加重平均では、学習用のデータを用いて、事前に最適化問題を解き、各手法のマスクに対する重みを決定する。本実施形態では、Ｎ個の強調手法を用いる場合、次式（１）で表すように、理想マスクＩとアンサンブル時間周波数マスクの平均二乗誤差を最小化するマスク重みα＝［α_１，α_２，…，α_Ｎ］^Ｔを求める最適化問題として定義した。

【0031】

【数1】

【0032】

式（１）において、Ｉ（∈Ｒ（二重線文字）^{Ｄ×Ｆ×Ｔ}）は理想マスクであり、Ｍ_ｎ（∈Ｒ（二重線文字）^{Ｄ×Ｆ×Ｔ}）は強調手法ｎ（ｎ＝１，２，…，Ｎ）から生成した目的音声または雑音の時間周波数マスクである。また、Σ_ｎ＝１ ^Ｎα_ｎＭ_ｎｄｆｔの項が、アンサンブル時間周波数マスクである。

【0033】

α_ｎは各マスクに対する重みを表す。Ｎは統合に用いる手法の個数である。図３、図４のように、Ｄはデータ数であり、Ｆは周波数であり、Ｔはフレーム数である。ｄ，ｆ，ｔは、これらに対応するインデックスを示す。図４は、本実施形態に係る理想マスクＩのイメージ図である。図５は、本実施形態に係る手法ｎの時間周波数マスクＭ_ｎのイメージ図である。

【0034】

なお、本実施形態では、制約条件として、次式（２）を課した。統合部１４は、制約条件の下、式（１）を最小化するような重みα_ｎを求める最適化問題を解く。このように本実施形態では、設計が異なる複数の思想に基づく時間周波数マスクを推定する手法に対して重み付けをおこなうので、環境や音声や用途に応じて最適化できる。

【0035】

【数2】

【0036】

なお、統合部１４は、例えば学習済みのモデルを用いて重みの算出を行うようにしてもよい。また、統合部１４は、複数のマスク作成手法の各組み合わせに対して統合を行うようにしてもよい。そして、統合部１４は、例えば、音声強調した結果を人が聞いて判断した結果に基づいて学習済みのモデルを更新したり、音声や環境や用途毎のマスク作成手法の組み合わせを学習するようにしてもよい。

【0037】

［マスク作成方法例］
次に、マスク作成方法例を、図５～図８を参照しつつ説明する。
図５は、第１のマスク作成方法であるＢＬＳＴＭの処理の概要を示す図である。
第１のマスク作成方法は、例えば双方向ＬＳＴＭ（ＢＬＳＴＭ（ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ））手法（非特許文献１参照）である。

【0038】

図５のように、ＢＬＳＴＭでは、マルチチャネルの観測信号を入力として絶対値化（２０１）した後、ニューラルネットワーク（２０２）により目的音声と雑音の時間周波数マスクの推定後、メディアンフィルター（２０３ａ、２０３ｂ）によって平滑化し、ＰＳＤ（２０４ａ，２０４ｂ）によって音声と雑音のＰＳＤ（ＰｏｗｅｒＳｐｅｃｔｒａｌＤｅｎｓｉｔｙ）行列を推定し、その後、ビームフォーミング処理（２０５）を行う。
なお、時間周波数マスクを推定するためのネットワークは２種類であり、双方向ＬＳＴＭを用いる。

【0039】

図６は、第２のマスク作成方法であるＭＮＭＦＤＰの処理の概要を示す図である。
第２のマスク作成方法は、例えばＭＮＭＦ（ＭｕｌｔｉｃｈａｎｎｅｌＮｏｎ－ｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ）とＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）とを組み合わせたＭＮＭＦＤＰ手法（参考文献１参照）である。

【0040】

図６のように、ＭＮＭＦＤＰでは、ＤＮＮベースのネットワークによる音声のモデル化（３０１）と、Ｍｕｌｔｉ－ｃｈａｎｎｅｌＮＭＦによる雑音のモデル化（３０２）を行う。また、推定マスクを用いて音声と雑音のコスト関数のＳＣＭ（ＳｐａｔｉａｌＣｏｖａｒｉａｎｃｅＭａｔｒｉｃｅｓ）を計算する。ＭＮＭＦＤＰでは、これらを用いて、目的音声を強調して観測されたマルチチャネル信号のスペクトル（３０４）を得る。このように、ＭＮＭＦＤＰでは、Ｍｕｌｔｉ－ｃｈａｎｎｅｌＮＭＦとＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋを組み合わせによりＭｕｌｔｉ－ｃｈａｎｎｅｌＮＭＦよりも正確に音源のモデル化ができる。

【0041】

参考文献１：Sekiguchi et.al. , “Semi-Supervised Multichannel Speech Enhancement With a Deep Speech Prior”, IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 27, NO. 12, DECEMBER 2019

【0042】

図７は、第３のマスク作成方法であるＤＴＬＮの処理の概要を示す図である。
第３のマスク作成方法は、例えば２種類のＬＳＴＭ（ＤＴＬＮ（Ｄｕａｌ－ｓｉｇｎａｌＴｒａｎｓｆｏｒｍａｔｉｏｎＬＳＴＭ））手法（参考文献２参照）である。

【0043】

図７のように、ＤＴＬＮでは、例えば、時間周波数マスキングのＬＳＴＭネットワーク（４０１）と、信号特徴表現のＬＳＴＭネットワーク（４０２）とによって信号を変換することで目的音声を強調する。
時間周波数マスキングのＬＳＴＭネットワーク（４０１）は、例えば、ＳＴＦＴ（短時間フーリエ変換）層、絶対値化層、多層のＬＳＴＭ、ＦＣ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ）層、シグモイド関数層、ｉＦＦＴ（逆高速フーリエ変換）層等を備える。
信号特徴表現のＬＳＴＭネットワーク（４０２）は、例えば、特徴表現を抽出する１Ｄ－Ｃｏｎｖ層、ｉＬＮ（ｉｎｓｔａｎｔＬａｙｅｒＮｏｒｍａｌｉｚａｔｉｏｎ）層、多層のＬＳＴＭ、ＦＣ層、シグモイド関数層、信号をオーバーラップと加算の手順で再構成するＯｖｅｒｌａｐ－Ａｄｄ層等を備える。
本実施形態では、強調前と強調後の信号から時間周波数マスクを作成して統合に用いた。

【0044】

参考文献２：Westhausen et.al., “Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression”, arXiv preprint,2020

【0045】

図８は、第４のマスク作成方法であるＳＥＧＡＮの処理の概要を示す図である。
第３のマスク作成方法は、例えば敵対性生成ネットワークを音声強調に用いた手法であるＳＥＧＡＮ（ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔＧＡＮ（敵対性生成ネットワーク））手法（参考文献３参照）であり、ＧＡＮの結果から時間周波数マスク推定を行う。

【0046】

ＳＥＧＡＮは、敵対性生成ネットワーク（ＧＡＮ）を用いた音声強調手法である。図８のように、ＳＥＧＡＮでは、例えば、生成器（Ｇｅｎｅｒａｔｏｒ）に単一チャネルの観測信号を入力すると強調音声を出力する。ＳＥＧＡＮでは、雑音のない音声データを真のデータとし、真のデータを模倣するように生成器によって出力されたデータを偽のデータとする。次に、ＳＥＧＡＮでは、真のデータと偽のデータを正解ラベルと共に判別器に入力し学習させる。ＳＥＧＡＮでは、最後に判別器が誤判別するまで生成器を学習させる。
ＳＥＧＡＮでは、学習を行った生成器に観測信号を入力することで強調音声が得られる。
本実施形態では、ＤＴＬＮと同様、強調前と後の信号から時間周波数マスクを作成して統合に用いた。

【0047】

参考文献３：Pascual et.al., “SEGAN: Speech Enhancement Generative Adversarial Network”, arXiv preprint,2020

【0048】

なお、図５～図９を用いて説明した４つのマスク作成方法（音声強調手法）は一例であり、マスク作成部１３が用いる手法は、これに限らない。マスク作成部１３が用いる手法は、環境や音声信号や用途に応じて、他の手法であってもよい。また、本実施形態によれば、設計が異なる複数の思想に基づいた総合的な手法によってマスクを推定するので、最終的な音声強調性能を向上させることができる。

【0049】

［処理手順］
次に、音声強調装置１の処理手順例を説明する。
図９は、本実施形態に係る音声強調装置１の処理手順例のフローチャートである。

【0050】

（ステップＳ１）声信号取得部１１は、音声信号を取得する。

【0051】

（ステップＳ２）短時間フーリエ変換部１２は、取得された音声信号に対して短時間フーリエ変換を行って振幅スペクトログラムに変換する。

【0052】

（ステップＳ３）マスク作成部１３は、振幅スペクトログラムに対してＮ個の手法を適用して、４個の時間周波数マスクを推定する。

【0053】

（ステップＳ４）統合部１４は、マスク作成部１３が推定したＮ個の時間周波数マスクを統合することで、アンサンブル時間周波数マスクを作成する。

【0054】

（ステップＳ５）ビームフォーミング部１６は、例えばＧＥＶビームフォーミング手法によって、目的音声のスペクトログラムを抽出することで音声強調処理を行う。

【0055】

（ステップＳ６）逆短時間フーリエ変換部１７は、抽出された目的音声のスペクトログラムに対して、短時間フーリエ変換を行い時間領域の信号に変換する。

【0056】

（ステップＳ７）出力部１８は、強調抽出された目的音声信号を出力する。

【0057】

［評価結果］
次に、本実施形態の手法を評価した結果例を説明する。
本実施形態の手法の有効性を評価するため、人間の聴感と相関があるＳＴＯＩ（Ｓｈｏｒｔ－ＴｉｍｅＯｂｊｅｃｔｉｖｅＩｎｔｅｌｌｉｇｉｂｉｌｉｔｙｍｅａｓｕｒｅ）（参考文献４参照）とＰＥＳＱ（ＰｅｒｃｅｐｔｕａｌＥｖａｌｕａｔｉｏｎｏｆＳｐｅｅｃｈＱｕａｌｉｔｙ）（参考文献５参照）を用いて強調した音声の品質の評価を行った。ＳＴＯＩは０～１、ＰＥＳＱは１～５のそれぞれ実数で算出され、値が大きいほど人にとって聴きやすい音声となる。

【0058】

参考文献４；Cees H. Taal; Richard C. Hendriks et al, ”An Algorithm for Intelligibility Prediction of Time-Frequency Weighted Noisy Speech”, IEEE, p2125-2136, 2011
参考文献５；ITU-T Recommendation. Perceptual evaluation of speech quality (pesq): “An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”, International Telecommunication Union Telecommunication Standardization Sector Recommendation P. 862, 2001

【0059】

評価のためのデータは、音声強調のベンチマークとして広く使われているＣＨｉＭＥ３データ（参考文献６参照）を用いた。ＣＨｉＭＥ－３データセットはＷＳＪ０コーパスと環境雑音を組み合わせて作成され、実録音と模擬録音で構成されている。評価には、“ｏｎｔｈｅｂｕｓ”，“ｃａｆｅ”，“ｐｅｄｅｓｔｒｉａｎａｒｅａ”，“ｓｔｒｅｅｔ”の４種類の雑音環境でそれぞれ３３０発話を６ｃｈ、１６ｋＨｚで録音して作られた合計１３２０個の実データを用いた。

【0060】

参考文献６；Jon Barker et al. “The third‘ chime ’speech separation and recognition challenge: Dataset, task and baselines”, In 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), pages 504-511. IEEE, 2015.

【0061】

統合に用いる手法の種類は、４つである。統合に用いる手法には、上述したＢＬＳＴＭ，ＭＮＭＦＤＰ，ＤＴＬＮ，ＳＥＧＡＮを用いた。なお、ＢＬＳＴＭでは、双方向ＬＳＴＭネットワーク（ＢＬＳＴＭ）によって時間周波数マスクを推定した。ＭＮＭＦＤＰでは、多チャネル非負値行列因子分解（ＭＮＭＦ）とＤＮＮを組み合わせてマスクを推定した。ＤＴＬＮでは、２種類のＬＳＴＭネットワークによる２つの信号変換（Ｄｕａｌ－ｓｉｇｎａｌＴｒａｎｓｆｏｒｍａｔｉｏｎＬＳＴＭＮｅｔｗｏｒｋ：ＤＴＬＮ）によって音声を強調した。統合の対象として４つの音声強調手法を用いたので、全部で１１通りの単純平均の統合を行った。

【0062】

評価実験を行う前に、加重平均の統合の重み決定アルゴリズムを用いて、４つの手法から生成したマスクに対する重みαを推定した。重み推定には、８４人の発話と４種類の雑音から作成された合計７１３８個で構成されるＣＨｉＭＥ－３データセットの学習用模擬録音を用いた。各強調手法（ＢＬＳＴＭ，ＭＮＭＦ，ＤＴＬＮ，ＳＥＧＡＮ）から生成された目的音声と雑音の時間周波数マスクに対する重みα_Ｎ、α_Ｘは、次式（３）、（４）であった。なお、式（３）、（４）において、上付きＴは転置を表す。

【0063】

【数3】

【0064】

【数4】

【0065】

図１０は、本実施形態に係る評価結果を示す図である。図１０は、強調なし音声と単純平均の統合、加重平均の統合によって強調された音声をＳＴＯＩとＰＥＳＱで評価し、平均をとったグラフと、組み合わせ表である。グラフｇ５１は、ＳＴＯＩで評価し平均をとったグラフである。グラフｇ５２は、ＰＥＳＱで評価し平均をとったグラフである。グラフｇ５１、ｇ５２の横軸は項目であり、縦軸は評価値である。

【0066】

表ｇ５３は、どの手法によって強調された音声かの組み合わせである。例えば、鎖線枠ｇ５５の列は、ＢＬＳＴＭとＭＮＭＦＤＰに〇がついているので、２つの単純平均を表している。

【0067】

図１０のように、ＳＴＯＩとＰＥＳＱのどちらの評価においてもＢＬＳＴＭとＤＴＬＮの単純平均が最も良い評価値が得られた。
また、加重平均の結果は、ＢＬＳＴＭとＤＴＬＮの単純平均と同等の結果が得られた。

【0068】

この結果より、統合部１４は、単純平均の統合、または目的関数の最適化を用いた加重平均の統合を行うようにしてもよい。または、統合部１４は、単純平均の統合、および目的関数の最適化を用いた加重平均の統合を行い、両方の結果を出力するようにしてもよい。

【0069】

以上のように、本実施形態では、複数のマスク推定手法を組み合わせて時間周波数マスクを設定するようにした。また、音声強調装置１は、例えば環境や音声信号や用途に応じて、単純平均の統合または目的関数の最適化を用いた加重平均の統合を行うようにしてもよい。

【0070】

従来技術では、単一のモデルやネットワークから時間周波数マスクを推定するため、入力信号に含まれる音声強調の鍵となる特徴量を十分に活かしきれていなかった。
これに対して、本実施形態では、異なる複数のマスク作成手法から推定される複数の時間周波数マスクを統合するようにしたので、入力信号に含まれる音声強調の鍵となる特徴量を十分に活かせ、目的音声を強調することで雑音を抑圧でき、音声強調性能が向上し、音声強調のロバスト性が向上する。

【0071】

なお、上述した音声強調装置１は、例えば、ロボット、車両、音声認識装置、スマートフォン、タブレット端末、音声認識装置を備える玩具、補聴器、人工内耳等が備えていてもよい。また、アプリケーションは、クラウド経由であってもよい。

【0072】

なお、本発明における音声強調装置１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声強調装置１が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0073】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0074】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0075】

１…音声強調装置、１１…音声信号取得部、１２…短時間フーリエ変換部、１３…マスク作成部、１４…統合部、１５…音声強調部、１６…ビームフォーミング部、１７…逆短時間フーリエ変換部、１８…出力部、１３１…第１マスク作成部、１３２…第２マスク作成部、１３３…第３マスク作成部、１３４…第４マスク作成部

【図1】