特開2016-180839(P2016-180839A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2016-180839雑音抑圧音声認識装置およびそのプログラム
<>
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000004
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000005
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000006
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000007
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000008
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000009
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000010
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000011
  • 特開2016180839-雑音抑圧音声認識装置およびそのプログラム 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2016-180839(P2016-180839A)
(43)【公開日】2016年10月13日
(54)【発明の名称】雑音抑圧音声認識装置およびそのプログラム
(51)【国際特許分類】
   G10L 15/04 20130101AFI20160916BHJP
   G10L 15/20 20060101ALI20160916BHJP
   G10L 15/16 20060101ALI20160916BHJP
   G10L 15/14 20060101ALI20160916BHJP
【FI】
   G10L15/04 300C
   G10L15/20 370D
   G10L15/16
   G10L15/14 200Z
【審査請求】未請求
【請求項の数】6
【出願形態】OL
【全頁数】16
(21)【出願番号】特願2015-60541(P2015-60541)
(22)【出願日】2015年3月24日
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】小林 彰夫
(72)【発明者】
【氏名】尾上 和穂
(57)【要約】
【課題】入力音声の音声区間を検出し、音声区間の雑音を抑圧して音声認識を行う雑音抑圧音声認識を提供する。
【解決手段】雑音抑圧音声認識装置1は、入力音声からフレーム単位で音響特徴量を抽出する音響特徴量抽出手段11と、統計モデルにより、フレームごとに音声の種類ごとの各クラスが出現する事後確率と、雑音の種類ごとの各クラスが出現する事後確率とをクラス特徴量として算出するクラス特徴量算出手段15と、クラス特徴量に基づいて音声区間を検出する音声区間検出手段16と、雑音の種類ごとの雑音区間を検出する雑音区間検出手段17と、雑音抑圧手法を選択する雑音抑圧処理選択手段18と、選択された雑音抑圧手法で雑音の音響特徴量を抑圧した音響特徴量を生成する雑音抑圧手段20と、生成された音響特徴量により音声認識を行う音声認識手段30と、を備える。
【選択図】図1
【特許請求の範囲】
【請求項1】
入力音声に対して雑音抑圧を行って音声認識を行う雑音抑圧音声認識装置であって、
前記入力音声から、所定時間長のフレーム単位で音響特徴量を抽出する音響特徴量抽出手段と、
前記音響特徴量と音声認識対象である母語音声を含む音声の種類ごとの関係、および、前記音響特徴量と雑音の種類ごとの関係とを予め学習した統計モデルを記憶する統計モデル記憶手段と、
前記統計モデルに基づいて、前記音響特徴量抽出手段で抽出された音響特徴量から、フレームごとに、前記音声の種類ごとの各クラスが出現する事後確率と、前記雑音の種類ごとの各クラスが出現する事後確率とを、各クラスのクラス特徴量として算出するクラス特徴量算出手段と、
前記音声の種類ごとの各クラスが出現する事後確率に基づいて、前記母語音声の音声区間を検出する音声区間検出手段と、
前記雑音の種類ごとの各クラスが出現する事後確率に基づいて、前記雑音の種類ごとの雑音区間を検出する雑音区間検出手段と、
前記音声区間に対応する前記雑音区間における雑音の種類に応じて、予め定めた雑音抑圧手法を選択する雑音抑圧処理選択手段と、
この雑音抑圧処理選択手段で選択された雑音抑圧手法で、前記音声区間における雑音の音響特徴量を抑圧した音響特徴量を生成する雑音抑圧手段と、
この雑音抑圧手段で生成された音響特徴量により音声認識を行う音声認識手段と、
を備えることを特徴とする雑音抑圧音声認識装置。
【請求項2】
前記統計モデルは、前記音響特徴量から、前記音声の種類ごとの各クラスが出現する事後確率と、前記雑音の種類ごとの各クラスが出現する事後確率とをモデル化したニューラルネットワークであることを特徴とする請求項1に記載の雑音抑圧音声認識装置。
【請求項3】
前記音声区間検出手段は、隠れマルコフモデルに基づいて、前記音声の種類ごとの各クラスの状態遷移系列における前記音声区間を検出することを特徴とする請求項1または請求項2に記載の雑音抑圧音声認識装置。
【請求項4】
前記雑音区間検出手段は、隠れマルコフモデルに基づいて、前記雑音の種類ごとの各クラスの状態遷移系列における前記雑音の種類ごとの雑音区間を検出することを特徴とする請求項1から請求項3のいずれか一項に記載の雑音抑圧音声認識装置。
【請求項5】
前記音響特徴量抽出手段で抽出された音響特徴量の平均および分散を正規化する特徴量正規化手段を、さらに備えることを特徴とする請求項1から請求項4のいずれか一項に記載の雑音抑圧音声認識装置。
【請求項6】
コンピュータを、請求項1から請求項5のいずれか一項に記載の雑音抑圧音声認識装置として機能させるための雑音抑圧音声認識プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力音声の雑音を抑圧して音声認識を行う雑音抑圧音声認識装置およびそのプログラムに関する。
【背景技術】
【0002】
音声認識を行う場合、音声認識の処理量の削減と認識性能の向上を図るため、入力音声から、人が発話した音声区間(発話区間)を検出して音声認識行い、それ以外の非音声区間(非発話区間)では、音声認識を行わないことが好ましい。
このような入力音声から発話区間を検出する手法としては、特許文献1に開示されている手法が存在する。
この手法は、音声および非音声の状態遷移を行う隠れマルコフモデルを予め定め、それぞれの状態遷移系列から計算される尤度を比較することで、音声区間を検出している。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−233148号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
前記した特許文献1に記載の手法によれば、入力音声から音声区間と非音声区間とを識別して、音声区間の音声を取り出すことができる。
しかし、入力音声が放送番組の音声である場合、その音声には、人が発話した音声以外に、雑音として、音楽、音声認識対象外の外国語音声等が混在している場合がある。
このように、入力音声に種々の雑音が混在している場合、単純に音声区間と非音声区間を検出する従来の手法では、人が発話した音声区間のみを検出することは困難である。
一方、従来手法において仮に音声区間を検出することができたとしても、人が発話した音声区間に雑音が重畳している場合、音声認識の精度が低くなってしまう。
【0005】
本発明は、このような問題に鑑みてなされたものであり、雑音が重畳した入力音声から、音声認識対象の音声(母語音声)による音声区間を検出するとともに、当該区間に重畳されている雑音を抑圧して音声認識を行う雑音抑圧音声認識装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
前記課題を解決するため、本発明に係る雑音抑圧音声認識装置は、入力音声に対して雑音抑圧を行って音声認識を行う雑音抑圧音声認識装置であって、音響特徴量抽出手段と、統計モデル記憶手段と、クラス特徴量算出手段と、音声区間検出手段と、雑音区間検出手段と、雑音抑圧処理選択手段と、音声認識手段と、を備える構成とした。
【0007】
かかる構成において、雑音抑圧音声認識装置は、音響特徴量抽出手段によって、入力音声から、所定時間長のフレーム単位で音響特徴量を抽出する。この音響特徴量は、例えば、対数メルフィルタバンク出力やメル周波数ケプストラム係数である。
そして、雑音抑圧音声認識装置は、クラス特徴量算出手段によって、統計モデルに基づいて、音響特徴量抽出手段で抽出された音響特徴量から、フレームごとに、音声認識対象である母語音声を含む音声の種類ごとの各クラスが出現する事後確率と、雑音の種類ごとの各クラスが出現する事後確率とを、各クラスのクラス特徴量として算出する。この統計モデルは、予め統計モデル記憶手段に記憶されているもので、音響特徴量と音声の種類ごとの関係、および、音響特徴量と雑音の種類ごとの関係とを予め学習したものである。この統計モデルは、ニューラルネットワークのパラメータ(ネットワークの層間を結合する結合行列とバイアス項)としてモデル化しておくことができる。
【0008】
そして、雑音抑圧音声認識装置は、音声区間検出手段によって、音声の種類ごとの各クラスが出現する事後確率に基づいて、母語音声の音声区間を検出する。この音声区間は、隠れマルコフモデルに基づく、音声の種類(母語音声、非音声等)ごとの各クラスの状態遷移系列により検出することができる。
また、雑音抑圧音声認識装置は、雑音区間検出手段によって、雑音の種類ごとの各クラスが出現する事後確率に基づいて、雑音の種類(外国語音声、音楽等)ごとの雑音区間を検出する。この雑音の種類ごとの雑音区間についても、隠れマルコフモデルに基づく、雑音の種類ごとの各クラスの状態遷移系列により検出することができる。
これによって、雑音抑圧音声認識装置は、入力音声のどの区間が音声区間であるのかを検出することができるともに、その音声区間において、さらに雑音の種類ごとの区間を検出することができる。
【0009】
そして、雑音抑圧音声認識装置は、雑音抑圧処理選択手段によって、音声区間に対応する雑音区間における雑音の種類に応じて、予め定めた雑音抑圧手法を選択する。
【0010】
そして、雑音抑圧音声認識装置は、雑音抑圧手段によって、雑音抑圧処理選択手段で選択された雑音抑圧手法で、音声区間における雑音の音響特徴量を抑圧した音響特徴量を生成する。
これによって、雑音抑圧音声認識装置は、音声区間に重畳されている雑音の種類に応じて、個別に雑音を抑圧した音響特徴量を生成することができる。
【0011】
そして、雑音抑圧音声認識装置は、音声認識手段によって、雑音抑圧手段で生成された音響特徴量により音声認識を行う。
これによって、雑音抑圧音声認識装置は、入力音声から、音声認識対象の音声(母語音声)による音声区間を検出し、その音声区間に重畳されている雑音の種類に応じて雑音を抑圧した音声認識を行うことができる。
【発明の効果】
【0012】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、雑音が重畳した入力音声であっても、音声と雑音とをモデル化した統計モデルを用いることで、音声認識対象の音声による音声区間を精度よく検出することができる。また、本発明によれば、検出した音声区間に重畳されている雑音の種類に応じた雑音抑圧処理を施すことができるため、音声認識の精度を高めることができる。
【図面の簡単な説明】
【0013】
図1】本発明の実施形態に係る雑音抑圧音声認識装置の構成を示すブロック構成図である。
図2】統計モデル記憶手段に記憶され、クラス特徴量抽出手段が参照するリカレントニューラルネットワークの構造を模式的に示す模式図である。
図3】音声区間検出手段における3つの状態遷移の例を示す遷移図である。
図4】音声区間検出手段において最尤系列を求める手法を説明するための説明図である。
図5】雑音区間検出手段における4つの状態遷移の例を示す遷移図である。
図6】雑音区間検出手段において最尤系列を求める手法を説明するための説明図である。
図7】統計モデル記憶手段に記憶される統計モデルを学習するための学習データの例を示し、(a)は入力音声のフレームごとの音響特徴量、(b)は入力音声を構成するフレームごとの音の構成、(c)はフレームごとの音声区間検出手段用のクラス特徴量および雑音区間検出手段用のクラス特徴量を示す。
図8】本発明の実施形態に係る雑音抑圧音声認識装置の音響特徴量の蓄積動作を示すフローチャートである。
図9】本発明の実施形態に係る雑音抑圧音声認識装置の雑音のクラス別に雑音抑圧を行う動作を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態について図面を参照して説明する。
〔雑音抑圧音声認識装置の構成〕
まず、図1を参照して、本発明の実施形態に係る雑音抑圧音声認識装置1の構成について説明する。
【0015】
雑音抑圧音声認識装置1は、放送番組の音声(放送音声)のような雑音を含んだ音声から、音声認識対象の音声区間を検出し、当該区間に重畳されている雑音を抑圧して音声認識を行うものである。以下、音声認識対象の音声を母語音声(例えば、日本人による日本語の音声)という。また、ここで、雑音とは、音声認識対象の音声以外の音声あるいは音であって、音楽、外国語音声等である。もちろん、雑音には、音楽、外国語音声以外にも、種々存在するが、それらは、その1つとしてその他雑音ということとする。
ここでは、雑音抑圧音声認識装置1は、区間検出手段10と、雑音抑圧手段20と、音声認識手段30と、を備える。
【0016】
区間検出手段10は、入力音声(放送音声)から音声区間を検出するとともに、当該音声区間内に重畳されている雑音の種別を特定し、音声フレーム(音声認識を行う音響特徴量の1単位を指す)ごとに、予め定めた複数の雑音抑圧手法のいずれが適しているかを選択するものである。
ここでは、区間検出手段10は、音響特徴量抽出手段11と、特徴量正規化手段12と、フレームバッファ13と、統計モデル記憶手段14と、クラス特徴量算出手段15と、音声区間検出手段16と、雑音区間検出手段17と、雑音抑圧処理選択手段18と、を備える。
【0017】
音響特徴量抽出手段11は、入力音声から、音響特徴量を抽出するものである。この音響特徴量は、雑音が重畳された入力音声の特徴量である。ここでは、音響特徴量として、対数メルフィルタバンク出力を用いる。
【0018】
具体的には、音響特徴量抽出手段11は、まず、入力音声を所定の時間単位でフレーム(例えば、フレーム長を20〜30ms、フレーム間隔を10〜20ms)を切り出す。そして、音響特徴量抽出手段11は、フレームごとに離散フーリエ変換(DFT:Discrete Fourier Transform)を行う。そして、音響特徴量抽出手段11は、振幅スペクトルをメル尺度上で等間隔なフィルタバンクにかけて、各帯域のスペクトル成分を抽出する。そして、音響特徴量抽出手段11は、フィルタバングの数の次数(例えば、20次元)に圧縮された振幅スペクトルの対数をとることで、対数振幅スペクトル(特徴量ベクトル)を求める。
この音響特徴量抽出手段11は、所定次数の対数振幅スペクトルを、特徴量正規化手段12に出力する。
【0019】
なお、ここでは、音響特徴量として、対数メルフィルタバンク出力(所定次数の対数振幅スペクトル)を用いることとするが、メル周波数ケプストラム係数(MFCC:Mel Frequency CepstralCoefficient)を用いることとしてもよい。
その場合、音響特徴量抽出手段11は、前記のように求めた所定次数の対数振幅スペクトルに対して、離散コサイン変換(DCT:Discrete Cosine Transform)を行い、スペクトルの声道成分となる低次(例えば、12次元)の成分をメル周波数ケプストラム係数として取り出せばよい。
【0020】
特徴量正規化手段12は、音響特徴量抽出手段11で抽出された音響特徴量を正規化するものである。
例えば、特徴量正規化手段12は、音響特徴量抽出手段11で抽出された音響特徴量である所定次数の特徴量ベクトル(対数振幅スペクトルまたはメル周波数ケプストラム係数)を、平均値が“0”、分散が“1”となるように正規化する。これによって、特徴量ベクトルのダイナミックレンジ(幅)を圧縮するとともに、例えば、マイク特性、話者の違い等による音響特徴量のばらつき(歪み)を抑えることができる。
この特徴量正規化手段12は、正規化された音響特徴量を、フレーム単位で、フレームバッファ13に蓄積する。
【0021】
フレームバッファ13は、音響特徴量をフレーム単位で記憶するもので、一般的なメモリで構成される。なお、フレームバッファ13のサイズは、少なくとも音声区間検出手段16および雑音区間検出手段17において、各区間(音声区間、雑音区間)を検出する予め定めた大きさを有し、例えば、50フレームとする。
このフレームバッファ13には、特徴量正規化手段12によって、音響特徴量が逐次記憶され、クラス特徴量算出手段15によって順次読み出される。なお、フレームバッファ13のクリアは、音声区間検出手段16および雑音区間検出手段17の説明において行うこととする。
【0022】
統計モデル記憶手段14は、フレームごとの音響特徴量が入力された際に、音声の音をその種類ごとにクラス分けした各分類の状態と、雑音の音をその種類ごとにクラス分けした各分類の状態がそれぞれ占有する確率(隠れマルコフモデル〔HMM:Hidden Markov Model〕の状態の事後確率)をモデル化した統計モデルを記憶するものである。
この統計モデルは、単一の音声入力(音響特徴量)から、音声に着目した分類と、雑音に着目した分類とを2つ独立して、それぞれの事後確率をモデル化したものである。
ここでは、音声を、母語音声と、非音声(音楽、外国語音声、その他雑音)と、無音との3つの種類にクラス分けすることとする。また、雑音を、雑音なし(母語音声のみ、または、無音)と、外国語音声と、音楽と、その他雑音との4つの種類にクラス分けすることとする。
【0023】
この統計モデル記憶手段14は、統計モデルとして、例えば、予め学習した統計モデルの一つであるリカレントニューラルネットワークのパラメータ(ネットワーク層間を結ぶ結合行列およびバイアス)を記憶しておく。この統計モデル(リカレントニューラルネットワーク)の学習については、後で説明することとする。
【0024】
ここで、図2を参照して、リカレントニューラルネットワークについて説明する。図2は、後記するクラス特徴量算出手段15において、音響特徴量から、音声および雑音の各クラスの事後確率をクラス特徴量として求めるリカレントニューラルネットワークNの構造を模式的に示したものである。
【0025】
このリカレントニューラルネットワークNは、入力層において、所定次元の音響特徴量を入力し、隠れ層A、隠れ層Bを介し、2つの出力層から、それぞれ、音声(母語音声、非音声、無音の3つ)と、雑音(雑音なし、外国語音声、音楽、その他雑音の4つ)の各クラスの事後確率(クラス特徴量)を出力する。このとき、リカレントニューラルネットワークNは、隠れ層Aにおいて、前回の隠れ層Aの出力を再帰させる。これによって、リカレントニューラルネットワークNは、クラス特徴量が直前の音響特徴量の影響を受け、推定精度を高めることができる。
図1に戻って、雑音抑圧音声認識装置1の構成について説明を続ける。
【0026】
クラス特徴量算出手段15は、フレームバッファ13から、順次、フレームごとの音響特徴量を入力し、統計モデル記憶手段14に記憶されている統計モデルに基づいて、音声(母語音声、非音声、無音の3つ)と、雑音(雑音なし、外国語音声、音楽、その他雑音の4つ)のクラスごとのクラス特徴量(事後確率)を算出するものである。
すなわち、クラス特徴量算出手段15は、図2に示すように、統計モデル記憶手段14に予め記憶されているリカレントニューラルネットワークNの層間を結ぶ結合行列およびバイアスに基づいて、入力層から出力層までの演算を順次行い、クラス特徴量を算出する。
【0027】
ここでは、クラス特徴量算出手段15は、音声(母語音声、非音声、無音の3つ)について、それぞれのクラス(母語音声、非音声、無音)とともに、クラス特徴量(事後確率)をタグとして音声区間検出手段16に出力する。また、クラス特徴量算出手段15は、雑音(雑音なし、外国語音声、音楽、その他雑音の4つ)について、それぞれのクラス(雑音なし、外国語音声、音楽、その他雑音)とともに、クラス特徴量(事後確率)をタグとして雑音区間検出手段17に出力する。
【0028】
音声区間検出手段16は、クラス特徴量算出手段15においてフレームごとに算出されるクラス特徴量に基づいて、音声区間を検出するものである。
ここでは、音声区間検出手段16は、各フレームが、“母語音声”、“非音声”および“無音”のどのクラスに属する音声であるのかを判定する。この場合、“母語音声”と判定された1以上の連続フレームが音声区間となる。
【0029】
すなわち、音声区間検出手段16は、図3に示すような“母語音声”、“非音声”および“無音”の3状態からなるエルゴディックHMMにより、各状態(クラス)を、クラス特徴量算出手段15から入力されるクラス特徴量(事後確率)に基づいて確率的に遷移させる。
そして、音声区間検出手段16は、フレームバッファ13に記憶されている音響特徴量の各クラスに遷移する最尤系列を求めることで、フレームごとのクラスを特定する。なお、最尤系列とは、遷移する確率が最大となるHMM状態系列をいう。
【0030】
例えば、音声区間検出手段16は、図4に示すように、フレームバッファ13に音響特徴量がフレーム単位で特徴量列として記憶された状態において、クラス特徴量算出手段15で算出されたクラス特徴量(クラスごとの事後確率)を順次入力するたびに、ビタビ(Viterbi)アルゴリズムにより最尤系列を求める。ここで、図4は、ある時間tにおいて、フレームバッファ13の先頭から、クラスが“母語音声”,“母語音声”,…,“無音”が最尤系列であることを示している。
これによって、音声区間検出手段16は、フレームバッファ13に記憶されている音響特徴量がどのクラスの特徴量であるのかを順次判定することができる。
【0031】
この音声区間検出手段16は、フレームごとに、判定したクラスを特定するタグを雑音抑圧処理選択手段18に出力するとともに、フレームバッファ13から当該フレームに対応する音声特徴量を読み出す旨を、雑音抑圧処理選択手段18に指示する。
そして、音声区間検出手段16は、雑音抑圧処理選択手段18から読み出し完了の応答を受け取ったタイミングで、フレームバッファ13の内容を更新する。
【0032】
すなわち、音声区間検出手段16は、図4に示すように、最尤系列によりクラスが決定した区間(決定区間)が特定され、各音響特徴量が雑音抑圧処理選択手段18に出力された後、まだクラスが決定していない区間(未決区間)の音響特徴量をフレームバッファ13の先頭に移動させ、残りのフレームバッファ13の音響特徴量をクリアする。
このように、フレームバッファ13には、バッファサイズをNbuf、決定区間をNdet、未決区間をNnotとしたとき、以下の式(1)の関係がある。
【0033】
【数1】
【0034】
そこで、音声区間検出手段16は、Nbufフレームに対して、Ndetフレーム分のクラスが決定された後、Nnotフレームを先頭バッファに移動させる処理を繰り返し、入力音声の音響特徴量がフレームバッファ13に入力され続ける限り、クラスの判定動作を繰り返す。
なお、図4において、フレームバッファ13よりも前(図中、左)に、遷移状態を示す“○印”が存在しているが、これは、クラスの判定動作継続中の未決区間のクラス判定を行う際に、決定区間の最後の状態のクラス特徴量を含んで最尤系列を求めてもよいことを示している。これによって、最尤系列の精度を高めることができる。
【0035】
雑音区間検出手段17は、クラス特徴量算出手段15においてフレームごとに算出されるクラス特徴量に基づいて、雑音の種別を区分する雑音区間を検出するものである。
ここでは、雑音区間検出手段17は、各フレームが、“雑音なし”、“外国語音声”、“音楽”および“その他雑音”のどのクラスに属する雑音であるのかを判定する。この場合、例えば、“音楽”と判定された1以上の連続フレームが、音楽による雑音区間となる。
【0036】
すなわち、雑音区間検出手段17は、図5に示すような“雑音なし”、“外国語音声”、“音楽”および“その他雑音”の4状態からなるエルゴディックHMMにより、各状態(クラス)を、クラス特徴量算出手段15から入力されるクラス特徴量(事後確率)に基づいて確率的に遷移させる。
そして、雑音区間検出手段17は、フレームバッファ13に記憶されている音響特徴量の各クラスに遷移する遷移確率が最大となる最尤系列を求めることで、フレームごとのクラスを特定する。
【0037】
この雑音区間検出手段17は、クラスの種別が異なる点を除いて、図6に示すように、音声区間検出手段16と同様の手法(ビタビアルゴリズム)で最尤系列を求め、フレームごとのクラスを特定する。この図6は、クラスの種別が異なるだけで、図4と同じであるため、これ以上の説明は省略する。
【0038】
なお、フレームバッファ13は音声区間検出手段16と共通に参照するため、雑音区間検出手段17は、音声区間検出手段16が最尤系列を特定した時点に同期して、同じ時点までの最尤系列を特定(複数存在する場合は、その中から1つ選択)して、フレームごとに、判定したクラスを特定するタグを雑音抑圧処理選択手段18に出力する。
これによって、あるフレームに対して、音声区間検出手段16で判定されたクラスのタグ(“母語音声”,“非音声”,“無音”)と、雑音区間検出手段17で判定されたクラスのタグ(“雑音なし”,“外国語音声”,“音楽”,“その他雑音”)とが対となって、フレームごとに雑音抑圧処理選択手段18に出力される。
【0039】
雑音抑圧処理選択手段18は、音声区間検出手段16で検出されたフレームごとのクラスと、雑音区間検出手段17で検出されたフレームごとのクラスとに基づいて、フレームごとに、予め定めた複数の雑音抑圧処理の中から1つを選択するものである。
ここでは、雑音抑圧処理選択手段18は、音声区間検出手段16で“母語音声”と判定されたフレームにおいて、雑音区間検出手段17で判定された雑音の種別(クラス)に応じて、雑音抑圧処理を切り替える。
【0040】
すなわち、“母語音声”と判定されたフレームにおいて、雑音のクラスが“雑音なし”の場合、雑音抑圧処理選択手段18は、入力aの出力を、雑音抑圧を行わない経路となる出力bに切り替えて、フレームバッファ13に記憶されている音響特徴量を雑音抑圧手段20に出力する。
【0041】
また、“母語音声”と判定されたフレームにおいて、雑音のクラスが“外国語音声”の場合、雑音抑圧処理選択手段18は、入力aの出力を、外国語音声を抑圧する手段(ここでは、特定雑音抑圧手段21a)への経路となる出力cに切り替えて、フレームバッファ13に記憶されている音響特徴量を雑音抑圧手段20に出力する。
【0042】
また、“母語音声”と判定されたフレームにおいて、雑音のクラスが“音楽”の場合、雑音抑圧処理選択手段18は、入力aの出力を、音楽を抑圧する手段(ここでは、特定雑音抑圧手段21b)への経路となる出力dに切り替えて、フレームバッファ13に記憶されている音響特徴量を雑音抑圧手段20に出力する。
【0043】
また、“母語音声”と判定されたフレームにおいて、雑音のクラスが“その他雑音”の場合、雑音抑圧処理選択手段18は、入力aの出力を、その他固有の雑音を抑圧する手段(ここでは、特定雑音抑圧手段21c)への経路となる出力eに切り替えて、フレームバッファ13に記憶されている音響特徴量を雑音抑圧手段20に出力する。
【0044】
なお、雑音抑圧処理選択手段18は、音声区間検出手段16で“非音声”と判定されたフレームについては、雑音区間検出手段17で判定された雑音の種別(クラス)に関係なく、入力aの出力を、出力を停止する経路となる出力fに切り替える。これによって、音声認識装置2において、非音声を誤って音声と識別することに起因する音声認識誤りの増加を防止することができる。
また、雑音抑圧処理選択手段18は、音声区間検出手段16で“無音”と判定されたフレームについては、入力aの出力を出力bに切り替えて、無音の音響特徴量を雑音抑圧手段20に出力することとしてもよいし、入力aの出力を出力fに切り替えて、無音の音響特徴量を雑音抑圧手段20に出力しないこととしてもよい。
これによって、雑音抑圧処理選択手段18は、音声に重畳されている雑音の種別に応じて、最適な雑音抑圧手法を選択することができる。
【0045】
なお、ここでは、雑音抑圧処理選択手段18は、入出力の経路を切り替えることで、複数の雑音抑圧処理の中から1つを選択することとしたが、雑音抑圧処理を識別する識別子とともに、音響特徴量を雑音抑圧手段20に出力することとしてもよい。
【0046】
雑音抑圧手段20は、雑音抑圧処理選択手段18で選択された雑音抑圧処理で、音声に重畳されている雑音を抑圧するものである。ここでは、雑音抑圧手段20は、音響特徴量を予め学習した雑音抑圧モデルによる補正することで、雑音を抑圧する。
この雑音抑圧手段20は、特定の雑音の種別に応じた複数の特定雑音抑圧手段21(21a,21b,21c)と、雑音抑圧モデル記憶手段22と、を備える
【0047】
特定雑音抑圧手段21aは、フレームごとの音響特徴量に対して、雑音抑圧モデル記憶手段22に記憶されているモデルに基づいて、外国語音声の特徴を抑圧した音響特徴量を算出するものである。
【0048】
特定雑音抑圧手段21bは、フレームごとの音響特徴量に対して、雑音抑圧モデル記憶手段22に記憶されているモデルに基づいて、音楽の特徴を抑圧した音響特徴量を算出するものである。
【0049】
特定雑音抑圧手段21cは、フレームごとの音響特徴量に対して、雑音抑圧モデル記憶手段22に記憶されているモデルに基づいて、その他の特定の雑音の特徴を抑圧した音響特徴量を算出するものである。
なお、特定雑音抑圧手段21a,21b,21cは、それぞれ雑音抑圧モデル記憶手段22に記憶されている専用のモデルを用いることする。
【0050】
この雑音抑圧モデル記憶手段22に記憶されているそれぞれのモデルには、特定の種類の雑音を抑圧するニューラルネットワークを用いることができる。このニューラルネットワークは、予め雑音が重畳された音声と、教師信号である雑音が重畳されていない音声とから学習したものである。
【0051】
すなわち、複数の特定雑音抑圧手段21(21a,21b,21c)は、入力層に入力される雑音が重畳された音響特徴量を、それぞれの雑音(外国語音声,音楽,その他雑音)用に予め学習されたニューラルネットワークのパラメータ(ネットワーク層間を結ぶ結合行列およびバイアス)を用いて出力層まで演算することで、雑音を抑圧した音響特徴量(雑音抑圧音響特徴量)を生成する。
【0052】
雑音抑圧モデル記憶手段22は、特定の雑音が重畳された音声の音響特徴量を、雑音を抑圧した音声の音響特徴量に変換するためのモデルを記憶するものである。ここでは、雑音抑圧モデル記憶手段22は、それぞれの雑音(外国語音声,音楽,その他雑音)に対応して、ニューラルネットワークのパラメータ(ネットワーク層間を結ぶ結合行列およびバイアス)を記憶しておく。
【0053】
なお、ニューラルネットワークを用いた雑音抑圧を行う手法は、公知の手法であって、例えば、以下の参考文献に記載されている。
(参考文献)「Xue Feng, Yaodong Zhang, James Glass ,“SPEECH FEATURE DENOISING AND DEREVERBERATION VIA DEEP AUTOENCODERS FOR NOISY REVERBERANT SPEECH RECOGNITION”,2014 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP)」
【0054】
この雑音抑圧手段20は、特定雑音抑圧手段21a,21b,21cで生成された雑音抑圧音響特徴量を、音声認識手段30に出力する。
なお、雑音抑圧手段20は、雑音のクラスが“雑音なし”と判定されたフレームの音響特徴量、すなわち、雑音抑圧処理選択手段18の出力bから入力した音響特徴量については、特定雑音抑圧手段21を介さずに、そのまま音声認識手段30に出力する。
【0055】
音声認識手段30は、音声特徴量を入力として、音声認識を行うものである。
ここでは、音声認識手段30は、雑音抑圧手段20から、雑音を抑圧した音声の音響特徴量(雑音抑圧音響特徴量)を入力する。
この音声認識手段30における音響特徴量から音声認識を行う手法は、一般的な手法を用いればよい。例えば、音声認識手段30は、音響特徴量を隠れマルコフモデル(HMM)でモデル化した音響モデルと、単語間の接続関係をモデル化した言語モデルとを用いて、順次入力される音響特徴量から文字列を推定すればよい。
この音声認識手段30は、推定した文字列を認識結果として外部に出力する。例えば、音声認識手段30は、認識結果である文字列を、図示を省略した表示装置に出力してもよいし、記録媒体に記録することとしてもよい。
このように、音声認識手段30は、入力音声の音響特徴量に対して、雑音の成分を抑圧した音響特徴量を用いて音声認識を行うため、認識精度を高めることができる。
【0056】
以上、説明したように雑音抑圧音声認識装置1を構成することで、雑音抑圧音声認識装置1は、雑音を含んだ一般的な環境で発話された音声から、母語音声の発話区間(音声区間)を精度よく推定することができる。また、雑音抑圧音声認識装置1は、音声に重畳された雑音の種類を判定し、雑音の種類に適した雑音抑圧手法により雑音を抑えるため、雑音を効果的に抑え、音声認識の精度を高めることができる。
なお、雑音抑圧音声認識装置1は、コンピュータを、前記した構成の各手段として機能させるためのプログラム(雑音抑圧音声認識プログラム)で動作させることができる。
【0057】
(統計モデルの学習について)
次に、統計モデル記憶手段14に記憶される統計モデル(リカレントニューラルネットワーク)の学習について説明する。
ここでは、図2に示したリカレントニューラルネットワークNとして、所定次元の音響特徴量を入力し、音声の各クラス(ここでは、母語音声、非音声、無音)のクラス特徴量(事後確率)と、雑音の各クラス(ここでは、雑音なし、外国語音声、音楽、その他雑音)のクラス特徴量(事後確率)とを出力する統計モデルを学習する例を説明する。
この場合、リカレントニューラルネットワークNのネットワーク層間を結ぶ結合行列およびバイアスは、教師信号を用いる既存のアルゴリズムである誤差逆伝播法を用いて求めればよい。この教師信号は、既知の雑音が重畳された音声(音響特徴量)、および、当該音声のフレームごとの各クラスの事後確率である。
【0058】
ここで、図7を参照(適宜、図1参照)して、教師信号として用いる学習データの一例について説明する。
図7(a)は、既知の雑音が所定時間に重畳されている音声の音響特徴量を12フレーム分示している。なお、この音響特徴量は、図1に示した音響特徴量抽出手段11と同様の手法で、雑音が重畳された音声から抽出したものである。
この音響特徴量が、リカレントニューラルネットワークNの入力層に入力される信号となる。
【0059】
図7(b)は、(a)の各フレームが、どのクラスの音で構成されているのかを示している。ここでは、母語音声が、第3フレームから第9フレームまで含まれ、音楽が、第1フレームから第10フレームまで含まれ、外国語音声が第11フレームから第12フレームまで含まれていることを示している。
【0060】
図7(c)は、音声区間検出手段16および雑音区間検出手段17のそれぞれに出力するクラス特徴量である音のクラスとその状態の事後確率(教師信号)とを示している。
例えば、音声区間検出手段16に対する出力として、図7(b)に示すように、第1フレームから第2フレームまで、および、第10フレームから第12フレームまでは、母語音声が含まれていないため、図7(c)に示すように、非音声の状態の事後確率“1.0”が出力されることが期待される。また、第3フレームから第9フレームまでは、母語音声が含まれているため、音声の状態の事後確率“1.0”が出力されることが期待される。
【0061】
また、雑音区間検出手段17に対する出力として、図7(b)に示すように、第1フレームから第10フレームまでは、音楽が含まれているため、図7(c)に示すように、音楽の状態の事後確率“1.0”が出力されることが期待される。また、第11フレームから第12フレームまでは、外国語音声が含まれているため、外国語音声の状態の事後確率“1.0”が出力されることが期待される。
このような既知の種々の学習データを教師信号として学習させることで、リカレントニューラルネットワークを構成することができる。
【0062】
〔雑音抑圧音声認識装置の動作〕
次に、図8図9を参照して、本発明の実施形態に係る雑音抑圧音声認識装置1の動作について説明する。なお、ここでは、予め統計モデル記憶手段14および雑音抑圧モデル記憶手段22に各モデルが記憶されているものとする。
また、ここでは、雑音抑圧音声認識装置1の動作として、フレームバッファ13に音響特徴量を蓄積する動作と、フレームバッファ13に蓄積されている音響特徴量から、雑音を抑圧した音声認識を行う動作とに分けて説明する。
【0063】
(音響特徴量蓄積動作)
まず、図8を参照(構成については適宜図1参照)して、雑音抑圧音声認識装置1のフレームバッファ13に音響特徴量を蓄積する動作について説明する。
【0064】
雑音抑圧音声認識装置1は、音響特徴量抽出手段11によって、入力音声を所定の時間単位(フレーム単位)で切り出し、フレームごとに所定次数の音響特徴量を抽出する(ステップS10)。ここでは、音響特徴量抽出手段11が、対数メルフィルタバンク出力により音響特徴量を抽出する。
【0065】
そして、雑音抑圧音声認識装置1は、特徴量正規化手段12によって、ステップS10で抽出された所定次数の音響特徴量を、平均値が“0”、分散が“1”となるように正規化し(ステップS11)、フレームバッファ13に順次蓄積する(ステップS12)。
【0066】
そして、雑音抑圧音声認識装置1は、音響特徴量抽出手段11に音声が入力される間(ステップS13でYes)、ステップS10に戻って、フレームバッファ13への音響特徴量の蓄積動作を継続する。一方、入力音声がなくなった段階(ステップS13でNo)で、雑音抑圧音声認識装置1は、フレームバッファ13への音響特徴量の蓄積動作を終了する。
【0067】
(クラス別雑音抑圧動作)
次に、図9を参照(構成については適宜図1参照)して、雑音抑圧音声認識装置1の雑音のクラス別に雑音抑圧手法を切り替えて雑音抑圧を行う動作について説明する。
【0068】
雑音抑圧音声認識装置1のクラス特徴量算出手段15が、フレームバッファ13に音響特徴量が蓄積されるまで待機する(ステップS20でNo)。そして、音響特徴量が蓄積された段階(ステップS20でYes)で、雑音抑圧音声認識装置1は、クラス特徴量算出手段15によって、統計モデル記憶手段14に記憶されている統計モデルに基づいて、音響特徴量から、音声(母語音声、非音声、無音の3つ)と、雑音(雑音なし、外国語音声、音楽、その他雑音の4つ)のクラスごとの事後確率(クラス特徴量)を算出する(ステップS21)。
【0069】
そして、雑音抑圧音声認識装置1は、音声区間検出手段16および雑音区間検出手段17によって、それぞれ、ステップS21で算出されたクラスごとの音響特徴量の最尤系列を求める。ここで、音声区間検出手段16において、最尤系列が決定されていない場合(ステップS22でNo)、雑音抑圧音声認識装置1は、ステップS21に戻る。
【0070】
一方、音声区間検出手段16において、最尤系列が決定された場合(ステップS22でYes)、ステップS23以降に動作を進める。なお、このとき、雑音区間検出手段17は、音声区間検出手段16と同期して、音声区間検出手段16が最尤系列を決定した時点までの雑音区間の最尤系列を1つ決定する。
【0071】
そして、雑音抑圧音声認識装置1は、雑音抑圧処理選択手段18によって、音声区間検出手段16で最尤系列として検出されたフレームごとのクラスと、雑音区間検出手段17で最尤系列として検出されたフレームごとのクラスとに基づいて、フレームごとに、予め定めた複数の雑音抑圧処理の中から、雑音の種別に応じた雑音抑圧処理を1つ選択する(ステップS23)。
【0072】
そして、雑音抑圧音声認識装置1は、ステップS23で選択された雑音抑圧処理を行う特定雑音抑圧手段21によって、フレームごとの音響特徴量に対して、雑音抑圧モデル記憶手段22に記憶されているモデルに基づいて、雑音抑圧処理として、フレームバッファ13に蓄積されている音響特徴量から、雑音の成分を抑圧した音響特徴量を算出する(ステップS24)。
このとき、音声区間検出手段16で最尤系列として検出されたフレームのクラスが、音声(母語音声)でなければ、当該フレームの音響特徴量については、フレームバッファ13から特定雑音抑圧手段21への出力を行わないこととする。
【0073】
そして、雑音抑圧音声認識装置1は、音声区間検出手段16によって、フレームバッファ13において、最尤系列を特定したクラスの音響特徴量をクリアする(ステップS25)。
その後、雑音抑圧音声認識装置1は、音声認識手段30によって、複数の特定雑音抑圧手段21で順次算出されたフレーム単位の音響特徴量により音声認識を行う(ステップS26)。
【0074】
そして、雑音抑圧音声認識装置1は、さらに、音声が入力されていれば(ステップS27でYes)、ステップS20に戻って動作を続ける。一方、音声が入力されなければ(ステップS27でNo)、雑音抑圧音声認識装置1は、動作を終了する。
以上の動作によって、雑音抑圧音声認識装置1は、雑音が重畳された音声から、音声区間を検出し、その音声区間における雑音の種別に応じた雑音抑圧手法により、雑音を抑圧して、精度よく音声認識を行うことができる。
【0075】
以上、本発明の実施形態に係る雑音抑圧音声認識装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、統計モデル記憶手段14に記憶する統計モデルを、リカレントニューラルネットワークを例として説明したが、他の統計モデルを用いても構わない。例えば、一般的なフィードフォワード型のニューラルネットワークを用いることとしてもよい。
【0076】
また、ここでは、音声区間検出手段16において、“母語音声”、“非音声”および“無音”の3つの音声のクラスを規定したが、無音状態が存在しないことが既知の音声を音声認識対象とする場合、“無音”のクラスを省略してもよい。
また、ここでは、雑音区間検出手段17において、“雑音なし”、“外国語音声”、“音楽”および“その他雑音”の4つのクラスの雑音を規定したが、“拍手”、“笑い声”等の雑音のクラスを規定することとしてもよい。また、予めあるクラスの雑音が存在しないことが既知であれば、そのクラスを省略してもよい。
【0077】
また、ここでは、特徴量正規化手段12を備える構成としたが、特定の話者しか発話しない等の場合、この構成を省略してもよい。
また、ここでは、雑音抑圧音声認識装置1の内部に音声認識手段30を備える構成としたが、この音声認識手段30を分離して、外部に音声認識装置として備えることとしてもよい。
【符号の説明】
【0078】
1 雑音抑圧音声認識装置
10 区間検出手段
11 音響特徴量抽出手段
12 特徴量正規化手段
13 フレームバッファ
14 統計モデル記憶手段
15 クラス特徴量算出手段
16 音声区間検出手段
17 雑音区間検出手段
18 雑音抑圧処理選択手段
20 雑音抑圧手段
21 特定雑音抑圧手段
22 雑音抑圧モデル記憶手段
30 音声認識手段
図1
図2
図3
図4
図5
図6
図8
図9
図7