特許第6054004号(P6054004)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧
<>
  • 特許6054004-音声認識装置 図000009
  • 特許6054004-音声認識装置 図000010
  • 特許6054004-音声認識装置 図000011
  • 特許6054004-音声認識装置 図000012
  • 特許6054004-音声認識装置 図000013
  • 特許6054004-音声認識装置 図000014
  • 特許6054004-音声認識装置 図000015
  • 特許6054004-音声認識装置 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】6054004
(24)【登録日】2016年12月9日
(45)【発行日】2016年12月27日
(54)【発明の名称】音声認識装置
(51)【国際特許分類】
   G10L 15/07 20130101AFI20161219BHJP
【FI】
   G10L15/07
【請求項の数】2
【全頁数】12
(21)【出願番号】特願2016-541466(P2016-541466)
(86)(22)【出願日】2016年1月29日
(86)【国際出願番号】JP2016052724
【審査請求日】2016年6月17日
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100123434
【弁理士】
【氏名又は名称】田澤 英昭
(74)【代理人】
【識別番号】100101133
【弁理士】
【氏名又は名称】濱田 初音
(74)【代理人】
【識別番号】100199749
【弁理士】
【氏名又は名称】中島 成
(74)【代理人】
【識別番号】100188880
【弁理士】
【氏名又は名称】坂元 辰哉
(74)【代理人】
【識別番号】100197767
【弁理士】
【氏名又は名称】辻岡 将昭
(74)【代理人】
【識別番号】100201743
【弁理士】
【氏名又は名称】井上 和真
(72)【発明者】
【氏名】金川 裕紀
(72)【発明者】
【氏名】太刀岡 勇気
【審査官】 千本 潤介
(56)【参考文献】
【文献】 米国特許出願公開第2012/0173240(US,A1)
【文献】 米国特許出願公開第2005/0182626(US,A1)
【文献】 特開2003−216178(JP,A)
【文献】 D.Povey et al.,A Basis Representation of Constrained MLLR Transforms for Robust Adaptation,Computer Speech and Language,2012年 1月,Vol.26, Issue 1,pp.35-51
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/07
(57)【特許請求の範囲】
【請求項1】
学習データの音響特徴量を用いて当該学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、
前記音響モデルと前記学習データとを用いて、基底行列を算出する基底行列算出部と、
前記基底行列を用いて、基底行列の寄与度を算出する基底行列の寄与度計算部と、
テストデータの音響特徴量と、前記音響モデルと、前記基底行列とを用いて、基底行列の重みを算出する基底行列への重み算出部と、
前記基底行列の重みと、前記基底行列の寄与度と、前記基底行列とを用いて、基底行列への重み付けを行った変換行列を生成する基底行列への重み適用部と、
前記変換行列を用いて、前記テストデータを前記音響モデルと認識するための変換済みテストデータに変換する特徴量データへの行列適用部と、
前記変換済みテストデータと前記音響モデルとを照合して音声認識を行うデコード部とを備えた音声認識装置。
【請求項2】
クラスタリングされた学習データの音響特徴量を用いて当該学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、
前記音響モデルと前記学習データとを用いて、クラス毎に基底行列を算出する基底行列算出部と、
前記クラス毎の基底行列を用いて、基底行列の寄与度を算出する基底行列の寄与度計算部と、
テストデータの音響特徴量の状態系列を示すアラインメントを算出するアラインメント算出部と、
前記テストデータと前記アラインメントとを用いて、前記テストデータをクラス毎に分類するデータのクラス分類部と、
前記クラス毎のテストデータと前記基底行列と前記音響モデルとを用いて、クラス毎の基底行列への重みを求める基底行列の重み算出部と、
前記クラス毎の基底行列と、前記クラス毎の基底行列の寄与度と、前記クラス毎の基底行列の重みとを用いて、重みづけによりクラス毎に変換行列を生成する基底行列への重み適用部と、
前記テストデータと前記アラインメントと前記クラス毎の変換行列とを用いて、前記テストデータを前記音響モデルと認識するための変換済みテストデータを生成する特徴量データへの行列適用部と、
前記変換済みテストデータと、前記音響モデルとを照合して音声認識を行うデコード部とを備えた音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、特徴量を音響モデルにマッチするよう適応化する手法において、基底行列と変換行列を用いて音響特徴量を変換させる音声認識装置に関するものである。
【背景技術】
【0002】
音声認識技術において、音素などのコンテキスト情報を音声の標準パターンで表現した音響モデルに対して、入力音声信号が一致しない要因となる、話者、騒音、マイクなどの影響を低減することを目的として、話者適応技術(特徴量の適用手法)が数多く提案されている。
従来、このような特徴量の適用手法として、例えば非特許文献1に開示されたCMLLR(Constrained−MLLR)法が知られている。これはモデルパラメータの平均及び分散を変換する手法である。当該変換は特徴量ベクトルを変換することと等価であるため、CMLLRは特徴量における変換行列を求めることとなる。具体的には式(1)のように、入力音声から計算されたD次元の音響特徴量oを音素の標準パターンである音響モデルに近づけるようなアフィン変換行列Wを求める。
【0003】
しかしながら非特許文献1に記載された特徴量の適用手法では、変換行列Wを適応データのみから求めているため、変換行列の推定に十分なデータ量が得られない場合、適応することでかえって性能が下がってしまうことがわかっている。この原因は、推定すべきパラメータ数に対して適応データ量が少なく、過学習するためである。例えば13次元のメル周波数ケプストラム係数MFCC(Mel-Frequency Cepstrum Coefficient)のベクトルと、その動的特徴量を連結した計39次元を音響特徴量として使用する場合、推定すべきパラメータ数は変換行列の要素数であるため39×40=1560個にも及ぶ。
【0004】
この問題に対し、例えば非特許文献2に記載された特徴量の適用手法では、推定すべきパラメータ数を少なくするため、適応データから変換行列Wを直接推定するのではなく、N個の基底行列W1:Nmaxの重みづけにより表現している(n=1,…,N≦Nmax)。ここで、Nmax=D(D+1)である。具体的には式(2)のように、基底行列Wを重みdによって重みづけ、適応話者への変換行列Wを求める。
基底行列は学習データより求め、適応時には入力話者への変換行列をそれらの重みdのみを求める。適応ステップで求めるべきパラメータは重みdだけでよく、100フレーム(=1秒)のデータに対し、推定すべきパラメータ数は非特許文献2によれば、式(3)により20個程度で済む。
N=min(ηβ,Nmax) ∵η=0.2 (3)
これは入力フレームβに応じてNを変え、使用する基底行列数を制限することを意味している。
【0005】
非特許文献2に記載された音声認識装置における実施のステップとしては、大きく分けて、学習データから基底行列W1:Nmaxを求める学習ステップと、適応データ(テストデータ)と基底行列W1:Nmaxの内のN個を用いて変換行列Wを求める適応ステップの二つがある。
【0006】
学習ステップでは、まず学習データから音素の標準パターンである音響モデルを得る。標準パターンにはHMM(Hidden Markov Model:隠れマルコフモデル)を用いる。学習データである音響特徴量としては、フィルタバンク係数、MFCC、PLP(Perceptual Linear Predictive)など従来から用いられている特徴ベクトルを利用することができる。
【0007】
【0008】
次に適応ステップでは、まずテストデータを用いて基底行列の重みを生成する。この重みが先に述べたdに相当する。求めた基底行列の重みで基底行列を重みづけし、重みづけられた行列として変換行列Wを得る。最適なWを求めるため、逐次的に式(4)によって基底行列の重みと重みづけられた行列を求める。
【0009】
最後に重みづけられた行列とテストデータを用いて、変換済みテストデータを生成する。この際、式(1)を用いて変換できる。得られた変換済みテストデータと音響モデルによって表現される音素の標準パターンと照合することにより音声の認識処理を行い、認識結果を得る。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】M.J.F. Gales, "Maximum Likelihood Linear Transformations for HMM-based Speech Recognition.", Computer Speech and Language, Vol. 12, 1998.
【非特許文献2】Daniel Povey, Kaisheng Yao, "A Basis Representation of Constrained MLLR Transforms for Robust Adaptation.", Computer Speech and Language, Vol. 26, Issue 1, January 2012, pp 35−51.
【発明の概要】
【発明が解決しようとする課題】
【0011】
上記従来の音声認識装置では、適応ステップにおいて、寄与度の高い基底行列Wから順に式(4)により重みづけして変換行列Wを求めていた。しかしながら、ここで基底行列W1:Nmaxは寄与度が高い順にインデックスnが振られているが、式(4)では各基底行列の寄与度が考慮されていない。つまり、dを乗算するまでは基底行列が同じ寄与度であるとみなされている。このため寄与度の低い基底行列が影響して、適応による効果が十分に得られない場合があるといった課題があった。
【0012】
この発明は、かかる問題を解決するためになされたもので、適応時における変換行列の推定精度を向上させ、音声認識精度の向上を図ることのできる音声認識装置を提供することを目的とする。
【課題を解決するための手段】
【0013】
この発明に係る音声認識装置は、学習データの音響特徴量を用いて学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、音響モデルと学習データとを用いて、基底行列を算出する基底行列算出部と、基底行列を用いて、基底行列の寄与度を算出する基底行列の寄与度計算部と、テストデータの音響特徴量と、音響モデルと、基底行列とを用いて、基底行列の重みを算出する基底行列への重み算出部と、基底行列の重みと、基底行列の寄与度と、基底行列とを用いて、基底行列への重み付けを行った変換行列を生成する基底行列への重み適用部と、変換行列を用いて、テストデータを音響モデルと認識するための変換済みテストデータに変換する特徴量データへの行列適用部と、変換済みテストデータと音響モデルとを照合して音声認識を行うデコード部とを備えたものである。
【発明の効果】
【0014】
この発明に係る音声認識装置は、基底行列の寄与度を算出し、この基底行列の寄与度と基底行列の重みと基底行列とを用いて、基底行列への重み付けを行った変換行列を生成するようにしたものである。これにより、適応時における変換行列の推定精度を向上させ、音声認識性能の向上を図ることができる。
【図面の簡単な説明】
【0015】
図1】この発明の実施の形態1の音声認識装置を示す構成図である。
図2】この発明の実施の形態1の音声認識装置のハードウェア構成図である。
図3】この発明の実施の形態1の音声認識装置の学習ステップの流れを示すフローチャートである。
図4】この発明の実施の形態1の音声認識装置の適応ステップの流れを示すフローチャートである。
図5】この発明の実施の形態2の音声認識装置を示す構成図である。
図6】この発明の実施の形態2の音声認識装置の学習ステップの流れを示すフローチャートである。
図7】この発明の実施の形態2の音声認識装置の適応ステップの流れを示すフローチャートである。
図8】この発明の実施の形態2の音声認識装置の基底行列の重み算出部の処理内容を示す説明図である。
【発明を実施するための形態】
【0016】
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、本実施の形態による音声認識装置の構成図である。
本実施の形態による音声認識装置は、図示のように、学習ステップ実行部100と適応ステップ実行部200から構成される。学習ステップ実行部100は、音響モデル算出部101、基底行列算出部102、基底行列の寄与度計算部103を備え、適応ステップ実行部200は、基底行列の重み算出部201、基底行列への重み適用部202、特徴量データへの行列適用部203、デコード部204を備えている。
【0017】
学習ステップ実行部100における音響モデル算出部101は、学習データ104の音響特徴量を用いて学習データ104の標準パターンをモデル化した音響モデル105を算出する処理部である。基底行列算出部102は、音響モデル算出部101が算出した音響モデル105と学習データ104を用いて基底行列106を算出する処理部である。基底行列の寄与度計算部103は、基底行列算出部102が算出した基底行列106を用いて基底行列の寄与度107を算出する処理部である。
【0018】
適応ステップ実行部200における基底行列の重み算出部201は、テストデータ205の音響特徴量と、音響モデル105と、基底行列106とを用いて、基底行列の重み206を算出する処理部である。基底行列への重み適用部202は、基底行列の重み算出部201で算出された基底行列の重み206と、基底行列の寄与度107と、基底行列106とを用いて、基底行列106への重みづけを行い、重みづけられた行列である変換行列207を生成する処理部である。特徴量データへの行列適用部203は、基底行列への重み適用部202により得られた変換行列207と、テストデータ205とを用いて、テストデータ205を音響モデルの認識に適するよう変換して変換済みテストデータ208を生成する処理部である。デコード部204は、特徴量データへの行列適用部203によって得た変換済みテストデータ208と、音響モデル105とを照合して、音声認識を行って認識結果209を出力する処理部である。なお、図1では音響モデル105からデコード部204への矢印の図示は省略している。
【0019】
図2は、実施の形態1の音声認識装置のハードウェア構成図である。
音声認識装置はコンピュータを用いて実現されており、プロセッサ1、メモリ2、入出力インタフェース(入出力I/F)3、バス4を備える。プロセッサ1は、コンピュータとしての演算処理を行う機能部であり、メモリ2は、各種のプログラムや演算結果を記憶し、また、プロセッサ1が演算処理を行う場合の作業領域を構成する記憶部である。入出力インタフェース3は、学習データ104やテストデータ205を入力したり、認識結果209を外部に出力したりする際のインタフェースである。バス4は、プロセッサ1、メモリ2及び入出力インタフェース3を相互に接続するためのバスである。
【0020】
図1に示す音響モデル算出部101、基底行列算出部102、基底行列の寄与度計算部103、基底行列の重み算出部201、基底行列への重み適用部202、特徴量データへの行列適用部203及びデコード部204は、それぞれプロセッサ1がメモリ2に記憶されたプログラムを実行することにより実現されている。また、音響モデル105、基底行列106、基底行列の重み206、変換行列207、変換済みテストデータ208は、それぞれメモリ2の記憶領域に記憶されている。プロセッサ1及びメモリ2をそれぞれ複数備え、複数のプロセッサ1とメモリ2とが連携して上述した機能を実行するように構成してもよい。
【0021】
次に、実施の形態1の音声認識装置の動作について説明する。
先ず、学習ステップ実行部100が行う学習ステップについて図3のフローチャートを用いて説明する。
学習ステップでは、先ず、学習データ104から音響モデル算出部101により音素の標準パターンである音響モデル105を作成する(ステップST1)。ここで音響特徴量としては、フィルタバンク係数、MFCC(Mel Frequency Cepstrum Coefficient)、PLP(Perceptual Linear Predictive)など従来から用いられている特徴ベクトルを利用することができる。
【0022】
また、基底行列106から、基底行列の寄与度計算部103を用いて、各基底行列106のインデックスnに対応する寄与度(ω)107を求める(ステップST3)。寄与度107は学習データの表現力が高い集合n順に大きい値をとる。
【0023】
基底行列の寄与度107を示す具体的な例として、基底行列(W1:Nmax)106を求める際に得られる特異値k1:Nmaxが利用可能である。これは特異値が大きいインデックスnの基底行列が、行列Mを表現するのに寄与度が高いからである。従って、寄与度計算部103で再度特異値k1:Nmaxを計算するのでなく、基底行列算出部102にて算出した特異値k1:Nmaxを保持しておくことでも同様に寄与度107が得られる。
【0024】
また、基底行列の寄与度計算部103において特異値k1:Nmaxをそのまま用いるのでなく、変換関数φ(・)を特異値に適用してφ(k)とすることで、基底行列(W)106に対応する寄与度をコントロールすることができる。変換関数には、シグモイド関数などを用いることができる。
【0025】
次に、適応ステップ実行部200が行う適応ステップについて図4のフローチャートを用いて説明する。
適応ステップでは、先ず、基底行列の重み算出部201は、テストデータ205と音響モデル105と基底行列106から基底行列の重み(d)206を生成する(ステップST11)。次に、基底行列への重み適用部202は、ステップST11で求めた基底行列の重み206と、基底行列106と基底行列の寄与度(ω1:Nmax)107とを用いて重みづけられた行列としての変換行列(W)207を得る(ステップST12)。逐次的に式(5)に基づいて、基底行列の重み206と変換行列207を求める。
【0026】
すなわち、ステップST11とステップST12を逐次的に繰り返し、尤度の上がり幅が閾値を下回る、もしくは定めた回数分繰り返した場合、次ステップに進む。ここで、尤度とは音響モデル105に対して入力音声が標準パターンにどれほど近いかの指標となる。尤度の差分を算出することにより、前回の変換行列を推定した時からの尤度の上がり幅が算出される。尤度の差分が設定した数値より小さい、すなわち尤度の上がり幅が設定した数値より小さくなることは、推定処理が収束したとみなすことができ、精度の高い推定処理が行われたと判断する。一方、尤度の差分が設定した数値以上である、即ち尤度の上がり幅が設定した数値以上の場合は、推定処理が収束していないと判断する。この場合、基底行列への重み206を再度推定し、より精度の高い変換行列207を取得する。
【0027】
本発明では基底行列への重み適用部202において、変換行列(W)207推定時に寄与度(ω)107を基底行列(W)106に乗算することで、基底行列の寄与度を考慮することが可能となり、変換行列(W)207の推定精度の向上が期待できる。
【0028】
最後に変換行列207とテストデータ205を用いて、特徴量データへの行列適用部203により、変換済みテストデータ208を生成する(ステップST13)。具体的には式(1)を用いて変換できる。得られた変換済みテストデータ208にデコード部204で音響モデル105によって表現される音素の標準パターンと照合することにより、認識結果209を取得する(ステップST14)。
【0029】
デコード部204では、HMM(Hidden Markov Model)に基づく音声認識処理を行う。詳細には、HMMの出力確率モデルとして、混合ガウス分布(以下、GMM(Gaussian Mixture Model)と称する)を用いたモデルGMM−HMMや、ニューラルネットワーク(以下、NN(Neural Network)と称する)を用いたモデルNN−HMMが利用可能である。
【0030】
以上説明したように、実施の形態1の音声認識装置によれば、学習データの音響特徴量を用いて学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、音響モデルと学習データとを用いて、基底行列を算出する基底行列算出部と、基底行列を用いて、基底行列の寄与度を算出する基底行列の寄与度計算部と、テストデータの音響特徴量と、音響モデルと、基底行列とを用いて、基底行列の重みを算出する基底行列への重み算出部と、基底行列の重みと、基底行列の寄与度と、基底行列とを用いて、基底行列への重み付けを行った変換行列を生成する基底行列への重み適用部と、変換行列を用いて、テストデータを音響モデルと認識するための変換済みテストデータに変換する特徴量データへの行列適用部と、変換済みテストデータと音響モデルとを照合して音声認識を行うデコード部とを備えたので、寄与度の高い基底行列の影響度を高くし、寄与度の低い基底行列の影響度を低く抑えることが可能となり、適応時における変換行列の推定精度を向上させ、音声認識性能の向上を図ることができる。
【0031】
実施の形態2.
実施の形態2は、変換行列と、変換行列の推定に使用する基底行列とを音素などのクラス毎に求めるようにしたものである。
【0032】
図5は、実施の形態2に係る音声認識装置の構成図である。実施の形態2に係る音声認識装置は、学習ステップ実行部100aと適応ステップ実行部200aから構成される。学習ステップ実行部100aは、音響モデル算出部101a、基底行列算出部102aを備えている。適応ステップ実行部200aは、基底行列の重み算出部201a、基底行列への重み適用部202a、特徴量データへの行列適用部203a、デコード部204、アラインメント算出部210、データのクラス分類部211を備えている。
【0033】
学習ステップ実行部100aにおける音響モデル算出部101aは、クラス単位でクラスタリングされたクラス毎の学習データ104aの音響特徴量を用いて、クラス毎の学習データ104aの標準パターンをモデル化して音響モデル105aを求める処理部である。基底行列算出部102aは、音響モデル105aとクラス毎の学習データ104aとを用いて、クラス毎の基底行列106aを算出する処理部である。
【0034】
適応ステップ実行部200aにおけるアラインメント算出部210は、テストデータ205の音響特徴量の状態系列を示すアラインメント212を算出する処理部である。データのクラス分類部211は、テストデータ205とアラインメント212とを用いてテストデータ205をクラス毎に分類し、クラス毎のテストデータ213として出力する処理部である。基底行列の重み算出部201aは、クラス毎のテストデータ213と音響モデル105aとクラス毎の基底行列106aとを用いて、クラス毎の基底行列106aへの重みを求め、クラス毎の基底行列の重み206aを出力する処理部である。基底行列への重み適用部202aは、クラス毎の基底行列106aとクラス毎の基底行列の重み206aとを用いて、重み付けによりクラス毎の変換行列207aを生成する処理部である。特徴量データへの行列適用部203aは、テストデータ205とアラインメント212とクラス毎の変換行列207aとを用いて、テストデータ205を音響モデルの認識に適するよう変換し、変換済みテストデータ208aを生成する処理部である。デコード部204は、変換済みテストデータ208aと音響モデル105aとを照合して音声認識を行い、その認識結果209を出力する処理部である。なお、図5では音響モデル105aからデコード部204への矢印の図示は省略している。また、これら処理部は図2に示したプロセッサがメモリに記憶されたプログラムを実行することにより実現されている。
【0035】
次に、実施の形態2の音声認識装置の動作について説明する。
先ず、学習ステップ実行部100aが行う学習ステップについて図6のフローチャートを用いて説明する。
学習ステップにおいて、学習データを予め音素などのC個のクラス毎に分類し、クラスタリングされたクラス毎の学習データ104aを用意する。この際のクラス数Cやクラスの分け方は、音素に応じて手動で決めてもよいし、決定木やK−means法を用いたクラスタリングにより決定してもよい。音響モデル算出部101aは、このようなクラス毎の学習データ104aから音響モデル105aを算出する(ステップST101)。次にクラス毎の学習データ104aと音響モデル105aとを基底行列算出部102aにそれぞれ入力し、クラス毎の基底行列106aを得る(ステップST102)。
【0036】
次に、適応ステップ実行部200aが行う適応ステップについて図7のフローチャートを用いて説明する。
適応ステップでは、アラインメント算出部210により、テストデータ205からアラインメント212を算出する(ステップST201)。ここで、アラインメントとはHMMの状態系列であり、テストデータの各時刻tに対応する音素やクラス情報を対応づける用途に使用される。次に、データのクラス分類部211は、アラインメント212を用いてテストデータ205をクラス毎に分類し、クラス1からクラスCに対応するテストデータをクラス毎のテストデータ213として生成する(ステップST202)。次に、基底行列の重み算出部201aは、クラス毎のテストデータ213に対して、音響モデル105aとクラス毎の基底行列106aを用いて、クラス毎の基底行列の重み206aを算出する(ステップST203)。更に、基底行列への重み適用部202aは、クラス毎の基底行列の重み206aに対して、クラス毎の基底行列106aを用いてクラス毎の変換行列207aを算出する(ステップST204)。ステップST203とステップST204を逐次的に繰り返し、尤度の上がり幅が閾値を下回る、もしくは定めた回数分繰り返した場合にステップST205に進む。
【0037】
図8は基底行列の重み算出部201aの処理内容を示す説明図である。図8に示す音響特徴量系列とは、テストデータの連続的に変化する音響特徴量を時系列に示しており、図中のoは時刻tにおける特徴量ベクトルを示している。
【0038】
図8に示すアラインメントは、ユーザが「あき」と発話した場合の音素列「sil a k i」を示している。「あき」の音素列は「aki」であるが、語頭の無音を「sil」で表現している。また、アラインメントが示す数字はそれぞれHMMの状態番号を示している。すなわち、アラインメントは、音響特徴量系列に対応するHMMの状態系列となる。更に、アラインメントが示す直線の矢印は次の状態への遷移を示し、曲線の矢印は自己遷移を示している。
【0039】
【0040】
実施の形態2では、アラインメント212により各時刻の音響特徴量oに対応する音素を対応づけ、その音素の特徴量を変換するのに適した基底行列を用いることで、テストデータの音響的特徴に適合した基底行列への重みを推定することが可能となる。
【0041】
次に、ステップST205では、特徴量データへの行列適用部203aにより、ステップST204で求めたクラス毎の変換行列207aとテストデータ205とアラインメント212とを用いて、変換済みテストデータ208aを算出する。すなわち、特徴量データへの行列適用部203aは、アラインメント212により得たクラス情報を用いて、ある時刻の音響特徴量に対応するクラス毎の変換行列207aを対応づけ、変換行列を特徴量ベクトルに乗算して変換済みテストデータ208aを生成する。その後、デコード部204は、ステップST205により得た変換済みテストデータ208aと音響モデル105aと照合して音声認識を行い、認識結果209を取得する(ステップST206)。
【0042】
以上説明したように、実施の形態2の音声認識装置によれば、クラスタリングされた学習データの音響特徴量を用いて学習データの標準パターンをモデル化した音響モデルを算出する音響モデル算出部と、音響モデルと学習データとを用いて、クラス毎に基底行列を算出する基底行列算出部と、テストデータの音響特徴量の状態系列を示すアラインメントを算出するアラインメント算出部と、テストデータとアラインメントとを用いて、テストデータをクラス毎に分類するデータのクラス分類部と、クラス毎のテストデータと基底行列と音響モデルとを用いて、クラス毎の基底行列への重みを求める基底行列の重み算出部と、クラス毎の基底行列と、クラス毎の基底行列の重みとを用いて、重みづけによりクラス毎に変換行列を生成する基底行列への重み適用部と、テストデータとアラインメントとクラス毎の変換行列とを用いて、テストデータを音響モデルと認識するための変換済みテストデータを生成する特徴量データへの行列適用部と、変換済みテストデータと、音響モデルとを照合して音声認識を行うデコード部とを備えたので、適応時における変換行列の推定精度を向上させ、音声認識性能の向上を図ることができる。
【0043】
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。例えば、実施の形態1と実施の形態2とを組み合わせ、実施の形態2の基底行列への重み適用部202aに実施の形態1で説明した基底行列の寄与度を反映させることで、適応精度の向上が可能である。
【産業上の利用可能性】
【0044】
以上のように、この発明に係る音声認識装置は、少量データに対しても頑健な話者適応処理を行うことを可能とするため、ナビゲーション装置や家電製品などに適用し、音声認識性能の向上に用いるのに適している。
【符号の説明】
【0045】
100,100a 学習ステップ実行部、101,101a 音響モデル算出部、102,102a 基底行列算出部、103 基底行列の寄与度計算部、104 学習データ、104a クラス毎の学習データ、105,105a 音響モデル、106 基底行列、106a クラス毎の基底行列、107 寄与度、200,200a 適応ステップ実行部、201,201a 基底行列の重み算出部、202,202a 基底行列への重み適用部、203,203a 特徴量データへの行列適用部、204 デコード部、205 テストデータ、206 基底行列の重み、206a クラス毎の基底行列の重み、207 変換行列、207a クラス毎の変換行列、208,208a 変換済みテストデータ、209 認識結果、210 アラインメント算出部、211 データのクラス分類部、212 アラインメント、213 クラス毎のテストデータ。
【要約】
基底行列の寄与度計算手段(103)は、基底行列(106)を用いて、基底行列の寄与度(107)を算出する。基底行列への重み適用手段202は、基底行列の重み(206)と、基底行列の寄与度(107)と、基底行列(106)とを用いて、基底行列への重み付けを行った変換行列(207)を生成する。特徴量データへの行列適用手段(203)は、変換行列(207)を用いて、テストデータ(206)を変換済みテストデータ(208)とする。デコード手段(204)は、変換済みテストデータ(208)と音響モデル(105)とを照合して音声認識を行う。
図1
図2
図3
図4
図5
図6
図7
図8