【文献】
Xin Lei, Jon Hamaker and Xiaodong He,Robust feature space adaptation for telephony speech recognition,Proc. INTERSPEECH 2006,米国,2006年 9月17日,pp. 773-776
【文献】
M.J.F. Gales,Maximum Likelihood Linear Transformations for HMM-Based Speech Recognition,Computer Speech and Language,Cambridge University Engineering Department,1997年 5月,pp.1-19
(58)【調査した分野】(Int.Cl.,DB名)
前記特徴量空間変換行列推定部が推定した特徴量空間変換行列の尤度と、前記特徴量空間変換行列推定部が前回の処理で推定した特徴量空間変換行列の尤度との差分を算出し、算出した差分に応じて、前記特徴量空間変換行列を再度推定するか否か判定を行う推定処理判定部を備えたことを特徴とする請求項1記載の音声認識装置。
前記推定処理判定部は、前記尤度の差分が設定した数値以上である場合に、前記特徴量空間変換行列推定部に対して前記複数の特徴量空間変換行列の再推定を指示することを特徴とする請求項2記載の音声認識装置。
前記回帰木と前記特徴量空間変換行列推定部が推定した複数の特徴量空間変換行列とを用いて、前記特徴量空間変換行列を推定するための統計量を解析して事前分布を計算する事前分布計算部を備え、
前記特徴量空間変換行列推定部は、前記第1の認識結果の事後確率と、前記回帰木と、前記音声特徴量とから算出される前記特徴量空間変換行列を推定するための統計量に、前記事前分布計算部が計算した事前分布の事前統計量を加算し、前記複数の特徴量空間変換行列を再推定することを特徴とする請求項1記載の音声認識装置。
【背景技術】
【0002】
音声認識技術において、音素などのコンテキスト情報を音声の標準パターンで表現した音響モデルと、入力音声信号とが一致しない要因となる、話者、騒音、マイクなどの影響を低減することを目的として、話者適応技術が数多く提案されている。話者適応には大きく分けて2つの手法がある。1つは音響モデルを入力信号にマッチさせるよう変換するモデル空間の適応手法、もう1つは入力信号を音響モデルにマッチさせるよう変換する特徴量空間の適応手法である。
【0003】
モデル空間の適応手法として、例えば非特許文献1に開示されたMLLR(Maximum Likelihood Linear Regression)法が知られている。これは音響モデルの平均パラメータを変換行列により変換する手法である。モデル空間の適応は、音素などのコンテキスト情報とモデルパラメータが密接に定義されていることから、コンテキストに応じて異なる変換行列を使い分けることが可能である。この性質を利用した適応性能高度化の試みとして非特許文献2では、MLLR法における変換行列をクラス木(回帰木とも称する)の木構造で共有化し、コンテキストに応じた変換行列を用いてモデルパラメータを適切に変換する。これにより、各クラス木のノードに属するモデルパラメータそれぞれに対して適切な変換行列を割り当てることが可能となり、変換精度が向上することが報告されている。
【0004】
特徴量空間の適応手法として、例えば非特許文献3に開示されたCMLLR(Constrained-MLLR)法が知られている、これはモデルパラメータの平均および分散を変換する手法である。当該変換は特徴量ベクトルを変換することと等価であるため、CMLLRは特徴量における変換行列を求めることとなる。特徴量空間の適応のメリットとして、計算量の削減が挙げられる。上述したモデル空間の適応ではデコード時に尤度を計算する毎に変換行列を適用する必要があるが、特徴量空間の適応ではCMLLRの変換行列をあらかじめ特徴量に適用すればよい。また、モデル空間の適応においてモデルパラメータに変換行列をあらかじめ適用しておくことも考えられるが、変換された分散パラメータが全共散行列となることがあるため、計算量の観点から現実的でない。一方、特徴量空間の適応はデコーダが変換行列を読み込む仕様となっていない場合において、予め特徴量に変換行列を掛けておけばよく、適用範囲の広さにメリットがある。
【0005】
非特許文献3のCMLLR法を用いた特徴量空間の適応による音声認識装置について、
図16を参照しながら説明を行う。
図16は、従来の音声認識装置の構成を示すブロック図である。
従来の音声認識装置900は、例えば特徴量抽出部901、デコード部902、音響モデル蓄積部903、事後確率算出部904、特徴量空間変換行列推定部905および特徴量変換部906で構成されている。
【0006】
話者適応では変換行列を生成するために、入力音声と、音声が何を話しているかを示す情報(以下、ラベル情報と称する)が必要となる。しかし、音声認識装置900に入力されるのは前者の入力音声のみであることから、従来の音声認識装置900ではデコード部902においてデコード処理を2回実行する。1回目のデコード処理はラベル情報を生成して変換行列を生成する処理であり、2回目のデコード処理は音声認識装置900の最終的な認識結果を得る処理である。
【0007】
特徴量抽出部901は、入力された音声から音声の特徴量を表す音声特徴量を抽出する。音声特徴量としては、フィルタバンク係数、MFCC(Mel Frequency Cepstrum Coefficient)、PLP(Perceptual Linear Predictive)など従来から用いられている特徴ベクトルを利用することができる(例えば、非特許文献4参照)。デコード部902は、特徴量抽出部901が抽出した音声特徴量を、音響モデル蓄積部903に蓄積された音響モデルによって表現される音素の標準パターンと照合することにより音声の認識を行い、第1の認識結果を得る。デコード部902は、HMM(Hidden Markov Model)に基づく音声認識処理を行う。
【0008】
事後確率算出部904は、デコード部2が認識した第1の認識結果から、フォワード・バックワードアルゴリズムなどの計算によって事後確率を算出する(算出方法は、例えば非特許文献4参照)。ここで、事後確率は、時刻t、状態kにおいてトレリス上に存在する確率であり、状態占有確率とも呼ばれる。特徴量空間変換行列推定部905は、入力された音声特徴量および事後確率に基づいて特徴量空間変換行列を推定する。変換行列の推定にはCMLLRなどの音声特徴量を変換する適応手法を利用する。特徴量空間変換行列推定部905は、音響特徴量が音響モデルに適合するような変換行列を推定するのに当たり、単一の変換行列を推定する。
【0009】
特徴量変換部906は、特徴量空間変換行列推定部905が推定した特徴量空間変換行列を用いて、特徴量抽出部901が抽出した音声特徴量を変換する。特徴量変換部906は、以下の式(1)に基づいて変換処理を行う。
【0010】
最後に、特徴量変換部906が変換した音声特徴量をデコード部902に入力し、デコード部902が当該変換された音声特徴量を、音響モデルの音素の標準パターンと照合して音声の認識を行い、最終的な認識結果を得る。
【0011】
さらに、特許文献1には、モデル空間の適応手法および特徴量空間の適応手法の双方に用いることが可能な事前分布を予め求め、求めた事前分布を共通に用いてモデル空間と特徴量空間を同時適応する音声認識装置が開示されている。
【発明を実施するための形態】
【0020】
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る音声認識装置100の構成を示すブロック図である。
音声認識装置100は、特徴量抽出部1、デコード部2、音響モデル蓄積部3、クラス木生成部4、事後確率算出部5、特徴量空間変換行列推定部6、および特徴量変換部7を備えている。
【0021】
話者適応では変換行列を生成するために、入力音声と、音声が何を話しているかを示す情報(以下、ラベル情報と称する)が必要となる。しかし、音声認識装置100に入力されるのは前者の入力音声のみであることから、
図1で示した音声認識装置100ではデコード部2においてデコード処理を2回実行する。1回目のデコード処理はラベル情報を生成して変換行列を生成する処理であり、2回目のデコード処理は音声認識装置100の最終的な出力となる最終認識結果を得る処理である。
【0022】
特徴量抽出部1は、入力された音声から音声の特徴量を表す音声特徴量を抽出する。音声特徴量としては、フィルタバンク係数、MFCC(Mel Frequency Cepstrum Coefficient)、PLP(Perceptual Linear Predictive)など従来から用いられている特徴ベクトルを利用することができる(例えば、非特許文献4参照)。
【0023】
デコード部2は、特徴量抽出部1が抽出した音声特徴量を、音響モデル蓄積部3に蓄積された音響モデルによって表現される音素の標準パターンと照合して音声の認識を行い、第1の認識結果を得る。デコード部2は、HMM(Hidden Markov Model)に基づく音声認識処理を行う。詳細には、HMMの出力確率モデルに混合ガウス分布(以下、GMM(Gaussian Mixture Model)と称する)を用いたモデルGMM−HMMを適用するものとする。さらに、デコード部2は、HMMの状態系列と音声特徴量を対応付けた情報を、アラインメント情報として出力する。さらにデコード部2は、後述する特徴量変換部7が変換した音声特徴量を、音響モデルで表現された音素の標準パターンと照合することにより音声の認識を行い、最終認識結果を得る。
【0024】
音響モデル蓄積部3は、音響モデルを蓄積する記憶領域である。クラス木生成部4は、特徴量空間の適応処理において最適な音声特徴量に変換する変換行列を推定するためのパラメータを、音素クラスに応じて階層的にクラスタリングした木構造で表現したクラス木(回帰木)を生成する。クラス木の生成では、音響モデル蓄積部3に蓄積された音響モデルを参照し、k−meansアルゴリズムなどのクラスタリング法や、コンテキストクラスタリング決定木を変換してクラス木を生成する手法を適用する。生成したクラス木は、内部のクラス木蓄積部4aに蓄積する。
【0025】
事後確率算出部5は、デコード部2が認識した第1の認識結果から、フォワード・バックワードアルゴリズムなどの計算によって事後確率を算出する。事後確率の算出方法は、例えば非特許文献4に記載されているので詳細な説明は省略する。ここで、事後確率は、時刻t、状態kにおいてトレリス上に存在する確率である。
【0026】
特徴量空間変換行列推定部6は、入力されたクラス木の木構造に基づいて、音声特徴量、事後確率および音響モデルから複数の特徴量空間変換行列を推定する。特徴量空間変換行列の推定には音声特徴量を変換する適応手法であるCMLLRを用いる。クラス木の木構造に基づいて音声特徴量および事後確率から特徴量空間変換行列を推定することにより、クラス木を構成する各クラスに適した特徴量空間変換行列の推定を行うことができる。
【0027】
式(2)から式(4)において、各文字は以下を示している。
t:時刻
T:音声特徴量のフレーム数
w
ri:W
rのi行目の行ベクトル
W
r:クラスrにおける変換行列であり、Wr=[Ar br]
α:W
r最適化問題のための方程式の解
ただし、cof(A
ij)は、Aのi行j目の余因子、Dはo
tの次元である。
m
r:クラスr、分布mにおける分布のインデックス
【0028】
クラス木の木構造を用いて変換行列を推定することにより、次のような利点が得られる。データ量が少ないノードにおいて、当該ノードで求めた変換行列を用いる場合に変換性能が劣化する恐れがあるが、木構造を用いることにより、データ量が多い上位ノードで求めた変換行列を割り当てて変換性能の劣化を抑制することができる。
【0029】
特徴量変換部7は、音響モデル蓄積部3に蓄積された音響モデルおよびデコード部2が生成したアラインメント情報を参照し、特徴量抽出部1が抽出した音声特徴量を、特徴量空間変換行列推定部6が推定した複数の特徴量空間変換行列によって変換する。変換された音声特徴量は再度デコード部2に入力される。デコード部2は、変換された音声特徴量を、音響モデルによって表現される音素の標準パターンと照合することにより音声の認識を行い、最終的な認識結果を得る。なお、特徴量変換部7の詳細については後述する。
【0030】
図2は、実施の形態1に係る音声認識装置100のハードウェア構成を示す図である。ハードウェアはプロセッサ101およびメモリ102で構成されている。
特徴量抽出部1、デコード部2、クラス木生成部4、事後確率算出部5、特徴量空間変換行列推定部6および特徴量変換部7は、プロセッサ101がメモリ102に記憶されたプログラムを実行することにより実現される。また、音響モデル蓄積部3およびクラス木蓄積部4aはメモリ102の記憶領域に記憶している。複数のプロセッサ101および複数のメモリ102が連携して上述した機能を実行するように構成してもよい。
【0031】
次に、音声認識装置100の動作について説明する。
図3は、実施の形態1に係る音声認識装置100の動作を示すフローチャートである。
クラス木生成部4は、音声認識処理が開始される前にクラス木を生成する処理を行い、予めクラス木蓄積部4aに蓄積しているものとする。
音声認識装置100に音声が入力される(ステップST1)と、特徴量抽出部1は入力された音声から音声特徴量を抽出する(ステップST2)。デコード部2は、ステップST2で抽出された音声特徴量と、音響モデル蓄積部3に蓄積された音響モデルとを照合して音声認識を行い、第1の認識結果およびアラインメント情報を取得する(ステップST3)。
【0032】
事後確率算出部5は、ステップST3で取得された第1の認識結果から事後確率を算出する(ステップST4)。特徴量空間変換行列推定部6は、ステップST2で抽出された音声特徴量、クラス木蓄積部4aに蓄積されたクラス木、ステップST4で算出された事後確率および音響モデル蓄積部3に蓄積された音響モデルに基づいて複数の特徴量空間変換行列を推定する(ステップST5)。
【0033】
特徴量変換部7は、音響モデル蓄積部3に蓄積された音響モデルおよびステップST3で取得されたアラインメント情報を参照し、ステップST5で推定された複数の特徴量空間変換行列のいずれかの変換行列を用いてステップST2で抽出された音声特徴量の変換を行う(ステップST6)。デコード部2は、ステップST6で変換された音声特徴量と、音響モデル蓄積部3に蓄積された音響モデルとを照合して音声認識行い、最終認識結果を取得して出力する(ステップST7)。その後、フローチャートはステップST1の処理に戻り、上述した処理を繰り返す。
【0034】
次に、
図4および
図5を参照しながら、特徴量変換部7の詳細について説明する。
図4は、実施の形態1に係る音声認識装置100の特徴量変換部7の動作を示すフローチャートである。
特徴量変換部7は、特徴量抽出部1が抽出した音声特徴量o
tと、デコード部2が算出したアラインメント情報とを対応付けるアラインメント処理を行い、音声特徴量の時刻とHMMの状態系列の位置との対応付けを行う(ステップST11)。特徴量変換部7は、ステップST11で対応付けられたアラインメント情報から音響モデルのGMMを取得する(ステップST12)。特徴量変換部7は、ステップST11で取得したアラインメントと、ステップST12で取得したGMMに含まれる各ガウス分布とに対応付けられた特徴量空間変換行列W
rを取得する(ステップST13)。
【0035】
特徴量変換部7は、ステップST14で取得した変換音声特徴量をデコード部2に出力し(ステップST15)、処理を終了する。
【0036】
図5は、実施の形態1に係る音声認識装置100の特徴量変換部7の処理内容を示す一例である。
図5(a)は、連続的に変化する音声特徴量を時系列に示している。
図5(a)における音声特徴量o
tは、時刻tにおいて特徴量抽出部1が入力された音声から抽出した音声特徴量を示している。
【0037】
図5(b)は、特徴量変換部7が参照するアラインメント情報を示している。
図5(b)の例ではユーザが「あき」と発話した場合の音素列「sil a k i」を示している。「あき」の音素列は「aki」であるが、語頭の無音を「sil」で表現している。また、
図5(b)のアラインメント情報が示す数字はそれぞれHMMの状態IDを示している。すなわち、アラインメント情報は、音響特徴量系列に対応するHMMの状態ID系列となる。さらに、アラインメント情報が示す直線の矢印は次の状態への遷移を示し、曲線の矢印は自己遷移を示している。
【0038】
図5(c)は、特徴量変換部7による音声特徴量の変換処理の概略を示す図である。
図5(c)において、領域Aは音響モデルの分布を示し、各アラインメント情報に対応したGMMの分布を示している。その中で領域Bはアラインメント情報sに対応したGMMの各分布が位置することを示している。また、クラス木の木構造に複数の特徴量空間変換行列W
1、W
2、W
3、W
4、W
5を対応させて記載している。クラス木の木構造に設けた境界線t
1、t
2、t
3、t
4は特徴量空間変換行列W
rが変換する対象のクラスの境界線を示している。例えば、境界線t
1、t
3は特徴量空間変換行列W
2が変換する対象とするクラスを示している。
【0039】
クラス木を構成する各ノードにおいて、境界線はある特徴量空間変換行列W
rを共有するノードの範囲を示す。例えば、
図5(c)において、子ノードu
2のデータ量が少なく、特徴量空間変換行列推定部6において特徴量空間変換行列W
rが推定されない場合であっても、親ノードu
1で推定された特徴量空間変換行列W
2を用いて特徴量変換部7が音声特徴量の変換を行う。
【0040】
次に、
図5で示した具体例を、
図4のフローチャートに沿って説明する。
ステップST11として、特徴量変換部7は、
図5(a)の音声特徴量系列と、
図5(b)で示したアラインメント情報とを対応付け、音声特徴量の時刻とHMMの状態系列の位置との対応付けを行う。
図5(a)および
図5(b)の例では音声特徴量o
tに、アラインメント情報sが対応付けられたことを示している。
【0041】
ステップST12として、特徴量変換部7は、音声特徴量o
tに対応するアラインメント情報sから、音響モデルのGMM情報を取得する。
図5(c)の例では、音響モデルの分布を示した領域A内には各アラインメント情報に対応したGMMが分布している。その中で、領域Bはアラインメント情報sに対応したGMMの各分布が位置することを示している。当該領域Bから該当するGMM情報を取得する。
【0042】
ここで、クラス木生成部4が生成したクラス木には、HMMの状態インデックスsとGMMと当該GMMの各分布のインデックスmに対応するクラスrとの関係が記述されている。また、特徴量空間変換行列W
rはクラスrの分布を変換するように、特徴量空間変換行列推定部6により推定されている。従って、音声特徴量のGMMを取得することにより、当該音声特徴量を変換するのに適切な特徴量空間変換行列W
rを一意に対応付けることができる。
【0044】
その後、デコード部2において2回目のデコード処理を実行するが、1回目のデコード処理で得られる第1の認識結果と、2回目のデコード処理で得られる最終認識結果とを比較すると、2回目のデコード処理で得られる最終認識結果がより尤もらしい結果となる。これは、1回目のデコード処理で用いられる音声特徴量よりも、2回目のデコード処理で用いる音声特徴量がより音響モデルに適合するように特徴量変換部7によって変換されているためである。
【0045】
以上のように、この実施の形態1によれば、クラス木生成部4が生成したクラス木の木構造に基づいて複数の特徴量空間変換行列を推定する特徴量空間変換行列推定部6と、音声特徴量に対応付けられたアラインメント情報からGMM情報を取得し、取得したGMM情報とアラインメント情報から一意に対応付けられる特徴量空間変換行列W
rを用いて音声特徴量の変換を行い、変換音声特徴量を取得する特徴量変換部7を備えるように構成したので、音声特徴量に応じて複数の特徴量空間変換行列を適切に切り替えて特徴量変換処理に適用することができ、適切な特徴量空間変換行列を用いて特徴量空間での話者適応を行うことができる。これにより、音声認識性能の向上および演算量の抑制を実現することができ、非正常騒音に対して頑健な音声認識処理を行うことができる。
【0046】
音声認識装置100を、例えばカーナビゲーション機器に適用した場合、前方を走行する車両のブレーキ音や、交差点における歩行者誘導のためのアナウンスといった、自車両の走行騒音以外に車外から非定常な騒音が入力される環境下においても、音声認識性能の低下させることなく頑健な音声認識処理を行うことができる。
【0047】
また、音声認識装置100を、例えば家電機器に適用した場合、家電機器が発する騒音以外に、歩行音や子供の泣き声、ドアの開閉音など家庭内で非定常な騒音が発生する環境下においても、音声認識性能を低下させることなく頑健な音声認識処理を行うことができる。
【0048】
実施の形態2.
この実施の形態2では、特徴量空間変換行列推定部6が推定した複数の特徴量空間変換行列が予め設定した条件を満たさない場合に、当該複数の特徴量空間変換行列の推定処理を再度行う構成を示す。これは特徴量空間変換行列推定部6が、最尤法などの統計的手法を用いて変換行列の推定を行っているため、推定処理を複数回繰り返すことにより推定精度が向上し、適切な複数の特徴量空間変換行列を得ることが可能になるためである。
【0049】
図6は、実施の形態2に係る音声認識装置200の構成を示すブロック図である。
実施の形態2に係る音声認識装置200は、実施の形態1で示した音声認識装置100に推定処理判定部8を追加して設けて構成している。
以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
【0050】
推定処理判定部8は、特徴量空間変換行列推定部6が今回推定した複数の特徴量空間変換行列の尤度と、前回推定した複数の特徴量空間変換行列の尤度との差分を算出し、算出した尤度の差分が予め設定した数値よりも小さいか否か判定を行う。前回推定した複数の特徴変換行列の尤度は、例えば推定処理判定部8内のバッファに記憶しておく。
【0051】
ここで、尤度とは音響モデルに対して入力音声が標準パターンにどれほど近いかの指標となる。尤度の差分を算出することにより、前回の複数の特徴量空間変換行列を推定した時からの尤度の上がり幅が算出される。尤度の差分が設定した数値より小さい、即ち尤度の上がり幅が設定した数値より小さくなることは、推定処理が収束したとみなすことができ、精度の高い推定処理が行われたと判断する。一方、尤度の差分が設定した数値以上である、即ち尤度の上がり幅が設定した数値以上の場合は、推定処理が収束していないと判断する。この場合、複数の特徴量空間変換行列を再度推定させ、より精度の高い複数の特徴量空間変換行列を取得する。
【0052】
具体的には、算出した尤度の差分が予め設定した数値よりも小さい場合には推定処理が収束したとして、推定処理判定部8が、特徴量変換部7に対して特徴量空間変換行列推定部6が今回推定した複数の特徴量空間変換行列を出力し、特徴量変換処理を指示する。一方、算出した尤度の差分が予め設定した数値以上である場合には推定処理が収束していないとして、推定処理判定部8が、事後確率算出部5に対して事後確率と特徴量空間変換行列推定部6が今回推定した複数の特徴量空間変換行列を出力し、再推定を指示する。
【0053】
事後確率算出部5は、入力された事後確率と複数の特徴量空間変換行列に基づいて、事後確率を再計算する。具体的には、HMMの出力確率に前回推定された複数の特徴量空間変換行列を適用し、フォワード・バックワードアルゴリズムによるフォワード確率、バックワード確率を算出する。
【0054】
次に、音声認識装置200の動作について説明する。
図7は、実施の形態2に係る音声認識装置200の動作を示すフローチャートである。
なお、以下では実施の形態1に係る音声認識装置100と同一のステップには
図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
特徴量空間変換行列推定部6が複数の特徴量空間変換行列を推定すると(ステップST5)、推定処理判定部8は前回の処理で推定された複数の特徴量空間変換行列の尤度がバッファに記憶されているか否か判定を行う(ステップST21)。前回の尤度が記憶されていない場合(ステップST21;NO)、ステップST25の処理に進む。一方、前回の尤度が記憶されている場合(ステップST21;YES)、推定処理判定部8はステップST5で推定された複数の特徴量空間変換行列の尤度と、蓄積された前回の処理で推定された複数の特徴量空間変換行列の尤度との差分を算出する(ステップST22)。
【0055】
推定処理判定部8は、ステップST22で算出した尤度の差分が予め設定した数値よりも小さいか否か判定を行う(ステップST23)。予め設定した数値よりも小さい場合(ステップST23;YES)、推定処理判定部8はステップST5で推定された複数の特徴量空間変換行列を特徴量変換部7に出力し、特徴量変換処理を指示する(ステップST24)。その後、特徴量変換部7およびデコード部2は、実施の形態1の
図3で示したフローチャートのステップST6およびステップST7と同一の処理を行う。
【0056】
一方、予め設定した数値以上である場合(ステップST23;NO)、および前回の尤度が記憶されていない場合(ステップST21;NO)、推定処理判定部8は、今回の特徴量空間変換行列推定処理で用いた事後確率および推定された複数の特徴量空間変換行列を事後確率算出部5に出力し、再推定を指示する(ステップST25)。事後確率算出部5は、前回の事後確率および複数の特徴量空間変換行列を用いて事後確率を再算出し(ステップST26)、ステップST5の処理に戻り、上述した処理を繰り返す。
【0057】
以上のように、この実施の形態2によれば、特徴量空間変換行列推定部6が今回推定した複数の特徴量空間変換行列の尤度と、前回推定した複数の特徴量空間変換行列の尤度との差分を算出し、当該差分の値に応じて複数の特徴量空間変換行列を再推定するか否か判定を行う推定処理判定部8を備えるように構成したので、精度の高い推定処理が行われたと判定された場合のより尤もらしい特徴量変換行列を特徴量変換部7に出力することができる。これにより、推定される複数の特徴量空間変換行列の変換精度が向上し、音声認識精度を向上させることができる。
【0058】
実施の形態3.
この実施の形態3では、特徴量空間変換行列推定部6が推定した複数の特徴量空間変換行列が予め設定した条件を満たさない場合に、複数の特徴量空間変換行列推定処理を再度行う構成であって、上述した実施の形態2とは異なる構成を示す。
【0059】
図8は、実施の形態3に係る音声認識装置300の構成を示すブロック図である。
実施の形態3に係る音声認識装置300は、実施の形態1で示した音声認識装置100に推定処理判定部8aを追加して設けて構成している。
以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
【0060】
推定処理判定部8aは、実施の形態2で示した推定処理判定部8と同様に、特徴量空間変換行列推定部6が今回推定した複数の特徴量空間変換行列の尤度と、前回推定した複数の特徴量空間変換行列の尤度との差分を算出し、算出した尤度の差分が予め設定した数値よりも小さいか否か判定を行う。算出した尤度の差分が予め設定した数値よりも小さい場合には、推定処理判定部8aは推定処理が収束したとして、特徴量変換部7に対して特徴量空間変換行列推定部6が今回推定した複数の特徴量空間変換行列を出力し、最終認識結果を出力するための特徴量変換処理を指示する。特徴量変換部7は、指示に基づいて推定された複数の特徴量空間変換行列を用いて音声特徴量を変換し、デコード部2が変換音声特徴量の音声認識を行い、最終認識結果を取得して出力する。
【0061】
一方、算出した尤度の差分が予め設定した数値以上である場合に、推定処理判定部8aは推定処理が収束していないとして、特徴量変換部7に対して特徴量空間変換行列推定部6が今回推定した複数の特徴量空間変換行列を出力し、再推定に用いる推定後の認識結果を出力するための特徴量変換処理を指示する。特徴量変換部7は、指示に基づいて推定された複数の特徴量空間変換行列を用いて音声特徴量を変換する。デコード部2は、変換音声特徴量の音声認識を行い、再度アラインメント情報および推定後の認識結果を取得する。取得されたアラインメント情報は特徴量変換部7に出力され、推定後の認識結果は事後確率算出部5に出力される。事後確率算出部5は、入力された推定後の認識結果から事後確率を算出し、算出された事後確率を用いて特徴量空間変換行列推定部6が複数の特徴量空間変換行列の推定を行う。
【0062】
このように、実施の形態3では、推定処理が収束していないと判定された場合に、当該推定処理によって得られた複数の特徴量空間変換行列を用いて音声特徴量の変換および音声認識を行い、得られた認識結果を用いて再度事後確率算出処理および特徴量空間変換処理を行う。
【0063】
次に、音声認識装置300の動作について説明する。
図9は、実施の形態3に係る音声認識装置300の動作を示すフローチャートである。
なお、以下では実施の形態2に係る音声認識装置200と同一のステップには
図7で使用した符号と同一の符号を付し、説明を省略または簡略化する。
特徴量空間変換行列推定部6が複数の特徴量空間変換行列を推定すると(ステップST5)、推定処理判定部8aは前回の処理で推定された複数の特徴量空間変換行列の尤度がバッファに記憶されているか否か判定を行う(ステップST21)。前回の尤度が記憶されている場合(ステップST21;YES)、推定処理判定部8aはステップST5で推定された複数の特徴量空間変換行列の尤度と、蓄積された前回の処理で推定された複数の特徴量空間変換行列の尤度との差分を算出する(ステップST22)。
【0064】
推定処理判定部8aは、ステップST22で算出した尤度の差分が予め設定した数値よりも小さいか否か判定を行う(ステップST23)。予め設定した数値よりも小さい場合(ステップST23;YES)、推定処理判定部8aはステップST5で推定された複数の特徴量空間変換行列を特徴量変換部7に出力し、最終認識結果を出力するための特徴量変換処理を指示する(ステップST31)。その後、フローチャートは、実施の形態2の
図7で示したステップST6およびステップST7と同一の処理を行う。
【0065】
一方、予め設定した数値以上である場合(ステップST23;NO)、および前回の尤度が記憶されていない場合(ステップST21;NO)、推定処理判定部8aは、ステップST5で推定された複数の特徴量空間変換行列を特徴量変換部7に出力し、再推定に用いる推定後の認識結果を出力するための特徴量変換処理を指示する(ステップST32)。特徴量変換部7は、ステップST32で入力された複数の特徴量空間変換行列を用いてステップST2で抽出された音声特徴量の変換を行う(ステップST33)。デコード部2は、ステップST33で変換された音声特徴量と、音響モデル蓄積部3に蓄積された音響モデルとを照合して音声認識行い、推定後の認識結果およびアラインメント情報を取得する(ステップST34)。ステップST34で取得された推定後の認識結果は事後確率算出部5に出力され、ステップST4の処理に戻り、上述した処理を繰り返す。
【0066】
以上のように、この実施の形態3によれば、特徴量空間変換行列推定部6が今回推定した複数の特徴量空間変換行列の尤度と、前回推定した複数の特徴量空間変換行列の尤度との差分を算出し、当該差分の値に応じて複数の特徴量空間変換行列を再推定するか否か判定を行う推定処理判定部8aを備え、差分が設定した数値よりも小さい場合には最終認識結果を出力する処理に移行させ、差分が設定した数値以上である場合には再度複数の特徴量空間変換行列を推定する処理に移行させるように構成したので、精度の高い推定処理が行われたと判定された場合のより尤もらしい特徴量空間変換行列を用いて最終認識結果を得ることができる。特徴量空間変換行列の変換精度を向上させることにより、音声認識精度を向上させることができる。
【0067】
また、この実施の形態3によれば、再度複数の特徴量空間変換行列を推定する処理に移行させる場合にも、特徴量変換部7による特徴量変換処理およびデコード部2によるデコード処理を経由するように構成したので、特徴量変換部7およびデコード部2を経て音声認識誤りを低減させた推定後の認識結果を事後確率算出部5に入力して再度事後確率を算出することができ、再び推定する複数の特徴量空間変換行列の変換精度を向上させることができる。これにより、より正確な最終認識結果を得ることができる。
【0068】
実施の形態4.
この実施の形態4では、クラス木生成部4が生成したクラス木の木構造を構成する各ノードについて、親ノードで求めた特徴量空間変換行列を事前分布として用いる構成を示す。クラス木の各ノードにおいて、精度の高い変換行列を求めるために、あるノードの親ノードで求めた変換行列を事前分布として利用する手法が以下の参考文献に開示されている。通常、変換行列の数を単純に増加させると、過学習の影響によりかえって性能が低下する場合がある。そこで、この実施の形態4では、クラス木生成部4が生成したクラス木の木構造を構成する各ノードについて親ノードで求めた特徴量空間変換行列を事前分布とし、当該事前分布を用いて過学習を抑制して推定する特徴量空間変換行列の数を増加させる構成を示す。
・参考文献
Junichi Yamagishi,Takao Kobayashi,Senior Member,IEEE, Yuji Nakano, Katsumi Ogata, and Juri Isogai,“Analysis of Speaker Adaptation Algorithms for HMM-Based Speech Synthesis and a Constrained SMAPLR Adaptation Algorithm.”,IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING,VOL.17,NO.1,JANUARY 2009.
【0069】
図10は、実施の形態4に係る音声認識装置400の構成を示すブロック図である。
実施の形態4に係る音声認識装置400は、実施の形態1で示した音声認識装置100に事前分布計算部9を追加して設けて構成している。
以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
【0070】
事前分布計算部9は、クラス木蓄積部4aに蓄積されたクラス木と、特徴量空間変換行列推定部6aが推定した複数の特徴量空間変換行列とを用いて、事前分布を計算する。事前分布の計算では、クラス木に基づいて特徴量空間変換行列推定のための統計量をクラスタリングし、事前分布を求める。ここで、クラスタリングとは、変換行列推定のための統計量を示すデータの集合を部分集合に分け、各部分集合に含まれるデータが共通の特徴を有する統計量とするデータ解析をいう。
【0071】
事前分布としては、例えば行列正規分布などを用いる。行列正規分布を用いた場合、クラスrにおける特徴量空間変換行列W
rの事前分布P(W
r)は以下の式(6)で表される。
上述した式(6)における各文字は以下を示している。
Ω:親ノードの変換行列の影響をコントロールするハイパーパラメータ行列
Ψ:親ノードの変換行列の影響をコントロールするハイパーパラメータ行列
【0073】
式(8)においてh
riはH
rのi行目の行ベクトル、τは親ノードの変換行列の影響をコントロールするハイパーパラメータである。
【0074】
次に、音声認識装置400の動作について説明する。
図11は、実施の形態4に係る音声認識装置400の動作を示すフローチャートである。
なお、以下では実施の形態1に係る音声認識装置100と同一のステップには
図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
【0075】
特徴量空間変換行列推定部6aが特徴量空間変換行列を推定すると(ステップST5)、事前分布計算部9は、ステップST5で推定された特徴量空間変換行列と、クラス木蓄積部4aに蓄積されたクラス木に基づいて事前分布を計算する(ステップST41)。特徴量空間変換行列推定部6aはステップST41で計算された事前分布から事前統計量を求める(ステップST42)。さらに特徴量空間変換行列推定部6aは、ステップST42で求めた事前統計量に、クラス木に基づいてクラスタリングされる統計量を加算し、特徴量空間変換行列を再推定する(ステップST43)。
【0076】
特徴量変換部7は、実施の形態1と同様に、音響モデルおよびアラインメント情報を参照し、ステップST43で再推定された複数の特徴量空間変換行列を用いて音声特徴量の変換を行う(ステップST6)。その後、デコード部2は変換音声特徴量の音声認識を行い、最終認識結果を取得して出力し(ステップST7)、ステップST1の処理に戻る。
【0077】
次に、実施の形態1の
図5で示した具体例を参照しながら、実施の形態4の音声認識装置400について説明する。
多いデータから求められた統計量と比べ、少ないデータから得られた統計量は信頼性が低い。実施の形態1の
図5(c)で示したクラス木の木構造において、親ノードには子ノードのデータが含まれるため、少なくとも親ノードは子ノードよりもデータ量が多い。従って統計量の信頼性とし、下位のノードで求められる特徴量空間変換行列は必然的に信頼性が低くなる。一方、親ノードには子ノードが含まれることから、親ノードで求めた特徴量空間変換行列を使用して子ノードを変換することは妥当であると言える。そこで、事前分布計算部9を設けて特徴量空間変換行列推定部6aにおいて計算された事前分布を考慮することにより、上述した式(7)および式(8)に示すように、該当するノードの統計量のみでなく、親ノードの統計量も推定に使用することとなる。よって、下位ノードにおいても特徴量空間変換行列生成に用いる特計量の信頼性を保持することができる。
【0078】
以上のように、この実施の形態4によれば、特徴量空間変換行列推定部6aが推定した複数の特徴量空間変換行列と、クラス木に基づいて事前分布を計算する事前分布計算部9と、事前分布から事前統計量を求め、求めた統計量にクラス木に基づいてクラスタリングされる統計量を加算して特徴量空間変換行列を推定する特徴量空間変換行列推定部6aとを備えるように構成したので、クラス木のデータ量が少ないノードにおいても、上位ノードの統計量も用いて特徴量空間変換行列の推定を行うことができ、信頼性を確保した特徴量空間変換行列の推定処理を行うことができる。
【0079】
なお、上述した説明では、実施の形態1で示した音声認識装置100に事前分布計算部9を追加して構成する場合を示したが、実施の形態2または実施形態3で示した音声認識装置200,300に事前分布計算部9を追加して構成してもよい。
【0080】
実施の形態5.
この実施の形態5では、上述した実施の形態1から実施の形態4で示した構成によって得られる変換音声特徴量を用いて音響モデルを学習する音響モデル学習装置を示す。
学習話者の音声特徴量と音響モデルとから統計的に学習された、特徴量の音響的な差異を考慮し、モデルパラメータの推定を行う話者正規化学習の技術が存在する。通常、話者正規化学習には、音響モデルを学習する構成に、音声特徴量、音響モデル、クラス木、各話者に対する変換行列を入力することを必要とし、当該音響モデルを学習する構成を大幅に変更する必要が生じる。
しかし、実施の形態1から実施の形態4で示した構成によって得られた変換音声特徴量を用いて音響モデルを学習する場合には、当該変換音声特徴量には既に音響的な差異が考慮されているため、クラス木や変換行列を必要としない。また、実施の形態1から実施の形態4で示した構成により、変換音声特徴量は音響モデルと入力音声の音声特徴量との不適合度が低減されている。
【0081】
図12は、実施の形態5に係る音響モデル学習装置の構成を示すブロック図である。
この実施の形態5の音響モデル学習装置500は、実施の形態1で示した音声認識装置100の構成において、入力音声を学習用音声に替え、音響モデル学習部10を追加して設けて構成している。
以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
【0082】
特徴量抽出部1aは、入力された学習用音声の特徴量を表す音声特徴量を抽出する。音声特徴量を抽出手法は実施の形態1と同一である。その後、デコード部2、クラス木生成部4、事後確率算出部5、特徴量空間変換行列推定部6bおよび特徴量変換部7を経て、変換音声特徴量を取得する。この際、特徴量空間変換行列推定部6bは、話者毎、および騒音毎に、それぞれ個別に複数の特徴量空間変換行列を推定する。これにより、話者毎および騒音毎それぞれに存在する音響モデルと音声特徴量との間の不適合を推定することが可能となる。
【0083】
特徴量変換部7が算出した変換音声特徴量は、音響モデル学習部10に入力される。音響モデル学習部10は、入力された変換音声特徴量を用いて音響モデル蓄積部3に蓄積された音響モデルの更新を行い、更新後の音響モデルを再度音響モデル蓄積部3に蓄積する。
【0084】
次に、音響モデル学習装置500の動作について説明する。
図13は、実施の形態5に係る音響モデル学習装置500の動作を示すフローチャートである。
なお、以下では実施の形態1に係る音声認識装置100と同一のステップには
図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
【0085】
クラス木生成部4は、音声認識処理が開始される前にクラス木を生成する処理を行い、予めクラス木蓄積部4aに蓄積しているものとする。
音響モデル学習装置500に学習用音声が入力される(ステップST51)と、特徴量抽出部1は入力された学習用音声から音声特徴量を抽出する(ステップST52)。デコード部2は、ステップST2で抽出された音声特徴量と、音響モデル蓄積部3に蓄積された音響モデルとを照合して音声認識を行い、認識結果およびアラインメント情報を取得する(ステップST3)。
【0086】
事後確率算出部5は、ステップST3で取得された第1の認識結果から事後確率を算出する(ステップST4)。特徴量空間変換行列推定部6bは、ステップST2で抽出された音声特徴量、クラス木蓄積部4aに蓄積されたクラス木、ステップST4で算出された事後確率および音響モデル蓄積部3に蓄積された音響モデルに基づいて、特徴量空間における話者毎、および騒音毎に複数の特徴量空間変換行列を推定する(ステップST53)。
【0087】
特徴量変換部7は、音響モデル蓄積部3に蓄積された音響モデルおよびステップST3で取得されたアラインメント情報を参照し、ステップST5で推定された複数の特徴量空間変換行列でステップST2で抽出された音声特徴量の変換を行う(ステップST6)。音響モデル学習部10は、ステップST6で変換された変換音声特徴量を用いて音響モデル蓄積部3に蓄積された音響モデルを更新する(ステップST54)。その後、フローチャートはステップST51の処理に戻り、上述した処理を繰り返す。
【0088】
以上のように、この実施の形態5によれば、クラス木生成部4が生成したクラス木の木構造に基づいて複数の特徴量空間変換行列を推定する特徴量空間変換行列推定部6bと、音声特徴量に対応付けられたアラインメント情報からGMM情報を取得し、取得したGMM情報から一意に対応付けられる特徴量空間変換行列W
rを用いて音声特徴量の変換を行い、変換音声特徴量を取得する特徴量変換部7と、入力された変換音声特徴量を用いて音響モデルの更新を行う音響モデル学習部10を備えるように構成したので、変換音響特徴量のみを用いて、音響モデルの更新を行うことができる。
【0089】
一般に、クラス木を用いた話者適応により音響モデルと音声特徴量との不適合度を表現する場合、クラス木、変換行列および音響モデル全てを読み込む必要があるが、この実施の形態5の特徴量変換部7から出力される変換音声特徴量は、音響モデルと音声特徴量との差異を低減する特徴量であることから、音響モデル学習部10には変換音声特徴量のみが入力されればよく、演算量を抑制することができる。
【0090】
なお、この実施の形態5では、デコード部2により得られる認識結果を用いて事後確率算出部5が事後確率を算出する構成を示したが、音響モデル学習装置500には、学習用音声と共に学習用の正解ラベルが入力されることもある。当該正解ラベルが入力された場合には、当該正解ラベルを直接事後確率算出部5に入力するように構成してもよい。この場合、デコード部2によるデコード処理を省略することができる。なお、デコード処理を省略した場合にも、アラインメントは計算する必要があり、入力された正解ラベルを用いて、ビタビアルゴリズムなどの手法により計算する。
【0091】
また、上述した音響モデル学習装置500に、実施の形態2または実施の形態3で示した推定処理判定部8または推定処理判定部8aを追加して設けてもよい。推定処理判定部8,8aを追加して設けることにより、特徴量空間変換行列推定部6bが推定する特徴量空間変換行列の変換精度を向上させることができる。
【0092】
また、上述した音響モデル学習装置500に、実施の形態4で示した事前分布計算部9を追加して設けてもよい。事前分布計算部9を追加して設けることにより、特徴量空間変換行列推定部6aが推定する特徴量空間変換行列の変換精度を向上させることができる。
さらに、上述した音響モデル学習装置500に、推定処理判定部8または推定処理判定部8aおよび事前分布計算部9を追加して設けてもよい。
【0093】
実施の形態6.
この実施の形態6では、音声特徴量を変換する際に参照する音響モデルと、最終認識結果を得る際に照合する音響モデルとを異なる種類の音響モデルとする構成を示す。
図14は、実施の形態6の音声認識装置600の構成を示すブロック図である。
音声認識装置600は、実施の形態1で示した音声認識装置100のデコード部2を第1のデコード部2aおよび音響モデル蓄積部3を第1の音響モデル蓄積部3aに換えて構成し、さらに第2のデコード部11および第2の音響モデル蓄積部12を追加して設けている。
以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
【0094】
第1のデコード部2aは、特徴量抽出部1が抽出した音声特徴量を、第1の音響モデル蓄積部3aに蓄積された第1の音響モデルによって表現される音素の標準パターンと照合することにより音声の認識を行い、第1の認識結果を得る。第1のデコード部2aは、音響モデルの状態系列と音声特徴量を対応付けた情報を、アラインメントとして特徴量変換部7に出力する。第1の音響モデル蓄積部3aは、特徴量抽出部1が抽出した音声特徴量を音声認識する際に照合する第1の音響モデルを蓄積する記憶領域である。
【0095】
第2のデコード部11は、特徴量変換部7が変換した音声特徴量を、第2の音響モデル蓄積部12に蓄積された第2の音響モデルによって表現される音素の標準パターンと照合することにより音声の認識を行い、最終認識結果を得る。第2の音響モデル蓄積部12は、特徴量変換部7が変換した変換音声特徴量を音声認識する際に照合する第2の音響モデルを蓄積する記憶領域である。
【0096】
第1の音響モデルと第2の音響モデルはそれぞれ異なる音響モデルであり、例えば第1の音響モデルにHMMの出力確率モデルにGMMを用いたGMM−HMMの音響モデルを適用し、第2の音響モデルにHMMの出力確率モデルにニューラルネット(NN)を用いたNN−HMMの音響モデルを適用する。また、音声特徴量算出における計算量抑制のため、第1の音響モデルに混合数の少ないGMM−HMMの音響モデルを適用し、第2の音響モデルに混合数の多いGMM−HMMの音響モデルを適用してもよい。
【0097】
音声認識処理において、例えば音響モデルをGMMからNNに基づく音響モデルに置き換えることにより認識精度が向上することが知られている。しかし、GMMのモデルベースで培われてきた適応手法をNNにそのまま適応することはできない。そのため、この実施の形態6では、音声特徴量を複数の特徴量空間変換行列を用いて変換して得られた変換音声特徴量を、NNに基づく音響モデルと照合する第2のデコード部11に入力することにより、認識精度の向上を図る。
【0098】
次に、音声認識装置600の動作について説明する。
図15は、実施の形態6に係る音声認識装置600の動作を示すフローチャートである。
なお、以下では実施の形態1に係る音声認識装置100と同一のステップには
図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
特徴量抽出部1が入力された音声から音声特徴量を抽出すると(ステップST2)、第1のデコード部2aは抽出された音声特徴量と、第1の音響モデル蓄積部3aに蓄積された第1の音響モデルとを照合して音声認識を行い、第1の認識結果およびアラインメント情報を取得する(ステップST61)。
【0099】
事後確率算出部5は第1の認識結果から事後確率を算出し(ステップST4)、特徴量空間変換行列推定部6は音声特徴量、クラス木蓄積部4aに蓄積されたクラス木、事後確率および第1の音響モデル蓄積部3aに蓄積された第1の音響モデルに基づいて特徴量空間における複数の特徴量空間変換行列を推定する(ステップST5)。特徴量変換部7は、第1の音響モデル蓄積部3aに蓄積された第1の音響モデルおよびステップST61で取得されたアラインメント情報を参照し、ステップST5で推定された複数の特徴量空間変換行列でステップST2で抽出された音声特徴量の変換を行う(ステップST6)。
【0100】
第2のデコード部11は、ステップST6で変換された音声特徴量と、第2の音響モデル蓄積部12に蓄積された第2の音響モデルとを照合して音声認識行い、最終認識結果を取得して出力する(ステップST62)。その後、フローチャートはステップST1の処理に戻り、上述した処理を繰り返す。
【0101】
以上のように、この実施の形態6によれば、異なる音響モデルを適用した第1の音響モデル蓄積部3aおよび第2の音響モデル蓄積部12を備え、第1の音響モデルとの照合により特徴量抽出部1が抽出した音声特徴量の音声認識を行い、第1の認識結果を得る第1のデコード部2aと、第2の音響モデルとの照合により特徴量変換部7が変換した音声特徴量の音声認識を行い、最終認識結果を得る第2のデコード部11とを備えるように構成したので、音声認識の認識精度を向上させることができる。
【0102】
なお、上述した実施の形態1から実施の形態6では、音声認識装置100,200,300,400,600および音響モデル学習装置500内に音響モデル蓄積部3または第1の音響モデル蓄積部3a、第2の音響モデル蓄積部12を備える構成を示したが、装置外に音響モデルを蓄積する蓄積領域を設けるように構成してもよい。
【0103】
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。