特許6433516 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

特許6433516音声認識装置、音響モデル学習装置、音声認識方法および音響モデル学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6433516

(24)【登録日】2018年11月16日

(45)【発行日】2018年12月5日

(54)【発明の名称】音声認識装置、音響モデル学習装置、音声認識方法および音響モデル学習方法

(51)【国際特許分類】

G10L 15/07 20130101AFI20181126BHJP

G10L 15/20 20060101ALI20181126BHJP

【ＦＩ】

G10L15/07

G10L15/20 360Z

【請求項の数】9

【全頁数】25

(21)【出願番号】特願2016-574601(P2016-574601)

(86)(22)【出願日】2015年2月13日

(86)【国際出願番号】JP2015053998

(87)【国際公開番号】WO2016129110

(87)【国際公開日】20160818

【審査請求日】2017年2月16日

(73)【特許権者】

【識別番号】000006013

【氏名又は名称】三菱電機株式会社

(74)【代理人】

【識別番号】100123434

【弁理士】

【氏名又は名称】田澤英昭

(74)【代理人】

【識別番号】100101133

【弁理士】

【氏名又は名称】濱田初音

(74)【代理人】

【識別番号】100199749

【弁理士】

【氏名又は名称】中島成

(74)【代理人】

【識別番号】100188880

【弁理士】

【氏名又は名称】坂元辰哉

(74)【代理人】

【識別番号】100197767

【弁理士】

【氏名又は名称】辻岡将昭

(74)【代理人】

【識別番号】100201743

【弁理士】

【氏名又は名称】井上和真

(72)【発明者】

【氏名】金川裕紀

(72)【発明者】

【氏名】太刀岡勇気

【審査官】上田雄

(56)【参考文献】

【文献】特開２０１３−１７８３４３（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１２／０１７３２４０（ＵＳ，Ａ１）

【文献】 Xin Lei, Jon Hamaker and Xiaodong He，Robust feature space adaptation for telephony speech recognition，Proc. INTERSPEECH 2006，米国，２００６年９月１７日，pp. 773-776

【文献】 M.J.F. Gales，Maximum Likelihood Linear Transformations for HMM-Based Speech Recognition，Computer Speech and Language，Cambridge University Engineering Department，１９９７年５月，pp.1-19

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１５／３４

(57)【特許請求の範囲】

【請求項1】

入力音声から音声特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部が抽出した音声特徴量と、音響モデルとを照合して音声認識を行い、第１の認識結果および前記音響モデルの状態系列を取得するデコード部と、
前記デコード部が取得した第１の認識結果の事後確率と、前記音響モデルから得られる回帰木と、前記特徴量抽出部が抽出した音声特徴量とを用いて、特徴量空間の線形回帰により前記回帰木に対応した複数の特徴量空間変換行列を推定する特徴量空間変換行列推定部と、
前記特徴量空間変換行列推定部が推定した複数の特徴量空間変換行列から、前記音響モデルと、前記デコード部が取得した前記音響モデルの状態系列とに基づいて、変換に用いる特徴量空間変換行列を決定し、決定した特徴量空間変換行列を用いて前記特徴量抽出部が抽出した前記音声特徴量を変換する特徴量変換部とを備え、
前記デコード部は、前記特徴量変換部が変換した変換音声特徴量と、前記音響モデルとを照合して音声認識を行い、認識結果を取得する音声認識装置。

【請求項2】

前記特徴量空間変換行列推定部が推定した特徴量空間変換行列の尤度と、前記特徴量空間変換行列推定部が前回の処理で推定した特徴量空間変換行列の尤度との差分を算出し、算出した差分に応じて、前記特徴量空間変換行列を再度推定するか否か判定を行う推定処理判定部を備えたことを特徴とする請求項１記載の音声認識装置。

【請求項3】

前記推定処理判定部は、前記尤度の差分が設定した数値以上である場合に、前記特徴量空間変換行列推定部に対して前記複数の特徴量空間変換行列の再推定を指示することを特徴とする請求項２記載の音声認識装置。

【請求項4】

前記推定処理判定部は、前記尤度の差分が設定した数値以上である場合に、前記特徴量変換部に対して再推定に用いる推定後の認識結果を出力するための特徴量変換処理を指示することを特徴とする請求項２記載の音声認識装置。

【請求項5】

前記回帰木と前記特徴量空間変換行列推定部が推定した複数の特徴量空間変換行列とを用いて、前記特徴量空間変換行列を推定するための統計量を解析して事前分布を計算する事前分布計算部を備え、
前記特徴量空間変換行列推定部は、前記第１の認識結果の事後確率と、前記回帰木と、前記音声特徴量とから算出される前記特徴量空間変換行列を推定するための統計量に、前記事前分布計算部が計算した事前分布の事前統計量を加算し、前記複数の特徴量空間変換行列を再推定することを特徴とする請求項１記載の音声認識装置。

【請求項6】

入力音声から音声特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部が抽出した音声特徴量と、第１の音響モデルとを照合して音声認識を行い、第１の認識結果および前記第１の音響モデルの状態系列とを取得する第１のデコード部と、
前記第１のデコード部が取得した第１の認識結果の事後確率と、前記第１の音響モデルから得られる回帰木と、前記特徴量抽出部が抽出した音声特徴量とを用いて、特徴量空間の線形回帰により前記回帰木に対応した複数の特徴量空間変換行列を推定する特徴量空間変換行列推定部と、
前記特徴量空間変換行列推定部が推定した複数の特徴量空間変換行列から、前記第１の音響モデルと、前記第１のデコード部が取得した前記第１の音響モデルの状態系列とに基づいて変換に用いる特徴量空間変換行列を決定し、決定した特徴量空間変換行列を用いて前記特徴量抽出部が抽出した前記音声特徴量を変換する特徴量変換部と、
前記特徴量変換部が変換した変換音声特徴量と、第２の音響モデルとを照合して音声認識を行い、認識結果を出力する第２のデコード部とを備えた音声認識装置。

【請求項7】

入力音声から音声特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部が抽出した音声特徴量と、音響モデルとを照合して音声認識を行い、第１の認識結果および前記音響モデルの状態系列とを取得するデコード部と、
前記デコード部が取得した第１の認識結果の事後確率と、前記音響モデルから得られる回帰木と、前記特徴量抽出部が抽出した音声特徴量とを用いて、特徴量空間の線形回帰により前記回帰木に対応した複数の特徴量空間変換行列を推定する特徴量空間変換行列推定部と、
前記特徴量空間変換行列推定部が推定した複数の特徴量空間変換行列から、前記音響モデルと、前記デコード部が取得した前記音響モデルの状態系列とに基づいて変換に用いる特徴量空間変換行列を決定し、決定した特徴量空間変換行列を用いて前記特徴量抽出部が抽出した前記音声特徴量を変換する特徴量変換部と、
前記特徴量変換部が変換した変換音声特徴量を用いて前記音響モデルを更新する音響モデル学習部とを備えた音響モデル学習装置。

【請求項8】

特徴量抽出部が、入力音声から音声特徴量を抽出するステップと、
デコード部が、前記抽出された音声特徴量と、音響モデルとを照合して音声認識を行い、第１の認識結果および前記音響モデルの状態系列を取得するステップと、
特徴量空間変換行列推定部が、前記第１の認識結果の事後確率と、前記音響モデルから得られる回帰木と、前記音声特徴量とを用いて、特徴量空間の線形回帰により前記回帰木に対応した複数の特徴量空間変換行列を推定するステップと、
特徴量変換部が、前記推定された複数の特徴量空間変換行列から、前記音響モデルと、前記音響モデルの状態系列とに基づいて、変換に用いる特徴量空間変換行列を決定し、決定した特徴量空間変換行列を用いて前記音声特徴量を変換するステップと、
前記デコード部が、前記変換された変換音声特徴量と、前記音響モデルとを照合して音声認識を行い、認識結果を取得するステップとを備えた音声認識方法。

【請求項9】

特徴量抽出部が、入力音声から音声特徴量を抽出するステップと、
デコード部が、前記抽出された音声特徴量と、音響モデルとを照合して音声認識を行い、第１の認識結果および前記音響モデルの状態系列とを取得するステップと、
特徴量空間変換行列推定部が、前記第１の認識結果の事後確率と、前記音響モデルから得られる回帰木と、前記音声特徴量とを用いて、特徴量空間の線形回帰により前記回帰木に対応した複数の特徴量空間変換行列を推定するステップと、
特徴量変換部が、前記推定された複数の特徴量空間変換行列から、前記音響モデルと、前記音響モデルの状態系列とに基づいて、変換に用いる特徴量空間変換行列を決定し、決定した特徴量空間変換行列を用いて前記音声特徴量を変換するステップと、
音響モデル学習部が、前記変換された変換音声特徴量を用いて前記音響モデルを更新するステップとを備えた音響モデル学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

この発明は、特徴量空間において音響モデルを話者に合わせて適応化する話者適応において、変換行列を用いて音響特徴量を変換させる技術に関するものである。

【背景技術】

【0002】

音声認識技術において、音素などのコンテキスト情報を音声の標準パターンで表現した音響モデルと、入力音声信号とが一致しない要因となる、話者、騒音、マイクなどの影響を低減することを目的として、話者適応技術が数多く提案されている。話者適応には大きく分けて２つの手法がある。１つは音響モデルを入力信号にマッチさせるよう変換するモデル空間の適応手法、もう１つは入力信号を音響モデルにマッチさせるよう変換する特徴量空間の適応手法である。

【0003】

モデル空間の適応手法として、例えば非特許文献１に開示されたＭＬＬＲ（Maximum Likelihood Linear Regression）法が知られている。これは音響モデルの平均パラメータを変換行列により変換する手法である。モデル空間の適応は、音素などのコンテキスト情報とモデルパラメータが密接に定義されていることから、コンテキストに応じて異なる変換行列を使い分けることが可能である。この性質を利用した適応性能高度化の試みとして非特許文献２では、ＭＬＬＲ法における変換行列をクラス木（回帰木とも称する）の木構造で共有化し、コンテキストに応じた変換行列を用いてモデルパラメータを適切に変換する。これにより、各クラス木のノードに属するモデルパラメータそれぞれに対して適切な変換行列を割り当てることが可能となり、変換精度が向上することが報告されている。

【0004】

特徴量空間の適応手法として、例えば非特許文献３に開示されたＣＭＬＬＲ（Constrained-MLLR）法が知られている、これはモデルパラメータの平均および分散を変換する手法である。当該変換は特徴量ベクトルを変換することと等価であるため、ＣＭＬＬＲは特徴量における変換行列を求めることとなる。特徴量空間の適応のメリットとして、計算量の削減が挙げられる。上述したモデル空間の適応ではデコード時に尤度を計算する毎に変換行列を適用する必要があるが、特徴量空間の適応ではＣＭＬＬＲの変換行列をあらかじめ特徴量に適用すればよい。また、モデル空間の適応においてモデルパラメータに変換行列をあらかじめ適用しておくことも考えられるが、変換された分散パラメータが全共散行列となることがあるため、計算量の観点から現実的でない。一方、特徴量空間の適応はデコーダが変換行列を読み込む仕様となっていない場合において、予め特徴量に変換行列を掛けておけばよく、適用範囲の広さにメリットがある。

【0005】

非特許文献３のＣＭＬＬＲ法を用いた特徴量空間の適応による音声認識装置について、図１６を参照しながら説明を行う。図１６は、従来の音声認識装置の構成を示すブロック図である。
従来の音声認識装置９００は、例えば特徴量抽出部９０１、デコード部９０２、音響モデル蓄積部９０３、事後確率算出部９０４、特徴量空間変換行列推定部９０５および特徴量変換部９０６で構成されている。

【0006】

話者適応では変換行列を生成するために、入力音声と、音声が何を話しているかを示す情報（以下、ラベル情報と称する）が必要となる。しかし、音声認識装置９００に入力されるのは前者の入力音声のみであることから、従来の音声認識装置９００ではデコード部９０２においてデコード処理を２回実行する。１回目のデコード処理はラベル情報を生成して変換行列を生成する処理であり、２回目のデコード処理は音声認識装置９００の最終的な認識結果を得る処理である。

【0007】

特徴量抽出部９０１は、入力された音声から音声の特徴量を表す音声特徴量を抽出する。音声特徴量としては、フィルタバンク係数、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）、ＰＬＰ（Perceptual Linear Predictive）など従来から用いられている特徴ベクトルを利用することができる（例えば、非特許文献４参照）。デコード部９０２は、特徴量抽出部９０１が抽出した音声特徴量を、音響モデル蓄積部９０３に蓄積された音響モデルによって表現される音素の標準パターンと照合することにより音声の認識を行い、第１の認識結果を得る。デコード部９０２は、ＨＭＭ（Hidden Markov Model）に基づく音声認識処理を行う。

【0008】

事後確率算出部９０４は、デコード部２が認識した第１の認識結果から、フォワード・バックワードアルゴリズムなどの計算によって事後確率を算出する（算出方法は、例えば非特許文献４参照）。ここで、事後確率は、時刻ｔ、状態ｋにおいてトレリス上に存在する確率であり、状態占有確率とも呼ばれる。特徴量空間変換行列推定部９０５は、入力された音声特徴量および事後確率に基づいて特徴量空間変換行列を推定する。変換行列の推定にはＣＭＬＬＲなどの音声特徴量を変換する適応手法を利用する。特徴量空間変換行列推定部９０５は、音響特徴量が音響モデルに適合するような変換行列を推定するのに当たり、単一の変換行列を推定する。

【0009】

特徴量変換部９０６は、特徴量空間変換行列推定部９０５が推定した特徴量空間変換行列を用いて、特徴量抽出部９０１が抽出した音声特徴量を変換する。特徴量変換部９０６は、以下の式（１）に基づいて変換処理を行う。

【0010】

最後に、特徴量変換部９０６が変換した音声特徴量をデコード部９０２に入力し、デコード部９０２が当該変換された音声特徴量を、音響モデルの音素の標準パターンと照合して音声の認識を行い、最終的な認識結果を得る。

【0011】

さらに、特許文献１には、モデル空間の適応手法および特徴量空間の適応手法の双方に用いることが可能な事前分布を予め求め、求めた事前分布を共通に用いてモデル空間と特徴量空間を同時適応する音声認識装置が開示されている。

【先行技術文献】

【特許文献】

【0012】

【特許文献1】特開２０１３−１７８３４３号公報

【非特許文献】

【0013】

【非特許文献1】C.J. Leggetter and P.C. Woodland，“Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Dengsity Hidden Markov Models．”，Computer Speech and Language, Vol．9，1995．

【非特許文献2】M.J.F. Gales,"The Generation and Use of Regression Class Trees for MLLR Adaptation.", Technical Report CUED/F-INFENG/TR.263, August 1996.

【非特許文献3】M.J.F. Gales, "Maximum Likelihood Linear Transformations for HMM-based Speech Recognition."，Computer Speech and Language, Vol. 12, 1998．

【非特許文献4】今井聖著、「音声認識」情報・電子入門シリーズ１６巻、共立出版、１９９５

【発明の概要】

【発明が解決しようとする課題】

【0014】

しかしながら、上述したＣＭＬＬＲ法を用いた特徴量空間の適応による音声認識技術では、変換の対象である音声特徴量とコンテキストの対応関係が与えられておらず、連続的に変化する音声特徴量に対して適切な変換行列を決定することができない。したがって、モデル空間の適応のように複数の変換行列を扱うことが困難であり、単一の変換行列を用いる必要がある。これにより音声認識性能を向上させることができないという課題があった。

【0015】

また、上述した特許文献１に開示された音声認識技術では、クラス木を用いて複数の変換行列を求めるのはモデル空間に限定されており、特徴量空間の変換行列をクラス木に基づいて求め、特徴量空間でなお話者適応を行う具体的な手法に関して開示および示唆がない。さらに詳細に説明すれば、特許文献１では、特徴量空間で変換行列を生成するためのハイパーパラメータを算出する際にクラス木を用いる構成が記載されているに過ぎず、特徴量空間でクラス木に基づいて複数の変換行列を求める構成は開示されていない。これらにより、特徴量空間の適応では単一の変換行列を用いる必要があり、音声認識性能を向上させることができないという課題があった。

【0016】

この発明は、上記のような課題を解決するためになされたもので、モデル空間での適応の利点と、特徴量空間での適応の利点とを併せ持ち、音声認識性能が高く、且つ演算量の少ない音声認識技術を提供することを目的とする。

【課題を解決するための手段】

【0017】

この発明に係る音声認識装置は、入力音声から音声特徴量を抽出する特徴量抽出部と、特徴量抽出部が抽出した音声特徴量と、音響モデルとを照合して音声認識を行い、第１の認識結果および音響モデルの状態系列を取得するデコード部と、デコード部が取得した第１の認識結果の事後確率と、音響モデルから得られる回帰木と、特徴量抽出部が抽出した音声特徴量とを用いて、特徴量空間の線形回帰により回帰木に対応した複数の特徴量空間変換行列を推定する特徴量空間変換行列推定部と、特徴量空間変換行列推定部が推定した複数の特徴量空間変換行列から、音響モデルと、デコード部が取得した音響モデルの状態系列とに基づいて、変換に用いる特徴量空間変換行列を決定し、決定した特徴量空間変換行列を用いて特徴量抽出部が抽出した音声特徴量を変換する特徴量変換部とを備え、デコード部が、特徴量変換部が変換した変換音声特徴量と、音響モデルとを照合して音声認識を行い、認識結果を取得するものである。

【発明の効果】

【0018】

この発明によれば、複数の変換行列を用いて特徴量空間での話者適応を行うことができる。これにより、音声認識技術の性能についてはモデル空間での適応の利点を享受し、計算量および利便性では特徴量空間での適応の利点を享受することができ、高い音声認識性能および演算量の抑制を実現することができる。

【図面の簡単な説明】

【0019】

【図1】実施の形態１に係る音声認識装置の構成を示す機能ブロック図である。

【図2】実施の形態１に係る音声認識装置のハードウェア構成を示す図である。

【図3】実施の形態１に係る音声認識装置の動作を示すフローチャートである。

【図4】実施の形態１に係る音声認識装置の特徴量変換部の動作を示すフローチャートである。

【図5】実施の形態１に係る音声認識装置の特徴量変換部の処理内容を示す一例である。

【図6】実施の形態２に係る音声認識装置の構成を示す機能ブロック図である。

【図7】実施の形態２に係る音声認識装置の動作を示すフローチャートである。

【図8】実施の形態３に係る音声認識装置の構成を示す機能ブロック図である。

【図9】実施の形態３に係る音声認識装置の動作を示すフローチャートである。

【図10】実施の形態４に係る音声認識装置の構成を示す機能ブロック図である。

【図11】実施の形態４に係る音声認識装置の動作を示すフローチャートである。

【図12】実施の形態５に係る音声認識装置の構成を示す機能ブロック図である。

【図13】実施の形態５に係る音声認識装置の動作を示すフローチャートである。

【図14】実施の形態６に係る音声認識装置の構成を示す機能ブロック図である。

【図15】実施の形態６に係る音声認識装置の動作を示すフローチャートである。

【図16】従来の音声認識装置の構成を示す機能ブロック図である。

【発明を実施するための形態】

【0020】

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、実施の形態１に係る音声認識装置１００の構成を示すブロック図である。
音声認識装置１００は、特徴量抽出部１、デコード部２、音響モデル蓄積部３、クラス木生成部４、事後確率算出部５、特徴量空間変換行列推定部６、および特徴量変換部７を備えている。

【0021】

話者適応では変換行列を生成するために、入力音声と、音声が何を話しているかを示す情報（以下、ラベル情報と称する）が必要となる。しかし、音声認識装置１００に入力されるのは前者の入力音声のみであることから、図１で示した音声認識装置１００ではデコード部２においてデコード処理を２回実行する。１回目のデコード処理はラベル情報を生成して変換行列を生成する処理であり、２回目のデコード処理は音声認識装置１００の最終的な出力となる最終認識結果を得る処理である。

【0022】

特徴量抽出部１は、入力された音声から音声の特徴量を表す音声特徴量を抽出する。音声特徴量としては、フィルタバンク係数、ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）、ＰＬＰ（Perceptual Linear Predictive）など従来から用いられている特徴ベクトルを利用することができる（例えば、非特許文献４参照）。

【0023】

デコード部２は、特徴量抽出部１が抽出した音声特徴量を、音響モデル蓄積部３に蓄積された音響モデルによって表現される音素の標準パターンと照合して音声の認識を行い、第１の認識結果を得る。デコード部２は、ＨＭＭ（Hidden Markov Model）に基づく音声認識処理を行う。詳細には、ＨＭＭの出力確率モデルに混合ガウス分布（以下、ＧＭＭ（Gaussian Mixture Model）と称する）を用いたモデルＧＭＭ−ＨＭＭを適用するものとする。さらに、デコード部２は、ＨＭＭの状態系列と音声特徴量を対応付けた情報を、アラインメント情報として出力する。さらにデコード部２は、後述する特徴量変換部７が変換した音声特徴量を、音響モデルで表現された音素の標準パターンと照合することにより音声の認識を行い、最終認識結果を得る。

【0024】

音響モデル蓄積部３は、音響モデルを蓄積する記憶領域である。クラス木生成部４は、特徴量空間の適応処理において最適な音声特徴量に変換する変換行列を推定するためのパラメータを、音素クラスに応じて階層的にクラスタリングした木構造で表現したクラス木（回帰木）を生成する。クラス木の生成では、音響モデル蓄積部３に蓄積された音響モデルを参照し、ｋ−ｍｅａｎｓアルゴリズムなどのクラスタリング法や、コンテキストクラスタリング決定木を変換してクラス木を生成する手法を適用する。生成したクラス木は、内部のクラス木蓄積部４ａに蓄積する。

【0025】

事後確率算出部５は、デコード部２が認識した第１の認識結果から、フォワード・バックワードアルゴリズムなどの計算によって事後確率を算出する。事後確率の算出方法は、例えば非特許文献４に記載されているので詳細な説明は省略する。ここで、事後確率は、時刻ｔ、状態ｋにおいてトレリス上に存在する確率である。

【0026】

特徴量空間変換行列推定部６は、入力されたクラス木の木構造に基づいて、音声特徴量、事後確率および音響モデルから複数の特徴量空間変換行列を推定する。特徴量空間変換行列の推定には音声特徴量を変換する適応手法であるＣＭＬＬＲを用いる。クラス木の木構造に基づいて音声特徴量および事後確率から特徴量空間変換行列を推定することにより、クラス木を構成する各クラスに適した特徴量空間変換行列の推定を行うことができる。

【0027】

式（２）から式（４）において、各文字は以下を示している。
ｔ：時刻
Ｔ：音声特徴量のフレーム数

ｗ_ｒｉ：Ｗ_ｒのｉ行目の行ベクトル
Ｗ_ｒ：クラスｒにおける変換行列であり、Ｗｒ＝［Ａｒｂｒ］
α：Ｗ_ｒ最適化問題のための方程式の解

ただし、ｃｏｆ（Ａ_ｉｊ）は、Ａのｉ行ｊ目の余因子、Ｄはｏ_ｔの次元である。

ｍ_ｒ：クラスｒ、分布ｍにおける分布のインデックス

【0028】

クラス木の木構造を用いて変換行列を推定することにより、次のような利点が得られる。データ量が少ないノードにおいて、当該ノードで求めた変換行列を用いる場合に変換性能が劣化する恐れがあるが、木構造を用いることにより、データ量が多い上位ノードで求めた変換行列を割り当てて変換性能の劣化を抑制することができる。

【0029】

特徴量変換部７は、音響モデル蓄積部３に蓄積された音響モデルおよびデコード部２が生成したアラインメント情報を参照し、特徴量抽出部１が抽出した音声特徴量を、特徴量空間変換行列推定部６が推定した複数の特徴量空間変換行列によって変換する。変換された音声特徴量は再度デコード部２に入力される。デコード部２は、変換された音声特徴量を、音響モデルによって表現される音素の標準パターンと照合することにより音声の認識を行い、最終的な認識結果を得る。なお、特徴量変換部７の詳細については後述する。

【0030】

図２は、実施の形態１に係る音声認識装置１００のハードウェア構成を示す図である。ハードウェアはプロセッサ１０１およびメモリ１０２で構成されている。
特徴量抽出部１、デコード部２、クラス木生成部４、事後確率算出部５、特徴量空間変換行列推定部６および特徴量変換部７は、プロセッサ１０１がメモリ１０２に記憶されたプログラムを実行することにより実現される。また、音響モデル蓄積部３およびクラス木蓄積部４ａはメモリ１０２の記憶領域に記憶している。複数のプロセッサ１０１および複数のメモリ１０２が連携して上述した機能を実行するように構成してもよい。

【0031】

次に、音声認識装置１００の動作について説明する。
図３は、実施の形態１に係る音声認識装置１００の動作を示すフローチャートである。
クラス木生成部４は、音声認識処理が開始される前にクラス木を生成する処理を行い、予めクラス木蓄積部４ａに蓄積しているものとする。
音声認識装置１００に音声が入力される（ステップＳＴ１）と、特徴量抽出部１は入力された音声から音声特徴量を抽出する（ステップＳＴ２）。デコード部２は、ステップＳＴ２で抽出された音声特徴量と、音響モデル蓄積部３に蓄積された音響モデルとを照合して音声認識を行い、第１の認識結果およびアラインメント情報を取得する（ステップＳＴ３）。

【0032】

事後確率算出部５は、ステップＳＴ３で取得された第１の認識結果から事後確率を算出する（ステップＳＴ４）。特徴量空間変換行列推定部６は、ステップＳＴ２で抽出された音声特徴量、クラス木蓄積部４ａに蓄積されたクラス木、ステップＳＴ４で算出された事後確率および音響モデル蓄積部３に蓄積された音響モデルに基づいて複数の特徴量空間変換行列を推定する（ステップＳＴ５）。

【0033】

特徴量変換部７は、音響モデル蓄積部３に蓄積された音響モデルおよびステップＳＴ３で取得されたアラインメント情報を参照し、ステップＳＴ５で推定された複数の特徴量空間変換行列のいずれかの変換行列を用いてステップＳＴ２で抽出された音声特徴量の変換を行う（ステップＳＴ６）。デコード部２は、ステップＳＴ６で変換された音声特徴量と、音響モデル蓄積部３に蓄積された音響モデルとを照合して音声認識行い、最終認識結果を取得して出力する（ステップＳＴ７）。その後、フローチャートはステップＳＴ１の処理に戻り、上述した処理を繰り返す。

【0034】

次に、図４および図５を参照しながら、特徴量変換部７の詳細について説明する。
図４は、実施の形態１に係る音声認識装置１００の特徴量変換部７の動作を示すフローチャートである。
特徴量変換部７は、特徴量抽出部１が抽出した音声特徴量ｏ_ｔと、デコード部２が算出したアラインメント情報とを対応付けるアラインメント処理を行い、音声特徴量の時刻とＨＭＭの状態系列の位置との対応付けを行う（ステップＳＴ１１）。特徴量変換部７は、ステップＳＴ１１で対応付けられたアラインメント情報から音響モデルのＧＭＭを取得する（ステップＳＴ１２）。特徴量変換部７は、ステップＳＴ１１で取得したアラインメントと、ステップＳＴ１２で取得したＧＭＭに含まれる各ガウス分布とに対応付けられた特徴量空間変換行列Ｗ_ｒを取得する（ステップＳＴ１３）。

【0035】

特徴量変換部７は、ステップＳＴ１４で取得した変換音声特徴量をデコード部２に出力し（ステップＳＴ１５）、処理を終了する。

【0036】

図５は、実施の形態１に係る音声認識装置１００の特徴量変換部７の処理内容を示す一例である。
図５（ａ）は、連続的に変化する音声特徴量を時系列に示している。図５（ａ）における音声特徴量ｏ_ｔは、時刻ｔにおいて特徴量抽出部１が入力された音声から抽出した音声特徴量を示している。

【0037】

図５（ｂ）は、特徴量変換部７が参照するアラインメント情報を示している。図５（ｂ）の例ではユーザが「あき」と発話した場合の音素列「ｓｉｌａｋｉ」を示している。「あき」の音素列は「ａｋｉ」であるが、語頭の無音を「ｓｉｌ」で表現している。また、図５（ｂ）のアラインメント情報が示す数字はそれぞれＨＭＭの状態ＩＤを示している。すなわち、アラインメント情報は、音響特徴量系列に対応するＨＭＭの状態ＩＤ系列となる。さらに、アラインメント情報が示す直線の矢印は次の状態への遷移を示し、曲線の矢印は自己遷移を示している。

【0038】

図５（ｃ）は、特徴量変換部７による音声特徴量の変換処理の概略を示す図である。図５（ｃ）において、領域Ａは音響モデルの分布を示し、各アラインメント情報に対応したＧＭＭの分布を示している。その中で領域Ｂはアラインメント情報ｓに対応したＧＭＭの各分布が位置することを示している。また、クラス木の木構造に複数の特徴量空間変換行列Ｗ_１、Ｗ_２、Ｗ_３、Ｗ_４、Ｗ_５を対応させて記載している。クラス木の木構造に設けた境界線ｔ_１、ｔ_２、ｔ_３、ｔ_４は特徴量空間変換行列Ｗ_ｒが変換する対象のクラスの境界線を示している。例えば、境界線ｔ_１、ｔ_３は特徴量空間変換行列Ｗ_２が変換する対象とするクラスを示している。

【0039】

クラス木を構成する各ノードにおいて、境界線はある特徴量空間変換行列Ｗ_ｒを共有するノードの範囲を示す。例えば、図５（ｃ）において、子ノードｕ_２のデータ量が少なく、特徴量空間変換行列推定部６において特徴量空間変換行列Ｗ_ｒが推定されない場合であっても、親ノードｕ_１で推定された特徴量空間変換行列Ｗ_２を用いて特徴量変換部７が音声特徴量の変換を行う。

【0040】

次に、図５で示した具体例を、図４のフローチャートに沿って説明する。
ステップＳＴ１１として、特徴量変換部７は、図５（ａ）の音声特徴量系列と、図５（ｂ）で示したアラインメント情報とを対応付け、音声特徴量の時刻とＨＭＭの状態系列の位置との対応付けを行う。図５（ａ）および図５（ｂ）の例では音声特徴量ｏ_ｔに、アラインメント情報ｓが対応付けられたことを示している。

【0041】

ステップＳＴ１２として、特徴量変換部７は、音声特徴量ｏ_ｔに対応するアラインメント情報ｓから、音響モデルのＧＭＭ情報を取得する。図５（ｃ）の例では、音響モデルの分布を示した領域Ａ内には各アラインメント情報に対応したＧＭＭが分布している。その中で、領域Ｂはアラインメント情報ｓに対応したＧＭＭの各分布が位置することを示している。当該領域Ｂから該当するＧＭＭ情報を取得する。

【0042】

ここで、クラス木生成部４が生成したクラス木には、ＨＭＭの状態インデックスｓとＧＭＭと当該ＧＭＭの各分布のインデックスｍに対応するクラスｒとの関係が記述されている。また、特徴量空間変換行列Ｗ_ｒはクラスｒの分布を変換するように、特徴量空間変換行列推定部６により推定されている。従って、音声特徴量のＧＭＭを取得することにより、当該音声特徴量を変換するのに適切な特徴量空間変換行列Ｗ_ｒを一意に対応付けることができる。

【0043】

【0044】

その後、デコード部２において２回目のデコード処理を実行するが、１回目のデコード処理で得られる第１の認識結果と、２回目のデコード処理で得られる最終認識結果とを比較すると、２回目のデコード処理で得られる最終認識結果がより尤もらしい結果となる。これは、１回目のデコード処理で用いられる音声特徴量よりも、２回目のデコード処理で用いる音声特徴量がより音響モデルに適合するように特徴量変換部７によって変換されているためである。

【0045】

以上のように、この実施の形態１によれば、クラス木生成部４が生成したクラス木の木構造に基づいて複数の特徴量空間変換行列を推定する特徴量空間変換行列推定部６と、音声特徴量に対応付けられたアラインメント情報からＧＭＭ情報を取得し、取得したＧＭＭ情報とアラインメント情報から一意に対応付けられる特徴量空間変換行列Ｗ_ｒを用いて音声特徴量の変換を行い、変換音声特徴量を取得する特徴量変換部７を備えるように構成したので、音声特徴量に応じて複数の特徴量空間変換行列を適切に切り替えて特徴量変換処理に適用することができ、適切な特徴量空間変換行列を用いて特徴量空間での話者適応を行うことができる。これにより、音声認識性能の向上および演算量の抑制を実現することができ、非正常騒音に対して頑健な音声認識処理を行うことができる。

【0046】

音声認識装置１００を、例えばカーナビゲーション機器に適用した場合、前方を走行する車両のブレーキ音や、交差点における歩行者誘導のためのアナウンスといった、自車両の走行騒音以外に車外から非定常な騒音が入力される環境下においても、音声認識性能の低下させることなく頑健な音声認識処理を行うことができる。

【0047】

また、音声認識装置１００を、例えば家電機器に適用した場合、家電機器が発する騒音以外に、歩行音や子供の泣き声、ドアの開閉音など家庭内で非定常な騒音が発生する環境下においても、音声認識性能を低下させることなく頑健な音声認識処理を行うことができる。

【0048】

実施の形態２．
この実施の形態２では、特徴量空間変換行列推定部６が推定した複数の特徴量空間変換行列が予め設定した条件を満たさない場合に、当該複数の特徴量空間変換行列の推定処理を再度行う構成を示す。これは特徴量空間変換行列推定部６が、最尤法などの統計的手法を用いて変換行列の推定を行っているため、推定処理を複数回繰り返すことにより推定精度が向上し、適切な複数の特徴量空間変換行列を得ることが可能になるためである。

【0049】

図６は、実施の形態２に係る音声認識装置２００の構成を示すブロック図である。
実施の形態２に係る音声認識装置２００は、実施の形態１で示した音声認識装置１００に推定処理判定部８を追加して設けて構成している。
以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

【0050】

推定処理判定部８は、特徴量空間変換行列推定部６が今回推定した複数の特徴量空間変換行列の尤度と、前回推定した複数の特徴量空間変換行列の尤度との差分を算出し、算出した尤度の差分が予め設定した数値よりも小さいか否か判定を行う。前回推定した複数の特徴変換行列の尤度は、例えば推定処理判定部８内のバッファに記憶しておく。

【0051】

ここで、尤度とは音響モデルに対して入力音声が標準パターンにどれほど近いかの指標となる。尤度の差分を算出することにより、前回の複数の特徴量空間変換行列を推定した時からの尤度の上がり幅が算出される。尤度の差分が設定した数値より小さい、即ち尤度の上がり幅が設定した数値より小さくなることは、推定処理が収束したとみなすことができ、精度の高い推定処理が行われたと判断する。一方、尤度の差分が設定した数値以上である、即ち尤度の上がり幅が設定した数値以上の場合は、推定処理が収束していないと判断する。この場合、複数の特徴量空間変換行列を再度推定させ、より精度の高い複数の特徴量空間変換行列を取得する。

【0052】

具体的には、算出した尤度の差分が予め設定した数値よりも小さい場合には推定処理が収束したとして、推定処理判定部８が、特徴量変換部７に対して特徴量空間変換行列推定部６が今回推定した複数の特徴量空間変換行列を出力し、特徴量変換処理を指示する。一方、算出した尤度の差分が予め設定した数値以上である場合には推定処理が収束していないとして、推定処理判定部８が、事後確率算出部５に対して事後確率と特徴量空間変換行列推定部６が今回推定した複数の特徴量空間変換行列を出力し、再推定を指示する。

【0053】

事後確率算出部５は、入力された事後確率と複数の特徴量空間変換行列に基づいて、事後確率を再計算する。具体的には、ＨＭＭの出力確率に前回推定された複数の特徴量空間変換行列を適用し、フォワード・バックワードアルゴリズムによるフォワード確率、バックワード確率を算出する。

【0054】

次に、音声認識装置２００の動作について説明する。
図７は、実施の形態２に係る音声認識装置２００の動作を示すフローチャートである。
なお、以下では実施の形態１に係る音声認識装置１００と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。
特徴量空間変換行列推定部６が複数の特徴量空間変換行列を推定すると（ステップＳＴ５）、推定処理判定部８は前回の処理で推定された複数の特徴量空間変換行列の尤度がバッファに記憶されているか否か判定を行う（ステップＳＴ２１）。前回の尤度が記憶されていない場合（ステップＳＴ２１；ＮＯ）、ステップＳＴ２５の処理に進む。一方、前回の尤度が記憶されている場合（ステップＳＴ２１；ＹＥＳ）、推定処理判定部８はステップＳＴ５で推定された複数の特徴量空間変換行列の尤度と、蓄積された前回の処理で推定された複数の特徴量空間変換行列の尤度との差分を算出する（ステップＳＴ２２）。

【0055】

推定処理判定部８は、ステップＳＴ２２で算出した尤度の差分が予め設定した数値よりも小さいか否か判定を行う（ステップＳＴ２３）。予め設定した数値よりも小さい場合（ステップＳＴ２３；ＹＥＳ）、推定処理判定部８はステップＳＴ５で推定された複数の特徴量空間変換行列を特徴量変換部７に出力し、特徴量変換処理を指示する（ステップＳＴ２４）。その後、特徴量変換部７およびデコード部２は、実施の形態１の図３で示したフローチャートのステップＳＴ６およびステップＳＴ７と同一の処理を行う。

【0056】

一方、予め設定した数値以上である場合（ステップＳＴ２３；ＮＯ）、および前回の尤度が記憶されていない場合（ステップＳＴ２１；ＮＯ）、推定処理判定部８は、今回の特徴量空間変換行列推定処理で用いた事後確率および推定された複数の特徴量空間変換行列を事後確率算出部５に出力し、再推定を指示する（ステップＳＴ２５）。事後確率算出部５は、前回の事後確率および複数の特徴量空間変換行列を用いて事後確率を再算出し（ステップＳＴ２６）、ステップＳＴ５の処理に戻り、上述した処理を繰り返す。

【0057】

以上のように、この実施の形態２によれば、特徴量空間変換行列推定部６が今回推定した複数の特徴量空間変換行列の尤度と、前回推定した複数の特徴量空間変換行列の尤度との差分を算出し、当該差分の値に応じて複数の特徴量空間変換行列を再推定するか否か判定を行う推定処理判定部８を備えるように構成したので、精度の高い推定処理が行われたと判定された場合のより尤もらしい特徴量変換行列を特徴量変換部７に出力することができる。これにより、推定される複数の特徴量空間変換行列の変換精度が向上し、音声認識精度を向上させることができる。

【0058】

実施の形態３．
この実施の形態３では、特徴量空間変換行列推定部６が推定した複数の特徴量空間変換行列が予め設定した条件を満たさない場合に、複数の特徴量空間変換行列推定処理を再度行う構成であって、上述した実施の形態２とは異なる構成を示す。

【0059】

図８は、実施の形態３に係る音声認識装置３００の構成を示すブロック図である。
実施の形態３に係る音声認識装置３００は、実施の形態１で示した音声認識装置１００に推定処理判定部８ａを追加して設けて構成している。
以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

【0060】

推定処理判定部８ａは、実施の形態２で示した推定処理判定部８と同様に、特徴量空間変換行列推定部６が今回推定した複数の特徴量空間変換行列の尤度と、前回推定した複数の特徴量空間変換行列の尤度との差分を算出し、算出した尤度の差分が予め設定した数値よりも小さいか否か判定を行う。算出した尤度の差分が予め設定した数値よりも小さい場合には、推定処理判定部８ａは推定処理が収束したとして、特徴量変換部７に対して特徴量空間変換行列推定部６が今回推定した複数の特徴量空間変換行列を出力し、最終認識結果を出力するための特徴量変換処理を指示する。特徴量変換部７は、指示に基づいて推定された複数の特徴量空間変換行列を用いて音声特徴量を変換し、デコード部２が変換音声特徴量の音声認識を行い、最終認識結果を取得して出力する。

【0061】

一方、算出した尤度の差分が予め設定した数値以上である場合に、推定処理判定部８ａは推定処理が収束していないとして、特徴量変換部７に対して特徴量空間変換行列推定部６が今回推定した複数の特徴量空間変換行列を出力し、再推定に用いる推定後の認識結果を出力するための特徴量変換処理を指示する。特徴量変換部７は、指示に基づいて推定された複数の特徴量空間変換行列を用いて音声特徴量を変換する。デコード部２は、変換音声特徴量の音声認識を行い、再度アラインメント情報および推定後の認識結果を取得する。取得されたアラインメント情報は特徴量変換部７に出力され、推定後の認識結果は事後確率算出部５に出力される。事後確率算出部５は、入力された推定後の認識結果から事後確率を算出し、算出された事後確率を用いて特徴量空間変換行列推定部６が複数の特徴量空間変換行列の推定を行う。

【0062】

このように、実施の形態３では、推定処理が収束していないと判定された場合に、当該推定処理によって得られた複数の特徴量空間変換行列を用いて音声特徴量の変換および音声認識を行い、得られた認識結果を用いて再度事後確率算出処理および特徴量空間変換処理を行う。

【0063】

次に、音声認識装置３００の動作について説明する。
図９は、実施の形態３に係る音声認識装置３００の動作を示すフローチャートである。
なお、以下では実施の形態２に係る音声認識装置２００と同一のステップには図７で使用した符号と同一の符号を付し、説明を省略または簡略化する。
特徴量空間変換行列推定部６が複数の特徴量空間変換行列を推定すると（ステップＳＴ５）、推定処理判定部８ａは前回の処理で推定された複数の特徴量空間変換行列の尤度がバッファに記憶されているか否か判定を行う（ステップＳＴ２１）。前回の尤度が記憶されている場合（ステップＳＴ２１；ＹＥＳ）、推定処理判定部８ａはステップＳＴ５で推定された複数の特徴量空間変換行列の尤度と、蓄積された前回の処理で推定された複数の特徴量空間変換行列の尤度との差分を算出する（ステップＳＴ２２）。

【0064】

推定処理判定部８ａは、ステップＳＴ２２で算出した尤度の差分が予め設定した数値よりも小さいか否か判定を行う（ステップＳＴ２３）。予め設定した数値よりも小さい場合（ステップＳＴ２３；ＹＥＳ）、推定処理判定部８ａはステップＳＴ５で推定された複数の特徴量空間変換行列を特徴量変換部７に出力し、最終認識結果を出力するための特徴量変換処理を指示する（ステップＳＴ３１）。その後、フローチャートは、実施の形態２の図７で示したステップＳＴ６およびステップＳＴ７と同一の処理を行う。

【0065】

一方、予め設定した数値以上である場合（ステップＳＴ２３；ＮＯ）、および前回の尤度が記憶されていない場合（ステップＳＴ２１；ＮＯ）、推定処理判定部８ａは、ステップＳＴ５で推定された複数の特徴量空間変換行列を特徴量変換部７に出力し、再推定に用いる推定後の認識結果を出力するための特徴量変換処理を指示する（ステップＳＴ３２）。特徴量変換部７は、ステップＳＴ３２で入力された複数の特徴量空間変換行列を用いてステップＳＴ２で抽出された音声特徴量の変換を行う（ステップＳＴ３３）。デコード部２は、ステップＳＴ３３で変換された音声特徴量と、音響モデル蓄積部３に蓄積された音響モデルとを照合して音声認識行い、推定後の認識結果およびアラインメント情報を取得する（ステップＳＴ３４）。ステップＳＴ３４で取得された推定後の認識結果は事後確率算出部５に出力され、ステップＳＴ４の処理に戻り、上述した処理を繰り返す。

【0066】

以上のように、この実施の形態３によれば、特徴量空間変換行列推定部６が今回推定した複数の特徴量空間変換行列の尤度と、前回推定した複数の特徴量空間変換行列の尤度との差分を算出し、当該差分の値に応じて複数の特徴量空間変換行列を再推定するか否か判定を行う推定処理判定部８ａを備え、差分が設定した数値よりも小さい場合には最終認識結果を出力する処理に移行させ、差分が設定した数値以上である場合には再度複数の特徴量空間変換行列を推定する処理に移行させるように構成したので、精度の高い推定処理が行われたと判定された場合のより尤もらしい特徴量空間変換行列を用いて最終認識結果を得ることができる。特徴量空間変換行列の変換精度を向上させることにより、音声認識精度を向上させることができる。

【0067】

また、この実施の形態３によれば、再度複数の特徴量空間変換行列を推定する処理に移行させる場合にも、特徴量変換部７による特徴量変換処理およびデコード部２によるデコード処理を経由するように構成したので、特徴量変換部７およびデコード部２を経て音声認識誤りを低減させた推定後の認識結果を事後確率算出部５に入力して再度事後確率を算出することができ、再び推定する複数の特徴量空間変換行列の変換精度を向上させることができる。これにより、より正確な最終認識結果を得ることができる。

【0068】

実施の形態４．
この実施の形態４では、クラス木生成部４が生成したクラス木の木構造を構成する各ノードについて、親ノードで求めた特徴量空間変換行列を事前分布として用いる構成を示す。クラス木の各ノードにおいて、精度の高い変換行列を求めるために、あるノードの親ノードで求めた変換行列を事前分布として利用する手法が以下の参考文献に開示されている。通常、変換行列の数を単純に増加させると、過学習の影響によりかえって性能が低下する場合がある。そこで、この実施の形態４では、クラス木生成部４が生成したクラス木の木構造を構成する各ノードについて親ノードで求めた特徴量空間変換行列を事前分布とし、当該事前分布を用いて過学習を抑制して推定する特徴量空間変換行列の数を増加させる構成を示す。
・参考文献
Junichi Yamagishi，Takao Kobayashi，Senior Member，IEEE, Yuji Nakano, Katsumi Ogata, and Juri Isogai，“Analysis of Speaker Adaptation Algorithms for HMM-Based Speech Synthesis and a Constrained SMAPLR Adaptation Algorithm．”，IEEE TRANSACTIONS ON AUDIO，SPEECH，AND LANGUAGE PROCESSING，VOL．17，NO．1，JANUARY 2009．

【0069】

図１０は、実施の形態４に係る音声認識装置４００の構成を示すブロック図である。
実施の形態４に係る音声認識装置４００は、実施の形態１で示した音声認識装置１００に事前分布計算部９を追加して設けて構成している。
以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

【0070】

事前分布計算部９は、クラス木蓄積部４ａに蓄積されたクラス木と、特徴量空間変換行列推定部６ａが推定した複数の特徴量空間変換行列とを用いて、事前分布を計算する。事前分布の計算では、クラス木に基づいて特徴量空間変換行列推定のための統計量をクラスタリングし、事前分布を求める。ここで、クラスタリングとは、変換行列推定のための統計量を示すデータの集合を部分集合に分け、各部分集合に含まれるデータが共通の特徴を有する統計量とするデータ解析をいう。

【0071】

事前分布としては、例えば行列正規分布などを用いる。行列正規分布を用いた場合、クラスｒにおける特徴量空間変換行列Ｗ_ｒの事前分布Ｐ（Ｗ_ｒ）は以下の式（６）で表される。

上述した式（６）における各文字は以下を示している。

Ω：親ノードの変換行列の影響をコントロールするハイパーパラメータ行列
Ψ：親ノードの変換行列の影響をコントロールするハイパーパラメータ行列

【0072】

【0073】

式（８）においてｈ_ｒｉはＨ_ｒのｉ行目の行ベクトル、τは親ノードの変換行列の影響をコントロールするハイパーパラメータである。

【0074】

次に、音声認識装置４００の動作について説明する。
図１１は、実施の形態４に係る音声認識装置４００の動作を示すフローチャートである。
なお、以下では実施の形態１に係る音声認識装置１００と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。

【0075】

特徴量空間変換行列推定部６ａが特徴量空間変換行列を推定すると（ステップＳＴ５）、事前分布計算部９は、ステップＳＴ５で推定された特徴量空間変換行列と、クラス木蓄積部４ａに蓄積されたクラス木に基づいて事前分布を計算する（ステップＳＴ４１）。特徴量空間変換行列推定部６ａはステップＳＴ４１で計算された事前分布から事前統計量を求める（ステップＳＴ４２）。さらに特徴量空間変換行列推定部６ａは、ステップＳＴ４２で求めた事前統計量に、クラス木に基づいてクラスタリングされる統計量を加算し、特徴量空間変換行列を再推定する（ステップＳＴ４３）。

【0076】

特徴量変換部７は、実施の形態１と同様に、音響モデルおよびアラインメント情報を参照し、ステップＳＴ４３で再推定された複数の特徴量空間変換行列を用いて音声特徴量の変換を行う（ステップＳＴ６）。その後、デコード部２は変換音声特徴量の音声認識を行い、最終認識結果を取得して出力し（ステップＳＴ７）、ステップＳＴ１の処理に戻る。

【0077】

次に、実施の形態１の図５で示した具体例を参照しながら、実施の形態４の音声認識装置４００について説明する。
多いデータから求められた統計量と比べ、少ないデータから得られた統計量は信頼性が低い。実施の形態１の図５（ｃ）で示したクラス木の木構造において、親ノードには子ノードのデータが含まれるため、少なくとも親ノードは子ノードよりもデータ量が多い。従って統計量の信頼性とし、下位のノードで求められる特徴量空間変換行列は必然的に信頼性が低くなる。一方、親ノードには子ノードが含まれることから、親ノードで求めた特徴量空間変換行列を使用して子ノードを変換することは妥当であると言える。そこで、事前分布計算部９を設けて特徴量空間変換行列推定部６ａにおいて計算された事前分布を考慮することにより、上述した式（７）および式（８）に示すように、該当するノードの統計量のみでなく、親ノードの統計量も推定に使用することとなる。よって、下位ノードにおいても特徴量空間変換行列生成に用いる特計量の信頼性を保持することができる。

【0078】

以上のように、この実施の形態４によれば、特徴量空間変換行列推定部６ａが推定した複数の特徴量空間変換行列と、クラス木に基づいて事前分布を計算する事前分布計算部９と、事前分布から事前統計量を求め、求めた統計量にクラス木に基づいてクラスタリングされる統計量を加算して特徴量空間変換行列を推定する特徴量空間変換行列推定部６ａとを備えるように構成したので、クラス木のデータ量が少ないノードにおいても、上位ノードの統計量も用いて特徴量空間変換行列の推定を行うことができ、信頼性を確保した特徴量空間変換行列の推定処理を行うことができる。

【0079】

なお、上述した説明では、実施の形態１で示した音声認識装置１００に事前分布計算部９を追加して構成する場合を示したが、実施の形態２または実施形態３で示した音声認識装置２００，３００に事前分布計算部９を追加して構成してもよい。

【0080】

実施の形態５．
この実施の形態５では、上述した実施の形態１から実施の形態４で示した構成によって得られる変換音声特徴量を用いて音響モデルを学習する音響モデル学習装置を示す。
学習話者の音声特徴量と音響モデルとから統計的に学習された、特徴量の音響的な差異を考慮し、モデルパラメータの推定を行う話者正規化学習の技術が存在する。通常、話者正規化学習には、音響モデルを学習する構成に、音声特徴量、音響モデル、クラス木、各話者に対する変換行列を入力することを必要とし、当該音響モデルを学習する構成を大幅に変更する必要が生じる。
しかし、実施の形態１から実施の形態４で示した構成によって得られた変換音声特徴量を用いて音響モデルを学習する場合には、当該変換音声特徴量には既に音響的な差異が考慮されているため、クラス木や変換行列を必要としない。また、実施の形態１から実施の形態４で示した構成により、変換音声特徴量は音響モデルと入力音声の音声特徴量との不適合度が低減されている。

【0081】

図１２は、実施の形態５に係る音響モデル学習装置の構成を示すブロック図である。
この実施の形態５の音響モデル学習装置５００は、実施の形態１で示した音声認識装置１００の構成において、入力音声を学習用音声に替え、音響モデル学習部１０を追加して設けて構成している。
以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

【0082】

特徴量抽出部１ａは、入力された学習用音声の特徴量を表す音声特徴量を抽出する。音声特徴量を抽出手法は実施の形態１と同一である。その後、デコード部２、クラス木生成部４、事後確率算出部５、特徴量空間変換行列推定部６ｂおよび特徴量変換部７を経て、変換音声特徴量を取得する。この際、特徴量空間変換行列推定部６ｂは、話者毎、および騒音毎に、それぞれ個別に複数の特徴量空間変換行列を推定する。これにより、話者毎および騒音毎それぞれに存在する音響モデルと音声特徴量との間の不適合を推定することが可能となる。

【0083】

特徴量変換部７が算出した変換音声特徴量は、音響モデル学習部１０に入力される。音響モデル学習部１０は、入力された変換音声特徴量を用いて音響モデル蓄積部３に蓄積された音響モデルの更新を行い、更新後の音響モデルを再度音響モデル蓄積部３に蓄積する。

【0084】

次に、音響モデル学習装置５００の動作について説明する。
図１３は、実施の形態５に係る音響モデル学習装置５００の動作を示すフローチャートである。
なお、以下では実施の形態１に係る音声認識装置１００と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。

【0085】

クラス木生成部４は、音声認識処理が開始される前にクラス木を生成する処理を行い、予めクラス木蓄積部４ａに蓄積しているものとする。
音響モデル学習装置５００に学習用音声が入力される（ステップＳＴ５１）と、特徴量抽出部１は入力された学習用音声から音声特徴量を抽出する（ステップＳＴ５２）。デコード部２は、ステップＳＴ２で抽出された音声特徴量と、音響モデル蓄積部３に蓄積された音響モデルとを照合して音声認識を行い、認識結果およびアラインメント情報を取得する（ステップＳＴ３）。

【0086】

事後確率算出部５は、ステップＳＴ３で取得された第１の認識結果から事後確率を算出する（ステップＳＴ４）。特徴量空間変換行列推定部６ｂは、ステップＳＴ２で抽出された音声特徴量、クラス木蓄積部４ａに蓄積されたクラス木、ステップＳＴ４で算出された事後確率および音響モデル蓄積部３に蓄積された音響モデルに基づいて、特徴量空間における話者毎、および騒音毎に複数の特徴量空間変換行列を推定する（ステップＳＴ５３）。

【0087】

特徴量変換部７は、音響モデル蓄積部３に蓄積された音響モデルおよびステップＳＴ３で取得されたアラインメント情報を参照し、ステップＳＴ５で推定された複数の特徴量空間変換行列でステップＳＴ２で抽出された音声特徴量の変換を行う（ステップＳＴ６）。音響モデル学習部１０は、ステップＳＴ６で変換された変換音声特徴量を用いて音響モデル蓄積部３に蓄積された音響モデルを更新する（ステップＳＴ５４）。その後、フローチャートはステップＳＴ５１の処理に戻り、上述した処理を繰り返す。

【0088】

以上のように、この実施の形態５によれば、クラス木生成部４が生成したクラス木の木構造に基づいて複数の特徴量空間変換行列を推定する特徴量空間変換行列推定部６ｂと、音声特徴量に対応付けられたアラインメント情報からＧＭＭ情報を取得し、取得したＧＭＭ情報から一意に対応付けられる特徴量空間変換行列Ｗ_ｒを用いて音声特徴量の変換を行い、変換音声特徴量を取得する特徴量変換部７と、入力された変換音声特徴量を用いて音響モデルの更新を行う音響モデル学習部１０を備えるように構成したので、変換音響特徴量のみを用いて、音響モデルの更新を行うことができる。

【0089】

一般に、クラス木を用いた話者適応により音響モデルと音声特徴量との不適合度を表現する場合、クラス木、変換行列および音響モデル全てを読み込む必要があるが、この実施の形態５の特徴量変換部７から出力される変換音声特徴量は、音響モデルと音声特徴量との差異を低減する特徴量であることから、音響モデル学習部１０には変換音声特徴量のみが入力されればよく、演算量を抑制することができる。

【0090】

なお、この実施の形態５では、デコード部２により得られる認識結果を用いて事後確率算出部５が事後確率を算出する構成を示したが、音響モデル学習装置５００には、学習用音声と共に学習用の正解ラベルが入力されることもある。当該正解ラベルが入力された場合には、当該正解ラベルを直接事後確率算出部５に入力するように構成してもよい。この場合、デコード部２によるデコード処理を省略することができる。なお、デコード処理を省略した場合にも、アラインメントは計算する必要があり、入力された正解ラベルを用いて、ビタビアルゴリズムなどの手法により計算する。

【0091】

また、上述した音響モデル学習装置５００に、実施の形態２または実施の形態３で示した推定処理判定部８または推定処理判定部８ａを追加して設けてもよい。推定処理判定部８，８ａを追加して設けることにより、特徴量空間変換行列推定部６ｂが推定する特徴量空間変換行列の変換精度を向上させることができる。

【0092】

また、上述した音響モデル学習装置５００に、実施の形態４で示した事前分布計算部９を追加して設けてもよい。事前分布計算部９を追加して設けることにより、特徴量空間変換行列推定部６ａが推定する特徴量空間変換行列の変換精度を向上させることができる。
さらに、上述した音響モデル学習装置５００に、推定処理判定部８または推定処理判定部８ａおよび事前分布計算部９を追加して設けてもよい。

【0093】

実施の形態６．
この実施の形態６では、音声特徴量を変換する際に参照する音響モデルと、最終認識結果を得る際に照合する音響モデルとを異なる種類の音響モデルとする構成を示す。
図１４は、実施の形態６の音声認識装置６００の構成を示すブロック図である。
音声認識装置６００は、実施の形態１で示した音声認識装置１００のデコード部２を第１のデコード部２ａおよび音響モデル蓄積部３を第１の音響モデル蓄積部３ａに換えて構成し、さらに第２のデコード部１１および第２の音響モデル蓄積部１２を追加して設けている。
以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

【0094】

第１のデコード部２ａは、特徴量抽出部１が抽出した音声特徴量を、第１の音響モデル蓄積部３ａに蓄積された第１の音響モデルによって表現される音素の標準パターンと照合することにより音声の認識を行い、第１の認識結果を得る。第１のデコード部２ａは、音響モデルの状態系列と音声特徴量を対応付けた情報を、アラインメントとして特徴量変換部７に出力する。第１の音響モデル蓄積部３ａは、特徴量抽出部１が抽出した音声特徴量を音声認識する際に照合する第１の音響モデルを蓄積する記憶領域である。

【0095】

第２のデコード部１１は、特徴量変換部７が変換した音声特徴量を、第２の音響モデル蓄積部１２に蓄積された第２の音響モデルによって表現される音素の標準パターンと照合することにより音声の認識を行い、最終認識結果を得る。第２の音響モデル蓄積部１２は、特徴量変換部７が変換した変換音声特徴量を音声認識する際に照合する第２の音響モデルを蓄積する記憶領域である。

【0096】

第１の音響モデルと第２の音響モデルはそれぞれ異なる音響モデルであり、例えば第１の音響モデルにＨＭＭの出力確率モデルにＧＭＭを用いたＧＭＭ−ＨＭＭの音響モデルを適用し、第２の音響モデルにＨＭＭの出力確率モデルにニューラルネット（ＮＮ）を用いたＮＮ−ＨＭＭの音響モデルを適用する。また、音声特徴量算出における計算量抑制のため、第１の音響モデルに混合数の少ないＧＭＭ−ＨＭＭの音響モデルを適用し、第２の音響モデルに混合数の多いＧＭＭ−ＨＭＭの音響モデルを適用してもよい。

【0097】

音声認識処理において、例えば音響モデルをＧＭＭからＮＮに基づく音響モデルに置き換えることにより認識精度が向上することが知られている。しかし、ＧＭＭのモデルベースで培われてきた適応手法をＮＮにそのまま適応することはできない。そのため、この実施の形態６では、音声特徴量を複数の特徴量空間変換行列を用いて変換して得られた変換音声特徴量を、ＮＮに基づく音響モデルと照合する第２のデコード部１１に入力することにより、認識精度の向上を図る。

【0098】

次に、音声認識装置６００の動作について説明する。
図１５は、実施の形態６に係る音声認識装置６００の動作を示すフローチャートである。
なお、以下では実施の形態１に係る音声認識装置１００と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。
特徴量抽出部１が入力された音声から音声特徴量を抽出すると（ステップＳＴ２）、第１のデコード部２ａは抽出された音声特徴量と、第１の音響モデル蓄積部３ａに蓄積された第１の音響モデルとを照合して音声認識を行い、第１の認識結果およびアラインメント情報を取得する（ステップＳＴ６１）。

【0099】

事後確率算出部５は第１の認識結果から事後確率を算出し（ステップＳＴ４）、特徴量空間変換行列推定部６は音声特徴量、クラス木蓄積部４ａに蓄積されたクラス木、事後確率および第１の音響モデル蓄積部３ａに蓄積された第１の音響モデルに基づいて特徴量空間における複数の特徴量空間変換行列を推定する（ステップＳＴ５）。特徴量変換部７は、第１の音響モデル蓄積部３ａに蓄積された第１の音響モデルおよびステップＳＴ６１で取得されたアラインメント情報を参照し、ステップＳＴ５で推定された複数の特徴量空間変換行列でステップＳＴ２で抽出された音声特徴量の変換を行う（ステップＳＴ６）。

【0100】

第２のデコード部１１は、ステップＳＴ６で変換された音声特徴量と、第２の音響モデル蓄積部１２に蓄積された第２の音響モデルとを照合して音声認識行い、最終認識結果を取得して出力する（ステップＳＴ６２）。その後、フローチャートはステップＳＴ１の処理に戻り、上述した処理を繰り返す。

【0101】

以上のように、この実施の形態６によれば、異なる音響モデルを適用した第１の音響モデル蓄積部３ａおよび第２の音響モデル蓄積部１２を備え、第１の音響モデルとの照合により特徴量抽出部１が抽出した音声特徴量の音声認識を行い、第１の認識結果を得る第１のデコード部２ａと、第２の音響モデルとの照合により特徴量変換部７が変換した音声特徴量の音声認識を行い、最終認識結果を得る第２のデコード部１１とを備えるように構成したので、音声認識の認識精度を向上させることができる。

【0102】

なお、上述した実施の形態１から実施の形態６では、音声認識装置１００，２００，３００，４００，６００および音響モデル学習装置５００内に音響モデル蓄積部３または第１の音響モデル蓄積部３ａ、第２の音響モデル蓄積部１２を備える構成を示したが、装置外に音響モデルを蓄積する蓄積領域を設けるように構成してもよい。

【0103】

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

【産業上の利用可能性】

【0104】

この発明に係る音声認識装置は、非定常騒音に対して頑健な音声認識処理を行うことを可能とするため、ナビゲーション装置や家電製品などに適用し、音声認識性能の向上に用いるのに適している。

【符号の説明】

【0105】

１特徴量抽出部、２デコード部、２ａ第１のデコード部、３音響モデル蓄積部、３ａ第１の音響モデル蓄積部、４クラス木生成部、４ａクラス木蓄積部、５事後確率算出部、６，６ａ，６ｂ特徴量空間変換行列推定部、７特徴量変換部、８，８ａ推定処理判定部、９事前分布計算部、１０音響モデル学習部、１１第２のデコード部、１２第２の音響モデル蓄積部、１００，２００，３００，４００，６００音声認識装置、５００音響モデル学習装置。

【図1】