特許第6026224号(P6026224)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6026224パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
<>
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000002
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000003
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000004
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000005
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000006
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000007
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000008
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000009
  • 特許6026224-パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6026224
(24)【登録日】2016年10月21日
(45)【発行日】2016年11月16日
(54)【発明の名称】パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体
(51)【国際特許分類】
   G10L 15/08 20060101AFI20161107BHJP
   G10L 15/183 20130101ALI20161107BHJP
【FI】
   G10L15/08 300B
   G10L15/183 200F
【請求項の数】9
【全頁数】12
(21)【出願番号】特願2012-237805(P2012-237805)
(22)【出願日】2012年10月29日
(65)【公開番号】特開2014-89246(P2014-89246A)
(43)【公開日】2014年5月15日
【審査請求日】2015年8月27日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100092772
【弁理士】
【氏名又は名称】阪本 清孝
(74)【代理人】
【識別番号】100119688
【弁理士】
【氏名又は名称】田邉 壽二
(72)【発明者】
【氏名】加藤 恒夫
【審査官】 安田 勇太
(56)【参考文献】
【文献】 特開2012−018403(JP,A)
【文献】 特開平11−119793(JP,A)
【文献】 特開2008−064815(JP,A)
【文献】 特開2009−198646(JP,A)
【文献】 特開2009−223560(JP,A)
【文献】 米国特許第5806034(US,A)
【文献】 Andreas Stolcke,Entropy-based Pruning of Backoff Language Models,Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,2000年
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00 −15/34
(57)【特許請求の範囲】
【請求項1】
入力信号から抽出された特徴パラメータと、認識パターンが木構造で表現された確率的な状態遷移モデルとを時系列で照合し、木構造の枝毎に前記特徴パラメータに対する確率モデルの各状態の尤度計算および枝刈りを繰り返しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パターンとするパターン認識装置において、
入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で各状態仮説の尤度計算を実行する探索手段と、
各時刻において、累積尤度が上位M個の状態仮説の言語確率に基づいて瞬時的なパープレキシティを近似算出するPP算出手段と、
前記パープレキシティの算出結果に基づいて枝刈り閾値を設定する枝刈り閾値設定手段と、
前記枝刈り閾値に基づいて、尤度の低い状態仮説を探索対象から除外する枝刈り手段とを具備したことを特徴とするパターン認識装置。
【請求項2】
前記PP算出手段は、前記上位M個の状態仮説のそれぞれが木構造上で次に到達可能な複数の単語のうち、その言語確率が上位K個の単語の当該言語確率から推定した平均分岐数で前記パープレキシティを近似することを特徴とする請求項1に記載のパターン認識装置。
【請求項3】
前記枝刈り閾値設定手段は、各時刻における累積尤度の最大値からの尤度幅を、前記パープレキシティに対する単調増加関数により与えることを特徴とする請求項1または2に記載のパターン認識装置。
【請求項4】
前記枝刈り閾値設定手段は、各時刻において保持可能な最大仮説数を、前記パープレキシティに対する単調増加関数により与えることを特徴とする請求項1または2に記載のパターン認識装置。
【請求項5】
前記PP算出手段は、同タスクについて予め用意した評価文セットについて予め算出した文頭からの単語数を変数とするテストセットパープレキシティによって近似することを特徴とする請求項1に記載のパターン認識装置。
【請求項6】
入力信号から抽出された特徴パラメータと、認識パターンが木構造で表現された確率的な状態遷移モデルとを時系列で照合し、木構造の枝毎に前記特徴パラメータに対する確率モデルの各状態の尤度計算および枝刈りを繰り返しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パターンとするパターン認識方法において、
入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で各状態仮説の尤度計算を実行する手順と、
各時刻において、累積尤度が上位M個の状態仮説の言語確率に基づいて瞬時的なパープレキシティを近似算出する手順と、
前記パープレキシティの算出結果に基づいて枝刈り閾値を設定する手順と、
前記枝刈り閾値に基づいて、尤度の低い状態仮説を探索対象から除外する手順とを含むことを特徴とするパターン認識方法。
【請求項7】
前記パープレキシティを算出する手順では、前記上位M個の状態仮説のそれぞれが木構造上で次に到達可能な複数の単語のうち、その言語確率が上位K個の単語の言語確率から求めた平均分岐数で前記パープレキシティを近似することを特徴とする請求項6に記載のパターン認識方法。
【請求項8】
前記請求項6または7に記載のパターン認識方法を、コンピュータに実行させるためのパターン認識プログラム。
【請求項9】
前記請求項8に記載したパターン認識プログラムをコンピュータが読み取り可能に記憶したパターン認識プログラムの記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体に係り、特に、累積尤度の低いパスの計算を途中で中止する枝刈りの閾値を、その認識処理の複雑さを表す指標となるパープレキシティに基づいて決定するパターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体に関する。
【背景技術】
【0002】
音声認識は、時系列の音声データに対して、予め定義された連鎖可能な単語の繋がり(単語系列)の中から、もっとも確率の高い単語系列を求めるプロセスとして定式化されている。図5は、現在主流のHMM(Hidden Markov Model、隠れマルコフモデル)に基づく音声認識エンジンのシステム構成を示したブロック図であり、入力音声取り込み部501、音声区間検出部502および音響分析部503を通して得られた音響特徴量に対して、
【0003】
(1)単語を単位として文を構成する単語系列を探索する文法/言語モデル探索部506、および
【0004】
(2)言語モデルの構成要素である単語を探索しながら、累積の尤もらしさ(確率)を算出する単語辞書探索部505、が連携することで、もっとも事後確率の高い単語系列が求められる。
【0005】
さらに具体的に説明すれば、入力音声取込部501は、マイクから波形信号を取り出して出力する。音声区間検出部502は、時系列の波形信号を入力として、短時間のパワーや零交差数を逐次計算し、閾値処理などによって一発声の音声区間を切り出して、その波形信号を出力する。音響分析部503は、音声区間の波形信号を入力として音響分析を行い、MFCCなどの音響特徴量の時系列データを出力する。音響尤度計算部504は、音響特徴量を入力として、これを音響モデル508がHMM状態毎に定義する音響特徴量空間中の確率密度分布と照合することで音響尤度を出力する。
【0006】
文法/言語モデル探索部506は、図6に示すような文法もしくは図7に示すような確率言語モデル上で、言語モデル510を参照しながら、文頭の無音部分から単語系列の探索を開始する。探索対象の単語を決定されると、単語辞書探索部505に対して探索対象の単語が指定され、単語辞書探索部505から指定単語の探索終了の通知を受けると、次の時刻に後続する単語の探索が単語辞書探索部505に対して指示される。
【0007】
確率言語モデルに基づく音声認識では、次に述べる累積尤度に確率言語モデルの尤度が加算される。単語辞書探索部505は、文法/言語モデル探索部506から指定された単語について、木構造辞書509に基づいて、音響尤度計算部504が出力するHMM状態毎の音響尤度を累積しながら探索を行う。探索が単語終端のHMM状態まで進むと、単語の探索終了とその累積尤度とが文法/言語モデル探索部506に通知される。そして、与えられた音声特徴量系列に対して事後確率(尤度)の最も高い単語系列が最終的な認識結果として出力される。認識結果出力部507は、音声区間の探索処理が終わると、累積尤度がもっとも高い単語系列を認識結果として出力する。
【0008】
前記単語辞書探索部505によって探索が行われる単語辞書で、各単語はHMM系列として表現される。多くの場合、単語はその読みに従って音素系列に分解され、それぞれの音素について用意された音素HMMを連結することで単語のHMM系列が構成される。こうすると、図8に示すような各単語について一直線状のHMM系列が得られる。
【0009】
単語の探索は、HMM系列に対するビタービ(Viterbi)アルゴリズムによって実行される。認識結果の候補の1つである仮説は、開始時刻(1つ前の単語の終了時刻の次の時刻)にHMM系列の先頭の状態に入り、ある時刻(終了時刻)にHMM系列の末尾の状態から出る。ビタービアルゴリズムは、仮説がHMM系列に入った時刻から出た時刻までの、音声データの系列とHMM系列の音響的特徴との一致度を確率値として出力する。より正確には、この確率値は対数化した尤度(L = log P)で表現され、これが「音響尤度」と呼ばれる。
【0010】
例えば、図7の確率言語モデルと図9の木構造辞書とを用いた音声認識において、文頭の無音(sil)に続く単語の頭文字/k/を探索中の状態仮説には、「sil-九時」,「sil-会社」および「sil-買い物」の3つのうち、最大値となる「sil-九時」の言語確率0.050を対数化したlog0.050が加えられる。最初の分岐を越えて/k/の次の/a/を探索中の状態仮説には、分岐前のlog0.050は破棄して、「sil-会社」および「sil-買い物」の言語確率のうち最大値となる「sil-会社」の0.020を対数化したlog0.020が加えられる。「買い物」の/m/まで進んだ状態仮説には、log0.020は破棄してlog0.010が加えられる。こうして木構造辞書の探索が進み、状態仮説がリーフに近づくにつれて単語が限定されていき、より正確な言語確率が付与されるようになる。
【0011】
認識処理の途中では単語が確定していないので、様々な単語のHMM系列に対して同時並行してビタービアルゴリズムが実行される。すなわち、様々な単語のHMM系列の状態のそれぞれに、その時点までの音響尤度を保存した仮説が一時記憶される。この仮説は「状態仮説」と呼ばれる。
【0012】
実際の音声認識では、膨大な種類に及ぶ単語系列を探索するために状態仮説の数は膨大になる。状態仮説の数を節約するために、異なる単語間で先頭から共通の部分HMM系列がマージされる。これは、異なる単語間でも同時刻に共通の部分HMM系列の探索を開始すれば、共通部分の各状態の音響尤度は等しいからである。このマージにより、図9に示すような「木構造辞書」が形成される。
【0013】
しかしながら、このような認識対象語彙の木構造辞書化を行ってもなお、状態仮説数は爆発的に増大してしまう。そこで、通常は毎時刻全状態仮説の尤度を比較し、尤度の高い状態仮説だけを次の時刻の探索に残し、尤度の低い状態仮説は探索途中で破棄する「枝刈り」の処理が行われる。
【0014】
代表的な枝刈り手法としては、非特許文献1には、全状態仮説中の最大尤度から一定の尤度幅以内にある状態仮説を残す尤度幅による枝刈り手法が開示されている。非特許文献2には、尤度の高い状態仮説から一定個数の状態仮説を残すために、全状態仮説を尤度に基づいてヒストグラムの階級に分類し、尤度の高い階級から累積個数が一定値を超えるまで残すヒストグラムによる枝刈り手法が開示されている。なお、両手法は併用されるのが一般的である。
【0015】
さらに、尤度幅による枝刈り、ヒストグラムによる枝刈りの発展形として、これらの閾値を動的に変化させる手法も提案されている。
【0016】
特許文献1には、探索範囲を適応的に制御する方式として、各時刻における累積尤度の分布、より具体的には現在時刻と一時刻前の最尤な仮説の尤度差、を変数として仮説枝刈りの閾値を制御する手法が開示されている。特許文献2には、尤度幅に基づく枝刈りの尤度幅を動的に制御する方式として、枝刈り後の仮説数が一定数以上にならないように制御する手法が開示されている。
【先行技術文献】
【非特許文献】
【0017】
【非特許文献1】H. Ney, D. Mergel, A. Noll and A. Paeseler, "Data-driven search organization for continuous speech recognition," IEEE Transactions on Signal Processing, vol.40, no.2, pp.272-281, (1992)
【非特許文献2】V. Steinbiss, B.-H. Tran and H. Ney, "Improvements in beam search," Proceedings of ICSLP 94, pp.397-400 (1994)
【特許文献】
【0018】
【特許文献1】特開平6−282255号公報
【特許文献2】特開2003−15683号公報
【発明の概要】
【発明が解決しようとする課題】
【0019】
非特許文献1および非特許文献2は、時不変の枝刈り閾値により状態仮説の削減を図っている。特許文献1および特許文献2は、枝刈り閾値を時変に変化させるが、特許文献1は状態仮説数を一定値に保とうとする制御であり、本来あるべき認識の難しさに応じた枝刈り処理になっていない。本来は、認識が難しく多くの仮説を比較すべき時刻には枝刈り閾値を緩くし、認識が易しく少数の仮説の比較で済む時刻には枝刈り閾値を厳しくする処理が適切と考えられる。
【0020】
本発明の目的は、従来技術の課題を解決し、累積尤度の低いパスの計算を途中で中止する枝刈りの閾値を、その認識処理の時々の複雑さを表す瞬時パープレキシティに基づいて動的に決定するパターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体を提供することにある。
【課題を解決するための手段】
【0021】
上記の目的を達成するために、本発明は、入力信号から抽出された特徴パラメータと、認識パターンが木構造で表現された確率的な状態遷移モデルとを時系列で照合し、木構造の枝毎に特徴パラメータに対する確率モデルの各状態の尤度計算および枝刈りを繰り返しながら状態仮説を遷移させ、最尤な状態遷移パスを認識パターンとするパターン認識において、以下のような構成を具備した。
【0022】
(1)入力信号の特徴パラメータに基づいて、前記状態遷移モデルの探索空間で各状態仮説の尤度計算を実行する探索手段と、各時刻において、累積尤度が上位M個の状態仮説の言語確率に基づいて瞬時的なパープレキシティを近似算出するPP算出手段と、パープレキシティの算出結果に基づいて枝刈り閾値を設定する枝刈り閾値設定手段と、枝刈り閾値に基づいて、尤度の低い状態仮説を探索対象から除外する枝刈り手段とを具備した。
【0023】
(2)PP算出手段は、上位M個の状態仮説のそれぞれが木構造上で次に到達可能な複数の単語のうち、その言語確率が上位K個の単語の言語確率から求めた平均分岐数でパープレキシティを近似するようにした。
ことを特徴とする請求項1に記載のパターン認識装置。
【0024】
(3)PP算出手段は、同タスクについて予め用意した評価文セットについて予め算出した文頭からの単語数を変数とするテストセットパープレキシティによって近似するようにした。
【発明の効果】
【0025】
本発明によれば、以下のような効果が達成される。
【0026】
(1)瞬時的なパープレキシティに基づいて仮説の枝刈りの閾値が設定されるので、音声認識の難しい時刻には仮説枝刈りの閾値を緩くする一方、認識の易しい時刻には仮説枝刈りの閾値を厳しくするといった枝刈り閾値の動的制御が可能となる。その結果、認識率の低下を抑えながら処理時間を効率的に削減し、認識処理を高速化できるようになる。
【0027】
(2)累積尤度の高い上位M個の状態仮説について、それぞれ上位K個の言語確率をもとに瞬時的なPPが近似されるので、パープレキシティの算出負荷を軽減できる。
【0028】
(3)評価文セットに基づいてパープレキシティを近似的に算出すれば、オンライン(音声認識処理中)の演算が無くなってオフラインの演算でパープレキシティを近似できるので処理速度が向上する。
【図面の簡単な説明】
【0029】
図1】本発明を適用した音声認識装置の第1実施形態の機能ブロック図である。
図2】音声認識の第1実施形態の手順を示したフローチャートである。
図3】本発明を適用した音声認識装置の第2実施形態の機能ブロック図である。
図4】音声認識の第2実施形態の手順を示したフローチャートである。
図5】従来の音声認識装置の機能ブロック図である。
図6】記述文法の一例を示した図である。
図7】確率言語モデル(bigram)の一例を示した図である。
図8】一直線状のHMM系列の一例を示した図である。
図9】木構造辞書の一例を示した図である。
【発明を実施するための最良の形態】
【0030】
以下、図面を参照して本発明の実施の形態について詳細に説明する。ここでは、確率モデルに基づく木構造を利用したパターン認識装置の代表的な応用例として音声認識装置を取り上げる。図1は、本発明の一実施形態に係る音声認識装置のシステム構成図であり、本発明の説明に不要な構成は図示が省略されている。
【0031】
音声信号入力部1は、入力された音声信号をデジタル信号に変換する。音響分析部2は、音声デジタル信号を音響分析して音響特徴パラメータを抽出し、これを一時記憶する。音響特徴パラメータとは、入力音声を一定時間間隔(例えば10ms:以下、フレームと表現する)毎に分析して得られる特徴ベクトルである。したがって、音声信号は特徴ベクトルの時系列X=x1,x2…xtに変換される。文法/確率言語モデル探索部(第1探索部)3は、記述文法/確率言語モデル8に基づいて、単語を単位として文を構成する単語系列を探索する。
【0032】
木構造辞書探索部(第2探索部)4において、自己遷移部401は、探索過程で各状態仮説を自己遷移させる。LR遷移部402は、探索過程で各状態仮説をLR遷移させる。尤度計算部403は、前記自己遷移およびLR遷移において、音響特徴パラメータの時系列データを木構造辞書9と照合することで音響的な尤度を算出し、これを時間方向に累積して累積尤度を求める。本実施形態では、文法の制約から木構造辞書9の状態系列が複数に枝分れする場合、木構造辞書探索部4は、枝の数だけ状態仮説を複製し、枝ごとに状態仮説を進行させて尤度を計算する。
【0033】
PP(パープレキシティ)近似計算部404は、確率言語モデルのパープレキシティを近似的に計算する。すなわち、音声認識では一般に、認識対象となる語彙が大きく、対立仮説が多くなるほど正解率が低下して認識が難しくなる。一方、確率言語モデルに基づく音声認識の場合、探索中の時刻によって認識の難しさが変化すると考えられる。例えば、音声認識装置が発声者の多様な質問を受け付ける場合、文頭は多様な単語で始まる可能性があるために認識が難しく、逆に文末は「ですか?」や「しますか?」などの定型的な疑問形で終わることが多いために認識が易しいと考えられる。こうした、時々刻々と変化する音声認識の難しさは、確率言語モデルが与える瞬時的なパープレキシティによって測ることができる。
【0034】
例えば、語彙w1,…,wNからなる確率言語モデルを用いて、文頭からk番目の単語skを探索中であり、その直前の単語がsk-1、その前の単語がsk-2で確定しているとすれば、瞬時的なパープレキシティPP(sk)は、次式(1)の瞬時的なエントロピーH(sk)を用いて、次式(2)で与えることができる。
【0035】
H(sk) = -Σsk P(sk|sk-1,sk-2)log2P(sk|sk-1,sk-2) … (1)
【0036】
PP(sk) = 2H(sk) … (2)
【0037】
しかしながら、音声認識処理中の単語skごとに全N個の単語の言語確率の総和を算出することは実際には困難である。また、先行単語sk-1および先々行単語sk-2も状態仮説により異なるので、その時刻で生存している全ての単語系列についてパープレキシティPP(sk)を算出することは容易ではない。
【0038】
そこで、本実施形態では全ての可能性を考慮する代わりに、累積尤度の高い上位M個の状態仮説について、探索中の各単語skから木構造辞書上で次に到達可能な複数のリーフに対応する単語を候補として持つものとする。そして、前記M個の状態仮説のそれぞれから木構造上で次に到達可能な単語のうち、その言語確率が上位K個の単語の言語確率から近似的なパープレキシティを算出する。本実施形態では、言語確率が上位K個の単語の当該言語確率の総和でパープレキシティが近似される。すなわち、エントロピーH(sk)が次式(3)で代表される。
【0039】
H(sk) = -Σm [R(mSk,m {P(sk,m|sk-1,m,sk-2,m)log2P(sk,m|sk-1,m,sk-2,m)}] /Σm R(m) … (3)
【0040】
ここで、R(m)は上位M個のうちのm番目の状態仮説の累積尤度を表し、累積尤度により重み付き平均を取っている。上記の場合は、状態仮説それぞれについて、単語辞書中の存在位置に関係なく上位K個の言語確率の和をとっているが、単語辞書中の存在位置に依存して変化する言語確率の先読み値Q(m|sk-1,m,sk-2,m)を用いて近似することもできる。すなわち、エントロピーH(sk)は次式(4)で代表しても良い。
【0041】
H(sk) = -Σm [R(m)Q(m|sk-1,m,sk-2,m)log2Q(m |sk-1,m,sk-2,m)] /Σm R(m) … (4)
【0042】
図1へ戻り、枝刈り閾値設定部405は、前記瞬時的なパープレキシティPP(sk)に基づいて枝刈り閾値を設定する。すなわち、尤度幅による枝刈りであれば、尤度幅がPP(sk)に基づいて設定され、ヒストグラムによる枝刈りであれば、保持可能な最大仮説数がPP(sk)に基づいて設定される。なお、尤度幅による枝刈りの場合、尤度幅は瞬時的なパープレキシティPP(sk)の単調増加関数で与えられ、ヒストグラムによる枝刈りの場合、最大仮説数が瞬時的なパープレキシティPP(sk)の単調増加関数で与えられる。枝刈り部406は、前記枝刈り閾値に基づいて枝刈りを実施する。
【0043】
単語仮説出力部5は、単語末尾まで進んだ状態仮説の単語仮説を出力する。前記第1および第2探索部3,4による探索および単語仮説の出力は、音響特徴パラメータの時系列データの入力が終了するまで繰り返される。バックトレース部6は、時系列データの入力が終了すると、単語仮説の集合7のうち文法上の最後のHMM状態まで到達したものの中から累積尤度が最も高い状態系列にバックトレースを実行して認識結果を判定する。
【0044】
図2は、本発明のパターン認識方法を適用した音声認識の手順を示したフローチャートであり、主に前記木構造辞書探索部(第2探索部)4の動作を示している。
【0045】
ステップS1では、有効な状態仮説の一つが今回の計算対象として選択される。ステップS2では、今回の状態仮説に対して、前記自己遷移部401により自己遷移が実施され、その音響尤度が算出される。ステップS3では、現在までの累積尤度に今回の音響尤度が加算されて当該累積尤度が更新される。ステップS4では、今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了したか否かが判定される。完了していなければステップS1へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記の各処理が繰り返される。
【0046】
今回のタイミングに対応した全ての状態仮説に関して自己遷移および尤度計算が完了するとステップS5へ進み、改めて今回のタイミングに対応した有効な状態仮説の一つが計算対象として選択される。ステップS6では、今回の状態仮説に対して、前記LR遷移部402によりL-R遷移が実施され、その音響尤度が計算される。ステップS7では、現在までの累積尤度に今回の音響尤度が加算されて当該累積尤度が更新される。
【0047】
ステップS8では、今回のL-R遷移により木構造が分岐したか否かが判定される。分岐していればステップS9へ進み、確率言語モデルに基づいて言語尤度の先読みが実施され、到達可能な全ての単語の言語尤度の最大値(先読み値)が累積尤度に加算される。
【0048】
ステップS10では、遷移先に自己遷移の状態仮説が存在する場合に、その累積尤度とL-R遷移後の状態仮説の累積尤度とが比較され、大きい方の状態仮説を残して小さい方が破棄される。ステップS11では、今回のタイミングで遷移すべき全ての状態仮説に関して、上記のL-R遷移が完了したか否かが判定される。完了していなければステップS5へ戻り、今回のタイミングで遷移すべき他の状態仮説についても上記の各処理が繰り返される。
【0049】
その後、今回のタイミングで遷移すべき全ての状態仮説について上記の各処理が完了するとステップS12へ進み、瞬時的なPPの近似計算が上式(2),(3)に基づいて行われる。すなわち、本実施形態では全ての可能性を考慮する代わりに、累積尤度の高い上位M個の状態仮説について、それぞれ上位K個の言語確率の和で瞬時的なPPが近似される。
【0050】
ステップS13では、前記瞬時的なPPに応じた枝刈り閾値が設定される。本実施形態では、瞬時的なPPの単調増加関数で尤度幅および最大仮説数が設定される。ステップS14では、前記尤度幅および最大仮説数を枝刈り条件として、累積尤度に基づく状態仮説の枝刈りが実施される。
【0051】
ステップS15では、枝刈り後に残った状態仮説の一つが選択される。ステップS16では、選択された状態仮説が単語末尾の状態仮説であるか否かが判定され、単語末尾の状態仮説であれば、ステップS17へ進んで単語仮説が出力される。ステップS18では、次の単語の先頭の状態に遷移する仮想的な状態仮説が設定される。ステップS19では、枝刈り後に残った全ての状態仮説に関して上記の処理が完了したか否かが判定される。完了していなければ前記ステップS15へ戻り、状態仮説を変更しながら各処理が繰り返される。ステップS20では、次フレームの有無が判定され、次フレームが存在すればステップS1へ戻り、次フレームの音響特徴パラメータを対象に上記した各処理が繰り返される。
【0052】
全てのフレームに関して上記の処理が終了して探索が文末フレームまで到達すると、ステップS21では、これまでに文法上の最後の状態まで到達した単語仮説が、その累積尤度の順にソートされ、累積尤度が上位の複数または唯一の単語仮説にバックトレースが実施されて認識結果が出力される。
【0053】
なお、上記の第1実施形態では、オンラインで音声認識処理が実行されるため、語彙の大きなシステムあるいは処理能力の低いシステムでは、リアルタイムでの処理に遅延が生じる場合がある。これに対して、以下に説明する第2実施形態では、オンライン(音声認識処理中)の演算をなくし、オフラインの演算で近似することにより処理速度を向上させることができる。
【0054】
図3は、本発明の第2実施形態に係る音声認識装置のシステム構成図、図4は、本実施形態の動作を示したフローチャートであり、前記と同一の符号は同一または同等部分を示している。
【0055】
本発明の第2実施形態では、フレーズ(句読点によって句切られる単位)の先頭単語から末尾単語にかけてパープレキシティが減少する傾向を大まかに捉え、予め用意した複数の評価文(テストセット)について、フレーズ先頭からの単語の数をパラメータとしてオフラインで算出されたテストセットパープレキシティ10を与えるようにしている。
【0056】
ここでは、全L文の評価文のうち第l番目が単語s1,l, …, sKl, lで構成されるとすると、先頭からk番目の単語に対する瞬時的なパープレキシティPP(sk)は、次式(6)の瞬時的なエントロピーH(sk)を用いて、次式(5)で与えることができる。
【0057】
PP(sk) = 2H(k) … (5)
【0058】
H(k) = -(1/L)Σl log2P(sk,l|sk-1,l,sk-2,l) … (6)
【0059】
この場合、累積尤度の高い上位M個の状態仮説について、それぞれフレーズ先頭から何番目の単語を探索中であるかカウントし、それらの平均値を利用することができる。
【0060】
図3において、PP参照部407は、図4のステップS12aにおいて、累積尤度の上位M個の状態仮説について、フレーズ先頭からの単語位置に応じたテストセットパープレキシティ10を参照し、累積尤度を重み係数としてそれらの重み付き平均値を求めることで、パープレキシティを近似的に算出する。ステップS13以降では、前記第1実施形態と同様に、前記PPに応じた枝刈り閾値が設定され、累積尤度に基づく状態仮説の枝刈りが実施される。
【0061】
なお、上記の探索手順を含む一連のパターン認識手順は、コンピュータにより実行可能なプログラム言語で記述することができ、当該プログラムをCD-ROMやDVDなどの記憶媒体に記録し、これをコンピュータに読み込ませて実行させることによりパターン認識装置を構成することができる。
【0062】
また、上記した実施形態では、本発明を音声認識を例にして説明したが、他のパターン認識にも同様に適用できる。
【符号の説明】
【0063】
1…音声信号入力部,2…音響分析部,3…文法/確率言語モデル探索部(第1探索部),4…木構造辞書探索部(第2探索部),5…単語仮説出力部,6…バックトレース部,7…単語仮説集合,8…記述文法/確率言語モデル,9…木構造辞書,10…テストセットPP,401…自己遷移部,402…LR遷移部,403…尤度計算部,404…PP近似計算部,405…枝刈り閾値設定部,406…枝刈り部
図1
図2
図3
図4
図5
図6
図7
図8
図9