(58)【調査した分野】(Int.Cl.,DB名)
前記単語別音素列生成手段は、前記単語別音素列の音素間に音素以外の予め定めた文字を挿入することで、前記音素列単語を生成することを特徴とする請求項1に記載の音素認識辞書生成装置。
前記音素発音辞書生成手段は、予め定めた数の音素を組み合わせた音素列を前記テキストデータ形式に変換した見出し語とし、当該見出し語に対応する音素列を発音表記として前記音素発音辞書に登録することを特徴とする請求項1または請求項2に記載の音素認識辞書生成装置。
前記音素言語モデル生成手段は、前記音素列単語生成手段で生成される前記音素列単語のリストに存在しない音素列単語の連鎖に対して、スムージングによりNグラム確率を与えることを特徴とする請求項1から請求項3のいずれか一項に記載の音素認識辞書生成装置。
音響モデルと、請求項1から請求項4のいずれか一項に記載の音素認識辞書生成装置により生成された音素発音辞書および音素言語モデルとを用いて、音声の音素を認識する音素認識装置であって、
前記音響モデルと前記音素発音辞書と前記音素言語モデルとにより、前記音声を音素列単語単位で認識する認識手段と、
この認識手段で認識された1単語のテキストデータ形式である音素列単語を、個々の音素に分離して音素列を生成する音素列生成手段と、
を備えることを特徴とする音素認識装置。
【発明の概要】
【発明が解決しようとする課題】
【0006】
前記した従来技術は、統計的機械翻訳モデルを学習するために、強制音素アライメントを行った音素列(標準音素列)と、音素認識した音素列(実発話音素列)とを用いる。この統計的機械翻訳モデルの精度を高めるには、標準音素列と実発話音素列の質が重要になる。
従来技術で、アナウンサ等の正確な発音の音声とその書き起こしテキストとを学習コーパスとして用いて標準音素列と実発話音素列とを生成した場合、理想的には、それぞれの音素列がほぼ同じであることが望ましい。
しかし、従来技術では、標準音素列と実発話音素列とをDP(Dynamic Programming)マッチングした結果、音素が異なる割合(音素異なり率)が、22.8%あり、さらなる音素認識の精度改善が望まれている。
【0007】
本発明は、このような問題に鑑みてなされたものであり、音素認識の精度を高める音素認識辞書(音素発音辞書および音素言語モデル)を生成する音素認識辞書生成装置およびそのプログラム、ならびに、音素発音辞書および音素言語モデルを用いた音素認識装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0008】
前記課題を解決するため、本発明に係る音素認識辞書生成装置は、音響モデルと発音辞書と学習コーパスとを用いて、音素認識に用いる音素発音辞書および音素言語モデルを生成する音素認識辞書生成装置であって、単語別音素列生成手段と、音素列単語生成手段と、音素発音辞書生成手段と、音素言語モデル生成手段と、を備える。
【0009】
かかる構成において、音素認識辞書生成装置は、単語別音素列生成手段によって、学習コーパスの音声を音響モデルと発音辞書とに基づいて音声認識し、発音辞書に登録されている見出し語に対応する単語ごとの音素列である単語別音素列を生成する。
そして、音素認識辞書生成装置は、音素列単語生成手段によって、単語別音素列を1単語のテキストデータ形式に変換して音素列単語を生成する。例えば、音素列単語生成手段は、単語別音素列の音素間のスペースに音素以外の予め定めた文字(例えば、“+”)を挿入することで、音素列単語を生成する。これによって、音素認識辞書生成装置は、音素列単語を1単語として扱うことが可能になる。
【0010】
そして、音素認識辞書生成装置は、音素発音辞書生成手段によって、音素列単語を見出し語とし、当該音素列単語に対応する単語別音素列を発音表記とすることで、音素発音辞書を生成する。これによって、音素発音辞書生成手段は、単語単位で音素列の発音を音素発音辞書に登録する。
さらに、音素認識辞書生成装置は、音素言語モデル生成手段によって、音素列単語生成手段で生成される音素列単語のリストから音素列単語の連鎖としてN−gram言語モデルを学習することにより、音素言語モデルを生成する。これによって、音素言語モデル生成手段は、音素認識を行う際の音素列単語の接続確率を計算するため音素列単語の出現確率をモデル化する。
【0011】
なお、音素認識辞書生成装置は、コンピュータを、単語別音素列生成手段、音素列単語生成手段、音素発音辞書生成手段、音素言語モデル生成手段として機能させるための音素認識辞書生成プログラムで動作させることができる。
【0012】
また、前記課題を解決するため、本発明に係る音素認識装置は、音響モデルと、音素認識辞書生成装置により生成された音素発音辞書および音素言語モデルとを用いて、音声の音素を認識する音素認識装置であって、認識手段と、音素列生成手段と、を備える。
【0013】
かかる構成において、音素認識装置は、認識手段によって、音響モデルと音素発音辞書と音素言語モデルとにより、音声を音素列単語単位で認識する。これによって、認識手段は、単語の繋がりに依存した音素列を認識することが可能になる。
そして、音素認識装置は、音素列生成手段によって、認識手段で認識された1単語のテキストデータ形式である音素列単語を、個々の音素に分離して音素列を生成する。例えば、音素列生成手段は、単語別音素列の音素間に挿入されている予め定めた文字(例えば、“+”)をスペースに置き換えることで、個々の音素に分離する。
【0014】
なお、音素認識装置は、コンピュータを、認識手段、音素列生成手段として機能させるための音素認識プログラムで動作させることができる。
【発明の効果】
【0015】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、音素列を単語単位とした音素発音辞書および音素言語モデルを生成することができる。
この音素発音辞書および音素言語モデルを用いることで、音素認識する際の音素の連結確率を、単に音素の前後の依存性だけではなく、音素の単語内および単語間における依存性も加味して算出することが可能になり、音声から音素を認識する際の認識精度を高めることができる。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照して説明する。
<第1実施形態>
〔音素認識辞書生成装置の構成〕
まず、
図1を参照して、本発明の第1実施形態に係る音素認識辞書生成装置1の構成について説明する。
【0018】
音素認識辞書生成装置1は、音声データから音素を認識するための辞書として、音素発音辞書および音素言語モデルを生成するものである。この音素認識辞書生成装置1は、学習コーパス記憶装置2、発音辞書記憶装置3および音響モデル記憶装置4にそれぞれ記憶されている学習コーパス20、発音辞書30および音響モデル40から、音素発音辞書50および音素言語モデル60を生成する。
【0019】
具体的には、音素認識辞書生成装置1は、学習コーパスから強制アライメントにより単語別音素列を生成し、生成した単語別音素列を1単語のテキストデータ形式に変換して音素列単語を生成する。そして、音素認識辞書生成装置1は、生成した音素列単語を見出し語とし、当該音素列単語に対応する単語別音素列を発音表記とすることで、音素発音辞書50を生成する。さらに、音素認識辞書生成装置1は、生成した音素列単語のリストから、N−gram言語モデルを学習し、音素言語モデル60を生成する。
【0020】
学習コーパス20は、予め大量の音声データ(音声コーパス)と、音声データの書き起こしテキスト(テキストコーパス)とを対応付けたデータである。この学習コーパス20は、例えば、ニュース番組、情報番組等におけるアナウンサ、リポータ等の約1000時間程度の音声(音声コーパス)と、その音声を書き起こしたテキスト(テキストコーパス)である。
【0021】
発音辞書30は、所定の文字列である見出し語(ここでは、単語とする)ごとに、その発音表記(音素列)を示した辞書である。
この発音辞書30は、一般的な発音辞書であって、例えば、人手を介して見出し語(単語)とその発音表記(音素列)とを対応付けた辞書である。
【0022】
音響モデル40は、大量の音声データから予め学習したディープニューラルネットワーク(DNN:Deep Neural Network)音響モデルである。例えば、DNNの入力には、メルフィルタバンク対数パワーの40次元に時間変化(Δ+ΔΔ)を加えて11フレーム分の特徴量を連結(スプライス)した特徴量を用い、DNNの隠れ層を8層とする。
なお、音響モデル40における音響特徴量の尤度計算は、隠れマルコフモデル(HMM:Hidden Markov Model)や、ガウス混合モデル(GMM:Gaussian mixture model)音響モデルであっても構わない。
以下、音素認識辞書生成装置1の構成について詳細に説明する。
【0023】
音素認識辞書生成装置1は、
図1に示すように、単語別音素列生成手段10と、音素列単語生成手段11と、音素発音辞書生成手段12と、音素列単語リスト記憶手段13と、音素言語モデル生成手段14と、を備える。
また、音素認識辞書生成装置1は、生成した音素発音辞書50を記憶する音素発音辞書記憶装置5と、生成した音素言語モデル60を記憶する音素言語モデル記憶装置6と、を外部に接続している。もちろん、音素発音辞書記憶装置5および音素言語モデル記憶装置6は、音素認識辞書生成装置1の内部に備える構成としてもよい。また、音素発音辞書記憶装置5および音素言語モデル記憶装置6は、1つの記憶装置で構成してもよい。
【0024】
単語別音素列生成手段10は、発音辞書30と音響モデル40とに基づいて、学習コーパス20の音声(音声コーパス)を強制アライメントすることで、発音辞書30に登録されている見出し語に対応する単語ごとに、音声の音素列を切り分けて単語別音素列を生成するものである。
【0025】
この単語別音素列生成手段10は、学習コーパス20の音声から、音響モデル40に対応する音響特徴量(メル周波数ケプストラム係数等)を抽出する。そして、単語別音素列生成手段10は、発音辞書30と音響モデル40とを用いて、音声の書き起こしテキスト(テキストコーパス)を事前知識とする音声認識を行い、発音辞書30に登録されている文字列(見出し語)に対応して強制アライメントする。これにより、単語別音素列生成手段10は、
図2(b)に示されているように、発音辞書30に登録されている単語に複数存在する発音の音素列に対し、尤も音声に近い発音の音素列を選択し、単語別音素列を生成する。
【0026】
図2は、単語別音素列生成手段10における単語別音素列の生成例を示す。例えば、単語別音素列生成手段10は、学習コーパス20として、「世界一短い東京の橋でイベントが開かれました」の音声データを入力した場合、音響モデル40に対応する音響特徴量を抽出する。
そして、単語別音素列生成手段10は、音声データに対応する
図2(a)に示す学習コーパス20の書き起こしテキスト「世界一 短い 東京 …」を事前知識として、
図2(b)に示す発音辞書30と、音響モデル40と、を用いて音声認識を行う。
【0027】
これによって、単語別音素列生成手段10は、
図2(c)に示すように、単語ごとの音素列(単語別音素列)「s
△e
△k
△a
△i
△i
△ch
△i/m
△i
△j
△i
△k
△a
△i/t
△o:
△ky
△o:/…」(ここで、“
△”はスペースを示す)を生成する。
単語別音素列生成手段10は、生成した単語別音素列を音素列単語生成手段11に出力する。
【0028】
音素列単語生成手段11は、単語別音素列生成手段10で生成された単語別音素列を、単語ごとに1単語のテキストデータ形式に変換した音素列単語を生成するものである。
この音素列単語生成手段11は、単語別音素列の音素間に音素以外の予め定めた文字を挿入することで、個々に分離した音素列を、1単語のテキストデータ形式に変換する。
【0029】
具体的には、音素列単語生成手段11は、音素ごとにスペースを含んだ単語別音素列のスペースを、音素以外の予め定めた文字に置き換えて1つの単語テキストとする。例えば、音素列単語生成手段11は、単語別音素列のスペースを“+”に置き換え、“s
△e
△k
△a
△i
△i
△ch
△i”を“s+e+k+a+i+i+ch+i”等に変換する。
【0030】
音素列単語生成手段11は、スペースを含んだ単語別音素列と、テキスト置換した音素列単語とを対にして、順次、音素発音辞書生成手段12に出力する。また、音素列単語生成手段11は、テキスト置換した音素列単語のみを、順次、音素列単語リスト記憶手段13に書き込む。
【0031】
音素発音辞書生成手段12は、音素列を単語とみなした音素列単語の発音辞書である音素発音辞書を生成するものである。音素発音辞書生成手段12は、
図1に示すように、単語別音素列登録手段120と、組み合わせ音素列登録手段121と、を備える。
【0032】
単語別音素列登録手段120は、単語別音素列と音素列単語とを対として登録した音素発音辞書を生成するものである。単語別音素列登録手段120は、音素列単語生成手段11で生成された音素列単語を見出し語とし、音素列単語と対となる単語別音素列をその見出し語の発音として、音素発音辞書記憶装置5の音素発音辞書50に登録する。
【0033】
なお、単語別音素列登録手段120は、同じ見出し語となる音素列単語に対して、異なる発音の単語別音素列が入力された場合、見出し語に複数の発音を登録する。また、単語別音素列登録手段120は、同じ見出し語となる音素列単語に対して、同じ発音の単語別音素列が入力された場合、登録を行わないこととする。
【0034】
組み合わせ音素列登録手段121は、任意の音素の組み合わせで構成される音素列を単語とみなした見出し語と、その音素列とを対として、音素発音辞書に登録するものである。
具体的には、組み合わせ音素列登録手段121は、
図3に示す音素の例において、すべての音素(
図3の例では、40音素)に対して、予め定めた最大音素数(ここでは、“4”とする)の音素の組み合わせ(40
1+40
2+40
3+40
4通り)の音素列を、音素発音辞書記憶装置5の音素発音辞書50に登録する
【0035】
この組み合わせ音素列登録手段121は、音素列単語生成手段11と同様に、音素を組み合わせた音素列を、1つのテキストデータ形式に変換する。具体的には、組み合わせ音素列登録手段121は、音素を組み合わせた音素列のスペースを音素以外の予め定めた1つのテキスト(ここでは、“+”)に置き換えた単語に変換し、見出し語とする。
【0036】
ここで、
図4を参照して、音素発音辞書生成手段12が音素発音辞書記憶装置5に登録する音素発音辞書50の例について説明する。
図4に示すように、音素発音辞書50は、単語別音素列登録手段120で登録される辞書Aと、組み合わせ音素列登録手段121で登録される辞書Bとで構成される。
辞書Aは、学習コーパス20の書き起こしに含まれる単語の発音を示す単語音素列のスペース部分を“+”に置き換えた単語別音素列を見出し語とし、スペースを含んだ音素列(単語別音素列)を見出し語に対応する発音表記とする。
【0037】
辞書Bは、すべての音素の予め定めた最大音素数の組み合わせにおいて、音素列のスペース部分を“+”に置き換えた組み合わせ音素列を見出し語とし、スペースを含んだ音素列を見出し語に対応する発音表記とする。これによって、学習コーパス20に含まれていない音素の組み合わせであっても、音素発音辞書50内に見出し語と発音表記とが登録される。
図1に戻って、音素認識辞書生成装置1の構成について説明を続ける。
【0038】
音素列単語リスト記憶手段13は、音素列単語生成手段11で生成される音素列単語を、音素列単語リストとして記憶するものである。音素列単語リスト記憶手段13は、半導体メモリ、ハードディスク等の一般的な記憶装置で構成することができる。
【0039】
図5に、音素列単語リスト記憶手段13に記憶される音素列単語リスト130の例を示す。
図5に示すように、音素列単語リスト130は、音素列単語生成手段11で生成した単語別音素列のスペースを“+”に置き換えた音素列単語を逐次記憶したものである。
この音素列単語リスト130には、学習コーパス20の書き起こしに含まれる単語の音素列を1つの単語として順次書き込まれる。
【0040】
音素言語モデル生成手段14は、音素列単語リスト記憶手段13に記憶されている音素列単語リスト130から、音素言語モデルを学習により生成するものである。
音素言語モデルは、任意の音素列単語の単語列において、それが文である確率(尤度)を付与する確率モデル(統計的言語モデル)である。この音素言語モデルは、例えば、N−gram言語モデルであって、以下の式(1)に示すように、音素列単語の列w
1w
2…w
i−1の後にi番目の音素列単語w
iが出現する条件付き確率(Nグラム確率)を与えるモデルである。なお、桁あふれを防止するため、式(1)の尤度を対数とし、対数尤度とすることが好ましい。
【0042】
例えば、学習コーパスの書き起こしで「東京の橋で」という単語列が存在する場合、音素言語モデル生成手段14は、音素列単語リスト130として生成される「t+o:+ky+o:」、「n+o」、「h+a+sh+i」、「d+e」の音素列単語からなる「t+o:+ky+o:
△n+o
△h+a+sh+i
△d+e」という学習テキストでN−gram言語モデルを学習する。
【0043】
なお、音素言語モデル生成手段14は、学習テキストとして音素列単語リスト130に現れない音素列単語の連鎖には、一般的なスムージング手法によってNグラム確率を与える。音素言語モデル生成手段14は、スムージング手法として、例えば、バックオフスムージング(back-off smoothing)を用いることができる。バックオフスムージングは、学習テキストに出現しない音素列単語の連鎖のNグラム確率を、連鎖数の少ない音素列単語の連鎖に与えられているNグラム確率から推定するものである。
【0044】
これによって、音素言語モデル生成手段14は、すべての音素の組み合わせを含んだ音素発音辞書50に登録されている見出し語の音素列単語の連鎖に、Nグラム確率を付与することができる。
音素言語モデル生成手段14は、生成した音素言語モデルを音素言語モデル記憶装置6に書き込み記憶する。
【0045】
図6に、音素言語モデル記憶装置6に記憶される音素言語モデル60の例を示す。ここでは、N−gram言語モデルとして、2−gram言語モデルの例を示す。
図6に示すように、音素言語モデル60は、2つの音素列単語w
1,w
2に対して、Nグラム確率(logP(w
2|w
1))を対応付けたものである。
【0046】
以上説明したように音素認識辞書生成装置1を構成することで、音素認識辞書生成装置1は、発話音声から音素を認識するための辞書として、音素発音辞書および音素言語モデルを生成することができる。このように生成された音素発音辞書および音素言語モデルは、音素認識を行う際に、単に音素の前後の依存性だけではなく、音素の単語内および単語間における音素列の依存性を加味して、音素認識の精度を高めることができる。
なお、音素認識辞書生成装置1は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音素認識辞書生成プログラム)で動作させることができる。
【0047】
〔音素認識辞書生成装置の動作〕
次に、
図7を参照(構成については適宜
図1参照)して、本発明の第1実施形態に係る音素認識辞書生成装置1の動作について説明する。
【0048】
ステップS1において、単語別音素列生成手段10は、学習コーパス20の音声から音響特徴量を抽出し、発音辞書30と音響モデル40を用いて、学習コーパス20の音声の書き起こしテキストを事前知識とする音声認識を行い、発音辞書30に登録されている見出し語に対応して強制アライメントした単語別音素列を生成する。
【0049】
ステップS2において、音素列単語生成手段11は、ステップS1で生成した単語別音素列の音素間のスペースを音素以外の予め定めた1つのテキスト(例えば、“+”)に置き換えて、音素列単語を生成する。これによって、以降の動作において、単語別音素列を、スペースのない、1つの単語テキストとして扱うことが可能になる。
【0050】
ステップS3において、音素列単語生成手段11は、ステップS2で生成した音素列単語を、順次、音素列単語リスト記憶手段13に書き込み記憶する。これによって、音素列単語リスト記憶手段13には、学習コーパス20の音声に対応する音素列を単語ごとにテキスト化した音素列単語リスト130が記録される。
【0051】
ステップS4において、音素発音辞書生成手段12は、単語別音素列登録手段120によって、ステップS2で生成した音素列単語を見出し語とし、ステップS1で生成した単語別音素列をその見出し語に対応する発音表記として、音素発音辞書記憶装置5の音素発音辞書50に登録する(
図4の辞書A参照)。
【0052】
ステップS5において、単語別音素列生成手段10は、学習コーパス20の音声についてすべて入力が終了したか否かを判定する。ここで、学習コーパス20の入力が終了していない場合(ステップS5でNo)、音素認識辞書生成装置1は、ステップS1に動作を戻す。
一方、学習コーパス20の入力が終了した場合(ステップS5でYes)、音素認識辞書生成装置1は、ステップS6に動作を進める。
【0053】
ステップS6において、音素発音辞書生成手段12は、組み合わせ音素列登録手段121によって、任意の音素の組み合わせで構成される音素列を単語とみなした見出し語と、その音素列とを対として、音素発音辞書記憶装置5の音素発音辞書50に登録する(
図4の辞書B参照)。これによって、学習コーパス20からは抽出することができない音素の並びに対して、見出し語と発音表記とを割り当てることができる。
【0054】
ステップS7において、音素言語モデル生成手段14は、ステップS3で順次、音素列単語リスト記憶手段13に記憶された音素列単語リスト130から、N−gram言語モデルの音素言語モデル60を生成し、音素言語モデル記憶装置6に記憶する。
【0055】
さらに、ステップS8において、音素言語モデル生成手段14は、音素発音辞書50に登録されている音素の組み合わせから生成された見出し語を含めて、学習コーパスとして音素列単語リスト130に現れない音素列単語の連鎖に対して、スムージング手法によってNグラム確率を与える。これによって、音素言語モデル60を用いて音素認識を行う際に、音素列単語の連結確率が“0”になることを防止することができる。
以上の動作によって、音素認識辞書生成装置1は、音声から音素を認識するための辞書として、音素発音辞書および音素言語モデルを生成する。
【0056】
<第2実施形態>
〔音素認識装置〕
次に、
図8を参照して、本発明の第2実施形態に係る音素認識装置200について説明する。
【0057】
音素認識装置200は、音響モデルと、音素認識辞書生成装置1で生成した音素発音辞書および音素言語モデルとを用いて、音声データから音素を認識するものである。この音素認識装置200は、音響モデル記憶装置4、音素発音辞書記憶装置5および音素言語モデル記憶装置6にそれぞれ記憶されている音響モデル40、音素発音辞書50および音素言語モデル60を用いて、音声データから音素を認識する。
【0058】
音響モデル40は、
図1で説明した音響モデルと同じであって、大量の音声データから予め学習した音素ごとの音響特徴量をディープニューラルネットワーク(DNN)によってモデル化したものである。
【0059】
音素発音辞書50は、
図1で説明した音素認識辞書生成装置1で生成されたものである(
図4参照)。
音素言語モデル60は、
図1で説明した音素認識辞書生成装置1で生成されたものである(
図6参照)。
【0060】
音素認識装置200は、
図8に示すように、認識手段201と、音素列生成手段202と、を備える。
【0061】
認識手段201は、音響モデル40と、音素発音辞書50と、音素言語モデル60とを用いて、音声データから音素列を認識するものである。
この認識手段201は、外部から入力される音声データから音響特徴量を抽出し、音響モデル40と音素発音辞書50とから音素列単語の候補をリストアップする。そして、認識手段201は、その候補の中で、音素言語モデル60に基づく接続確率が最大となる音素列単語を認識結果とする。
【0062】
具体的には、認識手段201は、音素列単語列w
1,w
2,…,w
nで、以下の式(2)に示す、w
n−1の次にw
nが出現する確率(事後確率)P(w
n|w
n−1)の接続確率が最大となる音素列単語列を認識する。
【0064】
このように、認識手段201は、一般的な音声認識が発音辞書に登録されている単語単位で音声を認識するのに対し、音素発音辞書50に登録されている単語とみなした音素列単語単位で音声を認識する。
認識手段201は、認識した音素列単語を、順次、音素列生成手段202に出力する。
【0065】
音素列生成手段202は、認識手段201で認識された1単語のテキストデータ形式である音素列単語から音素列を生成するものである。
具体的には、音素列生成手段202は、音素列単語から、音素以外の予め定めた文字(ここでは、“+”)をスペースに置き換えて、音素列を生成する。例えば、音素列生成手段202は、音素列単語“s+e+k+a+i+i+ch+i”を音素列“s
△e
△k
△a
△i
△i
△ch
△i”に変換して出力する。
この音素列生成手段202が行う変換処理は、
図1で説明した音素列単語生成手段11の変換処理の逆変換に相当する。
【0066】
以上説明したように音素認識装置200を構成することで、従来、音響モデルにおけるトライフォンHMMにより文脈として前後の音素の依存性で認識をしていた音素認識に対し、音素認識装置200は、単語の繋がりを用いた、より長い文脈の依存性を考慮して音素認識を行う。
【0067】
これによって、音素認識装置200は、従来よりも精度よく音素認識を行うことができる。具体的には、従来技術の課題で説明したように、従来の音素認識の音素異なり率が22.8%であったのに対し、音素認識装置200は、音素異なり率を1.2%に改善することができた。
なお、音素認識装置200は、図示を省略したコンピュータを、前記した各手段として機能させるプログラム(音素認識プログラム)で動作させることができる。
【0068】
以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
ここでは、音素発音辞書50の見出し語と音素言語モデル60の接続対象とを、音素列単語生成手段11(
図1参照)が生成した単語別音素列のスペースを“+”とした音素列単語とすることで、1単語分の音素列を1つの単語として扱うこととした。
【0069】
しかし、音素列を1単語とみなす手法は、これに限定されるものではない。例えば、1単語分の音素列の末尾に音素以外の予め定めた文字(例えば、“¥”)を付加することとしてもよいし、単語分の音素列の前後に音素以外の予め定めた文字(例えば、“<”,“>”)を付加することとしてもよい。
この場合も、音素列生成手段202(
図8参照)は、音素列単語生成手段11(
図1参照)が行った処理の逆変換を行えばよい。
【0070】
また、ここでは、音素言語モデル生成手段14が生成する音素言語モデル60として、2−gram言語モデルを例示した。
しかし、音素言語モデル生成手段14は、N−gram言語モデルであれば、1−gram言語モデル、3−gram言語モデル等であっても構わない。