【文献】
伊藤彰則 他,"日本語音声による話者適応を用いた英語韻律学習システム",電子情報通信学会技術研究報告,2002年 6月20日,Vol.102,No.159,pp.19-24
【文献】
小笠原洋一 他,"バイリンガル話者音声に基づく二言語混合音響モデルの話者適応法の検討",情報処理学会研究報告,2003年12月19日,Vol.2003,No.124,pp.85-90
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0025】
以下、音響モデル生成装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0026】
(実施の形態1)
本実施の形態において、他言語の第一の音響モデルである他言語旧音響モデルと他言語の第二の音響モデルである他言語新音響モデルとを用いて、対象言語の第一の音響モデルである対象言語旧音響モデルから、対象言語の第二の音響モデルである対象言語新音響モデルを生成する音響モデル生成装置について説明する。なお、対象言語とは、音響モデル生成装置が生成する音響モデルの言語であり、当該音響モデルを用いて音声認識される音声の言語である。また、対象言語は後述する「Target Language」と同意義であり、他言語は後述する「Source Language」と同意義である。また、他言語とは、生成する音響モデルの対象言語とは異なる言語である。さらに、他言語は、1または2以上の言語である。
【0027】
また、他言語旧音響モデルは、例えば、適応処理を施す前の他言語の音響モデルである。また、他言語旧音響モデルは、他言語新音響モデルとは異なるデータで生成した音響モデルでも良い。また、他言語新音響モデルは、例えば、適応処理を施した後の他言語の音響モデルである。また、他言語新音響モデルは、例えば、他言語旧音響モデルとは異なるデータで生成した音響モデルでも良い。また、対象言語旧音響モデルは、例えば、適応処理を施す前の対象言語の音響モデルである。また、対象言語旧音響モデルは、例えば、他言語旧音響モデルと類似するデータで生成した音響モデルでも良い。対象言語新音響モデルは、例えば、適応処理を施した後の対象言語の音響モデルである。ここで、適応処理とは、通常、一の言語の音声認識のために利用する音響モデルに対して、当該一の言語の蓄積音声を用いてパラメータ変換を行う処理である。蓄積音声は、音声認識を行う環境において蓄積された一の言語の音声であることは好適である。適応処理は、非特許文献1等に記載されている従来技術であるので、詳細な説明を省略する。
【0028】
また、他言語旧音響モデルは、例えば、読み上げ音声の他言語の音響モデルであり、他言語新音響モデルは、例えば、話し言葉音声の他言語の音響モデルであっても良い。また、対象言語旧音響モデルは、例えば、読み上げ音声の対象言語の音響モデルであり、対象言語新音響モデルは、例えば、話し言葉音声の対象言語の音響モデルであっても良い。
【0029】
さらに具体的には、本実施の形態において、1以上の他言語旧音響モデルと1以上の他言語新音響モデルとの相関関係を示す1以上の第一相関情報を用いて、対象言語旧音響モデルから、対象言語新音響モデルを生成する音響モデル生成装置について説明する。
【0030】
なお、音響モデルとは、音声認識を行う音声の音響的特徴をモデル化したものであり、例えば、隠れマルコフモデル(HMM)を用い、HMMの各状態の出力確率分布をガウス混合分布(GMM)で表現する。音響モデルの持つ情報(パラメータ)には、例えば、音素等のシンボル毎のHMMの状態間の状態遷移確率、各状態のGMMにおけるガウス分布の平均、分散がある。通常、音声認識では音声認識を行う特徴ベクトルとして、音声を周波数解析し得られる数十〜数百次元の特徴ベクトルを用いることが一般的であるので、ガウス分布の平均、分散は数十〜数百次元のベクトルとなる。
【0031】
図1は、本実施の形態における音響モデル生成装置1のブロック図である。音響モデル生成装置1は、対象言語新音響モデル格納部11、音響モデル生成部12、音響モデル蓄積部13を備える。
【0032】
また、音響モデル生成部12は、対象言語旧音響モデル格納部121、他言語旧音響モデル格納部122、他言語新音響モデル格納部123、第一相関情報格納部124、第一相関情報生成手段125、音響モデル生成手段126を備える。
【0033】
対象言語新音響モデル格納部11は、対象言語新音響モデルを格納し得る。
【0034】
音響モデル生成部12は、1または2以上の言語の1または2以上の他言語旧音響モデルと、1または2以上の言語の1または2以上の他言語新音響モデルとを用いて、対象言語旧音響モデルまたは1または2以上の他言語新音響モデルから、対象言語新音響モデルを生成する。
【0035】
また、さらに具体的には、音響モデル生成部12は、1または2以上の他言語旧音響モデルと1または2以上の他言語新音響モデルとの関係に関する情報である1または2以上の第一相関情報、または1または2以上の他言語旧音響モデルと対象言語旧音響モデルとの関係に関する情報である1または2以上の第二相関情報のうちの、いずれか1または2以上の相関情報を用いて、対象言語旧音響モデルまたは1または2以上の他言語新音響モデルから、対象言語新音響モデルを生成する。なお、第一相関情報は、1以上の各他言語旧音響モデルに対応する1以上の各ベクトルと1以上の各他言語新音響モデルに対応する1以上の各ベクトルとの差である1以上の変換関数から取得される情報である、とも言える。また、第二相関情報は、1以上の各他言語旧音響モデルに対応するベクトルと対象言語旧音響モデルに対応するベクトルとの差の1以上の変換関数から取得される情報である、とも言える。
【0036】
また、音響モデル生成部12は、対象言語旧音響モデルに対応するベクトルを第一相関情報の変換関数を用いて写像することにより対象言語新音響モデルを生成しても良い。
【0037】
さらに、本実施の形態において、音響モデル生成部12は、対象言語旧音響モデルから、1または2以上の第一相関情報を用いて、対象言語新音響モデルを生成する場合について説明する。
【0038】
他言語新音響モデルは、他言語旧音響モデルに対して、例えば、適応処理された音響モデルである。
【0039】
音響モデル生成部12を構成する対象言語旧音響モデル格納部121は、対象言語旧音響モデルを格納し得る。
【0040】
他言語旧音響モデル格納部122は、1または2以上の他言語の1または2以上の他言語旧音響モデルを格納し得る。
【0041】
他言語新音響モデル格納部123は、1または2以上の1または2以上の他言語新音響モデルを格納し得る。
【0042】
第一相関情報格納部124は、1または2以上の第一相関情報を格納し得る。第一相関情報は、他言語旧音響モデル格納部122に格納されている他言語旧音響モデルと、他言語新音響モデル格納部123に格納されている他言語新音響モデルとの関係に関する情報である。ここで、関係に関する情報とは、通常、2つの音響モデルの差分についての情報である。つまり、第一相関情報は、通常、他言語旧音響モデルが有するベクトルと他言語新音響モデルが有するベクトルとの差を示すベクトルである。なお、ベクトルは、パラメータ集合である。なお、上記の関係に関する情報は、2つの音響モデルの関係を示す情報であれば良い。
【0043】
第一相関情報生成手段125は、1または2以上の他言語旧音響モデルと1または2以上の他言語新音響モデルとを用いて、1または2以上の第一相関情報を生成する。具体的には、第一相関情報生成手段125は、例えば、他言語旧音響モデルが有するベクトルと他言語新音響モデルが有するベクトルとの差を算出し、第一相関情報に対応するベクトルを取得する。
【0044】
音響モデル生成手段126は、1または2以上の第一相関情報を用いて、対象言語旧音響モデル格納部121に格納されている対象言語旧音響モデルから対象言語新音響モデルを生成する。音響モデル生成手段126は、例えば、対象言語旧音響モデルに対応するベクトルに、第一相関情報であるベクトルを加えて、新しいベクトルである対象言語新音響モデルを取得する。
【0045】
音響モデル蓄積部13は、音響モデル生成部12が生成した対象言語新音響モデルを対象言語新音響モデル格納部11に蓄積する。
【0046】
対象言語新音響モデル格納部11、対象言語旧音響モデル格納部121、他言語旧音響モデル格納部122、他言語新音響モデル格納部123、および第一相関情報格納部124は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0047】
対象言語新音響モデル格納部11等に対象言語新音響モデル等が記憶される過程は問わない。例えば、記録媒体を介して対象言語新音響モデル等が対象言語新音響モデル格納部11等で記憶されるようになってもよく、通信回線等を介して送信された対象言語新音響モデル等が対象言語新音響モデル格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された対象言語新音響モデル等が対象言語新音響モデル格納部11等で記憶されるようになってもよい。
【0048】
音響モデル生成部12、第一相関情報生成手段125、音響モデル生成手段126、および音響モデル蓄積部13は、通常、MPUやメモリ等から実現され得る。音響モデル生成部12の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0049】
次に、音響モデル生成装置1の動作について、
図2のフローチャートを用いて説明する。
【0050】
(ステップS201)第一相関情報生成手段125は、他言語旧音響モデル格納部122から他言語旧音響モデルを取得する。
【0051】
(ステップS202)第一相関情報生成手段125は、他言語新音響モデル格納部123から他言語新音響モデルを取得する。
【0052】
(ステップS203)第一相関情報生成手段125は、ステップS201で取得した他言語旧音響モデルに対応するベクトル(μ
sI)とステップS202で取得した他言語新音響モデルに対応するベクトル(μ
sR)との差分を示す情報である第一相関情報(例えば、V
s=μ
sR−μ
sI)を算出する。
【0053】
(ステップS204)第一相関情報生成手段125は、ステップS203で算出した第一相関情報(V
s)を、第一相関情報格納部124に蓄積する。
【0054】
(ステップS205)音響モデル生成手段126は、音響モデルを生成するか否かを判断する。音響モデルを生成する場合はステップS206に行き、音響モデルを生成しない場合はステップS205に戻る。なお、例えば、ユーザ指示の受け付けにより音響モデルを生成しても良いし、第一相関情報の蓄積等をトリガーとして音響モデルを生成しても良い。
【0055】
(ステップS206)音響モデル生成手段126は、対象言語旧音響モデル格納部121から対象言語旧音響モデルを取得する。
【0056】
(ステップS207)音響モデル生成手段126は、第一相関情報格納部124から第一相関情報(V
s)を取得する。
【0057】
(ステップS208)音響モデル生成手段126は、ステップS206で取得した対象言語旧音響モデルに対して、ステップS207で取得した第一相関情報を適用し、対象言語新音響モデルを生成する。音響モデル生成手段126は、例えば、対象言語旧音響モデルに対応するベクトル(μ
tI)に、第一相関情報(V
s)を加え、対象言語新音響モデル(μ
tR=μ
tI+V
s)を取得する。
【0058】
(ステップS209)音響モデル蓄積部13は、ステップS208で生成された新音響モデル(μ
tR)を、対象言語新音響モデル格納部11に蓄積し、処理を終了する。
【0059】
なお、
図2のフローチャートにおいて、他言語が一つの場合について説明したが、他言語が2以上でも良い。かかる場合、第一相関情報生成手段125は、2以上の他言語の2以上の第一相関情報を生成する。また、音響モデル生成手段126は、2以上の第一相関情報を用いて、対象言語旧音響モデルから対象言語新音響モデルを生成する。
【0060】
また、
図2のフローチャートのステップS205は無くても良い。つまり、第一相関情報の蓄積の後、直ちに音響モデルの生成処理を行なっても良いことは言うまでもない。
【0061】
以下、本実施の形態における音響モデル生成装置1の具体的な動作について説明する。
【0062】
まず、音響モデル生成装置1の動作の概念を説明する。
図3は、音響モデル生成装置1の動作を説明する概念図である。音響モデル生成装置1は、適応前と適応後のモデルの相関関係を利用し、音響モデルを生成する。
【0063】
音響モデル生成装置1の図示しない第二音響モデル生成手段は、他言語(Source Language)の音響モデル生成用音声(source)301から、音声モデル生成処理302により、他言語旧音響モデル303を生成する。他言語旧音響モデル303は、
図3の「Lab AM(source)」である。なお、音声モデル生成処理302は公知技術であるので詳細な説明を省略する。次に、音響モデル生成装置1の図示しない適応処理手段は、蓄積音声(source)304を用いた適応処理(音響モデル生成(適応))305により、他言語旧音響モデル303から他言語新音響モデル306を生成する。他言語新音響モデル306は、
図3の「Fld AM(source)」である。そして、第一相関情報生成手段125は、他言語旧音響モデル303と他言語新音響モデル306との差分である第一相関情報f(307)を算出する。
【0064】
次に、音響モデル生成装置1の図示しない第二音響モデル生成手段は、対象言語(Target Language)の音響モデル生成用音声(target)308から、音声モデル生成処理309により、対象言語旧音響モデル310を生成する。対象言語旧音響モデル310は、
図3の「Lab AM(target)」である。ここで、対象言語の蓄積音声(target)311は存在しない時、対象言語旧音響モデル310に対して音響モデル生成(適応)312の処理は行えない。つまり、
図3の破線は、存在しないデータまたは行えない処理を示す。そして、音響モデル生成手段126は、対象言語旧音響モデル310に対して、第一相関情報f(313)を適用し、対象言語新音響モデル314を生成する。この生成した対象言語新音響モデルが作りたいモデルである。また、
図3の対象言語新音響モデル314は、「Fld AM(target)」である。
【0065】
以下、音響モデル生成部12の処理について、2つの具体例および実験結果について説明する。
【0066】
(具体例1)
まず、
図4を用いて、音響モデル生成部12の処理を簡潔に説明する。具体例1において、音声のある一つの状態が2次元の正規分布でモデル化されるものとし、正規分布の平均のみを適応する場合について説明する。
【0067】
今、他言語(Source Language)のベースラインモデルS
Iを、平均「μ
sI=(1,1/2)」分散σ
sIの2次元正規分布とする。なお、ベースラインモデルS
Iは、他言語旧音響モデルである。また、蓄積音声で適応された他言語の適応モデルS
Rを、平均「μ
sR=(0,1)」、分散σ
sR(=σ
sI)をもつ2次元正規分布とする。なお、適応モデルS
Rは、他言語新音響モデルである。
【0068】
そして、このとき、第一相関情報生成手段125は、適応モデルS
RとベースラインモデルS
Iの平均ベクトルの差分V
s(
図4の41)を以下の式により算出し、「V
s=μ
sR−μ
sI=(1,1/2)」を得る。
【0069】
また、対象言語(Target Language)のベースラインモデルT
Iを、平均「μ
tI=(0,0)」、分散σ
tIをもつ2次元正規分布とする。なお、ベースラインモデルT
Iは、対象言語旧音響モデルである。
【0070】
そして、他言語の平均ベクトルの差分V
sをそのまま用いて適応する場合、音響モデル生成手段126は、平均「μ
tR=μ
tI+V
s=(1,1/2)」、分散σ
tR(=σ
tI)をもつ2次元正規分布を取得し、これを対象言語の適応モデルT
Rとする。なお、適応モデルT
Rは、対象言語新音響モデルである。
【0071】
なお、具体例1において、音声の一の状態を2次元の正規分布でモデル化されている、としたが、2次元の正規分布に限られず、数十次元の混合正規分布等でモデル化されていることはさらに好適である。
【0072】
また、混合正規分布でモデル化されているとも限らず、例えばニューラルネットワークを用いた音響モデルの場合においても、2つの音響モデルの差分である第一相関情報を用いて適応することができる。
【0073】
(具体例2)
具体例2において、音響モデル生成装置1の図示しない適応処理手段は、MAP適応法に基づき、他言語(Source Language)の他言語旧音響モデル(「他言語の初期の音響モデル」とも言える。)と、他言語の蓄積音声を用いて、他言語新音響モデル(「他言語の適応された音響モデル」とも言える。)を生成する。ここで、他言語旧音響モデルのs番目のガウス分布の平均ベクトルをμ
sI、他言語新音響モデルのs番目のガウス分布平均ベクトルをμ
sRとする。
【0074】
MAP適応法では、他言語新音響モデルの平均ベクトルを適応するとき、平均ベクトル(μ
sR)は、他言語旧音響モデルの各平均ベクトル(μ
sI)を、事前分布の平均ベクトルとし、以下の数式1により算出される。
【数1】
【0075】
数式1において、m
sは蓄積音声から得られるs番目のガウス分布の最尤推定値である。nは、対応するガウス分布に関する蓄積音声から得られる学習サンプルの総数である。また、τは、事前分布と蓄積音声から得られるサンプルとの相対的なバランスを調整するパラメータである。
【0076】
そして、具体例2において、以下のように差分ベクトルを求める。具体例2における処理の概念を
図5に示す。
【0077】
第一相関情報生成手段125は、他言語旧音響モデル(μ
sI)と他言語新音響モデルを(μ
sR)との差である第一相関情報(V
s)を、数式2に示すように算出する。この第一相関情報(V
s)は、他言語の平均ベクトルの遷移ベクトルである。
【数2】
【0078】
ここで、s∈K
1(K
1は、他言語のトレーニングデータのガウス分布セットである。)
【0079】
第一相関情報生成手段125は、数式1の平均ベクトル(μ
sR)を数式2に代入することにより、遷移ベクトルである第一相関情報を算出する(数式3参照)。
【数3】
【0080】
数式3において、MAP適用法により得られる遷移ベクトル(V
s)は、「V
sML=(m
s−μ
sI)」と表され、最尤(ML)推定により算出される。
【0081】
また、以下の数式4において、MAP適用法による遷移ベクトルは、重み係数によるML推定を用いて修正された遷移ベクトル(V
sML)によって得られることを示している。なお、重み係数は、学習サンプルの総数nに依存する。
【数4】
【0082】
次に、他言語と同様に、対象言語旧音響モデル(「対象言語の初期のモデル」とも言える。)のガウス分布の平均ベクトルは、音響モデル学習により生成される。
【0083】
ここで、対象言語旧音響モデルのガウス分布のt番目の平均ベクトルをμ
tIとする。なお、ここで、対象言語の適応処理のための蓄積音声のデータが存在しないので、対象言語の各ガウス分布の遷移ベクトルは、他言語の遷移ベクトルによって推定される。
【0084】
対象言語の遷移ベクトル(μ
tI)におけるtは、「t∈K
2」である。ここで、K
2は、対象言語のガウス分布セットである。μ
tIの中の遷移ベクトル(V
t)は、学習された遷移ベクトルV
sの以下の数式5により補間される。
【数5】
【0085】
数式5において、N(t)は、ベクトル(μ
tI)のKの近傍にあるガウス分布のセットである。λ
t,skは、重み係数であり、μ
tIとμ
skIとの距離に依存する。ベクトル(μ
tI)に遷移ベクトルV
tが加算され、ベクトル(μ
tR)が取得される(数式6参照)。数式5において、s
kは、k番目のs[s∈K
1(K
1は、他言語のトレーニングデータのガウス分布セットである。)]である。
【数6】
【0086】
なお、例えば、Kの近接するガウス分布のセットは、従来技術であるKullback-Leibler divergence (KL-divergence)(「S. Kullback, and R. A. Leibler, "On information and sufficiency," Annals of Mathematical Statistics, vol. 22, no. 1, pp. 79-86, 1951. 」参照)により取得される。
【0087】
また、重み係数(λ
a,b)は、例えば、以下の数式7により算出される。
【数7】
【0088】
数式7において、d
a,bは、KL-divergenceに基づいて算出される、ベクトル(μ
aI)とベクトル(μ
bR)との距離であり、fは重み調整のためのパラメータである。
(実験)
【0089】
以下、実験結果について説明する。本実験では、上記の具体例2の方法で動作する音響モデル生成装置1を用いた。また、本実験において、他言語は日本語であり、対象言語はインドネシア語である。つまり、日本語の適応処理前の音響モデル、日本語の適応処理後の音響モデル、およびインドネシア語の適応処理前の音響モデルが、予め存在する。
【0090】
各言語の評価のためのテストデータの量について、
図6に示す。本実験において、2つの発話データを用いた。一つは、旅行会話基本表現コーパス(BTEC)であり、他は現実の環境で記録された音声データ(VTlog)である。BTECは、クリーンな環境で取得された旅行会話基本表現の音声データである。なお、クリーンな環境で取得された音声データとは、例えば、録音室で収録した音声データ、原稿を読上げた際に取得された音声データ等である。また、VTlogは、VoiceTra(URL「http://mastar.jp/translation/index.html」参照)により記録された音声データであり、ノイズを含んだ音声データや、種々の発話スタイルの音声データを含む。また、
図6において、「時間」は記録時間(単位:時間)、「発話」は発話数を示す。
【0091】
また、
図7は、各言語の学習、および適応処理に使用されたデータの総量を示す表である。学習データは、実験室で発話した音声データ(
図7の「学習」の列のデータ)、および実環境で発話した音声データであり、VoiceTraにより記録された音声データ(
図7の「適応処理(VTlog)」の列のデータ)を含む。音響モデルは、各言語の学習データにより学習された3状態のLeft−to−Right、性別非依存HMMである。また、状態数はインドネシア語が5000状態、日本語が500状態であり、状態共有手法として、決定木ベースのクラスタリング手法を使用した。また、インドネシア語に対して、状態ごとに4つのガウス分布を使用し、日本語に対して、状態ごとに16のガウス分布を使用した。
【0092】
また、各言語の言語モデル(LMs)は、BTECコーパスを用いて学習した。
【0093】
図8は、実験結果を示す。BTECの単語誤り率(WER)は、日本語では17.74%であり、インドネシア語では15.97%であった。
【0094】
一方、学習モデルとテスト音声が大きく異なるため、VTlogのWERは、日本語では37.75%、インドネシア語では55.31%であった。この実験結果により、学習モデルとテスト音声の不整合によって精度の低下が引き起こされることが分かる。
【0095】
次に、上記ミスマッチを低減するために、VoiceTraによって記録された音声データである、日本語の実発話環境での蓄積音声を用いて、日本語の音響モデルに対してMAP適応を行った。
図9は、適応実験の結果を示す。VTlogのWERは24.66%となり、ベースライン(37.75%)と比較して大幅に改善された。このことは、実発話と整合する音声データを用いて音響モデルを適応させることの効果を示す。
【0096】
次に、上記の具体例2の方法について評価した。評価において、パラメータを実験的に「τ=10」「f=3」「k<=10」と決定した。
図10は、実験結果を示す。VTlogのWERは55.31%から50.40%に改善し、誤り削減率(ERR)8.9%を達成した(
図10の「Proposed」の行を参照のこと)。この結果は、以下の我々の仮説を検証したことになる。我々の仮説は、他言語(ここでは日本語)の遷移ベクトルによって推定された遷移ベクトルを対象言語(ここではインドネシア語)の音響モデルに適用し、認識精度を改善することである。これにより、音響モデル生成装置1の方法は、実発話に関する対象言語(ここではインドネシア語)の蓄積音声用いず、対象言語の音響モデルを実発話環境へ適応する。
【0097】
なお、具体例2において、音声の一の状態を混合正規分布とし、その平均をMAP適応法に基づき適応することで、他言語新音響モデルを生成するとしたが、平均以外の音響モデルのパラメータ、例えば正規分布の分散、HMMの状態遷移確率などの他のパラメータも同様に適応可能である。また、音響モデルは混合正規分布でモデル化されているとも限らず、例えばニューラルネットワークを用いた音響モデルの場合においても、2つの音響モデルの差分である第一相関情報を用いて適応することができる。
【0098】
以上、本実施の形態によれば、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。
【0099】
また、本実施の形態によれば、他言語の適応処理前の音響モデルと他言語の適応処理後の音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。
【0100】
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における音響モデル生成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、対象言語とは異なる1以上の各他言語の第一の音響モデルである1以上の各他言語旧音響モデルと前記1以上の各他言語の第二の音響モデルである1以上の各他言語新音響モデルとの関係に関する情報である第一相関情報、または前記1以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である第二相関情報のうちの、いずれか1以上の相関情報を用いて、対象言語旧音響モデルまたは1以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、前記音響モデル生成部が生成した対象言語新音響モデルを記録媒体に蓄積する音響モデル蓄積部として機能させるためのプログラムである。
【0101】
また、上記プログラムにおいて、前記音響モデル生成部は、対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、第一相関情報を格納し得る第一相関情報格納部と、前記第一相関情報を用いて、前記対象言語旧音響モデル格納部に格納されている対象言語旧音響モデルから対象言語新音響モデルを生成する音響モデル生成手段とを具備するものとして、コンピュータを機能させることは好適である。
【0102】
(実施の形態2)
本実施の形態において、他言語旧音響モデルと対象言語旧音響モデルとを用いて、他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成装置について説明する。
【0103】
さらに具体的には、本実施の形態において、他言語旧音響モデルと対象言語旧音響モデルとの相関関係を示す第二相関情報を用いて、他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成装置について説明する。
【0104】
図11は、本実施の形態における音響モデル生成装置2のブロック図である。音響モデル生成装置2は、対象言語新音響モデル格納部11、音響モデル生成部22、および音響モデル蓄積部13を備える。
【0105】
音響モデル生成部22は、対象言語旧音響モデル格納部121、他言語旧音響モデル格納部122、他言語新音響モデル格納部123、第二相関情報格納部224、第二相関情報生成手段225、および音響モデル生成手段226を備える。
【0106】
音響モデル生成部22は、1または2以上の他言語旧音響モデルと1または2以上の他言語新音響モデルとの関係に関する情報である1または2以上の第一相関情報、または1または2以上の他言語旧音響モデルと対象言語旧音響モデルとの関係に関する情報である1または2以上の第二相関情報のうちの、いずれか1以上の相関情報を用いて、対象言語旧音響モデルまたは他言語新音響モデルから、対象言語新音響モデルを生成する。音響モデル生成部22は、他言語新音響モデル格納部122に格納されている1以上の他言語新音響モデルから第二相関情報の変換関数を用いて写像することにより他言語新音響モデルを生成しても良い。
【0107】
さらに、本実施の形態において、音響モデル生成部22は、1または2以上の他言語新音響モデルから、1または2以上の第二相関情報を用いて、対象言語新音響モデルを生成する場合について説明する。
【0108】
第二相関情報格納部224は、1または2以上の第二相関情報を格納し得る。第二相関情報は、他言語旧音響モデルと対象言語旧音響モデルとの関係に関する情報である。ここで、関係に関する情報とは、通常、2つの音響モデルの差分についての情報である。つまり、第二相関情報は、通常、他言語旧音響モデルに対応するベクトルと対象言語旧音響モデルに対応するベクトルとの差を示すベクトルである。なお、ベクトルは、パラメータ集合である。第二相関情報の構造は、第一相関情報の構造と同じで良い。
【0109】
第二相関情報生成手段225は、1または2以上の各他言語旧音響モデルと対象言語旧音響モデルとを用いて、1または2以上の第二相関情報を生成する。具体的には、第二相関情報生成手段225は、例えば、1または2以上の各他言語旧音響モデルに対応するベクトルと対象言語旧音響モデルに対応するベクトルとの差を算出し、1または2以上の各第二相関情報に対応するベクトルを取得する。
【0110】
音響モデル生成手段226は、1または2以上の各第二相関情報を用いて、他言語新音響モデル格納部123に格納されている他言語新音響モデルから対象言語新音響モデルを生成する。音響モデル生成手段126は、例えば、他言語新音響モデルに対応するベクトルに、第二相関情報であるベクトルを加えて、新しいベクトルである対象言語新音響モデルを取得する。
【0111】
音響モデル生成部22、第二相関情報生成手段225、および音響モデル生成手段226は、通常、MPUやメモリ等から実現され得る。音響モデル生成部22等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0112】
第二相関情報格納部224は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。第二相関情報格納部224に第二相関情報が記憶される過程は問わない。例えば、記録媒体を介して第二相関情報が第二相関情報格納部224で記憶されるようになってもよく、通信回線等を介して送信された第二相関情報が第二相関情報格納部224で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された第二相関情報が第二相関情報格納部224で記憶されるようになってもよい。
【0113】
次に、音響モデル生成装置2の動作について、
図12のフローチャートを用いて説明する。
【0114】
(ステップS1201)第二相関情報生成手段225は、他言語旧音響モデル格納部122から他言語旧音響モデルを取得する。
【0115】
(ステップS1202)第二相関情報生成手段225は、対象言語旧音響モデル格納部121から対象言語旧音響モデルを取得する。
【0116】
(ステップS1203)第二相関情報生成手段225は、ステップS1201で取得した他言語旧音響モデルに対応するベクトル(μ
sI)とステップS1202で取得した対象言語旧音響モデルに対応するベクトル(μ
tI)との差分を示す情報である第二相関情報(例えば、V
I=μ
tI−μ
sI)を算出する。
【0117】
(ステップS1204)第二相関情報生成手段225は、ステップS1203で算出した第二相関情報(V
I)を、第二相関情報格納部224に蓄積する。
【0118】
(ステップS1205)音響モデル生成手段226は、音響モデルを生成するか否かを判断する。音響モデルを生成する場合はステップS1206に行き、音響モデルを生成しない場合はステップS1205に戻る。なお、例えば、ユーザ指示の受け付けにより音響モデルを生成しても良いし、第二相関情報の蓄積等をトリガーとして音響モデルを生成しても良い。
【0119】
(ステップS1206)音響モデル生成手段226は、他言語新音響モデル格納部123から他言語新音響モデル(μ
sI)を取得する。
【0120】
(ステップS1207)音響モデル生成手段226は、第二相関情報格納部224から第二相関情報(V
I)を取得する。
【0121】
(ステップS1208)音響モデル生成手段226は、ステップS1206で取得した他言語新音響モデルに対して、ステップS1207で取得した第一相関情報を適用し、対象言語新音響モデルを生成する。音響モデル生成手段126は、例えば、対象言語旧音響モデルに対応するベクトル(μ
sI)に、第二相関情報(V
I)を加算し、対象言語新音響モデル(μ
tR=μ
sI+V
I)を取得する。
【0122】
(ステップS1209)音響モデル蓄積部13は、ステップS1208で生成された新音響モデル(μ
tR)を、対象言語新音響モデル格納部11に蓄積し、処理を終了する。
【0123】
なお、
図12のフローチャートにおいて、他言語が一つの場合について説明したが、他言語が2以上でも良い。かかる場合、第二相関情報生成手段225は、2以上の他言語の2以上の第二相関情報を生成する。また、音響モデル生成手段226は、2以上の第二相関情報を用いて、対象言語旧音響モデルから対象言語新音響モデルを生成する。音響モデル生成手段226は、例えば、2以上の第二相関情報の平均ベクトルを取得し、当該平均ベクトルを対象言語旧音響モデルに対応するベクトルに加算し、対象言語新音響モデルを算出する。
【0124】
また、
図12のフローチャートのステップS1205は無くても良い。つまり、第二相関情報の蓄積の後、直ちに音響モデルの生成処理を行なっても良いことは言うまでもない。
【0125】
以下、本実施の形態における音響モデル生成装置2の具体的な動作について説明する。まず、音響モデル生成装置1の動作の概念を説明する。
図13は、音響モデル生成装置2の動作を説明する概念図である。
【0126】
音響モデル生成装置2は、ここでは、適応前モデルの言語間の相関関係を利用し、音響モデルを生成する。
【0127】
音響モデル生成装置2の図示しない第二音響モデル生成手段は、他言語(Source Language)の音響モデル生成用音声(source)1301から、音声モデル生成処理1302により、他言語旧音響モデル1303を生成する。他言語旧音響モデル1303は、
図13の「Lab AM(source)」である。次に、音響モデル生成装置2の図示しない適応処理手段は、蓄積音声(source)1304を用いた適応処理(音響モデル生成(適応))1305により、他言語旧音響モデル1303から他言語新音響モデル1306を生成する。他言語新音響モデル1306は、
図13の「Fld AM(source)」である。
【0128】
次に、音響モデル生成装置2の図示しない第二音響モデル生成手段は、対象言語(Target Language)の音響モデル生成用音声(target)1307から、音声モデル生成処理1308により、対象言語旧音響モデル1309を生成する。対象言語旧音響モデル1309は、
図13の「Lab AM(target)」である。ここで、対象言語の蓄積音声(target)1310は存在しないので、対象言語旧音響モデル1309に対して音響モデル生成(適応)1311の処理は行えない。つまり、
図13の破線は、存在しないデータまたは行えない処理を示す。
【0129】
そして、第二相関情報生成手段225は、他言語旧音響モデル1303と対象言語旧音響モデル1309とを用いて、第二相関情報g(1312)を生成する。具体的には、第二相関情報生成手段225は、例えば、他言語旧音響モデル1303に対応するベクトルと対象言語旧音響モデル1309に対応するベクトルとの差を算出する。このベクトルの差であるベクトルが第二相関情報gである。
【0130】
次に、音響モデル生成手段226は、対象言語旧音響モデル1309に対して、第二相関情報gを適用し、対象言語新音響モデル1313を生成する。具体的には、音響モデル生成手段226は、対象言語旧音響モデル1309に対応するベクトルに対して、第二相関情報gに対応するベクトルを加算し、対象言語新音響モデル1313を生成する。なお、この生成した対象言語新音響モデルが作りたいモデルである。また、
図13の対象言語新音響モデル1313は、「Fld AM(target)」である。
【0131】
以下、音響モデル生成部22の処理について、さらなる具体例を説明する。
【0132】
(具体例)
ここで、
図14を使用し、音響モデル生成装置2の具体的な動作について説明する。
図14において、他言語(Source Language)のベースラインモデルS
Iを、平均「μ
sI=(0,1/2)」、分散σ
sIの2次元正規分布とする。なお、ベースラインモデルS
Iは、他言語旧音響モデルである。また、蓄積音声で適応された他言語の適応モデルS
Rを、平均「μ
sR=(1,1)」、分散σ
sR(=σ
sI)をもつ2次元正規分布とする。なお、適応モデルS
Rは、他言語新音響モデルである。さらに、対象言語旧音響モデルT
Iを、平均「μ
tR=(0,0)」、分散σ
tR(=σ
tI)をもつ2次元正規分布とする。さらに、対象言語新音響モデルをT
Rとする。なお、他言語旧音響モデル(S
I)、他言語新音響モデル(S
R)、および対象言語旧音響モデル(T
I)は、実施の形態1の具体例1で説明した処理により取得された、とする。
【0133】
かかる状況において、第二相関情報生成手段225は、S
IとT
Iの平均ベクトルの差分(V
I)を「V
I=μ
tI−μ
sI=(0,−1/2)」を取得する。この第二相関情報は、
図14の141の矢印である。
【0134】
次に、音響モデル生成手段226は、この平均ベクトルの差分(V
I)を、他言語新音響モデルに適用し(
図14の142)、平均「μ
tR=μ
sI+V
I=(1,1/2)」、分散σ
tR(=σ
tI)をもつ2次元正規分布を得る。この2次元正規分布が、対象言語の適応モデルT
Rである。T
Rは、対象言語新音響モデルである。
なお、本具体例において、具体例1と同様に、音声の一の状態を2次元の正規分布でモデル化されている、としたが、2次元の正規分布に限られず、数十次元の混合正規分布等でモデル化されていることはさらに好適である。また、混合正規分布でモデル化されているとも限らず、例えばニューラルネットワークを用いた音響モデルの場合においても、2つの音響モデルの差分である第二相関情報を用いて適応することができる。
【0135】
以上、本実施の形態によれば、他言語の適応処理前の音響モデルと対象言語の適応処理前の音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。
【0136】
なお、本実施の形態における音響モデル生成装置2を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、対象言語とは異なる1以上の各他言語の第一の音響モデルである1以上の各他言語旧音響モデルと前記1以上の各他言語の第二の音響モデルである1以上の各他言語新音響モデルとの関係に関する情報である第一相関情報、または前記1以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である第二相関情報のうちの、いずれか1以上の相関情報を用いて、対象言語旧音響モデルまたは1以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、前記音響モデル生成部が生成した対象言語新音響モデルを記録媒体に蓄積する音響モデル蓄積部として機能させるためのプログラムである。
【0137】
また、上記プログラムにおいて、前記音響モデル生成部は、前記他言語新音響モデルを格納し得る他言語新音響モデル格納部と、第二相関情報を格納し得る第二相関情報格納部と、前記第二相関情報を用いて、前記他言語新音響モデル格納部に格納されている他言語新音響モデルから対象言語新音響モデルを生成する音響モデル生成手段とを具備するものとして、コンピュータを機能させることは好適である。
【0138】
(実施の形態3)
本実施の形態において、本実施の形態において、1以上の第一相関情報と1以上の第二相関情報のうちの1以上の相関情報を用いて、対象言語旧音響モデル、または他言語新音響モデル、または対象言語旧音響モデルと他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成装置について説明する。
【0139】
さらに具体的には、本実施の形態において、第一相関情報と第二相関情報の用い方(アルゴリズム)が動的に変化する音響モデル生成装置について説明する。
【0140】
図15は、本実施の形態における音響モデル生成装置3のブロック図である。
【0141】
音響モデル生成装置3は、対象言語新音響モデル格納部11、音響モデル生成部32、および音響モデル蓄積部13を備える。
【0142】
音響モデル生成部32は、対象言語旧音響モデル格納部121、他言語旧音響モデル格納部122、他言語新音響モデル格納部123、第一相関情報格納部124、第一相関情報生成手段125、第二相関情報格納部224、第二相関情報生成手段225、選択手段321、および音響モデル生成手段326を備える。また、選択手段321は、選択情報管理部3211を備える。
【0143】
音響モデル生成部32は、他言語旧音響モデルと他言語新音響モデルとの関係に関する情報である1または2以上の第一相関情報、または他言語旧音響モデルと対象言語旧音響モデルとの関係に関する情報である1または2以上の第二相関情報のうちの、いずれか1以上の相関情報を用いて、対象言語旧音響モデルまたは他言語新音響モデルから、対象言語新音響モデルを生成する。
【0144】
さらに、本実施の形態において、音響モデル生成部32は、1または2以上の第一相関情報と1または2以上の第二相関情報とを用いて、対象言語旧音響モデル、または他言語新音響モデル、または対象言語旧音響モデルと他言語新音響モデルとから、対象言語新音響モデルを生成する。
【0145】
選択手段321は、対象言語新音響モデルを生成する2以上のアルゴリズムのうち、対象言語旧音響モデルまたは他言語新音響モデルが有するデータに応じて、いずれか一のアルゴリズムを選択する。例えば、第一のアルゴリズムは、第一相関情報を用いて、対象言語旧音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。例えば、第二のアルゴリズムは、第二相関情報を用いて、他言語新音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。また、例えば、第三のアルゴリズムは、第一相関情報と第二相関情報とを用いて、対象言語旧音響モデルと他言語新音響モデルとから、対象言語新音響モデルを生成するアルゴリズムである。
【0146】
選択情報管理部3211は、選択手段321がアルゴリズムを決定するための情報である1以上の選択情報を格納し得る。選択情報は、例えば、音素を識別する音素識別子と、アルゴリズムを識別するアルゴリズム識別子の対の情報である。なお、選択情報は、音素より細かい単位で、アルゴリズムを切替える選択情報を有しても良い。また、選択情報は、音素より荒い単位で、アルゴリズムを切替える選択情報を有しても良い。
【0147】
音響モデル生成手段326は、1または2以上の第一相関情報と1または2以上の第二相関情報のうちの1以上の相関情報を用いて、対象言語旧音響モデル、または他言語新音響モデル、または対象言語旧音響モデルと他言語新音響モデルとから、対象言語新音響モデルを生成する。
【0148】
さらに具体的には、音響モデル生成手段326は、選択手段321が選択した一のアルゴリズムに従って、1または2以上の第一相関情報と1または2以上の第二相関情報のうちの1以上の相関情報を用いて、対象言語新音響モデルを生成する。
【0149】
音響モデル生成部32、選択手段321、および音響モデル生成手段326は、通常、MPUやメモリ等から実現され得る。音響モデル生成部32等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0150】
選択情報管理部3211は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。選択情報管理部3211に選択情報が記憶される過程は問わない。例えば、記録媒体を介して選択情報が選択情報管理部3211で記憶されるようになってもよく、通信回線等を介して送信された選択情報が選択情報管理部3211で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された選択情報が選択情報管理部3211で記憶されるようになってもよい。
【0151】
次に、音響モデル生成装置3の動作について、
図16のフローチャートを用いて説明する。
図16のフローチャートにおいて、第一相関情報を第一相関情報格納部124に蓄積する処理、および第二相関情報を第二相関情報格納部224に蓄積する処理は、実施の形態1、2で説明したので、ここでの説明は省略する。
図16のフローチャートにおいて、対象言語旧音響モデルまたは/および他言語新音響モデルから、対象言語新音響モデルを生成する処理について説明する。なお、
図16のフローチャートにおいて、
図2のフローチャートと同一のステップについて、説明を省略する。
【0152】
(ステップS1601)選択手段321は、カウンタiに1を代入する。
【0153】
(ステップS1602)選択手段321は、対象言語旧音響モデルまたは他言語新音響モデルの中に、i番目の処理単位(例えば、i番目の音素)が存在するか否かを判断する。i番目の処理単位が存在すればステップS1603に行き、存在しなければ処理を終了する。
【0154】
(ステップS1603)選択手段321は、対象言語旧音響モデルまたは他言語新音響モデルの中のi番目の処理単位の処理単位識別子(例えば、音素識別子の「a」)を取得する。
【0155】
(ステップS1604)選択手段321は、ステップS1603で取得した処理単位識別子に対応するアルゴリズム識別子を選択情報管理部3211から取得する。
【0156】
(ステップS1605)音響モデル生成手段326は、ステップS1604で取得したアルゴリズム識別子が第一のアルゴリズムであることを示す情報か否かを判断する。第一のアルゴリズムであればステップS206に行き、第一のアルゴリズムでなければステップS1606に行く。なお、第一のアルゴリズムは、ここでは、実施の形態1で説明した、音響モデル生成部12が第一相関情報を用いて、対象言語旧音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。
【0157】
(ステップS1606)音響モデル生成手段326は、ステップS1604で取得したアルゴリズム識別子が第二のアルゴリズムであることを示す情報か否かを判断する。第二のアルゴリズムであればステップS1206に行き、第二のアルゴリズムでなければステップS206に行く。なお、第二のアルゴリズムでない場合は、第三のアルゴリズムである。第二のアルゴリズムは、実施の形態2で説明した、音響モデル生成部22が第二相関情報を用いて、他言語新音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。また、第三のアルゴリズムは、第一相関情報と第二相関情報とを用いて、対象言語旧音響モデルおよび他言語新音響モデルから、対象言語新音響モデルを生成するアルゴリズムである。
【0158】
(ステップS1607)選択手段321は、カウンタiを1インクリメントし、ステップS1602に戻る。
【0159】
(ステップS1608)音響モデル生成手段326は、第一相関情報と第二相関情報とを用いて、対象言語旧音響モデルおよび他言語新音響モデルから、対象言語新音響モデルを生成する。ステップS209に行く。
【0160】
以下、本実施の形態における音響モデル生成装置3の具体的な動作について説明する。ここで、選択情報管理部3211は、
図17に示す選択情報管理表を格納している。選択情報管理表は、「音素識別子」「アルゴリズム識別子」を有するレコードを、2以上、格納している。また、アルゴリズム識別子「1」に対応する音素に対しては上記の第一のアルゴリズムを実行することを意味し、アルゴリズム識別子「2」に対応する音素に対しては上記の第二のアルゴリズムを実行することを意味し、アルゴリズム識別子「3」に対応する音素に対しては上記の第三のアルゴリズムを実行することを意味する。
【0161】
以下、音響モデル生成部32の動作について説明する。まず、選択手段321は、対象言語旧音響モデルの中の1番目の音素の音素識別子「a」を取得した、とする。次に、選択手段321は、音素識別子「a」と対になるアルゴリズム識別子「3」を、選択情報管理表から取得する。
【0162】
そして、音響モデル生成手段326は、アルゴリズム識別子「3」に従って、第三のアルゴリズムを、以下のように実行する。なお、ここでは、実施の形態1の具体例1等と同様に、音響モデルを2次元正規分布である、とする。
【0163】
つまり、音響モデル生成手段326は、第一相関情報格納部124の第一相関情報「V
s=μ
sR−μ
sI=(1,1/2)を取得する。
【0164】
また、音響モデル生成手段326は、対象言語(Target Language)のベースラインモデルT
I(平均μ
tI=(0,0)、分散σ
tI)である2次元正規分布を、対象言語旧音響モデル格納部121から取得する。
【0165】
次に、音響モデル生成手段326は、平均「μ
tR1=μ
tI+V
s=(1,1/2)」、分散σ
tR(=σ
tI)をもつ2次元正規分布を取得する。
【0166】
次に、音響モデル生成手段326は、第二相関情報格納部224の第二相関情報「V
I=μ
tI−μ
sI=(0,−1/2)」を取得する。
【0167】
また、音響モデル生成手段326は、この平均ベクトルの差分(V
I)を、他言語新音響モデルに適用し、平均「μ
tR2=μ
sI+V
I=(1,1/2)」、分散σ
tR(=σ
tI)をもつ2次元正規分布を取得する。
【0168】
次に、音響モデル生成手段326は、「1/2(μ
tR1+μ
tR2)」を実行し、最終的な他言語新音響モデルμ
tRを得る。なお、ここで、音響モデル生成手段326は、μ
tR1とμ
tR2との適用を50%、50%としたが、異なる重みを付けて、音響モデルを生成しても良い。
なお、本具体例において、具体例1と同様に、音声の一の状態を2次元の正規分布でモデル化されている、としたが、2次元の正規分布に限られず、数十次元の混合正規分布等でモデル化されていることはさらに好適である。また、混合正規分布でモデル化されているとも限らず、例えばニューラルネットワークを用いた音響モデルの場合においても、2つの音響モデルの差分である第二相関情報を用いて適応することができる。
【0169】
以上、本実施の形態によれば、他言語の適応処理前の音響モデルと他言語の適応処理後の音響モデルとの相関関係、および他言語の適応処理前の音響モデルと対象言語の適応処理前の音響モデルとの相関関係を利用することにより、発話環境等の適した環境における音声データが存在しない言語でも、当該言語に対応する音響モデルであり、音声認識精度を上げる音響モデルを生成できる。
【0170】
なお、本実施の形態における音響モデル生成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、対象言語とは異なる1以上の各他言語の第一の音響モデルである1以上の各他言語旧音響モデルと前記1以上の各他言語の第二の音響モデルである1以上の各他言語新音響モデルとの関係に関する情報である第一相関情報、または前記1以上の各他言語旧音響モデルと前記対象言語の第一の音響モデルである対象言語旧音響モデルとの関係に関する情報である第二相関情報のうちの、いずれか1以上の相関情報を用いて、対象言語旧音響モデルまたは1以上の他言語新音響モデルから、対象言語新音響モデルを生成する音響モデル生成部と、前記音響モデル生成部が生成した対象言語新音響モデルを記録媒体に蓄積する音響モデル蓄積部として機能させるためのプログラムである。
【0171】
また、上記プログラムにおいて、前記音響モデル生成部は、対象言語旧音響モデルを格納し得る対象言語旧音響モデル格納部と、他言語新音響モデルを格納し得る他言語新音響モデル格納部と、第一相関情報を格納し得る第一相関情報格納部と、第二相関情報を格納し得る第二相関情報格納部と、前記第一相関情報と前記第二相関情報とを用いて、前記対象言語旧音響モデル、または前記他言語新音響モデル、または前記対象言語旧音響モデルと前記他言語新音響モデルとから、対象言語新音響モデルを生成する音響モデル生成手段とを具備するものとして、コンピュータを機能させることは好適である。
【0172】
また、上記プログラムにおいて、前記音響モデル生成部は、対象言語新音響モデルを生成する2以上のアルゴリズムのうち、前記対象言語旧音響モデルまたは前記他言語新音響モデルが有するデータに応じて、いずれか一のアルゴリズムを選択する選択手段をさらに具備し、前記音響モデル生成手段は、前記選択手段が選択した前記一のアルゴリズムに従って、前記第一相関情報と前記第二相関情報のうちの1以上の相関情報を用いて、前記対象言語新音響モデルを生成するものとして、コンピュータを機能させることは好適である。
【0173】
また、
図18は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音響モデル生成装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。
図18は、このコンピュータシステム300の概観図であり、
図19は、システム400のブロック図である。
【0174】
図18において、コンピュータシステム400は、CD−ROMドライブを含むコンピュータ401と、キーボード402と、マウス403と、モニタ404とを含む。
【0175】
図19において、コンピュータ401は、CD−ROMドライブ4012に加えて、MPU4013と、バス4014と、ROM4015と、RAM4016と、ハードディスク4017とを含む。なお、バス4014は、MPU4013やCD−ROMドライブ4012に接続されている。また、ROM4015には、ブートアッププログラム等のプログラムが記憶されている。また、RAM4016は、MPU4013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのものである。また、ハードディスク4017は、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのものである。ここでは、図示しないが、コンピュータ401は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0176】
コンピュータシステム400に、上述した実施の形態の音響モデル生成装置の機能を実行させるプログラムは、CD−ROM4101に記憶されて、CD−ROMドライブ4012に挿入され、さらにハードディスク4017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ401に送信され、ハードディスク4017に記憶されても良い。プログラムは実行の際にRAM4016にロードされる。プログラムは、CD−ROM4101またはネットワークから直接、ロードされても良い。
【0177】
プログラムは、コンピュータ401に、上述した実施の形態の音響モデル生成装置の機能を実行させるオペレーティングシステム、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム400がどのように動作するかは周知であり、詳細な説明は省略する。
【0178】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0179】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0180】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。