(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-07
(45)【発行日】2024-10-16
(54)【発明の名称】学習方法、学習システム及び学習プログラム
(51)【国際特許分類】
G10L 15/06 20130101AFI20241008BHJP
【FI】
G10L15/06 300D
G10L15/06 300Y
(21)【出願番号】P 2022575008
(86)(22)【出願日】2021-01-15
(86)【国際出願番号】 JP2021001354
(87)【国際公開番号】W WO2022153504
(87)【国際公開日】2022-07-21
【審査請求日】2023-05-17
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】神山 歩相名
(72)【発明者】
【氏名】山口 義和
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2011-248001(JP,A)
【文献】特開2004-252167(JP,A)
【文献】国際公開第2011/052412(WO,A1)
【文献】特開2016-212273(JP,A)
【文献】特開2015-225296(JP,A)
【文献】特開2019-78857(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
特徴量及び音素ラベルを有する時系列に並んだ学習データを取得して、
特定時刻の周辺の一定期間における前記特徴量と前記特定時刻の前記音素ラベルとを組み合わせて新たな学習データを生成し、前記時系列の順序とは異なる順序で前記
新たな学習データを並び替えるシャッフル工程と、
前記シャッフル工程により並び替えら
れた前記新たな学習データを用いて音響モデルの学習を行う学習工程と
を備えたことを特徴とする学習方法。
【請求項2】
時系列に並んだ学習データを取得して、前記時系列の順序とは異なる順序で前記学習データを並び替えるシャッフル工程と、
前記学習データを並び替えても時系列で並んだ状態に復元できない情報量を有する微小なノイズを生成して、前記シャッフル工程において並び替えられた前記学習データに付加するノイズ付加工程と、
前記シャッフル工程により並び替えられ
、かつ、前記ノイズ付加工程により前記微小なノイズが付加された前記学習データを用いて音響モデルの学習を行う学習工程と
を備えたことを特徴とする学習方法。
【請求項3】
前記ノイズ付加工程は、予め作成されたベース音響モデルを基に、前記ノイズを生成することを特徴とする
請求項2に記載の学習方法。
【請求項4】
前記ノイズ付加工程は、音声の揺らぎを逸脱しない前記ノイズを生成することを特徴とする
請求項2又は3に記載の学習方法。
【請求項5】
特徴量及び音素ラベルを有する時系列に並んだ学習データを取得して、
特定時刻の周辺の一定期間における前記特徴量と前記特定時刻の前記音素ラベルとを組み合わせて新たな学習データを生成し、前記時系列の順序とは異なる順序で前記
新たな学習データを並び替えるシャッフル部と、
前記シャッフル部により並び替えら
れた前記新たな学習データを用いて音響モデルの学習を行う学習部と
を備えたことを特徴とする学習システム。
【請求項6】
時系列に並んだ学習データを取得して、前記時系列の順序とは異なる順序で前記学習データを並び替えるシャッフル部と、
前記学習データを並び替えても時系列で並んだ状態に復元できない情報量を有する微小なノイズを生成して、前記シャッフル部により並び替えられた前記学習データに付加するノイズ付加部と、
前記シャッフル部により並び替えられ
、かつ、前記ノイズ付加部により前記微小なノイズが付加された前記学習データを用いて音響モデルの学習を行う学習部と
を備えたことを特徴とする学習システム。
【請求項7】
コンピュータに
請求項1~4に記載の方法で処理を実行させるための学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習方法、学習システム及び学習プログラムに関する。
【背景技術】
【0002】
近年、企業におけるコンタクトセンタや会議録システム等で音声情報を文字に変換する音声認識が利用されている。音声認識の利用シーンは非常に広くなっており、その提供方法も様々な形態が用意されており、クラウド型のサービス等で誰もが利用できるような形態での音声認識サービスの提供も行われている。
【0003】
音声認識を実現するためには、一般的に利用シーンに応じた音響モデルや言語モデルの学習が必要となる。音響モデルは、音声の音の特徴と音素の情報とを紐づけるモデルである。近年はDeep Neural Network(DNN)を用いて音響モデルを学習することにより、音声認識の精度の向上している(非特許文献1参照)。
【0004】
音響モデルの学習は、利用シーンにおける音声の特徴量系列と音素系列とのペアの用意し、フレーム毎にその特徴量と音素の種類との関係を学習する。音声モデルの学習に使用するDNNには様々な構造のNeural Networkを用いることができるが、最も基本的なモデルは、全結合型のレイヤーやConvolutional Neural Networkを用いたネットワークである。全結合型のレイヤーやConvolutional Neural Networkを用いたネットワークでは、あるフレームの前後数フレームを入力として、そのフレームの音素の判定が行われる。あるフレームの前後数フレームとしては、例えばそのフレームの前後5フレームの計11フレームなどが用いられる。
【先行技術文献】
【非特許文献】
【0005】
【文献】Tara N. Sainath, Abdel-rahman Mohamed, Brian Kingsbury, Bhuvana Ramabhadran, “DEEP CONVOLUTIONAL NEURAL NETWORKS FOR LVCSR”, 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, 26-31 May 2013.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、利用シーンに応じた学習をするためには音響モデルにおける特徴量系列と音素系列との関係の学習が必要であるが、特徴量系列や音素系列は当該利用シーンにおける機密情報や個人情報を含むことが多い。以下では、個人情報もまとめて機密情報と呼ぶ。クラウド型のサービス等での利用形態を考えた場合、機密情報を含む特徴量系列や音素列をクラウドシステムに対してアップロードすることは、情報漏洩のリスクがある。
【0007】
例えば、従来の音響モデルの学習で使用される学習データでは、音声の特徴量が元の時系列のまま並んでおり、万が一学習データが流出時にはその特徴量を用いて音声認識を行うことで、特徴量に含まれる機密情報が復元できてしまうおそれがある。また音素の状態番号も元の時系列のまま並んでいるため、状態番号から音素列に変換できてしまい、機密情報が復元されるおそれがある。
【0008】
本発明は、上記に鑑みてなされたものであって、音声認識のためのモデル学習の安全性を向上させることを目的とする。
【課題を解決するための手段】
【0009】
上述した課題を解決し、目的を達成するために、時系列に並んだ学習データを取得して、前記時系列の順序とは異なる順序で前記学習データを並び替えるシャッフル工程と、前記シャッフル工程により並び替えられえた前記学習データを用いて音響モデルの学習を行う学習工程とを備える。
【発明の効果】
【0010】
本発明によれば、音声認識のためのモデル学習の安全性を向上させることができる。
【図面の簡単な説明】
【0011】
【
図1】
図1は、第1の実施形態に係る学習システムのブロック図である。
【
図2】
図2は、学習データベースの一例を表す図である。
【
図3】
図3は、シャッフル済学習データベースの一例を表す図である。
【
図4】
図4は、第1の実施形態に係る学習システムによる音響モデルの学習処理のフローチャートである。
【
図5】
図5は、第2の実施形態に係る学習システムのブロック図である。
【
図6】
図6は、学習プログラムを実行するコンピュータの一例を示す図である。
【発明を実施するための形態】
【0012】
以下に、本願の開示する学習方法、学習システム及び学習プログラムの一実施形態を図面に基づいて詳細に説明する。なお、以下の実施形態により本願の開示する学習方法、学習システム及び学習プログラムが限定されるものではない。
【0013】
[第1の実施形態]
[学習システム]
図1は、第1の実施形態に係る学習システムのブロック図である。
図1に示すように、本実施形態に係る学習システム1は、前処理装置10及び学習装置20を有する。前処理装置10と学習装置20とは、例えば、インターネットなどのネットワークを介して接続される。学習装置20は、例えばクラウドに配置された音響認識サービスを提供するコンピュータである。前処理装置10は、学習装置20により提供される音響認識サービスを利用する利用者のコンピュータであり、学習装置20に対して学習データを提供し、学習済みの音響モデル24を作成させて、その作成された学習済みの音響モデル24を用いて音響認識サービスを利用する。前処理装置10では機密情報を扱えるが、学習装置20では機密情報を隠蔽した状態で処理が行われることが好ましい。
【0014】
[前処理装置]
前処理装置10について説明する。前処理装置10は、
図1に示すように、学習データベース11、シャッフル部12及びノイズ付加部13を有する。
【0015】
学習データベース11は、音響モデル24に対する機械学習を行うための学習データを保持するデータベースである。
図2は、学習データベースの一例を表す図である。
【0016】
本実施形態に係る学習データベース11は、
図2に示すように、それぞれが時間長Tiの長さを有するI個の音声ファイルを有する。そして、学習データベース11では、音声ファイルそれぞれに対して時刻t(t=0,1,2,・・・,Ti-1)毎の特徴量xi(t)及び音素の状態番号yi(t)が登録される。音素の状態番号が、音素ラベルの一例にあたる。
【0017】
図1に戻って説明を続ける。シャッフル部12は、学習データベース11に登録された特徴量及び音素番号に対して、データ番号や時刻に関係のない一意に定まる新なデータ番号jを付与する。これにより、シャッフル部12は、学習データの並ぶ順番を学習データベース11で登録されていた順番から変更する。すなわち、シャッフル部12は、時系列に並んだ学習データを取得して、時系列の順序とは異なる順序で学習データを並び替える。
【0018】
例えば、シャッフル部12は、次のように新たなデータ番号を特徴量及び音素番号に対して付与することでデータベースを再構成する。具体的には、シャッフル部12は、次の数式(1)で表されるように新たなデータ番号jに対する特徴量X(j)及び音素の状態番号Y(j)を決定する。
【0019】
【0020】
Lは0以上の整数であり、当該時刻の音素の判定に用いる周辺の時間長を示すパラメータである。例えば、シャッフル部12は、L=5といった値を与える。ここで、数式(1)におけるt-Lが0より小さい場合、シャッフル部12は、xi(t-L)=0又はxi(t-L)=xi(0)とする。また、t+LがTi以上の場合、シャッフル部12は、xi(t+L)=0又は、xi(t+L)=、xi(Ti-1)とする。
【0021】
シャッフル部12は、学習データベース11に登録された全てのデータ番号i(1,2,・・・,I)の学習データに対して、数式(1)を用いて特徴量X(j)及び音素の状態番号Y(j)を決定する。その際、シャッフル部12は、データ番号iの学習データ毎の全ての時刻t(0,1,2,・・・,T)について、数式(1)を用いた特徴量X(j)及び音素の状態番号Y(j)の決定を繰り返す。その場合、シャッフル部12は、各時刻tについて、学習データベース11におけるその時刻tの周辺の特徴量X及びその時刻tの音素の状態番号に対して、一意に新たなデータ番号jをランダムに割り当てることで新たなデータベースを生成する。その後、シャッフル部12は、生成した新たなデータベースをノイズ付加部13へ出力する。
【0022】
ノイズ付加部13は、新たなデータ番号jを有する学習データが登録された新たなデータベースの入力をシャッフル部12から受ける。ノイズ付加部13は、取得した新たなデータベースに登録された各特徴量に対して、データを並び替えて復元できない程度の情報量を有する微少なノイズを付加する。これにより、ノイズ付加部13は、各時刻tとその周辺の特徴量の情報を用いてもバイナリ的に復元できないようにする。具体的には、ノイズ付加部13は、次の数式(2)を用いて微少なノイズを特徴量に付加する。
【0023】
【0024】
ここで、εは、微小なノイズを表し、また、|X(j)|は、特徴量X(j)の絶対値である。例えば、εは、微小な値を表すσを用いて次の数式(3)で表される。
【0025】
【0026】
ここで、N(ε|0,σ)は、平均0であり分散σである正規分布を表す。σは、音声の同じ音素内の変動幅を基準に設定することが可能である。
【0027】
ノイズ付加部13は、全てのデータ番号jの学習データについて、数式(2)を用いた特徴量Xへのノイズの負荷を繰り返す。このように、ノイズ付加部13は、データを並び替えて復元できない程度のノイズを特徴量に加えることで、データ番号がjの学習データに対応する時刻とその周辺の特徴量を用いてバイナリが完全に一致する特徴量を求めることを難しくする。これにより、元データの復元が困難となる。ノイズ付加部13は、登録された特徴量にノイズが付加されたデータベースを学習装置20へ送信してシャッフル済学習データベース21として格納させる。
【0028】
[学習装置]
次に、学習装置20について説明する。学習装置20は、
図2に示すように、シャッフル済学習データベース21、学習データ選択部22、学習部23及び音響モデル24を有する。
【0029】
図3は、シャッフル済学習データベースの一例を表す図である。シャッフル済学習データベース21は、シャッフル部12により決定された新たなデータ番号jの学習データとして、その学習データに対応する時刻tの周辺の特徴量にノイズが付加されたデータ及びその時刻tの音素の状態番号が登録される。
【0030】
学習データ選択部22は、ンダムにデータ番号jを選択する。そして、学習データ選択部22は、シャッフル済学習データベース21が保持する学習データからデータ番号jの学習データを取得する。そして、学習データ選択部22は、取得した学習データを学習部23へ出力する。学習データ選択部22は、学習部23の学習が完了するまで、学習データのシャッフル済学習データベース21からの選択及び学習部23への出力を繰り返す。
【0031】
学習部23は、学習データの入力を学習データ選択部22から受ける。学習部23は、取得した学習データに含まれる特徴量X(j)及び音素の状態番号Y(j)を用いて音響モデル24の学習を行う。学習部23は、音響モデル16の学習を一般的な学習で行うことが可能である。
【0032】
例えば、Cross Entropy規準に基づく学習を行う場合、学習部23は、状態番号Y(j)をOneHotベクトルに変換し、次の数式(4)で示す損失関数に基づき音響モデル24のパラメータを更新する。
【0033】
【0034】
ここで、λは音響モデル24を表す。また、Y(j)cは、Y(j)をOneHotベクトルとしたときのc番目の要素である。また、p(Y(j)|X(j),λ)cは、特徴量X(j)がY(j)である確率を示す。
【0035】
学習部23は、音響モデル24の更新が収束するまで、学習データ選択部22から学習データを取得して、取得した学習データを用いた音響モデル24の学習を繰り返す。すなわち、学習部23は、シャッフル部12により並び替えられえた学習データを用いて音響モデル24の学習を行う。その後、学習部23は、音響モデル24の更新が収束すると、音響モデル24の学習を終了する。
【0036】
音響モデル24は、全結合層やCNN(Convolutional Neural Network)を用いることができる。学習済みの音響モデル24は、クラウド上での音声認識サービスなどに使用される。
【0037】
[学習処理の処理手順]
次に、
図4を参照して、本実施形態に係る学習システム1による音響モデル24の学習処理の流れについて説明する。
図4は、第1の実施形態に係る学習システムによる音響モデルの学習処理のフローチャートである。
【0038】
シャッフル部12は、学習データベース11からデータ番号をランダムに選択し、その選択したデータ番号を有する学習データにおける時刻をランダムに決定する。次に、シャッフル部12は、選択したデータ番号の学習データの決定した時刻における周辺の特徴量及びその時刻における状態番号を取得する。そして、シャッフル部12は、取得した特徴量及び音素番号に対して、データ番号や時刻に関係のない一意に定まる新なデータ番号jを付与する。以上の処理を繰り返すことで、シャッフル部12は、学習データベース11から各データ番号の各事故億における周辺の特徴量及び各時刻における状態番号を取得して、それぞれに新たなデータ番号を付与して新たなデータベースを生成する(ステップS1)。
【0039】
ノイズ付加部13は、学習データの順番がシャッフルされた新たなデータベースの入力をシャッフル部12から受ける。次に、ノイズ付加部13は、取得した新たなデータベースに登録された各特徴量に対して微少なノイズを付加してシャッフル済学習データベース21を生成する(ステップS2)。
【0040】
学習データ選択部22は、ランダムにデータ番号を選択する。そして、学習データ選択部22は、シャッフル済学習データベース21が保持する学習データから選択したデータ番号の学習データを取得する(ステップS3)。
【0041】
学習部23は、学習データの入力を学習データ選択部22から受ける。そして、学習部23は、取得した学習データに含まれる特徴量X(j)及び音素の状態番号Y(j)を用いて音響モデル24の学習を実行する(ステップS4)。
【0042】
その後、学習部23は、音響モデル24の更新が収束したか否かを判定する(ステップS5)。音響モデル24の更新が収束していない場合(ステップS5:否定)、音響モデル24の学習処理はステップS3へ戻る。
【0043】
これに対して、音響モデル24の更新が収束した場合(ステップS5:肯定)、学習部23は、音響モデル24の学習処理を終了する。
【0044】
このように、本実施形態に係る学習システム1による音響モデルの学習処理は、時系列に並んだ学習データを取得して、前記時系列の順序とは異なる順序で前記学習データを並び替えるシャッフル工程と、シャッフル工程により並び替えられえた学習データを用いて音響モデル24の学習を行う学習工程とを備える。
【0045】
シャッフル工程は、特徴量及び音素ラベルを有する学習データを取得して、特定時刻の周辺の一定期間における特徴量と特定時刻の音素ラベルとを組み合わせて新たな学習データを生成し、時系列順とは異なる順で新たな学習データを並べる。また、学習工程は、新たな学習データを用いて音響モデル24の学習を行う。
【0046】
[第1の実施形態に係る学習処理による効果]
以上に説明したように、本実施形態に係る学習装置は、時系列順にデータ番号が付加され時系列順に特徴量と音素の状態番号とが並んだ学習データのデータベースから、ランダムにデータ番号及び時刻を選択して、そのデータ番号の学習データにおける選択時刻の周辺の特徴量とその時刻での音素の状態番号をまとめて学習データとして新たなデータ番号を付与して新たなデータベースを作成する。さらに、学習装置は、新たなデータベースの各学習データに含まれる特徴量のそれぞれにノイズを加えてシャッフル済学習データベースを作成する。そして、学習装置は、シャッフル済学習データベースを用いて音響モデルの学習を行う。
【0047】
これにより、学習データの順番を入れ替えることで時系列情報がなくなり、且つ、微少のノイズによってバイナリとしての一致が困難であるため機密情報を復元することが困難となる。すなわち、音声モデルの学習を行う際の学習データに機密情報が含まれていても、その機密情報が復元できない状態に音響特徴量系列と音素系列を変換して音響モデルの学習を行うことができる。このように、機密情報が復元できない情報を用いることで、情報漏洩に関するリスクを抑えつつ音響モデルの学習を行うことができる。したがって、音声認識のためのモデル学習の安全性を向上させることが可能となる。
【0048】
[第2の実施形態]
図5は、第2の実施形態に係る学習システムのブロック図である。本実施形態に係る学習システム1の前処理装置10は、予め用意された音響モデルから生成されたノイズを付加することが第1の実施形態と異なる。本実施形態に係る前処理装置10は、第1の実施形態の各部に加えてベース音響モデル14を有する。以下の説明では、第1の実施形態と同じ各部の機能については説明を省略する。
【0049】
[学習システム]
ベース音響モデル14は、予め別途学習しておいた音響モデルである。ベース音響モデル14は、他の学習データを用いて学習選択部15及び学習部23に学習させることで生成可能である。
【0050】
ノイズ付加部13は、ベース音響モデル14を用いて、特徴量への音声の揺らぎを考慮したノイズ付加を行う。具体的には、ノイズ付加部13は、データ番号jが割り当てられた全ての学習データに対して、次の数式(5)を用いた特徴量へのノイズの付加を実行する。
【0051】
【0052】
ここで、εは微小な正の値のノイズを表し、εの括弧内の関数は損失関数Loseをxで微分して、X(j)、Y(j)及びベース音響モデル14にあたるθを入力した値である。εの括弧内の関数は、各特徴量の要素で損失関数を微分して、正の場合は損失関数が大きくなり、負の場合は損失関数が小さくなる関数である。損失関数が大きくなるとは、声の揺らぎを考慮したモデルから乖離することを意味し、損失関数が小さくなるとは、声の揺らぎを考慮したモデルに近づくことを意味する。
【0053】
ノイズ付加部13は、数式(5)において損失関数が小さくなる方向に特徴量へのノイズの付加を行う。これにより、ノイズ付加部13は、音声の揺らぎを逸脱しない方向にノイズが加えることができる。
【0054】
このように、第2の実施形態に係る学習システム1による音響モデル24の学習処理は、学習データを並び替えても時系列で並んだ状態に復元できない情報量を有する微小なノイズを生成して、シャッフル工程において並び替えられた学習データに付加するノイズ付加工程をさらに備える。さらに詳しくは、ノイズ付加工程は、予め作成されたベース音響モデル14を基に、音声の揺らぎを逸脱しないノイズを生成する。
【0055】
[第2の実施形態に係る学習処理による効果]
以上に説明したように、本実施形態に係る学習装置は、予め用意された音響モデルを用いて損失関数が小さくなるようにノイズを特徴量に付加する。これにより、学習装置は、音声の揺らぎを逸脱しない方向にノイズを加えることができ、ノイズの付加による音声錦の精度劣化を軽減することが可能となる。すなわち、音声にありがちな揺らぎをノイズとして加えることで音声認識の精度の低下を抑えつつ、情報漏洩に関するリスクを抑えた音響モデルの学習を行うことができる。したがって、音声認識の精度の維持及び音声認識のためのモデル学習の安全性の向上を実現することが可能となる。
【0056】
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。特に、前処理装置10と学習装置20とを組み合わせて、一台の学習装置として構成することも可能である。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0057】
また、各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
【0058】
[プログラム]
一実施形態として、前処理装置10及び学習装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の情報処理を実行する表示制御プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の表示制御プログラムを情報処理装置に実行させることにより、情報処理装置を前処理装置10又は学習装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handy-phone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
【0059】
また、前処理装置10及び学習装置20は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の管理処理に関するサービスを提供する管理サーバ装置として実装することもできる。例えば、管理サーバ装置は、コンフィグ投入要求を入力とし、コンフィグ投入を行う管理サービスを提供するサーバ装置として実装される。この場合、管理サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の管理処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
【0060】
図6は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
【0061】
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(BASIC Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
【0062】
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、前処理装置10又は学習装置20と同等の機能を持つ前処理装置10又は学習装置20の各処理を規定する学習プログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、前処理装置10又は学習装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
【0063】
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020は、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した実施形態の処理を実行する。
【0064】
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
【符号の説明】
【0065】
1 学習システム
10 前処理装置
11 学習データベース
12 シャッフル部
13 ノイズ付加部
14 ベース音響モデル
20 学習装置
21 シャッフル済学習データベース
22 学習データ選択部
23 学習部
24 音響モデル