特許7567940 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7567940学習方法、学習システム及び学習プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-07

(45)【発行日】2024-10-16

(54)【発明の名称】学習方法、学習システム及び学習プログラム

(51)【国際特許分類】

G10L 15/06 20130101AFI20241008BHJP

【ＦＩ】

G10L15/06 300D

G10L15/06 300Y

【請求項の数】 7

(21)【出願番号】P 2022575008

(86)(22)【出願日】2021-01-15

(86)【国際出願番号】 JP2021001354

(87)【国際公開番号】W WO2022153504

(87)【国際公開日】2022-07-21

【審査請求日】2023-05-17

(73)【特許権者】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】神山歩相名

(72)【発明者】

【氏名】山口義和

【審査官】山下剛史

(56)【参考文献】

【文献】特開２０１１－２４８００１（ＪＰ，Ａ）

【文献】特開２００４－２５２１６７（ＪＰ，Ａ）

【文献】国際公開第２０１１／０５２４１２（ＷＯ，Ａ１）

【文献】特開２０１６－２１２２７３（ＪＰ，Ａ）

【文献】特開２０１５－２２５２９６（ＪＰ，Ａ）

【文献】特開２０１９－７８８５７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

特徴量及び音素ラベルを有する時系列に並んだ学習データを取得して、特定時刻の周辺の一定期間における前記特徴量と前記特定時刻の前記音素ラベルとを組み合わせて新たな学習データを生成し、前記時系列の順序とは異なる順序で前記新たな学習データを並び替えるシャッフル工程と、
前記シャッフル工程により並び替えられた前記新たな学習データを用いて音響モデルの学習を行う学習工程と
を備えたことを特徴とする学習方法。

【請求項2】

時系列に並んだ学習データを取得して、前記時系列の順序とは異なる順序で前記学習データを並び替えるシャッフル工程と、
前記学習データを並び替えても時系列で並んだ状態に復元できない情報量を有する微小なノイズを生成して、前記シャッフル工程において並び替えられた前記学習データに付加するノイズ付加工程と、
前記シャッフル工程により並び替えられ、かつ、前記ノイズ付加工程により前記微小なノイズが付加された前記学習データを用いて音響モデルの学習を行う学習工程と
を備えたことを特徴とする学習方法。

【請求項3】

前記ノイズ付加工程は、予め作成されたベース音響モデルを基に、前記ノイズを生成することを特徴とする請求項２に記載の学習方法。

【請求項4】

前記ノイズ付加工程は、音声の揺らぎを逸脱しない前記ノイズを生成することを特徴とする請求項２又は３に記載の学習方法。

【請求項5】

特徴量及び音素ラベルを有する時系列に並んだ学習データを取得して、特定時刻の周辺の一定期間における前記特徴量と前記特定時刻の前記音素ラベルとを組み合わせて新たな学習データを生成し、前記時系列の順序とは異なる順序で前記新たな学習データを並び替えるシャッフル部と、
前記シャッフル部により並び替えられた前記新たな学習データを用いて音響モデルの学習を行う学習部と
を備えたことを特徴とする学習システム。

【請求項6】

時系列に並んだ学習データを取得して、前記時系列の順序とは異なる順序で前記学習データを並び替えるシャッフル部と、
前記学習データを並び替えても時系列で並んだ状態に復元できない情報量を有する微小なノイズを生成して、前記シャッフル部により並び替えられた前記学習データに付加するノイズ付加部と、
前記シャッフル部により並び替えられ、かつ、前記ノイズ付加部により前記微小なノイズが付加された前記学習データを用いて音響モデルの学習を行う学習部と
を備えたことを特徴とする学習システム。

【請求項7】

コンピュータに請求項１～４に記載の方法で処理を実行させるための学習プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習方法、学習システム及び学習プログラムに関する。

【背景技術】

【0002】

近年、企業におけるコンタクトセンタや会議録システム等で音声情報を文字に変換する音声認識が利用されている。音声認識の利用シーンは非常に広くなっており、その提供方法も様々な形態が用意されており、クラウド型のサービス等で誰もが利用できるような形態での音声認識サービスの提供も行われている。

【0003】

音声認識を実現するためには、一般的に利用シーンに応じた音響モデルや言語モデルの学習が必要となる。音響モデルは、音声の音の特徴と音素の情報とを紐づけるモデルである。近年はDeep Neural Network（ＤＮＮ）を用いて音響モデルを学習することにより、音声認識の精度の向上している（非特許文献１参照）。

【0004】

音響モデルの学習は、利用シーンにおける音声の特徴量系列と音素系列とのペアの用意し、フレーム毎にその特徴量と音素の種類との関係を学習する。音声モデルの学習に使用するＤＮＮには様々な構造のNeural Networkを用いることができるが、最も基本的なモデルは、全結合型のレイヤーやConvolutional Neural Networkを用いたネットワークである。全結合型のレイヤーやConvolutional Neural Networkを用いたネットワークでは、あるフレームの前後数フレームを入力として、そのフレームの音素の判定が行われる。あるフレームの前後数フレームとしては、例えばそのフレームの前後５フレームの計１１フレームなどが用いられる。

【先行技術文献】

【非特許文献】

【0005】

【文献】Tara N. Sainath, Abdel-rahman Mohamed, Brian Kingsbury, Bhuvana Ramabhadran, “DEEP CONVOLUTIONAL NEURAL NETWORKS FOR LVCSR”, 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, 26-31 May 2013.

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、利用シーンに応じた学習をするためには音響モデルにおける特徴量系列と音素系列との関係の学習が必要であるが、特徴量系列や音素系列は当該利用シーンにおける機密情報や個人情報を含むことが多い。以下では、個人情報もまとめて機密情報と呼ぶ。クラウド型のサービス等での利用形態を考えた場合、機密情報を含む特徴量系列や音素列をクラウドシステムに対してアップロードすることは、情報漏洩のリスクがある。

【0007】

例えば、従来の音響モデルの学習で使用される学習データでは、音声の特徴量が元の時系列のまま並んでおり、万が一学習データが流出時にはその特徴量を用いて音声認識を行うことで、特徴量に含まれる機密情報が復元できてしまうおそれがある。また音素の状態番号も元の時系列のまま並んでいるため、状態番号から音素列に変換できてしまい、機密情報が復元されるおそれがある。

【0008】

本発明は、上記に鑑みてなされたものであって、音声認識のためのモデル学習の安全性を向上させることを目的とする。

【課題を解決するための手段】

【0009】

上述した課題を解決し、目的を達成するために、時系列に並んだ学習データを取得して、前記時系列の順序とは異なる順序で前記学習データを並び替えるシャッフル工程と、前記シャッフル工程により並び替えられえた前記学習データを用いて音響モデルの学習を行う学習工程とを備える。

【発明の効果】

【0010】

本発明によれば、音声認識のためのモデル学習の安全性を向上させることができる。

【図面の簡単な説明】

【0011】

【図1】図１は、第１の実施形態に係る学習システムのブロック図である。

【図2】図２は、学習データベースの一例を表す図である。

【図3】図３は、シャッフル済学習データベースの一例を表す図である。

【図4】図４は、第１の実施形態に係る学習システムによる音響モデルの学習処理のフローチャートである。

【図5】図５は、第２の実施形態に係る学習システムのブロック図である。

【図6】図６は、学習プログラムを実行するコンピュータの一例を示す図である。

【発明を実施するための形態】

【0012】

以下に、本願の開示する学習方法、学習システム及び学習プログラムの一実施形態を図面に基づいて詳細に説明する。なお、以下の実施形態により本願の開示する学習方法、学習システム及び学習プログラムが限定されるものではない。

【0013】

［第１の実施形態］
［学習システム］
図１は、第１の実施形態に係る学習システムのブロック図である。図１に示すように、本実施形態に係る学習システム１は、前処理装置１０及び学習装置２０を有する。前処理装置１０と学習装置２０とは、例えば、インターネットなどのネットワークを介して接続される。学習装置２０は、例えばクラウドに配置された音響認識サービスを提供するコンピュータである。前処理装置１０は、学習装置２０により提供される音響認識サービスを利用する利用者のコンピュータであり、学習装置２０に対して学習データを提供し、学習済みの音響モデル２４を作成させて、その作成された学習済みの音響モデル２４を用いて音響認識サービスを利用する。前処理装置１０では機密情報を扱えるが、学習装置２０では機密情報を隠蔽した状態で処理が行われることが好ましい。

【0014】

［前処理装置］
前処理装置１０について説明する。前処理装置１０は、図１に示すように、学習データベース１１、シャッフル部１２及びノイズ付加部１３を有する。

【0015】

学習データベース１１は、音響モデル２４に対する機械学習を行うための学習データを保持するデータベースである。図２は、学習データベースの一例を表す図である。

【0016】

本実施形態に係る学習データベース１１は、図２に示すように、それぞれが時間長Ｔｉの長さを有するＩ個の音声ファイルを有する。そして、学習データベース１１では、音声ファイルそれぞれに対して時刻ｔ（ｔ＝０，１，２，・・・，Ｔｉ－１）毎の特徴量ｘｉ(t)及び音素の状態番号ｙｉ(t)が登録される。音素の状態番号が、音素ラベルの一例にあたる。

【0017】

図１に戻って説明を続ける。シャッフル部１２は、学習データベース１１に登録された特徴量及び音素番号に対して、データ番号や時刻に関係のない一意に定まる新なデータ番号ｊを付与する。これにより、シャッフル部１２は、学習データの並ぶ順番を学習データベース１１で登録されていた順番から変更する。すなわち、シャッフル部１２は、時系列に並んだ学習データを取得して、時系列の順序とは異なる順序で学習データを並び替える。

【0018】

例えば、シャッフル部１２は、次のように新たなデータ番号を特徴量及び音素番号に対して付与することでデータベースを再構成する。具体的には、シャッフル部１２は、次の数式（１）で表されるように新たなデータ番号ｊに対する特徴量Ｘ（ｊ）及び音素の状態番号Ｙ（ｊ）を決定する。

【0019】

【数1】

【0020】

Ｌは０以上の整数であり、当該時刻の音素の判定に用いる周辺の時間長を示すパラメータである。例えば、シャッフル部１２は、Ｌ＝５といった値を与える。ここで、数式（１）におけるｔ－Ｌが０より小さい場合、シャッフル部１２は、ｘｉ（ｔ－Ｌ）＝０又はｘｉ（ｔ－Ｌ）＝ｘｉ（０）とする。また、ｔ＋ＬがＴｉ以上の場合、シャッフル部１２は、ｘｉ（ｔ＋Ｌ）＝０又は、ｘｉ（ｔ＋Ｌ）＝、ｘｉ（Ｔｉ－１）とする。

【0021】

シャッフル部１２は、学習データベース１１に登録された全てのデータ番号ｉ（１，２，・・・，Ｉ）の学習データに対して、数式（１）を用いて特徴量Ｘ（ｊ）及び音素の状態番号Ｙ（ｊ）を決定する。その際、シャッフル部１２は、データ番号ｉの学習データ毎の全ての時刻ｔ（０，１，２，・・・，Ｔ）について、数式（１）を用いた特徴量Ｘ（ｊ）及び音素の状態番号Ｙ（ｊ）の決定を繰り返す。その場合、シャッフル部１２は、各時刻ｔについて、学習データベース１１におけるその時刻ｔの周辺の特徴量Ｘ及びその時刻ｔの音素の状態番号に対して、一意に新たなデータ番号ｊをランダムに割り当てることで新たなデータベースを生成する。その後、シャッフル部１２は、生成した新たなデータベースをノイズ付加部１３へ出力する。

【0022】

ノイズ付加部１３は、新たなデータ番号ｊを有する学習データが登録された新たなデータベースの入力をシャッフル部１２から受ける。ノイズ付加部１３は、取得した新たなデータベースに登録された各特徴量に対して、データを並び替えて復元できない程度の情報量を有する微少なノイズを付加する。これにより、ノイズ付加部１３は、各時刻ｔとその周辺の特徴量の情報を用いてもバイナリ的に復元できないようにする。具体的には、ノイズ付加部１３は、次の数式（２）を用いて微少なノイズを特徴量に付加する。

【0023】

【数2】

【0024】

ここで、εは、微小なノイズを表し、また、｜Ｘ（ｊ）｜は、特徴量Ｘ（ｊ）の絶対値である。例えば、εは、微小な値を表すσを用いて次の数式（３）で表される。

【0025】

【数3】

【0026】

ここで、Ｎ（ε｜０，σ）は、平均０であり分散σである正規分布を表す。σは、音声の同じ音素内の変動幅を基準に設定することが可能である。

【0027】

ノイズ付加部１３は、全てのデータ番号ｊの学習データについて、数式（２）を用いた特徴量Ｘへのノイズの負荷を繰り返す。このように、ノイズ付加部１３は、データを並び替えて復元できない程度のノイズを特徴量に加えることで、データ番号がｊの学習データに対応する時刻とその周辺の特徴量を用いてバイナリが完全に一致する特徴量を求めることを難しくする。これにより、元データの復元が困難となる。ノイズ付加部１３は、登録された特徴量にノイズが付加されたデータベースを学習装置２０へ送信してシャッフル済学習データベース２１として格納させる。

【0028】

［学習装置］
次に、学習装置２０について説明する。学習装置２０は、図２に示すように、シャッフル済学習データベース２１、学習データ選択部２２、学習部２３及び音響モデル２４を有する。

【0029】

図３は、シャッフル済学習データベースの一例を表す図である。シャッフル済学習データベース２１は、シャッフル部１２により決定された新たなデータ番号ｊの学習データとして、その学習データに対応する時刻ｔの周辺の特徴量にノイズが付加されたデータ及びその時刻ｔの音素の状態番号が登録される。

【0030】

学習データ選択部２２は、ンダムにデータ番号ｊを選択する。そして、学習データ選択部２２は、シャッフル済学習データベース２１が保持する学習データからデータ番号ｊの学習データを取得する。そして、学習データ選択部２２は、取得した学習データを学習部２３へ出力する。学習データ選択部２２は、学習部２３の学習が完了するまで、学習データのシャッフル済学習データベース２１からの選択及び学習部２３への出力を繰り返す。

【0031】

学習部２３は、学習データの入力を学習データ選択部２２から受ける。学習部２３は、取得した学習データに含まれる特徴量Ｘ（ｊ）及び音素の状態番号Ｙ（ｊ）を用いて音響モデル２４の学習を行う。学習部２３は、音響モデル１６の学習を一般的な学習で行うことが可能である。

【0032】

例えば、ＣｒｏｓｓＥｎｔｒｏｐｙ規準に基づく学習を行う場合、学習部２３は、状態番号Ｙ（ｊ）をＯｎｅＨｏｔベクトルに変換し、次の数式（４）で示す損失関数に基づき音響モデル２４のパラメータを更新する。

【0033】

【数4】

【0034】

ここで、λは音響モデル２４を表す。また、Ｙ（ｊ）ｃは、Ｙ（ｊ）をＯｎｅＨｏｔベクトルとしたときのｃ番目の要素である。また、ｐ（Ｙ（ｊ）｜Ｘ（ｊ），λ）ｃは、特徴量Ｘ（ｊ）がＹ（ｊ）である確率を示す。

【0035】

学習部２３は、音響モデル２４の更新が収束するまで、学習データ選択部２２から学習データを取得して、取得した学習データを用いた音響モデル２４の学習を繰り返す。すなわち、学習部２３は、シャッフル部１２により並び替えられえた学習データを用いて音響モデル２４の学習を行う。その後、学習部２３は、音響モデル２４の更新が収束すると、音響モデル２４の学習を終了する。

【0036】

音響モデル２４は、全結合層やＣＮＮ（Convolutional Neural Network）を用いることができる。学習済みの音響モデル２４は、クラウド上での音声認識サービスなどに使用される。

【0037】

［学習処理の処理手順］
次に、図４を参照して、本実施形態に係る学習システム１による音響モデル２４の学習処理の流れについて説明する。図４は、第１の実施形態に係る学習システムによる音響モデルの学習処理のフローチャートである。

【0038】

シャッフル部１２は、学習データベース１１からデータ番号をランダムに選択し、その選択したデータ番号を有する学習データにおける時刻をランダムに決定する。次に、シャッフル部１２は、選択したデータ番号の学習データの決定した時刻における周辺の特徴量及びその時刻における状態番号を取得する。そして、シャッフル部１２は、取得した特徴量及び音素番号に対して、データ番号や時刻に関係のない一意に定まる新なデータ番号ｊを付与する。以上の処理を繰り返すことで、シャッフル部１２は、学習データベース１１から各データ番号の各事故億における周辺の特徴量及び各時刻における状態番号を取得して、それぞれに新たなデータ番号を付与して新たなデータベースを生成する（ステップＳ１）。

【0039】

ノイズ付加部１３は、学習データの順番がシャッフルされた新たなデータベースの入力をシャッフル部１２から受ける。次に、ノイズ付加部１３は、取得した新たなデータベースに登録された各特徴量に対して微少なノイズを付加してシャッフル済学習データベース２１を生成する（ステップＳ２）。

【0040】

学習データ選択部２２は、ランダムにデータ番号を選択する。そして、学習データ選択部２２は、シャッフル済学習データベース２１が保持する学習データから選択したデータ番号の学習データを取得する（ステップＳ３）。

【0041】

学習部２３は、学習データの入力を学習データ選択部２２から受ける。そして、学習部２３は、取得した学習データに含まれる特徴量Ｘ（ｊ）及び音素の状態番号Ｙ（ｊ）を用いて音響モデル２４の学習を実行する（ステップＳ４）。

【0042】

その後、学習部２３は、音響モデル２４の更新が収束したか否かを判定する（ステップＳ５）。音響モデル２４の更新が収束していない場合（ステップＳ５：否定）、音響モデル２４の学習処理はステップＳ３へ戻る。

【0043】

これに対して、音響モデル２４の更新が収束した場合（ステップＳ５：肯定）、学習部２３は、音響モデル２４の学習処理を終了する。

【0044】

このように、本実施形態に係る学習システム１による音響モデルの学習処理は、時系列に並んだ学習データを取得して、前記時系列の順序とは異なる順序で前記学習データを並び替えるシャッフル工程と、シャッフル工程により並び替えられえた学習データを用いて音響モデル２４の学習を行う学習工程とを備える。

【0045】

シャッフル工程は、特徴量及び音素ラベルを有する学習データを取得して、特定時刻の周辺の一定期間における特徴量と特定時刻の音素ラベルとを組み合わせて新たな学習データを生成し、時系列順とは異なる順で新たな学習データを並べる。また、学習工程は、新たな学習データを用いて音響モデル２４の学習を行う。

【0046】

［第１の実施形態に係る学習処理による効果］
以上に説明したように、本実施形態に係る学習装置は、時系列順にデータ番号が付加され時系列順に特徴量と音素の状態番号とが並んだ学習データのデータベースから、ランダムにデータ番号及び時刻を選択して、そのデータ番号の学習データにおける選択時刻の周辺の特徴量とその時刻での音素の状態番号をまとめて学習データとして新たなデータ番号を付与して新たなデータベースを作成する。さらに、学習装置は、新たなデータベースの各学習データに含まれる特徴量のそれぞれにノイズを加えてシャッフル済学習データベースを作成する。そして、学習装置は、シャッフル済学習データベースを用いて音響モデルの学習を行う。

【0047】

これにより、学習データの順番を入れ替えることで時系列情報がなくなり、且つ、微少のノイズによってバイナリとしての一致が困難であるため機密情報を復元することが困難となる。すなわち、音声モデルの学習を行う際の学習データに機密情報が含まれていても、その機密情報が復元できない状態に音響特徴量系列と音素系列を変換して音響モデルの学習を行うことができる。このように、機密情報が復元できない情報を用いることで、情報漏洩に関するリスクを抑えつつ音響モデルの学習を行うことができる。したがって、音声認識のためのモデル学習の安全性を向上させることが可能となる。

【0048】

［第２の実施形態］
図５は、第２の実施形態に係る学習システムのブロック図である。本実施形態に係る学習システム１の前処理装置１０は、予め用意された音響モデルから生成されたノイズを付加することが第１の実施形態と異なる。本実施形態に係る前処理装置１０は、第１の実施形態の各部に加えてベース音響モデル１４を有する。以下の説明では、第１の実施形態と同じ各部の機能については説明を省略する。

【0049】

［学習システム］
ベース音響モデル１４は、予め別途学習しておいた音響モデルである。ベース音響モデル１４は、他の学習データを用いて学習選択部１５及び学習部２３に学習させることで生成可能である。

【0050】

ノイズ付加部１３は、ベース音響モデル１４を用いて、特徴量への音声の揺らぎを考慮したノイズ付加を行う。具体的には、ノイズ付加部１３は、データ番号ｊが割り当てられた全ての学習データに対して、次の数式（５）を用いた特徴量へのノイズの付加を実行する。

【0051】

【数5】

【0052】

ここで、εは微小な正の値のノイズを表し、εの括弧内の関数は損失関数Ｌｏｓｅをｘで微分して、Ｘ（ｊ）、Ｙ（ｊ）及びベース音響モデル１４にあたるθを入力した値である。εの括弧内の関数は、各特徴量の要素で損失関数を微分して、正の場合は損失関数が大きくなり、負の場合は損失関数が小さくなる関数である。損失関数が大きくなるとは、声の揺らぎを考慮したモデルから乖離することを意味し、損失関数が小さくなるとは、声の揺らぎを考慮したモデルに近づくことを意味する。

【0053】

ノイズ付加部１３は、数式（５）において損失関数が小さくなる方向に特徴量へのノイズの付加を行う。これにより、ノイズ付加部１３は、音声の揺らぎを逸脱しない方向にノイズが加えることができる。

【0054】

このように、第２の実施形態に係る学習システム１による音響モデル２４の学習処理は、学習データを並び替えても時系列で並んだ状態に復元できない情報量を有する微小なノイズを生成して、シャッフル工程において並び替えられた学習データに付加するノイズ付加工程をさらに備える。さらに詳しくは、ノイズ付加工程は、予め作成されたベース音響モデル１４を基に、音声の揺らぎを逸脱しないノイズを生成する。

【0055】

［第２の実施形態に係る学習処理による効果］
以上に説明したように、本実施形態に係る学習装置は、予め用意された音響モデルを用いて損失関数が小さくなるようにノイズを特徴量に付加する。これにより、学習装置は、音声の揺らぎを逸脱しない方向にノイズを加えることができ、ノイズの付加による音声錦の精度劣化を軽減することが可能となる。すなわち、音声にありがちな揺らぎをノイズとして加えることで音声認識の精度の低下を抑えつつ、情報漏洩に関するリスクを抑えた音響モデルの学習を行うことができる。したがって、音声認識の精度の維持及び音声認識のためのモデル学習の安全性の向上を実現することが可能となる。

【0056】

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。特に、前処理装置１０と学習装置２０とを組み合わせて、一台の学習装置として構成することも可能である。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central Processing Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0057】

また、各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

【0058】

［プログラム］
一実施形態として、前処理装置１０及び学習装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の情報処理を実行する表示制御プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の表示制御プログラムを情報処理装置に実行させることにより、情報処理装置を前処理装置１０又は学習装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handy-phone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

【0059】

また、前処理装置１０及び学習装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の管理処理に関するサービスを提供する管理サーバ装置として実装することもできる。例えば、管理サーバ装置は、コンフィグ投入要求を入力とし、コンフィグ投入を行う管理サービスを提供するサーバ装置として実装される。この場合、管理サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の管理処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

【0060】

図６は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

【0061】

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（BASIC Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

【0062】

ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、前処理装置１０又は学習装置２０と同等の機能を持つ前処理装置１０又は学習装置２０の各処理を規定する学習プログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、前処理装置１０又は学習装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

【0063】

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

【0064】

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

【符号の説明】

【0065】

１学習システム
１０前処理装置
１１学習データベース
１２シャッフル部
１３ノイズ付加部
１４ベース音響モデル
２０学習装置
２１シャッフル済学習データベース
２２学習データ選択部
２３学習部
２４音響モデル

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版