(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024010464
(43)【公開日】2024-01-24
(54)【発明の名称】音声認識精度向上装置、及び音声認識精度向上方法
(51)【国際特許分類】
G10L 15/06 20130101AFI20240117BHJP
G10L 13/00 20060101ALI20240117BHJP
G10L 25/51 20130101ALI20240117BHJP
【FI】
G10L15/06 300Y
G10L13/00 100L
G10L25/51
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2022111812
(22)【出願日】2022-07-12
(71)【出願人】
【識別番号】000102728
【氏名又は名称】株式会社NTTデータグループ
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】千葉 詩音
(72)【発明者】
【氏名】野村 雄司
(72)【発明者】
【氏名】近藤 功
(72)【発明者】
【氏名】和知 徳磨
(57)【要約】
【課題】容易に音声認識の精度を向上させること。
【解決手段】音声認識精度向上装置は、ドキュメントから学習対象とする用語を抽出する用語抽出部と、用語抽出部により抽出された用語が含まれる文のテキストデータを生成するテキスト生成部と、テキスト生成部により生成された文のテキストデータから音声データを生成する音声合成部と、テキスト生成部により生成された文のテキストデータと、音声合成部により生成された音声データとの組をデータセットとして、音声をテキストに変換する音声認識モデルの学習を行い、学習済みの音声認識モデルを出力する学習部と、を備える。
【選択図】
図7
【特許請求の範囲】
【請求項1】
ドキュメントから学習対象とする用語を抽出する用語抽出部と、
前記用語抽出部により抽出された用語が含まれる文のテキストデータを生成するテキスト生成部と、
前記テキスト生成部により生成された文のテキストデータから音声データを生成する音声合成部と、
前記テキスト生成部により生成された文のテキストデータと、前記音声合成部により生成された音声データとの組をデータセットとして、音声をテキストに変換する音声認識モデルの学習を行い、学習済みの音声認識モデルを出力する学習部と、
を備える音声認識精度向上装置。
【請求項2】
前記学習部は、
既存の音声認識モデルに対して前記データセットを用いて学習を行うことにより、既存の音声認識モデルに追加学習を行った学習済みの音声認識モデルを出力する、
請求項1に記載の音声認識精度向上装置。
【請求項3】
前記テキスト生成部は、
前記用語抽出部により抽出された用語を検索用語として、通信ネットワークを介して接続されるサーバ上のコンテンツを検索することにより、当該用語が含まれる文のテキストデータを生成する、
請求項1または請求項2に記載の音声認識精度向上装置。
【請求項4】
予め作成された試験用テキストデータから生成された試験用音声データを、学習済みの音声認識モデルを用いてテキストデータに変換する音声認識部と、
前記音声認識部により変換されたテキストデータと前記試験用テキストデータとを比較することにより音声認識の精度を評価し、評価結果に基づいて学習対象とする用語を抽出する評価部と、
前記評価部により抽出された用語が含まれる文のテキストデータを生成するテキスト生成部と、
前記テキスト生成部により生成された文のテキストデータから音声データを生成する第1音声合成部と、
前記テキスト生成部により生成された文のテキストデータと、前記第1音声合成部により生成された音声データとの組をデータセットとして、前記音声認識モデルに追加学習を行い、前記音声認識モデルを更新する学習部と、
を備える音声認識精度向上装置。
【請求項5】
前記試験用テキストデータから音声合成処理により前記試験用音声データを生成する第2音声合成部、
をさらに備える請求項4に記載の音声認識精度向上装置。
【請求項6】
前記テキスト生成部は、
前記評価部により抽出された用語を検索用語として、通信ネットワークを介して接続されるサーバ上のコンテンツを検索することにより、当該用語が含まれる文のテキストデータを生成する、
請求項4または請求項5に記載の音声認識精度向上装置。
【請求項7】
音声認識精度向上装置における音声認識精度向上方法であって、
用語抽出部が、ドキュメントから学習対象とする用語を抽出するステップと、
テキスト生成部が、前記用語抽出部により抽出された用語が含まれる文のテキストデータを生成するステップと、
音声合成部が、前記テキスト生成部により生成された文のテキストデータから音声データを生成するステップと、
学習部が、前記テキスト生成部により生成された文のテキストデータと、前記音声合成部により生成された音声データとの組をデータセットとして、音声をテキストに変換する音声認識モデルの学習を行い、学習済みの音声認識モデルを出力するステップと、
を含む音声認識精度向上方法。
【請求項8】
音声認識精度向上装置における音声認識精度向上方法であって、
音声認識部が、予め作成された試験用テキストデータから生成された試験用音声データを、学習済みの音声認識モデルを用いてテキストデータに変換するステップと、
評価部が、前記音声認識部により変換されたテキストデータと前記試験用テキストデータとを比較することにより音声認識の精度を評価し、評価結果に基づいて学習対象とする用語を抽出するステップと、
テキスト生成部が、前記評価部により抽出された用語が含まれる文のテキストデータを生成するステップと、
第1音声合成部が、前記テキスト生成部により生成された文のテキストデータから音声データを生成するステップと、
学習部が、前記テキスト生成部により生成された文のテキストデータと、前記第1音声合成部により生成された音声データとの組をデータセットとして、前記音声認識モデルに追加学習を行い、前記音声認識モデルを更新するステップと、
を含む音声認識精度向上方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識精度向上装置、及び音声認識精度向上方法に関する。
【背景技術】
【0002】
従来、音声認識(音声を文字起こしする)を行う技術として、音響モデル、発音辞書(発音モデル)、及び言語モデルを複合させる手法が用いられていた。この手法では、精度向上のために追加学習させる場合、複数のモデルのそれぞれに対して学習用のデータセットを用意する必要がある。これに対し、近年では、1つのモデルで音声認識を行うEnd-to-End型の音声認識が登場し、より高精度な認識が可能となりつつある。End-to-End型の音声認識では、1つのモデルに対して学習用のデータセット(テキストと音声のデータセット)を用意すればよい(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
End-to-End型の音声認識では、精度向上のために追加学習させる場合、1つのモデルに対し入出力のデータセットを用意すればよいが、テキストと音声のデータセットが必要である。学習用に膨大な量のテキストと音声のデータセットを用意することは容易でなく、また、精度を向上させるためには、データセットのテキストと音声の内容も適したものを用意する必要がある。そのため、音声認識の精度を向上させることが容易ではなかった。
【0005】
本発明は、上記した課題に鑑みてなされたもので、容易に音声認識の精度を向上させることができる音声認識精度向上装置、及び音声認識精度向上方法を提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
上述の課題を解決するために、本発明の一態様に係る音声認識精度向上装置は、ドキュメントから学習対象とする用語を抽出する用語抽出部と、前記用語抽出部により抽出された用語が含まれる文のテキストデータを生成するテキスト生成部と、前記テキスト生成部により生成された文のテキストデータから音声データを生成する音声合成部と、前記テキスト生成部により生成された文のテキストデータと、前記音声合成部により生成された音声データとの組をデータセットとして、音声をテキストに変換する音声認識モデルの学習を行い、学習済みの音声認識モデルを出力する学習部と、を備える。
【0007】
また、本発明の一態様に係る音声認識精度向上装置は、予め作成された試験用テキストデータから生成された試験用音声データを、学習済みの音声認識モデルを用いてテキストデータに変換する音声認識部と、前記音声認識部により変換されたテキストデータと前記試験用テキストデータとを比較することにより音声認識の精度を評価し、評価結果に基づいて学習対象とする用語を抽出する評価部と、前記評価部により抽出された用語が含まれる文のテキストデータを生成するテキスト生成部と、前記テキスト生成部により生成された文のテキストデータから音声データを生成する第1音声合成部と、前記テキスト生成部により生成された文のテキストデータと、前記第1音声合成部により生成された音声データとの組をデータセットとして、前記音声認識モデルに追加学習を行い、前記音声認識モデルを更新する学習部と、を備える。
【0008】
また、本発明の一態様に係る音声認識精度向上装置における音声認識精度向上方法は、用語抽出部が、ドキュメントから学習対象とする用語を抽出するステップと、テキスト生成部が、前記用語抽出部により抽出された用語が含まれる文のテキストデータを生成するステップと、音声合成部が、前記テキスト生成部により生成された文のテキストデータから音声データを生成するステップと、学習部が、前記テキスト生成部により生成された文のテキストデータと、前記音声合成部により生成された音声データとの組をデータセットとして、音声をテキストに変換する音声認識モデルの学習を行い、学習済みの音声認識モデルを出力するステップと、を含む。
【0009】
また、本発明の一態様に係る音声認識精度向上装置における音声認識精度向上方法は、音声認識部が、予め作成された試験用テキストデータから生成された試験用音声データを、学習済みの音声認識モデルを用いてテキストデータに変換するステップと、評価部が、前記音声認識部により変換されたテキストデータと前記試験用テキストデータとを比較することにより音声認識の精度を評価し、評価結果に基づいて学習対象とする用語を抽出するステップと、テキスト生成部が、前記評価部により抽出された用語が含まれる文のテキストデータを生成するステップと、第1音声合成部が、前記テキスト生成部により生成された文のテキストデータから音声データを生成するステップと、学習部が、前記テキスト生成部により生成された文のテキストデータと、前記第1音声合成部により生成された音声データとの組をデータセットとして、前記音声認識モデルに追加学習を行い、前記音声認識モデルを更新するステップと、を含む。
【発明の効果】
【0010】
本発明の上記態様によれば、容易に音声認識の精度を向上させることができる。
【図面の簡単な説明】
【0011】
【
図1】第1の実施形態に係る音声認識精度向上システムの概略構成の一例を示すブロック図。
【
図2】第1の実施形態に係る音声認識精度向上装置のハードウェア構成の一例を示すブロック図。
【
図3】第1の実施形態に係る音声認識精度向上処理の一例を示すフローチャート。
【
図4】第1の実施形態に係る音声認識精度向上処理の検証結果の一例を示す図。
【
図5】第2の実施形態に係る音声認識精度向上システムの概略構成の一例を示すブロック図。
【
図6】第2の実施形態に係る音声認識精度向上処理の一例を示すフローチャート。
【
図7】第3の実施形態に係る音声認識精度向上システムの概略構成の一例を示すブロック図。
【
図8】第3の実施形態に係る用語抽出処理の一例を示す図。
【
図9】第3の実施形態に係る音声認識精度向上処理の一例を示すフローチャート。
【
図10】第4の実施形態に係る音声認識精度向上システムの概略構成の一例を示すブロック図。
【
図11】第4の実施形態に係る音声認識精度向上処理の一例を示すフローチャート。
【発明を実施するための形態】
【0012】
以下、図面を参照して、本発明の実施形態について説明する。
<第1の実施形態>
[概要]
まず、第1の実施形態に係る音声認識精度向上システムの概要について説明する。
図1は、本実施形態に係る音声認識精度向上システムの概略構成の一例を示すブロック図である。図示する音声認識精度向上システム1は、音声認識精度向上装置10を含んで構成されている。なお、音声認識精度向上装置10は、1つのコンピュータ装置で構成されても良いし、複数のコンピュータ装置が連携して実現される構成であっても良い。
【0013】
音声認識精度向上装置10は、テキストと音声との関係をモデル化した1つのモデルで音声をテキストに変換するEnd-to-End型の音声認識に対して、テキストのみを入力データとして用意することで追加学習を行うことが可能な構成である。例えば、音声認識精度向上装置10は、テキスト取得部101と、音声合成部102と、学習部103と、音声認識モデル記憶部104とを備えている。
【0014】
テキスト取得部101は、音声認識モデルに学習させる文のテキストデータの入力を受け付け、入力されたテキストデータを取得する。このテキストデータは、例えば、パーソナルコンピュータなどを用いて人手で作成されたものである。テキスト取得部101は、取得したテキストデータを音声合成部102と学習部103へ出力する。ここで、入力データとして文のテキストデータを用いるのは、単語のみよりも、複数の単語が含まれる文として入力する方が、音声認識の精度向上が見込まれるからである。
【0015】
音声合成部102は、テキスト取得部101から出力されたテキストデータを受取ると、当該テキストデータから音声データを生成する。例えば、音声合成部102は、テキストデータを解析してテキストに含まれる各単語の読み(発音)、アクセント位置、品詞情報などを推定し、各音韻の長さや高さ、リズム、イントネーションの情報(韻律情報)などを生成して音声合成により音声データ(音声波形のデータ)を生成する。そして、音声合成部102は、生成した音声データを学習部103へ出力する。
【0016】
学習部103は、テキスト取得部101から出力されたテキストデータと、音声合成部102から出力された音声データとを受取ると、受け取ったテキストデータと音声データとの組をデータセットとして音声認識モデルの学習を行う。そして、学習部103は、学習を行った学習済みの音声認識モデルを出力する。例えば、学習部103は、既存の音声認識モデルに対して、上記のテキストデータと音声データとの組をデータセットとして追加学習を行い、追加学習を行った学習済みの新規の音声認識モデルを出力する。
【0017】
音声認識モデル記憶部104は、既存の音声認識モデル及び追加学習済みの新規の音声認識モデルなどを記憶する。
【0018】
図2は、本実施形態に係る音声認識精度向上装置のハードウェア構成の一例を示すブロック図である。音声認識精度向上装置10は、ハードウェア構成として、CPU(Central Processing Unit)11と、RAM(Random Access Memory)12と、ROM(Resad Only Memory)13と、記憶装置14と、通信部15と、入力部16と、出力部17とを備えている。
【0019】
CPU11は、ROM13または記憶装置14に記憶されているプログラムを実行することにより各種の処理を実行するプロセッサである。例えば、CPU11は、テキスト取得部101によるテキスト取得処理、音声合成部102による音声合成処理、学習部103による音声認識モデルの学習処理などを行う。
【0020】
RAM12は、CPU11が実行するプログラムの読み込み領域として、又は、当該プログラムによる処理に使用するデータを書き込む作業領域として利用される。
【0021】
ROM13は、例えば、EEPROM(Electrically Erasable Programmable Read Only Memory)やフラッシュROMなどの電気的に書き換え可能な不揮発性メモリで構成される。例えば、ROM13には、システムプログラム、各種処理を実行するプログラムなどの少なくとも一部が記憶されている。
【0022】
記憶装置14は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、などを含んで構成される。例えば、記憶装置14には、システムプログラム、各種処理を実行するプログラムなどの少なくとも一部が記憶されてもよい。また、記憶装置14には、
図1に示す音声認識モデル記憶部104としても機能し、既存の音声認識モデル、追加学習した学習済みの新規の音声認識モデルなどが記憶される。
【0023】
通信部15は、無線LAN(Local Area Network)または有線LANによりネットワークに接続して、外部の装置(サーバなど)とデータ通信を行う。また、通信部15は、Bluetooth(登録商標)などの近距離無線通信、USB(Universal Serial Bus)などのインターフェースを備えて周辺機器類とデータ通信を行ってもよい。
【0024】
入力部16は、例えば、キーボード、タッチパッド、タッチパネル、マイクロフォンなどの入力デバイスを備えている。出力部17は、液晶ディスプレイ、有機ELディスプレイなどの表示デバイス、スピーカなどの出力デバイスなどを備えている。
【0025】
なお、前述したように、音声認識精度向上装置10は、1つのコンピュータ装置で構成されても良いし、複数のコンピュータ装置が連携して実現される構成であっても良いため、
図2に示すハードウェア構成を1つ備えても良いし、複数備えても良い。例えば、音声認識精度向上装置10は、テキスト取得部101と音声合成部102を含むコンピュータ装置と、学習部103と音声認識モデル記憶部104を含むコンピュータ装置とが通信可能に接続された構成において、各コンピュータ装置が、
図2に示すハードウェア構成を備える構成としても良い。
【0026】
次に、上述した音声認識精度向上装置10が実行する音声認識精度向上処理の動作について説明する。
図3は、本実施形態に係る音声認識精度向上処理の一例を示すフローチャートである。
【0027】
まず、テキスト取得部101は、音声認識モデルに学習させる対象となる文のテキストデータ(以下、「学習対象のテキストデータ」と称する)の入力を受け付け、学習対象のテキストデータを取得したか否かを判定する(ステップS101)。テキスト取得部101は、学習対象のテキストデータを取得していないと判定した場合(ステップS101:NO)、ステップS101の処理を再び実行し、学習対象のテキストデータの入力を待ち受ける。一方、テキスト取得部101は、学習対象のテキストデータを取得したと判定した場合(ステップS101:YES)、取得したテキストデータを音声合成部102と学習部103へ出力し、ステップS103の処理へ進む。
【0028】
次に、音声合成部102は、テキスト取得部101から出力された学習対象のテキストデータを受取ると、当該テキストデータから音声合成により音声データを生成し、生成した音声データを学習部103へ出力する(ステップS103)。
【0029】
続いて、学習部103は、テキスト取得部101から出力されたテキストデータと、音声合成部102から出力された音声データとを受取ると、受け取ったテキストデータと音声データとの組をデータセットとして音声認識モデルの学習を行う(ステップS105)。例えば、学習部103は、音声認識モデル記憶部104に記憶されている既存の音声認識モデルに対して、上記のテキストデータと音声データとの組をデータセットとして追加学習を行う。そして、学習部103は、追加学習を行った学習済みの新規の音声認識モデルを出力し、音声認識モデル記憶部104に記憶させる。
【0030】
なお、学習部103は、学習済みの新規の音声認識モデルを音声認識モデル記憶部104に記憶させる際に、既存の音声認識モデルに対して上書きして更新してもよいし、既存の音声認識モデルを残して、学習済みの新規の音声認識モデルを別途記憶させてもよい。
【0031】
図4は、本実施形態に係る音声認識精度向上処理の検証結果の一例を示す図である。図示する例は、本実施形態においてテキストデータと音声合成による音声データとをデータセットとして追加学習を行った音声認識モデルによる音声認識精度と、テキストデータと人が発声する音声データとをデータセットとして追加学習を行った音声認識モデルによる音声認識精度と、追加学習無しの既存の音声認識モデルによる音声認識精度との比較を示している。図示するように、本実施形態に係る音声合成による音声データを用いて追加学習を行った場合も、人が発声する音声データを用いて追加学習を行った場合に近いレベルで、追加学習無しの既存の音声認識モデルに対して音声認識精度が改善されている。
【0032】
このように、本実施形態に係る音声認識精度向上装置10は、テキストデータのみを用意することで、テキストデータから音声データを生成して音声認識モデルの学習を行うことができるため、膨大な量のテキストデータに対応する音声データを用意する必要が無く、容易に音声認識の精度を向上させることができる。
【0033】
<第2の実施形態>
次に、第2の実施形態について説明する。
第1の実施形態では、音声認識精度向上処理を行う際に、学習対象のテキストデータを入力データとする例を説明した。これに対し、本実施形態では、音声認識精度向上処理を行う際に入力する学習対象のテキストデータを、学習対象の用語を入力データとすることにより自動で生成する例を説明する。
【0034】
図5は、本実施形態に係る音声認識精度向上システムの概略構成の一例を示すブロック図である。この
図5において、
図1に対応する構成には同一の符号を付している。図示する音声認識精度向上システム1Aは、音声認識精度向上装置10Aと、ウェブサーバ20とを含んで構成されている。音声認識精度向上装置10Aとウェブサーバ20とはインターネットなどの通信ネットワークを介して接続される。ウェブサーバ20は、通信ネットワークを介して接続されるサーバを代表して図示したものであり、実際には、音声認識精度向上装置10Aは、複数のウェブサーバ20と通信ネットワークを介して接続される。
【0035】
音声認識精度向上装置10Aは、テキスト取得部101と、音声合成部102と、学習部103と、音声認識モデル記憶部104と、テキスト生成部105とを備えており、テキスト生成部105を備える点が、
図1に示す音声認識精度向上装置10の構成と相違する。
【0036】
テキスト生成部105は、学習対象の用語が入力されると、入力された用語が含まれる文のテキストデータ(学習対象のテキストデータ)を生成する。学習対象の用語とは、音声認識モデルの精度を向上させるために追加学習させたい用語である。例えば、学習対象の用語は、一般的な用語に加えてさらに学習させたい専門用語である。以下では、学習対象の用語の一例として、専門用語リストをテキスト生成部105へ入力するものとして説明する。専門用語リストは、例えば、パーソナルコンピュータなどを用いて人手で作成されたものである。
【0037】
テキスト生成部105は、専門用語リストが入力されると、入力された専門用語が含まれる文のテキストデータを生成する。例えば、テキスト生成部105は、入力された専門用語を検索用語として、通信ネットワークを介して接続されるウェブサーバ20上のコンテンツを検索することにより、専門用語が含まれる文のテキストデータを生成する。一例として、テキスト生成部105は、ウェブスクレイピングの技術を用いて、複数のウェブサーバ20上のウェブサイトから専門用語が含まれる文を自動で抽出し、専門用語が含まれる文のテキストデータを生成する。そして、テキスト生成部105は、生成したテキストデータをテキスト取得部101へ出力する。
【0038】
なお、テキスト取得部101、音声合成部102、学習部103、および音声認識モデル記憶部104の基本的な構成は、第1の実施形態と同様である。テキスト取得部101は、音声認識モデルに学習させる文のテキストデータ(学習対象のテキストデータ)の入力として、テキスト生成部105により生成されたテキストデータを取得する。即ち、テキスト取得部101は、専門用語が含まれる文のテキストデータを取得し、取得したテキストデータを音声合成部102と学習部103へ出力する。
【0039】
音声合成部102は、第1の実施形態と同様に、テキスト取得部101から出力されたテキストデータ(専門用語が含まれる文のテキストデータ)を受取ると、当該テキストデータから音声合成により音声データを生成する。そして、音声合成部102は、生成した音声データを学習部103へ出力する。
【0040】
学習部103は、第1の実施形態と同様に、テキスト取得部101から出力されたテキストデータ(専門用語が含まれる文のテキストデータ)と、音声合成部102から出力された音声データとを受取ると、受け取ったテキストデータと音声データとの組をデータセットとして音声認識モデルの学習を行う。そして、学習部103は、学習を行った学習済みの音声認識モデルを出力する。例えば、学習部103は、音声認識モデル記憶部104に記憶されている既存の音声認識モデルに対して、上記のテキストデータと音声データとの組をデータセットとして追加学習を行い、追加学習を行った学習済みの新規の音声認識モデルを出力して音声認識モデル記憶部104に記憶させる。
【0041】
なお、音声認識精度向上装置10Aのハードウェア構成は、
図2に示す音声認識精度向上装置10のハードウェア構成と同様である。なお、音声認識精度向上装置10Aも音声認識精度向上装置10と同様に、1つのコンピュータ装置で構成されても良いし、複数のコンピュータ装置が連携して実現される構成であっても良い。そのため、音声認識精度向上装置10Aは、
図2に示すハードウェア構成を1つ備えても良いし、複数備えても良い。例えば、音声認識精度向上装置10Aは、テキスト生成部105を含むコンピュータ装置と、テキスト取得部101と音声合成部102を含むコンピュータ装置と、学習部103と音声認識モデル記憶部104を含むコンピュータ装置とが通信可能に接続された構成において、各コンピュータ装置が、
図2に示すハードウェア構成を備える構成としても良い。
【0042】
次に、上述した音声認識精度向上装置10Aが実行する音声認識精度向上処理の動作について説明する。
図6は、本実施形態に係る音声認識精度向上処理の一例を示すフローチャートである。
【0043】
テキスト生成部105は、専門用語リストの入力を受け付け、専門用語リストを取得したか否かを判定する(ステップS201)。テキスト生成部105は、専門用語リストを取得していないと判定した場合(ステップS201:NO)、ステップS201の処理を再び実行し、専門用語リストの入力を待ち受ける。一方、テキスト生成部105は、専門用語リストを取得したと判定した場合(ステップS201:YES)、ステップS203の処理へ進む。
【0044】
テキスト生成部105は、専門用語リストを取得すると、取得した専門用語を検索用語として、通信ネットワークを介して接続されるウェブサーバ20上のコンテンツを検索することにより、専門用語が含まれる文のテキストデータを生成し、生成したテキストデータをテキスト取得部101へ出力する(ステップS203)。
【0045】
次に、テキスト取得部101は、テキスト生成部105により生成されたテキストデータ(専門用語が含まれる文のテキストデータ)を取得し、取得したテキストデータを音声合成部102と学習部103へ出力する(ステップS205)。
【0046】
以降のステップS207、S209の処理は、
図3のステップS103、S105の処理と同様である。つまり、音声合成部102は、テキスト生成部105により生成されたテキストデータから音声合成により音声データを生成して学習部103へ出力する(ステップS207)。そして、学習部103は、テキスト生成部105により生成されたテキストデータ(専門用語が含まれる文のテキストデータ)と音声合成部102から出力された音声データとの組をデータセットとして音声認識モデルの学習を行う(ステップS209)。詳細については
図3のステップS103、S105と同様であるため省略する。
【0047】
このように、本実施形態に係る音声認識精度向上装置10Aは、学習対象の用語(例えば、専門用語)のみを用意することで、自動で専門用語が含まれる学習対象のテキストデータを生成し、さらにテキストデータから音声データを生成して音声認識モデルの学習を行うことができるため、膨大な量のテキストデータ及び音声データを用意する必要が無く、容易且つ効率的に音声認識の精度を向上させることができる。
【0048】
<第3の実施形態>
次に、第3の実施形態について説明する。
第2の実施形態では、音声認識精度向上処理を行う際に、学習対象のテキストデータを専門用語リストから自動で生成する例を説明した。このとき、専門用語リストは人手をかけて作成する必要があったが、本実施形態では、専門用語リストも自動で生成する例を説明する。
【0049】
図7は、本実施形態に係る音声認識精度向上システムの概略構成の一例を示すブロック図である。この
図7において、
図1、5に対応する構成には同一の符号を付している。図示する音声認識精度向上システム1Bは、音声認識精度向上装置10Bと、ウェブサーバ20とを含んで構成されている。
【0050】
音声認識精度向上装置10Bは、テキスト取得部101と、音声合成部102と、学習部103と、音声認識モデル記憶部104と、テキスト生成部105と、用語抽出部106とを備えており、用語抽出部106を備える点が、
図5に示す音声認識精度向上装置10Aの構成と相違する。
【0051】
用語抽出部106は、ドキュメントから専門用語を抽出する。第2の実施形態で説明したように、専門用語は、学習対象とする用語の一例である。ドキュメントとは、会議資料、議事録、発表資料、技術資料などのような専門用語が含まれる資料であって、音声認識モデルの学習用として作成するものではなく既に作成済みのものである。
【0052】
図8は、本実施形態に係る用語抽出処理の一例を示す図である。例えば、用語抽出部106は、「コーパス調達」、「前処理」、「候補抽出」、「スコアリング」の順に処理を実行し、スコアに基づいて用語を抽出する。まず、「コーパス調達」では、各種のドキュメントが含まれる特定ドメインのコーパスが用語抽出部106に入力される。用語抽出部106は、この入力された特定ドメインのコーパスから文章内の特徴語をドメイン用語(例えば、専門用語)として抽出する。
【0053】
具体的には、用語抽出部106は、入力された特定ドメインのコーパスを取得すると、「前処理」にて、形態素解析及びフィルタリングを行い、ドキュメントの内の文を形態素に分ける。次に、用語抽出部106は、「候補抽出」にて、任意の文字数の文字列(n-gram)を専門用語の候補となる用語として抽出する。続いて、用語抽出部106は、「スコアリング」にて、抽出した用語のそれぞれに「用語らしさ」のスコア(評価値)を付与する。
【0054】
スコアリングに用いるスコアリング関数としては、例えば、頻度情報に基づき計算される関数(Cvalue)、一般コーパスと比較を表す関数(Relevance)、用語の希少度を計算する関数(Ridf)、頻度情報を表す関数(Combo basic)、複数の関数を集約した関数(voting)などのいずれか一つ又は複数を用いることができる。なお、ここに示すスコアリング関数は一例であって、これらに限られるものではない。
【0055】
用語抽出部106は、スコアに基づいて専門用語を抽出する。そして、用語抽出部106は、抽出した専門用語リストをテキスト生成部105へ出力する。
【0056】
テキスト生成部105は、入力される専門用語リストが用語抽出部106により抽出された専門用語リストである点を除いて、第2の実施形態に対して同様である。テキスト生成部105は、用語抽出部106により抽出された専門用語リストが入力されると、入力された専門用語が含まれる文のテキストデータを生成し、生成したテキストデータをテキスト取得部101へ出力する。また、テキスト取得部101、音声合成部102、学習部103、及び音声認識モデル記憶部104の各構成は、第1,2の実施形態と同様である。
【0057】
なお、音声認識精度向上装置10Bのハードウェア構成は、
図2に示す音声認識精度向上装置10のハードウェア構成と同様である。なお、音声認識精度向上装置10Bも音声認識精度向上装置10と同様に、1つのコンピュータ装置で構成されても良いし、複数のコンピュータ装置が連携して実現される構成であっても良い。そのため、音声認識精度向上装置10Bは、
図2に示すハードウェア構成を1つ備えても良いし、複数備えても良い。例えば、音声認識精度向上装置10Bは、用語抽出部106を含むコンピュータ装置と、テキスト生成部105を含むコンピュータ装置と、テキスト取得部101と音声合成部102を含むコンピュータ装置と、学習部103と音声認識モデル記憶部104を含むコンピュータ装置とが通信可能に接続された構成において、各コンピュータ装置が、
図2に示すハードウェア構成を備える構成としても良い。
【0058】
次に、上述した音声認識精度向上装置10Bが実行する音声認識精度向上処理の動作について説明する。
図9は、本実施形態に係る音声認識精度向上処理の一例を示すフローチャートである。
【0059】
用語抽出部106は、ドキュメント(特定ドメインのコーパス)の入力を受け付け、ドキュメントを取得したか否かを判定する(ステップS301)。なお、ドキュメントの入力は、USBメモリまたは光ディスクなどの記憶媒体を介して入力されても良いし、通信ネットワークを介して接続されるサーバから取得して入力されてもよい。
【0060】
用語抽出部106は、ドキュメントを取得していないと判定した場合(ステップS301:NO)、ステップS301の処理を再び実行し、ドキュメントの入力を待ち受ける。一方、用語抽出部106は、ドキュメントを取得したと判定した場合(ステップS301:YES)、ステップS303の処理へ進む。
【0061】
用語抽出部106は、ドキュメントを取得すると、取得したドキュメントから専門用語を抽出し、抽出した専門用語リストをテキスト生成部105へ出力する(ステップS303)。
【0062】
テキスト生成部105は、用語抽出部106から出力された専門用語リストを取得すると、取得した専門用語を検索用語として、通信ネットワークを介して接続されるウェブサーバ20上のコンテンツを検索することにより、専門用語が含まれる文のテキストデータ(学習対象のテキストデータ)を生成し、生成したテキストデータをテキスト取得部101へ出力する(ステップS305)。
【0063】
以降のステップS307、S309、S311の処理は、
図6のステップS205、S207、S209の処理と同様である。つまり、テキスト取得部101は、テキスト生成部105により生成されたテキストデータ(専門用語が含まれる文のテキストデータ)を取得し、取得したテキストデータを音声合成部102と学習部103へ出力する(ステップS307)。また、音声合成部102は、テキスト生成部105により生成されたテキストデータから音声合成により音声データを生成して学習部103へ出力する(ステップS309)。そして、学習部103は、テキスト生成部105により生成されたテキストデータ(専門用語が含まれる文のテキストデータ)と音声合成部102から出力された音声データとの組をデータセットとして音声認識モデルの学習を行う(ステップS311)。詳細については
図6のステップS205、S207、S209の処理と同様であるため省略する。
【0064】
このように、本実施形態に係る音声認識精度向上装置10Bは、ドキュメントから学習対象とする用語(例えば、専門用語)を抽出し、抽出された専門用語が含まれる文のテキストデータを生成する。また、音声認識精度向上装置10Bは、生成した文のテキストデータから音声データを音声合成により生成する。そして、音声認識精度向上装置10Bは、専門用語が含まれる文のテキストデータと、当該テキストデータから生成した音声データとの組をデータセットとして、音声をテキストに変換する音声認識モデルの学習を行い、学習済みの音声認識モデルを出力する。
【0065】
これにより、音声認識精度向上装置10Bは、ドキュメントから学習対象とする用語(例えば、専門用語)を自動で抽出して専門用語が含まれる学習対象のテキストデータを生成し、さらにテキストデータから音声データを生成して音声認識モデルの学習を行うことができるため、膨大な量のテキストデータ及び音声データを用意する必要が無く、容易且つ効率的に音声認識の精度を向上させることができる。また、音声認識精度向上装置10Bは、学習対象の用語(例えば、専門用語)を用意する必要もないため、第2の実施形態に比較して、さらに容易に音声認識の精度を向上させることができる。
【0066】
例えば、音声認識精度向上装置10Bは、既存の音声認識モデルに対して上記データセットを用いて学習を行うことにより、既存の音声認識モデルに追加学習を行った学習済みの音声認識モデルを出力する。
【0067】
これにより、音声認識精度向上装置10Bは、既存の音声認識モデルの音声認識の精度を容易に向上させることができる。
【0068】
また、例えば、音声認識精度向上装置10Bは、抽出した専門用語を検索用語として、通信ネットワークを介して接続されるウェブサーバ20上のコンテンツを検索することにより、専門用語が含まれる文のテキストデータを生成する。
【0069】
これにより、音声認識精度向上装置10Bは、学習対象となる専門用語が含まれる文を容易に収集して効率的に音声認識の精度を向上させることができる。
【0070】
また、本実施形態に係る音声認識精度向上装置10Bにおける音声認識精度向上方法は、用語抽出部106が、ドキュメントから学習対象とする用語(例えば、専門用語)を抽出するステップと、テキスト生成部105が、用語抽出部106により抽出された専門用語が含まれる文のテキストデータを生成するステップと、音声合成部102が、テキスト生成部105により生成された文のテキストデータから音声データを生成するステップと、学習部103が、テキスト生成部105により生成された文のテキストデータと、音声合成部102により生成された音声データとの組をデータセットとして、音声をテキストに変換する音声認識モデルの学習を行い、学習済みの音声認識モデルを出力するステップと、を含む。
【0071】
これにより、音声認識精度向上装置10Bは、ドキュメントから学習対象とする用語(例えば、専門用語)を自動で抽出して専門用語が含まれる学習対象のテキストデータを生成し、さらにテキストデータから音声データを生成して音声認識モデルの学習を行うことができるため、膨大な量のテキストデータ及び音声データを用意する必要が無く、容易且つ効率的に音声認識の精度を向上させることができる。また、音声認識精度向上装置10Bは、学習対象の用語(例えば、専門用語)を用意する必要もないため、第2の実施形態に比較して、さらに容易に音声認識の精度を向上させることができる。
【0072】
<第4の実施形態>
次に、第4の実施形態について説明する。
本実施形態では、音声認識モデルを用いた音声認識の結果から苦手な用語を自動的に抽出して追加学習させることで、音声認識精度の向上を図る態様について説明する。
【0073】
図10は、本実施形態に係る音声認識精度向上システムの概略構成の一例を示すブロック図である。この
図10において、
図1、5、7に対応する構成には同一の符号を付している。図示する音声認識精度向上システム1Cは、音声認識精度向上装置10Cと、ウェブサーバ20とを含んで構成されている。
【0074】
音声認識精度向上装置10Cは、テキスト取得部101と、音声合成部102と、学習部103と、音声認識モデル記憶部104と、テキスト生成部105と、試験用音声合成部107と、音声認識部108と、評価部109とを備えており、試験用音声合成部107、音声認識部108、および評価部109を備える点が、
図5に示す音声認識精度向上装置10Aの構成と相違する。
【0075】
本実施形態では、苦手用語を抽出するために、音声認識を行う分野について用語が含まれる試験用テキストを準備する。試験用テキストは、例えば、音声認識を行う業務で使用されそうな文であり、人手によって予め作成されたものである。なお、試験用テキストとして、第3の実施形態における専門用語が含まれるドキュメントを利用することも可能である。
【0076】
試験用音声合成部107(第2音声合成部の一例)は、試験用テキストデータから音声合成処理により試験用音声データを生成する。なお、試験用音声合成部107は、音声合成部102(第1音声合成部の一例)と同一の構成としてもよい。試験用音声合成部107は、生成した試験用音声データを音声認識部108へ出力する。
【0077】
音声認識部108は、試験用音声合成部107により生成された試験用音声データを、学習済みの音声認識モデルを用いてテキストデータに変換する。学習済みの音声認識モデルとは、音声認識モデル記憶部104に記憶されている音声認識モデルであり、例えば、学習部103によって学習された最新の音声認識モデル(新規の音声認識モデル)である。音声認識部108は、試験用音声データから変換したテキストデータを評価部109へ出力する。
【0078】
評価部109は、音声認識部108により変換されたテキストデータと試験用テキストデータとを比較することにより音声認識の精度を評価し、評価結果に基づいて学習対象とする用語(例えば、苦手用語)を抽出する。評価部109により抽出される用語には、名詞に限らず、形容詞、女子、助動詞などの単語が含まれてもよい。
【0079】
例えば、評価部109は、音声認識部108により変換されたテキストデータと試験用テキストデータとの一致不一致を判定することにより音声認識の精度を評価し、試験用テキストデータに含まれる用語のうち不一致と判定された用語を苦手用語として抽出する。なお、評価部109は、音声認識部108により変換されたテキストデータと試験用テキストデータとの一致不一致の判定に代えて、試験用テキストデータに対する音声認識部108により変換されたテキストデータの認識精度(合致率)に閾値を設け、所定の閾値未満となった用語を苦手用語として抽出してもよい。
【0080】
そして、評価部109は、抽出した苦手用語が含まれる苦手用語リストをテキスト生成部105へ出力する。テキスト生成部105は、評価部109により抽出された苦手用語リストが入力されると、入力された苦手用語が含まれる文のテキストデータを生成する。例えば、テキスト生成部105は、入力された苦手用語を検索用語として、通信ネットワークを介して接続されるウェブサーバ20上のコンテンツを検索することにより、苦手用語が含まれる文のテキストデータを生成する。一例として、テキスト生成部105は、ウェブスクレイピングの技術を用いて、複数のウェブサーバ20上のウェブサイトから苦手用語が含まれる文を自動で抽出し、苦手用語が含まれる文のテキストデータを生成する。そして、テキスト生成部105は、生成したテキストデータをテキスト取得部101へ出力する。
【0081】
なお、テキスト取得部101、音声合成部102、学習部103、及び音声認識モデル記憶部104の各構成は、第1の実施形態と同様である。テキスト取得部101は、学習対象のテキストデータの入力として、テキスト生成部105により生成されたテキストデータ(苦手用語が含まれる文のテキストデータを)を取得し、取得したテキストデータを音声合成部102と学習部103へ出力する。
【0082】
音声合成部102は、テキスト取得部101から出力されたテキストデータ(苦手用語が含まれる文のテキストデータ)を受取ると、当該テキストデータから音声合成により音声データを生成する。そして、音声合成部102は、生成した音声データを学習部103へ出力する。
【0083】
学習部103は、テキスト取得部101から出力されたテキストデータ(苦手用語が含まれる文のテキストデータ)と、音声合成部102から出力された音声データとを受取ると、受け取ったテキストデータと音声データとの組をデータセットとして音声認識モデルに対して追加学習を行い、学習済みの音声認識モデルを出力して音声認識モデル記憶部104に記憶させる。
【0084】
この学習済みの新規の音声認識モデルを用いて音声認識部108が再び試験用音声データをテキストデータに変換し、評価部109が試験用テキストデータと比較することにより音声認識の精度を評価して苦手用語を抽出する。例えば、評価部109は、前回の苦手用語リストをクリア(消去)して、新たに抽出した苦手用語のみが含まれる苦手用語リストをテキスト生成部105へ出力する。なお、評価部109は、前回の苦手用語リストに新たに抽出した苦手用語を加えつつ、前回の苦手用語のうち認識精度(合致率)が所定の閾値以上となった苦手用語を除外した苦手用語リストをテキスト生成部105へ出力してもよい。このように、繰り返し音声認識モデルに対して試験用テキストデータ及び試験用音声データを用いて認識精度を評価することで、音声認識精度を向上させることができる。
【0085】
なお、テキスト取得部101は、苦手用語が含まれる文のテキストデータのみを取得するのではなく、第2,3の実施形態で説明したように、専門用語が含まれる文のテキストデータも取得してもよい。即ち、学習部103は、苦手用語と専門用語との両方を並行して、音声認識モデルに学習させてもよい。
【0086】
なお、音声認識精度向上装置10Cのハードウェア構成は、
図2に示す音声認識精度向上装置10のハードウェア構成と同様である。なお、音声認識精度向上装置10Cも音声認識精度向上装置10と同様に、1つのコンピュータ装置で構成されても良いし、複数のコンピュータ装置が連携して実現される構成であっても良い。そのため、音声認識精度向上装置10Cは、
図2に示すハードウェア構成を1つ備えても良いし、複数備えても良い。例えば、音声認識精度向上装置10Cは、試験用音声合成部107を含むコンピュータ装置と、音声認識部108を含むコンピュータ装置と、評価部109を含むコンピュータ装置と、テキスト生成部105を含むコンピュータ装置と、テキスト取得部101と音声合成部102を含むコンピュータ装置と、学習部103と音声認識モデル記憶部104を含むコンピュータ装置とが通信可能に接続された構成において、各コンピュータ装置が、
図2に示すハードウェア構成を備える構成としても良い。
【0087】
次に、上述した音声認識精度向上装置10Cが実行する音声認識精度向上処理の動作について説明する。
図11は、本実施形態に係る音声認識精度向上処理の一例を示すフローチャートである。
【0088】
試験用音声合成部107は、試験用テキストデータの入力を受け付け、試験用テキストデータを取得したか否かを判定する(ステップS401)。試験用音声合成部107は、試験用テキストデータを取得していないと判定した場合(ステップS401:NO)、ステップS401の処理を再び実行し、試験用テキストデータの入力を待ち受ける。一方、試験用音声合成部107は、試験用テキストデータを取得したと判定した場合(ステップS401:YES)、ステップS403の処理へ進む。
【0089】
試験用音声合成部107は、試験用テキストデータを取得すると、取得した試験用テキストデータから音声合成処理により試験用音声データを生成し、生成した試験用音声データを音声認識部108へ出力する(ステップS403)。
【0090】
次に、音声認識部108は、試験用音声合成部107により生成された試験用音声データを、学習済みの音声認識モデルを用いてテキストデータに変換して評価部109へ出力する(ステップS405)。
【0091】
評価部109は、音声認識部108により変換されたテキストデータと試験用テキストデータとを比較することにより音声認識の精度を評価し、評価結果に基づいて学習対象とする用語(例えば、苦手用語)を抽出する。そして、評価部109は、抽出した苦手用語が含まれる苦手用語リストをテキスト生成部105へ出力する(ステップS407)。
【0092】
テキスト生成部105は、評価部109から出力された苦手用語リストを取得すると、取得した苦手用語を検索用語として、通信ネットワークを介して接続されるウェブサーバ20上のコンテンツを検索することにより、苦手用語が含まれる文のテキストデータ(学習対象のテキストデータ)を生成し、生成したテキストデータをテキスト取得部101へ出力する(ステップS409)。
【0093】
以降のステップS411、S413、S415の処理は、
図6のステップS205、S207、S209の処理及び
図9のS307、S309、S311の処理と同様である。つまり、テキスト取得部101は、テキスト生成部105により生成されたテキストデータ(苦手用語が含まれる文のテキストデータ)を取得し、取得したテキストデータを音声合成部102と学習部103へ出力する(ステップS411)。また、音声合成部102は、テキスト生成部105により生成されたテキストデータから音声合成により音声データを生成して学習部103へ出力する(ステップS413)。そして、学習部103は、テキスト生成部105により生成されたテキストデータ(苦手用語が含まれる文のテキストデータ)と音声合成部102から出力された音声データとの組をデータセットとして音声認識モデルに対して追加学習を行う(ステップS415)。詳細については
図6のステップS205、S207、S209の処理及び
図9のS307、S309、S311の処理と同様であるため省略する。
【0094】
また、学習部103が学習済みの音声認識モデルを出力して音声認識モデル記憶部104に記憶させると、ステップS401の処理に戻る。学習済みの音声認識モデルは、再び試験用テキストデータ及び試験用音声データを用いて認識精度の評価が行われ、苦手用語が抽出され、苦手用語についての追加学習が繰り返しループ処理として行われる。
【0095】
このように、本実施形態に係る音声認識精度向上装置10Cは、予め作成された試験用テキストデータから生成された試験用音声データを、学習済みの音声認識モデルを用いてテキストデータに変換し、変換したテキストデータと試験用テキストデータ(即ち、正解のテキストデータ)とを比較することにより音声認識の精度を評価し、評価結果に基づいて学習対象とする用語(例えば、苦手用語)を抽出する。また、音声認識精度向上装置10Cは、抽出した苦手用語が含まれる文のテキストデータを生成し、生成した文のテキストデータから音声データを生成する。そして、音声認識精度向上装置10Cは、生成した文のテキストデータと音声データとの組をデータセットとして、音声認識モデルに追加学習を行い、音声認識モデルを更新する。
【0096】
これにより、音声認識精度向上装置10Cは、学習済みの既存の音声認識モデルの苦手用語を自動で抽出して苦手用語が含まれる学習対象のテキストデータを生成し、さらにテキストデータから音声データを生成して音声認識モデルの学習を行うことができるため、容易且つ効率的に音声認識の精度を向上させることができる。
【0097】
また、音声認識精度向上装置10Cは、試験用テキストデータから音声合成処理により試験用音声データを生成する。
【0098】
これにより、音声認識精度向上装置10Cは、試験用テキストデータのみを用意するのみで、試験用テキストデータから試験用音声データを生成して学習済みの音声認識モデルの音声認識の精度を評価することができる。
【0099】
また、例えば、音声認識精度向上装置10Cは、抽出した苦手用語を検索用語として、通信ネットワークを介して接続されるウェブサーバ20上のコンテンツを検索することにより、苦手用語が含まれる文のテキストデータを生成する。
【0100】
これにより、音声認識精度向上装置10Cは、学習対象となる苦手用語が含まれる文を容易に収集して効率的に音声認識の精度を向上させることができる。
【0101】
また、本実施形態に係る音声認識精度向上装置10Cにおける音声認識精度向上方法は、音声認識部108が、予め作成された試験用テキストデータから生成された試験用音声データを、学習済みの音声認識モデルを用いてテキストデータに変換するステップと、評価部109が、音声認識部108により変換されたテキストデータと試験用テキストデータとを比較することにより音声認識の精度を評価し、評価結果に基づいて学習対象とする用語(例えば、苦手用語)を抽出するステップと、テキスト生成部105が、評価部109により抽出された苦手用語が含まれる文のテキストデータを生成するステップと、音声合成部102が、テキスト生成部105により生成された文のテキストデータから音声データを生成するステップと、学習部103が、テキスト生成部105により生成された文のテキストデータと、音声合成部102により生成された音声データとの組をデータセットとして、音声認識モデルに追加学習を行い、音声認識モデルを更新するステップと、を含む。
【0102】
これにより、音声認識精度向上装置10Cは、学習済みの既存の音声認識モデルの苦手用語を自動で抽出して苦手用語が含まれる学習対象のテキストデータを生成し、さらにテキストデータから音声データを生成して音声認識モデルの学習を行うことができるため、容易且つ効率的に音声認識の精度を向上させることができる。
【0103】
以上、この発明の各実施形態について図面を参照して詳述してきたが、具体的な構成は上述の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。例えば、上述の各実施形態において説明した各構成は、任意に組み合わせることができる。
【0104】
なお、上述した音声認識精度向上装置10,10A,10B,10Cは、内部にコンピュータシステムを有している。そして、上述した音声認識精度向上装置10,10A,10B,10Cが備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した音声認識精度向上装置10,10A,10B,10Cが備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD-ROM等の非一過性の記録媒体であってもよい。
【0105】
また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に音声認識精度向上装置10,10A,10B,10Cが備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0106】
また、上述した実施形態における音声認識精度向上装置10,10A,10B,10Cが備える各機能の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【符号の説明】
【0107】
1,1A,1B,1C 音声認識精度向上システム、10,10A,10B,10C 音声認識精度向上装置、20 ウェブサーバ、11 CPU、12 RAM、13 ROM、14 記憶装置、15 通信部、16 入力部、17 出力部、101 テキスト取得部、102 音声合成部、103 学習部、104 音声認識モデル記憶部、105 テキスト生成部、106 用語抽出部、107 試験用音声合成部、108 音声認識部、109 評価部