IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-125082合成学習データ生成装置、合成学習データ生成方法
<>
  • 特開-合成学習データ生成装置、合成学習データ生成方法 図1
  • 特開-合成学習データ生成装置、合成学習データ生成方法 図2
  • 特開-合成学習データ生成装置、合成学習データ生成方法 図3
  • 特開-合成学習データ生成装置、合成学習データ生成方法 図4
  • 特開-合成学習データ生成装置、合成学習データ生成方法 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024125082
(43)【公開日】2024-09-13
(54)【発明の名称】合成学習データ生成装置、合成学習データ生成方法
(51)【国際特許分類】
   G10L 15/06 20130101AFI20240906BHJP
   G06F 16/38 20190101ALI20240906BHJP
   G06N 20/00 20190101ALI20240906BHJP
【FI】
G10L15/06 300Y
G06F16/38
G06N20/00
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023033175
(22)【出願日】2023-03-03
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】ホー トゥアン ブ
(72)【発明者】
【氏名】住吉 貴志
(72)【発明者】
【氏名】堀口 翔太
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175HB03
(57)【要約】
【課題】ASRモデルの学習データとして多様な学習データを生成する。
【解決手段】合成学習データ生成装置1は、自動音声認識において用いられるASRモデルの学習を行うための合成学習データを生成する装置であり、予め収集された種々のテキストデータ群が格納された汎用テキストデータベース11と、自動音声認識のターゲットドメインに属するテキストデータ群が格納されたターゲットドメインテキストデータベース12と、汎用テキストデータベース11とターゲットドメインテキストデータベース12とを比較し、その比較結果に基づいて、汎用テキストデータベース11から学習用テキストデータを選択するテキストデータ選択部20と、テキストデータ選択部20により選択された学習用テキストデータに基づいて合成学習データを生成する合成学習データ生成部30と、を備える。
【選択図】図2
【特許請求の範囲】
【請求項1】
自動音声認識において用いられるモデルの学習を行うための合成学習データを生成する装置であって、
予め収集された種々のテキストデータ群が格納された汎用テキストデータベースと、
前記自動音声認識のターゲットドメインに属するテキストデータ群が格納されたターゲットドメインテキストデータベースと、
前記汎用テキストデータベースと前記ターゲットドメインテキストデータベースとを比較し、その比較結果に基づいて、前記汎用テキストデータベースから学習用テキストデータを選択するテキストデータ選択部と、
前記テキストデータ選択部により選択された前記学習用テキストデータに基づいて前記合成学習データを生成する合成学習データ生成部と、を備える合成学習データ生成装置。
【請求項2】
請求項1に記載の合成学習データ生成装置であって、
前記テキストデータ選択部は、
前記学習用テキストデータの候補である候補テキストデータを、文単位で前記汎用テキストデータベースから抽出する候補テキストデータ抽出部と、
前記候補テキストデータ抽出部により抽出された前記候補テキストデータが表す各文について、前記ターゲットドメインテキストデータベースに対する未出現単語の頻度を計算し、計算した前記未出現単語の頻度に基づいて、前記候補テキストデータから前記学習用テキストデータを選択する語彙サイズ最大化部と、を有する合成学習データ生成装置。
【請求項3】
請求項2に記載の合成学習データ生成装置であって、
前記候補テキストデータ抽出部は、前記汎用テキストデータベースに含まれるテキストデータが表す各文と、前記ターゲットドメインテキストデータベースに含まれるテキストデータが表す各文との類似度を算出し、前記類似度が所定値以上の文に対応するテキストデータを、前記候補テキストデータとして前記汎用テキストデータベースから抽出する合成学習データ生成装置。
【請求項4】
請求項2に記載の合成学習データ生成装置であって、
前記語彙サイズ最大化部は、前記候補テキストデータが表す各文を、当該文中の各単語について計算された前記未出現単語の頻度が高い順にランク付けし、前記ランク付けの結果に基づいて、前記候補テキストデータから前記学習用テキストデータを選択する合成学習データ生成装置。
【請求項5】
自動音声認識において用いられるモデルの学習を行うための合成学習データを生成する方法であって、
コンピュータにより、
予め収集された種々のテキストデータ群が格納された汎用テキストデータベースと、前記自動音声認識のターゲットドメインに属するテキストデータ群が格納されたターゲットドメインテキストデータベースとを比較し、
前記汎用テキストデータベースと前記ターゲットドメインテキストデータベースとの比較結果に基づいて、前記汎用テキストデータベースから学習用テキストデータを選択し、
前記学習用テキストデータに基づいて前記合成学習データを生成する、合成学習データ生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習に使用される合成学習データを生成する装置および方法に関する。
【背景技術】
【0002】
従来、ディープラーニングに代表される機械学習を用いた自動音声認識(ASR:Automatic Speech Recognition)が広く知られている。この自動音声認識において用いられるモデル(ASRモデル)の学習を効果的に行うためには、大量の音声データを学習データとして準備することが求められる。
【0003】
しかしながら、人間が実際に発話した音声データから機械学習に適した大量の音声データを準備するのは手間がかかるため、容易ではない。そこで、人間の実際の発話による音声データの代わりに、TTS(Text To Speech)モデルと呼ばれる音声合成用の機械学習モデルを用いて生成した音声データを、ASRモデルの学習データとして使用することが提案されている(例えば非特許文献1)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Fazel, A., Yang, W., Liu, Y., Barra-Chicote, R., Meng, Y., Maas, R., Droppo, J. (2021) SynthASR: Unlocking Synthetic Data for Speech Recognition. Proc. Interspeech 2021, 896-900, doi: 10.21437/Interspeech.2021-1882
【発明の概要】
【発明が解決しようとする課題】
【0005】
非特許文献1のような従来技術において、TTSモデルにより生成される音声データは、TTSモデルに入力するテキスト内容に依存する。したがって、ASRモデルの学習データに適した音声データを生成するためには、TTSモデルへの入力として、多様性に富んだ適切なテキスト内容を大量に設定する必要がある。もしもこの設定が不十分であると、TTSモデルを用いて生成される学習データにおいて語彙の数や多様性が限定されてしまうことになり、ASRモデルの学習を十分に行うことができない。このように、従来の学習データの生成手法には、依然として改善の余地がある。
【0006】
本発明は、こうした背景に基づきなされたものであり、ASRモデルの学習データとして多様な学習データを生成することが可能な合成学習データ生成装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明による合成学習データ生成装置は、自動音声認識において用いられるモデルの学習を行うための合成学習データを生成する装置であって、予め収集された種々のテキストデータ群が格納された汎用テキストデータベースと、前記自動音声認識のターゲットドメインに属するテキストデータ群が格納されたターゲットドメインテキストデータベースと、前記汎用テキストデータベースと前記ターゲットドメインテキストデータベースとを比較し、その比較結果に基づいて、前記汎用テキストデータベースから学習用テキストデータを選択するテキストデータ選択部と、前記テキストデータ選択部により選択された前記学習用テキストデータに基づいて前記合成学習データを生成する合成学習データ生成部と、を備える。
本発明による合成学習データ生成方法は、自動音声認識において用いられるモデルの学習を行うための合成学習データを生成する方法であって、コンピュータにより、予め収集された種々のテキストデータ群が格納された汎用テキストデータベースと、前記自動音声認識のターゲットドメインに属するテキストデータ群が格納されたターゲットドメインテキストデータベースとを比較し、前記汎用テキストデータベースと前記ターゲットドメインテキストデータベースとの比較結果に基づいて、前記汎用テキストデータベースから学習用テキストデータを選択し、前記学習用テキストデータに基づいて前記合成学習データを生成する。
【発明の効果】
【0008】
本発明によれば、ASRモデルの学習データとして多様な学習データを生成することができる。
【図面の簡単な説明】
【0009】
図1】本発明の一実施形態に係る合成学習データ生成装置のハードウェア構成を示す図である。
図2】合成学習データ生成装置の機能構成を示すブロック図である。
図3】合成学習データ生成装置が合成学習データを生成する処理の流れを示すフローチャートである。
図4】候補テキストデータ抽出処理の流れを示すフローチャートである。
図5】語彙サイズ最大化処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成に同一の符号を付して重複した説明を省略することがある。また以下の説明において、同種の構成を区別する必要がある場合、構成を総称する符号の後に括弧書きで識別子(数字、アルファベット等)を表記することがある。
【0011】
図1は、本発明の一実施形態に係る合成学習データ生成装置のハードウェア構成を示す図である。図1に示す合成学習データ生成装置1は、自動音声認識用のASRモデルの機械学習において利用される合成学習データの生成を行う情報処理装置(コンピュータ)であり、プロセッサ2、主記憶装置3、補助記憶装置4、入力装置5、出力装置6、および通信装置7を備える。
【0012】
プロセッサ2は、演算処理を行う装置であり、たとえばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等を用いて構成される。主記憶装置3は、各種プログラムやデータを記憶する装置であり、たとえばROM(Read Only Memory)、RAM(Random Access Memory)等を用いて構成される。補助記憶装置4は、プログラムやデータを格納する装置であり、たとえばHDD(Hard Disk Drive)、フラッシュメモリ、SSD(Solid State Drive)等を用いて構成される。補助記憶装置4に格納されているプログラムやデータは、プロセッサ2によって主記憶装置3に随時読み込まれ、プロセッサ2が行う処理や制御に利用される。
【0013】
入力装置5は、ユーザから情報を受付けるユーザインタフェースであり、たとえば、キーボード、マウス、カードリーダ、タッチパネル等である。出力装置6は、各種の情報を出力(表示出力、音声出力、印字出力等)するユーザインタフェースであり、たとえば、各種情報を可視化する表示装置(LCD(Liquid Crystal Display)、グラフィックカード等)や音声出力装置(スピーカ)、印字装置等である。
【0014】
通信装置7は、通信手段を介して他の装置と通信する通信インタフェースである。通信手段の構成は必ずしも限定されないが、たとえば、USB(Universal Serial Bus)やRS-232C等の各種通信規格に準拠した通信手段、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、専用線等である。通信装置7は、たとえば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール、シリアル通信モジュール等である。通信装置7は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また通信装置7は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。
【0015】
図2は、合成学習データ生成装置1の機能構成を示すブロック図である。同図に示すように、合成学習データ生成装置1は、記憶部10、テキストデータ選択部20、合成学習データ生成部30の各機能を備える。記憶部10は、たとえば主記憶装置3や補助記憶装置4によって実現される。また、テキストデータ選択部20および合成学習データ生成部30は、たとえばプロセッサ2が主記憶装置3に格納されているプログラムを読み出して、このプログラムに従った処理を実行することにより実現される。
【0016】
なお、合成学習データ生成装置1において、図1に示したもの以外に、たとえばFPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等のハードウェアをさらに搭載し、これらのハードウェアを単独で、またはプロセッサ2と協働して用いることで、図2に示す機能の一部または全部を実現してもよい。
【0017】
記憶部10は、汎用テキストデータベース11、ターゲットドメインテキストデータベース12、候補テキストデータベース13、学習用テキストデータベース14および合成学習データベース15を記憶する。記憶部10は、たとえば、DBMS(DataBase Management System)によって提供されるテーブルや、ファイルシステムが提供するファイルとして、これらのデータベースを記憶することができる。
【0018】
汎用テキストデータベース11には、予め収集された種々のテキストデータ群が格納されている。例えば、ニュース、ソーシャルメディア、言語コーパス、書籍、各種映像や音声から書き起こしたテキスト等のデータが、汎用テキストデータベース11に格納されている。
【0019】
ターゲットドメインテキストデータベース12には、ASRモデルのターゲットドメインに属するテキストデータ群が格納されている。例えば、ASRモデルによる自動音声認識の利用が想定される分野において頻繁に使用される文章表現や言い回しに応じた各種テキストデータが、ターゲットドメインテキストデータベース12に格納されている。
【0020】
テキストデータ選択部20は、汎用テキストデータベース11とターゲットドメインテキストデータベース12とを比較し、その比較結果に基づいて、汎用テキストデータベース11から、ASRモデルの合成学習データを生成するための学習用テキストデータを選択する。テキストデータ選択部20は、候補テキストデータ抽出部21および語彙サイズ最大化部22を有する。
【0021】
候補テキストデータ抽出部21は、汎用テキストデータベース11とターゲットドメインテキストデータベース12との比較結果に基づいて、学習用テキストデータの候補である候補テキストデータを、文単位で汎用テキストデータベース11から抽出する。そして、抽出した候補テキストデータを候補テキストデータベース13に格納する。なお、候補テキストデータ抽出部21による候補テキストデータの抽出方法の詳細については後述する。
【0022】
語彙サイズ最大化部22は、候補テキストデータ抽出部21により抽出されて候補テキストデータベース13に格納された候補テキストデータが表す文中の各単語について、ターゲットドメインテキストデータベース12での出現頻度を計算する。そして、計算した文中の各単語の出現頻度に基づいて、候補テキストデータベース13に格納されている候補テキストデータから学習用テキストデータを選択し、学習用テキストデータベース14に格納する。なお、語彙サイズ最大化部22による学習用テキストデータの選択方法の詳細については後述する。
【0023】
合成学習データ生成部30は、テキストデータ選択部20により選択されて学習用テキストデータベース14に格納されている学習用テキストデータに基づいて、ASRモデルの学習に用いる合成学習データを生成する。そして、生成した合成学習データを合成学習データベース15に格納する。
【0024】
図3は、合成学習データ生成装置1が合成学習データを生成する処理の流れを示すフローチャートである。
【0025】
ステップS10では、前述のような様々なテキストデータを汎用テキストデータとして取得し、汎用テキストデータベース11に格納する。ここでは、一般公開されている様々な情報源から汎用テキストデータを取得することができる。
【0026】
ステップS20では、テキストデータ選択部20の候補テキストデータ抽出部21により、汎用テキストデータベース11から候補テキストデータを抽出するための候補テキストデータ抽出処理を行う。この候補テキストデータ抽出処理が候補テキストデータ抽出部21において実行されることにより、汎用テキストデータベース11から学習用テキストデータの候補である候補テキストデータが抽出され、候補テキストデータベース13に格納される。なお、ステップS20の候補テキストデータ抽出処理の詳細については、後で図4のフローチャートを参照して説明する。
【0027】
ステップS30では、テキストデータ選択部20の語彙サイズ最大化部22により、候補テキストデータから語彙サイズを最大化した学習用テキストデータを選択するための語彙サイズ最大化処理を行う。この語彙サイズ最大化処理が語彙サイズ最大化部22において実行されることにより、候補テキストデータベース13から学習用テキストデータが選択され、学習用テキストデータベース14に格納される。なお、ステップS30の語彙サイズ最大化処理の詳細については、後で図5のフローチャートを参照して説明する。
【0028】
ステップS40では、合成学習データ生成部30により、学習用テキストデータから合成学習データを生成する。ここでは、例えばステップS30の語彙サイズ最大化処理によって学習用テキストデータベース14に格納された学習用テキストデータを学習済みのTTSモデルに入力することで、学習用テキストデータが表す文を音声合成した音声データを、ASRモデルの学習に用いる合成学習データとして生成する。
【0029】
ステップS40の処理を終えたら、生成した合成学習データを合成学習データベース15に格納し、図3のフローチャートに示す処理を終了する。
【0030】
図4は、図3のステップS20で候補テキストデータ抽出部21により実行される候補テキストデータ抽出処理の流れを示すフローチャートである。
【0031】
ステップS21では、汎用テキストデータベース11の各文をベクトル化する。ここでは、汎用テキストデータベース11に含まれるテキストデータが表す各文について、例えばBERT(Bidirectional Encoder Representations from Transformers)等の周知の手法を用いて、各文の文脈に応じた特徴を表すベクトルを計算する。
【0032】
ステップS22では、ターゲットドメインテキストデータベース12の各文をベクトル化する。ここでは、ターゲットドメインテキストデータベース12に含まれるテキストデータが表す各文について、ステップS21と同様の手法により、各文の文脈に応じた特徴を表すベクトルを計算する。
【0033】
ステップS23では、汎用テキストデータベース11の各文と、ターゲットドメインテキストデータベース12の各文との類似度を算出する。ここでは、ステップS21で計算した汎用テキストデータベース11の各文のベクトルに対して、ステップS22で計算したターゲットドメインテキストデータベース12の各文のベクトルとのコサイン類似度を算出し、算出されたコサイン類似度の値を汎用テキストデータベース11の文ごとに合計する。これにより、汎用テキストデータベース11に格納されているテキストデータに対して、ターゲットドメインテキストデータベース12との類似度を文単位で計算することができる。
【0034】
なお、上記では汎用テキストデータベース11とターゲットドメインテキストデータベース12の各文をベクトル化し、これらのベクトルに基づくコサイン類似度を計算することで、汎用テキストデータベース11の各文とターゲットドメインテキストデータベース12の各文との類似度を算出する例を説明したが、類似度の算出方法はこれに限定されない。汎用テキストデータベース11に格納されているテキストデータに対して、ターゲットドメインテキストデータベース12との類似度を文単位で適切に計算することができれば、任意の方法を用いて類似度を算出することが可能である。
【0035】
ステップS24では、汎用テキストデータベース11に格納されているテキストデータにおいて、ステップS23で算出した類似度が所定値以上の文を選択する。
【0036】
ステップS25では、ステップS24で選択した文において互いに重複しているものがあるか否かを判断し、重複するものがあれば一方を削除する。これにより、同じ文が候補テキストデータとして抽出されるのを防止し、候補テキストデータベース13における無駄なデータ量の増加を抑制する。
【0037】
ステップS26では、ステップS24で選択した文のうち、ステップS25で削除したものを除いた各文に対応する汎用テキストデータベース11のテキストデータを、候補テキストデータとして抽出する。そして、抽出した候補テキストデータを候補テキストデータベース13に記録して格納する。
【0038】
ステップS26の処理を実行したら、図4のフローチャートに示す候補テキストデータ抽出処理を終了し、図3のステップS30へ進む。
【0039】
候補テキストデータ抽出部21は、以上説明した候補テキストデータ抽出処理を実行することで、汎用テキストデータベース11に含まれるテキストデータが表す各文と、ターゲットドメインテキストデータベース12に含まれるテキストデータが表す各文との類似度を算出し、類似度が所定値以上の文に対応するテキストデータを、候補テキストデータとして汎用テキストデータベース11から抽出することができる。
【0040】
図5は、図3のステップS30で語彙サイズ最大化部22により実行される語彙サイズ最大化処理の流れを示すフローチャートである。
【0041】
ステップS31では、ターゲットドメインテキストデータベース12の出現単語リストを作成する。ここでは、ターゲットドメインテキストデータベース12に格納されているテキストデータの各文に含まれる単語を抽出してリスト化することで、出現単語リストを作成することができる。このとき、同じ単語が複数回出現する場合には、その出現回数に関わらず、一つの単語としてリスト化することが好ましい。
【0042】
ステップS32では、候補テキストデータベース13に格納されている候補テキストデータの各文について、ターゲットドメインテキストデータベース12に対する未出現単語の頻度を計算する。ここでは、ステップS31で作成した出現単語リストを参照することで、候補テキストデータベース13に格納されている候補テキストデータにおいて出現単語リストに存在しない単語を未出現単語として特定し、特定された未出現単語の数を文ごとに計算する。これにより、候補テキストデータにおける未出現単語の頻度を文単位で計算することができる。
【0043】
ステップS33では、ステップS32で計算した未出現単語の頻度に基づいて、候補テキストデータベース13に格納されている候補テキストデータの各文に対するランキングスコアを算出する。ここでは、例えば未出現単語の頻度が高い文ほど高いスコア値を設定してより上位にランキングされるように、候補テキストデータの各文のランキングスコアを算出する。これにより、候補テキストデータが表す各文を、当該文中の各単語について計算された未出現単語の頻度が高い順にランク付けすることができる。
【0044】
ステップS34では、ステップS33で算出したランキングスコアに基づいて、ランクが高い順にM個(Mは所定数)の文を候補テキストデータベース13から選択する。これにより、候補テキストデータベース13に格納されている候補テキストデータにおいて、未出現単語の頻度が高いM個の文を選択することができる。
【0045】
ステップS35では、候補テキストデータベース13に格納されている候補テキストデータのうち、ステップS34で選択した各文に対応するテキストデータを選択し、学習用テキストデータベース14に格納された学習用テキストデータに追加する。これにより、選択したテキストデータが新たな学習用テキストデータとして学習用テキストデータベース14に記録され、学習用テキストデータベース14が更新される。
【0046】
ステップS36では、N個(Nは所定数)以上の学習用テキストデータが学習用テキストデータベース14に追加されたか否かを判定する。ここでは、これまでに実行したステップS35で追加された学習用テキストデータの数を合計し、その合計数がN以上であるか否かを判定する。その結果、合計数がN以上であれば、図5のフローチャートに示す語彙サイズ最大化処理を終了し、図3のステップS40へ進む。一方、合計数がN未満であれば、ステップS37へ進む。
【0047】
ステップS37では、ステップS31で作成した出現単語リストを更新する。ここでは、ステップS35で追加した学習用テキストデータに対して、ステップS31と同様の処理を行うことにより、学習用テキストデータの出現単語リストを作成する。この出現単語リストを、ステップS31で作成した出現単語リストに加えることにより、出現単語リストを更新することができる。
【0048】
ステップS37の処理を実行したらステップS32へ戻り、更新後の出現単語リストを用いて、候補テキストデータにおける未出現単語の頻度を再計算する。この再計算後の未出現単語の頻度に基づいて、ステップS33~S36の処理を再度実行することで、学習用テキストデータをさらに追加する。このようにして、学習用テキストデータベース14に追加された学習用テキストデータの数がN個以上となるまで、ステップS32~S37の処理を繰り返し行う。なお、こうした繰り返し処理は、例えば反復貪欲法(iteration greedy search)と呼ばれるアルゴリズムにより実現できる。
【0049】
語彙サイズ最大化部22は、以上説明した語彙サイズ最大化処理を実行することで、候補テキストデータベース13に格納されている候補テキストデータが表す各文を、当該文中の各単語について計算された未出現単語の頻度が高い順にランク付けし、そのランク付けの結果に基づいて、候補テキストデータから学習用テキストデータを選択することができる。
【0050】
以上説明した本発明の一実施形態によれば、以下の作用効果が得られる。
【0051】
(1)合成学習データ生成装置1は、自動音声認識において用いられるASRモデルの学習を行うための合成学習データを生成する装置である。合成学習データ生成装置1は、予め収集された種々のテキストデータ群が格納された汎用テキストデータベース11と、自動音声認識のターゲットドメインに属するテキストデータ群が格納されたターゲットドメインテキストデータベース12と、汎用テキストデータベース11とターゲットドメインテキストデータベース12とを比較し、その比較結果に基づいて、汎用テキストデータベース11から学習用テキストデータを選択するテキストデータ選択部20と、テキストデータ選択部20により選択された学習用テキストデータに基づいて合成学習データを生成する合成学習データ生成部30と、を備える。このようにしたので、ASRモデルの学習データとして多様な学習データを生成することができる。
【0052】
(2)テキストデータ選択部20は、学習用テキストデータの候補である候補テキストデータを、文単位で汎用テキストデータベース11から抽出する候補テキストデータ抽出部21と、候補テキストデータ抽出部21により抽出された候補テキストデータが表す各文について、ターゲットドメインテキストデータベース12に対する未出現単語の頻度を計算し、計算した未出現単語の頻度に基づいて、候補テキストデータから学習用テキストデータを選択する語彙サイズ最大化部22と、を有する。このようにしたので、汎用テキストデータベース11とターゲットドメインテキストデータベース12とを比較し、その比較結果に基づいて、汎用テキストデータベース11から学習用テキストデータを適切に選択することができる。
【0053】
(3)候補テキストデータ抽出部21は、汎用テキストデータベース11に含まれるテキストデータが表す各文と、ターゲットドメインテキストデータベース12に含まれるテキストデータが表す各文との類似度を算出し(ステップS21~S23)、この類似度が所定値以上の文に対応するテキストデータを、候補テキストデータとして汎用テキストデータベース11から抽出する(ステップS24~S26)。このようにしたので、学習用テキストデータの候補である候補テキストデータを、文単位で確実に汎用テキストデータベース11から抽出することができる。
【0054】
(4)語彙サイズ最大化部22は、候補テキストデータが表す各文を、当該文中の各単語について計算された未出現単語の頻度が高い順にランク付けし(ステップS32~S33)、そのランク付けの結果に基づいて、候補テキストデータから学習用テキストデータを選択する(ステップS34~S35)。このようにしたので、候補テキストデータのうち未出現単語の頻度が高い文のテキストデータを、学習用テキストデータとして確実に選択することができる。
【0055】
なお、本発明は上記の実施形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。たとえば、上記の実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、説明した全ての構成を備えるものに必ずしも限定されるものではない。また上記実施形態の構成の一部について、他の構成の追加や削除、置換をすることが可能である。
【0056】
また上記の各構成、機能部、処理部、処理手段等は、それらの一部または全部を、たとえば、集積回路で設計する等によりハードウェアで実現してもよい。また上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD等の記録装置、ICカード、SDカード、DVD等の記録媒体に置くことができる。
【0057】
また上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。たとえば、実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【符号の説明】
【0058】
1:合成学習データ生成装置
2:プロセッサ
3:主記憶装置
4:補助記憶装置
5:入力装置
6:出力装置
7:通信装置
10:記憶部
11:汎用テキストデータベース
12:ターゲットドメインテキストデータベース
13:候補テキストデータベース
14:学習用テキストデータベース
15:合成学習データベース
20:テキストデータ選択部
21:候補テキストデータ抽出部
22:語彙サイズ最大化部
30:合成学習データ生成部
図1
図2
図3
図4
図5