特許第6768738号(P6768738)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日本経済新聞社の特許一覧

特許6768738学習データ生成装置、方法、およびプログラム
<>
  • 特許6768738-学習データ生成装置、方法、およびプログラム 図000002
  • 特許6768738-学習データ生成装置、方法、およびプログラム 図000003
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6768738
(24)【登録日】2020年9月25日
(45)【発行日】2020年10月14日
(54)【発明の名称】学習データ生成装置、方法、およびプログラム
(51)【国際特許分類】
   G06F 40/232 20200101AFI20201005BHJP
   G06F 40/216 20200101ALI20201005BHJP
   G06F 40/253 20200101ALI20201005BHJP
【FI】
   G06F40/232
   G06F40/216
   G06F40/253
【請求項の数】7
【全頁数】11
(21)【出願番号】特願2018-90231(P2018-90231)
(22)【出願日】2018年5月8日
(65)【公開番号】特開2019-197336(P2019-197336A)
(43)【公開日】2019年11月14日
【審査請求日】2018年12月20日
【新規性喪失の例外の表示】特許法第30条第2項適用 1.2018年3月5日 http://www.anlp.jp/nlp2018/proceedings/link.htmlにて発表 2.2018年3月12日〜3月16日(公開日2018年3月15日) 言語処理学会第24回年次大会(NLP2018)にて発表
(73)【特許権者】
【識別番号】000153203
【氏名又は名称】株式会社日本経済新聞社
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100103034
【弁理士】
【氏名又は名称】野河 信久
(74)【代理人】
【識別番号】100153051
【弁理士】
【氏名又は名称】河野 直樹
(74)【代理人】
【識別番号】100179062
【弁理士】
【氏名又は名称】井上 正
(74)【代理人】
【識別番号】100189913
【弁理士】
【氏名又は名称】鵜飼 健
(74)【代理人】
【識別番号】100199565
【弁理士】
【氏名又は名称】飯野 茂
(72)【発明者】
【氏名】中島 寛人
【審査官】 長 由紀子
(56)【参考文献】
【文献】 米国特許出願公開第2016/0350655(US,A1)
【文献】 特開2013−182347(JP,A)
【文献】 特開2003−196094(JP,A)
【文献】 特開2008−084064(JP,A)
【文献】 中国特許出願公開第107992211(CN,A)
【文献】 特開2019−057095(JP,A)
【文献】 氏原 淳志,第2章 ディープラーニング入門 CNNで画像分類とドキュメント分類にチャレンジ!,SoftwareDesign ,日本,(株)技術評論社,2017年 8月18日,第322号,p.26-34
【文献】 竹内 孔一、松本裕治,共起情報と統計的形態素解析によるOCR誤り訂正,情報処理学会研究報告,日本,社団法人情報処理学会,1997年 9月12日,第97巻第85号,pp.17-24
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00−58
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
文書校正エンジンの機械学習のために使用される学習データを生成する装置であって、
プロセッサを備え、
前記プロセッサが、
記憶装置に記憶された文書から、前記学習データを生成するために、任意の長さの任意の文字列を切り出す工程と、
前記切り出された文字列に対して、前記文字列に含まれる任意の1文字を重複させる処理、前記文字列に含まれる任意の1文字を削除する処理、前記文字列に含まれる任意の1文字を別の文字に置換する処理、前記文字列に含まれる任意の2文字を並べ替える処理、および前記文字列に含まれる任意の1文字を追加する処理、のうちの少なくとも何れかを実施することによって、前記切り出された文字列から、前記学習データを生成する工程とを実行する、学習データ生成装置。
【請求項2】
前記プロセッサは、前記生成された学習データを、前記文書校正エンジンへ出力する工程をさらに実行する、請求項1に記載の学習データ生成装置。
【請求項3】
前記学習データを生成する工程によって、同一の学習データが生成された場合、前記プロセッサは、前記同一の学習データのうちの1つのみを、前記文書校正エンジンへ出力する工程を実行する、請求項2に記載の学習データ生成装置。
【請求項4】
前記任意の1文字を削除する処理が実施された場合、前記プロセッサは、前記任意の1文字が削除された文字列の末尾に、任意の1文字を追加して前記学習データとする工程を実行する、請求項1乃至3のうち何れか1項に記載の学習データ生成装置。
【請求項5】
前記記憶装置をさらに備えた、請求項1乃至4のうち何れか1項に記載の学習データ生成装置。
【請求項6】
文書校正エンジンの機械学習のために使用される学習データを生成する方法であって、
プロセッサが、
記憶装置に記憶された文書から、前記学習データを生成するために、任意の長さの任意の文字列を切り出す工程と、
前記切り出された文字列に対して、前記文字列に含まれる任意の1文字を重複させる処理、前記文字列に含まれる任意の1文字を削除する処理、前記文字列に含まれる任意の1文字を別の文字に置換する処理、前記文字列に含まれる任意の2文字を並べ替える処理、および前記文字列に含まれる任意の1文字を追加する処理、のうちの少なくとも何れかを実施することによって、前記切り出された文字列から、前記学習データを生成する工程とを実行する、学習データ生成方法。
【請求項7】
文書校正エンジンの機械学習のために使用される学習データを生成するためのプログラムであって、
記憶装置に記憶された文書から、前記学習データを生成するために、任意の長さの任意の文字列を切り出す機能、
前記切り出された文字列に対して、前記文字列に含まれる任意の1文字を重複させる処理、前記文字列に含まれる任意の1文字を削除する処理、前記文字列に含まれる任意の1文字を別の文字に置換する処理、前記文字列に含まれる任意の2文字を並べ替える処理、および前記文字列に含まれる任意の1文字を追加する処理、のうちの少なくとも何れかを実施することによって、前記切り出された文字列から、前記学習データを生成する機能、
をコンピュータに実現させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書校正エンジンの機械学習のために使用される学習データを、自動的に生成する装置、方法、およびプログラムに関する。
【背景技術】
【0002】
近年、コンピュータによる機械学習で、人間の脳神経回路を模したニューラルネットワークを多層的にすることで、コンピュータ自らがデータに含まれる潜在的な特徴をとらえ、より正確で効率的な判断を実現させる深層学習が、画像認識などのパターン認識の分野において広く利用されている。
【0003】
このような深層学習によって、コンピュータは、より人間に近い判断ができるようになった。例えば、人間が他人や動物を識別する場合、視覚や聴覚などを駆使して、対象物の体格などの全体を見た後に、目、耳、口などの顔のパーツなどを認識したり、あるいはその逆に、パーツから全体を認識したりするような階層的な過程を経る。
【0004】
従来のコンピュータでは、このような過程を経た認識は困難とされ、対象物の特徴を計算するプログラムによって識別を行っていたが、深層学習によれば、コンピュータであっても、人間の認識過程と同じ過程を踏み、写真に写っている人の顔や動物等を認識することが可能になった。
【0005】
しかしながら、このような認識を可能にするために、深層学習では、大量の学習データによる学習が必要とされる。例えば、深層学習を使った画像認識によって、ゴリラの画像であるか、キリンの画像であるかを判断するためには、事前に、ゴリラの画像を少なくとも約十万枚、キリンの画像も同様に少なくとも約十万枚、それぞれを学習データとして、コンピュータへ提供し、学習させる必要がある。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】高橋諒著、「LSTMとResidual Learningでも難しい「助詞の検出精度」を改善した探索アルゴリズムとは」、 www.atmarkit.co.jp/ait/articles/1611/11/news016.html(リクルートテクノロジーズ)(平成30年4月13日検索)
【非特許文献2】Yuta Hitomi, Hideaki Tamori, Naoaki Okazaki and Kentaro Inui, ‘Proofread Sentence Generation as Multi-Task Learning with Edit Operation Prediction’, In Proceedings of the 8th International Joint Conference on Natural Language Processing.
【発明の概要】
【発明が解決しようとする課題】
【0007】
深層学習は、画像認識への適用のみならず、文書校正への応用も考えられている。
【0008】
深層学習を文書校正に応用するためには、文書校正を行うソフトウェアである文書校正エンジンを、深層学習によって学習させる必要がある。
【0009】
深層学習された文書校正エンジンが、文書の誤りを高い精度で判断できるようにするためには、学習データとして、正しい文のみならず、誤りを含む文(以下、「誤り文」と称する)をも必要とする。十分な校正精度を実現するためには、画像認識の場合と同様に、極めて大量な(例えば、数十万の)学習データを必要とする。
【0010】
しかしながら、正しい文の学習データを収集することは容易であるが、誤り文の学習データを収集することは容易ではない。なぜなら、一般に、公開されている文書は、原則として正しい文からなる文書であり、誤り文を含む文書は、通常であれば、公開されることはないからである。
【0011】
誤り文を含む文書を取得するために、例えば、新聞社や出版社のように、多くの文書を作成する機関から、記事等の作成途中の文書を収集し、作成途中の文書に含まれる誤り文を取得する手法が一案として考えられよう。
【0012】
しかしながら、この手法では、作成途中の文書から、誤り文をいくつ取得できるか否かは不明であり、誤り文を含む大量の学習データの作成へ大きく貢献することはないであろう。
【0013】
したがって、深層学習を用いて文書校正を行うためには、作成途中の文書に基づいて学習データを作成するだけでは十分ではなく、誤り文を、何らかの手法で、意図的に、自発的に生成する必要がある。
【0014】
とは言っても、誤り文の生成を、人間によって行うことは現実的ではない。なぜなら、人間は、本来、正しい文を生成するように思考するため、誤り文の生成には不慣れであるからである。従って、仮に人間が誤り文を生成するにしても、十分な数の誤り文を生成するために、多大なマンパワーを要することになるであろう。
【0015】
また、人間が誤り文を生成する場合、個人の癖によって、誤り方が偏ることも懸念される。仮に、十分な数の誤り文を生成することができても、誤り傾向が類似していては、有効な学習データになり得ないであろう。
【0016】
本発明はこのような事情に鑑みてなされたものであり、文書校正エンジンの機械学習のための学習データを、人手によってではなく、コンピュータによって自動的に生成することが可能な装置、方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0017】
上記の目的を達成するために、本発明では、以下のような手段を講じる。
【0018】
すなわち、請求項1の発明は、文書校正エンジンの機械学習のために使用される学習データを生成する装置であって、プロセッサを備える。プロセッサは、記憶装置に記憶された文書から、前記学習データを生成するために、任意の長さの任意の文字列を切り出す工程と、前記切り出された文字列に対して、前記文字列に含まれる任意の1文字を重複させる処理、前記文字列に含まれる任意の1文字を削除する処理、前記文字列に含まれる任意の1文字を別の文字に置換する処理、前記文字列に含まれる任意の2文字を並べ替える処理、および前記文字列に含まれる任意の1文字を追加する処理、のうちの少なくとも何れかを実施することによって、前記切り出された文字列から、前記学習データを生成する工程とを実行する。
【0019】
請求項2の発明は、請求項1に記載の学習データ生成装置において、プロセッサは、前記生成された学習データを、前記文書校正エンジンへ出力する工程をさらに実行する。
【0020】
請求項3の発明は、請求項2に記載の学習データ生成装置において、前記学習データを生成する工程によって、同一の学習データが生成された場合、プロセッサは、前記同一の学習データのうちの1つのみを、前記文書校正エンジンへ出力する工程を実行する。
【0021】
請求項4の発明は、請求項1乃至3のうち何れか1項に記載の学習データ生成装置において、前記任意の1文字を削除する処理が実施された場合、プロセッサは、前記任意の1文字が削除された文字列の末尾に、任意の1文字を追加して前記学習データとする工程を実行する。
【0022】
請求項5の発明は、請求項1乃至4のうち何れか1項に記載の学習データ生成装置において、前記記憶装置をさらに備える。
【0023】
請求項6の発明は、文書校正エンジンの機械学習のために使用される学習データを生成する方法であって、プロセッサが、記憶装置に記憶された文書から、前記学習データを生成するために、任意の長さの任意の文字列を切り出す工程と、前記切り出された文字列に対して、前記文字列に含まれる任意の1文字を重複させる処理、前記文字列に含まれる任意の1文字を削除する処理、前記文字列に含まれる任意の1文字を別の文字に置換する処理、前記文字列に含まれる任意の2文字を並べ替える処理、および前記文字列に含まれる任意の1文字を追加する処理、のうちの少なくとも何れかを実施することによって、前記切り出された文字列から、前記学習データを生成する工程とを実行する。
【0024】
請求項7の発明は、文書校正エンジンの機械学習のために使用される学習データを生成するためのプログラムであって、記憶装置に記憶された文書から、前記学習データを生成するために、任意の長さの任意の文字列を切り出す機能、前記切り出された文字列に対して、前記文字列に含まれる任意の1文字を重複させる処理、前記文字列に含まれる任意の1文字を削除する処理、前記文字列に含まれる任意の1文字を別の文字に置換する処理、前記文字列に含まれる任意の2文字を並べ替える処理、および前記文字列に含まれる任意の1文字を追加する処理、のうちの少なくとも何れかを実施することによって、前記切り出された文字列から、前記学習データを生成する機能、をコンピュータに実現させる。
【発明の効果】
【0025】
本発明によれば、文書校正エンジンの機械学習のための学習データ、特に、誤り文を含む学習データを、人手によってではなく、コンピュータによって自動的に生成することが可能な装置、方法、およびプログラムを実現することができる。
【図面の簡単な説明】
【0026】
図1】本発明の実施形態に係る学習データ生成方法が適用された学習データ生成装置の構成例を示すブロック図である。
図2】本発明の実施形態に係る学習データ生成方法が適用された学習データ生成装置の動作例を示すフローチャートである。
【発明を実施するための形態】
【0027】
以下に、本発明の実施形態に係る学習データ生成方法が適用された学習データ生成装置を、図面を参照して説明する。
【0028】
図1は、本発明の実施形態に係る学習データ生成方法が適用された学習データ生成装置の構成例を示すブロック図である。
【0029】
学習データ生成装置10は、文書校正のための機械学習のための学習データを生成するための装置である。
【0030】
機械学習は、深層学習を含む。学習データは、正しい文を含む学習データと、誤り文を含む学習データとを含む。学習データ生成装置10は、特に、誤り文を含む学習データの生成に好適である。なお、本明細書において、誤り文とは、誤字、脱字等を含む文が該当する。
【0031】
学習データ生成装置10の電子回路は、バス11によって互いに接続されたCPU12、記録媒体読取部14、ディスプレイ15、キー入力部16、通信部17、記憶装置18、およびメモリ20を備える。
【0032】
キー入力部16は、例えばキーボード、マウス等のように、ユーザからの操作入力を受け付ける部位である。
【0033】
CPU12は、コンピュータであって、メモリ20に記憶されている文字列切出プログラム21、学習データ生成プログラム22、および学習データ出力プログラム23に従い回路各部の動作を制御し、キー入力部16から入力された操作入力に従う処理を実行する。
【0034】
文字列切出プログラム21、学習データ生成プログラム22、および学習データ出力プログラム23は、メモリ20に予め記憶されていてもよいし、あるいはメモリカード等の外部記録媒体13から記録媒体読取部14を介してメモリ20に読み込まれて記憶されたものであってもよい。
【0035】
文字列切出プログラム21、学習データ生成プログラム22、および学習データ出力プログラム23は、ユーザによるキー入力部16からの入力によって書き換えできないようになっている。
【0036】
メモリ20には、このようなユーザ書き換え不可能な情報の他に、ユーザが書き換え可能なデータを記憶するエリアとして、キー入力部16によりなされた入力に対応する情報が順次入力されるエリアである書込可能データエリア24が確保されている。
【0037】
通信部17は、例えばインターネットのような通信ネットワークに接続されており、この通信ネットワークを介して、図示しない外部の文書サーバ等から、文書を受信し、受信した文書を、記憶装置18に記憶させたり、学習データ出力プログラム23によって出力された学習データを、通信ネットワークを介して、たとえば深層学習を適用した文書校正エンジン(図示しない)へ送信する。
【0038】
記憶装置18は、例えばSSD(Solid State Drive)やHDD(Hard Disk Drive)等からなり、図示しない外部の文書サーバ等から、通信ネットワークを介して、通信部17によって受信された文書を記憶している。なお、図1では、記憶装置18は、学習データ生成装置10の内部に備えられているが、記憶装置18は、学習データ生成装置10の外部に設けられていても良い。
【0039】
このように構成された学習データ生成装置10は、CPU12が文字列切出プログラム21、学習データ生成プログラム22、および学習データ出力プログラム23に記述された命令に従い回路各部の動作を制御し、ソフトウェアとハードウェアとが協働して動作することにより、以下に説明するように、文書から任意の文字列を切り出し、切り出した文字列を元に、学習データを自動的に生成し、生成した学習データを、文書校正エンジンへ提供する。
【0040】
文字列切出プログラム21は、記憶装置18に記憶された文書から、任意の長さの任意の文字列を切り出す。例えば、記憶装置18に記憶された文書が、「インターネットによって、オンラインで商品を購入することは容易だが、誤った商品が発送されるトラブルが多く発生している。」であったとする。この文書から、任意の長さとして10文字の長さの任意の文字列を切り出す場合、例えば、「とは容易だが、誤った」のような10文字の長さの文字列を切り出すことができる。
【0041】
学習データ生成プログラム22は、文字列切出プログラム21によって切り出された文字列に対して、(1)置換、(2)並び替え、(3)追加、(4)重複、および(5)削除のような5つの処理のうちの少なくとも何れかを実施する。上記(1)〜(5)の各処理の具体的な処理内容を、前述した文字列「とは容易だが、誤った」に対する処理結果とともに、以下に示す。
【0042】
(1)置換:切り出された文字列中の任意の1文字を、同じ文字種(ひらがな/カタカナ/漢字)の別の1文字に置換する。この処理によって、文字列「とは容易だが、誤った」を、例えば「とは容易だむ、誤った」へ変換することができる。
【0043】
(2)並び替え:切り出された文字列中の連続する同じ文字種の2文字を並び替える。この処理によって、文字列「とは容易だが、誤った」を、例えば「はと容易だが、誤った」へ変換することができる。
【0044】
(3)追加:切り出された文字列中の任意の1文字の直前あるいは直後に、同じ文字種の任意の1文字を追加する。この処理によって、文字列「とは容易だが、誤った」を、例えば「とは容易だうが、誤った」へ変換することができる。
【0045】
(4)重複:切り出された文字列中の任意の1文字を重複させる。この処理によって、文字列「とは容易だが、誤った」を、例えば「とは容易だがが、誤った」へ変換することができる。
【0046】
(5)削除:切り出された文字列中の任意の1文字を削除する。この処理によって、文字列「とは容易だが、誤った」を、例えば「とは容易だが、誤た」へ変換することができる。
【0047】
学習データ生成プログラム22は、上記(1)〜(5)の各処理による変換後の文字列を、学習データとして決定する。
【0048】
上記(1)〜(5)の各処理による変換後の文字列(例えば(1)「とは容易だむ、誤った」、(2)「はと容易だが、誤った」、(3)「とは容易だうが、誤った」、(4)「とは容易だがが、誤った」、および(5)「とは容易だが、誤た」)は、標準的な日本語の文書に現れることのない、誤り文を含む文字列である。
【0049】
このように、上記(1)〜(5)の各処理は、正しい元文に対して、最小の変換を施すことによって、元文から誤り文を生成しているので、誤り文は、正しい文に類似している。実際に、人間が文書を作成する際に犯す誤りも、1つの文中の、1箇所だけが誤りであるという場合がほとんどである。また、コンピュータにとって、一般に、多くの誤りを含む文よりも、1箇所しか誤りを含まない文の方が、正誤判断は困難である。
【0050】
このような観点から、文書校正エンジンの深層学習のための学習データとして使用される誤り文は、正しい文と類似しているほど、より好ましい。したがって、上記の様に学習データ生成プログラム22によって生成される学習データは、文書校正エンジンの性能向上のために好適な、良質な学習データとなる。
【0051】
なお、学習データ生成プログラム22は、(5)削除において、任意の1文字の削除処理を実施した場合、処理後の文は、他の処理による処理後の文字列数よりも少なくなるために、削除実施後の文字列の長さを他の処理と揃えるために、削除処理された文字列の末尾に、任意の1文字を追加しても良い。例えば、上記の例では、(5)を実施することにより、「とは容易だが、誤った」という10文字の文字列が、「とは容易だが、誤た」という9文字の文字列になってしまうので、文字数調整のために、削除実施後の文字列「とは容易だが、誤た」の末尾に、任意の1文字を追加して生成される例えば「とは容易だが、誤ただ」のような文を学習データとしても良い。
【0052】
また、上記例では、(1)〜(5)の各処理によって、1つの正しい文字列から、5つの誤り文が生成されることが示されているが、上記例は、正しい文字列に含まれるある1つの文字に対してなされた例にすぎない。上記例のように、10文字の文字列の場合、10文字のすべての文字を対象に上記(1)〜(5)の各処理を実施すれば、1つの正しい文字列から、最大で50の誤り文が生成されることになる。このように、学習データ生成装置10は、1つの正しい文字列から、非常に多くの誤りデータを生成する。
【0053】
なお、日本語に用いられる文字の種類の多さを考慮すると、可能性は十分に低いと思われるものの、上記(1)〜(5)の各処理を行った結果、誤りがない文が得られることもあり得る。しかしながら、学習データ生成プログラム22によって生成される学習データは、必ずしも誤り文を含んでいる必要はなく、誤り文を含んでいなくても良い。したがって、学習データ生成プログラム22は、上記(1)〜(5)の各処理によって得られた文を、正しい文であるか、誤り文が含まれているかに関わらず、学習データとして決定して良い。
【0054】
学習データ出力プログラム23は、学習データ生成プログラム22によって生成された学習データを、通信部17へ出力し、通信部17から、通信ネットワークを介して、図示しない文書校正エンジンへ向けて送信させる。
【0055】
なお、学習データ出力プログラム23は、学習データ生成プログラム22によって生成された学習データの中に、同一の学習データがある場合、同一の学習データのうちの1つのみを、通信部17から、文書校正エンジンへ向けて送信させても良い。
【0056】
次に、以上のように構成した本発明の実施形態に係る学習データ生成方法が適用された学習データ生成装置の動作を、図2に示すフローチャートを用いて説明する。
【0057】
通信部17によって、例えばインターネットのような通信ネットワークを介して、図示しない外部の文書サーバ等から、文書が受信される(S1)。
【0058】
たとえば、受信された文書は、「昨日から降り続いた雪のために、今日は最高のスキー日和となり、多くのスキー客が訪れた。」であったとする。
【0059】
通信部17によって受信された文書は、通信部17から、記憶装置18へ送られ、記憶装置18に記憶される(S2)。
【0060】
記憶装置18において記憶された文書から、文字列切出プログラム21によって、任意の長さの任意の文字列が切り出される(S3)。
【0061】
例えば、記憶装置18に記憶された文書「昨日から降り続いた雪のために、今日は最高のスキー日和となり、多くのスキー客が訪れた。」から、任意の長さとして11文字の文字列を切り出す場合、例えば、「今日は最高のスキー日和」のような11文字の長さの文字列を切り出すことができる。
【0062】
文字列切出プログラム21によって切り出された文字列に対して、学習データ生成プログラム22によって、(1)置換、(2)並び替え、(3)追加、(4)重複、および(5)削除のような5つの処理のうちの少なくとも何れかの処理が実施されることによって、学習データが生成される(S4)。
【0063】
ステップS3において切り出された文字列「今日は最高のスキー日和」に対し、上記(1)〜(5)の各処理がなされることによって、例えば、以下のような誤り文が生成される。
【0064】
(1)置換: 「今日る最高のスキー日和」
(2)並び替え:「日今は最高のスキー日和」
(3)追加: 「今日は最人高のスキー日」
(4)重複: 「今日は最高のスキキー日」
(5)削除: 「今日は最高のスキー和」
このように、上記(1)〜(5)の各処理によって生成される誤り文は、元文に対して、最小の変換処理が施されるだけであるので、正しい文に類似している。コンピュータにとっては、一般に、多くの誤りを含む文よりも、1箇所しか誤りを含まない文の方が、正誤判断は困難であることから、上記の様に生成される誤り文は、文書校正エンジンの性能向上のために好適な、良質な学習データとなる。
【0065】
また、上記例では、(1)〜(5)の各処理によって、1つの正しい文字列から、5つの誤り文が生成されることが示されているが、上記例は、正しい文字列に含まれるある1つの文字に対してなされた例にすぎない。上記例のように、11文字の文字列の場合、11文字のすべての文字を対象に上記(1)〜(5)の各処理を実施すれば、1つの正しい文字列から、最大で55の誤り文が生成される。このように、学習データプログラム22によれば、1つの正しい文字列から、非常に多くの学習データが効率的に生成される。
【0066】
このようにして学習データ生成プログラム22によって生成された学習データは、学習データ出力プログラム23によって、通信部17へ出力され、通信部17から、通信ネットワークを介して、図示しない文書校正エンジンへ向けて送信される(S5)。
【0067】
文書校正エンジンでは、送信された学習データを用いて、深層学習が行われる(S6)。
【0068】
上述したように、本実施形態に係る学習データ生成方法が適用された学習データ生成装置によれば、上記のような作用により、文書校正エンジンの深層学習のような機械学習のための良質な学習データを、コンピュータによって自動的かつ効率的に生成することができる。
【0069】
従って、深層学習を利用した文書校正エンジンの精度向上のために大いに寄与することが可能となる。
【0070】
以上、本発明を実施するための最良の形態について、添付図面を参照しながら説明したが、本発明はかかる構成に限定されない。特許請求の範囲の発明された技術的思想の範疇において、当業者であれば、各種の変更例及び修正例に想到し得るものであり、それら変更例及び修正例についても本発明の技術的範囲に属するものと了解される。
【産業上の利用可能性】
【0071】
本発明の学習データ生成装置は、文書校正エンジンの機械学習、特に深層学習のための学習データを生成するために利用することができる。
【符号の説明】
【0072】
10・・学習データ生成装置、
11・・バス、
12・・CPU、
13・・外部記録媒体、
14・・記録媒体読取部、
15・・ディスプレイ、
16・・キー入力部、
17・・通信部、
18・・記憶装置、
20・・メモリ、
21・・文字列切出プログラム、
22・・学習データ生成プログラム、
23・・学習データ出力プログラム、
24・・書込可能データエリア。
図1
図2