特開2024-22192 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 凸版印刷株式会社の特許一覧

特開2024-22192学習データ生成装置、学習装置、予測装置、学習データ生成方法、学習方法、予測方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024022192

(43)【公開日】2024-02-16

(54)【発明の名称】学習データ生成装置、学習装置、予測装置、学習データ生成方法、学習方法、予測方法、及びプログラム

(51)【国際特許分類】

G06V 30/194 20220101AFI20240208BHJP

【ＦＩ】

G06V30/194

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2022125593

(22)【出願日】2022-08-05

(71)【出願人】

【識別番号】000003193

【氏名又は名称】ＴＯＰＰＡＮホールディングス株式会社

(74)【代理人】

【識別番号】100149548

【弁理士】

【氏名又は名称】松沼泰史

(74)【代理人】

【識別番号】100139686

【弁理士】

【氏名又は名称】鈴木史朗

(74)【代理人】

【識別番号】100169764

【弁理士】

【氏名又は名称】清水雄一郎

(74)【代理人】

【識別番号】100147267

【弁理士】

【氏名又は名称】大槻真紀子

(72)【発明者】

【氏名】河津光晟

(72)【発明者】

【氏名】波多野亮平

【テーマコード（参考）】

5B064

【Ｆターム（参考）】

5B064AB03

5B064CA08

5B064DA27

(57)【要約】

【課題】特徴を有する文字列において、その特徴を有する文字列、及び、一部の文言が省略される等してその特徴を有しない文字列の両方に対し、共通する１つのモデルを用いて文字を正しく文字認識させる。
【解決手段】構成要素に特徴を有する文字列の文字情報が記憶された文字列データベースと、文字列データベースから選択された第１文字列から、当該第１文字列の文字数よりも短い文字数を有する第２文字列を切り取る切取部と、手書きされた文字である手書文字の画像情報が記憶された画像データベースと、切取部によって切り取られた第２文字列を構成する文字のそれぞれに対応する手書文字の画像を前記画像データベースから選択する選択部と、選択部によって選択された画像を連結させることによって文字列画像を生成し、第２文字列の文字情報と文字列画像とを対応づけることによって、学習モデルに学習させる学習データを生成する生成部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

構成要素に特徴を有する文字列の文字情報が記憶された文字列データベースと、
前記文字列データベースから選択された第１文字列から、当該第１文字列の文字数よりも短い文字数を有する第２文字列を切り取る切取部と、
手書きされた文字である手書文字の画像情報が記憶された画像データベースと、
前記切取部によって切り取られた前記第２文字列を構成する文字のそれぞれに対応する前記手書文字の画像を前記画像データベースから選択する選択部と、
前記選択部によって選択された画像を連結させることによって文字列画像を生成し、前記第２文字列の文字情報と前記文字列画像とを対応づけることによって、学習モデルに学習させる学習データを生成する生成部と、
を備える学習データ生成装置。

【請求項2】

前記第１文字列の特徴に応じて、前記第２文字列として切り取る文字数である切取範囲が決定される、
請求項１に記載の学習データ生成装置。

【請求項3】

前記切取部は、前記切取範囲からランダムに選択した値を、前記第１文字列から切取る文字数である切取文字数とする、
請求項２に記載の学習データ生成装置。

【請求項4】

前記切取部は、前記第１文字列の文字数と前記切取文字数とに基づいて、前記第２文字列の文字数が前記切取文字数を下回らないようにランダムに始端位置を決定し、決定した前記始端位置を用いて、前記第１文字列における前記始端位置から前記切取文字数の文字列を前記第２文字列として切り取る、
請求項３に記載の学習データ生成装置。

【請求項5】

前記切取部は、前記第１文字列の文字数と前記切取文字数に基づいて、前記第２文字列の文字数が前記切取文字数を下回らない始端位置の全てを用いて、前記第１文字列における前記始端位置のそれぞれから前記切取文字数の文字列を前記第２文字列として切り取る、
請求項３に記載の学習データ生成装置。

【請求項6】

前記文字列データベースには、住所が示された文字列の文字情報が記憶される、
請求項１に記載の学習データ生成装置。

【請求項7】

請求項１から請求項６のいずれか一項に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって、手書きされた文字列における文字を予測するための予測モデルを生成する学習部、
を備える学習装置。

【請求項8】

請求項１から請求項６のいずれか一項に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって生成された、書きされた文字列における文字を予測するための予測モデルを用いて、手書きされた文字列における文字を予測する予測部、
を備える予測装置。

【請求項9】

構成要素に特徴を有する文字列の文字情報が記憶された文字列データベースと、手書きされた文字である手書文字の画像情報が記憶された画像データベースと、を備える学習データ生成装置であるコンピュータが行う学習データ生成方法であって、
切取部が、前記文字列データベースから選択された第１文字列から、当該第１文字列の文字数よりも短い文字数を有する第２文字列を切り取り、
選択部が、前記切取部によって切り取られた前記第２文字列を構成する文字のそれぞれに対応する前記手書文字の画像を前記画像データベースから選択し、
生成部が、前記選択部によって選択された画像を連結させることによって文字列画像を生成し、前記第２文字列の文字情報と前記文字列画像とを対応づけることによって、学習モデルに学習させる学習データを生成する、
を含む学習データ生成方法。

【請求項10】

学習装置であるコンピュータが行う学習方法であって、
学習部が、請求項１から請求項６のいずれか一項に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって、手書きされた文字列における文字を予測するための予測モデルを生成する、
学習方法。

【請求項11】

予測装置であるコンピュータが行う予測方法であって、
予測部が、請求項１から請求項６のいずれか一項に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって生成された、書きされた文字列における文字を予測するための予測モデルを用いて、手書きされた文字列における文字を予測する、
予測方法。

【請求項12】

構成要素に特徴を有する文字列の文字情報が記憶された文字列データベースと、手書きされた文字である手書文字の画像情報が記憶された画像データベースと、を備える学習データ生成装置であるコンピュータに、
前記文字列データベースから選択された第１文字列から、当該第１文字列の文字数よりも短い文字数を有する第２文字列を切り取らせ、
前記切り取られた前記第２文字列を構成する文字のそれぞれに対応する前記手書文字の画像を前記画像データベースから選択させ、
前記選択された画像を連結させることによって文字列画像を生成し、前記第２文字列の文字情報と前記文字列画像とを対応づけることによって、学習モデルに学習させる学習データを生成させる、
プログラム。

【請求項13】

学習装置であるコンピュータに、
請求項１から請求項６のいずれか一項に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって、手書きされた文字列における文字を予測するための予測モデルを生成させる、
プログラム。

【請求項14】

予測装置であるコンピュータに、
請求項１から請求項６のいずれか一項に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって生成された、書きされた文字列における文字を予測するための予測モデルを用いて、手書きされた文字列における文字を予測させる、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習データ生成装置、学習装置、予測装置、学習データ生成方法、学習方法、予測方法、及びプログラムに関する。

【背景技術】

【0002】

近年、ディープラーニングを用いた学習を行うことによって、帳票などに書かれている手書きの文字列を文字認識する手法が盛んに開発されている。

【0003】

ディープラーニングを用いた学習では、例えば、手書きの文字列を撮像した文字列画像を学習モデルに入力することによって文字列を認識させると共に、文字列として妥当な並びを学習する。ここで用いられる学習モデルは、例えば、ＣＲＮＮ(Convolution Recurrent Neural Networks)と称されるようなモデルである。ＣＲＮＮでは、単純にＣＮＮ(Convolution Neural Networks)によって画像の特徴を学習させるだけではなく、画像を認識した結果をＲＮＮ(Recurrent Neural Networks)によって入力の前後関係を学習させることができる。

【0004】

例えば、特許文献１には、文字列をＯＣＲ（Optical character Recognition）によって認識させた結果に対して、文字列をいくつかのサブ文字列に分割し、ＲＮＮによって認識結果の正誤を学習する技術が開示されている。特許文献２には、文字列画像をＣＮＮに入力することによってＣＮＮスコア行列を求め、そのＣＮＮスコア行列をＲＮＮに入力することによって認識させた文字や文字列の並びが妥当であるかを学習する。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１８－９２４５９号公報

【特許文献2】特開２０１７－２１５８５９号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

通常、ＣＲＮＮを用いて文字列画像を学習させる際には、文字や文字列の並びに特徴がある文字列の全体（以下、全体文字列という）を学習させることを想定している。文語を示す文字列であれば、全体文字列として、例えば、句点「。」、及び「です」或いは「ます」等の文末表現が含まれる文字列を学習させることを想定している。また、住所を示す文字列であれば、全体文字列として、都道府県から番地までが順番に一行で記載された文字列画像３３０（図６Ａ参照）に示された文字列を学習させることを想定している。

【0007】

一方、全体文字列が複数行で示されたり、或いは、一部の記載が省略されたりして、全体文字列における一部の文字列（以下、部分文字列という）が文字認識の対象となる場合がある。例えば、文語で示された文字列であれば、文字列の途中で改行されるなどして、部分文字列として、句点「。」等の文末表現が含まれない文字列が文字認識の対象となり得る。また、住所を示す文字列であれば、部分文字列として、二段に分けて記載された住所を示す文字列画像３３１（図６Ｂ参照）の上段、或いは下段のみに示された文字列が文字認識の対象となり得る。

【0008】

前者のような全体文字列と、後者のような部分文字列とでは、文字列が持つ特徴が異なる。前述した通り、ＣＲＮＮは、文字や文字列の並びを学習するモデルであることから、文字列が持つ特徴が異なる場合、それぞれの特徴毎に、別々のモデルを用いて学習させた方が、文字認識の精度が高くなる場合が多い。つまり、全体文字列を学習させたモデルを用いて全体文字列の文字認識を行い、部分文字列を学習させたモデルを用いて部分文字列の文字認識を行う方が、文字認識の精度が高くなる可能性が高い。しかし、データ容量などの観点から、複数のモデルのそれぞれを学習させたり、運用したりすることが困難な場合があり、共通する１つのモデルを用いて、全体文字列および部分文字列の両方の文字列を文字認識させたいというニーズがある。

【0009】

しかしながら、例えば、全体文字列を学習させたモデルを用いて、部分文字列の文字認識を行った場合、部分文字列の認識結果に、全体文字列の特徴に基づく誤った認識結果が含まれる可能性がある。例えば、文語で示された部分文字列における認識結果において、末尾に句点「。」が付されてしまう可能性がある。また、都道府県のみが書かれた部分文字列の認識結果において、末尾に、番地を示す「号」が付されてしまう可能性がある。

【0010】

本発明は、このような状況に鑑みてなされたものであり、構成要素に特徴を有する文字列において、その特徴を有する文字列、及び、一部の文言が省略される等してその特徴を有しない文字列の両方に対し、共通する１つのモデルを用いて文字を正しく文字認識させることができる学習データ生成装置、学習装置、予測装置、学習データ生成方法、学習方法、予測方法、及びプログラムを提供する。

【課題を解決するための手段】

【0011】

本発明の一態様にかかる学習データ生成装置は、構成要素に特徴を有する文字列の文字情報が記憶された文字列データベースと、前記文字列データベースから選択された第１文字列から、当該第１文字列の文字数よりも短い文字数を有する第２文字列を切り取る切取部と、手書きされた文字である手書文字の画像情報が記憶された画像データベースと、前記切取部によって切り取られた前記第２文字列を構成する文字のそれぞれに対応する前記手書文字の画像を前記画像データベースから選択する選択部と、前記選択部によって選択された画像を連結させることによって文字列画像を生成し、前記第２文字列の文字情報と前記文字列画像とを対応づけることによって、学習モデルに学習させる学習データを生成する生成部と、を備える。

【0012】

本発明の一態様にかかる学習装置は、上記に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって、手書きされた文字列における文字を予測するための予測モデルを生成する学習部、を備える。

【0013】

本発明の一態様にかかる予測装置は、上記に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって生成された、書きされた文字列における文字を予測するための予測モデルを用いて、手書きされた文字列における文字を予測する予測部、を備える。

【0014】

本発明の一態様にかかる学習データ生成方法は、構成要素に特徴を有する文字列の文字情報が記憶された文字列データベースと、手書きされた文字である手書文字の画像情報が記憶された画像データベースと、を備える学習データ生成装置であるコンピュータが行う学習データ生成方法であって、切取部が、前記文字列データベースから選択された第１文字列から、当該第１文字列の文字数よりも短い文字数を有する第２文字列を切り取り、選択部が、前記切取部によって切り取られた前記第２文字列を構成する文字のそれぞれに対応する前記手書文字の画像を前記画像データベースから選択し、生成部が、前記選択部によって選択された画像を連結させることによって文字列画像を生成し、前記第２文字列の文字情報と前記文字列画像とを対応づけることによって、学習モデルに学習させる学習データを生成する。

【0015】

本発明の一態様にかかる学習方法は、学習装置であるコンピュータが行う学習方法であって、学習部が、上記に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって、手書きされた文字列における文字を予測するための予測モデルを生成する。

【0016】

本発明の一態様にかかる予測方法は、予測装置であるコンピュータが行う予測方法であって、予測部が、上記に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって生成された、書きされた文字列における文字を予測するための予測モデルを用いて、手書きされた文字列における文字を予測する。

【0017】

本発明の一態様にかかるプログラムは、構成要素に特徴を有する文字列の文字情報が記憶された文字列データベースと、手書きされた文字である手書文字の画像情報が記憶された画像データベースと、を備える学習データ生成装置であるコンピュータに、前記文字列データベースから選択された第１文字列から、当該第１文字列の文字数よりも短い文字数を有する第２文字列を切り取らせ、前記切り取られた前記第２文字列を構成する文字のそれぞれに対応する前記手書文字の画像を前記画像データベースから選択させ、前記選択された画像を連結させることによって文字列画像を生成し、前記第２文字列の文字情報と前記文字列画像とを対応づけることによって、学習モデルに学習させる学習データを生成させるプログラムである。

【0018】

本発明の一態様にかかるプログラムは、学習装置であるコンピュータに、上記に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって、手書きされた文字列における文字を予測するための予測モデルを生成させるプログラムである。

【0019】

本発明の一態様にかかるプログラムは、予測装置であるコンピュータに、上記に記載の学習データ生成装置によって生成された学習データを用いて学習モデルを学習させることによって生成された、書きされた文字列における文字を予測するための予測モデルを用いて、手書きされた文字列における文字を予測させるプログラムである。

【発明の効果】

【0020】

本発明によれば、構成要素に特徴を有する文字列において、その特徴を有する文字列、及び、一部の文言が省略される等してその特徴を有しない文字列の両方に対し、共通する１つのモデルを用いて文字を正しく文字認識させることができる。

【図面の簡単な説明】

【0021】

【図1】実施形態にかかる文字認識システム１の構成を示すブロック図である。

【図2】実施形態にかかる学習データ生成装置１０が行う処理を説明するための図である。

【図3】実施形態の文字認識システム１が行う処理の流れを示すフローチャートである。

【図4】実施形態の変形例にかかる学習データ生成装置１０が行う処理を説明するための図である。

【図5】実施形態の変形例にかかる学習データ生成装置１０が行う処理を説明するための図である。

【図6A】実施形態の文字認識システム１が文字認識をする文字列画像の例を示す図である。

【図6B】実施形態の文字認識システム１が文字認識をする文字列画像の例を示す図である。

【発明を実施するための形態】

【0022】

以下、本発明の実施の形態について図面を参照しながら説明する。

【0023】

（文字認識システム１の概要について）
文字認識システム１は、手書文字を文字認識するシステムである。手書文字は手書きされた文字である。

【0024】

文字認識システム１では、構成要素に特徴を有する文字列に対する文字認識を行う。ここでの特徴とは、文字認識の対象とする文字列において、一様な頻度よりも有意に高い確率で出現する、特定の文言（特定文言）が含まれることを指す。

【0025】

例えば、文字認識システム１において、文語を示す文字列の文字認識を行う場合、文字列の特徴として、例えば、句点「。」、「です」、「ます」等の文末表現を示す特定文言が、有意に高い割合で文字列に出現する。

【0026】

例えば、文字認識システム１において、住所を示す文字列の文字認識を行う場合、文字列の特徴として、例えば、「都」、「道」、「府」、「県」、「市」、「区」、「町」、「村」、「丁目」、及び「番地」等の地区を示す特定文言が、有意に高い割合で文字列に出現する。

【0027】

また、文字認識システム１では、文字列の全体（全体文字列）、及び全体文字列が複数行で示される等した場合における、全体文字列の一部の文字列（部分文字列）に対する文字認識を行う。

【0028】

図６（図６Ａ及び図６Ｂ）は、実施形態の文字認識システム１が文字認識をする文字列画像の例を示す図である。図６Ａに示すように、本実施形態では、都道府県から番地までが順番に一行で記載された文字列画像３３０を、文字認識を行う対象とする。文字列画像３３０に対応する文字列は、「全体文字列」の一例である。

【0029】

図６Ｂに示すように、本実施形態では、都道府県から番地までを二段に分けて記載された住所を示す文字列画像３３１の上段、或いは下段のみに示された文字列を、文字認識を行う対象とする。文字列画像３３１の上段、或いは下段に対応する文字列は、「部分文字列」の一例である。

【0030】

以下では、住所の特徴を有する手書きの文字列の文字認識を行う場合を例示して説明する。しかしながらこれに限定されない。少なくとも文字の並べ方に何等かの規則性がある文字列であって、記載の形式が複数あり得る文字列であれば、任意の文字列に対し本実施形態の文字認識システム１を適用することが可能である。

【0031】

例えば、帳票において、一文字につき一枠で区切られていない等、自由に記入欄することができる自由記入欄に手書きで記載される事項、例えば、住所の他、年月日、電話番号、及び、法人名称等を示す文字列に対し本実施形態の文字認識システム１を適用することが可能である。また、文頭または文末に特定の文字列が付されたり、特定の文字列の記載が省略されたりする場合がある文字列に対し本実施形態の文字認識システム１を適用することが可能である。

【0032】

特に、年月日を示す文字列については、帳票などにおいて、元号が記入される場合と省略される場合があり得る。このような、帳票などにおいて手書きで記入された、元号が記入されたものと、元号の記載が簡略化されたり省略されたりしたものとが混在する年月日を示す文字列のそれぞれにおける文字認識に、本実施形態の文字認識システム１を適用することが可能である。

【0033】

また、電話番号を示す文字列については、帳票などにおいて、先頭の３桁（地域によっては４桁）の番号が、別の段に記入されたり、同じ段に記入されたり、省略されたりする場合がある。このような、帳票などにおいて手書きで記入された、先頭の３桁（地域によっては４桁）が、含まれているものと含まれていないものとが混在する電話番号を示す文字列のそれぞれにおける文字認識に、本実施形態の文字認識システム１を適用することが可能である。

【0034】

また、法人名称を示す文字列については、帳票などにおいて、「株式会社」、「銀行」、「信金」等の文言が記入される場合と、省略される場合があり得る。このような、帳票などにおいて手書きで記入された、「株式会社」等の記載が含まれているものと含まれていないものとが混在する法人名称を示す文字列のそれぞれにおける文字認識に、本実施形態の文字認識システム１を適用することが可能である。

【0035】

（文字認識システム１の構成について）
図１は、本発明の実施形態にかかる文字認識システム１のブロック図である。図１に示すように、本発明の実施形態にかかる文字認識システム１は、学習データ生成装置１０と、学習装置２０と、予測装置３０とを備える。

【0036】

（学習データ生成装置１０について）
学習データ生成装置１０は、コンピュータである。学習データ生成装置１０として、ＰＣ（Personal Computer）、サーバ装置、クラウド等を適用することができる。学習データ生成装置１０は、学習データを生成する。ここでの学習データは、文字認識を行うための学習モデル（学習装置２０の学習モデル２２）に学習させるデータである。

【0037】

学習データ生成装置１０は、例えば、文字列ＤＢ１１と、切取部１２と、画像ＤＢ１３と、選択部１４と、生成部１５と、画像データ記憶部１６とを備える。

【0038】

学習データ生成装置１０が備える機能部（切取部１２、選択部１４、及び生成部１５）により行われる処理は、学習データ生成装置１０がハードウェアとして備えるＣＰＵ（Central Processing Unit）にプログラムを実行させることによって実現される。

【0039】

ここでのプログラムは、学習データ生成装置１０が備える記憶部に記憶される。記憶部は、ＨＤＤ（Hard Disk Drive）、フラッシュメモリ、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、ＲＡＭ（Random Access read/write Memory）、ＲＯＭ（Read Only Memory）などの記憶媒体、あるいはこれらの組合せによって構成される。記憶部は、学習データ生成装置１０の各種処理を実行するためのプログラムの他、各種処理を行う際に利用される一時的なデータを記憶する。

【0040】

なお、この学習データ生成装置１０が備える記憶部に、後述する、文字列ＤＢ１１、画像ＤＢ１３、及び画像データ記憶部１６が含まれていてもよいし、この記憶部とは別個に、文字列ＤＢ１１、画像ＤＢ１３、及び画像データ記憶部１６が設けられていてもよい。

【0041】

文字列ＤＢ１１は、構成要素に共通の特徴を持つ文字列群の文字情報（例えば、テキスト情報）が記憶されたデータベース（ＤＢ）である。例えば、文字列ＤＢ１１には、物語文、論説文、住所であれば都道府県から町字以下までが示された文字列、及び氏名であれば姓名が示された文字列などが、記憶されている。学習データ生成装置１０では、文字列ＤＢ１１に記憶された文字列を用いて、学習データが生成される。

【0042】

ここでの特徴とは、文字認識の対象とする文字列において、一様な頻度よりも有意に高い確率で出現する、特定の文言（特定文言）が含まれることを指す。例えば、特定文言の文字数をｎとし、文字数がｎである文言が、ｃ種類あるとする。字数がｎである文言のそれぞれが出現する頻度が均一であれば、それぞれの文言は（１／ｃ）の割合で文字列に出現する。これに対し、特定文言は、（１／ｃ）よりも有意に高い割合で、その文字列に出現する。例えば、有意に高い割合と判定する閾値として、１％を適用することができる。なお、ここでのｎおよびｃは任意の自然数である。すなわち、文字列ＤＢ１１に記憶された文字列は、特定文言が出現する頻度が有意に高い文字列である。

【0043】

切取部１２は、文字列ＤＢ１１から選択された文字列（第１文字列）に対して、切取処理を行う。切取処理は、第１文字列から、当該第１文字列の文字数よりも短い文字列（第２文字列）を切り取る処理である。切取処理の詳細については後で詳しく説明する。切取部１２は、第２文字列の文字情報を、選択部１４に出力する。

【0044】

画像ＤＢ１３は、手書文字の画像情報が記憶されたデータベース（ＤＢ）である。例えば、画像ＤＢ１３には、手書文字の一文字ごとに、その画像情報が記憶される。画像ＤＢ１３には、各文字種に対して１つ以上の手書文字の画像情報が記憶される。

【0045】

選択部１４は、第２文字列を構成する文字のそれぞれに対応する手書文字の画像を画像ＤＢ１３から選択する。例えば、選択部１４は、第２文字列を構成する文字の文字種に基づいて画像ＤＢ１３を参照し、画像ＤＢ１３に記憶されている当該文字種に対応する複数の手書文字から１つの手書文字を選択し、選択した手書文字の画像情報を抽出する。

【0046】

生成部１５は、選択部１４によって選択された手書文字の画像を連結することによってし、手書文字の文字列画像を生成する。画像ＤＢ１３は、第２文字列の文字情報と、生成した手書文字の文字列画像とを対応づけることによって学習データを生成する。生成部１５は、生成した学習データを画像データ記憶部１６に記憶させる。

【0047】

画像データ記憶部１６は、生成部１５によって生成された学習データを記憶する。学習データには、文字情報と、その文字情報に対応する手書文字の文字列画像とが対応づけられている。

【0048】

（学習装置２０について）
学習装置２０は、コンピュータである。学習装置２０として、ＰＣ、サーバ装置、クラウド等を適用することができる。学習装置２０は、文字認識を行うための学習済モデル（予測装置３０の予測モデル３２）を生成する。

【0049】

学習装置２０は、例えば、学習部２１と学習モデル２２とを備える。学習装置２０が備える機能部（学習部２１）により行われる処理は、学習装置２０がハードウェアとして備えるＣＰＵにプログラムを実行させることによって実現される。ここでのプログラムは、学習装置２０が備える記憶部に記憶される。記憶部は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＡＭ、ＲＯＭなどの記憶媒体、あるいはこれらの組合せによって構成される。記憶部は、学習装置２０の各種処理を実行するためのプログラムの他、各種処理を行う際に利用される一時的なデータを記憶する。

【0050】

学習部２１は、学習モデル２２を含む。学習部２１は、学習モデル２２に学習データを学習させる。学習部２１は、画像データ記憶部１６を参照することによって、文字情報と、その文字情報に対応する手書文字の文字列画像とが対応づけられた学習データを取得する。学習部２１は、取得した学習データを学習モデル２２に入力することによって、学習モデル２２を学習させる。

【0051】

学習モデル２２は、例えば、ＣＲＮＮであり、文字列画像に示されている文字列が、何の文字であるかを学習するためのモデルである。学習モデル２２は、学習モデル２２におけるＣＲＮＮのＣＮＮの部分によって、画像ＤＢ１３に記憶されている手書文字の画像と文字との対応関係を、事前に学習させたモデルである。

【0052】

（予測装置３０について）
予測装置３０は、コンピュータである。予測装置３０として、ＰＣ、サーバ装置、クラウド等を適用することができる。予測装置３０は、文字認識を行う。予測装置３０は、予測モデル３２を用いて文字認識を行う。

【0053】

予測装置３０は、例えば、予測部３１と予測モデル３２と予測画像ＤＢ３３と出力部３４とを備える。予測装置３０が備える機能部（予測部３１及び出力部３４）により行われる処理は、予測装置３０がハードウェアとして備えるＣＰＵにプログラムを実行させることによって実現される。ここでのプログラムは、予測装置３０が備える記憶部に記憶される。記憶部は、ＨＤＤ、フラッシュメモリ、ＥＥＰＲＯＭ、ＲＡＭ、ＲＯＭなどの記憶媒体、あるいはこれらの組合せによって構成される。記憶部は、予測装置３０の各種処理を実行するためのプログラムの他、各種処理を行う際に利用される一時的なデータを記憶する。この記憶部に、予測モデル３２及び予測画像ＤＢ３３が記憶されていてもよいし、別の記憶媒体に、予測モデル３２及び予測画像ＤＢ３３が記憶されていてもよい。

【0054】

予測部３１は、予測モデル３２を含む。予測部３１は、予測モデル３２を用いて、手書文字で示されている文字列に対応する文字を予測する。予測部３１は、予測画像ＤＢ３３を参照することによって、文字認識の対象とする手書きの文字列の画像を取得する。予測部３１は、取得した画像の画像情報を予測モデル３２に入力することによって、予測モデル３２から得られる出力を、その手書の文字列に対応する文字の予測結果とする。

【0055】

予測モデル３２は、学習装置２０によって学習された学習モデル２２である。予測モデル３２は、入力された文字列画像に対応する文字列の文字情報を、文字列画像における文字認識の結果として出力する。

【0056】

予測画像ＤＢ３３は、文字認識の対象である手書きの文字列の画像情報が記憶されたデータベース（ＤＢ）である。予測画像ＤＢ３３には、予測部３１と同様の特徴を有する文字列、例えば、住所などが手書で記載された文字列がスキャンされることによって生成された画像の画像情報が記憶される。

【0057】

出力部３４は、予測モデル３２によって予測された文字認識の結果を出力する。出力部３４は、例えば、液晶ディスプレイを備え、予測モデル３２によって予測された文字認識の結果を液晶ディスプレイに表示する。

【0058】

（切取処理について）
ここで、切取部１２が行う切取処理について、図２を用いて説明する。図２は、実施形態にかかる学習データ生成装置１０が行う処理を説明するための図である。

【0059】

切取部１２は、例えば、予め定められた切取範囲に応じて、切取文字数をランダムに決定する。切取範囲は、第２文字列として切り取る文字数の範囲である。切取範囲は、文字列の特徴によって決定される。例えば、住所を示す文字列の場合、切取範囲は、８～１６文字などに設定される。切取文字数は、第２文字列の文字数である。

【0060】

図２には、切取処理が示されている。文字列４０１は、学習データ生成装置１０から選択された文字列「富山県魚津市本新町８丁目９番３号」であり、第１文字列の一例である。文字列４０２は、文字列４０１から切取られた文字列「県魚津市本新町８丁目」であり、第２文字列の一例である。

【0061】

まず、切取部１２は、切取文字数を決定する。例えば、切取部１２は、切取範囲からランダムに切取文字数を決定する。例えば、切取範囲が８～１６に設定されている場合、切取部１２は、ある文字列４０１に対し、切取文字数を「１０」に決定する。また、切取部１２は、別の文字列４０１に対し、切取文字数を「１６」に決定する。

【0062】

このように、ランダムに切取文字数を決定することによって、文字列の特徴である特定文言が含まれる第２文字列と、含まれない第２文字列とを無作為に生成することができ、学習データにおける偏り、つまり、特定文言が出現する頻度を低減させることができる。

【0063】

次に、切取部１２は、文字列４０１を切取るか否かを判定する。切取部１２は、文字列４０１の文字数と、切取文字数とを比較し、切取文字数が、文字列４０１の文字数より小さい場合に文字列４０１を切取る（切取あり）と判定する。一方、切取部１２は、切取文字数が、文字列４０１の文字数以上である場合に文字列４０１を切取らない（切取なし）と判定する。このように、切取部１２は、文字列４０１の文字数と、切取文字数との関係に応じて、切取処理を行うか否かを判定するようにしてよい。

【0064】

例えば、切取文字数を「１０」とした場合、切取部１２は、切取文字数である「１０」が文字列４０１の文字数「１６」より小さいことから、文字列４０１を切取る（切取あり）と判定する。一方、切取文字数を「１６」とした場合、切取部１２は、切取文字数である「１６」が、文字列４０１の文字数「１６」以上であることから、文字列４０１を切取らない（切取なし）と判定する。

【0065】

切取ありの場合、切取部１２は、始端位置を決定する。始端位置は、文字列４０１から切り取る文字列の先頭となる文字の位置である。

【0066】

まず、切取部１２は、切取文字数と文字列４０１の文字数との関係に基づいて、切り取り後における文字列の文字数が切取文字数未満にならないような、始端位置の範囲（始端範囲）を決定する。例えば、切取文字数として「１０」を選択した場合、切取部１２は、文字列４０１の文字数「１６」から切取文字数「１０」を減算した数である「６」に１を加えた数を上限とする範囲、つまり「１～７」文字目を、始端範囲とする。

【0067】

次に、切取部１２は、始端範囲からランダムに始端位置を決定する。例えば、始端範囲が「１～７」文字目である場合、切取部１２は、ある文字列４０１については始端位置として「３」を選択する。また、切取部１２は、別の文字列４０１については始端位置として「５」を選択する。

【0068】

このように、ランダムに始端位置を決定することによって、文字列の特徴である特定文言が含まれる第２文字列と、含まれない第２文字列とを無作為に生成することができ、学習データにおける偏り、つまり、特定文言が出現する頻度を低減させることができる。

【0069】

切取部１２は、文字列４０１における始端位置から、切取文字数に相当する数の文字を切り取ることによって、第２文字列としての文字列４０２を生成する。

【0070】

例えば、始端位置として「３」を選択した場合、切取部１２は、文字列４０１における３番目の文字「県」から、切取文字数である「１０」文字を切取ることによって、「県魚津市本新町８丁目」との文字列４０２を、第２文字列として生成する。そして、切取部１２によって生成された文字列４０２に対し、選択部１４によって文字列４０２を構成する文字のそれぞれに対応する手書文字の画像が選択され、生成部１５によって画像が連結されることによって文字列画像４０３が生成される。

【0071】

一方、切取文字数を「１６」とした場合、切取部１２は、文字列４０１を切取らない（切取なし）と判定する。そして、切取部１２によって切取りなしが選択された文字列４０１に対し、選択部１４によって文字列４０１を構成する文字のそれぞれに対応する手書文字の画像が選択され、生成部１５によって画像が連結されることによって文字列画像４０４が生成される。

【0072】

（文字認識システム１が行う処理の流れについて）
図３は、本発明の実施形態にかかる文字認識システム１が行う処理を示すフローチャートである。
（ステップＳ１）：学習データ生成装置１０の切取部１２は、文字列ＤＢ１１に記憶された文字列から、第１文字列を選択する。
（ステップＳ２）：切取部１２は、切取文字数を決定する。切取部１２は、例えば、予め決定された切取範囲からランダムに選択した文字数を切取文字数とする。
（ステップＳ３）：切取部１２は、第１文字列の文字数が、ステップＳ２で決定した切取文字数を超えるか否かを判定する。
（ステップＳ４）：第１文字列の文字数が、切取文字数を超える場合、切取部１２は、始端位置を決定し、始端位置から切取文字数の文字列を切り取ることによって第２文字列を生成する。例えば、切取部１２は、第１文字列の文字数と切取文字数との関係から算出した始端範囲からランダムに選択した位置を始端位置とする。
（ステップＳ５）：選択部１４は、第２文字列の各文字に対応する手書文字の画像を、画像ＤＢ１３から選択する。
（ステップＳ６）：生成部１５は、選択部１４によって選択された画像を結合することによって文字列画像を生成する。
（ステップＳ７）：生成部１５は、第２文字列の文字情報と、ステップＳ７で生成した文字列画像とを対応づけることによって学習データを生成し、生成した学習データを画像データ記憶部１６に記憶させる。
（ステップＳ８）：学習装置２０の学習部２１は、学習データを用いて、学習モデル２２を学習させることによって学習済モデル（予測モデル３２）を生成する。学習部２１は、学習データとして、画像データ記憶部１６に記憶された文字列の文字情報と、その文字情報に対応する手書文字の画像とを取得し、取得した学習データを学習モデル２２に入力することによって、学習モデル２２を学習させる。
（ステップＳ９）：予測装置３０の予測部３１は、予測画像ＤＢ３３から取得した手書文字で書かれた文字列画像を予測モデル３２に入力する。
（ステップＳ１０）：出力部３４は、予測モデル３２から出力された予測結果を表示する。

【0073】

（まとめ）
以上説明したように、実施形態の学習データ生成装置１０は、文字列ＤＢ１１（文字列データベース）と、切取部１２と、画像ＤＢ１３（画像データベース）と、選択部１４と、生成部１５を備える。文字列ＤＢ１１は、構成要素に特徴を有する文字列の文字情報が記憶されたデータベースである。切取部１２は、文字列ＤＢ１１から選択された第１文字列から、当該第１文字列の文字数よりも短い文字数を有する第２文字列を切り取る。画像ＤＢ１３は、手書文字の画像情報が記憶されたデータベースである。手書文字は、手書きされた文字である。選択部１４は、第２文字列を構成する文字のそれぞれに対応する手書文字の画像を、画像ＤＢ１３から選択する。生成部１５は、選択部１４によって選択された画像を連結させることによって文字列画像を生成する。生成部１５は、第２文字列の文字情報と文字列画像とを対応づけることによって、学習データを生成する。学習データは、学習モデルに学習させるデータである。これにより、実施形態の学習データ生成装置１０では、第１文字列を用いて、第１文字列の特徴を有する文字列と、第１文字列の特徴を有さない文字列とを生成することができる。したがって、構成要素に特徴を有する文字列において、その特徴を有する文字列、及び、一部の文言が省略される等してその特徴を有しない文字列の両方に対し、共通する１つのモデルを用いて文字を正しく文字認識させることができる。

【0074】

また、実施形態の学習データ生成装置１０では、第１文字列の特徴に応じて、切取範囲（第２文字列として切り取る文字数の範囲）が決定される。これにより、実施形態の学習データ生成装置１０では、複数の記入形式が存在し得るような場合に、それぞれの記入形式に対応する文字数の学習データを生成することができる。例えば、住所を示す文字列であれば、住所が二段で記載される場合において、上段或いは下段に記載される平均的な文字数に応じて、切取範囲を決定することができる。或いは、住所が二段で記載される場合を考慮して、住所を示す文字列における平均的な文字数の半分に相当する数を中心として、マージンを付与した範囲を切取文字数としてもよい。また、切取範囲を決定することにより、切取文字数を固定することなく、切取範囲において様々な文字数の学習データを生成することができ、実際に手書記される文字列に近い学習データを生成することが可能となる。

【0075】

また、実施形態の学習データ生成装置１０では、切取部１２は、切取範囲からランダムに選択した値を、切取文字数とする。切取文字数は、第１文字列から切取る文字数である。また、切取文字数は、第２文字列の文字数である。これにより、実施形態の学習データ生成装置１０では、複数の記入形式が存在し得るような場合に、切取範囲において無作為に選択した文字数の学習データを生成することができ、実際に手書記される文字列に近い学習データを生成することが可能となる。

【0076】

また、実施形態の学習データ生成装置１０では、切取部１２は、第１文字列の文字数と切取文字数とに基づいて、第２文字列の文字数が切取文字数を下回らないようにランダムに始端位置を決定する。切取部１２は、決定した始端位置を用いて、第１文字列における始端位置から切取文字数の文字列を、第２文字列として切り取る。これにより、実施形態の学習データ生成装置１０では、ランダムに始端位置を決定することができ、様々な学習データを生成することが可能となる。

【0077】

また、実施形態の学習データ生成装置１０では、文字列ＤＢ１１には、住所が示された文字列の文字情報が記憶される。これにより、実施形態の学習データ生成装置１０では、住所の特徴を有する文字列について、住所が一段で記載される場合と複数段で記載される場合との両方に対応できる学習データを生成することができる。

【0078】

（実施形態の変形例）
ここで、実施形態の変形例について説明する。実施形態の変形例では、始端範囲にある全ての始端位置のそれぞれに対応する第２文字列が生成される点において、上述した実施形態と相違する。

【0079】

図４及び図５は、実施形態の変形例にかかる学習データ生成装置１０が行う処理を説明するための図である。図４に示すように、文字列４０１の文字数が「１６」であり、切取文字数が「１０」である場合、始端範囲は「１～７」文字目となる。本変形例では、切取部１２は、始端範囲にある「１～７」文字目のそれぞれに対応する全ての始端位置のそれぞれに対応する第２文字列を生成する。具体的には、図５に示すように、始端位置「７」文字目に対応する「本新町８丁目９番３号」との文字列４０２、始端位置「６」文字目に対応する「市本新町８丁目９番３」との文字列４０２、…、始端位置「１」文字目に対応する「富山県魚津市本新町８」との文字列４０２のそれぞれが生成される。

【0080】

以上説明したように、実施形態の変形例に係る学習データ生成装置１０では、切取部１２は、始端範囲にある始端位置の全てを用いて、第１文字列における始端位置のそれぞれから切取文字数の文字列を第２文字列として切り取る。これにより、実施形態の変形例に係る学習データ生成装置１０では、１つの第１文字列から、多数の第２文字列を生成することができる。

【0081】

上述した実施形態における文字認識システム１及び学習データ生成装置１０の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

【0082】

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【符号の説明】

【0083】

１…文字認識システム、１０…学習データ生成装置、１１…文字列ＤＢ（文字列データベース）、１２…切取部、１３…画像ＤＢ（画像データベース）、１４…選択部、１５…生成部

【図1】