特許7650013 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ サンネット株式会社の特許一覧

特許7650013ベリファイシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-03-13

(45)【発行日】2025-03-24

(54)【発明の名称】ベリファイシステム

(51)【国際特許分類】

G06V 30/196 20220101AFI20250314BHJP

【ＦＩ】

G06V30/196 E

【請求項の数】 5

(21)【出願番号】P 2024030905

(22)【出願日】2024-03-01

【審査請求日】2024-03-01

【早期審査対象出願】

(73)【特許権者】

【識別番号】513237940

【氏名又は名称】サンネット株式会社

(74)【代理人】

【識別番号】110002114

【氏名又は名称】弁理士法人河野国際特許商標事務所

(74)【代理人】

【識別番号】100128624

【弁理士】

【氏名又は名称】穂坂道子

(74)【代理人】

【識別番号】100138483

【弁理士】

【氏名又は名称】村上晃一

(74)【代理人】

【識別番号】100173521

【弁理士】

【氏名又は名称】篠原淳司

(72)【発明者】

【氏名】市川聡

(72)【発明者】

【氏名】吉田和人

【審査官】鈴木圭一郎

(56)【参考文献】

【文献】特開２０２２－０３９５５７（ＪＰ，Ａ）

【文献】特開２０２２－０１４３２２（ＪＰ，Ａ）

【文献】特開２０２２－１２９００７（ＪＰ，Ａ）

【文献】特開２００５－３０９６０８（ＪＰ，Ａ）

【文献】特開平０４－０９２９９３（ＪＰ，Ａ）

【文献】特開平１０－１７１９２２（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／１９６

(57)【特許請求の範囲】

【請求項1】

アナログデータの文字から、アナログデータの文字に対応するテキストデータを取得するベリファイシステムであって、
アナログデータの文字は手描き文字であり、
第一次作業者によって記録される第一次テキストデータを取得するための第一次テキストデータ取得手段と、
第二次作業者によって記録される第二次テキストデータを取得するための第二次テキストデータ取得手段と、
アナログデータの手描き文字をデジタル化したデータである手描き文字イメージデータを分類し、前記手描き文字イメージデータに対応するテキストデータと認識されたデータであるＡＩ認識テキストデータを取得するＡＩ認識テキストデータ取得手段とを備え、
前記第一次テキストデータ取得手段は、
前記手描き文字イメージデータと前記ＡＩ認識テキストデータとが比較され、
前記ＡＩ認識テキストデータのうち前記手描き文字イメージデータと一致すると判断されたものをそのまま第一次テキストデータとして取得し、
前記ＡＩ認識テキストデータのうち前記手描き文字イメージデータと一致しないと判断されたものは前記手描き文字イメージデータと一致するよう正された状態で第一次テキストデータとして取得し、
前記第二次テキストデータ取得手段は、
前記手描き文字イメージデータと
前記第一次テキストデータとが比較され、
前記第一次テキストデータのうち前記手描き文字イメージデータと一致すると判断されたものをそのまま第二次テキストデータとして取得し、
前記第一次テキストデータのうち前記手描き文字イメージデータと一致しないと判断されたものは前記手描き文字イメージデータと一致するよう修正されて第二次テキストデータとして取得し、
前記ＡＩ認識テキストデータ取得手段は、
前記手描き文字イメージデータと、前記手描き文字イメージデータに対応するテキストデータの組み合わせに基づいて手描き文字イメージデータを分類するＡＩ機能によってＡＩ認識テキストデータが取得され、
前記ＡＩ機能は、手描き文字イメージデータの周辺に存するデジタル情報であって手描き文字に相当するデジタル情報以外のデジタル情報を取り除く処理であって、手描き文字イメージデータの認識精度を向上させるための認識精度向上処理が施されたデータについて分類を行うベリファイシステムであって、
前記手描き文字はマス目に合わせて並んでおり文字ごとに区切ることができるようにされており、
前記ＡＩ認識テキストデータ取得手段において、前記手描き文字を構成する文字のうちの一文字であって
手描き文字イメージデータを分割して得られる一文字の手描き文字イメージデータであってとなり合うマス目で分割して得られた一文字の手描き文字イメージデータと当該一文字の手描き文字イメージデータに対応するテキストデータの組み合わせに基づいて、一文字の手描き文字イメージデータを分類するＡＩ機能によって一文字に対応するＡＩ認識テキストデータが取得され、
第一次テキストデータ取得手段において、前記手描き文字イメージデータと前記ＡＩ認識テキストデータの比較は、前記手描き文字イメージデータにおける各文字の位置情報に基づいて各文字に対応するＡＩ認識テキストデータが並べられて行われるベリファイシステム。

【請求項2】

前記ＡＩ認識テキストデータ取得手段において、
一文字の数字についての手描き文字イメージデータと
当該一文字の数字についての手描き文字イメージデータに対応するテキストデータの組み合わせに基づいて、
一文字の数字についての手描き文字イメージデータを分類するＡＩ機能によって
一文字の数字についてのＡＩ認識テキストデータが取得されることを特徴とする請求項１に記載のベリファイシステム。

【請求項3】

前記認識精度向上処理において、
手描き文字に相当するデジタル情報以外のデジタル情報であって位置情報を備えた情報については、
前記位置情報に基づき、手描き文字に相当するデジタル情報以外のデジタル情報が存する箇所のピクセルを白色のピクセルと置換することを特徴とする請求項１に記載のベリファイシステム。

【請求項4】

前記認識精度向上処理において、
項目毎に文字のない箇所として予め判明している箇所のデジタル情報を取り除いて処理することを特徴とする請求項３に記載のベリファイシステム。

【請求項5】

前記認識精度向上処理において、
手描き文字をマス目に合わせて区切った結果得られるマス目のうち、手描き文字のないマス目を、ＡＩ処理の対象としないことを特徴とする請求項３に記載のベリファイシステム。

【発明の詳細な説明】

【技術分野】

【0001】

テキストデータ化されていない文字をテキストデータ化するデータ入力あるいはベリファイ入力と称される役務で用いる技術に関する。特にテキストデータ化されていない文字が手描き文字である場合のデータ入力あるいはベリファイ入力と称される役務で用いる技術に関する。

【背景技術】

【0002】

市場にはテキストデータ化されていない文字（アナログデータの文字）で構成される書類が大量にあるところ、アナログデータで成る文字情報の正確なテキストデータ化を請け負う「データ入力」という役務が存在する。

【0003】

データ入力は、通常、第一次作業者による第一次テキストデータ取得と、第二次作業者による第二次テキストデータ取得により行われる。まず、テキストデータ化の対象書類から、アナログデータの文字より取得した画像情報でなる文字イメージデータと、文字イメージデータより取得した認識テキストデータを取得する。第一次作業者は、文字イメージデータと認識テキストデータとを比較し、認識テキストデータのうち文字イメージデータと一致すると判断されたものをそのまま第一次テキストデータとする一方、認識テキストデータのうち文字イメージデータと一致しないと判断されたものを文字イメージデータと一致するよう正して第一次テキストデータとする。第二次作業者は、文字イメージデータと、第一次作業者が取得した第一次テキストデータとを比較し、第一次テキストデータのうち文字イメージデータと一致すると判断されたものをそのまま第二次テキストデータとする一方、第一次テキストデータのうち文字イメージデータと一致しないと判断されたものを文字イメージデータと一致するよう修正して第二次テキストデータとする。データ入力の作業では、第二次作業者による第二次テキストデータを、アナログデータで成る文字情報をテキストデータ化したものとして用いる。データ入力の作業では、このように第一次作業者による判断と第二次作業者による判断を重ねることにより、アナログデータで成る文字情報の正確なテキストデータ化が実現される。

【先行技術文献】

【特許文献】

【0004】

【文献】特開2013-97393

【文献】特開2008-152357

【発明の概要】

【発明が解決しようとする課題】

【0005】

データ入力では、第一次作業者が用いる認識テキストデータを、ＯＣＲ処理により得ている。ＯＣＲ処理による場合、対象が活字の場合には、テキストの認識精度は９０％を超え非常に高い。第一次作業者による作業を、認識精度が９０％を超える状態からスタートできることにより、アナログデータで成る文字情報の正確なテキストデータ化が実現されている。

【0006】

一方、テキストデータ化の対象が手描き文字の場合には、ＯＣＲ処理によるテキストの認識精度は非常に低い。数桁の金額に関する手描きの項目に関し、項目全体についてＯＣＲ処理により認識テキストデータを得た場合、文字認識率は２７．０％であった。従って、データ対象が手描きの場合には、テキストデータ化は慎重に行う必要があり、費やす時間と労力の点で問題があった。この発明は、データ入力において、手描き文字で成るアナログデータをテキストデータ化の対象とする場合に、高い認識精度でテキストデータ化することができる手段を得ることを課題とする。

【0007】

手描き文字を正確にテキスト文字に変換する技術の開発は、データ入力の分野に限らず、各分野で実現されておらず、開発が望まれている。特許文献１に、ノートに記入された手描き文字の高精度な読み取りが可能な手書き文字テキスト化システムが記載されている。このシステムでは、スマートフォンに搭載したデジタルカメラにより撮影した文字画像データを、通信回線網を利用してセンタのサーバに送信し、ここで文字画像データをテキストデータに変換する。テキストデータへの変換は、二人以上のオペレータがノートの手描きスペースに記入された手描き文字を読み取り、その読み取り結果をオペレータ端末から送信（入力）することで行っている。また、手描きスペースの手描き文字を光学的に読み取ってOCRによるテキストデータ化と、上記オペレータによる入力を併存させている。

【0008】

特許文献２に、手書き入力情報の認識を効率化するテキスト認識システムが記載されている。このシステムでは、例えば投票用紙に記載された候補者の氏名等の手描き文字のイメージデータはOCRを利用してテキストデータ化に変換することを基本とし、変換できず判別不能となったデータについては担当者に送信され、担当者は目視により手描き文字から候補者を選択する。

【課題を解決するための手段】

【0009】

（１）アナログデータの文字から、アナログデータの文字に対応するテキストデータを取得するベリファイシステムであって、アナログデータの文字は手描き文字であり、第一次作業者によって記録される第一次テキストデータを取得するための第一次テキストデータ取得手段と、第二次作業者によって記録される第二次テキストデータを取得するための第二次テキストデータ取得手段と、アナログデータの手描き文字をデジタル化したデータである手描き文字イメージデータを分類し、前記手描き文字イメージデータに対応するテキストデータと認識されたデータであるＡＩ認識テキストデータを取得するＡＩ認識テキストデータ取得手段とを備え、前記第一次テキストデータ取得手段は、前記手描き文字イメージデータと前記ＡＩ認識テキストデータとが比較され、前記ＡＩ認識テキストデータのうち前記手描き文字イメージデータと一致すると判断されたものをそのまま第一次テキストデータとして取得し、前記ＡＩ認識テキストデータのうち前記手描き文字イメージデータと一致しないと判断されたものは前記手描き文字イメージデータと一致するよう正された状態で第一次テキストデータとして取得し、前記第二次テキストデータ取得手段は、前記手描き文字イメージデータと前記第一次テキストデータとが比較され、前記第一次テキストデータのうち前記手描き文字イメージデータと一致すると判断されたものをそのまま第二次テキストデータとして取得し、前記第一次テキストデータのうち前記手描き文字イメージデータと一致しないと判断されたものは前記手描き文字イメージデータと一致するよう修正されて第二次テキストデータとして取得し、前記ＡＩ認識テキストデータ取得手段は、前記手描き文字イメージデータと、前記手描き文字イメージデータに対応するテキストデータの組み合わせに基づいて手描き文字イメージデータを分類するＡＩ機能によってＡＩ認識テキストデータが取得され、前記ＡＩ機能は、手描き文字イメージデータの周辺に存するデジタル情報であって手描き文字に相当するデジタル情報以外のデジタル情報を取り除く処理であって、手描き文字イメージデータの認識精度を向上させるための認識精度向上処理が施されたデータについて分類を行うベリファイシステムによって課題を解決する。
（２）前記ＡＩ認識テキストデータ取得手段において、前記手描き文字を構成する文字のうちの一文字であって手描き文字イメージデータを分割して得られる一文字の手描き文字イメージデータと、当該一文字の手描き文字イメージデータに対応するテキストデータの組み合わせに基づいて、一文字の手描き文字イメージデータを分類するＡＩ機能によって一文字に対応するＡＩ認識テキストデータが取得されることを特徴とする（１）に記載のベリファイシステムによって課題を解決する。
（３）前記ＡＩ認識テキストデータ取得手段において、一文字の数字についての手描き文字イメージデータと当該一文字の数字についての手描き文字イメージデータに対応するテキストデータの組み合わせに基づいて、一文字の数字についての手描き文字イメージデータを分類するＡＩ機能によって一文字の数字についてのＡＩ認識テキストデータが取得されることを特徴とする（１）に記載のベリファイシステムによって課題を解決する。
（４）第一次テキストデータ取得手段において、前記手描き文字イメージデータと前記ＡＩ認識テキストデータの比較は、前記手描き文字イメージデータにおける各文字の位置情報に基づいて各文字に対応するＡＩ認識テキストデータが並べられて行われることを特徴とする（１）に記載のベリファイシステムによって課題を解決する。
（５）前記認識精度向上処理において、手描き文字に相当するデジタル情報以外のデジタル情報であって位置情報を備えた情報については、前記位置情報に基づき、手描き文字に相当するデジタル情報以外のデジタル情報が存する箇所のピクセルを白色のピクセルと置換することを特徴とする（１）に記載のベリファイシステムによって課題を解決する。

【0010】

アナログデータの文字が手描き文字である場合について、手描き文字のイメージデータと、その手描き文字に対応する正しいテキストデータの組み合わせを教師データとして、ＡＩに学習させることを検討した。ＡＩの機能により、手描き文字の多様なイメージデータを、その手描き文字に対応するテキストデータに分類することができる。そのような分類により、手描き文字イメージデータに対応するテキストデータと認識されたデータであるＡＩ認識テキストデータを取得することができる。

【0011】

通常、手描き文字イメージデータの周辺には、手描き文字を記載する前から手描き文字を記載する用紙に記載されていた罫線や、周辺の他の手描き文字の一部、汚れ、といった情報が残っている。このような情報は、対象の手描き文字イメージデータをテキスト化するに際しては不要であり、手描き文字イメージデータを正しくテキスト化する妨げとなっている。手描き文字イメージデータを、ＡＩに学習させる対象とする際には、そのような情報を取り除く。すなわち、手描き文字イメージデータを、ＡＩに学習させる対象とする際には、手描き文字に相当するデジタル情報以外のデジタル情報を取り除く処理であって、手描き文字イメージデータの認識精度を向上させるための認識精度向上処理を施す。

【0012】

データ入力の対象である書類の中には、例えば経理伝票等、書類における入力欄の位置が定まっており、さらに入力欄には、予め、文字を書き込むためのマスが設けてあり、入力者は手描き文字をマス目に合わせて書き込む形式のものがある。このような書類では、手描き文字の書き込みがマス目に合わせて行われていることを利用して、手描き文字をマス目で分割し、一文字毎に、ＡＩに学習させることができる。

【0013】

また、項目が「金額」や「日付」であって入力する文字は数字のみであるものがある。ＡＩの学習対象を数字のみとすることにより、対象を「０、１、２、３、４、５、６、７、８、９」の１０種類に限定することができる。

【0014】

手描き文字の書き込みがマス目に合わせて行われていることを利用して、手描き文字をマス目で分割し、かつ、入力される文字が数字のみの項目に限定して、一文字毎に、ＡＩに学習させたところ、文字認識率は１６．０％であった。

【0015】

また、図１１に示す通り、手描き文字の周辺には罫線やノイズが多く存在し、そのような罫線やノイズが、イメージデータを正しくテキストデータを対応させることの妨げになっていると仮定し、そのような罫線やノイズを削除して、ＡＩ学習させたところ、文字認識率は８９．７％であった。

【0016】

また、手描き文字をマス目に合わせて書き込む形式の場合、項目中に、文字の記載のないマス目がある。そのようなマス目については、ＡＩ処理の対象外とする。これによりＡＩの作業量を軽減できる。

【発明の効果】

【0017】

手描き文字で成るアナログデータを高い文字認識率でデジタルデータ化することができる。その結果、手描き文字で成るアナログデータのデータ入力の効率が非常に高くなり、費やす時間と労力が大きく軽減される。

【図面の簡単な説明】

【0018】

【図1】実施例１の管理者端末１のハードウェア的な構成を示す。

【図2】実施例１の情報通信網の構成を示す。

【図3】実施例１の「ベリファイに用いる項目テキストデータ取得システム」の全体のステップを示す。

【図4】実施例１のＡＩ処理対象項目の項目イメージデータ取得処理（ステップ１）を示す。

【図5】実施例１の罫線の削除処理（ステップ２－１）を示す。

【図6】実施例１のノイズ削除処理（ステップ２－２）を示す。

【図7】実施例１の余白情報の削除処理（ステップ２－３）を示す。

【図8】実施例１の空白一文字イメージデータ除外処理（ステップ２－４）及びＡＩ処理対象の一文字テキストデータ取得処理（ステップ３－１）を示す。

【図9】実施例１のＡＩ認識テキストデータ取得処理（ステップ３－２）を示す。

【図10】実施例１のベリファイに用いる項目テキストデータ取得処理（ステップ４）

【図11】実施例１の処理をした後のイメージデータと、処理をしていないイメージデータを示す。

【符号の説明】

【0019】

１システム管理者端末
２制御部
３ＣＰＵ
４ＲＯＭ
５ＲＡＭ
６入力装置
７表示装置
８通信制御装置
９バスライン
１０記憶装置
１１データ格納部
１２プログラム格納部

【発明を実施するための形態】

【0020】

以下、本発明の好適な実施形態について、図面を参照し説明する。

【実施例1】

【0021】

図１は、管理者端末１のハードウェア的な構成を表したものである。管理者端末１は、図１に示すようにシステム全体を制御するための制御部２を備えている。この制御部２には、データバス等のバスライン９を介して、入力装置６、表示装置７、通信制御装置８、記憶装置１０が接続されている。

【0022】

制御部２は、ＣＰＵ３、ＲＯＭ４、ＲＡＭ５を備えている。ＣＰＵ３は、ＲＯＭ４や記憶装置等の各種記憶部に記憶されたプログラムに従って、各種の情報処理や制御を行う。ＲＯＭ４は、ＣＰＵ３が各種制御や演算を行うための各種プログラムやデータが予め格納されたリードオンリーメモリである。ＲＡＭ５は、ＣＰＵ３にワーキングメモリとして使用されるランダムアクセスメモリである。このＲＡＭ５には、本実施形態による各種処理を行うための各種エリアが確保可能になっている。

【0023】

入力装置６には、キーボード、マウス、タッチパネル等が配置される（図示せず）。キーボードには、文字入力のためのキー、数字を入力するためのテンキー、各種機能を実行するための機能キー、カーソルキー、等の各種キーが配置されている。マウスは、ポインティングデバイスであり、表示装置７に表示されたキーやアイコン等をクリックすることで対応する機能の指定を行う入力装置である。タッチパネルは、表示装置７の表面に配置される入力機器で、表示装置７に画面表示された各種操作キーに対応したユーザのタッチ位置を特定し、当該タッチ位置に対応して表示された操作キーの入力を受け付ける。

【0024】

表示装置７は、ＣＲＴや液晶ディスプレイ等が使用される。この表示装置には、キーボードやマウスによる入力結果が表示されたり、イメージ情報が表示されたりする。

【0025】

通信制御装置８は、管理者端末１と他のパーソナルコンピュータ等の各種外部電子機器との間をネットワーク接続するための制御装置である。通信制御装置８は、これら各種外部電子機器から管理者端末１にアクセスすることが可能になっており、外部電子機器から検索条件文を入力することができる。

【0026】

記憶装置１０は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータ等の各種情報を読み書きするための駆動装置で構成されている。この記憶装置１０に使用される記憶媒体としては、主としてハードディスクが使用される。記憶装置１０は、データ格納部１１、プログラム格納部１２、及び図示しないその他の格納部（例えば、この記憶装置１０内に格納されているプログラムやデータ等をバックアップするための格納部）等を有する。データ格納部１１には、後述の通り本実施形態においてシステムが必要とするデータが格納されている。プログラム格納部１２には、後述の通り本実施形態における各種処理プログラムが格納されている。

【0027】

本実施形態の管理者端末１は、コンピュータシステムで構成するだけでなく、ＬＡＮのサーバ、コンピュータ通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成することも可能である。また、ネットワーク上の各機器に機能分散させ、ネットワーク全体で管理者端末１と同様の構成とすることも可能である。

【0028】

ベリファイシステムは、図２に示す通り、管理者のコンピュータと、エントリー作業者（第一次ベリファイ作業者）のコンピュータと、ベリファイ作業者（第二次ベリファイ作業者）のコンピュータがネットワークまたはＬＡＮ等の情報通信網で接続されている。ベリファイシステムは、コンピュータシステムで構成するだけでなく，ＬＡＮのサーバ、コンピュータ通信のホスト、インターネット上に接続されたコンピュータシステム等によって構成することも可能である。

【0029】

図１に示す通り、記憶装置１０はプログラム格納部１１とデータ格納部１２とを備える。

【0030】

プログラム格納部１１には、次の各処理をコンピュータに実行させるためのプログラムが格納されている。いずれも管理者のコンピュータのＣＰＵが処理する。
（１）ＡＩ処理対象項目の項目イメージデータ取得処理
（２）罫線の削除処理
（３）ノイズの削除処理
（４）余白の削除処理
（５）空白一文字イメージデータ除外処理
（６）ＡＩ処理対象の一文字イメージデータ取得処理
（７）ＡＩ認識テキストデータ取得処理
（８）ベリファイに用いる項目テキストデータ取得処理

【0031】

データ格納部１２には、次の情報が予め記録される。
（１）ベリファイ対象毎の項目画像データの位置情報
（２）ＡＩ処理対象とすべき項目の情報
（３）項目テキストデータ
（４）罫線位置情報
（５）余白処理対象情報
（６）ＡＩ認識テキストデータ
（７）その他のデータ

【0032】

データ格納部１２には、各プログラム実行の過程で取得した情報がすべて記録される。

【0033】

この明細書における用語を、次の通りに定義する。
「全体イメージデータ」とは、ベリファイ対象の項目を含んだ書面全体をデジタル化して得たイメージデータ（すなわち画像データ）である。
「項目」とは、ベリファイ対象の書面中、「日付」、「氏名」、「請求金額」といったベリファイする際の単位となる項目である。
「ＡＩ処理対象項目」とは、ＡＩ処理を施す項目として予めリストアップした項目である。
「項目イメージデータ」とは、項目のイメージデータ（すなわち項目の画像データ）である。
「項目テキストデータ」とは、項目のテキストデータである。
「項目位置情報」とは、書面における項目の位置を示すデジタル情報である。
「一文字イメージデータ」とは、一文字のイメージデータ（すなわち一文字の画像データ）である。
「一文字テキストデータ」とは、一文字のテキストデータである。
「認識精度向上処理」とは、イメージデータをテキストデータに変換する際の精度を向上させるための処理である。
「罫線位置情報」とは、項目における罫線の位置を示すデジタル情報である。
「文字位置情報」とは、項目における文字の位置を示すデジタル情報である。
「余白処理対象情報」とは、項目における余白の位置を示すデジタル情報である。
「ＡＩ処理」とは、一文字イメージデータを一文字テキストデータに分類する処理である。ＡＩ処理によりＡＩ認識テキストデータが得られる。
「ＡＩ認識テキストデータ」とは、１０種類の数字（０、１，２，３，４，５，６，７，８，９）の一文字イメージデータと、各一文字イメージデータに対応するテキストデータの情報であって、ＡＩ処理によって得られたデータである。
「ＯＣＲ処理」とは、既存の Optical Character Recognitionによる処理である。
各図に示す「Ｓ」はステップを意味する。

【0034】

図３に、実施例１の「ベリファイに用いる項目テキストデータ取得システム」の全体のステップをフローチャートで示す。

【0035】

［ステップ１］
ＣＰＵは、ベリファイ対象の書類から、ＡＩ処理対象項目の、項目イメージデータを取得し、保存する。ステップ１の詳細は図４のステップ５からステップ９に示す。

【0036】

［ステップ２］
ＣＰＵは、項目イメージデータに関し認識精度向上処理を行う。具体的には、罫線情報の削除処理（ステップ２－１）、ノイズの削除処理（ステップ２－２）、余白の削除処理（ステップ２－３）及び空白一文字イメージデータ除外処理（ステップ２－４）を行う。各処理のためのプログラムはデータ格納部に記録されている。罫線情報の削除処理とノイズの削除処理は、罫線情報の削除処理、ノイズの削除処理、の順に常に行う。余白の削除処理は、余白がある場合にのみ行う。認識精度向上処理を施した後、各データを保存する。ステップ２の詳細は、図５から図８の、ステップ１０からステップ２２に示す。

【0037】

［ステップ３］
ＣＰＵは認識精度向上処理を行った項目テキストデータのうち、ＡＩ処理対象のものをＡＩ処理し、ＡＩ認識テキストデータ取得処理を行い、保存する。具体的には図８のステップ１７から図９のステップ２４に示す。

【0038】

［ステップ４］
ＣＰＵはベリファイに用いる項目テキストデータ取得処理を行い、保存する。具体的には図１０のステップ２５に示す。ベリファイ作業において第一次作業者は、第一次テキストデータを取得するにあたり、ベリファイに用いる項目テキストデータを用いる。

【0039】

図４にＡＩ処理対象項目の項目イメージデータ取得処理（ステップ１）における各ステップをフローチャートで示す。

【0040】

［ステップ５］
ＣＰＵは、ベリファイ対象の書面全体（例えば１枚の経理伝票全体）のアナログデータを、スキャナーを用いてデジタル化し、全体イメージデータ（すなわちベリファイ対象の項目を含んだ書面全体をデジタル化して得たイメージデータ）を得る。ステップ５において、ＣＰＵは当該全体イメージデータを取得し、ベリファイ対象の書面情報と共に、データ格納部に保存する。

【0041】

［ステップ６］
ベリファイ対象の書面には、書面の内容に応じて、日付、氏名、請求金額、といった項目（すなわちベリファイする際の単位となる項目）が記載されている。各項目はベリファイ対象の書面中の定まった位置に配置されており、すなわちベリファイ対象の書面は定型化されている。そこで、予め、各項目イメージデータの位置情報を取得し、ベリファイ対象の書面毎に、データ格納部に記録しておく。
ＣＰＵは、ステップ５において取得したベリファイ対象の書面情報と、予め記録されたベリファイ対象毎の項目イメージデータの位置情報とにより、目当ての項目イメージデータの位置情報を取得することができる。
ＣＰＵは、そのようにして取得した項目イメージデータの位置情報により、全体イメージデータから、目当ての項目イメージデータを取得し、データ格納部に保存する。

【0042】

［ステップ７］
次の条件：（１）項目で用いられる文字が数字であること、及び（２）項目に記載される文字は一文字毎に区切ることができること、を満たすものがＡＩ処理対象とするべき項目とされ、「ＡＩ処理対象項目情報」として、当該項目は予めデータ格納部に記録されている。
ＣＰＵは、「項目情報」と「ＡＩ処理対象項目情報」を取得し、項目がＡＩ処理対象か否か判断する。

【0043】

［ステップ８］
項目がＡＩ処理対象でない場合、ＣＰＵは、ＯＣＲ処理により、項目イメージデータ（すなわち項目のイメージデータ）から項目テキストデータ（すなわち項目のテキストデータ）を取得して保存し、ステップ１を終了する。

【0044】

［ステップ９］
項目がＡＩ処理対象である場合、ＣＰＵはステップ２－１［罫線情報の削除処理］を行い、ステップ１を終了する。

【0045】

図５に、罫線の削除処理（ステップ２－１）における各ステップをフローチャートで示す。

【0046】

［ステップ１０］
ＣＰＵは、データ格納部より罫線位置情報（すなわち項目における罫線の位置を示すデジタル情報）を取得する。

【0047】

［ステップ１１］
ＣＰＵは、罫線位置のピクセルを白色ピクセルに置換し、置換後の項目イメージデータをデータ格納部に保存する。

【0048】

［ステップ１２］
ＣＰＵは、ステップ２－２［ノイズの削除処理］を開始し、ステップ２―１「罫線の削除処理」を終了する。

【0049】

図６に、ノイズ削除処理（ステップ２－２）における各ステップをフローチャートで示す。

【0050】

［ステップ１３］
ＣＰＵは項目イメージデータの各ピクセルにガウシアンのぼかし処理を施す。

【0051】

［ステップ１４］
ＣＰＵは、所定値以下（例えばグレースケール画像１５０段階以下）のピクセルを白色ピクセルに置換する。置換後の項目イメージデータをデータ格納部に保存して、処理を終了する。

【0052】

図７に、余白情報の削除処理（ステップ２－３）における各ステップをフローチャートで示す。例えば項目において各一文字にあてがわれたスペースが縦方向に長い場合、各一文字にあてがわれたスペースの上方に文字のない箇所が生じる。ここにいう余白とは、そのような文字のない箇所をいう。余白ができる箇所は項目毎に予め判明している。項目における余白の位置は、余白位置情報として、項目毎に予め記録されている。

【0053】

［ステップ１５］
ＣＰＵは、余白処理対象を選択する。余白位置情報を備えた項目が余白処理の対象となる。ＣＰＵは、余白処理対象における余白位置情報（すなわち項目における余白の位置を示すデジタル情報）を取得する。

【0054】

［ステップ１６］
ＣＰＵは、余白位置にあるピクセルを削除する。削除後の項目イメージデータをデータ格納部に保存して、処理を終了する。

【0055】

図８に、空白一文字イメージデータ除外処理（ステップ２－４）を示す。また図８に、ＡＩ処理による一文字テキストデータ取得処理（ステップ３－１）における各ステップをフローチャートで示す。

【0056】

［ステップ１７］
ＣＰＵは、データ格納部より罫線位置情報を取得する。ＣＰＵは、項目イメージデータを罫線位置で分割して、一文字イメージデータを取得する。ＣＰＵは、項目イメージデータにおける一文字イメージデータの位置情報を、一文字イメージデータと共に保存する。

【0057】

［ステップ１８］
ＣＰＵは、一文字イメージデータ毎に、黒色の値であるピクセルの個数を計測する。

【0058】

［ステップ１９］
ＣＰＵは、一文字イメージデータ中の黒色のピクセル数が所定数以上（例えば画像ピクセル数の７％以上）か否か判断する。一文字イメージデータ中の黒色のピクセル数が所定数以上の場合、当該一文字イメージデータ中に文字が存在すると判断することができ、所定数以下の場合、当該一文字イメージデータ中に文字が存在しないと判断することができる。

【0059】

［ステップ２０］
ステップ１９で一文字イメージデータ中の黒色のピクセル数が所定数以上でない場合、ＣＰＵは、当該一文字イメージデータをＡＩ処理対象から除外し、空白一文字イメージデータ除外処理（ステップ２－４）を終了する。当該一文字イメージデータは空白である（文字がない）と判断されるためである。空白の一文字イメージデータをＡＩ処理対象から除外することにより、無意味のＡＩ処理を除外できる。

【0060】

［ステップ２１］
ステップ１９で一文字イメージデータ中の黒色のピクセル数が所定数以上である場合、ＣＰＵは、当該一文字イメージデータを、ＡＩ処理対象の一文字イメージデータとする。

【0061】

［ステップ２２］
ＣＰＵは、ＡＩ処理対象の一文字イメージデータについて、ステップ３－２［ＡＩ処理］を開始し、ステップ３―１「ＡＩ処理による一文字テキストデータ取得処理」を終了する。

【0062】

図９に、ＡＩ認識テキストデータ取得処理（ステップ３－２）における各ステップをフローチャートで示す。

【0063】

［ステップ２３］
一文字イメージデータとこれに対応するテキストデータの組み合わせのビッグデータをＡＩ処理し、一文字イメージデータを分類する。ＡＩ処理による分類の結果、ＡＩ認識テキストデータ（すなわち１０種類の数字（０、１，２，３，４，５，６，７，８，９）の一文字イメージデータと、各一文字イメージデータに対応するテキストデータの情報）が得られる。

【0064】

［ステップ２４］
ステップ２３で得たＡＩ認識テキストデータをデータ格納部に保存する。

【0065】

図１０に、ベリファイに用いる項目テキストデータ取得処理における各ステップをフローチャートで示す。

【0066】

［ステップ２５］
ＣＰＵは、「一文字イメージデータ」の各文字の位置情報に基づき、各ＡＩ認識テキストデータを、対応する各「一文字メージデータ」の位置関係と一致するように並べる。そのように並べたＡＩ認識テキストデータを保存し、第一次作業者がベリファイに用いる項目テキストデータとする。処理を終了する。

【要約】

【課題】
この発明は、データ入力において、手描き文字で成るアナログデータをテキストデータ化の対象とする場合に、高い認識精度でテキストデータ化することができる手段を得ることを課題とする。
【解決手段】
手描き文字イメージデータと、手描き文字イメージデータに対応するテキストデータの組み合わせに基づいて手描き文字イメージデータを分類するＡＩ機能によってＡＩ認識テキストデータを取得することによって課題を解決する。そのような分類を、手描き文字イメージデータの周辺に存するデジタル情報であって手描き文字に相当するデジタル情報以外のデジタル情報を取り除く処理であって、手描き文字イメージデータの認識精度を向上させるための認識精度向上処理が施されたデータについて行うことによって課題を解決する。
【選択図】図３