(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-10-19
(45)【発行日】2022-10-27
(54)【発明の名称】データ入力支援装置、データ入力支援システム、データ入力支援方法、及びデータ入力支援プログラム
(51)【国際特許分類】
G06Q 10/10 20120101AFI20221020BHJP
G06V 30/12 20220101ALI20221020BHJP
G06V 30/412 20220101ALI20221020BHJP
G06V 30/14 20220101ALI20221020BHJP
【FI】
G06Q10/10
G06V30/12 B
G06V30/412
G06V30/14 340J
(21)【出願番号】P 2021194190
(22)【出願日】2021-11-30
【審査請求日】2022-01-07
【早期審査対象出願】
(73)【特許権者】
【識別番号】521523741
【氏名又は名称】松本 政志
(74)【代理人】
【識別番号】110000198
【氏名又は名称】弁理士法人湘洋特許事務所
(72)【発明者】
【氏名】松本 政志
【審査官】阿部 潤
(56)【参考文献】
【文献】特開2006-236003(JP,A)
【文献】特開2016-119078(JP,A)
【文献】特開2017-191293(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
G06V 30/00 - 30/424
(57)【特許請求の範囲】
【請求項1】
書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援装置であって、
前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出する抽出部と、
前記部分画像データの内、特定のテキスト入力対象領域の筆跡を、人が読むことが可能な程度に変形する変形加工部と、
前記
筆跡が変形された部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示する入力割り当て部と、
前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付ける入力結果受付部と、
前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存する保存処理部と
を備えることを特徴とするデータ入力支援装置。
【請求項2】
書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援装置であって、
前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出する抽出部と、
前記抽出した部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示する入力割り当て部と、
前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付ける入力結果受付部と、
前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存する保存処理部と
を備え、
前記抽出部は、特定の文字記入領域について、前記テキスト入力対象領域の範囲として、隣接する他の文字記入領域の一部をオーバーラップして含む範囲を抽出する
データ入力支援装置。
【請求項3】
請求項
2に記載のデータ入力支援装置において、
前記部分画像データの内、特定のテキスト入力対象領域の画像について変形加工を施す変形加工部
を有することを特徴とするデータ入力支援装置。
【請求項4】
請求項1、2及び3のいずれか1項に記載のデータ入力支援装置において、
前記入力割り当て部は、同一の部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分散して割り当てる
ことを特徴とするデータ入力支援装置。
【請求項5】
請求項4に記載のデータ入力支援装置において、
前記端末装置群において入力された、同一の部分画像データに関する複数のテキストデータについて、同一内容のテキストとして最も多く入力されたテキストデータを、当該部分画像データから読み取られたテキストと決定する多数決処理部を有し、
前記保存処理部は、前記多数決処理部において多数決処理されたテキストデータを元の前記対象画像データと関連付けて保存する
ことを特徴とするデータ入力支援装置。
【請求項6】
請求項1から5のいずれか1項に記載のデータ入力支援装置において、
検証作業者の端末装置群と接続され、入力されたテキストデータ及び対応する部分画像データを、前記検証作業者の端末装置に割り当てて提示する検証割り当て部と、
前記検証作業者の端末装置から、提示したテキストデータ及び部分画像データについての検証結果を受け付ける検証結果受付部と、を有し、
前記保存処理部は、前記検証結果に基づいて、検証されたテキストデータを、元の対象画像データから読み取られたテキストデータとし、テキストデータが修正されている場合には、修正されたテキストデータを、元の対象画像データから読み取られたテキストデータとして、当該元の対象画像データと関連付けて保存する
ことを特徴とするデータ入力支援装置。
【請求項7】
請求項1から6のいずれか1項に記載のデータ入力支援装置において、
前記入力割り当て部は、前記入力作業者のテキストデータ入力の履歴及び評価の少なくとも一方に基づいて、前記入力作業者への割り当てを決定する
ことを特徴とするデータ入力支援装置。
【請求項8】
請求項6に記載のデータ入力支援装置において、
前記検証割り当て部は、テキストデータ入力が行われた前記部分画像データが所定の条件を満たす場合、前記検証作業者への割り当てを省略する
ことを特徴とするデータ入力支援装置。
【請求項9】
請求項1から8のいずれか1項に記載のデータ入力支援装置と入力作業者の端末装置群とを備え、
前記入力作業者の端末装置群は、各々、前記データ入力支援装置から提示された部分画像データについて、前記データ入力支援装置へのテキストデータの入力を受け付ける
ことを特徴とするデータ入力支援システム。
【請求項10】
請求項6に記載のデータ入力支援装置と入力作業者の端末装置群と検証作業者の端末装置群とを備え、
前記入力作業者の端末装置群は、各々、前記データ入力支援装置から提示された部分画像データについて、前記データ入力支援装置へのテキストデータの入力を受け付け、
前記検証作業者の端末装置群は、各々、前記データ入力支援装置から提示されたテキストデータ及び部分画像データについて、前記データ入力支援装置への検証結果の入力を受け付ける
ことを特徴とするデータ入力支援システム。
【請求項11】
コンピュータが、書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援方法であって、
前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出し、
前記部分画像データの内、特定のテキスト入力対象領域の筆跡を、人が読むことが可能な程度に変形し、
前記
筆跡が変形された部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示し、
前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付け、
前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存する
ことを特徴とするデータ入力支援方法。
【請求項12】
コンピュータが、書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援方法であって、
前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出し、
前記抽出した部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示し、
前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付け、
前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存
し、
前記部分画像データを抽出するときに、特定の文字記入領域について、前記テキスト入力対象領域の範囲として、隣接する他の文字記入領域の一部をオーバーラップして含む範囲を抽出することを特徴とするデータ入力支援方法。
【請求項13】
書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援装置において実行されるデータ入力支援プログラムであって、
前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出し、
前記部分画像データの内、特定のテキスト入力対象領域の筆跡を、人が読むことが可能な程度に変形し、
前記
筆跡が変形された部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示し、
前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付け、
前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存する
ことを特徴とするデータ入力支援プログラム。
【請求項14】
書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援装置において実行されるデータ入力支援プログラムであって、
前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出し、
前記抽出した部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示し、
前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付け、
前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存
し、
前記部分画像データを抽出するときに、特定の文字記入領域について、前記テキスト入力対象領域の範囲として、隣接する他の文字記入領域の一部をオーバーラップして含む範囲を抽出することを特徴とするデータ入力支援プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、帳票等の書類に記入された事項をテキストデータ化する技術に関し、特に、画像データの特定領域に表示される手書き文字のテキストデータ化を支援する技術に関する。
【背景技術】
【0002】
文字情報を含む帳票等の書類(紙媒体あるいは画像データ)をテキストデータとして利用する場合、画像データからテキストデータに変換する処理が必要である。機械読取りの場合、例えば、手書きで文字が記入された書類をイメージスキャナなどで読み取り、OCR(Optical Character Recognition)処理を行うことにより、入力情報を所定の文字コードに変換したデジタルデータを生成する。ただし、OCRによる読取りは、100%の正確性を確保できるわけではない。
【0003】
正確性を向上させるための技術として、例えば、帳票のイメージデータのユーザによる手書き文字を、少なくとも2種類以上のアルゴリズムの異なるOCR認識プログラムによりそれぞれ認識し、この認識結果が一致した分は前記帳票に記載された手書き文字を確定し、認識結果が不一致の分は補正処理の対象とする手書き文字認識手段を備えた帳票認識システムが提案されている(特許文献1)。また、OCRにおける文字認識の能力を、深層学習を使って学習させたモデルを使って文字認識を行って、認識の正確性を向上させることも行われている(特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2019-204417号公報
【文献】特開2019-191665号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に記載の技術では、手書き文字認識の精度を向上させる工夫がなされているが、それでも、十分ではなく、手入力による補正が必要となる。一方、特許文献2の技術では、より高度の文字認識を試みているが、多様な手書き文字が記載された大量の帳票処理には対応が十分ではない。
【0006】
そのため、膨大な処理量および高度な正確性が要求される場合には、今後も人力でのテキストデータ入力業務が残って行くことになる。テキストデータを帳票単位で手入力すると、個人情報等の機密情報の流出が危惧される。また、コストなどの関係から、外部の業者に委託することがある。この場合は、特に、個人情報等の機密情報の流出に注意が必要である。従って、人力によるテキストデータ入力にあっては、情報漏洩を防ぐことが要求される。
【0007】
本発明は、手書き文字情報を含む書類について、情報漏洩が生じないようにセキュリティーを担保して、効率的にかつ正確にテキストデータ入力を行う技術を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の課題を解決する本発明の一態様は、書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援装置であって、前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出する抽出部と、前記抽出した部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示する入力割り当て部と、前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付ける入力結果受付部と、前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存する保存処理部とを備える。
【0009】
上記のデータ入力支援装置において、前記抽出部は、特定の文字記入領域について、前記テキスト入力対象領域の範囲として、隣接する他の文字記入領域の一部をオーバーラップして含む範囲を抽出してもよい。
【0010】
上記のいずれかのデータ入力支援装置において、前記部分画像データの内、特定のテキスト入力対象領域の画像について変形加工を施す変形加工部を有してもよい。
【0011】
上記のいずれかのデータ入力支援装置において、前記入力割り当て部は、同一の部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分散して割り当ててもよい。
【0012】
上記のいずれかのデータ入力支援装置において、前記端末装置群において入力された、同一の部分画像データに関する複数のテキストデータについて、同一内容のテキストとして最も多く入力されたテキストデータを、当該部分画像データから読み取られたテキストと決定する多数決処理部を有し、前記保存処理部は、前記多数決処理部において多数決処理されたテキストデータを元の前記対象画像データと関連付けて保存してもよい。
【0013】
上記のいずれかのデータ入力支援装置において、検証作業者の端末装置群と接続され、入力されたテキストデータ及び対応する部分画像データを、前記検証作業者の端末装置に割り当てて提示する検証割り当て部と、前記検証作業者の端末装置から、提示したテキストデータ及び部分画像データについての検証結果を受け付ける検証結果受付部と、を有し、前記保存処理部は、前記検証結果に基づいて、検証されたテキストデータを、元の対象画像データから読み取られたテキストデータとし、テキストデータが修正されている場合には、修正されたテキストデータを、元の対象画像データから読み取られたテキストデータとして、当該元の対象画像データと関連付けて保存してもよい。
【0014】
上記のいずれかのデータ入力支援装置において、前記入力割り当て部は、前記入力作業者のテキストデータ入力の履歴及び評価の少なくとも一方に基づいて、前記入力作業者への割り当てを決定してもよい。
【0015】
上記のいずれかのデータ入力支援装置において、前記検証割り当て部は、テキストデータ入力が行われた前記部分画像データが所定の条件を満たす場合、前記検証作業者への割り当てを省略してもよい。
【0016】
上記の課題を解決する本発明の他の態様は、データ入力支援システムであって、上記のいずれかのデータ入力支援装置と入力作業者の端末装置群とを備え、前記入力作業者の端末装置群は、各々、前記データ入力支援装置から提示された部分画像データについて、前記データ入力支援装置へのテキストデータの入力を受け付ける。
【0017】
上記の課題を解決する本発明の他の態様は、データ入力支援システムであって、上記のいずれかのデータ入力支援装置と入力作業者の端末装置群と検証作業者の端末装置群とを備え、前記入力作業者の端末装置群は、各々、前記データ入力支援装置から提示された部分画像データについて、前記データ入力支援装置へのテキストデータの入力を受け付け、前記検証作業者の端末装置群は、各々、前記データ入力支援装置から提示されたテキストデータ及び部分画像データについて、前記データ入力支援装置への検証結果の入力を受け付ける。
【0018】
上記の課題を解決する本発明の他の態様は、書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援方法であって、前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出し、前記抽出した部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示し、前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付け、前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存する。
【0019】
上記の課題を解決する本発明の他の態様は、書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援装置において実行されるデータ入力支援プログラムであって、前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出し、前記抽出した部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示し、前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付け、前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存する。
【発明の効果】
【0020】
本発明によれば、手書き文字情報を含む書類について、情報漏洩が生じないようにセキュリティーを担保して、効率的にかつ正確にテキストデータ入力を行うことできる。
【図面の簡単な説明】
【0021】
【
図1】
図1は、本発明の第1実施形態のシステム構成例を示すブロック図である。
【
図2】
図2は、第1実施形態において用いられる部分画像データについてテキストデータ入力する際に使用する各種情報のデータ構成例を示す説明図である。
【
図3】
図3は、第1実施形態における業務処理フローの一例を示すフローチャートである。
【
図4】
図4は、第1実施形態におけるデータ入力支援装置と端末装置の処理の流れの一例を示すフローチャートである。
【
図5】
図5は、入力元画像データから部分画像データを抽出する過程の一例を示す説明図である。
【
図6】
図6は、抽出された部分画像データを読み取り作業を行う端末装置群に割り振り処理する態様の一例を示す説明図である。
【
図7】
図7は、部分画像データを、読取り難易度に応じてランク分けされた端末装置群に割り振り処理する態様の一例を示す説明図である。
【
図8】
図8は、同一部分画像データについての読取り入力結果を多数決処理する過程の一例を説明する説明図である。
【
図9】
図9は、本発明の第2施形態のシステム構成例を示すブロック図である。
【
図10】
図10は、第2実施形態において用いられる部分画像データについてテキストデータ入力する際に使用する各種情報のデータ構成例を示す説明図である。
【
図11】
図11は、第2実施形態における業務処理フローの一例を示すフローチャートである。
【
図12】
図12は、第2実施形態におけるデータ入力支援装置と端末装置の処理の流れの一例を示すフローチャートである。
【
図13】
図13は、入力されたデータを、入力者以外の人による最終チェックと修正とを行うための検証用データを端末装置に割り振り処理をする態様例を示す説明図である。
【発明を実施するための形態】
【0022】
以下、本願が開示する複数の発明に関わる実施形態について、図面を参照して説明する。なお、実施形態を説明するための全図において、同一の要素には原則として同一の符号を付し、その繰り返しの説明は省略する。
【0023】
図1は、本願の第1実施形態のシステム構成例を示すブロック図である。
図2は、第1実施形態において用いられる部分画像データについてテキストデータ入力する際に使用する各種情報のデータ構成例を示す説明図である。なお、以下の説明では、テキストデータ化する対象書類として、銀行取引に関わる帳票を例として説明する。もちろん、対象となる書類は、銀行取引書類に限られず、また、書類の形式も帳票に限定されない。さらに、手書き文字等のテキストデータ化を主として目指しているが、印字された文字のテキストデータ化に適用することを排除するものではない。なお、文字としては、言葉・言語を伝達し記録するために線や点を使って形作られた記号で、人が認識してテキストデータ化することができる対象であればよい。
【0024】
図1に示す第1実施形態を構成するデータ入力支援装置100は、図示を省略しているが、例えばサーバーとして機能する資源として、CPU等のプロセッサ、メモリ、記憶装置、インタフェース等のハードウェア資源を有するコンピュータにより実現される。データ入力支援装置100は、物理的に分散した複数のハードウェア資源あるいはコンピュータが連携した処理により各機能を実現するものであってもよい。クラウド上に構築されてもよい。また、データ入力支援装置100は、インストールされたプログラムによりプロセッサが構築する機能を実行する処理部110と、ネットワーク500等を介して外部装置との間で通信を行う通信部130とを有する。また、処理部110における情報処理の対象である各種データが格納される記憶部140と、処理部110の動作に関わる各種情報を格納する記憶部150とを有する。なお、対象画像データについて得られたテキストデータを当該対象画像データに関係付けて、通信部130、又は記憶媒体への書き込み装置等の出力部160を介して入力依頼者のシステム又は入力依頼者に納品する。
【0025】
データ入力支援装置100は、通信部130からネットワーク500を介して端末装置群200と接続され、データ入力支援システムを構成する。ここで、端末装置群200は、通信、画像表示、テキストデータ入力等の機能を有するデバイスにより構成することができる。例えば、スマートフォン、タブレットPC、ノートパソコン等の携帯端末、デスクトップPC等のパソコンにより構成することができる。端末装置群200は、データ入力支援装置100の通信部130に接続され、ブラウザ、専用アプリ等により処理部110からのデータ提示を受けると共に、入力作業者220によるテキストデータ等の入力を受け付けて、データ入力支援装置100に入力する。
【0026】
記憶部140及び記憶部150は、本実施形態では、データ入力支援装置100に設けられたストレージにより実現される。ただし、記憶部140及び150の構成は、これに限定されない。例えば、記憶部140及び150の一方または両方を、クラウド上に構築されるストレージにより構成してもよい。また、記憶部140と150とに二分しているが、もちろん、一つの記憶部としてもよい。逆に、さらに多くの記憶部に分散させて記憶する構成としてもよい。
【0027】
記憶部140は、記入欄、記入枠のような、所定の記入領域に文字が記入された書類を画像化した、入力元画像データとなる対象画像データを格納する対象画像ファイル141と、対象画像データから、各書類について記入領域に対応して予め定めたテキスト入力対象領域として抽出された部分画像データ(
図5、
図6参照)を格納する部分画像ファイル142と、部分画像データから読み取られたテキストデータ、当該テキストデータの項目名等の内容を格納する内容ファイル143と、を有する。対象画像ファイル141には、対象画像ファイルを特定するための情報として、例えば帳票識別子などの書類の識別子が付される。つまり、対象画像ファイル141には、同一フォーマットの書類の対象画像データが格納される。なお、本実施形態及び後述する他の実施形態おいて、テキストデータ化すべき対象となる書類の対象画像データは、予め対象画像ファイル141に格納されていることとする。もちろん、必要に応じて、通信部130や記憶媒体の読み取り装置等(図示せず)を介して外部から対象となる書類の画像データを取り込むことできる。対象画像データの形式は、特に限定されず、例えば、典型的にはTIFFであるが、PNG、GIF、JPEGなどのその他の形式であってもよい。また、記入領域が含まれ得るPDF等の画像以外の形式のデータを、TIFFなどの画像形式に変換して取り込んでもよい。
【0028】
記憶部150は、テキスト化を行う対象となる書類の構造的特徴を示す特徴情報151と、テキストデータ化する領域を部分画像として対象画像データからどのように抽出するかを規定する抽出ルール情報152と、抽出した部分画像について変形を行う場合の変形の態様等を規定する変形ルール情報153と、部分画像を提示してテキストデータ入力を行う入力作業者220に関する入力作業者情報154と、テキストデータ入力作業の入力作業者220への割り当てを規定する割り当てルール情報156と、を格納する。記憶部150に記憶される各種情報について、
図2を参照して述べる。
【0029】
特徴情報151は、テキストデータ化の対象となる各種書類、例えば、帳票類に関する構造的な特徴を情報として保持する。具体的には、当該書類の識別子と、特徴に関わる情報とが記録されている。特徴に関わる情報として、例えば、対象となる帳票名と、その帳票識別子と、罫線、枠等の位置情報と、文字記入領域に関する情報(項目名、位置情報など)等が記録されている。なお、位置情報や領域情報は、例えば画像における座標で定義することができる。
【0030】
特徴情報151は、
図5に示すように、帳票毎のテンプレートデータ1510として記録されていてもよい。図示している例では、銀行取引書類を示している。ここでは、テキストデータ化すべき文字記入領域の一部について示す。具体的には、署名者姓名欄(本実施形態では姓欄と名欄とを区分けしている)1511と、郵便番号1(郵便区番号)及び郵便番号2(町域番号)に区画された郵便番号枠1512と、電話番号1、2及び3の三つの番号からなる電話番号枠1513が含まれている。
【0031】
テキストデータ入力の対象の書類の識別が指定されていない場合でも、特徴情報151を用いてマッチングを行うことで、対象画像ファイル141及びこれに格納される対象画像データがいずれの書類であるかを特定することができる。
【0032】
抽出ルール情報152は、各書類の対象画像データからテキスト入力対象領域である部分画像を抽出するためのルールを保持する。具体的には、当該書類の識別子と、部分画像とすべき領域に関わる情報とが記録されている。部分画像とすべき領域に関わる情報として、例えば、対象となる欄、枠を示す項目名、当該項目に対応する部分画像識別子、当該部分画像の領域を示す領域情報、その領域に記入されている文字の、署名、数字、アルファベット、漢字等の属性を示す文字属性、当該部分画像について変形加工処理を要するかを示す変形加工要否情報等が記録されている。また、当該部分画像の分割が必要な場合の分割するための分割条件が記録されている。分割条件としては、分割される各分割画像の領域を示す領域情報に加え、例えば、対象に変形加工を施すべき変形加工抽出、そのまま抽出する単純抽出、隣接する領域との間でそれぞれの領域の一部をオーバーラップして部分画像を抽出するオーバーラップ抽出が挙げられる(
図5参照)。なお、部分画像データについて分割を行わない場合には、分割条件は省略することができる。
【0033】
変形ルール情報153は、各書類の対象画像データから抽出された部分画像について予め定めた変形を与えるための情報を記録する。具体的には、当該ルールの識別子と、変形加工が求められる部分画像についての変形態様(例えば、字形に歪を与える変形等)とが記録されている。ここで、変形を行うべき部分画像については変更ルールの識別子が、抽出ルール情報の変形加工要否情報に記録される。変形された画像は、他の部分画像とともに部分画像データとして部分画像ファイル142に格納される。なお、部分画像データについて変形加工を行わない場合には、変形ルール情報153は省略することができる。
【0034】
入力作業者情報154は、提示された部分画像から読み取ったテキストデータを入力する入力作業者220に関する情報を作業者毎に記録する。具体的には、データ入力支援装置100との接続を行うための識別子及びパスワードを含むアカウント、当該作業者の入力履歴、入力されたテキストデータの正確性、入力処理の速度等の評価に基づくランクが記録される。
【0035】
割り当てルール情報156は、入力作業者情報154に基づいて、入力作業について、割り当てを行うルールを記録する。具体的には、当該書類の識別子と、割り当て対象となる各部分画像について、部分画像の性質上、どのような作業者に割り当てることが適切か、割り当て人数などを示す部分画像割り当て条件を記録する。例えば、対象となる欄、枠を示す項目名、当該項目に対応する部分画像識別子、画像の属性、変形加工などによる当該部分画像の判読難易度、必要な作業者のランク等が記録されている。また、1件あたりの割り当て人数、一人あたりの割当件数等を記録してもよい。
【0036】
次に、処理部110の構成について説明する。本実施形態の処理部110は、インストールされたプログラムがプロセッサと協働して、後述する使用目的に応じた各種機能を構築し、その機能を実行する。すなわち、処理部110は、所定の記入領域に文字が記入された書類を画像化した対象画像データの文字記入領域部分を、接続される端末装置群200を介してテキストデータ化し、さらに、評価結果に基づいて入力作業者の評価を行うための各種機能を構築する。なお、このプログラムは、記憶部140、記憶部150、図示していない記憶装置のいずれかに格納しておくことができる。
【0037】
本実施形態の処理部110は、その基本的な構成の一例として、記憶部140の対象画像ファイル141から対象画像データを取得する取得部111と、取得された対象画像データから、当該書類について文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出する抽出部112と、抽出された部分画像データを、端末装置群200内の異なる端末装置210に分けて割り当て、テキストデータとして入力するための画像として提示する入力割り当て部114と、端末装置群200からのテキストデータ入力結果を受け付ける入力結果受付部115と、受け付けたテキストデータを、元の対象画像から読み取られたテキストデータとして当該元の対象画像データと関連付けて保存する保存処理部119とを有する。
【0038】
このほかの構成の一例として、処理部110は、部分画像データの内、特定の領域の画像について変形加工を施す変形加工部113と、端末装置群200において入力された、同一部分画像データに関する複数のテキストデータについて、同一内容のテキストとして最も多く入力されたテキストデータを、当該部分画像データから読み取られたテキストデータと決定する多数決処理部116とを有する。さらに、構成の一例として、入力作業者の正確性等の評価を行う評価部120を有する。以下に、各機能について説明する。
【0039】
取得部111は、テキストデータ入力作業の対象である対象画像ファイル141から、対象画像データを取得する。対象画像ファイル141に対応する書類の識別子が予め特定されていない場合は、特徴情報151を用いてマッチング(例えば画像処理による帳票識別子のマッチング)を行って、対象の書類の識別子を特定してもよい。
【0040】
抽出部112は、予め特定された又は取得部111により特定された書類の識別子に該当する抽出ルール情報152を参照する。その上で、抽出ルール情報152に基づき、取得部111により取得された対象画像データから、部分画像の領域情報が示す領域に所在する画像を部分画像データとして抽出する。また、必要な場合は、抽出した部分画像データを、後述するように、分割条件に従って分割してもよい。
【0041】
変形加工部113は、変形加工要否に基づき変形が求められる部分画像(分割された場合は各分割画像)について、変形ルール情報153に示す変形態様に従って変形加工処理を行う。変形態様としては、例えば、字体について、斜体、縦横比の変更、台形化、曲面化、これらの組み合わせ等によりデフォルメを行う(
図5参照)。この画像変形加工により、文字として認識可能に維持する一方、字形の特定を困難とすることができる。これにより、例えば、署名の形を盗むことを抑止することができる。なお、変形加工部113は、省略することもできる。
【0042】
入力割り当て部114は、対象画像ファイル141に対応する書類に関する割り当てルール情報156を参照して、部分画像割り当て条件に従って、入力作業者情報154に記録されている作業者を選んで、端末装置群200から割り当てるべき作業者の端末装置210を決定する。入力作業量、期限等を考慮して、作業者を決定することもできる。決定に際しては、これまでの割り当て履歴(経験)、評価(ランク)を参照して決定することもできる。例えば、経験が長い入力作業者や評価が高い入力作業者に、経験が短い入力作業者や評価が低い入力作業者よりも多くの作業を割り当てる。また例えば、判読難易度が高い部分画像の作業を経験が長い入力作業者や評価が高い入力作業者に割り当て、判読難易度が低い部分画像の作業を経験が短い入力作業者や評価が低い入力作業者に割り当てる。その他の割り当て方法については後述する。
【0043】
入力割り当て部114は、割り当ての際、部分画像データの識別子を入力作業者識別子と関連付け、入力結果を保存するまで管理する。入力割り当て部114は、決定した作業者に、テキストデータを入力するための画像を提示する(
図6参照)。決定した作業者は、入力作業者情報154に示すアカウントが付与されているため、入力作業者は、指定のアカウントにより、ログインして提示された部分画像を閲覧し、必要な入力処理を行う。
【0044】
入力割り当て部114は、抽出された同一部分画像データを、端末装置群200内の異なる端末装置210に分散して割り当ててもよい。これにより、同一の部分画像データを複数の作業者が読み取って、迅速にテキストデータとして入力でき、また、後述する多数決処理により、入力精度を向上させることができる。
【0045】
入力結果受付部115は、端末装置群200からのテキストデータ入力結果を受け付ける。入力結果受付部115は、所定のアカウントによりログインした入力作業者から入力されるテキストデータを受け付ける。入力結果受付部115は、テキストデータを、入力作業者の識別子を介して部分画像データの識別子と関連付ける。
【0046】
多数決処理部116は、端末装置群200において入力された、同一部分画像データに関する複数のテキストデータについて、同一内容のテキストとして最も多く入力されたテキストデータを、当該部分画像データから読み取られたテキストと決定する。具体的には、多数決処理部116は、入力結果受付部115により受け付けた、同一の部分画像データに関係付けられたテキストデータを比較して、同一であるデータの入力数を計数する。同一部分画像データを提示した各端末装置210から入力された複数のテキストデータを比較して、最も多く一致していたテキストデータを、その部分画像データについてのテキストデータと決定する。なお、同一部分画像データを異なる複数の端末装置210に分散して提示していない場合、確実に一致することが期待できる場合など、多数決処理を省略することができる。また、多数決処理部116を設けないことも可能である。
【0047】
保存処理部119は、多数決処理部116において多数決処理されたテキストデータを元の対象画像データと関連付けて、記憶部140の内容ファイル143に保存する。例えば、当該部分画像データの識別子及び帳票の識別子と共に、項目名と、対応するテキストデータとを保存する。多数決処理を行わない場合には、入力結果受付部115において受け付けたテキストデータを、対応する項目名と、当該部分画像データの識別子及び帳票の識別子と共に、記憶部140の内容ファイル143に保存する。
【0048】
評価部120は、例えば、多数決処理を行って、多数決での多数となる割合が高いほど正確度が高い評価とする。評価は、他の方法で行うことも可能である。評価部120の評価は、入力作業者情報154に記録される。
【0049】
出力部160は、テキストデータ入力の依頼元に、例えば、テキストデータ入力が終了した対象画像データと、それに含まれる部分画像に対応するテキストデータとを、識別子を付して納品データとして、出力する。
【0050】
次に、上述したデータ入力支援装置において、プログラムにより各種機能が稼働することにより実施されるデータ入力支援方法について説明する。
図3は、第1実施形態における業務処理フローを示すフローチャートである。
図4は、第1実施形態におけるデータ入力支援装置と端末装置の処理の流れを示すフローチャートである。なお、以下では、説明を分かり易くするため、テキストデータ入力作業の対象である対象画像ファイル141に含まれる各対象画像データの処理に着目しているが、複数の対象画像データの処理が並列的に行われてもよいことは言うまでもない。
【0051】
図3を参照して、データ入力支援装置100と端末装置群200との間の業務フローの概要について説明する。まず、データ入力支援装置100は、端末装置群200に入力作業指示を行うまでに、詳細については後述するが、次の一連の処理を行う。
【0052】
データ入力支援装置100は、通信部130を介して、書類の文字入力領域に記入された文字をテキストデータ化するための業務依頼と共に、入力元画像データを対象画像データとして受け付ける。また、特徴情報151、抽出ルール情報152及び変形ルール情報153を設定する。データ入力支援装置100は、入力元画像データの対象画像データから部分画像データを抽出する。この部分画像データにおいて必要な画像について変形加工処理を行う。
【0053】
その後、端末装置群200の各端末装置210に対して、テキストデータ入力を行うべき部分画像データを提示する。各端末装置210では、各入力作業者220が、提示された画像から、記入されている文字、例えば、漢字、仮名、数字、アルファベット等を読み取り、テキストデータとしてデータ入力支援装置100に入力する。
【0054】
データ入力支援装置100は、入力結果を受け付けて、テキストデータを対応する部分画像データの識別子と関連づけて保存する。また、多数決処理を行う場合には、多数決処理を行って、多数となったテキストデータを対応する部分画像データの識別子と関連づけて保存する。その後、依頼された入力元画像データについて、入力したテキストデータを対応する部分画像データの識別子と関連づけて、必要に応じて帳票識別子と関連付けて、依頼元に送る。一方、入力作業者別に評価し、その結果を入力作業者情報154に記録する。評価結果を集計して、ランクとして記録することもできる。
【0055】
次に、
図4から
図8を参照して、依頼された対象画像データに関する部分画像データのテキストデータ入力について説明する。まず、テキストデータ入力作業の対象である対象画像ファイル141から、対象画像データを取得する(S101)。対象画像ファイル141に対応する書類の識別子が予め特定されていない場合は、特徴情報151を用いて対象の書類の識別子を特定する。
【0056】
次に、取得部111により取得された対象画像データから部分画像データを抽出する(S102)。部分画像データを抽出する際には、予め特定された又は取得部111により特定された書類の識別子に該当する抽出ルール情報152を参照する。そして、対象となる欄、枠を示す項目名、当該項目に対応する部分画像識別子、領域を示す領域情報に基づいて、対象画像データからそれぞれ該当領域の画像データを部分画像データとして抽出する。
図5に示す例では、テンプレート1510における署名者姓名欄1511に対応する署名者姓名欄1411と、郵便番号枠1512に対応する郵便番号枠1412と、電話番号枠1513に対応する電話番号枠1413が、部分画像データとして、抽出の対象となる。なお、これらは、例示に過ぎず、他の領域についても抽出の対象となり得る。必要であれば、用紙に印字されている文字領域についても、部分画像データの抽出対象としてもよい。
【0057】
抽出ルール情報152で分割条件が設定されている場合には、部分画像データを分割条件の示す領域情報に従って分割し、各分割画像データに識別子を付す(S103)。
図5に示す例では、抽出した部分画像データ1411、1412及び1413は、
図5に示すような単位で分割される。必要に応じて、郵便番号、電話番号等の項目名を付してもよい。なお、項目名は、入力作業者には見えないようにすることもある。
図5に示す例では、画像抽出(変形加工)1421として、変形加工を要する画像、例えば、請求者姓漢字及び請求者名漢字、画像抽出(単純分割)1422として、加工処理等の特別の処理を要しない画像、例えば、郵便番号1及び2、画像抽出(オーバーラップ分割)1423として、電話番号1、2及び3の各欄が部分画像として分割される。
【0058】
オーバーラップ処理の一例を示す。電話番号枠1513において、三つの長方形状の枠a、b、cが、枠aの右端部、枠bの左端部と、枠bの右端部、枠cの左端部が相互に重なるように設定されている。そのため、入力元画像データ(対象画像データ)について、同一長さの枠a、b、cのそれぞれの枠内に位置する画像を抽出すると、画像抽出1423に示すように、a(0454)、b(45111)及びc(171)のように見える数字の画像に分割して抽出される。a、b、cには、記入されている文字(この例では数字)列の区画がシフトし、また、文字列の一部が重複して抽出されている。したがって、電話番号本来の形式とは合致せず、番号列は、無意味化されたこととなり、安全性が向上する。この番号をテキストデータ化した後、枠の設定に関する情報を用いて、正しい番号を復元することができる。
【0059】
抽出ルール情報152の変形加工要否で変形加工を要する旨の指示がある場合には、部分画像データ(分割された場合は各分割画像データ)に、関連付けられた変形ルール情報153に示す変形態様に従って変形加工処理を施す(S104)。例えば、署名者姓名欄1511について加工処理が指示され、変形ルール情報において字体変形態様を読み出され、その部分画像データ1411、すなわち署名データについて、変形加工が施される。
図5の画像抽出(変形加工)1421のように、姓については、その表記の外形が、欄の上下方向を底辺とした台形状に変形されている。また、名については、その表記の外形が、平行四辺形状に変形されている。これにより、人が読むことを可能としつつ、筆跡は変形している。そのため、署名を盗み見ても、元の署名字体を再現することはできない。従って、署名の安全性が確保される。
【0060】
この後、上述したように、割り当てルール情報156を参照して、入力作業者情報154に記録されている作業者を選んで、端末装置群200から割り当てるべき作業者の端末装置210を決定し、部分画像データ(分割された場合は各分割画像データ)を作業者の端末装置に割り振る(S105)。割り当てに際し、例えば、
図5に示すような、画像の抽出の仕方の違いによって、割り当てを変えることができる。また、電話番号1、電話番号2、電話番号3のように同一カテゴリを構成する複数枠を1枠ずつに分割して、別々の端末装置210に割り当てることもできる。これにより、電話番号全体としては、同一入力作業者に提示されることが生じない。すなわち、安全性が高くなる。
【0061】
割り当てに際し、その領域に記載されている画像の、署名、数字、アルファベット、漢字等の属性を示す文字属性に応じて割り振ることができる。
図6にその一例を示す。同図に示す例では、郵便番号1422、電話番号1423、口座番号1424のような数字のみが記載されるカテゴリの部分画像と、メールアドレス欄1425のようなアルファベット、数字、記号の複合により表現されるカテゴリの部分画像と、筆跡情報が必須要素であるカテゴリの部分画像とを、カテゴリ別に異なる端末装置210のグループに割り当てる。さらに、同一カテゴリに含まれる各部分画像を、対応するグループの中の異なる端末装置210に割り当てる。
【0062】
上述した、加工変形処理、オーバーラップ、部分画像データのカテゴリによる割り当て対象変更等については、態様、ルール等を、随時、変更することができる。これにより、入力作業者に、態様等について学習されることを防いで、安全性を向上することができる。
【0063】
割り当てに際しては、割り当てルール情報156を参照して、入力作業者のランクに応じて、部分画像データを作業者に割り振ることができる。例えば、
図6に示したカテゴリに分類された部分画像データを、
図7に示すように、作業者のランクに応じて割り当てられるように設定することができる。この例では、初級者ランク1561には、数字主体の部分画像データ1422から1424を、中級者ランク1562には、初級者ランク1561に割り当てる部分画像データのほかに、英数字、記号を含む部分画像データ1425を割り振ることができる。また、上級者ランク1563には、上記初級者ランク1561及び中級者ランク1562に割り当てる部分画像データのほか、漢字を含む署名等の部分画像データ1421を割り振ることができる。
【0064】
作業者への割り当て後は、割り当てた部分画像データを対応する端末装置210に提示する(S106)。
【0065】
これを受けて、各端末装置210では、データ入力支援装置100にネットワーク500を介してログインし、提示された画像を端末装置210において表示する(S201)。当該端末装置210の入力作業者220が認識した結果を、テキストデータとして端末装置210において入力する(S202)。
【0066】
入力結果受付部115において、各端末装置210からのテキストデータ入力を受け付けて、部分画像データとさらに対象画像データとも関連付けて、内容ファイルに保存する(S107)。ここで、同一部分画像データが複数の端末装置210に提示され、テキストデータが入力される場合、上述した多数決処理を行って、各部分画像データに対応するテキストデータを決定し、部分画像データとさらに対象画像データとも関連付けて、内容ファイルに保存する(S108)。
【0067】
多数決処理は、例えば、
図8に示すように、複数の端末装置210(図では便宜上4台示している)から、テキストデータの入力結果が送られた場合について示す。この例では、“花子”という手書き文字について変形加工処理を施された部分画像データが、各端末装置210に提示され、それぞれの表示画面211に表示されている。各入力作業者220は、それぞれ表示画面211上の画像から文字を読み取って、画面上のキーボード213から、テキストデータを入力する。
【0068】
図8に示す各端末装置210の画面下方のテキスト入力部212に、それぞれの入力作業者220が入力したテキストデータが、画面左側から順に、「花子」、「化子」、「花子」、「華子」と表示されている。これらのテキストデータが入力結果受付部115で受付、多数決処理部116において多数決処理を行う(S108)。その結果、最多入力のテキストデータである「花子」が、請求者名漢字として決定される。この後、内容ファイルに保存したテキストデータを、対象画像データと関連付けて、納品する(S113)。
【0069】
一方、多数決処理の結果に基づいて、各入力者の部分画像読み取りの正確さを評価して、入力作業者情報154に、評価情報として記録する(S112)。例えば、
図8に示す例において、「化子」は読み間違い、「華子」変換ミスと考えられる。これらのミスについても、各入力作業者別に集計して、評価のデータとして記録することができる。
【0070】
このようにして、一つの帳票の様々な部分から抽出した部分画像を、必要に応じて分割して、同一の端末装置には割り当てず、異なる端末装置に割り当てる。これにより、帳票全体を同一人が入力することが防げ、情報漏洩の危険が低減できる。
【0071】
図9は、本願の第2実施形態のシステム構成例を示すブロック図である。
図2は、第2実施形態において用いられる部分画像データについてテキストデータ入力する際に使用する各種情報のデータ構成例を示す説明図である。第2実施形態は、端末装置群200からのテキストデータの入力結果について検証を行うことが加わっている。そこで、第1実施形態と共通する点については、重複した説明を簡略化し、また、省略して、相違点を中心として説明する。
【0072】
図9に示す第2実施形態を構成するデータ入力支援装置100は、通信部130からネットワーク500を介して端末装置群200に加えて端末装置群300と接続され、データ入力支援システムを構成する。ここで、端末装置群300は、端末装置群200と同様に、通信、画像表示、テキストデータ入力の各機能を有するデバイスにより構成することができる。例えば、スマートフォン、タブレットPC、ノートパソコン等の携帯端末、デスクトップPC等のパソコンにより構成することができる。端末装置群300は、データ入力支援装置100の通信部130に接続され、ブラウザ、専用アプリ等により処理部110からの部分画像データ及び入力結果の提示を受けると共に、検証作業者320による検証結果の入力、及び、必要であれば、テキストデータの修正入力を受け付けて、データ入力支援装置100に入力する。
【0073】
第2実施形態において、記憶部150は、入力作業者220により入力されたテキストデータが正しく読み取ることができているか検証を行う検証作業者320に関する検証作業者情報155を格納する。また、割り当てルール情報156に、入力作業者220への割り当てのほか、検証作業者320への割り当てについても規定する。記憶部150に記憶される各種情報について、
図10を参照して述べる。
【0074】
検証作業者情報155は、部分画像データから読み取られたテキストデータの正確性を検証する作業者に関する情報を作業者毎に記録する。具体的には、データ入力支援装置100との接続を行うための識別子及びパスワードを含むアカウント、当該検証作業者による検証の履歴等が記録される。
【0075】
割り当てルール情報156は、入力作業者情報154及び検証作業者情報155に基づいて、入力作業、検証作業のそれぞれについて、割り当てを行うルールを記録する。具体例は、第1実施形態の割り当てルール情報156の説明と同様である。
【0076】
次に、処理部110の構成について説明する。本実施形態の処理部110は、
図9に示すように、検証のための端末装置群300と接続され、保存処理部119において保存された入力テキストデータ及び対応する部分画像データを、接続される端末装置群300内の検証に用いる端末装置310に割り当てて提示する検証割り当て部117と、提示したテキストデータ及び部分画像データについての検証結果を受け付ける検証結果受付部118とを有する。さらに、検証結果に基づいて、入力作業者の正確性等の評価を行う評価部120を有する。評価部以外の機能は、第1実施形態と同様であるので、ここでは、検証機能を中心として説明する。
【0077】
次に、上述した第2実施形態のデータ入力支援装置において、プログラムにより各種機能が稼働することにより実施されるデータ入力支援方法について説明する。
図11は、第2実施形態における業務処理フローを示すフローチャートである。
図12は、第2実施形態におけるデータ入力支援装置と端末装置の処理の流れを示すフローチャートである。
図11に示すフローでは、
図3において説明した多数決処理・保存を行った後、検証処理を行う。そこで、検証作業割り当て以降について説明する。
【0078】
検証割り当て部117において、検証のための端末装置群300と接続され、保存処理部において保存された入力テキストデータ及び対応する部分画像データを、接続される端末装置群300内の検証に用いる端末装置310に割り当てて提示する。検証結果受付部118は、提示したテキストデータ及び部分画像データについての検証結果を受け付ける。保存処理部119は、検証結果に基づいて、検証されたテキストデータを、元の対象画像から読み取られたテキストデータとし、テキストデータが修正されている場合には、修正されたテキストデータを、元の対象画像から読み取られたテキストデータとして、当該元の対象画像データと関連付けて内容ファイル143に保存する。また、修正されたデータを含めて検証されたテキストデータを内容ファイル143から読み出して、対応する部分画像データの識別子、及び、当該部分画像データの元である対象画像ファイルの識別子と関連付けて、出力部160から依頼元に納品する。一方、入力作業者別に評価し、その結果を入力作業者情報154に記録する。評価結果を集計して、ランクとして記録することもできる。
【0079】
次に、
図12及び
図13を参照して、
図11における多数決処理後、すなわち、
図12におけるS109以降のテキストデータの検証について説明する。検証は、入力作業者220により入力されたテキストデータについて、提示された部分画像から文字が正しく読み取られテキストデータとして入力されているかを確認し、必要であれば、修正を行う処理である。
【0080】
検証割り当て部117は、検証対象となる入力作業者とは別の作業者を検証作業者として割り当てる(S109)。割り当てに際しては、検証作業者情報155を参照する。すなわち、検証内容に応じて、割り当てルール情報156を参照して、検証作業者情報155に記録されている作業者を選んで、端末装置群300から割り当てるべき作業者の端末装置310を決定し、検証対象となるテキストデータと対応する部分画像データとを、当該検証作業者の端末装置310に提示する。
【0081】
割り当てに際して、部分画像の判読難易度に応じて、割り当てを決めることができる。また、データの内容の重要性によって、端末装置310の状況を考慮して割り当てることができる。例えば、
図13に示すように、アンケートデータ(部分画像データ1421及び対応するテキストデータ1431)のように、機密性が低く、仮に読まれても実害が小さいようなデータについては、気楽に検証できるモバイル端末装置310から構成される端末装置群300Aの検証作業者320に割り当てる。一方、金融情報データ(部分画像データ1422及び対応するテキストデータ1432)のように、高い信頼性が求められるデータの場合、
図13に示すように、デスクトップタイプの端末装置310により構成される端末装置群300Bの検証作業者320に割り当てる。
【0082】
また、割り当てに際して、例えば、経験が長い検証作業者に、経験が短い検証作業者よりも多くの作業を割り当てることもできる。また例えば、判読難易度が高い部分画像の作業を経験が長い検証作業者に割り当て、判読難易度が低い部分画像の作業を経験が短い検証作業者に割り当てることもできる。
【0083】
また、割り当てに際して、テキストデータ入力が行われた部分画像データが所定の条件を満たす場合、検証作業者へ割り当てず、検証を省略してもよい。例えば、判読難易度が低い部分画像データや、経験が長い入力作業者や評価が高い入力作業者によってテキストデータ入力が行われた部分画像データについて、検証を省略する。このようにすれば、テキストデータ入力結果の正確性等の品質を維持しつつ、テキストデータ入力業務の負荷を低減することができる。
【0084】
上述した各実施形態において、特徴情報151、抽出ルール情報152及び変形ルール情報153は、定型的な業務依頼の場合には、一度受領し、変更があればその都度、変更内容を受領し、それぞれ記憶部150に保存する。なお、これらの情報については、その全部又は一部について、深層学習により学習済モデルとして蓄積することも可能である。
【0085】
本実施形態のデータ入力支援装置は、典型的には例えばWebページとして各種の操作画面を用意し、端末装置のWebブラウザに表示させることができる。しかし、この態様に限られない。例えば、端末装置に各種の操作画面を備える専用アプリケーションをインストールしてもよい。この場合、データ入力支援装置は、各種の操作画面に表示させる一部内容(部分画像データなど)を端末装置に送信するだけで、端末装置の専用アプリケーションに各種操作画面を表示させることができる。すなわち、本発明のデータ入力支援装置は、端末装置に画面を表示させることができる様々な態様も含むことができる。
【0086】
本発明は、上述した実施形態や変形例に限定されるものではなく、さらに様々な変形が可能である。例えば、上述した実施形態や変形例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある変形例の一部を他の変形例に置き換えたり、変形例を組み合わせたりすることが可能である。
【0087】
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD等の記憶装置、または、ICカード、SDカード、DVD等の記憶媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
【0088】
本願発明は、以上述べた実施例に限られない。多様な対象につい適用可能である。また、システム、装置、方法、コンピュータ読み取り可能なプログラム、など様々な態様で提供することができる。
【符号の説明】
【0089】
100…データ入力支援装置、
110…処理部、111…取得部、112…抽出部、113…変形加工部、114…入力割り当て部、115…入力結果受付部、116…多数決処理部、117…検証割り当て部、118…検証結果受付部、119…保存処理部、120…評価部、
130…通信部、
140…記憶部、141…対象画像ファイル、142…部分画像ファイル、143…内容ファイル、
150…記憶部、151…特徴情報、152…抽出ルール情報、153…変形ルール情報、154…入力作業者情報、155…検証作業者情報、156…割り当てルール情報、
160…出力部、
200、300…端末装置群、210、310…端末装置、220…入力作業者、320…検証作業者
【要約】
【課題】手書き文字情報を含む書類について、セキュリティーを担保して、効率的にかつ正確にテキストデータ入力を行う技術を提供する。
【解決手段】書類を画像化した対象画像データから前記書類の文字記入領域に記入された文字を、接続される入力作業者の端末装置群を介してテキストデータ化するデータ入力支援方法であって、前記対象画像データから前記文字記入領域に対応して予め定めたテキスト入力対象領域を部分画像データとして抽出し、前記抽出した部分画像データを、前記端末装置群内の異なる前記入力作業者の端末装置に分けて割り当てて提示し、前記端末装置群から前記入力作業者によるテキストデータ入力結果を受け付け、前記受け付けたテキストデータを、元の前記対象画像データから読み取られたテキストデータとして当該対象画像データと関連付けて保存する。
【選択図】
図1