特開2023-160974 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＮＥＣソリューションイノベータ株式会社の特許一覧

特開2023-160974入力支援装置、入力支援方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023160974

(43)【公開日】2023-11-02

(54)【発明の名称】入力支援装置、入力支援方法、及びプログラム

(51)【国際特許分類】

G06V 30/12 20220101AFI20231026BHJP

【ＦＩ】

G06V30/12 Z

【審査請求】有

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2023148263

(22)【出願日】2023-09-13

(62)【分割の表示】P 2019054629の分割

【原出願日】2019-03-22

(71)【出願人】

【識別番号】000232092

【氏名又は名称】ＮＥＣソリューションイノベータ株式会社

(74)【代理人】

【識別番号】110002044

【氏名又は名称】弁理士法人ブライタス

(72)【発明者】

【氏名】井上涼子

(72)【発明者】

【氏名】佐野勉

(72)【発明者】

【氏名】井上弘司

(72)【発明者】

【氏名】高木佳代子

(72)【発明者】

【氏名】吉村卓実

(72)【発明者】

【氏名】野原俊介

(72)【発明者】

【氏名】山脇聖

(72)【発明者】

【氏名】鈴木亮子

(72)【発明者】

【氏名】松井政広

(57)【要約】

【課題】ＯＣＲを用いたデータ入力処理における省力化を図り得る、入力支援装置、入力支援方法、及びプログラムを提供する。
【解決手段】入力支援装置１０は、光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ワイルドカード変換部１１と、一部がワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、検索処理部１２と、抽出された複数の文字列それぞれについて、当該文字列と光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、光学的文字認識の対象となっていた情報と推定する、情報推定部１３と、を備えている。
【選択図】図１

【特許請求の範囲】

【請求項1】

光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ワイルドカード変換部と、
一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、検索処理部と、
抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、情報推定部と、
を備えている、
ことを特徴とする入力支援装置。

【請求項2】

請求項１に記載の入力支援装置であって、
前記情報推定部が、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が２以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第２の類似度を算出し、
算出した前記第２の類似度に基づいて、最も高い優先度が設定された文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とする入力支援装置。

【請求項3】

請求項１または２に記載の入力支援装置であって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記ワイルドカード変換部が、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記検索処理部が、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とする入力支援装置。

【請求項4】

請求項３に記載の入力支援装置であって、
前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出する、不読率算出部を更に備え、
前記ワイルドカード変換部、前記検索処理部、及び前記情報推定部が、前記不読率が閾値未満の項目について、処理を行う、
ことを特徴とする入力支援装置。

【請求項5】

請求項３または４に記載の入力支援装置であって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とする入力支援装置。

【請求項6】

（ａ）光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
（ｂ）一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
（ｃ）抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を有する、
ことを特徴とする入力支援方法。

【請求項7】

請求項６に記載の入力支援方法であって、
前記（ｃ）のステップにおいて、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が２以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第２の類似度を算出し、
算出した前記第２の類似度に基づいて、最も高い優先度が設定された文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とする入力支援方法。

【請求項8】

請求項６または７に記載の入力支援方法であって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記（ａ）のステップにおいて、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記（ｂ）のステップにおいて、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とする入力支援方法。

【請求項9】

請求項８に記載の入力支援方法であって、
（ｄ）前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出する、ステップを更に有し、
前記（ａ）のステップ、前記（ｂ）のステップ、及び前記（ｃ）のステップにおいて、前記不読率が閾値未満の項目について、処理を行う、
ことを特徴とする入力支援方法。

【請求項10】

請求項８または９に記載の入力支援方法であって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とする入力支援方法。

【請求項11】

コンピュータに、
（ａ）光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
（ｂ）一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
（ｃ）抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結
果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を実行させる、プログラム。

【請求項12】

請求項１１に記載のプログラムであって、
前記（ｃ）のステップにおいて、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が２以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第２の類似度を算出し、
算出した前記第２の類似度に基づいて、最も高い優先度が設定された文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とするプログラム。

【請求項13】

請求項１１または１２に記載のプログラムであって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記（ａ）のステップにおいて、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記（ｂ）のステップにおいて、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とするプログラム。

【請求項14】

請求項１３に記載のプログラムであって、
前記コンピュータに、
（ｄ）前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出し、算出した前記不読率が閾値以上となる項目が存在する場合に、該当する項目の文字列を削除する、ステップを更に実行させ、
前記（ａ）のステップ、前記（ｂ）のステップ、及び前記（ｃ）のステップにおいて、前記不読率が閾値未満の項目について、処理を行わせる、
ことを特徴とするプログラム。

【請求項15】

請求項１３または１４に記載のプログラムであって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、光学的文字認識（ＯＣＲ：Optical Character Recognition/Reader）を用いたデータ入力において、入力処理を支援するための、入力支援装置、及び入力支援方法に関し、更には、これらを実現するためのプログラムに関する。

【背景技術】

【0002】

近年、コンピュータシステムの発展により、様々なデータがコンピュータ上で処理及び蓄積されている。このため、紙に記載された情報を、ＯＣＲによって、コンピュータが利用可能なデジタルデータに変換する必要性がある。

【0003】

このような紙の情報からデジタルデータへの変換が必要な例としては、例えば、金融機関による為替処理が挙げられる。具体的には、従来から、金融機関においては、顧客が紙に記入した為替の振込依頼票にＯＣＲを行うことによって、紙に記載された情報をデジタルデータに変換している。

【0004】

但し、ＯＣＲでは、紙に記載されている全ての文字を完全に認識することは難しいため、オペレータは、ＯＣＲによる認識が不十分な情報を、タイピングによって補完する必要がある。また、オペレータによるタイピングは完全であるとは限らず、タイピングミスが生じる可能性がある。

【0005】

このため、従来から入力を支援するシステムが提案されている（例えば、特許文献１参照）。このようなシステムは、過去の取引で用いられた情報、例えば、依頼人情報、受取人情報等を蓄積し、認識率の高い情報及びタイピングされた情報をキーにして、蓄積された情報から、補完すべき情報を検索する機能を備えている。このようなシステムによれば、オペレータにおけるタイピングミスが軽減されると考えられる。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２００３－６４４１号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

ところで、近年においては、人材不足が叫ばれていることから、データ入力のような単純作業における人手を減らして、省力化を図ることが求められている。しかしながら、上述のシステムは、オペレータの入力時に候補を提示する機能しか有しておらず、上述のシステムを導入しても、オペレータの数を減らすことができるわけではない。上述のシステムには、省力化を図れないという問題がある。

【0008】

本発明の目的の一例は、上記問題を解消し、ＯＣＲを用いたデータ入力処理における省力化を図り得る、入力支援装置、入力支援方法、及びプログラムを提供することにある。

【課題を解決するための手段】

【0009】

上記目的を達成するため、本発明の一側面における入力支援装置は、
光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ワイルドカード変換部と、
一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、検索処理部と、
抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、情報推定部と、
を備えている、
ことを特徴とする。

【0010】

また、上記目的を達成するため、本発明の一側面における入力支援方法は、
（ａ）光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
（ｂ）一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
（ｃ）抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を有する、
ことを特徴とする。

【0011】

更に、上記目的を達成するため、本発明の一側面におけるプログラムは、
コンピュータに、
（ａ）光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
（ｂ）一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
（ｃ）抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を実行させる、ことを特徴とする。

【発明の効果】

【0012】

以上のように、本発明によれば、ＯＣＲを用いたデータ入力処理における省力化を図ることができる。

【図面の簡単な説明】

【0013】

【図1】図１は、本発明の実施の形態における入力支援装置の概略構成を示すブロック図である。

【図2】図２は、本発明の実施の形態における入力支援装置の構成を具体的に示すブロック図である。

【図3】図３は、本発明の実施の形態において不読率算出部によって行われる処理の一例を説明する図である。

【図4】図４は、本発明の実施の形態においてワイルドカード変換部による変換処理の結果の一例を示す図である。

【図5】図５は、本発明の実施の形態において検索処理部による検索処理の結果の一例を示す図である。

【図6】図６は、本発明の実施の形態において情報推定部による類似度の算出結果の一例を示す図である。

【図7】図７は、本発明の実施の形態において情報推定部による第２の類似度の算出結果の一例を示す図である。

【図8】図８は、本発明の実施の形態における入力支援装置の動作を示すフロー図である。

【図9】図９は、本発明の実施の形態における入力支援装置１０を実現するコンピュータの一例を示すブロック図である。

【発明を実施するための形態】

【0014】

（実施の形態）
以下、本発明の実施の形態における入力支援装置、入力支援方法、及びプログラムについて、図１～図９を参照しながら説明する。

【0015】

［装置構成］
最初に、図１を用いて、本実施の形態における入力支援装置の概略構成について説明する。図１は、本発明の実施の形態における入力支援装置の概略構成を示すブロック図である。

【0016】

図１に示す、本実施の形態における入力支援装置１０は、ＯＣＲを用いたデータ入力において、入力処理を支援するための装置である。図１に示すように、入力支援装置１０は、ワイルドカード変換部１１と、検索処理部１２と、情報推定部１３とを備えている。

【0017】

ワイルドカード変換部１１は、光学的文字認識（ＯＣＲ）によって生成された文字列（以下「ＯＣＲ文字列」と表記する。）の一部をワイルドカードに変換する。検索処理部１２は、一部がワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベース２０を検索して、該当する文字列を複数抽出する。情報推定部１３は、抽出された複数の文字列それぞれについて、各文字列とＯＣＲの結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、ＯＣＲの対象となっていた情報と推定する。

【0018】

このように、入力支援装置１０では、ＯＣＲ文字列をそのまま使うのでなく、一部がワイルドカードに変換された文字列を用いて検索が行われる。また、これにより、候補となる文字列が複数得られ、その中から、ＯＣＲ文字列との類似度に基づいて、ＯＣＲ文字列が表している情報が推定される。つまり、入力支援装置１０によれば、ＯＣＲされた文字列から、人手による補正入力を経ることなく、正確な文字列データを得ることができるので、ＯＣＲを用いたデータ入力処理における省力化が図られる。

【0019】

続いて、図２～図７を用いて、本実施の形態における入力支援装置の構成及び機能をより具体的に説明する。図２は、本発明の実施の形態における入力支援装置の構成を具体的に示すブロック図である。

【0020】

図２に示すように、本実施の形態における入力支援装置１０は、上述したワイルドカード変換部１１、検索処理部１２、及び情報推定部１３に加えて、不読率算出部１４を備えている。また、入力支援装置１０には、データベース２０が接続されている。

【0021】

また、本実施の形態では、ＯＣＲの対象は、項目毎に仕切られた情報の集合で構成されたデータであり、ＯＣＲによって、項目毎に文字列が生成されているとする。ＯＣＲの対象の具体例としては、紙媒体に記載され、且つ、複数の項目で仕切られた、例えば、為替処理に用いる申込書が挙げられる。

【0022】

更に、本実施の形態では、データベース２０は、上述した項目毎に、文字列で構成された情報を登録しているとする。具体的には、データベースは、過去の申込書に記載された情報のデジタルデータを蓄積している。なお、図１及び図２の例では、データベース２０は、入力支援装置１０の外に設けられているが、これは一例である。データベース２０は
、入力支援装置１０の内部に設けられていても良い。

【0023】

不読率算出部１４は、項目毎に、ＯＣＲ文字列について、不読率を算出する。具体的には、不読率算出部１４は、ＯＣＲによって認識されなかった文字数を全体の文字数で除算することによって不読率を算出する。

【0024】

また、本実施の形態では、不読率算出部１４は、算出した不読率が閾値以上であるかどうかを判定する。この場合、ワイルドカード変換部１１、検索処理部１２、及び情報推定部１３は、不読率が閾値未満となった項目について、処理を実行する。

【0025】

このように不読率が高い項目については処理対象から外されることにより、検索処理部１２による検索の精度の低下が抑制され、結果、情報推定部１３による推定の精度の低下も抑制される。図３は、本発明の実施の形態において不読率算出部によって行われる処理の一例を説明する図である。

【0026】

図３の例では、項目毎のＯＣＲ文字列が示されている。また、図３に示すように、項目毎に不読率の閾値が設定されているので、不読率算出部１４は、項目毎に、対応する閾値と不読率とを比較して、不読率が閾値以上となる文字列を特定する。具体的には、不読率算出部１４は、図３の例では、不読率が閾値以上である項目として、「口座番号」を特定する。

【0027】

ワイルドカード変換部１１は、本実施の形態では、項目毎に、ＯＣＲによって生成された文字列の一部をワイルドカードに変換する。図４は、本発明の実施の形態においてワイルドカード変換部による変換処理の結果の一例を示す図である。

【0028】

図４の例では、図３で示された項目「電話番号」と「依頼人名」とを対象にして、文字列の１つがワイルドカード「＊」に変換されている。その結果、項目毎に、複数の文字列（以下「ワイルドカード文字列」と表記する。）が生成されている。

【0029】

検索処理部１２は、本実施の形態では、項目毎に、ワイルドカード変換部１１で生成された各ワイルドカード文字列を用いて、データベース２０を検索して、該当する文字列を複数抽出する。図５は、本発明の実施の形態において検索処理部による検索処理の結果の一例を示す図である。

【0030】

図５の例では、上図は、項目「電話番号」のワイルドカード文字列をクエリとして検索した場合の検索結果を示し、下図は、項目「依頼人名」のワイルドカード文字列をクエリとして検索した場合の検索結果を示している。また、本実施の形態では、データベース２０は、申込書毎に各項目のデータをひとまとまりにして管理しているため、検索結果には、検索対象となった項目のデータだけでなく、それに紐付けられている他の項目のデータも含まれている。つまり、検索結果としては、該当する文字列を含むレコードが取得される。

【0031】

情報推定部１３は、本実施の形態では、検索処理部１２で項目毎に抽出された複数の文字列それぞれについて、ＯＣＲ文字列との類似度を算出する。この場合の類似度としては、例えば、コサイン類似度が挙げられる。コサイン類似度の算出手法としては、既知の算出手法が挙げられる。図６は、本発明の実施の形態において情報推定部による類似度の算出結果の一例を示す図である。

【0032】

図６の例では、図５の上図及び下図に示した検索結果と図３に示したＯＣＲ文字列とから算出されたコサイン類似度が示されている。なお、図５において、電話番号が「８５２
４２８１２」となっている文字列と、「８５４２２８１２」となっている文字列とは、上図と下図とで重複している。このため、図６においては、重複しているうちの一方は削除されている。

【0033】

更に、本実施の形態では、情報推定部１３は、算出した類似度（コサイン類似度）に基づいて、検索によって抽出された文字列それぞれに対して優先度を設定する。具体的には、情報推定部１３は、類似度が最も高い文字列の優先度を最上位とする。そして、情報推定部１３は、優先度が最上位の文字列を、ＯＣＲの対象となっていた情報であるとする。また、情報推定部１３は、最初に算出した類似度（コサイン類似度）について、その値が規定値以上であるかどうかを判定し、規定値以上である場合にのみ、上述の推定を行っても良い。類似度が低い場合は、推定精度が低下する可能性が高いためである。

【0034】

加えて、図６の例では、最も高い優先度が設定された文字列が２以上存在している。この場合、本実施の形態では、情報推定部１３は、上述の類似度（コサイン類似度）の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、ＯＣＲ文字列との第２の類似度を算出する。そして、情報推定部１３は、算出した第２の類似度に基づいて、最も高い優先度が設定された文字列のうちの１つを、ＯＣＲの対象となっていた情報と推定する。また、情報推定部１３は、ＯＣＲの対象となっていた情報であると推定した文字列を、外部の装置等に出力する。図７は、本発明の実施の形態において情報推定部による第２の類似度の算出結果の一例を示す図である。

【0035】

図７の例では、図６において優先度が最上位であった２つの文字列に対して、第２の類似度が算出されている。第２の類似度としては、例えば、ＪＡＲＯＤｉｓｔａｎｃｅが挙げられる。ＪＡＲＯＤｉｓｔａｎｃｅの算出手法としては、既知の算出手法が挙げられる。なお、本実施の形態では、最初の類似度として、ＪＡＲＯＤｉｓｔａｎｃｅが算出され、第２の類似度として、コサイン類似度が算出されていても良い。また、本実施の形態では、これらの一方と別の類似度が算出されても良いし、これら以外の２種類の類似度が算出されても良い。

【0036】

［装置動作］
次に、本発明の実施の形態における入力支援装置１０の動作について図８を用いて説明する。図８は、本発明の実施の形態における入力支援装置の動作を示すフロー図である。以下の説明においては、適宜図１～図７を参照する。また、本実施の形態では、入力支援装置１０を動作させることによって、入力支援方法が実施される。よって、本実施の形態における入力支援方法の説明は、以下の入力支援装置１０の動作説明に代える。

【0037】

図８に示すように、最初に、不読率算出部１４は、ＯＣＲによって生成された、項目毎の文字列の中から、１つの項目を選択する（ステップＡ１）。次に、不読率算出部１４は、選択した項目について不読率を算出する（ステップＡ２）。続いて、不読率算出部１４は、ステップＡ２で算出した不読率が閾値以上であるかどうかを判定する（ステップＡ３）。

【0038】

ステップＡ３の判定の結果、不読率が閾値以上である場合は、不読率算出部１４は、ステップＡ１を再度実行する。

【0039】

一方、ステップＡ３の判定の結果、不読率が閾値以上でない場合（閾値未満）は、ワイルドカード変換部１１は、図４に示したように、選択した項目の文字列の一部をワイルドカードに変換して複数のワイルドカード文字列を生成する（ステップＡ４）。

【0040】

次に、検索処理部１２は、ステップＡ４で生成されたワイルドカード文字列を用いて、
データベース２０を検索して、図５に示したように、該当する文字列を含むレコードを抽出する（ステップＡ５）。また、ステップＡ５では、検索処理部１２は、検索によって抽出したレコードを検索リストとして保持する。なお、検索処理部１２は、検索によってレコードが抽出されなかった場合は、空の検索リストを保持する。

【0041】

次に、検索処理部１２は、全ての項目について検索を終了したかどうかを判定する（ステップＡ６）。そして、ステップＡ６の判定の結果、全ての項目について検索を終了していない場合は、検索処理部１２は、不読率算出部１４に対して、再度、ステップＡ１を実行するように指示する。これにより、新たに選択された項目に対して、再度ステップＡ１～Ａ５が実行される。

【0042】

一方、全ての項目について検索を終了している場合は、検索処理部１２は、ステップＡ５の検索によってレコードが抽出されているかどうかを判定する（ステップＡ７）。具体的には、検索処理部１２は、検索リストにレコードが含まれているかどうかを判定する。そして、検索処理部１２は、判定の結果を、情報推定部１３に通知する。

【0043】

ステップＡ７の判定の結果、検索によってレコードが抽出されていない場合は、情報推定部１３は、ＯＣＲ文字列のみを、外部に出力する（ステップＡ１５）。

【0044】

一方、ステップＡ７の判定の結果、検索によってレコードが抽出されている場合は、情報推定部１３は、レコードそれぞれについて、ＯＣＲ文字列との類似度（コサイン類似度）を算出する（ステップＡ８）。

【0045】

次に、情報推定部１３は、ステップＡ８で算出した類似度に基づいて、検索によって抽出された各レコードに優先度を設定する（ステップＡ９）。次に、情報推定部１３は、最も高い優先度が設定されたレコード（最上位のレコード）について、その類似度が規定値以上であるかどうかを判定する（ステップＡ１０）。

【0046】

ステップＡ１０の判定の結果、最上位のレコードの類似度が規定値未満である場合は、情報推定部１３は、ステップＡ１５を実行し、ＯＣＲ文字列のみを、外部に出力する。一方、ステップＡ１０の判定の結果、最上位のレコードの類似度が規定値以上である場合は、情報推定部１３は、最上位のレコードが２以上存在しているかどうかを判定する（ステップＡ１１）。

【0047】

ステップＡ１１の判定の結果、最上位のレコードが１つである場合は、情報推定部１３は、最上位のレコードを、外部に出力する（ステップＡ１４）。

【0048】

一方、ステップＡ１１の判定の結果、最上位のレコードが２以上存在する場合は、情報推定部１３は、図７に示したように、最上位のレコードそれぞれについて、ＯＣＲ文字列との第２の類似度（ＪＡＲＯＤｉｓｔａｎｃｅ）を算出する（ステップＡ１２）。

【0049】

そして、情報推定部１３は、第２の類似度が最も高いレコードのみを、外部に出力する（ステップＡ１３）。ステップＡ１３、Ａ１４、又はＡ１５が実行されると、入力支援装置１０における処理は終了する。また、ステップＡ１３及びＡ１４において、情報推定部１３は、出力対象となるレコードと共に、算出された類似度、項目毎の不読率等も出力することができる。

【0050】

［実施の形態における効果］
以上のように、本実施の形態では、ワイルドカード文字列を用いて、データベース２０に対して検索が行われるので、候補となるレコードが複数抽出される。そして、抽出され
たレコードとＯＣＲ文字列との類似度に基づいて、ＯＣＲ文字列が示すレコードが推定される。また、最初に計算された類似度の値が同一のレコードが存在する場合は、再度、別の算出式によって第２の類似度が計算され、この第２の類似度に基づいて、ＯＣＲ文字列が示すレコードが再度推定される。このため、本実施の形態によれば、ＯＣＲされた文字列から、人手による補正入力を経ることなく、正確な文字列データを得ることができるので、ＯＣＲを用いたデータ入力処理における省力化が図られる。

【0051】

［プログラム］
本実施の形態におけるプログラムは、コンピュータに、図８に示すステップＡ１～Ａ１４を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態における入力支援装置と入力支援方法とを実現することができる。この場合、コンピュータのプロセッサは、ワイルドカード変換部１１、検索処理部１２、情報推定部１３、及び不読率算出部１４として機能し、処理を行なう。

【0052】

また、本実施の形態におけるプログラムは、複数のコンピュータによって構築されたコンピュータシステムによって実行されても良い。この場合は、例えば、各コンピュータが、それぞれ、ワイルドカード変換部１１、検索処理部１２、情報推定部１３、及び不読率算出部１４のいずれかとして機能しても良い。

【0053】

ここで、本実施の形態におけるプログラムを実行することによって、入力支援装置１０を実現するコンピュータについて図９を用いて説明する。図９は、本発明の実施の形態における入力支援装置１０を実現するコンピュータの一例を示すブロック図である。

【0054】

図９に示すように、コンピュータ１１０は、ＣＰＵ１１１と、メインメモリ１１２と、記憶装置１１３と、入力インターフェイス１１４と、表示コントローラ１１５と、データリーダ／ライタ１１６と、通信インターフェイス１１７とを備える。これらの各部は、バス１２１を介して、互いにデータ通信可能に接続される。また、コンピュータ１１０は、ＣＰＵ１１１に加えて、又はＣＰＵ１１１に代えて、ＧＰＵ（Graphics Processing Unit）、又はＦＰＧＡ（Field-Programmable Gate Array）を備えていても良い。

【0055】

ＣＰＵ１１１は、記憶装置１１３に格納された、本実施の形態におけるプログラム（コード）をメインメモリ１１２に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ１１２は、典型的には、ＤＲＡＭ（Dynamic Random Access Memory）等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体１２０に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス１１７を介して接続されたインターネット上で流通するものであっても良い。

【0056】

また、記憶装置１１３の具体例としては、ハードディスクドライブの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス１１４は、ＣＰＵ１１１と、キーボード及びマウスといった入力機器１１８との間のデータ伝送を仲介する。表示コントローラ１１５は、ディスプレイ装置１１９と接続され、ディスプレイ装置１１９での表示を制御する。

【0057】

データリーダ／ライタ１１６は、ＣＰＵ１１１と記録媒体１２０との間のデータ伝送を仲介し、記録媒体１２０からのプログラムの読み出し、及びコンピュータ１１０における処理結果の記録媒体１２０への書き込みを実行する。通信インターフェイス１１７は、ＣＰＵ１１１と、他のコンピュータとの間のデータ伝送を仲介する。

【0058】

また、記録媒体１２０の具体例としては、ＣＦ（Compact Flash（登録商標））及びＳＤ（Secure Digital）等の汎用的な半導体記憶デバイス、フレキシブルディスク（Flexible Disk）等の磁気記録媒体、又はＣＤ－ＲＯＭ（Compact Disk Read Only Memory）などの光学記録媒体が挙げられる。

【0059】

なお、本実施の形態における入力支援装置１０は、プログラムがインストールされたコンピュータではなく、各部に対応したハードウェアを用いることによっても実現可能である。更に、入力支援装置１０は、一部がプログラムで実現され、残りの部分がハードウェアで実現されていてもよい。

【0060】

上述した実施の形態の一部又は全部は、以下に記載する（付記１）～（付記１５）によって表現することができるが、以下の記載に限定されるものではない。

【0061】

（付記１）
光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ワイルドカード変換部と、
一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、検索処理部と、
抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、情報推定部と、
を備えている、
ことを特徴とする入力支援装置。

【0062】

（付記２）
付記１に記載の入力支援装置であって、
前記情報推定部が、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が２以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第２の類似度を算出し、
算出した前記第２の類似度に基づいて、最も高い優先度が設定された文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とする入力支援装置。

【0063】

（付記３）
付記１または２に記載の入力支援装置であって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記ワイルドカード変換部が、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記検索処理部が、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とする入力支援装置。

【0064】

（付記４）
付記３に記載の入力支援装置であって、
前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出
する、不読率算出部を更に備え、
前記ワイルドカード変換部、前記検索処理部、及び前記情報推定部が、前記不読率が閾値未満の項目について、処理を行う、
ことを特徴とする入力支援装置。

【0065】

（付記５）
付記３または４に記載の入力支援装置であって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とする入力支援装置。

【0066】

（付記６）
（ａ）光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
（ｂ）一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
（ｃ）抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を有する、
ことを特徴とする入力支援方法。

【0067】

（付記７）
付記６に記載の入力支援方法であって、
前記（ｃ）のステップにおいて、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が２以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第２の類似度を算出し、
算出した前記第２の類似度に基づいて、最も高い優先度が設定された文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とする入力支援方法。

【0068】

（付記８）
付記６または７に記載の入力支援方法であって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記（ａ）のステップにおいて、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記（ｂ）のステップにおいて、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とする入力支援方法。

【0069】

（付記９）
付記８に記載の入力支援方法であって、
（ｄ）前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出し、算出した前記不読率が閾値以上となる項目が存在する場合に、該当する項目の文字列を削除する、ステップを更に有し、
前記（ａ）のステップ、前記（ｂ）のステップ、及び前記（ｃ）のステップにおいて、削除された項目以外の項目毎に、処理を行う、
ことを特徴とする入力支援方法。

【0070】

（付記１０）
付記８または９に記載の入力支援方法であって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とする入力支援方法。

【0071】

（付記１１）
コンピュータに、
（ａ）光学的文字認識によって生成された文字列の一部をワイルドカードに変換する、ステップと、
（ｂ）一部が前記ワイルドカードに変換された文字列を用いて、文字列で構成された情報が登録されているデータベースを検索して、該当する文字列を複数抽出する、ステップと、
（ｃ）抽出された複数の文字列それぞれについて、当該文字列と前記光学的文字認識の結果との類似度を算出し、算出した類似度に基づいて、抽出された複数の文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、ステップと、
を実行させる、プログラム。

【0072】

（付記１２）
付記１１に記載のプログラムであって、
前記（ｃ）のステップにおいて、
算出した前記類似度に基づいて、抽出された複数の文字列それぞれに対して優先度を設定し、
最も高い優先度が設定された文字列が２以上存在する場合に、前記類似度の算出に用いた式とは別の式を用いて、最も高い優先度が設定された文字列それぞれについて、前記光学的文字認識の結果との第２の類似度を算出し、
算出した前記第２の類似度に基づいて、最も高い優先度が設定された文字列のうちの１つを、前記光学的文字認識の対象となっていた情報と推定する、
ことを特徴とするプログラム。

【0073】

（付記１３）
付記１１または１２に記載のプログラムであって、
前記光学的文字認識の対象が、項目毎に仕切られた情報の集合で構成され、更に、前記光学的文字認識によって、前記項目毎に文字列が生成されており、加えて、前記データベースが、前記項目毎に、文字列で構成された情報を登録している場合において、
前記（ａ）のステップにおいて、前記項目毎に、前記光学的文字認識によって生成された文字列の一部をワイルドカードに変換し、
前記（ｂ）のステップにおいて、前記項目毎に、前記データベースを検索して、該当する文字列を複数抽出する、
ことを特徴とするプログラム。

【0074】

（付記１４）
付記１３に記載のプログラムであって、
前記コンピュータに、
（ｄ）前記項目毎に、前記光学的文字認識によって生成された文字列について、不読率を算出し、算出した前記不読率が閾値以上となる項目が存在する場合に、該当する項目の文字列を削除する、ステップを更に実行させ、
前記（ａ）のステップ、前記（ｂ）のステップ、及び前記（ｃ）のステップにおいて、削除された項目以外の項目毎に、処理を行わせる、
ことを特徴とするプログラム。

【0075】

（付記１５）
付記１３または１４に記載のプログラムであって、
前記光学的文字認識の対象が、紙媒体に記載され、且つ、複数の項目で仕切られた、申込書であり、
前記データベースが、過去の申込書に記載された情報のデジタルデータを登録している、
ことを特徴とするプログラム。

【産業上の利用可能性】

【0076】

以上のように、本発明によれば、ＯＣＲを用いたデータ入力処理における省力化を図ることができる。本発明は、ＯＣＲで得られたデータの処理が必要となるシステム、例えば、為替処理システム等に有用である。

【符号の説明】

【0077】

１０入力支援装置
１１ワイルドカード変換部
１２検索処理部
１３情報推定部
１４不読率算出部
２０データベース
１１０コンピュータ
１１１ＣＰＵ
１１２メインメモリ
１１３記憶装置
１１４入力インターフェイス
１１５表示コントローラ
１１６データリーダ／ライタ
１１７通信インターフェイス
１１８入力機器
１１９ディスプレイ装置
１２０記録媒体
１２１バス

【図1】