IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社プリマジェストの特許一覧

<>
  • 特許-画像処理装置 図1
  • 特許-画像処理装置 図2
  • 特許-画像処理装置 図3
  • 特許-画像処理装置 図4
  • 特許-画像処理装置 図5
  • 特許-画像処理装置 図6
  • 特許-画像処理装置 図7
  • 特許-画像処理装置 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-07
(45)【発行日】2023-06-15
(54)【発明の名称】画像処理装置
(51)【国際特許分類】
   G06V 30/26 20220101AFI20230608BHJP
【FI】
G06V30/266
【請求項の数】 8
(21)【出願番号】P 2019007479
(22)【出願日】2019-01-21
(65)【公開番号】P2020119057
(43)【公開日】2020-08-06
【審査請求日】2022-01-06
(73)【特許権者】
【識別番号】599001389
【氏名又は名称】株式会社プリマジェスト
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】山井 淳彦
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2017-167837(JP,A)
【文献】特開2014-235619(JP,A)
【文献】特開2006-178603(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 - 30/424
(57)【特許請求の範囲】
【請求項1】
帳票内のいずれかの領域に出現する所望の文字列を認識するための画像処理装置であって、
前記所望の文字列の候補となる文字列と当該文字列を識別する識別情報とを含むマスターリスト内の文字列をそれぞれ所定の文字数で分割して、分割後の文字列を含む分割マスターリストを作成する分割マスター作成部であって、前記所望の文字列は、前記帳票に含まれる複数の項目のうちの所定の項目に関する文字列であり、前記分割マスターリストは、前記分割後の文字列と、分割前の前記マスターリスト内の文字列を識別する前記識別情報とを含む、分割マスター作成部と、
前記帳票の画像データ内の文字列を読み取り、読取結果を取得する読取部であって、前記読取結果に含まれる文字列を、前記所定の文字数で分割して分割後の読取文字列を得る、読取部と、
各分割後の読取文字列が、前記分割マスターリスト内に存在するか否かを判定するために探索を行い、前記分割マスターリスト内に存在する分割後の読取文字列を含む一致リストを作成する探索部であって、前記分割マスターリスト内に存在すると判定される場合、前記分割後の読取文字列、及び当該分割後の読取文字列と一致する前記分割マスターリスト内の文字列と対応付けられている前記識別情報を前記一致リストに追加する、探索部と、
前記一致リストに基づいて前記所望の文字列の候補を前記マスターリストから決定し、前記候補として決定された文字列を前記画像データに関連付けてデータベースに保存する候補決定部と
を備えた画像処理装置。
【請求項2】
前記分割マスター作成部は、前記分割後の文字列を文字コード順にソートして前記分割マスターリストを作成し、
前記探索部は、各分割後の読取文字列が、前記分割マスターリスト内に存在するか否かを判定するために二分探索を行う、
請求項1に記載の画像処理装置。
【請求項3】
前記分割マスター作成部は、前記分割マスターリストに、分割前の文字列における一の分割後の文字列と他の分割後の文字列との連続性を判定し得る出現情報をさらに含め、
前記探索部は、前記一致リストに、前記出現情報をさらに追加し、
前記候補決定部は、前記出現情報を評価して前記候補を決定する、
請求項1又は2に記載の画像処理装置。
【請求項4】
前記読取部は、前記読取部が得た各分割後の読取文字列に、前記読取結果における一の分割後の読取文字列と他の分割後の読取文字列との連続性を判定し得る読取情報を関連付け、
前記探索部は、前記一致リストに、前記読取情報をさらに追加し、
前記候補決定部は、前記読取情報を評価して前記候補を決定する、
請求項1から3のいずれか1項に記載の画像処理装置。
【請求項5】
前記画像データ内の前記候補として決定された文字列が出現する領域を示す画面を生成する画面生成部
をさらに備える、請求項1から4のいずれか1項に記載の画像処理装置。
【請求項6】
前記読取部は、前記読取結果に含まれる文字列を、1文字ずつシフトしながら前記所定の文字数で分割する、請求項1から5のいずれか1項に記載の画像処理装置。
【請求項7】
帳票内のいずれかの領域に出現する所望の文字列を認識するための方法であって、コンピュータが、
前記所望の文字列の候補となる文字列と当該文字列を識別する識別情報とを含むマスターリスト内の文字列をそれぞれ所定の文字数で分割する工程であって、前記所望の文字列は、前記帳票に含まれる複数の項目のうちの所定の項目に関する文字列である、工程と、
分割後の文字列を含む分割マスターリストを作成する工程であって、前記分割マスターリストは、前記分割後の文字列と、分割前の前記マスターリスト内の文字列を識別する前記識別情報とを含む、工程と、
前記帳票の画像データ内の文字列を読み取り、読取結果を取得する工程と、
前記読取結果に含まれる文字列を、前記所定の文字数で分割して分割後の読取文字列を得る工程と、
各分割後の読取文字列が、前記分割マスターリスト内に存在するか否かを判定するために探索を行う工程と、
前記分割マスターリスト内に存在する分割後の読取文字列を含む一致リストを作成する工程であって、前記分割マスターリスト内に存在すると判定される場合、前記分割後の読取文字列、及び当該分割後の読取文字列と一致する前記分割マスターリスト内の文字列と対応付けられている前記識別情報を前記一致リストに追加する、工程と、
前記一致リストに基づいて前記所望の文字列の候補を前記マスターリストから決定する工程と
前記候補として決定された文字列を前記画像データに関連付けてデータベースに保存する工程と
を含む方法。
【請求項8】
帳票内のいずれかの領域に出現する所望の文字列を認識するためのプログラムであって、コンピュータに、
前記所望の文字列の候補となる文字列と当該文字列を識別する識別情報とを含むマスターリスト内の文字列をそれぞれ所定の文字数で分割する処理であって、前記所望の文字列は、前記帳票に含まれる複数の項目のうちの所定の項目に関する文字列である、処理と、
分割後の文字列を含む分割マスターリストを作成する処理であって、前記分割マスターリストは、前記分割後の文字列と、分割前の前記マスターリスト内の文字列を識別する前記識別情報とを含む、処理と、
前記帳票の画像データ内の文字列を読み取り、読取結果を取得する処理と、
前記読取結果に含まれる文字列を、前記所定の文字数で分割して分割後の読取文字列を得る処理と、
各分割後の読取文字列が、前記分割マスターリスト内に存在するか否かを判定するために探索を行う処理と、
前記分割マスターリスト内に存在する分割後の読取文字列を含む一致リストを作成する処理であって、前記分割マスターリスト内に存在すると判定される場合、前記分割後の読取文字列、及び当該分割後の読取文字列と一致する前記分割マスターリスト内の文字列と対応付けられている前記識別情報を前記一致リストに追加する、処理と、
前記一致リストに基づいて前記所望の文字列の候補を前記マスターリストから決定する処理と
前記候補として決定された文字列を前記画像データに関連付けてデータベースに保存する処理と
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置に関する。
【背景技術】
【0002】
銀行や郵便局等の金融機関には、様々な帳票が持ち込まれる。金融機関では、持ち込まれた帳票を処理するために、帳票の種類を特定し、さらに、帳票内に含まれる依頼者名や口座番号等の所定の項目を特定する必要がある。
【0003】
従来、帳票の種類や所定の項目を特定するために、金融機関は、事前に帳票のサイズや罫線情報、項目位置等を様式情報として登録し、登録済みの様式情報と持ち込まれた帳票を読み取った画像とを照合していた(例えば、特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2005-242786号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
帳票の一例である口座振替依頼書や税公金の領収済通知書は、作成元の収納企業や地方自治体毎に様式が異なるので、帳票の様式は、数千、数万に及ぶ。
【0006】
数千、数万に及ぶ帳票の様式情報を登録することは現実的ではなく、仮に登録したとしても、作成元の都合で様式が変更された場合には、登録済みの様式情報を修正するまで、正しく帳票を特定することができない。そのために、担当者による目視の作業に頼る場合も少なくない。
【0007】
口座振替依頼書の収納企業名や領収済通知書の地方自治体名は、帳票内のいずれの領域に出現するかわからず、かつ、数千、数万に及ぶ収納企業名や地方自治体名のうち、どの名称が出現するかもわからない。このような状況での担当者による目視の作業は、金融機関に多大なコストをかけている。
【0008】
そこで、本発明は、対象物の様式情報を登録することなく、対象物内のいずれかの領域に出現する所望の文字列を認識することを可能とした画像処理装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明の一態様に係る、対象物内のいずれかの領域に出現する所望の文字列を認識するための画像処理装置は、所望の文字列の候補となる文字列と当該文字列を識別する識別情報とを含むマスターリスト内の文字列をそれぞれ所定の文字数で分割して、分割後の文字列を含む分割マスターリストを作成する分割マスター作成部であって、分割マスターリストは、分割後の文字列と、分割前のマスターリスト内の文字列を識別する識別情報とを含む、分割マスター作成部と、対象物の画像データ内の文字列を読み取り、読取結果を取得する読取部であって、読取結果に含まれる文字列を、所定の文字数で分割して分割後の読取文字列を得る、読取部と、各分割後の読取文字列が、分割マスターリスト内に存在するか否かを判定するために探索を行い、分割マスターリスト内に存在する分割後の読取文字列を含む一致リストを作成する探索部であって、分割マスターリスト内に存在すると判定される場合、分割後の読取文字列、及び当該分割後の読取文字列と一致する分割マスターリスト内の文字列と対応付けられている識別情報を一致リストに追加する、探索部と、一致リストに基づいて所望の文字列の候補をマスターリストから決定する候補決定部とを備える。
【0010】
この態様によれば、対象物の様式情報を登録することなく、対象物内のいずれかの領域に出現する所望の文字列を認識することができる。
【0011】
上記画像処理装置において、分割マスター作成部は、分割後の文字列を文字コード順にソートして分割マスターリストを作成し、探索部は、各分割後の読取文字列が、分割マスターリスト内に存在するか否かを判定するために二分探索を行ってもよい。この態様によれば、読取結果に含まれる文字列をマスターリスト内の文字列全てと1件ずつ突合する場合と比較して、CPUの処理量を減らすことができ、処理速度を速くすることができる。
【0012】
上記画像処理装置において、分割マスター作成部は、分割マスターリストに、分割前の文字列における一の分割後の文字列と他の分割後の文字列との連続性を判定し得る出現情報をさらに含め、探索部は、一致リストに、出現情報をさらに追加し、候補決定部は、出現情報を評価して候補を決定してもよい。この態様によれば、妥当な順で現れている分割後の読取文字列に基づいて、候補を決定することができる。
【0013】
上記画像処理装置において、読取部は、読取部が得た各分割後の読取文字列に、読取結果における一の分割後の読取文字列と他の分割後の読取文字列との連続性を判定し得る読取情報を関連付け、探索部は、一致リストに、読取情報をさらに追加し、候補決定部は、読取情報を評価して候補を決定してもよい。この態様によれば、読取結果中の近接する領域に表れている分割後の読取文字列に基づいて、候補を決定することができる。
【0014】
上記画像処理装置において、画像データ内の候補として決定された文字列が出現する領域を示す画面を生成する画面生成部をさらに備えてもよい。この態様によれば、ユーザによる確認作業を支援することができる。
【0015】
上記画像処理装置において、読取部は、読取結果に含まれる文字列を、1文字ずつシフトしながら所定の文字数で分割してもよい。この態様によれば、読取結果に誤読が含まれる場合であっても、誤読による影響を最小限に抑えながら候補を検索することができる。
【0016】
本発明の他の態様に係る、対象物内のいずれかの領域に出現する所望の文字列を認識するための方法は、コンピュータが、所望の文字列の候補となる文字列と当該文字列を識別する識別情報とを含むマスターリスト内の文字列をそれぞれ所定の文字数で分割する工程と、分割後の文字列を含む分割マスターリストを作成する工程であって、分割マスターリストは、分割後の文字列と、分割前のマスターリスト内の文字列を識別する識別情報とを含む、工程と、対象物の画像データ内の文字列を読み取り、読取結果を取得する工程と、読取結果に含まれる文字列を、所定の文字数で分割して分割後の読取文字列を得る工程と、各分割後の読取文字列が、分割マスターリスト内に存在するか否かを判定するために探索を行う工程と、分割マスターリスト内に存在する分割後の読取文字列を含む一致リストを作成する工程であって、分割マスターリスト内に存在すると判定される場合、分割後の読取文字列、及び当該分割後の読取文字列と一致する分割マスターリスト内の文字列と対応付けられている識別情報を一致リストに追加する、工程と、一致リストに基づいて所望の文字列の候補をマスターリストから決定する工程とを含む。
【0017】
本発明の他の態様に係る、対象物内のいずれかの領域に出現する所望の文字列を認識するためのプログラムは、コンピュータに、所望の文字列の候補となる文字列と当該文字列を識別する識別情報とを含むマスターリスト内の文字列をそれぞれ所定の文字数で分割する処理と、分割後の文字列を含む分割マスターリストを作成する処理であって、分割マスターリストは、分割後の文字列と、分割前のマスターリスト内の文字列を識別する識別情報とを含む、処理と、対象物の画像データ内の文字列を読み取り、読取結果を取得する処理と、読取結果に含まれる文字列を、所定の文字数で分割して分割後の読取文字列を得る処理と、各分割後の読取文字列が、分割マスターリスト内に存在するか否かを判定するために探索を行う処理と、分割マスターリスト内に存在する分割後の読取文字列を含む一致リストを作成する処理であって、分割マスターリスト内に存在すると判定される場合、分割後の読取文字列、及び当該分割後の読取文字列と一致する分割マスターリスト内の文字列と対応付けられている識別情報を一致リストに追加する、処理と、一致リストに基づいて所望の文字列の候補をマスターリストから決定する処理とを実行させる。
【発明の効果】
【0018】
本発明によれば、対象物の様式情報を登録することなく、対象物内のいずれかの領域に出現する所望の文字列を認識することができる。
【図面の簡単な説明】
【0019】
図1】画像処理システムの全体構成を示す図である。
図2】画像処理装置のハードウェア構成を示す図である。
図3】画像処理装置のソフトウェア構成を示す図である。
図4】(A)マスターDB209、(B)分割後の文字列、及び(C)分割マスターDB210の一例を示す。
図5】画像データ及び画像データからの読取結果の一例を示す。
図6】読取結果の一部、及び分割後の読取文字列の一部の一例を示す。
図7】確認画面の一例を示す。
図8】画像処理装置によって実行される画像処理の流れを示すフローチャートである。
【発明を実施するための形態】
【0020】
添付図面を参照して、本発明の実施形態について説明する。なお、以下の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施形態を採用することが可能であり、係る実施形態も本発明の範囲に含まれる。
【0021】
(システム構成)
図1は、本発明の一実施形態に係る画像処理システムの構成例を示す。画像処理システム1は、処理対象の対象物の画像を読み取る画像読取装置10と、画像読取装置10で読み取った画像を用いて文字列の認識処理を行う画像処理装置20と、ホストサーバ30とを備える。画像処理装置20は、ネットワークNを介してホストサーバ30と通信を行うように構成されている。本実施形態では、対象物の一例として、帳票を用いて説明するが、他の実施形態では、他の任意の物を対象物として用いることができる。
【0022】
画像読取装置10は、所定の位置に置かれた帳票を光学的にスキャンし、読み取った画像データを画像処理装置20に入力するように構成されている。
【0023】
画像処理装置20は、入力された画像データを用いて、帳票内に存在する特定の文字列を認識する処理を実行する。帳票は、例えば、口座振替依頼書や税公金の領収済通知書等を含む任意の帳票であり、認識対象の文字列は、例えば、収納企業名や地方自治体名である。
【0024】
画像処理装置20は、帳票内のいずれの領域に出現するかわからない、かつ、事前に登録されたマスターデータベース(DB)に含まれる複数の文字列のうちいずれかの文字列を認識するために用いられ得る。
【0025】
ホストサーバ30は、マスターDBを管理するサーバ装置30であり、画像処理装置20は、所定の間隔でホストサーバ30からマスターDBのデータを受信し、自身がローカルで保存しているマスターDBを更新する。
【0026】
(ハードウェア構成)
(画像処理装置)
図2を参照して、画像処理装置20のハードウェア構成を説明する。なお、図2では、単一の画像処理装置20を想定し、必要な機能構成だけを示しているが、画像処理装置20を、複数のコンピュータシステムによる多機能の分散システムの一部として構成することもできる。画像処理装置20は、CPU21と、ワークメモリとして用いられるメインメモリ22と、固定記憶部であるハードディスク23と、画像読取装置インターフェイス24と、入力インターフェイス25と、表示コントローラ26と、通信インターフェイス27と、データリーダ/ライタ28とを含む。
【0027】
画像読取装置インターフェイス24は、CPU21と画像読取装置10との間のデータ伝送を仲介する部分であり、画像読取装置10からの画像データを一時的に蓄積するための画像バッファ241を有している。入力インターフェイス25は、CPU21と入力部との間のデータ伝送を仲介する。入力部には、マウス31、キーボード、タッチパネル等が含まれる。表示コントローラ26は、液晶モニタ等のディスプレイ32に接続され、当該ディスプレイでの表示を制御する。通信インターフェイス27は、CPU21とパーソナルコンピュータやサーバ装置等との間のデータ伝送を仲介する。データリーダ/ライタ28は、CPU21と記録媒体であるメモリカード33との間のデータ伝送を仲介する。各インターフェイスは、ハードウェア構成としては、例えばUSB等のインターフェイスを介してCPU21へと接続される。
【0028】
画像処理装置20は、汎用的なアーキテクチャを有するコンピュータで構成可能であり、CPU21が、ハードディスク23又はメモリカード33に格納されたプログラムを読み込み、実行することで、各種処理を実行する。このようなプログラムは、メモリカード33や光ディスク等のコンピュータ読取可能な記録媒体に格納された状態か、あるいはインターネット等を通じて提供される。なお、本実施形態に係るプログラムは単体のアプリケーションプログラムとして提供されてもよいし、他のプログラムの一部に組み込まれるモジュールとして提供されてもよい。また、その処理の一部又は全部がASIC等の専用回路で代替されてもよい。
【0029】
(ソフトウェア構成)
(画像処理装置)
図3に、画像処理装置20のソフトウェア構成を示す。画像処理装置20は、マスター更新部201、分割マスター作成部202、画像受付部203、読取部204と、探索部205と、候補決定部206と、確認部207と、通信部208と、マスターDB209と、分割マスターDB210と、画像DB211とを備えている。画像処理装置20のCPU21が、ハードディスク23又はメモリカード33に格納されたプログラムを読み込み、実行することで、各部の処理が実現される。
【0030】
マスターDB209には、帳票内に出現し得る文字列が保存されている。一実施形態では、マスターDB209には、収納企業コード、収納企業名等が登録されている。収納企業コードは、収納企業を一意に識別するための情報である。なお、本明細書におけるコードは、漢字、ひらがな、カタカナ、英数字、記号等の1又は複数からなる情報である。
【0031】
分割マスターDB210には、マスターDB209内の文字列を所定の文字数で分割後の全ての文字列が文字コード順に保存されている。一実施形態では、分割マスターDB210には、分割後の文字列、収納企業コード、出現情報等が登録されている。出現情報は、対象となる分割後の文字列が分割前の文字列中のどこに出現するかを示す。例えば、本実施形態では、分割前の文字列「BTJ瓦斯(株)」を分割した場合、分割後の文字列「BT」の出現情報には「1」、分割後の文字列「J瓦」の出現情報には「2」、分割後の文字列「斯(」の出現情報には「3」、分割後の文字列「株)」の出現情報には「4」がそれぞれ保存されるが、他の実施形態では、分割前の文字列における一の分割後の文字列と他の分割後の文字列との連続性を判定し得る他の任意の情報を保存することができる。
【0032】
画像DB211には、画像読取装置10から受け付けた画像に関する情報が保存されている。一実施形態では、画像DBには、画像データ、認識文字列、訂正文字列、確認結果等が登録されている。画像データには、画像読取装置10から受け付けた画像データが保存される。認識文字列には、後述の候補決定部206が候補として決定した文字列が保存される。訂正文字列には、後述の確認部207が受信した訂正文字列が保存される。確認結果には、ユーザによる確認結果を示す情報が保存される。例えば、確認結果には、「未確認」、「確認済み」、「保留」等が含まれる。
【0033】
マスター更新部201は、ホストサーバ30から、マスターDB209のデータを受信して、マスターDB209を更新する。マスター更新部201は、前回からの差分データを受信してもよいし、全件データを受信してもよい。
【0034】
分割マスター作成部202は、マスターDB209内の全ての文字列をそれぞれ所定の文字数で分割して、分割後の全ての文字列を文字コード順にソートして分割マスターDB210を作成する。分割マスターDB210には、前述したように、分割後の文字列、収納企業コード、出現情報が保存されている。本実施形態では、分割マスター作成部202は、マスターDB209内の全ての文字列をそれぞれ2文字ずつに分割して、分割後の全ての文字列を文字コード順にソートして分割マスターDB210を作成するが、他の実施形態では、分割マスター作成部202は、マスターDB209内の全ての文字列を他の任意の数の文字数で分割して、分割マスターDB210を作成してもよい。なお、マスターDB210内の複数の文字列から同一の分割後の文字列が得られた場合、分割マスター作成部202は、分割マスターDB210において、単一の分割後の文字列に対して複数の収納企業コードと出現情報とを関連付けて保存することが望ましい。図4は、(A)マスターDB209、(B)分割後の文字列、及び(C)分割マスターDB210の一例を示す。
【0035】
また、分割マスター作成部202は、マスターDB209が更新されると、マスターDB209の更新内容に応じて、分割マスターDB210を更新する。分割マスター作成部202も、前回からの差分データを受信して更新処理を行ってもよいし、全件データを受信して更新処理を行ってもよい。
【0036】
画像受付部203は、画像読取装置10から画像データを受け付ける。なお、画像データは、画像読取装置10で読み取られる都度順次受け付けてもよいし、読取タイミングと同期しない任意のタイミングで受け付けてもよい。
【0037】
読取部204は、画像受付部203が受け付けた画像データ内の全ての文字列を読み取り、読取結果を取得する。図5は、画像データ及び画像データからの読取結果の一例を示す。また、読取部204は、読取結果に含まれる文字列を、分割マスター作成部202がマスターDB209内の文字列の分割に用いた所定の文字数で分割する。図6は、読取結果の一部、及び分割後の読取文字列の一部の一例を示す。図6に示されるように、読取部204は、1文字ずつシフトしながら所定の文字数で分割した分割後の読取文字列を得る。
【0038】
また、図6に示されるように、分割後の読取文字列には、読取情報が関連付けられている。例えば、本実施形態では、分割前の文字列「預金口座振替依頼書」を分割した場合、分割後の読取文字列「預金」の読取情報には「1」、分割後の読取文字列「金口」の読取情報には「2」、分割後の読取文字列「口座」の読取情報には「3」、分割後の読取文字列「座振」の読取情報には「4」、分割後の読取文字列「振替」の読取情報には「5」、分割後の読取文字列「替依」の読取情報には「6」、分割後の読取文字列「依頼」の読取情報には「7」、分割後の読取文字列「頼書」の読取情報には「8」がそれぞれ関連付けられるが、他の実施形態では、分割前の読取結果における一の分割後の読取文字列と他の分割後の読取文字列との連続性を判定し得る他の任意の情報が関連付けられてもよい。
【0039】
探索部205は、読取部204が得た各分割後の読取文字列が、分割マスターDB210内に存在するか否かを判定するために二分探索を行う。具体的には、探索部205は、読取部204が得た分割後の読取文字列を読取情報の順で1つずつ取り出し、取り出した分割後の読取文字列と、分割マスターDB210内の中央に位置する文字列との、文字コードの大小比較を行い、大小関係を用いて、取り出した分割後の読取文字列が分割マスターDB210内の中央に位置する文字列の前方にあるか後方にあるかを判断しながら検索を進める。例えば、取り出した分割後の読取文字列の文字コードが分割マスターDB210内の中央に位置する文字列の文字コードよりも小さい場合、直前に比較した文字列の前方に取り出した分割後の読取文字列があると判断されるので、探索部205は、取り出した分割後の読取文字列と、分割マスターDB210内の直前に比較した文字列の1行前を最下位項目とした場合に中央に位置する文字列との、文字コードの大小比較を行う。一方で、読取部204が得た分割後の読取文字列の文字コードが分割マスターDB210内の中央に位置する文字列の文字コードよりも大きい場合、直前に比較した文字列の後方に取り出した分割後の読取文字列があると判断されるので、探索部205は、取り出した分割後の読取文字列と、分割マスターDB210内の直前に比較した文字列の1行後を最上位項目とした場合に中央に位置する文字列との、文字コードの大小比較を行う。
【0040】
このようにして、探索部205は、比較した文字列同士の文字コードが一致するか、比較する文字列がなくなるまで処理を繰り返す。比較した文字列同士の文字コードが一致した場合、探索部205は、取り出した分割後の読取文字列を一致リストに追加する。一致リストには、例えば、読取情報、分割後の読取文字列、収納企業コード、出現情報を含めてもよい。探索部205は、読取部204が得た全ての分割後の読取文字列について探索を行う。
【0041】
候補決定部206は、探索部205が作成した一致リストに基づいて、認識対象の文字列の候補を決定して、画像DB211に保存する。一実施形態では、候補決定部206は、一致リスト内に含まれる収納企業コード毎に一致率を算出して最も高い一致率を有する収納企業コードに対応する収納企業名を、候補として決定する。例えば、分割後の読取文字列「BT」・出現情報「1」、分割後の読取文字列「J瓦」・出現情報「2」、分割後の読取文字列「斯(」・出現情報「3」、分割後の読取文字列「株)」・出現情報「4」がその出現情報の順で一致リスト内に含まれる場合、収納企業コード「100」の一致率は100%となる。仮に、読取部204が「B」を「8」と誤読した場合、一致リスト内には分割後の読取文字列「J瓦」・出現情報「2」、分割後の読取文字列「斯(」・出現情報「3」、分割後の読取文字列「株)」・出現情報「4」がその出現情報の順で含まれ、収納企業コード「100」の一致率は75%となる。
【0042】
別の実施形態では、候補決定部206は、所定の値以上の一致率を有する1又は複数の収納企業コードに対応する収納企業名を、候補として決定してもよい。
【0043】
確認部207は、候補決定部206が候補として決定した文字列を、表示コントローラ26を介してディスプレイ32に表示する。一実施形態では、確認部207は、図7に示されるような確認画面を生成して表示してもよい。また、確認部207は、入力インターフェイス25を介して、ユーザから確認結果及び/又は訂正文字列を受信する。一実施形態では、確認部207は、受信した確認結果及び/又は訂正文字列を画像DB211に保存する。
【0044】
図7に示す例では、収納企業名の候補として「イロハクレジットサービス株式会社」が表示されている。本実施形態では、確認画面には、候補領域701、候補出現領域702、及び確認ボタン703等が含まれる。候補領域701には、候補決定部206が候補として決定した文字列が表示される。候補出現領域702は、候補として決定された文字列が出現する領域を示す。確認ボタン703は、候補として決定された文字列が肯定的に確認されたことを表す選択可能なコントロールである。
【0045】
別の実施形態では、確認画面に、候補として決定された文字列が誤っている場合に正しい文字列を入力するための訂正文字列コントロール、候補として決定された文字列の確認が保留されたことを表す選択可能な保留ボタン等を含めてもよい。
【0046】
(画像処理)
次に、図8のフローチャートに沿って、画像処理装置20によって実行される画像処理について説明する。
【0047】
ステップS801において、画像処理装置20のマスター更新部201は、ホストサーバ30から、マスターDB209のデータを受信して、マスターDB209を更新する。本実施形態では、マスター更新部201は、マスターDB209の全件データを受信して、受信した全件データを用いてマスターDB209を更新する。
【0048】
ステップS802において、画像処理装置20の分割マスター作成部202は、マスターDB209内の全ての文字列をそれぞれ所定の文字数で分割する。本実施形態では、分割マスター作成部202は、マスターDB209内の全ての文字列を2文字ずつに分割する。
【0049】
ステップS803において、分割マスター作成部202は、分割後の全ての文字列を文字コード順にソートして分割マスターDB210を作成する。本実施形態では、分割マスター作成部202は、分割後の文字列に、収納企業コードと出現情報とを関連付けて分割マスターDB210に保存する。また、マスターDB210内の複数の文字列から同一の分割後の文字列が得られた場合、分割マスター作成部202は、分割マスターDB210において、単一の分割後の文字列に対して複数の収納企業コードと出現情報とを関連付けて保存する。ここでは、図4(A)に示されるマスターDB209に基づいて、図4(C)に示される分割マスターDB210が作成されたものとする。
【0050】
ステップS804において、画像処理装置20の画像受付部203は、画像読取装置10から画像データを受け付ける。
【0051】
ステップS805において、画像処理装置20の読取部204は、画像受付部203が受け付けた画像データ内の全ての文字列を読み取り、読取結果を取得する。ここでは、図5に示される画像データから図5に示される読取結果を取得したものとする。
【0052】
ステップS806において、読取部204は、読取結果に含まれる文字列を、分割マスター作成部202がマスターDB209内の文字列の分割に用いた所定の文字数で分割する。本実施形態では、読取部204は、読取結果に含まれる文字列を2文字ずつに分割する。ここでは、図6に示されるように、読取部204は、1文字ずつシフトしながら2文字ずつに分割し、読取情報を関連付けるものとする。
【0053】
ステップS807において、画像処理装置20の探索部205は、読取部204が得た分割後の読取文字列を読取情報の順で1つずつ取り出し、ステップS808において、取り出した分割後の読取文字列と、分割マスターDB210内の中央に位置する文字列との、文字コードの大小比較を行う。ここでは、分割マスターDB210内に1万件のレコードが存在し、探索部205は、取り出した分割後の読取文字列「預金」と、分割マスターDB210内の5000行目に位置する文字列との、文字コードの大小比較を行う。
【0054】
取り出した分割後の読取文字列の文字コードが分割マスターDB210内の中央に位置する文字列の文字コードよりも小さい場合(S808:A)、直前に比較した文字列の前方に取り出した分割後の読取文字列があると判断されるので、探索部205は、分割マスターDB210内に比較する文字列がある場合(S809:Y)、分割マスターDB210内の直前に比較した文字列の1行前を最下位項目とし(S810)、S808に戻って文字コードの大小比較を行う。一方で、読取部204が得た分割後の読取文字列の文字コードが分割マスターDB210内の中央に位置する文字列の文字コードよりも大きい場合(S808:B)、直前に比較した文字列の後方に取り出した分割後の読取文字列があると判断されるので、探索部205は、分割マスターDB210内に比較する文字列がある場合(S811:Y)分割マスターDB210内の直前に比較した文字列の1行後を最上位項目とし(S812)、S808に戻って、文字コードの大小比較を行う。
【0055】
このようにして、探索部205は、比較した文字列同士の文字コードが一致するか、比較する文字列がなくなる(S809:N、S811:N)まで処理を繰り返す。比較した文字列同士の文字コードが一致した場合(S808:C)、探索部205は、取り出した分割後の読取文字列を一致リストに追加する(S813)。本実施形態では、一致リストは、読取情報、分割後の読取文字列、収納企業コード、出現情報を含む。探索部205は、読取部204が得た全ての分割後の読取文字列について処理を行うと(S814:Y)、探索処理を終える。
【0056】
ステップS815において、画像処理装置20の候補決定部206は、探索部205が作成した一致リストに基づいて、認識対象の文字列の候補を決定する。本実施形態では、候補決定部206は、決定した候補を画像DB211に保存する。なお、本実施形態では、候補決定部206は、一致リスト内に含まれる収納企業コード毎に一致率を算出して、最も高い一致率を有する収納企業コードに対応する収納企業名を、候補として決定する。
【0057】
例えば、分割後の読取文字列「BT」・出現情報「1」、分割後の読取文字列「J瓦」・出現情報「2」、分割後の読取文字列「斯(」・出現情報「3」、分割後の読取文字列「株)」・出現情報「4」がその出現情報の順で一致リスト内に含まれる場合、収納企業コード「100」の一致率は100%となる。仮に、読取部204が「B」を「8」と誤読した場合、一致リスト内には分割後の読取文字列「J瓦」・出現情報「2」、分割後の読取文字列「斯(」・出現情報「3」、分割後の読取文字列「株)」・出現情報「4」がその出現情報で含まれ、収納企業コード「100」の一致率は75%となる。なお、候補決定部206は、一致リストの読取情報と出現情報とを評価して、読取結果中の近接する領域に妥当な順で現れている分割後の読取文字列に基づいて、一致率の算出をするものとする。ここでは、候補決定部206は、候補として「イロハクレジットサービス株式会社」を決定したものとする。
【0058】
ステップS816において、画像処理装置20の確認部207は、候補決定部206が候補として決定した文字列を、表示コントローラ26を介してディスプレイ32に表示する。ここでは、確認部207は、図7に示されるような確認画面を表示したものとする。
【0059】
ステップS817において、確認部207は、入力インターフェイス25を介して、確認結果及び/又は訂正文字列を受信する。本実施形態では、確認部207は、受信した確認結果及び/又は訂正文字列を画像DB211に保存する。
【0060】
なお、本実施形態では、読取結果に含まれる文字列を1文字ずつシフトしながら所定の文字数で分割し、マスターDB209内の文字列は文字が重複しないように分割したが、別の実施形態では、読取結果に含まれる文字列を文字が重複しないように分割し、マスターDB209内の文字列を1文字ずつシフトしながら所定の文字数で分割してもよい。
【0061】
以上、本実施形態によれば、帳票の様式情報を登録することなく、帳票内のいずれかの領域に出現する所望の文字列を認識することができる。探索部205が二分探索を用いて検索を行うことで、読取結果に含まれる文字列をマスターDB209内の文字列全てと1件ずつ突合する場合と比較して、CPUの処理量を減らすことができ、処理速度を速くすることができる。また、読取結果に含まれる文字列とマスターDB209内の文字列とを所定数の文字列に分割して比較するので、読取結果に誤読が含まれる場合であっても、候補を検索することができる。
【符号の説明】
【0062】
1…画像処理システム、10…画像読取装置、20…画像処理装置、21…CPU、22…メインメモリ、23…ハードディスク、24…画像読取装置インターフェイス、241…画像バッファ、25…入力インターフェイス、26…表示コントローラ、27…通信インターフェイス、28…データリーダ/ライタ、201…マスター更新部、202…分割マスター作成部、203…画像受付部、204…読取部、205…探索部、206…候補決定部、207…確認部(画面生成部)、208…通信部、209…マスターDB(マスターリスト)、210…分割マスターDB(分割マスターリスト)、211…画像DB、30…ホストサーバ、31…マウス、32…ディスプレイ、33…メモリカード、701…候補領域、702…候補出現領域、703…確認ボタン、N…ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8