【実施例1】
【0012】
[帳票判別装置10の構成]
図1は、実施例1に係る帳票判別装置10の機能的構成を示すブロック図である。
図1に示す帳票判別装置10は、生保や損保の他、銀行の口座開設などの各種の申込受付業務で申込者の本人確認に用いられる本人確認書類が電子化された画像データから本人確認書類の種類を判別する帳票判別処理を実行するものである。
【0013】
一実施形態として、帳票判別装置10は、パッケージソフトウェアまたは帳票認識ソフトなどのOCR(Optical Character Recognition)ソフトにアドオンされるライブラリ、これらをオンラインで提供するオンラインソフトウェアとして、上記の帳票判別処理を実現する帳票判別プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、帳票判別装置10は、上記の申込受付業務を担当する係員が使用する情報処理装置に上記の帳票判別プログラムをインストールさせることにより実装することができる。この他、帳票判別装置10は、上記の申込受付業務を担当する係員が使用する情報処理装置などをクライアント端末として収容するサーバ装置に上記の帳票判別プログラムをインストールさせることにより実装することができる。この場合、帳票判別装置10は、生保、損保や銀行などの業務システムの一部として実装されることとしてもよいし、上記の帳票判別処理により実現されるサービスをアウトソーシングによって提供するクラウドとして実装することとしてもかまわない。
【0014】
図1には、符号11〜符号19に対応する機能部が示されているが、これはあくまで一例に過ぎず、図示された機能部の一部を省略したり、図示以外の機能部が帳票判別装置10に備わることを妨げない。例えば、申込受付業務を担当する係員が使用する情報処理装置が帳票判別装置10として実装される場合、パーソナルコンピュータや携帯端末装置などが標準装備する機能部、例えば入力デバイス、画像または音声の出力デバイス、通信インタフェースなどの他、スキャナ等の読取部などの機能部を有することとしてもかまわない。また、上記の業務システムの一部として帳票判別装置10が実装される場合、本人確認書類の画像データ以外にも、申込者のエントリデータを管理するデータベースが帳票判別装置10の記憶装置、例えば主記憶装置や補助記憶装置などに記憶されることとしてもよい。
【0015】
図1に示すように、帳票判別装置10は、あくまで一例として、画像記憶部11と、取得部13と、第1除去部15と、第2除去部17と、判別部18と、第3除去部19とを有する。
【0016】
画像記憶部11は、画像データを記憶する記憶部である。
【0017】
一実施形態として、画像記憶部11は、イメージスキャナ等の読取装置または読取装置を搭載するFAXを通じて、上記の申込受付業務で申込者の本人確認に用いられる本人確認書類の原本または複製が電子化された画像データを記憶する。かかる画像データは、デジタル画像であればよく、例えば、カラー画像であってもよいし、グレースケール画像であってもよく、また、二値化画像であってもかまわない。
【0018】
例えば、上記の申込受付業務を担当する係員により使用される情報処理装置が帳票判別装置10として実装される場合、画像記憶部11には、帳票判別装置10に接続される読取装置から出力される画像データが登録される。また、上記の業務システムの一部として帳票判別装置10が実装される場合、画像記憶部11には、申込者のFAX装置から伝送される画像データが登録されたり、読取装置からアップロードされる画像データが登録されたり、あるいは、上記の申込受付業務を担当する係員により使用される情報処理装置または申込者により使用される情報処理装置から伝送される画像データが登録されたりする。
【0019】
なお、上記の画像記憶部11には、半導体メモリを始めとする各種の記憶装置またはその記憶領域の一部を割り当てることにより実装できる。例えば、記憶装置の一例として、フラッシュメモリ(Flash Memory)、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)などを採用できる。このような半導体メモリ素子の他、HDD(Hard Disk Drive)、光ディスクやSSD(Solid State Drive)などを採用することもできる。
【0020】
取得部13は、画像を取得する処理部である。
【0021】
一実施形態として、取得部13は、次のような条件で上記の帳票判別処理を起動し、画像記憶部11に記憶された画像データを取得する。例えば、画像記憶部11に新規の画像データが登録された場合、取得部13は、画像記憶部11から新規の画像データを読み出す。この他、取得部13は、申込者のエントリデータの参照要求が受け付けられた場合、当該エントリデータに関連付けられた画像データを画像記憶部11から読み出す。ここでは、あくまで一例として、帳票判別装置10が有する画像記憶部11から画像データを取得する場合を例示したが、必ずしも帳票判別装置10が本人確認書類の画像データを保存しておらずともかまわない。例えば、取得部13は、図示しない外部ネットワークを介して、申込者のFAXから伝送される画像データを取得することができる。また、取得部13は、図示しない内部ネットワークを介して、読取装置からアップロードされる画像データを取得したり、あるいは、図示しないファイルサーバ上に記憶された画像データを取得したりすることもできる。この他、取得部13は、メモリカードやUSB(Universal Serial Bus)メモリなどのリムーバブルメディアから画像データを取得することもできる。
【0022】
このように、取得部13は、帳票判別装置10が有する記憶装置にアクセスすることにより画像データを取得することができる他、外部装置との通信により画像データを取得することもできる。
【0023】
図2は、画像データの一例を示す図である。
図2には、本人確認書類の一例として、印鑑登録証明書の複製が電子化された画像データ200が示されている。
図2に示すように、原本ではなく、印鑑登録証明書の複製が電子化される場合、印鑑登録証明書の原本に埋め込まれていた透かしが画像データ200上に現れる。すなわち、
図2に示す通り、「複写」という透かし文字列が複製によって繰り返し現れる。さらに、画像データ200では、印鑑登録証明書の紙面上に存在する地紋が強調される。すなわち、地紋が原因となって粒状の細かいノイズ、すなわち面ノイズが画像データ200上の紙面全体にわたって現れる。これら地紋や透かしは、本人確認書類の種類を問わずに埋め込まれていることが多く、OCR等により文字認識を行う上でその精度を低下させる原因となる。なお、
図2には、印鑑登録証明書に関する画像データを例示したが、
図2に示す印鑑登録証明書を発行する地方自治体と異なる地方自治体により発行される印鑑登録証明書においても、さらには、他の種類の本人確認書類においても地紋や透かしが同様に現れる。
【0024】
第1除去部15、第2除去部17及び第3除去部19は、画像データにラベリング処理が実行されることにより同一のラベルが付与された画素のブロブのうち、各処理部に設定された条件を満たすブロブを除去する処理部である。
【0025】
これらのうち、第1除去部15及び第2除去部17は、
図2を用いて説明したノイズの中でも、面ノイズ、すなわち地紋に起因する粒状のノイズを除去の照準とする。
図3は、面ノイズの除去例を示す図である。
図3には、
図2に示した画像データ200上の領域210、すなわち文字列「印鑑登録証明書」のうち「印鑑登」の部分が拡大された状態で処理の遷移が示されている。
図3の上段には、取得部13により取得された時点の領域210が示されている。さらに、
図3の中段には、第1除去部15による除去が行われた後の領域210が示されると共に、
図3の下段には、第2除去部17による除去が行われた後の領域210が示されている。なお、ここでは、第1除去部15及び第2除去部17が除去の照準とするノイズを説明することに重点を置き、各処理部の具体的な処理内容については後述する。
【0026】
図3の上段及び中段に示す通り、第1除去部15では、面ノイズの中でも、第2除去部17が照準とするノイズよりもサイズが小さいノイズが除去の照準とされる。一方、
図3の中段及び下段に示す通り、第2除去部17では、面ノイズの中でも、第1除去部15が照準とするノイズよりもサイズが大きく、画像データに含まれる文字が持つ文字サイズよりも小さいノイズを除去の照準とし、第1除去部15が除去しきれなかったノイズを除去することに照準が置かれている。
【0027】
より具体的には、第1除去部15は、取得部13により取得された画像データにラベリング処理を実行する。このとき、取得部13により取得された画像データがカラー画像である場合、第1除去部15は、カラー画像をグレースケール画像へ変換することができる。また、取得部13により取得された画像データがグレースケール画像である場合、第1除去部15は、グレースケール画像に含まれる各画素が持つ画素値が閾値以上であるか否かを判定することによって二値化画像を生成することができる。なお、ここでは、第1除去部15がラベリング処理を実行する場合を例示したが、ラベリング処理は外部装置に実行させることとしてもかまわない。
【0028】
ここで、上記の「ラベリング処理」は、画素値が白「1」または黒「0」に二値化された画像上で白または黒が連続する画素に同一のラベルを割り当てる処理を指し、既知の任意の手法を適用することができる。書類上の文字は、黒または黒に準じる色で表現されるので、ここでは、一例として、黒「0」が連続する画素に同一の識別情報が割り当てられる場合を想定する。以下では、ラベリング処理により同一のラベルが割り当てられた黒画素の連接体のことを「ブロブ」と記載する場合がある。さらに、以下では、画像処理を簡素化する観点から、プロセッサ上で仮想的に実現される各処理部が黒画素の連接体を包含する外接矩形を「ブロブ」として扱い、また、複数の連接体を包含する外接矩形を後述の「集合ブロブ」として扱って画像処理を行う場合を例示する。
【0029】
このように画像データにラベリング処理が実行された状況の下、第1除去部15は、n×nピクセル以下のブロブを除去する第1の除去処理を実行する。かかる第1の除去処理に用いられるサイズの閾値nには、任意の値を設定できる。例えば、免許証、住民票や印鑑証明などの各種の本人確認書類の間で本人確認書類の種類を特徴付けるキーワードの文字サイズが最も小さい種類の本人確認書類であり、かつ当該本人確認書類に含まれるキーワードの中でも最小の文字サイズよりも小さいサイズを設定できる。数値の例を挙げれば、3×3ピクセル以下のノイズ、あるいは、5×5ピクセル以下のノイズに照準を絞ることができる。これは、第1の除去処理では、n×nピクセルを超えるサイズのノイズの除去は第2除去部17により実行される第2の除去処理に委ねることができ、必ずしも全てのノイズが除去されずともよいからである。なお、上記のサイズの閾値nには、固定値が設定されることとしてもよく、また、ユーザによる指定値が設定されることとしてもかまわない。
【0030】
この結果、
図3の中段に示す通り、
図3の上段では一面に分布していた面ノイズが第1の除去処理によりある程度除去される。
【0031】
その上で、第2除去部17は、第1除去部15により第1の除去処理が行われた画像データから、当該画像データに含まれる各文字が持つ文字サイズのうち最小の文字サイズよりも小さいブロブを除去する第2の除去処理を実行する。
【0032】
かかる第2の除去処理を実現する処理部として、第2除去部17は、
図1に示す通り、統合部17aと、推定部17bと、除去部17cとを有する。
【0033】
統合部17aは、第1除去部15により第1の除去処理が行われた画像データに含まれるブロブのうち、所定の条件を満たすブロブ同士を統合する処理部である。以下では、複数のブロブが統合されることによって得られるブロブの集合のことを「集合ブロブ」と記載する場合がある。
【0034】
一実施形態として、統合部17aは、ブロブのサイズ、ブロブ間の距離や統合後の形状などの条件を満たす2つ以上のブロブ同士を結合することにより、集合ブロブを生成する。かかる集合ブロブの生成は、画像データへ電子化された本人確認書類に含まれる文字が持つ文字サイズを推定するために実行される。このため、上記の条件には、集合ブロブのサイズ及び形状が文字または文字の部首を形成しうるものが設定される。例えば、統合部17aは、幅及び高さのサイズが所定の閾値以下であるブロブを統合の対象とし、サイズが閾値を超えるブロブを統合の対象から除外する。これによって、本人確認書類の種類を問わず、ブロブの統合後に本人確認書類で出現し得ない文字サイズの集合ブロブが生成されるのを抑制する。さらに、統合部17aは、ブロブ間の距離が所定の閾値以内のブロブ同士を結合の候補とする一方で、ブロブ間の距離が閾値を超えるブロブ同士は結合の候補としない。これは、異なる文字の構成要素が結合されるのを抑制するためである。さらに、統合部17aは、互いのブロブが結合される場合の外接矩形の幅及び高さのサイズの差が所定の範囲内であるブロブ同士を結合する一方で、所定の範囲外であるブロブ同士は結合しない。これは、フォントを問わず、文字の外接矩形は略正方形状であるので、正方形から逸脱するブロブ同士が結合されるのを抑制する。これらの条件によって、略正方形状の集合ブロブが生成される。
【0035】
推定部17bは、集合ブロブから画像データに含まれる文字が持つ最小の文字サイズを推定する処理部である。
【0036】
一実施形態として、推定部17bは、統合部17aにより統合された集合ブロブのうち直線状に整列する集合ブロブを抽出する。例えば、推定部17bは、重心、中心や頂点などの代表点が持つ垂直座標が所定の範囲内に分布する集合ブロブを抽出する。これによって、水平方向に整列する複数の集合ブロブが横書きの文字列として抽出される。また、推定部17bは、上記の代表点が持つ水平座標が所定の範囲内に分布する集合ブロブを抽出する。これによって、垂直方向に整列する複数の集合ブロブが縦書きの文字列として抽出される。このように集合ブロブを抽出する場合、推定部17bは、幅および高さのサイズが類似する集合ブロブ同士に絞って抽出することとしてもよい。その上で、推定部17bは、横書きの文字列及び縦書きの文字列として抽出された集合ブロブが持つ幅及び高さのサイズのうち最も小さいサイズを上記の最小の文字サイズとして推定する。
【0037】
なお、ここでは、横書き及び縦書きの両方に対応する集合ブロブを抽出する場合を例示したが、横書きまたは縦書きの一方に対応する集合ブロブに絞って抽出を行うこととしてもかまわない。また、幅及び高さの両方のサイズのうち最小のサイズを文字サイズとして推定する場合を例示したが、幅または高さの一方のサイズのうち最小のサイズを文字サイズとして推定することとしてもかまわない。例えば、縦倍角の文字列を含む本人確認書類を帳票判別処理の範疇とする場合、幅のサイズのうち最小のサイズが文字サイズとして推定される。また、横倍角の文字列を含む本人確認書類を帳票判別処理の範疇とする場合、高さのサイズのうち最小のサイズが文字サイズとして推定される。
【0038】
除去部17cは、画像データに含まれる文字が持つ最小の文字サイズよりも小さいブロブを除去する第2の除去処理を実行する処理部である。
【0039】
一実施形態として、除去部17cは、第1除去部15により第1の除去処理が行われた画像データに含まれるブロブのうち、推定部17bにより推定された最小の文字サイズ/2未満のブロブを除去する。なお、ここでは、一例として、最小の文字サイズ/2未満のブロブを除去する場合を例示するが、必ずしも最小の文字サイズ/2を閾値とせずともよく、最小の文字サイズよりも小さければ、任意の値を閾値として設定できる。
【0040】
図4は、第2の除去処理の一例を示す図である。
図4には、
図2に示した画像データ200上の領域210、すなわち文字列「印鑑登録証明書」のうち「印鑑登」の部分が拡大された状態で処理の遷移が示されている。
図4の上段には、第1除去部15により第1の除去処理が行われた時点の領域210が示されている。さらに、
図4の中段には、集合ブロブが生成された時点の領域210が示されると共に、
図4の下段には、横書きの文字列が抽出された時点の領域210が示されている。なお、
図4では、同一のラベルが付与されたブロブが実線で示されると共に、ブロブが統合された集合ブロブが一点鎖線で示されている。
【0041】
図4の上段から中段への遷移で示すように、ブロブの統合によって集合ブロブが生成される。
図4の中段に示す集合ブロブの中には、文字に対応する集合ブロブ410〜430もあれば、面ノイズの集合に対応する集合ブロブ440〜450も混在する。このため、
図4の下段に示す通り、集合ブロブ410〜450の5つの集合ブロブのうち横書きの文字列に対応する集合ブロブ410〜430が最小の文字サイズの推定に用いられる。これら集合ブロブ410〜430の3つのブロブが持つ幅及び高さの中でも、集合ブロブ430の高さXが最小であるので、集合ブロブ430の高さXが最小の文字サイズとして推定される。このように集合ブロブ430の高さが最小の文字サイズとして推定された後、集合ブロブ430の高さよりも小さい閾値、すなわち「X/2」未満のブロブが除去される。これによって、
図3の下段に示す結果が得られる。
【0042】
ここで、
図3の下段に示す通り、第2の除去処理によって画像データに含まれる文字列の一部の文字や文字の一部が欠落したとしてもかまわない。なぜなら、上記の「帳票判別処理」の目的は、本人確認書類の種類の判別にあり、かかる目的を達成するために必ずしも本人確認書類に含まれるキーワードの全文字の認識が必要ないからである。つまり、本人確認書類の種類の判別に目的がある場合、例えば、印鑑登録証明書に含まれるキーワード「印鑑登録証明書」の各文字を全て認識するのが目的なのではなく、画像データの文字認識結果から類似度、例えば編集距離等により、画像データが印鑑登録証明書であると同定することに目的があるからである。すなわち、
図3の例で言えば、「鑑」から「金」、「臣」及び「皿」以外の部分がノイズと共に除去されている。この程度の欠落では、「鑑」が認識できないとは限られないが、OCRエンジンによっては、キーワード「印鑑登」のうち「鑑」が認識されない可能性も生じる。仮に、「印○登」と認識された場合でも残りの「録証明書」が認識できれば、キーワード「印鑑登録証明書」と文字認識結果「印○登録証明書」との編集距離は十分に近いので、画像データが印鑑登録証明書であると判別することは可能である。
【0043】
判別部18は、画像データから本人確認書類の種類を判別する処理部である。
【0044】
一実施形態として、判別部18は、第2除去部17により第2の除去処理が実行された場合、当該第2の除去処理が実行された画像データから本人確認書類の種類を判別する。例えば、判別部18は、第2の除去処理が実行された画像データに文字認識処理を実行することにより、画像データから文字認識結果を得る。その後、判別部18は、本人確認書類の種類ごとに当該種類の本人確認書類を特徴付けるキーワードが定義された辞書と、文字認識結果として得られた文字列とを比較することにより、文字認識結果からキーワードを検出する。このとき、判別部18は、辞書内のキーワードと文字認識結果の文字列の編集距離が所定の範囲内である場合、当該文字認識結果の文字列が辞書に登載されたキーワードであると同定し、当該キーワードを検出する。そして、判別部18は、キーワードの検出結果を用いて、本人確認書類の種類ごとに当該画像データが当該種類に対応する尤もらしさ、いわゆる尤度を算出する。かかる尤度の算出には、一例として、辞書に登載されたキーワードが検出される個数が多い種類ほど高い尤度を算出するアルゴリズムが適用される。その上で、判別部18は、本人確認書類の種類ごとに算出された尤度の中に尤度が所定の閾値以上である種類が存在する場合、最高の尤度が算出された本人確認書類の種類を判別結果として出力する。このとき、判別部18は、尤度が閾値以上である種類が存在しない場合、第3除去部19により第3の除去処理が実行された後に、第3の除去処理が実行された画像データから本人確認書類の種類を改めて判別する。
【0045】
図5は、画像データの一例を示す図である。
図5には、第2除去部17による第2の除去処理が実行された画像データ500が示されている。
図5に示す画像データ500の場合、キーワード「印鑑登録証明書」のうち「録」及び「証」の2文字が透かし「複写」と重複している。このように透かしが重複する場合でも、種類「印鑑証明」の尤度が閾値以上の値で算出される場合もあるが、辞書との照合に用いる編集距離の閾値や尤度を算出するアルゴリズムによっては種類「印鑑証明」の尤度が閾値以上の値で算出されない場合もある。この場合、第3除去部19による第3の除去処理が実行された画像データから本人確認書類の種類が改めて判別される。なお、第2の除去処理が実行された画像データから本人確認書類の種類が判別できる場合、第3除去部19による第3の除去処理は実行されない。
【0046】
第3除去部19は、第2除去部17により第2の除去処理が行われた画像データから、透かしに対応するブロブを除去する第3の除去処理を実行する処理部である。
【0047】
一実施形態として、第3除去部19は、取得部13により取得された画像データから線分状のブロブを抽出する。かかる線分状のブロブは、一例として、各種のエッジ検出及びラベリング処理を併用することにより抽出できる。以下では、線分状のブロブのことを「ラン」と記載する場合がある。その後、第3除去部19は、線分の方向が共通し、線分から分岐が検出されず、かつ線分の幅が一定であるブロブが所定の密度以上で分布するランのグループを除去する。
【0048】
具体的には、第3除去部19は、画像データから抽出されたランのうちランを1つ選択する。続いて、第3除去部19は、先に選択されたランが分岐なしの線分、言い換えれば枝分かれがない線分であるか否かを判定する。そして、第3除去部19は、ランが分岐なしの線分である場合、先に選択されたランから所定の範囲内に当該ランと同等の方向及び幅を持つ他のランが存在するか否かを判定する。これらのうち、方向については、一例として、線分が基準に設定された方向、例えば水平線となす角度が選択中のランの角度±α以内である他のランをグループ化の条件とすることができる。また、ランの幅についても、一例として、ランの幅が選択中のランの幅±β以内である他のランをグループ化の条件とすることができる。そして、第3除去部19は、他のランが存在する場合、当該ランと他のランをグループ化する。このようにグループ化されたランのことを「集合ラン」と記載する場合がある。その後、第3除去部19は、集合ランの密度が所定の閾値以上であるか否かを判定する。かかる密度の判定の一例として、選択中のランの中心からmピクセル以内の距離に所定数以上の他のランが存在するか否か等により判断することができる。その上で、第3除去部19は、集合ランの密度が閾値以上である場合、画像データから集合ランを除去する。このように、第3除去部19は、全てのランが選択されるまで集合ランの除去を繰り返し実行する。
【0049】
図6A及び
図6Bは、第3の除去処理の一例を示す図である。
図6Aには、
図5に示した画像データ500に含まれる領域510の拡大図が示されている。また、
図6Bには、
図6Aに示された領域510のうち領域610がさらに拡大された拡大図が示されると共に、領域510でグループ化された集合ランの各ランが実線で囲まれた状態で示されている。
図6A及び
図6Bに示す通り、透かし「複写」の文字の輪郭は、同一の方向に向かって延びる分岐なしの線分が一定の間隔で集まることにより形成される。このことから、線分の方向が共通し、線分から分岐が検出されず、かつ線分の幅が一定であるブロブが所定の密度以上で分布するランが
図6Bに示された通りにグループ化された上で除去される。このような集合ランの除去が繰り返し実行されると、
図7に示す画像データ700が得られる。
【0050】
図7は、画像データの一例を示す図である。
図7には、第3除去部19による第3の除去処理が実行された画像データ700が示されている。
図7に示す画像データ700からは、
図5に示した画像データ500に比べて、透かし「複写」の文字の大部分が第3の除去処理によって除去されている。それ故、
図5に示した画像データ500に比べて、キーワード「印鑑登録証明書」のうち「録」及び「証」の2文字を認識できる公算が高まる。したがって、種類「印鑑証明」の尤度が閾値以上の値で算出される可能性を高めることができる。このような透かし除去を実現する第3の除去処理は、同一の方向に向かって延びる分岐なしの線分が一定の間隔で集まるという透かしの性質を利用するので、本人確認書類の種類が異なる場合や同種の本人確認書類であっても発行元が異なる場合にも適用できる可能性を高めることができる。
【0051】
なお、上記の取得部13、第1除去部15、第2除去部17、判別部18及び第3除去部19は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などに帳票判別プログラムを実行させることによって実現できる。また、上記の各機能部は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
【0052】
[処理の流れ]
図8及び
図9は、実施例1に係る帳票判別処理の手順を示すフローチャートである。この帳票判別処理は、一例として、画像記憶部11に新規の画像データが登録された場合や申込者のエントリデータの参照要求が受け付けられた場合などに起動される。
【0053】
図8に示すように、取得部13により画像データが取得されると(ステップS101)、第1除去部15は、ステップS101で取得された画像データにラベリング処理を実行する(ステップS102)。その上で、第1除去部15は、図示しないコンフィグファイルに記述されたサイズまたはユーザインタフェースを介して指定されたサイズにしたがってn×nピクセル以下のブロブを除去する第1の除去処理を実行する(ステップS103)。
【0054】
その後、統合部17aは、ステップS102のラベリング処理で得られたブロブのサイズ、ブロブ間の距離や統合後の形状などの条件を満たす2つ以上のブロブ同士を統合する(ステップS104)。かかるステップS104の処理によって、集合ブロブが生成されることになる。
【0055】
続いて、推定部17bは、ステップS104で統合された集合ブロブのうち水平方向及び垂直方向へ直線状に整列する集合ブロブを抽出する(ステップS105)。これによって、横書きの文字列および縦書きの文字列に相当する集合ブロブが抽出される。
【0056】
そして、推定部17bは、ステップS105で横書きの文字列及び縦書きの文字列として抽出された集合ブロブが持つ幅及び高さのサイズのうち最も小さいサイズを最小の文字サイズとして推定する(ステップS106)。
【0057】
その後、除去部17cは、ステップS103で第1の除去処理が行われた画像データに含まれるブロブのうち、ステップS106で推定された最小の文字サイズ/2未満のブロブを除去する第2の除去処理を実行する(ステップS107)。
【0058】
その上で、判別部18は、ステップS107で第2の除去処理が実行された画像データから本人確認書類の種類を判別する帳票判別処理を実行する(ステップS108)。このとき、本人確認書類の種類の判別に成功した場合(ステップS109Yes)、判別部18は、ステップS108で判別された本人確認書類の種類の判別結果を所定の出力先へ出力し(ステップS110)、処理を終了する。
【0059】
このように本人確認書類の種類の判別結果を出力することにより、ステップS101で取得された画像データに関連付けて業務システムのデータベース上に格納された申込者のエントリデータに本人確認書類の種類の判別結果を自動的に登録させることもできる。
【0060】
一方、本人確認書類の種類の判別に成功しなかった場合(ステップS109No)、第3除去部19は、ステップS101で取得された画像データから線分状のブロブを抽出する(ステップS111)。続いて、第3除去部19は、ステップS111で画像データから抽出されたランのうちランを1つ選択する(ステップS112)。
【0061】
そして、第3除去部19は、ステップS112で選択されたランが分岐なしの線分、言い換えれば枝分かれがない線分であるか否かを判定する(ステップS113)。この結果、ランが分岐なしの線分である場合(ステップS113Yes)、第3除去部19は、ステップS112で選択されたランから所定の範囲内に当該ランと同等の方向及び幅を持つ他のランが存在するか否かをさらに判定する(ステップS114)。なお、ランが分岐なしの線分でない場合(ステップS113No)または他のランが存在しない場合(ステップS114No)、ステップS118の処理へ移行する。
【0062】
このとき、他のランが存在する場合(ステップS114Yes)、第3除去部19は、当該ランと他のランをグループ化する(ステップS115)。かかるステップS115の処理によって集合ランが生成される。その後、第3除去部19は、集合ランの密度が所定の閾値以上であるか否かを判定する(ステップS116)。なお、集合ランの密度が閾値以上でない場合(ステップS116No)、ステップS118の処理へ移行する。
【0063】
その上で、集合ランの密度が閾値以上である場合(ステップS116Yes)、第3除去部19は、画像データから集合ランを除去する第3の除去処理を実行する(ステップS117)。そして、未選択のランがなくなるまで(ステップS118Yes)、上記のステップS112から上記のステップS117までの処理が繰り返し実行される。
【0064】
その後、未選択のランがなくなると(ステップS118No)、判別部18は、ステップS117で第3の除去処理が実行された画像データから本人確認書類の種類を判別する帳票判別処理を実行する(ステップS119)。そして、判別部18は、ステップS119で判別された本人確認書類の種類の判別結果を所定の出力先へ出力し(ステップS110)、処理を終了する。
【0065】
[効果の一側面]
上述してきたように、本実施例に係る帳票判別装置10は、本人確認書類が電子化された画像データに対するラベリング処理により得たブロブを正方形状に集め、その集合ブロブが直線状に整列する複数の集合ブロブのうち最小の集合ブロブよりも小さいブロブを除去する。この結果、本人確認書類の複製が電子化された場合でも地紋に起因する面ノイズが軽減される。したがって、本実施例に係る帳票判別装置10によれば、書類の種類を判別することが可能になる。