IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シティコンピュータ株式会社の特許一覧

特開2022-184331帳票の特定フィールド認識方法および特定フィールド読取り装置
<>
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図1
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図2
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図3
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図4
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図5
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図6
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図7
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図8
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図9
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図10
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図11
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図12
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図13
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図14
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図15
  • 特開-帳票の特定フィールド認識方法および特定フィールド読取り装置 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022184331
(43)【公開日】2022-12-13
(54)【発明の名称】帳票の特定フィールド認識方法および特定フィールド読取り装置
(51)【国際特許分類】
   G06V 30/14 20220101AFI20221206BHJP
【FI】
G06K9/20 340J
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2021092111
(22)【出願日】2021-06-01
(71)【出願人】
【識別番号】518349422
【氏名又は名称】シティコンピュータ株式会社
(74)【代理人】
【識別番号】100181940
【弁理士】
【氏名又は名称】緒方 禎浩
(72)【発明者】
【氏名】中杉 功
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029BB03
5B029CC25
5B029EE12
(57)【要約】      (修正有)
【課題】罫線に囲まれた所望の領域を特定フィールドとして、より簡易に認識する方法および帳票読取り装置を提供する。
【解決手段】方法は、取得した画像について、所定値以上の連続性を有する選択色を罫線として抽出するステップ201と、罫線を、罫線交点形状に係る登録類型と比較して、登録類型のいずれかの形状に該当する箇所をその形状に係る交点として抽出するステップ202と、各交点の罫線伸長方向において近接する交点同士を結ぶ線分を新たな罫線として再構成するステップ203と、交点のいずれかの交点を起点として、終点となる交点への罫線経路を指定し、当該指定経路に従って到達した終点を一隅とする罫線に囲まれた領域を特定フィールドとして認識するステップ204と、を含む。
【選択図】図2
【特許請求の範囲】
【請求項1】
帳票面の画像を入力し、取得した画像中の所望の領域を特定フィールドとして認識する特定フィールド認識方法であり、
前記取得した画像について、所定値以上の連続性を有する選択色を罫線として抽出し、
前記罫線を、罫線交点形状に係る登録類型と比較して、前記登録類型のいずれかの形状に該当する箇所をその形状に係る交点として抽出し、
前記交点の罫線伸長方向において近接する前記交点同士を結ぶ線分を新たな罫線として再構成し、
前記交点のいずれかの交点を起点として、終点となる交点への罫線経路を指定し、
当該指定経路に従って到達した終点を一隅とする罫線に囲まれた領域を特定フィールドとして認識する特定フィールド認識方法。
【請求項2】
前記起点が複数あり、それぞれの起点から到達したそれぞれの終点を一隅とする罫線に囲まれた領域の画像を比較し、同一と判断される場合にのみ当該領域を特定フィールドとして認識する請求項1に記載の特定フィールド認識方法。
【請求項3】
帳票面入力手段と、
前記入力手段によって取得した帳票画像について、所定値以上の連続性を有する選択色を罫線として抽出する罫線抽出手段と、
罫線交点形状に係る類型を登録する交点形状類型登録手段と、
前記罫線を、前記交点形状類型登録手段で登録された登録類型と比較して、前記登録類型のいずれかの形状に該当する箇所をその形状に係る交点として抽出する交点抽出手段と、
前記交点の罫線伸長方向において近接する前記交点同士を結ぶ線分を新たな罫線として再構成する罫線再構成手段と、
前記交点のいずれかの交点を起点とする罫線経路に従って到達した終点を一隅とする罫線に囲まれた領域を特定フィールドとして認識する特定フィールド認識手段とを有する特定フィールド読取り装置。
【請求項4】
前記特定フィールド認識手段が、複数の起点から到達したそれぞれの終点を一隅とする罫線に囲まれた領域の画像を比較し、同一と判断される場合にのみ当該領域を特定フィールドとして認識するものである請求項3に記載の特定フィールド読取り装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、帳票中の所望の領域を特定フィールドとして認識する方法および特定フィールドの読取り装置に関するものである。
【0002】
本発明において、帳票とは、罫線によって記入箇所が区切られた書類を意味するものである。申込書や請求書等のような典型的な書類だけではなく、契約書や説明等の書類を含むものである。帳票中の所望の領域とは、情報処理等の様々な目的に必要な、罫線によって囲まれた領域(特定フィールド)を意味するものである。特定フィールドとして認識するとは、所望の領域の画像情報を情報処理等のために取得することを意味するものである。
【背景技術】
【0003】
近年、IT技術の進展に伴い、各種情報は、電子データとして保管、管理されることが一般的になってきた。帳票等の紙媒体に記載された情報は、光学式文字読取装置(OCR)等によって電子化される。
【0004】
このような情報の電子化においては、不要な情報はその後の情報利用において誤認につながるだけでなく、管理サーバ等のコンピュータの負荷が大きくなるという問題がある。そのため、必要な情報のみ電子化、抽出等することが望まれる。
【0005】
また、情報の電子化においては、読み取った帳票の大きさが異なる、帳票が傾いている、文字等がかすれている、罫線と文字が交差している等の様々な問題がある。このような問題は正確な情報の読取り等を妨げるものである。
【0006】
上記の問題に対しては、正確に情報を読み取るための様々な技術がある。大きさの異なる帳票のリサイズ、傾きの補正、必要に応じた画像トリミング、グレースケール化等は、例えば、オープンソースのコンピュータビジョン向けライブラリ(OpenCV)の機能を活用して処理可能である。また、帳票の認識方法として、以下の技術が提案されている。
【0007】
第1の技術は、表形式帳票の表面画像を入力し、表の枠構造を認識する表認識方法において、帳票画像から罫線を抽出し、罫線の交点と端点を抽出し、罫線の交点と端点の形状を符号化し、表の構成要素である矩形枠の四隅に相当する右上角、左上角、右下角、左下角に相当する交点形状符号を検出することにより、枠の位置を検出することを特徴とする表認識方法である(特許文献1)。
【0008】
第2の技術は、帳票画像を取得する入力手段と、記録手段と、演算手段とを少なくとも有する帳票処理装置において、上記記録手段には、部分書式情報を表す部分書式情報データベースが格納され、該部分書式情報データベースは、罫線の交差形状を示すデータとして、罫線なし、上下左右の端点、縦横の罫線の一部、L字型交点、T字型交点、十字型交点の其々の交差形状を表わす交点符号を用い、上記部分書式情報は、帳票種、部分領域、部分書式の3階層から構成される木構造であって、上記帳票種を示す帳票種番号、上記部分領域を示す部分領域番号、上記部分書式として水平および垂直方向の格子点の数と座標値、各格子点での交点符号を含む第1の格子点情報を含み、上記演算手段は、上記入力手段から入力された帳票画像に対して、部分領域毎に部分書式照合を行い、上記木構造の下位の階層から上位の階層へ向かって順次、部分書式、部分領域、帳票種を確定することによって、上記入力された帳票画像の帳票種を決定するように構成され、上記演算手段は、上記部分書式照合を、上記入力手段から入力された帳票画像に対してレイアウト解析を行って帳票全面の格子点情報を得、上記第1の格子点情報の座標値を用いて上記帳票全面の格子点情報から所定領域内の格子点情報である第2の格子点情報を抽出し、上記第1の格子点情報の各行ごとに、上記第2の格子点情報の各行との照合を1行ずつ行って、DPマッチングにより上記第1の格子点情報と上記第2の格子点情報の行同士の類似度を示す其々の照合スコアを求め、当該照合スコアに基づいて第2の格子点情報の行の照合結果となる第1の格子点情報の行を特定するように実行することにより、部分書式を確定し、上記演算手段は、部分書式ごとの照合類似度を上記各行で計算された照合スコアの和に基づいて計算し、同じ部分領域内に部分書式が複数ある場合には照合類似度が最大となる部分書式を選択し、帳票種ごとの照合類似度を上記部分領域ごとに計算された上記部分書式の照合類似度の和に基づいて計算し、帳票種の照合類似度が最大となる帳票を上記入力された帳票画像の帳票の種類として選択することを特徴とする帳票処理装置である(特許文献2)。
【0009】
第3の技術は、罫線から成る表と該表に関連した情報とが記載された文書を画像として読み取る画像入力手段と、前記画像から表の罫線の位置を特定する罫線特定手段と、前記罫線特定手段によって特定された罫線の位置に基づき、前記画像を罫線から成る罫線画像と情報を表す情報画像とに分離する画像分離手段と、前記画像分離手段によって分離された罫線画像によって囲まれる複数の矩形領域を検出し、該矩形領域の最小単位に対して矩形単位の座標値を割り付けて、該複数の矩形領域の隣接関係を特定することで、前記表の表構造を抽出する表構造抽出手段と、前記画像分離手段によって分離された情報画像に外接する外接矩形を検出し、該外接矩形に対して矩形単位の座標値を割り付けて、該複数の外接矩形の隣接関係を特定することで、前記情報の位置構造を抽出する情報構造抽出手段と、前記表構造抽出手段によって割り付けられた座標値と前記情報構造抽出手段によって割り付けられた座標値とを対応付けることで、前記表構造に前記情報の位置構造を対応付ける構造対応付け手段とを有することを特徴とする画像処理装置である(特許文献3)。
【0010】
特許文献1、2に記載の技術は、罫線の四隅の形状に基づき矩形枠の位置を検出するものである。特許文献3に記載の技術は、罫線に囲まれた矩形枠を検出し、表構造を抽出するものである。これらの発明の目的は高精度に帳票を認識することであり、本発明とは目的を異にするものである。また、これらの技術が想定する読取り対象は、表構造のような定義が容易な形状のものである。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】特開平11-53466号公報
【特許文献2】特許第4521466号公報
【特許文献3】特許第4867401号号公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明が解決しようとする課題は、様々な形式の帳票等において罫線に囲まれた所望の領域を特定フィールドとして、より簡易に認識する方法および帳票読取り装置を提供することである。
【課題を解決するための手段】
【0013】
第1の発明は、帳票面の画像を入力し、取得した画像中の所望の領域を特定フィールドとして認識する特定フィールド認識方法であり、前記取得した画像について、所定値以上の連続性を有する選択色を罫線として抽出し、前記罫線を、罫線交点形状に係る登録類型と比較して、前記登録類型のいずれかの形状に該当する箇所をその形状に係る交点として抽出し、前記交点の罫線伸長方向において近接する前記交点同士を結ぶ線分を新たな罫線として再構成し、前記交点のいずれかの交点を起点として、終点となる交点への罫線経路を指定し、当該指定経路に従って到達した終点を一隅とする罫線に囲まれた領域を特定フィールドとして認識する特定フィールド認識方法である。また、第2の発明は、前記起点が複数あり、それぞれの起点から到達したそれぞれの終点を一隅とする罫線に囲まれた領域の画像を比較し、同一と判断される場合にのみ当該領域を特定フィールドとして認識する第2の発明の特定フィールド認識方法である。また、第3の発明は、帳票面入力手段と、前記入力手段によって取得した帳票画像について、所定値以上の連続性を有する選択色を罫線として抽出する罫線抽出手段と、罫線交点形状に係る類型を登録する交点形状類型登録手段と、前記罫線を、前記交点形状類型登録手段で登録された登録類型と比較して、前記登録類型のいずれかの形状に該当する箇所をその形状に係る交点として抽出する交点抽出手段と、前記交点の罫線伸長方向において近接する前記交点同士を結ぶ線分を新たな罫線として再構成する罫線再構成手段と、前記交点のいずれかの交点を起点とする罫線経路に従って到達した終点を一隅とする罫線に囲まれた領域を特定フィールドとして認識する特定フィールド認識手段と を有する特定フィールド読取り装置である。また、第4の発明は、前記特定フィールド認識手段が、複数の起点から到達したそれぞれの終点を一隅とする罫線に囲まれた領域の画像を比較し、同一と判断される場合にのみ当該領域を特定フィールドとして認識するものである第3の発明の特定フィールド読取り装置である。
【発明の効果】
【0014】
本発明は、罫線の交点形状に基づき罫線を再構成し、当該罫線を経路として所定の起点から所定の経路でたどり着く終点を所望領域の一隅とすることで、帳票構造に座標を割り付けなくても所望の領域を特定する効果が期待できる。また、本発明は、起点から(所望領域の一隅である)終点までの罫線経路により所望領域を特定するものであるため、起点から終点までが罫線によってつながっているものであれば、複雑な帳票構造の場合にも所望の領域を特定する効果が期待できる。また、本発明は、異なる起点から所望の領域をそれぞれ特定し、それらの画像を比較し、同一と判断される場合にのみ当該領域を特定フィールドと認めるものであるため、特定フィールおよび帳票の誤認識画像を特定し、排除する効果が期待できる。
【図面の簡単な説明】
【0015】
図1】本発明の構成要素の概念図である。
図2】本発明の処理フロー図である。
図3】帳票画像の傾き補正イメージである。
図4】色情報の二値化のイメージである。
図5】パンチ穴部分の除去イメージである。
図6】連続する白色部分を罫線として抽出することを示す図である。
図7】選択色の連続性が途中で途切れている場合の図である。
図8】罫線交点形状の類型例である。
図9】罫線交点とこれらに対応する登録交点形状の図である。
図10】近接交点の接続パターンを示す図である。
図11】近接交点の接続によって形成された帳票画像の一例である。
図12】所望領域への罫線経路の一例を示す図である。
図13】所望領域を特定するための起点と経路を示す図である。
図14】複雑な帳票書式の一例である。
図15】所望の領域の誤認識の一例である。
図16】同一の領域を2つの起点から特定する例である。
【発明を実施するための形態】
【0016】
本発明の実施形態例を以下に示す。
【0017】
図1は、本発明の構成図である。帳票100は、入力装置101によって表面画像が入力される。入力された画像情報は、計算機102に記録され、本発明に係る必要な処理に供される。ここで、必要な処理とは、画像情報を含む各種情報の格納・送受信、画像情報の照合・判断や抽出等の解析、罫線の再構築等の編集、画像の走査、画像中の領域特定、その他本発明に係る機能を実現するための処理である。また、これらの処理は、計算機102に備えられた操作手段から入力されたコマンドによっても実行され、必要に応じて処理過程や結果がモニター等の出力手段によって出力、表示される。
【0018】
また、図1では、一台の計算機102が、CPU(制御装置、演算装置)、記憶装置(主記憶装置、補助記憶装置)、その他本発明に係る機能を実現するための処理に必要な装置、プログラムを備えた集中的な装置構成であるが、これに限定されるものではない。すなわち、本発明に係る処理は、分散された複数の計算機によって実現されるものでもよいし、ネットワークを介して実現されるものでもよい。また、各種情報の通信は有線、無線のいずれでもなされてもよく、記憶媒体を介するものでもよい。
【0019】
以上の構成によって、図2に示される処理が実行される。まず、入力装置101は、帳票100の帳票面を読み取る(ステップ200)。次に、計算機102は、読取られた帳票100の画像から、所定の連続性を有する選択色を罫線と判断することにより罫線を抽出する(ステップ201)。次に、計算機102は、抽出された罫線の交点部分について、交点形状に係る登録情報と照合し、該当する交点形状に関連付けて抽出する(ステップ202)。次に、計算機102は、抽出された交点から行方向、列方向において所定の範囲内にある近接交点同士を線分で結び、新たな罫線として再構築する(ステップ203)。次に、計算機102は、再構成された罫線上の所定の交点を起点とし、当該起点から指定された罫線経路に従って到達した終点を一隅とする罫線に囲まれた領域を特定フィールドとして認識する(ステップ204)。以下、各ステップの詳細である。
【0020】
<ステップ200>
帳票100は、スキャナ等の入力装置101にセットされ、帳票面が読取られる。この読取り操作は、例えば、自治体や企業等、帳票100が大量に生じる組織内で行われるケース(その後の処理は外部委託となるケース)、電子化作業を受託する組織に帳票100が送付された後に当該組織内で他の操作とともに一括して行われるケース等が挙げられる。前者のように、異なる主体によって本発明に係る一連の処理が行われる場合、入力装置101と計算機102間の通信は、ネットワークを介する方法、または、いわゆるCD、DVD、USBメモリ等の記憶媒体を介する方法等のいずれの方法でもよい。
【0021】
<ステップ201>
まず、罫線抽出にあたっては、所定の前処理が必要である。帳票画像は、必ずしも正確に読取られていないからである。画像サイズが異なる、傾いている、パンチ穴等の不要な部分が含まれている等、罫線の抽出を阻害する問題がある。ただし、これらの問題は、いずれも今日の一般的な技術常識によって処理可能である。
【0022】
例えば、OpenCVのHoughLinesPによって画像中の直線部分抽出後、一番長い直線の傾きから画像中の罫線の傾きの補正が可能である(図3)。同様にOpenCVによって、画像の色情報の二値化(使用機能:CvtColor、AdaptiveThreshold、BitwiseNot)(図4)、パンチ穴等の所定部分を除去(使用機能:FindContoursAsArray、ContourArea、MinAreaRect)(図5)等が可能である。上記問題の解決方法は、先行技術文献に示された方法等どのような方法によるものでもよい(以下、先行技術で解決し得る問題については同様である)。
【0023】
次に、計算機102は、画像中の選択色の連続性に基づき罫線を抽出する。一般的に、罫線は所定値以上の連続性を有し、文字等の罫線以外は罫線のような連続性を有しないことに基づくものである(図6)。図6においては、白色を選択色として、矢印が指す中段部分の白色の連続部分が罫線として抽出される。ここで、所定値とは、任意に設定可能であり、例えば、一文字として想定される値(例えば、20ピクセルや30ピクセル等)が挙げられる。
【0024】
ここで、画像中の罫線部分の連続性が途切れ、本来、罫線として抽出されるべき部分が抽出されないという問題がある(図7)。これは色情報の二値化における処理が原因となるものである。すなわち、色情報の二値化は、各ピクセルについて設定した閾値を境に白と黒に変換するものであるため、ステップ200における読取り具合によっては罫線部分のピクセルが所定の値とならないことがある。図7の矢印が罫線を指す部分のように、罫線の連続性が失われることがある。
【0025】
このような問題に対しては、次のような処理によって対処可能である。すなわち、所定ピクセルの途切れを無視する、例えば、1ピクセルの途切れを無視する処理によって罫線の連続性を維持することが可能である。
【0026】
<ステップ202>
帳票書式の特性として、罫線によって閉じている、罫線が線分として単独で存在することはないことが挙げられる。すなわち、罫線の線分は必ず他の罫線の線分とつながっている。次の処理は、この特性を前提とするものである。
【0027】
帳票書式が、行、列を分ける横と縦の罫線からなる場合、罫線交点の形状は、9類型ある(図8)。これらの交点形状類型については、事前に計算機102(図は省略するが、厳密には計算機102を構成する情報格納部)に照合用情報として登録され、罫線交点との照合に供される。これにより、登録された交点形状を有する罫線交点がその形状に係る交点として抽出される(図9)。
【0028】
<ステップ203>
抽出された交点から罫線を再構築する処理について、図8の左上の形状の交点を例に挙げる(交点Aとする)。罫線の再構築処理は、各交点の罫線伸長方向において近接する交点同士を結ぶ線分を新たな罫線とする処理である。交点Aにおける罫線伸長方向は、交点Aから右方向(行方向)と下方向(列方向)である。交点Aが行方向においてつながり得る交点の形状は6種類ある(図10)。これらの形状を有する交点の中から一定の高さ範囲(縦座標範囲)にあり、かつ、交点Aと最短距離にあるものが、交点Aと結ばれる交点(交点Bとする)として選択される。交点Bが交点Aの近接交点として決定したら、交点A、Bを結ぶ線分(新たな罫線)が形成される。この線分は、後述するフィールド特定に供される。
【0029】
列方向においても上記と同様に処理される。すなわち、交点Aと列方向においてつながり得る交点形状を有する交点の中から一定の横座標範囲にあり、かつ、交点Aと最短距離にあるものが、交点Aと結ばれる交点(交点Cとする)として選択される。交点Cが交点Aの近接交点として決定したら、交点A、Cを結ぶ線分が形成される。
【0030】
交点B、Cについても上記と同様に処理される。そして、他の交点についてもこのような操作が繰り返され、処理対象がなくなったところで処理が終了する。処理が終了すると、新たに構築された罫線によって帳票画像ができる(図11)。
【0031】
<ステップ204>
帳票中の所望の領域の特定は次の通りである。所望の領域とは、罫線によって四方を囲まれた、認識対象となる領域である。次の要素に基づき、所望の領域が特定される。一つは、起点となる交点である。起点は任意の交点でよいが、帳票外枠の角であることが望ましい。ただし、所望の領域を囲む罫線上の交点は、本発明に係る起点から除外される。もう一つは、起点からの罫線経路である。罫線経路は、起点から次の交点までの線分(罫線)による道順を示すものである。例えば、起点から「右」、「下」、「下」、「右」・・・のように次の交点を示し、終点が特定されるものである。
【0032】
起点から「右」や「下」といった罫線経路による所望領域の特定方法には、例えば、各交点や各罫線を識別して罫線そのものが経路とされる方法と起点から終点までの移動経路が帳票交点・罫線の傍にあって、この経路が罫線を跨いだことをもって「右」や「下」等への移動とみなされる方法がある。
【0033】
後者による罫線経路は、図12によって示される。左上隅の角が起点となる交点とする。まず、画像走査上の起点は、起点の右下の所定の位置(例えば、起点から右に5ピクセル、下に5ピクセル離れた位置)に設定される(この画像走査上の起点は、所望の領域との位置関係に基づき、走査線上の罫線との交差数が最小となる位置に設定されるのが望ましい)。次に、走査上の起点から画像が走査方向(右方向)に走査される。走査線上右側には縦の罫線があり、この罫線部分で画像の色が変化する。この画像の色の変化の検出をもって、罫線一つ分の経路移動(この場合は右へ罫線を一つ移動)とみなされる。この処理の繰り返しによって所望の領域が特定される。このような処理は、厳密には罫線上を経路とするものではないが、本発明では罫線経路による特定方法の一つとなるものである。
【0034】
終点が所望の領域の四隅の左上の交点であるとすると、当該交点を四隅左上に有する罫線で囲まれた領域(終点、終点の右側に位置する交点、その下側に位置する交点、その左側に位置し、終点の下側に位置する交点の4つの隣り合う点を結ぶ線分によって囲まれた矩形領域)を抽出すればよい。
【0035】
図13は、所望の領域を特定するための起点と経路をあらわすものである。帳票中の縦線模様の領域が所望の領域をあらわす。この領域を特定するために、帳票左上の角が起点として決定されたとする。この場合、起点から右(図13の矢印1)、下(図13の矢印2)、下(図13の矢印3)、下(図13の矢印4)、右(図13の矢印5)という罫線経路によって、起点から5つ目の交点が所望の領域の左上隅にあたる終点として特定される。すなわち、所望の領域は、この終点を左上隅とする罫線で囲まれた領域として特定される。
【0036】
所望の領域の特定にあたっては、あらかじめ起点と罫線経路を決定し、計算機102の命令に従って取得画像が処理されるようにしておく必要がある。通常、起点と罫線経路は、正式な帳票書式(帳票作成者の意図する書式)に基づき決定されるべきである。ただし、ステップ200より後の工程において、取得画像に基づき決定される場合(例えば、帳票100が読取られた後に、計算機102が備える入力手段によって罫線経路がコマンド入力される場合等)を否定するものではない。
【0037】
本発明に係る方法は、複雑な書式の帳票(図14)にも適用が可能である。先に挙げた帳票書式の特性(罫線によって閉じている、罫線が線分として単独で存在することはない)を満たす書式であれば、どの交点を起点としても所望の領域に係る交点にたどり着くからである。
【0038】
一方、ステップ200の帳票読取りにおいて帳票100の読取りが不十分だと、誤った領域が特定されるという問題がある。このような問題は、特に、帳票100が大量に存在する場合において懸念される。具体的には、手書きされた記載内容が罫線に類似する場合、修正液等で罫線の消失部分がある場合等が問題となる。例えば、図13に示された罫線経路上に誤って罫線が一つ認識された場合、起点から「右」、「下」、「下」、「下」、「右」という経路に従うと、図13とは異なる点が終点になって誤った領域が認識される(図15)。
【0039】
この誤認の対処方法としては、起点と罫線経路を複数設定することが挙げられる(図16)。図16は、図13からさらに、帳票の上右角が起点となり、「下」、「下」、「下」、「下」、「左」という罫線経路で所望の領域の右上隅の交点(および所望の領域)が特定されるものである。再構築された罫線に誤りがなければ、どのような起点からでも同じ領域を特定することが可能である。すなわち、異なる起点から特定されたそれぞれの領域の画像の記載内容や欄の大きさ等が比較判断され、異なる場合は、抽出画像として採用されない(誤認画像として検出される)方法が誤認の対処方法として挙げられる。
【0040】
また、このような誤認画像の検出は、一つの起点からだけでも可能である。例えば、罫線経路として、起点から所望の領域まで最短(通過交点数が最小)となる罫線経路、全ての交点を通過する罫線経路等が考えられる。また、このような検出は、複数の起点に対して行われるものでもよい。
【0041】
所望とする領域が帳票中の特定箇所のみである場合、帳票書式全体が正確に読取られている必要はない。例えば、所望とする領域が帳票中の上部にある場合、すなわち、中部と下部に記載された情報が不要である場合、上記処理は上部のみに対して行われる運用でよい。この場合の起点と罫線経路は帳票上部で行われるものとすることで、処理をより簡素化することが可能になる。
【0042】
こうして抽出された領域(特定フィールド)は、モニターやプリンター等の出力装置によって出力され、さらなる画像解析、編集、データ化等に供される。
【産業上の利用可能性】
【0043】
本発明は、電子化された帳票画像を再処理してデータ化等する分野に利用することができる。また、本発明は、電子化された帳票画像の誤認検出に利用することができる。

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16