(58)【調査した分野】(Int.Cl.,DB名)
前記座標取得手段は、前記基準画像に含まれる前記予め定められた複数の文字列の座標から該基準画像に含まれる目標点への相対座標に応じて、該基準画像の目標点に対応する前記文書画像の目標点の座標を複数取得し、
前記文字列抽出手段は、前記座標取得手段により取得された各座標を基点とした複数の領域のうち、いずれかの領域に含まれる文字列を抽出する
請求項1又は2記載の画像処理装置。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態について図面を参照して詳細に説明する。
図1は、本発明の実施形態に係る画像処理装置2のハードウェア構成を示す模式図である。
【0024】
図1に示すように、画像処理装置2は、CPU4及びメモリ6などを含む本体8、入力装置10、出力装置12、記憶装置14、記憶媒体16、通信装置18及び画像読取装置20から構成され、画像処理装置2は、他の装置との通信が可能なコンピュータとしての構成部分を有している。
【0025】
CPU4は、メモリ6に記憶されたプログラムに基づく処理を実行する。記憶装置14は、内蔵HDDなどであり、記憶媒体16は、CD、FD及び外付けHDDなどである。なお、CPU4は、記憶装置14又は記憶媒体16に記憶されたプログラムを実行してもよい。
【0026】
入力装置10は、キーボード、マウス及びジョイスティックなどであり、出力装置12は、ディスプレイなどの表示装置である。なお、入力装置10及び出力装置12を、タッチパネルなどにより構成してもよい。
【0027】
通信装置18は、LAN、インターネットなどの通信回線を介して他の装置と通信を行う、データ回線終端装置などの通信装置である。
【0028】
画像読取装置20は、スキャナなどの画像読取装置であり、用紙などの記録媒体を文書画像として読み取る。
【0029】
図2は、プログラムが実行されることにより実現される画像処理装置2の機能構成を示すブロック図である。なお、
図2に示される構成の一部又は全ては、ASIC,FPGAなどのハードウェアにより実現されてもよい。
【0030】
図2に示すように、画像処理装置2は、文書画像取得部30と、解析部32と、基準情報格納部34と、座標検出部36と、座標取得部38と、文字列抽出部40とを有し、記録媒体を読み取って得られた文書画像から文字列を抽出する処理を行う。
【0031】
文書画像取得部30は、記録媒体を読み取って得られた文書画像データを取得する。本実施形態では、文書画像取得部30は、画像読取装置20により読み取られた文書画像データを画像読取装置20から取得するが、文書画像取得部30は、例えば、通信装置18を介して送信された文書画像データを取得してもよいし、記憶媒体16に格納された文書画像データを読み出して取得してもよい。なお、以下の説明において、文書画像とは、文書画像取得部30により取得された文書画像データを示す。
【0032】
解析部32は、文書画像取得部30により取得された文書画像データを解析する。解析部32は、例えば、OCR(Optical Character Recognition:光学文字認識)機能を使用することによって文書画像を解析し、文書画像に含まれる文字及び文字の位置を検出する。
【0033】
基準情報格納部34は、文書画像取得部30が取得した文書画像に対応する基準画像についての情報を格納する。基準画像とは、文書画像取得部30が取得した文書画像に対応した予め定められた画像であり、例えば、記録媒体に当該文書画像を形成する際に形成対象となった画像データ、文書の雛形となる画像データなどが該当する。なお、基準情報格納部34が格納する情報の詳細については、後述する。
【0034】
ここで、基準画像に含まれる文字列の基準画像内における位置と、当該文字列の文書画像内における位置とは、異なる場合がある。例えば、画像読取装置20により記録媒体を読み取る際にずれて読み取られた場合には、当該文字列の文書画像内の位置は、基準画像内の位置に比べてずれてしまう。また、基準画像に比べ画像が拡大又は縮小された場合にも、当該文字列の文書画像内の位置は、基準画像内の位置とは異なることとなる。このような場合、当該文字列の基準画像における絶対座標(例えば、画像の左上端を原点とした座標)を用いて、文書画像取得部30が取得した文書画像から当該文字列を抽出しようとしても、当該文字列の文書画像における絶対座標は変移しているため、抽出できないおそれがある。
【0035】
本実施形態では、文書画像取得部30が取得した文書画像から所望の文字列を抽出する際、絶対座標により抽出対象の文字列を指定するのではなく、予め定められた複数の文字列からの相対座標を用いて抽出対象の文字列を指定する。なお、以下の説明において、この予め定められた文字列を利用文字列と呼ぶことがある。
【0036】
座標検出部36は、解析部32による解析結果から、文書画像取得部30が取得した文書画像における上述の予め定められた複数の文字列(利用文字列)の座標(絶対座標)を検出する。なお、利用文字列が何であるかについては、基準情報格納部34に予め格納されている。
【0037】
座標取得部38は、文書画像取得部30が取得した文書画像に対応する基準画像に含まれる上述の予め定められた複数の文字列の座標(絶対座標)と、基準画像に含まれる目標点の座標と、座標検出部36により検出された複数の座標とに基づいて、基準画像の目標点に対応する文書画像の目標点の座標を取得する。なお、目標点とは、抽出対象の文字列の位置を示す点ある。ここで、基準画像に含まれる目標点の座標としては、本実施形態では、予め定められた文字列の座標からの相対座標として説明するが、相対座標は、絶対座標がわかれば算出できるので絶対座標であってもよい。
【0038】
なお、文書画像取得部30が取得した文書画像に対応する基準画像に含まれる利用文字列の座標及び基準画像に含まれる目標点の座標は、基準情報格納部34に予め格納されている。
【0039】
文字列抽出部40は、解析部32による解析結果から、座標取得部38により取得された目標点の座標を基点とした領域の文字列を抽出する。本実施形態では、目標点の座標を基点とした矩形領域内の文字列を抽出する。なお、矩形領域の幅及び高さについては、基準情報格納部34に予め格納されている、幅及び高さについての情報に基づき決定される。
【0040】
次に、本実施形態における文字列の抽出について、具体例により説明する。
図3は、本実施形態の文字列の抽出について説明する模式図であり、
図3(a)は、基準画像を例示し、
図3(b)は、基準情報格納部34に予め格納されている情報を例示し、
図3(c)は、文書画像を例示している。ここでは、基準画像が画像形成された記録媒体についてファクシミリ送信された結果、ファクシミリの受信画像としての文書画像が、基準画像に比べて、縮小され、かつ、全体的に文字列の位置が平行移動している場合を例に説明する。
【0041】
なお、
図3で示した例では、抽出対象の文字列が、受注番号として記載されている「789123」であるものと仮定し、また、この文字列の抽出のために用いる予め定められた複数の文字列(利用文字列)が、「注文書」及び「エベレスト」の2つであるものと仮定する。
【0042】
また、
図3(a)において、+印は、利用文字列の座標位置を示し、枠線は、基準画像における抽出対象の文字列の領域を示している。この例では、枠線の左上隅の点が基準画像における目標点であるが、目標点が枠線の他の隅の点になるようにしてもよい。
【0043】
図3(b)に示すように、例えば、基準情報格納部34は、基準画像における利用文字列の座標と、基準画像における目標点の座標及び当該目標点を基点とした矩形領域の幅及び高さ情報を格納している。
【0044】
なお、
図3に示した例において、利用文字列「注文書」の基準画像における座標は、(x1_org, y1_org)であり、利用文字列「エベレスト」の基準画像における座標は、(x2_org, y2_org)であり、基準画像における目標点の相対座標(利用文字列「注文書」の座標からの相対座標)は、(x_org, y_org)であり、基準画像における枠線の幅は、w_orgであり、枠線の高さは、h_orgであるものとする。
【0045】
また、同様に、利用文字列「注文書」の文書画像における座標は、(x1_img, y1_img)であり、利用文字列「エベレスト」の文書画像における座標は、(x2_img, y2_img)であり、文書画像における目標点の相対座標(利用文字列「注文書」の座標からの相対座標)は、(x_img, y_img)であり、文書画像における枠線の幅は、w_imgであり、枠線の高さは、h_imgであるものとする。
【0046】
また、
図3(c)において、+印は、基準画像における利用文字列の座標位置を投影したものであり、×印は、文書画像における利用文字列の座標位置を示している。また、破線の枠線は、基準画像における枠線を投影したものであり、実線の枠線は、文書画像における抽出対象の文字列の領域を示している。このように、文書画像が基準画像に比べて縮小及び移動した結果、破線の枠内には抽出対象の文字列「789123」が存在していない。
【0047】
図3に示した例では、座標検出部36は、文書画像についての解析部32のOCR結果から、利用文字列の座標(x1_img, y1_img)及び(x2_img, y2_img)を検出する。
【0048】
また、座標取得部38は、例えば次のような算出式により、文書画像における目標点の相対座標 (x_img, y_img)を取得する。
【0049】
x_img = (x_org + (x1_img - x1_org)) * (|x2_img - x1_img| / |x2org - x1_org|) y_img = (y_org + (y1_img - y1_org)) * (|y2_img - y1_img| / |y2org - y1_org|)
【0050】
このように、座標取得部38は、基準画像に含まれる予め定められた複数の文字列(利用文字列)の座標と座標検出部36により検出された座標とを用いて、基準画像と文書画像との間の拡大又は縮小の倍率を取得し、この倍率に基づいて文書画像の目標点の座標を取得する。
【0051】
これに対し、文字列抽出部40は、文書画像おける(x_img, y_img)を基点とした領域内に含まれる文字列を解析部32のOCR結果から抽出する。なお、(x_img, y_img)を基点とした領域の幅及び高さは、w_img及びh_imgである。ここで、w_img及びh_imgの値は、例えば、基準画像における枠線の幅w_org及び高さh_orgに、基準画像に対する文書画像の倍率を乗じることにより算出される。
【0052】
以上、
図3により示した例では、利用文字列として、「注文書」、「エベレスト」としているが、利用文字列は、例えば、基準画像に含まれる文字列のうち、文書画像内においても予め定められた領域内に存在することが期待される文字列であることが好ましい。例えば、文書の題名、項目名など、文書の雛形のデータに予め含まれる文字列などが利用文字列として選択されることが好ましい。
【0053】
また、
図3に示した例では、利用文字列として、「注文書」、「エベレスト」といった一意の文字列を用いる例を示したが、正規表現により表された文字列を利用文字列としてもよい。例えば、メタ文字を用いて、3文字の漢字からなる文字列、「注文」の文字列の後に任意の1文字がある文字列などに該当する文字列を利用文字列として指定するようにしてもよい。例えば、座標検出部36により利用文字列「注文書」の座標を検出する際に、「書」について文字認識ができず、解析部32の解析結果から「注文書」という文字列を探すことが出来ない場合であっても、利用文字列を「注文書」ではなく、正規表現により「注文」の文字列の後に任意の1文字がある文字列を指定すれば、利用文字列が見つかることとなる。
【0054】
図4は、基準情報格納部34への基準情報の格納の流れを示すフローチャートである。
ステップ10(S10)において、利用文字列を決定する。例えば、使用者によって、基準画像に含まれる文字列のうちいずれの文字列を利用文字列とするかが指定され、画像処理装置2は、指定された文字列を利用文字列として決定する。なお、本実施形態では、利用文字列としては、複数の文字列が指定される。
【0055】
ステップ12(S12)において、ステップ10で決定された利用文字列からの抽出対象の文字列への相対座標を指定する。例えば、使用者によって、目標点が指定されることにより、相対座標が決定される。また、使用者によって、目標点を基点とした抽出領域の幅及び高さが指定される。
【0056】
ステップ14(S14)において、各利用文字列に対する座標情報と、目標点の相対座標及び目標点を基点とした抽出領域の幅及び高さの情報が、基準情報格納部34に格納される。
【0057】
図5は、文書画像から文字列を抽出する動作について例示するフローチャートである。
ステップ20(S20)において、画像読取装置20により読み取られた文書画像を文書画像取得部30が取得する。
【0058】
ステップ22(S22)において、解析部32が、文書画像に含まれる文字及び文字の位置について解析する。
【0059】
ステップ24(S24)において、基準情報格納部34に格納されている基準情報を読み込む。
【0060】
ステップ26(S26)において、基準情報に定義されている利用文字列が文書画像に存在するか否かが判定され、利用文字列が存在する場合には、ステップ28へ移行し、存在しない場合には、ステップ34へ移行する。
【0061】
ステップ28(S28)において、座標検出部36が、文書画像における利用文字列の絶対座標を検出する。
【0062】
ステップ30(S30)において、座標取得部38が、基準情報に定義されている基準画像における利用文字列の座標及び目標点の座標と、ステップ28で検出した利用文字列の文書画像における座標とから、文書画像における目標点の相対座標を取得する。
【0063】
ステップ32(S32)において、文字列抽出部40が、ステップ30で取得した相対座標に基づいて、目標点を基点とした領域内の文字列を、ステップ22の解析結果から抽出する。
【0064】
一方、ステップ34(S34)では、相対座標に基づく文字列の抽出が行なえないため、予め定められた絶対座標に基づく領域内の文字列を抽出する。
【0065】
なお、以上説明した実施形態では、利用文字列を複数設けているが、利用文字列を1つとし、当該1つの利用文字列から目標点までの相対距離により文書画像における文字列の抽出領域を求めるようにしてもよい。ただし、利用文字列が1つの場合、文書画像が基準画像に対して拡大又は縮小されたときには、対応できないことがある。
【0066】
次に、本実施形態の第1の変形例について説明する。上記の実施形態では、基準情報格納部34には、目標点の座標として、複数の利用文字列のうちいずれかの利用文字列からの相対座標を格納していた。これに対し、第1の変形例では、複数の利用文字列それぞれからの相対座標を格納している。そして、第1の変形例では、座標取得部38は、基準画像に含まれる複数の利用文字列の座標から基準画像に含まれる目標点への相対座標に応じて、基準画像の目標点に対応する文書画像の目標点の座標を複数取得し、文字列抽出部40は、座標取得部38により取得された各座標を基点とした複数の領域のうち、いずれかの領域に含まれる文字列を抽出する。
【0067】
図6は、第1の変形例における文字列の抽出について説明する模式図であり、
図6(a)は、基準画像を例示し、
図6(b)は、基準情報格納部34に予め格納されている情報を例示し、
図6(c)は、文書画像を例示している。
【0068】
なお、ここでは、例えば文書データのデータ形式が変換されることにより、文書画像における文字列の配置が、基準画像のおける文字列の配列と異なっている場合を例に説明する。例えば、基準画像が、PDF(Portable Document Format)形式の文書データに基づく画像である場合に、当該文書データを他の形式の文書データに変換し、変換後の文書データについて記録媒体に画像形成した場合、この記録媒体を読み取った文書画像の文字列の配置は、基準画像における文字列の配置と異なる場合がある。
図6に示した例では、文書画像において、利用文字列として指定されている「注文書」の文字列が基準画像に比べ、左方向にずれている。その結果、基準画像における「注文書」の文字列と「社名」以下の文字列との位置関係と、文書画像における「注文書」の文字列と「社名」以下の文字列との位置関係とは、異なっている。また、
図6に示した例では、文書画像における文字列は、さらに、全体的に右下方向にずれている。
【0069】
なお、
図6に示した例では、文書画像は、基準画像に対して拡大又は縮小されていないが、第1の変形例として示す処理を拡大又は縮小された文書画像に適用してもよい。
【0070】
図6で示した例では、抽出対象の文字列が、受注番号として記載されている「789123」であるものと仮定し、また、この文字列の抽出のために用いる予め定められた複数の文字列(利用文字列)が、「注文書」、「エベレスト」、「ページ」の3つであるものと仮定する。
【0071】
また、
図6(a)において、+印は、利用文字列の座標位置を示し、枠線は、基準画像における抽出対象の文字列の領域を示している。この例では、枠線の左上隅の点が基準画像における目標点である。また、+印から目標点へと伸びる各矢印は、利用文字列の各座標位置から目標点への相対座標を明示するベクトルを説明のため明示したものである。
【0072】
図6(b)に示すように、例えば、基準情報格納部34は、基準画像における利用文字列の座標と、基準画像における目標点の座標及び当該目標点を基点とした矩形領域の幅及び高さ情報を格納している。ここで、第1の変形例では、複数の利用文字列それぞれからの相対座標を格納している点で上記の実施形態と異なっている。
【0073】
また、
図6(c)において、×印は、文書画像における利用文字列の座標位置を示している。また、×印から伸びる各矢印は、
図6(a)に示した矢印(利用文字列の座標位置から目標点への相対座標を示すベクトル)を投影したものであり、矢印により表されるベクトルは、
図6(a)に示すベクトルと
図6(c)に示すベクトルとで等しい。また、
図6(c)において、ベクトルの終点は、基準画像の目標点に対応する文書画像の目標点の座標位置を示し、文書画像における、この目標点を基点とする枠線は、
図6(a)に示した枠線と同じである。このように、
図6(a)に示した基準画像と
図6(c)に示した文書画像とでは、各ベクトル及び枠線は同じであるものの、利用文字列の座標位置が変更されているため、枠線に囲まれる領域は、各々異なっている。
【0074】
第1の変形例では、座標取得部38は、座標検出部36により検出された文書画像における利用文字列の座標と、基準情報格納部34に格納されている目標点への相対座標とから、文書画像の目標点の利用文字列からの座標を取得する。
図6に示した例では、座標取得部38は、座標検出部36により検出された文書画像における利用文字列「注文書」の座標と、基準情報格納部34に格納されている利用文字列「注文書」の基準画像における座標及びこの利用文字列から目標点への相対座標とに基づいて、利用文字列「注文書」からの目標点の座標を取得する。また、座標取得部38は、同様にして、利用文字列「エベレスト」からの目標点の座標、利用文字列「ページ」からの目標点の座標についても取得する。
【0075】
また、第1の変形例では、文字列抽出部40は、座標取得部38により取得された各座標を基点とした複数の領域のうち、いずれかの領域に含まれる文字列を抽出する。
図6に示した例では、まず、座標取得部38により取得された利用文字列「注文書」についての座標を基点とした領域の指定が行なわれる。なお、領域の指定は、基準情報格納部34に格納されている、矩形領域の幅及び高さ情報を用いて矩形領域を定めることにより行なわれる。同様にして、座標取得部38により取得された他の利用文字列の座標を基点とした領域についても指定される。なお、指定された各領域は、
図6(c)では、各枠線内の領域として表される。次に、文字列抽出部40は、例えば、指定された全ての領域に含まれる文字列を抽出対象の文字列として抽出する。
【0076】
なお、文字列抽出部40は、このように指定された全ての領域に含まれる文字列を抽出対象の文字列として抽出してもよいが、予め定められた閾値以上の個数の領域に含まれる文字列を抽出対象の文字列として抽出するよう構成してもよい。
【0077】
また、文字列抽出部40は、予め定められた条件を満たす文字列を抽出対象としてもよい。例えば、文字列が、数字、アルファベットなどの予め定められた文字の種別であるもののみを抽出対象とするようにしてもよいし、形態素解析などを行なうことにより領域内の文字列の内容を解析し、文字列が予め定められた内容(例えば、住所を示す文字列、氏名を示す文字列など)であるもののみを抽出対象とするようにしてもよい。
【0078】
図7は、第1の変形例において、文書画像から文字列を抽出する動作について例示するフローチャートである。ここで、ステップ20〜ステップ24については、
図4におけるフローチャートと同様なので、ステップ30以降について説明する。
【0079】
ステップ30(S30)において、基準情報に定義されている利用文字列が文書画像に存在するか否かが判定され、利用文字列が存在する場合には、ステップ32へ移行し、存在しない場合には、ステップ38へ移行する。
【0080】
ステップ32(S32)において、座標検出部36が、文書画像における利用文字列の絶対座標を検出する。
【0081】
ステップ34(S34)において、座標取得部38が、ステップ32で検出された文書画像における利用文字列の座標と、基準情報格納部34に格納されている目標点への相対座標とから、文書画像の目標点の当該利用文字列からの相対座標を取得する。
【0082】
ステップ36(S36)において、文字列抽出部40が、ステップ34により取得された座標を基点とした領域内の文字列をステップ22の解析結果から抽出する。
【0083】
ステップ38(S38)において、基準情報に他の利用文字列が定義されているか否かを判定し、他の利用文字列が定義されている場合には、ステップ30へと戻り、当該他の利用文字列について、上記の処理がなされる。一方、定義されている全ての利用文字列について上記の処理がなされた場合には、ステップ40へと移行する。
【0084】
ステップ40(S40)において、ステップ30において文書画像中に存在すると判定された利用文字列があるか否かが判定され、1つ以上の利用文字列について文書画像中に存在するとステップ30で判定されている場合には、ステップ42へ移行し、文書画像中に存在すると判定された利用文字列が1つもなかった場合には、ステップ44へ移行する。
【0085】
ステップ42(S42)において、文字列抽出部40は、ステップ36で抽出された文字列の中から、文字列を決定する。例えば、上述のように、文字列抽出部40は、指定された全ての領域に含まれる文字列を抽出対象の文字列として決定する。なお、ステップ36で抽出された文字列のいずれも、条件を満たさない(例えば、指定された一部の領域にしか含まれていない等)場合、ステップ44へ移行するようにしてもよい。
【0086】
一方、ステップ44(S44)では、相対座標に基づく文字列の抽出が行なえないため、予め定められた絶対座標に基づく領域内の文字列を抽出する。
【0087】
なお、以上説明したフローチャートにおいて、ステップ40では、文書画像中に存在するとステップ30で判定された利用文字列が1つ以上あれば、ステップ42へ移行するものとして説明したが、1つに限らず、2以上としてもよい。
【0088】
次に、本実施形態の第2の変形例について説明する。第2の変形例では、座標検出部36は、少なくとも3つの利用文字列の座標を検出し、座標取得部38は、基準情報格納部34に格納された、基準画像に含まれる少なくとも3つの利用文字列の座標及び該座標により囲まれる領域内における目標点の座標と、座標検出部36により検出された複数の利用文字列の座標とに基づいて、文書画像の目標点の座標を取得する。
【0089】
図8は、第2の変形例における文字列の抽出について説明する模式図であり、
図8(a)は、基準画像を例示し、
図8(b)は、基準画像における3つの利用文字列の座標点に囲まれた領域内の目標点の位置関係を図示している。
【0090】
図8(a)において、+印は、利用文字列の座標位置を示し、丸印は目標点を示し、枠線は、目標点を基点とした領域であり、基準画像における抽出対象の文字列の領域を示している。このように、第2の実施形態では、目標点を囲むように少なくとも3つの利用文字列を用いる。
【0091】
第2の変形例で、基準情報格納部34には、基準画像における少なくとも3つの利用文字列の座標と、基準画像における目標点の座標情報及び当該目標点を基点とした矩形領域の幅及び高さ情報が格納される。例えば、基準画像における目標点の座標情報としては、例えば、
図8(b)に示されるように、利用文字列の座標点により形成される三角形に対する目標点の相対位置を示す座標が格納される。なお、
図8(b)に示す例では、三角形のいずれか一辺に向けた目標点からの垂線による当該一辺の内分点の位置(図中に示される、垂線の交点から頂点までの距離a及びb)と、当該一辺の一方の頂点から目標点を通るように他の辺に向けた直線による当該他の辺の内分点の位置(図中に示される、直線の交点から頂点までの距離c及びd)とを基準情報格納部34は目標点の座標情報として格納する。
【0092】
図9は、第2の変形例における文字列の抽出について説明する模式図であり、
図9(a)は、文書画像を例示し、
図9(b)は、文書画像における3つの利用文字列の座標点に囲まれた領域内の目標点の位置関係を図示している。ここでは、文書画像が、基準画像に比べて、縮小され、かつ、全体的に文字列の位置が平行移動している場合を例に説明する。
【0093】
図9(a)において、×印は文書画像における利用文字列の座標位置を示し、丸印は文書画像における目標点を示し、枠線は、目標点を基点とした領域であり、文書画像における抽出対象の文字列の領域を示している。第2の変形例では、
図9(b)に示すように、上記垂線及び直線の辺の内分比率が
図8(b)と同様になるよう、垂線の交点(図中に示される、垂線の交点から頂点までの距離a'及びb')と、直線の交点(図中に示される、直線の交点から頂点までの距離c'及びd')が定められ文書画像における目標点の位置が求められる。座標取得部38は、このように目標点の座標を計算し、文字列抽出部40は、上述の実施形態と同様、目標点を基点とした枠線内の文字列を抽出する。
【0094】
図10は、第2の変形例において、文書画像から文字列を抽出する動作について例示するフローチャートである。ここで、ステップ20〜ステップ24については、
図4におけるフローチャートと同様なので、ステップ40以降について説明する。
【0095】
ステップ40(S40)において、基準情報に定義されている3つの利用文字列が文書画像に存在するか否かが判定され、利用文字列が存在する場合には、ステップ42へ移行し、存在しない場合には、ステップ48へ移行する。
【0096】
ステップ42(S42)において、座標検出部36が、文書画像における各利用文字列の絶対座標を検出する。
【0097】
ステップ44(S44)において、座標取得部38が、ステップ42で検出された文書画像における利用文字列の座標と、基準情報格納部34に格納されている基準画像の利用文字列の座標及び目標点の座標情報とから、文書画像の目標点の座標を取得する。
【0098】
ステップ46(S46)において、文字列抽出部40が、ステップ44により取得された座標を基点とした領域内の文字列をステップ22の解析結果から抽出する。
【0099】
一方、ステップ48(S48)では、予め定められた絶対座標に基づく領域内の文字列を抽出する。
【0100】
以上、
図8及び
図9に示した例では、1つの目標点と、利用文字列の座標点からなる1つの三角形領域とを用いて説明したが、利用文字列を4つ以上設定し、目標点を囲む複数の異なる三角形領域を用いてもよい。また、複数の異なる三角形領域において、各三角形領域内の目標点は、枠線上の同じ頂点であってもよいし、異なる頂点であってもよい。このように、利用文字列を4つ以上設定し、目標点を囲む複数の異なる三角形領域を用いることにより、利用文字列として3つだけを設定する場合に比べ、ステップ40において「有」と判定されやすくなることが期待される。