【文献】
長谷川史裕, 外2名,”アフィン変換の係数を用いた定型帳票内の文字抽出”,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,1997年12月19日,第97巻, 第459号,p.7-14
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0010】
実施の形態1.
この実施の形態1では、入力された画像データに含まれる文字領域を、帳票を識別するための領域(以下、帳票識別子領域と称する)として抽出し、抽出した帳票識別子領域を用いて帳票の識別を行う処理について説明する。
図1は、実施の形態1による帳票識別装置の構成を示すブロック図である。
帳票識別装置10は、二値化処理部1、画像補正部2、文字領域抽出部3、文字認識部4、ID認識情報記憶部5およびID認識部(識別子認識部)6で構成されている。
二値化処理部1は、入力された画像データに対して二値化処理を行う。画像補正部2は、二値化処理が行われた画像から罫線情報を抽出し、抽出した罫線の傾きを算出する。算出した罫線の傾きを元に、アファイン変換により画像の傾き補正を行う。
【0011】
図2は、実施の形態1による帳票識別装置の画像補正部によるアフィン変換を示す図である。
図2(a)は傾き補正前の二値化画像を示し、
図2(b)は傾き補正後の二値化画像を示す。
画像補正部2は、
図2(a)で示した二値化画像に対して罫線11a,11b,11c,11d,11e,11f,11g,11hを抽出し、抽出した各罫線の傾きを検出する。検出した各罫線の傾きに基づいて、二値化画像を矢印A方向に補正するアフィン変換を行い、
図2(b)で示した傾き補正後の二値化画像を得る。なお、傾きの検出および傾きに基づく補正の詳細については後述する。
【0012】
文字領域抽出部3は、画像補正部2が補正した補正画像から黒画素の発生頻度を示すヒストグラムを生成し、生成したヒストグラムの分布に基づいて文字領域を抽出する。文字領域の抽出処理を帳票の全ての画像データに対して行うと帳票内の罫線やノイズの影響を受け易い。そのため、あらかじめ文字領域の抽出処理を行う対象領域を設定し、設定した対象領域内においてヒストグラムを生成することにより、解析精度の向上および計算量削減の効果を得ることができる。対象領域の設定方法としては、例えば比較対象とするサンプル画像上であらかじめ対象領域を設定しておき、入力された帳票の画像サイズに基づいて拡大あるいは縮小する方法が適用可能である。
【0013】
図3は、実施の形態1による帳票識別装置の文字領域抽出部によるヒストグラム生成を示す図である。
図3に示した補正画像12内に対象領域12aを設定し、当該対象領域12aのX方向およびY方向の黒画素数に基づいてヒストグラム12bを生成する。生成したヒストグラム12bを補正画像12の画像サイズで正規化する。
【0014】
文字認識部4は、文字領域抽出部3が抽出した文字領域内に含まれる文字列を認識する。ID認識情報記憶部5は、文字列と帳票のIDとを紐付けたID認識情報を記憶する記憶領域である。
図4は、実施の形態1による帳票識別装置のID認識情報記憶部に記憶されたID認識情報の一例を示す図である。ID認識部6は、ID認識情報記憶部5に記憶されたID認識情報(識別子認識情報)を参照し、文字認識部4が認識した文字列から帳票のID(識別子)を取得し、入力された帳票を識別する。
【0015】
次に、帳票識別装置10の動作について説明する。
図5は、実施の形態1の帳票識別装置の動作を示すフローチャートである。
二値化処理部1は、画像データの二値化処理を行う(ステップST1)。画像補正部2は、ステップST1において二値化処理が行われた二値画像データから画像補正に必要となる罫線の抽出を行う(ステップST2)。罫線の抽出方法としては、例えば以下に示す参考文献1の手法を適用することができる。
・参考文献1
平野敬、岡田康裕、依田文夫、「文書画像からの罫線抽出方式」、電子情報通信学会総合大会、Mar.1998
【0016】
次に、画像補正部2はステップST2で抽出した罫線の傾きを算出する(ステップST3)。ステップST3の処理を、
図6を参照しながらより詳細に説明する。
図6は、実施の形態1による帳票識別装置の画像補正部の罫線の傾き角度の算出を示す図である。
図6(a)は抽出した罫線の一例を示し、
図6(b)はX方向の罫線の傾き角度の算出を示す説明図であり、
図6(c)はY方向の罫線の傾き角度の算出を示す説明図である。
図6(a)の罫線の抽出では、画像13における線分13aおよび線分13bがX方向の罫線であり、線分13cおよび線分13dがY方向の罫線となる。
図6(b)に示すように、線分13aおよび線分13bと画像13のX方向に平行な線分13xとのなす角θ
tを罫線13a,13bの傾き角度θ
tとして算出する。また
図6(c)に示すように、線分13cおよび線分13dと画像13のY方向に平行な線分13yとのなす角θ
tを罫線の傾き角度θ
tとして算出する。当該罫線の傾き算出処理をステップST2で抽出した全ての罫線に対して行う。
【0017】
次に画像補正部2は、ステップST3で算出した全ての罫線の傾き角度θ
tを用いて、以下の式(1)で表すcosθおよびsinθを算出する(ステップST4)。
すなわち、全ての罫線の傾きの平均値を入力された画像の傾きとする。
【0018】
さらに、画像補正部2はステップST4で算出したcosθおよびsinθを用いて、以下の式(2)で示したアフィン変換を行い、画像補正を行う(ステップST5)。
式(2)において、(x´,y´)は補正後の画像位置を、(x,y)は補正前の画像位置を示す。
【0019】
次に、文字領域抽出部3はステップST5で補正された補正画像について、ヒストグラムを生成する画像位置を設定する(ステップST6)。ステップST6の処理を、
図7を参照しながらより詳細に説明する。
図7は、実施の形態1による帳票識別装置の文字領域抽出部のヒストグラム生成位置設定を示す図である。
図7(a)は画像補正部2から入力される補正画像14を示し、
図7(b)はヒストグラムを生成する画像位置があらかじめ設定されたサンプル画像15を示している。
図7(b)において、サンプル画像15内に設定されるヒストグラム生成領域16の基点Oを(x,y)、横方向の長さをw、縦方向の長さをhとした場合に、ヒストグラムの画像位置は(hx,hy)で表わされ、ヒストグラムの横方向の長さはhw、ヒストグラムの縦方向の長さはhhで表わされる。また、サンプル画像15の横方向の長さはfw、サンプル画像15の縦方向のfhで表わされる。また、
図7(a)に示すように補正画像14の横方向の長さはiw、補正画像14の縦方向の長さはihで表わされる。
【0020】
上述したヒストグラム生成領域16の基点O、サンプル画像15の横方向および縦方向の長さ、および補正画像14の横方向および縦方向の長さを用いて、ヒストグラムの画像位置(hx,hy)、ヒストグラムの横方向の長さhwおよびヒストグラムの縦方向の長さhhが以下の式(3)で表される。
【0021】
次に、文字領域抽出部3はステップST6の処理で設定したヒストグラム生成領域において、黒画素の発生頻度を示すヒストグラムを生成する(ステップST7)。ヒストグラムの生成は、以下の式(4)に従って行う。
式(4)において、h(x)はヒストグラムの横方向の黒画素数を示し、h(y)はヒストグラムの縦方向の黒画素数を示す。
【0022】
さらに、文字領域抽出部3はステップST7で生成したヒストグラムから文字領域を抽出する(ステップST8)。ステップST8の抽出処理において、文字位置とノイズあるいは線分との判別は、
図8に示すようにヒストグラムの分布がある一定の幅を有しているか否か基づいて行われる。そこで、以下の式(5)で示す条件を有するヒストグラムを文字領域として検出する。
式(5)では、ヒストグラムの縦方向の黒画素数h(y)が閾値TH
histより大きく、ヒストグラムの横方向の幅Wが閾値THWより大きいことを条件としている。
【0023】
図8の例では、ノイズあるいは線分17aのヒストグラムが領域17bで示され、文字領域17cのヒストグラムが領域17dで示されている。領域17bは、分布の幅Waが閾値THW以下であるため、ノイズあるいは線分であると判断される。一方、領域17dは、分布の幅Wbが閾値THWより大きく一定の幅を有していることから文字領域であると検出される。
なお、上述した式(5)の条件に限られることなく、ヒストグラムの横方向の黒画素数h(x)が閾値より大きく、ヒストグラムの縦方向の幅が閾値より大きいことを条件としてもよい。
【0024】
文字認識部4は、ステップST8で抽出された文字領域に含まれる文字列を認識し、認識結果をID認識部6に出力する(ステップST9)。文字認識の方法としては、例えば以下の参考文献2に開示された手法を適用することができる。
・参考文献2
森稔、澤木美奈子、萩田紀博、村瀬洋、武川直樹、「ランレングス補正を用いた画質劣化にロバストな特徴抽出」、電子情報通信学会論文誌D Vol J86-D2 No.7,pp.1049-1057,July.2003.
【0025】
ID認識部6は、ID認識情報記憶部5に記憶されたID認識情報を参照し、ステップST9で認識した文字列に対応するIDを取得し、帳票識別装置10に入力された帳票を識別し(ステップST10)、処理を終了する。
【0026】
以上のように、この実施の形態1によれば、入力された画像データから文字領域を抽出する文字領域抽出部3と、抽出された文字領域に含まれる文字列を認識する文字認識部4と、ID認識情報を参照して認識した文字列に対応するIDを取得し、装置に入力された帳票を識別するID認識部6とを備えるように構成したので、入力された画像データに含まれる文字領域を、帳票を認識するための帳票識別子領域として用いて帳票を識別することができる。これにより、マーカ領域の抽出が困難である場合にも帳票を識別することができる。また、帳票内に複数のマーカ領域を配置する必要がなく、帳票の構成の自由度を高めることができる。
【0027】
また、この実施の形態1によれば、あらかじめ文字領域の抽出処理を行う対象領域を設定し、文字領域抽出部3が設定された対象領域内においてヒストグラムを生成するように構成したので、文字領域の抽出処理において帳票内の罫線やノイズにより受ける影響を抑制することができ、帳票識別装置の解析精度の向上および計算量削減を実現することができる。
【0028】
実施の形態2.
この実施の形態2では、実施の形態1で示した文字領域の抽出に加えて、帳票を認識するためにあらかじめ帳票内に設けられたマーカを抽出し、抽出した文字領域あるいはマーカを用いて帳票識別子領域を検出し、帳票を識別する構成を示す。
図9は、実施の形態2の帳票識別装置の構成を示すブロック図である。
実施の形態2の帳票識別装置20は、
図1で示した実施の形態1の帳票識別装置10にマーカ抽出部7を追加して設け、文字認識部4に替えてID領域検出部(識別子領域検出部)8を設けている。なお以下では、実施の形態1による帳票識別装置10の構成要素と同一または相当する部分には、
図1で使用した符号と同一の符号を付して説明を省略または簡略化する。
【0029】
マーカ抽出部7は、画像補正部2が補正した補正画像からあらかじめ帳票内に設けられたマーカを抽出すると共に、当該マーカの位置を抽出する。ID領域検出部8は、文字領域抽出部3が生成したヒストグラムと、あらかじめ記憶されたサンプル画像中のヒストグラムとを比較し、類似度αを算出する。同様に、マーカ抽出部7が抽出したマーカの位置と、サンプル画像中のマーカ位置とを比較し、類似度βを算出する。類似度として、例えば対応する点同士の距離の和を用いるなどが考えられる。
【0030】
次に、
図10を参照しながらID領域検出部8によるヒストグラムの比較方法について説明する。
図10は、実施の形態2による帳票識別装置のID領域検出部によるヒストグラムの比較を示す図である。
図10(a)は文字領域抽出部3が生成したヒストグラムを示し、
図10(b)はID領域検出部8がヒストグラムに基づいて生成した線分を示している。
図10(a)で示した各ヒストグラム21a,21b,21cについて、ID領域検出部8はピーク位置およびヒストグラムの大きさを算出する。算出したピーク位置およびヒストグラムの大きさが
図12(b)に示すように線分21d,21e,21fで表わされる。当該線分21d,21e,21fとサンプル画像中のヒストグラムの線分とを比較することにより、ヒストグラムの類似度αを算出する。
【0031】
一般的に、スキャナあるいはFAXで受信した画像においては、抽出した文字領域やマーカなどが全く異なる位置に存在することは少ない。そのため、ID領域検出部8は帳票の補正画像とあらかじめ記憶したサンプル画像間で文字領域やマーカなどの配置位置の差分に基づいて、ヒストグラムの類似度αおよびマーカ位置の類似度βを算出し、算出した類似度αと類似度βとを比較し、類似度がより高い(より近似する位置情報を有する)文字領域あるいはマーカを入力画像に対してより精度よく検出できたと判定し、ID領域(識別子領域)の検出に用いる。
【0032】
ID認識部(識別子認識部)6´は、ID領域検出部8が検出したID領域に記述されたID(識別子)を取得し、入力された帳票を識別する。
図11は、実施の形態2による帳票識別装置のID認識部が読み取るIDの一例を示す図である。
図11(a)はIDが数字で示されている場合を示し、
図11(b)はIDが棒の本数で示されている場合を示している。
【0033】
次に、帳票識別装置20の動作について説明する。
図12は、実施の形態2の帳票識別装置の動作を示すフローチャートである。なお、以下では実施の形態1に係る帳票識別装置10と同一のステップには
図5で使用した符号と同一の符号を付し、説明を省略または簡略化する。
ステップST5において画像補正部2が画像補正を行うと、文字領域抽出部3は補正画像に対してステップST6からステップST8の処理を行い、ヒストグラム生成および文字領域の抽出を行う。また、ステップST6からステップST8の処理と並列して、マーカ抽出部7は補正画像に対してマーカおよびマーカ位置の抽出を行う(ステップST21)。
【0034】
ID領域検出部8は、ステップST6からステップST8において文字領域抽出部3が生成したヒストグラムと、あらかじめ記憶したサンプル画像のヒストグラムとの類似度αを算出する(ステップST22)と共に、ステップST21においてマーカ抽出部7が抽出したマーカとサンプル画像のマーカとの類似度βを算出する(ステップST23)。さらに、ID領域検出部8はステップST22およびステップST23で算出した類似度αと類似度βを比較し、類似度がより高いヒストグラムあるいはマーカを用いて入力画像の文字位置(ctx,cty)を決定する(ステップST24)。
【0035】
ステップST23の比較処理を具体的に説明すると、類似度αが高い場合(類似度α>類似度β)にはヒストグラムにおいて正確に位置合わせができたものとして、ヒストグラムの文字領域を用いて入力画像の文字位置(ctx,cty)を決定する。
一方、類似度βが高い場合(類似度α<類似度β)にはマーカにおいて正確に位置合わせができたものとして、マーカ位置を用いて入力画像の文字位置(ctx,cty)を決定する。
【0036】
ステップST23で決定した入力画像の文字位置(ctx,cty)を用いて、以下の式(6)により入力画像とサンプル画像との位置ずれ(cdx,cdy)を検出する(ステップST25)。
式(6)において、(fx,fy)はサンプル画像上で位置合わせに用いる特徴点の位置を示し、(ctx,cty)は入力画像の文字位置を示す。
【0037】
図13は、実施の形態2の帳票識別装置のID領域検出部において文字領域を用いて位置ずれを検出する一例を示す図である。
図13(a)は入力画像22を示し、
図13(b)はサンプル画像23を示している。
図13(a)は入力画像22の文字領域22aおよびID領域22bを示し、文字領域22aの文字位置が(ctx,cty)であることを示している。
図13(b)はサンプル画像23の文字領域23aおよびID領域23bを示し、文字領域23aの位置が(fx,fy)であることを示している。
【0038】
なお、入力画像において文字領域が複数存在する場合は、複数の文字領域の文字位置の平均値を入力画像とサンプル画像との位置ずれとする。その場合、以下の式(7)に基づいて文字位置の平均値を算出する。
【0039】
ID領域検出部8は、ステップST25で検出した入力画像とサンプル画像とのずれを用いて以下の式(8)に基づいて、入力画像中のID領域の左上の座標(sx,sy)を決定する(ステップST26)。
【0040】
さらに、入力画像中のID領域の大きさを以下の式(9)に基づいて決定する(ステップST27)。
式(9)において、sw,shはサンプル画像中のID領域の縦横の長さを示し、IDw,IDhは入力画像中のID領域の縦横の長さを示す。
【0041】
ID認識部6は、ステップST27で大きさが決定された入力画像中のID領域からIDを取得し、帳票識別装置20に入力された帳票を識別し(ステップST28)、処理を終了する。
なお、ID領域のIDが数字などの文字で構成されている場合、例えば上述した参考文献2の手法を適用してIDを認識することができる。
【0042】
なお、上述したステップST26からステップST28では、
図13に基づいて文字領域を用いてID領域を決定する構成を示したが、マーカにおいて正確に位置合わせができた場合には当該マーカを用いてID領域を決定する。
【0043】
以上のように、この実施の形態2によれば、補正画像に対してヒストグラムを生成して文字領域の抽出を行う文字領域抽出部3と、補正画像に対してマーカの抽出を行うマーカ抽出部7と、抽出したヒストグラムとサンプル画像のヒストグラムの類似度と、抽出したマーカとサンプル画像のマーカの類似度を比較してより類似度が高い特徴点を用いてID領域を検出するID領域検出部8と、検出したID領域からIDを取得して帳票を識別するID認識部6´とを備えるように構成したので、ID領域の検出精度を向上させることができる。
【0044】
なお、上述した実施の形態2では、ID領域検出部8によるID領域の検出に文字位置とマーカ位置とを用いる構成を示したが、文字位置とマーカ位置に限定されることなく、マーカ位置と罫線位置など各帳票において位置が変化しない要素を特徴点として用いるように構成してもよい。
【0045】
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。