(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-02
(45)【発行日】2024-08-13
(54)【発明の名称】OCR処理装置、OCR処理方法、及びプログラム
(51)【国際特許分類】
G06V 30/164 20220101AFI20240805BHJP
G06K 11/00 20060101ALI20240805BHJP
【FI】
G06V30/164
G06K11/00
(21)【出願番号】P 2020157543
(22)【出願日】2020-09-18
【審査請求日】2023-03-17
(73)【特許権者】
【識別番号】000136136
【氏名又は名称】株式会社PFU
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】豊田 裕史
(72)【発明者】
【氏名】岸川 直樹
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開平07-013996(JP,A)
【文献】関 峰伸、永崎 健、丸川 勝美,帳票読取りにおける印字ずれデータと読取り枠の対応付け方式,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2006年02月16日,第105巻,P.13-18
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00-30/424
G06K 11/00
(57)【特許請求の範囲】
【請求項1】
入力画像から、OCR処理する画像領域
として四角形の形状を有する矩形領域を特定する領域特定部と、
前記領域特定部により特定された
矩形領域内の左上又は右上隅に存在する有色画素の塊を特定し、この塊の下端位置を基準として、除外すべき画像要素を特定する除外要素特定部と、
前記除外要素特定部により特定された画像要素を除外して、前記画像領域に対してOCR処理を行うOCR処理部と
を有するOCR処理装置。
【請求項2】
前記除外要素特定部により特定された画像要素を、背景色で塗り潰す除外処理部
をさらに有し、
前記OCR処理部は、前記除外処理部により背景色で一部が塗り潰された画像領域に対して、OCR処理を行う
請求項1に記載のOCR処理装置。
【請求項3】
入力画像から、OCR処理する画像領域
として四角形の形状を有する矩形領域を特定する領域特定ステップと、
前記領域特定ステップにより特定された
矩形領域内の左上又は右上隅に存在する有色画素の塊を特定し、この塊の下端位置を基準として、除外すべき画像要素を特定する除外要素特定ステップと、
前記除外要素特定ステップにより特定された画像要素を除外して、前記画像領域に対してOCR処理を行うOCR処理ステップと
を有するOCR処理方法。
【請求項4】
入力画像から、OCR処理する画像領域
として四角形の形状を有する矩形領域を特定する領域特定ステップと、
前記領域特定ステップにより特定された
矩形領域内の左上又は右上隅に存在する有色画素の塊を特定し、この塊の下端位置を基準として、除外すべき画像要素を特定する除外要素特定ステップと、
前記除外要素特定ステップにより特定された画像要素を除外して、前記画像領域に対してOCR処理を行うOCR処理ステップと
をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、OCR処理装置、OCR処理方法、及びプログラムに関するものである。
【背景技術】
【0002】
例えば、特許文献1には、文書から読み取った画像データを入力する画像入力部1と、画像入力部1より入力された画像データを記憶する画像メモリ部2と、画像メモリ部2の画像データから文字列を認識するための文字列領域を検出するレイアウト解析部3と、文字認識用の辞書7と、レイアウト解析部3により検出された文字列領域に対して、辞書7を利用して文字認識を行うことで文字コードを得る文字認識部4と、文字コードに含まれる微小要素の情報が登録された微小要素データベース5と、文字認識結果の文字コードをキーにして微小要素データベース5を参照して文字コードに微小要素が含まれるか否かを判定し、微小要素が含まれる文字コードに対して微小要素を除外して画像メモリ部2の画像データからノイズ成分を除去する画像処理部6とを備える画像処理装置が開示されている。
【0003】
また、特許文献2には、処理対象画像から文字を含む認識対象領域を抽出する認識対象切出し装置であって、処理対象画像を表示する表示手段と、前記表示手段で表示された処理対象画像で、認識対象領域の輪郭を指定し得る認識領域指定手段と、前記認識対象領域指定手段によって指定された輪郭における、前記処理対象画像の画素の色と、前記認識対象領域内の画素の色とを比較する比較手段と、前記比較手段によって比較した画素の色の差が所定値以内のときに、前記認識対象領域の画素の色を所定の変換色に変換する色変換手段と、を備えた認識対象切出し装置が開示されている。
【0004】
また、特許文献3には、抽出した画像領域において、行罫線及び列罫線の少なくともいずれかに接触する所望の画素群に対してラベリングを行なうことによって、該画素群が罫線の一部を構成する画素であるか識別して、前記画像領域から、該罫線の一部を構成する画素を除去する画像処理装置が開示されている。
【0005】
また、特許文献4には、罫線の直交部分を認識して消去し(302,303)、罫線のベクトル方向に処理位置を移動しつつ、処理位置において直交する黒ランの長さを罫線太さと比較し(309)、罫線太さ以外の長さの黒ランは消去し(310)、罫線太さより相当に長い黒ランは消去せず(312)、それより短い黒ランについては罫線との重心のずれを検出し(313)、重心のずれが大きいときには、その重心のずれ方向と反対の端側を部分的に消去する罫線消去方法が開示されている。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2006-106903
【文献】特開2005-267480
【文献】特開2003-016385
【文献】特開平10-254991
【発明の概要】
【発明が解決しようとする課題】
【0007】
特定の帳票について、文字認識処理(OCR処理)の精度を顕著に向上させたOCR処理装置を提供する。
【課題を解決するための手段】
【0008】
本発明に係るOCR処理装置は、入力画像から、OCR処理する画像領域を特定する領域特定部と、前記領域特定部により特定された画像領域から、当該画像領域内における位置に基づいて、除外すべき画像要素を特定する除外要素特定部と、前記除外要素特定部により特定された画像要素を除外して、前記画像領域に対してOCR処理を行うOCR処理部とを有する。
【0009】
好適には、前記除外要素特定部により特定された画像要素を、背景色で塗り潰す除外処理部をさらに有し、前記OCR処理部は、前記除外処理部により背景色で一部が塗り潰された画像領域に対して、OCR処理を行う。
【0010】
好適には、前記領域特定部は、入力画像の中から、四角形の形状を有する矩形領域を特定し、前記除外要素特定部は、特定された矩形領域内の左上又は右上の画像要素を除外画像要素として特定する。
【0011】
好適には、前記除外要素特定部は、特定された矩形領域内の左上隅又は右上隅に存在する有色画素の塊を特定し、この塊の下端位置を基準として、除外する画像要素を決定する。
【0012】
また、本発明に係るOCR処理方法は、入力画像から、OCR処理する画像領域を特定する領域特定ステップと、前記領域特定ステップにより特定された画像領域から、当該画像領域内における位置に基づいて、除外すべき画像要素を特定する除外要素特定ステップと、前記除外要素特定ステップにより特定された画像要素を除外して、前記画像領域に対してOCR処理を行うOCR処理ステップとを有する。
【0013】
また、本発明に係るプログラムは、入力画像から、OCR処理する画像領域を特定する領域特定ステップと、前記領域特定ステップにより特定された画像領域から、当該画像領域内における位置に基づいて、除外すべき画像要素を特定する除外要素特定ステップと、前記除外要素特定ステップにより特定された画像要素を除外して、前記画像領域に対してOCR処理を行うOCR処理ステップとをコンピュータに実行させる。
【発明の効果】
【0014】
特定の帳票について、文字認識処理(OCR処理)の精度を顕著に向上させたOCR処理装置を提供する。
【図面の簡単な説明】
【0015】
【
図1】画像処理システム1の全体構成を例示する図である。
【
図2】OCR処理装置2のハードウェア構成を例示する図である。
【
図3】OCR処理装置2の機能構成を例示する図である。
【
図4】OCR処理装置2による情報抽出処理(S1)を説明するフローチャートである。
【
図5】
図4のノイズ除去処理(S20)をより詳細に説明するフローチャートである。
【
図6】情報抽出処理(S1)による対象領域の処理例である。
【
図7】ノイズ除去処理(S20)による対象領域(セル)の処理例である。
【
図8】ノイズ除去処理(S20)による対象領域(二段書き)の処理例である。
【発明を実施するための形態】
【0016】
[背景]
本発明がなされた背景を説明する。
日本国内における帳票の特徴として、値を入力する欄を、罫線で囲みセル(矩形)状にする文化がある。
その上で、特定の分野(公共、金融など)の帳票では、
図6(A)に例示するように、セル内部に単位を表す文字や、帳票内の番号が印字されることがある(本願では、これらをノイズと呼ぶ)。OCR(Optical Character Recognition)処理は、対象領域として、セルを目印に使用することが多いが、このとき、セル内のノイズ部分が邪魔なため、除外する必要がある。
【0017】
OCR観点でのアプローチは、次の2点がある。
・特定領域の除外
OCRの一般論として、OCR対象の帳票レイアウトごとに、どの領域を読み取るかを、事前に指定することが多い(本方式を定型OCRと呼ぶ)。定型OCRでは、読み取りの領域を指定する際に、特定の領域をOCR領域から除外する設定を合わせて行い、ノイズを除外するアプローチがある。しかしながら、準定型OCRや非定型OCRと呼ばれる帳票レイアウトに依存しない処理方式では、このアプローチは採用できない。
・文字認識後に特定文字を結果から除外
ノイズも含めて認識した後に、OCR結果から「点」や「円」などの文字を除外するアプローチが考えられる。本アプローチの問題点は、文字認識に失敗し、認識結果が誤った文字となった場合、除外することができないことである。例えば、ノイズには〇で囲まれた文字など、一般的なOCR処理で読み取り対象となる文字以外が対象となるため、誤った認識結果となる可能性が高い。
【0018】
次に、ノイズ除去という観点について、従来技術では、文字以外のノイズ除去(ドットや線)を対象としたものが多く、文字を対象にしたノイズ除去は汎用化されていない。本発明では、準定型OCRや非定型OCRにも適用可能な、特定帳票向けのノイズ除去により、認識精度を向上させる。
具体的には、セルの左右上端に存在する文字は、必ずノイズであるとみなし、更に左右上端のノイズに対して、同じ高さにある文字もノイズであるとみなす。
ただし、一定の間隔で有色画素塊が横方向(X軸方向)に連続して続く場合、対象領域は、OCR対象の文字である可能性が高いため、対象の黒画素について、部分的にノイズとみなされた場合は、該当部分はノイズとして扱わない。その後、ノイズとして抽出した領域を白く塗りつぶすことで、ノイズを除去する。
ここで、有色画素とは、背景色と視覚で区別可能な色の画素であり、有色画素塊は、互いに連続する有色画素の塊である。本例では、白色の背景に黒色の文字が記載された帳票を具体例として説明する。
【0019】
図1は、画像処理システム1の全体構成を例示する図である。
図1に例示するように、画像処理システム1は、OCR処理装置2と、複数のスキャナ装置4とを含み、これらは互いにネットワーク7で接続している。なお、本例では、OCR処理装置2とスキャナ装置4がネットワーク7で接続している形態を説明するが、これに限定されるものではなく、例えば、USB(Universal Serial Bus)ケーブルを介してスキャナ装置4が直接OCR処理装置2に接続してもよいし、スキャナ装置4がUSBケーブルを介してコンピュータ端末に接続し、このコンピュータ端末を経由してOCR処理装置2に画像データを送信してもよい。
OCR処理装置2は、後述するOCR処理プログラム3(
図3)が動作するコンピュータ端末であり、スキャナ装置2から受信した入力画像(本例では、帳票のスキャンデータ)に対して、ノイズを除外してOCR処理を行う。
スキャナ装置4は、原稿(帳票)から画像を読み取る画像読取装置である。
ネットワーク7は、例えば、LAN(Local Area Network)である。
【0020】
図2は、OCR処理装置2のハードウェア構成を例示する図である。
図2に例示するように、OCR処理装置2は、CPU200、メモリ202、HDD204、ネットワークインタフェース206(ネットワークIF206)、表示装置208、及び、入力装置210を有し、これらの構成はバス212を介して互いに接続している。
CPU200は、例えば、中央演算装置である。
メモリ202は、例えば、揮発性メモリであり、主記憶装置として機能する。
HDD204は、例えば、ハードディスクドライブ装置であり、不揮発性の記録装置としてコンピュータプログラム(例えば、
図3のOCR処理プログラム3)やその他のデータファイルを格納する。
ネットワークIF206は、有線又は無線で通信するためのインタフェースである。
表示装置208は、例えば、液晶ディスプレイである。
入力装置210は、例えば、キーボード及びマウスである。
【0021】
図3は、OCR処理装置2の機能構成を例示する図である。
図3に例示するように、OCR処理装置2には、OCR処理プログラム3がインストールされる。OCR処理プログラム3は、例えば、CD-ROM等の記録媒体に格納されており、この記録媒体を介して、OCR処理装置2にインストールされる。
OCR処理プログラム3は、領域特定部300、除外要素特定部310、除外処理部320、及びOCR処理部330を有する。除外要素特定部310は、有色画素塊特定部312及び基準判定部314を含む。
なお、OCR処理プログラム3の一部又は全部は、ASICなどのハードウェアにより実現されてもよく、また、OS(Operating System)の機能を一部借用して実現されてもよい。
【0022】
OCR処理プログラム3において、領域特定部300は、入力画像から、OCR処理する画像領域(対象領域)を特定する。例えば、領域特定部300は、入力画像から罫線を探索し、発見された罫線に囲まれた画像領域の中から、OCR処理の対象領域(セル)を決定する。また、領域特定部300は、帳票の定義情報に基づいて、OCR処理の対象領域(セル)を特定してもよい。
【0023】
除外要素特定部310は、領域特定部300により特定された画像領域から、当該画像領域内における位置に基づいて、除外すべき画像要素を特定する。例えば、除外要素特定部310は、領域特定部300により特定された矩形領域内の左上又は右上の画像要素(有色画素塊)を、除外画像要素として特定する。
【0024】
より具体的には、有色画素塊特定部312は、領域特定部300により特定された画像領域から、有色画素塊(本例では、黒ラン)を特定する。
基準判定部314は、有色画素塊特定部312により特定された有色画素塊の、特定された対象領域における位置に基づいて、特定された有色画素塊の中から、除外画像要素を決定する。具体的には、基準判定部314は、有色画素塊特定部312により特定された有色画素塊の中から、対象領域内の左上隅に存在する有色画素塊と、対象領域内の右上隅に存在する有色画素塊とを、除外画像要素として決定し、かつ、左上隅の有色画素塊又は右上隅の有色画素塊の下端位置を基準として、他の有色画素塊の中から、除外画像要素を決定する。
【0025】
除外処理部320は、除外要素特定部310により特定された画像要素(ノイズ)を背景色で塗り潰して、ノイズを除去する。例えば、除外処理部320は、除外要素特定部310により特定された画像要素(ノイズ)を白色で塗り潰す。また、除外処理部320は、除外要素特定部310により特定された画像要素(ノイズ)を、この画像要素の近傍の色(平均画素値)で塗り潰してもよい。
【0026】
OCR処理部330は、除外処理部320によりノイズが除外された入力画像に対して、OCR処理を行う。本例のOCR処理部330は、除外処理部320によりノイズが除去された対象領域(セル)に対して、OCR処理を行う。
【0027】
図4は、OCR処理装置2による情報抽出処理(S1)を説明するフローチャートである。
図4に例示するように、ステップ10(S10)において、OCR処理装置2のOCR処理プログラム3(
図3)は、スキャナ装置4から帳票のスキャン画像データを受信すると、OCR処理プログラム3の領域特定部300は、受信したスキャン画像データの中から、
図6(A)に例示するように、OCR処理の対象となる対象領域(セル)を特定する。
【0028】
ステップ20(S20)において、除外要素特定部310は、領域特定部300により特定された対象領域(セル)の中から、除外すべき画像要素(ノイズ)を特定する。
除外処理部320は、
図6(B)に例示するように、除外要素特定部310により特定された画像要素(ノイズ)を白色で塗り潰して、対象領域からノイズを除去する。
【0029】
ステップ30(S30)において、OCR処理部330は、除外処理部320によりノイズが除去された対象領域に対して、OCR処理を実施して、
図6(C)に例示するように、OCR処理結果を得る。
【0030】
図5は、
図4のノイズ除去処理(S20)をより詳細に説明するフローチャートである。
図7は、ノイズ除去処理(S20)による対象領域(セル)の処理例である。
図5に例示するように、ステップ200(S200)において、有色画素塊特定部312は、領域特定部300により特定された対象領域(セル)に対して、二値化処理を施す。
ステップ210(S210)において、有色画素塊特定部312は、
図7(A)に例示するように、二値化した対象領域に対してラベリングを行い、互いに連続する黒色画素の塊(有色画素塊)を特定する。なお、
図7(B)に例示するように、1つの画像要素(〇に囲まれたB)が、ラベリングの結果、複数に分離することもある。この場合、有色画素特定部312は、互いの距離が閾値以下のものを結合して、1つの黒色画素塊(黒ラン)にする。
【0031】
ステップ220(S220)において、基準判定部314は、有色画素塊特定部312により特定された黒色画素塊(黒ラン)の中から、対象領域内の左上隅及び右上隅に存在する黒色画素塊を、除外画像要素として抽出する。
ステップ230(S230)において、基準判定部314は、
図7(C)に例示するように、対象領域の左上隅及び右上隅に存在する黒色画素塊の下端を基準位置として、この基準位置よりも上(Y軸方向の上方)に存在する黒色画素塊(黒ラン)を、除外画像要素として抽出する。
【0032】
ステップ240(S240)において、基準判定部314は、基準位置よりも上に存在する黒色画素塊に関して、X軸方向(帳票の左右方向)の離間距離(最も近い他の黒ランまでの距離)を算出し、いずれの離間距離も既定の離間基準値以上である黒色画素塊を、除外画像要素として確定し、いずれかの離間距離が離間基準値未満である黒色画素塊(黒ラン)を除外画像要素から外す。X軸方向の離間距離が短い場合には、ノイズではなく、入力文字列である可能性が高いからである。
ステップ250(S250)において、除外処理部320は、
図7(D)に例示するように、基準判定部314により除外画像要素であるとして抽出された黒色画素塊を背景色(白色)で塗り潰す。
【0033】
図8は、ノイズ除去処理(S20)による他の処理例である。
図8(A)に例示するように、対象領域内の左上隅及び右上隅の黒色画素塊(黒ラン)の下端部よりも上に、数字「100,000」が記載されていた場合、S230の処理において、一旦は、除外画像要素として抽出されるが、S240において、これら数字のX軸方向の離間距離が離間基準値未満となるため、除外画像要素から外され、
図8(B)に例示するように、OCR処理の対象として残る。
【0034】
以上説明したように、本実施形態の画像処理システム1によれば、OCR処理の対象となる矩形領域内の左上隅又は右上隅に存在する画像要素(黒ラン)を決め打ちでOCR処理から除外することにより、特定の帳票に関して、高確率でノイズを除去し、OCR処理の精度を向上させることができる。
また、矩形領域内の左上隅又は右上隅に存在する画像要素の他にもノイズが存在しうるため、本例のOCR処理装置2は、矩形領域内の左上隅又は右上隅に存在する画像要素(黒ラン)の下端部を基準にして、これよりも上に存在する画像要素(黒ラン)をノイズとして除去する。
【符号の説明】
【0035】
1 画像処理システム
2 OCR処理装置
3 OCR処理プログラム
4 スキャナ装置