(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023136551
(43)【公開日】2023-09-29
(54)【発明の名称】画像処理装置、画像処理方法及び画像処理プログラム
(51)【国際特許分類】
G06V 30/14 20220101AFI20230922BHJP
【FI】
G06V30/14 340A
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2022042281
(22)【出願日】2022-03-17
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100089118
【弁理士】
【氏名又は名称】酒井 宏明
(72)【発明者】
【氏名】吉田 淳
【テーマコード(参考)】
5B029
【Fターム(参考)】
5B029AA01
5B029CC22
5B029CC23
5B029CC25
(57)【要約】 (修正有)
【課題】画像に含まれる文字が手書きである場合であっても認識領域を正しく設定する画像処理装置、画像処理方法及び画像処理プログラムを提供する。
【解決手段】MFPにおいて、操作部30の画像処理機能は、画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定部303と、文字判定部303により認識領域に記載された文字が手書きであると判定された場合に、認識領域のサイズを変更する第1補正部305と、文字判定部303により認識領域に記載された文字が活字であると判定された場合に、認識領域の位置を移動させる第2補正部308と、を備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定部と、
前記文字判定部により前記認識領域に記載された文字が手書きであると判定された場合に、前記認識領域のサイズを変更する第1補正部と、
前記文字判定部により前記認識領域に記載された文字が活字であると判定された場合に、前記認識領域の位置を移動させる第2補正部と
を備えたことを特徴とする画像処理装置。
【請求項2】
前記認識領域に記載された文字が手書きであると判定された場合に、当該文字が前記認識領域からはみ出しているか否かを判定するはみ出し判定部
をさらに備え、
前記第1補正部は、
前記はみ出し判定部により前記認識領域に記載された文字がはみ出していると判定された場合に、前記認識領域のサイズを変更する
ことを特徴とする請求項1に記載の画像処理装置。
【請求項3】
前記はみ出し判定部は、
前記認識領域の境界から所定の範囲内に画素データが存在する場合に、前記認識領域に記載された文字がはみ出していると判定する
ことを特徴とする請求項2に記載の画像処理装置。
【請求項4】
前記認識領域に記載された文字が活字であると判定された場合に、当該文字が前記画像に予め印字された文字であるか、前記画像に追記された文字であるかを判定する追記判定部と、
前記追記判定部により、前記認識領域に記載された文字が、前記画像に追記された文字であると判定された場合に、前記認識領域からの当該文字のずれ量を算出する算出部と
をさらに備え、
前記第2補正部は、
前記算出部による算出されたずれ量に応じて、前記認識領域の位置を移動させる
ことを特徴とする請求項1から3のうちいずれか1つに記載の画像処理装置。
【請求項5】
前記追記判定部は、
前記認識領域に記載された文字の前記認識領域内における位置、当該文字の文字色、当該文字のフォント種、並びに、当該文字のフォントサイズのうち少なくともいずれかに基づいて、当該文字が前記画像に予め印字された文字であるか、前記画像に追記された文字であるかを判定する
ことを特徴とする請求項4に記載の画像処理装置。
【請求項6】
画像処理装置で実行される画像処理方法であって、
画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定工程と、
前記文字判定工程により前記認識領域に記載された文字が手書きであると判定された場合に、前記認識領域のサイズを変更する第1補正工程と、
前記文字判定工程により前記認識領域に記載された文字が活字であると判定された場合に、前記認識領域の位置を移動させる第2補正工程と
を含むことを特徴とする画像処理方法。
【請求項7】
画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定手順と、
前記文字判定手順により前記認識領域に記載された文字が手書きであると判定された場合に、前記認識領域のサイズを変更する第1補正手順と、
前記文字判定手順により前記認識領域に記載された文字が活字であると判定された場合に、前記認識領域の位置を移動させる第2補正手順と
を画像処理装置に実行させることを特徴とする画像処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。
【背景技術】
【0002】
MFP(Multifunction Peripheral/Printer/Product)やスキャナで読み取った帳票や文書などの画像から、文字が印字された領域を抽出し、種類を認識する文字認識処理(OCR)という技術がある。このような技術では、文字が印字された領域を正確に抽出するために、原稿から表の枠線等の特徴的な領域を抽出して文字認識が行われる認識領域を設定する場合や、認識領域を手動で設定する場合がある。しかし、予め印字された枠線に必要事項のみ追記する原稿の場合、印字ずれなどにより事前に設定した認識領域外に文字が出てしまうことがある。そこで、読み取った原稿の印字のずれを検出して、認識領域を補正する技術が知られている。
【0003】
このような技術の一例として、例えば、特許文献1には、枠線を含む文書をスキャナで電子化した画像中の印字データを読取る方法において、データが印字されない領域に混入した印字ずれデータの検出と、枠の領域と印字ずれデータの外接矩形の重なり度の算出と、2つの枠を仕切る枠線の位置と重なった文字の位置と枠の中心位置との関係と、印字ずれデータの外接矩形の大きさと枠の大きさと、大局的な印字ずれ方向とを利用することで、印字ずれデータがどの枠からはみ出した印字データであるかを判別する技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、文字認識の対象が、ずれ方が一律である活字である場合、大局的なずれの検出から、文字と認識領域の対応付けが可能だが、文字認識の対象が、ずれ方が一律でない手書きの文字の場合は、認識領域を正しく設定できず、誤認識が発生し易いという問題点があった。
【0005】
本願は、上記に鑑みてなされたものであって、画像に含まれる文字が手書きである場合であっても認識領域を正しく設定することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明は、画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定部と、前記判定部により前記認識領域に記載された文字が手書きであると判定された場合に、前記認識領域のサイズを変更する第1補正部と、前記判定部により前記認識領域に記載された文字が活字であると判定された場合に、前記認識領域の位置を移動させる第2補正部とを備えたことを特徴とする。
【発明の効果】
【0007】
本発明によれば、画像に含まれる文字が手書きである場合であっても認識領域を正しく設定することができるといった効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る画像処理システム1の構成の一例を示す図である。
【
図2】
図2は、実施形態に係るMFP10のハードウェア構成例を示した図である。
【
図3】
図3は、操作部30の画像処理機能に関するモジュール構成を示すブロック図である。
【
図4】
図4は、MFP10による画像処理の流れを示すフローチャートである。
【
図5】
図5は、手書きされた文字を含む原稿を示す画像の例を示す図である。
【
図6】
図6は、はみ出し判定部304による判定の例を示す図である。
【
図7】
図7は、第1補正部305による認識領域の補正の例を示す図である。
【
図8】
図8は、追記判定部306による判定の例を示す図である。
【
図9】
図9は、認識領域からずれて印字された文字列の矩形の抽出の例を示す図である。
【
図10】
図10は、算出部307によるずれ量の算出の例を示す図である。
【
図11】
図11は、第2補正部308による認識領域の補正の例を示す図である。
【発明を実施するための形態】
【0009】
以下に添付図面を参照して、画像処理装置、画像処理方法及び画像処理プログラムの実施の形態を詳細に説明する。下記に示す実施の形態においては、本発明の画像処理装置が複合機(MFP)である場合を例に取り説明するが、これに限定されるものではない。なお、複合機とは、印刷機能、複写機能、スキャナ機能、及びファクシミリ機能のうち少なくとも2つの機能を有する装置である。
【0010】
(実施形態)
まず、
図1を用いて、実施形態に係る画像処理装置(MFP)10を含む画像処理システム1全体の概要について説明する。
図1は、実施形態に係る画像処理システム1の構成の一例を示す図である。
図1に示すように、画像処理システム1は、MFP10と、PC(Personal Computer)11と、サーバ12と、記憶装置13とを含む。MFP10、PC(Personal Computer)11、サーバ12及び記憶装置13は、ネットワーク14を介して接続されている。ネットワーク14としては、例えば、LAN(Local Area Network)やインターネットなどが挙げられる。なお、
図1に示した画像処理システム1には、複数台のMFP10、複数台のPC(Personal Computer)11、複数台のサーバ12及び複数台の記憶装置13が含まれていてもよい。
【0011】
MFP10は、原稿を読み取り、当該原稿を示す画像に含まれる文字の認識処理を実行する。また、文字の認識処理が行われる領域である認識領域に関する情報が、読み取る原稿に対して設定されていない場合、MFP10は、認識領域の抽出を行う。
【0012】
PC11は、ユーザによって利用される情報処理装置である。例えば、PC11は、MFP10による認識処理の認識結果をユーザが確認するために用いられる。また、PC11は、認識領域の修正をユーザが行うために用いられる。
【0013】
なお、文字の認識処理や認識領域の設定は、PC11やサーバ12が、MFP10により読み取られた原稿を示す画像を、MFP10から受信して実行してもよい。また、認識領域の設定は、MFP10が原稿の読み取りと同時に自動で行わず、画像を見ながらユーザが手動でMFP10を操作することにより行われてもよい。
【0014】
また、認識結果や認識領域に関する情報は、基本的にPC11やサーバ12に保存されるが、外部の記憶装置13に保存しておくことも可能である。
【0015】
次に、
図2を用いて、実施形態に係るMFP10の構成について説明する。
図2は、実施形態に係るMFP10のハードウェア構成例を示した図である。
図2に示すように、複合機であるMFP10は、コピー機能、スキャナ機能、ファクス機能、プリンタ機能などの各種の機能を実現可能な本体20と、ユーザの操作を受け付ける操作部30とを備える。なお、ユーザの操作を受け付けるとは、ユーザの操作に応じて入力される情報(画面の座標値を示す信号等を含む)を受け付けることを含む概念である。本体20と操作部30とは、専用の通信路100を介して相互に通信可能に接続されている。通信路100は、例えばUSB(Universal Serial Bus)規格のものを用いることもできるが、有線か無線かを問わず任意の規格のものであってよい。
【0016】
なお、本体20は、操作部30で受け付けた操作に応じた動作を行うことができる。また、本体20は、クライアントPC等の外部装置(例えば、PC11)とも通信可能であり、外部装置から受信した指示に応じた動作を行うこともできる。
【0017】
まず、本体20のハードウェア構成について説明する。
図2に示すように、本体20は、CPU21と、ROM22と、RAM23と、HDD(ハードディスクドライブ)24と、通信I/F(インタフェース)25と、接続I/F26と、エンジン部27とを備える。CPU21と、ROM22と、RAM23と、HDD24と、通信I/F25と、接続I/F26と、エンジン部27とは、システムバス28を介して相互に接続されている。
【0018】
CPU21は、本体20の動作を統括的に制御する。CPU21は、RAM23をワークエリア(作業領域)としてROM22またはHDD24等に格納されたプログラムを実行することで、本体20全体の動作を制御し、上述したコピー機能、スキャナ機能、ファクス機能、プリンタ機能などの各種機能を実現する。
【0019】
通信I/F25は、ネットワーク14と接続するためのインタフェースである。接続I/F26は、通信路100を介して操作部30と通信するためのインタフェースである。
【0020】
エンジン部27は、コピー機能、スキャナ機能、ファクス機能、および、プリンタ機能を実現させるための、汎用的な情報処理及び通信以外の処理を行うハードウェアである。エンジン部27は、例えば、原稿の画像をスキャンして読み取るスキャナ(画像読取部)、用紙等のシート材への印刷を行うプロッタ(画像形成部)、ファクス通信を行うファクス部などを備えている。更に、エンジン部27は、印刷済みシート材を仕分けるフィニッシャや、原稿を自動給送するADF(自動原稿給送装置)のような特定のオプションを備えることもできる。
【0021】
次に、操作部30のハードウェア構成について説明する。
図2に示すように、操作部30は、CPU31と、ROM32と、RAM33と、フラッシュメモリ34と、通信I/F35と、接続I/F36と、操作パネル37とを備える。CPU31と、ROM32と、RAM33と、フラッシュメモリ34と、通信I/F35と、接続I/F36と、操作パネル37とは、システムバス38を介して相互に接続されている。
【0022】
CPU31は、操作部30の動作を統括的に制御する。CPU31は、RAM33をワークエリア(作業領域)としてROM32またはフラッシュメモリ34等に格納されたプログラムを実行することで、操作部30全体の動作を制御し、ユーザから受け付けた入力に応じた情報(画像)の表示などの後述する各種機能を実現する。
【0023】
通信I/F35は、ネットワーク14と接続するためのインタフェースである。接続I/F36は、通信路100を介して本体20と通信するためのインタフェースである。
【0024】
操作パネル37は、ユーザの操作に応じた各種の入力を受け付けるとともに、各種の情報(例えば受け付けた操作に応じた情報、MFP10の動作状況を示す情報、設定状態などを示す情報など)を表示する。この例では、操作パネル37は、タッチパネル機能を搭載した液晶表示装置(LCD)で構成されるが、これに限られるものではない。例えば、操作パネル37は、タッチパネル機能が搭載された有機EL表示装置で構成されてもよい。さらに、操作パネル37は、これに加えて又はこれに代えて、ハードウェアキー等の操作部やランプ等の表示部を設けることもできる。
【0025】
本実施形態のMFP10の操作部30で実行される画像処理プログラムは、ROM等に予め組み込まれて提供される。
【0026】
なお、本実施形態のMFP10の操作部30で実行される画像処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。
【0027】
また、本実施形態のMFP10の操作部30で実行される画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態のMFP10の操作部30で実行される画像処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0028】
本実施の形態のMFP10の操作部30で実行される画像処理プログラムは、後述する各部(画像受信部301、認識領域取得部302、文字判定部303、はみ出し判定部304、第1補正部305、追記判定部306、算出部307、第2補正部308及び認識領域出力部309)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記ROMから画像処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、画像受信部301、認識領域取得部302、文字判定部303、はみ出し判定部304、第1補正部305、追記判定部306、算出部307、第2補正部308及び認識領域出力部309が主記憶装置上に生成されるようになっている。
【0029】
次に、
図3を用いて、MFP10の操作部30で実行される音声補助機能について説明する。
図3は、操作部30の画像処理機能に関するモジュール構成を示すブロック図である。
【0030】
図3に示すように、本実施の形態のMFP10の操作部30で実行されるプログラムは、各部(画像受信部301、認識領域取得部302、文字判定部303、はみ出し判定部304、第1補正部305、追記判定部306、算出部307、第2補正部308及び認識領域出力部309)を含むモジュール構成となっており、実際のハードウェアとしてはCPU31がROM32またはフラッシュメモリ34等からプログラムを読み出して実行することにより上記各部がRAM33上にロードされ、画像受信部301、認識領域取得部302、文字判定部303、はみ出し判定部304、第1補正部305、追記判定部306、算出部307、第2補正部308及び認識領域出力部309がRAM33上に生成されるようになっている。
【0031】
画像受信部301は、エンジン部27により実現されるスキャナ機能により読み取られた原稿の画像を、通信路100を介して受信する。
【0032】
認識領域取得部302は、画像受信部301により受信された画像のうち、文字の認識処理が行われる領域である認識領域に関する情報を、ネットワーク14を介してPC11から取得する。また、認識領域取得部302は、原稿を示す画像を見ながらユーザが手動でMFP10を操作することにより設定した認識領域に関する情報を取得する。
【0033】
認識領域に関する情報が取得できない場合や、認識領域が未設定の場合、認識領域取得部302は、原稿を示す画像から認識領域の抽出及び設定を行ってもよい。例えば、認識領域取得部302は、画像に対して罫線抽出及び枠抽出を行い、抽出した枠を認識領域として設定する。
【0034】
ここで、罫線抽出には、例えば、水平、垂直方向の画素の連続性を抽出する手段や、水平、垂直な線を検出するフィルタをかけて抽出する手段を用いることにより実現されてもよい。また、枠抽出には、罫線の交点を見つけ、それらの位置関係から1つ1つの枠位置を抽出する手段を用いることにより実現されてもよい。また、抽出された認識領域は、ユーザが確認しながら追加、削除などの修正を行えるように構成されてもよい。
【0035】
なお、認識領域取得部302による認識領域の抽出処理及び設定処理は、上記の手法に限定されず、任意の従来技術を用いて実現されてもよい。
【0036】
文字判定部303は、画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する。例えば、文字判定部303は、画像から同じ色の画素の塊を取り出し、隣接する画素の塊を連結することで1文字単位の複数の矩形を抽出する。ここで、各文字の矩形の大きさがほぼ一定である場合、文字判定部303は、これらの文字を活字と判定する。一方で、各文字の矩形の大きさが不均一である場合、文字判定部303は、これらの文字を手書きと判定する。
【0037】
なお、文字判定部303は、他にも抽出した文字の中心位置のばらつきや、文字内で使われている線分の直線性を用いて、画像に記載された文字が手書きか活字かを判定してもよい。また、文字判定部303による文字の判定処理は、上記の手法に限定されず、任意の従来技術を用いて実現されてもよい。
【0038】
はみ出し判定部304は、認識領域に記載された文字が手書きであると判定された場合に、当該文字が認識領域からはみ出しているか否かを判定する。
【0039】
第1補正部305は、文字判定部303により認識領域に記載された文字が手書きであると判定された場合に、認識領域のサイズを変更する。また、第1補正部305は、はみ出し判定部304により認識領域に記載された文字がはみ出していると判定された場合に、認識領域のサイズを変更する。また、第1補正部305は、認識領域の境界から所定の範囲内に画素データが存在する場合に、認識領域に記載された文字がはみ出していると判定する。
【0040】
追記判定部306は、認識領域に記載された文字が活字であると判定された場合に、当該文字が画像に予め印字された文字であるか、画像に追記された文字であるかを判定する。また、追記判定部306は、認識領域に記載された文字の認識領域内における位置、当該文字の文字色、当該文字のフォント種、並びに、当該文字のフォントサイズのうち少なくともいずれかに基づいて、当該文字が画像に予め印字された文字であるか、画像に追記された文字であるかを判定する。
【0041】
算出部307は、追記判定部306により、認識領域に記載された文字が、画像に追記された文字であると判定された場合に、認識領域からの当該文字のずれ量を算出する
【0042】
第2補正部308は、文字判定部303により認識領域に記載された文字が活字であると判定された場合に、認識領域の位置を移動させる。また、第2補正部308は、算出部307による算出されたずれ量に応じて、認識領域の位置を移動させる。
【0043】
認識領域出力部309は、第1補正部305による補正結果、並びに、第2補正部308による補正結果を統合した新たな認識領域を画像に対応付け、MFP10において文字認識処理を実行するモジュール等に対し出力する。
【0044】
次に、
図4を用いて、MFP10による画像処理の流れについて説明する。
図4は、MFP10による画像処理の流れを示すフローチャートである。
図4に示すように、MFP10は、スキャナ機能により原稿を読み取る(ステップS401)。
【0045】
続いて、MFP10は、原稿を読み取った画像に設定された認識領域を取得する(ステップS402)。続いて、MFP10は、各認識領域に記載された文字が手書きであるか、活字であるかを判定する(ステップS403)。
【0046】
認識領域に記載された文字が手書きである場合(ステップS404;Yes)、MFP10は、当該認識領域のサイズを変更する(ステップS405)。
【0047】
認識領域に記載された文字が手書きではない(言い換えると、活字)である場合(ステップS404;No)、MFP10は、当該認識領域の位置を移動させる(ステップS406)。
【0048】
続いて、MFP10は、補正した認識領域を統合する(ステップS407)。
【0049】
このような本実施形態によれば、認識領域に記載された文字の種別が活字か手書きか判定したうえで、活字であれば認識領域をシフトし、手書きであれば認識領域を拡張することができるため、認識領域を正しく設定することができる。すなわち、本実施形態によれば、画像に含まれる文字が手書きである場合であっても認識領域を正しく設定することができる。
【0050】
なお、上記の実施形態では、本発明の画像処理装置を、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも2つの機能を有する複合機に適用した例を挙げて説明したが、複写機、プリンタ、スキャナ装置、ファクシミリ装置等の画像処理装置であればいずれにも適用することができる。
【0051】
(はみ出し判定部304及び第1補正部305による処理について)
次に、
図5~7を用いて、はみ出し判定部304及び第1補正部305による処理の具体例について説明する。
図5は、手書きされた文字を含む原稿を示す画像の例を示す図である。
図6は、はみ出し判定部304による判定の例を示す図である。
図7は、第1補正部305による認識領域の補正の例を示す図である。
【0052】
図5に示すように、原稿には活字で項目名が予め印字(プレ印字)されており、それに対応する内容をユーザが手書きで追記するようなものが多い。例えば、
図5(A)のように商品名が書かれていて注文したい個数を手書きで記載するようなものや、
図5(B)のように名前、住所、電話番号などを記載するようなものである。
【0053】
上述の認識領域取得部302により罫線と交点の情報を基に認識領域の抽出処理を実行すると、項目名がプレ印字された領域にはユーザによる追記が行われない(すなわち、認識領域ではない)と判定可能であるため、
図5(A)の原稿では認識領域500~503、
図5(B)の原稿では認識領域504~506がそれぞれ抽出される。プレ印字された原稿に手書きで追記する場合、個々の枠ごとに記載するため、プレ印字された原稿に活字で追記する場合のように認識領域に対してずれ方は一律にならない。一方で、ユーザは枠を見ながら追記するため、活字の場合のように2つの認識領域の中心に位置するように文字が記載されるような大きなずれも起こりづらい。
【0054】
したがって、はみ出し判定部304は、認識領域の境界周辺の画素を走査し、黒画素が存在した場合には文字のはみ出しがあると判定する。例えば、
図6の例において、はみ出し判定部304は、認識領域500内の黒画素が、領域600内において認識領域500の境界を跨ぐように存在しているため、記載された文字がはみ出していると判定する。
【0055】
一方で、はみ出し判定部304は、認識領域501内の各黒画素が、認識領域501内にのみ存在しているため、認識領域501内に記載された文字がはみ出していないと判定する。
【0056】
そして、第1補正部305は、
図7に示すように、記載された文字がはみ出していると判定された認識領域500のサイズを変更し、新たな認識領域510とする。例えば、第1補正部305は、文字のはみ出しに対応するため、認識領域500を拡大し、認識領域510とする。なお、拡大率は一律で事前に設定しされてもよく、黒画素の塊を連結して抽出した矩形(すなわち、文字)の大きさを判断してそれに合わせて拡大させてもよい。
【0057】
以上のように、第1補正部305は、記載された文字がはみ出している認識領域だけ拡大させることにより、認識領域内に収まっている文字については枠の罫線や隣接枠内に書かれた文字が含まれて認識結果にノイズが混ざるのを防ぎ、はみ出してしまっている文字については認識領域を拡大することで文字を全て認識領域内に収められ認識精度が上がることが期待できる。
【0058】
なお、第1補正部305は、認識領域内に文字が収まっている場合であっても、より認識率を向上さるため、当該文字の大きさに応じて認識領域を縮小するようにしてもよい。
【0059】
(追記判定部306、算出部307及び第2補正部308による処理について)
次に、
図8~11を用いて、追記判定部306、算出部307及び第2補正部308による処理の具体例について説明する。
図8は、追記判定部306による判定の例を示す図である。
図9は、認識領域からずれて印字された文字列の矩形の抽出の例を示す図である。
図10は、算出部307によるずれ量の算出の例を示す図である。
図11は、第2補正部308による認識領域の補正の例を示す図である。
【0060】
通常、原稿に活字で項目名がプレ印字されており、それに対応する内容をユーザが活字で追記する場合、原稿に重ねて印字しても、PCのデータ上で文字を合わせているため位置、サイズ共にずれることはない。しかし、印字の際の紙の設置位置のずれや、搬送時のエラーが発生すると、
図8に示すように、プレ印字された枠内からはみ出して印字されることがある。このように印字された活字のずれは、サイズは変わらずに一律に同じ方向にずれる。
【0061】
図8に示す画像について、上述の認識領域取得部302による認識領域の抽出処理が実行された場合、罫線と交点の情報を基に認識領域が抽出されるため、プレ印字の文字が書かれた領域703~705も、追記された文字の領域700~702もどちらも認識領域として抽出される。また、プレ印字された文字は枠と一緒に印刷されており、枠に対して位置ずれがないため、この領域も含めて印字ずれを判定してしまった場合、印字ずれ量の算出を誤る可能性がある。
【0062】
そこで、追記判定部306は、各領域内の文字がプレ印字なのか、追記された文字なのか判定する。プレ印字の文字が書かれた領域の特徴としては、項目名が記載されているため、枠の上端、もしくは左端に文字が位置している。また、プレ印字の文字は、罫線と一緒に印刷されているため、同じ色で再現されている。さらに、プレ印字の文字と追記された文字を比較した場合、領域内において異なる位置に印字されている場合や、異なる文字の文字色、フォント種、フォントサイズが使われている場合が多くある。追記判定部306は、これらの情報を用いて、領域700~702が認識領域であり、領域703~705がプレ印字された領域(すなわち、認識領域ではない)と判定する。
【0063】
図9(A)に示すように、認識領域700~702が判定された後、算出部307は、
図9(B)のように、認識領域700~702を切り出し、各領域内の黒画素を抽出する。続いて、算出部307は、
図9(C)のように、
図9(B)で抽出した黒画素と連結している黒画素を抽出する。続いて、算出部307は、
図9(D)のように、認識領域700から抽出された黒画素の塊を文字列矩形710、認識領域701から抽出された黒画素の塊を文字列矩形711、認識領域702から抽出された黒画素の塊を文字列矩形712として特定する。なお、認識領域702内には文字列矩形710に対応する「0」、文字列矩形711に対応する「10」も含まれているが、他の認識領域から検出済みの文字列矩形について、算出部307は無視するものとする。
【0064】
続いて、算出部307は、
図10に示すように、抽出した文字列矩形710~712のそれぞれから、認識領域700~702それぞれへのベクトルを算出する。ここで、ベクトルの始点は、文字列矩形710~712それぞれの左端、中央、右端のいずれかを用いるものとする。また、ベクトルの終点は、認識領域700~702それぞれの左端、中央、右端のいずれかを用いるものとする。
【0065】
文字列矩形710の場合、
図10(A)に示す3本のベクトルが算出される。また、文字列矩形711の場合、
図10(B)に示す3本のベクトルが算出される。また、文字列矩形712の場合、
図10(C)に示す3本のベクトルが算出される。
図10(A)~(C)には、いずれもベクトル800が含まれているため、算出部307は、文字列矩形710~712(言い換えると、追記された文字)のずれ量がベクトル800の逆方向のベクトルと算出する。このように、算出部307は、各文字列矩形から認識領域へのベクトルの最頻値を求めることにより、追記された文字のずれ量を算出できる。
【0066】
そして、第2補正部308は、
図11に示すように、上記のように算出されたずれ量に基づき、認識領域700~702をそれぞれ移動させ、新たな認識領域720~722とする。
【0067】
以上の処理を行うことにより、文字が認識領域内に収まり、正しく認識されることが期待できる。なお、特許文献1に開示されているように、罫線の除去と文字の補完とを実施すれば、さらに認識精度を向上させることが可能となる
【符号の説明】
【0068】
10 MFP
20 本体
30 操作部
301 画像受信部
302 認識領域取得部
303 文字判定部
304 はみ出し判定部
305 第1補正部
306 追記判定部
307 算出部
308 第2補正部
309 認識領域出力部
【先行技術文献】
【特許文献】
【0069】