(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-24
(45)【発行日】2024-08-01
(54)【発明の名称】認識方法及び認識装置
(51)【国際特許分類】
G06V 30/14 20220101AFI20240725BHJP
G06T 7/00 20170101ALI20240725BHJP
G06V 30/244 20220101ALI20240725BHJP
【FI】
G06V30/14 340A
G06T7/00 350B
G06V30/244
(21)【出願番号】P 2021026818
(22)【出願日】2021-02-22
【審査請求日】2023-03-13
(73)【特許権者】
【識別番号】000237639
【氏名又は名称】富士通フロンテック株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】馬路 武志
(72)【発明者】
【氏名】長谷川 将平
(72)【発明者】
【氏名】鴻田 昌利
(72)【発明者】
【氏名】伊澤 修一
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特開2011-076390(JP,A)
【文献】特開2007-058485(JP,A)
【文献】特開平03-074785(JP,A)
【文献】Oleksii Gorokhovatskyi et al,Neocognitron as a tool for optical marks recognition,2016 IEEE First International Conference on Data Stream Mining & Processing (DSMP),2016年08月27日,https://ieeexplore.ieee.org/document/7583533
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00-30/424
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
帳票から手書きで記入がされた第1の領域を抽出し、
前記帳票から活字が印字された第2の領域を抽出し、
前記第2の領域のうち、前記第1の領域との重複の度合いが所定の条件を満たす領域を選択
し、
前記選択する処理によって選択された領域に印字された文字列であって、あらかじめ項目名と対応付けられた選択肢に含まれる文字列を認識する
処理をコンピュータが実行することを特徴とする認識方法。
【請求項2】
前記第1の領域を抽出する処理は、手書きの図形の特徴を学習した画像認識モデルを用いて前記第1の領域を抽出することを特徴とする請求項1に記載の認識方法。
【請求項3】
前記選択する処理は、前記第2の領域のうち、前記第1の領域と重なり合う部分の面積が最大である領域を選択することを特徴とする請求項1又は2に記載の認識方法。
【請求項4】
前記認識する処理によって認識された文字列からあらかじめ指定された文字列を除外する
処理をさらにコンピュータが実行することを特徴とする請求項1から3のいずれか1項に記載の認識方法。
【請求項5】
帳票から手書きで記入がされた第1の領域を抽出する手書き領域抽出部と、
前記帳票から活字が印字された第2の領域を抽出する活字領域抽出部と、
前記第2の領域のうち、前記第1の領域との重複の度合いが所定の条件を満たす領域を選択する選択部と、
前記選択部によって選択された領域に印字された文字列であって、あらかじめ項目名と対応付けられた選択肢に含まれる文字列を認識する認識部と、
を有することを特徴とする認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、認識方法及び認識装置に関する。
【背景技術】
【0002】
従来、光学的に読み取った帳票の画像から所定の項目の文字認識を行う技術が知られている。
【0003】
例えば、あらかじめ選択式項目に印字される文字列の候補を登録しておき、丸印やチェック印が記入された領域にある当該登録済みの文字列を認識する技術が知られている。
【0004】
また、例えば、文字列の選択に使われる二重線等の図形をあらかじめ登録しておき、当該登録済みの図形を読み取ることで選択された文字列を特定する技術が知られている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平11-345281号公報
【文献】特開2005-173673号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の技術には、事前に文字列及び図形等の登録が必要になるため、帳票の選択された文字列の認識を容易かつ汎用的に行うことができない場合があるという問題がある。
【0007】
例えば、銀行において、口座開設申し込み及び入金依頼等の際に、口座の科目を帳票上で選択する場面を考える。ここでは、認識対象の文字列として「普通」と「当座」が事前に登録されているものとする。
【0008】
このとき、科目の選択肢として「普通」と「当座」に加えて「納税準備」という文字列が用意されており、「納税準備」に手書きで丸が付けられた場合、従来技術では選択された文字列を認識することができない場合がある。
【0009】
1つの側面では、帳票の選択された文字列の認識を容易かつ汎用的に行うことを目的とする。
【課題を解決するための手段】
【0010】
1つの態様では、認識方法は、帳票から手書きで記入がされた第1の領域を抽出し、帳票から活字が印字された第2の領域を抽出し、第2の領域のうち、第1の領域との重複の度合いが所定の条件を満たす領域を選択する処理をコンピュータが実行する。
【発明の効果】
【0011】
1つの側面では、帳票の選択された文字列の認識を容易かつ汎用的に行うことができる。
【図面の簡単な説明】
【0012】
【
図1】
図1は、認識システムの構成例を示す図である。
【
図3】
図3は、選択文字列情報の例を示す図である。
【
図4】
図4は、手書き領域の抽出を説明する図である。
【
図5】
図5は、活字領域の抽出を説明する図である。
【
図8】
図8は、認識処理の流れを示すフローチャートである。
【
図9】
図9は、ハードウェア構成例を説明する図である。
【発明を実施するための形態】
【0013】
以下に、本発明に係る認識方法及び認識装置を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
【0014】
図1を用いて、実施例に係る認識システムの構成を説明する。
図1は、認識システムの構成例を示す図である。
図1に示すように、認識システム1は、認識装置10及びスキャナ20を有する。
【0015】
認識装置10は、スキャナ20によって生成された帳票の画像の入力を受け付け、認識結果を出力する。
図1の例では、認識装置10は、「性別:男」という認識結果を出力する。
図1の認識結果は、帳票の「性別」という項目の選択肢のうち、「男」という選択肢が選択されていたことを意味している。
【0016】
本実施形態における帳票は、紙等の媒体に項目及び選択肢が印字され、記入者が手書きで各項目の選択肢を選択するものである。例えば、帳票は、銀行の口座開設の申し込み用紙、入金依頼の用紙、マークシート等の選択式試験の解答用紙、アンケート用紙等である。
【0017】
なお、認識装置10は、パーソナルコンピュータ、現金自動預払機(ATM:automatic teller machine)、スマートフォン等によって実現されてもよい。
【0018】
また、認識装置10は、端末とサーバとを組み合わせて実現されてもよい。その場合、端末はスキャナ20から受け取った画像をサーバに送信する。そして、サーバは画像を基にした認識結果を端末に返す。
【0019】
スキャナ20は、紙等の媒体を光学的に読み取り、画像を生成する装置である。例えば、スキャナ20は、複合機及び手書きの帳票を受け付け可能なATM等の機能の一部であってもよい。また、スキャナ20は、スマートフォン等のカメラ付きの携帯型端末であってもよい。
【0020】
スキャナ20は、帳票30を読み取る。帳票30には、「性別」という項目名が印字されており、その下に「(1)男」及び「(2)女」という選択肢が印字されている。また、選択肢「(1)男」の付近には、手書きの丸印が記入されている。
【0021】
以降の説明で、手書きは、文字を書くこと(write)に限られず、人間が手であらゆる図形を書くこと(write)及び描くこと(draw)を意味するものとする。
【0022】
また、ここでの図形には、円及び四角形といった幾何学的な図形に限られず、文字、チェックマーク、塗りつぶしといったあらゆる態様の図形を含むものとする。
【0023】
一方、活字は、ワードプロセッサ等によって生成され、プリンタ等によって帳票に印字される文字である。
【0024】
図1の例では、帳票30の丸印は手書きで記入されたものである。一方、帳票30に印字された「性別」、「(1)男」及び「(2)女」は活字である。
【0025】
図2は、認識装置の構成例を示す図である。
図2に示すように、認識装置10は、IF(インタフェース)部11、記憶部12及び制御部13を有する。
【0026】
IF部11は、データの入力及び出力のためのインタフェースである。例えば、IF部11はNIC(Network Interface Card)である。IF部11はスキャナ20を含む他の装置との間でデータの送受信を行うことができる。
【0027】
また、IF部11は、マウスやキーボード等の入力装置と接続されていてもよい。また、IF部11は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。
【0028】
記憶部12は、データや制御部13が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部12は、手書き領域抽出モデル情報121、活字領域抽出モデル情報122、辞書情報123及び選択文字列情報124を記憶する。
【0029】
手書き領域抽出モデル情報121は、手書き領域抽出モデルを構築するためのパラメータ等である。例えば、手書き領域抽出モデルは、ニューラルネットワーク等を用いた画像認識モデルであって、後述する抽出部133によって使用される。例えば、手書き領域抽出モデル情報121は、ニューラルネットワークの重み行列及びバイアス値である。
【0030】
活字領域抽出モデル情報122は、活字領域抽出モデルを構築するためのパラメータ等である。例えば、活字領域抽出モデルは、ニューラルネットワーク等を用いた画像認識モデルであって、後述する抽出部133によって使用される。例えば、活字領域抽出モデル情報122は、ニューラルネットワークの重み行列及びバイアス値である。
【0031】
辞書情報123は、文字認識のための文字の集合である。辞書情報123は、既存のOCR(Optical Character Recognition)ソフト等で用いられる辞書であって、アルファベット、漢字、ひらがな、算用数字、記号といった文字の特徴を含むものであってもよい。
【0032】
選択文字列情報124は、項目名及び選択肢として使用される文字列の組み合わせである。
図3は、選択文字列情報の例を示す図である。
図3に示すように、例えば、選択文字列情報124は、項目「性別」と選択肢「男、女、男性、女性、Male、Female、…」の組み合わせを含む。
【0033】
選択文字列情報124の項目名及び選択肢に含まれる文字列は、それぞれ項目名及び選択肢として使用される頻度が高い文字列としてあらかじめ指定されたものである。選択文字列情報124は、後述する文字認識処理を補助するために用いられる。
【0034】
図2に戻り、制御部13は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等によって、内部の記憶装置に記憶されているプログラムがRAM(Random Access Memory)を作業領域として実行されることにより実現される。また、制御部13は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されるようにしてもよい。
【0035】
制御部13は、スキャナ制御部131と、解析部132と、抽出部133と、選択部134と、認識部135と、補正部136と、出力制御部137と、を有する。
【0036】
スキャナ制御部131は、スキャナ20を制御する。スキャナ制御部131は、スキャナ20に、帳票の読み取り、画像の生成及び画像の受け渡しを指示する。
【0037】
解析部132は、スキャナ20から受け取った画像を解析し、帳票上の選択項目の位置を特定する。例えば、解析部132は、参考文献1(特開2010-3155号公報)に記載された方法を用いて項目を抽出することができる。
【0038】
抽出部133は、解析部132によって特定された位置において、手書き領域及び活字領域の抽出を行う。抽出部133は、帳票から手書きで記入がされた手書き領域を抽出する。なお、手書き領域は第1の領域の一例である。また、抽出部133は、帳票から活字が印字された活字領域を抽出する。なお、活字領域は第2の領域の一例である。
【0039】
抽出部133は、手書きの図形の特徴を学習した画像認識モデルを用いて手書き領域を抽出する。抽出部133は、手書き領域抽出モデル情報121を基に構築した画像認識モデルである手書き領域抽出モデルを用いる。
【0040】
手書き領域抽出モデルは、丸印及びチェックマークといった特定の図形を教師データとして訓練されたものであってもよいし、特定の図形に限られずあらゆる手書きの図形を教師データとして訓練されたものであってもよい。
【0041】
図4は、手書き領域の抽出を説明する図である。
図4の例では、抽出部133は、手書きの丸印が記入された領域51を手書き領域として抽出する。
【0042】
抽出部133は、活字の特徴を学習した画像認識モデルを用いて活字領域を抽出する。抽出部133は、活字領域抽出モデル情報122を基に構築した画像認識モデルである活字領域抽出モデルを用いる。
【0043】
図5は、活字領域の抽出を説明する図である。
図5の例では、抽出部133は、「(1)男」と活字で印字された領域52、及び「(2)女」と活字で印字された領域53を活字領域として抽出する。
【0044】
選択部134は、活字領域のうち、手書き領域との重複の度合いが所定の条件を満たす領域を選択する。例えば、選択部134は、活字領域のうち、手書き領域と少なくとも一部が手書き領域と重なり合う領域を選択する。
【0045】
例えば、
図5の例では、手書き領域である領域51と活字領域である領域52は一部が重複している。一方、手書き領域である領域51と活字領域である領域53は重複していない。このため、選択部134は、領域51に対応する活字領域として領域52を選択する。
【0046】
また、例えば複数の活字領域が手書き領域と重なり合う場合がある。その場合、選択部134は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択することができる。
【0047】
図6は、帳票の項目の例を示す図である。
図6の例では、選択肢として「1 普通」、「2 当座」及び「3 納税準備」が印字されている。
【0048】
図6に示す帳票に手書きで丸印が記入された場合を考える。ここでは、
図7に示す位置に丸印が記入されたものとする。
図7は、重複領域の例を示す図である。
【0049】
抽出部133は、領域54を手書き領域として抽出し、領域55、領域56及び領域57を活字領域として抽出する。
【0050】
領域58は、領域54と領域56が重なり合う領域である。また、領域59は、領域54と領域57が重なり合う領域である。ここで、領域59の面積は領域58の面積より大きいため、選択部134は領域59に対応する手書き領域である領域57を選択する。
【0051】
認識部135は、選択部134によって選択された領域に印字された文字列を認識する。認識部135は、活字領域の文字列を認識する。
図5の例では、認識部135は文字列「(1)男」を認識する。また、
図7の例では、認識部135は文字列「3 納税準備」を認識する。
【0052】
認識部135は、辞書情報123を参照して文字認識を行う。さらに、認識部135は、選択文字列情報124に選択肢として含まれる文字列を優先して認識するようにしてもよい。
【0053】
例えば、認識部135が、項目名が「職業」である項目の選択肢の文字列に対して「会社員」と「会仕員」について同等の認識確度(確率)を算出したものとする。
【0054】
一方で、
図3に示す選択文字列情報124を参照すると、「会社員」は項目名「職業」に対する選択肢に含まれているが、「会仕員」は項目名「職業」に対する選択肢に含まれていない。この場合、認識部135は、当該文字列を「会社員」と認識する。
【0055】
このように、認識部135は、あらかじめ対応付けられた項目名と選択肢の組み合わせを認識する。
【0056】
補正部136は、認識部135によって認識された文字列からあらかじめ指定された文字列を除外する。例えば、補正部136は、「(1)男」から「(1)」を除外する。例えば、補正部136は、項番等のあらかじめ指定された情報を削除する。
【0057】
なお、補正部136による補正機能は、有効及び無効を管理者が任意に切り替えられるものとする。
【0058】
出力制御部137は、認識部135による認識結果を所定の形式で認識結果を出力する。例えば、出力制御部137は、「性別:男性」のように、項目名と認識した選択肢を組み合わせて出力してもよい。
【0059】
図8は、認識処理の流れを示すフローチャートである。
図8に示すように、まず、認識装置10は、帳票を読み取る(ステップS101)。次に、認識装置10は、帳票上の項目の位置を特定する(ステップS102)。
【0060】
そして、認識装置10は、手書き領域抽出モデルを用いて、項目周辺の手書き領域を抽出する(ステップS103)。また、認識装置10は、活字領域抽出モデルを用いて、項目周辺の活字領域を抽出する(ステップS104)。
【0061】
ここで、認識装置10は、手書き領域と対応する活字領域を選択する(ステップS105)。例えば、認識装置10は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択する。
【0062】
続いて、認識装置10は、選択した活字領域に書かれた文字列を認識(ステップS106)。さらに、認識装置10は、文字列を補正する(ステップS107)。なお、ステップS107は設定により省略されてもよい。そして、認識装置10は、認識した文字列を出力する(ステップS108)。
【0063】
上述したように、抽出部133は、帳票から手書きで記入がされた手書き領域を抽出する。抽出部133は、帳票から活字が印字された活字領域を抽出する。選択部134は、活字領域のうち、手書き領域との重複の度合いが所定の条件を満たす領域を選択する。このように、認識装置10は、認識対象の文字列及び図形を事前に指定しておくことなく、手書き領域と活字領域を対応付けて選択することができる。その結果、本実施形態によれば、帳票の選択された文字列の認識を容易かつ汎用的に行うことができる。
【0064】
抽出部133は、手書きの図形の特徴を学習した画像認識モデルを用いて手書き領域を抽出する。このように、画像認識モデルに手書きの特徴を学習させておくことで、不完全な形状の手書き図形等も含めて領域を抽出することが可能になる。
【0065】
選択部134は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択する。これにより、認識装置10は、選択された選択肢を定量的に特定することが可能になる。
【0066】
認識部135は、選択部134によって選択された領域に印字された文字列を認識する。補正部136は、認識部135によって認識された文字列からあらかじめ指定された文字列を除外する。これにより、認識装置10は、認識結果から不要な情報を除外し、重要な情報のみを残すことができる。
【0067】
認識部135は、あらかじめ対応付けられた項目名と選択肢の組み合わせを認識する。これにより、認識装置10は、項目の選択肢として意図された文字列を優先的に認識することができる。
【0068】
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
【0069】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
【0070】
図9は、ハードウェア構成例を説明する図である。
図9に示すように、認識装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、
図9に示した各部は、バス等で相互に接続される。
【0071】
通信インタフェース10aは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD10bは、
図2に示した機能を動作させるプログラムやDBを記憶する。
【0072】
プロセッサ10dは、
図2に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、
図2等で説明した各機能を実行するプロセスを動作させるハードウェア回路である。すなわち、このプロセスは、認識装置10が有する各処理部と同様の機能を実行する。
【0073】
具体的には、プロセッサ10dは、スキャナ制御部131、解析部132、抽出部133、選択部134、認識部135、補正部136及び出力制御部137と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、スキャナ制御部131、解析部132、抽出部133、選択部134、認識部135、補正部136及び出力制御部137等と同様の処理を実行するプロセスを実行する。
【0074】
このように認識装置10は、プログラムを読み出して実行することで学習類方法を実行する情報処理装置として動作する。また、認識装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、認識装置10によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
【0075】
このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
【符号の説明】
【0076】
10 認識装置
11 IF部
12 記憶部
13 制御部
51、52、53、54、55、56、57、58、59 領域
121 手書き領域抽出モデル情報
122 活字領域抽出モデル情報
123 辞書情報
124 選択文字列情報
131 スキャナ制御部
132 解析部
133 抽出部
134 選択部
135 認識部
136 補正部
137 出力制御部