特許7526692 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 富士通フロンテック株式会社の特許一覧

特許7526692認識方法及び認識装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-24

(45)【発行日】2024-08-01

(54)【発明の名称】認識方法及び認識装置

(51)【国際特許分類】

G06V 30/14 20220101AFI20240725BHJP

G06T 7/00 20170101ALI20240725BHJP

G06V 30/244 20220101ALI20240725BHJP

【ＦＩ】

G06V30/14 340A

G06T7/00 350B

G06V30/244

【請求項の数】 5

(21)【出願番号】P 2021026818

(22)【出願日】2021-02-22

(65)【公開番号】P2022128348

(43)【公開日】2022-09-01

【審査請求日】2023-03-13

(73)【特許権者】

【識別番号】000237639

【氏名又は名称】富士通フロンテック株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】馬路武志

(72)【発明者】

【氏名】長谷川将平

(72)【発明者】

【氏名】鴻田昌利

(72)【発明者】

【氏名】伊澤修一

【審査官】秦野孝一郎

(56)【参考文献】

【文献】特開２０１１－０７６３９０（ＪＰ，Ａ）

【文献】特開２００７－０５８４８５（ＪＰ，Ａ）

【文献】特開平０３－０７４７８５（ＪＰ，Ａ）

【文献】Oleksii Gorokhovatskyi et al，Neocognitron as a tool for optical marks recognition，2016 IEEE First International Conference on Data Stream Mining & Processing (DSMP)，2016年08月27日，https://ieeexplore.ieee.org/document/7583533

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／４２４

Ｇ０６Ｔ７／００－７／９０

(57)【特許請求の範囲】

【請求項1】

帳票から手書きで記入がされた第１の領域を抽出し、
前記帳票から活字が印字された第２の領域を抽出し、
前記第２の領域のうち、前記第１の領域との重複の度合いが所定の条件を満たす領域を選択し、
前記選択する処理によって選択された領域に印字された文字列であって、あらかじめ項目名と対応付けられた選択肢に含まれる文字列を認識する
処理をコンピュータが実行することを特徴とする認識方法。

【請求項2】

前記第１の領域を抽出する処理は、手書きの図形の特徴を学習した画像認識モデルを用いて前記第１の領域を抽出することを特徴とする請求項１に記載の認識方法。

【請求項3】

前記選択する処理は、前記第２の領域のうち、前記第１の領域と重なり合う部分の面積が最大である領域を選択することを特徴とする請求項１又は２に記載の認識方法。

【請求項4】

前記認識する処理によって認識された文字列からあらかじめ指定された文字列を除外する
処理をさらにコンピュータが実行することを特徴とする請求項１から３のいずれか１項に記載の認識方法。

【請求項5】

帳票から手書きで記入がされた第１の領域を抽出する手書き領域抽出部と、
前記帳票から活字が印字された第２の領域を抽出する活字領域抽出部と、
前記第２の領域のうち、前記第１の領域との重複の度合いが所定の条件を満たす領域を選択する選択部と、
前記選択部によって選択された領域に印字された文字列であって、あらかじめ項目名と対応付けられた選択肢に含まれる文字列を認識する認識部と、
を有することを特徴とする認識装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、認識方法及び認識装置に関する。

【背景技術】

【0002】

従来、光学的に読み取った帳票の画像から所定の項目の文字認識を行う技術が知られている。

【0003】

例えば、あらかじめ選択式項目に印字される文字列の候補を登録しておき、丸印やチェック印が記入された領域にある当該登録済みの文字列を認識する技術が知られている。

【0004】

また、例えば、文字列の選択に使われる二重線等の図形をあらかじめ登録しておき、当該登録済みの図形を読み取ることで選択された文字列を特定する技術が知られている。

【先行技術文献】

【特許文献】

【0005】

【文献】特開平１１－３４５２８１号公報

【文献】特開２００５－１７３６７３号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、従来の技術には、事前に文字列及び図形等の登録が必要になるため、帳票の選択された文字列の認識を容易かつ汎用的に行うことができない場合があるという問題がある。

【0007】

例えば、銀行において、口座開設申し込み及び入金依頼等の際に、口座の科目を帳票上で選択する場面を考える。ここでは、認識対象の文字列として「普通」と「当座」が事前に登録されているものとする。

【0008】

このとき、科目の選択肢として「普通」と「当座」に加えて「納税準備」という文字列が用意されており、「納税準備」に手書きで丸が付けられた場合、従来技術では選択された文字列を認識することができない場合がある。

【0009】

１つの側面では、帳票の選択された文字列の認識を容易かつ汎用的に行うことを目的とする。

【課題を解決するための手段】

【0010】

１つの態様では、認識方法は、帳票から手書きで記入がされた第１の領域を抽出し、帳票から活字が印字された第２の領域を抽出し、第２の領域のうち、第１の領域との重複の度合いが所定の条件を満たす領域を選択する処理をコンピュータが実行する。

【発明の効果】

【0011】

１つの側面では、帳票の選択された文字列の認識を容易かつ汎用的に行うことができる。

【図面の簡単な説明】

【0012】

【図1】図１は、認識システムの構成例を示す図である。

【図2】図２は、認識装置の構成例を示す図である。

【図3】図３は、選択文字列情報の例を示す図である。

【図4】図４は、手書き領域の抽出を説明する図である。

【図5】図５は、活字領域の抽出を説明する図である。

【図6】図６は、帳票の項目の例を示す図である。

【図7】図７は、重複領域の例を示す図である。

【図8】図８は、認識処理の流れを示すフローチャートである。

【図9】図９は、ハードウェア構成例を説明する図である。

【発明を実施するための形態】

【0013】

以下に、本発明に係る認識方法及び認識装置を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

【0014】

図１を用いて、実施例に係る認識システムの構成を説明する。図１は、認識システムの構成例を示す図である。図１に示すように、認識システム１は、認識装置１０及びスキャナ２０を有する。

【0015】

認識装置１０は、スキャナ２０によって生成された帳票の画像の入力を受け付け、認識結果を出力する。図１の例では、認識装置１０は、「性別：男」という認識結果を出力する。図１の認識結果は、帳票の「性別」という項目の選択肢のうち、「男」という選択肢が選択されていたことを意味している。

【0016】

本実施形態における帳票は、紙等の媒体に項目及び選択肢が印字され、記入者が手書きで各項目の選択肢を選択するものである。例えば、帳票は、銀行の口座開設の申し込み用紙、入金依頼の用紙、マークシート等の選択式試験の解答用紙、アンケート用紙等である。

【0017】

なお、認識装置１０は、パーソナルコンピュータ、現金自動預払機（ＡＴＭ：automatic teller machine）、スマートフォン等によって実現されてもよい。

【0018】

また、認識装置１０は、端末とサーバとを組み合わせて実現されてもよい。その場合、端末はスキャナ２０から受け取った画像をサーバに送信する。そして、サーバは画像を基にした認識結果を端末に返す。

【0019】

スキャナ２０は、紙等の媒体を光学的に読み取り、画像を生成する装置である。例えば、スキャナ２０は、複合機及び手書きの帳票を受け付け可能なＡＴＭ等の機能の一部であってもよい。また、スキャナ２０は、スマートフォン等のカメラ付きの携帯型端末であってもよい。

【0020】

スキャナ２０は、帳票３０を読み取る。帳票３０には、「性別」という項目名が印字されており、その下に「（１）男」及び「（２）女」という選択肢が印字されている。また、選択肢「（１）男」の付近には、手書きの丸印が記入されている。

【0021】

以降の説明で、手書きは、文字を書くこと（write）に限られず、人間が手であらゆる図形を書くこと（write）及び描くこと（draw）を意味するものとする。

【0022】

また、ここでの図形には、円及び四角形といった幾何学的な図形に限られず、文字、チェックマーク、塗りつぶしといったあらゆる態様の図形を含むものとする。

【0023】

一方、活字は、ワードプロセッサ等によって生成され、プリンタ等によって帳票に印字される文字である。

【0024】

図１の例では、帳票３０の丸印は手書きで記入されたものである。一方、帳票３０に印字された「性別」、「（１）男」及び「（２）女」は活字である。

【0025】

図２は、認識装置の構成例を示す図である。図２に示すように、認識装置１０は、ＩＦ（インタフェース）部１１、記憶部１２及び制御部１３を有する。

【0026】

ＩＦ部１１は、データの入力及び出力のためのインタフェースである。例えば、ＩＦ部１１はＮＩＣ（Network Interface Card）である。ＩＦ部１１はスキャナ２０を含む他の装置との間でデータの送受信を行うことができる。

【0027】

また、ＩＦ部１１は、マウスやキーボード等の入力装置と接続されていてもよい。また、ＩＦ部１１は、ディスプレイ及びスピーカ等の出力装置と接続されていてもよい。

【0028】

記憶部１２は、データや制御部１３が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部１２は、手書き領域抽出モデル情報１２１、活字領域抽出モデル情報１２２、辞書情報１２３及び選択文字列情報１２４を記憶する。

【0029】

手書き領域抽出モデル情報１２１は、手書き領域抽出モデルを構築するためのパラメータ等である。例えば、手書き領域抽出モデルは、ニューラルネットワーク等を用いた画像認識モデルであって、後述する抽出部１３３によって使用される。例えば、手書き領域抽出モデル情報１２１は、ニューラルネットワークの重み行列及びバイアス値である。

【0030】

活字領域抽出モデル情報１２２は、活字領域抽出モデルを構築するためのパラメータ等である。例えば、活字領域抽出モデルは、ニューラルネットワーク等を用いた画像認識モデルであって、後述する抽出部１３３によって使用される。例えば、活字領域抽出モデル情報１２２は、ニューラルネットワークの重み行列及びバイアス値である。

【0031】

辞書情報１２３は、文字認識のための文字の集合である。辞書情報１２３は、既存のＯＣＲ（Optical Character Recognition）ソフト等で用いられる辞書であって、アルファベット、漢字、ひらがな、算用数字、記号といった文字の特徴を含むものであってもよい。

【0032】

選択文字列情報１２４は、項目名及び選択肢として使用される文字列の組み合わせである。図３は、選択文字列情報の例を示す図である。図３に示すように、例えば、選択文字列情報１２４は、項目「性別」と選択肢「男、女、男性、女性、Male、Female、…」の組み合わせを含む。

【0033】

選択文字列情報１２４の項目名及び選択肢に含まれる文字列は、それぞれ項目名及び選択肢として使用される頻度が高い文字列としてあらかじめ指定されたものである。選択文字列情報１２４は、後述する文字認識処理を補助するために用いられる。

【0034】

図２に戻り、制御部１３は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭ（Random Access Memory）を作業領域として実行されることにより実現される。また、制御部１３は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。

【0035】

制御部１３は、スキャナ制御部１３１と、解析部１３２と、抽出部１３３と、選択部１３４と、認識部１３５と、補正部１３６と、出力制御部１３７と、を有する。

【0036】

スキャナ制御部１３１は、スキャナ２０を制御する。スキャナ制御部１３１は、スキャナ２０に、帳票の読み取り、画像の生成及び画像の受け渡しを指示する。

【0037】

解析部１３２は、スキャナ２０から受け取った画像を解析し、帳票上の選択項目の位置を特定する。例えば、解析部１３２は、参考文献１（特開２０１０－３１５５号公報）に記載された方法を用いて項目を抽出することができる。

【0038】

抽出部１３３は、解析部１３２によって特定された位置において、手書き領域及び活字領域の抽出を行う。抽出部１３３は、帳票から手書きで記入がされた手書き領域を抽出する。なお、手書き領域は第１の領域の一例である。また、抽出部１３３は、帳票から活字が印字された活字領域を抽出する。なお、活字領域は第２の領域の一例である。

【0039】

抽出部１３３は、手書きの図形の特徴を学習した画像認識モデルを用いて手書き領域を抽出する。抽出部１３３は、手書き領域抽出モデル情報１２１を基に構築した画像認識モデルである手書き領域抽出モデルを用いる。

【0040】

手書き領域抽出モデルは、丸印及びチェックマークといった特定の図形を教師データとして訓練されたものであってもよいし、特定の図形に限られずあらゆる手書きの図形を教師データとして訓練されたものであってもよい。

【0041】

図４は、手書き領域の抽出を説明する図である。図４の例では、抽出部１３３は、手書きの丸印が記入された領域５１を手書き領域として抽出する。

【0042】

抽出部１３３は、活字の特徴を学習した画像認識モデルを用いて活字領域を抽出する。抽出部１３３は、活字領域抽出モデル情報１２２を基に構築した画像認識モデルである活字領域抽出モデルを用いる。

【0043】

図５は、活字領域の抽出を説明する図である。図５の例では、抽出部１３３は、「（１）男」と活字で印字された領域５２、及び「（２）女」と活字で印字された領域５３を活字領域として抽出する。

【0044】

選択部１３４は、活字領域のうち、手書き領域との重複の度合いが所定の条件を満たす領域を選択する。例えば、選択部１３４は、活字領域のうち、手書き領域と少なくとも一部が手書き領域と重なり合う領域を選択する。

【0045】

例えば、図５の例では、手書き領域である領域５１と活字領域である領域５２は一部が重複している。一方、手書き領域である領域５１と活字領域である領域５３は重複していない。このため、選択部１３４は、領域５１に対応する活字領域として領域５２を選択する。

【0046】

また、例えば複数の活字領域が手書き領域と重なり合う場合がある。その場合、選択部１３４は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択することができる。

【0047】

図６は、帳票の項目の例を示す図である。図６の例では、選択肢として「１普通」、「２当座」及び「３納税準備」が印字されている。

【0048】

図６に示す帳票に手書きで丸印が記入された場合を考える。ここでは、図７に示す位置に丸印が記入されたものとする。図７は、重複領域の例を示す図である。

【0049】

抽出部１３３は、領域５４を手書き領域として抽出し、領域５５、領域５６及び領域５７を活字領域として抽出する。

【0050】

領域５８は、領域５４と領域５６が重なり合う領域である。また、領域５９は、領域５４と領域５７が重なり合う領域である。ここで、領域５９の面積は領域５８の面積より大きいため、選択部１３４は領域５９に対応する手書き領域である領域５７を選択する。

【0051】

認識部１３５は、選択部１３４によって選択された領域に印字された文字列を認識する。認識部１３５は、活字領域の文字列を認識する。図５の例では、認識部１３５は文字列「（１）男」を認識する。また、図７の例では、認識部１３５は文字列「３納税準備」を認識する。

【0052】

認識部１３５は、辞書情報１２３を参照して文字認識を行う。さらに、認識部１３５は、選択文字列情報１２４に選択肢として含まれる文字列を優先して認識するようにしてもよい。

【0053】

例えば、認識部１３５が、項目名が「職業」である項目の選択肢の文字列に対して「会社員」と「会仕員」について同等の認識確度（確率）を算出したものとする。

【0054】

一方で、図３に示す選択文字列情報１２４を参照すると、「会社員」は項目名「職業」に対する選択肢に含まれているが、「会仕員」は項目名「職業」に対する選択肢に含まれていない。この場合、認識部１３５は、当該文字列を「会社員」と認識する。

【0055】

このように、認識部１３５は、あらかじめ対応付けられた項目名と選択肢の組み合わせを認識する。

【0056】

補正部１３６は、認識部１３５によって認識された文字列からあらかじめ指定された文字列を除外する。例えば、補正部１３６は、「（１）男」から「（１）」を除外する。例えば、補正部１３６は、項番等のあらかじめ指定された情報を削除する。

【0057】

なお、補正部１３６による補正機能は、有効及び無効を管理者が任意に切り替えられるものとする。

【0058】

出力制御部１３７は、認識部１３５による認識結果を所定の形式で認識結果を出力する。例えば、出力制御部１３７は、「性別：男性」のように、項目名と認識した選択肢を組み合わせて出力してもよい。

【0059】

図８は、認識処理の流れを示すフローチャートである。図８に示すように、まず、認識装置１０は、帳票を読み取る（ステップＳ１０１）。次に、認識装置１０は、帳票上の項目の位置を特定する（ステップＳ１０２）。

【0060】

そして、認識装置１０は、手書き領域抽出モデルを用いて、項目周辺の手書き領域を抽出する（ステップＳ１０３）。また、認識装置１０は、活字領域抽出モデルを用いて、項目周辺の活字領域を抽出する（ステップＳ１０４）。

【0061】

ここで、認識装置１０は、手書き領域と対応する活字領域を選択する（ステップＳ１０５）。例えば、認識装置１０は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択する。

【0062】

続いて、認識装置１０は、選択した活字領域に書かれた文字列を認識（ステップＳ１０６）。さらに、認識装置１０は、文字列を補正する（ステップＳ１０７）。なお、ステップＳ１０７は設定により省略されてもよい。そして、認識装置１０は、認識した文字列を出力する（ステップＳ１０８）。

【0063】

上述したように、抽出部１３３は、帳票から手書きで記入がされた手書き領域を抽出する。抽出部１３３は、帳票から活字が印字された活字領域を抽出する。選択部１３４は、活字領域のうち、手書き領域との重複の度合いが所定の条件を満たす領域を選択する。このように、認識装置１０は、認識対象の文字列及び図形を事前に指定しておくことなく、手書き領域と活字領域を対応付けて選択することができる。その結果、本実施形態によれば、帳票の選択された文字列の認識を容易かつ汎用的に行うことができる。

【0064】

抽出部１３３は、手書きの図形の特徴を学習した画像認識モデルを用いて手書き領域を抽出する。このように、画像認識モデルに手書きの特徴を学習させておくことで、不完全な形状の手書き図形等も含めて領域を抽出することが可能になる。

【0065】

選択部１３４は、活字領域のうち、手書き領域と重なり合う部分の面積が最大である領域を選択する。これにより、認識装置１０は、選択された選択肢を定量的に特定することが可能になる。

【0066】

認識部１３５は、選択部１３４によって選択された領域に印字された文字列を認識する。補正部１３６は、認識部１３５によって認識された文字列からあらかじめ指定された文字列を除外する。これにより、認識装置１０は、認識結果から不要な情報を除外し、重要な情報のみを残すことができる。

【0067】

認識部１３５は、あらかじめ対応付けられた項目名と選択肢の組み合わせを認識する。これにより、認識装置１０は、項目の選択肢として意図された文字列を優先的に認識することができる。

【0068】

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。

【0069】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

【0070】

図９は、ハードウェア構成例を説明する図である。図９に示すように、認識装置１０は、通信インタフェース１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図９に示した各部は、バス等で相互に接続される。

【0071】

通信インタフェース１０ａは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図２に示した機能を動作させるプログラムやＤＢを記憶する。

【0072】

プロセッサ１０ｄは、図２に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図２等で説明した各機能を実行するプロセスを動作させるハードウェア回路である。すなわち、このプロセスは、認識装置１０が有する各処理部と同様の機能を実行する。

【0073】

具体的には、プロセッサ１０ｄは、スキャナ制御部１３１、解析部１３２、抽出部１３３、選択部１３４、認識部１３５、補正部１３６及び出力制御部１３７と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、スキャナ制御部１３１、解析部１３２、抽出部１３３、選択部１３４、認識部１３５、補正部１３６及び出力制御部１３７等と同様の処理を実行するプロセスを実行する。

【0074】

このように認識装置１０は、プログラムを読み出して実行することで学習類方法を実行する情報処理装置として動作する。また、認識装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、認識装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

【0075】

このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

【符号の説明】

【0076】

１０認識装置
１１ＩＦ部
１２記憶部
１３制御部
５１、５２、５３、５４、５５、５６、５７、５８、５９領域
１２１手書き領域抽出モデル情報
１２２活字領域抽出モデル情報
１２３辞書情報
１２４選択文字列情報
１３１スキャナ制御部
１３２解析部
１３３抽出部
１３４選択部
１３５認識部
１３６補正部
１３７出力制御部

【図1】