特許7043670 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許7043670文字列抽出装置、文字列抽出方法、および文字列抽出プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5A
5B
5C
5D
6
7
8
9A
9B
10A
10B
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2022-03-18

(45)【発行日】2022-03-29

(54)【発明の名称】文字列抽出装置、文字列抽出方法、および文字列抽出プログラム

(51)【国際特許分類】

G06V 30/14 20220101AFI20220322BHJP

【ＦＩ】

G06K9/20 340K

【請求項の数】 9

(21)【出願番号】P 2021151644

(22)【出願日】2021-09-17

【審査請求日】2021-09-22

【早期審査対象出願】

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(73)【特許権者】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】田中遼平

【審査官】千葉久博

(56)【参考文献】

【文献】特開２０２１－８２０５６（ＪＰ，Ａ）

【文献】特開２０１７－２１１９７６（ＪＰ，Ａ）

【文献】特開平６－１１１０７０（ＪＰ，Ａ）

【文献】遠藤伶, 外2名，“グラフ・コンボリューショナル・ネットワークを用いたボトムアップ型文字列検出技術の検討”，２０１９年映像情報メディア学会冬季大会講演予稿集，2019年11月28日

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／１４

(57)【特許請求の範囲】

【請求項1】

ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出する導出部と、
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出する抽出部と、
を備え、
前記境界領域らしさは、境界領域である度合いを示し、
前記境界領域は、
前記文字列領域と前記文字列中心領域との間の全領域である、
文字列抽出装置。

【請求項2】

前記境界領域の形状は、
複数の前記文字列領域が非重複な領域については各々の前記文字列領域の輪郭に沿った形状であり、
複数の前記文字列領域が重複する領域については、該重複する領域を通る１または複数の直線から成る領域、または、何れか一方の前記文字列領域の輪郭に沿った形状である、
請求項１に記載の文字列抽出装置。

【請求項3】

前記抽出部は、
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさを用いて画素領域ごとに算出した前記文字列中心領域の尤度に基づいて、前記画像に含まれる前記文字列中心領域を特定し、
前記文字列中心領域または前記文字列中心領域を第１画素数拡大した領域を、前記行画像領域として抽出する、
請求項１または請求項２に記載の文字列抽出装置。

【請求項4】

前記文字列中心領域は、
前記文字列領域を該文字列領域内の所定位置に向かって第２画素数縮小した領域である、
請求項１～請求項３の何れか１項に記載の文字列抽出装置。

【請求項5】

前記ニューラルネットワークは、
互いに異なる行の文字列の前記文字列中心領域が非連結となる、前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさを導出するように、予め学習されてなる、
請求項１～請求項４の何れか１項に記載の文字列抽出装置。

【請求項6】

前記ニューラルネットワークは、
前記境界領域らしさの損失の重み係数が、前記文字列中心領域らしさ、および、前記背景領域らしさの損失の重み係数より大きい損失関数を最小化するようにあらかじめ学習されてなる、
請求項１～請求項５の何れか１項に記載の文字列抽出装置。

【請求項7】

前記導出部は、
前記画像の画素領域ごとに、
１または複数種類の前記文字列中心領域らしさ、１または複数種類の前記境界領域らしさ、および、１または複数種類の前記背景領域らしさ、を導出する、
請求項１～請求項６の何れか１項に記載の文字列抽出装置。

【請求項8】

ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出するステップと、
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出するステップと、
を含み、
前記境界領域らしさは、境界領域である度合いを示し、
前記境界領域は、
前記文字列領域と前記文字列中心領域との間の全領域である、
文字列抽出方法。

【請求項9】

ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出するステップと、
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出するステップと、
をコンピュータに実行させるための文字列抽出プログラムであって、
前記境界領域らしさは、境界領域である度合いを示し、
前記境界領域は、
前記文字列領域と前記文字列中心領域との間の全領域である、
文字列抽出プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムに関する。

【背景技術】

【0002】

記録媒体に記入された文字を認識する技術が知られている。例えば、文字を記入された記録媒体の画像に含まれる文字列を行ごとに抽出し、抽出した行ごとに文字認識する技術が開示されている。例えば、学習モデルに画像を入力することで、画像に含まれる文字列の行領域を所定の縮小率縮小した領域を文字列の中心領域として導出する。そして、導出した中心領域を所定比率で拡大した領域を、１行分の文字列の行画像領域として抽出する技術が開示されている（例えば、非特許文献１参照）。

【0003】

しかしながら従来技術では、複数の文字列の行が接近または重複して記入されている場合、複数の文字列の行を同一の行の行画像領域として誤特定する場合があった。すなわち、従来技術では、画像から行ごとの文字列の行画像領域を高精度に抽出することは困難であった。

【先行技術文献】

【特許文献】

【0004】

【文献】ＷｅｎｈａｉＷａｎｇ，ｅｔａｌ．“ＳｈａｐｅＲｏｂｕｓｔＴｅｘｔＤｅｔｅｃｔｉｏｎｗｉｔｈＰｒｏｇｒｅｓｓｉｖｅＳｃａｌｅＥｘｐａｎｓｉｏｎＮｅｔｗｏｒｋ”２０１９

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明は、上記に鑑みてなされたものであって、行ごとの文字列の行画像領域を高精度に抽出することができる、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

実施形態の文字列抽出装置は、導出部と、抽出部と、を備える。導出部は、ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出する。抽出部は、前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出する。前記境界領域らしさは、境界領域である度合いを示し、前記境界領域は、前記文字列領域と前記文字列中心領域との間の全領域である。

【図面の簡単な説明】

【0007】

【図1】実施形態の文字列抽出装置の構成を示すブロック図。

【図2】導出部および抽出部による処理の流れを示す模式図。

【図3】文字列中心領域、境界領域、および背景領域の説明図。

【図4A】行画像領域の模式図。

【図4B】行画像領域の模式図。

【図5A】ＮＮＷの学習の説明図。

【図5B】ＮＮＷの学習の説明図。

【図5C】ＮＮＷの学習の説明図。

【図5D】ＮＮＷの学習の説明図。

【図6】損失関数を最小化させる学習の説明図。

【図7】境界領域の模式図。

【図8】情報処理の流れを示すフローチャート。

【図9A】従来の行画像領域の特定の説明図。

【図9B】本実施形態の行画像領域の抽出の説明図。

【図10A】文字列領域を所定の縮小比率で縮小した説明図。

【図10B】文字列領域を第２画素数縮小した説明図。

【図11】ハードウェア構成図。

【発明を実施するための形態】

【0008】

以下に添付図面を参照して、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムを詳細に説明する。

【0009】

図１は、本実施形態の文字列抽出装置１０の構成の一例を示すブロック図である。

【0010】

文字列抽出装置１０は、文字を記入された記録媒体の画像から行画像領域を抽出する情報処理装置である。行画像領域の詳細は後述する。

【0011】

文字列抽出装置１０は、記憶部１２と、通信部１４と、ＵＩ（ユーザ・インタフェース）部１６と、制御部２０と、を備える。記憶部１２、通信部１４、ＵＩ部１６、および制御部２０は、バス１８などを介して通信可能に接続されている。

【0012】

記憶部１２は、各種のデータを記憶する。記憶部１２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部１２は、文字列抽出装置１０の外部に設けられた記憶装置であってもよい。

【0013】

通信部１４は、ネットワーク等を介して外部の情報処理装置と通信する通信インターフェースである。

【0014】

ＵＩ部１６は、ユーザによる操作入力を受付ける受付機能、および、各種の情報を表示する表示機能を有する。受付機能は、例えば、マウスなどのポインティングデバイスやキーボードなどによって実現される。表示機能は、例えば、ディスプレイによって実現される。なお、ＵＩ部１６は、受付機能と表示機能を一体的に構成したタッチパネルであってよい。

【0015】

制御部２０は、文字列抽出装置１０において各種の情報処理を実行する。

【0016】

制御部２０は、導出部２２と、抽出部２４と、文字列認識部２６と、を備える。

【0017】

導出部２２、抽出部２４、および文字列認識部２６は、例えば、１または複数のプロセッサにより実現される。例えば上記各部は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のＩＣなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち１つを実現してもよいし、各部のうち２以上を実現してもよい。

【0018】

なお、文字列抽出装置１０の制御部２０は、少なくとも導出部２２および抽出部２４を備えた構成であればよく、文字列認識部２６を備えない構成であってもよい。例えば、文字列認識部２６は、文字列抽出装置１０に通信可能に接続された外部の情報処理装置に搭載されていてもよい。

【0019】

図２は、導出部２２および抽出部２４による処理の流れの一例を示す模式図である。

【0020】

導出部２２は、画像５０の画素領域ごとに、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出する。

【0021】

画像５０は、文字を記入された記録媒体の画像である。図２には、画像５０の一例として画像５０Ａを示す。

【0022】

画像５０Ａには、手書きなどにより記録媒体に記入された文字列５２が含まれる。文字列５２は、書字方向に沿って記入された１または複数の文字の群である。図２には、「１２３４」の文字からなる文字列５２Ａと、「５６７」の文字からなる文字列５２Ｂと、を一例として示す。文字列５２Ａおよび文字列５２Ｂは、文字列５２の一例である。

【0023】

画素領域とは、１画素または連続（隣接）する複数の画素からなる領域である。

【0024】

文字列中心領域らしさ６２とは、文字列中心領域８０である度合いを意味する。文字列中心領域らしさ６２は、例えば、文字列中心領域らしさ６２を表すスコア６１などによって表される。境界領域らしさ６４とは、境界領域８２である度合いを意味する。境界領域らしさ６４は、例えば、境界領域らしさ６４を表すスコア６１などによって表される。背景領域らしさ６６とは、背景領域８４である度合いを意味する。背景領域らしさ６６は、例えば、背景領域らしさ６６を表すスコア６１などによって表される。

【0025】

図３は、文字列中心領域８０、境界領域８２、および背景領域８４の一例の説明図である。図３には、図２に示す画像５０Ａに含まれる１行分の文字列５２（例えば、文字列５２Ａ）を含む領域を拡大した画像５０の模式図を示す。

【0026】

文字列領域８６は、画像５０に含まれる１行分の文字列５２の領域である。文字列中心領域８０は、文字列領域８６内の領域である。文字列領域８６内の領域である、とは、文字列領域８６内の領域であって、文字列領域８６以下のサイズの領域であることを示す。

【0027】

例えば、文字列中心領域８０は、文字列領域８６内の所定位置に向かって該文字列領域８６を第２画素数縮小した領域である。文字列領域８６内の所定位置は、文字列領域８６の位置であればよく、文字列領域８６の中心および中心以外の何れであってもよい。

【0028】

第２画素数は、１以上の画素数であればよく、予め定めればよい。また、第２画素数は、ユーザによるＵＩ部１６の操作指示などに応じて変更可能としてもよい。

【0029】

なお、第２画素数は、文字列領域８６を第２画素数縮小した領域である文字列中心領域８０が該第２画素数分の縮小によって消滅しない画素数に設定される。例えば、文字列領域８６の第２画素数分の縮小によって得られる文字列中心領域８０の最短辺の幅Ｙが、該文字列中心領域８０が消滅しない画素数以上の幅となるように、第２画素数を定めればよい。文字列中心領域８０が消滅しない画素数の最低値は、例えば、１画素である。

【0030】

境界領域８２は、画像５０における、文字列領域８６と文字列中心領域８０との間の領域である。言い換えると、境界領域８２は、文字列領域８６と文字列中心領域８０との間の全領域である。すなわち、境界領域８２は、ある文字列５２の文字列領域８６の文字列中心領域８０と、他の文字列５２の文字列領域８６の文字列中心領域８０または背景領域８４と、の境界を表す領域である。背景領域８４は、画像５０における、文字列中心領域８０、境界領域８２、および文字列領域８６以外の領域である。

【0031】

なお、境界領域８２は、文字列領域８６と文字列中心領域８０との間の領域を含む領域であればよく、文字列領域８６の外側に向かって所定画素数はみ出した領域を含んでいてもよい。この場合、背景領域８４を、画像５０の全画像領域から全ての文字列領域８６を例えば２画素数分拡大した領域を除いた領域とすればよい。そして、境界領域８２は、文字列中心領域８０と背景領域８４以外の領域とすればよい。

【0032】

図２に戻り説明を続ける。

【0033】

導出部２２は、画像５０の画素領域ごとに、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出する。導出部２２は、ＮＮＷ２３を用いて、画像５０から文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６の各々を表すスコア６１を導出する。導出部２２の詳細は後述する。

【0034】

抽出部２４は、画素領域ごとに導出された文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６に基づいて、画像５０に含まれる行画像領域６０を抽出する。

【0035】

行画像領域６０とは、画像５０に含まれる１行分の文字列５２の領域である。

【0036】

抽出部２４は、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を用いて、画素領域ごとに文字列中心領域らしさ６２の尤度を算出する。詳細には、抽出部２４は、画素領域ごとに導出された文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６の各々を表すスコア６１を、これらのスコア６１の合計値が“１”となるように正規化することで、各々の尤度を算出する。

【0037】

そして、抽出部２４は、画像５０における、文字列中心領域らしさ６２の尤度が閾値以上の領域を、文字列中心領域８０として特定する。

【0038】

図２には、文字列中心領域らしさ６２の尤度が閾値以上の領域を領域６３Ａとし、境界領域らしさ６４の尤度が閾値以上の領域を領域６５Ａとし、背景領域らしさ６６の尤度が閾値以上の領域を領域６７Ａとして示す。画像５０Ａを用いた場合、抽出部２４は、文字列中心領域らしさ６２の尤度が閾値以上の領域として、領域６３Ａ１および領域６３Ａ２を特定することとなる。領域６３Ａ１および領域６３Ａ２は、文字列中心領域らしさ６２の尤度が閾値以上の領域６３Ａの一例である。

【0039】

抽出部２４は、画像５０における、文字列中心領域らしさ６２の尤度が閾値以上の領域６３Ａを、文字列中心領域８０として特定する。図２に示す例の場合、抽出部２４は、文字列中心領域らしさ６２の尤度が閾値以上の領域６３Ａ１を、文字列中心領域８０Ａとして特定する。また、抽出部２４は、文字列中心領域らしさ６２の尤度が閾値以上の領域６３Ａ２を、文字列中心領域８０Ｂとして特定する。文字列中心領域８０Ａおよび文字列中心領域８０Ｂは、文字列中心領域８０の一例である。文字列中心領域８０Ａは、文字列５２Ａに対応する文字列領域８６Ａの文字列中心領域８０である。文字列中心領域８０Ｂは、文字列５２Ｂに対応する文字列領域８６Ｂの文字列中心領域８０である。

【0040】

抽出部２４は、特定した文字列中心領域８０、または、特定した文字列中心領域８０を第１画素数拡大した領域を、行画像領域６０として抽出する。このため、図２に示す例の場合、例えば、抽出部２４は、文字列５２Ａに対応する文字列領域８６Ａの文字列中心領域８０Ａ、または文字列中心領域８０Ａを第１画素数拡大した領域を、行画像領域６０Ａとして抽出する。また、抽出部２４は、文字列５２Ｂに対応する文字列領域８６Ｂの文字列中心領域８０Ｂ、または文字列中心領域８０Ｂを第１画素数拡大した領域を、行画像領域６０Ｂとして抽出する。行画像領域６０Ａおよび行画像領域６０Ｂは、行画像領域６０の一例である。

【0041】

第１画素数は、１以上の画素数を表す値であればよい。第１画素数は、文字列中心領域８０を第１画素数拡大した領域が該文字列中心領域８０を含む文字列領域８６の外枠を超えない画素数にあらかじめ調整される。なお、第１画素数は、ユーザによるＵＩ部１６の操作指示などに応じて、これらの条件を満たす範囲内で変更可能としてもよい。

【0042】

図４Ａおよび図４Ｂは、行画像領域６０の一例の模式図である。

【0043】

図４Ａに示すように、例えば、抽出部２４は、文字列中心領域８０を第１画素数拡大することで、文字列中心領域８０を文字列領域８６の外枠と一致する範囲にまで拡大した領域を、行画像領域６０として抽出する。

【0044】

また、図４Ｂに示すように、抽出部２４は、文字列中心領域８０を第１画素数拡大することで、文字列中心領域８０を文字列領域８６の範囲内で第１画素数拡大した領域を、行画像領域６０として抽出してもよい。

【0045】

また、抽出部２４は、文字列中心領域８０を行画像領域６０として抽出してもよい。

【0046】

図２に戻り説明を続ける。導出部２２について詳細に説明する。

【0047】

導出部２２は、ＮＮＷ（ニューラルネットワーク）２３を備える。導出部２２は、ＮＮＷ２３を用いて、画素領域ごとに、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出する。

【0048】

ＮＮＷ２３は、画像５０を入力とし、画像５０の画素領域ごとの、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を出力とする学習モデルである。ＮＮＷ２３は、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＧＣＮ（ＧｒａｐｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋ）、またはＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）などのニューラルネットワークで構成される深層学習モデル（ＤＮＮ）である。

【0049】

導出部２２は、複数の学習データ７０を用いて予めＮＮＷ２３を学習する。学習データ７０は、画像５０とスコア６１との対である。スコア６１は、画素領域ごとの、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６の各々を表すスコアである。学習データ７０に含まれるスコア６１は、対応する画像５０の正解データに相当する。学習データ７０に含まれる画像５０の少なくとも一部には、斜めに記入された文字列５２を含む画像５０、複数行の文字列５２が接近または重複して記入されている画像５０などを用いればよい。

【0050】

導出部２２は、抽出部２４において特定される互いに異なる行の文字列５２の文字列中心領域８０が非連結となる、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出するように、ＮＮＷ２３を学習することが好ましい。

【0051】

図５Ａ～図５Ｄは、ＮＮＷ２３の学習の一例の説明図である。

【0052】

例えば、複数の文字列領域８６の一部が重なった状態で記録媒体に記入されている場合がある。具体的には、図５Ａに示すように、画像５０Ａに含まれる文字列領域８６Ａと文字列領域８６Ｂとが重なる場合を想定する。文字列領域８６Ａおよび文字列領域８６Ｂは、文字列領域８６の一例である。文字列領域８６Ａは、文字列５２Ａに対応する文字列領域８６である。文字列領域８６Ｂは、文字列５２Ｂに対応する文字列領域８６である。

【0053】

この場合、導出部２２は、抽出部２４において特定される互いに異なる行の文字列５２の文字列中心領域８０が非連結となる、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出するように、ＮＮＷ２３を学習することが好ましい。

【0054】

すなわち、ＮＮＷ２３は、互いに異なる行の文字列５２の文字列中心領域８０が非連結となる、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出するように、予め学習されてなる。

【0055】

具体的には、図５Ｂ～図５Ｄに示すように、ＮＮＷ２３は、抽出部２４で特定される文字列中心領域８０Ａと文字列中心領域８０Ｂとが非連結となるようなスコア６１を算出するように、予め学習されてなることが好ましい。

【0056】

このような学習がなされることで、導出部２２がＮＮＷ２３に画像５０Ａを入力すると、抽出部２４で非連結の文字列中心領域８０Ａおよび文字列中心領域８０Ｂを特定するような、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６のスコア６１が出力される。

【0057】

なお、ＮＮＷ２３は、互いに異なる行の文字列５２に対応する文字列中心領域８０が非連結となるようなスコア６１を出力すればよい。このため、文字列中心領域８０Ａの境界領域８２Ａ、および文字列中心領域８０Ｂの境界領域８２Ｂの形状は、例えば、以下の何れかの形状などであってよい。

【0058】

すなわち、図５Ｂ～図５Ｄに示すように、境界領域８２Ａおよび境界領域８２Ｂの形状は、文字列領域８６Ａと文字列領域８６Ｂとが非重複な領域については、各々の文字列領域８６の輪郭に沿った形状である。また、境界領域８２Ａおよび境界領域８２Ｂの形状は、文字列領域８６Ａと文字列領域８６Ｂとが重複する領域については、該重複する領域を通る１または複数の直線から成る領域であればよい（図５Ｂ、図５Ｃ参照）。また、境界領域８２Ａおよび境界領域８２Ｂの形状は、文字列領域８６Ａと文字列領域８６Ｂとが重複する領域については、何れか一方の文字列領域８６の輪郭に沿った形状であってもよい（図５Ｄ参照）。

【0059】

図２に戻り説明を続ける。

【0060】

ＮＮＷ２３は、境界領域らしさ６４の損失の重み係数が、文字列中心領域らしさ６２および背景領域らしさ６６の損失の重み係数より大きい損失関数を最小化するように、予め学習されてなることが好ましい。

【0061】

図６は、損失関数を最小化させる学習の一例の説明図である。

【0062】

例えば、画像５０Ａに含まれる文字列５２Ａと文字列５２Ｂとの一部に重複する重複領域Ｄがある場合を想定する。この場合、この重複領域Ｄを境界領域８２として特定することが困難となる場合がある。

【0063】

そこで、ＮＮＷ２３は、境界領域らしさ６４の損失の重み係数が、文字列中心領域らしさ６２および背景領域らしさ６６の損失の重み係数より大きい損失関数を最小化するように、予め学習されてなることが好ましい。詳細には、ＮＮＷ２３は、下記式（１）によって表される損失関数を最小化するように学習されてなることが好ましい。

【0064】

Ｌ＝ｗ_ｆＬ_ｆ＋ｗ_ｂＬ_ｂ＋ｗ_ｅＬ_ｅ・・・式（１）

【0065】

式（１）中、Ｌは損失関数を表す。Ｌ_ｆは文字列中心領域らしさ６２の損失を表す。ｗ_ｆは、文字列中心領域らしさ６２の損失に対する重み係数を表す。Ｌ_ｂは背景領域らしさ６６の損失を表す。ｗ_ｂは、背景領域らしさ６６の損失に対する重み係数を表す。Ｌ_ｅは境界領域らしさ６４の損失を表す。ｗ_ｅは、境界領域らしさ６４の損失に対する重み係数を表す。

【0066】

式（１）中、境界領域らしさ６４の損失に対する重み係数ｗ_ｅは、文字列中心領域らしさ６２の損失に対する重み係数ｗ_ｆ、および、背景領域らしさ６６の損失に対する重み係数ｗ_ｂより大きい値であればよい。

【0067】

境界領域らしさ６４の損失に対する重み係数ｗ_ｅを、文字列中心領域らしさ６２の損失に対する重み係数ｗ_ｆ、および、背景領域らしさ６６の損失に対する重み係数ｗ_ｂより大きい値とした損失関数Ｌを最小化するようにＮＮＷ２３を学習する。この学習により、導出部２２は、より高精度な境界領域らしさ６４を導出することが可能となる。すなわち、導出部２２は、抽出部２４でより高精度な行画像領域６０を抽出可能な、境界領域らしさ６４を導出することができる。

【0068】

なお、導出部２２は、画像５０の画素領域ごとに、１または複数種類の文字列中心領域らしさ６２、１または複数種類の境界領域らしさ６４、および１または複数種類の背景領域らしさ６６を導出してもよい。

【0069】

文字列中心領域らしさ６２の種類は、文字列中心領域８０を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、文字列中心領域らしさ６２の種類は、含まれる文字列５２の属性、含まれる文字列５２の書字方向、含まれる文字列５２によって表される文の種類、含まれる文字列５２によって表される文字形状、などである。

【0070】

文字列５２の属性は、例えば、英語、漢字、カタカナ、数字、などである。文字列５２の書字方向は、例えば、縦書き、横書き、などである。文字列５２によって表される文の種類は、例えば、住所、電話番号、郵便番号、氏名などである。文の種類は、フィールドタイプと称される場合がある。文字形状は、例えば、手書き、活字、などである。

【0071】

境界領域らしさ６４の種類は、境界領域８２を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、境界領域らしさ６４の種類は、他の文字列中心領域８０の境界領域８２と非重複の領域と、他の文字列中心領域８０の境界領域８２と重複する領域と、に分類される。

【0072】

図７は、境界領域８２の一例の模式図である。例えば、境界領域らしさ６４の種類は、他の文字列中心領域８０に非重複の境界領域８２Ａの境界領域らしさ６４と、他の文字列中心領域８０に重複する境界領域８２Ｂの境界領域らしさ６４と、に分類される。

【0073】

背景領域らしさ６６の種類は、背景領域８４を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、背景領域らしさ６６の種類は、表を表す表領域、図を表す図領域、表および図以外のその他の領域、などである。

【0074】

導出部２２が、画像５０の画素領域ごとに、より複数の種類の、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出する。この導出処理により、抽出部２４では、より高精度に文字列中心領域８０を特定することができる。このため、抽出部２４は、より高精度に行画像領域６０を抽出することができる。

【0075】

図１に戻り説明を続ける。

【0076】

文字列認識部２６は、抽出部２４で抽出された行画像領域６０ごとに、行画像領域６０に含まれる文字を認識し、文字認識結果を出力する。文字列認識部２６による文字認識には、公知の方法を用いればよい。

【0077】

次に、本実施形態の文字列抽出装置１０で実行する情報処理の流れの一例を説明する。

【0078】

図８は、文字列抽出装置１０で実行される情報処理の流れの一例を示すフローチャートである。なお、図８には、文字列抽出装置１０が文字列認識部２６を備える構成である場合の情報処理の流れの一例を示す。

【0079】

導出部２２は、画像５０から、画素領域ごとに文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６の各々を表すスコア６１を導出する（ステップＳ１００）。

【0080】

抽出部２４は、ステップＳ１００で導出されたスコア６１に基づいて、画像５０に含まれる行画像領域６０を抽出する（ステップＳ１０２）。

【0081】

文字列認識部２６は、ステップＳ１０２で抽出された行画像領域６０の文字認識結果を出力する（ステップＳ１０４）。

【0082】

そして、本ルーチンを終了する。

【0083】

以上説明したように、本実施形態の文字列抽出装置１０は、導出部２２と、抽出部２４と、を備える。導出部２２は、ＮＮＷ２３を用いて、文字を記入された記録媒体の画像５０から、画素領域ごとに、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出する。抽出部２４は、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６に基づいて、画像５０に含まれる行ごとの文字列５２の行画像領域６０を抽出する。

【0084】

ここで、従来技術では、複数の文字列５２の行が接近または重複して記入されている場合、複数の文字列５２の行を同一の行の行画像領域として誤特定する場合があった。

【0085】

図９Ａは、従来の行画像領域の特定の一例の説明図である。例えば、非特許文献１に開示されている方法では、複数の文字列５２の行が接近または重複して記入されている場合、重複または接近する領域Ｑを背景として分類することが困難である。このため、従来技術では、図９Ａに示すように、異なる行の文字列５２である文字列５２Ａと文字列５２Ｂとを、同一の行の行画像領域６００として誤特定する場合があった。すなわち、従来技術では、画像５０から行ごとの文字列５２の行画像領域６０を高精度に抽出することは困難であった。

【0086】

一方、本実施形態の文字列抽出装置１０では、抽出部２４が、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６に基づいて、画像５０に含まれる行ごとの文字列５２の行画像領域６０を抽出する。すなわち、本実施形態の文字列抽出装置１０では、文字列中心領域らしさ６２および背景領域らしさ６６のみではなく、境界領域らしさ６４を更に用いて、行画像領域６０を抽出する。

【0087】

このため、図９Ｂに示すように、本実施形態の文字列抽出装置１０では、異なる行の文字列５２である文字列５２Ａと文字列５２Ｂとを、別の行の行画像領域６０Ａおよび行画像領域６０Ｂの各々として抽出することができる。

【0088】

すなわち、本実施形態の文字列抽出装置１０では、文字列中心領域らしさ６２および背景領域らしさ６６に加えて、境界領域らしさ６４を更に用いることで、画素領域ごとに算出される文字列中心領域８０の尤度を高精度に算出することができる。そして、本実施形態の文字列抽出装置１０は、算出した尤度に基づいて特定した文字列中心領域８０を用いることで、高精度に行画像領域６０を抽出することができる。

【0089】

従って、本実施形態の文字列抽出装置１０は、行ごとの文字列５２の行画像領域６０を高精度に抽出することができる。

【0090】

また、本実施形態の文字列抽出装置１０では、文字列中心領域８０は、文字列領域８６内の所定位置に向かって文字列領域８６を第２画素数縮小した領域である。

【0091】

図１０Ａは、文字列領域８６を所定の縮小比率で縮小した場合の説明図である。図１０Ａに示すように、文字列領域８６を所定の縮小比率で縮小した領域を文字列中心領域８０とした場合、文字列中心領域８０の一部が消失する場合がある。

【0092】

図１０Ｂは、文字列領域８６を第２画素数縮小した場合の説明図である。図１０Ｂに示すように、文字列領域８６を第２画素数縮小した領域を文字列中心領域８０とすると、文字列中心領域８０の一部が消失することを抑制することができる。

【0093】

このため、本実施形態の文字列抽出装置１０は、上記効果に加えて、文字列領域８６が複雑な形状である場合であっても、高精度に行画像領域６０を抽出することができる。

【0094】

また、本実施形態の文字列抽出装置１０では、高精度に抽出された行画像領域６０の文字認識が行われることで、上記効果に加えて、画像５０に含まれる文字を高精度に認識することができる。

【0095】

次に、本実施形態の文字列抽出装置１０のハードウェア構成を説明する。

【0096】

図１１は、本実施形態の文字列抽出装置１０の一例のハードウェア構成図である。

【0097】

本実施形態の文字列抽出装置１０は、ＣＰＵ９１などの制御装置と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）９２やＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）９３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ９４と、各部を接続するバス９５と、を備える。

【0098】

本実施形態の文字列抽出装置１０で実行されるプログラムは、ＲＯＭ９２等に予め組み込まれて提供される。

【0099】

本実施形態の文字列抽出装置１０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0100】

さらに、本実施形態の文字列抽出装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の文字列抽出装置１０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0101】

本実施形態の文字列抽出装置１０で実行されるプログラムは、コンピュータを、本実施形態の文字列抽出装置１０の各部として機能させうる。このコンピュータは、ＣＰＵ９１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0102】

上記には、本発明の実施形態を説明したが、本実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。本実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0103】

１０文字列抽出装置
２２導出部
２３ＮＮＷ
２４抽出部

【要約】

【課題】行ごとの文字列の行画像領域を高精度に抽出する。
【解決手段】文字列抽出装置１０は、導出部２２と、抽出部２４と、を備える。導出部２２は、ＮＮＷ２３を用いて、文字を記入された記録媒体の画像５０から、画素領域ごとに、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６を導出する。抽出部２４は、文字列中心領域らしさ６２、境界領域らしさ６４、および背景領域らしさ６６に基づいて、画像５０に含まれる行ごとの文字列５２の行画像領域６０を抽出する。
【選択図】図２