IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許7043670文字列抽出装置、文字列抽出方法、および文字列抽出プログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2022-03-18
(45)【発行日】2022-03-29
(54)【発明の名称】文字列抽出装置、文字列抽出方法、および文字列抽出プログラム
(51)【国際特許分類】
   G06V 30/14 20220101AFI20220322BHJP
【FI】
G06K9/20 340K
【請求項の数】 9
(21)【出願番号】P 2021151644
(22)【出願日】2021-09-17
【審査請求日】2021-09-22
【早期審査対象出願】
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(73)【特許権者】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】田中 遼平
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2021-82056(JP,A)
【文献】特開2017-211976(JP,A)
【文献】特開平6-111070(JP,A)
【文献】遠藤伶, 外2名,“グラフ・コンボリューショナル・ネットワークを用いたボトムアップ型文字列検出技術の検討”,2019年映像情報メディア学会冬季大会 講演予稿集,2019年11月28日
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/14
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出する導出部と、
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出する抽出部と、
を備え
前記境界領域らしさは、境界領域である度合いを示し、
前記境界領域は、
前記文字列領域と前記文字列中心領域との間の全領域である、
文字列抽出装置。
【請求項2】
前記境界領域の形状は、
複数の前記文字列領域が非重複な領域については各々の前記文字列領域の輪郭に沿った形状であり、
複数の前記文字列領域が重複する領域については、該重複する領域を通る1または複数の直線から成る領域、または、何れか一方の前記文字列領域の輪郭に沿った形状である、
請求項1に記載の文字列抽出装置。
【請求項3】
前記抽出部は、
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさを用いて画素領域ごとに算出した前記文字列中心領域の尤度に基づいて、前記画像に含まれる前記文字列中心領域を特定し、
前記文字列中心領域または前記文字列中心領域を第1画素数拡大した領域を、前記行画像領域として抽出する、
請求項1または請求項2に記載の文字列抽出装置。
【請求項4】
前記文字列中心領域は、
前記文字列領域を該文字列領域内の所定位置に向かって第2画素数縮小した領域である、
請求項1請求項3の何れか1項に記載の文字列抽出装置。
【請求項5】
前記ニューラルネットワークは、
互いに異なる行の文字列の前記文字列中心領域が非連結となる、前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさを導出するように、予め学習されてなる、
請求項1~請求項の何れか1項に記載の文字列抽出装置。
【請求項6】
前記ニューラルネットワークは、
前記境界領域らしさの損失の重み係数が、前記文字列中心領域らしさ、および、前記背景領域らしさの損失の重み係数より大きい損失関数を最小化するようにあらかじめ学習されてなる、
請求項1~請求項の何れか1項に記載の文字列抽出装置。
【請求項7】
前記導出部は、
前記画像の画素領域ごとに、
1または複数種類の前記文字列中心領域らしさ、1または複数種類の前記境界領域らしさ、および、1または複数種類の前記背景領域らしさ、を導出する、
請求項1~請求項の何れか1項に記載の文字列抽出装置。
【請求項8】
ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出するステップと、
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出するステップと、
を含み、
前記境界領域らしさは、境界領域である度合いを示し、
前記境界領域は、
前記文字列領域と前記文字列中心領域との間の全領域である、
文字列抽出方法。
【請求項9】
ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出するステップと、
前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出するステップと、
をコンピュータに実行させるための文字列抽出プログラムであって、
前記境界領域らしさは、境界領域である度合いを示し、
前記境界領域は、
前記文字列領域と前記文字列中心領域との間の全領域である、
文字列抽出プログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムに関する。
【背景技術】
【0002】
記録媒体に記入された文字を認識する技術が知られている。例えば、文字を記入された記録媒体の画像に含まれる文字列を行ごとに抽出し、抽出した行ごとに文字認識する技術が開示されている。例えば、学習モデルに画像を入力することで、画像に含まれる文字列の行領域を所定の縮小率縮小した領域を文字列の中心領域として導出する。そして、導出した中心領域を所定比率で拡大した領域を、1行分の文字列の行画像領域として抽出する技術が開示されている(例えば、非特許文献1参照)。
【0003】
しかしながら従来技術では、複数の文字列の行が接近または重複して記入されている場合、複数の文字列の行を同一の行の行画像領域として誤特定する場合があった。すなわち、従来技術では、画像から行ごとの文字列の行画像領域を高精度に抽出することは困難であった。
【先行技術文献】
【特許文献】
【0004】
【文献】Wenhai Wang,et al.“Shape Robust Text Detection with Progressive Scale Expansion Network”2019
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、上記に鑑みてなされたものであって、行ごとの文字列の行画像領域を高精度に抽出することができる、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
実施形態の文字列抽出装置は、導出部と、抽出部と、を備える。導出部は、ニューラルネットワークを用いて、文字を記入された記録媒体の画像の画素領域ごとに、文字列領域内の文字列中心領域らしさ、前記文字列領域と文字列中心領域との間の境界領域らしさ、および、背景領域らしさ、を導出する。抽出部は、前記文字列中心領域らしさ、前記境界領域らしさ、および前記背景領域らしさに基づいて、前記画像に含まれる行ごとの文字列の行画像領域を抽出する。前記境界領域らしさは、境界領域である度合いを示し、前記境界領域は、前記文字列領域と前記文字列中心領域との間の全領域である。
【図面の簡単な説明】
【0007】
図1】実施形態の文字列抽出装置の構成を示すブロック図。
図2】導出部および抽出部による処理の流れを示す模式図。
図3】文字列中心領域、境界領域、および背景領域の説明図。
図4A】行画像領域の模式図。
図4B】行画像領域の模式図。
図5A】NNWの学習の説明図。
図5B】NNWの学習の説明図。
図5C】NNWの学習の説明図。
図5D】NNWの学習の説明図。
図6】損失関数を最小化させる学習の説明図。
図7】境界領域の模式図。
図8】情報処理の流れを示すフローチャート。
図9A】従来の行画像領域の特定の説明図。
図9B】本実施形態の行画像領域の抽出の説明図。
図10A】文字列領域を所定の縮小比率で縮小した説明図。
図10B】文字列領域を第2画素数縮小した説明図。
図11】ハードウェア構成図。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、文字列抽出装置、文字列抽出方法、および文字列抽出プログラムを詳細に説明する。
【0009】
図1は、本実施形態の文字列抽出装置10の構成の一例を示すブロック図である。
【0010】
文字列抽出装置10は、文字を記入された記録媒体の画像から行画像領域を抽出する情報処理装置である。行画像領域の詳細は後述する。
【0011】
文字列抽出装置10は、記憶部12と、通信部14と、UI(ユーザ・インタフェース)部16と、制御部20と、を備える。記憶部12、通信部14、UI部16、および制御部20は、バス18などを介して通信可能に接続されている。
【0012】
記憶部12は、各種のデータを記憶する。記憶部12は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子、ハードディスク、光ディスク等である。なお、記憶部12は、文字列抽出装置10の外部に設けられた記憶装置であってもよい。
【0013】
通信部14は、ネットワーク等を介して外部の情報処理装置と通信する通信インターフェースである。
【0014】
UI部16は、ユーザによる操作入力を受付ける受付機能、および、各種の情報を表示する表示機能を有する。受付機能は、例えば、マウスなどのポインティングデバイスやキーボードなどによって実現される。表示機能は、例えば、ディスプレイによって実現される。なお、UI部16は、受付機能と表示機能を一体的に構成したタッチパネルであってよい。
【0015】
制御部20は、文字列抽出装置10において各種の情報処理を実行する。
【0016】
制御部20は、導出部22と、抽出部24と、文字列認識部26と、を備える。
【0017】
導出部22、抽出部24、および文字列認識部26は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のICなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
【0018】
なお、文字列抽出装置10の制御部20は、少なくとも導出部22および抽出部24を備えた構成であればよく、文字列認識部26を備えない構成であってもよい。例えば、文字列認識部26は、文字列抽出装置10に通信可能に接続された外部の情報処理装置に搭載されていてもよい。
【0019】
図2は、導出部22および抽出部24による処理の流れの一例を示す模式図である。
【0020】
導出部22は、画像50の画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。
【0021】
画像50は、文字を記入された記録媒体の画像である。図2には、画像50の一例として画像50Aを示す。
【0022】
画像50Aには、手書きなどにより記録媒体に記入された文字列52が含まれる。文字列52は、書字方向に沿って記入された1または複数の文字の群である。図2には、「1234」の文字からなる文字列52Aと、「567」の文字からなる文字列52Bと、を一例として示す。文字列52Aおよび文字列52Bは、文字列52の一例である。
【0023】
画素領域とは、1画素または連続(隣接)する複数の画素からなる領域である。
【0024】
文字列中心領域らしさ62とは、文字列中心領域80である度合いを意味する。文字列中心領域らしさ62は、例えば、文字列中心領域らしさ62を表すスコア61などによって表される。境界領域らしさ64とは、境界領域82である度合いを意味する。境界領域らしさ64は、例えば、境界領域らしさ64を表すスコア61などによって表される。背景領域らしさ66とは、背景領域84である度合いを意味する。背景領域らしさ66は、例えば、背景領域らしさ66を表すスコア61などによって表される。
【0025】
図3は、文字列中心領域80、境界領域82、および背景領域84の一例の説明図である。図3には、図2に示す画像50Aに含まれる1行分の文字列52(例えば、文字列52A)を含む領域を拡大した画像50の模式図を示す。
【0026】
文字列領域86は、画像50に含まれる1行分の文字列52の領域である。文字列中心領域80は、文字列領域86内の領域である。文字列領域86内の領域である、とは、文字列領域86内の領域であって、文字列領域86以下のサイズの領域であることを示す。
【0027】
例えば、文字列中心領域80は、文字列領域86内の所定位置に向かって該文字列領域86を第2画素数縮小した領域である。文字列領域86内の所定位置は、文字列領域86の位置であればよく、文字列領域86の中心および中心以外の何れであってもよい。
【0028】
第2画素数は、1以上の画素数であればよく、予め定めればよい。また、第2画素数は、ユーザによるUI部16の操作指示などに応じて変更可能としてもよい。
【0029】
なお、第2画素数は、文字列領域86を第2画素数縮小した領域である文字列中心領域80が該第2画素数分の縮小によって消滅しない画素数に設定される。例えば、文字列領域86の第2画素数分の縮小によって得られる文字列中心領域80の最短辺の幅Yが、該文字列中心領域80が消滅しない画素数以上の幅となるように、第2画素数を定めればよい。文字列中心領域80が消滅しない画素数の最低値は、例えば、1画素である。
【0030】
境界領域82は、画像50における、文字列領域86と文字列中心領域80との間の領域である。言い換えると、境界領域82は、文字列領域86と文字列中心領域80との間の全領域である。すなわち、境界領域82は、ある文字列52の文字列領域86の文字列中心領域80と、他の文字列52の文字列領域86の文字列中心領域80または背景領域84と、の境界を表す領域である。背景領域84は、画像50における、文字列中心領域80、境界領域82、および文字列領域86以外の領域である。
【0031】
なお、境界領域82は、文字列領域86と文字列中心領域80との間の領域を含む領域であればよく、文字列領域86の外側に向かって所定画素数はみ出した領域を含んでいてもよい。この場合、背景領域84を、画像50の全画像領域から全ての文字列領域86を例えば2画素数分拡大した領域を除いた領域とすればよい。そして、境界領域82は、文字列中心領域80と背景領域84以外の領域とすればよい。
【0032】
図2に戻り説明を続ける。
【0033】
導出部22は、画像50の画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。導出部22は、NNW23を用いて、画像50から文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66の各々を表すスコア61を導出する。導出部22の詳細は後述する。
【0034】
抽出部24は、画素領域ごとに導出された文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66に基づいて、画像50に含まれる行画像領域60を抽出する。
【0035】
行画像領域60とは、画像50に含まれる1行分の文字列52の領域である。
【0036】
抽出部24は、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を用いて、画素領域ごとに文字列中心領域らしさ62の尤度を算出する。詳細には、抽出部24は、画素領域ごとに導出された文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66の各々を表すスコア61を、これらのスコア61の合計値が“1”となるように正規化することで、各々の尤度を算出する。
【0037】
そして、抽出部24は、画像50における、文字列中心領域らしさ62の尤度が閾値以上の領域を、文字列中心領域80として特定する。
【0038】
図2には、文字列中心領域らしさ62の尤度が閾値以上の領域を領域63Aとし、境界領域らしさ64の尤度が閾値以上の領域を領域65Aとし、背景領域らしさ66の尤度が閾値以上の領域を領域67Aとして示す。画像50Aを用いた場合、抽出部24は、文字列中心領域らしさ62の尤度が閾値以上の領域として、領域63A1および領域63A2を特定することとなる。領域63A1および領域63A2は、文字列中心領域らしさ62の尤度が閾値以上の領域63Aの一例である。
【0039】
抽出部24は、画像50における、文字列中心領域らしさ62の尤度が閾値以上の領域63Aを、文字列中心領域80として特定する。図2に示す例の場合、抽出部24は、文字列中心領域らしさ62の尤度が閾値以上の領域63A1を、文字列中心領域80Aとして特定する。また、抽出部24は、文字列中心領域らしさ62の尤度が閾値以上の領域63A2を、文字列中心領域80Bとして特定する。文字列中心領域80Aおよび文字列中心領域80Bは、文字列中心領域80の一例である。文字列中心領域80Aは、文字列52Aに対応する文字列領域86Aの文字列中心領域80である。文字列中心領域80Bは、文字列52Bに対応する文字列領域86Bの文字列中心領域80である。
【0040】
抽出部24は、特定した文字列中心領域80、または、特定した文字列中心領域80を第1画素数拡大した領域を、行画像領域60として抽出する。このため、図2に示す例の場合、例えば、抽出部24は、文字列52Aに対応する文字列領域86Aの文字列中心領域80A、または文字列中心領域80Aを第1画素数拡大した領域を、行画像領域60Aとして抽出する。また、抽出部24は、文字列52Bに対応する文字列領域86Bの文字列中心領域80B、または文字列中心領域80Bを第1画素数拡大した領域を、行画像領域60Bとして抽出する。行画像領域60Aおよび行画像領域60Bは、行画像領域60の一例である。
【0041】
第1画素数は、1以上の画素数を表す値であればよい。第1画素数は、文字列中心領域80を第1画素数拡大した領域が該文字列中心領域80を含む文字列領域86の外枠を超えない画素数にあらかじめ調整される。なお、第1画素数は、ユーザによるUI部16の操作指示などに応じて、これらの条件を満たす範囲内で変更可能としてもよい。
【0042】
図4Aおよび図4Bは、行画像領域60の一例の模式図である。
【0043】
図4Aに示すように、例えば、抽出部24は、文字列中心領域80を第1画素数拡大することで、文字列中心領域80を文字列領域86の外枠と一致する範囲にまで拡大した領域を、行画像領域60として抽出する。
【0044】
また、図4Bに示すように、抽出部24は、文字列中心領域80を第1画素数拡大することで、文字列中心領域80を文字列領域86の範囲内で第1画素数拡大した領域を、行画像領域60として抽出してもよい。
【0045】
また、抽出部24は、文字列中心領域80を行画像領域60として抽出してもよい。
【0046】
図2に戻り説明を続ける。導出部22について詳細に説明する。
【0047】
導出部22は、NNW(ニューラルネットワーク)23を備える。導出部22は、NNW23を用いて、画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。
【0048】
NNW23は、画像50を入力とし、画像50の画素領域ごとの、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を出力とする学習モデルである。NNW23は、例えば、CNN(Convolutional Neural Network)、GCN(Graph Convolutional Network)、またはRNN(Recurrent Neural Network)などのニューラルネットワークで構成される深層学習モデル(DNN)である。
【0049】
導出部22は、複数の学習データ70を用いて予めNNW23を学習する。学習データ70は、画像50とスコア61との対である。スコア61は、画素領域ごとの、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66の各々を表すスコアである。学習データ70に含まれるスコア61は、対応する画像50の正解データに相当する。学習データ70に含まれる画像50の少なくとも一部には、斜めに記入された文字列52を含む画像50、複数行の文字列52が接近または重複して記入されている画像50などを用いればよい。
【0050】
導出部22は、抽出部24において特定される互いに異なる行の文字列52の文字列中心領域80が非連結となる、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出するように、NNW23を学習することが好ましい。
【0051】
図5A図5Dは、NNW23の学習の一例の説明図である。
【0052】
例えば、複数の文字列領域86の一部が重なった状態で記録媒体に記入されている場合がある。具体的には、図5Aに示すように、画像50Aに含まれる文字列領域86Aと文字列領域86Bとが重なる場合を想定する。文字列領域86Aおよび文字列領域86Bは、文字列領域86の一例である。文字列領域86Aは、文字列52Aに対応する文字列領域86である。文字列領域86Bは、文字列52Bに対応する文字列領域86である。
【0053】
この場合、導出部22は、抽出部24において特定される互いに異なる行の文字列52の文字列中心領域80が非連結となる、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出するように、NNW23を学習することが好ましい。
【0054】
すなわち、NNW23は、互いに異なる行の文字列52の文字列中心領域80が非連結となる、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出するように、予め学習されてなる。
【0055】
具体的には、図5B図5Dに示すように、NNW23は、抽出部24で特定される文字列中心領域80Aと文字列中心領域80Bとが非連結となるようなスコア61を算出するように、予め学習されてなることが好ましい。
【0056】
このような学習がなされることで、導出部22がNNW23に画像50Aを入力すると、抽出部24で非連結の文字列中心領域80Aおよび文字列中心領域80Bを特定するような、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66のスコア61が出力される。
【0057】
なお、NNW23は、互いに異なる行の文字列52に対応する文字列中心領域80が非連結となるようなスコア61を出力すればよい。このため、文字列中心領域80Aの境界領域82A、および文字列中心領域80Bの境界領域82Bの形状は、例えば、以下の何れかの形状などであってよい。
【0058】
すなわち、図5B図5Dに示すように、境界領域82Aおよび境界領域82Bの形状は、文字列領域86Aと文字列領域86Bとが非重複な領域については、各々の文字列領域86の輪郭に沿った形状である。また、境界領域82Aおよび境界領域82Bの形状は、文字列領域86Aと文字列領域86Bとが重複する領域については、該重複する領域を通る1または複数の直線から成る領域であればよい(図5B図5C参照)。また、境界領域82Aおよび境界領域82Bの形状は、文字列領域86Aと文字列領域86Bとが重複する領域については、何れか一方の文字列領域86の輪郭に沿った形状であってもよい(図5D参照)。
【0059】
図2に戻り説明を続ける。
【0060】
NNW23は、境界領域らしさ64の損失の重み係数が、文字列中心領域らしさ62および背景領域らしさ66の損失の重み係数より大きい損失関数を最小化するように、予め学習されてなることが好ましい。
【0061】
図6は、損失関数を最小化させる学習の一例の説明図である。
【0062】
例えば、画像50Aに含まれる文字列52Aと文字列52Bとの一部に重複する重複領域Dがある場合を想定する。この場合、この重複領域Dを境界領域82として特定することが困難となる場合がある。
【0063】
そこで、NNW23は、境界領域らしさ64の損失の重み係数が、文字列中心領域らしさ62および背景領域らしさ66の損失の重み係数より大きい損失関数を最小化するように、予め学習されてなることが好ましい。詳細には、NNW23は、下記式(1)によって表される損失関数を最小化するように学習されてなることが好ましい。
【0064】
L=w+w+w ・・・式(1)
【0065】
式(1)中、Lは損失関数を表す。Lは文字列中心領域らしさ62の損失を表す。wは、文字列中心領域らしさ62の損失に対する重み係数を表す。Lは背景領域らしさ66の損失を表す。wは、背景領域らしさ66の損失に対する重み係数を表す。Lは境界領域らしさ64の損失を表す。wは、境界領域らしさ64の損失に対する重み係数を表す。
【0066】
式(1)中、境界領域らしさ64の損失に対する重み係数wは、文字列中心領域らしさ62の損失に対する重み係数w、および、背景領域らしさ66の損失に対する重み係数wより大きい値であればよい。
【0067】
境界領域らしさ64の損失に対する重み係数wを、文字列中心領域らしさ62の損失に対する重み係数w、および、背景領域らしさ66の損失に対する重み係数wより大きい値とした損失関数Lを最小化するようにNNW23を学習する。この学習により、導出部22は、より高精度な境界領域らしさ64を導出することが可能となる。すなわち、導出部22は、抽出部24でより高精度な行画像領域60を抽出可能な、境界領域らしさ64を導出することができる。
【0068】
なお、導出部22は、画像50の画素領域ごとに、1または複数種類の文字列中心領域らしさ62、1または複数種類の境界領域らしさ64、および1または複数種類の背景領域らしさ66を導出してもよい。
【0069】
文字列中心領域らしさ62の種類は、文字列中心領域80を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、文字列中心領域らしさ62の種類は、含まれる文字列52の属性、含まれる文字列52の書字方向、含まれる文字列52によって表される文の種類、含まれる文字列52によって表される文字形状、などである。
【0070】
文字列52の属性は、例えば、英語、漢字、カタカナ、数字、などである。文字列52の書字方向は、例えば、縦書き、横書き、などである。文字列52によって表される文の種類は、例えば、住所、電話番号、郵便番号、氏名などである。文の種類は、フィールドタイプと称される場合がある。文字形状は、例えば、手書き、活字、などである。
【0071】
境界領域らしさ64の種類は、境界領域82を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、境界領域らしさ64の種類は、他の文字列中心領域80の境界領域82と非重複の領域と、他の文字列中心領域80の境界領域82と重複する領域と、に分類される。
【0072】
図7は、境界領域82の一例の模式図である。例えば、境界領域らしさ64の種類は、他の文字列中心領域80に非重複の境界領域82Aの境界領域らしさ64と、他の文字列中心領域80に重複する境界領域82Bの境界領域らしさ64と、に分類される。
【0073】
背景領域らしさ66の種類は、背景領域84を予め定めた分類条件に応じて複数グループに分類した各グループのラベルを表す。例えば、背景領域らしさ66の種類は、表を表す表領域、図を表す図領域、表および図以外のその他の領域、などである。
【0074】
導出部22が、画像50の画素領域ごとに、より複数の種類の、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。この導出処理により、抽出部24では、より高精度に文字列中心領域80を特定することができる。このため、抽出部24は、より高精度に行画像領域60を抽出することができる。
【0075】
図1に戻り説明を続ける。
【0076】
文字列認識部26は、抽出部24で抽出された行画像領域60ごとに、行画像領域60に含まれる文字を認識し、文字認識結果を出力する。文字列認識部26による文字認識には、公知の方法を用いればよい。
【0077】
次に、本実施形態の文字列抽出装置10で実行する情報処理の流れの一例を説明する。
【0078】
図8は、文字列抽出装置10で実行される情報処理の流れの一例を示すフローチャートである。なお、図8には、文字列抽出装置10が文字列認識部26を備える構成である場合の情報処理の流れの一例を示す。
【0079】
導出部22は、画像50から、画素領域ごとに文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66の各々を表すスコア61を導出する(ステップS100)。
【0080】
抽出部24は、ステップS100で導出されたスコア61に基づいて、画像50に含まれる行画像領域60を抽出する(ステップS102)。
【0081】
文字列認識部26は、ステップS102で抽出された行画像領域60の文字認識結果を出力する(ステップS104)。
【0082】
そして、本ルーチンを終了する。
【0083】
以上説明したように、本実施形態の文字列抽出装置10は、導出部22と、抽出部24と、を備える。導出部22は、NNW23を用いて、文字を記入された記録媒体の画像50から、画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。抽出部24は、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66に基づいて、画像50に含まれる行ごとの文字列52の行画像領域60を抽出する。
【0084】
ここで、従来技術では、複数の文字列52の行が接近または重複して記入されている場合、複数の文字列52の行を同一の行の行画像領域として誤特定する場合があった。
【0085】
図9Aは、従来の行画像領域の特定の一例の説明図である。例えば、非特許文献1に開示されている方法では、複数の文字列52の行が接近または重複して記入されている場合、重複または接近する領域Qを背景として分類することが困難である。このため、従来技術では、図9Aに示すように、異なる行の文字列52である文字列52Aと文字列52Bとを、同一の行の行画像領域600として誤特定する場合があった。すなわち、従来技術では、画像50から行ごとの文字列52の行画像領域60を高精度に抽出することは困難であった。
【0086】
一方、本実施形態の文字列抽出装置10では、抽出部24が、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66に基づいて、画像50に含まれる行ごとの文字列52の行画像領域60を抽出する。すなわち、本実施形態の文字列抽出装置10では、文字列中心領域らしさ62および背景領域らしさ66のみではなく、境界領域らしさ64を更に用いて、行画像領域60を抽出する。
【0087】
このため、図9Bに示すように、本実施形態の文字列抽出装置10では、異なる行の文字列52である文字列52Aと文字列52Bとを、別の行の行画像領域60Aおよび行画像領域60Bの各々として抽出することができる。
【0088】
すなわち、本実施形態の文字列抽出装置10では、文字列中心領域らしさ62および背景領域らしさ66に加えて、境界領域らしさ64を更に用いることで、画素領域ごとに算出される文字列中心領域80の尤度を高精度に算出することができる。そして、本実施形態の文字列抽出装置10は、算出した尤度に基づいて特定した文字列中心領域80を用いることで、高精度に行画像領域60を抽出することができる。
【0089】
従って、本実施形態の文字列抽出装置10は、行ごとの文字列52の行画像領域60を高精度に抽出することができる。
【0090】
また、本実施形態の文字列抽出装置10では、文字列中心領域80は、文字列領域86内の所定位置に向かって文字列領域86を第2画素数縮小した領域である。
【0091】
図10Aは、文字列領域86を所定の縮小比率で縮小した場合の説明図である。図10Aに示すように、文字列領域86を所定の縮小比率で縮小した領域を文字列中心領域80とした場合、文字列中心領域80の一部が消失する場合がある。
【0092】
図10Bは、文字列領域86を第2画素数縮小した場合の説明図である。図10Bに示すように、文字列領域86を第2画素数縮小した領域を文字列中心領域80とすると、文字列中心領域80の一部が消失することを抑制することができる。
【0093】
このため、本実施形態の文字列抽出装置10は、上記効果に加えて、文字列領域86が複雑な形状である場合であっても、高精度に行画像領域60を抽出することができる。
【0094】
また、本実施形態の文字列抽出装置10では、高精度に抽出された行画像領域60の文字認識が行われることで、上記効果に加えて、画像50に含まれる文字を高精度に認識することができる。
【0095】
次に、本実施形態の文字列抽出装置10のハードウェア構成を説明する。
【0096】
図11は、本実施形態の文字列抽出装置10の一例のハードウェア構成図である。
【0097】
本実施形態の文字列抽出装置10は、CPU91などの制御装置と、ROM(Read Only Memory)92やRAM(Random Access Memory)93などの記憶装置と、ネットワークに接続して通信を行う通信I/F94と、各部を接続するバス95と、を備える。
【0098】
本実施形態の文字列抽出装置10で実行されるプログラムは、ROM92等に予め組み込まれて提供される。
【0099】
本実施形態の文字列抽出装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD-R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0100】
さらに、本実施形態の文字列抽出装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の文字列抽出装置10で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0101】
本実施形態の文字列抽出装置10で実行されるプログラムは、コンピュータを、本実施形態の文字列抽出装置10の各部として機能させうる。このコンピュータは、CPU91がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0102】
上記には、本発明の実施形態を説明したが、本実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。本実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0103】
10 文字列抽出装置
22 導出部
23 NNW
24 抽出部
【要約】
【課題】行ごとの文字列の行画像領域を高精度に抽出する。
【解決手段】文字列抽出装置10は、導出部22と、抽出部24と、を備える。導出部22は、NNW23を用いて、文字を記入された記録媒体の画像50から、画素領域ごとに、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66を導出する。抽出部24は、文字列中心領域らしさ62、境界領域らしさ64、および背景領域らしさ66に基づいて、画像50に含まれる行ごとの文字列52の行画像領域60を抽出する。
【選択図】図2
図1
図2
図3
図4A
図4B
図5A
図5B
図5C
図5D
図6
図7
図8
図9A
図9B
図10A
図10B
図11