(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-25
(45)【発行日】2023-11-02
(54)【発明の名称】文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20231026BHJP
G06T 7/49 20170101ALI20231026BHJP
G06V 30/14 20220101ALI20231026BHJP
【FI】
G06T7/00 350C
G06T7/49
G06V30/14
(21)【出願番号】P 2019209628
(22)【出願日】2019-11-20
【審査請求日】2022-10-04
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】遠藤 伶
(72)【発明者】
【氏名】河合 吉彦
(72)【発明者】
【氏名】望月 貴裕
【審査官】長谷川 素直
(56)【参考文献】
【文献】特開2001-195542(JP,A)
【文献】国際公開第2019/174405(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 30/00
(57)【特許請求の範囲】
【請求項1】
画像内の文字領域を検出するために用いるニューラルネットワークのモデルを学習する文字領域検出モデル学習装置であって、
画像に含まれる単独文字の領域分布を示す文字マップおよび前記画像の特徴を示す特徴マップを生成する単独文字検出モデルを用いて、学習用画像から前記文字マップおよび前記特徴マップを生成する単独文字検出手段と、
前記学習用画像に含まれる単独文字の領域を示す正解データである領域座標から前記学習用画像に含まれる単独文字の領域分布を示す正解マップを生成する正解マップ生成手段と、
前記文字マップと前記正解マップとの誤差を算出する単独文字誤差算出手段と、
前記単独文字誤差算出手段で算出された誤差を小さくする方向に前記単独文字検出モデルのパラメータを更新する第1パラメータ更新手段と、
前記文字マップおよび前記特徴マップから前記単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出するペア属性推定モデルを用いて、前記文字マップで特定される単独文字のペアのペア属性を算出するペア属性算出手段と、
前記学習用画像に含まれる文字列の領域を示す正解データである領域座標から前記単独文字のペアについての正解の属性を求め、前記ペア属性との誤差を算出するペア属性誤差算出手段と、
前記ペア属性誤差算出手段で算出される誤差を小さくする方向に前記ペア属性推定モデルのパラメータを更新する第2パラメータ更新手段と、
を備えることを特徴とする文字領域検出モデル学習装置。
【請求項2】
前記ペア属性推定モデルは、グラフコンボリューションネットワークで構成され、
前記ペア属性算出手段は、
前記文字マップで特定される単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するグラフ構造生成手段と、
前記ペア属性推定モデルを用いて、前記ノードに含まれる単独文字の位置における前記特徴マップの特徴量を前記ノードの特徴量として前記ノードのペア属性を算出するノード属性算出手段と、
を備えることを特徴とする請求項1に記載の文字領域検出モデル学習装置。
【請求項3】
前記第2パラメータ更新手段は、前記ペア属性推定モデルのパラメータとともに、前記単独文字検出モデルのパラメータを重畳して更新することを特徴とする請求項1または請求項2に記載の文字領域検出モデル学習装置。
【請求項4】
前記単独文字検出モデルは、
画像から予め定めたチャンネル数の特徴量を複数の畳み込み層を介して抽出するコンボリューションニューラルネットワークで構成された第1ネットワークと、
前記第1ネットワークで抽出された特徴量に対して、拡大と畳み込み層による畳み込みとを繰り返すことで、予め定めた大きさの前記特徴マップを生成するとともに、前記特徴マップを1チャンネルに畳み込んで前記文字マップを生成するコンボリューションニューラルネットワークで構成された第2ネットワークと、
を連結して構成していることを特徴とする請求項1から請求項3のいずれか一項に記載の文字領域検出モデル学習装置。
【請求項5】
コンピュータを、請求項1から請求項4のいずれか一項に記載の文字領域検出モデル学習装置として機能させるための文字領域検出モデル学習プログラム。
【請求項6】
画像内の文字領域を検出する文字領域検出装置であって、
画像に含まれる単独文字の領域分布を示す文字マップおよび前記画像の特徴を示す特徴マップを生成する学習済のニューラルネットワークで構成された単独文字検出モデルを用いて、入力された画像から前記文字マップおよび前記特徴マップを生成する単独文字検出手段と、
前記文字マップおよび前記特徴マップから前記単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出する学習済のニューラルネットワークで構成されたペア属性推定モデルを用いて、前記文字マップで特定される単独文字のペアのペア属性を算出するペア属性算出手段と、
前記ペア属性で同じ文字列に含まれる単独文字の領域を統合した前記文字領域を算出する文字領域算出手段と、
を備えることを特徴とする文字領域検出装置。
【請求項7】
前記ペア属性推定モデルは、グラフコンボリューションネットワークで構成され、
前記ペア属性算出手段は、
前記文字マップで特定される単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するグラフ構造生成手段と、
前記ペア属性推定モデルを用いて、前記ノードに含まれる単独文字の位置における前記特徴マップの特徴量を前記ノードの特徴量として前記ノードのペア属性を算出するノード属性算出手段と、
を備えることを特徴とする請求項6に記載の文字領域検出装置。
【請求項8】
前記単独文字検出モデルは、
画像から予め定めたチャンネル数の特徴量を複数の畳み込み層を介して抽出するコンボリューションニューラルネットワークで構成された第1ネットワークと、
前記第1ネットワークで抽出された特徴量に対して、拡大と畳み込み層による畳み込みとを繰り返すことで、予め定めた大きさの前記特徴マップを生成するとともに、前記特徴マップを1チャンネルに畳み込んで前記文字マップを生成するコンボリューションニューラルネットワークで構成された第2ネットワークと、
を連結して構成していることを特徴とする請求項6または請求項7に記載の文字領域検出装置。
【請求項9】
コンピュータを、請求項6から請求項8のいずれか一項に記載の文字領域検出装置として機能させるための文字領域検出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像内の文字領域を検出するための文字領域検出モデルを学習する文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出モデルを用いて画像内の文字領域を検出する文字領域検出装置およびそのプログラムに関する。
【背景技術】
【0002】
従来、画像内の文字領域を検出する手法として、文字に正対した形で撮影された画像から、文字領域を検出する手法が一般的であった(例えば、特許文献1参照)。
しかし、このような手法を用いた場合、撮影条件を限定しない情景画像内では、文字領域が矩形形状ではないため、文字領域を検出することは困難であった。
そこで、近年では、機械学習技術(ニューラルネットワーク)を利用して、情景画像内に映った文字領域を検出する手法が種々提案されている。
【0003】
例えば、非特許文献1には、
図11に示すように、文字を含む画像Iを入力した際に、文字列の領域を示す領域座標Oを文字の領域(R1,R2,…)ごとに出力するように学習されたニューラルネットワークNN1を用いて、文字領域を検出する手法が開示されている。この手法は、1文字以上の文字列の単位で文字領域を検出する。
【0004】
また、例えば、非特許文献2には、
図12に示すように、文字を含む画像Iを入力した際に、1文字(単独文字)ごとの領域分布を示す文字マップM
1と、文字間の領域分布を示す文字間マップM
2とを出力するように学習されたニューラルネットワークNN2を用いて、文字領域を検出する手法が開示されている。この手法は、ニューラルネットワークNN2を用いて、画像Iから、文字マップM
1と文字間マップM
2と生成し、それらを重ね合わせたマップM
3を生成する。そして、この手法は、マップM
3の文字・文字間の重複した領域(R1,R2,…)の領域座標Oを文字領域として検出する。
【先行技術文献】
【特許文献】
【0005】
【非特許文献】
【0006】
【文献】Xiaobing Wang, Yingying Jiang, Zhenbo Luo, Cheng-Lin Liu, Hyunsoo Choi, Sungjin Kim, “Arbitrary Shape Scene Text Detection with Adaptive Text Region Representation”, In IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.6449-6458, 2019.
【文献】Youngmin Baek, Bado Lee, Dongyoon Han, Sangdoo Yun, Hwalsuk Lee, “Character Region Awareness for Text Detection” , In IEEE Conference on Computer Vision and Pattern Recognition(CVPR), pp.9365-9374, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献1に記載の手法(以下、従来手法1)では、画像内における検出対象の文字列が占める形状(アスペクト比)は文字数に応じて大きく変化する。そのため、従来手法1は、ニューラルネットワークの学習を十分に行うことが困難であり、例えば、顔認識等の領域形状が安定した物体の検出に比べ、高精度に文字列を検出することができないという問題がある。
【0008】
これに対し、非特許文献2に記載の手法(以下、従来手法2)は、ニューラルネットを用いて単独文字と文字間とを検出するため、検出対象となる領域の形状が比較的安定しており、従来手法1よりは文字列の検出精度を上げることができる。
しかし、従来手法2は、単独文字と文字間との統合を、単純なルールベースのアルゴリズムで行うため、例えば、狭い範囲に複数の文字列が密集している場合に、それらを1つの文字列として検出する等、文字列の密集の度合いによっては、正しく文字列を検出することができないという問題がある。
【0009】
本発明は、このような問題に鑑みてなされたものであり、画像内の文字領域を精度よく検出することが可能なモデルを学習する文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0010】
前記課題を解決するため、本発明に係る文字領域検出モデル学習装置は、画像内の文字領域を検出するために用いるニューラルネットワークのモデルを学習する文字領域検出モデル学習装置であって、単独文字検出手段と、正解マップ生成手段と、単独文字誤差算出手段と、第1パラメータ更新手段と、ペア属性算出手段と、ペア属性誤差算出手段と、第2パラメータ更新手段と、を備える構成とした。
【0011】
かかる構成において、文字領域検出モデル学習装置は、単独文字検出手段によって、単独文字検出モデルを用いて、学習用画像から文字マップおよび特徴マップを生成する。単独文字検出モデルは、画像の特徴を示す特徴マップを生成するニューラルネットワークと、特徴マップから画像に含まれる単独文字の領域分布を示す文字マップを生成するニューラルネットワークとを連結して構成することができる。
また、文字領域検出モデル学習装置は、正解マップ生成手段によって、学習用画像に含まれる単独文字の領域を示す正解データである領域座標から学習用画像に含まれる単独文字の領域分布を示す正解マップを生成する。
そして、文字領域検出モデル学習装置は、単独文字誤差算出手段によって、文字マップと正解マップとの誤差を算出する。
そして、文字領域検出モデル学習装置は、第1パラメータ更新手段によって、単独文字誤差算出手段で算出された誤差を小さくする方向に単独文字検出モデルのパラメータを更新する。これによって、文字領域検出モデル学習装置は、単独文字の位置を検出するための単独文字検出モデルを学習することができる。
【0012】
また、文字領域検出モデル学習装置は、ペア属性算出手段によって、ペア属性推定モデルを用いて、文字マップで特定される単独文字のペアのペア属性を算出する。ペア属性推定モデルは、文字マップおよび特徴マップから単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出するニューラルネットワークで構成することができる。
そして、文字領域検出モデル学習装置は、ペア属性誤差算出手段によって、学習用画像に含まれる文字列の領域を示す正解データである領域座標から単独文字のペアについての正解の属性を求め、ペア属性算出手段で算出されたペア属性との誤差を算出する。
そして、文字領域検出モデル学習装置は、第2パラメータ更新手段によって、ペア属性誤差算出手段で算出される誤差を小さくする方向にペア属性推定モデルのパラメータを更新する。これによって、文字領域検出モデル学習装置は、単独文字のペアが同じ文字列を構成する文字であるか否かを判定するためのペア属性推定モデルを学習することができる。
なお、文字領域検出モデル学習装置は、コンピュータを、前記した各手段として機能させるための文字領域検出モデル学習プログラムで動作させることができる。
【0013】
また、前記課題を解決するため、本発明に係る文字領域検出装置は、画像内の文字領域を検出する文字領域検出装置であって、単独文字検出手段と、ペア属性算出手段と、文字領域算出手段と、を備える構成とした。
【0014】
かかる構成において、文字領域検出装置は、単独文字検出手段によって、画像に含まれる単独文字の領域分布を示す文字マップおよび画像の特徴を示す特徴マップを生成する学習済のニューラルネットワークで構成された単独文字検出モデルを用いて、入力された画像から文字マップおよび特徴マップを生成する。
そして、文字領域検出装置は、ペア属性算出手段によって、文字マップおよび特徴マップから単独文字のペアが同じ文字列に含まれるか否かを示すペア属性を算出する学習済のニューラルネットワークで構成されたペア属性推定モデルを用いて、文字マップで特定される単独文字のペアのペア属性を算出する。
【0015】
そして、文字領域検出装置は、文字領域算出手段によって、ペア属性で同じ文字列に含まれる単独文字の領域を統合した文字領域を算出する。例えば、文字領域算出手段は、同じ文字列の単独文字の領域を含む外接矩形等によって文字領域を算出する。
これによって、文字領域検出装置は、画像内において、文字列として認識される文字領域を検出する。
なお、文字領域検出装置は、コンピュータを、前記した各手段として機能させるための文字領域検出プログラムで動作させることができる。
【発明の効果】
【0016】
本発明は、以下に示す優れた効果を奏するものである。
本発明は、ニューラルネットワークの学習によって、単独文字同士が同じ文字列に属するか否かを判定するため、従来のような単純なルールベースのアルゴリズムで文字列の判定を行う手法に比べて、柔軟に文字列の判定を行うことができる。
これによって、本発明は、従来の手法に比べて、画像から精度よく文字領域を検出することができる。
【図面の簡単な説明】
【0017】
【
図1】本発明の第1実施形態に係る文字領域検出モデル学習装置の構成を示すブロック図である。
【
図2】単独文字検出モデルのニューラルネットワークの構成例を示すネットワーク図である。
【
図3】正解マップ生成手段における正解マップを生成する手法を説明するための説明図である。
【
図4】ペア属性算出手段のグラフ構造生成手段におけるグラフ構造を生成する手法を説明するための説明図である。
【
図5】ペア属性算出手段のノード属性算出手段が算出する文字のペア属性を説明するための説明図である。
【
図6】ペア属性推定モデルのニューラルネットワークの構成例を示すネットワーク図である。
【
図7】特徴マップと文字位置の特徴量との関係を説明するための説明図である。
【
図8】本発明の第1実施形態に係る文字領域検出モデル学習装置の動作を示すフローチャートである。
【
図9】本発明の第2実施形態に係る文字領域検出装置の構成を示すブロック図である。
【
図10】本発明の第2実施形態に係る文字領域検出装置の動作を示すフローチャートである。
【
図11】従来の第1の文字領域検出手法の概要を示す概要図である。
【
図12】従来の第2の文字領域検出手法の概要を示す概要図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について図面を参照して説明する。
〔文字領域検出モデル学習装置の構成〕
図1を参照して、本発明の第1実施形態に係る文字領域検出モデル学習装置1の構成について説明する。
【0019】
文字領域検出モデル学習装置1は、画像内の文字領域を検出するために用いるニューラルネットワークのモデル(文字領域検出モデル)を学習するものである。
文字領域検出モデル学習装置1は、学習用画像ILと学習用正解データDLとを対とした学習データを用いて学習を行う。
【0020】
学習用画像ILは、1文字以上の文字列を1ヶ所以上含んだ画像である。ここでは、学習用画像ILを、チャンネル数C、高さH画素、幅W画素(C×H×W)とする。例えば、学習用画像ILとして、RGBのカラー画像を用いた場合、チャンネル数は“3”である。
【0021】
学習用正解データDLは、対となる学習用画像ILに含まれる単独文字領域座標データD1と、文字列領域座標データD2とで構成される。
単独文字領域座標データD1は、学習用画像IL内の1文字(単独文字)ごとの領域座標C1,C2,…,Cm(mは画像内に含まれる文字数)である。この単独文字の領域座標は、単独文字を囲む4角形の4頂点の座標で構成される。また、単独文字を囲む4角形は、矩形である必要はなく、台形、平行四辺形、不等辺四辺形等、文字の変形形状に応じた形状であればよい。
【0022】
文字列領域座標データD2は、学習用画像IL内の文字列ごとの領域座標S1,S2,…,Sn(nは画像内に含まれる文字列数)である。この文字列の領域座標は、文字列を構成する単独文字を1文字以上囲む多角形の各頂点の座標で構成される。また、文字列を囲む多角形は、文字列を含めば、台形、平行四辺形、不等辺四辺形等、どのような形状でも構わないが、単独文字の内包を簡易に判定するため、矩形形状の4角形が好ましい。
なお、文字列は、1文字以上の文字のまとまりを示す。しかし、分かち書きで記述された英文の文章のように空白を挟んだ文章の場合、1つの文章を、空白で区切った複数の文字列とするか、空白を含んだ1つの文字列とするかは、文字領域をどの単位で検出したいかによって、予め定めておけばよい。例えば、「I have a dog.」を、「I」、「have」、「a」および「dog.」の4つの文字列とするか、「I have a dog.」の1つの文字列とするかは、いずれか一方に予め定めて学習データを生成しておく。
【0023】
図1に示すように、文字領域検出モデル学習装置1は、単独文字検出手段10と、正解マップ生成手段11と、単独文字誤差算出手段12と、パラメータ更新手段13と、ペア属性算出手段14と、ペア属性誤差算出手段15と、パラメータ更新手段16と、モデル記憶手段17と、を備える。
【0024】
単独文字検出手段10は、画像に含まれる単独文字の領域分布を示す文字マップおよび画像の特徴を示す特徴マップを生成するニューラルネットワークで構成された単独文字検出モデルN1を用いて、学習用画像ILから文字マップおよび特徴マップを生成するものである。
【0025】
単独文字検出モデルN1は、画像に対して畳み込み演算を行うことで特徴量を生成する第1ネットワークと、特徴量に対して畳み込み演算を行い画像の大きさに対応した特徴マップを生成し、特徴マップに対して畳み込み演算を行うことで文字マップを生成する第2ネットワークとを連結したニューラルネットワークのモデルである。
【0026】
ここで、
図2を参照(適宜
図1参照)して、単独文字検出モデルN
1の構成例について説明する。
図2に示すように、単独文字検出モデルN
1は、第1ネットワークN
11と第2ネットワークN
12とを連結したニューラルネットワークとして構成することができる。
【0027】
第1ネットワークN11は、画像Iに対して複数の畳み込み層を介して特徴量fを抽出するコンボリューションニューラルネットワークである。この第1ネットワークN11は、例えば、VGG(Visual Geometry Group)等の既存のネットワークを用いることができる。なお、第1ネットワークN11は、VGG以外にも、ResNet(Residual Network)、Inception等、一般的な物体認識ネットワークの特徴抽出部分のネットワークを用いることができる。
【0028】
第2ネットワークN12は、第1ネットワークN11で抽出される特徴量fに対して、拡大と畳み込み層による畳み込みとを繰り返すことで、予め定めた大きさの特徴マップMfを生成するとともに、畳み込み層を介して特徴マップMfから1チャンネルの文字マップMcを生成するネットワークである。
この第2ネットワークN12は、特徴量fを拡大し、拡大した特徴量に同じ大きさの第1ネットワークN11で生成された中間特徴量を連結して畳み込みを行う処理を、特徴量が予め定めた大きさになるまで繰り返す。なお、畳み込みに際し、必ずしも中間特徴量を連結する必要はないが、特徴量の下層への畳み込みを行わないパスを設けることで、モデル学習時における勾配消失を防止することができるため好ましい。
【0029】
特徴マップMfは、特徴量fを画像Iの画素に対応付けた情報である。特徴マップMfは、例えば、画像Iがチャンネル数“3”、高さH画素、幅W画素(3×H×W)で、特徴量fのチャンネル数が“16”の場合、チャンネル数“16”、高さH画素、幅W画素(16×H×W)となる。
【0030】
文字マップMcは、画像Iに含まれる単独文字の領域分布を示す情報である。文字マップMcのチャンネル数は“1”で、高さおよび幅は、特徴マップMfと同じH画素およびW画素(1×H×W)である。この文字マップMcが後記する正解マップ生成手段11で生成される正解マップとなるように、単独文字検出モデルN
1が学習されることになる。
図1に戻って、文字領域検出モデル学習装置1の構成について説明を続ける。
【0031】
単独文字検出手段10は、生成した文字マップを単独文字誤差算出手段12に出力する。また、単独文字検出手段10は、生成した特徴マップおよび文字マップをペア属性算出手段14に出力する。
【0032】
正解マップ生成手段11は、学習用正解データDLから、学習用画像ILに含まれる単独文字の領域分布を示す情報である正解マップを生成するものである。
ここでは、正解マップ生成手段11は、単独文字の中心と単独文字以外の領域とで異なる値を割り当て、単独文字の中心から単独文字領域の縁に近づくほど、単独文字以外の領域の値に近づくように値を割り当てることで、正解マップを生成する。
例えば、正解マップ生成手段11は、単独文字の中心の画素値を“1.0”(例えば、256階調における画素値“255”に相当)、単独文字以外の領域の画素値を“0.0”(例えば、256階調における画素値“0”に相当)とし、単独文字の中心から単独文字領域の縁に近づくほど“0.0”に近づくように値を割り当てる。
【0033】
ここで、
図3を参照(適宜
図1参照)して、正解マップの生成手法について説明する。なお、
図3では、説明を簡略化するため、1文字のみ記載された学習用画像I
Lを例として説明するが、複数文字が記載されている場合でも同様である。
図3に示すように、学習用画像I
Lに単独文字“A”が存在し、学習用正解データD
Lの単独文字領域座標データD1の1つの単独文字の領域座標(例えば、C
1)として、4頂点P1,P2,P3,P4が設定されていたとする。
このとき、正解マップ生成手段11は、二次元ガウス分布を適用した正方形画像(例えば、256×256画素)Gdを生成する。ここでは、正方形画像Gdの中心の画素値を“1.0”、画像端の画素値を“0.0”とする。
【0034】
そして、正解マップ生成手段11は、学習用画像I
Lと同じ大きさで全面に“0.0”の値を初期設定した正解マップMrの4頂点P1,P2,P3,P4と、正方形画像Gdの4頂点とが一致するように、正方形画像Gdを透視変換して、正解マップMrに上書きする。
これによって、正解マップ生成手段11は、学習用正解データD
Lに含まれる単独文字の分布領域として、単独文字の中心位置と領域形状とを模式的に表した正解マップMrを生成することができる。
図1に戻って、文字領域検出モデル学習装置1の構成について説明を続ける。
【0035】
単独文字誤差算出手段12は、単独文字検出手段10で生成された文字マップと、正解マップ生成手段11で生成された正解マップとの誤差を算出するものである。
単独文字誤差算出手段12における誤差計算には、例えば、平均二乗誤差(MSE:Mean squared error)、バイナリ交差エントロピ(Binary cross-entropy)等、文字マップと正解マップとの各画素値の差が大きいほど、大きな値を誤差として算出する関数を用いることができる。
単独文字誤差算出手段12は、算出した文字マップと正解マップとの誤差をパラメータ更新手段13に出力する。
【0036】
パラメータ更新手段(第1パラメータ更新手段)13は、単独文字誤差算出手段12で算出された誤差を小さくするように、単独文字検出モデルN1のパラメータを更新するものである。
パラメータ更新手段13におけるパラメータの更新には、例えば、確率的勾配降下法(SGD:Stochastic Gradient Descent)、Adam(Adaptive moment estimation)等、一般的なニューラルネットワークの最適化手法を用いることができる。
パラメータ更新手段13は、確率的勾配降下法等によって、モデル記憶手段17に記憶されている単独文字検出モデルN1のパラメータを更新する。
【0037】
ペア属性算出手段14は、ニューラルネットワークで構成されたペア属性推定モデルN2を用いて、単独文字検出手段10で検出された単独文字の各ペアが、同じ文字列に属する文字か否かを示すペア属性を算出するものである。
ペア属性算出手段14は、グラフ構造生成手段140と、ノード属性算出手段141と、を備える。
【0038】
グラフ構造生成手段140は、単独文字検出手段10で生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するものである。
グラフ構造生成手段140は、文字マップにおいて局所値(ここでは、局所最大値)を持つ画素の位置を単独文字の位置とし、グラフ構造を生成する。ただし、グラフ構造生成手段140は、局所最大値のうち、予め定めた閾値(例えば、0.5)を超える画素を単独文字の位置とすることが好ましい。そして、グラフ構造生成手段140は、単独文字の位置に対応付けて、固有のラベルを付与する。
なお、グラフ構造生成手段140において、検出された単独文字が1文字以下の場合、ペア属性算出手段14は、ペア属性の算出を行わないこととする。
【0039】
ここで、
図4を参照(適宜
図1参照)して、グラフ構造生成手段140が生成するグラフ構造の例について説明する。
図4に示すように、文字マップMcに4つの単独文字が存在しているものとする。なお、
図4中、「a」,「b」,「c」,「d」は、説明の都合上、単独文字の位置を識別するためのラベルとして記載したもので、実際に文字マップMc上に記述されているものではない。
【0040】
グラフ構造生成手段140は、単独文字のすべてのペアとなる「ab」,「ac」,「ad」,「ba」,「bc」,「bd」,「ca」,「cb」,「cd」,「da」,「db」,「dc」の12個のペアをそれぞれノードNとして設定する。
【0041】
なお、グラフ構造生成手段140は、これらすべてのノードを必ずしもすべて使用する必要はない。例えば、グラフ構造生成手段140は、ノードに含まれる単独文字同士の距離(画像上の距離)が離れていると判断される場合、そのノードを除外することとしてもよい。
具体的には、グラフ構造生成手段140は、単独文字ごとに、当該単独文字を含むノードのペア間の距離が短い方から順に順位付けし、予め定めた数n(例えば、n=5)を超えるノードを削除候補とする。そして、グラフ構造生成手段140は、ノードに含まれる両方の単独文字で、当該ノードが削除対象となったものを削除する。
【0042】
例えば、
図4において、単独文字「b」に着目した場合、「b」を含むノードは、ペア間の距離が「ab」=「bd」<「bc」となる。ここで、予め定めた数nを“2”とした場合、グラフ構造生成手段140は、ノード「bc」を除外候補とする。同様に、単独文字「c」に着目した場合、「c」を含むノードは、ペア間の距離が「ac」=「cd」<「bc」となり、ノード「bc」が除外候補となる。
このように、単独文字「b」,「c」について、両方ともノード「bc」が除外候補となったため、グラフ構造生成手段140は、ノード「bc」を除外する。
なお、単独文字のペアにおいて、いずれか一方が除外候補となった場合に、そのペアのノードを削除することとしてもよい。
あるいは、グラフ構造生成手段140は、ノードに含まれる単独文字のペア間の距離が予め定めた閾値を上回る場合に、そのノードを除外することとしてもよい。
【0043】
また、グラフ構造生成手段140は、設定したそれぞれのノードNにおいて、「ab」,「ac」のように、同じ単独文字(ここでは、「a」)のラベルを共通に含むノードN間にエッジEを設定する。一方、グラフ構造生成手段140は、「ab」,「cd」のように、同じ単独文字を含まないノードN間にはエッジEを設定しないものとする。
これによって、グラフ構造生成手段140は、単独文字のペア(ラベル対)をノードN、ノードN同士で同一の単独文字を持つノード間をエッジEで接続したグラフ構造Gを生成する。なお、
図4のグラフ構造Gは、一部のノードおよびエッジを省略している。
図1に戻って、文字領域検出モデル学習装置1の構成について説明を続ける。
【0044】
グラフ構造生成手段140は、生成したグラフ構造を単独文字の位置とともにノード属性算出手段141に出力する。
【0045】
ノード属性算出手段141は、ニューラルネットワークで構成されたペア属性推定モデルN
2を用いて、グラフ構造生成手段140で生成されたグラフ構造と、特徴マップとに基づいて、単独文字同士のペア属性を算出するものである。
このノード属性算出手段141は、ペア属性推定モデルN
2を用いて、
図5に示すように、グラフ構造GのノードNごとに、ノード属性としてペア属性を算出する。
ペア属性(ノード属性)は、単独文字が同じ文字列に属するペアである属性(例えば、属性値“0”)と、異なる文字列に属するペアである属性(例えば、属性値“1”)の2種類である。なお、
図5では、「a」および「b」が同じ文字列に属し、「c」および「d」が同じ文字列に属している状態を示している。
【0046】
ここで、
図6を参照(適宜
図1参照)して、ペア属性推定モデルN
2の構成例について説明する。
図6に示すように、ペア属性推定モデルN
2は、グラフコンボリューションネットワーク(GCN:Graph Convolutional Networks)で構成される。なお、
図6のペア属性推定モデルN
2は、
図4に例示したグラフ構造Gの「ab」のノードにエッジを接続するノードについて図示しているが、他のノードについても同様である。
ペア属性推定モデルN
2は、エッジEで接続されたノードNに対応する2つの単独文字の特徴量を、ノード特徴量として入力し、順次畳み込み演算を行うことで、ノードNごとにペア属性を出力するネットワークである。
【0047】
単独文字の特徴量は、
図7に示すように、チャンネル数“C”、高さH画素、幅W画素(C×H×W)の特徴マップMfにおいて、単独文字の位置に対応する1チャンネルごとの値をチャンネル数分合算した数値列である。
例えば、
図6において、ペア属性推定モデルN
2に入力する「ab」のノードNの場合、当該ノードに対応するノード特徴量は、「a」の特徴量faと「b」の特徴量fbとを要素ごとに足し合わせた数値列とする。他のノードについても同様である。
ペア属性推定モデルN
2は、出力として、ノードNごとに“0”~“1”の範囲の値となるペア属性を出力する。
【0048】
図1に戻って、文字領域検出モデル学習装置1の構成について説明を続ける。
ノード属性算出手段141は、ペア属性推定モデルN
2を用いて算出したノード(ラベル対)ごとのペア属性を、2つの単独文字の位置とともに、ペア属性誤差算出手段15に出力する。
【0049】
ペア属性誤差算出手段15は、学習用正解データDLに基づいて、ペア属性算出手段14で算出されたペア属性の誤差を算出するものである。
ペア属性誤差算出手段15は、学習用正解データDLの文字列領域座標データD2の領域座標S1~Snを参照し、ペア属性算出手段14で算出されたペア属性に対応する2つ単独文字の位置が同じ領域に含まれるか否かを正解属性とし、ペア属性と正解属性との誤差を算出する。
【0050】
正解属性は、ペア属性と同様に2種類とし、ペア属性に対応する2つ単独文字の位置が同じ領域に含まれる場合、正解属性の値を“0”、同じ領域に含まれない場合、正解属性の値を“1”とする。正解属性が“0”の場合、2つ単独文字は同じ文字列に含まれ、正解属性が“1”の場合、2つ単独文字は異なる文字列に含まれることになる。
ペア属性誤差算出手段15における誤差計算には、交差エントロピ(Cross-entropy)等、算出したペア属性が正解属性と異なる場合に値が大きくなる関数を用いることができる。
ペア属性誤差算出手段15は、算出したノードごとのペア属性と正解属性との誤差を、パラメータ更新手段16に出力する。
【0051】
パラメータ更新手段(第2パラメータ更新手段)16は、ペア属性誤差算出手段15で算出された2つの単独文字のペア属性と正解属性との誤差を小さくするように、単独文字検出モデルN1およびペア属性推定モデルN2のパラメータを更新するものである。
パラメータ更新手段16におけるパラメータの更新には、例えば、確率的勾配降下法(SGD)、Adam等、一般的なニューラルネットワークの最適化手法を用いることができる。
パラメータ更新手段16は、確率的勾配降下法等によって、モデル記憶手段17に記憶されている単独文字検出モデルN1およびペア属性推定モデルN2のパラメータを更新する。
【0052】
なお、単独文字検出モデルN1のパラメータは、パラメータ更新手段13において更新されるため、必ずしもパラメータ更新手段16において更新する必要はない。
しかし、パラメータ更新手段16において、単独文字検出モデルN1のパラメータを重畳して更新することで、文字列を精度よく検出するための単独文字の特徴を抽出することが可能になる。
【0053】
モデル記憶手段17は、画像内の文字領域を検出するためのニューラルネットワークで構成された文字領域検出モデルのパラメータを記憶するものである。このモデル記憶手段17は、半導体メモリ等の一般的な記憶媒体で構成することができる。
文字領域検出モデルは、単独文字検出モデルN1およびペア属性推定モデルN2で構成される。
単独文字検出モデルN1のパラメータは、単独文字検出手段10によって参照され、パラメータ更新手段13およびパラメータ更新手段16によって更新される。
ペア属性推定モデルN2のパラメータは、ペア属性算出手段14によって参照され、パラメータ更新手段16によって更新される。
【0054】
以上説明したように文字領域検出モデル学習装置1を構成することで、文字領域検出モデル学習装置1は、画像内の文字領域を検出するための文字領域検出モデル(単独文字検出モデルN1およびペア属性推定モデルN2)を学習することができる。
【0055】
このように、文字領域検出モデル学習装置1は、文字列の判定をニューラルネットワークで学習することで、複数の文字列が狭い範囲に密集している場合等、複雑な状態で画像内に文字列が存在している場合でも、精度よく文字列の領域を判定することが可能なモデルを学習することができる。
なお、文字領域検出モデル学習装置1は、コンピュータを、前記した各手段として機能させるための文字領域検出モデル学習プログラムで動作させることができる。
【0056】
〔文字領域検出モデル学習装置の動作〕
次に、
図8を参照(構成については適宜
図1参照)して、本発明の第1実施形態に係る文字領域検出モデル学習装置1の動作について説明する。
ステップS10において、単独文字検出手段10は、学習用画像I
Lを入力する。
ステップS11において、単独文字検出手段10は、モデル記憶手段17に記憶されている単独文字検出モデルN
1を用いて、学習用画像I
Lに対応する画像特徴である特徴マップと、学習用画像I
Lに対応する単独文字の領域分布を示す文字マップとを生成する。
ステップS12において、正解マップ生成手段11は、学習用正解データD
Lから、学習用画像I
L内の単独文字ごとの正解の領域を示す正解マップを生成する。
【0057】
ステップS13において、単独文字誤差算出手段12は、ステップS11で生成された文字マップと、ステップS12で生成された正解マップとの誤差を算出する。
ステップS14において、パラメータ更新手段13は、ステップS13で算出された誤差を小さくするように、単独文字検出モデルN1のパラメータを更新する。
【0058】
ステップS15において、ペア属性算出手段14のグラフ構造生成手段140は、文字マップにおいて局所最大値を持つ画素の位置を単独文字の位置として検出する。
ステップS16において、グラフ構造生成手段140は、単独文字の位置が2以上検出されたか否かを判定する。
ここで、単独文字の位置が2以上検出されなかった場合(ステップS16でNo)、ペア属性算出手段14は、ペア属性の算出を行わずに、ステップS22に動作を移す。
一方、単独文字の位置が2以上検出された場合(ステップS16でYes)、ステップS17において、ペア属性算出手段14のグラフ構造生成手段140は、ステップS11で生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成する。
【0059】
ステップS18において、ペア属性算出手段14のノード属性算出手段141は、モデル記憶手段17に記憶されているペア属性推定モデルN2を用いて、ステップS11で生成された特徴マップと、ステップS17で生成されたグラフ構造とから、ノード属性として、単独文字同士のペア属性を算出する。
ステップS19において、ペア属性誤差算出手段15は、学習用正解データDLの文字列領域座標データD2の領域座標S1~Snを参照し、ステップS18で算出されたペア属性に対応する2つ単独文字の位置が同じ領域に含まれるか否かの属性を、正解属性として生成する。
【0060】
ステップS20において、ペア属性誤差算出手段15は、ステップS19で生成された正解属性と、ステップS18で算出されたペア属性との誤差を算出する。
ステップS21において、パラメータ更新手段16は、ステップS20で算出された誤差を小さくするように、単独文字検出モデルN1およびペア属性推定モデルN2のパラメータを更新する。
【0061】
ステップS22において、文字領域検出モデル学習装置1は、予め定めた学習の終了条件を満たしたか否かを判定する。ここで、学習の終了条件は、例えば、すべての学習データ(学習用画像IL、学習用正解データDL)による学習が終了した場合、パラメータ更新手段13,16におけるパラメータの更新が予め定めた閾値内に収束した場合等である。
ここで、まだ、終了条件に達していない場合(ステップS22でNo)、文字領域検出モデル学習装置1は、ステップS10に戻って動作を継続する。
一方、終了条件に達した場合(ステップS22でYes)、文字領域検出モデル学習装置1は、動作を終了する。
【0062】
〔文字領域検出装置の構成〕
次に、
図9を参照して、本発明の第2実施形態に係る文字領域検出装置2の構成について説明する。
【0063】
文字領域検出装置2は、文字領域検出モデル学習装置1(
図1)で学習された文字領域検出モデル(単独文字検出モデルN
1およびペア属性推定モデルN
2)を用いて、画像内の文字領域を検出するものである。
文字領域検出装置2は、単独文字検出手段10Bと、ペア属性算出手段14Bと、モデル記憶手段17Bと、文字領域算出手段18と、を備える。
【0064】
単独文字検出手段10Bは、画像に含まれる単独文字の領域分布を示す文字マップおよび画像の特徴を示す特徴マップを生成するニューラルネットワークで構成された学習済の単独文字検出モデルN
1を用いて、画像Iから文字マップおよび特徴マップを生成するものである。
この単独文字検出手段10Bは、入力する画像Iが文字領域を検出する対象の画像である点、文字マップの出力先が文字領域算出手段18である点を除いて、文字領域検出モデル学習装置1(
図1)の単独文字検出手段10と同じ機能を有する。
【0065】
ペア属性算出手段14Bは、ニューラルネットワークで構成された学習済のペア属性推定モデルN2を用いて、単独文字検出手段10Bで検出された単独文字の各ペアが、同じ文字列に属する文字か否かを示すペア属性を算出するものである。
ペア属性算出手段14Bは、グラフ構造生成手段140Bと、ノード属性算出手段141Bと、を備える。
【0066】
グラフ構造生成手段140Bは、単独文字検出手段10Bで生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成するものである。
このグラフ構造生成手段140Bは、基本的に文字領域検出モデル学習装置1(
図1)のグラフ構造生成手段140と同じ機能を有する。
ただし、グラフ構造生成手段140Bは、文字マップにおいて局所値(ここでは、局所最大値)を持つ画素の位置として、単独文字の位置が1つしか検出されなかった場合、グラフ構造の生成を行わず、文字領域算出手段18に単独文字の位置のみを通知することとする。なお、単独文字の位置が1つも検出されなかった場合、図示を省略した表示装置にその旨を表示することとしてもよい。
【0067】
ノード属性算出手段141Bは、ニューラルネットワークで構成された学習済のペア属性推定モデルN
2を用いて、グラフ構造生成手段140Bで生成されたグラフ構造と、特徴マップとに基づいて、単独文字同士のペア属性を算出するものである。
このノード属性算出手段141Bは、ペア属性の出力先が文字領域算出手段18である点を除いて、文字領域検出モデル学習装置1(
図1)のノード属性算出手段141と同じ機能を有する。
【0068】
モデル記憶手段17Bは、文字領域検出モデル学習装置1(
図1)で学習された文字領域検出モデル(単独文字検出モデルN
1およびペア属性推定モデルN
2)を記憶するものである。このモデル記憶手段17Bは、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0069】
文字領域算出手段18は、単独文字検出手段10Bで生成された文字マップと、ペア属性算出手段14Bで算出されたペア属性とに基づいて、同じ文字列に含まれる単独文字の領域を統合した文字領域を算出するものである。
文字領域算出手段18は、単独文字領域検出手段180と、文字領域統合手段181と、を備える。
【0070】
単独文字領域検出手段180は、単独文字の位置における単独文字の領域を検出するものである。ここでは、単独文字領域検出手段180は、ペア属性算出手段14Bからペア属性とともに入力される単独文字の位置(ここでは、局所最大値の位置)における単独文字の領域を検出する。なお、単独文字領域検出手段180は、ペア属性算出手段14Bから、単独文字の位置を1つだけ入力した場合、1つの単独文字の領域を検出する。
【0071】
具体的には、単独文字領域検出手段180は、単独文字検出手段10Bで生成された文字マップにおいて、単独文字の位置を既知の前景とし、ラベルを割り当てる。また、単独文字領域検出手段180は、単独文字以外の領域を示す値として設定されている画素値(ここでは、“0.0”)の領域を背景とする。そして、単独文字領域検出手段180は、前景および背景と設定した画素以外の画素が前景であるどの単独文字の領域に属するかを判定することで、単独文字の領域を検出する。
【0072】
このように、前景と背景とを分割する手法は、一般的な領域分割手法を用いればよく、例えば、Watershed(分水嶺)アルゴリズムを用いることができる。Watershedアルゴリズムは、画像の局所値(ここでは、局所最大値)に前景を設定し、画像の輝度勾配によって前景の輪郭を検出する手法である。
これによって、単独文字領域検出手段180は、単独文字ごとの領域を検出することができる。
単独文字領域検出手段180は、検出した単独文字ごとの領域を、単独文字を識別するラベルとともに、文字領域統合手段181に出力する。
【0073】
文字領域統合手段181は、単独文字領域検出手段180で検出された単独文字の領域を、同じ文字列を構成する領域に統合するものである。
文字領域統合手段181は、ペア属性算出手段14で算出されたペア属性に基づいて、同じ文字列に属する単独文字領域検出手段180で検出された単独文字の領域を統合する。
この文字領域統合手段181は、予め定めた閾値(例えば、0.5)よりも大きい値となるペア属性の単独文字を同じ文字列に属するものとする。
【0074】
文字領域統合手段181は、統合した領域を、画像Iに含まれる文字領域として外部に出力する。なお、文字領域統合手段181は、単独文字が1つのみの場合、当該単独文字の領域を1文字の文字列とみなして文字領域を外部に出力する。
この文字領域統合手段181において、外部に出力する文字領域の出力形式は特に限定されるものではない。例えば、同じ文字列に含まれるすべての単独文字の領域に外接する外接矩形の4つの頂点の座標(合計8つの数値)、外接矩形の中心座標(あるいは左上座標)、幅および高さ(合計4つの数値)等である。なお、回転を含んで外接矩形を設定する場合であれば、外接矩形の中心座標(あるいは左上座標)、幅、高さおよび回転角(合計5つの数値)等である。
もちろん、出力形式は、外接矩形に限定されず、最小外接円や多角形ポリゴンであってもよい。
【0075】
以上説明したように文字領域検出装置2を構成することで、文字領域検出装置2は、ニューラルネットワークである文字領域検出モデル(単独文字検出モデルN1およびペア属性推定モデルN2)を用いて、画像内の文字領域を検出することができる。
これによって、文字領域検出装置2は、複数の文字列が狭い範囲に密集している場合等、複雑な状態で画像内に文字列が存在している場合でも、精度よく文字列の領域を検出することができる。
なお、文字領域検出装置2は、コンピュータを、前記した各手段として機能させるための文字領域検出プログラムで動作させることができる。
【0076】
〔文字領域検出装置の動作〕
次に、
図10を参照(構成については適宜
図9参照)して、本発明の第2実施形態に係る文字領域検出装置2の動作について説明する。なお、モデル記憶手段17Bには、予め文字領域検出モデル学習装置1(
図1)で学習された文字領域検出モデル(単独文字検出モデルN
1およびペア属性推定モデルN
2)が記憶されているものとする。
【0077】
ステップS30において、単独文字検出手段10Bは、画像Iを入力する。
ステップS31において、単独文字検出手段10Bは、モデル記憶手段17Bに記憶されている単独文字検出モデルN1を用いて、画像Iに対応する画像特徴である特徴マップと、画像Iに対応する単独文字の領域分布を示す文字マップとを生成する。
【0078】
ステップS32において、ペア属性算出手段14Bのグラフ構造生成手段140Bは、文字マップにおいて局所最大値を持つ画素の位置を単独文字の位置として検出する。
ステップS33において、グラフ構造生成手段140Bは、単独文字の位置を検出したか否かを判定する。
ここで、単独文字の位置を検出できなかった場合(ステップS33でNo)、文字領域検出装置2は、動作を終了する。
一方、単独文字の位置を検出できた場合(ステップS33でYes)、ステップS34において、グラフ構造生成手段140Bは、単独文字の位置が2以上検出されたか否かを判定する。
ここで、単独文字の位置が2以上検出されなかった場合(ステップS34でNo)、ペア属性算出手段14は、ペア属性の算出を行わずに、ステップS37に動作を移す。
【0079】
一方、単独文字の位置が2以上検出された場合(ステップS34でYes)、ステップS35において、ペア属性算出手段14Bのグラフ構造生成手段140Bは、ステップS31で生成された文字マップに基づいて、単独文字のペアをノードとし、ノード同士で同一の単独文字を持つノード間をエッジで接続したグラフ構造を生成する。
ステップS36において、ペア属性算出手段14Bのノード属性算出手段141Bは、モデル記憶手段17Bに記憶されているペア属性推定モデルN2を用いて、ステップS31で生成された特徴マップと、ステップS35で生成されたグラフ構造とから、ノード属性として、単独文字同士のペア属性を算出する。
【0080】
ステップS37において、文字領域算出手段18の単独文字領域検出手段180は、Watershedアルゴリズム等によって、文字マップにおいて、ステップS32で検出された単独文字の位置における単独文字の領域を検出する。
【0081】
ステップS38において、文字領域算出手段18の文字領域統合手段181は、ステップS36で算出されたペア属性に基づいて、同じ文字列に属するステップS37で検出された単独文字の領域を文字領域として統合する。なお、単独文字が1文字の場合、文字領域統合手段181は、単独文字が1文字の領域を文字列の文字領域とする。
ステップS39において、文字領域統合手段181は、文字領域を所定の出力形式に変換して外部に出力する。
以上の動作によって、文字領域検出装置2は、画像内に存在する文字列の領域を検出することができる。
【0082】
以上、本発明の実施形態について説明したが、本発明は、これらの実施形態に限定されるものではない。
〔変形例〕
ここでは、
図2で説明した単独文字検出モデルN
1は、入力する画像Iの大きさ(H×Wと、出力する特徴マップMfおよび文字マップMcの大きさ(H×W)を、同じ大きさとした。しかし、この大きさは、高さWと幅Wとの比が同じであれば、必ずしも同じ大きさである必要はない。
【0083】
例えば、特徴マップMfおよび文字マップMcの大きさを、1/2(H/2×W/2)、1/4(H/4×W/4)等、予め定めた縮小比で縮小した大きさとしてもよい。
この場合、文字領域検出モデル学習装置1は、学習用正解データDLの単独文字領域座標データD1や、文字列領域座標データD2の領域座標の座標値を同じ縮小比で縮小して使用すればよい。
また、この場合、文字領域検出装置2は、文字領域算出手段18において、出力する文字領域の座標を、縮小比の逆数で拡大すればよい。
これによって、文字領域検出モデル学習装置1および文字領域検出装置2における計算処理負荷を軽減させることができる。ただし、この場合、小さい文字列の検出精度を劣化させることになるため、処理負荷と精度とのトレードオフによって、特徴マップMfおよび文字マップMcの大きさを予め定めればよい。
【0084】
また、ここでは、
図6で説明したペア属性推定モデルN
2は、ノードの特徴量として、
図7に示す特徴マップMfから生成される2つの単独文字の特徴量を合算したものを用いた。しかし、ノードの特徴量は、これに限定されるものではない。
例えば、単独文字の特徴量を合算したものではなく、連結したものを用いてもよい。その場合、「ab」,「ba」のようにノードを構成する単独文字が同じであっても、連結する順序が異なるものは異なるノードとして扱う方が望ましい。ただし、ノードの数が2倍になるため、メモリ消費量の観点から合算を使い、「ab」,「ba」を同一のノードとして扱うことが好ましい。
【0085】
また、例えば、ノードの特徴量には、特徴マップMfから生成される特徴量に、さらに、ノードに属する単独文字のペア間の距離、角度特徴等の幾何学的特徴量を付加してもよい。
具体的には、ペアとなる2つの単独文字の位置座標をP1=(x1,x2)、P2=(x2,y2)とした場合、以下の式(1)に示すペア間の距離dを用いればよい。また、角度特徴として、以下の式(2)、式(3)に示す正弦値sinθ、余弦値cosθを用いればよい。
【0086】
【0087】
これによって、文字領域検出モデル学習装置1は、ペア属性推定モデルN2をさらに精度よく学習することができる。また、文字領域検出装置2は、ペア属性推定モデルN2を用いてさらに精度よく文字領域を検出することができる。
【0088】
また、ここでは、ペア属性推定モデルN2を、グラフコンボリューションネットワーク(GCN)で構成した。
しかし、ペア属性推定モデルN2は、例えば、線形結合構造で構成された他のニューラルネットワークで構成しても構わない。ただし、ペアの属性を検出する精度と、メモリの使用効率の観点から、ペア属性推定モデルN2は、GCNで構成することが好ましい。
【0089】
また、ここでは、ペア属性を、2つの単独文字が同じ文字列に含まれるか否かを示す属性としたが、さらに、他の属性を追加してもよい。
例えば、2つの単独文字が、「同じ文字列に含まれ、かつ、隣り合う文字であるか否か」、「同じ文字列に含まれ、かつ、一方の単独文字が文字列の先頭に位置するか否か」等の単独文字の位置に関する属性を追加してもよい。
この場合、文字領域検出装置2は、文字領域算出手段18において、文字領域を出力する際に、単独文字の位置関係を属性として併せて出力すればよい。
この位置関係の属性は、文字領域内の文字認識を行う場合の有用な情報として活用することができる。
【符号の説明】
【0090】
1 文字領域検出モデル学習装置
10 単独文字検出手段
11 正解マップ生成手段
12 単独文字誤差算出手段
13 パラメータ更新手段(第1パラメータ更新手段)
14 ペア属性算出手段
140 グラフ構造生成手段
141 ノード属性算出手段
15 ペア属性誤差算出手段
16 パラメータ更新手段(第2パラメータ更新手段)
17 モデル記憶手段
2 文字領域検出装置
10B 単独文字検出手段
14B ペア属性算出手段
140B グラフ構造生成手段
141B ノード属性算出手段
17B モデル記憶手段
18 文字領域算出手段
180 単独文字領域検出手段
181 文字領域統合手段
N1 単独文字検出モデル(文字領域検出モデル)
N11 第1ネットワーク
N22 第2ネットワーク
N2 ペア属性推定モデル(文字領域検出モデル)
Mf 特徴マップ
Mc 文字マップ