IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許7566544情報処理装置、情報処理方法、およびプログラム
<>
  • 特許-情報処理装置、情報処理方法、およびプログラム 図1
  • 特許-情報処理装置、情報処理方法、およびプログラム 図2
  • 特許-情報処理装置、情報処理方法、およびプログラム 図3
  • 特許-情報処理装置、情報処理方法、およびプログラム 図4
  • 特許-情報処理装置、情報処理方法、およびプログラム 図5
  • 特許-情報処理装置、情報処理方法、およびプログラム 図6
  • 特許-情報処理装置、情報処理方法、およびプログラム 図7
  • 特許-情報処理装置、情報処理方法、およびプログラム 図8
  • 特許-情報処理装置、情報処理方法、およびプログラム 図9
  • 特許-情報処理装置、情報処理方法、およびプログラム 図10
  • 特許-情報処理装置、情報処理方法、およびプログラム 図11
  • 特許-情報処理装置、情報処理方法、およびプログラム 図12
  • 特許-情報処理装置、情報処理方法、およびプログラム 図13
  • 特許-情報処理装置、情報処理方法、およびプログラム 図14
  • 特許-情報処理装置、情報処理方法、およびプログラム 図15
  • 特許-情報処理装置、情報処理方法、およびプログラム 図16
  • 特許-情報処理装置、情報処理方法、およびプログラム 図17
  • 特許-情報処理装置、情報処理方法、およびプログラム 図18
  • 特許-情報処理装置、情報処理方法、およびプログラム 図19
  • 特許-情報処理装置、情報処理方法、およびプログラム 図20
  • 特許-情報処理装置、情報処理方法、およびプログラム 図21
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-04
(45)【発行日】2024-10-15
(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム
(51)【国際特許分類】
   G06V 30/24 20220101AFI20241007BHJP
   G06V 30/148 20220101ALI20241007BHJP
【FI】
G06V30/24 630A
G06V30/148
【請求項の数】 10
(21)【出願番号】P 2020155243
(22)【出願日】2020-09-16
(65)【公開番号】P2022049172
(43)【公開日】2022-03-29
【審査請求日】2023-06-09
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(73)【特許権者】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】伊部 早紀
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2000-207495(JP,A)
【文献】特開2011-258129(JP,A)
【文献】特開2006-331354(JP,A)
【文献】小山俊哉 外4名,帳票データ入力システム FormDataEntry,富士ゼロックステクニカルレポート,日本,富士ゼロックス株式会社,2016年03月17日,第25号,pp.82~90
【文献】古畑彰夫 外2名,高精度な文字認識を実現したAIによる学習手法,東芝レビュー VOL.74 NO.5[online],2019年09月24日,第74巻 第5号,pp.34~37
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/00 - 30/12
G06V 30/14 - 30/168
G06V 30/18 - 30/222
G06V 30/224
G06V 30/226 - 30/32
G06V 30/40 - 30/416
G06V 30/42 - 30/424
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
1以上の文字ラベルを含む文字列画像である入力画像を取得する入力情報取得部と、
取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する尤度取得部と、
取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する文字区間検出部と、
検出された前記入力画像に含まれる文字ラベルの区間を出力する出力部と
を備え
前記文字区間検出部は、取得された複数の前記サブラベルの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、判定された複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出し、
前記文字区間検出部は、取得された複数の前記サブラベルの尤度がそれぞれ所定の閾値以上である空間的位置を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、
前記所定の閾値とは、前記サブラベルに応じて異なる値である
情報処理装置。
【請求項2】
前記入力情報取得部は、前記入力画像から空間的な特徴量を抽出する特徴抽出部を備え、
前記尤度取得部は、前記入力画像から抽出された前記特徴量に基づいて、前記予測モデルから前記サブラベルの尤度を取得する
請求項1に記載の情報処理装置。
【請求項3】
前記文字区間検出部は、隣り合う前記サブラベルの範囲が少なくとも1点以上の空間的位置を共有する場合に、隣り合う前記サブラベルの空間的位置を結合させることにより、前記入力画像に含まれる文字ラベルの区間を検出する
請求項1又は請求項2に記載の情報処理装置。
【請求項4】
前記文字ラベルは、空白である文字に対応する空白ラベルを含み、
前記尤度取得部は、前記予測モデルから、前記空白ラベルを含む前記文字ラベルについて、前記サブラベルの尤度を取得し、
前記所定の閾値とは、前記空白ラベルの尤度に基づいて定められる
請求項1から請求項3のいずれか一項に記載の情報処理装置。
【請求項5】
前記尤度取得部は、
前記予測モデルである第1予測モデルから、前記サブラベルの尤度である第1尤度を取得する第1尤度取得部と、
前記予測モデルであり、前記第1予測モデルとは異なる第2予測モデルから、前記サブラベルの尤度である第2尤度を取得する第2尤度取得部とを更に備え、
前記文字区間検出部は、前記第1尤度取得部により取得された前記第1尤度と、前記第2尤度取得部により取得された前記第2尤度とに基づき、前記入力画像に含まれる前記文字ラベルの区間を検出し、
前記第1予測モデルにおける前記サブラベルの分割数と、前記第2予測モデルにおける前記サブラベルの分割数とは、互いに異なる
請求項1から請求項のいずれか一項に記載の情報処理装置。
【請求項6】
前記第1予測モデルにおける前記サブラベルの分割数は、前記第2予測モデルにおける前記サブラベルの分割数より小さく、
前記文字区間検出部は、前記第2尤度が所定の条件を満たす場合には、前記第2尤度に対応する前記サブラベルが存在すると予測される空間的位置に基づき前記文字ラベルの区間を検出し、前記第2尤度が所定の条件を満たさない場合には、前記第1尤度に対応する前記サブラベルが存在すると予測される空間的位置に基づき前記文字ラベルの区間を検出する
請求項に記載の情報処理装置。
【請求項7】
前記サブラベルの空間的位置は、前記文字ラベルの空間的位置を単一の方向に分割することにより構成される
請求項1から請求項のいずれか一項に記載の情報処理装置。
【請求項8】
1以上の文字ラベルを含む文字列画像である入力画像を取得する入力情報取得部と、
取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する尤度取得部と、
取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する文字区間検出部と、
検出された前記入力画像に含まれる文字ラベルの区間を出力する出力部と
を備え、
前記尤度取得部は、
前記予測モデルである第1予測モデルから、前記サブラベルの尤度である第1尤度を取得する第1尤度取得部と、
前記予測モデルであり、前記第1予測モデルとは異なる第2予測モデルから、前記サブラベルの尤度である第2尤度を取得する第2尤度取得部とを更に備え、
前記文字区間検出部は、前記第1尤度取得部により取得された前記第1尤度と、前記第2尤度取得部により取得された前記第2尤度とに基づき、前記入力画像に含まれる前記文字ラベルの区間を検出し、
前記第1予測モデルにおける前記サブラベルの分割数と、前記第2予測モデルにおける前記サブラベルの分割数とは、互いに異なる
情報処理装置。
【請求項9】
コンピュータに、
1以上の文字ラベルを含む文字列画像である入力画像を取得する入力情報取得ステップと、
取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する尤度取得ステップと、
取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する文字区間検出ステップと、
検出された前記入力画像に含まれる文字ラベルの区間を出力する出力ステップと
を実行させるプログラムであって、
前記文字区間検出ステップは、取得された複数の前記サブラベルの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、判定された複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出し、
前記文字区間検出ステップは、取得された複数の前記サブラベルの尤度がそれぞれ所定の閾値以上である空間的位置を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、
前記所定の閾値とは、前記サブラベルに応じて異なる値である
プログラム
【請求項10】
1以上の文字ラベルを含む文字列画像である入力画像を取得する入力情報取得工程と、
取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する尤度取得工程と、
取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する文字区間検出工程と、
検出された前記入力画像に含まれる文字ラベルの区間を出力する出力工程と
を有し、
前記文字区間検出工程は、取得された複数の前記サブラベルの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、判定された複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出し、
前記文字区間検出工程は、取得された複数の前記サブラベルの尤度がそれぞれ所定の閾値以上である空間的位置を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、
前記所定の閾値とは、前記サブラベルに応じて異なる値である
情報処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、情報処理装置、情報処理方法、およびプログラムに関する。
【背景技術】
【0002】
文字列認識における個別文字の位置を推定する代表的な手法として、空白や文字の接続部をもとに文字の断片を検出し、検出された文字の断片を組み合わせて文字を構成させる手法が知られている。空白や文字の接続部の検出のための手法としては、例えば、ディープニューラルネットワーク(DNN)を用いた手法が知られている。このような従来技術によれば、同じ文字が連続する文字列の場合、それぞれの個別文字の領域を適切に検出できない、という問題点があった。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2013-097590号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、入力された文字列に含まれる個別文字の区間を、適切に検出することができる情報処理装置、情報処理方法、およびプログラムを提供することである。
【課題を解決するための手段】
【0005】
実施形態の情報処理装置は、入力情報取得部と、尤度取得部と、文字区間検出部と、出力部とを持つ。入力情報取得部は、1以上の文字ラベルを含む文字列画像である入力画像を取得する。尤度取得部は、取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する。文字区間検出部は、取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する。出力部は、検出された前記入力画像に含まれる文字ラベルの区間を出力する。前記文字区間検出部は、取得された複数の前記サブラベルの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、判定された複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する。前記文字区間検出部は、取得された複数の前記サブラベルの尤度がそれぞれ所定の閾値以上である空間的位置を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、前記所定の閾値とは、前記サブラベルに応じて異なる値である。
【図面の簡単な説明】
【0006】
図1】第1の実施形態に係る予測モデルについて説明するための図。
図2】第1の実施形態に係るサブラベルについて説明するための図。
図3】第1の実施形態に係る位置行列について説明するための図。
図4】第1の実施形態に係る空白ラベルについて説明するための図。
図5】第1の実施形態に係る情報処理装置の機能構成を示すブロック図。
図6】第1の実施形態に係る文字区間検出部の機能構成を示すブロック図。
図7】第1の実施形態に係る判定部が、サブラベルが存在すると予測される空間的位置を判定するために用いる所定の条件の一例について説明するための図。
図8】第1の実施形態に係るサブラベルの空間的位置に矛盾が生じている場合の一例と、矛盾が生じていない場合の一例について説明するための図。
図9】第1の実施形態に係るサブラベルについて、隣り合うサブラベルが少なくとも1点以上の空間的位置を共有する場合の一例について説明するための図。
図10】第1の実施形態に係る所定の閾値がサブラベルごとに異なる場合の一例を説明するための図。
図11】第1の実施形態に係る入力情報取得部の機能構成の変形例を示すブロック図。
図12】第1の実施形態に係る情報処理装置の一連の動作を示すフローチャート。
図13】第1の実施形態に係る情報処理装置を用いた場合の効果について説明するための図。
図14】第2の実施形態に係る尤度取得部の機能構成を示すブロック図。
図15】第2の実施形態に係る情報処理装置の一連の動作を示すフローチャート。
図16】第3の実施形態に係るサブラベルについて説明するための図。
図17】第3の実施形態に係る尤度について説明するための図。
図18】第4の実施形態に係るサブラベルについて説明するための図。
図19】第4の実施形態に係る尤度について説明するための図。
図20】第4の実施形態に係る情報処理装置の一連の動作を示すフローチャート。
図21】従来技術による文字列認識の問題点について説明するための図。
【発明を実施するための形態】
【0007】
以下、実施形態の情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。
【0008】
[従来技術]
図21を参照しながら、従来技術による文字列認識の問題点について説明する。図21は、従来技術による文字列認識の問題点について説明するための図である。同図を参照しながら、入力画像90に文字91と、文字92とが記載されている場合の一例について説明する。入力画像90は、例えば、所定の範囲に手書きされた複数の文字を含む。この一例において、入力画像90に含まれる文字91及び文字92は、いずれも“2”を示す数字である。以後の説明において、文字91及び文字92が記載される方向をx軸方向、x軸方向に直行する方向をy軸方向と記載する場合がある。
【0009】
図21(A)は、文字91及び文字92がx軸方向において互いに重なり合わない位置に存在する場合における、従来技術による文字列認識を行う場合の一例である。同図において、文字91のx軸方向における終端は位置911であり、文字92のx軸方向における始端は位置921である。同図における一例では、x軸方向に、文字91と文字92とが互いに幅W1の距離だけ離れている。このような場合、従来技術による文字列認識によれば、文字の接続部をもとに文字の断片を検出し、検出された文字の断片を組み合わせて文字を構成させるため、入力画像90に記載された文字列が“22”であることを認識できる。
【0010】
図21(B)は、文字91及び文字92がx軸方向において互いに重なり合う位置に存在する場合における、従来技術による文字列認識を行う場合の一例である。同図において、文字91のx軸方向の終端は位置911であり、文字92のx軸方向の始端は位置921である。同図における一例では、x軸方向に、文字91と文字92とが互いに幅W2の距離だけ重なり合っている。このような場合、従来技術による文字列認識によれば、文字の接続部を認識することができず、入力画像90に記載された文字列は“2”であると誤認識してしまう場合があった。
【0011】
本実施形態では、上述したような、x軸方向において文字と文字との間に空白を含まず、同一の文字が連続する入力画像についても誤認識をすることなく、精度よく文字認識をすることができる技術を提供することを目的とする。
【0012】
[第1の実施形態]
以下、第1の実施形態について図面を参照しながら説明する。本実施形態に係る情報処理装置10が適用される文字列認識問題の具体例としては、文字列の書かれた画像を入力として、書かれている文字列の存在する区間を認識するタスクである。本実施形態では左から右に書かれる横書きの文字列について説明する。なお、本実施形態においては、左から右に書かれる横書きの文字列に限定されず、縦書きの文字列や、所定の範囲内に自由に配置された文字列についても同様である。入力される文字列の種類としては、数字、アルファベット、漢字等の文字及びこれらの組み合わせを広く含む。また、本実施形態においては文字列が手書きにより記載されている場合の一例について説明するが、この一例に限定されない。例えば、入力される文字列とは、文字列が記載された標識や道路標示、看板等を撮像した画像等であってもよい。
【0013】
図1は、第1の実施形態に係る予測モデル20について説明するための図である。情報処理装置10は、学習済みモデルである予測モデル20により、入力画像IMに含まれる複数の文字が存在する区間である文字ラベルの区間LAを検出する。同図においては、入力画像IMに“1958”の4つの文字ラベルを含む文字列について説明する。
【0014】
[予測モデルの学習]
本実施形態に係る予測モデル20は、学習時に入力画像IMの文字区間情報の分布化を行う。具体的には、予測モデル20は、文字ラベルLを複数のサブラベルSLに分割し、それぞれのサブラベルの尤度を学習する。
【0015】
図2は、第1の実施形態に係るサブラベルSLについて説明するための図である。同図においては、文字ラベルLが“5”である場合の一例を説明する。図2(A)は、文字ラベルLを2つのサブラベルSLに分割した場合の図である。同図に示す一例においては、文字ラベルLが、x軸方向に左から順にサブラベルSL1と、サブラベルSL2に分割されている。図2(B)は、文字ラベルLを3つのサブラベルSLに分割した場合の図である。同図に示す一例においては、文字ラベルLが、x軸方向に左から順にサブラベルSL1と、サブラベルSL2と、サブラベルSL3に分割されている。すなわち、本実施形態においては、サブラベルSLの空間的位置は、文字ラベルLの空間的位置を単一の方向に分割することにより構成される。
【0016】
図1に戻り、入力画像IMに含まれる複数の文字ラベルLは、それぞれm個のサブラベルSLに分割される。具体的には、入力画像IMは、4つの文字ラベルを有しているため、1つ目の文字ラベルL1は、SL11からSL1mのサブラベルSLに分割され、2つ目の文字ラベルL2は、SL21からSL2mのサブラベルSLに分割され、3つ目の文字ラベルL3は、SL31からSL3mのサブラベルSLに分割され、4つ目の文字ラベルL4は、SL41からSL4mのサブラベルSLに分割される。予測モデル20は、文字ラベルLが複数に分割されたサブラベルSLの区間情報と、サブラベルSLの画像情報とを対応付けて位置行列として学習する。
【0017】
図3は、第1の実施形態に係る位置行列について説明するための図である。同図を参照しながら、位置行列について説明する。図3(A)は、入力画像IMの一例を示す図である。図3(B)は、図3(A)に示される入力画像IMに対応する位置行列について説明するための図である。この一例における入力画像IMに示される文字列は、“3356”である。
【0018】
それぞれの文字ラベルLは、サブラベルSL1及びサブラベルSL2に分割される。位置行列中において“3start”は、文字ラベルLが“3”である場合のサブラベルSL1に対応し、“3end”は、文字ラベルLが“3”である場合のサブラベルSL2に対応する。また、“5start”は、文字ラベルLが“5”である場合のサブラベルSL1に対応し、“5end”は、文字ラベルLが“5”である場合のサブラベルSL2に対応する。“6start”は、文字ラベルLが“6”である場合のサブラベルSL1に対応し、“6end”は、文字ラベルLが“6”である場合のサブラベルSL2に対応する。すなわち、位置行列は、文字ラベルLに含まれるサブラベルSLの種類と、入力画像IMのうちサブラベルSLが存在する空間的位置とを対応付けて記憶する。
【0019】
図4は、第1の実施形態に係る空白ラベルSLSについて説明するための図である。同図を参照しながら、空白ラベルSLSについて説明する。空白ラベルSLSとは、入力画像IMのx軸方向において、文字が存在しない区間におけるラベルである。すなわち、本実施形態においては、空白も文字の一つとして扱われる。換言すれば、文字ラベルLには、空白である文字に対応する空白ラベルSLSが含まれる。位置行列は、空白ラベルSLSを含んでいてもよい。図4(A)は、入力画像IMの一例を示す図である。図4(B)は、図4(A)に示される入力画像IMに対応する位置行列について説明するための図である。この一例における入力画像IMに示される文字列は、“35”である。
【0020】
この一例において、入力画像IMに含まれる文字ラベルLである“3”と、“5”との間には、x軸方向において空白である区間が存在する。空白ラベルSLSは、当該区間を示すラベルである。空白ラベルSLSは、例えば、“Space”として、位置行列に記憶される。
【0021】
なお、予測モデル20は、サブラベルSLの画像情報に基づき、サブラベルSLの尤度を学習する場合の一例に限定されない、例えば、予測モデル20は、所定のニューラルネットワークNNにより入力画像IMから抽出された特徴量に基づき、サブラベルSLの尤度を学習するよう構成されていてもよい。
【0022】
[予測モデルによる文字ラベルの区間の検出]
図1に戻り、情報処理装置10は、学習された予測モデル20を使用して、入力画像IMから文字ラベルLの区間を検出する。情報処理装置10は、入力画像IMに含まれる複数の文字ラベルLごとに、サブラベルSLの尤度分布Pを、予測モデル20から取得する。入力画像IMがn個の文字ラベルLを含み、文字ラベルLがm個のサブラベルSLに分割されている場合の一例において、情報処理装置10は、サブラベルSLごとに尤度分布Pを取得する。すなわち、情報処理装置10は、予測モデル20からn×m個の尤度分布Pを取得する。
【0023】
情報処理装置10は、取得した複数のサブラベルSLの尤度分布Pに基づき、それぞれの文字ラベルの区間LAを検出する。入力画像IMに、文字ラベルL1から文字ラベルL4までの4個の文字ラベルLが含まれる場合、情報処理装置10は、文字ラベルL1から文字ラベルL4までの文字ラベルの区間LAをそれぞれ検出する。
【0024】
なお、予測モデル20の学習時において、情報処理装置10は、学習させた予測モデル20を用いて予測される入力画像IMに含まれる文字ラベルの区間LAと、同一の入力画像IMの文字ラベルの区間LAを検出した場合の検出結果とを比較し、分布間距離が小さくなるよう予測モデル20を更新させてもよい。
【0025】
[情報処理装置の機能構成]
図5は、第1の実施形態に係る情報処理装置10の機能構成を示すブロック図である。同図を参照しながら、情報処理装置10の機能構成について説明する。情報処理装置10は、入力情報取得部110と、尤度取得部120と、文字区間検出部130と、出力部140とを備える。
【0026】
入力情報取得部110は、所定の方法により、1以上の文字ラベルLを含む文字列画像である入力画像IMを取得する。
【0027】
尤度取得部120は、取得された入力画像IMに含まれる文字ラベルLが有する複数のサブラベルSLのそれぞれの尤度を予測モデル20から取得する。予測モデル20は、サブラベルSLの尤度を算出するよう学習された学習済みモデルである。すなわち、尤度取得部120は、取得された入力画像IMに基づいて、文字ラベルLを複数の領域に分割したサブラベルSLの尤度を算出するよう学習された予測モデル20から、サブラベルSLの尤度を取得する。なお、文字ラベルLに空白ラベルSLSが含まれる場合、尤度取得部120は、予測モデル20から、空白ラベルSLSを含む文字ラベルLについて、サブラベルSLの尤度を取得する。
【0028】
文字区間検出部130は、取得されたサブラベルSLの尤度に基づき、入力画像IMに含まれる文字ラベルLの区間を検出する。文字区間検出部130は、サブラベルSLがそれぞれ存在すると予測される空間的位置に矛盾が生じない場合には、複数のサブラベルSLがそれぞれ存在すると予測される空間的位置を結合させ、結合させた区間を文字ラベルLの区間として検出する。すなわち、文字区間検出部130は、取得されたサブラベルSLの尤度に基づき、サブラベルSLがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数のサブラベルSLがそれぞれ存在すると予測される空間的位置を結合させることにより入力画像IMに含まれる文字ラベルの区間LAを検出する。
【0029】
出力部140は、検出された前記入力画像に含まれる文字ラベルの区間を出力する。
【0030】
図6は、第1の実施形態に係る文字区間検出部130の機能構成を示すブロック図である。同図を参照しながら、第1の実施形態に係る文字区間検出部130の詳細について説明する。文字区間検出部130は、判定部131と、結合部132とを備える。
【0031】
判定部131は、取得された複数のサブラベルSLの尤度がそれぞれ所定の条件を満たす範囲を判定する。判定部131により判定された範囲とは、複数のサブラベルSLがそれぞれ存在すると予測される空間的位置である。結合部132は、判定部131により判定された範囲を結合する。文字区間検出部130は、判定部131によりサブラベルSLが存在すると予測される空間的位置を判定し、結合部132により当該範囲を結合することにより、入力画像IMに含まれる文字ラベルの区間LAを検出する。すなわち、文字区間検出部130は、取得された複数のサブラベルSLの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数のサブラベルSLがそれぞれ存在すると予測される空間的位置を判定し、判定された複数のサブラベルSLがそれぞれ存在すると予測される空間的位置を結合させることにより入力画像IMに含まれる文字ラベルの区間LAを検出する。
【0032】
判定部131が判定するために用いる所定の条件とは、例えば、尤度が所定の閾値THを超えるか否かであってもよい。この場合、文字区間検出部130に備えられる判定部131は、取得された複数のサブラベルSLの尤度がそれぞれ所定の閾値TH以上である空間的位置を判定することにより、複数のサブラベルSLがそれぞれ存在すると予測される空間的位置を判定する。所定の閾値THは、閾値記憶部30に記憶されていてもよい。
【0033】
図7は、第1の実施形態に係る判定部131が、サブラベルSLが存在すると予測される空間的位置を判定するために用いる所定の条件の一例について説明するための図である。同図を参照しながら所定の条件について説明する。この一例における所定の条件とは、尤度が所定の閾値THを超えるか否かである。図7(A)は、入力画像IMの一例を示す図である。図7(B)は、図7(A)に示される入力画像IMに対応するサブラベルSLの尤度分布を示す図である。
【0034】
この一例において、サブラベルSL1の尤度分布は、“5start”の尤度分布を示す。また、サブラベルSL2の尤度分布は、“5end”の尤度分布を示す。サブラベルSL1の尤度は、位置P11から位置P12において所定の閾値THを超える。また、サブラベルSL2の尤度は、位置P21から位置P22において所定の閾値THを超える。判定部131は、サブラベルSL1の尤度分布において所定の閾値THを超える範囲である位置P11から位置P12を判定し、サブラベルSL2の尤度分布において所定の閾値THを超える範囲である位置P21から位置P22を判定する。結合部132は、判定された範囲である位置P11から位置P12及び位置P21から位置P22を結合することにより、入力画像IMに含まれる文字ラベルの区間LAを検出する。なお、文字ラベルLに空白ラベルSLSが含まれる場合、空白ラベルSLSの尤度に基づいた閾値THを用いてもよい。空白ラベルSLSの尤度が高い区間には文字が存在せず、空白ラベルSLSの尤度が低い区間には文字が存在する。したがって、結合部132は、空白ラベルSLSの尤度が所定の閾値THより低い区間についての範囲のみを結合することにより、より高精度に文字の区間を検出することができる。
【0035】
結合部132は、判定部131により判定されたサブラベルSLの空間的位置に矛盾が生じないように、判定された範囲を結合する。この一例においては、サブラベルSL1は文字ラベルLが“5”である場合の前半であり、サブラベルSL2は文字ラベルLが“5”である場合の後半である。すなわち、x軸方向において、左から、サブラベルSL1、サブラベルSL2の順序である場合には矛盾が生じていない。なお、矛盾が生じているか否かの判定基準については、尤度分布のうち尤度がもっとも大きい点に該当する位置を用いて判定してもよいし、尤度が閾値THを超える範囲のうち中間位置を用いて判定してもよい。
【0036】
図8は、第1の実施形態に係るサブラベルSLの空間的位置に矛盾が生じている場合の一例と、矛盾が生じていない場合の一例について説明するための図である。図8(A)は、サブラベルSLの空間的位置に矛盾が生じていない場合の一例であり、図8(B)は、サブラベルSLの空間的位置に矛盾が生じている場合の一例である。なお、この一例においては、結合部132は、尤度分布のうち尤度がもっとも大きい点に該当する位置を用いて、サブラベルSLの空間的位置に矛盾が生じているか否かを判定している。
【0037】
図8(A)及び図8(B)において、サブラベルSL1は位置P1に位置し、サブラベルSL2は位置P2に位置し、サブラベルSL3は位置P3に位置する。図8(A)において、それぞれのサブラベルSLは、左から順に、サブラベルSL1、サブラベルSL2、サブラベルSL3の順序で位置している。この一例において、サブラベルSLの空間的位置に矛盾が生じていない。図8(B)において、それぞれのサブラベルSLは、左から順に、サブラベルSL1、サブラベルSL3、サブラベルSL2の順序で位置している。すなわち、サブラベルSL2とサブラベルSL3の順序が入れ替わっている。この一例において、サブラベルSLの空間的位置に矛盾が生じている。
【0038】
なお、結合部132は、隣り合うサブラベルSLが少なくとも1点以上の空間的位置を共有する場合に、当該隣り合うサブラベルSLを結合するように構成してもよい。すなわち、文字区間検出部130に含まれる結合部132は、隣り合うサブラベルSLの範囲が少なくとも1点以上の空間的位置を共有する場合に、隣り合うサブラベルSLの空間的位置を結合させることにより、入力画像IMに含まれる文字ラベルの区間LAを検出する。
【0039】
図9は、第1の実施形態に係るサブラベルSLについて、隣り合うサブラベルSLが少なくとも1点以上の空間的位置を共有する場合の一例について説明するための図である。同図を参照しながら、隣り合うサブラベルSLが少なくとも1点以上の空間的位置を共有する場合の一例について説明する。サブラベルSL1の尤度分布は、位置P11及び位置P12において、所定の閾値THと交わる。サブラベルSL2の尤度分布は、位置P21及び位置P22において、所定の閾値THと交わる。サブラベルSL3の尤度分布は、位置P13及び位置P13において、所定の閾値THと交わる。この一例において、位置21から位置P12の区間において、サブラベルSL1の尤度分布とサブラベルSL2の尤度分布とは、空間的位置を共有している(範囲AR1)。また、位置31から位置P22の区間において、サブラベルSL2の尤度分布とサブラベルSL3の尤度分布とは、空間的位置を共有している(範囲AR2)。このように、隣り合うサブラベルSLが少なくとも1点以上の空間的位置を共有する場合において、結合部132は、隣り合うサブラベルSLを結合し、文字ラベルの区間LAを検出する。なお、隣り合うサブラベルSLが1点の空間的位置も共有しない場合において、結合部132は、空間的位置が矛盾していなかったとしても、隣り合うサブラベルSLを結合しないよう構成してもよい。
【0040】
ここで、文字列画像においては文字の中央部に比べ、文字の端部ほど、隣の文字と重複しやすいという性質がある。このような性質から、文字ラベルLが3以上のサブラベルSLに分割される場合、文字の両端のサブラベルSLほど尤度が低く、中心に近いサブラベルSLほど尤度が高く出ることが推測される。したがって、3以上のサブラベルSLについて同一の所定の閾値THを用いて判定した場合、精度のよい文字ラベルの区間LAができない場合がある。本実施形態においては、所定の閾値THは、サブラベルSLごとに異なる値であってもよい。
【0041】
図10は、第1の実施形態に係る所定の閾値THがサブラベルSLごとに異なる場合の一例を説明するための図である。同図を参照しながら、所定の閾値THがサブラベルSLごとに異なる場合の一例について説明する。この一例において、所定の閾値とは、サブラベルSLに応じて異なる値である。同図において、所定の閾値とは、サブラベルSL1に対応する第1の閾値TH1と、サブラベルSL2に対応する第2の閾値TH2と、サブラベルSL3に対応する第3の閾値TH3とである。サブラベルSL1の尤度分布は、位置P11及び位置P12において、第1の閾値TH1と交わる。サブラベルSL2の尤度分布は、位置P21及び位置P22において、第2の閾値TH2と交わる。サブラベルSL3の尤度分布は、位置P31及び位置P32において、第3の閾値TH3と交わる。このように、サブラベルSLごとに所定の閾値THを設定することにより、文字区間検出部130は、より正確にサブラベルSLが存在すると予測される位置を判定することができる。
【0042】
上述した一例においては、入力情報取得部110が入力画像IMを取得し、尤度取得部120は、入力画像IMの画像情報に基づき、サブラベルSLの尤度を取得する場合の一例について説明したが、本実施形態においては、入力画像IMの特徴量に基づき、サブラベルSLの尤度を取得するよう構成されていてもよい。
【0043】
図11は、第1の実施形態に係る入力情報取得部110の変形例である入力情報取得部110Aの機能構成を示すブロック図である。同図を参照しながら、第1の実施形態に係る入力情報取得部110の変形例である入力情報取得部110Aの機能構成について説明する。入力情報取得部110Aは、入力画像情報取得部111と、特徴抽出部112とを備える。入力画像情報取得部111は、入力画像IMを取得する。
【0044】
特徴抽出部112は、入力画像IMから特徴量を抽出する。特徴抽出部112により抽出された特徴ベクトルは、入力画像IMに含まれる文字ラベルLと空間的な対応関係を有する。すなわち、特徴抽出部112は、入力画像IMから空間的な特徴量を抽出する。尤度取得部120は、特徴抽出部112により入力画像IMから抽出された特徴量に基づいて、予測モデル20からサブラベルSLの尤度を取得する。特徴抽出部112は、例えば、所定のニューラルネットワークNNにより入力画像IMから特徴量を抽出する。
【0045】
[情報処理装置の一連の動作]
図12は、第1の実施形態に係る情報処理装置10の一連の動作を示すフローチャートである。同図を参照しながら、第1の実施形態に係る情報処理装置10の一連の動作について説明する。
【0046】
(ステップS110)入力画像情報取得部111は、入力画像IMを取得する。
【0047】
(ステップS120)特徴抽出部112は、取得した入力画像IMに含まれる文字列画像を複数の区間に区切り、特徴量の系列を算出する。特徴抽出部112は、例えば、畳み込みニューラルネットワーク(CNN)によって、入力画像をT個のF次元特徴ベクトルv、v、…、vに変換する。なお、特徴抽出部112は、CNNの途中又は最後にリカレントニューラルネットワーク(RNN)を挿入されることにより入力画像をT個のF次元特徴ベクトルに変換してもよい。
【0048】
ここで、T個の特徴ベクトルはCNNによってそれぞれ入力画像IMの異なる部分画像から計算されている。したがって、入力画像IMに含まれる文字列画像と、T個の特徴ベクトルとは、空間的な対応関係を有する。文字列画像と、特徴ベクトルとの空間的な対応関係は、CNNの構造に依存する。例えば、文字列画像の高さが128px(ピクセル)であり、幅が512pxである場合において、文字列画像と、特徴ベクトルとの空間的な対応関係は、高さが128pxであり、幅が128pxの矩形を左から順に所定の距離(例えば、4px)ずつスライドさせることにより決定される。本実施例において、特徴ベクトルvが入力画像IMに含まれる文字列画像の左端に対応し、特徴ベクトルvが入力画像IMに含まれる文字列画像の右端に対応するものとする。
【0049】
(ステップS130)情報処理装置10は、文字ラベルLを複数の領域に分割したサブラベルSLを作成し、各特徴量に対してサブラベルの確率分布を算出する。予測モデル20は各特徴量からK×M個のサブラベルそれぞれに対応する確率分布pk,m(t)(k=1、2、…、K;m=1、2、…、M)と、空白ラベルの確率分布p(t)を出力する。この一例において、文字の種類はL、…、LのK個である。予測モデル20は、事前にL(k=1、2、…、K)のそれぞれの文字の範囲をM個に分割し、Lk,1、…、Lk,Mの領域に分けておき、それぞれをサブラベルSLとし、学習される。
【0050】
(ステップS140)情報処理装置10は、サブラベルSLの確率分布から一定の条件を満たす範囲を取り出す。具体的には、文字区間検出部130は、複数の文字ラベルL、…、Lそれぞれにおいて、KMクラスの確率分布p1,1(t)、p1,2(t)、…、pK,M(t)をもとに文字ラベルLとその区間を推定する。サブラベルLk,mの確率が空白ラベルの確率を上回る範囲、つまり確率分布pk,m(t)に対して、下の式(1)を満たす範囲を取り出す。
【0051】
【数1】
【0052】
このとき、取り出される範囲の小区間は、下の式(2)で表される。式(2)において、Ik,mはサブラベルLk,mから取り出された小区間の数を示す。
【0053】
【数2】
【0054】
なお、空白ラベルの確率分布p(t)は予測モデル20により出力されるとして説明したが、あらかじめ設定しておいた閾値αを用いて、p(t)=αとしてもよい。
【0055】
(ステップS150)文字区間検出部130は、サブラベルL(k,m-1)の小区間の範囲とサブラベルLk,mの小区間の範囲とが領域に分けられた文字ラベルLの空間的順序と整合性がとれるとき、それらの小区間を結合させて、文字ラベルLの文字区間とする。空間的順序と整合性が取れているとは、文字ラベルLをサブラベルSLに分けた時の領域の位置関係と、各サブラベルSLの尤度が一定の条件を満たす区間の順序関係に矛盾がないということである。すなわち、文字区間検出部130は、1<m≦Mをみたすmに対して下の式(3)を満たすような組(ik,1、…、ik,M)が存在するとき、対応する小区間の組を取り出す。
【0056】
【数3】
【0057】
このとき、取り出される小区間の組は、下の式(4)で表される。
【0058】
【数4】
【0059】
式(4)で表される小区間の組を結合させ、文字Lの区間とする。文字Lの区間は、下の式(5)で表される。
【0060】
【数5】
【0061】
ここで、(ik,1、…、ik,M)として複数の組み合わせが考えられるとき、すべての小区間の尤度を平均したものが最も高くなるような組み合わせを採用する。小区間の尤度の計算方法としては、その小区間内の各tでの尤度の平均や最小値、最大値などが考えられる。これをすべての組に対して行うことにより、文字Lの区間を抽出する。
【0062】
なお、図9を参照しながら説明したように、ある文字ラベルLが有する全てのサブラベルLk,1、…、Lk,Mに対して、サブラベルL(k,m-1)の小区間と、サブラベルLk,mの小区間が一点以上を共有している場合のみ小区間を結合させる、という制約を設けてもよい。つまり、1<m≦Mを満たすmに対して、式(6)かつ式(7)を満たすような組が存在するとき、対応する小区間の組を取り出し、これらを結合させ、文字Lの区間とする。この制約は文字列画像中に同じ文字が複数回出現する場合に有効である。
【0063】
【数6】
【0064】
【数7】
【0065】
[第1の実施形態のまとめ]
情報処理装置10は、上述した手順により得られた文字ごとの範囲を出力する。情報処理装置10は、得られた文字と、範囲とを、重複を避けて選択することにより、入力画像に対する文字列認識結果を複数得ることができる。情報処理装置10によれば、ある文字列に対して複数通りの分割の仕方が可能な場合でも、複数通りの分割の仕方すべてを出力することが可能である。
【0066】
図13は、第1の実施形態に係る情報処理装置10を用いた場合の効果について説明するための図である。図13(A)は、入力画像IMの一例を示す図である。図13(B)は、従来技術を用いた場合における図13(A)に示される入力画像IMに対応する文字ラベルの尤度分布を示す図である。図13(C)は、本実施形態を用いた場合における図13(A)に示される入力画像IMに対応するサブラベルSLの尤度分布を示す図である。この一例における入力画像IMに示される文字列は、“22”である。
【0067】
図13(B)に示すように、従来技術によれば、文字ラベルの尤度を算出していたため、同一の文字が連続するような場合には、尤度分布93のように、1文字目の尤度分布と2文字目の尤度分布において閾値を超える範囲が重なってしまい、1文字目と2文字目を個別に認識することができず、1文字目と2文字目を1つの文字として認識してしまっていた。したがって、従来技術によれば、“22”を“2”と誤認識してしまっていた。
【0068】
図13(C)に示すように、本実施形態によれば、サブラベルSLごとに尤度分布を算出する。同図に示すように、文字ラベルLの前半部分のサブラベルであるサブラベルSL1と、文字ラベルLの後半部分のサブラベルであるサブラベルSL2とが、x軸方向において交互に閾値を上回っている。したがって、本実施形態によれば、サブラベルSLごとに尤度分布を算出するため、文字ラベルLの前半及び後半を検出することができる。すなわち、本実施形態によれば、同じ文字が連続するような場合においても、誤検出することなく、精度よく文字の範囲を検出することができる。
【0069】
また、以上説明した実施形態によれば、情報処理装置10において、入力情報取得部110Aは、入力画像IMから空間的な特徴量を抽出する。したがって、情報処理装置10は、画像情報IMが有する画像情報そのものだけでなく、画像情報から得られる特徴量に基づいて尤度を算出し、文字ラベルの区間を検出する。よって、本実施形態によれば、より高精度に文字の区間を検出することができる。
【0070】
また、以上説明した実施形態によれば、情報処理装置10は、隣り合うサブラベルSLの範囲が少なくとも1点以上の空間的位置を共有する場合に、隣り合うサブラベルSLの空間的位置を結合させることにより、入力画像IMに含まれる文字ラベルの区間を検出する。情報処理装置10は、隣り合うサブラベルSLの範囲が1点の空間的位置も共有しない場合には、隣り合うサブラベルSLの空間的位置を結合させないため、遠く離れた場所に位置するサブラベルSLを結合させ、1つの文字ラベルとして検出してしまうことがない。したがって、本実施形態によれば、文字ラベルの区間LAを誤検出することなく、精度よく文字の区間を検出することができる。
【0071】
また、以上説明した実施形態によれば、文字区間検出部130は、取得された複数のサブラベルSLの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数のサブラベルSLがそれぞれ存在すると予測される空間的位置を判定し、判定された複数のサブラベルSLがそれぞれ存在すると予測される空間的位置を結合させることにより入力画像IMに含まれる文字ラベルの区間を検出する。具体的には、文字区間検出部130は、所定の閾値THに基づいて、サブラベルSLが存在する区間を判定する。したがって、本実施形態によれば、尤度が低い場合は、サブラベルSLの候補から除外できるため、誤検出を抑止することができる。また、情報処理装置10によれば、容易に文字の区間を判定することができる。
【0072】
また、以上説明した実施形態によれば、文字区間検出部130は、サブラベルSLごとに異なる所定の閾値THに基づいて、サブラベルSLがそれぞれ存在すると予測される空間的位置を判定する。したがって、本実施形態によれば、より高精度に文字の区間を検出することができる。
【0073】
また、以上説明した実施形態によれば、文字ラベルLは、空白である文字に対応する空白ラベルSLSを含む。したがって、本実施形態によれば、文字と文字とのつなぎ目を検出することができるため、同一の文字が連続するような場合においても、連続する2以上の文字を1文字と誤検出することなく、精度よく文字の区間を検出することができる。
【0074】
[第2の実施形態]
以下、第2の実施形態について図面を参照しながら説明する。第2の実施形態においては、情報処理装置10Aは、複数の予測モデル20に基づいて文字ラベルの区間LAを検出する。機能構成の説明については、情報処理装置10Aは、2個の異なる予測モデル20に基づいて文字ラベルの区間LAを検出する場合の一例について説明するが、本実施形態はこの一例に限定されない。例えば、情報処理装置10Aは、n個の異なる予測モデル20に基づいて文字ラベルの区間LAを検出するよう構成されていてもよい。
【0075】
図14は、第2の実施形態に係る尤度取得部120Aの機能構成を示すブロック図である。同図を参照しながら、尤度取得部120Aの機能構成について説明する。第2の実施形態においては、情報処理装置10Aは、尤度取得部120に代えて、尤度取得部120Aを備える点において、第1の実施形態とは異なる。第1の実施形態と同様の構成については、同様の符号を付すことにより説明を省略する場合がある。尤度取得部120Aは、第1尤度取得部121と、第2尤度取得部122とを備える。第1尤度取得部121は、第1予測モデル20-1から尤度を取得し、第2尤度取得部122は、第2予測モデル20-2から取得する。第1予測モデル20-1と、第2予測モデル20-2とは、異なる学習済みモデルである。
【0076】
ここで、第1予測モデル20-1におけるサブラベルSLの分割数と、第2予測モデル20-2におけるサブラベルSLの分割数とは、互いに異なる。具体的には、第1予測モデル20-1においては、文字ラベルLが2個のサブラベルSLに分割された場合におけるサブラベルSLの尤度が学習されており、第2予測モデル20-2においては、文字ラベルLが3個のサブラベルSLに分割された場合におけるサブラベルSLの尤度が学習されている。第1予測モデル20-1から取得される、文字ラベルLを2分割した場合におけるサブラベルSLの尤度を第1尤度とも記載する。第2予測モデル20-2から取得される、文字ラベルLを3分割した場合におけるサブラベルSLの尤度を第2尤度とも記載する。すなわち、第1尤度取得部121は、予測モデル20である第1予測モデル20-1から、サブラベルSLの尤度である第1尤度を取得する。第2尤度取得部122は、予測モデル20である第2予測モデル20-2から、サブラベルSLの尤度である第2尤度を取得する。
【0077】
文字区間検出部130は、第1尤度取得部121により取得された第1尤度と、第2尤度取得部122により取得された第2尤度とに基づき、入力画像IMに含まれる文字ラベルLの区間を検出する。具体的には、文字区間検出部130は、第1尤度取得部121により取得された第1尤度に基づいて検出された区間と、第2尤度取得部122により取得された第2尤度に基づいて検出された区間との中間値を文字ラベルの区間LAとして検出してもよい。
【0078】
なお、情報処理装置10Aが、n個の異なる予測モデル20に基づいて文字ラベルの区間LAを検出するよう構成される場合、尤度取得部120は、第1尤度取得部121と、…、第n尤度取得部12nとを備える。第1尤度取得部121は、第1予測モデル20-1から第1尤度を取得し、…、第n尤度取得部12nは、第n予測モデル20-nから第n尤度を取得する。
【0079】
図15は、第2の実施形態に係る情報処理装置10Aの一連の動作を示すフローチャートである。同図を参照しながら、第1の実施形態に係る情報処理装置10Aの一連の動作について説明する。第2の実施形態に係る情報処理装置10Aの一連の動作においては、図12を参照しながら説明したステップS140及びステップS150に代えて、ステップS210からステップS240を備える点において、第1の実施形態とは異なる。同図の説明において、第1の実施形態とは同様の内容については、同様の符号を付すことにより説明を省略する場合がある。
【0080】
なお、この一例において、文字ラベルを1個~c+1個に分割して学習したc個の予測モデルをそれぞれ用意し、分割数の少ない順に予測モデル20-1、…、予測モデル20―cとする。
【0081】
(ステップS210)尤度取得部120Aは、予測モデル20-1から、文字ラベルLが2分割されたサブラベルSLの尤度を取得する。文字区間検出部130は、取得したサブラベルSLの尤度に基づき、文字ラベルの区間LAを決定する。
【0082】
(ステップS220)文字区間検出部130は、サブラベルSLの尤度が一定の条件を満たすもののみ文字区間として採用する。すなわち、本実施形態において、文字区間検出部130は、サブラベルSLの尤度が一定の条件を満たさない場合、文字ラベルの区間LAを文字区間として採用しない。
【0083】
(ステップS230)尤度取得部120Aは、ステップS210により尤度を取得した予測モデル20の分割数mが閾値c以下である場合、分割数が次に大きい予測モデル20から尤度を取得する(すなわちmをm+1とし、処理をステップS130に進める)。尤度取得部120Aは、ステップS210により尤度を取得した予測モデル20が、複数の予測モデル20のうち最も分割数の多いサブラベルSLの尤度が学習された予測モデル20―cである場合、処理をステップS240に進める。すなわち、本実施形態においては、すべての分割数の予測モデルに対して、実施形態1で説明した一連の処理を実行し、認識された文字区間の尤度があらかじめ定めた閾値を超えているものを文字区間として抽出する。
【0084】
(ステップS230)出力部140は、得られたすべての文字区間を出力する。すなわち、本実施形態において、入力画像IMに含まれる文字列の区間の区切り方に複数の可能性がある場合、出力部140は、検出された全ての可能性を出力する。
【0085】
なお、文字区間の尤度は、対応するサブラベルSLから取り出した各小区間の尤度の平均としてもよい。複数の予測モデル20から同じ文字区間が抽出された場合、抽出された文字区間の尤度は、各予測モデルでの尤度の平均としてもよい。
【0086】
第2の実施形態の変形例として、まず最も分割数の少ない予測モデル20―1を用いて文字区間を抽出し、抽出された文字区間の尤度の平均が閾値を超えていなければ次に分割数の少ない予測モデル20―2を用いて同様の操作を行う。情報処理装置10は、この処理を、閾値を超えるまで繰り返し、予測モデル20-1、…、予測モデル20―cすべてにおいて文字区間の尤度の平均が閾値を超えない場合は最も尤度の平均が高い場合の予測モデルを用いた結果を採用する方法を用いてもよい。具体的には、第1予測モデル20-1におけるサブラベルSLの分割数が、第2予測モデル20-2におけるサブラベルの分割数が小さい場合、文字区間検出部130は、第2尤度が所定の条件を満たす場合には、第2尤度に対応するサブラベルが存在すると予測される空間的位置に基づき文字ラベルLの区間を検出し、第2尤度が所定の条件を満たさない場合には、第1尤度に対応するサブラベルが存在すると予測される空間的位置に基づき文字ラベルの区間を検出する。このように、第2の実施形態の変形例による方法を用いることにより、情報処理装置10は、最も確からしい結果を出力することができる。
【0087】
なお、入力画像IMに含まれる文字数Sがあらかじめ与えられている場合、情報処理装置10は、各予測モデルから出力した文字区間の合計数がS以上であればその結果を採用するよう構成されていてもよい。このように構成することにより、情報処理装置10は、より高精度に、与えられた文字数Sの文字ラベルの区間LAを検出することができる。
【0088】
[第2の実施形態のまとめ]
以上説明した実施形態によれば、尤度取得部120Aは、複数の予測モデル20から尤度を取得する。具体的には、尤度取得部120Aは、第1尤度を取得する第1尤度取得部121と、第2尤度を取得する第2尤度取得部122とを備える。複数の予測モデル20は、それぞれサブラベルSLの分割数が異なるため、第1尤度と、第2尤度とは、サブラベルSLの分割数が異なる。文字区間検出部130は、第1尤度取得部121により取得された第1尤度と、第2尤度取得部122により取得された第2尤度とに基づき、入力画像IMに含まれる文字ラベルLの区間を検出する。ここで、入力画像IMに含まれる文字列によっては、複数の区切り方をすることができる場合がある。本実施形態によれば、複数の予測モデル20を用いることにより、複数種類の区切り方を出力することができる。すなわち、本実施によれば、より高精度に文字の区間を検出することができる
【0089】
また、以上説明した実施形態によれば、文字区間検出部130により検出された文字ラベルの区間LAが所定の条件を満たす場合には文字ラベルの区間LAとして出力し、所定の条件を満たさない場合には文字ラベルの区間LAとして出力しない。すなわち、情報処理装置10は、したがって、本実施形態によれば、最も確からしい結果を出力することができる。
【0090】
[第3の実施形態]
以下、第3の実施形態について図面を参照しながら説明する。第3の実施形態においては、文字ラベルLが、x軸方向以外にも分割される点において、第1の実施形態とは異なる。すなわち、第3の実施形態においては、文字ラベルLがx軸方向及びy軸方向において、それぞれ分割される。第1の実施形態と同様の構成については、同様の符号を付すことにより説明を省略する場合がある。
【0091】
図16は、第3の実施形態に係るサブラベルSLについて説明するための図である。この一例において、文字ラベルLは、x軸方向及びy軸方向において、複数の矩形に分割される。具体的には、文字ラベルLは、サブラベルLk1と、サブラベルLk2と、サブラベルLk3と、サブラベルLk4とに分割される。予測モデル20は、それぞれのサブラベルSLの尤度について学習される。
【0092】
図17は、第3の実施形態に係る尤度について説明するための図である。情報処理装置10は、学習された予測モデル20に基づいて、入力画像IMに含まれる文字列の、文字ラベルの区間LAを検出する。同図には、入力画像IMに含まれる文字列が“あ”である場合の一例について示されている。範囲AR-Lk1は、サブラベルLk1の尤度が所定の閾値THを超えた範囲を示し、範囲AR-Lk2は、サブラベルLk2の尤度が所定の閾値THを超えた範囲を示し、範囲AR-Lk3は、サブラベルLk3の尤度が所定の閾値THを超えた範囲を示し、範囲AR-Lk4は、サブラベルLk4の尤度が所定の閾値THを超えた範囲を示す。文字区間検出部130は、例えば、これらのサブラベルSLの尤度が所定の閾値THを超えた範囲を結合することにより、文字ラベルの区間LAを検出する。
【0093】
第3の実施形態に係る情報処理装置10の、具体的な処理について説明する。入力情報取得部110は、入力画像IMを取得すると、取得した入力画像IMを横T個、縦T’個の計T×T’個に分割し、それぞれ特徴ベクトルv1,1、v1,2、…、v1,T、v2,1、…、vT’,Tに変換する。尤度取得部120は、変換された各特徴量からK×M個のサブラベルに対する2次元の確率分布pk,m(t’,t)を出力する。情報処理装置10は、空白ラベルの値p(t’,t)を閾値とし、下の式(8)を満たす(t’,t)の領域Dk,m(m=1、2、…、M)をもとに文字範囲を決定する。
【0094】
【数8】
【0095】
サブラベルLk,mの横方向の小区間を下の式(9)とする。すべてのmについて同様に小区間を取り出し、文字ラベルLの横方向の文字区間を決定する。
【0096】
【数9】
【0097】
同様に、サブラベルLk,mの縦方向の小区間を下の式(10)とし、縦方向の文字区間を決定する。以上の方法により文字ラベルLについての、文字ラベルの区間LAが決まる。
【0098】
【数10】
【0099】
[第3の実施形態のまとめ]
以上説明した実施形態によれば、予測モデル20は、文字ラベルLをx軸方向及びy軸方向に分割したサブラベルSLの尤度を学習する。情報処理装置10は、文字ラベルLをx軸方向及びy軸方向に分割したサブラベルSLの尤度を学習した予測モデル20に基づき、文字ラベルの区間LAを検出する。したがって、本実施形態によれば、より高精度に、文字ラベルの区間LAを検出することができる。
【0100】
[第4の実施形態]
以下、第4の実施形態について図面を参照しながら説明する。第4の実施形態においては、文字ラベルLの種類によって分割数が決定される点において、第1の実施形態とは異なる。例えば、漢字は偏と旁、冠と脚、垂、繞、構のような部首を持つものがある。このように、1つの文字ラベルLが複数の部首に分かれるような場合は、部首ごとにサブラベルSLとして予測モデル20を学習させてもよい。
【0101】
図18は、第4の実施形態に係るサブラベルSLについて説明するための図である。図18(A)は、偏と旁を有する文字ラベルLのサブラベルSLについて説明するための図である。同図は、文字ラベルLが“証”という漢字である場合の一例である。“証”という漢字の偏は“言”であり、旁は“正”である。この一例において、サブラベルSL1は、偏である“言”に対応し、サブラベルSL2は、旁である“正”に対応する。図18(B)は、冠と脚を有する文字ラベルLのサブラベルSLについて説明するための図である。同図は、文字ラベルLが“志”という漢字である場合の一例である。“志”という漢字の冠は“士”であり、脚は“心”である。この一例において、サブラベルSL2は、冠である“士”に対応し、サブラベルSL2は、脚である“心”に対応する。
【0102】
図19は、第4の実施形態に係る尤度について説明するための図である。情報処理装置10は、学習された予測モデル20に基づいて、入力画像IMに含まれる文字列の、文字ラベルの区間LAを検出する。図19(A)は、偏と旁を有する文字ラベルLにおけるサブラベルSLの尤度について説明するための図である。情報処理装置10は、偏と旁を有する文字ラベルLについて、x軸方向の尤度を検出する。図19(B)は、冠と脚を有する文字ラベルLにおけるサブラベルSLの尤度について説明するための図である。情報処理装置10は、冠と脚を有する文字ラベルLについて、y軸方向の尤度を検出する。
【0103】
なお、情報処理装置10は、x軸方向及びy軸方向のそれぞれに対して尤度を検出し、それぞれの結果について所定の閾値を超えるか否かに基づき、文字ラベルの区間LAを検出するよう構成してもよい。
【0104】
本実施形態においては、部首ごとにサブラベルSLの尤度が学習されているため、情報処理装置10は、それぞれの部首ごとにサブラベルSLの尤度を独立に検出した後、所定のリストに基づいて、部首を突合させ、突合した文字の区間を出力する。
【0105】
図20は、第4の実施形態に係る情報処理装置10の一連の動作を示すフローチャートである。第4の実施形態においては、第1の実施形態で説明したステップS110からステップS150に加え、ステップS140を有する点において、第1の実施形態とは異なる。第1の実施形態と同様の構成については、同様の記号を付すことにより、説明を省略する。
【0106】
(ステップS410)情報処理装置10は、ステップS150において区間が決定されたサブラベルSLに基づき、所定のリストを参照して、文字ラベルLを決定する。具体的には、ステップS150において“言”と、“正”とのサブラベルSLの区間が決定された場合、所定のリストには、“言”と、“正”とのサブラベルSLに対応する文字ラベルLとして“証”の文字ラベルLが記憶されている。情報処理装置10は、“言”及び“正”のそれぞれのサブラベルSLの区間を足した区間を、“証”の文字ラベルLの区間として出力する。
【0107】
なお、情報処理装置10は、入力画像IMに記載された文字が、“証”であるか、“言”及び“正”であるかを判定できないときは、それぞれの結果を出力するよう構成してもよい。
【0108】
[第4の実施形態のまとめ]
以上説明した実施形態によれば、予測モデル20は、文字ラベルLを部首ごとに分割したサブラベルSLの尤度を学習する。情報処理装置10は、サブラベルSLごとに区間を検出し、所定のリストに基づき、サブラベルSLを結合することにより、文字ラベルの区間LAを検出する。したがって、本実施形態によれば、文字区間の区切り方についての、より多くの候補を出力することができる。
【0109】
以上説明してきたように、実施形態では、複数の変形例を記載した。ここで、組み合わせることが可能な限りにおいて、複数の実施形態及び複数の変形例を組み合わせて実施するようにしてもよい。
【0110】
なお、上述した実施形態における情報処理装置10の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0111】
以上説明した少なくともひとつの実施形態によれば、入力情報取得部と、尤度取得部と、文字区間検出部と、出力部とを持つことにより、入力された文字列に含まれる個別文字の区間を、適切に検出することができる。
【0112】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0113】
10…情報処理装置、20…予測モデル、110…入力情報取得部、120…尤度取得部、130…文字区間検出部、140…出力部、111…入力画像情報取得部、112…特徴抽出部、131…判定部、132…結合部、IM…入力画像、P…確率分布、LA…文字ラベルの区間、L…文字ラベル、SL…サブラベル、SLS…空白ラベル、TH…閾値、121…第1尤度取得部、122…第2尤度取得部、21…第1予測モデル、22…第2予測モデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21