特許7566544 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許7566544情報処理装置、情報処理方法、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-10-04

(45)【発行日】2024-10-15

(54)【発明の名称】情報処理装置、情報処理方法、およびプログラム

(51)【国際特許分類】

G06V 30/24 20220101AFI20241007BHJP

G06V 30/148 20220101ALI20241007BHJP

【ＦＩ】

G06V30/24 630A

G06V30/148

【請求項の数】 10

(21)【出願番号】P 2020155243

(22)【出願日】2020-09-16

(65)【公開番号】P2022049172

(43)【公開日】2022-03-29

【審査請求日】2023-06-09

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(73)【特許権者】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】伊部早紀

【審査官】伊知地和之

(56)【参考文献】

【文献】特開２０００－２０７４９５（ＪＰ，Ａ）

【文献】特開２０１１－２５８１２９（ＪＰ，Ａ）

【文献】特開２００６－３３１３５４（ＪＰ，Ａ）

【文献】小山俊哉外４名，帳票データ入力システムＦｏｒｍＤａｔａＥｎｔｒｙ，富士ゼロックステクニカルレポート，日本，富士ゼロックス株式会社，2016年03月17日，第２５号，pp.82～90

【文献】古畑彰夫外２名，高精度な文字認識を実現したＡＩによる学習手法，東芝レビューＶＯＬ．７４ＮＯ．５［ｏｎｌｉｎｅ］，2019年09月24日，第74巻第5号，pp.34～37

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／００－３０／１２

Ｇ０６Ｖ３０／１４－３０／１６８

Ｇ０６Ｖ３０／１８－３０／２２２

Ｇ０６Ｖ３０／２２４

Ｇ０６Ｖ３０／２２６－３０／３２

Ｇ０６Ｖ３０／４０－３０／４１６

Ｇ０６Ｖ３０／４２－３０／４２４

ＣＳＤＢ（日本国特許庁）

(57)【特許請求の範囲】

【請求項1】

１以上の文字ラベルを含む文字列画像である入力画像を取得する入力情報取得部と、
取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する尤度取得部と、
取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する文字区間検出部と、
検出された前記入力画像に含まれる文字ラベルの区間を出力する出力部と
を備え、
前記文字区間検出部は、取得された複数の前記サブラベルの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、判定された複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出し、
前記文字区間検出部は、取得された複数の前記サブラベルの尤度がそれぞれ所定の閾値以上である空間的位置を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、
前記所定の閾値とは、前記サブラベルに応じて異なる値である
情報処理装置。

【請求項2】

前記入力情報取得部は、前記入力画像から空間的な特徴量を抽出する特徴抽出部を備え、
前記尤度取得部は、前記入力画像から抽出された前記特徴量に基づいて、前記予測モデルから前記サブラベルの尤度を取得する
請求項１に記載の情報処理装置。

【請求項3】

前記文字区間検出部は、隣り合う前記サブラベルの範囲が少なくとも１点以上の空間的位置を共有する場合に、隣り合う前記サブラベルの空間的位置を結合させることにより、前記入力画像に含まれる文字ラベルの区間を検出する
請求項１又は請求項２に記載の情報処理装置。

【請求項4】

前記文字ラベルは、空白である文字に対応する空白ラベルを含み、
前記尤度取得部は、前記予測モデルから、前記空白ラベルを含む前記文字ラベルについて、前記サブラベルの尤度を取得し、
前記所定の閾値とは、前記空白ラベルの尤度に基づいて定められる
請求項１から請求項３のいずれか一項に記載の情報処理装置。

【請求項5】

前記尤度取得部は、
前記予測モデルである第１予測モデルから、前記サブラベルの尤度である第１尤度を取得する第１尤度取得部と、
前記予測モデルであり、前記第１予測モデルとは異なる第２予測モデルから、前記サブラベルの尤度である第２尤度を取得する第２尤度取得部とを更に備え、
前記文字区間検出部は、前記第１尤度取得部により取得された前記第１尤度と、前記第２尤度取得部により取得された前記第２尤度とに基づき、前記入力画像に含まれる前記文字ラベルの区間を検出し、
前記第１予測モデルにおける前記サブラベルの分割数と、前記第２予測モデルにおける前記サブラベルの分割数とは、互いに異なる
請求項１から請求項４のいずれか一項に記載の情報処理装置。

【請求項6】

前記第１予測モデルにおける前記サブラベルの分割数は、前記第２予測モデルにおける前記サブラベルの分割数より小さく、
前記文字区間検出部は、前記第２尤度が所定の条件を満たす場合には、前記第２尤度に対応する前記サブラベルが存在すると予測される空間的位置に基づき前記文字ラベルの区間を検出し、前記第２尤度が所定の条件を満たさない場合には、前記第１尤度に対応する前記サブラベルが存在すると予測される空間的位置に基づき前記文字ラベルの区間を検出する
請求項５に記載の情報処理装置。

【請求項7】

前記サブラベルの空間的位置は、前記文字ラベルの空間的位置を単一の方向に分割することにより構成される
請求項１から請求項６のいずれか一項に記載の情報処理装置。

【請求項8】

１以上の文字ラベルを含む文字列画像である入力画像を取得する入力情報取得部と、
取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する尤度取得部と、
取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する文字区間検出部と、
検出された前記入力画像に含まれる文字ラベルの区間を出力する出力部と
を備え、
前記尤度取得部は、
前記予測モデルである第１予測モデルから、前記サブラベルの尤度である第１尤度を取得する第１尤度取得部と、
前記予測モデルであり、前記第１予測モデルとは異なる第２予測モデルから、前記サブラベルの尤度である第２尤度を取得する第２尤度取得部とを更に備え、
前記文字区間検出部は、前記第１尤度取得部により取得された前記第１尤度と、前記第２尤度取得部により取得された前記第２尤度とに基づき、前記入力画像に含まれる前記文字ラベルの区間を検出し、
前記第１予測モデルにおける前記サブラベルの分割数と、前記第２予測モデルにおける前記サブラベルの分割数とは、互いに異なる
情報処理装置。

【請求項9】

コンピュータに、
１以上の文字ラベルを含む文字列画像である入力画像を取得する入力情報取得ステップと、
取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する尤度取得ステップと、
取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する文字区間検出ステップと、
検出された前記入力画像に含まれる文字ラベルの区間を出力する出力ステップと
を実行させるプログラムであって、
前記文字区間検出ステップは、取得された複数の前記サブラベルの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、判定された複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出し、
前記文字区間検出ステップは、取得された複数の前記サブラベルの尤度がそれぞれ所定の閾値以上である空間的位置を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、
前記所定の閾値とは、前記サブラベルに応じて異なる値である
プログラム。

【請求項10】

１以上の文字ラベルを含む文字列画像である入力画像を取得する入力情報取得工程と、
取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する尤度取得工程と、
取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する文字区間検出工程と、
検出された前記入力画像に含まれる文字ラベルの区間を出力する出力工程と
を有し、
前記文字区間検出工程は、取得された複数の前記サブラベルの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、判定された複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出し、
前記文字区間検出工程は、取得された複数の前記サブラベルの尤度がそれぞれ所定の閾値以上である空間的位置を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、
前記所定の閾値とは、前記サブラベルに応じて異なる値である
情報処理方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、情報処理装置、情報処理方法、およびプログラムに関する。

【背景技術】

【0002】

文字列認識における個別文字の位置を推定する代表的な手法として、空白や文字の接続部をもとに文字の断片を検出し、検出された文字の断片を組み合わせて文字を構成させる手法が知られている。空白や文字の接続部の検出のための手法としては、例えば、ディープニューラルネットワーク（ＤＮＮ）を用いた手法が知られている。このような従来技術によれば、同じ文字が連続する文字列の場合、それぞれの個別文字の領域を適切に検出できない、という問題点があった。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１３－０９７５９０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明が解決しようとする課題は、入力された文字列に含まれる個別文字の区間を、適切に検出することができる情報処理装置、情報処理方法、およびプログラムを提供することである。

【課題を解決するための手段】

【0005】

実施形態の情報処理装置は、入力情報取得部と、尤度取得部と、文字区間検出部と、出力部とを持つ。入力情報取得部は、１以上の文字ラベルを含む文字列画像である入力画像を取得する。尤度取得部は、取得された前記入力画像に基づいて、文字ラベルを複数の領域に分割したサブラベルの尤度を算出するよう学習された予測モデルから、前記サブラベルの尤度を取得する。文字区間検出部は、取得された前記サブラベルの尤度に基づき、前記サブラベルがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する。出力部は、検出された前記入力画像に含まれる文字ラベルの区間を出力する。前記文字区間検出部は、取得された複数の前記サブラベルの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、判定された複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を結合させることにより前記入力画像に含まれる文字ラベルの区間を検出する。前記文字区間検出部は、取得された複数の前記サブラベルの尤度がそれぞれ所定の閾値以上である空間的位置を判定することにより、複数の前記サブラベルがそれぞれ存在すると予測される空間的位置を判定し、前記所定の閾値とは、前記サブラベルに応じて異なる値である。

【図面の簡単な説明】

【0006】

【図1】第１の実施形態に係る予測モデルについて説明するための図。

【図2】第１の実施形態に係るサブラベルについて説明するための図。

【図3】第１の実施形態に係る位置行列について説明するための図。

【図4】第１の実施形態に係る空白ラベルについて説明するための図。

【図5】第１の実施形態に係る情報処理装置の機能構成を示すブロック図。

【図6】第１の実施形態に係る文字区間検出部の機能構成を示すブロック図。

【図7】第１の実施形態に係る判定部が、サブラベルが存在すると予測される空間的位置を判定するために用いる所定の条件の一例について説明するための図。

【図8】第１の実施形態に係るサブラベルの空間的位置に矛盾が生じている場合の一例と、矛盾が生じていない場合の一例について説明するための図。

【図9】第１の実施形態に係るサブラベルについて、隣り合うサブラベルが少なくとも１点以上の空間的位置を共有する場合の一例について説明するための図。

【図10】第１の実施形態に係る所定の閾値がサブラベルごとに異なる場合の一例を説明するための図。

【図11】第１の実施形態に係る入力情報取得部の機能構成の変形例を示すブロック図。

【図12】第１の実施形態に係る情報処理装置の一連の動作を示すフローチャート。

【図13】第１の実施形態に係る情報処理装置を用いた場合の効果について説明するための図。

【図14】第２の実施形態に係る尤度取得部の機能構成を示すブロック図。

【図15】第２の実施形態に係る情報処理装置の一連の動作を示すフローチャート。

【図16】第３の実施形態に係るサブラベルについて説明するための図。

【図17】第３の実施形態に係る尤度について説明するための図。

【図18】第４の実施形態に係るサブラベルについて説明するための図。

【図19】第４の実施形態に係る尤度について説明するための図。

【図20】第４の実施形態に係る情報処理装置の一連の動作を示すフローチャート。

【図21】従来技術による文字列認識の問題点について説明するための図。

【発明を実施するための形態】

【0007】

以下、実施形態の情報処理装置、情報処理方法、およびプログラムを、図面を参照して説明する。

【0008】

［従来技術］
図２１を参照しながら、従来技術による文字列認識の問題点について説明する。図２１は、従来技術による文字列認識の問題点について説明するための図である。同図を参照しながら、入力画像９０に文字９１と、文字９２とが記載されている場合の一例について説明する。入力画像９０は、例えば、所定の範囲に手書きされた複数の文字を含む。この一例において、入力画像９０に含まれる文字９１及び文字９２は、いずれも“２”を示す数字である。以後の説明において、文字９１及び文字９２が記載される方向をｘ軸方向、ｘ軸方向に直行する方向をｙ軸方向と記載する場合がある。

【0009】

図２１（Ａ）は、文字９１及び文字９２がｘ軸方向において互いに重なり合わない位置に存在する場合における、従来技術による文字列認識を行う場合の一例である。同図において、文字９１のｘ軸方向における終端は位置９１１であり、文字９２のｘ軸方向における始端は位置９２１である。同図における一例では、ｘ軸方向に、文字９１と文字９２とが互いに幅Ｗ１の距離だけ離れている。このような場合、従来技術による文字列認識によれば、文字の接続部をもとに文字の断片を検出し、検出された文字の断片を組み合わせて文字を構成させるため、入力画像９０に記載された文字列が“２２”であることを認識できる。

【0010】

図２１（Ｂ）は、文字９１及び文字９２がｘ軸方向において互いに重なり合う位置に存在する場合における、従来技術による文字列認識を行う場合の一例である。同図において、文字９１のｘ軸方向の終端は位置９１１であり、文字９２のｘ軸方向の始端は位置９２１である。同図における一例では、ｘ軸方向に、文字９１と文字９２とが互いに幅Ｗ２の距離だけ重なり合っている。このような場合、従来技術による文字列認識によれば、文字の接続部を認識することができず、入力画像９０に記載された文字列は“２”であると誤認識してしまう場合があった。

【0011】

本実施形態では、上述したような、ｘ軸方向において文字と文字との間に空白を含まず、同一の文字が連続する入力画像についても誤認識をすることなく、精度よく文字認識をすることができる技術を提供することを目的とする。

【0012】

［第１の実施形態］
以下、第１の実施形態について図面を参照しながら説明する。本実施形態に係る情報処理装置１０が適用される文字列認識問題の具体例としては、文字列の書かれた画像を入力として、書かれている文字列の存在する区間を認識するタスクである。本実施形態では左から右に書かれる横書きの文字列について説明する。なお、本実施形態においては、左から右に書かれる横書きの文字列に限定されず、縦書きの文字列や、所定の範囲内に自由に配置された文字列についても同様である。入力される文字列の種類としては、数字、アルファベット、漢字等の文字及びこれらの組み合わせを広く含む。また、本実施形態においては文字列が手書きにより記載されている場合の一例について説明するが、この一例に限定されない。例えば、入力される文字列とは、文字列が記載された標識や道路標示、看板等を撮像した画像等であってもよい。

【0013】

図１は、第１の実施形態に係る予測モデル２０について説明するための図である。情報処理装置１０は、学習済みモデルである予測モデル２０により、入力画像ＩＭに含まれる複数の文字が存在する区間である文字ラベルの区間ＬＡを検出する。同図においては、入力画像ＩＭに“１９５８”の４つの文字ラベルを含む文字列について説明する。

【0014】

［予測モデルの学習］
本実施形態に係る予測モデル２０は、学習時に入力画像ＩＭの文字区間情報の分布化を行う。具体的には、予測モデル２０は、文字ラベルＬを複数のサブラベルＳＬに分割し、それぞれのサブラベルの尤度を学習する。

【0015】

図２は、第１の実施形態に係るサブラベルＳＬについて説明するための図である。同図においては、文字ラベルＬが“５”である場合の一例を説明する。図２（Ａ）は、文字ラベルＬを２つのサブラベルＳＬに分割した場合の図である。同図に示す一例においては、文字ラベルＬが、ｘ軸方向に左から順にサブラベルＳＬ１と、サブラベルＳＬ２に分割されている。図２（Ｂ）は、文字ラベルＬを３つのサブラベルＳＬに分割した場合の図である。同図に示す一例においては、文字ラベルＬが、ｘ軸方向に左から順にサブラベルＳＬ１と、サブラベルＳＬ２と、サブラベルＳＬ３に分割されている。すなわち、本実施形態においては、サブラベルＳＬの空間的位置は、文字ラベルＬの空間的位置を単一の方向に分割することにより構成される。

【0016】

図１に戻り、入力画像ＩＭに含まれる複数の文字ラベルＬは、それぞれｍ個のサブラベルＳＬに分割される。具体的には、入力画像ＩＭは、４つの文字ラベルを有しているため、１つ目の文字ラベルＬ１は、ＳＬ１１からＳＬ１ｍのサブラベルＳＬに分割され、２つ目の文字ラベルＬ２は、ＳＬ２１からＳＬ２ｍのサブラベルＳＬに分割され、３つ目の文字ラベルＬ３は、ＳＬ３１からＳＬ３ｍのサブラベルＳＬに分割され、４つ目の文字ラベルＬ４は、ＳＬ４１からＳＬ４ｍのサブラベルＳＬに分割される。予測モデル２０は、文字ラベルＬが複数に分割されたサブラベルＳＬの区間情報と、サブラベルＳＬの画像情報とを対応付けて位置行列として学習する。

【0017】

図３は、第１の実施形態に係る位置行列について説明するための図である。同図を参照しながら、位置行列について説明する。図３（Ａ）は、入力画像ＩＭの一例を示す図である。図３（Ｂ）は、図３（Ａ）に示される入力画像ＩＭに対応する位置行列について説明するための図である。この一例における入力画像ＩＭに示される文字列は、“３３５６”である。

【0018】

それぞれの文字ラベルＬは、サブラベルＳＬ１及びサブラベルＳＬ２に分割される。位置行列中において“３ｓｔａｒｔ”は、文字ラベルＬが“３”である場合のサブラベルＳＬ１に対応し、“３ｅｎｄ”は、文字ラベルＬが“３”である場合のサブラベルＳＬ２に対応する。また、“５ｓｔａｒｔ”は、文字ラベルＬが“５”である場合のサブラベルＳＬ１に対応し、“５ｅｎｄ”は、文字ラベルＬが“５”である場合のサブラベルＳＬ２に対応する。“６ｓｔａｒｔ”は、文字ラベルＬが“６”である場合のサブラベルＳＬ１に対応し、“６ｅｎｄ”は、文字ラベルＬが“６”である場合のサブラベルＳＬ２に対応する。すなわち、位置行列は、文字ラベルＬに含まれるサブラベルＳＬの種類と、入力画像ＩＭのうちサブラベルＳＬが存在する空間的位置とを対応付けて記憶する。

【0019】

図４は、第１の実施形態に係る空白ラベルＳＬＳについて説明するための図である。同図を参照しながら、空白ラベルＳＬＳについて説明する。空白ラベルＳＬＳとは、入力画像ＩＭのｘ軸方向において、文字が存在しない区間におけるラベルである。すなわち、本実施形態においては、空白も文字の一つとして扱われる。換言すれば、文字ラベルＬには、空白である文字に対応する空白ラベルＳＬＳが含まれる。位置行列は、空白ラベルＳＬＳを含んでいてもよい。図４（Ａ）は、入力画像ＩＭの一例を示す図である。図４（Ｂ）は、図４（Ａ）に示される入力画像ＩＭに対応する位置行列について説明するための図である。この一例における入力画像ＩＭに示される文字列は、“３５”である。

【0020】

この一例において、入力画像ＩＭに含まれる文字ラベルＬである“３”と、“５”との間には、ｘ軸方向において空白である区間が存在する。空白ラベルＳＬＳは、当該区間を示すラベルである。空白ラベルＳＬＳは、例えば、“Ｓｐａｃｅ”として、位置行列に記憶される。

【0021】

なお、予測モデル２０は、サブラベルＳＬの画像情報に基づき、サブラベルＳＬの尤度を学習する場合の一例に限定されない、例えば、予測モデル２０は、所定のニューラルネットワークＮＮにより入力画像ＩＭから抽出された特徴量に基づき、サブラベルＳＬの尤度を学習するよう構成されていてもよい。

【0022】

［予測モデルによる文字ラベルの区間の検出］
図１に戻り、情報処理装置１０は、学習された予測モデル２０を使用して、入力画像ＩＭから文字ラベルＬの区間を検出する。情報処理装置１０は、入力画像ＩＭに含まれる複数の文字ラベルＬごとに、サブラベルＳＬの尤度分布Ｐを、予測モデル２０から取得する。入力画像ＩＭがｎ個の文字ラベルＬを含み、文字ラベルＬがｍ個のサブラベルＳＬに分割されている場合の一例において、情報処理装置１０は、サブラベルＳＬごとに尤度分布Ｐを取得する。すなわち、情報処理装置１０は、予測モデル２０からｎ×ｍ個の尤度分布Ｐを取得する。

【0023】

情報処理装置１０は、取得した複数のサブラベルＳＬの尤度分布Ｐに基づき、それぞれの文字ラベルの区間ＬＡを検出する。入力画像ＩＭに、文字ラベルＬ１から文字ラベルＬ４までの４個の文字ラベルＬが含まれる場合、情報処理装置１０は、文字ラベルＬ１から文字ラベルＬ４までの文字ラベルの区間ＬＡをそれぞれ検出する。

【0024】

なお、予測モデル２０の学習時において、情報処理装置１０は、学習させた予測モデル２０を用いて予測される入力画像ＩＭに含まれる文字ラベルの区間ＬＡと、同一の入力画像ＩＭの文字ラベルの区間ＬＡを検出した場合の検出結果とを比較し、分布間距離が小さくなるよう予測モデル２０を更新させてもよい。

【0025】

［情報処理装置の機能構成］
図５は、第１の実施形態に係る情報処理装置１０の機能構成を示すブロック図である。同図を参照しながら、情報処理装置１０の機能構成について説明する。情報処理装置１０は、入力情報取得部１１０と、尤度取得部１２０と、文字区間検出部１３０と、出力部１４０とを備える。

【0026】

入力情報取得部１１０は、所定の方法により、１以上の文字ラベルＬを含む文字列画像である入力画像ＩＭを取得する。

【0027】

尤度取得部１２０は、取得された入力画像ＩＭに含まれる文字ラベルＬが有する複数のサブラベルＳＬのそれぞれの尤度を予測モデル２０から取得する。予測モデル２０は、サブラベルＳＬの尤度を算出するよう学習された学習済みモデルである。すなわち、尤度取得部１２０は、取得された入力画像ＩＭに基づいて、文字ラベルＬを複数の領域に分割したサブラベルＳＬの尤度を算出するよう学習された予測モデル２０から、サブラベルＳＬの尤度を取得する。なお、文字ラベルＬに空白ラベルＳＬＳが含まれる場合、尤度取得部１２０は、予測モデル２０から、空白ラベルＳＬＳを含む文字ラベルＬについて、サブラベルＳＬの尤度を取得する。

【0028】

文字区間検出部１３０は、取得されたサブラベルＳＬの尤度に基づき、入力画像ＩＭに含まれる文字ラベルＬの区間を検出する。文字区間検出部１３０は、サブラベルＳＬがそれぞれ存在すると予測される空間的位置に矛盾が生じない場合には、複数のサブラベルＳＬがそれぞれ存在すると予測される空間的位置を結合させ、結合させた区間を文字ラベルＬの区間として検出する。すなわち、文字区間検出部１３０は、取得されたサブラベルＳＬの尤度に基づき、サブラベルＳＬがそれぞれ存在すると予測される空間的位置に矛盾が生じないよう、複数のサブラベルＳＬがそれぞれ存在すると予測される空間的位置を結合させることにより入力画像ＩＭに含まれる文字ラベルの区間ＬＡを検出する。

【0029】

出力部１４０は、検出された前記入力画像に含まれる文字ラベルの区間を出力する。

【0030】

図６は、第１の実施形態に係る文字区間検出部１３０の機能構成を示すブロック図である。同図を参照しながら、第１の実施形態に係る文字区間検出部１３０の詳細について説明する。文字区間検出部１３０は、判定部１３１と、結合部１３２とを備える。

【0031】

判定部１３１は、取得された複数のサブラベルＳＬの尤度がそれぞれ所定の条件を満たす範囲を判定する。判定部１３１により判定された範囲とは、複数のサブラベルＳＬがそれぞれ存在すると予測される空間的位置である。結合部１３２は、判定部１３１により判定された範囲を結合する。文字区間検出部１３０は、判定部１３１によりサブラベルＳＬが存在すると予測される空間的位置を判定し、結合部１３２により当該範囲を結合することにより、入力画像ＩＭに含まれる文字ラベルの区間ＬＡを検出する。すなわち、文字区間検出部１３０は、取得された複数のサブラベルＳＬの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数のサブラベルＳＬがそれぞれ存在すると予測される空間的位置を判定し、判定された複数のサブラベルＳＬがそれぞれ存在すると予測される空間的位置を結合させることにより入力画像ＩＭに含まれる文字ラベルの区間ＬＡを検出する。

【0032】

判定部１３１が判定するために用いる所定の条件とは、例えば、尤度が所定の閾値ＴＨを超えるか否かであってもよい。この場合、文字区間検出部１３０に備えられる判定部１３１は、取得された複数のサブラベルＳＬの尤度がそれぞれ所定の閾値ＴＨ以上である空間的位置を判定することにより、複数のサブラベルＳＬがそれぞれ存在すると予測される空間的位置を判定する。所定の閾値ＴＨは、閾値記憶部３０に記憶されていてもよい。

【0033】

図７は、第１の実施形態に係る判定部１３１が、サブラベルＳＬが存在すると予測される空間的位置を判定するために用いる所定の条件の一例について説明するための図である。同図を参照しながら所定の条件について説明する。この一例における所定の条件とは、尤度が所定の閾値ＴＨを超えるか否かである。図７（Ａ）は、入力画像ＩＭの一例を示す図である。図７（Ｂ）は、図７（Ａ）に示される入力画像ＩＭに対応するサブラベルＳＬの尤度分布を示す図である。

【0034】

この一例において、サブラベルＳＬ１の尤度分布は、“５ｓｔａｒｔ”の尤度分布を示す。また、サブラベルＳＬ２の尤度分布は、“５ｅｎｄ”の尤度分布を示す。サブラベルＳＬ１の尤度は、位置Ｐ１１から位置Ｐ１２において所定の閾値ＴＨを超える。また、サブラベルＳＬ２の尤度は、位置Ｐ２１から位置Ｐ２２において所定の閾値ＴＨを超える。判定部１３１は、サブラベルＳＬ１の尤度分布において所定の閾値ＴＨを超える範囲である位置Ｐ１１から位置Ｐ１２を判定し、サブラベルＳＬ２の尤度分布において所定の閾値ＴＨを超える範囲である位置Ｐ２１から位置Ｐ２２を判定する。結合部１３２は、判定された範囲である位置Ｐ１１から位置Ｐ１２及び位置Ｐ２１から位置Ｐ２２を結合することにより、入力画像ＩＭに含まれる文字ラベルの区間ＬＡを検出する。なお、文字ラベルＬに空白ラベルＳＬＳが含まれる場合、空白ラベルＳＬＳの尤度に基づいた閾値ＴＨを用いてもよい。空白ラベルＳＬＳの尤度が高い区間には文字が存在せず、空白ラベルＳＬＳの尤度が低い区間には文字が存在する。したがって、結合部１３２は、空白ラベルＳＬＳの尤度が所定の閾値ＴＨより低い区間についての範囲のみを結合することにより、より高精度に文字の区間を検出することができる。

【0035】

結合部１３２は、判定部１３１により判定されたサブラベルＳＬの空間的位置に矛盾が生じないように、判定された範囲を結合する。この一例においては、サブラベルＳＬ１は文字ラベルＬが“５”である場合の前半であり、サブラベルＳＬ２は文字ラベルＬが“５”である場合の後半である。すなわち、ｘ軸方向において、左から、サブラベルＳＬ１、サブラベルＳＬ２の順序である場合には矛盾が生じていない。なお、矛盾が生じているか否かの判定基準については、尤度分布のうち尤度がもっとも大きい点に該当する位置を用いて判定してもよいし、尤度が閾値ＴＨを超える範囲のうち中間位置を用いて判定してもよい。

【0036】

図８は、第１の実施形態に係るサブラベルＳＬの空間的位置に矛盾が生じている場合の一例と、矛盾が生じていない場合の一例について説明するための図である。図８（Ａ）は、サブラベルＳＬの空間的位置に矛盾が生じていない場合の一例であり、図８（Ｂ）は、サブラベルＳＬの空間的位置に矛盾が生じている場合の一例である。なお、この一例においては、結合部１３２は、尤度分布のうち尤度がもっとも大きい点に該当する位置を用いて、サブラベルＳＬの空間的位置に矛盾が生じているか否かを判定している。

【0037】

図８（Ａ）及び図８（Ｂ）において、サブラベルＳＬ１は位置Ｐ１に位置し、サブラベルＳＬ２は位置Ｐ２に位置し、サブラベルＳＬ３は位置Ｐ３に位置する。図８（Ａ）において、それぞれのサブラベルＳＬは、左から順に、サブラベルＳＬ１、サブラベルＳＬ２、サブラベルＳＬ３の順序で位置している。この一例において、サブラベルＳＬの空間的位置に矛盾が生じていない。図８（Ｂ）において、それぞれのサブラベルＳＬは、左から順に、サブラベルＳＬ１、サブラベルＳＬ３、サブラベルＳＬ２の順序で位置している。すなわち、サブラベルＳＬ２とサブラベルＳＬ３の順序が入れ替わっている。この一例において、サブラベルＳＬの空間的位置に矛盾が生じている。

【0038】

なお、結合部１３２は、隣り合うサブラベルＳＬが少なくとも１点以上の空間的位置を共有する場合に、当該隣り合うサブラベルＳＬを結合するように構成してもよい。すなわち、文字区間検出部１３０に含まれる結合部１３２は、隣り合うサブラベルＳＬの範囲が少なくとも１点以上の空間的位置を共有する場合に、隣り合うサブラベルＳＬの空間的位置を結合させることにより、入力画像ＩＭに含まれる文字ラベルの区間ＬＡを検出する。

【0039】

図９は、第１の実施形態に係るサブラベルＳＬについて、隣り合うサブラベルＳＬが少なくとも１点以上の空間的位置を共有する場合の一例について説明するための図である。同図を参照しながら、隣り合うサブラベルＳＬが少なくとも１点以上の空間的位置を共有する場合の一例について説明する。サブラベルＳＬ１の尤度分布は、位置Ｐ１１及び位置Ｐ１２において、所定の閾値ＴＨと交わる。サブラベルＳＬ２の尤度分布は、位置Ｐ２１及び位置Ｐ２２において、所定の閾値ＴＨと交わる。サブラベルＳＬ３の尤度分布は、位置Ｐ１３及び位置Ｐ１３において、所定の閾値ＴＨと交わる。この一例において、位置２１から位置Ｐ１２の区間において、サブラベルＳＬ１の尤度分布とサブラベルＳＬ２の尤度分布とは、空間的位置を共有している（範囲ＡＲ１）。また、位置３１から位置Ｐ２２の区間において、サブラベルＳＬ２の尤度分布とサブラベルＳＬ３の尤度分布とは、空間的位置を共有している（範囲ＡＲ２）。このように、隣り合うサブラベルＳＬが少なくとも１点以上の空間的位置を共有する場合において、結合部１３２は、隣り合うサブラベルＳＬを結合し、文字ラベルの区間ＬＡを検出する。なお、隣り合うサブラベルＳＬが１点の空間的位置も共有しない場合において、結合部１３２は、空間的位置が矛盾していなかったとしても、隣り合うサブラベルＳＬを結合しないよう構成してもよい。

【0040】

ここで、文字列画像においては文字の中央部に比べ、文字の端部ほど、隣の文字と重複しやすいという性質がある。このような性質から、文字ラベルＬが３以上のサブラベルＳＬに分割される場合、文字の両端のサブラベルＳＬほど尤度が低く、中心に近いサブラベルＳＬほど尤度が高く出ることが推測される。したがって、３以上のサブラベルＳＬについて同一の所定の閾値ＴＨを用いて判定した場合、精度のよい文字ラベルの区間ＬＡができない場合がある。本実施形態においては、所定の閾値ＴＨは、サブラベルＳＬごとに異なる値であってもよい。

【0041】

図１０は、第１の実施形態に係る所定の閾値ＴＨがサブラベルＳＬごとに異なる場合の一例を説明するための図である。同図を参照しながら、所定の閾値ＴＨがサブラベルＳＬごとに異なる場合の一例について説明する。この一例において、所定の閾値とは、サブラベルＳＬに応じて異なる値である。同図において、所定の閾値とは、サブラベルＳＬ１に対応する第１の閾値ＴＨ１と、サブラベルＳＬ２に対応する第２の閾値ＴＨ２と、サブラベルＳＬ３に対応する第３の閾値ＴＨ３とである。サブラベルＳＬ１の尤度分布は、位置Ｐ１１及び位置Ｐ１２において、第１の閾値ＴＨ１と交わる。サブラベルＳＬ２の尤度分布は、位置Ｐ２１及び位置Ｐ２２において、第２の閾値ＴＨ２と交わる。サブラベルＳＬ３の尤度分布は、位置Ｐ３１及び位置Ｐ３２において、第３の閾値ＴＨ３と交わる。このように、サブラベルＳＬごとに所定の閾値ＴＨを設定することにより、文字区間検出部１３０は、より正確にサブラベルＳＬが存在すると予測される位置を判定することができる。

【0042】

上述した一例においては、入力情報取得部１１０が入力画像ＩＭを取得し、尤度取得部１２０は、入力画像ＩＭの画像情報に基づき、サブラベルＳＬの尤度を取得する場合の一例について説明したが、本実施形態においては、入力画像ＩＭの特徴量に基づき、サブラベルＳＬの尤度を取得するよう構成されていてもよい。

【0043】

図１１は、第１の実施形態に係る入力情報取得部１１０の変形例である入力情報取得部１１０Ａの機能構成を示すブロック図である。同図を参照しながら、第１の実施形態に係る入力情報取得部１１０の変形例である入力情報取得部１１０Ａの機能構成について説明する。入力情報取得部１１０Ａは、入力画像情報取得部１１１と、特徴抽出部１１２とを備える。入力画像情報取得部１１１は、入力画像ＩＭを取得する。

【0044】

特徴抽出部１１２は、入力画像ＩＭから特徴量を抽出する。特徴抽出部１１２により抽出された特徴ベクトルは、入力画像ＩＭに含まれる文字ラベルＬと空間的な対応関係を有する。すなわち、特徴抽出部１１２は、入力画像ＩＭから空間的な特徴量を抽出する。尤度取得部１２０は、特徴抽出部１１２により入力画像ＩＭから抽出された特徴量に基づいて、予測モデル２０からサブラベルＳＬの尤度を取得する。特徴抽出部１１２は、例えば、所定のニューラルネットワークＮＮにより入力画像ＩＭから特徴量を抽出する。

【0045】

［情報処理装置の一連の動作］
図１２は、第１の実施形態に係る情報処理装置１０の一連の動作を示すフローチャートである。同図を参照しながら、第１の実施形態に係る情報処理装置１０の一連の動作について説明する。

【0046】

（ステップＳ１１０）入力画像情報取得部１１１は、入力画像ＩＭを取得する。

【0047】

（ステップＳ１２０）特徴抽出部１１２は、取得した入力画像ＩＭに含まれる文字列画像を複数の区間に区切り、特徴量の系列を算出する。特徴抽出部１１２は、例えば、畳み込みニューラルネットワーク（ＣＮＮ）によって、入力画像をＴ個のＦ次元特徴ベクトルｖ_１、ｖ_２、…、ｖ_Ｔに変換する。なお、特徴抽出部１１２は、ＣＮＮの途中又は最後にリカレントニューラルネットワーク（ＲＮＮ）を挿入されることにより入力画像をＴ個のＦ次元特徴ベクトルに変換してもよい。

【0048】

ここで、Ｔ個の特徴ベクトルはＣＮＮによってそれぞれ入力画像ＩＭの異なる部分画像から計算されている。したがって、入力画像ＩＭに含まれる文字列画像と、Ｔ個の特徴ベクトルとは、空間的な対応関係を有する。文字列画像と、特徴ベクトルとの空間的な対応関係は、ＣＮＮの構造に依存する。例えば、文字列画像の高さが１２８ｐｘ（ピクセル）であり、幅が５１２ｐｘである場合において、文字列画像と、特徴ベクトルとの空間的な対応関係は、高さが１２８ｐｘであり、幅が１２８ｐｘの矩形を左から順に所定の距離（例えば、４ｐｘ）ずつスライドさせることにより決定される。本実施例において、特徴ベクトルｖ_１が入力画像ＩＭに含まれる文字列画像の左端に対応し、特徴ベクトルｖ_Ｔが入力画像ＩＭに含まれる文字列画像の右端に対応するものとする。

【0049】

（ステップＳ１３０）情報処理装置１０は、文字ラベルＬを複数の領域に分割したサブラベルＳＬを作成し、各特徴量に対してサブラベルの確率分布を算出する。予測モデル２０は各特徴量からＫ×Ｍ個のサブラベルそれぞれに対応する確率分布ｐ_ｋ，ｍ（ｔ）（ｋ＝１、２、…、Ｋ；ｍ＝１、２、…、Ｍ）と、空白ラベルの確率分布ｐ_ｂ（ｔ）を出力する。この一例において、文字の種類はＬ_１、…、Ｌ_ＫのＫ個である。予測モデル２０は、事前にＬ_ｋ（ｋ＝１、２、…、Ｋ）のそれぞれの文字の範囲をＭ個に分割し、Ｌ_ｋ，１、…、Ｌ_ｋ，Ｍの領域に分けておき、それぞれをサブラベルＳＬとし、学習される。

【0050】

（ステップＳ１４０）情報処理装置１０は、サブラベルＳＬの確率分布から一定の条件を満たす範囲を取り出す。具体的には、文字区間検出部１３０は、複数の文字ラベルＬ_１、…、Ｌ_Ｋそれぞれにおいて、ＫＭクラスの確率分布ｐ_１，１（ｔ）、ｐ_１，２（ｔ）、…、ｐ_Ｋ，Ｍ（ｔ）をもとに文字ラベルＬとその区間を推定する。サブラベルＬ_ｋ，ｍの確率が空白ラベルの確率を上回る範囲、つまり確率分布ｐ_ｋ，ｍ（ｔ）に対して、下の式（１）を満たす範囲を取り出す。

【0051】

【数1】

【0052】

このとき、取り出される範囲の小区間は、下の式（２）で表される。式（２）において、Ｉ_ｋ，ｍはサブラベルＬ_ｋ，ｍから取り出された小区間の数を示す。

【0053】

【数2】

【0054】

なお、空白ラベルの確率分布ｐ_ｂ（ｔ）は予測モデル２０により出力されるとして説明したが、あらかじめ設定しておいた閾値αを用いて、ｐ_ｂ（ｔ）＝αとしてもよい。

【0055】

（ステップＳ１５０）文字区間検出部１３０は、サブラベルＬ_{（ｋ，ｍ－１）}の小区間の範囲とサブラベルＬ_ｋ，ｍの小区間の範囲とが領域に分けられた文字ラベルＬの空間的順序と整合性がとれるとき、それらの小区間を結合させて、文字ラベルＬの文字区間とする。空間的順序と整合性が取れているとは、文字ラベルＬをサブラベルＳＬに分けた時の領域の位置関係と、各サブラベルＳＬの尤度が一定の条件を満たす区間の順序関係に矛盾がないということである。すなわち、文字区間検出部１３０は、１＜ｍ≦Ｍをみたすｍに対して下の式（３）を満たすような組（ｉ_ｋ，１、…、ｉ_ｋ，Ｍ）が存在するとき、対応する小区間の組を取り出す。

【0056】

【数3】

【0057】

このとき、取り出される小区間の組は、下の式（４）で表される。

【0058】

【数4】

【0059】

式（４）で表される小区間の組を結合させ、文字Ｌ_ｋの区間とする。文字Ｌ_ｋの区間は、下の式（５）で表される。

【0060】

【数5】

【0061】

ここで、（ｉ_ｋ，１、…、ｉ_ｋ，Ｍ）として複数の組み合わせが考えられるとき、すべての小区間の尤度を平均したものが最も高くなるような組み合わせを採用する。小区間の尤度の計算方法としては、その小区間内の各tでの尤度の平均や最小値、最大値などが考えられる。これをすべての組に対して行うことにより、文字Ｌ_ｋの区間を抽出する。

【0062】

なお、図９を参照しながら説明したように、ある文字ラベルＬ_ｋが有する全てのサブラベルＬ_ｋ，１、…、Ｌ_ｋ，Ｍに対して、サブラベルＬ_{（ｋ，ｍ－１）}の小区間と、サブラベルＬ_ｋ，ｍの小区間が一点以上を共有している場合のみ小区間を結合させる、という制約を設けてもよい。つまり、１＜ｍ≦Ｍを満たすｍに対して、式（６）かつ式（７）を満たすような組が存在するとき、対応する小区間の組を取り出し、これらを結合させ、文字Ｌ_ｋの区間とする。この制約は文字列画像中に同じ文字が複数回出現する場合に有効である。

【0063】

【数6】

【0064】

【数7】

【0065】

［第１の実施形態のまとめ］
情報処理装置１０は、上述した手順により得られた文字ごとの範囲を出力する。情報処理装置１０は、得られた文字と、範囲とを、重複を避けて選択することにより、入力画像に対する文字列認識結果を複数得ることができる。情報処理装置１０によれば、ある文字列に対して複数通りの分割の仕方が可能な場合でも、複数通りの分割の仕方すべてを出力することが可能である。

【0066】

図１３は、第１の実施形態に係る情報処理装置１０を用いた場合の効果について説明するための図である。図１３（Ａ）は、入力画像ＩＭの一例を示す図である。図１３（Ｂ）は、従来技術を用いた場合における図１３（Ａ）に示される入力画像ＩＭに対応する文字ラベルの尤度分布を示す図である。図１３（Ｃ）は、本実施形態を用いた場合における図１３（Ａ）に示される入力画像ＩＭに対応するサブラベルＳＬの尤度分布を示す図である。この一例における入力画像ＩＭに示される文字列は、“２２”である。

【0067】

図１３（Ｂ）に示すように、従来技術によれば、文字ラベルの尤度を算出していたため、同一の文字が連続するような場合には、尤度分布９３のように、１文字目の尤度分布と２文字目の尤度分布において閾値を超える範囲が重なってしまい、１文字目と２文字目を個別に認識することができず、１文字目と２文字目を１つの文字として認識してしまっていた。したがって、従来技術によれば、“２２”を“２”と誤認識してしまっていた。

【0068】

図１３（Ｃ）に示すように、本実施形態によれば、サブラベルＳＬごとに尤度分布を算出する。同図に示すように、文字ラベルＬの前半部分のサブラベルであるサブラベルＳＬ１と、文字ラベルＬの後半部分のサブラベルであるサブラベルＳＬ２とが、ｘ軸方向において交互に閾値を上回っている。したがって、本実施形態によれば、サブラベルＳＬごとに尤度分布を算出するため、文字ラベルＬの前半及び後半を検出することができる。すなわち、本実施形態によれば、同じ文字が連続するような場合においても、誤検出することなく、精度よく文字の範囲を検出することができる。

【0069】

また、以上説明した実施形態によれば、情報処理装置１０において、入力情報取得部１１０Ａは、入力画像ＩＭから空間的な特徴量を抽出する。したがって、情報処理装置１０は、画像情報ＩＭが有する画像情報そのものだけでなく、画像情報から得られる特徴量に基づいて尤度を算出し、文字ラベルの区間を検出する。よって、本実施形態によれば、より高精度に文字の区間を検出することができる。

【0070】

また、以上説明した実施形態によれば、情報処理装置１０は、隣り合うサブラベルＳＬの範囲が少なくとも１点以上の空間的位置を共有する場合に、隣り合うサブラベルＳＬの空間的位置を結合させることにより、入力画像ＩＭに含まれる文字ラベルの区間を検出する。情報処理装置１０は、隣り合うサブラベルＳＬの範囲が１点の空間的位置も共有しない場合には、隣り合うサブラベルＳＬの空間的位置を結合させないため、遠く離れた場所に位置するサブラベルＳＬを結合させ、１つの文字ラベルとして検出してしまうことがない。したがって、本実施形態によれば、文字ラベルの区間ＬＡを誤検出することなく、精度よく文字の区間を検出することができる。

【0071】

また、以上説明した実施形態によれば、文字区間検出部１３０は、取得された複数のサブラベルＳＬの尤度がそれぞれ所定の条件を満たす範囲を判定することにより、複数のサブラベルＳＬがそれぞれ存在すると予測される空間的位置を判定し、判定された複数のサブラベルＳＬがそれぞれ存在すると予測される空間的位置を結合させることにより入力画像ＩＭに含まれる文字ラベルの区間を検出する。具体的には、文字区間検出部１３０は、所定の閾値ＴＨに基づいて、サブラベルＳＬが存在する区間を判定する。したがって、本実施形態によれば、尤度が低い場合は、サブラベルＳＬの候補から除外できるため、誤検出を抑止することができる。また、情報処理装置１０によれば、容易に文字の区間を判定することができる。

【0072】

また、以上説明した実施形態によれば、文字区間検出部１３０は、サブラベルＳＬごとに異なる所定の閾値ＴＨに基づいて、サブラベルＳＬがそれぞれ存在すると予測される空間的位置を判定する。したがって、本実施形態によれば、より高精度に文字の区間を検出することができる。

【0073】

また、以上説明した実施形態によれば、文字ラベルＬは、空白である文字に対応する空白ラベルＳＬＳを含む。したがって、本実施形態によれば、文字と文字とのつなぎ目を検出することができるため、同一の文字が連続するような場合においても、連続する２以上の文字を１文字と誤検出することなく、精度よく文字の区間を検出することができる。

【0074】

［第２の実施形態］
以下、第２の実施形態について図面を参照しながら説明する。第２の実施形態においては、情報処理装置１０Ａは、複数の予測モデル２０に基づいて文字ラベルの区間ＬＡを検出する。機能構成の説明については、情報処理装置１０Ａは、２個の異なる予測モデル２０に基づいて文字ラベルの区間ＬＡを検出する場合の一例について説明するが、本実施形態はこの一例に限定されない。例えば、情報処理装置１０Ａは、ｎ個の異なる予測モデル２０に基づいて文字ラベルの区間ＬＡを検出するよう構成されていてもよい。

【0075】

図１４は、第２の実施形態に係る尤度取得部１２０Ａの機能構成を示すブロック図である。同図を参照しながら、尤度取得部１２０Ａの機能構成について説明する。第２の実施形態においては、情報処理装置１０Ａは、尤度取得部１２０に代えて、尤度取得部１２０Ａを備える点において、第１の実施形態とは異なる。第１の実施形態と同様の構成については、同様の符号を付すことにより説明を省略する場合がある。尤度取得部１２０Ａは、第１尤度取得部１２１と、第２尤度取得部１２２とを備える。第１尤度取得部１２１は、第１予測モデル２０－１から尤度を取得し、第２尤度取得部１２２は、第２予測モデル２０－２から取得する。第１予測モデル２０－１と、第２予測モデル２０－２とは、異なる学習済みモデルである。

【0076】

ここで、第１予測モデル２０－１におけるサブラベルＳＬの分割数と、第２予測モデル２０－２におけるサブラベルＳＬの分割数とは、互いに異なる。具体的には、第１予測モデル２０－１においては、文字ラベルＬが２個のサブラベルＳＬに分割された場合におけるサブラベルＳＬの尤度が学習されており、第２予測モデル２０－２においては、文字ラベルＬが３個のサブラベルＳＬに分割された場合におけるサブラベルＳＬの尤度が学習されている。第１予測モデル２０－１から取得される、文字ラベルＬを２分割した場合におけるサブラベルＳＬの尤度を第１尤度とも記載する。第２予測モデル２０－２から取得される、文字ラベルＬを３分割した場合におけるサブラベルＳＬの尤度を第２尤度とも記載する。すなわち、第１尤度取得部１２１は、予測モデル２０である第１予測モデル２０－１から、サブラベルＳＬの尤度である第１尤度を取得する。第２尤度取得部１２２は、予測モデル２０である第２予測モデル２０－２から、サブラベルＳＬの尤度である第２尤度を取得する。

【0077】

文字区間検出部１３０は、第１尤度取得部１２１により取得された第１尤度と、第２尤度取得部１２２により取得された第２尤度とに基づき、入力画像ＩＭに含まれる文字ラベルＬの区間を検出する。具体的には、文字区間検出部１３０は、第１尤度取得部１２１により取得された第１尤度に基づいて検出された区間と、第２尤度取得部１２２により取得された第２尤度に基づいて検出された区間との中間値を文字ラベルの区間ＬＡとして検出してもよい。

【0078】

なお、情報処理装置１０Ａが、ｎ個の異なる予測モデル２０に基づいて文字ラベルの区間ＬＡを検出するよう構成される場合、尤度取得部１２０は、第１尤度取得部１２１と、…、第ｎ尤度取得部１２ｎとを備える。第１尤度取得部１２１は、第１予測モデル２０－１から第１尤度を取得し、…、第ｎ尤度取得部１２ｎは、第ｎ予測モデル２０－ｎから第ｎ尤度を取得する。

【0079】

図１５は、第２の実施形態に係る情報処理装置１０Ａの一連の動作を示すフローチャートである。同図を参照しながら、第１の実施形態に係る情報処理装置１０Ａの一連の動作について説明する。第２の実施形態に係る情報処理装置１０Ａの一連の動作においては、図１２を参照しながら説明したステップＳ１４０及びステップＳ１５０に代えて、ステップＳ２１０からステップＳ２４０を備える点において、第１の実施形態とは異なる。同図の説明において、第１の実施形態とは同様の内容については、同様の符号を付すことにより説明を省略する場合がある。

【0080】

なお、この一例において、文字ラベルを１個～ｃ＋１個に分割して学習したｃ個の予測モデルをそれぞれ用意し、分割数の少ない順に予測モデル２０－１、…、予測モデル２０―ｃとする。

【0081】

（ステップＳ２１０）尤度取得部１２０Ａは、予測モデル２０－１から、文字ラベルＬが２分割されたサブラベルＳＬの尤度を取得する。文字区間検出部１３０は、取得したサブラベルＳＬの尤度に基づき、文字ラベルの区間ＬＡを決定する。

【0082】

（ステップＳ２２０）文字区間検出部１３０は、サブラベルＳＬの尤度が一定の条件を満たすもののみ文字区間として採用する。すなわち、本実施形態において、文字区間検出部１３０は、サブラベルＳＬの尤度が一定の条件を満たさない場合、文字ラベルの区間ＬＡを文字区間として採用しない。

【0083】

（ステップＳ２３０）尤度取得部１２０Ａは、ステップＳ２１０により尤度を取得した予測モデル２０の分割数ｍが閾値ｃ以下である場合、分割数が次に大きい予測モデル２０から尤度を取得する（すなわちｍをｍ＋１とし、処理をステップＳ１３０に進める）。尤度取得部１２０Ａは、ステップＳ２１０により尤度を取得した予測モデル２０が、複数の予測モデル２０のうち最も分割数の多いサブラベルＳＬの尤度が学習された予測モデル２０―ｃである場合、処理をステップＳ２４０に進める。すなわち、本実施形態においては、すべての分割数の予測モデルに対して、実施形態１で説明した一連の処理を実行し、認識された文字区間の尤度があらかじめ定めた閾値を超えているものを文字区間として抽出する。

【0084】

（ステップＳ２３０）出力部１４０は、得られたすべての文字区間を出力する。すなわち、本実施形態において、入力画像ＩＭに含まれる文字列の区間の区切り方に複数の可能性がある場合、出力部１４０は、検出された全ての可能性を出力する。

【0085】

なお、文字区間の尤度は、対応するサブラベルＳＬから取り出した各小区間の尤度の平均としてもよい。複数の予測モデル２０から同じ文字区間が抽出された場合、抽出された文字区間の尤度は、各予測モデルでの尤度の平均としてもよい。

【0086】

第２の実施形態の変形例として、まず最も分割数の少ない予測モデル２０―１を用いて文字区間を抽出し、抽出された文字区間の尤度の平均が閾値を超えていなければ次に分割数の少ない予測モデル２０―２を用いて同様の操作を行う。情報処理装置１０は、この処理を、閾値を超えるまで繰り返し、予測モデル２０－１、…、予測モデル２０―ｃすべてにおいて文字区間の尤度の平均が閾値を超えない場合は最も尤度の平均が高い場合の予測モデルを用いた結果を採用する方法を用いてもよい。具体的には、第１予測モデル２０－１におけるサブラベルＳＬの分割数が、第２予測モデル２０－２におけるサブラベルの分割数が小さい場合、文字区間検出部１３０は、第２尤度が所定の条件を満たす場合には、第２尤度に対応するサブラベルが存在すると予測される空間的位置に基づき文字ラベルＬの区間を検出し、第２尤度が所定の条件を満たさない場合には、第１尤度に対応するサブラベルが存在すると予測される空間的位置に基づき文字ラベルの区間を検出する。このように、第２の実施形態の変形例による方法を用いることにより、情報処理装置１０は、最も確からしい結果を出力することができる。

【0087】

なお、入力画像ＩＭに含まれる文字数Ｓがあらかじめ与えられている場合、情報処理装置１０は、各予測モデルから出力した文字区間の合計数がＳ以上であればその結果を採用するよう構成されていてもよい。このように構成することにより、情報処理装置１０は、より高精度に、与えられた文字数Ｓの文字ラベルの区間ＬＡを検出することができる。

【0088】

［第２の実施形態のまとめ］
以上説明した実施形態によれば、尤度取得部１２０Ａは、複数の予測モデル２０から尤度を取得する。具体的には、尤度取得部１２０Ａは、第１尤度を取得する第１尤度取得部１２１と、第２尤度を取得する第２尤度取得部１２２とを備える。複数の予測モデル２０は、それぞれサブラベルＳＬの分割数が異なるため、第１尤度と、第２尤度とは、サブラベルＳＬの分割数が異なる。文字区間検出部１３０は、第１尤度取得部１２１により取得された第１尤度と、第２尤度取得部１２２により取得された第２尤度とに基づき、入力画像ＩＭに含まれる文字ラベルＬの区間を検出する。ここで、入力画像ＩＭに含まれる文字列によっては、複数の区切り方をすることができる場合がある。本実施形態によれば、複数の予測モデル２０を用いることにより、複数種類の区切り方を出力することができる。すなわち、本実施によれば、より高精度に文字の区間を検出することができる

【0089】

また、以上説明した実施形態によれば、文字区間検出部１３０により検出された文字ラベルの区間ＬＡが所定の条件を満たす場合には文字ラベルの区間ＬＡとして出力し、所定の条件を満たさない場合には文字ラベルの区間ＬＡとして出力しない。すなわち、情報処理装置１０は、したがって、本実施形態によれば、最も確からしい結果を出力することができる。

【0090】

［第３の実施形態］
以下、第３の実施形態について図面を参照しながら説明する。第３の実施形態においては、文字ラベルＬが、ｘ軸方向以外にも分割される点において、第１の実施形態とは異なる。すなわち、第３の実施形態においては、文字ラベルＬがｘ軸方向及びｙ軸方向において、それぞれ分割される。第１の実施形態と同様の構成については、同様の符号を付すことにより説明を省略する場合がある。

【0091】

図１６は、第３の実施形態に係るサブラベルＳＬについて説明するための図である。この一例において、文字ラベルＬは、ｘ軸方向及びｙ軸方向において、複数の矩形に分割される。具体的には、文字ラベルＬは、サブラベルＬ_ｋ１と、サブラベルＬ_ｋ２と、サブラベルＬ_ｋ３と、サブラベルＬ_ｋ４とに分割される。予測モデル２０は、それぞれのサブラベルＳＬの尤度について学習される。

【0092】

図１７は、第３の実施形態に係る尤度について説明するための図である。情報処理装置１０は、学習された予測モデル２０に基づいて、入力画像ＩＭに含まれる文字列の、文字ラベルの区間ＬＡを検出する。同図には、入力画像ＩＭに含まれる文字列が“あ”である場合の一例について示されている。範囲ＡＲ－Ｌ_ｋ１は、サブラベルＬ_ｋ１の尤度が所定の閾値ＴＨを超えた範囲を示し、範囲ＡＲ－Ｌ_ｋ２は、サブラベルＬ_ｋ２の尤度が所定の閾値ＴＨを超えた範囲を示し、範囲ＡＲ－Ｌ_ｋ３は、サブラベルＬ_ｋ３の尤度が所定の閾値ＴＨを超えた範囲を示し、範囲ＡＲ－Ｌ_ｋ４は、サブラベルＬ_ｋ４の尤度が所定の閾値ＴＨを超えた範囲を示す。文字区間検出部１３０は、例えば、これらのサブラベルＳＬの尤度が所定の閾値ＴＨを超えた範囲を結合することにより、文字ラベルの区間ＬＡを検出する。

【0093】

第３の実施形態に係る情報処理装置１０の、具体的な処理について説明する。入力情報取得部１１０は、入力画像ＩＭを取得すると、取得した入力画像ＩＭを横Ｔ個、縦Ｔ’個の計Ｔ×Ｔ’個に分割し、それぞれ特徴ベクトルｖ_１，１、ｖ_１，２、…、ｖ_１，Ｔ、ｖ_２，１、…、ｖ_Ｔ’，Ｔに変換する。尤度取得部１２０は、変換された各特徴量からＫ×Ｍ個のサブラベルに対する２次元の確率分布ｐ_ｋ，ｍ（ｔ’，ｔ)を出力する。情報処理装置１０は、空白ラベルの値ｐ_ｂ（ｔ’，ｔ)を閾値とし、下の式（８）を満たす（ｔ’，ｔ)の領域Ｄ_ｋ，ｍ（ｍ＝１、２、…、Ｍ）をもとに文字範囲を決定する。

【0094】

【数8】

【0095】

サブラベルＬ_ｋ，ｍの横方向の小区間を下の式（９）とする。すべてのｍについて同様に小区間を取り出し、文字ラベルＬの横方向の文字区間を決定する。

【0096】

【数9】

【0097】

同様に、サブラベルＬ_ｋ，ｍの縦方向の小区間を下の式（１０）とし、縦方向の文字区間を決定する。以上の方法により文字ラベルＬについての、文字ラベルの区間ＬＡが決まる。

【0098】

【数10】

【0099】

［第３の実施形態のまとめ］
以上説明した実施形態によれば、予測モデル２０は、文字ラベルＬをｘ軸方向及びｙ軸方向に分割したサブラベルＳＬの尤度を学習する。情報処理装置１０は、文字ラベルＬをｘ軸方向及びｙ軸方向に分割したサブラベルＳＬの尤度を学習した予測モデル２０に基づき、文字ラベルの区間ＬＡを検出する。したがって、本実施形態によれば、より高精度に、文字ラベルの区間ＬＡを検出することができる。

【0100】

［第４の実施形態］
以下、第４の実施形態について図面を参照しながら説明する。第４の実施形態においては、文字ラベルＬの種類によって分割数が決定される点において、第１の実施形態とは異なる。例えば、漢字は偏と旁、冠と脚、垂、繞、構のような部首を持つものがある。このように、１つの文字ラベルＬが複数の部首に分かれるような場合は、部首ごとにサブラベルＳＬとして予測モデル２０を学習させてもよい。

【0101】

図１８は、第４の実施形態に係るサブラベルＳＬについて説明するための図である。図１８（Ａ）は、偏と旁を有する文字ラベルＬのサブラベルＳＬについて説明するための図である。同図は、文字ラベルＬが“証”という漢字である場合の一例である。“証”という漢字の偏は“言”であり、旁は“正”である。この一例において、サブラベルＳＬ１は、偏である“言”に対応し、サブラベルＳＬ２は、旁である“正”に対応する。図１８（Ｂ）は、冠と脚を有する文字ラベルＬのサブラベルＳＬについて説明するための図である。同図は、文字ラベルＬが“志”という漢字である場合の一例である。“志”という漢字の冠は“士”であり、脚は“心”である。この一例において、サブラベルＳＬ２は、冠である“士”に対応し、サブラベルＳＬ２は、脚である“心”に対応する。

【0102】

図１９は、第４の実施形態に係る尤度について説明するための図である。情報処理装置１０は、学習された予測モデル２０に基づいて、入力画像ＩＭに含まれる文字列の、文字ラベルの区間ＬＡを検出する。図１９（Ａ）は、偏と旁を有する文字ラベルＬにおけるサブラベルＳＬの尤度について説明するための図である。情報処理装置１０は、偏と旁を有する文字ラベルＬについて、ｘ軸方向の尤度を検出する。図１９（Ｂ）は、冠と脚を有する文字ラベルＬにおけるサブラベルＳＬの尤度について説明するための図である。情報処理装置１０は、冠と脚を有する文字ラベルＬについて、ｙ軸方向の尤度を検出する。

【0103】

なお、情報処理装置１０は、ｘ軸方向及びｙ軸方向のそれぞれに対して尤度を検出し、それぞれの結果について所定の閾値を超えるか否かに基づき、文字ラベルの区間ＬＡを検出するよう構成してもよい。

【0104】

本実施形態においては、部首ごとにサブラベルＳＬの尤度が学習されているため、情報処理装置１０は、それぞれの部首ごとにサブラベルＳＬの尤度を独立に検出した後、所定のリストに基づいて、部首を突合させ、突合した文字の区間を出力する。

【0105】

図２０は、第４の実施形態に係る情報処理装置１０の一連の動作を示すフローチャートである。第４の実施形態においては、第１の実施形態で説明したステップＳ１１０からステップＳ１５０に加え、ステップＳ１４０を有する点において、第１の実施形態とは異なる。第１の実施形態と同様の構成については、同様の記号を付すことにより、説明を省略する。

【0106】

（ステップＳ４１０）情報処理装置１０は、ステップＳ１５０において区間が決定されたサブラベルＳＬに基づき、所定のリストを参照して、文字ラベルＬを決定する。具体的には、ステップＳ１５０において“言”と、“正”とのサブラベルＳＬの区間が決定された場合、所定のリストには、“言”と、“正”とのサブラベルＳＬに対応する文字ラベルＬとして“証”の文字ラベルＬが記憶されている。情報処理装置１０は、“言”及び“正”のそれぞれのサブラベルＳＬの区間を足した区間を、“証”の文字ラベルＬの区間として出力する。

【0107】

なお、情報処理装置１０は、入力画像ＩＭに記載された文字が、“証”であるか、“言”及び“正”であるかを判定できないときは、それぞれの結果を出力するよう構成してもよい。

【0108】

［第４の実施形態のまとめ］
以上説明した実施形態によれば、予測モデル２０は、文字ラベルＬを部首ごとに分割したサブラベルＳＬの尤度を学習する。情報処理装置１０は、サブラベルＳＬごとに区間を検出し、所定のリストに基づき、サブラベルＳＬを結合することにより、文字ラベルの区間ＬＡを検出する。したがって、本実施形態によれば、文字区間の区切り方についての、より多くの候補を出力することができる。

【0109】

以上説明してきたように、実施形態では、複数の変形例を記載した。ここで、組み合わせることが可能な限りにおいて、複数の実施形態及び複数の変形例を組み合わせて実施するようにしてもよい。

【0110】

なお、上述した実施形態における情報処理装置１０の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0111】

以上説明した少なくともひとつの実施形態によれば、入力情報取得部と、尤度取得部と、文字区間検出部と、出力部とを持つことにより、入力された文字列に含まれる個別文字の区間を、適切に検出することができる。

【0112】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0113】

１０…情報処理装置、２０…予測モデル、１１０…入力情報取得部、１２０…尤度取得部、１３０…文字区間検出部、１４０…出力部、１１１…入力画像情報取得部、１１２…特徴抽出部、１３１…判定部、１３２…結合部、ＩＭ…入力画像、Ｐ…確率分布、ＬＡ…文字ラベルの区間、Ｌ…文字ラベル、ＳＬ…サブラベル、ＳＬＳ…空白ラベル、ＴＨ…閾値、１２１…第１尤度取得部、１２２…第２尤度取得部、２１…第１予測モデル、２２…第２予測モデル

【図1】