特許7618458 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許7618458文字認識装置、文字認識方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-01-10

(45)【発行日】2025-01-21

(54)【発明の名称】文字認識装置、文字認識方法、及びプログラム

(51)【国際特許分類】

G06V 30/24 20220101AFI20250114BHJP

【ＦＩ】

G06V30/24 620B

【請求項の数】 7

(21)【出願番号】P 2021018142

(22)【出願日】2021-02-08

(65)【公開番号】P2022121020

(43)【公開日】2022-08-19

【審査請求日】2023-11-22

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(73)【特許権者】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110001634

【氏名又は名称】弁理士法人志賀国際特許事務所

(72)【発明者】

【氏名】田中遼平

【審査官】佐田宏史

(56)【参考文献】

【文献】特開平０７－２６２３２２（ＪＰ，Ａ）

【文献】特開２００７－１８８５１２（ＪＰ，Ａ）

【文献】国際公開第２０２０／１７５８０６（ＷＯ，Ａ１）

【文献】特開２０１７－０４９９１１（ＪＰ，Ａ）

【文献】特開２０１３－１４０４８７（ＪＰ，Ａ）

【文献】梁建娟、外3名，“文字位置自由オンライン手書き文字列認識方式”，電子情報通信学会技術研究報告，日本，一般社団法人電子情報通信学会，2015年06月11日，Vol.115, No.100，pp.53-58

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ３０／２４

(57)【特許請求の範囲】

【請求項1】

文字列の尤もらしさを示す第１スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第１スコアを算出する第１スコア算出部と、
前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定部と、
前記文字領域推定部により推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第２スコアを算出する第２スコア算出部と、
算出された前記第１スコアと前記第２スコアとに基づいて、複数の前記候補文字列のうち１以上の文字列を選択する選択部とを備え、
前記入力画像は、複数の文字入力領域を含み、
前記第２スコア算出部は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第２スコアを算出する
文字認識装置。

【請求項2】

前記第１スコア算出部は、前記入力画像の一部である部分入力画像に含まれる前記候補文字列の前記第１スコアを算出する
請求項１に記載の文字認識装置。

【請求項3】

前記第２スコア算出部は、
前記候補文字列に含まれる文字それぞれに対応する領域が互いに重なり合う量に基づいて、前記第２スコアを算出する
請求項１又は請求項２に記載の文字認識装置。

【請求項4】

前記第２スコア算出部は、
前記候補文字列に含まれる文字と、前記文字領域推定部により推定された領域とに基づいて、前記第２スコアを算出する
請求項１から請求項３のいずれか一項に記載の文字認識装置。

【請求項5】

前記第２スコア算出部は、
前記入力画像の領域に何らかの文字が存在する尤もらしさに基づいて、前記第２スコアを算出する
請求項４に記載の文字認識装置。

【請求項6】

コンピュータが、文字列の尤もらしさを示す第１スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第１スコアを算出する第１スコア算出工程と、
コンピュータが、前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定工程と、
コンピュータが、推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第２スコアを算出する第２スコア算出工程と、
コンピュータが、算出された前記第１スコアと前記第２スコアとに基づいて、複数の前記候補文字列のうち１以上の文字列を選択する選択工程とを有し、
前記入力画像は、複数の文字入力領域を含み、
前記第２スコア算出工程は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第２スコアを算出する
文字認識方法。

【請求項7】

コンピュータに、
文字列の尤もらしさを示す第１スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第１スコアを算出する第１スコア算出ステップと、
前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定ステップと、
推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第２スコアを算出する第２スコア算出ステップと、
算出された前記第１スコアと前記第２スコアとに基づいて、複数の前記候補文字列のうち１以上の文字列を選択する選択ステップとを実行させ、
前記入力画像は、複数の文字入力領域を含み、
前記第２スコア算出ステップは、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第２スコアを算出する
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、文字認識装置、文字認識方法、及びプログラムに関する。

【背景技術】

【0002】

従来、入力された画像に含まれる文字を認識する文字認識技術が知られていた。このような従来技術によれば、明示的にそれぞれの文字の境界を区切ることなく認識することにより、認識精度を向上させられることが知られている。しかしながら、文字の境界を区切ることなく認識する場合には、１つの文字を重複して認識してしまう場合があった。また、入力画像によっては、文字を読み飛ばして認識してしまう場合があった。すなわち、従来技術によれば、入力画像に含まれる文字を正しく認識できないといった問題があった。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１３－０９７５９０号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明が解決しようとする課題は、入力画像に含まれる文字を正しく文字認識することができる文字認識装置、文字認識方法、及びプログラムを提供することである。

【課題を解決するための手段】

【0005】

実施形態の文字認識装置は、第１スコア算出部と、文字領域推定部と、第２スコア算出部と、選択部とを持つ。第１スコア算出部は、文字列の尤もらしさを示す第１スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第１スコアを算出する。文字領域推定部は、前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する。第２スコア算出部は、推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第２スコアを算出する。選択部は、算出された前記第１スコアと前記第２スコアとに基づいて、複数の前記候補文字列のうち１以上の文字列を選択する。前記入力画像は、複数の文字入力領域を含み、前記第２スコア算出部は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第２スコアを算出する。

【図面の簡単な説明】

【0006】

【図1】第１の実施形態に係る文字認識システムの機能構成の一例を示す概略図。

【図2】第１の実施形態に係る入力画像の一例を示す図。

【図3】第１の実施形態に係る第１スコアについて説明するための図。

【図4】第１の実施形態に係る第２スコアについて説明するための図。

【図5】第１の実施形態に係る文字認識システムの一連の動作を示すフローチャート。

【図6】第１の実施形態に係る第２スコア算出部の機能構成の変形例を示す図。

【図7】第１の実施形態に係る重複読みについて説明するための図。

【図8】第１の実施形態に係る読み飛ばしスコア算出部の機能構成の一例を示す図。

【図9】第１の実施形態に係る文字らしさマップについて説明するための図。

【図10】第１の実施形態に係る第１スコア算出部の機能構成の変形例を示す図。

【図11】第２の実施形態に係るビームサーチについて説明するための図。

【図12】第２の実施形態に係るビームサーチにおいて、部分入力画像毎の整合性スコアについて説明するための図。

【図13】第２の実施形態に係る文字認識システムの一連の動作を示すフローチャート。

【図14】第３の実施形態に係る入力画像の一例を示す図。

【図15】第３の実施形態に係る第２スコアの一例を示す図。

【図16】第４の実施形態に係る文字領域推定部の動作の一例を説明するための図。

【図17】第４の実施形態に係る文字領域推定部の動作の変形例を説明するための図。

【図18】第５の実施形態に係る文字らしさマップの変形例について説明するための図。

【図19】第５の実施形態に係る文字らしさマップ生成部の変形例の機能構成の一例を示す図。

【図20】第５の実施形態に係る入力データと教師データの一例を示す図。

【図21】従来技術による重複読み及び読み飛ばしについて説明するための図。

【発明を実施するための形態】

【0007】

以下、実施形態の文字認識装置、文字認識方法、及びプログラムを、図面を参照して説明する。

【0008】

［従来技術］
図２１を参照しながら、従来技術による文字認識方法を用いた場合において発生する問題点について説明する。図１１は、従来技術による重複読み及び読み飛ばしについて説明するための図である。列９０には重複読みの一例を、列９５には読み飛ばしの一例をそれぞれ示す。

【0009】

重複読みの一例において、入力画像９１が入力された場合について説明する。入力画像９１に記載された文字列を正しく文字認識する場合、文字が記載されている位置として、領域９２と領域９３とを推定する。領域９２には“川”が、領域９３には“崎”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像９１には“川崎”が記載されていることが認識できる。一方、入力画像９１に記載された文字列を誤って文字認識してしまう場合、文字が記載されている位置として、領域９２と領域９３と領域９４とを推定する。領域９２には“川”が、領域９３には“崎”が、領域９４には“山”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像９１には“川山崎”が記載されていると誤認識してしまう。このように、重複読みの一例においては、“崎”の偏を“山”と認識した後、再度“崎”を認識しているため、“山”の文字を重複して認識してしまう問題があった。

【0010】

次に、読み飛ばしの一例において、入力画像９６が入力された場合について説明する。入力画像９６に記載された文字列を正しく文字認識する場合、文字が記載されている位置として、領域９７と領域９８と領域９９とを推定する。領域９７には“長”が、領域９８には“谷”が、領域９９には“川”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像９６には“長谷川”が記載されていることが認識できる。一方、入力画像９６に記載された文字列を誤って文字認識してしまう場合、文字が記載されている位置として、領域９７と領域９８とを推定する。領域９７には“長”が、領域９９には“川”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像９６には“長川”が記載されていると誤認識してしまう。このように、読み飛ばしの一例においては、領域９８に記載された“谷”の文字を読み飛ばして認識してしまう問題があった。

【0011】

［第１の実施形態］
本実施形態に係る文字認識装置は、上述したような従来技術による問題点を抑止する。本実施形態に係る文字認識装置は、入力画像に記載された文字列について、文字列認識を行う。文字列認識とは、文字列を含む画像を入力として、画像中の文字列を認識するタスクである。本実施形態では左から右に読まれる横書きの文字列について説明する。なお、本実施形態においては、左から右に読まれる横書きの文字列に限定されず、縦書きの文字列についても同様である。なお、文字列を含む画像とは、手書きされた文字の画像や、写真撮影された看板、道路標識等を広く含む。なお、本実施形態において、文字列に含まれる文字数は、０文字以上である場合について説明する。

【0012】

図１は、第１の実施形態に係る文字認識システムの機能構成の一例を示す概略図である。同図を参照しながら、文字認識システム１の機能構成について説明する。文字認識システム１は、入力画像取得部２１と、候補文字列算出部２２と、文字認識装置１０と、出力部２３とを備える。

【0013】

入力画像取得部２１は、入力画像ＩＭを取得する。図２は、第１の実施形態に係る入力画像ＩＭの一例を示す図である。入力画像ＩＭには、文字列Ｓが記載されている。具体的には、入力画像ＩＭには、“川崎”の手書き文字である文字列Ｓが記載されている。本実施形態においては、入力画像ＩＭには、手書きされた文字列Ｓが記載されている場合の一例について説明する。

【0014】

図１に戻り、候補文字列算出部２２は、入力画像取得部２１が取得した入力画像ＩＭに記載された文字列Ｓの候補である候補文字列ＣＳを算出する。候補文字列算出部２２は、公知の文字認識技術（例えば、パターンマッチングや特徴検出等）を用い、候補文字列ＣＳを算出する。候補文字列算出部２２は複数の文字列Ｓを候補文字列ＣＳとして出力する。

【0015】

文字認識装置１０は、入力画像取得部２１が取得した入力画像ＩＭと、候補文字列算出部２２により算出された複数の候補文字列ＣＳとに基づき、候補文字列算出部２２により算出された複数の候補文字列ＣＳのうち、尤もらしい文字列を選択文字列ＳＳとして選択する。文字認識装置１０は、第１スコア算出部（文字認識部）１１０と、文字領域推定部１２０と、第２スコア算出部（領域整合性スコア算出部）１３０と、選択部１４０とを備える。

【0016】

出力部２３は、文字認識装置１０により選択された選択文字列ＳＳを出力する。出力部２３は、例えば、選択文字列ＳＳを不図示の表示部に表示させるための情報を出力し、不図示の音声出力部から音声出力させるための情報を出力し、又は不図示の情報処理装置に無線出力することにより選択文字列ＳＳを出力する。

【0017】

第１スコア算出部１１０は、候補文字列算出部２２が算出した複数の候補文字列ＣＳのそれぞれについて、第１スコアＳ１を算出する。候補文字列ＣＳとは、入力画像ＩＭに含まれる文字列Ｓの候補である。第１スコアＳ１は、文字列の尤もらしさを示す。すなわち、第１スコア算出部１１０は、文字列の尤もらしさを示す第１スコアＳ１であって、入力画像ＩＭに含まれる文字列Ｓの候補である複数の候補文字列ＣＳそれぞれの第１スコアＳ１を算出する。

【0018】

図３は、第１の実施形態に係る第１スコアについて説明するための図である。同図を参照しながら、第１スコア算出部１１０が算出する第１スコアＳ１の具体例について説明する。同図には、入力画像ＩＭに文字列“川崎”が含まれる場合の一例を示す。この一例において、候補文字列算出部２２は、候補文字列ＣＳ－１として“川山崎”と、候補文字列ＣＳ－２として“川崎”と、候補文字列ＣＳ－３として“川山奇”とを算出する。第１スコア算出部１１０は、候補文字列ＣＳ－１、候補文字列ＣＳ－２及び候補文字列ＣＳ－３それぞれについて第１スコアＳ１を算出する。この一例において、候補文字列ＣＳ－１の第１スコアＳ１－１は“０．５”であり、候補文字列ＣＳ－２の第１スコアＳ１－２は“０．５”であり、候補文字列ＣＳ－３の第１スコアＳ１－３は“０．１”である。

【0019】

図１に戻り、文字領域推定部１２０は、候補文字列ＣＳと、入力画像ＩＭとに基づき、文字領域ＣＡを推定する。文字領域ＣＡとは、候補文字列ＣＳに含まれる文字Ｃそれぞれに対応する領域である。すなわち、文字領域推定部１２０は、入力画像ＩＭの領域のうち、候補文字列ＣＳに含まれる文字Ｃそれぞれに対応する領域である文字領域ＣＡを推定する。

【0020】

第２スコア算出部１３０は、文字領域推定部１２０により推定された領域である文字領域ＣＡに基づいて、候補文字列ＣＳに含まれる文字の整合性を示す第２スコアＳ２を算出する。ここで、候補文字列ＣＳに含まれる文字の整合性とは、空間的な整合性をいう。空間的な整合性がない場合、各文字が重複したり、文字を読み飛ばしてしまったりする場合がある。

【0021】

図４は、第１の実施形態に係る第２スコアについて説明するための図である。同図を参照しながら、文字領域推定部１２０が行う文字領域ＣＡの推定と、第２スコア算出部１３０が算出する第２スコアＳ２の具体例とについて説明する。同図には、入力画像ＩＭに文字列“川崎”が含まれる場合の一例を示す。この一例において、文字領域推定部１２０は、候補文字列ＣＳに含まれる文字Ｃそれぞれに対応する領域である文字領域ＣＡを推定する。例えば、文字領域推定部１２０は、候補文字列ＣＳ－１である“川山崎”に含まれる文字Ｃに対応する領域を文字領域ＣＡ１－１、文字領域ＣＡ２－１及び文字領域ＣＡ３－１として推定する。また、文字領域推定部１２０は、候補文字列ＣＳ－２である“川崎”に含まれる文字Ｃに対応する領域を文字領域ＣＡ１－２及び文字領域ＣＡ２－２として推定する。また、文字領域推定部１２０は、候補文字列ＣＳ－３である“川山奇”に含まれる文字Ｃに対応する領域を文字領域ＣＡ１－３、文字領域ＣＡ２－３及び文字領域ＣＡ３－３として推定する。

【0022】

第２スコア算出部１３０は、複数の候補文字列ＣＳそれぞれについて第２スコアＳ２を算出する。この一例において、候補文字列ＣＳ－１の第２スコアＳ２－１は“０．１”であり、候補文字列ＣＳ－２の第２スコアＳ２－２は“１．０”であり、候補文字列ＣＳ－３の第２スコアＳ２－３は“１．０”である。

【0023】

図１に戻り、選択部１４０は、算出された第１スコアＳ１と第２スコアＳ２とに基づいて、複数の候補文字列ＣＳのうち１以上の文字列Ｓを、選択文字列ＳＳとして選択する。例えば、選択部１４０は、第１スコアＳ１と第２スコアＳ２とを乗じた結果、最も大きい値となる候補文字列ＣＳを、選択文字列ＳＳとして選択する。

【0024】

図５は、第１の実施形態に係る文字認識システムの一連の動作を示すフローチャートである。以下、同図に示すフローチャートに沿って文字認識装置１０の一連の動作について説明する。

【0025】

（ステップＳ１１０）入力画像取得部２１は、入力画像ＩＭを取得する。候補文字列算出部２２は、入力画像ＩＭに記載された文字列Ｓの候補となる候補文字列ＣＳを算出する。本フローチャートにおいては、候補文字列算出部２２が、ｎ個（ｎは１以上の整数）の候補文字列ＣＳを算出した場合について説明する。

【0026】

（ステップＳ１２０）第１スコア算出部１１０は、算出された複数の候補文字列ＣＳのうち、それぞれの候補文字列ＣＳについて、第１スコアＳ１を算出する。すなわち、候補文字列ＣＳをｙ_ｎ、第１スコアＳ１をα_ｎとした場合、第１スコア算出部１１０は、（ｙ_１，α_１）…（ｙ_ｎ，α_ｎ）を算出する。

【0027】

（ステップＳ１３０）第２スコア算出部１３０は、カウンタｉに１をセットする。

【0028】

（ステップＳ１４０）文字領域推定部１２０は、入力画像ＩＭのうち、候補文字列ＣＳに含まれる複数の文字Ｃにそれぞれ対応する領域を推定する。本フローチャートにおいては、候補文字列ＣＳにｍ文字含まれる場合（ｍは１以上の整数）について説明する。すなわち、候補文字列ＣＳであるｙ_ｉには、ｙ_ｉ，１,…,ｙ_ｉ，ｍの文字Ｃが含まれる。この場合、文字領域推定部１２０は、それぞれの文字Ｃに対応する文字領域ＣＡであるｓ_１,…,ｓ_ｍを推定する。

【0029】

（ステップＳ１５０）第２スコア算出部１３０は、候補文字列ＣＳであるｙ_ｉについての第２スコアＳ２を算出する。第２スコアＳ２をβ_ｎとも記載する。第２スコアＳ２であるβ_ｎは、ｓ_１,…,ｓ_ｍに基づき、算出される。

【0030】

（ステップＳ１６０）選択部１４０は、第１スコアＳ１であるα_ｉと、第２スコアＳ２であるβ_ｉとに基づき、γ_ｉを算出する。

【0031】

（ステップＳ１７０）第２スコア算出部１３０は、ｉ＜ｎである場合、処理をステップＳ１９０に進める。すなわち、第２スコア算出部１３０は、カウンタｉが、候補文字列算出部２２により算出された候補文字列ＣＳの数であるｎ個に達するまで、ステップＳ１４０からステップＳ１６０までの工程を繰り返す。第２スコア算出部１３０は、ｉ＜ｎでない場合、すなわち、カウンタｉが、候補文字列算出部２２により算出された候補文字列ＣＳの数であるｎ個に達した場合、処理をステップＳ１８０に進める。

【0032】

（ステップＳ１９０）第２スコア算出部１３０は、カウンタｉをインクリメントし、処理をステップＳ１４０に進める。

【0033】

（ステップＳ１８０）選択部１４０は、γ_ｎが最大となる候補文字列ＣＳを、選択文字列ＳＳとして選択する。本フローチャートにおいて、選択部１４０は、最大点集合により選択文字列ＳＳを選択する。なお、選択部１４０は、α_ｎと、β_ｎの算出方法に応じて、最小点集合により選択文字列ＳＳを選択してもよい。

【0034】

［第１の実施形態の変形例］
図６は、第１の実施形態に係る第２スコア算出部の機能構成の変形例を示す図である。同図を参照しながら、第２スコア算出部１３０の変形例である第２スコア算出部１３０Ａについて説明する。第２スコア算出部１３０Ａは、重複読みスコア算出部１３１と、読み飛ばしスコア算出部１３２と、第２スコア統合部１３３とを備える。

【0035】

重複読みスコア算出部１３１は、候補文字列ＣＳの重複量を示すスコアである重複読みスコアＳ２１を算出する。候補文字列ＣＳの重複量とは、具体的には、候補文字列ＣＳに含まれる文字Ｃそれぞれに対応する領域が互いに重なり合う量である。第２スコア算出部１３０Ａは、算出された重複読みスコアＳ２１に基づいて第２スコアＳ２を算出する。すなわち、本実施形態において、第２スコア算出部１３０Ａは、候補文字列ＣＳに含まれる文字Ｃそれぞれに対応する領域が互いに重なり合う量に基づいて、第２スコアＳ２を算出する。

【0036】

図７は、第１の実施形態に係る重複読みについて説明するための図である。同図を参照しながら、重複読みスコア算出部１３１が算出する重複量について説明する。この一例において、入力画像ＩＭには、“川崎”との文字が記載され、文字領域推定部１２０は、文字領域ＣＡとして、文字領域ＣＡ１、文字領域ＣＡ２及び文字領域ＣＡ３を推定する。ここで、文字領域ＣＡ２と文字領域ＣＡ３とが互いに重なり合った領域である重複領域ＣＡ－ＤＰが重複量である。具体的には、重複読みスコア算出部１３１は、重複量がｍ（ｙ）である場合に、下の式（１）を重複の整合性スコアＰ_ｏｖｌｐとして算出する。

【0037】

【数1】

【0038】

ここで、Ｃ_ＯＰは０から１の定数であり、小さいほど重複の整合性スコアＰ_ｏｖｌｐは小さくなる。Ｃ_ＯＰの値は実験的に求められてもよい。

【0039】

図６に戻り、読み飛ばしスコア算出部１３２は、候補文字列ＣＳに含まれる文字Ｃと、文字領域推定部１２０により推定された領域とに基づいて、読み飛ばしが発生しているか否かを示すスコアである読み飛ばしスコアＳ２２を算出する。第２スコア算出部１３０は算出された読み飛ばしスコアＳ２２に基づいて、第２スコアＳ２を算出する。すなわち、第２スコア算出部１３０は、候補文字列ＣＳに含まれる文字Ｃと、文字領域推定部１２０により推定された領域とに基づいて、第２スコアＳ２を算出する。

【0040】

図８は、第１の実施形態に係る読み飛ばしスコア算出部の機能構成の一例を示す図である。読み飛ばしスコア算出部１３２の機能構成の一例について、図を参照しながら説明する。読み飛ばしスコア算出部１３２は、文字らしさマップ生成部１３２１と、読み飛ばしスコア統合部１３２２とを備える。本実施形態において、読み飛ばしスコア算出部１３２は、入力画像ＩＭの領域に何らかの文字Ｃが存在する尤もらしさに基づいて、第２スコアＳ２を算出する。

【0041】

文字らしさマップ生成部１３２１は、文字らしさマップＣＬＭを生成する。文字らしさマップＣＬＭとは、入力画像ＩＭの画像領域に何らかの文字Ｃが存在する尤もらしさを示す。

【0042】

読み飛ばしスコア統合部１３２２は、文字領域推定部１２０により推定された文字領域ＣＡと、文字らしさマップ生成部１３２１により生成された文字らしさマップＣＬＭとに基づき、読み飛ばしスコアＳ２２を算出する。

【0043】

図９は、第１の実施形態に係る文字らしさマップについて説明するための図である。同図を参照しながら、文字らしさマップＣＬＭと、読み飛ばしスコア統合部１３２２が行う処理の概要について説明する。

【0044】

図９（Ａ）は、読み飛ばしの誤認識をしている候補文字列ＣＳについて、文字領域推定部１２０が文字領域ＣＡを推定した場合における文字領域ＣＡについて示す図である。同図において、入力画像ＩＭに含まれる文字列Ｓである“長谷川”のうち“長”との文字については文字領域ＣＡ１として、“川”との文字については文字領域ＣＡ２として、推定されている。“谷”との文字については文字領域ＣＡとして推定されていない。すなわち、読み飛ばしが発生している。

【0045】

図９（Ｂ）は、文字らしさマップＣＬＭの一例について示す図である。同図に示す一例において、領域ＡＲ１、領域ＡＲ２及び領域ＡＲ３には文字が存在する確率が高い。すなわち、文字らしさマップ生成部１３２１は、入力画像ＩＭの画像領域に何らかの文字Ｃが存在する尤もらしさを文字らしさマップＣＬＭとして生成するため、読み飛ばしが発生している文字も含めた文字列Ｓについて、文字Ｃが存在する尤もらしさを推定する。

【0046】

図９（Ｃ）は、マスクＭＳＫの一例を示す図である。読み飛ばしスコア統合部１３２２は、文字領域推定部１２０により推定された文字領域ＣＡに基づき、マスクＭＳＫを生成する。マスクＭＳＫは、候補文字列ＣＳに含まれる文字が存在する領域又は存在しない領域を示す。読み飛ばしスコア統合部１３２２は、生成したマスクＭＳＫにより文字らしさマップＣＬＭをフィルタリングする。読み飛ばしスコア統合部１３２２は、文字らしさマップＣＬＭをフィルタリングすることにより、候補文字列ＣＳに含まれていないにもかかわらず、文字が存在する確率が高い領域について推定する。

【0047】

図９（Ｄ）は、読み飛ばしスコア統合部１３２２によりフィルタリングされた後の文字らしさマップＣＬＭを示す図である。領域ＡＲ２は、文字が存在する確率が高いが、候補文字列ＣＳには含まれていない領域である。すなわち、領域ＡＲ２が大きいほど、読み飛ばしが発生している可能性が高いといえる。

【0048】

ここで、入力画像ＩＭの画像領域に何らかの文字Ｃが存在する確率が高く、フィルタリングされた後の文字らしさマップＣＬＭに含まれる領域を、Ｕ_ｊ（ｙ）とする。入力画像ＩＭの画像領域を、幅Ｗ、高さＨに区切った場合、読み飛ばしスコア統合部１３２２は、下の式（２）を、読み飛ばしの整合性スコアＰ_ＳＫＩＰ（ｙ）として算出する。なお、入力画像ＩＭの画像領域は、入力画像ＩＭのピクセル単位で区切られてもよいし、複数のピクセルから構成される所定の範囲を単位として区切られてもよい。

【0049】

【数2】

【0050】

ここで、Ｃ_ＳＰは０以上の定数であり、Ｃ_ＳＰが大きいほど読み飛ばしの整合性スコアＰ_ＳＫＩＰは小さくなる。Ｃ_ＳＰの値は実験的に求められてもよい。なお、読み飛ばしペナルティを課さない場合は、Ｃ_ＳＰを０としてもよい。

【0051】

図６に戻り、第２スコア統合部１３３は、重複読みスコア算出部１３１により算出された重複読みスコアＳ２１と、読み飛ばしスコア算出部１３２により算出された読み飛ばしスコアＳ２２とに基づき、第２スコアＳ２を算出する。例えば、第２スコア統合部１３３は、重複読みスコアＳ２１と読み飛ばしスコアＳ２２を乗じた値を第２スコアＳ２として算出する。

【0052】

図１０は、第１の実施形態に係る第１スコア算出部の機能構成の変形例を示す図である。同図を参照しながら、第１スコア算出部１１０の変形例である第１スコア算出部１１０Aについて説明する。第１スコア算出部１１０Ａは、文字認識スコア算出部１１１と、知識処理スコア算出部１１２と、第１スコア統合部１１３とを備える。

【0053】

文字認識スコア算出部１１１は、候補文字列ＣＳごとに文字認識スコアＳ１１を算出する。文字認識スコアＳ１１は、文字列の尤もらしさを示す。

【0054】

知識処理スコア算出部１１２は、候補文字列ＣＳごとに知識処理スコアＳ１２を算出する。知識処理スコア算出部１１２は、入力画像ＩＭに記載されるべき候補文字列ＣＳが限られる場合に用いられる。入力画像ＩＭに記載されるべき候補文字列ＣＳが限られる場合とは、例えば、入力画像ＩＭが郵便番号、住所、氏名等である情報を事前に得ている場合である。入力画像ＩＭが郵便番号であることが分かっている場合、候補文字列ＣＳが数字でない場合には、知識処理スコアＳ１２は低く算出される。また、入力画像ＩＭが住所であることが分かっている場合、“川崎”よりも“川山奇”である場合の方が知識処理スコアＳ１２は低く算出される。

【0055】

第１スコア統合部１１３は、文字認識スコア算出部１１１により算出された文字認識スコアＳ１１と、知識処理スコア算出部１１２により算出された知識処理スコアＳ１２とに基づき、第１スコアＳ１を算出する。選択部１４０は、算出された第１スコアＳ１と、第２スコアＳ２とに基づき、選択文字列ＳＳを選択する。

【0056】

ここで、選択部１４０が、文字認識スコアＳ１１と、知識処理スコアＳ１２と、重複読みスコアＳ２１と、読み飛ばしスコアＳ２２とに基づき、選択文字列ＳＳを選択する場合の一例について説明する。この場合、選択部１４０は、下の式（３）に基づき、選択文字列ＳＳを選択する。

【0057】

【数3】

【0058】

具体的には、選択部１４０は、文字認識スコアＳ１１であるＰ_ＯＣＲと、知識処理スコアＳ１２であるＰ_ＬＭと、重複読みスコアＳ２１であるＰ_ｏｖｌｐと、読み飛ばしスコアＳ２２であるＰ_ｓｋｉｐとを乗じた値が最大となる候補文字列ＣＳを選択文字列ＳＳとして選択する。

【0059】

［第１の実施形態のまとめ］
上述した実施形態によれば、文字認識装置１０は、第１スコア算出部１１０を備えることにより文字列Ｓの尤もらしさを示す第１スコアＳ１を候補文字列ＣＳごとに算出し、文字領域推定部１２０を備えることにより文字列Ｓに含まれる文字Ｃごとの領域を推定し、第２スコア算出部１３０を備えることにより文字Ｃの整合性を示す第２スコアＳ２を算出し、選択部１４０を備えることにより第１スコアＳ１と第２スコアＳ２に基づいて選択文字列ＳＳを選択する。すなわち、上述した実施形態によれば、文字Ｃが存在する領域の整合性を考慮して最尤文字列を選択する。したがって、文字認識装置１０は、入力画像ＩＭに含まれる文字Ｃを正しく文字認識することができる。

【0060】

また、上述した実施形態によれば、第２スコア算出部１３０は、重複読みスコアＳ２１に基づいて、第２スコアＳ２を算出する。重複読みスコアＳ２１とは、補文字列ＣＳに含まれる文字Ｃそれぞれに対応する領域が互いに重なり合う量に応じたスコアである。したがって、本実施形態によれば、文字認識装置１０は、重複読みを抑止することができるため、入力画像ＩＭに含まれる文字Ｃを正しく文字認識することができる。

【0061】

また、上述した実施形態によれば、第２スコア算出部１３０は、読み飛ばしスコアＳ２２に基づいて、第２スコアＳ２を算出する。読み飛ばしスコアＳ２２とは、候補文字列ＣＳに含まれる文字Ｃと、文字領域推定部１２０により推定された文字領域ＣＡとに基づいたスコアであり、読み飛ばしが発生している場合には、与えられるペナルティが大きくなる。したがって、本実施形態によれば、文字認識装置１０は、読み飛ばしを抑止することができるため、入力画像ＩＭに含まれる文字Ｃを正しく文字認識することができる。

【0062】

ここで、従来技術によれば、重複読みの改善と、読み飛ばしの改善とは二律背反の関係にあり、一方を改善すると他方の問題が生じやすくなってしまっていた。上述した実施形態によれば、重複読みスコアＳ２１と、読み飛ばしスコアＳ２２とを分けて算出し、総合的に選択文字列ＳＳを選択するため、重複読み及び読み飛ばしのいずれの問題についても改善することができる。

【0063】

また、上述した実施形態によれば、第２スコア算出部１３０は、文字らしさマップＣＬＭを用いることにより、読み飛ばしスコアＳ２２を算出する。文字らしさマップＣＬＭとは、入力画像ＩＭの領域に何らかの文字Ｃが存在する尤もらしさを示す。本実施形態によれば、読み飛ばしを容易に抑止することができる。

【0064】

［第２の実施形態］
図１１から図１３を参照しながら、第２の実施形態に係る文字認識装置１０Ａの一例について説明する。第２の実施形態に係る文字認識装置１０Ａは、ビームサーチアルゴリズムを用いて、入力画像ＩＭに含まれる文字列Ｓの文字認識を行う。ここで、文字列Ｓに含まれる複数の文字Ｃそれぞれについて、候補となる文字Ｃを算出し、それぞれの文字Ｃの候補となる組み合わせを候補文字列ＣＳとする場合、文字列Ｓに含まれる文字Ｃの量が多くなるほど、候補文字列ＣＳが多くなってしまうという問題があった。候補文字列ＣＳが多くなると、選択文字列ＳＳを選択するのに時間とリソースがかかってしまう。そこで、本実施形態においては、ビームサーチアルゴリズムを用いることにより、少ない時間とリソースで文字認識することを目的とする。

【0065】

図１１は、第２の実施形態に係るビームサーチについて説明するための図である。同図を参照しながら、第２の実施形態に係るビームサーチについて説明する。本実施形態において、文字認識装置１０Ａは、入力画像ＩＭを複数の部分入力画像ＩＭＰに区切り、文字認識を行う。同図に示す一例では、入力画像ＩＭは、部分入力画像ＩＭＰ－１と、部分入力画像ＩＭＰ－２と、部分入力画像ＩＭＰ－３とに区切られる。部分入力画像ＩＭＰは、例えば所定のピクセル数に応じて区切られていてもよい。所定のピクセル数は、文字Ｃが記載されるであろう幅に応じて定められていてもよい。

【0066】

具体的には、まず、文字認識装置１０Ａは、入力画像ＩＭのうち、部分入力画像ＩＭＰ－１について、１以上の選択文字列ＳＳを選択する。次に、文字認識装置１０Ａは、部分入力画像ＩＭＰ－１と、部分入力画像ＩＭＰ－２とについて、１以上の選択文字列ＳＳを選択する。このとき、部分入力画像ＩＭＰ－１については、すでに１以上の選択文字列ＳＳが選択されているため、部分入力画像ＩＭＰ－１と、部分入力画像ＩＭＰ－２とについての候補文字列ＣＳは少なくなる。更に、文字認識装置１０Ａは、部分入力画像ＩＭＰ－１と、部分入力画像ＩＭＰ－２と、部分入力画像ＩＭＰ－３とについて、最終的な選択文字列ＳＳを選択する。このとき、部分入力画像ＩＭＰ－１と、部分入力画像ＩＭＰ－２とについては、すでに１以上の選択文字列ＳＳが選択されているため、部分入力画像ＩＭＰ－１と、部分入力画像ＩＭＰ－２、部分入力画像ＩＭＰ－３とについての候補文字列ＣＳは少なくなる。このように、本実施形態においては、部分入力画像ＩＭＰごとに候補となる文字列Ｓを絞っていくことにより、全体の処理時間を短くする。

【0067】

図１２は、第２の実施形態に係るビームサーチにおいて、部分入力画像毎の整合性スコアについて説明するための図である。同図を参照しながら、入力画像ＩＭに“川崎市”と記載されている場合における、部分入力画像ＩＭＰ毎の整合性スコアについて説明する。図１２（Ａ）は、文字認識装置１０Ａが、部分入力画像ＩＭＰ－１について文字認識を行った場合における候補文字列ＣＳと整合性スコアの対応関係を示し、図１２（Ｂ）は、文字認識装置１０Ａが、部分入力画像ＩＭＰ－１と、部分入力画像ＩＭＰ－２とについて文字認識を行った場合における候補文字列ＣＳと整合性スコアの対応関係を示す。ここで、整合性スコアとは、選択部１４０が選択文字列ＳＳを選択する際に用いるスコアであって、例えば、第１スコアＳ１と第２スコアＳ２とを乗じたスコアである。

【0068】

図１２（Ａ）において、文字認識装置１０Ａは、候補文字列ＣＳ－１１として“川”を、候補文字列ＣＳ－１２として“川１”を、候補文字列ＣＳ－１３として“ノリ”を算出する。それぞれの候補文字列ＣＳの整合性スコアは、それぞれ“１．０”、“０．３”、“１．０”である。文字認識装置１０Ａは、尤もらしい文字列である候補文字列ＣＳ－１１と、候補文字列ＣＳ－１３とを選択文字列ＳＳとして選択する。換言すれば、文字認識装置１０Ａは、候補文字列Ｃ－１２を、候補から除外する。

【0069】

図１２（Ｂ）において、文字認識装置１０Ａは、候補文字列ＣＳ－２１として“川山崎”を、候補文字列ＣＳ－２２として“川崎”を、候補文字列ＣＳ－２３として“ノリ山崎”を、候補文字列ＣＳ－２４として“ノリ崎”を、候補文字列ＣＳ－２５として“川山奇”を、候補文字列ＣＳ－２６として“ノリ山奇”を算出する。それぞれの候補文字列ＣＳの整合性スコアは、それぞれ“０．１”、“１．０”、“０．１”、“１．０”、“１．０”、“１．０”である。文字認識装置１０Ａは、尤もらしい文字列である候補文字列ＣＳ－２２と、候補文字列ＣＳ－２４と、候補文字列ＣＳ－２５と、候補文字列ＣＳ－２６とを選択文字列ＳＳとして選択する。換言すれば、文字認識装置１０Ａは、候補文字列Ｃ－２１と、候補文字列ＣＳ－２３とを、候補から除外する。ここで、部分入力画像ＩＭＰ－１の検討において、候補文字列ＣＳ－１２である“川１”が候補から除外されているため、部分入力画像ＩＭＰ－１と部分入力画像ＩＭＰ－２との検討において、候補となる文字列Ｓを少なくすることができる。

【0070】

図１３は、第２の実施形態に係る文字認識システムの一連の動作を示すフローチャートである。同図を参照しながら、第２の実施形態に係る文字認識システム１Ａの一連の動作について説明する。ステップＳ１００は、図５において説明した第１の実施形態に係る文字認識システムの動作と同様であるため、説明を省略する。

【0071】

（ステップＳ２１０）文字認識装置１０Ａは、ｘをδとする。δは、部分入力画像ＩＭＰの範囲を示す所定の整数である。ｘは、文字認識装置１０Ａが文字認識する範囲を示す。本フローチャートにおいて、文字認識装置１０Ａは、まず０からｘまでの範囲について候補文字列ＣＳを算出する。ここで、文字認識装置１０Ａが文字認識する範囲であるｘは、図１１を参照しながら説明した一例における部分入力画像ＩＭＰに相当する。

【0072】

（ステップＳ２２０）文字認識装置１０Ａは、候補集合Φに、から集合（空集合）を設定する。

【0073】

（ステップＳ２３０）文字認識装置１０Ａが備える第１スコア算出部１１０は、部分入力画像ＩＭＰに含まれる複数の候補文字列ＣＳのうち、それぞれの候補文字列ＣＳについて、第１スコアＳ１を算出する。すなわち、候補文字列ＣＳをｙ_ｎ、第１スコアＳ１をα_ｎとした場合、第１スコア算出部１１０は、（ｙ_１，α_１）…（ｙ_ｎ，α_ｎ）を算出する。

【0074】

（ステップＳ２４０）文字認識装置１０Ａは、部分入力画像ＩＭＰにおける選択文字列ＳＳを選択する。文字認識装置１０Ａは、具体的には、γ_ｉの大きいＲ個のｙ_ｉとγ_ｉの組を選択し、候補集合Φとする。Ｒは、次の部分入力画像ＩＭＰについて文字認識をする場合に候補とする文字列の数である。Ｒを小さくすれば処理時間を短くすることができるが、小さすぎると誤認識の可能性が高まる場合がある。

【0075】

（ステップＳ２５０）文字認識装置１０Ａは、入力画像ＩＭの全部について文字認識を行ったか否かを判定する。具体的には、文字認識装置１０Ａは、ｘがＷより小さい場合には、処理をステップＳ２７０に進める。文字認識装置１０Ａは、ｘがＷより小さくない場合には、処理をステップＳ２６０に進める。

【0076】

（ステップＳ２７０）文字認識装置１０Ａは、文字認識を行う範囲を、広げる。具体的には、文字認識装置１０Ａは、ｘにδを足した値をｘとし、処理をステップＳ２３０に進める。

【0077】

（ステップＳ２６０）文字認識装置１０Ａは、γ_ｋが最大となる文字列ｙ_ｋを、選択文字列ＳＳとして出力する。

【0078】

［第２の実施形態のまとめ］
上述した実施形態によれば、文字認識装置１０Ａに備えられる第１スコア算出部１１０は、入力画像ＩＭの一部である部分入力画像ＩＭＰについて、第１スコアＳ１を算出する。換言すれば、第１スコア算出部１１０は、入力画像ＩＭに含まれる文字列Ｓを構成する複数の文字Ｃのうち、一部の文字を含む文字列Ｓの候補である候補文字列ＣＳの第１スコアＳ１を算出する。また、文字認識装置１０Ａに備えられる第２スコア算出部１３０は、入力画像ＩＭの一部である部分入力画像ＩＭＰについて、第２スコアＳ２を算出する。換言すれば、第２スコア算出部１３０は、入力画像ＩＭに含まれる文字列Ｓを構成する複数の文字Ｃのうち、一部の文字を含む文字列Ｓの候補である候補文字列ＣＳの第２スコアＳ２を算出する。文字認識装置１０Ａは、入力画像ＩＭの部分ごとに候補文字列ＣＳを算出するため、入力画像ＩＭに含まれる文字列全体の候補の数を少なくすることができる。よって、本実施形態によれば、ビームサーチアルゴリズムを用いることにより、少ない時間とリソースで文字認識することができる。

【0079】

［第３の実施形態］
図１４及び図１５を参照しながら、第３の実施形態に係る文字認識装置１０Ｂの一例について説明する。第３の実施形態においては、入力画像ＩＭに、基準となる文字の間隔又は記載すべき文字の領域が定められている点において、他の実施形態と異なる。本実施形態においては、基準となる文字の間隔又は記載すべき文字の領域に基づいて文字認識を行うことにより、入力画像ＩＭに含まれる文字Ｃを、より正しく文字認識することを目的とする。

【0080】

図１４は、第３の実施形態に係る入力画像ＩＭの一例を示す図である。同図を参照しながら、入力画像ＩＭに定められた、基準となる文字の間隔又は記載すべき文字の領域について説明する。図１４（Ａ）は、本実施形態における入力画像ＩＭの一例である。図１４（Ｂ）は、本実施形態における入力画像ＩＭに文字が記載された場合の一例である。

【0081】

図１４（Ａ）に示す入力画像ＩＭは、複数の文字入力領域ＩＡＲを含む。具体的には、入力画像ＩＭは、文字入力領域ＩＡＲ１と、文字入力領域ＩＡＲ２と、文字入力領域ＩＡＲ３とを含む。文字入力領域ＩＡＲは、例えば、入力画像ＩＭに文字列Ｓを記載するユーザに対し、文字を記載する際の基準として与えられる。すなわち、文字入力領域ＩＡＲにより、基準となる文字の間隔又は記載すべき文字の領域が定められる。以後の説明において、文字入力領域ＩＡＲを、“枠”と記載する場合がある。

【0082】

図１４（Ｂ）に示す入力画像ＩＭには、文字Ｃが記載されている。具体的には、文字入力領域ＩＡＲ１には文字Ｃ－１が記載され、文字入力領域ＩＡＲ２には文字Ｃ－２が記載され、文字入力領域ＩＡＲ３には文字Ｃ－３が記載されている。文字Ｃ－１は“川”であり、文字Ｃ－２は“崎”であり、文字Ｃ－３は“市”である。

【0083】

図１５は、第３の実施形態に係る第２スコアの一例を示す図である。同図を参照しながら、第２スコア算出部１３０が算出する第２スコアＳ２について説明する。同図に示す一例において、候補文字列算出部２２は、“川山奇市”と、“川崎市”との候補文字列ＣＳを算出する。

【0084】

候補文字列ＣＳが“川山奇市”である場合、文字入力領域ＩＡＲ１には文字領域ＣＡ１－１が含まれ、文字入力領域ＩＡＲ２には文字領域ＣＡ２－１及び文字領域ＣＡ３－１が含まれ、文字入力領域ＩＡＲ３には文字領域ＣＡ４－１が含まれる。この場合、文字入力領域ＩＡＲ２には文字領域ＣＡ２－１及び文字領域ＣＡ３－１が含まれるため、１つの枠（文字入力領域ＩＡＲ）に、２つの文字領域ＣＡが存在する。この場合、第２スコア算出部１３０は、１つの枠に複数の文字領域ＣＡが存在する場合、小さい方の文字領域ＣＡと枠領域との重複量をｍ（ｙ）とし、下の式（４）に基づき、整合性スコアＰ_ＢＯＸを算出する。

【0085】

【数4】

【0086】

ここでＣ_ＢＰは０から１の定数であり、小さいほど整合性スコアＰ_ＢＯＸは小さくなる。Ｃ_ＢＰの値は実験的に求められてもよい。

【0087】

ここで、選択部１４０が、更に整合性スコアＰ_ＢＯＸに基づき、選択文字列ＳＳを選択する場合の一例について説明する。この場合、選択部１４０は、下の式（５）に基づき、選択文字列ＳＳを選択する。

【0088】

【数5】

【0089】

すなわち、本実施形態において、第２スコア算出部１３０は、候補文字列ＣＳに含まれる文字Ｃそれぞれに対応する領域である文字領域ＣＡと、文字入力領域ＩＡＲとに基づいて、第２スコアＳ２を算出する。

【0090】

［第３の実施形態のまとめ］
上述した実施形態によれば、文字認識装置１０Ｂは、第２スコア算出部１３０を備えることにより、文字領域ＣＡと、文字入力領域ＩＡＲとに基づいて、第２スコアＳ２を算出する。例えば、第２スコア算出部１３０は、１つの枠に複数文字が含まれるような場合は、第２スコアＳ２の値を低く算出する。第２スコア算出部１３０は、１つの枠に複数文字が含まれるような場合に第２スコアＳ２の値を低く算出することにより、漢字の偏や旁等に分けて文字認識してしまうような誤認識を抑止することができる。したがって、本実施形態によれば、入力画像ＩＭに含まれる文字Ｃを、より正しく文字認識することができる。

【0091】

［第４の実施形態］
図１６及び図１７を参照しながら、第４の実施形態について説明する。第４の実施形態では、文字領域推定部１２０の具体例について説明する。図１６を参照しながら文字領域推定部１２０の一例について説明し、図１７を参照しながら文字領域推定部１２０の変形例について説明する。

【0092】

図１６は、第４の実施形態に係る文字領域推定部の動作の一例を説明するための図である。同図を参照しながら文字領域推定部１２０の一例について説明する。まず、入力データＤＩがニューラルネットワークＮＮ１に入力される。この一例において、入力データＤＩが文字列の画像である場合の一例について説明する。具体的には、入力データＤＩが、“川崎市”と左から右に横方向に手書きされた文字列画像である場合の一例について説明する。

【0093】

ニューラルネットワークＮＮ１は、入力された文字列の特徴量Ｆの系列を算出する。入力データＤＩが左から右に横方向に手書きされた文字列画像である場合、ニューラルネットワークＮＮ１は、左方向から右方向に特徴量Ｆの系列を、判定範囲の幅分だけ認識していく。この一例において、ニューラルネットワークＮＮ１は、特徴量Ｆ１から特徴量Ｆ６までの特徴量を算出する。ここで、ニューラルネットワークＮＮ１は、入力データＤＩの行の長さに応じた数の特徴量Ｆを算出する。

【0094】

ニューラルネットワークＮＮ２は、ニューラルネットワークＮＮ１により算出された特徴量Ｆごとに確率分布Ｐを算出する。この一例において、ニューラルネットワークＮＮ１は、特徴量Ｆ１から特徴量Ｆ６までの特徴量を算出するため、ニューラルネットワークＮＮ２は、特徴量Ｆ１に対応する確率分布Ｐ１から、特徴量Ｆ６に対応する確率分布Ｐ６までを算出する。

【0095】

ＣＴＣ（Connectionist Temporal Classification）８０は、算出されたそれぞれの確率分布を統合し、入力データＤＩに対応する文字列の確率分布Ｐを算出し、算出された確率分布Ｐから認識される文字列を出力データＤＯとして出力する。

【0096】

推定部８５は、ニューラルネットワークＮＮ１により算出された特徴量Ｆを取得する。推定部８５は、ニューラルネットワークＮＮ３により、取得した特徴量Ｆから、所定のラベルが付与されるべき要素が存在しうる範囲を推定する。

【0097】

推定部８５は、ＣＴＣ８０により認識された出力データＤＯのそれぞれのラベルと、それぞれの特徴量Ｆとを対応付ける。推定部８５は、出力データＤＯのラベル列のうち一のラベルが複数の特徴量Ｆに対応づけられる場合、当該一のラベルに対応付けられた複数の特徴量Ｆから推定された範囲を統合し、出力する。推定部８５により出力された出力結果は、入力データＤＩのうち、それぞれのラベルの範囲が特定されている。同図に示す一例では、範囲Ａ１は“川”の範囲を特定し、範囲Ａ２は“崎”の範囲を特定し、範囲Ａ３は“市”の範囲を特定する。

【0098】

図１７は、第４の実施形態に係る文字領域推定部の動作の変形例を説明するための図である。同図を参照しながら、文字領域推定部１２０の動作の変形例について説明する。文字領域推定部１２０の動作の変形例では、物体検出を応用して文字領域の推定を行う。

【0099】

まず、入力データＤＩがニューラルネットワークＮＮ４に入力される。この一例において、入力データＤＩが文字列の画像である場合の一例について説明する。具体的には、入力データＤＩが、“川崎”と左から右に横方向に手書きされた文字列画像である場合の一例について説明する。ニューラルネットワークＮＮ４は、検出ＤＮＮ（Deep Neural Network）である。ニューラルネットワークＮＮ４は、画像を入力として、複数の候補矩形Ｒと、それぞれの候補矩形Ｒに対応する文字のスコアとを出力する。

【0100】

具体的には、ニューラルネットワークＮＮ４は、候補矩形Ｒ１と、候補矩形Ｒ２と、候補矩形Ｒ３と、候補矩形Ｒ４と、候補矩形Ｒ５と、候補矩形Ｒ６と、それぞれの候補矩形Ｒに対応する文字のスコアとを出力する。より具体的には、候補矩形Ｒ１に対応する文字“川”であるスコア“０．８”、及び文字“州”であるスコア“０．１”と、候補矩形Ｒ２に対応する文字“り”であるスコア“０．５”、及び文字“い”であるスコア“０．２”と、候補矩形Ｒ３に対応する文字“１”であるスコア“０．３”、及び文字“ノ”であるスコア“０．１”と、候補矩形Ｒ４に対応する文字“崎”であるスコア“０．８”、及び文字“埼”であるスコア“０．１”と、候補矩形Ｒ５に対応する文字“山”であるスコア“０．５”、及び文字“凸”であるスコア“０．１”と、候補矩形Ｒ６に対応する文字“奇”であるスコア“０．７”、及び文字“嵜”であるスコア“０．１”とを出力する。

【0101】

［第４の実施形態のまとめ］
上述した実施形態によれば、文字領域推定部１２０は、推定部８５を備えることにより、入力データＤＩから取得した特徴量Ｆに基づき、文字Ｃが存在しうる領域を推定し、文字Ｃを複数の特徴量Ｆのうち少なくとも１つと対応づけ、一のラベルに対応づけられた、複数の範囲を統合することにより、それぞれの文字Ｃに対応する領域を特定する。本実施形態を用いることにより、ビームサーチアルゴリズムによる効率的な探索をすることができる。また、本実施形態による文字領域の推定は、容易に実装することができる。

【0102】

また、上述した実施形態によれば、文字領域推定部１２０は、画像を入力として、複数の候補矩形Ｒと、それぞれの候補矩形Ｒに対応する文字のスコアとを出力する。本実施形態を用いることにより、少ないリソースで文字領域の推定をすることができる。

【0103】

［第５の実施形態］
図１８から図２０を参照しながら、第５の実施形態について説明する。第５の実施形態では、文字らしさマップ生成部１３２１が生成する文字らしさマップＣＬＭの変形例について説明する。図１８は、第５の実施形態に係る文字らしさマップの変形例について説明するための図である。図１８（Ａ）は、第１の実施形態において説明した文字らしさマップＣＬＭである。

【0104】

図１８（Ｂ）は、第５の実施形態に係る文字らしさマップＣＬＭの第１の変形例である文字らしさマップＣＬＭ１である。文字らしさマップＣＬＭ１は、複数のピクセルから構成される領域ごとに文字らしさが階調表現されている点において、文字らしさマップＣＬＭとは異なる。このように、文字らしさマップＣＬＭ１は、入力画像ＩＭのうち、所定の範囲ごとに文字らしさが算出されていてもよい。

【0105】

図１８（Ｃ）は、第５の実施形態に係る文字らしさマップＣＬＭの第２の変形例である文字らしさマップＣＬＭ２である。文字らしさマップＣＬＭ２は、入力画像ＩＭのｘ座標と、各ｘ座標における黒画素数との対応関係を含む。すなわち、文字らしさマップＣＬＭ２は、輝度ヒストグラムであってもよい。本実施形態において、入力画像ＩＭは、横書きされた文字であるため、文字が記載された方向であるＸ座標を用いる。入力画像ＩＭが縦書きされた文字である場合はＹ座標を用いてもよい。文字らしさマップＣＬＭ２は、各Ｘ座標における黒画素数の情報を用いるため、容易に文字らしさマップＣＬＭ２を作成することができる。

【0106】

図１８（Ｄ）は、第５の実施形態に係る文字らしさマップＣＬＭの第３の変形例である文字らしさマップＣＬＭ３である。文字らしさマップＣＬＭ３は、文字らしさマップＣＬＭ２を、０から１の値をとるよう正規化したものである。

【0107】

その他、文字らしさマップＣＬＭは、入力画像ＩＭをグリッド状の小領域に分割したものであって、各小領域ごとの黒画素の総数に基づいていてもよい。

【0108】

図１９は、第５の実施形態に係る文字らしさマップ生成部の変形例の機能構成の一例を示す図である。同図を参照しながら、文字らしさマップ生成部１３２１の変形例である文字らしさマップ生成部１３２１Ａについて説明する。文字らしさマップ生成部１３２１Ａは、文字らしさ算出ニューラルネットワークＤＮＮを備える点において、文字らしさマップ生成部１３２１とは異なる。

【0109】

文字らしさ算出ニューラルネットワークＤＮＮは、予め文字らしさを予測できるよう学習されたニューラルネットワークである。図２０は、第５の実施形態に係る入力データＤＩと教師データＤＴの一例を示す図である。入力データＤＩの一例と、教師データＤＴの一例について、図を参照しながら説明する。

【0110】

図２０に示す一例において、入力データＤＩ１は教師データＤＴ１に対応し、入力データＤＩ２は教師データＤＴ２に対応する。入力データＤＩ１には、文字Ｃ－１１と、文字Ｃ－１２とが含まれ、教師データＤＴ１には、文字Ｃ－１１に対応する領域ＡＲ１１と、文字Ｃ－１２に対応する領域ＡＲ１２とが含まれる。入力データＤＩ２には、文字Ｃ－２１と、文字Ｃ－２２と、文字Ｃ－２３とが含まれ、教師データＤＴ２には、文字Ｃ－２１に対応する領域ＡＲ２１と、文字Ｃ－２２に対応する領域ＡＲ２２と、文字Ｃ－２３に対応する領域ＡＲ２３とが含まれる。

【0111】

［第５の実施形態のまとめ］
上述した実施形態によれば、文字らしさマップＣＬＭ１、文字らしさマップＣＬＭ２、又は文字らしさマップＣＬＭ３を用いることにより、文字らしさマップ生成部１３２１は、容易に文字らしさマップＣＬＭを生成することができる。

【0112】

また、上述した実施形態によれば、文字らしさマップ生成部１３２１は、文字らしさ算出ニューラルネットワークＤＮＮを備えることにより、機械学習により文字らしさマップＣＬＭを生成することができる。上述した実施形態によれば、機械学習を用いるため、ノイズに強く、誤認識することを抑止することができる。また、上述した実施形態によれば、機械学習を用いるため、異なる背景の入力画像ＩＭについても、正しく認識することができる。

【0113】

以上説明してきたように、実施形態では、複数の変形例を記載した。ここで、組み合わせることが可能な限りにおいて、複数の実施形態及び複数の変形例を組み合わせて実施するようにしてもよい。

【0114】

なお、上述した実施形態における情報処理装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0115】

以上説明した少なくともひとつの実施形態によれば、第１スコア算出部と、文字領域推定部と、第２スコア算出部と、選択部とを持つことにより、入力画像に含まれる文字を正しく文字認識することができる。

【0116】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0117】

１…文字認識システム、１０…文字認識装置、２１…入力画像取得部、２２…候補文字列算出部、２３…出力部、２４…入力規則情報記憶部、１１０…第１スコア算出部、１２０…文字領域推定部、１３０…第２スコア算出部、１４０…選択部、１１１…文字認識スコア算出部、１１２…知識処理スコア算出部、１１３…第１スコア統合部、１３１…重複読みスコア算出部、１３２…読み飛ばしスコア算出部、１３３…第２スコア統合部、１３２１…文字らしさマップ生成部、１３２２…読み飛ばしスコア統合部、ＩＭ…入力画像、Ｓ…文字列、Ｃ…文字、ＣＳ…候補文字列、ＣＡ…文字領域、Ｓ１…第１スコア、Ｓ２…第２スコア、Ｓ１１…文字認識スコア、Ｓ１２…知識処理スコア、Ｓ２１…重複読みスコア、Ｓ２２…読み飛ばしスコア、ＳＳ…選択文字列、ＩＲ…入力規則、ＩＡＲ…文字入力領域、ＣＬＭ…文字らしさマップ、ＭＳＫ…マスク、ＩＭＰ…部分入力画像

【図1】