(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-01-10
(45)【発行日】2025-01-21
(54)【発明の名称】文字認識装置、文字認識方法、及びプログラム
(51)【国際特許分類】
G06V 30/24 20220101AFI20250114BHJP
【FI】
G06V30/24 620B
(21)【出願番号】P 2021018142
(22)【出願日】2021-02-08
【審査請求日】2023-11-22
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(73)【特許権者】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】田中 遼平
【審査官】佐田 宏史
(56)【参考文献】
【文献】特開平07-262322(JP,A)
【文献】特開2007-188512(JP,A)
【文献】国際公開第2020/175806(WO,A1)
【文献】特開2017-049911(JP,A)
【文献】特開2013-140487(JP,A)
【文献】梁 建娟、外3名,“文字位置自由オンライン手書き文字列認識方式”,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2015年06月11日,Vol.115, No.100,pp.53-58
(58)【調査した分野】(Int.Cl.,DB名)
G06V 30/24
(57)【特許請求の範囲】
【請求項1】
文字列の尤もらしさを示す第1スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第1スコアを算出する第1スコア算出部と、
前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定部と、
前記文字領域推定部により推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第2スコアを算出する第2スコア算出部と、
算出された前記第1スコアと前記第2スコアとに基づいて、複数の前記候補文字列のうち1以上の文字列を選択する選択部と
を備え、
前記入力画像は、複数の文字入力領域を含み、
前記第2スコア算出部は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第2スコアを算出する
文字認識装置。
【請求項2】
前記第1スコア算出部は、前記入力画像の一部である部分入力画像に含まれる前記候補文字列の前記第1スコアを算出する
請求項1に記載の文字認識装置。
【請求項3】
前記第2スコア算出部は、
前記候補文字列に含まれる文字それぞれに対応する領域が互いに重なり合う量に基づいて、前記第2スコアを算出する
請求項1又は請求項2に記載の文字認識装置。
【請求項4】
前記第2スコア算出部は、
前記候補文字列に含まれる文字と、前記文字領域推定部により推定された領域とに基づいて、前記第2スコアを算出する
請求項1から請求項3のいずれか一項に記載の文字認識装置。
【請求項5】
前記第2スコア算出部は、
前記入力画像の領域に何らかの文字が存在する尤もらしさに基づいて、前記第2スコアを算出する
請求項4に記載の文字認識装置。
【請求項6】
コンピュータが、文字列の尤もらしさを示す第1スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第1スコアを算出する第1スコア算出工程と、
コンピュータが、前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定工程と、
コンピュータが、推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第2スコアを算出する第2スコア算出工程と、
コンピュータが、算出された前記第1スコアと前記第2スコアとに基づいて、複数の前記候補文字列のうち1以上の文字列を選択する選択工程と
を有し、
前記入力画像は、複数の文字入力領域を含み、
前記第2スコア算出工程は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第2スコアを算出する
文字認識方法。
【請求項7】
コンピュータに、
文字列の尤もらしさを示す第1スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第1スコアを算出する第1スコア算出ステップと、
前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する文字領域推定ステップと、
推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第2スコアを算出する第2スコア算出ステップと、
算出された前記第1スコアと前記第2スコアとに基づいて、複数の前記候補文字列のうち1以上の文字列を選択する選択ステップと
を実行させ、
前記入力画像は、複数の文字入力領域を含み、
前記第2スコア算出ステップは、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第2スコアを算出する
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文字認識装置、文字認識方法、及びプログラムに関する。
【背景技術】
【0002】
従来、入力された画像に含まれる文字を認識する文字認識技術が知られていた。このような従来技術によれば、明示的にそれぞれの文字の境界を区切ることなく認識することにより、認識精度を向上させられることが知られている。しかしながら、文字の境界を区切ることなく認識する場合には、1つの文字を重複して認識してしまう場合があった。また、入力画像によっては、文字を読み飛ばして認識してしまう場合があった。すなわち、従来技術によれば、入力画像に含まれる文字を正しく認識できないといった問題があった。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、入力画像に含まれる文字を正しく文字認識することができる文字認識装置、文字認識方法、及びプログラムを提供することである。
【課題を解決するための手段】
【0005】
実施形態の文字認識装置は、第1スコア算出部と、文字領域推定部と、第2スコア算出部と、選択部とを持つ。第1スコア算出部は、文字列の尤もらしさを示す第1スコアであって、入力画像に含まれる文字列の候補である複数の候補文字列それぞれの前記第1スコアを算出する。文字領域推定部は、前記入力画像の領域のうち、前記候補文字列に含まれる文字それぞれに対応する領域を推定する。第2スコア算出部は、推定された領域に基づいて、前記候補文字列に含まれる文字の整合性を示す第2スコアを算出する。選択部は、算出された前記第1スコアと前記第2スコアとに基づいて、複数の前記候補文字列のうち1以上の文字列を選択する。前記入力画像は、複数の文字入力領域を含み、前記第2スコア算出部は、前記候補文字列に含まれる文字それぞれに対応する領域と、前記文字入力領域とに基づいて、前記第2スコアを算出する。
【図面の簡単な説明】
【0006】
【
図1】第1の実施形態に係る文字認識システムの機能構成の一例を示す概略図。
【
図2】第1の実施形態に係る入力画像の一例を示す図。
【
図3】第1の実施形態に係る第1スコアについて説明するための図。
【
図4】第1の実施形態に係る第2スコアについて説明するための図。
【
図5】第1の実施形態に係る文字認識システムの一連の動作を示すフローチャート。
【
図6】第1の実施形態に係る第2スコア算出部の機能構成の変形例を示す図。
【
図7】第1の実施形態に係る重複読みについて説明するための図。
【
図8】第1の実施形態に係る読み飛ばしスコア算出部の機能構成の一例を示す図。
【
図9】第1の実施形態に係る文字らしさマップについて説明するための図。
【
図10】第1の実施形態に係る第1スコア算出部の機能構成の変形例を示す図。
【
図11】第2の実施形態に係るビームサーチについて説明するための図。
【
図12】第2の実施形態に係るビームサーチにおいて、部分入力画像毎の整合性スコアについて説明するための図。
【
図13】第2の実施形態に係る文字認識システムの一連の動作を示すフローチャート。
【
図14】第3の実施形態に係る入力画像の一例を示す図。
【
図15】第3の実施形態に係る第2スコアの一例を示す図。
【
図16】第4の実施形態に係る文字領域推定部の動作の一例を説明するための図。
【
図17】第4の実施形態に係る文字領域推定部の動作の変形例を説明するための図。
【
図18】第5の実施形態に係る文字らしさマップの変形例について説明するための図。
【
図19】第5の実施形態に係る文字らしさマップ生成部の変形例の機能構成の一例を示す図。
【
図20】第5の実施形態に係る入力データと教師データの一例を示す図。
【
図21】従来技術による重複読み及び読み飛ばしについて説明するための図。
【発明を実施するための形態】
【0007】
以下、実施形態の文字認識装置、文字認識方法、及びプログラムを、図面を参照して説明する。
【0008】
[従来技術]
図21を参照しながら、従来技術による文字認識方法を用いた場合において発生する問題点について説明する。
図11は、従来技術による重複読み及び読み飛ばしについて説明するための図である。列90には重複読みの一例を、列95には読み飛ばしの一例をそれぞれ示す。
【0009】
重複読みの一例において、入力画像91が入力された場合について説明する。入力画像91に記載された文字列を正しく文字認識する場合、文字が記載されている位置として、領域92と領域93とを推定する。領域92には“川”が、領域93には“崎”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像91には“川崎”が記載されていることが認識できる。一方、入力画像91に記載された文字列を誤って文字認識してしまう場合、文字が記載されている位置として、領域92と領域93と領域94とを推定する。領域92には“川”が、領域93には“崎”が、領域94には“山”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像91には“川山崎”が記載されていると誤認識してしまう。このように、重複読みの一例においては、“崎”の偏を“山”と認識した後、再度“崎”を認識しているため、“山”の文字を重複して認識してしまう問題があった。
【0010】
次に、読み飛ばしの一例において、入力画像96が入力された場合について説明する。入力画像96に記載された文字列を正しく文字認識する場合、文字が記載されている位置として、領域97と領域98と領域99とを推定する。領域97には“長”が、領域98には“谷”が、領域99には“川”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像96には“長谷川”が記載されていることが認識できる。一方、入力画像96に記載された文字列を誤って文字認識してしまう場合、文字が記載されている位置として、領域97と領域98とを推定する。領域97には“長”が、領域99には“川”がそれぞれ記載されているため、従来技術による文字認識方法によれば、入力画像96には“長川”が記載されていると誤認識してしまう。このように、読み飛ばしの一例においては、領域98に記載された“谷”の文字を読み飛ばして認識してしまう問題があった。
【0011】
[第1の実施形態]
本実施形態に係る文字認識装置は、上述したような従来技術による問題点を抑止する。本実施形態に係る文字認識装置は、入力画像に記載された文字列について、文字列認識を行う。文字列認識とは、文字列を含む画像を入力として、画像中の文字列を認識するタスクである。本実施形態では左から右に読まれる横書きの文字列について説明する。なお、本実施形態においては、左から右に読まれる横書きの文字列に限定されず、縦書きの文字列についても同様である。なお、文字列を含む画像とは、手書きされた文字の画像や、写真撮影された看板、道路標識等を広く含む。なお、本実施形態において、文字列に含まれる文字数は、0文字以上である場合について説明する。
【0012】
図1は、第1の実施形態に係る文字認識システムの機能構成の一例を示す概略図である。同図を参照しながら、文字認識システム1の機能構成について説明する。文字認識システム1は、入力画像取得部21と、候補文字列算出部22と、文字認識装置10と、出力部23とを備える。
【0013】
入力画像取得部21は、入力画像IMを取得する。
図2は、第1の実施形態に係る入力画像IMの一例を示す図である。入力画像IMには、文字列Sが記載されている。具体的には、入力画像IMには、“川崎”の手書き文字である文字列Sが記載されている。本実施形態においては、入力画像IMには、手書きされた文字列Sが記載されている場合の一例について説明する。
【0014】
図1に戻り、候補文字列算出部22は、入力画像取得部21が取得した入力画像IMに記載された文字列Sの候補である候補文字列CSを算出する。候補文字列算出部22は、公知の文字認識技術(例えば、パターンマッチングや特徴検出等)を用い、候補文字列CSを算出する。候補文字列算出部22は複数の文字列Sを候補文字列CSとして出力する。
【0015】
文字認識装置10は、入力画像取得部21が取得した入力画像IMと、候補文字列算出部22により算出された複数の候補文字列CSとに基づき、候補文字列算出部22により算出された複数の候補文字列CSのうち、尤もらしい文字列を選択文字列SSとして選択する。文字認識装置10は、第1スコア算出部(文字認識部)110と、文字領域推定部120と、第2スコア算出部(領域整合性スコア算出部)130と、選択部140とを備える。
【0016】
出力部23は、文字認識装置10により選択された選択文字列SSを出力する。出力部23は、例えば、選択文字列SSを不図示の表示部に表示させるための情報を出力し、不図示の音声出力部から音声出力させるための情報を出力し、又は不図示の情報処理装置に無線出力することにより選択文字列SSを出力する。
【0017】
第1スコア算出部110は、候補文字列算出部22が算出した複数の候補文字列CSのそれぞれについて、第1スコアS1を算出する。候補文字列CSとは、入力画像IMに含まれる文字列Sの候補である。第1スコアS1は、文字列の尤もらしさを示す。すなわち、第1スコア算出部110は、文字列の尤もらしさを示す第1スコアS1であって、入力画像IMに含まれる文字列Sの候補である複数の候補文字列CSそれぞれの第1スコアS1を算出する。
【0018】
図3は、第1の実施形態に係る第1スコアについて説明するための図である。同図を参照しながら、第1スコア算出部110が算出する第1スコアS1の具体例について説明する。同図には、入力画像IMに文字列“川崎”が含まれる場合の一例を示す。この一例において、候補文字列算出部22は、候補文字列CS-1として“川山崎”と、候補文字列CS-2として“川崎”と、候補文字列CS-3として“川山奇”とを算出する。第1スコア算出部110は、候補文字列CS-1、候補文字列CS-2及び候補文字列CS-3それぞれについて第1スコアS1を算出する。この一例において、候補文字列CS-1の第1スコアS1-1は“0.5”であり、候補文字列CS-2の第1スコアS1-2は“0.5”であり、候補文字列CS-3の第1スコアS1-3は“0.1”である。
【0019】
図1に戻り、文字領域推定部120は、候補文字列CSと、入力画像IMとに基づき、文字領域CAを推定する。文字領域CAとは、候補文字列CSに含まれる文字Cそれぞれに対応する領域である。すなわち、文字領域推定部120は、入力画像IMの領域のうち、候補文字列CSに含まれる文字Cそれぞれに対応する領域である文字領域CAを推定する。
【0020】
第2スコア算出部130は、文字領域推定部120により推定された領域である文字領域CAに基づいて、候補文字列CSに含まれる文字の整合性を示す第2スコアS2を算出する。ここで、候補文字列CSに含まれる文字の整合性とは、空間的な整合性をいう。空間的な整合性がない場合、各文字が重複したり、文字を読み飛ばしてしまったりする場合がある。
【0021】
図4は、第1の実施形態に係る第2スコアについて説明するための図である。同図を参照しながら、文字領域推定部120が行う文字領域CAの推定と、第2スコア算出部130が算出する第2スコアS2の具体例とについて説明する。同図には、入力画像IMに文字列“川崎”が含まれる場合の一例を示す。この一例において、文字領域推定部120は、候補文字列CSに含まれる文字Cそれぞれに対応する領域である文字領域CAを推定する。例えば、文字領域推定部120は、候補文字列CS-1である“川山崎”に含まれる文字Cに対応する領域を文字領域CA1-1、文字領域CA2-1及び文字領域CA3-1として推定する。また、文字領域推定部120は、候補文字列CS-2である“川崎”に含まれる文字Cに対応する領域を文字領域CA1-2及び文字領域CA2-2として推定する。また、文字領域推定部120は、候補文字列CS-3である“川山奇”に含まれる文字Cに対応する領域を文字領域CA1-3、文字領域CA2-3及び文字領域CA3-3として推定する。
【0022】
第2スコア算出部130は、複数の候補文字列CSそれぞれについて第2スコアS2を算出する。この一例において、候補文字列CS-1の第2スコアS2-1は“0.1”であり、候補文字列CS-2の第2スコアS2-2は“1.0”であり、候補文字列CS-3の第2スコアS2-3は“1.0”である。
【0023】
図1に戻り、選択部140は、算出された第1スコアS1と第2スコアS2とに基づいて、複数の候補文字列CSのうち1以上の文字列Sを、選択文字列SSとして選択する。例えば、選択部140は、第1スコアS1と第2スコアS2とを乗じた結果、最も大きい値となる候補文字列CSを、選択文字列SSとして選択する。
【0024】
図5は、第1の実施形態に係る文字認識システムの一連の動作を示すフローチャートである。以下、同図に示すフローチャートに沿って文字認識装置10の一連の動作について説明する。
【0025】
(ステップS110)入力画像取得部21は、入力画像IMを取得する。候補文字列算出部22は、入力画像IMに記載された文字列Sの候補となる候補文字列CSを算出する。本フローチャートにおいては、候補文字列算出部22が、n個(nは1以上の整数)の候補文字列CSを算出した場合について説明する。
【0026】
(ステップS120)第1スコア算出部110は、算出された複数の候補文字列CSのうち、それぞれの候補文字列CSについて、第1スコアS1を算出する。すなわち、候補文字列CSをyn、第1スコアS1をαnとした場合、第1スコア算出部110は、(y1,α1)…(yn,αn)を算出する。
【0027】
(ステップS130)第2スコア算出部130は、カウンタiに1をセットする。
【0028】
(ステップS140)文字領域推定部120は、入力画像IMのうち、候補文字列CSに含まれる複数の文字Cにそれぞれ対応する領域を推定する。本フローチャートにおいては、候補文字列CSにm文字含まれる場合(mは1以上の整数)について説明する。すなわち、候補文字列CSであるyiには、yi,1,…,yi,mの文字Cが含まれる。この場合、文字領域推定部120は、それぞれの文字Cに対応する文字領域CAであるs1,…,smを推定する。
【0029】
(ステップS150)第2スコア算出部130は、候補文字列CSであるyiについての第2スコアS2を算出する。第2スコアS2をβnとも記載する。第2スコアS2であるβnは、s1,…,smに基づき、算出される。
【0030】
(ステップS160)選択部140は、第1スコアS1であるαiと、第2スコアS2であるβiとに基づき、γiを算出する。
【0031】
(ステップS170)第2スコア算出部130は、i<nである場合、処理をステップS190に進める。すなわち、第2スコア算出部130は、カウンタiが、候補文字列算出部22により算出された候補文字列CSの数であるn個に達するまで、ステップS140からステップS160までの工程を繰り返す。第2スコア算出部130は、i<nでない場合、すなわち、カウンタiが、候補文字列算出部22により算出された候補文字列CSの数であるn個に達した場合、処理をステップS180に進める。
【0032】
(ステップS190)第2スコア算出部130は、カウンタiをインクリメントし、処理をステップS140に進める。
【0033】
(ステップS180)選択部140は、γnが最大となる候補文字列CSを、選択文字列SSとして選択する。本フローチャートにおいて、選択部140は、最大点集合により選択文字列SSを選択する。なお、選択部140は、αnと、βnの算出方法に応じて、最小点集合により選択文字列SSを選択してもよい。
【0034】
[第1の実施形態の変形例]
図6は、第1の実施形態に係る第2スコア算出部の機能構成の変形例を示す図である。同図を参照しながら、第2スコア算出部130の変形例である第2スコア算出部130Aについて説明する。第2スコア算出部130Aは、重複読みスコア算出部131と、読み飛ばしスコア算出部132と、第2スコア統合部133とを備える。
【0035】
重複読みスコア算出部131は、候補文字列CSの重複量を示すスコアである重複読みスコアS21を算出する。候補文字列CSの重複量とは、具体的には、候補文字列CSに含まれる文字Cそれぞれに対応する領域が互いに重なり合う量である。第2スコア算出部130Aは、算出された重複読みスコアS21に基づいて第2スコアS2を算出する。すなわち、本実施形態において、第2スコア算出部130Aは、候補文字列CSに含まれる文字Cそれぞれに対応する領域が互いに重なり合う量に基づいて、第2スコアS2を算出する。
【0036】
図7は、第1の実施形態に係る重複読みについて説明するための図である。同図を参照しながら、重複読みスコア算出部131が算出する重複量について説明する。この一例において、入力画像IMには、“川崎”との文字が記載され、文字領域推定部120は、文字領域CAとして、文字領域CA1、文字領域CA2及び文字領域CA3を推定する。ここで、文字領域CA2と文字領域CA3とが互いに重なり合った領域である重複領域CA-DPが重複量である。具体的には、重複読みスコア算出部131は、重複量がm(y)である場合に、下の式(1)を重複の整合性スコアP
ovlpとして算出する。
【0037】
【0038】
ここで、COPは0から1の定数であり、小さいほど重複の整合性スコアPovlpは小さくなる。COPの値は実験的に求められてもよい。
【0039】
図6に戻り、読み飛ばしスコア算出部132は、候補文字列CSに含まれる文字Cと、文字領域推定部120により推定された領域とに基づいて、読み飛ばしが発生しているか否かを示すスコアである読み飛ばしスコアS22を算出する。第2スコア算出部130は算出された読み飛ばしスコアS22に基づいて、第2スコアS2を算出する。すなわち、第2スコア算出部130は、候補文字列CSに含まれる文字Cと、文字領域推定部120により推定された領域とに基づいて、第2スコアS2を算出する。
【0040】
図8は、第1の実施形態に係る読み飛ばしスコア算出部の機能構成の一例を示す図である。読み飛ばしスコア算出部132の機能構成の一例について、図を参照しながら説明する。読み飛ばしスコア算出部132は、文字らしさマップ生成部1321と、読み飛ばしスコア統合部1322とを備える。本実施形態において、読み飛ばしスコア算出部132は、入力画像IMの領域に何らかの文字Cが存在する尤もらしさに基づいて、第2スコアS2を算出する。
【0041】
文字らしさマップ生成部1321は、文字らしさマップCLMを生成する。文字らしさマップCLMとは、入力画像IMの画像領域に何らかの文字Cが存在する尤もらしさを示す。
【0042】
読み飛ばしスコア統合部1322は、文字領域推定部120により推定された文字領域CAと、文字らしさマップ生成部1321により生成された文字らしさマップCLMとに基づき、読み飛ばしスコアS22を算出する。
【0043】
図9は、第1の実施形態に係る文字らしさマップについて説明するための図である。同図を参照しながら、文字らしさマップCLMと、読み飛ばしスコア統合部1322が行う処理の概要について説明する。
【0044】
図9(A)は、読み飛ばしの誤認識をしている候補文字列CSについて、文字領域推定部120が文字領域CAを推定した場合における文字領域CAについて示す図である。同図において、入力画像IMに含まれる文字列Sである“長谷川”のうち“長”との文字については文字領域CA1として、“川”との文字については文字領域CA2として、推定されている。“谷”との文字については文字領域CAとして推定されていない。すなわち、読み飛ばしが発生している。
【0045】
図9(B)は、文字らしさマップCLMの一例について示す図である。同図に示す一例において、領域AR1、領域AR2及び領域AR3には文字が存在する確率が高い。すなわち、文字らしさマップ生成部1321は、入力画像IMの画像領域に何らかの文字Cが存在する尤もらしさを文字らしさマップCLMとして生成するため、読み飛ばしが発生している文字も含めた文字列Sについて、文字Cが存在する尤もらしさを推定する。
【0046】
図9(C)は、マスクMSKの一例を示す図である。読み飛ばしスコア統合部1322は、文字領域推定部120により推定された文字領域CAに基づき、マスクMSKを生成する。マスクMSKは、候補文字列CSに含まれる文字が存在する領域又は存在しない領域を示す。読み飛ばしスコア統合部1322は、生成したマスクMSKにより文字らしさマップCLMをフィルタリングする。読み飛ばしスコア統合部1322は、文字らしさマップCLMをフィルタリングすることにより、候補文字列CSに含まれていないにもかかわらず、文字が存在する確率が高い領域について推定する。
【0047】
図9(D)は、読み飛ばしスコア統合部1322によりフィルタリングされた後の文字らしさマップCLMを示す図である。領域AR2は、文字が存在する確率が高いが、候補文字列CSには含まれていない領域である。すなわち、領域AR2が大きいほど、読み飛ばしが発生している可能性が高いといえる。
【0048】
ここで、入力画像IMの画像領域に何らかの文字Cが存在する確率が高く、フィルタリングされた後の文字らしさマップCLMに含まれる領域を、Uj(y)とする。入力画像IMの画像領域を、幅W、高さHに区切った場合、読み飛ばしスコア統合部1322は、下の式(2)を、読み飛ばしの整合性スコアPSKIP(y)として算出する。なお、入力画像IMの画像領域は、入力画像IMのピクセル単位で区切られてもよいし、複数のピクセルから構成される所定の範囲を単位として区切られてもよい。
【0049】
【0050】
ここで、CSPは0以上の定数であり、CSPが大きいほど読み飛ばしの整合性スコアPSKIPは小さくなる。CSPの値は実験的に求められてもよい。なお、読み飛ばしペナルティを課さない場合は、CSPを0としてもよい。
【0051】
図6に戻り、第2スコア統合部133は、重複読みスコア算出部131により算出された重複読みスコアS21と、読み飛ばしスコア算出部132により算出された読み飛ばしスコアS22とに基づき、第2スコアS2を算出する。例えば、第2スコア統合部133は、重複読みスコアS21と読み飛ばしスコアS22を乗じた値を第2スコアS2として算出する。
【0052】
図10は、第1の実施形態に係る第1スコア算出部の機能構成の変形例を示す図である。同図を参照しながら、第1スコア算出部110の変形例である第1スコア算出部110Aについて説明する。第1スコア算出部110Aは、文字認識スコア算出部111と、知識処理スコア算出部112と、第1スコア統合部113とを備える。
【0053】
文字認識スコア算出部111は、候補文字列CSごとに文字認識スコアS11を算出する。文字認識スコアS11は、文字列の尤もらしさを示す。
【0054】
知識処理スコア算出部112は、候補文字列CSごとに知識処理スコアS12を算出する。知識処理スコア算出部112は、入力画像IMに記載されるべき候補文字列CSが限られる場合に用いられる。入力画像IMに記載されるべき候補文字列CSが限られる場合とは、例えば、入力画像IMが郵便番号、住所、氏名等である情報を事前に得ている場合である。入力画像IMが郵便番号であることが分かっている場合、候補文字列CSが数字でない場合には、知識処理スコアS12は低く算出される。また、入力画像IMが住所であることが分かっている場合、“川崎”よりも“川山奇”である場合の方が知識処理スコアS12は低く算出される。
【0055】
第1スコア統合部113は、文字認識スコア算出部111により算出された文字認識スコアS11と、知識処理スコア算出部112により算出された知識処理スコアS12とに基づき、第1スコアS1を算出する。選択部140は、算出された第1スコアS1と、第2スコアS2とに基づき、選択文字列SSを選択する。
【0056】
ここで、選択部140が、文字認識スコアS11と、知識処理スコアS12と、重複読みスコアS21と、読み飛ばしスコアS22とに基づき、選択文字列SSを選択する場合の一例について説明する。この場合、選択部140は、下の式(3)に基づき、選択文字列SSを選択する。
【0057】
【0058】
具体的には、選択部140は、文字認識スコアS11であるPOCRと、知識処理スコアS12であるPLMと、重複読みスコアS21であるPovlpと、読み飛ばしスコアS22であるPskipとを乗じた値が最大となる候補文字列CSを選択文字列SSとして選択する。
【0059】
[第1の実施形態のまとめ]
上述した実施形態によれば、文字認識装置10は、第1スコア算出部110を備えることにより文字列Sの尤もらしさを示す第1スコアS1を候補文字列CSごとに算出し、文字領域推定部120を備えることにより文字列Sに含まれる文字Cごとの領域を推定し、第2スコア算出部130を備えることにより文字Cの整合性を示す第2スコアS2を算出し、選択部140を備えることにより第1スコアS1と第2スコアS2に基づいて選択文字列SSを選択する。すなわち、上述した実施形態によれば、文字Cが存在する領域の整合性を考慮して最尤文字列を選択する。したがって、文字認識装置10は、入力画像IMに含まれる文字Cを正しく文字認識することができる。
【0060】
また、上述した実施形態によれば、第2スコア算出部130は、重複読みスコアS21に基づいて、第2スコアS2を算出する。重複読みスコアS21とは、補文字列CSに含まれる文字Cそれぞれに対応する領域が互いに重なり合う量に応じたスコアである。したがって、本実施形態によれば、文字認識装置10は、重複読みを抑止することができるため、入力画像IMに含まれる文字Cを正しく文字認識することができる。
【0061】
また、上述した実施形態によれば、第2スコア算出部130は、読み飛ばしスコアS22に基づいて、第2スコアS2を算出する。読み飛ばしスコアS22とは、候補文字列CSに含まれる文字Cと、文字領域推定部120により推定された文字領域CAとに基づいたスコアであり、読み飛ばしが発生している場合には、与えられるペナルティが大きくなる。したがって、本実施形態によれば、文字認識装置10は、読み飛ばしを抑止することができるため、入力画像IMに含まれる文字Cを正しく文字認識することができる。
【0062】
ここで、従来技術によれば、重複読みの改善と、読み飛ばしの改善とは二律背反の関係にあり、一方を改善すると他方の問題が生じやすくなってしまっていた。上述した実施形態によれば、重複読みスコアS21と、読み飛ばしスコアS22とを分けて算出し、総合的に選択文字列SSを選択するため、重複読み及び読み飛ばしのいずれの問題についても改善することができる。
【0063】
また、上述した実施形態によれば、第2スコア算出部130は、文字らしさマップCLMを用いることにより、読み飛ばしスコアS22を算出する。文字らしさマップCLMとは、入力画像IMの領域に何らかの文字Cが存在する尤もらしさを示す。本実施形態によれば、読み飛ばしを容易に抑止することができる。
【0064】
[第2の実施形態]
図11から
図13を参照しながら、第2の実施形態に係る文字認識装置10Aの一例について説明する。第2の実施形態に係る文字認識装置10Aは、ビームサーチアルゴリズムを用いて、入力画像IMに含まれる文字列Sの文字認識を行う。ここで、文字列Sに含まれる複数の文字Cそれぞれについて、候補となる文字Cを算出し、それぞれの文字Cの候補となる組み合わせを候補文字列CSとする場合、文字列Sに含まれる文字Cの量が多くなるほど、候補文字列CSが多くなってしまうという問題があった。候補文字列CSが多くなると、選択文字列SSを選択するのに時間とリソースがかかってしまう。そこで、本実施形態においては、ビームサーチアルゴリズムを用いることにより、少ない時間とリソースで文字認識することを目的とする。
【0065】
図11は、第2の実施形態に係るビームサーチについて説明するための図である。同図を参照しながら、第2の実施形態に係るビームサーチについて説明する。本実施形態において、文字認識装置10Aは、入力画像IMを複数の部分入力画像IMPに区切り、文字認識を行う。同図に示す一例では、入力画像IMは、部分入力画像IMP-1と、部分入力画像IMP-2と、部分入力画像IMP-3とに区切られる。部分入力画像IMPは、例えば所定のピクセル数に応じて区切られていてもよい。所定のピクセル数は、文字Cが記載されるであろう幅に応じて定められていてもよい。
【0066】
具体的には、まず、文字認識装置10Aは、入力画像IMのうち、部分入力画像IMP-1について、1以上の選択文字列SSを選択する。次に、文字認識装置10Aは、部分入力画像IMP-1と、部分入力画像IMP-2とについて、1以上の選択文字列SSを選択する。このとき、部分入力画像IMP-1については、すでに1以上の選択文字列SSが選択されているため、部分入力画像IMP-1と、部分入力画像IMP-2とについての候補文字列CSは少なくなる。更に、文字認識装置10Aは、部分入力画像IMP-1と、部分入力画像IMP-2と、部分入力画像IMP-3とについて、最終的な選択文字列SSを選択する。このとき、部分入力画像IMP-1と、部分入力画像IMP-2とについては、すでに1以上の選択文字列SSが選択されているため、部分入力画像IMP-1と、部分入力画像IMP-2、部分入力画像IMP-3とについての候補文字列CSは少なくなる。このように、本実施形態においては、部分入力画像IMPごとに候補となる文字列Sを絞っていくことにより、全体の処理時間を短くする。
【0067】
図12は、第2の実施形態に係るビームサーチにおいて、部分入力画像毎の整合性スコアについて説明するための図である。同図を参照しながら、入力画像IMに“川崎市”と記載されている場合における、部分入力画像IMP毎の整合性スコアについて説明する。
図12(A)は、文字認識装置10Aが、部分入力画像IMP-1について文字認識を行った場合における候補文字列CSと整合性スコアの対応関係を示し、
図12(B)は、文字認識装置10Aが、部分入力画像IMP-1と、部分入力画像IMP-2とについて文字認識を行った場合における候補文字列CSと整合性スコアの対応関係を示す。ここで、整合性スコアとは、選択部140が選択文字列SSを選択する際に用いるスコアであって、例えば、第1スコアS1と第2スコアS2とを乗じたスコアである。
【0068】
図12(A)において、文字認識装置10Aは、候補文字列CS-11として“川”を、候補文字列CS-12として“川1”を、候補文字列CS-13として“ノリ”を算出する。それぞれの候補文字列CSの整合性スコアは、それぞれ“1.0”、“0.3”、“1.0”である。文字認識装置10Aは、尤もらしい文字列である候補文字列CS-11と、候補文字列CS-13とを選択文字列SSとして選択する。換言すれば、文字認識装置10Aは、候補文字列C-12を、候補から除外する。
【0069】
図12(B)において、文字認識装置10Aは、候補文字列CS-21として“川山崎”を、候補文字列CS-22として“川崎”を、候補文字列CS-23として“ノリ山崎”を、候補文字列CS-24として“ノリ崎”を、候補文字列CS-25として“川山奇”を、候補文字列CS-26として“ノリ山奇”を算出する。それぞれの候補文字列CSの整合性スコアは、それぞれ“0.1”、“1.0”、“0.1”、“1.0”、“1.0”、“1.0”である。文字認識装置10Aは、尤もらしい文字列である候補文字列CS-22と、候補文字列CS-24と、候補文字列CS-25と、候補文字列CS-26とを選択文字列SSとして選択する。換言すれば、文字認識装置10Aは、候補文字列C-21と、候補文字列CS-23とを、候補から除外する。ここで、部分入力画像IMP-1の検討において、候補文字列CS-12である“川1”が候補から除外されているため、部分入力画像IMP-1と部分入力画像IMP-2との検討において、候補となる文字列Sを少なくすることができる。
【0070】
図13は、第2の実施形態に係る文字認識システムの一連の動作を示すフローチャートである。同図を参照しながら、第2の実施形態に係る文字認識システム1Aの一連の動作について説明する。ステップS100は、
図5において説明した第1の実施形態に係る文字認識システムの動作と同様であるため、説明を省略する。
【0071】
(ステップS210)文字認識装置10Aは、xをδとする。δは、部分入力画像IMPの範囲を示す所定の整数である。xは、文字認識装置10Aが文字認識する範囲を示す。本フローチャートにおいて、文字認識装置10Aは、まず0からxまでの範囲について候補文字列CSを算出する。ここで、文字認識装置10Aが文字認識する範囲であるxは、
図11を参照しながら説明した一例における部分入力画像IMPに相当する。
【0072】
(ステップS220)文字認識装置10Aは、候補集合Φに、から集合(空集合)を設定する。
【0073】
(ステップS230)文字認識装置10Aが備える第1スコア算出部110は、部分入力画像IMPに含まれる複数の候補文字列CSのうち、それぞれの候補文字列CSについて、第1スコアS1を算出する。すなわち、候補文字列CSをyn、第1スコアS1をαnとした場合、第1スコア算出部110は、(y1,α1)…(yn,αn)を算出する。
【0074】
(ステップS240)文字認識装置10Aは、部分入力画像IMPにおける選択文字列SSを選択する。文字認識装置10Aは、具体的には、γiの大きいR個のyiとγiの組を選択し、候補集合Φとする。Rは、次の部分入力画像IMPについて文字認識をする場合に候補とする文字列の数である。Rを小さくすれば処理時間を短くすることができるが、小さすぎると誤認識の可能性が高まる場合がある。
【0075】
(ステップS250)文字認識装置10Aは、入力画像IMの全部について文字認識を行ったか否かを判定する。具体的には、文字認識装置10Aは、xがWより小さい場合には、処理をステップS270に進める。文字認識装置10Aは、xがWより小さくない場合には、処理をステップS260に進める。
【0076】
(ステップS270)文字認識装置10Aは、文字認識を行う範囲を、広げる。具体的には、文字認識装置10Aは、xにδを足した値をxとし、処理をステップS230に進める。
【0077】
(ステップS260)文字認識装置10Aは、γkが最大となる文字列ykを、選択文字列SSとして出力する。
【0078】
[第2の実施形態のまとめ]
上述した実施形態によれば、文字認識装置10Aに備えられる第1スコア算出部110は、入力画像IMの一部である部分入力画像IMPについて、第1スコアS1を算出する。換言すれば、第1スコア算出部110は、入力画像IMに含まれる文字列Sを構成する複数の文字Cのうち、一部の文字を含む文字列Sの候補である候補文字列CSの第1スコアS1を算出する。また、文字認識装置10Aに備えられる第2スコア算出部130は、入力画像IMの一部である部分入力画像IMPについて、第2スコアS2を算出する。換言すれば、第2スコア算出部130は、入力画像IMに含まれる文字列Sを構成する複数の文字Cのうち、一部の文字を含む文字列Sの候補である候補文字列CSの第2スコアS2を算出する。文字認識装置10Aは、入力画像IMの部分ごとに候補文字列CSを算出するため、入力画像IMに含まれる文字列全体の候補の数を少なくすることができる。よって、本実施形態によれば、ビームサーチアルゴリズムを用いることにより、少ない時間とリソースで文字認識することができる。
【0079】
[第3の実施形態]
図14及び
図15を参照しながら、第3の実施形態に係る文字認識装置10Bの一例について説明する。第3の実施形態においては、入力画像IMに、基準となる文字の間隔又は記載すべき文字の領域が定められている点において、他の実施形態と異なる。本実施形態においては、基準となる文字の間隔又は記載すべき文字の領域に基づいて文字認識を行うことにより、入力画像IMに含まれる文字Cを、より正しく文字認識することを目的とする。
【0080】
図14は、第3の実施形態に係る入力画像IMの一例を示す図である。同図を参照しながら、入力画像IMに定められた、基準となる文字の間隔又は記載すべき文字の領域について説明する。
図14(A)は、本実施形態における入力画像IMの一例である。
図14(B)は、本実施形態における入力画像IMに文字が記載された場合の一例である。
【0081】
図14(A)に示す入力画像IMは、複数の文字入力領域IARを含む。具体的には、入力画像IMは、文字入力領域IAR1と、文字入力領域IAR2と、文字入力領域IAR3とを含む。文字入力領域IARは、例えば、入力画像IMに文字列Sを記載するユーザに対し、文字を記載する際の基準として与えられる。すなわち、文字入力領域IARにより、基準となる文字の間隔又は記載すべき文字の領域が定められる。以後の説明において、文字入力領域IARを、“枠”と記載する場合がある。
【0082】
図14(B)に示す入力画像IMには、文字Cが記載されている。具体的には、文字入力領域IAR1には文字C-1が記載され、文字入力領域IAR2には文字C-2が記載され、文字入力領域IAR3には文字C-3が記載されている。文字C-1は“川”であり、文字C-2は“崎”であり、文字C-3は“市”である。
【0083】
図15は、第3の実施形態に係る第2スコアの一例を示す図である。同図を参照しながら、第2スコア算出部130が算出する第2スコアS2について説明する。同図に示す一例において、候補文字列算出部22は、“川山奇市”と、“川崎市”との候補文字列CSを算出する。
【0084】
候補文字列CSが“川山奇市”である場合、文字入力領域IAR1には文字領域CA1-1が含まれ、文字入力領域IAR2には文字領域CA2-1及び文字領域CA3-1が含まれ、文字入力領域IAR3には文字領域CA4-1が含まれる。この場合、文字入力領域IAR2には文字領域CA2-1及び文字領域CA3-1が含まれるため、1つの枠(文字入力領域IAR)に、2つの文字領域CAが存在する。この場合、第2スコア算出部130は、1つの枠に複数の文字領域CAが存在する場合、小さい方の文字領域CAと枠領域との重複量をm(y)とし、下の式(4)に基づき、整合性スコアPBOXを算出する。
【0085】
【0086】
ここでCBPは0から1の定数であり、小さいほど整合性スコアPBOXは小さくなる。CBPの値は実験的に求められてもよい。
【0087】
ここで、選択部140が、更に整合性スコアPBOXに基づき、選択文字列SSを選択する場合の一例について説明する。この場合、選択部140は、下の式(5)に基づき、選択文字列SSを選択する。
【0088】
【0089】
すなわち、本実施形態において、第2スコア算出部130は、候補文字列CSに含まれる文字Cそれぞれに対応する領域である文字領域CAと、文字入力領域IARとに基づいて、第2スコアS2を算出する。
【0090】
[第3の実施形態のまとめ]
上述した実施形態によれば、文字認識装置10Bは、第2スコア算出部130を備えることにより、文字領域CAと、文字入力領域IARとに基づいて、第2スコアS2を算出する。例えば、第2スコア算出部130は、1つの枠に複数文字が含まれるような場合は、第2スコアS2の値を低く算出する。第2スコア算出部130は、1つの枠に複数文字が含まれるような場合に第2スコアS2の値を低く算出することにより、漢字の偏や旁等に分けて文字認識してしまうような誤認識を抑止することができる。したがって、本実施形態によれば、入力画像IMに含まれる文字Cを、より正しく文字認識することができる。
【0091】
[第4の実施形態]
図16及び
図17を参照しながら、第4の実施形態について説明する。第4の実施形態では、文字領域推定部120の具体例について説明する。
図16を参照しながら文字領域推定部120の一例について説明し、
図17を参照しながら文字領域推定部120の変形例について説明する。
【0092】
図16は、第4の実施形態に係る文字領域推定部の動作の一例を説明するための図である。同図を参照しながら文字領域推定部120の一例について説明する。まず、入力データDIがニューラルネットワークNN1に入力される。この一例において、入力データDIが文字列の画像である場合の一例について説明する。具体的には、入力データDIが、“川崎市”と左から右に横方向に手書きされた文字列画像である場合の一例について説明する。
【0093】
ニューラルネットワークNN1は、入力された文字列の特徴量Fの系列を算出する。入力データDIが左から右に横方向に手書きされた文字列画像である場合、ニューラルネットワークNN1は、左方向から右方向に特徴量Fの系列を、判定範囲の幅分だけ認識していく。この一例において、ニューラルネットワークNN1は、特徴量F1から特徴量F6までの特徴量を算出する。ここで、ニューラルネットワークNN1は、入力データDIの行の長さに応じた数の特徴量Fを算出する。
【0094】
ニューラルネットワークNN2は、ニューラルネットワークNN1により算出された特徴量Fごとに確率分布Pを算出する。この一例において、ニューラルネットワークNN1は、特徴量F1から特徴量F6までの特徴量を算出するため、ニューラルネットワークNN2は、特徴量F1に対応する確率分布P1から、特徴量F6に対応する確率分布P6までを算出する。
【0095】
CTC(Connectionist Temporal Classification)80は、算出されたそれぞれの確率分布を統合し、入力データDIに対応する文字列の確率分布Pを算出し、算出された確率分布Pから認識される文字列を出力データDOとして出力する。
【0096】
推定部85は、ニューラルネットワークNN1により算出された特徴量Fを取得する。推定部85は、ニューラルネットワークNN3により、取得した特徴量Fから、所定のラベルが付与されるべき要素が存在しうる範囲を推定する。
【0097】
推定部85は、CTC80により認識された出力データDOのそれぞれのラベルと、それぞれの特徴量Fとを対応付ける。推定部85は、出力データDOのラベル列のうち一のラベルが複数の特徴量Fに対応づけられる場合、当該一のラベルに対応付けられた複数の特徴量Fから推定された範囲を統合し、出力する。推定部85により出力された出力結果は、入力データDIのうち、それぞれのラベルの範囲が特定されている。同図に示す一例では、範囲A1は“川”の範囲を特定し、範囲A2は“崎”の範囲を特定し、範囲A3は“市”の範囲を特定する。
【0098】
図17は、第4の実施形態に係る文字領域推定部の動作の変形例を説明するための図である。同図を参照しながら、文字領域推定部120の動作の変形例について説明する。文字領域推定部120の動作の変形例では、物体検出を応用して文字領域の推定を行う。
【0099】
まず、入力データDIがニューラルネットワークNN4に入力される。この一例において、入力データDIが文字列の画像である場合の一例について説明する。具体的には、入力データDIが、“川崎”と左から右に横方向に手書きされた文字列画像である場合の一例について説明する。ニューラルネットワークNN4は、検出DNN(Deep Neural Network)である。ニューラルネットワークNN4は、画像を入力として、複数の候補矩形Rと、それぞれの候補矩形Rに対応する文字のスコアとを出力する。
【0100】
具体的には、ニューラルネットワークNN4は、候補矩形R1と、候補矩形R2と、候補矩形R3と、候補矩形R4と、候補矩形R5と、候補矩形R6と、それぞれの候補矩形Rに対応する文字のスコアとを出力する。より具体的には、候補矩形R1に対応する文字“川”であるスコア“0.8”、及び文字“州”であるスコア“0.1”と、候補矩形R2に対応する文字“り”であるスコア“0.5”、及び文字“い”であるスコア“0.2”と、候補矩形R3に対応する文字“1”であるスコア“0.3”、及び文字“ノ”であるスコア“0.1”と、候補矩形R4に対応する文字“崎”であるスコア“0.8”、及び文字“埼”であるスコア“0.1”と、候補矩形R5に対応する文字“山”であるスコア“0.5”、及び文字“凸”であるスコア“0.1”と、候補矩形R6に対応する文字“奇”であるスコア“0.7”、及び文字“嵜”であるスコア“0.1”とを出力する。
【0101】
[第4の実施形態のまとめ]
上述した実施形態によれば、文字領域推定部120は、推定部85を備えることにより、入力データDIから取得した特徴量Fに基づき、文字Cが存在しうる領域を推定し、文字Cを複数の特徴量Fのうち少なくとも1つと対応づけ、一のラベルに対応づけられた、複数の範囲を統合することにより、それぞれの文字Cに対応する領域を特定する。本実施形態を用いることにより、ビームサーチアルゴリズムによる効率的な探索をすることができる。また、本実施形態による文字領域の推定は、容易に実装することができる。
【0102】
また、上述した実施形態によれば、文字領域推定部120は、画像を入力として、複数の候補矩形Rと、それぞれの候補矩形Rに対応する文字のスコアとを出力する。本実施形態を用いることにより、少ないリソースで文字領域の推定をすることができる。
【0103】
[第5の実施形態]
図18から
図20を参照しながら、第5の実施形態について説明する。第5の実施形態では、文字らしさマップ生成部1321が生成する文字らしさマップCLMの変形例について説明する。
図18は、第5の実施形態に係る文字らしさマップの変形例について説明するための図である。
図18(A)は、第1の実施形態において説明した文字らしさマップCLMである。
【0104】
図18(B)は、第5の実施形態に係る文字らしさマップCLMの第1の変形例である文字らしさマップCLM1である。文字らしさマップCLM1は、複数のピクセルから構成される領域ごとに文字らしさが階調表現されている点において、文字らしさマップCLMとは異なる。このように、文字らしさマップCLM1は、入力画像IMのうち、所定の範囲ごとに文字らしさが算出されていてもよい。
【0105】
図18(C)は、第5の実施形態に係る文字らしさマップCLMの第2の変形例である文字らしさマップCLM2である。文字らしさマップCLM2は、入力画像IMのx座標と、各x座標における黒画素数との対応関係を含む。すなわち、文字らしさマップCLM2は、輝度ヒストグラムであってもよい。本実施形態において、入力画像IMは、横書きされた文字であるため、文字が記載された方向であるX座標を用いる。入力画像IMが縦書きされた文字である場合はY座標を用いてもよい。文字らしさマップCLM2は、各X座標における黒画素数の情報を用いるため、容易に文字らしさマップCLM2を作成することができる。
【0106】
図18(D)は、第5の実施形態に係る文字らしさマップCLMの第3の変形例である文字らしさマップCLM3である。文字らしさマップCLM3は、文字らしさマップCLM2を、0から1の値をとるよう正規化したものである。
【0107】
その他、文字らしさマップCLMは、入力画像IMをグリッド状の小領域に分割したものであって、各小領域ごとの黒画素の総数に基づいていてもよい。
【0108】
図19は、第5の実施形態に係る文字らしさマップ生成部の変形例の機能構成の一例を示す図である。同図を参照しながら、文字らしさマップ生成部1321の変形例である文字らしさマップ生成部1321Aについて説明する。文字らしさマップ生成部1321Aは、文字らしさ算出ニューラルネットワークDNNを備える点において、文字らしさマップ生成部1321とは異なる。
【0109】
文字らしさ算出ニューラルネットワークDNNは、予め文字らしさを予測できるよう学習されたニューラルネットワークである。
図20は、第5の実施形態に係る入力データDIと教師データDTの一例を示す図である。入力データDIの一例と、教師データDTの一例について、図を参照しながら説明する。
【0110】
図20に示す一例において、入力データDI1は教師データDT1に対応し、入力データDI2は教師データDT2に対応する。入力データDI1には、文字C-11と、文字C-12とが含まれ、教師データDT1には、文字C-11に対応する領域AR11と、文字C-12に対応する領域AR12とが含まれる。入力データDI2には、文字C-21と、文字C-22と、文字C-23とが含まれ、教師データDT2には、文字C-21に対応する領域AR21と、文字C-22に対応する領域AR22と、文字C-23に対応する領域AR23とが含まれる。
【0111】
[第5の実施形態のまとめ]
上述した実施形態によれば、文字らしさマップCLM1、文字らしさマップCLM2、又は文字らしさマップCLM3を用いることにより、文字らしさマップ生成部1321は、容易に文字らしさマップCLMを生成することができる。
【0112】
また、上述した実施形態によれば、文字らしさマップ生成部1321は、文字らしさ算出ニューラルネットワークDNNを備えることにより、機械学習により文字らしさマップCLMを生成することができる。上述した実施形態によれば、機械学習を用いるため、ノイズに強く、誤認識することを抑止することができる。また、上述した実施形態によれば、機械学習を用いるため、異なる背景の入力画像IMについても、正しく認識することができる。
【0113】
以上説明してきたように、実施形態では、複数の変形例を記載した。ここで、組み合わせることが可能な限りにおいて、複数の実施形態及び複数の変形例を組み合わせて実施するようにしてもよい。
【0114】
なお、上述した実施形態における情報処理装置の機能をコンピューターで実現するようにしても良い。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0115】
以上説明した少なくともひとつの実施形態によれば、第1スコア算出部と、文字領域推定部と、第2スコア算出部と、選択部とを持つことにより、入力画像に含まれる文字を正しく文字認識することができる。
【0116】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0117】
1…文字認識システム、10…文字認識装置、21…入力画像取得部、22…候補文字列算出部、23…出力部、24…入力規則情報記憶部、110…第1スコア算出部、120…文字領域推定部、130…第2スコア算出部、140…選択部、111…文字認識スコア算出部、112…知識処理スコア算出部、113…第1スコア統合部、131…重複読みスコア算出部、132…読み飛ばしスコア算出部、133…第2スコア統合部、1321…文字らしさマップ生成部、1322…読み飛ばしスコア統合部、IM…入力画像、S…文字列、C…文字、CS…候補文字列、CA…文字領域、S1…第1スコア、S2…第2スコア、S11…文字認識スコア、S12…知識処理スコア、S21…重複読みスコア、S22…読み飛ばしスコア、SS…選択文字列、IR…入力規則、IAR…文字入力領域、CLM…文字らしさマップ、MSK…マスク、IMP…部分入力画像