特許第6039413号(P6039413)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電産サンキョー株式会社の特許一覧

特許6039413文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム
<>
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000007
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000008
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000009
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000010
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000011
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000012
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000013
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000014
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000015
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000016
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000017
  • 特許6039413-文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム 図000018
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6039413
(24)【登録日】2016年11月11日
(45)【発行日】2016年12月7日
(54)【発明の名称】文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム
(51)【国際特許分類】
   G06K 9/34 20060101AFI20161128BHJP
【FI】
   G06K9/34
【請求項の数】10
【全頁数】20
(21)【出願番号】特願2012-285664(P2012-285664)
(22)【出願日】2012年12月27日
(65)【公開番号】特開2014-127161(P2014-127161A)
(43)【公開日】2014年7月7日
【審査請求日】2015年11月6日
(73)【特許権者】
【識別番号】000002233
【氏名又は名称】日本電産サンキョー株式会社
(74)【代理人】
【識別番号】100094053
【弁理士】
【氏名又は名称】佐藤 隆久
(74)【代理人】
【識別番号】100135828
【弁理士】
【氏名又は名称】飯島 康弘
(72)【発明者】
【氏名】中村 宏
【審査官】 新井 則和
(56)【参考文献】
【文献】 特開2008−097590(JP,A)
【文献】 特開昭61−269779(JP,A)
【文献】 特開2007−256254(JP,A)
【文献】 特開平10−055408(JP,A)
【文献】 特開平08−016719(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/00−9/82
(57)【特許請求の範囲】
【請求項1】
媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列から各文字を切り出す文字切り出し装置であって、
前記文字列を形成する文字の区切り位置を検出する文字区切り位置検出部を有し、
前記文字区切り位置検出部は、
前記文字の区切り位置を検出する領域を設定する領域設定部と、
少なくとも前記領域設定部により設定される設定領域内において、文字が並んでいる方向の射影を生成する射影生成部と、
前記文字が並んでいる文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けた前記設定領域内の前記射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する分割点算出部と、を含み、
前記分割点算出部で求めた前記分散比に基づき文字の区切り位置を求める
文字切り出し装置。
【請求項2】
前記文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けて形成される射影特性において、前記分散比に基づき文字の区切り位置を含む領域は、射影特性の文字並び方向に直交する方向に配列された画素値全体の平均画素値の分布において、当該平均画素値が低い領域を含む領域に対応して存在する
請求項1記載の文字切り出し装置。
【請求項3】
前記文字区切り位置検出部は、
前記分割点算出部が、射影に関してその射影を2分割したときに、その各分割要素において、要素内の分散が小さく、要素間の分散が大きくなるような分割点を選び、
当該選択した分割点を2文字の境界位置として検出する
請求項1または2記載の文字切り出し装置。
【請求項4】
前記文字区切り位置検出部は、
前記分割点算出部が、射影に関してその射影を2分割したときに、その各分割要素において、分割要素内の射影値の分散が小さく、分割要素間の射影値の分散が大きくなるような分割点を選び、
当該選択した分割点を2文字の境界位置として検出する
請求項3記載の文字切り出し装置。
【請求項5】
前記分割点算出部は、
前記設定領域内の文字の並び方向の各位置における所定幅の射影を2つの領域に分割し、各射影における分割領域内分散と分割領域間分散とを求め、その分散比を位置ごとに求め、分散比に基づき文字の区切り位置を求める
請求項1から4のいずれか一に記載の文字切り出し装置。
【請求項6】
前記射影生成部は、
文字が第1方向に並んでいるときは当該第1方向の射影を生成し、
文字が第1方向と直交する方向の第2方向に並んでいるときは当該第2方向の射影を生成する
請求項1から5のいずれか一に記載の文字切り出し装置。
【請求項7】
画像データから切り出された文字列から各文字を切り出して文字を認識する文字認識装置であって、
媒体上の文字列を撮像して画像データとして読み取る画像読取部と、
前記画像読取部による読み取り画像を格納する画像メモリと、
前記画像メモリに格納された前記画像データから文字列を切り出し、当該文字列から文字を切り出して文字認識を行うデータ処理部と、を有し、
前記データ処理部は、
切り出された前記文字列を形成する文字の区切り位置を検出する文字区切り位置検出部を備えた文字切り出し部と、を含み、
前記文字区切り位置検出部は、
前記文字の区切り位置を検出する領域を設定する領域設定部と、
少なくとも前記領域設定部により設定される設定領域内において、文字が並んでいる方向の射影を生成する射影生成部と、
前記文字が並んでいる文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けた前記設定領域内の前記射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する分割点算出部と、を含み、
前記分割点算出部で求めた前記分散比に基づき文字の区切り位置を求める
文字認識装置。
【請求項8】
前記文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けて形成される射影特性において、前記分散比に基づき文字の区切り位置を含む領域は、射影特性の文字並び方向に直交する方向に配列された画素値全体の平均画素値の分布において、当該平均画素値が低い領域を含む領域に対応して存在する
請求項7記載の文字認識装置。
【請求項9】
媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列から各文字を切り出す文字切り出し方法であって、
前記文字列を形成する文字の区切り位置を検出する文字区切り位置検出ステップを有し、
前記文字区切り位置検出ステップは、
前記文字の区切り位置を検出する領域を設定する領域設定ステップと、
少なくとも前記領域設定ステップにより設定される設定領域内において、文字が並んでいる方向の射影を生成する射影生成ステップと、
前記文字が並んでいる文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けた前記設定領域内の前記射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する分割点算出ステップと、を含み、
前記分割点算出ステップで求めた前記分散比に基づき文字の区切り位置を求める
文字切り出し方法。
【請求項10】
媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列から各文字を切り出す文字切り出し処理をコンピュータに実行させるプログラムであって、
前記文字列を形成する文字の区切り位置を検出する文字区切り位置検出処理を有し、
前記文字区切り位置検出処理は、
前記文字の区切り位置を検出する領域を設定する領域設定処理と、
少なくとも前記領域設定処理により設定される設定領域内において、文字が並んでいる方向の射影を生成する射影生成処理と、
前記文字が並んでいる文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けた前記設定領域内の前記射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する分割点算出処理と、を含み、
前記分割点算出処理で求めた前記分散比に基づき文字の区切り位置を求める
文字切り出し処理をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、紙やプラスチック等の媒体上の文字列を撮像して得られた画像データを処理することによって文字列から各文字を切り出す文字認識技術に係り、特に、撮像された画像内の文字列の文字間の区切り位置を検索して文字を認識する文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラムに関するものである。
【背景技術】
【0002】
文字認識においては、一般に行(文字列)区切り位置の特定を行い、位置決定された文字行(文字列)において、文字間の区切り位置を特定する、という構成をとることが多い(たとえば、特許文献1,2,3参照)。
【0003】
特許文献1には、画像よりヒストグラム(投影、射影)を形成し、その投影の山と山の間の空白の両端座標を求めることにより文字区切り位置を求める技術が記載されている。
【0004】
特許文献2には、同様に、文字間の空白位置を、射影のレベルをあらかじめ用意した閾値と比較することにより、文字間の境界位置を求める技術が記載されている。
【0005】
特許文献3にも、文字の境界を検出する技術が記載されている。特許文献3に記載の技術では、上記と同様に、認識対象の文字列に対してその射影をとり、一定の閾値を設けて射影のプロファイルと閾値との比較により、文字と文字の境界を求める。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平09-282417号公報
【特許文献2】特開平01-255987号公報
【特許文献3】特開2008-250754号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、特許文献1に記載された技術では、当該文献1の図31に示されるように、隣接する2文字がつぶれなどの原因により結合してしまった場合に、その2文字の分離位置を正確に特定することは困難である。
【0008】
特許文献2に記載された技術においても、文字切り出しの際に用いる閾値関数の設定によっては、正しい文字区切り位置を検出することが困難であるという不利益がある。
【0009】
特許文献3に記載されているような、閾値との大小関係を利用する技術では、閾値をどのように設定するかが問題となることが多い。
文字が正常な場合はよいが、文字がつぶれやノイズなどによって結合したような場合や、媒体の移動速度変動による画像解像度の低下(モジュレーションの劣化)の場合は、閾値のレベルによって文字境界の見逃しやノイズによる文字境界点の誤検出といった問題が生じやすく、結果的に安定的な認識性能が阻害されることになる。
【0010】
本発明の目的は、性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能で、ひいては文字認識性能の向上を図ることが可能な文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラムを提供することにある。
【課題を解決するための手段】
【0011】
本発明の第1の観点は、媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列から各文字を切り出す文字切り出し装置であって、前記文字列を形成する文字の区切り位置を検出する文字区切り位置検出部を有し、前記文字区切り位置検出部は、前記文字の区切り位置を検出する領域を設定する領域設定部と、少なくとも前記領域設定部により設定される設定領域内において、文字が並んでいる方向の射影を生成する射影生成部と、前記文字が並んでいる文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けた前記設定領域内の前記射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する分割点算出部と、を含み、前記分割点算出部で求めた前記分散比に基づき文字の区切り位置を求める。
【0012】
本発明の第2の観点は、画像データから切り出された文字列から各文字を切り出して文字を認識する文字認識装置であって、媒体上の文字列を撮像して画像データとして読み取る画像読取部と、前記画像読取部による読み取り画像を格納する画像メモリと、前記画像メモリに格納された前記画像データから文字列を切り出し、当該文字列から文字を切り出して文字認識を行うデータ処理部と、を有し、前記データ処理部は、切り出された前記文字列を形成する文字の区切り位置を検出する文字区切り位置検出部を備えた文字切り出し部と、を含み、 前記文字区切り位置検出部は、前記文字の区切り位置を検出する領域を設定する領域設定部と、少なくとも前記領域設定部により設定される設定領域内において、文字が並んでいる方向の射影を生成する射影生成部と、前記文字が並んでいる文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けた前記設定領域内の前記射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する分割点算出部と、を含み、前記分割点算出部で求めた前記分散比に基づき文字の区切り位置を求める。
【0013】
本発明の第3の観点は、媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列から各文字を切り出す文字切り出し方法であって、前記文字列を形成する文字の区切り位置を検出する文字区切り位置検出ステップを有し、前記文字区切り位置検出ステップは、前記文字の区切り位置を検出する領域を設定する領域設定ステップと、少なくとも前記領域設定ステップにより設定される設定領域内において、文字が並んでいる方向の射影を生成する射影生成ステップと、前記文字が並んでいる文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けた前記設定領域内の前記射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する分割点算出ステップと、を含み、前記分割点算出ステップで求めた前記分散比に基づき文字の区切り位置を求める。
【0014】
本発明の第4の観点は、媒体上の文字列を撮像して得られた画像データを処理することによって、前記文字列から各文字を切り出す文字切り出し処理をコンピュータに実行させるプログラムであって、前記文字列を形成する文字の区切り位置を検出する文字区切り位置検出処理を有し、前記文字区切り位置検出処理は、前記文字の区切り位置を検出する領域を設定する領域設定処理と、少なくとも前記領域設定処理により設定される設定領域内において、文字が並んでいる方向の射影を生成する射影生成処理と、前記文字が並んでいる文字並び方向の画素位置情報および当該文字並び方向上の当該文字並び方向に直交する方向に配列された画素値全体の平均画素値情報に関連付けた前記設定領域内の前記射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する分割点算出処理と、を含み、前記分割点算出処理で求めた前記分散比に基づき文字の区切り位置を求める文字切り出し処理をコンピュータに実行させるプログラムである。
【発明の効果】
【0015】
本発明によれば、性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能で、ひいては文字認識性能の向上を図ることが可能となる。
【図面の簡単な説明】
【0016】
図1】本発明の実施形態に係る文字認識装置の構成例を示す図である。
図2】本実施形態に係る文字切り出し部における文字区切り位置検出部の構成例を示すブロック図である。
図3】比較例における文字切り出し部の処理フローを示すフローチャートである。
図4】本実施形態に係る文字切り出し部における文字区切り位置検出部の処理フローを示すフローチャートである。
図5】本実施形態に係る文字認識対象の画像の一例を示す図である。
図6】本実施形態に係る領域設定部により図5の画像の一部に設定される矩形領域の一例を示す図である。
図7】本実施形態に係る射影形成部により図6の矩形領域内に形成される射影の特性曲線の一例を示す図である。
図8図7の射影特性曲線に矩形領域を2つに分割した場合の領域(クラス)内分散と領域(クラス)間分散の分散比特性曲線を付加した図である。
図9】求められた文字間の分割位置(境界位置)を示す図である。
図10】矩形領域内の2文字の境界が明確な場合の例を示す図である。
図11図10の矩形領域内に形成される射影の一例およびその射影特性曲線に矩形領域を2つに分割した場合の領域(クラス)内分散と領域(クラス)間分散の分散比特性曲線を付加した図である。
図12】本実施形態に係る文字認識装置の動作を説明するためのフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態を図面に関連付けて説明する。
【0018】
図1は、本発明の実施形態に係る文字認識装置の構成例を示す図である。
【0019】
本実施形態に係る文字認識装置10は、紙やプラスチック等の媒体上の文字列を撮像して得られた画像データを処理することによって、画像データから切り出した文字列から各文字を切り出して認識する機能を有する。
【0020】
文字認識装置10は、画像認識技術に基づいて、撮像画像内の文字列における文字間の区切り位置を検出(検索)する際に、次のような特徴的な処理を行う。
文字認識装置10は、認識対象(切り出し対象)となる2文字を囲む暫定切り出し領域、たとえば矩形領域を設定し、少なくともその矩形領域において文字が並んでいる方向の射影を生成(形成)する。
文字認識装置10は、文字切り出し処理における射影生成に際し、文字が第1方向である横方向すなわちX軸方向に並んでいるときはX軸への射影を生成し、文字が第1方向に直交する第2方向である縦方向すなわちY軸方向に並んでいるときはY軸への射影を生成する。以下では、一例として、X軸への射影として説明する。
【0021】
文字認識装置10は、文字が並んでいる文字並び方向(本例ではX軸方向、水平方向))の画素位置情報およびX軸上のX軸方向に直交するY方向に配列された画素値全体の平均画素値情報(各列の画素値全体の平均画素値情報)に関連付けた設定領域内の射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する。
文字認識装置10は、その射影に関してその射影を左右に2分割したときに、その各分割要素において、たとえば要素内の分散が最も小さく、要素間の分散が最も大きくなるような分割点を選び、その選択した点を2文字の分割位置(境界位置)として検出する。
より具体的には、文字認識装置10は、射影に関してその射影を2分割したときに、その各分割要素において、たとえば分割要素内の射影値の分散が最も小さく、分割要素間の射影値の分散が最も大きくなるような分割点を選び、その選択した分割点を2文字の境界位置として検出する。
文字認識装置10は、分割点算出処理においては、設定される矩形領域内の文字の並び方向の各位置における所定幅の射影を2つの領域に分割し、各射影における分割領域内分散と分割領域間分散とを求め、その分散比を位置ごとに求め、求めた分散比に基づき2文字の境界位置(文字の区切り位置)を求める。本実施形態では、分散比が最大となる位置を文字の区切り位置として求める。
以上の判別処理については、後で詳述する。
【0022】
以下に、本文字認識装置10の具体的な構成および撮像画像の文字認識処理機能について説明する。
【0023】
文字認識装置10は、データ入力部としての密着型の(1次元)撮像素子(画像読取部)11、画像メモリ12、およびデータ処理部13を有している。
また、データ処理部13は、2値化部131、文字列切り出し部としての行切り出し部132、文字区切り位置検出部を含む文字切り出し部133、特徴抽出部134、特徴比較部135、特徴辞書格納部136、および類似文字認識部137を有している。
なお、これらの各部は、記録担体20上の文字列、たとえばOCR文字列を認識する文字認識装置の一例として機能する。
【0024】
画像読取部としての撮像素子11は、記録担体20上のOCR文字記録領域21にOCR文字列を撮像し、そのOCR文字列の光電変換を行う。
画像メモリ12は、撮像素子11で撮像されたOCR文字列等の画像データを記憶(格納)する。
なお、この画像メモリ12は、RAM,SDRAM,DDRSDRAM,RDRAMなど、画像データを記憶しうるものであれば如何なるものであってもよい。
【0025】
データ入力部においては、カードなどの記録担体20のOCR文字記録領域21に印刷されたOCR文字列は、媒体搬送機構の搬送ガイドに沿ってカードを動かすと1次元撮像素子11によってその文字パターンが撮像されて光電変換され、その画像データが画像メモリ12に取り込まれる。
その後、データ処理部13が、画像メモリ12から画像データを読み出して、上述した各部において様々な処理を施し、最終的に、記録担体20上のOCR文字列から各文字を切り出して認識するように構成されている。
【0026】
ここでは、撮像素子11として密着型1次元撮像素子を採用して装置の小型化等を図っているが、撮像素子11としては、読み取り対象の記録担体20の文字列を読み取り対象とする2次元のエリアセンサ等を採用することも可能である。
撮像素子11は、たとえばCCDやCMOSセンサにより形成される。
【0027】
一方で、記録担体20は、JISに準拠している一般的なカードであってもよく、たとえば、幅86mm,高さ54mm,厚み0.76mmというサイズのプラスチックカードでもよく、IDカードやパスポートブック、あるいは運転免許証などでもよい。
【0028】
[データ処理部13の各部の構成および機能]
次に、データ処理部13の各部の基本的な構成および機能について説明する。
データ処理部13は、画像メモリ12から画像データを読み出して、その画像データが多諧調の濃淡画像である場合には、白黒2値の画像に変換を行う。
【0029】
2値化部131は、この画像メモリ12から読み出した画像データに対する2値化処理を行う。
2値化部131は、適当な方法によって閾値を求め、元の画像を白黒2値の画像に変換する。
ここで、データ処理部13における以降の処理は、この白黒2値画像を用いて行われることとする。
【0030】
文字列切り出し部としての行切り出し部132は、2値化部131で2値化された文字列を水平方向に射影して、文字列の上下エッジを検出する。
そして、行切り出し部132は、上下エッジの中心位置を、文字列の中心ラインと識別して行切り出しを行う。
ここで、水平方向とは、文字が横方向に並んでいる第1方向、すなわちX軸方向である。
【0031】
本実施形態の文字区切り位置検出部を含む文字切り出し部133は、行切り出し部132で切り出された行の文字列から文字列の文字が並んでいる方向、本例では水平方向の文字間の区切り位置を検出して、文字の切り出し処理を行う。
より具体的には、本実施形態の文字切り出し部133は、認識対象(切り出し対象)となる2文字を囲む暫定切り出し領域、たとえば矩形領域を設定し、その矩形領域において文字が並んでいる方向の射影を生成(形成)する。
ここでは、上述したように、文字切り出し部133は、射影生成に際し、文字が横方向すなわちX軸方向に並んでいるときはX軸への射影を生成する。
【0032】
文字切り出し部133は、X軸方向(文字並び方向)の画素位置情報およびX軸上のY方向に配列された画素値全体の平均画素値情報(各列の画素値全体の平均画素値情報)に関連付けた設定領域内の射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する。
文字切り出し部133は、その射影に関してその射影を左右に2分割したときに、その各分割要素において、要素内の分散が最も小さく、要素間の分散が最も大きくなるような分割点を選び、その選択した点を2文字の境界位置(分割位置)として検出する。
より具体的には、後で詳述するように、文字切り出し部133は、射影に関してその射影を2分割したときに、その各分割要素において、分割要素内の射影値の分散が最も小さく、分割要素間の射影値の分散が最も大きくなるような分割点を選び、その選択した分割点を2文字の境界位置として検出する。
また、文字切り出し部133は、分割点算出処理においては、設定される矩形領域内の文字の並び方向の各位置における所定幅の射影を2つの領域に分割し、各射影における分割領域内分散と分割領域間分散とを求め、その分散比を位置ごとに求め、分散比が最大となる位置を求める。
【0033】
なお、この文字切り出し部133における文字切り出し処理については、後でさらに詳述する。
【0034】
データ処理部13において、文字切り出し部133の文字切り出し処理が終了すると、認識対象となっている文字の外接矩形領域(上下左右の座標値)が求められる。
【0035】
特徴抽出部134は、上述した外接矩形領域を任意のサブ領域に分割、たとえば1個の外接矩形領域を5×5の領域に分割し、そのうち1個の領域をサブ領域とし、各サブ領域において、サブ領域内の全画素数に占める黒画素数の割合を求め、それらを要素とする特徴ベクトルを生成する。
【0036】
特徴比較部135は、特徴抽出部134で求められた特徴ベクトルを、あらかじめこの媒体で使用される全文字について求めておいた基準特徴ベクトルと比較して、類似度(たとえば正規化相関係数)が最も高いものをその文字が該当する候補文字に設定する。
【0037】
なお、基準特徴ベクトルは、あらかじめ特徴辞書格納部136に格納されているものであって、特徴比較が行われる際に、特徴辞書格納部136から類似度が高い文字のデータが読み出され、特徴比較部135において特徴比較が行われる。
【0038】
類似文字認識部137は、基本的に、特徴比較部135の特徴比較によって設定された候補文字を、媒体に用いられた文字として認識する。
なお、類似度が一定値を超える候補文字が複数個存在する場合には、文字認識を行うことができないので、類似文字認識部137は、特徴ベクトルから導き出せる2次的な特徴量を利用して、類似文字の判別を行う。
【0039】
たとえば、類似文字認識部137は、任意に分割したサブ領域を左側半分と右側半分との2領域の左右線対称に分けて、部分特徴ベクトルを構成してそれらの間の類似性を調べたり、同様に上半分と下半分との2領域の上下線対称に分けて、類似性を調べたりするように構成してもよい。
また、類似文字認識部137は、左右線対称や上下線対象と同様に点対称で類似性を調べるように構成してもよい。
【0040】
[文字の区切り位置の検出]
次に、本実施形態に係る文字認識装置10における特徴的な機能を有する文字切り出し部133の文字区切り位置検出部おける文字の区切り位置の検出処理(文字切り出し処理)について詳細に説明する。
【0041】
[文字切り出し部133のブロック構成]
図2は、本実施形態に係る文字切り出し部における文字区切り位置検出部の構成例を示すブロック図である。
本実施形態に係る文字切り出し部133における文字区切り位置検出部1330は、図2に示すように、領域設定部1331、射影生成部1332、および分割点算出部1333を含んで構成されている。
【0042】
領域設定部1331は、行切り出し部132で切り出された行の文字列について、認識処理対象のうち隣接する2文字を囲む矩形の暫定切り出し領域RCTを設ける。
【0043】
射影生成部1332は、領域設定部1331で設定される矩形領域RCT内において射影を生成する。具体的には、射影生成部1332は、文字が横方向すなわちX軸方向に並んでいるときはX軸への射影を生成し、文字が縦方向に並んでいるときはY軸への射影を生成する。ここでは前述したように、X軸への射影として説明を行う。
【0044】
分割点算出部1333は、X軸方向の画素位置情報およびX軸上のY方向に配列された画素値全体の平均画素値情報(各列の画素値全体の平均画素値情報)に関連付けた設定領域内の射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算する。
分割点算出部1333は、その射影に関してその射影を左右に2分割したときに、その各分割要素において、要素内の分散が最も小さく、要素間の分散が最も大きくなるような分割点を選び、その選択した点を2文字の境界位置(分割位置)として検出する。
そして、文字切り出し部133は、分割点算出部1333で求めた分散比が最大となる位置を求める。
換言すれば、分割点算出部1333は、生成された射影に関してその射影を左右に2分割したときに、各分割要素(分割領域)において分割要素(分割領域)内の射影値の分散が最も小さく、分割要素間(分割領域間)の射影値の分散が最も大きくなるような分割点を選択し、その選択した点を2文字の境界位置(分割位置)として検出する。
分割点算出部1333は、分割点算出処理においては、設定される矩形領域内の文字の並び方向の各位置における所定幅の射影を2つの領域に分割し、各射影における分割領域内分散と分割領域間分散とを求め、その分散比を位置ごとに求め、分散比が最大となる位置を求める。
【0045】
なお、本実施形態において、射影生成部1332は、領域設定部1331で設定される矩形領域RCT内において射影を生成するように構成されている。
ただし、本発明はこの構成だけではなく、たとえば文字列全体に対して射影を生成しておき、分割点算出部1333において分割点算出処理を行うときに、設定領域に対しその設定領域に対応する射影データを用いるように構成することも可能である。
【0046】
以下に、本実施形態に係る文字切り出し部の処理と、比較例(特許文献3に記載された先行技術)における文字切り出し部の処理とを対比しつつ、本実施形態の文字切り出し部の構成を採用した理由等について説明する。
その後、本実施形態に係る文字切り出し部のより具体的な処理例について説明する。
【0047】
図3は、比較例における文字切り出し部の処理フローを示すフローチャートである。
図4は、本実施形態に係る文字切り出し部における文字区切り位置検出部の処理フローを示すフローチャートである。
【0048】
上述したように、基本的に、文字切り出し部133は、文字列ラインごとに水平方向の文字の区切り位置を検出(検索)する。
ここでは、比較例の文字切り出し処理について述べた後、本実施形態に係る文字切り出し処理技術について説明する。
【0049】
[比較例の文字の区切り位置の検出]
比較例では、図3に示すように、まず、ステップST1において一つの文字列ラインについて水平軸への垂直射影を計算(生成)する。
この垂直射影計算は、より具体的には、文字列の方向にシフトさせながら、文字列の垂直方向(X軸)へ濃度投影を行い、垂直射影データを計算する。
なお、濃度投影とは、いわばヒストグラム(濃度分布図)の一種であり、2値化によって「1」または「0」の濃度に変換された画素を、濃度別に合計したものであり、白または黒のどちらを合計値として計算してもよい。
この垂直射影計算法は、本実施形態においても適用可能である。
この射影の計算では、垂直方向の画素の加算(または算術平均)を行うが、その加算範囲は、たとえば文字行切り出し部において求めた文字列ライン上限エッジを両端点とする範囲に設定する(ステップST2)。
ステップST3において、得られた射影プロフィルに対して、あらかじめ定めしておいた閾値SLEVとこの射影プロファイルのレベル値を比較し、閾値SLEVを超えている区間を文字と文字の間のスペースと判定する。
境界位置は、たとえばスペースの両端点の中点に設定する。
【0050】
ところが、比較例のように、閾値との大小関係で境界位置を求める方法では、文字がつながってしまったような場合に、境界を表すスペース部分のレベルが閾値を超えない場合があり、このとき、境界点を見落とす結果となる。
そこで、本実施形態においては、図2に示すような構成が採用されている。
【0051】
[本実施形態の文字の区切り位置の検出]
図2の文字区切り位置検出部1330では、まず、図3に示すように、ステップST11において、領域設定部1331により、認識処理対象のうち隣接する2文字を囲む矩形の暫定切り出し領域RCTが設定される。
次に、ステップST12において、射影生成部1332により、領域設定部1331で設定された矩形領域RCT内において文字が並んでいる方向の射影が生成(形成)される。
具体的には、射影生成部1332では、文字が横方向すなわちX軸方向に並んでいるときはX軸への射影が生成され、文字が縦方向に並んでいるときはY軸への射影が生成される。
そして、ステップST13において、分割点算出部1333により、X軸方向の画素位置情報およびX軸上のY方向に配列された画素値全体の平均画素値情報に関連付けた設定領域内において生成された射影に関してその射影を左右に2分割したときに、各分割要素(分割領域)において分割要素(分割領域)内の射影値の分散が最も小さく、分割要素(分割領域)間の射影値の分散が最も大きくなるような分割点が選択され、その選択した点が2文字の境界位置(分割位置)として選定される。
【0052】
この文字区切り位置検出部1330を採用したことにより、本実施形態によれば、性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく文字の境界位置を高い精度で的確に決定することが可能で、ひいては文字認識性能の向上を図ることが可能となっている。
【0053】
[本実施形態の文字切り出し処理の具体的な例]
次に、このような特徴を有する文字切り出し部133における文字区切り位置検出部1330の文字切り出し処理例について、図5から図11に関連付けてより具体的に説明する。
【0054】
図5は、本実施形態に係る文字認識対象の画像の一例を示す図である。
図6は、本実施形態に係る領域設定部により図5の画像の一部に設定される矩形領域の一例を示す図である。
図7は、本実施形態に係る射影生成部により図6の矩形領域内に形成される射影の特性曲線の一例を示す図である。
図8は、図7の射影特性曲線に矩形領域を2つに分割した場合の領域(クラス)内分散と領域(クラス)間分散の分散比特性曲線を付加した図である。
図9は、求められた文字間の分割位置(境界位置)を示す図である。
なお、図7および図8において、横軸は画像のX軸方向(水平方向)の画素位置情報(座標)を、縦軸は同じくX軸上のY方向に配列された画素値全体の平均画素値を、それぞれ表している。
【0055】
いま、文字認識を行おうとする画像IMGが図5のように与えられているとする。
図5の例では、文字「0」、「1」、「2」、「3」、「4」、「5」を含む文字列の画像が示されている。
この文字列は、一例として、記録担体20のOCR文字記録領域21に印刷された文字を撮像したときの画像データに相当している。なお、図5の数字の配列は、たとえば生年月日(01月23日1945年)等の数字のみを選択的に読み出した一例を示す。このような数字配列の他例としては、カード等の有効期限等をあげることができる。
この例では、文字の配列方向(並んでいる方向)において、隣接する文字「0」と「1」が近接し、隣接する文字「2」と「3」が近接し、隣接する文字「4」と「5」が近接している。
また、図5の例では、文字「1」と「2」間、文字「3」と「4」間は余白が多く、2文字の境界が明確となっている。
【0056】
文字認識装置10の文字切り出し部133の文字区切り位置検出部1330は、行切り出し後の文字列に対して、はじめに領域設定部1331が領域設定を行う(図4のステップST11)。
すなわち、領域設定部1331が、認識対象とする隣接2文字の全体を含むように矩形領域を設定する。ここでは、隣接文字列「4」と「5」を一例として取り上げる。
この場合、図6に示すように、文字列「45」を囲むように矩形領域RCTAが設定される。
【0057】
領域設定部1331において、矩形領域RCTAの高さHは、この文字列の位置がわかっている場合には、その情報に基づいて決める。
文字列の位置がわからない場合には、適切な方法によって文字列の垂直方向の位置を決定し、その情報に基づいて矩形領域RCTAの上辺と下辺の位置を決めればよい。
【0058】
矩形領域RCTAの幅Nは、その文字列の位置が一定の場合は、その標準的な位置情報に基づいて決める。
文字列の横方向の位置が一定でない場合は、適切な方法によって文字列の水平方向の位置を決定し、その情報に基づいて矩形領域の左辺と右辺の位置を決めればよい。
文字位置の誤差を考慮して、実際の文字の縁位置から適当な余白を設けるようにすることが望ましい。
【0059】
次に、射影生成部1332が射影生成を行う(図4のステップST12)。
射影は文字の画像をX軸方向に投影したものであり(たとえば画素値の平均をとっているものであり)、図6の「45」の部分に対して射影を求めた結果の射影PRJの特性曲線が、図7に示されている。
なお、上述したように、図7において、横軸は画像のX軸方向(水平方向)の画素位置情報(座標)を表し、縦軸は同じくX軸上のY方向に配列された画素値全体の平均画素値を表している。
この例では「4」と「5」が結合したような状態となっているため、文字の境界位置が投影上で明確な谷間となって現れないことに注意する。
【0060】
目視により、実際の境界位置は、射影RPJのY方向に配列された画素値全体の平均画素値分布において、中央付近のやや深い谷間の底(図7中に符号BTで示す、列の平均画素値が最も低い領域を含む領域、以下、谷底という)であることがわかる。
しかし、この射影パターンに基づいて、閾値による既存方式によるアプローチでこの谷底を検出しようとする場合、閾値がこの谷底BTより深い位置に設定されていると、この谷底BTを検出することができない、
したがって、適切な閾値を用いる必要があるが、谷底のレベル変動に柔軟に対応する閾値を設定することは難しい。
【0061】
これに対して、本実施形態では、前述したように、閾値を用いずに文字の境界位置を検出できることに特徴がある。
その具体的な方法(分割点算出部の処理)について説明する。
【0062】
いま、射影をp(i)で表すことにする。ここで、i=1:Nである。Nは矩形領域RCTAの幅を表し、i=1:NはiがNまで変化することを意味する。
ここで、変数t(1<t<N)を導入し、i=tにおいて射影p(i)をp1=p(1:t)とp2=p(t+1:N)の2つの要素(領域)、クラスCLS1およびクラスCLS2に分割する。
クラスCLS1内およびクラスCLS2内の平均値m1およびm2は次式で求められる。
【0063】
【数1】
【0064】
また、全体の平均値mtは次式で求められる。
【0065】
【数2】
【0066】
したがって、クラス内分散Swは次式で与えられる。
【0067】
【数3】
【0068】
また、クラス間分散Sbは次式で与えられる。
【0069】
【数4】
【0070】
そして、その分散比Rs(t)は次のように求められる。
【0071】
【数5】
【0072】
そのうえで、最大の分散比Rs(t)を与える位置パラメータtの値を求める。
すなわち、i=tの各位置における射影p(i)を2つの領域に分割し、各射影における分割領域内分散と分割領域間分散とをtの値を変えながら求め、各tにおける分散比を求め、分散比が最大となるtの値を求める。
【0073】
図8は、図7にRs(t)曲線を追加した図である。
図8において、t=30で分散比Rs(t)は最大となるので、ここが求める境界位置(境界点、分割点)BNPとなる。
実際に、この境界位置(境界点)BNPで元の画像を分割してみると、図9に示すようになり、ほぼ目視により境界点と一致していることがわかる。
【0074】
この2クラスの分散比を用いる方式は判別分析法と呼ぶことができる。
本実施形態においては、判別分析法を適用するが、一般的な判別分析法とは用いるデータの取り方が異なる。
すなわち、本実施形態の分析判別処理においては、X軸方向(水平方向、文字が並んでいる文字並び方向)の画素位置情報およびX軸上のX軸方向に直交するY方向に配列された画素値全体の平均画素値情報(各列の画素値全体の平均画素値情報)に関連付けた射影特性に関連付けられる設定領域において、次の処理を行う。
すなわち、設定領域内の射影を所定の幅で2つの領域に分割し、分割した2つの領域ごとに、各領域内分散と、2つの領域間分散と、これら各領域内分散と領域間分散との分散比を各々計算し、求めた分散比が最大となる位置を求めている。
この分散比が最大となる位置を含む領域は、射影RPJのY方向に配列された画素値全体の平均画素値分布において、列の平均画素値が最も低い領域を含む領域に対応して存在している。
【0075】
このように、本実施形態における分析判別処理では、X軸方向の画素位置情報およびX軸上のY方向に配列された画素値全体の平均画素値情報(各列の画素値全体の平均画素値情報)を用いていることから、各列ごとのように局所的な判別情報を高い精度で得ることができ、文字の境界位置を高い精度で的確に決定することが可能となる。
【0076】
なお、X軸上のY方向に配列された画素値全体の平均画素値情報(各列の画素値全体の平均画素値情報)ではなく、画像データ全体の画素値、すなわち、全画素の平均画素値を適用して判別分析を行うことも考えられる。
しかし、この場合、全画素における平均画素値であることから、各列ごとのように局所的な判別情報を高い精度で得ることは困難で、文字の境界位置を高い精度で的確に決定することには限界がある。
これに対して、上述したように、本実施形態のように、X軸方向の画素位置情報およびX軸上のY方向に配列された画素値全体の平均画素値情報(各列の画素値全体の平均画素値情報)を適用することは、煩雑な閾値処理を行うことなく、境界があいまいなもの、明確なものに限らず、文字の境界位置を高い精度で的確に決定することが可能となる。
【0077】
図10は、矩形領域内の2文字の境界が明確な場合の例を示す図である。
図11は、図10の矩形領域内に形成される射影の一例およびその射影特性曲線に矩形領域を2つに分割した場合の領域(クラス)内分散と領域(クラス)間分散の分散比特性曲線を付加した図である。
図11において、横軸は画像のX軸方向(水平方向)の画素位置情報(座標)を、縦軸は同じくX軸上のY方向に配列された画素値全体の平均画素値を、それぞれ表している。
【0078】
なお、上記した本実施形態の方式では、図10に示すように、2文字「0」と「1」の境界が明確である場合、その射影は図11に示すようになり、文字と文字の間に射影の値がゼロとなる区間が存在するが、その場合でも図に示す分散比Rs(t)の最大値を与えるtを求めることで、同様に分割点を得ることができる。
この場合、分散比Rs(t)の最大値は、図11に示すように、連続するため、平坦部分の中央点を境界位置(境界点、分割点)に選択するなどの方法を採用することが可能である。
【0079】
[文字認識装置の全体の動作]
次に、本実施形態に係る文字認識装置10の全体的な動作について図12に関連付けて説明する。
図12は、本実施形態に係る文字認識装置10の全体の動作を説明するためのフローチャートである。
【0080】
カードなどの記録担体20のOCR文字記録領域21に印刷されたOCR文字列は、媒体搬送機構の搬送ガイドに沿ってカードを動かすと1次元撮像素子11によってその文字パターンが読み取られて光電変換され(ステップST101)、画像メモリ12に取り込まれる(ステップST102)。
【0081】
次に、画像メモリ12に格納された画像に対して、必要に応じて2値化部131で2値化が行われる(ステップST103)。
より具体的には、データ処理部13においては、画像メモリ12から画像データを読み出して、その画像データが多諧調の濃淡画像である場合には、2値化部131で濃淡画像が白黒2値の画像に変換される。
【0082】
次いで、行切り出し部132において、行切り出しが行われる(ステップST104)。
より具体的には、行切り出し部132において、2値化部131で2値化された文字列が水平方向に射影されて、文字列の上下エッジが検出される。
そして、行切り出し部132においては、上下エッジの中心位置が、文字列の中心ラインと識別され行切り出しが行われる。
【0083】
次いで、文字区切り位置検出部1330を含む文字切り出し部133において、文字切り出しが行われる(ステップST105)。
より具体的には、文字切り出し部133の文字区切り位置検出部1330において、認識対象となる2文字を囲む暫定切り出し矩形領域が領域設定部1331により設定される。そして、射影生成部1332においてその矩形領域において射影が生成される。
たとえば、上述したように、射影形成に際し、文字が横方向すなわちX軸方向に並んでいるときはX軸への射影が形成される。
そして、分割点算出部1333において、X軸方向の画素位置情報およびX軸上のY方向に配列された画素値全体の平均画素値情報に関連付けた設定領域内において生成された射影に関してその射影が左右に2分割されたときに、その各分割要素(分割領域)において、要素(領域)内の分散が最も小さく、要素(領域)間の分散が最も大きくなるような分割点が選択され、その選択した点が2文字の境界位置(分割位置)として検出される。
より具体的には、分割点算出部1333において、生成された射影に関してその射影を左右に2分割されたときに、各分割要素(分割領域)において分割要素(分割領域)内の射影値の分散が最も小さく、分割要素間(分割領域間)の射影値の分散が最も大きくなるような分割点が選択され、その選択した点が2文字の境界位置(分割位置)として検出される。
【0084】
ステップST105の処理が終了すると、認識対象となっている文字の外接矩形領域(上下左右の座標値)が求められる。
【0085】
次いで、特徴抽出部134において特徴抽出が行われる(ステップST106)。
より具体的には、特徴抽出部134においては、上述した外接矩形領域が任意のサブ領域に分割(たとえば1個の外接矩形領域を5×5の領域に分割され、そのうち1個の領域がサブ領域とされる)され、各サブ領域において、サブ領域内の全画素数に占める黒画素数の割合が求められ、それらを要素とする特徴ベクトルが生成される。
【0086】
次いで、特徴比較部135において、特徴比較が行われる(ステップST107)。
より具体的には、特徴比較部135においては、ステップST106で求めた特徴ベクトルが、あらかじめこの媒体で使用される全文字について求められてあらかじめ特徴辞書格納部136に格納されている基準特徴ベクトルと比較されて、類似度(たとえば正規化相関係数)が最も高いものをその文字が該当する候補文字に設定される。
【0087】
最後に、文字認識が行われる(ステップST108)。
より具体的には、ステップST107の特徴比較によって設定された候補文字が、媒体に用いられた文字として認識される。
なお、類似度が一定値を超える候補文字が複数個存在する場合には、文字認識を行うことができないので、類似文字認識部137において、特徴ベクトルから導き出せる2次的な特徴量を利用して、類似文字の判別が行われる。
【0088】
たとえば、任意に分割したサブ領域を左側半分と右側半分との2領域の左右線対称に分けて、部分特徴ベクトルを構成してそれらの間の類似性を調べたり、同様に上半分と下半分との2領域の上下線対称に分けて、類似性を調べたりしてもよい。また、左右線対称や上下線対象と同様に点対称で類似性を調べてもよい。
【0089】
以上のように、本実施形態によれば、文字認識装置10は、認識対象となる2文字を囲む暫定切り出し矩形領域を設定し、その矩形領域において射影を生成する。文字認識装置10は、射影生成に際し、文字が横方向すなわちX軸方向に並んでいるときはX軸への射影を生成し、文字が縦方向すなわちY軸方向に並んでいるときはY軸への射影を生成する。
文字認識装置10は、X軸方向(文字が並んでいる文字並び方向)の画素位置情報およびX軸上のY方向に配列された画素値全体の平均画素値情報(各列の画素値全体の平均画素値情報)に関連付けた射影特性に関連付けられる設定領域において、次の処理を行う。
文字認識装置10は、その射影に関してその射影を左右に2分割したときに、その各分割要素において、要素内の分散が最も小さく、要素間の分散が最も大きくなるような分割点を選び、その選択した点を2文字の境界位置(分割位置)として検出する。
より具体的には、分割点算出部1333は、生成された射影に関してその射影を左右に2分割したときに、各分割要素(分割領域)において分割要素(分割領域)内の射影値の分散が最も小さく、分割要素間(分割領域間)の射影値の分散が最も大きくなるような分割点を選択し、その選択した点を2文字の境界位置(分割位置)として検出する。
【0090】
したがって、本実施形態によれば、性能を左右する閾値を設定することなく、文字境界部分の状態にかかわりなく、局所的な判別情報を高い精度で得ることができ、文字の境界位置を高い精度で的確に決定することが可能となる。
その結果、煩雑な閾値処理を行うことなく、境界があいまいなものについても境界線を設定することができる。
また、本実施形態によれば、文字の境界が明確なケースに本方式を適用しても同様の結果を得ることができる。
【0091】
また、本発明は、磁気ストライプの再生出力波形に基づくデータ復調などに適用可能である。
また、本実施形態の文字認識装置10は、カードのみならず、パスポート、運転免許証など、あらゆる媒体への適用が可能である。
【0092】
なお、以上詳細に説明した方法は、上記手順に応じたプログラムとして形成し、CPU等のコンピュータで実行するように構成することも可能である。
また、このようなプログラムは、半導体メモリ、磁気ディスク、光ディスク、フロッピー(登録商標)ディスク等の記録媒体、この記録媒体をセットしたコンピュータによりアクセスし上記プログラムを実行するように構成可能である。
【符号の説明】
【0093】
10・・・文字認識装置、11・・・撮像素子(画像読取部)、12・・・画像メモリ、13・・・データ処理部、131・・・2値化部、132・・・行切り出し部(文字列切り出し部)、133・・・文字切り出し部、1330・・・文字区切り位置検出部、1331・・・領域設定部、1332・・・射影生成部、1333・・・分割点算出部、134・・・特徴抽出部、135・・・特徴比較部、136・・・特徴辞書格納部、137・・・類似文字認識部、RCTA・・・矩形領域。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12