特許第6327963号(P6327963)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立情報通信エンジニアリングの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6327963
(24)【登録日】2018年4月27日
(45)【発行日】2018年5月23日
(54)【発明の名称】文字認識装置及び文字認識方法
(51)【国際特許分類】
   G06K 9/68 20060101AFI20180514BHJP
【FI】
   G06K9/68 A
   G06K9/68 G
【請求項の数】10
【全頁数】21
(21)【出願番号】特願2014-119039(P2014-119039)
(22)【出願日】2014年6月9日
(65)【公開番号】特開2015-232778(P2015-232778A)
(43)【公開日】2015年12月24日
【審査請求日】2017年4月17日
(73)【特許権者】
【識別番号】000233295
【氏名又は名称】株式会社日立情報通信エンジニアリング
(74)【代理人】
【識別番号】100074550
【弁理士】
【氏名又は名称】林 實
(72)【発明者】
【氏名】堤 庸昂
(72)【発明者】
【氏名】中島 和樹
【審査官】 平野 崇
(56)【参考文献】
【文献】 特開平11−184971(JP,A)
【文献】 特開平11−238099(JP,A)
【文献】 特開2014−029608(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06K 9/68
JSTPlus(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
複数領域の漢字要素から成る漢字を含む文字を文字画像として光学的にスキャンして読み取る入力部と、該入力部を用いてスキャンした文字画像を取得する画像取得部と、複数の標準文字画像を格納した文字識別用辞書及び共通の部首や旁等で漢字を分類すると共に目視により似ている類似及び同形の漢字を分類するための同形文字テーブルを格納する外部記憶部と、該文字識別用辞書及び同形文字テーブルを参照して文字画像の文字認識を制御する演算部とを備え、該演算部が、入力した文字画像を文字識別用辞書を参照して文字認識処理を実行する文字認識装置であって、
前記演算部が、
前記画像取得部がスキャンした1文字単位の文字画像を漢字要素毎に分割する分割領域を判定する分割領域判別工程と、
該分割領域判別工程により判定した文字画像の同一領域位置における漢字要素のコサイン類似度を算出するコサイン類似度計算工程と、
前記分割領域判別工程により判定した文字画像の同一領域位置における漢字要素のユークリッド距離値を算出するユークリッド距離値算出工程と、
前記分割領域判別工程により判定した分割領域に基づく漢字構成が同一であり、且つ前記コサイン類似度計算工程により算出したコサイン類似度による同一領域位置の漢字要素間の類似度が所定値より高い文字画像と前記ユークリッド距離値算出工程により算出した漢字要素間のユークリッド距離値が所定値より小さい文字画像とを類似度の高い同形文字としてグループ分けした同形文字テーブルに格納する同形文字テーブル作成工程と、
前記コサイン類似度計算工程により算出したコサイン類似度が所定のコサイン類似度より大きい文字画像と、前記ユークリッド距離値算出工程により算出したユークリッド距離値が所定値より小さい文字画像と、前記同形文字テーブル作成工程により同一領域位置の類似度が高い文字画像をグループ分けした同形文字の文字画像との論理和の文字画像を候補文字として文字認識を行う標準文字認識工程とを実行することを特徴とする文字認識装置。
【請求項2】
前記演算部が、標準文字認識工程による論理和より得た文字画像から、前記分割領域判別工程により分割した複数の分割領域の構成が異なる異種候補文字と該異種候補文字が属するグループに含まれる文字画像を除外した候補文字に基づいて文字認識を行う高精細文字認識工程とを実行することを特徴とする請求項1記載の文字認識装置。
【請求項3】
前記演算部が、前記ユークリッド距離値算出工程により算出したユークリッド距離値が所定値より小さい文字画像を候補文字として文字認識を行う高速文字認識工程を実行することを特徴とする請求項1又は2記載の文字認識装置。
【請求項4】
前記演算部が、前記同形文字テーブル作成工程において、前記分割領域判別工程により判定した分割領域に基づく漢字構成が同一な文字画像を大グループとして分ける大グループ分け工程と、該大グループ分け工程によりグループ分けした大グルーブ内における特定の領域位置の漢字要素のコサイン類似度が所定値より高く且つ字画像とユークリッド距離値が所定値より小さい文字画像を小グループとして分ける小グループ分け工程とを含み、
該大グループ分け及び小グループ分けした漢字画像を同形文字テーブルに格納することを特徴とする請求項1から3何れかに記載の文字認識装置。
【請求項5】
前記演算部が、前記標準文字認識工程と高精度文字認識工程と高速文字認識工程とを切り替える、または調整する機能を備えることを特徴とする請求項3又は4記載の文字認識装置。
【請求項6】
複数領域の漢字要素から成る漢字を含む文字を文字画像として光学的にスキャンして読み取る入力部と、該入力部を用いてスキャンした文字画像を取得する画像取得部と、複数の標準文字画像を格納した文字識別用辞書及び共通の部首や旁等で漢字を分類すると共に目視により似ている類似及び同形の漢字を分類するための同形文字テーブルを格納する外部記憶部と、該文字識別用辞書及び同形文字テーブルを参照して文字画像の文字認識を制御する演算部とを備えて文字を認識する文字認識装置の文字認識方法であって、
該演算部に、
前記画像取得部がスキャンした1文字単位の文字画像を漢字要素毎に分割する分割領域を判定する分割領域判別工程と、
該分割領域判別工程により判定した文字画像の同一領域位置における漢字要素のコサイン類似度を算出するコサイン類似度計算工程と、
前記分割領域判別工程により判定した文字画像の同一領域位置における漢字要素のユークリッド距離値を算出するユークリッド距離値算出工程と、
前記分割領域判別工程により判定した分割領域に基づく漢字構成が同一であり、且つ前記コサイン類似度計算工程により算出したコサイン類似度による同一領域位置の漢字要素間の類似度が所定値より高い文字画像と前記ユークリッド距離値算出工程により算出した漢字要素間のユークリッド距離値が所定値より小さい文字画像とを類似度の高い同形文字としてグループ分けした同形文字テーブルに格納する同形文字テーブル作成工程と、
前記コサイン類似度計算工程により算出したコサイン類似度が所定のコサイン類似度より大きい文字画像と、前記ユークリッド距離値算出工程により算出したユークリッド距離値が所定値より小さい文字画像と、前記同形文字テーブル作成工程により同一領域位置の類似度が高い文字画像をグループ分けした同形文字の文字画像との論理和の文字画像を候補文字として文字認識を行う標準文字認識工程とを実行させることを特徴とする文字認識方法。
【請求項7】
前記演算部に、標準文字認識工程による論理和より得た文字画像から、前記分割領域判別工程により分割した複数の分割領域の構成が異なる異種候補文字と該異種候補文字が属するグループに含まれる文字画像を除外した候補文字に基づいて文字認識を行う高精細文字認識工程とを実行させることを特徴とする請求項6記載の文字認識方法。
【請求項8】
前記演算部に、前記ユークリッド距離値算出工程により算出したユークリッド距離値が所定値より小さい文字画像を候補文字として文字認識を行う高速文字認識工程を実行させることを特徴とする請求項6又は7記載の文字認識方法。
【請求項9】
前記演算部に、前記同形文字テーブル作成工程において、前記分割領域判別工程により判定した分割領域に基づく漢字構成が同一な文字画像を大グループとして分ける大グループ分け工程と、該大グループ分け工程によりグループ分けした大グルーブ内における特定の領域位置の漢字要素のコサイン類似度が所定値より高く且つ字画像とユークリッド距離値が所定値より小さい文字画像を小グループとして分ける小グループ分け工程とを含ませ、該大グループ分け及び小グループ分けした漢字画像を同形文字テーブルに格納させることを特徴とする請求項6から8何れかに記載の文字認識方法。
【請求項10】
前記演算部に、前記標準文字認識工程と高精度文字認識工程と高速文字認識工程とを切り替える、または調整する機能を備えさせることを特徴とする請求項8又は9記載の文字認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、帳票等に記入された手書き文字を高精度に認識することができる文字認識装置及び文字認識方法に係り、特に、中国の簡体文字や台湾の繁体文字で記入された漢字文字を高精度且つ高速に認識することができる文字認識装置及び文字認識方法に関する。
【背景技術】
【0002】
帳票等に記載された手書き漢字を光学的に読み取って文字認識を行う文字認識装置は、1文字毎に切り出した文字図形の特徴を抽出し、漢字構造が、漢字の左側に位置する偏(へん)と、漢字構造の右側に位置する旁(つくり)と、漢字構造の上側に位置する冠(かんむり)と、漢字構造の下側に位置する脚(あし)と、漢字構造全体を包むように位置する構(かまえ)と、漢字の上側から下側に垂れ下がるように位置する垂(たれ)と、漢字構造の左側から下側に沿うように位置する繞(にょう)との複数領域に配置された漢字要素の組み合わせにより構成させるため、各領域を分割するための分割領域を判別すると共に文字画像の特徴量をユークリッド距離値を用いて抽出し、文字認識を行うように構成されている。
【0003】
この従来技術による文字認識処理は、文字認識装置のコンピュータが、図18に示す如く、文字画像の特徴を抽出するステップS1801と、該ステップS1801により抽出した特徴量に基づいて文字画像が漢字か非漢字かを判定するステップS1802と、該ステップS1802により判定した文字画像のユークリッド距離値を計算するステップS1804と、漢字の文字画像の部首等の分割領域を判別するステップS1803と、ステップS1803により領域判定した文字画像のn分割した領域毎のコサイン類似度を算出するステップS1805と、該ステップS1805により算出した類似度及び同形文字テーブルとを比較して同形文字及び類似文字候補を選択するステップS1806と、前記ステップS1804により算出したユークリッド距離及びステップS1806により選択した同形文字及び類似文字候補に基づいて認識候補の文字を判定するステップS1807と、該ステップS1807により判定した文字候補の判定結果を出力するステップS1808とを実行することによって、文字認識を行うように構成されている。また、前記同形文字テーブルは、共通の部首や旁(つくり)等で漢字を分類すると共に人間の目視により似ている字形で漢字を分類したものである。
【0004】
前記ステップS1807により候補判定は、(1)ステップS1802による漢字・非漢字結果から候補を選択する条件と、(2)ステップS1804によるユークリッド距離値が小さい候補を選択する条件と、(3)ステップS1805によるコサイン類似度が高い候補を選択する条件と、(4)一部の分割領域でコサイン類似度が高い候補を選択する条件と、(5)コサイン類似度が大きい字種が属する同形文字分類テーブルを選択する条件とを用いて認識文字候補の判定を行っており、前記ユーリッド距離値及びコサイン類似度は、図22に示す数式により算出している。
【0005】
すなわち、従来の文字認識処理は、文字画像のユーリッド距離値とコサイン類似度と領域分割と同形文字テーブル比較との各種技術を組み合わせによって、認識文字候補を決定するように構成されている。
【0006】
なお、従来技術による文字認識技術が記載された文献としては、下記の特許文献1が挙げられ、この特許文献1には、入力部により入力した文字画像から特徴量抽出部が文字画像の特徴量を抽出し、マッチング部が擬似ベイズ識別関数を用いて辞書との相違度を計算する際に文字画像によって擬似ベイズ識別関数の計算する主成分数(擬似ベイズ識別関数式のk)を調整しながら辞書との相違度を計算することによって、文字認識精度の向上への寄与が不安定な主成分補正項の計算を低減することによって、文字認識に不要な小さい特徴分は削除し、特徴不足成分を補完する技術が記載され、前述の部首を分割して文字認識を行う技術が記載された文献としては、下記の特許文献2が挙げられ、この特許文献2には、領域統合部が入力された手書き文字の各ストロークの座標系列をもとに当該ストロークが文字枠内の分割領域をまたがっているか否かを判定し、またがっている場合には該当する分割領域を統合し、部首切り出し部が統合された分割領域に基づいて上記手書き文字を部首単位に切り出し、この切り出された各部首に対して部首認識部が部首認識辞書を参照して認識処理を行い、文字構成部が部首認識処理の結果と文字構成辞書をもとに手書き文字の認識結果を取得することによって、部首切り出しが容易に行って認識精度を向上する技術が記載され、文字認識にユークリッド距離を用いる技術が記載された文献としては下記の特許文献3が挙げられ、この特許文献3には、文字画像部分を所定寸法の矩形画像に正規化する正規化手段と、該正規化手段にて正規化された矩形画像を分割して得た分割画像それぞれのHOG(Histograms of Oriented Gradient)特徴量を算出する特徴量算出手段と、HOG特徴量空間における各分割画像のHOG特徴量を結合した画像部分のHOG特徴量と各所定文字画像のHOG特徴量とのユークリッド距離を算出する距離算出手段と、該距離算出手段にて算出された距離を比較する比較手段と、比較手段の比較結果に基づいて前記文字画像部分に含まれ得る文字を認識する文字認識手段とを設ける技術が記載されている。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2000−215272号公報
【特許文献2】特開平11−184971号公報
【特許文献3】特開2014−29608号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
前記の従来技術による文字認識技術は、認識対象となる文字画像から多くの特徴量を抽出し正解となるクラス(例えば、「あ」「亜」等)を推定するため、漢字では数千クラスとなって高精度認識を行う際には処理時間が冗長となり、特に近年においては、日本語の漢字のみならず中国における簡体文字や台湾における繁体文字の文字認識のニーズがあり、認識対象の漢字種が増加するため、更に処理時間が冗長になるという課題を招くものであった。
【0009】
また、文字認識装置は、比較的低精度であっても大量帳票の高速に文字認識を行う顧客ニーズと、処理時間が長くなっても大量帳票を高精度に文字認識を行う顧客ニーズとがあるが、従来技術による文字認識装置は、顧客ニーズによって処理速度と認識精度とを調整することが困難であるという課題があった。
【0010】
さらに、前記した特許文献1記載の技術は、文字認識に不要な小さい特徴分は削除し、特徴不足成分を補完することによって、高速且つ高精度を実現しようとするものであるが、高精度化には前記した閾値の設定によって限界が有り、一定数の誤識別を許容してしまうという課題があり、他の特許文献に記載の技術は、高速処理が困難であるいう課題があった。
【0011】
本発明の第1の目的は、前述の従来技術による課題しようとするものであり、高速高精度な漢字文字の認識を行うことができる文字認識装置及び文字認識方法を提供することであり、第2の目的は、顧客ニーズに応じて速度と認識精度を調整することができる文字認識装置及び文字認識方法を提供することである。
【課題を解決するための手段】
【0012】
前記の目的を達成するために請求項1記載の発明は、複数領域の漢字要素から成る漢字を含む文字を文字画像として光学的にスキャンして読み取る入力部と、該入力部を用いてスキャンした文字画像を取得する画像取得部と、複数の標準文字画像を格納した文字識別用辞書及び共通の部首や旁等で漢字を分類すると共に目視により似ている類似及び同形の漢字を分類するための同形文字テーブルを格納する外部記憶部と、該文字識別用辞書及び同形文字テーブルを参照して文字画像の文字認識を制御する演算部とを備え、該演算部が、入力した文字画像を文字識別用辞書を参照して文字認識処理を実行する文字認識装置であって、
前記演算部が、
前記画像取得部がスキャンした1文字単位の文字画像を漢字要素毎に分割する分割領域を判定する分割領域判別工程と、
該分割領域判別工程により判定した文字画像の同一領域位置における漢字要素のコサイン類似度を算出するコサイン類似度計算工程と、
前記分割領域判別工程により判定した文字画像の同一領域位置における漢字要素のユークリッド距離値を算出するユークリッド距離値算出工程と、
前記分割領域判別工程により判定した分割領域に基づく漢字構成が同一であり、且つ前記コサイン類似度計算工程により算出したコサイン類似度による同一領域位置の漢字要素間の類似度が所定値より高い文字画像と前記ユークリッド距離値算出工程により算出した漢字要素間のユークリッド距離値が所定値より小さい文字画像とを類似度の高い同形文字としてグループ分けした同形文字テーブルに格納する同形文字テーブル作成工程と、
前記コサイン類似度計算工程により算出したコサイン類似度が所定のコサイン類似度より大きい文字画像と、前記ユークリッド距離値算出工程により算出したユークリッド距離値が所定値より小さい文字画像と、前記同形文字テーブル作成工程により同一領域位置の類似度が高い文字画像をグループ分けした同形文字の文字画像との論理和の文字画像を候補文字として文字認識を行う標準文字認識工程とを実行することを第の特徴とする。
【0013】
請求項2記載の発明は、第1の特徴の文字認識装置において、前記演算部が、標準文字認識工程による論理和より得た文字画像から、前記分割領域判別工程により分割した複数の分割領域の構成が異なる異種候補文字と該異種候補文字が属するグループに含まれる文字画像を除外した候補文字に基づいて文字認識を行う高精細文字認識工程とを実行することを第2の特徴とする。
【0014】
請求項3記載の発明は、第1又は第2の特徴の文字認識装置において、前記演算部が、前記ユークリッド距離値算出工程により算出したユークリッド距離値が所定値より小さい文字画像を候補文字として文字認識を行う高速文字認識工程を実行することを第3の特徴とする。
【0015】
請求項4に記載の発明は、第1から第3何れかの特徴の文字認識装置において、前記演算部が、前記同形文字テーブル作成工程において、前記分割領域判別工程により判定した分割領域に基づく漢字構成が同一な文字画像を大グループとして分ける大グループ分け工程と、該大グループ分け工程によりグループ分けした大グルーブ内における特定の領域位置の漢字要素のコサイン類似度が所定値より高く且つ字画像とユークリッド距離値が所定値より小さい文字画像を小グループとして分ける小グループ分け工程とを含み、該大グループ分け及び小グループ分けした漢字画像を同形文字テーブルに格納することを第4の特徴とし、請求項5に記載の発明は、第3又は第4の特徴の文字認識装置において、前記演算部が、前記標準文字認識工程と高精度文字認識工程と高速文字認識工程とを切り替える、または調整する機能を備えることを第5の特徴とする。
【0016】
また、請求項6記載の発明は、複数領域の漢字要素から成る漢字を含む文字を文字画像として光学的にスキャンして読み取る入力部と、該入力部を用いてスキャンした文字画像を取得する画像取得部と、複数の標準文字画像を格納した文字識別用辞書及び共通の部首や旁等で漢字を分類すると共に目視により似ている類似及び同形の漢字を分類するための同形文字テーブルを格納する外部記憶部と、該文字識別用辞書及び同形文字テーブルを参照して文字画像の文字認識を制御する演算部とを備えて文字を認識する文字認識装置の文字認識方法であって、
該演算部に、
前記画像取得部がスキャンした1文字単位の文字画像を漢字要素毎に分割する分割領域を判定する分割領域判別工程と、
該分割領域判別工程により判定した文字画像の同一領域位置における漢字要素のコサイン類似度を算出するコサイン類似度計算工程と、
前記分割領域判別工程により判定した文字画像の同一領域位置における漢字要素のユークリッド距離値を算出するユークリッド距離値算出工程と、
前記分割領域判別工程により判定した分割領域に基づく漢字構成が同一であり、且つ前記コサイン類似度計算工程により算出したコサイン類似度による同一領域位置の漢字要素間の類似度が所定値より高い文字画像と前記ユークリッド距離値算出工程により算出した漢字要素間のユークリッド距離値が所定値より小さい文字画像とを類似度の高い同形文字としてグループ分けした同形文字テーブルに格納する同形文字テーブル作成工程と、
前記コサイン類似度計算工程により算出したコサイン類似度が所定のコサイン類似度より大きい文字画像と、前記ユークリッド距離値算出工程により算出したユークリッド距離値が所定値より小さい文字画像と、前記同形文字テーブル作成工程により同一領域位置の類似度が高い文字画像をグループ分けした同形文字の文字画像との論理和の文字画像を候補文字として文字認識を行う標準文字認識工程とを実行させることを第6の特徴とする。
【0017】
請求項7に記載の発明は、第6の特徴の文字認識方法において、前記演算部に、標準文字認識工程による論理和より得た文字画像から、前記分割領域判別工程により分割した複数の分割領域の構成が異なる異種候補文字と該異種候補文字が属するグループに含まれる文字画像を除外した候補文字に基づいて文字認識を行う高精細文字認識工程とを実行させることを第7の特徴とする。
【0018】
請求項8記載の発明は、前記演算部に、前記ユークリッド距離値算出工程により算出したユークリッド距離値が所定値より小さい文字画像を候補文字として文字認識を行う高速文字認識工程を実行させることを第8の特徴とする。
【0019】
請求項9に記載の発明は、第6から第8何れかの特徴の文字認識方法において、前記演算部に、前記同形文字テーブル作成工程において、前記分割領域判別工程により判定した分割領域に基づく漢字構成が同一な文字画像を大グループとして分ける大グループ分け工程と、該大グループ分け工程によりグループ分けした大グルーブ内における特定の領域位置の漢字要素のコサイン類似度が所定値より高く且つ字画像とユークリッド距離値が所定値より小さい文字画像を小グループとして分ける小グループ分け工程とを含ませ、該大グループ分け及び小グループ分けした漢字画像を同形文字テーブルに格納させることを第9の特徴とし、第8又は第9何れかの特徴の文字認識方法において、前記演算部に、前記標準文字認識工程と高精度文字認識工程と高速文字認識工程とを切り替える、または調整する機能を備えさせることを第10の特徴とする。
【発明の効果】
【0020】
本発明による文字認識装置及び文字認識方法は、演算部が、複数領域の漢字要素から成る漢字を領域毎に分割した漢字構成が同一であり、コサイン類似度による同一領域位置の漢字要素間の類似度が所定値より高い文字画像とユークリッド距離値算出工程により算出した漢字要素間のユークリッド距離値が所定値より小さい文字画像とを類似度の高い同形文字としてグループ分けした同形文字テーブルを文字識別用辞書165に格納し、該同形文字テーブルに格納した候補文字を参照して文字認識を行うことによって、高精度且つ高速に簡体文字及び繁体文字を含む漢字を認識することができる。
【図面の簡単な説明】
【0021】
図1】本発明の実施形態による文字認識装置の基本構成を示す図。
図2】本実施形態による文字認識処理の概要を示す図。
図3】本実施形態による高速モードでの認識出力候補決定処理を示す図。
図4A】本実施形態による標準モードでの認識出力候補決定処理を示す図。
図4B】本実施形態による標準モードでの同形文字テーブル及び文字選択処理を示す図。
図5A】本実施形態による高精度モードでの認識出力候補決定処理を示す図。
図5B】本実施形態による高精度モードでの文字選択処理を示す図。
図6】本実施形態による同形文字・類字文字選択処理動作を示す図。
図7】本実施形態による分割領域判定処理動作を示す図。
図8】本実施形態による分割領域判定処理動作を示す図。
図9】本実施形態による同形文字テーブルの作成処理動作を示す図。
図10】本実施形態による分割領域判定処理動作を示すフロー図。
図11】本実施形態による分割領域判定処理における分割位置候補算出工程を説明する図。
図12】本実施形態による大グループ分類テーブル作成処理動作を示す図。
図13】本実施形態による類似領域判定処理動作を示すフロー図。
図14】本実施形態による領域別類似算出時のテーブルを示す図。
図15】本実施形態による小グループ分類テーブル作成処理動作を示す図。
図16】本実施形態による同形文字テーブルを説明する図。
図17】本実施形態による類似度を算出する数式を説明する図。
図18】従来技術による出力候補決定処理動作を示す図。
図19】ユークリッド距離による計算範囲を説明する図。
図20】ユークリッド距離及びコサイン類似度による判定手法を説明する図。
図21】文字認識に要する処理時間と認識精度の関係を示す図。
図22】ユークリッド距離値とマハラビノス距離値による類似度とコサイン類似度の数式を示す図。
図23】従来技術による文字認識処理の概要を示す図。
図24】本実施形態による認識モードを切り替える、または調整する操作画面を示す図。
【発明を実施するための形態】
【0022】
以下、本発明による文字認識方法を用いた文字認識装置の一実施形態を詳細に説明する。
[構成]
本実施形態による文字認識装置は、図1に示す如く、帳票等に記入された文字を光学的に読み取るスキャナ等の入力部110と、該入力部110を用いてスキャンした文字画像を取得する画像取得部130と、複数の標準文字画像を格納した文字識別用辞書及び共通の部首や旁等で漢字を分類すると共に目視により似ている類似及び同形の漢字を分類するための同形文字テーブルを含む文字識別用辞書165格納する外部記憶部160と、該外部記憶部160に格納した文字識別用辞書165及び同形文字テーブルを参照して文字画像の文字認識を制御する演算部150と、該演算部150が識別した文字や読み取り不能文字その他を表示する表示部120と、文字認識結果のデータを外部に送信するための通信部140とを備え、前記演算部150が、該外部記憶部160に格納した文字画像を文字識別用辞書165を参照して文字認識処理を実行するように構成されている。
【0023】
本実施形態による演算部150は、表示部120を用いた操作者からの指示によって、認識速度と認識精度のバランスを考慮した標準(デフォルト)モードと、標準モードに比べて認識精度は低下するものの認識処理が高速な高速モードと、標準モードに比べて認識速度は低下するものの認識精度が高い高精度モードとの3種のモード設定が可能であり、また、細かく認識速度と認識精度の調整が可能なように構成されている。
この3種のモード設定と認識速度及び認識精度の調整を行う表示部120に表示する認識モード設定ウィンドウ画面は、図24(a)に示す如く、高精度・標準・高速の3種モードの切り替えを指定するラジオボタン990と、0から100の範囲の数値入力により精度を任意に指定するための任意指定ボタン991と、マウス等を用いた左右移動により精度を0から100の範囲で調整するためのスライダバー992とが表示され、業務にあわせて例えば、ラジオボタン990の高速ボタンをクリックしたとき、図24(b)に示す如く表示され、任意指定ボタン991をクリックして数値35を入力したとき、図24(c)の如く表示される。
【0024】
また、本実施形態の文字認識技術が読み取り対象とする文字は、英数字・記号の他に日本語漢字・中国語漢字(簡体文字)・台湾語漢字(繁体文字)を含み、これらの漢字が、左側に位置する偏(へん)と、右側に位置する旁(つくり)と、上側に位置する冠(かんむり)と、下側に位置する脚(あし)と、全体を包むように位置する構(かまえ)と、上側から下側に垂れ下がるように位置する垂(たれ)と、左側から下側に沿うように位置する繞(にょう)等の配置が予め定められた複数の領域とから構成され、本出願においては、「偏」や「旁」等の領域を分割領域といい、分割領域内の部分的な漢字画像を漢字要素といい、「偏」や「旁」等の配置位置を領域位置といい、分割領域の領域位置が同一な漢字の構成(例えば、「峰」「蜂」の如く縦方向に2分割される漢字構成、「瀬」「辯」の如く縦方向に3分割される漢字構成、「昌」の如く上下に2分割される漢字構成等)を漢字構成という。
【0025】
[全体動作]
本実施形態による文字認識装置100の演算部150による文字認識処理の概略は、図2に示す如く、演算部の制御によって、帳票等に記入された文字を光学的にスキャンして入力するステップS201と、該ステップS201により入力した文字画像の特徴量を抽出するステップS202と、操作者の操作によって選択された認識モード(高速・標準・高精度モード)を入力するステップS203と、前記ステップS201にて入力した文字画像に基づいて読み取り対象文字画像をグループ分けする同形文字テーブルを作成して文字識別用辞書165に格納するステップS205と、前記ステップS201により入力した文字画像の特徴量及びステップS203により選択された認識モードとを入力とし、文字識別用辞書165を参照して認識文字の出力候補を決定するステップS204と、該ステップS204により決定した認識文字の出力候補に対してユークリッド距離及びマハラビノス距離の数式に基づいた類似度dc(x)を算出して文字識別を行うステップS206と、該ステップS206により算出した類似度dc(x)の小さい順に候補文字を出力するステップS207とを実行することによって、文字識別を行うように動作する。
前述のステップS204による認識文字の出力候補を決定する処理は、高速モードと標準モードと高精度モードとによって処理手法が異なり、次に各処理内容を説明する。
【0026】
[標準モードの出力候補決定処理]
この標準モードの出力候補決定処理のステップS204は、図4Aに示す如く、候補数を絞り込むために文字画像が漢字か非漢字(数字・英字・記号・仮名文字他)かを判定するステップS402と、該ステップS402に続いてユークリッド距離値の大きい字種を候補から除いて絞り込むためユークリッド距離値を算出するステップS403と、該ステップS402に続いてコサイン類似度が小さい(−1に近い)字種(候補文字)を候補から除外するために文字画像を予め定めたNXN分割した領域毎にコサイン類似度を算出するステップS404と、該ステップS404に続いてコサイン類似度が所定値に比して比較的大きい字種が属しているグループを同形文字テーブルから選択するステップS405と、前記ステップS403によるユークリッド距離値の大きい認識候補を除外した候補文字及びステップS405により規定値(NXN)による分割領域毎に判定したコサイン類似度が小さい字種(候補文字)を除いた候補文字に基づいて、(1)漢字・非漢字判定部の結果から候補を選択する条件と、(2)ユークリッド距離値が小さい候補を選択する条件と、(3)コサイン類似度が大きい候補を選択する条件と、(4)コサイン類似度が大きい字種が属するグループを同形文字分類テーブルから選択する条件との論理和によって、認識文字候補を決定するステップS406とを実行することによって、ユークリッド距離値とコサイン距離値をファクターとした文字画像を出力候補として出力するように動作する。
【0027】
また、前記ステップS405による同形文字・類字文字候補選択処理は、コサイン類似度の大きい字種が属しているグループを図4Bに示す同形文字分類テーブルから選択し、この選択したグルーブに属している字種は認識候補に追加するように動作し、詳細は後述する。なお、図4他の同形文字テーブルの丸中数字は電子出願ソフトウェアにおいては外字となるため、本明細書においては丸括弧数字にて表記する。
【0028】
[高速モードの出力候補決定処理]
前記高速モードの出力候補決定処理のステップS204は、図3に示す如く、候補数を絞り込むために文字画像が漢字か非漢字(数字・英字・記号・仮名文字他)かを判定するステップS321と、該ステップS321に続いてユークリッド距離値の大きい字種を候補から除いて絞り込むためユークリッド距離値を算出するステップS322と、該ステップS322によりユークリッド距離値の大きい字種を候補から除いた認識候補文字を、(1)漢字・非漢字を判定するステップS321の判定結果に応じて候補文字を漢字又は非漢字に選択する条件と(2)ユークリッド距離値が所定の閾値より小さい値の候補文字を選択する条件の論理和によって、認識文字候補を決定するステップS323とを実行することによって、コサイン類似度による判定を除いているため、標準モードによる判定に比べて精度は低下するものの高速な候補文字を出力候補として出力するように動作する。
【0029】
[高精度モードの出力候補決定処理]
前記高精度モードの出力候補決定処理のステップS204は、図5Aに示す如く、候補数を絞り込むために文字画像が漢字か非漢字(数字・英字・記号・仮名文字他)かを判定するステップS502と、該ステップS502に続いてユークリッド距離値の大きい字種を候補から除いて絞り込むためユークリッド距離値を算出するステップS504と、該ステップS502に続いて文字画像の分割領域を判定するステップS503と、該ステップS503に続いてコサイン類似度が小さい(−1に近い)字種(候補文字)を候補から除外するために文字画像を前記ステップS503により分割した領域毎にコサイン類似度を算出するステップS505と、該ステップS506に続いてコサイン類似度が比較的大きい字種が属しているグループを同形文字分類テーブルから選択するステップS506と、前記ステップS507によるユークリッド距離値の大きい認識候補を除外した候補文字及びステップS506により領域毎のコサイン類似度が小さい字種(候補文字)を除いた候補文字に基づいて、(1)漢字・非漢字判定部の結果から候補を選択する条件と、図5Bに示す(2)ユークリッド距離値が小さい候補を選択する条件と、(3)コサイン類似度が大きい候補を選択する条件と、(4)コサイン類似度が大きい字種が属するグループを同形文字分類テーブルから選択する条件の論理和から(5)分割領域判定処理によりで求めた基本的構成に合わない字種(異種候補文字)とその字種が属するグループの字種を候補から外す否定論理和とを実行することによって、ユークリッド距離値と文字画像を漢字の部首等の分割領域毎のコサイン距離値をファクターとして、文字画像を出力候補として出力するように動作することによって、ユークリッド距離値に加えて漢字構成に基づいて分割した分割領域毎のコサイン類似度による判定を行うため、標準モードによる判定に比べて認識速度は低下するものの高精度な候補文字を出力候補として出力するように動作する。
【0030】
[同形文字・類字文字候補選択処理]
前記ステップS405による同形文字・類字文字候補選択処理の詳細は、図6に示す如く、正解文字が「凋」であり、手書き文字が図示の如く偏(へん)「にすい」と旁(つくり)「周」が接触している場合、分割領域判別処理により入力パタン(文字画像)の部首の型と位置を求めることにより偏(へん)と旁(つくり)の縦2分割の分割要素で構成されている漢字構成と判定するステップS601と、該ステップS601により分割した分割領域毎にコサイン類似度・ユークリッド値類似度を求め、類似度の小さい順に図示の左から順に一位候補、二位候補、三位候補と仮定するステップS601と、該ステップS601により仮定した一位候補文字が属する同形文字テーブル(3)と同じ領域位置の旁(つくり)が同一の文字「凋」が属する同形文字テーブル(2)の字種を候補に追加すると共に同形文字テーブル(1)及び(5)の字種を候補に追加するステップS603と、三位文字は類似度が高いものの偏(へん)と旁(つくり)で構成されていないため(漢字構成が異なるため)候補から除外するステップS604とを実行することによって、コサイン類似度・ユークリッド値類似度の大きい字種が属しているグループを同形文字分類テーブルから選択し、この選択したグルーブに属している字種は認識候補に追加するように動作する。
【0031】
[分割領域判別処理1]
前述した高精度モードの出力候補決定処理におけるステップS503の文字画像の分割領域判定処理の詳細は、図7に示す如く、前記同様に正解文字が「凋」であり、手書き文字が図示の如く偏(へん)「にすい」と旁(つくり)「周」が接触している縦2分割の漢字構成の場合、入力パタン(文字画像)の文字成分の心線を抽出したA心線パタンと、文字垂直方向成分を抽出したB垂直方向の文字線分パタンと、文字水平方向成分を抽出したC水平直方向の文字線分パタンと、文字画像の外接線を抽出したD線分接近似パタンとを生成するステップS701と、生成したパタンABCから水平方向と垂直方向のヒストグラムを求めるステップS702と、該ステップS702により求めた6つの垂直及び水平ヒストグラム及びパタンDの分割位置を求めるステップS703とを実行することによって、漢字文字の領域分割位置を判定する。
【0032】
前記ステップS703の分割位置を求める処理は、図示例の文字図形の場合、垂直ヒストグラムA−1及びB−1中のピーク(山)が2つあるため、2つのピーク間の谷位置を分割位置候補a及びbとし、E線分外接近似パタンによる分割位置候補c及びdとし、水平ヒストグラムA−2、B−2、C−2、ヒストグラムC−1は山と谷の差が小さいこと、山が1つであることにより分割位置候補から除外し、これらを総合して分割位置を決定することによって行われる。
【0033】
[分割領域判別処理2]
ステップS503による分割領域判定処理は、前記処理に限られるものではなく、入力パタン(文字画像)の文字成分の心線を抽出したA心線パタンと、文字垂直方向成分を抽出したB垂直方向の文字線分パタンと、文字画像の外接線を抽出したD線分接近似パタンとを生成し、これら生成したパタンAの水平方向のヒストグラムA−1及びパタンBの水平方向のヒストグラムB−1から分割位置候補a及びbを抽出し、外接近似パタンDから分割位置候補a及びbを抽出して求めた分割領域の基本的構成が似ているパタンを同形文字テーブルから選択して追加しても良い。
【0034】
この手法は、例えば図8に示す如く、分割位置a〜dにより分割領域が左右に分かれる構成であると判定し、漢字要素が縦2列に分割された漢字構成である同形文字テーブル(2)及び(3)を抽出し、該同形文字テーブル(2)及び(3)の字種を候補として追加し、漢字構成が上下・囲い等の如く大きく異なる同形文字テーブル(4)以降から除外することによって行われる。
【0035】
[分割位置候補判定の具体的説明]
前述の図7を用いて説明した水平ヒストグラムA−1から分割位置候補を判定する具体的手法は、図11(a)に示す水平ヒストグラムの場合、当該水平ヒストグラムの上閾値αより高い山(画素数が多い位置)を山a・山b・山c・山dとして設定する第1工程と、該第1工程により設定した複数の山のうち、隣り合う山の間で下閾値βよりも最も低い位置を谷aとして設定する第2工程と、他の山間で下閾値βよりも低い位置を谷bとして設定する第3工程と、該第2工程及び第3工程により設定した谷位置から1つを選択する第4工程と、該第4工程により選択した谷が分解位置として妥当か否かを、図11(c)に示す谷の最小座標をY、該座標Yを中心としてX−1離れた位置の座標をYx−1、該座標Yを中心としてx+1離れた位置の座標をYx+1としたとき、「Y<Yx−1且つY<Yx+1」の数式条件を満たしているか否かによって判定する第5工程と、該第5工程により谷aを分割候補と判定したとき、該谷aを分割候補として設定する第6工程とを繰り返すことによって、分割位置候補を判定する。なお、前記第1工程における山であるかの判定し、図11(b)に示した「Yx−1<Y且つYx+1<Y」の数式条件により判定する。
【0036】
[同形文字テーブル作成処理]
前記同形文字テーブルを作成するステップS205の概略処理は、図9に示す如く、漢字構成が似ているパタン毎に文字画像を大きなグループ(分割無し、縦方向に分割する分割領域、横方向に分割する分割領域、複数+字形に分割する分割領域他の分割形状)分けを行うステップS901と、該ステップS901により大分類したグループ内においてユークリッド距離値の小さい字種同士やコサイン類似度の大きい字種同士で小グループ分けするステップS902と、前記ステップS901で領域構造により大グループ分けした情報とステップS902でユークリッド距離値及びコサイン類似度により小グループ分けした情報を同形文字テーブルに格納するステップS903とを実行することによって、同形文字テーブルを作成するように動作する。このステップS902により小グループ分けは、例えば左右に縦分割される漢字構成の場合、例えば、左側の偏(へん)の漢字要素の類似度が高い漢字画像と、右側の旁(つくり)の漢字要素の類似度が高い漢字画像と小グループ分けするように動作する。
【0037】
即ち、本実施形態による同形文字テーブル作成処理は、漢字構成規則による分割形状に基づいて漢字画像を大グループ分けし、更に同一大グループ内の同一分割領域位置の漢字要素の類似度が高い漢字画像を小グループ分けすることによって、同形文字テーブルを作成する。
【0038】
この同形文字テーブル作成処理の大グループへの登録処理は、図10に示す如く、同形文字テーブル作成データベースから認識対象とする漢字画像を読み込むステップS1001と、該ステップS1001により読み込んだ漢字画像から心線パタンを作成するステップS1002と、該ステップS1002により作成した心線パタンから水平方向のヒストリズムを作成するステップS1003と、該ステップS1003により作成した水平方向ヒストリズムから隣り合うピーク位置(山)間の谷位置を求めるステップS1004と、該ステップS1004により求めた谷位置から1つの谷位置を選択するステップS1005と、該ステップS1005により選択した谷位置が分割位置候補か否かを(山と谷の距離の大小等により)判定するステップS1006と、該ステップS1006により分割位置候補でないと判定したとき前記ステップS1005により選択した分割位置候補を除外するステップS1007と、前記ステップS1006により分割位置候補であると判定したとき、分割位置候補として記憶するステップS108と、前記ステップS1004により求めた全ての谷位置の判定が終了したか否かを判定し、終了していないと判定したときに前記ステップS1006に戻るステップS1009と、該ステップS1009において全ての谷位置の判定が終了したと判定したとき、前記ステップS1008により記憶した分割位置候補に基づいて分割候補位置を決定するステップS1010と、該ステップS1010により決定した分割領域が同形文字テーブルの大グループに既に登録されているか判定するステップS1011と、該ステップS1011において登録されていないと判定したとき、同形文字テーブルに新たな大分類及び該大分類にステップS1001により読み込んだ字種を登録するステップS1012と、前記ステップS1011において登録されていると判定したとき、既に同形文字テーブルに登録されている該当の大分類にステップS1001により読み込んだ字種を追加するステップS1013と、全ての文字画像を大グループへのテーブル登録が終了したか否かを判定し、全ての文字画像を大グループへのテーブル登録が終了していないと判定したとき前記ステップS1001に戻るステップS1014と、該ステップS1014において全ての文字画像を大グループへのテーブル登録が終了したと判定したとき処理を終了するように動作する。
【0039】
[大グループ作成処理]
前記図9のステップS901による領域構造により大分類した大グループ分けする処理は、図12(a)左側に示した漢字画像(画像パタン)「凋」の場合、前述の分割領域判別処理により図12(b)右側に示した縦分割の分割領域を取得し、この取得した縦分割の分割領域が予め同形文字テーブルに登録されているが字種は登録されていない場合(図12[b]左側)、縦分割の分割領域である#2のグループに漢字画像(画像パタン)「凋」を登録(図12[b]右側)し、この取得した縦分割の分割領域が予め同形文字テーブルに登録されていない場合(図12[c]左側)、縦分割の分割領域の大グループ#2を追加すると共に当該追加した大グループ#2に漢字画像(画像パタン)「凋」を新規登録(図12[c]右側)するように動作する。
【0040】
[類似領域判定処理]
前記図9のステップS902による大グループ内においてユークリッド距離値の小さい字種同士やコサイン類似度の大きい字種同士を小グループに纏める処理は、演算部が、図13に示す如く、大グループ分類テーブル(図14左側)に登録されている大グループから1つのグルーブを選択するステップS1301と、該ステップS1301により選択した大グループから1つの文字画像を読み込むステップS1302と、該ステップS1302により読み込んだ文字画像から1つの漢字要素を選択するステップS1303と、該ステップS1303により選択した漢字要素と他の漢字画像における同一の領域位置の漢字要素間の類似度をユークリッド距離値及びコサイン類似度を用いて算出して類似度算出結果テーブル(図14右側)に格納するステップS1304とを実行する。
【0041】
これらステップS1301〜ステップS1304による類似度の算出は、図14に示す如く、例えば、#2の縦分割形式の大グループを選択し、この大グループに属する任意の漢字画像の左領域(偏[へん])の漢字要素に対して同一大グループ内の他漢字の同一領域位置(左の偏[へん]位置)の漢字要素との類似度を算出し、類似度の程度により小グループ分けすることによって、図14右側に示す如く、#2の大グループ内の1つの字種に対して算出対象領域の分割位置(例えば、中央縦分割・左側縦分割・右側縦分割他)に応じて類似度毎に小グルーブ分けすることができる。なお、類似度は、0〜1の範囲内で設定し、値が大きいほど類似していることを表す。
【0042】
ついで、類似度の大きい字種同士を小グループに纏める処理は、図13に戻り、前記ステップS1301において選択した大グループ内の全ての文字画像における漢字要素(分割領域)間の類似度算出が終了したか否かを判定し、終了していないと判定したときに前記ステップS1304に戻るステップS1305と、該ステップS1305において同一大グループ内の全文字画像に対する漢字要素(分割領域)の類似度算出が終了したと判定したとき、前記ステップS1303で選択した以外の漢字要素(分割領域)の類似度算出が終了したか否かを判定し、終了していないと判定したときに前記ステップS1303に戻るステップS1306と、該ステップS1306において全ての漢字要素(分割領域)の類似度算出が終了したと判定したとき、前記ステップS1301により選択した大グループ内の全文字画像の類似度算出が終了したか否かを判定し、終了していないと判定したとき、前記ステップS1302に戻るステップS1307と、該ステップS1307において同一大グループ内全ての漢字要素(分割領域)の類似度算出が終了したと判定したとき、全ての大グループにおける類似度算出が終了したか否かを判定し、終了していないと判定したときに前記ステップS1301に戻るステップS1308と、該ステップS1308において全大グループの類似度算出が終了したと判定したとき、前記ステップS1304により算出した類似度算出結果に基づいて小グループ候補に分類するステップS1309と、該ステップS1309により分類した小グループから1グループを選択し他の小グループとの類似度を算出するステップS1310と、該ステップS1310により算出した類似度が所定の閾値以上か否かを判定するステップS1311と、該ステップS1311より算出した類似度が所定の閾値以上で無いと判定したときに小グループ候補を連結しないステップS1314と、前記ステップS1311において類似度が所定の閾値以上であると判定したときに閾値が類似度以上の小グループを1つの小グループに結合して小グループ候補分類テーブル(図15)に格納するステップS1312と、前記ステップS1309により分類した全ての小グループの類似度の算出が終了したか否かを判定し、終了していないと判定したときに前記ステップS1310に戻り、終了したと判定したときに処理を終了するステップS1313とを実行することによって、特定領域位置の漢字要素の類似度が所定値以上の小グループを結合した同形文字テーブル(図15)を作成すること(例えば、縦2分割の左側の偏が類似する小グループや、縦2分割の右側の旁が類似する小グループを作成すること)ができる。
【0043】
[同形文字テーブル]
ステップS205により作成する同形文字テーブルは、図16(a)に示す如く、分割領域で有る漢字文字の大まかな分割形式(分割無し、縦分割・・十字分割他)を表す大グループと、大グループ内の詳細分割位置(例えば、中央縦分割・左側縦分割・右側縦分割他)により区分した小グループと、該小グループの分割位置許容範囲と、該小グループに含まれる字種との各項目情報とから構成され、前記分割位置許容範囲は、図16(b)に示す如く、文字画像の横方向をX軸と縦方向をY軸であり、文字画像がnx,nyの大きさとしたとき、X軸方向及び又はY軸方法の許容される範囲をドット単位で表したものであり、分割領域の判定ができない場合、図16(c)に示す如く、文字画像をNXNにて均等分割し、同一領域の類似度をユークリッド距離値が小さい、又はコサイン類似度が大きい領域と小グループを比較することによって、候補字種を選択することができ、分割領域形式(構造)が似ていることにより認識候補に追加することができる。
【0044】
[まとめ]
このように本実施形態による文字認識方法を適用した文字認識装置は、従来技術の如くユークリッド距離値のみを用いた文字認識技術により全クラスのユークリッド距離値と計算対象の文字画像をプロットした場合、図19に示す如く、○印で示す正解の可能性が高いクラスと、斜線○印で示す可能性が中程度のクラスと、●印で示す正解の可能性が低いクラスとに大別され、閾値T以上の○印で示す正解の可能性が高いクラスが計算対象外となって取りこぼす可能性があると共に、逆に閾値T以下の斜線○で示す正解可能性が中程度のクラスも計算対象として誤読の可能性があるという不具合があったのに対し、本発明においては特定の領域位置の漢字要素の類似度を判定した同形文字テーブルを用いることによって、閾値T以上の○印で示すクラスも計算対象内とすることができると共に、閾値T以下の斜線○印で示す誤認識の可能性のあるクラスを計算対象から除外することができ、漏れが少なく効率的な文字認識を行うことができる。
【0045】
また、本実施形態による文字認識方法を適用した文字認識装置は、図20に示す如く、クラスAのパタン(文字画像)を○印でプロットし且つクラスBのパタン(文字画像)をX印で表し、入力パタン(文字画像)を△印で表し、△印で表す入力パタン(文字画像)とクラスA及びクラスBの平均パタン(大○印、大X印)とのユークリッド距離値が同一の場合、従来技術においてはクラスA及びクラスBの両パタンと比較しなければならないために処理時間が冗長となる課題を招くものであったのに対し、本実施形態にようにコサイン類似度も併用し、クラスAの対するコサイン類似度角度αがクラスBのコサイン類似度角度βと比べて大きいためにクラスAを比較対象から除外することによって、高速に文字認識を行うことができる。
【0046】
この文字認識処理時間は、認識対象時に比較する出力候補数に対する処理時間を棒グラフ・認識精度を折れ(破線)線グラフで表した図21に示す如く、認識度を高精度とした場合は処理時間に長時間を要し、認識速度を高速化した場合は認識速度が低下する特性があり、このことから、本実施形態の如く出力候補数を絞り込むことによって、大容量なメモリサイズを要することなく、高速な文字認識を行うことができる。
【符号の説明】
【0047】
100 文字認識装置、110 入力部、120 表示部、130 画像取得部、
140 通信部、150 演算部、160 外部記憶部、165 文字識別用辞書
図1
図2
図3
図4A
図4B
図5A
図5B
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24