IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2023-113360文字認識装置、文字認識方法及びプログラム
<>
  • 特開-文字認識装置、文字認識方法及びプログラム 図1
  • 特開-文字認識装置、文字認識方法及びプログラム 図2
  • 特開-文字認識装置、文字認識方法及びプログラム 図3A
  • 特開-文字認識装置、文字認識方法及びプログラム 図3B
  • 特開-文字認識装置、文字認識方法及びプログラム 図4
  • 特開-文字認識装置、文字認識方法及びプログラム 図5
  • 特開-文字認識装置、文字認識方法及びプログラム 図6
  • 特開-文字認識装置、文字認識方法及びプログラム 図7
  • 特開-文字認識装置、文字認識方法及びプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023113360
(43)【公開日】2023-08-16
(54)【発明の名称】文字認識装置、文字認識方法及びプログラム
(51)【国際特許分類】
   G06V 30/194 20220101AFI20230808BHJP
   G06T 7/00 20170101ALI20230808BHJP
【FI】
G06K9/66
G06T7/00 350C
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2022015682
(22)【出願日】2022-02-03
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】小野 聡一郎
【テーマコード(参考)】
5B064
5L096
【Fターム(参考)】
5B064DA27
5B064EA08
5L096BA17
5L096HA11
5L096JA11
5L096JA25
5L096KA04
(57)【要約】      (修正有)
【課題】リジェクト処理後の認識精度を更に向上させる文字認識装置、文字認識方法及びプログラムを提供する。
【解決手段】文字認識装置10は、文字を示す入力画像の入力を受け付け、入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークを備える。ニューラルネットワークは、入力画像から、文字の特徴を示す特徴ベクトルを抽出する特徴抽出部12と、特徴ベクトルの二次識別関数又は単位長に正規化された特徴ベクトルの二次識別関数を用いて、クラス毎の識別スコアを算出する識別部13と、を備える。
【選択図】図4
【特許請求の範囲】
【請求項1】
文字を示す入力画像の入力を受け付け、前記入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークを備え、
前記ニューラルネットワークは、
前記入力画像から、前記文字の特徴を示す特徴ベクトルを抽出する特徴抽出部と、
前記特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、前記クラス毎の識別スコアを算出する識別部と、
を備える文字認識装置。
【請求項2】
前記ニューラルネットワークの重みは、学習画像が示す文字の正解クラスと、前記学習画像が前記ニューラルネットワークに入力されたときの前記ニューラルネットワークの出力と、に基づく損失関数の最適化処理によって決定される、
請求項1に記載の文字認識装置。
【請求項3】
前記二次識別関数の値は、前記特徴ベクトルまたは前記正規化された特徴ベクトルと、前記二次識別関数の中の二次形式の係数行列の固有ベクトルとの内積値の加重和を用いて計算され、前記加重和の係数は前記係数行列の固有値を用いて決定される、
請求項2に記載の文字認識装置。
【請求項4】
それぞれの前記クラスを識別する前記二次識別関数に含まれる前記係数行列は、それぞれの前記クラスに属する前記特徴ベクトルの分布を示す共分散行列に基づいて決定される、
請求項3に記載の文字認識装置。
【請求項5】
前記損失関数は、前記共分散行列の複数の固有ベクトルのそれぞれが、互いに正規直交している度合いを評価する正則化項を含む、
請求項4に記載の文字認識装置。
【請求項6】
前記損失関数は、前記共分散行列の複数の固有値のうち、前記固有値の大きさが大きい順に所定の数だけ選択された複数の上位固有値に対応する上位固有ベクトルが、それぞれの前記共分散行列に対応するクラス間で互いに正規直交している度合いを評価する正則化項を含む、
請求項4に記載の文字認識装置。
【請求項7】
前記識別スコアに基づいて、前記文字の認識結果を出力する出力部、
を更に備える請求項1乃至6のいずれか1項に記載の文字認識装置。
【請求項8】
前記出力部は、前記識別スコアが閾値より小さい場合、前記文字の認識結果を出力しないリジェクト処理を行う、
請求項7に記載の文字認識装置。
【請求項9】
文字を示す入力画像の入力を受け付け、前記入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークを備える文字認識装置の文字認識方法であって、
前記入力画像から、前記文字の特徴を示す特徴ベクトルを抽出するステップと、
前記特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、前記クラス毎の識別スコアを算出するステップと、
を含む文字認識方法。
【請求項10】
コンピュータを、
文字を示す入力画像の入力を受け付け、前記入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークとして機能させ、
前記ニューラルネットワークは、
前記入力画像から、前記文字の特徴を示す特徴ベクトルを抽出する特徴抽出部と、
前記特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、前記クラス毎の識別スコアを算出する識別部、
を有するプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は文字認識装置、文字認識方法及びプログラムに関する。
【背景技術】
【0002】
例えば、文字単位に切り出された画像を特徴抽出器により特徴ベクトルとして数値化し、識別器により認識対象クラス(文字種)ごとの識別スコアを計算し、識別スコアの大小を比較することにより、文字種を認識する文字認識装置が従来から知られている。また、識別スコアに基づくリジェクト処理により、信頼性の低い文字認識結果をリジェクトする技術が従来から知られている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開昭51-97340号公報
【特許文献2】特開平4-58358号公報
【特許文献3】特開平4-275690号公報
【特許文献4】特開平4-294445号公報
【特許文献5】特開2010-39778号公報
【特許文献6】特開2012-181568号公報
【非特許文献】
【0004】
【非特許文献1】黒沢由明「球面ガウス分布から導出される部分空間法」電子情報通信学会論文誌 D、Vol.J81-D2、No.6 pp.1205-1212(1998)
【非特許文献2】D.Ciresan and U.Meier,“Multi-Column Deep Neural Networks for offline handwritten Chinese character classification”,2015 International Joint Conference on Neural Networks (IJCNN),2015,pp.1-6
【非特許文献3】中山英樹、「深層畳み込みニューラルネットワークによる画像特徴抽出と転移学習」、電子情報通信学会音声研究会7月研究会、2015
【非特許文献4】C.M.ビショップ、「パターン認識と機械学習(上・下)」、元田浩ら監訳、丸善出版、2012
【非特許文献5】E.オヤ、「パターン認識と部分空間法」、小川英光ら訳、産業図書、1986
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、いわゆる深層学習とよばれるニューラルネットワーク技術の向上により、リジェクト処理を含まない文字認識装置の認識精度が大幅に向上している。しかしながら、ニューラルネットワークを含む従来の技術では、リジェクト処理後の認識精度を更に向上させることが難しかった。
【課題を解決するための手段】
【0006】
実施形態の文字認識装置は、文字を示す入力画像の入力を受け付け、前記入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークを備える。前記ニューラルネットワークは、前記入力画像から、前記文字の特徴を示す特徴ベクトルを抽出する特徴抽出部と、前記特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、前記クラス毎の識別スコアを算出する識別部と、を備える。
【図面の簡単な説明】
【0007】
図1図1は、部分空間法による識別処理、及び、ニューラルネットワークによる識別処理の処理イメージを説明するための図である。
図2図2は、識別境界付近にパターンが集中する例を示すイメージ図である。
図3A図3Aは、リジェクト処理後の認識精度(部分空間法の場合)について説明するためのイメージ図である。
図3B図3Bは、リジェクト処理後の認識精度(CNNの場合)について説明するためのイメージ図である。
図4図4は、第1実施形態の文字認識装置の機能構成の例を示す図である。
図5図5は、第1実施形態の文字認識処理の例を示すフローチャートである。
図6図6は、第1実施形態の学習データの例を示す図である。
図7図7は、第1実施形態の特徴抽出部12及び識別部13を実現するニューラルネットワークの例を示す図である。
図8図8は、第1乃至第4実施形態の文字認識装置のハードウェア構成の例を示す図である。
【発明を実施するための形態】
【0008】
以下に添付図面を参照して、文字認識装置、文字認識方法及びプログラムの実施形態を詳細に説明する。
【0009】
例えば、非特許文献1は、勾配特徴などの手動設計による特徴抽出器を前提としている。非特許文献1には、特徴ベクトル空間上の各クラスの文字パターンの分布をガウス分布またはその近似としてとしてモデル化することによって得られる一連の二次識別器(即ち二次形式を用いた識別器)の手法が記載されている。
【0010】
この識別器の手法には、例えば、各クラスが特徴ベクトル空間中の部分ベクトル空間に属するとのモデル化による方法(いわゆる部分空間法)、ガウス分布の共分散行列の推定にリッジ正則化を加えた方法(いわゆる疑似ベイズ法、別名として修正二次識別関数法(MQDF:Modified Quadratic Discriminant Function))等が含まれる。以下、これらをまとめて「部分空間法系の手法」と呼称する。
【0011】
また、識別器の手法には、非特許文献2のように、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)による手法がある。畳み込みニューラルネットワークによる手法は、識別器として線型識別器を採用した上で、特徴抽出器と識別器とを一体として学習する手法である。
【0012】
一般的には、畳み込みニューラルネットワークによる手法の方が、部分空間法系の手法より高精度とされている。線型識別器は、識別器としては初等的かつ単純なものであるから、識別に適した特徴抽出器の学習が、識別精度へ大きく寄与していると考えられる。
【0013】
また、文字認識装置の実用において、利用分野に適した信頼性を確保するため、ある入力文字に信頼性の高い認識結果を出力できないと自ら判断した場合、当該文字をリジェクトする処理がある。例えば、特許文献1のように、入力文字に対する各クラスの識別スコアを利用するリジェクト処理がある。
【0014】
また、特許文献2乃至5のように、ニューラルネットワークによる識別及び学習の前処理として、特徴ベクトル空間中の部分空間への射影を利用する処理がある。
【0015】
図1は、部分空間法による識別処理、及び、ニューラルネットワークによる識別処理の処理イメージを説明するための図である。
【0016】
まず、入力部1が、文字101の入力を受け付ける。
【0017】
次に、特徴抽出部2が、文字101から、文字101の特徴を示す特徴ベクトルを抽出する。部分空間法では、予め設計された抽出器によって特徴ベクトルが抽出される(手動設定による抽出)。ニューラルネットワークでは、学習に基づく抽出器によって特徴ベクトルが抽出される(学習ベースによる抽出)。
【0018】
次に、識別部3が、特徴ベクトルに基づいて文字を識別する。部分空間法では、二次識別器によって文字が識別される。ニューラルネットワークでは、線形識別器によって文字が識別される。図1の例では、文字101aの識別スコアが0.6であり、文字101bの識別スコアが、0.35である場合を示す。
【0019】
次に、出力部4が、識別スコアに基づいて、文字の識別結果(認識結果)を出力する。図1の例では、識別スコアが最も高い文字101aが、識別結果として出力される。なお、図1の例では、出力部4は、識別結果のリジェクト処理を行わない。識別結果をリジェクトするリジェクト処理は、例えば識別スコアが所定の閾値より小さい場合に行われる。
【0020】
部分空間法系の手法は、畳み込みニューラルネットワークによる手法に比し、認識精度において劣る。一方、畳み込みニューラルネットワークによる手法では、学習によって得られた特徴ベクトル空間では、手動設計による特徴抽出器による特徴ベクトル空間の場合よりも、識別境界付近にパターン(特徴ベクトル)が集中しやすい。
【0021】
図2は、識別境界付近にパターンが集中する例を示すイメージ図である。図2は、特徴ベクトル空間において、認識対象の文字「0」を示すクラスと、認識対象の文字「1」を示すクラスとの識別境界に、パターンが集中する例を示す。図2に示すように、畳み込みニューラルネットワーク(CNN)による手法では、複数クラスに対する識別スコアの値が近接する頻度が部分空間系の手法に比べて高くなり、識別スコアを用いたリジェクト処理後の認識精度では部分空間法系の手法を上回ることができない。
【0022】
図3Aは、リジェクト処理後の認識精度(部分空間法の場合)について説明するためのイメージ図である。領域111aは、特徴ベクトルが、文字101aと認識される領域を示す。領域111bは、特徴ベクトルが、文字101bと認識される領域を示す。識別境界112は、文字101a及び文字101bの識別境界を示す。
【0023】
図3Bは、リジェクト処理後の認識精度(CNNの場合)について説明するためのイメージ図である。領域121aは、特徴ベクトルが、文字101aと認識される領域を示す。領域121bは、特徴ベクトルが、文字101bと認識される領域を示す。識別境界122は、文字101a及び文字101bの識別境界を示す。図3Bに示すように、CNNの場合では、識別境界122付近にパターンが集中しやすい。そのため、領域123に存在するパターンが、リジェクト処理によってリジェクトされた判定不能の処理結果も含めると、CNNの場合の認識精度は、部分空間法の場合の認識精度よりも低くなる。
【0024】
なお、特許文献2乃至5のように、ニューラルネットワークによる識別及び学習の過程で特徴ベクトル空間中の部分空間への射影を利用する技術がある。しかし、これらは部分空間がニューラルネットワークの一部分として学習されないため、その効果として特徴ベクトル空間上の各クラスの分離を期待できない。従って部分空間法系の手法に比べ誤読を削減するためにより多くの正読パターンをリジェクトせねばならず、リジェクト処理後の高精度を期待できない。
【0025】
(第1実施形態)
第1実施形態では、部分空間法系の手法を識別器として取り込んだニューラルネットワークと、それを実用的な時間で学習する近似法を与える文字認識装置、文字認識方法及びプログラムについて説明する。
【0026】
[発明の概要]
第1実施形態の文字認識装置では、通常の畳み込みニューラルネットワークの識別部で用いられる識別器を、線型識別器から、部分空間法系の手法で用いられる二次識別器に置き換える。これにより、畳み込みニューラルネットワークの長所である特徴抽出器の学習による高い認識精度と、部分空間法系の手法の長所であるクラス間分離性とを兼ね備え、従来の技術による認識精度を上回るリジェクト処理後の認識精度を得ることが可能となる。
【0027】
[機能構成の例]
図4は、第1実施形態の文字認識装置10の機能構成の例を示す図である。第1実施形態の文字認識装置10は、入力部11、特徴抽出部12、識別部13及び出力部14を備える。
【0028】
入力部11は、文字単位に切り離された画像を、入力画像として受け取る。なお、認識対象の文字は任意でよい。例えば、文字には、ひらがな、カタカナ、漢字、アルファベット、数字及び記号等が含まれる。
【0029】
特徴抽出部12は、入力画像を特徴ベクトルに変換することによって、入力画像の特徴を示す特徴ベクトルを抽出する。
【0030】
識別部13は、特徴ベクトルに対して演算を行い、認識対象の各クラス(例えば、各認識対象文字を示すクラス)に対する識別スコアを算出する。
【0031】
出力部14は、識別スコアに基づいて、文字の識別結果(認識結果)と、リジェクト処理によるリジェクトの有無とを判定し、認識結果とリジェクトの有無とを出力する。
【0032】
[文字認識処理の例]
図5は、第1実施形態の文字認識処理の例を示すフローチャートである。はじめに、入力部11が、文字単位に切り離された画像を、入力画像として受け取る(ステップS101)。次に、特徴抽出部12が、ステップS1の処理によって入力された入力画像を特徴ベクトルに変換することによって、入力画像の特徴を示す特徴ベクトルを抽出する(ステップS102)。
【0033】
次に、識別部13が、ステップS102の処理によって抽出された特徴ベクトルに対して演算を行い、各クラスに対する識別スコアを算出する(ステップS103)。
【0034】
次に、出力部14が、識別スコアから認識結果を決定し、さらに処理開始前に与えられた設定情報に基づいてリジェクト判定を行うか否かを判定する(ステップS104)。設定情報は、リジェクト判定を行うか否かを示す情報である。設定情報がリジェクト判定を行うことを示す場合、上述のリジェクト処理が実施される。
【0035】
リジェクト判定を行う場合(ステップS105,Yes)、出力部14は、識別スコアに基づくリジェクト処理によって、リジェクト判定を行う(ステップS105)。リジェクト判定を行わない場合(ステップS105,No)、処理はステップS106に進む。
【0036】
次に、出力部14は、少なくとも認識結果を含む出力情報を出力する(ステップS106)。具体的には、出力部14は、リジェクト判定を行った場合は、認識結果とリジェクト判定結果とを含む出力情報を出力し、リジェクト判定を行っていない場合は、認識結果を含む出力情報を出力する。
【0037】
また、このとき、認識結果に期待される正解が利用可能であるかを処理開始前に与えられた設定情報に基づいて判定する(ステップS107)。設定情報は、例えば学習データとして正解が利用可能な学習モード、又は、正解がない未知の入力画像が示す文字を推定する推定モードを示す。
【0038】
図6は、第1実施形態の学習データの例を示す図である。第1実施形態の学習データは、学習画像と正解とを含む。学習画像は、文字を示す入力画像であって、正解と対応付けられている入力画像である。正解は、学習画像に対応する正解の文字を示す。例えば、正解は、文字認識処理の処理結果の正解の文字を示す正解クラスの名称等である。
【0039】
図5に戻り、正解が利用可能でない場合(ステップS107,No)、処理は終了し、正解が利用可能である場合(ステップS107,Yes)、出力部14は、正解を特徴抽出部12及び識別部13に渡し、特徴抽出部12及び識別部13は、正解から重み更新値を計算し、重み更新値に基づき重みを更新する(ステップS108)。
【0040】
[各部の詳細]
図7は、第1実施形態の特徴抽出部12及び識別部13を実現するニューラルネットワーク130の例を示す図である。図7上段のニューラルネットワークは、特徴抽出部12の処理を表す従来技術(非特許文献3)である。図7下段は、第1実施形態のニューラルネットワーク130を示す。第1実施形態のニューラルネットワーク130では、図7上段のニューラルネットワークの一部(識別部(全結合層及び識別層)以外の部分)が、特徴抽出器として利用されている。
【0041】
特徴抽出部12は、ニューラルネットワーク130によって実現される特徴抽出器によって、入力画像から特徴ベクトルを計算する。特徴抽出器を実現するニューラルネットワークの処理の詳細は、例えば非特許文献2に記載されている。
【0042】
識別部13は、特徴抽出部12が出力した特徴ベクトルから各クラスcの認識スコアを二次識別関数により計算する。ここで二次識別関数とは、特徴ベクトルxに対して下記式(1)の形で、各クラスc毎に与えられる関数である。
【0043】
【数1】
【0044】
または、二次識別関数とは、特徴ベクトルxを単位長に正規化した下記式(2)で表される特徴ベクトルに対して、下記式(3)の形で、各クラスc毎に与えられる関数を指す。
【0045】
【数2】
【数3】
【0046】
これらの関数は非特許文献1に示される部分空間法系の識別関数形の一般化であり、Pは当該クラスの特徴ベクトルの分布をガウス分布とみて推定した際の共分散行列またはその定数倍に相当する。二次識別関数の名は、これらの識別関数がPを係数行列とする特徴ベクトルx、または上記式(2)で表された特徴ベクトルの二次形式の項を含むことに由来する。
【0047】
通常のニューラルネットワークでは、識別関数が、下記式(4)の線型識別関数であることが、本実施形態が従来の技術と異なる点である。
【0048】
【数4】
【0049】
また、本実施形態では、上記式(1)及び(3)の識別関数のいずれも、値が大きいほど入力文字が当該クラスに属するという仮説が尤もらしくなるように符号を定める。なお、以下では二次識別関数については上記式(1)又は(3)の関数形を前提とするが、これらの関数形の関数値を単調増加関数に与えた関数、及び、いずれかの項に微小な補正を加えた関数など、厳密または近似的に等価な識別結果を与える関数を用いても同様の手順で識別部を構成することができる。
【0050】
出力部14は、識別部13で計算された識別関数の値、即ち識別スコアが最大のクラスを識別結果として決定する。また、出力部14は、リジェクト処理が処理開始前に与えられた設定情報において有効化されていた場合は、各クラスの識別スコアに基づきリジェクト判定を実施する。
【0051】
識別スコアに基づくリジェクト判定の方法としては例えば特許文献1の方法を用いることができる。次いで、出力部14は、リジェクト判定を行った場合は認識結果とリジェクト判定結果とを出力し、リジェクト判定を行っていない場合は認識結果を出力する。またこのとき、認識結果に期待される正解が利用可能であるかを処理開始前に与えられた設定情報に基づいて判定し、正解が利用可能でない場合はそのまま処理を終了し、利用可能である場合は正解を特徴抽出部12及び識別部13に渡す。
【0052】
以下は、正解が利用可能である場合の処理について記述する。
【0053】
再び処理を戻された識別部13では、出力部14から渡された正解をもとに損失関数及びその勾配を計算し、勾配を特徴抽出部12に送り、勾配をもとに識別部13の重みを更新する。ここで損失関数は、上記式(1)の識別関数fまたは上記式(3)の識別関数gを用いて定義され、特に非特許文献1に現れる識別関数のように識別関数が対数尤度の定数倍に定数を加えた関数であるときは、従来技術の損失関数をそのまま用いることができる。たとえば、非特許文献4に示されるsoftmax cross entropy損失関数を用いた場合、損失関数は以下の式(5)~(7)のように定義される。
【0054】
【数5】
【数6】
【数7】
【0055】
ただし、X=(x,・・・,x)は、特徴ベクトルの全体であり、Y=(y,・・・,y)はXに対応する正解である。Θ=(θ,・・・,θC)、及び、θ=(P,q,r)は、識別関数のパラメータ即ち識別部13の重みである。pは対数尤度であり、a,bは識別関数値を対数尤度に変換するための定数である。
【0056】
上記例では、識別関数はfの形を用いる。また、Rは正則化項である。重みの更新の方法としては非特許文献4に示される確率的勾配法、及び、従来技術における確率的勾配法の改良法等を用いることができる。正則化項としては自明な例としてRを0とするほか、非特許文献4に示されるL正則化などの従来の技術を用いることができる。
【0057】
特徴抽出部12は、識別部13から入力された勾配をもとに自らの重みを更新する。すなわち、ニューラルネットワーク130の重みは、学習画像が示す文字の正解クラスと、学習画像がニューラルネットワーク130に入力されたときのニューラルネットワーク130の出力と、に基づく損失関数の最適化処理によって決定される。ニューラルネットワーク130の重みを学習によって得ることにより、所期の性質を持つ特徴抽出器及び識別器を具体的に実現できる。
【0058】
なお、具体的な重みの更新方法としては、例えば非特許文献4に示される誤差逆伝播法、及び、従来技術における誤差逆伝播法の改良法等を用いることができる。
【0059】
また、第1実施形態では、損失関数の定義中で識別関数にfを用いたが、単純な置き換えにより、gの形の識別関数でも損失関数を同様に定義することができる。
【0060】
以上、説明したように、第1実施形態の文字認識装置10は、文字を示す入力画像の入力を受け付け、入力画像から識別された文字を示すクラス毎の識別スコアを出力するニューラルネットワーク130を備える。ニューラルネットワーク130は、特徴抽出部12及び識別部13を備える。特徴抽出部12は、入力画像から、文字の特徴を示す特徴ベクトルを抽出する。識別部13は、特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、クラス毎の識別スコアを算出する。
【0061】
すなわち、第1実施形態の文字認識装置10は、畳み込みニューラルネットワークの長所である特徴抽出器の学習による高い認識精度と、識別器として用いられた二次識別関数系の手法の長所であるクラス間分離性とを兼ね備える。
【0062】
これにより、第1実施形態の文字認識装置10によれば、リジェクト処理後の認識精度を更に向上させることができる。具体的には、識別部13を通常のCNNのような線型識別器に代えて、部分空間法またはその派生法としたことにより、認識対象の各クラスのパターンを特徴ベクトル空間中の部分ベクトル空間で表現できる。そのため、パターンの分布が特徴ベクトル空間中の識別境界に集中する現象及び識別スコアがクラス間で近接する問題が軽減される。これにより、識別スコアを用いたリジェクト処理の精度が向上するので、リジェクト処理後の認識精度を従来よりも更に向上させることができる。
【0063】
(第2実施形態)
次に第2実施形態について説明する。第2実施形態の説明では、第1実施形態と同様の説明については省略し、第1実施形態と異なる箇所について説明する。
【0064】
[発明の概要]
第2実施形態では、第1実施形態の識別関数の形に制約を加え、また必要に応じてその重みを異なる表現に置き換える。これによって識別器として部分空間法系の派生法一般を用いることができ、過学習を防ぐことによる認識精度の向上の効果を得ることができる。
【0065】
第2実施形態の文字認識装置10の機能構成は、第1実施形態と同様(図4参照)である。また、第2実施形態の文字認識処理の流れを示す全体フローについても、第1実施形態と同様(図5参照)である。
【0066】
[各部の詳細]
特徴抽出部12及び出力部14の詳細は、第1実施形態と同様である。
【0067】
第2実施形態の識別部13では、第1実施形態の識別関数においてパラメータP,q,r,s及びtをすべて学習可能な重みとせず、これらに一定の制約を設ける。例えば識別関数gにおいて下記式(8)の制約条件を設けることにより識別関数形を部分空間法に制約することができる。
【0068】
【数8】
【0069】
また、識別関数gにおいて下記式(9)の制約条件を設けることにより識別関数形を疑似ベイズ法に制約することができる。
【0070】
【数9】
【0071】
このとき、非特許文献1にみるように、パラメータPは当該クラスの特徴ベクトルの分布の共分散行列またはその定数倍の低ランク近似とみることができる。また、パラメータUはその共分散行列の上位固有値に付随する固有ベクトルからなる行列である。上位固有値は、共分散行列の複数の固有値のうち、値がより大きい固有値である。また、Dは共分散行列の固有値から定まる対角行列である。
【0072】
ここで、非特許文献1の方法は、Dの成分を上記固有値を上位から順に並べた対角行列の下位固有値を定数で置き換えたものに相当するが、単に上記固有値を上位から順に並べた対角行列に単位行列の定数倍を加えたものとするなど、他の低ランク近似手法を用いることもできる。
【0073】
これらの制約において、実際に学習される重みは、二次識別関数のパラメータP,q,r,s及びtではなく、一部を上記制約条件に現れるパラメータU及びDにすることができる。また例えば、P=expΛとなるような反対称行列ΛをパラメータPに代えて用いることもできる。
【0074】
第2実施形態では、二次識別関数の値は、特徴ベクトルまたは正規化された特徴ベクトルと、二次識別関数の中の二次形式の係数行列の固有ベクトルとの内積値の加重和を用いて計算される。加重和の係数は、係数行列の固有値を用いて決定される。それぞれのクラスを識別する二次識別関数に含まれる係数行列は、それぞれのクラスに属する特徴ベクトルの分布を示す共分散行列に基づいて決定される。
【0075】
このとき、第1実施形態と同様に、従来の確率的勾配法などの技術により重みが更新されると、更新後の重みが下記式(10)などの非線型な制約条件を満たすことが必ずしも保証されない。
【0076】
【数10】
【0077】
このような場合、例えば、非特許文献5に示される学習部分空間法、平均化学習部分空間法、及び、特許文献6に示される方法等により、重み更新過程に制約条件を満たすような重みの補正過程を加えてもよい。また例えば、制約条件が自動的に厳密にまたは近似的に満たされるように重みの更新方法を修正してもよい。
【0078】
以上、説明したように、第2実施形態では、第1実施形態の識別関数の形に制約を加え、二次識別関数の一般的な派生手法を用いる。これにより、識別器として部分空間法系の派生法一般を用いることができ、過学習を防ぐことによる認識精度の向上の効果を得ることができる。
【0079】
(第3実施形態)
次に第3実施形態について説明する。第3実施形態の説明では、第1又は第2実施形態と同様の説明については省略し、第1又は第2実施形態と異なる箇所について説明する。
【0080】
[発明の概要]
第3実施形態では、第2実施形態の損失関数に、識別関数の形に加えられた制約に準ずる正則化項を加える。これにより、重みの更新方法として従来の技術を用いても制約条件が自動的に近似的に満たされ、学習速度を向上させることができる。
【0081】
第3実施形態の文字認識装置10の機能構成は、第1実施形態と同様(図4参照)である。また、第3実施形態の文字認識処理の流れを示す全体フローについても、第1実施形態と同様(図5参照)である。
【0082】
[各部の詳細]
特徴抽出部12及び出力部14の詳細は、第2実施形態と同様である。
【0083】
第3実施形態の識別部13では、第2実施形態の損失関数において非線型な制約条件に対応する正則化項を追加する。例えば、上記式(10)の制約条件に対応する正則化項として、下記式(11)の正則化項を設ける。
【0084】
【数11】
【0085】
損失関数に、共分散行列の複数の固有ベクトルのそれぞれが、互いに正規直交している度合いを評価する正則化項(上記式(11))を設けることにより、第1実施形態と同様に従来の確率的勾配法などの技術により重みを更新しても制約条件が自動的に近似的に満たされるようになる。これにより、重み更新過程に制約条件を満たすような重みの補正過程を加えたり、制約条件が自動的に満たされるように重みの更新方法を修正することによる計算量の増大を回避することができる。このとき、重みの更新の完了時または更新の途中任意に定めた時点でのみ上記重みの補正を実施し、当該時点で制約条件が厳密に満たされるようにしてもよい。
【0086】
以上、説明したように、第3実施形態では、第2実施形態の損失関数に識別関数の形に加えられた制約に準ずる正則化項を加える。これにより、重みの更新方法として従来の技術を用いても制約条件が自動的に近似的に満たされ、学習速度を向上させることができる。
【0087】
(第4実施形態)
次に第4実施形態について説明する。第4実施形態の説明では、第1乃至第3実施形態と同様の説明については省略し、第1乃至第3実施形態と異なる箇所について説明する。
【0088】
[発明の概要]
第4実施形態では、第3実施形態の正則化項を拡張し、各クラスの分布が特徴ベクトル空間上乖離するようにする。これにより、リジェクトを含めた識別精度を更に向上させることができる。
【0089】
第4実施形態の文字認識装置10の機能構成は、第1実施形態と同様(図4参照)である。また、第4実施形態の文字認識処理の流れを示す全体フローについても、第1実施形態と同様(図5参照)である。
【0090】
[各部の詳細]
特徴抽出部12及び出力部14の詳細は、第3実施形態と同様である。
【0091】
第4実施形態の識別部13では、第3実施形態の損失関数において正則化項を、各クラスに対応する辞書部分空間を乖離させるように修正する。例えば、上記式(10)の制約条件は、クラスcのパターンが辞書部分空間Im(U )付近に集中して分布することを意味する。従って、異なるクラス間の辞書部分空間を乖離させるため、正則化項を下記式(12)に修正する。
【0092】
【数12】
【0093】
第4実施形態の損失関数は、共分散行列の複数の固有値のうち、固有値の大きさが大きい順に所定の数だけ選択された複数の上位固有値に対応する上位固有ベクトルが、それぞれの共分散行列に対応するクラス間で互いに正規直交している度合いを評価する正則化項を含む。
【0094】
これにより、各クラスの上位固有値に対応する上位固有ベクトルにより張られる空間が近似的にお互い直交する。したがって、第3実施形態の効果に加え、学習の進展に従って辞書部分空間が互いに直交する状態に近づき、自動的に乖離するようになる。
【0095】
以上、説明したように、第4実施形態によれば、学習された特徴ベクトル空間上で相異なるクラスに対応する辞書部分空間が互いに乖離し直交する状態に近づく。これにより、識別スコアの差異が大きくなることから、リジェクトを含めた認識精度を更に向上させることができる。
【0096】
最後に、第1乃至第4実施形態の文字認識装置10のハードウェア構成の例について説明する。
【0097】
[ハードウェア構成の例]
図8は、第1乃至第4実施形態の文字認識装置10のハードウェア構成の例を示す図である。第1乃至第4実施形態の文字認識装置10は、プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206を備える。プロセッサ201、主記憶装置202、補助記憶装置203、表示装置204、入力装置205及び通信装置206は、バス210を介して接続されている。
【0098】
なお、文字認識装置10は、上記構成の一部が備えられていなくてもよい。例えば、文字認識装置10が、外部の装置の入力機能及び表示機能を利用可能な場合、文字認識装置10に表示装置204及び入力装置205が備えられていなくてもよい。
【0099】
プロセッサ201は、補助記憶装置203から主記憶装置202に読み出されたプログラムを実行する。主記憶装置202は、ROM及びRAM等のメモリである。補助記憶装置203は、HDD(Hard Disk Drive)及びメモリカード等である。
【0100】
表示装置204は、例えば液晶ディスプレイ等である。入力装置205は、文字認識装置10を操作するためのインターフェースである。なお、表示装置204及び入力装置205は、表示機能と入力機能とを有するタッチパネル等により実現されていてもよい。通信装置206は、他の装置と通信するためのインターフェースである。
【0101】
文字認識装置10で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、メモリカード、CD-R及びDVD等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
【0102】
また文字認識装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また文字認識装置10で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
【0103】
また文字認識装置10のプログラムを、ROM等に予め組み込んで提供するように構成してもよい。
【0104】
文字認識装置10で実行されるプログラムは、上述の図4の機能構成のうち、プログラムによっても実現可能な機能を含むモジュール構成となっている。当該各機能は、実際のハードウェアとしては、プロセッサ201が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置202上にロードされる。すなわち上記各機能ブロックは主記憶装置202上に生成される。
【0105】
なお上述した図4の各機能の一部又は全部をソフトウェアにより実現せずに、IC等のハードウェアにより実現してもよい。
【0106】
また複数のプロセッサ201を用いて各機能を実現してもよく、その場合、各プロセッサ201は、各機能のうち1つを実現してもよいし、各機能のうち2以上を実現してもよい。
【0107】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0108】
1 入力部
2 特徴抽出部
3 識別部
4 出力部
10 文字認識装置
11 入力部
12 特徴抽出部
13 識別部
14 出力部
130 ニューラルネットワーク
201 プロセッサ
202 主記憶装置
203 補助記憶装置
204 表示装置
205 入力装置
206 通信装置
210 バス
図1
図2
図3A
図3B
図4
図5
図6
図7
図8