特開2023-113360 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特開2023-113360文字認識装置、文字認識方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023113360

(43)【公開日】2023-08-16

(54)【発明の名称】文字認識装置、文字認識方法及びプログラム

(51)【国際特許分類】

G06V 30/194 20220101AFI20230808BHJP

G06T 7/00 20170101ALI20230808BHJP

【ＦＩ】

G06K9/66

G06T7/00 350C

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022015682

(22)【出願日】2022-02-03

(71)【出願人】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(71)【出願人】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】小野聡一郎

【テーマコード（参考）】

5B064

5L096

【Ｆターム（参考）】

5B064DA27

5B064EA08

5L096BA17

5L096HA11

5L096JA11

5L096JA25

5L096KA04

(57)【要約】（修正有）

【課題】リジェクト処理後の認識精度を更に向上させる文字認識装置、文字認識方法及びプログラムを提供する。
【解決手段】文字認識装置１０は、文字を示す入力画像の入力を受け付け、入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークを備える。ニューラルネットワークは、入力画像から、文字の特徴を示す特徴ベクトルを抽出する特徴抽出部１２と、特徴ベクトルの二次識別関数又は単位長に正規化された特徴ベクトルの二次識別関数を用いて、クラス毎の識別スコアを算出する識別部１３と、を備える。
【選択図】図４

【特許請求の範囲】

【請求項1】

文字を示す入力画像の入力を受け付け、前記入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークを備え、
前記ニューラルネットワークは、
前記入力画像から、前記文字の特徴を示す特徴ベクトルを抽出する特徴抽出部と、
前記特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、前記クラス毎の識別スコアを算出する識別部と、
を備える文字認識装置。

【請求項2】

前記ニューラルネットワークの重みは、学習画像が示す文字の正解クラスと、前記学習画像が前記ニューラルネットワークに入力されたときの前記ニューラルネットワークの出力と、に基づく損失関数の最適化処理によって決定される、
請求項１に記載の文字認識装置。

【請求項3】

前記二次識別関数の値は、前記特徴ベクトルまたは前記正規化された特徴ベクトルと、前記二次識別関数の中の二次形式の係数行列の固有ベクトルとの内積値の加重和を用いて計算され、前記加重和の係数は前記係数行列の固有値を用いて決定される、
請求項２に記載の文字認識装置。

【請求項4】

それぞれの前記クラスを識別する前記二次識別関数に含まれる前記係数行列は、それぞれの前記クラスに属する前記特徴ベクトルの分布を示す共分散行列に基づいて決定される、
請求項３に記載の文字認識装置。

【請求項5】

前記損失関数は、前記共分散行列の複数の固有ベクトルのそれぞれが、互いに正規直交している度合いを評価する正則化項を含む、
請求項４に記載の文字認識装置。

【請求項6】

前記損失関数は、前記共分散行列の複数の固有値のうち、前記固有値の大きさが大きい順に所定の数だけ選択された複数の上位固有値に対応する上位固有ベクトルが、それぞれの前記共分散行列に対応するクラス間で互いに正規直交している度合いを評価する正則化項を含む、
請求項４に記載の文字認識装置。

【請求項7】

前記識別スコアに基づいて、前記文字の認識結果を出力する出力部、
を更に備える請求項１乃至６のいずれか１項に記載の文字認識装置。

【請求項8】

前記出力部は、前記識別スコアが閾値より小さい場合、前記文字の認識結果を出力しないリジェクト処理を行う、
請求項７に記載の文字認識装置。

【請求項9】

文字を示す入力画像の入力を受け付け、前記入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークを備える文字認識装置の文字認識方法であって、
前記入力画像から、前記文字の特徴を示す特徴ベクトルを抽出するステップと、
前記特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、前記クラス毎の識別スコアを算出するステップと、
を含む文字認識方法。

【請求項10】

コンピュータを、
文字を示す入力画像の入力を受け付け、前記入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークとして機能させ、
前記ニューラルネットワークは、
前記入力画像から、前記文字の特徴を示す特徴ベクトルを抽出する特徴抽出部と、
前記特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、前記クラス毎の識別スコアを算出する識別部、
を有するプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は文字認識装置、文字認識方法及びプログラムに関する。

【背景技術】

【0002】

例えば、文字単位に切り出された画像を特徴抽出器により特徴ベクトルとして数値化し、識別器により認識対象クラス（文字種）ごとの識別スコアを計算し、識別スコアの大小を比較することにより、文字種を認識する文字認識装置が従来から知られている。また、識別スコアに基づくリジェクト処理により、信頼性の低い文字認識結果をリジェクトする技術が従来から知られている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開昭５１－９７３４０号公報

【特許文献2】特開平４－５８３５８号公報

【特許文献3】特開平４－２７５６９０号公報

【特許文献4】特開平４－２９４４４５号公報

【特許文献5】特開２０１０－３９７７８号公報

【特許文献6】特開２０１２－１８１５６８号公報

【非特許文献】

【0004】

【非特許文献1】黒沢由明「球面ガウス分布から導出される部分空間法」電子情報通信学会論文誌Ｄ、Ｖｏｌ．Ｊ８１－Ｄ２、Ｎｏ．６ｐｐ．１２０５－１２１２（１９９８）

【非特許文献2】Ｄ．ＣｉｒｅsａｎａｎｄＵ．Ｍｅｉｅｒ，“Ｍｕｌｔｉ－ＣｏｌｕｍｎＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒｏｆｆｌｉｎｅｈａｎｄｗｒｉｔｔｅｎＣｈｉｎｅｓｅｃｈａｒａｃｔｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎ”，２０１５ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＩＪＣＮＮ），２０１５，ｐｐ．１－６

【非特許文献3】中山英樹、「深層畳み込みニューラルネットワークによる画像特徴抽出と転移学習」、電子情報通信学会音声研究会７月研究会、２０１５

【非特許文献4】Ｃ．Ｍ．ビショップ、「パターン認識と機械学習（上・下）」、元田浩ら監訳、丸善出版、２０１２

【非特許文献5】Ｅ．オヤ、「パターン認識と部分空間法」、小川英光ら訳、産業図書、１９８６

【発明の概要】

【発明が解決しようとする課題】

【0005】

近年、いわゆる深層学習とよばれるニューラルネットワーク技術の向上により、リジェクト処理を含まない文字認識装置の認識精度が大幅に向上している。しかしながら、ニューラルネットワークを含む従来の技術では、リジェクト処理後の認識精度を更に向上させることが難しかった。

【課題を解決するための手段】

【0006】

実施形態の文字認識装置は、文字を示す入力画像の入力を受け付け、前記入力画像から識別された前記文字を示すクラス毎の識別スコアを出力するニューラルネットワークを備える。前記ニューラルネットワークは、前記入力画像から、前記文字の特徴を示す特徴ベクトルを抽出する特徴抽出部と、前記特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、前記クラス毎の識別スコアを算出する識別部と、を備える。

【図面の簡単な説明】

【0007】

【図1】図１は、部分空間法による識別処理、及び、ニューラルネットワークによる識別処理の処理イメージを説明するための図である。

【図2】図２は、識別境界付近にパターンが集中する例を示すイメージ図である。

【図3A】図３Ａは、リジェクト処理後の認識精度（部分空間法の場合）について説明するためのイメージ図である。

【図3B】図３Ｂは、リジェクト処理後の認識精度（ＣＮＮの場合）について説明するためのイメージ図である。

【図4】図４は、第１実施形態の文字認識装置の機能構成の例を示す図である。

【図5】図５は、第１実施形態の文字認識処理の例を示すフローチャートである。

【図6】図６は、第１実施形態の学習データの例を示す図である。

【図7】図７は、第１実施形態の特徴抽出部１２及び識別部１３を実現するニューラルネットワークの例を示す図である。

【図8】図８は、第１乃至第４実施形態の文字認識装置のハードウェア構成の例を示す図である。

【発明を実施するための形態】

【0008】

以下に添付図面を参照して、文字認識装置、文字認識方法及びプログラムの実施形態を詳細に説明する。

【0009】

例えば、非特許文献１は、勾配特徴などの手動設計による特徴抽出器を前提としている。非特許文献１には、特徴ベクトル空間上の各クラスの文字パターンの分布をガウス分布またはその近似としてとしてモデル化することによって得られる一連の二次識別器（即ち二次形式を用いた識別器）の手法が記載されている。

【0010】

この識別器の手法には、例えば、各クラスが特徴ベクトル空間中の部分ベクトル空間に属するとのモデル化による方法（いわゆる部分空間法）、ガウス分布の共分散行列の推定にリッジ正則化を加えた方法（いわゆる疑似ベイズ法、別名として修正二次識別関数法（ＭＱＤＦ：ＭｏｄｉｆｉｅｄＱｕａｄｒａｔｉｃＤｉｓｃｒｉｍｉｎａｎｔＦｕｎｃｔｉｏｎ））等が含まれる。以下、これらをまとめて「部分空間法系の手法」と呼称する。

【0011】

また、識別器の手法には、非特許文献２のように、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）による手法がある。畳み込みニューラルネットワークによる手法は、識別器として線型識別器を採用した上で、特徴抽出器と識別器とを一体として学習する手法である。

【0012】

一般的には、畳み込みニューラルネットワークによる手法の方が、部分空間法系の手法より高精度とされている。線型識別器は、識別器としては初等的かつ単純なものであるから、識別に適した特徴抽出器の学習が、識別精度へ大きく寄与していると考えられる。

【0013】

また、文字認識装置の実用において、利用分野に適した信頼性を確保するため、ある入力文字に信頼性の高い認識結果を出力できないと自ら判断した場合、当該文字をリジェクトする処理がある。例えば、特許文献１のように、入力文字に対する各クラスの識別スコアを利用するリジェクト処理がある。

【0014】

また、特許文献２乃至５のように、ニューラルネットワークによる識別及び学習の前処理として、特徴ベクトル空間中の部分空間への射影を利用する処理がある。

【0015】

図１は、部分空間法による識別処理、及び、ニューラルネットワークによる識別処理の処理イメージを説明するための図である。

【0016】

まず、入力部１が、文字１０１の入力を受け付ける。

【0017】

次に、特徴抽出部２が、文字１０１から、文字１０１の特徴を示す特徴ベクトルを抽出する。部分空間法では、予め設計された抽出器によって特徴ベクトルが抽出される（手動設定による抽出）。ニューラルネットワークでは、学習に基づく抽出器によって特徴ベクトルが抽出される（学習ベースによる抽出）。

【0018】

次に、識別部３が、特徴ベクトルに基づいて文字を識別する。部分空間法では、二次識別器によって文字が識別される。ニューラルネットワークでは、線形識別器によって文字が識別される。図１の例では、文字１０１ａの識別スコアが０．６であり、文字１０１ｂの識別スコアが、０．３５である場合を示す。

【0019】

次に、出力部４が、識別スコアに基づいて、文字の識別結果（認識結果）を出力する。図１の例では、識別スコアが最も高い文字１０１ａが、識別結果として出力される。なお、図１の例では、出力部４は、識別結果のリジェクト処理を行わない。識別結果をリジェクトするリジェクト処理は、例えば識別スコアが所定の閾値より小さい場合に行われる。

【0020】

部分空間法系の手法は、畳み込みニューラルネットワークによる手法に比し、認識精度において劣る。一方、畳み込みニューラルネットワークによる手法では、学習によって得られた特徴ベクトル空間では、手動設計による特徴抽出器による特徴ベクトル空間の場合よりも、識別境界付近にパターン（特徴ベクトル）が集中しやすい。

【0021】

図２は、識別境界付近にパターンが集中する例を示すイメージ図である。図２は、特徴ベクトル空間において、認識対象の文字「０」を示すクラスと、認識対象の文字「１」を示すクラスとの識別境界に、パターンが集中する例を示す。図２に示すように、畳み込みニューラルネットワーク（ＣＮＮ）による手法では、複数クラスに対する識別スコアの値が近接する頻度が部分空間系の手法に比べて高くなり、識別スコアを用いたリジェクト処理後の認識精度では部分空間法系の手法を上回ることができない。

【0022】

図３Ａは、リジェクト処理後の認識精度（部分空間法の場合）について説明するためのイメージ図である。領域１１１ａは、特徴ベクトルが、文字１０１ａと認識される領域を示す。領域１１１ｂは、特徴ベクトルが、文字１０１ｂと認識される領域を示す。識別境界１１２は、文字１０１ａ及び文字１０１ｂの識別境界を示す。

【0023】

図３Ｂは、リジェクト処理後の認識精度（ＣＮＮの場合）について説明するためのイメージ図である。領域１２１ａは、特徴ベクトルが、文字１０１ａと認識される領域を示す。領域１２１ｂは、特徴ベクトルが、文字１０１ｂと認識される領域を示す。識別境界１２２は、文字１０１ａ及び文字１０１ｂの識別境界を示す。図３Ｂに示すように、ＣＮＮの場合では、識別境界１２２付近にパターンが集中しやすい。そのため、領域１２３に存在するパターンが、リジェクト処理によってリジェクトされた判定不能の処理結果も含めると、ＣＮＮの場合の認識精度は、部分空間法の場合の認識精度よりも低くなる。

【0024】

なお、特許文献２乃至５のように、ニューラルネットワークによる識別及び学習の過程で特徴ベクトル空間中の部分空間への射影を利用する技術がある。しかし、これらは部分空間がニューラルネットワークの一部分として学習されないため、その効果として特徴ベクトル空間上の各クラスの分離を期待できない。従って部分空間法系の手法に比べ誤読を削減するためにより多くの正読パターンをリジェクトせねばならず、リジェクト処理後の高精度を期待できない。

【0025】

（第１実施形態）
第１実施形態では、部分空間法系の手法を識別器として取り込んだニューラルネットワークと、それを実用的な時間で学習する近似法を与える文字認識装置、文字認識方法及びプログラムについて説明する。

【0026】

［発明の概要］
第１実施形態の文字認識装置では、通常の畳み込みニューラルネットワークの識別部で用いられる識別器を、線型識別器から、部分空間法系の手法で用いられる二次識別器に置き換える。これにより、畳み込みニューラルネットワークの長所である特徴抽出器の学習による高い認識精度と、部分空間法系の手法の長所であるクラス間分離性とを兼ね備え、従来の技術による認識精度を上回るリジェクト処理後の認識精度を得ることが可能となる。

【0027】

［機能構成の例］
図４は、第１実施形態の文字認識装置１０の機能構成の例を示す図である。第１実施形態の文字認識装置１０は、入力部１１、特徴抽出部１２、識別部１３及び出力部１４を備える。

【0028】

入力部１１は、文字単位に切り離された画像を、入力画像として受け取る。なお、認識対象の文字は任意でよい。例えば、文字には、ひらがな、カタカナ、漢字、アルファベット、数字及び記号等が含まれる。

【0029】

特徴抽出部１２は、入力画像を特徴ベクトルに変換することによって、入力画像の特徴を示す特徴ベクトルを抽出する。

【0030】

識別部１３は、特徴ベクトルに対して演算を行い、認識対象の各クラス（例えば、各認識対象文字を示すクラス）に対する識別スコアを算出する。

【0031】

出力部１４は、識別スコアに基づいて、文字の識別結果（認識結果）と、リジェクト処理によるリジェクトの有無とを判定し、認識結果とリジェクトの有無とを出力する。

【0032】

［文字認識処理の例］
図５は、第１実施形態の文字認識処理の例を示すフローチャートである。はじめに、入力部１１が、文字単位に切り離された画像を、入力画像として受け取る（ステップＳ１０１）。次に、特徴抽出部１２が、ステップＳ１の処理によって入力された入力画像を特徴ベクトルに変換することによって、入力画像の特徴を示す特徴ベクトルを抽出する（ステップＳ１０２）。

【0033】

次に、識別部１３が、ステップＳ１０２の処理によって抽出された特徴ベクトルに対して演算を行い、各クラスに対する識別スコアを算出する（ステップＳ１０３）。

【0034】

次に、出力部１４が、識別スコアから認識結果を決定し、さらに処理開始前に与えられた設定情報に基づいてリジェクト判定を行うか否かを判定する（ステップＳ１０４）。設定情報は、リジェクト判定を行うか否かを示す情報である。設定情報がリジェクト判定を行うことを示す場合、上述のリジェクト処理が実施される。

【0035】

リジェクト判定を行う場合（ステップＳ１０５，Ｙｅｓ）、出力部１４は、識別スコアに基づくリジェクト処理によって、リジェクト判定を行う（ステップＳ１０５）。リジェクト判定を行わない場合（ステップＳ１０５，Ｎｏ）、処理はステップＳ１０６に進む。

【0036】

次に、出力部１４は、少なくとも認識結果を含む出力情報を出力する（ステップＳ１０６）。具体的には、出力部１４は、リジェクト判定を行った場合は、認識結果とリジェクト判定結果とを含む出力情報を出力し、リジェクト判定を行っていない場合は、認識結果を含む出力情報を出力する。

【0037】

また、このとき、認識結果に期待される正解が利用可能であるかを処理開始前に与えられた設定情報に基づいて判定する（ステップＳ１０７）。設定情報は、例えば学習データとして正解が利用可能な学習モード、又は、正解がない未知の入力画像が示す文字を推定する推定モードを示す。

【0038】

図６は、第１実施形態の学習データの例を示す図である。第１実施形態の学習データは、学習画像と正解とを含む。学習画像は、文字を示す入力画像であって、正解と対応付けられている入力画像である。正解は、学習画像に対応する正解の文字を示す。例えば、正解は、文字認識処理の処理結果の正解の文字を示す正解クラスの名称等である。

【0039】

図５に戻り、正解が利用可能でない場合（ステップＳ１０７，Ｎｏ）、処理は終了し、正解が利用可能である場合（ステップＳ１０７，Ｙｅｓ）、出力部１４は、正解を特徴抽出部１２及び識別部１３に渡し、特徴抽出部１２及び識別部１３は、正解から重み更新値を計算し、重み更新値に基づき重みを更新する（ステップＳ１０８）。

【0040】

［各部の詳細］
図７は、第１実施形態の特徴抽出部１２及び識別部１３を実現するニューラルネットワーク１３０の例を示す図である。図７上段のニューラルネットワークは、特徴抽出部１２の処理を表す従来技術（非特許文献３）である。図７下段は、第１実施形態のニューラルネットワーク１３０を示す。第１実施形態のニューラルネットワーク１３０では、図７上段のニューラルネットワークの一部（識別部（全結合層及び識別層）以外の部分）が、特徴抽出器として利用されている。

【0041】

特徴抽出部１２は、ニューラルネットワーク１３０によって実現される特徴抽出器によって、入力画像から特徴ベクトルを計算する。特徴抽出器を実現するニューラルネットワークの処理の詳細は、例えば非特許文献２に記載されている。

【0042】

識別部１３は、特徴抽出部１２が出力した特徴ベクトルから各クラスｃの認識スコアを二次識別関数により計算する。ここで二次識別関数とは、特徴ベクトルｘに対して下記式（１）の形で、各クラスｃ毎に与えられる関数である。

【0043】

【数1】

【0044】

または、二次識別関数とは、特徴ベクトルｘを単位長に正規化した下記式（２）で表される特徴ベクトルに対して、下記式（３）の形で、各クラスｃ毎に与えられる関数を指す。

【0045】

【数2】

【数3】

【0046】

これらの関数は非特許文献１に示される部分空間法系の識別関数形の一般化であり、Ｐ_ｃは当該クラスの特徴ベクトルの分布をガウス分布とみて推定した際の共分散行列またはその定数倍に相当する。二次識別関数の名は、これらの識別関数がＰ_ｃを係数行列とする特徴ベクトルｘ、または上記式（２）で表された特徴ベクトルの二次形式の項を含むことに由来する。

【0047】

通常のニューラルネットワークでは、識別関数が、下記式（４）の線型識別関数であることが、本実施形態が従来の技術と異なる点である。

【0048】

【数4】

【0049】

また、本実施形態では、上記式（１）及び（３）の識別関数のいずれも、値が大きいほど入力文字が当該クラスに属するという仮説が尤もらしくなるように符号を定める。なお、以下では二次識別関数については上記式（１）又は（３）の関数形を前提とするが、これらの関数形の関数値を単調増加関数に与えた関数、及び、いずれかの項に微小な補正を加えた関数など、厳密または近似的に等価な識別結果を与える関数を用いても同様の手順で識別部を構成することができる。

【0050】

出力部１４は、識別部１３で計算された識別関数の値、即ち識別スコアが最大のクラスを識別結果として決定する。また、出力部１４は、リジェクト処理が処理開始前に与えられた設定情報において有効化されていた場合は、各クラスの識別スコアに基づきリジェクト判定を実施する。

【0051】

識別スコアに基づくリジェクト判定の方法としては例えば特許文献１の方法を用いることができる。次いで、出力部１４は、リジェクト判定を行った場合は認識結果とリジェクト判定結果とを出力し、リジェクト判定を行っていない場合は認識結果を出力する。またこのとき、認識結果に期待される正解が利用可能であるかを処理開始前に与えられた設定情報に基づいて判定し、正解が利用可能でない場合はそのまま処理を終了し、利用可能である場合は正解を特徴抽出部１２及び識別部１３に渡す。

【0052】

以下は、正解が利用可能である場合の処理について記述する。

【0053】

再び処理を戻された識別部１３では、出力部１４から渡された正解をもとに損失関数及びその勾配を計算し、勾配を特徴抽出部１２に送り、勾配をもとに識別部１３の重みを更新する。ここで損失関数は、上記式（１）の識別関数ｆ_ｃまたは上記式（３）の識別関数ｇ_ｃを用いて定義され、特に非特許文献１に現れる識別関数のように識別関数が対数尤度の定数倍に定数を加えた関数であるときは、従来技術の損失関数をそのまま用いることができる。たとえば、非特許文献４に示されるｓｏｆｔｍａｘｃｒｏｓｓｅｎｔｒｏｐｙ損失関数を用いた場合、損失関数は以下の式（５）～（７）のように定義される。

【0054】

【数5】

【数6】

【数7】

【0055】

ただし、Ｘ＝（ｘ_１，・・・，ｘ_Ｎ）は、特徴ベクトルの全体であり、Ｙ＝（ｙ_１，・・・，ｙ_Ｎ）はＸに対応する正解である。Θ＝（θ_１，・・・，θ_C）、及び、θ_ｃ＝（Ｐ_ｃ，ｑ_ｃ，ｒ_ｃ）は、識別関数のパラメータ即ち識別部１３の重みである。ｐ_ｃは対数尤度であり、ａ，ｂは識別関数値を対数尤度に変換するための定数である。

【0056】

上記例では、識別関数はｆ_ｃの形を用いる。また、Ｒは正則化項である。重みの更新の方法としては非特許文献４に示される確率的勾配法、及び、従来技術における確率的勾配法の改良法等を用いることができる。正則化項としては自明な例としてＲを０とするほか、非特許文献４に示されるＬ^ｐ正則化などの従来の技術を用いることができる。

【0057】

特徴抽出部１２は、識別部１３から入力された勾配をもとに自らの重みを更新する。すなわち、ニューラルネットワーク１３０の重みは、学習画像が示す文字の正解クラスと、学習画像がニューラルネットワーク１３０に入力されたときのニューラルネットワーク１３０の出力と、に基づく損失関数の最適化処理によって決定される。ニューラルネットワーク１３０の重みを学習によって得ることにより、所期の性質を持つ特徴抽出器及び識別器を具体的に実現できる。

【0058】

なお、具体的な重みの更新方法としては、例えば非特許文献４に示される誤差逆伝播法、及び、従来技術における誤差逆伝播法の改良法等を用いることができる。

【0059】

また、第１実施形態では、損失関数の定義中で識別関数にｆ_ｃを用いたが、単純な置き換えにより、ｇ_ｃの形の識別関数でも損失関数を同様に定義することができる。

【0060】

以上、説明したように、第１実施形態の文字認識装置１０は、文字を示す入力画像の入力を受け付け、入力画像から識別された文字を示すクラス毎の識別スコアを出力するニューラルネットワーク１３０を備える。ニューラルネットワーク１３０は、特徴抽出部１２及び識別部１３を備える。特徴抽出部１２は、入力画像から、文字の特徴を示す特徴ベクトルを抽出する。識別部１３は、特徴ベクトルの二次識別関数、または、単位長に正規化された前記特徴ベクトルの二次識別関数を用いて、クラス毎の識別スコアを算出する。

【0061】

すなわち、第１実施形態の文字認識装置１０は、畳み込みニューラルネットワークの長所である特徴抽出器の学習による高い認識精度と、識別器として用いられた二次識別関数系の手法の長所であるクラス間分離性とを兼ね備える。

【0062】

これにより、第１実施形態の文字認識装置１０によれば、リジェクト処理後の認識精度を更に向上させることができる。具体的には、識別部１３を通常のＣＮＮのような線型識別器に代えて、部分空間法またはその派生法としたことにより、認識対象の各クラスのパターンを特徴ベクトル空間中の部分ベクトル空間で表現できる。そのため、パターンの分布が特徴ベクトル空間中の識別境界に集中する現象及び識別スコアがクラス間で近接する問題が軽減される。これにより、識別スコアを用いたリジェクト処理の精度が向上するので、リジェクト処理後の認識精度を従来よりも更に向上させることができる。

【0063】

（第２実施形態）
次に第２実施形態について説明する。第２実施形態の説明では、第１実施形態と同様の説明については省略し、第１実施形態と異なる箇所について説明する。

【0064】

［発明の概要］
第２実施形態では、第１実施形態の識別関数の形に制約を加え、また必要に応じてその重みを異なる表現に置き換える。これによって識別器として部分空間法系の派生法一般を用いることができ、過学習を防ぐことによる認識精度の向上の効果を得ることができる。

【0065】

第２実施形態の文字認識装置１０の機能構成は、第１実施形態と同様（図４参照）である。また、第２実施形態の文字認識処理の流れを示す全体フローについても、第１実施形態と同様（図５参照）である。

【0066】

［各部の詳細］
特徴抽出部１２及び出力部１４の詳細は、第１実施形態と同様である。

【0067】

第２実施形態の識別部１３では、第１実施形態の識別関数においてパラメータＰ_ｃ，ｑ_ｃ，ｒ_ｃ，ｓ_ｃ及びｔ_ｃをすべて学習可能な重みとせず、これらに一定の制約を設ける。例えば識別関数ｇ_ｃにおいて下記式（８）の制約条件を設けることにより識別関数形を部分空間法に制約することができる。

【0068】

【数8】

【0069】

また、識別関数ｇ_ｃにおいて下記式（９）の制約条件を設けることにより識別関数形を疑似ベイズ法に制約することができる。

【0070】

【数9】

【0071】

このとき、非特許文献１にみるように、パラメータＰ_ｃは当該クラスの特徴ベクトルの分布の共分散行列またはその定数倍の低ランク近似とみることができる。また、パラメータＵ_ｃはその共分散行列の上位固有値に付随する固有ベクトルからなる行列である。上位固有値は、共分散行列の複数の固有値のうち、値がより大きい固有値である。また、Ｄ_ｃは共分散行列の固有値から定まる対角行列である。

【0072】

ここで、非特許文献１の方法は、Ｄ_ｃの成分を上記固有値を上位から順に並べた対角行列の下位固有値を定数で置き換えたものに相当するが、単に上記固有値を上位から順に並べた対角行列に単位行列の定数倍を加えたものとするなど、他の低ランク近似手法を用いることもできる。

【0073】

これらの制約において、実際に学習される重みは、二次識別関数のパラメータＰ_ｃ，ｑ_ｃ，ｒ_ｃ，ｓ_ｃ及びｔ_ｃではなく、一部を上記制約条件に現れるパラメータＵ_ｃ及びＤ_ｃにすることができる。また例えば、Ｐ_ｃ＝ｅｘｐΛ_ｃとなるような反対称行列Λ_ｃをパラメータＰ_ｃに代えて用いることもできる。

【0074】

第２実施形態では、二次識別関数の値は、特徴ベクトルまたは正規化された特徴ベクトルと、二次識別関数の中の二次形式の係数行列の固有ベクトルとの内積値の加重和を用いて計算される。加重和の係数は、係数行列の固有値を用いて決定される。それぞれのクラスを識別する二次識別関数に含まれる係数行列は、それぞれのクラスに属する特徴ベクトルの分布を示す共分散行列に基づいて決定される。

【0075】

このとき、第１実施形態と同様に、従来の確率的勾配法などの技術により重みが更新されると、更新後の重みが下記式（１０）などの非線型な制約条件を満たすことが必ずしも保証されない。

【0076】

【数10】

【0077】

このような場合、例えば、非特許文献５に示される学習部分空間法、平均化学習部分空間法、及び、特許文献６に示される方法等により、重み更新過程に制約条件を満たすような重みの補正過程を加えてもよい。また例えば、制約条件が自動的に厳密にまたは近似的に満たされるように重みの更新方法を修正してもよい。

【0078】

以上、説明したように、第２実施形態では、第１実施形態の識別関数の形に制約を加え、二次識別関数の一般的な派生手法を用いる。これにより、識別器として部分空間法系の派生法一般を用いることができ、過学習を防ぐことによる認識精度の向上の効果を得ることができる。

【0079】

（第３実施形態）
次に第３実施形態について説明する。第３実施形態の説明では、第１又は第２実施形態と同様の説明については省略し、第１又は第２実施形態と異なる箇所について説明する。

【0080】

［発明の概要］
第３実施形態では、第２実施形態の損失関数に、識別関数の形に加えられた制約に準ずる正則化項を加える。これにより、重みの更新方法として従来の技術を用いても制約条件が自動的に近似的に満たされ、学習速度を向上させることができる。

【0081】

第３実施形態の文字認識装置１０の機能構成は、第１実施形態と同様（図４参照）である。また、第３実施形態の文字認識処理の流れを示す全体フローについても、第１実施形態と同様（図５参照）である。

【0082】

［各部の詳細］
特徴抽出部１２及び出力部１４の詳細は、第２実施形態と同様である。

【0083】

第３実施形態の識別部１３では、第２実施形態の損失関数において非線型な制約条件に対応する正則化項を追加する。例えば、上記式（１０）の制約条件に対応する正則化項として、下記式（１１）の正則化項を設ける。

【0084】

【数11】

【0085】

損失関数に、共分散行列の複数の固有ベクトルのそれぞれが、互いに正規直交している度合いを評価する正則化項（上記式（１１））を設けることにより、第１実施形態と同様に従来の確率的勾配法などの技術により重みを更新しても制約条件が自動的に近似的に満たされるようになる。これにより、重み更新過程に制約条件を満たすような重みの補正過程を加えたり、制約条件が自動的に満たされるように重みの更新方法を修正することによる計算量の増大を回避することができる。このとき、重みの更新の完了時または更新の途中任意に定めた時点でのみ上記重みの補正を実施し、当該時点で制約条件が厳密に満たされるようにしてもよい。

【0086】

以上、説明したように、第３実施形態では、第２実施形態の損失関数に識別関数の形に加えられた制約に準ずる正則化項を加える。これにより、重みの更新方法として従来の技術を用いても制約条件が自動的に近似的に満たされ、学習速度を向上させることができる。

【0087】

（第４実施形態）
次に第４実施形態について説明する。第４実施形態の説明では、第１乃至第３実施形態と同様の説明については省略し、第１乃至第３実施形態と異なる箇所について説明する。

【0088】

［発明の概要］
第４実施形態では、第３実施形態の正則化項を拡張し、各クラスの分布が特徴ベクトル空間上乖離するようにする。これにより、リジェクトを含めた識別精度を更に向上させることができる。

【0089】

第４実施形態の文字認識装置１０の機能構成は、第１実施形態と同様（図４参照）である。また、第４実施形態の文字認識処理の流れを示す全体フローについても、第１実施形態と同様（図５参照）である。

【0090】

［各部の詳細］
特徴抽出部１２及び出力部１４の詳細は、第３実施形態と同様である。

【0091】

第４実施形態の識別部１３では、第３実施形態の損失関数において正則化項を、各クラスに対応する辞書部分空間を乖離させるように修正する。例えば、上記式（１０）の制約条件は、クラスｃのパターンが辞書部分空間Ｉｍ（Ｕ_ｃＵ_ｃ ^Ｔ）付近に集中して分布することを意味する。従って、異なるクラス間の辞書部分空間を乖離させるため、正則化項を下記式（１２）に修正する。

【0092】

【数12】

【0093】

第４実施形態の損失関数は、共分散行列の複数の固有値のうち、固有値の大きさが大きい順に所定の数だけ選択された複数の上位固有値に対応する上位固有ベクトルが、それぞれの共分散行列に対応するクラス間で互いに正規直交している度合いを評価する正則化項を含む。

【0094】

これにより、各クラスの上位固有値に対応する上位固有ベクトルにより張られる空間が近似的にお互い直交する。したがって、第３実施形態の効果に加え、学習の進展に従って辞書部分空間が互いに直交する状態に近づき、自動的に乖離するようになる。

【0095】

以上、説明したように、第４実施形態によれば、学習された特徴ベクトル空間上で相異なるクラスに対応する辞書部分空間が互いに乖離し直交する状態に近づく。これにより、識別スコアの差異が大きくなることから、リジェクトを含めた認識精度を更に向上させることができる。

【0096】

最後に、第１乃至第４実施形態の文字認識装置１０のハードウェア構成の例について説明する。

【0097】

［ハードウェア構成の例］
図８は、第１乃至第４実施形態の文字認識装置１０のハードウェア構成の例を示す図である。第１乃至第４実施形態の文字認識装置１０は、プロセッサ２０１、主記憶装置２０２、補助記憶装置２０３、表示装置２０４、入力装置２０５及び通信装置２０６を備える。プロセッサ２０１、主記憶装置２０２、補助記憶装置２０３、表示装置２０４、入力装置２０５及び通信装置２０６は、バス２１０を介して接続されている。

【0098】

なお、文字認識装置１０は、上記構成の一部が備えられていなくてもよい。例えば、文字認識装置１０が、外部の装置の入力機能及び表示機能を利用可能な場合、文字認識装置１０に表示装置２０４及び入力装置２０５が備えられていなくてもよい。

【0099】

プロセッサ２０１は、補助記憶装置２０３から主記憶装置２０２に読み出されたプログラムを実行する。主記憶装置２０２は、ＲＯＭ及びＲＡＭ等のメモリである。補助記憶装置２０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びメモリカード等である。

【0100】

表示装置２０４は、例えば液晶ディスプレイ等である。入力装置２０５は、文字認識装置１０を操作するためのインターフェースである。なお、表示装置２０４及び入力装置２０５は、表示機能と入力機能とを有するタッチパネル等により実現されていてもよい。通信装置２０６は、他の装置と通信するためのインターフェースである。

【0101】

文字認識装置１０で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、メモリカード、ＣＤ－Ｒ及びＤＶＤ等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

【0102】

また文字認識装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また文字認識装置１０で実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

【0103】

また文字認識装置１０のプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

【0104】

文字認識装置１０で実行されるプログラムは、上述の図４の機能構成のうち、プログラムによっても実現可能な機能を含むモジュール構成となっている。当該各機能は、実際のハードウェアとしては、プロセッサ２０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置２０２上にロードされる。すなわち上記各機能ブロックは主記憶装置２０２上に生成される。

【0105】

なお上述した図４の各機能の一部又は全部をソフトウェアにより実現せずに、ＩＣ等のハードウェアにより実現してもよい。

【0106】

また複数のプロセッサ２０１を用いて各機能を実現してもよく、その場合、各プロセッサ２０１は、各機能のうち１つを実現してもよいし、各機能のうち２以上を実現してもよい。

【0107】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0108】

１入力部
２特徴抽出部
３識別部
４出力部
１０文字認識装置
１１入力部
１２特徴抽出部
１３識別部
１４出力部
１３０ニューラルネットワーク
２０１プロセッサ
２０２主記憶装置
２０３補助記憶装置
２０４表示装置
２０５入力装置
２０６通信装置
２１０バス

【図1】