特許6235368 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

特許6235368パターン認識装置、パターン認識方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6235368

(24)【登録日】2017年11月2日

(45)【発行日】2017年11月22日

(54)【発明の名称】パターン認識装置、パターン認識方法およびプログラム

(51)【国際特許分類】

G06K 9/68 20060101AFI20171113BHJP

G06K 9/62 20060101ALI20171113BHJP

【ＦＩ】

G06K9/68 E

G06K9/62 630A

G06K9/68 B

【請求項の数】7

【全頁数】12

(21)【出願番号】特願2014-27689(P2014-27689)

(22)【出願日】2014年2月17日

(65)【公開番号】特開2015-153240(P2015-153240A)

(43)【公開日】2015年8月24日

【審査請求日】2016年9月23日

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(73)【特許権者】

【識別番号】301063496

【氏名又は名称】東芝デジタルソリューションズ株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】小野聡一郎

(72)【発明者】

【氏名】水谷博之

【審査官】板垣有紀

(56)【参考文献】

【文献】特開昭５８−０８４３７２（ＪＰ，Ａ）

【文献】特開平１１−２１３０９３（ＪＰ，Ａ）

【文献】特開平２−２２４０８５（ＪＰ，Ａ）

【文献】特開２００９−２８２９４０（ＪＰ，Ａ）

【文献】特開２０１２−２４２５９０（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｋ９／６８

Ｇ０６Ｋ９／６２

(57)【特許請求の範囲】

【請求項1】

入力された信号を複数の要素に分割する分割部と、
分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出部と、
認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識部と、を備え、
前記認識辞書は、それぞれのクラスに対応するモデルを含み、
前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするパターン認識装置。

【請求項2】

前記サブモデルは、各状態が線形に順序づけられ、上位の状態から下位の状態への遷移が禁じられていることを特徴とする請求項１に記載のパターン認識装置。

【請求項3】

前記認識辞書は、いずれのクラスにも対応しないモデルであるリジェクトモデルを含み、
前記認識部は、前記特徴ベクトルの集合が前記リジェクトモデルに適合する場合、前記認識結果が得られないことを示す情報を出力することを特徴とする請求項１または２に記載のパターン認識装置。

【請求項4】

前記認識辞書に含まれる前記モデルのうち少なくとも１つは、該モデルに対応するクラスに分類されるべき信号に含まれる要素のいずれにも対応しない状態であるノイズ状態をさらに有することを特徴とする請求項１〜３のいずれか一項に記載のパターン認識装置。

【請求項5】

前記サブモデルが有する状態は、学習データとなる信号を前記パターン認識装置に入力したときに該状態への入力となる前記特徴ベクトルの集合および入力される確率によって、該状態が保持する関数が決定されることを特徴とする請求項１〜４のいずれか一項に記載のパターン認識装置。

【請求項6】

パターン認識装置において実行されるパターン認識方法であって、
前記パターン認識装置が、入力された信号を複数の要素に分割する分割ステップと、
前記パターン認識装置が、分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出ステップと、
前記パターン認識装置が、認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識ステップと、を含み、
前記認識辞書は、それぞれのクラスに対応するモデルを含み、
前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
前記認識ステップでは、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするパターン認識方法。

【請求項7】

コンピュータに、
入力された信号を複数の要素に分割する分割部の機能と、
分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出部の機能と、
認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識部の機能と、を実現させるプログラムであって、
前記認識辞書は、それぞれのクラスに対応するモデルを含み、
前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、パターン認識装置、パターン認識方法およびプログラムに関する。

【背景技術】

【0002】

パターン認識の分野では、認識単位の区切りが明らかでない入力信号をパターン認識するための方法として、以下の２つの方法が知られている。１つ目の方法は、入力信号を複数の要素に分割した後に所定の基準に従って結合し、それぞれを個別に認識する方法（以下、この方法を「解析的方法」と呼ぶ。）である。２つ目の方法は、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）などの確率モデルを用いて、入力信号の分割箇所としてあらゆる可能性を考えながら認識と分割を同時に行う方法（以下、この方法を「全体的方法」と呼ぶ。）である。

【0003】

しかし、解析的方法では、一旦分割した要素をヒューリスティックな方法によって結合するため、認識の精度が十分に確保できない場合がある。一方、全体的方法では、あらゆる分割箇所の可能性を考えながら処理を行うため計算量が大きく、高いスペックのハードウェア資源が要求される。このように、解析的方法と全体的方法にはそれぞれ欠点があるため、これらの欠点を解消した新たな技術の提供が望まれている。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】村瀬洋ほか、“言語情報を導入した手書き文字列からの文字の切り出しと認識”、信学論（D）、J69-D(9)、pp.1292-1301、1986

【非特許文献2】F．Camastra et al．“Machine Learning for Audio，Image and Video Analysis：Theory and Applications”、Springer-Verlag、2007

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明が解決しようとする課題は、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができるパターン認識装置、パターン認識方法およびプログラムを提供することである。

【課題を解決するための手段】

【0006】

実施形態のパターン認識装置は、分割部と、特徴抽出部と、認識部と、を備える。分割部は、入力された信号を複数の要素に分割する。特徴抽出部は、分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する。認識部は、認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。前記認識部が用いる前記認識辞書は、それぞれのクラスに対応するモデルを含み、前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有する。前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力する。

【図面の簡単な説明】

【0007】

【図1】図１は、実施形態のパターン認識装置の機能的な構成例を示すブロック図である。

【図2】図２は、入力された信号を複数の要素に分割する処理の概念図である。

【図3】図３は、認識辞書に含まれるモデルの概念図である。

【図4】図４は、認識辞書に含まれるモデルの概念図である。

【図5】図５は、実施形態のパターン認識装置による処理手順の一例を示すフローチャートである。

【図6】図６は、従来の解析的方法を説明する概念図である。

【図7】図７は、ノイズ状態を含むモデルの概念図である。

【図8】図８は、韓国語文字を要素に分割する処理の概念図である。

【図9】図９は、韓国語文字の分割パターンの一例を示す図である。

【図10】図１０は、実施形態のパターン認識装置のハードウェア構成例を示すブロック図である。

【発明を実施するための形態】

【0008】

以下、実施形態のパターン認識装置、パターン認識方法およびプログラムを、図面を参照しながら説明する。

【0009】

本実施形態のパターン認識装置は、従来の解析的方法と全体的方法とを組み合わせた新規な方法により、認識単位の区切りが明らかでない入力信号に対するパターン認識を行う。すなわち、入力された信号を複数の要素に分割して要素の特徴ベクトルの集合を求め、確率モデルを用いて、特徴ベクトルの集合に適合するクラスまたはその集合を表す認識結果を出力することを基本概念とする。

【0010】

ここで、入力された信号を複数の要素に分割する際の分割の仕方（分割パターン）は、一般に、それぞれのクラスについて１通りではない。例えば、入力された信号が手書き文字の画像であれば、書き手の癖などによって異なる形態となり得るため、同じクラスに分類されるべき信号であっても、異なる分割パターンで分割される場合がある。そして、同じクラスに分類されるべき信号が異なる分割パターンで分割されると、分割されたそれぞれの要素から抽出される特徴ベクトルの分布および個数が大きく異なるため、隠れマルコフモデルにおけるｌｅｆｔ−ｔｏ−ｒｉｇｈｔモデル（非特許文献２を参照）などの標準的なモデルでは、入力された信号を正しく認識することができない。

【0011】

そこで、本実施形態では、それぞれのクラスについて、そのクラスに分類されるべき信号が取り得る分割パターンのそれぞれをサブモデルとし、これらサブモデルすべてを結合したものを、当該クラスに対応するモデルとして用いる。

【0012】

図１は、本実施形態のパターン認識装置の機能的な構成を示すブロック図である。図１に示すように、本実施形態のパターン認識装置は、信号入力部１、分割部２、特徴抽出部３、および認識部４を備える。

【0013】

信号入力部１は、認識対象となる信号の入力を受け付ける。認識対象となる信号は、例えば、画像として表される文字や文字列、その他の画像、波形として表される音声信号や各種のセンサ信号などであり、これらのディジタル情報、または必要に応じて二値化などの前処理を施したディジタル情報が、信号入力部１に入力される。

【0014】

分割部２は、信号入力部１に入力された信号を、複数の要素に分割する。具体的には、信号入力部１に入力された信号が文字列画像である場合、分割部２の処理は、例えば、下記の参考文献１に記載されている射影および連結成分分析、あるいは非特許文献１に記載されている「基本セグメントへの分割」の方法などを適用することで実現できる。
＜参考文献１＞A．Rosenfeld ほか、「ディジタル画像処理」（長尾真監訳）、近代科学社、1978年

【0015】

図２は、入力された信号を複数の要素に分割する処理の概念図であり、「水の」という文字列画像が分割部２によって５つの要素に分割された様子を示している。この図２に示す例では文字列画像を分割する方向が一方向であるが、これに限らず、二次元の分割パターンで信号を複数の要素に分割してもよい。

【0016】

また、信号入力部１に入力された信号が音声信号や各種のセンサ信号などのように時系列の波形で表される信号である場合、分割部２の処理は、例えば、信号のパワーが閾値以下になっている状態が一定時間以上継続している箇所を分割箇所とする方法などを適用することで実現できる。

【0017】

分割した各要素には、それぞれ順序が与えられる。各要素の順序は、元の信号が画像であれば画像中の水平方向の座標、元の信号が音声信号やセンサ信号などの時系列の波形であれば時刻などを基準に、分割した各要素の順序を定めることができる。このとき、分割した各要素に系列などの構造を持たせ、構造内における位置情報を付与してもよい。具体的な例として、図２に示した文字列画像から分割された各要素に対し、左から順に番号を位置情報として付与する方法や、音声信号や各種のセンサ信号などの時系列の波形から分割された各要素に対し、時刻が早い順に番号を位置情報として付与する方法が考えられる。また、分割の方向が一方向でない画像を扱う場合は、後述するように、分割パターンごとにその分割パターンで分割される各要素の記号を予め定めておき（図８参照）、その記号を位置情報として付与する方法などが考えられる。

【0018】

特徴抽出部３は、分割部２によって分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して、特徴ベクトルの集合を生成する。具体的には、特徴抽出部３は、まず分割されたそれぞれの要素をなす信号に、長さや量子化レベルを正規化するなどの前処理を施す。そして、特徴抽出部３は、その前処理後の値や、前処理後の信号にさらにガウシアンフィルタなどのフィルタ処理やフーリエ変換などの変換処理を施した後の値を成分とする特徴ベクトルを、その要素の特徴ベクトルとして出力する。このとき、各要素の特徴ベクトルを、すべてノルムが１となるように正規化してもよい。特徴抽出部３は、このようにしてそれぞれの要素から特徴ベクトルを１つずつ抽出し、特徴ベクトル集合を生成する。

【0019】

要素を特徴ベクトルに変換する処理の具体例としては、例えば、音声信号の要素それぞれの時間を正規化した後、下記の参考文献２に記載されているメル周波数ケプストラム係数特徴を抽出して、それらの値をそのまま並べて特徴ベクトルとする方法がある。また、画像の要素それぞれから、下記の参考文献３に記載されている加重方向指数ヒストグラム特徴を抽出する方法がある。
＜参考文献２＞古井貞熙、「新音響音声工学」、近代科学社、2006年
＜参考文献３＞鶴岡信治ほか、“加重方向指数ヒストグラム法による手書き漢字・ひらがな認識” 信学論（D）、J70-D(7)、pp.1390-1397、1987

【0020】

認識部４は、認識辞書１０を用いて、特徴抽出部３により生成された特徴ベクトルの集合を評価し、信号入力部１に入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。

【0021】

認識辞書１０は、本実施形態のパターン認識装置が信号の分類先として扱うそれぞれのクラスに対応するモデルを含むデータベースであり、本実施形態のパターン認識装置の内部または外部に保持される。認識辞書１０が保持する各クラスのモデルは確率モデルであり、隠れマルコフモデルを含む任意のグラフィカルモデル（下記の参考文献４を参照）を用いることができる。
＜参考文献４＞C．M．ビショップほか、「パターン認識と機械学習」（村田昇監訳）、シュプリンガー・ジャパン、2007年

【0022】

認識部４は、この認識辞書１０に含まれるモデルを単独あるいは後述するように組み合わせて、特徴抽出部３により生成された特徴ベクトルの集合との最適な対応を探索する。そして、認識部４は、特徴ベクトルの集合に適合するモデルを表現するラベル、または特徴ベクトルの集合に適合するモデルの集合を表現するラベルの集合を、認識結果として出力する。

【0023】

図３および図４は、認識辞書１０に含まれるモデルＭの概念図である。図３は、「水」という文字画像が分類されるべきクラスに対応するモデルＭの例であり、図４は、「トウキョウト」の音声信号が分類されるべきクラスに対応するモデルＭの例である。

【0024】

本実施形態で扱うモデルＭは、図３および図４に示すように、そのモデルＭに対応するクラスに分類されるべき信号が分割部２によって複数の要素に分割される際に取り得る分割パターンのそれぞれをサブモデルｍとし、これらサブモデルｍのすべてを結合したものである。それぞれのサブモデルｍが選択される確率は、予め用意した学習データにおいて、対応する分割パターンそれぞれの出現率と一致させる。あるいは、モデルＭおよびサブモデルｍが選択される確率について一様分布などの事前分布を与え、これに基づいてモデルＭおよびサブモデルｍが選択される確率をＭＡＰ推定（参考文献４を参照）することもできる。

【0025】

各モデルＭのサブモデルｍは、例えば、該サブモデルｍに対応する分割パターンによって分割された各要素のそれぞれに対応する状態ｓをノードに持つ有向グラフとして構成される。この場合、サブモデルｍは、隠れマルコフモデルにおけるｌｅｆｔ−ｔｏ−ｒｉｇｈｔモデルのように、状態ｓが一方向にしか遷移できないものとしてもよい。つまり、サブモデルｍは、各状態ｓが線形に順序づけられ、上位の状態ｓから下位の状態ｓへの遷移が禁じられた構成であってもよい。図３および図４に示した例は、状態ｓが一方向にしか遷移できないサブモデルｍを結合したモデルＭを例示している。サブモデルｍをこのように構成することで、分類されるクラスまたはクラスの集合が予め分かっている学習データを分割部２に渡したときに、サブモデルｍの各状態ｓに対する、分割された各要素の割り当てを決定的に与えることができる。

【0026】

サブモデルｍのそれぞれの状態ｓは、特徴ベクトルと該状態ｓを表すラベルの関数によって表現され、例えばこの関数をガウス分布の確率密度関数として、特徴ベクトルの対数尤度を関数の出力とすることができる。このとき、分布のパラメータは、上述したように、分類されるクラスまたはクラスの集合が予め分かっている学習データを用い、例えば参考文献４に記載されているＥＭアルゴリズム、変分ベイズ法、勾配法などの方法で推定することができる。

【0027】

ここで、以上のようなモデルＭを用いた認識部４の処理の具体例を説明する。なお、以下の説明は、入力信号が複数のクラスの系列として分類される例を想定しているが、入力信号が１つのクラスに分類される場合も同様の説明が当てはまる。

【0028】

入力信号から得られた特徴ベクトル列（特徴ベクトルの集合）ｘ_１，・・・，ｘ_ｎの長さｎ以下の個数、重複を許して、モデルＭを順序付きで選択しＭ_１，・・・，Ｍ_ｐとおく。さらに、それぞれのモデルＭからサブモデルｍを１つずつ選択してｍ_１，・・・，ｍ_ｐとおき、合計の長さが特徴ベクトル列と等しくなるようにする。そして、このようにして得られたサブモデルｍの状態をｓ_１，・・・，ｓ_ｎとおき、特徴ベクトルの評価関数を下記式（１）の形で与える。

【数1】

ただし、ｆ_１はＮグラム（下記の参考文献５を参照）の確率など、モデルＭの列自体によって決まる評価関数、ｆ_２^（ｉ）はサブモデルｍの選択確率など、モデルＭ^ｉにおいてサブモデルｍ_ｉを選択することに伴う評価関数、ｆ_３^（ｊ）は状態ｓ_ｊの確率密度関数など、状態ｓ_ｊに特徴ベクトルｘ_ｊを割り当てることに伴う評価関数である。
＜参考文献５＞北研二、「確率的言語モデル」（言語と計算５）、東京大学出版会、1999年

【0029】

このとき、サブモデルｍを、上述したように状態ｓが一方向にしか遷移できないものとして構成した場合、これを最大化するＭ_１，・・・，Ｍ_ｐおよびｍ_１，・・・，ｍ_ｐは、非特許文献２に示されるように、Ｖｉｔｅｒｂｉのアルゴリズムによって効率的に計算することができる。そして、これを最大化するＭ_１，・・・，Ｍ_ｐを認識結果として出力する。

【0030】

次に、本実施形態のパターン認識装置による処理の概要について、図５に沿って説明する。図５は、本実施形態のパターン認識装置による処理手順の一例を示すフローチャートである。

【0031】

まず、信号入力部１が、認識対象となる信号の入力を受け付ける（ステップＳ１０１）。信号入力部１に入力された信号は、分割部２に渡される。

【0032】

次に、分割部２が、ステップＳ１０１で入力された信号を信号入力部１から受け取り、この信号を複数の要素に分割する（ステップＳ１０２）。分割部２により分割された各要素のそれぞれは、特徴抽出部３に渡される。

【0033】

次に、特徴抽出部３が、ステップＳ１０２で分割された各要素を分割部２から受け取り、これらの各要素について、上述した方法によって特徴ベクトルを求めて、特徴ベクトルの集合を生成する（ステップＳ１０３）。特徴抽出部３により生成された特徴ベクトルの集合は、認識部４に渡される。

【0034】

次に、認識部４が、ステップＳ１０３で生成された特徴ベクトルの集合を特徴抽出部３から受け取り、認識辞書１０を用いて特徴ベクトルの集合を評価して、ステップＳ１０１で入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する（ステップＳ１０４）。

【0035】

以上、具体的な例を挙げながら説明したように、本実施形態では、信号の分類先となるそれぞれのクラスに対応するモデルＭとして、そのモデルＭに分類されるべき信号の様々な分割パターンに対応するサブモデルｍを結合した確率モデルを定義する。そして、このようなクラスごとのモデルＭを含む認識辞書１０を用いて、入力された信号から得られる特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。したがって、本実施形態のパターン認識装置によれば、従来の解析的方法と全体的方法のそれぞれの欠点を解消し、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができる。

【0036】

従来の解析的方法では、図６に示すように、入力された信号を複数の要素に分割した後に、認識対象となる単位（図６の例では文字）に結合してパターンマッチングなどによる認識を行うが、要素の結合は、例えば文字の平均的な大きさを想定して区切りを決めるなど、ヒューリスティックな方法で行っている。このため、図６の例では、例えばＡの要素とＢの要素、Ｃの要素とＤの要素をそれぞれ１つの認識対象として処理を行ってしまう場合があり、この場合は認識の精度が十分に確保できない。これに対して本実施形態のパターン認識装置では、信号の分類先として扱うそれぞれのクラスに対応した確率モデルであるモデルＭを用い、入力された信号から得られる特徴ベクトルの集合に適合するモデルＭあるいはその集合を探索して、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力するので、認識単位の区切りが明らかでない入力信号に対して、精度のよい認識を行うことができる。

【0037】

また、従来の全体的方法では、隠れマルコフモデルなどの確率モデルを用いて入力信号のパターン認識を行うが、様々な分割箇所の可能性を考えながら処理を行うため計算量が大きく、高いスペックのハードウェア資源が要求される。これに対して本実施形態のパターン認識装置では、クラスごとに予め想定される分割パターンに対応するサブモデルｍを結合したモデルＭを用いて、入力された信号から得られる特徴ベクトルの集合に適合するモデルＭあるいはその集合を探索し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力するので、少ない計算量で認識を行うことができる。

【0038】

以上のように、本実施形態のパターン認識装置によれば、従来の解析的方法と全体的方法のそれぞれの欠点を解消し、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができる。

【0039】

なお、本実施形態で用いる認識辞書１０は、信号の分類先となるいずれのクラスにも対応しないリジェクトモデルを含んでいてもよい。このリジェクトモデルとしては、例えば、他のモデルＭの一部のサブモデルｍのみを抽出して１つのモデルとしたものや、ランダムにパラメータ値を定めたものを連結したモデルを用いることができる。この場合、認識部４は、例えば上記の式（１）中のＭ_１，・・・Ｍ_ｐの中にリジェクトモデルが含まれた場合、これをリジェクトとして扱い、認識結果が得られないことを示す情報を出力する。これにより、誤った記載の手書き文字の画像が入力された場合など、入力された信号自体が正しくない場合に、その旨をユーザに伝えることができる。

【0040】

また、入力信号に含まれるノイズが誤って１つの要素として扱われることを想定し、以上のようなリジェクトモデルの１つとして、ただ１つの状態からなるただ１つのサブモデルを有するモデル（ノイズモデル）を設け、このノイズモデル中のただ１つの状態に対応する評価関数は値０を返すか、ランダムにパラメータ値を定めたものとしてもよい。

【0041】

また、認識辞書１０に含まれるモデルＭのうちの少なくとも１つは、図７に示すように、このモデルＭに対応するクラスに分類されるべき信号に含まれる要素のいずれにも対応しない状態であるノイズ状態ｓ’を有するように構成してもよい。モデルＭをこのように構成することで、入力信号に含まれるノイズが誤って１つの要素として扱われても、その要素をノイズとして正しく認識して、ノイズの混入による認識精度の低下を有効に抑制することができる。

【0042】

また、以上の説明は、主に、入力された信号を要素に分割する際の分割の方向が一方向である場合を想定したが、分割の方向が一方向でない場合であっても、その分割パターンを予め定めておけば同様の処理が可能である。例えば、韓国語文字などは、二次元の分割パターンで要素に分割することが望ましく、本実施形態のパターン認識装置は、このような韓国語文字の認識にも有効に適用できる。

【0043】

図８は、韓国語文字を要素に分割する処理の概念図である。認識対象となる信号として韓国語の文字列の画像が入力された場合は、例えば、図８（ａ）に示すように、まず縦方向の射影により文字列の画像を文字単位に分割する。そして、各文字について連結成分分析を行い、連結成分のうち隣接するものの組を一つ選んでそれらを縦方向に統合する操作を、図８（ｂ）のように予め定められた分割パターンのいずれかに一致するまで繰り返す。そして、以上の操作により得られた要素のそれぞれについて、分割パターンごとに予め定められた各要素の記号を位置情報として与える。

【0044】

図８（ａ）に示す韓国語文字列のうち最も左の文字は、図９に示すように、図８（ｂ）の分割パターンのうちの０、２、４で示される分割パターンで分割される可能性がある。そこで、この文字が分類されるべきクラスに対応するモデルＭは、この図９に示した分割パターンのそれぞれに対応するサブモデルｍを結合したものとする。これにより、上述した方法と同様の方法によって、高精度のパターン認識を行うことができる。

【0045】

本実施形態のパターン認識装置は、例えば図１０に示すように、ＣＰＵ（Central Processing Unit）１０１などのプロセッサ、ＲＯＭ（Read Only Memory）１０２やＲＡＭ（Random Access Memory）１０３などの記憶装置、ＨＤＤ（Hard Disk Drive）１０４などの補助記憶装置、ネットワークに接続して通信を行う通信Ｉ／Ｆ１０５、各部を接続するバス１０６などを備えた、通常のコンピュータを利用したハードウェア構成を採用することができる。この場合、上述した各機能的な構成要素は、コンピュータ上で所定のパターン認識プログラムを実行することによって実現することができる。

【0046】

このパターン認識プログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。

【0047】

また、このパターン認識プログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このパターン認識プログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。

【0048】

また、このパターン認識プログラムを、ＲＯＭ１０２等に予め組み込んで提供するように構成してもよい。

【0049】

このパターン認識プログラムは、本実施形態のパターン認識装置の各処理部（信号入力部１、分割部２、特徴抽出部３、および認識部４）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、ＣＰＵ１０１（プロセッサ）が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がＲＡＭ１０３（主記憶）上にロードされ、上述した各処理部がＲＡＭ１０３（主記憶）上に生成されるようになっている。なお、本実施形態のパターン認識装置は、上述した各処理部の一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェアを用いて実現することも可能である。

【0050】

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0051】

１信号入力部
２分割部
３特徴抽出部
４認識部
１０認識辞書
Ｍモデル
ｍサブモデル
ｓ状態

【図1】