特許5989576 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許5989576パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5989576

(24)【登録日】2016年8月19日

(45)【発行日】2016年9月7日

(54)【発明の名称】パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法

(51)【国際特許分類】

G06N 99/00 20100101AFI20160825BHJP

G06T 7/00 20060101ALI20160825BHJP

G10L 15/18 20130101ALI20160825BHJP

G10L 15/10 20060101ALI20160825BHJP

G10L 15/06 20130101ALI20160825BHJP

【ＦＩ】

G06N99/00 150

G06T7/00 350B

G10L15/18 300H

G10L15/10 300Z

G10L15/06 400Z

【請求項の数】7

【全頁数】17

(21)【出願番号】特願2013-45895(P2013-45895)

(22)【出願日】2013年3月7日

(65)【公開番号】特開2014-174693(P2014-174693A)

(43)【公開日】2014年9月22日

【審査請求日】2015年9月14日

(73)【特許権者】

【識別番号】000003078

【氏名又は名称】株式会社東芝

(74)【代理人】

【識別番号】110002147

【氏名又は名称】特許業務法人酒井国際特許事務所

(72)【発明者】

【氏名】藤村浩司

(72)【発明者】

【氏名】益子貴史

【審査官】石川亮

(56)【参考文献】

【文献】藤村浩司外３名，ＡｄａＢｏｏｓｔ音素識別器によるＮベストリスコアリングの検討，日本音響学会２０１１年春季研究発表会講演論文集ＣＤ−ＲＯＭ，２０１１年３月２日，p.13-14

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｎ９９／００

Ｇ０６Ｔ７／００

Ｇ１０Ｌ１５／０６

Ｇ１０Ｌ１５／１０

Ｇ１０Ｌ１５／１８

(57)【特許請求の範囲】

【請求項1】

複数のサブクラスに分割されるクラスに入力パターンが属するか否かを識別するパターン識別装置であって、
前記入力パターンと、前記入力パターンの属性情報と、を受付ける受付部と、
前記入力パターンが属する前記サブクラスを少なくとも前記属性情報に基づいて決定する決定部と、
決定された前記サブクラスに割り当てられた弱識別器を用いて、前記入力パターンが前記クラスに属するか否かを識別し、識別結果と前記弱識別器の信頼度を出力する実行部と、
前記識別結果および前記信頼度に基づく評価値を積算した積算値を算出する算出部と、
前記決定部、前記実行部、および、前記算出部による識別処理の終了条件が満たされたか否かを判定し、前記終了条件が満たされていない場合は、前記識別処理を繰り返し、前記終了条件が満たされた場合は、前記識別処理を終了し、終了したときの前記積算値を出力する判定部と、
を備えるパターン識別装置。

【請求項2】

前記決定部は、前記入力パターンと、前記属性情報とに基づいて、前記入力パターンが属する前記サブクラスを決定する、
請求項１に記載のパターン識別装置。

【請求項3】

音声を入力する音声入力部と、
前記音声に含まれる音素の１以上の候補を生成する候補生成部と、をさらに備え、
前記受付部は、前記候補を入力パターンとして受付け、
前記判定部は、前記積算値に基づいて前記候補が前記クラスに属するか否かを判定し、
前記判定部による判定結果に基づいて、前記候補から１の候補を選択する候補選択部と、をさらに備える、
請求項１に記載のパターン識別装置。

【請求項4】

複数のサブクラスに分割されるクラスに入力パターンが属するか否かを識別するパターン識別装置で実行されるパターン識別方法であって、
前記入力パターンと、前記入力パターンの属性情報と、を受付ける受付ステップと、
前記入力パターンが属する前記サブクラスを少なくとも前記属性情報に基づいて決定する決定ステップと、
決定された前記サブクラスに割り当てられた弱識別器を用いて、前記入力パターンが前記クラスに属するか否かを識別し、識別結果と前記弱識別器の信頼度を出力する実行ステップと、
前記識別結果および前記信頼度に基づく評価値を積算した積算値を算出する算出ステップと、
前記決定ステップ、前記実行ステップ、および、前記算出ステップによる識別処理の終了条件が満たされたか否かを判定し、前記終了条件が満たされていない場合は、前記識別処理を繰り返し、前記終了条件が満たされた場合は、前記識別処理を終了し、終了したときの前記積算値を出力する判定ステップと、
を含むパターン識別方法。

【請求項5】

複数のサブクラスに分割されるクラスに入力パターンが属するか否かを識別するパターン識別装置を、
前記入力パターンと、前記入力パターンの属性情報と、を受付ける受付部と、
前記入力パターンが属する前記サブクラスを少なくとも前記属性情報に基づいて決定する決定部と、
決定された前記サブクラスに割り当てられた弱識別器を用いて、前記入力パターンが前記クラスに属するか否かを識別し、識別結果と前記弱識別器の信頼度を出力する実行部と、
前記識別結果および前記信頼度に基づく評価値を積算した積算値を算出する算出部と、
前記決定部、前記実行部、および、前記算出部による識別処理の終了条件が満たされたか否かを判定し、前記終了条件が満たされていない場合は、前記識別処理を繰り返し、前記終了条件が満たされた場合は、前記識別処理を終了し、終了したときの前記積算値を出力する判定部と、
として機能させるためのプログラム。

【請求項6】

入力パターンの属性情報に基づいて、入力パターンをサブクラスに分割するルールを表す複数の分割ルールを記憶するルール記憶部と、
前記入力パターンと重みとを含む複数の学習データを、前記分割ルールおよび前記属性情報に基づいて複数の前記サブクラスに対応する複数のサブクラスデータに分割する分割部と、
分割された前記サブクラスデータそれぞれに対して、複数の弱識別器のうち、前記サブクラスデータに対する適合度が高い弱識別器を探索する探索部と、
探索された前記弱識別器の信頼度を算出し、複数の前記分割ルールから、前記信頼度が高い前記弱識別器に対応する前記分割ルールを選択するルール選択部と、
選択された前記分割ルールに対応する前記弱識別器の前記信頼度に基づいて前記学習データに含まれる前記重みを更新する更新部と、
を備える学習装置。

【請求項7】

学習装置で実行される学習方法であって、
前記学習装置は、入力パターンの属性情報に基づいて、入力パターンをサブクラスに分割するルールを表す複数の分割ルールを記憶するルール記憶部を備え、
前記入力パターンと重みとを含む複数の学習データを、前記分割ルールおよび前記属性情報に基づいて複数の前記サブクラスに対応する複数のサブクラスデータに分割する分割ステップと、
分割された前記サブクラスデータそれぞれに対して、複数の弱識別器のうち、前記サブクラスデータに対する適合度が高い弱識別器を探索する探索ステップと、
探索された前記弱識別器の信頼度を算出し、複数の前記分割ルールから、前記信頼度が高い前記弱識別器に対応する前記分割ルールを選択するルール選択ステップと、
選択された前記分割ルールに対応する前記弱識別器の前記信頼度に基づいて前記学習データに含まれる前記重みを更新する更新ステップと、
を含む学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法に関する。

【背景技術】

【0002】

パターン識別装置として、複数の弱識別器をカスケード接続して１つの識別器を構成するＡｄａＢｏｏｓｔという手法が知られている。以下では、弱識別器を複数連結したものを１つの識別器（強識別器ともいう）として定義する。ＡｄａＢｏｏｓｔは、画像中の顔領域を識別するために有効な手法としてよく使われる。ＡｄａＢｏｏｓｔでは、正面、左向き、および、右向きのようなサブクラスによる変化に対応するために、正面用、左向き用、および、右向き用のサブクラス識別器を予め別々に用意しておき、すべてのサブクラス識別器を入力パターンに対して適用する必要がある。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Yoav Freund and Robert E. Schapire, “A decision-theoretic generalization of on-line learning and an application to boosting”, EuroCOLT ’95 Proceedings of the Second European Conference on Computational Learning Theory Pages 23-37

【非特許文献2】S.Z.Li, L. Zhu, Z.Q. Zhang, et al., ”Statistical Learning of Multi-View Face Detection”, ECCV 2002

【非特許文献3】C.Huang, H. Ai, Y. Li, S. Lao, “Vector Boosting for Rotation Invariant Multi-View Face Detection”, ICCV2005, Vol. 1, 17-21 Oct. 2005, pp.446-453

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、従来技術では、最初に決定した１つのサブクラスを用いて以降の識別処理を実行するため、最初の決定ルールに性能が大きく依存し，最初の決定ルール設計が適切でない場合、識別精度が低下するという問題があった。

【課題を解決するための手段】

【0005】

実施形態のパターン識別装置は、受付部と決定部と実行部と算出部と判定部とを備える。受付部は、入力パターンと入力パターンの属性情報とを受付ける。決定部は、入力パターンが属するサブクラスを少なくとも属性情報に基づいて決定する。実行部は、決定されたサブクラスに割り当てられた弱識別器を用いて、入力パターンがクラスに属するか否かを識別し、識別結果と弱識別器の信頼度を出力する。算出部は、識別結果および信頼度に基づく評価値を積算した積算値を算出する。判定部は、決定部、実行部、および、算出部による識別処理の終了条件が満たされたか否かを判定し、終了条件が満たされていない場合は、識別処理を繰り返し、終了条件が満たされた場合は、識別処理を終了し、終了したときの積算値を出力する。

【図面の簡単な説明】

【0006】

【図1】音素の識別にサブクラスを考慮する例を示す図。

【図2】従来手法を適用した場合の識別処理を示す図。

【図3】実施形態の識別処理を示す図。

【図4】第１の実施形態の音声認識装置のブロック図。

【図5】識別部の詳細なブロック図。

【図6】第１の実施形態における識別処理のフローチャート。

【図7】第２の実施形態の学習装置のブロック図。

【図8】第２の実施形態における学習処理のフローチャート。

【図9】実施形態にかかる装置のハードウェア構成図。

【発明を実施するための形態】

【0007】

以下に添付図面を参照して、この発明にかかるパターン識別装置の好適な実施形態を詳細に説明する。

【0008】

（第１の実施形態）
従来技術の問題についてさらに説明する。ＡｄａＢｏｏｓｔを応用した手法として、最初に、粗い識別器で、顔領域を抽出し、次に正面用、左向き用、および、右向き用に学習しておいた識別器で識別をかけることによって高精度に顔領域を識別する手法が知られている。しかし、この手法は、入力パターンから推測されるサブクラスに対して適用されるものであり、予め入力パターンと共にサブクラス属性が与えられるケースについては考慮されていない。

【0009】

図１は、音声認識における音素の識別にサブクラスを考慮する場合の例を示す図である。音素の識別では、図１のように前後の音素コンテキストによって音素の特徴が変化する。このため、音素コンテキストをサブクラスとし、このサブクラスを考慮し識別を行う。

【0010】

図１では、“ｕ”という音素が入力パターンとして入力された場合の例が示されている。“草”を意味する日本語の音声に対応する音素列“ｋｋｕｓａ”と、“無害”を意味する日本語の音声に対応する音素列“ｍｕｇａｉ”が入力された場合とでは、音素“ｕ”の前後の音素（音素コンテキスト）によって“ｕ”の特徴が変化する。このため、音素が“ｕ”に属することを示すクラスは、複数のサブクラスＳ１、Ｓ２、Ｓ３に分割される。なお図１のクラスおよびサブクラスの分割方法は一例であり、これに限られるものではない。

【0011】

識別対象の音素（図１の例では“ｕ”）は、音素コンテキストに応じていずれかのサブクラスに分類される。なお、以下では音素コンテキストを音素のサブクラス属性（属性情報）ともいう。図１の例では、前の音素が“ｋｋ”であることを示すサブクラス属性Ａ１、および、後の音素が“ｓｈ”であることを示すサブクラス属性Ａ２を有する場合、入力パターン（音素“ｕ”）はサブクラスＳ１に分類される。

【0012】

音声認識システムでは、前後の音素コンテキストは、認識時に既知の情報として入力パターンに付随して与えられることが多い。前後の音素コンテキストによりサブクラスに分類し、ＡｄａＢｏｏｓｔなどの手法を適用したと仮定した場合の識別処理について図２を用いて説明する。図２は、従来手法を適用した場合の識別処理の一例を示す図である。ＡｄａＢｏｏｓｔなどを適用する場合、何らかの方法で音素コンテキストを予めクラスタリングし、サブクラスを決定した後、各サブクラスに対して独立に識別器を学習する。認識時には、付随する音素コンテキストから入力パターンの属するサブクラスを決定し、決定したサブクラスに紐付けられた識別器を適用する。

【0013】

例えば、サブクラス１であることが決定された場合、以降の識別処理では、サブクラス１弱識別器１１〜１４を含むサブクラス１強識別器が使用される。同様に、サブクラス２であることが決定された場合、以降の識別処理では、サブクラス２弱識別器２１〜２４を含むサブクラス２強識別器が使用される。また、サブクラス３であることが決定された場合、以降の識別処理では、サブクラス３弱識別器３１〜３４を含むサブクラス３強識別器が使用される。なお、弱識別ステップの数は４に限られるものではない。

【0014】

このように、従来の手法では、入力パターンに付随するサブクラス属性を利用するにはサブクラス毎に識別器を用意する必要があった。また１つの識別器（強識別器）ではサブクラス属性を考慮した識別を行うことができなかった。

【0015】

第１の実施形態のパターン識別装置は、複数の弱識別器をカスケード接続して識別を行う。各弱識別器は、サブクラス群とそれぞれのサブクラスに割り当てられた識別器を持つ。本実施形態のパターン識別装置は、入力パターンに付随するサブクラス属性から、いずれのサブクラスに分類されるかを決定し、決定したサブクラスに割り当てられた弱識別器を使用する。

【0016】

図３は、本実施形態の識別処理の一例を示す図である。図３に示すように、本実施形態では、複数の弱識別ステップごとに、サブクラス属性からサブクラスを決定する。図３では、サブクラスＸ、Ｙ、Ｚの３ステップそれぞれで、サブクラスが決定される。なお、ステップ数は３に限られるものではない。サブクラスＸ、Ｙ、Ｚが決定された後、サブクラスＸ、Ｙ、Ｚそれぞれに対応する弱識別器であるサブクラスＸ弱識別器４１、サブクラスＹ弱識別器４２、サブクラスＺ弱識別器４３が使用される。これにより、弱識別器を連結した１つの識別器（強識別器）でサブクラス属性を考慮した高精度な識別を行うことが可能となる。

【0017】

次に、第１の実施形態のパターン識別装置を音声認識装置１００に適用した例について説明する。なお、適用可能な装置は音声認識装置に限られるものではない。例えば画像認識装置などのように、パターン識別機能を利用する装置であれば、従来から用いられているあらゆる装置に適用できる。

【0018】

図４は、第１の実施形態の音声認識装置１００の機能構成の一例を示すブロック図である。音声認識装置１００は、音声入力部１０１と、認識処理部１１０と、出力部１０２と、記憶部１２１と、を備えている。

【0019】

記憶部１２１は、音声認識処理で参照される各種情報を記憶する。記憶部１２１は、例えば、音素辞書および単語辞書などを記憶する。記憶部１２１は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

【0020】

音声入力部１０１は、認識対象とする音声を入力する。音声入力部１０１は、例えば、音声入力用マイクなどから音声信号を入力する。

【0021】

認識処理部１１０は、入力された音声に対して音声認識処理を実行する。認識処理部１１０は、候補生成部１１１と、識別部１１２と、候補選択部１１３と、を備えている。

【0022】

候補生成部１１１は、入力された音声（音声信号）を受取り、音声認識処理を実行して認識結果の候補である認識候補を生成する。例えば、候補生成部１１１は、音素辞書や単語辞書を用いて、入力された音声に対して確からしい音素列候補群を生成する。候補生成部１１１による候補生成処理は、従来から利用されているＨＭＭ方式の音声認識処理と同様の方式で実現できる。

【0023】

識別部１１２は、パターン識別装置に相当する構成部である。識別部１１２は、生成された音素列候補に含まれる各音素が、指定されたクラスに属するか否かを識別する。識別部１１２の詳細については後述する。

【0024】

候補選択部１１３は、識別部１１２による識別結果に基づき、音素列候補から１の候補を選択する。出力部１０２は、選択された候補を音声認識結果として出力する。

【0025】

図５は、識別部１１２の詳細な機能構成の一例を示すブロック図である。識別部１１２は、ルール記憶部５２１と、弱識別器記憶部５２２と、出力記憶部５２３と、受付部５０１と、決定部５０２と、実行部５０３と、算出部５０４と、判定部５０５と、を備えている。

【0026】

受付部５０１、決定部５０２、実行部５０３、算出部５０４、および、判定部５０５は、例えば、ＣＰＵ（Central Processing Unit）などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

【0027】

ルール記憶部５２１は、サブクラス決定ルールを記憶する。サブクラス決定ルールは、サブクラス属性に応じて入力パターンを複数のサブクラスのいずれに分類するかを決定するルールである。例えば、前の音素が“ｕ”であるか否かによって２つのサブクラスに分類するルールをサブクラス決定ルールとすることができる。サブクラス決定ルールは、弱識別器を用いる識別処理（弱識別ステップ）ごとに定められていてもよい。

【0028】

弱識別器記憶部５２２は、事前の学習等により得られた弱識別器と、弱識別器の信頼度と、を記憶する。弱識別器は、サブクラスに紐付けられて弱識別器記憶部５２２に記憶される。

【0029】

出力記憶部５２３は、算出部５０４の出力結果を記憶する。

【0030】

なお、ルール記憶部５２１、弱識別器記憶部５２２、および、出力記憶部５２３の一部または全部は、図４の記憶部１２１により実現してもよい。

【0031】

受付部５０１は、例えば候補生成部１１１から入力される、入力パターン（音素）と入力パターンの属性情報（サブクラス属性）とを受け付ける。

【0032】

決定部５０２は、入力パターンに付随するサブクラス属性を用いて、入力パターンのサブクラスを決定する。決定部５０２は、例えば、ルール記憶部５２１に保存してあるサブクラス決定ルールとサブクラス属性とを用いて、入力パターンのサブクラスを決定する。

【0033】

実行部５０３は、決定されたサブクラスに割り当てられた弱識別器を用いて、入力パターンがクラスに属するか否かを識別し、識別の結果（弱識別結果）と弱識別器の信頼度を出力する。例えば実行部５０３は、まず決定されたサブクラスに紐付けられた弱識別器および当該識別器の信頼度を弱識別器記憶部５２２から読み出す。実行部５０３は、読み出した弱識別器を用いて、入力パターンに対して識別を実行し、弱識別結果と、読み出した弱識別器の信頼度と、を出力する。

【0034】

算出部５０４は、弱識別結果および信頼度に基づく評価値を積算した積算値（スコア）を算出する。積算値は、例えば出力記憶部５２３に記憶される。

【0035】

判定部５０５は、識別処理の終了条件が満たされたか否かを判定し、終了条件が満たされていない場合は、識別処理を継続する。識別処理では、上記の決定部５０２、実行部５０３、および、算出部５０４による処理が繰り返される。終了条件が満たされた場合は、判定部５０５は、識別処理を終了し、終了したときの積算値（出力記憶部５２３に保存されている出力結果）を出力する。

【0036】

次に、このように構成された音声認識装置１００による識別処理について図６を用いて説明する。図６は、第１の実施形態における識別処理の一例を示すフローチャートである。

【0037】

以下では、音声波形から得られる一般的な音声特徴量ＭＦＣＣ（Mel Frequency Cepstral Coefficient）１２次元を入力パターンとする。また、前後の音素コンテキストをサブクラス属性として使用する。例えば、“あ（ａ）”、“い（ｉ）”、“う（ｕ）”、“え（ｅ）”、“お（ｏ）”という音素があったとする。“うえあ（ｕｅａ）”という単語の中の”ｅ”という音素が“ｅ”であるか否かというような音素識別を行うときは、“ｅ”の前のコンテキストが“ｕ”となり、後ろのコンテキストが“ａ”となる。

【0038】

入力パターンやサブクラス属性はこれらに限定されるものではなく、どのように抽出された入力パターンでもよいし、入力パターンを何れかのサブクラスに決定できるようなサブクラス属性であればどのようなものでもよい。

【0039】

以下ではクラス識別問題として、入力パターンが音素“ａ”であるか否かを識別する２クラス問題を例に説明する。入力パターン“ａ”のサブクラス属性は前のコンテキストが“ｕ”、後ろのコンテキストが“ｏ”であるとする。なお、本実施形態は２クラス識別に限定されるものではなく、多クラス識別においても拡張可能である。

【0040】

受付部５０１は、入力パターンと、当該入力パターンのサブクラス属性との入力を受付ける（ステップＳ１０１）。例えば、入力パターン“ａ”、および、サブクラス属性“ｕ”（前のコンテキスト）、“ｏ”（後ろのコンテキスト）を受付ける。

【0041】

決定部５０２は、Ｎ（Ｎ＞０）回目の弱識別ステップそれぞれで、受付けられたサブクラス属性（前のコンテキスト“ｕ”、後ろのコンテキスト“ｏ”）に対して、Ｎ回目の弱識別ステップに対応するサブクラス決定ルールを適用する。サブクラス決定ルールとしては、例えば、前のコンテキストが音素ｐ（ｐ∈｛“ａ”、“ｉ”、“ｕ”、“ｅ”、“ｏ”｝）であるか否か、後ろのコンテキストが音素ｐであるか否かを決定するルールを適用できる。なおサブクラス決定ルールはこのようなルールに限定されるものではない。サブクラス属性を用いてサブクラスに分割し得るルールであればどのようなルールであってもよい。また、サブクラス属性と入力パターンの値とを用いてサブクラスに分割してもよい。例えば、入力パターンが特徴量ベクトルであったとすると、「特徴量ベクトルの第１成分が閾値（例えば５）以下、かつ、サブクラス属性（前のコンテキスト）が“ａ”である」などのルールを用いてもよい。

【0042】

ここで、Ｎ回目の弱識別ステップに紐付けされているサブクラス決定ルールが、前の音素コンテキストが“ｕ”であるか否かという２つのサブクラスに分類されるルールであるとする。この場合、入力パターン“ａ”は、前が“ｕ”の音素コンテキストを持っているので、前が“ｕ”であるというサブクラスに分類（決定）される（ステップＳ１０２）。

【0043】

実行部５０３は、決定されたサブクラス（前の音素コンテキストが“ｕ”であるというサブクラス）に紐付けられた弱識別器を弱識別器記憶部５２２から読み出す（ステップＳ１０３）。実行部５０３は、読み出した弱識別器による識別処理を実行する（ステップＳ１０４）。実行部５０３は、識別処理の結果（弱識別結果）と弱識別器の信頼度とを出力する。弱識別器による識別処理では、例えばＭＦＣＣの予め定められた次元の値が予め定められた閾値よりも大きいか否かが判定される。

【0044】

この動作は一般的にＤｅｃｉｓｉｏｎＳｔｕｍｐと呼ばれる手法と同様である。ここで、入力パターンをｘとし、Ｎ回目の弱識別ステップの“ｕ”であるというサブクラスに紐付けられた弱識別器をｈ_Ｎ０（ｘ）とし、“ｕ”でないというサブクラスに紐付けられた弱識別器をｈ_Ｎ１（ｘ）とする。弱識別器ｈ_Ｎ０（ｘ）が、ＭＦＣＣの１次元目（ＭＦＣＣ（１））が閾値３０より大きければこの入力パターンは“ａ”であると定められているときに、弱識別器ｈ_Ｎ０（ｘ）は、以下の（１）式のように動作する。
ｉｆＭＦＣＣ（１）≦３０
ｈ_Ｎ０（ｘ）＝−１
ｅｌｓｅ
ｈ_Ｎ０（ｘ）＝１
・・・（１）

【0045】

算出部５０４は、実行部５０３によって得られた弱識別結果と弱識別器の信頼度とを用いてスコアを算出する（ステップＳ１０５）。算出部５０４は、スコアを積算し、出力記憶部５２３に保存する。このときスコアＳ_Ｎは、予め弱識別器に紐付けされている信頼度α_Ｎ０（＞０）を用いて、以下の（２）式により算出される。
Ｓ_Ｎ＝α_Ｎ０ｈ_Ｎ０（ｘ）・・・（２）

【0046】

算出部５０４は、スコアＳ_Ｎを積算してＮ回目までの積算値である積算スコアＴ_ｓＮを、以下の（３）式により求める。なお、Ｔ_ｓ０は０とする。
Ｔ_ｓＮ＝Ｔ_ｓＮ−１＋Ｓ_Ｎ・・・（３）

【0047】

判定部５０５は、識別処理の終了条件を満たすか否かを判定する（ステップＳ１０６）。例えば、判定部５０５は、Ｎが予め決められた回数まで到達したか否かを判定する。終了条件を満たさない場合（ステップＳ１０６：Ｎｏ）、ステップＳ１０２に戻り、次の弱識別ステップが繰り返される。終了条件を満たす場合（ステップＳ１０６：Ｙｅｓ）、判定部５０５は、出力記憶部５２３に保存してある積算スコア（識別結果）を出力して識別処理を終了する（ステップＳ１０７）。

【0048】

上記例では、積算スコアＴ_ｓＮの値が０より大きければ、結果として入力パターンは“ａ”であると識別される。また、積算スコアＴ_ｓＮの値が０以下であれば“ａ”でないと識別される。

【0049】

これまでは、基本的なＤｅｃｉｓｉｏｎＳｔｕｍｐによるＡｄａＢｏｏｓｔと同様の手法を適用した弱識別器、および、スコア算出方法について説明した。適用可能な手法はこれに限定されるものではない。例えば、Ｒｅａｌ−ＡｄａＢｏｏｓｔ、および、ＧｅｎｔｌｅＢｏｏｓｔなどを含む、ＡｄａＢｏｏｓｔの発展系のＢｏｏｓｔｉｎｇ手法などにも適用することが可能である。また弱識別器として入力パターンの共起性などを考慮する手法（例えば、輝度勾配方向共起ヒストグラム（CoHOG（Co-occurrence Histograms of Oriented Gradients））なども適用することができる。また全ステップがサブクラスを考慮した弱識別ステップである必要はなく、一部がサブクラスを考慮しない従来の弱識別ステップ（従来のＡｄａＢｏｏｓｔ）でもよい。

【0050】

このように、第１の実施形態のパターン識別装置では、弱識別器毎にサブクラスを考慮した識別器を用いるため、単一の識別器で、サブクラスを使った、より高精度な識別が可能となる。

【0051】

（第２の実施形態）
第２の実施形態では、第１の実施形態のパターン識別装置で用いる識別器を学習する学習装置について説明する。図７は、第２の実施形態の学習装置２００の機能構成例を示すブロック図である。学習装置２００は、学習データ記憶部２２１と、ルール記憶部２２２と、弱識別器記憶部２２３、２２４と、分割部２０１と、探索部２０２と、ルール選択部２０３と、更新部２０４と、判定部２０５と、を備えている。

【0052】

学習データ記憶部２２１は、クラスラベルと入力パターンとサブクラス属性と重みとを含む学習データを記憶する。ルール記憶部２２２は、学習データを、複数のサブクラスのいずれに属するかによって複数の学習データ（以下、サブクラスデータという）へ分割する分割ルールを記憶する。分割ルールは、例えば、“前の音素コンテキストがｕであるか否か”、“後ろの音素コンテキストがｉであるか否か“などによって、学習データを２つのサブクラスデータに分割するルールである。分割ルールは、このようなルールに限定されるものではなく、学習データを複数のサブクラスデータに分割し得るルールであれば何でもよい。また、サブクラス属性と入力パターンの値とを用いて学習データをサブクラスデータに分割するルールを用いてもよい。

【0053】

弱識別器記憶部２２３は、探索部２０２で算出された分割ルールと、探索部２０２により探索された弱識別器と、を記憶する。弱識別器記憶部２２４は、ルール選択部２０３により選択された分割ルールに対応する弱識別器を記憶する。

【0054】

分割部２０１は、学習データ記憶部２２１に記憶されている学習データを、ルール記憶部２２２に記憶されている分割ルールによってサブクラスデータに分割する。

【0055】

探索部２０２は、分割により得られたサブクラスデータそれぞれに対して、複数の弱識別器のうち、適合度が高い弱識別器を探索する。

【0056】

ルール選択部２０３は、探索された弱識別器の信頼度を算出し、複数の分割ルールから、信頼度が高い弱識別器に対応する分割ルールを選択する。例えば、ルール選択部２０３は、弱識別器記憶部２２３に記憶された分割ルールの中で最も信頼度の高い分割ルールを選択する。ルール選択部２０３は、選択した分割ルールと、選択した分割ルールに付随する弱識別器と、信頼度と、を弱識別器記憶部２２４に記憶する。

【0057】

更新部２０４は、弱識別器記憶部２２４に保存された分割ルールと、当該分割ルールに付随する弱識別器と、信頼度と、を用いて学習データの重みを更新する。

【0058】

判定部２０５は、弱識別器の探索を終了するか否かの判定を行う。

【0059】

分割部２０１、探索部２０２、ルール選択部２０３、更新部２０４、および、判定部２０５は、例えば、ＣＰＵ（Central Processing Unit）などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、ＩＣ（Integrated Circuit）などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。

【0060】

次に、このように構成された学習装置２００による学習処理について図８を用いて説明する。図８は、第２の実施形態における学習処理の一例を示すフローチャートである。

【0061】

第２の実施形態では第１の実施形態と同様に、学習データ記憶部２２１に保存してある入力パターン（学習データ）は、音声波形から得られる音声特徴量ＭＦＣＣ１２次元とする。また、前後の音素コンテキストをサブクラス属性として使用する。第１の実施形態と同様に、本実施形態の入力パターンやサブクラス属性はこれらに限定されるものではなく、どのように抽出された入力パターンでもよいし、入力パターンを何れかのサブクラスに決定できるようなサブクラス属性であれば何でもよい。

【0062】

以下では、入力パターンが音素“ａ”であるか否かを識別する２クラス識別器の学習を行う例を説明する。本実施形態は２クラス識別に限定されるものではなく、多クラス識別にも拡張可能である。

【0063】

学習データ記憶部２２１は、複数の学習データを保存している。各学習データは、例えば、“ａ”か”ａではない”というクラスラベルを持つとともに、“前の音素コンテキストがｕ”、“後ろの音素コンテキストがｉ“というような前後の音素コンテキストをサブクラス属性として持つ、ＭＦＣＣ１２次元のベクトルデータである。また、各学習データはそれぞれ重み係数を持つ。Ｎ回目における各データの重み係数は、（Ｎ−１）回目の学習処理の中で更新部２０４によって決定される。

【0064】

Ｎ＝１回目に関しては、“ａ”のクラスラベルを持つ学習データに対する重みは、“ａ”のクラスラベルを持った学習データの総数の逆数を２で割った値（初期データ重み）を用いる。また、“ａではない”のクラスラベルを持つデータに対する重みは、“ａではない”のクラスラベルを持った学習データの総数の逆数を２で割ったもの用いる。

【0065】

なお、重みの初期値（初期データ重み）はこれに限定されるものではない。例えば、予め、強調したいデータなどに対して大きい重みを付けるなどをして意図的に初期データの重みを変化させてもよい。

【0066】

Ｎ（Ｎ＞０）回目の弱識別器学習ステップそれぞれで、分割部２０１は、ルール記憶部２２２から分割ルールを１つ取り出す（ステップＳ２０１）。以下では分割ルールとして、“前の音素コンテキストがｕであるか否か”、“後ろの音素コンテキストがｅであるか否か”、“前の音素コンテキストがａであるか否か”という分割ルールを用いる例を説明する。

【0067】

分割部２０１は、取り出した分割ルール（例えば、“前の音素コンテキストがｕであるか否か”という分割ルールｄ）によって学習データを複数のサブクラスデータに分割する（ステップＳ２０２）。２クラス識別の場合は、学習データは２つのサブクラスデータに分割される。

【0068】

探索部２０２は、分割ルールｄによって得られる各サブクラスデータに対して適合度の高い弱識別器を算出する（ステップＳ２０３）。各サブクラスデータに対して弱識別器を算出する手法は、従来のＡｄａＢｏｏｓｔの弱識別器算出方法とほぼ同じである。以下に、従来のＡｄａＢｏｏｓｔの学習方法について説明する。

【0069】

Ｎ個の学習データ（ｘ１、ｙ１）、・・・、（ｘｉ，ｙｉ）、・・・、（ｘＮ、ｙＮ）（１≦ｉ≦Ｎ）が存在するものとする。ここでｘｉは何らかの特徴をもつデータであり、ｙｉ∈（１、−１）はｘｉが属するクラスラベルである。一般的にはＡｄａＢｏｏｓｔによって検出する対象を１のクラスラベルとし、その他を−１のクラスラベルとする。このとき、以下のステップＡ１〜Ａ２によりＡｄａＢｏｏｓｔの学習処理を実行する。

【0070】

ステップＡ１：学習データの重みＤｏ（ｉ）を以下の（４）式で初期化する。

【数1】

【0071】

ステップＡ２：重みを考慮したｔ回目の学習データの重み分布Ｄｔにおいて、学習データに対する誤り率ε_ｔ（以下の（５）式）が最小になるように弱識別器ｈ_ｔ（ｘ）を学習する。

【数2】

【0072】

ステップＡ３：信頼度α_ｔをε_ｔから算出する（以下の（６）式）。

【数3】

【0073】

ステップＡ４：学習データの重みを更新する（以下の（７）式）。

【数4】

【0074】

ステップＡ５：学習データの重みが１になるよう正規化処理を行う（以下の（８）式）。

【数5】

【0075】

ステップＡ２〜ステップＡ５をＴ回繰り返し、弱識別器および信頼度をＴ個求める。最終的な強識別器Ｈ（ｘ）は、選択されたＴ個の弱識別器の信頼度を重みとした重み付き和となる（以下の（９）式）。

【数6】

【0076】

このようにして、Ｈ（ｘ）＞０ならば、入力ｘは検出対象であり、それ以外ならば入力xは検出対象ではないことを識別する識別関数が導かれる。

【0077】

従来のＡｄａＢｏｏｓｔでは、重みを考慮したＮ回目の学習データ重み分布Ｄ_Ｎにおいて、誤り率ε_N（（５）式）が最小になるように弱識別器ｈ_Ｎ（ｘ）を学習した。本実施形態では、分割ルールｄ（前の音素コンテキストが“ｕ”であるか、など）によって学習重み分布（学習データ）を分割して得られるサブクラス重み分布Ｄ_Ｎｄ０、Ｄ_Ｎｄ１（サブクラスデータ）に対して、誤り率ε_Ｎｄ０、ε_Ｎｄ１が最小となる弱識別器ｈ_Ｎｄ０（ｘ）、ｈ_Ｎｄ１（ｘ）を求める。

【0078】

最適な弱識別器は、ＤｅｃｉｓｉｏｎＳｔｕｍｐと同様の方法で求めることができる。例えば、ＭＦＣＣの１２次元を順々に探索し、“ａ”か“ａではない”というクラス識別率が最も高くなる次元と閾値を探索することにより求められる。

【0079】

閾値に関しては、学習データ記憶部２２１に記憶されている学習データの値を全探索することで最適な閾値を得る。探索部２０２は、算出された弱識別器（例えば、最適な次元、および、閾値とその閾値に対して大きいほうか小さいほうのいずれが“ａ”であると識別されるかを示す情報）を、Ｎ回目の弱識別器学習ステップにおける該当分割ルールｄに紐付けて弱識別器記憶部２２３に保存する。

【0080】

このようにして、各分割ルールによって定められるサブクラス（サブクラスデータ）に対して最適な弱識別器が求められる。

【0081】

探索部２０２は、すべての分割ルールを処理したか否かを判定する（ステップＳ２０４）。すべての分割ルールを処理していない場合（ステップＳ２０４：Ｎｏ）、分割部２０１は、次の分割ルールを読み出して処理を繰り返す。なお、すべての分割ルールの探索を探索部２０２による探索の打ち切りの条件とするのではなく、各サブクラスデータに対する弱識別器の適合度などによって探索を打ち切ってもよい。

【0082】

すべての分割ルールを処理した場合（ステップＳ２０４：Ｙｅｓ）、ルール選択部２０３は、最適な分割ルールを弱識別器記憶部２２３から選択する（ステップＳ２０５）。弱識別器記憶部２２３には、Ｎ回目の弱識別器学習ステップにおいて、すべての分割ルールに紐付けられた各サブクラスの弱識別器が保存されている。ルール選択部２０３は、これらの弱識別器を各サブクラスデータに適用し、全学習データ重み分布Ｄ_Ｎにおいて、誤り率ε_N（（５）式）が最小になるような分割ルールを選択する。

【0083】

ルール選択部２０３は、選択された分割ルールと、信頼度α_Ｎとを弱識別器記憶部２２４に保存する（ステップＳ２０６）。信頼度α_Ｎは、選択された分割ルールに紐付けされた弱識別器と、誤り率ε_Nとを用いて（６）式から得られる。ルール選択部２０３は、その後、弱識別器記憶部２２３に保存されているデータを消去する。

【0084】

なお、弱識別器記憶部２２４に保存する信頼度は、全学習データ重み分布Ｄ_Ｎにおける誤り率ε_Nから得られる単一の信頼度α_Ｎに限定されるものではない。例えば、サブクラス重み分布Ｄ_Ｎｄ０、Ｄ_Ｎｄ１に対する誤り率ε_Nｄｏ、ε_Nｄ１から（６）式を用いて得られる複数の信頼度α_Ｎｄ０、α_Ｎｄ１等を保存して用いてもよい。

【0085】

次に、更新部２０４は、弱識別器記憶部２２４に保存してある分割ルールと、当該分割ルールに紐付けされた弱識別器と、信頼度と、から学習データに対する重み（重み係数）を算出する。更新部２０４は、算出した重み係数で、学習データ記憶部２２１に記憶されている学習データの重み係数を更新する（ステップＳ２０７）。更新部２０４は、例えば、弱識別器記憶部２２４に保存してある弱識別器と信頼度α_Ｎと学習データ記憶部２２１に保存してあるクラスラベルとを用いて、（７）式および（８）式より、学習データ重み分布Ｄ_Ｎ＋１を求める。

【0086】

判定部２０５は、終了条件を満たすか否かを判定する（ステップＳ２０８）。例えば、判定部２０５は、予め定められた回数の弱識別器学習ステップが終了したかを終了条件とする、終了条件を満たさない場合（ステップＳ２０８：Ｎｏ）、ステップＳ２０１に戻り処理が繰り返される。終了条件を満たす場合（ステップＳ２０８：Ｙｅｓ）、学習処理が終了する。

【0087】

このような学習処理により、サブクラスを考慮した識別器を学習することが可能となる。本実施形態では基本的なＤｅｃｉｓｉｏｎＳｔｕｍｐによるＡｄａＢｏｏｓｔを用いた弱識別器学習の説明を行ったが、適用可能な手法はこれに限定されるものではない。Ｒｅａｌ−ＡｄａＢｏｏｓｔや、ＧｅｎｔｌｅＢｏｏｓｔなどを含む、ＡｄａＢｏｏｓｔの発展系のＢｏｏｓｔｉｎｇ手法などを適用してもよい。また弱識別器として入力パターンの共起性などを考慮する手法（例えば、輝度勾配方向共起ヒストグラム）なども適用することができる。また全ステップの学習でサブクラスを考慮する必要はなく、一部がサブクラスを考慮しない従来の学習手法（従来のＡｄａＢｏｏｓｔ）でもよい。

【0088】

以上説明したとおり、第１から第２の実施形態によれば、サブクラスを使った、より高精度な識別が可能となる。

【0089】

次に、第１または第２の実施形態にかかる装置（パターン識別装置、学習装置）のハードウェア構成について図９を用いて説明する。図９は、第１または第２の実施形態にかかる装置のハードウェア構成を示す説明図である。

【0090】

第１または第２の実施形態にかかる装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ（Random Access Memory）５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、各部を接続するバス６１を備えている。

【0091】

第１または第２の実施形態にかかる装置で実行されるプログラムは、ＲＯＭ５２等に予め組み込まれて提供される。

【0092】

第１または第２の実施形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

【0093】

さらに、第１または第２の実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１または第２の実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

【0094】

第１または第２の実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した装置の各部として機能させうる。このコンピュータは、ＣＰＵ５１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

【0095】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0096】

１００音声認識装置
１０１音声入力部
１０２出力部
１１０認識処理部
１１１候補生成部
１１２識別部
１１３候補選択部
１２１記憶部
２００学習装置
２０１分割部
２０２探索部
２０３ルール選択部
２０４更新部
２０５判定部
２２１学習データ記憶部
２２２ルール記憶部
２２３，２２４弱識別器記憶部
５０１受付部
５０２決定部
５０３実行部
５０４算出部
５０５判定部
５２１ルール記憶部
５２２弱識別器記憶部
５２３出力記憶部

【図1】