特許第6246636号(P6246636)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧

特許6246636パターン識別装置、パターン識別方法およびプログラム
<>
  • 特許6246636-パターン識別装置、パターン識別方法およびプログラム 図000002
  • 特許6246636-パターン識別装置、パターン識別方法およびプログラム 図000003
  • 特許6246636-パターン識別装置、パターン識別方法およびプログラム 図000004
  • 特許6246636-パターン識別装置、パターン識別方法およびプログラム 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6246636
(24)【登録日】2017年11月24日
(45)【発行日】2017年12月13日
(54)【発明の名称】パターン識別装置、パターン識別方法およびプログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20171204BHJP
   G10L 17/00 20130101ALI20171204BHJP
   G10L 15/04 20130101ALI20171204BHJP
【FI】
   G10L15/10 400K
   G10L17/00 200C
   G10L15/10 500N
   G10L15/04 300C
【請求項の数】14
【全頁数】12
(21)【出願番号】特願2014-58932(P2014-58932)
(22)【出願日】2014年3月20日
(65)【公開番号】特開2015-184378(P2015-184378A)
(43)【公開日】2015年10月22日
【審査請求日】2016年8月31日
(73)【特許権者】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(74)【代理人】
【識別番号】110002147
【氏名又は名称】特許業務法人酒井国際特許事務所
(72)【発明者】
【氏名】藤村 浩司
【審査官】 鈴木 圭一郎
(56)【参考文献】
【文献】 特開2007−057692(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−17/00
(57)【特許請求の範囲】
【請求項1】
時系列信号の入力を受け付ける受付部と、
受け付けた時系列信号の特徴量をフレームごとに算出する信号処理部と、
前記特徴量に基づいて、複数のリーフのいずれかに割り当てられる複数のリーフクラスおよびノードに割り当てられるノードクラスを含む木構造で表される第1対象クラスと、木構造で表されない単独クラスを含む第1非対象クラスと、を含む第1クラス群のうち、前記リーフクラスおよび前記単独クラスのいずれに属する時系列信号であるかを前記フレームごとに識別し、識別結果を出力する第1識別部と、
数の前記リーフクラスに属する確率それぞれの和に基づいて前記第1対象クラスを含む区間を検出する検出部と、
前記検出部で検出された区間内のフレームに対する前記識別結果に基づいて、識別対象のクラスである複数の第2対象クラスを少なくとも含む第2クラス群のいずれに属する時系列信号であるかを識別する第2識別部と、
を備えるパターン識別装置。
【請求項2】
前記第1対象クラスは、複数の木構造クラス群を持つ、
請求項1に記載のパターン識別装置。
【請求項3】
前記検出部は、1以上の前記フレームに対する前記識別結果に基づいて、複数の木構造クラスのそれぞれの複数の前記リーフクラスに属する確率それぞれの和を算出し、それぞれ足し合わせて、それぞれの木構造クラスのノードクラスの対象区間をそれぞれ検出する、
請求項2に記載のパターン識別装置。
【請求項4】
時系列信号は音である、
請求項1に記載のパターン識別装置。
【請求項5】
前記第2識別部は、前記第1識別部で前記第1対象クラスと識別されたフレームのみを用いて識別を行う、
請求項1に記載のパターン識別装置。
【請求項6】
前記第2クラス群は、さらに前記第2対象クラスではない第2非対象クラスを含む、
請求項1に記載のパターン識別装置。
【請求項7】
前記第1非対象クラスは、無音声を示すクラスである、
請求項1に記載のパターン識別装置。
【請求項8】
前記第1識別部は、ニューラルネットワークを用いて、前記第1クラス群に属するクラスフレームに対する確率を出力する、
請求項1に記載のパターン識別装置。
【請求項9】
前記検出部で検出された区間を示す情報は、前記第2識別部による識別処理と異なる処理であり、音声を文字に変換する音声認識処理において使用される、
請求項1に記載のパターン識別装置。
【請求項10】
前記識別結果を記憶する結果記憶部をさらに備え、
前記第2識別部は、前記結果記憶部に記憶された前記識別結果に基づいて、前記第2クラス群のいずれに属する時系列信号であるかを識別する、
請求項1に記載のパターン識別装置。
【請求項11】
前記第1クラス群と前記第2クラス群とは同じである、
請求項1に記載のパターン識別装置。
【請求項12】
前記第1クラス群と前記第2クラス群とは異なる、
請求項1に記載のパターン識別装置。
【請求項13】
時系列信号の入力を受け付ける受付ステップと、
受け付けた時系列信号の特徴量をフレームごとに算出する信号処理ステップと、
前記特徴量に基づいて、複数のリーフのいずれかに割り当てられる複数のリーフクラスおよびノードに割り当てられるノードクラスを含む木構造で表される第1対象クラスと、木構造で表されない単独クラスを含む第1非対象クラスと、を含む第1クラス群のうち、前記リーフクラスおよび前記単独クラスのいずれに属する時系列信号であるかを前記フレームごとに識別し、識別結果を出力する第1識別ステップと、
数の前記リーフクラスに属する確率それぞれの和に基づいて前記第1対象クラスを含む区間を検出する検出ステップと、
前記検出ステップで検出された区間内のフレームに対する前記識別結果に基づいて、識別対象のクラスである複数の第2対象クラスを少なくとも含む第2クラス群のいずれに属する時系列信号であるかを識別する第2識別ステップと、
を含むパターン識別方法。
【請求項14】
コンピュータを、
時系列信号の入力を受け付ける受付部と、
受け付けた時系列信号の特徴量をフレームごとに算出する信号処理部と、
前記特徴量に基づいて、複数のリーフのいずれかに割り当てられる複数のリーフクラスおよびノードに割り当てられるノードクラスを含む木構造で表される第1対象クラスと、木構造で表されない単独クラスを含む第1非対象クラスと、を含む第1クラス群のうち、前記リーフクラスおよび前記単独クラスのいずれに属する時系列信号であるかを前記フレームごとに識別し、識別結果を出力する第1識別部と、
数の前記リーフクラスに属する確率それぞれの和に基づいて前記第1対象クラスを含む区間を検出する検出部と、
前記検出部で検出された区間内のフレームに対する前記識別結果に基づいて、識別対象のクラスである複数の第2対象クラスを少なくとも含む第2クラス群のいずれに属する時系列信号であるかを識別する第2識別部、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、パターン識別装置、パターン識別方法およびプログラムに関する。
【背景技術】
【0002】
音声により男女の判定を行うパターン識別装置(話者属性識別装置)が知られている。このような装置では、音波形を一定の周期で切り出したフレーム毎に男性、女性、無音声区間の識別が行われ、そのフレーム毎の識別結果を使って男性・女性と判定されたもののフレーム数をそれぞれカウントし、識別が行われる。
【0003】
また、次のような装置も提案されている。まず、男性、女性、および、無音声の音特徴が予め混合GMMs(Gaussian mixture Models)でモデリングされ、音波形を一定の周期で切り出したフレームごとに音声特徴量が算出される。次に、混合GMMsを用いて男性、女性、および、無音声のパターンマッチングを行い、男性および女性のうち尤度の大きいほうと、無音声の尤度を用いて、短時間の音声休止状態を含む一連の音声セグメント(音声区間)を検出してから、その一連の音声区間に対して前記算出した男性女性の尤度を積算しその尤度を比較することにより、フレームに対する一つの識別器によって区間検出と男女識別が行われる。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2009−109712号公報
【非特許文献】
【0005】
【非特許文献1】西村竜一,田藤千弘,“音声から大人と子どもを識別するウェブシステムにおけるDNNの適用”,音講論,2014春季音響学会,pp.139,140,2014.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、音波形を一定の周期で切り出したフレームに対して一つの識別器の結果を用いて音声区間の検出とその区間に対する話者属性識別を行う従来技術では、フレームに対する識別問題に対して生成モデルの尤度比較を用いており、識別問題に対して確率を使って直接解いていなかった。また、検出された音声区間に一部の無音区間を含む場合でもその無音区間に対して話者属性を判定するための尤度を算出し、積算していた。
【課題を解決するための手段】
【0007】
実施形態のパターン識別装置は、信号処理部と第1識別部と検出部と第2識別部とを備える。信号処理部は、時系列信号の特徴量をフレームごとに算出する。第1識別部は、特徴量に基づいて、複数のリーフクラスおよびノードクラスを含む木構造で表される第1対象クラスと、単独クラスを含む第1非対象クラスと、を含む第1クラス群のうち、リーフクラスおよび単独クラスのいずれに属する時系列信号であるかをフレームごとに識別し、識別結果を出力する。検出部は、複数のリーフクラスに属する確率それぞれの和を算出し、和に基づいて第1対象クラスを含む区間を検出する。第2識別部は、検出された区間に対して、識別対象のクラスである複数の第2対象クラスを少なくとも含む第2クラス群のいずれに属する時系列信号であるかを識別する。
【図面の簡単な説明】
【0008】
図1】本実施形態にかかるパターン識別装置のブロック図。
図2】本実施形態におけるパターン識別処理のフローチャート。
図3】本実施形態におけるパターン識別処理の具体例を説明する図。
図4】本実施形態にかかるパターン識別装置のハードウェア構成図。
【発明を実施するための形態】
【0009】
以下に添付図面を参照して、この発明にかかるパターン識別装置の好適な実施形態を詳細に説明する。
【0010】
なお、以下では話者の属性を識別するパターン識別装置を例に説明するが、適用可能な装置はこれに限られるものではない。また、以下では話者属性として男女を識別する例を説明するが、他の話者属性識別に変更しても本実施形態の一般性は失われない。他の話者属性の例として、年齢、年代、怒りや悲しみなどの感情、笑い声、咳、話者、および、音声そのものなどがある。
【0011】
上述のように、従来のフレームに対する同一識別器で音声区間検出とその区間に対する話者属性識別を行う話者属性識別装置では、検出された音声区間に一部の無音区間を含む場合でもその無音区間に対して話者属性を判定するための尤度を算出し、積算していた。また、フレームに対する識別問題に対して生成モデルの尤度を用いており、識別問題に対して確率を使って直接解いていなかった。
【0012】
本実施形態にかかるパターン識別装置は、フレームに対して識別処理を行い、その結果を用いて音声区間検出とその区間に対する話者属性識別両方を、フレームに対する各クラスの確率を用いて精度よく行うことを可能とする。
【0013】
図1は、本実施形態にかかるパターン識別装置100を示すブロック図である。パターン識別装置100は、識別器記憶部121、122と、結果記憶部123と、受付部101と、信号処理部102と、第1識別部103と、検出部104と、第2識別部105と、出力制御部106と、を備える。
【0014】
識別器記憶部121は、第1識別部103が利用する識別器の情報を記憶する。識別器記憶部122は、第2識別部105が利用する識別器の情報を記憶する。例えば、第1識別部103および第2識別部105がニューラルネットワーク(例えばDNN(Deep Neural Network))の識別器を用いて識別処理を行う場合は、識別器記憶部121および122は、それぞれ利用するニューラルネットワークの識別器の情報を記憶する。
【0015】
結果記憶部123は、第1識別部103および第2識別部105の識別処理の結果(識別結果)を記憶する。
【0016】
なお、各記憶部(識別器記憶部121、122、結果記憶部123)は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
【0017】
受付部101は、時系列信号(例えば音)の入力を受け付ける。受付部101は、受け付けた音の音波形をアナログからデジタルに変換し信号処理部102に出力する。受付部101は、一般的なAD(アナログデジタル)変換を用いてアナログ波からデジタル波への変換を行う。例えば受付部101は、アナログの音波形を16kHzでサンプリングし、1サンプルの振幅値を16ビットで表したデジタル信号を出力する。
【0018】
信号処理部102は、デジタルの音波形を一定の時間ごとにフレームとして切り出し、フレームごとに音響特徴量を算出する。例えば信号処理部102は、デジタルの音波形を256点サンプルずつ、128点サンプルずらしながら切り出して1フレームとする。信号処理部102は、256点サンプル(1フレーム)から、12次元のMFCC(Mel Frequency Cepstral Coefficient)特徴量を算出する。信号処理部102は、MFCC特徴量を3フレーム分バッファリングし、この3フレーム分のMFCC特徴量を連結した36次元の特徴量を、3フレームの中央フレームの時刻の特徴量として出力する。
【0019】
抽出する特徴量はMFCCに限定されるものではなく、例えば、メルフィルタバンク特徴量やPLP(Perceptual Linear Prediction)やRASTA−PLP特徴量、ピッチ特徴量、および、それらのΔ成分またはΔΔ成分などを用いてもよい。また、これら特徴量の組み合わせを用いてもよい。また、連結フレーム数は3に限定されるものではなく、1フレーム以上であれば、何フレーム連結させてもよい。また、切り出しサンプルサイズやフレーム周期は上記の値に限定されるものではない。
【0020】
第1識別部103は、算出された特徴量に基づいて、予め定められたクラス群(第1クラス群)のリーフクラスまたは単独クラスのいずれに属する音であるかをフレームごとに識別し、フレームが与えられたときの各クラスに対する確率を算出する。第1クラス群は、少なくとも1以上の木構造クラスを持ち、識別対象とするクラス(第1対象クラス)と、第1対象クラスではないクラス(第1非対象クラス)と、を含む。木構造クラスは、木構造で表されるクラスである。リーフクラスは、木構造クラスのうちリーフノードに対応するクラスである。以下では、木構造クラスのうちリーフノード以外のノードに対応するクラスをノードクラスという。単独クラスは、木構造で表されないクラス(木構造クラスではないクラス)である。
【0021】
例えば、男音声を示すクラスと、女音声を示すクラスがリーフクラスでありそのノードクラスが音声クラスである木構造クラスが、第1対象クラスに含まれる。また、無音声を示すクラスが、第1非対象クラスに含まれる。第1識別部103は、出力した識別結果を結果記憶部123に記憶させる。
【0022】
第1識別部103は、識別器記憶部121が記憶する情報を参照して識別処理を行う。図1では、識別器記憶部121が、木構造クラスであり、ノードクラスに対象クラスである対象クラス0(例えば音声クラス)を持ち、リーフクラスに2つの対象クラスである対象クラス1(例えば男音声クラス)および対象クラス2(例えば女音声クラス)を持ち、単独クラスである1つの非対象クラス(例えば無音声クラス)の、リーフクラスと単独クラスを識別するための情報を記憶する例が示されている。
【0023】
検出部104は、第1識別部103の第1対象クラスとなる木構造クラスのリーフクラスの確率の和を算出し、算出した和を用いて第1対象クラスを含む区間の検出を行う。検出部104は第1対象クラスの存在する区間を決定し、出力する。
【0024】
第2識別部105は、1以上のフレームに対する第1識別部103による識別結果に基づいて第2クラス群のいずれに属する音であるかを識別する。第2クラス群は、識別対象とする第2対象クラスを少なくとも含む。例えば、男音声を示すクラスと、女音声を示すクラスとが、第2対象クラスに含まれる。これにより、検出区間に対する属性の最終的な識別結果(男音声であるか、女音声であるか)が出力される。
【0025】
第2識別部105は、識別器記憶部122が記憶する情報を参照して識別処理を行う。図1では、識別器記憶部122が、2つの対象クラスである対象クラス1(例えば男音声クラス)および対象クラス2(例えば女音声クラス)を識別するための情報を記憶する例が示されている。
【0026】
第2識別部105の処理対象とする音区間は、検出部104で検出された区間である。識別結果の取得要求は、例えば0または1の信号のうち1が外部から入力されたときに受理されるように構成してもよい。例えばこの信号は、ユーザが識別結果を要求するボタンをクリックしたときに1となり、他の状態では0となる。このとき識別結果の取得要求信号によって検出すべき第1クラス群の第1対象クラスや第2クラス群の第2対象クラスを変更してもよい。
【0027】
第1クラス群および第2クラス群に含まれるクラスは上記例に限られるものではない。例えば、第2クラス群が無音声を示す非対象クラス(第2非対象クラス)を含んでもよい。また、第1クラス群と第2クラス群とは同じクラス群であってもよいし、異なるクラス群であってもよい。
【0028】
出力制御部106は、各種情報の出力処理を制御する。例えば出力制御部106は、第2識別部105による最終的な識別結果を出力する。出力方法はどのような方法であってもよいが、例えば、表示装置(図示せず)に対して表示する方法、および、ネットワークなどを介して外部装置に出力する方法などを適用できる。
【0029】
なお、上記各部(受付部101、信号処理部102、第1識別部103、第2識別部105、検出部104、および、出力制御部106)は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
【0030】
次に、このように構成された本実施形態にかかるパターン識別装置100によるパターン識別処理について図2を用いて説明する。図2は、本実施形態におけるパターン識別処理の一例を示すフローチャートである。
【0031】
まず、受付部101は、音波形の入力を受け付ける(ステップS101)。音波形は、例えばマイクロホンなどを用いて収録された情報である。受付部101は、音波形をアナログからデジタル(デジタル波)に変換する(ステップS102)。
【0032】
信号処理部102は、デジタル波を一定の時間ごとに切り出し、音響特徴量を作成する(ステップS103)。
【0033】
第1識別部103は、信号処理部102が出力する音響特徴量を入力し、識別器記憶部121に記憶されている識別器を用いて第1のクラス識別処理を実行する。そして第1識別部103は、識別結果を結果記憶部123に記憶させる(ステップS104)。第1のクラス識別処理で識別するクラスは、話者属性としてのクラス(第1対象クラス)である男音声クラスおよび女音声クラスと、話者属性ではないクラス(第1非対象クラス)である無音声クラス、の3つのクラスを含む。また、男音声クラス、女音声クラスは木構造のクラス構造を持ち、リーフクラスが男音声クラス、女音声クラスで、そのリーフクラスが接続されているノードクラスは音声クラスとする。第1識別部103は、リーフクラスである男音声クラス、女音声クラスと木構造ではない単独クラスの無音声クラスの3クラスを識別器記憶部121に記憶されているDNNを用いて識別し、フレームが与えられたときの各クラスに対する事後確率を出力する。
【0034】
DNNの構造は、例えば、入力層のユニット数は特徴量の次元と同じ36とし、隠れ層は2層でユニット数はそれぞれ512とし、出力層のユニット数は3とする。出力層は、男音声クラス、女音声クラス、および、無音声クラスに対応するものとする。
【0035】
DNNの学習は、例えば次のように実行する。まず、男音声、女音声、および、無音声を含み、それぞれ男音声フレーム、女音声フレーム、および、無音声フレームとラベル付されたデータ(学習音声)を用意する。次に、学習音声から信号処理部102が算出する特徴量と同じ特徴量を算出し、最終出力層にソフトマックス(SoftMax)を用いてラベルに対応する出力層のユニットが1、他のユニットの出力が0に近づくようにバックプロバゲーションを用いてDNNが学習される。
【0036】
第1識別部103は、このように学習したDNNを用いて、男音声クラス、女音声クラス、および、無音声クラスの3クラスの識別を行う。第1識別部103は、DNNの入力層に音響特徴量の36次元を与え、出力層の値を比較し、値の大きいユニットに対応するクラスを識別結果として出力する。また、第1識別部103は、各クラスに対する事後確率を出力する。
【0037】
識別結果、および各クラスの事後確率は結果記憶部123に保存される。結果記憶部123は、それぞれのクラスが何回識別結果として出力されたかを記憶してもよい。
【0038】
第1クラス群は、木構造クラスであり、ノードクラスに音声クラスを持ち、そのリーフクラスが男音声クラス、女音声クラス、そして単独クラスである無音声を含むようなクラス形態に限られるものではない。例えば、ノードクラスに音声クラスを持ち、そのリーフクラスが男性子音音声、男性母音音声、女性子音音声、女性母音音声であり、さらに単独クラスである無音声を含むように、話者属性クラスをさらに細かい分類の複数クラスに分割してもよい。また、無音声クラスを、例えば、突発性雑音のクラスと突発性雑音ではない定常な無音声クラスのようにより細かい分類の複数クラスに分割してもよい。また、無音声クラスも例えば、ノードクラスに無音声クラスを持ち、そのリーフクラスが突発性雑音と無音声クラスであるような木構造クラス構造を持ってもよい。
【0039】
識別器はDNNに限定されるものではなく、マルチクラスの識別が可能でかつフレームに対する各クラスの確率を出力できる識別器であればよい。例えば、マルチクラスSVM、混合GMMsの尤度比較、および、マルチクラスAdaBoostを識別器として用いてもよい。
【0040】
結果記憶部123に保存される識別結果は、フレーム時刻にひも付された各フレームに対する事後確率だけでなく、例えば、それぞれのクラスの尤度を加えてもよい。
【0041】
第2識別部105は、識別結果の取得要求があるか否かを判定する(ステップS105)。識別結果の取得要求がない場合(ステップS105:No)、ステップS104に戻り処理が繰り返される。
【0042】
識別結果の取得要求があった場合(ステップS105:Yes)、検出部104は、第1識別部103の識別結果を用いて、音声クラスの区間の検出を行う(ステップS106)。このとき、各フレームに対する音声らしさは、音声クラスの確率、すなわち、リーフクラスの男性クラスの確率と女性クラスの確率との和で表す。検出部104は、フレームに対する音声らしさに対して、スムージング処理、音声らしさに対する閾値処理を行い、音声区間(イベント区間)の検出を行う。例えば検出部104は、確率の和が閾値より大きい区間を音声区間として検出する。検出を行う際に第1識別部の結果をバッファリングしてもよい。
【0043】
音声区間の検出はこの方法に限らず、オートマトンを用いた始端・終端判定等を行ってもよい。また、この検出部104で検出した区間を音声認識処理の実行区間としてもよい。音声認識処理は、一般的なHMM(Hidden Marcov Model)とGMMsを組み合わせた方法や、HMMとDNNを組み合わせた方法で音響処理をし、Nグラム言語モデルやRNN(Recurrent Neural Networks)などで言語処理を行う方法が考えられる。また、区間の検出器は一つではなく、第1クラス群の第1対象クラスの複数の対象に対してそれぞれ、検出処理を行っても良い。例えば、第1クラス群が、ノードクラスに音声クラスを持ち、そのリーフクラスが男音声クラス、女音声クラスを持つ木構造のクラス群と、ノードクラスに音楽クラスを持ち、そのリーフクラスがクラシッククラス、ロッククラスを持つ木構造のクラス群の2つの木構造クラス群を持つ場合、音声の検出と音楽の検出をそれぞれの木構造のリーフクラスの事後確率をそれぞれ足し合わせて、音声の確率と、音楽の確率をそれぞれ算出し、それぞれの区間の検出を行ってもよい。
【0044】
第2識別部105は、結果記憶部123に保存されており、かつフレーム単位で識別された識別結果を用いて、検出部104で検出された区間に対して第2のクラス識別処理を実行し、識別結果を出力する(ステップS107)。
【0045】
第2識別部105は、男音声クラス、および、女音声クラスという2クラスを識別する。結果記憶部123には、男音声、女音声、および、無音声の各確率がフレーム時刻にひも付けて保存されている。そこで、第2識別部105は、フレーム毎に男音声、女音声、無音声の事後確率を比較し、最も大きい確率をそのフレームの識別結果とする。そして、男音声クラスと識別されたフレームの数と、女音声クラスと識別されたフレームの数とを比較し、数が多いクラスを最終識別結果として出力する。
【0046】
識別結果を出力した後、第2識別部105は、結果記憶部123に保存してある識別結果をリセット(クリア)する(ステップS108)。
【0047】
第2識別部105が識別するクラスは上記クラスのみに限定されることはなく、第1識別部103と同じように、男音声、女音声、および、無音声を識別してもよい。また、検出された単一区間だけでなく、検出された複数の区間の中で第2の識別を行ってもよい。
【0048】
また、例えば、第1クラス群が、咳、鼻水音、男音声、および、女音声の各クラスを含み、第2クラス群が、男性風邪、女性風邪、男性健康、および、女性健康の各クラスを含むなどのように、第2識別部105が第1識別部103と異なる話者属性を識別してもよい。
【0049】
また識別結果の取得要求は上記記載のものに限定されない。例えば結果記憶部123をリセットせず、フレームの処理ごとに結果取得を要求してもよい。また、検出部104でイベント区間の終端が検出されたタイミングでその区間に対する結果取得を要求してもよい。結果記憶部123のリセットのタイミングは必ずしも識別結果を出力した後に行わなくともよい。例えば、本実施形態のパターン認識装置を電話に適用するような場合であれば、1通話終了時のタイミングでリセットを行ってもよい。
【0050】
第2識別部105が用いる識別器は、第1識別部103によるフレームごとの識別結果を入力とする識別器であれば何でもよい。例えば、第2識別部105は、カウント数の大小だけでなく、尤度の大小や、事後確率の大小で判断してもよい。また第2識別部105が、カウント数の値、尤度、および、事後確率の大きさのNベスト出力を識別結果として出力してもよい。
【0051】
図3は、本実施形態におけるパターン識別処理の具体例を説明する図である。図3では、第1識別部103が、リーフクラスである対象クラス1(例えば男音声(male))、対象クラス2(例えば女音声(female))を持ち、それらのノードクラスを対象クラス0とし、単独クラスの非対象クラス(例えば無音声(Sil))の中で、リーフクラス(male,female)と単独クラス(Sil)の3クラスの識別を行う。また、第2識別部105が、対象クラス1(例えば男音声(male))、および、対象クラス2(例えば女音声(female))の2クラスの識別を行う。
【0052】
図3の下部のグラフは、複数フレームを含む音区間での音波形の例を表す。縦の線で区切った単位が1フレームを表す。各フレームの上方に記載した「s」、「m」および「f」の記号は、対応するフレームが、それぞれ無音声、男音声、および、女音声のクラスであると第1識別部103により識別されたことを示す。この例では、検出部104で音声区間と検出された合計13フレーム(始端301と終端302の間のフレーム)のうち、8フレームで男音声であると識別され、2フレームで女音声であると識別されている。
【0053】
このような第1識別部103によるフレームごとの識別結果を参照し、イベント区間を検出し、イベント区間に対して、第2識別部105は、無音声「s」を除くフレームのうち、個数の大きい男音声「m」が、図3の音区間での最終識別結果であると判定する。
【0054】
このように、本実施形態にかかるパターン識別装置によれば、第1識別部103でフレームごとに男音声、女音声、および、無音声を識別し、検出部104で、第1の識別結果を用いて音声区間を検出し、第2識別部105で、検出部104で検出された区間に対して、フレーム単位で男音声、女音声と識別された第1の識別結果を用いて第2の識別処理を行い、最終的な識別結果を出力する。この際、本実施形態のパターン識別装置では、対象音声区間、話者属性をフレームに対する各クラスの確率に基づき精度よく検出・識別を行うことができる。フレームに対する各クラスの確率に基づき精度よく話者の属性を識別することが可能となる。
【0055】
次に、本実施形態にかかるパターン識別装置のハードウェア構成について図4を用いて説明する。図4は、本実施形態にかかるパターン識別装置のハードウェア構成を示す説明図である。
【0056】
本実施形態にかかるパターン識別装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
【0057】
本実施形態にかかるパターン識別装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
【0058】
本実施形態にかかるパターン識別装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
【0059】
さらに、本実施形態にかかるパターン識別装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかるパターン識別装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0060】
本実施形態にかかるパターン識別装置で実行されるプログラムは、コンピュータを上述したパターン識別装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
【0061】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0062】
100 パターン識別装置
101 受付部
102 信号処理部
103 第1識別部
104 検出部
105 第2識別部
106 出力制御部
121 識別器記憶部
122 識別器記憶部
123 結果記憶部
図1
図2
図3
図4