【実施例】
【0022】
図1は、実施例に係るホームセキュリティシステムのシステム構成を示すシステム構成図である。
図1に示すホームセキュリティシステムは、監視装置60にドア監視装置11、窓監視装置12、火災検知装置13及び話者認識装置30を接続し、話者認識装置30にマイクロホン20を接続した構成を有する。
【0023】
ドア監視装置11は、住宅のドアに対する不正な侵入の試みを監視する装置である。ドア監視装置11は、ピッキングなどの侵入の試みを検知した場合には、監視装置60に対して報知を行なう。
【0024】
窓監視装置12は、住宅の窓に対する不正な侵入の試みを監視する装置である。窓監視装置12は、窓に対する衝撃等を検知した場合には、監視装置60に対して報知を行なう。
【0025】
火災検知装置13は、住宅の居室等に設けられ、火災の発生を検知する装置である。火災検知装置13は、火災の発生を検知した場合には、監視装置60に対して報知を行なう。
【0026】
マイクロホン20は、玄関等の出入口に設置され、音響信号を取得して話者認識装置30に出力する装置である。マイクロホン20は、常に動作し、音響信号の取得及び出力を行なう。なお、人感センサ等を用いて音響信号の取得のオンオフ切替をおこなってもよい。話者認識装置30は、任意の場所に設置可能である。また、マイクロホン20を話者認識装置30の筐体内に設けてもよい。
【0027】
話者認識装置30は、マイクロホン20が取得した音響信号を用いて話者認識を行ない、ホームセキュリティシステムの動作を管理する監視装置60に出力する。話者認識装置30は、話者認識部31及びテキスト判別部32を有し、監視装置60は、監視制御部33及び監視部34を有する。話者認識部31は、マイクロホン20が取得した音響信号から音声を切り出し、該音声が居住者の音声であるか否かを認識し、認識結果を監視装置60の監視制御部33に出力する。また、テキスト判別部32は、マイクロホン20が取得した音響信号から音声を切り出し、該音声内の単語をテキスト情報として監視装置60の監視制御部33に出力する。
【0028】
監視制御部33は、話者認識部31により話者が居住者であると認識された場合に、テキスト判別部32から出力されたテキスト情報に基づいて、監視部34の動作を制御する処理部である。具体的には、「セキュリティオン」や「いってきます」等のテキスト情報を含む場合には、監視部34による監視動作を開始させ、「セキュリティオフ」や「ただいま」等のテキスト情報を含む場合には、監視部34による監視動作を終了させる。
【0029】
監視部34は、ドア監視装置11、窓監視装置12及び火災検知装置13の出力を用いて、住居の監視を行なう処理部である。具体的には、監視部34は、監視制御部33から開始指示を受けた場合に監視動作を開始し、監視動作中にドア監視装置11、窓監視装置12又は火災検知装置13から異常発生の報知を受けた場合には、警報動作を行なうとともに、センタに対して異常発生を通知する。この監視動作は、監視制御部33から終了指示を受けた場合に終了する。
【0030】
このように、本実施例に係るホームセキュリティシステムでは、居住者の音声を認識することで、監視動作のオンオフ制御を音声操作により行なうことが可能である。
【0031】
次に、
図1に示した話者認識部31の内部構成について説明する。
図2は、
図1に示した話者認識部31の内部構成を示す内部構成図である。
図2に示すように、話者認識部31は、AD変換部41、音声区間抽出部42、特徴パラメータ算出部43、切替部44、記憶部45、距離算出部46、認識処理部47及び判別値生成部48を有する。
【0032】
AD変換部41は、マイクロホン20が取得した音響信号をアナログ信号からデジタル信号に変換し、音声区間抽出部42に出力する処理を行なう処理部である。
【0033】
音声区間抽出部42は、AD変換部41によりデジタル信号に変換された音響信号から音声区間を抽出する処理部である。音声区間の抽出は、音響信号の信号パワーやゼロクロス数等に基づいて行なうことができる。
【0034】
特徴パラメータ算出部43は、音声区間抽出部42から出力された音声信号のスペクトル包絡の特徴を示す特徴パラメータを算出する処理部である。特徴パラメータの算出手法としては、LPC(Linear Predictive Coding)ケプストラム係数や、MFCC(Mel-Frequency Cepstrum Coefficient)等の任意の手法を用いることができる。
【0035】
切替部44は、話者認識部31の動作モードを切り替える処理部である。話者認識部31の動作モードには、登録モードと認識モードとがある。切替部44により登録モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、記憶部45に音声特徴データとして格納される。一方、切替部44により認識モードに設定されている場合には、特徴パラメータ算出部43が算出した特徴パラメータは、入力データとして距離算出部46に出力される。
【0036】
記憶部45は、ハードディスク装置や不揮発性メモリ等の記憶デバイスであり、話者登録データを記憶する。話者登録データは、登録対象者毎に生成され、別データとして記憶される。1つの話者登録データは、同一の登録対象者による複数の音声特徴データと、該登録対象者用の照合判別値とが含まれる。
図2では、記憶部45は、話者登録データR1及び話者登録データR2を記憶している。
【0037】
判別値生成部48は、話者登録データに含まれる複数の音声特徴データから、照合判別値を生成する処理部であり、話者内距離算出部48a、分布生成部48b及び判別値算出部48cを有する。
【0038】
話者内距離算出部48aは、話者登録データに含まれる複数の音声特徴データ、即ち、話者が同一の複数の音声特徴データを用い、音声特徴データ間の距離を算出する。従って、M個の音声特徴データを有する話者登録データでは、M(M−1)/2個の距離が算出されることとなる。
【0039】
分布生成部48bは、話者内距離算出部48aにより算出されたM(M−1)/2個の距離の分布をガウス分布で近似する処理部である。判別値算出部48cは、分布生成部48bにより生成されたガウス分布の累積分布関数を求め、その値が達成すべき本人受理率と一致する距離を照合判別値として算出する。判別値算出部48cは、算出した照合判別値を話者登録データに登録する。
【0040】
ここで、本人受理率とは、本人を本人と正しく認識する確率である。本人を他人と誤って認識することは、「本人を棄却する」という。本人受理率については、
(本人受理率)=1−(本人を棄却する確率)
が成立する。
また、他人を他人と正しく認識する確率は「他人棄却率」といい、他人を本人と誤って認識することは、「他人を受理する」という。他人棄却率については、
(他人棄却率)=1−(他人を受理する確率)
が成立する。
【0041】
距離算出部46は、入力データと話者登録データとの距離の小ささを類似度の高さとして算出する処理部である。具体的には、距離算出部46は、話者登録データに含まれる複数の音声特徴データについて入力データとの距離をそれぞれ算出し、算出した複数の距離の平均を話者登録データとの距離とする。なお、算出した複数の距離のうち、最小の距離を話者登録データとの距離としてもよい。また、話者登録データに含まれる複数の音声特徴データのいずれかを代表音声特徴データとし、入力データと代表音声特徴データとの距離を話者登録データとの距離としてもよい。
【0042】
距離算出部46は、入力データと話者登録データとの距離を認識処理部47に出力する。距離算出部46による距離の算出と出力は、複数の話者登録データについてそれぞれ行なう。
【0043】
認識処理部47は、話者識別部47aと、話者照合部47bとを有する。話者識別部47aは、距離算出部46により算出された距離が最小となる話者登録データを選択する。この話者登録データの話者が、入力データの話者候補となる。
【0044】
話者照合部47bは、話者識別部47aにより選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する。この距離が照合判別値よりも小さいならば、話者照合部47bは、当該話者登録データの話者と入力データの話者とが一致すると判定する。話者照合部47bは、判定結果を監視装置60に出力する。
【0045】
このように、話者認識部31は、登録対象者の音声特徴データを複数取得し、登録対象者毎に話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定する。話者間距離分布を用いないことから、登録対象者と比較するための他者の音声特徴データが不要であり、年齢や性別などの個人属性による話者間距離分布の変動の影響を受けることがない。また、実際の使用環境において登録対象者の音声特徴データを取得して話者内距離分布を生成することから、使用環境の違いによる影響を受けることもない。
【0046】
ここで、個人属性による分布の変動について説明する。
図3は、個人属性による話者間距離分布の変動について説明するための説明図である。
図3(a)は、話者に成人、児童及び高齢者の全年齢層を含む場合の話者内距離分布(実線)及び話者間距離分布(破線)を示している。話者に全年齢層を含む場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「0.56」の場合である。話者内距離分布と話者間距離分布から閾値を求める従来の技術では、この「0.56」が閾値となる。
【0047】
図3(b)は、話者が成人のみである場合の話者内距離分布(実線)及び話者間距離分布(破線)を示している。話者が成人のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「0.56」の場合である。すなわち、話者に全年齢層を含む場合と同様であり、この「0.56」が閾値となる。
【0048】
図3(c)は、話者が児童のみである場合の話者内距離分布(実線)及び話者間距離分布(破線)を示している。話者が児童のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「0.51」の場合である。すなわち、話者が児童である場合には、適切な閾値は「0.51」であり、全年齢層を含む場合の閾値「0.56」よりも小さくなる。
【0049】
図3(d)は、話者が高齢者のみである場合の話者内距離分布(実線)及び話者間距離分布(破線)を示している。話者が高齢者のみである場合には、話者内距離分布と話者間距離分布とが同じ頻度値となるのは、距離が「0.58」の場合である。すなわち、話者が高齢者である場合には、適切な閾値は「0.58」であり、全年齢層を含む場合の閾値「0.56」よりも大きくなる。
【0050】
このため、話者に全年齢層を含むことを想定して閾値「0.56」を用いた話者照合を行なうと、児童や高齢者が話者であった場合に照合精度が低下する。具体的には、話者が高齢者である場合には、適切な閾値「0.58」よりも小さい閾値を用いることになるため、本人を棄却する誤り率が増大し、話者が児童である場合には、適切な閾値「0.51」よりも大きい閾値を用いることになるため、他人を受理する誤り率が増大することとなる。
【0051】
図3(e)は、閾値「0.56」を用いた話者照合を行なった場合の、本人を棄却する平均誤り率である。
図3(e)に示すように、話者が成人や児童であれば本人を棄却する平均誤り率が2%以下となる。しかし、話者が男性高齢者である場合には本人を棄却する平均誤り率が3.4%となり、話者が女性高齢者である場合には本人を棄却する平均誤り率が約5.2%となる。
【0052】
図3(f)は、閾値「0.56」を用いた話者照合を行なった場合の、他人を受理する平均誤り率である。
図3(f)に示すように、話者が成人や高齢者であれば他人を受理する平均誤り率が1%以下となる。しかし、話者が男子児童である場合には他人を受理する平均誤り率が3.9%となり、話者が女子児童である場合には他人を受理する平均誤り率が約5.6%となる。
【0053】
次に、音声データの録音環境による分布の変動について説明する。
図4は、音声データの録音環境による分布の変動について説明するための説明図である。
図4は、同一の話者が同一の発話内容を複数回発話したときの話者内距離分布であり、録音環境1と録音環境2の異なる録音環境での話者内距離分布の違いを示している。
【0054】
このように、録音環境によって話者内距離分布の平均及び分散が異なることから、話者照合時に用いる実際の録音環境で取得した音声により登録を行なうことが、話者照合の精度を向上するために重要である。しかし、話者間距離分布を生成するためは、多くの他者の音声データを取得する必要があるため、実際の録音環境で十分な数の他者の音声データを取得することは困難である。
【0055】
そこで、本実施例にかかる話者認識部31は、実際の録音環境で登録対象者の音声特徴データを複数取得して話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定することにより、話者間距離分布を不要とし、個人属性や使用環境の違いによる影響を受けることなく高精度な話者照合を実現しているのである。
【0056】
次に、照合判別値の算出について具体的に説明する。
図5は、照合処理の算出にかかる話者内距離分布と累積分布関数を示す図である。
図5に示す分布は、登録対象者である話者が繰り返し発話した音声の話者内距離分布をガウス分布で近似したものである。
【0057】
そして、
図5に示す累積分布関数Fは、このガウス分布の累積分布関数である。話者照合において達成すべき本人受理率をp
kとすると、累積分布関数Fの値がp
kとなる距離T
kが照合判別値として適切な値となる。
【0058】
なお、
図5に示したようにガウス分布の積分値を算出して照合判別値T
kを求めてもよいが、本人受理率p
kと照合判別値T
kとの対応関係を示すテーブルを用いてもよい。具体的には、
図6に示すように、ガウス分布の平均値μと標準偏差σにより、
T
k=μ+α・σ
と表現すれば、本人受理率p
kに対応する係数αのテーブルを持てばよいことになる。
図7は、本人受理率p
kと係数αのテーブルを示す図である。
図7は、本人受理率p
k「90.0%」〜「99.0%」について、対応する係数αを対応付けたテーブルの一例である。このようなテーブルを保持しておけば、所望の本人受理率p
kにより対応する係数αを簡易に求めることが可能である。
【0059】
次に、話者照合の実験結果について説明する。
図8は、話者照合の実験結果を示す図である。この実験結果は、児童、成人、高齢者の男女を各100名分含む音声データを用いたものである。
【0060】
従来技術のように、話者間距離分布と話者内距離分布から算出した閾値を用いると、本人受理率は全ての年齢層と性別で94%以上であるが、児童の他人棄却率が大きく低下し、82%となる場合もある。
【0061】
これに対し、本実施例に開示した手法により、本人受理率98%に対応する照合判別値を用いたならば、本人受理率と他人棄却率は、いずれも年齢層や性別に関わらず94%以上を達成している。
【0062】
次に、話者認識部31の処理手順について説明する。
図9は、登録モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により登録モードに設定された状態で実行される。
【0063】
まず、マイクロホン20が音響信号を取得する(ステップS101)。音声区間抽出部42は、マイクロホン20が取得した音響信号から音声区間を抽出する(ステップS102)。
【0064】
特徴パラメータ算出部43は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS103)。そして、算出した特徴パラメータを記憶部45に音声特徴データとして蓄積し(ステップS104)、同一の話者について音声特徴データを所定数登録したかを判定する(ステップS105)。
【0065】
同一の話者について登録した音声特徴データの数が所定数に満たない場合には(ステップS105;No)、話者認識部31は、ステップS101に移行し、マイクロホン20による音響信号の取得を行なう。
【0066】
同一の話者について音声特徴データを所定数登録したならば(ステップS105;Yes)、判別値生成部48の話者内距離算出部48aは、話者が同一の複数の音声特徴データを用い、音声特徴データ間の距離を算出する(ステップS106)。
【0067】
判別値生成部48の分布生成部48bは、話者内距離算出部48aにより算出された距離の分布をガウス分布で近似する(ステップS107)。判別値生成部48の判別値算出部48cは、分布生成部48bにより生成されたガウス分布の累積分布関数を求め、その値が達成すべき本人受理率と一致する距離を照合判別値として算出する(ステップS108)。判別値算出部48cは、算出した照合判別値を話者登録データに登録し(ステップS109)、登録処理を終了する。
【0068】
図10は、認識モードにおける話者認識部31の処理手順を示すフローチャートである。なお、このフローチャートに示す処理手順は、切替部44により認識モードに設定された状態で実行される。
【0069】
まず、マイクロホン20が音響信号を取得する(ステップS201)。音声区間抽出部42は、マイクロホン20が取得した音響信号から音声区間を抽出する(ステップS202)。
【0070】
特徴パラメータ算出部43は、音声区間のスペクトル包絡の特徴を示す特徴パラメータを算出する(ステップS203)。
【0071】
距離算出部46は、話者登録データに含まれる複数の音声特徴データについて入力データとの距離をそれぞれ算出し、算出した複数の距離の平均を話者登録データとの距離として算出する(ステップS204)。
【0072】
距離算出部46は、全ての話者登録データとの距離を算出したかを判定し(ステップS205)、入力データとの距離を算出していない話者登録データが残っている場合には(ステップS205;No)、話者登録データとの距離の算出に移行する(ステップS204)。
【0073】
全ての話者登録データとの距離を算出したならば(ステップS205;Yes)、話者識別部47aは、距離算出部46により算出された距離が最も小さい話者登録データを選択する(ステップS206)。
【0074】
話者照合部47bは、話者識別部47aにより選択された話者登録データと入力データとの距離と、当該話者登録データの照合判別値とを比較する(ステップS207)。話者識別部47aにより選択された話者登録データと入力データとの距離が照合判別値よりも小さいならば(ステップS207;Yes)、話者照合部47bは、当該話者登録データの話者と入力データの話者とが一致すると判定し、判定結果を監視装置60に出力して処理を終了する(ステップS208)。
【0075】
一方、話者識別部47aにより選択された話者登録データと入力データとの距離が照合判別値以上であるならば(ステップS207;No)、話者照合部47bは、当該話者登録データの話者と入力データの話者とが一致しないと判定し、判定結果を監視装置60に出力して処理を終了する(ステップS209)。
【0076】
上述してきたように、本実施例では、話者認識部31は、実際の録音環境で登録対象者の音声特徴データを複数取得して話者内距離分布を生成し、話者内距離分布から各登録対象者用の照合判別値を個別に設定するよう構成したので、話者間距離分布を不要とし、個人属性や使用環境の違いによる影響を受けることなく高い精度で話者照合を行なうことができる。
【0077】
また、照合判別値を事前に生成し、保持しておくことができるため、認識時の処理負荷を大きく軽減することが可能である。
【0078】
次に、話者認識部の変形例について説明する。
図11は、話者認識部の変形例について説明するための説明図である。
図11に示す話者認識部131は、
図2に示した話者認識部31にテキスト判別部51、登録処理部52及びデータ選択部53を追加した構成を有する。
【0079】
テキスト判別部51は、音声区間抽出部42により抽出された音声区間内の単語をテキスト情報として判別する。そして、判別したテキスト情報が予め指定された単語と一致する場合にのみ、音声区間抽出部42により抽出された音声区間の音声信号を特徴パラメータ算出部43に出力する。
【0080】
このように、テキスト判別部51を用いることにより、同一の単語の音声特徴データが複数蓄積されるので、判別値生成部48は、同一の単語の話者内距離分布を生成し、照合判別値を算出することになる。また、認識時にも、登録時と同一の単語で識別及び照合を行なうことになるため、認識精度を向上することができる。
【0081】
登録処理部52は、認識処理部47の話者照合部47bにより入力データの話者が登録話者データの話者と一致すると判定された場合に、該入力データを話者登録データに属する音声特徴データとして追加登録する処理部である。
【0082】
判別値生成部48は、登録処理部52により音声特徴データが追加登録された場合には、照合判別値を再度生成し、更新する。この照合判別値の生成と更新は、登録処理部52による追加登録の直後に行なう必要はないため、照合判別値の生成と更新が話者認識部131の負担とならないタイミングで行なうことが好適である。
【0083】
また、判別値生成部48は、話者内距離算出部48a、分布生成部48b及び判別値算出部48cに加え、データ選択部53をさらに有する。データ選択部53は、音声特徴データの内、不適切なデータを排除するフィルタとして機能する。
【0084】
具体的には、話者内距離分布の分散が所定値内に収まるように音声特徴データを選択する。このため、登録処理部52による音声特徴データの追加登録が行なわれた場合には、追加登録による話者内距離分布の分散の変化を算出し、変化が所定の範囲を逸脱する場合には、音声特徴データの追加登録を取り消すこととなる。
【0085】
このデータ選択部53により、適正な音声特徴データを選択して照合判別値を算出し、話者照合の精度を向上することができる。また、音声データの取得環境が変化した場合には、話者間距離分布の分散が変化することを利用し、分散の変化から環境変化を検知することもできる。
【0086】
ここでは、新規の登録音声データについて、不適切なデータを排除する場合について説明したが、既存の登録音声データであっても、該登録音声データが不適切となった場合には、排除することとしてもよい。同一話者の音声であっても、時間の経過とともにその特徴が変化することがあるからである。
【0087】
なお、上記実施例では、ホームセキュリティの動作モードを音声操作により切り替える場合について説明したが、本発明に係る話者認識は、動作モードの切替に限定されるものではなく、テキスト判別により多様な操作に適用可能である。
【0088】
また、上記実施例では、話者の照合が成功したことを条件にセキュリティの動作モード切り替える構成を示したが、特定の話者の音声をブラックリストとして登録し、ブラックリストに登録した話者による操作を拒絶するよう構成してもよい。
【0089】
また、本発明は、ホームセキュリティに限らず、携帯電話端末による話者認識等、任意の装置の話者認識に適用可能である。特に、演算能力が限られた端末で話者認識を行なう場合には、照合時の処理負荷を抑制しつつ認識精度を得られる本発明は有用である。
【0090】
また、図示した各構成は機能概略的なものであり、必ずしも物理的に図示の構成をされていることを要しない。すなわち、各装置の分散・統合の形態は図示のものに限られず、その全部または一部を各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、話者認識部31,131の機能部をソフトウェアにより実現し、コンピュータに実行させれば、コンピュータを話者認識装置として動作させる話者認識プログラムを得ることができる。