(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0017】
以下に添付図面を参照して、本発明に係る音検出装置の一実施形態を詳細に説明する。本発明の実施形態では、監視エリア内の音を観測し、観測された観測音の音響信号から不審音や異常音と見做される特定音の発生区間を検出する。そして、観測音の音響信号から、検出された特定音発生区間の音響信号を切り取って出力する。
【0018】
検出対象となる特定音は、人が発する音声とは異なる所謂物音であり、観測音に含まれる環境音と似ている。そのため、本実施形態では、概略的には、検出対象となる特定音と同種類の音の音響データによる学習データについて、予め特徴値の期待値を求め、求めた期待値と、観測音の時系列上の特徴値との差分を用いて算出したスコアに基づき特定音の発生区間を検出する。
【0019】
ここで、観測音、環境音、不審音および異常音について定義する。観測音とは、監視エリア内で集音される全ての物音をいう。異常音は、侵入行動などが原因で発生した、警報出力すべき物音をいう。異常音の代表的な例としては、ガラスなどが破壊された際に発生する破壊音が挙げられる。不審音は、異常音と断定はされないが、監視エリア内で集音された怪しい物音をいう。不審音の例としては、打撃音などが考えられる。環境音は、観測音に含まれる、不審音および異常音以外の音をいう。環境音の例としては、風など自然現象に起因する音や、自動車、電車の音などが考えられる。
【0020】
図1は、本発明の実施形態に適用可能な音検出装置の一例の構成を概略的に示す。
図1において、音検出装置100は、A/D変換部11、演算部12および記憶部13を含む。例えば監視エリアにおいてマイクロフォン10で集音された観測音は、A/D変換部11でディジタルデータに変換され、入力音響データ20として演算部12に供給される。
【0021】
演算部12は、例えばCPU(Central Processing Unit)、マイクロプロセッサ、あるいは、DSP(Digital Signal Processor)などを含む。また、記憶部13は、例えば半導体メモリやHDD(ハードディスクドライブ)などからなり、入力音響データ20が記憶されると共に、学習データに基づき作成された、入力音響データ20を評価するスコアを算出するためのスコアパラメータが予め記憶されている。学習データは、検出したい不審音や異常音と同種類であって、異なる複数の音の音響データを用いる。記憶部13は、また、演算部12の作業領域としても用いることができる。
【0022】
演算部12は、入力音響データ20の特徴値を時系列上で算出し、算出された時系列上での特徴値を、記憶部13に記憶されるスコアパラメータを用いて評価して、検出対象の不審音や異常音の発生区間を検出する。演算部12は、入力音響データ20から検出対象の不審音や異常音の発生区間を検出した場合、検出された不審音や異常音の発生区間を当該入力音響データ20から切り取り、不審音発生区間の出力音響データ21として出力する。出力音響データ21は、例えば通信ネットワークを介して、監視サーバなどに送信される。
【0023】
本実施形態では、音響データの特徴値として、音響データの信号パワーの時系列での傾きを用いる。なお、これはこの例に限定されず、特徴値は、音響データの特徴を示す値であれば、他の値を用いてもよい。例えば、音響データ信号パワーそのものや、所定区間におけるゼロクロス数などを特徴値として用いてもよい。
【0024】
図2は、音検出装置100の機能をより詳細に説明するための一例の機能ブロック図である。なお、
図2において、上述の
図1と共通する部分には同一の符号を付して、詳細な説明を省略する。また、本実施形態では、上述した不審音および異常音を共に検出対象としている。そのため、以下では、特に記載の無い限り、不審音と異常音とを纏めて不審音として記述する。
【0025】
図2において、信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104は、演算部12に含まれる。スコアパラメータ111は、学習データに基づき予め作成されて記憶部13に記憶される。また、記憶部110は、例えば上述の記憶部13内の領域であって、観測音がA/D変換部11でディジタルデータに変換された入力音響データ20が一時的に記憶されると共に、後述するスコアや遅延時間補正量など、不審音発生区間を検出するために用いるデータが記憶される。
【0026】
信号パワー算出部101は、A/D変換部11から供給された入力音響データ20の信号パワーを、時系列上で算出する。より具体的には、信号パワー算出部101は、入力音響データ20の時系列上で連続する所定数のサンプルを単位として、信号パワーを算出する。ここで、信号パワーを算出する単位をフレームと呼び、フレームに含まれるサンプル数がフレーム幅となる。
【0027】
入力音響データ20のi番目のフレームの信号パワーy
LP(i)は、フレーム幅をW、フレーム内のn番目の波形データ(サンプル値)を値x(n)として、例えば次式(1)により算出される。
【数1】
【0028】
なお、信号パワーy
LP(i)を算出するフレームは、直前のフレームと一部のサンプルが重複するように、フレームの先頭を基準とした所定サンプル数のフレーム間隔D毎に、用いるサンプルをずらして設定する。一例として、フレーム幅W=160サンプルであって、m番目のフレームmが第1サンプル〜第160サンプルで構成されるものとして、m+1番目のフレーム(m+1)は、第81サンプル〜第240サンプルで構成され、m+2番目のフレーム(m+2)は、第161サンプル〜第320サンプルで構成される。この場合、フレーム間隔D=80サンプルとなる。なお、この例では、フレームの重複部分の長さをフレーム幅W/2としたが、これはこの例に限定されない。
【0029】
傾き検出部102は、信号パワー算出部101で算出されたフレーム毎の信号パワーy
LP(i)の、時系列上での傾き(信号パワー時系列の傾きと呼ぶ)y
GLP(i)を算出する。フレームiの信号パワー時系列の傾きy
GLP(i)は、例えばフレームiと、既に信号パワーを算出済みのフレーム(i−4)、フレーム(i−3)およびフレーム(i−1)の、対象フレームiに対して4フレーム分遡ったフレーム(i−4)のうち、4フレーム分の信号パワーを用いて、次式(2)により算出できる。
【数2】
【0030】
なお、式(2)では、対象フレームiに対して4フレーム前から4フレーム分の信号パワーを用いて傾きy
GLP(i)を算出しているが、これはこの例に限定されない。すなわち、対象フレームiから何フレーム分遡ったフレームからデータを用いるかは、信号パワー時系列の傾きy
GLP(i)を求める式の構成に応じて決められる。また、各定数の値も、この例に用いた値に限定されない。
【0031】
スコア算出部103は、傾き算出部102で入力音響データ20について算出された信号パワー時系列の傾きy
GLP(i)と、学習データを用いて予め作成され例えば記憶部13に記憶されたスコアパラメータ111とに基づき、入力音響データ20を評価するためのスコアを算出する。スコアパラメータ111は、予め用意された学習データに基づき作成された、検出対象となる不審音に対する期待値を含む。そして、算出されたスコアの時系列的な変化に基づき不審音発生区間の検出を行う。
【0032】
スコアパラメータ111は、下記のようにして作成する。先ず、検出対象となる不審音と種類が同じであって、互いに音が異なる複数の音響データをそれぞれ学習データとして用意する。例えば、検出対象となる不審音がガラスの破壊音である場合、異なるサイズ、厚み、材質など様々な条件でガラスを破壊した際の破壊音を集音した各音響データを、それぞれ学習データとして用いる。
【0033】
この学習データのそれぞれについて、上述したようにして、フレーム毎に信号パワーを求め、求めた信号パワーを用いて信号パワー時系列の傾きを算出する。そして、複数の学習データの、互いに対応するフレームkの信号パワー時系列の傾きの期待値μ
kおよび分散値σ
2kを算出する。算出された期待値μ
kおよび分散値σ
2kを、フレームkのスコアパラメータ111として、記憶部13に記憶する。
【0034】
図3を用いて、スコアパラメータ111の算出方法についてより詳細に説明する。先ず、学習データに対してフレームを設定する。フレーム幅Wおよびフレーム間隔Dは、上述の信号パワー算出部101で入力音響データ20に対して設定したフレームと同一とする。なお、信号パワー時系列の傾きの算出は、上述した式(2)に従い、対象フレームiから4フレーム分遡ったフレームからの信号パワー値を用いて行うものとする。
【0035】
なお、以下では、不審音発生区間の開始位置を含むフレームから、当該フレームの信号パワー時系列の傾きを算出するために必要なフレーム分を遡ったときの先頭のフレームを、1番目のフレーム(フレーム#1)とする。
【0036】
学習データの波形の立ち上がり時刻、すなわち不審音発生区間の開始位置に係るフレーム(
図3の例ではフレーム#5)を設定する。そして、このフレーム#5から学習データの波形の減衰方向(不審音発生区間の終了位置方向)に向けて、フレーム間隔Dで順次フレームを設定する(フレーム#6〜#8)。また、不審音発生区間の開始位置に係るフレームについて信号パワー時系列の傾きを算出する場合、この例では当該フレームに対して4フレーム分遡った位置からフレームが必要となるので、これらのフレームも設定する。
図3の例では、フレーム#5から時系列を遡った方向に、フレーム#4〜#1が設定される。なお、不審音発生区間の開始位置に係るフレーム(フレーム#5)は、フレームの略中央が当該開始位置になるように設定すると好ましい。
【0037】
音が異なる複数の学習データのそれぞれに対して、同様にして、波形の立ち上がり時刻を基準として各フレームが設定される。
【0038】
なお、この例では、信号パワー時系列の傾きを算出するために用いるフレーム数を4フレームとし、学習データからスコアパラメータ111を算出するために用いる総フレーム数を8フレームとしているが、これはこの例に限定されず、例えばさらに多くのフレームを用いてもよい。また、学習データの波形の立ち上がり時刻に対して中央を揃えるフレームを、5番目のフレームとしているが、これはこの例に限定されず、スコアパラメータ111を算出するために用いる総フレーム数に合わせて別のフレームを用いてもよい。さらに、学習データにおいては、波形の立ち上がり時刻より前のデータが存在しない場合が考えられる。この場合には、値「0」のデータ(無音データ)が存在するものと見做してフレームの設定を行う。
【0039】
次に、上述のようにして各学習データに対して設定されたフレーム毎に信号パワーを算出し、各学習データについて、信号パワー時系列の傾きを算出する。そして、各学習データの対応するフレームkにおける信号パワー時系列の傾きの期待値μ
kおよび分散値σ
2kを算出する。
【0040】
一例として、波形の立ち上がり部分を含むフレーム#5を基点とし、フレーム#5〜フレーム#8のそれぞれについて、各学習データに基づき信号パワー時系列の傾きに関するヒストグラムを作成する。
図4は、学習データとしてガラス打撃音の音響データを用いた場合の、フレーム#5〜フレーム#8それぞれに関する、信号パワー時系列の傾きの分布(ヒストグラム)の例を示す。
図4(a)はフレーム#5の例、
図4(b)はフレーム#6の例、
図4(c)はフレーム#7の例、
図4(d)はフレーム#8の例である。
図4(a)、
図4(b)、
図4(c)および
図4(d)において、横軸が信号パワー時系列の傾きの階級、縦軸が頻度を示す。
【0041】
これら
図4(a)〜
図4(d)のヒストグラムに基づき、フレーム#5〜フレーム#8それぞれについて、期待値μおよび分散値σ
2を求めることができる。なお、期待値μ
kおよび分散値σ
2kの算出は、周知の方法を用いることができるので、ここでの説明を省略する。
図5は、
図4(a)〜
図4(d)のヒストグラムに基づき算出した、フレーム#5〜フレーム#8それぞれの期待値μおよび分散値σ
2の例を示す。各フレームkに対して、それぞれ期待値μ
kおよび分散値σ
2kが算出される。算出されたこれら各フレームkの期待値μ
kおよび分散値σ
2kは、スコアパラメータ111として記憶部13に記憶される。
【0042】
スコア算出部103は、こうして算出し記憶部13にスコアパラメータ111として記憶された各フレームkの期待値μ
kおよび分散値σ
2kを用いて、次式(3)に例示される、入力音響データ20のフレームiにおけるスコアS(i)を算出するスコア算出式を得る。このスコア算出式で算出されたスコアS(i)により、入力音響データ20におけるフレームiを評価することができる。
【数3】
【0043】
なお、式(3)において、傾きy
GLP(i+k−8)に含まれる値「8」および総和の終了を示す値「8」は、学習データからスコアパラメータ111を算出するために用いた総フレーム数である。また、総和の開始を示す値「5」は、不審音発生区間の開始位置を含むフレーム番号の、学習データからスコアパラメータ111を算出するために用いる先頭のフレームから数えたフレーム番号である。これらの値は、信号パワー時系列の傾きy
GLP(i)を求める式の構成などに応じて決められる。さらに、式(3)において、スコアの最大値を「0」にするために、右辺の全体に負符号が付されている。
【0044】
すなわち、式(3)は、入力音響データ20におけるスコア算出の対象となるフレームiの信号パワー時系列の傾きと期待値との差分の二乗を、学習データにおいて不審音発生区間の開始位置から4フレーム分順次フレームをずらして求めた総和に基づき、フレームiのスコアを算出している。分散値は、分子の値を正規化する。なお、式(3)では、信号パワー時系列の傾きと期待値との差分の二乗を用いているが、これはこの例に限定されず、例えば差分の絶対値を用いてもよい。
【0045】
スコア算出部103は、傾き算出部102で入力音響データ20の各フレームiについて算出された、信号パワー時系列の傾きy
GLP(i)を式(3)に順次適用して、各フレームiのスコアS(i)を算出する。
【0046】
発生区間検出部104は、スコア算出部103で算出された入力音響データ20のフレームiのスコアS(i)から、フレームiのスコア時系列の傾きGS(i)を算出する。この例では、スコア時系列の傾きGS(i)は、上述した信号パワー時系列の傾きの算出と同様に、対象となるフレームiに対して4フレーム分遡ったフレーム(i−4)から4個のスコアS(i−4)、スコアS(i−3)、スコアS(i−1)およびスコアS(i)を用いて、例えば次式(4)を用いて算出される。
【数4】
【0047】
なお、ここでは、スコア時系列の傾きGS(i)を算出するために、4個のスコアを用いたが、これはこの例に限定されない。また、スコア時系列の傾きは、スコア算出部103で算出してもよい。
【0048】
発生区間検出部104は、算出されたスコア時系列の傾きGS(i)に基づき、スコアS(i)が極大値または極小値であるか否かを判定する。すなわち、スコア時系列の傾きGS(i)が下記の条件(A)を満たすとき、スコアS(i)は極大値を取る。
GS(i−1)>0 且つ GS(i)≦0 …(A)
【0049】
同様に、スコア時系列の傾きGS(i)が下記の条件(B)を満たすとき、スコアS(i)は極小値を取る。
GS(i−1)<0 且つ GS(i)≧0 …(B)
【0050】
発生区間検出部104は、スコアS(i)が極大値であった場合、当該スコアS(i)が閾値を超えているか否かを判定し、超えていれば、当該スコアS(i)に対応するフレームiが波形の立ち上がり位置を含むものと判定する。閾値は、予め実験的手法などにより求めて、記憶部13に記憶しておく。ここで、学習データにおいて、波形の立ち上がり位置に係るフレーム(例えばフレーム#5)の略中央が当該開始位置になるように設定されている場合、当該フレームiの略中央の位置が波形の立ち上がり位置とされる。
【0051】
一方、発生区間検出部104は、波形の立ち上がり位置を含むフレームを検出した後に最初に極小値をとったスコアS(i)について、当該スコアS(i)に対応するフレーム(i)が波形の立ち下がり位置を含むものと判定する。この場合も、学習データにおいて、波形の立ち上がり位置に係るフレーム(例えばフレーム#5)の略中央が当該立ち上がり位置になるように設定されている場合、当該フレームiの略中央の位置が波形の立ち下がり位置とされる。
【0052】
発生区間検出部104は、波形の立ち上がり位置および立ち下がり位置が検出されると、検出された波形の立ち上がり位置を不審音発生区間の開始位置とし、立ち下がり位置を当該不審音発生区間の終了位置とする。これにより、不審音発生区間が検出される。
【0053】
ここで、式(3)に示すスコア算出式の意味について説明する。スコア算出式である式(3)に用いられる信号パワー時系列の傾きy
GLP(i)は、上述の式(2)で算出され、式(2)に用いられる信号パワーy
LP(i)は、上述の式(1)で算出される。
図6は、こうして求めた信号パワーy
LP(i)、信号パワー時系列の傾きy
GLP(i)およびスコアS(i)を、入力音響データ20の各フレームiについて求めた値の例を示す。
【0054】
学習データに基づく特徴値の期待値μおよび分散値σ
2は、学習データにおける物音(不審音)の波形の立ち上がりを含むフレームおよび当該フレームから所定数のフレーム(上述の例では4フレーム)のそれぞれについて算出された値である。
図7は、学習データの各フレームkのそれぞれについて求めた期待値μ
kおよび分散値σ
2kの例を示す。
【0055】
図8は、
図6に示す信号パワー、信号パワー時系列の傾きおよびスコアを、フレーム番号に対してプロットしたグラフを示す。なお、このグラフは、後述するスコア算出に伴う遅延の補正がなされていない。
図8の例では、スコアのプロットは、信号パワーのプロットに対して、3フレーム分遅延している。
【0056】
学習データにおける物音と、入力音響データ20に含まれる物音との類似性が高い位置、すなわち、物音の立ち上がり位置で、期待値μと入力音響データ20の特徴値との差分に基づくスコアは、最大値を取る(スコアのプロットにおけるフレーム#9の位置)。そこで、式(3)のΣ部分を参照し、所定フレーム数分の総和が最も大きな値を取る点でスコアは極大値を取り、そのフレームを物音の発生区間の開始位置を含むフレームとする。
【0057】
物音の発生区間の開始位置以降、入力音響データ20の信号パワーは減衰する(信号パワーのプロットにおけるフレーム番号#7〜#10)。それに伴い、入力音響データ20の信号パワー時系列の傾きが負値を取る(信号パワー時系列の傾きのプロットにおけるフレーム#8、#9)。したがって、式(3)における「y
GLP(i+k−8)−μ
k」の二乗の値が大きくなり、この二乗値の4フレーム分の総和に負符号が付されたスコアS(i)は、小さな値となる(スコアのプロットにおけるフレーム#12、#13)。スコアS(i)の値が最も小さくなるとき、スコアS(i)が極小値を取り(スコアのプロットにおけるフレーム#13)、この極小値を取ったフレームを物音の発生区間の終了位置を含むフレームと見做すことができる。
【0058】
図9および
図10は、上述のようにして検出された不審音発生区間の例を示す。
図9は、観測音に雑音(環境音)が少ない場合の例であり、
図10は、観測音に雑音が多い場合の例である。
図9および
図10では、それぞれ同一のスコアパラメータ111と不審音発生区間の検出のための閾値とを用いて、不審音発生区間の検出を行っている。
【0059】
図9および
図10それぞれにおいて、上側のグラフは入力音響データ20を示し、下側のグラフは入力音響データ20に対するスコアと、スコアに基づき検出された不審音発生区間とを示す。不審音発生区間は、値がHighレベルで不審音発生区間を示す。なお、
図9および
図10では、スコアのグラフにおいて、後述するスコア算出に係る遅延が補正されている。
【0060】
図9において、上側の入力音響データ20のグラフに、時刻「3000」付近で不審音が発生し、この不審音が時間「200」程度で急激に減衰している様子が示されている。一方、下側のグラフにおいて、上述した条件(A)に従い、スコアは、時刻「3000」付近で大きな極大値を取り、時刻「5500」付近でやや大きな極大値を取っている。この例では、時刻「3000」付近のスコアの極大値が閾値を超えており、時刻「5500」付近のスコアの極大値は、閾値を超えていないものとする。さらに、スコアは、上述した条件(B)に従い、閾値を超える時刻「3000」付近の極大値の後、時刻「3300」付近で極小値を取っている。したがって、時刻「3000」付近から時刻「3300」付近が不審音発生区間と判断することができる。
【0061】
また、
図10の観測音に雑音が多い場合についても、
図9の観測音に雑音が少ない場合と同様の結果が得られることが分かる。これにより、本実施形態の音検出装置を用いることで、雑音環境下であっても不審音発生区間を容易に検出可能であることが分かる。
【0062】
ところで、既に述べたように、スコア算出の際には、入力音響データ20の対象となるフレームの前後のフレームを用いる。そのため、
図11に示されるように、算出されたスコアに基づき求めた入力音響データ20における不審音による波形の立ち上がり位置および立ち下がり位置は、実際の入力音響データ20における波形の立ち上がり位置および立ち下がり位置に対して遅延を有する。そのため、入力音響データ20から不審音発生区間を切り取るためには、この遅延の補正を行う必要がある。
【0063】
遅延を補正する遅延補正量は、入力音響データ20のサンプリング周波数、フレーム幅Wおよびフレーム間隔Dに依存する。すなわち、スコア算出にフレーム#1〜フレーム#8の8フレームを用い、学習データにおける波形の立ち上がり位置にフレーム#5を対応させる上述の例では、
図12に例示されるように、入力音響データ20について、信号パワーを算出するために1フレーム幅Wの時間を要し、各フレームの信号パワーは、フレーム間隔D毎に算出される。また、信号パワー時系列の傾きの算出には、5フレーム後、すなわち1フレーム幅W+4フレーム間隔Dを要する。さらに、スコアを算出するために、4フレーム分を用いるため、4フレーム間隔Dを要する。したがって、フレームiのスコアを算出するために、1フレーム幅W+7フレーム間隔D=9フレーム間隔Dを要することになる。
【0064】
より具体的な例として、入力音響データ20のサンプリング周波数が16kHz(キロヘルツ)、1フレーム幅Wのサンプル数が160サンプル、1フレーム間隔Dのサンプル数80サンプルの例では、遅延補正量は、80サンプル×9=720サンプル分となる。この遅延補正量は、時間に換算すると、720サンプル×(1/16000)=0.045sec(45ミリ秒)となる。
【0065】
発生区間検出部104は、検出された不審音発生区間の開始位置および終了位置の時刻から、この遅延補正量を差し引いた値を、補正済み不審音発生区間の開始位置および終了位置の時刻とする。そして、記憶部13に記憶された入力音響データ20から、この補正済み不審音発生区間のデータを切り取り、出力音響データ21として出力する。
【0066】
図13は、本実施形態による不審音発生区間の検出処理を示す一例のフローチャートである。このフローチャートによる各処理は、例えば演算部12が含む図示されないCPUにより、例えば記憶部13に予め記憶されるプログラムに従って実行される。プログラムは、例えば、信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104をそれぞれ実現するモジュールを含み、CPUにより実行されると、図示されない主記憶上にこれら各部のモジュールを展開し、実行する。
【0067】
これに限らず、演算部12に含まれる信号パワー算出部101、傾き算出部102、スコア算出部103および発生区間検出部104をそれぞれ別個のハードウェアによって構成し、各部が協働してフローチャートにおける各処理を実行してもよい。
【0068】
図13において、ステップS100で、マイクロフォン10から、集音された観測音に従ったアナログ音声信号が出力される。このアナログ音声信号は、A/D変換部11でディジタル音声信号に変換され、入力音響データ20として信号パワー算出部101に供給される。入力音響データ20は、記憶部110にも供給され、記憶される。
【0069】
信号パワー算出部101は、入力された入力音響データ20に対してフレームiを設定し、上述した式(1)に従い、設定されたフレームiの信号パワーy
LP(i)を算出する(ステップS101)。算出された信号パワーy
LP(i)の値は、例えば記憶部110に一時的に保持される。次のステップS102で、傾き算出部102は、既に算出された所定数の信号パワーの値を記憶部110から取り出し、上述した式(2)に従い信号パワー時系列の傾きy
GLP(i)を算出する。算出された信号パワー時系列の傾きy
GLP(i)は、記憶部110に保持される。
【0070】
次にステップS103で、スコア算出部103は、既に算出された信号パワー時系列の傾きy
GLP(i)の値と、学習データに基づき予め算出されたスコアパラメータ111とを、記憶部110から取り出し、上述した式(3)に従いフレームiのスコアS(i)を算出する。算出されたスコアS(i)は、記憶部110に保持される。次のステップS104で、発生区間検出部104は、既に算出されたスコアの値を記憶部110から取り出し、上述した式(4)に従いスコア時系列の傾きGS(i)を算出する。
【0071】
次のステップS105で、発生区間検出部104は、上述した条件(A)を参照し、算出されたスコア時系列の傾きGS(i)が極大値であるか否かを判定する。若し、スコアS(i)が極大値であると判定したら、処理をステップS106に移行させ、極大値であるスコアS(i)が予め決められた閾値を超えているか否かを判定する。若し、超えていないと判定したら、処理をステップS100に戻す。
【0072】
一方、ステップS106で、スコアS(i)が当該閾値を超えていると判定したら、処理はステップS107に移行され、フレームiの略中央に不審音の波形の立ち上がりが検出されたものとする。そして、処理をステップS100に戻す。
【0073】
上述のステップS105で、スコアS(i)が極大値ではないと判定されたら、処理はステップS108に移行される。ステップS108で、発生区間検出部104は、上述した条件(B)を参照し、当該スコアS(i)が極小値であるか否かを判定する。若し、極小値ではないと判定したら、処理をステップS100に戻す。
【0074】
一方、ステップS108で、スコアS(i)が極小値であると判定したら、処理をステップS109に移行させる。ステップS109で、発生区間検出部104は、この極小値が、上述のステップS106で極大値が検出されてから初回に検出された極小値であるか否かを判定する。若し、極大値の検出後の初回に検出された極小値ではないと判定したら、処理をステップS100に戻す。
【0075】
ステップS108で、発生区間検出部104は、スコアS(i)がステップS106で極大値が検出されてから初回に検出された極小値であると判定したら、処理をステップS110に移行させ、フレームiの略中央に不審音の波形の立ち下がりが検出されたものと見做す。このステップS110と、上述したステップS107とで不審音の波形の立ち上がりおよび立ち下がりが検出されたことになる。
【0076】
次のステップS111で、発生区間検出部104は、入力音響データ20のサンプリング周波数、フレーム幅Wおよびフレーム間隔Dと、学習データについて信号パワー時系列の傾きを算出する際に用いたフレーム数とに基づき算出される遅延補正量を用いて、不審音の波形の立ち上がり位置および立ち下がり位置を補正する。この補正された立ち下がり位置および立ち下がり位置が、不審音発生区間の開始位置および終了位置とされ、不審音発生区間が検出される(ステップS112)。
【0077】
上述したように、本実施形態によれば、集音された観測音に基づく入力音響データから特徴値の時系列データを抽出し、抽出された特徴値と、予め学習データを用いて算出された特徴値の期待値とを比較してスコアを求め、このスコアの時系列上での変化に基づき不審音発生区間を検出している。そのため、雑音環境下においても、容易に不審音発生区間の検出を行うことができる。
【0078】
本実施形態では、不審音を検出するための閾値を、入力音響データの特徴値から算出したスコアに対して適用している。このスコアは、雑音環境下の観測音においても略一定の値を取る。そのため、監視エリアの環境に応じて閾値を変更する必要が無い。それと共に、本実施形態では、雑音に影響されにくい性質の値であるスコアを不審音の検出に用いているので、雑音に対して頑健な検出が可能で、雑音環境下や、雑音レベルの変化する環境下においても安定的に不審音発生区間の検出を行うことができる。
【0079】
ここで、本実施形態による不審音発生区間の検出方法が、雑音環境に対して頑健であることについて説明する。
【0080】
本実施形態において、式(3)により算出されるスコアは、学習データと、入力音響データ20との類似性が高い場合に大きな値を取る性質がある。一方、雑音(雑音の音響データ)と学習データとでは類似性が低いため、スコアは、略一定の値を取り大きく変化しない。したがって、スコアに対して閾値を設定し、スコアが閾値を超えたか否かを判定することで、従来の、例えば信号パワーに対して閾値を設定する音検出方法と比べて、より確実に物音の発生区間を検出することが可能となる。
【0081】
すなわち、不審音による音響データが入力された場合、入力された音響データにおける不審音発生区間の波形は、学習データによる波形に対する類似性が高いため、不審音発生区間の先頭でスコアが大きく変化する。本実施形態では、このスコアと閾値とを比較して、スコアが閾値を超えている場合に、不審音発生区間が検出されたものと判定する。
【0082】
一方、雑音による音響データが入力された場合、雑音による波形は、学習データによる波形に対する類似性が小さいため、スコアの変化が極めて小さい。そのため、スコアが閾値を超える可能性が小さく、誤検出の発生が抑制される。
【0083】
図14は、学習データが物音(検出対象の不審音)を集音した音響データである場合に、略ランダムな音響データ(雑音による音響データ)が入力された際の、信号パワー、信号パワー時系列の傾きおよびスコアの例を示し、
図15は、
図14に例示した各項目の値をフレーム番号に対してプロットしたグラフを示す。学習データの期待値μ
kおよび分散値σ
2は、上述した
図7に示す値と同一とする。
【0084】
なお、
図15に例示されるグラフは、後述するスコア算出に伴う遅延の補正がなされておらず、スコアのプロットは、信号パワーのプロットに対して、3フレーム分遅延している。
【0085】
図15に例示されるように、雑音による音響データは、信号パワーが比較的大きく変化する。そのため、従来のように信号パワーに対して閾値200を設定した場合、フレーム番号#3、#16、#18および#19などが誤検出されてしまう。一方、波形が学習データと大きく異なる音響データが入力された場合、スコアは大きく変化しない。そのため、本実施形態によりスコアに対して閾値を設定した場合、スコアが当該閾値を超えてしまう可能性が低く、雑音環境下においても特定の物音の発生区間を正確に検出することができる。
【0086】
また、本実施形態は、不審音の特徴を抽出することで、不審音発生区間の検出を行っている。そのため、音声のみならず、様々な物音を不審音発生区間の検出対象とすることができる。
【0087】
さらに、本実施形態を適用することで、不審音の発生区間を精度よく検出することができる。これにより、検出された不審音発生区間の音響データに対する音認識処理における精度の向上が期待できる。また、不審音発生区間の検出を音認識処理に対して事前に行うことにより、システムは、検出された不審音発生区間の音響データのみに対して認識処理を行えばよく、音認識システム全体の計算コストや音響データの通信を行うための通信コストを抑えることができる。
【0088】
本実施形態の音検出装置を、監視領域内で不審者を検出した場合に警報を出力する警備装置に設けたり、本実施形態の音検出装置からの出力を上記警備装置に入力するように構成することができる。これにより、監視領域内での不審音を容易かつ高精度に検出できるので、警備装置による誤報を防止することが可能となる。