特開2024-41210 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特開2024-41210信号処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024041210

(43)【公開日】2024-03-27

(54)【発明の名称】信号処理装置

(51)【国際特許分類】

G10L 25/51 20130101AFI20240319BHJP

G10L 25/18 20130101ALI20240319BHJP

【ＦＩ】

G10L25/51

G10L25/18

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2022145878

(22)【出願日】2022-09-14

(71)【出願人】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100124811

【弁理士】

【氏名又は名称】馬場資博

(74)【代理人】

【識別番号】100088959

【弁理士】

【氏名又は名称】境廣巳

(74)【代理人】

【識別番号】100097157

【弁理士】

【氏名又は名称】桂木雄二

(74)【代理人】

【識別番号】100187724

【弁理士】

【氏名又は名称】唐鎌睦

(72)【発明者】

【氏名】荒井友督

(72)【発明者】

【氏名】近藤玲史

(57)【要約】

【課題】信号のイベントの検知を精度よく行うことができないこと。
【解決手段】本発明の信号処理装置１００は、所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出するアクティベーション算出部１２１と、アクティベーションの時間長を、他の学習用時系列信号に対応する他のアクティベーションの時間長に基づいて調整し、時間長を調整したアクティベーションの特徴量を算出する特徴量算出部１２２と、特徴量を用いて学習用時系列信号を識別するモデルを生成するよう学習する学習部１２３と、を備える。
【選択図】図１３

【特許請求の範囲】

【請求項1】

所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出するアクティベーション算出部と、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出する特徴量算出部と、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する学習部と、
を備えた信号処理装置。

【請求項2】

請求項１に記載の信号処理装置であって、
前記特徴量算出部は、前記アクティベーションの時間長を、前記他のアクティベーションの時間長と同一となるよう調整する、
信号処理装置。

【請求項3】

請求項２に記載の信号処理装置であって、
前記特徴量算出部は、前記アクティベーションの時間長の調整に応じて、当該アクティベーションの時間毎のデータを、対応する時間毎の前記他のアクティベーションのデータに基づいて設定する、
信号処理装置。

【請求項4】

請求項３に記載の信号処理装置であって、
前記特徴量算出部は、前記アクティベーションの時間長の調整に応じて、当該アクティベーションと前記他のアクティベーションとにおいて相互に対応する時間毎のデータ間の距離の総和が最小となるよう、前記アクティベーションの時間毎のデータを設定する、
信号処理装置。

【請求項5】

請求項２に記載の信号処理装置であって、
前記アクティベーション算出部は、複数の前記基底毎にそれぞれ前記アクティベーションを算出し、
前記特徴量算出部は、特定の前記基底に対応する前記アクティベーションの時間毎のデータを設定すると共に、当該データを設定した同一の時間における他の前記基底に対応する前記アクティベーションのデータを設定する、
信号処理装置。

【請求項6】

請求項２に記載の信号処理装置であって、
前記特徴量算出部は、前記アクティベーションの時間長の調整に応じて、当該アクティベーションの調整した時間におけるデータを追加又は削除する、
信号処理装置。

【請求項7】

請求項１に記載の信号処理装置であって、
前記アクティベーション算出部は、所定の時間長を有する評価用時系列信号のスペクトログラムから前記アクティベーションを算出し、
前記特徴量算出部は、前記学習用時系列信号に対応する前記アクティベーションの調整した時間長に応じて、前記評価用時系列信号に対応する前記アクティベーションの時間長を調整し、当該時間長を調整した前記評価用時系列信号に対応する前記アクティベーションの特徴量を算出し、
さらに、前記評価用時系列信号に対応する前記特徴量から、前記モデルを用いて前記評価用時系列信号を識別する識別部を備えた、
信号処理装置。

【請求項8】

請求項７に記載の信号処理装置であって、
前記特徴量算出部は、前記評価用時系列信号に対応する前記アクティベーションの時間長を、前記学習用時系列信号に対応する前記アクティベーションの調整した時間長と同一となるよう調整する、
信号処理装置。

【請求項9】

所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出し、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出し、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する、
信号処理方法。

【請求項10】

情報処理装置に、
所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出し、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出し、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する、
処理を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、信号処理装置、信号処理方法、プログラムに関する。

【背景技術】

【0002】

センサが取得した音や振動などの時系列信号から、信号源や信号の種類（イベント）を検知する代表的な方法の一つとして、ＮＭＦ（非負値行列因子分解）が知られている（特許文献１、非特許文献１）。ＮＭＦとは、下記数１式のように、非負値の行列Ｖを、２つの非負値の行列である基底Ｗと、アクティベーションＨと、に分解する手法である。

【数1】

【0003】

ここで、アクティベーションＨは、基底Ｗの重み（発現度合い）を表す。特許文献１および非特許文献１では、解析対象の信号のスペクトログラムに対し、事前に学習した基底辞書を用いてＮＭＦを行うことにより、アクティベーションを算出し、算出されたアクティベーションの組み合わせにより、解析対象の信号に特定のイベントが含まれるか否かを判定している。具体的に、特許文献１および非特許文献１では、解析対象の信号から短い時間区間ごとに算出したスペクトログラムに対してイベント検知処理を行っている。言い換えると、スペクトログラムを算出するために切り出した時間区間ごとに、１つの検知結果を出している。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】国際公開第２０１７／２１７４１２号

【非特許文献】

【0005】

【非特許文献1】Courtenay V. Cotton and Daniel P. W. Ellis, ‘SPECTRAL VS. SPECTRO-TEMPORAL FEATURES FOR ACOUSTIC EVENT DETECTION’, 2011 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、信号の時間変化に特徴を持つイベントの場合には、短い時間区間では時間変化の特徴が表れにくいことがある。このため、上述した技術では、信号の時間変化に特徴を持つイベントの検知を精度よく行うことができない、という問題が生じる。

【0007】

本開示の目的は、上述した課題である、信号のイベントの検知を精度よく行うことができない、ことを解決することができる信号処理装置を提供することにある。

【課題を解決するための手段】

【0008】

本発明の一形態である信号処理装置は、
所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出するアクティベーション算出部と、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出する特徴量算出部と、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する学習部と、
を備えた、
という構成をとる。

【0009】

また、本発明の一形態である信号処理方法は、
所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出し、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出し、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する、
という構成をとる。

【0010】

また、本発明の一形態であるプログラムは、
情報処理装置に、
所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出し、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出し、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する、
処理を実行させる、
という構成をとる。

【発明の効果】

【0011】

本開示は、以上のように構成されることにより、信号のイベントの検知を精度よく行うことができる。

【図面の簡単な説明】

【0012】

【図1】本開示の実施形態１における学習部による処理動作の概略を示す図である。

【図2】本開示の実施形態１における検知部による処理動作の概略を示す図である。

【図3】本開示の実施形態１における信号処理装置の構成を示すブロック図である。

【図4】図３に開示した基底辞書生成部の構成を示すブロック図である。

【図5】図３に開示した第一特徴量算出部の構成を示すブロック図である。

【図6】図３に開示した第二特徴量算出部の構成を示すブロック図である。

【図7】図３に開示した学習部による処理の様子を示す図である。

【図8】図３に開示した学習部による処理の様子を示す図である。

【図9】図３に開示した学習部による処理の様子を示す図である。

【図10】図３に開示した学習部による処理の様子を示す図である。

【図11】図３に開示した検知部による処理の様子を示す図である。

【図12】本開示の実施形態２における信号処理装置のハードウェア構成を示すブロック図である。

【図13】本開示の実施形態２における信号処理装置の構成を示すブロック図である。

【発明を実施するための形態】

【0013】

＜実施形態１＞
本開示の第１の実施形態を、図１乃至図１１を参照して説明する。図１乃至図２は、信号処理装置の動作の概略を説明するための図である。図３乃至図６は、信号処理装置の構成を説明するための図である。図７乃至図１１は、信号処理装置による処理動作を説明するための図である。

【0014】

本開示における信号処理装置は、音や振動などの時系列信号から、信号の種類を識別するためのものである。例えば、本実施形態では、時系列信号として音信号を用いることとし、信号処理装置では、音信号の音源や種類を識別することとする。一例として、音信号は、特定の音源から発せられる音や、悲鳴や銃声などの特定の事象（イベント）による音であることとし、以下ではこれらの音をまとめて音響イベントと呼ぶこととする。但し、本開示の信号処理装置で処理対象とする音信号は、いかなる音信号であってもよく、また、音響に限らずいかなる振動からなる時系列信号であってもよい。そして、信号処理装置は、振動が処理対象である場合には、かかる振動の振動源や振動を発する事象を識別するよう構成されてもよい。

【0015】

［動作の概要］
本実施形態における信号処理装置は、演算装置と記憶装置とを備えた１台又は複数台の情報処理装置にて構成される。そして、信号処理装置は、図３に示すように、主に学習部１０と検知部３０とを備える。はじめに、学習部１０と検知部３０とによる動作の概略を、図１乃至図２を参照して説明する。

【0016】

［学習部の動作の概略］
まず、学習部１０の動作の概略を、図１を参照して説明する。はじめに、学習部１０には、音響イベントごとに複数の学習データが入力される（ステップＳ１）。例えば、学習部１０には、ある音響イベントαと別の音響イベントβの音信号とが、学習データα，βとしてそれぞれ複数入力される。そして、学習部１０は、学習データのそれぞれをフーリエ変換等により周波数領域の信号に変換してスペクトログラムを算出する（ステップＳ２）。続いて、学習部１０は、あらかじめ作成した全ての音響イベントの基底をひとまとめにした基底辞書を用いて、スペクトログラムに対してＮＭＦ（ＮｏｎｎｅｇａｔｉｖｅＭａｔｒｉｘＦａｃｔｏｒｉｚａｔｉｏｎ（非負値行列因子分解））を行い（ステップＳ３）、アクティベーションを算出する（ステップＳ４）。本実施形態では、ＮＭＦを用いた方法を説明するが、ＮＭＦの代わりにＮＴＦ（ＮｏｎｎｅｇａｔｉｖｅＴｅｎｓｏｒＦａｃｔｏｒｉｚａｔｉｏｎ（非負値テンソル因子分解））を利用してもよい。

【0017】

次に、学習部１０は、全学習データでデータ長を合わせる。ここでデータ長を合わせるのは、後で説明するイベント間の識別境界面を学習する際に、特徴量次元数を合わせる必要があるためである。データ長を合わせる際は、２つのデータ間の部分的な伸び縮みを考慮しながらデータ間の距離と要素間を対応付ける動的計画法（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：ＤＰマッチング）を利用し、全学習データを一定のデータ長Ｌにする（ステップＳ５，Ｓ６）。次に、学習部１０は、学習データごとに、アクティベーションの各時刻の値を特徴量とするベクトル（ここではスーパーベクトルと呼ぶ）を算出する（ステップＳ７）。なお、特徴量の次元数は、基底数×時間長となる。最後に、学習部１０は、スーパーベクトルを用いてモデルを学習する（ステップＳ８）。具体的には、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ：サポートベクターマシン）等の機械学習手法を利用し、イベント間の識別境界面を学習する。

【0018】

［検知部の動作の概略］
次に、検知部３０の動作の概略を、図２を参照して説明する。はじめに、検知部３０には、評価対象のデータ（以下、評価データ）が入力される（ステップＳ１１）。そして、検知部３０は、フーリエ変換等により周波数領域の信号に変換してスペクトログラムを算出する（ステップＳ１２）。このとき、検知部３０は、学習部１０でも使用した基底辞書を用いて、スペクトログラムに対してＮＭＦを行い（ステップＳ１３）、アクティベーションを算出する（ステップＳ１３）。

【0019】

次に、検知部３０は、ＤＰマッチングを利用して、評価データのデータ長を学習部１０で設定した学習データの時間長Ｌに合わせる（ステップＳ１５，Ｓ１６）。続いて、検知部３０は、アクティベーションの各時刻の値を特徴量とするスーパーベクトルを算出する（ステップＳ１７）。最後に、検知部３０は、学習部１０で生成した学習モデルを用いて、評価データがどのイベントに属するかを判定する（ステップＳ１８）。

【0020】

［構成及び動作の詳細］
次に、上述した信号処理装置の構成及び動作の詳細を説明する。まず、上述したように、信号処理装置は、情報処理装置で構成されており、図３に示すように、学習部１０と検知部３０とを備えている。そして、学習部１０は、学習データ入力部１１、第一データ切り出し部１２、第一スペクトログラム算出部１３、第一ＮＭＦ部１４、第一特徴量算出部１５、モデル学習部１６、第一表示部１７、基底辞書生成部２０、を有する。また、検知部３０は、評価データ入力部３１、第二データ切り出し部３２、第二スペクトログラム算出部３３、第二ＮＭＦ部３４、第二特徴量算出部３５、識別部３６、第二表示部３７、を有する。なお、これら各部の機能は、演算装置が記憶装置に格納された各機能を実現するためのプログラムを実行することにより、実現することができる。以下、各構成について詳述する。

【0021】

［学習部］
［学習データ入力部］
学習データ入力部１１は、マイクロフォンや振動センサを用いて、音や振動などの所定の時間長を有する時系列信号を収録し、かかる時系列信号を学習用データ（学習用時系列信号）として、第一データ切り出し部１２に出力する。以下では、時系列信号として音信号を対象として説明するが、時系列信号であれば信号の種類は限定しない。ここで入力される音は、例えば、自動車や船舶、潜水艦などの特定の音源から発せられる音や、悲鳴や銃声などの特定の事象（イベント）による音を含む。これらの音をまとめて音響イベントと呼ぶ。また、音響イベントの検知対象でないノイズも学習データとして入力されてもよい。

【0022】

［第一データ切り出し部］
第一データ切り出し部１２は、入力された音信号の全時間区間のうち、音響イベントの発生する時間区間を切り出して、第一スペクトログラム算出部１３に出力する。第一データ切り出し部１２は、音響イベントが発生している時間区間（始端から終端まで）が含まれるように、かつ音響イベントの発生していない時間区間をできる限り含まないように行うのが望ましい。なお、切り出しは人手で行ってもよく、あるいは、例えば、スペクトログラムのパワーが閾値を超える範囲を自動的に切り出してもよい。

【0023】

［第一スペクトログラム算出部］
第一スペクトログラム算出部１３は、第一データ切り出し部１２から入力された音信号を周波数領域の信号（スペクトログラム）に変換する。スペクトログラムの生成には、例えば、高速フーリエ変換（ＦＦＴ）を利用する。Ｃｏｎｓｔａｎｔ－Ｑ変換（ＣＱＴ）やウェーブレット変換によって、スペクトログラムを生成してもよい。スペクトログラムを算出する際は、音信号を短い時間区間（時間フレームと呼ぶ）ごとに切り出し、時間フレームごとに算出する。具体例として、４０９６サンプルごとにスペクトログラムを算出し、各時間フレームは５０％重なるように切り出してもよい。第一スペクトログラム算出部１３は、算出したスペクトログラムＶを第一ＮＭＦ部１４に出力する。

【0024】

［第一ＮＭＦ部］
第一ＮＭＦ部１４（アクティベーション算出部）は、第一スペクトログラム算出部１３から入力された各学習データのスペクトログラムＶに対して、基底辞書生成部２０から入力された基底辞書Ｗｄを用いてＮＭＦを行い、アクティベーションＨｄを算出する。アクティベーションＨｄは、下記数２式から推定される。なお、アクティベーションＨｄの各成分は、各基底成分の時間毎の発現度合いを表す。そして、算出されたアクティベーションＨｄは、第一表示部１７および第一特徴量算出部１５に出力される。

【数2】

【0025】

［基底辞書生成部］
ここで、上述したＮＭＦを行う際に用いられる基底を生成する基底辞書生成部２０ついて説明する。基底辞書生成部２０は、全ての基底をひとまとめにした辞書を生成する。このとき、音響イベントごとに典型的なスペクトログラムが分かっている場合は、それらを基底として保存しておく。あるいは、学習データから自動的に生成することもできる。学習データから自動生成する場合、基底辞書生成部２０は、例えば、図４に示すブロック図で構成されており、辞書用学習データ入力部２１、辞書用スペクトログラム算出部２２、基底算出部２３、基底辞書保存部２４、を備える。

【0026】

［辞書用学習データ入力部］
辞書用学習データ入力部２１は、上述した学習データ入力部１１と同様に、音響イベントごとに複数の学習データを入力する。

【0027】

［辞書用スペクトログラム算出部］
辞書用スペクトログラム算出部２２は、上述した第一スペクトログラム算出部１３と同様に、学習データを周波数領域の時系列データ信号（スペクトログラム）に変換する。

【0028】

［基底算出部］
基底算出部２３は、各学習データのスペクトログラムＶに対し、上記数１式によりＮＭＦして基底ＷとアクティベーションＨに分解し、基底Ｗを基底辞書保存部２４に出力する。基底数ＮＷは音響イベントごとに別々に設定してもよいし、同じ値を設定しても良い。基底Ｗの各成分は、学習データのスペクトログラムの中で共起する成分を表す。

【0029】

［基底辞書保存部］
基底辞書保存部２４は、全ての基底をひとまとめにした基底辞書Ｗｄを生成して保存する。基底辞書の基底数をＮｗｄとする。このとき、例えば、同じ音響イベントの複数の学習データから生成された基底など、重複した基底が存在する場合は、どちらか一方の基底のみ保存する。作成された基底辞書Ｗｄは、第一ＮＭＦ部１４および第二ＮＭＦ部３４に出力され、アクティベーションの算出に利用される。

【0030】

［第一特徴量算出部］
第一特徴量算出部１５（特徴量算出部）は、第一ＮＭＦ部1４から入力されたアクティベーションＨｄを用いて特徴量を算出し、第一表示部１７およびモデル学習部１６に出力する。アクティベーションＨｄは、学習データごとに時間長が異なるため、全データの時間長を一定値Ｌに揃えたアクティベーションを算出したあと、特徴量を抽出する。ここで、第一特徴量算出部１５は、図５のように、第一時間長調整部１５ａ、第二時間長調整部１５ｂ、第一特徴量抽出部1５ｃで構成される

【0031】

［第一時間長調整部］
第一時間長調整部１５ａは、同じ音響イベントの複数のデータ間でアクティベーションの時間長を揃え、時間長を揃えた新たなアクティベーション（以下、アクティベーション１と呼ぶ）を算出して第二時間長調整部１５ｂに出力する。時間長を揃える方法としては、動的計画法（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ：ＤＰマッチング）を利用する。ＤＰマッチングは、２つのデータ間の部分的な伸び縮みを考慮しながら、データ間の距離と要素間の対応付けを行う手法である。例えば、同じ音響イベントで２つの学習データ（学習データＡ及び学習データＢ）があり、それぞれ時間長がｌ_Ａ，ｌ_Ｂ（ｌ_Ａ＜ｌ_Ｂ）である場合に、ＤＰマッチングを利用して時間長を合わせる方法を、図７と図８を用いて説明する。

【0032】

図７は、第一ＮＭＦ部１４で算出された、ある学習データＡと学習データＢの、基底辞書生成部２０で設定した基底数ＮＷ（図７の例ではＮＷ＝３）分のアクティベーションの概略図である。図７では、アクティベーションの時間方向の最大値が高い基底の順に上位３つを示している。時間長を合わせる際は、例えば、アクティベーションの最大値が最も高い基底（図７では基底１）のアクティベーションを用いて、ＤＰマッチングを行う。あるいは、アクティベーションの最大値が最も高い基底が学習データ間で共通していない場合は、アクティベーションの最大値が２番目に高いか３番目に高い基底を用いてＤＰマッチングを行ってもよい。いずれにしても、ＤＰマッチングを行う際は、同じ基底に関するアクティベーションの間で行う。

【0033】

図８は、学習データＡと学習データＢに関する基底１のアクティベーションに対してＤＰマッチングを行い、時間毎のデータ間の距離の総和が最小になる対応付けを図示した例である。各データ間の対応付けは、１対１の場合は実線で表している。対応付けが1対多の場合は実線と点線で表し、実線の方が点線よりもデータ間の距離が小さいことを意味している。例えば、図８の上図に示すように、時間長が大きい方（ｌ_Ｂ）に合わせる場合には、時間長の小さい学習データＡのアクティベーションのうち、点線で結ばれたデータと同じデータを次の時刻に挿入する。また、例えば、図８の下図に示すように、時間長が小さい方（ｌ_Ａ）に合わせる場合には、時間長の大きい学習データＢのうち、点線で結ばれたデータを削除する。基底１に関して時間長を合わせた後は、他の全ての基底（基底２～基底ＮＷ）に関しても基底１と同様の方法で時間長を合わせる。例えば、時間長が小さい方に合わせる場合は、基底１のアクティベーションで削除したデータと同じ時間の、他の基底に関するデータを削除する。以上の方法により、同じ音響イベントの複数のデータ間で時間長を揃えた、新たなアクティベーション１を算出することができる。新たなアクティベーション１は、第二時間長調整部１５ｂに出力する。なお、図７，図８の例では、アクティベーションの最大値が最も高い基底に関して時間長を揃えているが、最大値の代わりに平均値や中央値などでもよい。

【0034】

［第二時間長調整部］
第二時間長調整部１５ｂは、異なる音響イベント間で、アクティベーション１の時間長を揃えた新たなアクティベーション（以下、アクティベーション２と呼ぶ）を算出し、第一特徴量抽出部１５ｃに出力する。異なる音響イベント間では時間スケールが異なる可能性が高いため、元のアクティベーションに変化を与えないよう時間長が大きい方に合わせるのが望ましい。図９は、音響イベントαと音響イベントβのある基底に関するアクティベーションの概略図を表し、時間長がそれぞれｌ_αとｌ_β（ｌ_α＜ｌ_β）であるとする。時間長が小さい音響イベントαの時間長を大きい方（ｌ_β）に合わせる方法としては、例えば、データの最後にゼロを追加する。あるいは、背景ノイズのアクティベーションレベルを設定しておいて、その値をデータの最後に追加してもよい。すべての基底に関するアクティベーションについて、同様に時間長を揃える。ここで揃えた時間長をＬとする。そして、時間長を調整した新たなアクティベーション２を、第一特徴量抽出部１５ｃに出力する。

【0035】

［第一特徴量抽出部］
第一特徴量抽出部1５ｃは、第二時間長調整部１５ｂから入力された新たなアクティベーション２から、特徴量を生成する。学習データごとに全基底（基底数Ｎｗｄ）のアクティベーションの各時刻の値を特徴量とする。例えば、ｎ番目の基底のアクティベーションをＨｎとすると、Ｈ１の時刻ｔ＝0の値を特徴量１、Ｈ１の時刻ｔ＝１の値を特徴量２、・・・、Ｈ１の時刻ｔ＝Ｐの値を特徴量Ｐ＋１、Ｈ２の時刻ｔ＝0の値を特徴量Ｐ+２、・・・、Ｈ２の時刻ｔ＝Ｐの値を特徴量２Ｐ＋２、・・・、というように特徴量のベクトルを生成する。特徴量の次元数は、基底数Ｎｗｄ×時間長Ｌとなる。生成した特徴量は、第一表示部１７およびモデル学習部１６に出力する。

【0036】

［モデル学習部］
モデル学習部１６は、第一特徴量算出部１５から入力された特徴量を使って、音響イベントのモデルを学習する。モデル学習方法は、例えば、サポートベクトルマシンを利用して、音響イベント間のマージンを最大化する識別境界を学習する。あるいは、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）やランダムフォレスト、ｋＮＮ（ｋ－ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｍｅｔｈｏｄ）などの教師有り学習方式で学習してもよい。学習したモデルは、第一表示部１７および検知部３０に出力する。

【0037】

［第一表示部］
第一表示部１７は、第一ＮＭＦ部１４から入力されたアクティベーションＨｄと、第一特徴量算出部１５から入力された時間長を調整した新たなアクティベーション２と、第一特徴量算出部１５から入力された学習データの特徴量と、モデル学習部１６から入力された学習モデルとを、それぞれ可視化してユーザに分かる形で表示装置に表示するよう出力する。図１０は、第一表示部１７における表示例であり、符号Ｄ１に第一ＮＭＦ部１４から入力されたアクティベーションＨｄの表示例を示し、符号Ｄ２に第一特徴量算出部１５から入力された時間長を調整した新たなアクティベーション２の表示例を示し、符号Ｄ３に第一特徴量算出部１５から入力された学習データの特徴量と、モデル学習部１６から入力された学習モデル（ここでは識別境界）の表示例を示す。図１０の符号Ｄ１は、学習データごとに、各基底１，２，３に対応するアクティベーションを時系列データとして表示している。このとき、各学習データの時間長が分かるように表示する。図１０の符号Ｄ２は、符号Ｄ１で示したアクティベーションの時間長を調整した、新たなアクティベーション２を表示している。符号Ｄ２でも符号Ｄ１と同様に、各学習データの時間長が分かるように表示する。また、図１０の符号Ｄ３は、特徴量空間上に全学習データの特徴量および識別境界を表示する。このとき、各学習データが属しているイベントおよび、特徴量次元数が分かるように表示する。なお、特徴量の次元数は、上述したように基底数Ｎｗｄ×時間長Ｌであるため、特徴量次元数が３次元以上の場合があるが、その場合には、全２次元ずつの組み合わせでプロットしてもよい。例えば、１次元目をＸ軸とし２次元目をＹ軸とした２次元の特徴量空間にプロットした第一の図、２次元目をＸ軸とし３次元目をＹ軸とした特徴量空間にプロットした第二の図、というように、複数のプロットした図を生成して表示してもよい。

【0038】

［検知部］
［評価データ入力部］
評価データ入力部３１は、センサを用いて評価対象の音信号を収録し、かかる音信号を評価用時系列信号として入力して、第二データ切り出し部３２に出力する。

【0039】

［第二データ切り出し部]
第二データ切り出し部３２は、入力された音信号の全時間区間のうち、音響イベントの発生する時間区間を切り出して、第二スペクトログラム算出部３３に出力する。切り出し方法は第一データ切り出し部１２と同様である。ただし、この時切り出す時間長が時間長Ｌよりも大きくなった場合は、パワーの平均が最も高くなる時間長Ｌ以下の区間を選ぶなど、時間長がＬを超えないように設定する。

【0040】

［第二スペクトログラム算出部］
第二スペクトログラム算出部３３は、第二データ切り出し部３２から入力された音信号を周波数領域の信号（スペクトログラム）に変換し、第二ＮＭＦ部３４に出力する。スペクトログラムの生成方法は、第一スペクトログラム算出部１３と同様である。

【0041】

［第二ＮＭＦ部］
第二ＮＭＦ部３４（アクティベーション算出部）は、基底辞書生成部２０から入力された基底辞書を用いて、第二スペクトログラム算出部３３から入力されたスペクトログラムに対してＮＭＦを行い、アクティベーションを算出する。算出方法は、第一ＮＭＦ部１４と同様である。アクティベーションは、第二表示部３７および第二特徴量算出部３５に出力される。

【0042】

［第二特徴量算出部］
第二特徴量算出部３５（特徴量算出部）は、第二ＮＭＦ部３４から入力されたアクティベーションを用いて特徴量を算出し、識別部３６に出力する。アクティベーションの時間長は学習データと異なるため、第一特徴量算出部１５で設定された学習データの時間長Ｌに合わせた新たなアクティベーション３を算出してから、特徴量を抽出する。新たなアクティベーション３と特徴量を、第二表示部３７に出力する。また、特徴量を識別部３６に出力する。ここで、図６に、第二特徴量算出部３５のブロック図を示す。第二特徴量算出部３５は、第三時間長調整部３５ａと、第二特徴量抽出部３５ｂと、を備えている。

【0043】

［第三時間長調整部３５ａ］
第三時間長調整部３５ａは、第二ＮＭＦ部３４から入力されたアクティベーションの時間長を、学習データの時間長Ｌに合わせる。時間長を合わせる方法としては、例えば、データの最後にゼロまたはあらかじめ設定したノイズレベルを追加する。時間長がＬになった新たなアクティベーション３を、第二特徴量抽出部３５ｂおよび第二表示部３７に出力する。

【0044】

［第二特徴量抽出部］
第二特徴量抽出部３５ｂは、第三時間長調整部３５ａから入力された評価データのアクティベーションから、特徴量を生成する。特徴量の生成方法は、第一特徴量抽出部１５ｃと同様である。生成した特徴量は、第二表示部３７および識別部３６に出力する。

【0045】

［識別部］
識別部３６は、モデル学習部１６で学習したモデルを用いて、第二特徴量算出部３５から入力された評価データの特徴量が、どの音響イベントであるか識別する。例えば、モデル学習部１６でモデルの生成方法としてＳＶＭを利用した場合、評価データの特徴量が学習した識別境界のどちら側に位置するかで音響イベントを判断する。ここで検知された音響イベントと、識別境界を、第二表示部３７に出力する。

【0046】

［第二表示部］
第二表示部３７は、第二ＮＭＦ部３４から入力された評価データのアクティベーションと、第二特徴量算出部３５から入力された時間長を調整した新たなアクティベーション３と、第二特徴量算出部３５から入力された評価データの特徴量と、識別部から入力された音響イベントおよび識別境界を、それぞれ可視化してユーザに分かる形で表示する。図１１は、第二表示部３７における表示例であり、符号Ｄ１１に第二ＮＭＦ部３４から入力された評価データのアクティベーションの表示例を示し、符号Ｄ１２に第二特徴量算出部３５から入力された時間長を調整した新たなアクティベーション３の表示例を示し、符号Ｄ１３に第二特徴量算出部３５から入力された評価データの特徴量と、識別部３６から入力された音響イベントおよび識別境界の表示例を示す。ここでは、評価データが１つのみの例を示しているが、評価データは複数でもよい。図１１の符号Ｄ１１は、各基底１，２，３に対応するアクティベーションを時系列データとして表示している。このとき、評価データの時間長が分かるように表示する。図１１の符号Ｄ１２は、符号Ｄ１１のアクティベーションの時間長を調整した、新たなアクティベーション３を表示している。符号１２でも符号１１と同様に、調整された評価データの時間長が分かるように表示する。また、図１１の符号Ｄ１３は、特徴量空間上に評価データの特徴量および識別境界を表示する。このとき、評価データの特徴量次元数と、属している音響イベントが分かるように表示する。特徴量次元数が３次元以上の場合は、全２次元ずつの組み合わせでプロットしてもよい。

【0047】

以上のように、本開示では、基底辞書生成部２０で生成された全ての基底についてＮＭＦを行ってアクティベーションを算出し、複数の基底間のアクティベーションの関係性とその時間変化を特徴量として学習する。具体的には、例えば、時刻ごとのアクティベーションの比が下記のように表されるような関係性と時間変化を特徴として学習する。
時刻ｔ＝０基底Ａ：基底Ｂ：基底Ｃ＝１：２：１
時刻ｔ＝１基底Ａ：基底Ｂ：基底Ｃ＝２：３：１
時刻ｔ＝２基底Ａ：基底Ｂ：基底Ｃ＝１：２：１
なお、上記の例では簡単のため比を固定としているが、実際には幅をもっている。そのため、複数の音（複数の基底に対応）で構成される、実環境に近い複雑な音響イベントを精度よく学習・検知することができる。

【0048】

そして、本開示は、公共施設等における音響監視システムにおいて、マイクロフォンで収録した悲鳴や銃声等の危険音を検知し、即座に管理人に危険を知らせることができる。ソーナーが受信した水中の音波に適用することで、船舶の種類を検知して水中監視を行うこともできる。また、ハイドロフォンを利用して海中生物の鳴音を検知し、生態調査に役立てることもできる。

【0049】

＜実施形態２＞
次に、本開示の第２の実施形態を、図１２乃至図１３を参照して説明する。図１２乃至図１３は、実施形態２における信号処理装置の構成を示すブロック図である。なお、本実施形態では、上述した実施形態で説明した信号処理装置の構成の概略を示している。

【0050】

まず、図１２を参照して、本実施形態における信号処理装置１００のハードウェア構成を説明する。信号処理装置１００は、一般的な情報処理装置にて構成されており、一例として、以下のようなハードウェア構成を装備している。
・ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１（演算装置）
・ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０２（記憶装置）
・ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３（記憶装置）
・ＲＡＭ１０３にロードされるプログラム群１０４
・プログラム群１０４を格納する記憶装置１０５
・情報処理装置外部の記憶媒体１１０の読み書きを行うドライブ装置１０６
・情報処理装置外部の通信ネットワーク１１１と接続する通信インタフェース１０７
・データの入出力を行う入出力インタフェース１０８
・各構成要素を接続するバス１０９

【0051】

なお、図１２は、信号処理装置１００である情報処理装置のハードウェア構成の一例を示しており、情報処理装置のハードウェア構成は上述した場合に限定されない。例えば、情報処理装置は、ドライブ装置１０６を有さないなど、上述した構成の一部から構成されてもよい。また、情報処理装置は、上述したＣＰＵの代わりに、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＦＰＵ（ＦｌｏａｔｉｎｇｐｏｉｎｔｎｕｍｂｅｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＰＰＵ（ＰｈｙｓｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＴＰＵ（ＴｅｎｓｏｒＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、量子プロセッサ、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。

【0052】

そして、信号処理装置１００は、プログラム群１０４をＣＰＵ１０１が取得して当該ＣＰＵ１０１が実行することで、図１３に示すアクティベーション算出部１２１と特徴量算出部１２２と学習部１２３とを構築して装備することができる。なお、プログラム群１０４は、例えば、予め記憶装置１０５やＲＯＭ１０２に格納されており、必要に応じてＣＰＵ１０１がＲＡＭ１０３にロードして実行する。また、プログラム群１０４は、通信ネットワーク１１１を介してＣＰＵ１０１に供給されてもよいし、予め記憶媒体１１０に格納されており、ドライブ装置１０６が該プログラムを読み出してＣＰＵ１０１に供給してもよい。但し、上述したアクティベーション算出部１２１と特徴量算出部１２２と学習部１２３とは、かかる手段を実現させるための専用の電子回路で構築されるものであってもよい。

【0053】

上記アクティベーション部１２１は、所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出する。

【0054】

上記特徴量算出部１２２は、アクティベーションの時間長を、他の学習用時系列信号に対応する他のアクティベーションの時間長に基づいて調整し、時間長を調整したアクティベーションの特徴量を算出する。例えば、特徴量算出部１２２は、全ての学習用時系列信号の全ての基底に対応するアクティベーションの時間長が同一となるよう調整する。

【0055】

上記学習部１２３は、特徴量を用いて学習用時系列信号を識別するモデルを生成するよう学習する。

【0056】

本開示は、以上のように構成されることにより、学習用時系列信号の時間長が調整されたアクティベーションを用いて時系列信号を識別するモデルを生成しているため、かかるモデルを用いることで、信号のイベントの検知を精度よく行うことができる。

【0057】

なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

【0058】

以上、上記実施形態等を参照して本開示を説明したが、本開示は、上述した実施形態に限定されるものではない。本開示の構成や詳細には、本開示の範囲内で当業者が理解しうる様々な変更をすることができる。また、上述したアクティベーション算出部１２１と特徴量算出部１２２と学習部１２３との機能のうちの少なくとも一以上の機能は、ネットワーク上のいかなる場所に設置され接続された情報処理装置で実行されてもよく、つまり、いわゆるクラウドコンピューティングで実行されてもよい。

【0059】

＜付記＞
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本開示における信号処理装置、信号処理方法、プログラムの構成の概略を説明する。但し、本開示は、以下の構成に限定されない。
（付記１）
所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出するアクティベーション算出部と、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出する特徴量算出部と、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する学習部と、
を備えた信号処理装置。
（付記２）
付記１に記載の信号処理装置であって、
前記特徴量算出部は、前記アクティベーションの時間長を、前記他のアクティベーションの時間長と同一となるよう調整する、
信号処理装置。
（付記３）
付記２に記載の信号処理装置であって、
前記特徴量算出部は、前記アクティベーションの時間長の調整に応じて、当該アクティベーションの時間毎のデータを、対応する時間毎の前記他のアクティベーションのデータに基づいて設定する、
信号処理装置。
（付記４）
付記３に記載の信号処理装置であって、
前記特徴量算出部は、前記アクティベーションの時間長の調整に応じて、当該アクティベーションと前記他のアクティベーションとにおいて相互に対応する時間毎のデータ間の距離の総和が最小となるよう、前記アクティベーションの時間毎のデータを設定する、
信号処理装置。
（付記５）
付記２に記載の信号処理装置であって、
前記アクティベーション算出部は、複数の前記基底毎にそれぞれ前記アクティベーションを算出し、
前記特徴量算出部は、特定の前記基底に対応する前記アクティベーションの時間毎のデータを設定すると共に、当該データを設定した同一の時間における他の前記基底に対応する前記アクティベーションのデータを設定する、
信号処理装置。
（付記６）
付記２に記載の信号処理装置であって、
前記特徴量算出部は、前記アクティベーションの時間長の調整に応じて、当該アクティベーションの調整した時間におけるデータを追加又は削除する、
信号処理装置。
（付記７）
付記１に記載の信号処理装置であって、
前記アクティベーション算出部は、所定の時間長を有する評価用時系列信号のスペクトログラムから前記アクティベーションを算出し、
前記特徴量算出部は、前記学習用時系列信号に対応する前記アクティベーションの調整した時間長に応じて、前記評価用時系列信号に対応する前記アクティベーションの時間長を調整し、当該時間長を調整した前記評価用時系列信号に対応する前記アクティベーションの特徴量を算出し、
さらに、前記評価用時系列信号に対応する前記特徴量から、前記モデルを用いて前記評価用時系列信号を識別する識別部を備えた、
信号処理装置。
（付記８）
付記７に記載の信号処理装置であって、
前記特徴量算出部は、前記評価用時系列信号に対応する前記アクティベーションの時間長を、前記学習用時系列信号に対応する前記アクティベーションの調整した時間長と同一となるよう調整する、
信号処理装置。
（付記９）
所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出し、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出し、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する、
信号処理方法。
（付記９．１）
付記９に記載の信号処理方法であって、
所定の時間長を有する評価用時系列信号のスペクトログラムから前記アクティベーションを算出し、
前記学習用時系列信号に対応する前記アクティベーションの調整した時間長に応じて、前記評価用時系列信号に対応する前記アクティベーションの時間長を調整し、当該時間長を調整した前記評価用時系列信号に対応する前記アクティベーションの特徴量を算出し、
前記評価用時系列信号に対応する前記特徴量から、前記モデルを用いて前記評価用時系列信号を識別する、
信号処理方法。
（付記１０）
情報処理装置に、
所定の時間長を有する学習用時系列信号のスペクトログラムから、予め設定された基底の時間毎の発現度合いを表す所定の時間長を有するアクティベーションを算出し、
前記アクティベーションの時間長を、他の前記学習用時系列信号に対応する他の前記アクティベーションの時間長に基づいて調整し、当該時間長を調整した前記アクティベーションの特徴量を算出し、
前記特徴量を用いて前記学習用時系列信号を識別するモデルを生成するよう学習する、
処理を実行させるためのプログラム。

【符号の説明】

【0060】

１０学習部
１１学習データ入力部
１２第一データ切り出し部
１３第一スペクトログラム算出部
１４第一ＮＭＦ部
１５第一特徴量算出部
１５ａ第一時間長調整部
１５ｂ第二時間長調整部
１５ｃ第一特徴量抽出部
１６モデル学習部
１７第一表示部
２０基底辞書生成部
２１辞書用学習データ入力部
２２辞書用スペクトログラム算出部
２３基底算出部
２４基底辞書保存部
３０検知部
３１評価データ入力部
３２第二データ切り出し部
３３第二スペクトログラム算出部
３４第二ＮＭＦ部
３５第二特徴量算出部
３５ａ第三時間長調整部
３５ｂ第二特徴量抽出部
３６識別部
３７第二表示部
１００信号処理装置
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４プログラム群
１０５記憶装置
１０６ドライブ装置
１０７通信インタフェース
１０８入出力インタフェース
１０９バス
１１０記憶媒体
１１１通信ネットワーク
１２１アクティベーション算出部
１２２特徴量算出部
１２３学習部

【図1】