特許第5922263号(P5922263)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ タタ コンサルタンシー サービシズ リミテッドの特許一覧

特許5922263特定の対象音を検出するシステム及び方法
<>
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000009
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000010
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000011
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000012
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000013
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000014
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000015
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000016
  • 特許5922263-特定の対象音を検出するシステム及び方法 図000017
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5922263
(24)【登録日】2016年4月22日
(45)【発行日】2016年5月24日
(54)【発明の名称】特定の対象音を検出するシステム及び方法
(51)【国際特許分類】
   G10L 25/24 20130101AFI20160510BHJP
   G10L 25/18 20130101ALI20160510BHJP
   G10L 15/10 20060101ALI20160510BHJP
【FI】
   G10L25/24
   G10L25/18
   G10L15/10 500Z
【請求項の数】10
【全頁数】14
(21)【出願番号】特願2014-558271(P2014-558271)
(86)(22)【出願日】2013年2月11日
(65)【公表番号】特表2015-508187(P2015-508187A)
(43)【公表日】2015年3月16日
(86)【国際出願番号】IN2013000089
(87)【国際公開番号】WO2013124862
(87)【国際公開日】20130829
【審査請求日】2014年10月1日
(31)【優先権主張番号】462/MUM/2012
(32)【優先日】2012年2月21日
(33)【優先権主張国】IN
(73)【特許権者】
【識別番号】510337621
【氏名又は名称】タタ コンサルタンシー サービシズ リミテッド
【氏名又は名称原語表記】TATA Consultancy Services Limited
(74)【代理人】
【識別番号】100137095
【弁理士】
【氏名又は名称】江部 武史
(74)【代理人】
【識別番号】100173532
【弁理士】
【氏名又は名称】井上 彰文
(74)【代理人】
【識別番号】100091627
【弁理士】
【氏名又は名称】朝比 一夫
(72)【発明者】
【氏名】ジェイン, ジテンドラ
(72)【発明者】
【氏名】シンハ, アニルッダ
【審査官】 冨澤 直樹
(56)【参考文献】
【文献】 特開2010−141468(JP,A)
【文献】 特開2000−267692(JP,A)
【文献】 米国特許第06292776(US,B1)
【文献】 特開2010−164762(JP,A)
【文献】 米国特許出願公開第2010/0185713(US,A1)
【文献】 Wang Hong,Modified MFCCs for robust speaker recognition,Intelligent Computing and Intelligent Systems (ICIS), 2010 IEEE International Conference on,米国,IEEE ,2010年10月29日,p.276-279
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00−25/93
G10L 15/10
IEEE Xplore
CiNii
(57)【特許請求の範囲】
【請求項1】
動的に変化する複数の様々な音の中から、対象の音を検出するシステムであって、
前記動的に変化する複数の様々な音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンドを検出することにより、優位周波数を特定するよう構成されたスペクトル検出モジュールと、
第1のメルフィルタバンクと、前記第1のメルフィルタバンクを反転させた第2のフィルタバンクを含む、第3のフィルタバンクと、
前記第3のフィルタバンクに接続され、前記第3のフィルタバンクから受信した前記対象の音の複数のスペクトル特性を抽出するよう構成された特徴抽出器と、
前記対象の音を検出するために、前記特定された優位周波数にしたがって、前記対象の音の前記抽出されたスペクトル特性を分類するようトレーニングされた分類器と、を含み、
前記各フィルタバンク内の各フィルタは、前記対象の音を検出するために、音エネルギーの周波数バンドをフィルタリングするよう構成されており、
前記第3のフィルタバンクは、前記対象の音の検出ために、前記特定された優位周波数にしたがって、前記第1のメルフィルタバンクと前記第2のフィルタバンクのスペクトル位置を修正することによって設計されていることを特徴とする前記システム。
【請求項2】
前記分類器は、前記対象の音の前記抽出されたスペクトル特性を分類するガウス混合モデル(GMM)を含む請求項1に記載のシステム。
【請求項3】
前記動的に変化する複数の様々な音は、自動車のクラクション音を含む請求項1に記載のシステム。
【請求項4】
前記システムの性能評価を提供するために、前記第1のメルフィルタバンク、前記第2のフィルタバンクおよび前記第3のフィルタバンクから抽出された複数の特徴を融合するよう構成された融合モジュールをさらに含む請求項1に記載のシステム。
【請求項5】
前記分類器は、前記対象の音の前記分類されたスペクトル特性と、事前に保存されている音特性のセットとを比較する比較器をさらに含む請求項1に記載のシステム。
【請求項6】
動的に変化する複数の様々な音の中から、特定の対象の音を検出する方法であって、
前記動的に変化する複数の様々な音の音エネルギーのスペクトル中に存在する優位周波数を特定する工程と、
前記対象の音の検出ために、前記特定された優位周波数にしたがって、第1のメルフィルタバンクと、前記第1のメルフィルタバンクを反転させた第2のフィルタバンクのスペクトル位置を修正することによって、フィルタバンクを改変する工程と、
前記改変されたフィルタバンクから受信した前記対象の音の複数のスペクトル特性を抽出する工程と、
前記特定した優位周波数にしたがって、前記対象の音を検出するため、前記対象の音の前記抽出されたスペクトル特性を分類する工程と、を含むことを特徴とする前記方法。
【請求項7】
前記優位周波数は、前記対象の音のエネルギースペクトル内における最大エネルギーを含む周波数バンドを含む請求項に記載の方法。
【請求項8】
前記特定された優位周波数にしたがって、前記フィルタバンクを改変する工程は、前記優位周波数から前記第1のメルフィルタバンクの最大周波数までの範囲と、前記第2のフィルタバンクの最小周波数から前記優位周波数までの範囲とをカバーする周波数範囲をもたらす請求項に記載の方法。
【請求項9】
前記対象の音を検出する際に、性能評価を提供するため、前記第1のメルフィルタバンク、前記第2のフィルタバンクおよび前記改変されたフィルタバンクから抽出された複数の特徴を融合する工程をさらに含む請求項に記載の方法。
【請求項10】
前記分類する工程は、前記対象の音を検出するため、前記対象の音の前記分類されたスペクトル特性と、事前に保存されている音特性のセットとを比較する工程を含む請求項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の音の中から、特定のタイプの音を検出するシステムおよび方法に関する。特に、本発明は、音に含まれるスペクトル特性を参照しつつ、音を検出するシステムおよび方法に関する。
【背景技術】
【0002】
関連技術の明示
[1].Rijurekha Sen、Vishal Sevani、Prashima Sharama、Zahir Koradia and Bhaskaran Raman、「地域開発のための通信補助道路輸送システムにおける試み(“Challenges In Communication Assisted Road Transportation Systems for Developing Regions”)」、NSDR’09, 2009年10月
[2].Prashanth Mohan、Venkata N. Padmanabhan、Ramachandran Ramjee、「Nericell:モバイルスマートフォンを用いた道路および交通状況のリッチモニタリング(“Nericell: Rich Monitoring of Road and Traffic Conditions using Mobile Smartphones”)」、Sensys’08、マイクロソフトリサーチラボ
[3].Vivek Tyagi、Shivkumar Kalyanaraman、Raghuram Krishnapuram、「累積された道路音声に基づく車両交通密度状態推定(“Vehicular Traffic Density State Estimation Based on Cumulative Road Acoustics”)」、IBMリサーチレポート
[4].Sandipan Chakroborty、Anindya Roy and Goutam Saha、「フリップフィルタバンクからのエビデンスをMFCCと組み合わせることによる改良クローズドセットテキスト独立話者認証(“Improved Closed Set Text-Independent Speaker Identification by combining MFCC with Evidence from Flipped Filter Banks”)」、International Journal of Information and Communication Engineering、2008年
[5].Arun Ross、Anil Jain、「バイオメトリクスにおける情報融合“Information fusion in biometrics”」、Pattern Recognition Letters、2003年
[6].「マルチモーダル入力の接続および融合判断のための方法およびシステム(“A Method and System for Association and Decision Fusion of Multimodal Input”)」、インド国特許出願第1451/MUM/2011号
[7].Douglas A. Reynolds、Richard C. Rose、「ガウス混合話者モデルを用いたロバストテキスト独立話者認証“Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”」、IEEE Trans. on Speech and Audio Processing、vol. 3、no. 1、1995年
【0003】
スペクトル特性の観測は、それぞれ異なるタイプの複数の音を特徴づけるために実行される。音景の生成(soundscaping)は、音楽、ヘルスケア、騒音公害等の分野で利用されている。特定のタイプの音を他の音から区別するため、メル周波数フィルタバンク(mel frequency filter bank)が比較的よく用いられている。メル周波数ケプストラム係数(MFCC: Mel Frequency Cepstral Coefficients)(上記関連技術4参照のこと)は、スピーチ認識システムにおいて、特徴(features)として利用されている。また、メル周波数ケプストラム係数(MFCC)は、音類似度測定(audio similarity measures)にも用いられている。例えば、道路交通状況(上記関連技術1〜3参照のこと)において、MFCCは、クラクション(警笛)音(horn sound)を、他の交通音から区別するために用いられている。これは、クラクション音を正確に特定することにより、交通事故の可能性を低減するために実行される。
【0004】
メルフィルタバンクを用いることによって、特定のタイプの音を検出および追跡する数多くの手法が提案されている。MFCC(メル周波数ケプストラム係数)は、音の分類に広く用いられている。音検出用に設計された既存のシステムでは、特徴選択(feature selection)は、主として、メル周波数ケプストラム係数に基づいている。さらに、分類の目的のため、ガウス混合モデル(GMM: Gaussian Mixture Model)(上記関連技術7参照のこと)または他のモデルを採用することによって、良好な結果が得られることがわかっている。既存のメルフィルタバンク構造は、低周波数での高分解能によって、スピーチのフォルマント情報(formant information)を効果的に取得することができるので、スピーチ用により適している。しかしながら、このようなシステムの全ては、フィルタバンクの設計の際に、音のスペクトル特性を使用することについて何ら述べていないし、より良い結果を提供可能な特徴を選択するために、音のスペクトル特性を使用することを考慮していない。スペクトル特性を観測することによるメルフィルタバンクの改変(modifying)は、特定のタイプの音のより良い分類を提供することができる。また、しきい値ベース方法(threshold based methods)は、スペクトルを観測することによる特定音の検出に用いられているものの、該方法は、周波数スペクトルの変動が存在する場合、全てのケースに適用することができなかった。
【0005】
また、数多くの従来技術は、音識別システムおよびプロセスについて教示している。欧州特許第0907258号(EP0907258)は、音声信号圧縮、スピーチ信号圧縮およびスピーチ識別について開示している。中国特許第101226743号(CN101226743)は、無指向および指向性音の変換(conversion of neutral and affection sound)に基づく話者の識別方法について開示している。欧州特許第2028647号(EP2028647)は、話者分類方法およびデバイスを提供している。国際公開公報第1999/022364号(WO1999/022364)は、スピーチの指向性コンテンツ(affective content of speech)の自動分類システムおよび方法について教示している。中国特許第1897109号(CN1897109)は、MFCCに基づく単一音声周波数識別について開示している。国際公開公報第2010/066008号(WO2010/066008)は、非ガウス的性質指数(non-gaussianity index)を用いた睡眠時無呼吸症の地域スクリーニング(community screening)のためのいびき音のマルチパラメーター分析について開示している。しかしながら、これら従来技術の全ては、より良い分類を提供するために、音エネルギースペクトルの周波数分布の変化を考慮することについて何ら述べていない。
【0006】
したがって、フィルタバンク構造を設計するために、音のスペクトル特性を考慮することによって、特定のタイプの音を検出可能なシステムおよび方法に対するニーズが存在している。また、該システムおよび方法は、複雑性を低減させつつ、音を検出可能であることが要求される。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明の主たる目的は、動的に変化する複数の様々な音の中から、対象の音を効果的に検出する改変メルフィルタバンク(modified mel filter bank)を設計することにある。
【0008】
本発明の別の目的は、動的に変化する複数の様々な音のエネルギースペクトル内の優位周波数(dominant frequency)を特定する方法を提供することにある。
【0009】
本発明のさらに別の目的は、1つ以上の異なるメルフィルタバンクから抽出されたそれぞれ異なる特徴(MFCC)を融合するシステムを提供することにある。
【0010】
本発明のさらに別の目的は、抽出されたスペクトル特性を分類し、対象の音を効果的に検出するシステムを提供することにある。
【課題を解決するための手段】
【0011】
本発明は、動的に変化する複数の様々な音の中から、対象の音を検出するシステムを提供する。該システムは、変化する複数の様々な音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンド(dominant spectrum energy band)を検出することにより、優位スペクトルエネルギー周波数を特定するよう構成されたスペクトル検出モジュールと、改変メルフィルタバンクとを含む。該改変メルフィルタバンクは、第1のメルフィルタバンクと、第2のメルフィルタバンクとを含む。各バンク内の各メルフィルタは、対象の音を検出するため、音エネルギーの周波数バンドをフィルタリングするよう構成されている。改変メルフィルタバンクは、対象の音を検出するために、特定された優位周波数にしたがって、第1のメルフィルタバンクと第2のメルフィルタバンクのスペクトル位置を修正することによって(with a revised spectral positioning)設計される。該システムは、さらに、改変メルフィルタバンクに接続され、改変フィルタバンクから受信した音の複数のスペクトル特性を抽出するよう構成された特徴抽出器と、対象の音を検出するために、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類するようトレーニングされた分類器とを含む。
【0012】
また、本発明は、動的に変化する複数の様々な音の中から、対象の特定の音を検出する方法を提供する。該方法は、音エネルギーのスペクトル内に存在する優位周波数を特定する工程と、対象の音を検出するために、特定された優位周波数にしたがって、第1のメルフィルタバンクと第2のメルフィルタバンクのスペクトル位置を修正することにより、メルフィルタバンクを改変する工程と、改変されたフィルタバンクから受信した音の複数のスペクトル特性を抽出する工程とを含む。該方法は、さらに、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類し、対象の音を検出する工程を含む。
【図面の簡単な説明】
【0013】
図1図1は、本システムの実施形態に係るシステムアーキテクチャ(architecture:基本設計概念)を示す図である。
【0014】
図2図2は、本システムの代替的な実施形態に係るシステムアーキテクチャを示す図である。
【0015】
図3図3は、本発明の実施形態に係る第1のメルフィルタバンクの構造を示す図である。
【0016】
図4図4は、本発明の実施形態に係る対象の音のスペクトルを示す図である。
【0017】
図5図5は、本発明の代替的な実施形態に係る第2のメルフィルタバンクの構造を示す図である。
【0018】
図6図6は、本発明の実施形態に係る動的に変化する複数の様々な音のスペクトルを示す図である。
【0019】
図7図7は、本発明の例示的な実施形態に係る様々な優位スペクトルエネルギーバンドを用いた改変メルフィルタバンクの構造を示す図である。
【0020】
図8図8は、本発明の代替的な実施形態に係る例示的なフローチャートを示す図である。
【0021】
図9図9は、本システムの例示的な実施形態に係るシステムのブロック図を示す図である。
【発明を実施するための形態】
【0022】
その特徴が図示される本発明のいくつかの実施形態が説明される。
【0023】
明細書中、「構成する」、「有する」、「含む」、「備える」およびそれらの他の形式は、同等な意味であり、限定を意味するものではなく、これらの文言のいずれか1つに続く事項または複数の事項のオープンなリストであり、そのような事項に限定されるような排他的でクローズドなリストであるような意味ではなく、また、列挙された事項のみに限定されるという意味ではない。
【0024】
また、本明細書および添付の請求項において使用されているような単数形“a”、“an”、“the”は、文脈が明確に示していなければ、複数形も含むことを注意されたし。ここで説明されるシステム、方法、装置、デバイスと同等、または類似のシステム、方法、装置、デバイスは、本発明の実施形態の実施またはテストに使用されることができるが、好ましいシステムおよびその部分は以下に説明される。説明および理解を目的とする以下の説明において、多くの実施形態が参照されるが、本発明の範囲を限定するものではない。
【0025】
本発明の1つ以上のコンポーネントは、明細書の理解のために、モジュールとして記述される。例えば、モジュールは、論理ゲート、半導体デバイス、集積回路、その他個別のコンポーネントを含むハードウェア回路内の自己完結型(self-contained)コンポーネントであってもよい。また、モジュールは、任意のハードウェア実体(例えば、プロセッサー)によって実行される任意のソフトウェアプログラムの一部であってもよい。ソフトウェアプログラムとしてのモジュールの実施は、プロセッサーやその他任意のハードウェア実体によって実行される論理命令セットを含む。さらに、モジュールは、インターフェースによる命令セットまたはプログラムに包含されてもよい。
【0026】
開示される実施形態は、様々な形態で具現化可能な本発明の例示にすぎない。
【0027】
本発明は、動的に変化する複数の様々な音の中から、対象の音を検出するシステムおよび方法に関する。まず、最初の工程において、優位周波数が対象の音のスペクトル内において特定される。さらに、第1のメルフィルタバンクと第2のメルフィルタバンク(第2のフィルタバンク)の構造を改変およびシフトすることにより、改変メルフィルタバンク(第3のフィルタバンク、または改変されたフィルタバンク)が得られる。その後、改変メルフィルタバンクから特徴が抽出され、対象の音を検出するために分類される。
【0028】
図1を参照し、実施形態の1つにおいて、システム(100)は、対象の音のMFCC(メル周波数ケプストラム係数)を提供するよう構成された第1のメルフィルタバンク(102)を含む。このMFCCは、スピーチおよび話者(speaker)識別アプリケーション用の基本(ベースライン)音声特徴である。
【0029】
メル尺度(スケール)は、以下の方程式で定義される。
ここで、fmelは、Hz単位の実際の周波数fに対応するメル単位での主観的ピッチ(subjective pitch)である。
【0030】
MFCC特徴を算出するために用いられるアルゴリズムは、以下の通りである。
1.ハミング、ハニングまたは矩形窓(ウインドウ)のようないくつかの窓関数を用いて、信号から固定サイズ時間窓を取得する(図8の工程802)。
2.窓関数が適用された(windowed)信号の離散フーリエ変換を演算する。
3.それにより得られたスペクトルの強度(パワー)を、三角オーバーラップ窓(triangular overlapping windows)を用いて、メル尺度上にマッピングする。
4.各メルフィルタでのエネルギーを演算し、演算されたエネルギー値の対数(ログ)を取る。
5.最終的に、これら対数エネルギー値の離散コサイン変換を取ることにより、MFCCが演算される(図8の工程808)。
【0031】
実施形態の1つにおいて、システムは、さらに、第2のメルフィルタバンク(104)を含む。第2のメルフィルタバンク(104)は、第1のメルフィルタバンク(102)の反転(inverse)である。
【0032】
図3に示されているように、第1のメルフィルタバンク(102)構造は、複数の三角窓を有している。低周波数領域における三角窓は、密集し、オーバーラップしている。一方、高周波数帯における三角窓は、低周波領域の三角窓より少ない密集で、オーバーラップしており、その数は低周波領域の三角窓の数より少ない。したがって、第1のメルフィルタバンク(102)は、高周波領域よりも、低周波領域をより正確に表すことができる。
【0033】
動的に変化する複数の様々な音の中の対象の音は、具体例として、自動車のクラクション音を含むが、これに限定されない。このスペクトルエネルギーの大部分は、図4に示すように、高周波領域に集中(confined)している。その他の動的に変化する音(例えば、その他の交通音)のスペクトルエネルギーは、図6に示されている。
【0034】
したがって、第2のメルフィルタバンク(104)を設計するために、第1のメルフィルタバンク(102)の構造を反転させる。これにより、対象の音(すなわち、クラクション音)用に要求される、より高周波の情報をより効果的に取得することができる。第2のメルフィルタバンク(104)の構造は、図5に示されている。
【0035】
第2のメルフィルタバンク(104)の設計において採用された方程式は、以下で与えられる。
【0036】
第2のメルフィルタバンク(104)のMFCC特徴は、第1のメルフィルタバンクのMFCC特徴の算出と同様の方法で算出される(図8の工程808)。
【0037】
さらに、1つ以上のケースにおいて、対象の音のスペクトルエネルギーが主として低周波領域に集中していることが観測されることがある。第2のメルフィルタバンク(104)(すなわち、第1のメルフィルタバンクの反転)は、低周波の情報をそれほど効果的に取得することができないため、第2のメルフィルタバンク(104)は、これらのケース全てに対して、あまり有効に適用できない。
【0038】
これらのことから、対象の音から特徴情報を区別可能とするよう取得し、対象の音を動的に変化するその他の音から区別するためには、任意のメルフィルタバンク構造を設計する際に、音のスペクトルエネルギー分布の特性の変化を考慮すべきであるということがわかる。
【0039】
システム(100)は、さらに、変化する音の音エネルギーのスペクトル内に存在する優位スペクトルエネルギーバンドを検出することにより、優位スペクトルエネルギー周波数を特定するよう構成されたスペクトル検出モジュール(106)を含む(図8の工程804)。
【0040】
エネルギースペクトル内の優位周波数を特定するために、一揃いの(complete)スペクトルが、複数の周波数バンドに分割される。各バンドのスペクトルエネルギーが演算され、これらの中で、最大エネルギーを与える周波数バンドが優位スペクトルエネルギー周波数バンドと呼ばれる。次の工程において、優位スペクトルエネルギー周波数バンド内から、特定の周波数が優位周波数として選択される。
【0041】
システム(100)は、さらに、検出した優位周波数周辺に、第1のメルフィルタバンク(102)と第2のメルフィルタバンク(104)をシフトさせることによって設計された改変メルフィルタ(108)を含む(図8の工程806)。
【0042】
実施形態の1つにおいて、任意の周波数指数(frequency index)を、検討(考慮)中の様々な音およびアプリケーションの要求に応じて、該周波数バンド内の優位ピークとして取ることができる。
【0043】
このように設計された改変メルフィルタバンク(108)は、最大スペクトルエネルギーが分布するスペクトル領域(部分)において、最大分解能を提供することができ、音からより効果的な情報を抽出することができる。
【0044】
改変メルフィルタバンク(108)を設計する際に、第1のメルフィルタバンク(102)が構築され、完成した第1のメルフィルタバンク(102)が優位ピーク周波数によってシフトされる。このシフトは、完成した第1のメルフィルタバンク(102)が、信号の優位ピーク周波数(fpeak)から最大周波数(fmax)までの周波数範囲をカバーするように実行される。
【0045】
この改変の支配方程式(governing equation)は、以下で与えられる。
ここで、
である。
【0046】
同様に、完成した第2のメルフィルタバンク(104)も、優位周波数によってシフトされる。このシフトは、完成した第2のメルフィルタバンク(104)が、信号の最小周波数(fmin)から優位周波数(fpeak)の範囲をカバーするように実行される。このシフトに用いられる方程式は、以下のとおりである。
ここで、
【0047】
改変メルフィルタバンク(108)のMFCC特徴は、上述の第1のメルフィルタバンク(102)と第2のメルフィルタバンク(104)に対する方法と同様の方法で、算出される(図8の工程808)。
【0048】
システム(100)は、さらに、改変メルフィルタバンク(108)、第1のメルフィルタバンク(102)および第2のメルフィルタバンク(104)に接続された特徴抽出器(110)を含む。特徴抽出器(110)は、これら3つの全てのタイプのメルフィルタバンクから受信した音の複数のスペクトル特性を抽出する(図8の工程810)。
【0049】
さらなる観測において、これら3つの全てのMFCC特徴、すなわち、第1のメルフィルタバンク(102)、第2のメルフィルタバンク(104)および改変メルフィルタバンク(108)のMFCC特徴は、対象の音のそれぞれ異なる特徴情報を提供する。これらそれぞれ異なる特徴情報は、対象の音のそれぞれ異なるスペクトル特性を効果的に表している。
【0050】
具体例として、図7に示されているように、スペクトル全体が2つのエネルギーバンド、すなわち、0−2KHzと2−4KHzに分割され、改変メルフィルタバンク(108)構造が設計される。0−2KHzエネルギーバンド(図7a)において、ゼロ周波数が優位ピーク周波数として取られる一方で、2−4KHzバンド(図7b)において、4KHzが優位ピーク周波数として選択される。また、フィルタバンクを再定義するために、他の周波数が、優位ピーク周波数として選択されてもよい。優位ピーク周波数を1KHzとして取ることができ(図7c)、また、優位ピーク周波数を3KHzとして取ることもできる(図7d)。それぞれ異なる優位スペクトルエネルギーバンドと優位ピークの構成の改変メルフィルタバンクの構造が図7に示されている。
【0051】
また、図1に示すように、システム(100)は、さらに、システム(100)の性能評価を提供するよう構成された融合モジュール(114)を含む。融合モジュール(114)は、第1のメルフィルタバンク(100)、第2のメルフィルタバンク(104)および改変メルフィルタバンク(108)から抽出した特徴を融合する。性能評価のため、スコアレベル[6]融合(図2参照)と特徴レベル融合[5](図1参照)が用いられる。
【0052】
さらに図1を参照し、(図8の工程816に示すように)特徴レベル融合において、ペアワイズ(pair wise)特徴が連結され、最終的に、3つのタイプ全て(第1のメルフィルタバンク(102)、第2のメルフィルタバンク(104)および改変メルフィルタバンク(108))が組み合わせられる。組み合わせ開始前に、いくつかの正規化技術、例えば、最大値正規化(max normalization)が、それぞれ異なる範囲の特徴値を補償(compensate)する特徴を正規化するために用いられる。
【0053】
図2を参照し、(図8の工程814に示すように)同じ特徴の組み合わせ(same feature combinations)は、スコアレベル融合で用いられる。このスコアレベル融合は、各特徴の別個の分類スコアを取得することによって実行される。その後、これらスコアの組み合わせが、最終分類スコア用融合のシンプル加算ルールを用いて実行される。また、ここで、最大値正規化技術が用いられ、異なる範囲の分類スコアが補償される。
【0054】
システム(100)は、さらに、対象の音を検出するために、特定された優位周波数にしたがって、音の抽出されたスペクトル特性を分類するようトレーニングされた分類器(112)を含む(図8の工程818)。分類器(112)は、さらに、対象の音の抽出されたスペクトル特性を分類するガウス混合モデル(GMM)を含むが、これに限定されない。
【0055】
実施形態の1つにおいて、分類器(112)は、さらに、分類器(112)に通信可能に接続された比較器(図示せず)を含む。この比較器は、効果的に対象の音を検出するために、分類された対象の音のスペクトル特性と、事前に保存されている(pre stored)音特性のセットとを比較する。
【0056】
発明の作用のための最良の実施形態/実施例
以上説明した動的に変化する複数の様々な音の中から、対象の音を検出するシステムおよび方法は、以下の段落において示される実施例によって説明することができる。なお、本発明のプロセスは、以下の実施例にのみ限定されるものではない。
【0057】
図9に示すような、様々な交通音の中から、クラクション音を特定するケースを検討する。このために、クラクション音に関連するデータと、その他の交通音に関連するデータとを含むデータがトレーニング目的のために選択される。一揃いのデータベースが2つのメインクラス、すなわち、クラクション音と、その他の交通音とに分割される。トレーニング用の工程(101)では、1分間の記録データが各音クラス用に用いられる。工程(102)では、クラクション用の137種の異なる音記録を含む2分間クラクションデータと、87種の異なる記録を有するその他の交通音用の約10分間データとに対し、テストが実行される。これらのトレーニングデータおよびテストデータのセットは、提案のシステムのロバスト性(robustness)が様々な条件(varying conditions)でチェック可能となるように、それぞれ異なるセッションの記録から生成される。
【0058】
有効フレーム(valid frame)を選択するために、ハミング窓がトレーニングデータセットと、テスト音の双方に適用される。スペクトルエネルギー分布に基づいて、第1のメルフィルタバンク、第2のメルフィルタバンク(第1のメルフィルタバンクの反転)および改変メルフィルタバンクが用いられる。特徴抽出段階において、従来MFCC(第1のメルフィルタバンクを参照するもの)が、比較(comparative study)のため、反転MFCC(第2のメルフィルタバンクを参照するもの)および改変MFCCと共に用いられる。選択された有効フレームに対し、メル周波数ケプストラム係数(MFCC)が演算され、さらなる特徴がこれら3つ全てのメルフィルタバンクから抽出される。これらMFCC演算の全てにおいて、13次元の特徴が用いられる。モデリング(Modeling)は、異なる数の混合用のガウス混合モデル(GMM)を用いて実行され、最終的に、複数のテスト音が、これらトレーニングされたモデルからの最尤基準(maximum likelihood criterion)によって分類される。
【0059】
1つ以上の事前保存されている音に対してパターンマッチングが実行され、テスト音が特定される。
【0060】
表1:従来MFCC、反転MFCC(IMFCC)および改変MFCCのクラクション分類結果
【0061】
これらテスト結果は、反転MFCC特徴を用いた場合に、従来MFCCを用いた場合と比較して、クラクション検出率が向上していることを明確に示しており、クラクション音のスペクトル特性に基づいた従来メルフィルタバンク構造の反転の有効性を示すものである。よって、これらテスト結果は、反転MFCCにより、クラクション分類の正確性を向上させるためのより良い特徴選択が可能であることを示している。
【0062】
さらに、改変MFCCを用いた場合、クラクション検出率は、従来MFCCおよび反転MFCCを用いた場合と比較して、全てのガウス混合モデルサイズにおいて著しく向上した。これは、MFCC特徴演算におけるスペクトルエネルギー分布の重要性を示し、改変MFCCがクラクション検出により適した特徴であることを示している。同様に、従来MFCCを用いた場合と比較して、改変MFCCと反転MFCCを用いた場合は、偽警報率(FAR: False Alarm Rate)も、減少している。
【0063】
さらに、上述のシステムの性能は、これらMFCCバリエーション全て、すなわち、従来MFCC、反転MFCCおよび改変MFCCの微分特徴(derivative features)を含むことによって評価することができる。微分特徴は、演算の複雑性が増大する場合での、分類正確性の分析に有用である。
【0064】
本発明の有利な効果
1.クラクション音をその他の音から区別可能とするクラクション音の特性に対する既存の特徴抽出技術を効果的に改変(modification)することができる。
2.音スペクトルの高周波領域において、より多くの情報を含むMFCCを演算するための反転メルフィルタバンクを設計することができる。
3.改変メルフィルタバンクで演算されたMFCCは、より優れた分類を提供することができる。
4.特定のタイプの音を検出するために、汎用化された特徴を提供する既存のメルフィルタバンク構造を改変することにより、スペクトルエネルギー分布の特徴の変化をMFCC演算において利用することができる。
図1
図2
図3
図4
図5
図6
図7
図8
図9