(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6027087
(24)【登録日】2016年10月21日
(45)【発行日】2016年11月16日
(54)【発明の名称】スペクトル挙動の変換を実行する音響信号処理システム及び方法
(51)【国際特許分類】
G10L 25/18 20130101AFI20161107BHJP
G10L 25/84 20130101ALI20161107BHJP
G10L 25/90 20130101ALI20161107BHJP
【FI】
G10L25/18
G10L25/84
G10L25/90
【請求項の数】20
【全頁数】14
(21)【出願番号】特願2014-501266(P2014-501266)
(86)(22)【出願日】2012年3月23日
(65)【公表番号】特表2014-512022(P2014-512022A)
(43)【公表日】2014年5月19日
(86)【国際出願番号】US2012030277
(87)【国際公開番号】WO2012134993
(87)【国際公開日】20121004
【審査請求日】2015年3月19日
(31)【優先権主張番号】13/205,424
(32)【優先日】2011年8月8日
(33)【優先権主張国】US
(31)【優先権主張番号】61/467,493
(32)【優先日】2011年3月25日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】513239896
【氏名又は名称】ジ インテリシス コーポレーション
【氏名又は名称原語表記】THE INTELLISIS CORPORATION
(74)【代理人】
【識別番号】100126572
【弁理士】
【氏名又は名称】村越 智史
(74)【代理人】
【識別番号】100125195
【弁理士】
【氏名又は名称】尾畑 雄一
(72)【発明者】
【氏名】ブラッドリー,デイヴィッド,シー.
(72)【発明者】
【氏名】ゴールディン,ダニエル,エス.
(72)【発明者】
【氏名】ヒルトン,ロバート,エヌ.
(72)【発明者】
【氏名】フィッシャー,ニコラス,ケー.
(72)【発明者】
【氏名】ガトー,ロドニー
(72)【発明者】
【氏名】ルース,デリック,アール.
(72)【発明者】
【氏名】ヴィエヴィオラ,エリック
【審査官】
間宮 嘉誉
(56)【参考文献】
【文献】
米国特許出願公開第2005/0114128(US,A1)
【文献】
米国特許出願公開第2011/0060564(US,A1)
【文献】
米国特許出願公開第2006/0100866(US,A1)
【文献】
米国特許第7664640(US,B2)
【文献】
特開平11−24696(JP,A)
【文献】
特開2001−22369(JP,A)
【文献】
米国特許第7085721(US,B1)
【文献】
Marian KEPESI, et al.,Adaptive Chirp-based Time-Frequency Analysis of Speech Signals,SPEECH COMMUNICATION,NL,Elsevier B.V.,2006年 5月,Vol.48, No.5,pp.474-492
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−99/00
Science Direct
IEEE Xplore
CiNii
Scopus
JSTPlus(JDreamIII)
JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
コンピュータプログラムモジュールを実行する1以上のプロセッサを備えた音響信号処理システムであって、前記コンピュータプログラムモジュールは、
音響信号を個別の時間窓に関連付けされた複数の信号部分に分離し、前記時間窓が前記音響信号のサンプリング周期よりも大きい期間に対応する時間窓モジュールと、
前記信号部分を周波数−チャープ領域に変換する変換モジュールとを備えており、
前記信号の前記周波数−チャープ領域の表現は、前記信号部分についての周波数及び分数チャープ率の関数として変換係数を特定し、前記分数チャープ率は、チャープ率を周波数で割ったものである音響信号処理システム。
【請求項2】
前記コンピュータプログラムモジュールは、前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第1の音響パラメータを決定する音響パラメータモジュールをさらに備える請求項1のシステム。
【請求項3】
前記音響パラメータモジュールは、信号部分ごとに前記第1の音響パラメータを決定する請求項2のシステム。
【請求項4】
前記音響パラメータモジュールは、前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第2の音響パラメータをさらに決定し、前記第2の音響パラメータは、前記第1の音響パラメータとは異なるものである請求項2のシステム。
【請求項5】
前記第1の音響パラメータは、ピッチ及び/またはチャープ率の一方または両方を有している請求項2のシステム。
【請求項6】
前記変換モジュールは、所定の信号部分にフィルタの組み合わせを適用することにより前記所定の信号部分の変換が行われ、前記フィルタの組み合わせの個別のフィルタは、異なる周波数及びチャープ率の組み合わせに対応するものである請求項1に記載のシステム。
【請求項7】
前記変換モジュールは、前記変換係数が実成分及び虚数成分を備えるように構成されている請求項1のシステム。
【請求項8】
前記変換モジュールは、前記変換係数が実成分及び虚数成分の二乗の絶対値であるように構成されている請求項1のシステム。
【請求項9】
前記変換係数に基いて分離した音源により生成する音響を特定する分類モジュールをさらに備える請求項1のシステム。
【請求項10】
1以上のプロセッサにより音響信号を処理する方法であって、
音響信号を、該音響信号のサンプリング周期よりも大きい所定期間に対応する個別の時間窓と関連付けされた信号部分に分離し、
前記信号部分を、周波数−チャープ領域に変換し、
前記所定の信号の前記周波数−チャープ領域の表現は、前記信号部分についての周波数及び分数チャープ率の関数として変換係数を特定し、前記分数チャープ率は、周波数でチャープ率を割ったものである音響信号を処理する方法。
【請求項11】
前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第1の音響パラメータを決定することをさらに備える請求項10の方法。
【請求項12】
前記第1の音響パラメータの決定は、信号部分ごとに前記第1の音響パラメータを決定する請求項11の方法。
【請求項13】
前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第2の音響パラメータをさらに決定し、前記第2の音響パラメータは、前記第1の音響パラメータとは異なるものである請求項11の方法。
【請求項14】
前記第1の音響パラメータは、ピッチ及び/またはチャープ率の一方または両方を備えている請求項11の方法。
【請求項15】
所定の信号部分の変換は、前記所定の信号部分にフィルタの組み合わせを適用することを備えており、前記フィルタの組み合わせに含まれる個別のフィルタは、異なる周波数及びチャープ率の組み合わせに対応している請求項10の方法。
【請求項16】
前記変換係数は、実数成分及び虚数成分を備える請求項10に記載の方法。
【請求項17】
前記変換係数は、実数成分及び虚数成分の二乗の絶対値である請求項10に記載の方法。
【請求項18】
前記変換係数に基づいて分離した音源により生成された音響を特定することをさらに備える請求項10の方法。
【請求項19】
音響信号を処理する方法を実行するためのプロセッサで実行可能な命令を記憶するコンピュータ読み取り可能な非一時的な電子記憶媒体であって、前記方法は、
音響信号を、該音響信号のサンプリング期間よりも大きい所定期間に対応する個別の時間窓と関連付けられた信号部分に分離し、
前記信号部分を、周波数−チャープ領域に変換し、前記所定の信号の前記周波数−チャープ領域の表現は、前記信号部分についての周波数及び分数チャープ率の関数として変換係数を特定し、前記分数チャープ率は、周波数でチャープ率を割ったものである電子記憶媒体。
【請求項20】
前記方法は、前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第1の音響パラメータをさらに決定する請求項19の電子記憶媒体。
【発明の詳細な説明】
【0001】
本出願は、発明の名称を「スペクトル挙動の変換」とし、2011年3月25日に出願された米国特許仮出願第61/467,493号に基づく優先権を主張する「スペクトル挙動の変換を実行する音響信号処理システム及び方法」を発明の名称として2011年8月8日に出願された米国特許第13/205,424号に基づく優先権を主張する。これらの米国出願は、全て全体として参照により本明細書に組み込まれる。
【技術分野】
【0002】
本発明は、個別の調波音(harmonic sounds)に関連付けされた調波(harmonics)についてチャープ率の調整を利用することにより、調波音の特定、調波音の音響パラメータの決定、及び/または調波音の分類をする音響信号の処理に関する。
【背景技術】
【0003】
音響信号中に表れる調波音とノイズとを区別し、音響信号中に表れる調波音の音響パラメータを決定し、音源に基づいて調波音をグループ化することで音響信号中に表れる調波音を分類し、他の種類の音響の処理を行うように音響信号を処理するシステムが知られている。このようなシステムは、例えば、調波音からなる話し手、人間の言葉による検出、認識及び/または分類に有効でありうる。調波音の音響パラメータの決定及び/または調波音の分類についての従来の方法では、比較的少ない量のノイズ(例えば記録された音響信号に含まれる音響ノイズ、信号ノイズ及びまたは他のノイズ)の存在下で急速に低下しうる。
【0004】
一般的に、従来の音響処理は、時間領域(time domain)から周波数領域(frequency domain)への個別の時間窓(time windows)ごとの音響信号の変換を含む。さらなる処理が実行されうる前に、信号中に表れる音響とノイズとを区別するために周波数領域の信号に、様々な種類の信号処理方法及びアルゴリズムが実行されうる。この処理された信号は、ピッチ、エンベロープ、及び/または他の音響パラメータを決定するように分析されうる。信号中に表れる音響は分類されうる。
【0005】
調波音と(信号中に表れる音波ノイズまたは信号ノイズである)ノイズとを区別するための従来の方法では、調波音と背景雑音とを区別するために信号を「クリーン(clean)」にする試みに達している。残念ながらこれら従来の方法では、ノイズだけでなく、信号中に表れる調波音の情報の損失をもたらす。この情報の損失は、例えば、調波音の音響パラメータの決定、調波音の分類、及び/または他の下流処理のような下流の処理の正確さ及び精密さに影響を与えうる。
【発明の概要】
【0006】
本開示の第1の態様は、音響信号を処理するシステム及び方法に関する。当該処理は、音響信号中に表される個別の調波音の特定、調波音の音響パラメータの決定、音源に基づいた調波音の分類、及び/または他の処理を含みうる。当該処理は、時間領域から周波数−チャープ領域への音響信号(または音響信号の部分)の変換を含みうる。これは、単一の調波音の個々の調波は、調波音を他の(調波の及び/または非調波の)音響及び/またはノイズから区別するための調波音全体にわたる共通の(チャープ率に関連する)ピッチ速度を有していることを利用しうる。
【0007】
音響信号を処理するシステムは、1以上のプロセッサを備えうる。プロセッサは、信号モジュール、時間窓モジュール、変換モジュール、音響モジュール、音響パラメータモジュール、分類モジュール、及び/または他のモジュールの1以上を備えるコンピュータプログラムモジュールを実行しうる。
【0008】
時間窓モジュールは、音響信号を複数の信号部分に分離しうる。音響信号は、個別の時間窓に関連付けされうる。時間窓は、音響信号のサンプリング周期よりも大きい期間に対応しうる。時間窓の1以上のパラメータ(例えば、時間窓関数の種類(例えばガウス関数、ハミング関数)、この関数の幅パラメータ、時間窓の合計長さ、時間窓の時間周期、時間窓の配置及び/または他のパラメータ)は、ユーザの選択、現在の設定値、処理される音響信号、及び/または他の要素に基づいて設定しうる。
【課題を解決するための手段】
【0009】
変換モジュールは、信号部分を周波数−チャープ領域に変換するように構成されうる。変換モジュールは、変換が、信号部分についての周波数及び分数チャープ率の関数として変換係数を特定するように構成しうる。分数チャープ率は、チャープ率を周波数で割ったものとしうる。特定の周波数及び分数チャープレートの組み合わせにおける所定の変換された信号部分の変換係数は、複素変換係数、複素係数の絶対値、または絶対値の2乗を、所定の変換された信号部分に関連付けされた時間窓内の特定の周波数及び分数チャープ率の組み合わせごとに表しうる。
【0010】
変換モジュールは、所定の信号部分にフィルタの組み合わせを適用することにより所定の信号部分の変換が取得されるように構成されうる。フィルタの組み合わせの個別のフィルタは、異なる周波数及びチャープ率の組み合わせに対応しうる。フィルターは、複素指数関数としうる。これにより、実成分及び虚数成分の両方を含むフィルターによって複素係数を直接生成しうる。本明細書において使用する「変換係数」という語は、このような複素係数、複素係数の絶対値、複素係数の絶対値の2乗、及び/または、実数及び/または複素数の他の表現、及び/またはこれらの成分を意味しうるものである。
【0011】
音響モジュールは、信号部分に表れる個別の調波音を特定しうる。この特定には、変換された信号部分に存在するこれらの調波音の調波の寄与の特定が含まれうる。個別の調波音は、調波音のピッチが時間とともに変化するので、ピッチ速度を有しうる。このピッチ速度は、調波音のそれぞれについて大域的であり、任意の調波の第1の調波と分数チャープ率との積として表されうる。従って、(例えば変換された信号部分の時間窓について)任意の時点における分数チャープ率は、調波音の全ての調波と同じになりうる。このことは、個別の調波音の調波の寄与が共通の分数チャープ率の列に沿って周期的に配置される変換係数の最大値として表されるように、周波数−チャープ領域中に表れる。
【0012】
変換された信号部分に存在するノイズが構造化されたものでない(時間とともに変化しない)場合、信号部分に存在するほとんどの(実質的に全部でなくとも)ノイズは、変換された信号部分に表れる調波音の共通する分数チャープ率とは異なる分数チャープ率を有すると考えられる。同様に、複数の調波音が変換された信号部分に表れる場合は、異なる調波音は、異なるピッチ速度を有しうる。これにより、これらの異なる調波音の調和の寄与は、周波数−チャープ領域における異なる分数チャープ率の列に沿って配置されうる。音響モジュールは、変換された信号部分の個別の音響の寄与を特定するこの現象を利用するように構成されうる。例えば音響モジュールは、変換された信号部分における個別の音響の共通の分数チャープ率を特定するように構成されうる。
【0013】
音響パラメータモジュールは、変換された信号部分に基づいて、音響信号中に表れる個別の調波音の1以上の音響パラメータを決定しうる。1以上の音響パラメータは、信号部分ごとに決定されうる。信号部分ごとの音響パラメータの決定は、音響パラメータの時間についての追跡、及び/または、音響パラメータの集計値及び/または集計値に関連付けされた集計メトリックの決定で実行されうる。1以上の音響パラメータは、例えば、ピッチ、ピッチ速度、エンベロープ、及び/または他のパラメータを含みうる。音響パラメータモジュールは、(例えば音響モジュールによって特定されるように)個別の調波音に対応する分数チャープ率に従った周波数情報に対する変換係数の分析に基づいて1以上の音響パラメータを決定しうる。
【0014】
分類モジュールは、変換された信号部分に表される音響を共通の音源に基づいてグループ化するように構成されうる。このグループ化は、変換された信号部分の変換係数の分析を用いて実行されうる。例えば、分類モジュールは、音響パラメータモジュールにより決定された音響のパラメータ、(例えば、ベストチャープ列に沿った変換係数の最大値のベクトルの生成を含む)ベストチャープ列に従った周波数情報に対する変換係数の分析、及び/または他の分析の使用に基づいて音響をグループ化しうる。
【0015】
本発明の上記及び上記以外の目的、特徴、及び性質、並びに構造の関連要素の動作方法及び機能、そして製造における各部分の組み合わせと経済性については、添付図面を参照しつつ以下の詳細な説明と添付の特許請求の範囲を検討することによってさらに明らかになる。これらはいずれも本明細書の一部を構成する。ここで、同様の参照符号は種々の図における対応する部分を表している。添付図面は例示及び説明のためのものであり、本発明の発明特定事項の定義として用いることは意図されていない。本明細書及び特許請求の範囲における用法によれば、単数形の"a"、"an"及び"the"には複数のものへの言及が含まれる。ただし、文脈によってそうでないことが明白である場合はこの限りでない。
【図面の簡単な説明】
【0016】
【
図1】音響信号を処理するシステムを示す図である。
【
図2】音響信号のスペクトログラムを示す図である。
【
図3】周波数−チャープ領域における変換された音響信号のプロットを示す図である。
【
図4】周波数−チャープ領域における変換された音響信号のプロットを示す図である。
【0017】
図1には、音響信号を処理するシステム10が示されている。システム10により実行される処理には、音響信号中に表れる1以上の音響パラメータの決定、共通の音源により生成された音響信号中に表れる音響の特定、及び/または他の処理の実行が含まれうる。システム10は、従来の音響処理システムに対して改良された正確さ及び/または精密さを有することができる。システム10は、従来の音響処理システムでは利用できない音響信号中に表れる音響に関する洞察(insight)の提供及び/または他の強化(enhancement)の提供をなしうる。いくつかの実施形態では、システム10は、1以上のプロセッサ12、電子記憶装置14、ユーザインターフェース16及び/または他のコンポーネントを備えうる。
【0018】
プロセッサ12は、1以上のコンピュータプログラムモジュールを実行するように構成されうる。コンピュータプログラムモジュールは、信号モジュール18、時間窓モジュール20、変換モジュール22、音響モジュール24、音響パラメータモジュール26、分類モジュール28及び/または他のモジュールの1以上を備えうる。
【0019】
信号モジュール18は、処理用の音響信号を取得するように構成されうる。信号モジュール18は、電子記憶装置14から、ユーザインターフェース16(例えばマイクロフォン、トランスデューサー、及び/または他のユーザインターフェースコンポーネント)から、外部音源から、及び/または他のソースから音響信号を取得するように構成することができる。音響信号は、音源及び/またはノイズにより生成される音響を表す電子アナログ及び/または電子デジタル信号を含みうる。本明細書において使用する「音源」という語は、音響を生成する働きをするオブジェクトまたはオブジェクトの組み合わせを意味しうるものである。例えば、ギターのような弦楽器は、協働して音響を生成する複数のオブジェクト(例えば複数の弦、本体、及び/または他のオブジェクト)を備えるものではあるが、単一の音源と考えることができる。同様に、歌手のグループは、協力して音響を生成して単一の調波音を発生する。
【0020】
信号モジュール18は、取得された音響信号が信号強度を時間の関数として特定するように構成されうる。個別の音響信号は、信号強度が表れるサンプリングレートを有しうる。サンプリングレートは、サンプリング周期に対応しうる。音響信号のスペクトル密度は、例えば、スペクトログラム中に表されうる。例として、
図2には、時間−周波数領域におけるスペクトログラム30が示されている。スペクトログラム30においては、信号強度に関連する係数(例えば振幅、エネルギー、及び/または他の係数)は、余域(co-domain)でありうるとともに、(例えば明るい色ほど振幅が大きくなるように)色として表されうる。
【0021】
音響信号において、単一の音響及び/または音源に起因する寄与は、調波の間隔(例えば規則的間隔)で配置されうる。これらの間隔を空けた音響信号への寄与は、「調波」または「倍音」と呼ばれうる。例えば、スペクトログラム30は、第1の音響及び/または音源に関連づけされた(
図2において倍音32としてラベルされた)調波の第1の組み合わせ及び第2の音響及び/または音源に関連づけされた(
図2において倍音34としてラベルされた)調波の第2の組み合わせを含む。第1の音響及び第2の音響は、共通の音源により、または別々の音源により生成されうる。ある時点の音響に対応する所定の倍音の組み合わせの間隔を、その時点の音響の「ピッチ」と呼ぶことがある。
【0022】
再び
図1を参照する。時間窓モジュール20は、音響信号を信号部分に分離するように構成されうる。信号部分は、個別の時間窓と関連づけされうる。時間窓は、時間を通して連続的でもよく、重複していてもよく、間隔を空けていてもよく、他の方法で時間を通して配置することができる。個別の時間窓は、信号部分に分離される音響信号のサンプル周期よりも大きい一定期間に対応しうる。従って、時間窓に関連付けされた信号部分は、複数の信号サンプルを備えうる。
【0023】
時間窓モジュール20により実行される処理のパラメータには、ピーク窓関数(peaked window function)の種類(例えばガウス関数)、この関数の幅(ガウス関数については標準偏差)、窓の合計幅(ガウス関数については典型的には6つの標準偏差の合計値)、時間窓の配置(例えば、連続、重複、間隔を空けている及び/または他の配置)及び/又は他のパラメータが含まれうる。1以上のこれらのパラメータは、ユーザの選択、現在の設定値、処理される音響信号、及び/または他の要素に基づいて設定されうる。一例として、時間窓は、約5ミリ秒及び約50ミリ秒の間、約5ミリ秒及び約30ミリ秒の間、約5ミリ秒及び約15ミリ秒の間、及び/または他の範囲の一定期間に対応しうる。システム10によって音響信号に適用される処理は、信号部分における音響信号の動的性質の主たる要因であるので、時間窓は、従来の音響処理システムよりも大きい時間量に対応しうる。例えば、時間窓は、約15ミリ秒よりも大きい時間量に対応しうる。いくつかの実施形態では、時間窓は、約10ミリ秒に対応しうる。
【0024】
チャープ率変数は、チャープ率から算出されるメトリック(例えば周波数の変化率)としうる。例えば、いくつかの実施形態では、チャープ率変数は、分数チャープ率としうる。分数チャープ率は、
【数1】
として表されうる。式中、χは分数チャープ率を表し、Xはチャープ率を表し、ωは周波数を表す。
【0025】
変換モジュール22で実行される処理は、音響の多次元表現を生成しうる。この多次元表現、即ち「空間(space)」は、周波数及び(分数)チャープ率により定められる定義域を有しうる。多次元表現は、変換係数によって与えられる余域(出力)を有しうる。従って変換モジュール22による変換の実行の際に、変換された信号部分は、変換された信号部分に関連付けされた時間窓について周波数及び分数チャープ率の関数として、変換係数を特定しうる。特定の周波数及び分数チャープ率の組み合わせについての変換係数は、変換された信号部分に関連付けられた時間窓内の特定の周波数及び分数チャープ率の組み合わせについて、変換により直接生成される複素数、この複素数の絶対値またはこの絶対値の2乗を表しうる。
【0026】
例として、
図3には、変換された信号部分についての周波数−チャープ領域におけるチャープ空間36が示されている。
図3において変換係数は、大きさが大きい変換係数は、小さい変換係数よりも明るいものとして描かれるように色によって表されている。周波数は、チャープ空間36の水平軸に沿って表され、分数チャープ率は、チャープ空間36の垂直軸に沿って表されうる。
【0027】
再び
図1を参照する。変換モジュール22は、個別信号部分にフィルターの組み合わせを適用することにより信号部分を変換するように構成されうる。フィルタの組み合わせにおける個別のフィルタは、異なる周波数及びチャープ率変数の組み合わせに対応しうる。一例として、適当なフィルタの組み合わせΨは、
【数2】
として表される。式中、iは虚数を表し、tは時間を表し、fはフィルタの中心周波数を表し、cはフィルタのチャープ率を表し、σは、フィルタの時間窓の標準偏差(例えば幅)を示す。
【0028】
変換モジュール22により適用されるフィルターは、複素指数としうる。これにより、実成分及び虚数成分の両方を含むフィルターによって生成された変換係数となりうる。本明細書において使用する「変換係数」という語は、実成分及び虚数成分の両方を含む複素数、複素数の絶対値、複素数の絶対値の2乗、及び/または複素数の他の表現、及び/またはこれらの成分を意味しうるものである。信号部分へのフィルターの適用は、例えば、信号部分の時間データの内積及び複素数フィルターを得ることにより行われうる。中心周波数及びチャープ率のようなフィルターのパラメータは、ユーザの選択、現在の設定値、処理される音響信号、及び/または他の要素に基づいて設定することができる。
【0029】
音響モジュール24は、信号部分内の個々の音響(例えば調波音)の寄与を特定するように構成されうる。音響モジュール24は、信号部分の周波数−チャープ領域変換の分析に基づいて係る特定を実行しうる。
【0030】
所定の音響がピッチを変更されると、所定の音響の調波の周波数(またはチャープ率)の変化は、ピッチが変化する割合及び調波の現在の周波数の関数として特徴付けられうる。この特徴づけは、n番目の調波について
【数3】
として特徴づけされうる。式中、Δφは、ピッチ(φ)の変化の割合、即ち音響の「ピッチ速度」を表し、X
nはn番目の調波のチャープ率を表し、ω
nはn番目の調波の周波数を表し、ω
1は1番目の調波(例えば基音)の周波数を表す。式(1)及び(2)を参照すると、音響のピッチの変化の割合と、音響のn番目の調波のチャープ率とは、緊密に関連していると見ることができ、式(2)は以下のように書き直すことができる。
【数4】
【0031】
ピッチの変化の割合は、全体として音響を保持して(調波音/音源と考えられる)基本的な調波音の全てを有する音響−幅のパラメータであるので、分数チャープ率は、音響の全ての調和と同じとなりうることが式(3)より推測される。音響モジュール24は、変換された信号部分の個別の音響の寄与を特定するこの現象を利用するように構成されうる。例えば音響モジュール24は、変換された信号部分における個別の音響の共通の分数チャープ率を特定するように構成されうる。
【0032】
例として、再び
図3を参照すると、個別の調波音についての調波にわたる共通の分数チャープ率は、音響の調波の寄与が個別の音響についての共通の分数チャープ率に対応する単一の水平の列に沿って並びうることを意味しうる。この列は、「ベストチャープ列」と呼ばれうる(例えば
図3のベストチャープ列38を参照)。信号部分に現れるノイズが構造化されたものでない(時間とともに変化しない)場合、信号部分に存在するほとんどの(実質的に全部でなくとも)ノイズは、信号部分に表れる音響の共通の分数チャープ率とは異なる分数チャープ率を有すると考えられる。従って、(チャープ列26として例示されるような)変換された信号部分の共通の分数チャープ率の特定は、周波数−チャープ領域に変換されていない信号部分よりもノイズに起因する歪みの影響を受けにくいものとしうる。
【0033】
同様に、単一の信号部分に存在する複数の音響は、これらが異なる分数チャープ率を有するであろうことから、周波数−チャープ領域において区別されうる。
図4には、一例として、周波数−チャープ領域におけるチャープ空間40が示されている。チャープ空間40は、第1の音響に対応する第1のベストチャープ列42及び第2の音響に対応する第2のベストチャープ列44を備えうる。
図4からわかるように、第1の音響及び第2の音響はそれぞれ、同様のピッチを有している。結果として、従来の音響処理方法では、これら2つの区別できる音響の間を特徴付けることが困難でありうる。しかしながら、分数チャープ率に従って分離のおかげで、チャープ空間40は、第1及び第2の音響をそれぞれ分離して表現し、分離された2つの音響の特定が容易となる。
【0034】
再び
図1を参照すると、音響モジュール24は、一以上の様々な方法を使用して変換された信号部分の個別の音響の寄与を特定するように構成されうる。例えば、音響モジュール24は、個別の分数チャープ率に従って変換係数を合計し、これらの合計値における1以上の最大値を、個別の音響に対応するベストチャープ列として特定しうる。他の例としては、音響モジュール24は、(例えば規則的に間隔を空けた変換係数の最大値のような)調波の寄与の存在について個別の分数チャープ率を分析するように構成されうる。いくつかの実施形態においては、音響モジュール24は、発明の名称を「音響信号にわたって音響ピッチを追跡するシステム及び方法」として2011年8月8日に出願された米国特許出願第13/205,483号、及び/または、発明の名称を「調波エンベロープを使用して音響信号にわたる音響ピッチを追跡するシステム及び方法」として2011年8月8日に出願された米国特許第13/205,521号の一方または両方に記載された分析を実行するように構成されうる。これらの米国出願はいずれも全体として参照により本明細書に組み込まれる。
【0035】
音響パラメータモジュール26は、変換された信号部分に表れる1以上の音響のパラメータを決定するように構成されうる。これら1以上のパラメータには、例えば、ピッチ、エンベロープ、ピッチ速度、及び/または他のパラメータが含まれうる。一例として、音響パラメータモジュール26は、従来の音響処理システムが、(例えば高速フーリエ変換(FFT)または短時間フーリエ変換(STFT)を使用して)周波数領域に変換された音響信号を分析するのとほぼ同じ態様で、ベストチャープ列に従って周波数情報に対する変換係数を分析するにより、ピッチ及び/またはエンベロープを決定しうる。周波数情報に対する変換係数の分析は、少なくともベストチャープ列の共通のチャープ率以外のチャープ率を有する変換された信号部分にノイズが存在しないので、改善された正確さ及び/または精密さを提供しうる。音響信号からピッチ及び/またはエンベロープを決定する方法には、周波数領域におけるケプストラム分析及び調和積スペクトル、ゼロ交差回数、時間領域における自己相関及び位相ループ分析、及び/または他の方法の1以上が含まれうる。
【0036】
分類モジュール28は、変換された信号部分に表れる音響を共通する音響音源に基づいてグループ化するように構成されうる。このグループ化は、変換された信号部分の変換係数の分析を用いて実行されうる。例えば、分類モジュール28は、音響パラメータモジュール26により決定された音響のパラメータ、(例えば、ベストチャープ列に沿った変換係数最大値のベクトルの生成を含む)ベストチャープ列に従った周波数情報に対する変換係数の分析、及び/または他の分析の使用に基づいて音響をグループ化しうる。分類モジュール28により実行される分析は、従来の音響処理システムにおいて周波数領域に変換された音響信号に実行される分析と同様の分析または同じ分析とすることができる。周波数領域の音響信号を分析するこれらの方法のいくつかは、例えば、混合ガウスモデル(Gaussian mixture models)、サポートベクターマシン(support vector machines)、バッタチャリャ距離(Bhattacharyya distance)及び/または他の方法を含みうる。以上のようにして、クライアント端末30のユーザは、サーバ10から所望のコンテンツの配信を受けることができ、また、それ以外のコンテンツ共有サービスに含まれる様々なサービスを受けることができる。
【0037】
プロセッサ12は、システム10に情報処理能力を提供するように構成されうる。従って、プロセッサ12は、デジタルプロセッサ、アナログプロセッサ、情報を処理するように設計されたデジタル回路、情報を処理するように設計されたアナログ回路、ステート・マシン及び/または電気的に情報を処理する他のメカニズムの1以上を備えうる。プロセッサ12は、
図1において1つの実体として示されているが、これは単に例示することが目的である。いくつかの実施形態では、プロセッサ12は、複数の処理ユニットを含みうる。これらの処理ユニットは、同じ装置内に物理的に配置されうる。あるいは、プロセッサ12は、協調して動作する複数の装置の処理機能性を表しうる。
【0038】
プロセッサ12は、ソフトウェア、ハードウェア、ファームウェア、ソフトウェア、ハードウェア及び/またはファームウェアのいくつかの組み合わせ、及び/またはプロセッサ12に処理能力を構成する他のメカニズムによりモジュール18、20、22、24、26及び/または28を実行するように構成されうる。モジュール18、20、22、24、26及び/または28は、単一のユニット内に協働で配置されるように
図1に示されているが、当然のことながら、プロセッサ38が複数の処理ユニットを備えるいくつかの実施形態において、モジュール18、20、22、24、26及び/または28の1以上を他のモジュールから遠隔に配置することも可能である。以下に記載する異なるモジュール18、20、22、24、26及び/または28によって提供される機能の説明は、例示を目的としたものであって、本発明はこれらの例示に限定されるものではない。モジュール18、20、22、24、26及び/または28のいずれかが、本明細書に記載されているより多いまたは少ない機能を提供しうる。例えば、モジュール18、20、22、24、26及び/または28の1以上を取り除いてもよく、機能性の一部または全部は、モジュール18、20、22、24、26及び/または28の他の一つによって提供されてもよい。他の例としては、プロセッサ12は、以下のモジュール18、20、22、24、26及び/または28に起因する機能性の一部または全部を実行しうる一以上の追加のモジュールを実行するように構成されうる。
【0039】
一実施形態では、電子記憶装置14は、非一時的電子記憶媒体を備えうる。電子記憶装置14の電子記憶媒体は、システム10と一体的に(即ち実質的に取り外し不可能に)提供されるシステム記憶装置、及び/または、ポート(例えばUSBポート、ファイヤワイヤポート等)またはドライブ(例えばディスクドライブ等)等を介してシステム10に取り外し可能に接続されるリムーバブル記憶装置の両方又は一方を備えうる。電子記憶装置14は、(例えば光学ディスク等の)光学的に読み取り可能な記憶媒体、(例えば磁気テープ、磁気ハードドライブ、フロッピーディスク等の)磁気的に読み取り可能な記憶媒体、(EEPROM、RAM等の)電荷型記憶媒体、(例えばフラッシュドライブ等の)固体記憶媒体、及び/または他の電子的に読み取り可能な記憶媒体を含みうる。電子記憶装置14は、クラウド及び/または仮想プライベートネットワークを介して提供されるストレージリソースのような仮想ストレージリソースを含みうる。電子記憶装置14は、ソフトウェアアルゴリズム、コンピュータプログラムモジュール、プロセッサ12により決定される情報、ユーザインターフェース16を介して受け取る情報、及び/または、システム10を適切に機能させることができる他の情報を記憶しうる。電子記憶装置14は、システム10内の分離したコンポーネントとしうる。または電子記憶装置14は、(例えばプロセッサ12のような)システム14の一以上の他のコンポーネントと一体に提供されうる。
【0040】
ユーザインターフェース16は、システム10と、システム10に情報を提供するとともにシステム10から情報を受け取る1以上のユーザとの間にインターフェースを提供するように構成されうる。この情報は、データ、結果及び/または命令、並びに他の伝達可能な項目または情報を含みうる。例えば、情報は、変換モジュール22、音響モジュール24及び/または音響パラメータモジュール26により生成される分析、結果及び/または他の情報を含みうる。ユーザインタフェース16に含めるのに適したインターフェース装置の一例には、キーパッド、ボタン、スイッチ、キーボード、ノブ、レバー、ディスプレー画面、タッチスクリーン、スピーカー、マイクロフォン、インジケーターライト、警報器及びプリンターが含まれる。
【0041】
有線のまたは無線の他の通信技術も、本発明に用いられるユーザインターフェース16と理解されるべきである。例えば、本発明では、ユーザーインターフェース16は、電子記憶装置14によって提供されるリムーバブルストレージインターフェースと一体としうることが期待される。この例では、情報は、ユーザがシステム10の実行をカスタマイズ可能な(例えばスマートカード、フラッシュドライブ、リムーバブルディスク等の)リムーバブル記憶装置からシステム10内に読み込まれうる。ユーザインターフェース16としてシステム10での使用に適した他の典型的な入力装置及び方法には、RS−232ポート、RFリンク、IRリンク、モデム(電話、ケーブルその他)が含まれるが、これらに限定されない。即ち、本開示においては、システム10と情報を通信するいかなる方法も、ユーザインタフェース16として考えられている。
【0042】
図5には、音響信号の処理方法50が示されている。以下に示す方法50の工程は、説明のためのものである。いくつかの実施形態では、方法50は、詳細な説明で説明されていない一以上の追加の工程を用いて実現することもできるし、説明されている一以上の工程を省略しても実現することができる。さらに、本発明は、
図5に図示され以下で説明される方法50の工程の順番には限定されない。
【0043】
一部の実施形態では、方法50は、1以上の処理装置(例えば、デジタルプロセッサ、アナログプロセッサ、情報を処理するように設計されたデジタル回路、情報を処理するように設計されたアナログ回路、ステートマシン及び/または情報を電気的に処理する他のメカニズム)において実行されうる。一以上の処理装置は、電子記憶媒体に電気的に記憶された命令に応じて方法50の工程のいくつかまたは全部を実行する一以上の装置を備えていてもよい。一以上の処理装置は、方法50の一以上の工程を実行するように特別に設計されたハードウェア、ファームウェア及び/またはソフトウェアを用いるように構成された一以上の装置を備えていてもよい。
【0044】
工程52では、音響信号が取得される。音響信号は、電子記憶装置から、ユーザーインターフェースから及び/または他の音源から取得することができる。音響信号は、音源及び/またはノイズにより生成された音響を表す電子アナログ信号及び/または電子デジタル信号を含みうる。音響信号は、振幅を時間の関数として特定しうる。音響信号は、振幅/周波数が表れるサンプリングレートを有しうる。サンプリングレートは、サンプリング周期に対応しうる。いくつかの実施形態では、(
図1に示すとともに本明細書において説明する)信号モジュール18と同じまたは同様の信号モジュールにより工程52が実行されうる。
【0045】
工程54では、音響信号は、信号部分の組み合わせに分離されうる。信号部分は、個別の時間窓と関連づけされうる。時間窓は、時間を通して連続的でもよく、重複していてもよく、間隔を空けていてもよく、他の方法で時間を通して配置されていてもよい。個別の時間窓は、信号部分に分離される音響信号のサンプル周期よりも大きい一定期間に対応しうる。従って、時間窓に関連付けされた信号部分は、複数の信号サンプルを備えうる。いくつかの実施形態では、(
図1に示すとともに本明細書において説明する)時間窓モジュール20と同じまたは同様の時間窓モジュールにより工程54が実行されうる。
【0046】
工程56では、信号部分は周波数−チャープ領域に変換されうる。周波数―チャープ領域は、周波数及び(分別)チャート率によって定められうる。周波数チャープ領域は、変換係数によって定められる余域(出力)を備えうる。チャープ率変数は、チャープ率から算出されるメトリック(例えば周波数の変化の割合)としうる。従って工程56での変換が実行されると、変換された信号部分は、変換された信号部分に関連付けされた時間窓についての周波数及び分数チャープ率の関数として変換係数を特定しうる。いくつかの実施形態では、(
図1に示すとともに本明細書において説明する)変換モジュール22と同じまたは同様の変換モジュールにより工程56が実行されうる。
【0047】
工程58では、信号部分内の個別の音響が変換された信号部分に基づいて特定されうる。信号部分内の個別の音響の特定は、個別の音響の調波の特定個別の音響の分数チャープ率(例えば個別の音響のベストチャープ列)の特定、及び/または変換された信号部分の個別の音響の他の明示を含みうる。いくつかの実施形態では、工程58は、(
図1に示すとともに本明細書において説明する)音響モジュール24と同じまたは同様の音響モジュールにより工程58が実行されうる。
【0048】
工程60では、工程58で特定された音響の1以上の音響パラメータが決定される。音響パラメータは、ピッチ、ピッチ速度、エンベロープ、及び/または他の音響パラメータの1以上を含みうる。工程60で行われる決定は、変換された信号部分に基づいて行われうる。いくつかの実施形態では、工程60は、(
図1に示すとともに本明細書において説明する)音響パラメータモジュール26と同じまたは同様の音響パラメータモジュール26により実行されうる。
【0049】
工程64では、工程58で特定された音響が分類されうる。音響の分類には、変換された信号部分に表れる音響を共通の音響音源に基づくグループ化することが含まれうる。この分類には、工程60で決定される音響パラメータ、変換された音響信号及び/または他の情報に基づく実行が含まれうる。いくつかの実施形態では、工程64は、(
図1に示すとともに本明細書において説明する)分類モジュール28と同じまたは同様の分類モジュール28により実行される。
【0050】
工程64では、工程52、56、58、60及び/または64の1以上に関する情報が1以上のユーザに提供されうる。このような情報は、変換された信号部分に関する情報、所定の分数チャープ率についての周波数情報に対する変換係数、周波数−チャープ領域中の変換された信号部分の表現、音響部分または音響信号中に表れる音響の1以上の音響パラメータ、音響分類に関する情報、及び/または他の情報を含みうる。このような情報は、(
図1に示すとともに本明細書において説明する)ユーザインターフェース16と同じまたはユーザインターフェース16と同様のユーザインタフェースを介して1以上のユーザに提供されうる。
【0051】
現時点で最も実用的であり好ましいと考えられる態様に基づいて、本開示のシステム及び/または方法を例示のために詳細に説明したが、このような詳細な説明は例示のみを目的としたものである。本開示は開示された実施形態に限定されるものではなく、むしろ添付された特許請求の範囲の趣旨及び範囲に入る変形や均等な配置も本発明に含められることが意図されている。例えば、本発明においては、任意の実施形態の一又は複数の特徴を他の実施形態の一又は複数の特徴と可能な限り結合することができる。