(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-08
(45)【発行日】2023-09-19
(54)【発明の名称】正規化を介して音響信号をフィンガープリンティングするための方法、記憶媒体及び装置
(51)【国際特許分類】
G10L 25/18 20130101AFI20230911BHJP
G10L 25/21 20130101ALI20230911BHJP
G10L 25/51 20130101ALI20230911BHJP
【FI】
G10L25/18
G10L25/21
G10L25/51
(21)【出願番号】P 2021512712
(86)(22)【出願日】2019-09-06
(86)【国際出願番号】 US2019049953
(87)【国際公開番号】W WO2020051451
(87)【国際公開日】2020-03-12
【審査請求日】2021-04-23
(32)【優先日】2018-09-07
(33)【優先権主張国・地域又は機関】FR
(32)【優先日】2019-06-26
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】501112323
【氏名又は名称】グレースノート インコーポレイテッド
(74)【代理人】
【識別番号】100107456
【氏名又は名称】池田 成人
(74)【代理人】
【識別番号】100162352
【氏名又は名称】酒巻 順一郎
(74)【代理人】
【識別番号】100123995
【氏名又は名称】野田 雅一
(72)【発明者】
【氏名】クーバー, ロバート
(72)【発明者】
【氏名】ラフィイ, ザファール
【審査官】中嶋 樹理
(56)【参考文献】
【文献】特表2016-518663(JP,A)
【文献】特表2006-505821(JP,A)
【文献】特表2011-513788(JP,A)
【文献】米国特許出願公開第2014/0310006(US,A1)
【文献】米国特許出願公開第2006/0020958(US,A1)
【文献】米国特許出願公開第2011/0261257(US,A1)
【文献】米国特許第09390719(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/18
G10L 25/21
G10L 25/51
(57)【特許請求の範囲】
【請求項1】
音響フィンガープリンティングのための装置であって、
音響信号を周波数ドメインに変換するための周波数範囲分離手段であって、変換された前記音響信号が、複数の時間周波数ビンを含み、前記複数の時間周波数ビンの各々が、周波数ビンと時間ビンとの交差点に対応し前記音響信号の一部分を含み、該周波数範囲分離手段が
、複数の時間周波数成分を特定するためのものであ
り、前記複数の時間周波数成分のうちの各時間周波数成分が、前記複数の時間周波数ビンからなる一のグループを含む、周波数範囲分離手段と、
対応する
時間周波数成分と関連付けられた前記複数の時間周波数ビン
からなる各グループ
について音響特性を特定するための音響特性特定手段と、
前記音響信号を正規化することにより、複数の正規化エネルギー値を生成するための信号正規化手段であって、前記音響信号の前記正規化が、
前記複数の時間周波数ビンからなる各グループについての前記特定された音響特性に基づいて、
前記複数の時間周波数ビンからなる各グループの前記複数の時間周波数ビンを正規化することを含む、信号正規化手段と、
生成された前記
複数の正規化エネルギー値のうちの1つ
の正規化エネルギー値を選択するための点選択手段と、
選択された前記1つ
の正規化エネルギー値を使用して前記音響信号のフィンガープリントを生成するためのフィンガープリント生成手段と、
を備える、装置。
【請求項2】
前記複数の時間周波数成分は、第1の時間周波数成分および第2の時間周波数成分を含み、
前記第1の時間周波数成分は、高音周波数範囲と関連付けられたエネルギー値を表す
複数の時間周波数ビン
からなる第1のグループを含み、
前記第2の時間周波数成分は、基底周波数範囲と関連付けられたエネルギー値を表す
複数の時間周波数ビン
からなる第2のグループを含む、請求項1に記載の装置。
【請求項3】
音響フィンガープリンティングのための装置であって、
音響信号を周波数ドメインに変換するための周波数範囲分離手段であって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、周波数範囲分離手段と、
前記複数の時間周波数ビンのうちの
時間周波数ビンからなる第1のグループ
の第1の特性を特定するための音響特性特定手段であって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲
み、前記第1の特性が、前記第1のグループに対して特定される、音響特性特定手段と、
前記音響信号を正規化することにより、複数の正規化エネルギー値を生成するための信号正規化手段であって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、信号正規化手段と、
前記
複数の正規化エネルギー値のうちの1つ
の正規化エネルギー値を選択するための点選択手段と、
選択された前記1つ
の正規化エネルギー値を使用して前記音響信号のフィンガープリントを生成するためのフィンガープリント生成手段と、
を備えており、
前記点選択手段がさらに、
前記音響信号の分類を特定し、
前記音響信号の前記分類によって前記
複数の正規化エネルギー値のうちの前記1つの
正規化エネルギー値の選択
に重み付けする、
ためのものである、装置。
【請求項4】
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、請求項3に記載の装置。
【請求項5】
前記音響特性が、
対応する
時間周波数成分と関連付けられた前記複数の時間周波数ビンの平均振幅又は平均エネルギー値のうちの少なくとも一つを含む、請求項1に記載の装置。
【請求項6】
前記点選択手段が、正規化された前記音響信号のエネルギー極値に基づいて
、生成された前記
複数の正規化エネルギー値のうちの前記1つ
の正規化エネルギー値を選択する、請求項1に記載の装置。
【請求項7】
前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項1に記載の装置。
【請求項8】
音響フィンガープリンティングのための方法であって、
音響信号を周波数ドメインに変換するステップであって、変換された前記音響信号が、複数の時間周波数ビンを含み、前記複数の時間周波数ビンの各々が、周波数ビンと時間ビンとの交差点に対応し前記音響信号の一部分を含む、変換するステップと、
複数の時間周波数領域を特定するステップ
であり、前記複数の時間周波数領域のうちの各時間周波数領域が、前記複数の時間周波数ビンからなる一のグループを含む、ステップと、
対応する
時間周波数領域と関連付けられた前記複数の時間周波数ビン
からなる各グループ
について音響特性を特定するステップと、
前記音響信号を正規化することにより、複数の正規化エネルギー値を生成するステップであって、前記音響信号の前記正規化が、
前記複数の時間周波数ビンからなる各グループについての前記特定された音響特性に基づいて、
前記複数の時間周波数ビンからなる各グループの前記複数の時間周波数ビンを正規化することを含む、正規化するステップと、
生成された前記
複数の正規化エネルギー値のうちの1つ
の正規化エネルギー値を選択するステップと、
選択された前記1つ
の正規化エネルギー値を使用して前記音響信号のフィンガープリントを生成するステップと、
を含む、方法。
【請求項9】
前記音響信号を前記周波数ドメインに変換する前記ステップが、前記音響信号に高速フーリエ変換を実施することを含む、請求項8に記載の方法。
【請求項10】
音響フィンガープリンティングのための方法であって、
音響信号を周波数ドメインに変換するステップであって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、変換するステップと、
前記複数の時間周波数ビンのうちの
時間周波数ビンからなる第1のグループ
の第1の特性を特定するステップであって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲
み、前記第1の特性が、前記第1のグループに対して特定される、特定するステップと、
前記音響信号を正規化することにより、複数の正規化エネルギー値を生成するステップであって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、正規化するステップと、
生成された前記
複数の正規化エネルギー値のうちの1つ
の正規化エネルギー値を選択するステップと、
選択された前記1つ
の正規化エネルギー値を使用して前記音響信号のフィンガープリントを生成するステップと、
を含み、
生成された前記
複数の正規化エネルギー値のうちの前記1つ
の正規化エネルギー値を選択する前記ステップが、
前記音響信号の分類を特定することと、
前記音響信号の前記分類によって前記
複数の正規化エネルギー値のうちの前記1つの
正規化エネルギー値の選択
に重み付けすることと、
を含む、方法。
【請求項11】
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、請求項10に記載の方法。
【請求項12】
前記音響特性を特定するステップが
、対応する
時間周波数領域と関連付けられた第1の複数の時間周波数ビンの平均振幅又は平均エネルギー値のうちの少なくとも一つを特定するステップを含む、請求項8に記載の方法。
【請求項13】
生成された前記
複数の正規化エネルギー値のうちの前記1つ
の正規化エネルギー値を選択する前記ステップが、正規化された前記音響信号のエネルギー極値に基づく、請求項8に記載の方法。
【請求項14】
前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項8に記載の方法。
【請求項15】
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令は、実行されると、プロセッサに少なくとも、
音響信号を周波数ドメインに変換することであって、変換された前記音響信号が、複数の時間周波数ビンを含み、前記複数の時間周波数ビンの各々が、周波数ビンと時間ビンとの交差点に対応し前記音響信号の一部分を含む、変換することと、
複数の時間周波数成分を特定すること
であり、前記複数の時間周波数成分のうちの各時間周波数成分が、前記複数の時間周波数ビンからなる一のグループを含む、特定することと、
対応する
時間周波数成分についての前記複数の時間周波数ビン
からなる各グループ
について音響特性を特定することと、
前記音響信号を正規化することにより、複数の正規化エネルギー値を生成することであって、前記音響信号の前記正規化が、
前記複数の時間周波数ビンからなる複数の各グループについての前記特定された音響特性に基づいて、
前記複数の時間周波数ビンからなる各グループの前記複数の時間周波数ビンを正規化することを含む、正規化することと、
生成された前記
複数の正規化エネルギー値のうちの1つ
の正規化エネルギー値を選択することと、
選択された前記1つ
の正規化エネルギー値を使用して前記音響信号のフィンガープリントを生成することと、
を行わせる、非一時的コンピュータ可読記憶媒体。
【請求項16】
前記音響信号を前記周波数ドメインに前記変換することが、前記音響信号に高速フーリエ変換を実施することを含む、請求項15に記載の非一時的コンピュータ可読記憶媒体。
【請求項17】
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令は、実行されると、プロセッサに少なくとも、
音響信号を周波数ドメインに変換することであって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、変換することと、
前記複数の時間周波数ビンのうちの
時間周波数ビンからなる第1のグループ
の第1の特性を特定することであって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲
み、前記第1の特性が、前記第1のグループに対して特定される、特定することと、
前記音響信号を正規化することにより、複数の正規化エネルギー値を生成することであって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、正規化することと、
生成された前記
複数の正規化エネルギー値のうちの1つ
の正規化エネルギー値を選択することと、
前記音響信号の分類を特定することと、
前記音響信号の前記分類によって
、生成された前記
複数の正規化エネルギー値のうちの前記1つの
正規化エネルギー値の選択
に重み付けすることと、
選択された前記1つ
の正規化エネルギー値を使用して前記音響信号のフィンガープリントを生成することと、
を行わせる、非一時的コンピュータ可読記憶媒体。
【請求項18】
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、請求項17に記載の非一時的コンピュータ可読記憶媒体。
【請求項19】
前記命令は、実行されると、前記プロセッサに、
対応する
時間周波数成分と関連付けられた前記複数の時間周波数ビンの平均振幅又は平均エネルギー値のうちの少なくとも一つを特定することにより前記音響特性を特定すること
を行わせる、請求項15に記載の非一時的コンピュータ可読記憶媒体。
【請求項20】
前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、請求項15に記載の非一時的コンピュータ可読記憶媒体。
【請求項21】
生成された前記複数の正規化エネルギー値のうちのそれぞれの値が、前記複数の時間周波数ビンのうちのそれぞれのビンに対応する、請求項15に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【関連出願】
【0001】
[0001]本特許は、2018年9月7日付で出願されたフランス特許出願第1858041号の優先権及び利益を主張する。フランス特許出願第1858041号は、参照によりその全体が本明細書に組み込まれる。
【開示の分野】
【0002】
[0002]本開示は、概して音響(audio、オーディオ)信号に関し、より詳細には、正規化を介して音響信号をフィンガープリンティングするための方法及び装置に関する。
【背景】
【0003】
[0003]音響情報(例えば、音声、発話、音楽など)は、デジタルデータ(例えば、電子、光など)として表現することができきる。捕捉された音響(例えば、マイクロフォンを介して)は、デジタル化し、電子的に記憶し、処理及び/又は分類することができる。音響情報を分類する1つの方法は、音響フィンガープリントを生成することによる。音響フィンガープリントは、音響信号の一部分をサンプリングすることによって作成される音響情報のデジタル要約である。音響フィンガープリントは、歴史的に、音響を識別し、及び/又は、音響真正性を検証するために使用されてきた。
【図面の簡単な説明】
【0004】
【
図1】[0004]
図1は、本開示の教示を実施することができる例示的なシステムの図である。
【0005】
【
図2】[0005]
図2は、
図1の音響プロセッサの例示的な実施態様の図である。
【0006】
【
図3A】[0006]
図3Aは、
図2の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラムを示す図である。
【
図3B】[0006]
図3Bは、
図2の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラムを示す図である。
【0007】
【
図3C】[0007]
図3Cは、
図3A及び
図3Bの未処理のスペクトログラムから
図2の信号正規化手段によって生成される正規化スペクトログラムの一例を示す図である。
【0008】
【
図4】[0008]
図4は、固定音響信号周波数成分に分割されている
図3A及び
図3Bの例示的な未処理のスペクトログラムの図である。
【0009】
【
図5】[0009]
図5は、
図4の固定音響信号周波数成分から
図2の信号正規化手段によって生成される正規化スペクトログラムの一例の図である。
【0010】
【
図6】[0010]
図6は、
図5の正規化スペクトログラムから
図2の点選択手段によって生成される正規化重み付けスペクトログラムの一例の図である。
【0011】
【
図7】[0011]
図7は、
図2の音響プロセッサを実装するために実行することができる機械可読命令を表す流れ図である。
【0012】
【
図9】[0012]
図9は、
図2の音響プロセッサを実装するための
図7及び
図8の命令を実行するように構成されている例示的な処理プラットフォームのブロック図である。
【0013】
[0013]図面は原寸に比例しない。概して、同じ又は同様の部分を指すために、同じ参照符号が、図面及び付随する本明細書全体を通じて使用される。
【詳細な説明】
【0014】
[0014]フィンガープリント又は署名に基づくメディア監視技法は、概して、メディアの実質的に一意のプロキシを生成するために、監視時間間隔中に監視されるメディアの1つ又は複数の固有の特性を利用する。当該プロキシは、署名又はフィンガープリントとして参照され、メディア信号(複数可)(例えば、監視されているメディア提示を形成する音響及び/又はビデオ信号)の任意の態様を表す任意の形態(複数可)(例えば、一連のデジタル値、波形など)をとることができる。署名は、一定の時間間隔にわたって順次収集される一連の署名であり得る。「フィンガープリント」及び「署名」という用語は、本明細書において交換可能に使用され、本明細書においては、メディアの1つ又は複数の固有の特性から生成される、メディアを識別するためのプロキシを意味するものとして定義される。
【0015】
[0015]署名に基づくメディア監視は、一般的に、監視されているメディアデバイスによって出力されるメディア信号(例えば、音響信号及び/又はビデオ信号)を表す署名(複数可)を特定(例えば、生成及び/又は収集)することと、監視されている署名(複数可)を、既知の(例えば、基準)メディアソースに対応する1つ又は複数の基準署名と比較することとを含む。相互相関値、ハミング距離などのような様々な比較基準を評価して、監視されている署名が特定の基準署名と一致するか否かを判定することができる。
【0016】
[0016]監視されている署名と基準署名のうちの1つとの間に一致が見つかった場合、監視されているメディアは、監視されている署名と一致した基準署名によって表される特定の基準メディアに対応するものとして識別することができる。メディアの識別子、提示時間、ブロードキャストチャネルなどのような属性が基準署名について収集されるため、当該属性は、次いで、監視されている署名が基準署名と一致した、監視されているメディアと関連付けることができる。コード及び/又は署名に基づいてメディアを識別するための例示的なシステムは長らく知られており、参照によりその全体が本明細書に組み込まれる、Thomasの米国特許第5,481,294号に最初に開示された。
【0017】
[0017]歴史的に、音響フィンガープリンティング技術は、ある時間区間におけるフィンガープリントを作成するために、音響信号の最も音量の大きい部分(例えば、最もエネルギーの多い部分など)を使用してきた。しかしながら、場合によっては、当該方法にはいくつかの深刻な制限がある。いくつかの例において、音響信号の最も音量の大きい部分は、雑音(例えば、望ましくない音響)と関連付けられる可能性があり、対象の音響に由来するものでない可能性がある。例えば、ユーザが騒がしいレストランにおいて歌曲をフィンガープリンティングするように試行している場合、捕捉される音響信号の最も音量の大きい部分は、レストランの常連客の間の会話である可能性があり、識別されるべき歌曲又はメディアでない可能性がある。当該例において、音響信号のサンプリングされる部分の多くは背景雑音のものであり、音楽のものではなく、生成されるフィンガープリントの有用性を減じる。
【0018】
[0018]以前のフィンガープリンティング技術の別の潜在的な制限は、特に音楽において、低音周波数範囲内の音響が、最も音量の大きい部分である傾向があることである。いくつかの例において、低音周波数エネルギーが支配的になる結果として、音響信号のサンプリングされる部分が主に低音周波数範囲内になる。したがって、既存の方法を使用して生成されるフィンガープリントは通常、特により高い周波数範囲(例えば、高音範囲など)において、署名照合に使用することができる音響スペクトルのすべての部分からのサンプルを含むとは限らない。
【0019】
[0019]本明細書において開示されている例示的な方法及び装置は、平均正規化を使用して音響信号からフィンガープリントを生成することによって、上記課題を克服する。例示的な方法は、周囲音響領域の音響特性によって、音響信号の時間周波数ビンのうちの1つ又は複数を正規化するステップを含む。本明細書において使用される場合、「時間周波数ビン」は、特定の時間(例えば、音響信号に入る3秒)における特定の周波数ビン(例えば、FFTビン)に対応する音響信号の一部分である。いくつかの例において、正規化は、音響信号の音響分類によって重み付けされる。いくつかの例において、フィンガープリントは、正規化時間周波数ビンから点を選択することによって生成される。
【0020】
[0020]本明細書において開示されている別の例示的な方法は、音響信号を2つ以上の音響信号周波数成分に分割するステップを含む。本明細書において使用される場合、「音響信号周波数成分」は、ある周波数範囲及び時間期間に対応する音響信号の一部分である。いくつかの例において、音響信号周波数成分は、複数の時間周波数ビンから構成することができる。いくつかの例において、音響信号周波数成分のいくつかについて、音響特性が特定される。この例において、音響信号周波数成分の各々は、関連する音響特性(例えば、音響平均など)によって正規化される。いくつかの例において、フィンガープリントは、正規化音響信号周波数成分から点を選択することによって生成される。
【0021】
[0021]
図1は、本開示の教示を実施することができる例示的なシステム100である。例示的なシステム100は、例示的な音響源102と、音響源102から音声を捕捉し、捕捉された音声を例示的な音響信号106に変換する例示的なマイクロフォン104とを含む。例示的な音響プロセッサ108が、音響信号106を受信し、例示的なフィンガープリント110を生成する。
【0022】
[0022]例示的な音響源102は、可聴音を放出する。例示的な音響源は、スピーカ(例えば、電気音響変換器など)、実演、会話及び/又は任意の他の適切な音響源であってもよい。例示的な音響源102は、所望の音響(例えば、フィンガープリンティングされるべき音響など)を含み得、また、望ましくない音響(例えば、背景雑音など)も含み得る。図示されている例において、音響源102はスピーカである。他の例において、音響源102は、任意の他の適切な音響源(例えば、人間など)であってもよい。
【0023】
[0023]例示的なマイクロフォン104は、音響源102によって放出される音声を音響信号106に変換する変換器である。いくつかの例において、マイクロフォン104は、コンピュータ、モバイルデバイス(スマートフォン、タブレットなど)、ナビゲーションデバイス又はウェアラブルデバイス(例えば、スマートウォッチ)の構成要素であってもよい。いくつかの例において、マイクロフォンは、音響信号106をデジタル化するための音響-デジタル変換を含むことができる。他の例においては、音響プロセッサ108が音響信号106をデジタル化することができる。
【0024】
[0024]例示的な音響信号106は、音響源102によって放出される音声のデジタル化表現である。いくつかの例において、音響信号106は、音響プロセッサ108によって処理される前にコンピュータに保存することができる。いくつかの例において、音響信号106は、ネットワークを介して例示的な音響プロセッサ108に転送することができる。付加的に又は代替的に、任意の他の適切な方法を使用して、音響を生成することができる(例えば、デジタル合成など)。
【0025】
[0025]例示的な音響プロセッサ108は、例示的な音響信号106を例示的なフィンガープリント110に変換する。いくつかの例において、音響プロセッサ108は、音響信号106を周波数ビン及び/又は時間期間に分割し、次いで、作成された音響信号周波数成分のうちの1つ又は複数の平均エネルギーを特定する。いくつかの例において、音響プロセッサ108は、各時間周波数ビンの周囲の音響領域の関連付けられる平均エネルギーを使用して、音響信号周波数成分を正規化することができる。他の例において、任意の他の適切な音響特性を特定して、各時間周波数ビンを正規化するために使用することができる。いくつかの例において、フィンガープリント110は、正規化音響信号周波数成分の中から最も高いエネルギーを選択することによって生成することができる。付加的に又は代替的に、任意の適切な方法を使用して、フィンガープリント110を生成することができる。音響プロセッサ108の例示的な実施態様が、
図2に関連して下記に説明される。
【0026】
[0026]例示的なフィンガープリント110は、音響信号106を識別及び/又は検証するために使用することができる音響信号106の縮約されたデジタル要約である。例えば、フィンガープリント110は、音響信号106の部分をサンプリングし、当該部分を処理することによって生成することができる。いくつかの例において、フィンガープリント110は、音響信号106の最もエネルギーの高い部分のサンプルを含むことができる。いくつかの例において、フィンガープリント110は、他のフィンガープリントとの比較に使用することができるデータベース内でインデックス付けすることができる。いくつかの例において、フィンガープリント110は、音響信号106を識別する(例えば、いずれの歌曲が再生されているかを特定する)ために使用することができる。いくつかの例において、フィンガープリント110は、音響の真正性を検証するために使用することができる。
【0027】
[0027]
図2は、
図1の音響プロセッサ108の例示的な実施態様である。例示的な音響プロセッサ108は、例示的な周波数範囲分離手段202と、例示的な音響特性特定手段204と、例示的な信号正規化手段206と、例示的な点選択手段208と、例示的なフィンガープリント生成手段210とを含む。
【0028】
[0028]例示的な周波数範囲分離手段202は、音響信号(例えば、
図1のデジタル化音響信号106)を時間周波数ビン及び/又は音響信号周波数成分に分割する。例えば、周波数範囲分離手段202は、高速フーリエ変換(FFT)を音響信号106に対して実施して、音響信号106を周波数ドメインに変換することができる。付加的に、例示的な周波数範囲分離手段202は、変換された音響信号106を2つ以上の周波数ビンに(例えば、ハミング関数、ハン関数などを使用して)分割することができる。当該例において、各音響信号周波数成分は、2つ以上の周波数ビンのうちの1つの周波数ビンと関連付けられる。付加的に又は代替的に、周波数範囲分離手段202は、音響信号106を1つ又は複数の時間期間(例えば、音響の持続時間、6秒区間、1秒区間など)に集約することができる。他の例において、周波数範囲分離手段202は、任意の適切な技法を使用して、音響信号106を変換することができる(例えば、離散フーリエ変換、スライド時間窓フーリエ変換、ウェーブレット変換、離散アダマール変換、離散ウォルシュ・アダマール、離散コサイン変換など)。いくつかの例において、周波数範囲分離手段202は、1つ又は複数のバンドパスフィルタ(BPF)によって実装することができる。いくつかの例において、例示的な周波数範囲分離手段202の出力は、スペクトログラムによって表すことができる。周波数範囲分離手段202の例示的な出力は、
図3A~
図3B及び
図4に関連して下記に論じられる。
【0029】
[0029]例示的な音響特性特定手段204は、音響信号106の一部分(例えば、音響信号周波数成分、時間周波数ビンの周囲の音響領域など)の音響特性を特定する。例えば、音響特性特定手段204は、音響信号周波数成分(複数可)のうちの1つ又は複数の平均エネルギー(例えば、平均パワーなど)を特定することができる。付加的に又は代替的に、音響特性特定手段204は、音響信号の一部分の他の特性(例えば、モードエネルギー、メジアンエネルギー、モードパワー、メジアンエネルギー、平均エネルギー、平均振幅など)を特定してもよい。
【0030】
[0030]例示的な信号正規化手段206は、周囲音響領域の関連付けられる音響特性によって、1つ又は複数の時間周波数ビンを正規化する。例えば、信号正規化手段206は、周囲音響領域の平均エネルギーによって時間周波数ビンを正規化することができる。他の例において、信号正規化手段206は、関連付けられる音響特性によって音響信号周波数成分の一部を正規化する。例えば、信号正規化手段206は、音響信号周波数成分の各時間周波数ビンを、当該音響信号成分と関連付けられる平均エネルギーを使用して正規化することができる。いくつかの例において、信号正規化手段206の出力(例えば、正規化時間周波数ビン、正規化音響信号周波数成分など)は、スペクトログラムとして表すことができる。信号正規化手段206の例示的な出力は、
図3C及び
図5に関連して下記に論じられる。
【0031】
[0031]例示的な点選択手段208は、正規化音響信号から、フィンガープリント110を生成するのに使用される1つ又は複数の点を選択する。例えば、例示的な点選択手段208は、正規化音響信号の複数のエネルギー最大値を選択することができる。他の例において、点選択手段208は、正規化音響の任意の他の適切な点を選択することができる。
【0032】
[0032]付加的に又は代替的に、点選択手段208は、音響信号106の分類に基づいて点の選択に重み付けすることができる。例えば、点選択手段208は、音響信号の分類が音楽である場合、音楽の共通の周波数範囲(例えば、低音、高音など)への点の選択に重み付けすることができる。いくつかの例において、点選択手段208は、音響信号の分類(例えば、音楽、発話、音響効果、広告など)を特定することができる。例示的なフィンガープリント生成手段210は、例示的な点選択手段208によって選択されている点を使用してフィンガープリント(例えば、フィンガープリント110)を生成する。例示的なフィンガープリント生成手段210は、任意の適切な方法を使用して、選択されている点からフィンガープリントを生成することができる。
【0033】
[0033]
図1の音響プロセッサ108を実施する例示的な方法が
図2に示されているが、
図2に示す要素、プロセス、及び/又はデバイスのうちの1つ又は複数は、組合せ、分割、再構成、省略、排除、及び/又は任意の他の方法において実施されてもよい。さらに、例示的な周波数範囲分離手段202、例示的な音響特性特定手段204、例示的な信号正規化手段206、例示的な点選択手段208、例示的なフィンガープリント生成手段210、及び/又は、より一般的に、
図1及び
図2の例示的な音響プロセッサ108は、ハードウェア、ソフトウェア、ファームウェア、並びに/又は、ハードウェア、ソフトウェア、及び/若しくはファームウェアの任意の組合せによって実装されてもよい。したがって、例えば、例示的な周波数範囲分離手段202、例示的な音響特性特定手段204、例示的な信号正規化手段206、例示的な点選択手段208、例示的なフィンガープリント生成手段210、及び/又は、より一般的に、例示的な音響プロセッサ108のいずれかは、1つ若しくは複数のアナログ若しくはデジタル回路(複数可)、論理回路、プログラム可能プロセッサ(複数可)、プログラム可能コントローラ(複数可)、グラフィックスプロセッシングユニット(複数可)(GPU(複数可))、デジタル信号プロセッサ(複数可)(DSP(複数可))、特定用途向け集積回路(複数可)(ASIC(複数可))、プログラム可能論理デバイス(複数可)(PLD(複数可))、及び/又は、フィールドプログラマブル論理デバイス(複数可)(FPLD(複数可))によって実装することができる。純粋にソフトウェア及び/又はファームウェアの実施態様をカバーするように本特許の装置又はシステムの請求項のいずれかを読解するとき、例示的な周波数範囲分離手段202、例示的な音響特性特定手段204、例示的な信号正規化手段206、例示的な点選択手段208、及び例示的なフィンガープリント生成手段210の少なくとも1つは、本明細書によって、ソフトウェア及び/又はファームウェアを含む、メモリ、デジタル多用途ディスク(DVD)、コンパクトディスク(CD)、Blu-ray(登録商標)ディスクなどのような非一時的(non-transitory、ノントランジトリ)コンピュータ可読記憶デバイス又は記憶ディスクを含むものとして明示的に定義される。またさらに、
図1及び
図2の例示的な音響プロセッサ106は、
図2に示すものに加えて、若しくは代わりに、1つ若しくは複数の要素、プロセス、及び/若しくはデバイスを含んでもよく、並びに/又は、示されている要素、プロセス、及びデバイスのいずれかのうちの2つ以上若しくはすべてを含んでもよい。本明細書において使用される場合、変化形を含む「通信している(in communication)」という語句は、直接的な通信、及び/又は、1つ若しくは複数の中間構成要素を通じた間接的な通信を包含し、直接的な物理的(例えば、有線)通信及び/又は常時通信を必要とせず、むしろ付加的に、周期的な間隔、スケジュールされた間隔、非周期的な間隔、及び/又は1回限りのイベントにおける選択的な通信を含む。
【0034】
[0034]
図3A~
図3Bは、
図2の例示的な周波数範囲分離手段によって生成される例示的な未処理のスペクトログラム300を示す。
図3Aの図示されている例において、例示的な未処理のスペクトログラム300は、例示的な第1の音響領域306Aによって囲まれている例示的な第1の時間周波数ビン304Aを含む。
図3Bの図示されている例において、例示的な未処理のスペクトログラムは、例示的な音響領域306Bによって囲まれている例示的な第2の時間周波数ビン304Bを含む。
図3A及び
図3Bの例示的な未処理のスペクトログラム300並びに正規化スペクトログラム302は各々、周波数ビンを示す例示的な垂直軸308と、時間ビンを示す例示的な水平軸310とを含む。
図3A及び
図3Bは、例示的な音響領域306A及び306Bを示しており、当該領域から、正規化音響特性が、音響特性特定手段204によって導出され、信号正規化手段206によって、それぞれ第1の時間周波数ビン304A及び第2の時間周波数ビン304Bを正規化するために使用される。図示されている例において、未処理のスペクトログラム300の各時間周波数ビンが正規化されて、正規化スペクトログラム302が生成される。他の例において、未処理のスペクトログラム300の任意の適切な数の時間周波数ビンを正規化して、
図3Cの正規化スペクトログラム302を生成することができる。
【0035】
[0035]例示的な垂直軸308は、高速フーリエ変換(FFT)によって生成される周波数ビン単位を有し、1024FFTビンの長さを有する。他の例において、例示的な垂直軸308は、任意の他の適切な周波数測定技法(例えば、ヘルツ、別の変換アルゴリズムなど)によって測定されてもよい。いくつかの例において、垂直軸308は、音響信号106の周波数範囲全体を包含する。他の例において、垂直軸308は、音響信号106の一部分を包含し得る。
【0036】
[0036]図示されている例において、例示的な水平軸310は、未処理のスペクトログラム300の、合計11.5秒の長さを有する時間期間を表す。図示されている例において、水平軸310は、64ミリ秒(ms)の間隔を単位として有する。他の例において、水平軸310は、任意の他の適切な単位(例えば、1秒など)で測定されてもよい。例えば、水平軸310は、音響の持続時間全体を包含する。他の例において、水平軸310は、音響信号106の持続時間の一部分を包含し得る。図示されている例において、スペクトログラム300、302の各時間周波数ビンは、64ms×1FFTビンのサイズを有する。
【0037】
[0037]
図3Aの図示されている例において、第1の時間周波数ビン304Aは、未処理のスペクトログラム300の周波数ビンと時間ビンとの交差点、及び、音響信号106の、交差点と関連付けられる部分と関連付けられる。例示的な第1の音響領域306Aは、例示的な第1の時間周波数ビン304Aから外方への所定の距離以内の時間周波数ビンを含む。例えば、音響特性特定手段204は、FFTビンの設定数(例えば、5ビン、11ビンなど)に基づいて第1の音響領域306Aの垂直長さ(例えば、垂直軸308に沿った第1の音響領域306Aの長さ)を特定することができる。同様に、音響特性特定手段204は、第1の音響領域306Aの水平長さ(例えば、水平軸310に沿った第1の音響領域306Aの長さ)を特定することができる。図示されている例において、第1の音響領域306Aは正方形である。代替的に、第1の音響領域306Aは、任意の適切なサイズ及び形状であってもよく、未処理のスペクトログラム300内の時間周波数ビンの任意の適切な組合せ(例えば、時間周波数ビンの任意の適切なグループなど)を含んでもよい。次いで、例示的な音響特性特定手段204は、第1の音響領域306A内に含まれる時間周波数ビンの音響特性(例えば、平均エネルギーなど)を特定することができる。特定された音響特性を使用して、
図2の例示的な信号正規化手段206は、第1の時間周波数ビン304Aの関連付けられる値を正規化することができる(例えば、第1の時間周波数ビン304Aのエネルギーを、第1の音響領域306A内の各時間周波数ビンの平均エネルギーによって正規化することができる)。
【0038】
[0038]
図3Bの図示されている例において、第2の時間周波数ビン304Bは、未処理のスペクトログラム300の周波数ビンと時間ビンとの交差点、及び、音響信号106の、交差点と関連付けられる部分と関連付けられる。例示的な第2の音響領域306Bは、例示的な第2の時間周波数ビン304Bから外方への所定の距離以内の時間周波数ビンを含む。同様に、音響特性特定手段204は、第2の音響領域306Bの水平長さ(例えば、水平軸310に沿った第2の音響領域306Bの長さ)を特定することができる。図示されている例において、第2の音響領域306Bは正方形である。代替的に、第2の音響領域306Bは、任意の適切なサイズ及び形状であってもよく、未処理のスペクトログラム300内の時間周波数ビンの任意の適切な組合せ(例えば、時間周波数ビンの任意の適切なグループなど)を含んでもよい。いくつかの例において、第2の音響領域306Bは、第1の音響領域306Aと重なり合うことができる(例えば、同じ時間周波数ビンの一部を含むことができる、水平軸310上に配置することができる、垂直軸308上に配置することができる、など)。いくつかの例において、第2の音響領域306Bは、第1の音響領域306Aと同じサイズ及び形状にすることができる。他の例において、第2の音響領域306Bは、第1の音響領域306Aと異なるサイズ及び形状にすることができる。次いで、例示的な音響特性特定手段204は、第2の音響領域306Bとともに含まれる時間周波数ビンの音響特性(例えば、平均エネルギーなど)を特定することができる。特定された音響特性を使用して、
図2の例示的な信号正規化手段206は、第2の時間周波数ビン304Bの関連付けられる値を正規化することができる(例えば、第2の時間周波数ビン304Bのエネルギーを、第2の音響領域306B内に位置するビンの平均エネルギーによって正規化することができる)。
【0039】
[0039]
図3Cは、
図3A~
図3Bの未処理のスペクトログラム300の複数の時間周波数ビンを正規化することによって、
図2の信号正規化手段によって生成される正規化スペクトログラム302の一例を示す。例えば、未処理のスペクトログラム300の時間周波数ビンの一部又はすべてを、時間周波数ビン304A及び304Bが正規化された方法と同様の様式で正規化することができる。正規化スペクトログラムを生成するための例示的なプロセス700が、
図7に関連して説明される。
図3Cの結果もたらされる周波数ビンは、この時点において、当該領域の周りの局所領域内の局所平均エネルギーによって正規化されている。結果として、より暗い領域は、それぞれの局所領域内で最もエネルギーの高い領域である。上記によって、フィンガープリントが、通常のより音量の大きい低音周波数範囲に対してエネルギーが低い領域においてさえも、関連する音響特徴を組み込むことが可能になる。
【0040】
[0040]
図4は、固定音響信号周波数成分に分割されている
図3の例示的な未処理のスペクトログラム300を示す。例示的な未処理のスペクトログラム300は、高速フーリエ変換(FFT)を用いて音響信号106を処理することによって生成される。他の例において、任意の他の適切な方法を使用して、未処理のスペクトログラム300を生成することができる。当該例において、未処理のスペクトログラム300は、例示的な音響信号周波数成分402に分割される。例示的な未処理のスペクトログラム400は、
図3の例示的な垂直軸308と、
図3の例示的な水平軸310とを含む。図示されている例において、例示的な音響信号周波数成分402は各々、例示的な周波数範囲408と、例示的な時間期間410とを有する。例示的な音響信号周波数成分402は、例示的な第1の音響信号周波数成分412A及び例示的な第2の音響信号周波数成分412Bを含む。図示されている例において、未処理のスペクトログラム300のより暗い部分は、音響信号106の、エネルギーのより高い部分を表す。
【0041】
[0041]例示的な音響信号周波数成分402は各々、連続する周波数範囲(例えば、周波数ビンなど)と連続する時間期間の固有の組合せと関連付けられる。図示されている例において、音響信号周波数成分402の各々は、等しいサイズの周波数ビン(例えば、周波数範囲408)を有する。他の例において、音響信号周波数成分402の一部又はすべては、異なるサイズの周波数ビンを有してもよい。図示されている例において、音響信号周波数成分402の各々は、等しい持続時間の時間期間(例えば、時間期間410)を有する。他の例において、音響信号周波数成分402の一部又はすべては、異なる持続時間の時間期間を有してもよい。図示されている例において、音響信号周波数成分402は、音響信号106の全体を構成する。他の例において、音響信号周波数成分402は、音響信号106の一部分を含んでもよい。
【0042】
[0042]図示されている例において、第1の音響信号周波数成分412Aは、音響信号106の高音範囲内にあり、可視エネルギー点を有しない。例示的な第1の音響信号周波数成分412Aは、768FFTビンと896FFTビンとの間の周波数ビン、及び、10,024msと11,520msとの間の時間期間と関連付けられる。いくつかの例において、音響信号106の、第1の音響信号周波数成分412A内の部分が存在する。当該例において、音響信号106の音響信号周波数成分412A内の部分は、音響信号106の低音スペクトル内の音響(例えば、第2の音響信号周波数成分412B内の音響など)のエネルギーが相当に高いことに起因して、見えない。第2の音響信号周波数成分412Bは、音響信号106の低音範囲内にあり、可視エネルギー点である。例示的な第2の音響信号周波数成分412Bは、128FFTビンと256FFTビンとの間の周波数ビン、及び、10,024msと11,520msとの間の時間期間と関連付けられる。いくつかの例において、音響信号106の、低音スペクトル内の部分(例えば、第2の音響信号周波数成分412Bなど)は、相当に高いエネルギーを有するため、未処理のスペクトログラム300から生成されるフィンガープリントは、低音スペクトルからの不釣り合いな数のサンプルを含む。
【0043】
[0043]
図5は、
図4の固定音響信号周波数成分から
図2の信号正規化手段によって生成される正規化スペクトログラム500の一例である。例示的な正規化スペクトログラム500は、
図3の例示的な垂直軸308と、
図3の例示的な水平軸310とを含む。例示的な正規化スペクトログラム500は、例示的な音響信号周波数成分502に分割される。図示されている例において、音響信号周波数成分502は各々、例示的な周波数範囲408と、例示的な時間期間410とを有する。例示的な音響信号周波数成分502は、例示的な第1の音響信号周波数成分504A及び例示的な第2の音響信号周波数成分504Bを含む。いくつかの例において、第1の音響信号周波数成分504A及び第2の音響信号周波数成分504Bは、
図3の第1の音響信号周波数成分412A及び第2の音響信号周波数成分412Bと同じ周波数ビン及び時間期間に対応する。図示されている例において、正規化スペクトログラム500のより暗い部分は音響スペクトルの、エネルギーのより高い領域を表す。
【0044】
[0044]例示的な正規化スペクトログラム500は、関連付けられる音響特性によって
図4の各音響信号周波数成分402を正規化することによって未処理のスペクトログラム300を正規化することによって生成される。例えば、音響特性特定手段204は、第1の音響信号周波数成分412A
の音響特性(例えば、平均エネルギーなど)を特定することができる。当該例において、信号正規化手段206は、次いで、特定された音響特性によって第1の音響信号周波数成分412Aを正規化して、例示的な音響信号周波数成分402Aを生成することができる。同様に、例示的な第2の音響信号周波数成分402Bは、第2の音響信号周波数成分412Bと関連付けられる音響特性によって
図4の第2の音響信号周波数成分412Bを正規化することによって生成することができる。他の例において、正規化スペクトログラム500は、音響信号成
分402の一部分を正規化することによって生成することができる。他の例において、任意の他の適切な方法を使用して、例示的な正規化スペクトログラム500を生成することができる。
【0045】
[0045]
図5の図示されている例において、第1の音響信号周波数成分504A(例えば、信号正規化手段206によって処理された後の
図4の第1の音響信号周波数成分412Aなど)は、正規化スペクトログラム500上の可視エネルギー点を有する。例えば、第1の音響信号周波数成分504Aは、第1の音響信号周波数成分412Aのエネルギーによって正規化されているため、音響信号106の以前は隠れていた部分(例えば、第1の音響信号周波数成分412Aと比較したときに)が、正規化スペクトログラム500上では見える。第2の音響信号周波数成分504B(例えば、信号正規化手段206によって処理された後の
図4の第2の音響信号周波数成分412Bなど)は、音響信号106の低音範囲に対応する。例えば、第2の音響信号周波数成分504Bは、第2の音響信号周波数成分412Bのエネルギーによって正規化されているため、可視エネルギー点の量は低減されている(例えば、第2の音響信号周波数成分412Bと比較したときに)。いくつかの例において、正規化スペクトログラム500から生成されるフィンガープリント(例えば、
図1のフィンガープリント110)は、音響スペクトルから、
図4の未処理のスペクトログラム300から生成されるフィンガープリントよりもさらに分散されているサンプルを含む。
【0046】
[0046]
図6は、
図5の正規化スペクトログラム500から
図2の点選択手段によって生成される正規化重み付けスペクトログラム600の一例である。例示的なスペクトログラム600は、
図3の例示的な垂直軸308と、
図3の例示的な水平軸310とを含む。例示的な正規化重み付けスペクトログラム600は、例示的な音響信号周波数成分502に分割される。図示されている例において、例示的な音響信号周波数成分502は各々、例示的な周波数範囲408と、例示的な時間期間410とを有する。例示的な音響信号周波数成分502は、例示的な第1の音響信号周波数成分604A及び例示的な第2の音響信号周波数成分604Bを含む。いくつかの例において、第1の音響信号周波数成分604A及び第2の音響信号周波数成分604Bは、それぞれ
図3の第1の音響信号周波数成分412A及び第2の音響信号周波数成分412Bと同じ周波数ビン及び時間期間に対応する。図示されている例において、正規化重み付けスペクトログラム600のより暗い部分は音響スペクトルの、エネルギーのより高い領域を表す。
【0047】
[0047]例示的な正規化重み付けスペクトログラム600は、正規化スペクトログラム600を、音響信号106の分類に基づいて0~1の範囲の値を用いて重み付けすることによって生成される。例えば、音響信号106が音楽である場合、音響スペクトルの、音楽と関連付けられる領域が、
図2の点選択手段208によって各列に沿って重み付けされる。他の例において、重み付けは、複数の列に適用することができ、0~1の異なる範囲を呈することができる。
【0048】
[0048]
図2の音響プロセッサ108を実装するために実行することができる例示的なハードウェア論理、機械可読命令、ハードウェア実装状態機械、及び/又は、上記の任意の組合せを表す流れ図が、
図7及び
図8に示されている。機械可読命令は、
図9に関連して後述する例示的なプロセッサプラットフォーム900に示すプロセッサ912などのコンピュータプロセッサによって実行するための実行可能プログラム又は実行可能プログラムの一部分であってもよい。プログラムは、CD-ROM、フロッピーディスク、ハードドライブ、DVD、Blu-rayディスク、又はプロセッサ912と関連付けられるメモリなどの非一時的コンピュータ可読記憶媒体に記憶されているソフトウェアにおいて具現化されてもよいが、プログラム全体及び/又はプログラムの部分は、代替的に、プロセッサ912以外のデバイスによって実行されてもよく、及び/又は、ファームウェア若しくは専用ハードウェアにおいて具現化されてもよい。さらに、例示的なプログラムが
図7及び
図8に示す流れ図を参照して説明されているが、代替的に、例示的なオーディオプロセッサ108を実施する多くの他の方法が使用されてもよい。例えば、ブロックを実行する順序は変更されてもよく、及び/又は、説明されているブロックの一部が、変更、排除、若しくは組み合わされてもよい。付加的に又は代替的に、ブロックのいずれか又はすべては、ソフトウェア又はファームウェアを実行することなく対応する動作を実施するように構造化されている1つ又は複数のハードウェア回路(例えば、個別の及び/又は集積アナログ及び/又はデジタル回路、FPGA、ASIC、比較器、演算増幅器(オペアンプ)、論理回路など)によって実施されてもよい。
【0049】
[0049]上記で言及したように、
図7及び
図8の例示的なプロセスは、任意の持続時間にわたって(例えば、長い時間期間にわたって、持続的に、短い瞬間にわたって、一時的なバッファリングにわたって、及び/又は、情報のキャッシングにわたって)情報が記憶されている、ハードディスクドライブ、フラッシュメモリ、読み出し専用メモリ、コンパクトディスク、デジタル多用途ディスク、キャッシュ、ランダムアクセスメモリ、及び/又は、任意の他の記憶デバイス若しくは記憶ディスクなどの、非一時的コンピュータ及び/又は機械可読媒体に記憶されている実行可能命令(例えば、コンピュータ及び/又は機械可読命令)を使用して実施することができる。本明細書において使用される場合、非一時的コンピュータ可読媒体という用語は、任意のタイプのコンピュータ可読記憶デバイス及び/又は記憶ディスクを含み、伝播信号を除外し、伝送媒体を除外するものとして明示的に定義される。
【0050】
[0050]「including(含む)」及び「comprising(備える)」(並びにそのすべての形態及び時制)は本明細書において、非限定的な用語であるものとして使用される。したがって、請求項が、プリアンブルとして又は任意の種類の請求項表記内で任意の形態の「include」又は「comprise」(例えば、comprises、includes、comprising、including、havingなど)を利用するときはいつでも、対応する請求項又は表記の範囲から外れることなく、追加の要素、用語などが存在してもよいことは理解されたい。本明細書において使用される場合、「少なくとも」という語句は、例えば、請求項のプリアンブルなどにおいて移行語として使用されるとき、「comprising」及び「including」という用語などが非限定的であるのと同様に、非限定的である。「及び/又は」という用語は、例えば、A、B、及び/又はCなどの形態で使用されるとき、(1)Aのみ、(2)Bのみ、(3)Cのみ、(4)Bを伴うA、(5)、Cを伴うA、(6)Cを伴うB、並びに(7)B及びCを伴うAなどの、A、B、Cの任意の組合せ又は部分集合を参照する。本明細書において構造、構成要素、物品、物体及び/又は物事を説明する文脈において使用される場合、「A及びBの少なくとも1つ」という語句は、(1)少なくとも1つのA、(2)少なくとも1つのB、並びに(3)少なくとも1つのA及び少なくとも1つのBのうちのいずれかを含む実施態様を参照するように意図されている。同様に、本明細書において構造、構成要素、物品、物体及び/又は物事を説明する文脈において使用される場合、「A又はBの少なくとも1つ」という語句は、(1)少なくとも1つのA、(2)少なくとも1つのB、並びに(3)少なくとも1つのA及び少なくとも1つのBのうちのいずれかを含む実施態様を参照するように意図されている。本明細書においてプロセス、命令、動作、活動及び/又はステップの実施又は実行を説明する文脈において使用される場合、「A及びBの少なくとも1つ」という語句は、(1)少なくとも1つのA、(2)少なくとも1つのB、並びに(3)少なくとも1つのA及び少なくとも1つのBのうちのいずれかを含む実施態様を参照するように意図されている。同様に、本明細書においてプロセス、命令、動作、活動及び/又はステップの実施又は実行を説明する文脈において使用される場合、「A又はBの少なくとも1つ」という語句は、(1)少なくとも1つのA、(2)少なくとも1つのB、並びに(3)少なくとも1つのA及び少なくとも1つのBのうちのいずれかを含む実施態様を参照するように意図されている。
【0051】
[0051]
図7のプロセスは、ブロック702において開始する。ブロック702において、音響プロセッサ108が、デジタル化音響信号106を受信する。例えば、音響プロセッサ108は、マイクロフォン104によって捕捉されている音響(例えば、
図1の音響源102などによって放出されている)を受信することができる。当該例において、マイクロフォンは、音響をデジタル化音響信号106に変換するためのアナログ-デジタル変換器を含むことができる。他の例において、音響プロセッサ108は、データベース(例えば、
図9の揮発性メモリ914、
図9の不揮発性メモリ916、
図9の大容量記憶装置928など)に記憶されている音響を受信することができる。他の例においては、デジタル化音響信号106は、ネットワーク(例えば、インターネットなど)を介して音響プロセッサ108に送信することができる。付加的に又は代替的に、音響プロセッサ108は、任意の他の適切な手段によって音響信号106を受信することができる。
【0052】
[0052]ブロック704において、周波数範囲分離手段202が、音響信号106をウィンドウイングし、音響信号106を周波数ドメインに変換する。例えば、周波数範囲分離手段202は、高速フーリエ変換を実施して、音響信号106を周波数ドメインに変換することができ、ウィンドウイング関数(例えば、ハミング関数、ハン関数など)を実施することができる。付加的に又は代替的に、周波数範囲分離手段202は、音響信号106を2つ以上の時間ビンに集約することができる。上記例において、時間周波数ビンは、周波数ビンと時間ビンとの交差点に対応し、音響信号106の一部分を含む。
【0053】
[0053]ブロック706において、音響特性特定手段204が、正規化するための時間周波数ビンを選択する。例えば、音響特性特定手段204は、
図3Aの第1の時間周波数ビン304Aを選択することができる。いくつかの例において、音響特性特定手段204は、以前に選択されている第1の時間周波数ビンに隣接する時間周波数ビンを選択することができる。
【0054】
[0054]ブロック708において、音響特性特定手段204は、周囲の音響領域の音響特性を特定する。例えば、音響特性特定手段204が第1の時間周波数ビン304Aを選択した場合、音響特性特定手段204は、第1の音響領域306Aの音響特性を特定することができる。いくつかの例において、音響特性特定手段204は、音響領域の平均エネルギーを特定することができる。他の例において、音響特性特定手段204は、任意の他の適切な音響特性(複数可)(例えば、平均振幅など)を特定することができる。
【0055】
[0055]ブロック710において、音響特性特定手段204は、別の時間周波数ビンが選択されるべきであるか否かを判定し、プロセス700はブロック706に戻る。別の時間周波数ビンが選択されるべきでない場合、プロセス700はブロック712に進む。いくつかの例において、ブロック706~710は、未処理のスペクトログラム300のすべての時間周波数ビンが選択されるまで繰り返される。他の例において、ブロック706~710は、任意の適切な回数の反復だけ繰り返すことができる。
【0056】
[0056]ブロック712において、信号正規化手段206が、関連付けられる音響特性に基づいて、各時間周波数ビンを正規化する。例えば、信号正規化手段206は、ブロック708において特定されている関連付けられる音響特性を用いて、ブロック706において選択されている時間周波数ビンの各々を正規化することができる。例えば、信号正規化手段は、それぞれ第1の音響領域306A及び第2の音響領域306Bの音響特性(例えば、平均エネルギー)によって、第1の時間周波数ビン304A及び第2の時間周波数ビン304Bを正規化することができる。いくつかの例において、信号正規化手段206は、時間周波数ビンの正規化に基づいて正規化スペクトログラム(例えば、
図3Cの正規化スペクトログラム302)を生成する。
【0057】
[0057]ブロック714において、点選択手段208が、フィンガープリント生成が音響分類に基づいて重み付けされるべきであるか否かを特定し、プロセス700はブロック716に進む。フィンガープリント生成が音響分類に基づいて重み付けされるべきでない場合、プロセス700はブロック720に進む。ブロック716において、点選択手段208は、音響信号106の音響分類を特定する。例えば、点選択手段208は、ユーザに、音響の分類(例えば、音楽、発話、音響効果、広告など)を示すためのプロンプトを提示することができる。他の例においては、音響プロセッサ108は、音響分類特定アルゴリズムを使用して、音響分類を特定することができる。いくつかの例において、音響分類は、特定の人間の音声、一般的にヒトの発話、音楽、音響効果及び/又は広告であってもよい。
【0058】
[0058]ブロック718において、点選択手段208は、特定された音響分類に基づいて時間周波数ビンに重み付けする。例えば、音響分類が音楽である場合、点選択手段208は、共通して音楽と関連付けられる高音及び低音範囲と関連付けられる音響信号周波数成分に重み付けすることができる。いくつかの例において、音響分類が特定の人間の音声である場合、点選択手段208は、当該人間の音声と関連付けられる音響信号周波数成分に重み付けすることができる。いくつかの例において、信号正規化手段206の出力は、スペクトログラムとして表すことができる。
【0059】
[0059]ブロック720において、フィンガープリント生成手段210が、正規化音響信号のエネルギー極値を選択することによって、音響信号106のフィンガープリント(例えば、
図1のフィンガープリント110)を生成する。例えば、フィンガープリント生成手段210は、1つ又は複数のエネルギー極値(例えば、1つの極値、20の極値など)と関連付けられる周波数、時間ビン及びエネルギーを使用することができる。いくつかの例において、フィンガープリント生成手段210は、正規化音響信号106のエネルギー最大値を選択することができる。他の例において、フィンガープリント生成手段210は、正規化音響信号周波数成分の任意の他の適切な特徴を選択することができる。いくつかの例において、フィンガープリント生成手段210は、音響信号106を表すフィンガープリント110を生成するための任意の適切な手段(例えば、アルゴリズムなど)を利用することができる。フィンガープリント110が生成されると、プロセス700は終了する。
【0060】
[0060]
図8のプロセス800は、ブロック802において開始する。ブロック802において、音響プロセッサ108が、デジタル化音響信号を受信する。例えば、音響プロセッサ108は、音響(例えば、
図1の音響源102などによって放出されている)を受信することができ、マイクロフォン104によって捕捉された。当該例において、マイクロフォンは、音響をデジタル化音響信号106に変換するためのアナログ-デジタル変換器を含むことができる。他の例において、音響プロセッサ108は、データベース(例えば、
図9の揮発性メモリ914、
図9の不揮発性メモリ916、
図9の大容量記憶装置928など)に記憶されている音響を受信することができる。他の例においては、デジタル化音響信号106は、ネットワーク(例えば、インターネットなど)を介して音響プロセッサ108に送信することができる。付加的に又は代替的に、音響プロセッサ108は、任意の適切な手段によって音響信号106を受信することができる。
【0061】
[0061]ブロック804において、周波数範囲分離手段202が、音響信号を2つ以上の音響信号周波数成分(例えば、
図3の音響信号周波数成分402など)に分割する。例えば、周波数範囲分離手段202は、高速フーリエ変換を実施して、音響信号106を周波数ドメインに変換することができ、ウィンドウイング関数(例えば、ハミング関数、ハン関数など)を実施して、周波数ビンを作成することができる。当該例において、各音響信号周波数成分は、上記周波数ビンのうちの1つ又は複数の周波数ビン(複数可)と関連付けられる。付加的に又は代替的に、周波数範囲分離手段202は、音響信号106を2つ以上の時間期間にさらに分割することができる。当該例において、各音響信号周波数成分は、2つ以上の時間期間のうちの1つの時間期間と、2つ以上の周波数ビンのうちの1つの周波数ビンとの固有の組合せに対応する。例えば、周波数範囲分離手段202は、音響信号106を第1の周波数ビン、第2の周波数ビン、第1の時間期間及び第2の時間期間に分割することができる。当該例において、第1の音響信号周波数成分は音響信号106の、第1の周波数ビン及び第1の時間期間内の部分に対応し、第2の音響信号周波数成分は音響信号106の、第1の周波数ビン及び第2の時間期間内の部分に対応し、第3の音響信号周波数成分は音響信号106の、第2の周波数ビン及び第1の時間期間内の部分に対応し、第4の音響信号周波数成分は音響信号106の、第2の周波数ビン及び第2の時間期間内の
部分に
対応する。いくつかの例において、周波数範囲分離手段202の出力は、スペクトルグラフ(例えば、
図3の未処理のスペクトログラム300)として表すことができる。
【0062】
[0062]ブロック806において、音響特性特定手段204が、各音響信号周波数成分の音響特性を特定する。例えば、音響特性特定手段204は、各音響信号周波数成分の平均エネルギーを特定することができる。他の例において、音響特性特定手段204は、任意の他の適切な音響特性(複数可)(例えば、平均振幅など)を特定することができる。
【0063】
[0063]ブロック808において、信号正規化手段206が、音響信号周波数成分と関連付けられる、特定された音響特性に基づいて、各音響信号周波数成分を正規化する。例えば、信号正規化手段206は、各音響信号周波数成分を、当該音響信号周波数成分と関連付けられる平均エネルギーによって正規化することができる。他の例において、信号正規化手段206は、任意の他の適切な音響特性を使用して音響信号周波数成分を正規化することができる。いくつかの例において、信号正規化手段206の出力は、スペクトルグラフ(例えば、
図5の正規化スペクトログラム500)として表すことができる。
【0064】
[0064]ブロック810において、音響特性特定手段204が、フィンガープリント生成が音響分類に基づいて重み付けされるべきであるか否かを特定し、プロセス800はブロック812に進む。フィンガープリント生成が音響分類に基づいて重み付けされるべきでない場合、プロセス800はブロック816に進む。ブロック812において、音響プロセッサ108が、音響信号106の音響分類を特定する。例えば、音響プロセッサ108は、ユーザに、音響の分類(例えば、音楽、発話など)を示すためのプロンプトを提示することができる。他の例においては、音響プロセッサ108は、音響分類特定アルゴリズムを使用して、音響分類を特定することができる。いくつかの例において、音響分類は、特定の人間の音声、一般的にヒトの発話、音楽、音響効果及び/又は広告であってもよい。
【0065】
[0065]ブロック814において、信号正規化手段206が、特定された音響分類に基づいて音響信号周波数成分
に重み付けする。例えば、音響分類が音楽である場合、信号正規化手段206は、音楽の平均スペクトルエンベロープと関連付けられる高音~低音の各周波数位置について、0~1の異なるスケーラ値を用いて各列に沿った音響信号周波数成分
に重み付けすることができる。いくつかの例において、音響分類がヒトの音声である場合、信号正規化手段206は、ヒトの音声のスペクトルエンベロープと関連付けられる音響信号周波数成分
に重み付けすることができる。いくつかの例において、信号正規化手段206の出力は、スペクトルグラフ(例えば、
図6のスペクトログラム600)として表すことができる。
【0066】
[0066]ブロック816において、フィンガープリント生成手段210が、正規化音響信号周波数成分のエネルギー極値を選択することによって、音響信号106のフィンガープリント(例えば、
図1のフィンガープリント110)を生成する。いくつかの例において、フィンガープリント生成手段210は、1つ又は複数のエネルギー極値(例えば、20の極値など)と関連付けられる周波数、時間ビン及びエネルギーを使用することができる。例えば、フィンガープリント生成手段210は、正規化音響信号のエネルギー最大値を選択することができる。他の例において、フィンガープリント生成手段210は、正規化音響信号周波数成分の任意の他の適切な特徴を選択することができる。いくつかの例において、フィンガープリント生成手段210は、音響信号106を表すフィンガープリント110を生成するための別の適切な手段(例えば、アルゴリズムなど)を利用することができる。フィンガープリント110が生成されると、プロセス800は終了する。
【0067】
[0067]
図9は、
図2の音響プロセッサ108を実装するための
図7及び/又は
図8の命令を実行するように構成されている例示的なプロセッサプラットフォーム900のブロック図である。プロセッサプラットフォーム900は、例えば、サーバ、パーソナルコンピュータ、ワークステーション、自己学習マシン(例えば、ニューラルネットワーク)、モバイルデバイス(例えば、携帯電話、スマートフォン、iPad(登録商標)などのタブレット)、個人情報端末(PDA)、インターネット家電、DVDプレーヤ、CDプレーヤ、デジタルビデオレコーダ、Blu-rayプレーヤ、ゲーミングコンソール、パーソナルビデオレコーダ、セットトップボックス、ヘッドセット若しくは他のウェアラブルデバイス、又は任意の他のタイプのコンピューティングデバイスであってもよい。
【0068】
[0068]図示されている例のプロセッサプラットフォーム900は、プロセッサ912を含む。図示されている例のプロセッサプラットフォーム912は、ハードウェアである。例えば、プロセッサ912は、1つ又は複数の集積回路、論理回路、マイクロプロセッサ、GPU、DSP、又は任意の所望のファミリ若しくは製造元からのコントローラによって実装されてもよい。ハードウェアプロセッサは、半導体に基づく(例えば、シリコンに基づく)デバイスであってもよい。当該例において、プロセッサ912は、例示的な周波数範囲分離手段202と、例示的な音響特性特定手段204と、例示的な信号正規化手段206と、例示的な点選択手段208と、例示的なフィンガープリント生成手段210とを実装する。
【0069】
[0069]図示されている例のプロセッサ912は、ローカルメモリ913(例えば、キャッシュ)を含む。図示されている例のプロセッサ912は、バス918を介して、揮発性メモリ914及び不揮発性メモリ916を含む主記憶装置と通信する。揮発性メモリ914は、同期型ダイナミックランダムアクセスメモリ(SDRAM)、ダイナミックランダムアクセスメモリ(DRAM)、RAMBUS(登録商標)ダイナミックランダムアクセスメモリ(RDRAM(登録商標))、及び/又は任意の他のタイプのランダムアクセスメモリデバイスによって実装されてもよい。不揮発性メモリ916は、フラッシュメモリ及び/又は任意の他の所望のタイプのメモリデバイスによって実装されてもよい。主記憶装置914、916へのアクセスは、メモリコントローラによって制御される。
【0070】
[0070]図示されている例のプロセッサプラットフォーム900はまた、インターフェース回路920をも含む。インターフェース回路920は、Ethernet(登録商標)インターフェース、ユニバーサルシリアルバス(USB)、Bluetooth(登録商標)インターフェース、近距離場通信(NFC)インターフェース、及び/又はPCI expressインターフェースなどの、任意のタイプのインターフェース規格によって実装されてもよい。
【0071】
[0071]図示されている例において、1つ又は複数の入力デバイス922が、インターフェース回路920に接続されている。入力デバイス922(複数可)は、ユーザがプロセッサ912にデータ及び/又はコマンドを入力することを可能にする。入力デバイス922(複数可)は、例えば、音響センサ、マイクロフォン、カメラ(静止又はビデオ)、及び/又は音声認識システムによって実装されてもよい。
【0072】
[0072]1つ又は複数の出力デバイス924はまた、図示されている例のインターフェース回路920にも接続されている。出力デバイス924は、例えば、ディスプレイデバイス(例えば、発光ダイオード(LED)、有機発光ダイオード(OLED)、液晶ディスプレイ(LCD)、陰極線管ディスプレイ(CRT)、面内切替型(IPS)ディスプレイ、タッチスクリーンなど)、触覚出力デバイス、プリンタ、及び/又はスピーカによって実装されてもよい。したがって、図示されている例のインターフェース回路920は、典型的には、グラフィックスドライバカード、グラフィックスドライバチップ、及び/又はグラフィックスドライバプロセッサを含む。
【0073】
[0073]図示されている例のインターフェース回路920はまた、送信手段、受信手段、送受信手段、モデム、住居用ゲートウェイ、ワイヤレスアクセスポイント、及び/又は、ネットワーク926を介して外部マシン(例えば、任意の種類のコンピューティングデバイス)とのデータの交換を促進するネットワークインターフェースなどの通信デバイスも含む。通信は、例えば、Ethernet接続、デジタル加入者線(DSL)接続、電話回線接続、同軸ケーブルシステム、衛星システム、見通し線ワイヤレスシステム、携帯電話システムなどを介するものであってもよい。
【0074】
[0074]図示されている例のプロセッサプラットフォーム900はまた、ソフトウェア及び/又はデータを記憶するための1つ又は複数の大容量記憶装置928をも含む。そのような大容量記憶装置928の例は、フロッピーディスクドライブ、ハードドライブディスク、コンパクトディスクドライブ、Blu-rayディスクドライブ、独立ディスク冗長アレイ(RAID)システム、及びデジタル多用途ディスク(DVD)ドライブを含む。
【0075】
[0075]
図6の方法を実施するためのマシン実行可能命令932を、大容量記憶装置928、揮発性メモリ914、不揮発性メモリ916、及び/又は、CD若しくはDVDなどの取り外し可能非一時的コンピュータ可読記憶媒体に記憶することができる。
【0076】
[0076]上記から、フィンガープリントにおいて捕捉される雑音の量を低減する、音響信号のフィンガープリントが作成されることを可能にする例示的な方法及び装置が開示されていることが諒解されよう。付加的に、音響信号のエネルギーのより低い領域から音響をサンプリングすることによって、以前から使用されている音響フィンガープリンティング方法と比較したときに、よりロバストな音響フィンガープリンティングがもたらされる。
【0077】
[0077]特定の例示的な方法、装置、及び製造品が本明細書において開示されているが、本特許がカバーする範囲は上記に限定されない。逆に、本特許は、本特許の特許請求の範囲内に適正に入るすべての方法、装置、及び製造品をカバーする。
[発明の項目]
[項目1]
音響フィンガープリンティングのための装置であって、
音響信号を周波数ドメインに変換するための周波数範囲分離手段であって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、周波数範囲分離手段と、
前記複数の時間周波数ビンのうちの第1のグループの時間周波数ビンの第1の特性を特定するための音響特性特定手段であって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲む、音響特性特定手段と、
前記音響信号を正規化することにより、正規化エネルギー値を生成するための信号正規化手段であって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、信号正規化手段と、
前記正規化エネルギー値のうちの1つを選択するための点選択手段と、
前記正規化エネルギー値のうちの選択された前記1つを使用して前記音響信号のフィンガープリントを生成するためのフィンガープリント生成手段と、
を備える、装置。
[項目2]
前記周波数範囲分離手段がさらに、前記音響信号に高速フーリエ変換を実施するためのものである、項目1に記載の装置。
[項目3]
前記点選択手段がさらに、
前記音響信号の分類を特定し、
前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記1つの前記選択を重み付けする、
ためのものである、項目1に記載の装置。
[項目4]
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、項目3に記載の装置。
[項目5]
前記音響特性特定手段がさらに、前記複数の時間周波数ビンのうちの第2のグループの時間周波数ビンの第2の特性を特定するためのものであり、
前記第2のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第2の時間周波数ビンを囲み、
前記信号正規化手段がさらに、前記第1の特性によって前記第1の時間周波数ビンを正規化するためのものである、項目1に記載の装置。
[項目6]
前記点選択手段が、正規化された前記音響信号のエネルギー極値に基づいて前記正規化エネルギー値のうちの前記1つを選択する、項目1に記載の装置。
[項目7]
前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、項目1に記載の装置。
[項目8]
音響フィンガープリンティングのための方法であって、
音響信号を周波数ドメインに変換するステップであって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、変換するステップと、
前記複数の時間周波数ビンのうちの第1のグループの時間周波数ビンの第1の特性を特定するステップであって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲む、特定するステップと、
前記音響信号を正規化することにより、正規化エネルギー値を生成するステップであって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、正規化するステップと、
前記正規化エネルギー値のうちの1つを選択するステップと、
前記正規化エネルギー値のうちの選択された前記1つを使用して前記音響信号のフィンガープリントを生成するステップと、
を含む、方法。
[項目9]
前記音響信号を前記周波数ドメインに変換する前記ステップが、前記音響信号に高速フーリエ変換を実施することを含む、項目8に記載の方法。
[項目10]
前記正規化エネルギー値のうちの前記1つを選択する前記ステップが、
前記音響信号の分類を特定することと、
前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記1つの前記選択を重み付けすることと、
を含む、項目8に記載の方法。
[項目11]
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、項目10に記載の方法。
[項目12]
前記複数の時間周波数ビンのうちの第2のグループの時間周波数ビンの第2の特性を特定するステップであって、前記第2のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第2の時間周波数ビンを囲む、特定するステップと、
前記第1の特性によって前記第1の時間周波数ビンを正規化するステップと、
をさらに含む、項目8に記載の方法。
[項目13]
前記正規化エネルギー値のうちの前記1つを選択する前記ステップが、正規化された前記音響信号のエネルギー極値に基づく、項目8に記載の方法。
[項目14]
前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、項目8に記載の方法。
[項目15]
命令を含む非一時的コンピュータ可読記憶媒体であって、前記命令は、実行されると、プロセッサに少なくとも、
音響信号を周波数ドメインに変換することであって、変換された前記音響信号が、第1の時間周波数ビンを含む複数の時間周波数ビンを含む、変換することと、
前記複数の時間周波数ビンのうちの第1のグループの時間周波数ビンの第1の特性を特定することであって、前記第1のグループの時間周波数ビンが、前記第1の時間周波数ビンを囲む、特定することと、
前記音響信号を正規化することにより、正規化エネルギー値を生成することであって、前記音響信号の前記正規化が、前記第1の特性によって前記第1の時間周波数ビンを正規化することを含む、正規化することと、
前記正規化エネルギー値のうちの1つを選択することと、
前記正規化エネルギー値のうちの選択された前記1つを使用して前記音響信号のフィンガープリントを生成することと、
を行わせる、非一時的コンピュータ可読記憶媒体。
[項目16]
前記音響信号を前記周波数ドメインに前記変換することが、前記音響信号に高速フーリエ変換を実施することを含む、項目15に記載の非一時的コンピュータ可読記憶媒体。
[項目17]
前記命令は、実行されると、前記プロセッサに、
前記音響信号の分類を特定することと、
前記音響信号の前記分類によって前記正規化エネルギー値のうちの前記1つの前記選択を重み付けすることと、
を行わせる、項目15に記載の非一時的コンピュータ可読記憶媒体。
[項目18]
前記音響信号の前記分類が、音楽、ヒトの発話、音響効果、又は広告のうちの少なくとも1つを含む、項目17に記載の非一時的コンピュータ可読記憶媒体。
[項目19]
前記命令は、実行されると、前記プロセッサに、
前記複数の時間周波数ビンのうちの第2のグループの時間周波数ビンの第2の特性を特定することであって、前記第2のグループの時間周波数ビンが、前記複数の時間周波数ビンのうちの第2の時間周波数ビンを囲む、特定することと、
前記第1の特性によって前記第1の時間周波数ビンを正規化することと、
を行わせる、項目15に記載の非一時的コンピュータ可読記憶媒体。
[項目20]
前記複数の時間周波数ビンの各時間周波数ビンが、(1)前記音響信号の時間期間と、(2)変換された前記音響信号の周波数ビンと、の固有の組合せである、項目15に記載の非一時的コンピュータ可読記憶媒体。