【文献】
Matthew Hoffman, David Blei and Perry Cook,Content-based musical similarity computation using the hierarchical Dirichlet Process,ISMIR 2008,米国,2008年 9月18日
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0013】
本発明の実施形態を、図面を参照することによって、以下に説明する。留意すべきことは、明確さのために、当業者に既知であって、本発明を理解するのに必ずしも必要ない構成要素や処理に関する表現及び説明が、図面及び説明において省略されているということである。
【0014】
当業者が十分理解するであろうように、本発明の態様を、システム(例えば、オンラインのデジタル・メディア・ストア、クラウド・コンピューティング・サービス、ストリーミング・メディア・サービス、通信ネットワーク、若しくは同種のもの)、デバイス(例えば、携帯電話、ポータブル・メディア・プレーヤ、パーソナル・コンピュータ、テレビ受像機セットトップボックス、デジタル・ビデオ・レコーダ、若しくは任意のメディア・プレーヤ)、方法、又はコンピュータプログラム製品として具体化してよい。したがって、本発明の態様は、全体的にハードウェアの実施形態の形をとってよく、全体的にソフトウェアの実施形態(ファームウエア、常駐ソフトウェア、マイクロコードなどを含む)の形をとってよく、あるいは、本書において「回路」「モジュール」又は「システム」と全体に概して呼ぶであろう、ソフトウェア態様及びハードウェア態様を組み合わせている実施形態の形をとってよい。さらに、本発明の態様は、コンピュータ読取可能プログラムコードを有する1又は複数のコンピュータ読取可能媒体において具体化されたコンピュータプログラム製品の形態をとってよく、そのコンピュータ読取可能プログラムコードはコンピュータ読取可能媒体上に具体化される。
【0015】
1又は複数のコンピュータ読取可能媒体のいかなる組み合わせも用いてよい。コンピュータ読取可能媒体は、コンピュータ読取可能信号媒体、又はコンピュータ読取可能記憶媒体であってよい。コンピュータ読取可能記憶媒体は、例えば、電子、磁気、光学式、電磁気、赤外線、若しくは半導体の、システム、装置、若しくはデバイス、又は前述のものの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ読取可能記憶媒体のさらなる具体例(完全には網羅されていないリスト)には、以下のもの、すなわち、1又は複数の線を有する電気的な接続、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読取専用メモリ(ROM)、消去可能プログラマブルROM(EPROM若しくはフラッシュメモリ)、光ファイバ、ポータブルなコンパクトディスク読取専用メモリ(CD-ROM)、光学式記憶デバイス、磁気記憶デバイス、又は前述のものの任意の適切な組み合わせを含むであろう。本書の文脈において、コンピュータ読取可能記憶媒体は、命令実行システム、装置若しくはデバイスが使用するプログラム、又は命令実行システム、装置若しくはデバイスに関連して使用するプログラムを、含む、又は記憶することが可能な、任意の有形の媒体であってよい。
【0016】
コンピュータ読取可能信号媒体には、コンピュータ読取可能プログラムコードを有する伝播されたデータ信号を含んでよく、そのコンピュータ読取可能プログラムコードは、例えば、ベースバンドにおいて、又は搬送波の一部として、その伝播されたデータ信号において具体化される。上記の伝播された信号は、電磁気、光学式、又はそれらの任意の適切な組み合わせを含むがこれらに限定されない、種々の形態のいずれをとってもよい。
【0017】
コンピュータ読取可能信号媒体は、コンピュータ読取可能記憶媒体ではなく、命令実行システム、装置若しくはデバイスが使用するプログラム、又は命令実行システム、装置若しくはデバイスに関連して使用するプログラムを、通信する、伝播する、又は移送することが可能な、任意のコンピュータ読取可能媒体であってよい。
【0018】
コンピュータ読取可能媒体上に具体化されるプログラムコードを、任意の適切な媒体を用いて転送してよく、その任意の適切な媒体には、無線、有線、光ファイバケーブル、RFなど、又は前述のものの任意の適切な組み合わせを含むが、これらに限定されない。
【0019】
本発明の態様の動作を実行するコンピュータプログラムコードを、1又は複数のプログラミング言語の任意の組み合わせで書いてよく、そのプログラミング言語には、Java、Smalltalk、C++又は同種のものなどのオブジェクト指向プログラミング言語と、“C”プログラミング言語又は類似のプログラミング言語などの従来的な手続き型プログラミング言語とを含む。プログラムコードは、スタンドアロンのソフトウェアパッケージとして、全体的にユーザのコンピュータ上で実行してよく、又は部分的にユーザのコンピュータ上で実行してよく、あるいは部分的にユーザのコンピュータ上で実行して部分的にリモートコンピュータ上で実行してよく、あるいは全体的にリモートのコンピュータ又はサーバ上で実行してよい。後半のシナリオにおいて、リモートコンピュータを、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続してよく、あるいはその接続を、外部のコンピュータに対して作成してよい(例えば、インターネットサービスプロバイダを用いてインターネットを経由する)。
【0020】
本発明の態様を、本発明の実施形態による方法、装置(システム)及びコンピュータプログラム製品の、フローチャート図及び/又はブロック図を参照して以下に説明する。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせを、コンピュータプログラム命令によって実施してよいということが、理解されるであろう。これらのコンピュータプログラム命令を、マシンを生み出すために、汎用目的コンピュータ、特定目的コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに与えてよく、したがって、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行する命令は、フローチャート図及び/又はブロック図のブロック又はブロック群において特定される機能/動作を実施する手段を生成する。
【0021】
さらに、これらのコンピュータプログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、又は他のデバイスに特定の方法で機能するように指示することが可能な、コンピュータ読取可能媒体に記憶してよく、したがって、コンピュータ読取可能媒体に記憶された命令は、フローチャート図及び/又はブロック図のブロック又はブロック群において特定される機能/動作を実施する命令を含む製品を生み出す。
【0022】
さらに、コンピュータプログラム命令をコンピュータ、他のプログラム可能な装置、又は他のデバイス上にロードしてよく、一連の動作ステップをコンピュータ、他のプログラム可能な装置、又は他のデバイス上で実行させて、コンピュータで実施される処理を生み出し、したがって、コンピュータ又は他のプログラム可能な装置上で実行する命令は、フローチャート図及び/又はブロック図のブロック又はブロック群において特定される機能/動作を実施する処理を提供する。
【0023】
図1は、本発明の一実施形態によるコンテンツ・コヒーレンスを測定する例示的な装置100を示すブロック図である。
【0024】
図1に示すように、装置100は、類似度計算器101及びコヒーレンス計算器102を含む。
【0025】
会話又は会議における話者の変化の検出及びクラスタリング、ミュージック・ラジオにおける歌曲のセグメンテーション、歌曲における反復境界の微調整、合成のオーディオ信号及びオーディオ検索におけるオーディオ・シーンの検出などの、種々のオーディオ信号処理の用途には、オーディオ信号間のコンテンツ・コヒーレンスを測定することを含みうる。例えば、ミュージック・ラジオにおける歌曲のセグメンテーションという用途において、オーディオ信号は複数のセクションに分割され、それぞれのセクションは一貫性のあるコンテンツを含む。別の例として、会話又は会議における話者の変化の検出及びクラスタリングという用途において、同一の話者に関連付けられるオーディオ・セクションが1つのクラスタに分類され、それぞれのクラスタは一貫性のあるコンテンツを含む。あるオーディオ・セクション内のセグメント間のコンテンツ・コヒーレンスを、そのオーディオ・セクションが一貫性のあるコンテンツを含むかどうかを判断するために、測定してよい。オーディオ・セクション間のコンテンツ・コヒーレンスを、そのオーディオ・セクション内のコンテンツが一貫性があるかどうかを判断するために、測定してよい。
【0026】
本明細書において、用語「セグメント」及び「セクション」の双方は、オーディオ信号の連続的な部分を指す。より大きな部分をより小さな部分に分割するという文脈において、用語「セクション」は、より大きな部分を指し、用語「セグメント」は、より小さな部分のうちの1つを指す。
【0027】
コンテンツ・コヒーレンスを、2つのセグメント(セクション)間の距離値又は類似度値で表してよい。より大きな距離値、又はより小さな類似度値が、より低いコンテンツ・コヒーレンスを示し、より小さな距離値、又はより大きな類似度値が、より高いコンテンツ・コヒーレンスを示す。
【0028】
所定の処理を、装置100が測定した、測定されたコンテンツ・コヒーレンスにしたがって、オーディオ信号に行ってよい。その所定の処理とは、その用途に依存する。
【0029】
オーディオ・セクションの長さが、セグメント化又はグループ化されるべき対象コンテンツのセマンティック・レベルに依存してよい。より高いセマンティック・レベルは、より長い長さのオーディオ・セクションを必要とするであろう。例えば、オーディオ・シーン(例えば、歌曲、天気予報、及びアクション・シーンなど)が大切にされるシナリオにおいて、セマンティック・レベルは高く、より長いオーディオ・セクション間のコンテンツ・コヒーレンスが測定される。より低いセマンティック・レベルは、より短い長さのオーディオ・セクションを必要とするであろう。例えば、基本的なオーディオ様式(例えば、スピーチ、ミュージック及びノイズ)間の境界の検出、並びに話者の変化の検出という用途において、セマンティック・レベルは低く、より短いオーディオ・セクション間のコンテンツ・コヒーレンスが測定される。オーディオ・セクションがオーディオ・セグメントを含む例示的なシナリオにおいて、オーディオ・セクション間のコンテンツ・コヒーレンスはより高いセマンティック・レベルに関連し、オーディオ・セグメント間のコンテンツ・コヒーレンスは、より低いセマンティック・レベルに関連する。
【0030】
第1のオーディオ・セクション内の各オーディオ・セグメントs
i,lについて、類似度計算器101は、第2のオーディオ・セクション内の、K個、ただしK>0、のオーディオ・セグメントs
j,rを決定する。数Kを、先行して、又は動的に決定してよい。決定されたオーディオ・セグメントは、第2のオーディオ・セクション内のオーディオ・セグメントs
j,rのサブセットKNN(s
i,l)を形成する。オーディオ・セグメントs
i,lとKNN(s
i,l)内のオーディオ・セグメントs
j,rとの間のコンテンツ類似度は、オーディオ・セグメントs
i,lと、第2のオーディオ・セクション内の、KNN(s
i,l)内のオーディオ・セグメントを除くすべての他のオーディオ・セグメントと、の間のコンテンツ類似度より高くなる。すなわち、第2のオーディオ・セクション内のオーディオ・セグメントを、オーディオ・セグメントs
i,lとのコンテンツ類似度の降順にソートする場合、最初のK個のオーディオ・セグメントが、セットのKNN(s
i,l)を形成する。用語「コンテンツ類似度」は、用語「コンテンツ・コヒーレンス」と類似の意味を有する。セクションがセグメントを含む文脈において、用語「コンテンツ類似度」は、セグメント間のコンテンツ・コヒーレンスを指し、一方、用語「コンテンツ・コヒーレンス」はセクション間のコンテンツ・コヒーレンスを指す。
【0031】
図2は、第1のオーディオ・セクション内のオーディオ・セグメントs
i,lと、第2のオーディオ・セクション内の、オーディオ・セグメントs
j,rに対応する、KNN(s
i,l)内の決定されたオーディオ・セグメントとの間の、コンテンツ類似度を示す概略図である。
図2において、ブロックがオーディオ・セグメントを表す。第1のオーディオ・セクション及び第2のオーディオ・セクションを互いに隣接するように示しているが、それらは、用途に依存して、別個であってよく、又は種々のオーディオ信号内に位置してよい。さらに、用途に依存して、第1のオーディオ・セクション及び第2のオーディオ・セクションは、同一の長さ又は異なる長さを有してよい。
図2に示すように、第1のオーディオ・セクション内の1つのオーディオ・セグメントs
i,lについて、オーディオ・セグメントs
i,lと、第2のオーディオ・セクション内のオーディオ・セグメントs
j,rとの間の、コンテンツ類似度S(s
i,l,s
j,r)、ただし0<j<M+1、を計算してよく、ここで、Mは、セグメントを単位とした、第2のオーディオ・セクションの長さである。計算されたコンテンツ類似度S(s
i,l,s
j,r)、ただし0<j<M+1、の中から、大きい方からK個の(first K greatest)コンテンツ類似度S(s
i,l,s
j1,r)乃至S(s
i,l,s
jK,r)、ただし0<j1,…,jK<M+1、を決定し、オーディオ・セグメントs
j1,r乃至s
jK,rを決定して、セットのKNN(s
i,l)を形成する。
図2において矢印のついている弧が、オーディオ・セグメントs
i,lと、KNN(s
i,l)内の決定されたオーディオ・セグメントs
j1,r乃至s
jK,rとの間の対応を示す。
【0032】
第1のオーディオ・セクション内の各オーディオ・セグメントs
i,lについて、類似度計算器101は、オーディオ・セグメントs
i,lとKNN(s
i,l)内の決定されたオーディオ・セグメントs
j1,r乃至s
jK,rとの間のコンテンツ類似度S(s
i,l,s
j1,r)乃至S(s
i,l,s
jK,r)の、平均A(s
i,l)を計算する。平均A(s
i,l)は、重み付けされたものであってよく、又は重み付けされていないものであってよい。重み付けされた平均の場合、平均A(s
i,l)は次のように計算される。
【0033】
【数1】
ここで、w
jkは重み付け係数であり、1/Kであってよく、あるいは代替的に、jkとiとの距離がより小さい場合にw
jkがより大きくなり、その距離がより大きい場合にw
jkがより小さくなってよい。
【0034】
第1のオーディオ・セクション及び第2のオーディオ・セクションについて、コヒーレンス計算器102は、コンテンツ・コヒーレンスCohを、平均A(s
i,l)、ただし0<i<N+1、の平均値として計算する。ここで、Nは、セグメントを単位とした、第1のオーディオ・セクションの長さである。コンテンツ・コヒーレンスCohを次のように計算してよい。
【0035】
【数2】
ここで、Nは、オーディオ・セグメントを単位とした、第1のオーディオ・セクションの長さであり、w
iは、重み付け係数であり、例えば1/Nであってよい。さらに、コンテンツ・コヒーレンスCohを、平均A(s
i,l)の最小値又は最大値として計算してよい。
【0036】
ヘリンガー距離、二乗距離、カルバック・ライブラー・ダイバージェンス、及びベイズ情報量基準距離などの種々のメトリックを、コンテンツ類似度S(s
i,l,s
j,r)を計算するために導入してよい。さらに、L.LuやA.Hanjalic.による“Text-Like Segmentation of General Audio for Content-Based Retrieval”、IEEE Trans.on Multimedia、vol.11、no.4、658-669、2009に記載のセマンティック・アフィニティを、コンテンツ類似度S(s
i,l,s
j,r)として計算してもよい。
【0037】
2つのオーディオ・セクションのコンテンツが類似している、種々のケースが存在しうる。例えば、完全なケースにおいて、第1のオーディオ・セクション内の任意のオーディオ・セグメントが、第2のオーディオ・セクション内のオーディオ・セグメントのすべてに類似する。しかしながら、多くの他のケースにおいて、第1のオーディオ・セクション内の任意のオーディオ・セグメントは、第2のオーディオ・セクション内のオーディオ・セグメントの一部に類似する。コンテンツ・コヒーレンスCohを、第1のオーディオ・セクション内のあらゆるセグメントs
i,lと第2のオーディオ・セクション内のいくつかのオーディオ・セグメント、例えばKNN(s
i,l)内のオーディオ・セグメントs
j,rとの間のコンテンツ類似度の平均値として計算することによって、類似するコンテンツのすべてのこれらのケースを識別することが可能となる。
【0038】
装置100のさらなる実施形態において、第1のオーディオ・セクション内のオーディオ・セグメントs
i,lとKNN(s
i,l)のオーディオ・セグメントs
j,rとの間のそれぞれのコンテンツ類似度S(s
i,l,s
j,r)を、L>1において、第1のオーディオ・セクション内の数列[s
i,l,
…,s
i+L-1,l]と第2のオーディオ・セクション内の数列[s
j,r,
…,s
j+L-1,r]との間のコンテンツ類似度として計算してよい。セグメントの2つの数列間のコンテンツ類似度を計算する種々の方法を導入してよい。例えば、数列[s
i,l,
…,s
i+L-1,l]と数列[s
j,r,
…,s
j+L-1,r]との間のコンテンツ類似度(s
i,l,s
j,r)を、次のように計算してよい。
【0039】
【数3】
ここで、w
kは重み付け係数であり、例えば、1/(L-1)に設定してよい。
【0040】
ヘリンガー距離、二乗距離、カルバック・ライブラー・ダイバージェンス、及びベイズ情報量基準距離などの種々のメトリックを、コンテンツ類似度S’(s
i,l,s
j,r)を計算するために導入してよい。さらに、L.LuやA.Hanjalic.による“Text-Like Segmentation of General Audio for Content-Based Retrieval”、IEEE Trans.on Multimedia、vol.11、no.4、658-669、2009に記載のセマンティック・アフィニティを、コンテンツ類似度S’(s
i,l,s
j,r)として計算してもよい。
【0041】
このようにして、2つのオーディオ・セグメント間のコンテンツ類似度を、2つのオーディオ・セグメントからそれぞれ始まる2つの数列間のコンテンツ類似度として計算することによって、時間的情報を構成してよい。結果として、より正確なコンテンツ・コヒーレンスを取得可能となる。
【0042】
さらに、数列[s
i,l,
…,s
i+L-1,l]と数列[s
j,r,
…,s
j+L-1,r]との間のコンテンツ類似度(s
i,l,s
j,r)を、動的時間伸縮法(DTW)スキーム又は動的計画法(DP)スキームを適用することによって、計算してよい。DTWスキーム又はDPスキームは、時間又は速さにおいて変化する可能性がある2つの数列間のコンテンツ類似度を測定するアルゴリズムであり、そのアルゴリズムにおいて最適なマッチング経路が検索され、最終的なコンテンツ類似度がその最適な経路に基づいて算出される。このようにして、起こりうるテンポ/速さの変化を構成してよい。結果として、より正確なコンテンツ・コヒーレンスを取得可能となる。
【0043】
DTWスキームを適用する例において、第1のオーディオ・セクション内の所与の数列[s
i,l,
…,s
i+L-1,l]について、最も良くマッチする数列[s
j,r,
…,s
j+L’-1,r]を、第2のオーディオ・セクション内で、第2のオーディオ・セクション内のオーディオ・セグメントs
j,rから始まるすべての数列をチェックすることによって、決定してよい。次いで、数列[s
i,l,
…,s
i+L-1,l]と数列[s
j,r,
…,s
j+L’-1,r]との間のコンテンツ類似度S(s
i,l,s
j,r)を、次のように計算してよい。
【0044】
【数4】
ここで、DTW([],[])は、DTWに基づく類似度スコアであり、挿入コスト及び削除コストをさらに考慮する。
【0045】
装置100のさらなる実施形態において、対称的コンテンツ・コヒーレンスを計算してよい。このケースにおいて、第2のオーディオ・セクション内の各オーディオ・セグメントs
j,rについて、類似度計算器101は、第1のオーディオ・セクション内のK個のオーディオ・セグメントs
i,lを決定する。決定されたオーディオ・セグメントが、セットKNN(s
j,r)を形成する。オーディオ・セグメントs
j,rとKNN(s
j,r)内のオーディオ・セグメントs
i,lとの間のコンテンツ類似度は、オーディオ・セグメントs
j,rと、第1のオーディオ・セクション内の、KNN(s
j,r)内のオーディオ・セグメントを除くすべての他のオーディオ・セグメントと、の間のコンテンツ類似度より高くなる。
【0046】
第2のオーディオ・セクション内の各オーディオ・セグメントs
j,rについて、類似度計算器101は、オーディオ・セグメントs
j,rとKNN(s
j,r)内の決定されたオーディオ・セグメントs
i1,l乃至s
iK,lとの間のコンテンツ類似度S(s
j,r,s
i1,l)乃至S(s
j,r,s
iK,l)の、平均A(s
j,r)を計算する。平均A(s
j,r)は、重み付けされたものであってよく、又は重み付けされていないものであってよい。
【0047】
第1のオーディオ・セクション及び第2のオーディオ・セクションについて、コヒーレンス計算器102は、コンテンツ・コヒーレンスCoh’を、平均A(s
j,r)、ただし0<j<N+1、の平均値として計算する。ここで、Nは、セグメントを単位とした、第2のオーディオ・セクションの長さである。さらに、コンテンツ・コヒーレンスCoh’を、平均A(s
j,r)の最小値又は最大値として計算してよい。さらに、コヒーレンス計算器102は、コンテンツ・コヒーレンスCoh及びコンテンツ・コヒーレンスCoh’に基づいて、最終的な対称的コンテンツ・コヒーレンスを計算する。
【0048】
図3は、本発明の一実施形態によるコンテンツ・コヒーレンスを測定する例示的な方法300を示すフローチャートである。
【0049】
方法300において、所定の処理を、測定されたコンテンツ・コヒーレンスにしたがってオーディオ信号に実行する。その所定の処理は、その用途に依存する。オーディオ・セクションの長さは、セグメント化又はグループ化されるべき対象コンテンツのセマンティック・レベルに依存してよい。
【0050】
図3に示すように、方法300はステップ301から始まる。ステップ303において、第1のオーディオ・セクション内の1つのオーディオ・セグメントs
i,lについて、第2のオーディオ・セクション内の、K個、ただしK>0、のオーディオ・セグメントs
j,rを決定する。数Kを、先行して、又は動的に決定してよい。決定されたオーディオ・セグメントは、セットKNN(s
i,l)を形成する。オーディオ・セグメントs
i,lとKNN(s
i,l)内のオーディオ・セグメントs
j,rとの間のコンテンツ類似度は、オーディオ・セグメントs
i,lと、第2のオーディオ・セクション内の、KNN(s
i,l)内のオーディオ・セグメントを除くすべての他のオーディオ・セグメントと、の間のコンテンツ類似度より高くなる。
【0051】
ステップ305において、オーディオ・セグメントs
i,lについて、オーディオ・セグメントs
i,lと、KNN(s
i,l)内の決定されたオーディオ・セグメントs
j1,r乃至s
jK,rとの間のコンテンツ類似度S(s
i,l,s
j1,r)乃至S(s
i,l,s
jK,r)の、平均A(s
i,l)を計算する。平均A(s
i,l)は、重み付けされたものであってよく、又は重み付けされていないものであってよい。
【0052】
ステップ307において、第1のオーディオ・セクションに、まだ処理されていない別のオーディオ・セグメントs
k,lが存在するかどうかを判定する。もしそうである場合、方法300はステップ303に戻って、別の平均A(s
k,l)を計算する。もしそうでない場合、方法300はステップ309へと進む。
【0053】
ステップ309において、第1のオーディオ・セクション及び第2のオーディオ・セクションについて、コンテンツ・コヒーレンスCohを、平均A(s
i,l)、ただし0<i<N+1、の平均値として計算する。ここで、Nは、セグメントを単位とした、第1のオーディオ・セクションの長さである。さらに、コンテンツ・コヒーレンスCohを、平均A(s
i,l)の最小値又は最大値として計算してよい。
【0054】
ステップ311において、方法300は終了する。
【0055】
方法300のさらなる実施形態において、第1のオーディオ・セクション内のオーディオ・セグメントs
i,lとKNN(s
i,l)のオーディオ・セグメントs
j,rとの間のそれぞれのコンテンツ類似度S(s
i,l,s
j,r)を、L>1において、第1のオーディオ・セクション内の数列[s
i,l,
…,s
i+L-1,l]と、第2のオーディオ・セクション内の数列[s
j,r,
…,s
j+L-1,r]との間のコンテンツ類似度として計算してよい。
【0056】
さらに、数列[s
i,l,
…,s
i+L-1,l]と数列[s
j,r,
…,s
j+L-1,r]との間のコンテンツ類似度S(s
i,l,s
j,r)を、動的時間伸縮法(DTW)スキーム又は動的計画法(DP)スキームを適用することによって、計算してよい。DTWスキームを適用する例において、第1のオーディオ・セクション内の所与の数列[s
i,l,
…,s
i+L-1,l]について、最も良くマッチする数列[s
j,r,
…,s
j+L’-1,r]を、第2のオーディオ・セクション内で、第2のオーディオ・セクション内のオーディオ・セグメントs
j,rから始まるすべての数列をチェックすることによって、決定してよい。次いで、数列[s
i,l,
…,s
i+L-1,l]と数列[s
j,r,
…,s
j+L’-1,r]との間のコンテンツ類似度S(s
i,l,s
j,r)を、式(4)によって計算してよい。
【0057】
図4は、方法300のさらなる実施形態による、コンテンツ・コヒーレンスを測定する例示的な方法400を示すフローチャートである。
【0058】
方法400において、ステップ401、403、405、409及び411は、それぞれ、ステップ301、303、305、309及び311と同一の機能を有し、ここでは詳細には説明しないこととする。
【0059】
ステップ409の後、方法400はステップ423へと進む。
【0060】
ステップ423において、第2のオーディオ・セクション内の1つのオーディオ・セグメントs
j,rについて、第1のオーディオ・セクション内のK個のオーディオ・セグメントs
i,lを決定する。その決定されたオーディオ・セグメントは、セットKNN(s
j,r)を形成する。オーディオ・セグメントs
j,rとKNN(s
j,r)内のオーディオ・セグメントs
i,lとの間のコンテンツ類似度は、オーディオ・セグメントs
j,rと、第1のオーディオ・セクション内の、KNN(s
j,r)内のオーディオ・セグメントを除くすべての他のオーディオ・セグメントと、の間のコンテンツ類似度より高くなる。
【0061】
ステップ425において、オーディオ・セグメントs
j,rについて、オーディオ・セグメントs
j,rとKNN(s
j,r)内の決定されたオーディオ・セグメントs
i1,l乃至s
iK,lとの間のコンテンツ類似度S(s
j,r,s
i1,l)乃至S(s
j,r,s
iK,l)の、平均A(s
j,r)を計算する。平均A(s
j,r)は、重み付けされたものであってよく、又は重み付けされていないものであってよい。
【0062】
ステップ427において、第2のオーディオ・セクションに、まだ処理されていない別のオーディオ・セグメントs
k,rが存在するかどうかを判定する。もしそうである場合、方法400はステップ423に戻って、別の平均A(s
k,r)を計算する。もしそうでない場合、方法400はステップ429へと進む。
【0063】
ステップ429において、第1のオーディオ・セクション及び第2のオーディオ・セクションについて、コンテンツ・コヒーレンスCoh’を、平均A(s
j,r)、ただし0<i<N+1、の平均値として計算する。ここで、Nは、セグメントを単位とした、第2のオーディオ・セクションの長さである。さらに、コンテンツ・コヒーレンスCoh’を、平均A(s
j,r)の最小値又は最大値として計算してよい。
【0064】
ステップ431において、最終的な対称的コンテンツ・コヒーレンスを、コンテンツ・コヒーレンスCoh及びコンテンツ・コヒーレンスCoh’に基づいて計算する。そして、方法400はステップ411において終了する。
【0065】
図5は、実施形態による類似度計算器501の例を示すブロック図である。
【0066】
図5に示すように、類似度計算器501は、特徴生成器521、モデル生成器522及び類似度計算ユニット523を含む。
【0067】
計算すべきコンテンツ類似度について、特徴生成器521は、関連するオーディオ・セグメントから第1の特徴ベクトルを抽出する。
【0068】
モデル生成器522は、その特徴ベクトルからコンテンツ類似度を計算する、統計的モデルを生成する。
【0069】
類似度計算ユニット523は、その生成された統計的モデルに基づいて、コンテンツ類似度を計算する。
【0070】
2つのオーディオ・セグメント間のコンテンツ類似度の計算において、種々のメトリックを導入してよく、KLD、ベイズ情報量基準(BIC)、ヘリンガー距離、二乗距離、ユークリッド距離、コサイン距離及びマハラノビス距離を含むが、これらに限定されない。メトリックの計算は、オーディオ・セグメントから統計的モデルを生成することと、その統計的モデル間の類似度を計算することとを含んでよい。その統計的モデルは、ガウス分布に基づいてよい。
【0071】
さらに、同一の特徴ベクトルにおける特徴値のすべてが非負であるところの特徴ベクトルを抽出し、オーディオ・セグメントから特徴ベクトルの合計を持つことが、可能である(シンプレックス特徴ベクトル(simplex feature vectors)という)。この種の特徴ベクトルは、ガウス分布よりもディリクレ分布に従う。シンプレックス特徴ベクトルの例には、サブバンド特徴ベクトル(すべてのサブバンドの、全体のフレームエネルギーに対するエネルギー比から成る)と、12次元ベクトルとして一般に定義され、各次元が半音クラスの強度に対応する、クロマ特徴とを含むが、これらに限定されない。
【0072】
類似度計算器501のさらなる実施形態において、2つのオーディオ・セグメント間で計算すべきコンテンツ類似度について、特徴生成器521は、オーディオ・セグメントからシンプレックス特徴ベクトルを抽出する。そのシンプレックス特徴ベクトルを、モデル生成器522に供給する。
【0073】
それに応じて、モデル生成器522は、シンプレックス特徴ベクトルから、ディリクレ分布に基づいて、コンテンツ類似度を計算する統計的モデルを生成する。その統計的モデルを、類似度計算ユニット523に供給する。
【0074】
特徴ベクトルx(オーダd≧2)のディリクレ分布を、パラメータα
1,…,α
d>0を用いて、次のように表してよい。
【0075】
【数5】
ここで、Γ()はガンマ関数であり、特徴ベクトルxは次のシンプレックス特性を満たす。
【0076】
【数6】
シンプレックス特性を、例えばL1正規化又はL2正規化などの、特徴正規化によって達成してよい。
【0077】
種々の方法を、統計的モデルのパラメータを推定するために導入してよい。例えば、ディリクレ分布のパラメータを、最大尤度(ML)法によって推定してよい。同様にして、ディリクレ混合モデル(DMM)を、より複雑な特徴分布を処理するために、推定してもよい。
【0078】
【数7】
そのディリクレ混合モデルは、式(7)のように、本質的に複数のディリクレ・モデルの混合である。
【0079】
それに応じて、類似度計算ユニット523は、生成された統計的モデルに基づいて、コンテンツ類似度を計算する。
【0080】
類似度計算ユニット523のさらなる例において、ヘリンガー距離を導入して、コンテンツ類似度を計算する。
【0081】
【数8】
この場合、2つのオーディオ・セグメントからそれぞれ生成される2つのディリクレ分布Dir(α)とDir(β)との間のヘリンガー距離D(α,β)を、式(8)のように計算してよい。
【0082】
あるいは、二乗距離を採用して、コンテンツ類似度を計算する。
【0083】
【数9】
この場合、2つのオーディオ・セグメントからそれぞれ生成される2つのディリクレ分布Dir(α)とDir(β)との間の二乗距離D
sを、式(9)のように計算してよい。
【0084】
例えば、メル周波数ケプストラム係数(MFCC)、スペクトルの流束及び輝度などの特徴を導入する場合、シンプレックス特性を有していない特徴ベクトルを抽出してもよい。さらに、これらの非シンプレックス特徴ベクトルを、シンプレックス特徴ベクトルに変換することが可能である。
【0085】
類似度計算器501のさらなる例において、特徴生成器521は、オーディオ・セグメントから非シンプレックス特徴ベクトルを抽出してよい。非シンプレックス特徴ベクトルのそれぞれについて、特徴生成器521は、非シンプレックス特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算してよい。さらに、その基準ベクトルは、非シンプレックス特徴ベクトルでもある。j=1,…,MにおいてM個の基準ベクトルz
jが存在すると仮定すると、Mは特徴生成器521が生成すべきシンプレックス特徴ベクトルの次元の数に等しい。1つの非シンプレックス特徴ベクトルと1つの基準ベクトルとの間の関係を測定する、ある量v
jが、その非シンプレックス特徴ベクトルとその基準ベクトルとの間の関連の度合を指す。その関係を、非シンプレックス特徴ベクトルに対して基準ベクトルを観測することによって取得される種々の特徴において、測定してよい。非シンプレックス特徴ベクトルに対応する量のすべてが正規化され、シンプレックス特徴ベクトルvを形成してよい。
【0086】
例えば、その関係は、次の
1)非シンプレックス特徴ベクトルと基準ベクトルとの間の距離
2)非シンプレックス特徴ベクトルと基準ベクトルとの間の相関又は相互の積(inter-product)
3)関連する証拠として非シンプレックス特徴ベクトルを用いた基準ベクトルの事後確率
のうちの1つであってよい。
【0087】
距離のケースにおいて、非シンプレックス特徴ベクトルxと基準ベクトルz
jとの間の距離として量v
jを計算し、次いで、式(10)のように、取得された距離を1に正規化することが、可能である。
【0088】
【数10】
ここで、|| ||は、ユークリッド距離を表す。
【0089】
統計的又は確率的な方法を、関係を測定するために適用してもよい。事後確率のケースにおいて、各基準ベクトルが数種類の分布によってモデル化されていると仮定すると、シンプレックス特徴ベクトルを、式(11)のように計算してよい。
【0090】
【数11】
ここで、p(x|z
j)は、基準ベクトルz
jを所与とした、非シンプレックス特徴ベクトルxの確率を表す。
【0091】
【数12】
事前のp(z
j)が一様に分布していることを前提とすると、確率p(z
j|x)を、式(12)のように計算してよい。
【0092】
基準ベクトルを生成する代替的な方法が存在しうる。
【0093】
例えば、1つの方法が、基準ベクトルとして複数のベクトルをランダムに生成することであり、ランダム・プロジェクションの方法に類似する。
【0094】
別の例として、1つの方法が教師なしクラスタリング(unsupervised clustering)であり、その場合、訓練サンプルから抽出された訓練ベクトルをクラスタへとグループ化し、基準ベクトルはそのクラスタをそれぞれ表すように計算される。この方法において、それぞれの取得されたクラスタを、基準ベクトルと見なしてよく、その中心又は分布によって表してよい(例えば、その平均及び共分散を用いることによるガウス分布など)。K平均法及びスペクトラル・クラスタリングなどの、種々のクラスタリング方法を導入してよい。
【0095】
別の例として、1つの方法が教師ありモデリングであり、その場合、各基準ベクトルを、手動で収集されたデータのセットから手動で定義及び学習する。
【0096】
別の例として、1つの方法が固有値分解であり、その場合、行として訓練ベクトルを有するマトリクスの固有ベクトルとして、基準ベクトルを計算する。主成分分析(PCA)、独立成分解析(ICA)、及び線形判別分析(LDA)などの一般的な統計的手法を導入してよい。
【0097】
図6は、統計的モデルを導入することによってコンテンツ類似度を計算する例示的な方法600を示すフローチャートである。
【0098】
図6に示すように、方法600は、ステップ601から始まる。ステップ603において、2つのオーディオ・セグメント間で計算すべきコンテンツ類似度用に、特徴ベクトルをオーディオ・セグメントから抽出する。ステップ605において、コンテンツ類似度を計算する統計的モデルを、特徴ベクトルから生成する。ステップ607において、コンテンツ類似度を、生成された統計的モデルに基づいて計算する。方法600は、ステップ609で終了する。
【0099】
方法600のさらなる実施形態において、ステップ603において、シンプレックス特徴ベクトルを、オーディオ・セグメントから抽出する。
【0100】
ステップ605において、ディリクレ分布に基づく統計的モデルを、そのシンプレックス特徴ベクトルから生成する。
【0101】
方法600のさらなる例において、ヘリンガー距離を導入して、コンテンツ類似度を計算する。あるいは、二乗距離を導入して、コンテンツ類似度を計算する。
【0102】
方法600のさらなる例において、非シンプッレクス特徴ベクトルを、オーディオ・セグメントから抽出する。非シンプレックス特徴ベクトルのそれぞれについて、非シンプッレクス特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算する。非シンプレックス特徴ベクトルに対応する量のすべてが正規化され、シンプレックス特徴ベクトルvを形成してよい。その関係及び基準ベクトルに関するさらなる詳細は
図5と関連して説明しているため、ここでは詳細には説明しないこととする。
【0103】
種々の分布を、コンテンツ・コヒーレンスを測定するために適用してよく、一方、種々の分布に対するメトリックを、共に組み合わせてよい。単に重み付けされた平均を用いることから、統計的モデルを用いることまで、種々の組み合わせ方法が可能である。
【0104】
コンテンツ・コヒーレンスを計算する基準は、
図2に関連して説明した基準に限定されなくてよい。他の基準を導入してもよく、例えば、L.LuやA.Hanjalic.による“Text-Like Segmentation of General Audio for Content-Based Retrieval”、IEEE Trans.on Multimedia、vol.11、no.4、658-669、2009に記載の基準を導入してよい。この場合、
図5及び
図6に関連して説明したコンテンツ類似度を計算する方法を導入してよい。
【0105】
図7は、本発明の態様を実施する例示的なシステムを示すブロック図である。
【0106】
図7において、中央処理装置(CPU)701が、読取専用メモリ(ROM)702に記憶されたプログラム、又は記憶部708からランダム・アクセス・メモリ(RAM)703にロードされたプログラムに従って、種々の処理を行う。RAM703に、CPU701が種々の処理などを行う場合に必要となるデータを、必要に応じてさらに記憶する。
【0107】
CPU701、ROM702及びRAM703を、バス704を介して互いに接続する。入力/出力インタフェース705を、バス704にさらに接続する。
【0108】
入力/出力インタフェース705に、次の構成要素、すなわち、キーボード、マウス又は同種のものを含む入力部706、ブラウン管(CRT)、液晶ディスプレイ(LCD)又は同種のものなどのディスプレイとラウドスピーカーなどとを含む出力部707、ハードディスクなどを含む記憶部708、LANカードなどのネットワークインタフェースカード、モデム又は同種のものを含む通信部709、を接続する。通信部709は、インターネットなどのネットワークを介して通信処理を行う。
【0109】
さらに、ドライブ710を、必要に応じて入力/出力インタフェース705に接続する。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ又は同種のものなどのリムーバブルメディア711を、必要に応じてドライブ710にマウントし、したがってそこから読み込まれたコンピュータプログラムが、必要に応じて、記憶部708にインストールされる。
【0110】
上述のステップ及び処理をソフトウェアによって実施する場合、そのソフトウェアを構成するプログラムを、インターネットなどのネットワークからインストールし、あるいはリムーバブルメディア711などの記憶媒体からインストールする。
【0111】
本書で使用している用語は、単に特定の実施形態を説明する目的のものであって、本発明の限定を意図するものではない。本書において、単数形の「1つ(a、an)」及び「その(the)」は、その文脈がそうでないことを明確に示していない限り、その複数形も同様に含むことを意図する。用語「含む(comprises)」及び/又は「含んでいる(comprising)」は、本明細書において使用する場合、述べられた特徴、整数、ステップ、動作、要素、及び/又は構成要素の存在を特定するが、1又は複数の他の特徴、整数、ステップ、動作、要素、構成要素、及び/又はそれらのグループの、存在又は追加を除外しない。
【0112】
以降の請求項におけるすべてのミーンズ・プラス・ファンクション要素又はステップ・プラス・ファンクション要素の、対応する構造、材料、動作及び均等物は、具体的に請求されている他の請求された要素と組み合わせて機能を実行する、いかなる構造、材料又は動作も含むことが意図される。本発明の説明は図示及び説明の目的で提示されており、しかしながら、本発明の説明は網羅的であること、又は開示の形態に本発明が限定されることを目的とするものではない。多くの変更及び変形が、本発明の範囲及び主旨から逸脱しない範囲で、当業者に明らかになるであろう。実施形態は、本発明の原理及び実際的な用途を最も良く説明する目的で、当業者の他の人々が、考えられる具体的な使用に適する種々の変更と共に種々の実施形態について発明を理解することが可能となるように、選択及び記載された。
【0113】
本出願は、2011年8月19日申請の中国特許出願番号第201110243107.5号、及び2011年9月28日申請の米国特許仮出願番号第61/540,352号の優先権を主張し、その各々の全体を本書において参照により援用する。
【0114】
次の例示的な実施形態(各付記(EE))を記載する。
(付記1)
第1のオーディオ・セクションと第2のオーディオ・セクションとの間のコンテンツ・コヒーレンスを測定する方法であって:
前記第1のオーディオ・セクション内の各オーディオ・セグメントのそれぞれについて、
前記第2のオーディオ・セクション内の所定数のオーディオ・セグメントを決定するステップであって、前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記第2のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定するステップと、
前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算するステップと;
前記第1のオーディオ・セクション内の当該各オーディオ・セグメントについて計算された前記平均の平均値、最小値又は最大値として、第1のコンテンツ・コヒーレンスを計算するステップと;
を含む、方法。
(付記2)
前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントのそれぞれについて、
前記第1のオーディオ・セクション内の所定数のオーディオ・セグメントを決定するステップであって、前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記第1のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定するステップと、
前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算するステップと;
前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントについて計算された前記平均の平均値、最小値又は最大値として、第2のコンテンツ・コヒーレンスを計算するステップと;
前記第1のコンテンツ・コヒーレンス及び前記第2のコンテンツ・コヒーレンスに基づいて、対称的コンテンツ・コヒーレンスを計算するステップと;
をさらに含む、付記1に記載の方法。
(付記3)
前記第1のオーディオ・セクション内の前記オーディオ・セグメントs
i,lと、前記決定されたオーディオ・セグメントs
j,rとの間の前記コンテンツ類似度S(s
i,l,s
j,r)のそれぞれが、L>1において、前記第1のオーディオ・セクション内の数列[s
i,l,
…,s
i+L-1,l]と前記第2のオーディオ・セクション内の数列[s
j,r,
…,s
j+L-1,r]との間のコンテンツ類似度として計算される、
付記1又は付記2に記載の方法。
(付記4)
前記数列間の前記コンテンツ類似度は、動的時間伸縮法スキーム又は動的計画法スキームを適用することによって計算される、
付記3に記載の方法。
(付記5)
2つのオーディオ・セグメント間の前記コンテンツ類似度は、
前記オーディオ・セグメントから第1の特徴ベクトルを抽出するステップと、
前記特徴ベクトルから前記コンテンツ類似度を計算する統計的モデルを生成するステップと、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算するステップと、
によって計算される、付記1又は付記2に記載の方法。
(付記6)
前記第1の特徴ベクトルのそれぞれにおける特徴値のすべてが非負であり、前記特徴値の合計が1であり、前記統計的モデルはディリクレ分布に基づく、
付記5に記載の方法。
(付記7)
前記抽出するステップは、
前記オーディオ・セグメントから第2の特徴ベクトルを抽出するステップと、
前記第2の特徴ベクトルのそれぞれについて、前記第2の特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算するステップであって、前記第2の特徴ベクトルに対応する前記量のすべてが、前記第1の特徴ベクトルの1つを形成する、計算するステップと、
を含む、付記6に記載の方法。
(付記8)
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成されるところの、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算されるところの、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習されるところの、教師ありモデルリング法と、
前記基準ベクトルが、マトリクスの行として前記訓練ベクトルを有する前記マトリクスの固有ベクトルとして計算されるところの、固有値分解法と、
のうちの1つによって決定される、付記7に記載の方法。
(付記9)
前記第2の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第2の特徴ベクトルと前記基準ベクトルとの間の距離と、
前記第2の特徴ベクトルと前記基準ベクトルとの間の相関と、
前記第2の特徴ベクトルと前記基準ベクトルとの間の相互の積と、
関連する証拠として前記第2の特徴ベクトルを用いた前記基準ベクトルの事後確率と、
のうちの1つによって測定される、付記7に記載の方法。
(付記10)
前記第2の特徴ベクトルxと前記基準ベクトルz
jとの間の距離v
jは、
【数13】
として計算され、ここで、Mは前記基準ベクトルの数であり、|| ||は、ユークリッド距離を表す、
付記9に記載の方法。
(付記11)
前記関連する証拠として前記第2の特徴ベクトルxを用いた前記基準ベクトルz
jの前記事後確率p(z
j|x)は、
【数14】
として計算され、ここで、p(x|z
j)は前記基準ベクトルz
jを所与とした前記第2の特徴ベクトルxの確率を表し、Mは前記基準ベクトルの数であり、p(z
j)は事前分布である、
付記9に記載の方法。
(付記12)
前記統計的モデルのパラメータが最大尤度法によって推定される、
付記6に記載の方法。
(付記13)
前記統計的モデルは1又は複数のディリクレ分布に基づく、
付記6に記載の方法。
(付記14)
前記コンテンツ類似度は、次のメトリック、すなわち、
ヘリンガー距離、
二乗距離、
カルバック・ライブラー・ダイバージェンス、及び
ベイズ情報量基準距離
のうちの1つによって測定される、付記6に記載の方法。
(付記15)
前記ヘリンガー距離D(α,β)は、
【数15】
として計算され、ここで、α
1,…,α
d>0は前記統計的モデルのうち1つについてのパラメータであり、β
1,…,β
d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第1の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記14に記載の方法。
(付記16)
前記二乗距離D
sは、
【数16】
として計算され、ここで、
【数17】
であり、α
1,…,α
d>0は前記統計的モデルのうち1つについてのパラメータであり、β
1,…,β
d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第1の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記14に記載の方法。
(付記17)
第1のオーディオ・セクションと第2のオーディオ・セクションとの間のコンテンツ・コヒーレンスを測定する装置であって:
類似度計算器であって、前記第1のオーディオ・セクション内の各オーディオ・セグメントのそれぞれについて、
前記第2のオーディオ・セクション内の所定数のオーディオ・セグメントを決定する動作であって、前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記第2のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定する動作と、
前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算する動作と、
をなす、類似度計算器と;
前記第1のオーディオ・セクション内の当該各オーディオ・セグメントについて計算された前記平均の平均値、最小値又は最大値として、第1のコンテンツ・コヒーレンスを計算する、コヒーレンス計算器と;
を含む、装置。
(付記18)
前記類似度計算器は、前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントのそれぞれについて、
前記第1のオーディオ・セクション内の所定数のオーディオ・セグメントを決定する動作であって、前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記第1のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定する動作と、
前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算する動作と、
をなすようにさらに構成され、
前記コヒーレンス計算器は、
前記第2のオーディオ・セクション内の前記所定数のオーディオ・セグメントについて計算された前記平均の平均値、最小値又は最大値として、第2のコンテンツ・コヒーレンスを計算する動作と、
前記第1のコンテンツ・コヒーレンス及び前記第2のコンテンツ・コヒーレンスに基づいて、対称的コンテンツ・コヒーレンスを計算する動作と、
をなすようにさらに構成される、
付記17に記載の装置。
(付記19)
前記第1のオーディオ・セクション内の前記オーディオ・セグメントs
i,lと前記決定されたオーディオ・セグメントs
j,rとの間の前記コンテンツ類似度S(s
i,l,s
j,r)のそれぞれが、L>1において、前記第1のオーディオ・セクション内の数列[s
i,l,
…,s
i+L-1,l]と前記第2のオーディオ・セクション内の数列[s
j,r,
…,s
j+L-1,r]との間のコンテンツ類似度として計算される、
付記17又は付記18に記載の装置。
(付記20)
前記数列間の前記コンテンツ類似度は、動的時間伸縮法スキーム又は動的計画法スキームを適用することによって計算される、
付記19に記載の装置。
(付記21)
前記類似度計算器は、
前記コンテンツ類似度のそれぞれについて、関連するオーディオ・セグメントから第1の特徴ベクトルを抽出する、特徴生成器と、
前記特徴ベクトルから前記コンテンツ類似度のそれぞれを計算する統計的モデルを生成する、モデル生成器と、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算する、類似度計算ユニットと、
を含む、付記17又は付記18に記載の装置。
(付記22)
前記第1の特徴ベクトルのそれぞれにおける特徴値のすべてが非負であり、前記特徴値の合計が1であり、前記統計的モデルはディリクレ分布に基づく、
付記21に記載の装置。
(付記23)
前記特徴生成器は、
前記オーディオ・セグメントから第2の特徴ベクトルを抽出する動作と、
前記第2の特徴ベクトルのそれぞれについて、前記第2の特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算する動作であって、前記第2の特徴ベクトルに対応する前記量のすべてが、前記第1の特徴ベクトルの1つを形成する、計算する動作と、
をなすようにさらに構成される、付記22に記載の装置。
(付記24)
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成されるところの、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算されるところの、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習されるところの、教師ありモデルリング法と、
前記基準ベクトルが、マトリクスの行として前記訓練ベクトルを有する前記マトリクスの固有ベクトルとして計算されるところの、固有値分解法と、
のうちの1つによって決定される、付記23に記載の装置。
(付記25)
前記第2の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第2の特徴ベクトルと前記基準ベクトルとの間の距離と、
前記第2の特徴ベクトルと前記基準ベクトルとの間の相関と、
前記第2の特徴ベクトルと前記基準ベクトルとの間の相互の積と、
関連する証拠として前記第2の特徴ベクトルを用いた前記基準ベクトルの事後確率と、
のうちの1つによって測定される、付記23に記載の装置。
(付記26)
前記第2の特徴ベクトルxと前記基準ベクトルz
jとの間の距離v
jは、
【数18】
として計算され、ここで、Mは前記基準ベクトルの数であり、|| ||は、ユークリッド距離を表す、
付記25に記載の装置。
(付記27)
前記関連する証拠として前記第2の特徴ベクトルxを用いた前記基準ベクトルz
jの前記事後確率p(z
j|x)は、
【数19】
として計算され、ここで、p(x|z
j)は前記基準ベクトルz
jを所与とした前記第2の特徴ベクトルxの確率を表し、Mは前記基準ベクトルの数であり、p(z
j)は事前分布である、
付記25に記載の装置。
(付記28)
前記統計的モデルのパラメータが最大尤度法によって推定される、
付記22に記載の装置。
(付記29)
前記統計的モデルは1又は複数のディリクレ分布に基づく、
付記22に記載の装置。
(付記30)
前記コンテンツ類似度は、次のメトリック、すなわち、
ヘリンガー距離、
二乗距離、
カルバック・ライブラー・ダイバージェンス、及び
ベイズ情報量基準距離
のうちの1つによって測定される、付記22に記載の装置。
(付記31)
前記ヘリンガー距離D(α,β)は、
【数20】
として計算され、ここで、α
1,…,α
d>0は前記統計的モデルのうち1つについてのパラメータであり、β
1,…,β
d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第1の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記30に記載の装置。
(付記32)
前記二乗距離D
sは、
【数21】
として計算され、ここで、
【数22】
であり、α
1,…,α
d>0は前記統計的モデルのうち1つについてのパラメータであり、β
1,…,β
d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第1の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記30に記載の装置。
(付記33)
2つのオーディオ・セグメント間のコンテンツ類似度を測定する方法であって、
前記オーディオ・セグメントから第1の特徴ベクトルを抽出するステップであって、前記第1の特徴ベクトルのそれぞれにおける特徴値のすべてが、非負であり、前記特徴値の合計が1であるように正規化される、抽出するステップと、
前記特徴ベクトルからディリクレ分布に基づいて前記コンテンツ類似度を計算する統計的モデルを生成するステップと、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算するステップと、
を含む、方法。
(付記34)
前記抽出するステップは、
前記オーディオ・セグメントから第2の特徴ベクトルを抽出するステップと、
前記第2の特徴ベクトルのそれぞれについて、前記第2の特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算するステップであって、前記第2の特徴ベクトルに対応する前記量のすべてが、前記第1の特徴ベクトルの1つを形成する、計算するステップと、
を含む、付記33に記載の方法。
(付記35)
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成されるところの、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算されるところの、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習されるところの、教師ありモデルリング法と、
前記基準ベクトルが、マトリクスの行として前記訓練ベクトルを有する前記マトリクスの固有ベクトルとして計算されるところの、固有値分解法と、
のうちの1つによって決定される、付記34に記載の方法。
(付記36)
前記第2の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第2の特徴ベクトルと前記基準ベクトルとの間の距離と、
前記第2の特徴ベクトルと前記基準ベクトルとの間の相関と、
前記第2の特徴ベクトルと前記基準ベクトルとの間の相互の積と、
関連する証拠として前記第2の特徴ベクトルを用いた前記基準ベクトルの事後確率と、
のうちの1つによって測定される、付記34に記載の方法。
(付記37)
前記第2の特徴ベクトルxと前記基準ベクトルz
jとの間の距離v
jは、
【数23】
として計算され、ここで、Mは前記基準ベクトルの数であり、|| ||は、ユークリッド距離を表す、
付記36に記載の方法。
(付記38)
前記関連する証拠として前記第2の特徴ベクトルxを用いた前記基準ベクトルz
jの前記事後確率p(z
j|x)は、
【数24】
として計算され、ここで、p(x|z
j)は前記基準ベクトルz
jを所与とした前記第2の特徴ベクトルxの確率を表し、Mは前記基準ベクトルの数であり、p(z
j)は事前分布である、
付記36に記載の方法。
(付記39)
前記統計的モデルのパラメータが最大尤度法によって推定される、
付記33に記載の方法。
(付記40)
前記統計的モデルは1又は複数のディリクレ分布に基づく、
付記33に記載の方法。
(付記41)
前記コンテンツ類似度は、次のメトリック、すなわち、
ヘリンガー距離、
二乗距離、
カルバック・ライブラー・ダイバージェンス、及び
ベイズ情報量基準距離
のうちの1つによって測定される、付記33に記載の方法。
(付記42)
前記ヘリンガー距離D(α,β)は、
【数25】
として計算され、ここで、α
1,…,α
d>0は前記統計的モデルのうち1つについてのパラメータであり、β
1,…,β
d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第1の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記41に記載の方法。
(付記43)
前記二乗距離D
sは、
【数26】
として計算され、ここで、
【数27】
であり、α
1,…,α
d>0は前記統計的モデルのうち1つについてのパラメータであり、β
1,…,β
d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第1の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記41に記載の方法。
(付記44)
2つのオーディオ・セグメント間のコンテンツ類似度を測定する装置であって、
前記オーディオ・セグメントから第1の特徴ベクトルを抽出する、特徴生成器であって、前記第1の特徴ベクトルのそれぞれにおける特徴値のすべてが、非負であり、前記特徴値の合計が1であるように正規化される、特徴生成器と、
前記特徴ベクトルからディリクレ分布に基づいて前記コンテンツ類似度を計算する統計的モデルを生成する、モデル生成器と、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算する、類似度計算器と、
を含む、装置。
(付記45)
前記特徴生成器は、
前記オーディオ・セグメントから第2の特徴ベクトルを抽出する動作と、
前記第2の特徴ベクトルのそれぞれについて、前記第2の特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算する動作であって、前記第2の特徴ベクトルに対応する前記量のすべてが、前記第1の特徴ベクトルの1つを形成する、計算する動作と、
をなすようにさらに構成される、付記44に記載の装置。
(付記46)
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成されるところの、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算されるところの、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習されるところの、教師ありモデルリング法と、
前記基準ベクトルが、マトリクスの行として前記訓練ベクトルを有する前記マトリクスの固有ベクトルとして計算されるところの、固有値分解法と、
のうちの1つによって決定される、付記45に記載の装置。
(付記47)
前記第2の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第2の特徴ベクトルと前記基準ベクトルとの間の距離と、
前記第2の特徴ベクトルと前記基準ベクトルとの間の相関と、
前記第2の特徴ベクトルと前記基準ベクトルとの間の相互の積と、
関連する証拠として前記第2の特徴ベクトルを用いた前記基準ベクトルの事後確率と、
のうちの1つによって測定される、付記45に記載の装置。
(付記48)
前記第2の特徴ベクトルxと前記基準ベクトルz
jとの間の距離v
jは、
【数28】
として計算され、ここで、Mは前記基準ベクトルの数であり、|| ||は、ユークリッド距離を表す、
付記47に記載の装置。
(付記49)
前記関連する証拠として前記第2の特徴ベクトルxを用いた前記基準ベクトルz
jの前記事後確率p(z
j|x)は、
【数29】
として計算され、ここで、p(x|z
j)は前記基準ベクトルz
jを所与とした前記第2の特徴ベクトルxの確率を表し、Mは前記基準ベクトルの数であり、p(z
j)は事前分布である、
付記47に記載の装置。
(付記50)
前記統計的モデルのパラメータが最大尤度法によって推定される、
付記44に記載の装置。
(付記51)
前記統計的モデルは1又は複数のディリクレ分布に基づく、
付記44に記載の装置。
(付記52)
前記コンテンツ類似度は、次のメトリック、すなわち、
ヘリンガー距離、
二乗距離、
カルバック・ライブラー・ダイバージェンス、及び
ベイズ情報量基準距離
のうちの1つによって測定される、付記44に記載の装置。
(付記53)
前記ヘリンガー距離D(α,β)は、
【数30】
として計算され、ここで、α
1,…,α
d>0は前記統計的モデルのうち1つについてのパラメータであり、β
1,…,β
d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第1の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記52に記載の装置。
(付記54)
前記二乗距離D
sは、
【数31】
として計算され、ここで、
【数32】
であり、α
1,…,α
d>0は前記統計的モデルのうち1つについてのパラメータであり、β
1,…,β
d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第1の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記52に記載の装置。
(付記55)
コンピュータ読取可能媒体であって、当該コンピュータ読取可能媒体上に記録されたコンピュータプログラム命令を有し、前記命令は、プロセッサによって実行されると、前記プロセッサに、第1のオーディオ・セクションと第2のオーディオ・セクションとの間のコンテンツ・コヒーレンスを測定する方法を実行させ、前記方法は:
前記第1のオーディオ・セクション内の各オーディオ・セグメントのそれぞれについて、
前記第2のオーディオ・セクション内の所定数のオーディオ・セグメントを決定するステップであって、前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記第2のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定するステップと、
前記第1のオーディオ・セクション内の当該各オーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算するステップと;
前記第1のオーディオ・セクション内の当該各オーディオ・セグメントについて計算された前記平均の平均値として、第1のコンテンツ・コヒーレンスを計算するステップと;
を含む、コンピュータ読取可能媒体。
(付記56)
コンピュータ読取可能媒体であって、当該コンピュータ読取可能媒体上に記録されたコンピュータプログラム命令を有し、前記命令は、プロセッサによって実行されると、前記プロセッサに、2つのオーディオ・セグメント間のコンテンツ類似度を測定する方法を実行させ、前記方法は、
前記オーディオ・セグメントから第1の特徴ベクトルを抽出するステップであって、前記第1の特徴ベクトルのそれぞれにおける特徴値のすべてが、非負であり、前記特徴値の合計が1であるように正規化される、抽出するステップと、
前記特徴ベクトルからディリクレ分布に基づいて前記コンテンツ類似度を計算する統計的モデルを生成するステップと、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算するステップと、
を含む、コンピュータ読取可能媒体。