特許6113228 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー　ラボラトリーズ　ライセンシング　コーポレイションの特許一覧

特許6113228コンテンツ・コヒーレンスの測定及び類似度の測定

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6113228

(24)【登録日】2017年3月24日

(45)【発行日】2017年4月12日

(54)【発明の名称】コンテンツ・コヒーレンスの測定及び類似度の測定

(51)【国際特許分類】

G10L 25/54 20130101AFI20170403BHJP

G06F 17/30 20060101ALI20170403BHJP

【ＦＩ】

G10L25/54

G06F17/30 350C

G06F17/30 170E

【請求項の数】4

【全頁数】33

(21)【出願番号】特願2015-126369(P2015-126369)

(22)【出願日】2015年6月24日

(62)【分割の表示】特願2014-526069(P2014-526069)の分割

【原出願日】2012年8月7日

(65)【公開番号】特開2015-232710(P2015-232710A)

(43)【公開日】2015年12月24日

【審査請求日】2015年6月24日

(31)【優先権主張番号】201110243107.5

(32)【優先日】2011年8月19日

(33)【優先権主張国】CN

(31)【優先権主張番号】61/540,352

(32)【優先日】2011年9月28日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】ルー，リエ

(72)【発明者】

【氏名】フー，ミンチン

【審査官】安田勇太

(56)【参考文献】

【文献】 Matthew Hoffman，Content-Based Musical Similality Computation Using the Hierarchical Dirichlet Process，ＩＳＭＩＲ２００８，２００８年

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ２５／００ −２５／９４

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

システムによって、２つのオーディオ・セグメント間のコンテンツ類似度を測定する方法であって：
前記２つのオーディオ・セグメントから第１の特徴ベクトルを抽出するステップであって、前記第１の特徴ベクトルは、
前記２つのオーディオ・セグメントから第２の特徴ベクトルを抽出することと、
前記第２の特徴ベクトルの各々について、該第２の特徴ベクトルと基準ベクトルの各々との間の関係を測定する量を計算し、前記第２の特徴ベクトルに対応する前記量のすべてが前記第１の特徴ベクトルの１つを形成することと、
によって形成され、前記第１の特徴ベクトルのそれぞれにおける特徴値のすべてが非負であり、該特徴値の合計が１であるように正規化される、ステップと；
前記第１の特徴ベクトルからディリクレ分布に基づいて前記コンテンツ類似度を計算する統計モデルを生成するステップと；
前記生成された統計モデルに基づいて前記コンテンツ類似度を計算するステップと；
を含み、
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成される、ランダム生成法と、
訓練サンプルから抽出される訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルが前記クラスタをそれぞれ表すよう計算される、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習される、教師ありモデルリング法と、
前記基準ベクトルが、前記訓練ベクトルを行として有するマトリクスの固有ベクトルとして計算される、固有値分解法と、
のうちの１つによって決定される、方法。

【請求項2】

前記第２の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第２の特徴ベクトルと該基準ベクトルとの間の距離と、
前記第２の特徴ベクトルと該基準ベクトルとの間の相関と、
前記第２の特徴ベクトルと該基準ベクトルとの間の相互の積と、
関連する証拠として前記第２の特徴ベクトルを用いた該基準ベクトルの事後確率と、
のうちの１つによって測定される、請求項１に記載の方法。

【請求項3】

２つのオーディオ・セグメント間のコンテンツ類似度を測定する装置であって、
前記２つのオーディオ・セグメントから第１の特徴ベクトルを抽出する、特徴生成器であって、前記第１の特徴ベクトルは、
前記２つのオーディオ・セグメントから第２の特徴ベクトルを抽出することと、
前記第２の特徴ベクトルのそれぞれについて、該第２の特徴ベクトルと基準ベクトルの各々との間の関係を測定する量を計算し、該第２の特徴ベクトルに対応する前記量のすべてが前記第１の特徴ベクトルの１つを形成することと、
によって形成され、前記第１の特徴ベクトルのそれぞれにおける特徴値のすべてが、非負であり、該特徴値の合計が１であるように正規化される、特徴生成器と、
前記第１の特徴ベクトルからディリクレ分布に基づいて前記コンテンツ類似度を計算する統計的モデルを生成する、モデル生成器と、
前記生成された統計的モデルに基づいて前記コンテンツ類似度を計算する、類似度計算器と、
を備え、
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成される、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算される、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習される、教師ありモデルリング法と、
前記基準ベクトルが、前記訓練ベクトルを行として有するマトリクスの固有ベクトルとして計算される、固有値分解法と、
のうちの１つによって決定される、装置。

【請求項4】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、概して、オーディオ信号処理に関する。より詳細には、本発明の実施形態は、オーディオ・セクション間のコンテンツ・コヒーレンスを測定する方法及び装置と、オーディオ・セグメント間のコンテンツ類似度を測定する方法及び装置とに関する。

【背景技術】

【0002】

コンテンツ・コヒーレンス・メトリックを用いて、オーディオ信号内、又はオーディオ信号間のコンテンツの一貫性を測定する。このメトリックは、２つのオーディオ・セグメント間のコンテンツ・コヒーレンス（コンテンツ類似度又はコンテンツ一貫性）を算出することを含み、そのセグメントが同一のセマンティック・クラスタに属するのかどうか、又はこれら２つのセグメント間に実際の境界が存在するのかどうかを判断するための、基準の役割を果たす。

【0003】

２つの長いウィンドウ間のコンテンツ・コヒーレンスを測定する方法が提案されている。その方法によると、それぞれの長いウィンドウは複数の短いオーディオ・セグメント（オーディオ・エレメント）に分割され、コンテンツ・コヒーレンス・メトリックは、セグメントのすべてのペア間でセマンティック・アフィニティを算出することによって取得され、類似度のリンクを重ね合わせるという一般的な考え方に基づいて、左右のウィンドウから描画される。セマンティック・アフィニティを、セグメント間のコンテンツ類似度を測定することによって算出してよく、あるいは、それらの対応するオーディオ・エレメント分類によって計算してよい。（例えば、本書においてすべての目的のために参照により援用する、L．LuやA．Hanjalic．による“Text-Like Segmentation of General Audio for Content-Based Retrieval”、IEEE Trans．on Multimedia、vol．11、no．4、658-669、2009を参照）。

【0004】

コンテンツ類似度を、２つのオーディオ・セグメント間の特徴比較に基づいて算出してよい。カルバック・ライブラー・ダイバージェンス（Kullback-Leibler Divergence；KLD）などの種々のメトリックが、２つのオーディオ・セグメント間のコンテンツ類似度を測定するために提案されている。

【0005】

本明細書に記載の手法は、探究される可能性がある手法ではあるが、必ずしも以前に着想又は探究された手法ではない。したがって、別段の指示がない限り、本明細書に記載のいかなる手法も、本明細書に単に含まれるという理由で、先行技術であると評価するものと推定すべきではない。同様にして、１又は複数の手法に関して識別される課題は、別段の指示がない限り、本明細書に基づいて任意の先行技術において認識されているものと推定すべきではない。

【発明の概要】

【発明が解決しようとする課題】

【0006】

あるオーディオ・セクションが一貫性のあるコンテンツを含むかどうかを判断できるように、そのオーディオ・セクション内のセグメント間のコンテンツ・コヒーレンスを測定する。あるオーディオ・セクション内のコンテンツが一貫性があるかどうかを判断できるように、そのオーディオ・セクション間のコンテンツ・コヒーレンスを測定する。

【課題を解決するための手段】

【0007】

本発明の一実施形態に従って、第１のオーディオ・セクションと第２のオーディオ・セクションとの間のコンテンツ・コヒーレンスを測定する方法を提供する。第１のオーディオ・セクション内のオーディオ・セグメントのそれぞれについて、第２のオーディオ・セクション内の所定数のオーディオ・セグメントを決定する。第１のオーディオ・セクション内のオーディオ・セグメントと決定されたオーディオ・セグメントとの間のコンテンツ類似度が、第１のオーディオ・セクション内のオーディオ・セグメントと第２のオーディオ・セクション内の決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなる。第１のオーディオ・セクション内のオーディオ・セグメントと決定されたオーディオ・セグメントとの間のコンテンツ類似度の平均を計算する。第１のコンテンツ・コヒーレンスを、第１のオーディオ・セクション内のオーディオ・セグメントについて計算された平均の、平均値、最小値又は最大値として計算する。

【0008】

本発明の一実施形態に従って、第１のオーディオ・セクションと第２のオーディオ・セクションとの間のコンテンツ・コヒーレンスを測定する装置を提供する。その装置は、類似度計算器及びコヒーレンス計算器を含む。第１のオーディオ・セクション内のオーディオ・セグメントのそれぞれについて、類似度計算器は、第２のオーディオ・セクション内の所定数のオーディオ・セグメントを決定する。第１のオーディオ・セクション内のオーディオ・セグメントと決定されたオーディオ・セグメントとの間のコンテンツ類似度が、第１のオーディオ・セクション内のオーディオ・セグメントと第２のオーディオ・セクション内の決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなる。類似度計算器は、さらに、第１のオーディオ・セクション内のオーディオ・セグメントと決定されたオーディオ・セグメントとの間のコンテンツ類似度の平均を計算する。コヒーレンス計算器は、第１のコンテンツ・コヒーレンスを、第１のオーディオ・セクション内のオーディオ・セグメントについて計算された平均の、平均値、最小値又は最大値として計算する。

【0009】

本発明の一実施形態に従って、２つのオーディオ・セグメント間のコンテンツ類似度を測定する方法を提供する。第１の特徴ベクトルが、オーディオ・セグメントから抽出される。第１の特徴ベクトルのそれぞれの特徴値のすべてが、非負であり、特徴値の合計が１であるように正規化される。コンテンツ類似度を計算する統計的モデルが、特徴ベクトルからディリクレ分布に基づいて生成される。コンテンツ類似度を、生成された統計的モデルに基づいて計算する。

【0010】

本発明の一実施形態に従って、２つのオーディオ・セグメント間のコンテンツ類似度を測定する装置を提供する。その装置は、特徴生成器、モデル生成器及び類似度計算器を含む。特徴生成器は、オーディオ・セグメントから第１の特徴ベクトルを抽出する。第１の特徴ベクトルのそれぞれの特徴値のすべてが、非負であり、特徴値の合計が１であるように正規化される。モデル生成器は、特徴ベクトルからディリクレ分布に基づいてコンテンツ類似度を計算する統計的モデル生成する。類似度計算器は、生成された統計的モデルに基づいてコンテンツ類似度を計算する。

【0011】

本発明のさらなる特徴及び利点と、本発明の種々の実施形態の構造及び動作とを、添付の図面を参照しながら以下に詳細に説明する。留意すべきことは、本発明は本書で説明する特定の実施形態に限定されないということである。上記の実施形態は、本書において単に例示目的で提示されている。さらなる実施形態が、当業者において、本書に含まれる教示に基づいて明らかになるであろう。

【図面の簡単な説明】

【0012】

本発明を、限定としてではなく例示として、添付の図面の図において説明する。図において、同様の参照番号が類似の要素を示す。

【図1】本発明の一実施形態による、コンテンツ・コヒーレンスを測定する例示的な装置を示すブロック図である。

【図2】第１のオーディオ・セクション内のオーディオ・セグメントと第２のオーディオ・セクション内のオーディオ・セグメントのサブセットとにおけるコンテンツ類似度を説明する概略図である。

【図3】本発明の一実施形態による、コンテンツ・コヒーレンスを測定する例示的な方法を示すフローチャートである。

【図4】図３の方法に係るさらなる実施形態による、コンテンツ・コヒーレンスを測定する例示的な方法を示すフローチャートである。

【図5】本発明の一実施形態による、類似度計算器の例を示すブロック図である。

【図6】統計的モデルを導入することによってコンテンツ類似度を計算する例示的な方法を示すフローチャートである。

【図7】本発明の実施形態を実施する例示的なシステムを示すブロック図である。

【発明を実施するための形態】

【0013】

本発明の実施形態を、図面を参照することによって、以下に説明する。留意すべきことは、明確さのために、当業者に既知であって、本発明を理解するのに必ずしも必要ない構成要素や処理に関する表現及び説明が、図面及び説明において省略されているということである。

【0014】

当業者が十分理解するであろうように、本発明の態様を、システム（例えば、オンラインのデジタル・メディア・ストア、クラウド・コンピューティング・サービス、ストリーミング・メディア・サービス、通信ネットワーク、若しくは同種のもの）、デバイス（例えば、携帯電話、ポータブル・メディア・プレーヤ、パーソナル・コンピュータ、テレビ受像機セットトップボックス、デジタル・ビデオ・レコーダ、若しくは任意のメディア・プレーヤ）、方法、又はコンピュータプログラム製品として具体化してよい。したがって、本発明の態様は、全体的にハードウェアの実施形態の形をとってよく、全体的にソフトウェアの実施形態（ファームウエア、常駐ソフトウェア、マイクロコードなどを含む）の形をとってよく、あるいは、本書において「回路」「モジュール」又は「システム」と全体に概して呼ぶであろう、ソフトウェア態様及びハードウェア態様を組み合わせている実施形態の形をとってよい。さらに、本発明の態様は、コンピュータ読取可能プログラムコードを有する１又は複数のコンピュータ読取可能媒体において具体化されたコンピュータプログラム製品の形態をとってよく、そのコンピュータ読取可能プログラムコードはコンピュータ読取可能媒体上に具体化される。

【0015】

１又は複数のコンピュータ読取可能媒体のいかなる組み合わせも用いてよい。コンピュータ読取可能媒体は、コンピュータ読取可能信号媒体、又はコンピュータ読取可能記憶媒体であってよい。コンピュータ読取可能記憶媒体は、例えば、電子、磁気、光学式、電磁気、赤外線、若しくは半導体の、システム、装置、若しくはデバイス、又は前述のものの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ読取可能記憶媒体のさらなる具体例（完全には網羅されていないリスト）には、以下のもの、すなわち、１又は複数の線を有する電気的な接続、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（RAM）、読取専用メモリ（ROM）、消去可能プログラマブルROM（EPROM若しくはフラッシュメモリ）、光ファイバ、ポータブルなコンパクトディスク読取専用メモリ（CD-ROM）、光学式記憶デバイス、磁気記憶デバイス、又は前述のものの任意の適切な組み合わせを含むであろう。本書の文脈において、コンピュータ読取可能記憶媒体は、命令実行システム、装置若しくはデバイスが使用するプログラム、又は命令実行システム、装置若しくはデバイスに関連して使用するプログラムを、含む、又は記憶することが可能な、任意の有形の媒体であってよい。

【0016】

コンピュータ読取可能信号媒体には、コンピュータ読取可能プログラムコードを有する伝播されたデータ信号を含んでよく、そのコンピュータ読取可能プログラムコードは、例えば、ベースバンドにおいて、又は搬送波の一部として、その伝播されたデータ信号において具体化される。上記の伝播された信号は、電磁気、光学式、又はそれらの任意の適切な組み合わせを含むがこれらに限定されない、種々の形態のいずれをとってもよい。

【0017】

コンピュータ読取可能信号媒体は、コンピュータ読取可能記憶媒体ではなく、命令実行システム、装置若しくはデバイスが使用するプログラム、又は命令実行システム、装置若しくはデバイスに関連して使用するプログラムを、通信する、伝播する、又は移送することが可能な、任意のコンピュータ読取可能媒体であってよい。

【0018】

コンピュータ読取可能媒体上に具体化されるプログラムコードを、任意の適切な媒体を用いて転送してよく、その任意の適切な媒体には、無線、有線、光ファイバケーブル、ＲＦなど、又は前述のものの任意の適切な組み合わせを含むが、これらに限定されない。

【0019】

本発明の態様の動作を実行するコンピュータプログラムコードを、１又は複数のプログラミング言語の任意の組み合わせで書いてよく、そのプログラミング言語には、Java、Smalltalk、C++又は同種のものなどのオブジェクト指向プログラミング言語と、“C”プログラミング言語又は類似のプログラミング言語などの従来的な手続き型プログラミング言語とを含む。プログラムコードは、スタンドアロンのソフトウェアパッケージとして、全体的にユーザのコンピュータ上で実行してよく、又は部分的にユーザのコンピュータ上で実行してよく、あるいは部分的にユーザのコンピュータ上で実行して部分的にリモートコンピュータ上で実行してよく、あるいは全体的にリモートのコンピュータ又はサーバ上で実行してよい。後半のシナリオにおいて、リモートコンピュータを、ローカルエリアネットワーク（LAN）又はワイドエリアネットワーク（WAN）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続してよく、あるいはその接続を、外部のコンピュータに対して作成してよい（例えば、インターネットサービスプロバイダを用いてインターネットを経由する）。

【0020】

本発明の態様を、本発明の実施形態による方法、装置（システム）及びコンピュータプログラム製品の、フローチャート図及び／又はブロック図を参照して以下に説明する。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図内のブロックの組み合わせを、コンピュータプログラム命令によって実施してよいということが、理解されるであろう。これらのコンピュータプログラム命令を、マシンを生み出すために、汎用目的コンピュータ、特定目的コンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに与えてよく、したがって、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行する命令は、フローチャート図及び／又はブロック図のブロック又はブロック群において特定される機能／動作を実施する手段を生成する。

【0021】

さらに、これらのコンピュータプログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、又は他のデバイスに特定の方法で機能するように指示することが可能な、コンピュータ読取可能媒体に記憶してよく、したがって、コンピュータ読取可能媒体に記憶された命令は、フローチャート図及び／又はブロック図のブロック又はブロック群において特定される機能／動作を実施する命令を含む製品を生み出す。

【0022】

さらに、コンピュータプログラム命令をコンピュータ、他のプログラム可能な装置、又は他のデバイス上にロードしてよく、一連の動作ステップをコンピュータ、他のプログラム可能な装置、又は他のデバイス上で実行させて、コンピュータで実施される処理を生み出し、したがって、コンピュータ又は他のプログラム可能な装置上で実行する命令は、フローチャート図及び／又はブロック図のブロック又はブロック群において特定される機能／動作を実施する処理を提供する。

【0023】

図１は、本発明の一実施形態によるコンテンツ・コヒーレンスを測定する例示的な装置１００を示すブロック図である。

【0024】

図１に示すように、装置１００は、類似度計算器１０１及びコヒーレンス計算器１０２を含む。

【0025】

会話又は会議における話者の変化の検出及びクラスタリング、ミュージック・ラジオにおける歌曲のセグメンテーション、歌曲における反復境界の微調整、合成のオーディオ信号及びオーディオ検索におけるオーディオ・シーンの検出などの、種々のオーディオ信号処理の用途には、オーディオ信号間のコンテンツ・コヒーレンスを測定することを含みうる。例えば、ミュージック・ラジオにおける歌曲のセグメンテーションという用途において、オーディオ信号は複数のセクションに分割され、それぞれのセクションは一貫性のあるコンテンツを含む。別の例として、会話又は会議における話者の変化の検出及びクラスタリングという用途において、同一の話者に関連付けられるオーディオ・セクションが１つのクラスタに分類され、それぞれのクラスタは一貫性のあるコンテンツを含む。あるオーディオ・セクション内のセグメント間のコンテンツ・コヒーレンスを、そのオーディオ・セクションが一貫性のあるコンテンツを含むかどうかを判断するために、測定してよい。オーディオ・セクション間のコンテンツ・コヒーレンスを、そのオーディオ・セクション内のコンテンツが一貫性があるかどうかを判断するために、測定してよい。

【0026】

本明細書において、用語「セグメント」及び「セクション」の双方は、オーディオ信号の連続的な部分を指す。より大きな部分をより小さな部分に分割するという文脈において、用語「セクション」は、より大きな部分を指し、用語「セグメント」は、より小さな部分のうちの１つを指す。

【0027】

コンテンツ・コヒーレンスを、２つのセグメント（セクション）間の距離値又は類似度値で表してよい。より大きな距離値、又はより小さな類似度値が、より低いコンテンツ・コヒーレンスを示し、より小さな距離値、又はより大きな類似度値が、より高いコンテンツ・コヒーレンスを示す。

【0028】

所定の処理を、装置１００が測定した、測定されたコンテンツ・コヒーレンスにしたがって、オーディオ信号に行ってよい。その所定の処理とは、その用途に依存する。

【0029】

オーディオ・セクションの長さが、セグメント化又はグループ化されるべき対象コンテンツのセマンティック・レベルに依存してよい。より高いセマンティック・レベルは、より長い長さのオーディオ・セクションを必要とするであろう。例えば、オーディオ・シーン（例えば、歌曲、天気予報、及びアクション・シーンなど）が大切にされるシナリオにおいて、セマンティック・レベルは高く、より長いオーディオ・セクション間のコンテンツ・コヒーレンスが測定される。より低いセマンティック・レベルは、より短い長さのオーディオ・セクションを必要とするであろう。例えば、基本的なオーディオ様式（例えば、スピーチ、ミュージック及びノイズ）間の境界の検出、並びに話者の変化の検出という用途において、セマンティック・レベルは低く、より短いオーディオ・セクション間のコンテンツ・コヒーレンスが測定される。オーディオ・セクションがオーディオ・セグメントを含む例示的なシナリオにおいて、オーディオ・セクション間のコンテンツ・コヒーレンスはより高いセマンティック・レベルに関連し、オーディオ・セグメント間のコンテンツ・コヒーレンスは、より低いセマンティック・レベルに関連する。

【0030】

第１のオーディオ・セクション内の各オーディオ・セグメントs_i,lについて、類似度計算器１０１は、第２のオーディオ・セクション内の、K個、ただしK>0、のオーディオ・セグメントs_j,rを決定する。数Kを、先行して、又は動的に決定してよい。決定されたオーディオ・セグメントは、第２のオーディオ・セクション内のオーディオ・セグメントs_j,rのサブセットKNN(s_i,l)を形成する。オーディオ・セグメントs_i,lとKNN(s_i,l)内のオーディオ・セグメントs_j,rとの間のコンテンツ類似度は、オーディオ・セグメントs_i,lと、第２のオーディオ・セクション内の、KNN(s_i,l)内のオーディオ・セグメントを除くすべての他のオーディオ・セグメントと、の間のコンテンツ類似度より高くなる。すなわち、第２のオーディオ・セクション内のオーディオ・セグメントを、オーディオ・セグメントs_i,lとのコンテンツ類似度の降順にソートする場合、最初のK個のオーディオ・セグメントが、セットのKNN(s_i,l)を形成する。用語「コンテンツ類似度」は、用語「コンテンツ・コヒーレンス」と類似の意味を有する。セクションがセグメントを含む文脈において、用語「コンテンツ類似度」は、セグメント間のコンテンツ・コヒーレンスを指し、一方、用語「コンテンツ・コヒーレンス」はセクション間のコンテンツ・コヒーレンスを指す。

【0031】

図２は、第１のオーディオ・セクション内のオーディオ・セグメントs_i,lと、第２のオーディオ・セクション内の、オーディオ・セグメントs_j,rに対応する、KNN(s_i,l)内の決定されたオーディオ・セグメントとの間の、コンテンツ類似度を示す概略図である。図２において、ブロックがオーディオ・セグメントを表す。第１のオーディオ・セクション及び第２のオーディオ・セクションを互いに隣接するように示しているが、それらは、用途に依存して、別個であってよく、又は種々のオーディオ信号内に位置してよい。さらに、用途に依存して、第１のオーディオ・セクション及び第２のオーディオ・セクションは、同一の長さ又は異なる長さを有してよい。図２に示すように、第１のオーディオ・セクション内の１つのオーディオ・セグメントs_i,lについて、オーディオ・セグメントs_i,lと、第２のオーディオ・セクション内のオーディオ・セグメントs_j,rとの間の、コンテンツ類似度S(s_i,l，s_j,r)、ただし0<j<M+1、を計算してよく、ここで、Mは、セグメントを単位とした、第２のオーディオ・セクションの長さである。計算されたコンテンツ類似度S(s_i,l，s_j,r)、ただし0<j<M+1、の中から、大きい方からK個の（first K greatest）コンテンツ類似度S(s_i,l，s_j1,r)乃至S(s_i,l，s_jK,r)、ただし0<j1，…，jK<M+1、を決定し、オーディオ・セグメントs_j1,r乃至s_jK,rを決定して、セットのKNN(s_i,l)を形成する。図２において矢印のついている弧が、オーディオ・セグメントs_i,lと、KNN(s_i,l)内の決定されたオーディオ・セグメントs_j1,r乃至s_jK,rとの間の対応を示す。

【0032】

第１のオーディオ・セクション内の各オーディオ・セグメントs_i,lについて、類似度計算器１０１は、オーディオ・セグメントs_i,lとKNN(s_i,l)内の決定されたオーディオ・セグメントs_j1,r乃至s_jK,rとの間のコンテンツ類似度S(s_i,l，s_j1,r)乃至S(s_i,l，s_jK,r)の、平均A(s_i,l)を計算する。平均A(s_i,l)は、重み付けされたものであってよく、又は重み付けされていないものであってよい。重み付けされた平均の場合、平均A(s_i,l)は次のように計算される。

【0033】

【数1】

ここで、w_jkは重み付け係数であり、1/Kであってよく、あるいは代替的に、jkとiとの距離がより小さい場合にw_jkがより大きくなり、その距離がより大きい場合にw_jkがより小さくなってよい。

【0034】

第１のオーディオ・セクション及び第２のオーディオ・セクションについて、コヒーレンス計算器１０２は、コンテンツ・コヒーレンスCohを、平均A(s_i,l)、ただし0<i<N+1、の平均値として計算する。ここで、Nは、セグメントを単位とした、第１のオーディオ・セクションの長さである。コンテンツ・コヒーレンスCohを次のように計算してよい。

【0035】

【数2】

ここで、Nは、オーディオ・セグメントを単位とした、第１のオーディオ・セクションの長さであり、w_iは、重み付け係数であり、例えば1/Nであってよい。さらに、コンテンツ・コヒーレンスCohを、平均A(s_i,l)の最小値又は最大値として計算してよい。

【0036】

ヘリンガー距離、二乗距離、カルバック・ライブラー・ダイバージェンス、及びベイズ情報量基準距離などの種々のメトリックを、コンテンツ類似度S(s_i,l，s_j,r)を計算するために導入してよい。さらに、L．LuやA．Hanjalic．による“Text-Like Segmentation of General Audio for Content-Based Retrieval”、IEEE Trans．on Multimedia、vol．11、no．4、658-669、2009に記載のセマンティック・アフィニティを、コンテンツ類似度S(s_i,l，s_j,r)として計算してもよい。

【0037】

２つのオーディオ・セクションのコンテンツが類似している、種々のケースが存在しうる。例えば、完全なケースにおいて、第１のオーディオ・セクション内の任意のオーディオ・セグメントが、第２のオーディオ・セクション内のオーディオ・セグメントのすべてに類似する。しかしながら、多くの他のケースにおいて、第１のオーディオ・セクション内の任意のオーディオ・セグメントは、第２のオーディオ・セクション内のオーディオ・セグメントの一部に類似する。コンテンツ・コヒーレンスCohを、第１のオーディオ・セクション内のあらゆるセグメントs_i,lと第２のオーディオ・セクション内のいくつかのオーディオ・セグメント、例えばKNN(s_i,l)内のオーディオ・セグメントs_j,rとの間のコンテンツ類似度の平均値として計算することによって、類似するコンテンツのすべてのこれらのケースを識別することが可能となる。

【0038】

装置１００のさらなる実施形態において、第１のオーディオ・セクション内のオーディオ・セグメントs_i,lとKNN(s_i,l)のオーディオ・セグメントs_j,rとの間のそれぞれのコンテンツ類似度S(s_i,l，s_j,r)を、L>1において、第１のオーディオ・セクション内の数列[s_i,l，_…，s_i+L-1,l]と第２のオーディオ・セクション内の数列[s_j,r，_…，s_j+L-1,r]との間のコンテンツ類似度として計算してよい。セグメントの２つの数列間のコンテンツ類似度を計算する種々の方法を導入してよい。例えば、数列[s_i,l，_…，s_i+L-1,l]と数列[s_j,r，_…，s_j+L-1,r]との間のコンテンツ類似度(s_i,l，s_j,r)を、次のように計算してよい。

【0039】

【数3】

ここで、w_kは重み付け係数であり、例えば、1/(L-1)に設定してよい。

【0040】

ヘリンガー距離、二乗距離、カルバック・ライブラー・ダイバージェンス、及びベイズ情報量基準距離などの種々のメトリックを、コンテンツ類似度S’(s_i,l，s_j,r)を計算するために導入してよい。さらに、L．LuやA．Hanjalic．による“Text-Like Segmentation of General Audio for Content-Based Retrieval”、IEEE Trans．on Multimedia、vol．11、no．4、658-669、2009に記載のセマンティック・アフィニティを、コンテンツ類似度S’(s_i,l，s_j,r)として計算してもよい。

【0041】

このようにして、２つのオーディオ・セグメント間のコンテンツ類似度を、２つのオーディオ・セグメントからそれぞれ始まる２つの数列間のコンテンツ類似度として計算することによって、時間的情報を構成してよい。結果として、より正確なコンテンツ・コヒーレンスを取得可能となる。

【0042】

さらに、数列[s_i,l，_…，s_i+L-1,l]と数列[s_j,r，_…，s_j+L-1,r]との間のコンテンツ類似度(s_i,l，s_j,r)を、動的時間伸縮法（DTW）スキーム又は動的計画法（DP）スキームを適用することによって、計算してよい。DTWスキーム又はDPスキームは、時間又は速さにおいて変化する可能性がある２つの数列間のコンテンツ類似度を測定するアルゴリズムであり、そのアルゴリズムにおいて最適なマッチング経路が検索され、最終的なコンテンツ類似度がその最適な経路に基づいて算出される。このようにして、起こりうるテンポ／速さの変化を構成してよい。結果として、より正確なコンテンツ・コヒーレンスを取得可能となる。

【0043】

DTWスキームを適用する例において、第１のオーディオ・セクション内の所与の数列[s_i,l，_…，s_i+L-1,l]について、最も良くマッチする数列[s_j,r，_…，s_j+L’-1,r]を、第２のオーディオ・セクション内で、第２のオーディオ・セクション内のオーディオ・セグメントs_j,rから始まるすべての数列をチェックすることによって、決定してよい。次いで、数列[s_i,l，_…，s_i+L-1,l]と数列[s_j,r，_…，s_j+L’-1,r]との間のコンテンツ類似度S(s_i,l，s_j,r)を、次のように計算してよい。

【0044】

【数4】

ここで、DTW([]，[])は、DTWに基づく類似度スコアであり、挿入コスト及び削除コストをさらに考慮する。

【0045】

装置１００のさらなる実施形態において、対称的コンテンツ・コヒーレンスを計算してよい。このケースにおいて、第２のオーディオ・セクション内の各オーディオ・セグメントs_j,rについて、類似度計算器１０１は、第１のオーディオ・セクション内のK個のオーディオ・セグメントs_i,lを決定する。決定されたオーディオ・セグメントが、セットKNN(s_j,r)を形成する。オーディオ・セグメントs_j,rとKNN(s_j,r)内のオーディオ・セグメントs_i,lとの間のコンテンツ類似度は、オーディオ・セグメントs_j,rと、第１のオーディオ・セクション内の、KNN(s_j,r)内のオーディオ・セグメントを除くすべての他のオーディオ・セグメントと、の間のコンテンツ類似度より高くなる。

【0046】

第２のオーディオ・セクション内の各オーディオ・セグメントs_j,rについて、類似度計算器１０１は、オーディオ・セグメントs_j,rとKNN(s_j,r)内の決定されたオーディオ・セグメントs_i1,l乃至s_iK,lとの間のコンテンツ類似度S(s_j,r，s_i1,l)乃至S(s_j,r，s_iK,l)の、平均A(s_j,r)を計算する。平均A(s_j,r)は、重み付けされたものであってよく、又は重み付けされていないものであってよい。

【0047】

第１のオーディオ・セクション及び第２のオーディオ・セクションについて、コヒーレンス計算器１０２は、コンテンツ・コヒーレンスCoh’を、平均A(s_j,r)、ただし0<j<N+1、の平均値として計算する。ここで、Nは、セグメントを単位とした、第２のオーディオ・セクションの長さである。さらに、コンテンツ・コヒーレンスCoh’を、平均A(s_j,r)の最小値又は最大値として計算してよい。さらに、コヒーレンス計算器１０２は、コンテンツ・コヒーレンスCoh及びコンテンツ・コヒーレンスCoh’に基づいて、最終的な対称的コンテンツ・コヒーレンスを計算する。

【0048】

図３は、本発明の一実施形態によるコンテンツ・コヒーレンスを測定する例示的な方法３００を示すフローチャートである。

【0049】

方法３００において、所定の処理を、測定されたコンテンツ・コヒーレンスにしたがってオーディオ信号に実行する。その所定の処理は、その用途に依存する。オーディオ・セクションの長さは、セグメント化又はグループ化されるべき対象コンテンツのセマンティック・レベルに依存してよい。

【0050】

図３に示すように、方法３００はステップ３０１から始まる。ステップ３０３において、第１のオーディオ・セクション内の１つのオーディオ・セグメントs_i,lについて、第２のオーディオ・セクション内の、K個、ただしK>0、のオーディオ・セグメントs_j,rを決定する。数Kを、先行して、又は動的に決定してよい。決定されたオーディオ・セグメントは、セットKNN(s_i,l)を形成する。オーディオ・セグメントs_i,lとKNN(s_i,l)内のオーディオ・セグメントs_j,rとの間のコンテンツ類似度は、オーディオ・セグメントs_i,lと、第２のオーディオ・セクション内の、KNN(s_i,l)内のオーディオ・セグメントを除くすべての他のオーディオ・セグメントと、の間のコンテンツ類似度より高くなる。

【0051】

ステップ３０５において、オーディオ・セグメントs_i,lについて、オーディオ・セグメントs_i,lと、KNN(s_i,l)内の決定されたオーディオ・セグメントs_j1,r乃至s_jK,rとの間のコンテンツ類似度S(s_i,l，s_j1,r)乃至S(s_i,l，s_jK,r)の、平均A(s_i,l)を計算する。平均A(s_i,l)は、重み付けされたものであってよく、又は重み付けされていないものであってよい。

【0052】

ステップ３０７において、第１のオーディオ・セクションに、まだ処理されていない別のオーディオ・セグメントs_k,lが存在するかどうかを判定する。もしそうである場合、方法３００はステップ３０３に戻って、別の平均A(s_k,l)を計算する。もしそうでない場合、方法３００はステップ３０９へと進む。

【0053】

ステップ３０９において、第１のオーディオ・セクション及び第２のオーディオ・セクションについて、コンテンツ・コヒーレンスCohを、平均A(s_i,l)、ただし0<i<N+1、の平均値として計算する。ここで、Nは、セグメントを単位とした、第１のオーディオ・セクションの長さである。さらに、コンテンツ・コヒーレンスCohを、平均A(s_i,l)の最小値又は最大値として計算してよい。

【0054】

ステップ３１１において、方法３００は終了する。

【0055】

方法３００のさらなる実施形態において、第１のオーディオ・セクション内のオーディオ・セグメントs_i,lとKNN(s_i,l)のオーディオ・セグメントs_j,rとの間のそれぞれのコンテンツ類似度S(s_i,l，s_j,r)を、L>1において、第１のオーディオ・セクション内の数列[s_i,l，_…，s_i+L-1,l]と、第２のオーディオ・セクション内の数列[s_j,r，_…，s_j+L-1,r]との間のコンテンツ類似度として計算してよい。

【0056】

さらに、数列[s_i,l，_…，s_i+L-1,l]と数列[s_j,r，_…，s_j+L-1,r]との間のコンテンツ類似度S(s_i,l，s_j,r)を、動的時間伸縮法（DTW）スキーム又は動的計画法（DP）スキームを適用することによって、計算してよい。DTWスキームを適用する例において、第１のオーディオ・セクション内の所与の数列[s_i,l，_…，s_i+L-1,l]について、最も良くマッチする数列[s_j,r，_…，s_j+L’-1,r]を、第２のオーディオ・セクション内で、第２のオーディオ・セクション内のオーディオ・セグメントs_j,rから始まるすべての数列をチェックすることによって、決定してよい。次いで、数列[s_i,l，_…，s_i+L-1,l]と数列[s_j,r，_…，s_j+L’-1,r]との間のコンテンツ類似度S(s_i,l，s_j,r)を、式（４）によって計算してよい。

【0057】

図４は、方法３００のさらなる実施形態による、コンテンツ・コヒーレンスを測定する例示的な方法４００を示すフローチャートである。

【0058】

方法４００において、ステップ４０１、４０３、４０５、４０９及び４１１は、それぞれ、ステップ３０１、３０３、３０５、３０９及び３１１と同一の機能を有し、ここでは詳細には説明しないこととする。

【0059】

ステップ４０９の後、方法４００はステップ４２３へと進む。

【0060】

ステップ４２３において、第２のオーディオ・セクション内の１つのオーディオ・セグメントs_j,rについて、第１のオーディオ・セクション内のK個のオーディオ・セグメントs_i,lを決定する。その決定されたオーディオ・セグメントは、セットKNN(s_j,r)を形成する。オーディオ・セグメントs_j,rとKNN(s_j,r)内のオーディオ・セグメントs_i,lとの間のコンテンツ類似度は、オーディオ・セグメントs_j,rと、第１のオーディオ・セクション内の、KNN(s_j,r)内のオーディオ・セグメントを除くすべての他のオーディオ・セグメントと、の間のコンテンツ類似度より高くなる。

【0061】

ステップ４２５において、オーディオ・セグメントs_j,rについて、オーディオ・セグメントs_j,rとKNN(s_j,r)内の決定されたオーディオ・セグメントs_i1,l乃至s_iK,lとの間のコンテンツ類似度S(s_j,r，s_i1,l)乃至S(s_j,r，s_iK,l)の、平均A(s_j,r)を計算する。平均A(s_j,r)は、重み付けされたものであってよく、又は重み付けされていないものであってよい。

【0062】

ステップ４２７において、第２のオーディオ・セクションに、まだ処理されていない別のオーディオ・セグメントs_k,rが存在するかどうかを判定する。もしそうである場合、方法４００はステップ４２３に戻って、別の平均A(s_k,r)を計算する。もしそうでない場合、方法４００はステップ４２９へと進む。

【0063】

ステップ４２９において、第１のオーディオ・セクション及び第２のオーディオ・セクションについて、コンテンツ・コヒーレンスCoh’を、平均A(s_j,r)、ただし0<i<N+1、の平均値として計算する。ここで、Nは、セグメントを単位とした、第２のオーディオ・セクションの長さである。さらに、コンテンツ・コヒーレンスCoh’を、平均A(s_j,r)の最小値又は最大値として計算してよい。

【0064】

ステップ４３１において、最終的な対称的コンテンツ・コヒーレンスを、コンテンツ・コヒーレンスCoh及びコンテンツ・コヒーレンスCoh’に基づいて計算する。そして、方法４００はステップ４１１において終了する。

【0065】

図５は、実施形態による類似度計算器５０１の例を示すブロック図である。

【0066】

図５に示すように、類似度計算器５０１は、特徴生成器５２１、モデル生成器５２２及び類似度計算ユニット５２３を含む。

【0067】

計算すべきコンテンツ類似度について、特徴生成器５２１は、関連するオーディオ・セグメントから第１の特徴ベクトルを抽出する。

【0068】

モデル生成器５２２は、その特徴ベクトルからコンテンツ類似度を計算する、統計的モデルを生成する。

【0069】

類似度計算ユニット５２３は、その生成された統計的モデルに基づいて、コンテンツ類似度を計算する。

【0070】

２つのオーディオ・セグメント間のコンテンツ類似度の計算において、種々のメトリックを導入してよく、KLD、ベイズ情報量基準（BIC）、ヘリンガー距離、二乗距離、ユークリッド距離、コサイン距離及びマハラノビス距離を含むが、これらに限定されない。メトリックの計算は、オーディオ・セグメントから統計的モデルを生成することと、その統計的モデル間の類似度を計算することとを含んでよい。その統計的モデルは、ガウス分布に基づいてよい。

【0071】

さらに、同一の特徴ベクトルにおける特徴値のすべてが非負であるところの特徴ベクトルを抽出し、オーディオ・セグメントから特徴ベクトルの合計を持つことが、可能である（シンプレックス特徴ベクトル（simplex feature vectors）という）。この種の特徴ベクトルは、ガウス分布よりもディリクレ分布に従う。シンプレックス特徴ベクトルの例には、サブバンド特徴ベクトル（すべてのサブバンドの、全体のフレームエネルギーに対するエネルギー比から成る）と、１２次元ベクトルとして一般に定義され、各次元が半音クラスの強度に対応する、クロマ特徴とを含むが、これらに限定されない。

【0072】

類似度計算器５０１のさらなる実施形態において、２つのオーディオ・セグメント間で計算すべきコンテンツ類似度について、特徴生成器５２１は、オーディオ・セグメントからシンプレックス特徴ベクトルを抽出する。そのシンプレックス特徴ベクトルを、モデル生成器５２２に供給する。

【0073】

それに応じて、モデル生成器５２２は、シンプレックス特徴ベクトルから、ディリクレ分布に基づいて、コンテンツ類似度を計算する統計的モデルを生成する。その統計的モデルを、類似度計算ユニット５２３に供給する。

【0074】

特徴ベクトルx（オーダd≧2）のディリクレ分布を、パラメータα₁，…，α_d>0を用いて、次のように表してよい。

【0075】

【数5】

ここで、Γ()はガンマ関数であり、特徴ベクトルxは次のシンプレックス特性を満たす。

【0076】

【数6】

シンプレックス特性を、例えばL1正規化又はL2正規化などの、特徴正規化によって達成してよい。

【0077】

種々の方法を、統計的モデルのパラメータを推定するために導入してよい。例えば、ディリクレ分布のパラメータを、最大尤度（ML）法によって推定してよい。同様にして、ディリクレ混合モデル（DMM）を、より複雑な特徴分布を処理するために、推定してもよい。

【0078】

【数7】

そのディリクレ混合モデルは、式（７）のように、本質的に複数のディリクレ・モデルの混合である。

【0079】

それに応じて、類似度計算ユニット５２３は、生成された統計的モデルに基づいて、コンテンツ類似度を計算する。

【0080】

類似度計算ユニット５２３のさらなる例において、ヘリンガー距離を導入して、コンテンツ類似度を計算する。

【0081】

【数8】

この場合、２つのオーディオ・セグメントからそれぞれ生成される２つのディリクレ分布Dir(α)とDir(β)との間のヘリンガー距離D(α，β)を、式（８）のように計算してよい。

【0082】

あるいは、二乗距離を採用して、コンテンツ類似度を計算する。

【0083】

【数9】

この場合、２つのオーディオ・セグメントからそれぞれ生成される２つのディリクレ分布Dir(α)とDir(β)との間の二乗距離D_sを、式（９）のように計算してよい。

【0084】

例えば、メル周波数ケプストラム係数（MFCC）、スペクトルの流束及び輝度などの特徴を導入する場合、シンプレックス特性を有していない特徴ベクトルを抽出してもよい。さらに、これらの非シンプレックス特徴ベクトルを、シンプレックス特徴ベクトルに変換することが可能である。

【0085】

類似度計算器５０１のさらなる例において、特徴生成器５２１は、オーディオ・セグメントから非シンプレックス特徴ベクトルを抽出してよい。非シンプレックス特徴ベクトルのそれぞれについて、特徴生成器５２１は、非シンプレックス特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算してよい。さらに、その基準ベクトルは、非シンプレックス特徴ベクトルでもある。j=1，…，MにおいてM個の基準ベクトルz_jが存在すると仮定すると、Mは特徴生成器５２１が生成すべきシンプレックス特徴ベクトルの次元の数に等しい。１つの非シンプレックス特徴ベクトルと１つの基準ベクトルとの間の関係を測定する、ある量v_jが、その非シンプレックス特徴ベクトルとその基準ベクトルとの間の関連の度合を指す。その関係を、非シンプレックス特徴ベクトルに対して基準ベクトルを観測することによって取得される種々の特徴において、測定してよい。非シンプレックス特徴ベクトルに対応する量のすべてが正規化され、シンプレックス特徴ベクトルvを形成してよい。

【0086】

例えば、その関係は、次の
１）非シンプレックス特徴ベクトルと基準ベクトルとの間の距離
２）非シンプレックス特徴ベクトルと基準ベクトルとの間の相関又は相互の積（inter-product）
３）関連する証拠として非シンプレックス特徴ベクトルを用いた基準ベクトルの事後確率
のうちの１つであってよい。

【0087】

距離のケースにおいて、非シンプレックス特徴ベクトルxと基準ベクトルz_jとの間の距離として量v_jを計算し、次いで、式（１０）のように、取得された距離を１に正規化することが、可能である。

【0088】

【数10】

ここで、|| ||は、ユークリッド距離を表す。

【0089】

統計的又は確率的な方法を、関係を測定するために適用してもよい。事後確率のケースにおいて、各基準ベクトルが数種類の分布によってモデル化されていると仮定すると、シンプレックス特徴ベクトルを、式（１１）のように計算してよい。

【0090】

【数11】

ここで、p(x|z_j)は、基準ベクトルz_jを所与とした、非シンプレックス特徴ベクトルxの確率を表す。

【0091】

【数12】

事前のp(z_j)が一様に分布していることを前提とすると、確率p(z_j|x)を、式（１２）のように計算してよい。

【0092】

基準ベクトルを生成する代替的な方法が存在しうる。

【0093】

例えば、１つの方法が、基準ベクトルとして複数のベクトルをランダムに生成することであり、ランダム・プロジェクションの方法に類似する。

【0094】

別の例として、１つの方法が教師なしクラスタリング（unsupervised clustering）であり、その場合、訓練サンプルから抽出された訓練ベクトルをクラスタへとグループ化し、基準ベクトルはそのクラスタをそれぞれ表すように計算される。この方法において、それぞれの取得されたクラスタを、基準ベクトルと見なしてよく、その中心又は分布によって表してよい（例えば、その平均及び共分散を用いることによるガウス分布など）。K平均法及びスペクトラル・クラスタリングなどの、種々のクラスタリング方法を導入してよい。

【0095】

別の例として、１つの方法が教師ありモデリングであり、その場合、各基準ベクトルを、手動で収集されたデータのセットから手動で定義及び学習する。

【0096】

別の例として、１つの方法が固有値分解であり、その場合、行として訓練ベクトルを有するマトリクスの固有ベクトルとして、基準ベクトルを計算する。主成分分析（PCA）、独立成分解析（ICA）、及び線形判別分析（LDA）などの一般的な統計的手法を導入してよい。

【0097】

図６は、統計的モデルを導入することによってコンテンツ類似度を計算する例示的な方法６００を示すフローチャートである。

【0098】

図６に示すように、方法６００は、ステップ６０１から始まる。ステップ６０３において、２つのオーディオ・セグメント間で計算すべきコンテンツ類似度用に、特徴ベクトルをオーディオ・セグメントから抽出する。ステップ６０５において、コンテンツ類似度を計算する統計的モデルを、特徴ベクトルから生成する。ステップ６０７において、コンテンツ類似度を、生成された統計的モデルに基づいて計算する。方法６００は、ステップ６０９で終了する。

【0099】

方法６００のさらなる実施形態において、ステップ６０３において、シンプレックス特徴ベクトルを、オーディオ・セグメントから抽出する。

【0100】

ステップ６０５において、ディリクレ分布に基づく統計的モデルを、そのシンプレックス特徴ベクトルから生成する。

【0101】

方法６００のさらなる例において、ヘリンガー距離を導入して、コンテンツ類似度を計算する。あるいは、二乗距離を導入して、コンテンツ類似度を計算する。

【0102】

方法６００のさらなる例において、非シンプッレクス特徴ベクトルを、オーディオ・セグメントから抽出する。非シンプレックス特徴ベクトルのそれぞれについて、非シンプッレクス特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算する。非シンプレックス特徴ベクトルに対応する量のすべてが正規化され、シンプレックス特徴ベクトルvを形成してよい。その関係及び基準ベクトルに関するさらなる詳細は図５と関連して説明しているため、ここでは詳細には説明しないこととする。

【0103】

種々の分布を、コンテンツ・コヒーレンスを測定するために適用してよく、一方、種々の分布に対するメトリックを、共に組み合わせてよい。単に重み付けされた平均を用いることから、統計的モデルを用いることまで、種々の組み合わせ方法が可能である。

【0104】

コンテンツ・コヒーレンスを計算する基準は、図２に関連して説明した基準に限定されなくてよい。他の基準を導入してもよく、例えば、L．LuやA．Hanjalic．による“Text-Like Segmentation of General Audio for Content-Based Retrieval”、IEEE Trans．on Multimedia、vol．11、no．4、658-669、2009に記載の基準を導入してよい。この場合、図５及び図６に関連して説明したコンテンツ類似度を計算する方法を導入してよい。

【0105】

図７は、本発明の態様を実施する例示的なシステムを示すブロック図である。

【0106】

図７において、中央処理装置（CPU）７０１が、読取専用メモリ（ROM）７０２に記憶されたプログラム、又は記憶部７０８からランダム・アクセス・メモリ（RAM）７０３にロードされたプログラムに従って、種々の処理を行う。RAM７０３に、CPU７０１が種々の処理などを行う場合に必要となるデータを、必要に応じてさらに記憶する。

【0107】

CPU７０１、ROM７０２及びRAM７０３を、バス７０４を介して互いに接続する。入力／出力インタフェース７０５を、バス７０４にさらに接続する。

【0108】

入力／出力インタフェース７０５に、次の構成要素、すなわち、キーボード、マウス又は同種のものを含む入力部７０６、ブラウン管（CRT）、液晶ディスプレイ（LCD）又は同種のものなどのディスプレイとラウドスピーカーなどとを含む出力部７０７、ハードディスクなどを含む記憶部７０８、LANカードなどのネットワークインタフェースカード、モデム又は同種のものを含む通信部７０９、を接続する。通信部７０９は、インターネットなどのネットワークを介して通信処理を行う。

【0109】

さらに、ドライブ７１０を、必要に応じて入力／出力インタフェース７０５に接続する。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ又は同種のものなどのリムーバブルメディア７１１を、必要に応じてドライブ７１０にマウントし、したがってそこから読み込まれたコンピュータプログラムが、必要に応じて、記憶部７０８にインストールされる。

【0110】

上述のステップ及び処理をソフトウェアによって実施する場合、そのソフトウェアを構成するプログラムを、インターネットなどのネットワークからインストールし、あるいはリムーバブルメディア７１１などの記憶媒体からインストールする。

【0111】

本書で使用している用語は、単に特定の実施形態を説明する目的のものであって、本発明の限定を意図するものではない。本書において、単数形の「１つ（a、an）」及び「その（the）」は、その文脈がそうでないことを明確に示していない限り、その複数形も同様に含むことを意図する。用語「含む（comprises）」及び／又は「含んでいる（comprising）」は、本明細書において使用する場合、述べられた特徴、整数、ステップ、動作、要素、及び／又は構成要素の存在を特定するが、１又は複数の他の特徴、整数、ステップ、動作、要素、構成要素、及び／又はそれらのグループの、存在又は追加を除外しない。

【0112】

以降の請求項におけるすべてのミーンズ・プラス・ファンクション要素又はステップ・プラス・ファンクション要素の、対応する構造、材料、動作及び均等物は、具体的に請求されている他の請求された要素と組み合わせて機能を実行する、いかなる構造、材料又は動作も含むことが意図される。本発明の説明は図示及び説明の目的で提示されており、しかしながら、本発明の説明は網羅的であること、又は開示の形態に本発明が限定されることを目的とするものではない。多くの変更及び変形が、本発明の範囲及び主旨から逸脱しない範囲で、当業者に明らかになるであろう。実施形態は、本発明の原理及び実際的な用途を最も良く説明する目的で、当業者の他の人々が、考えられる具体的な使用に適する種々の変更と共に種々の実施形態について発明を理解することが可能となるように、選択及び記載された。

【0113】

本出願は、2011年8月19日申請の中国特許出願番号第201110243107．5号、及び2011年9月28日申請の米国特許仮出願番号第61/540,352号の優先権を主張し、その各々の全体を本書において参照により援用する。

【0114】

次の例示的な実施形態（各付記（EE））を記載する。
（付記１）
第１のオーディオ・セクションと第２のオーディオ・セクションとの間のコンテンツ・コヒーレンスを測定する方法であって：
前記第１のオーディオ・セクション内の各オーディオ・セグメントのそれぞれについて、
前記第２のオーディオ・セクション内の所定数のオーディオ・セグメントを決定するステップであって、前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記第２のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定するステップと、
前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算するステップと；
前記第１のオーディオ・セクション内の当該各オーディオ・セグメントについて計算された前記平均の平均値、最小値又は最大値として、第１のコンテンツ・コヒーレンスを計算するステップと；
を含む、方法。
（付記２）
前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントのそれぞれについて、
前記第１のオーディオ・セクション内の所定数のオーディオ・セグメントを決定するステップであって、前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記第１のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定するステップと、
前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算するステップと；
前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントについて計算された前記平均の平均値、最小値又は最大値として、第２のコンテンツ・コヒーレンスを計算するステップと；
前記第１のコンテンツ・コヒーレンス及び前記第２のコンテンツ・コヒーレンスに基づいて、対称的コンテンツ・コヒーレンスを計算するステップと；
をさらに含む、付記１に記載の方法。
（付記３）
前記第１のオーディオ・セクション内の前記オーディオ・セグメントs_i,lと、前記決定されたオーディオ・セグメントs_j,rとの間の前記コンテンツ類似度S(s_i,l，s_j,r)のそれぞれが、L>1において、前記第１のオーディオ・セクション内の数列[s_i,l，_…，s_i+L-1,l]と前記第２のオーディオ・セクション内の数列[s_j,r，_…，s_j+L-1,r]との間のコンテンツ類似度として計算される、
付記１又は付記２に記載の方法。
（付記４）
前記数列間の前記コンテンツ類似度は、動的時間伸縮法スキーム又は動的計画法スキームを適用することによって計算される、
付記３に記載の方法。
（付記５）
２つのオーディオ・セグメント間の前記コンテンツ類似度は、
前記オーディオ・セグメントから第１の特徴ベクトルを抽出するステップと、
前記特徴ベクトルから前記コンテンツ類似度を計算する統計的モデルを生成するステップと、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算するステップと、
によって計算される、付記１又は付記２に記載の方法。
（付記６）
前記第１の特徴ベクトルのそれぞれにおける特徴値のすべてが非負であり、前記特徴値の合計が１であり、前記統計的モデルはディリクレ分布に基づく、
付記５に記載の方法。
（付記７）
前記抽出するステップは、
前記オーディオ・セグメントから第２の特徴ベクトルを抽出するステップと、
前記第２の特徴ベクトルのそれぞれについて、前記第２の特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算するステップであって、前記第２の特徴ベクトルに対応する前記量のすべてが、前記第１の特徴ベクトルの１つを形成する、計算するステップと、
を含む、付記６に記載の方法。
（付記８）
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成されるところの、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算されるところの、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習されるところの、教師ありモデルリング法と、
前記基準ベクトルが、マトリクスの行として前記訓練ベクトルを有する前記マトリクスの固有ベクトルとして計算されるところの、固有値分解法と、
のうちの１つによって決定される、付記７に記載の方法。
（付記９）
前記第２の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第２の特徴ベクトルと前記基準ベクトルとの間の距離と、
前記第２の特徴ベクトルと前記基準ベクトルとの間の相関と、
前記第２の特徴ベクトルと前記基準ベクトルとの間の相互の積と、
関連する証拠として前記第２の特徴ベクトルを用いた前記基準ベクトルの事後確率と、
のうちの１つによって測定される、付記７に記載の方法。
（付記１０）
前記第２の特徴ベクトルxと前記基準ベクトルz_jとの間の距離v_jは、

【数13】

として計算され、ここで、Mは前記基準ベクトルの数であり、|| ||は、ユークリッド距離を表す、
付記９に記載の方法。
（付記１１）
前記関連する証拠として前記第２の特徴ベクトルxを用いた前記基準ベクトルz_jの前記事後確率p(z_j|x)は、

【数14】

として計算され、ここで、p(x|z_j)は前記基準ベクトルz_jを所与とした前記第２の特徴ベクトルxの確率を表し、Mは前記基準ベクトルの数であり、p(z_j)は事前分布である、
付記９に記載の方法。
（付記１２）
前記統計的モデルのパラメータが最大尤度法によって推定される、
付記６に記載の方法。
（付記１３）
前記統計的モデルは１又は複数のディリクレ分布に基づく、
付記６に記載の方法。
（付記１４）
前記コンテンツ類似度は、次のメトリック、すなわち、
ヘリンガー距離、
二乗距離、
カルバック・ライブラー・ダイバージェンス、及び
ベイズ情報量基準距離
のうちの１つによって測定される、付記６に記載の方法。
（付記１５）
前記ヘリンガー距離D(α，β)は、

【数15】

として計算され、ここで、α₁，…，α_d>0は前記統計的モデルのうち１つについてのパラメータであり、β₁，…，β_d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第１の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記１４に記載の方法。
（付記１６）
前記二乗距離D_sは、

【数16】

として計算され、ここで、

【数17】

であり、α₁，…，α_d>0は前記統計的モデルのうち１つについてのパラメータであり、β₁，…，β_d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第１の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記１４に記載の方法。
（付記１７）
第１のオーディオ・セクションと第２のオーディオ・セクションとの間のコンテンツ・コヒーレンスを測定する装置であって：
類似度計算器であって、前記第１のオーディオ・セクション内の各オーディオ・セグメントのそれぞれについて、
前記第２のオーディオ・セクション内の所定数のオーディオ・セグメントを決定する動作であって、前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記第２のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定する動作と、
前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算する動作と、
をなす、類似度計算器と；
前記第１のオーディオ・セクション内の当該各オーディオ・セグメントについて計算された前記平均の平均値、最小値又は最大値として、第１のコンテンツ・コヒーレンスを計算する、コヒーレンス計算器と；
を含む、装置。
（付記１８）
前記類似度計算器は、前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントのそれぞれについて、
前記第１のオーディオ・セクション内の所定数のオーディオ・セグメントを決定する動作であって、前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記第１のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定する動作と、
前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算する動作と、
をなすようにさらに構成され、
前記コヒーレンス計算器は、
前記第２のオーディオ・セクション内の前記所定数のオーディオ・セグメントについて計算された前記平均の平均値、最小値又は最大値として、第２のコンテンツ・コヒーレンスを計算する動作と、
前記第１のコンテンツ・コヒーレンス及び前記第２のコンテンツ・コヒーレンスに基づいて、対称的コンテンツ・コヒーレンスを計算する動作と、
をなすようにさらに構成される、
付記１７に記載の装置。
（付記１９）
前記第１のオーディオ・セクション内の前記オーディオ・セグメントs_i,lと前記決定されたオーディオ・セグメントs_j,rとの間の前記コンテンツ類似度S(s_i,l，s_j,r)のそれぞれが、L>1において、前記第１のオーディオ・セクション内の数列[s_i,l，_…，s_i+L-1,l]と前記第２のオーディオ・セクション内の数列[s_j,r，_…，s_j+L-1,r]との間のコンテンツ類似度として計算される、
付記１７又は付記１８に記載の装置。
（付記２０）
前記数列間の前記コンテンツ類似度は、動的時間伸縮法スキーム又は動的計画法スキームを適用することによって計算される、
付記１９に記載の装置。
（付記２１）
前記類似度計算器は、
前記コンテンツ類似度のそれぞれについて、関連するオーディオ・セグメントから第１の特徴ベクトルを抽出する、特徴生成器と、
前記特徴ベクトルから前記コンテンツ類似度のそれぞれを計算する統計的モデルを生成する、モデル生成器と、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算する、類似度計算ユニットと、
を含む、付記１７又は付記１８に記載の装置。
（付記２２）
前記第１の特徴ベクトルのそれぞれにおける特徴値のすべてが非負であり、前記特徴値の合計が１であり、前記統計的モデルはディリクレ分布に基づく、
付記２１に記載の装置。
（付記２３）
前記特徴生成器は、
前記オーディオ・セグメントから第２の特徴ベクトルを抽出する動作と、
前記第２の特徴ベクトルのそれぞれについて、前記第２の特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算する動作であって、前記第２の特徴ベクトルに対応する前記量のすべてが、前記第１の特徴ベクトルの１つを形成する、計算する動作と、
をなすようにさらに構成される、付記２２に記載の装置。
（付記２４）
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成されるところの、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算されるところの、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習されるところの、教師ありモデルリング法と、
前記基準ベクトルが、マトリクスの行として前記訓練ベクトルを有する前記マトリクスの固有ベクトルとして計算されるところの、固有値分解法と、
のうちの１つによって決定される、付記２３に記載の装置。
（付記２５）
前記第２の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第２の特徴ベクトルと前記基準ベクトルとの間の距離と、
前記第２の特徴ベクトルと前記基準ベクトルとの間の相関と、
前記第２の特徴ベクトルと前記基準ベクトルとの間の相互の積と、
関連する証拠として前記第２の特徴ベクトルを用いた前記基準ベクトルの事後確率と、
のうちの１つによって測定される、付記２３に記載の装置。
（付記２６）
前記第２の特徴ベクトルxと前記基準ベクトルz_jとの間の距離v_jは、

【数18】

として計算され、ここで、Mは前記基準ベクトルの数であり、|| ||は、ユークリッド距離を表す、
付記２５に記載の装置。
（付記２７）
前記関連する証拠として前記第２の特徴ベクトルxを用いた前記基準ベクトルz_jの前記事後確率p(z_j|x)は、

【数19】

として計算され、ここで、p(x|z_j)は前記基準ベクトルz_jを所与とした前記第２の特徴ベクトルxの確率を表し、Mは前記基準ベクトルの数であり、p(z_j)は事前分布である、
付記２５に記載の装置。
（付記２８）
前記統計的モデルのパラメータが最大尤度法によって推定される、
付記２２に記載の装置。
（付記２９）
前記統計的モデルは１又は複数のディリクレ分布に基づく、
付記２２に記載の装置。
（付記３０）
前記コンテンツ類似度は、次のメトリック、すなわち、
ヘリンガー距離、
二乗距離、
カルバック・ライブラー・ダイバージェンス、及び
ベイズ情報量基準距離
のうちの１つによって測定される、付記２２に記載の装置。
（付記３１）
前記ヘリンガー距離D(α，β)は、

【数20】

として計算され、ここで、α₁，…，α_d>0は前記統計的モデルのうち１つについてのパラメータであり、β₁，…，β_d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第１の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記３０に記載の装置。
（付記３２）
前記二乗距離D_sは、

【数21】

として計算され、ここで、

【数22】

であり、α₁，…，α_d>0は前記統計的モデルのうち１つについてのパラメータであり、β₁，…，β_d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第１の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記３０に記載の装置。
（付記３３）
２つのオーディオ・セグメント間のコンテンツ類似度を測定する方法であって、
前記オーディオ・セグメントから第１の特徴ベクトルを抽出するステップであって、前記第１の特徴ベクトルのそれぞれにおける特徴値のすべてが、非負であり、前記特徴値の合計が１であるように正規化される、抽出するステップと、
前記特徴ベクトルからディリクレ分布に基づいて前記コンテンツ類似度を計算する統計的モデルを生成するステップと、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算するステップと、
を含む、方法。
（付記３４）
前記抽出するステップは、
前記オーディオ・セグメントから第２の特徴ベクトルを抽出するステップと、
前記第２の特徴ベクトルのそれぞれについて、前記第２の特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算するステップであって、前記第２の特徴ベクトルに対応する前記量のすべてが、前記第１の特徴ベクトルの１つを形成する、計算するステップと、
を含む、付記３３に記載の方法。
（付記３５）
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成されるところの、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算されるところの、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習されるところの、教師ありモデルリング法と、
前記基準ベクトルが、マトリクスの行として前記訓練ベクトルを有する前記マトリクスの固有ベクトルとして計算されるところの、固有値分解法と、
のうちの１つによって決定される、付記３４に記載の方法。
（付記３６）
前記第２の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第２の特徴ベクトルと前記基準ベクトルとの間の距離と、
前記第２の特徴ベクトルと前記基準ベクトルとの間の相関と、
前記第２の特徴ベクトルと前記基準ベクトルとの間の相互の積と、
関連する証拠として前記第２の特徴ベクトルを用いた前記基準ベクトルの事後確率と、
のうちの１つによって測定される、付記３４に記載の方法。
（付記３７）
前記第２の特徴ベクトルxと前記基準ベクトルz_jとの間の距離v_jは、

【数23】

として計算され、ここで、Mは前記基準ベクトルの数であり、|| ||は、ユークリッド距離を表す、
付記３６に記載の方法。
（付記３８）
前記関連する証拠として前記第２の特徴ベクトルxを用いた前記基準ベクトルz_jの前記事後確率p(z_j|x)は、

【数24】

として計算され、ここで、p(x|z_j)は前記基準ベクトルz_jを所与とした前記第２の特徴ベクトルxの確率を表し、Mは前記基準ベクトルの数であり、p(z_j)は事前分布である、
付記３６に記載の方法。
（付記３９）
前記統計的モデルのパラメータが最大尤度法によって推定される、
付記３３に記載の方法。
（付記４０）
前記統計的モデルは１又は複数のディリクレ分布に基づく、
付記３３に記載の方法。
（付記４１）
前記コンテンツ類似度は、次のメトリック、すなわち、
ヘリンガー距離、
二乗距離、
カルバック・ライブラー・ダイバージェンス、及び
ベイズ情報量基準距離
のうちの１つによって測定される、付記３３に記載の方法。
（付記４２）
前記ヘリンガー距離D(α，β)は、

【数25】

として計算され、ここで、α₁，…，α_d>0は前記統計的モデルのうち１つについてのパラメータであり、β₁，…，β_d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第１の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記４１に記載の方法。
（付記４３）
前記二乗距離D_sは、

【数26】

として計算され、ここで、

【数27】

であり、α₁，…，α_d>0は前記統計的モデルのうち１つについてのパラメータであり、β₁，…，β_d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第１の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記４１に記載の方法。
（付記４４）
２つのオーディオ・セグメント間のコンテンツ類似度を測定する装置であって、
前記オーディオ・セグメントから第１の特徴ベクトルを抽出する、特徴生成器であって、前記第１の特徴ベクトルのそれぞれにおける特徴値のすべてが、非負であり、前記特徴値の合計が１であるように正規化される、特徴生成器と、
前記特徴ベクトルからディリクレ分布に基づいて前記コンテンツ類似度を計算する統計的モデルを生成する、モデル生成器と、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算する、類似度計算器と、
を含む、装置。
（付記４５）
前記特徴生成器は、
前記オーディオ・セグメントから第２の特徴ベクトルを抽出する動作と、
前記第２の特徴ベクトルのそれぞれについて、前記第２の特徴ベクトルと基準ベクトルの各々との間の関係を測定する、ある量を計算する動作であって、前記第２の特徴ベクトルに対応する前記量のすべてが、前記第１の特徴ベクトルの１つを形成する、計算する動作と、
をなすようにさらに構成される、付記４４に記載の装置。
（付記４６）
前記基準ベクトルは、次の方法、すなわち、
前記基準ベクトルがランダムに生成されるところの、ランダム生成法と
訓練サンプルから抽出された訓練ベクトルがクラスタへとグループ化され、前記基準ベクトルは前記クラスタをそれぞれ表すために計算されるところの、教師なしクラスタリング法と、
前記基準ベクトルが前記訓練ベクトルから手動で定義及び学習されるところの、教師ありモデルリング法と、
前記基準ベクトルが、マトリクスの行として前記訓練ベクトルを有する前記マトリクスの固有ベクトルとして計算されるところの、固有値分解法と、
のうちの１つによって決定される、付記４５に記載の装置。
（付記４７）
前記第２の特徴ベクトルと前記基準ベクトルの各々との間の前記関係は、次の量、すなわち、
前記第２の特徴ベクトルと前記基準ベクトルとの間の距離と、
前記第２の特徴ベクトルと前記基準ベクトルとの間の相関と、
前記第２の特徴ベクトルと前記基準ベクトルとの間の相互の積と、
関連する証拠として前記第２の特徴ベクトルを用いた前記基準ベクトルの事後確率と、
のうちの１つによって測定される、付記４５に記載の装置。
（付記４８）
前記第２の特徴ベクトルxと前記基準ベクトルz_jとの間の距離v_jは、

【数28】

として計算され、ここで、Mは前記基準ベクトルの数であり、|| ||は、ユークリッド距離を表す、
付記４７に記載の装置。
（付記４９）
前記関連する証拠として前記第２の特徴ベクトルxを用いた前記基準ベクトルz_jの前記事後確率p(z_j|x)は、

【数29】

として計算され、ここで、p(x|z_j)は前記基準ベクトルz_jを所与とした前記第２の特徴ベクトルxの確率を表し、Mは前記基準ベクトルの数であり、p(z_j)は事前分布である、
付記４７に記載の装置。
（付記５０）
前記統計的モデルのパラメータが最大尤度法によって推定される、
付記４４に記載の装置。
（付記５１）
前記統計的モデルは１又は複数のディリクレ分布に基づく、
付記４４に記載の装置。
（付記５２）
前記コンテンツ類似度は、次のメトリック、すなわち、
ヘリンガー距離、
二乗距離、
カルバック・ライブラー・ダイバージェンス、及び
ベイズ情報量基準距離
のうちの１つによって測定される、付記４４に記載の装置。
（付記５３）
前記ヘリンガー距離D(α，β)は、

【数30】

として計算され、ここで、α₁，…，α_d>0は前記統計的モデルのうち１つについてのパラメータであり、β₁，…，β_d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第１の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記５２に記載の装置。
（付記５４）
前記二乗距離D_sは、

【数31】

として計算され、ここで、

【数32】

であり、α₁，…，α_d>0は前記統計的モデルのうち１つについてのパラメータであり、β₁，…，β_d>0は前記統計的モデルのうち別のものについてのパラメータであり、d≧2は前記第１の特徴ベクトルの次元の数であり、Γ()はガンマ関数である、
付記５２に記載の装置。
（付記５５）
コンピュータ読取可能媒体であって、当該コンピュータ読取可能媒体上に記録されたコンピュータプログラム命令を有し、前記命令は、プロセッサによって実行されると、前記プロセッサに、第１のオーディオ・セクションと第２のオーディオ・セクションとの間のコンテンツ・コヒーレンスを測定する方法を実行させ、前記方法は：
前記第１のオーディオ・セクション内の各オーディオ・セグメントのそれぞれについて、
前記第２のオーディオ・セクション内の所定数のオーディオ・セグメントを決定するステップであって、前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記の決定されたオーディオ・セグメントとの間のコンテンツ類似度が、前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記第２のオーディオ・セクション内の前記決定されたオーディオ・セグメント以外のすべてのオーディオ・セグメントとの間のコンテンツ類似度より高くなるような所定数のオーディオ・セグメントを決定するステップと、
前記第１のオーディオ・セクション内の当該各オーディオ・セグメントと前記決定されたオーディオ・セグメントとの間の前記コンテンツ類似度の平均を計算するステップと；
前記第１のオーディオ・セクション内の当該各オーディオ・セグメントについて計算された前記平均の平均値として、第１のコンテンツ・コヒーレンスを計算するステップと；
を含む、コンピュータ読取可能媒体。
（付記５６）
コンピュータ読取可能媒体であって、当該コンピュータ読取可能媒体上に記録されたコンピュータプログラム命令を有し、前記命令は、プロセッサによって実行されると、前記プロセッサに、２つのオーディオ・セグメント間のコンテンツ類似度を測定する方法を実行させ、前記方法は、
前記オーディオ・セグメントから第１の特徴ベクトルを抽出するステップであって、前記第１の特徴ベクトルのそれぞれにおける特徴値のすべてが、非負であり、前記特徴値の合計が１であるように正規化される、抽出するステップと、
前記特徴ベクトルからディリクレ分布に基づいて前記コンテンツ類似度を計算する統計的モデルを生成するステップと、
前記の生成された統計的モデルに基づいて前記コンテンツ類似度を計算するステップと、
を含む、コンピュータ読取可能媒体。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第6113228号(P6113228)IP Force 特許公報掲載プロジェクト 2022.1.31 β版