(58)【調査した分野】(Int.Cl.,DB名)
前記コンテンツ・サンプルの伸張係数を決定することであって、前記伸張係数が、前記コンテンツ・サンプルがレンダリングされた速度と前記コンテンツ・セグメントの元の再生の速度との差を示すこと、および
前記コンテンツ・サンプルの前記伸張係数を前記ソース・サンプルの伸張係数と比較すること
をさらに備える請求項1に記載の方法。
前記コンテンツ・サンプルの識別を、前記ソース・サンプルの識別と比較することを備える操作を前記コンピューティング・デバイスに実施させる命令をさらに備える請求項15に記載のコンピュータ読取り可能記録媒体。
ソースからのコンテンツ・セグメントの表現である前記コンテンツ・サンプルをクライアント・デバイスから受信することを備える操作を前記コンピューティング・デバイスに実施させる命令をさらに備える請求項15に記載のコンピュータ読取り可能記録媒体。
前記知られているソースを識別する情報を前記クライアント・デバイスに送ることを備える操作を前記コンピューティング・デバイスに実施させる命令をさらに備える請求項15に記載のコンピュータ読取り可能記録媒体。
前記放送チャネル・サンプラが、前記ソース・サンプルを生成するために、前記それぞれの知られているソースによってレンダリングされた前記コンテンツをサンプリングするように構成される請求項21に記載の監視局。
前記放送チャネル・サンプラが、前記それぞれの知られているソースによってレンダリングされた前記コンテンツを連続してサンプリングするように構成される請求項22に記載の監視局。
前記プロセッサが、前記コンテンツ・サンプルの識別を、前記ソース・サンプルの識別と比較し、前記コンテンツ・サンプルと前記ソース・サンプルの一致する識別に基づいて、前記コンテンツ・セグメントがそこからレンダリングされた前記知られているソースを識別するようにさらに構成される請求項22に記載の監視局。
【発明を実施するための最良の形態】
【0013】
コンテンツ識別の分野では、コンテンツだけでなく、ブロードキャスト送信のソース(チャネル、ストリームまたは局など)をも識別することが望まれ得る。たとえば、ユーザがどのラジオ局を聴いているか、およびどの曲をユーザが聴いているかをラジオ放送の自由音場のオーディオ・サンプルから検出することが望まれ得る。
【0014】
以下で述べる例示的な実施形態は、所望のコンテンツの放送源を識別するための方法および装置を示している。一実施形態では、ユーザは、放送源を識別するために、マイクと任意選択のデータ送信手段とを含むオーディオ・サンプリング装置を使用することができる。ユーザは、ラジオやテレビなど、何らかの放送手段から放送されているオーディオ番組を聞くことがあり、オーディオ・サンプリング装置を使用してオーディオのサンプルを記録することができる。次いで、サンプルは、ユーザがどのラジオ局を聴いているか決定するために分析手段に伝達される。次いで、放送情報は、たとえば販促の広告、懸賞の通知、割引きの案内、および特定のラジオ局に固有の他の情報と組み合わせてユーザに報告し返され得る。またこの情報は、顧客の追跡を行う代理店に報告されることも、統計のため別のやり方で集約されることもあり得る。したがって、オーディオ・サンプルは自由音場のコンテンツ識別技術を使用してそのコンテンツを識別するために分析され得るだけでなく、オーディオ・サンプルは、その放送源を決定するために分析されることもできる。
【0015】
次に図を参照すると、
図1は、所望のコンテンツの放送源を識別するためのシステムの一例を示している。このシステムはオーディオ・サンプリング装置102を含み、このオーディオ・サンプリング装置をユーザは使用して、たとえばラジオやテレビのコンテンツ・プロバイダなど、放送業者104によって放送されまたは送信されるオーディオ・サンプルを記録する。次いで、ユーザは、オーディオ・サンプリング装置102にオーディオ・サンプルを無線または有線手段を介してサンプル・アナライザ106に送信させる。したがって、オーディオ・サンプリング装置102は、モバイル携帯電話、PDA、または処理手段を備えた任意の装置であり得る。オーディオ・サンプルを使用してサンプル・アナライザ106は、たとえばオーディオ・サンプルおよび放送情報を含むデータベース108にアクセスするなどによって、その放送に関する情報を識別することができる。この情報は、コンテンツの識別および/または放送の識別を含み得る。次いで、放送情報は、情報をオーディオ・サンプリング装置102に送信することによってユーザに報告し返され得る。追加の情報もまた、たとえば販促広告、割引きの案内、および特定のラジオ局に固有の他の情報などの放送情報を付けてユーザに送信され得る。放送情報は、データ・ストア110に報告されることもでき、このデータ・ストアは、たとえば顧客の追跡を行う代理店や他の統計センタであり得る。
【0016】
相対時間比較によるソース識別
一実施形態では、放送源が、オーディオ・サンプルのタイム・スタンプ付きの記録および放送チャネルからの記録を実施し、次いで比較のため記録の特性を識別することによって識別される。たとえば、ほぼ同じ時に取られた記録の「指紋」が比較されることができ、こうした比較によって、オーディオ・サンプルがそこから記録された放送チャネルを直接に識別することが可能になる。この方法を使用して、直接の信号ではなく信号のスペクトルのピークまたは他の特性が比較される。さらに、正確な放送チャネルは、たとえばコンテンツ識別が必要とされずに識別され得る。
【0017】
図2は、放送源を識別する方法を示すフローチャートである。最初に、ブロック202に示すように、フィールドでユーザが、サンプリング装置を用いてオーディオ・サンプルを収集し得る。サンプリング装置はさらに、共通の時間ベースからの「リアルタイム」オフセットに基づいて、サンプルにタイム・スタンプを付ける。本明細書に完全に記載されているかのように開示全体が参照により本明細書に組み込まれている、米国特許出願公報2002/0083060、「System and Methods for Recognizing Sound and Music Signals in High
Noise and Distortion」に記載されたWang and Smithの技術(以下でより完全に述べる)を使用して、ブロック204および206に示すように、サンプルの特性、および「元の」記録内のオーディオ・サンプルの予想時間オフセットが(たとえばサンプルが記録された時の曲の箇所を決定するために)決定される。
【0018】
同時に、ブロック208に示すように、監視されている放送チャネルからのサンプルが記録される。ブロック208および210に示すように、ユーザ・サンプルと同じように各放送サンプルもまた、共通の時間ベースからの「リアルタイム」オフセットに基づいて、サンプルにタイム・スタンプが付けられる。さらに、後述のWang and Smithの技術を使用して、「元の」記録内の放送サンプルの特性および予想時間オフセットが(たとえばサンプルが記録された時の曲の箇所を決定するために)決定される。
【0019】
次いで、ブロック214に示すように、ユーザ・サンプルの特性は、ユーザ・サンプルが記録された時刻に、またはそれに近い時に取られた放送サンプルからの特性と比較される。ユーザ・オーディオ・サンプルのタイム・スタンプは、比較のため放送サンプルを識別するために使用される。さらに、ブロック216に示すように、ユーザ・オーディオ・サンプルの時間オフセットは、一致の識別のため放送サンプルの時間オフセットと比較される。リアルタイム・オフセットがたとえば1秒など、特定の許容範囲内にある場合には、ユーザ・オーディオ・サンプルは、同じオーディオ・コンテンツ(ヒット曲など)のランダムな実施が1秒未満に同期される確率は低いので、放送サンプルと同じソースからのものであると見なされる。
【0020】
ブロック218および220に示すように、ユーザ・オーディオ・サンプルは、一致が検出されるまで、すべての放送チャネルからのサンプルと比較される。一致が検出されると、ブロック222に示すように、ユーザ・サンプルの放送源が識別される。
【0021】
図3は、
図2に示す方法に従ってオーディオ・サンプルの放送源を識別するためのシステムの一例を示している。オーディオ・サンプルは、ラジオ局1、ラジオ局2、ラジオ局3、…、またはラジオ局k 302から生じ得る。ユーザは、オーディオ・サンプリング装置306(携帯電話など)上で、個々の受信機304から放送されているオーディオ・サンプルをサンプル時刻(サンプルが記録される、標準の基準クロックによる時刻など)と共に記録し得る。
【0022】
次いで、ユーザは、たとえばIVR応答システム308など、オーディオ・サンプルに関する放送情報を識別するためのサービスにダイヤルし得る。システム設定またはユーザの制約に基づいて、オーディオ・サンプルは、任意の数のアナログまたはデジタル・ソース、たとえばステレオ・システム、テレビ、ラジオ放送、インターネット・ストリーミング放送、または記録されたこうした素材を送信する他の任意の適切な手段から、IVRシステム308に提供される。ソースに応じてサンプルは、音波、電波、デジタル・オーディオPCMストリーム、圧縮デジタル・オーディオ・ストリーム(ドルビー・デジタルやMP3など)またはインターネット・ストリーミング放送の形であり得る。ユーザは、電話、携帯電話、ウェブ・ブラウザまたは電子メールなど、標準のインターフェースを介してIVRシステム308と対話する。
【0023】
システム308は最初に、サンプリング装置306からオーディオ・サンプルを受信し、次いで、サンプルの特性または指紋を識別しまたは計算する。指紋が計算されるサンプル内の具体的な位置は、サンプル内の再生可能な箇所に依存する。再生可能に計算できるこうした位置は、「地標」(landmarks)と称される。地標のサンプル内の位置は、サンプル自体によって決定されることができ、すなわち、サンプル品質に依存し、また再生可能である。すなわち、処理が繰り返されるごとに同じ地標が同じ信号について計算される。地標指定(landmarking)の手法は、サウンド記録の1秒ごとに約5から10個の地標をマーキングすることができるが、もちろん、地標指定の密度は、サウンド記録内の活動量に依存する。
【0024】
電力ノルム(power norm)として知られている1つの地標指定技術は、記録内のあらゆる可能な時点で瞬間電力を計算し、局所最大値を選択することである。これを行う1つのやり方は、波形を直接に整流し、フィルタリングすることによって包絡線を計算することである。別のやり方は、信号のヒルベルトHibert変換(直交)を計算し、ヒルベルト変換と元の信号の振幅二乗和を使用することである。地標計算のための他の方法も使用され得る。
【0025】
地標が計算されると、記録の各地標時点で、またはその近くでその指紋が計算される。特徴の地標への近さは、使用される指紋採取方法によって定義される。一部の場合では、特徴は、それが明らかにある地標に対応しており、前または次の地標には対応していない場合には、その地標に近いと見なされる。他の場合では、特徴は、隣接する複数の地標に対応する。指紋は一般に、その地標時点でまたはその近くで記録内の1組の特徴を要約する値または1組の値である。一実施形態では、それぞれの指紋は、複数の特徴のハッシュ化された関数である単一の数値である。指紋の他の例は、スペクトル・スライスによる指紋、マルチスライスによる指紋、LPC係数、ケプストラム係数、およびスペクトル・ピークの周波数成分が含まれる。
【0026】
指紋は、任意のタイプのデジタル信号処理または信号の周波数分析によって計算され得る。一実施例では、スペクトル・スライス指紋を生成するために周波数分析が、複数の上位スペクトラム・ピークを抽出するために各地標時点の近傍において実施される。指紋値は、最強のスペクトラム・ピークのまさに単一の周波数値である。
【0027】
多くの音の時間進化を利用するため、1組のタイムスライスが、1組のタイムオフセットを地標時点に加算することによって求められる。結果として生じる各タイムスライスで、スペクトル・スライス指紋が計算される。次いで、結果として生じる1組の指紋情報は、マルチトーンまたはマルチスライス指紋を形成するために組み合わされる。それぞれのマルチスライス指紋は、時間進化を追跡し、データベース・インデックス探索において偽一致が減少するので、単一スペクトル・スライス指紋よりも一意性が高い。
【0028】
オーディオ・サンプルの特性または指紋の計算に関するさらなる情報については、本明細書に完全に記載されているかのように開示全体が参照により本明細書に組み込まれている、米国特許出願公報2002/0083060、Wang and Smith、「System and Methods for Recognizing Sound and Music Signals in High
Noise and Distortion」を参照されたい。
【0029】
したがって、システム308は、サンプリング装置306からオーディオ・サンプルを受信し、サンプルの指紋を計算する。システム308は、指紋抽出器310などの追加の指紋エンジンと接触することによって指紋を計算し得る。したがって、システム308は、放送サンプルとの比較のために使用され得るオーディオ・サンプルのタイム・スタンプ付き指紋トークンを有する。
【0030】
放送監視局312は、放送サンプルを取得するためにラジオ局302の各放送チャネルを監視する。監視局312は、ラジオ局302から放送情報を受信するためのマルチチャネル無線受信機314を含む。放送情報は、チャネル・サンプラ1…k316に送信される。それぞれのチャネル・サンプラ316は、上述したように、またWang and Smithの文献内に記載されているように、放送サンプルの指紋を計算するためのチャネル指紋抽出器318を含む。
【0031】
次いで、監視局312は、指紋ブロック・ソータ320内で特定の時間の間、各放送サンプルごとの指紋をソートし格納し得る。監視局312は、データ記録に対応する時間を記録しながら、放送業者からのオーディオ・ストリームを連続的に監視することができる。所定の時間量の後、監視局312は、たとえば情報をリフレッシュして現在放送中のオーディオ・サンプルに協調させるために、格納された放送サンプルの指紋に上書きすることができる。所定の長さの回転バッファが、最近の指紋履歴を保持するために使用され得る。回転バッファ内の指紋は、入ってくるサンプルから生成される指紋と比較されるので、特定のカットオフ時間より前の指紋は、遠過ぎる過去において収集されたオーディオを表していると見なされるため無視されることができる。バッファの長さは、ボイス・オーバIPネットワーク、インターネット・ストリーミング、およびバッファされた他のコンテンツのネットワーク待ち時間など、リアルタイム放送プログラムから生じるオーディオ信号のリアルタイムの同時記録にとって妥当だと思われる最大の許容可能遅延によって決まる。遅延は、数ミリ秒から数分の範囲であり得る。
【0032】
回転バッファは、時間ブロックの束、たとえば、恐らくそれぞれがM=10秒の長さの時間ブロックの束を使用して生成されることができ、新しい〔ハッシュ+チャネルID+タイム・スタンプの〕10秒ブロックごとに大きいバケット内に入れられ(dump into)、ハッシュでソートされる。次いで、それぞれのブロックが古くなり、一致するハッシュを収集するために、N*Mを最長の履歴長さ、また(N−1)*Mを最短の履歴長さとして、N個のブロックのそれぞれについて並列探索が行われる。ハッシュ・ブロックは、ベルト・コンベア方式で退去され得る。
【0033】
所与のオーディオ・サンプルに対応する放送情報の決定のためのユーザ・サンプリング装置306から問合せを受信すると、監視局312は、放送サンプル指紋内の直線的に対応する指紋ハッシュを探索する。具体的には、監視局312内のプロセッサ322は、まず(セレクタ320を使用して)所与の放送チャネルを選択して、ユーザ・サンプル時刻にまたはそれに近い時に記録された放送サンプルの放送サンプル識別がユーザ・オーディオ・サンプルの指紋に一致するかどうか判断する。そうでない場合は、セレクタ320は、次の放送チャネルを選択し、一致を求めて探索を続ける。
【0034】
放送サンプルおよびユーザ・オーディオ・サンプルの指紋は、等価の指紋間の対応点を生成することによってマッチングされ、直線的に関連する最多数の対応点を有し、または特徴的な指紋の相対位置がオーディオ・サンプルの同じ指紋の相対位置に最も密接に一致するファイルが一致するメディア・ファイルと見なされる。
【0035】
具体的には、ユーザ・オーディオ・サンプルの指紋は、ソータ320内に格納された一致する指紋のセットを取り出すために使用される。次いで、取り出された指紋のセットは、サンプル・地標と、同じ指紋が計算された取り出されたファイル・地標とを含む対応の対を生成するために使用される。次いで、結果として生じる対応の対は、メディア・ファイル識別子でソートされ、サンプル・地標と適用可能な各ファイルのファイル・地標との間の対応点のセットが生成される。それぞれのセットは、ファイル・地標とサンプル・地標の間のアライメント(alignment)を求めてスキャンされる。すなわち、地標の対における直線的な対応点が識別され、そのセットは、直線的に関連する対の数に応じてスコアが付けられる。直線的な対応点は、多数の一致するサンプル位置とファイル位置が、許される許容範囲内で事実上同じ一次方程式で表され得る場合に生じる。最高のスコア、すなわち線形に関連する最多数の対応点を有するセットのファイルがウインニング・ファイル(winning file)である。
【0036】
さらに、複数のチャネルからの組合せハッシュの指紋ストリームが、〔ハッシュ+チャネルID+タイム・スタンプ〕のセットにグループ化されることができ、これらのデータ構造体は、時間で順序付けられた回転バッファ内に置かれ得る。回転バッファの中身は、指紋のオーディオ・サンプルとの一致をより速く探索するためにハッシュ値でさらにソートされてもよく、たとえば、時間的に調整された、一致するハッシュの数がスコアである。
【0037】
スペクトル・ピークが調整され得るさらなる検証ステップが使用され得る。Wang and Smith技術は相対時間オフセットを生成するので、たとえば時間軸の約10ms以内でスペクトル・ピークのレコードを時間的に調整することが可能である。次いで、一致する時間の数および周波数ピークが決定されることができ、それが、比較のために使用され得るスコアである。
【0038】
2つの別個の信号が複数の同一の指紋を含むことがあり得るが、これらの指紋が同じ相対時間進化を有する可能性は低い。たとえば、相対オフセットがゼロに近い場合、ストリームが同じソースから監視されている可能性が高い。時間遅延がより長くランダムであることは、同時に発生するが、独立している同じオーディオ・プログラムのコピーをユーザが聴いていることを意味し得る。直線的な対応点の要件は、重要な特徴であり、単純に共通の特徴の総数をカウントし、特徴間の類似性を測定する技術よりも優れた認識を提供する。
【0039】
正確なオーディオ・サウンドが識別されると、結果は任意の適切な方法によってユーザまたはシステム324に報告される。たとえば、結果は、コンピュータのプリントアウト、電子メール、ウェブ検索結果ページ、携帯電話へのSMS(ショート・メッセージング・サービス)テキスト・メッセージング、電話でのコンピュータ生成音声注釈、またはウェブ・サイトまたはユーザが後にアクセスし得るインターネット・アカウントへの結果の掲載によって報告され得る。報告される結果は、放送業者名、放送録音の属性(演奏者、指揮者、会場など)、広告の企業および製品、あるいは他の任意の適切な識別子など、音の源の識別情報を含み得る。さらに、人名情報、付近のコンサートに関する情報、および愛好者にとって興味のある他の情報が提供されることができ、こうしたデータへのハイパーリンクが設けられ得る。報告される結果は、サウンド・ファイルの絶対スコア、または次に最も高いスコアのファイルと比較したそのスコアを含み得る。
【0040】
指紋の計算および比較に関するさらなる情報については、本明細書に完全に記載されているかのように開示全体が参照により本明細書に組み込まれている、米国特許出願公報2002/0083060、Wang and Smith、「System and Methods for Recognizing Sound and Music Signals in High
Noise and Distortion」を参照されたい。
【0041】
放送源の識別について上述した諸実施形態では、ユーザ・サンプリング装置306がサンプルを記録し、次いで比較のため監視局312にサンプルを送信すると想定されていた。あるいは、ユーザ・サンプリング装置306は、監視局312と接触し、監視局312にサンプルを瞬時に送信し得る(たとえば、サンプリング装置306が電話である場合、ユーザは監視局312に電話をかけ、通話(phone call conversation)として監視局312にサンプルをストリーミングすることができる)。別の実施例では、ユーザ・サンプリング装置306は、サンプルを記録し、サンプルの指紋を識別し、比較のため監視局312に指紋を単に送信し得る。他の実施例もあり得る。
【0042】
タイム・スタンプ付きの識別によるソース識別
別の実施形態では、放送源は、タイム・スタンプ付きの識別を実施することによって識別され得る。
図4は、タイム・スタンプ付きの放送識別を実施するための機能ステップを示すフローチャートの一例を示している。最初に、ブロック402で示すように、ユーザによって収集されたユーザ・オーディオ・サンプルが、Wang and Smithによる上述の手段(たとえばオーディオ・コンテンツ・ファイルのデータベースからのオーディオ・サンプルの識別)など、コンテンツ識別手段を使用して識別される。ユーザ・オーディオ・サンプルが収集される間、ブロック404に示すように、ユーザ・サンプル・タイム・スタンプ(UST:user sample timestamp)が、標準の基準クロックに基づいてオーディオ・サンプルの開始時刻をマーキングするために取られる。上記で論じたWang and Smithによって開示された識別方法を使用すると、データベースからの識別されたコンテンツ・ファイルの最初と、分析されているオーディオ・サンプルの最初の間の正確な相対時間オフセットが生成され、たとえばユーザは曲が始まって67秒経過したところの曲の10秒のサンプルを記録することができる。したがって、ブロック406に示すように、ユーザ・サンプル相対時間オフセット(USRTO:user sample relative time offset)およびユーザ・サンプル識別が、ユーザ・オーディオ・サンプル識別結果として書き留められる。
【0043】
あるいは、ユーザ・オーディオ・サンプルは、たとえばユーザ・サンプル識別、ユーザ・サンプル・タイム・スタンプ(UST)およびユーザ・サンプル相対時間オフセット(USRTO)を生成するために中央の識別サーバに送信され、あるいはユーザ・オーディオ・サンプリング装置上で部分的にまたは完全に分析され得ることに留意されよう。
【0044】
同時に、放送オーディオ・サンプルが、監視局によって監視されている少なくとも1つの放送チャネルのそれぞれから定期的に取られ、ブロック408に示すように、コンテンツ識別ステップが同様に、各放送チャネルについて実施される。放送サンプルは、各放送チャネルにおいてオーディオ・プログラム単位に(すなわち曲単位に)少なくとも1つのサンプルが取られるほど十分な頻度で取られるべきである。たとえば、監視局が10秒のサンプルを記録する場合、コンテンツ識別の後に監視局は曲の長さを知っており、曲が終わるまでどれほどの長さであるかをも知る。したがって、監視局は、たとえば、曲の残りの時間の長さに基づいて放送チャネルをサンプリングする次の時刻を計算し得る。
【0045】
ブロック410に示すように、それぞれの放送サンプルについて、放送サンプル・タイム・スタンプ(BST:broadcast sample timestamp)もまた、標準の基準クロックに基づいて各サンプルの最初をマーキングするために取られる。さらに、データベースからの識別されたコンテンツ・ファイルの最初と、分析されている放送サンプルの最初との間の相対時間オフセットが計算される。したがって、ブロック412に示すように、放送サンプル相対時間オフセット(BSRTO:broadcast sample relative time offset)および放送サンプル識別が、各放送オーディオ・サンプルの識別結果として書き留められる。
【0046】
放送源を識別するために、ユーザ・オーディオ・サンプルと放送オーディオ・サンプルが比較されて、ブロック414に示すように一致するサンプル識別がまず識別され、次いで、ブロック416に示すように、一致する「相対時間」が識別される。一致が検出されない場合は、ブロック418および420に示すように、比較のため別の放送チャネルが選択される。一致が検出される場合は、ブロック422に示すように、対応する放送情報がユーザに報告し返される。
【0047】
ユーザ・サンプルと放送サンプルの比較は、以下に示すように実施される。
(ユーザ・サンプル識別)=(放送サンプル識別) 数式(1)
USRTO+(ref.時間−UST)=BSRTO+(ref.時間−BST)+遅延 数式(2)
ただし、ref.時間は共通の基準クロック時間であり、(ref.時間−UST)および(ref.時間−UST)は、ユーザ・オーディオ・サンプリング装置および監視局によるサンプリング時間がそれぞれ異なる可能性を考慮に入れている(ref.時間−BST)=最後の放送サンプルから現在の経過時間など)。たとえば、放送局が1分ごとに1回サンプリングされる場合、またユーザ・サンプルは任意の時に生じ得るので、正確な一致を検出するために、放送およびユーザ・サンプルのそれぞれの最後のサンプルからの経過時間の測定が必要とされ得る。数式(2)において、遅延は、たとえばデジタル携帯電話ネットワークを介した待ち時間など、ユーザ・オーディオ・サンプルによって取られる追加の経路の伝搬遅延による時間差によって決まる、系統立った小さい許容差である。さらに、数式(2)の任意の代数置換は、本出願の範囲内である。
【0048】
したがって、サンプル識別を一致させることによって、たとえば同じ曲が比較されていることが確実になる。したがって、相対時間を一致させることによって、サンプルが互いに等価の時間フレームとなり、正確な一致が行われることが可能となる。
【0049】
具体的な例として、監視局が3秒ごとに放送事業者から曲をサンプリングし、したがって、午後2:02に監視局が、午後2:00に曲を再生し始めた放送局から、4分の長さの曲を10秒間隔で記録し始める。よって、BST=午後2:02であり、BSTRO=2分である。ユーザが同じ曲を午後2:03に記録し始めると想定する。よって、UST=2:03であり、BSTRO=3分である。ユーザが曲の放送源を識別するために現在午後2:04に監視局と接触する場合、上記の数式(2)は以下の通りである(遅延は無視できるほど小さいものとする)。
USRTO+(ref.時間−UST)=BSRTO+(ref.時間−BST)+遅延→
3+(2:04−2:03)=2+(2:04−2:02)=4
したがって、監視局はそれが曲の正確な一致を行ったことを知り、また監視局は曲の出所をも知る。結果として、監視局は、ユーザに放送源について知らせることができる。
【0050】
ユーザ・サンプルが間違った放送チャネル、または監視されないオーディオ・ソース(CDプレーヤーなど)から取られ、また数式(1)および(2)を偶然に満たす確率はかなり低いので、識別誤りの確率は低い。
【0051】
したがって、数式(1)および(2)が成り立つかどうかに留意することによって、ユーザ・オーディオ・サンプルが所与の放送源から来るものがどうか判断される。これが成り立つ放送チャネルが検出される場合、この放送チャネルはユーザが聴いているチャネルであると判断される。この情報は書き留められ、何らかの後続の措置のために情報を使用するユーザまたは報告手段に中継される。
【0052】
図5は、
図4に示す方法に従ってオーディオ・サンプルの放送源を識別するためのシステムの一例を示している。オーディオ・サンプルは、ラジオ局1、ラジオ局2、ラジオ局3、…、またはラジオ局k 502から生じ得る。ユーザは、オーディオ・サンプリング装置506(携帯電話など)上で、個々の受信機504から放送されているオーディオ・サンプルをサンプル時刻(サンプルが記録される、標準の基準クロックによる時刻など)と共に記録し得る。次いで、ユーザは、たとえばIVR応答システム508などを使用して、オーディオ・サンプルに関する放送情報を識別するためのサービスにダイヤルし得る。システム508は最初に、オーディオ認識エンジン510に接触することによってオーディオ・サンプルを識別する。携帯電話サンプリング装置の場合、IVRシステム508は、たとえば、オーディオ認識エンジン510に接触するためにセルラ通信ネットワークを使用し得る。
【0053】
次いで、オーディオ認識エンジン510は、たとえば上述のWang and Smithの文献に記載された技術を使用してオーディオ・プログラム・データベース512内で検索を実施することによってオーディオ・サンプルを識別する。具体的には、オーディオ・サンプルは、様々なソースから得られる任意のサイズのメディア・データのセグメントであり得る。データ認識を実施するためにサンプルは、データベース内でインデックス付けされたメディア・ファイルの一部を表現したものであるべきである。インデックス付けされたメディア・ファイルは元の記録、またサンプルは元の記録の歪められかつ/または要約されたバージョンまたは表現であると考えられ得る。一般にサンプルは、インデックス付けされたファイルのほんの一部に対応するにすぎない。たとえば、認識はデータベース内でインデックス付けされた5分の曲の10秒のセグメントに対して実施され得る。
【0054】
データベースのインデックスは、インデックス付けされたメディア・ファイルの特定の位置の特徴を表す指紋を含む。知られていないメディア・サンプルが、指紋の相対位置がサンプルの指紋の相対位置に最も密接に一致する、データベース内のメディア・ファイル(当たりのメディア・ファイルなど)であると確認される。オーディオ・ファイルの場合、ウインニング・ファイルの指紋の時間進化は、サンプルの指紋の時間進化に一致する。
【0055】
データベース内の各記録は、一意の識別子、たとえばsound_IDを有する。サウンド・データベース自体は、sound_IDを使用してオーディオ・ファイルを別のどこかから取り出すことができるので、それぞれの記録について必ずしもオーディオ・ファイルを記録する必要はない。サウンド・データベースのインデックスは、何百万、さらには何十億ものファイルのインデックスを含む、非常に大きいものと予想される。新しい記録は好ましくは、データベース・インデックスに増分的に追加される。
【0056】
ファイルのデータベースを使用して、サンプルの相対時間オフセットが決定され得る。たとえば、オーディオ・サンプルの指紋は、元のファイルの指紋と比較され得る。それぞれの指紋は所与の時に生じ、したがって、オーディオ・サンプルの識別のため指紋をマッチングさせた後に、オーディオ・サンプルの第1の指紋と格納された元のファイルの第1の指紋との時間差がオーディオ・サンプルの時間オフセット、たとえば曲への時間量である。したがって、ユーザが曲の記録を開始した相対時間オフセット(曲が始まって67秒経過など)が決定され得る。
【0057】
相対時間オフセットの決定に関するさらなる情報については、本明細書に完全に記載されているかのように開示全体が参照により本明細書に組み込まれている、米国特許出願公報2002/0083060、Wang and Smith、「System and Methods for Recognizing Sound and Music Signals in High
Noise and Distortion」を参照されたい。
【0058】
さらに、オーディオ・サンプルが、局所的なマッチング技術を使用してそのコンテンツの識別のために分析され得る。たとえば、2つのオーディオ・サンプルの関係は一般に、個々のサンプルから導出された特定の指紋オブジェクトをまずマッチングさせることによって特徴付けられ得る。それぞれが特定の位置で生じる1組の指紋オブジェクトが、各オーディオ・サンプルについて生成される。それぞれの位置は、個々のオーディオ・サンプルのコンテンツに従って決定され、各指紋オブジェクトは、特定の各位置のまたはその近くの1つまたは複数の局所的特徴を特徴付ける。次いで、相対値が、マッチングされた指紋オブジェクトの各対について決定される。次いで、相対値のヒストグラムが生成される。統計的に重要なピークが検出される場合、2つのオーディオ・サンプルは、事実上一致していると特徴付けられ得る。より詳細な説明については、本明細書に完全に記載されているかのように開示全体が参照により本明細書に組み込まれている、PCT特許出願WO03/091990、Wang and Culbert、「Robust and Invariant Audio Pattern Matching」を参照されたい。
【0059】
オーディオ・サンプルのコンテンツを識別するための上述の2つの方法(Wang and SmithおよびWang and Culbertなど)は、コンテンツ識別のために使用され得る他の多くのシステムおよび方法が存在するので、例であるにすぎない。
【0060】
オーディオ認識エンジン510は、サンプリング装置506にオーディオ・サンプルの識別を、たとえばWang and Smith技術を使用して決定されたオーディオ・サンプルの相対時間オフセットと共に返す。サンプリング装置506は監視局514と接触することができ、監視局514は、オーディオ・サンプル識別、相対時間オフセットおよびサンプル・タイム・スタンプを使用してオーディオ・サンプルの放送源を識別することができる。
【0061】
放送監視局514は、ラジオ局502の各放送チャネルを監視する。監視局514は、ラジオ局502から放送情報を受信するためのマルチチャネル無線受信機516を含む。放送情報は、チャネル・サンプラ1…k518に送信され、このチャネル・サンプラは、オーディオ認識エンジン510と接触することによって放送サンプルのコンテンツを識別する。ユーザ・サンプリング装置506と同様に監視局514は、オーディオ認識エンジン510と接触するために標準の電話網を使用し得る。さらに、監視局514は、たとえば放送サンプル識別の遅延を低減させるためにある形のオーディオ認識エンジンを含むこともできる。
【0062】
次いで、監視局514は、特定の時間の間、各放送チャネルについて放送サンプル識別を格納することができる。所定の時間量の後、監視局514は、たとえば情報をリフレッシュして現在放送中のオーディオ・サンプルに協調させるために、格納された放送サンプル識別に上書きすることができる。
【0063】
所与のオーディオ・サンプルに対応する放送情報を決定するための問合せをユーザ・サンプリング装置506から受信すると監視局514は、上記の数式(1)および(2)に従ってテストを実施する。具体的には、監視局514内のプロセッサ522は、まず(セレクタ520を使用して)所与の放送チャネルを選択して、ユーザ・サンプル時刻にまたはそれに近い時刻に記録された放送サンプルの放送サンプル識別がユーザ・オーディオ・サンプル識別に一致するかどうか判断する。そうでない場合は、セレクタ520は、次の放送チャネルを選択し、識別の一致を求めて探索を続ける。
【0064】
識別の一致が検出されると、プロセッサ522は、ユーザ・サンプル相対時間がこの放送チャネルの放送サンプル相対時間に一致するかどうか判断する。そうでない場合は、セレクタ520は、次の放送チャネルを選択し、識別の一致を求めて探索を続ける。相対時間が(およその誤差範囲内で)一致する場合は、プロセッサ522はオーディオ・サンプルと放送サンプルが一致すると見なす。
【0065】
一致の検出後、プロセッサ522は、放送チャネルに関係する情報を報告センタ524に報告する。プロセッサ522は、たとえばユーザ・サンプリング装置506に放送情報を報告することもできる。放送情報には、たとえばラジオ・チャネル識別、販促用の素材、広告用の素材、割引きの案内、または特定の放送局に関する他の資料が含まれ得る。
【0066】
追加の相関係数
追加の係数は、オーディオ・サンプルとの一致を検出しようと試みるときに考慮されることもできる。たとえば、一実施形態では、サンプル時間対非サンプル時間の高いデューティ・サイクルで音楽を識別する場合には、すべてはないにせよ多くの放送局が、ボイス・オーバ、すなわち識別されるべき音楽ストリームの上に頻繁に重ね合わされる他の非音楽素材、たとえばDJがレコードの最初および最後に重ねて話すことなどを組み込む。したがって、監視局514は、認識スコア(または非認識)のばらつきを、特定の日時に局でトラックまたはオーディオ・サンプルが実施されることの「署名」として使用することができ、この署名は、局識別を決定するためのさらなる相関係数として使用され得る。
【0067】
別の実施形態では、ユーザが所与の放送チャネルを実際に聴いており、またそれが単なる偶然(ユーザがCDプレーヤーからの記録を取るなど)ではないことをさらに確認するために、ユーザ・サンプルが、より長い時間をかけて、たとえば、同じチャネル上のオーディオ・プログラム間で移行する間など典型的なオーディオ・プログラムより長く取られ得る。正確であると見なされる一致が実際に正確なチャネルである場合、曲の移行間でコンテンツ・アライメントが連続して維持されるはずである。ユーザが放送チャネルを変更しながらオーディオ・サンプル記録する場合、例外が発生し得る。しかし、プログラムが移行するのに渡って識別が連続していることは、正確な放送チャネルが追跡されていることを表示するものであり得る。したがって、サンプル識別(数式(1)など)が追跡されることができ、ユーザ・サンプル識別の変化も追跡され得る。たとえば、(以下の数式3〜5に示すように)複数の時間間隔におけるサンプル識別が追跡されることができ、(以下の数式5に示すように)第1のサンプル識別が第2の時間間隔からの第2のサンプル識別と等しくない場合、曲の間の連続性または移行は追跡されている。これは、(たとえばユーザと放送源の両方が同時に変化するなど)正確な一致が行われたことのさらなる信頼度をもたらし得る。
ユーザ・サンプル識別〔n〕=放送サンプル識別〔n〕 数式(3)
ユーザ・サンプル識別〔n+1〕=放送サンプル識別〔n+1〕 数式(4)
ユーザ・サンプル識別〔n〕≠ユーザ・サンプル識別〔n+1〕 数式(5)
ただし、〔n〕は、時間においてn番のサンプルである。
【0068】
ユーザがチャネルを変更したと判断される場合、監視局514はユーザが聴いている新しい放送源を確認するためにオーディオ・サンプルの新しい識別と合う識別の一致を探索し得る。
【0069】
さらに別の実施形態では、放送源の識別は、オーディオが再生されているときにオーディオの特定の系統立った歪みを決定することによって実施され得る。一例として、しばしばラジオ放送事業者は、水晶発振器、またはプログラム録音を再生するために使用される他の時間軸のわずかな不正確さのために、元の記録よりわずかに速くまたは遅くオーディオ・プログラムを再生する。速度率の伸張は、たとえば上述のWang and Culbertの技術を使用して識別プロセス中に測定され得る。放送プログラムの時間軸が伸張され、またユーザ・サンプルにおいて測定された伸張係数に事実上類似する場合、ユーザ・サンプルは、たとえば数式(6)で以下に示すように、同じソースから生じたものである可能性が非常に高い。
ユーザ・サンプル伸張率=放送サンプル伸張率 数式(6)
さらに、識別のためプログラムは、所定の量だけ意図的に伸張され得る。所定の伸張量は、少量の情報を符号化するために使用され得る。たとえば、記録は、1.7%遅く再生するように伸張され得る。こうした減速は、ほとんどの人が気付かないものであり得る。しかし、認識アルゴリズムが0.05%の許容差を伴う伸張値を報告することができる場合には、再生速度が0.1%から0.2%ステップを伴う−2.0と+2.0の間の再生速度が使用される場合、10〜20個の異なるメッセージを符号化することが可能であり得る。
【0070】
さらに、情報のストリームは、小さい範囲に渡って再生速度を(遅いが)動的に変化させることによってオーディオ内に埋め込まれ得る。たとえば、10秒のフレーム・サイズが使用されることができ、それぞれの10秒セグメントは、小さい比率だけ加速または減速され得る。伸張係数が連続的に抽出される場合、その値は、放送事業者によって送信されているメッセージを定義し得る。
【0071】
多くの実施形態について、個々にまたは他の実施形態と組み合わせて実施されるものとして述べたが、しかし、上記で述べた諸実施形態のいずれもが、放送チャネルが識別されたという見解の確実性を向上させるため、一緒にまたは任意の組合せで使用され得る。
【0072】
本出願について完全に機能する認識システムおよび方法の文脈で述べたが、本発明の機構は、様々な形の命令のコンピュータ読取り可能媒体の形で配布されることができ、本出願は、配布を実際に実施するのに使用される信号搬送媒体の特定のタイプに関係なく等しく適用されることが当業者には理解されるであろうことに留意されたい。こうしたコンピュータ・アクセス可能装置の例には、コンピュータ・メモリ(RAMまたはROM)、フロッピー・ディスクおよびCD−ROM、ならびにデジタルおよびアナログ通信リンクなどの伝送タイプの媒体が含まれる。
【0073】
実施例について本出願の本実施形態と併せて述べたが、本出願の範囲および精神から逸脱せずに変形が行われ得ることが当業者には理解されよう。たとえば、本明細書で述べた装置および方法は、ハードウェア、ソフトウェア、あるいは揮発性または不揮発性のメモリを介してソフトウェア・アプリケーションを実行する汎用または専用プロセッサなどの組合せで実施され得る。本出願の真の範囲および精神は、上記内容に鑑みて解釈され得る添付の特許請求の範囲によって定められる。