IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ タグミックス リミテッドの特許一覧

特表2024-528900イベントソースコンテンツおよびリモートコンテンツの同期
<>
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図1
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図2
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図3
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図4
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図5
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図6
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図7
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図8
  • 特表-イベントソースコンテンツおよびリモートコンテンツの同期 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-01
(54)【発明の名称】イベントソースコンテンツおよびリモートコンテンツの同期
(51)【国際特許分類】
   G10L 25/54 20130101AFI20240725BHJP
   H04N 21/854 20110101ALI20240725BHJP
   G10L 25/06 20130101ALI20240725BHJP
【FI】
G10L25/54
H04N21/854
G10L25/06
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024505231
(86)(22)【出願日】2022-07-08
(85)【翻訳文提出日】2024-03-22
(86)【国際出願番号】 EP2022069019
(87)【国際公開番号】W WO2023006381
(87)【国際公開日】2023-02-02
(31)【優先権主張番号】17/443,645
(32)【優先日】2021-07-27
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524035988
【氏名又は名称】タグミックス リミテッド
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ディーン、アンディ
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA29
5C164MA07S
5C164MC01P
(57)【要約】
ビデオコンテンツと同期された低品質なオーディオコンテンツを含むメディアコンテンツ内のより高品質なオーディオコンテンツにより、低品質なオーディオコンテンツを置換する方法。低品質なオーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータは、より高品質なオーディオコンテンツのマッチング部分を見つけるべく検索を実行するために用いられる。低品質なオーディオコンテンツは、マッチングされたオーディオ部分をメディアコンテンツのビデオコンテンツと共にコンパイルすることにより、より高品質なオーディオコンテンツのマッチングされた部分で置換され得る。低品質なオーディオコンテンツおよびオーディオコンテンツのマッチングされた部分の間のタイミング不整合の量を補償する段階;スペクトログラム周波数ピークのハッシュ値を用いることにより、メディアコンテンツのオーディオコンテンツのフィンガープリントデータを取得する段階;メディアコンテンツのオーディオコンテンツから1つまたは複数の特徴ベクトルを取得して、オーディオコンテンツの格納されたインスタンスの検索のサイズを低減する段階のいずれかが含まれる。
【特許請求の範囲】
【請求項1】
第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換または拡張する方法であって、前記メディアコンテンツは、ビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記方法は、
前記第1のデバイスにより記録されたメディアコンテンツを受信する段階;
前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階;および
前記オーディオコンテンツのマッチングされた前記部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルすることにより、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換または拡張する段階
を備える;
ここで、前記方法は、前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする場合、前記メディアコンテンツの前記オーディオコンテンツおよび前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の間のタイミング不整合の量を補償する段階を備える、
方法。
【請求項2】
前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする前に、前記メディアコンテンツの前記オーディオコンテンツおよび前記オーディオコンテンツの前記マッチングされた部分の間のタイミング不整合の量を決定する段階を備える、請求項1に記載の方法。
【請求項3】
タイミング不整合の量を決定する前記段階は、前記メディアコンテンツの前記オーディオコンテンツの1つまたは複数のセグメントを前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の1つまたは複数のセグメントと比較する段階を有する、請求項2に記載の方法。
【請求項4】
前記メディアコンテンツの前記オーディオコンテンツの前記1つまたは複数のセグメントおよび前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記1つまたは複数のセグメントは、予め定められた、選択された、または計算されたサイズの1つまたは複数のウィンドウセグメントの各々を提供するために、ハニングウィンドウを用いて前記メディアコンテンツの前記オーディオコンテンツおよび前記オーディオコンテンツの前記マッチングされた部分の各々を処理することにより提供される、請求項3に記載の方法。
【請求項5】
前記1つまたは複数のウィンドウセグメントの前記予め定められた、選択された、または計算されたサイズは、前記メディアコンテンツの前記オーディオコンテンツおよび前記オーディオコンテンツの前記マッチングされた部分の間の予想または予測されるタイミング不整合の値の2倍に設定される、請求項4に記載の方法。
【請求項6】
前記メディアコンテンツの前記オーディオコンテンツの前記1つまたは複数のセグメントは、そこから前記タイミング不整合の前記量が決定される相互相関アレイを取得するために、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記1つまたは複数のセグメントと相互相関される、請求項4または5に記載の方法。
【請求項7】
前記メディアコンテンツの前記オーディオコンテンツの前記1つまたは複数のセグメントは、位相変換を伴う一般化相互相関(GCC-PHAT)を用いて、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記1つまたは複数のセグメントと相互相関される、請求項6に記載の方法。
【請求項8】
前記メディアコンテンツの前記オーディオコンテンツの前記複数のセグメントが、不整合タイミングのアレイを提供するために、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記複数のセグメントと相互相関される、請求項6に記載の方法。
【請求項9】
前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする場合、前記不整合タイミングのアレイの中央値は、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分のタイミングを補償するために用いられる前記タイミング不整合の量になるように取られる、請求項8に記載の方法。
【請求項10】
不整合タイミングの最も一般的な値の予め定められた、選択された、または計算された範囲に含まれない、前記タイミング不整合のアレイにおける前記不整合タイミングは、前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする場合において、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分のタイミングを補償するために用いられる前記タイミング不整合の量として取られる、前記不整合タイミングのアレイの中央値を決定するときは、割り引かれる、請求項8に記載の方法。
【請求項11】
第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換または拡張する方法であって、前記メディアコンテンツは、ビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記方法は、
前記第1のデバイスにより記録されたメディアコンテンツを受信する段階;
前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階;および
前記オーディオコンテンツのマッチングされた前記部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルすることにより、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換または拡張する段階
を備える;
ここで、前記メディアコンテンツの前記オーディオコンテンツのタグデータおよび/またはフィンガープリントデータを取得する前記段階は、
前記メディアコンテンツの前記オーディオコンテンツの周波数ピークに基づいて複数のハッシュ値を決定する段階
を含む、
方法。
【請求項12】
前記複数のハッシュ値から1つまたは複数のメトリックを決定する段階を備える、請求項11に記載の方法。
【請求項13】
オーディオ/音響タグおよび/またはフィンガープリント検索を実行する前記段階は、前記複数のハッシュ値のうちの1つまたは複数または前記複数のハッシュ値から決定される1つまたは複数のメトリックを用いて、第2のデバイスにより記録または提供されたオーディオコンテンツの格納されたインスタンスの1つまたは複数のマッチングハッシュ値または1つまたは複数のマッチングメトリックを検索する段階を有する、請求項11に記載の方法。
【請求項14】
第2のデバイスにより記録または提供されたオーディオコンテンツのどの格納されたインスタンスが前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分を含み、または、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの最も一致している部分を含むかを判断するために、前記第2のデバイスにより記録または提供されたオーディオコンテンツの前記格納されたインスタンスの任意のマッチングメトリックがランク付けされる、請求項13に記載の方法。
【請求項15】
1つまたは複数の第2のデバイスにより記録されたオーディオコンテンツのインスタンスを格納する前に、前記1つまたは複数の第2のデバイスにより記録されたオーディオコンテンツの各インスタンスは、
前記1つまたは複数の第2のデバイスにより記録されたオーディオコンテンツの各インスタンスの周波数ピークに基づいて複数のハッシュ値を決定すること;および、任意選択的に、
前記複数のハッシュ値から1つまたは複数のメトリックを決定すること
により前記メディアコンテンツの前記オーディオコンテンツと同じ方式で処理される、
請求項11から14のいずれか一項に記載の方法。
【請求項16】
前記メディアコンテンツの前記オーディオコンテンツは、前記メディアコンテンツの前記オーディオコンテンツのタグデータおよび/またはフィンガープリントデータを取得する前にダウンサンプリングされる、請求項11から14のいずれか一項に記載の方法。
【請求項17】
前記複数のハッシュ値は、前記メディアコンテンツの前記オーディオコンテンツの周波数ピークを選択し、選択された前記周波数ピークに関する他の周波数ピークのハッシュ値を決定することにより決定される、請求項11から14のいずれか一項に記載の方法。
【請求項18】
第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換または拡張する方法であって、前記メディアコンテンツは、ビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記方法は、
前記第1のデバイスにより記録されたメディアコンテンツを受信する段階;
前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階;および
前記オーディオコンテンツのマッチングされた前記部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルすることにより、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換または拡張する段階
を備える;
ここで、前記方法は、前記オーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階の前に、前記メディアコンテンツの前記オーディオコンテンツから1つまたは複数の特徴ベクトルを取得する段階、および、前記1つまたは複数の特徴ベクトルを用いて、前記1つまたは複数の第2のデバイスにより記録または提供されたオーディオコンテンツの格納されたインスタンスの検索のサイズを低減する段階を備える、
方法。
【請求項19】
前記メディアコンテンツの前記オーディオコンテンツから1つまたは複数の特徴ベクトルを取得する前記段階は、前記メディアコンテンツの前記オーディオコンテンツの1つまたは複数の選択された部分から1つまたは複数の特徴ベクトルを取得する段階を有する、請求項18に記載の方法。
【請求項20】
1つまたは複数の特徴ベクトルが、時間内に不変であり、および/または、予め定められた長さを有する、請求項18または19に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して、イベントソースコンテンツおよびリモートコンテンツ同期の方法およびシステムに関し、排他的にではなく、より具体的には、演奏を直接記録するソースデバイスからの、演奏イベントのより高品質な記録されたメディアコンテンツを、リモートデバイスからの、同じイベントでオーディエンスメンバにより記録された、より低品質な記録されたメディアコンテンツと同期させることに関する。
【背景技術】
【0002】
オーディエンスは、スマートフォンおよび他のハンドヘルド記録デバイス上で、ライブを記録し、またはブロードキャストされたイベント演奏をキャプチャしている。また、オーディエンスは、オーディオコンテンツが再生されている他のイベントまたは位置で、同期されたビデオおよびオーディオを含むメディアコンテンツをキャプチャまたは記録している。これらの記録は、イベント演奏体験のパーソナライズされた記憶をオーディエンスメンバに提供する。オーディエンスメンバは、典型的には、リモートで記録されたビデオおよび写真コンテンツをストリーミング、アップロードおよび投稿して、ソーシャルネットワーク、およびビデオクリップキャプチャおよび共有アプリケーションで、他者と体験を共有する。しかしながら、通常、イベント演奏のリモートで記録されたメディアコンテンツ、特にオーディオコンテンツの音質は、かなり低品質であり、また、非常に歪んでいると共に断片化されていて、投稿されたコンテンツが聞き取れないかつ見るに耐えないことが多い。いくつかのイベント主催者は、ライブ演奏の「公式な」記録を提供し得るが、これらの記録は、ファンおよびスペクテイタの個人的な視点、すなわち、ライブ演奏のオーディエンスによりリモートで取られるビデオおよび写真キャプションを記録していない。
【0003】
上で論じた問題および/または制限のうちのいくつかに対処し、または少なくともそれらを軽減する、イベント演奏のイベントソースコンテンツおよびオーディエンスリモートコンテンツ同期の方法およびシステムに対するニーズがある。
【0004】
メディアコンテンツの低品質なオーディオコンテンツをより高品質なオーディオコンテンツにより置換することにより上記メディアコンテンツ内のオーディオコンテンツを改善する方法に対するニーズがある。
【発明の概要】
【0005】
本発明の一態様は、メディアコンテンツにおいて、より高品質なオーディオコンテンツにより低品質なオーディオコンテンツを置換または拡張する方法であり、ここで、メディアコンテンツは、ビデオコンテンツと同期された低品質なオーディオコンテンツを含む。方法は、低品質なオーディオコンテンツをより高品質なオーディオコンテンツの部分とマッチングするために、低品質なオーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータを用いてオーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階を備える。方法は、オーディオコンテンツのマッチングされた部分をメディアコンテンツのビデオコンテンツと共にコンパイルすることにより、より高品質なオーディオコンテンツのマッチングされた部分で低品質なオーディオコンテンツを置換する段階を備える。方法は、オーディオコンテンツのマッチングされた部分をビデオコンテンツと共にコンパイルする場合、低品質なオーディオコンテンツおよびより高品質なオーディオコンテンツのマッチングされた部分の間のタイミング不整合の量を補償する段階を備え得る。方法は、コンパイルする段階の前に、低品質なオーディオコンテンツおよびより高品質なオーディオコンテンツのマッチングされた部分の間のタイミング不整合の量を決定する段階を備え得る。代替的に、または追加的に、方法は、メディアコンテンツのオーディオコンテンツの周波数ピークに基づいて複数のハッシュ値を決定することによりメディアコンテンツのオーディオコンテンツのフィンガープリントデータを取得する段階、および任意選択的に、上記複数のハッシュ値から1つまたは複数のメトリックを決定する段階を備え得る。代替的に、または追加的に、方法は、オーディオ/音響タグおよび/またはフィンガープリント検索を実行する前に、メディアコンテンツのオーディオコンテンツから1つまたは複数の特徴ベクトルを取得する段階、および、上記1つまたは複数の特徴ベクトルを用いて、1つまたは複数の第2のデバイスにより記録または提供されるオーディオコンテンツの格納されたインスタンスの上記タグデータおよび/またはフィンガープリントデータを用いて検索のサイズを低減する段階を備え得る。
【0006】
本発明の別の態様は、第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換または拡張する方法であって、前記メディアコンテンツは、前記第1のデバイスにより記録されたビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記方法は、前記第1のデバイスにより記録されたメディアコンテンツを受信する段階;前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階;および前記オーディオコンテンツのマッチングされた前記部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルすることにより、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換または拡張する段階を備える;ここで、前記方法は、前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする場合、前記メディアコンテンツの前記オーディオコンテンツおよび前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の間のタイミング不整合の量を補償する段階を備える、方法である。
【0007】
一実施形態において、前記方法は、前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする前に、前記メディアコンテンツの前記オーディオコンテンツおよび前記オーディオコンテンツの前記マッチングされた部分の間のタイミング不整合の量を決定する段階を備え得る。
【0008】
一実施形態において、タイミング不整合の量を決定する前記段階は、前記メディアコンテンツの前記オーディオコンテンツの1つまたは複数のセグメントを前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の1つまたは複数のセグメントと比較する段階を有し得る。
【0009】
一実施形態において、前記メディアコンテンツの前記オーディオコンテンツの前記1つまたは複数のセグメントおよび前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記1つまたは複数のセグメントは、予め定められた、選択された、または計算されたサイズの1つまたは複数のウィンドウセグメントの各々を提供するために、ハニングウィンドウを用いて前記メディアコンテンツの前記オーディオコンテンツおよび前記オーディオコンテンツの前記マッチングされた部分の各々を処理することにより提供され得る。
【0010】
一実施形態において、前記1つまたは複数のウィンドウセグメントの前記予め定められた、選択された、または計算されたサイズは、前記メディアコンテンツの前記オーディオコンテンツおよび前記オーディオコンテンツの前記マッチングされた部分の間の予想または予測されるタイミング不整合の値の2倍に設定され得る。
【0011】
一実施形態において、前記メディアコンテンツの前記オーディオコンテンツの前記1つまたは複数のセグメントは、そこから前記タイミング不整合の前記量が決定される相互相関アレイを取得するために、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記1つまたは複数のセグメントと相互相関され得る。
【0012】
一実施形態において、前記メディアコンテンツの前記オーディオコンテンツの前記1つまたは複数のセグメントは、位相変換を伴う一般化相互相関(GCC-PHAT)を用いて、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記1つまたは複数のセグメントと相互相関され得る。
【0013】
一実施形態において、前記メディアコンテンツの前記オーディオコンテンツの複数の前記セグメントが、不整合タイミングのアレイを提供するために、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の複数の前記セグメントと相互相関され得る。
【0014】
一実施形態において、前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする場合、前記不整合タイミングのアレイの中央値は、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記タイミングを補償するために用いられる前記タイミング不整合の量になるように取られ得る。
【0015】
一実施形態において、不整合タイミングの最も一般的な値の予め定められた、選択された、または計算された範囲に含まれない、前記タイミング不整合のアレイにおける前記不整合タイミングは、前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする場合において、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の前記タイミングを補償するために用いられる前記タイミング不整合の量として取られる、前記不整合タイミングのアレイの中央値を決定するときは、割り引かれ得る。
【0016】
本発明の別の態様は、第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換または拡張するためのデバイスであって、前記メディアコンテンツは、ビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記デバイスは、前記第1のデバイスにより記録されたメディアコンテンツを受信し、前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行するアイデンティティコンテンツモジュール;前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換または拡張するためのタグコンテンツモジュール;および前記オーディオコンテンツのマッチングされた前記部分および前記メディアコンテンツの前記ビデオコンテンツのための構成コンテンツモジュールを備える;ここで、前記デバイスは、前記オーディオコンテンツの前記マッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルする場合、前記メディアコンテンツの前記オーディオコンテンツおよび前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分の間のタイミング不整合の量を補償するように構成されている、デバイスである。
【0017】
本発明の別の態様は、第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換または拡張する方法であって、前記メディアコンテンツは、ビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記方法は、前記第1のデバイスにより記録されたメディアコンテンツを受信する段階;前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階;および前記オーディオコンテンツのマッチングされた前記部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルすることにより、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換または拡張する段階を備える;ここで、前記メディアコンテンツの前記オーディオコンテンツのタグデータおよび/またはフィンガープリントデータを取得する前記段階は、前記メディアコンテンツの前記オーディオコンテンツの周波数ピークに基づいて複数のハッシュ値を決定する段階を含む、方法である。
【0018】
一実施形態において、前記方法は、前記複数のハッシュ値から1つまたは複数のメトリックを決定する段階を備え得る。
【0019】
一実施形態において、オーディオ/音響タグおよび/またはフィンガープリント検索を実行する前記段階は、前記複数のハッシュ値のうちの1つまたは複数または前記複数のハッシュ値から決定される1つまたは複数のメトリックを用いて、第2のデバイスにより記録または提供されたオーディオコンテンツの格納された前記インスタンスの1つまたは複数のマッチングハッシュ値または1つまたは複数のマッチングメトリックを検索する段階を有し得る。
【0020】
一実施形態において、第2のデバイスにより記録または提供されたオーディオコンテンツのどの格納されたインスタンスが前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分を含み、または、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの最も一致している部分を含むかを判断するために、前記第2のデバイスにより記録または提供されたオーディオコンテンツの格納されたインスタンスの任意のマッチングメトリックがランク付けされ得る。
【0021】
一実施形態において、前記1つまたは複数の第2のデバイスにより記録されたオーディオコンテンツのインスタンスを格納する前に、前記1つまたは複数の第2のデバイスにより記録されたオーディオコンテンツの各インスタンスは、前記1つまたは複数の第2のデバイスにより記録されたオーディオコンテンツの各インスタンスの周波数ピークに基づいて複数のハッシュ値を決定すること;および、任意選択的に、前記複数のハッシュ値から1つまたは複数のメトリックを決定することにより前記メディアコンテンツの前記オーディオコンテンツと同じ方式で処理される。
【0022】
一実施形態において、前記メディアコンテンツの前記オーディオコンテンツは、前記メディアコンテンツの前記オーディオコンテンツのフィンガープリントデータを取得する前にダウンサンプリングされ得る。
【0023】
一実施形態において、前記複数のハッシュ値は、前記メディアコンテンツの前記オーディオコンテンツの周波数ピークを選択し、選択された前記周波数ピークに関する他の周波数ピークのハッシュ値を決定することにより決定され得る。
【0024】
本発明の別の態様は、第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換または拡張するためのデバイスであって、前記メディアコンテンツは、ビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記デバイスは、前記第1のデバイスにより記録されたメディアコンテンツを受信し、前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行するアイデンティティコンテンツモジュール;前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換または拡張するためのタグコンテンツモジュール;および前記オーディオコンテンツのマッチングされた前記部分および前記メディアコンテンツの前記ビデオコンテンツのための構成コンテンツモジュールを備える;ここで、前記デバイスは、前記メディアコンテンツの前記オーディオコンテンツの周波数ピークに基づいて複数のハッシュ値を決定することにより、前記メディアコンテンツの前記オーディオコンテンツのタグデータおよび/またはフィンガープリントデータを取得するように構成されている、デバイスである。
【0025】
本発明の別の態様は、第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換または拡張する方法であって、前記メディアコンテンツは、ビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記方法は、前記第1のデバイスにより記録されたメディアコンテンツを受信する段階;前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階;および前記オーディオコンテンツのマッチングされた前記部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルすることにより、前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換または拡張する段階を備える;ここで、前記方法は、前記オーディオ/音響タグおよび/またはフィンガープリント検索を実行する段階の前に、前記メディアコンテンツの前記オーディオコンテンツから1つまたは複数の特徴ベクトルを取得する段階、および、前記1つまたは複数の特徴ベクトルを用いて、前記1つまたは複数の第2のデバイスにより記録または提供されたオーディオコンテンツの格納されたインスタンスの検索のサイズを低減する段階を備える、方法である。
【0026】
一実施形態において、前記メディアコンテンツの前記オーディオコンテンツから1つまたは複数の特徴ベクトルを取得する前記段階は、前記メディアコンテンツの前記オーディオコンテンツの1つまたは複数の選択された部分から1つまたは複数の特徴ベクトルを取得する段階を有し得る。
【0027】
一実施形態において、1つまたは複数の特徴ベクトルが、時間内に不変であってよく、および/または、予め定められた長さを有してよい。
【0028】
本発明の別の態様は、第1のデバイスにより記録されたメディアコンテンツにおいて、第2のデバイスにより記録されたオーディオコンテンツにより、前記第1のデバイスにより記録されたオーディオコンテンツを置換するためのデバイスであって、前記メディアコンテンツは、ビデオコンテンツと同期された、前記第1のデバイスにより記録された前記オーディオコンテンツを含み、前記デバイスは、前記第1のデバイスにより記録されたメディアコンテンツを受信し、前記メディアコンテンツの前記オーディオコンテンツに関連付けられたタグデータおよび/またはフィンガープリントデータに基づいて、前記メディアコンテンツの前記オーディオコンテンツを前記第2のデバイスにより記録または提供されたオーディオコンテンツの関連付けられた部分とマッチングするためにオーディオ/音響タグおよび/またはフィンガープリント検索を実行するアイデンティティコンテンツモジュール;前記第2のデバイスにより記録または提供された前記オーディオコンテンツの関連付けられた前記マッチングされた部分で、前記メディアコンテンツの前記オーディオコンテンツを置換するためのタグコンテンツモジュール;および前記第2のデバイスにより記録または提供された前記オーディオコンテンツの前記関連付けられたマッチングされた部分を前記メディアコンテンツの前記ビデオコンテンツと共にコンパイルするための構成コンテンツモジュールを備える;ここで、前記デバイスは、前記オーディオ/音響フィンガープリント検索を実行する前に、前記メディアコンテンツの前記オーディオコンテンツから1つまたは複数の特徴ベクトルを取得し、および、前記1つまたは複数の特徴ベクトルを用いて、前記1つまたは複数の第2のデバイスにより記録または提供されたオーディオコンテンツの検索される格納されたインスタンスのサイズを低減するように構成されている、デバイスである。
【0029】
本発明の別の態様は、イベントにおいてスペクテイタデバイスにより記録されたメディアコンテンツにおいて、ソースデバイスにより記録されたより高品質なオーディオコンテンツにより、スペクテイタデバイスにより記録された低品質なオーディオコンテンツを置換する方法であって、スペクテイタデバイスにより記録された上記メディアコンテンツは、イベントの一部の同期されたオーディオコンテンツおよびビデオコンテンツを含み、方法は、サーバにおいて、スペクテイタデバイスにより記録されたメディアコンテンツを受信する段階;スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツに関連付けられたフィンガープリントデータに基づいて、スペクテイタデバイスにより記録された上記メディアコンテンツ内のオーディオコンテンツをソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられた部分とマッチングするためにコンテンツデータベースまたはストアにおいてオーディオ/音響フィンガープリント検索を実行する段階;ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分で、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツを置換する段階;および、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分をスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルする段階を備える、方法である。
【0030】
一実施形態において、方法は、ソースデバイスにより記録されたより高品質なオーディオコンテンツの上記コンパイル済みの関連付けられたマッチングされた部分を、スペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共に、ソースデバイスにより記録されたより高品質なオーディオコンテンツの上記関連付けられたマッチングされた部分をスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルするためにスペクテイタまたはシステムのユーザに対して利用可能にする段階を備え得る。
【0031】
一実施形態において、スペクテイタデバイスは、画像を記録してよく、方法は、画像をソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分およびスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルするサーバまたはスペクテイタデバイスを備える。
【0032】
一実施形態において、方法は、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツに関連付けられた上記フィンガープリントデータに基づいて、スペクテイタデバイスにより記録された上記メディアコンテンツ内のオーディオコンテンツをソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられた部分とマッチングするためにコンテンツデータベースまたはストアにおいてオーディオ/音響フィンガープリント検索を実行するサーバを備え得る。
【0033】
一実施形態において、方法は、スペクテイタデバイスにより記録されたオーディオコンテンツの時間および位置データを記録するスペクテイタデバイスを備え得る。
【0034】
一実施形態において、方法は、スペクテイタデバイスにより記録されたオーディオコンテンツとタグを手動で関連付けて、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分およびスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツのサーバにおける同期を可能にするサーバまたはスペクテイタデバイスを備え得る。
【0035】
一実施形態において、方法は、イベントの一部のそれぞれの同期されたオーディオコンテンツおよびビデオコンテンツを記録するための別個のスペクテイタデバイスを各々が有する複数のユーザを備えてよく、ここで、方法は、少なくとも1つの他のスペクテイタの、イベントの一部のそれぞれの記録され同期されたオーディオコンテンツおよびビデオコンテンツについて、請求項1の段階を繰り返すことを含む。
【0036】
一実施形態において、ソースデバイスにより記録されたオーディオコンテンツは、イベント演奏のスタジオ品質記録、および、イベント演奏記録の周囲ノイズおよびイベント演奏のより低品質な記録を含むスペクテイタデバイスにより記録されたオーディオコンテンツであってよい。
【0037】
本発明の別の態様は、イベントにおいてスペクテイタデバイスにより記録されたメディアコンテンツにおいて、ソースデバイスにより記録されたより高品質なオーディオコンテンツにより、スペクテイタデバイスにより記録された低品質なオーディオコンテンツを置換するためのサーバデバイスであって、スペクテイタデバイスにより記録された上記コンテンツは、イベントの一部の同期されたオーディオコンテンツおよびビデオコンテンツを含み、サーバデバイスは、スペクテイタデバイスにより記録されたメディアコンテンツを受信し、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツに関連付けられたフィンガープリントデータに基づいて、スペクテイタデバイスにより記録された上記メディアコンテンツ内のオーディオコンテンツをソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられた部分とマッチングするためにコンテンツデータベースまたはストアにおいてオーディオ/音響フィンガープリント検索を実行するように構成されたアイデンティティコンテンツモジュール;ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分で、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツを置換するように構成されたタグコンテンツモジュール;および、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分をスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルするように構成された構成コンテンツモジュールを備える。
【0038】
一実施形態において、構成コンテンツモジュールは、ソースデバイスにより記録されたより高品質なオーディオコンテンツの上記コンパイル済みの関連付けられたマッチングされた部分を、スペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共に、ソースデバイスにより記録されたより高品質なオーディオコンテンツの上記関連付けられたマッチングされた部分をスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルするためにスペクテイタまたはシステムのユーザに対して利用可能にするように構成され得る。
【0039】
一実施形態において、構成コンテンツモジュールは、スペクテイタデバイスにより記録された画像を、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分およびスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルするように構成され得る。
【0040】
本発明の別の態様は、イベントにおいてスペクテイタデバイスにより記録されたメディアコンテンツ内のソースデバイスにより記録されたより高品質なオーディオコンテンツにより、スペクテイタデバイスにより記録された低品質なオーディオコンテンツを置換する方法であって、スペクテイタデバイスにより記録された上記メディアコンテンツは、イベントの一部の同期されたオーディオコンテンツおよびビデオコンテンツを含み、方法は、メディアコンテンツを受信し、スペクテイタデバイスにより記録された上記メディアコンテンツ内のオーディオコンテンツをソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられた部分とマッチングするためにコンテンツデータベースまたはストアにおいてオーディオ/音響フィンガープリント検索を実行する段階;ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分で、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツを置換する段階;および、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分を、スペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルする段階を備える、方法を実装するための電子デバイスのプロセッサにより実行可能な機械可読命令を格納した非一時的コンピュータ可読媒体である。
【0041】
一実施形態において、コンテンツデータベースまたはストアは、オーディオ/音響フィンガープリントデータベースであってよい。
【0042】
一実施形態において、ソースデバイスにより記録されたより高品質なオーディオコンテンツのコンパイル済みの関連付けられたマッチングされた部分、およびスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツは、写真、コンテンツプロバイダからのコンテンツまたはスポンサからのブランドマテリアルのうちのいずれか1つまたは複数と共にコンパイルされ得る。
【0043】
一実施形態において、写真、コンテンツプロバイダからのコンテンツまたはスポンサからのブランドマテリアルは、スペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツにおけるギャップを埋めるために用いられ得る。
【0044】
一実施形態において、写真、コンテンツプロバイダからのコンテンツまたはスポンサからのブランドマテリアルは、ソースデバイスにより記録されたより高品質なオーディオコンテンツのマッチングされた部分の長さの中に生じる、ビデオコンテンツにおける何らかのギャップを埋めるために用いられ得る。
【0045】
一実施形態において、ソースデバイスにより記録されたより高品質なオーディオコンテンツのコンパイル済みの関連付けられたマッチングされた部分、およびスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツは、スペクテイタにより記録された他のオーディオコンテンツとオーバーレイされ得る。
【0046】
本発明の別の態様は、イベントにおいてスペクテイタデバイスにより記録されたメディアコンテンツにおいて、ソースデバイスにより記録されたより高品質なオーディオコンテンツにより、スペクテイタデバイスにより記録された低品質なオーディオコンテンツを置換する方法であって、スペクテイタデバイスにより記録された上記メディアコンテンツは、イベントの一部の同期されたオーディオコンテンツおよびビデオコンテンツを含み、方法は、サーバにおいて、スペクテイタデバイスにより記録されたメディアコンテンツを受信する段階;スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツに関連付けられたフィンガープリントデータに基づいて、スペクテイタデバイスにより記録された上記メディアコンテンツ内のオーディオコンテンツを、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられた部分とマッチングする段階;ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分で、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツを置換する段階;および、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分をスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルする段階を備える;ここで、方法は、スペクテイタデバイスにより記録されたオーディオコンテンツとタグを手動で関連付けて、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分およびスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツのサーバにおける同期を可能にするサーバまたはスペクテイタデバイスを備える、方法である。
【0047】
本発明の別の態様は、イベントにおいてスペクテイタデバイスにより記録されたメディアコンテンツにおいて、ソースデバイスにより記録されたより高品質なオーディオコンテンツにより、スペクテイタデバイスにより記録された低品質なオーディオコンテンツを置換する方法であって、スペクテイタデバイスにより記録された上記メディアコンテンツは、イベントの一部の同期されたオーディオコンテンツおよびビデオコンテンツを含み、方法は、サーバにおいて、スペクテイタデバイスにより記録されたメディアコンテンツを受信する段階;スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツに関連付けられたフィンガープリントデータに基づいて、スペクテイタデバイスにより記録された上記メディアコンテンツ内のオーディオコンテンツをソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられた部分とマッチングする段階;ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分で、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツを置換する段階;および、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分をスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルする段階を備え、ここで、方法は、イベントの一部のそれぞれの同期されたオーディオコンテンツおよびビデオコンテンツを記録するための別個のスペクテイタデバイスを各々が有する複数のユーザを備える;ここで、方法は、少なくとも1つの他のスペクテイタの、イベントの一部のそれぞれの記録され同期されたオーディオコンテンツおよびビデオコンテンツについて、請求項1の段階を繰り返すことを含む、方法である。
【0048】
本発明の別の態様は、イベントにおいてスペクテイタデバイスにより記録されたメディアコンテンツにおいて、ソースデバイスにより記録されたより高品質なオーディオコンテンツにより、スペクテイタデバイスにより記録された低品質なオーディオコンテンツを置換する方法であって、スペクテイタデバイスにより記録された上記メディアコンテンツは、イベントの一部の同期されたオーディオコンテンツおよびビデオコンテンツを含み、方法は、サーバにおいて、スペクテイタデバイスにより記録されたメディアコンテンツを受信する段階;スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツに関連付けられたフィンガープリントデータに基づいて、スペクテイタデバイスにより記録された上記メディアコンテンツ内のオーディオコンテンツをソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられた部分とマッチングする段階;ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分で、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツを置換する段階;および、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分をスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルする段階を備える;ここで、ソースデバイスにより記録されたより高品質なオーディオコンテンツのコンパイル済みの関連付けられたマッチングされた部分、およびスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツは、写真、コンテンツプロバイダからのコンテンツまたはスポンサからのブランドマテリアルのうちのいずれか1つまたは複数と共にコンパイルされ得る;および、写真、コンテンツプロバイダからのコンテンツまたはスポンサからのブランドマテリアルは、スペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツにおけるギャップを埋めるために用いられる、方法である。
【0049】
本発明の別の態様は、イベントにおいてスペクテイタデバイスにより記録されたメディアコンテンツにおいて、ソースデバイスにより記録されたより高品質なオーディオコンテンツにより、スペクテイタデバイスにより記録された低品質なオーディオコンテンツを置換する方法であって、スペクテイタデバイスにより記録された上記メディアコンテンツは、イベントの一部の同期されたオーディオコンテンツおよびビデオコンテンツを含み、方法は、サーバにおいて、スペクテイタデバイスにより記録されたメディアコンテンツを受信する段階;スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツに関連付けられたフィンガープリントデータに基づいて、スペクテイタデバイスにより記録された上記メディアコンテンツ内のオーディオコンテンツをソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられた部分とマッチングする段階;ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分で、スペクテイタデバイスにより記録されたメディアコンテンツのオーディオコンテンツを置換する段階;および、ソースデバイスにより記録されたより高品質なオーディオコンテンツの関連付けられたマッチングされた部分をスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツと共にコンパイルする段階を備える;ここで、ソースデバイスにより記録されたより高品質なオーディオコンテンツのコンパイル済みの関連付けられたマッチングされた部分、およびスペクテイタデバイスにより記録されたメディアコンテンツのビデオコンテンツは、スペクテイタにより記録された他のオーディオコンテンツとオーバーレイされる、方法である。
【0050】
本発明の一態様は、ユーザデバイス上でユーザにより記録された少なくとも第1のタイプおよび第2のタイプのメディアを有するリモートコンテンツを含むイベントメディアコンテンツと、第1のタイプのメディアを含むソースコンテンツとを同期させる方法であって、方法は、識別手段を用いて、ユーザにより記録された第1のタイプのメディアリモートコンテンツのデータ構造において識別する段階;識別手段を関連付けられたソースコンテンツ部分とマッチングする段階;関連付けられたソースコンテンツ部分でリモートコンテンツを置換する段階;および、第1のタイプのメディアの関連付けられたソースコンテンツ部分を、ユーザにより記録された第2のタイプのメディアのリモートコンテンツと共にコンパイルする段階を備える、方法である。
【0051】
一実施形態において、ソースコンテンツの第1のタイプのメディアは、オーディオであり、ユーザにより記録された第1のタイプのメディアは、オーディオであり、ユーザにより記録された第2のタイプのメディアは、ビデオである。ユーザにより記録された第3のタイプのメディアは、写真であり、第1のタイプのメディアの関連付けられたソースコンテンツ部分を、ユーザにより記録された第2のおよび第3のタイプのメディアと共にコンパイルすること。
【0052】
一実施形態において、ソースコンテンツの第1のタイプのメディアは、オーディオであり、ユーザにより記録された第1のタイプのメディアは、オーディオであり、ユーザにより記録された第2のタイプのメディアは、写真である。ソースコンテンツは、第1のタイプのメディアコンテンツオーディオのみを含み得る。
【0053】
一実施形態において、識別手段は、ユーザにより記録された第1のタイプのメディアリモートコンテンツの時間および位置のデータ構造において識別され得る。識別手段は、ユーザにより記録された第1のタイプのメディアリモートコンテンツのユーザにより手動で生成されたタグを含むデータ構造において識別され得る。
【0054】
一実施形態において、複数のユーザは、同じイベントに出席した関連付けられたユーザにより記録された第1のタイプおよび第2のタイプのメディアを記録し、第1のタイプのメディアの関連付けられたソースコンテンツ部分を、ソースコンテンツの持続時間中の異なる時間において異なるユーザにより記録された第2のタイプのメディアコンテンツのリモートコンテンツと共にコンパイルするための別個のユーザデバイスを、各々が有し得る。
【0055】
一実施形態において、ソースコンテンツは、イベント演奏のスタジオ品質記録である。リモートコンテンツは、イベント演奏記録の周囲ノイズおよびイベント演奏のより低品質な記録を含み得る。
【0056】
本発明の一態様は、ユーザにより記録された少なくとも第1のタイプおよび第2のタイプのメディアを有するリモートコンテンツを含むイベントメディアコンテンツと、第1のタイプのメディアを含むソースコンテンツとを同期させるシステムであって、システムは、ユーザにより記録された第1のタイプのメディアリモートコンテンツを識別し、識別手段を関連付けられたソースコンテンツ部分とマッチングするための識別手段を有する認識モジュール;関連付けられたソースコンテンツ部分でリモートコンテンツを置換するための同期モジュール;および、第1のタイプのメディアの関連付けられたソースコンテンツ部分を、ユーザにより記録された第2のタイプのメディアのリモートコンテンツと共にコンパイルするためのコンパイラを備える、システムである。
【0057】
一実施形態において、認識モジュールは、ユーザにより記録された第1のタイプのメディアリモートコンテンツの時間および位置のデータ構造における識別手段を含む識別モジュール;および、識別手段を関連付けられたソースコンテンツ部分とマッチングするためのマッチングモジュールを有する。
【0058】
一実施形態において、ソースコンテンツの第1のタイプのメディアは、オーディオであり、ユーザにより記録された第1のタイプのメディアは、オーディオであり、ユーザにより記録された第2のタイプのメディアは、ビデオである。ユーザにより記録された第3のタイプのメディアは、写真であり、第1のタイプのメディアの関連付けられたソースコンテンツ部分を、ユーザにより記録された第2のおよび第3のタイプのメディアと共にコンパイルすること。
【0059】
一実施形態において、ソースコンテンツの第1のタイプのメディアは、オーディオであり、ユーザにより記録された第1のタイプのメディアは、オーディオであり、ユーザにより記録された第2のタイプのメディアは、写真である。ソースコンテンツは、第1のタイプのメディアコンテンツオーディオのみを含み得る。
【0060】
一実施形態において、識別手段は、ユーザにより記録された第1のタイプのメディアリモートコンテンツの時間および位置のデータ構造において識別され得る。識別手段は、ユーザにより記録された第1のタイプのメディアリモートコンテンツのユーザにより手動で生成されたタグを含むデータ構造において識別され得る。
【0061】
一実施形態において、複数のユーザは、同じイベントに出席した関連付けられたユーザにより記録された第1のタイプおよび第2のタイプのメディアを記録し、第1のタイプのメディアの関連付けられたソースコンテンツ部分を、ソースコンテンツの持続時間中の異なる時間において異なるユーザにより記録された第2のタイプのメディアコンテンツのリモートコンテンツと共にコンパイルするための別個のユーザデバイスを、各々が有し得る。
【0062】
一実施形態において、ソースコンテンツは、イベント演奏のスタジオ品質記録である。リモートコンテンツは、イベント演奏記録の周囲ノイズおよびイベント演奏のより低品質な記録を含み得る。
【0063】
本発明の一態様は、ユーザにより記録された少なくとも第1のタイプおよび第2のタイプのメディアを有するリモートコンテンツを含むイベントメディアコンテンツと、第1のタイプのメディアを含むソースコンテンツとを同期させるコンピュータ実装方法であって、識別手段を用いて、ユーザにより記録された第1のタイプのメディアリモートコンテンツの時間および位置のデータ構造において識別する段階;識別手段を関連付けられたソースコンテンツ部分とマッチングする段階;関連付けられたソースコンテンツ部分でリモートコンテンツを置換する段階;および、第1のタイプのメディアの関連付けられたソースコンテンツ部分を、ユーザにより記録された第2のタイプのメディアのリモートコンテンツと共にコンパイルする段階を備える、コンピュータ実装方法である。
【0064】
本発明の一態様は、ユーザにより記録された少なくとも第1のタイプおよび第2のタイプのメディアを有するリモートコンテンツを含むイベントメディアコンテンツと、第1のタイプのメディアを含むソースコンテンツとを同期させる方法のためのユーザ電子デバイスであって、機械可読命令を格納したメモリ;および、機械可読命令を実行して、本発明の一実施形態による方法の段階を実装するように構成されたプロセッサを備える、ユーザ電子デバイスである。
【0065】
本発明の一態様は、ユーザにより記録された少なくとも第1のタイプおよび第2のタイプのメディアを有するリモートコンテンツを含むイベントメディアコンテンツと、第1のタイプのメディアを含むソースコンテンツとを同期させるシステムであって、機械可読命令を格納するためのメモリおよび機械可読命令を実行するように構成されたプロセッサを有するサーバ;機械可読命令を格納するためのメモリおよび機械可読命令を実行するように構成されたプロセッサを有する第1のユーザ電子デバイスを備える;サーバおよび第1のユーザ電子デバイスは、ネットワークを介して互いに通信するように構成されている;ここで、サーバおよび第1のユーザ電子デバイスは、本発明の一実施形態による方法の段階を実装するように相互動作する、システム。
【0066】
本発明の一態様は、本発明の一実施形態による方法の段階を実装するためのユーザ電子デバイスのプロセッサにより実行可能な機械可読命令を格納したコンピュータ可読媒体である。
【0067】
本発明の一実施形態による方法の段階を実装するためのサーバのプロセッサにより実行可能な機械可読命令を格納したコンピュータ可読媒体。
【図面の簡単な説明】
【0068】
本明細書に組み込まれ、本明細書の一部を形成する添付図面は、本発明のいくつかの態様を示し、本明細書と共に、本発明の原理を説明する役割を果たす。特定の実施形態に関連して本発明を説明するが、本発明を説明される実施形態に限定する意図はない。逆に、添付の特許請求の範囲により定義される本発明の範囲内に含まれる全ての代替物、修正および均等物を包含することが意図されている。図面は、以下のとおりである。
【0069】
図1】本発明の一実施形態によるシステムの概略ブロック図を示す。
図2】本発明の一実施形態による、図1に示されるサーバのより詳細な概略ブロック図を示す。
図3】本発明の一実施形態による、図1に示されるソース記録デバイスのより詳細な概略ブロック図を示す。
図4】本発明の一実施形態による、図1に示されるユーザデバイス記録デバイスのより詳細な概略ブロック図を示す。
図5】ソースメディアコンテンツと共にコンパイルされるリモートメディアコンテンツのデータ構造の概略図を示す。
図6】ソースメディアコンテンツと共にコンパイルされるリモートメディアコンテンツのデータ構造の概略図を示す。
図7】ソースメディアコンテンツと共にコンパイルされるリモートメディアコンテンツのデータ構造の概略図を示す。
図8】本発明の一実施形態による方法のフローチャートである。
図9】本発明の一実施形態によるシステムの概略ブロック図を示す。
【発明を実施するための形態】
【0070】
本発明の一実施形態は、スペクテイタまたはファンユーザによりイベント演奏においてスピーカから記録されたリモートオーディオおよびビデオコンテンツおよびプロモータ、クラブ、音楽提供者またはバンド等により記録される演奏から直接記録されたソースオーディオコンテンツを含むイベントメディアコンテンツを同期するための方法および装置である。ソースオーディオコンテンツは、スペクテイタにより記録されるリモートオーディオコンテンツよりも良い音響品質を有する。典型的には、ユーザによりユーザデバイス(例えば、スマートフォン等)上で記録されるイベント演奏のリモートで記録されたメディアコンテンツ、特にオーディオコンテンツの音質は、かなり低品質であり、また、非常に歪んでいると共に断片化されていて、記録されたリモートコンテンツが聞き取れないかつ見るに耐えないことが多い。リモートコンテンツを記録するためのユーザデバイス音響記録手段は、典型的には、ソースコンテンツを記録するために用いられる音記録機器品質に断然劣る。より高品質なオーディオソースコンテンツは、ユーザスペクテイタにより記録されるより低品質なオーディオリモートコンテンツを置換し、ユーザにより記録されるビデオリモートコンテンツと同期および積層される。結果として生じるイベントソースオーディオ/リモートビデオメディアコンテンツは、イベントについてのユーザのパーソナライズされたアカウントまたは記憶にクリーンなスタジオ明瞭音質オーディオを提供する。
【0071】
図1を参照すると、本発明の一実施形態によるシステムの概略ブロック図10が示される。イベントソースコンテンツおよびリモートコンテンツ同期システム10は、ネットワーク16(例えば、インターネットまたはローカルエリアネットワーク等)を介してソースコンテンツ20および少なくとも1つのユーザ22、24または複数のユーザ28と通信するサーバ12およびデータベース14を示す。ユーザ22は、イベント演奏26を記録する。イベント演奏は、ライブイベントまたはブロードキャストライブイベントであってよい。イベント演奏は、以前に記録されたイベントのブロードキャストであってよい。一実施形態において、ソースコンテンツ20は、イベントにおけるストリーミングされたライブまたは記録されたライブであってよい。ソースコンテンツは、スタジオで記録され、イベントまたはラジオ等で再生またはブロードキャストされる記録された音楽トラックであってよい。ユーザは、ユーザデバイス上でビデオを記録しつつ、バックグラウンドにおける音楽トラックのブロードキャストをキャプチャし得る。コンテンツプロバイダ30は、ユーザにより記録されるリモートコンテンツよりも音質が高いソースコンテンツを提供し得る。コンテンツプロバイダは、演奏に関連し得る追加のマテリアル、例えば、他のメディアコンテンツ(例えば、テキスト、オーディオコンテンツ、画像、写真、ビデオおよびビデオクリップ等)を提供し得る。外部ソーシャルメディア/通信ソース32は、コンテンツをアップロードおよび共有するためにネットワークを介して通信しているように示されている。
【0072】
図2は、本発明の一実施形態による、図1に示されるサーバ12のより詳細な概略ブロック図50を示す。サーバ12は、アプリケーションを格納および実行し、システムのアプリケーションの異なるモジュールを処理するプロセッサ52およびメモリ54を備える。サーバは、入力手段56および出力手段58、および、システムの異なるモジュールおよびデバイスと通信するためのインタフェースモジュール60を備え得る。サーバのモジュールは、ユーザのユーザプロファイルアカウントを維持するためのユーザプロファイルモジュール62と、演奏のコンテンツを管理するためのコンテンツモジュール64と、モジュールのソースコンテンツをユーザと共有するための共有モジュール66と、リモートコンテンツを識別するための識別コンテンツモジュール70およびリモートコンテンツをソースコンテンツとマッチングするためのマッチングコンテンツモジュール72を有する認識モジュール68と、より明瞭なオーディオソースコンテンツおよび他のメディアビデオリモートコンテンツでの不明瞭なオーディオリモートコンテンツの置換またはオーバーレイ等を行うための混合モジュール74とを備え得る。
【0073】
図3は、本発明の一実施形態による、図1に示されるソースコンテンツ20の記録デバイスのより詳細な概略ブロック図100を示す。ソースコンテンツ20の記録デバイスは、演奏のソースコンテンツを格納および実行し、ソースコンテンツ記録デバイス20の異なるモジュールを処理するためのプロセッサ102およびメモリ104を備える。ソースコンテンツの記録デバイスは、入力手段106および出力手段108と、ソースコンテンツを記録するための記録ソースコンテンツモジュール110と、必要とされる場合にソースコンテンツを混合するためのソースコンテンツ混合モジュール112と、ソースコンテンツをユーザと共有するための共有モジュール114と、コンテンツの同期を可能にするためにコンテンツにタグ付けするためのタグコンテンツモジュール116とを備え得る。ソースコンテンツのストレージが、ソースコンテンツ記録デバイスから離れたどこかにある、ソースコンテンツ記録デバイス自体に存在するストレージ(例えば、サーバ12、データベース14、コンテンツプロバイダストレージ30、外部ソーシャルメディア/通信ソース32、クラウドストレージ(不図示)または他のリモートストレージ等)に格納され得ることが理解されるであろう。ソースコンテンツの記録デバイスは、イベント演奏から直接的に、または、言い換えると、リモートユーザデバイスと比較してより直接的な方式で、演奏コンテンツを記録する。例えば、ソースコンテンツ記録デバイスは、リモートユーザの記録デバイスでこれまで実現可能だったものよりも実質的に高い感度および高い品質の記録を提供するために、電子音楽シーケンサ、シンセサイザ、楽器オーディオ出力等または演奏者および/または楽器等に近接して位置する高感度高仕様アナログ/デジタルマイクの演奏者によるデジタル出力の出力への直接リンク接続を含み得る。イベント演奏のソースコンテンツは、ライブで記録されると共に、ライブストリーミングイベントにおいてリアルタイムでブロードキャストされ、または、ライブイベント後に後の時点でブロードキャストされ得る。ソースコンテンツは、ステージ上または記録スタジオ内等で記録され得る。ソースコンテンツは、あるブロードキャスト手段により、例えば、コンサート開催場所、ラジオ局、ナイトクラブ、映画館、コンサートハウス、シアターまたはコンサート等でブロードキャストされ得る。演奏イベントのソースコンテンツは、スピーカシステム上の任意の場所でブロードキャストされてよく、ユーザデバイスを有するユーザは、スピーカの出力からリモートコンテンツを記録またはキャプチャする。ソースコンテンツ記録の品質を改善するために、ソースコンテンツ記録は、フィルタおよびサウンドエンジニアリング機器等により調整され得る。対照的に、ユーザリモート記録デバイスは、典型的には、邪魔な周囲音、歪みおよびフィードバック等を拾う演奏イベントのスピーカの間で演奏者から離れている。したがって、記録されたソースコンテンツは、ユーザデバイスで実現可能なより低品質なものよりもはるかに高品質なレベルを実現する。
【0074】
図4は、本発明の一実施形態による、図1に示されるユーザデバイス記録デバイス22のより詳細な概略ブロック図150を示す。ユーザデバイス22は、アプリケーションを格納および実行し、システムのユーザデバイスおよびアプリケーションの異なるモジュールを処理するためのプロセッサ152およびメモリ154と、システムの異なるモジュールおよびデバイスおよびユーザと通信するためのユーザインタフェースモジュールとを備える。ユーザデバイス22は、システムのコマンドおよび情報をユーザが入力および取得するための、かつ、システムの異なるモジュールおよびデバイスと通信するための入力156および出力158手段を備え得る。入力手段156は、マイクおよびビデオカメラ等を備え得る。出力手段は、ディスプレイ159およびスピーカ等を備えてよく、ユーザデバイスモジュールは、本発明の一実施形態による方法およびシステムを実行するためのアプリケーションモジュール162、メディアコンテンツをユーザデバイス上で再生するための再生コンテンツモジュール164、ユーザデバイスから生じるメディアコンテンツをユーザが構成および共有するための構成コンテンツモジュール166、ユーザデバイス上に存在するメディアコンテンツをコンテンツストアまたは記憶領域169等に格納および維持するための管理コンテンツおよびタグモジュール168を備えてよい。リモートコンテンツおよび/またはソースコンテンツのストレージが、ユーザデバイスから離れたどこかにある、コンテンツストア169内のユーザデバイス自体に存在するストレージ(例えば、サーバ12、データベース14、コンテンツプロバイダストレージ30、外部ソーシャルメディア/通信ソース32、クラウドストレージ(不図示)または他のリモートストレージ等)に格納され得ることが理解されるであろう。図5から図8を参照して、サーバ12の異なるモジュール60、62、64、66、ソースコンテンツ記録デバイス20のモジュール110、112、114、116およびユーザデバイス22のモジュール160、162、164、166、168のインタラクションをより詳細に説明する。
【0075】
図5から図7は、リモートコンテンツおよびソースコンテンツのデータ構造170、180、190の概略図を示す。より具体的には、図5は、イベント演奏においてユーザにより記録されるリモートメディアコンテンツのデータ構造170の概略図を示す。リモートメディアコンテンツ170のデータ構造は、積層式または二重式のメディアコンテンツ、すなわち、リモートコンテンツB 172層およびリモートコンテンツA 174層を含む。リモートコンテンツB 172層は、リモートメディアコンテンツのビデオ部分であってよく、一方、リモートコンテンツA 174は、リモートメディアコンテンツのオーディオ部分であってよい。各部分は、タグ176、178またはメタデータ等を備え、識別手段を備え、データ等を識別してリモートおよびソースデータの同期を可能にする。例えば、埋め込み型識別データタグまたはメタデータコンテナは、マルチメディアオーディオおよび/またはビデオコンテンツを識別するためのID3メタデータ、地理データまたは地理的位置データ(緯度および経度座標を含む)、タイムスタンプデータ、アーティスト名、曲またはトラック名、ジャンル、アルバムタイトル、アルバムトラック数および発売日等を含み得る。図6を参照すると、データ構造180は、演奏者ソース記録デバイスにより記録およびキャプチャされるソースメディアコンテンツの高品質ソースコンテンツA 182および関連付けられたタグ184を示す。
【0076】
図7を参照すると、図6の関連付けられたタグ184を有する高品質ソースコンテンツA 182層と共にコンパイルされ、埋め込まれ、かつ、積層された、図5の関連付けられたタグ176を有するリモートメディアコンテンツB 172層の、結果としてマッチングされたデータ構造190が示される。図5の低品質リモートコンテンツA 174は、ユーザにより記録されるリモートメディアコンテンツのデータ構造170から取り除かれ、図6の関連付けられたタグ184を有する高品質ソースコンテンツAにより置換される。これにより、ユーザによりキャプチャされたあるリモートコンテンツおよび演奏者ソース記録デバイスによりキャプチャされたあるソースコンテンツを含む二重データ構造を有するデータ構造190がもたらされる。本実施形態において、リモートコンテンツB 172は、ビデオコンテンツであってよく、リモートコンテンツA 174およびソースコンテンツA 182は、オーディオであってよい。コンテンツは、例えば、写真、ビデオおよびオーディオ等、他の形態のメディアコンテンツであってよいことが理解されるであろう。
【0077】
タグ176、178、184は、コンテンツの同期を可能にするための識別手段を提供する。例えば、本実施形態におけるタグは、イベント演奏と、記録された演奏の一部とを識別する時間および地理的位置を識別する。この情報は、高品質ソースコンテンツをリモートコンテンツと正確に識別、マッチングおよび同期するために不可欠である。例えば、マルチステージ音楽祭または電気音楽クラブ開催場所など、いくつかの演奏開催場所では、異なるステージまたは部屋において同時に行われるいくつかの行為があり得る。
【0078】
したがって、そのようなシナリオにおいて、地理的位置の精度は、開催場所のステージまたは部屋を区別するのに十分である。タイムスタンプおよび/または地理的位置の代わりに、またはこれらに加えて、識別手段の他の形態が用いられ得ることが理解されるであろう。
【0079】
ユーザデバイス22のアプリケーション162がより低品質なリモートコンテンツA 174のタグ178の識別詳細をサーバへ通信すると、より高品質なソースコンテンツA 182は、識別され、ユーザデバイスへ伝送される。より高品質なソースコンテンツA 182は、リモートコンテンツB 172と同期される。
【0080】
一実施形態において、クラブ/プロモータ、音楽またはトラック生成器、またはラジオで再生されるオーディオトラック等からの、クリーンなオーディオ(すなわち、ソースコンテンツ)が受信される場合、特定の量の関連付けられたメタデータまたはタグ(自動的に、および手動の両方で生成されるもの)が存在し得る。関連付けられたメタデータまたはタグは、例えば、開始および終了時刻、地理的位置、開催場所の名前、プロモータ、イベント、位置、DJ、演奏者、テーマ、音楽ジャンルまたは機会等、追加の情報を含み得る。ソースコンテンツが典型的には音楽またはトラック生成器またはイベント主催者等により記録されるので、ソースコンテンツの品質は、スタジオのような高品質である。ユーザにより記録されるリモートコンテンツは、典型的には、記録されたまたはライブのストリーミングコンテンツをブロードキャストするスピーカから離れている、または遠隔である距離から記録される。したがって、ライブイベント演奏における全ての外部および内部の背景周囲ノイズも、ユーザによりリモートコンテンツに記録されてしまう。
【0081】
ユーザがリモートコンテンツ、すなわち、ビデオ、オーディオ、および/または、オーディオに関連付けられたフィンガープリントデータをサーバへアップロードする場合、リモートコンテンツ内には、ユーザにより記録され、ユーザデバイスの記録デバイス上で動作するアプリケーションにより生成されて埋め込まれる特定の量の関連付けられたメタデータも存在し得る。ユーザリモートコンテンツに関連付けられた、関連付けられたメタデータまたはタグのいくつか、例えば、開始時刻、終了時刻、終了時刻を導出するためのクリップ長、地理的位置または時間帯等が、自動生成さ得る。追加的に、ユーザリモートコンテンツに関連付けられた、いくつかの関連付けられたメタデータまたはタグは、ユーザにより手動で生成さるタグ、例えば、イベント名または音楽ジャンル等を含み得る。関連付けられたメタデータが既存の自動生成される関連付けられたメタデータから計算または導出されてよく、例えば、地理的位置が既存の地理的位置から既知である場合、イベントおよび開催場所は、既知であるとき、または既知のデータに対してマッチングされるときは、導出され得る。一実施形態において、例えば、DJが誰か、またはジャンルが何かなど、ユーザにより手動で生成されるメタデータは、我々のクリーンなオーディオデータを強化するために再生されている。
【0082】
一実施形態において、リモートコンテンツのオーディオまたは音響フィンガープリント検索が、ソースコンテンツをマッチングするためにフィンガープリントデータベースを検索するのに用いられ得る。正確なソースコンテンツオーディオを見つけてリモートコンテンツオーディオをマッチングするために、例えば、イベントコンテンツデータベース14、コンテンツプロバイダ30データベース、ユーザが既に格納している可能性があるユーザデバイス150上の既存のコンテンツを格納したコンテンツストア169等、コンテンツデータベースまたは記憶領域が検索され得る。ソースコンテンツが、ユーザデバイスから離れたどこかにある、コンテンツストア169内のユーザデバイス自体に存在するストレージ(例えば、サーバ12、データベース14、コンテンツプロバイダストレージ30、外部ソーシャルメディア/通信ソース32、クラウドストレージ(不図示)または他のリモートストレージ等)に格納されたコンテンツなど、任意の数の記憶領域で検索され得ることが理解されるであろう。任意の数のデータベースおよび記憶領域内の格納されたコンテンツは、イベントコンテンツデータベース14内のライブのまたは既知のイベントの、またはコンテンツプロバイダ30からの既知のトラックのマッチが存在しているかどうかを判断するために検索され得る。例えば、ユーザにより記録されるリモートコンテンツは、バックグラウンドで(例えば、車内で)、運転中に、またはレストラン等でラジオまたはジュークボックス等で再生される音楽をキャプチャし得る。トラックは、識別およびマッチングされる。ユーザからの関連付けられたメタデータは、関連していない可能性がある全ての既存のクリップを検索するのではなく、はるかに迅速に正確なクリップを見つけることが可能になるように、潜在的なオーディオクリップのリストをフィルタリングするために用いられ得る。
【0083】
図8は、本発明の一実施形態による方法200のフローチャートである。ユーザデバイスの方法は、アプリケーションをユーザデバイスにインストールし(202)、ユーザが演奏のリモートメディアコンテンツを記録する(204)。ユーザが記録されたソースメディアコンテンツを要求およびダウンロードし(206)、アプリケーションがユーザリモートコンテンツをソースコンテンツと同期させる(208)。リモートコンテンツおよびソースコンテンツがコンパイルされる(210)。
【0084】
一実施形態において、リモートメディアコンテンツが、認識モジュール68において、格納された音楽トラックと識別およびマッチングされる。リモートメディアコンテンツ、またはクリーンではないオーディオコンテンツは、ソースコンテンツと識別およびマッチングされてよく、または、クリーンなオーディオは、フィンガープリントタイプマッチ等と識別およびマッチングされてよい。音響フィンガープリント処理が、業界では用いられており、本発明の実施形態と共に、本明細書において適用され得る。そのような記録されたオーディオトラック等、コンテンツプロバイダ30により提供されるライブイベント演奏などの格納された音楽トラックは、イベントデータベース14に格納され得る。リモートコンテンツは、イベントデータベース内のイベント演奏およびコンテンツプロバイダデータベース内のトラックと識別およびマッチングされる。例えば、メディアコンテンツは、ライブイベントフラグを用いてライブイベントとして分類されてよく、イベントデータベース14に格納されたイベント演奏ソースコンテンツをマッチングしてよい。イベントデータベース内にマッチが見つからない場合、コンテンツプロバイダまたは音楽アプリケーションプログラムインタフェース(API)プロバイダにおいて、マッチが作成され得る。
【0085】
一実施形態において、ひとたび、クリーンなソースオーディオがコンパイルされてユーザのビデオに埋め込まれると、ユーザは、ユーザの個人的なリモートコンテンツB 172を外部ソーシャルメディア、および、ビデオクリップキャプチャおよび共有システム等に投稿することで、ユーザの視点から取られた演奏のユーザの個人的な瞬間をより高品質なソースコンテンツA 182と共にキャプチャし得る。図1に示される複数のユーザ28のうちの別のユーザは、例えば、投稿を閲覧する、投稿に対してコメントする、投稿を投稿したユーザをフォローする、および将来における同様のイベントについてのアラートを受ける等、いくつかのアクションをネットワークおよびサーバ内で取り得る。
【0086】
一実施形態において、イベントのソースオーディオは、ユーザのイベントコンテンツリモートビデオのリモートオーディオをソースオーディオと共に置換する。ソースオーディオは、ユーザデバイス、およびユーザデバイス上に位置するアプリケーションへ伝送され、イベントコンテンツリモートビデオをソースオーディオと同期させる。この同期は、システム内の他のデバイスにおいて、例えば、サーバおよびユーザデバイス等において行われ得ることが理解されるであろう。一実施形態において、結果として生じるデータ構造は、mp4形式ファイル等、および、ユーザデバイス上の単なるユーザビデオ、およびソースオーディオを含み得る。任意の再生ファイルまたは形式が用いられ、任意の数のマルチメディア再生アプリケーション上で再生されることで、同期されたソースオーディオコンテンツがファンのリモートビデオ/写真コンテンツと共にリプレイされ得ることが理解されるであろう。
【0087】
一実施形態において、単なるビデオ(例えば、写真等)以外の、ユーザデバイス(またはユーザデバイスに関連付けられた他のストレージ)上に存在するユーザの他のマルチメディアイベント関連コンテンツは、ビデオと共に、ソースオーディオと同期され得る。ファンによって取られる、より低品質なオーディオのいくつかでも、ソースオーディオの上にオーバーレイされ得ることが理解されるであろう。これは、ソースオーディオのオーディオ再生の強化された個人的体験をファンのオーディオ部分に提供する。例えば、ファンは、ファンが歌っているまたは声を合わせている部分がソースオーディオの再生で聞き取れることを望み得る。一実施形態において、結果として生じるデータ構造は、mp4形式ファイル等、および、ユーザデバイス上のユーザビデオおよび他のユーザマルチメディアコンテンツ、およびソースオーディオを含み得る。任意の再生ファイルまたは形式が用いられ、任意の数のマルチメディア再生アプリケーション上で再生されることで、同期されたソースオーディオコンテンツがファンのリモートビデオ/写真コンテンツと共にリプレイされ得ることが理解されるであろう。
【0088】
一実施形態において、ユーザのビデオは、ソースオーディオおよびソースマルチメディアコンテンツ(演奏イベント中に取られる写真など)と共にコンパイルされ得る。典型的には、写真は、イベントのビデオおよびオーディオ部分と共に記録した同じユーザデバイスで取られてよく、写真は、ビデオ間で取られてよい。写真が、演奏中に写真が取られていた特定の時間におけるソースオーディオコンテンツおよび同期されたファンリモートビデオ/写真および他のマルチメディアコンテンツのリプレイ中の期間(例えば、およそ1から5秒等)にわたって示されるように、写真または他のマルチメディアコンテンツは、地理的位置またはタイムスタンプ等と共に、図5から図7に示されるタグを含むデータ構造も有し得る。一実施形態において、結果として生じるデータ構造は、mp4形式ファイル等、および、ユーザデバイス上のユーザビデオ(および他のユーザマルチメディアコンテンツ)、および、ソースサーバにより提供されるソースオーディオおよびソースマルチメディアコンテンツを含み得る。任意の再生ファイルまたは形式が用いられ、任意の数のマルチメディア再生アプリケーション上で再生されることで、同期されたソースオーディオコンテンツがファンのリモートビデオ/写真コンテンツと共にリプレイされ得ることが理解されるであろう。一実施形態において、ユーザグループ内のマルチユーザのビデオは、ソースオーディオと共に単一のビデオへコンパイルされ得る。これは、複数のユーザデバイスからのビデオおよび写真等などのビデオおよび他のコンテンツおよびソースオーディオを含む先進的音響符号化(AAC)またはmp4ビデオ形式ファイル等をもたらし得る。ユーザのビデオ/写真クリップの選択は、ランダムに、または、何らかのつながりがあるユーザグループ(すなわち、ユーザのシステムネットワーク内で編成されたグループ内でコンテンツを互いに共有することに同意できる旨を示しているファン)内のユーザから選ばれてよい。任意の再生ファイルまたは形式が用いられ、任意の数のマルチメディア再生アプリケーション上で再生されることで、同期されたソースオーディオコンテンツがファンのリモートビデオ/写真コンテンツと共にリプレイされ得ることが理解されるであろう。リモートコンテンツは、ユーザにより記録されてよく、ユーザは、オーディエンス、演奏者または演奏を行っている発表者等のメンバであってよいことが理解されるであろう。
【0089】
一実施形態において、プロモータなどのコンテンツプロバイダからの他のコンテンツ、スポンサからのブランドマテリアル等は、単一のビデオへユーザのコンテンツおよびソースコンテンツオーディオと共にコンパイルされ得る。これは、イベント演奏全体のソースオーディオトラックの全長にわたりファンのビデオ/写真において何らかのギャップが存在する場合において、ソースオーディオ部分と同期されたビデオ部分におけるファンのタイムスタンプされたビデオ/写真シーケンス間の何らかのギャップを埋めることが必要または好都合であり得るときに、有用であり得る。
【0090】
前述の説明は、1人または複数人のユーザがユーザ電子デバイスを用いて、イベントにおける同期されたビデオおよびオーディオを含むメディアを記録し、その後、記録されたメディア内の低品質なオーディオを、より高品質な、ソースデバイスで記録されたオーディオ(上記の、より高品質な、ソースデバイスで記録されたオーディオは、例えば、上記イベントにおいてプロフェッショナル機器を用いて記録される)で置換することを望む方法、デバイスおよびシステムについてのものである。しかしながら、本発明の態様は、ユーザがプロフェッショナルオーディオ記録機器を持ってイベントに参加することに限定されないが、外部オーディオがメディア記録においてキャプチャされるあらゆる位置であって、キャプチャされたオーディオのより高品質なオーディオ記録が任意の適切なソースまたは任意の他のデバイスから利用可能である、位置にユーザがいることを含み得る。これは、いかなる限定でもなく例としてに過ぎないが、結婚式開催場所において記録される新郎新婦が述べる誓いを外部オーディオが含む結婚式へ出席すること、または、ディスクジョッキーが結婚式レセプションにおいて音楽を再生する結婚式へ出席すること、または、1つまたは複数の他のデバイスにより人混みのノイズが記録されるスポーツ開催場所へ出席すること、または、1つまたは複数の他のデバイスにより外部オーディオが記録されるレストランにいること、または、ユーザがメディアコンテンツを記録するよりもはるか前に既に生成されていた記録からより高品質なオーディオが取得され得る上記の場所のいずれかにいることを含み得る。結果的に、本発明の本質は、ユーザがそのメディア記録において低品質なオーディオをより良い品質のオーディオで置換することを可能にしており、上記メディア記録は、任意の場所で、任意の所で、および/または任意の時間に、かつ、好ましくは、ユーザの記録されたメディア内のオーディオまたはより高品質なオーディオに何も追加される必要がない場所で、記録時またはその後に、本発明のマッチングおよび置換段階を可能にするために行われる。
【0091】
「置換」により、本発明の態様は、ユーザの低品質なオーディオの一部または全部により高品質なオーディオをオーバーレイして、例えばプロフェッショナル品質オーディオの組み合わせを提供するが、ユーザの低品質なオーディオ(例えば、メディア記録にキャプチャされる話されたコメントなど)の一意の態様のいくつかは保持することを含み得る。
【0092】
図9は、本発明による前述の方法および以下で説明される改善された方法を実装するための、本発明の一実施形態によるシステム300の概略ブロック図である。
【0093】
システム300は、とりわけ、同期されたビデオおよびオーディオコンテンツを含むメディアコンテンツの記録を実行するように構成された第1のデバイス302を備える。第1のデバイス302は、好ましくは、スマートフォンなどのハンドヘルドデバイスを備えるが、図4に示されるメディアコンテンツを記録するための任意の適切なユーザデバイスを備え得る。いくつかの実施形態において、第1のデバイス302は、好ましくは本発明の方法を実装する機械コードを含むアプリケーション304をホストおよび実行するように構成されたデジタルカメラを備え得る。しかしながら、必要なことは、第1のデバイス302が、メディアコンテンツを記録でき、かつ、任意の適切な手段により第1のデバイス302から取得可能または第1のデバイス302においてアクセス可能(通信ネットワーク303を介する場合を含む)であるそのようなコンテンツ用のものであることのみである。
【0094】
システム300は、第2のデバイス306を含む。1つの実施形態において、第2のデバイス306は、オーディオコンテンツを記録し、または利用可能にするように構成されたデバイスまたはシステムである。好ましくは、デバイスまたはシステムは、高品質なオーディオコンテンツを記録するように構成されている。これは、マスタオーディオ記録または高忠実度オーディオ記録を含み得る。しかしながら、いくつかの実施形態において、第2のデバイス306は、既に記録されたオーディオコンテンツのソースを含むデバイスまたはシステムを表すことがあり、したがって、これらの実施形態では、第2のデバイス306自体がオーディオコンテンツを記録することが可能であるように構成されている必要はないが、通信ネットワーク303等を介してそのようなオーディオコンテンツを利用可能にすることが可能である。いくつかの実施形態では、第2のデバイス306は、オーディオコンテンツを格納するデータベースを備え得る。第2のデバイス306は、格納されたオーディオコンテンツへのアクセスを提供するストリーミングクライアントシステム等を備え得る。好ましくは、第2のデバイス306は、高品質なまたはより高品質なオーディオコンテンツを記録および/または提供するように構成されている。この文脈において、高品質なまたはより高品質なオーディオコンテンツは、第1のデバイス302により記録されるものよりも高い忠実度のオーディオコンテンツとみなされる。
【0095】
システム300は、複数の第2のデバイス306(不図示)を含んでよく、複数の第1のデバイス302(不図示)も含んでよい。
【0096】
システム300は、好ましくは、1つまたは複数の第2のデバイス306から受信されるオーディオコンテンツのタグデータおよび/またはフィンガープリントデータを格納するためのデータベース308を含む。
【0097】
上記第2のデバイス306のうちの1つまたは複数がオーディオコンテンツの1つまたは複数のインスタンス(例えば、オーディオコンテンツのライブラリなど)、または上記ライブラリからのオーディオコンテンツの選択されたインスタンスを利用可能にした場合、本発明の方法の1つの態様において、1つまたは複数の第2のデバイス306からのオーディオコンテンツの上記インスタンスのうちの1つまたは複数は、オーディオコンテンツの上記の提供されるインスタンスのタグデータおよび/またはフィンガープリントデータを抽出または生成するように構成されたサーバ310により処理され得る。サーバ310は、上記タグデータおよび/またはフィンガープリントデータをデータベース308へ伝送する。データベース308は、サーバ310とは別個のデバイスであってよく、またはサーバ310と統合されていてよい。
【0098】
同様に、オーディオコンテンツを記録または提供することが可能な他のユーザデバイスまたは他のデバイスまたはシステムを1つまたは複数の第2のデバイス306が備える場合、そのようなコンテンツは、ネットワーク303を介してサーバ310に対し利用可能にされてよく、上記の提供されるオーディオコンテンツのタグデータおよび/またはフィンガープリントデータを抽出または生成し、上記タグデータおよび/またはフィンガープリントデータをデータベース308へ伝送するために、サーバ310により処理されてよい。
【0099】
第1のデバイス302のユーザがメディアコンテンツを記録したが、メディアコンテンツのオーディオコンテンツの改善または置換を望む場合、ユーザは、メディアコンテンツをサーバ310に対して利用可能にするように第1のデバイス302を動作させ得る。サーバ310は、受信されたメディアコンテンツからオーディオコンテンツを抽出し、1つまたは複数の第2のデバイスにより提供されるオーディオコンテンツの既に処理されたインスタンスと同じ方式で上記オーディオコンテンツを処理することにより、上記の抽出されるオーディオコンテンツのタグデータおよび/またはフィンガープリントデータを抽出または生成するように構成されている。次に、サーバ310は、上記の抽出されるオーディオコンテンツの抽出または生成されたタグデータおよび/またはフィンガープリントデータを用いてデータベース308を検索して、第2のデバイス306により記録または提供されるオーディオコンテンツまたはオーディオコンテンツの一部と抽出されたオーディオコンテンツとをマッチングすることを試みる。
【0100】
ひとたび、第2のデバイス306により記録または提供されるオーディオコンテンツのマッチングされた部分が見つかると、サーバ310は、オーディオコンテンツの上記マッチングされた部分を取得し、当該部分を用いて、オーディオコンテンツのマッチングされた部分をメディアコンテンツのビデオコンテンツと共にコンパイルすることによりメディアコンテンツのオーディオコンテンツを置換または拡張する。次に、メディアコンテンツのビデオコンテンツと共にコンパイルされたオーディオコンテンツのマッチングされた部分は、ダウンロード、ストリーミングまたは共有のために、ユーザおよび/または他のユーザに対して利用可能にされ得る。
【0101】
本発明の方法の改良は、オーディオコンテンツのマッチングされた部分をメディアコンテンツのビデオコンテンツと共にコンパイルする時またはそれよりも前に、抽出されたオーディオコンテンツと、第2のデバイス306により記録または提供されるオーディオコンテンツのマッチングされた部分との間の起こり得るタイミング不整合を補償することにある。改良された方法は、メディアコンテンツのオーディオコンテンツと、第2のデバイス306により記録または提供されるオーディオコンテンツのマッチングされた部分との間のタイミング不整合の量を補償する。すなわち、サーバ310は、好ましくは、オーディオのマッチングされた部分をメディアコンテンツのオーディオコンテンツに対してオーディオのマッチングされた部分のタイミング不整合の決定された量だけ後方または前方へ適宜シフトさせる。
【0102】
メディアコンテンツのオーディオコンテンツに対するオーディオのマッチングされた部分の間のタイミング不整合の補償は、2つのオーディオ信号が同一またはほぼ同一と仮定される場合、および、上記の2つのオーディオ信号の間に小量の先行または遅延のタイミング不整合(例えば、+/-1秒)が存在するという仮定がある場合、より有効である。結果的に、以下で論じられるように、メディアコンテンツのオーディオコンテンツのマッチング処理を改善して、1つまたは複数の第2のデバイス306により記録または提供されるオーディオの最も一致している部分を見つけることは、タイミング不整合の補償の改善につながる。
【0103】
メディアコンテンツのオーディオコンテンツに対するオーディオのマッチングされた部分の間のタイミング不整合の量を決定する好ましい方法において、サーバ310は、メディアコンテンツのオーディオコンテンツを含む信号の1つまたは複数の、好ましくは複数のN個のセグメントを、第2のデバイス306により記録または提供されるオーディオコンテンツのマッチングされた部分を含む信号の1つまたは複数の、好ましくは複数の少なくともN個のセグメントと比較するように構成されている。これらのセグメントは、好ましくは、重複しており、好ましくは、同じ予め定められた、選択された、または計算されたサイズのものである。オーディオコンテンツのマッチングされた部分のオーディオ信号セグメントの各々およびメディアコンテンツのオーディオコンテンツのセグメントの各々は、ハニングウィンドウアルゴリズムを用いてウィンドウ表示される。ウィンドウ表示されたセグメントの各々のハニングウィンドウサイズは、好ましくは、メディアコンテンツのオーディオコンテンツおよびオーディオコンテンツのマッチングされた部分の間の予想または予測されるタイミング不整合よりも大きいサイズに設定される。ウィンドウ表示されたセグメントの各々のハニングウィンドウサイズは、好ましくは、予想または予測されるタイミング不整合よりも少なくとも2倍大きいサイズに設定される。例えば、予想または予測されるタイミング不整合が1秒である場合、ハニングウィンドウサイズは、好ましくは、この値の少なくとも2倍、例えば2秒に設定される。ウィンドウ表示されたセグメントは、好ましくは重複する。重複度は、全てのウィンドウセクションの合計が、ウィンドウ表示されたセグメント間の信号処理重複を維持するように、かつ、全体的な信号レベルが維持され、および/または回復可能であるように、選択される。
【0104】
次に、オーディオコンテンツのマッチングされた部分およびメディアコンテンツのオーディオコンテンツの各々の対応するウィンドウ表示されたセグメントのいくつかまたは全ては、そこからタイミング不整合の量が決定され得る相互相関アレイを取得するために相互相関付けられる。オーディオコンテンツのマッチングされた部分およびメディアコンテンツのオーディオコンテンツの各々の対応するウィンドウ表示されたセグメントは、好ましくは、位相変換を伴う一般化相互相関(GCC-PHAT)アルゴリズムを用いて相互相関付けられる。したがって、GCC-PHAT相互相関は、N個のタイミング不整合エントリの相互相関アレイを取得するために、N個の対応するウィンドウ表示されたセグメントのいくつかまたは全てに対して実行される。
【0105】
arg max(最大点集合)は、オーディオのマッチングされた部分およびメディアコンテンツのオーディオコンテンツの間のタイミング不整合の量、したがって、メディアコンテンツのビデオコンテンツと共にコンパイルされる場合にオーディオのマッチングされた部分のタイミングを補償するために用いられるタイミング不整合の量を含むように取られ得る。
【0106】
1つの実施形態において、不整合タイミングのアレイの中央値は、メディアコンテンツのビデオコンテンツと共にコンパイルする場合に第2のデバイスにより記録または提供されるオーディオコンテンツのマッチングされた部分のタイミングを補償するために用いられるタイミング不整合の量を含むように取られ得る。
【0107】
好ましい実施形態において、不整合タイミングの最も一般的な値の予め定められた、選択された、または計算された範囲に含まれないタイミング不整合のアレイにおける不整合タイミングはいずれも、オーディオコンテンツのマッチングされた部分のタイミングを補償するために用いられるタイミング不整合の量として取られる不整合タイミングのアレイの中央値を決定する場合、割り引かれる。1つの実施形態において、予め定められた、選択された、または計算された範囲は、モード値の、すなわち、不整合タイミングの最も一般的な値の、+/-10%を含む。予め定められた、選択された、または計算された範囲に含まれない任意の不整合タイミングのタイミング不整合のアレイのクリーニングには、例えばオーディオ信号内の高ノイズフロアおよび/または他のアーティファクトにより引き起こされる例外的な不整合タイミングを除去するという利点がある。オーディオコンテンツのマッチングされた部分がユーザのメディアコンテンツのビデオコンテンツと共にコンパイルされる場合、オーディオコンテンツのマッチングされた部分は、不整合タイミングの決定された量に基づき、適宜、タイムラインに沿って後方または前方へシフトされる。
【0108】
タイミング不整合の補償は既知のまたは選択された許容差時間値に従って実行され得ることが分かった。許容差時間の値は、タイミング補償の後にオーディオコンテンツのマッチングされた部分がずれたままであり得る時間の量である。許容差時間値は、ひとたび共にコンパイルされて閲覧され/聴かれるとオーディオコンテンツのマッチングされた部分およびメディアコンテンツのビデオコンテンツの間のユーザによる目立った同時性エラーをもたらさないものとして選択され得る。好ましくは、許容差時間値は、45ミリ秒以下だけ、好ましくは35ミリ秒以下だけビデオコンテンツに先行し、かつ、125ミリ秒以下だけ、好ましくは100ミリ秒以下だけビデオコンテンツに遅れる、オーディオコンテンツのコンパイル済みのマッチングされた部分の範囲に含まれる。許容差時間値範囲には、タイミング不整合の量を決定する精度を低減するという利点がある。また、これは、第1のデバイス302により記録されるメディアコンテンツのオーディオコンテンツとの、1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツのマッチングを改善する。
【0109】
タイミング不整合の補償は、記録時に、またはさらには記録後に、メディアコンテンツのビデオコンテンツのいかなる処理も必要とせず、オーディオコンテンツのマッチングされた部分またはメディアコンテンツのオーディオコンテンツまたはビデオコンテンツに追加されるいかなるデータまたはタイミングインジケーションも必要としないこと、例えば、そのようなデータまたはタイミングインジケーションまたは他のタイミングまたは同期データは、タグデータおよび/またはフィンガープリントデータを抽出または生成するためにオーディオ信号が処理される場合に提供される必要がないことに留意されたい。オーディオおよびビデオ信号は、従来のデバイスに記録されてよく、本明細書において説明される以外の追加の処理は、本発明の方法を実装するために必要とされない。
【0110】
オーディオコンテンツのフィンガープリントデータを取得することは、データベース内にマッチングフィンガープリントデータが存在する場合、クエリに基づくデータベースの検索がこのクエリについてのオーディオコンテンツのマッチングされた部分をもたらすように、オーディオコンテンツファイルの表現を含むデータをデータベースまたは他のストレージデバイスに格納することを含み得る。これが当てはまるのは、データベース内のオーディオコンテンツファイルの表現を含む格納されたデータに関連付けられたオーディオコンテンツのフィンガープリントデータの抽出または生成のための同じ方法を用いてデータベースクエリに関連付けられたオーディオコンテンツのために抽出または生成されるフィンガープリントデータをクエリが含む場合である。本発明において、これは、第2のデバイス306のうちの1つまたは複数からのオーディオコンテンツの格納されたインスタンスのフィンガープリントデータをデータベース308に格納し、その後、第1のデバイス302からのユーザメディアコンテンツのオーディオコンテンツのフィンガープリントデータを抽出または生成してデータベースクエリを形成することに相当する。1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツのインスタンス自体は、フィンガープリントデータデータベース308に格納されなくてよいが、データベース308に格納されてネットワーク303を介してアクセス可能なフィンガープリントデータにより指し示される他のデバイスまたはシステムに格納されてよいことが理解されるであろう。
【0111】
オーディオコンテンツのフィンガープリントデータを抽出または生成するために適合させられ得る適切なプログラムは、オープンソースプログラム「DejaVu(登録商標)」である。これは、時間論理式に対してイベントストリームをモニタリングするためのScalaで書かれたプログラムである。この式は、一次過去線形時間ロジックで書かれ、マクロおよび再帰ルールの追加を伴う。このロジックはまた、時間についての推論をサポートする。DejaVu(登録商標)は、ディスクから未知のwaveファイルを読み取り、または少なくとも5秒にわたって記録を聴く場合、100%の再現率を示す。
【0112】
本発明による、複数個のオーディオコンテンツのフィンガープリントデータを抽出または生成する方法は、「DejaVu(登録商標)」の使用に限定されないこと、および、他の適切なプログラムが使用され得ることが理解されるであろう。
【0113】
オーディオコンテンツ、および特に音楽は、数字の長いリストとして、デジタル方式でエンコードされる。非圧縮wavファイルには、1チャネルにつき1秒当たり44100個の数字が存在し(44.1kHz)、これは、長さが3分である曲がほぼ1600万個のサンプルを有することを意味する。
【0114】
本発明の方法の目的で、フィンガープリントの関連周波数情報は、約20Hzから2500Hzまでの範囲内、すなわち、およそ人間が聞こえる範囲内で見つかる。したがって、無関係な情報/データの量を処理および低減する速度を改善するために、フィンガープリントデータのために処理されているオーディオコンテンツは、44.1kHzから約5kHzへダウンサンプリングされる。オーディオコンテンツをダウンサンプリングする利点は、同じ量の情報を取得するのに必要とされる周波数分解能がより少なく、また、粒度が下がり、上述の好ましい時間許容差範囲内での2個のオーディオコンテンツのマッチングにおけるエラーの余地がより多くなるのを可能にすることである。これは、具体的には、ユーザのハンドヘルドモバイルデバイスなどの第1のデバイス302からのメディアコンテンツから取られるオーディオコンテンツのうちの1個が「ダーティ」オーディオである(すなわち、外部の周囲ノイズを受ける)、および/または低忠実度の機器により記録される場合、当てはまる。
【0115】
本発明により提案される方式でのダウンサンプリングにより、高速フーリエ変換(FFT)サイズが、44.1kHzかつ粒度10.7Hzで4096FFTから、5kHzかつ粒度39Hzで128へ低減する。この文脈における粒度は、1つのFFTビンから次のFFTビンまでの距離を意味する。
【0116】
FFTは、時間および周波数の関数としての振幅を含む2次元アレイを有するスペクトログラムを作成するために小さいタイムウィンドウで用いられる。スペクトログラムは、それぞれの周波数におけるオーディオコンテンツ信号の振幅を示す。周波数および時間値は離散化されて「ビン」を表し、一方、振幅は実数値である。
【0117】
この文脈において、「ピーク」は、局所的な近傍における最大値である振幅値に対応する時間/周波数ペアを含む。最大ピークをプロット(離散化)することにより、これは、時間/周波数ペアのビンへそれぞれビニングされ得る時間/周波数ペアの離散整数値をもたらす。これにより、ピークの無限の情報が有限の値、したがって、フィンガープリントデータの有限の量へ低減する。続いて、マッチングが求められるオーディオコンテンツのうちの1個が「ダーティ」である場合でも、音響コンテンツのマッチング部分が時間/周波数ペアに関して振幅ピーク値の同一またはほぼ同一のビニングをもたらす可能性が非常に高い。
【0118】
好ましくは、スペクトログラム内の各FFTについて、直線が、この結果に適合させられ、次にFFTから除去されることで、低い側および高い側にわたってより正規化された周波数応答が提供される。FFTスペクトログラムから除去された線は、ビン内でビニングおよび正規化されてよく、これには、周波数応答を平坦化し、周波数スペクトルにわたって等しく重きを置くという利点がある。
【0119】
設定されたまたは固定された最小振幅値を選択する代わりに、最小振幅値が、信号レベル時間不変の署名またはフィンガープリントをもたらす中央スペクトログラムレベルに1つの中央絶対偏差を加えたものとして、自動的に計算され得る。
【0120】
ハッシュ関数は、整数の入力を取り、別の整数を出力として戻す。また、ハッシュ関数は、同じ整数入力について同じ整数出力を戻す。本発明の方法は、FFTスペクトログラム内の周波数ピークのハッシュ値を生成する。ピーク周波数をその時間差と共に組み合わせてハッシュ値を作成することにより、これは、1個のオーディオコンテンツの一意のフィンガープリントをもたらす。一般的なレベルにおける式は、以下のとおりである。
【0121】
ハッシュ(ピークの周波数、ピーク間の時間差)=フィンガープリントハッシュ値。
【0122】
周波数ピークおよびその時間差に基づくハッシュ値が抽出または生成され得る多数の態様が存在し、全てのそのような態様は、本発明の方法で実装され得る。しかしながら、好ましい態様は、スペクトログラム内の周波数ピークをアンカー周波数ピークとして選択し、アンカー周波数ピークおよび次の選択された周波数ピークの間の時間差を識別することである。次に、このピークペアのフィンガープリントハッシュ値が生成さ得る。1個のオーディオコンテンツの一意のフィンガープリントを含むために十分なハッシュ値が生成されるまで、この処理は、1-2(「1」はアンカーピークであり、「2」はこのアンカーピークの後の第1の次に選択されたピークである)、1-3(「3」は「2」の後の次の選択されたピークである)、1-4、1-5等についてハッシュ値が生成されるまで、アンカーピークおよび次の選択されたピークの間で繰り返される。わずか5個のハッシュ値が1個のオーディオコンテンツの一意のフィンガープリントとして用いられ得るが、フィンガープリントのデフォルトファン値が満たされるまで、1個のオーディオコンテンツのスペクトログラムからハッシュ値を生成することが好ましい。選択されたピークが互いにMAX_HASH_TIME_DELTAスペクトログラムサンプル500個以内になるようにデフォルトファン値が選択されてよく、これにより、1個のオーディオコンテンツにつき最大で60個のハッシュ値がもたらされ得る。1個のオーディオコンテンツのハッシュ値は、値の2次元アレイとして格納および/または処理され得る。デフォルトファン値は、調整可能であってよいが、好ましくは、60という値に設定される。
【0123】
複数個のオーディオコンテンツのフィンガープリントデータを抽出または生成する前述の方法は、1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツの、およびその後には、第1のデバイス302からのメディアコンテンツのオーディオコンテンツの一意のフィンガープリントデータまたは署名を取得するために用いられ得ることが理解されるであろう。第1のデバイス302からのメディアコンテンツのオーディオコンテンツを置換または拡張するために好ましくはより高品質な格納されたオーディオコンテンツのマッチングされた部分を見つけるべく、1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツのインスタンスの一意のフィンガープリントデータは、好ましくはフィンガープリントデータベース308に格納され、第1のデバイス302からのメディアコンテンツのオーディオコンテンツの一意のフィンガープリントデータは、データベースクエリを作成するために用いられる。
【0124】
好ましくは、データベースクエリを検索する方法は、データベースクエリおよび格納されたデータベースインスタンス(すなわち、データベース308に格納された一意のフィンガープリントのインスタンス)の間のメトリックを抽出する段階を含む。好ましくは、データベースクエリオーディオコンテンツのフィンガープリントと、データベース308に格納された一意のフィンガープリントのインスタンスとの間でのハッシュの交差は、データベースクエリの上記フィンガープリントの2次元ハッシュ値アレイと、データベース308に格納された一意のフィンガープリントの上記インスタンスとの交点を見つけて、上記2次元ハッシュ値アレイの両方において見つかるソートされた一意のハッシュ値を戻すことにより実現される。これは、「np.intersect1d」アルゴリズムを用いて計算され得る。クエリマッチングおよびデータベースマッチングのインデックス値を用いることで、マッチングの品質が判断されることが可能になり得る。
【0125】
データベースクエリのオーディオコンテンツ(すなわち、第1のデバイス302からのメディアコンテンツの抽出されたオーディオコンテンツ)に対してオーディオコンテンツのマッチングされた部分を識別する際に用いられる1つまたは複数の可能なメトリックは、以下のものを含み得る。
1. 対応する各ハッシュ交点の間の時間差を含むオフセットメトリック;
2. マッチの数をクエリ内のハッシュの数で除算したものを含むマッチ比(これは、百分率(%)として表され得る);
3 上記項目1のオフセットアレイのモード値に基づく真のオフセットメトリック(最も一般的なオフセット値は、最も頻繁に生じるものである);
4. 上記項目1のオフセットアレイのKurtosisを含むKurtosisメトリック(オフセットアレイのKurtosis値は、分布のランダム性に関する重要な情報を与える;完全にランダムな分布は負のKurtosis値を有することに留意されたい);
5. 1つのヒストグラムビンをオフセット値の総数で除算したものの内に含まれるオフセット値を含む単一のビンドミネーションメトリック(これにより、マッチングハッシュのうちのいくつが正確な順序であるかについてのメトリックが与えられる)。
【0126】
上記メトリックの任意の適切な組み合わせが利用され得る。
【0127】
マッチングハッシュの順序は、マッチするハッシュの量よりも重要であり、結果的に、マッチングハッシュの順序には、オーディオコンテンツの最も一致している部分を決定する際にマッチングハッシュの量または数よりも大きい重みが与えられ得ることが、認識された。
【0128】
データベースクエリが処理されている場合、データベース308の検索は、各データベースインスタンスでの反復、および、データベース308内の保存された各インスタンスの上記メトリックのうちの1つまたは複数の計算を伴う。検索結果のデータベース308からの出力は、[メトリック、名前]という形態を取ってよく、名前は、データベースインスタンスを識別することにより、1つまたは複数の第2のデバイス306により記録または提供される関連付けられて格納されたオーディオコンテンツを識別する。
【0129】
好ましくは、検索クエリに基づくデータベース308内の各インスタンスについて計算されたメトリックがランク付けされる。これは、結果をマハラノビス距離によりソートすることにより実現され、標準偏差に関して多次元平均値から最も遠い次数をもたらし得る。唯一の「最良のマッチ」および多くの誤ったまたは低品質なマッチが存在すべきなので、これは、最良のマッチから最悪のマッチまでのデータベースマッチのランクをもたらす。
【0130】
また、好ましくは、1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツおよび1つまたは複数の第1のデバイス302からのメディアコンテンツのオーディオコンテンツについて、それらのフィンガープリントの各々は、ハッシュアレイおよび対応するインデックスアレイおよびオーディオコンテンツ[名前]を含む形態で配置され、これにより、データベース308への容易な格納が可能になり、全ての入力をライブラリファイルまたはフォルダ等に統合することが可能になり、データベースクエリのより容易な処理が可能になる。
【0131】
本発明の方法はまた、第1のデバイス302のメディアコンテンツのオーディオコンテンツから取得されるデータベースクエリのハッシュサイズを低減することにより強化され得る。本発明の方法は、追加的に、または代替的に、1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツのフィンガープリントデータベースインスタンスのハッシュサイズを低減することにより強化され得る。
【0132】
1つまたは複数の第1のデバイス302のうちの1つにより記録されるメディアコンテンツのオーディオコンテンツを置換または拡張するために、1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツのマッチング部分を検索することは、K個のデータベースクエリハッシュの多数のインスタンスを格納したデータベース308内のN個のクエリハッシュを含むデータベースクエリを検索することに見立てられ得る。言い換えると、これは、1つまたは複数の第1のデバイス302のうちの1つにより記録されるメディアコンテンツのオーディオコンテンツから導出されるデータベースクエリを検索し(上記オーディオコンテンツフィンガープリントは、N個のハッシュ値を有する)、上記データベースクエリを用いて、1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツの格納されたフィンガープリントのいくつかまたは全てのインスタンスを検索すること(データベース308内の格納されたフィンガープリントの各インスタンスは、少なくともK個のハッシュ値を有する)に相当する。Kという数字は、本質的にはそうではないが、典型的にはNという数字よりも大きくなること、および、データベース308内の格納された各フィンガープリントインスタンスの値Kは、それぞれのオーディオコンテンツが異なる長さを有し得るので、格納されたインスタンス間で異なり得ることが理解されるであろう。K>Nである場合、検索は、第1のデバイス302からのメディアコンテンツのオーディオコンテンツを置換または拡張するために、典型的には、オーディオコンテンツのインスタンスの全体ではなくマッチングされた部分の識別に着目する。
【0133】
第1のデバイス302からのメディアコンテンツのオーディオコンテンツについてNを低減する1つの方法は、アルゴリズム精度を追跡しつつ、かつ、最大精度結果をもたらす最小ウィンドウサイズを求めつつ、ウィンドウサイズを低減することである。しかしながら、好ましい態様は、第1のデバイス302からのメディアコンテンツのオーディオコンテンツから導出されるデータベースクエリの1つまたは複数の最適なセクションを、そのようなセクションがマッチングハッシュを含む可能性を生じさせるものの識別を試み、結果的に、データベース検索を行うために上記の1つまたは複数のそのようなセクションを選択することにより、選ぶことである。
【0134】
これを実現する1つの方法は、オーディオコンテンツのサイレントまたはクワイエットセクションを無視し、ノイズセクションに集中することに基づく。ここで、「ノイズ」は、高信号振幅セクションを指す。このことから、どのセクションが良好なデータベースクエリを構成しているかを判断することが可能である。良好なデータベースクエリの基準は、予め定められた長さ(例えば、15秒)を有するオーディオコンテンツのノイズセクションを取り、このセクションの検索結果を追跡して、結果が正確なマッチを提供しているかどうかを判断することにより、取得され得る。これは、予め定められた長さの選択されたノイズセクションをいくつかのより小さい個々のデータベースクエリへ分割し、それらの応答を追跡することにより、強化され得る。次に、いくつかのより小さいセクションへの応答の品質が評価または分析されることで、有効(良好)または無効なデータベースクエリを構成しているものが識別され得る。クエリの最も小さい有用なサイズの制限は、500個のスペクトログラムティックまたは6.4秒であるMAX_HASH_TIME_DELTAにより決定される。これは現在、本発明の方法に従ってオーディオコンテンツのハッシュを形成する場合の最大時間距離を含む。
【0135】
データベースクエリを形成するためのオーディオコンテンツの有効なセクションを構成しているものを確認済みなので、データベースを検索するためのN個のクエリハッシュを低減する方法は、サーバ310において、(i)オーディオコンテンツを受信する段階;(ii)上記オーディオコンテンツのフィンガープリントデータを取得、抽出または生成する段階;(iii)上記フィンガープリントデータをスキャンして、高品質および低品質なセクションまたは領域を識別する段階;(iv)上記フィンガープリントデータからあらゆる低品質なセクションまたは領域を破棄する段階;および(v)フィンガープリントデータの領域の残りのセクションを用いてデータベースクエリを確認または導出する段階を備え得る。
【0136】
データベースサイズを低減する1つの解決手段は、データベース308の全体を通して時系列に、または位置に従って検索すること、または、例外的事例を除外するために複数の既知の仮定を用いることであるが、そのような方法は、最適ではない。
【0137】
好ましい方法は、特徴ベクトルクラスタリングを用いることである。これは、1つまたは複数の第2のデバイス306のいずれかにより記録または提供される各オーディオコンテンツから、好ましくは時間的に不変な長さを有する1つまたは複数の特徴ベクトルを抽出して、1つまたは複数の第2のデバイス306のいずれかにより記録または提供される上記オーディオコンテンツのそれぞれの代表的な特徴を作成することを伴う。同じ処理が、オーディオコンテンツのマッチングされた部分が求められる第1のデバイス302からのメディアコンテンツのオーディオコンテンツに適用される。オーディオコンテンツ特徴から特徴ベクトルが導出される。特徴ベクトルを抽出するために用いられ得る1つのタイプのオーディオコンテンツ特徴がオーディオコンテンツ信号の物理特徴であり、例えば、1分当たりの拍(bpm)、エネルギー関数、スペクトル、ケプストラム係数、信号の基本周波数などである。特徴ベクトルを導出するために用いられ得る別のタイプのオーディオコンテンツ特徴は、人間がオーディオの音をどのように知覚するかに関連する知覚特徴を含む。知覚特徴は、例えば、音量、明るさ、ピッチ、音色、リズム等を含む。エネルギー関数、平均ゼロ交差レートおよび基本周波数、ならびにオーディオコンテンツ信号のスペクトルピークトラックなど、オーディオコンテンツ信号の短期的な物理特徴を用いることも可能である。1つまたは複数の第2のデバイス306のいずれかにより記録または提供されるあらゆるオーディオコンテンツのために、または1つまたは複数の第1のデバイス302により記録または提供されるオーディオコンテンツのために抽出された特徴ベクトルは、データベース308の検索における使用のためにデータベース308に提供される。
【0138】
データベース308の検索動作は、上記の抽出された特徴ベクトルの凝集クラスタリングを用いて「同様の」データベースインスタンスの検索を低減することにより、低減され得る。これは、そこからデータベースクエリが形成される第1のデバイス302からのオーディオコンテンツの1分当たりの拍である「bpm」を取得し、同様の代表的な特徴(例えば、同様のbpm)を有するインスタンスのみをデータベース308全体を通じて検索することと考えられ得るが、実際には、bpm単独では、一般的なbpm(80、120および170など)の普及度に起因して同量にはならず、だが、良好な開始点を提供する。抽出された特徴ベクトルの長さが時間的に不変であることが好ましいが、この方法は依然として、適用される(すなわち、データベース全体にわたって標準とされる)予め定められた特徴ベクトル長を用いて実装され得る。
【0139】
したがって、いくつかの実施形態では、この方法は、オーディオコンテンツのマッチングされた部分を試して見つけるのに適切なオーディオ/音響タグおよび/またはフィンガープリント検索を実行する前に、上記1つまたは複数の特徴ベクトルを用いて、1つまたは複数の第2のデバイス306により記録または提供されるオーディオコンテンツの格納されたインスタンスの検索のサイズを低減する段階を備える。
【0140】
発明者には既知である本発明を実行するためのベストモードを含む本発明の実施形態を本明細書において説明してきた。前述の説明を読むと、それらの好ましい実施形態の変形は、当業者には明らかになり得る。発明者は、当業者がそのような変形を適宜使用することを予想しており、発明者は、本明細書において具体的に説明されているものとは異なるやり方で本発明が実施されることを意図している。したがって、本発明は、適用法により許可されるとおりに、本明細書に添付された特許請求の範囲に記載された主題の全ての修正および均等物を含む。さらに、本明細書に別段の記載がない限り、または文脈上別段の明らかな矛盾がない限り、上で説明された要素のあらゆる組み合わせが、それらの全ての可能な変形において、本発明により包含される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】