IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ スタッツ エルエルシーの特許一覧

特許7541972視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理
<>
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図1A
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図1B
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図1C
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図1D
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図2
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図3A
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図3B
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図4
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図5
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図6
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図7
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図8
  • 特許-視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-21
(45)【発行日】2024-08-29
(54)【発明の名称】視聴覚コンテンツから可変長分解されたセグメントを抽出するためのオーディオ処理
(51)【国際特許分類】
   G10L 25/57 20130101AFI20240822BHJP
   G10L 25/18 20130101ALI20240822BHJP
   H04N 21/845 20110101ALI20240822BHJP
   H04N 21/439 20110101ALI20240822BHJP
【FI】
G10L25/57
G10L25/18
H04N21/845
H04N21/439
【請求項の数】 37
(21)【出願番号】P 2021505405
(86)(22)【出願日】2019-07-18
(65)【公表番号】
(43)【公表日】2021-12-02
(86)【国際出願番号】 US2019042391
(87)【国際公開番号】W WO2020028057
(87)【国際公開日】2020-02-06
【審査請求日】2022-06-28
(31)【優先権主張番号】62/712,041
(32)【優先日】2018-07-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/746,454
(32)【優先日】2018-10-16
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/440,229
(32)【優先日】2019-06-13
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】524046744
【氏名又は名称】スタッツ エルエルシー
【氏名又は名称原語表記】STATS LLC
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【弁理士】
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】ストヤンシック,ミハイロ
(72)【発明者】
【氏名】パッカード,ウォレン
【審査官】中村 天真
(56)【参考文献】
【文献】特開2012-037910(JP,A)
【文献】特開2011-075935(JP,A)
【文献】特開2003-101939(JP,A)
【文献】特表2015-505992(JP,A)
【文献】特開2008-185626(JP,A)
【文献】特開2004-258659(JP,A)
【文献】小泉 悠馬ほか,音量軌跡の遷移型状態空間表現に基づくダイナミックスとアーティキュレーションへの分解,電子情報通信学会論文誌D,2015年03月,Vol.J98-D, No.3,p.492-500
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93
H04N 21/00-21/858
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
イベントを描写する視聴覚コンテンツのハイライトの境界を識別するための方法であって、
データストアに、前記イベントの少なくとも一部を描写するオーディオデータを記憶することと、
プロセッサにおいて、前記オーディオデータを自動的に分析して、前記オーディオデータのソフトエントリポイントを検出することであって、前記ソフトエントリポイントは、スペクトル活動が最小であるか、音量が低いか、またはその両方であるポイントである、検出することと、
前記プロセッサにおいて、前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定することであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの1つを含む、指定することと、
出力デバイスにおいて、前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも1つを再生することと、を含む、方法。
【請求項2】
前記視聴覚コンテンツがテレビジョン放送を含む、請求項1に記載の方法。
【請求項3】
前記視聴覚コンテンツが視聴覚ストリームを含み、前記方法が、前記イベントの少なくとも一部を描写するオーディオデータを記憶する前に、前記視聴覚ストリームから前記オーディオデータを抽出することをさらに含む、請求項1に記載の方法。
【請求項4】
前記視聴覚コンテンツが、記憶された視聴覚コンテンツを含み、前記方法が、前記イベントの少なくとも一部を描写するオーディオデータを記憶する前に、前記記憶された視聴覚コンテンツから前記オーディオデータを抽出することをさらに含む、請求項1に記載の方法。
【請求項5】
前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも1人のユーザにとって関心があると思われる前記スポーツイベントの一部を描写する、請求項1に記載の方法。
【請求項6】
前記ソフトエントリポイントを検出する前に、前記オーディオデータを所望のサンプリングレートにリサンプリングすることによって前記オーディオデータを前処理することをさらに含む、請求項1に記載の方法。
【請求項7】
前記ソフトエントリポイントを検出する前に、前記オーディオデータをフィルタリングすることによって前記オーディオデータを前処理して、
ノイズを低減することと、
関心があるスペクトルバンドを選択することと、のうちの少なくとも1つを実行することをさらに含む、請求項1に記載の方法。
【請求項8】
前記ソフトエントリポイントを検出する前に、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成することをさらに含む、請求項1に記載の方法。
【請求項9】
前記ソフトエントリポイントを検出することが、前記スペクトログラムに対して1秒未満の時間範囲のスライディング2次元時間周波数分析ウィンドウを適用することを含む、請求項8に記載の方法。
【請求項10】
前記ソフトエントリポイントを検出することが、
前記スライディング2次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ/位置ペアのベクトルを形成することと、を含む、請求項9に記載の方法。
【請求項11】
前記ソフトエントリポイントを検出することが、
スペクトル振幅インジケータ/位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Qにコンバートすることと、
前記スペクトログラムのQ/位置ペアを持つ初期ベクトルを生成することと、をさらに含む、請求項10に記載の方法。
【請求項12】
前記ソフトエントリポイントを検出することが、
Q/位置ペアを持つ前記初期ベクトルを連続する1秒間隔に分割することと、
1秒間隔あたりのQを最大化することと、をさらに含む、請求項11に記載の方法。
【請求項13】
1秒間隔あたりのQを最大化することは、
1秒間隔ごとに修飾子Qをソートすることと、
1秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのQ/位置ペアの第1のベクトルを形成することと、を含む、請求項12に記載の方法。
【請求項14】
前記ソフトエントリポイントを検出することが、
Q/位置ペアの前記第1のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいQ/位置ペアの前記第1のベクトルの各要素について、前記現在の位置の近傍において最大のQを見つけることと、
前記最大のQを持つ前記Q/位置ペアを新しいソフトエントリベクトルに入力することと、をさらに含む、請求項13に記載の方法。
【請求項15】
前記近傍において前記最大のQを見つけることが、
前記第1のベクトルの第1の要素をアンカー要素として指定することと、
前記第1の要素から2秒ずれた次の要素を選択することと、をさらに含む、請求項14に記載の方法。
【請求項16】
前記近傍において前記最大のQを見つけることが、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Qを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、をさらに含む、請求項15に記載の方法。
【請求項17】
前記近傍において前記最大のQを見つけることが、連続するステップにおいてQ/位置ペアの前記第1のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Qを持つソフトエントリポイントのセットを生成することをさらに含む、請求項16に記載の方法。
【請求項18】
ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換することと、
最良のエントリポイントの前記リストから前記時間インデックスを選択することと、をさらに含む、請求項17に記載の方法。
【請求項19】
前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別することをさらに含み、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項1に記載の方法。
【請求項20】
イベントを描写する視聴覚コンテンツのハイライトの境界を識別するための非一時的なコンピュータ可読媒体であって、前記非一時的なコンピュータ可読媒体に記憶された命令を備え、前記命令が、プロセッサによって実行されたとき、
前記イベントの少なくとも一部を描写するオーディオデータをデータストアに記憶させるステップと、
前記オーディオデータを自動的に分析して、前記オーディオデータのソフトエントリポイントを検出するステップであって、前記ソフトエントリポイントは、スペクトル活動が最小であるか、音量が低いか、またはその両方であるポイントである、検出するステップと、
前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定するステップであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの1つを含む、指定するステップと、
出力デバイスに前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも1つを再生させるステップと、を実行する、非一時的なコンピュータ可読媒体。
【請求項21】
前記視聴覚コンテンツがテレビジョン放送を含む、請求項20に記載の非一時的なコンピュータ可読媒体。
【請求項22】
前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも1人のユーザにとって関心があると思われる前記スポーツイベントの一部を描写する、請求項20に記載の非一時的なコンピュータ可読媒体。
【請求項23】
前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記ソフトエントリポイントを検出する前に、
前記オーディオデータを所望のサンプリングレートにリサンプリングすることと、
前記オーディオデータをフィルタリングして、ノイズを低減することと、
前記オーディオデータをフィルタリングして、関心があるスペクトルバンドを選択することと、のうちの少なくとも1つを実行することによって前記オーディオデータを前処理する、請求項20に記載の非一時的なコンピュータ可読媒体。
【請求項24】
前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記ソフトエントリポイントを検出する前に前記オーディオデータを前処理し、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成する、請求項20に記載の非一時的なコンピュータ可読媒体。
【請求項25】
前記ソフトエントリポイントを検出することが、前記スペクトログラムに対して1秒未満の時間範囲のスライディング2次元時間周波数分析ウィンドウを適用することを含む、請求項24に記載の非一時的なコンピュータ可読媒体。
【請求項26】
前記ソフトエントリポイントを検出することが、
前記スライディング2次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ/位置ペアのベクトルを形成することと、
スペクトル振幅インジケータ/位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Qにコンバートすることと、
前記スペクトログラムのQ/位置ペアを持つ初期ベクトルを生成することと、
Q/位置ペアを持つ前記初期ベクトルを連続する1秒間隔に分割することと、
1秒間隔あたりのQを最大化することと、を含み、
1秒間隔あたりのQを最大化することが、
1秒間隔ごとに修飾子Qをソートすることと、
1秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのQ/位置ペアの第1のベクトルを形成することと、を含む、請求項25に記載の非一時的なコンピュータ可読媒体。
【請求項27】
前記ソフトエントリポイントを検出することが、
Q/位置ペアの前記第1のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいQ/位置ペアの前記第1のベクトルの各要素について、前記現在の位置の近傍において最大のQを見つけることと、
前記最大のQを持つ前記Q/位置ペアを新しいソフトエントリベクトルに入力することと、をさらに含み、
前記近傍において前記最大のQを見つけることが、
前記第1のベクトルの第1の要素をアンカー要素として指定することと、
前記第1の要素から2秒ずれた次の要素を選択することと、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Qを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、
連続するステップにおいてQ/位置ペアの前記第1のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Qを持つソフトエントリポイントのセットを生成することと、をさらに含み、
前記非一時的なコンピュータ可読媒体が、前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換し、最良のエントリポイントの前記リストから前記時間インデックスを選択する、請求項26に記載の非一時的なコンピュータ可読媒体。
【請求項28】
前記非一時的なコンピュータ可読媒体に記憶された命令をさらに備え、前記命令が、プロセッサによって実行されたとき、前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別し、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項20に記載の非一時的なコンピュータ可読媒体。
【請求項29】
イベントを描写する視聴覚コンテンツのハイライトの境界を識別するためのシステムであって、
前記イベントの少なくとも一部を描写するオーディオデータを記憶するように構成されているデータストアと、
プロセッサであって、
前記オーディオデータを自動的に分析して、前記オーディオデータにおいてスペクトル活動が最小であるか、音量が低いか、またはその両方であるポイントである前記オーディオデータのソフトエントリポイントを検出し、
前記視聴覚コンテンツ内の、前記ソフトエントリポイントに対応する時間インデックスを前記境界として指定することであって、前記境界が、前記ハイライトの開始および前記ハイライトの終了のうちの1つを含む、指定するように構成されている、プロセッサと、
前記ソフトエントリポイントの検出中に前記視聴覚コンテンツおよび前記ハイライトのうちの少なくとも1つを再生するように構成されている出力デバイスと、を備える、システム。
【請求項30】
前記視聴覚コンテンツがテレビジョン放送を含む、請求項29に記載のシステム。
【請求項31】
前記イベントがスポーツイベントを含み、
前記ハイライトが、少なくとも1人のユーザにとって関心があると思われる前記スポーツイベントの一部を描写する、請求項29に記載のシステム。。
【請求項32】
前記プロセッサが、前記ソフトエントリポイントを検出する前に、前記オーディオデータを前処理して、
前記オーディオデータを所望のサンプリングレートにリサンプリングすることと、
前記オーディオデータをフィルタリングして、ノイズを低減することと、
前記オーディオデータをフィルタリングして、関心があるスペクトルバンドを選択することと、のうちの少なくとも1つを実行するようにさらに構成されている、請求項29に記載のシステム。
【請求項33】
前記プロセッサが、前記ソフトエントリポイントを検出する前に、前記オーディオデータを処理して、前記オーディオデータの少なくとも一部のスペクトログラムを生成するようにさらに構成されている、請求項29に記載のシステム。
【請求項34】
前記プロセッサが、前記スペクトログラムに対して1秒未満の時間範囲のスライディング2次元時間周波数分析ウィンドウを適用することによって、前記ソフトエントリポイントを検出するようにさらに構成されている、請求項33に記載のシステム。
【請求項35】
前記プロセッサが、
前記スライディング2次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、
前記平均スペクトル振幅インジケータを使用して、前記スペクトログラムのスペクトル振幅インジケータ/位置ペアのベクトルを形成することと、
スペクトル振幅インジケータ/位置ペアを持つ前記ベクトルの各要素について、前記スペクトル振幅インジケータを整数修飾子Qにコンバートすることと、
前記スペクトログラムのQ/位置ペアを持つ初期ベクトルを生成することと、
Q/位置ペアを持つ前記初期ベクトルを連続する1秒間隔に分割することと、
1秒間隔あたりのQを最大化することと、によって前記ソフトエントリポイントを検出するようにさらに構成されており、
前記プロセッサが、
1秒間隔ごとに修飾子Qをソートすることと、
1秒間隔ごとに非最大抑制を実行して、前記スペクトログラムのQ/位置ペアの第1のベクトルを形成することと、によって1秒間隔あたりのQを最大化するようにさらに構成されている、請求項34に記載のシステム。
【請求項36】
前記プロセッサが、
Q/位置ペアの前記第1のベクトルの要素の時間位置をステップ実行することと、
各時間位置について、現在の位置の時間を前の位置の時間と比較して、時間距離を取得することと、
前記時間距離がしきい値よりも大きいQ/位置ペアの前記第1のベクトルの各要素について、前記現在の位置の近傍において最大のQを見つけることと、
前記最大のQを持つ前記Q/位置ペアを新しいソフトエントリベクトルに入力することと、にさらによって前記ソフトエントリポイントを検出するようにさらに構成されており、
前記プロセッサが、
前記第1のベクトルの第1の要素をアンカー要素として指定することと、
前記第1の要素から2秒ずれた次の要素を選択することと、
前記次の要素の両側にある要素を調べることと、
最大化された修飾子Qを持つ、前記次の要素と、前記次の要素の両側にある前記要素と、のうちの前記要素を新しいアンカー要素として指定することと、
連続するステップにおいてQ/位置ペアの前記第1のベクトルのすべての要素を処理して、可変の相互距離を持ち、かつ最大化されたスペクトル修飾子Qを持つソフトエントリポイントのセットを生成することと、によって前記近傍において前記最大のQを見つけるようにさらに構成されており、
前記プロセッサが、
ソフトエントリポイントの前記セットを最良のエントリポイントのリストに変換し、
最良のエントリポイントの前記リストから前記時間インデックスを選択するようにさらに構成されている、請求項35に記載のシステム。
【請求項37】
前記プロセッサが、前記時間インデックスを前記境界として指定する前に、前記ハイライトを暫定的な境界で識別するようにさらに構成されており、
前記ソフトエントリポイントが、前記オーディオデータ内の複数のソフトエントリポイントの中で、前記暫定的な境界に時間的に最も近く、
前記時間インデックスを前記境界として指定することが、前記暫定的な境界を前記境界に置き換えることを含む、請求項29に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2018年7月30日に出願された「Audio Processing for Extraction of Variable Length Disjoint Segments from Television Signal」の米国仮出願第62/712,041号(代理人整理番号THU006-PROV)の利益を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
本出願は、2018年10月16日に出願された「Audio Processing for Detecting Occurrences of Loud Sound Characterized by Short-Time Energy Bursts」の米国仮出願第62/746,454号(代理人整理番号THU016-PROV)からの優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0003】
本出願は、2019年6月13日に出願された「Audio Processing for Extraction of Variable Length Disjoint Segments from Audiovisual Content」の米国実用新案出願第16/440,229号(代理人整理番号THU006)からの優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0004】
本出願は、2012年8月31日に出願され、2015年6月16日に米国特許第9,060,210号として発行された、「Generating Excitement Levels for Live Performances」の米国実用新案出願第13/601,915号に関連し、その全体が参照により本明細書に組み込まれる。
【0005】
本出願は、2012年8月31日に出願され、2014年9月23日に米国特許第8,842,007号として発行された、「Generating Alerts for Live Performances」の米国実用新案出願第13/601,927号に関連し、その全体が参照により本明細書に組み込まれる。
【0006】
本出願は、2012年8月31日に出願され、2013年11月26日に米国特許第8,595,763号として発行された、「Generating Teasers for Live Performances」の米国実用新案出願第13/601,933号に関連し、その全体が参照により本明細書に組み込まれる。
【0007】
本出願は、2014年10月9日に出願された「Generating a Customized Highlight Sequence Depicting an Event」の米国実用新案出願第14/510,481号(代理人整理番号THU001)に関連し、その全体が参照により本明細書に組み込まれる。
【0008】
本出願は、2015年5月12日に出願された「Generating a Customized Highlight Sequence Depicting Multiple Events」の米国実用新案出願第14/710,438号(代理人整理番号THU002)に関連し、その全体が参照により本明細書に組み込まれる。
【0009】
本出願は、2015年10月7日に出願された「Customized Generation of Highlight Show with Narrative Component」の米国実用新案出願第14/877,691号(代理人整理番号THU004)に関連し、その全体が参照により本明細書に組み込まれる。
【0010】
本出願は、2016年9月14日に出願された「User Interface for Interaction with Customized Highlight Shows」の米国実用新案出願第15/264,928号(代理人整理番号THU005)に関連し、その全体が参照により本明細書に組み込まれる。
【0011】
本出願は、2019年5月14日に出願された「Video Processing for Enabling Sports Highlights Generation」の米国実用新案出願第16/411,704号(代理人整理番号THU009)に関連し、その全体が参照により本明細書に組み込まれる。
【0012】
本出願は、2019年5月14日に出願された「Machine Learning for Recognizing and Interpreting Embedded Information Card Content」の米国実用新案出願第16/411,710号(代理人整理番号THU010)に関連し、その全体が参照により本明細書に組み込まれる。
【0013】
本出願は、2019年5月14日に出願された「Video Processing for Embedded Information Card Localization and Content Extraction」の米国実用新案出願第16/411,713号(代理人整理番号THU012)に関連し、その全体が参照により本明細書に組み込まれる。
【0014】
本出願は、2019年5月23日に出願された「Audio Processing for Detecting Occurrences of Crowd Noise in Sporting Event Television Programming」の米国実用新案出願第16/421,391号(代理人整理番号THU007)に関連し、その全体が参照により本明細書に組み込まれる。
【0015】
本文書は、マルチメディアコンテンツを配信するテレビジョンデバイスまたはビデオサーバ上のマルチメディアコンテンツおよび関連する情報を識別し、またマルチメディアコンテンツの配信と同期してコンテンツおよびサービスを提供するために、組み込みソフトウェアアプリケーションがマルチメディアコンテンツを利用することを可能にする技術に関する。様々な実施形態は、スポーツイベントを描写する番組コンテンツをセグメント化して、試合中および試合後の閲覧のためのビデオハイライトを作成する自動オーディオ分析を提供するための方法およびシステムに関する。
【背景技術】
【0016】
対話型広告などの拡張テレビジョンアプリケーション、ならびに試合前、試合中、および試合後の対話型アプリケーションを持つ拡張番組ガイドが長い間想定されてきた。もともと放送テレビジョン用に設計された既存のケーブルシステムは、対話型テレビジョンサービスおよび拡張(対話型)番組ガイドを含む、新しいアプリケーションおよびサービスのホストをサポートするよう求められている。
【0017】
拡張テレビジョンアプリケーションを可能にするためのいくつかのフレームワークが標準化されている。例としては、OpenCable(商標)拡張TVアプリケーションメッセージング仕様およびTru2way仕様が挙げられ、これらは、ケーブルビデオネットワークを介して配信される対話型デジタルケーブルサービスを指し、対話型番組ガイド、対話型広告、および試合などの機能を含んでいる。さらに、ケーブル事業者の「OCAP」番組は、eコマースショッピング、オンラインバンキング、電子番組ガイド、およびデジタルビデオ録画などの対話型サービスを提供している。これらの取り組みにより、番組編成者/放送局が配信するビデオコンテンツと同期され、追加のデータおよび対話性をテレビジョン番組に提供する、第1世代のビデオ同期アプリケーションが可能になった。
【0018】
ビデオ/オーディオコンテンツ分析技術および対応するモバイルデバイスにおける最近の開発により、ライブTV番組イベントと同期して動作する洗練されたアプリケーションの開発における一連の新しい可能性が開かれた。これらの新しい技術、オーディオ信号処理およびコンピュータビジョンの進歩、ならびに最新のプロセッサの改善された計算能力により、テレビジョンおよび他のメディア環境において現在欠けているメタデータを伴う洗練された番組コンテンツのハイライトをリアルタイムで生成できる。
【発明の概要】
【0019】
音節の終了、単語もしくは単語のグループの終了、および/または文の終了(ソフトエントリポイント)など、オーディオストリーム内の低スペクトル活動および/または低音量エントリポイントを検出するためのオーディオ処理に基づいて、スポーツイベントのテレビジョン番組および/または他の視聴覚コンテンツの自動リアルタイムセグメンテーションを可能にするシステムおよび方法が提示される。(スペクトル活動が最小でありおよび/または音量が低い)検出されたソフトエントリポイントのリストを使用して、ビデオハイライト生成の基準に従って視聴覚コンテンツのセグメントを抽出できる。
【0020】
少なくとも1つの実施形態では、スペクトログラムがオーディオ信号用に構築され、スライディング2Dエリアウィンドウを用いた時間周波数分析が可能になる。分析ウィンドウの位置ごとに、分析ウィンドウ内のスペクトル活動を表すスペクトル修飾子を生成することができる。関連する時間位置を持つスペクトル修飾子のベクトルを形成することができ、ベクトルは、連続する1秒間隔のセットにさらに分割できる。1秒間隔ごとに、内部修飾子をソートすることができ、非最大抑制を実行して、1秒間隔ごとに最大化された修飾子を持つ修飾子/位置ペアの第1のベクトルを形成することができる。後続のステップにおいて、1秒間隔内の検出されたエントリポイントを処理して、所望の平均時間スペーシングを提供し、および/または修飾子/位置ペアのさらなる選択を提供することができる。
【0021】
修飾子/位置ペアの第1のベクトル内で初期アンカー要素(第1の要素)が確立された後、修飾子/位置ペアの第1のベクトルの次の要素を、最小の所望の距離(例えば、2秒など)において選択することができる。次に、次の要素のすぐ左と右の近傍を調べて、局所近傍のための最大化された修飾子を持つ新しいアンカー要素を生成することができる。このプロセスは、修飾子/位置ペアの第1のベクトルのすべての要素が使い果たされるまで続き、これにより、平均2~3秒の可変相互距離を持ち、かつ局所近傍ごとに最大化されたスペクトル修飾子を持つ、エントリポイント(ソフトエントリ)の新しいセットが生成され得る。
【0022】
次に、ソフトエントリのベクトルは、最良のエントリポイントのリストに変換され、その後、ビデオハイライト生成に適用され得る。ハイライトされたビデオセグメントの境界は、元の境界の近傍における利用可能な最良のソフトエントリに従って修正され得、その後、ハイライトが、ビデオハイライト生成アプリケーションによるさらなる処理のために抽出され得る。
【0023】
少なくとも1つの実施形態では、抽出されたビデオハイライトセグメントはまた、セグメント境界に適用されるミラー化されたリードおよびトレイル曲率を用いた任意選択のフェージング機能を展開することによって処理され得、抽出された分解されたビデオセグメント間の遷移のさらなる平滑化が可能になる。
【0024】
本明細書に提示される方法は、最小限の目立たないオーディオ遷移を伴うセグメント化されたビデオの滑らかな再組み立てを必要とする任意のアプリケーションにおけるビデオセグメンテーションに使用できるという意味において、一般化することができる。
【0025】
少なくとも1つの実施形態では、イベントを描写する視聴覚コンテンツのハイライトの境界を識別するための方法は、イベントの少なくとも一部を描写するオーディオデータを記憶することと、オーディオデータを自動的に分析して、オーディオデータのソフトエントリポイントを検出することと、視聴覚コンテンツ内の、ソフトエントリポイントに対応する時間インデックスを境界として指定することであって、境界が、ハイライトの開始または終了を含む、指定することと、を含み得る。視聴覚コンテンツは、例えば、スポーツイベントのテレビジョン放送であり得る。
【0026】
視聴覚コンテンツは、視聴覚ストリームを含み得る。この方法は、イベントの少なくとも一部を描写するオーディオデータを記憶する前に、視聴覚ストリームからオーディオデータを抽出することをさらに含み得る。
【0027】
視聴覚コンテンツは、記憶された視聴覚コンテンツおよび/またはリアルタイムコンテンツを含み得る。この方法は、イベントの少なくとも一部を描写するオーディオデータを記憶する前に、記憶された視聴覚コンテンツおよび/またはリアルタイムコンテンツからオーディオデータを抽出することをさらに含み得る。
【0028】
イベントは、スポーツイベントであり得る。ハイライトは、1人以上のユーザにとって特に関心があると見なされるスポーツイベントの一部を描写し得る。
【0029】
この方法は、ソフトエントリポイントの検出中に、視聴覚コンテンツおよびハイライトのうちの1つを出力デバイスにおいて再生することをさらに含み得る。
【0030】
この方法は、ソフトエントリポイントを検出する前に、オーディオデータを所望のサンプリングレートにリサンプリングすることによってオーディオデータを前処理することをさらに含み得る。
【0031】
この方法は、ソフトエントリポイントを検出する前に、オーディオデータをフィルタリングしてノイズを低減または除去することによってオーディオデータを前処理することをさらに含み得る。
【0032】
この方法は、ソフトエントリポイントを検出する前に、オーディオデータを処理して、オーディオデータの少なくとも一部のスペクトログラムを生成することをさらに含み得る。
【0033】
ソフトエントリポイントを検出することは、スペクトログラムに対してスライディング2次元時間周波数分析ウィンドウを適用することを含み得る。
【0034】
ソフトエントリポイントを検出することは、スペクトログラムのスライディング2次元時間周波数分析ウィンドウの各位置の平均スペクトル振幅インジケータを計算することと、平均スペクトル振幅インジケータを使用して、スペクトログラムのスペクトル振幅インジケータ/位置ペアのベクトルを形成することと、を含み得る。
【0035】
ソフトエントリポイントを検出することは、各ベクトル要素の平均スペクトル振幅インジケータを整数修飾子Qにコンバートすることと、Q/位置ペアを持つ初期ベクトルを生成することと、をさらに含み得る。
【0036】
ソフトエントリポイントを検出することは、Q/位置ペアを持つ初期ベクトルの要素をステップ実行することと、1秒間隔ごとにQ修飾子の非最大抑制を実行し、最大化されたQ修飾子を持つ第1のベクトルを形成することによって、各1秒間隔あたりのQを最大化することと、をさらに含み得る。
【0037】
ソフトエントリポイントを検出することは、最大化されたQ修飾子を持つ第1のベクトルの各エントリの時間コンポーネントをステップ実行することと、各時間位置について、現在の位置の時間コンポーネントを前の位置の前の時間コンポーネントと比較して、距離を取得することと、距離がしきい値よりも大きい第1のベクトルの各要素について、その要素の位置のすぐ近傍において最大のQを見つけることと、各近傍において最大のQを持つQ/位置ペアを新しいソフトエントリベクトルに入力することと、をさらに含み得る。
【0038】
この方法は、時間インデックスを境界として指定する前に、ハイライトを暫定的な境界で識別することをさらに含み得る。時間インデックスを境界として指定することは、暫定的な境界を、利用可能なソフトエントリのリストから取得された境界で置き換えることを含み得る。
【0039】
さらなる詳細および変形例は、本明細書に記載されている。
【図面の簡単な説明】
【0040】
添付の図面は、説明とともに、いくつかの実施形態を示している。当業者は、図面に示される特定の実施形態は単なる例示的なものであり、範囲を限定することを意図するものではないことを認識するであろう。
【0041】
図1A】クライアント/サーバの実施形態による、ハードウェアアーキテクチャを示すブロック図であり、イベントコンテンツは、ネットワーク接続されたコンテンツプロバイダを介して提供される。
図1B】別のクライアント/サーバの実施形態による、ハードウェアアーキテクチャを示すブロック図であり、イベントコンテンツは、クライアントベースの記憶デバイスに記憶される。
図1C】スタンドアロンの実施形態による、ハードウェアアーキテクチャを示すブロック図である。
図1D】一実施形態による、システムアーキテクチャの概要を示すブロック図である。
図2】一実施形態による、図1A図B、および図1Cのオーディオデータ、ユーザデータ、およびハイライトデータに組み込むことができるデータ構造の例を示す概略ブロック図である。
図3A】一実施形態による、時間領域においてスポーツイベントのテレビジョン番組コンテンツから抽出されたオーディオストリーム内のソフトエントリポイントのオカレンスを示すオーディオ波形グラフの例を示す。
図3B】一実施形態による、時間周波数領域における、図3Aのオーディオ波形グラフに対応するスペクトログラムの例を示す。
図4】一実施形態による、リサンプリング、フィルタリング、およびスペクトログラム構築によるオーディオ前処理のための方法を示すフローチャートである。
図5】一実施形態による、時間周波数領域におけるオーディオストリームなどのオーディオデータを分析し、修飾子の初期ベクトルを生成するための方法を示すフローチャートである。
図6】一実施形態による、各1秒間隔内で最大化された修飾子を持つベクトルを生成するための方法を示すフローチャートである。
図7】一実施形態による、可変スペーシングおよび最大化された局所近傍修飾子を持つソフトエントリポイントをさらに選択するための方法を示すフローチャートである。
図8】一実施形態による、スパースセグメンテーションのための、検出されたエントリポイントの任意選択の修正のための方法を示すフローチャートである。
図9】一実施形態による、利用可能なソフトエントリポイントのリストに基づいて調整されたハイライトを組み立てる方法を示すフローチャートである。
【発明を実施するための形態】
【0042】
定義
以下の定義は説明のみを目的として提示されており、範囲を制限することを意図するものではない。
・イベント:本明細書の説明の目的上、「イベント」という用語は、試合、セッション、対戦、シリーズ、パフォーマンス、番組、コンサートなど、またはその部分(行為、ピリオド、クォーター、ハーフ、イニング、シーン、チャプターなど)を指す。イベントは、スポーツイベント、娯楽イベント、イベントの参加者のより大きい集団内の一個人または部分集団の特定のパフォーマンスなどであってもよい。スポーツ以外のイベントの例としては、テレビジョンショー、ニュース速報、社会政治的出来事、自然災害、映画、演劇、ラジオショー、ポッドキャスト、オーディオブック、オンラインコンテンツ、演奏などが挙げられる。イベントは、任意の長さを有することができる。例示目的のために、本明細書ではスポーツイベントの観点から本技術を説明することが多いが、当業者は、この技術が、任意の視聴覚、オーディオ、ビジュアル、グラフィックスベース、対話型、非対話型、またはテキストベースのコンテンツのハイライトショーを含む、他の文脈でも使用できることを認識するであろう。したがって、本説明における「スポーツイベント」という用語および任意の他のスポーツ固有の用語の使用は、1つの想定される実施形態を例示することを意図しているが、記載される技術の範囲をその1つの実施形態に限定することを意図しているわけではない。むしろ、そのような用語は、この技術に適切な、任意の好適なスポーツ以外の文脈にまで及ぶと考えられるべきである。説明を容易にするために、「イベント」という用語はまた、イベントの視聴覚記録などのイベントの報告もしくは表現、またはイベントの報告、説明、もしくは描写を含む任意の他のコンテンツ項目を指すためにも使用される。
・ハイライト:イベントの抜粋もしく一部、または1人以上のユーザにとって特に関心があると思われるイベントに関連するコンテンツの抜粋もしくは一部。ハイライトは、任意の長さを有することができる。概して、本明細書に記載の技術は、任意の好適なイベントについて、カスタマイズされたハイライトのセット(特定の特性および/またはユーザ選好に基づいて選択され得る)を識別および提示するための機構を提供する。「ハイライト」という用語はまた、ハイライトの視聴覚記録などのハイライトの報告もしくは表現、またはハイライトの報告、説明、もしくは描写を含む任意の他のコンテンツ項目を指すためにも使用され得る。ハイライトは、イベント自体の描写に限定される必要はないが、イベントに関連付けられた他のコンテンツを含むことができる。例えば、スポーツイベントの場合、ハイライトは、試合中のオーディオ/ビデオ、ならびに試合前、試合中、および試合後のインタビュー、分析、解説などの他のコンテンツを含むことができる。このようなコンテンツは、(例えば、イベント自体を描写する視聴覚ストリームの一部として)リニアテレビジョンから記録するか、または他の任意の数のソースから取得することができる。例えば、オカレンス(プレー)、ストリング、ポゼッション、およびシーケンスを含む、様々なタイプのハイライトを提供でき、これらはすべて以下で定義される。ハイライトは、固定された持続時間である必要はないが、以下で説明するように、開始オフセットおよび/または終了オフセットを組み込むことができる。
・クリップ:イベントのオーディオ、ビジュアル、または視聴覚表現の一部。クリップは、ハイライトに対応するか、またはハイライトを表す場合がある。本明細書の多くの文脈では、「セグメント」という用語が「クリップ」と交換可能に使用される。クリップは、オーディオストリーム、ビデオストリーム、もしくは視聴覚ストリームの部分である場合もあれば、または記憶されたオーディオ、ビデオ、もしくは視聴覚コンテンツの部分である場合もある。
・コンテンツデリニエータ:ハイライトの開始または終了を示す1つ以上のビデオフレーム。
・オカレンス:イベント中に発生するもの。例としては、ゴール、プレー、ダウン、ヒット、セーブ、ゴールへのシュート、バスケットの得点、盗塁、スナップもしくはスナップの試み、ニアミス、喧嘩、試合、クォーター、ハーフ、ピリオド、もしくはイニングの開始もしくは終了、投球、ペナルティ、負傷、娯楽イベントでのドラマチックな出来事、歌、ソロなどが挙げられる。停電、手に負えないファンの出来事など、オカレンスは異例のことである場合もある。このようなオカレンスの検出は、視聴覚ストリームの特定の部分をハイライトとして指定するか否かを判定するための基礎として使用できる。オカレンスは、学術用語を容易にするために、本明細書では「プレー」とも呼ばれるが、そのような使用法は、範囲を限定するものと解釈されるべきではない。オカレンスは、任意の長さを有してもよく、オカレンスの表現は、様々な長さを有してもよい。例えば、上記のように、オカレンスの拡張表現は、オカレンスの直前および直後の時間期間を描写する映像を含み得るが、簡単な表現は、オカレンス自体のみを含み得る。任意の中間表現も提供することができる。少なくとも1つの実施形態では、オカレンスを表現するための持続時間の選択は、ユーザ選好、利用可能な時間、オカレンスに対する判定された興奮レベル、オカレンスの重要度、および/または任意の他の要因に依存することができる。
・オフセット:ハイライトの長さが調整される量。少なくとも1つの実施形態では、ハイライトの開始時間および/または終了時間をそれぞれ調整するために、開始オフセットおよび/または終了オフセットを提供することができる。例えば、ハイライトがゴールを描写する場合、ハイライトは、ゴールに続く賞揚および/またはファンの反応を含むように、(終了オフセットを介して)数秒間延長され得る。オフセットは、例えば、ハイライトに利用可能な時間量、ハイライトの重要度および/もしくは興奮レベル、ならびに/または任意の他の好適な要因に基づいて、自動または手動で変更するように構成することができる。
・ストリング:何らかの形で互いとリンクまたは関連している一連のオカレンス。オカレンスは、ポゼッション(以下に定義する)内で発生してもよく、複数のポゼッションにまたがってもよい。オカレンスは、シーケンス(以下に定義する)内で発生してもよく、複数のシーケンスにまたがってもよい。オカレンスは、互いに何らかの主題的もしくは物語的なつながりがあるため、またはあるものが別のものにつながるため、または任意の他の理由で、リンクまたは関連していてもよい。ストリングの一例は、ゴールまたはバスケットの得点につながるパスのセットである。これは、コンピュータプログラミング分野におけるストリングに通常割り当てられている意味を有する「テキストストリング」と混同してはならない。
・ポゼッション:イベントの任意の時間で区切られた部分。ポゼッションの開始/終了時間の分界は、イベントのタイプによって決まり得る。一方のチームが攻撃的であり得るが、他方のチームが防御的である特定のスポーツイベント(例えば、バスケットボールまたはサッカーなど)の場合、ポゼッションは、チームの一方がボールを有している時間期間として定義することができる。ホッケーまたはサッカーなど、パックまたはボールのポゼッションがより流動的であるスポーツでは、ポゼッションは、チームのうちの一方が他方のチームによる瞬間的な接触(ブロックされたシュートまたはセーブなど)を無視して、パックまたはボールの実質的な制御を有する時間期間にまで及ぶと考えられ得る。野球の場合、ポゼッションはハーフイニングとして定義される。フットボールの場合、ポゼッションは、同じチームがボールを有しているいくつかのシーケンスを含むことができる。他のタイプのスポーツイベントならびにスポーツ以外のイベントの場合、「ポゼッション」という用語は、いくぶん誤称であり得るが、本明細書では、それでも説明のために使用する。スポーツ以外の文脈における例としては、チャプター、シーン、アクトなどを挙げることができる。例えば、音楽コンサートの文脈では、ポゼッションは、単一の歌のパフォーマンスに相当し得る。ポゼッションは、任意の数のオカレンスを含むことができる。
・シーケンス:1つの連続したアクションの時間期間を含むイベントの時間で区切られた部分。例えば、スポーツイベントでは、シーケンスはアクションの開始時(フェイスオフ、またはジャンプボールなど)に開始し得、笛が吹かれてアクションの中断を示すときに終了し得る。野球またはフットボールなどのスポーツでは、シーケンスはプレーと同等である場合があり、これはオカレンスの一形態である。シーケンスは、任意の数のポゼッションを含むことができるか、またはポゼッションの一部分であってもよい。
・ハイライトショー:ユーザへの提示のために構成されたハイライトのセット。ハイライトショーは、(視聴覚ストリームなど)直線的に提示されるか、またはユーザが(例えば、リンクもしくはサムネイルをクリックすることによって)閲覧するハイライトおよび順序を選択できるように提示され得る。ハイライトショーの提示は、非対話型または対話型であり得、例えば、ユーザが一時停止、巻き戻し、スキップ、早送り、賛成または反対の選好を伝達することなどを可能にする。ハイライトショーは、例えば、凝縮された試合であり得る。ハイライトショーは、単一のイベントから、または複数のイベントから、連続または非連続のハイライトを任意の数だけ含むことができ、さらには異なるタイプのイベント(例えば、異なるスポーツ、ならびに/またはスポーツおよびスポーツ以外のイベントのハイライトの組み合わせ)からのハイライトを含むこともできる。
・ユーザ/閲覧者:「ユーザ」または「閲覧者」という用語は、イベント、イベントの1つ以上のハイライト、またはハイライトショーを見たり、聞いたり、または他の方法で体験したりする個人、グループ、または他のエンティティを交換可能に指す。「ユーザ」または「閲覧者」という用語はまた、ある将来の時点で、イベント、イベントの1つ以上のハイライト、またはハイライトショーのいずれかを見たり、聞いたり、または他の方法で体験したりし得る個人、グループ、または他のエンティティを指すこともできる。「閲覧者」という用語は説明の目的で使用される場合があるが、イベントにビジュアルコンポーネントが含まれている必要はないため、「閲覧者」は代わりにリスナーまたはコンテンツの任意の他の消費者であってもよい。
・興奮レベル:特定のユーザまたは一般のユーザにとって、イベントまたはハイライトがどれほど興奮するものになるかまたは興味深いものになるかを示す尺度。興奮レベルは、特定のオカレンスまたはプレーヤに関して判定することもできる。興奮レベルを測定または評価するための様々な技術は、上記で参照した関連出願において説明されている。説明したように、興奮レベルは、イベント内のオカレンス、およびイベントの全体的な文脈または重要度(プレーオフ試合、ペナントの影響、および/またはライバル関係など)などの他の要因によって決まる場合がある。少なくとも1つの実施形態では、興奮レベルは、イベント内の各オカレンス、ストリング、ポゼッション、またはシーケンスに関連付けることができる。例えば、ポゼッションの興奮レベルは、そのポゼッション内で発生するオカレンスに基づいて判定することができる。興奮レベルは、異なるユーザ(例えば、あるチームのファンと中立のファン)によって異なる方法で測定されてもよく、各ユーザの個人的な特性によって決まる場合がある。
・メタデータ:他のデータに関連し、他のデータに関連付けられて記憶されるデータ。一次データは、スポーツ番組またはハイライトなどのメディアであってもよい。
・ビデオデータ。デジタル形式またはアナログ形式であり得る、ある長さのビデオ。ビデオデータは、ローカル記憶デバイスに記憶することができるか、またはTV放送アンテナ、ケーブルネットワーク、もしくはコンピュータサーバなどのソースからリアルタイムで受信することができ、この場合、それは「ビデオストリーム」と呼ばれることもある。ビデオデータは、オーディオコンポーネントを含む場合と含まない場合があり、オーディオコンポーネントを含む場合は、「視聴覚データ」または「視聴覚ストリーム」と呼ばれることがある。
・オーディオデータ。デジタル形式またはアナログ形式であり得る、ある長さのオーディオ。オーディオデータは、視聴覚データまたは視聴覚ストリームのオーディオコンポーネントであり得、視聴覚データからオーディオデータを抽出することによって分離され得る。オーディオデータは、ローカル記憶装置に記憶することができるか、またはTV放送アンテナ、ケーブルネットワーク、もしくはコンピュータサーバなどのソースからリアルタイムで受信することができ、この場合、それは「オーディオストリーム」と呼ばれることもある。
・ストリーム。オーディオストリーム、ビデオストリーム、または視聴覚ストリーム。
・時間インデックス。イベントが発生するか、または別様にハイライトなどの指定されたセグメントに関連する、オーディオデータ、ビデオデータ、または視聴覚データ内の時間のインジケータ。
・スペクトログラム。時間とともに変化する、オーディオストリームなどの信号の周波数スペクトルのビジュアル表現。スペクトログラムは、オーディオ信号に短時間フーリエ変換(STFT)を適用することによって導出されるオーディオ信号の2次元時間周波数表現であり得る。
・分析ウィンドウ。ビデオデータ、オーディオデータ、視聴覚データ、スペクトログラム、ストリーム、または他の方法で処理されたバージョンのストリームもしくはデータの、指定されたサブセットであって、そこにおいて分析の1つのステップに焦点が当てられる。オーディオデータ、ビデオデータ、視聴覚データ、またはスペクトログラムは、例えば、データまたはスペクトログラムの様々なセグメントをカバーする移動する分析ウィンドウおよび/または一連の分析ウィンドウを使用してセグメント内で分析することができる。
・境界。あるオーディオ、ビデオ、および/または視聴覚セグメントを別のセグメントから分離する分界。境界は、テレビジョン放送などの視聴覚コンテンツのハイライトなどのセグメントの開始または終了であり得る。境界は、暫定的(つまり、仮のおよび/もしくはその後の置換を目的としたもの)または最終的であり得る。いくつかの実施形態では、ハイライトは、最初に暫定的な境界で識別され得る。オーディオ分析を実行して、次いでハイライトの最終的な境界を(時間的に)特定するために使用されるソフトエントリポイントを識別することができる。
・ソフトエントリポイント。異なるシーン、コンテンツのタイプ、再生などの間の有望なまたは好ましい遷移ポイントを表すオーディオ、ビデオ、または視聴覚ストリームの一部。ソフトエントリポイントは、スポーツイベントの文脈では、試合中の解説またはプレー間の休止を表すオーディオ信号のより静かな部分である場合がある。
【0043】
概要
少なくとも1つの実施形態では、本明細書に記載のシステムおよび方法は、音節、文、および/または単語のグループの終了などの低活動エントリポイント(「ソフトエントリポイント」)を検出するためのオーディオ処理に基づいて、テレビジョン番組などの視聴覚番組の自動リアルタイム可変長セグメンテーションを実行する。これらのエントリポイントは、視聴覚番組のセグメントを抽出する際のガイドとして使用でき、これにより、あるハイライトから次のハイライトへの遷移が改善されてハイライト生成が容易になり、会話または他の音が途切れることを回避し、突然の遷移を回避することができる。
【0044】
少なくとも1つの実施形態では、自動化されたビデオハイライトおよび関連するメタデータ生成アプリケーションは、ライブ放送視聴覚ストリーム、またはコンピュータサーバを介して受信されたデジタル視聴覚ストリームを受信することができる。次に、アプリケーションは、例えば、デジタル信号処理技術を使用して、視聴覚ストリームから抽出されたオーディオストリームなどのオーディオデータを処理して、ソフトエントリポイントを検出することができる。
【0045】
代替の実施形態では、本明細書に記載の技術は、他のタイプのソースコンテンツに適用することができる。例えば、オーディオデータは、視聴覚ストリームから抽出される必要はなく、むしろ、スポーツイベントまたは他のイベントのラジオ放送または他のオーディオ描写であってもよい。あるいは、本明細書に記載の技術は、イベントを描写する記憶されたオーディオデータに適用することができ、このようなデータは、記憶された視聴覚データから抽出される場合と抽出されない場合がある。
【0046】
対話型テレビジョンアプリケーションは、プライマリテレビジョンディスプレイ、またはタブレット、ラップトップ、もしくはスマートフォンなどのセカンダリディスプレイのいずれかでテレビジョン番組を見ているユーザに、ハイライトされたテレビジョン番組コンテンツをタイムリーに適切に提示できるようにする。少なくとも1つの実施形態では、テレビジョン放送コンテンツのハイライトを表すクリップのセットが、ハイライトクリップによって提示されるイベントをより詳細に記述する時間ベースのメタデータを含むデータベースとともに、リアルタイムで生成および/または記憶される。本明細書でより詳細に説明するように、そのようなクリップの開始時間および/または終了時間は、少なくとも部分的に、抽出されたオーディオデータの分析に基づいて判定することができる。
【0047】
様々な実施形態では、クリップに付随するメタデータは、テキスト情報、画像、および/または任意のタイプの視聴覚データなどの任意の情報であり得る。試合中のビデオコンテンツのハイライトと、試合後のビデオコンテンツのハイライトの両方に関連するメタデータの1つのタイプは、スポーツイベントのテレビジョン番組または他の視聴覚コンテンツから抽出されたオーディオデータのリアルタイム処理によって検出されたイベントを提示する。様々な実施形態では、本明細書に記載のシステムおよび方法は、自動メタデータ生成およびビデオハイライト処理を可能にし、ハイライトの開始時間および/または終了時間は、オーディオストリームなどのデジタルオーディオデータを分析することによって検出および/または精緻化され得る。
【0048】
例えば、ハイライトは、そのようなオーディオデータを分析して、特定の興奮するイベント、オーディオアナウンス、音楽などに続く歓声を上げる群衆のノイズを検出することによって識別できる。さらに、または代わりに、ハイライトは、上記の親出願のいずれかにおいて提示された他の方法のいずれかで検出され得る。ソフトエントリポイントの識別は、ハイライトの開始時間および/または終了時間を識別または精緻化するために使用され得、その結果、ハイライトは、視聴覚コンテンツ内の自然な中断において開始および/または終了し、このようにして不必要に突然の遷移を回避する。少なくとも1つの実施形態では、スポーツイベントのテレビジョン番組コンテンツから抽出されたオーディオストリームであり得るオーディオデータに対してリアルタイム処理を実行して、そのようなソフトエントリポイントを検出、選択、および追跡する。
【0049】
少なくとも1つの実施形態では、スポーツイベントのテレビジョン番組コンテンツなどの視聴覚コンテンツから抽出されたオーディオ信号の自動リアルタイム処理のための方法は、ソフトエントリポイントを検出する。この方法は、オーディオ信号をキャプチャ、デコード、および前処理することと、低スペクトル活動のエリアを検出するための結合された時間周波数分析のための時間周波数オーディオスペクトログラムを生成することと、重複しているスペクトログラムエリアのスペクトルインジケータを生成することと、関連する時間位置を持つスペクトル修飾子のベクトルを形成することとを含み得る。この方法はさらに、ベクトルを連続する1秒間隔に分割することと、1秒間隔ごとに内部スペクトル修飾子をソートすることと、非最大抑制を実行して、修飾子/位置ペアの第1のベクトルを形成することとを含み得る。さらに、この方法は、各修飾子/位置ペアの第1のベクトルを処理して、所望の平均時間スペーシングを提供し、修飾子/位置ペアのさらなる選択を提供することを含み得る。またさらに、この方法は、最良のエントリポイントのリストを形成することと、例えば、元の境界の近傍における利用可能な最良のソフトエントリに従って、ハイライトされたビデオセグメントの境界を修正することによって、最良のエントリポイントのリストをビデオハイライト生成に適用することとを含み得る。
【0050】
少なくとも1つの実施形態では、このシステムおよび方法は、圧縮されたオーディオデータを受信し、圧縮されたオーディオデータを読み取り、デコードし、かつ所望のサンプリングレートにリサンプリングする。ノイズ低減、クリック除去、および対象の周波数帯域の選択のために、事前フィルタリングを実行できる。いくつかの交換可能なデジタルフィルタリング段階のいずれかを使用できる。
【0051】
重複しているスペクトログラムエリアは、1秒未満の時間範囲の2D時間周波数ウィンドウによって分析できる。少なくとも1つの実施形態では、分析時間周波数ウィンドウは、スペクトログラム時間座標に沿ってスライドされ、ウィンドウの正規化された平均振幅が、重複している各ウィンドウ位置において計算される。
【0052】
平均振幅は、各分析ウィンドウ位置において生成されるスペクトルインジケータであり得る。関連する時間位置を持つスペクトルインジケータの初期ベクトルが形成され、連続する1秒間隔にさらに分割され得る。1秒間隔ごとに、内部修飾子をソートすることができ、非最大抑制を実行して、修飾子/位置ペアの第1のベクトルを形成することができる。1秒間隔内の検出されたエントリポイントを処理して、所望の平均時間スペーシングを提供し、修飾子/位置ペアのさらなる選択を提供することができる。説明のために、本明細書の説明は1秒間隔に言及するが、当業者は、任意の好適な長さの間隔を使用できることを認識するであろう。
【0053】
初期アンカー要素(第1の要素)が確立された後、次の要素は、2秒などの長さを持つ最小の所望の距離において選択され得る。他の長さも使用できる。次の要素のすぐ左と右の近傍の要素を調べて、局所近傍のための最大化された修飾子を持つ新しいアンカー要素を生成することができる。修飾子/位置ペアのすべての第1のベクトルは、連続するステップにおいて処理され、例えば、平均2~3秒の可変相互距離を持ち、かつ局所近傍ごとに最大化されたスペクトル修飾子を持つ、ソフトエントリポイントの新しいセットを生成できる。
【0054】
ソフトエントリのベクトルは、最良のエントリポイントのリストに変換され、その後、ビデオハイライト生成に適用され得る。ハイライトされたビデオセグメントの境界は、元の境界の近傍における利用可能な最良のソフトエントリに従って修正され得る。境界が修正されたハイライトされたビデオセグメントが、ビデオハイライト生成アプリケーションによるさらなる処理のために抽出され得る。さらに、抽出されたビデオハイライトセグメントは、セグメント境界に適用されるミラー化されたリードおよびトレイル曲率を用いた任意選択のフェージング機能を展開することによって処理できる。
【0055】
システムアーキテクチャ
様々な実施形態によれば、システムは、情報を受信、記憶、および提示するように装備された任意の電子デバイスまたは電子デバイスのセットに実装することができる。このような電子デバイスは、例えば、デスクトップコンピュータ、ラップトップコンピュータ、テレビジョン、スマートフォン、タブレット、音楽プレーヤ、オーディオデバイス、キオスク、セットトップボックス(STB)、試合システム、ウェアラブルデバイス、家庭用電子デバイスなどであってもよい。
【0056】
システムは、特定のタイプの計算デバイスでの実装に関連して本明細書に記載されるが、当業者は、本明細書に記載される技術は、他の文脈で実装することができ、実際には、ユーザ入力を受信および/または処理し、ユーザに出力を提示できる任意の好適なデバイスで実装できることを認識するであろう。したがって、以下の説明は、範囲を限定するのではなく、例として様々な実施形態を示すことを意図している。
【0057】
ここで図1Aを参照すると、クライアント/サーバの実施形態による、オーディオデータを自動的に分析してソフトエントリポイントを検出して、ハイライトの境界を指定するためのシステム100のハードウェアアーキテクチャを示すブロック図が示されている。オーディオコンテンツを含む視聴覚ストリームなどのイベントコンテンツは、ネットワーク接続されたコンテンツプロバイダ124を介して提供され得る。そのようなクライアント/サーバの実施形態の例はウェブベースの実装であり、1つ以上のクライアントデバイス106の各々は、通信ネットワーク104を介して、データプロバイダ(複数可)サーバ122および/またはコンテンツプロバイダ(複数可)サーバ124を含む様々なサーバ102、114、116からのコンテンツと対話するためのユーザインターフェースを提供する、ブラウザまたはアプリを実行する。クライアントデバイス106からの要求に応答するコンテンツおよび/またはデータの送信は、ハイパーテキストマークアップ言語(HTML)、Java、Objective C、Python、JavaScriptなどの任意の既知のプロトコルおよび言語を使用して行うことができる。
【0058】
クライアントデバイス106は、デスクトップコンピュータ、ラップトップコンピュータ、テレビジョン、スマートフォン、タブレット、音楽プレーヤ、オーディオデバイス、キオスク、セットトップボックス、試合システム、ウェアラブルデバイス、家庭用電子デバイスなどの任意の電子デバイスであり得る。少なくとも1つの実施形態では、クライアントデバイス106は、当業者に既知のいくつかのハードウェアコンポーネントを有する。入力デバイス(複数可)151は、ユーザ150からの入力を受信する任意のコンポーネント(複数可)であり得、例えば、手持ち式リモートコントロール、キーボード、マウス、スタイラス、タッチセンシティブスクリーン(タッチスクリーン)、タッチパッド、ジェスチャレセプタ、トラックボール、加速度計、五方向スイッチ、またはマイクロフォンなどを含む。入力は、例えば、ポイント、タップ、タイプ、ドラッグ、ジェスチャ、チルト、シェイク、および/またはスピーチのうちの1つ以上を含む、任意の好適なモードを介して提供することができる。表示スクリーン152は、イベント、ハイライトなどの描写を含む、情報、ビデオ、コンテンツなどをグラフィカルに表示する任意のコンポーネントであり得る。そのような出力はまた、例えば、視聴覚コンテンツ、データビジュアル化、ナビゲーション要素、グラフィック要素、コンテンツ、メタデータなどの選択のための情報および/またはパラメータを要求するクエリを含み得る。一度に所望の出力の一部のみが提示される少なくとも1つの実施形態では、スクロール機構などの動的制御は、入力デバイス(複数可)151を介して、どの情報を現在表示するかを選択するために、および/または情報を表示する方法を変更するために利用可能であってもよい。
【0059】
プロセッサ157は、周知の技術に従って、ソフトウェアの指示の下でデータに対する操作を実行するための従来のマイクロプロセッサであり得る。メモリ156は、本明細書に記載の動作を実行するためのソフトウェアを実行する過程でプロセッサ157による使用のための、当技術分野で既知の構造およびアーキテクチャを有するランダムアクセスメモリであり得る。クライアントデバイス106はまた、ハードドライブ、フラッシュドライブ、光もしくは磁気記憶デバイス、ウェブベース(クラウドベース)記憶装置などであり得るローカル記憶装置(図示せず)も含むことができる。
【0060】
インターネット、テレビジョンネットワーク、ケーブルネットワーク、セルラネットワークなどの任意の好適なタイプの通信ネットワーク104は、任意の好適なプロトコルおよび技術に従って、クライアントデバイス106と、様々なサーバ(複数可)102、114、116、および/またはコンテンツプロバイダ(複数可)124、および/またはデータプロバイダ(複数可)122との間でデータを送信するための機構として使用することができる。インターネットに加えて、他の例としては、セルラ電話ネットワーク、EDGE、3G、4G、ロングタームエボリューション(LTE)、セッション開始プロトコル(SIP)、ショートメッセージピアツーピアプロトコル(SMPP)、SS7、Wi-Fi、ブルートゥース、ZigBee、ハイパーテキスト転送プロトコル(HTTP)、セキュアハイパーテキスト転送プロトコル(SHTTP)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)など、および/またはこれらの任意の組み合わせが挙げられる。少なくとも1つの実施形態では、クライアントデバイス106は、通信ネットワーク104を介してデータおよび/またはコンテンツの要求を送信し、要求されたデータおよび/またはコンテンツを含む応答をサーバ(複数可)102、114、116から受信する。
【0061】
少なくとも1つの実施形態では、図1Aのシステムは、スポーツイベントに関連して動作する。しかしながら、本明細書の教示は、スポーツ以外のイベントにも適用され、本明細書に記載の技術は、スポーツイベントへの適用に限定されないことを理解されるべきである。例えば、本明細書に記載の技術は、テレビジョンショー、映画、ニュースイベント、試合ショー、政治活動、ビジネスショー、ドラマ、および/もしくは他のエピソードコンテンツに関連して、またはこのような2つ以上のイベントのために動作させるために利用することができる。
【0062】
少なくとも1つの実施形態では、システム100は、イベントを表すオーディオコンテンツを分析することによって、スポーツイベントの放送などのイベントを描写する視聴覚コンテンツのハイライトを識別する。この分析は、リアルタイムで行うことができる。少なくとも1つの実施形態では、システム100は、通信ネットワーク104を介して1つ以上のクライアントデバイス106に結合された1つ以上のウェブサーバ(複数可)102を含む。通信ネットワーク104は、パブリックネットワーク、プライベートネットワーク、またはインターネットなどのパブリックネットワークとプライベートネットワークとの組み合わせであってもよい。通信ネットワーク104は、LAN、WAN、有線、無線、および/または上記の組み合わせであり得る。クライアントデバイス106は、少なくとも1つの実施形態では、有線または無線接続のいずれかを介して通信ネットワーク104に接続することができる。少なくとも1つの実施形態では、クライアントデバイスはまた、DVR、PVR、または他のメディア記録デバイスなどの、イベントを受信および記録することができる記録デバイスを含み得る。そのような記録デバイスは、クライアントデバイス106の一部であり得るか、または外部であり得る。他の実施形態では、そのような記録デバイスは省略され得る。図1Aは1つのクライアントデバイス106を示しているが、システム100は、単一のタイプまたは複数のタイプの任意の数のクライアントデバイス(複数可)106を実装することができる。
【0063】
ウェブサーバ(複数可)102は、クライアントデバイス(複数可)106からの要求を受信し、それらの要求にデータで応答するとともに、未承諾のアラートおよび他のメッセージを送信することができる1つ以上の物理計算デバイスおよび/またはソフトウェアを含み得る。ウェブサーバ(複数可)102は、負荷分散、キャッシング、およびクラスタリングなどのフォールトトレランスおよびスケーラビリティのための様々な戦略を採用してもよい。少なくとも1つの実施形態では、ウェブサーバ(複数可)102は、クライアント要求およびイベントに関連する情報を記憶するための、当技術分野で知られているようなキャッシング技術を含み得る。
【0064】
ウェブサーバ(複数可)102は、クライアントデバイス(複数可)106から受信した要求に応答するために、1つ以上のアプリケーションサーバ(複数可)114を管理するか、または他の方法で指定することができる。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、クライアントデバイス(複数可)106内のクライアントアプリケーションプログラムによる使用のためのビジネスロジックへのアクセスを提供する。アプリケーションサーバ(複数可)114は、ウェブサーバ(複数可)102と同じ場所に位置し、共有され、または共同管理されてもよい。アプリケーションサーバ(複数可)114はまた、ウェブサーバ(複数可)102から離れていてもよい。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、1つ以上の分析サーバ(複数可)116および1つ以上のデータサーバ(複数可)118と対話して、開示された技術の1つ以上の動作を実行する。
【0065】
1つ以上の記憶デバイス153は、システム100の動作に関連するデータを記憶することによって「データストア」として機能することができる。このデータは、例えば、限定ではないが、1つ以上のオーディオ信号を表すオーディオデータ154を含み得る。オーディオデータ154は、例えば、スポーツイベントおよび/または他のイベントを表す視聴覚ストリームまたは記憶された視聴覚コンテンツから抽出され得る。
【0066】
オーディオデータ154は、ビデオ画像に付随するオーディオストリーム、処理されたバージョンの視聴覚ストリーム、ならびに、イベントの時間インデックス、持続時間、振幅、および/または他のパラメータなどのオーディオデータ154に関係するメトリックおよび/またはベクトルなど、視聴覚ストリームに埋め込まれたオーディオに関係する任意の情報を含むことができる。ユーザデータ155は、例えば、人口統計、購入行動、視聴覚ストリーム閲覧行動、関心、選好などを含む、1人以上のユーザ150を記述する任意の情報を含むことができる。ハイライトデータ164は、ハイライト、ハイライト識別子、時間インジケータ、カテゴリ、興奮レベル、およびハイライトに関連する他のデータを含み得る。オーディオデータ154、ユーザデータ155、およびハイライトデータ164については、後で詳細に説明する。
【0067】
特に、システム100の多くのコンポーネントは、計算デバイスであってもよく、またはそれを含んでもよい。このような計算デバイスは各々、上に示し、説明したように、クライアントデバイス106のアーキテクチャと同様のアーキテクチャを有してもよい。したがって、通信ネットワーク104、ウェブサーバ102、アプリケーションサーバ114、分析サーバ116、データプロバイダ122、コンテンツプロバイダ124、データサーバ118、および記憶デバイス153のいずれかは、クライアントデバイス106に関連して上述したように、入力デバイス151、表示スクリーン152、メモリ156、および/またはプロセッサ157を任意選択でそれぞれ有し得る、1つ以上の計算デバイスを含んでもよい。
【0068】
システム100の例示的な動作では、クライアントデバイス106の1人以上のユーザ150は、視聴覚ストリームの形態で、コンテンツプロバイダ124からのコンテンツを閲覧する。視聴覚ストリームは、スポーツイベントなどのイベントを示し得る。視聴覚ストリームは、既知のコンピュータビジョン技術を用いて容易に処理できるデジタル視聴覚ストリームであってもよい。
【0069】
視聴覚ストリームが表示されると、クライアントデバイス106、ウェブサーバ102、アプリケーションサーバ114、および/または分析サーバ116など、システム100の1つ以上のコンポーネントは、視聴覚ストリームを分析し、視聴覚ストリーム内のハイライトを識別し、および/または、視聴覚ストリームから、例えば、ストリームのオーディオコンポーネントからメタデータを抽出する。この分析は、視聴覚ストリームのハイライトおよび/またはメタデータを識別するための要求の受信に応答して行われ得る。あるいは、別の実施形態では、ハイライトおよび/またはメタデータは、ユーザ150によってなされた特定の要求なしに識別され得る。さらに別の実施形態では、視聴覚ストリームの分析は、視聴覚ストリームが表示されることなく行うことができる。
【0070】
少なくとも1つの実施形態では、ユーザ150は、クライアントデバイス106の入力デバイス(複数可)151を介して、オーディオデータ154の分析のための特定のパラメータ(例えば、どのイベント/試合/チームを含めるか、ユーザ150がハイライトを閲覧するためにどのくらいの時間が利用可能か、どのメタデータが所望されるか、および/または任意の他のパラメータなど)を指定することができる。必ずしもユーザ150が選好を指定することを必要としないでオーディオデータ154の分析をカスタマイズするために、1つ以上の記憶デバイス153に記憶されたユーザデータ155からなど、ユーザ選好も記憶装置から抽出できる。少なくとも1つの実施形態では、ユーザ選好は、例えば、ウェブサイトの訪問パターン、テレビジョンを見るパターン、音楽を聴くパターン、オンライン購入、事前のハイライト識別パラメータ、ユーザ150によって実際に閲覧されたハイライトおよび/またはメタデータなどを観察することによって、ユーザ150の観察された行動およびアクションに基づいて判定することができる。
【0071】
さらに、または代わりに、ユーザ選好は、ユーザ150によって明示的に提供された、事前に記憶された選好から取り出すことができる。このようなユーザ選好は、どのチーム、スポーツ、プレーヤ、および/もしくはイベントのタイプがユーザ150にとって関心があるかを示すことができ、および/またはそれらは、ハイライトに関係するどんなタイプのメタデータもしくは他の情報がユーザ150にとって関心があるであろうかを示すことができる。したがって、そのような選好を使用して、視聴覚ストリームの分析をガイドして、ハイライトを識別し、および/またはハイライトのメタデータを抽出することができる。
【0072】
上述の1つ以上の計算デバイスを含み得る分析サーバ(複数可)116は、データプロバイダ(複数可)122からの1つ以上のイベントに関連する実況統計のライブおよび/または記録されたフィードを分析することができる。データプロバイダ(複数可)122の例としては、STATS(商標)、Perform(英国ロンドンのOpta Sportsから利用可能)、およびスイスのザンクトガレンのSportRadarなどのリアルタイムスポーツ情報のプロバイダを挙げることができるが、これらに限定されない。少なくとも1つの実施形態では、分析サーバ116(複数可)は、イベントに対して異なる興奮レベルのセットを生成する。次に、そのような興奮レベルは、本明細書に記載の技術に従ってシステム100によって識別または受信されたハイライトと併せて記憶され得る。
【0073】
アプリケーションサーバ(複数可)114は、視聴覚ストリームを分析して、ハイライトを識別し、および/またはメタデータを抽出することができる。さらに、または代わりに、そのような分析は、クライアントデバイス(複数可)106によって行われ得る。識別されたハイライトおよび/または抽出されたメタデータは、ユーザ150に固有であってもよく、このような場合、特定のユーザ150に関連するクライアントデバイス106内のハイライトを識別することが有利であり得る。クライアントデバイス106は、上述のように、ハイライト識別および/またはメタデータ抽出のための適用可能なユーザ選好を受信、保持、および/または取得してもよい。さらに、または代わりに、ハイライト生成および/またはメタデータ抽出は、グローバルに(すなわち、特定のユーザ150の選好に関係なく、ユーザ集団全般に適用可能な客観的基準を使用して)行われてもよい。このような場合、ハイライトを識別し、および/またはアプリケーションサーバ(複数可)114内のメタデータを抽出することが有利であり得る。
【0074】
ハイライト識別、オーディオ分析、および/またはメタデータ抽出を容易にするコンテンツは、YouTube、MLB.comなどのウェブサイトを含み得るコンテンツプロバイダ(複数可)124、スポーツデータプロバイダ、テレビジョン局、クライアントベースまたはサーバベースのDVRなどからを含む、任意の好適なソースから来てもよい。あるいは、コンテンツは、クライアントデバイス106に関連付けられた(または組み込まれた)DVRまたは他の記録デバイスなどのローカルソースから来てもよい。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、ダウンロード、またはストリーミングコンテンツ、またはオンデマンドコンテンツ、または他の何らかの方法のいずれかとして、ユーザ150に利用可能なハイライトおよびメタデータを伴うカスタマイズされたハイライトショーを生成する。
【0075】
上記のように、ユーザ固有のハイライト識別、オーディオ分析、および/またはメタデータ抽出が、特定のユーザ150に関連する特定のクライアントデバイス106において行われることが有利であり得る。このような実施形態は、特にそのようなコンテンツがクライアントデバイス106においてすでに利用可能である場合、通信ネットワーク104を介して不必要に送信されるビデオコンテンツまたは他の高帯域幅コンテンツの必要性を回避することができる。
【0076】
例えば、ここで図1Bを参照すると、クライアントデバイス106にとって利用可能なローカル記憶デバイスの任意の形態であり得るクライアントベースの記憶デバイス158にオーディオデータ154およびハイライトデータ164の少なくとも一部が記憶される実施形態によるシステム160の例が示されている。一例は、例えば、完全なスポーツイベントのビデオコンテンツなどのイベントが記録され得るDVRである。あるいは、クライアントベースの記憶デバイス158は、デジタル形式のデータのための任意の磁気的、光学的、または電子的記憶デバイスであり得る。例としては、フラッシュメモリ、磁気ハードドライブ、CD-ROM、DVD-ROM、またはクライアントデバイス106と統合された、もしくはクライアントデバイス106と通信可能に結合された他のデバイスが挙げられる。アプリケーションサーバ(複数可)114によって提供される情報に基づいて、クライアントデバイス106は、コンテンツプロバイダ124または他のリモートソースから他のコンテンツを取り出す必要なしに、クライアントベースの記憶デバイス158に記憶された(例えば、オーディオデータ154を含む)ビデオコンテンツからハイライトおよび/またはメタデータを抽出し、ハイライトおよび/またはメタデータをハイライトデータ164として記憶することができる。このような構成は、帯域幅を節約することができ、クライアントデバイス106にすでに利用可能であり得る既存のハードウェアを有効に活用することができる。
【0077】
図1Aに戻ると、少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、個々のユーザ選好および/または他のパラメータに応じて、異なるユーザ150に対して異なるハイライトを識別し、および/または異なるメタデータを抽出することができる。識別されたハイライトおよび/または抽出されたメタデータは、クライアントデバイス106の表示スクリーン152などの任意の好適な出力デバイスを介してユーザ150に提示されてもよい。必要に応じて、複数のハイライトを識別し、関連するメタデータとともにハイライトショーにまとめることができる。このようなハイライトショーは、メニューを介してアクセスされ、および/または所定のシーケンスに従ってユーザ150のために再生される「ハイライトリール」またはハイライトのセットに組み立てられてもよい。ユーザ150は、少なくとも1つの実施形態では、例えば、以下の目的で、入力デバイス(複数可)151を介して、関連するメタデータのハイライト再生および/または配信を制御することができる。
・表示のための特定のハイライトおよび/もしくはメタデータを選択する、
・一時停止、巻き戻し、早送りを行う、
・次のハイライトにスキップする、
・ハイライトショー内の前のハイライトの開始に戻る、ならびに/または
・他のアクションを実行する。
【0078】
このような機能に関する追加の詳細は、上記で引用した関連する米国特許出願に提供されている。
【0079】
少なくとも1つの実施形態では、1つ以上のデータサーバ(複数可)118が提供される。データサーバ(複数可)118は、例えば、オーディオデータ154、ユーザデータ155、および/またはハイライトデータ164を取得または提供するために、サーバ(複数可)102、114、116のいずれかからのデータについての要求に応答することができる。少なくとも1つの実施形態では、このような情報は、データサーバ118によってアクセス可能な任意の好適な記憶デバイス153に記憶することができ、クライアントデバイス106自体、コンテンツプロバイダ(複数可)124、データプロバイダ(複数可)122からなど、任意の好適なソースから来ることができる。
【0080】
ここで図1Cを参照すると、システム180がスタンドアロン環境で実装される代替の実施形態によるシステム180が示されている。図1Bに示す実施形態と同様に、オーディオデータ154、ユーザデータ155、およびハイライトデータ164のうちの少なくとも一部は、DVRなどのクライアントベースの記憶デバイス158に記憶され得る。あるいは、クライアントベースの記憶デバイス158は、フラッシュメモリもしくはハードドライブ、またはクライアントデバイス106と統合された、もしくはクライアントデバイス106と通信可能に結合された他のデバイスであり得る。
【0081】
ユーザデータ155は、ユーザ150の選好および関心を含んでもよい。そのようなユーザデータ155に基づいて、システム180は、ハイライトおよび/またはメタデータを抽出して、本明細書に記載の方法でユーザ150に提示することができる。さらに、または代わりに、ハイライトおよび/またはメタデータは、ユーザ150に固有の情報に基づかない客観的基準に基づいて抽出され得る。
【0082】
ここで図1Dを参照すると、代替の実施形態によるアーキテクチャを有するシステム190の概要が示されている。図1Dでは、システム190は、コンテンツプロバイダ(複数可)124などの放送サービス、STBを持つテレビジョンセットなどのクライアントデバイス106の形態のコンテンツ受信機、テレビジョン番組コンテンツなどの視聴覚コンテンツを取り込んでストリーミングすることができる分析サーバ(複数可)116などのビデオサーバ、ならびに/またはテレビジョン番組コンテンツなどの視聴覚コンテンツを受信して処理することができるモバイルデバイスおよびラップトップなどの他のクライアントデバイス106を含み、これらはすべて通信ネットワーク104などのネットワークを介して接続されている。DVRなどのクライアントベースの記憶デバイス158は、クライアントデバイス106および/または他のコンポーネントのいずれかに接続することができ、視聴覚ストリーム、ハイライト、ハイライト識別子、および/またはメタデータを記憶して、クライアントデバイス106のいずれかを介してハイライトおよび/または抽出されたメタデータの識別および提示を容易にすることができる。
【0083】
図1A図1B図1C、および図1Dに示された特定のハードウェアアーキテクチャは、単なる例示である。当業者は、本明細書に記載の技術が他のアーキテクチャを使用して実装できることを認識するであろう。本明細書に示された多くのコンポーネントは任意選択であり、省略され、他のコンポーネントと統合され、および/または他のコンポーネントで置き換えられてもよい。
【0084】
少なくとも1つの実施形態では、システムは、スタンドアロンまたはクライアント/サーバアーキテクチャのいずれであろうと、任意の好適なコンピュータプログラミング言語で書かれたソフトウェアとして実装することができる。あるいは、それはハードウェアに実装および/または埋め込まれてもよい。
【0085】
データ構造
図2は、一実施形態による、オーディオデータ154、ユーザデータ155、およびハイライトデータ164に組み込むことができるデータ構造の例を示す概略ブロック図である。
【0086】
示されるように、オーディオデータ154は、複数のオーディオストリーム200の各々についての記録を含み得る。説明の目的で、オーディオストリーム200が示されているが、本明細書で説明する技術は、ストリーミングされるか記憶されるかにかかわらず、任意のタイプのオーディオデータ154またはコンテンツに適用することができる。オーディオデータ154の記録は、オーディオストリーム200に加えて、オーディオストリーム200の分析に従って生成されたかまたはその分析に役立つ他のデータを含み得る。例えば、オーディオデータ154は、各オーディオストリーム200について、スペクトログラム202、1つ以上の分析ウィンドウ204、ベクトル206、および時間インデックス208を含み得る。
【0087】
各オーディオストリーム200は、時間領域内に存在し得る。各スペクトログラム202は、時間周波数領域内の対応するオーディオストリーム200について計算され得る。スペクトログラム202を分析して、ソフトエントリポイントをより簡単に見つけることができる。
【0088】
分析ウィンドウ204は、スペクトログラム202の所定の時間および/または周波数間隔の指定であり得る。計算上、単一の移動する(すなわち、「スライディング」)分析ウィンドウ204を使用して、スペクトログラム202を分析することができ、または一連のずらされた(任意選択で重複している)分析ウィンドウ204を使用することができる。
【0089】
ベクトル206は、オーディオストリーム200および/または対応するスペクトログラム202の分析からの中間および/または最終結果を含むデータセットであり得る。
【0090】
時間インデックス208は、オーディオストリーム200(および/またはオーディオストリーム200が抽出される視聴覚ストリーム)内の、重要なイベントが発生する時間を示すことができる。例えば、時間インデックス208は、視聴覚コンテンツ内の、ソフトエントリポイントが開始する、中央に位置する、または終了する時間であり得る。したがって、時間インデックス208は、スポーツイベントの文脈では、重要なまたは印象的なプレーなど、視聴覚ストリームの特に関心がある部分の開始または終了を示し得る。
【0091】
さらに示されるように、ユーザデータ155は、ユーザ150に関連する記録を含んでもよく、記録の各々は、特定のユーザ150の人口統計データ212、選好214、閲覧履歴216、および購入履歴218を含んでもよい。
【0092】
人口統計データ212は、年齢、性別、場所、国籍、宗教的所属、教育レベルなどを含むがこれらに限定されない、任意のタイプの人口統計データを含んでもよい。
【0093】
選好214は、ユーザ150が自身の選好に関して行った選択を含んでもよい。選好214は、ハイライトおよびメタデータの収集および/または閲覧に直接関連する場合もあれば、より一般的な性質の場合もある。いずれの場合も、選好214を使用して、ハイライトおよびメタデータの識別および/またはユーザ150への提示を容易にすることができる。
【0094】
閲覧履歴216は、テレビジョン番組、視聴覚ストリーム、ハイライト、ウェブページ、検索クエリ、スポーツイベント、ならびに/またはユーザ150によって検索および/もしくは閲覧された他のコンテンツを列挙することができる。
【0095】
購入履歴218は、ユーザ150によって購入または要求された製品またはサービスを列挙することができる。
【0096】
さらに示されるように、ハイライトデータ164は、j個のハイライト220についての記録を含み得、各記録は、特定のハイライト220の視聴覚ストリーム222および/またはメタデータ224を含み得る。
【0097】
視聴覚ストリーム222は、ハイライト220を描写するオーディオおよび/またはビデオを含み得、これは、(例えば、ハイライト220に関連する視聴覚ストリーム222のみを含むように視聴覚ストリームをクロップすることによって)1つ以上のイベントの1つ以上の視聴覚ストリームから取得され得る。メタデータ224内で、識別子223は、(オーディオデータ154の時間インデックス208などの)時間インデックス、および/またはハイライト220が取得されるイベントの視聴覚ストリーム内のどこにハイライト220が存在するかを示す他のしるしを含み得る。
【0098】
いくつかの実施形態では、ハイライト220の各々の記録は、視聴覚ストリーム222および識別子223のうちの1つのみを含み得る。ハイライト再生は、ユーザ150に対して視聴覚ストリーム222を再生することによって、または識別子223を使用して、ハイライト220が取得されるイベントの視聴覚ストリームのハイライトされた部分のみを再生することによって行われ得る。識別子223の記憶は任意選択である。いくつかの実施形態では、識別子223は、ハイライト220について視聴覚ストリーム222を抽出するためにのみ使用され得、次いで、このハイライト220が識別子223の代わりに記憶され得る。いずれの場合も、ハイライト220の時間インデックス208は、オーディオデータ154から抽出され、メタデータ224として、少なくとも一時的に記憶され得、メタデータ224はハイライト220に追加されるか、またはオーディオデータ154およびハイライト220が取得される視聴覚ストリームに追加される。いくつかの実施形態では、時間インデックス208は、識別子223の境界232として記憶され得る。
【0099】
識別子223に加えて、またはその代替として、メタデータ224は、イベントの日付、季節、ならびにハイライト220が取得されたイベントもしくは視聴覚ストリームに関与するグループもしくは個人、例えば、チーム、プレーヤ、コーチ、司会者、放送局、およびファンなど、ハイライト220に関する情報を含み得る。情報の中でも、各ハイライト220のメタデータ224は、フェーズ226、クロック227、スコア228、フレーム番号229、および/または興奮レベル230を含み得る。
【0100】
フェーズ226は、ハイライト220に関連するイベントのフェーズであってもよい。より具体的には、フェーズ226は、ハイライト220の開始、中間、および/または終了がその中に存在するスポーツイベントの段階であり得る。例えば、フェーズ226は、「第3のクォーター」、「第2のイニング」、または「裏の回」などであってもよい。
【0101】
クロック227は、ハイライト220に関連する試合クロックであってもよい。より具体的には、クロック227は、ハイライト220の開始、中間、および/または終了時の試合クロックの状態であり得る。例えば、クロック227は、スポーツイベントのピリオドを開始するか、終了するか、またはそのピリオドにまたがるハイライト220で試合クロック上に15分47秒が表示される場合、「15:47」であり得る。
【0102】
スコア228は、ハイライト220に関連する試合スコアであってもよい。より具体的には、スコア228は、ハイライト220の開始、終了、および/または中間におけるスコアであり得る。例えば、スコア228は、「45-38」、「7-0」、または「30-ラブ」などであってもよい。
【0103】
フレーム番号229は、ハイライト220が取得される視聴覚ストリーム内の、またはハイライト220の開始、中間、および/もしくは終了に関係するハイライト220に関連する視聴覚ストリーム222内の、ビデオフレームの番号であり得る。
【0104】
興奮レベル230は、特定のユーザ150またはユーザ全般にとって、イベントまたはハイライトがどのくらい興奮するものになるかまたは興味深いものになるかの尺度であり得る。少なくとも1つの実施形態では、興奮レベル230は、上で参照した関連出願に示されるように計算され得る。さらに、または代わりに、興奮レベル230は、少なくとも部分的に、視聴覚ストリーム222および/またはオーディオストリーム200から抽出されるコンポーネントであり得るオーディオデータ154の分析によって判定され得る。例えば、より高いレベルの群集ノイズ、アナウンス、および/またはアップテンポ音楽を含むオーディオデータ154は、関連するハイライト220の高い興奮レベル230を示し得る。興奮レベル230は、ハイライト220に対して静的である必要はないが、代わりに、ハイライト220の過程で変化し得る。したがって、システム100は、ハイライト220をさらに精緻化して、しきい値興奮レベル230を超える部分のみをユーザに示すことができる場合がある。
【0105】
図2に記載されているデータ構造は単なる例示である。当業者は、ハイライト識別および/またはメタデータ抽出の実行において、図2のデータの一部を省略するか、または他のデータで置き換えることができることを認識するであろう。さらに、または代わりに、図2に具体的に示されていないかまたは本出願に記載されていないデータを、ハイライト識別および/またはメタデータ抽出の実行に使用することができる。
【0106】
オーディオデータの分析
少なくとも1つの実施形態では、システムは、時間周波数領域において、オーディオストリームなどのオーディオデータ154の分析のいくつかの段階を実行して、スポーツイベントまたは別のイベントの描写中に、音声、音楽、または他の音の休止または低いポイントなどのソフトエントリポイントを検出する。描写は、テレビジョン放送、視聴覚ストリーム、オーディオストリーム、記憶されたファイルなどであり得る。
【0107】
最初に、圧縮されたオーディオデータ154が読み取られ、デコードされ、そして所望のサンプリングレートにリサンプリングされる。次に、得られたPCMストリームは、いくつかの交換可能なデジタルフィルタリング段階のいずれかを使用して、ノイズ低減、クリック除去、および/または所望の周波数帯域の選択のために事前フィルタリングされる。続いて、オーディオデータ154のためにスペクトログラムが構築される。スペクトル振幅の谷が、スライディング2次元時間周波数エリアウィンドウの各位置において識別される。ソフトエントリポイント320をより完全におよび/または確実に識別するために、さらなるステップを実施することができる。
【0108】
ソフトエントリポイントに対応する時間インデックス208は、ハイライト220の境界232(例えば、開始または終了)として使用され得る。いくつかの実施形態では、これらの時間インデックス208は、(例えば、ソフトエントリポイントの識別に基づいて後で調整され得る暫定的な開始ポイントおよび終了ポイントであり得る暫定的な境界232を伴う)すでに識別されたハイライト220の実際の開始ポイントおよび/または終了ポイントを識別するために使用され得る。ハイライト220は、ユーザによるその後の閲覧のために、ビデオストリーム内で抽出および/または識別され得る。
【0109】
図3Aは、一実施形態による、時間領域においてスポーツイベントテレビジョン番組コンテンツから抽出されたオーディオストリーム310内のオーディオ波形グラフ300の例を示す。ハイライトされたエリアは、オーディオストリーム310のより低い強度の部分など、例示的なソフトエントリポイント320を示している。キャプチャされたオーディオの振幅は、ソフトエントリポイント320において比較的低く、オーディオストリーム310の比較的静かな部分を表し得る。
【0110】
図3Bは、一実施形態による、時間周波数領域における、図3Aのオーディオ波形グラフ300に対応するスペクトログラム350の例を示す。少なくとも1つの実施形態では、関心のあるイベントのオカレンスの検出およびマーキングは、時間周波数領域において実行され、(図3Aおよび図3Bに示されていない)イベントの境界232は、ビデオハイライトおよびメタデータ生成アプリケーションにリアルタイムで提示される。これらの境界232を使用して、ビデオストリームから1つ以上のハイライト220を抽出するか、またはビデオストリーム内の各ハイライト220の開始および/もしくは終了をより高い精度で判定し得、それにより、ハイライトの一部ではないビデオストリームの部分を表す他のコンテンツを不注意に再生することなしにハイライト220を再生することができる。境界232は、文の終了時またはオーディオの休止中など、コンテンツ内の適切な遷移ポイントを判定するのを助けることによって、あるハイライト220から別のハイライトへの遷移の突然さを低減するために使用され得る。いくつかの実施形態では、境界232は、図2の説明に記載されているように、ハイライト220の開始および/または終了を識別する識別子223などのメタデータ224に組み込まれ得る。
【0111】
オーディオデータ分析およびメタデータ抽出
図4は、一実施形態による、リサンプリング、フィルタリング、およびスペクトログラム構築によるオーディオ前処理のための方法400を示すフローチャートである。少なくとも1つの実施形態では、方法400は、一実施形態によれば、例えば、ハイライト220の境界232に対応する、ソフトエントリポイント320の識別のために、視聴覚ストリームを受信し、オーディオデータ154のオンザフライ処理を実行する(例えば、クライアントデバイス106および/または分析サーバ116のうちの1つの上で実行される)アプリケーションによって行われ得る。方法400によれば、オーディオストリーム310などのオーディオデータ154は、オーディオ、ビデオ、および/または視聴覚番組コンテンツのセグメント間の休止、中断、または他の自然な仕切りを検出することによって、オーディオデータ154内のソフトエントリポイント320を検出するように処理され得る。
【0112】
少なくとも1つの実施形態では、方法400(および/または本明細書に記載の他の方法)は、視聴覚ストリームまたは他の視聴覚コンテンツから抽出されたオーディオデータ154に対して実行される。あるいは、本明細書に記載の技術は、他のタイプのソースコンテンツに適用することができる。例えば、オーディオデータ154は、視聴覚ストリームから抽出する必要はなく、むしろ、スポーツイベントまたは他のイベントのラジオ放送または他のオーディオ描写であってもよい。
【0113】
少なくとも1つの実施形態では、方法400(および/または本明細書に記載の他の方法)は、図1Aのシステム100などのシステムによって実行され得る。しかしながら、図1Bのシステム160、図1Cのシステム180、および図1Dのシステム190を含むがこれらに限定されない代替のシステムを、図1Aのシステム100の代わりに使用することができる。さらに、以下の説明は、より低い強度のオーディオイベントが識別されることを仮定としている。しかしながら、本明細書で明示的に説明される方法と同様の方法に従って、メタデータを抽出し、および/またはハイライト220の境界232を識別するために、異なるタイプのオーディオイベントが識別および使用され得ることが理解されるであろう。いくつかの実施形態では、特定のオーディオ的および/またはビジュアル的合図(トーン、暗い画面など)が、ソフトエントリポイントとして識別され得る。
【0114】
図4の方法400は、オーディオストリーム200などのオーディオデータ154が読み取られるステップ410から開始することができる。オーディオデータ154が圧縮フォーマットである場合、それは任意選択でデコードされ得る。ステップ420において、オーディオデータ154は、所望のサンプリングレートにリサンプリングされ得る。ステップ430において、オーディオデータ154は、いくつかの交換可能なデジタルフィルタリング段階のいずれかを使用してフィルタリングされ得る。次に、ステップ440において、例えば、フィルタリングされたオーディオデータ154の1秒チャンクに対して短時間フーリエ変換(STFT)を計算することによって、フィルタリングされたオーディオデータ154に対するスペクトログラム202が生成され得る。スペクトログラム202の時間周波数係数は、さらなる処理のために2次元配列に保存され得る。
【0115】
いくつかの実施形態では、スペクトル成分に関係なく、オーディオストリーム内の比較的静かなエリアのみに関心がある場合、ステップ440を省略でき、時間領域オーディオデータ154のみでの実行によってさらなる分析を簡略化することができる。ただし、このような場合、時間領域では低音量であり得るが時間周波数領域では豊富なスペクトル成分を有し得るコメンテーターの声および/または背景の聴衆ノイズなど、関心のある特定の音に関連するスペクトル成分を考慮せずに、オーディオ音量のしきい値のみに基づく本質的に信頼性の低いインジケータが原因で、望ましくないソフトエントリ検出が発生する場合がある。いくつかの実施形態では、オーディオストリームの分析はまた、時間領域と時間周波数領域の両方において行い、その後、検出されたソフトエントリポイントを最終結果に統合することもできる。以下の図5から図10におけるさらなる説明では、ステップ440が行われており、オーディオ分析ステップが、(例えば、上記のようにオーディオデータ154をデコード、リサンプリング、および/またはフィルタリングした後に)オーディオデータ154に対応するスペクトログラム202に対して実行されることが仮定される。オーディオストリーム内のソフトエントリポイントの最終ベクトルは、単語、単語のグループ、および文の終了など、コメンテーターのスピーチ中のギャップに関連するオーディオストリームのセグメントの低音量および低スペクトル成分の検出に焦点を合わせて形成することができるが、これらに限定されない。
【0116】
図5は、一実施形態による、例えば、スペクトログラム202を分析して、選択された修飾子/位置ペアの初期ベクトルを生成することによって、時間周波数領域においてオーディオストリーム200などのオーディオデータ154を分析するための方法500を示すフローチャートである。最初に、ステップ510において、サイズ(F×T)の2次元の長方形の時間周波数分析ウィンドウ204が選択され、ここで、Tは、複数秒の値であり(通常、約100ms)、Fは、考慮される周波数範囲である(通常、100Hz~3kHz)。次に、ステップ520において、隣接する分析ウィンドウ204間のウィンドウ重複領域Nが選択され、ウィンドウスライディングステップS=(T-N)が計算される(通常、約20ミリ秒)。
【0117】
この方法はステップ530に進み、分析ウィンドウ204が、連続するステップSにおいて、スペクトログラム202の時間軸に沿ったスペクトル時間軸に沿ってスライディングする。ステップ540において、分析ウィンドウ204の各位置において、平均スペクトル振幅インジケータ(SMI)が計算される。ステップ550において、スペクトログラムの最大SMI値Mも判定され得る。ステップ560において、SMIがしきい値を下回るSMI/位置ペアベクトルが生成され得る。
【0118】
ステップ570において、各SMIは、式Q=(M-SMI)*MFACTに従って整数修飾子Qにコンバートされ得、ここで、MFACTは、所望の数の整数桁を抽出するために使用される係数である。ステップ580において、Q/位置ペアの初期ベクトルが、潜在的なソフトエントリポイント320のスーパーセットとして生成され得る。次に、方法500は、1秒間隔ごとの修飾子の最大化に進むことができる。
【0119】
図6は、一実施形態による、各1秒間隔内で最大化された修飾子を持つベクトルを生成するための方法600を示すフローチャートである。これは、Q/位置要素を持つ初期ベクトルが1秒境界上で分割されるステップ610を含み得る。1秒の連続する各間隔内で、修飾子Qによるソートを実行することができる。ステップ620において、1秒間隔ごとに最大Qを持つQ/位置ペアのみを保持することができる。ステップ630において、最大化されたQ値を持つ第1のソフトエントリベクトルが形成され得る。
【0120】
図7は、一実施形態による、可変スペーシングおよび最大化された局所近傍修飾子を持つソフトエントリポイント320をさらに選択するための方法700を示すフローチャートである。このような処理により、ソフトエントリの拡張可変サイズ間隔(相互距離)が生成され(通常、平均2~3秒)、各間隔の局所近傍においてスペクトル修飾子が同時に最大化される場合がある。
【0121】
示されるように、方法700は、アンカーポイント(前の位置)がゼロに設定される710を開始し得る。次に、ステップ720において、方法700は、第1のソフトエントリベクトルの時間コンポーネントをステップ実行して、次の時間位置を検出し、それを現在の位置にロードし得る。各ステップにおいて、クエリ730を行うことができ、ここで、現在の位置から前の位置までの時間距離がしきい値に対してチェックされる。この距離が(例えば、2秒などの)しきい値よりも大きい場合、現在の位置は、ステップ740におけるさらなる処理のために取られ得る。この距離がしきい値よりも大きくない場合、ステップ720は、新しい時間位置に対して繰り返され得る。
【0122】
ステップ740は、保持されている現在の位置のすぐ近傍をテストすることと、最大のQを持つ要素を識別することとを含み得る。ステップ750において、この要素は、さらなるテストのための新しいアンカーポイントに今度はなる、前の位置にロードされ得る。ステップ760において、最終的なソフトエントリベクトルはまた、この局所的に最大化されたQ/位置ペアを入力され得る。
【0123】
方法700は、第1のソフトエントリベクトルのすべての要素が使い果たされるまで、連続するステップを続行し得る。具体的には、クエリ770は、ソフトエントリベクトルの終了に到達したかどうかを確認することができる。そうである場合、ステップ780において最終的なソフトエントリベクトルが提供され得る。そうでない場合、方法700は、さらなる反復のためにステップ720に戻り得る。
【0124】
図8は、一実施形態による、スパースセグメンテーションのための、検出されたエントリポイントの任意選択の修正のための方法800を示すフローチャートである。方法800は、ハイライトされたイベントの境界に対してそれほど厳しくない要件がある場合に、Q修飾子をさらに最大化するために使用され得る。方法800は、ステップ810から開始し得、方法800は、ソフトエントリベクトル要素を一度に1つずつステップ実行する。クエリ820において、方法800は、しきい値に対してQ値をテストし得る。ステップ840において、しきい値を下回るQ/位置ペアを除去し得る。ステップ830において、しきい値を上回るQ/位置ペアを保持し得る。
【0125】
方法800は、最終的なソフトエントリベクトルのすべての要素が使い果たされるまで、連続するステップを続行し得る。具体的には、クエリ850は、最終的なソフトエントリベクトルの終了に到達したかどうかを確認することができる。そうである場合、方法800は、ソフトエントリポイント320のリストの形成およびハイライト処理に進み得る。そうでない場合、方法800は、さらなる反復のためにステップ810に戻り得る。
【0126】
図9は、一実施形態による、利用可能なソフトエントリポイントのリストに基づいて調整されたハイライト220を組み立てる方法900を示すフローチャートである。最初に、ステップ910において、ハイライト220の暫定的な境界232を識別し得る。次に、ステップ920において、ソフトエントリポイント320のリストの検索が実行され得、ハイライト220の1つ以上の暫定的な境界232の最良の近似が生成され得る。次に、ステップ930において、暫定的な境界232は、リストから取得された最良の近似に従って調整され得る。ステップ940において、修正された境界を用いてハイライト220が抽出され得、任意選択で、ミラー化されたリードおよびトレイル曲率を用いたフェージング機能を展開することによって処理され、(ハイライトリールにおけるように、連続的に再生される複数のハイライト220などの)互いに素なセグメント間のオーディオ遷移のさらなる平滑化が可能になる。
【0127】
本システムおよび方法は、想定される実施形態に関して特に詳細に説明されてきた。当業者は、システムおよび方法が他の実施形態で実践され得ることを理解するであろう。まず、コンポーネントの特定の命名、用語の大文字の使用、属性、データ構造、また任意の他のプログラミングもしくは構造の態様は必須でも重要でもなく、機構および/または機能は、名前、フォーマット、またはプロトコルが異なっていてもよい。さらに、システムは、ハードウェアとソフトウェアとの組み合わせを介して、または完全にハードウェア要素内に、または完全にソフトウェア要素内に実装されてもよい。また、本明細書に記載の様々なシステムコンポーネント間の機能の特定の分割は、単なる例示であり、必須ではない。単一のシステムコンポーネントによって実行される機能は、代わりに複数のコンポーネントによって実行されてもよく、複数のコンポーネントによって実行される機能は、代わりに単一のコンポーネントによって実行されてもよい。
【0128】
本明細書における「一実施形態」または「実施形態」への言及は、実施形態に関連して説明する特定の特徴、構造、または特性が、少なくとも1つの実施形態に含まれることを意味する。本明細書の様々な場所における「一実施形態において」または「少なくとも1つの実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らない。
【0129】
様々な実施形態は、単独でまたは任意の組み合わせのいずれかで、上述の技術を実行するための任意の数のシステムおよび/または方法を含んでもよい。別の実施形態は、計算デバイスまたは他の電子デバイス内のプロセッサに上述の技術を実行させるための、非一時的なコンピュータ可読記憶媒体、およびその媒体上にエンコードされたコンピュータプログラムコードを含むコンピュータプログラム製品を含む。
【0130】
上記のいくつかの部分は、計算デバイスのメモリ内のデータビットに対する操作のアルゴリズムおよび記号表現の観点から提示されている。これらのアルゴリズムの記述および表現は、データ処理技術の当業者が、その作業の本質を最も効果的に他の当業者に伝えるために使用する手段である。アルゴリズムはここでは、概して、望ましい結果につながる自己矛盾のない一連のステップ(指示)であると考える。ステップは、物理量の物理的操作を必要とするステップである。通常、必ずしもそうとは限らないが、これらの量は、記憶、転送、結合、比較、および他の方法で操作できる電気信号、磁気信号、または光信号の形をとる。主に一般的な使用法の理由から、これらの信号をビット、値、要素、記号、文字、項、または数値などと呼ぶと便利な場合がある。さらに、一般性を失うことなく、物理量の物理的操作を必要とするステップの特定の構成をモジュールまたはコードデバイスと呼ぶと便利な場合がある。
【0131】
ただし、これらおよび類似の用語はすべて、適切な物理量に関連付けられており、これらの量に適用される便利なラベルにすぎないことを念頭に置くべきである。特に明記されていない限り、以下の説明から明らかなように、本明細書全体を通して、「処理」または「計算(computing)」または「計算(calculating)」または「表示」または「判定」などの用語を利用した説明は、コンピュータシステム、または類似の電子計算モジュールおよび/もしくはデバイスの動作およびプロセスを指し、それらが、コンピュータシステムのメモリもしくはレジスタまたは他のそのような情報記憶装置、送信デバイス、もしくは表示デバイス内で物理的(電子的)量として表されるデータを操作および変換することが理解されるであろう。
【0132】
特定の態様は、アルゴリズムの形態で本明細書に記載されているプロセスステップおよび命令を含む。プロセスステップおよび命令は、ソフトウェア、ファームウェア、および/またはハードウェアで具体化することができ、ソフトウェアで具体化する場合、様々なオペレーティングシステムによって使用される様々なプラットフォーム上に存在するようにダウンロードすることができ、また、様々なプラットフォームから操作できることに留意されたい。
【0133】
本文書はまた、本明細書の動作を実行するための装置にも関係する。この装置は、必要な目的のために特別に構築され得るか、または計算デバイスに記憶されたコンピュータプログラムによって選択的にアクティブ化もしくは再構成される汎用計算デバイスを備え得る。そのようなコンピュータプログラムは、フロッピーディスク、光ディスク、CD-ROM、DVD-ROM、磁気光学ディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、フラッシュメモリ、ソリッドステートドライブ、磁気カードもしくは光学カード、特定用途向け集積回路(ASIC)、または電子命令の記憶に適した任意のタイプの媒体を含むがこれらに限定されない任意のタイプのディスクなどのコンピュータ可読記憶媒体に記憶されてよく、各々はコンピュータシステムバスに結合される。プログラムおよびその関連するデータは、リモートで、例えば、サーバ上で提供して実行させることもできる。さらに、本明細書で言及される計算デバイスは、単一のプロセッサを含み得るか、または計算能力を高めるために複数のプロセッサ設計を採用するアーキテクチャであり得る。
【0134】
本明細書に提示されるアルゴリズムおよび表示は、任意の特定の計算デバイス、仮想化システム、または他の装置に本質的に関連していない。様々な汎用システムも、本明細書の教示によるプログラムとともに使用され得るか、または必要な方法ステップを実行するための専用装置を構築することがより便利であり得る。これらの様々なシステムに必要な構造は、本明細書で提供する説明から明らかであろう。さらに、システムおよび方法は、任意の特定のプログラミング言語に言及して説明されていない。本明細書に記載の教示を実装するために様々なプログラミング言語を使用することができ、特定の言語への上記のあらゆる言及は、有効化および最良のモードの開示のために提供されることが理解されるであろう。
【0135】
したがって、様々な実施形態は、コンピュータシステム、計算デバイス、もしくは他の電子デバイスを制御するためのソフトウェア、ハードウェア、および/もしくは他の要素、またはこれらの任意のもしくは複数の組み合わせを含む。このような電子デバイスは、例えば、当技術分野で周知の技術による、プロセッサ、(キーボード、マウス、タッチパッド、トラックパッド、ジョイスティック、トラックボール、マイクロフォン、および/もしくはこれらの任意の組み合わせなどの)入力デバイス、(スクリーン、スピーカなどの)出力デバイス、メモリ、(磁気記憶装置、光記憶装置などの)長期記憶装置、ならびに/またはネットワーク接続性を含んでもよい。このような電子デバイスは、携帯型または非携帯型であってもよい。説明したシステムおよび方法を実装するために使用できる電子デバイスの例としては、デスクトップコンピュータ、ラップトップコンピュータ、テレビジョン、スマートフォン、タブレット、音楽プレーヤ、オーディオデバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、サーバコンピュータなどが挙げられる。電子デバイスは、例えば、Linux、ワシントン州レドモンド、Microsoft Corporationから入手可能なMicrosoft Windows、カリフォルニア州クパチーノ、Apple Inc.から入手可能なMac OS X、カリフォルニア州クパチーノのApple Inc.から入手可能なiOS、カリフォルニア州マウンテンビュー、Google Inc.から入手可能なAndroid、および/またはデバイス上での使用に適応された任意の他のオペレーティングシステムなどの任意のオペレーティングシステムを使用することができるが、これらに限定されない。
【0136】
限られた数の実施形態が本明細書で説明されてきたが、上記の説明の利点を有する当業者は、他の実施形態が考案され得ることを理解するであろう。さらに、本明細書で使用される言語は、主に読みやすさおよび指導目的のために選択されており、主題を描写または制限するために選択されていない場合があることに留意されたい。したがって、本開示は、範囲を例示することを意図しているが、限定することを意図していない。
図1A
図1B
図1C
図1D
図2
図3A
図3B
図4
図5
図6
図7
図8
図9