IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ スタッツ エルエルシーの特許一覧

特許7485866埋め込まれた情報カードコンテンツを認識および解釈するための機械学習
<>
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図1A
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図1B
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図1C
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図1D
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図2
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図3
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図4
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図5
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図6
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図7
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図8
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図9
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図10
  • 特許-埋め込まれた情報カードコンテンツを認識および解釈するための機械学習 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-09
(45)【発行日】2024-05-17
(54)【発明の名称】埋め込まれた情報カードコンテンツを認識および解釈するための機械学習
(51)【国際特許分類】
   H04N 21/435 20110101AFI20240510BHJP
   H04N 5/222 20060101ALI20240510BHJP
   H04N 21/44 20110101ALI20240510BHJP
   G06N 3/04 20230101ALI20240510BHJP
   G06N 20/10 20190101ALI20240510BHJP
   H04N 5/765 20060101ALN20240510BHJP
【FI】
H04N21/435
H04N5/222
H04N21/44
G06N3/04
G06N20/10
H04N5/765
【請求項の数】 31
(21)【出願番号】P 2020564734
(86)(22)【出願日】2019-05-15
(65)【公表番号】
(43)【公表日】2021-09-13
(86)【国際出願番号】 US2019032481
(87)【国際公開番号】W WO2019222397
(87)【国際公開日】2019-11-21
【審査請求日】2022-05-12
(31)【優先権主張番号】62/673,412
(32)【優先日】2018-05-18
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/673,411
(32)【優先日】2018-05-18
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/673,413
(32)【優先日】2018-05-18
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/680,955
(32)【優先日】2018-06-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/712,041
(32)【優先日】2018-07-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/746,454
(32)【優先日】2018-10-16
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/411,710
(32)【優先日】2019-05-14
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/411,704
(32)【優先日】2019-05-14
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/411,713
(32)【優先日】2019-05-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】524046744
【氏名又は名称】スタッツ エルエルシー
【氏名又は名称原語表記】STATS LLC
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【弁理士】
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】ストヤンシック,ミハイロ
(72)【発明者】
【氏名】パッカード,ウォレン
【審査官】富樫 明
(56)【参考文献】
【文献】特開2008-176538(JP,A)
【文献】特開2018-005397(JP,A)
【文献】特開平10-055412(JP,A)
【文献】特開2018-033048(JP,A)
【文献】特開2009-239729(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00-21/858
H04N 5/222
G06N 3/04
G06N 20/10
H04N 5/765
(57)【特許請求の範囲】
【請求項1】
ビデオストリームからメタデータを抽出するための方法であって、前記方法が、
プロセッサにおいて、ビデオストリームの少なくとも1つの部分を受信することと、
前記プロセッサにおいて、前記ビデオストリームの前記部分の1つ以上のビデオフレームに埋め込まれた1つ以上のカード画像を識別することと、
前記プロセッサにおいて、前記1つ以上のカード画像を処理してテキストを抽出することと、
前記プロセッサにおいて、前記テキストを解釈してメタデータを取得することと、
前記プロセッサにおいて、ユーザの選好及び関心を含むユーザデータに基づいて前記カード画像内のメタデータから特定のメタデータを抽出することとと、
データストアにおいて、前記ビデオストリームの前記部分に関連付けて前記抽出したメタデータを記憶することと、を含む、
方法。
【請求項2】
前記データストアにおいて、前記ビデオストリームの前記受信された部分を記憶することをさらに含む、請求項1に記載の方法。
【請求項3】
前記ビデオストリームが、スポーツイベントのテレビ放送を含み、
前記ビデオストリームの前記部分が、1人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項1に記載の方法。
【請求項4】
出力デバイスにおいて、前記1つ以上のカード画像を識別すること、前記1つ以上のカード画像を処理すること、および前記テキストを解釈することのうちの少なくとも1つと同時に、前記ビデオストリームを出力することをさらに含む、請求項3に記載の方法。
【請求項5】
出力デバイスにおいて、前記ハイライトを出力することと、
前記ハイライトの出力と同時に、前記メタデータを出力することと、をさらに含み、
前記メタデータが、
前記ハイライトに関連するリアルタイム情報、および
前記メタデータが取得された前記カード画像のタイムラインからなる群から選択された少なくとも1つを含む、請求項3に記載の方法。
【請求項6】
前記テキストを抽出することが、
前記1つ以上のカード画像内の1つ以上の文字列を識別することと、
前記1つ以上の文字列の各文字に対応する前記1つ以上のカード画像を有するカード画像の文字画像の位置および/またはサイズを記録することと、を含む、請求項1に記載の方法。
【請求項7】
前記テキストを抽出することが、
検出された文字境界の多重比較を実施することによって、前記1つ以上の文字列の文字の文字境界に曖昧性解消を行うことと、
互いに近づきすぎて出現する任意の文字境界をパージすることと、をさらに含む、請求項6に記載の方法。
【請求項8】
前記テキストを抽出することが、低強度ピクセルカウントと高強度ピクセルカウントとの間のコントラスト比を確立することによって、1つ以上の文字列の文字に対して画像検証を実施することをさらに含む、請求項6に記載の方法。
【請求項9】
前記テキストを解釈することが、
前記テキストに基づいてクエリを生成することと、
複数のn次元クエリ特徴ベクトルを生成することと、
前記n次元クエリ特徴ベクトルを訓練セット直交基底に射影することと、
前記射影されたn次元クエリ特徴ベクトルを分類モデルに適用して、少なくとも1つの予測されたクエリを作り出すことと、
前記少なくとも1つの予測されたクエリから前記テキスト意味を抽出することと、を含む、請求項1に記載の方法。
【請求項10】
複数の訓練セット特徴ベクトルを生成することと、
前記訓練セット特徴ベクトルを使用して、前記訓練セット直交基底を導出することと、をさらに含む、請求項9に記載の方法。
【請求項11】
複数の訓練セット特徴ベクトルを生成することと、
前記訓練セット特徴ベクトルを使用して、前記分類モデルを生成することと、をさらに含む、請求項9に記載の方法。
【請求項12】
前記テキストを解釈することが、
前記テキスト内の1つ以上の文字列の列長さ、
前記テキスト内の文字境界および/または文字の位置、
前記テキスト内の文字境界および/または文字の水平位置からなる群からの少なくとも2つの選択を使用することをさらに含む、請求項9に記載の方法。
【請求項13】
前記ビデオストリームの前記部分に関連付けて前記メタデータを記憶することが、クエリに関連付けられた、前記1つ以上のビデオフレームのビデオフレーム番号を記憶することを含む、請求項9に記載の方法。
【請求項14】
前記テキストを解釈することが、
前記テキストの1つ以上の文字列の文字のフィールド位置を確認することと、
前記文字の英数字値を確認することと、
前記フィールド位置および英数字値を使用して、前記1つ以上の文字列を順次解釈することと、を含む、請求項1に記載の方法。
【請求項15】
前記テキストを解釈することが、
前記カード画像の知識及び理解に基づいて、前記1つ以上の文字列の1つ以上の欠落している可能性のある文字を補償することと、をさらに含む、請求項14に記載の方法。
【請求項16】
ビデオストリームからメタデータを抽出するための非一時的なコンピュータ可読媒体であって、内部に記憶された命令を含み、前記命令は、プロセッサによって実行されたときに、
前記ビデオストリームの少なくとも1つの部分を受信し、
前記ビデオストリームの前記部分の1つ以上のビデオフレームに埋め込まれた1つ以上のカード画像を識別し、
前記1つ以上のカード画像を処理してテキストを抽出し、
前記テキストを解釈してメタデータを取得し、
ユーザの選好及び関心を含むユーザデータに基づいて前記カード画像内のメタデータから特定のメタデータを抽出することとと、
データストアに前記ビデオストリームの前記部分に関連付けてて前記抽出したメタデータを記憶させるステップを実施する、非一時的なコンピュータ可読媒体。
【請求項17】
前記ビデオストリームが、スポーツイベントのテレビ放送を含み、
前記ビデオストリームの前記部分が、1人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項16に記載の非一時的なコンピュータ可読媒体。
【請求項18】
内部に記憶された命令をさらに含み、前記命令は、プロセッサによって実行されたときに、出力デバイスに、前記1つ以上のカード画像を識別することと、前記1つ以上のカード画像を処理することと、前記テキストを解釈することのうちの少なくとも1つと同時に、前記ビデオストリームを出力させる、請求項17に記載の非一時的なコンピュータ可読媒体。
【請求項19】
内部に記憶された命令をさらに含み、前記命令は、プロセッサによって実行されたときに、
出力デバイスに前記ハイライトを出力させ、
前記ハイライトを出力することと同時に、前記メタデータを出力し、
前記メタデータが、
前記ハイライトに関連するリアルタイム情報、および
前記メタデータが取得された前記カード画像のタイムラインからなる群から選択された少なくとも1つを含む、請求項17に記載の非一時的なコンピュータ可読媒体。
【請求項20】
前記テキストを抽出することが、
前記1つ以上のカード画像内の1つ以上の文字列を識別することと、
前記1つ以上の文字列の各文字に対応する前記1つ以上のカード画像を有するカード画像の文字画像の位置および/またはサイズを記録することと、を含む、請求項16に記載の非一時的なコンピュータ可読媒体。
【請求項21】
前記テキストを解釈することが、
前記テキストに基づいてクエリを生成することと、
複数のn次元クエリ特徴ベクトルを生成することと、
前記n次元クエリ特徴ベクトルを訓練セット直交基底に射影することと、
前記射影されたn次元クエリ特徴ベクトルを分類モデルに適用して、少なくとも1つの予測されたクエリを作り出すことと、
前記少なくとも1つの予測されたクエリから前記テキスト意味を抽出することと、を含む、請求項16に記載の非一時的なコンピュータ可読媒体。
【請求項22】
内部に記憶された命令をさらに含み、前記命令は、プロセッサによって実行されたときに、
複数の訓練セット特徴ベクトルを生成し、ならびに
前記訓練セットの特徴ベクトルを使用して、前記訓練セット直交基底を導出し、および/または前記分類モデルを生成する、請求項21に記載の非一時的なコンピュータ可読媒体。
【請求項23】
前記テキストを解釈することが、
前記テキストの1つ以上の文字列の文字のフィールド位置を確認することと、
前記文字の英数字値を確認することと、
前記フィールド位置および英数字値を使用して、前記1つ以上の文字列を順次解釈することと、を含む、請求項16に記載の非一時的なコンピュータ可読媒体。
【請求項24】
ビデオストリームからメタデータを抽出するためのシステムであって、前記システムが、
プロセッサであって、
前記ビデオストリームの少なくとも1つの部分を受信し、
前記ビデオストリームの前記部分の1つ以上のビデオフレームに埋め込まれた1つ以上のカード画像を識別し、
前記1つ以上のカード画像を処理してテキストを抽出し、
前記テキストを解釈してメタデータを取得し、
ユーザの選好及び関心を含むユーザデータに基づいて前記カード画像内のメタデータから特定のメタデータを抽出するように構成されている、プロセッサと、
前記ビデオストリームの前記部分に関連付けて前記抽出したメタデータを記憶するように構成されたデータストアと、を備える、システム。
【請求項25】
前記ビデオストリームが、スポーツイベントのテレビ放送を含み、
前記ビデオストリームの前記部分が、1人以上のユーザに対する特定の関心を有するとみなされるハイライトを含み、
前記メタデータが、前記ハイライトを記述している、請求項24に記載のシステム。
【請求項26】
前記1つ以上のカード画像を識別すること、前記1つ以上のカード画像を処理すること、および前記テキストを解釈することのうちの少なくとも1つと同時に、前記ビデオストリームを出力するように構成された出力デバイスをさらに備える、請求項25に記載のシステム。
【請求項27】
前記ハイライトを出力するように構成された出力デバイスをさらに備え、
前記プロセッサが、前記ハイライトを出力することと同時に、前記メタデータを出力するようにさらに構成されており、
前記メタデータが、
前記ハイライトに関連するリアルタイム情報、および
前記メタデータが取得された前記カード画像のタイムラインからなる群から選択された少なくとも1つを含む、請求項25に記載のシステム。
【請求項28】
前記プロセッサが、
前記1つ以上のカード画像内の1つ以上の文字列を識別することと、
前記1つ以上の文字列の各文字に対応する前記1つ以上のカード画像を有するカード画像の文字画像の位置および/またはサイズを記録することと、によって、前記テキストを抽出するようにさらに構成されている、請求項24に記載のシステム。
【請求項29】
前記プロセッサが、
前記テキストに基づいてクエリを生成することと、
複数のn次元クエリ特徴ベクトルを生成することと、
前記n次元クエリ特徴ベクトルを訓練セット直交基底に射影することと、
前記射影されたn次元クエリ特徴ベクトルを分類モデルに適用して、少なくとも1つの予測されたクエリを作り出すことと、
前記少なくとも1つの予測されたクエリから前記テキスト意味を抽出することと、によって、前記テキストを解釈するようにさらに構成されている、請求項24に記載のシステム。
【請求項30】
前記プロセッサが、
複数の訓練セット特徴ベクトルを生成し、ならびに
前記訓練セット特徴ベクトルを使用して、前記訓練セット直交基底を導出し、および/または分類モデルを生成するようにさらに構成されている、請求項29に記載のシステム。
【請求項31】
前記プロセッサが、
前記テキストの1つ以上の文字列の文字のフィールド位置を確認することと、
前記文字の英数字値を確認することと、
前記フィールド位置および英数字値を使用して、前記1つ以上の文字列を順次解釈することと、によって、前記テキストを解釈するようにさらに構成されている、請求項24に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2018年5月18日に出願された「Machine Learning for Recognizing and Interpreting Embedded Information Card Content」に関する米国仮特許出願整理番号第62/673,412号(代理人整理番号第THU010-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0002】
本出願は、2019年5月14日に出願された「Machine Learning for Recognizing and Interpreting Embedded Information Card Content」に関する米国実用特許出願整理番号第16/411,710号(代理人整理番号第THU010号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0003】
本出願は、2018年5月18日に出願された「Video Processing for Enabling Sports Highlights Generation」に関する米国仮特許出願整理番号第62/673,411号(代理人整理番号第THU009-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0004】
本出願は、2019年5月14日に出願された「Video Processing for Enabling Sports Highlights Generation」に関する米国実用特許出願整理番号第16/411,704号(代理人整理番号第THU009号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0005】
本出願は、2018年5月18日に出願された「Video Processing for Embedded Information Card Localization and Content Extraction」に関する米国仮特許出願整理番号第62/673,413号(代理人整理番号第THU012-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0006】
本出願は、2019年5月14日に出願された「Video Processing for Embedded Information Card Localization and Content Extraction」に関する米国実用特許出願整理番号第16/411,713号(代理人整理番号第THU012号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0007】
本出願は、2018年6月5日に出願された「Audio Processing for Detecting Occurrences of Crowd Noise in Sporting Event Television Programming」に関する米国仮特許出願整理番号第62/680,955号(代理人整理番号第THU007-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0008】
本出願は、2018年7月30日に出願された「Audio Processing for Extraction of Variable Length Disjoint Segments from Television Signal」に関する米国仮特許出願整理番号第62/712,041号(代理人整理番号第THU006-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0009】
本出願は、2018年10月16日に出願された「Audio Processing for Detecting Occurrences of Loud Sound Characterized by Short-Time Energy Bursts」に関する米国仮特許出願整理番号第62/746,454号(代理人整理番号第THU016-PROV号)の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0010】
本出願は、2012年8月31日に出願され、2015年6月16日に米国特許第9,060,210号として発行された、「Generating Excitement Levels for Live Performances」に関する米国実用特許出願整理番号第13/601,915に関するものであり、その全体が参照により本明細書に組み込まれる。
【0011】
本出願は、2012年8月31日に出願され、2014年9月23日に米国特許第8,842,007号として発行された、「Generating Alerts for Live Performances」に関する米国実用特許出願整理番号第13/601,927に関するものであり、その全体が参照により本明細書に組み込まれる。
【0012】
本出願は、2012年8月31日に出願され、2013年11月26日に米国特許第8,595,763号として発行された、「Generating Teasers for Live Performances」に関する米国実用特許出願整理番号第13/601,933に関するものであり、その全体が参照により本明細書に組み込まれる。
【0013】
本出願は、2014年10月9日に出願された「Generating a Customized Highlight Sequence Depicting an Event」に関する米国実用特許出願整理番号第14/510,481号(代理人整理番号第THU001号)に関するものであり、その全体が参照により本明細書に組み込まれる。
【0014】
本出願は、2015年5月12日に出願された「Generating a Customized Highlight Sequence Depicting Multiple Events」に関する米国実用特許出願整理番号第14/710,438号(代理人整理番号第THU002号)に関するものであり、その全体が参照により本明細書に組み込まれる。
【0015】
本出願は、2015年10月7日に出願された「Customized Generation of Highlight Show with Narrative Component」に関する米国実用特許出願整理番号第14/877,691号(代理人整理番号第THU004号)に関するものであり、その全体が参照により本明細書に組み込まれる。
【0016】
本出願は、2016年9月14日に出願された「User Interface for Interaction with Customized Highlight Shows」に関する米国実用特許出願整理番号第15/264,928号(代理人整理番号第THU005号)に関するものであり、その全体が参照により本明細書に組み込まれる。
【0017】
本文書は、マルチメディアコンテンツを配信するテレビデバイスまたはビデオサーバ上のマルチメディアコンテンツおよび関連する情報を識別し、またマルチメディアコンテンツの配信と同期してコンテンツおよびサービスを提供するために、組み込みソフトウェアアプリケーションがマルチメディアコンテンツを利用することを可能にする技術に関する。様々な実施形態は、スポーツテレビビデオコンテンツ内の重要なイベントベースのビデオセグメントを識別および抽出し、ビデオハイライトを識別し、試合前、試合中、および試合後のレビューのためにそのようなハイライトにメタデータを関連付けるために使用される自動化ビデオおよび音声分析を提供するための方法およびシステムに関する。
【背景技術】
【0018】
試合前、試合中、および試合後の対話的なアプリケーションを有する対話的な広告および強化された番組ガイドなどの拡張テレビアプリケーションが長い間構想されてきた。もともと放送テレビ用に設計された既存のケーブルシステムは、対話的テレビサービスおよび拡張(対話的)番組制作ガイドを含む、新しいアプリケーションおよびサービスのホストをサポートすることが求められている。
【0019】
拡張テレビアプリケーションを可能にするためのいくつかのフレームワークが標準化されている。例としては、OpenCable(商標)拡張TVアプリケーションメッセージング仕様およびTru2way仕様が挙げられ、これらは、ケーブルビデオネットワークを介して配信される対話的なデジタルケーブルサービスを指し、対話的な番組ガイド、対話的な広告、およびゲームなどの機能を含んでいる。さらに、ケーブル事業者の「OCAP」プログラムは、eコマースショッピング、オンラインバンキング、電子番組ガイド、およびデジタルビデオ録画などの対話的なサービスを提供している。これらの取り組みにより、番組制作者/放送局が配信するビデオコンテンツと同期した第一世代のビデオ同期アプリケーションが可能となり、テレビ番組制作に付加的なデータと対話的性を提供している。
【0020】
ビデオ/音声コンテンツ分析技術および対応するモバイルデバイスの最近の開発により、ライブTV番組イベントと同期して動作する高度なアプリケーションの開発において、一連の新しい可能性が開かれた。これらの新しい技術およびコンピュータビジョン、およびビデオ処理の進歩、ならびに最新のプロセッサの改善された計算能力により、メタデータを伴う高度な番組コンテンツのハイライトをリアルタイムで生成できるようになった。
【発明の概要】
【0021】
埋め込まれた情報カード位置特定および埋め込まれたテキスト列認識および解釈のためのスポーツイベントテレビ番組コンテンツの自動リアルタイム処理のための方法およびシステムが提示される。少なくとも1つの実施形態では、機械学習された文字分類モデルは、スポーツイベントのテレビ番組コンテンツに埋め込まれた複数の情報カード(カード画像)から抽出された文字の訓練セットに基づいて生成される。抽出された文字画像は、多次元ベクトル空間で多次元文字ベクトルの標準化された訓練セットを生成するために処理される。次に、この訓練セットに対して主成分分析(PCA)が実施され、訓練セットのベクトル空間にまたがる直交基底ベクトルが導出される。
【0022】
少なくとも1つの実施形態では、訓練セットベクトル空間の次元数は、直交基底から限られた数の代表的な直交ベクトルを選択することによって減少される。マルチクラスサポートベクターマシン(SVM)または畳み込みニューラルネットワーク(CNN)アルゴリズムなどの、既知の機械学習アルゴリズムであり得る機械学習アルゴリズム構造を利用することによって、埋め込まれた情報カードに出現するこの特定の射影された英数字文字のセットに対して分類モデルが生成される。
【0023】
少なくとも1つの実施形態では、スポーツイベントテレビ番組コンテンツは、リアルタイムで処理されて、クエリ(情報カードの文字列からの埋め込まれた文字)を抽出し、埋め込まれた文字列から抽出された個々の文字画像を使用してクエリインフラストラクチャをセットアップする。別の実施形態では、個々のクエリ画像は、各クエリ文字のクエリベクトルを生成するように正規化される。その後、これらのクエリベクトルは、訓練ベクトル空間にまたがる直交基底に射影され、射影されたクエリベクトルが生成される。さらに別の実施形態では、射影されたクエリベクトルは、各射影されたクエリベクトルに事前に学習された文字分類モデルを適用することによって認識(予測)される。最後に、予測されたクエリ文字(予測された文字列を形成する)は、意味抽出によって解釈される。少なくとも1つの実施形態では、意味抽出は、様々なテレビ番組カード画像タイプにおける既知の文字列位置に基づいて、および文字列内の個々の文字の位置の知識に基づいて実施される。少なくとも1つの実施形態では、抽出された情報は、スポーツイベントビデオハイライトに関連付けられたスポーツイベントメタデータに自動的に付加される。
【0024】
少なくとも1つの実施形態では、ビデオストリームからメタデータを抽出するための方法は、ビデオストリームの少なくとも1つの部分を記憶することと、ビデオストリームの部分の1つ以上のビデオフレームに埋め込まれた1つ以上のカード画像を識別することと、その後、1つ以上の情報カード画像を処理してテキストを抽出することと、を含む。さらに別の実施形態では、情報カード画像から抽出されたテキストは、ビデオストリームの部分に関連付けてメタデータを生成および記憶するように解釈される。
【0025】
少なくとも1つの実施形態では、ビデオストリームは、スポーツイベントの放送であってもよい。ビデオストリームの部分は、1人以上のユーザに対する特定の関心を有するとみなされるハイライトであってもよい。メタデータは、ハイライトを記述してもよい。
【0026】
少なくとも1つの実施形態では、本方法は、1つ以上のカード画像を識別すること、1つ以上のカード画像を処理すること、およびテキストを解釈することのうちの少なくとも1つの間に、ユーザにビデオストリームを再生することをさらに含んでもよい。
【0027】
少なくとも1つの実施形態では、本方法は、ユーザにハイライトを再生することと、ハイライトの再生中にユーザにメタデータを提示することと、をさらに含んでもよい。メタデータは、メタデータが取得されたカード画像のハイライトおよびタイムラインに関連するリアルタイム情報を提供してもよい。
【0028】
少なくとも1つの実施形態では、テキストを抽出することは、1つ以上のカード画像内の1つ以上の文字列を識別することと、1つ以上の文字列の各文字に対応する1つ以上のカード画像を有するカード画像の文字画像の位置および/またはサイズを記録することと、を含んでもよい。
【0029】
少なくとも1つの実施形態では、テキストを抽出することは、検出された文字境界の多重比較を実施することによって1つ以上の文字列の文字の文字境界に曖昧性解消を行うことと、互いに近づきすぎて出現する文字境界をパージすることと、をさらに含んでもよい。
【0030】
少なくとも1つの実施形態では、テキストを抽出することは、低強度ピクセルカウントと高強度ピクセルカウントとの間のコントラスト比を確立することによって、1つ以上の文字列の文字に対して画像検証を実施することをさらに含んでもよい。
【0031】
少なくとも1つの実施形態では、テキストを解釈することは、テキストに基づいてクエリを生成することと、n次元クエリ特徴ベクトルを生成することと、n次元クエリ特徴ベクトルを訓練セット直交基底に射影することと、射影されたn次元クエリ特徴ベクトルを分類モデルに適用して、予測されたクエリを作り出すことと、予測されたクエリからテキストの意味を抽出することと、を含んでもよい。
【0032】
少なくとも1つの実施形態では、本方法は、訓練セット特徴ベクトルを生成することと、訓練セット特徴ベクトルを使用して訓練セット直交基底を導出することと、をさらに含んでもよい。
【0033】
少なくとも1つの実施形態では、この方法は、訓練セット特徴ベクトルを生成することと、訓練セット特徴ベクトルおよび導出された訓練セット直交基底ベクトルを使用して分類モデルを生成することと、をさらに含んでもよい。
【0034】
少なくとも1つの実施形態では、テキストを解釈することは、テキスト内の1つ以上の文字列の列長さ、テキスト内の文字境界および/または文字の位置、ならびにテキスト内の文字境界および/または文字の水平位置からなる群からの少なくとも2つの選択を使用することをさらに含んでもよい。
【0035】
少なくとも1つの実施形態では、ビデオストリームの部分に関連付けてメタデータを記憶することは、クエリに関連付けられた、1つ以上のビデオフレームのビデオフレーム番号を記憶することを含んでもよい。
【0036】
少なくとも1つの実施形態では、テキストを解釈することは、テキストの1つ以上の文字列の文字のフィールド位置を確認することと、文字の英数字値を確認することと、フィールド位置および英数字値を使用して1つ以上の文字列を順次解釈することと、を含んでもよい。
【0037】
少なくとも1つの実施形態では、テキストを解釈することは、カード画像の各々の1つ以上のカードフィールドに関する位置および他の情報を取得することと、位置および他の情報を使用して1つ以上の文字列の1つ以上の欠落の可能性のある前部文字を補償することと、をさらに含んでもよい。
【0038】
少なくとも1つの実施形態では、文字認識および分類モデルを生成するための方法は、自動ビデオハイライト生成に関連して記述される。本方法は、自動ハイライトメタデータが生成されるビデオストリームの少なくとも1つの部分を抽出および記憶することと、ビデオストリームの部分の1つ以上のビデオフレームに埋め込まれた1つ以上の情報カード画像を識別することと、1つ以上の情報カード画像を処理して複数の文字画像を抽出することと、を含む。本方法は、複数の文字画像に関連付けられた訓練特徴ベクトルを生成することと、訓練特徴ベクトルを処理することと、訓練特徴ベクトルの少なくともいくつかを使用して文字認識および分類モデルを訓練することと、その後、処理された訓練セットおよび分類モデルを記憶することと、をさらに含む。訓練特徴ベクトルは、訓練特徴ベクトルの相互メトリック距離を増加させることによって、および/または訓練特徴ベクトルを含む全体的なベクトル空間の次元数を減少させることによって、訓練特徴ベクトルの一意性を増加させる方法で処理されてもよい。
【0039】
少なくとも1つの実施形態では、本方法は、訓練特徴ベクトルを生成する前に、文字画像を標準サイズおよび/または標準照明に正規化することをさらに含んでもよい。
【0040】
少なくとも1つの実施形態では、訓練特徴ベクトルを生成することは、文字画像から抽出されたnピクセルのセットをn次元ベクトルにフォーマットすることを含んでもよい。
【0041】
少なくとも1つの実施形態では、本方法は、訓練特徴ベクトルに対して主成分分析を実施することをさらに含んでもよい。訓練特徴ベクトルの少なくともいくつかを使用して分類モデルを訓練することは、訓練特徴直交基底ベクトルのサブセットを選択することと、直交基底ベクトルのサブセットを使用して文字認識および分類モデルを訓練することと、を含んでもよい。
【0042】
少なくとも1つの実施形態では、直交基底ベクトルは、全体的な訓練特徴ベクトル空間にまたがることがってもよい。全体的な訓練特徴ベクトル空間の次元数を減少させることは、この訓練特徴ベクトル空間を十分に正確に表す限られた数の直交基底ベクトルを選択することを含んでもよい。全体的な訓練ベクトル空間の次元数を減少させることは、直交基底ベクトルの行列から導出された特異値の最大セットに対応する直交基底ベクトルのみを選択することを含んでもよい。分類モデルを記憶することは、分類モデル生成および/またはクエリ処理における後続の使用のために、限られた数の直交基底ベクトルを記憶することを含んでもよい。分類モデルを生成することは、SVMおよびCNNからなる群から選択された機械学習アルゴリズムと組み合わせて、限られた数の訓練セット直交基底ベクトルを使用することを含んでもよい。
【0043】
少なくとも1つの実施形態では、本方法は、1つ以上の情報カード画像を処理してテキストを抽出することと、テキストを解釈してメタデータを取得することと、ビデオストリームの部分に関連付けてメタデータを記憶することと、をさらに含んでもよい。本方法は、ユーザにビデオストリームの部分を再生することと、ビデオストリームの部分の再生中にユーザにメタデータを提示することと、をさらに含む。ビデオストリームは、スポーツイベントの放送であってもよい。ビデオストリームの部分は、1人以上のユーザに対する特定の関心を有するとみなされるハイライトを含んでもよい。メタデータは、ハイライトを記述してもよい。
【0044】
少なくとも1つの実施形態では、テキストを抽出することは、クエリとしてテキストのテキスト列を抽出することを含んでもよい。
【0045】
少なくとも1つの実施形態では、テキストを抽出することは、スポーツイベント内の現在の時間、スポーツイベントの現在のフェーズ、スポーツイベントに関連する試合時計、およびスポーツイベントに関連する試合スコアのうちの少なくとも1つを抽出することを含んでもよい。
【0046】
さらなる詳細および変形例は、本明細書に記載されている。
【図面の簡単な説明】
【0047】
添付の図面は、説明とともに、いくつかの実施形態を示している。当業者は、図面に示される特定の実施形態は単なる例示的なものであり、範囲を限定することを意図するものではないことを認識するであろう。
図1A】クライアント/サーバの実施形態による、ハードウェアアーキテクチャを描くブロック図であり、イベントコンテンツは、ネットワーク接続されたコンテンツプロバイダを介して提供される。
図1B】別のクライアント/サーバの実施形態による、ハードウェアアーキテクチャを描くブロック図であり、イベントコンテンツは、クライアントベースの記憶デバイスに記憶される。
図1C】スタンドアロンの実施形態による、ハードウェアアーキテクチャを描くブロック図である。
図1D】一実施形態による、システムアーキテクチャの概要を描くブロック図である。
図2】一実施形態による、カード画像、ユーザデータ、ハイライトデータ、および分類モデルに組み込むことができるデータ構造の例を描く概略ブロック図である。
図3】ビデオストリームからのビデオフレームの例のスクリーンショット図であり、スポーツイベントテレビ番組コンテンツに見られるようなフレーム内に埋め込まれた情報カード画像を示している。
図4】一実施形態による、フレーム内情報カードの位置特定、ならびにコンテンツの抽出およびレンダリングのためのテレビ番組コンテンツのリアルタイム受信および処理のための全体的な適用プロセスを描くフローチャートである。
図5】一実施形態による、文字列境界ボックス抽出のための、検出および抽出された情報カード画像の内部処理を描くフローチャートである。
図6】一実施形態による、最終的な境界された文字画像の検証および関連する位置パラメータ抽出のためのテキストボックスを処理するための方法を描くフローチャートである。
図7】一実施形態による、埋め込まれた情報カードのテキスト画像からのクエリ生成のための方法を示描くフローチャートである。
図8】一実施形態による、機械学習された分類モデルに基づいて抽出されたクエリ文字列の予測された英数字文字を生成するための方法を描くフローチャートである。
図9】一実施形態による、予測されたクエリ英数字列解釈のための方法を描くフローチャートである。
図10】一実施形態による、マルチクラスSVM分類器またはCNN分類器に基づく訓練セットベクトルの前処理および後続の分類モデル生成を描くフローチャートである。
図11】一実施形態による、情報カード内のテキストフィールドを読み取って解釈し、ビデオハイライトメタデータをフレーム内のリアルタイム情報で更新する全体的なプロセスを描くフローチャートである。
【発明を実施するための形態】
【0048】
定義
以下の定義は説明のみを目的として提示されており、範囲を制限することを意図するものではない。
・イベント:本明細書の説明の目的上、「イベント」という用語は、試合、セッション、対戦、シリーズ、パフォーマンス、番組、および/もしくはコンサートなど、またはその部分(行為、期間、クォーター、ハーフ、イニング、シーン、またはチャプター)を指す。イベントは、スポーツイベント、娯楽イベント、またはイベントの参加者のより大きな集団内の単一の個人または複数の個人のサブセットの特定のパフォーマンスなどであってもよい。スポーツ以外のイベントの例としては、テレビショー、ニュース速報、社会政治的事件、自然災害、映画、演劇、ラジオ番組、ポッドキャスト、オーディオブック、オンラインコンテンツ、および/または音楽演奏などが挙げられる。イベントは、任意の長さを有することができる。例示目的のために、本明細書ではスポーツイベントの観点から本技術を説明することが多いが、当業者は、この技術が、任意の視聴覚、音声、資格、グラフィックスベース、対話的、非対話的、またはテキストベースのコンテンツのハイライトショーを含む、他の文脈でも使用できることを認識するであろう。したがって、本説明における「スポーツイベント」という用語および任意の他のスポーツ固有の用語の使用は、1つの想定される実施形態を例示することを意図しているが、記載される技術の範囲をその1つの実施形態に限定することを意図ししているわけではない。むしろ、そのような用語は、この技術に適切な、任意の好適なスポーツ以外の文脈にまで及ぶと考えられるべきである。説明を容易にするために、「イベント」という用語はまた、イベントの視聴覚記録などのイベントの報告もしくは表現、またはイベントの報告、説明、もしくは描画を含む任意の他のコンテンツ項目を指すためにも使用される。
・ハイライト:1人以上のユーザに対する特定の関心を有するとみなされる、イベントの抜粋もしくは部分、またはイベントに関連付けられたコンテンツ。ハイライトは、任意の長さを有することができる。概して、本明細書に記載の技術は、任意の好適なイベントについて、カスタマイズされたハイライトのセット(特定の特性および/またはユーザ選好に基づいて選択され得る)を識別および提示するための機構を提供する。「ハイライト」という用語はまた、ハイライトの視聴覚記録などのハイライトの報告もしくは表現、またはハイライトの報告、説明、もしくは描画を含む任意の他のコンテンツ項目を指すためにも使用される。ハイライトは、イベント自体の描画に限定される必要はないが、イベントに関連付けられた他のコンテンツを含むことができる。例えば、スポーツイベントの場合、ハイライトとして、試合中のオーディオ/ビデオ、ならびに試合前、試合中、および試合後のインタビュー、分析、および/または解説などを含む他のコンテンツを挙げることができる。このようなコンテンツは、リニアテレビから(例えば、イベント自体を描くビデオストリームの一部として)記録することも、任意の数の他のソースから取り出すこともできる。例えば、オカレンス(プレー)、ストリング、ポゼッション、およびシーケンスを含む、様々なタイプのハイライトを提供することができ、これらのすべては、以下で定義されている。ハイライトは、固定された継続時間である必要はないが、以下で説明するように、開始オフセットおよび/または終了オフセットを組み込むことができる。
・コンテンツデリニエーター:ハイライトの開始または終了を示す1つ以上のビデオフレーム。
・オカレンス:イベント中に発生するもの。例としては、ゴール、プレー、ダウン、ヒット、セーブ、ゴール上のシュート、バスケット、スティール、スナップまたはスナップの試み、ニアミス、喧嘩、試合の開始もしくは終了、クォーター、ハーフ、ピリオド、またはイニング、ピッチ、ペナルティ、負傷、娯楽イベントでのドラマチックな出来事、歌、および/またはソロなどが挙げられる。オカレンスはまた、停電、および/または手に負えないファンとの事件などの、異常な事件でもあり得る。このようなオカレンスの検出は、ビデオストリームの特定の一部分をハイライトとして指定するかどうかを決定するための基礎として使用することができる。オカレンスは、命名を容易にするために、本明細書では「プレー」とも呼ばれるが、そのような使用法は、範囲を制限するものと解釈されるべきではない。オカレンスは、任意の長さを有してもよく、オカレンスの表現は、様々な長さを有してもよい。例えば、上記のように、オカレンスの拡張表現は、オカレンスの直前および直後の時間期間を描く映像を含み得るが、簡単な表現は、オカレンス自体のみを含み得る。任意の中間表現も提供することができる。少なくとも1つの実施形態では、オカレンスを表現するための継続時間の選択は、ユーザ選好、利用可能な時間、オカレンスに対する決定された興奮レベル、オカレンスの重要度、および/または任意の他の要因によって異なることがある。
・オフセット:ハイライトの長さを調整する量。少なくとも1つの実施形態では、ハイライトの開始時間および/または終了時間をそれぞれ調整するために、開始オフセットおよび/または終了オフセットを提供することができる。例えば、ハイライトがゴールを描く場合、ハイライトは、ゴールに続く祝賀および/またはファンの反応を含むように、(エンドオフセットを介して)数秒間延長されてもよい。オフセットは、例えば、ハイライトに利用可能な時間、ハイライトの重要度および/もしくは興奮レベル、ならびに/また任意の他の好適な要因に基づいて、自動的にまたは手動で変化するように構成することができる。
・ストリング:何らかの形で互いとリンクまたは関連している一連のオカレンス。オカレンスは、ポゼッション(以下に定義する)内で発生してもよく、複数のポゼッションにまたがってもよい。オカレンスは、シーケンス(以下に定義する)内で発生してもよく、複数のシーケンスにまたがってもよい。オカレンスは、互いに何らかの主題的または物語的なつながりがあるため、またはあるものが別のものにつながるため、または任意の別の理由で、リンクまたは関連していてもよい。ストリングの一例は、ゴールまたはバスケットにつながるパスのセットである。これは、コンピュータプログラミング分野で通常割り当てられている意味を有する「テキスト列」と混同してはならない。
・ポゼッション:イベントの任意の時間で区切られた部分。ポゼッションの開始/終了時間の区別は、イベントのタイプによって異なることがある。一方のチームが攻撃的であり得るが、もう一方のチームが防御的である特定のスポーツイベント(例えば、バスケットボールまたはサッカーなど)の場合、ポゼッションは、チームの一方がボールを有している時間期間として定義することができる。ホッケーまたはサッカーなど、パックまたはボールのポゼッションがより流動的であるスポーツでは、ポゼッションは、チームのうちの一方が他方のチームによる瞬間的な接触(ブロックされたシュートまたはセーブなど)を無視して、パックまたはボールの実質的な制御を有する時間期間にまで及ぶと考えられる。野球の場合、ポゼッションはハーフイニングとして定義される。サッカーの場合、ポゼッションは、同じチームがボールを有しているいくつかのシーケンスを含むことができる。他のタイプのスポーツイベントおよびスポーツ以外のイベントの場合、「ポゼッション」という用語は多少語弊があるかもしれないが、本明細書ではなおも例示の目的で使用されている。スポーツ以外の文脈での例としては、チャプター、シーン、行為、またはテレビセグメントなどが挙げられる。例えば、音楽コンサートの文脈では、ポゼッションは単一の曲の演奏に相当する場合がある。ポゼッションは、任意の数のオカレンスを含むことができる。
・シーケンス:1つの連続したアクションの時間期間を含むイベントの時間で区切られた部分。例えば、スポーツイベントでは、シーケンスはアクションの開始時(フェイスオフ、またはチップオフなど)に開始し、笛が吹かれてアクションの中断を示すときに終了することがある。野球またはサッカーなどのスポーツでは、シーケンスはプレーと同等である場合があり、これはオカレンスの一形態である。シーケンスは、任意の数のポゼッションを含むことができるか、またはポゼッションの一部分であってもよい。
・ハイライトショー:ユーザへの提示のために配置されたハイライトのセット。ハイライトショーは、直線的に(ビデオストリームなど)、またはユーザがどのハイライトをどの順番で視聴するかを選択できるような方法で提示されてもよい(例えば、リンクまたはサムネイルをクリックすることによって)。ハイライトショーの提示は、非対話的でもあっても対話的であってもよく、例えば、ユーザが一時停止、巻き戻し、スキップ、早送り、および/または選好の有無の伝達などを行うことを可能にする。ハイライトショーは、例えば、凝縮された試合であり得る。ハイライトショーは、単一のイベントから、または複数のイベントから、連続または非連続のハイライトを任意の数だけ含むことができ、さらには異なるタイプのイベント(例えば、異なるスポーツ、ならびに/またはスポーツおよびスポーツ以外のイベントのハイライトの組み合わせ)からのハイライトを含むこともできる。
・ユーザ/視聴者:「ユーザ」または「視聴者」という用語は、イベント、イベントの1つ以上のハイライト、またはハイライトショーを見たり、聞いたり、またはその他の方法で体験したりする個人、グループ、またはその他のエンティティを同じ意味で指す。「ユーザ」または「視聴者」という用語はまた、ある将来の時点で、イベント、イベントの1つ以上のハイライト、またはハイライトショーのいずれかを見たり、聞いたり、または他の方法で体験したりする個人、グループ、または他のエンティティを指すこともできる。「視聴者」という用語は説明の目的で使用される場合があるが、イベントに視覚的な成分が含まれている必要はないため、「視聴者」は代わりにリスナーまたはコンテンツの任意の他の消費者であってもよい。
・物語:ハイライトセグメントのセットを特定の順序でリンクする一貫したストーリー。
・興奮レベル:特定のユーザまたは一般のユーザにとって、イベントまたはハイライトがどれほど興奮するものになるかまたは興味深いものになるかを示す尺度。興奮レベルは、特定のオカレンスまたはプレーヤーに関して決定することもできる。興奮レベルを測定または評価するための様々な技術は、上記で参照した関連する用途で説明されている。説明したように、興奮レベルは、イベント内のオカレンス、およびイベントの全体的な文脈または重要度(プレーオフ試合、ペナントの影響、および/またはライバル関係など)などの他の要因によって異なる場合がある。少なくとも1つの実施形態では、興奮レベルは、イベント内の各オカレンス、ストリング、ポゼッション、またはシーケンスに関連付けることができる。例えば、ポゼッションの興奮レベルは、そのポゼッション内で発生するオカレンスに基づいて決定することができる。興奮レベルは、異なるユーザ(例えば、あるチームのファンと中立のファン)によって異なる方法で測定されてもよく、各ユーザの個人的な特性によって異なる場合がある。
・メタデータ:他のデータに関連し、他のデータに関連付けられて記憶されるデータ。一次データは、スポーツ番組またはハイライトなどのメディアであってもよい。
・カード画像:イベント、イベントの描画、またはその一部分などの、ビデオに描かれているいずれかのものに関するデータを提供するビデオフレーム内の画像。例示的なカード画像は、試合スコア、試合時計、および/またはスポーツイベントからの他の統計を含む。カード画像は、一時的に、またはビデオストリームの全継続時間にわたって出現してもよく、一時的に出現するものは、特にそれらが出現するビデオストリームの部分に関係していてもよい。
・文字画像:単一の文字に関連すると思われる画像の一部分。文字画像は、文字を取り囲む領域を含んでもよい。例えば、文字画像は、文字を取り囲む略長方形の境界ボックスを含み得る。
・文字:単語、数字、または単語もしくは数字の表現の一部となることができる記号。文字は、文字、数字、および特殊文字を含むことができ、任意の言語にあってもよい。
・文字列:文字のセットであって、それらがスポーツイベントでプレーしているチームの名前などの単一の情報に関連することを示す方法でグループ化されたもの。多くの場合、英語の文字列は水平に配置され、左から右に読み取られる。ただし、文字列は英語と他の言語とで異なって配置される場合がある。
【0049】
概要
様々な実施形態によれば、スポーツイベントのテレビ番組のハイライトに関連付けられた時間ベースのメタデータを自動的に作成するための方法およびシステムが提供される。ハイライトおよび関連するフレーム内時間ベースの情報は、スポーツイベントのテレビ放送に関して同期的に抽出されてもよく、またはスポーツイベントのビデオコンテンツが、スポーツイベントのテレビ放送後にバックアップデバイスからビデオサーバを介してストリーミングされている間に抽出されてもよい。
【0050】
少なくとも1つの実施形態では、ソフトウェアアプリケーションは、テレビ番組コンテンツの再生および/または受信と同期して動作して、コンテンツのハイライトに関連付けられた情報メタデータを提供する。このようなソフトウェアは、例えば、テレビデバイス自体上で、または関連するセットトップボックス(STB)上で、または番組コンテンツを受信し、その後ストリーミングする機能を有するビデオサーバ上で、またはライブ番組を含むビデオフィードを受信する機能を有するモバイルデバイス上で実行することができる。少なくとも1つの実施形態では、ハイライトおよび関連するメタデータアプリケーションは、テレビ番組コンテンツの提示と同期して動作する。
【0051】
対話型テレビアプリケーションは、一次テレビディスプレイ、またはタブレット、ラップトップ、もしくはスマートフォンなどの二次ディスプレイのいずれかでテレビ番組を見ているユーザに対する、ハイライトされたテレビ番組コンテンツのタイムリーで関連性のある提示を可能にすることができる。テレビ放送コンテンツのハイライトを表すビデオクリップのセットは、ハイライトビデオクリップによって提示されるイベントをより詳細に説明する時間ベースのメタデータを含むデータベースとともに、リアルタイムで生成および/または記憶することができる。
【0052】
ビデオクリップに付随するメタデータは、テキスト情報、画像のセット、および/または任意のタイプの視聴覚データなどの任意の情報であり得る。試合中および試合後のビデオコンテンツのハイライトに関連付けられたメタデータの1つのタイプは、番組コンテンツのビデオフレームのうちの1つ以上に埋め込まれた情報カード(「カード画像」)を読み取ることによって、ライブ番組コンテンツから直接抽出されたスポーツ試合パラメータに関するリアルタイムの情報を伝達する。少なくとも1つの実施形態では、記載されたシステムおよび方法は、このタイプの自動メタデータ生成を可能にし、したがって、カード画像コンテンツを、分析されたデジタルビデオストリームのビデオハイライトに関連付ける。
【0053】
様々な実施形態では、デジタルビデオストリームを受信することと、カード画像の提示および抽出のためにデジタルビデオストリームの1つ以上のビデオフレームを分析することと、カード画像内のテキストボックスを位置特定することと、テキストボックス内に存在する文字の列を認識および解釈することと、を含む自動化プロセスが記載されている。
【0054】
本明細書に提示される自動化メタデータ生成ビデオシステムは、ライブ放送ビデオストリームまたはコンピュータサーバを介してストリーミングされたデジタルビデオを受信することができ、コンピュータビジョンおよび機械学習技術を使用してリアルタイムでビデオストリームを処理し、埋め込まれた情報カードからメタデータを抽出することができる。
【0055】
少なくとも1つの実施形態では、抽出された情報カードテキストフィールドに関連付けられた文字列が識別され、文字の列内の各文字の画像の位置およびサイズが記録される。その後、情報カードの様々なフィールドからのテキスト列内の任意の数の文字が認識され、認識された文字を有するテキスト列が解釈され、試合の現在の時間およびフェーズ、試合スコア、および/またはプレー情報などの、スポーツイベントのテレビ番組に関連するリアルタイム情報を提供する。
【0056】
別の実施形態では、個々の文字画像は、埋め込まれた文字列から抽出され、その後、正規化されたクエリベクトルを生成するために使用される。次に、これらの正規化されたクエリベクトルは、訓練ベクトル空間にまたがる直交基底に射影され、この訓練ベクトルは、事前に組み立てられており、例えば、マルチクラスサポートベクターマシン(SVM)分類器(例:C.BURGES,“A Tutorial on Support Vector Machines for Pattern Recognition”,Kluwer Academic Publishers,1998)などの機械学習分類器を訓練するために使用される。射影されたクエリは、その後、例示的なSVM訓練メカニズムによって作り出された、事前に訓練された分類モデルの出力としてクエリ予測を生成するために使用される。分類モデルはSVMベースのモデルに限定されないことに留意されたい。分類モデルはまた、畳み込みニューラルネットワーク(CNN)などの他の技術を使用して、またCNNアルゴリズム機構の多数の変形例(例:Y.LeCun at al.,“Efficient NN Back Propagation”,Springer 1998)を使用して作り出すこともでき、この変形例は本明細書に提示された訓練データセットに好適である。
【0057】
さらに別の実施形態では、クエリ文字予測は、事前に開発された機械学習された分類モデルに対して射影されたクエリ文字ベクトルを適用することによって生成される。このステップでは、事前に確立された分類ラベルに従って予測された文字の列が生成され、予測された英数字文字の列が認識および解釈プロセスに渡される。クエリの認識および解釈プロセスは、多数の情報カードフィールドに存在する文字の前知識および位置的理解を適用する。特定の文字グループに位置付けられた各予測された英数字文字の意味をさらに解釈し、その導出された情報をビデオハイライト生成アプリケーションが扱うビデオハイライトメタデータに付加する。
【0058】
さらに別の実施形態では、文字分類モデル生成が考慮され、モデルは、スポーツイベントテレビ番組コンテンツに埋め込まれた任意の数の情報カードから抽出された文字の訓練セットに基づく。文字境界ボックスが検出され、多数の情報カードから文字が抽出される。これらの文字画像は、その後、標準化されたサイズおよび照明に正規化されて、埋め込まれた情報カードに出現する英数字文字のセットから各特定の文字に関連付けられた記述子を形成する。この方法で、各抽出された文字画像は、ベクトルの訓練セットを含む多次元ベクトル空間内のn次元ベクトルを表す。文字画像のセットを表すn次元訓練ベクトルは、一意性および相互メトリック距離を増加させるため、および訓練ベクトルの全体的なベクトル空間の次元数を減少させるためにさらに処理される。
【0059】
少なくとも1つの実施形態では、主成分分析(例えば、G.Golub and F.Loan,“Matrix Computations”,Johns Hopkins Univ.Press,Baltimore,1989)は、訓練ベクトルセットに対して実施される。したがって、ベクトルの直交基底は、直交基底ベクトルが訓練セットのベクトル空間にまたがるように、訓練セットから考案される。さらに、基底ベクトルの訓練セット行列の特異値分解によって生成された、特異値の最大セットに関連付けられた最も重要な直交ベクトルのみが保持されるように、訓練セットベクトル空間の次元数は、限られた数の直交基底ベクトルを選択することによって減少される。その後、選択された訓練セット基底ベクトルは、マルチクラスSVMベースの分類器またはCNNベースの分類器などの、データセット分類に利用可能なアルゴリズム構造のうちの1つ以上を使用して分類モデル生成に後で使用するために保存される。
【0060】
システムアーキテクチャ
様々な実施形態によれば、システムは、情報を受信、記憶、および提示するように装備された任意の電子デバイスまたは電子デバイスのセットに実装することができる。このような電子デバイスは、例えば、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス(STB)、ゲームシステム、ウェアラブルデバイス、および/または家庭用電子デバイスなどであってもよい。
【0061】
システムは、特定のタイプの計算デバイスでの実装に関連して本明細書に記載されるが、当業者は、本明細書に記載される技術は、他の文脈で実装することができ、実際には、ユーザ入力を受信および/または処理し、ユーザに出力を提示できる任意の好適なデバイスで実装できることを認識するであろう。したがって、以下の説明は、範囲を限定するのではなく、例として様々な実施形態を例示することを意図している。
【0062】
ここで図1Aを参照すると、クライアント/サーバの実施形態による、イベントのビデオストリームに埋め込まれたカード画像からメタデータを自動的に抽出するためのシステム100のハードウェアアーキテクチャを描くブロック図が示されている。ビデオストリームなどのイベントコンテンツは、ネットワーク接続されたコンテンツプロバイダ124を介して提供され得る。このようなクライアント/サーバの実施形態の例は、ウェブベースの実装形態であり、ここで1つ以上のクライアントデバイス106の各々が、通信ネットワーク104を介して、データプロバイダ(複数可)サーバ122、および/またはコンテンツプロバイダ(複数可)サーバ124を含む様々なサーバ102、114、116からのコンテンツと対話するためのユーザインターフェースを提供するブラウザまたはアプリを実行する。クライアントデバイス106からの要求に応答するコンテンツおよび/またはデータの送信は、ハイパーテキストマークアップ言語(HTML)、Java、Objective C、Python、および/またはJavaScriptなどの任意の既知のプロトコルおよび言語を使用して行うことができる。
【0063】
クライアントデバイス106は、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、および/または任意の電子デバイスなどであり得る。少なくとも1つの実施形態では、クライアントデバイス106は、当業者に既知のいくつかのハードウェア構成要素を有する。入力デバイス(複数可)151は、ユーザ150からの入力を受信する任意の構成要素(複数可)であり得、例えば、手持ち式リモコン、キーボード、マウス、スタイラス、タッチセンシティブスクリーン(タッチスクリーン)、タッチパッド、ジェスチャレセプタ、トラックボール、加速度計、五方向スイッチ、またはマイクなどを含む。入力は、例えば、ポイント、タップ、タイプ、ドラッグ、ジェスチャ、チルト、シェイク、および/またはスピーチのうちの1つ以上を含む、任意の好適なモードを介して提供することができる。表示スクリーン152は、イベントおよび/またはハイライトなどの描画を含む、情報、ビデオ、および/またはコンテンツなどをグラフィカルに表示する任意の構成要素であり得る。このような出力はまた、例えば、視聴覚コンテンツ、データ視覚化、ナビゲーション要素、グラフィック要素、またはコンテンツの選択のための情報および/もしくはパラメータを要求するクエリなどを含み得る。所望の出力のいくつかのみが一度に提示される少なくとも1つの実施形態では、スクロール機構などの動的制御が、入力デバイス(複数可)151を介して、どの情報を現在表示するかを選択するために、および/または情報を表示する方法を変更するために利用可能であってもよい。
【0064】
プロセッサ157は、周知の技術に従って、ソフトウェアの指示の下でデータに対する操作を実施するための従来のマイクロプロセッサであり得る。メモリ156は、本明細書に記載の動作を実施するためのソフトウェアを実行する過程でプロセッサ157による使用のための、当技術分野で既知の構造およびアーキテクチャを有するランダムアクセスメモリであり得る。クライアントデバイス106はまた、ハードドライブ、フラッシュドライブ、光または磁気記憶デバイス、および/またはウェブベース(クラウドベース)ストレージなどであり得るローカルストレージ(図示せず)も含むことができる。
【0065】
インターネット、テレビネットワーク、ケーブルネットワーク、および/またはセルラーネットワークなどの任意の好適なタイプの通信ネットワーク104は、任意の好適なプロトコルおよび技術に従って、クライアントデバイス106と、様々なサーバ(複数可)102、114、116および/またはコンテンツプロバイダ(複数可)124および/またはデータプロバイダ(複数可)122との間でデータを送信するための機構として使用することができる。インターネットに加えて、他の例としては、携帯電話ネットワーク、EDGE、3G、4G、長期的進化(LTE)、セッション開始プロトコル(SIP)、ショートメッセージピアツーピアプロトコル(SMPP)、SS7、Wi-Fi、ブルートゥース(登録商標)、ZigBee、ハイパーテキスト転送プロトコル(HTTP)、セキュアハイパーテキスト転送プロトコル(SHTTP)、および/もしくは伝送制御プロトコル/インターネットプロトコル(TCP/IP)など、ならびに/またはこれらの任意の組み合わせが挙げられる。少なくとも1つの実施形態では、クライアントデバイス106は、通信ネットワーク104を介してデータおよび/またはコンテンツの要求を送信し、要求されたデータおよび/またはコンテンツを含む応答をサーバ102、114、116から受信する。
【0066】
少なくとも1つの実施形態では、図1Aのシステムは、スポーツイベントに関連して動作する。しかしながら、本明細書の教示は、スポーツ以外のイベントにも適用され、本明細書に記載の技術は、スポーツイベントへの適用に限定されないことを理解されるべきである。例えば、本明細書に記載の技術は、テレビショー、映画、ニュースイベント、試合ショー、政治活動、ビジネスショー、ドラマ、および/または他のエピソードコンテンツに関連して、またはこのような複数のイベントのために動作させるために利用することができる。
【0067】
少なくとも1つの実施形態では、システム100は、イベントのビデオストリームを分析することによって、放送イベントのハイライトを識別する。この分析は、リアルタイムで実行することができる。少なくとも1つの実施形態では、システム100は、通信ネットワーク104を介して1つ以上のクライアントデバイス106に結合された1つ以上のウェブサーバ(複数可)102を含む。通信ネットワーク104は、パブリックネットワーク、プライベートネットワーク、またはインターネットなどのパブリックネットワークとプライベートネットワークとの組み合わせであってもよい。通信ネットワーク104は、LAN、WAN、有線、無線、および/または上記の組み合わせであり得る。クライアントデバイス106は、少なくとも1つの実施形態では、有線または無線接続のいずれかを介して通信ネットワーク104に接続することができる。少なくとも1つの実施形態では、クライアントデバイスはまた、DVR、PVR、または他のメディア記録デバイスなどの、イベントを受信および記録することができる記録デバイスを含み得る。そのような記録デバイスは、クライアントデバイス106の一部であり得るか、または外部であり得る。他の実施形態では、そのような記録デバイスは省略され得る。図1Aは1つのクライアントデバイス106を示しているが、システム100は、単一のタイプまたは複数のタイプの任意の数のクライアントデバイス(複数可)106を実装することができる。
【0068】
ウェブサーバ(複数可)102は、クライアントデバイス(複数可)106からの要求を受信し、それらの要求にデータで応答するとともに、未承諾のアラートおよび他のメッセージを送信することができる1つ以上の物理計算デバイスおよび/またはソフトウェアを含み得る。ウェブサーバ(複数可)102は、負荷分散、キャッシング、およびクラスタリングなどのフォールトトレランスおよびスケーラビリティのための様々な戦略を採用してもよい。少なくとも1つの実施形態では、ウェブサーバ(複数可)102は、クライアント要求およびイベントに関連する情報を記憶するための、当技術分野で知られているようなキャッシング技術を含み得る。
【0069】
ウェブサーバ(複数可)102は、クライアントデバイス(複数可)106から受信した要求に応答するために、1つ以上のアプリケーションサーバ(複数可)114を維持するか、または他の方法で指定することができる。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、クライアントデバイス(複数可)106内のクライアントアプリケーションプログラムによる使用のためのビジネスロジックへのアクセスを提供する。アプリケーションサーバ(複数可)114は、ウェブサーバ(複数可)102と同じ場所に位置し、共有され、または共同管理されてもよい。アプリケーションサーバ(複数可)114はまた、ウェブサーバ(複数可)102から離れていてもよい。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、1つ以上の分析サーバ(複数可)116および1つ以上のデータサーバ(複数可)118と対話して、開示された技術の1つ以上の動作を実施する。
【0070】
1つ以上の記憶デバイス153は、システム100の動作に関連するデータを記憶することによって「データストア」として機能することができる。このデータは、例えば、スポーツイベントなどのイベントを提示するビデオストリームに埋め込まれたカード画像に関連するカードデータ154、1人以上のユーザ150に関連するユーザデータ155、イベントの1つ以上のハイライトに関連するハイライトデータ164、および/またはカードデータ154からテキストを予測および/または抽出するために使用することができる分類モデル165を含んでもよいが、これらに限定されない。
【0071】
カードデータ154は、ビデオストリームに埋め込まれたカード画像に関連する任意の情報、例えば、カード画像自体、文字画像などのそのサブセット、文字および文字列などのカード画像から抽出されたテキスト、ならびにテキストおよび/または意味の抽出に役立つ前述のいずれかの属性を含むことができる。ユーザデータ155は、例えば、人口統計学、購入行動、ビデオストリーム視聴行動、関心、および/または選好などを含む、1人以上のユーザ150を説明する任意の情報を含むことができる。ハイライトデータ164は、ハイライト、ハイライト識別子、時間指標、カテゴリ、興奮レベル、およびハイライトに関連する他のデータを含んでもよい。分類モデル165は、機械訓練された分類モデル、クエリ、クエリ特徴ベクトル、訓練セット直交ベース、予測されたクエリ、抽出されたテキストの意味、ならびに/またはカードデータ154からのテキストおよび/もしくは意味の抽出を容易にする他の情報を含んでもよい。カードデータ154、ユーザデータ155、ハイライトデータ164、および分類モデル165については、以降で詳細に説明する。
【0072】
特に、システム100の多くの構成要素は、計算デバイスであってもよく、またはそれを含んでもよい。このような計算デバイスは各々、上に示し、説明したように、クライアントデバイス106のアーキテクチャと同様のアーキテクチャを有してもよい。したがって、通信ネットワーク104、ウェブサーバ102、アプリケーションサーバ114、分析サーバ116、データプロバイダ122、コンテンツプロバイダ124、データサーバ118、および記憶デバイス153のいずれかは、クライアントデバイス106に関連して上述したように、入力デバイス151、表示スクリーン152、メモリ156、および/またはプロセッサ157を任意選択で有してもよい、1つ以上の計算デバイスを含んでもよい。
【0073】
システム100の例示的な動作では、クライアントデバイス106の1人以上のユーザ150は、コンテンツプロバイダ124からのコンテンツをビデオストリームの形態で視聴する。ビデオストリームは、スポーツイベントなどのイベントを示してもよい。ビデオストリームは、既知のコンピュータビジョン技術で容易に処理することができるデジタルビデオストリームであってもよい。
【0074】
ビデオストリームが表示されると、クライアントデバイス106、ウェブサーバ102、アプリケーションサーバ114、および/または分析サーバ116などのシステム100の1つ以上の構成要素が、ビデオストリームを分析し、ビデオストリーム内のハイライトを識別し、および/またはビデオストリームからメタデータを抽出してもよく、例えば、埋め込まれたカード画像および/またはビデオストリームの他の側面から抽出してもよい。この分析は、ビデオストリームのハイライトおよび/またはメタデータを識別するための要求の受信に応答して実行することができる。あるいは、別の実施形態では、ハイライトは、ユーザ150によって特定の要求がなされることなく識別することができる。さらに別の実施形態では、ビデオストリームの分析は、ビデオストリームが表示されることなく行うことができる。
【0075】
少なくとも1つの実施形態では、ユーザ150は、クライアントデバイス106の入力デバイス151(複数可)を介して、ビデオストリームの分析のための特定のパラメータ(例えば、どのイベント/試合/チームを含めるか、ユーザ150がハイライトの視聴ために利用可能な時間どれくらい有しているか、どのようなメタデータが望まれているか、および/または任意の他のパラメータなど)を指定することができる。ユーザ選好はまた、必ずしもユーザ150が選好を指定する必要を伴わずにビデオストリームの分析をカスタマイズするために、1つ以上の記憶デバイス153に記憶されたユーザデータ155などからのように、ストレージから抽出することもできる。少なくとも1つの実施形態では、ユーザ選好は、例えば、ウェブサイトの訪問パターン、テレビを見るパターン、音楽を聴くパターン、オンライン購入、事前のハイライト識別パラメータ、ならびに/またはユーザ150によって実際に視聴されたハイライトおよび/もしくはメタデータなどを観察することによって、ユーザ150の観察された行動およびアクションに基づいて決定することができる。
【0076】
追加的または代替的に、ユーザ選好は、ユーザ150によって明示的に提供された、事前に記憶された選好から取り出すことができる。このようなユーザ選好は、どのチーム、スポーツ、プレーヤー、および/またはイベントのタイプがユーザ150に対する関心を有しているかを示すことができ、および/またはそれらは、ハイライトに関連するどのタイプのメタデータまたは他の情報がユーザ150対する関心を有するであろうかを示すことができる。したがって、このような選好は、ビデオストリームの分析をガイドして、ハイライトを識別し、および/またはハイライトのためのメタデータを抽出するために使用することができる。
【0077】
上述の1つ以上の計算デバイスを含み得る分析サーバ(複数可)116は、データプロバイダ(複数可)122からの1つ以上のイベントに関連する実況統計のライブおよび/または記録されたフィードを分析することができる。データプロバイダ(複数可)122の例としては、限定するものではないが、STATSTM、Perform(英国、ロンドン、Opta Sportsから入手可能)、およびスイス、ザンクトガレン、SportRadarなどのリアルタイムスポーツ情報のプロバイダが挙げられる。少なくとも1つの実施形態では、分析サーバ(複数可)116は、イベントに対して異なる興奮レベルのセットを生成する。このような興奮レベルは、次いで、本明細書に記載の技術に従って、システム100によって識別されるハイライトと関連付けて記憶することができる。
【0078】
アプリケーションサーバ(複数可)114は、ビデオストリームを分析して、ハイライトを識別し、および/またはメタデータを抽出することができる。追加的または代替的に、このような分析は、クライアントデバイス(複数可)106によって実行されてもよい。識別されたハイライトおよび/または抽出されたメタデータは、ユーザ150に固有であってもよく、このような場合、特定のユーザ150に関連するクライアントデバイス106内のハイライトを識別することが有利であり得る。クライアントデバイス106は、上述のように、ハイライト識別および/またはメタデータ抽出のための適用可能なユーザ選好を受信、保持、および/または取得してもよい。追加的または代替的に、ハイライト生成および/またはメタデータ抽出は、グローバルに(すなわち、特定のユーザ150の選好に関係なく、一般にユーザ集団に適用可能な客観的基準を使用して)実行されてもよい。このような場合、ハイライトを識別し、および/またはアプリケーションサーバ(複数可)114内のメタデータを抽出することが有利であり得る。
【0079】
ハイライト識別および/またはメタデータ抽出を容易にするコンテンツは、YouTube(登録商標)、およびMLB.comなどのウェブサイト、スポーツデータプロバイダ、テレビ局、および/またはクライアントもしくはサーバベースのDVRなどを含むコンテンツプロバイダ(複数可)124を含む任意の好適なソースから来てもよい。あるいは、コンテンツは、クライアントデバイス106に関連付けられた(または組み込まれた)DVRもしくは他の記録デバイスなどのローカルソースから来てもよい。少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、ダウンロード、またはストリーミングコンテンツ、またはオンデマンドコンテンツ、または他の何らかの方法のいずれかとして、ユーザ150に利用可能なハイライトおよびメタデータを伴うカスタマイズされたハイライトショーを生成する。
【0080】
上記のように、特定のユーザ150に関連付けられた特定のクライアントデバイス106において、ユーザ固有のハイライト識別および/またはメタデータ抽出が実行されることが有利であり得る。このような実施形態は、特にそのようなコンテンツがクライアントデバイス106においてすでに利用可能である場合、通信ネットワーク104を介して不必要に送信されるビデオコンテンツまたは他の高帯域幅コンテンツの必要性を回避することができる。
【0081】
例えば、次に図1Bを参照すると、カードデータ154、ハイライトデータ164、および分類モデル165の少なくともいくつかがクライアントベースの記憶デバイス158に記憶されている一実施形態によるシステム160の例が示されており、記憶デバイス158は、クライアントデバイス106に利用可能な任意の形式のローカル記憶デバイスであってもよい。例としては、例えば、完全なスポーツイベントのビデオコンテンツなどのイベントを記録することができるDVRが挙げられる。あるいは、クライアントベースの記憶デバイス158は、デジタル形式のデータのための任意の磁気的、光学的、または電子的記憶デバイスであり得る。例としては、フラッシュメモリ、磁気ハードドライブ、CD-ROM、DVD-ROM、またはクライアントデバイス106と統合された、もしくはクライアントデバイス106と通信可能に結合された他のデバイスが挙げられる。アプリケーションサーバ(複数可)114によって提供される情報に基づいて、クライアントデバイス106は、コンテンツプロバイダ124または他のリモートソースから他のコンテンツを取り出す必要を伴わずに、クライアントベースの記憶デバイス158に記憶されたカードデータ154からメタデータを抽出し、そのメタデータをハイライトデータ164として記憶してもよい。このような構成は、帯域幅を節約することができ、クライアントデバイス106にすでに利用可能であり得る既存のハードウェアを有効に活用することができる。
【0082】
図1Aに戻ると、少なくとも1つの実施形態では、アプリケーションサーバ(複数可)114は、個々のユーザ選好および/または他のパラメータに応じて、異なるハイライトを識別し、および/または異なるユーザ150に対して異なるメタデータを抽出することができる。識別されたハイライトおよび/または抽出されたメタデータは、クライアントデバイス106の表示スクリーン152などの任意の好適な出力デバイスを介してユーザ150に提示されてもよい。必要に応じて、複数のハイライトを識別し、関連するメタデータとともにハイライトショーにまとめることができる。このようなハイライトショーは、メニューを介してアクセスされ、および/または所定のシーケンスに従ってユーザ150のために再生される「ハイライトリール」またはハイライトのセットに組み立てられてもよい。ユーザ150は、少なくとも1つの実施形態では、例えば、以下の目的で、入力デバイス(複数可)151を介して、関連するメタデータのハイライト再生および/または配信を制御することができる。
・表示のための特定のハイライトおよび/またはメタデータを選択する。
・一時停止、巻き戻し、早送りを行う。
・次のハイライトにスキップする。
・ハイライトショー内の前のハイライトの最初に戻る。および/または
・その他のアクションを実施する。
【0083】
このような機能に関する追加の詳細は、上記で引用した関連する米国特許出願に提供されている。
【0084】
少なくとも1つの実施形態では、もう1つのデータサーバ(複数可)118が提供される。データサーバ(複数可)118は、例えば、カードデータ154、ユーザデータ155、ハイライトデータ164、および/または分類モデル165を取得または提供するために、サーバ(複数可)102、114、116のいずれかからのデータの要求に応答してもよい。少なくとも1つの実施形態では、このような情報は、データサーバ118によってアクセス可能な任意の好適な記憶デバイス153に記憶することができ、クライアントデバイス106自体、コンテンツプロバイダ(複数可)124、および/またはデータプロバイダ(複数可)122などの、任意の好適なソースから来ることができる。
【0085】
ここで図1Cを参照すると、システム180がスタンドアロン環境で実装される代替の実施形態によるシステム180が示されている。図1Bに示された実施形態と同様に、カードデータ154、ユーザデータ155、ハイライトデータ164、および分類モデル165の少なくともいくつかは、DVRなどのクライアントベースの記憶デバイス158に記憶されてもよい。あるいは、クライアントベースの記憶デバイス158は、フラッシュメモリもしくはハードドライブ、またはクライアントデバイス106と統合された、もしくはクライアントデバイス106と通信可能に結合された他のデバイスであり得る。
【0086】
ユーザデータ155は、ユーザ150の選好および関心を含んでもよい。このようなユーザデータ155に基づいて、システム180は、カードデータ154内のメタデータを抽出して、本明細書に記載の方法でユーザ150に提示することができる。追加的または代替的に、メタデータは、ユーザ150に固有の情報に基づかない客観的基準に基づいて抽出することができる。
【0087】
ここで図1Dを参照すると、代替の実施形態によるアーキテクチャを有するシステム190の概要が示されている。図1Dでは、システム190は、コンテンツプロバイダ(複数可)124などの放送サービス、STBを有するテレビセットなどのクライアントデバイス106の形態のコンテンツ受信機、テレビ番組コンテンツを取り込んでストリーミングすることができる分析サーバ(複数可)116などのビデオサーバ、ならびに/またはテレビ番組コンテンツを受信して処理することができるモバイルデバイスおよびラップトップなどの他のクライアントデバイス106を含み、これらはすべて通信ネットワーク104などのネットワークを介して接続されている。DVRなどのクライアントベースの記憶デバイス158は、クライアントデバイス106および/または他の構成要素のいずれかに接続することができ、ビデオストリーム、ハイライト、ハイライト識別子、ならびに/またはメタデータを記憶して、クライアントデバイス106のいずれかを介してハイライトおよび/もしくは抽出されたメタデータの識別および提示を容易にすることができる。
【0088】
図1A図1B図1C、および図1Dに描画された特定のハードウェアアーキテクチャは、単なる例示である。当業者は、本明細書に記載の技術が他のアーキテクチャを使用して実装できることを認識するであろう。本明細書に描かれている多くの構成要素は任意であり、省略され、他の構成要素と統合され、および/または他の構成要素と置き換えられてもよい。
【0089】
少なくとも1つの実施形態では、システムは、スタンドアロンまたはクライアント/サーバアーキテクチャのいずれであろうと、任意の好適なコンピュータプログラミング言語で書かれたソフトウェアとして実装することができる。あるいは、それはハードウェアに実装および/または埋め込まれてもよい。
【0090】
データ構造
図2は、一実施形態による、カードデータ154、ユーザデータ155、ハイライトデータ164、および分類モデル165に組み込むことができるデータ構造の例を描く概略ブロック図である。
【0091】
示されるように、カードデータ154は、1つ以上のビデオストリームに埋め込まれた複数のカード画像の各々の記録を含んでもよい。カード画像の各々は、1つ以上の文字列200を含んでもよい。文字列200の各々は、n文字の記録を有することができる。このような各記録は、文字画像202、処理された文字画像203、文字境界204、サイズ205、位置206、コントラスト比207、および/または解釈208を有してもよい。文字列200の各々は、文字列200の長さ(例えば、文字、またはピクセルなどの長さ)を示す列長さ209をさらに有してもよい。
【0092】
文字画像202は、単一の文字を含むカード画像の特定の部分であってもよい。処理された文字画像203は、サイズ、および/または明るさなどの正規化などの1つ以上の処理ステップの適用後の文字画像202であってもよい。
【0093】
文字境界204は、文字画像202、処理された文字画像203、ならびに/または文字画像202および処理された文字画像203で表される文字の境界を示してもよい。
【0094】
サイズ205は、文字画像202、処理された文字画像203、ならびに/または文字画像202および処理された文字画像203で表される文字、例えば、ピクセルのサイズであってもよい。
【0095】
位置206は、カード画像内の文字画像202、処理された文字画像203、ならびに/または文字画像202および処理された文字画像203で表される文字の位置であってもよい。いくつかの例では、位置206は、2次元の位置(例えば、文字画像202、処理された文字画像203、ならびに/または文字画像202および処理された文字画像203で表される文字の角または中心のx座標およびy座標)を示してもよい。
【0096】
コントラスト比207は、文字画像202、処理された文字画像203、ならびに/または文字画像202および処理された文字画像203で表される文字のコントラストの指標であってもよい。いくつかの例では、コントラスト比207は、文字画像202、処理された文字画像203、ならびに/または文字画像202および処理された文字画像203で表される文字内の、1つ以上の最も明るいピクセルの輝度値の、1つ以上の最も暗いピクセルの輝度値に対する比であってもよい。
【0097】
解釈208は、文字列200を解釈するために何らかの分析が実施された後、文字画像202に表されると考えられる特定の文字、例えば、a、b、c、1、2、3、#、&などであってもよい。
【0098】
図2に示されるカードデータ154の構造は、単なる例示であり、いくつかの実施形態では、ビデオストリームに埋め込まれたカード画像に関連するデータは、異なるように編成されてもよい。例えば、他の実施形態では、各文字列は、必ずしも個々の文字画像に分解されなくてもよい。むしろ、文字列は全体として解釈されてもよく、文字列の解釈に有用なデータは、文字列全体について記憶されてもよい。さらに、代替の実施形態では、具体的に上述されていないデータをカードデータ154に組み込むことができる。図2のユーザデータ155、ハイライトデータ164、および分類モデル165の構造も同様に単なる例示であり、当業者によって多くの代替案が構想され得る。
【0099】
さらに示されるように、ユーザデータ155は、ユーザ150に関連する記録を含んでもよく、記録の各々は、特定のユーザ150の人口統計データ212、選好214、視聴履歴216、および購入履歴218を含んでもよい。
【0100】
人口統計データ212は、年齢、性別、位置、国籍、宗教的所属、および/または教育レベルなどを含むがこれらに限定されない、任意のタイプの人口統計データを含んでもよい。
【0101】
選好214は、ユーザ150が自身の選好に関して行った選択を含んでもよい。選好214は、ハイライトおよびメタデータの収集および/または表示に直接関連する場合もあれば、より一般的な性質の場合もある。いずれの場合も、選好214を使用して、ハイライトおよびメタデータの識別および/またはユーザ150への提示を容易にすることができる。
【0102】
視聴履歴216は、テレビ番組、ビデオストリーム、ハイライト、ウェブページ、検索クエリ、スポーツイベント、および/またはユーザ150によって取り出され、および/または視聴された他のコンテンツをリストすることができる。
【0103】
購入履歴218は、ユーザ150によって購入または要求された製品またはサービスをリストすることができる。
【0104】
さらに示されるように、ハイライトデータ164は、jハイライト220の記録を含み得、その記録の各々は、特定のハイライト220のビデオストリーム222、識別子、および/またはメタデータ224を含み得る。
【0105】
ビデオストリーム222は、ハイライト220を描くビデオを含んでもよく、これは、1つ以上のイベントの1つ以上のビデオストリームから取得されてもよい(例えば、ハイライト220に関連するビデオストリーム222のみを含むようにビデオストリームをトリミングすることによって)。識別子223は、ハイライト220が、それが取得されたイベントのビデオストリーム内のどこに存在するかを示す時間コードおよび/または他の指標を含んでもよい。
【0106】
いくつかの実施形態では、ハイライト220の各々の記録は、ビデオストリーム222および識別子223のうちの1つのみを含んでもよい。ハイライト再生は、ユーザ150のビデオストリーム222を再生することによって、または識別子223を使用してハイライト220が取得されるイベントのビデオストリームのハイライトされた部分のみを再生することによって実行されてもよい。
【0107】
メタデータ224は、ハイライト220に関する情報、例えば、イベントの日付、シーズン、およびハイライト220が取得されたイベントもしくはビデオストリームに関与したグループもしくは個人、例えば、チーム、選手、コーチ、アンカー、放送局、および/またはファンなどの情報を含んでもよい。他の情報の中で、各ハイライト220のメタデータ224は、時間225、フェーズ226、時計227、スコア228、および/またはフレーム番号229を含み得る。
【0108】
時間225は、ハイライト220が取得されるビデオストリーム222内の時間、またはメタデータが利用可能であるハイライト220に関連するビデオストリーム222内の時間であってもよい。いくつかの例では、時間225は、メタデータ224を含むカード画像が表示される、ハイライト220に関連する、ビデオストリーム222内の再生時間であってもよい。
【0109】
フェーズ226は、ハイライト220に関連するイベントのフェーズであってもよい。より具体的には、フェーズ226は、メタデータ224を含むカード画像が表示されるスポーツイベントの段階であってもよい。例えば、フェーズ226は、「第3のクォーター」、「第2のイニング」、または「ボトムハーフ」などであってもよい。
【0110】
時計227は、ハイライト220に関連する試合時計であってもよい。より具体的には、時計227は、メタデータ224を含むカード画像が表示されるときの試合時計の状態であってもよい。例えば、時計227は、試合時計に15分47秒が表示されて表示されるカード画像の場合、「15:47」であってもよい。
【0111】
スコア228は、ハイライト220に関連する試合スコアであってもよい。より具体的には、スコア228は、メタデータ224を含むカード画像が表示されるときのスコアであってもよい。例えば、スコア228は、「45-38」、「7-0」、または「30-ラブ」などであってもよい。
【0112】
フレーム番号229は、ハイライト220が取得されるビデオストリーム内のビデオフレームの番号、またはハイライト220に関連するビデオストリーム222の中で、ハイライト220に最も直接的に関連するビデオフレームの番号であってもよい。より具体的には、フレーム番号229は、メタデータ224を含むカード画像が表示される、そのようなビデオフレームの番号であってもよい。
【0113】
さらに示されるように、分類モデル165は、文字列200の抽出および解釈を容易にする様々な情報を含んでもよい。分類モデル165は、次に、ハイライト220のためのメタデータ224の自動生成を可能にしてもよい。具体的には、分類モデル165は、クエリ230、クエリ特徴ベクトル232、直交基底234、予測されたクエリ236、および/またはテキストの意味238を含んでもよい。
【0114】
クエリ230、クエリ特徴ベクトル232、直交基底234、および予測されたクエリ236の動作は、本明細書でより詳細に記載されている。テキストの意味238は、メタデータ224に容易にコピーすることができる方法でレンダリングされた文字列200の解釈であってもよい。
【0115】
図2に記載されているデータ構造は単なる例示である。当業者は、ハイライト識別および/またはメタデータ抽出の実施において、図2のデータのいくつかを省略するか、または他のデータで置き換えることができることを認識するであろう。追加的または代替的に、図2に示されていないデータは、ハイライト識別および/またはメタデータ抽出の実施に使用され得る。
【0116】
カード画像
次に図3を参照すると、スポーツイベントのテレビ番組に頻繁に出現するように、カード画像の形で情報が埋め込まれたビデオストリームからのビデオフレーム300の例のスクリーンショット図が示されている。図3は、ビデオフレーム300の右下にあるカード画像310、およびビデオフレーム300の下部に沿って延びる第2のカード画像320を描いている。カード画像310、320は、試合フェーズ、現在の時計、および現在のスコアなどの埋め込まれた情報を含んでもよい。
【0117】
少なくとも1つの実施形態では、カード画像310、320内の情報は、カード画像310、320内の埋め込まれたテキストの自動認識および解釈のために位置特定および処理される。次に、解釈されたテキストは、スポーツイベントのタイムライン内の特定の時点でのスポーツ試合のステータスを説明するテキストメタデータに組み立てられてもよい。
【0118】
特に、カード画像310は、現在示されているスポーツイベントに関係してもよいが、第2のカード画像320は、異なるスポーツイベントに関する情報を含んでもよい。いくつかの実施形態では、現在再生中のスポーツイベントに関連するとみなされる情報を含むカード画像のみが、メタデータ生成のために処理される。したがって、範囲を制限することなく、以下の例示的な説明は、カード画像310のみが処理されることを想定している。しかしながら、代替の実施形態では、他のスポーツイベントに関連するカード画像を含めても、所与のビデオフレーム300内の複数のカード画像を処理することが望ましい場合がある。
【0119】
図3に示されるように、カード画像310は、チーム名330、スコア340、先行のチームパフォーマンス350、現在の試合段階360、試合時計370、プレーステータス380、および/または他の情報390を含む、いくつかの異なるタイプのメタデータ224を提供することができる。これらの各々は、カード画像310内から抽出され、ビデオフレーム300を含むハイライト220、より具体的には、カード画像310が表示されるビデオフレーム300に対応するメタデータ224を提供するように解釈されてもよい。
【0120】
メタデータ抽出
図4は、一実施形態による、例えば、クライアントデバイス106、および/または分析サーバ116のうちの1つで実行されるアプリケーションによって実行される方法400を描くフローチャートであり、方法400は、カード画像310のなどのカード画像からメタデータを抽出するために、ビデオストリーム222を受信し、ビデオフレーム300のオンザフライ処理を実施する。図1Aのシステム100は、方法400およびそれに続くシステムを実行するシステムとして参照される。しかしながら、図1Bのシステム160、図1Cのシステム180、および/または図1Dのシステム190を含むがこれらに限定されない代替のシステムを、図1Aのシステム100の代わりに使用することができる。
【0121】
図4の方法400は、上で概説されたプロセスをより詳細に描いている。事前に識別されたハイライト220に対応するビデオストリーム222などのビデオストリームは、受信およびデコードされてもよい。ステップ410では、ビデオストリーム222の1つ以上のビデオフレーム300が受信され、標準サイズにサイズ変更され、そしてデコードされてもよい。ステップ420では、ビデオフレーム300を処理して、ビデオフレーム300から、図3のカード画像310などの1つ以上のカード画像を検出し、該当する場合はそれを抽出することができる。クエリ430に従って、ビデオフレーム300に有効なカード画像310が見つからない場合、方法400は、ステップ410に戻って、異なるビデオフレーム300をデコードおよび分析することができる。
【0122】
有効なカード画像310が見つかった場合、ステップ440では、ビデオフレーム300をさらに処理して、検出されたカード画像310を位置特定、抽出、および処理し、カード画像310に埋め込まれたテキストボックスおよび/または文字の列を抽出および処理することができる。クエリ450に従って、カード画像310に有効な文字列200が見つからない場合、方法400は、ステップ410に戻って、新しいビデオフレーム300を処理することができる。
【0123】
有効な文字列200がカード画像310に見つかった場合、方法400はステップ460に進むことができ、そこで抽出された文字列(複数可)200が認識および解釈され、対応するメタデータ224がカード画像310からの情報の解釈に基づいて生成される。様々な実施形態では、テキスト解釈のための利用可能な選択は、ビデオフレーム300で検出されたカード画像310のカード画像のタイプを決定すること、および/またはビデオフレーム300で310が検出されたカード画像に適用可能な特定のタイプのカード画像内に存在する検出されたフィールドの事前知識に基づく。
【0124】
以前に示されたように、テレビ番組コンテンツに存在するカード画像の埋め込まれたテキストの検出、位置特定、および解釈は、テレビ上、STB上、またはモバイルデバイス上で完全にローカルで行われてもよい。あるいは、放送ビデオの取り込みおよびストリーミング機能を備えたリモートビデオサーバでリモートで行われてもよい。あるいは、ローカル処理とリモート処理との任意の組み合わせを使用することができる。
【0125】
情報カードの文字列処理:位置特定と抽出
「極値領域」(ER)は、外側の境界ピクセルが領域自体よりも厳密に高い値を有する画像領域である(例:Neumann,J.Matas,“Real-Time Scene Text Localization and Recognition”,5th IEEE Conference on Computer Vision and Pattern Recognition,Providence,RI,June 2012)。画像内のER検出に使用される周知の方法のうちの1つは、いわゆる最大安定ER検出器またはMSER検出器を使用する。追加の検出方法により、計算の複雑さを比較的低く抑えながら、より広い範囲のERの検査が可能になる。より広い範囲のERが検査に含まれる場合、文字領域に関連する特定の機能に基づく逐次分類器を導入することができる。この分類器は、文字が存在する確率を生成するように事前に訓練することができ、その結果、文字の複数の想定される検出された境界(すなわち、文字境界204)がもたらされる。ER分類の最初の段階では、文字が存在する確率が推定され、第2の段階では、局所的に最大の確率を有するERが選択される。分類は、いくつかのより計算量の多い機能を使用することによって、さらに改善することができる。さらに、少なくとも1つの実施形態では、文字の組み合わせを検出し、ERを単語にグループ化するために、反復的で網羅的な検索が適用される。このような方法はまた、文字検出を改善するために、領域エッジをERの考慮事項に含めることもできる。最終結果は、文字境界204を表す最も高い確率で選択されたERである。
【0126】
上述の文字検出器は同じ文字に対して複数の領域を生成するため、次のステップは検出された領域に曖昧性解消を行うことである。少なくとも1つの実施形態では、この曖昧性解消は、検出された文字境界204の多重比較を実施し、その後、互いに近づきすぎて出現する文字境界ボックスの形態であり得る文字境界204をパージすることを含む。結果として、1つの文字境界ボックスのみが特定の周囲内で受け入れられ、したがって、カード画像310の適切なテキストフィールドを表す文字列200の正しい形成を可能にする。
【0127】
図5は、上で概説したプロセスをより詳細に実行するための方法500を描くフローチャートである。ビデオフレーム300が処理のために選択されるか、またはオプションが選択されて、各ビデオフレーム300を連続して処理する。ステップ510において、ビデオフレーム300内のカード画像310が検出された場合、それが抽出され、標準化されたサイズにサイズ変更される。次に、ステップ520において、サイズ変更されたカード画像は、例えば、コントラスト増加、ノイズ低減のための両側および中央フィルタリング、ガンマ補正、ならびに/または照明補償を含む一連のフィルタによって前処理される。
【0128】
ステップ530において、2段階分類器を備えたERフィルタが作成され、ステップ540において、このカスケード分類器は、カード画像310の各画像チャネルに適用される。文字グループが検出され、さらなる処理のために1つ以上の単語ボックスのグループが抽出される。ステップ550において、個々の文字境界204を有する文字列200が、文字境界の曖昧性解消のために分析される。最後に、クリーンな文字列200が生成され、文字の位置206の周囲の各々内で1つの文字のみが受け入れられる。
【0129】
図6は、文字境界204の検証のためのさらなる処理の方法600を描くフローチャートである。方法600は、ステップ610において、文字列200の抽出、重複文字の除去、および文字列200の最終処理および受け入れから開始することができる。描画されるように、曖昧性解消が行われた文字の列内の各文字は、文字画像検証のためにさらに処理することができる。
【0130】
したがって、ステップ620において、各文字画像202(または処理された文字画像203)の低強度および高強度の領域において、低強度および高強度のピクセルカウントの間の所定のコントラスト比と比較するために、ピクセルカウントの比を取得することができる。ステップ620において、各文字画像202または処理された文字画像203について、高強度および低強度レベルのピクセルがグループ化およびカウントされる。
【0131】
次に、ステップ630において、これらの2つのカウントの比が計算され、閾値化が施され、その結果、十分に高いコントラスト比を有する文字画像202または処理された文字画像203のみが保持される。その後、ステップ640において、検証された文字の位置境界ボックス座標(すなわち、位置206)が記録され、文字列200の解釈でさらに使用するために保存される。
【0132】
代替の実施形態では、上述の文字境界ボックス検証は、文字境界の曖昧性解消に先行してもよく、または検証は、最終的な文字検証のために文字境界の曖昧性解消と組み合わせて使用されてもよい。
【0133】
クエリの抽出および認識のための情報カード処理
少なくとも1つの実施形態では、以下のステップを含む自動化プロセスが実施される。ハイライト220に関連するビデオストリーム222などのデジタルビデオストリームを受信する。カード画像310の存在についてデジタルビデオストリームの1つ以上のビデオフレーム300を分析する。カード画像310を抽出する。カード画像310内の文字列200の文字の文字境界204を位置特定する。テキストボックス内にあるテキストを抽出して、文字のクエリ列を作成する。
【0134】
図7は、一実施形態による情報カードクエリ生成の方法700を描くフローチャートである。ステップ710において、カード画像310は、デコードされたビデオフレーム300から抽出される。ステップ720において、カード画像310は、上述のように文字列200を識別および抽出するために処理される。ステップ730において、文字画像202がカード画像310から抽出され、正規化されたクエリ画像(例えば、クエリ230)が生成される。ステップ740において、クエリインフラストラクチャは、正規化されたクエリ文字画像(クエリ特徴ベクトル232)で入力される。
【0135】
別の実施形態では、クエリ予測は、最初にクエリ特徴ベクトルを事前に開発された訓練セット直交基底(例えば、直交基底234)に射影し、次に、その結果として得られた射影されたクエリ特徴ベクトルを、分類モデル165などの機械学習された分類モデルに適用することによって生成される。予測された英数字文字の列は、事前に確立された分類ラベルに従って生成されてもよく、この予測された英数字列は、テキストの意味238を最的な抽出のために解釈プロセスに渡されてもよい。
【0136】
図8は、クエリ英数字列生成およびクエリ解釈および理解につながる、クエリ認識のための処理ステップを含む方法800を描くフローチャートである。ステップ810において、直交基底234の直交基底ベクトルが、訓練セットベクトル空間にまたがってロードされる。ステップ820において、正規化されたクエリは、直交基底234に射影されてもよい。ステップ830において、事前に開発されたような分類モデル165がロードされてもよい。分類モデル165は、射影されたクエリに適用されてもよい。最後に、ステップ840において、予測された英数字文字の列が生成されてもよく、その後、解釈および意味抽出のために使用されて、テキストの意味238を生成する。
【0137】
クエリの解釈および意味の抽出
少なくとも1つの実施形態では、カード画像310内に存在する1つ以上の文字列200が識別される。後続のステップは、識別された文字列200における各文字画像202の位置特定、サイズ決定、および抽出を含んでもよい。検出および抽出された文字画像202は、クエリ特徴ベクトル232に変換され、訓練セット直交基底234に射影される。その後、射影されたクエリが分類モデル165に対して適用されて、予測された英数字文字の列を作り出す。
【0138】
少なくとも1つの実施形態では、予測されたクエリ英数字文字は、多数のカード画像310に存在する文字の事前の知識および位置的理解を適用する解釈プロセスに送られる。次に、特定の文字列200に位置付けられた、各予測された英数字文字に対して意味が導出され、抽出された情報は、ハイライト220に関連付けて記憶されたメタデータ224に付加される。
【0139】
図9は、一実施形態による予測されたクエリ列解釈のための方法900をより詳細に描くフローチャートである。方法900は、文字列長さ、文字ボックスの位置および水平距離、ならびに意味抽出のための英数字読み取り値の考慮を組み合わせることを含む。
【0140】
方法900は、文字列200について各処理されたクエリの文字カウントが、文字列200内の文字のサイズ205および位置206とともにロードされるステップ910から開始する。処理される抽出されたクエリ230に関連付けられたビデオフレーム番号および/または時間はまた、絶対時間に関連する参照のために利用可能にされてもよい。ステップ920において、列長さ209、文字のサイズ205、および/または文字の位置206は、分析において考慮されてもよい。
【0141】
次に、ステップ930において、システム100は、文字列200を進め、文字列200は、文字のフィールド位置の知識、ならびに文字の英数字値の知識を適用することによって解釈されてもよい。ステップ930において、特定のカード画像310の知識および理解はまた、欠落している可能性のある前部文字を補償するために使用することもできる。最後に、ステップ940において、導出された意味が記録され(例えば、テキストの意味238)、対応するメタデータ224が形成され、現在のスポーツイベントテレビ番組および処理された埋め込まれたカード画像310に関連付けられた現在のタイムラインに関連するリアルタイム情報を提供する。
【0142】
埋め込まれた情報カードから抽出されたクエリ文字の認識への適用を伴う機械学習された分類モデルの生成
少なくとも1つの実施形態では、分類モデルの生成は、畳み込みニューラルネットワークを使用して実施される。一般に、ニューラルネットワークは、文字ベクトルの訓練セットに適用される教師あり学習プロセスを通じて、既知の(望ましい)分類結果を使用して情報分類機能を開発する。訓練プロセス中に、ニューラルネットワークのアルゴリズム構造は、その重みおよびバイアスを調整して正確な分類を実施する。訓練プロセス中にニューラルネットワークの内部の重みおよびバイアスを学習するために使用される既知のアーキテクチャの一例は、バックプロパゲーションニューラルネットワークアーキテクチャ、またはフィードフォワードバックプロパゲーションニューラルネットワークアーキテクチャである。このようなネットワークに訓練データのセットが提示されると、バックプロパゲーションアルゴリズムが実際の出力と目的の出力との差を計算し、エラーをフィードバックして、エラー生成の原因となる内部ネットワークの重みおよびバイアスを修正する。分類/推論フェーズにおいて、まずニューラルネットワーク構造に事前に学習したモデルパラメータ、重み、バイアスをロードし、その後、ネットワークを通じてクエリをフィードフォワードし、その結果、ネットワーク出力にクエリの予測を表す1つ以上の識別されたラベル(複数可)が出力される。
【0143】
分類モデル生成のための別の例示的なシステムでは、マルチクラスSVMが使用される。このようなSVM分類システムは、様々なネットワークアーキテクチャを構築するためにヒューリスティックに大きく依存するニューラルネットワーク学習システムなどの同等のアプローチとは根本的に異なり、訓練プロセスは常にグローバルな最小値で終わるとは限らない。対照的に、SVMは数学的に非常に明確に定義されており、グローバルな最小値を一貫して見つける訓練プロセスを有している。さらに、SVMを使用すると、訓練プロセスおよび分類目標の比較的単純で明確な幾何学的解釈があり、これにより分類モデル生成のプロセスに対する直感的な洞察が向上する。SVMは、線形的に分離できないデータセットの分類に効率的に利用でき、マルチラベル分類タスクに拡張できる。線形的に分離できないデータセットの分類のためのSVMは、元のデータセットが線形的に分離できるようになる高次元のベクトル空間にデータセットを射影するのに役立つカーネル関数の選択によって特徴付けられる。ただし、カーネル関数の選択は重要であり、ある程度のヒューリスティックとデータ依存性を含む。
【0144】
少なくとも1つの実施形態では、文字分類モデル生成は、スポーツイベントのテレビ番組コンテンツに埋め込まれた1つ以上の例示的なカード画像310から抽出された文字の訓練セットに基づく。文字境界204が検出され、文字が多数のカード画像310から抽出される。このような文字境界204は、処理された文字画像203を提供するために、その後、標準サイズおよび照明に正規化され得る小さな文字画像202を含む。特徴ベクトル(またはクエリ特徴ベクトル232)は、文字画像202および/または処理された文字画像203に対して形成され、これらの特徴ベクトルは、次に、埋め込まれたカード画像310に出現する文字画像のセットからの各特定の文字に関連付けられる。
【0145】
文字画像特徴形成への構造的アプローチでは、文字特徴ベクトル、またはクエリ特徴ベクトル232は、前処理された文字画像202から抽出されたnピクセルのセットに関連付けられる。これらのnピクセルは、訓練ベクトルのn次元特徴ベクトル空間内の単一の点を表すn次元ベクトルにフォーマットされる。特徴選択の主な目標は、異なるクラスの文字画像202を正しく分離する決定境界を特徴空間に構築することである。したがって、少なくとも1つの実施形態では、訓練ベクトルを表す、抽出された文字画像のセット202は、訓練ベクトルの一意性および相互メトリック距離を増加させるため、ならびに訓練ベクトルの全体的なベクトル空間の次元数を減少させるためにさらに処理される。
【0146】
上記の考慮事項に従って、別の実施形態では、主成分分析(PCA)が訓練ベクトルセットに対して実施される。したがって、直交基底234の直交基底ベクトルは、直交基底ベクトルが訓練ベクトル空間にまたがるように、訓練セットから導出される。さらに、(基底ベクトルの行列の特異値分解によって生成された)特異値の最大セットに関連付けられた最も重要な直交ベクトルのみが保持されるように、訓練ベクトル空間の次元数は、限られた数の直交基底ベクトルを選択することによって減少される。選択された訓練セット基底ベクトルは、SVM分類器またはCNN分類器などの、データセット分類に利用可能なアルゴリズム構造のうちの1つ以上を使用して分類モデル生成に後で使用するために保存される。
【0147】
様々な実施形態において、本明細書に記載のシステムおよび方法は、カード画像310に埋め込まれた文字列200から個々の文字画像202を抽出し、その後、文字画像202を利用してクエリ特徴ベクトル232を生成するための技術を提供する。次の処理ステップでは、これらのクエリ特徴ベクトルは、訓練ベクトル空間にまたがる直交基底234に射影されて、射影されたクエリが生成される。射影されたクエリは、その後、例示的なSVM(またはCNN)分類器によって作り出された事前訓練された分類モデルの出力として、クエリ予測または予測されたクエリ236を生成するために適用される。これらの予測されたクエリ236は、予測された文字の列を形成し、これはその後、テキストの意味238を生成するために解釈されて、最終的に、カード画像310から直接読み取られるリアルタイム情報で強化されたハイライト220のメタデータ224を生成するために使用される。
【0148】
図10は、分類モデル生成の方法1000をより詳細に描くフローチャートである。少なくとも1つの実施形態では、方法1000は、文字画像202の例示的な訓練セットが多数の例示的なカード画像タイプから抽出されるステップ1010で開始する。文字画像202は、標準サイズおよび照明に正規化されて、処理された文字画像203を形成する。特徴ベクトルが導出され、ラベル付き訓練セットが生成される。少なくとも1つの実施形態では、ステップ1020において、PCA分析は、訓練ベクトル空間にまたがる直交基底234を計算することによって訓練セットに対して実施される。ステップ1030において、直交訓練ベクトルのサブセットが選択される。選択された訓練セット基底ベクトルは、ステップ1040でのクエリ処理のために保存されてもよい。ステップ1050において、分類モデル165は、直交訓練ベクトルのサブセットで訓練されてもよい。分類モデルおよび直交基底ベクトルは、ステップ1060において、将来の予測されたクエリ236の生成のために保存されてもよい。
【0149】
図11は、カードの画像310内のテキストフィールドを読み取って解釈し、フレーム内リアルタイム情報でハイライト220のメタデータ224を更新する全体的な方法1100を描くフローチャートである。ステップ1110において、処理されるフィールドは、カード画像310に存在する文字の文字境界204から選択される。ステップ1120において、文字のグループが行フィールドから抽出され、テキスト列が認識され、上述のように解釈される。最後に、ステップ1130において、デコードされたビデオフレーム境界で実施されるカード画像の読み取りは、ハイライト220のために生成されたメタデータ224に埋め込まれる。
【0150】
本システムおよび方法は、想定される実施形態に関して特に詳細に説明されてきた。当業者は、システムおよび方法が他の実施形態で実施され得ることを理解するであろう。まず、構成要素の特定の命名、用語の大文字の使用、属性、データ構造、また任意の他のプログラミングもしくは構造の側面は必須でも重要でもなく、機構および/または機能は、名前、フォーマット、プロトコルが異なっていてもよい。さらに、システムは、ハードウェアとソフトウェアとの組み合わせを介して、または完全にハードウェア要素内に、または完全にソフトウェア要素内に実装されてもよい。また、本明細書に記載の様々なシステム構成要素間の機能の特定の分割は、単なる例示であり、必須ではない。単一のシステム構成要素によって実施される機能は、代わりに複数の構成要素によって実施されてもよく、複数の構成要素によって実施される機能は、代わりに単一の構成要素によって実施されてもよい。
【0151】
本明細書における「一実施形態」または「実施形態」への言及は、実施形態に関連して説明される特定の特徴、構造、または特性が、少なくとも1つの実施形態に含まれることを意味する。本明細書の様々な場所における「一実施形態において」または「少なくとも1つの実施形態において」という句の出現は、必ずしもすべてが同じ実施形態を指すとは限らない。
【0152】
様々な実施形態は、単独でまたは任意の組み合わせのいずれかで、上述の技術を実施するための任意の数のシステムおよび/または方法を含んでもよい。別の実施形態は、計算デバイスまたは他の電子デバイス内のプロセッサに上述の技術を実施させるための、非一時的なコンピュータ可読記憶媒体、およびその媒体に符号化されたコンピュータプログラムコードを含むコンピュータプログラム製品を含む。
【0153】
上記のいくつかの部分は、計算デバイスのメモリ内のデータビットに対する操作のアルゴリズムおよび記号表現の観点から提示されている。これらのアルゴリズムの記述および表現は、データ処理技術の当業者が、その作業の本質を最も効果的に他の当業者に伝えるために使用される手段である。アルゴリズムはここでは、一般に、望ましい結果につながる自己矛盾のない一連のステップ(指示)であると考えられている。ステップは、物理量の物理的な操作を必要とするステップである。通常、必ずしもそうとは限らないが、これらの量は、記憶、転送、結合、比較、およびその他の方法で操作できる電気信号、磁気信号、または光信号の形をとる。主に一般的な使用法の理由から、これらの信号をビット、値、要素、記号、文字、用語、または数値などと呼ぶと便利な場合がある。さらに、一般性を失うことなく、物理量の物理的操作を必要とするステップの特定の配置をモジュールまたはコードデバイスとして参照することも便利な場合がある。
【0154】
ただし、これらおよび類似の用語はすべて、適切な物理量に関連付けられており、これらの量に適用される便利なラベルにすぎないことを念頭に置くべきである。特に別段の記載がない限り、以下の説明から明らかなように、本明細書全体を通して、「処理」または「計算(computing)」または「計算(calculating)」または「表示」または「決定」などの用語を利用した説明は、コンピュータシステム、または類似の電子計算モジュールおよび/またはデバイスの動作およびプロセスを指し、コンピュータシステムのメモリもしくはレジスタまたは他のそのようなストレージ、送信デバイス、または表示デバイス内で物理的(電子的)量として表されるデータを操作および変換することを意味することが理解されよう。
【0155】
特定の態様は、アルゴリズムの形態で本明細書に記載されているプロセスステップおよび命令を含む。プロセスステップおよび命令は、ソフトウェア、ファームウェア、および/またはハードウェアで具体化することができ、ソフトウェアで具体化する場合、様々なオペレーティングシステムによって使用される様々なプラットフォーム上に存在するようにダウンロードすることができ、また、様々なプラットフォームから操作できることに留意されたい。
【0156】
本文書はまた、本明細書の動作を実施するための装置にも関する。この装置は、必要な目的のために特別に構築され得るか、または計算デバイスに記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用計算デバイスを含み得る。そのようなコンピュータプログラムは、フロッピーディスク、光ディスク、CD-ROM、DVD-ROM、磁気光学ディスク、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、フラッシュメモリ、ソリッドステートドライブ、磁気カードもしくは光学カード、特定用途向け集積回路(ASIC)、または電子命令の記憶に適した、各々がコンピュータシステムバスに結合されている、あらゆるタイプの媒体などのコンピュータ可読記憶媒体に記憶されてもよい。プログラムおよびその関連するデータはまた、例えば、サーバ上など、リモートでホストされ、実行されてもよい。さらに、本明細書で言及される計算デバイスは、単一のプロセッサを含み得るか、または計算能力を高めるために複数のプロセッサ設計を採用するアーキテクチャであり得る。
【0157】
本明細書に提示されるアルゴリズムおよび表示は、特定の計算デバイス、仮想化システム、または他の装置に本質的に関連していない。様々な汎用システムもまた、本明細書の教示に従ったプログラムとともにも使用され得るか、または必要な方法ステップを実施するためのより特殊な装置を構築することが便利であることが証明され得る。これらの様々なシステムに必要な構造は、ここで提供される説明から明らかになるであろう。さらに、システムおよび方法は、いかなる特定のプログラミング言語も参照して説明されていない。本明細書に記載の教示を実施するために様々なプログラミング言語を使用することができ、特定の言語への上記のあらゆる参照は、有効化および最良のモードの開示のために提供されることが理解されよう。
【0158】
したがって、様々な実施形態は、コンピュータシステム、計算デバイス、もしくは他の電子デバイスを制御するためのソフトウェア、ハードウェア、および/または他の要素、あるいはこれらの任意の組み合わせまたは複数の要素を含む。このような電子デバイスは、例えば、プロセッサ、キーボード、マウス、タッチパッド、トラックパッド、ジョイスティック、トラックボール、マイク、および/もしくはこれらの任意の組み合わせなどの入力デバイス、スクリーン、および/もしくはスピーカなどの出力デバイス、メモリ、磁気記憶装置、および/もしくは光記憶装置などの長期記憶装置、ならびに/またはネットワーク接続性を含んでもよい。このような電子デバイスは、携帯型または非携帯型であってもよい。説明したシステムおよび方法を実装するために使用できる電子デバイスの例としては、デスクトップコンピュータ、ラップトップコンピュータ、テレビ、スマートフォン、タブレット、音楽プレーヤー、音声デバイス、キオスク、セットトップボックス、ゲームシステム、ウェアラブルデバイス、家庭用電子デバイス、および/またはサーバコンピュータなどが挙げられる。電子デバイスは、例えば、Linux(登録商標)、ワシントン州レドモンド、Microsoft Corporationから入手可能なMicrosoft Windows、カリフォルニア州クパチーノ、Apple Inc.から入手可能なMac OS X、カリフォルニア州クパチーノのApple Inc.から入手可能なiOS、カリフォルニア州マウンテンビュー、Google Inc.から入手可能なAndroid、および/またはデバイス上での使用に適応された任意の他のオペレーティングシステムなどの任意のオペレーティングシステムを使用することができるが、これらに限定されない。
【0159】
限られた数の実施形態が本明細書で説明されてきたが、上記の説明の利点を有する当業者は、他の実施形態が考案され得ることを理解するであろう。さらに、本明細書で使用される言語は、主に読みやすさおよび教育目的のために選択されており、主題を描画または制限するために選択されていない可能性があることに留意されたい。したがって、本開示は、範囲を例示することを意図しているが、限定することを意図していない。
図1A
図1B
図1C
図1D
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11