IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ロヴィ ガイズ, インコーポレイテッドの特許一覧

特開2023-176014機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム
<>
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図1
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図2
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図3
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図4
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図5
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図6
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図7
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図8
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図9
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図10
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図11
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図12
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図13
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図14
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図15
  • 特開-機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム 図16
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023176014
(43)【公開日】2023-12-12
(54)【発明の名称】機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステム
(51)【国際特許分類】
   G06F 16/36 20190101AFI20231205BHJP
【FI】
G06F16/36
【審査請求】有
【請求項の数】1
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023177424
(22)【出願日】2023-10-13
(62)【分割の表示】P 2020573388の分割
【原出願日】2019-09-04
(31)【優先権主張番号】201841033185
(32)【優先日】2018-09-04
(33)【優先権主張国・地域又は機関】IN
(31)【優先権主張番号】16/289,573
(32)【優先日】2019-02-28
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/289,575
(32)【優先日】2019-02-28
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.PYTHON
(71)【出願人】
【識別番号】518345664
【氏名又は名称】ロヴィ ガイズ, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】リジン チュンガパリ
(72)【発明者】
【氏名】ヴェンカタ バブジ ペランバトゥ
(57)【要約】
【課題】機械学習抽出物とセマンティックグラフとを使用して構造化データを作成し、検索、推奨および発見を促進するための方法およびシステムの提供。
【解決手段】セマンティックグラフと機械学習の組み合わせを使用して、構造化データを自動的に生成し、重要なエンティティ/キーワードを認識し、より関連性の高い検索結果と推奨のための加重接続を作成するための方法とシステム。たとえば、関連するエンティティを推測することにより、メタデータの結果はより豊かで意味のあるものになり、消費者の意思決定が迅速になり、コンテンツ所有者の視聴者数を向上させる。セマンティックグラフは、概念間の意味関係を表すネットワークであり得る。
【選択図】図1
【特許請求の範囲】
【請求項1】
本明細書に記載の発明。
【発明の詳細な説明】
【背景技術】
【0001】
今日の消費者には選択の利点があるが、映画、プログラム、ニュース、一連のリニアおよびストリーミングサービスからの短い形式のビデオを含む広大なコンテンツからの選択である。消費できるコンテンツが非常に多いため、消費者は、閲覧したいものを見つけるためにこのコンテンツをフィルタリングするのが難しいと感じるかもしれない。実際、利用可能なコンテンツが多すぎると、「ショーダンピング」と呼ばれる現象が発生し、この現象において、消費者は、プログラムへのアクセスに伴う難問のせいで簡単にプログラムを諦めてしまう。ショーダンピングは、コンテンツ所有者とコンテンツ消費者の両方に大きな問題を引き起こしてしまう。コンテンツ所有者はコンテンツの制作に多額を投資し得るが、消費者がそのコンテンツに確実にアクセスできるようにするのに苦労している。同様に、コンテンツの消費者は、コンテンツがすぐに利用可能であるにもかかわらず見つけるのが困難であるため、望ましいコンテンツを見つけることができないでいる。
【発明の概要】
【課題を解決するための手段】
【0002】
このような問題に鑑みて、ユーザが消費したいと望むコンテンツをユーザにより迅速かつより簡単に見つけさせることを可能にするアプリケーションのための方法およびシステムが本明細書に記載される。この解決法を提供するには、コンテンツをより深く理解する必要がある。例えば、コンテンツが非常に多く、構造化されたメタデータがほとんどないため、コンテンツの量が増えるにつれて、従来の検索および推奨手法はユーザをますます失敗させている。この問題が理解されると、ここで説明する解決法を使用して、この問題を克服し得る。例えば、従来の検索および推奨システムは、統計駆動型モデルに基づくエンティティ抽出に依存している。例えば、そのようなシステムでは、識別された用語(例えば、メディアアセットに対する、メタデータにある説明的な用語)には、関連する用語が識別された用語に対応する可能性を示す統計に基づいて、他の関連する用語が割り当てられる。従って、入力(例えば、ユーザ検索要求)が受信されると、システムは入力内の用語を関連する用語と比較する。関連する用語の1つ以上が入力内の用語に対応する場合、システムは一致と判断する。
【0003】
しかし、コンテンツの量が増えて、故にそのコンテンツに対して識別された用語、関連する用語などの量が指数関数的に増えると、エンティティ抽出のためのこれらの従来の統計駆動モデルは、個々のユーザの希望に合わせた正確な検索結果を提供できなくなる。例えば、増え続けるデータを処理できる、これまで以上に強力なプロセッサが存在するにもかかわらず、これらのシステムは、従来の統計駆動型モデル以外の入力を解釈できないが故に前述の問題を未だ解決できることはない。特に、これらのシステムは、特定の入力のセマンティックな理解を得ることができず、この情報を使用して、検索、推奨、および発見プロセスを促進することができない。
【0004】
閾値レベルでは、上記のように、過剰なデータによって過負荷になっているシステムに(例えば、意味関係に関する)より多くの情報を追加すると、既存の問題がさらに悪化するだけのようである。しかし、機械学習の最近の進歩は、望ましい結果を提供するために、この増加したデータを効率的に使用する方法を提供する。具体的には、4つの別個の段階を特徴とする特定のアーキテクチャ、即ち、代名詞の解決、候補の識別、セマンティックグラフの作成、およびノードのスコアリングを使用することにより、ここで説明するシステムおよび方法は、検索、推奨、および発見機構を提供するときに、精度と再現率の間の調和平均であり、パフォーマンスを評価するための統計的尺度として使用される、拡張F1スコアを提供するアプリケーションを提供する。つまり、ここでのシステムおよび方法は、ユーザにより良い結果を提供するために、セマンティックグラフにおけるノードの重要性を活用することにより、特定のテキスト文字列内のエンティティの関連性を自動的に決定する機械学習モデルをトレーニングする。実際問題として、この独自の方法で機械学習手法とセマンティックグラフを組み合わせると、非常に必要な文脈が追加され、消費者のフラストレーションが軽減されるだけでなく、コンテンツ所有者の視聴者数が向上する。
【0005】
いくつかの局面において、本明細書に記載される方法およびシステムは、検索、推奨、および発見機構を提供する。例えば、システムはデータセットを収集し得る。ユーザは外部データセットからテキスト文字列を入力し得、または、システムは、ウェブからデータをアクティブに収集してデータセットにデータを入力し得る。次に、システムはデータセット全体にわたって代名詞の解決を実行し得る。例えば、システムは、データセット内のテキスト文字列内の各代名詞を識別かつラベル付けし得る。次に、システムは、データセット全体にわたって候補の識別を実行し得る。例えば、システムはデータセットにPOS(品詞)タグを適用することによりデータセット内のテキスト文字列内の全ての名詞チャンクを識別し得る。次に、システムは、複数のキーエンティティおよび複数のキーエンティティ間の複数の関連付けを識別するセマンティックグラフを作成し得る。セマンティックグラフは、ノード間の意味関係を表す有向エッジによって接続されたデータセットからの候補に対応するノードを含み得る。次に、システムは、ユーザ入力インターフェースによって、ユーザ入力を受信し得る。ユーザ入力は、テキスト文字列または発話であり得る。次に、システムは、セマンティックグラフを使用してユーザ入力を処理し得る。例えば、システムは、ユーザ入力からの候補をセマンティックグラフのノードと照合し得る。依存関係ツリーをトラバースすることにより、システムは入力の意味を学習し得る。システムは、入力に関連する関連情報をさらに学習し得る。次に、システムは、処理されたユーザ入力に基づいて出力を生成し得る。例えば、出力は、ユーザ入力への回答、ユーザ入力に基づく推奨、ユーザ入力に関連する情報、または他の情報を含み得る。
【0006】
いくつかの局面において、方法およびシステムは、テキスト文字列内のエンティティの関連性を自動的に決定することによってコンテンツ推奨を提供する。例えば、システムは、ユーザ入力インターフェースによって、「氷山のある映画は何でしたか?それが船を沈めます。」などのテキスト文字列を受信し得る。次に、システムは、制御回路によって、テキスト文字列内の代名詞を識別し得る。例えば、システムは「それ」を代名詞として識別し得る。次に、システムは、制御回路によって、代名詞を適切な名詞に変換して、変換されたテキスト文字列を作成し得る。例えば、システムは、代名詞「それ」が名詞「氷山」を指していると判断して、「氷山のある映画は何でしたか?氷山が船を沈めます。」という変換されたテキスト文字列を作成し得る。次に、システムは、制御回路によって、変換されたテキスト文字列内の名詞チャンクを識別し得る。例えば、システムは、名詞「氷山」を最初の名詞チャンクとして識別し、名詞「船」を2番目の名詞チャンクとして識別し得る。次に、システムは、制御回路によって、複数の名詞チャンクを特徴とするセマンティックグラフに基づいて分類子を使用して名詞チャンクを処理し得、ここで、複数の名詞チャンクの各々は、近接中心性メトリックおよび中間中心性メトリックに基づいてスコア付けされ、ここで、近接中心性メトリックは、セマンティックグラフ内のそれぞれのノードと他のノードの各々との間の最短経路の長さの合計の尺度であり、ここで、中間中心性メトリックは、それぞれのノードのセマンティックグラフ内での中心性の尺度である。例えば、セマンティックグラフは、ノードとして複数の名詞を特徴とし得、ここで、名詞は、特定のソースからのデータセット、および/または特定の主題、の名詞に対応する。次に、システムは、分類子を使用して名詞チャンクを処理することに基づいて、制御回路によってエンティティを決定し得る。例えば、システムは、セマンティックグラフの各ノードのスコアを決定することによって、エンティティ(例えば、名詞、エンティティ、メディアコンテンツのタイトル、コンピュータ生成されたクエリなど)を決定し得る。次に、システムは、最高のスコアを有するノードを決定し、そのノードに対応するエンティティを検索し得る。次に、システムは、受信したテキスト文字列に応答して、表示デバイス上に表示するためにエンティティを生成し得る。例えば、システムは、ユーザへのコンピュータ生成された応答にエンティティを含み得る。コンピュータ-生成された応答は、エンティティに対応するメディアコンテンツを特徴とする検索結果のリストを含み得る。
【0007】
一実施形態について本明細書に記載されている方法およびシステムは、本明細書に記載されている他の実施形態と組み合わされ得ることに留意されたい。
本発明は、例えば、以下を提供する。
(項目1)
テキスト文字列内のエンティティの関連性を自動的に決定することによりコンテンツ推奨を提供する方法であって、該方法は、
ユーザ入力インターフェースによって、テキスト文字列を受信することと、
制御回路によって、該テキスト文字列内の代名詞を識別することと、
該制御回路によって、該代名詞を名詞に変換することにより、変換されたテキスト文字列を作成することと、
該制御回路によって、該変換されたテキスト文字列内の名詞チャンクを識別することと、
該制御回路によって、複数のノードを特徴とするセマンティックグラフに基づいて分類子を使用して該名詞チャンクを処理することであって、該複数のノードの各々は、近接中心性メトリックおよび中間中心性メトリックに基づいてスコア付けされ、該近接中心性メトリックは、該セマンティックグラフ内のそれぞれのノードと他のノードの各々との間の最短経路の長さの合計の尺度であり、該中間中心性メトリックは、それぞれのノードの該セマンティックグラフにおける中心性の尺度である、ことと、
該制御回路によって、該分類子を使用して該名詞チャンクを処理することに基づいて、エンティティを決定することと、
該受信されたテキスト文字列に応答して、該エンティティを表示デバイス上に表示用に生成することと
を含む、方法。
(項目2)
前記分類子を使用して前記名詞チャンクを処理することに基づいてエンティティを決定することは、
各エンティティをスコア付けすることと、
各エンティティのそれぞれのスコアに基づいて各エンティティをランク付けすることと、
最も高いスコアを伴う該エンティティを選択することと
を含む、項目1に記載の方法。
(項目3)
前記分類子は、ディシジョンツリー分類子またはランダムフォレスト分類子である、項目1または2に記載の方法。
(項目4)
前記受信されたテキスト文字列に応答して前記エンティティを表示用に生成することは、検索、推薦、または発見機構において該エンティティを表示用に生成することを含む、項目の1~3のいずれかに記載の方法。
(項目5)
前記代名詞を前記名詞に変換することにより前記変換されたテキスト文字列を作成することは、同一指示変換を使用して該代名詞を変換することを含む、項目の1~4のいずれかに記載の方法。
(項目6)
前記変換されたテキスト文字列内の前記名詞チャンクを識別することは、品詞タグ付けを使用して該名詞チャンクを識別することを含む、項目の1~5のいずれかに記載の方法。
(項目7)
前記セマンティックグラフは、ネットワーク内における概念間の意味関係を表す知識ベースである、項目の1~6のいずれかに記載の方法。
(項目8)
コンピュータ可読命令を含むコンピュータプログラムであって、該コンピュータ可読命令は、1つ以上のプロセッサのそれぞれによって実行されると、該1つ以上のプロセッサに、前記項目のいずれかに記載の前記方法を実施させる、コンピュータプログラム。
(項目9)
テキスト文字列内のエンティティの関連性を自動的に決定することによりコンテンツ推奨を提供するシステムであって、該システムは、
テキスト文字列を受信するように構成されているユーザ入力インターフェースと、
制御回路であって、該制御回路は、
該テキスト文字列内の代名詞を識別することと、
該代名詞を名詞に変換することにより、変換されたテキスト文字列を作成することと、
該変換されたテキスト文字列内の名詞チャンクを識別することと、
複数のノードを特徴とするセマンティックグラフに基づいて分類子を使用して該名詞チャンクを処理することであって、該複数のノードの各々は、近接中心性メトリックおよび中間中心性メトリックに基づいてスコア付けされ、該近接中心性メトリックは、該セマンティックグラフ内のそれぞれのノードと他のノードの各々との間の最短経路の長さの合計の尺度であり、該中間中心性メトリックは、それぞれのノードの該セマンティックグラフにおける中心性の尺度である、ことと、
該分類子を使用して該名詞チャンクを処理することに基づいて、エンティティを決定することと、
該受信されたテキスト文字列に応答して、該エンティティを表示デバイス上に表示用に生成することと
を行うように構成されている、制御回路と
を含む、システム。
(項目10)
前記制御回路は、
各エンティティをスコア付けすることと、
各エンティティのそれぞれのスコアに基づいて各エンティティをランク付けすることと、
最も高いスコアを伴う該エンティティを選択することと
によって、前記分類子を使用して前記名詞チャンクを処理することに基づいてエンティティを決定するように構成される、項目9に記載のシステム。
(項目11)
前記分類子は、ディシジョンツリー分類子またはランダムフォレスト分類子である、項目9または10に記載のシステム。
(項目12)
前記制御回路は、検索、推薦、または発見機構において前記エンティティを表示用に生成することによって、前記受信されたテキスト文字列に応答して該エンティティを表示用に生成するように構成されている、項目9~11に記載のシステム。
(項目13)
前記制御回路は、同一指示変換を使用して前記代名詞を変換することによって、前記代名詞を前記名詞に変換することにより前記変換されたテキスト文字列を作成するように構成されている、項目9~12に記載のシステム。
(項目14)
前記制御回路は、品詞タグ付けを使用して前記名詞チャンクを識別することによって、前記変換されたテキスト文字列内の前記名詞チャンクを識別するように構成されている、項目9~13に記載の方法。
(項目15)
前記セマンティックグラフは、ネットワーク内における概念間の意味関係を表す知識ベースである、項目9~14に記載の方法。
【図面の簡単な説明】
【0008】
本開示の上記および他の目的および利点は、添付の図面と併せて以下の詳細な説明を検討することで明らかになるであろう。図面において、同様の参照文字は、全体を通して同様の部分を参照する。
【0009】
図1図1は、本開示のいくつかの実施形態による、ユーザインターフェースの例示的な例を示す。
【0010】
図2図2は、本開示のいくつかの実施形態による、ユーザインターフェースの別の例示的な例を示す。
【0011】
図3図3は、本開示のいくつかの実施形態による、例示的なユーザ機器デバイスのブロック図である。
【0012】
図4図4は、本開示のいくつかの実施形態による、例示的なメディアシステムのブロック図である。
【0013】
図5図5は、本開示のいくつかの実施形態による、例示的なモデルの結果を特徴とする表を示す。
【0014】
図6図6は、本開示のいくつかの実施形態による、検索、推奨、および発見機構を提供するために使用されるアーキテクチャの例示的な例である。
【0015】
図7図7は、本開示のいくつかの実施形態による、例示的なセマンティックグラフを示す。
【0016】
図8図8-10は、本開示のいくつかの実施形態による、抽出されたエンティティおよび配役の例示的な例を示す。
図9図8-10は、本開示のいくつかの実施形態による、抽出されたエンティティおよび配役の例示的な例を示す。
図10図8-10は、本開示のいくつかの実施形態による、抽出されたエンティティおよび配役の例示的な例を示す。
【0017】
図11図11は、本開示のいくつかの実施形態による、ユーザインターフェースの例示的な例を示す。
【0018】
図12図12は、本開示のいくつかの実施形態による、ユーザインターフェースの別の例示的な例を示す。
【0019】
図13図13は、本開示のいくつかの実施形態による、ユーザインターフェースのさらに別の例示的な例を示す。
【0020】
図14図14は、本開示のいくつかの実施形態による、検索、推奨、および発見機構を提供するために使用されるプロセスの例示的なフローチャートを示す。
【0021】
図15図15は、本開示のいくつかの実施形態による、エンティティを決定するために使用されるプロセスの例示的なフローチャートを示す。
【0022】
図16図16は、本開示のいくつかの実施形態による、検索、推奨、および発見機構を提供するために使用されるアーキテクチャの例示的な例を示す。
【発明を実施するための形態】
【0023】
セマンティックグラフと機械学習の組み合わせを使用して、構造化データを自動的に生成し、重要なエンティティ/キーワードを認識し、より関連性の高い検索結果と推奨を生成する加重接続を作成するための方法とシステムがここに説明される。例えば、関連するエンティティを推測することにより、メタデータの結果はより豊かで意味のあるものになり、消費者の意思決定を迅速なものとし、コンテンツ所有者の視聴者数を向上させる。
【0024】
本明細書で参照されるように、セマンティックグラフは、概念間の意味関係を表すネットワークであり得る。特に、本明細書に記載のセマンティックグラフは、異なる品詞間の意味関係を表し得る。例えば、このネットワークでは、セマンティックグラフは、概念とエッジに対応する頂点から成り得る、これらは、概念間の意味関係を表す。
【0025】
例えば、セマンティックグラフにおいて、概念は、8つの品詞の各々(例えば、名詞、動詞、形容詞、副詞、前置詞、接続詞であり、調整接続詞、従属接続詞、接続副詞、相関接続詞、および/または間投詞を含む)。これらの品詞、およびセマンティックグラフの各単語(つまり、概念)の品詞を示すメタデータは、システムによって使用され、(例えば、グラフ内のノードを表す)単語を結合して解釈可能な文を作成する方法を決定する。次に、これらの単語間の結合がランク付けされて、(例えば、ユーザによって)システムに提示されたクエリを解釈し、クエリへの応答を生成する。
【0026】
図1は、方法およびシステムの適用を示す。図1では、ユーザインターフェース100は、表示デバイス上に表示される。ユーザインターフェース100は、(例えば、ユーザ入力インターフェースへのユーザ入力を介して)受信したテキスト文字列102有する。応答において、システムは、表示のためにプログラム推奨104を生成している。次の例は、どのようにセマンティックグラフのキーワードがコンテンツのより深い理解を示し、より豊かな検索エクスペリエンスを提供するのかを例示する。例えば、テキスト文字列102(「人がオペレーティングシステムに恋をする映画」)の場合、セマンティックグラフを介したシステムは、映画「Her」に対応するプログラム推奨102と返答する。この実施形態では、セマンティックグラフは、メディアコンテンツのプロット詳細からのキーワードおよび描写を含むデータセットに基づいて構築される。データセットは、任意のデータソースからの、および/または特定の主題に基づく任意の種類のデータを含むことができることに留意されたい。図1では、システムは、テキスト文字列102内の「愛」および「オペレーティングシステム」という単語が、関連性が高く、文脈上のキーワードであると判断した。システムは、セマンティックキーワードに「Good_Keyword」のフラグを付け、検索システムにおいてこれらのキーワードに高い重みでインデックス付けを行う。
【0027】
図2は、方法およびシステムの別の適用を示す。図2では、ユーザインターフェース200は、表示デバイス上のディスプレイである。ユーザインターフェース200は、例えば、ユーザ入力インターフェースへのユーザ入力を介して)テキスト文字列202を受信したが、これは映画「Argo」に対応する。例えば、ユーザの要求に応じて、システムは「Argo」と同様の特性を共有する他のコンテンツを推奨し得る。それに応じて、システムは、表示のためにプログラム推奨204および206を生成している。さらに、システムは、類似の映画の各々についてスコアを生成している。例えば、プログラム推奨204は、スコア208を含む。追加的または代替的に、システムは、プログラム推奨に対応するプログラムにアクセスするためのリンクを生成し得る。例えば、図2は、プログラム推奨204に対応するプログラムにアクセスするためのリンクである、リンク210を含む。
【0028】
図2において、エンティティ(例えば、プログラム推奨204および206)は、意味論的概念と見なされ、エンティティの類似性が推奨で使用される。例えば、映画において、「Argo」、「CIA」、「thriller」、および「war」が重要な主題、ジャンル、およびテーマ別の概念である。システムはこれらの1つ以上を活用し、「Fair Game」や「Syriana」などの同様の映画を推奨する。例えば、本明細書に記載のセマンティックグラフは、非構造化テキスト(メディアコンテンツのメタデータなど)から最も重要なノードに重みを付けることにより検索結果を改善する。対照的に、用語頻度-逆文書頻度(「TF-IDF」)などの統計的手法によって駆動されるモデルから抽出されたキーワードは、文脈要素と無関係な要素を区別しない。TF-IDFは、コレクションまたはコーパス内のドキュメントにとって単語がどれほど重要であるかを反映させることを目的とした数値統計である。これは、情報検索、テキストマイニング、およびユーザモデリングの検索における重み係数としてよく使用される。TF-IDF値は、単語がドキュメントに出現する回数に比例して増加し、その単語を含むコーパス内のドキュメントの数によって相殺されるが、これは、一部の単語が一般により頻繁に出現するという事実を調整するのに役立つ。このような場合、「愛」のような一般的な用語は、用語とドキュメントの頻度が高く、従来のTF-IDFベースのモデルでは適切な重みキーワードとは見なされない。対照的に、セマンティックグラフアプローチは、文脈の重要性に基づいてキーワードの関連性を測定することにより、従来の統計を改善する。文脈の重要性の決定は、以下で説明するように、セマンティックグラフ内のキーワードの位置と、そのキーワードと他の概念との関係に基づいている。
【0029】
セマンティックグラフ機構は、映画やテレビ番組などのメディアアセットだけでなく、ニュース記事、短い形式のコンテンツ、さらにはアワードショーなどの1回限りのイベントまで、さまざまなコンテンツに適用できることに留意されたい。実際、セマンティックグラフ機構は任意のメディアアセットに適用され得る。本明細書で言及する場合、用語「メディアアセット」と「コンテンツ」とは、テレビ番組や、ペイパービュープログラム、オンデマンドプログラム(ビデオオンデマンド(VOD)システムなど)、インターネットコンテンツ(例えば、ストリーミングコンテンツ、ダウンロード可能なコンテンツ、ウェブキャストなど)、ビデオクリップ、オーディオ、コンテンツ情報、写真、回転画像、ドキュメント、プレイリスト、ウェブサイト、記事、書籍、電子書籍、ブログ、チャットセッション、ソーシャルメディア、アプリケーション、ゲーム、および/または他の任意のメディアもしくはマルチメディア、ならびに/あるいはそれらの組み合わせなどの電子的に消費可能なユーザセットを意味すると理解されるべきである。ガイダンスアプリケーションを使用すると、ユーザはコンテンツ間をナビゲートして探し当てることも可能となる。本明細書で言及する場合、「マルチメディア」という用語は、上記の少なくとも2つの異なるコンテンツフォーム、例えば、テキスト、オーディオ、画像、ビデオ、または双方向性コンテンツフォームを利用するコンテンツを意味すると理解されるべきである。コンテンツは、ユーザ機器デバイスによって記録、再生、表示、またはアクセスされ得るが、ライブパフォーマンスの一部にすることもでき得る。
【0030】
これらのメディアアセットのいずれについても、セマンティックグラフから決定された情報は、コンテンツの発見を改善するために適用でき得、関連のある結果と消費者にとって意味のある推奨とを作成でき得る。追加的または代替的に、セマンティックグラフは、トレンドトピックの識別のために、システムによって使用され得る。例えば、システムは、Googleニュースなどの非構造化ソースからトレンドトピックを抽出し得る。例えば、ニュース記事から、システムは最も関連性の高いエンティティを強調表示し、一瞬の言及のノイズの様なエンティティを抑制し得、セマンティックグラフのノードスコアリングメカニズムが、最も関連性の高いエンティティを評価し得る。
【0031】
追加的または代替的に、セマンティックグラフは、システムによって、名前付きエンティティの抽出に使用され得る。例えば、システムは、テキスト内の名前付きエンティティを見つけて、人の名前、組織、場所、時間の表現、数量、金銭的価値、パーセンテージなどの事前定義されたカテゴリに分類し得る。次に、システムは、コンテンツ発見のために、構造化されていないテキスト(例えば、ニュース記事、コンテンツの説明)から文脈上重要なエンティティまたはキーワードを自動的に抽出し得る。
【0032】
追加的または代替的に、セマンティックグラフは、システムによって、セマンティックグラフのノードスコアに基づくコンテンツ内の重要および重要でないキャストメンバーおよび配役の分類である、配役の重要性のために使用され得る。例えば、図8および9において、ハイスコアを達成するために決定された重要な配役が示される。これらの重要な配役は、図1および図2のディスプレイに表示され得る。
【0033】
また、システムは機械学習と組み合わせてセマンティックグラフを使用することによりコンテンツをより深く理解し、文脈に基づいて関連するエンティティ/キーワードを素早く識別し、時に骨折りである「検索して見つけ出す」方法を超えてエンターテインメントの発見を拡張し得ることにも留意されたい。従って、視聴者は正確なタイトルや文字を覚える必要がなくなり、代わりに自然言語を用いて興味のあるコンテンツを見つけ得る。文脈に関連した音声による検索結果と推奨とに対するこの基盤は、消費者が適切なコンテンツを素早く見つけたいという欲求を満たし、コンテンツ所有者がロングテールカタログの視聴者数を増やすことを可能にする。
【0034】
図3は、本明細書で論じられる検索、推奨、および発見機構を提供し得る、例示的なユーザ機器デバイス300の一般化された実施形態を示す。例えば、ユーザ機器デバイス300は、スマートフォンデバイスまたはリモコンであり得る。別の例では、ユーザ機器システム301は、ユーザテレビ機器システムであり得る。そのような場合、デバイスは、要求を処理するために、セマンティックグラフをメモリに格納し得、かつ/またはセマンティックグラフにアクセスし得る。ユーザテレビ機器システム301は、セットトップボックス316を含み得る。ットトップボックス316は、スピーカー314およびディスプレイ312に通信可能に接続され得る。いくつかの実施形態では、ディスプレイ312は、テレビディスプレイまたはコンピュータディスプレイであり得る。いくつかの実施形態では、セットトップボックス316は、ユーザインターフェース入力310に通信可能に接続され得る。いくつかの実施形態では、ユーザインターフェース入力310は、遠隔制御装置であり得る。セットトップボックス316は、1つ以上の回路基板を含み得る。いくつかの実施形態では、回路基板は、処理回路、制御回路、およびストレージ(例えば、RAM、ROM、ハードディスク、リムーバブルディスクなど)を含み得る。いくつかの実施形態では、回路基板は、入力/出力経路を含み得る。ユーザ機器デバイスのより具体的な実装は、図4に関連して以下で説明される。ユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつは、入力/出力(以下、I/O)経路302を介してコンテンツおよびデータを受信し得る。I/O経路302は、コンテンツ(例えば、放送番組、オンデマンド番組、インターネットコンテンツ、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を介して利用可能なコンテンツ、および/または他のコンテンツ)およびデータを制御回路304に提供し得、制御回路は、処理回路306および記憶装置308を含む。制御回路304は、I/O経路302を使用してコマンド、要求、および他の適切なデータを送受信するために使用され得る。I/O経路302は、制御回路304(および具体的には処理回路306)を(以下に記載の)1つ以上の通信経路に接続し得る。I/O機能は、これらの通信経路のうちの1つ以上によって提供され得るが、図面を過度に複雑にすることを避けるために、図3では単一の経路として示されている。
【0035】
制御回路304は、処理回路306などの任意の適切な処理回路に基づき得る。本明細書で言及するように、処理回路とは、1つ以上のマイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ、プログラマブルロジックデバイス、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)などに基づく回路を意味すると理解する必要があり、マルチコアプロセッサ(例えば、デュアルコア、クアッドコア、ヘキサコア、または任意の適切な数のコア)またはスーパーコンピュータを含み得る。いくつかの実施形態では、処理回路は、複数の別個のプロセッサまたは処理ユニット、例えば、同じ種類の処理ユニットの複数(例えば、2つのIntel Core i7プロセッサ)または複数の異なるプロセッサ(例えば、Intel Core i5プロセッサおよびIntel Core i7プロセッサ)に分散され得る。いくつかの実施形態では、制御回路304は、メモリ(例えば、ストレージ308)に格納されたアプリケーションのための命令を実行する。具体的には、制御回路304は、アプリケーションによって、上記および以下で論じられる機能を実行するように命令され得る。例えば、アプリケーションは、制御回路304に命令を提供しメディアガイダンスディスプレイを生成させ得る。いくつかの実装形態では、制御回路304によって実行される任意のアクションは、アプリケーションから受信した命令に基づき得る。
【0036】
クライアント/サーバーベースの実施形態では、制御回路304は、通信は、ガイダンスアプリケーションサーバまたは他のネットワークもしくはサーバと通信するための適切な回路を含み得る。上述の機能性を実施するための命令は、ガイダンスアプリケーションサーバ上に格納され得る。通信回路は、ケーブルモデム、統合サービスデジタルネットワーク(ISDN)モデム、デジタル加入者線(DSL)モデム、電話モデム、イーサネット(登録商標)カード、他の機器との通信用のワイヤレスモデム、またはその他の適切な通信回路を含み得る。そのような通信は、インターネットまたは他の任意の適切な通信ネットワークまたは経路(図4に関連してより詳細に説明される)を伴い得る。さらに、通信回路は、ユーザ機器デバイスのピアツーピア通信、または互いに離れた場所にあるユーザ機器デバイスの通信を可能にする回路を含み得る(以下でより詳細に説明される)。
【0037】
メモリは、制御回路304の一部である記憶装置308として提供される電子記憶装置であり得る。本明細書で言及されるように、「電子記憶装置」または「記憶装置」という句は、電子データ、コンピュータソフトウェア、またはファームウェアを記憶するための任意の装置を意味すると理解されるべきであり、例えば、ランダムアクセスメモリ、読み取り専用メモリ、ハードドライブ、光ドライブ、デジタルビデオディスク(DVD)レコーダー、コンパクトディスク(CD)レコーダー、BLU-RAY(登録商標)ディスク(BD)レコーダー、BLU-RAY(登録商標)3Dディスクレコーダー、デジタルビデオレコーダー(DVR;パーソナルビデオレコーダーまたはPVRと呼ばれることもある)、ソリッドステートデバイス、量子ストレージデバイス、ゲームコンソール、ゲームメディア、またはその他の適切な固定もしくはリムーバブルストレージデバイス、および/あるいはそれらの任意の組み合わせである。ストレージ308は、本明細書に記載の様々な種類のコンテンツ、ならびに上記のメディアガイダンスデータを格納するために使用され得る。不揮発性メモリも使用され得る(例えば、起動ルーチンやその他の命令を起動するために)。図4に関連して説明されるクラウドベースのストレージは、ストレージ308を補足するために、またはストレージ308の代わりに使用され得る。
【0038】
制御回路304は、1つ以上のアナログチューナ、一つ以上のMPEG-2デコーダまたは他のデジタルデコード回路、高解像度チューナ、または任意の他の好適な同調もしくはビデオ回路、あるいはそのような回路の組み合わせのような、ビデオ生成回路および同調回路を含み得る。符号化回路(例えば、無線、アナログ、またはデジタル信号を記憶のためにMPEG信号に変換するための)も提供され得る。制御回路304は、コンテンツをユーザ機器300の好ましい出力フォーマットにアップコンバートおよびダウンコンバートするためのスケーラ回路をも含み得る。回路304はまた、デジタル信号とアナログ信号との間で変換するためのデジタル-アナログ変換器回路およびアナログ-デジタル変換器回路を含み得る。同調および符号化回路は、コンテンツを受信および表示し、再生し、または記録するために、ユーザ機器デバイスによって使用され得る。同調および符号化回路は、ガイダンスデータを受信するためにも使用され得る。例えば、同調、ビデオ生成、符号化、復号化、暗号化、復号化、スケーラ、およびアナログ/デジタル回路を含む、本明細書に記載の回路は、1つ以上の汎用または専用プロセッサで実行されるソフトウェアを使用して実装され得る。同時チューニング機能(例えば、監視および記録機能、ピクチャーインピクチャー(PIP)機能、マルチチューナー記録など)を処理するために、複数のチューナが提供され得る。ストレージ308がユーザ機器300とは別個のデバイスとして提供される場合、チューニングおよび符号化回路(複数のチューナーを含む)は、ストレージ308に関連付けられ得る。
【0039】
ユーザは、ユーザ入力インターフェース310を使用して、制御回路304に命令を送信し得る。ユーザ入力インターフェース310は、リモコン、マウス、トラックボール、キーパッド、キーボード、タッチスクリーン、タッチパッド、スタイラス入力、ジョイスティック、音声認識インターフェース、またはその他のユーザ入力インターフェースなどの任意の適切なユーザインターフェースであり得る。ディスプレイ312は、スタンドアロンデバイスとして提供され得るか、またはユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつの他の要素と統合され得る。例えば、ディスプレイ312は、タッチスクリーンまたはタッチセンシティブディスプレイであり得る。そのような状況では、ユーザ入力インターフェース310は、ディスプレイ312と統合または組み合わせられ得る。ディスプレイ312は、モニター、テレビ、モバイルデバイス用液晶ディスプレイ(LCD)、アモルファスシリコンディスプレイ、低温ポリシリコンディスプレイ、電子インクディスプレイ、電気泳動ディスプレイ、アクティブマトリックスディスプレイ、電気湿潤ディスプレイ、電気流体ディスプレイ、陰極線管ディスプレイ、発光ダイオードディスプレイ、エレクトロルミネセントディスプレイ、プラズマディスプレイパネル、高性能アドレッシングディスプレイ、薄膜トランジスタディスプレイ、有機発光ダイオードディスプレイ、表面伝導電子エミッタディスプレイ(SED)、レーザーテレビ、カーボンナノチューブ、量子ドットディスプレイ、干渉変調器ディスプレイ、または視覚画像を表示するための他の適切な機器のうちの1つ以上であり得る。いくつかの実施形態では、ディスプレイ312は、HDTV対応であり得る。いくつかの実施形態では、ディスプレイ312は3Dディスプレイであり得、インタラクティブアプリケーションおよび任意の適切なコンテンツは3Dで表示され得る。ビデオカードまたはグラフィックスカードは、ディスプレイ312への出力を生成し得る。ビデオカードは、3Dシーンおよび2Dグラフィックスの加速レンダリング、MPEG-2/MPEG-4デコード、テレビ出力、または複数のモニターを接続する機能などの様々な機能を提供し得る。ビデオカードは、制御回路304に関連して上記で説明された任意の処理回路であり得る。ビデオカードは、制御回路304と統合され得る。スピーカー314は、ユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつの他の要素と統合されて提供され得るか、またはスタンドアロンユニットであり得る。ディスプレイ312に表示されるビデオおよび他のコンテンツのオーディオコンポーネントは、スピーカー314を介して再生され得る。いくつかの実施形態では、オーディオは、スピーカー314を介してオーディオを処理および出力する受信機(図示せず)に配信され得る。
【0040】
ガイダンスアプリケーションは、任意の適切なアーキテクチャを使用して実装され得る。例えば、それは、ユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつに完全に実装されたスタンドアロンアプリケーションであり得る。そのようなアプローチでは、アプリケーションの命令は、ローカルに(例えば、ストレージ308に)格納され、アプリケーションによって使用されるデータは、定期的にダウンロードされる(例えば、帯域外フィード、インターネットリソース、または別の適切なアプローチを使用して)。制御回路304は、ストレージ308からアプリケーションの命令を検索し、命令を処理して、本明細書で論じられる表示のいずれかを生成し得る。処理された命令に基づいて、制御回路304は、入力が入力インターフェース310から受信されたときに実行するアクションを決定し得る。例えば、ディスプレイ上のカーソルの上下の動きは、入力インターフェース310が上/下ボタンが選択されたことを示すとき、処理された命令によって示され得る。
【0041】
いくつかの実施形態では、アプリケーションは、クライアント/サーバーベースのアプリケーションである。ユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつに実装されたシックまたはシンクライアントによって使用されるデータは、ユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつに遠隔のサーバに要求を発行することによってオンデマンドで検索される。クライアント/サーバーベースのガイダンスアプリケーションの一例において、制御回路304は、リモートサーバから提供されるウェブページを解釈するウェブブラウザを実行する。例えば、リモートサーバはアプリケーションの命令をストレージデバイスに保存し得る。リモートサーバは、回路(例えば、制御回路304)を使用して記憶された命令を処理し、上記および以下で論じられるディスプレイを生成し得る。クライアントデバイスは、リモートサーバによって生成されたディスプレイを受信し、ディスプレイのコンテンツを機器デバイス300上でローカルに表示し得る。このように、命令の処理は、結果として生じるディスプレイが機器デバイス300上でローカルに提供される間、サーバによってリモートで実行される。機器デバイス300は、入力インターフェース310を介してユーザから入力を受信し、対応するディスプレイを処理および生成するためにそれらの入力をリモートサーバに送信し得る。例えば、機器デバイス300は、入力インターフェース310を介して上/下ボタンが選択されたことを示す通信をリモートサーバに送信し得る。リモートサーバは、その入力に従って命令を処理し、入力に対応するアプリケーションの表示を生成し得る(例えば、カーソルを上下に動かす表示)。次に、生成された表示は、ユーザに提示するために機器デバイス300に送信される。
【0042】
いくつかの実施形態では、アプリケーションは、ダウンロードされ、解釈されるか、さもなければ、インタプリタまたは仮想マシン(制御回路304によって実行される)によって実行される。いくつかの実施形態では、ガイダンスアプリケーションは、ETVバイナリ交換フォーマット(EBIF)で符号化され、適切なフィードの一部として制御回路304によって受信され、制御回路304上で実行されるユーザエージェントによって解釈され得る。例えば、ガイダンスアプリケーションは、EBIFアプリケーションであり得る。いくつかの実施形態では、ガイダンスアプリケーションは、ローカル仮想マシンまたは制御回路304によって実行される他の適切なミドルウェアによって受信かつ実行されるJAVA(登録商標)ベースのファイルの一連によって定義され得る。そのような実施形態のいくつか(例えば、MPEG-2または他のデジタルメディア符号化スキームを使用する実施形態)では、ガイダンスアプリケーションは、例えば、プログラムのMPEGオーディオおよびビデオパケットを用いて、MPEG-2オブジェクトカルーセルで符号化および送信され得る。
【0043】
図3のユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつは、ユーザテレビ機器402、ユーザコンピュータ機器404、無線ユーザ通信デバイス406、またはポータブルではないゲーム機などのコンテンツへのアクセスに適した他の任意の種類のユーザ機器として、図4のシステム400に実装され得る。簡潔にするために、これらのデバイスは、本明細書では集合的にユーザ機器またはユーザ機器デバイスと呼ばれ得、上記のユーザ機器デバイスと実質的に同様であり得る。ユーザ機器デバイスは、該ユーザ機器デバイス上にアプリケーションが実装され得るが、スタンドアロンデバイスとして機能し得るか、デバイスのネットワークの一部であり得る。デバイスのさまざまなネットワーク構成が実装され得るが、以下でより詳細に説明する。
【0044】
図3に関連して上記で説明したシステム機構の少なくともいくつかを利用するユーザ機器デバイスは、ユーザテレビ機器402、ユーザコンピュータ機器404、または無線ユーザ通信デバイス406のみとしては分類され得ない。例えば、ユーザテレビ機器402は、一部のユーザコンピュータ機器404と同様に、インターネットへのアクセスを可能にするインターネット対応であり得る一方で、ユーザコンピュータ機器404は、一部のテレビ機器402のように、テレビ番組へのアクセスを可能にするチューナを含み得る。アプリケーションは、さまざまな種類のユーザ機器で同じレイアウトを有し得るか、ユーザ機器の表示機能に合わせて調整され得る。例えば、ユーザコンピュータ機器404において、ガイダンスアプリケーションは、ウェブブラウザによってアクセスされるウェブサイトとして提供され得る。別の例では、ガイダンスアプリケーションは、ワイヤレスユーザ通信デバイス406のために縮小され得る。
【0045】
システム400では、通常、各種類のユーザ機器デバイスが複数存在するが、図面を過度に複雑にすることを避けるために、それぞれのうちの1つだけが図4に示されている。さらに、各ユーザは、ユーザ機器デバイスの複数の種類と、各種類のユーザ機器デバイスの複数とを利用し得る。
【0046】
いくつかの実施形態では、ユーザ機器デバイス(例えば、ユーザテレビ機器402、ユーザコンピュータ機器404、ワイヤレスユーザ通信デバイス406)は、「第2のスクリーンデバイス」と呼ばれ得る。例えば、第2のスクリーンデバイスは、第1のユーザ機器デバイス上に提示されるコンテンツを補足し得る。第2の画面デバイスに提示されるコンテンツは、第1のデバイスに提示されるコンテンツを補足する任意の適切なコンテンツであり得る。いくつかの実施形態では、第2のスクリーンデバイスは、第1のデバイスの設定および表示設定を調整するためのインターフェースを提供する。いくつかの実施形態では、第2のスクリーンデバイスは、他の第2のスクリーンデバイスと相互作用するために、またはソーシャルネットワークと相互作用するために構成されている。第2のスクリーンデバイスは、第1のデバイスと同じ部屋、第1のデバイスのとは異なるが同じ家もしくは建物内の別の部屋、または第1のデバイスのとは異なる建物に配置され得る。
【0047】
ユーザは、さまざまな設定を決めて家庭内デバイスとリモートデバイスと間で一貫したアプリケーション設定をも維持し得る。設定は、ここで説明する設定、チャネルとプログラムのお気に入り、ガイダンスアプリケーションがプログラミングの推奨を作成するために利用するプログラミング設定、好みの表示、およびその他の望ましいガイダンス設定を含む。例えば、ユーザがオフィスのパーソナルコンピュータのウェブサイトであるwww.Tivo.comなどでチャネルをお気に入りとして設定した場合、同じチャネルがユーザの家庭用デバイス(例えば、ユーザのテレビ機器およびユーザのコンピュータ機器)、ならびに必要に応じてユーザのモバイルデバイス上に現われる。そのため、あるユーザ機器デバイスで行われた変更は、それらが同じ種類であるか異なる種類のユーザ機器デバイスであるかに関係なく、別のユーザ機器デバイスでのガイダンスエクスペリエンスを変更し得る。さらに、行われる変更は、ユーザが入力した設定、およびガイダンスアプリケーションによって監視されるユーザクティビティに基づき得る。
【0048】
ユーザ機器デバイスは、通信ネットワーク414に結合し得る。すなわち、ユーザテレビ機器402、ユーザコンピュータ機器404、およびワイヤレスユーザ通信デバイス406は、それぞれ、通信経路408、410および412を介して通信ネットワーク414に結合される。通信ネットワーク414は、インターネット、携帯電話ネットワーク、モバイル音声もしくはデータネットワーク(例えば、4GまたはLTEネットワーク)、ケーブルネットワーク、公衆交換電話網、または他の種類の通信ネットワーク、あるいは通信ネットワークの組み合わせを含む1つ以上のネットワークであり得る。経路408、410および412は、別々にまたは一緒に、衛星経路、光ファイバー経路、ケーブル経路、インターネット通信をサポートする経路(例えば、IPTV)、自由空間接続(例えば、放送または他の無線信号用)、または他の適切な有線もしくは無線通信経路、あるいはそのような経路の組み合わせなどの1つ以上の通信経路を含み得る。経路412は、図4に示される例示的な実施形態においては、それが無線経路であることを示すために点線で描かれており、経路408および410は、それらが有線経路であることを示すために実線で描かれている(ただし、これらの経路は、必要に応じて無線経路であり得る)。ユーザ機器デバイスとの通信は、これらの通信経路のうちの1つ以上によって提供され得るが、図4では、図面が複雑になり過ぎることを避けるために、各デバイスとの間の単一の経路として示されている。
【0049】
通信経路は、ユーザ機器デバイス間では描かれていないが、これらのデバイスは、経路408、410、および412に関連して上記で説明したような通信経路、ならびにUSBケーブル、IEEE1394ケーブル、無線経路(例えば、Bluetooth(登録商標)、赤外線、IEEE402-11xなど)、あるいは有線もしくは無線経路を介する他の短距離通信などのその他の短距離ポイントツーポイント通信経路を介して互いに直接通信し得る。BLUETOOTH(登録商標)は、Bluetooth SIG、INCが所有する認証マークである。ユーザ機器デバイスは、通信ネットワーク414を介した間接経路を介して直接に相互通信をも行い得る。
【0050】
システム400は、リモートネットワーク424を含む。リモートネットワーク424は、コンテンツ配信のための複数のサーバおよびデバイスを含む、クラウドベースのネットワークであり得る。例えば、リモートネットワーク424は、オリジンサーバ417およびエッジサーバ419を含み得る。例えば、コンテンツ配信ネットワーク(CDN)は、1つ以上のオリジンサーバの負荷を軽減するために、エッジサーバに、戦略的なロケーション内にコンテンツを格納(キャッシュ)させ得る。画像、HTML、JavaScript(登録商標)ファイル(および場合によっては他のコンテンツ)などの静的アセットを要求元のクライアントマシンにできるだけ近づけることで、エッジサーバーキャッシュはウェブリソースの読み込みにかかる時間を短縮することが可能である。システム400は、通信経路420および422を介してそれぞれ通信ネットワーク414に結合されたコンテンツソース416およびメディアガイダンスデータソース418を含む。経路420および422は、経路408、410、および412に関連して上記の通信経路のいずれかを含み得る。コンテンツソース416とメディアガイダンスデータソース418との通信は、1つ以上の通信経路を介してなされ得るが、図面が複雑になり過ぎることを避けるために、図4においては経路420および422として示される。さらに、コンテンツソース416およびメディアガイダンスデータソース418の各々が2つ以上存在し得るが、図面が複雑になり過ぎることを避けるために、各々のうちの1つだけが図4に示されている。(これらのソースの各々の異なる種類については、以下で説明する。)必要に応じて、コンテンツソース416およびメディアガイダンスデータソース418は、1つのソースデバイスとして統合され得る。ソース416および418とユーザ機器デバイス402、404および406との間の通信は、通信ネットワーク414を介したものとして示されているが、いくつかの実施形態では、ソース416および418は、経路408、410、および412に関連して上記で説明された通信経路などの通信経路(図示せず)を介してユーザ機器デバイス402、404、および406と直接通信し得る。
【0051】
コンテンツソース416は、テレビ配信設備、ケーブルシステムヘッドエンド、衛星配信設備、プログラミングソース(例えば、NBC、ABC、HBOなどのテレビ放送局)、中間配信設備および/またはサーバ、インターネットプロバイダー、オンデマンドメディアサーバー、およびその他のコンテンツプロバイダーを含む1つ以上の種類のコンテンツ配信機器を含み得る。NBCは、National Broadcasting Company,Inc.が所有する商標であり、ABCは、American Broadcasting Company,Inc.が所有する商標であり、HBOは、Home
Box Office,Inc.が所有する商標である。コンテンツソース416は、コンテンツの発信者である場合(例えば、テレビ放送局、ウェブキャストプロバイダーなど)と、コンテンツの発信者ではない場合(例えば、オンデマンドコンテンツプロバイダー、ダウンロード用放送番組のコンテンツのインターネットプロバイダー、など)とがある。コンテンツソース416は、ケーブルソース、衛星プロバイダー、オンデマンドプロバイダー、インターネットプロバイダー、オーバーザトップコンテンツプロバイダー、または他のコンテンツプロバイダーを含み得る。コンテンツソース416はまた、任意のユーザ機器デバイスから離れた場所に、異なる種類のコンテンツ(ユーザによって選択されたビデオコンテンツを含む)を格納するために使用されるリモートメディアサーバを含み得る。コンテンツの遠隔格納および遠隔格納されたコンテンツのユーザ機器への提供のためのシステムおよび方法は、2010年7月20日に発行されたEllisらによる米国特許第7,761,892号に関連してより詳細に論じられ、参照によりその全体が本明細書に組み込まれる。
【0052】
メディアガイダンスデータソース418は、上記のメディアガイダンスデータなどのメディアガイダンスデータを提供し得る。メディアガイダンスデータは、任意の適切なアプローチを使用してユーザ機器デバイスに提供され得る。いくつかの実施形態では、ガイダンスアプリケーションは、データフィード(例えば、連続フィードまたはトリクルフィード)を介して番組ガイドデータを受信するスタンドアロンの双方向テレビ番組ガイドであり得る。プログラムスケジュールデータおよび他のガイダンスデータは、インバンドデジタル信号を使用して、アウトオブバンドデジタル信号を使用して、または他の任意の適切なデータ送信技術によって、テレビチャンネル側波帯でユーザ機器に提供され得る。プログラムスケジュールデータおよび他のメディアガイダンスデータは、複数のアナログまたはデジタルテレビチャンネルでユーザ機器に提供され得る。
【0053】
いくつかの実施形態では、メディアガイダンスデータソース418からのガイダンスデータは、クライアント/サーバーアプローチを使用してユーザの機器に提供され得る。例えば、ユーザ機器デバイスは、サーバからメディアガイダンスデータをプルし得、あるいは、サーバは、メディアガイダンスデータをユーザ機器デバイスにプッシュし得る。いくつかの実施形態では、ユーザの機器に常駐するガイダンスアプリケーションクライアントは、必要なときに、例えば、ガイダンスデータが古くなったとき、またはユーザ機器デバイスがユーザからデータを受信するために要求を受信したときに、ソース418とのセッションを開始してガイダンスデータを取得し得る。メディアガイダンスは、任意の適切な頻度でユーザ機器に提供され得る(例えば、ユーザ機器からの要求に応じて、継続的に、毎日、ユーザ指定の期間、システム指定の期間など)。メディアガイダンスデータソース418は、ユーザ機器デバイス402、404、および406に、アプリケーション自体またはアプリケーションのソフトウェアアップデートを提供し得る。
【0054】
いくつかの実施形態では、メディアガイダンスデータは、視聴者データを含み得る。例えば、視聴者データは、現在および/または過去のユーザ活動情報(例えば、ユーザが通常見ているコンテンツ、ユーザがコンテンツを見る時間帯、ユーザがソーシャルネットワークと対話するかどうか、ユーザがソーシャルネットワークと対話して情報を投稿する時間、ユーザが通常視聴する種類のコンテンツ(例えば、有料テレビまたは無料テレビ)、気分、脳活動情報、など)を含み得る。メディアガイダンスデータは、サブスクリプションデータをも含み得る。例えば、サブスクリプションデータは、特定のユーザがサブスクライブするソースまたはサービス、および/または特定のユーザが以前にサブスクライブしたが後でアクセスを終了したソースまたはサービスを識別し得る(例えば、ユーザがプレミアムチャネルをサブスクライブするかどうか、ユーザがプレミアムレベルのサービスを追加したかどうか、ユーザがインターネット速度を上げたかどうか)。いくつかの実施形態では、視聴者データおよび/またはサブスクリプションデータは、1年を超える期間の所与のユーザのパターンを識別し得る。メディアガイダンスデータは、所与のユーザがサービス/ソースへのアクセスを終了する可能性を示すスコアを生成するために使用されるモデル(例えば、生存者モデル)を含み得る。例えば、アプリケーションは、モデルを使用してサブスクリプションデータで視聴者データを処理し、特定のユーザが特定のサービスまたはソースへのアクセスを終了するかどうかの可能性を示す値またはスコアを生成し得る。特に、スコアが高いほど、ユーザが特定のサービスまたはソースへのアクセスを終了するという信頼度が高いことを示し得る。スコアに基づいて、アプリケーションは、ユーザがアクセスを終了する可能性が高いとスコアによって示される特定のサービスまたはソースについて、それらを維持させるようにユーザを誘導するプロモーションを生成し得る。
【0055】
アプリケーションは、例えば、ユーザ機器デバイスに実装されたスタンドアロンアプリケーションであり得る。例えば、アプリケーションは、ストレージ308に格納され、ユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつの制御回路304によって実行され得るソフトウェアまたは実行可能命令のセットとして実装され得る。いくつかの実施形態では、アプリケーションは、クライアントアプリケーションのみがユーザ機器デバイスに存在し、サーバーアプリケーションがリモートサーバに存在するクライアント/サーバーアプリケーションであり得る。例えば、アプリケーションは、ユーザ機器デバイス300およびユーザ機器システム301のそれぞれ1つずつの制御回路304上のクライアントアプリケーションとして部分的に実装され得、かつリモートサーバの制御回路上で実行されるサーバーアプリケーション(例えば、メディアガイダンスデータソース418)として、リモートサーバ上にて部分的に実装され得る。リモートサーバの制御回路(メディアガイダンスデータソース418など)によって実行される場合、アプリケーションは、制御回路に命令することによりガイダンスアプリケーション表示を生成させ、生成された表示をユーザ機器デバイスに送信させ得る。サーバーアプリケーションは、メディアガイダンスデータソース418の制御回路に命令することにより、ユーザ機器に格納するためのデータを送信させ得る。クライアントアプリケーションは、受信するユーザ機器の制御回路に命令することにより、ガイダンスアプリケーション表示を生成させ得る。
【0056】
ユーザ機器デバイス402、404、および406に配信されるコンテンツおよび/またはメディアガイダンスデータは、オーバーザトップ(OTT)コンテンツであり得る。OTTコンテンツ配信により、上記のあらゆるユーザ機器デバイスを含むインターネット対応のユーザデバイスは、ケーブルまたは衛星接続を介して受信したコンテンツに加えて、上記のあらゆるコンテンツを含むインターネットを介して転送されるコンテンツを受信することが可能となる。OTTコンテンツは、インターネットサービスプロバイダー(ISP)が提供するインターネット接続を介して配信されるが、サードパーティがコンテンツを配信する。ISPは、コンテンツの視聴能力、著作権、または再配布について責任を負わない場合があり、OTTコンテンツプロバイダーによって提供されたIPパケットのみを転送し得る。OTTコンテンツプロバイダーの例は、IPパケットを介してオーディオとビデオを提供する、YOUTUBE(登録商標)、NETFLIX、およびHULUを含む。YouTube(登録商標)はGoogle Inc.が所有する商標であり、NetflixはNetflix Inc.が所有する商標であり、HuluはHulu,LLCが所有する商標である。OTTコンテンツプロバイダーは、追加的または代替的に、上記のメディアガイダンスデータを提供し得る。コンテンツおよび/またはメディアガイダンスデータに加えて、OTTコンテンツのプロバイダーは、アプリケーション(例えば、ウェブベースのアプリケーションまたはクラウドベースのアプリケーション)の配布が可能であり、あるいは、ユーザ機器デバイスに保存されたアプリケーションによってコンテンツが表示可能である。
【0057】
メディアガイダンスシステム400は、コンテンツにアクセスし、メディアガイダンスを提供する目的で、ユーザ機器デバイスとコンテンツおよびガイダンスデータのソースが互いに通信し得るいくつかのアプローチまたはネットワーク構成を例示することを意図している。本明細書に記載の実施形態は、これらのアプローチのいずれか1つまたはサブセットにおいて、またはコンテンツを配信しメディアガイダンスを提供するための他のアプローチを採用するシステムにおいて適用され得る。以下の4つのアプローチは、図4の一般化された例の特定の例示を提供する。
【0058】
1つのアプローチでは、ユーザ機器デバイスは、ホームネットワーク内で互いに通信し得る。ユーザ機器デバイスは、上記の短距離ポイントツーポイント通信スキームを介して、ホームネットワーク上に提供されるハブまたは他の同様のデバイスを介する間接経路を介して、または通信ネットワーク414を介して互いに直接通信し得る。単一のホーム内における複数の個人の各々は、ホームネットワーク上での異なるユーザ機器デバイスを操作し得る。結果として、様々なメディアガイダンス情報または設定が異なるユーザ機器デバイス間で通信されることが望ましい場合がある。例えば、ユーザは、ホームネットワーク内の異なるユーザ機器デバイス上で一貫したアプリケーション設定を維持することが望ましい場合があり、これは2005年7月11日に出願されたEllisらによる米国特許公開第2005/0251827号に詳細に記載されており、参照によりその全体が本明細書に組み込まれる。ホームネットワーク内のさまざまな種類のユーザ機器デバイスは、コンテンツを送信するために相互に通信もし得る。例えば、ユーザは、ユーザのコンピュータ機器から携帯ビデオプレーヤーまたは携帯音楽プレーヤーにコンテンツを送信し得る。
【0059】
2番目のアプローチでは、ユーザは、コンテンツにアクセスしてメディアガイダンスを取得するための複数種類のユーザ機器を有し得る。例えば、一部のユーザは、家庭内およびモバイルデバイスからアクセスされるホームネットワークを有し得る。ユーザは、リモートデバイスに実装されたアプリケーションを介して家庭内デバイスを制御し得る。例えば、ユーザは、オフィスのパーソナルコンピュータ、またはPDAやウェブ対応携帯電話などのモバイルデバイスを介して、ウェブサイト上のオンラインアプリケーションにアクセスし得る。ユーザは、オンラインガイダンスアプリケーション上で様々な設定(例えば、録音、リマインダー、または他の設定)を設定して、ユーザの家庭用機器を制御し得る。オンラインガイドは、直接、またはユーザの家庭内機器上のアプリケーションを用いた通信によって、ユーザの機器を制御し得る。ユーザ機器デバイス同士が互いに離れた場所にある場合の、ユーザ機器デバイスが通信するための様々なシステムおよび方法は、例えば、2011年10月25日に発行されたEllisの米国特許第8,046,801号に記載されており、参照によりその全体が本明細書に組み込まれる。
【0060】
第3のアプローチでは、家の内外のユーザ機器デバイスのユーザは、アプリケーションを使用して、コンテンツソース416と直接通信し、コンテンツにアクセスし得る。具体的には、家庭内で、ユーザテレビ機器402およびユーザコンピュータ機器404のユーザは、アプリケーションにアクセスして、コンテンツ間をナビゲートし、望ましいコンテンツを探し出し得る。ユーザはまた、無線ユーザ通信デバイス406を使用して家の外のアプリケーションにアクセスして、コンテンツ間をナビゲートし、望ましいコンテンツを探し出し得る。
【0061】
第4のアプローチでは、ユーザ機器デバイスは、クラウドコンピューティング環境で動作して、クラウドサービスにアクセスし得る。クラウドコンピューティング環境では、コンテンツの共有、保存または配布のためのコンピューティングサービスの様々な種類(例えば、動画共有サイトやソーシャルネットワーキングサイト)は、ネットワークアクセス可能なコンピューティングおよびストレージリソースの集合によって提供され、「クラウド」と呼ばれている。例えば、クラウドは、通信ネットワーク414を介するインターネットなどのネットワークを介して接続された様々な種類のユーザおよびデバイスにクラウドベースのサービスを提供する、中央または分散した場所に配置され得るサーバコンピューティングデバイスのコレクションを含むことができる。これらのクラウドリソースは、1つ以上のコンテンツソース416および1つ以上のメディアガイダンスデータソース418を含み得る。さらにまたは代替として、リモートコンピューティングサイトは、ユーザテレビ機器402、ユーザコンピュータ機器404、ワイヤレスユーザ通信デバイス406などの他のユーザ機器デバイスを含み得る。例えば、他のユーザ機器デバイスは、ビデオまたはストリーミングされたビデオの格納されたコピーへのアクセスを提供し得る。そのような実施形態では、ユーザ機器デバイスは、中央サーバと通信することなく、ピアツーピア方式で動作し得る。
【0062】
クラウドは、ユーザ機器デバイスのために、いくつかある例の中でもとりわけ、コンテンツストレージ、コンテンツ共有、ソーシャルネットワーキングサービスなどのサービスへのアクセス、および上記のコンテンツへのアクセスを提供する。サービスは、クラウドコンピューティングサービスプロバイダーを通じて、またはオンラインサービスの他のプロバイダーを通じてクラウドで提供できる。例えば、クラウドベースのサービスには、コンテンツストレージサービス、コンテンツ共有サイト、ソーシャルネットワーキングサイト、または接続されたデバイスで他のユーザが視聴するためにユーザソースのコンテンツを配布するその他のサービスを含み得る。これらのクラウドベースのサービスにより、ユーザ機器デバイスは、コンテンツをローカルに保存してローカルに保存されたコンテンツにアクセスするのではなく、コンテンツをクラウドに保存し、かつクラウドからコンテンツを受信することが可能となる。
【0063】
ユーザは、カムコーダー、ビデオモードのデジタルカメラ、オーディオレコーダー、携帯電話、ハンドヘルドコンピューティングデバイスなどのさまざまなコンテンツキャプチャデバイスを使用して、コンテンツを記録し得る。ユーザは、コンテンツキャプチャ機構を有するユーザコンピュータ機器404または無線ユーザ通信デバイス406から、例えば、直接クラウド上のコンテンツストレージサービスにコンテンツをアップロードできる。あるいは、ユーザは、最初に、コンテンツを、ユーザコンピュータ機器404などのユーザ機器デバイスに転送し得る。コンテンツを格納するユーザ機器デバイスは、通信ネットワーク414上のデータ送信サービスを使用して、コンテンツをクラウドにアップロードする。いくつかの実施形態では、ユーザ機器デバイス自体はクラウドリソースであり、他のユーザ機器デバイスは、ユーザがコンテンツを保存したユーザ機器デバイスから直接コンテンツにアクセスできる。
【0064】
クラウドリソースは、例えば、ウェブブラウザ、アプリケーション、デスクトップアプリケーション、モバイルアプリケーション、および/またはそれらのアクセスアプリケーションの任意の組み合わせを使用して、ユーザ機器デバイスによってアクセスされ得る。ユーザ機器デバイスは、アプリケーション配信をクラウドコンピューティングに依存するクラウドクライアントであり得、または、ユーザ機器デバイスは、一部クラウドリソースにアクセスできない機能を有し得る。例えば、ユーザ機器デバイス上で実行されるいくつかのアプリケーションは、クラウドアプリケーション、すなわち、インターネットを介してサービスとして配信されるアプリケーションであり得、他のアプリケーションは、ユーザ機器デバイス上で格納および実行され得る。いくつかの実施形態では、ユーザデバイスは、複数のクラウドリソースからコンテンツを同時に受信し得る。例えば、ユーザデバイスは、2番目のクラウドリソースからコンテンツをダウンロードしながら、1つのクラウドリソースからオーディオをストリーミングできる。または、ユーザデバイスは、より効率的なダウンロードのために、複数のクラウドリソースからコンテンツをダウンロードできる。いくつかの実施形態では、ユーザ機器デバイスは、図3に関連して説明された処理回路によって実行される処理操作などの処理操作のためにクラウドリソースを使用できる。
【0065】
本明細書に記載の方法およびシステムは、セマンティックグラフと機械学習の組み合わせを使用して、構造化データを自動的に生成し、重要なエンティティ/キーワードを認識し、より関連性の高い検索結果と推奨事項を生成する加重接続を作成する。より関連性の高い検索結果と推奨が達成される速度の例を図5に示す。図5は、上位10,000本の映画の手動でキュレーションされたリストのテスト分割を伴う例示的なモデルの結果表(表500)である。表には、グラフ機構を使用した場合と使用しない場合のディシジョンツリー分類子を実行したときの精度、再現率、およびF1スコアが含まれている。F1スコアは、精度と再現率(以下で説明)を考慮して実行されるテストの精度の尺度である。精度は、正しい肯定的な結果の数を分類子によって返されるすべての肯定的な結果の数で割ったものである。再現率は、正しい肯定的な結果の数を、関連するすべてのサンプル(肯定的と識別されるべきであったすべてのサンプル)の数で割ったものである。次に、精度と再現率の調和平均を取得して、F1スコアを作成する。F1スコアの範囲は1(完全な精度と再現率を示す)から0である。示されているように、再現率はグラフ機構のないモデルで高く、グラフ機構のないモデルは高品質エンティティと低品質エンティティとの間で区別ができないため、予想どおり精度は低くなる。従って、ここで説明するセマンティックグラフを使用することにより、検索、推奨、および発見機構は、より高い精度とF1スコアで結果を取得することが可能である。例えば、セマンティックグラフを使用して、システムは、より関連性の高いリクエストを返すためにエンティティ(例えば、映画内または映画に関するキーワード、映画内のオブジェクト、キープロットポイントなど)をランク付けできるが、特定のキーワードに関連するエンティティの領域を決定することもできる。エンティティはセマンティックグラフのノードに対応し得、これらのノードの各々は、より高くまたはより低く評価され得る。
【0066】
図5において、システムは、モデルの結果を手動でキュレーションされたエンティティのリストと比較することにより、モデルの精度と再現率を測定する。システムは、マシン生成エンティティの総数(K)に対する手動でキュレーションされたリスト(N)に一致するマシン生成エンティティの数の比率として精度を定義する。
【数1】

再現率は、システムによって、手動でキュレーションされたエンティティの数(M)に対するモデルによって抽出された手動でキュレーションされたエンティティ(N)の比率として測定される。
【数2】
【0067】
図6は、検索、推奨を提供するために使用されるアーキテクチャの例示的な例であり、ここに発見機構が記載される。図6に示すように、システムはデータセットを収集し、主要なエンティティおよびそれらの関連を識別するセマンティックグラフを生成する。データセットおよびセマンティックグラフからの特徴は、機械学習モデルを介して流れ、最も文脈的に重要なエンティティを推測する。このプロセスは、代名詞の変換、候補の識別、セマンティックグラフの作成、およびユーザ入力の処理の4つの段階を伴う。
【0068】
ステップ602では、システムはデータセットを収集する。例えば、ユーザは、既知のデータセットからテキスト文字列を入力し得る。追加的または代替的に、システムは、ウェブクローラーを使用してデータを収集し、データセットにデータを取り込み得る。いくつかの実施形態では、セマンティックグラフを構築するために、システムは特定のデータセットでトレーニングされる。データセットは、システムが受け取る可能性のある入力に基づいて選択される。特に、システムは、典型的な会話のユーザトーンを反映するデータでトレーニングされる。適切なトーンを特徴とする対話を得るために、選択されたデータセットは、ユーザーコラボレーションに基づくコンテンツやユーザが生成/変更したコンテンツなどの特定の基準を特徴とするデータセットに基づいている。いくつかの実施形態では、コンテンツは、データ収集を容易にするために、簡略化されたマークアップ言語を特徴とするフォーラムからさらに選択される。例えば、システムはwikiウェブサイトからデータをプルし得る。これらのソースからのデータを使用することにより、システムはモデルのトレーニングを改善して、ユーザからの要求の典型的なトーンを反映させることができる。
【0069】
追加または代替として、システムは、ユーザクエリの典型的な会話コンテンツを反映するデータでトレーニングされる。特に、システムは、wikiプロットセクション、概要セクション、プロットセクションのカテゴリ参照、およびプロットからの名詞チャンクからデータセットを取得し得る。これらの特定の種類のデータを使用することにより、システムはモデルのトレーニングを改善して、ユーザからの要求の典型的な内容を反映させることができる。
【0070】
次に、データセットは、トレーニングデータと検証データの70:30の比率に分割されて、トレーニングモデルを構築できる。例えば、モデルはトレーニングデータセットでトレーニングされ得る。トレーニングデータセットは、検索結果や推奨事項の重要なエンティティ/キーワードの認識や重み付き接続の作成など、モデルのパラメータ(セマンティックグラフ内のノード間の接続の重みなど)を表す。次に、モデル(例えば、ニューラルネットまたは単純ベイズ分類子)は、監督学習法(例えば、勾配降下法または確率的勾配降下法)を使用してトレーニングデータセットでトレーニングされる。例えば、システムは、推論されたエンティティが所与の検索要求に関連するかどうかを決定し得る。モデルがトレーニングデータセットでトレーニングされ、結果が生成されると、システムは結果を実際の結果(またはターゲット結果)と比較できる。比較の実際の結果と使用されている特定の学習アルゴリズムとに基づいて、モデルのパラメータが調整される。反復プロセスを通じて、システムはトレーニングされたモデルに適合し、ユーザの検索クエリで検索結果や推奨に含まれる可能性のある重要なエンティティ/キーワードを予測する。
【0071】
ステップ604では、システムは代名詞変換を実施する。代名詞の変換は、リッチで正確なセマンティックグラフに必要なエンティティの関係を識別するために重要である。プロセスのこのステップでは、システムはテキスト文字列内の文全体のすべての代名詞を変換する。例えば、システムは、エンドツーエンドのニューラル同一指示変換のPython実装を使用し得、これにより、代名詞が参照する名詞または固有名詞(例えば、「名詞チャンク」)を決定できる。
【0072】
同一指示は、テキスト内の2つ以上の表現(代名詞、句、オブジェクトなど)が同じもの(固有名詞など)を参照している場合に発生する。例えば、「ビルは彼が来るだろうと言った」というテキスト文字列において、固有名詞「ビル」と代名詞「彼」は同一人物、つまりビルを指す。同一指示は、構文の分野における結合現象の根底にある主要な概念である。いくつかの実施形態では、システムは、代名詞を変換するためのニューラルネットワークを開発し得る。例えば、システムは、制御回路304を介して、「ジョンはメアリーを助けた。彼は医者です。」というテキスト文字列を受信し得る。システムは代名詞を変換して、「ジョンはメアリーを助けた。ジョンは医者です。」という変換されたテキスト文字列を作成し得る。
【0073】
従来のシステムでは、システムは最初に入力ドキュメントをレビューして、エンティティ(代名詞など)の言及を検出する。次に、システムは、各代名詞クラスターが同じ固有名詞に対応するように、エンティティ(代名詞など)をクラスター化する。これらのステップを実施するために、システムは、検出とクラスタリングのために、パーサーと前処理に依存し得る。エンドツーエンドのニューラル同一指示では、システムはエンティティ間のすべてのスパンを考慮し、エンティティ間のスパンをランク付けし、検索スペースを整理するための因数分解モデルを作成する。次に、システムは、高い確率で、所与の代名詞が参照する名詞チャンクを検出し得る。
【0074】
スパンランキングについては、システムは入力ドキュメントの各スパンを処理し、すべてのスパンに先行詞を割り当てる。一部の場合、システムは暗黙のスパンを作成する。結果として得られるクラスターにより、システムは次の3つの種類のスパン、i)以前に言及がなかったスパン、ii)以前にリンクのない言及、およびiii)予測された同一指示リンクを有するスパン、を識別する。スパン毎に、システムは独立した決定を行い、2つのスパン間の同一指示の可能性を決定するペアワイズ同一指示スコアを適用する。次に、システムは、最も高いスコアを伴うペアに基づいて先行詞を決定する。エンドツーエンドの相互会議に関する追加の議論は、Leeによる、2017、End-to-end Neural Coreference Resolution、In Proceedings of Empirical Methods in Natural Language Processing(EMNLP2017)、pp.188-197において見つけることができ、参照によりその全体が本明細書に組み込まれる。
【0075】
ステップ606では、システムは、(例えば、制御回路304を介して)候補の識別を実施する。例えば、システムは、処理されたテキストにPOS(品詞)タグを適用して、すべての名詞チャンクをセマンティックグラフのノードとして識別し得る。品詞タグ付け(POSタグ付けまたはPoSタグ付けまたはPOST)は、文法タグ付けまたは単語カテゴリの明確化とも呼ばれるが、テキスト(コーパス)内の単語を、その定義と文脈(つまり、フレーズ、文、または段落内の隣接する関連単語との関係)の両方に基づいて、特定の品詞に対応するものとしてマークアップするプロセスである。
【0076】
例えば、セマンティックグラフを作成するために、システムはテキスト内の各単語の単語カテゴリを決定し得る。単語カテゴリは、8つの品詞(たとえば、名詞、動詞、形容詞、副詞、前置詞、接続詞(調整接続詞、従属接続詞、接続詞副詞、相関接続詞を含む)および/または間投詞)の各々を含み得る。これらの品詞、およびセマンティックグラフの各単語の品詞を示すメタデータ(つまり、概念)は、システムによって使用されることにより、単語(例えば、グラフ内のノードを表す)を結合して解釈可能な文を作成する方法を決定する。いくつかの実施形態では、品詞タグ付けは、一連の記述タグに従って、隠れた品詞、および離散的な用語を関連付けるアルゴリズムを使用して計算言語学の文脈で行われる。品詞タグ付けアルゴリズムは、ルールベースと確率論の2つの特徴的なグループに分類される。ルールベースの品詞タグ付けの場合、システムは一連の手動ルールを使用して手動で構築される。例えば、システムは、タグ付けされた単語の前にある単語が、if-thenステートメントを通じて特定の方法でタグ付けされることを示すルールを含み得る。統計的(または確率的)品詞タグ付けは、各単語が既知であり、可能なタグの有限セットを持っていることを前提としている。これらのタグは、辞書または形態素解析から引き出すことができる。例えば、単語に複数の可能なタグがある場合、システムは統計的手法を使用して品詞タグのシーケンスを決定し得る。システムは、ルールベースと確率論を組み合わせたハイブリッドアプローチをも使用し得る。最後に、いくつかの実施形態では、品詞タグ付けは手動で実行され得ることに留意されたい。
【0077】
品詞タグ付けを実施するために、システムは高度な自然言語処理用のソフトウェアライブラリを使用し得る。いくつかの実施形態では、システムは、SpaCy、すなわち高度な自然言語処理用のPythonライブラリを使用して、品詞タグ付け機能を通じて識別を強化し得る。品詞タグ付けに加えて、システムは、非破壊トークン化、名前付きエンティティ認識、複数言語の統計モデル、事前トレーニング済みの単語ベクトル、ラベル付き依存関係解析、構文駆動型文セグメンテーション、テキスト分類、構文および名前付きエンティティ用の組み込みビジュアライザー、および/またはディープラーニング統合などの追加機構を使用し得る。
【0078】
ステップ608では、システムはセマンティックグラフを作成する。セマンティックグラフは、ネットワーク内の概念間の意味関係を表す知識ベースである。システムは、知識表現の形式としてセマンティックグラフを使用する。これは、概念および/またはエンティティを表し得るノードと、概念および/またはエンティティ間の意味関係を表すエッジとから成る有向(例えば、エッジによって接続された頂点のセットで構成されたグラフであり、エッジは頂点に関連付けられた方向を有する、グラフ)および/または無向グラフである。以下で説明されるが、図7は、例示的なセマンティックグラフを提供する。例えば、テキスト文字列(「Jack is a doctor.」)に表示される候補(「Jack」、「doctor」など)の各々について、セマンティックグラフはこれらの用語間の関係を示し得る。そのような例では、候補はセマンティックグラフの頂点を表し得、候補間の関係(例えば、「is」)は、セマンティックグラフのエッジによって表される。さらに、第2のテキスト文字列(例えば、「He has an office on First Street.」)では、セマンティックグラフは、「He」という用語と「Jack」という用語の関係を示し得る。これらの用語間の関係は、セマンティックネットワークを作成する(品詞タグ付けに基づいて作成された)依存関係ツリーを織り交ぜながら依存関係ツリーをトラバースすることによって見つけられ得る。例えば、いくつかの実施形態では、システムは、接続が動詞を介してであり、無向グラフ(すなわち、エッジが全く配向を有していないグラフ)は、これらのエッジを使用して作成される。セマンティックグラフ700では、「Jack」と「doctor」は「is」で結ばれている。依存関係ツリーでは、「is」は「Jack」と「doctor」という用語を結び付ける。
【0079】
いくつかの実施形態では、依存関係ツリーは、いくつかの文脈自由文法に従って、文字列の構文構造を表し得る。依存関係ツリーは、構成文法の構成関係(句構造文法)または依存関係文法の依存関係のいずれかに基づいて構築され得る。依存関係ツリーは、自然言語の文、およびプログラミング言語などのコンピュータ言語の処理中に生成され得る。
【0080】
いくつかの実施形態では、システムは、ディシジョンツリー分類子およびランダムフォレスト分類子を使用してトレーニングする。ディシジョンツリー分類子はフローチャートのような構造であり、各内部(非リーフ)ノードは属性のテストを示し、各ブランチはテストの結果を表し、各リーフ(またはターミナル)ノードはクラスラベルを保持する。ツリーの最上位ノードはルートノードである。ランダムフォレスト分類子は、トレーニング時に多数のディシジョンツリーを構築し、個々のツリーのクラスのモード(分類)または平均予測(回帰)であるクラスを出力することによって動作し得る。ランダムデシジョンフォレストは、ディシジョンツリーがトレーニングセットに過剰適合する習慣を修正する。システムは任意のディシジョンツリーアルゴリズムを実装し得ることに留意されたい。
【0081】
セマンティックグラフは、グラフのノードによって定義される。各ノードは、その中心性によってさらに定義される。4種類の中心性は、程度、近接、中間性、および入次数を含む。程度と入次数の中心性とは対照的に、セマンティックグラフはその近接と中間性によって定義される。例えば、計算中に、システムは、(例えば、制御回路304を介して)近接中心性および中間中心性に基づいてグラフ機構を決定する。近接中心性に関して、ノードの近接中心性(または近接)は、ネットワーク内の中心性を測定するが、これは、グラフ内のノードと他のすべてのノードとの間の最短経路の長さの合計として計算される。従って、ノードが中心にあるほど、他のすべてのノードに近くなる。ノードC(x)の近接中心性は、次のように表される。
【数3】

式中、d(y、x)は、ノードxおよびyの間の距離であり、Nはノードの数を表す。
【0082】
中間中心性に関して、「中間」中心性は、最短経路に基づくグラフの中心性の尺度である。接続されたグラフ内のノードのペア毎に、ノード間に少なくとも1つの最短経路が存在し、故に、経路が通過するエッジの数(重み付けされていないグラフの場合)またはエッジの重みの合計(重み付けされたグラフの場合)のいずれかが最小化される。各ノードに対する中間中心性は、頂点を通過するこれらの最短経路の数である。中間中心性g(v)は次のように表される。
【数4】

式中、Vはノードのセットであり、σ(s、t)は最短(c、t)経路の数であり、σ(s、t/v)はs、t以外の一部のノードvを通過する経路の数である。式中、s==tの場合、σ(s、t)=1であり、vestの場合、σ(s、t/v)=0である。
【0083】
セマンティックグラフがトレーニングされた後、システムは(例えば、制御回路304を介して)セマンティックグラフを使用し始めることにより、ユーザ入力を分析し、ユーザ応答を識別し得る。例えば、このプロセスは、図14に関連して以下で説明される。ステップ610において、システムは(例えば、制御回路304を介して)、ユーザ入力を受信する。ユーザ入力は、ユーザの発話、またはユーザ入力インターフェース(例えば、ユーザ入力インターフェース310)を介して受信されたテキスト文字列であり得る。システムは、ユーザの発話に対して音声からテキストへの処理などの操作を実施して、発話に対応するテキスト文字列を取得し得る。システムは、ユーザ入力を成分へと(例えば、候補、および8つの品詞へと)さらなる処理のためにさらに分解し得る。
【0084】
ステップ612では、システムは、ステップ608で作成されたセマンティックグラフを使用してユーザ入力を処理する。システムは、ユーザ入力からの候補をセマンティックグラフ内のノードに照合し得る。例えば、ユーザ入力が「Jack is a doctor. He has an office on First Street」というテキスト文字列の場合、システムは、候補である「Jack」、「doctor」、「office」、および「First Street」をセマンティックグラフのノードに一致させ得る。さらに、候補間の関係(例えば、「is」)は、セマンティックグラフのエッジによって表される。これらの関係は、「is」、「has」、「on」などの単語で示され得る。セマンティックグラフは、更に用語「he」と「Jack」との間の関係を示し得る。これらの用語間の関係は、依存関係ツリーをトラバースすることで見つけられ得る。セマンティックグラフ700では、「Jack」と「doctor」は「is」で結ばれている。依存関係ツリーでは、「is」は「Jack」と「doctor」という用語を結び付ける。
【0085】
ステップ614では、システムは、処理されたユーザ入力に基づいて出力を生成する。システムは、ステップ612で完了した処理を使用して、ユーザ入力(例えば、ステップ612で受信されたユーザ入力)の成分に関連するエンティティを決定し得る。システムは、セマンティックグラフをトラバースして、ユーザ入力を表すノードに密接に関連付けられているノードを決定し得る。例えば、システムは、ユーザ入力ノード間のギャップを埋めるノードを識別し得る。システムは、識別されたノードとノードを接続するエッジとを含む出力を構成し得る。出力は、ユーザ入力で提起された質問への回答を含む場合もあれば、ユーザ入力を拡張する追加情報を含む場合もある。出力は、ステートメント、追加リソースへのリンク、またはその他の形式の出力であり得る。
【0086】
図7は、例示的なセマンティックグラフ700を提供する。例えば、テキスト文字列(「Jack wanted to learn more about Mary.」)に現れている候補の各々に対して、システムは、spaCyを使用して作成された依存関係ツリーをトラバースすることにより、テキスト文字列内の単語が接続されているかどうかを確認する。いくつかの実施形態では、システムは、接続が動詞を介していると判断し、これらのエッジを使用して無向グラフが作成される。セマンティックグラフ700では、「Jack」と「Mary」は動詞「wanted」と「learn」で接続されている。
【0087】
いくつかの実施形態では、依存関係ツリーは、いくつかの文脈自由文法に従って、文字列の構文構造を表し得る。依存関係ツリーは、構成文法の構成関係(句構造文法)または依存関係文法の依存関係のいずれかに基づいて構築され得る。依存関係ツリーは、自然言語の文、およびプログラミング言語などのコンピュータ言語の処理中に生成され得る。
【0088】
依存関係ツリーは、テキスト文字列内の各候補の品詞タグを含む。例えば、「Jack」は「PROPN」とラベル付けされており、これはJackが固有名詞であることを示す。依存関係ツリーは、円弧を用いて依存関係ツリー内の単語を接続する。各円弧は「頭」と「子」を有し、依存関係を示している。すなわち、子は頭に依存している。図7では、例えば、「wanted」と「learn」は円弧で接続されており、「wanted」が頭であり、一方で、「learn」は子であり「wanted」に依存している。円弧はさらに修飾を示す。すなわち、子が頭を修飾する。例えば、「more」は「learn」の子であり、「more」が「learn」を修飾することを示す。依存関係ツリーの各単語は、正確に1つのヘッドを有する。各単語には、子がない場合を含め、任意の数の子を有し得る。
【0089】
各円弧は、子を頭に接続する構文関係の種類を示すラベルを割り当てられ得る。例えば、図7では、「wanted」は「xcomp」とラベル付けされたアークによって「learn」に接続されており、これは、「learn」が「wanted」のオープンな節の補足であることを示している。
【0090】
従って、文字列の意味は、品詞タグと単語間の構文関係を示す円弧とに分解される。図7の依存関係ツリーなどの依存関係ツリーをトラバースすることは、文字列内の単語がどのように接続されているかを明らかにする。
【0091】
図8~10は、システムによって抽出されたエンティティと配役の例示的な例を示す。簡素に表現するために、低スコアのノードは削除されている。図8は、映画「Pulp Fiction」に対応する。システムは、エンティティ「Briefcase」のスコアが高いと判断する(プロットを動かしているのがMcGuffinであるため)が、これは、TF-IDFなどの統計モデルで表示するのは困難であり得る。「Briefcase」のような一般的な用語のTF-IDFスコアは非常に低く、統計モデルは映画の文脈におけるフレーズの意味的関連性を把握できない。図9は、映画「Dr. Strangelove」に対応する。システムは、「Russia」、「CRM-114」、「Water Fluoridation」などの重要なエンティティを特定したが、これらはすべて、従来のモデルでは抽出され得なかったものである。映画のプロットに不可欠な配役がより高いスコアを受け取ることも見受けられる。
【0092】
図10は、ニュース記事「Sending Tesla Roadster to Mars」に適用されているシステムの例示的な例である。システムは、「ノイズ」、すなわち「Kevin Anderson」、「bio threat」、「Harry Potter」、「bacteria」などの重要でないキーワードを削除しながら、「Tesla Roadster」、「Elon Musk」、「Mars」、「Starman」などのエンティティを正常に抽出した。
【0093】
図11は、図1に記載された使用に対応する方法およびシステムの適用を例示する。図11において、インタフェースユーザ1100は、表示デバイスに表示されている。ユーザインターフェース1100は、(例えば、ユーザ入力インターフェースへのユーザ入力を介して)テキスト文字列を受信している。これに応答して、システムはプログラム推奨を表示用に生成している。次の例は、セマンティックグラフのキーワードがコンテンツのより深い理解を示し、より豊かな検索エクスペリエンスを提供する方法を例示する。
【0094】
本明細書に記載の方法およびシステムは、メディアガイダンスを提供するためのアプリケーションに実装され得ることに留意されたい。例えば、所与のコンテンツ配信システムでユーザが利用できるコンテンツの量は膨大になる可能性がある。その結果、多くのユーザは、ユーザがコンテンツの選択を効率的にナビゲートし、必要なコンテンツを簡単に識別できるようにするインターフェースを介したメディアガイダンスの形式を望んでいる。このようなガイダンスを提供するアプリケーションは、本明細書では、インタラクティブメディアガイダンスアプリケーション、または場合によっては、メディアガイダンスアプリケーションもしくはガイダンスアプリケーションと呼ばれる。
【0095】
インタラクティブメディアガイダンスアプリケーションは、ガイダンスを提供するコンテンツに応じてさまざまな形式を取り得る。メディアガイダンスアプリケーションの典型的な種類の1つは、インタラクティブテレビ番組ガイドである。インタラクティブテレビ番組ガイド(電子番組ガイドとも呼ばれる)は、よく知られているガイダンスアプリケーションであり、特に、ユーザがさまざまな種類のコンテンツやメディアアセット間をナビゲートして探し当てることを可能にする。インタラクティブメディアガイダンスアプリケーションは、ユーザがコンテンツ間をナビゲートし、探し出し、選択できるようにするグラフィカルユーザインターフェイス画面を生成し得る。
【0096】
本明細書で説明する実施形態のいずれかを実施するためのメディアガイダンスアプリケーションおよび/または任意の命令は、コンピュータ可読媒体上で符号化され得る。コンピュータ可読媒体は、データを格納することが可能な任意の媒体を含む。コンピュータ可読媒体は、電気信号または電磁信号の伝搬を含むがこれらに限定されない一時的なものであり得るか、または揮発性および非揮発性コンピュータメモリまたはハードディスクなどの記憶装置を含むがこれらに限定されない、フロッピー(登録商標)ディスク、USBドライブ、DVD、CD、メディアカード、レジスタメモリ、プロセッサキャッシュ、ランダムアクセスメモリ(「RAM」)などの非一時的なものであり得る。
【0097】
インターネット、モバイルコンピューティング、および高速ワイヤレスネットワークの出現により、ユーザは、従来はアクセスしていなかったユーザ機器デバイス上のメディアにアクセスしている。本明細書で言及される場合、「ユーザ機器デバイス」、「ユーザ機器」、「ユーザデバイス」、「電子デバイス」、「電子機器」、「メディア機器デバイス」、または「メディアデバイス」という句は、上記コンテンツにアクセスするための任意のデバイスを意味すると理解されるべきであり、それらは、テレビ、スマートテレビ、セットトップボックス、衛星テレビを処理するための統合レシーバーデコーダー(IRD)、デジタルストレージデバイス、デジタルメディアレシーバー(DMR)、デジタルメディアアダプター(DMA)、ストリーミングメディアデバイス 、DVDプレーヤー、DVDレコーダー、コネクテッドDVD、ローカルメディアサーバー、BLU-RAY(登録商標)プレーヤー、BLU-RAY(登録商標)レコーダー、パーソナルコンピュータ(PC)、ラップトップコンピューター、タブレットコンピューター、ウェブTVボックス、 パーソナルコンピュータテレビ(PC/TV)、PCメディアサーバー、PCメディアセンター、ハンドヘルドコンピュータ、固定電話、パーソナルデジタルアシスタント(PDA)、携帯電話、ポータブルビデオプレーヤー、ポータブルミュージックプレーヤー 、ポータブルゲーム機、スマートフォン、またはその他のテレビ機器、コンピューティング機器、もしくはワイヤレスデバイス、および/あるいはそれらの組み合わせなどである。いくつかの実施形態では、ユーザ機器デバイスは、前面スクリーンと背面スクリーン、複数の前面スクリーン、または複数の角度付きスクリーンを有し得る。いくつかの実施形態では、ユーザ機器デバイスは、前面カメラおよび/または背面カメラを有し得る。これらのユーザ機器デバイスでは、ユーザはテレビを介して利用可能な同じコンテンツ間をナビゲートして探し当てることが可能である。結果として、メディアガイダンスは、これらのデバイス上でも利用可能であり得る。提供されるガイダンスは、テレビを通じてのみ利用可能なコンテンツ、1つ以上の他の種類のユーザ機器デバイスを通じてのみ利用可能なコンテンツ、またはテレビと1つ以上の他の種類のユーザ機器デバイスとの両方を通じて利用可能なコンテンツについてのものであり得る。メディアガイダンスアプリケーションは、オンラインアプリケーション(つまり、ウェブサイトで提供されるもの)として、またはスタンドアロンアプリケーションまたはユーザ機器デバイス上のクライアントとして提供され得る。 メディアガイダンスアプリケーションを実装し得るさまざまなデバイスおよびプラットフォームは、以下に詳細に説明される。
【0098】
メディアガイダンスアプリケーションの機能の1つは、メディアガイダンスデータをユーザに提供することである。本明細書で言及する場合、「メディアガイダンスデータ」または「ガイダンスデータ」という句は、ガイダンスアプリケーションの操作に使用されるコンテンツまたはデータに関連する任意のデータを意味すると理解されるべきである。例えば、ガイダンスデータは、プログラム情報、ガイダンスアプリケーション設定、ユーザ設定、ユーザプロファイル情報、メディアリスティング、メディア関連情報(例えば、放送時間、放送チャンネル、タイトル、説明、評価情報(例えば、親管理評価、批評家の評価など)、ジャンルまたはカテゴリ情報、俳優情報、放送局またはプロバイダーのロゴのロゴデータなど)、メディア形式(例えば、標準解像度、高解像度、3Dなど)、広告情報(例えば、テキスト、画像、メディアクリップなど)、オンデマンド情報、ブログ、ウェブサイト、およびユーザが目的のコンテンツ選択をナビゲートして探し当てるのに役立つその他の任意の種類のガイダンスデータを含み得る。
【0099】
本明細書で説明される技術、方法およびシステムは、複数の種類のユーザインターフェースおよびアプリケーションに適用され得ることに留意されたい。これらの技術を実装するための2つの例示的なメディアガイダンスアプリケーションが、図12~13に示される。図12~13は、メディアガイダンスデータを提供するために使用され得る例示的な表示画面を示す。図12~13に示す表示画面は、任意の適切なユーザ機器デバイスまたはプラットフォームに実装され得る。図12~13の表示は、全画面表示として示されているが、表示されているコンテンツに完全にまたは部分的にオーバーレイされ得る。ユーザは、表示画面に提供される選択可能なオプション(例えば、メニューオプション、リスティングオプション、アイコン、ハイパーリンクなど)を選択するか、リモコンまたはその他のユーザ入力インターフェースもしくはデバイス上の専用ボタン(例えば、ガイドボタン)を押すことによって、コンテンツ情報にアクセスしたいと望んでいることを示し得る。ユーザの指示に応答して、メディアガイダンスアプリケーションは、グリッド内の時間およびチャネル、時間、チャネル、ソース、コンテンツの種類、カテゴリ(例えば、映画、スポーツ、ニュース、子供向け、または他の番組カテゴリ)いくつかの方法の1つによって、または他の事前に定義された基準、ユーザ定義された基準、もしくはその他の編成基準によって編成されたメディアガイダンスデータを表示画面に提供し得る。
【0100】
図12は、単一のディスプレイにおいて異なる種類のコンテンツへのアクセスをも可能にする、時間およびチャネルによって配置された番組リスティング表示1200の例示的なグリッドを示す。表示1200は、グリッド1202を含み得、該グリッドは、(1)チャネル/コンテンツ種類識別子1204の列であって、各チャネル/コンテンツ種類識別子(列内のセルである)は、利用可能な異なるチャネルまたはコンテンツの種類を識別する、列と、(2)時間識別子1206の行であって、各時間識別子(行のセルである)は、プログラミングの時間ブロックを識別する、行とを含む。グリッド1202は、番組リスティング1208などの番組リスティングのセルをも含み、各リスティングは、リスティングの関連チャネルおよび時間上に提供されるプログラムのタイトルを提供する。ユーザ入力デバイスを用いて、ユーザは、ハイライト領域1210を動かすことによって番組リスティングを選択できる。ハイライト領域1210によって選択された番組リスティングに関連する情報は、番組情報領域1212で提供され得る。領域1212は、例えば、番組タイトル、プログラムの説明、プログラムが提供される時間(該当する場合)、プログラムが放送されるチャネル(該当する場合)、プログラムの評価、およびその他の要求された情報を含み得る。
【0101】
メディアガイダンスアプリケーションは、線形プログラミング(例えば、所定の時間に複数のユーザ機器デバイスに送信されるようにスケジュールされ、スケジュールに従って提供されるコンテンツ)へのアクセスを提供することに加えて、非線形プログラミング(例えば、ユーザ機器デバイスにいつでもアクセスでき、スケジュールに従って提供されないコンテンツ)へのアクセスをも提供する。非線形プログラミングは、オンデマンドコンテンツ(VODなど)、インターネットコンテンツ(ストリーミングメディア、ダウンロード可能なメディアなど)、ローカルに保存されたコンテンツ(例えば、任意の上記ユーザ機器デバイスまたは他のストレージデバイスに保存されたコンテンツ)、または他の時間に依存しないコンテンツを含む、さまざまなコンテンツソースからのコンテンツを含み得る。オンデマンドコンテンツは、特定のコンテンツプロバイダー(例えば、「The Sopranos」および「Curb Your Enthusiasm」を提供するHBOオンデマンド)によって提供される映画またはその他のコンテンツを含み得る。HBO ON DEMANDは、Time Warner Company L.P.他が所有するサービスマークである。SOPRANOSおよびCURB YOUR ENTHUSIASMは、Home Box Office,Inc.が所有する商標である。インターネットコンテンツは、チャットセッションやウェブキャストなどのウェブイベント、またはインターネットウェブサイトやインターネットアクセス(例えば、FTP)などを通じてストリーミングコンテンツもしくはダウンロード可能なコンテンツとしてオンデマンドで利用できるコンテンツを含み得る。
【0102】
グリッド1202は、オンデマンドリスティング1214、記録されたコンテンツリスティング1216、およびインターネットコンテンツリスティング1218を含む非線形プログラミングのためのメディアガイダンスデータを提供し得る。異なる種類のコンテンツソースからのコンテンツのためのメディアガイダンスデータを組み合わせた表示は、時に「混合メディア」表示と呼ばれる。表示1200とは異なる、表示され得るメディアガイダンスデータの種類の様々な順列は、ユーザ選択またはガイダンスアプリケーション定義(例えば、記録および放送リスティングのみの表示、オンデマンドおよび放送リスティングのみの表示など)に基づき得る。図示のように、リスティング1214、1216、および1218は、グリッド1202に表示される時間ブロック全体にわたるものとして示され、これらのリスティングの選択が、それぞれ、オンデマンドリスティング、記録されたリスティング、またはインターネットリスティング専用の表示へのアクセスを提供し得ることを示す。いくつかの実施形態では、これらのコンテンツ種類のリスティングは、グリッド1202に直接含まれ得る。ユーザがナビゲーションアイコン1220の1つを選択することに応答して、追加のメディアガイダンスデータが表示され得る。(ユーザ入力デバイス上の矢印キーを押すことは、ナビゲーションアイコン1220を選択するのと同様の方法で表示に影響を及ぼし得る。)
【0103】
表示1200は、ビデオ領域1222、広告1224、およびオプション領域1226をも含み得る。ビデオ領域1222は、ユーザが、現在利用可能であるか、将来利用可能となるか、利用可能であったプログラムを視聴および/またはプレビューすることを可能にし得る。ビデオ領域1222のコンテンツは、グリッド1202に表示されるリスティングのうちの1つに対応するか、またはそれから独立し得る。ビデオ領域を含むグリッド表示は、ピクチャインガイド(PIG)表示と呼ばれることもある。PIG表示とその機能については、Satterfieldらによる2003年5月13日に発行された米国特許第6,564,378号およびYuenらによる2001年5月29日に発行された米国特許第6,239,794号において詳しく説明されており、参照によりその全体が本明細書に組み込まれる。PIG表示は、本明細書に記載の実施形態の他のメディアガイダンスアプリケーション表示画面に含まれ得る。
【0104】
広告1224は、視聴者のアクセス権(例えば、サブスクリプションプログラミング)に応じて、現在視聴可能であるか、将来視聴可能になるか、または視聴可能になることは決してあり得ない、そしてグリッド1202内の一つ以上のコンテンツリスティングに対応し得る、あるいは無関係であり得るコンテンツの広告を提供し得る。広告1224は、グリッド1202内に表示されたコンテンツに関係する、または無関係の製品やサービスに対するものでもあり得る。広告1224は、選択可能でありコンテンツについてのさらなる情報を提供し得、製品またはサービスに関する情報を提供し得、コンテンツや製品またはサービスの購入を可能にし得、広告に関係するコンテンツを提供し得、またその他を行い得る。広告1224は、ユーザのプロファイル/好み、監視下にあるユーザ活動、提供される表示の種類、または他の適切なターゲット広告ベースに基づいてターゲットにされ得る。
【0105】
広告1224は長方形またはバナー形状として示されているが、広告は、ガイダンスアプリケーション表示内の任意の適切なサイズ、形状、および位置で提供され得る。例えば、広告1224は、グリッド1202に水平に隣接する長方形の形状として提供され得る。これは、パネル広告と呼ばれることもある。さらに、広告は、コンテンツまたはガイダンスアプリケーション表示にオーバーレイされるか、または表示内に埋め込まれ得る。広告は、テキスト、画像、回転画像、ビデオクリップ、または他の種類の上記コンテンツをも含み得る。広告は、ガイダンスアプリケーションを有するユーザ機器デバイス、ユーザ機器に接続されたデータベース、遠隔地(ストリーミングメディアサーバーを含む)、または他の記憶手段、あるいはこれらの場所の組み合わせに格納され得る。メディアガイダンスアプリケーションでの広告の提供については、例えば、2003年1月17日に出願されたKnudsonら、米国特許出願公開第2003/0110499号、Ward IIIらによる2004年6月29日に発行された米国特許第6,756,997号、およびScheinらによる2002年5月14日に発行された米国特許第6,388,714号により詳細に論じられており、参照によりその全体が本明細書に組み込まれる。広告は、本明細書に記載の実施形態の他のメディアガイダンスアプリケーション表示画面に含まれ得ることが理解されよう。
【0106】
オプション領域1226は、ユーザが異なる種類のコンテンツ、メディアガイダンスアプリケーション表示、および/またはメディアガイダンスアプリケーション機構にアクセスすることを可能にし得る。オプション領域1226は、表示1200(および本明細書で説明される他の表示画面)の一部であり得るか、または、画面上のオプションの選択によるかユーザ入力デバイス上の専用もしくは割当て可能ボタンの押圧によって、ユーザに呼び出され得る。オプション領域1226内の選択可能なオプションは、グリッド1202内の番組リスティングに関連する機構に関係し得るか、またはメインメニュー表示から利用可能なオプションを含み得る。番組リスティングに関連する機構は、番組の他の放送時間または受信方法の検索、番組の録画、番組の連続録画の有効化、番組および/またはチャンネルのお気に入りとしての設定、番組の購入、またはその他の機構を含み得る。メインメニュー表示から利用できるオプションは、検索オプション、VODオプション、ペアレンタルコントロールオプション、インターネットオプション、クラウドベースのオプション、デバイス同期オプション、第2スクリーンデバイスオプション、さまざまな種類のメディアガイダンスデータ表示にアクセスするオプション、プレミアムサービスをサブスクライブするオプション、ユーザのプロファイルを編集するためのオプション、検索オーバーレイにアクセスするためのオプション、またはその他のオプションを含み得る。
【0107】
メディアガイダンスアプリケーションは、ユーザの好みに基づいて個人に即したものとなり得る。個人に即したメディアガイダンスアプリケーションは、ユーザが表示と機構をカスタマイズして、メディアガイダンスアプリケーションによって個人に即した「体験」を作成することを可能にする。この個人に即した体験は、ユーザがこれらのカスタマイズを入力できるようにすることによって、および/またはユーザクティビティを監視してさまざまなユーザ設定を決定するメディアガイダンスアプリケーションによって作成され得る。ユーザは、ログインするか、その他の方法でガイダンスアプリケーションに自分自身を識別させることにより、個人に即したガイダンスアプリケーションにアクセスし得る。メディアガイダンスアプリケーションのカスタマイズは、ユーザプロファイルに従って行われ得る。カスタマイズは、様々な提示スキーム(例えば、表示のカラースキーム、テキストのフォントサイズなど)、表示されるコンテンツリスティングの側面(例えば、HDTVのみまたは3Dプログラミングのみ、お気に入りのチャンネル選択に基づくユーザ指定の放送チャンネル、チャンネル表示の再指示、推奨されたコンテンツなど)、所望の録画機構(例えば、特定のユーザのための録画やシリーズ録画、録画品質など)、ペアレンタルコントロール設定、インターネットコンテンツのカスタマイズされた提示(例えば、ソーシャルメディアコンテンツ、電子メール、電子的に配信される記事などの提示)および他の所望のカスタマイズを含み得る。
【0108】
メディアガイダンスアプリケーションは、ユーザがユーザプロファイル情報を提供することを可能にし得るか、またはユーザプロファイル情報を自動的にコンパイルし得る。メディアガイダンスアプリケーションは、例えば、ユーザがアクセスするコンテンツおよび/またはユーザがガイダンスアプリケーションを伴って有し得るある他のインタラクションを監視し得る。さらに、メディアガイダンスアプリケーションは、(例えば、ユーザがアクセスするインターネット上のwww.Tivo.comなどの他のウェブサイト、ユーザがアクセスする他のメディアガイダンスアプリケーション、ユーザがアクセスする他の対話型アプリケーション、ユーザの別のユーザ機器デバイスなどから)特定のユーザに関連する他のユーザプロファイルの全部または一部を取得し得、かつ/またはメディアガイダンスアプリケーションがアクセスし得る他のソースからユーザに関する情報を取得し得る。その結果、ユーザには、ユーザの異なるユーザ機器デバイス間において統一されたガイダンスアプリケーション体験が提供され得る。追加の個人に即したメディアガイダンスアプリケーション機構は、Ellisらによる2005年7月11日に出願された米国特許出願公開番号2005/0251827、Boyerらによる2007年1月16日に発行された米国特許第7,165,098号、およびEllisらによる2002年2月21日に出願された米国特許出願公開第2002/0174430号に詳細に記載されており、参照によりその全体が本明細書に組み込まれる。
【0109】
メディアガイダンスを提供するための別のディスプレイ構成が図13に示されている。ビデオモザイク表示1300は、コンテンツ種類、ジャンル、および/または他の編成基準に基づいて編成されたコンテンツ情報のための選択可能オプション1302を含む。表示1300において、テレビリスティングオプション1304が選択され、従って、リスティング1306、1308、1310および1312を放送プログラムリスティングとして提供している。表示1300において、リスティングは、カバーアート、コンテンツからの静止画像、ビデオクリッププレビュー、コンテンツからのライブビデオ、またはリスティング内のメディアガイダンスデータによって記述されているコンテンツをユーザに示す他の種類のコンテンツを含む、グラフィック画像を提供し得る。グラフィカルリスティングの各々は、リスティングに関連付けられたコンテンツに関する更なる情報を提供するためのテキストもが添付され得る。例えば、リスティング1308は、メディア部分1314およびテキスト部分1316を含む複数の部分を含み得る。メディア部分1314および/またはテキスト部分1316は、コンテンツを全画面で視聴するために、または(例えば、ビデオが表示されるチャネルのリスティングを表示するための)メディア部分1314コンテンツに表示されるコンテンツに関連する情報を視聴するために選択可能であり得る。
【0110】
表示1300のリスティングは異なるサイズである(すなわち、リスティング1306は、リスティング1308、1310、および1312よりも大きい)が、所望の場合は、すべてのリスティングは同じサイズであり得る。リスティングは、コンテンツプロバイダーの希望に応じて、またはユーザの好みに基づいて、ユーザの関心度を示したり、特定のコンテンツを強調したりするために、サイズが異なる場合やグラフィックで強調されている場合がある。コンテンツリスティングをグラフィカルに強調するための様々なシステムおよび方法は、例えば、2009年11月12日に出願されたYatesによる米国特許出願公開第2010/0153885号に論じられており、参照によりその全体が本明細書に組み込まれる。
【0111】
図14は、本明細書に記載の検索、推奨、および発見機能に基づいてエンティティを生成するためのプロセスの実施形態を示す。プロセス1400の各ステップは、制御回路304(例えば、アプリケーションによって回路304を制御するように命令された方法で)または図3~4に示される任意の他のシステム構成要素によって実施できることに留意されたい。制御回路304は、ユーザ機器(例えば、コンテンツ402、システムコントローラ404、および/または無線通信デバイス406を消費するための手段の機能性のいずれかまたはすべてを有し得るデバイス)の一部あり得るか、通信ネットワーク414を介してユーザ機器から分離された、または両方の組み合わせにわたって分散されたリモートサーバの一部であり得る。
【0112】
ステップ1402では、システムは、テキスト文字列を受信する。テキスト文字列は、ユーザ入力インターフェース310を介して受信され得る。テキスト文字列は、ユーザまたは別の電子デバイスから受信され得る。
【0113】
ステップ1404では、システムは(例えば、制御回路304を介して)テキスト文字列内の代名詞を識別する。いくつかの実施形態では、品詞タグ付けは、一連の記述タグに従って、隠れた品詞、および離散的な用語を関連付けるアルゴリズムを使用して計算言語学の文脈で行われる。品詞タグ付けアルゴリズムは、ルールベースおよび確率論の2つの特徴的なグループに分類される。ルールベースの品詞タグ付けの場合、システムは一連の手動ルールを使用して手動で構築される。例えば、システムには、タグ付けされた単語の前にある単語が、if-thenステートメントを通じて特定の方法でタグ付けされることを示すルールを含み得る。統計的(または確率的)品詞タグ付けは、各単語が既知であり、可能なタグの有限セットを持っていることを前提としている。これらのタグは、辞書または形態素解析から引き出すことができる。例えば、単語に複数の可能なタグがある場合、システムは統計的手法を使用して品詞タグのシーケンスを決定し得る。システムは、ルールベースと確率論を組み合わせたハイブリッドアプローチをも使用し得る。最後に、いくつかの実施形態では、品詞タグ付けは手動で実行され得ることに留意されたい。
【0114】
品詞タグ付けを実施するために、システムは高度な自然言語処理用のソフトウェアライブラリを使用し得る。いくつかの実施形態では、システムは、SpaCy、すなわち高度な自然言語処理用のPythonライブラリを使用して、品詞タグ付け機能を通じて識別を強化し得る。品詞タグ付けに加えて、システムは、非破壊トークン化、名前付きエンティティ認識、複数言語の統計モデル、事前トレーニング済みの単語ベクトル、ラベル付き依存関係解析、構文駆動型文セグメンテーション、テキスト分類、構文および名前付きエンティティ用の組み込みビジュアライザー、および/またはディープラーニング統合などの追加機構を使用し得る。
【0115】
ステップ1406では、システムは代名詞変換を実行する。具体的には、システムは代名詞を名詞に変換して、変換されたテキスト文字列を作成する。代名詞の変換は、リッチで正確なセマンティックグラフに必要なエンティティの関係を識別するために重要である。プロセスのこのステップでは、システムはテキスト文字列内の文全体のすべての代名詞を変換する。例えば、システムは、エンドツーエンドのニューラル同一指示変換のPython実装を使用し得、これにより、代名詞が参照する名詞または固有名詞(例えば、「名詞チャンク」)を決定できる。エンドツーエンドのニューラル同一指示では、システムはエンティティ間のすべてのスパンを考慮し、エンティティ間のスパンをランク付けし、検索スペースを整理するための因数分解モデルを作成する。次に、システムは、高い確率で、所与の代名詞が参照する名詞チャンクを検出し得る。
【0116】
スパンランキングについては、システムは入力ドキュメントの各スパンを処理し、すべてのスパンに先行詞を割り当てる。一部の場合、システムは暗黙のスパンを作成する。結果として得られるクラスターにより、システムは次の3つの種類のスパン、i)以前に言及がなかったスパン、ii)以前にリンクのない言及、およびiii)予測された同一指示リンクを有するスパン、を識別する。スパン毎に、システムは独立した決定を行い、2つのスパン間の同一指示の可能性を決定するペアワイズ同一指示スコアを適用する。次に、システムは、最も高いスコアを伴うペアに基づいて先行詞を決定する。
【0117】
ステップ1408では、システムは、変換されたテキスト文字列内の名詞チャンクを(例えば、制御回路304を介して)識別する。例えば、システムは、処理されたテキストにPOS(品詞)タグ付けを適用して、図6に関連して先に論じたように、すべての名詞チャンクをセマンティックグラフのノードとして識別し得る。いくつかの実施形態では、品詞タグ付けは手動で実施され得ることに留意されたい。
【0118】
ステップ1410では、システムは、複数のノードを特徴とするセマンティックグラフに基づいて分類子を使用して、識別された名詞チャンクを処理する。図6に関連してより詳細に先に論じたように、セマンティックグラフは、ネットワーク内の概念間の意味関係を表す知識ベースである。システムは、知識表現の形式としてセマンティックグラフを使用する。これは、概念および/またはエンティティを表し得るノードと、概念および/またはエンティティ間の意味関係を表すエッジとから成る有向および/または無向グラフである。例示的なセマンティックグラフは、図7に関連して上述される。
【0119】
例えば、システムは、(例えば、制御回路304を介して)テキスト機構を決定し得る。テキスト機構は、以下を含み得る:システムがspaCyを使用して抽出した候補のPOSタグ;データセットのプロット上で計算された候補のTF-IDF(用語頻度-逆文書頻度)値;テキストの宣伝文句での候補者の大文字化;候補者がメタデータ内に別のデータソース(Webサイトなど)へのリンクを持っているかどうか(そうでない場合はfalseに設定される);候補者が関連する主題のカテゴリとして言及されているかどうか(そうでない場合はfalseに設定される);候補者が最初の段落および/またはデータソースの目立つ位置に記載されているかどうか(そうでない場合はfalseに設定される);最初の行と、プログラム、人物、架空、場所、組織、スポーツ、フレーズの7つの種類にタグ付けされたカテゴリ(すべての候補者のデフォルト種類を含む)とを使用してタグ付けされた、候補の種類および/またはページの種類。
【0120】
いくつかの実施形態では、高品質の情報は、統計的パターン学習などの手段を通じてパターンおよび傾向を考案することによって得られる。テキスト機構の決定は、入力テキストの構造化(通常、いくつかの派生言語特徴の追加と他の特徴の削除、およびその後のデータベースへの挿入を伴う解析)、構造化データ内のパターンの導出、および最終的な出力の評価と解釈を含み得る。テキスト機構における「高品質」は、関連性と、新規性と、興味深さとの組み合わせの一部を指し得ることに留意されたい。典型的なテキスト機構は、テキストの分類、テキストのクラスタリング、概念/エンティティの抽出、詳細な分類法の作成、感情分析、ドキュメントの要約、エンティティ関係のモデリング(つまり、名前付きエンティティ間の関係の学習)を含み得る。いくつかの実施形態では、テキスト分析は、情報検索、単語頻度分布を研究するための字句分析、パターン認識、タグ付け/注釈、情報抽出、リンクおよび関連分析を含むデータマイニング技術、視覚化、および予測分析を伴う。
【0121】
次に、システムは、(例えば、制御回路304を介して)ノードのスコア付けを行い得る。多くの連結成分を有するいくつかの実施形態では、システムは、各連結成分についてこれらの特徴を別々に計算する。システムは、上記図6のプロセスから得られたモデルを使用し得る。
【0122】
ステップ1412では、システムは、ステップ1410にける分類器を使用しての名詞チャンクの処理に基づいてエンティティを(例えば、制御回路304を介して)決定する。分類器を使用して名詞チャンクを処理することに基づいてエンティティを決定するための例示的なプロセスは、図6に関連して先に議論されている。ステップ1414では、システムは、受信されたテキスト文字列に応答して、(例えば、表示装置312上に)表示用にエンティティを生成する。
【0123】
この実施形態は、この説明における他の任意の実施形態と組み合わせることができ、プロセス1400は、この実施形態においてプロセス1400を説明するために使用されるデバイスまたは制御コンポーネントに限定されないことに留意されたい。
【0124】
図15は、本明細書に記載されるように、分類器を使用して名詞チャンクを処理することに基づいてエンティティを決定するためのプロセスの実施形態を示す。プロセス1500の各ステップは、制御回路304(例えば、アプリケーションによって回路304を制御するように命令された方法で)または図3~4に示される任意の他のシステム構成要素によって実施され得ることに留意されたい。制御回路304は、ユーザ機器(例えば、コンテンツ402、システムコントローラ404、および/または無線通信デバイス406を消費するための手段の機能性のいずれかまたはすべてを有し得るデバイス)の一部、または通信ネットワーク414によってユーザ機器から分離された、または両方の組み合わせにわたって分散されたリモートサーバの一部であり得る。
【0125】
ステップ1502では、システムは、各エンティティに対してスコアを(例えば、制御回路304を介して)割り当てる。例えば、セマンティックグラフは、システムによって、配役の重要性のために使用され得、ここで、配役の重要性とは、セマンティックグラフからのノードスコアに基づくコンテンツ内の重要および重要でないキャストメンバーおよび配役の分類である。例えば、図8および9において、ハイスコアを達成するために決定された重要な配役が示される。
【0126】
ステップ1504では、システムは、エンティティそれぞれのスコアに基づいて各エンティティをランク付ける。ステップ1506では、最も高いスコアを伴うエンティティは、受信されたテキスト文字列に対応すると決定される。スコア付けおよびランク付けメカニズムを論じる特定の例は、図6に関連してより詳細に先に説明されている。
【0127】
この実施形態は、この説明における他の任意の実施形態と組み合わせることができ、プロセス1500は、この実施形態においてプロセス1500を説明するために使用されるデバイスまたは制御コンポーネントに限定されないことに留意されたい。
【0128】
図16は、本明細書で説明される検索、推奨、および発見機構を提供するために使用されるアーキテクチャの例示的な例である。図16に示されるように、システムは、入力としてテキスト文字列を受け取り、テキスト文字列を主要なエンティティおよびそれらの関連を識別するセマンティックグラフに変える。テキスト文字列およびセマンティックグラフからの特徴は、機械学習モデルを介して流れ、最も文脈的に重要なエンティティを推測する。このプロセスは、代名詞の変換、候補の識別、セマンティックグラフの作成、およびノードスコア付けの4つの段階を伴う。
【0129】
ステップ1602では、システムはテキスト文字列を受信する。テキスト文字列は、ユーザ入力インターフェース310を介して受信され得る。テキスト文字列は、ユーザまたは別の電子デバイスから受信され得る。
【0130】
ステップ1604では、システムは代名詞変換を実施する。代名詞の変換は、リッチで正確なセマンティックグラフに必要なエンティティの関係を識別するために重要である。プロセスのこのステップでは、システムはテキスト文字列内の文全体のすべての代名詞を変換する。例えば、システムは、エンドツーエンドのニューラル同一指示変換のPython実装を使用し得、これにより、代名詞が参照する名詞または固有名詞(例えば、「名詞チャンク」)を決定できる。
【0131】
例えば、同一指示は、テキスト内の2つ以上の表現が同じ人物または物を参照している場合に発生する。それらは同じ指示対象を有する。例えば、「ビルは彼が来るだろうと言った」というテキスト文字列において、固有名詞「ビル」と代名詞「彼」は同一人物、つまりビルを指す。同一指示は、構文の分野における結合現象の根底にある主要な概念である。バインディングの理論は、文とテキストの相互参照表現の間に存在する構文上の関係を調査する。いくつかの実施形態では、システムは、代名詞を変換するためのニューラルネットワークを開発し得る。例えば、システムは、制御回路304を介して、「ジョンはメアリーを助けた。彼は医者です。」というテキスト文字列を受信し得る。システムは代名詞を変換して、「ジョンはメアリーを助けた。ジョンは医者です。」という変換されたテキスト文字列を作成し得る。
【0132】
ステップ1606では、システムは、(例えば、制御回路304を介して)候補の識別を実施する。例えば、システムは、処理されたテキストにPOS(品詞)タグを適用して、すべての名詞チャンクをセマンティックグラフのノードとして識別し得る。品詞タグ付け(POSタグ付けまたはPoSタグ付け、あるいはPOST)は、文法タグ付けまたは単語カテゴリの明確化とも呼ばれ、テキスト(コーパス)内の単語を、その定義とコンテキスト、つまり、フレーズ 、文または段落内の隣接する単語や関連する単語との関係、の両方に基づいて、特定の品詞に対応するものとしてマークアップするプロセスである。例えば、アプリケーションは、テキスト文字列内の単語を名詞、動詞、形容詞、副詞などとして識別し得る。いくつかの実施形態では、品詞タグ付けは、一連の記述タグに従って、隠れた品詞、および離散的な用語を関連付けるアルゴリズムを使用して計算言語学の文脈で行われる。品詞タグ付けアルゴリズムは、ルールベースと確率論の2つの特徴的なグループに分類される。E.Brillのタガーは、最初で最も広く使用されている英語のPOSタガーの1つであり、ルールベースのアルゴリズムを採用している。いくつかの実施形態では、品詞タグ付けは手動で実施され得ることに留意されたい。
【0133】
いくつかの実施形態では、システムは、SpaCy、すなわち高度な自然言語処理用のPythonライブラリを使用して、品詞タグ付け機能を通じて識別を強化し得る。従って、システムは、その豊富な構造を活用して、プロット、概要、カテゴリの言及からのリンクなど、より多くの候補を識別する。
【0134】
ステップ`608では、システムはセマンティックグラフを作成する。セマンティックグラフは、ネットワーク内の概念間の意味関係を表す知識ベースである。システムは、知識表現の形式としてセマンティックグラフを使用する。これは、概念および/またはエンティティを表し得るノードと、概念および/またはエンティティ間の意味関係を表すエッジとから成る有向および/または無向グラフである。図7は、先に論じたが、例示的なセマンティックグラフを提供する。
【0135】
ステップ1610では、システムは、(例えば、制御回路304を介して)近接中心性および中間中心性に基づいてグラフ機構を決定する。近接中心性に関して、ノードの近接中心性(または近接)は、ネットワーク内の中心性を測定し、ノードとグラフ内の他のすべてのノードとの間の最短経路の長さの合計として計算される(例えば、図6に記載されるように)。
【0136】
データセットは、70:30の比率でトレーニングセットとテストセットに分けられ得る。例えば、システムは、データソース(たとえば、Webサイト)から10,000のメディアコンテンツリスト(たとえば、人気に基づく)を取得し、メディアコンテンツのメタデータ(たとえば、プロットの説明)からエンティティ/キーワードの候補を抽出し、それらを手動で検証し、 データセットにポジティブ(すべて受け入れる)ラベルとネガティブ(すべて拒否)ラベルを作成し得る。トレーニングセットはモデルの構築に使用され、テストセットは評価されてベンチマークに使用される。システムは機械学習を使用して、入出力ペアの例(トレーニングデータなど)に基づいて入力を出力にマッピングする関数を作成する。これは、一連のトレーニング例で構成されるラベル付きトレーニングデータから関数を推測する。監視下での学習では、各々の例は、入力オブジェクト(通常はベクトル)と所望の出力値(監視信号とも呼ばれる)から成るペアである。システム学習アルゴリズムは、トレーニングデータを分析し、新しい例のマッピングに使用できる推定関数を生成する。次に、学習したアルゴリズムは、見えないインスタンス(たとえば、テキスト文字列内のユーザクエリ)のクラスラベルを正しく決定するために使用することができる。
【0137】
ステップ1612では、システムは、(例えば、制御回路304を介して)テキスト機構を決定し得る。テキスト機構は、以下を含み得る:システムがspaCyを使用して抽出した候補のPOSタグ;データセットのプロット上で計算された候補のTF-IDF(用語頻度-逆文書頻度)値;テキストの宣伝文句での候補者の大文字化;候補者がメタデータ内に別のデータソース(Webサイトなど)へのリンクを持っているかどうか(そうでない場合はfalseに設定される);候補者が関連する主題のカテゴリとして言及されているかどうか(そうでない場合はfalseに設定される);候補者が最初の段落および/またはデータソースの目立つ位置に記載されているかどうか(そうでない場合はfalseに設定される);最初の行と、プログラム、人物、架空、場所、組織、スポーツ、フレーズの7つの種類にタグ付けされたカテゴリ(すべての候補者のデフォルト種類を含む)とを使用してタグ付けされた、候補の種類および/またはページの種類。
【0138】
いくつかの実施形態では、高品質の情報は、統計的パターン学習などの手段を通じてパターンおよび傾向を考案することによって得られる。テキスト機構の決定は、入力テキストの構造化(通常、いくつかの派生言語特徴の追加と他の特徴の削除、およびその後のデータベースへの挿入を伴う解析)、構造化データ内のパターンの導出、および最終的な出力の評価と解釈を含み得る。テキスト機構における「高品質」は、関連性と、新規性と、興味深さとの組み合わせの一部を指し得ることに留意されたい。典型的なテキスト機構は、テキストの分類、テキストのクラスタリング、概念/エンティティの抽出、詳細な分類法の作成、感情分析、ドキュメントの要約、エンティティ関係のモデリング(つまり、名前付きエンティティ間の関係の学習)を含み得る。いくつかの実施形態では、テキスト分析は、情報検索、単語頻度分布を研究するための字句分析、パターン認識、タグ付け/注釈、情報抽出、リンクおよび関連分析を含むデータマイニング技術、視覚化、および予測分析を伴う。
【0139】
ステップ1614では、システムは(例えば、制御回路304を介して)ノードのスコア付けを行う。多くの連結成分を有するいくつかの実施形態では、システムは、各連結成分についてこれらの特徴を別々に計算する。いくつかの実施形態では、システムは、上記の9つ(7つのテキスト特徴および2つのグラフ特徴)を使用し、それらを正規化し、手動でキュレーションされたデータに対して分類子をトレーニングし、このモデルを使用してエンティティを予測する。分類を実行するアルゴリズムは、特に具体的な実行において、分類子として知られている。分類およびクラスタリングは、パターン認識のより一般的な問題の例であり、特定の入力値へのある種の出力値の割り当てである。他の例は、各入力に実数値の出力を割り当てる回帰、値のシーケンスの各メンバーにクラスを割り当てるシーケンスラベリング(たとえば、入力文の各単語に品詞を割り当てる品詞タグ付け)、入力文に解析ツリーを割り当て、文の構文構造を記述する解析、などである。
【0140】
いくつかの実施形態では、システムは、ディシジョンツリー分類子およびランダムフォレスト分類子を使用してトレーニングする。ディシジョンツリー分類子はフローチャートのような構造であり、各内部(非リーフ)ノードは属性のテストを示し、各ブランチはテストの結果を表し、各リーフ(またはターミナル)ノードはクラスラベルを保持する。ツリーの最上位ノードはルートノードである。ランダムフォレスト分類子は、トレーニング時に多数のディシジョンツリーを構築し、個々のツリーのクラスのモード(分類)または平均予測(回帰)であるクラスを出力することによって動作し得る。ランダムデシジョンフォレストは、ディシジョンツリーがトレーニングセットに過剰適合する習慣を修正する。システムは任意のディシジョンツリーアルゴリズムを実装できることに留意されたい。ステップ614では、(例えば、図9~10に関連して示され、説明されるように)システムは、(例えば、制御回路304を介して)エンティティを決定する。
【0141】
本開示の上記の実施形態は、限定ではなく例示の目的で提示されており、本開示は、以下の特許請求の範囲によってのみ制限される。 さらに、任意の一実施形態に記載の特徴および制限は、本明細書の他の任意の実施形態に適用でき、一実施形態に関連するフローチャートまたは例は、適切な方法で他の任意の実施形態と組み合わせるか、異なる順序で行うか、または並行して行うことができることに留意されたい。 さらに、本明細書に記載のシステムおよび方法は、リアルタイムで実行され得る。 上記のシステムおよび/または方法は、他のシステムおよび/または方法に適用されるか、またはそれに従って使用され得ることにも留意されたい。
本明細書は、以下を含むがこれらに限定されない実施形態を開示する。
(項目1)
検索、推奨、および発見機構を提供する方法であって、該方法は、
制御回路によって、データセットを収集することと、
該制御回路によって、該データセット全体にわたって代名詞変換を実施することと、
該制御回路によって、該データセット全体にわたって候補識別を実施することと、
該制御回路によって、複数の主要エンティティおよび該複数の主要エンティティ間の複数の関連付けを識別するセマンティックグラフを作成することと、
ユーザ入力インターフェースによって、ユーザ入力を受信することと、
該制御回路によって、該セマンティックグラフを使用して、該ユーザ入力を処理することと、
該制御回路によって、該処理されたユーザ入力に基づいて出力を生成することと
を含む、方法。
(項目2)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目1に記載の方法。
(項目3)
前記データセットは、トレーニングデータと検証データとの比率に分割され、該トレーニングデータは、前記セマンティックグラフ上の前記制御回路をトレーニングするために使用される、項目1に記載の方法。
(項目4)
前記代名詞変換を実施することは、同一指示変換を使用して前記代名詞を変換することを含む、項目1に記載の方法。
(項目5)
前記候補識別は、文法タグ付けおよび単語カテゴリの明確化を含む、項目1に記載の方法。
(項目6)
前記ユーザ入力は、ユーザから、または電子デバイスから直接受信される、項目1に記載の方法。
(項目7)
前記ユーザ入力を処理することは、前記ユーザ入力からの複数の候補を前記セマンティックグラフ内の複数のノードと照合することを含む、項目1に記載の方法。
(項目8)
前記ユーザ入力からの複数の候補間の複数の関係は、依存関係ツリーをトラバースすることによって識別される、項目1に記載の方法。
(項目9)
前記前記出力は、前記ユーザ入力に基づく検索結果または推奨を含む、項目1に記載の方法。
(項目10)
前記セマンティックグラフは、ネットワーク内の概念間の意味関係を表す知識ベースである、項目1に記載の方法。
(項目11)
検索、推奨および発見機構を提供するシステムであって、該システムは、
メモリと、
制御回路であって、該制御回路は、
データセットを収集することと、
該データセット全体にわたって代名詞変換を実施することと、
該データセット全体にわたって候補識別を実施することと、
複数の主要エンティティおよび該複数の主要エンティティ間の複数の関連付けを識別するセマンティックグラフを作成することと、
ユーザ入力を受信することと、
該セマンティックグラフを使用して、該ユーザ入力を処理することと、
該処理されたユーザ入力に基づいて出力を生成することと
を行うように構成されている、制御回路と
を含む、システム。
(項目12)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目11に記載のシステム。
(項目13)
前記データセットは、トレーニングデータと検証データとの比率に分割され、該トレーニングデータは、前記セマンティックグラフ上の前記制御回路をトレーニングするために使用される、項目11に記載のシステム。
(項目14)
前記代名詞変換を実施することは、同一指示変換を使用して前記代名詞を変換することを含む、項目11に記載のシステム。
(項目15)
前記候補識別は、文法タグ付けおよび単語カテゴリの明確化を含む、項目11に記載のシステム。
(項目16)
前記ユーザ入力は、ユーザから、または電子デバイスから直接受信される、項目11に記載のシステム。
(項目17)
前記ユーザ入力を処理することは、前記ユーザ入力からの複数の候補を前記セマンティックグラフ内の複数のノードと照合することを含む、項目11に記載のシステム。
(項目18)
前記ユーザ入力からの複数の候補間の複数の関係は、依存関係ツリーをトラバースすることによって識別される、項目11に記載のシステム。
(項目19)
前記前記出力は、前記ユーザ入力に基づく検索結果または推奨を含む、項目11に記載のシステム。
(項目20)
前記セマンティックグラフは、ネットワーク内の概念間の意味関係を表す知識ベースである、項目11に記載のシステム。
(項目21)
検索、推奨および発見機構を提供するシステムであって、該システムは、
データセットを収集する手段と、
該データセット全体にわたって代名詞変換を実施する手段と、
該データセット全体にわたって候補識別を実施する手段と、
複数の主要エンティティおよび該複数の主要エンティティ間の複数の関連付けを識別するセマンティックグラフを作成する手段と、
ユーザ入力を受信する手段と、
該セマンティックグラフを使用して、該ユーザ入力を処理する手段と、
該処理されたユーザ入力に基づいて出力を生成する手段と
を含む、システム。
(項目22)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目21に記載のシステム。
(項目23)
前記データセットは、トレーニングデータと検証データとの比率に分割され、該トレーニングデータは、前記セマンティックグラフ上の前記制御回路をトレーニングするために使用される、項目21に記載のシステム。
(項目24)
前記代名詞変換を実施することは、同一指示変換を使用して前記代名詞を変換することを含む、項目21に記載のシステム。
(項目25)
前記候補識別は、文法タグ付けおよび単語カテゴリの明確化を含む、項目21に記載のシステム。
(項目26)
前記ユーザ入力は、ユーザから、または電子デバイスから直接受信される、項目21に記載のシステム。
(項目27)
前記ユーザ入力を処理することは、前記ユーザ入力からの複数の候補を前記セマンティックグラフ内の複数のノードと照合することを含む、項目21に記載のシステム。
(項目28)
前記ユーザ入力からの複数の候補間の複数の関係は、依存関係ツリーをトラバースすることによって識別される、項目21に記載のシステム。
(項目29)
前記前記出力は、前記ユーザ入力に基づく検索結果または推奨を含む、項目21に記載のシステム。
(項目30)
前記セマンティックグラフは、ネットワーク内の概念間の意味関係を表す知識ベースである、項目21に記載のシステム。
(項目31)
検索、推奨、および発見機構を提供する方法であって、該方法は、
データセットを収集することと、
該データセット全体にわたって代名詞変換を実施することと、
該データセット全体にわたって候補識別を実施することと、
複数の主要エンティティおよび該複数の主要エンティティ間の複数の関連付けを識別するセマンティックグラフを作成することと、
ユーザ入力を受信することと、
該セマンティックグラフを使用して、該ユーザ入力を処理することと、
該処理されたユーザ入力に基づいて出力を生成することと
を含む、方法。
(項目32)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目31に記載の方法。
(項目33)
前記データセットは、トレーニングデータと検証データとの比率に分割され、該トレーニングデータは、前記セマンティックグラフ上の前記制御回路をトレーニングするために使用される、項目31または32に記載の方法。
(項目34)
前記代名詞変換を実施することは、同一指示変換を使用して前記代名詞を変換することを含む、項目31~33に記載の方法。
(項目35)
前記候補識別は、文法タグ付けおよび単語カテゴリの明確化を含む、項目31~34に記載の方法。
(項目36)
前記ユーザ入力は、ユーザから、または電子デバイスから直接受信される、項目31~35に記載の方法。
(項目37)
前記ユーザ入力を処理することは、前記ユーザ入力からの複数の候補を前記セマンティックグラフ内の複数のノードと照合することを含む、項目31~36に記載の方法。
(項目38)
前記ユーザ入力からの複数の候補間の複数の関係は、依存関係ツリーをトラバースすることによって識別される、項目31~37に記載の方法。
(項目39)
前記前記出力は、前記ユーザ入力に基づく検索結果または推奨を含む、項目31~38に記載の方法。
(項目40)
前記セマンティックグラフは、ネットワーク内の概念間の意味関係を表す知識ベースである、項目31~39に記載の方法。
(項目41)
非一時的なコンピュータ可読媒体であって、該非一時的なコンピュータ可読媒体は、その上に記録された、検索、推奨および発見機構を提供するための命令を有し、該命令は、
データセットを収集するための命令と、
該データセット全体にわたって代名詞変換を実施するための命令と、
該データセット全体にわたって候補識別を実施するための命令と、
複数の主要エンティティおよび該複数の主要エンティティ間の複数の関連付けを識別するセマンティックグラフを作成するための命令と、
ユーザ入力を受信するための命令と、
該セマンティックグラフを使用して、該ユーザ入力を処理するための命令と、
該処理されたユーザ入力に基づいて出力を生成するための命令と
を含む、非一時的なコンピュータ可読媒体。
(項目42)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目41に記載の非一時的なコンピュータ可読媒体。
(項目43)
前記データセットは、トレーニングデータと検証データとの比率に分割され、該トレーニングデータは、前記セマンティックグラフ上の前記制御回路をトレーニングするために使用される、項目41に記載の非一時的なコンピュータ可読媒体。
(項目44)
前記代名詞変換を実施することは、同一指示変換を使用して前記代名詞を変換することを含む、項目41に記載の非一時的なコンピュータ可読媒体。
(項目45)
前記候補識別は、文法タグ付けおよび単語カテゴリの明確化を含む、項目41に記載の非一時的なコンピュータ可読媒体。
(項目46)
前記ユーザ入力は、ユーザから、または電子デバイスから直接受信される、項目41に記載の非一時的なコンピュータ可読媒体。
(項目47)
前記ユーザ入力を処理することは、前記ユーザ入力からの複数の候補を前記セマンティックグラフ内の複数のノードと照合することを含む、項目41に記載の非一時的なコンピュータ可読媒体。
(項目48)
前記ユーザ入力からの複数の候補間の複数の関係は、依存関係ツリーをトラバースすることによって識別される、項目41に記載の非一時的なコンピュータ可読媒体。
(項目49)
前記前記出力は、前記ユーザ入力に基づく検索結果または推奨を含む、項目41に記載の非一時的なコンピュータ可読媒体。
(項目50)
前記セマンティックグラフは、ネットワーク内の概念間の意味関係を表す知識ベースである、項目41に記載の非一時的なコンピュータ可読媒体。
(項目51)
テキスト文字列内のエンティティの関連性を自動的に決定することによりコンテンツ推奨を提供する方法であって、該方法は、
ユーザ入力インターフェースによって、テキスト文字列を受信することと、
制御回路によって、該テキスト文字列内の代名詞を識別することと、
該制御回路によって、該代名詞を名詞に変換することにより、変換されたテキスト文字列を作成することと、
該制御回路によって、該変換されたテキスト文字列内の名詞チャンクを識別することと、
該制御回路によって、複数のノードを特徴とするセマンティックグラフに基づいて分類子を使用して該名詞チャンクを処理することであって、該複数のノードの各々は、近接中心性メトリックおよび中間中心性メトリックに基づいてスコア付けされ、該近接中心性メトリックは、該セマンティックグラフ内のそれぞれのノードと他のノードの各々との間の最短経路の長さの合計の尺度であり、該中間中心性メトリックは、それぞれのノードの該セマンティックグラフにおける中心性の尺度である、ことと、
該制御回路によって、該分類子を使用して該名詞チャンクを処理することに基づいて、エンティティを決定することと、
該受信されたテキスト文字列に応答して、該エンティティを表示デバイス上に表示用に生成することと
を含む、方法。
(項目52)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目51に記載の方法。
(項目53)
前記分類子を使用して前記名詞チャンクを処理することに基づいてエンティティを決定することは、
各エンティティをスコア付けすることと、
各エンティティのそれぞれのスコアに基づいて各エンティティをランク付けすることと、
最も高いスコアを伴う該エンティティを選択することと
を含む、項目51に記載の方法。
(項目54)
各エンティティは、7つのテキスト機構と2つのグラフ機構とに基づいてスコア付けされる、項目53に記載の方法。
(項目55)
前記分類子は、ディシジョンツリー分類子またはランダムフォレスト分類子である、項目51に記載の方法。
(項目56)
前記受信されたテキスト文字列に応答して前記エンティティを表示用に生成することは、検索、推薦または発見機構において該エンティティを表示用に生成することを含む、項目51に記載の方法。
(項目57)
前記テキスト文字列は、ユーザから、または電子デバイスから受信される、項目51に記載の方法。
(項目58)
前記代名詞を前記名詞に変換することにより前記変換されたテキスト文字列を作成することは、同一指示変換を使用して該代名詞を変換することを含む、項目51に記載の方法。
(項目59)
前記変換されたテキスト文字列内の前記名詞チャンクを識別することは、品詞タグ付けを使用して該名詞チャンクを識別することを含む、項目51に記載の方法。
(項目60)
前記セマンティックグラフは、ネットワーク内における概念間の意味関係を表す知識ベースである、項目51に記載の方法。
(項目61)
テキスト文字列内のエンティティの関連性を自動的に決定することによりコンテンツ推奨を提供するシステムであって、該システムは、
メモリと、
制御回路であって、該制御回路は、
テキスト文字列を受信することと、
該テキスト文字列内の代名詞を識別することと、
該代名詞を名詞に変換することにより、変換されたテキスト文字列を作成することと、
該変換されたテキスト文字列内の名詞チャンクを識別することと、
複数のノードを特徴とするセマンティックグラフに基づいて分類子を使用して該名詞チャンクを処理することであって、該複数のノードの各々は、近接中心性メトリックおよび中間中心性メトリックに基づいてスコア付けされ、該近接中心性メトリックは、該セマンティックグラフ内のそれぞれのノードと他のノードの各々との間の最短経路の長さの合計の尺度であり、該中間中心性メトリックは、それぞれのノードの該セマンティックグラフにおける中心性の尺度である、ことと、
該分類子を使用して該名詞チャンクを処理することに基づいて、エンティティを決定することと、
該受信されたテキスト文字列に応答して、該エンティティを表示用に生成することと
を行うように構成されている、制御回路と
を含む、システム。
(項目62)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目61に記載のシステム。
(項目63)
前記分類子を使用して前記名詞チャンクを処理することに基づいてエンティティを決定することは、
各エンティティをスコア付けすることと、
各エンティティのそれぞれのスコアに基づいて各エンティティをランク付けすることと、
最も高いスコアを伴う該エンティティを選択することと
を含む、項目61に記載のシステム。
(項目64)
各エンティティは、7つのテキスト機構と2つのグラフ機構とに基づいてスコア付けされる、項目63に記載のシステム。
(項目65)
前記分類子は、ディシジョンツリー分類子またはランダムフォレスト分類子である、項目61に記載のシステム。
(項目66)
前記受信されたテキスト文字列に応答して前記エンティティを表示用に生成することは、検索、推薦または発見機構において該エンティティを表示用に生成することを含む、項目61に記載のシステム。
(項目67)
前記テキスト文字列は、ユーザから、または電子デバイスから受信される、項目61に記載のシステム。
(項目68)
前記代名詞を前記名詞に変換することにより前記変換されたテキスト文字列を作成することは、同一指示変換を使用して該代名詞を変換することを含む、項目61に記載のシステム。
(項目69)
前記変換されたテキスト文字列内の前記名詞チャンクを識別することは、品詞タグ付けを使用して該名詞チャンクを識別することを含む、項目61に記載のシステム。
(項目70)
前記セマンティックグラフは、ネットワーク内における概念間の意味関係を表す知識ベースである、項目61に記載のシステム。
(項目71)
テキスト文字列内のエンティティの関連性を自動的に決定することによりコンテンツ推奨を提供するシステムであって、該システムは、
テキスト文字列を受信するための手段と、
該テキスト文字列内の代名詞を識別するための手段と、
該代名詞を名詞に変換することにより、変換されたテキスト文字列を作成するための手段と、
該変換されたテキスト文字列内の名詞チャンクを識別するための手段と、
複数のノードを特徴とするセマンティックグラフに基づいて分類子を使用して該名詞チャンクを処理するための手段であって、該複数のノードの各々は、近接中心性メトリックおよび中間中心性メトリックに基づいてスコア付けされ、該近接中心性メトリックは、該セマンティックグラフ内のそれぞれのノードと他のノードの各々との間の最短経路の長さの合計の尺度であり、該中間中心性メトリックは、それぞれのノードの該セマンティックグラフにおける中心性の尺度である、手段と、
該分類子を使用して該名詞チャンクを処理することに基づいて、エンティティを決定するための手段と、
該受信されたテキスト文字列に応答して、該エンティティを表示デバイス上に表示用に生成するための手段と
を含む、システム。
(項目72)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目71に記載のシステム。
(項目73)
前記分類子を使用して前記名詞チャンクを処理することに基づいてエンティティを決定することは、
各エンティティをスコア付けすることと、
各エンティティのそれぞれのスコアに基づいて各エンティティをランク付けすることと、
最も高いスコアを伴う該エンティティを選択することと
を含む、項目71に記載のシステム。
(項目74)
各エンティティは、7つのテキスト機構と2つのグラフ機構とに基づいてスコア付けされる、項目73に記載のシステム。
(項目75)
前記分類子は、ディシジョンツリー分類子またはランダムフォレスト分類子である、項目71に記載のシステム。
(項目76)
前記受信されたテキスト文字列に応答して前記エンティティを表示用に生成することは、検索、推薦または発見機構において該エンティティを表示用に生成することを含む、項目71に記載のシステム。
(項目77)
前記テキスト文字列は、ユーザから、または電子デバイスから受信される、項目71に記載のシステム。
(項目78)
前記代名詞を前記名詞に変換することにより前記変換されたテキスト文字列を作成することは、同一指示変換を使用して該代名詞を変換することを含む、項目71に記載のシステム。
(項目79)
前記変換されたテキスト文字列内の前記名詞チャンクを識別することは、品詞タグ付けを使用して該名詞チャンクを識別することを含む、項目71に記載のシステム。
(項目80)
前記セマンティックグラフは、ネットワーク内における概念間の意味関係を表す知識ベースである、項目71に記載のシステム。
(項目81)
テキスト文字列内のエンティティの関連性を自動的に決定することによりコンテンツ推奨を提供する方法であって、該方法は、
テキスト文字列を受信することと、
該テキスト文字列内の代名詞を識別することと、
該代名詞を名詞に変換することにより、変換されたテキスト文字列を作成することと、
該変換されたテキスト文字列内の名詞チャンクを識別することと、
複数のノードを特徴とするセマンティックグラフに基づいて分類子を使用して該名詞チャンクを処理することであって、該複数のノードの各々は、近接中心性メトリックおよび中間中心性メトリックに基づいてスコア付けされ、該近接中心性メトリックは、該セマンティックグラフ内のそれぞれのノードと他のノードの各々との間の最短経路の長さの合計の尺度であり、該中間中心性メトリックは、それぞれのノードの該セマンティックグラフにおける中心性の尺度である、ことと、
該分類子を使用して該名詞チャンクを処理することに基づいて、エンティティを決定することと、
該受信されたテキスト文字列に応答して、該エンティティを表示用に生成することと
を含む、方法。
(項目82)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目81に記載の方法。
(項目83)
前記分類子を使用して前記名詞チャンクを処理することに基づいてエンティティを決定することは、
各エンティティをスコア付けすることと、
各エンティティのそれぞれのスコアに基づいて各エンティティをランク付けすることと、
最も高いスコアを伴う該エンティティを選択することと
を含む、項目81または82に記載の方法。
(項目84)
各エンティティは、7つのテキスト機構と2つのグラフ機構とに基づいてスコア付けされる、項目83に記載の方法。
(項目85)
前記分類子は、ディシジョンツリー分類子またはランダムフォレスト分類子である、項目81~84のいずれか1つに記載の方法。
(項目86)
前記受信されたテキスト文字列に応答して前記エンティティを表示用に生成することは、検索、推薦または発見機構において該エンティティを表示用に生成することを含む、項目81~85のいずれか1つに記載の方法。
(項目87)
前記テキスト文字列は、ユーザから、または電子デバイスから受信される、項目81~86のいずれか1つに記載の方法。
(項目88)
前記代名詞を前記名詞に変換することにより前記変換されたテキスト文字列を作成することは、同一指示変換を使用して該代名詞を変換することを含む、項目81~87のいずれか1つに記載の方法。
(項目89)
前記変換されたテキスト文字列内の前記名詞チャンクを識別することは、品詞タグ付けを使用して該名詞チャンクを識別することを含む、項目81~88のいずれか1つに記載の方法。
(項目90)
前記セマンティックグラフは、ネットワーク内における概念間の意味関係を表す知識ベースである、項目81~89のいずれか1つに記載の方法。
(項目91)
非一時的なコンピュータ可読媒体であって、該非一時的なコンピュータ可読媒体は、その上に記録された、テキスト文字列内のエンティティの関連性を自動的に決定することによりコンテンツ推奨を提供するための命令を有し、該命令は、
テキスト文字列を受信するための命令と、
該テキスト文字列内の代名詞を識別するための命令と、
該代名詞を名詞に変換することにより、変換されたテキスト文字列を作成するための命令と、
該変換されたテキスト文字列内の名詞チャンクを識別するための命令と、
複数のノードを特徴とするセマンティックグラフに基づいて分類子を使用して該名詞チャンクを処理するための命令であって、該複数のノードの各々は、近接中心性メトリックおよび中間中心性メトリックに基づいてスコア付けされ、該近接中心性メトリックは、該セマンティックグラフ内のそれぞれのノードと他のノードの各々との間の最短経路の長さの合計の尺度であり、該中間中心性メトリックは、それぞれのノードの該セマンティックグラフにおける中心性の尺度である、命令と、
該分類子を使用して該名詞チャンクを処理することに基づいて、エンティティを決定するための命令と、
該受信されたテキスト文字列に応答して、該エンティティを表示用に表示デバイス上に生成するための命令と
を含む、非一時的なコンピュータ可読媒体。
(項目92)
前記セマンティックグラフは、複数のノードを含み、該複数のノードの各々は、エンティティのデータセットからのエンティティに対応する、項目91に記載の非一時的なコンピュータ可読媒体。
(項目93)
前記分類子を使用して前記名詞チャンクを処理することに基づいてエンティティを決定することは、
各エンティティをスコア付けすることと、
各エンティティのそれぞれのスコアに基づいて各エンティティをランク付けすることと、
最も高いスコアを伴う該エンティティを選択することと
を含む、項目91に記載の非一時的なコンピュータ可読媒体。
(項目94)
各エンティティは、7つのテキスト機構と2つのグラフ機構とに基づいてスコア付けされる、項目93に記載の非一時的なコンピュータ可読媒体。
(項目95)
前記分類子は、ディシジョンツリー分類子またはランダムフォレスト分類子である、項目91に記載の非一時的なコンピュータ可読媒体。
(項目96)
前記受信されたテキスト文字列に応答して前記エンティティを表示用に生成することは、検索、推薦または発見機構において該エンティティを表示用に生成することを含む、項目91に記載の非一時的なコンピュータ可読媒体。
(項目97)
前記テキスト文字列は、ユーザから、または電子デバイスから受信される、項目91に記載の非一時的なコンピュータ可読媒体。
(項目98)
前記代名詞を前記名詞に変換することにより前記変換されたテキスト文字列を作成することは、同一指示変換を使用して該代名詞を変換することを含む、項目91に記載の非一時的なコンピュータ可読媒体。
(項目99)
前記変換されたテキスト文字列内の前記名詞チャンクを識別することは、品詞タグ付けを使用して該名詞チャンクを識別することを含む、項目91に記載の非一時的なコンピュータ可読媒体。
(項目100)
前記セマンティックグラフは、ネットワーク内における概念間の意味関係を表す知識ベースである、項目91に記載の非一時的なコンピュータ可読媒体。
(項目101)
検索クエリに結果を提供するためのコンピュータに実装された方法であって、該方法は
複数のエンティティへの参照を含む検索クエリを受信することと、
制御回路を使用して、該検索クエリ上で代名詞変換を実施することと、
該制御回路を使用して、複数のエッジによって結合されている複数のノードを含むグラフを使用して検索クエリを処理することであって、該複数のノードのサブセットは、該検索クエリの変換された代名詞に関連付けられた該複数のエンティティを表す、ことと、
該制御回路を使用して、近接メトリックに基づいて該サブセットの2つのノードに結合されている該グラフのノードを識別することであって、該近接メトリックは、該ノードと該2つのノードのうちの1つとの間の距離に反比例する、ことと、
該検索クエリの結果として、該グラフの該ノードによって表されるエンティティへの参照を提供させることと
を含む、方法。
(項目102)
前記複数のエンティティは、第1の複数のエンティティのであり、前記グラフを使用して前記検索クエリを処理することは、該第1の複数のエンティティを前記複数のノードによって表される第2の複数のエンティティと照合することを含む、項目101に記載の方法。
(項目103)
会話のユーザトーンを反映する複数のデータセットを選択することをさらに含む、項目101または102に記載の方法。
(項目104)
品詞(POS)タグ付けを使用して前記複数のデータセットを処理することをさらに含む、項目103に記載の方法。
(項目105)
前記近接メトリックに基づいて前記サブセットの2つのノードに結合されている前記グラフの前記ノードを識別することは、
前記複数のノードのそれぞれのノードと別のノードとの間の距離に基づいて、該グラフの前記複数のノードの該それぞれのノードをスコア付けすることと、
該ノードが、該グラフの該スコア付けされた複数のノードの最も高いスコアを有することを決定することと
を含む、項目101~104のいずれかに記載の方法。
(項目106)
検索クエリに結果を提供するためのシステムであって、該システムは、
複数のエンティティへの参照を含む検索クエリを受信するための手段と、
該検索クエリ上で代名詞変換を実施するための手段と、
複数のエッジによって結合されている複数のノードを含むグラフを使用して検索クエリを処理するための手段であって、該複数のノードのサブセットは、該検索クエリの変換された代名詞に関連付けられた該複数のエンティティを表す、手段と、
近接メトリックに基づいて該サブセットの2つのノードに結合されている該グラフのノードを識別するための手段であって、該近接メトリックは、該ノードと該2つのノードのうちの1つとの間の距離に反比例する、手段と、
該検索クエリの結果として、該グラフの該ノードによって表されるエンティティへの参照を提供させるための手段と
を含む、システム。
(項目107)
前記複数のエンティティは、第1の複数のエンティティのであり、前記グラフを使用して前記検索クエリを処理することは、該第1の複数のエンティティを前記複数のノードによって表される第2の複数のエンティティと照合することを含む、項目106に記載のシステム。
(項目108)
会話のユーザトーンを反映する複数のデータセットを選択するための手段をさらに含む、項目106または107に記載のシステム。
(項目109)
品詞(POS)タグ付けを使用して前記複数のデータセットを処理するための手段をさらに含む、項目108に記載のシステム。
(項目110)
前記近接メトリックに基づいて前記サブセットの2つのノードに結合されている前記グラフの前記ノードを識別することは、
前記複数のノードのそれぞれのノードと別のノードとの間の距離に基づいて、該グラフの前記複数のノードのそれぞれのノードをスコア付けすることと、
該ノードが、該グラフの該スコア付けされた複数のノードの最も高いスコアを有することを決定することと
を含む、項目101~109のいずれかに記載のシステム。
(項目111)
非一時的なコンピュータ可読媒体であって、該非一時的なコンピュータ可読媒体は、その上に符号化された命令を有し、該命令は、制御回路によって実行されると、方法を実行し、該方法は、
複数のエンティティへの参照を含む検索クエリを受信することと、
制御回路を使用して、該検索クエリ上で代名詞変換を実施することと、
該制御回路を使用して、複数のエッジによって結合されている複数のノードを含むグラフを使用して検索クエリを処理することであって、該複数のノードのサブセットは、該検索クエリの変換された代名詞に関連付けられた該複数のエンティティを表す、ことと、
該制御回路を使用して、近接メトリックに基づいて該サブセットの2つのノードに結合されている該グラフのノードを識別することであって、該近接メトリックは、該ノードと該2つのノードのうちの1つとの間の距離に反比例する、ことと、
該検索クエリの結果として、該グラフの該ノードによって表されるエンティティへの参照を提供させることと
を含む、非一時的なコンピュータ可読媒体。
(項目112)
前記複数のエンティティは、第1の複数のエンティティのであり、前記グラフを使用して前記検索クエリを処理することは、該第1の複数のエンティティを前記複数のノードによって表される第2の複数のエンティティと照合することを含む、項目111に記載の非一時的なコンピュータ可読媒体。
(項目113)
会話のユーザトーンを反映する複数のデータセットを選択することをさらに含む、項目111または112に記載の非一時的なコンピュータ可読媒体。
(項目114)
品詞(POS)タグ付けを使用して前記複数のデータセットを処理することをさらに含む、項目113に記載の非一時的なコンピュータ可読媒体。
(項目115)
前記近接メトリックに基づいて前記サブセットの2つのノードに結合されている前記グラフの前記ノードを識別することは、
前記複数のノードのそれぞれのノードと別のノードとの間の距離に基づいて、該グラフの前記複数のノードの該それぞれのノードをスコア付けすることと、
該ノードが、該グラフの該スコア付けされた複数のノードの最も高いスコアを有することを決定することと
を含む、項目111~114のいずれかに記載の非一時的なコンピュータ可読媒体。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
【外国語明細書】