(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-17
(45)【発行日】2024-01-25
(54)【発明の名称】TVユーザ対話のためのインテリジェント自動アシスタント
(51)【国際特許分類】
G06F 16/735 20190101AFI20240118BHJP
G06F 16/738 20190101ALI20240118BHJP
H04N 21/472 20110101ALI20240118BHJP
G06F 3/16 20060101ALI20240118BHJP
【FI】
G06F16/735
G06F16/738
H04N21/472
G06F3/16 650
【外国語出願】
(21)【出願番号】P 2022060413
(22)【出願日】2022-03-31
(62)【分割の表示】P 2020215571の分割
【原出願日】2015-03-27
【審査請求日】2022-04-27
(32)【優先日】2014-09-26
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2014-06-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】503260918
【氏名又は名称】アップル インコーポレイテッド
【氏名又は名称原語表記】Apple Inc.
【住所又は居所原語表記】One Apple Park Way,Cupertino, California 95014, U.S.A.
(74)【代理人】
【識別番号】110003281
【氏名又は名称】弁理士法人大塚国際特許事務所
(72)【発明者】
【氏名】ヴァン オス, マルセル
(72)【発明者】
【氏名】サドラー, ハリー ジェイ.
(72)【発明者】
【氏名】ナポリターノ, リア ティー.
(72)【発明者】
【氏名】ラッセル, ジョナサン エイチ.
(72)【発明者】
【氏名】リスター, パトリック エム.
(72)【発明者】
【氏名】ダサリ, ロイット
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2002-251235(JP,A)
【文献】特開2008-011021(JP,A)
【文献】特開2007-328635(JP,A)
【文献】特開2012-253573(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
H04N 21/00-21/858
G06F 3/16
G10L 15/00-17/26
(57)【特許請求の範囲】
【請求項1】
コンピュータが実施する方法であって、
1以上のプロセッサとメモリとを備える電子デバイスにおいて、
ユーザからの発語入力を受信することと、
以前の発語入力に応じて以前に表示された検索結果コンテンツに基づいて、前記発語入力のユーザ意図を判定することと、
前記ユーザ意図に基づいて、メディアコンテンツを判定することと、
前記ユーザ意図が情報の要求を含むと判定したことに応じて、前記電子デバイスにおいて前記ユーザ意図に従って情報を提供することと、
前記ユーザ意図が前記メディアコンテンツを再生するという要求を含むと判定したことに応じて、前記メディアコンテンツを、第2のデバイスに関連付けられたディスプレイに表示させることと、
を備える、方法。
【請求項2】
請求項1に記載の方法であって、前記メディアコンテンツを、第2のデバイスに関連付けられたディスプレイに表示させることは、
少なくとも1つの基準に基づいて、複数のデバイスから前記第2のデバイスを判定すること
を含む、方法。
【請求項3】
請求項2に記載の方法であって、少なくとも1つの基準に基づいて、複数のデバイスから前記第2のデバイスを判定することは、
前記電子デバイスと前記複数のデバイスの各デバイスとの間の距離を判定することと、
前記判定された距離に基づいて、前記第2のデバイスを判定することと、
を含む、方法。
【請求項4】
請求項2に記載の方法であって、
前記判定されたメディアコンテンツは画像であり、少なくとも1つの基準に基づいて、複数のデバイスから前記第2のデバイスを判定することは、
前記判定されたメディアコンテンツ
の画像サイズを判定することと、
前記判定された
画像サイズに基づいて、前記第2のデバイスを判定することと、
を含む、方法。
【請求項5】
請求項1乃至4のいずれか一項に記載の方法であって、
前記発語入力に基づいて、前記ユーザを識別することと、
前記識別されたユーザに関連付けられたデータに基づいて、前記発語入力の前記ユーザ意図を判定することと、
を備える、方法。
【請求項6】
請求項5に記載の方法であって、前記ユーザ
を識別することは、
前記ユーザの声紋を使用する音声認識を使用して前記発語入力を分析することを含む、
方法。
【請求項7】
請求項1乃至
6のいずれか一項に記載の方法であって、前記発語入力は、前記第2のデバイス上でコンテンツを再生するという要求を含み、
前記第2のデバイス上でコンテンツを再生するという前記要求に応じて、前記第2のデバイス上で前記メディアコンテンツが再生される、
方法。
【請求項8】
請求項
7に記載の方法であって、前記第2のデバイス上でコンテンツを再生するという要求を含む前記発語入力は、場所の言及を含む、
方法。
【請求項9】
請求項
7に記載の方法であって、前記第2のデバイス上でコンテンツを再生するという要求を含む前記発語入力は、デバイスタイプの言及を含む、
方法。
【請求項10】
請求項1乃至
9のいずれか一項に記載の方法であって、
メディアフォーマット、ユーザの好み又はデフォルト設定に基づいて、前記判定されたメディアコンテンツを、第2のディスプレイ上に表示すべきか、それとも前記第2のデバイスに関連付けられた前記ディスプレイ上に表示すべきかを判定することを備え、
前記判定されたメディアコンテンツを前記第2のデバイスに関連付けられた前記ディスプレイ上に表示すべきであるという判定に応じて、前記メディアコンテンツが前記第2のデバイスに関連付けられた前記ディスプレイ上に表示され、
前記判定されたメディアコンテンツを前記第2のディスプレイ上に表示すべきであるという判定に応じて、前記メディアコンテンツが前記第2のディスプレイ上に表示される、
方法。
【請求項11】
請求項1乃至
10のいずれか一項に記載の方法であって、
前記第2のデバイス及び第3のデバイスを含む2以上のデバイスの各々の近接度を判定することを備え、
前記第3のデバイスの前記近接度に対する前記第2のデバイスの前記近接度に基づいて、前記メディアコンテンツ
が前記第2のデバイス上で再生される、
方法。
【請求項12】
請求項
11に記載の方法であって、2以上のデバイスの各々の前記近接度は、
無線周波数
を使用する飛行時間測定に基づいて判定される、
方法。
【請求項13】
請求項
11に記載の方法であって、2以上のデバイスの各々の前記近接度は、少なくとも1つのサウンドトラベル測定に基づいて判定される、
方法。
【請求項14】
請求項1乃至
13のいずれか一項に記載の方法であって、前記メディアコンテンツを、第2のデバイスに関連付けられたディスプレイに表示させることは、
前記ユーザに関連付けられたユーザの好みを取得することと、
前記ユーザの好みに基づいて、前記第2のデバイスを識別することと、
を含む、方法。
【請求項15】
請求項
14に記載の方法であって、前記ユーザの好みは、第1のコンテンツタイプを第1の個別のデバイス上に表示し、第2のコンテンツタイプを第2の個別のデバイス上に表示するという好みを示す、
方法。
【請求項16】
請求項
14に記載の方法であって、前記ユーザの好みは、前記発語入力が第1の個別のクエリを含むという判定に従って第1のコンテンツタイプを第1の個別のデバイス上に表示するという好みを示す、
方法。
【請求項17】
請求項1乃至
16のいずれか一項に記載の方法をコンピュータに実行させるコンピュータプログラム。
【請求項18】
電子デバイスであって、
請求項
17に記載のコンピュータプログラムを格納したメモリと、
前記メモリに格納された前記コンピュータプログラムを実行可能な1以上のプロセッサと、
を備える、電子デバイス。
【請求項19】
電子デバイスであって、
請求項1乃至
16のいずれか一項に記載の方法を実行する手段
を備える、電子デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2014年6月30日付けで出願された「INTELLIGENT AUTOMATED ASSISTANT FOR TV USER INTERACTIONS」と題する米国特許仮出願第62/019,312号、及び2014年9月26日付けで出願された「INTELLIGENT AUTOMATED ASSISTANT FOR TV USER INTERACTIONS」と題する米国特許出願第14/498,503号に基づく優先権を主張し、これらの出願は、あらゆる目的のためにその全体が参照として本明細書に組み込まれる。
【0002】
本出願はまた、同時係属中の、2014年6月30日付けで出願された「REAL-TIME DIGITAL ASSISTANT KNOWLEDGE UPDATES」と題する米国特許出願第62/019,292号(代理人書類番号106843097900(P22498USP1))に関し、この出願は、その全体が参照として本明細書に組み込まれる。
[技術分野]
【0003】
本出願は、概して、テレビユーザ対話を制御することに関し、より詳細には、テレビユーザ対話を制御するために、仮想アシスタントに対する発語を処理することに関する。
【背景技術】
【0004】
インテリジェント自動アシスタント(又は仮想アシスタント)は、ユーザと電子デバイスとの間の直観的なインタフェースを提供する。これらのアシスタントは、ユーザが、口頭形態及び/又はテキスト形態の自然言語を使用してデバイス又はシステムと対話することを可能にすることができる。例えば、ユーザは、電子デバイスと関連付けられた仮想アシスタントに、自然言語形態の口頭ユーザ入力を提供することによって、電子デバイスのサービスにアクセスすることができる。仮想アシスタントは、ユーザの意図を推測し、ユーザの意図をタスクへと操作できるようにするために、口頭ユーザ入力に対して自然言語処理を実行することができる。次いで、電子デバイスの1つ以上の機能を実行することによってタスクを実行することができ、いくつかの実施例では、関連する出力を自然言語形態でユーザに戻すことができる。
【0005】
携帯電話(例えば、スマートフォン)、タブレットコンピュータなどが、仮想アシスタント制御から恩恵を受ける一方で、多くの他のユーザデバイスには、そのような便利な制御機構がない。例えば、メディア制御デバイス(例えば、テレビ、テレビセットトップボックス、ケーブルボックス、ゲームデバイス、ストリーミングメディアデバイス、デジタルビデオレコーダなど)とのユーザ対話の学習は、複雑で難しいことがある。更に、そのようなデバイス(例えば、オーバージエアTV、サブスクリプションTVサービス、ストリーミングビデオサービス、ケーブルオンデマンドビデオサービス、ウェブベースのビデオサービスなど)を介して利用可能なソースが増えると、一部のユーザには、消費する所望のメディアコンテンツを発見することが煩雑で、面倒でさえあり得る。その結果、多くのメディア制御デバイスは、ユーザエクスペリエンスを低下させ、多くのユーザを失望させることがある。
【発明の概要】
【0006】
仮想アシスタントを使用してテレビ対話を制御するためのシステム及びプロセスを開示する。1つの実施例では、ユーザからの発語入力を受信することができる。その発語入力に基づいて、メディアコンテンツを判定することができる。第1のサイズを有する第1のユーザインタフェースを表示することができ、第1のユーザインタフェースは、メディアコンテンツに選択可能なリンクを含むことができる。選択可能なリンクのうちの1つの選択を受信することができる。その選択に応じて、第1のサイズよりも大きい第2のサイズを有する第2のユーザインタフェースを表示することができ、第2のユーザインタフェースは、その選択と関連付けられたメディアコンテンツを備える。
【0007】
別の実施例では、第1のディスプレイを有する第1のデバイスにおいて、ユーザからの発語入力を受信することができる。第1のディスプレイ上に表示されたコンテンツに基づいて、この発語入力のユーザの意図を判定することができる。そのユーザ意図に基づいて、メディアコンテンツを判定することができる。第2のディスプレイと関連付けられた第2のデバイス上で、このメディアコンテンツを再生することができる。
【0008】
別の実施例では、ユーザからの発語入力を受信することができ、その発語入力は、テレビディスプレイ上に表示されたコンテンツと関連付けられたクエリを含むことができる。テレビディスプレイ上に表示されたコンテンツのうちの1つ以上とメディアコンテンツの閲覧履歴とに基づいて、クエリのユーザ意図を判定することができる。判定したユーザ意図に基づいて、クエリの結果を表示することができる。
【0009】
別の実施例では、ディスプレイ上にメディアコンテンツを表示することができる。ユーザからの入力を受信することができる。メディアコンテンツ及び/又はメディアコンテンツの閲覧履歴に基づいて、仮想アシスタントクエリを判定することができる。推薦された仮想アシスタントクエリをディスプレイ上に表示することができる。
【図面の簡単な説明】
【0010】
【
図1】仮想アシスタントを使用してテレビユーザ対話を制御するための例示的なシステムを示す図である。
【0011】
【
図2】種々の実施例に係る、例示的なユーザデバイスのブロック図である。
【0012】
【
図3】テレビユーザ対話を制御するためのシステムにおける例示的なメディア制御デバイスのブロック図である。
【0013】
【
図4A】動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
【
図4B】動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
【
図4C】動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
【
図4D】動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
【
図4E】動画コンテンツ上の例示的な発語入力インタフェースを示す図である。
【0014】
【
図5】動画コンテンツ上の例示的なメディアコンテンツインタフェースを示す。
【0015】
【
図6A】動画コンテンツ上の例示的なメディア詳細インタフェースを示す図である。
【
図6B】動画コンテンツ上の例示的なメディア詳細インタフェースを示す図である。
【0016】
【
図7A】例示的なメディア遷移インタフェースを示す図である。
【
図7B】例示的なメディア遷移インタフェースを示す図である。
【0017】
【
図8A】メニューコンテンツ上の例示的な発語入力インタフェースを示す図である。
【
図8B】メニューコンテンツ上の例示的な発語入力インタフェースを示す図である。
【0018】
【
図9】メニューコンテンツ上の例示的な仮想アシスタント結果インタフェースを示す図である。
【0019】
【
図10】仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連付けられた情報を表示するための例示的なプロセスを示す図である。
【0020】
【
図11】モバイルユーザデバイス上の例示的なテレビメディアコンテンツを示す図である。
【0021】
【
図12】仮想アシスタントを使用した例示的なテレビ制御を示す図である。
【0022】
【
図13】モバイルユーザデバイス上の例示的な写真及び動画コンテンツを示す図である。
【0023】
【
図14】仮想アシスタントを使用した例示的なメディア表示制御を示す図である。
【0024】
【
図15】モバイルユーザデバイス及びメディア表示デバイス上の結果を備える例示的な仮想アシスタント対話を示す図である。
【0025】
【
図16】メディア表示デバイス及びモバイルユーザデバイス上のメディア結果を備える例示的な仮想アシスタント対話を示す図である。
【0026】
【
図17】近接度に基づく例示的なメディアデバイス制御を示す図である。
【0027】
【
図18】仮想アシスタント及び複数のユーザデバイスを使用してテレビ対話を制御するための例示的なプロセスを示す図である。
【0028】
【
図19】動画バックグラウンドコンテンツに関する仮想アシスタントクエリを備える例示的な発語入力インタフェースを示す図である。
【0029】
【
図20】動画コンテンツ上の例示的な情報仮想アシスタント応答を示す図である。
【0030】
【
図21】動画バックグラウンドコンテンツと関連付けられたメディアコンテンツについての仮想アシスタントクエリを備える例示的な発語入力インタフェースを示す図である。
【0031】
【
図22】選択可能なメディアコンテンツを備える例示的な仮想アシスタント応答インタフェースを示す図である。
【0032】
【
図23A】プログラムメニューの例示的なページを示す図である。
【
図23B】プログラムメニューの例示的なページを示す図である。
【0033】
【
図24】カテゴリーに分けられた例示的なメディアメニューを示す図である。
【0034】
【
図25】ディスプレイ上の示されたメディアコンテンツとメディアコンテンツの閲覧履歴とを使用して、テレビ対話を制御するための例示的なプロセスを示す図である。
【0035】
【
図26】動画バックグラウンドコンテンツに基づく仮想アシスタントクエリ推薦を備える例示的なインタフェースを示す図である。
【0036】
【
図27】推薦されたクエリの選択を確認するための例示的なインタフェースを示す図である。
【0037】
【
図28A】選択されたクエリに基づく例示的な仮想アシスタント回答インタフェースを示す図である。
【
図28B】選択されたクエリに基づく例示的な仮想アシスタント回答インタフェースを示す図である。
【0038】
【
図29】メディアコンテンツ通知、及びその通知に基づく仮想アシスタントクエリ推薦を備える例示的なインタフェースを示す図である。
【0039】
【
図30】メディア制御デバイス上で再生可能な例示的な写真及び動画コンテンツを備えるモバイルユーザデバイスを示す図である。
【0040】
【
図31】再生可能なユーザデバイスコンテンツに基づき、かつ、別個のディスプレイ上に表示される動画コンテンツに基づく仮想アシスタントクエリ推薦を備える例示的なモバイルユーザデバイスインタフェースを示す図である
【0041】
【
図32】別個のユーザデバイスからの再生可能なコンテンツに基づく仮想アシスタントクエリ推薦を備える例示的なインタフェースを示す図である。
【0042】
【
図33】メディアコンテンツを制御するための仮想アシスタント対話を推薦するための例示的なプロセスを示す図である。
【0043】
【
図34】種々の実施例に係る、仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連情報を表示するように構成される電子デバイスの機能ブロック図を示す図である。
【0044】
【
図35】種々の実施例に係る、仮想アシスタントと複数のユーザデバイスとを使用してテレビ対話を制御するように構成される電子デバイスの機能ブロック図を示す図である。
【0045】
【
図36】種々の実施例に係る、ディスプレイ上に表示されたメディアコンテンツとメディアコンテンツの閲覧履歴とを使用してテレビ対話を制御するように構成される電子デバイスの機能ブロック図を示す図である。
【0046】
【
図37】種々の実施例に係る、メディアコンテンツを制御するための仮想アシスタント対話を推薦するように構成された電子デバイスの機能ブロック図を示す図である。
【発明を実施するための形態】
【0047】
以下の実施例の説明では、実践することが可能な特定の実施例が例示として示される、添付図面を参照する。様々な実施例の範囲から逸脱することなく、他の実施例を使用することができ、構造上の変更を実施することができる点を理解されたい。
【0048】
これは、仮想アシスタントを使用してテレビユーザ対話を制御するためのシステム及びプロセスに関する。1つの実施例では、テレビディスプレイ上に表示されるコンテンツを制御するテレビセットトップボックスなどのメディア制御デバイスと対話するために、仮想アシスタントを使用することができる。仮想アシスタントのための発語入力を受信するために、マイクロフォンを備えるモバイルユーザデバイス又は遠隔制御を使用することができる。発語入力からユーザの意図を判定することができ、仮想アシスタントは、接続されたテレビ上でメディアを再生させること、及びテレビセットトップボックス又は同様のデバイスの任意の他の機能を制御すること(例えば、ビデオ録画を管理すること、メディアコンテンツ検索すること、メニューをナビゲートすることなど)を含む、ユーザの意図に従ったタスクを実行することができる。
【0049】
仮想アシスタント対話は、接続されたテレビ又は他のディスプレイ上に表示することができる。1つの実施例では、ユーザから受信した発語入力に基づいて、メディアコンテンツを判定することができる。判定したメディアコンテンツへの選択可能なリンクを含む、第1の小さいサイズの第1のユーザインタフェースを表示することができる。メディアリンクの選択を受信した後、その選択と関連付けられたメディアコンテンツを含む、第2のより大きなサイズの第2のユーザインタフェースを表示することができる。他の実施例では、仮想アシスタント対話を伝達するため使用されるインタフェースは、所望の情報を伝達しながら、占有スペースを最小量にするように拡大又は縮小することができる。
【0050】
いくつかの実施例では、複数のディスプレイと関連付けられた複数のデバイスを使用して、発語入力からユーザ意図を判定するだけでなく、種々のやり方でユーザに情報を伝達することができる。例えば、第1のディスプレイを有する第1のデバイスにおいて、ユーザからの発語入力を受信することができる。第1のディスプレイ上に表示されたコンテンツに基づいて、発語入力からユーザの意図を判定することができる。そのユーザ意図に基づいて、メディアコンテンツを判定することができ、第2のディスプレイと関連付けられた第2のデバイス上で、そのメディアコンテンツを再生することができる。
【0051】
また、発語入力からユーザ意図を判定するために、テレビディスプレイコンテンツをコンテキスト入力として使用することもできる。例えば、ユーザから、テレビディスプレイ上に表示されたコンテンツと関連付けられたクエリを含む発語入力を受信することができる。テレビディスプレイ上に表示されたコンテンツ、並びにテレビディスプレイ上のメディアコンテンツの閲覧履歴に基づいて、クエリのユーザ意図を判定する(例えば、再生中のTV番組におけるキャラクターに基づいてクエリの曖昧性を回避する)ことができる。次いで、判定したユーザ意図に基づいて、クエリの結果を表示することができる。
【0052】
いくつかの実施例では、仮想アシスタントクエリ推薦をユーザに提供することができる(例えば、利用可能なコマンドをユーザに知らせる、面白いコンテンツを推薦する、など)。例えば、ディスプレイ上にメディアコンテンツを表示することができ、ユーザから、仮想アシスタントクエリ推薦を要求する入力を受信することができる。ディスプレイ上に表示されたメディアコンテンツとディスプレイ上に表示されたメディアコンテンツの閲覧履歴とに基づいて、仮想アシスタントクエリーズ推薦を判定することができる(例えば、再生中のTV番組に関するクエリを推薦する)。次いで、推薦された仮想アシスタントクエリをディスプレイ上に表示することができる。
【0053】
本明細書で論じる種々の実施例に従って、仮想アシスタントを使用してテレビユーザ対話を制御すると、効率的で楽しいユーザエクスペリエンスを提供することができる。自然言語クエリ又はコマンドを受信することが可能な仮想アシスタントを使用すると、メディア制御デバイスとのユーザ対話を直観的かつ単純にすることができる。所望に応じて、コンテンツを再生することに基づく有意味なクエリ推薦を含めて、利用可能な機能をユーザに推薦することができ、これは、ユーザが制御能力を学習するのに役立ち得る。更に、直観的な口頭コマンドを使用すると、利用可能なメディアに簡単にアクセスできるようにすることができる。ただし、本明細書で論じる種々の実施例によれば、更に多くの他の利点を達成できることを理解されたい。
【0054】
図1は、仮想アシスタントを使用してテレビユーザ対話を制御するための例示的なシステム100を示す。本明細書で論じるようにテレビユーザ対話を制御することは、1つの種類のディスプレイ技術に基づいたメディアの制御の一例にすぎず、参照のために使用されるものであり、本明細書で論じる概念を使用して、一般的には種々のデバイス及び関連付けられたディスプレイ(例えば、モニタ、ラップトップディスプレイ、デスクトップコンピュータディスプレイ、モバイルユーザデバイスディスプレイ、プロジェクタディスプレイなど)のいずれかの上などで、任意のメディアコンテンツ対話を制御できることを理解されたい。したがって、用語「テレビ」は、種々のデバイスのうちのいずれかと関連付けられる任意の種類のディスプレイを指すことができる。更に、用語「仮想アシスタント」、「デジタルアシスタント」、「インテリジェント自動アシスタント」、又は「自動デジタルアシスタント」は、口頭及び/又はテキスト形式の自然言語入力を解釈してユーザ意図を推測し、推測されたユーザ意図に基づきアクションを実行する任意の情報処理システムを指すことができる。例えば、推定されたユーザ意図に基づいてアクションを行うために、システムは、以下のうちの1つ以上を実行することができる。すなわち、推定されたユーザ意図を果たすように設計されるステップ及びパラメータを有するタスクフローを識別すること、推定されたユーザ意図から具体的な要求をタスクフローに入力すること、プログラム、方法、サービス、APIなどを呼び出すことによりタスクフローを実行すること、並びにユーザへの出力応答を聴覚形態(例えば、口頭形態)及び/又は視覚形態で生成することである。
【0055】
仮想アシスタントは、自然言語コマンド、要求、陳述、叙述、及び/又は照会の形で少なくとも部分的にユーザ要求を受け入れることができる。典型的には、ユーザ要求は、(例えば、特定の媒体を表示させる)仮想アシスタントによる、情報回答又はタスクの実行のいずれかを要求する。ユーザの要求に対する満足な応答は、要求された情報回答を提供すること、要求されたタスクを実行すること、又はその2つの組み合わせを含むことができる。例えば、ユーザは仮想アシスタントに「私は今どこにいますか?」などの質問をすることができる。ユーザの現在の場所に基づき、仮想アシスタントは、「あなたはセントラルパーク内にいます」と回答することができる。ユーザはまた、例えば、「今日午後4時に母に電話することを私に思い出させてください」と、タスクの実行を要求することができる。それに応じて、仮想アシスタントは要求を確認し、次に、ユーザの電子スケジュール内に適当なリマインダ項目を作成することができる。要求されたタスクの実行中、仮想アシスタントは、時には、長時間にわたって情報を複数回交換する連続的なダイアログにおいて、ユーザと対話することができる。情報又は種々のタスクの実行を要求するために仮想アシスタントと対話するやり方は他にも数多く存在する。言葉による応答を提供し、プログラムされたアクションを取ることに加えて、仮想アシスタント、他の視覚形態又はオーディオ形態の応答を(例えば、テキスト、アラート、音楽、動画、アニメーションなどとして)提供することもできる。更に、本明細書で説明するように、例示的な仮想アシスタントは、メディアコンテンツの再生を制御する(例えば、テレビで動画を再生する)ことができ、ディスプレイ上に情報を表示させることができる。
【0056】
仮想アシスタントの1つの例が、その開示全体が参照により本明細書に組み込まれる2011年1月10日付で出願された「Intelligent Automated Assistant」についての本願出願人の米国実用特許出願第12/987,982号に記載されている。
【0057】
図1に示したように、いくつかの実施例では、クライアント-サーバモデルに従って、仮想アシスタントを実装することができる。仮想アシスタントは、ユーザデバイス102上で実行されるクライアント側部分と、サーバシステム110上で実行されるサーバ側部分とを含むことができる。また、遠隔制御106と連携して、テレビセットトップボックス104上でクライアント側部分を実行することができる。ユーザデバイス102は、携帯電話(例えば、スマートフォン)、タブレットコンピュータ、ポータブルメディアプレーヤ、デスクトップコンピュータ、ラップトップコンピュータ、PDA、ウェアラブル電子デバイス(例えば、デジタルグラス、リストバンド、腕時計、ブローチ、アームバンドなど)のような任意の電子デバイスを含むことができる。テレビセットトップボックス104は、ケーブルボックス、衛星ボックス、ビデオプレーヤ、ビデオストリーミングデバイス、デジタルビデオレコーダ、ゲームシステム、DVDプレーヤ、Blu-ray(登録商標)ディスクプレーヤ、そのようなデバイスの組み合わせなどのような任意のメディア制御デバイスを含むことができる。有線接続又は無線接続を介して、ディスプレイ112及びスピーカ111にテレビセットトップボックス104を接続することができる。(スピーカ111を有する、又は有しない)ディスプレイ112は、テレビディスプレイ、モニタ、プロジェクタなどのような任意の種類のディスプレイとすることができる。いくつかの実施例では、テレビセットトップボックス104は、オーディオシステム(例えば、オーディオ受信器)に接続することができ、スピーカ111は、ディスプレイ112とは別個とすることができる。他の実施例では、ディスプレイ112と、スピーカ111と、テレビセットトップボックス104とを、高度な処理能力及びネットワーク接続能力をもつ、スマートテレビなどの単一のデバイスに一緒に組み込むことができる。そのような実施例では、複合デバイス上のアプリケーションとしてテレビセットトップボックス104の機能を実行することができる。
【0058】
いくつかの実施例では、テレビセットトップボックス104は、メディアコンテンツの複数の種類及びソースについてのメディア制御センターとして機能することができる。例えば、テレビセットトップボックス104は、生放送のテレビ(例えば、オーバージエアテレビ、衛星テレビ、又はケーブルテレビ)へのユーザアクセスを可能にすることができる。したがって、テレビセットトップボックス104は、ケーブルチューナ、衛星チューナなどを含むことができる。いくつかの実施例では、テレビセットトップボックス104はまた、後でタイムシフト視聴するためにテレビプログラムを録画することができる。他の実施例では、テレビセットトップボックス104は、(例えば、種々の無料の、有料の、及びサブスクリプションベースのストリーミングサービスから)ケーブル配信されるオンデマンドのテレビ番組、動画及び音楽、並びにインターネット配信されるテレビ番組、動画及び音楽など、1つ以上のストリーミングメディアサービスへのアクセスを提供することができる。更に他の実施例では、テレビセットトップボックス104は、モバイルユーザデバイスから写真を表示すること、結合された記憶デバイスから動画を再生すること、結合された音楽プレーヤから音楽を再生することなど、任意の他のソースからのメディアコンテンツの再生又は表示を可能にすることができる。また、テレビセットトップボックス104はまた、所望に応じて、本明細書で論じるメディア制御特徴部の種々の他の組み合わせを含むことができる。
【0059】
ユーザデバイス102及びテレビセットトップボックス104は、1つ以上のネットワーク108を介してサーバシステム110と通信することができ、1つ以上のネットワーク108は、インターネット、イントラネット、又は任意の他の有線若しくは無線のパブリック若しくはプライベートネットワークを含むことができる。更に、ユーザデバイス102は、ネットワーク108を介して、又は、任意の他の有線通信機構又は無線通信機構(例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、無線周波数、赤外線伝送など)により直接、テレビセットトップボックス104と通信することができる。例示したように、遠隔制御106は、ネットワーク108を介することを含めて、有線接続、又は任意の種類の無線通信(例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、無線周波数、赤外線伝送など)などの任意の種類の通信を使用して、テレビセットトップボックス104と通信することができる。いくつかの実施例では、ユーザは、ユーザデバイス102、遠隔制御106、又はテレビセットトップボックス104内に組み込まれるインタフェース要素(例えば、ボタン、マイクロフォン、カメラ、ジョイスティックなど)を介して、テレビセットトップボックス104と対話することができる。例えば、ユーザデバイス102及び/又は遠隔制御106において、仮想アシスタントのためのメディアに関係するクエリ又はコマンドを含む発語入力を受信することができ、その発語入力を使用して、メディアに関係するタスクをテレビセットトップボックス104上で実行させることができる。同様に、ユーザデバイス102及び/又は遠隔制御106において(並びに、図示されていない他のデバイスから)、テレビセットトップボックス104上でメディアを制御するための触覚コマンドを受信することができる。したがって、種々のやり方でテレビセットトップボックス104の種々の機能を制御することができ、ユーザには、複数のデバイスからのメディアコンテンツを制御するための複数のオプションが与えられる。
【0060】
遠隔制御106を用いてユーザデバイス102及び/又はテレビセットトップボックス104上で実行される例示的な仮想アシスタントのクライアント側部分は、ユーザ対応入力及び出力処理及びサーバシステム110との通信など、クライアント側機能を提供することができる。サーバシステム110は、それぞれのユーザデバイス102又はそれぞれのテレビセットトップボックス104上に常駐している任意の数のクライアントに、サーバ側機能を提供することができる。
【0061】
サーバシステム110は、クライアント対応I/Oインタフェース122と、1つ以上の処理モジュール118と、データ及びモデルストレージ120と、外部サービスへのI/Oインタフェース116とを含むことができる1つ以上の仮想アシスタントサーバ114を含むことができる。クライアント対応I/Oインタフェース122は、仮想アシスタントサーバ114のためのクライアント対応入力及び出力処理を可能にすることができる。1つ以上の処理モジュール118は、自然言語入力に基づいてユーザの意図を判断するために、データ及びモデルストレージ120を利用することができ、推定されたユーザ意図に基づいてタスク実行を行うことができる。いくつかの実施例では、仮想アシスタントサーバ114は、タスク完了又は情報収集のためにネットワーク(単数又は複数)108を介して、電話サービス、カレンダーサービス、情報サービス、メッセージングサービス、ナビゲーションサービス、テレビプログラムサービス、ストリーミングメディアサービスなどの外部サービス124と通信することができる。外部サービスへのI/Oインタフェース116は、このような通信を可能にすることができる。
【0062】
サーバシステム110は、1つ以上のスタンドアロンデータ処理デバイス、又はコンピュータの分散型ネットワーク上に実装することができる。また、いくつかの実施例では、サーバシステム110は、サーバシステム110の基本的なコンピューティングリソース及び/又はインフラストラクチャリソースを提供するために、種々の仮想デバイス及び/又はサードパーティサービスプロバイダ(例えば、サードパーティクラウドサービスプロバイダ)のサービスを採用することができる。
【0063】
仮想アシスタントの機能は、クライアント側部分とサーバ側部分の双方を含むものとして
図1に示されているが、いくつかの実施例では、ユーザデバイス、テレビセットトップボックス、スマートテレビなどにインストールされたスタンドアロンアプリケーションとして、アシスタントの機能(又は、一般的には、発語認識及びメディア制御)を実装することができる。更に、異なる実施例にでは、仮想アシスタントのクライアント部分とサーバ部分との間の機能の分配を変動させることができる。例えば、いくつかの実施例では、ユーザデバイス102又はテレビセットトップボックス104上で実行されるクライアントは、ユーザ対応入力及び出力処理機能のみを提供し、バックエンドサーバに仮想アシスタントの全ての他の機能を委ねるシンクライアントとすることができる。
【0064】
図2は、種々の実施例に係る、例示的なユーザデバイス102のブロック図を示す。ユーザデバイス102は、メモリインタフェース202、1つ以上のプロセッサ204、及び周辺機器インタフェース206を含むことができる。1つ以上の通信バス又は信号線によって、ユーザデバイス102内の種々の構成要素を1つに結合することができる。ユーザデバイス102は、周辺機器インタフェース206に結合される種々のセンサ、サブシステム、及び周辺デバイスを更に含むことができる。センサ、サブシステム、及び周辺デバイスは情報を収集し、及び/又はユーザデバイス102の種々の機能を可能にすることができる。
【0065】
例えば、ユーザデバイス102は、向き、光、及び近接度の検知機能を可能にするための動きセンサ210、光センサ212、及び近接センサ214を含むことができ、それらは、周辺機器インタフェース206に結合される。また、関係する機能を可能にするために、測位システム(例えば、GPS受信機)、温度センサ、生体測定センサ、ジャイロスコープ、コンパス、加速度計、及び同様のものなどの、1つ以上の他のセンサ216を周辺機器インタフェース206に接続することができる。
【0066】
いくつかの実施例では、カメラサブシステム220及び光学センサ222を利用して、写真の撮影及びビデオクリップの録画などの、カメラ機能を可能にすることができる。種々の通信ポート、無線周波数受信器及び送信器、並びに/又は光(例えば、赤外線)受信器及び送信器を含むことができ、1つ以上の有線及び/又は無線通信サブシステム224を介して、通信機能を可能にすることができる。音声認識機能、音声複製機能、デジタル録音機能、及び電話機能などの音声対応機能を可能にするために、オーディオサブシステム226をスピーカ228及びマイクロフォン230に結合することができる。
【0067】
いくつかの実施例では、ユーザデバイス102は、周辺機器インタフェース206に結合されたI/Oサブシステム240を更に含むことができる。I/Oサブシステム240は、タッチスクリーンコントローラ242及び/又は他の入力コントローラ(単数又は複数)244を含むことができる。タッチスクリーンコントローラ242は、タッチスクリーン246に結合することができる。タッチスクリーン246及びタッチスクリーンコントローラ242は、例えば、容量性、抵抗性、赤外線、表面弾性波技術、近接センサアレイなどの複数のタッチ感知技術のうちのいずれかを用いて、接触及びその移動又は中断を検出することができる。他の入力コントローラ(単数又は複数)244は、1つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、USBポート、及び/又はスタイラスなどのポインタデバイスなど、他の入力/制御デバイス248に結合することができる。
【0068】
いくつかの実施例では、ユーザデバイス102は、メモリ250に結合されたメモリインタフェース202を更に含むことができる。メモリ250は、任意の、電子、磁気、光学、電磁、赤外若しくは半導体システム、装置若しくはデバイス、ポータブルコンピュータディスケット(磁気)、ランダムアクセスメモリ(RAM)(磁気)、読み出し専用メモリ(ROM)(磁気)、消去可能なプログラマブル読み出し専用メモリ(EPROM)(磁気)、CD、CD-R、CD-RW、DVD、DVD-R若しくはDVD-RWなどのポータブル光ディスク、又はコンパクトフラッシュ(登録商標)カード、セキュアなデジタルカード、USBメモリデバイス、メモリースティックなどのフラッシュメモリなどを含むことができる。いくつかの実施例では、メモリ250の非一時的コンピュータ可読記憶媒体を使用して、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行することができる他のシステムなどの、命令実行システム、装置、若しくはデバイスによって、又はそれらと共に使用するための(例えば、本明細書で説明する種々のプロセスの一部分又は全部を実行する)命令を記憶することができる。他の実施例では、(例えば、本明細書で説明する種々のプロセスの一部分又は全部を実行する)命令は、サーバシステム110の非一時的コンピュータ可読記憶媒体上に記憶されても、あるいはメモリ250の非一時的コンピュータ可読記憶媒体とサーバシステム110の非一時的コンピュータ可読記憶媒体とに分割してもよい。本文書のコンテキストでは、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを、含むか又は記憶することが可能な、任意の媒体とすることができる。
【0069】
いくつかの実施例では、メモリ250は、オペレーティングシステム252、通信モジュール254、グラフィカルユーザインタフェースモジュール256、センサ処理モジュール258、電話モジュール260、及びアプリケーション262を記憶することができる。オペレーティングシステム252は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール254は、1つ以上の追加のデバイス、1つ以上のコンピュータ及び/又は1つ以上のサーバとの通信を可能にすることができる。グラフィカルユーザインタフェースモジュール256はグラフィックユーザインタフェース処理を可能にすることができる。センサ処理モジュール258はセンサに関係する処理及び機能を可能にすることができる。電話モジュール260は電話に関係するプロセス及び機能を可能にすることができる。アプリケーションモジュール262は、電子メッセージング、ウェブブラウジング、メディア処理、ナビゲーション、イメージング及び/又はその他のプロセス及び機能などの、ユーザアプリケーションの種々の機能性を可能にすることができる。
【0070】
本明細書で説明するように、メモリ250はまた、例えば仮想アシスタントのクライアント側機能を提供するために、(例えば、仮想アシスタントクライアントモジュール264内の)クライアント側仮想アシスタント命令、並びに種々のユーザデータ266(例えば、ユーザ固有の語彙データ、設定データ、及び/若しくはユーザの電子アドレス帳、to-doリスト、買い物リスト、テレビプログラムの好みなど)も記憶することができる。また、ユーザデータ266は、仮想アシスタントをサポートする、又は任意の他のアプリケーションについての発語認識を実行する際に使用することができる。
【0071】
種々の実施例では、仮想アシスタントクライアントモジュール264は、ユーザデバイス102の種々のユーザインタフェース(例えば、I/Oサブシステム240、オーディオサブシステム226など)を通じて音声入力(例えば、発語入力)、テキスト入力、タッチ入力、及び/又はジェスチャ入力を受け入れる能力を有することができる。仮想アシスタントトクライアントモジュール264はまた、オーディオ(例えば、発語出力)形態、視覚形態、及び/又は触覚形態の出力を提供する能力も有することができる。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び/又は上記のもののうちの2つ以上の組み合わせとして提供することができる。動作時、仮想アシスタントクライアントモジュール264は、通信サブシステム224を用いて仮想アシスタントサーバと通信することができる。
【0072】
いくつかの実施例では、仮想アシスタントクライアントモジュール264は、ユーザ、現在のユーザ対話及び/又は現在のユーザ入力と関連付けられたコンテキストを確立するために、種々のセンサ、サブシステム及び周辺デバイスを利用してユーザデバイス102の周囲環境から追加情報を収集することができる。そのようなコンテキストはまた、テレビセットトップボックス104からの情報など、他のデバイスからの情報を含むことができる。いくつかの実施例では、仮想アシスタントクライアントモジュール264は、ユーザの意図の推測を助けるために、ユーザ入力と共にコンテキスト情報又はそのサブセットを仮想アシスタントサーバに提供することができる。仮想アシスタントはまた、コンテキスト情報を使用して、ユーザへの出力をどのように準備し、配信するのかを判定することができる。更に、正確な発語認識をサポートするために、ユーザデバイス102又はサーバシステム110によりコンテキスト情報を使用することができる。
【0073】
いくつかの実施例では、ユーザ入力に付随するコンテキスト情報は、照明、環境ノイズ、周囲温度、周囲環境の画像又は動画、他のオブジェクトまでの距離などの、センサ情報を含むことができる。コンテキスト情報は、ユーザデバイス102の物理状態(例えば、デバイスの向き、デバイスの位置、デバイスの温度、電力レベル、速度、加速度、モーションパターン、セルラー信号強度など)、又はユーザデバイス102のソフトウェア状態(例えば、実行中の処理、インストールされているプログラム、過去及び現在のネットワークアクティビティ、バックグラウンドサービス、エラーログ、リソース使用など)と関連付けられた情報を更に含むことができる。コンテキスト情報は、接続されたデバイス又はユーザと関連付けられた他のデバイスの状態と関連付けられた情報(例えば、テレビセットトップボックス104により表示されたメディアコンテンツ、テレビセットトップボックス104が利用可能なメディアコンテンツなど)を更に含むことができる。これらの種類のコンテキスト情報のうちのいずれかを、ユーザ入力と関連付けられたコンテキスト情報として、仮想アシスタントサーバ114に提供することができる(あるいは、ユーザデバイス102自体で使用することができる)。
【0074】
いくつかの実施例では、仮想アシスタントクライアントモジュール264は、仮想アシスタントサーバ114からの要求に応じて、ユーザデバイス102に記憶された情報(例えば、ユーザデータ266)を選択的に提供することができる(あるいは、発語認識及び/又は仮想アシスタント機能を実行する際にユーザデバイス102自体で使用することができる)。仮想アシスタントクライアントモジュール264はまた、仮想アシスタントサーバ114による要求時に、自然言語ダイアログ又は他のユーザインタフェースを介して、ユーザからの追加入力も引き出すことができる。仮想アシスタントクライアントモジュール264は、意図推測及び/又はユーザ要求内に表されているユーザの意図の達成において仮想アシスタントサーバ114を助けるために、追加入力を仮想アシスタントサーバ114に渡すことができる。
【0075】
種々の実施例では、メモリ250は追加の命令又はより少数の命令を含むことができる。更に、ユーザデバイス102の種々の機能は、1つ以上の信号処理回路及び/又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び/又はファームウェアの形態で実装され得る。
【0076】
図3は、テレビユーザ対話を制御するためのシステム300における例示的なテレビセットトップボックス104のブロック図である。システム300は、システム100の要素のサブセットを含むことができる。いくつかの実施例では、システム300は、ある特定の機能のみを実行することができ、他の機能を実行するために、システム100の他の要素と一緒に機能することができる。例えば、システム300の要素は、サーバシステム110と対話することなく、ある特定のメディア制御機能(例えば、ローカルに記憶されたメディアの再生、録画機能、チャンネル同調など)を処理することができ、システム300は、システム100のサーバシステム110及び他の要素と連携して、他のメディア制御機能(例えば、遠隔に記憶されたメディアの再生、メディアコンテンツのダウンロード、ある特定の仮想アシスタントクエリの処理など)を処理することができる。他の実施例では、システム300の要素は、ネットワークを介して外部サービス124にアクセスすることを含む、より大きいシステム100の機能を実行することができる。種々の他の方法で、ローカルデバイスとリモートサーバデバイスとで機能を分配してもよいことを理解されたい。
【0077】
図3に示すように、1つの実施例では、テレビセットトップボックス104は、メモリインタフェース302、1つ以上のプロセッサ304、及び周辺機器インタフェース306を含むことができる。1つ以上の通信バス又は信号線によって、テレビセットトップボックス104内の種々の構成要素を1つに結合することができる。テレビセットトップボックス104は、周辺機器インタフェース306に結合される種々のセンサ、サブシステム、及び周辺デバイスを更に含むことができる。サブシステム、及び周辺デバイスは情報を収集し、及び/又はテレビセットトップボックス104の種々の機能を可能にすることができる。
【0078】
例えば、テレビセットトップボックス104は、通信サブシステム324を含むことができる。種々の通信ポート、無線周波数受信器及び送信器、並びに/又は光(例えば、赤外線)受信器及び送信器を含むことができ、1つ以上の有線及び/又は無線通信サブシステム324を介して、通信機能を可能にすることができる。
【0079】
いくつかの実施例では、テレビセットトップボックス104は、周辺機器インタフェース306に結合されたI/Oサブシステム340を更に含むことができる。I/Oサブシステム340は、オーディオ/動画出力コントローラ370を含むことができる。オーディオ/動画出力コントローラ370は、ディスプレイ112及びスピーカ111に結合され得、あるいは場合によっては、(例えば、オーディオ/動画ポート、無線伝送などを介して)オーディオ及び動画出力を提供することができる。I/Oサブシステム340は、遠隔コントローラ342を更に含むことができる。遠隔コントローラ342を、(例えば、有線接続、Bluetooth(登録商標)、Wi-Fi(登録商標)などを介して)遠隔制御106に通信可能に結合することができる。遠隔制御106は、オーディオ入力(例えば、ユーザからの発語入力)をキャプチャするためのマイクロフォン372と、触覚入力をキャプチャするためのボタン(単数又は複数)374と、遠隔コントローラ342を介したテレビセットトップボックス104との通信を可能にするための送受信機376とを含むことができる。遠隔制御106はまた、キーボード、ジョイスティック、タッチパッドなどのような他の入力機構を含むことができる。遠隔制御106は、光、ディスプレイ、スピーカなどのような出力機構を更に含むことができる。遠隔制御106において受信した入力(例えば、ユーザ発語、ボタンの押下など)を、遠隔コントローラ342を介してテレビセットトップボックス104に通信することができる。I/Oサブシステム340は、他の入力コントローラ(単数又は複数)344を更に含むことができる。他の入力コントローラ(単数又は複数)344は、1つ以上のボタン、ロッカスイッチ、サムホイール、赤外線ポート、USBポート、及び/又はスタイラスなどのポインタデバイスなど、他の入力/制御デバイス348に結合することができる。
【0080】
いくつかの実施例では、テレビセットトップボックス104は、メモリ350に結合されたメモリインタフェース302を更に含むことができる。メモリ350は、任意の、電子、磁気、光学、電磁、赤外若しくは半導体システム、装置若しくはデバイス、ポータブルコンピュータディスケット(磁気)、ランダムアクセスメモリ(RAM)(磁気)、読み出し専用メモリ(ROM)(磁気)、消去可能なプログラマブル読み出し専用メモリ(EPROM)(磁気)、CD、CD-R、CD-RW、DVD、DVD-R若しくはDVD-RWなどのポータブル光ディスク、又はコンパクトフラッシュ(登録商標)カード、セキュアなデジタルカード、USBメモリデバイス、メモリースティックなどのフラッシュメモリなどを含むことができる。いくつかの実施例では、メモリ350の非一時的コンピュータ可読記憶媒体を使用して、コンピュータベースのシステム、プロセッサを含むシステム、又は、命令実行システム、装置、若しくはデバイスから命令をフェッチし、それらの命令を実行することができる他のシステムなどの、命令実行システム、装置、若しくはデバイスによって、又はそれらと共に使用するため(例えば、本明細書で説明する種々のプロセスの一部分又は全部を実行する)命令を記憶することができる。他の実施例では、(例えば、本明細書で説明する種々のプロセスの一部分又は全部を実行する)命令は、サーバシステム110の非一時的コンピュータ可読記憶媒体上に記憶されても、あるいはメモリ350の非一時的コンピュータ可読記憶媒体とサーバシステム110の非一時的コンピュータ可読記憶媒体とに分割してもよい。本文書のコンテキストでは、「非一時的コンピュータ可読記憶媒体」は、命令実行システム、装置、若しくはデバイスによって、又はそれらに関連して使用するためのプログラムを、含むか又は記憶することが可能な、任意の媒体とすることができる。
【0081】
いくつかの実施例では、メモリ350は、オペレーティングシステム352、通信モジュール354、グラフィカルユーザインタフェースモジュール356、オンデバイスメディアモジュール358、オフデバイスメディアモジュール360、及びアプリケーション362を記憶することができる。オペレーティングシステム352は、基本システムサービスを処理する命令、及びハードウェア依存タスクを実行する命令を含むことができる。通信モジュール354は、1つ以上の追加のデバイス、1つ以上のコンピュータ及び/又は1つ以上のサーバとの通信を可能にすることができる。グラフィカルユーザインタフェースモジュール356はグラフィックユーザインタフェース処理を可能にすることができる。オンデバイスメディアモジュール358は、テレビセットトップボックス104上にローカルに記憶されたメディアコンテンツ、及びローカルに利用可能な他のメディアコンテンツの記憶及び再生(例えば、ケーブルチャンネルの同調)を可能にすることができる。オフデバイスメディアモジュール360は、(例えば、リモートサーバ上、ユーザデバイス102上などに)遠隔に記憶されたメディアコンテンツのストリーミング再生又はダウンロードを可能にすることができる。アプリケーションモジュール362は、電子メッセージング、ウェブブラウジング、メディア処理、ゲーム、及び/又は他のプロセス及び機能などの、ユーザアプリケーションの種々の機能性を可能にすることができる。
【0082】
本明細書で説明するように、メモリ350はまた、例えば仮想アシスタントのクライアント側機能を提供するために、(例えば、仮想アシスタントクライアントモジュール364内の)クライアント側仮想アシスタント命令、並びに種々のユーザデータ366(例えば、ユーザ固有の語彙データ、設定データ、及び/若しくはユーザの電子アドレス帳、to-doリスト、買い物リスト、テレビプログラムの好みなど)も記憶することができる。また、ユーザデータ366は、仮想アシスタントをサポートする、又は任意の他のアプリケーションについての発語認識を実行する際に使用することができる。
【0083】
種々の実施例では、仮想アシスタントクライアントモジュール364は、テレビセットトップボックス104の種々のユーザインタフェース(例えば、I/Oサブシステム340など)を通じて音声入力(例えば、発語入力)、テキスト入力、タッチ入力、及び/又はジェスチャ入力を受け入れる能力を有することができる。仮想アシスタントクライアントモジュール364はまた、オーディオ形態(例えば、発語出力)、視覚形態、及び/又は触覚形態の出力を提供する能力も有することができる。例えば、出力は、音声、音響、警報、テキストメッセージ、メニュー、グラフィック、ビデオ、アニメーション、振動、及び/又は上記のもののうちの2つ以上の組み合わせとして提供することができる。動作時、仮想アシスタントクライアントモジュール364は、通信サブシステム324を用いて仮想アシスタントサーバと通信することができる。
【0084】
いくつかの実施例では、仮想アシスタントクライアントモジュール364は、ユーザ、現在のユーザ対話及び/又は現在のユーザ入力と関連付けられたコンテキストを確立するために、種々のセンサ、サブシステム及び周辺デバイスを利用してテレビセットトップボックス104の周囲環境から追加情報を収集することができる。そのようなコンテキストはまた、ユーザデバイス102からの情報など、他のデバイスからの情報を含むことができる。いくつかの実施例では、仮想アシスタントクライアントモジュール364は、ユーザの意図の推測を助けるために、ユーザ入力と共にコンテキスト情報又はそのサブセットを仮想アシスタントサーバに提供することができる。仮想アシスタントはまた、コンテキスト情報を使用して、ユーザへの出力をどのように準備し、配信するのかを判定することができる。更に、正確な発語認識をサポートするために、テレビセットトップボックス104又はサーバシステム110によりコンテキスト情報を使用することができる。
【0085】
いくつかの実施例では、ユーザ入力に付随するコンテキスト情報は、照明、環境ノイズ、周囲温度、他のオブジェクトまでの距離などの、センサ情報を含むことができる。コンテキスト情報は、テレビセットトップボックス104の物理状態(例えば、デバイスの位置、デバイスの温度、電力レベルなど)、又はテレビセットトップボックス104のソフトウェア状態(例えば、実行中の処理、インストールされているプログラム、過去及び現在のネットワークアクティビティ、バックグラウンドサービス、エラーログ、リソース使用など)と関連付けられた情報を更に含むことができる。コンテキスト情報は、接続されたデバイス、又はユーザと関連付けられた他のデバイスの状態と関連付けられた情報(例えば、ユーザデバイス102により表示されたコンテンツ、ユーザデバイス102上の再生可能なコンテンツなど)を更に含むことができる。これらの種類のコンテキスト情報のうちのいずれかを、ユーザ入力と関連付けられたコンテキスト情報として、仮想アシスタントサーバ114に提供することができる(あるいは、テレビセットトップボックス104自体で使用することができる)。
【0086】
いくつかの実施例では、仮想アシスタントクライアントモジュール364は、仮想アシスタントサーバ114からの要求に応じて、テレビセットトップボックス104に記憶された情報(例えば、ユーザデータ366)を選択的に提供することができる(あるいは、発語認識及び/又は仮想アシスタント機能を実行する際にテレビセットトップボックス104自体で使用することができる)。仮想アシスタントクライアントモジュール364はまた、仮想アシスタントサーバ114による要求時に、自然言語ダイアログ又は他のユーザインタフェースを介して、ユーザからの追加入力も引き出すことができる。仮想アシスタントクライアントモジュール364は、意図推測及び/又はユーザ要求内に表されているユーザの意図の達成において仮想アシスタントサーバ114を助けるために、追加入力を仮想アシスタントサーバ114に渡すことができる。
【0087】
種々の実施例では、メモリ350は追加の命令又はより少数の命令を含むことができる。更に、テレビセットトップボックス104の種々の機能は、1つ以上の信号処理回路及び/又は特定用途向け集積回路の形態を含む、ハードウェアの形態及び/又はファームウェアの形態で実装することができる。
【0088】
システム100及びシステム300は、
図1及び
図3に示した構成要素及び構成には限定されず、同様に、ユーザデバイス102、テレビセットトップボックス104及び遠隔制御106は、
図2及び
図3に示した構成要素及び構成には限定されないことを理解されたい。システム100、システム300、ユーザデバイス102、テレビセットトップボックス104及び遠隔制御106は全て、種々の実施例に係る複数の構成において、より少数のあるいは他の構成要素を含むことができる。
【0089】
本開示全体にわたって、「システム」に言及した場合、システム100、システム300、又はシステム100若しくはシステム300のいずれかの1つ以上の要素を含むことができる。例えば、本明細書で言及する典型的なシステムは、少なくとも、遠隔制御106及び/又はユーザデバイス102からユーザ入力を受信するテレビセットトップボックス104を含むことができる。
【0090】
図4A~
図4Eは、ユーザに発語入力情報を伝達するためにディスプレイ(ディスプレイ112など)上に表示することができる例示的な発語入力インタフェース484を示す。1つの実施例では、発語入力インタフェース484を動画480上に表示することができ、動画480は、任意の動画像又は休止した動画を含むことができる。例えば、動画480は、生放送のテレビ、再生動画、ストリーミング映画、録画プログラムの再生などを含むことができる。発語入力インタフェース484は、動画480のユーザ閲覧と著しく干渉しないように、最小量のスペースを占めるように構成され得る。
【0091】
1つの実施例では、コマンド又はクエリを含んでいる発語入力をリッスンする(又は、後続の処理のために発語入力の記録を開始する、若しくは発語入力のリアルタイム処理を開始する)ために、仮想アシスタントをトリガーすることができる。例えば、ユーザが、遠隔制御106上の物理ボタンを押すこと、ユーザが、ユーザデバイス102上の物理ボタンを押すこと、ユーザが、ユーザデバイス102上の仮想ボタンを押すこと、ユーザが、常時リッスンデバイスにより認識可能なトリガーフレーズを発すること(例えば、コマンドのリッスンを開始するように「Hey Assistant」と発すること)、ユーザが、センサにより検出可能なジェスチャを行うこと(例えば、カメラの前で合図すること)などの指示を含む、種々のやり方でリッスンをトリガーすることができる。別の実施例では、ユーザは、リッスンを開始するために、遠隔制御106又はユーザデバイス102上の物理ボタンを押し続けることができる。更に他の実施例では、ユーザは、クエリ又はコマンドを発語しながら、遠隔制御106又はユーザデバイス102上の物理ボタンを押し続けることができ、終了時にボタンを離すことができる。同様に、ユーザからの発語入力の受信を開始するために、種々の他の指示を受信することができる。
【0092】
発語入力をリッスンする指示を受信したことに応じて、発語入力インタフェース484を表示することができる。
図4Aは、ディスプレイ112の下部分から上向きに拡張する通知エリア482を示す。発語入力をリッスンする指示を受信すると、通知エリア482に発語入力インタフェース484を表示することができ、図示のように、ディスプレイ112の閲覧エリアの下縁部から上向きにスライドするようにそのインタフェースをアニメーション化することができる。
図4Bは、上向きにスライドして現れた後の発語入力インタフェース484を示す。発語入力インタフェース484は、動画480とのと干渉を回避するために、ディスプレイ112下部において最小量のスペースを占めるように構成することができる。発語入力をリッスンする指示を受信したことに応じて、準備完了確認486を表示することができる。準備完了確認486は、図示のようなマイクロフォンのシンボルを含むことができ、あるいは、システム(例えば、システム100の1つ以上の要素)がユーザからの発語入力をキャプチャする準備ができていることを伝達する任意の他の画像、アイコン、アニメーション又はシンボルを含むことができる。
【0093】
ユーザが発語し始めると、システムが発語入力をキャプチャしていることを確認するために、
図4Cに示したリッスン確認487を表示することができる。いくつかの実施例では、発語入力を受信したこと(例えば、発語をキャプチャしたこと)に応じて、リッスン確認487を表示することができる。他の実施例では、所定の時間(例えば、500ミリ秒、1秒、3秒など)にわたって準備完了確認486を表示することができ、その後に、リッスン確認487を表示することができる。リッスン確認487は、図示のような波形シンボルを含むことができ、あるいは、ユーザ発語に応じて動く(例えば、周波数を変える)アクティブな波形アニメーションを含むことができる。他の実施例では、リッスン確認487は、任意の他の画像、アイコン、アニメーション、又はシステムがユーザからの発語入力をキャプチャしていることを伝達するシンボルを含むことができる。
【0094】
(例えば、休止、クエリの終わりを示す発語解釈、又は任意の他のエンドポイント検出法に基づいて)ユーザが発語し終えたことを検出すると、システムが発語入力のキャプチャを完了し、発語入力を処理していること(例えば、発語入力の解釈、ユーザ意図の判定、及び/又は関連付けられたタスクの実行)を確認するために、
図4Dに示した処理確認488を表示することができる。処理確認488は、図示のような砂時計のシンボルを含むことができ、あるいは、キャプチャした発語入力をシステムが処理していることを伝達する任意の他の画像、アイコン、アニメーション又はシンボルを含むことができる。別の実施例では、処理確認488は、回転している円、又は円の周りを動く色のついた/光る点のアニメーションを含むことができる。
【0095】
キャプチャした発語入力をテキストとして解釈した後(又は、発語入力をテキストに正常に変換したことに応じて)、システムが発語入力を受信し解釈したことを確認するために、
図4Eに示したコマンド受信確認490及び/又は音声表記492を表示することができる。音声表記492は、受信した発語入力(例えば、「現在、どんなスポーツイベントが放送されているか?」)の音声表記を含むことができる。いくつかの実施例では、ディスプレイ112の下部から、音声表記492をスライドアップさせるようにアニメーション化することができ、
図4Eに示した位置に、しばらくの間(例えば、数秒)表示することができ、次いで、(例えば、あたかもテキストがスクロールアップして、最終的にビューから消えるかのように)音声表記を発語入力インタフェース484の上部までスライドアップさせてビューから消すことができる。他の実施例では、音声表記を表示しないことがあり、ユーザのコマンド又はクエリを処理することができ、音声表記を表示することなく、関連付けられたタスクを実行することができる(例えば、単純なチャンネルの変更は、ユーザの発語の音声表記を表示することなく、直ぐに実行することができる)。
【0096】
他の実施例では、ユーザが発語するにつれて、発語の音声表記をリアルタイムで実行することができる。単語を音声表記しながら、発語入力インタフェース484に単語を表示することができる。例えば、リッスン確認487の横に単語を表示することができる。ユーザが発語し終えた後に、コマンド受信確認490を一時的に表示し、その後、ユーザのコマンドと関連付けられたタスクを実行することができる。
【0097】
更に、他の実施例では、コマンド受信確認490は、受信して理解したコマンドに関する情報を伝達することができる。例えば、別のチャンネルに変えるという単純な要求の場合、チャンネルを変えた時に、(例えば、数秒間にわたって)コマンド受信確認490としてそのチャンネルと関連付けられたロゴ又は番号を一時的に表示することができる。別の実施例では、動画(例えば、動画480)を休止するという要求の場合、コマンド受信確認490として、休止シンボル(例えば、2本の垂直方向の平行なバー)を表示することができる。休止シンボルは、例えば、ユーザが別のアクションを実行する(例えば再生を再開する再生コマンドを出す)まで、ディスプレイ上に残ることができる。同様に、任意の他のコマンドについて、シンボル、ロゴ、アニメーションなど(例えば、巻戻し、早送り、停止、再生などのためのシンボル)表示することができる。したがって、コマンド受信確認490を使用して、コマンド固有の情報を伝達することができる。
【0098】
いくつかの実施例では、ユーザクエリ又はコマンドの受信後、発語入力インタフェース484を隠すことができる。例えば、発語入力インタフェース484は、ディスプレイ112の下部から消えるまで、下向きにスライドするようにアニメーション化され得る。更なる情報をユーザに表示する必要がない場合には、発語入力インタフェース484を非表示にすることができる。例えば、一般的な又は簡単なコマンド(例えば、チャンネル10に変更、スポーツチャンネルに変更、再生、休止、早送り、巻戻しなど)の場合、コマンドの受信を確認した後直ちに発語入力インタフェース484を非表示にすることができ、関連付けられたタスク(単数又は複数)を直ちに実行することができる。本明細書の種々の実施例は、ディスプレイの下部又は上縁部にあるインタフェースを例示し、それについて説明しているが、ディスプレイの周りの他の場所に、種々のインタフェースのうちのいずれかを配置できることを了解されたい。例えば、発語入力インタフェース484は、ディスプレイ112の側縁部から、ディスプレイ112の中心、ディスプレイ112の隅角部などに出現することができる。同様に、本明細書で説明する種々の他のインタフェースの実施例は、ディスプレイ上の種々の異なる場所に、種々の異なる向きで配列することができる。更に、本明細書で説明する種々のインタフェースは、不透明であるものとして示されているが、種々のインタフェースのうちのいずれかは、透明とすることができ、あるいは場合によっては、画像(ぼやけた画像又は画像全体)を、インタフェースを介して閲覧できるようにする(例えば、下にあるメディアコンテンツを完全に不明瞭にすることなく、メディアコンテンツ上にインタフェースコンテンツを重ねる)ことができる。
【0099】
他の実施例では、発語入力インタフェース484内に、又は異なるインタフェースに、クエリの結果を表示することができる。
図5は、動画480上の例示的なメディアコンテンツインタフェース510を示し、
図4Eの音声表記されたクエリの例示的な結果が表示されている。いくつかの実施例では、仮想アシスタントクエリの結果は、テキストコンテンツの代わりに、又はそれに加えてメディアコンテンツを含むことができる。例えば、仮想アシスタントクエリの結果は、テレビプログラム、動画、音楽などを含むことができる。いくつかの結果は、再生のために直ちに利用可能なメディアを含むことができる一方で、他の結果は、購入などのために利用可能であり得るメディアを含むことができる。
【0100】
図示のとおり、メディアコンテンツインタフェース510は、発語入力インタフェース484よりも大きいサイズとすることができる。1つの実施例では、発語入力インタフェース484は、発語入力情報に適応するようにより小さい第1のサイズのものとすることができ、メディアコンテンツインタフェース510は、クエリ結果に適応するようにより大きい第2のサイズとすることができ、メディアコンテンツインタフェース510は、テキスト、静止画像像及び動画像を含むことができる。このようにすると、仮想アシスタント情報を伝達するためのインタフェースのサイズは、伝達されるコンテンツに応じた縮尺にすることができ、それにより、スクリーンの面積への侵入が制限される(例えば、動画480などの他のコンテンツの遮蔽が最小限に抑えられる)。
【0101】
例示したように、メディアコンテンツインタフェース510は、(仮想アシスタントクエリの結果として)選択可能な動画リンク512、選択可能なテキストリンク514、及び追加のコンテンツリンク513を含むことができる。いくつかの実施例では、遠隔制御(例えば、遠隔制御106)を使用して、フォーカス、カーソルなどを特定の要素にナビゲートし、それを選択することによって、リンクを選択することができる。他の実施例では、仮想アシスタントへの音声コマンド(例えば、そのサッカーの試合を視聴する、バスケットボールの試合に関する詳細を表示する、など)を使用して、リンクを選択することができる。選択可能な動画リンク512は、静止画像又は動画像を含むことができ、関連付けられた動画を再生させるために選択可能であり得る。1つの実施例では、選択可能な動画リンク512は、関連付けられた動画コンテンツの再生動画を含むことができる。別の実施例では、選択可能な動画リンク512は、テレビチャンネルのライブフィードを含むことができる。例えば、選択可能な動画リンク512は、テレビで現在放送されているスポーツイベントに関する仮想アシスタントクエリの結果として、スポーツチャネルのサッカーの試合のライブフィードを含むことができる。選択可能な動画リンク512はまた、任意の他の動画、アニメーション、画像など(例えば、三角形の再生シンボル)を含むことができる。更に、リンク512は、映画、テレビ番組、スポーツイベント、音楽などのような、任意の種類のメディアコンテンツにリンクすることができる。
【0102】
選択可能なテキストリンク514は、選択可能な動画リンク512と関連付けられたテキストコンテンツを含むことができ、あるいは、仮想アシスタントクエリの結果のテキストレプリゼンテーションを含むことができる。1つの実施例では、選択可能なテキストリンク514は、仮想アシスタントクエリの結果として生じるメディアの記述を含むことができる。例えば、選択可能なテキストリンク514は、テレビプログラムの名前、映画のタイトル、スポーツイベントの記述、テレビチャンネルの名前又は番号などを含むことができる。1つの実施例では、テキストリンク514の選択は、関連付けられたメディアコンテンツを再生することができる。別の例では、テキストリンク514の選択は、メディアコンテンツ又は他の仮想アシスタントクエリ結果に関する追加の詳細を提供することができる。追加のコンテンツリンク513は、仮想アシスタントクエリの追加の結果にリンクし、それを表示させることができる。
【0103】
ある特定のメディアコンテンツの実施例が
図5に示されているが、メディアコンテンツについての仮想アシスタントクエリの結果として、任意の種類のメディアコンテンツを含んでもよいことを了解されたい。例えば、仮想アシスタントの結果として戻され得るメディアコンテンツとして、動画、テレビプログラム、音楽、テレビチャンネルなどを挙げることができる。更に、いくつかの実施例では、ユーザが検索若しくはクエリの結果、又は表示されたメディアオプションをフィルタリングすることを可能にするために、本明細書のインタフェースのうちのいずれかに、カテゴリーフィルタを提供することができる。例えば、結果を種類(例えば、映画、音楽アルバム、書籍、テレビ番組など)によってフィルタリングするために、選択可能なフィルタを提供することができる。他の実施例では、選択可能なフィルタは、ジャンル記述子又はコンテンツ記述子(例えば、コメディ、インタビュー、特定のプログラムなど)を含むことができる。更に他の実施例では、選択可能なフィルタは、時(例えば、今週、先週、昨年など)を含むことができる。表示されたコンテンツに関連するカテゴリーに基づいて、ユーザが結果をフィルタリングする(例えば、メディア結果が種々の種類を有する場合に、種類によってフィルタリングする、メディア結果が種々のジャンルを有する場合にはジャンルによってフィルタリングする、メディア結果が種々の時を有する場合には時によってフィルタリングする、など)ことを可能にするために、本明細書で説明する種々のインタフェースのうちのいずれかにフィルタを提供することができることを了解されたい。
【0104】
他の実施例では、メディアコンテンツインタフェース510は、メディアコンテンツ結果に加えて、クエリのパラフレーズを含むことができる。例えば、メディアコンテンツ結果の上方に(選択可能な動画リンク512及び選択可能なテキストリンク514の上方に)、ユーザのクエリのパラフレーズを表示することができる。
図5の実施例では、ユーザのクエリのそのようなパラフレーズは、「現在、いくつかのスポーツイベント放送されている」を含むことができる。同様に、メディアコンテンツ結果を紹介する他のテキストを表示することができる。
【0105】
いくつかの実施例では、インタフェース510を含む任意のインタフェースを表示した後、ユーザは、新しいクエリ(以前のクエリに関係していることも、関係していないこともある)を用いた追加の発語入力のキャプチャを開始することができる。ユーザクエリは、動画リンク512を選択するコマンドなど、インタフェース要素に対して作用するコマンドを含むことができる。別の実施例では、ユーザの発語は、表示されたメニュー情報、再生動画(例えば、動画480)など、表示されたコンテンツと関連付けられたクエリを含むことができる。表示された情報(例えば、表示テキスト)、及び/又は表示されたコンテンツと関連付けられたメタデータ(例えば、再生動画と関連付けられたメタデータ)に基づいて、そのようなクエリに対する応答を判定することができる。例えば、ユーザは、インタフェース(例えば、インタフェース510)に表示されたメディア結果に関して質問することができ、そのメディアと関連付けられたメタデータを検索して、回答又は結果を提供することができる。次いで、別のインタフェースに又は同じインタフェース内に(例えば、本明細書で論じるインタフェースのうちのいずれかに)、そのような回答又は結果を提供することができる。
【0106】
上述のように、1つの実施例では、テキストリンク514の選択に応じて、メディアコンテンツに関する追加の詳細を表示することができる。
図6A及び
図6Bは、テキストリンク514の選択後の、動画480上の例示的なメディア詳細インタフェース618を示す。1つの実施例では、追加詳細情報を提供する際に、
図6Aのインタフェース拡張遷移616により例示されるように、メディアコンテンツインタフェース510をメディア詳細インタフェース618へと拡張することができる。詳細には、
図6Aに示すように、選択されたコンテンツのサイズを拡張することができ、スクリーンの面積のうちのより多くを占めるようにディスプレイ112上でインタフェースを上向きに拡張することによって、追加のテキスト情報を提供することができる。ユーザが所望する追加の詳細情報に適応するように、インタフェースを拡張することができる。このようにすると、インタフェースのサイズは、ユーザが所望するコンテンツ量に伴う縮尺にすることができ、それにより、所望のコンテンツを依然として伝達しながら、スクリーンの面積への侵入が最小限に抑えられる。
【0107】
図6Bは、完全に拡張した後の詳細インタフェース618を示す。図示のとおり、詳細インタフェース618は、所望の詳細情報に適応するように、メディアコンテンツインタフェース510又は発語入力インタフェース484のいずれかよりも大きいサイズのものとすることができる。詳細インタフェース618は、メディアコンテンツ又は仮想アシスタントクエリの別の結果と関連付けられた種々の詳細情報を含む、詳細なメディア情報622を含むことができる。詳細なメディア情報622は、プログラムのタイトル、プログラムの記述、プログラムの放送時間、チャンネル、エピソード概要、映画の記述、俳優の名前、キャラクターの名前、スポーツイベントの参加者、プロデューサーの名前、ディレクターの名前、又は仮想アシスタントクエリの結果と関連付けられた任意の他の詳細情報を含むことができる。
【0108】
1つの実施例では、詳細インタフェース618は、選択可能な動画リンク620(又は、メディアコンテンツを再生するための別のリンク)を含むことができ、選択可能な動画リンク620は、対応する選択可能な動画リンク512のより大きいバージョンを含むことができる。したがって、選択可能な動画リンク620は、静止画像又は動画像を含むことができ、関連付けられた動画を再生させるために選択可能であり得る。選択可能な動画リンク620は、関連付けられた動画コンテンツの再生動画、テレビチャンネルのライブフィード(例えば、スポーツチャンネルでのサッカーの試合のライブフィード)などを含むことができる。選択可能な動画リンク620はまた、任意の他の動画、アニメーション、画像など(例えば、三角形の再生シンボル)を含むことができる。
【0109】
上述のように、動画リンク620又は動画リンク512などの動画リンクの選択に応じて、動画を再生することができる。
図7A及び
図7Bは、動画リンク(又は動画コンテンツを再生するための他のコマンド)の選択に応じて表示することができる例示的なメディア遷移インタフェースを示す。例示したように、動画480を動画726と入れ替えることができる。1つの実施例では、
図7Aのインタフェース拡張遷移724により示すように、動画480の上に重なる又はそれを覆うように動画726を拡張することができる。遷移の結果は、
図7Bの拡張されたメディアインタフェース728を含むことができる。他のインタフェースの場合と同様に、拡張されたメディアインタフェース728のサイズは、ユーザに所望の情報を提供するのに十分であり得、ここでは、ディスプレイ112全体に拡張することを含む。したがって、所望の情報が、ディスプレイ全体にわたる再生メディアコンテンツを含むことができるので、拡張されたメディアインタフェース728は、任意の他のインタフェースよりも、大きくすることができる。図示されていないが、いくつかの実施例では、動画726上に(例えば、スクリーンの下部に沿って)、記述情報を一時的に重ねることができる。そのような記述情報は、関連付けられたプログラム、動画、チャンネルなどの名前を含むことができる。次いで、(例えば、数秒後に)記述情報をビューから非表示にすることができる。
【0110】
図8A~
図8Bは、ユーザに発語入力情報を伝達するためにディスプレイ112上に表示することができる例示的な発語入力インタフェース836を示す。1つの実施例では、メニュー830上に発語入力インタフェース836を表示することができる。メニュー830は、種々のメディアオプション832を含むことができ、同様に、任意の他の種類のメニュー(例えば、コンテンツメニュー、カテゴリーメニュー、コントロールメニュー、セットアップメニュー、プログラムメニューなど)上に発語入力インタフェース836を表示することができる。1つの実施例では、発語入力インタフェース836は、ディスプレイ112のスクリーンの面積のうち比較的大きな量を占めるように構成され得る。例えば、発語入力インタフェース836は、上記で論じた発語入力インタフェース484よりも大きくすることができる。1つの実施例では、バックグラウンドコンテンツに基づいて、使用される発語入力インタフェース(例えば、より小さいインタフェース484又はより大きいインタフェース836のいずれか)のサイズを判定することができる。バックグラウンドコンテンツが動画像を含む時には、例えば、小さい発語入力インタフェース(例えば、インタフェース484)を表示することができる。一方、バックグラウンドコンテンツが静止画像(例えば、休止された動画)又はメニューを含む時には、例えば、大きい発語入力インタフェース(例えば、インタフェース836)を表示することができる。このようにすると、ユーザが動画コンテンツを視聴している場合には、より小さい発語入力インタフェースを表示することができ、スクリーンの面積に対する侵入が最小限に抑えられるが、ユーザが、メニューをナビゲートしている場合、又は休止された動画又は他の静止画像を閲覧している場合には、より大きい発語入力インタフェースを表示し、追加の面積を占めることによって、より多くの情報を伝達する、あるいは、より重大な効果を有することができる。同様に、バックグラウンドコンテンツに基づいて、本明細書で論じる他のインタフェースを異なるようにサイズ設定することができる。
【0111】
上記で論じたように、仮想アシスタントは、コマンド又はクエリを含んでいる発語入力を聞き取る(又は、後続の処理のために発語入力の記録を開始する、若しくは発語入力のリアルタイム処理を開始する)ようにトリガーされ得る。例えば、ユーザが、遠隔制御106上の物理ボタンを押すこと、ユーザが、ユーザデバイス102上の物理ボタンを押すこと、ユーザが、ユーザデバイス102上の仮想ボタンを押すこと、ユーザが、常時リッスンデバイスにより認識可能なトリガーフレーズを発すること(例えば、コマンドのリッスンを開始するように「Hey Assistant」と発すること)、ユーザが、センサにより検出可能なジェスチャを行うこと(例えば、カメラの前で合図すること)などの指示を含む、種々のやり方でリッスンをトリガーすることができる。別の実施例では、ユーザは、リッスンを開始するために、遠隔制御106又はユーザデバイス102上の物理ボタンを押し続けることができる。更に他の実施例では、ユーザは、クエリ又はコマンドを発語しながら、遠隔制御106又はユーザデバイス102上の物理ボタンを押し続けることができ、終了時にボタンを離すことができる。同様に、ユーザからの発語入力の受信を開始するために、種々の他の指示を受信することができる。
【0112】
発語入力をリッスンする指示を受信したことに応じて、メニュー830の上に発語入力インタフェース836を表示することができる。
図8Aは、ディスプレイ112の下部分から上向きに拡張する大きな通知エリア834を示す。発語入力をリッスンする指示を受信すると、大きい通知エリア834に発語入力インタフェース836を表示することができ、図示のように、ディスプレイ112の閲覧エリアの下縁部から上向きにスライドするようにそのインタフェースをアニメーション化することができる。いくつかの実施例では、(例えば、発語入力をリッスンする指示を受信したことに応じて)重なっているインタフェースが表示されるので、バックグラウンドメニュー、休止された動画、静止画像又は他のバックグラウンドコンテンツを、z方向に(あたかも、更にディスプレイ112に入るように)縮小する、及び/又は逆方向に移動させることができる。バックグラウンドインタフェース縮小遷移831及び関連付けられた内向き矢印は、どのようにバックグラウンドコンテンツ(例えば、メニュー830)を縮小する(表示されたメニュー、画像、テキストなどを小さくする)ことができるかについて説明する。これにより、新しいフォアグラウンドインタフェース(例えば、インタフェース836)の邪魔にならないところに、バックグラウンドコンテンツユーザから離れて移動するように見える視覚的効果を提供することができる。
図8Bは、縮小された(小さくなった)バージョンのメニュー830を含む、縮小されたバックグラウンドインタフェース833を示す。図示のとおり、(枠線を含むことができる)縮小されたバックグラウンドインタフェース833は、フォアグラウンドインタフェース836に焦点を譲りながらも、ユーザから遠くに現れることができる。重複しているインタフェースが表示されるので、本明細書で論じる他の実施例のうちのいずれかにおける(バックグラウンド動画コンテンツを含む)バックグラウンドコンテンツを同様に、z方向に縮小する及び/又は逆方向に移動させることができる。
【0113】
図8Bは、上向きにスライドさせて現れた後の発語入力インタフェース836を示す。上記で論じたように、発語入力を受信している間、種々の確認を表示することができる。ここでは図示されていないが、発語入力インタフェース836は、
図4B、
図4C及び
図4Dをそれぞれ参照して上記で論じた発語入力インタフェース484と同様に、より大きいバージョンの準備完了確認486、リッスン確認487及び/又は処理確認488を同様に表示することができる。
【0114】
図8Bに示すように、システムが発語入力を受信し解釈したことを確認するために、コマンド受信確認838を(上記で論じたより小さいサイズのコマンド受信確認490の場合と同様に)表示することができる。また、音声表記840を表示することができ、音声表記840は、受信した発語入力の音声表記(例えば、「ニューヨークの天気は?」)を含むことができる。いくつかの実施例では、ディスプレイ112の下部から、音声表記840をスライドアップさせるようにアニメーション化することができ、
図8Bに示した位置に、しばらくの間(例えば、数秒)表示することができ、次いで、(例えば、あたかもテキストスクロールアップし、最終的にビューから消えるかのように)音声表記を発語入力インタフェース836の上部までスライドアップさせてビューから消すことができる。他の実施例では、音声表記を表示しないことがあり、ユーザのコマンド又はクエリを処理することができ、音声表記を表示することなく、関連付けられたタスクを実行することができる。
【0115】
他の実施例では、ユーザが発語するにつれて、発語の音声表記をリアルタイムで実行することができる。単語を音声表記しながら、発語入力インタフェース836に単語を表示することができる。例えば、上記で論じたリッスン確認487のより大きなバージョンの横に単語を表示することができる。ユーザが発語し終えた後に、コマンド受信確認838を一時的に表示し、その後、ユーザのコマンドと関連付けられたタスクを実行することができる。
【0116】
更に、他の実施例では、コマンド受信確認838は、受信して理解したコマンドに関する情報を伝達することができる。例えば、特定のチャンネルに同調させるという単純な要求の場合、チャンネルを同調させた時に、(例えば、数秒間にわたって)コマンド受信確認838としてそのチャンネルと関連付けられたロゴ又は番号を一時的に表示することができる。別の実施例では、表示されたメニュー項目(例えば、メディアオプション832のうちの1つ)を選択するという要求の場合、コマンド受信確認838として、選択されたメニュー項目と関連付けられた画像を表示することができる。したがって、コマンド受信確認838を使用して、コマンド固有の情報を伝達することができる。
【0117】
いくつかの実施例では、ユーザクエリ又はコマンドの受信後、発語入力インタフェース836を非表示にすることができる。例えば、発語入力インタフェース836は、ディスプレイ112の下部から消えるまで、下向きにスライドするようにアニメーション化することができる。更なる情報をユーザに表示する必要がない場合には、発語入力インタフェース836を非表示にすることができる。例えば、一般的な又は簡単なコマンド(例えば、チャンネル10に変更、スポーツチャンネルに変更、その映画の再生など)の場合、コマンドの受信を確認した後直ちに発語入力インタフェース836を隠すことができ、関連付けられたタスク(単数又は複数)を直ちに実行することができる。
【0118】
他の実施例では、発語入力インタフェース836内に、又は異なるインタフェースに、クエリの結果を表示することができる。
図9は、
図8Bの音声表記されたクエリの例示的な結果を備える例示的なメニュー830上の(詳細には、縮小されたバックグラウンドインタフェース833上の)仮想アシスタント結果インタフェース942を示している。いくつかの実施例では、仮想アシスタントクエリの結果は、テキスト回答944などのテキスト回答を含むことができる。仮想アシスタントクエリの結果はまた、選択可能な動画リンク946及び購入リンク948と関連付けられたコンテンツなど、ユーザのクエリに対処するメディアコンテンツを含むことができる。詳細には、この実施例では、ユーザは、ニューヨークの特定の場所についての気象情報を尋ねることができる。仮想アシスタントは、ユーザのクエリに直接答える(例えば、良い天気に見えることを示し、温度情報を提供する)テキスト回答944を提供することができる。テキスト回答944の代わりに、又はそれに加えて、仮想アシスタントは、購入リンク948及び関連付けられたテキストと共に、選択可能な動画リンク946を提供することができる。また、リンク946及び948と関連付けられたメディアは、ユーザのクエリに対する応答を提供することができる。ここで、リンク946及び948と関連付けられたメディアは、特定の場所における気象情報の10分間クリップ(詳細には、天気予報チャンネルと呼ばれるテレビチャンネルから、ニューヨークの5日間予報)を含むことができる。
【0119】
1つの実施例では、ユーザのクエリに対処するクリップは、(録画又はストリーミングサービスから利用可能であり得る)以前に放送されたコンテンツの時間キュー部分を含むことができる。仮想アシスタントは、1つの実施例では、発語入力と関連付けられたユーザ意図に基づいて、利用可能なメディアコンテンツに関する詳細情報を検索することによって、(例えば、ストリーミングコンテンツに関する詳細なタイミング情報又は詳細情報と共に、録画された放送についてのメタデータを含む)そのようなコンテンツを識別することができる。いくつかの実施例では、ユーザは、ある特定のコンテンツへのアクセスを有しないことがあり、あるいは、ある特定のコンテンツについてのサブスクリプションを有しないことがある。そのような場合、購入リンク948などを介して、コンテンツの購入を勧めることができる。購入リンク948又は動画リンク946を選択すると、自動的に、コンテンツの費用をユーザアカウントから回収する、あるいは、コンテンツの費用をユーザアカウントに課金することができる。
【0120】
図10は、仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連付けられた情報を表示するための例示的なプロセス1000を示す。ブロック1002で、ユーザからの発語入力を受信することができる。例えば、システム100のユーザデバイス102又は遠隔制御106で、発語入力を受信することができる。いくつかの実施例では、発語入力(あるいは発語入力の一部又は全部のデータ表現)は、サーバシステム110及び/又はテレビセットトップボックス104に送信され、そこで受信され得る。ユーザが発語入力の受信を開始したことに応じて、ディスプレイ(ディスプレイ112など)上に種々の通知を表示することができる。例えば、
図4A~
図4Eを参照して上記で論じたように、準備完了確認、リッスン確認、処理確認及び/又はコマンド受信確認を表示することができる。更に、受信したユーザ発語入力を音声表記することができ、音声表記を表示することができる。
【0121】
再び
図10のプロセス1000を参照すると、ブロック1004で、発語入力に基づいて、メディアコンテンツを判定することができる。例えば、(例えば、利用可能なメディアコンテンツを検索することなどによって)仮想アシスタントにおいてダイレクトされたユーザクエリに対処するメディアコンテンツを判定することができる。例えば、
図4Eの音声表記492(「現在、どんなスポーツイベントが放送されているか?」)に関係するメディアコンテンツを判定することができる。そのようなメディアコンテンツは、ユーザが閲覧するために利用可能な1つ以上のテレビチャンネル上に表示されているライブスポーツイベントを含むことができる。
【0122】
ブロック1006で、選択可能なメディアリンクを備える第1のサイズの第1のユーザインタフェースを表示することができる。例えば、
図5に示すように、選択可能な動画リンク512と選択可能なテキストリンク514とを備えるメディアコンテンツインタフェース510を、ディスプレイ112上に表示することができる。上記で論じたように、メディアコンテンツインタフェース510は、バックグラウンド動画コンテンツと干渉することを回避するために、より小さいサイズとすることができる。
【0123】
ブロック1008で、リンクうちの1つの選択を受信することができる。例えば、リンク512及び/又はリンク514のうちの1つの選択を受信することができる。ブロック1010で、その選択と関連付けられたメディアコンテンツを備えるより大きい第2のサイズの第2のユーザインタフェースを表示することができる。
図6Bに示すように、例えば、選択可能な動画リンク620と詳細なメディア情報622とを備える詳細インタフェース618を、ディスプレイ112上に表示することができる。上記で論じたように、詳細インタフェース618は、所望の追加の詳細なメディア情報を伝達するために、より大きいサイズのものとすることができる。同様に、
図7Bに示すように、動画リンク620を選択すると、動画726を備える拡張されたメディアインタフェース728を表示することができる。上記で論じたように、拡張されたメディアインタフェース728は、所望のメディアコンテンツを依然としてユーザに提供するために、より大きいサイズのものとすることができる。このようにすると、本明細書で論じる種々のインタフェースを、場合によっては制限されたスクリーンの面積を占めながら、(より大きいサイズのインタフェースに拡張すること、又はより小さいサイズのインタフェースまで縮小することを含めて)所望のコンテンツに適応するようにサイズ設定することができる。したがって、仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連付けられた情報を表示するために、プロセス1000を使用することができる。
【0124】
別の実施例では、バックグラウンド動画コンテンツ上ではなく、コントロールメニュー上により大きいサイズインタフェースを表示することができる。例えば、
図8Bに示すように、メニュー830上に発語入力インタフェース836を表示することができ、
図9に示すように、メニュー830上にアシスタント結果インタフェース942を表示することができる一方で、
図5に示すように、動画480上により小さいメディアコンテンツインタフェース510を表示することができる。このようにすると、インタフェースのサイズ(例えば、インタフェースが占めるスクリーンの面積の量)を、少なくとも部分的にバックグラウンドコンテンツの種類によって判定することができる。
【0125】
図11は、ユーザデバイス102上の例示的なテレビメディアコンテンツを示し、ユーザデバイス102は、タッチスクリーン246(又は別のディスプレイ)を備える、携帯電話、タブレットコンピュータ、遠隔制御などを含むことができる。
図11は、複数のテレビプログラム1152を備えるTVリストを含むインタフェース1150を示す。インタフェース1150は、テレビ制御アプリケーション、テレビコンテンツリストアプリケーション、インターネットアプリケーションなどのような、ユーザデバイス102上の特定のアプリケーションに対応することができる。いくつかの実施例では、ユーザデバイス102上に(例えば、タッチスクリーン246上に)表示されたコンテンツを使用して、そのコンテンツに関係する発語入力からユーザ意図を判定することができ、そのユーザ意図を使用して、別のデバイス及びディスプレイ上で(例えば、テレビセットトップボックス104、並びにディスプレイ112及び/又はスピーカ111上で)コンテンツを再生又は表示させることができる。例えば、ユーザデバイス102上のインタフェース1150に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避すし、発語入力からユーザ意図を判定でき、次いで、判定したユーザ意図を使用して、テレビセットトップボックス104を介して、メディアを再生又は表示することができる。
【0126】
図12は、仮想アシスタントを使用した例示的なテレビ制御を示す。
図12は、インタフェース1254を示し、インタフェース1254は、アシスタントとユーザとの間の会話型ダイアログとしてフォーマットされた仮想アシスタントインタフェースを含むことができる。例えば、インタフェース1254は、ユーザに要求を行うようにプロンプトを出すアシスタントグリーティング1256を含むことができる。次いで、音声表記されたユーザ発語1258など、その後受信したユーザ発語を音声表記することができ、会話のやり取りが表示される。いくつかの実施例では、インタフェース1254は、発語入力の受信を開始するトリガー(ボタン押下、キーフレーズなどのようなトリガー)に応じて、ユーザデバイス102上に現れることができる。
【0127】
1つの実施例では、テレビセットトップボックス104を介して(例えばディスプレイ112及びスピーカ111上で)コンテンツを再生するというユーザ要求は、ユーザデバイス102上の表示されたものへの曖昧な参照を含むことができる。例えば、音声表記されたユーザ発語1258は、「その」サッカーの試合への参照を含む(「そのサッカーの試合をつけて。」)。所望される特定のサッカーの試合は、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、ユーザデバイス102上に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。1つの実施例では、ユーザが要求を行う前に(例えば、インタフェース1254がタッチスクリーン246上に現れる前に)ユーザデバイス102に表示されたコンテンツを使用して、(以前のクエリ及び結果など、インタフェース1254内に現れているコンテンツができるように)ユーザ意図を判定することができる。例示した実施例では、
図11のインタフェース1150に表示されたコンテンツを使用して、「その」サッカーの試合をつけるというコマンドから、ユーザ意図を判定することができる。テレビプログラム1152のTVリストは、種々の異なるプログラムを含み、それらのうちの1つのタイトルが、チャンネル5で放送されている「サッカー」である。サッカーのリストが現れていることを使用して、「その」サッカーの試合と発したことから、ユーザの意図を判定することができる。詳細には、「その」サッカーの試合へのユーザの参照を、インタフェース1150のTVリストに現れているサッカープログラムと解釈することができる。したがって、仮想アシスタントは、(例えば、テレビセットトップボックス104を、適切なチャンネルに同調させ、その試合を表示させることによって)ユーザが望んだその特定のサッカーの試合を再生させることができる。
【0128】
他の実施例では、ユーザは、種々の他のやり方で、インタフェース1150に表示されたテレビプログラム(例えば、チャンネル8の番組、ニュース、ドラマ番組、広告、第1の番組など)を参照することができ、表示されたコンテンツに基づいて、ユーザ意図を同様に判定することができる。表示されたコンテンツと関連付けられたメタデータ(例えば、TVプログラムの記述)、ファジーマッチング技術、シノニムマッチングなどを、ユーザ意図を判定するために、表示されたコンテンツと併せて更に使用することができることを了解されたい。例えば、「広告」を表示するという要求からユーザ意図を判定するために、(例えば、シノニム及び/又はファジーマッチング技術を使用して)記述「テレビショッピング」に用語「広告」はマッチングすることができる。同様に、ユーザ意図を判定する際に、特定のTVプログラムの記述を分析することができる。例えば、用語「法律」は、法廷ドラマの詳細な説明において識別され得、インタフェース1150に表示されたコンテンツと関連付けられた詳細な記述に基づいて、「法律」番組を視聴するというユーザ要求から、ユーザ意図を判定することができる。したがって、表示されたコンテンツ及びそれと関連付けられたデータを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。
【0129】
図13は、ユーザデバイス102上の例示的な写真及び動画コンテンツを示し、ユーザデバイス102は、タッチスクリーン246(又は別のディスプレイ)を備える、携帯電話、タブレットコンピュータ、遠隔制御などを含むことができる。
図13は、写真及び動画のリストを含むインタフェース1360を示す。インタフェース1360は、メディアコンテンツアプリケーション、ファイルナビゲーションアプリケーション、ストレージアプリケーション、遠隔ストレージ管理アプリケーション、カメラアプリケーションなどのような、ユーザデバイス102上の特定のアプリケーションに対応することができる。図示のとおり、インタフェース1360は、動画1362、フォトアルバム1364(例えば、複数の写真のグループ)、及び写真1366を含むことができる。
図11及び
図12を参照して上記で論じたように、ユーザデバイス102に表示されたコンテンツを使用して、そのコンテンツに関係する発語入力からユーザ意図を判定することができる。次いで、ユーザ意図を使用して、別のデバイス及びディスプレイ(例えば、テレビセットトップボックス104、並びにディスプレイ112及び/又はスピーカ111上に)上にコンテンツを再生又は表示させることができる。例えば、ユーザデバイス102上のインタフェース1360に表示されたコンテンツを使用して、にユーザ要求の曖昧性を回避し、発語入力からユーザ意図を判定することができ、次いで、判定したユーザ意図を使用して、テレビセットトップボックス104を介して、メディアを再生又は表示することができる。
【0130】
図14は、仮想アシスタントを使用した例示的なメディア表示制御を示す。
図14は、インタフェース1254を示し、インタフェース1254は、アシスタントとユーザとの間の会話型ダイアログとしてフォーマットされた仮想アシスタントインタフェースを含むことができる。図示のとおり、インタフェース1254は、ユーザに要求を行うようにプロンプトを出すアシスタントグリーティング1256を含むことができる。次いで、
図14の実施例によって示すようにダイアログ内にユーザ発語を音声表記することができる。いくつかの実施例では、インタフェース1254は、発語入力の受信を開始するトリガー(ボタン押下、キーフレーズなどのようなトリガー)に応じて、ユーザデバイス102上に現れることができる。
【0131】
1つの実施例では、テレビセットトップボックス104を介して(例えばディスプレイ112及びスピーカ111上で)メディアコンテンツを再生する、又はメディアを表示するというユーザ要求は、ユーザデバイス102上の表示されたものへの曖昧な参照を含むことができる。例えば、音声表記されたユーザ発語1468は、「その」動画への参照(「その動画を表示する。」)を含む。参照される特定の動画は、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、ユーザデバイス102上に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。1つの実施例では、ユーザが要求を行う前に(例えば、インタフェース1254がタッチスクリーン246上に現れる前に)ユーザデバイス120に表示されたコンテンツを使用して、(以前のクエリ及び結果など、インタフェース1254内に現れているコンテンツができるように)ユーザ意図を判定することができる。ユーザ発語1468の実施例では、
図13のインタフェース1360に表示されたコンテンツを使用して、「その」動画を表示するというコマンドから、ユーザ意図を判定することができる。インタフェース1360における写真及び動画のリストは、動画1362、フォトアルバム1354及び写真1366を含む、種々の異なる写真及び動画を含む。インタフェース1360に動画が1つしか現れていないので(例えば、動画1362)、インタフェース1360に動画1362が現れていることを使用して、「その」動画と発したことからユーザの意図を判定することができる。詳細には、「その」動画へのユーザの参照を、インタフェース1360に現れている動画1362(タイトル「卒業式の動画」)と解釈することができる。したがって、仮想アシスタントは、(例えば、ユーザデバイス102又は遠隔ストレージからテレビセットトップボックス104に動画1362を送信させ、再生を開始させることによって)動画1362を再生させることができる。
【0132】
別の実施例では、音声表記されたユーザ発語1470は、「その」アルバムへの参照(「そのアルバムのスライドショーを再生して。」)を含む。参照される特定のアルバムは、発語入力のみからでは不明瞭であることがある。ユーザデバイス102上に表示されたコンテンツを再び使用して、ユーザ要求の曖昧性を回避することができる。詳細には、
図13のインタフェース1360に表示されたコンテンツを使用して、「その」アルバムのスライドショーを再生するというコマンドから、ユーザ意図を判定することができる。インタフェース1360における写真及び動画のリストは、フォトアルバム1354を含む。インタフェース1360にフォトアルバム1364が現れていることを使用して、「その」アルバムと発したことから、ユーザの意図を判定することができる。詳細には、「その」アルバムへのユーザの参照を、インタフェース1360に現れているフォトアルバム1364(タイトル「卒業式のアルバム」)と解釈することができる。したがって、ユーザ発語1470に応じて、仮想アシスタントは、(例えば、フォトアルバム1364の写真をユーザデバイス102又は遠隔ストレージからテレビセットトップボックス104に送信させ、写真のスライドショーを開始させることによって)フォトアルバム1364からの写真を含むスライドショーを表示させることができる。
【0133】
更に別の実施例では、音声表記されたユーザ発語1472は、「最新の」写真への参照(「キッチンのテレビに最新の写真を表示して。」)を含む。参照される特定の写真は、発語入力のみからでは不明瞭であることがある。ユーザデバイス102上に表示されたコンテンツを再び使用して、ユーザ要求の曖昧性を回避することができる。詳細には、
図13のインタフェース1360に表示されたコンテンツを使用して、「最新の」写真を表示するというコマンドから、ユーザ意図を判定することができる。インタフェース1360における写真及び動画のリストは、2つの個別の写真1366を含む。インタフェース1360に写真1366が現れていること(特に、インタフェース内における写真1366の出現順序)を使用して、「最新の」写真と発したことから、ユーザの意図を判定することができる。詳細には、「最新の」写真へのユーザの参照と、インタフェース1360の下部に現れている写真1366(2014年6月21日付け)と解釈することができる。したがって、ユーザ発語1472に応じて、仮想アシスタントは、(例えば、最新の写真1366をユーザデバイス102又は遠隔ストレージからテレビセットトップボックス104に送信させ、写真表示させることによって)最新の写真1366をインタフェース1360に表示させることができる。
【0134】
他の実施例では、ユーザは、種々の他のやり方で、インタフェース1360に表示されたメディアコンテンツ(例えば、最新の2枚の写真、全ての動画ニュース、全ての写真、卒業式のアルバム、卒業式の動画、6月21日以降の写真など)を参照することができ、表示されたコンテンツに基づいて、ユーザ意図を同様に判定することができる。表示されたコンテンツと関連付けられたメタデータ(例えば、タイムスタンプ、場所、情報、タイトル、説明など)、ファジーマッチング技術、シノニムマッチングなどを、ユーザ意図を判定するために、表示されたコンテンツと併せて更に使用することができることを了解されたい。したがって、表示されたコンテンツ及びそれと関連付けられたデータを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。
【0135】
ユーザ意図を判定する際に、任意のアプリケーションの任意のアプリケーションインタフェースにおける任意の種類の表示されたコンテンツを使用することができることを了解されたい。例えば、発語入力において、インターネットブラウザアプリケーションにおいてウェブページ上に表示された画像を参照することができ、表示されたウェブページコンテンツを分析して、所望の画像を識別することができる。同様に、タイトル、ジャンル、アーティスト、バンド名などによる発語入力において、音楽アプリケーションにおける音楽のリストの音楽トラックを参照することができ、音楽アプリケーションにおける表示されたコンテンツ(及びいくつかの実施例では、関連メタデータ)を使用して、発語入力からユーザ意図を判定することができる。次いで、上記で論じたように、判定したユーザ意図を使用して、テレビセットトップボックス104など、別のデバイスを介して、メディアを表示又は再生させることができる。
【0136】
いくつかの実施例では、メディア制御を許可することができるかどうかを判定する、表示のために利用可能なメディアコンテンツを判定する、アクセス許可を判定するなどのために、ユーザ識別、ユーザ認証及び/又はデバイス認証を採用することができる。例えば、例えばテレビセットトップボックス104上でメディアを制御するために、特定のユーザデバイス(例えば、ユーザデバイス102)が認証されているかどうかを判定することができる。登録、ペアリング、信用判定、パスコード、秘密の質問、システム設定などに基づいて、ユーザデバイスを認証することができる。特定のユーザデバイスが認証されていると判定したことに応じて、テレビセットトップボックス104を制御するための試行を許可することができる(例えば、要求側デバイスがメディアを制御することを認証されていると判定したことに応じて、メディアコンテンツを再生することができる)。対照的に、認証されていないデバイスからのメディア制御コマンド又は要求を無視することができ、及び/又は、そのようなデバイスのユーザに、特定のテレビセットトップボックス104を制御する際に使用するために、それらのデバイスを登録するようにプロンプトを出すことができる。
【0137】
別の実施例では、特定のユーザを識別することができ、そのユーザと関連付けられた個人情報を使用して、要求のユーザ意図を判定することができる。例えば、ユーザの声紋を使用する音声認識によるなど、発語入力に基づいて、ユーザを識別することができる。いくつかの実施例では、ユーザは特定のフレーズを発し、そのフレーズを音声認識のために分析することができる。他の実施例では、仮想アシスタントにダイレクトされた発語入力要求を、音声認識を使用して分析して、話者を識別することができる。また、(例えば、ユーザの個人用デバイス102上の)発語入力サンプルのソースに基づいて、ユーザを識別することができる。また、パスワード、パスコード、メニュー選択などに基づいて、ユーザを識別することができる。次いで、識別されたユーザの個人情報に基づいて、ユーザから受信した発語入力を解釈することができる。例えば、ユーザから以前の要求、ユーザが所有するメディアコンテンツ、ユーザのデバイスに記憶されたメディアコンテンツ、ユーザの好み、ユーザ設定、ユーザの人口統計(例えば、話されている言語など)、ユーザプロファイル情報、ユーザ支払方法、又は特定の識別されたユーザと関連付けられた種々の他の個人情報に基づいて、発語入力のユーザ意図を判定することができる。例えば、個人情報に基づいて、お気に入りリストを参照する発語入力などの曖昧性を回避することができ、ユーザの個人的なお気に入りリストを識別することができる。ユーザと関連付けられた写真、動画及び番組(例えば、個人用のユーザデバイスに記憶された写真など)を正確に識別するために、ユーザ識別に基づいて、同様に、「私」の写真、「私」の動画、「私」の番組などを参照する発語入力の曖昧性を回避することができる。同様に、コンテンツの購入を要求する発語入力の曖昧性を回避して、購入のために、(別のユーザの支払方法と対比して)識別されたユーザの支払方法を変更すべきであると判定することができる。
【0138】
いくつかの実施例では、ユーザ認証を使用して、ユーザがメディアコンテンツにアクセスすることが可能であるかどうか、メディアコンテンツを購入することが可能であるかどうかなどを判定することができる。例えば、(例えば、彼らの声紋を使用して)特定のユーザの識別情報を検証して、そのユーザが自身の支払方法を使用して購入を行うことを可能にするために、音声認識を使用することができる。同様に、ユーザを認証して購入を可能にするために、パスワードなどを使用することができる。別の実施例では、特定のユーザの識別情報を検証して、そのユーザが特定のプログラム(例えば、特定のペアレンタルガイドラインレーティングを有するプログラム、特定の対象年齢レーティングを有する映画など)を視聴することを可能になるかどうかを判定するために、音声認識を使用することができる。例えば、特定のプログラムに対する子どもの要求を、要求者がそのようなコンテンツを閲覧することが可能な認証ユーザ(例えば、親)でないことを示す音声認識に基づいて拒否することができる。他の実施例では、音声認識を使用して、ユーザが特定のサブスクリプションコンテンツへのアクセス権を有するかどうか判定することができる(例えば、音声認識に基づいて、プレミアムチャネルのコンテンツにアクセスを制限する)。いくつかの実施例では、ユーザは特定のフレーズを発し、そのフレーズを音声認識のために分析することができる。他の実施例では、仮想アシスタントにダイレクトされた発語入力要求を、音声認識を使用して分析して、話者を識別することができる。したがって、種々のやり方のいずれかでユーザが認証されると最初に判定したことに応じて、ある特定のメディアコンテンツを再生することができる。
【0139】
図15は、モバイルユーザデバイス及びメディア表示デバイス上の結果を備える例示的な仮想アシスタント対話を示す。いくつかの実施例では、仮想アシスタントは、ユーザデバイス102並びにテレビセットトップボックス104など、2つ以上のデバイス上に情報及び制御を提供することができる。更に、いくつかの実施例では、ユーザデバイス102上の制御及び情報のために使用される同じ仮想アシスタントインタフェースを使用して、テレビセットトップボックス104上のメディアを制御するための要求を発行することができる。したがって、仮想アシスタントシステムは、結果を、ユーザデバイス102上に表示すべきか、あるいはテレビセットトップボックス104上に表示すべきかを判定することができる。いくつかの実施例では、テレビセットトップボックス104を制御するためにユーザデバイス102を採用する時、ユーザデバイス102上に(例えば、タッチスクリーン246上に)情報を表示することによって、テレビセットトップボックス104と関連付けられたディスプレイ(例えば、ディスプレイ112)上での仮想アシスタントインタフェースの侵入は最小限に抑えることができる。他の実施例では、ディスプレイ112上にのみ仮想アシスタント情報を表示することができ、あるいは、ユーザデバイス102とディスプレイ112の双方の上に仮想アシスタント情報を表示することができる。
【0140】
いくつかの実施例では、ユーザデバイス102上に直接、仮想アシスタントクエリの結果を表すべきか、あるいは、テレビセットトップボックス104と関連付けられたディスプレイ112上に仮想アシスタントクエリの結果を表示すべきかについて、判定を行うことができる。1つの実施例では、クエリのユーザ意図が情報の要求を含むと判定したことに応じて、ユーザデバイス102上に情報応答を表示することができる。別の例では、クエリのユーザ意図が、メディアコンテンツを再生するという要求を含むと判定したことに応じて、クエリに応じたメディアコンテンツを、テレビセットトップボックス104を介して再生することができる。
【0141】
図15は、仮想アシスタントとユーザとの間の会話型ダイアログの例を示す仮想アシスタントインタフェース1254を示す。アシスタントグリーティング1256は、ユーザに要求を行うようにプロンプトを出すことができる。第1のクエリでは、音声表記されたユーザ発語1574(他のやり方ではタイプ又は入力することもできる)は、表示されたメディアコンテンツと関連付けられた情報回答の要求を含む。詳細には、音声表記されたユーザ発語1574は、例えば、(例えば、
図11のインタフェース1150に列挙された)ユーザデバイス102上のインタフェース上に、又は(例えば、
図5のインタフェース510に列挙された、あるいは、
図7Bのディスプレイ112上で動画726として再生する)ディスプレイ112上に表示され得るサッカーの試合で誰がプレイしているかを問い合わせる。表示されたメディアコンテンツに基づいて、音声表記されたユーザ発語1574のユーザ意図を判定することができる。例えば、ユーザデバイス102又はディスプレイ112上に表示されたコンテンツに基づいて、問題となっている特定のサッカーの試合を識別することができる。音声表記されたユーザ発語1574のユーザ意図は、表示されたコンテンツに基づいて識別されるサッカーの試合においてプレイしているチームについて詳述する情報回答を取得することを含むことができる。ユーザ意図が情報回答の要求を含むと判定したことに応じて、システムは、(ディスプレイ112上とは対照的に)
図15のインタフェース1254内に応答を表示することを判定することができる。いくつかの実施例では、表示されたコンテンツと関連付けられたメタデータに(例えば、テレビリストにおけるサッカーの試合の記述に基づいて)基づいて、クエリに対する応答を判定することができる。したがって、図示のとおり、インタフェース1254において、ユーザデバイス102のタッチスクリーン246上に、チームアルファとシータとが試合で対戦していると識別するアシスタントの応答1576を表示することができる。したがって、いくつかの実施例では、クエリが情報要求を含むと判定したことに基づいて、ユーザデバイス102上のインタフェース1254内に情報応答を表示することができる。
【0142】
ただし、インタフェース1254における第2のクエリは、メディア要求を含む。詳細には、音声表記されたユーザ発語1578は、表示されるメディアコンテンツを「ゲーム」に変更することを要求する。(例えば、ユーザがどのゲームを望むかを識別するために)
図5のインタフェース510に列挙されたゲーム、
図11のインタフェース1150に列挙されたゲーム、(例えば、音声表記されたユーザ発語1574における)以前のクエリで参照されたゲームなど、表示されたコンテンツに基づいて、音声表記されたユーザ発語1578のユーザ意図を判定することができる。したがって、音声表記されたユーザ発語1578のユーザ意図は、表示されたコンテンツを特定のゲーム(ここでは、チームアルファ対シータのサッカーの試合)に変更することを含むことができる。1つの実施例では、ユーザデバイス102上にゲームを表示することができる。ただし、他の実施例では、メディアコンテンツを再生するという要求を含むクエリに基づいて、テレビセットトップボックス104を介して、ゲームを表示することができる。詳細には、ユーザ意図がメディアコンテンツを再生するという要求を含むと判定したことに応じて、システムは、(
図15のインタフェース1254内とは対照的に)テレビセットトップボックス104を介してディスプレイ112上に、メディアコンテンツ結果を表示すると判定することができる。いくつかの実施例では、インタフェース1254に、又はディスプレイ112上に、仮想アシスタントが意図するアクションを確認する応答又はパラフレーズ(例えば、「サッカーの試合に変更して。」)を表示することができる。
【0143】
図16は、メディア表示デバイス及びモバイルユーザデバイス上のメディア結果を備える例示的な仮想アシスタント対話を示す。いくつかの実施例では、仮想アシスタントは、ユーザデバイス102とテレビセットトップボックス104の双方の上でのメディアへのアクセスを提供することができる。更に、いくつかの実施例では、ユーザデバイス102上のメディアのために使用される同じ仮想アシスタントインタフェースを使用して、テレビセットトップボックス104上のメディアについての要求を発行することができる。したがって、仮想アシスタントシステムは、結果を、テレビセットトップボックス104を介してユーザデバイス102上に表示すべきか、あるいはディスプレイ112上に表示すべきかを判定することができる。
【0144】
いくつかの実施例では、メディ結果フォーマット、ユーザの好み、デフォルト設定、要求自体中の明示コマンドなどに基づいて、デバイス102又はディスプレイ112上にメディアを表示すべきかどうかにつて判定を行うことができる。例えば、クエリに対するメディア結果のフォーマットを使用して、(例えば、特定の命令なしに)デフォルトでメディア結果をどのデバイス上に表示するかを判定することができる。テレビプログラムは、テレビ上に表示するのにより一層適することがあり、ラージフォーマットの動画は、テレビ上に表示するのにより一層適することがあり、サムネイル写真は、ユーザデバイス上に表示するのにより一層適することがあり、スモールフォーマットのウェブ動画は、ユーザデバイス上に表示するのにより一層適することがあり、種々の他のメディアフォーマットは、比較的大きいテレビスクリーン又は比較的小さいユーザデバイスのディスプレイのいずれかに表示するのにより一層適することがある。したがって、(例えば、メディアフォーマットに基づいて)特定のディスプレイ上にメディアコンテンツを表示すべきであるという判定に応じて、デフォルトで、その特定のディスプレイ上にメディアコンテンツを表示することができる。
【0145】
図16は、メディアコンテンツを再生すること又は表示することに関係するクエリの実施例と共に、仮想アシスタントインタフェース1254を示す。アシスタントグリーティング1256は、ユーザに要求を行うようにプロンプトを出すことができる。第1のクエリにおいて、音声表記されたユーザ発語1680は、サッカーの試合を表示するという要求を含む。上記で論じた実施例と同様に、(例えば、ユーザがどのゲームを望むかを識別するために)
図5のインタフェース510に列挙されたゲーム、
図11のインタフェース1150に列挙されたゲーム、以前のクエリで参照されたゲームなど、表示されたコンテンツに基づいて、音声表記されたユーザ発語1680のユーザ意図を判定することができる。したがって、音声表記されたユーザ発語1680のユーザ意図は、例えば、テレビで放送され得る特定のサッカーの試合を表示することを含むことができる。ユーザ意図が、テレビ用にフォーマットされるメディア(例えば、テレビ放送されるサッカーの試合)を表示するという要求を含むと判定したことに応じて、システムは、所望のメディアを、テレビセットトップボックス104を介して(ユーザデバイス102自体上とは対照的に)ディスプレイ112上に表示することを自動的に判定することができる。次いで、仮想アシスタントシステムは、(例えば、必要なタスクを実行すること、及び/又は適切なコマンドを送信することによって)テレビセットトップボックス104を、サッカーの試合に同調させ、ディスプレイ112上にそれを表示することができる。
【0146】
ただし、第2のクエリでは、音声表記されたユーザ発語1682は、チームの選手の写真(例えば、「チームアルファ」の写真)を表示するとう要求を含む。上記で説明した実施例と同様に、音声表記されたユーザ発語1682のユーザ意図を判定することができる。音声表記されたユーザ発語1682のユーザ意図は、「チームアルファ」と関連付けられた写真の検索(例えば、ウェブ検索)を実行することと、得られた写真を表示することとを含むことができる。ユーザ意図が、サムネイルフォーマットで提示することができるメディア、又は、特定のフォーマットなしに、ウェブ検索と関連付けられたメディア若しくは他の不特定メディアを表示するという要求を含むと判定したことに応じて、システムは、(得られた写真を、テレビセットトップボックス104を介してディスプレイ112上に表示することとは対照的に)ユーザデバイス102のインタフェース1254において、タッチスクリーン246上に所望のメディア結果を表示することを自動的に判定することができる。例えば、図示のとおり、ユーザのクエリに応じて、ユーザデバイス102上のインタフェース1254内にサムネイル写真1684を表示することができる。したがって、仮想アシスタントシステムは、デフォルトで、ある特定のフォーマットのメディアを、又はある特定のフォーマットで(例えば、サムネイルのグループで)提示され得るメディアを、ユーザデバイス102上に表示させることができる。
【0147】
いくつかの実施例では、ユーザデバイス102上にユーザ発語1680で参照されたサッカーの試合を表示することができ、テレビセットトップボックス104を介してディスプレイ112上に写真1684を表示することができることを了解されたい。ただし、メディアフォーマットに基づいて、表示用のデフォルトデバイスを自動的に判定することができ、それにより、ユーザのためのメディアコマンドが簡略化される。他の実施例では、ユーザの好み、デフォルト設定、コンテンツを表示するために直近に使用されたデバイス、ユーザを識別する音声認識、そのユーザと関連付けられたデバイスなどに基づいて、要求されたメディアコンテンツを表示するためのデフォルトデバイスを判定することができる。例えば、ユーザが好みを設定することができる、あるいは、ある特定の種類のコンテンツ(例えば、動画、スライドショー、テレビプログラムなど)を、テレビセットトップボックス104を介してディスプレイ112上に表示し、他の種類のコンテンツ(例えば、サムネイル、写真、ウェブ動画など)を、ユーザデバイス102のタッチスクリーン246上に表示するように、デフォルト構成を設定することができる。同様に、1つのデバイス又はその他にコンテンツを表示することによって、ある特定のクエリに応答するように、好み又はデフォルト構成を設定することができる。別の実施例では、ユーザが特段別に命令しない限り、全てのコンテンツをユーザデバイス102上に表示することができる。
【0148】
更に他の実施例では、ユーザクエリは、特定のディスプレイ上にコンテンツを表示するコマンドを含むことができる。例えば、
図14のユーザ発語1472は、キッチンのテレビに写真を表示するコマンドを含む。その結果、システムは、ユーザデバイス102上に写真を表示することとは対照的に、ユーザのキッチンと関連付けられたテレビディスプレイ上に、写真を表示させることができる。他の実施例では、ユーザは、種々の他のやり方で、どの表示デバイスを使用すべきか(例えば、TVに、大型スクリーンに、リビングルームに、ベッドルームに、自分のタブレットに、自分の電話に、など)を指示することができる。したがって、種々の異なるやり方で、仮想アシスタントクエリのメディアコンテンツ結果を表示するために使用する表示デバイスを判定することができる。
【0149】
図17は、近接度に基づく例示的なメディアデバイス制御を示す。いくつかの実施例では、ユーザは、同じ家庭内に又は同じネットワーク上に、複数のテレビ及びテレビセットトップボックスを有することができる。例えば、ある家庭は、リビングルームにテレビとセットトップボックスのセットを有し、別のセットをベッドルームに有し、キッチンに別のセットを有していることがある。他の実施例では、アパート又はオフィスビルの共有ネットワークなど、同じネットワークに、複数のセットトップボックスを接続することができる。ユーザは、未認証のアクセスを回避するために、特定のセットトップボックスについて遠隔制御106とユーザデバイス102とをペアリングすること、接続すること、あるいは場合によっては認証することができるが、他の実施例では、遠隔制御及び/又はユーザデバイスを使用して、2つ以上のセットトップボックスを制御することができる。ユーザは、例えば、単一のユーザデバイス102を使用して、ベッドルームの、リビングルームの、及びキッチンのセットトップボックスを制御することができる。ユーザはまた、例えば、単一のユーザデバイス102を使用して、自身のアパートの自身のセットトップボックスを制御するばかりでなく、近隣のアパートの近隣のセットトップボックスを制御する(例えば、ユーザデバイス102に記憶された写真のスライドショーを近隣のTV上に表示するなど、ユーザデバイス102からのコンテンツを近隣と共有する)ことができる。ユーザは、単一のユーザデバイス102を使用して複数の異なるセットトップボックスを制御することができるので、システムは、複数セットトップボックスのうち、どのセットトップボックスにコマンドを送信すべきかを判定することができる。同様に、複数のセットトップボックスを動作することができる複数の遠隔制御106を家庭に装備することができるので、システムは同様に、複数セットトップボックスのうち、どのセットトップボックスにコマンドを送信すべきかを判定することができる。
【0150】
1つの実施例では、デバイスの近接度を使用して、複数のセットトップボックスのうち、どれにコマンドを送近隣のTV上に送るべきか(又は、要求されたメディアコンテンツをどのディスプレイ上に表示すべきか)を判定することができる。ユーザデバイス102又は遠隔制御106と複数のセットトップボックスの各々との間で、近接度を判定することができる。次いで、最も近いセットトップボックスに、発行されたコマンドを送信することができる(又は、最も近いディスプレイ上に、要求されたメディアコンテンツを表示することができる)。(例えば、無線周波数を使用する)飛行時間測定、Bluetooth(登録商標)LE、電子ピング信号、近接センサ、サウンドトラベル測定など、種々のやり方のいずれかで、近接度を判定する(又は、少なくとも概算する)ことができる。次いで、測定又は概算した距離を比較することができ、最短距離のデバイス(例えば、最も近いセットトップボックス)にコマンドを発行することができる。
【0151】
図17は、第1のディスプレイ1786を備える第1のセットトップボックス1792と、第2のディスプレイ1788を備える第2のセットトップボックス1794とを含むマルチデバイスシステム1790を示す。1つの実施例では、ユーザは、ユーザデバイス102から、(例えば、どこにかを、又はどのデバイス上にかを必ずしも指定することなく)メディアコンテンツを表示するコマンドを発行することができる。次いで、第1のセットトップボックス1792までの距離1795及び第2のセットトップボックス1794までの距離1796を判定する(又は、概算する)ことができる。図示のとおり、距離1796を、距離1795よりも長くすることができる。近接度に基づいて、ユーザデバイス102からのコマンドを、最も近いデバイスであり、ユーザの意図と一致する見込みが最も高い第1のセットトップボックス1792に発行することができる。いくつかの実施例では、単一の遠隔制御106を使用して、2つ以上のセットトップボックスを制御することもできる。近接度に基づいて、所与の時間に制御するための所望のデバイスを判定することができる。次いで、第2のセットトップボックス1794までの距離1797及び第1のセットトップボックス1792までの距離1798を判定する(又は、概算する)ことができる。図示のとおり、距離1798を、距離1797よりも長くすることができる。近接度に基づいて、遠隔制御106からのコマンドを、最も近いデバイスであり、ユーザの意図と一致する見込みが最も高い第2のセットトップボックス1794に発行することができる。例えば、ユーザが異なる部屋に移動したこと、及びユーザが異なるデバイスを制御したいと望んでいることに適応するように、距離測定を定期的に、又はコマンド毎にリフレッシュすることができる。
【0152】
ユーザは、コマンドについて異なるデバイスを指定することができ、いくつかの場合には近接度をオーバーライドすることを理解されたい。例えば、ユーザデバイス102上に、利用可能な表示デバイスのリストを表示することができる(例えば、セットアップ名、指定された部屋などによって、第1のディスプレイ1786及び第2のディスプレイ1788がリストアップされる、又はセットアップ名、指定された部屋などによって、第1のセットトップボックス1792及び第2のセットトップボックス1794がリストアップされる)。ユーザは、そのリストからデバイスのうちの1つを選択することができる。次いで、選択されたデバイスに、コマンドを送信することができる。次いで、選択されたデバイス上に所望のメディアを表示することによって、ユーザデバイス102で発行されたメディアコンテンツの要求を処理することができる。他の実施例では、ユーザは、口頭コマンドの一部として、所望のデバイスを発語することができる(例えば、キッチンのテレビに試合を表示して、リビングルームで漫画チャンネルに変えて、など)。
【0153】
更に他の実施例では、特定のデバイスと関連付けられたステータス情報に基づいて、要求されたメディアコンテンツを表示するためのデフォルトデバイスを判定することができる。例えば、ユーザデバイス102にヘッドホン(又はヘッドセット)が取り付けられているかどうかを判定することができる。メディアコンテンツを表示するという要求を受信した時に、ユーザデバイス102にヘッドホンが取り付けられていると判定したことに応じて、(例えば、ユーザがテレビではなくユーザデバイス102上でコンテンツを消費すると仮定すると)要求されたコンテンツを、デフォルトで、ユーザデバイス102上に表示することができる。メディアコンテンツを表示するという要求を受信した時に、ユーザデバイス102にヘッドホンが取り付けられていないと判定したことに応じて、本明細書で論じる種々の判定方法のうちのいずれかに従って、要求されたコンテンツを、ユーザデバイス102又はテレビのいずれかに表示することができる。同様に、ユーザデバイス102又はセットトップボックス104の周りの環境光、ユーザデバイス102又はセットトップボックス104に対する他のデバイスの近接度、ユーザデバイス102の向き(例えば、横長方向は、ユーザデバイス102上の所望のビューをより示し易くすることができる)、セットトップボックス104のディスプレイ状態(例えばスリープモード中)、特定のデバイス上の最後の対話以後の時間、あるいは、ユーザデバイス102及び/又はセットトップボックス104のための種々の他のステータスインジケータのうちのいずれかなど、他のデバイスステータス情報を使用して、要求されたメディアコンテンツをユーザデバイス102上に表示すべきか、あるいはセットトップボックス104上に表示すべきかを判定することができる。
【0154】
図18は、仮想アシスタント及び複数のユーザデバイスを使用してテレビ対話を制御するための例示的なプロセス1800を示す。ブロック1802で、第1のディスプレイを備える第1のデバイスにおいて、ユーザからの発語入力を受信することができる。例えば、システム100のユーザデバイス102又は遠隔制御106において、ユーザからの発語入力を受信することができる。いくつかの実施例では、第1のディスプレイは、ユーザデバイス102のタッチスクリーン246、又は遠隔制御106と関連付けられたディスプレイを含むことができる。
【0155】
ブロック1804で、第1のディスプレイ上に表示されたコンテンツに基づいて、発語入力からユーザの意図を判定することができる。例えば、
図11のインタフェース1150におけるテレビプログラム1152、あるいは
図13のインタフェース1360における写真及び動画などのコンテンツを分析し、それを使用して発語入力についてのユーザ意図を判定することができる。いくつかの実施例では、ユーザは、第1のディスプレイ上に表示されたコンテンツを曖昧に参照することがあり、
図12及び
図14を参照して上記で論じたように、第1のディスプレイ上に示されたコンテンツを分析して、その参照を解釈する(例えば、「その」動画、「その」アルバム、「その」試合などについてのユーザ意図を判定する)ことによって、参照の曖昧性を回避することができる。
【0156】
再び
図18のプロセス1800を参照すると、ブロック1806で、ユーザ意図に基づいて、メディアコンテンツを判定することができる。例えば、ユーザ意図に基づいて、特定の動画、写真、フォトアルバム、テレビプログラム、スポーツイベント、音楽トラックなどを識別することができる。上記で論じた
図11及び
図12の実施例では、例えば、
図11のインタフェース1150に表示される「その」サッカーの試合を参照しているユーザ意図に基づいて、チャンネル5に表示される特定のサッカーの試合を識別することができる。上記で論じた
図13及び
図14の実施例では、
図14の発語入力例から判定されるユーザ意図に基づいて、「卒業式の動画」というタイトルの特定の動画1362、「卒業式のアルバム」というタイトルの特定のフォトアルバム1364、又は特定の写真1366を識別することができる。
【0157】
再び
図18のプロセス1800を参照すると、ブロック1808で、第2のディスプレイと関連付けられた第2のデバイス上に、メディアコンテンツを表示することができる。例えば、判定したメディアコンテンツを、テレビセットトップボックス104を介して、スピーカ111を備えるディスプレイ112上で再生することができる。メディアコンテンツを再生することは、テレビセットトップボックス104又は別のデバイス上で、特定のテレビチャンネルに同調させること、特定の動画を再生すること、写真のスライドショーを表示すること、特定の写真を表示すること、特定のオーディオトラックを再生することなどを含むことができる。
【0158】
いくつかの実施例では、仮想アシスタントにダイレクトされた発語入力への応答を、第1のデバイス(例えば、ユーザデバイス102)と関連付けられた第1のディスプレイ上に表示すべきか、あるいは、第2のデバイス(例えば、テレビセットトップボックス104)と関連付けられた第2のディスプレイ上に表示すべきかについて、判定を行うことができる。例えば、
図15及び
図16を参照して上記で論じたように、ユーザデバイス102上には、より小さいスクリーン上での表示に適した情報回答又はメディアコンテンツを表示することができる一方で、セットトップボックス104と関連付けられたディスプレイ上には、より大きいスクリーン上での表示に適したメディア応答又はメディアコンテンツを表示することができる。
図17を参照して上記で論じたように、いくつかの実施例では、ユーザデバイス102と複数のセットトップボックスとの間の距離を使用して、どのセットトップボックス上でメディアコンテンツを再生すべきか、あるいは、どのセットトップボックスにコマンドを発行すべきかを判定することができる。同様に、複数のデバイスが対話し得る便利でユーザフレンドリなエクスペリエンスを提供するために、種々の他の判定を行うことができる。
【0159】
いくつかの実施例では、上記で論じたように、ユーザデバイス102上に表示されたコンテンツを使用して、発語入力の解釈を通知することができるので、同様に、ディスプレイ112上に表示されたコンテンツを使用して、発語入力の解釈を通知することができる。詳細には、テレビセットトップボックス104と関連付けられたディスプレイ上に表示されたコンテンツを、そのコンテンツと関連付けられたメタデータと共に使用して、発語入力からユーザ意図を判定すること、ユーザクエリの曖昧性を回避すること、コンテンツに関係するクエリに応答することなどを行うことができる。
【0160】
図19は、(上述した)例示的な発語入力インタフェース484を示しており、動画480に関する仮想アシスタントクエリがバックグラウンドに表示されている。いくつかの実施例では、ユーザクエリは、ディスプレイ112に表示されたメディアコンテンツに関する質問を含むことができる。例えば、音声表記1916は、女優の識別を要求するクエリを含む(「それらの女優は誰?」)。ディスプレイ112上に表示されたコンテンツを(そのコンテンツに関するメタデータ又は他の記述情報と共に)使用して、そのコンテンツに関係する発語入力からユーザ意図を判定するだけでなく、クエリに対する応答(ユーザにメディア選択を提供する、情報応答並びにメディア応答を含む応答)を判定することができる。例えば、動画480、動画480の記述、動画480のキャラクターと俳優のリスト、動画480のレーティング情報、動画480のジャンル情報、及び動画480と関連付けられた種々の他の記述情報を使用して、ユーザ要求の曖昧性を回避し、ユーザクエリに対する応答を判定することができる。関連付けられたメタデータは、例えば、キャラクター1910とキャラクター1912とキャラクター1914との識別情報(例えば、そのキャラクターを演じる女優の名を伴うキャラクター名)を含むことができる。同様に、任意の他のコンテンツのメタデータは、タイトル、説明、キャラクターのリスト、俳優のリスト、選手のリスト、ジャンル、プロデューサー名、ディレクター名、又はディスプレイ上に表示されたコンテンツ若しくはディスプレイ上のメディアコンテンツの閲覧履歴(例えば、最近表示されたメディア)と関連付けられた表示スケジュールを含むことができる。
【0161】
1つの実施例では、仮想アシスタントにダイレクトされたユーザクエリは、ディスプレイ112上に表示されたものへの曖昧な参照を含むことができる。音声表記1916は、例えば、「それらの」女優への参照を含む(「それらの女優は誰?」)。ユーザが尋ねている特定の女優は、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、ディスプレイ112上に表示されたコンテンツ及び関連メタデータを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。例示した実施例では、ディスプレイ112に表示されたコンテンツを使用して、「それらの」女優に対する参照から、ユーザ意図を判定することができる。1つの実施例では、テレビセットトップボックス104は、コンテンツと関連付けられた詳細と共にコンテンツを再生することを識別することができる。この事例では、テレビセットトップボックス104は、種々の記述コンテンツと共に動画480のタイトルを識別することができる。他の実施例では、テレビ番組、スポーツイベント又は他のコンテンツを、関連付けられたメタデータと併せて使用して、ユーザ意図を判定することができる。更に、本明細書で論じる種々の実施例のうちのいずれかでは、発語認識結果及び意図判定は、表示されたコンテンツと関連付けられた用語を、代替物よりも高く重み付けすることができる。例えば、スクリーン上のキャラクターの俳優がスクリーン上に現れている間(又は、彼らが出演している番組を再生している間)、彼らの俳優名により高く重み付けすることができ、それにより、表示されたコンテンツと関連付けられた、可能性が高いユーザ要求の正確な発語認識及び意図判定を行うことができる。
【0162】
1つの実施例では、動画480と関連付けられたキャラクター及び/又は俳優のリストを使用して、動画480に出演している全ての又は最も目立った女優を識別することができ、そこには、女優1910、1912及び1914が含まれ得る。識別された女優を、可能な結果として戻すことができる(メタデータの分解能が粗い場合には、より少数の又は追加の女優が含まれる)。別の実施例では、動画480と関連付けられたメタデータは、所与の時間にスクリーン上に現れている俳優及び女優の識別情報を含むことができ、そのメタデータから、クエリ時に現れている女優を判定することができる(例えば、詳細には、女優1910、1912及び1914が識別される)。更に別の実施例では、顔認識アプリケーションを使用して、ディスプレイ112上に表示された画像から、女優1910、1912及び1914を識別することができる。更に他の実施例では、動画480と関連付けられた種々の他のメタデータ、及び種々の他の認識手法を使用して、「それらの」女優を参照する際のユーザの可能性がある意図を識別することができる。
【0163】
いくつかの実施例では、ディスプレイ112上に表示されたコンテンツは、クエリの発信及び応答の判定中に変化することがある。したがって、メディアコンテンツの閲覧履歴を使用して、ユーザ意図を判定し、クエリに対する応答を判定することができる。例えば、クエリに対する応答が生成される前に、動画480が(例えば、他のキャラクターがいる)別のビューに動いた場合、クエリが発語された時点のユーザのビュー(例えば、ユーザがクエリを開始した時点でスクリーン上に表示されるキャラクター)に基づいて、クエリの結果を判定することができる。いくつかの事例では、ユーザは、クエリを発行するためにメディアの再生を休止することがあり、休止時に表示されたコンテンツを、関連付けられたメタデータと共に使用して、ユーザ意図及びクエリに対する応答を判定することができる。
【0164】
判定したユーザ意図が与えられると、クエリの結果をユーザに提供することができる。
図20は、アシスタント応答2020を含む例示的なアシスタント応答インタフェース2018を示し、アシスタント応答2020は、
図19の音声表記1916のクエリから判定される応答を含むことができる。アシスタント応答2020は、図示のとおり、動画480中の各女優の名前とその関連キャラクターとのリストを含むことができる(「女優Jennifer Jonesは、キャラクターBlancheを演じており、女優Elizabeth Arnoldは、キャラクターJuliaを演じており、女優Whitney Davidsonは、キャラクターMelissaを演じています。」)。応答2020中の列挙された女優及びキャラクターは、ディスプレイ112上に現れているキャラクター1910、1912及び1914に対応することができる。上述のように、いくつかの実施例では、ディスプレイ112上に表示されたコンテンツは、クエリの発信及び応答の判定中に変化することがある。したがって、応答2020は、ディスプレイ112上にはもはや現れていないコンテンツ又はキャラクターに関する情報を含むことができる。
【0165】
ディスプレイ112上に表示される他のインタフェースの場合と同様に、アシスタント応答インタフェース2018が占めるスクリーンの面積を、所望の情報を伝達するのに十分なスペースを提供しながら、最小量に抑えることができる。いくつかの実施例では、ディスプレイ112上のインタフェースに表示される他のテキストの場合と同様に、アシスタント応答2020を、ディスプレイ112の下部から
図20に示した位置へとスクロールアップし、ある特定の時間量(例えば、応答の長さに基づく遅延)にわたって表示し、スクロールアップさせてビューから消すことができる。他の実施例では、遅延後に、インタフェース2018を下向きにスライドしてビューから消すことができる。
【0166】
図21及び
図22は、ディスプレイ112に表示されたコンテンツに基づくユーザ意図の判定とクエリに対する応答との別の実施例を示す。
図21は、動画480と関連付けられたメディアコンテンツに関する仮想アシスタントクエリを示す例示的な発語入力インタフェース484を示す。いくつかの実施例では、ユーザクエリは、ディスプレイ112に表示されたメディアと関連付けられたメディアコンテンツに関する要求を含むことができる。例えば、ユーザは、例えば、キャラクター、俳優、ジャンルなどに基づいて、特定のメディアと関連付けられた他の映画、テレビプログラム、スポーツイベントなど要求することができる。例えば、音声表記2122は、動画480における女優のキャラクターの名前を参照して、動画480の女優と関連付けられた他のメディアを要求するクエリを含む(「Blancheは他に何に出演している?」)。同じく、ディスプレイ112上に表示されたコンテンツを(そのコンテンツに関するメタデータ又は他の記述情報と共に)使用して、そのコンテンツに関係する発語入力からユーザ意図を判定するだけでなく、クエリに対する応答(情報応答、又はメディア選択における得られる応答のいずれか)を判定することができる。
【0167】
いくつかの実施例では、仮想アシスタントにダイレクトされたユーザクエリは、キャラクターの名前、俳優の名前、プログラムの名前、選手の名前などを使用する曖昧な参照を含むことができる。ディスプレイ112上に表示されたコンテンツのコンテキスト及びその関連メタデータなしには、そのよう参照を正確に解釈するのは難しいことがある。音声表記2122は、例えば、動画480の「Blanche」という名前のキャラクターに対する参照を含む。ユーザが尋ねている特定の女優又は他の人は、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、ディスプレイ112上に表示されたコンテンツ及び関連メタデータを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。例示した実施例では、ディスプレイ112に表示されたコンテンツ及び関連メタデータを使用して、キャラクター名「Blanche」から、ユーザ意図を判定することができる。この事例では、動画480と関連付けられたキャラクターリストを使用して、「Blanche」が動画480のキャラクター「Blanche」を参照する可能性があることを判定することができる。別の実施例では、詳細なメタデータ及び/又は顔認識を使用して、スクリーンに名前が「Blanche」のキャラクターが現れている(又は、ユーザのクエリの開始時にスクリーン上にあらわ割れていた)ことを判定し、そのキャラクターと関連付けられた女優を、最も可能性の高いユーザのクエリの意図とすることができる。例えば、キャラクター1910、1912及び1914がディスプレイ112上に現れている(又は、ユーザのクエリの開始時にディスプレイ112上に現れていた)と判定することができ、次いで、彼らの関連付けられたキャラクター名を参照して、キャラクターBlancheを参照しているクエリのユーザ意図を判定することができる。次いで、俳優リストを使用して、Blancheを演じる女優を識別することができ、識別された女優が出演している他のメディアを識別するために検索を行うことができる。
【0168】
判定したユーザ意図(例えば、キャラクター参照「Blanche」の解釈)、及びクエリの結果の判定(例えば、「Blanche」を演じる女優と関連付けられた他のメディア)が与えられると、応答をユーザに提供することができる。
図22は、アシスタントテキスト応答2226と選択可能な動画リンク2228とを含む例示的なアシスタント応答インタフェース2224を示し、それは、
図21の音声表記2122のクエリに応じることができる。アシスタントテキスト応答2226は、図示のとおり、選択可能な動画リンク2228を紹介するユーザ要求のパラフレーズを含むことができる。また、アシスタントテキスト応答2226は、ユーザのクエリの曖昧性除去の指示を含むことができる(詳細には、動画480においてキャラクターBlancheを演じる女優Jennifer Jonesを識別する)。そのようなパラフレーズは、仮想アシスタントがユーザのクエリを正しく解釈し、所望の結果を提供していることをユーザに確認することができる。
【0169】
また、アシスタント応答インタフェース2224は、選択可能な動画リンク2228を含むことができる。いくつかの実施例では、仮想アシスタントクエリに対する結果として、映画(例えば、インタフェース2224の映画A及び映画B)を含む種々の種類のメディアコンテンツを提供することができる。クエリの結果として表示されるメディアコンテンツは、(無料で、購入して、又はサブスクリプションの一部として)ユーザが消費するために利用可能であり得るメディアを含むことができる。ユーザは、表示されたメディアを選択して、得られたコンテンツを閲覧又は消費することができる。例えば、ユーザは、女優Jennifer Jonesが出演している他の映画のうちの1つを視聴するために、(例えば、遠隔制御、音声コマンドなどを使用して)選択可能な動画リンク2228のうちの1つを選択することができる。選択可能な動画リンク2228のうちの1つの選択に応じて、その選択と関連付けられた動画を再生し、ディスプレイ112上の動画480を置換することができる。したがって、表示されたメディアコンテンツ及び関連メタデータを使用して、発語入力からユーザ意図を判定することができ、いくつかの実施例では、結果として、再生可能なメディアを提供することができる。
【0170】
ユーザは、クエリを形成する際に、表示されたコンテンツと関連付けられた、俳優、選手、キャラクター、場所、チーム、スポーツイベントの詳細、映画の主題、又は種々の他の情報を参照することができ、仮想アシスタントシステムは、同様に、表示されたコンテンツ及び関連メタデータに基づいて、そのような要求の曖昧性を回避し、ユーザ意図を判定することができることを理解されたい。同様に、いくつかの実施例では、結果は、(ユーザがそのようなメディアコンテンツを具体的には要求するか否かにかかわらず)クエリの主題である人物と関連付けられた、映画、テレビ番組又はスポーツイベントなど、クエリと関連付けられたメディア推薦を含むことができることを理解されたい。
【0171】
更に、いくつかの実施例では、ユーザクエリは、キャラクター、エピソード、映画のプロット、以前のシーンなどに関するクエリのような、メディアコンテンツ自体と関連付けられた情報の要求を含むことができる。上記で論じた実施例の場合と同様に、表示されたコンテンツ及び関連メタデータを使用して、そのようなクエリからユーザ意図を判定し、応答を判定することができる。例えば、ユーザは、キャラクターの記述を要求することがある(例えば、「Blancheは、この映画で何をしている?」)。次いで、仮想アシスタントシステムは、表示されたコンテンツと関連付けられたメタデータから、キャラクターの記述又は配役など、キャラクターに関する要求された情報を識別することができる(例えば、「Blancheは、弁護士のグループの1人であり、Hartfordのトラブルメーカーとして知られている。)。同様に、ユーザは、エピソードの概要を要求することがあり(例えば、「最後のエピソードで何が起こった?」)、仮想アシスタントシステムは、エピソードの記述を検索し、それを提供することができる。
【0172】
いくつかの実施例では、ディスプレイ112上に表示されたコンテンツは、メニューコンテンツを含むことができ、そのようなメニューコンテンツを同様に使用して、発語入力のユーザ意図及びユーザクエリに対する応答を判定するために使用されることができる。
図23A~
図23Bは、プログラムメニュー830の例示的なページを示す図である。
図23Aは、メディアオプション832の第1のページを示し、
図23Bは、(2ページ以上にわたるコンテンツのリストの連続する次のページを含むことができる)メディアオプション832の第2のページを示す。
【0173】
1つの実施例では、コンテンツを再生するというユーザ要求は、メニュー830における、ディスプレイ112上に表示されたものへの曖昧な参照を含むことができる。例えば、ユーザが閲覧するメニュー830は、「その」サッカーの試合、「その」バスケットボールの試合、掃除機の広告、法律番組などを視聴することを要求することができる。所望される特定のプログラムは、発語入力のみからでは不明瞭であることがある。ただし、いくつかの実施例では、デバイス112上に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。例示した実施例では、メニュー830のメディアオプションを(いくつかの実施例では、メディアオプションと関連付けられたメタデータと共に)使用して、曖昧な参照を含むコマンドから、ユーザ意図を判定することができる。例えば、「その」サッカーの試合は、スポーツチャンネルのサッカーの試合と解釈することができる。「その」バスケットボールの試合は、カレッジスポーツチャンネルのバスケットボールの試合と解釈することができる。掃除機の広告は、(例えば、掃除機について説明している番組と関連付けられたメタデータに基づいて)テレビショッピング番組と解釈することができる。法律番組は、番組と関連付けられたメタデータ、及び/又はシノニムマッチング、ファジーマッチング若しくは他のマッチング技術に基づいて、法廷ドラマと解釈することができる。したがって、ディスプレイ112上のメニュー830に種々のメディアオプション832が現れていることを使用して、ユーザ要求の曖昧性を回避することができる。
【0174】
いくつかの実施例では、カーソル、ジョイスティック、矢印、ボタン、ジェスチャなどで、表示されたメニューをナビゲートすることができる。そのような場合、選択された項目についてフォーカスを表示することができる。例えば、選択された項目は、太字で、下線を付して、枠線で囲み、他のメニュー項目よりも大きなサイズで、影付きで、反射させて、光らせて、及び/又は、どのメニュー項目が選択され、フォーカスを有するかを強調する任意の他の特徴部を用いて示される。例えば、
図23Aの選択されたメディアオプション2330は、現在選択されているメディアオプションとしてフォーカスを有することができ、大きく下線付きでタイプされ、枠線を用いて示されている。
【0175】
いくつかの実施例では、コンテンツ又はメニュー項目を再生又は選択するという要求は、フォーカスを有するメニュー項目の曖昧な参照を含むことができる。例えば、
図23Aのユーザが閲覧しているメニュー830は、「その」番組を再生すること要求することができる(例えば、「その番組を再生して。」)。同様に、ユーザは、再生、削除、非表示、視聴リマインダ、録画など、フォーカスを有するメニュー項目と関連付けられた種々の他のコマンドを要求することができる。所望される特定のメニュー項目又は番組は、発語入力のみからでは不明瞭であることがある。ただし、デバイス112上に表示されたコンテンツを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。詳細には、選択されたメディアオプション2330は、メニュー830にフォーカスを有するという事実を使用して、「その」番組を参照するコマンド、主題のないコマンド(例えば、再生、削除、非表示など)、又はフォーカスを有するメディアコンテンツを参照する任意の他の曖昧なコマンドのうちのいずれかの所望のメディアの主題を識別することができる。したがって、発語入力からユーザ意図を判定する際に、フォーカスを有するメニュー項目を使用することができる。
【0176】
(例えば、ユーザの要求開始時には表示されていたが、それから経過後に)ユーザ要求の曖昧性を回避するために使用することができるメディアコンテンツの閲覧履歴の場合と同様に、以前に表示されたメニュー又は検索結果コンテンツを同様に使用して、それ以降のメニューコンテンツ又は検索結果コンテンツに移動した後、それ以降のユーザ要求の曖昧性を回避することができる。例えば、
図23Bは、追加のメディアオプション832を備えるメニュー830の第2のページを示す。ユーザは、
図23Bに例示した第2のページに進むことができるが、
図23Aに例示した第1のページに表示されたコンテンツ(例えば、
図23Aに示したメディアオプション832)を再び参照することができる。例えば、メニュー830の第2のページに移動したにもかかわらず、ユーザは、「その」サッカーの試合、「その」バスケットボールの試合又は法律番組の視聴を要求することができ、それらは全て、メニュー830の以前のページに最近表示されたメディアオプション832である。そのような参照は曖昧であることがあるが、メニュー830の第1のページのうち最近表示されたメニューコンテンツを使用して、ユーザ意図を判定することができる。詳細には、
図23Aの最近表示されたメディアオプション832を分析して、例示的な曖昧な要求で参照される特定のサッカーの試合、バスケットボールの試合、又は法廷ドラマを識別することができる。いくつかの実施例では、コンテンツがどれくらい最近表示されたかに基づいて、結果にバイアスをかける(例えば、以前に閲覧された結果よりも、結果の直近に閲覧されたページに重み付けする)ことができる。このようにすると、ディスプレイ112上に最近表示されたものの閲覧履歴を使用して、ユーザ意図を判定することができる。以前に表示された検索結果、以前に表示されたプログラム、以前に表示されたメニューなど、任意の最近表示されたコンテンツを使用することができることを理解されたい。これにより、ユーザは、自身が見た特定のビューを発見し、それにナビゲートすることなく、以前に見たものを再び参照することが可能になる。
【0177】
更に他の実施例では、デバイス112上のメニュー又は結果リストに表示された種々の表示キューを使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。
図24は、カテゴリーに分けられた例示的なメディアメニューを示し、それらのうちの1つ(映画)がフォーカスを有する。
図24は、カテゴリーインタフェース2440を示し、カテゴリーインタフェース2440は、TVオプション2442、映画オプション2444及び音楽オプション2446を含むカテゴリーに分けられたたメディアオプションのカルーセルスタイルのインタフェースを含むことができる。図示のとおり、音楽カテゴリーは一部のみが表示されており、追加のコンテンツを表示するために、カルーセルでメディアを回転させるかのように、(例えば、矢印により示されるように)カルーセルインタフェースを右側にシフトすることができる。例示した実施例では、(例えば、他のカテゴリーよりもユーザに近く見えるように、そのカテゴリーをより大きくする、光を加える、など)種々の他のやり方のいずれかでフォーカスを示すことができるが、映画カテゴリーは、下線付きのタイトル及び枠線によって示されるフォーカスを有する。
【0178】
いくつかの実施例では、コンテンツ又はメニュー項目を再生又は選択するという要求は、項目のグループ(カテゴリーなど)におけるメニュー項目の曖昧な参照を含むことができる。例えば、ユーザが閲覧しているカテゴリーインタフェース2440は、サッカー番組を再生するように要求することができる(「サッカー番組を再生して。」)。所望される特定のメニュー項目又は番組は、発語入力のみからでは不明瞭であることがある。更に、クエリを、ディスプレイ112上に表示される2つ以上の番組と解釈することができる。例えば、サッカー番組の要求は、TVプログラムカテゴリーに列挙されたサッカーの試合、又は映画カテゴリーに列挙されたサッカーの映画のいずれかを指し得る。デバイス112上に表示されたコンテンツ(表示キューを含む)を使用して、ユーザ要求の曖昧性を回避し、ユーザ意図を判定することができる。詳細には、カテゴリーインタフェース2440において映画カテゴリーがフォーカスを有するという事実を使用して、映画カテゴリー上でフォーカスを与えられたサッカーの映画である、所望される特定のサッカー番組を識別することができる。したがって、発語入力からユーザ意図を判定する際に、ディスプレイ112上に表示されるようなフォーカスを有するメディアのカテゴリー(又は、メディアの任意の他のグループ)を使用することができる。また、ユーザは、ある特定のカテゴリーコンテンツの表示を要求するなど、カテゴリーと関連付けられた種々の他の要求を行うことができる(例えば、コメディ映画を表示する、ホラー映画を表示する、など)。
【0179】
他の実施例では、ユーザは、種々の他のやり方で、ディスプレイ112上に表示されたメニュー又はメディア項目を参照することができる。同様に、表示されたコンテンツに基づいて、ユーザ意図は判定することができる。表示されたコンテンツと関連付けられたメタデータ(例えば、TVプログラムの記述、映画の記述など)、ファジーマッチング技術、シノニムマッチングなどを、発語入力からユーザ意図を判定するために、表示されたコンテンツと併せて更に使用することができることを了解されたい。したがって、自然言語要求を含む種々の形態のユーザ要求を適応することができ、本明細書で論じる種々の実施例に従って、ユーザ意図を判定することができる。
【0180】
ディスプレイ112に表示されたコンテンツは、単独で使用しても、あるいは、ユーザデバイス102上に、又はユーザ意図を判定する際に遠隔制御106と関連付けられたディスプレイ上に表示されたコンテンツと併せて使用してもよいことを理解されたい。同様に、テレビセットトップボックス104に通信可能に結合された種々のデバイスのいずれかで仮想アシスタントクエリを受信することができ、どのデバイスがクエリを受信するかにかかわらず、ディスプレイ112上に表示されたコンテンツを使用してユーザ意図を判定することができることを理解されたい。クエリの結果も同様に、ディスプレイ112上に、又は別のディスプレイ上に(例えば、ユーザデバイス102上に)表示することができる。
【0181】
更に、本明細書では論じる種々の実施例のうちのいずれかでは、仮想アシスタントシステムは、ユーザが、具体的にメニューを開いて、メニュー項目にナビゲートすることを必要とせずに、メニューをナビゲートし、メニューオプションを選択することができる。例えば、
図24における映画オプション2444の選択など、メディアコンテンツ又はメニューボタンを選択した後に、オプションのメニューが現れることがある。メニューオプションは、メディアの再生だけでなく、後でメディアを視聴するためにリマインダを設定すること、メディア録画を設定すること、お気に入りリストにメディアを加えること、更なるビューからメディアを非表示にすることなどのような、単なるメディアの再生の代替を含み得る。ユーザが、メニューの上でコンテンツ又はサブメニューオプションを有するコンテンツを閲覧している間、ユーザは、選択するメニュー又はサブメニューにナビゲートすることを場合によっては必要とする仮想アシスタントコマンドを発行することができる。例えば、
図24のユーザが閲覧しているカテゴリーインタフェース2440は、関連付けられるメニューを手動で開くことなく、映画オプション2444と関連付けられた任意のメニューコマンドを発行することができる。例えば、ユーザは、サッカー映画をお気に入りリストに加えること、夜のニュースを録画すること、映画Bを視聴するためのリマインダを設定することを、そのようなコマンドが利用可能であり得るそれらのメディアオプションと関連付けられたメニュー又はサブメニューを常にナビゲートすることなしに要求し得る。したがって、仮想アシスタントシステムは、ユーザに代わってコマンドを実行するために、メニュー及びサブメニューのメニューオプションがディスプレイ112上に現れているか否かにかかわらず、メニュー及びサブメニューをナビゲートすることができる。これにより、ユーザ要求を単純にすることができ、ユーザが所望のメニュー機能を達成するために行わなければならないクリック又は選択の回数を低減することができる。
【0182】
図25は、ディスプレイ上の示されたメディアコンテンツとメディアコンテンツの閲覧履歴とを使用して、テレビ対話を制御するための例示的なプロセス2500を示す。ブロック2502で、テレビディスプレイ上に表示されたコンテンツと関連付けられたクエリを含む、ユーザからの発語入力を受信することができる。例えば、発語入力は、(テレビセットトップボックス104によって示される)システム100のディスプレイ112上に現れているキャラクター、俳優、映画、テレビプログラム、スポーツイベント、選手などに関するクエリを含むことができる。例えば、
図19の音声表記1916は、ディスプレイ112上の動画480に表示された女優と関連付けられたクエリを含む。同様に、
図21の音声表記2122は、例えば、ディスプレイ112上に表示された動画480中のキャラクターと関連付けられたクエリを含む。また、発語入力は、特定のメニュー項目を選択するためのクエリ、又は特定の検索結果に関する情報を得るためのクエリなど、ディスプレイ112上に現れているメニュー又は検索コンテンツと関連付けられたクエリを含むことができる。例えば、表示されたメニューコンテンツは、
図23A及び
図23Bにおけるメニュー830のメディアオプション832を含むことができる。表示されたメニューコンテンツは同様に、
図24のカテゴリーインタフェース2440に現れている、TVオプション2442、映画オプション2444、及び/又は音楽オプション2446を含むことができる。
【0183】
図25のプロセス2500を再び参照すると、ブロック2504で、表示されたコンテンツとメディアコンテンツの閲覧履歴とに基づいて、クエリのユーザ意図を判定することができる。例えば、テレビプログラム、スポーツイベント、映画などの表示されている、又は最近表示されたシーンに基づいて、ユーザ意図を判定することができる。また、表示されている、又は最近表示されたメニュー又は検索コンテンツに基づいて、ユーザ意図を判定することができる。また、表示されたコンテンツを、コンテンツと関連付けられたメタデータと共に分析して、ユーザ意図を判定することができる。例えば、図示され、
図19、
図21、
図23A、
図23B及び
図24を参照して説明したコンテンツを単独で、又は表示されたコンテンツと関連付けられたメタデータと併せて使用して、ユーザ意図を判定することができる。
【0184】
ブロック2506で、判定したユーザ意図に基づいて、クエリの結果を表示することができる。例えば、
図20のアシスタント応答インタフェース2018におけるアシスタント応答2020と同様の結果をディスプレイ112上に表示することができる。別の実施例では、結果として、
図22に示したアシスタント応答インタフェース2224におけるアシスタントテキスト応答2226及び選択可能な動画リンク2228など、テキスト及び選択可能なメディアを提供することができる。更に別の実施例では、クエリの結果を表示することは、選択されたメディアコンテンツを表示すること、又は再生すること(例えば、選択された動画を、テレビセットトップボックス104を介してディスプレイ112上で再生すること)を含むことができる。したがって、コンテキストとして表示されたコンテンツ及び関連メタデータを使用する様々なやり方で、発語入力からユーザ意図を判定することができる。
【0185】
いくつかの実施例では、例えば、利用可能なクエリをユーザに通知する、ユーザが楽しみ得るコンテンツを推薦する、どのようにシステムを使用するかをユーザに教える、消費のために追加のメディアコンテンツを見つけるようにユーザに勧めるなどのために、ユーザに仮想アシスタントクエリ推薦を提供することができる。いくつかの実施例では、クエリ推薦は、考えられ得るコマンドの包括的な推薦(例えば、コメディを見つける、TVガイドを表示する、アクション映画を検索する、クローズドキャプションをオンにする、など)を含むことができる。他の実施例では、クエリ推薦は、表示されたコンテンツに関係するターゲット推薦(例えば、この番組をウォッチリストに加える、ソーシャルメディアを介してこの番組を共有する、この映画のサウンドトラックを教える、このゲストが販売している本を教える、ゲストがプラグインしている映画のトレーラを教える、など)、ユーザの好み(例えば、クローズドキャプションの使用など)、ユーザが所有するコンテンツ、ユーザのデバイス上に録画されたコンテンツ、通知、アラート、メディアコンテンツの閲覧履歴(例えば、最近表示されたメニュー項目、番組の最近表示されたシーン、俳優の最近の出演など)などを含むことができる。テレビセットトップボックス104を介したディスプレイ112上での表示、ユーザデバイス102上での表示、又は遠隔制御106と関連付けられたディスプレイ上での表示を含めて、任意のデバイス上に推薦を表示することができる。更に、近くにあるデバイス、及び/又は特定の時間にテレビセットトップボックス104と通信するデバイスに基づいて、推薦を判定する(例えば、特定の時間にTVを視聴している室内のユーザのデバイスから、コンテンツを推薦する)ことができる。他の実施例では、時刻、クラウドソースの情報(例えば、所与の時間に視聴されている人気番組)、生放送番組(例えば、ライブスポーツイベント)、メディアコンテンツの閲覧履歴(例えば、最後に視聴されたいくつかの番組、最近閲覧された検索結果のセット、最近閲覧されたメディアオプションのグループなど)、又は種々の他のコンテキスト情報のうちのいずれかを含む、種々の他のコンテキスト情報に基づいて、推薦を判定することができる。
【0186】
図26は、コンテンツベースの仮想アシスタントクエリ推薦2652を含む例示的な推薦インタフェース2650を示す。1つの実施例では、推薦を要求しているユーザから受信した入力に応じて、インタフェース2650などのインタフェースに、クエリ推薦を提供することができる。例えば、ユーザデバイス102又は遠隔制御106から、クエリ推薦を要求する入力を受信することができる。いくつかの実施例では、入力は、ボタン押下、ボタンのダブルクリック、メニュー選択、音声コマンド(例えば、いくつかの推薦を表示する、何ができるのか、どんなオプションがあるのか、など)、又は、ユーザデバイス102若しくは遠隔制御106において受信するものを含むことができる。例えば、ユーザは、クエリ推薦を要求するために、遠隔制御106上の物理ボタンをダブルクリックすることができ、あるいは、クエリ推薦を要求するために、テレビセットトップボックス104と関連付けられたインタフェースの閲覧時にユーザデバイス102上の物理ボタン又は仮想ボタンをダブルクリックすることができる。
【0187】
動画480などの動画像の上に、又は任意の他のバックグラウンドコンテンツ(例えば、メニュー、静止画像、休止された動画など)の上に、推薦インタフェース2650を表示することができる。本明細書で論じる他のインタフェースの場合と同様に、ディスプレイ112の下部からスライドアップするように推薦インタフェース2650をアニメーション化することができ、バックグラウンドの動画480との干渉を制限するように、所望の情報を十分に伝達しながら、推薦インタフェース2650が占めるスペース量を最小限に抑えることができる。他の実施例では、バックグラウンドコンテンツが静止している時に(例えば、休止された動画、メニュー、画像など)、推薦のインタフェースをより大きくすることができる。
【0188】
いくつかの実施例では、表示されたメディアコンテンツ又はメディアコンテンツの閲覧履歴(例えば、映画、テレビ番組、スポーツイベント、最近閲覧された番組、最近閲覧されたメニュー、最近閲覧された映画のシーン、放送中のテレビエピソードの最近のシーンなど)に基づいて、仮想アシスタントクエリ推薦を判定することができる。例えば、
図26は、表示された動画480に基づいて判定することができるコンテンツベースの推薦2652を示しており、表示された動画480はバックグラウンドに表示され、キャラクター1910、1912及び1914がディスプレイ112に現れている。また、表示されたコンテンツと関連付けられたメタデータ(例えば、メディアコンテンツの記述的な詳細)を使用して、クエリ推薦を判定することができる。メタデータは、番組タイトル、キャラクターリスト、俳優リスト、エピソードの記述、チーム名簿、チームランキング、番組概要、映画の詳細、プロットの記述、ディレクター名、プロデューサー名、俳優の出演時間、スポーツの順位表、スポーツのスコア、ジャンル、シーズンエピソードリスト、関係するメディアコンテンツ、又は種々の他の関連情報を含めて、表示されたコンテンツと関連付けられた種々の情報を含むことができる。例えば、動画480と関連付けられたメタデータは、キャラクター1910、1912及び1914を演じている女優と共に、それらのキャラクター名を含むことができる。メタデータはまた、動画480、(動画480がシリーズのテレビエピソードである場合)以前の又は次のエピソードの記述など、プロットの記述を含むことができる。
【0189】
図26は、動画480及び動画480と関連付けられたメタデータに基づいて推薦インタフェース2650に示すことができる種々のコンテンツベースの推薦2652を示す。例えば、動画480のキャラクター1910の名前は「Blanche」とすることができ、キャラクター名を使用して、キャラクターBlancheに関する、又はそのキャラクターを演じる女優に関する情報についてのクエリ推薦を策定することができる(例えば、「Blancheを演じている女優は誰?」)。動画480と関連付けられたメタデータ(例えば、キャラクターリスト、俳優リスト、俳優の出演と関連付けられた時間など)から、キャラクター1910を識別することができる。他の実施例では、顔認識を使用して、所与の時間にディスプレイ112上に現れる女優及び/又はキャラクターを識別することができる。キャラクターの配役、プロファイル、他のキャラクターとの関係などに関するクエリなど、メディア自体におけるキャラクターと関連付けられた種々の他のクエリ推薦を提供することができる。
【0190】
別の実施例では、(例えば、メタデータ及び/又は顔認識に基づいて)ディスプレイ112上に現れている俳優又は女優を識別することができ、その俳優又は女優と関連付けられたクエリ推薦を提供することができる。そのようなクエリ推薦は、演じた配役(単数又は複数)、映画賞、年齢、出演している他のメディア、経歴、親族、関係者、又は俳優若しくは女優に関する種々の他の詳細のうちのいずれかを含むことができる。例えば、キャラクター1914は、Whitney Davidsonという名前の女優に演じられ得、女優名Whitney Davidsonを使用して、女優Whitney Davidsonが出演している他の映画、テレビプログラム、又は他のメディアを識別するためのクエリ推薦を策定することができる(例えば、「Whitney Davidsonは他に何に出演している?」)。
【0191】
他の実施例では、番組に関する詳細を使用してクエリ推薦を策定することができる。エピソードの概要、プロットの要旨、エピソードリスト、エピソードのタイトル、シリーズタイトルなどを使用して、クエリ推薦を策定することができる。例えば、テレビプログラムの最後のエピソードで何が起こったかを説明するための推薦(例えば、「最後のエピソードで何が起こった?」)を提供することができ、仮想アシスタントシステムはそこに、ディスプレイ112上に現在表示されているエピソードに基づいて識別される前のエピソードからのエピソードの概要(及びその関連メタデータ)を応答として提供することができる。別の実施例では、次のエピソードの録画を設定するための推薦を提供することができ、それは、システムが、ディスプレイ112上に表示された現在放送しているエピソードに基づいて、次のエピソードを識別することによって達成される。更に別の実施例では、ディスプレイ112上に現れている現在のエピソード又は番組に関する情報を得るための推薦を提供することができ、メタデータから取得された番組のタイトルを使用して、クエリ推薦を策定することができる(例えば、「『Their Show』のこのエピソードは何について?」又は「『Their Show』は何について?」)。
【0192】
別の実施例では、表示されたコンテンツと関連付けられたカテゴリー、ジャンル、レーティング、賞、記述などを使用して、クエリ推薦を策定することができる。例えば、動画480は、女性が主人公であるコメディとして説明されるテレビプログラムに対応することができる。この情報から、同様の特徴をもつ他の番組を識別するためのクエリ推薦を策定することができる(例えば、「女性が主演の他のコメディを見つけて。」)。他の実施例では、ユーザサブスクリプション、再生するために利用可能なコンテンツ(例えば、テレビセットトップボックス104上のコンテンツ、ユーザデバイス102上のコンテンツ、ストリーミングために利用可能なコンテンツなどの)などに基づいて、推薦を判定することができる。例えば、情報又はメディア結果が利用可能であるかどうかに基づいて、潜在的なクエリ推薦をフィルタリングすることができる。再生可能なメディアコンテンツ若しくは情報回答を生じないかもしれないクエリ推薦を除外することができ、及び/又は、直ちに利用可能な情報回答若しくは再生可能なメディアコンテンツによるクエリ推薦を提供する(若しくは、それに、どの推薦を提供するべきか判定する際により重度に重み付けする)ことができる。したがって、表示されたコンテンツ及び関連メタデータを様々なやり方で使用して、クエリ推薦を判定することができる。
【0193】
図27は、推薦されたクエリの選択を確認するための例示的な選択インタフェース2754を示す。いくつかの実施例では、ユーザは、クエリを発語すること、ボタンを用いてそれらを選択すること、カーソルを用いてそれらにナビゲートすることなどによって、表示されたクエリ推薦を選択することができる。選択に応じて、選択インタフェース2754などの確認インタフェースに、選択された推薦を一時的に表示することができる。1つの実施例では、選択された推薦2756を、推薦インタフェース2650において選択された推薦2756が現れているところから、コマンド受信確認490の隣の
図27に示した位置まで動くように、(例えば、矢印が示すように)アニメーション化することができ、他の選択されていない推薦をディスプレイから非表示にすることができる。
【0194】
図28A~
図28Bは、選択されたクエリに基づく例示的な仮想アシスタント回答インタフェース2862を示す図である。いくつかの実施例では、回答インタフェース2862などの回答インタフェースに、選択されたクエリに対する情報回答を表示することができる。推薦インタフェース2650又は選択インタフェース2754のいずれかから切り替える際には、
図28Aに示すように、遷移インタフェース2858に表示することができる。詳細には、次のコンテンツがディスプレイ112の下部から上向きにスクロールするにつれて、インタフェース内の以前に表示されたコンテンツが上向きにスクロールされ、インタフェースから消える。例えば、選択された推薦2756を、仮想アシスタントインタフェースの上縁部で見えなくなるまで上向きにスライド又はスクロールすることができ、アシスタント結果2860を、
図28Bに示した位置に到着するまで、ディスプレイ112の下部から上向きにスライド又はスクロールすることができる。
【0195】
回答インタフェース2862は、選択されたクエリ推薦に応じた(又は、任意の他のクエリに応じた)情報回答及び/又はメディア結果を含むことができる。例えば、選択されたクエリ推薦2756に応じて、アシスタント結果2860を判定し、提供することができる。詳細には、前のエピソードの概要の要求に応じて、表示されたコンテンツに基づいて前のエピソードを識別することができ、関連付けられた記述又は概要を識別し、それをユーザに提供することができる。例示した実施例では、アシスタント結果2860は、ディスプレイ112上の動画480に対応するプログラムの以前のエピソードについて説明することができる(例えば、「『Their Show』のエピソード203において、Blancheが、ゲスト演説者としてカレッジの心理学クラスに招待される。JuliaとMelissaが、予告なしに現れ、騒動を起こす。」)。また、本明細書では論じた他のやり方のいずれかで情報回答及びメディア結果(例えば、選択可能な動画リンク)を提示することができ、又は、種々の他のやり方(例えば、回答を発語する、直ちにコンテンツを再生する、アニメーションを示す、画像を表示する、など)で結果を提示することができる。
【0196】
別の実施例では、通知又はアラートを使用して、仮想アシスタントクエリ推薦を判定することができる。
図29は、メディアコンテンツ通知2964(推薦を判定する際に、任意の通知を考慮に入れることができるが)と、通知ベースの推薦2966及びコンテンツベースの推薦2652の双方を備える推薦インタフェース2650(
図26を参照して上記で論じた同じ概念のうちのいくつかを含むことができる)とを示す。いくつかの実施例では、通知のコンテンツを分析して、関連するメディアに関係する名前、タイトル、主題、アクションなどを識別することができる。例示した実施例では、通知2964は、表示のために利用可能な代替メディアコンテンツについてユーザに通知するアラートを含み、詳細には、スポーツイベントが生放送であり、試合のコンテンツがユーザにとって興味の対象であり得る(例えば、「チームシータとチームアルファは、試合残り5分間の時点で同点です。」)。いくつかの実施例では、ディスプレイ112の上部に、通知を瞬間的に表示することができる。通知を、(矢印が示すように)ディスプレイ112の上部から、
図29に示した位置へとスライドダウンし、ある特定の時間にわたって表示し、ディスプレイ112の上部において再び見えなくなるようにスライドアップして戻すことができる。
【0197】
通知又はアラートは、利用可能な代替メディアコンテンツ(例えば、ディスプレイ112上に現在表示され得るものの代替物)、利用可能な濱放送のテレビプログラム、新たにダウンロードされたメディアコンテンツ、最近追加されたサブスクリプションコンテンツ、友人から受信した推薦、別のデバイスから送信されたメディアの受信などのような、種々の情報のユーザを通知することができる。また、家庭用の又は識別されたユーザが視聴しているにメディアに基づいて、通知をパーソナライズする(例えば、アカウント選択を使用したユーザ認証、音声認識、パスワードなどに基づいて識別する)ことができる。1つの実施例では、システムは、番組に割り込み、(ユーザプロファイル、好きなチーム(単数又は複数)、好みのスポーツ(単数又は複数)、閲覧履歴などに基づいて通知のコンテンツを望む可能性があり得る)ユーザのための表示通知2964など、可能性がある所望のコンテンツに基づいて通知を表示することができる。例えば、スポーツイベントのスコア、試合の状況、残り時間などを、スポーツデータフィード、報道機関、ソーシャルメディアのディスカッションなどから取得することができ、それを使用して、ユーザに通知するための考えられ得る代替メディアコンテンツを識別することができる。
【0198】
他の実施例では、現在閲覧されているコンテンツの代替物を推薦するために、アラート又は通知を介して(例えば、多くのユーザに)人気があるメディアコンテンツを提供することができる(例えば、人気がある番組又はユーザが好きなジャンルの番組がちょうど始まったこと、又は場合によっては閲覧するために利用可能であることをユーザに通知する)。例示した実施例では、ユーザは、チームシータ及びチームアルファの一方又は双方をフォローし得る(あるいは、サッカー又は特定のスポーツ、リーグなどをフォローし得る)。システムは、利用可能なライブコンテンツがユーザの好みと一致すると判定することができる(例えば、別のチャンネルの試合が、ユーザの好みと一致する、試合の残り時間がほとんどない、スコアが近接している)。次いで、システムは、可能性がある所望のコンテンツの通知2964を介してユーザにアラートを出すことを判定することができる。いくつかの実施例では、ユーザは、通知2964(又は、通知2964内のリンク)を選択して、(例えば、遠隔制御ボタン、カーソル、口頭要求などを使用して)推薦されたコンテンツに切り替えることができる。
【0199】
関連するメディア、関連する用語、名前、タイトル、主題、アクションなどを識別するために通知コンテンツを分析することによって、通知に基づいて、仮想アシスタントクエリ推薦を判定することができる。次いで、識別された情報を使用して、通知2964に基づいて、通知ベースの推薦2966など、適切な仮想アシスタントクエリ推薦を策定することができる。例えば、ライブスポーツイベントのエキサイティングな終わりに関する通知を表示することができる。次いで、ユーザがクエリ推薦を要求すると、スポーツイベントを閲覧するための、チームの成績に関して照会するための、又は通知に関係するコンテンツを発見するためのクエリ推薦を含む推薦インタフェース2650(例えば、シータ/アルファの試合に変える、チームシータのステータスはどんなか、他にどんなサッカーの試合が放送されているか)を表示することができる。通知で識別された興味の対象である特定の用語に基づいて、種々の他のクエリ推薦を同様に判定し、それをユーザに提供することができる。
【0200】
また、ユーザデバイス上のコンテンツから、(例えば、テレビセットトップボックス104を介した消費のための)メディアコンテンツに関係する仮想アシスタントクエリ推薦を判定することができ、推薦をユーザデバイス上に提供することもできる。いくつかの実施例では、テレビセットトップボックス104に接続された、又はそれと通信するユーザデバイス上で、再生可能なデバイスコンテンツを識別することができる。
図30は、インタフェース1360中に例示的な写真及び動画コンテンツを備えるユーザデバイス102を示す。どんなコンテンツがユーザデバイス上での再生のために利用可能であるか、又はどんなコンテンツが再生を望まれる可能性があるかについて、判定を行うことができる。例えば、アクティブなアプリケーションに基づいて、再生可能なメディア3068(例えば、写真及び動画アプリケーション)を識別することができ、又は、インタフェース1360上に表示されているかどうかにかかわりなく、記憶されたコンテンツについて、再生可能なメディア3068を識別することができる(例えば、いくつかの実施例では、アクティブなアプリケーションから、又は、他の実施例では、所与の時間に表示されることなく、コンテンツを識別することができる)。再生可能なメディア3068は、例えば、動画1362、フォトアルバム1364及び写真1366を含むことができ、それらはそれぞれ、表示又は再生のために、テレビセットトップボックス104に送信され得るパーソナルユーザコンテンツを含むことができる。他の実施例では、クエリ推薦を判定するために、任意の写真、動画、音楽、ゲームインタフェース、アプリケーションインタフェース、又は、ユーザデバイス102上に記憶又は表示された他のメディアコンテンツを識別し、使用することができる。
【0201】
識別された再生可能なメディア3068を用いて、仮想アシスタントクエリ推薦を判定し、それをユーザに提供することができる。
図31は、再生可能なユーザデバイスコンテンツに基づく仮想アシスタントクエリ推薦と、別個のディスプレイ(例えば、テレビセットトップボックス104と関連付けられたディスプレイ112)上に表示された動画コンテンツに基づく仮想アシスタントクエリ推薦とを備える、ユーザデバイス102上の例示的なTVアシスタントインタフェース3170を示す。TVアシスタントインタフェース3170は、特に、メディアコンテンツ及び/又はテレビセットトップボックス104と対話するための仮想アシスタントインタフェースを含むことができる。ユーザは、インタフェース3170を閲覧する時に、例えば物理ボタンのダブルクリックによって、ユーザデバイス102上でクエリ推薦を要求することができる。同様に、他の入力を使用して、クエリ推薦の要求を示すことができる。図示のとおり、アシスタントグリーティング3172は、提供されたクエリ推薦を紹介することができる(例えば、「あなたのTV体験を制御するための推薦がいくつかあります。」)。
【0202】
ユーザデバイス102上に提供された仮想アシスタントクエリ推薦は、種々のソースデバイスに基づく推薦、並びに全般的な推薦を含むことができる。例えば、デバイスベースの推薦3174は、(ユーザデバイス102上に表示されたコンテンツを含む)ユーザデバイス102に記憶されたコンテンツに基づくクエリ推薦を含むことができる。コンテンツベースの推薦2652は、テレビセットトップボックス104と関連付けられたディスプレイ112上に表示されたコンテンツに基づくことができる。全般的な推薦3176は、特定のメディアコンテンツ又はメディアコンテンツを備える特定のデバイスと関連付けられた全般的な推薦を含むことができる。
【0203】
例えば、ユーザデバイス102上で識別された再生可能なコンテンツ(例えば、動画、音楽、写真、ゲームインタフェース、アプリケーションインタフェース、など)に基づいて、デバイスベースの推薦3174を判定することができる。例示した実施例では、
図30に示した再生可能なメディア3068に基づいて、デバイスベースの推薦3174を判定することができる。例えば、フォトアルバム1364が再生可能なメディア3068として識別されたと仮定すると、フォトアルバム1364の詳細を使用して、クエリを策定することができる。システムは、スライドショーで表示することができる複数の写真のアルバムとしてコンテンツを識別することができ、次いで、(いくつかの事例では)アルバムのタイトルを使用して、写真の特定のアルバムのスライドショーを表示するクエリ推薦を策定することができる(例えば、「あなたの写真から「卒業式のアルバム」のスライドショーを表示する。」)。いくつかの実施例では、推薦は、コンテンツのソースの指示(例えば、「あなたの写真から」「Jenniferの電話から」、「Danielのタブレットから」など)を含むことができる。また、推薦は、特定の日付から写真を閲覧するための推薦(例えば、6月21日から写真を表示する)など、特定のコンテンツを参照するめに他の詳細を使用することができる。別の実施例では、再生可能なメディア3068として、動画1362を識別することができ、動画のタイトル(又は、他の識別情報)を使用して、動画を再生するためのクエリ推薦を策定することができる(例えば、「あなたの動画から『卒業式の動画』を表示する。」)。
【0204】
他の実施例では、他の接続されたデバイス上で利用可能なコンテンツを識別し、それを使用して、仮想アシスタントクエリ推薦を策定することができる。例えば、共通のテレビセットトップボックス104に接続された2つのユーザデバイス102の各々からのコンテンツを識別し、仮想アシスタントクエリ推薦を策定する際にそれを使用することができる。いくつかの実施例では、ユーザは、共有するためにどのコンテンツをシステムから見えるようにするかを選択することができ、他のコンテンツをクエリ推薦に含めないように、あるいは場合によっては、再生するために他のコンテンツを利用可能しないように、システムから他のコンテンツを非表示にすることができる。
【0205】
図31のインタフェース3170に表示されたコンテンツベースの推薦2652は、例えば、テレビセットトップボックス104と関連付けられたディスプレイ112上に表示されたコンテンツに基づいて判定することができる。いくつかの実施例では、
図26を参照して上述したのと同じように、コンテンツベースの推薦2652を判定することができる。例示された実施例では、
図31に示したコンテンツベースの推薦2652は、(例えば、
図26の場合のように)ディスプレイ112上に表示された動画480に基づくことができる。このようにすると、任意の数の接続されたデバイス上に表示される、又はそこで利用可能なコンテンツに基づいて、仮想アシスタントクエリ推薦を導き出すことができる。ターゲットの推薦に加えて、全般的な推薦3176(例えば、ガイドを表示する、どんなスポーツが放送されているか、チャンネル3では何が放送されているか、など)をあらかじめ判定し、提供することができる。
【0206】
図32は、テレビセットトップボックス104と関連付けられたディスプレイ112上に表示されたコンテンツベースの推薦2652と共に、接続されたデバイスベースの推薦3275を備える例示的な推薦インタフェース2650を示す。いくつかの実施例では、
図26を参照して上述したのと同じように、コンテンツベースの推薦2652を判定することができる。上述のように、任意の数の接続されたデバイス上のコンテンツに基づいて、仮想アシスタントクエリ推薦を策定することができ、任意の数の接続されたデバイス上に、その推薦を提供することができる。
図32は、ユーザデバイス102上のコンテンツから導き出すことができる、接続されたデバイスベースの推薦3275を示す。例えば、ユーザデバイス102上で、
図30に再生可能なメディア3068としてインタフェース1360に表示された写真及び動画コンテンツなど、再生可能なコンテンツを識別することができる。次いで、ユーザデバイス102上の識別された再生可能なコンテンツを使用して、テレビセットトップボックス104と関連付けられたディスプレイ112上に表示することができる推薦を策定することができる。いくつかの実施例では、
図31を参照して上述したデバイスベースの推薦3174と同じように、接続されたデバイスベースの推薦3275を判定することができる。更に、上述のように、いくつかの実施例では、接続されたデバイスベースの推薦3275に示すような「Jakeの電話から」など、ソース情報を識別することを、推薦に含めることができる。したがって、1つのデバイス上に提供された仮想アシスタントクエリ推薦を、別のデバイスからのコンテンツ(例えば、表示されたコンテンツ、記憶されたコンテンツなど)に基づいて導き出すことができる。接続されたデバイスは、テレビセットトップボックス104及び/又はユーザデバイス102にアクセス可能な(例えば、推薦を策定するために、クラウドに記憶されたメディアコンテンツにアクセする)遠隔記憶デバイスを含むことができることを了解されたい。
【0207】
推薦の要求に応じて、種々のソースからの仮想アシスタントクエリ推薦の任意の組み合わせを提供することができることを理解されたい。例えば、種々のソースからの推薦をランダムに組み合わせることができ、あるいは、人気、ユーザの好み、選択履歴などに基づいて、種々のソースから推薦を提示することができる。更に、クエリを、種々の他のやり方で判定することができ、クエリ履歴、ユーザの好み、クエリの人気などのような種々の他の因子に基づいて提示することができる。更に、いくつかの実施例では、表示された推薦を遅延後の新しい代替推薦と置換することによって、クエリ推薦を自動的に循環させることができる。更に、ユーザは、例えば、タッチスクリーン上でタップすること、クエリを発語すること、ナビゲーションキーを用いてクエリを選択すること、ボタンを用いてクエリを選択すること、カーソルを用いてクエリを選択することなどによって、表示された推薦を任意のインタフェース上で選択することができ、次いで、関連付けられた応答(例えば、情報及び/又はメディア応答)を提供することができることを理解されたい。
【0208】
また、種々の実施例のうちのいずれかでは、利用可能なコンテンツに基づいて、仮想アシスタントクエリ推薦をフィルタリングすることができる。例えば、利用不可能なメディアコンテンツ(例えば、ケーブルサブスクリプションがない)を生じる、又は、関連付けられた情報回答を有し得る潜在的なクエリ推薦は、推薦としての資格を失い、表示せずに隠しておくことができる。一方で、ユーザがアクセスを有する直ちに再生可能なメディアコンテンツを生じる潜在的なクエリ推薦に、他の潜在的な推薦よりも重み付けすることができ、又は場合によっては、表示のためにバイアスをかけることができる。このようにすると、表示のための仮想アシスタントクエリ推薦を判定する際に、ユーザが閲覧するためのメディアコンテンツの可用性を使用することができる。
【0209】
更に、種々の実施例のうちのいずれかでは、プリロードされたクエリ回答を推薦の代わりに、又はそれに加えて(例えば、推薦インタフェース2650に)提供することができる。個人使用及び/又は現在のコンテキストに基づいて、そのようなプリロードされたクエリ回答を選択し、提供することができる。例えば、特定のプログラムを視聴しているユーザは、推薦を受信するために、ボタンをタップする、ボタンをダブルクリックするなどができる。クエリ推薦の代わりに、又はそれに加えて、再生中の曲又はサウンドトラックを識別すること(例えば、「この曲は、Performance Pieceです」)、現在演じられているエピソードの出演者を識別すること(例えば、「女優Janet QuinnがGenevieveを演じています」)、類似メディアを識別すること(例えば、「番組Qはこの番組と類似しています」)、又は本明細書では論じる他のクエリのうちのいずれかの結果を提供すること、などコンテキストベース情報を自動的に提供することができる。
【0210】
更に、ユーザがメディアコンテンツをレーティングして、ユーザの好みの仮想アシスタント(例えば、選択可能なレーティングスケール)を通知する種々のインタフェースのうちのいずれかにアフォーダンスを提供することができる。他の実施例では、ユーザは、自然言語コマンドとしてレーティング情報(例えば、「私はこれが大好きです」、「私はこれが嫌いです」、「私はこの番組が好きではありません」)など)を発語することができる。更に他の実施例では、例示し、本明細書で説明する種々のインタフェースのうちのいずれかにおいて、種々の他の機能要素及び情報要素を提供することができる。例えば、インタフェースは、検索リンク、購入リンク、メディアリンクなどのような、重要な機能及び場所へのリンクを更に含むことができる。別の実施例では、インタフェースは、現在再生中のコンテンツに基づく次に他に何を視聴すべきかの推奨を(例えば、類似するコンテンツを選択すること)更に含むことができる。更に別の実施例では、インタフェースは、パーソナライズされた好み及び/又は最近のアクティビティに基づく次に他に何を視聴すべきかの推奨(例えば、ユーザレーティング、ユーザが入力した好み、最近視聴したプログラムなどに基づいてコンテンツを選択すること)を更に含むことができる。更に他の実施例では、インタフェースは、ユーザ対話の命令(例えば、「押したまま仮想アシスタントに話しかけてください」、「推薦を取得するためには1回タップしてください」など)を更に含むことができる。いくつかの実施例では、プリロードされた回答、推薦などを提供することにより、コンテンツを多種多様なユーザが(例えば、言語又は他のコントロールバリアにかかわらず、種々の技術レベルのユーザが)容易に利用できるようにしながら、ユーザエクスペリエンスを愉快なものにすることができる。
【0211】
図33は、メディアコンテンツを制御するための仮想アシスタント対話(例えば、仮想アシスタントクエリ)を推薦するための例示的なプロセス3300を示す。ブロック3302で、ディスプレイ上にメディアコンテンツを表示することができる。例えば、
図26に示すように、テレビセットトップボックス104を介してディスプレイ112上に動画480を表示することができ、あるいは、
図30に示すように、ユーザデバイス102のタッチスクリーン246上に、インタフェース1360を表示することができる。ブロック3304で、ユーザからの入力を受信することができる。入力は、仮想アシスタントクエリ推薦の要求を含むことができる。入力は、ボタン押下、ボタンのダブルクリック、メニュー選択、推薦についての口頭クエリをなど含むことができる。
【0212】
ブロック3306で、メディアコンテンツ及び/又はメディアコンテンツの閲覧履歴に基づいて、仮想アシスタントクエリを判定することができる。例えば、表示されたプログラム、メニュー、アプリケーション、メディアコンテンツのリスト、通知などに基づいて、仮想アシスタントクエリを判定することができる。1つの実施例では、
図26を参照して説明したような動画480及び関連メタデータに基づいて、コンテンツベースの推薦2652を判定することができる。別の実施例では、
図29を参照して説明したような通知2964に基づいて、通知ベースの推薦2966を判定することができる。更に別の実施例では、
図30及び
図31を参照して説明したようなユーザデバイス102上の再生可能なメディア3068に基づいて、デバイスベースの推薦3174を判定することができる。更に別の実施例では、
図32を参照して説明したようなユーザデバイス102上の再生可能なメディア3068に基づいて、接続されたデバイスベースの推薦3275を判定することができる。
【0213】
図33のプロセス3300を再び参照すると、ブロック3308で、ディスプレイ上に仮想アシスタントクエリを表示することができる。例えば、判定したクエリ推薦は、
図26、
図27、
図29、
図31及び
図32に示し、それを参照して説明したように表示することができる。上記で論じたように、種々の他の情報に基づいて、クエリ推薦を判定し、表示することができる。更に、1つのディスプレイ上に提供された仮想アシスタントクエリ推薦を、別のディスプレイを備える別のデバイスからのコンテンツに基づいて導き出することができる。このようにして、ターゲットの仮想アシスタントクエリ推薦をユーザに提供し、それにより、恩恵の中でもとりわけ、潜在的なクエリの学習に対してユーザを支援し、望ましいコンテンツ推薦を提供することができる。
【0214】
更に、本明細書で論じる種々の実施例のうちのいずれかでは、特定のユーザのために種々の態様をパーソナライズすることができる。連絡先、好み、場所、お気に入りのメディアなどを含むユーザデータを使用して、音声コマンドを解釈し、本明細書で論じる種々のデバイスとのユーザ対話を可能にすることができる。また、ユーザの好み、連絡先、テキスト、使用履歴、プロファイルデータ、統計などに従った種々の他のやり方で、本明細書では論じた種々のプロセスを修正することができる。更に、ユーザ対話(例えば、頻繁に発されるコマンド、頻繁に選択されるアプリケーションなど)に基づいて、そのような好み及び設定を経時的に更新することができる。招待者限定コンテンツ又はユーザにとって興味の対象であり得る任意の他のコンテンツのユーザへの配信を改善するために、種々のソースから利用可能なユーザデータの収集及び使用を使用することができる。本開示は、いくつかの事例では、この収集されたデータは、特定の人を一意に識別する、あるいは、特定の人に接触する、又はその人の位置を特定するために使用され得る、個人情報データを含むことができることを企図する。そのような個人情報データとして、人口統計データ、ロケーションベースのデータ、電話番号、電子メールアドレス、自宅の住所、又は任意の他の識別情報を挙げることができる。
【0215】
本開示により、現在の技術におけるそのような個人情報データの使用を使用してユーザを利することができることが認識される。例えば、個人情報データを使用して、ユーザにとってより大きな興味の対象であるターゲットコンテンツを配信することができる。したがって、そのような個人情報データの使用により、送達されたコンテンツの計算制御が可能になる。更に、ユーザに利する個人情報データについての他の使用もまた本開示により企図される。
【0216】
本開示は更に、収集、分析、開示、転送、記憶又はそのような個人情報データの他の使用を担うエンティティが、確立したプライバシーポリシー及び/又はプライバシー慣行に適合することを企図する。詳細には、そのようなエンティティは、秘密及びセキュアとして個人情報データを維持するための産業上の要件又は政府要件を満たす、又はそれを上回るものとして一般的に認識されるプライバシーポリシー及びプライバシー慣行を実装し、一貫して使用しなければならない。例えば、ユーザからの個人情報は、そのエンティティの合法的かつ正当な使用のために収集されるべきであり、それらの合法的使用を除いて、共有又は販売されるべきではない。更には、そのような収集は、ユーザの告知に基づく同意を受信した後にのみ実施するべきである。更に、そのようなエンティティは、そのような個人情報へのアクセスを保護して安全化し、その個人情報へのアクセスを有する他者が、自身のプライバシーポリシー及び手順を遵守することを保証するための、あらゆる必要な措置を講じることとなる。更には、そのようなエンティティは、広く受け入れられているプライバシーのポリシー及び慣行に対する自身の遵守を証明するために、第三者による評価を自らが受けることができる。
【0217】
前述のことがらにもかかわらず、本開示はまた、ユーザが、個人情報データの使用又は個人情報データへのアクセスを選択的に阻止する実施例も意図する。即ち、本開示は、そのような個人情報データへのアクセスを防止又は阻止するハードウェア要素及び/又はソフトウェア要素を提供することができることを意図する。例えば、広告配信サービスの場合には、この技術は、ユーザが、サービスの登録中に個人情報データの収集への参加の「オプトイン」又は「オプトアウト」を選択することを可能にするように構成され得る。別の実施例では、ユーザは、ターゲットコンテンツ配信サービスに位置情報を提供しないように選択することができる。更に別の実施例では、ユーザは、正確な位置情報を提供しないが、ロケーションゾーンの情報の転送を可能にするように選択することができる。
【0218】
したがって、本開示は、1つ以上の種々の開示された実施形態を実施するための個人情報データの使用を、広範に網羅するものであるが、本開示は、そのような個人情報データにアクセスすることを必要とせずにそれらの種々の実施例を実装することができることも意図する。即ち、本技術の種々の実施例は、そのような個人情報データの全て又は一部分の欠如に起因して、動作不能となるものではない。例えば、ユーザと関連付けられたデバイスが要求するコンテンツ、コンテンツ配信サービスに利用可能な他の非個人情報、又は一般公開されている情報など、非個人情報データ又は最小限の量の個人情報に基づいて好みを推測することによって、コンテンツをユーザに選択し、配信することができる。
【0219】
いくつかの実施例によれば、
図34は、電子デバイス3400の機能ブロック図を示し、電子デバイス3400は、説明した種々の実施例の原理に従って、例えば、仮想アシスタントを使用してテレビ対話を制御し、異なるインタフェースを使用して関連情報を表示するように構成される。デバイスの機能ブロックは、説明した種々の実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、
図34で説明する機能ブロックを組み合わせる、又はサブブロックに分離することできることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
【0220】
図34に示すように、電子デバイス3400は、メディア、インタフェース及び他のコンテンツを表示するように構成されたディスプレイユニット3402(例えば、ディスプレイ112、タッチスクリーン246など)を含むことができる。電子デバイス3400は、発語入力、触覚入力、ジェスチャ入力などのような情報を受信するように構成された入力ユニット3404(例えば、マイクロフォン、受信器、タッチスクリーン、ボタンなど)を更に含むことができる。電子デバイス3400は、表示ユニット3402及び入力ユニット3404に結合される処理ユニット3406を更に含むことができる。いくつかの実施例では、処理ユニット3406は、発語入力受信ユニット3408と、メディアコンテンツ判定ユニット3410と、第1のユーザインタフェース表示ユニット3412と、選択受信ユニット3414と、第2のユーザインタフェース表示ユニット3416とを含むことができる。
【0221】
処理ユニット3406は、(例えば、入力ユニット3404を介して)ユーザからの発語入力を受信するように構成することができる。処理ユニット3406は、(例えば、メディアコンテンツ判定ユニット3410を使用して)発語入力に基づいて、メディアコンテンツを判定するように更に構成することができる。処理ユニット3406は、(例えば、第1のユーザインタフェース表示ユニット3412を使用して、ディスプレイユニット3402上に)第1のサイズを有する第1のユーザインタフェースを表示するように更に構成することができ、第1のユーザインタフェースは、メディアコンテンツへの1つ以上の選択可能なリンクを備える。処理ユニット3406は、(例えば、選択受信ユニット3414を使用して、入力ユニット3404から)1つ以上の選択可能なリンクのうちの1つの選択を受信するように更に構成することができる。処理ユニット3406は、その選択に応じて、(例えば、第2のユーザインタフェース表示ユニット3416を使用して、ディスプレイユニット3402上に)第1のサイズよりも大きい第2のサイズを有する第2のユーザインタフェースを表示するように更に構成することができ、第2のユーザインタフェースは、選択と関連付けられたメディアコンテを備える。
【0222】
いくつかの実施例では、(例えば、第1のユーザインタフェース表示ユニット3412の)第1のユーザインタフェースは、(例えば、選択受信ユニット3414の)選択に応じて、(例えば、第2のユーザインタフェース表示ユニット3416の)第2のユーザインタフェースへと拡張する。他の実施例では、第1のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている。1つの実施例では、第2のユーザインタフェースが、再生中のメディアコンテンツ上に重なっている。別の実施例では、(例えば、入力ユニット3404からの発語入力受信ユニット3408の)発語入力はクエリを備え、(例えば、メディアコンテンツ判定ユニット3410の)メディアコンテンツはクエリの結果を備える。更に別の実施例では、第1のユーザインタフェースは、メディアコンテンツへの1つ以上の選択可能なリンク以外に、クエリの結果へのリンクを備える。他の実施例では、クエリは、天気に関するクエリを含み、第1のユーザインタフェースは、天気に関するクエリと関連付けられたメディアコンテンツへのリンクを備える。別の実施例では、クエリは場所を含み、天気に関するクエリと関連付けられたメディアコンテンツへのリンクは、その場所の天気と関連付けられたメディアコンテンツの一部分へのリンクを備える。
【0223】
いくつかの実施例では、選択に応じて、処理ユニット3406は、その選択と関連付けられたメディアコンテンツを再生するように構成することができる。1つの実施例では、メディアコンテンツは、映画を含む。別の実施例では、メディアコンテンツは、テレビ番組を含む。別の実施例では、メディアコンテンツは、スポーツイベントを含む。いくつかの実施例では、(例えば、第2のユーザインタフェース表示ユニット3416の)第2のユーザインタフェースは、選択と関連付けられたメディアコンテンツの記述を含む。他の実施例では、第1のユーザインタフェースは、メディアコンテンツを購入するためのリンクを備える。
【0224】
処理ユニット3406は、ユーザからの追加の発語入力を(例えば、入力ユニット3404を介して)受信するように更に構成することができ、追加の発語入力は、表示されたコンテンツと関連付けられたクエリを含む。処理ユニット3406は、表示されたコンテンツと関連付けられたメタデータに基づいて、表示されたコンテンツと関連付けられたクエリに対する応答を判定するように更に構成することができる。処理ユニット3406は、追加の発語入力を受信したことに応じて、(例えば、表示ユニット3402上に)第3のユーザインタフェースを表示するように更に構成されることができる、第3のユーザインタフェースは、表示されたコンテンツと関連付けられたクエリに対する判定した応答を含む。
【0225】
処理ユニット3406は、(例えば、入力ユニット3404を介して)発語入力の受信を開始する指示を受信するように更に構成することができる。処理ユニット3406は、指示を受信したことに応じて、準備完了確認を(例えば、ディスプレイユニット3402上に)表示するように更に構成することができる。処理ユニット3406は、発語入力を受信したことに応じて、リッスン確認を表示するように更に構成することができる。処理ユニット3406は、発語入力の終わりを検出し、発語入力の終わりを検出したことに応じて処理確認を表示するように更に構成することができる。いくつかの実施例では、処理ユニット3406は、発語入力の音声表記を表示するように更に構成することができる。
【0226】
いくつかの実施例では、電子デバイス3400は、テレビを含む。いくつかの実施例では、電子デバイス3400は、テレビセットトップボックスを含む。いくつかの実施例では、電子デバイス3400は、遠隔制御を含む。いくつかの実施例では、電子デバイス3400は、携帯電話を含む。
【0227】
1つの実施例では、第1のユーザインタフェースにおける(例えば、第1のユーザインタフェース表示ユニット3412の)1つ以上の選択可能なリンクは、メディアコンテンツと関連付けられた動画像を含む。いくつかの実施例では、メディアコンテンツと関連付けられた動画像は、メディアコンテンツのライブフィードを含む。別の実施例では、第1のユーザインタフェースにおける1つ以上の選択可能なリンクは、メディアコンテンツと関連付けられた静止画像を含む。
【0228】
いくつかの実施例では、処理ユニット3406は、現在表示されているコンテンツが動画像を含むか、あるいはコントロールメニューを含むかを判定し、現在表示されているコンテンツが動画像を含むという判定に応じて、第1のユーザインタフェースのための(例えば、第1のユーザインタフェース表示ユニット3412の)第1のサイズとして、小さいサイズを選択し、現在示されているコンテンツがコントロールメニューを含むという判定に応じて、第1のユーザインタフェースのための(例えば、第1のユーザインタフェース表示ユニット3412の)第1のサイズとして、小さいサイズよりも大きい、大きいサイズを選択するように更に構成することができる。他の実施例では、処理ユニット3406は、ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの1つ以上に基づいて、表示のための代替メディアコンテンツを判定し、判定した代替メディアコンテンツを含む通知を表示するように更に構成することができる。
【0229】
いくつかの実施例によれば、
図35は、電子デバイス3500の機能ブロック図を示し、電子デバイス3500は、説明した種々の実施例の原理に従って、例えば、仮想アシスタント及び複数のユーザデバイスを使用してテレビ対話を制御するように構成される。デバイスの機能ブロックは、説明した種々の実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、
図35で説明する機能ブロックを組み合わせる、又はサブブロックに分離することできることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
【0230】
図35に示すように、電子デバイス3500は、メディア、インタフェース及び他のコンテンツを表示するように構成されたディスプレイユニット3502(例えば、ディスプレイ112、タッチスクリーン246など)を含むことができる。電子デバイス3500は、発語入力、触覚入力、ジェスチャ入力などのような情報を受信するように更に構成された入力ユニット3504(例えば、マイクロフォン、受信器、タッチスクリーン、ボタンなど)を含むことができる。電子デバイス3500は、表示ユニット3502及び入力ユニット3504に結合される処理ユニット3506を更に含むことができる。いくつかの実施例では、処理ユニット3506は、発語入力受信ユニット3508と、ユーザ意図判定ユニット3510と、メディアコンテンツ判定ユニット3512と、メディアコンテンツ再生ユニット3514とを含むことができる。
【0231】
処理ユニット3506は、第1のディスプレイ(例えば、いくつかの実施例では表示ユニット3502)を有する第1のデバイス(例えば、デバイス3500)で、(例えば、発語入力受信ユニット3508を使用して、入力ユニット3504から)ユーザからの発語入力を受信するように構成することができる。処理ユニット3506は、(例えば、ユーザ意図判定ユニット3510を使用して)第1のディスプレイ上に表示されたコンテンツに基づいて、発語入力のユーザ意図を判定するように更に構成することができる。処理ユニット3506は、(例えば、メディアコンテンツ判定ユニット3512を使用して)ユーザ意図に基づいて、メディアコンテンツを判定するように更に構成することができる。処理ユニット3506は、第2のディスプレイと関連付けられた第2のデバイス(例えば、いくつかの実施例ではディスプレイユニット3502)上で、(例えば、メディアコンテンツ再生ユニット3514を使用して)メディアコンテンツを再生するように更に構成することができる。
【0232】
1つの実施例では、第1のデバイスは、遠隔制御を含む。別の実施例では、第1のデバイスは、携帯電話を含む。別の実施例では、第1のデバイスは、タブレットコンピュータを含む。いくつかの実施例では、第2のデバイスは、テレビセットトップボックスを含む。別の実施例では、第2のデバイスは、テレビを含む。
【0233】
いくつかの実施例では、第1のディスプレイ上に表示されたコンテンツは、アプリケーションインタフェースを備える。1つの実施例では、(例えば、入力ユニット3504からの発語入力受信ユニット3508の)発語入力は、アプリケーションインタフェースと関連付けられたメディアに表示するという要求を含む。1つの実施例では、メディアコンテンツは、アプリケーションインタフェースと関連付けられたメディアを含む。別の実施例では、アプリケーションインタフェースは、フォトアルバムを備え、メディアは、フォトアルバム中の1つ以上の写真を含む。更に別の実施例では、アプリケーションインタフェースは、1つ以上の動画のリストを備え、メディアは、1つ以上の動画のうちの1つを含む。更に他の実施例では、アプリケーションインタフェースは、テレビプログラムリストを備え、メディアは、テレビプログラムリスト中のテレビプログラムを含む。
【0234】
いくつかの実施例では、処理ユニット3506は、第1のデバイスが認証されているかどうかを判定するように更に構成することができ、第1のデバイスが認証されているという判定に応じて、第2のデバイス上でメディアコンテンツを再生する。処理ユニット3506は、発語入力に基づいてユーザを識別し、(例えば、ユーザ意図判定ユニット3510を使用して)識別されたユーザと関連付けられたデータに基づいて、発語入力のユーザ意図を判定するように更に構成することができる。処理ユニット3506は、発語入力に基づいて、ユーザが認証されているかどうかを判定するように更に構成することができ、ユーザが認証されたユーザであるという判定に応じて、第2のデバイス上でメディアコンテンツを再生する。1つの実施例では、ユーザが認証されているかどうかを判定することは、音声認識を使用して発語入力を分析することを含む。
【0235】
他の実施例では、処理ユニット3506は、ユーザ意図が情報の要求を含むと判定したことに応じて、メディアコンテンツと関連付けられた情報を、第1のデバイスの第1のディスプレイ上に表示するように更に構成することができる。処理ユニット3506は、ユーザ意図がメディアコンテンツを再生するという要求を含むと判定したことに応じて、そのメディアコンテンツと関連付けられた情報を、第2のデバイス上で再生するように更に構成することができる。
【0236】
いくつかの実施例では、発語入力は、第2のデバイス上でコンテンツを再生するという要求を含み、第2のデバイス上でコンテンツを再生するという要求に応じて、第2のデバイス上でメディアコンテンツを再生する。処理ユニット3506は、メディアのフォーマット、ユーザの好み又はデフォルト設定に基づいて、判定したメディアコンテンツを第1のディスプレイ上で表示すべきか、あるいは第2のディスプレイ上で表示すべきかを判定するように更に構成することができる。いくつかの実施例では、判定したメディアコンテンツを第2のディスプレイ上に表示すべきであるという判定に応じて、第2のディスプレイ上にメディアコンテンツを表示する。他の実施例では、判定したメディアコンテンツを第1のディスプレイ上に表示すべきであるという判定に応じて、第1のディスプレイ上にメディアコンテンツを表示する。
【0237】
他の実施例では、処理ユニット3506は、第2のデバイス及び第3のデバイスを含む2つ以上のデバイスの各々の近接度を判定するように更に構成されることができる。いくつかの実施例では、第3のデバイスの近接度に対する第2のデバイスの近接度に基づいて、第2のディスプレイと関連付けられた第2のデバイス上に、メディアコンテンツを再生する。いくつかの実施例では、2つ以上のデバイスの各々の近接度を判定することは、Bluetooth(登録商標)LEに基づいて近接度を判定することを含む。
【0238】
いくつかの実施例では、処理ユニット3506は、第2のディスプレイと関連付けられた第2のデバイスを含む表示デバイスのリストを表示し、表示デバイスのリスト中の第2のデバイスの選択を受信するように更に構成することができる。1つの実施例では、第2のデバイスの選択を受信したことに応じて、第2のディスプレイ上にメディアコンテンツを表示する。処理ユニット3506は、第1のデバイスにヘッドホンが取り付けられているどうかを判定するように更に構成することができる。処理ユニット3506は、第1のデバイスにヘッドホンが取り付けられているという判定に応じて、第1のディスプレイ上にメディアコンテンツを表示するように更に構成することができる。処理ユニット3506は、第1のデバイスにヘッドホンが取り付けられていないという判定に応じて、第2のディスプレイ上にメディアコンテンツを表示するように更に構成することができる。他の実施例では、処理ユニット3506は、ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの1つ以上に基づいて、表示のための代替メディアコンテンツを判定し、判定した代替メディアコンテンツを含む通知を表示するように更に構成することができる。
【0239】
いくつかの実施例によれば、
図36は、電子デバイス3600の機能ブロック図を示し、電子デバイス3600は、説明した種々の実施例の原理に従って、例えば、ディスプレイ上に表示されたメディアコンテンツとメディアコンテンツの閲覧履歴とを使用してテレビ対話を制御するように構成される。デバイスの機能ブロックは、説明した種々の実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、
図36で説明する機能ブロックを組み合わせる、又はサブブロックに分離することできることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
【0240】
図36に示すように、電子デバイス3600は、メディア、インタフェース及び他のコンテンツを表示するように構成されたディスプレイユニット3602(例えば、ディスプレイ112、タッチスクリーン246など)を含むことができる。電子デバイス3600は、発語入力、触覚入力、ジェスチャ入力などのような情報を受信するように構成された入力ユニット3604(例えば、マイクロフォン、受信器、タッチスクリーン、ボタンなど)を更に含むことができる。電子デバイス3600は、表示ユニット3602及び入力ユニット3604に結合される処理ユニット3606を更に含むことができる。いくつかの実施例では、処理ユニット3606は、発語入力受信ユニット3608と、ユーザ意図判定ユニット3610と、クエリ結果表示ユニット3612とを含むことができる。
【0241】
処理ユニット3606は、ユーザからの発語入力を(例えば、発語入力受信ユニット3608を使用して、入力ユニット3604から)受信するように構成することができ、発語入力は、ディスプレイ(例えば、いくつかの実施例では表示ユニット3602)上に表示されたコンテンツと関連付けられたクエリを含む。処理ユニット3606は、(例えば、ユーザ意図判定ユニット3610を使用して)テレビディスプレイ上に表示されたコンテンツ及びメディアコンテンツの閲覧履歴のうちの1つ以上に基づいて、クエリのユーザ意図を判定するように更に構成することができる。処理ユニット3606は、(例えば、クエリ結果表示ユニット3612を使用して)判定したユーザ意図に基づいて、クエリの結果を表示するように更に構成することができる。
【0242】
1つの実施例では、遠隔制御において、発語入力を受信する。別の実施例では、携帯電話において、発語入力を受信する。いくつかの実施例では、テレビディスプレイ上にクエリの結果を表示する。別の実施例では、テレビディスプレイ上に表示されたコンテンツは、映画を含む。更に別の実施例では、テレビディスプレイ上に表示されたコンテンツは、テレビ番組を含む。更に別の実施例では、テレビディスプレイ上に表示されたコンテンツは、スポーツイベントを含む。
【0243】
いくつかの実施例では、クエリは、テレビディスプレイ上に表示されたコンテンツと関連付けられた人物に関する情報の要求を含み、(例えば、クエリ結果表示ユニット3612の)クエリの結果は、その人物に関する情報を含む。1つの実施例では、クエリの結果は、その人物と関連付けられたメディアコンテンツを含む。別の実施例では、メディアコンテンツは、その人物と関連付けられた映画、テレビ番組又はスポーツイベントのうちの1つ以上を含む。いくつかの実施例では、クエリは、テレビディスプレイ上に表示されたコンテンツと関連付けられたキャラクターに関する情報の要求を含み、クエリの結果は、そのキャラクターに関する情報、又はそのキャラクターを演じている俳優に関する情報を含む。1つの実施例では、クエリの結果は、そのキャラクターを演じている俳優と関連付けられたメディアコンテンツを含む。別の実施例では、メディアコンテンツは、そのキャラクターを演じている俳優と関連付けられた映画、テレビ番組又はスポーツイベントのうちの1つ以上を含む。
【0244】
いくつかの実施例では、処理ユニット3606は更に、テレビディスプレイ上に表示されたコンテンツ又はメディアコンテンツの閲覧履歴と関連付けられたメタデータに基づいて、クエリの結果を判定するように更に構成することができる。1つの実施例では、メタデータは、テレビディスプレイ上に表示されたコンテンツ又はメディアコンテンツの閲覧履歴と関連付けられた、タイトル、説明、キャラクターのリスト、俳優のリスト、選手のリスト、ジャンル、又は表示スケジュールのうちの1つ以上を含む。別の実施例では、テレビディスプレイ上に表示されたコンテンツは、メディアコンテンツのリストを含み、クエリは、リスト中の項目のうちの1つを表示するという要求を含む。更に別の実施例では、テレビディスプレイ上に表示されたコンテンツは、フォーカスを有するメディアコンテンツのリスト中の項目を更に含み、(例えば、ユーザ意図判定ユニット3610を使用して)クエリのユーザ意図を判定することは、フォーカスを有する項目を識別することを含む。いくつかの実施例では、処理ユニット3606は、(例えば、ユーザ意図判定ユニット3610を使用して)テレビディスプレイ上に最近表示されたメニュー又は検索コンテンツに基づいて、クエリのユーザ意図を判定するように更に構成することができる。1つの実施例では、テレビディスプレイ上に表示されたコンテンツは、列挙されたメディアのページを含み、最近表示されたメニュー又は検索コンテンツは、列挙されたメディアの以前のページを含む。別の実施例では、テレビディスプレイ上に表示されたコンテンツは、メディアの1つ以上のカテゴリーを含み、メディアの1つ以上のカテゴリーのうちの1つは、フォーカスを有する。1つの実施例では、処理ユニット3606は、(例えば、ユーザ意図判定ユニット3610を使用して)フォーカスを有するメディアの1つ以上のカテゴリーのうちの1つに基づいて、クエリのユーザ意図を判定するように更に構成することができる。別の実施例では、メディアのカテゴリーは、映画、テレビプログラム及び音楽を含む。他の実施例では、処理ユニット3606は、ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの1つ以上に基づいて、表示のための代替メディアコンテンツを判定し、判定した代替メディアコンテンツを含む通知を表示するように更に構成することができる。
【0245】
いくつかの実施例によれば、
図37は、電子デバイス3700の機能ブロック図を示し、電子デバイス3700は、説明した種々の実施例の原理に従って、例えば、メディアコンテンツを制御するための仮想アシスタント対話を推薦するように構成される。デバイスの機能ブロックは、説明した種々の実施例の原理を実行するために、ハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせによって実装することができる。当業者には、説明した種々の実施例の原理を実装するために、
図37で説明する機能ブロックを組み合わせる、又はサブブロックに分離することできることが理解される。したがって、本明細書における説明は、本明細書で説明されている機能ブロックのあらゆる可能な組み合わせ若しくは分割、又は更なる定義を、任意選択的に、支持する。
【0246】
図37に示すように、電子デバイス3700は、メディア、インタフェース及び他のコンテンツを表示するように構成されたディスプレイユニット3702(例えば、ディスプレイ112、タッチスクリーン246など)を含むことができる。電子デバイス3700は、発語入力、触覚入力、ジェスチャ入力などのような情報を受信するように構成された入力ユニット3704(例えば、マイクロフォン、受信器、タッチスクリーン、ボタンなど)を更に含むことができる。電子デバイス3700は、表示ユニット3702及び入力ユニット3704に結合される処理ユニット3706を更に含むことができる。いくつかの実施例では、処理ユニット3706は、メディアコンテンツ表示ユニット3708と、入力受信ユニット3710と、クエリ判定ユニット3712と、クエリ表示ユニット3714とを含むことができる。
【0247】
処理ユニット3706は、(例えば、メディアコンテンツ表示ユニット3708を使用して)ディスプレイ(例えば、表示ユニット3702)上にメディアコンテンツを表示するように構成することができる。処理ユニット3706は、(例えば、入力受信ユニット3710を使用して、入力ユニット3704から)ユーザからの入力を受信するように更に構成することができる。処理ユニット3706は、(例えば、クエリ判定ユニット3712を使用して)メディアコンテンツ及びメディアコンテンツの閲覧履歴のうちの1つ以上とに基づいて、1つ以上の仮想アシスタントクエリを判定するように更に構成することができる。処理ユニット3706は、(例えば、クエリ表示ユニット3714を使用して)1つ以上の仮想アシスタントクエリをディスプレイ上に表示するように更に構成することができる。
【0248】
1つの実施例では、遠隔制御上で、ユーザからの入力を受信する。別の実施例では、携帯電話上で、ユーザからの入力を受信する。いくつかの実施例では、1つ以上の仮想アシスタントクエリが、動画像上に重なっている。別の実施例では、入力は、ボタンのダブルクリックを含む。1つの実施例では、メディアコンテンツは、映画を含む。別の実施例では、メディアコンテンツは、テレビ番組を含む。更に別の実施例では、メディアコンテンツは、スポーツイベントを含む。
【0249】
いくつかの実施例では、1つ以上の仮想アシスタントクエリは、メディアコンテンツに現れている人物に関するクエリを含む。他の実施例では、1つ以上の仮想アシスタントクエリは、メディアコンテンツに現れているキャラクターに関するクエリを含む。別の実施例では、1つ以上の仮想アシスタントクエリは、メディアコンテンツに現れている人物と関連付けられたメディアコンテンツに関するクエリを含む。いくつかの実施例では、メディアコンテンツ又はメディアコンテンツの閲覧履歴は、テレビ番組のエピソードを含み、1つ以上の仮想アシスタントクエリは、テレビ番組の別のエピソードに関するクエリを含む。別の実施例では、メディアコンテンツ又はメディアコンテンツの閲覧履歴は、テレビ番組のエピソードを含み、1つ以上の仮想アシスタントクエリは、メディアコンテンツの後続のエピソードを視聴又は録画するためのリマインダを設定するという要求を含む。更に別の実施例では、1つ以上の仮想アシスタントクエリは、メディアコンテンツの記述的な詳細についてのクエリを含む。1つの実施例では、記述的な詳細は、番組タイトル、キャラクターリスト、俳優リスト、エピソードの記述、チーム名簿、チームランキング又は番組概要のうちの1つ以上を含む。
【0250】
いくつかの実施例では、処理ユニット3706は、1つ以上の仮想アシスタントクエリのうちの1つの選択を受信するように更に構成することができる。処理ユニット3706は、1つ以上の仮想アシスタントクエリのうちの選択されたクエリの結果を表示するように更に構成することができる。1つの実施例では、1つ以上の仮想アシスタントクエリを判定することは、クエリ履歴、ユーザの好み、又はクエリの人気のうちの1つ以上に基づいて、1つ以上の仮想アシスタントクエリを判定することを含む。別の実施例では、1つ以上の仮想アシスタントクエリを判定することは、ユーザが閲覧するために利用可能なメディアコンテンツに基づいて、1つ以上の仮想アシスタントクエリを判定することを含む。更に別の実施例では、1つ以上の仮想アシスタントクエリを判定することは、受信した通知に基づいて、1つ以上の仮想アシスタントクエリを判定することを含む。更に別の実施例では、1つ以上の仮想アシスタントクエリを判定することは、アクティブなアプリケーションに基づいて、1つ以上の仮想アシスタントクエリを判定することを含む。他の実施例では、処理ユニット3706は、ユーザの好み、番組の人気、及びライブスポーツイベントの状況のうちの1つ以上に基づいて、表示のための代替メディアコンテンツを判定し、判定した代替メディアコンテンツを含む通知を表示するように更に構成することができる。
【0251】
添付の図面を参照して、実施例について十分に説明してきたが、当業者には種々の変更及び修正(例えば、本明細書で論じた任意の他のシステム又はプロセスに関して説明した概念に従って、本明細書で論じた任意の他のシステム又はプロセスのうちのいずれかを修正すること)が明らかになるであろうことに留意されたい。そのような変更及び修正は、添付の特許請求の範囲によって定義されるような様々な実施例の範囲内に含まれるものとして理解されたい。