(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-20
(45)【発行日】2025-05-28
(54)【発明の名称】コンテンツ再生を適応させるための短期的コンテキストの統合
(51)【国際特許分類】
H04N 21/442 20110101AFI20250521BHJP
H04N 21/436 20110101ALI20250521BHJP
H04N 21/485 20110101ALI20250521BHJP
G10L 21/0364 20130101ALI20250521BHJP
G06F 3/16 20060101ALI20250521BHJP
G06F 3/01 20060101ALI20250521BHJP
【FI】
H04N21/442
H04N21/436
H04N21/485
G10L21/0364
G06F3/16 630
G06F3/16 650
G06F3/16 690
G06F3/16 610
G06F3/16 620
G06F3/01 510
(21)【出願番号】P 2023531072
(86)(22)【出願日】2021-11-11
(86)【国際出願番号】 US2021059036
(87)【国際公開番号】W WO2022115246
(87)【国際公開日】2022-06-02
【審査請求日】2023-07-05
(32)【優先日】2020-11-24
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ヴィクター・カルブネ
(72)【発明者】
【氏名】マシュー・シャリフィ
【審査官】大西 宏
(56)【参考文献】
【文献】特開2013-026997(JP,A)
【文献】特開2017-161840(JP,A)
【文献】特開2019-200598(JP,A)
【文献】米国特許出願公開第2010/0157978(US,A1)
【文献】米国特許出願公開第2014/0018049(US,A1)
【文献】米国特許出願公開第2018/0084310(US,A1)
【文献】米国特許出願公開第2020/0314495(US,A1)
【文献】国際公開第2019/149160(WO,A1)
【文献】国際公開第2019/188393(WO,A1)
【文献】国際公開第2020/106315(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 -21/858
G10L 19/00 -99/00
G06F 3/16
G06F 3/01
(57)【特許請求の範囲】
【請求項1】
方法(400)であって、
アシスタント対応デバイス(10)が、メディアコンテンツ(120)を再生している間に、
前記アシスタント対応デバイス(10)のデータ処理ハードウェア(510)において、前記アシスタント対応デバイス(10)の
周囲環境から、コンテキスト信号(102)を受信するステップであって、
前記コンテキスト信号(102)は、
前記アシスタント対応デバイス(10)に向けられたものではなく、
前記アシスタント対応デバイス(10)のマイクロフォン(116)によって検出されたオーディオ、または前記アシスタント対応デバイス(10)の画像捕捉デバイス(117)によって取り込まれた画像データの少なくとも一方を含む、ステップと、
前記データ処理ハードウェア(510)によって、前記受信されたコンテキスト信号(102)が、前記アシスタント対応デバイス(10)からの前記メディアコンテンツ(120)の再生と競合するイベントを示しているかどうかを判定するためのイベント認識ルーチン(200)を実行するステップと、
前記イベント認識ルーチン(200)が、前記受信されたコンテキスト信号(120)は前記メディアコンテンツ(120)の再生と競合するイベントを示していると判定すると、前記データ処理ハードウェア(510)によって、前記アシスタント対応デバイス(10)のコンテンツ再生設定を調整するステップと
を含
み、
前記イベント認識ルーチン(200)を実行するステップは、
入力として前記コンテキスト信号(102)を受信し、
出力として、前記受信されたコンテキスト信号(102)が前記アシスタント対応デバイス(10)からの前記メディアコンテンツ(120)の再生と競合する1つまたは複数のイベントを示しているかどうかを示す分類結果(212)であって、オーディオイベントまたは活動イベントのクラスを含む分類結果(212)を生成する
ように構成されたニューラルネットワークベースの分類モデル(210)を実行するステップを含む、方法(400)。
【請求項2】
前記コンテキスト信号(102)は、前記アシスタント対応デバイス(10)の前記
周囲環境内の近傍デバイスと共用されるユーザアカウント(132)からのネットワークベースの情報を含み、
前記ネットワークベースの情報は、前記近傍デバイスに関連付けられたイベントを示す、請求項1に記載の方法(400)。
【請求項3】
前記コンテキスト信号(102)は、前記アシスタント対応デバイス(10)と通信する近傍デバイスから送信された通信信号を含み、
前記通信信号は、前記近傍デバイスに関連付けられたイベントを示す、請求項1または2に記載の方法(400)。
【請求項4】
入力として前記ニューラルネットワークベースの分類モデル(210)において受信された前記コンテキスト信号(102)は、オーディオストリームを含み、
出力として前記ニューラルネットワークベースの分類モデル(210)によって生成された前記分類結果(212)は、前記メディアコンテンツ(120)の再生と競合する
前記オーディオイベント
の前記クラスを含む、請求項
1に記載の方法(400)。
【請求項5】
出力として前記ニューラルネットワークベースの分類モデル(210)によって生成された前記分類結果(212)は、前記オーディオストリームの可聴レベルにさらに基づいている、請求項
4に記載の方法(400)。
【請求項6】
入力として前記ニューラルネットワークベースの分類モデル(210)において受信された前記コンテキスト信号(102)は、画像ストリームを含み、
出力として前記ニューラルネットワークベースの分類モデル(210)によって生成された前記分類結果(212)は、前記メディアコンテンツ(120)の再生と競合する
前記活動イベント
の前記クラスを含む、請求項
1から
5のいずれか一項に記載の方法(400)。
【請求項7】
前記受信されたコンテキスト信号(102)がオーディオイベントを示しているとき、
前記データ処理ハードウェア(510)によって、前記オーディオイベントに関連付けられた可聴レベルを取得するステップと、
前記データ処理ハードウェア(510)によって、前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)の可聴レベルを取得するステップと、
前記データ処理ハードウェア(510)によって、前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)が、前記アシスタント対応デバイス(10)に関連付けられたユーザの、前記オーディオイベントを聞く能力を妨げる可能性を示す可能性スコア(310)を決定するステップと
をさらに含み、
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整するステップは、前記可能性スコア(310)に基づいて、
前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)の前記可聴レベルを低下させるステップ、または
前記アシスタント対応デバイスからの前記メディアコンテンツ(120)の再生を停止/一時停止するステップ
の一方を含む、請求項1から
6のいずれか一項に記載の方法(400)。
【請求項8】
前記イベント認識ルーチン(200)が、前記受信されたコンテキスト信号(102)は前記メディアコンテンツ(120)の再生と競合するイベントを示していると判定すると、
前記データ処理ハードウェア(510)によって、前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)に関連付けられた再生特徴(302)を取得するステップと、
前記データ処理ハードウェア(510)によって、前記イベントに関連付けられたイベントベースの特徴を取得するステップと、
前記データ処理ハードウェア(510)によって、入力として前記再生特徴(302)および前記イベントベースの特徴を受信するように構成された訓練された機械学習モデルを用いて、前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)が、前記アシスタント対応デバイス(10)に関連付けられたユーザの、前記イベントを認識する能力を妨げる可能性を示す可能性スコア(310)を決定するステップと
をさらに含み、
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整するステップは、前記可能性スコア(310)に基づく、請求項1から
7のいずれか一項に記載の方法(400)。
【請求項9】
前記イベントベースの特徴は、前記イベントに関連付けられたオーディオレベル、イベントタイプ、またはイベントの重要性のうちの少なくとも1つを含み、
前記再生特徴(302)は、前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)の可聴レベル、メディアコンテンツ(120)タイプ、または再生の重要性のうちの少なくとも1つを含む、請求項
8に記載の方法(400)。
【請求項10】
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整するステップの後に、
前記データ処理ハードウェア(510)によって、
前記調整されたコンテンツ再生設定の受入れ、または
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定に対する後続する手動調整
の一方を示すユーザフィードバック(315)を取得するステップと、
前記データ処理ハードウェア(510)によって、前記取得された再生特徴(302)、前記取得されたイベントベースの特徴、前記調整されたコンテンツ再生設定、および前記取得されたユーザフィードバック(315)で前記機械学習モデルを再訓練する訓練プロセスを実行するステップと
をさらに含む、請求項
8または
9に記載の方法(400)。
【請求項11】
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整するステップは、
前記メディアコンテンツ(120)の再生のオーディオレベルを増加/低下させるステップ、
前記メディアコンテンツ(120)の再生を停止/一時停止するステップ、または
前記アシスタント対応デバイス(10)に異なるタイプのメディアコンテンツ(120)の再生を命令するステップ
のうちの少なくとも1つを含む、請求項1から
10のいずれか一項に記載の方法(400)。
【請求項12】
前記データ処理ハードウェア(510)において、前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整するためのユーザの好みを示すユーザ定義の構成設定(104)を受信するステップ
をさらに含み、
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整するステップは、前記ユーザ定義の構成設定(104)に基づく、請求項1から
11のいずれか一項に記載の方法(400)。
【請求項13】
システム(100)であって、
データ処理ハードウェア(510)と、
前記データ処理ハードウェア(510)と通信するメモリハードウェア(520)であって、前記メモリハードウェア(520)は、前記データ処理ハードウェア(510)上で実行されると、アシスタント対応デバイス(10)がメディアコンテンツ(120)を再生している間に、
前記アシスタント対応デバイス(10)の
周囲環境からコンテキスト信号(102)を受信することであって、
前記コンテキスト信号(102)は、
前記アシスタント対応デバイス(10)に向けられたものではなく、
前記アシスタント対応デバイス(10)のマイクロフォン(116)によって検出されたオーディオ、または前記アシスタント対応デバイス(10)の画像捕捉デバイス(117)によって取り込まれた画像データの少なくとも一方を含む、受信することと、
前記受信されたコンテキスト信号(102)が、前記アシスタント対応デバイス(10)からの前記メディアコンテンツ(120)の再生と競合するイベントを示しているかどうかを判定するためのイベント認識ルーチン(200)を実行することと、
前記イベント認識ルーチン(200)が、前記受信されたコンテキスト信号(102)は、前記メディアコンテンツ(120)の再生と競合するイベントを示していると判定すると、前記アシスタント対応デバイス(10)のコンテンツ再生設定を調整することと
を含むオペレーションを、前記データ処理ハードウェア(510)に実施させる命令を記憶している、メモリハードウェア(520)と
を備え
、
前記イベント認識ルーチン(200)を実行することは、
入力として前記コンテキスト信号(102)を受信し、
出力として、前記受信されたコンテキスト信号(102)が前記アシスタント対応デバイス(10)からの前記メディアコンテンツ(120)の再生と競合する1つまたは複数のイベントを示しているかどうかを示す分類結果(212)であって、オーディオイベントまたは活動イベントのクラスを含む分類結果(212)を生成する
ように構成されたニューラルネットワークベースの分類モデル(210)を実行することを含む、システム(100)。
【請求項14】
前記コンテキスト信号(102)は、前記アシスタント対応デバイス(10)の前記
周囲環境内の近傍デバイスと共用されるユーザアカウント(132)からのネットワークベースの情報を含み、
前記ネットワークベースの情報は、前記近傍デバイスに関連付けられたイベントを示す、請求項
13に記載のシステム(100)。
【請求項15】
前記コンテキスト信号(102)は、前記アシスタント対応デバイス(10)と通信する近傍デバイスから送信された通信信号を含み、
前記通信信号は、前記近傍デバイスに関連付けられたイベントを示す、請求項
13または
14に記載のシステム(100)。
【請求項16】
入力として前記ニューラルネットワークベースの分類モデル(210)において受信された前記コンテキスト信号(102)は、オーディオストリームを含み、
出力として前記ニューラルネットワークベースの分類モデル(210)によって生成された前記分類結果(212)は、前記メディアコンテンツ(120)の再生と競合する
前記オーディオイベント
の前記クラスを含む、請求項
13に記載のシステム(100)。
【請求項17】
出力として、前記ニューラルネットワークベースの分類モデル(210)によって生成された前記分類結果(212)は、前記オーディオストリームの可聴レベルにさらに基づいている、請求項
16に記載のシステム(100)。
【請求項18】
入力として前記ニューラルネットワークベースの分類モデル(210)において受信された前記コンテキスト信号(102)は、画像ストリームを含み、
出力として前記ニューラルネットワークベースの分類モデル(210)によって生成された前記分類結果(212)は、前記メディアコンテンツ(120)の再生と競合する
前記活動イベント
の前記クラスを含む、請求項
13から
17のいずれか一項に記載のシステム(100)。
【請求項19】
前記オペレーションは、
前記受信されたコンテキスト信号(102)がオーディオイベントを示しているとき、
前記オーディオイベントに関連付けられた可聴レベルを取得することと、
前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)の可聴レベルを取得することと、
前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)が、前記アシスタント対応デバイス(10)に関連付けられたユーザの、前記オーディオイベントを聞く能力を妨げる可能性を示す可能性スコア(310)を決定することと
をさらに含み、
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整することは、前記可能性スコア(310)に基づいて、
前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)の前記可聴レベルを低下させること、または
前記アシスタント対応デバイスからの前記メディアコンテンツ(120)の再生を停止/一時停止すること
の一方を含む、請求項
13から
18のいずれか一項に記載のシステム(100)。
【請求項20】
前記オペレーションは、
前記イベント認識ルーチン(200)が、前記受信されたコンテキスト信号(102)が前記メディアコンテンツ(120)の再生と競合する前記イベントを示していると判定すると、
前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)に関連付けられた再生特徴(302)を取得することと、
前記イベントに関連付けられたイベントベースの特徴を取得することと、
入力として前記再生特徴(302)および前記イベントベースの特徴を受信するように構成された訓練された機械学習モデルを用いて、前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)が、前記アシスタント対応デバイス(10)に関連付けられたユーザの、前記イベントを認識する能力を妨げる可能性を示す可能性スコア(310)を決定することと
をさらに含み、
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整することは、前記可能性スコア(310)に基づく、請求項
13から
19のいずれか一項に記載のシステム(100)。
【請求項21】
前記イベントベースの特徴は、前記イベントに関連付けられたオーディオレベル、イベントタイプ、またはイベントの重要性のうちの少なくとも1つを含み、
前記再生特徴(302)は、前記アシスタント対応デバイス(10)から再生されている前記メディアコンテンツ(120)の可聴レベル、メディアコンテンツ(120)タイプ、または再生の重要性のうちの少なくとも1つを含む、請求項
20に記載のシステム(100)。
【請求項22】
前記オペレーションは、
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整することの後に、
前記調整されたコンテンツ再生設定の受入れ、または
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定に対する後続する手動調整
の一方を示すユーザフィードバック(315)を取得することと、
前記取得された再生特徴(302)、前記取得されたイベントベースの特徴、前記調整されたコンテンツ再生設定、および前記取得されたユーザフィードバック(315)で前記機械学習モデルを再訓練する訓練プロセスを実行することと
をさらに含む、請求項
20または
21に記載のシステム(100)。
【請求項23】
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整することは、
前記メディアコンテンツ(120)の再生のオーディオレベルを増加/低下させること、
前記メディアコンテンツ(120)の再生を停止/一時停止すること、または
前記アシスタント対応デバイス(10)に異なるタイプのメディアコンテンツ(120)の再生を命令すること
のうちの少なくとも1つを含む、請求項
13から
22のいずれか一項に記載のシステム(100)。
【請求項24】
前記オペレーションは、
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整するためのユーザの好みを示すユーザ定義の構成設定(104)を受信すること
をさらに含み、
前記アシスタント対応デバイス(10)の前記コンテンツ再生設定を調整することは、前記ユーザ定義の構成設定(104)に基づく、請求項
13から
23のいずれか一項に記載のシステム(100)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンテンツ再生を適応させるために短期的コンテキスト(short-term context)を統合することに関する。
【背景技術】
【0002】
スマートスピーカやモバイルデバイスから音楽を流すために、デジタルアシスタントを使用することは、家庭または会社などのユーザ環境において一般的なことである。音楽に加えて、デジタルアシスタントはまた、スマートプレーヤによってビデオコンテンツを再生するためにも使用される。これらのデバイスからの再生オーディオおよび/またはビデオなどの再生コンテンツは、ユーザの環境において進行中の会話または活動を妨げる可能性がある。例えば、再生コンテンツは、二人のユーザがその環境内で行っている会話を、またはユーザが電話を介して行っている会話を妨げる可能性がある。このような状況において、ユーザは、デバイスを手動で調整して、現在のユーザの活動を妨げないように再生コンテンツを制御することになる。例えば、ユーザは、音楽を再生しているスマートスピーカのところまで歩いていき、それがこれ以上ユーザの活動を妨げないように、音量を下げる/弱めることができる。他の状況では、デバイスからの大きな再生音は、タイマが鳴り出すこと、着信する電話呼び出し、またはベビーモニタを介する赤ん坊の泣き声など、ユーザの注意が必要な進行するイベントにユーザが気付くのを困難にするおそれがある。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の一態様は、アシスタント対応デバイスの再生設定を調整する方法を提供する。アシスタント対応デバイスが、メディアコンテンツを再生している間に、方法は、アシスタント対応デバイスのデータ処理ハードウェアにおいて、アシスタント対応デバイスの環境からコンテキスト信号を受信するステップと、データ処理ハードウェアによって、受信されたコンテキスト信号が、アシスタント対応デバイスからのメディアコンテンツの再生と競合するイベントを示しているかどうかを判定するためのイベント認識ルーチンを実行するステップと、イベント認識ルーチンが、受信されたコンテキスト信号は、メディアコンテンツの再生と競合するイベントを示していると判定したとき、データ処理ハードウェアによって、アシスタント対応デバイスのコンテンツ再生設定を調整するステップとを含む。
【0004】
本開示の実施形態は、1つまたは複数の以下の任意選択の特徴を含む。いくつかの実施形態では、コンテキスト信号は、アシスタント対応デバイスのマイクロフォンによって検出されたオーディオ、またはアシスタント対応デバイスの画像捕捉デバイスによって取り込まれた画像データの少なくとも一方を含む。他の実施形態では、コンテキスト信号は、アシスタント対応デバイスの環境の近傍デバイスと共用するユーザアカウントからのネットワークベースの情報を含む。ここにおいて、ネットワークベースの情報とは、近傍デバイスに関連付けられたイベントを示す。コンテキスト信号は、アシスタント対応デバイスと通信状態にある近傍デバイスから送信された通信信号を含むことができる。通信信号は、近傍デバイスに関連付けられたイベントを示す。
【0005】
いくつかの例では、イベント認識ルーチンを実行するステップは、入力としてコンテキスト信号を受信し、出力として、受信されたコンテキスト信号が、アシスタント対応デバイスからのメディアコンテンツの再生と競合する1つまたは複数のイベントを示しているかどうかを示す分類結果を生成するように構成されたニューラルネットワークベースの分類モデルを実行するステップを含む。これらの例では、入力としてニューラルネットワークベースの分類モデルで受信されたコンテキスト信号は、オーディオストリームを含み、出力としてニューラルネットワークベースの分類モデルによって生成された分類結果は、メディアコンテンツの再生と競合するオーディオイベントを含む。さらに、出力としてニューラルネットワークベースの分類モデルによって生成された分類結果は、オーディオストリームの可聴レベルにさらに基づくことができる。代替的に、これらの例では、入力としてニューラルネットワークベースの分類モデルにおいて受信されたコンテキスト信号は、画像ストリームを含み、出力としてニューラルネットワークベースの分類モデルによって生成された分類結果は、メディアコンテンツの再生と競合する活動イベントを含む。
【0006】
いくつかの実施形態では、受信されたコンテキスト信号が、オーディオイベントを示す場合、方法はまた、データ処理ハードウェアによって、オーディオイベントに関連付けられた可聴レベルを取得するステップと、データ処理ハードウェアによって、アシスタント対応デバイスから再生されているメディアコンテンツの可聴レベルを取得するステップと、データ処理ハードウェアによって、アシスタント対応デバイスから再生されているメディアコンテンツが、アシスタント対応デバイスに関連付けられたユーザの、オーディオイベントを聞く能力を妨げる可能性を示す可能性スコアを決定するステップとを含む。ここにおいて、アシスタント対応デバイスのコンテンツ再生設定を調整するステップは、可能性スコアに基づいて、アシスタント対応デバイスから再生されているメディアコンテンツの可聴レベルを低下させるステップ、またはアシスタント対応デバイスからのメディアコンテンツの再生を停止/一時停止するステップのうちの一方を含む。
【0007】
さらなる実施形態では、イベント認識ルーチンが、受信されたコンテキスト信号はメディアコンテンツの再生と競合するイベントを示していると判定したとき、方法はまた、データ処理ハードウェアによって、アシスタント対応デバイスから再生されているメディアコンテンツに関連付けられた再生特徴を取得するステップと、データ処理ハードウェアによって、イベントに関連付けられたイベントベースの特徴を取得するステップと、データ処理ハードウェアによって、入力として再生特徴およびイベントベースの特徴を受信するように構成された訓練された機械学習モデルを用いて、アシスタント対応デバイスから再生されているメディアコンテンツが、アシスタント対応デバイスに関連付けられたユーザの、イベントを認識する能力を妨げる可能性を示す可能性スコアを決定するステップを含む。ここにおいて、アシスタント対応デバイスのコンテンツ再生設定を調整するステップは、可能性スコアに基づく。イベントベースの特徴は、イベントに関連付けられたオーディオレベル、イベントタイプ、またはイベントの重要性の少なくとも1つを含むことができる。再生特徴は、アシスタント対応デバイスから再生されているメディアコンテンツの可聴レベル、メディアコンテンツタイプ、または再生の重要性のうちの少なくとも1つを含むことができる。これらの実施形態では、アシスタント対応デバイスのコンテンツ再生設定を調整した後、方法はまた、データ処理ハードウェアによって、調整されたコンテンツ再生設定の受入れ、またはアシスタント対応デバイスのコンテンツ再生設定に対する後続する手動調整の一方を示すユーザフィードバックを取得するステップと、データ処理ハードウェアによって、取得された再生特徴、取得されたイベントベースの特徴、調整されたコンテンツ再生設定、および取得されたユーザフィードバックで機械学習モデルを再訓練する訓練プロセスを実行するステップとを含むことができる。
【0008】
アシスタント対応デバイスのコンテンツ再生設定を調整するステップは、メディアコンテンツの再生のオーディオレベルを増加/低下させるステップ、メディアコンテンツの再生を停止/一時停止するステップ、またはアシスタント対応デバイスに、異なるタイプのメディアコンテンツの再生を命令するステップのうちの少なくとも1つを含むことができる。いくつかの例では、方法はまた、データ処理ハードウェアにおいて、アシスタント対応デバイスのコンテンツ再生設定を調整するためのユーザの好みを示すユーザ定義の構成設定を受信するステップを含む。ここにおいて、アシスタント対応デバイスのコンテンツ再生設定を調整するステップは、ユーザ定義の構成設定に基づく。
【0009】
本開示の別の態様は、アシスタント対応デバイスの再生設定を調整するためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されたとき、アシスタント対応デバイスがメディアコンテンツを再生している間に、アシスタント対応デバイスの環境からコンテキスト信号を受信することと、受信されたコンテキスト信号が、アシスタント対応デバイスからのメディアコンテンツの再生と競合するイベントを示しているかどうかを判定するためのイベント認識ルーチンを実行することと、イベント認識ルーチンが、受信されたコンテキスト信号はメディアコンテンツの再生と競合するイベントを示していると判定したとき、アシスタント対応デバイスのコンテンツ再生設定を調整することとを含むオペレーションを、データ処理ハードウェアに実施させる命令を記憶する。
【0010】
本開示の1つまたは複数の実施形態の細部は、添付図面および以下の説明に記載される。他の態様、特徴、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。
【図面の簡単な説明】
【0011】
【
図1】受信されたコンテキスト信号に基づき、再生設定を適応させるアシスタント対応デバイスの例示的な環境の図である。
【
図2A】
図1のアシスタント対応デバイス上で実行するイベント認識ルーチンの例の図である。
【
図2B】
図1のアシスタント対応デバイス上で実行するイベント認識ルーチンの例の図である。
【
図3】ユーザを妨害するイベントの可能性を示す可能性スコアを生成するように構成された例示的なイベント妨害スコアラの図である。
【
図4】受信されたコンテキスト信号に基づいて、
図1のアシスタント対応デバイスの再生設定を調整する方法のオペレーションの例示的な構成の流れ図である。
【
図5】本明細書で述べられるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0012】
様々な図面における同様の記号は、同様の要素を示す。
【0013】
スマートスピーカやモバイルデバイスから音楽などのメディアコンテンツを流すために、デジタルアシスタントを使用することは、家庭または会社などのユーザ環境では一般的なことである。音楽に加えて、デジタルアシスタントはまた、スマートプレーヤを介してビデオコンテンツを再生するためにも使用される。これらのデバイスからのメディアコンテンツに関連付けられた再生オーディオおよび/またはビデオなどの再生コンテンツは、ユーザの環境において、進行中の会話または活動を妨げる可能性がある。例えば、再生コンテンツは、二人のユーザがその環境内で行う会話、またはユーザが電話呼び出しを介して行う会話を妨げるおそれがある。このような状況において、ユーザは、デバイスを手動で調整して、現在のユーザの活動を妨げないように再生コンテンツを制御することになる。例えば、ユーザは、音楽を再生しているスマートスピーカの所まで行き、ユーザの活動をこれ以上妨げないように、音量を下げる/弱めることができる。
【0014】
他のシナリオでは、スマートスピーカからの音量の大きい再生オーディオは、ユーザの注意が必要になり得るイベントにユーザが気付くのを妨げるおそれがある。例えば、スピーカが、高い音量レベルで音楽を再生している間に、タイマの鳴り出し、着信する電話呼び出し、またはベビーモニタを介する赤ん坊の泣き声を、ユーザには聞こえない可能性がある。これらの状況において、ユーザが、その注意が必要になり得るイベントを聞くことができるように、少なくとも短い時間期間の間、スマートスピーカからの再生オーディオの音量レベルを下げる、または弱めることが望ましいはずである。対照的に、ユーザが音楽を流しながら自分のポーチに座っており、大雨が降り始めた場合は、ユーザのポーチの屋根に降る雨に起因する背景雑音の突然の増加によってユーザの聞く体験が妨害されないように、スマートスピーカからの再生オーディオの音量レベルを増加することが望ましいはずである。
【0015】
本明細書の実施形態は、環境要因を統合し、かつ環境要因に基づいてコンテンツ再生設定を状況的に適応させるデジタルアシスタントを対象とする。このアシスタント対応デバイスに対して再生設定を状況的に適応させることは、向上させたユーザ体験を可能にし、かつ周囲の環境またはコンテキストとの良好なユーザ対話を可能にする。メディアコンテンツ(例えば、再生オーディオ)を再生する間、アシスタント対応デバイス、および/またはアシスタント対応デバイスと通信する(例えば、対になる)別のデバイスは、アシスタント対応デバイスからの再生オーディオ、または環境内で行われる会話以外の音などの環境要因を検出することができる。これらの環境要因のうちの1つを検出することに応じて、アシスタント対応デバイスは、メディアコンテンツの音量レベルを自動的に弱める、下げる、または高めることができる。いくつかの例では、アシスタント対応デバイスは、同じ、または同様のコンテキストにおけるユーザによって、どのようにして、ユーザの好みおよび/または過去の挙動に基づき再生設定のコンテンツを状況的に適応すべきかを適応的に学習する。例えば、ユーザの台所におけるスマートスピーカから流れる音楽の音量レベルが、スマートスピーカの近傍において会話が開始された直後に、常に手動で下げられる場合、スマートスピーカは、会話が開始したことに応じて、自動的に音量レベルを下げるように状況的に適応することを学習することができる。同様の例において、赤ん坊の泣いている音が台所のベビーモニタから出力されたとき、ユーザは常に、スマートスピーカからの音量を一瞬弱めることができる。ここにおいて、スマートスピーカは、夕方、ユーザが手動でスマートスピーカの音量を弱めるごとに、音量が弱められるすぐ前に、特定のノイズ(例えば、赤ん坊の泣き声の音など)をスマートスピーカが前もって検出していたという相互関係を引き出すことができる。したがって、スマートスピーカは、赤ん坊の泣き声の特定のノイズの検出に応じて、音量レベルを自動的に弱めるように、状況的に適応することができる。
【0016】
図1を参照すると、いくつかの実施形態では、システム100は、メディアコンテンツ120を再生するアシスタント対応デバイス10を含む。メディアコンテンツ120は、アシスタント対応デバイス10のユーザ20が聞いている音楽またはオーディオを含むことができる。ユーザ20は、音声を介してアシスタント対応デバイス10と対話することができる。いくつかの例では、ユーザ20は、アシスタント対応デバイス10に、デバイス10のスピーカを介してメディアコンテンツ120を再生するように命令する。デバイス10は、デバイス10の再生設定を調整するための手動の制御装置115を含むことができる。例えば、制御装置115は、限定することなく、音量調整、再生/一時停止、停止、電源、またはデバイス10のマイクロフォン116を活動化することの少なくとも1つを含むことができる。マイクロフォン116は、ユーザデバイスの方に向けられた音声などの音響音を取り込むことができる。マイクロフォン116はまた、デバイスからのメディアコンテンツ120の再生と競合し得る音響イベントを示す音響ノイズを取り込むように構成される。アシスタント対応デバイス10は、アシスタント対応デバイス10に、音声コマンドを処理させる(または音声コマンドに対応するオーディオを処理のためにサーバに送信させる)特定の用語(例えば、ホットワードなど)を検出した後に音声コマンドを受け取ることができる。したがって、アシスタント対応デバイス10は、特定の用語の検出に応じて、デバイス上の音声認識、および/またはサーバ側の音声認識機能を使用することができる。特定の用語は、事前定義される、またはユーザによって設定された慣例的な用語もしくはフレーズとすることができる。デバイス10は、複数の様々な特定用語を聞くことができ、それぞれは、デバイス10をトリガして、音声コマンド/クエリを処理するように構成される。
【0017】
示された例では、アシスタント対応デバイス10は、メディアコンテンツ120の再生と競合するイベントを示すことのできる、アシスタント対応デバイス10の環境からの様々なコンテキスト信号102を受信する。具体的には、デバイス10は、イベント認識ルーチン200を実行して、受信されたコンテキスト信号が、メディアコンテンツの再生と競合するイベントを示すかどうかを判定する。イベント認識ルーチン200が、受信されたコンテキスト信号は、メディアコンテンツの再生と競合するイベントを示すと判定した場合、ルーチン200は、イベント競合信号202を再生設定調整器204に渡す。再生設定調整器204は、デバイス10の現在の再生設定を調整するように、調整命令215を発行することができる。例えば、命令215は、メディアコンテンツ120の再生の現在の音量設定を減少させる、またはその再生を一次停止させて、ユーザが聞くことができるように、またはその他の形で、ユーザが参加したいと望むイベントの存在を認識できるようにする。
【0018】
ユーザは、ユーザが、どのように調整器204が再生設定を調整するかをカスタマイズできる構成設定104(例えば、アシスタントアプリケーションのグラフィカルユーザインターフェースによって、かつ/または音声を介して)を提供することができる。例えば、構成設定104は、ユーザ10が関心のあるイベントをランク付けし、かつ受信されたコンテキスト信号102が対応するイベントを示す場合、デバイス10に適用する対応する再生設定を割り当てることができる。いくつかの例では、構成設定104は、活動イベントを示すコンテキスト信号の受信に応じて切り換えるために、メディアコンテンツ120の特定のタイプを指定する。例えば、画像データ102bが、環境内に入る個人(または特定の個人であっても)に対して受信された場合、構成設定104は、再生設定調整器204が、ロック音楽からジャズ音楽の再生へと切り換えるように指定することができる。
【0019】
いくつかの例では、コンテキスト信号102は、マイクロフォン116によって検出されたオーディオ102aを含む。例えば、オーディオ102aは、環境内の対応するオーディオストリームとして、近傍デバイス12(例えば、環境内に位置するベビーモニタ12aなど)から出力された赤ん坊の泣き声と関連付けることができる、またはオーディオ102aは、会話している二人以上の人20a、20bの間の音声に対応するオーディオストリームを含むことができる。マイクロフォン116によって検出された/取り込まれたオーディオ102aはまた、電話12bが着信呼び出しを受信しているとき、鳴っている電話12bなどの近傍デバイス12の音に対応するオーディオストリームを含むこともできる。イベント認識ルーチン200は、オーディオ102aが、メディアコンテンツ120の再生と競合するイベント競合202を示していると判定することができ、それによって、再生設定調整器204に、調整命令215を発行させて、例えば、音量レベルを減少させるなど、アシスタント対応デバイスの再生設定を調整させ、したがって、ユーザが、対応するイベントを知らせるオーディオ102aを聞くことができるようにする。再生設定を調整した後、調整器204は、イベントが終了したとき、またはユーザがイベントを認識するには十分な短い時間期間に、前の設定に戻るように命令を発行することができる。
【0020】
さらなる例では、コンテキスト信号102は、アシスタント対応デバイス10の画像捕捉デバイス117によって、またはデバイス10と通信して、取り込まれた画像データ102bを含む。例えば、画像データ102bは、メディアコンテンツの再生と競合する活動イベントを示す画像ストリームを含むことができる。示される例では、環境内に入る人物20cの最近の到着は、人物20cの画像データ102bに基づいて、イベント認識ルーチンによって識別されたイベント競合202を示すことができる。いくつかの例では、再生設定調整器204によって発行される調整命令215は、アシスタント対応デバイス10に、現在出力されているメディアコンテンツ120のタイプを、人物20cが存在するために、異なるタイプに変更するように命令する、例えば、メディアコンテンツ120の出力を、ロック音楽からクラシック音楽へと切り換えることができる。
【0021】
いくつかの実施形態では、アシスタント対応デバイス10で受信されるコンテキスト信号102は、アシスタント対応デバイス10の環境において、近傍デバイス12と共用されるユーザアカウント132からのネットワークベースの情報102cを含む。ここで、ネットワークベースの情報102cは、近傍デバイス12と関連付けられたイベントを示す。例えば、電話12bは、アシスタント対応デバイス10の登録されたユーザの一人として同じユーザアカウント132に登録することができ、したがって、電話12bが着信呼び出しを受信しているとき、ユーザアカウント132は、電話12bに関連付けられた着信呼び出しイベントを示すネットワークベースの情報102cをアシスタント対応デバイス10に送信することができる。示された例では、ユーザアカウント132は、ネットワーク130を介して、アシスタント対応デバイス10と通信するクラウドコンピューティング環境で管理され得る。モデム/ルータ、またはセルラ方式基地局などのアクセスポイントは、ネットワークベースの情報102cを、アシスタント対応デバイス10へと経路指定することができる。デバイス10は、ネットワークベースの情報を受信するための無線および/または有線通信インターフェースを含むことができる。有利には、ネットワークベースの情報102cは、イベント認識ルーチン200にイベント競合を識別させて、再生設定調整器204が、再生設定を調整して、ユーザが、電話12bで生ずる着信呼び出しに気づくことができるようにする。電話12bが消音化されている、または振動しており、したがって、デバイス10のマイクロフォンによって取り込まれ得る可聴の警告を出力しない場合であっても、ネットワークベースの情報102cは、着信する呼び出しの存在を示すことができる。
【0022】
アシスタント対応デバイス10は、アシスタント対応デバイスとの通信において、近傍デバイス12から送信された通信信号102dとして、コンテキスト信号102をさらに受信することができ、それによって、ネットワークベースの情報102cと同様に、通信信号102dは、近傍デバイス12に関連付けられたイベントを示す。示される例では、スマートフォン12bは、通信信号102dを、Bluetooth、近距離無線通信(NFC)、超音波、赤外線、または任意の他の無線もしくは有線通信技術によって、無線で、アシスタント対応デバイス10に送信する。スマートフォン12bはまた、通信信号102dを、アクセスポイントを介する無線の忠実度(Wi-Fi)もしくはセルラ方式によって、アシスタント対応デバイス10に送信することができる。この例では、通信信号102dは、着信する呼び出しイベントを示している。スマートフォン12bは、通信が終了したときを示す別の通信信号102dを送信することもでき、それによって、再生設定調整器204に、前の再生設定に戻ることができるようにする。他の例では、近傍デバイス10に関連付けられたイベントは、近傍デバイスで生ずる警報/警告/通知を、または近傍デバイスがタイマに相当する場合には近傍デバイス10で鳴り響くタイマを含むこともできる。一例では、スマートタイマは、タイマが鳴る直前に、通信信号102dを送ることができ、かつ/または通信信号102dは、タイマが鳴る時間を示すこともでき、したがって、再生設定調整器204は、タイマが鳴り出したときに、再生コンテンツ120が、ユーザがタイマを聞くのを妨げないように、音量を下げることによって再生設定を調整することができる。この例を続けると、スマートタイマは、タイマが終了したときを示す別の通信信号102dを提供することもでき、それによって、再生設定調整器204が、前の再生設定に戻れるようにする。
【0023】
図2Aおよび
図2Bを参照すると、いくつかの実施形態では、アシスタント対応デバイス10に対してイベント認識ルーチン200を実行することは、入力としてコンテキスト信号102を受信し、出力として、分類結果212を生成するように構成されたニューラルネットワークベースの分類モデル210を実行することを含む。イベント認識ルーチン200によって出力される分類結果212は、受信されたコンテキスト信号102が、アシスタント対応デバイス10からのメディアコンテンツ120の再生と競合する1つまたは複数のイベントを示しているかどうかを示す。
【0024】
図2Aは、オーディオストリーム102aを含む入力として、ニューラルネットワークベースの分類モデル210で受信されたコンテキスト信号102と、メディアコンテンツ120の再生と競合するオーディオイベントを含む出力として、ニューラルネットワークベースの分類モデル210によって生成された分類結果212とを示す。例えば、オーディオイベント(例えば、イベント競合202)212は、限定することなく、音声、警報、タイマ、着信呼び出し、またはいくつかの特定のノイズ(例えば、赤ん坊の泣き声など)を含むことができる。いくつかの実施形態では、出力として分類モデル210によって生成された分類結果212は、オーディオストリーム102aの可聴レベルに、かつ/またはアシスタント対応デバイスからの再生として出力されるメディアコンテンツ120の可聴レベルにさらに基づいている。これらの実施形態では、オーディオストリーム102aの可聴レベルが、メディアコンテンツ120の可聴レベルよりも大きい場合、分類結果212は、オーディオイベントは、メディアコンテンツ120の再生と競合しないことを示すことができ、それによって、アシスタント対応デバイスの音量レベルを自動的に下げる必要はない。分類結果212はまた、競合の大きさを示すこともでき、したがって、再生設定調整器204は、競合の大きさに基づいてメディアコンテンツの再生設定を調整することができる、例えば、単に、再生コンテンツ120の可聴レベルを下げるだけに対して、再生コンテンツ120を一時停止する/弱めるなど。
【0025】
図2Bは、画像ストリーム102bを含む入力として、ニューラルネットワークベースの分類モデル210で受信されたコンテキスト信号102と、メディアコンテンツ120の再生と競合する活動イベントを含む出力として、分類モデル210によって生成された分類結果212とを示す。例えば、活動イベントは、訪問者、もしくは環境10に入る他の個人、または正面玄関の客を含むことができる。活動イベントはまた、メディアコンテンツ120の再生と競合し得る会話が行われていることを示す音声を示すオーディオイベントと組み合わせることのできる、会話している二人の特性を伝えることもできる。
【0026】
図3を参照すると、いくつかの実施形態では、アシスタント対応デバイス10は、(例えば、イベント認識ルーチン200からの出力として)イベントを示していると認識された、受信されたコンテキスト信号が、ユーザのイベントを認識する能力を妨げているかどうかを判定するように構成されたイベント妨害スコアラ305をさらに含む。スコアラ305は、発見的手法ベースのモデル、または訓練された機械学習モデルとすることができる。示された例では、スコアラは、入力として、アシスタント対応デバイス10から再生されているメディアコンテンツに関連付けられた再生特徴302、およびイベントに関連付けられたイベントベースの特徴304を取得し、出力として、アシスタント対応デバイス10から再生されているメディアコンテンツ120が、ユーザの、イベントを認識する能力を妨げる可能性を示す可能性スコア310を生成する。いくつかの例では、アシスタント対応デバイス10は、再生のために、イベントに関連付けられた音響特徴を増幅し、再生のために、イベントを再現し、かつ/またはイベントの意味論的解釈を提供することもできる。
【0027】
一例では、受信されたコンテキスト信号102が、オーディオイベントを示すとき、スコアラ305に入力される再生特徴302およびイベントベースの特徴304は、デバイス10から再生するメディアコンテンツ120、およびオーディオイベントの各可聴レベルを含む。この例では、スコアラ305から出力される可能性スコア310は、デバイス10から再生するメディアコンテンツ120が、オーディオイベントを聞くユーザの能力を妨げる可能性を示す。したがって、再生設定調整器204は、可能性スコア310を受け取り、アシスタント対応デバイス10を、デバイス10からのメディアコンテンツ120再生の低い可聴レベルの1つにする、またはデバイス10からのメディアコンテンツ120の再生を停止/一時停止させる、スコア310に基づく調整命令215を発行する。
【0028】
さらなる例では、イベント認識ルーチンが、受信されたコンテキスト信号は、メディアコンテンツの再生と競合するイベントを示しており、またイベント妨害スコアラ305は訓練された機械学習モデルであると決定したとき、訓練された機械学習モデルは、入力として再生特徴302、およびイベントベースの特徴304を受信し、メディアコンテンツ120再生が、イベントを認識するユーザの能力を妨げる可能性を示す可能性スコア310を決定する。再生特徴302は、限定することなく、デバイスから再生されたメディアコンテンツ120の可聴レベル、メディアコンテンツタイプ、またはメディアコンテンツの重要性のレベルを示す再生重要性インジケータのうちの少なくとも1つを含むことができる。例えば、家族の間のビデオ通話に関連付けられたメディアコンテンツは、音楽プレイリストに関連付けられたメディアコンテンツよりも高レベルの重要性に割り当てることができ、したがって、ユーザは、デバイス10がビデオ通話の再生設定を調整することを望まない可能性がある。いくつかの例では、重要性インジケータは、
図1を参照して上記で論じられたように、ユーザによって提供されるユーザ構成設定204に基づく。イベントベースの特徴304は、限定することなく、イベントに関連付けられたオーディオレベル、イベントタイプ(オーディオイベントまたは活動イベント)、またはイベント重要性インジケータのうちの少なくとも1つを含むことができる。例えば、火災警報に関連付けられたオーディオイベントは、ユーザに着信呼び出しを知らせるために鳴る電話よりも、ユーザが聞くべき、より高い重要性に割り当てることができる。メディアコンテンツ重要性インジケータと同様に、イベント重要性インジケータは、ユーザ構成設定104に基づくことができる。
【0029】
訓練された機械学習モデルスコアラ305から出力された可能性スコア310が、デバイス10から再生されたメディアコンテンツ120がイベントをユーザが認識する能力を妨げる可能性を示したとき、再生設定調整器204は、可能性スコア310を受信し、かつスコア310に基づいて調整命令215を発行することができ、それは、アシスタント対応デバイス10を、デバイス10からのメディアコンテンツ120再生のより低い可聴レベルの1つにする、デバイス10からのメディアコンテンツ120を停止/一時停止する、またはデバイス10から再生されるメディアコンテンツのタイプを切り換える。いくつかの例では、再生設定調整器204は、調整命令215を発行するかどうかを判定するために、スコア310を1つまたは複数の閾値と比較することができる。例えば、スコア310が調整閾値を満たさない場合、イベントが、ユーザのイベントを聞く、またはその他の形で認識する能力を妨げる可能性がないことを示しており、再生設定調整器204は、何らかの調整命令215を発行しない可能性がある。同様に、調整閾値を満たすが、2番目に高い閾値を満たさないスコア310は、メディアコンテンツ120の再生の可聴レベルを単に減少させる調整命令215を生ずることができるが、一方、2番目に高い閾値を満たすスコア310は、メディアコンテンツ120の再生を一時停止する/弱める調整命令215を生ずる。
【0030】
いくつかの実施形態では、イベント妨害スコアラ305が、訓練された機械学習モデルを含むとき、スコアラ305は、再生設定調整器204が調整命令215を発行した(または発行しなかった)後に受信されたユーザフィードバック315に基づいて、特定のコンテキスト信号102に対して、再生設定を調整することを適応的に学習するために再訓練/調整される。ここにおいて、ユーザフィードバック315は、調整されたコンテンツ再生設定を受け入れること、または手動の制御115(
図1)を介するコンテンツ再生設定に対する次の手動調整を示すことができる。例えば、再生設定に対して調整が何も行われない、または可聴レベルが単に下げられただけである場合、可聴レベルをさらに下げる後続する手動調整を示す、またはメディアコンテンツの再生を全く中断することを示すユーザフィードバック315は、イベントが、関連付けられた可能性スコア310が示した程度よりも大きく、ユーザを妨害したことを示すことができる。別の例として、調整されたコンテンツ再生設定の受入れは、コンテンツ再生設定に対して後続する手動調整が行われないことによって推測され得る。アシスタント対応デバイス10は、取得された再生特徴302、取得されたイベントベースの特徴304、調整された再生設定、および取得されたユーザフィードバック315で、機械学習モデルスコアラ305を再訓練する訓練プロセスを実行することができ、したがって、スコアラ305は、同様のコンテキストにおける過去のユーザ挙動/反応に基づき、ユーザに対して個人化された可能性スコア310を出力するように適応的に学習する。
【0031】
図4は、アシスタント対応デバイス10の環境から受信されたコンテキスト信号102に基づき、アシスタント対応デバイス10のコンテンツ再生設定を調整する方法400に対するオペレーションの例示的な構成の流れ図である。オペレーションは、アシスタント対応デバイス10のメモリハードウェア520(
図5)に記憶された命令に基づき、アシスタント対応デバイス10のデータ処理ハードウェア510(
図5)上で実行することができる。オペレーション402において、方法400は、アシスタント対応デバイス10の環境00からコンテキスト信号102を受信するステップを含む。コンテキスト信号102は、デバイス10のマイクロフォンによって検出されたオーディオ102a、画像捕捉デバイスによって取り込まれた画像データ102b、近傍デバイス12と共用されるユーザアカウント132からのネットワークベースの情報102c、または近傍デバイス12から送信された通信信号102dを含むことができる。
【0032】
オペレーション404において、方法400は、受信されたコンテキスト信号102が、アシスタント対応デバイス10からのメディアコンテンツ120の再生と競合するイベントを示しているかどうかを判定するためのイベント認識ルーチン200を実行するステップを含む。ルーチン200を実行するステップは、入力としてコンテキスト信号102を受信し、出力として、受信されたコンテキスト信号102が、アシスタント対応デバイス10からのメディアコンテンツ120の再生と競合する1つまたは複数のイベントを示しているかどうかを示す分類結果212を生成するように構成されたニューラルネットワークベースの分類モデル210を実行するステップを含むことができる。
【0033】
オペレーション406において、イベント認識ルーチン200は、受信されたコンテキスト信号102が、メディアコンテンツ120の再生と競合するイベントを示していると判定したとき、方法400は、アシスタント対応デバイス10のコンテンツ再生設定を調整するステップを含む。例えば、再生設定調整器204は、コンテンツ再生設定を調整させる調整命令215を発行することができる。アシスタント対応デバイス10のコンテンツ再生設定を調整するステップは、メディアコンテンツの再生のオーディオレベルを増加する/減少させる、メディアコンテンツの再生を停止する/一時停止する、または異なるタイプのメディアコンテンツを再生するようにアシスタント対応デバイスに命令するステップを含むことができる。
【0034】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)とは、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指すことができる。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ(app)」、または「プログラム」と呼ぶことができる。例示的なアプリケーションは、これだけに限らないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワークアプリケーション、およびゲームアプリケーションを含む。
【0035】
非一時的なメモリは、コンピューティングデバイスによって使用するために、一時的に、または恒久的に、プログラム(例えば、命令のシーケンス)、またはデータ(例えば、プログラム状態情報)を記憶するために使用される物理的なデバイスとすることができる。非一時的なメモリは、揮発性の、かつ/または不揮発性のアドレス可能な半導体メモリとすることができる。不揮発性メモリの例は、これだけに限らないが、フラッシュメモリおよび読出し専用メモリ(ROM)/プログラム可能な読出し専用メモリ(PROM)/消去可能プログラム可能な読出し専用メモリ(EPROM)/電気的に消去可能プログラム可能な読出し専用メモリ(EEPROM)(例えば、通常、ブートプログラムなど、ファームウェアに使用される)を含む。揮発性メモリの例は、これだけに限らないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクもしくはテープを含む。
【0036】
図5は、本文書で述べられるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの、様々な形態のデジタルコンピュータを表すように意図される。ここで示される構成要素、その接続および関係、ならびにその機能は、例示的であることを意味するだけであり、本文書において述べられ、かつ/または特許請求される本発明の実施形態を限定することを意味するものではない。
【0037】
コンピューティングデバイス500は、プロセッサ510と、メモリ520と、ストレージデバイス530と、メモリ520および高速拡張ポート550に接続される高速インターフェース/コントローラ540と、低速バス570およびストレージデバイス530に接続される低速インターフェース/コントローラ560とを含む。各構成要素510、520、530、540、550、および560は様々なバスを用いて相互接続され、また共通のマザーボード上に、または他の方法で適切に取り付けることができる。プロセッサ510は、高速インターフェース540に結合されるディスプレイ580など、外部入力/出力デバイス上のグラフィカルユーザインターフェース(GUI)に対してグラフィック情報を表示するために、メモリ520に、またはストレージデバイス530に記憶された命令を含む、コンピューティングデバイス500内で実行するための命令を処理することができる。他の実施形態では、複数のメモリおよびメモリタイプと共に、複数のプロセッサおよび/複数のバスを、適切に使用することができる。さらに、複数のコンピューティングデバイス500を接続することができ、各デバイスは、必要ないくつかの部分のオペレーションを提供する(例えば、サーババンク、一群のブレードサーバ、またはマルチプロセッサシステムとして)。
【0038】
メモリ520は、コンピューティングデバイス500内に、情報を非一時的に記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットとすることができる。非一時的なメモリ520は、コンピューティングデバイス500で使用するために、一時的にまたは恒久的にプログラム(例えば、命令シーケンス)、またはデータ(プログラム状態情報)を記憶するために使用される物理的なデバイスとすることができる。不揮発性メモリの例は、これだけに限らないが、フラッシュメモリおよび読出し専用メモリ(ROM)/プログラム可能な読出し専用メモリ(PROM)/消去可能プログラム可能な読出し専用メモリ(EPROM)/電気的に消去可能プログラム可能な読出し専用メモリ(EEPROM)(例えば、通常ブートプログラムなど、ファームウェアに対して使用される)を含む。揮発性メモリの例は、これだけに限らないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクもしくはテープを含む。
【0039】
ストレージデバイス530は、コンピューティングデバイス500に対して大容量の記憶を提供することができる。いくつかの実施形態では、ストレージデバイス530は、コンピュータ可読媒体である。様々な異なる実施形態では、ストレージデバイス530は、ストレージエリアネットワーク、または他の構成におけるデバイスを含む、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリ、もしくは他の同様の固体素子メモリデバイス、またはデバイスのアレイとすることができる。さらなる実施形態では、コンピュータプログラム製品は、情報キャリアにおいて有形に実施される。コンピュータプログラム製品は、上記で述べられたものなど、実行されたとき、1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ520、ストレージデバイス530、またはプロセッサ510上のメモリなど、コンピュータもしくは機械可読媒体である。
【0040】
高速コントローラ540は、コンピューティングデバイス500に対する帯域幅集中型のオペレーションを管理するが、低速コントローラ560は、より低い帯域幅集中型のオペレーションを管理する。このようなデューティの割振りは、例示的なものに過ぎない。いくつかの実施形態では、高速コントローラ540は、メモリ520に、ディスプレイ580(例えば、グラフィックプロセッサ、またはアクセラレータを介して)に、かつ様々な拡張カード(図示せず)を受け入れることのできる高速拡張ポート550に結合される。いくつかの実施形態では、低速コントローラ560は、ストレージデバイス530および低速拡張ポート590に結合される。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、無線イーサネットなど)を含むことのできる低速拡張ポート590は、キーボード、位置指示デバイス、スキャナなどの1つまたは複数の入力/出力デバイスに、または例えば、ネットワークアダプタを介する、スイッチもしくはルータなどのネットワーキングデバイスに結合され得る。
【0041】
コンピューティングデバイス500は、図で示されるように、いくつかの異なった形態で実施され得る。それは、例えば、標準のサーバ500aとして、またはラップトップコンピュータ500bとして、もしくはラックサーバシステム500cの一部としてなど、一群のこのようなサーバ500aにおいて複数回実施することもできる。
【0042】
本明細書で述べられるシステムおよび技法の様々な実施形態は、デジタル電子および/または光回路、集積回路、特に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現することができる。これらの様々な実施形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスとの間で、データおよび命令を受信および送信するように結合された、専用または汎用のものであり得る少なくとも1つのプログラム可能プロセッサを含むプログラム可能なシステム上で実行可能であり、かつ/または解釈可能な1つまたは複数のコンピュータプログラムにおける実施形態を含むことができる。
【0043】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている)は、プログラム可能なプロセッサに対する機械命令を含み、かつ高水準の手続き型および/またはオブジェクト指向のプログラミング言語で、かつ/またはアセンブリ言語/機械語で実施することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を含む、プログラム可能なプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置、および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能な論理素子(PLD)など)を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラム可能なプロセッサに提供するために使用される任意の信号を指す。
【0044】
本明細書で述べられるプロセスおよび論理の流れは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能なプロセッサによって実施され、1つまたは複数のコンピュータプログラムを実行して、入力データを動作させ、出力を生成することによって諸機能を実施することができる。プロセスおよび論理の流れはまた、例えば、FPGA(書替え可能ゲートアレイ)、またはASIC(特定用途向け集積回路)など、専用の論理回路によって実施することができる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用と専用の両方のマイクロプロセッサ、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。概して、プロセッサは、読出し専用メモリもしくはランダムアクセスメモリ、またはその両方から、命令およびデータを受け取ることになる。コンピュータの本質的な要素は、命令を実施するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスとである。概して、コンピュータはまた、例えば、磁気、光磁気ディスク、または光ディスクなど、データ記憶用の1つまたは複数の大容量記憶デバイスとの間で、データを送信もしくは受信する、またはその両方を行うように含む、または動作可能に結合されることになる。しかしコンピュータは、このようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、例えば、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、例えば、内蔵のハードディスクもしくは取外し可能なディスクなどの磁気ディスク、光磁気ディスク、ならびにCD-ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用の論理回路によって補われる、またはそれに組み込むことができる。
【0045】
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するための、例えば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチ画面などの表示装置と、任意選択で、キーボード、および例えば、ユーザがコンピュータに入力を提供できるマウスもしくはトラックボールなどの位置指示デバイスとを有するコンピュータ上で実施することができる。ユーザとの対話を提供するために他の種類のデバイスも同様に使用することができ、例えば、ユーザに提供されるフィードバックは、例えば、視覚的なフィードバック、聴覚的なフィードバック、または触覚的なフィードバックなど、任意の形の感覚的なフィードバックとすることができ、またユーザからの入力は、音響、音声、または触覚的な入力を含む任意の形で受け取ることができる。加えて、コンピュータは、例えば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送ることによるなど、ユーザによって使用されるデバイスとの間で文書を送り、かつ受け取ることによって、ユーザと対話することができる。
【0046】
いくつかの実施形態が述べられてきた。そうではあるが、本開示の趣旨および範囲から逸脱することなく、様々な変更を実施できることが理解されよう。したがって、他の実施形態も、添付の請求項の範囲に含まれる。
【符号の説明】
【0047】
10 アシスタント対応デバイス
12 近傍デバイス
12a ベビーモニタ
12b 電話、スマートフォン
20 ユーザ
20a 会話している二人以上の人々
20b 会話している二人以上の人々
20c 人物
100 システム
102 コンテキスト信号
102a オーディオ
102b 画像データ
102c ネットワークベースの情報
102d 通信信号
104 構成設定
115 制御装置
116 マイクロフォン
117 画像捕捉デバイス
120 メディアコンテンツ
130 ネットワーク
132 ユーザアカウント
200 イベント認識ルーチン
202 イベント競合信号
204 再生設定調整器
210 分類モデル
212 分類結果、オーディオイベント
215 調整命令
302 再生特徴
304 イベントベースの特徴
305 イベント妨害スコアラ
310 可能性スコア
315 ユーザフィードバック
500 コンピューティングデバイス
500a サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ、データ処理ハードウェア
520 メモリ
530 ストレージデバイス
540 高速インターフェース/コントローラ
550 高速拡張ポート
560 低速インターフェース/コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート