(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-29
(45)【発行日】2022-07-07
(54)【発明の名称】パーソナルボイスアシスタント認証
(51)【国際特許分類】
G06F 21/31 20130101AFI20220630BHJP
G10L 17/24 20130101ALI20220630BHJP
【FI】
G06F21/31
G10L17/24
(21)【出願番号】P 2019556939
(86)(22)【出願日】2018-04-20
(86)【国際出願番号】 EP2018060126
(87)【国際公開番号】W WO2018197343
(87)【国際公開日】2018-11-01
【審査請求日】2021-04-16
(32)【優先日】2017-04-24
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】590000248
【氏名又は名称】コーニンクレッカ フィリップス エヌ ヴェ
【氏名又は名称原語表記】Koninklijke Philips N.V.
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ファン デン ホーフェン,ヒレス ヤン
【審査官】打出 義尚
(56)【参考文献】
【文献】米国特許第08613066(US,B1)
【文献】米国特許第09286899(US,B1)
【文献】米国特許出願公開第2015/0087265(US,A1)
【文献】米国特許出願公開第2015/0215299(US,A1)
【文献】米国特許出願公開第2014/0343943(US,A1)
【文献】特表2007-538432(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/31
G10L 17/24
(57)【特許請求の範囲】
【請求項1】
1つ又はそれよりも多くのサーバ上で実行するように構成されるサービスを用いて第1のクライアントデバイス上で実行するように構成されるモバイルアプリケーションのユーザを認証するステップであって、前記1つ又はそれよりも多くのサーバは、1つ又はそれよりも多くのコンピューティングネットワークを介して前記第1のクライアントデバイスと通信的に連結され、前記サービスは、第2のクライアントデバイスと関連付けられる1つ又はそれよりも多くのパーソナルボイスアシスタントと対話するように構成され、前記パーソナルボイスアシスタントは、ユーザから発声自然言語入力を受信し、前記発声自然言語入力をデジタル出力データに変換する、認証するステップと、
前記認証に基づいて、前記コンピューティングネットワークのうちの1つ又はそれよりも多くを介して、前記第1のクライアントデバイスに、話すことができる信用証明書を提供するステップであって、前記話すことができる信用証明書は、ユーザによって大声で話されるように構成され、提供するステップは、前記第1のクライアントデバイスが、前記第1のクライアントデバイスの1つ又はそれよりも多くの出力デバイスを使用する出力として、前記話すことができる信用証明書を提供することを引き起こす、提供するステップと、
前記第2のクライアントデバイスと関連付けられるパーソナルボイスアシスタントから直接的に又は間接的に、前記第2のクライアントデバイスで受信される前記ユーザからの発声自然言語入力に応答して生成されるデジタル出力データを受信するステップであって、前記発声自然言語入力は、前記話すことができる信用証明書の前記ユーザによる発話を含み、受信するステップと、
前記デジタル出力データを前記話すことができる信用証明書に一致するかどうか決定するステップと、
前記一致に基づいて、前記サービスを用いて、前記第2のクライアントデバイスと関連付けられる前記パーソナルボイスアシスタントを認証するステップとを含み、
前記話すことができる信用証明書を提供するステップは、
前記第2のクライアントデバイスと関連付けられる前記パーソナルボイスアシスタントによって、前記第1のクライアントデバイスで、前記話すことができる信用証明書を伴う出力されるべきメッセージを提供することを含み、更に、前記提供するステップは、前記第1のクライアントデバイスが、前記話すことができる信用証明書をディスプレイ上に視覚的に出力することを引き起こす、
方法。
【請求項2】
前記提供するステップは、前記第1のクライアントデバイスが、スピーカを使用して前記話すことができる信用証明書を可聴的に出力することを引き起こす、請求項1に記載の方法。
【請求項3】
前記提供するステップは、前記モバイルアプリケーションが、前記話すことができる信用証明書を出力として提供することを引き起こす、請求項1に記載の方法。
【請求項4】
前記サービスは、1つ又はそれよりも多くのパーソナルボイスアシスタントにアクセス可能な音声作動可能なサービスのライブラリの一部である、請求項1に記載の方法。
【請求項5】
前記話すことができる信用証明書は、一連の英数字記号である、請求項1に記載の方法。
【請求項6】
前記話すことができる信用証明書は、1つ又はそれよりも多くの単語を含む、請求項1に記載の方法。
【請求項7】
1つ又はそれよりも多くのプロセッサと、該1つ又はそれよりも多くのプロセッサに動作的に連結されるメモリとを含み、該メモリは、指令を含み、該指令は、前記1つ又はそれよりも多くのプロセッサによる前記指令の実行に応答して、前記1つ又はそれよりも多くのプロセッサに、
a)1つ又はそれよりも多くのサーバ上で実行するように構成されるサービスを用いて第1のクライアントデバイス上で実行するように構成されるモバイルアプリケーションのユーザを認証させ、前記1つ又はそれよりも多くのサーバは、1つ又はそれよりも多くのコンピューティングネットワークを介して前記第1のクライアントデバイスと通信的に連結され、前記サービスは、第2のクライアントデバイスと関連付けられる1つ又はそれよりも多くのパーソナルボイスアシスタントと対話するように構成され、前記パーソナルボイスアシスタントは、ユーザから発声自然言語入力を受信し、前記発声自然言語入力をデジタル出力データに変換し、
b)前記認証に基づいて、前記コンピューティングネットワークのうちの1つ又はそれよりも多くを介して、前記第1のクライアントデバイスに、話すことができる信用証明書を提供させ、該話すことができる信用証明書は、ユーザによって大声で発声されるように構成され、前記提供させることは、前記第1のクライアントデバイスが、前記第1のクライアントデバイスの1つ又はそれよりも多くの出力デバイスを使用する出力として、前記話すことができる信用証明書を提供することを引き起こし、
c)第2のクライアントデバイスと関連付けられるパーソナルボイスアシスタントから直接的に又は間接的に、前記第2のクライアントデバイスで受信される前記ユーザからの発声自然言語入力に応答して生成されるデジタル出力データを受信させ、前記発声自然言語入力は、前記話すことができる信用証明書の前記ユーザによる発話を含み、
d)前記デジタル出力データを前記話すことができる信用証明書に一致するかどうか決定し、
e)前記一致に基づいて、前記サービスを用いて、前記第2のクライアントデバイスと関連付けられる前記パーソナルボイスアシスタントを認証させ、
前記話すことができる信用証明書を提供させる指令は、
前記第2のクライアントデバイスと関連付けられる前記パーソナルボイスアシスタントによって、前記第1のクライアントデバイスで、前記話すことができる信用証明書を伴う出力されるべきメッセージ指令を含み、更に、前記話すことができる信用証明書を提供させる指令は、前記第1のクライアントデバイスが、前記話すことができる信用証明書をディスプレイ上に視覚的に出力することを引き起こす、
システム。
【請求項8】
前記話すことができる信用証明書を提供させる指令は、前記第1のクライアントデバイスが、スピーカを用いて前記話すことができる信用証明書を可聴的に出力することを引き起こす、請求項7に記載のシステム。
【請求項9】
前記話すことができる信用証明書の受信は、前記モバイルアプリケーションが、前記話すことができる信用証明書を出力として提供することを引き起こす、請求項7に記載のシステム。
【請求項10】
前記サービスは、1つ又はそれよりも多くのパーソナルボイスアシスタントにアクセス可能な音声作動可能なサービスの一部である、請求項7に記載のシステム。
【請求項11】
指令を含む非一時的コンピュータ可読媒体であって、
前記指令は、1つ又はそれよりも多くのプロセッサによる前記指令の実行に応答して、前記1つ又はそれよりも多くのプロセッサに、
a)1つ又はそれよりも多くのサーバ上で実行するように構成されるサービスを用いて第1のクライアントデバイス上で実行するように構成されるモバイルアプリケーションのユーザを認証する動作を実行させ、前記1つ又はそれよりも多くのサーバは、1つ又はそれよりも多くのコンピューティングネットワークを介して前記第1のクライアントデバイスと通信的に連結され、前記サービスは、第2のクライアントデバイスと関連付けられる1つ又はそれよりも多くのパーソナルボイスアシスタントと対話するように構成され、前記パーソナルボイスアシスタントは、ユーザから発声自然言語入力を受信し、前記発声自然言語入力をデジタル出力データに変換し、
b)前記認証に基づいて、前記コンピューティングネットワークのうちの1つ又はそれよりも多くを介して、前記第1のクライアントデバイスに、話すことができる信用証明書を提供する動作を実行させ、前記話すことができる信用証明書は、ユーザによって大声で発声されるように構成され、前記提供する動作は、前記第1のクライアントデバイスが、前記第1のクライアントデバイスの1つ又はそれよりも多くの出力デバイスを使用する出力として、前記話すことができる信用証明書を提供することを引き起こし、
c)前記第2のクライアントデバイスと関連付けられるパーソナルボイスアシスタントから直接的に又は間接的に、前記第2のクライアントデバイスで受信される前記ユーザからの発声自然言語入力に応答して生成されるデジタル出力データを受信する動作を実行させ、前記発声自然言語入力は、前記話すことができる信用証明書の前記ユーザによる発話を含み、
d)前記デジタル出力データを前記話すことができる信用証明書に一致するかどうか決定する動作を実行させ、
e)前記一致に基づいて、前記サービスを用いて、前記第2のクライアントデバイスと関連付けられる前記パーソナルボイスアシスタントを認証する動作を実行させ、
前記話すことができる信用証明書を提供する動作は、
前記第2のクライアントデバイスと関連付けられる前記パーソナルボイスアシスタントによって、前記第1のクライアントデバイスで、前記話すことができる信用証明書を伴う出力されるべきメッセージを提供することを含み、更に、前記提供する動作は、前記第1のクライアントデバイスが、前記話すことができる信用証明書をディスプレイ上に視覚的に出力することを引き起こす、
少なくとも1つの非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書に記載する様々な実施形態は、一般的に、パーソナルボイスアシスタント認証(個人音声認証)に向けられている。より具体的には、本明細書に開示する様々な方法及び装置は、帯域外で話すことができる信用証明書(credential)を使用するパーソナルボイスアシスタント認証に関するが、これらに限定されない。
【背景技術】
【0002】
人間は、本明細書で「パーソナルボイスアシスタント」と呼ぶ(「自動アシスタント」、「デジタルエージェント」、「チャットボット」、「インタラクティブパーソナルアシスタント」、「インテリジェントパーソナルアシスタント」、「会話エージェント」等とも呼ぶ)インタラクティブソフトウェアアプリケーションを用いて、人間とコンピュータとの間の対話(human-to-computer dialogs)に関与することがある。例えば、(パーソナルボイスアシスタントと対話するときには「ユーザ」と呼ぶことがある)人間は、幾つかの場合にはテキストに変換され、次に処理されることがある、発声自然言語入力(spoken natural language input)(即ち、発話(utterances))を使用して、及び/又は(例えば、タイプされた)テキスト自然言語入力を提供することによって、命令及び/又は要求を提供することがある。パーソナルボイスアシスタントの例は、Seattle, WashingtonのAmazon.comによる「Alexa」、Mountain View, CaliforniaのGoogle, Inc.による「Google Assistant」、Redmond, WashingtonのMicrosoftによる「Cortana」、及びCupertino, CaliforniaのAppleによる「Siri」を含む。
【0003】
幾つかのパーソナルボイスアシスタントは、様々な「サービス」や「スキル」と「リンク」されることがある。これらのサービス又はスキルは、ボイスアシスタントが、いわゆる「スマート」(例えば、ネットワーク化された)照明器具の制御、いわゆる「スマート」サーモスタットの制御、カレンダエントリの作成、リマインダの設定、音楽やビデオのようなメディアの再生、タイマの設定、ウェブ検索の実行、食品配達の注文、(例えば、1以上 (1つ又はそれよりも多く)の接続されたデバイスからのセンサデータに基づく)子育てに関する助言の取得、ソーシャルメディアステータス更新の掲示等のような、多種多様なタスクを実行することを可能にする。これらのサービスの多くへのアクセスは、ユーザ認証を必要とすることがある。
【0004】
例えば、ユーザは、ユーザがピザを注文することを可能にするソフトウェアアプリケーション又は「アプリ」をスマートフォンにインストールすることがある。ユーザがピザを注文する度に請求書及び他の類似の情報を提供しなければならないことを避けるために、ユーザは、ピザ配送ベンダーとの「プロファイル」を有することがある。それらのプロファイルにログインすることによって、ユーザはピザを注文することができ、支払情報及び他の詳細(例えば、彼らの住所)は、ユーザがそれを再度提供する必要がないように、アプリ内に既に保存されていることがある。幾つかの場合、ユーザは、ピザ配達アプリを、例えば、ユーザと関連付けられた協調デバイス(例えば、スマートフォン、スマートウォッチ、タブレット、対話型スタンドアロンスピーカ等)の「エコシステム」の1以上のコンピューティングデバイス上で実行する、パーソナルボイスアシスタントに拡張又はリンクし得ることがある。このようにして、ユーザは、パーソナルボイスアシスタントにピザを注文させる発声命令(spoken voice commands)を提供することができる。
【0005】
サービスをパーソナルボイスアシスタントにリンクさせることは、特に技術的な専門知識を持たない一般ユーザにとっては挑戦であり得る。典型的には、ユーザは、パーソナルボイスアシスタントとサービスとの間のリンクを作成するために、パーソナルボイスアシスタントを用いて人間とコンピュータとの間の対話に関与することができない。加えて、既存のリンク技術は、パーソナルボイスアシスタントをサービスにリンクさせるために、ユーザ識別可能な情報がパーソナルボイスアシスタントを通ることを必要とすることがある。更に、既存のリンク技術は、市場へのパーソナルボイスアシスタントベースのサービスの参入を遅らせることがあり、新規ユーザによる採用を妨げることがある。
【発明の概要】
【0006】
本開示は、帯域外の信用証明書を使用するパーソナルボイスアシスタントの認証のための方法及び装置に向けられている。例えば、特定のサービスを、ユーザにサービスを提供するパーソナルボイスアシスタントとリンクさせる(「対称的ペアリング」させる或いは「対称関係ペアリング」させると呼ぶことがある)ことを欲するユーザは、先ず、例えば、ユーザ名/パスワード、生体測定入力(biometric input)(例えば、指紋スキャン、網膜スキャンなど)及び類似のものを用いて、自分自身をサービスに認証してよい。この初期認証は、スマートフォンのような、ユーザによって操作される第1のクライアントコンピューティングデバイスを使用して行われてよい。ひとたび認証されると、サービス及び/又は認証バックエンドは、本明細書において「話すことができる信用証明書(speakable credential)」と呼ぶものを生成してよい。話すことができる信用証明書は、n桁のコード、単一若しくは複数の語句、又は大声で発声されることができる任意の他の一連の数字、文字、記号などのような、様々な形態を取ってよい。加えて、幾つかの実施形態では、いわゆる「未決定の対称関係(pending symmetrical pairing relation)」が、例えば、サービス及び/又は認証バックエンドで生成されてよい。話すことができる信用証明書は、ユーザによって操作される第1のコンピューティングデバイスに送信されてよく、第1のコンピューティングデバイスでユーザに視覚的又は可聴的に提示されてよい。本明細書では、この送信/提示を「帯域外(out-of-band)」と呼ぶことがある。何故ならば、それはユーザと関連付けられるパーソナルボイスアシスタントを含まないからである。次に、ユーザは、パーソナルボイスアシスタントの1以上の態様を作動させるスタンドアローンの対話型スピーカ又は別のクライアントコンピューティングデバイスのような第2のクライアントコンピューティングデバイス上で実行するパーソナルボイスアシスタントに、この信用証明書を「発声された信用証明書(uttered credential)」として、大声で発話してよい。パーソナルボイスアシスタントは、発話された信用証明書をサービス及び/又は認証バックエンドに提供してよい。発声された信用証明書が前もって生成された話すことができる信用証明書と一致するならば、パーソナルボイスアシスタントは、然る後、例えば、ユーザの要求で、サービスと対話することができる。
【0007】
一般的に、1つの態様では、方法が、1つ又はそれよりも多くのサーバ上で実行するサービスを用いて第1のクライアントデバイス上で実行するモバイルアプリケーションのユーザを認証するステップであって、1つ又はそれよりも多くのサーバは、1つ又はそれよりも多くのコンピューティングネットワークを介して第1のクライアントデバイスと通信的に連結され、サービスは、1つ又はそれよりも多くのパーソナルボイスアシスタントと対話するように構成される、認証するステップと、認証に基づいて、コンピューティングネットワークのうちの1つ又はそれよりも多くを介して、第1のクライアントデバイスに、話すことができる信用証明書を提供するステップであって、話すことができる信用証明書は、大声で話されることができ、提供するステップは、第1のクライアントデバイスに、第1のクライアントデバイスの1つ又はそれよりも多くの出力デバイスを使用する出力として、話すことができる信用証明書を提供させる、提供するステップと、第2のクライアントデバイスと関連付けられるパーソナルボイスアシスタントから直接的に又は間接的に、第2のクライアントデバイスで受信される言語入力に応答して生成されるデータを受信するステップであって、言語入力は、話すことができる信用証明書の発話に含められる、受信するステップと、データを前記話すことができる信用証明書に一致させるステップと、一致に基づいて、サービスを用いて、第2のクライアントデバイスと関連付けられる前記パーソナルボイスアシスタントを認証するステップとを含んでよい。ここで、「~と関連付けられる」という用語は、「~と通信する」又は「~と相互接続される」という意味を有することがある。換言すれば、パーソナルボイスアシスタントは、パーソナルボイスアシスタントと第2クライアントデバイスとの間の任意の種類のデータ交換又は任意の種類の通信フォーマットを可能にするように、或いはパーソナルボイスアシスタントと第2のクライアントデバイスとの間に拘束関係、例えば、マスタ及びスレーブ関係を形成するように、第2のクライアントデバイスと接続される或いは通信するように構成されることが示される。
【0008】
様々な実施形態において、提供するステップは、第2のクライアントデバイスと関連付けられるパーソナルボイスアシスタントによって第1のクライアントデバイスで話すことができる信用証明書に付随して出力されるべき指令を提供するステップを含んでよい。様々な実施形態において、提供するステップは、第1のクライアントデバイスに、話すことができる信用証明書をディスプレイ上に視覚的に出力させてよい。様々な実施形態において、提供するステップは、第1のクライアントデバイスに、スピーカを使用して話すことができる信用証明書を可聴的に出力させてよい。様々な実施形態において、提供するステップは、モバイルアプリケーションに、話すことができる信用証明書を出力として提供させてよい。
【0009】
様々な実施形態において、サービスは、1つ又はそれよりも多くのパーソナルボイスアシスタントにアクセス可能な音声作動可能なサービスのライブラリの一部であってよい。様々な実施形態において、話すことができる信用証明書は、一連の英数字記号であってよい。様々な実施形態において、話すことができる信用証明書は、1つ又はそれよりも多くの単語を含んでよい。本明細書で使用するとき、「パーソナルボイスアシスタント(personal voice assistant)」は、1以上のコンピューティングデバイス上で実行するソフトウェアの形態を取ってよい。それは発声される発話の形態においてユーザから自然言語入力を受信してよく、様々なシナリオにおいて、ユーザとの、人間とコンピュータとの間の対話に参加してよく、1以上のタスク(例えば、リマインダの設定、タイマの設定など)を開始してよく、且つ/或いは(ローカル又はクラウドベースであってよい)1以上のサービスと対話してよい。パーソナルボイスアシスタントは、例えば、他の構成要素によって「理解可能」であることがある注釈付き出力を生成するために、自然言語入力を処理する、1以上の自然言語プロセッサ(ローカル及び/又はクラウド)を含んでよい。幾つかの実施形態において、ユーザによって提供される自然言語入力は、例えば、自然言語プロセッサによって、テキストデータに変換されてよい。幾つかの実施形態において、パーソナルボイスアシスタントは、例えば、それがユーザによって操作されるクライアントコンピューティングデバイスの協調「エコシステム」の1以上のクライアントコンピューティングデバイス上で実行することによって、特定のユーザに「サービスを提供する(serve)」ことがある。幾つかの場合において、パーソナルボイスアシスタントは、特定のユーザの声を認識するように訓練されてよく、そのユーザにのみ応答してよく、且つ/或いはパーソナルボイスアシスタントが他の認識されていないユーザには与えない強化された特権をそのユーザに提供してよい。しかしながら、これは必要とされない。前述の着想及び以下により詳細に議論される追加的な着想の全ての組み合わせは、(そのような着想が相互に矛盾しない限り)、本明細書に開示する本発明の主題の一部であると想定されることが理解されるべきである。特に、この開示の末尾に現れる請求項の主題の全ての組み合わせは、本明細書に開示する発明的な主題の一部であることが想定される。参照として援用される任意の開示中に現れることもある本明細書に明示的に利用される用語は、本明細書に開示する特定の着想と最も整合する意味を与えられることも理解されるべきである。
【0010】
図面において、文献のように、同等の参照符号は、概して、異なる図を通じて同じ部品を指している。また、図面は必ずしも縮尺通りでなく、本明細書に記載する実施形態の様々な原理を例示する強調が代わりに置かれている。
【図面の簡単な説明】
【0011】
【
図1】開示の技術が実施されることがある例示的な環境、並びに様々な実施形態に従った帯域外チャネルを通じていわゆる「話すことができる信用証明書(speakable credential)」の生成及び配布を誘発するように実施されることがある例示的な動作を例示している。
【
図2A】様々な実施形態に従った、パーソナルボイスアシスタントをターゲットにされるサービスとリンクさせるために、話すことができる信用証明書がどのように使用されることがあるかの1つの非限定的な例を描いている。
【
図2B】様々な実施形態に従った、パーソナルボイスアシスタントをターゲットにされるサービスとリンクさせるために、話すことができる信用証明書がどのように使用されることがあるかの1つの非限定的な例を描いている。
【
図3】本開示の選択された態様を実施するための例示的な方法を描いている。
【
図4】例示的なコンピューティングシステムアーキテクチャを描いている。
【発明を実施するための形態】
【0012】
サービスをパーソナルボイスアシスタント(personal voice assistants)にリンクさせることは、特に技術的な専門知識を持たない一般ユーザにとって挑戦的であり得る。典型的には、ユーザは、パーソナルボイスアシスタントとサービスとの間のリンクを作成するために、パーソナルボイスアシスタントを用いて人間とコンピュータとの間の対話(human-to-computer dialog)に関与することができない。加えて、既存のリンク技術は、パーソナルボイスアシスタントをサービスにリンクさせるために、ユーザ識別可能な情報がパーソナルボイスアシスタントを通ることを必要とすることがある。更に、既存のリンク技術は、市場へのパーソナルボイスアシスタントベースのサービスの参入を遅らせることがあり、新規ユーザによる採用を妨げることある。従って、本開示の様々な実施形態及び実装は、例えば、パーソナルボイスアシスタント以外のチャネルを介して、帯域外チャネル内のエンドユーザに配信される、話すことができる信用証明書(speakable credential)を使用する、パーソナルボイスアシスタントの認証に向けられている。
【0013】
図1は、様々な実施形態に従った、開示の技術が実施されることがある例示的な環境を概略的に描いている。ユーザ100は、(必要ではないが)ある場合には、ユーザのプロファイルと関連付けられたクライアントコンピューティングデバイスの協調(coordinated)「エコシステム(ecosystem)」を集合的に形成することがある、複数のクライアントコンピューティングデバイスを作動させることがある。例えば、
図1において、ユーザ100は、スタンドアローンの対話型スピーカ102の形態の第1のクライアントコンピューティングデバイスと、スマートフォン104の形態の第2のクライアントコンピューティングデバイスとを作動させる。様々な実施形態において、本明細書で言及するクライアントコンピューティングデバイスは、
図4に描写するように、様々な標準的な計算構成要素(コンポーネント)を含んでよい。
【0014】
ユーザ100によって作動させられる1以上(1つ又はそれよりも多く)のクライアントコンピューティングデバイスは、パーソナルボイスアシスタント106の全ての又は選択された部分を実行することがある。例えば、
図1において、スタンドアローンの対話型スピーカ102は、パーソナルボイスアシスタントの第1のインスタンス106A(first instance)の全部又は一部を実行し、スマートフォン104は、パーソナルボイスアシスタントの第2のインスタンス106B(second instance)の全部又は一部を実行する。加えて、パーソナルボイスアシスタント106の全部又は(複数の)部分は、デバイス102及び104とは別個に、例えば、「クラウド」と一般的に呼ばれるものを形成する1以上のコンピューティングデバイス(例えば、サーバ)上で実行されることがある。幾つかの実施形態では、クライアントコンピューティングデバイスがオフラインであるときには、パーソナルデジタルアシスタント(personal digital assistant)(例えば、106A、106B)のローカルインスタンス(local instance)が、人間とコンピュータとの間の対話を処理することがある。クライアントコンピューティングデバイスがオンラインであるときには、クライアントコンピューティングデバイスから離れたパーソナルボイスアシスタント106の1以上の態様が、人間とコンピュータとの間の対話を処理することがある。本明細書においてパーソナルボイスアシスタント106を言及するとき、これは全体的にクライアントコンピューティングデバイス上で、部分的にクライアントコンピューティングデバイス上で、部分的にクラウド上で、及び/又は全体的にクラウド上で作動するパーソナルボイスアシスタントを指す場合があることが理解されるべきである。幾つかの場合には、ユーザが、パーソナルボイスアシスタントのローカルインスタンス(例えば、106A又は106B)に発声入力(spoken input)を提供するとき、パーソナルボイスアシスタントのローカルインスタンスは、例えば、
図1において106で示すクラウドベースのパーソナルボイスアシスタント「サービス」を「呼び出す(call)」ことがある。
【0015】
図1には、1以上の(「スキル(skills)」と呼ぶことがある)サービス110を含むサービスライブラリ108も描写されている。幾つかの実施形態において、サービスライブラリ108は、1以上のコンピューティングデバイス上で実行する1以上のアプリ112に潜在的に利用可能なサービスのオンラインレポジトリ(online repository)であってよい。サービス110のうちの少なくとも一部は、パーソナルボイスアシスタント106によってアクセス可能な音声作動可能なサービスであってよい。サービス110は、食品配達、オンラインショッピングアプリ、天気予報アプリ、スポーツアプリ、トリビアアプリ、ゲームなどの注文のような、様々な形態を取ることがある。幾つかの実施形態において、サービスライブラリ108は、ユーザ100が少なくとも幾つかの音声作動可能なサービスを含む1以上のサービス110へのアクセス(例えば、アプリのダウンロード、ライセンスの購入など)を閲覧、検索、及び取得することを可能にする、いわゆる「アプリストア」を介してアクセス可能であってよい。
【0016】
図1には、認証バックエンド114(authentication backend)と呼ばれるものも描写されている。認証バックエンド114は、ユーザ100のようなユーザを、例えば、ユーザによって提供される様々な信用証明書に基づいて、サービスライブラリ108で利用可能な1以上の音声作動可能なサービス110に対して認証するように構成されてよい。
図1の構成要素は別々に描写されているが、これは限定的であることを意味しない。様々な実施形態では、パーソナルボイスアシスタント106、サービスライブラリ108、及び/又は認証バックエンド114のような構成要素は、それぞれ、別個のコンピューティングシステム上で作動してよく、1以上の共有コンピューティングシステム上で作動してよく、任意の数のコンピューティングシステムに亘って分散される等であってよい。例えば、幾つかの実施形態において、サービスライブラリ108及び認証バックエンド114は統合されて、同じコンピューティングシステム上に実装されてよい。
【0017】
図1は、ユーザ100にサービスを提供するパーソナルボイスアシスタント106を1以上の音声作動可能なサービス110にリンクさせるために使用されることがある、話すことができる信用証明書を生成するために起こることがある、帯域外データ交換も描いている。118で、ユーザは、クライアントコンピューティングデバイス104上で作動するアプリ112のグラフィカルユーザインタフェース(「GUI」)(例えば、ウェブブラウザ、アプリストアブラウザなど)を操作して、サービスライブラリ108のターゲットとされるサービス110でユーザ100を認証してよい。ターゲットとされるサービスは、本明細書に記載する技術を用いてリンクがひとたび確立された後にパーソナルボイスアシスタント106を呼び出すことによってターゲットとされるサービス110にアクセスすることが可能な場合があるという点で、音声作動可能であってもよい。ターゲットとされるサービス110で認証されるために、ユーザ100は、ユーザ名及び/又はパスワード、1以上のセキュリティトークン又は証明書、生体測定(バイオメトリック)データ(例えば、網膜スキャン、指紋スキャン、音声認識など)のような、信用証明書を提供してよい。ユーザ100は、ユーザ100にサービスを提供するパーソナルボイスアシスタント106とサービスライブラリ108のターゲットとされる音声作動可能なサービス110との間の関係(又は「リンク」)を作成する要求を(118で)提供してもよい。120で、この信用証明書は、サービスライブラリ108に提供されてよい。122で、サービスライブラリ108は、例えば、1以上のコンピューティングネットワーク(図示せず)を介して、認証バックエンド114に信用証明書を提供してよい。
【0018】
124で、認証バックエンド114は、ユーザの信用証明書に基づいてユーザ100を認証してよい。例えば、ユーザは、ターゲットとされるサービス110と共にプロファイル又は「アカウント」を前もって作成してよく、それは、ユーザ名/パスワード、生体測定ログイン信用証明書などのような、ユーザが構築する信用証明書を含んでよい。これらの前もって作成された信用証明書は、従来的な認証技術を使用して認証されてよい。また、124で、認証バックエンド114は、話すことができる信用証明書を生成してよく、それは、上述のように、大声で発声されることができる任意の単語、句、1以上の英数字、記号などのシーケンスであってよい。幾つかの実施形態において、認証バックエンド114は、視覚的又は可聴的以外に容易に知覚できない形態における話すことができる信用証明書を生成してよい。例えば、幾つかの実施形態において、話すことができる信用証明書は、実際の人間のユーザから自動化されたボット(bots)をスクリーニングするために完全に自動化された公開チューリングテスト(CAPTCHA)において使用される画像と同様に、コンピュータ可読文字(例えば、ASCIIテキスト)とは対照的に、話すことができる信用証明書を視覚的に描写する、ビットマップ又は他の種類のデジタル画像に符号化されてよい。他の実施形態において、話すことができる信用証明書は、オーディオファイル又は(複数の)データパケットに符号化されてよい。このようにして、話すことのできる信用証明書は、人間以外の実在(例えば、ソフトウェアボット)による傍受及び/又はスヌーピングを受ける傾向が幾分少ないことがある。
【0019】
126で、認証バックエンド114は、例えば、1つ以上のコンピューティングネットワーク(図示せず)を通じて、(例えば、プレーンテキストとしての、暗号化された、ビジュアル又はオーディオファイルに符号化された、その他の)話すことができる信用証明書を、サービスライブラリ108に提供(例えば、送信)してよい。127で、サービスライブラリ108は、ターゲットとされるサービス110とパーソナルボイスアシスタント106との間に未決定の対称関係のペアリングを作り出してよい。128で、サービスライブラリ108は、例えば、1以上のコンピューティングネットワーク(図示せず)を通じて、話すことができる信用証明書をクライアントデバイス104に提供(例えば、送信)してよい。130で、次に、クライアントデバイス104は、ディスプレイ、スピーカ等のようなクライアントデバイス104の1以上の出力デバイスを使用する出力として、話すことができる信用証明書を提供してよい。例えば、幾つかの実施形態において、ターゲットとされるサービス110にアクセスするためにユーザ100によって使用されたアプリ112は、パーソナルボイスアシスタント106をターゲットとされるサービス110にリンクするための指令をユーザに表示してよい。これらの指令は、上述のプレーンテキスト又は符号化された画像のような、話すことができる句の表現(rendition)を含んでよい。追加的に又は代替的に、アプリ112は、クライアントデバイス104に、1以上のスピーカ(図示せず)を介して、話すことができる句の表現を可聴的に出力させてよい。
【0020】
図2A及び
図2Bは、ユーザ100が、パーソナルボイスアシスタント106をターゲットとされるサービス110にリンクするために、パーソナルボイスアシスタント106を用いた人間とコンピュータとの間の対話において130で出力として提供される話すことができる信用証明書を、どのように使用することがあるかの1つの非限定的な例を描いている。
図2Aの240で、ユーザ100は、例えば「おい、パーソナルアシスタント、[タスク]を実行せよ」のような引き金になる句を発声することによって、スタンドアローンの対話型スピーカ102(又はスマートフォン104のような別のデバイス)上で作動するパーソナルボイスアシスタント106Aを呼び出して(invoke)、ターゲットとされる音声作動可能なサービス110にアクセスしてよい。矢印242によって示すように、幾つかのシナリオでは、特にスタンドアローンの対話型スピーカ102が現在オンラインであるならば、この呼出し(又はテキストデータのようなそれを示す処理されたデータ)は、パーソナルボイスアシスタント106のクラウドベースの態様に回されてよい。
【0021】
244で、パーソナルボイスアシスタント106は、サービスライブラリ108でターゲットとされる音声作動可能なサービス110を呼び出してよい。246で、サービスライブラリ108は、127で作成された未決定の非対称関係に基づいて、話すことができる信用証明書のためのプロンプトを含む質問で応答してよい。例えば、話すことができる信用証明書が、n桁の数字コードであるならば、246で返される質問は、例えば、「あなたのn桁の数字コードを提供してください」であってよい。サービスライブラリ108が現時点で話すことができる信用証明書の知識を有する必要はない。サービスライブラリ108は、話すことができる信用証明書を要請する適切な質問を尋ねることができるだけでよい。248で、この質問は、パーソナルボイスアシスタント106によって、スタンドアローンの対話型スピーカ102上で作動するパーソナルボイスアシスタント106Aのインスタンスに中継されてよい。次に、パーソナルボイスアシスタント106Aのインスタンスは、250で、スタンドアローンの対話型スピーカ102に、質問を可聴的に出力させてよい。
【0022】
次に、
図2Bを参照すると、252で、ユーザは、話すことができる信用証明書をスタンドアローンの対話型スピーカ102に大声で発声する。254で、パーソナルボイスアシスタント106Aのローカルインスタンスは、発声された発話をクラウドベースのパーソナルボイスアシスタント106に中継し、次に、パーソナルボイスアシスタント106は、256で、発声された信用証明書でターゲットとされるサービスを呼び出すことを試みる。この時点で、パーソナルボイスアシスタント106は、(例えば、自然言語プロセッサによって)ユーザ100から発声された発話をテキストコンテンツに変換してよい。サービスライブラリ108が、258で、呼出しの正当性をチェックした後に、サービスライブラリ108は、(上記のように今やテキスト形態にあることがある)発話された信用証明書(uttered credential)を認証バックエンド114に中継してよい。260で、認証バックエンド114は、発話された信用証明書を、
図1の124で前もって生成された話すことができる信用証明書とを一致させる。262で、一致があると仮定すると、認証バックエンド114は、サービスライブラリ108に成功の何らかの表示を返す。
【0023】
264で、サービスライブラリ108は、ユーザ100にサービスを提供するパーソナルボイスアシスタント106とターゲットとされる音声作動可能なサービス110との間の認証された対称関係を確認及び/又は確立してよい。以後、この確立された関係は、ユーザ100が信用証明書を提供することを必要とせずに、ユーザ100がパーソナルボイスアシスタント106を呼び出してターゲットとされるサービス110にアクセスするときにはいつでも、参照されてよい。266で、サービスライブラリ108は、パーソナルボイスアシスタント106に成功の何らかの表示を戻してよく、次に、パーソナルボイスアシスタント106は、268で、スタンドアローンの対話型スピーカ102上で作動するパーソナルボイスアシスタント106Aのインスタンスにその成功の表示を中継する。270で、スタンドアローンの対話型スピーカ102は、「ターゲットとされるサービスに対する関係が成功裏に確立された」のような成功の何らかの表示を可聴的に出力してよい。この時点以降、ユーザ100がパーソナルボイスアシスタント106を呼び出してターゲットとされるスキルにアクセスするならば、サービスライブラリ108及び/又は認証バックエンド114は、ターゲットとされるスキルがパーソナルボイスアシスタント106の要求で呼び出されるべきであることを「知っている」。
【0024】
図3は、様々な実施形態に従った、本開示の選択される態様を実施するための例示的な方法300を描いている。便宜上、フローチャートの動作は、動作を遂行するシステムを参照して記載されている。このシステムは、パーソナルボイスアシスタント106、サービスライブラリ108、及び/又は認証バックエンド114を含む、様々なコンピュータシステムの様々な構成要素を含んでよい。その上、方法300の動作は、特定の順序で示されているが、これは、限定的であることを意味しない。1以上の動作は、順序変更されてよく、省略されてよく、或いは追加されてよい。
【0025】
ブロック302で、システムは、1以上のサーバ上で実行するサービスで、第1のクライアントデバイス上で実行するモバイルアプリケーションのユーザを認証してよい。様々な実施形態において、1以上のサーバは、1以上のコンピューティングネットワークを介して第1のクライアントデバイスと通信的に連結されてよく、サービスは、1以上のパーソナルボイスアシスタントと対話する(即ち、「音声作動可能である」)ように構成されてよい。ブロック304で、認証に基づいて、システムは、コンピューティングネットワークのうちの1以上を介して、第1のクライアントデバイスに、話すことができる信用証明書を提供してよい。様々な実施形態において、話すことができる信用証明書は、大声で話されることができる。様々な実施形態において、ブロック304の提供することは、第1のクライアントデバイスに、第1のクライアントデバイスの1以上の出力デバイスを使用する出力として、話すことができる信用証明書を提供させてよい。
【0026】
ブロック306で、システムは、第2のクライアントデバイスと関連付けられるパーソナルボイスアシスタントから、第2のクライアントデバイスで受信される言語入力(speech input)に応答して生成されるデータを、直接的に又は間接的に受信してよい。様々な実施形態において、言語入力は、話すことができる信用証明書の発話を含んでよい。様々な実施形態において、システムは、システム内の送信器又は他の構成要素から或いは他のシステム又は装置からデータを受信するように構成される、受信ユニットを含んでよい。様々な実施形態において、データは、話すことができるデータ(speakable data)であってよい。ブロック308で、システムは、データを話すことができる信用証明書に一致(マッチング)させてよい。例えば、幾つかの実施形態では、パーソナルボイスアシスタントの一部を形成する自然言語プロセッサが、発声入力(spoken input)を1以上のテキストトークン(textual token)に変換してよく、1以上のテキストトークンを、前もって生成された話すことができる信用証明書を形成するテキストトークンと比較してよい。
【0027】
ブロック310で、システムは、マッチングに基づいてサービスを用いて第2のクライアントデバイスと関連付けられるパーソナルボイスアシスタントを認証してよい。この認証は、システムが、パーソナルボイスアシスタントとターゲットとされるサービスとの間で上述した対称関係又はペアリングを確立することを可能にする。その関係/ペアリングがひとたび確立されると、パーソナルボイスアシスタントは、然る後、ユーザからの話すことができる資格証明の要求を必要とせずに、ターゲットとされるサービスにアクセスすることがある。
【0028】
図4は、例示的なコンピュータシステム410のブロック図である。コンピュータシステム410は、典型的には、バスサブシステム412を介して多数の周辺デバイスと通信する少なくとも1つのプロセッサ414を含む。これらの周辺デバイスは、例えば、メモリサブシステム425及びファイル格納サブシステム426、ユーザインタフェース出力デバイス420、ユーザインタフェース入力デバイス422、及びネットワークインタフェースサブシステム416を含む、格納サブシステム424を含んでよい。入力デバイス及び出力デバイスは、コンピュータシステム410とのユーザ対話を可能にする。ネットワークインタフェースサブシステム416は、外部ネットワークへのインタフェースを提供し、他のコンピュータシステム内の対応するインタフェースデバイスに連結される。
【0029】
ユーザインタフェース入力デバイス422は、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットのようなポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム、マイクロフォン、及び/又は他の種類の入力デバイスのような音声入力デバイスを含んでよい。一般的に、用語「入力デバイス」という用語の使用は、コンピュータシステム410又は通信ネットワークに情報を入力するための全ての可能な種類のデバイス及び方法を含むことを意図している。
【0030】
ユーザインタフェース出力デバイス420は、ディスプレイサブシステム、プリンタ、ファックスマシン、又はオーディオ出力デバイスのような非視覚的ディスプレイを含んでよい。ディスプレイサブシステムは、陰極線管(CRT)、液晶ディスプレイ(LCD)のようなフラットパネルデバイス、投影デバイス、又は可視画像を生成するための何らかの他の機構を含んでよい。ディスプレイサブシステムは、例えば、オーディオ出力デバイスを介して、非可視表示を提供してもよい。一般的に、「出力デバイス」という用語の使用は、コンピュータシステム410からユーザ又は他のマシン又はコンピュータシステムに情報を出力するための全ての可能な種類のデバイス及び方法を含むことを意図している。
【0031】
格納サブシステム424(storage subsystem)は、本明細書に記載するモジュールの一部又は全部の機能性を提供するプログラミング及びデータ構築物を格納する。例えば、格納サブシステム424は、方法300の選択された態様を実行するため、及び/又はパーソナルボイスアシスタント106、サービスライブラリ108、及び/又は認証バックエンド114の1以上の態様を実装するためのロジック(論理)を含んでよい。格納サブシステム424で使用されるメモリ425は、プログラム実行中に指令及びデータを格納するための主要ランダムアクセス記憶装置430(RAM)と、固定された指令を格納する読出し専用記憶装置432(ROM)とを含む、多数のメモリを含むことができる。ファイル格納サブシステム426(file storage subsystem)は、プログラムファイル及びデータファイルのための持続的記憶装置を提供することができ、ハードディスクドライブ、CD-ROMドライブ、光学式ドライブ、又は取外し可能なメディアカートリッジを含むことがある。特定の実装の機能性を実装するモジュールは、格納サブシステム424又は(複数の)プロセッサ414によってアクセス可能な他のマシン内のファイル格納サブシステム426によって格納されてよい。
【0032】
バスサブシステム412は、コンピュータシステム410のサブシステム及び様々な構成要素を意図されるように互いに通信させる機構を提供する。バスサブシステム412は、単一のバスとして概略的に示されているが、バスサブシステムの代替的な実装は、複数のバスを使用してよい。
【0033】
幾つかの発明的な実施形態をここに記載し且つ例示したが、当業者は、機能を実施し且つ/或いは結果及び/又は本明細書に記載する利点の1以上を得る様々な他の手段及び/又は構造を容易に想定するであろう。そのような変形及び/又は修正の各々は、本明細書に記載する発明的な実施形態の範囲内にあるとみなされる。より一般的には、当業者は、本明細書に記載する全てのパラメータ、寸法、材料、及び構成が、例示的であることを意図し、実際のパラメータ、寸法、材料、及び/又は構成が、発明的な教示を使用する具体的な用途又は複数の用途に依存することを容易に理解するであろう。当業者は、日常的な実験を超えないものを用いて、本明細書に記載する特定の発明的な実施形態に対する多くの均等物を認識し或いは確認することができるであろう。従って、前述の実施形態は、一例として提示されているに過ぎず、添付の請求項及びそれらの同等物の範囲内で、発明的な実施形態は、具体的に記載し且つ特許請求するものとは異なって実施される場合があることが理解されるべきである。本開示の発明的な実施形態は、本明細書中に記載する各個々の構成、システム、物品、材料、キット及び/又は方法に向けられている。加えて、そのような構成、システム、物品、材料、キット、及び/又は方法のうちの2以上(2つ又はそれよりも多く)の如何なる組み合せも、そのような構成、システム、物品、材料、キット、及び/又は方法が相互に矛盾しないならば、本開示の発明的範囲内に含められる。
【0034】
本明細書中で定義され且つ使用される全ての定義は、辞書的な定義、引用によって援用される文献中の定義、及び/又は定義された用語の通常の意味を支配すると理解されるべきである。
【0035】
本明細書及び請求項において使用するとき、明らかに反対のことが示されていない限り、単数形の表現は、「少なくとも1つ」を意味すると理解されるべきである。
【0036】
本明細書及び請求項において使用するとき、「及び/又は」という句は、そのように連結される要素、即ち、ある場合には結合的に存在し、他の場合には結合的に存在しない要素の一方又は両方を意味すると理解されるべきである。「及び/又は」と共に列挙される多数の要素は、同じように解釈されるべきである、即ち、そのように結合される要素の「1以上」と解釈されるべきである。具体的に特定されるそれらの要素に関連しようが関連しまいが、「及び/又は」節によって具体的に特定される要素以外の他の要素が任意的に存在してよい。よって、非限定的な例として、「含む」のような開放端言語と共に使用されるとき、「A及び/又はB」への言及は、1つの実施形態では、(任意的にB以外の要素を含む)Aのみを意味することができ、別の実施形態では、(任意的にA以外の要素を含む)Bのみ意味することができ、更に別の実施形態では(任意的に他の要素を含む)A及びBの両方を意味することができるなどである。
【0037】
本明細書及び請求項において使用するとき、「又は」は、上記で定義した「及び/又は」と同じ意味を有すると理解されるべきである。例えば、リスト中の品目を分離するとき、「又は」又は「及び/又は」は、包括的である、即ち、多数の又はリストの要素のうちの少なくとも1つの要素を含むが、1つよりも多くの要素、そして、任意的に、追加的な列挙されていない要素を含むものと解釈されるべきである。「~のうちの1つのみ」又は「~のうちの正確に1つ」のような或いは請求項において使用されるときの「~からなる」のような、明らかに反対のことが示される用語のみが、多数の又はリストの要素のうちの正確に1つの要素を含むことを意味する。一般的に、本明細書において使用するとき、「又は」という用語は、「いずれかの」、「~のうちの1つ」、「~のうちの1つだけ」、又は「~のうちの正確に1つ」のような、排他性の用語が先行するときにのみ、排他的な代替(即ち、「一方又は他方であるが、両方でない」を示すとだけ解釈される。請求項において使用するとき、「本質的に~からなる」は、特許法の分野において使用するときのその通常の意味を有する。
【0038】
本明細書及び請求項において使用するとき、1以上の要素のリストを参照する「少なくとも1つ」という句は、要素のリスト中の要素の任意の1以上から選択される少なくとも1つを意味するが、要素のリスト中に具体的に列挙されるありとあらゆる要素のうちの少なくとも1つの要素を必ずしも含まず、要素のリスト中の要素の任意の組み合わせを排除しないと理解されるべきである。この定義は、具体的に特定される要素に関連するか関連しようが関連しまいが、「少なくとも1つ」という句において言及される要素のリスト中で具体的に特定される要素以外の要素が任意的に存在する場合があることを許容する。よって、非限定的な例として、「A及びBの内少なくとも1つ」(又は均等に「A又はBの少なくとも1つ」或いは均等に「A及び/又はBの少なくとも1つ」)は、1つの実施形態において、任意的に1つよりも多くのAを含む1よりも多くのAを意味し、(任意的にB以外の要素を含む)Bが存在せず、別の実施形態において、任意的に1つよりも多くのBを含む1よりも多くのBを意味し、(任意的にA以外の要素を含む)Aが存在せず、更に別の実施形態において、(任意的に1よりも多くのAを含む)少なくとも1つのA及び(任意的に1よりも多くのBを含む)少なくとも1つのBなどを意味することができる。
【0039】
明らかに反対のことが示されていない限り、1よりも多くのステップ又は行為を含む本明細書中において特許請求する任意の方法において、方法のステップ又は行為の順序は、その方法のステップ又は行為が列挙される順序に必ずしも限定されないことも理解されるべきである。
【0040】
請求項において並びに上記明細書において「含む(comprising)」、「含む(including)」、「有する(carrying)」、「有する(having)」、「含有する(containing)」、「含む(involving)」、「保持する(holding)」、「~で構成される(composed of)」等のような、全ての移行句は、開放端である、即ち、~を含むが、~に限定されないことを意味するものと理解されるべきである。「~からなる(consisting of)」及び「本質的に~からなる(consisting essentially of)」のような移行句のみが、それぞれ、米国特許庁審査手続マニュアル第2111.03条に記載されるような、閉塞移行句又は半閉塞移行句である。特許協力条約(「PCT」)の規則6.2(b)に従って請求項において使用される特定の表現及び参照符号はその範囲を限定しないことが理解されるべきである。