特許第6980903号(P6980903)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アマゾン・テクノロジーズ・インコーポレーテッドの特許一覧

特許6980903音声取り込みデバイス用の音声起動式の選択的なメモリ
<>
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000002
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000003
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000004
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000005
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000006
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000007
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000008
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000009
  • 特許6980903-音声取り込みデバイス用の音声起動式の選択的なメモリ 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6980903
(24)【登録日】2021年11月19日
(45)【発行日】2021年12月15日
(54)【発明の名称】音声取り込みデバイス用の音声起動式の選択的なメモリ
(51)【国際特許分類】
   G10L 15/22 20060101AFI20211202BHJP
   G10L 15/30 20130101ALI20211202BHJP
   G06F 3/16 20060101ALI20211202BHJP
【FI】
   G10L15/22 300Z
   G10L15/30
   G06F3/16 630
   G06F3/16 650
   G06F3/16 690
【請求項の数】14
【全頁数】26
(21)【出願番号】特願2020-512574(P2020-512574)
(86)(22)【出願日】2018年9月5日
(65)【公表番号】特表2020-533628(P2020-533628A)
(43)【公表日】2020年11月19日
(86)【国際出願番号】US2018049525
(87)【国際公開番号】WO2019050932
(87)【国際公開日】20190314
【審査請求日】2020年2月28日
(31)【優先権主張番号】15/697,345
(32)【優先日】2017年9月6日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】507303550
【氏名又は名称】アマゾン・テクノロジーズ・インコーポレーテッド
(74)【代理人】
【識別番号】100098394
【弁理士】
【氏名又は名称】山川 茂樹
(74)【代理人】
【識別番号】100064621
【弁理士】
【氏名又は名称】山川 政樹
(72)【発明者】
【氏名】ルブラン,ジョナサン・アラン
(72)【発明者】
【氏名】クルーズ,ケヴィン
(72)【発明者】
【氏名】チョウ,チー
(72)【発明者】
【氏名】チョン,ゲイリー
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2015−169768(JP,A)
【文献】 特表2012−501481(JP,A)
【文献】 特開2014−202857(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/22
G10L 15/30
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
システムであって、
サービスプロバイダ環境で1つ以上のサービスを実装する1つ以上のコンピューティングデバイスと、
1つ以上の音声取り込みデバイスであって、ネットワークを介して前記1つ以上のサービスに通信可能に結合されている、1つ以上の音声取り込みデバイスと、を備え、
前記1つ以上のサービスは、前記1つ以上のコンピューティングデバイスによって、
前記ネットワークを介して前記1つ以上の音声取り込みデバイスから第1の音声入力を受信することであって、前記第1の音声入力が、前記1つ以上の音声取り込みデバイスのユーザからの1つ以上の発話を含む、受信すること、
前記第1の音声入力の表現を前記サービスプロバイダ環境に記憶することであって、前記第1の音声入力の前記表現が、タグに関連付けられている、記憶すること、
前記1つ以上の音声取り込みデバイスから前記ネットワークを介して第2の音声入力を受信すること、
前記第2の音声入力の分析を使用して、前記第2の音声入力が前記第1の音声入力を無視するコマンドを表現することを決定すること、および
前記第2の音声入力の前記分析に基づいて、前記第1の音声入力の前記表現を削除することであって、前記第1の音声入力の前記表現が、前記タグの内容に基づく1つ以上のルールの適用によって削除される、削除すること、を行うように実行可能である、システム。
【請求項2】
前記1つ以上のサービスは、前記1つ以上のコンピューティングデバイスによって、
前記第1の音声入力の分析に基づいて、1つ以上のアクションを呼び出すことであって、前記1つ以上のアクションが、前記サービスプロバイダ環境の前記1つ以上のサービスによって実施される、呼び出すこと、および
前記第2の音声入力の前記分析に基づいて、前記1つ以上のアクションの1つ以上の効果を回復することを行うように、さらに実行可能である、請求項1に記載のシステム。
【請求項3】
前記1つ以上のサービスは、前記1つ以上のコンピューティングデバイスによって、
前記第1の音声入力の分析に基づいて、1つ以上のアクションを呼び出すことであって、前記1つ以上のアクションが、前記サービスプロバイダ環境の外部にある1つ以上のシステムによって実施される、呼び出すこと、および
前記第2の音声入力の前記分析に基づいて、前記サービスプロバイダ環境の外部にある前記1つ以上のシステムに、前記1つ以上のアクションを取り消すコマンドを送信することを行わせるように、さらに実行可能である、請求項1に記載のシステム。
【請求項4】
コンピュータ実装される方法であって、
1つ以上のサービスを含むサービスプロバイダ環境において、音声取り込みデバイスからネットワークを介して1つ以上の第1の音声入力を受信することであって、前記第1の音声入力が、前記1つ以上の音声取り込みデバイスのユーザからの1つ以上の発話を含む、受信することと、
前記第1の音声入力の表現を記憶することと、
前記サービスプロバイダ環境において前記ネットワークを介して、前記1つ以上の音声取り込みデバイスから第2の音声入力を受信することであって、前記第2の音声入力が、前記第1の音声入力を無視するコマンドを表現する、受信することと、
前記第2の音声入力に基づいて、前記第1の音声入力の前記表現を削除することであって、前記第1の音声入力の前記表現が、前記サービスプロバイダ環境のタグに関連付けられ、前記第1の音声入力の前記表現が、前記タグの内容に基づく1つ以上のルールの適用によって削除される、前記削除することと、を含む、コンピュータ実装される方法。
【請求項5】
前記第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、前記1つ以上のアクションが、前記サービスプロバイダ環境の前記1つ以上のサービスによって実施される、呼び出すことと、
前記第2の音声入力に基づいて、前記1つ以上のアクションの1つ以上の効果を回復することと、をさらに含む、請求項4に記載の方法。
【請求項6】
前記第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、前記1つ以上のアクションが、前記サービスプロバイダ環境の1つ以上の音声対応スキルによって実施される、呼び出すことと、
前記第2の音声入力に基づいて、1つ以上の音声対応スキルに、前記1つ以上のアクションを取り消すコマンドを送信することと、をさらに含む、請求項4に記載の方法。
【請求項7】
前記第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、前記1つ以上のアクションが、前記サービスプロバイダ環境の外部にある1つ以上のシステムによって実施される、呼び出すことと、
前記第2の音声入力に基づいて、前記サービスプロバイダ環境の外部にある前記1つ以上のシステムに、前記1つ以上のアクションを取り消すコマンドを送信することと、をさらに含む、請求項4に記載の方法。
【請求項8】
前記第1の音声入力の前の複数の発話の表現が記憶され、前記第2の音声入力が、前記第1の音声入力の前の前記複数の発話を無視するコマンドを表現し、前記方法が、
前記第2の音声入力に基づいて、前記第1の音声入力の前の前記複数の発話の前記表現を削除することをさらに含む、請求項4に記載の方法。
【請求項9】
前記第1の音声入力の前記表現が、オーディオデータを含む、請求項4に記載の方法。
【請求項10】
前記第1の音声入力の前記表現が、トランスクリプションを含む、請求項4に記載の方法。
【請求項11】
前記第1の音声入力の追加の表現が記憶され、前記第1の音声入力の前記追加の表現が、前記タグに関連付けられ、前記第1の音声入力の前記追加の表現が、前記タグの前記内容に基づく前記1つ以上のルールの適用によって削除される、請求項に記載の方法。
【請求項12】
コンピュータ可読記憶媒体であって、
1つ以上のサービスを含むサービスプロバイダ環境において、音声取り込みデバイスからネットワークを介して第1の音声入力を受信することであって、前記第1の音声入力が、前記音声取り込みデバイスのユーザからの1つ以上の発話を含む、受信すること、
前記第1の音声入力の表現を前記サービスプロバイダ環境に記憶すること、
前記サービスプロバイダ環境において前記ネットワークを介して、前記音声取り込みデバイスから第2の音声入力を受信することであって、前記第2の音声入力が、前記第1の音声入力を無視するコマンドを表現する、受信すること、
前記第2の音声入力の分析を使用して、前記第2の音声入力が前記第1の音声入力を無視するコマンドを表現することを決定すること
前記第2の音声入力の前記分析に基づいて、前記第1の音声入力の表現を削除することであって、前記第1の音声入力の前記表現が、前記サービスプロバイダ環境のタグに関連付けられ、前記第1の音声入力の前記表現が、前記タグの内容に基づく1つ以上のルールの適用によって削除される、前記削除すること、
を実施するようにコンピュータ実行可能なプログラム命令を記憶する、コンピュータ可読記憶媒体。
【請求項13】
前記プログラム命令は、
前記第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、前記1つ以上のアクションが、前記サービスプロバイダ環境の前記1つ以上のサービスによって実施される、呼び出すこと、および
前記第2の音声入力の前記分析に基づいて、前記1つ以上のアクションの1つ以上の効果を回復することを実施するように、さらにコンピュータ実行可能である、請求項12に記載のコンピュータ可読記憶媒体。
【請求項14】
前記プログラム命令は、
前記第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、前記1つ以上のアクションが、前記サービスプロバイダ環境の外部にある1つ以上のシステムによって実施される、呼び出すこと、および
前記第2の音声入力の前記分析に基づいて、前記サービスプロバイダ環境の外部にある前記1つ以上のシステムに、前記1つ以上のアクションを取り消すコマンドを送信することを実施するように、さらにコンピュータ実行可能である、請求項12に記載のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
多くの企業および他の組織は、(例えば、ローカルネットワークの一部として)同じ場所に配置されているか、または代わりに(例えば、1つ以上のプライベートまたは公衆の中間ネットワークを介して接続された)複数の異なる地理的位置に配置されたコンピューティングシステムなど、多数のコンピューティングシステムを相互接続するコンピュータネットワークを操作してコンピュータネットワークの動作をサポートする。例えば、相互接続された多数のコンピューティングシステムを収容する分散システムが一般的になっている。このような分散システムは、クライアントと対話するサーバにバックエンドサービスを提供することができる。このような分散システムはまた、コンピューティングリソースを顧客に提供する団体によって運営されるデータセンタも含み得る。パブリックデータセンタ運営者の中には、様々な顧客が所有するハードウェアにネットワークアクセス、電力、および安全な設置設備を提供するものもあれば、顧客が利用できるようにされたハードウェアリソースも含む「フルサービス」設備を提供するものもある。分散システムの規模と範囲が拡大するにつれて、リソースのプロビジョニング、運営、管理のタスクはますます複雑になっている。
【0002】
分散システムは、リモートクライアントに、主に分散システム内で実装され、インターネットなどのネットワークを介してアクセス可能な様々なサービスへのアクセスを提供することができる。このようなサービスは「クラウドに」あると言える。例えば、デスクトップコンピューティングデバイス、スマートフォンおよびタブレットなどのモバイルデバイス、音声取り込みデバイス、ホームオートメーションデバイス、および「モノのインターネット(IoT)」の一部である様々な他の種類のネットワーク対応デバイスを含む、クラウドベースのサービスにアクセスできるデバイスの種類は、引き続き拡大および多様化している。クラウドベースのサービスにアクセスすることによって、多様な分野のデバイスは、デバイス上でローカルに利用できない追加の機能またはコンピューティングパワーにアクセスすることができる。
【図面の簡単な説明】
【0003】
図1A】一実施形態による、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の一例を示す。
図1B】一実施形態による、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の一例を示す。
図2A】一実施形態による、音声入力の表現を削除するタグに基づくルールの適用を含む、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の例のさらなる態様を示す。
図2B】一実施形態による、音声入力の表現を削除するタグに基づくルールの適用を含む、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の例のさらなる態様を示す。
図3】一実施形態による、サービスプロバイダ環境のスキルへの取り消し要求の送信を含む、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の例のさらなる態様を示す。
図4】一実施形態による、サービスプロバイダ環境の外側にある構成要素への取り消し要求の送信を含む、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の例のさらなる態様を示す。
図5】一実施形態による、音声取り込みデバイス用の音声起動式の選択的なメモリを実装する方法を示す流れ図である。
図6】一実施形態による、プライベートモードでの音声入力の表現の削除を含む、音声取り込みデバイス用の音声起動式の選択的なメモリを実装する方法のさらなる態様を示す流れ図である。
図7】いくつかの実施形態で使用され得るコンピューティングデバイスの一例を示す。
【0004】
実施形態は、いくつかの実施形態および例示的な図面の例として本明細書に記載されているが、当業者は、記載された実施形態または図面に限定されないことを認識するであろう。しかし、図面およびその詳細な説明は、本発明を開示された特定の形態に限定することを意図するものではなく、むしろ、その意図は、添付の特許請求の範囲によって定義される主旨および範囲に該当する全ての変更、均等物、および代替物を包含することが理解されるべきである。本明細書で使用される見出しは、編成目的のみのためであり、そして説明または請求項の範囲を限定するために使用されることを意味しない。本出願を通して使用されるように、「可能性がある(may)」という語は、必須の意味(すなわち、必然的な意味)ではなく、寛容な意味(すなわち、可能性を有するという意味)で使用される。同様に、「含む(include)」、「含む(including)」、および「含む(includes)」という語は、含むがそれに限定されないことを意味する。
【発明を実施するための形態】
【0005】
音声取り込みデバイス用の音声起動式の選択的なメモリのための方法、システム、およびコンピュータ可読媒体の様々な実施形態が記載されている。本明細書に記載される技法を使用して、音声取り込みデバイスからの音声入力の表現が削除されることがあり、入力の効果は他の音声入力に基づいて潜在的に取り消される可能性がある。適切な音声取り込みデバイスとしては、スマートスピーカ、パーソナル電子デバイス(例えば、スマートフォン、タブレットコンピュータ)、パーソナルコンピュータ、および他のホームオートメーションおよび/または「モノのインターネット」デバイスが挙げられる。デバイスは、デバイスからストリーミングされる音声入力を分析し、これに応答する1つ以上のネットワークアクセス可能な音声ベースのサービスなどの、クラウドベースのサービスプロバイダ環境によって提供される1つ以上のサービスにアクセスするように構成可能であり得る。「スキル」と呼ばれるサービスプロバイダ環境の1つ以上のサービスは、音声入力の分析に基づいて呼び出され得る。ユーザからの音声入力の表現は、例えば、オーディオデータおよび/またはトランスクリプションデータとして、サービスプロバイダ環境および潜在的に外部システムに記憶され得る。ユーザは、追加の音声入力を介して、他の音声入力を無視するか、忘れるか、削除するか、または取り消すように、サービスプロバイダ環境に依頼することができる。追加の音声入力に基づいて、サービスプロバイダ環境は、ユーザが指示した任意の音声入力の表現を削除し得る。例えば、ユーザが「(ウェイクワードを発した後)忘れてください」などの語句を話す場合、サービスプロバイダ環境は、最新の発話に関連付けられているデータを削除し得る。加えて、いくつかの実施形態では、サービスプロバイダ環境は、現在削除された音声入力に基づいて呼び出された任意のスキルまたは他のサービスの効果を取り消すかまたは回復することを試み得る。例えば、ユーザがレストランの外部システムと対話するスキルを通じて食べ物を注文するために音声入力を供給した場合、サービスプロバイダ環境は、取り消すコマンドを外部システムに送信することによって、その注文を取り消すことを試み得る。サービスプロバイダ環境全体の音声入力の表現に識別情報をタグ付けしてもよく、タグにルールを適用することによって表現を削除し得る。一実施形態では、音声入力の表現は、例えば、音声入力を介してユーザによって要求されるように、プライベートセッション中に自動的に削除され得る。音声起動式の選択的なメモリのためのこれらの手法を使用して、ユーザは、クラウドへの自身の情報の記憶を簡単に制御することができる。
【0006】
図1Aおよび図1Bは、一実施形態による、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の一例を示す。図1Aに示されるように、デバイス150などの音声取り込みデバイスのセットは、サービスプロバイダ環境100の1つ以上の構成要素と対話して、例えば、デバイス上でローカルに利用できないが、代わりにサービスプロバイダ環境によって(少なくとも部分的に)提供される追加の機能またはコンピューティングリソースにアクセスし得る。サービスプロバイダ環境100は、様々な種類の電子デバイス、デジタルデバイス、および/またはコンピューティングデバイスなど、サービスプロバイダ環境の外側の様々な種類のデバイスに機能またはコンピューティングリソースを提供し得る。例えば、デバイス150は、スマートスピーカ、スマートテレビまたは他の視聴覚構成要素、ホームオートメーションデバイス、および/または「モノのインターネット(IoT)」における別の種類のデバイスを表現してもよい。本明細書では、デバイスは、音声取り込みデバイスまたは音声取り込みエンドポイントと呼ばれる場合があり、音声対話機能を含む場合がある。一実施形態では、デバイスは、発言を含む音声入力を取り込むのに使用可能な1つ以上のマイクロホンおよび/または他の適切な音声取り込みまたはオーディオ入力構成要素(単数または複数)などの音声入力取り込み構成要素を含み得る。一実施形態では、デバイスは、コンピュータ生成の発言を含むオーディオ出力を再生するのに使用可能な1つ以上のスピーカおよび/または他の適切なオーディオ出力構成要素(単数または複数)などのオーディオ出力構成要素を含み得る。オーディオデータ、オーディオデータのトランスクリプション、および他のアーチファクトなどの音声入力の表現は、サービスプロバイダ環境100および潜在的に外部構成要素に記憶され得る。本明細書に記載される技法を使用して、デバイスからの音声入力の記憶された表現は、デバイスからの他の音声入力に(少なくとも部分的に)基づいて削除され得る。
【0007】
デバイスは、クラウドベースのサービスプロバイダ環境100によって提供される1つ以上のリソースおよび/またはサービスにアクセスすることを許可され得る。サービスプロバイダ環境100は、サービスプロバイダと呼ばれる1つ以上の団体または組織によって所有または管理される様々な構成要素を含み得る。様々な実施形態では、サービスプロバイダ環境100の態様は、デバイスに対して「クラウド内」にある1つ以上の公的にアクセス可能なサービスとして、または代わりに1つ以上の個人的にアクセス可能なサービスとして提供され得る。サービスプロバイダ環境100の構成要素は、1つ以上のデータセンタおよび1つ以上の地理的位置に配置され得る。サービスプロバイダ環境100は、複数のサービスを含み、かつ/または提供し得、サービスは、様々な機能または動作を実施し得る。様々な実施形態では、サービスのいくつかはデバイスによってアクセスされ得、サービスの他のものはデバイスによって直接ではなく、他のサービスによってのみアクセスされ得る。サービスは、サービス指向アーキテクチャ(SOA)に従って実装され得、SOAでは、サービスが要求と応答とを交換して複雑な操作を実施する。様々な実施形態では、サービスは、ネットワークアクセス可能な音声対応インターフェース110、音声入力削除機能120、音声入力記憶機能130、音声対応スキル140、および/または他の様々なサービスを含み得る。
【0008】
デバイス150を含むデバイスは、音声対応インターフェース110に音声入力をストリーミングするか、または他の方法で送信し得る。音声対応インターフェース110は、クラウドコンピューティング環境でホストされる音声対話プラットフォームの一部であり得る。音声入力分析構成要素111を使用して、音声対応インターフェース110は、デバイスのうちの1つからの音声入力を分析し、発信デバイスに代わって1つ以上のタスクを開始するなど、音声入力に応答する1つ以上のアクションをとってもよい。オーディオ出力生成構成要素112を使用して、音声対応インターフェース110は、オーディオ出力(例えば、合成のまたはコンピュータが生成した発言出力、事前に記録されたオーディオ、ボイスメール、音楽など)を生成し、デバイスで再生するために発信デバイスに送り返してもよい。アクションおよび/またはオーディオ出力は、特定のデバイスにアクセス可能な、本明細書ではスキル140とも呼ばれるサービスプロバイダ環境100のリソースおよび/またはサービスに基づいて変化し得る。様々な実施形態では、サービスプロバイダ環境100によって提供されるスキル140は、例えば、電話会議のスケジュール、電話会議中の発言者の識別、スケジュールアシスタントとしての機能、カレンダーサービスの提供、会議の記録、カレンダー、電話帳、および/または電子メールへのアクセス、タスクの作成、スケジュール、および/または変更、品物または食品の注文、ルームサービスまたはタクシーなどの支援の要求、テキストメッセージの送信、検索エンジンのクエリ実施、音楽または他のオーディオストリームの再生などを含み得る。一実施形態では、デバイスにアクセス可能な特定のスキルは変化してもよく、管理者または適切な構成特権を有する他のユーザによって変更され得る。いくつかの実施形態では、デバイス150は、例えば、サービスプロバイダ環境100に記憶された構成データによって、1つ以上の他の音声取り込みデバイスにリンクされ得る。例えば、同じ住居、同じ会議室、または同じホテルの部屋内の異なる位置にある複数の音声取り込みデバイスをリンクし、これにより、デバイスのうちの1つへの音声入力がデバイスのうちの他の1つの使用に影響を与えるようにすることができる。複数の音声取り込みデバイスを同じアカウントまたはユーザにリンクし得る。
【0009】
1つ以上のマイクロホンなどの音声入力取り込み構成要素151を使用して、特定の音声取り込みデバイス150は、音声入力153を取り込み、ネットワーク(単数または複数)190を介してサービスプロバイダ環境100に音声入力を送信するように構成され得る。一実施形態では、音声入力153は、1人以上のユーザ199からの発言入力を表現し得る。発言は、自然言語の発言を含み得る。音声入力153は、任意の適切な形式のデジタルオーディオを表現し得る。音声入力153は、ストリーミングされるか、または他の方法でデバイス150からインターフェース110に送信され得る。音声入力分析111を使用して、サービスプロバイダ環境100は、音声入力153をデコードして、オーディオに存在する1つ以上の用語、語句、または他の発話を決定し得る。一実施形態では、用語のうちの1つ以上は、サービスプロバイダ環境100によって提供される機能(例えば、スキル140)を呼び出すコマンドを表現し得る。一実施形態では、用語のうちの1つ以上は、サービスプロバイダ環境100によって提供される機能(例えば、スキル140)によって使用可能なデータを表現し得る。一実施形態では、同じ音声入力は、スキル(または他の機能)の呼び出し、およびそのスキルまたは機能によって使用可能な引数または他のデータの両方を含み得る。
【0010】
一実施形態では、音声取り込みデバイス150においける音声入力取り込み151は、例えば、音声入力キャプチャを使用して、デバイスの電源がオンで適切に構成されている間にデバイスに近接してオーディオを監視して、デバイスに関連付けられている可聴「ウェイクワード」の検出によって促され得る。一実施形態では、ウェイクワードの代わりに、ボタン入力、ジェスチャ、または別の適切なユーザ対話によって音声入力取り込み151を促し得る。一実施形態では、ウェイクワードまたはユーザ供給の他のプロンプトが検出された後、音声入力取り込み151は、適切な継続期間の一時停止が検出されるまで、音声対応インターフェース110が停止するようデバイスに命令するまで、取り込まれたオーディオが特定の継続期間に達するまで、または、ボタンの押下、ジェスチャー、もしくは他の適切なユーザ対話が音声取り込みを終了するために受信されるまで、オーディオ入力を記録し続けてもよい(かつデバイスはストリーミングし続けてもよい)。
【0011】
一実施形態では、デバイス150は、コンピュータ生成の発言を含む音声出力を再生するために使用可能な、スピーカおよび/または他の適切な音声生成構成要素(単数または複数)を含むオーディオ出力再生機能152を含むか、またはこれにアクセスし得る。様々な実施形態では、オーディオ出力再生152は、デバイス150のボード上に配置されているか、または代わりにリモートコントロールなどの別のデバイスに配置されていてもよい。音声対応インターフェース110はまた、オーディオ出力生成112のための構成要素(または複数の構成要素)も含み得る。オーディオ出力生成112を使用して、サービスプロバイダ環境100は、コンピュータ生成の発言を表現するオーディオ出力154を生成し得る。サービスプロバイダ環境100は、オーディオ出力154をデバイス150にストリーミングするか、または他の方法で送信してもよく、デバイスは、オーディオ出力再生152を使用してユーザ(単数または複数)199の出力を再生してもよい。様々な実施形態では、音声出力154は、音声入力の何らかの態様の承認(例えば、要求されたタスクが首尾よく実施されたという承認)、ユーザ(単数または複数)199によって提起された質問または問い合わせに対する応答、ユーザからの詳細情報の要求、または他の適切なオーディオベースの対話を表現し得る。いくつかの実施形態では、デバイス150は、ディスプレイ上のグラフィック出力、触覚フィードバック、近接デバイスへのブルートゥース信号など、他の形式の出力を生成するように構成され得る。
【0012】
音声対応インターフェース110は、音声入力ロギング機能113を使用して、デバイスとサービスプロバイダ環境100との間の対話のログを記憶し得る。例えば、特定のデバイス150によって送信され、音声入力分析111によって分析される各発話は、タイムスタンプとともにデバイスに関連付けられているログに記録され得る。ログは、ロギング機能113にアクセス可能な音声入力記憶装置130を使用して実装され得る。音声入力記憶装置は、マルチテナントプロバイダネットワークの1つ以上の記憶装置サービスが潜在的に実装される永続憶装置リソースを含み得る。ログに記憶されたデータは、オーディオデータ、英数字のトランスクリプションデータ、および他のアーチファクトなどの、音声入力153の1つ以上の種類の表現を含み得る。図1Aの例に示されるように、表現131Aから131Nは、音声入力153のために記憶され得る。例えば、表現131Aは、オーディオデータを含み得、表現131Nは、そのオーディオデータのトランスクリプションを含み得る(例えば、音声入力分析111を使用して生成される)。音声データは、デバイス150によって取り込まれ、サービスプロバイダ環境100に送信されるオーディオの全部または一部を表現してもよく、トランスクリプションデータは、音声テキスト化分析を元のオーディオデータに適用するアーチファクトまたは出力を表現してもよい。いくつかの実施形態では、音声入力の追加の表現(例えば、オーディオまたはテキスト)は、サービスプロバイダ環境100の他の場所、例えば、様々なスキル140に関連付けられている記憶装置に記憶され得る。例えば、音声入力の分析に基づいて特定のスキルが呼び出されると、その音声入力の表現(例えば、音声テキスト化分析を使用して生成されたテキスト)がそのスキルに提供され、そのスキルによって記憶され得る。同様に、オーディオ入力の追加の表現(例えば、オーディオまたはテキスト)は、サービスプロバイダ環境100の外側の別の場所、例えば、検索エンジンプロバイダ、パートナーデータベースなどの様々な外部システムに関連付けられている記憶装置に記憶され得る。一実施形態では、音声入力の表現131A〜131Nは、サービスプロバイダ環境100内でユーザ固有に暗号化されてもよく、暗号化キーは、対応するユーザによって保持され、これにより、サービスプロバイダ環境の管理者は、オーディオデータの内容およびユーザの音声入力のトランスクリプトにアクセスできないようにしてもよい。以下でより詳細に説明されるように、音声入力削除機能120(例えば、スキルまたは他のサービス)は、ユーザ199および/またはデバイス150からの追加の音声入力に(少なくとも部分的に)基づいて、表現131A〜131Nのいずれかの選択的な削除を開始し得る。
【0013】
一実施形態では、サービスプロバイダ環境100は、デバイスに関連付けられているデバイス構成の態様を決定または変更するために使用可能なデバイス管理サービスまたは機能を含み得る。例えば、デバイス管理は、デバイス150に対応するデバイス固有の構成を維持し得る。一実施形態では、デバイス管理は、企業、教育機関、および/または住居のデバイス管理を対象としたサービスによって提供され得る。一実施形態では、デバイス管理サービスを使用して、例えば、ユーザ入力またはアプリケーションプログラミングインターフェース(API)を通じた入力に基づいて、特定のスキルをデバイスにアクセス可能にすることができる。例えば、デバイス管理サービスへのユーザ入力は、例えば、サービスプロバイダ環境100によって提供されるスキルの所定のリストから選択された特定のデバイスまたは特定のクラスのデバイスがアクセスできるスキルのセットを識別し得る。デバイスのデバイス構成は、デバイスのシリアル番号などのデバイス識別子を含むか、またはこれに関連付けられていてもよい。デバイス構成はまた、追加のパラメータおよびそれに対応する値も含み得る。デバイス構成は、サービスプロバイダ環境100内のデバイスにアクセス可能な1つ以上のスキル140のセットを指示し得る。様々な実施形態では、デバイス構成の全部または一部は、サービスプロバイダ環境100および/またはデバイス自体にローカルにアクセス可能な記憶装置にリモートで記憶され得る。例えば、完全な構成プロファイルはデバイス管理サービスによって記憶さ得る一方で、より制限された構成パラメータのセットはデバイスのメモリに記憶され得る。
【0014】
デバイス150を含むデバイスは、例えば、ネットワーク(単数または複数)を介してネットワークベースのサービス要求をサービスプロバイダ環境に伝達することによって、1つ以上のネットワーク190を介してインターフェース110(またはサービスプロバイダ環境100の他の構成要素)と通信し得る。一実施形態では、ネットワーク(単数または複数)190は、1つ以上のWi−Fiネットワークまたは他の種類の無線ローカルエリアネットワーク(WLAN)などの1つ以上の無線ネットワークを含み得る。無線ネットワーク(単数または複数)は、任意の適切な無線通信技術、および1つ以上の無線ルータなどのネットワーク構成要素の任意の適切な構成を使用して実装され得る。一実施形態では、デバイス150は、Wi−Fiおよび/または他の適切な無線ネットワークにアクセスするための無線ネットワークインターフェースを含み得る。一実施形態では、ネットワーク(単数または複数)190は、イーサネットなどの伝送媒体を介した1つ以上の有線ネットワークなどの、1つ以上の有線ネットワークを介した通信を含み得る。一実施形態では、デバイス150は、適切な有線ネットワークにアクセスするための有線ネットワークインターフェースを含み得る。様々な実施形態では、ネットワーク(単数または複数)190は、デバイス150とサービスプロバイダ環境100との間のネットワークベースの通信を確立するのに必要なネットワーキングハードウェアおよびプロトコルの任意の適切な組み合わせを包含し得る。例えば、ネットワーク(単数または複数)190は、一般に、インターネットを集合的に実装する様々な電気通信ネットワークおよびサービスプロバイダを包含し得る。ネットワーク(単数または複数)190は、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)などのプライベートネットワーク、およびパブリックまたはプライベート無線ネットワークも含み得る。一実施形態では、ネットワーク(単数または複数)190は、ハードウェア(例えば、モデム、ルータ、スイッチ、ロードバランサー、プロキシサーバなど)、および2つの特定の構成要素間にネットワークリンクを確立するために必要なソフトウェア(例えば、プロトコルスタック、アカウンティングソフトウェア、ファイアウォール/セキュリティソフトウェアなど)を含み得る。一実施形態では、デバイス150は、パブリックインターネットではなくプライベートネットワークを使用してサービスプロバイダ環境100と通信できてもよい。一実施形態では、デバイス150は、ローカルエリアネットワーク(有線もしくは無線)または直接接続(有線もしくは無線、例えば、ブルートゥース)を介して中央デバイスに接続して、例えば、音声入力を中央デバイスにストリーミングする衛星デバイスを表現し得、中央デバイスは、音声入力をサービスプロバイダ環境100にストリーミングし得る。
【0015】
一実施形態では、サービスプロバイダ環境100の様々な構成要素の機能は、異なる物理的なサイトにわたって分散され得る。例えば、サービスプロバイダ環境100の機能の第1の部分は、デバイス150と同じローカルエリアネットワークまたは物理的なサイトに配置されている1つ以上の構成要素で実装され得る一方で、サービスプロバイダ環境100の機能の第2の部分は、「クラウドで」実装され、広域ネットワークを介して第1の部分にアクセス可能であり得る。第1の部分は、より頻繁にアクセスされるサービスと同様に、音声入力分析111などのタスクを実施するのに十分なコンピューティングリソースを含み得る。デバイス構成の全部または一部は、ローカルに(第1の部分)、クラウドに(第2の部分)、または両方の部分に記憶され得る。このサービスの分散を使用してより多くの処理をローカライズし、ローカルサイト(デバイスを含む)とサービスプロバイダ環境100のクラウドベースの部分との間のネットワーク使用量を最小限化することができる。このようなサービス(単数または複数)の分散は、デバイス150がネットワークアクセスが制限されているリモートエリアに配置されている場合に特に有益であり得る。
【0016】
デバイス150などの音声取り込みデバイスのいずれも、図7に示される例示的なコンピューティングデバイス3000によって実装され得る。サービスプロバイダ環境100は、複数のコンピューティングデバイスを含み得、そのいずれも図7に示される例示的なコンピューティングデバイス3000によって実装され得る。様々な実施形態では、サービスプロバイダ環境100の記載された機能の部分は、同じコンピューティングデバイスによって、または任意の適切な数の異なるコンピューティングデバイスによって提供され得る。サービスプロバイダ環境100の構成要素のいずれかが異なるコンピューティングデバイスを使用して実装される場合、構成要素およびそれらのそれぞれのコンピューティングデバイスは、例えば、1つ以上のネットワークを介して通信可能に結合され得る。示された構成要素の各々は、それぞれの機能を実施するために使用可能なソフトウェアとハードウェアとの任意の組み合わせを表現し得る。デバイス150、サービスプロバイダ環境100、およびネットワーキングインフラストラクチャ190は、示されていない追加の構成要素、示されているよりも少ない構成要素、または示されている構成要素の異なる組み合わせ、構成、もしくは量を含み得ると考えられる。
【0017】
図1Bは、図1Aに示される例の続きを表現し得る。音声入力削除機能120(例えば、スキルまたは他のサービス)は、ユーザ199および/またはデバイス150からの追加の音声入力155に(少なくとも部分的に)基づいて、表現131A〜131Nのいずれかの選択的な削除を開始し得る。図1Aで(1つ以上の表現として)供給および記憶された音声入力に続いて、デバイス150のユーザ199は、図1Bに示されるように追加の音声入力155を提供し得る。追加の音声入力155は、音声入力分析111を使用して決定されるように、以前の音声入力を無視するコマンドを表現し得る。無視される以前の音声入力は、1つの発話(例えば、最新の発話もしくは過去のある時点で受信された別の発話)、複数の発話のセット(例えば、過去1時間、1日、1週間に受信された発話など)、または追加の音声入力によって指示される、デバイスおよび/またはユーザに関連付けられているすべての発話を含み得る。無視するユーザの意図は、1つ以上の他の発話を無視するか、忘れるか、回復するか、または取り消すことを求める追加の音声入力に基づいて決定され得る。一実施形態では、適切な入力は、「(ウェイクワードを発した後)忘れてください」、「(ウェイクワードを発した後)過去1時間を忘れてください」、「(ウェイクワードを発した後)私が言ったことをすべて忘れてください」などの音声入力を含み得る。音声入力分析111は、(ウェイクワードまたは他のユーザプロンプトに続く)適切なキーワード、例えば、無視する、忘れる、回復する、または取り消すという意図を反映するキーワードを検出して、1つ以上の発話を無視すべきであることを決定し得る。音声入力分析111はまた、(ウェイクワードまたは他のユーザプロンプトに続く)適切なキーワードを検出して、例えば、指定された時間の期間または無視される発話(単数または複数)の特定の識別情報に基づいて、どの発話を無視すべきであるかを決定し得る。
【0018】
一実施形態では、追加の音声入力155は、例えばサービスプロバイダ環境100内の構成データによって、デバイス150に関連付けられている異なる音声取り込みデバイスから受信され得る。例えば、同じ住居内または同じホテルの部屋内の異なる位置にある複数の音声取り込みデバイスがリンクされ得る。リンクされたデバイスのセットの場合、デバイスのうちの1つへの音声入力により、サービスプロバイダ環境100は、デバイスの別の1つからの音声入力を無視してしまう可能性がある。いくつかの実施形態では、時間的近接性を使用して、あるデバイスへの音声入力が別のデバイスからの音声入力を削除または取り消すことができるかどうかを決定し得る。例えば、クロスデバイスの削除または取り消しは、以前の音声入力を無視するための追加の音声入力が、以前の音声入力から一定の閾値の時間期間内に受信された場合にのみ許可され得る。いくつかの実施形態では、空間的近接性を使用して、あるデバイスへの音声入力が別のデバイスからの音声入力を削除または取り消すことができるかどうかを決定し得る。例えば、以前の音声入力を無視する追加の音声入力が、以前の音声入力を提供したデバイスからいくつかの閾値距離内にあるデバイスから受信された場合にのみ、デバイス間の削除または取り消しが許可され得る。
【0019】
追加の音声入力155が他の音声入力を無視するコマンドを表現することを決定したことに応答して、音声対応サービス110は、例えば、削除される発話(単数または複数)の1つ以上の識別子または特性とともに適切な要求を送信することによって、音声入力削除機能120を呼び出し得る。一実施形態では、サービスプロバイダ環境100が、追加の音声入力155のいくつかの態様が曖昧であることを決定した場合、オーディオ出力が生成され、デバイス150に送信されて、ユーザ199からの曖昧性解消入力を求めてもよい。例えば、音声入力削除機能120がどの発話を削除すべきであるかを決定できない場合、削除機能は、オーディオ出力生成と対話して、ユーザに説明を求めてもよい。図1Bの例では、追加の音声入力155は、以前の音声入力153を無視すべきであることを指示する。例えば、追加の音声入力が「(ウェイクワードを発した後)忘れてください」と述べており、音声入力153が追加の音声入力155の直前の発話であった場合、以前の音声入力153は、ユーザ199からの削除要求のターゲットとして識別され得る。別の例として、追加の音声入力が「(ウェイクワードを発した後)過去1時間を忘れてください」と述べ、音声入力153が以前の時間内に受信(およびタイムスタンプ)された場合、以前の音声入力153は、ユーザ199からの削除要求の1つのターゲットとして識別され得る。そのようなシナリオでは、他の発話も、例えば、それらが最後の1時間以内にデバイス150から受信された場合、削除要求のターゲットとして識別され得る。音声入力削除機能120は、表現131Aおよび131Nなどの音声入力の記憶された任意の表現を削除するように、音声入力ロギング113(または他の適切な構成要素(単数または複数))に命令し得る。様々な実施形態において、削除は、削除のために1つ以上のファイルまたは他の記憶装置要素をマークすること、ファイル(単数または複数)または記憶装置要素(単数または複数)をアクセス不能にするためにディレクトリ構造を変更すること、ファイル(単数または複数)または記憶装置要素(単数または複数)にアクセスできないようにするために(例えば、ユーザ199に関連付けられている)暗号化キーを変更または削除することなどを含み得る。一実施形態では、追加のセキュリティのために、追加の音声入力155の1つ以上の記憶された表現も削除され得る。
【0020】
一実施形態では、音声入力153の1つ以上の記憶された表現は、デバイス150自体から、例えば、デバイスにローカルにアクセス可能な記憶装置から削除され得る。例えば、デバイス150に記憶された表現は、オーディオデータ、トランスクリプションデータ、タイマおよび構成設定など音声入力分析のアーチファクトなどを含み得る。一実施形態では、記憶された表現(単数または複数)は、サービスプロバイダ環境100から送信された削除コマンドに応答して、デバイス150から削除され得る。一実施形態では、記憶された表現(単数または複数)は、デバイス自体で実施される追加の音声入力155の分析に基づいて、デバイス150から削除され得る。一実施形態では、以前の音声入力の記憶された表現(単数または複数)を削除する決定は、デバイス150からサービスプロバイダ環境100、およびデバイスとサービスプロバイダ環境との間の任意の中間構成要素のどこでも行うことができる。同様に、いくつかの実施形態では、以前の音声入力の効果は、デバイス150で回復され得る。例えば、デバイス150に設定されたタイマまたは構成設定は、追加の音声入力155に基づいて取り消され得る。
【0021】
図2Aおよび図2Bは、一実施形態による、音声入力の表現を削除するタグに基づくルールの適用を含む、音声取り込みデバイス用の音声起動式の選択的なメモリの例示的なシステム環境のさらなる態様を示す。一実施形態では、音声入力153などの発話は、メタデータでタグ付けされ得る。音声入力153は、デバイス150において、または図2Aに示されるように、音声対応インターフェース110による音声入力の受信時に音声入力タグ付け機能114によってタグ付けされ得る。音声入力の表現は、特定のタグに関連付けられ得る。図2Aの例に示されるように、記憶された表現131Aは、タグ132Aに関連付けられ、記憶された表現131Nも、同じタグ132Aに関連付けられて、同じ音声入力153でそれらの共有された発信元を指示する。しかしながら、異なる音声入力の記憶された表現131Xは、異なるタグ132Xを有し得る。タグとしては、音声入力の特性、音声入力を取り込むために使用されるデバイスの特性、音声入力に関連付けられているユーザの特性、セッション識別子、タイムスタンプ、および/または他の適切な要素を識別するメタデータが挙げられる。例えば、タグは、ユーザまたはデバイスが属する組織の部門を指示するラベルを含み得る。別の例として、タグは、国または地域の識別子を含み得る。一実施形態では、タグは、サービスプロバイダ環境の文脈でグローバル一意識別子(GUID)を表現し得る。一実施形態では、タグは、発話が削除または取り消しの対象であるかどうかに関する指示を表現し得る。一実施形態では、音声入力153に関連付けられているタグ132Aは、一度生成され(例えば、入力がデバイス150において取り込まれるか、サービスプロバイダ環境100によって受信されるとき)、その後、サービスプロバイダ環境内に記憶されたトランスクリプト、または音声入力の分析111に基づいて呼び出されるスキルに渡される表現などの、入力の他の表現で伝播され得る。このようにタグを伝搬することによって、発話の記録の削除を容易にするために、特定の発話の経路が、サービスプロバイダ環境100でおよび潜在的に外部システムでも追跡され得る。
【0022】
一実施形態では、削除は、関連するタグの内容に(少なくとも部分的に)基づいて1つ以上のルールを表現に適用することによって実施され得る。一実施形態では、音声入力削除機能120は、タグに基づくルールの適用を実装するタグベースのルールエンジン125を含み得る。例えば、タグが音声入力に関連付けられているデバイスおよびタイムスタンプを指示する場合、特定のルールは、特定のデバイスに関連付けられ、特定の時間期間に受信された音声入力の表現を削除し得る。別の例として、特定のルールは、特定の企業部門に関連付けられているタグを有する音声入力の表現を削除し得る。さらに別の例として、特定のルールは、特定のユーザに関連付けられているタグを有する音声入力の表現を削除してもよいが、他のユーザに関連付けられている音声入力の表現は削除しなくてもよい。一実施形態において、イベントバス上のイベントならびにサービスプロバイダ環境100内の他のサービスおよびスキルが、そのようなコマンドについてイベントバスをリッスンすることができるため、削除は、削除コマンドを(例えば、タグを使用して削除される発話を識別するデータまたはメタデータとともに)送信することによって開始され得る。例えば、音声入力削除機能120は、タグ132Aを有する任意の記憶された表現を削除するように、音声入力ロギング113などの受信者に命令するイベントを生成し得る。このイベントを受信した結果、音声入力ロギング113は、表現131Xではなく、表現131Aおよび131Nの削除を開始し得る。
【0023】
図3は、一実施形態による、サービスプロバイダ環境のスキルへの取り消し要求の送信を含む、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の例のさらなる態様を示す。いくつかの実施形態では、音声入力153の分析111に基づいて、スキル140のうちの1つ以上が呼び出され得る。例えば、音声入力153が検索エンジンのクエリを実施するコマンドを表現した場合、音声入力の検索用語は、(スキル140内の)検索エンジンスキルに渡され、次いで、検索エンジンスキルからサービスプロバイダ環境100の外部にある検索エンジンに潜在的に渡され得る。別の例として、音声入力153がレストランで注文するコマンドを表現した場合、音声入力の検索用語は、(スキル140内の)レストランスキルに渡され、次いで、レストランスキルからサービスプロバイダ環境100の外部のレストラン注文システムに潜在的に渡され得る。
【0024】
ユーザが現在無視することを求めている以前の音声入力に対して、スキル140のうちの1つ以上が呼び出された場合、音声入力削除機能120は、取り消しコマンド121をスキル(単数または複数)に送信し得る。取り消しコマンド121は、以前の音声入力153に応答してとられた任意の効果を回復する要求を表現し得る。いくつかの実施形態では、スキル(単数または複数)140は、可能であれば、以前の音声入力に応答してとられた任意のアクションの取り消しを試みることができる音声入力取り消し機能145を含み得る。取り消しコマンド121の受信に応答して、スキル(単数または複数)140は、表現131Yなどの関連する音声入力153の記憶された任意の表現を削除し得る。音声入力取り消し145によってとられるさらなるアクションは、以前の音声入力に応答してとられるアクションの性質に基づいて変化することがあり、取り消しは保証されない。検索クエリの例では、クエリを取り消すことは可能ではないことがあるが、スキルは、クエリの実施時に生成および記憶された任意のデータを削除できることがある。レストランの注文の例では、取り消しコマンド121が時間内に受信された場合、注文を取り消すことが可能な場合がある。さらに、レストランスキルは、注文時に生成および記憶された任意のデータを削除できることがある。一実施形態では、音声入力153のタグ132Aはスキル(単数または複数)140に渡されてもよく、スキル(単数または複数)は、その特定のタグを有する任意の表現の識別に(少なくとも部分的に)基づいて、音声入力の表現を削除してもよい。
【0025】
図4は、一実施形態による、サービスプロバイダ環境の外側にある構成要素への取り消し要求の送信を含む、音声取り込みデバイス用の音声起動式の選択的なメモリのシステム環境の例のさらなる態様を示す。いくつかの実施形態では、音声入力153の分析111に基づいて、サービスプロバイダ環境100の外側の1つ以上のシステムまたはサービスが呼び出され得る。例えば、音声入力153が検索エンジンのクエリを実施するコマンドを表現した場合、音声入力の検索用語は、(スキル140内の)検索エンジンスキルに渡され、次いで、検索エンジンスキルからサービスプロバイダ環境100の外部にある検索エンジンシステム160に潜在的に渡され得る。別の例として、音声入力153がレストランで注文するコマンドを表現した場合、音声入力の検索用語は、(スキル140内の)レストランスキルに渡され、次いで、レストランスキルからサービスプロバイダ環境100の外部のレストラン注文システム160に潜在的に渡され得る。
【0026】
ユーザが現在無視することを求めている以前の音声入力に対してとられたアクションに関連して、外部システム160が接続された場合、音声入力削除機能120は、取り消しコマンド121をシステム160に送信し得る。一実施形態では、図4の例に示されるように、取り消しコマンド121は、音声入力削除機能120によってスキル(単数または複数)140に送信され、次いで、スキル(単数または複数)から外部システム160に送信され得る。上述されたように、取り消しコマンド121は、以前の音声入力153に応答してとられた任意の効果を回復する要求を表現し得る。いくつかの実施形態では、外部システム165は、可能であれば、以前の音声入力に応答してとられた任意のアクションの回復を試みることができる音声入力取り消し機能165を含み得る。取り消しコマンド121の受信に応答して、外部システム160は、表現131Zなどの関連する音声入力153の記憶された任意の表現を削除し得る。音声入力取り消し165によってとられるアクションは、以前の音声入力に応答してとられるアクションの性質に基づいて変化することがあり、取り消しは保証されないことがある。検索クエリの例では、クエリを取り消すことは可能ではない場合があるが、外部検索エンジンは、クエリの実施時に生成および記憶された任意のデータを削除できてもよい。レストランの注文の例では、取り消しコマンド121が時間内に受信された場合、注文を取り消すことが可能であり得る。さらに外部レストランシステムは、注文時に生成および記憶された任意のデータを削除できてもよい。一実施形態では、音声入力153のタグ132Aは外部システム160に渡されてもよく、外部システムは、その特定のタグを有する任意の表現の識別に(少なくとも部分的に)基づいて、音声入力の任意の表現を削除してもよい。
【0027】
図5は、一実施形態による、音声取り込みデバイス用の音声起動式の選択的なメモリを実装するための方法を示す流れ図である。510に示されるように、第1の音声入力は、音声取り込みデバイスから受信され得る。第1の音声入力は、ネットワークを介して受信され、例えば、クラウドに実装されるようなネットワークアクセス可能なサービスプロバイダ環境の1つ以上のサービスによって分析され得る。第1の音声入力は、デバイスのユーザからの1つ以上の発話を含み得る。ユーザは、サービスプロバイダ環境内のデバイスに関する所有特権を有していなくてもよい。例えば、ユーザは雇用主に関連付けられて管理されている音声取り込みデバイスを使用している従業員であり得るか、またはホテルに関連付けられて管理されている音声取り込みデバイスを使用しているホテルのゲストであり得る。したがって、ユーザは、モバイルデバイスまたはパーソナルコンピュータのグラフィカルユーザインターフェースを使用して、特定の発話の削除を許可するコンパニオンアプリケーションにアクセスできない場合がある。
【0028】
520に示されるように、第1の音声入力の1つ以上の表現は、例えば、サービスプロバイダ環境に関連付けられている記憶装置に記憶され得る。表現(単数または複数)は、オーディオデータ、(例えば、オーディオデータの音声テキスト化分析を使用して生成された)トランスクリプションデータ、および/または音声入力の他のアーチファクトを含み得る。表現は、発話の全部または一部を含み得る。表現(単数または複数)は、デバイスおよび/もしくはユーザに関連付けられている音声入力のログに、将来の分析を改善するために音声入力で機械学習技術を使用する音声入力分析サービスに、音声入力に基づいて呼び出されるサービスプロバイダ環境内の1つ以上のスキルに、スキルと対話する1つ以上の外部システム、ならびに/または他の適切な位置に記憶され得る。音声入力の表現はタグに関連付けられてもよく、タグは、音声入力の特性、音声入力を取り込むために使用されるデバイス、音声入力に関連付けられているユーザ、セッション識別子などを識別するメタデータを含み得る。例えば、タグは、ユーザまたはデバイスが属する組織の部門を指示するラベルを含み得る。別の例として、タグは、国または地域の識別子を含み得る。一実施形態では、タグは、サービスプロバイダ環境の文脈でグローバル一意識別子(GUID)を表現し得る。一実施形態では、タグは、発話が削除または取り消しの対象であるかどうかに関する指示を表現し得る。一実施形態では、音声入力に関連付けられているタグは、一度生成され(例えば、入力がデバイスにおいて取り込まれるか、またはサービスプロバイダ環境によって受信されるとき)、次いで、サービスプロバイダ環境内に記憶されたトランスクリプト、または音声入力の分析に基づいて呼び出されるスキルに渡される表現などの、入力の他の表現で伝播され得る。このようにタグを伝搬することによって、発話の記録の削除を容易にするために、特定の発話の経路が、サービスプロバイダ環境でおよび潜在的に外部システムでも追跡され得る。
【0029】
530に示されるように、第2の音声入力は、音声取り込みデバイスまたは関連デバイスから受信され得る。第2の音声入力はまた、ネットワークを介して受信され、サービスプロバイダ環境の1つ以上のサービスによって分析され得る。第2の音声入力は、デバイスのユーザからの1つ以上の発話を含み得る。様々な実施形態では、このユーザは、第1の音声入力を供給したユーザと同じユーザであっても異なるユーザであってもよい。一実施形態では、音声プロファイルに基づいて、様々な発話に関与するユーザが区別され得る。音声プロファイルは、特定の名前のあるユーザ(例えば、サービスプロバイダ環境によって生成された音声プロファイルを「要求」するために登録したユーザ)または特定の名前のないユーザを表現し得る。一実施形態では、様々な発話に関与するユーザは、パスコードまたは音声取り込みデバイスの近傍内のユーザのモバイルデバイスの検出などの他の技術に基づいて区別され得る。
【0030】
540に示されるように、音声入力分析は、第2の音声入力に対して実施され得る。分析は、第2の音声入力が第1の音声入力を無視するコマンドを表現することを決定し得る。例えば、分析は、「忘れてください」、「過去1時間を忘れてください」、「最後の事を削除してください」、「注文を取り消してください」などの、(ウェイクワードまたは音声取り込みのための他のユーザプロンプトに続く)語句を検出する音声テキスト化技術を適用し得る。一実施形態では、サービスプロバイダ環境は、第2の音声入力を提供したユーザを識別し、そのユーザが第1の音声入力を削除するかまたは取り消す特権を有しているかどうかを決定し得る。一実施形態では、例えば、サービスプロバイダ環境は、第2の音声入力を供給したユーザが第1の音声入力を供給したユーザと同じ場合にのみ、第1の音声入力を削除するかまたは取り消すアクションをとり得る。一実施形態では、サービスプロバイダ環境は、第2の音声入力を供給したデバイスが第1の音声入力を供給したデバイスと同じ場合にのみ、第1の音声入力を削除するかまたは取り消すアクションをとり得る。ユーザが削除または取り消しを要求するのに十分な特権を有している場合、サービスプロバイダ環境は、サービスプロバイダ環境内で削除機能(例えば、スキルまたはサービス)を呼び出し得る。サービスプロバイダ環境は、タグまたは削除する発話(単数または複数)の他の識別特性などの任意の必要なデータを削除機能に渡し得る。
【0031】
一実施形態では、第2の音声入力は、単一の発話、例えばデバイスからの最新の発話を無視する(例えば、その効果を削除するかつ/または取り消す)コマンドを表現し得る。一実施形態では、第2の音声入力は、例えば、過去1時間、1日、1週間などにわたって複数の発話を無視するコマンドを表現し得る。第2の音声入力を使用して、ユーザは、発話(単数または複数)の特定の特性、発話(単数または複数)に関連付けられている時間または時間の期間などに(少なくとも部分的に)基づいて、任意の1つ以上の発話を識別し得る。
【0032】
550に示されるように、第1の音声入力の1つ以上の表現が削除され得る。様々な実施形態では、削除は、削除のために1つ以上のファイルまたは他の記憶装置要素をマークすること、ファイル(単数もしくは複数)または記憶装置要素(単数もしくは複数)をアクセスできないようにするためにディレクトリ構造を変更すること、ファイル(単数もしくは複数)または記憶装置要素(単数もしくは複数)にアクセスできないようにするために(例えば、ユーザに関連付けられている)安全キーを変更または削除することなどを含み得る。一実施形態では、削除は、関連するタグの内容に(少なくとも部分的に)基づいて1つ以上のルールを表現に適用することによって実施され得る。例えば、タグが音声入力に関連付けられているデバイスおよびタイムスタンプを指示する場合、特定のルールは、特定のデバイスに関連付けられている、特定の時間期間に受信された音声入力の表現を削除し得る。一実施形態において、削除は、イベントバス上のイベントのような削除コマンドを(例えば、タグを使用して削除される発話を識別するデータまたはメタデータとともに)送信することによって開始されてもよく、サービスプロバイダ環境内の他のサービスおよびスキルは、そのようなコマンドについてイベントバスをリッスンし得る。一実施形態では、追加のセキュリティのために、第2の音声入力の1つ以上の表現も削除され得る。
【0033】
560に示されるように、1つ以上のスキルまたは外部システムが第1の音声入力のために呼び出されたかどうかが決定され得る。例えば、第1の音声入力が検索エンジンのクエリを実施するコマンドを表現した場合、第1の音声入力の検索用語は、検索エンジンスキルに渡され、次いで、検索エンジンスキルからサービスプロバイダ環境の外部にある検索エンジンに渡され得る。別の例として、第1の音声入力がレストランで注文するコマンドを表現した場合、第1の音声入力の検索用語は、レストランスキルに渡され、次いで、レストランスキルからサービスプロバイダ環境の外部のレストラン注文システムに渡され得る。
【0034】
1つ以上のスキルまたは外部システムが呼び出された場合、570に示されるように、削除機能は、スキル(単数もしくは複数)および/または外部システム(単数もしくは複数)に取り消しコマンドを送信し得る。取り消しコマンドは、第1の音声入力に応答してとられた任意の効果を回復する要求を表現し得る。検索クエリの例では、クエリを取り消すことは可能ではない場合があるが、スキルおよび/または外部検索エンジンは、クエリの実施時に生成および記憶された任意のデータを削除できてもよい。レストランの注文の例では、取り消しコマンドが時間内に受信された場合、注文を取り消すことが可能であり得る。さらにレストランスキルおよび/または外部レストランシステムは、注文時に生成および記憶された任意のデータを削除できてもよい。一実施形態では、第1の音声入力のタグは、スキルおよび/または外部システムに渡されてもよく、スキルおよび/または外部システムは、1つ以上のルールを識別すること、および1つ以上のルールをその特定のタグを有する任意の表現に適用することに(少なくとも部分的に)基づいて、第1の音声入力の任意の表現を削除し得る。
【0035】
図6は、一実施形態による、プライベートモードでの音声入力の表現の削除を含む、音声取り込みデバイス用の音声起動式の選択的なメモリを実装する方法のさらなる態様を示す流れ図である。610に示されるように、第1の音声入力は、音声取り込みデバイスから受信され得る。第1の音声入力は、ネットワークを介して受信され、サービスプロバイダ環境の1つ以上のサービスによって分析され得る。第1の音声入力は、デバイスのユーザからの1つ以上の発話を含み得る。620に示されるように、音声入力分析は、第1の音声入力に対して実施され得る。分析は、第1の音声入力がプライベートモード、安全モード、エグゼクティブセッション、または他の強化されたセキュリティが望まれるセッションに入るためのコマンドを表現することを決定し得る。例えば、分析は、「次の1時間を全て忘れてください」、「エグゼクティブセッションに入ります」、「記録をやめます」などの、(ウェイクワードまたは音声取り込みのための他のユーザプロンプトに続く)語句を検出する音声テキスト化技術を適用し得る。第1の音声入力の分析に(少なくとも部分的に)基づいて、プライベートセッションの開始時間および/または持続時間が決定され得る。プライベートセッションは、ユーザが識別した時間期間に、または無期限に、例えば、ユーザがプライベートセッションを終了するために追加の入力を供給するまで続く場合がある。第1の音声入力の分析に基づいて、サービスプロバイダ環境は、デバイスおよび/またはユーザのプライベートセッションを開始し得る。一実施形態では、サービスプロバイダ環境は、音声入力ではなく、デバイスのユーザの身元、電話会議招待状で検出されたセキュリティ関連キーワードなどに基づいて、プライベートセッションを開始し得る。
【0036】
ユーザは、サービスプロバイダ環境内のデバイスに関する所有特権を有していなくてもよい。例えば、ユーザは雇用主に関連付けられて管理されている音声取り込みデバイスを使用している従業員であり得るか、またはホテルに関連付けられて管理されている音声取り込みデバイスを使用しているホテルのゲストであり得る。いくつかの実施形態では、プライベートセッションを開始する能力は、サービスプロバイダ環境内で十分な特権を有する管理者によって特定のユーザおよび/またはデバイスに対して有効化または無効化され得る。一実施形態では、サービスプロバイダ環境は、第1の音声入力を提供したユーザを識別し、そのユーザがプライベートセッションに入るための特権を有しているかどうかを決定し得る。
【0037】
630に示されるように、プライベートセッション中に、音声取り込みデバイスから第2の音声入力が受信され得る。第2の音声入力は、ネットワークを介して受信され、サービスプロバイダ環境の1つ以上のサービスによって分析され得る。第2の音声入力は、デバイスのユーザからの1つ以上の発話を含み得る。第2の音声入力の分析に基づいて、サービスプロバイダ環境は、1つ以上のスキルを呼び出してもよく、スキルは、潜在的に1つ以上の外部システムと対話して、要求された任意のタスク(単数または複数)を達成することができる。
【0038】
640に示されるように、第2の音声入力の1つ以上の表現は、例えば、サービスプロバイダ環境に関連付けられている記憶装置に記憶され得る。表現(単数または複数)は、オーディオデータ、(例えば、オーディオデータの音声テキスト化分析を使用して生成された)トランスクリプションデータ、および/または音声入力の他のアーチファクトを含み得る。表現は、発話の全部または一部を含み得る。表現(単数または複数)は、デバイスおよび/もしくはユーザに関連付けられている音声入力のログに、将来の分析を改善するために音声入力で機械学習技術を使用する音声入力分析サービスに、音声入力に基づいて呼び出されるサービスプロバイダ環境内の1つ以上のスキルに、スキルと対話する1つ以上の外部システム、ならびに/または他の適切な位置に記憶され得る。第2の音声入力の表現はタグに関連付けられてもよく、タグは、第2の音声入力の特性、第2の音声入力を取り込むために使用されるデバイス、第2の音声入力に関連付けられているユーザなどを識別するメタデータを含み得る。一実施形態では、タグは、サービスプロバイダ環境の文脈でグローバル一意識別子(GUID)を表現し得る。一実施形態では、第2の音声入力の表現は、プライベートセッション中にその受信に基づく削除のためにタグ付けされ得る。一実施形態では、第2の音声入力に関連付けられているタグは、一度生成され(例えば、入力がデバイスにおいて取り込まれるか、またはサービスプロバイダ環境によって受信されるとき)、次いで、サービスプロバイダ環境内に記憶されたトランスクリプト、または音声入力の分析に基づいて呼び出されるスキルに渡される表現などの、入力の他の表現で伝播され得る。このようにタグを伝搬することによって、発話の記録の削除を容易にするために、特定の発話の経路が、サービスプロバイダ環境でおよび潜在的に外部システムでも追跡され得る。
【0039】
650に示されるように、第2の音声入力の1つ以上の表現が削除され得る。サービスプロバイダ環境は、プライベートセッション中に生成および記憶された任意のデータを忘れるために、サービスプロバイダ環境内の削除機能(例えば、スキルまたはサービス)を自動的に呼び出し得る。削除機能は、発話ごとに、またはプライベートセッション中に行われたすべての発話に対して呼び出され得る。削除機能は、各発話の後、またはプライベートセッションの終了時に呼び出され得る。サービスプロバイダ環境は、タグまたは削除する発話(単数もしくは複数)の他の識別特性などの任意の必要なデータを削除機能に渡し得る。削除機能は、サービスプロバイダ環境内(例えば、音声入力ログ内)、(例えば、削除コマンドを送信することによって)呼び出された任意のスキル(単数もしくは複数)内、および/または呼び出されたスキル(単数もしくは複数)が(例えば、削除コマンドを送信することによって)対話した任意の外部システム(単数もしくは複数)内の第2の音声入力の任意の表現を削除するように試み得る。様々な実施形態では、削除は、削除のために1つ以上のファイルまたは他の記憶装置要素をマークすること、ファイル(単数もしくは複数)または記憶装置要素(単数もしくは複数)をアクセス不能にするためにディレクトリ構造を変更すること、ファイル(単数もしくは複数)または記憶装置要素(単数もしくは複数)にアクセスできないようにするために(例えば、ユーザに関連付けられている安全キーを変更または削除することなどを含み得る。一実施形態では、削除は、関連するタグの内容に(少なくとも部分的に)基づいて1つ以上のルールを表現に適用することによって実施され得る。例えば、タグが音声入力に関連付けられているデバイスおよびタイムスタンプを指示する場合、特定のルールは、特定のデバイスに関連付けられている、特定の時間期間に受信された音声入力の表現を削除し得る。別の例として、タグが発話を削除すべきであることを指示している場合、特定のルールは、そのようなタグに関連付けられている音声入力の表現を削除し得る。一実施形態では、追加のセキュリティのために、第1の音声入力の1つ以上の表現も削除され得る。
【0040】
例示的なコンピュータシステム
少なくともいくつかの実施形態では、本明細書に記載の技術のうちの1つ以上の一部または全部を実装するコンピュータシステムは、1つ以上のコンピュータ可読媒体を含むか、またはそれにアクセスするように構成されるコンピュータシステムを含み得る。図7は、そのようなコンピューティングデバイス3000を示している。図示の実施形態では、コンピューティングデバイス3000は、入力/出力(I/O)インターフェース3030を介してシステムメモリ3020に結合された1つ以上のプロセッサ3010を含む。コンピューティングデバイス3000は、I/Oインターフェース3030に結合されたネットワークインターフェース3040をさらに含む。
【0041】
様々な実施形態では、コンピューティングデバイス3000は、1つのプロセッサ3010を含む単一プロセッサシステム、またはいくつかのプロセッサ3010(例えば、2、4、8、または別の適切な数)を含むマルチプロセッサシステムであり得る。プロセッサ3010は、命令を実行することができる任意の適切なプロセッサを含み得る。例えば、様々な実施形態において、プロセッサ3010は、x86、PowerPC、SPARC、またはMIPS ISA、または任意の他の適切なISAなどの任意の様々な命令セットアーキテクチャ(ISA)を実装するプロセッサであり得る。マルチプロセッサシステムでは、プロセッサ3010のそれぞれは、必ずしもそうとは限らないが一般的に同じISAを実装することができる。
【0042】
システムメモリ3020は、プロセッサ(単数または複数)3010によってアクセス可能なプログラム命令およびデータを記憶するように構成され得る。様々な実施形態において、システムメモリ3020は、スタティックランダムアクセスメモリ(static random access memory, SRAM)、シンクロナスダイナミックRAM(synchronous dynamic RAM, SDRAM)、不揮発性/フラッシュ型メモリ、または任意の他のタイプのメモリなどの任意の適切なメモリ技術を使用して実装され得る。図示の実施形態では、上述のこれらの方法、技術、およびデータなどの1つ以上の所望の機能を実装するプログラム命令およびデータは、コード(すなわち、プログラム命令)3025およびデータ3026としてシステムメモリ3020内に記憶されて示されている。
【0043】
一実施形態では、I/Oインターフェース3030は、プロセッサ3010、システムメモリ3020、およびネットワークインターフェース3040または他の周辺インターフェースを含むデバイス内の任意の周辺デバイスの間のI/Oトラフィックを調整するように構成され得る。いくつかの実施形態では、I/Oインターフェース3030は、ある構成要素(例えば、システムメモリ3020)からのデータ信号を別の構成要素(例えば、プロセッサ3010)による使用に適したフォーマットに変換するために必要な任意のプロトコル、タイミングまたは他のデータ変換を実行し得る。いくつかの実施形態では、I/Oインターフェース3030は、例えば、ペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnect,PCI)バス規格またはユニバーサルシリアルバス(Universal Serial Bus,USB)規格の変形など、様々なタイプの周辺バスを介して付設されたデバイスのサポートを含むことができる。いくつかの実施形態において、I/Oインターフェース3030の機能は、例えば、ノースブリッジおよびサウスブリッジなどの2つ以上の別々の構成要素に分割され得る。また、いくつかの実施形態では、システムメモリ3020へのインターフェースなど、I/Oインターフェース3030の機能の一部または全部をプロセッサ3010に直接組み込むことができる。
【0044】
ネットワークインターフェース3040は、コンピューティングデバイス3000とネットワーク(単数または複数)3050に接続された他のデバイス3060との間でデータを交換できるように構成することができる。様々な実施形態において、ネットワークインターフェース3040は、例えば、イーサネットネットワークの種類など、任意の適切な有線または無線の一般データネットワークを介した通信をサポートしてもよい。さらに、ネットワークインターフェース3040は、アナログ音声ネットワークまたはデジタルファイバ通信ネットワークなどの電気通信/電話ネットワーク、ファイバチャネルSANなどのストレージエリアネットワーク、または任意の他の適切な種類のネットワークおよび/またはプロトコルを介した通信をサポートし得る。
【0045】
いくつかの実施形態では、システムメモリ3020は、対応する方法および装置の実施形態を実装するための上述のプログラム命令およびデータを記憶するように構成されたコンピュータ可読(すなわち、コンピュータアクセス可能)媒体の一実施形態であり得る。しかしながら、他の実施形態では、プログラム命令および/またはデータは、異なる種類のコンピュータ可読媒体上で受信、送信または記憶され得る。一般的に言えば、コンピュータ可読媒体は、I/Oインターフェース3030を介してコンピューティングデバイス3000に結合された磁気または光学媒体、例えばディスクまたはDVD/CDなどの非一時的記憶媒体またはメモリ媒体を含み得る。非一時的コンピュータ可読記憶媒体はまた、システムメモリ3020または別の種類のメモリとしてコンピューティングデバイス3000のいくつかの実施形態に含まれ得る、RAM(例えば、SDRAM、DDR SDRAM、RDRAM、SRAMなど)、ROMなどのような任意の揮発性または不揮発性媒体も含み得る。さらに、コンピュータ可読媒体は、ネットワークインターフェース3040を介して実装され得るような、ネットワークおよび/または無線リンクなどの通信媒体を介して伝達される、電気信号、電磁気信号、またはデジタル信号などの伝送媒体または信号を含み得る。図7に示されるものなどの複数のコンピューティングデバイスの一部または全部を使用して、様々な実施形態に記載された機能が実装され得、例えば、様々な異なるデバイスおよびサーバで実行されるソフトウェア構成要素が連携して機能を提供し得る。いくつかの実施形態では、記載された機能の一部は、記憶装置デバイス、ネットワークデバイス、または様々な種類のコンピュータシステムを使用して実装され得る。本明細書で使用される「コンピューティングデバイス」という用語は、少なくともこれらすべての種類のデバイスを指し、これらの種類のデバイスに限定されない。
【0046】
本開示の実施形態はまた、以下の節を考慮して記載され得る。
1.システムであって、
サービスプロバイダ環境で1つ以上のサービスを実装する1つ以上のコンピューティングデバイスと、
1つ以上の音声取り込みデバイスであって、ネットワークを介して1つ以上のサービスに通信可能に結合されている、1つ以上の音声取り込みデバイスと、を備え、
1つ以上のサービスは、1つ以上のコンピューティングデバイスによって、
ネットワークを介して1つ以上の音声取り込みデバイスから第1の音声入力を受信することであって、第1の音声入力が、1つ以上の音声取り込みデバイスのユーザからの1つ以上の発話を含む、受信すること、
第1の音声入力の表現をサービスプロバイダ環境に記憶することであって、第1の音声入力の表現が、タグに関連付けられている、記憶すること、
1つ以上の音声取り込みデバイスからネットワークを介して第2の音声入力を受信すること、
第2の音声入力の分析を使用して、第2の音声入力が第1の音声入力を無視するコマンドを表現することを決定すること、および
第2の音声入力の分析に基づいて、第1の音声入力の表現を削除することであって、第1の音声入力の表現が、タグの内容に基づく1つ以上のルールの適用によって削除される、削除すること、を行うように実行可能である、システム。
2.1つ以上のサービスは、1つ以上のコンピューティングデバイスによって、
第1の音声入力の分析に基づいて、1つ以上のアクションを呼び出すことであって、1つ以上のアクションが、サービスプロバイダ環境の1つ以上のサービスによって実施される、呼び出すこと、および
第2の音声入力の分析に基づいて、1つ以上のアクションの1つ以上の効果を回復することを行うように、さらに実行可能である、節1に記載のシステム。
3.1つ以上のサービスは、1つ以上のコンピューティングデバイスによって、
第1の音声入力の分析に基づいて、1つ以上のアクションを呼び出すことであって、1つ以上のアクションが、サービスプロバイダ環境の外部にある1つ以上のシステムによって実施される、呼び出すこと、および
第2の音声入力の分析に基づいて、サービスプロバイダ環境の外部にある1つ以上のシステムに、1つ以上のアクションを取り消すコマンドを送信することを行わせるように、さらに実行可能である、節1に記載のシステム。
4.音声取り込みデバイスが、サービスプロバイダ環境に記憶された構成データを使用してリンクされる、節1に記載のシステム。
5.コンピュータ実装方法であって、
1つ以上のサービスを含むサービスプロバイダ環境において、1つ以上の音声取り込みデバイスからネットワークを介して第1の音声入力を受信することであって、第1の音声入力が、1つ以上の音声取り込みデバイスのユーザからの1つ以上の発話を含む、受信することと、
第1の音声入力の表現を記憶することと、
サービスプロバイダ環境においてネットワークを介して、1つ以上の音声取り込みデバイスから第2の音声入力を受信することであって、第2の音声入力が、第1の音声入力を無視するコマンドを表現する、受信することと、
第2の音声入力に基づいて、第1の音声入力の表現を削除することと、を含む、コンピュータ実装方法。
6.
第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、1つ以上のアクションが、サービスプロバイダ環境の1つ以上のサービスによって実施される、呼び出すこと、および
第2の音声入力に基づいて、1つ以上のアクションの1つ以上の効果を回復することと、をさらに含む、節5に記載の方法。
7.
第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、1つ以上のアクションが、サービスプロバイダ環境の1つ以上の音声対応スキルによって実施される、呼び出すことと、
第2の音声入力に基づいて、1つ以上の音声対応スキルに、1つ以上のアクションを取り消すコマンドを送信することと、をさらに含む、節5に記載の方法。
8.
第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、1つ以上のアクションが、サービスプロバイダ環境の外部にある1つ以上のシステムによって実施される、呼び出すこと、および
第2の音声入力に基づいて、サービスプロバイダ環境の外部にある1つ以上のシステムに、1つ以上のアクションを取り消すコマンドを送信することと、をさらに含む、節5に記載の方法。
9.第1の音声入力の前の複数の発話の表現が記憶され、第2の音声入力が、第1の音声入力の前の複数の発話を無視するコマンドを表現し、方法が、
第2の音声入力に基づいて、第1の音声入力の前の複数の発話の表現を削除することをさらに含む、節5に記載の方法。
10.第1の音声入力の表現が、オーディオデータを含む、節5に記載の方法。
11.第1の音声入力の表現が、トランスクリプションを含む、節5に記載の方法。
12.第1の音声入力の表現が、サービスプロバイダ環境のタグに関連付けられ、第1の音声入力の表現が、タグの内容に基づく1つ以上のルールの適用によって削除される、節5に記載の方法。
13.第1の音声入力の追加の表現が記憶され、第1の音声入力の追加の表現が、タグに関連付けられ、第1の音声入力の追加の表現が、タグの内容に基づく1つ以上のルールの適用によって削除される、節12に記載の方法。
14.コンピュータ可読記憶媒体であって、
1つ以上のサービスを含むサービスプロバイダ環境において、音声取り込みデバイスからネットワークを介して第1の音声入力を受信することであって、第1の音声入力が、音声取り込みデバイスのユーザからの1つ以上の発話を含む、受信すること、
第1の音声入力の表現をサービスプロバイダ環境に記憶すること、
サービスプロバイダ環境においてネットワークを介して、音声取り込みデバイスから第2の音声入力を受信することであって、第2の音声入力が、第1の音声入力を無視するコマンドを表現する、受信すること、
第2の音声入力の分析を使用して、第2の音声入力が第1の音声入力を無視するコマンドを表現することを決定すること、および
第2の音声入力の分析に基づいて、第1の音声入力の表現を削除することを実施するようにコンピュータ実行可能なプログラム命令を記憶する、コンピュータ可読記憶媒体。
15.節14に記載のコンピュータ可読記憶媒体であって、プログラム命令は、
第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、1つ以上のアクションが、サービスプロバイダ環境の1つ以上のサービスによって実施される、呼び出すこと、および
第2の音声入力の分析に基づいて、1つ以上のアクションの1つ以上の効果を回復することを実施するように、さらにコンピュータ実行可能である、コンピュータ可読記憶媒体。
16.節14に記載のコンピュータ可読記憶媒体であって、プログラム命令は、
第1の音声入力に基づいて、1つ以上のアクションを呼び出すことであって、1つ以上のアクションが、サービスプロバイダ環境の外部にある1つ以上のシステムによって実施される、呼び出すこと、および
第2の音声入力の分析に基づいて、サービスプロバイダ環境の外部にある1つ以上のシステムに、1つ以上のアクションを取り消すコマンドを送信することを実施するように、さらにコンピュータ実行可能である、コンピュータ可読記憶媒体。
17.第1の音声入力の表現が、オーディオデータを含む、節14に記載のコンピュータ可読記憶媒体。
18.第1の音声入力の表現が、第1の音声入力の英数字のトランスクリプションを含む、節14に記載のコンピュータ可読記憶媒体。
19.第2の音声入力が、第1の音声入力の前に受信され、第2の音声入力が、プライベートモードに入るためのコマンドを表現する、節14に記載のコンピュータ可読記憶媒体。
20.ユーザが、サービスプロバイダ環境の音声取り込みデバイスに対する所有特権を有していない、節14に記載のコンピュータ可読記憶媒体。
【0047】
図面に示され、本明細書に記載されるような様々な方法は方法の実施形態の例を表現する。方法は、ソフトウェア、ハードウェア、またはそれらの組み合わせで実装することができる。様々な方法で、ステップの順序を変更でき、様々な要素に追加、並べ替え、組み合わせ、省略、修正などを行うことができる。様々なステップを自動的に(例えば、ユーザ入力によって直接プログラムされることなく)、かつ/またはプログラムによって(例えば、プログラム命令に従って)実施することができる。
【0048】
本明細書の本発明の記載で使用される用語は、特定の実施形態のみを説明するためのものであり、本発明を限定することを意図するものではない。本発明の記載および添付の特許請求の範囲で使用される場合、単数形「a」、「an」、および「the」は、文脈からそうでないことが明確に示されない限り、複数形も含むことを意図している。本明細書で使用される「および/または」という用語は、関連する列挙された項目の1つ以上のありとあらゆる可能な組み合わせを指し、包含することも理解されるであろう。本明細書で使用される場合、用語「含む(includes)」、「含む(including)」、「備える(comprises)」、および/または「備える(comprising)」は、述べられた特徴、整数、ステップ、操作、要素、または構成要素の存在を指定するが、1つ以上の他の機能、整数、ステップ、操作、要素、構成要素、および/またはそれらのグループの存在または追加を排除しないことがさらに理解されよう。
【0049】
本明細書で使用される場合、用語「if」は、文脈に応じて、「いつ」または「時に」または「決定に応答して」または「検出に応答して」を意味すると解釈され得る。同様に、「決定された場合」または「(規定の条件またはイベント)が検出された場合」という語句は、「決定時に」または「決定に応答して」または「(規定の条件またはイベント)の検出時に」、または「(規定の条件またはイベント)の検出に応答して」を意味すると解釈され得る。
【0050】
本明細書では、第1、第2などの用語を使用して様々な要素を説明することができるが、これらの要素はこれらの用語によって限定されるべきではないことも理解されよう。これらの用語は、ある要素と別の要素を区別するためにのみ使用される。例えば、本発明の範囲から逸脱することなく、第1のコンタクトを第2のコンタクトと呼ぶことができ、同様に、第2のコンタクトを第1のコンタクトと呼ぶことができる。第1のコンタクトと第2のコンタクトは両方ともコンタクトであるが、同じコンタクトではない。
【0051】
特許請求された主題の完全な理解を提供するために、多数の特定の詳細が本明細書に記載されている。しかしながら、これらの特定の詳細を伴わずに特許請求された主題を実施できることは、当業者によって理解されるであろう。他の例では、特許請求された主題を不明瞭にしないために、当業者に知られている方法、装置、またはシステムは詳細には説明されていない。本開示の恩恵を受ける当業者に明らかであるように、様々な修正および変更がなされ得る。そのような修正および変更をすべて包含し、したがって上記の説明を限定的な意味ではなく例示的な意味でみなすことを意図している。
図1A
図1B
図2A
図2B
図3
図4
図5
図6
図7