IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2023-552794自動音声応答システム用の選択可能なコントロール
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-19
(54)【発明の名称】自動音声応答システム用の選択可能なコントロール
(51)【国際特許分類】
   H04M 1/72478 20210101AFI20231212BHJP
   G10L 15/00 20130101ALI20231212BHJP
   G06F 3/16 20060101ALI20231212BHJP
【FI】
H04M1/72478
G10L15/00 200A
G06F3/16 600
G06F3/16 620
G06F3/16 690
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023534701
(86)(22)【出願日】2020-12-08
(85)【翻訳文提出日】2023-07-31
(86)【国際出願番号】 US2020063708
(87)【国際公開番号】W WO2022125061
(87)【国際公開日】2022-06-16
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】バーベッロ,ブランドン・チャールズ
(72)【発明者】
【氏名】ザック,シェナズ
(72)【発明者】
【氏名】ワントランド,ティム
(72)【発明者】
【氏名】ジェゼジョウィツ,ジャン・ピオトル
【テーマコード(参考)】
5K127
【Fターム(参考)】
5K127AA31
5K127BA03
5K127CA08
5K127CA27
5K127CB11
5K127CB33
5K127CB43
5K127HA24
5K127KA01
5K127KA04
5K127KA08
(57)【要約】
本明細書では、自動音声応答(IVR)システム用の選択可能なコントロールを可能にするシステムおよび技術について説明する。説明するシステムおよび技術は、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話に関連するオーディオデータが、複数の選択可能なオプションを含むかどうかを判定し得る。サードパーティは、通話中に選択可能なオプションを可聴的に提供する。オーディオデータが選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、複数の選択可能なオプションのテキスト記述を判定し得る。説明するシステムおよび技術は次に、2つ以上の選択可能なコントロールをディスプレイ上に表示し得る。ユーザは、複数の選択可能なオプションのうちの選択されたオプションを指示するために、選択可能なコントロールを選択し得る。このように、説明するシステムおよび技術は、IVRシステムをナビゲートおよび理解しやすくすることにより、音声通話およびビデオ通話のユーザ体験を向上させ得る。
【特許請求の範囲】
【請求項1】
方法であって、
コンピューティングデバイスが、前記コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得することを含み、前記オーディオデータは、前記コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含み、前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータが2つ以上の選択可能なオプションを含むかどうかを判定することを含み、前記2つ以上の選択可能なオプションは、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供され、前記方法はさらに、
前記オーディオデータが前記2つ以上の選択可能なオプションを含むと判定することに応答して、前記コンピューティングデバイスが、前記2つ以上の選択可能なオプションのテキスト記述を判定することを含み、前記テキスト記述は、前記2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供し、前記方法はさらに、
前記コンピューティングデバイスのディスプレイ上に2つ以上の選択可能なコントロールを表示することを含み、前記2つ以上の選択可能なコントロールは、前記2つ以上の選択可能なオプションのうちの選択されたオプションの指示を前記サードパーティに提供するために、前記ユーザによって選択可能に構成され、前記2つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションの前記テキスト記述を提供する、方法。
【請求項2】
前記方法はさらに、
前記選択されたオプションに関連付けられた前記2つ以上の選択可能なコントロールのうちの1つの選択可能なコントロールの選択を受信することを含み、前記選択は、前記音声通話中または前記ビデオ通話中に前記ユーザによって行われ、前記方法はさらに、
前記1つの選択可能なコントロールの選択を受信したことに応答して、前記コンピューティングデバイスが、前記選択されたオプションを前記サードパーティに伝達することを含む、請求項1に記載の方法。
【請求項3】
前記選択されたオプションを前記サードパーティに伝達することは、前記ユーザが前記選択されたオプションを可聴的に伝達することなく、前記コンピューティングデバイスが、音声応答またはDTMF(Dual-Tone Multi-Frequency)トーンを前記サードパーティに送信することを含む、請求項2に記載の方法。
【請求項4】
前記方法はさらに、
前記選択されたオプションを前記サードパーティに伝達することに応答して、前記コンピューティングデバイスが、前記通信アプリケーションから出力される追加のオーディオデータを取得することを含み、前記追加のオーディオデータは、前記選択されたオプションに応答して、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供される2つ以上の追加の選択可能なオプションを含む、請求項2または3に記載の方法。
【請求項5】
前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータがユーザ情報の要求を含むかどうかを判定することを含み、前記ユーザ情報の要求は、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供され、前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記ユーザ情報の要求に応答してユーザデータを特定することと、
前記音声通話中または前記ビデオ通話中に、前記コンピューティングデバイスが、前記ユーザデータを前記ディスプレイ上に表示すること、または前記コンピューティングデバイスが、前記ユーザデータを前記サードパーティに提供することとを含む、先行する請求項のいずれか1項に記載の方法。
【請求項6】
前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータが伝達情報を含むかどうかを判定することを含み、前記伝達情報は、前記音声通話または前記ビデオ通話のコンテキストに関連し、前記音声通話中または前記ビデオ通話中に前記サードパーティまたは前記ユーザによって可聴的に提供され、前記方法はさらに、
前記オーディオデータが前記伝達情報を含むと判定することに応答して、前記コンピューティングデバイスが、前記伝達情報のテキスト記述を判定することを含み、前記伝達情報の前記テキスト記述は、前記伝達情報の少なくとも一部のトランスクリプションを提供し、前記方法はさらに、
他の選択可能なコントロールを前記ディスプレイ上に表示することを含み、前記他の選択可能なコントロールは、前記伝達情報の前記テキスト記述を提供し、前記伝達情報を、前記コンピューティングデバイス、前記アプリケーション、または前記コンピューティングデバイス上の他のアプリケーションのうちの少なくとも1つに保存するように、前記ユーザによって選択可能に構成されている、先行する請求項のいずれか1項に記載の方法。
【請求項7】
前記2つ以上の選択可能なオプションの前記テキスト記述を判定することは、前記コンピューティングデバイスが、前記2つ以上の選択可能なオプションの前記テキスト記述を判定するために機械学習モデルを実行することを含み、前記機械学習モデルは、前記オーディオデータからテキスト記述を判定するように訓練され、前記オーディオデータは、前記コンピューティングデバイスのオーディオミキサから受信される、先行する請求項のいずれか1項に記載の方法。
【請求項8】
前記機械学習モデルは、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデルを含む、請求項7に記載の方法。
【請求項9】
前記2つ以上の選択可能なオプションは、自動音声応答(IVR)システムまたは音声応答ユニット(VRU)システムのオプションを表すメニューであり、前記IVRシステムまたは前記VRUシステムは、前記ユーザと対話し、前記ユーザを、前記IVRシステムまたは前記VRUシステムの別のメニュー、前記サードパーティに関連する人員、前記サードパーティに関連する部署、前記サードパーティに関連するサービス、または前記サードパーティに関連する情報のうちの少なくとも1つに誘導するように構成されている、先行する請求項のいずれか1項に記載の方法。
【請求項10】
前記2つ以上の選択可能なコントロールは、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンのうちの少なくとも1つを含み、前記通信アプリケーションのユーザインターフェイスに含まれる、先行する請求項のいずれか1項に記載の方法。
【請求項11】
前記テキスト記述は、前記2つ以上の選択可能なオプションの各々に関連付けられた番号を含み、前記選択可能なコントロールの各々は、前記2つ以上の選択可能なオプションの各々に関連付けられた前記番号の視覚的表現を含む、先行する請求項のいずれか1項に記載の方法。
【請求項12】
前記コンピューティングデバイスの前記ディスプレイはタッチ感知スクリーンを含み、前記選択可能なコントロールは前記タッチ感知スクリーン上に提示される、先行する請求項のいずれか1項に記載の方法。
【請求項13】
前記コンピューティングデバイスは、スマートフォン、コンピュータ化された時計、タブレットデバイス、ウェアラブルデバイス、またはラップトップコンピュータを含む、先行する請求項のいずれか1項に記載の方法。
【請求項14】
請求項1~13に記載の方法のうちのいずれか1つを実行するように構成された少なくとも1つのプロセッサを備える、コンピューティングデバイス。
【請求項15】
実行されると、請求項1~13に記載の方法のうちのいずれか1つを実行するようにコンピューティングデバイスのプロセッサを構成する命令を含む、コンピュータ読取可能記憶媒体。
【発明の詳細な説明】
【背景技術】
【0001】
背景
自動音声応答(interactive voice response:IVR)システム、または電話ツリーは、音声入力またはテンキーパッドを通じて、発信者がコンピュータ動作の電話システムと対話できるようにするものである。たとえば、電話システムは、携帯電話を使った購入、銀行の支払い、サービス、小売注文、公共サービス、旅行情報、および天気予報に、IVRを使用することができる。IVRシステムは一般に、発信者を識別し区分するために、一連の音声メニューを使用する。これらのメニューには、発信者が理解、ナビゲート、または記憶することが困難な場合がある複数のオプションが含まれている。
【発明の概要】
【0002】
概要
本明細書では、IVRシステム用の選択可能なコントロールを提供するシステムおよび技術について説明する。説明するシステムおよび技術は、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話に関連するオーディオデータが、複数の選択可能なオプションを含むかどうかを判定し得る。サードパーティは、通話中に選択可能なオプションを可聴的に提供する。オーディオデータが選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、複数の選択可能なオプションのテキスト記述を判定し得る。次に、説明するシステムおよび技術は、ディスプレイ上に2つ以上の選択可能なコントロールを表示し得る。ユーザは、複数の選択可能なオプションのうちの選択されたオプションを示すために、選択可能なコントロールを選択し得る。このように、説明するシステムおよび技術は、IVRシステムをナビゲートおよび理解しやすくすることにより、音声通話およびビデオ通話のユーザ体験を向上させることができる。
【0003】
説明するシステムおよび技術は、特定のコミュニケーション障害があるユーザなどのユーザがIVRシステムと対話する際の使い易さを向上させることができる。一例として、説明するシステムおよび技術は、耳が不自由であり、他の場合はIVRシステムと対話することが困難または不可能であると感じることのあるユーザが、IVRシステムに応答を提供することを可能にし得る。同様に、説明するシステムおよび技術は、発話障害を有し、他の場合はIVRシステムと対話することが困難または不可能と感じることのあるユーザが、IVRシステムに応答を提供することを可能にし得る。また、説明するシステムおよび技術は、IVRシステムによって提供されるオプションのリストを記憶することができない短期記憶障害のあるユーザが、IVRシステムに応答を提供するのを支援することもできる。また、説明するシステムおよび技術は、ユーザが音声通話またはビデオ通話で提供されるオプションを理解することが困難な場合、たとえば、音声が歪んでいたり、音声通話またはビデオ通話から生じるものではない周囲の雑音に気を取られていたりする場合、ユーザがIVRシステムと対話する際の使い易さを向上させることができる。
【0004】
たとえば、コンピューティングデバイスは、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得する。オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。コンピューティングデバイスは、音声通話またはビデオ通話の可聴部分を使用して、オーディオデータが2つ以上の選択可能なオプションを含むかどうかを判定する。サードパーティは、音声通話中またはビデオ通話中に、2つ以上の選択可能なオプションを可聴的に提供する。オーディオデータが2つ以上の選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、2つ以上の選択可能なオプションのテキスト記述を判定し、テキスト記述は、2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供する。次に、コンピューティングデバイスは、2つ以上の選択可能なコントロールを表示する。2つ以上の選択可能なコントロールは、2つ以上の選択可能なオプションのうちの選択されたオプションをサードパーティに示すために選択可能であり得る。2つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。
【0005】
本明細書では、IVRシステム用の選択可能なコントロールを提供するための他の方法、構成、およびシステムについても説明する。
【0006】
本概要は、詳細な説明および図面にさらに記載のIVRシステム用の選択可能なコントロールを提供するための簡略化された概念を紹介するために提供される。本概要は、特許請求される主題の本質的な特徴を特定することを意図したものではなく、特許請求される主題の範囲を決定するために使用することを意図したものでもない。
【0007】
IVRシステム用の選択可能なコントロールを提供するための視覚的ユーザインターフェイスの1つまたは複数の態様の詳細を、以下の図面を参照して本明細書で説明する。複数の図面を通して、同様の特徴および構成要素を参照するために同じ番号が使用されている。
【図面の簡単な説明】
【0008】
図1】IVRシステム用の選択可能なコントロールを提供できるコンピューティングデバイスを含む環境例を示す図である。
図2】自動音声応答システムの視覚的ユーザインターフェイスを提供できるコンピューティングデバイスのデバイス例を示す図である。
図3】IVRシステムに応答して選択可能なコントロール用のテキスト記述を提供できるコンピューティングデバイスの機械学習モデルの例を示す図である。
図4】音声通話およびビデオ通話に関連する選択可能なコントロールおよびユーザデータを提供できるコンピューティングデバイスの動作例を示すフローチャートである。
図5】IVRシステム用の選択可能なコントロールを提供する動作例を示す図である。
図6A】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。
図6B】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。
図6C】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。
図6D】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。
図7A】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
図7B】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
図7C】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
図8A】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
図8B】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
図8C】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。
図8D】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスの他の例を示す図である。
【発明を実施するための形態】
【0009】
詳細な説明
概略
本明細書では、IVRシステム用にコンピューティングデバイス上で選択可能なコントロールを提供する技術およびシステムについて説明する。上述したように、IVRシステムは、音声入力またはテンキーパッドによって生成されるDTMF(Dual-Tone Multi-Frequency-Tone)を通じて、発信者が電話システムと対話することを可能にする。IVRシステムは、各々が複数の選択可能なオプションを含む一連のメニューを提供することができる。音声メニューは、分かりにくく、発信者がナビゲートしにくい場合がある。たとえば、IVRシステムによっては、各メニューに多くのオプションが用意されていたり、呼び出しにくい詳細なオプションが用意されていたりする。耳の不自由なユーザは、オプションを聞き取ることが困難または不可能であるため、通常、オプションを選択するための応答を提供できない場合がある。言語障害のあるユーザは、オプションに対して声を出して応答することができない場合がある。短期記憶障害のあるユーザは、応答を提供するときに、IVRシステムが提供するオプションを記憶することができない場合がある。
【0010】
ユーザが音声通話またはビデオ通話ができる通信アプリケーションを搭載したスマートフォンについて考える。たとえば、ユーザは、通信アプリケーションを使って診療所に電話をかけることができる。診療所では、IVRシステムを使用して、適切な情報、人員、または部署に発信者を誘導することができる。最初の音声メニューでは、適切な言語を選択するようユーザに求めることができる。可聴的に伝えるか、希望言語に関連付けられた番号を押すことによって言語を選択すると、IVRシステムは別のオプションメニューを提示することができる。たとえば、IVRシステムは、発信者を、請求、スケジューリング、医療に関する質問、サービス提供会社、および人員についての質問に関する追加のメニューに誘導することができる。
【0011】
通信アプリケーションは一般に、ユーザがIVRシステムをナビゲートするのを支援しない。その代わり、通信アプリケーションおよびコンピューティングデバイスは通常、ユーザが音声入力またはテンキーを使ってメニューオプションを呼び出したり、音声メニューをナビゲートしたりすることを必要とする。
【0012】
説明する技術およびシステムは、選択可能なオプションに関連付けられた選択可能なコントロールを提供することにより、ユーザがIVRシステムをナビゲートするのを支援することができる。特に、説明する技術およびシステムは、音声通話またはビデオ通話からオーディオデータを取得し、会話に2つ以上の選択可能なオプションが含まれているかどうかを判定することができる。会話が選択可能なオプションを含むと判定することに応答して、説明する技術およびシステムは、選択可能なオプションに関連するテキスト記述を判定することができる。
【0013】
上記の診療所のシナリオについて考える。スマートフォンは音声通話を聞いて、診療所が選択可能なオプションのIVRメニューを可聴的に提供するかどうかを判定することができる。診療所が選択可能なオプションを可聴的に提供すると判定することに応答して、説明するシステムおよび技術は、選択可能なオプションのテキスト記述を判定し、選択可能なコントロールをスマートフォンのディスプレイ上に表示することができる。選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。選択可能なコントロールのうちの1つを選択することにより、ユーザは、スマートフォンに選択されたオプションを表示させることができる。このように、説明する技術およびシステムは、スマートフォンユーザがIVRシステムを容易にナビゲートできるユーザフレンドリーな体験を提供し、通常はIVRシステムと対話できないであろうユーザがこのようなシステムと対話できるようにすることが可能である。説明する技術およびシステムは、さまざまな異なる既存のIVRシステムと互換性がある。
【0014】
非限定的な例として、コンピューティングデバイスは、通信アプリケーションから出力されるオーディオデータを取得することができる。オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。コンピューティングデバイスは、可聴部分を使用して、オーディオデータが、音声通話中またはビデオ通話中にサードパーティによって可聴的に提供される2つ以上の選択可能なオプションを含むかどうかを判定する。オーディオデータが2つ以上の選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、2つ以上の選択可能なオプションのテキスト記述を判定する。テキスト記述は、2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを含む。コンピューティングデバイスは次に、2つ以上の選択可能なコントロールをコンピューティングデバイスのディスプレイ上に表示する。2つ以上の選択可能なコントロールは、それぞれの選択可能なオプションのテキスト記述を提供する。ユーザは、2つ以上の選択可能なオプションの中から選択されたオプションをサードパーティに示すために、選択可能なコントロールを選択することができる。
【0015】
コンピューティングデバイスは、コンピューティングデバイスがコンピューティングデバイスのユーザから明示的な許可を得た後にのみ、オーディオデータからの情報を使用し得る。たとえば、コンピューティングデバイスが音声通話およびビデオ通話からオーディオデータを収集する可能性がある上述の状況において、個々のユーザに、コンピューティングデバイスのプログラムまたは機能が情報を収集および利用できるかどうかを制御するための入力を提供する機会を提供し得る。さらに、個々のユーザには、プログラムまたは機能が情報を用いてできること、またはできないことを制御する機会を提供し得る。
【0016】
この例は、上述のIVRシステム用の選択可能なコントロールによって、コンピューティングデバイスでのユーザ体験が向上し、コミュニケーション障害のあるユーザがIVRシステムと対話できるようになることを示す一例に過ぎない。他の例および実現例については、本明細書を通じて説明する。次に、本明細書では、コンピューティングデバイス上のIVRシステム用の選択可能なコントロールを提供するための構成、構成要素、および方法の追加例について説明する。
【0017】
環境例
図1は、IVRシステム用の選択可能なコントロールを提供できるコンピューティングデバイス102の例を含む環境100の例を示す。コンピューティングデバイス102に加えて、環境100は、コンピューティングシステム104および発信者側システム106を含む。コンピューティングデバイス102、コンピューティングシステム104、および発信者側システム106は、ネットワーク108に通信可能に結合されている。
【0018】
コンピューティングデバイス102の動作は、ローカルで実行されるものとして説明されているが、いくつかの例では、動作は、図1に示されているものを超える追加のコンピューティングデバイスおよびシステムを含む複数のコンピューティングデバイスとシステム(たとえば、コンピューティングシステム104)とによって実行されてもよい。たとえば、コンピューティングシステム104、発信者側システム106、またはネットワーク108に通信可能に結合された他のデバイスもしくはシステムは、コンピューティングデバイス102の機能の一部または全部を実行してもよく、その逆でもよい。
【0019】
コンピューティングシステム104は、ネットワーク108を介してコンピューティングデバイス102と情報を交換できる1つ以上のコンピュータ、メインフレーム、サーバ、クラウドコンピューティングシステム、または他のタイプのリモートコンピューティングシステムの任意の組み合わせを表す。コンピューティングシステム104は、コンピューティングデバイス102上にIVRシステム用の選択可能なコントロールを提供するための、説明するシステムおよび技術を実現するために、コンピューティングデバイス102によって必要とされる追加のプロセッサ、格納されたデータ、または他のコンピューティングリソースを格納するか、またはそれらへのアクセスを提供することができる。
【0020】
発信者側システム106は、IVRシステム110を実行して、ネットワーク108を介してコンピューティングデバイス102とテレフォニーデータを送受信することができる。たとえば、発信者側システム106は、携帯電話、固定電話、ラップトップコンピュータ、電話コールセンターのワークステーション、またはIVRシステム110を発信者に提示するように構成された他のコンピューティングデバイスであり得る。また、発信者側システム106は、発信者側システム106とコンピューティングデバイス102との間で音声通話またはビデオ通話を実施するために、ネットワーク108を介して情報を伝達できるコンピュータ、コンピューティングデバイス、メインフレーム、サーバ、クラウドコンピューティングシステム、または他のタイプのリモートコンピューティングシステムの任意の組み合わせを表すこともできる。
【0021】
ネットワーク108は、コンピューティングシステム、サーバ、およびコンピューティングデバイス間でデータ(たとえば、音声通信、ビデオ通信、データパッケージ)を送信するための任意のパブリック通信ネットワークまたはプライベート通信ネットワークを表す。たとえば、ネットワーク108は、公衆交換電話網(public switched telephone network:PSTN)、無線ネットワーク(たとえば、セルラーネットワーク、無線ローカルエリアネットワーク(wireless local area network:WLAN))、有線ネットワーク(たとえば、ローカルエリアネットワーク(local area network:LAN)、ワイドエリアネットワーク(wide area network:WAN))、インターネットプロトコル(Internet Protocol:IP)テレフォニーネットワーク(たとえば、ボイスオーバーIP(voice-over-IP:VoIP)ネットワーク)、またはそれらの任意の組み合わせを含み得る。ネットワーク108は、ネットワークハブ、ネットワークスイッチ、ネットワークルータ、または動作可能に相互結合される他のネットワーク機器を含み得る。コンピューティングデバイス102、コンピューティングシステム104、および発信者側システム106は、任意の適切な通信技術を使用して、ネットワーク108にわたってデータを送受信し得る。コンピューティングデバイス102、コンピューティングシステム104、および発信者側システム106は、それぞれのネットワークリンクを使用して、ネットワーク108に動作可能に結合され得る。
【0022】
コンピューティングデバイス102は、IVRシステム用の選択可能なコントロールを提供できる任意の適切なコンピューティングデバイスを表す。たとえば、コンピューティングデバイス102は、ユーザが発信者側エンティティ(たとえば、発信者側システム106)との音声通話またはビデオ通話を行うための、または受け付けるための入力を提供するスマートフォンであってもよい。
【0023】
コンピューティングデバイス102は、1つ以上の通信ユニット112を含む。通信ユニット112は、コンピューティングデバイス102が、ネットワーク108を含む無線ネットワークまたは有線ネットワーク上で通信することを可能にする。たとえば、通信ユニット112は、携帯電話通信またはネットワークデータ通信用のトランシーバを含み得る。コンピューティングデバイス102は、通信ユニット112およびサポート回路(たとえば、アンテナ、フロントエンドモジュール、アンプ)を、さまざまな通信規格によって定義された1つ以上の周波数帯域に調整することができる。
【0024】
コンピューティングデバイス102は、オーディオコンポーネント116、表示コンポーネント118、および入力コンポーネント120を含むユーザインターフェイスコンポーネント114を含む。コンピューティングデバイス102は、オペレーティングシステム122および通信アプリケーション124も含む。コンピューティングデバイス102のこれらのコンポーネントおよび他のコンポーネント(図示せず)は、有線および無線のバスとリンクとを含むさまざまな方法で動作可能に結合される。コンピューティングデバイス102は、分かりやすくするために図1から省略された、追加のコンポーネントおよびインターフェイスを含み得る。
【0025】
ユーザインターフェイスコンポーネント114は、オペレーティングシステム122またはコンピューティングデバイス102上で実行されるアプリケーションによって制御されるユーザインターフェイス126への入出力を管理する。たとえば、通信アプリケーション124は、ユーザインターフェイス126に、入力コントロール、ナビゲーションコンポーネント、情報コンポーネント、またはそれらの組み合わせを含むさまざまなユーザインターフェイス要素を表示させることができる。
【0026】
上述したように、ユーザインターフェイスコンポーネント114は、オーディオコンポーネント116、表示コンポーネント118、および入力コンポーネント120を含み得る。オーディオコンポーネント116、表示コンポーネント118、および入力コンポーネント120は、別個であることも、単一のコンポーネントとして統合することもできる。オーディオコンポーネント116(たとえば、単一のスピーカまたは複数のスピーカ)は、入力として音声信号を受信し、音声信号を可聴音に変換することができる。表示コンポーネント118は、ユーザインターフェイス126上に視覚的要素を表示することができる。表示コンポーネント118は、発光ダイオード(light-emitting diode:LED)、有機発光ダイオード(organic light-emitting diode:OLED)、および液晶ディスプレイ(liquid crystal display:LCD)技術を含む、任意の好適なディスプレイ技術を含み得る。入力コンポーネント120は、マイクロフォン、存在感知デバイス、タッチスクリーン、マウス、キーボード、またはユーザ入力を受信するように構成された別のタイプのコンポーネントであってもよい。
【0027】
オペレーティングシステム122は一般に、通信ユニット112、ユーザインターフェイスコンポーネント114、および他の周辺機器を含むコンピューティングデバイス102を制御する。たとえば、オペレーティングシステム122は、コンピューティングデバイス102のハードウェアリソースおよびソフトウェアリソースを管理し、アプリケーションに共通のサービスを提供することができる。別の例として、オペレーティングシステム122は、タスクスケジューリングを制御することができる。オペレーティングシステム122およびアプリケーションは一般に、コンピューティングデバイス102との通信およびユーザ対話を可能にするために、1つ以上のプロセッサ(たとえば、システムオンチップ(system on chip:SoC)、中央処理装置(central processing unit:CPU))によって実行可能である。オペレーティングシステム122は一般に、ユーザインターフェイス126を介してユーザとの対話を提供する。
【0028】
オペレーティングシステム122は、たとえば通信アプリケーション124などのアプリケーションの実行環境も提供する。通信アプリケーション124により、コンピューティングデバイス102は、発信者側システム106を含む発信者と、音声通話およびビデオ通話の発信および着信を行い得る。
【0029】
音声通話中またはビデオ通話中、通信アプリケーション124は、ユーザインターフェイス126に、発信者側ボックス128、テンキーパッドアイコン130、スピーカフォンアイコン132、選択可能なコントロール134、および通話終了アイコン136を表示させることができる。発信者側ボックス128は、発信者(たとえば、発信者側システム106)の名前と電話番号とを表示することができる。テンキーパッドアイコン130は選択可能なアイコンであり、選択されると、テンキーパッドをユーザインターフェイス126上に表示させる。スピーカフォンアイコン132は選択可能なアイコンであり、選択されると、コンピューティングデバイス102に、音声通話またはビデオ通話のためにスピーカフォン機能を使用させる。
【0030】
選択可能なコントロール134は、コンピューティングデバイス102のユーザが特定の動作または機能を実行するために選択可能である。図示の例では、選択可能なコントロール134は、発信者側システム106に、IVRシステム110によって提供される選択可能なオプションから選択されたオプションを示すために、ユーザによって選択可能である。選択可能なコントロール134は、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンを含み得る。通話終了アイコン136により、コンピューティングデバイス102のユーザは、音声通話またはビデオ通話を終了することができる。
【0031】
オペレーティングシステム122は、入力コンポーネント120において検出された入力をユーザインターフェイス126の要素に関連付けることができる。入力コンポーネント120での入力(たとえば、タップ)の受信に応答して、オペレーティングシステム122または通信アプリケーション124は、検出された入力に関する情報をユーザインターフェイスコンポーネント114から受信することができる。オペレーティングシステム122または通信アプリケーション124は、検出された入力に応答して、機能または動作を実行し得る。たとえば、オペレーティングシステム122は、入力が、ユーザが選択可能なコントロール134のうちの1つを選択することに対応すると判定し、これに応答して、対応する選択されたオプションの指示を、発信者側システム106に送信し得る。
【0032】
動作中、オペレーティングシステム122または通信アプリケーション124は、発信者側システム106によって提供されるIVRシステム110の選択可能なオプションに対応する選択可能なコントロール134を、自動的に生成することができる。コンピューティングデバイス102は、オペレーティングシステム122のオーディオミキサまたはサウンドエンジンから、オーディオデータを取得することができる。オーディオデータは一般に、IVRシステム110によって提供されるIVRオプションを含む、音声通話またはビデオ通話の可聴部分を含む。
【0033】
構成例
このセクションでは、IVRシステム用の選択可能なコントロールを提供するシステムの構成例を説明し、これらの全部または一部は、別々にまたは一緒に発生することもある。このセクションでは、さまざまな構成例について説明し、読みやすくするために、各構成例を図面に関連付けて説明する。
【0034】
図2は、IVRシステム(たとえば、IVRシステム110)用の選択可能なコントロールを提供できるコンピューティングデバイス202のデバイス200の例を示す。コンピューティングデバイス202は、コンピューティングデバイス102の一例であり、いくつか詳細が追加されている。
【0035】
図2に示すように、コンピューティングデバイス202は、スマートフォン202-1、タブレットデバイス202-2、ラップトップコンピュータ202-3、デスクトップコンピュータ202-4、コンピュータ化された腕時計202-5もしくは他のウェアラブルデバイス、音声アシスタントシステム202-6、スマートディスプレイシステム、または車両に設置されたコンピューティングシステムであってもよい。
【0036】
通信ユニット112とユーザインターフェイスコンポーネント114とに加えて、コンピューティングデバイス202は、1つ以上のプロセッサ204とコンピュータ読取可能記憶媒体(computer-readable storage media:CRM)206とを含む。
【0037】
プロセッサ204は、1つ以上のコントローラ、マイクロコントローラ、プロセッサ、マイクロプロセッサ、ハードウェアプロセッサ、ハードウェア処理ユニット、デジタル信号プロセッサ、グラフィックプロセッサ、およびグラフィック処理ユニットなどの任意の組み合わせを含み得る。たとえば、プロセッサ204は、非限定的な例として、SoC、CPU、グラフィック処理ユニット、またはテンソル処理ユニットを含む統合プロセッサおよびメモリサブシステムであり得る。SoCは一般に、中央処理装置、メモリ、および入出力ポートを含む、コンピューティングデバイス202のコンポーネントの多くを、単一のデバイスに統合する。CPUは一般に、コンピューティングデバイス202に必要なコマンドおよび処理を実行する。グラフィック処理ユニットは、コンピューティングデバイス202のグラフィックを表示するための動作を実行し、他の特定の計算タスクを実行することができる。テンソル処理ユニットは一般に、ニューラルネットワーク機械学習アプリケーションにおいて、シンボリックマッチ演算を実行する。プロセッサ204は、シングルコアまたはマルチコアを含み得る。
【0038】
CRM206は、実行可能命令(たとえば、ファームウェア、リカバリファームウェア、ソフトウェア、アプリケーション、モジュール、プログラム、機能)と、実行可能命令の実行をサポートするためのデータ(たとえば、ユーザデータ、動作データ)との永続的および非永続的なストレージを、コンピューティングデバイス202に提供することができる。たとえば、CRM206は、プロセッサ204によって実行されると、オペレーティングシステム122および通信アプリケーション124を実行する命令を含む。CRM206の例として、揮発性メモリおよび不揮発性メモリ、固定媒体デバイスおよび取外し可能媒体デバイス、ならびに実行可能命令およびサポートデータを保持する任意の好適なメモリデバイスまたは電子データストレージが挙げられる。CRM206は、ランダムアクセスメモリ(random-access memory:RAM)、スタティックRAM(static RAM:SRAM)、ダイナミックRAM(dynamic RAM:DRAM)、不揮発性RAM(non-volatile RAM:NVRAM)、リードオンリメモリ(read-only memory:ROM)、フラッシュメモリ、およびさまざまなメモリデバイス構成の他の記憶メモリタイプのさまざまな実現例を含み得る。CRM206は、伝搬信号を除く。CRM206は、ソリッドステートドライブ(solid-state drive:SSD)またはハードディスクドライブ(hard disk drive:HDD)であり得る。
【0039】
オペレーティングシステム122は、オーディオミキサ208およびキャプションモジュール210を含むか、または制御することもできる。オーディオミキサ208およびキャプションモジュール210は、専用のハードウェアコンポーネント、ソフトウェアコンポーネント、またはそれらの組み合わせであり得る。他の例では、オーディオミキサ208およびキャプションモジュール210は、(たとえば、コンピューティングデバイス202にローカルにインストールされたシステムプラグインまたは追加のアドオンサービスとして)オペレーティングシステム122とは別個である。
【0040】
オーディオミキサ208は、コンピューティングデバイス202上で実行される通信アプリケーション124を含むアプリケーションによって生成されたオーディオデータを取得し、統合することができる。オーディオミキサ208は、通信アプリケーション124などのアプリケーションからオーディオストリームを取得し、統合されオーディオコンポーネント116から出力されると、オーディオストリームにエンコードされた音を再現するオーディオ出力信号を生成する。オーディオミキサ208は、たとえば、フォーカス、インテントおよび音量を制御するといった、他の方法で音声信号を調整し得る。オーディオミキサは、コンテンツを生成するアプリケーションソースと、コンテンツから音を生成するオーディオコンポーネント116との間のインターフェイスを提供する。オーディオミキサ208は、生のオーディオデータを管理し、それを分析し、オーディオコンポーネント116によって音声信号が出力されるか、または通信ユニット112を介して、別のコンピューティングデバイス(たとえば、発信者側システム106)に音声信号が送信されるように指示することができる。
【0041】
キャプションモジュール210は、(たとえば、バイトストリームとして)オーディオミキサ208によって受信した生の形態のオーディオデータを分析するように構成されている。たとえば、キャプションモジュール210は、オーディオデータに対して音声認識を実行して、オーディオデータがIVRシステムの選択可能なオプション、ユーザ情報の要求、または通話コンテキストに関連する伝達情報を含むかどうかを判定することができる。キャプションモジュール210は、各音声信号を処理するのではなく、キャプション付けに適した個々の事前混合オーディオデータストリームを識別することができる。たとえば、キャプションモジュール210は、話し言葉のオーディオデータには自動的にキャプションを付けるが、通知またはソニフィケーションオーディオデータ(たとえば、システムビープ音、呼び出し音)には付けないことができる。キャプションモジュール210は、オーディオミキサ208が受信したバイトストリームにフィルタを適用して、キャプション付けに適したオーディオデータを識別し得る。キャプションモジュール210は、機械学習モデルを使用して、音声通話またはビデオ通話の可聴部分からオーディオデータの記述を判定することができる。
【0042】
すべてのオーディオデータにキャプションを付けるのではなく、オペレーティングシステム122は、メタデータを使用して、オーディオデータの特定の部分にキャプションを集中させることができる。たとえば、キャプションモジュール210は、IVRシステムの選択可能なコントロール、要求に応答するユーザ情報、または通話コンテキストに関連する伝達情報の提供に関連するオーディオデータに焦点を当てることができる。言い換えれば、オペレーティングシステム122は、メタデータに基づいて「キャプション可能な」オーディオデータを識別し、すべてのオーディオデータにキャプションを付けないようにすることができる。いくつかのメタデータの例には、音声通話またはビデオ通話の内容を指定するコンテキストインジケータが含まれる。オーディオミキサは、コンテキストインジケータを使用して、オーディオデータに関するルーティング、フォーカス、およびキャプション付けの決定を制御し得る。
【0043】
一部のコンピューティングデバイスは、音声通話またはビデオ通話をトランスクライブすることができる。しかしながら、トランスクリプションは通常、通話の可聴部分の直接的なトランスクリプションを提供し、会話がIVRシステムの選択可能なオプション、ユーザ情報の要求、または通話のコンテキストに関連する伝達情報を含むかどうかを判定することはできない。ユーザは、所望のメニューオプション、要求されたユーザ情報、または伝達情報を判定するために、依然としてトランスクリプトを読む必要がある。したがって、たとえコンピューティングデバイスがトランスクリプションを提供するとしても、ユーザは、IVRシステムをナビゲートし、所望のオプションを選択することが依然として困難であると感じる可能性がある。対照的に、説明するシステムおよび技術は、選択可能なコントロールおよびメッセージ要素を関連情報と共に表示することにより、ユーザがIVRシステムをナビゲートしたり、要求に応じてユーザ情報を提供したり、音声通話およびビデオ通話から伝達情報を管理したりするのを支援する。
【0044】
コンピューティングデバイス202は、1つ以上のセンサ214も含む。センサ214は、コンピューティングデバイス202の物理的動作環境、または物理的動作環境で機能している間のコンピューティングデバイス202の特性を示すコンテキスト情報を取得する。たとえば、キャプションモジュール210は、このコンテキスト情報を、オーディオデータ処理に焦点を合わせるためのメタデータとして使用することができる。センサ214の例としては、動きセンサ、温度センサ、位置センサ、近接センサ、周囲光センサ、水分センサ、および圧力センサ等が挙げられる。
【0045】
動作中、オペレーティングシステム122またはキャプションモジュール210は、オーディオデータがキャプション用であるかどうかを判定する。たとえば、キャプションモジュール210は、オーディオデータがIVRシステムの選択可能なオプション、ユーザ情報の要求、または通話コンテキストに関連する伝達情報を含むかどうかを判定することができる。オーディオデータがキャプション用であると判定することに応答して、オペレーティングシステム122は、オーディオデータの記述を判定する。たとえば、オペレーティングシステム122は、音声通話またはビデオ通話の可聴部分の記述を生成するように訓練された機械学習モデル(たとえば、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデル)を実行し得る。機械学習モデルは、口頭による音声のトランスクリプションを含む、音声の記述を学習するのに適した任意のタイプのモデルであり得る。オペレーティングシステム122によって使用される機械学習モデルは、音声通話およびビデオ通話の可聴部分を識別するためにのみ訓練される必要があるため、他の機械学習モデルよりも小さく、かつ複雑でないことがある。機械学習モデルは、オーディオミキサ208に送信されるすべてのオーディオデータの処理を回避することができる。このように、説明するシステムおよび技術は、不必要なプライバシーリスクおよび潜在的な処理待ち時間を回避するために、リモート処理リソース(たとえば、リモートコンピューティングデバイスにおける機械学習モデル)の使用を回避することができる。
【0046】
オーディオコンポーネント116によって生成された音声信号ではなく、元のオーディオデータに依存することによって、機械学習モデルは、音声通話およびビデオ通話の可聴部分をより正確に表現する記述を生成することができる。機械学習モデルを使用する前に、オーディオデータがキャプション用であるかどうかを判定することによって、オペレーティングシステム122は、通信アプリケーション124によって出力されるすべてのオーディオデータを過剰に分析するリソースの浪費を避けることができる。このようにキャプションを判定することにより、コンピューティングデバイス202は、より効率的で、より小さく、より複雑でない機械学習モデルを実行することができる。このように、機械学習モデルは、プライバシーを維持するために、自動音声認識技術および自動音声分類技術をローカルで実行することができる。
【0047】
オペレーティングシステム122は、機械学習モデルの記述を受信し、表示コンポーネント118を使用して表示する。表示コンポーネント118は、記述に関連する他の視覚的要素(たとえば、ユーザがコンピューティングデバイス202上でアクションを実行することを可能にする選択可能なコントロール)を表示することもできる。たとえば、オペレーティングシステム122は、ユーザインターフェイス126の一部として視覚的要素(たとえば、選択可能なコントロール134)を提示することができる。記述は、音声通話およびビデオ通話の可聴部分(たとえば、電話会話)のトランスクリプションまたはサマリを含み得る。記述はまた、オーディオデータの可聴部分のコンテキストを特定することもできる。機械学習モデルの詳細および動作は、図3に関してより詳細に説明される。
【0048】
図3は、IVRシステムに応答して選択可能なコントロール用のテキスト記述を提供することができるコンピューティングデバイス202の機械学習モデル302の例を示す図300である。他の実現例では、コンピューティングデバイス202は、図1のコンピューティングデバイス102または同様のコンピューティングデバイスであってもよい。
【0049】
図3に示すように、機械学習モデル302は、キャプションモジュール210の一部であり得る。機械学習モデル302は、オーディオデータ304を音に変換することなく、オーディオデータ304を音声通話またはビデオ通話の可聴部分のテキスト記述306(たとえば、IVRシステム110によって提供される選択可能なオプションのテキスト記述)に変換することができる。オーディオデータ304は、通信アプリケーション124からのデータの異なるタイプ、形態、またはバリエーションを含み得る。たとえば、オーディオデータ304は、生の、予め混合された音声バイトストリームデータまたは処理されたバイトストリームデータを含み得る。機械学習モデル302は、オーディオデータ304に応答してテキスト記述306を提供する単一のモデルに組み合わされた複数の機械学習モデルを含み得る。
【0050】
通信アプリケーション124を含むアプリケーションは、機械学習モデル302を使用して、オーディオデータ304をテキスト記述306に処理することができる。たとえば、通信アプリケーション124は、アプリケーションプログラミングインターフェイス(application programming interface:API)(たとえば、すべてのアプリケーションにわたるパブリックAPI)を使用して、オペレーティングシステム122またはキャプションモジュール210を介して機械学習モデル302と通信することができる。いくつかの実現例では、機械学習モデル302は、ユーザのプライバシーおよびセキュリティを確保するために、オペレーティングシステム122もしくはCRM206のセキュアセクションまたはエンクレーブ内でオーディオデータ304を処理することができる。
【0051】
機械学習モデル302は、推論を行うことができる。特に、機械学習モデル302は、オーディオデータ304を入力として受信し、通話の可聴部分のテキスト記述306を出力データとして提供するように訓練することができる。機械学習モデル302を使用して推論を実行することにより、キャプションモジュール210は、オーディオデータ304をローカルに処理することができる。機械学習モデル302は、分類、回帰、クラスタリング、異常検出、勧告の生成、および他のタスクを実行することもできる。
【0052】
エンジニアは、教師あり学習技術を使用して機械学習モデル302を訓練することができる。たとえば、エンジニアは、一連の音声通話およびビデオ通話からのオーディオデータ304の例から推論される記述の例を含む訓練データ308(たとえば、真理データ)を使用して、機械学習モデル302を訓練することができる。推論は、エンジニアもしくは他の専門家によって手動で適用されるか、クラウドソーシングを通じて生成されるか、または他の技術(たとえば、複雑な音声認識アルゴリズムおよびコンテンツ認識アルゴリズム)によって提供されることが可能である。訓練データ308は、オーディオデータ304に対する音声通話およびビデオ通話からのオーディオデータを含み得る。一例として、オーディオデータ304が、診療所で使用されるIVRシステムとの音声通話を含むとする。機械学習モデル302の訓練データ308は、IVRシステムとの広範な音声通話およびビデオ通話からの多数のオーディオデータファイルを含み得る。別の例として、オーディオデータ304が企業の顧客担当者との音声通話を含むとする。訓練データ308は、広範な類似の音声通話およびビデオ通話からの多くのオーディオデータファイルを含むことがある。エンジニアは、教師なし学習技術を使用して、機械学習モデル302を訓練することもできる。
【0053】
機械学習モデル302は、訓練コンピューティングシステムで訓練され、その後、1つ以上のコンピューティングデバイス202での格納および実装のために提供され得る。たとえば、訓練コンピューティングシステムは、モデルトレーナーを含み得る。訓練コンピューティングシステムを、機械学習モデル302を実装するコンピューティングデバイス202に含むことも、またはそれとは別に含むことも可能である。
【0054】
エンジニアは、機械学習モデル302をオンラインまたはオフラインで訓練することもできる。オフライン訓練(たとえば、バッチ学習)では、エンジニアは、訓練データ308の静的なセットの全体で機械学習モデル302を訓練する。オンライン学習では、エンジニアは、新しい訓練データ308が利用可能になると(たとえば、機械学習モデル302が推論を実行するためにコンピューティングデバイス202上で使用されている間)、機械学習モデル302を継続的に訓練する。たとえば、エンジニアは、音声通話およびビデオ通話の可聴部分(たとえば、キャプション付きIVRシステム、キャプション付き電話会話)に適用される記述を複製するように、機械学習モデル302を最初に訓練することができる。機械学習モデル302がオーディオデータ304からテキスト記述306を推論すると、コンピューティングデバイス202は、テキスト記述306(およびオーディオデータ304の対応する部分)を新しい訓練データ308として、機械学習モデル302にフィードバックすることができる。このように、機械学習モデル302は、テキスト記述306の精度を継続的に向上させることができる。いくつかの実現例では、コンピューティングデバイス202のユーザは、機械学習モデル302に入力を提供して、特定の記述にエラーがあるとしてフラグを立てることができる。コンピューティングデバイス202は、このフラグを使用して機械学習モデル302を訓練し、将来の予測を改善することができる。
【0055】
エンジニアまたはトレーナーは、複数の機械学習モデル302の集中型訓練を(たとえば、集中的に保存されたデータセットに基づいて)実行することができる。他の実現例では、トレーナーまたはエンジニアは、機械学習済みモデル302を訓練、更新、または個人用に設定するために、分散型訓練または連合学習を含む分散訓練技術を使用できる。エンジニアは、ユーザから明示的な許可を受信した後にのみ、機械学習モデル302を個人用に設定するためにユーザ情報を使用し得る。たとえば、コンピューティングデバイス202がユーザ情報を収集する可能性がある状況において、機械学習モデル302のプログラムまたは機能が、ユーザ情報を収集し利用できるかどうかを制御するための入力を提供する機会が、個々のユーザに提供される可能性がある。さらに、個々のユーザには、プログラムまたは機能がユーザ情報を用いてできること、またはできないことを制御する機会が提供される可能性がある。
【0056】
機械学習モデル302は、1つ以上の人工ニューラルネットワークであるか、またはそれを含み得る。そのような実現例では、機械学習モデル302は、接続されたノードまたは完全には接続されていないノード(たとえば、ニューロン)のグループを含み得る。エンジニアはまた、機械学習モデル302を1つ以上の層(たとえば、ディープネットワーク)に編成することもできる。ディープネットワークの実現例では、機械学習モデル302は、入力層と、出力層と、入力層と出力層との間に配置された1つ以上の隠れ層とを含み得る。
【0057】
機械学習モデル302は、1つ以上のリカレントニューラルネットワークも含み得る。たとえば、機械学習モデル302は、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデルであり得る。リカレントニューラルネットワークの例として、長短記憶(long short-term memory:LSTM)リカレントニューラルネットワーク、ゲート型リカレントユニット、双方向リカレントニューラルネットワーク、連続時間リカレントニューラルネットワーク、ニューラルヒストリー圧縮プログラム、エコー状態ネットワーク、エルマンネットワーク、ジョーダンネットワーク、リカーシブニューラルネットワーク、ホップフィールドネットワーク、完全リカレントネットワーク、およびシーケンスツーシーケンス構成が挙げられる。
【0058】
リカレントニューラルネットワークのノードの少なくとも一部は、サイクルを形成することができる。リカレントニューラルネットワークとして構成される場合、機械学習モデル302は、連続入力データ(たとえば、オーディオデータ304)を処理するために特に有用であり得る。たとえば、リカレントニューラルネットワークは、リカレントまたは有向循環ノード接続を使用して、オーディオデータ304の前の部分からオーディオデータ304の後続部分に情報を渡すか、または保存することができる。
【0059】
オーディオデータ304は、時系列データ(たとえば、時間に対するオーディオデータ)を含むこともできる。リカレントニューラルネットワークとして、機械学習モデル302は、オーディオデータ304を経時的に分析して、オーディオデータ304の少なくとも一部のテキスト記述306を生成するために、話し言葉の音声および関連する非話し言葉の音声を検出または予測することができる。たとえば、オーディオデータ304からの連続音は、文中の話し言葉を示し得る(たとえば、自然言語処理、音声検出、または処理)。
【0060】
機械学習モデル302は、1つ以上の畳み込みニューラルネットワークも含み得る。畳み込みニューラルネットワークは、学習済みのフィルタまたはカーネルを使用して入力データに対して畳み込みを実行する複数の畳み込み層を含み得る。エンジニアは一般に、畳み込みニューラルネットワークを使用して、静止画または動画における視覚の問題を診断する。エンジニアはまた、テキスト記述306を生成するために、オーディオデータ304の自然言語処理に畳み込みニューラルネットワークを適用することもできる。
【0061】
本明細書では、キャプションモジュール210と機械学習モデル302との動作を、図4に関してより詳細に説明する。
【0062】
方法例
図4は、音声通話およびビデオ通話に関連する選択可能なコントロールとユーザデータとを提供することができるコンピューティングデバイスの動作400の例を示すフローチャートである。動作400は、図2のコンピューティングデバイス202の文脈で以下に説明される。他の実現例では、コンピューティングデバイス202は、図1のコンピューティングデバイス102または同様のコンピューティングデバイスであり得る。動作400は、図4に示されたものとは異なる順序で実行されてもよく、追加の動作またはより少ない動作で実行されてもよい。
【0063】
402において、コンピューティングデバイスは、オプションとして、コンピューティングデバイスユーザのユーザ情報を含むコンテンツを取得する。コンピューティングデバイスは、ユーザ情報を使用して、ユーザが要求された情報を検索したり、音声通話およびビデオ通話に関連する伝達情報を保存したりするのを助けることができる。ユーザ情報を取得する前、または以下に説明するオプションを実行する前に、コンピューティングデバイス202は、音声通話およびビデオ通話のためにユーザ情報を使用する同意をユーザから取得し得る。たとえば、コンピューティングデバイス202は、明示的な同意を受信した後にのみ、ユーザ情報を使用し得る。コンピューティングデバイス202は、コンピューティングデバイス202上のアプリケーションへのユーザの入力(たとえば、ユーザプロファイルへの連絡先情報の入力、サードパーティアプリケーションを介したアカウント番号の入力)からユーザ情報を取得することができ、またはアプリケーションで受信した情報(たとえば、電子メールで送信された明細書に含まれるアカウント番号、保存されたカレンダーの項目)からそれを学習することができる。
【0064】
404において、コンピューティングデバイスは、通信アプリケーションのグラフィカルユーザインターフェイスを表示する。たとえば、コンピューティングデバイス202は、ユーザが音声通話もしくはビデオ通話を発信または受信したことに応答して、表示コンポーネント118に、通信アプリケーション124のユーザインターフェイス126を表示するように指示し得る。
【0065】
406において、コンピューティングデバイスは、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得する。オーディオデータは、音声通話またはビデオ通話の可聴部分を含む。たとえば、通信アプリケーション124は、コンピューティングデバイス202のユーザが音声通話およびビデオ通話を発信および受信することを可能にする。オーディオミキサ208は、音声通話中およびビデオ通話中に通信アプリケーション124から出力されるオーディオデータ304を取得する。オーディオデータ304は、コンピューティングデバイス202のユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。音声通話中またはビデオ通話中に選択可能なコントロールおよび他の情報をユーザに提供するために、キャプションモジュール210は、オーディオミキサ208からオーディオデータ304を抽出することができる。
【0066】
408において、コンピューティングデバイスは、音声通話またはビデオ通話の可聴部分を使用して、オーディオデータが関連情報を含むかどうかを判定する。関連情報は、IVRシステムの2つ以上の選択可能なオプション(たとえば、電話ツリーオプション)、ユーザ情報の要求(たとえば、クレジットカード番号、住所、アカウント番号の要求)、または伝達情報(たとえば、予約詳細、連絡先情報、アカウント情報)であり得る。たとえば、キャプションモジュール210は、機械学習モデル302を用いて、オーディオデータ304が関連情報を含むかどうかを判定することができる。関連情報は、IVRシステムの2つ以上の選択可能なオプション、ユーザ情報の要求、または伝達情報を含み得る。ユーザまたはサードパーティは、音声通話中またはビデオ通話中に関連情報を可聴的に提供する。キャプションモジュール210または機械学習モデル302は、通知音および背景雑音など、処理を必要としないオーディオデータ304をフィルタリングし得る。オーディオデータ304が2つ以上の選択可能なオプションを含むかどうかを機械学習モデル302が判定する例を、図6Aおよび図8Aに示す。オーディオデータ304がユーザ情報の要求を含むかどうかを機械学習モデル302が判定する例を、図6B図6C図7Aおよび図8Bに示す。オーディオデータ304が伝達情報を含むかどうかを機械学習モデル302が判定する例を、図6D図7B図7Cおよび図8Cに示す。
【0067】
オーディオデータが関連情報を含まない場合、416において、コンピューティングデバイスは、通信アプリケーションのユーザインターフェイスを表示する。たとえば、オーディオデータ304が関連情報を含んでいないと判定することに応答して、コンピューティングデバイス202は、通信アプリケーション124のユーザインターフェイス126を表示する。
【0068】
オーディオデータが関連情報を含んでいると判定した場合、410において、コンピューティングデバイスは、関連情報のテキスト記述を判定する。テキスト記述は、関連情報をトランスクライブする。たとえば、キャプションモジュール210は、機械学習モデル302を使用して、オーディオデータ304に対して音声認識を実行し、関連情報のテキスト記述306を判定することができる。テキスト記述306は、2つ以上の選択可能なオプション、ユーザ情報の要求、または伝達情報の少なくとも一部のトランスクリプションを提供する。機械学習302が2つ以上の選択可能なオプションのテキスト記述306を判定する例を、図6Aおよび図8Aに示す。機械学習モデル302がユーザ情報の要求のテキスト記述306を判定する例を、図6B図6C図7Aおよび図8Bに示す。機械学習モデル302が伝達情報のテキスト記述を判定する例を、図6D図7B図7Cおよび図8Cに示す。
【0069】
キャプションモジュール210は、コンピューティングデバイス202のコンテキストに基づいて機械学習モデル302にバイアスをかけることを含め、さまざまな方法でテキスト記述306の精度を向上させることができる。たとえば、キャプションモジュール210は、音声通話またはビデオ通話のサードパーティの身元に基づいて、機械学習モデル302にバイアスをかけ得る。コンピューティングデバイス202のユーザが、診療所に音声通話をかけるとする。キャプションモジュール210は、診療所の会話から一般的な単語を使用して、機械学習モデル302にバイアスをかけることができる。このように、コンピューティングデバイス202は、この音声通話のテキスト記述306を改善することができる。キャプションモジュール210は、機械学習モデル302にバイアスをかけるために、センサ214から得られる位置情報および他のアプリケーションからの情報を含む、他のコンテキスト情報タイプを使用することができる。
【0070】
いくつかの実現例では、コンピューティングデバイス202は、テキスト記述306を表示する前に、それを別の言語に翻訳することができる。たとえば、キャプションモジュール210は、オペレーティングシステム122からユーザの希望言語を決定し、テキスト記述306を希望言語に翻訳し得る。このように、日本人のユーザは、オーディオデータ304が異なる言語(たとえば、中国語または英語)であっても、テキスト記述306を日本語で見ることができる。
【0071】
412において、コンピューティングデバイスは、オプションとして、ユーザ情報の要求に応答してユーザデータを特定する。コンピューティングデバイスは、オーディオデータがユーザ情報の要求を含まない場合、この動作を実行しない。たとえば、サードパーティがユーザ情報を要求したと判定することに応答して、コンピューティングデバイス202は、ユーザ情報要求に応答してユーザデータを特定することができる。コンピューティングデバイス202は、CRM206、通信アプリケーション124、コンピューティングデバイス202上の別のアプリケーション、またはユーザもしくはコンピューティングデバイス202に関連するリモートコンピューティングデバイスからユーザデータを取り出すことができる。上記の診療所の通話シナリオを考える。診療所の受付係は、ユーザに保険情報の提供を要求することができる。これに応答して、コンピューティングデバイス202は、ユーザによって以前に受信され、コンピューティングデバイス202に格納された電子メールから、医療保険会社およびユーザアカウント番号を取り出すことができる。コンピューティングデバイス202がユーザ情報の要求に対するユーザデータ応答を特定する例を、図6B図6C図7Aおよび図8Bに示す。
【0072】
コンピューティングデバイスは、コンピューティングデバイスのユーザから明示的な許可を受け取った後にのみ、ユーザ情報の要求に応答する情報を使用し得る。たとえば、コンピューティングデバイスがユーザデータを収集する可能性がある上述の状況において、個々のユーザには、コンピューティングデバイスのプログラムまたは機能がユーザデータを収集および利用できるかどうかを制御するための入力を提供する機会が提供される可能性がある。さらに、個々のユーザには、プログラムまたは機能がユーザデータを用いてできること、またはできないことを制御する機会が提供される可能性がある。
【0073】
414において、コンピューティングデバイスは、ユーザデータまたは選択可能なコントロールを表示する。選択可能なコントロールは、ユーザが選択可能であり、テキスト記述を含む。オーディオデータにユーザ情報の要求が含まれていたとする。このシナリオでは、コンピューティングデバイスは、特定されたユーザデータを表示することができる。オーディオデータにIVRシステムの2つ以上の選択可能なオプションが含まれていたとする。このシナリオでは、ユーザは、選択可能なコントロールを使用して、2つ以上の選択可能なオプションから選択されたオプションをサードパーティに示すことができる。オーディオデータに伝達情報が含まれていたとする。このシナリオでは、ユーザは、選択可能なコントロールを使用して、伝達情報をコンピューティングデバイス、通信アプリケーション、または別のアプリケーションに保存することができる。たとえば、コンピューティングデバイス202は、表示コンポーネント118に、ユーザデータまたは選択可能なコントロール134を表示させることができる。表示コンポーネント118は、ユーザデータを、ユーザインターフェイス126上のテキスト通知として提供することができる。上記の診療所の通話シナリオを考える。表示コンポーネント118は、音声通話中に、医療保険会社およびユーザアカウント情報を、ユーザインターフェイス126上のテキストボックスとして表示することができる。表示コンポーネント118は、選択可能なコントロール134も提供できる。表示コンポーネント118は、テキスト記述306または要求された情報を、通信アプリケーション124のユーザインターフェイス126上のボタンの一部として提供することができる。選択可能なコントロール134を表示する表示コンポーネント118の例を、図6Aおよび図8Aに示す。ユーザデータを表示する表示コンポーネント118の例を、図6B図6C図7Aおよび図8Bに示す。伝達情報に応答して選択可能なコントロール134およびユーザデータを表示する表示コンポーネント118の例を、図6D図7B図7Cおよび図8Cに示す。
【0074】
診療所がIVRシステム110を使用して音声通話を受付係に誘導したとする。表示コンポーネント118は、選択可能なコントロール134を表示することができる。選択可能なコントロール134は、IVRシステム110によって提供される2つ以上の選択可能なオプションのそれぞれのテキスト記述318を提供する。ユーザは、選択可能なコントロール134を使用して、2つ以上の選択可能なオプションから選択されたオプションを、診療所に示すことができる。
【0075】
また、ユーザが診療所に予約すると考える。表示コンポーネント118は、選択可能なコントロール134を表示することができる。選択可能なコントロール134は、予約のテキスト記述を含む。ユーザは、選択可能なコントロール134を使用して、予約の詳細をカレンダーアプリケーションに保存することができる。
【0076】
416において、コンピューティングデバイスは、通信アプリケーションのユーザインターフェイスを表示する。たとえば、表示コンポーネント118は、通信アプリケーション124に関連付けられたユーザインターフェイス126を表示することができる。ユーザインターフェイス126は、ユーザデータおよび選択可能なコントロール134を含み得る。
【0077】
図5は、IVRシステム用の選択可能なコントロールを提供するための動作500の例を示す。動作500は、図2のコンピューティングデバイス202の文脈で説明される。動作500は、異なる順序で実行されてもよいし、追加の動作またはより少ない動作で実行されてもよい。
【0078】
502において、コンピューティングデバイスは、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得する。オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。たとえば、コンピューティングデバイス202のオーディオミキサ208は、コンピューティングデバイス202上で実行される通信アプリケーション124から出力されるオーディオデータ304を取得することができる。キャプションモジュール210は、オーディオミキサ208からオーディオデータ304を受信することができる。オーディオデータ304は、コンピューティングデバイス202のユーザとサードパーティ(たとえば、人、コンピュータ化されたIVRシステム)との間の音声通話またはビデオ通話の可聴部分を含む。
【0079】
504において、コンピューティングデバイスは、可聴部分を使用して、オーディオデータが2つ以上の選択可能なオプションを含むかどうかを判定する。サードパーティは、音声通話中またはビデオ通話中に、2つ以上の選択可能なオプションを可聴的に提供する。たとえば、キャプションモジュール210の機械学習モデル302は、オーディオデータ304の可聴部分を使用して、オーディオデータ304が2つ以上の選択可能なオプション(たとえば、IVRメニューまたは電話ツリーの番号付きオプション)を含むかどうかを判定することができる。サードパーティは、音声通話中またはビデオ通話中に、2つ以上の選択可能なオプションを可聴的に提供する。
【0080】
506において、オーディオデータが2つ以上の選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、2つ以上の選択可能なオプションのテキスト記述を判定する。テキスト記述は、2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供する。たとえば、オーディオデータ304が2つ以上の選択可能なオプションを含むと判定することに応答して、機械学習モデル302は、2つ以上の選択可能なオプションのテキスト記述306を判定する。テキスト記述306は、2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供する。いくつかの実現例では、テキスト記述306は、2つ以上の選択可能なオプションの単語ごとのトランスクリプションを含む。他の実現例では、テキスト記述306は、2つ以上の選択可能なオプションの言い換えを提供する。
【0081】
508において、コンピューティングデバイスは、2つ以上の選択可能なコントロールを表示する。2つ以上の選択可能なコントロールは、2つ以上の選択可能なオプションのうちの選択されたオプションをサードパーティに示すために、ユーザによって選択可能である。2つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。たとえば、表示コンポーネント118は、コンピューティングデバイス202のディスプレイ上に2つ以上の選択可能なコントロール134を表示する。ディスプレイは、ユーザインターフェイス126を含む。2つ以上の選択可能なコントロール134は、2つ以上の選択可能なオプションのうちの選択されたオプションの指示をサードパーティに提供するために、ユーザによって選択可能である。2つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述306を提供する。
【0082】
実現例
このセクションでは、音声通話およびビデオ通話でユーザを支援することができる、説明するシステムおよび技術の実現例を説明し、これらの全部または一部は、別々にまたは一緒に発生することもある。このセクションでは、さまざまな実現例について説明し、読みやすくするために、各々を特定の図面に関連付けて概説する。
【0083】
図6A図6Dは、音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイス例を示す図である。図6A図6Dは、連続して、図2のコンピューティングデバイス202の文脈で説明される。コンピューティングデバイス202は、図6A図6Dに示されたものよりも少ない機能、または追加の機能を有する異なるユーザインターフェイスを提供し得る。
【0084】
図6Aにおいて、コンピューティングデバイス202は、表示コンポーネント118にユーザインターフェイス126を表示させる。ユーザインターフェイス126は、通信アプリケーション124に関連付けられている。ユーザインターフェイス126は、発信者側ボックス128、テンキーパッドアイコン130、スピーカフォンアイコン132、選択可能なコントロール134、および通話終了アイコン136を含む。
【0085】
ユーザが新しい医療提供会社である医院に電話をかけたとする。この実現例では、ユーザは、通信アプリケーション124を使用して音声通話を行った。他の実現例では、ユーザは、通信アプリケーション124またはコンピューティングデバイス202上の他のアプリケーションを使用して、ビデオ通話を行うことができる。発信者側ボックス128には、サードパーティの事業名(たとえば、医院)と電話番号(たとえば、(111)555-1234)とが表示される。医院は、IVRシステム110を使用して、選択可能なオプションのメニューを可聴的に提供する。IVRシステム110は、発信者を医院の適切な人員およびスタッフに誘導することができる。IVRシステム110が、音声通話に応答する際に「医院にお電話いただきありがとうございます。以下のオプションをお聞きいただき、本日のお電話の目的に最も適したオプションをお選び下さい。処方箋の再処方の場合、1を押して下さい。ご予約の場合、2を押して下さい。請求の場合、3を押して下さい。看護師との通話をご希望の場合、4を押して下さい。」というダイアログを提供する。
【0086】
IVRシステム110が選択可能なオプションを可聴的に提供すると、キャプションモジュール210は、通信アプリケーション124から出力されるオーディオデータ304を取得する。上述したように、オーディオミキサ208は、オーディオデータ304をキャプションモジュール210に送信することができる。キャプションモジュール210は次に、オーディオデータ304が複数の選択可能なオプションを含むと判定する。この判定に応答して、キャプションモジュール210は、選択可能なオプションのテキスト記述306を判定する。たとえば、機械学習モデル302は、選択可能なオプションの少なくとも一部をトランスクライブすることができる。トランスクリプションは、選択可能なオプションの各々の一語一語のトランスクリプションか、または言い換えでもよい。
【0087】
キャプションモジュール210は次に、表示コンポーネント118に、選択可能なコントロール134をユーザインターフェイス126上に表示させる。選択可能なコントロール134は、IVRシステム110によって提供される選択可能なオプションの各々に関連付けられた選択可能なコントロール、すなわち、第1の選択可能なコントロール134-1、第2の選択可能なコントロール134-2、第3の選択可能なコントロール134-3、および第4の選択可能なコントロール134-4を含む。選択可能なコントロール134は、それぞれの選択可能なオプションに関連付けられたテキスト記述306を含む。たとえば、第1の選択可能なコントロール134-1は、テキスト「1-処方箋再処方」を含む。数字「1」は、第1の選択可能なコントロール134-1が、IVRシステム110によって提供される第1の選択可能なオプションに関連付けられていることを示す。第2の選択可能なコントロール134-2は、テキスト「2-予約」を提供する。第3の選択可能なコントロール134-3は、テキスト「3-請求」を表示する。そして、第4の選択可能なコントロール134-4は、テキスト「4-看護師と通話」を含む。いくつかの実現例では、選択可能なコントロール134は、各選択可能なオプションに関連付けられた数字を省略することができる。
【0088】
上述したように、選択可能なコントロール134は、ユーザインターフェイス126上にさまざまな形態で提示することができる。たとえば、選択可能なコントロール134は、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンであり得る。ユーザは、選択可能なコントロール134を選択して、コンピューティングデバイス202に、複数の選択可能なオプションのうちの選択されたオプションをIVRシステム110に指示させることができる。
【0089】
IVRシステム110が選択可能なオプションを提供することに応答して、ユーザは、テンキーアイコン130を選択してテンキーを表示し、所望の選択可能なオプションに関連付けられた番号を選択することができる。たとえば、ユーザは、テンキーで数字「2」を選択して、予約することができる。これに応答して、コンピューティングデバイス202は、IVRシステム110にDTMFトーンを送信することができる。他の実現例では、IVRシステム110は、ユーザが数字「2」を可聴的に言うことによって、選択されたオプションを提供することを可能にし得る。また、説明するシステムおよび技術により、ユーザは、所望のオプションに関連付けられた選択可能なコントロール134を選択することができる。この例では、ユーザは、第2の選択可能なコントロール134-2を選択して、新たに予約する。ユーザが第2の選択可能なコントロール134-2を選択することに応答して、入力コンポーネント120は、コンピューティングデバイス202に、番号「2」に関連付けられたDTMFトーンまたは番号「2」の可聴通信を、IVRシステム110に送信させる。このように、説明するシステムおよび技術は、ユーザが選択可能なIVRメニューオプションをナビゲートし、所望のオプションを選択するのを支援する。
【0090】
いくつかの実現例では、コンピューティングデバイス202は、IVRメニューの異なるレベルに応じて、一連の選択可能なコントロール134を提供することができる。コンピューティングデバイス202は、現在の選択可能なオプションに対応するように、選択可能なコントロール134を更新することができる。他の実現例では、コンピューティングデバイス202は、音声通話またはビデオ通話の以前からの選択可能なオプションの以前のメニューを表示するオプションを提供することができる。
【0091】
図6Bは、ユーザ情報の要求に応答するユーザインターフェイス126の例である。前のシナリオでユーザが第2の選択可能なコントロール134-2を選択したことに応答して、IVRシステム110は、ユーザを医院の受付係に誘導する。ユーザは新患であるため、受付係は、ユーザに関連するアカウントまたはプロファイルを設定するために一連の質問を行い得る。たとえば、受付係はユーザの医療保険情報を要求することがある。このような状況では、オーディオデータ304は「医療保険に加入していますか?」という質問を含み得る。機械学習モデル302は、医院との音声通話の可聴部分を使用して、オーディオデータ304がユーザ情報の要求を含むかどうかを判定することができる。この例では、機械学習モデル302は、会話の他の部分およびサードパーティが診療所であるという文脈と共に、「医療保険」という単語を使用して、オーディオデータ304がユーザ情報の要求を含むと判定することができる。
【0092】
機械学習モデル302は、それに応答して、ユーザ情報の要求のテキスト記述306を判定することができる。この例では、機械学習モデル302またはキャプションモジュール210は、テキスト記述306が「医療保険」を含むと判定する。キャプションモジュール210またはコンピューティングデバイス202は次に、CRM206内の医療保険情報の要求に応答してユーザデータを識別し、表示コンポーネント118にそれをユーザインターフェイス126上に表示させることができる。この例では、ユーザデータは、保険会社、保険契約番号、またはアカウント識別子を含み得る。コンピューティングデバイス202はまた、電子メールアプリケーション内の電子メールまたは連絡先アプリケーションに格納されたプロファイル情報から、医療保険情報を取り出すこともできる。いくつかの実現例では、コンピューティングデバイス202は、CRM206のセキュアなエンクレーブ、またはコンピューティングデバイス202内の他のメモリから、機密性の高いユーザデータを格納し、取り出すことができる。
【0093】
表示コンポーネント118は、ユーザインターフェイス126上のメッセージ要素600にユーザデータ(たとえば、保険会社および保険契約番号)を表示することができる。メッセージ要素600は、テキスト情報を表示するためのアイコン、通知、メッセージボックス、または同様のユーザインターフェイス要素であり得る。メッセージ要素600はまた、コンテキストを提供するために、ユーザ情報の要求のテキスト記述306を含み得る。この例では、メッセージ要素600は、「あなたの保険会社:アペックス医療保険会社」および「あなたの保険番号:123456789-0」というテキストを提供する。示されている実現例では、メッセージ要素600は、単一のメッセージ要素600で両方のユーザデータセットを提供する。他の実現例では、表示コンポーネント118は、複数のメッセージ要素604にユーザデータを含めることができる。
【0094】
表示コンポーネント118は、受付係が質問した直後に、メッセージ要素600をユーザインターフェイス126上に表示する。いくつかの実現例では、コンピューティングデバイス202は、オーディオデータ304から、ユーザが医院の新しい患者であると判定することができる。このコンテキストに応答して、機械学習モデル302またはキャプションモジュール210は、受付係が医療保険情報を尋ねると予測し、このユーザデータを取り出すことができる。他の実現例では、機械学習モデル302またはキャプションモジュール210は、ユーザが診療所に電話したときに医療保険情報が要求される可能性があると予測することができる。このような状況では、医療保険情報を、この情報の要求に応答して表示することができる。
【0095】
コンピューティングデバイス202は、センサ214を使用して、コンピューティングデバイス202のコンテキストを判定することができる。ユーザがディスプレイを見ていないと判定することに応答して、コンピューティングデバイス202は、オーディオコンポーネント116に音声信号または触覚フィードバックを提供させることができる。音声信号は、ユーザ情報要求に関連するユーザデータが表示されていると、ユーザに警告することができる。たとえば、コンピューティングデバイス202が、(たとえば、近接センサ、ジャイロスコープ、または加速度計を使用することによって)ユーザがコンピューティングデバイス202を耳に当てていると判定した場合、コンピューティングデバイス202は、オーディオコンポーネント116に、ユーザのみが聞くことができる音声信号(たとえば、ソフトトーン)を提供させることができる。他の実現例では、コンピューティングデバイス202は、警告として、ユーザに触覚フィードバックを提供することができる。
【0096】
医療保険情報を含むメッセージ要素600を読み出すことに応答して、ユーザはこの情報を受付係に可聴的に提供することができる。状況によっては、ユーザは公共の場にいて、ユーザデータを可聴的に提供したくない場合もある。その結果、ユーザは、複数の選択可能なコントロール134のうちの1つを選択することができる。表示コンポーネント118は、第5の選択可能なコントロール134-5および第6の選択可能なコントロール134-6を表示する。第5の選択可能なコントロール134-5は、「私の保険会社を読み出し」というテキストを含む。第6の選択可能なコントロール134-6は、「私の保険番号を読み出し」というテキストを読む。ユーザが選択可能なコントロール134のうちの1つを選択することに応答して、コンピューティングデバイス202は、ユーザにこの情報を可聴的に提供することを要求することなく、オーディオミキサ208に、それぞれのユーザデータを受付係に対して可聴的に読ませる。他の実現例では、コンピューティングデバイス202は、ユーザデータ(たとえば、医療保険情報)を受付係に電子メールで送信、テキストで送信、または他の態様で送信するための追加の選択可能なコントロール134を、ユーザに与えることができる。このように、説明する技術およびシステムは、音声通話およびビデオ通話中に、機密性の高いユーザデータを別の人物またはエンティティと共有するための安全な、かつ非公開の方法を提供する。
【0097】
図6Cにおいて、コンピューティングデバイス202は、提案された予約時間に応答してユーザデータを提供する。医院への前回の音声通話を考える。ユーザが医療保険情報を提供した後、受付係は火曜日の午前11時の予約を提案する。たとえば、オーディオデータ304には、「来週の火曜日の午前11時でよろしいですか?」という受付係からの質問が含まれている。提案された時間に応答して、コンピューティングデバイス202は、カレンダーアプリケーション内のユーザカレンダー情報をチェックし、予定が重なっている可能性を特定することができる。この例では、ユーザは、火曜日の午前11時15分に歯科医院の予約を取っている。コンピューティングデバイス202は、表示コンポーネント118に、この情報をメッセージ要素600に表示させる。たとえば、表示コンポーネント118は、「午前11時15分の歯医者の予約」というテキストを表示することができる。いくつかの実現例では、コンピューティングデバイス202は、ユーザカレンダー情報に基づいて、代替の時間を自動的に提案することもできる。表示コンポーネント118は、「予定が重なっているので、代わりにこれらの時間はいかがでしょうか:火曜日の午前9時30分[または]水曜日の午後1時」というテキストを表示することができる。このように、コンピューティングデバイス202は、ユーザが医院に新しく予約する手助けをする。ユーザは、受付係と話している間、以前に取った歯医者の予約を呼び出したり、コンピューティングデバイス202上のカレンダーアプリケーションを開いたりしてはならない。また、ユーザは、予定が重なっていることを思い出した後、予約を再び取るために医院に電話をかけ直すことも避けることができる。
【0098】
図6Dにおいて、コンピューティングデバイス202は、音声通話に関連する伝達情報を表示する。前回の医院への音声通話について考える。受付係は、水曜日の午後1時に予約枠が空いており、「11月4日水曜日の午後1時に予約をお取りしました。」と言って予約を確認した。これに応答して、コンピューティングデバイス202は、表示コンポーネント118に、メッセージ要素600に予約の詳細を表示させることができる。たとえば、メッセージ要素600は、「2020年11月4日水曜日午後1時、医院の診察予約」という伝達情報を提供することができる。
【0099】
コンピューティングデバイス202はまた、第7の選択可能なコントロール134-7および第8の選択可能なコントロール134-8を含む、伝達情報に関連するいくつかの選択可能なコントロールをユーザに提供することができる。この例では、第7の選択可能なコントロール134-7は、「カレンダーに保存」というテキストを表示する。選択されると、第7の選択可能なコントロール134-7は、コンピューティングデバイス202に、予約情報をカレンダーアプリケーションに保存させる。第8の選択可能なコントロール134-8は、「配偶者に送信」というテキストを表示する。選択されると、第8の選択可能なコントロール134-8は、コンピューティングデバイス202に、予約情報を配偶者に送信させる。ユーザは、可聴コマンドを介して、コンピューティングデバイス202に、予約情報をカレンダーアプリケーションに保存させることもできる。
【0100】
コンピューティングデバイス202は、表示コンポーネント118に、音声通話が終了するまで、およびその後数分間、予約に関連するメッセージ要素600および選択可能なコントロール134を、ユーザインターフェイス126上に残させることができる。他の実現例では、ユーザは、通信アプリケーション124の履歴メニューで医院との会話を選択することにより、メッセージ要素600および選択可能なコントロールを含むこの情報を取り出すことができる。このように、ユーザは、予定を書き留めたり、後で予定を呼び出したり、カレンダーアプリケーションに別途予定を入力したりすることなく、音声通話またはビデオ通話から伝達情報を保存することができる。図6A図6Dに関して説明する特徴および機能により、コンピューティングデバイス202は、音声通話およびビデオ通話において、よりユーザフレンドリーな体験を提供することができる。
【0101】
図7A図7Cは、音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す。図7A図7Cは、連続して、コンピューティングデバイス202の文脈で説明される。コンピューティングデバイス202は、図7A図7Cに示されたものよりも少ない機能、または追加の機能を有する異なるユーザインターフェイスを提供し得る。
【0102】
図7Aにおいて、コンピューティングデバイス202は、表示コンポーネントにユーザインターフェイス126を表示させる。ユーザが、通信アプリケーション124を使用して、友人のエイミーに音声通話をかけたとする。発信者側ボックス128は、エイミーの名前と電話番号(たとえば、(111)555-6789)を提供する。音声通話中、エイミーはユーザの新しい住所をユーザに尋ねる。図7Aに示すように、オーディオデータ304には、「あなたの新しい住所は?」というフレーズが含まれる。
【0103】
オーディオデータ304がユーザ情報(たとえば、ユーザアドレス)の要求を含むと判定することに応答して、コンピューティングデバイス202は、要求の記述を判定する。この例では、キャプションモジュール210は、要求のテキスト記述306がユーザの自宅住所を含むと判定する。コンピューティングデバイス202は、CRM206内の自宅住所を探し出し、それをユーザインターフェイス126に表示する。たとえば、表示コンポーネント118は、メッセージ要素700に、テキスト記述306および応答するユーザデータを提供させることができる。メッセージ要素700は、「あなたの住所:郵便番号94016 カリフォルニア州サンフランシスコ1丁目100番地」という情報を提供する。ほとんどの場合、ユーザはこのユーザデータを思い出すが、特定の詳細事項(郵便番号など)を思い出すのに助けが必要な場合がある。
【0104】
コンピューティングデバイス202は、表示コンポーネント118に選択可能なコントロール702を表示させることもできる。ユーザは、エイミーに自宅住所を可聴的に提供することができる。状況によっては、ユーザは公共の場にいる場合があり、自分の住所を可聴的に提供したくない場合がある。その結果、ユーザは選択可能なコントロール702のうちの1つを選択することができる。この例では、選択可能なコントロール702は、第1の選択可能なコントロール702-1、第2の選択可能なコントロール702-2、および第3の選択可能なコントロール702-3を含む。第1の選択可能なコントロール702-1は、「私の住所を読み出し」というテキストを含む。選択されると、第1の選択可能なコントロール702-1は、ユーザがこの情報を可聴的に提供することを要求することなく、音声ミキサー208にエイミーに対して自宅住所を可聴的に読ませる。第2の選択可能なコントロール702-2は、「住所をテキストで送信」というテキストを含む。選択されると、第2の選択可能なコントロール702-2は、通信アプリケーション124または別のアプリケーションに、通信ユニット116を使用して、エイミーに対して自宅住所を有するテキストメッセージを送信させる。第3の選択可能なコントロール702-3は、「住所を電子メールで送信」というテキストを含む。第3の選択可能なコントロール702-3は、選択されると、電子メールアプリケーションに、自宅住所を有する電子メールをエイミーに対して送信させる。コンピューティングデバイス202は、連絡先アプリケーションからエイミーの電子メールアドレスを取得することができる。このように、コンピューティングデバイス202は、音声通話またはビデオ通話において、ユーザに、機密性の高いユーザデータを近くにいる人に可聴的に流すことなく共有する安全な方法を提供する。
【0105】
図7Bにおいて、コンピューティングデバイス202は、音声通話に関連する伝達情報を表示する。エイミーとの以前の音声通話と、エイミーが新しい連絡先情報(たとえば、彼女の新しい仕事の電子メールアドレス)を提供することとを考える。これに応答して、コンピューティングデバイス202は、伝達情報をユーザに提供する。キャプションモジュール210は、オーディオデータ304が、エイミーが新しい電子メールアドレス「私の電子メールアドレスはamy@email.comです」を提供することを含むと判定する。次に、表示コンポーネント118は、新しい電子メールアドレスをメッセージ要素702に表示する。メッセージ要素は、「エイミーの電子メールアドレス:amy@email.com」というテキストを提供する。
【0106】
いくつかの実現例では、コンピューティングデバイス202は、新しい電子メールアドレスがコンピューティングデバイス202に(たとえば、連絡先アプリケーションまたは電子メールアプリケーションに)保存されていないと確認することができる。新しい電子メールアドレスが保存されている場合、コンピューティングデバイス202は、キャプションモジュール210に、この伝達情報を表示させないようにし得る。新しい電子メールアドレスが保存されていない場合、コンピューティングデバイス202は、キャプションモジュール210に、この伝達情報を表示させ得る。
【0107】
コンピューティングデバイス202は、第4の選択可能なコントロール702-4を表示することができる。第4の選択可能なコントロール702-4は、「連作先に保存」というテキストを含む。第4の選択可能なコントロール702-4は、選択されると、コンピューティングデバイス202に、電子メールアドレスを連絡先アプリケーションに保存させる。
【0108】
図7Cにおいて、コンピューティングデバイス202は、音声通話中に伝達情報に応答して、追加の選択可能なコントロールを提供する。エイミーとの以前の音声通話で、ユーザとエイミーとがランチのために会うことに合意したことを考える。オーディオデータ304は、ユーザが可聴的に話した「メリーのレストランで20分後に会いましょう。」というフレーズを含む。この伝達情報に応答して、コンピューティングデバイス202は、メリーのレストランのアドレスをメッセージ要素700に表示することができる。メッセージ要素702は、「メリーのレストランのアドレス:郵便番号94016 カリフォルニア州サンフランシスコ20丁目500番地」というテキストを含む。コンピューティングデバイス202は、第5の選択可能なコントロール702-5を表示することもできる。第5の選択可能なコントロール702-5は、「メリーのレストランへの道順」というテキストを表示する。選択されると、第5の選択可能なコントロール702-5は、コンピューティングデバイス202に、ナビゲーションアプリケーションからのナビゲーション指示を開始させる。
【0109】
いくつかの実現例では、第5の選択可能なコントロール702-5は、伝達情報に関連するナビゲーションアプリケーションの機能のサブセットを提供するナビゲーションアプリケーションのスライスウィンドウであり得る。たとえば、ナビゲーションアプリケーションのスライスウィンドウは、ユーザにメリーのレストランへの徒歩での道順、車での道順、または公共交通機関での道順を選択することを可能にする。
【0110】
図8A図8Dは、ユーザの音声通話およびビデオ通話を支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す。図8A図8Dは、連続して、図2のコンピューティングデバイス202の文脈で説明される。コンピューティングデバイス202は、図8A図8Dに示されたものよりも少ない機能、または追加の機能を有する異なるユーザインターフェイスを提供し得る。
【0111】
図8Aにおいて、コンピューティングデバイス202は、IVRシステム110の選択可能なオプションに応答して、表示コンポーネント118に、メッセージ要素800および選択可能なコントロール802を有するユーザインターフェイス126を表示させる。ユーザが新しい公益事業会社に音声通話をかけたとする。発信者側ボックス128には、通話相手の事業名(たとえば、公益事業会社)と電話番号(たとえば、(111)555-2345)とが表示される。
【0112】
IVRシステム110は、一連の質問および文に対する音声応答を提供するよう発信者に促す音声応答システムを使用する。オーディオデータ304に、「新規顧客登録についてご連絡いただきありがとうございます。ご興味のあるサービスの種類をおっしゃって下さい。」という文が含まれているとする。IVRシステム110は、提供されるサービスのリストと一致またはかなり一致するフレーズを聞くことができる。たとえば、公益事業会社は、家庭用インターネットサービス、家庭用電話、またはテレビサービスという選択可能なオプションのうちの1つを聞き取ることができる。コンピューティングデバイス202は、オーディオデータ304が2つ以上の選択可能なオプションの暗黙のリストを含むと判定することができる。表示コンポーネント118は、メッセージ要素800に、「以下は、新規顧客によって提供される一般的な応答のリストです。」というテキストを表示することができる。この例では、選択可能なコントロール802は、第1の選択可能なコントロール802-1(たとえば、「家庭用インターネットサービス」)、第2の選択可能なコントロール802-2(たとえば、「家庭用電話」)、および第3の選択可能なコントロール802-3(たとえば、「テレビサービス」)を含み得る。選択可能なコントロール802は、追加の提案またはより少ない提案を含み得る。ユーザは、選択可能なコントロール802のうちの1つを選択して、音声ミキサー208に、選択されたオプションを可聴的にIVRシステム110に提供させることができる。
【0113】
コンピューティングデバイス202は、音声通話の可聴部分から利用可能なサービスを解読することによって、オーディオデータ304に基づいて潜在的な提案を判定することができる。また、コンピューティングデバイス202は、同じ公共事業体または同様の会社によって同様の要求が与えられた他のコンピューティングデバイスから得られたデータに基づいて、選択可能なオプションを判定することもできる。このように、コンピューティングデバイス202は、ユーザがオープンエンドのIVRプロンプトをナビゲートし、効果的でない応答を回避したり、システムを再起動させたりするのを助けることができる。
【0114】
図8Bは、ユーザ情報(たとえば、支払い情報)の要求に応答するユーザインターフェイス126の例である。ユーザが家庭用インターネットサービスを選択したことに応答して、IVRシステム110は、ユーザをアカウント専門家に誘導し、新しいアカウントを設定して家庭用インターネットサービスを開始する。ユーザは新しいアカウント所有者であるため、アカウント専門家は、アカウントを設定するためにクレジットカード番号を含む支払い情報を収集する。たとえば、オーディオデータ304は、専門家からの「新しいサービスのご希望の支払方法を提供して下さい」という要求を含み得る。オーディオデータ304がユーザ情報の要求を含むと判定することに応答して、コンピューティングデバイス202は、要求のテキスト記述306を判定する。この例では、キャプションモジュール210は、テキスト記述306がクレジットカード情報を要求していると判定する。コンピューティングデバイス202は、CRM206内のクレジットカード情報を識別し、ユーザデータをユーザインターフェイス126上に表示する。応答要素800は、「あなたのクレジットカード情報:####-####-####-1234、[有効期限]01/21、[PIN]789」という情報を含む。
【0115】
コンピューティングデバイス202はまた、ユーザデータが機密情報を含むかどうかを判定することができる。ユーザデータの一部が機密情報であると判定したことに応答して、コンピューティングデバイス202は、機密情報の一部を不明瞭にすることができる(たとえば、クレジットカード番号の少なくとも数桁を、「#」または「*」を含む異なる記号に置き換えるか、または省略する)。このように、コンピューティングデバイス202は、機密情報の秘匿性を維持し、他の人から見えにくくすることができる。
【0116】
表示コンポーネント118は、ユーザデータの機密性を維持するために、選択可能なコントロール802を表示することができる。この例では、表示コンポーネント118は、「クレジットカード情報を読んで下さい」というテキストを含む第4の選択可能なコントロール802-4を表示する。選択されると、第4の選択可能なコントロール802-4は、コンピューティングデバイス202に、クレジットカード番号、有効期限、およびPINの全部を、アカウント専門家に可聴的に読ませる。このように、コンピューティングデバイス202は、ユーザが機密性の高いクレジットカード情報をアカウント専門家と共有するための安全な方法を提供する。
【0117】
図8Cにおいて、コンピューティングデバイス202は、音声通話に関連する伝達情報を表示する。公益事業会社への以前の音声通話を考える。アカウント専門家は、アカウント情報(たとえば、アカウント番号および個人識別番号(PIN))をユーザに提供する。この状況において、オーディオデータ304は、「あなたの新しいアカウント番号はUTIL12345で、あなたのアカウントに関連付けられたPINは6789です。」という文を含む。これに応答して、コンピューティングデバイス202は、メッセージ要素800にアカウント番号とPINとを表示する。具体的には、メッセージ要素802は、「あなたのアカウント番号:UTIL12345、あなたのPIN:6789」を表示する。コンピューティングデバイス202は、第5の選択可能なコントロール802-5および第6の選択可能なコントロール802-6を、ユーザに提供することができる。第5の選択可能なコントロール802-5は、「連作先に保存」というテキストを含む。選択されると、第5の選択可能なコントロール802-5は、コンピューティングデバイス202に、アカウント番号およびPINを連絡先アプリケーションに保存させる。第6の選択可能なコントロール802-6は、「セキュアメモリに保存」というテキストを含む。選択されると、第6の選択可能なコントロール802-6は、コンピューティングデバイス202に、アクセスするためにアプリケーションまたはユーザによる特別な特権を必要とするセキュアメモリに、アカウント番号およびPINを保存させる。
【0118】
図8Dにおいて、コンピューティングデバイス202は、以前の音声通話に関連する伝達情報を表示する。公益事業会社への以前の音声通話を考える。この例では、ユーザは、音声通話の間またはその直後に、ユーザインターフェイス上に表示された伝達情報を確認することができなかった。コンピューティングデバイス202は、音声通話に関連するメッセージ要素802、第5の選択可能なコントロール802-5、第6の選択可能なコントロール802-6、またはそれらの組み合わせを格納することができる。このように、ユーザは、後で伝達情報のテキスト記述306にアクセスすることができる。
【0119】
通話履歴は、各音声通話またはビデオ通話に関連するユーザインターフェイス126を提供することができる。たとえば、公益事業会社との音声通話の履歴に関連付けられたユーザインターフェイス126は、履歴要素804を含み得る。履歴要素804は、「11月2日の発信」というテキストを含む、音声通話に関する履歴情報を含み得る。
【0120】
状況によっては、ユーザは、公益事業会社との音声通話の終了直後に別の音声通話もしくはビデオ通話を行わなければならないか、またはコンピューティングデバイス202上で別の機能を実行しなければならない場合がある。コンピューティングデバイス202は、各音声通話またはビデオ通話に関連付けられたメッセージ要素800および選択可能なコントロール802を、通信アプリケーション124に関連付けられたメモリに格納することができる。通信アプリケーション124は、通話履歴を含み得る。このように、ユーザは、後で都合のよいときに、音声通話またはビデオ通話に関連するメッセージ要素800および選択可能なコントロール802を取り出すことができる。
【0121】

以下のセクションでは、例について説明する。
【0122】
例1:方法であって、コンピューティングデバイスが、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得することを含み、オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含み、方法はさらに、コンピューティングデバイスが、可聴部分を使用して、オーディオデータが2つ以上の選択可能なオプションを含むかどうかを判定することを含み、2つ以上の選択可能なオプションは、音声通話中またはビデオ通話中にサードパーティによって可聴的に提供され、方法はさらに、オーディオデータが2つ以上の選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスが、2つ以上の選択可能なオプションのテキスト記述を判定することを含み、テキスト記述は、2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供し、方法はさらに、コンピューティングデバイスのディスプレイ上に2つ以上の選択可能なコントロールを表示することを含み、2つ以上の選択可能なコントロールは、2つ以上の選択可能なオプションのうちの選択されたオプションの指示をサードパーティに提供するために、ユーザによって選択可能に構成され、2つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。
【0123】
例2:方法はさらに、選択されたオプションに関連付けられた2つ以上の選択可能なコントロールのうちの1つの選択可能なコントロールの選択を受信することを含み、選択は、音声通話中またはビデオ通話中にユーザによって行われ、方法はさらに、1つの選択可能なコントロールの選択を受信したことに応答して、コンピューティングデバイスが、選択されたオプションをサードパーティに伝達することを含む、例1に記載の方法。
【0124】
例3:選択されたオプションをサードパーティに伝達することは、ユーザが選択されたオプションを可聴的に伝達することなく、コンピューティングデバイスが、音声応答またはDTMF(Dual-Tone Multi-Frequency)トーンをサードパーティに送信することを含む、例2に記載の方法。
【0125】
例4:方法はさらに、選択されたオプションをサードパーティに伝達することに応答して、コンピューティングデバイスが、通信アプリケーションから出力される追加のオーディオデータを取得することを含み、追加のオーディオデータは、選択されたオプションに応答して、音声通話中またはビデオ通話中にサードパーティによって可聴的に提供される2つ以上の追加の選択可能なオプションを含む、例2または3に記載の方法。
【0126】
例5:方法はさらに、コンピューティングデバイスが、可聴部分を使用して、オーディオデータがユーザ情報の要求を含むかどうかを判定することを含み、ユーザ情報の要求は、音声通話中またはビデオ通話中にサードパーティによって可聴的に提供され、方法はさらに、コンピューティングデバイスが、可聴部分を使用して、ユーザ情報の要求に応答してユーザデータを特定することと、音声通話中またはビデオ通話中に、コンピューティングデバイスが、ユーザデータをディスプレイ上に表示すること、またはコンピューティングデバイスが、ユーザデータをサードパーティに提供することとを含む、先行する例のいずれか1つに記載の方法。
【0127】
例6:方法はさらに、コンピューティングデバイスが、可聴部分を使用して、オーディオデータが伝達情報を含むかどうかを判定することを含み、伝達情報は、音声通話またはビデオ通話のコンテキストに関連し、音声通話またはビデオ通話中にサードパーティまたはユーザによって可聴的に提供され、方法はさらに、オーディオデータが伝達情報を含むと判定することに応答して、コンピューティングデバイスが、伝達情報のテキスト記述を判定することを含み、伝達情報のテキスト記述は、伝達情報の少なくとも一部のトランスクリプションを提供し、方法はさらに、他の選択可能なコントロールをディスプレイ上に表示することを含み、他の選択可能なコントロールは、伝達情報のテキスト記述を提供し、伝達情報を、コンピューティングデバイス、アプリケーション、またはコンピューティングデバイス上の他のアプリケーションのうちの少なくとも1つに保存するように、ユーザによって選択可能に構成されている、先行する例のいずれか1つに記載の方法。
【0128】
例7:2つ以上の選択可能なオプションのテキスト記述を判定することは、コンピューティングデバイスが、2つ以上の選択可能なオプションのテキスト記述を判定するために機械学習モデルを実行することを含み、機械学習モデルは、オーディオデータからテキスト記述を判定するように訓練され、オーディオデータは、コンピューティングデバイスのオーディオミキサから受信される、先行する例のいずれか1つに記載の方法。
【0129】
例8:機械学習モデルは、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデルを含む、例7に記載の方法。
【0130】
例9:2つ以上の選択可能なオプションは、自動音声応答(IVR)システムまたは音声応答ユニット(VRU)システムのオプションを表すメニューであり、IVRシステムまたはVRUシステムは、ユーザと対話し、ユーザを、IVRシステムまたはVRUシステムの別のメニュー、サードパーティに関連する人員、サードパーティに関連する部署、サードパーティに関連するサービス、またはサードパーティに関連する情報のうちの少なくとも1つに誘導するように構成されている、先行する例のいずれか1つに記載の方法。
【0131】
例10:2つ以上の選択可能なコントロールは、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンのうちの少なくとも1つを含み、通信アプリケーションのユーザインターフェイスに含まれる、先行する例のいずれか1つに記載の方法。
【0132】
例11:テキスト記述は、2つ以上の選択可能なオプションの各々に関連付けられた番号を含み、選択可能なコントロールの各々は、2つ以上の選択可能なオプションの各々に関連付けられた番号の視覚的表現を含む、先行する例のいずれか1つに記載の方法。
【0133】
例12:コンピューティングデバイスのディスプレイはタッチ感知スクリーンを含み、選択可能なコントロールはタッチ感知スクリーン上に提示される、先行する例のいずれか1つに記載の方法。
【0134】
例13:コンピューティングデバイスは、スマートフォン、コンピュータ化された時計、タブレットデバイス、ウェアラブルデバイス、またはラップトップコンピュータを含む、先行する例のいずれか1つに記載の方法。
【0135】
例14:例1~13に記載の方法のうちのいずれか1つを実行するように構成された少なくとも1つのプロセッサを備える、コンピューティングデバイス。
【0136】
例15:実行されると、例1~13に記載の方法のうちのいずれか1つを実行するようにコンピューティングデバイスのプロセッサを構成する命令を含む、コンピュータ読取可能記憶媒体。
【0137】
結論
IVRシステム用にコンピューティングデバイス上に選択可能なコントロールを提供するためのさまざまな構成および方法について、特徴および/または方法に特有の言語で説明してきたが、添付の特許請求の範囲の主題は、必ずしも説明された特定の特徴または方法に限定されないことを理解されたい。むしろ、特定の特徴および方法は、IVRシステム用のコンピューティングデバイス上で選択可能なコントロールを提供するための非限定的な例として開示されている。さらに、さまざまな例が上述され、各例は特定の特徴を有するが、1つの例の特定の特徴がその例と排他的に使用される必要はないことが理解されるべきである。その代わり、上述したおよび/または図面に示された特徴のいずれかを、それらの例の他の特徴のいずれかに加えて、またはその代わりに、いずれかの例と組み合わせることができる。
図1
図2
図3
図4
図5
図6A
図6B
図6C
図6D
図7A
図7B
図7C
図8A
図8B
図8C
図8D
【手続補正書】
【提出日】2023-11-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
方法であって、
コンピューティングデバイスが、前記コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得することを含み、前記オーディオデータは、前記コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含み、前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータが2つ以上の選択可能なオプションを含むかどうかを判定することを含み、前記2つ以上の選択可能なオプションは、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供され、前記方法はさらに、
前記オーディオデータが前記2つ以上の選択可能なオプションを含むと判定することに応答して、前記コンピューティングデバイスが、前記2つ以上の選択可能なオプションのテキスト記述を判定することを含み、前記テキスト記述は、前記2つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供し、前記方法はさらに、
前記コンピューティングデバイスのディスプレイ上に2つ以上の選択可能なコントロールを表示することを含み、前記2つ以上の選択可能なコントロールは、前記2つ以上の選択可能なオプションのうちの選択されたオプションの指示を前記サードパーティに提供するために、前記ユーザによって選択可能に構成され、前記2つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションの前記テキスト記述を提供する、方法。
【請求項2】
前記方法はさらに、
前記選択されたオプションに関連付けられた前記2つ以上の選択可能なコントロールのうちの1つの選択可能なコントロールの選択を受信することを含み、前記選択は、前記音声通話中または前記ビデオ通話中に前記ユーザによって行われ、前記方法はさらに、
前記1つの選択可能なコントロールの選択を受信したことに応答して、前記コンピューティングデバイスが、前記選択されたオプションを前記サードパーティに伝達することを含む、請求項1に記載の方法。
【請求項3】
前記選択されたオプションを前記サードパーティに伝達することは、前記ユーザが前記選択されたオプションを可聴的に伝達することなく、前記コンピューティングデバイスが、音声応答またはDTMF(Dual-Tone Multi-Frequency)トーンを前記サードパーティに送信することを含む、請求項2に記載の方法。
【請求項4】
前記方法はさらに、
前記選択されたオプションを前記サードパーティに伝達することに応答して、前記コンピューティングデバイスが、前記通信アプリケーションから出力される追加のオーディオデータを取得することを含み、前記追加のオーディオデータは、前記選択されたオプションに応答して、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供される2つ以上の追加の選択可能なオプションを含む、請求項2または3に記載の方法。
【請求項5】
前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータがユーザ情報の要求を含むかどうかを判定することを含み、前記ユーザ情報の要求は、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供され、前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記ユーザ情報の要求に応答してユーザデータを特定することと、
前記音声通話中または前記ビデオ通話中に、前記コンピューティングデバイスが、前記ユーザデータを前記ディスプレイ上に表示すること、または前記コンピューティングデバイスが、前記ユーザデータを前記サードパーティに提供することとを含む、請求項1~4のいずれか1項に記載の方法。
【請求項6】
前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータが伝達情報を含むかどうかを判定することを含み、前記伝達情報は、前記音声通話または前記ビデオ通話のコンテキストに関連し、前記音声通話中または前記ビデオ通話中に前記サードパーティまたは前記ユーザによって可聴的に提供され、前記方法はさらに、
前記オーディオデータが前記伝達情報を含むと判定することに応答して、前記コンピューティングデバイスが、前記伝達情報のテキスト記述を判定することを含み、前記伝達情報の前記テキスト記述は、前記伝達情報の少なくとも一部のトランスクリプションを提供し、前記方法はさらに、
他の選択可能なコントロールを前記ディスプレイ上に表示することを含み、前記他の選択可能なコントロールは、前記伝達情報の前記テキスト記述を提供し、前記伝達情報を、前記コンピューティングデバイス、前記アプリケーション、または前記コンピューティングデバイス上の他のアプリケーションのうちの少なくとも1つに保存するように、前記ユーザによって選択可能に構成されている、請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記2つ以上の選択可能なオプションの前記テキスト記述を判定することは、前記コンピューティングデバイスが、前記2つ以上の選択可能なオプションの前記テキスト記述を判定するために機械学習モデルを実行することを含み、前記機械学習モデルは、前記オーディオデータからテキスト記述を判定するように訓練され、前記オーディオデータは、前記コンピューティングデバイスのオーディオミキサから受信される、請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記機械学習モデルは、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデルを含む、請求項7に記載の方法。
【請求項9】
前記2つ以上の選択可能なオプションは、自動音声応答(IVR)システムまたは音声応答ユニット(VRU)システムのオプションを表すメニューであり、前記IVRシステムまたは前記VRUシステムは、前記ユーザと対話し、前記ユーザを、前記IVRシステムまたは前記VRUシステムの別のメニュー、前記サードパーティに関連する人員、前記サードパーティに関連する部署、前記サードパーティに関連するサービス、または前記サードパーティに関連する情報のうちの少なくとも1つに誘導するように構成されている、請求項1~8のいずれか1項に記載の方法。
【請求項10】
前記2つ以上の選択可能なコントロールは、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンのうちの少なくとも1つを含み、前記通信アプリケーションのユーザインターフェイスに含まれる、請求項1~9のいずれか1項に記載の方法。
【請求項11】
前記テキスト記述は、前記2つ以上の選択可能なオプションの各々に関連付けられた番号を含み、前記選択可能なコントロールの各々は、前記2つ以上の選択可能なオプションの各々に関連付けられた前記番号の視覚的表現を含む、請求項1~10のいずれか1項に記載の方法。
【請求項12】
前記コンピューティングデバイスの前記ディスプレイはタッチ感知スクリーンを含み、前記選択可能なコントロールは前記タッチ感知スクリーン上に提示される、請求項1~11のいずれか1項に記載の方法。
【請求項13】
前記コンピューティングデバイスは、スマートフォン、コンピュータ化された時計、タブレットデバイス、ウェアラブルデバイス、またはラップトップコンピュータを含む、請求項1~12のいずれか1項に記載の方法。
【請求項14】
請求項1~13のいずれか1項に記載の方法を実行するように構成された少なくとも1つのプロセッサを備える、コンピューティングデバイス。
【請求項15】
実行されると、請求項1~13のいずれか1項に記載の方法を実行するようにコンピューティングデバイスのプロセッサを構成する命令を含む、プログラム
【国際調査報告】