特許7701448 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特許7701448自動音声応答システム用の選択可能なコントロール

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
6C
6D
7A
7B
7C
8A
8B
8C
8D

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-06-23

(45)【発行日】2025-07-01

(54)【発明の名称】自動音声応答システム用の選択可能なコントロール

(51)【国際特許分類】

H04M 1/72478 20210101AFI20250624BHJP

H04M 3/527 20060101ALI20250624BHJP

G10L 15/00 20130101ALI20250624BHJP

G06F 3/16 20060101ALI20250624BHJP

【ＦＩ】

H04M1/72478

H04M3/527

G10L15/00 200A

G06F3/16 600

G06F3/16 620

G06F3/16 690

【請求項の数】 14

(21)【出願番号】P 2023534701

(86)(22)【出願日】2020-12-08

(65)【公表番号】

(43)【公表日】2023-12-19

(86)【国際出願番号】 US2020063708

(87)【国際公開番号】W WO2022125061

(87)【国際公開日】2022-06-16

【審査請求日】2023-11-27

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】110001195

【氏名又は名称】弁理士法人深見特許事務所

(72)【発明者】

【氏名】バーベッロ，ブランドン・チャールズ

(72)【発明者】

【氏名】ザック，シェナズ

(72)【発明者】

【氏名】ワントランド，ティム

(72)【発明者】

【氏名】ジェゼジョウィツ，ジャン・ピオトル

【審査官】山岸登

(56)【参考文献】

【文献】特表２０１７－５３８３２７（ＪＰ，Ａ）

【文献】特開２０１７－１８８８８６（ＪＰ，Ａ）

【文献】特許第６７８３４９２（ＪＰ，Ｂ１）

【文献】国際公開第２０１８／１６３３２８（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１６／００８０５５８（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ３／１６

Ｇ１０Ｌ１５／００－１７／２６

Ｈ０４Ｍ１／００

１／２４－３／００

３／１６－３／２０

３／３８－３／５８

７／００－７／１６

１１／００－１１／１０

９９／００

(57)【特許請求の範囲】

【請求項1】

方法であって、
コンピューティングデバイスが、前記コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得することを含み、前記オーディオデータは、前記コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含み、前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータが２つ以上の選択可能なオプションを含むかどうかを判定することを含み、前記２つ以上の選択可能なオプションは、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供され、前記方法はさらに、
前記オーディオデータが前記２つ以上の選択可能なオプションを含むと判定することに応答して、前記コンピューティングデバイスが、前記２つ以上の選択可能なオプションのテキスト記述を判定することと、
前記コンピューティングデバイスのディスプレイ上に２つ以上の選択可能なコントロールを表示することとを含み、前記２つ以上の選択可能なコントロールは、前記２つ以上の選択可能なオプションのうちの選択されたオプションの指示を前記サードパーティに提供するために、前記ユーザによって選択可能に構成され、前記２つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションの前記テキスト記述を提供し、前記方法はさらに、
前記コンピューティングデバイスが、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供されるユーザ情報の要求を判別することと、
前記コンピューティングデバイスが、前記ユーザ情報の要求に応答して、前記コンピューティングデバイスに保存された１つまたは複数のデータセットからユーザデータを特定することを含み、前記１つまたは複数のデータセットは、前記通信アプリケーションとは異なるアプリケーションによって保持されたデータを含み、前記方法はさらに、
前記音声通話中または前記ビデオ通話中に、前記コンピューティングデバイスが、前記ユーザデータを前記ディスプレイ上に表示すること、または前記コンピューティングデバイスが、前記ユーザデータを前記サードパーティに提供することを含む、方法。

【請求項2】

前記方法はさらに、
前記選択されたオプションに関連付けられた前記２つ以上の選択可能なコントロールのうちの１つの選択可能なコントロールの選択を受信することを含み、前記選択は、前記音声通話中または前記ビデオ通話中に前記ユーザによって行われ、前記方法はさらに、
前記１つの選択可能なコントロールの選択を受信したことに応答して、前記コンピューティングデバイスが、前記選択されたオプションを前記サードパーティに伝達することを含む、請求項１に記載の方法。

【請求項3】

前記選択されたオプションを前記サードパーティに伝達することは、前記ユーザが前記選択されたオプションを可聴的に伝達することなく、前記コンピューティングデバイスが、音声応答またはＤＴＭＦ（Ｄｕａｌ－ＴｏｎｅＭｕｌｔｉ－Ｆｒｅｑｕｅｎｃｙ）トーンを前記サードパーティに送信することを含む、請求項２に記載の方法。

【請求項4】

前記方法はさらに、
前記選択されたオプションを前記サードパーティに伝達することに応答して、前記コンピューティングデバイスが、前記通信アプリケーションから出力される追加のオーディオデータを取得することを含み、前記追加のオーディオデータは、前記選択されたオプションに応答して、前記音声通話中または前記ビデオ通話中に前記サードパーティによって可聴的に提供される２つ以上の追加の選択可能なオプションを含む、請求項２または３に記載の方法。

【請求項5】

前記方法はさらに、
前記コンピューティングデバイスが、前記可聴部分を使用して、前記オーディオデータが伝達情報を含むかどうかを判定することを含み、前記伝達情報は、前記音声通話または前記ビデオ通話のコンテキストに関連し、前記音声通話中または前記ビデオ通話中に前記サードパーティまたは前記ユーザによって可聴的に提供され、前記方法はさらに、
前記オーディオデータが前記伝達情報を含むと判定することに応答して、前記コンピューティングデバイスが、前記伝達情報のテキスト記述を判定することを含み、前記伝達情報の前記テキスト記述は、前記伝達情報の少なくとも一部のトランスクリプションを提供し、前記方法はさらに、
他の選択可能なコントロールを前記ディスプレイ上に表示することを含み、前記他の選択可能なコントロールは、前記伝達情報の前記テキスト記述を提供し、前記伝達情報を、前記コンピューティングデバイス、前記アプリケーション、または前記コンピューティングデバイス上の他のアプリケーションのうちの少なくとも１つに保存するように、前記ユーザによって選択可能に構成されている、請求項１～４のいずれか１項に記載の方法。

【請求項6】

前記２つ以上の選択可能なオプションの前記テキスト記述を判定することは、前記コンピューティングデバイスが、前記２つ以上の選択可能なオプションの前記テキスト記述を判定するために機械学習モデルを実行することを含み、前記機械学習モデルは、前記オーディオデータからテキスト記述を判定するように訓練され、前記オーディオデータは、前記コンピューティングデバイスのオーディオミキサから受信される、請求項１～５のいずれか１項に記載の方法。

【請求項7】

前記機械学習モデルは、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデルを含む、請求項６に記載の方法。

【請求項8】

前記２つ以上の選択可能なオプションは、自動音声応答（ＩＶＲ）システムまたは音声応答ユニット（ＶＲＵ）システムのオプションを表すメニューであり、前記ＩＶＲシステムまたは前記ＶＲＵシステムは、前記ユーザと対話し、前記ユーザを、前記ＩＶＲシステムまたは前記ＶＲＵシステムの別のメニュー、前記サードパーティに関連する人員、前記サードパーティに関連する部署、前記サードパーティに関連するサービス、または前記サードパーティに関連する情報のうちの少なくとも１つに誘導するように構成されている、請求項１～７のいずれか１項に記載の方法。

【請求項9】

前記２つ以上の選択可能なコントロールは、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンのうちの少なくとも１つを含み、前記通信アプリケーションのユーザインターフェイスに含まれる、請求項１～８のいずれか１項に記載の方法。

【請求項10】

前記テキスト記述は、前記２つ以上の選択可能なオプションの各々に関連付けられた番号を含み、前記選択可能なコントロールの各々は、前記２つ以上の選択可能なオプションの各々に関連付けられた前記番号の視覚的表現を含む、請求項１～９のいずれか１項に記載の方法。

【請求項11】

前記コンピューティングデバイスの前記ディスプレイはタッチ感知スクリーンを含み、前記選択可能なコントロールは前記タッチ感知スクリーン上に提示される、請求項１～１０のいずれか１項に記載の方法。

【請求項12】

前記コンピューティングデバイスは、スマートフォン、コンピュータ化された時計、タブレットデバイス、ウェアラブルデバイス、またはラップトップコンピュータを含む、請求項１～１１のいずれか１項に記載の方法。

【請求項13】

請求項１～１２のいずれか１項に記載の方法を実行するように構成された少なくとも１つのプロセッサを備える、コンピューティングデバイス。

【請求項14】

実行されると、請求項１～１２のいずれか１項に記載の方法を実行するようにコンピューティングデバイスのプロセッサを構成する命令を含む、プログラム。

【発明の詳細な説明】

【背景技術】

【0001】

背景
自動音声応答（ｉｎｔｅｒａｃｔｉｖｅｖｏｉｃｅｒｅｓｐｏｎｓｅ：ＩＶＲ）システム、または電話ツリーは、音声入力またはテンキーパッドを通じて、発信者がコンピュータ動作の電話システムと対話できるようにするものである。たとえば、電話システムは、携帯電話を使った購入、銀行の支払い、サービス、小売注文、公共サービス、旅行情報、および天気予報に、ＩＶＲを使用することができる。ＩＶＲシステムは一般に、発信者を識別し区分するために、一連の音声メニューを使用する。これらのメニューには、発信者が理解、ナビゲート、または記憶することが困難な場合がある複数のオプションが含まれている。

【発明の概要】

【0002】

概要
本明細書では、ＩＶＲシステム用の選択可能なコントロールを提供するシステムおよび技術について説明する。説明するシステムおよび技術は、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話に関連するオーディオデータが、複数の選択可能なオプションを含むかどうかを判定し得る。サードパーティは、通話中に選択可能なオプションを可聴的に提供する。オーディオデータが選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、複数の選択可能なオプションのテキスト記述を判定し得る。次に、説明するシステムおよび技術は、ディスプレイ上に２つ以上の選択可能なコントロールを表示し得る。ユーザは、複数の選択可能なオプションのうちの選択されたオプションを示すために、選択可能なコントロールを選択し得る。このように、説明するシステムおよび技術は、ＩＶＲシステムをナビゲートおよび理解しやすくすることにより、音声通話およびビデオ通話のユーザ体験を向上させることができる。

【0003】

説明するシステムおよび技術は、特定のコミュニケーション障害があるユーザなどのユーザがＩＶＲシステムと対話する際の使い易さを向上させることができる。一例として、説明するシステムおよび技術は、耳が不自由であり、他の場合はＩＶＲシステムと対話することが困難または不可能であると感じることのあるユーザが、ＩＶＲシステムに応答を提供することを可能にし得る。同様に、説明するシステムおよび技術は、発話障害を有し、他の場合はＩＶＲシステムと対話することが困難または不可能と感じることのあるユーザが、ＩＶＲシステムに応答を提供することを可能にし得る。また、説明するシステムおよび技術は、ＩＶＲシステムによって提供されるオプションのリストを記憶することができない短期記憶障害のあるユーザが、ＩＶＲシステムに応答を提供するのを支援することもできる。また、説明するシステムおよび技術は、ユーザが音声通話またはビデオ通話で提供されるオプションを理解することが困難な場合、たとえば、音声が歪んでいたり、音声通話またはビデオ通話から生じるものではない周囲の雑音に気を取られていたりする場合、ユーザがＩＶＲシステムと対話する際の使い易さを向上させることができる。

【0004】

たとえば、コンピューティングデバイスは、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得する。オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。コンピューティングデバイスは、音声通話またはビデオ通話の可聴部分を使用して、オーディオデータが２つ以上の選択可能なオプションを含むかどうかを判定する。サードパーティは、音声通話中またはビデオ通話中に、２つ以上の選択可能なオプションを可聴的に提供する。オーディオデータが２つ以上の選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、２つ以上の選択可能なオプションのテキスト記述を判定し、テキスト記述は、２つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供する。次に、コンピューティングデバイスは、２つ以上の選択可能なコントロールを表示する。２つ以上の選択可能なコントロールは、２つ以上の選択可能なオプションのうちの選択されたオプションをサードパーティに示すために選択可能であり得る。２つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。

【0005】

本明細書では、ＩＶＲシステム用の選択可能なコントロールを提供するための他の方法、構成、およびシステムについても説明する。

【0006】

本概要は、詳細な説明および図面にさらに記載のＩＶＲシステム用の選択可能なコントロールを提供するための簡略化された概念を紹介するために提供される。本概要は、特許請求される主題の本質的な特徴を特定することを意図したものではなく、特許請求される主題の範囲を決定するために使用することを意図したものでもない。

【0007】

ＩＶＲシステム用の選択可能なコントロールを提供するための視覚的ユーザインターフェイスの１つまたは複数の態様の詳細を、以下の図面を参照して本明細書で説明する。複数の図面を通して、同様の特徴および構成要素を参照するために同じ番号が使用されている。

【図面の簡単な説明】

【0008】

【図1】ＩＶＲシステム用の選択可能なコントロールを提供できるコンピューティングデバイスを含む環境例を示す図である。

【図2】自動音声応答システムの視覚的ユーザインターフェイスを提供できるコンピューティングデバイスのデバイス例を示す図である。

【図3】ＩＶＲシステムに応答して選択可能なコントロール用のテキスト記述を提供できるコンピューティングデバイスの機械学習モデルの例を示す図である。

【図4】音声通話およびビデオ通話に関連する選択可能なコントロールおよびユーザデータを提供できるコンピューティングデバイスの動作例を示すフローチャートである。

【図5】ＩＶＲシステム用の選択可能なコントロールを提供する動作例を示す図である。

【図6A】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。

【図6B】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。

【図6C】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。

【図6D】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの例を示す図である。

【図7A】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。

【図7B】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。

【図7C】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。

【図8A】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。

【図8B】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。

【図8C】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す図である。

【図8D】音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスの他の例を示す図である。

【発明を実施するための形態】

【0009】

詳細な説明
概略
本明細書では、ＩＶＲシステム用にコンピューティングデバイス上で選択可能なコントロールを提供する技術およびシステムについて説明する。上述したように、ＩＶＲシステムは、音声入力またはテンキーパッドによって生成されるＤＴＭＦ（Ｄｕａｌ－ＴｏｎｅＭｕｌｔｉ－Ｆｒｅｑｕｅｎｃｙ－Ｔｏｎｅ）を通じて、発信者が電話システムと対話することを可能にする。ＩＶＲシステムは、各々が複数の選択可能なオプションを含む一連のメニューを提供することができる。音声メニューは、分かりにくく、発信者がナビゲートしにくい場合がある。たとえば、ＩＶＲシステムによっては、各メニューに多くのオプションが用意されていたり、呼び出しにくい詳細なオプションが用意されていたりする。耳の不自由なユーザは、オプションを聞き取ることが困難または不可能であるため、通常、オプションを選択するための応答を提供できない場合がある。言語障害のあるユーザは、オプションに対して声を出して応答することができない場合がある。短期記憶障害のあるユーザは、応答を提供するときに、ＩＶＲシステムが提供するオプションを記憶することができない場合がある。

【0010】

ユーザが音声通話またはビデオ通話ができる通信アプリケーションを搭載したスマートフォンについて考える。たとえば、ユーザは、通信アプリケーションを使って診療所に電話をかけることができる。診療所では、ＩＶＲシステムを使用して、適切な情報、人員、または部署に発信者を誘導することができる。最初の音声メニューでは、適切な言語を選択するようユーザに求めることができる。可聴的に伝えるか、希望言語に関連付けられた番号を押すことによって言語を選択すると、ＩＶＲシステムは別のオプションメニューを提示することができる。たとえば、ＩＶＲシステムは、発信者を、請求、スケジューリング、医療に関する質問、サービス提供会社、および人員についての質問に関する追加のメニューに誘導することができる。

【0011】

通信アプリケーションは一般に、ユーザがＩＶＲシステムをナビゲートするのを支援しない。その代わり、通信アプリケーションおよびコンピューティングデバイスは通常、ユーザが音声入力またはテンキーを使ってメニューオプションを呼び出したり、音声メニューをナビゲートしたりすることを必要とする。

【0012】

説明する技術およびシステムは、選択可能なオプションに関連付けられた選択可能なコントロールを提供することにより、ユーザがＩＶＲシステムをナビゲートするのを支援することができる。特に、説明する技術およびシステムは、音声通話またはビデオ通話からオーディオデータを取得し、会話に２つ以上の選択可能なオプションが含まれているかどうかを判定することができる。会話が選択可能なオプションを含むと判定することに応答して、説明する技術およびシステムは、選択可能なオプションに関連するテキスト記述を判定することができる。

【0013】

上記の診療所のシナリオについて考える。スマートフォンは音声通話を聞いて、診療所が選択可能なオプションのＩＶＲメニューを可聴的に提供するかどうかを判定することができる。診療所が選択可能なオプションを可聴的に提供すると判定することに応答して、説明するシステムおよび技術は、選択可能なオプションのテキスト記述を判定し、選択可能なコントロールをスマートフォンのディスプレイ上に表示することができる。選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。選択可能なコントロールのうちの１つを選択することにより、ユーザは、スマートフォンに選択されたオプションを表示させることができる。このように、説明する技術およびシステムは、スマートフォンユーザがＩＶＲシステムを容易にナビゲートできるユーザフレンドリーな体験を提供し、通常はＩＶＲシステムと対話できないであろうユーザがこのようなシステムと対話できるようにすることが可能である。説明する技術およびシステムは、さまざまな異なる既存のＩＶＲシステムと互換性がある。

【0014】

非限定的な例として、コンピューティングデバイスは、通信アプリケーションから出力されるオーディオデータを取得することができる。オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。コンピューティングデバイスは、可聴部分を使用して、オーディオデータが、音声通話中またはビデオ通話中にサードパーティによって可聴的に提供される２つ以上の選択可能なオプションを含むかどうかを判定する。オーディオデータが２つ以上の選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、２つ以上の選択可能なオプションのテキスト記述を判定する。テキスト記述は、２つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを含む。コンピューティングデバイスは次に、２つ以上の選択可能なコントロールをコンピューティングデバイスのディスプレイ上に表示する。２つ以上の選択可能なコントロールは、それぞれの選択可能なオプションのテキスト記述を提供する。ユーザは、２つ以上の選択可能なオプションの中から選択されたオプションをサードパーティに示すために、選択可能なコントロールを選択することができる。

【0015】

コンピューティングデバイスは、コンピューティングデバイスがコンピューティングデバイスのユーザから明示的な許可を得た後にのみ、オーディオデータからの情報を使用し得る。たとえば、コンピューティングデバイスが音声通話およびビデオ通話からオーディオデータを収集する可能性がある上述の状況において、個々のユーザに、コンピューティングデバイスのプログラムまたは機能が情報を収集および利用できるかどうかを制御するための入力を提供する機会を提供し得る。さらに、個々のユーザには、プログラムまたは機能が情報を用いてできること、またはできないことを制御する機会を提供し得る。

【0016】

この例は、上述のＩＶＲシステム用の選択可能なコントロールによって、コンピューティングデバイスでのユーザ体験が向上し、コミュニケーション障害のあるユーザがＩＶＲシステムと対話できるようになることを示す一例に過ぎない。他の例および実現例については、本明細書を通じて説明する。次に、本明細書では、コンピューティングデバイス上のＩＶＲシステム用の選択可能なコントロールを提供するための構成、構成要素、および方法の追加例について説明する。

【0017】

環境例
図１は、ＩＶＲシステム用の選択可能なコントロールを提供できるコンピューティングデバイス１０２の例を含む環境１００の例を示す。コンピューティングデバイス１０２に加えて、環境１００は、コンピューティングシステム１０４および発信者側システム１０６を含む。コンピューティングデバイス１０２、コンピューティングシステム１０４、および発信者側システム１０６は、ネットワーク１０８に通信可能に結合されている。

【0018】

コンピューティングデバイス１０２の動作は、ローカルで実行されるものとして説明されているが、いくつかの例では、動作は、図１に示されているものを超える追加のコンピューティングデバイスおよびシステムを含む複数のコンピューティングデバイスとシステム（たとえば、コンピューティングシステム１０４）とによって実行されてもよい。たとえば、コンピューティングシステム１０４、発信者側システム１０６、またはネットワーク１０８に通信可能に結合された他のデバイスもしくはシステムは、コンピューティングデバイス１０２の機能の一部または全部を実行してもよく、その逆でもよい。

【0019】

コンピューティングシステム１０４は、ネットワーク１０８を介してコンピューティングデバイス１０２と情報を交換できる１つ以上のコンピュータ、メインフレーム、サーバ、クラウドコンピューティングシステム、または他のタイプのリモートコンピューティングシステムの任意の組み合わせを表す。コンピューティングシステム１０４は、コンピューティングデバイス１０２上にＩＶＲシステム用の選択可能なコントロールを提供するための、説明するシステムおよび技術を実現するために、コンピューティングデバイス１０２によって必要とされる追加のプロセッサ、格納されたデータ、または他のコンピューティングリソースを格納するか、またはそれらへのアクセスを提供することができる。

【0020】

発信者側システム１０６は、ＩＶＲシステム１１０を実行して、ネットワーク１０８を介してコンピューティングデバイス１０２とテレフォニーデータを送受信することができる。たとえば、発信者側システム１０６は、携帯電話、固定電話、ラップトップコンピュータ、電話コールセンターのワークステーション、またはＩＶＲシステム１１０を発信者に提示するように構成された他のコンピューティングデバイスであり得る。また、発信者側システム１０６は、発信者側システム１０６とコンピューティングデバイス１０２との間で音声通話またはビデオ通話を実施するために、ネットワーク１０８を介して情報を伝達できるコンピュータ、コンピューティングデバイス、メインフレーム、サーバ、クラウドコンピューティングシステム、または他のタイプのリモートコンピューティングシステムの任意の組み合わせを表すこともできる。

【0021】

ネットワーク１０８は、コンピューティングシステム、サーバ、およびコンピューティングデバイス間でデータ（たとえば、音声通信、ビデオ通信、データパッケージ）を送信するための任意のパブリック通信ネットワークまたはプライベート通信ネットワークを表す。たとえば、ネットワーク１０８は、公衆交換電話網（ｐｕｂｌｉｃｓｗｉｔｃｈｅｄｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋ：ＰＳＴＮ）、無線ネットワーク（たとえば、セルラーネットワーク、無線ローカルエリアネットワーク（ｗｉｒｅｌｅｓｓｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ：ＷＬＡＮ））、有線ネットワーク（たとえば、ローカルエリアネットワーク（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ：ＬＡＮ）、ワイドエリアネットワーク（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ：ＷＡＮ））、インターネットプロトコル（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ：ＩＰ）テレフォニーネットワーク（たとえば、ボイスオーバーＩＰ（ｖｏｉｃｅ－ｏｖｅｒ－ＩＰ：ＶｏＩＰ）ネットワーク）、またはそれらの任意の組み合わせを含み得る。ネットワーク１０８は、ネットワークハブ、ネットワークスイッチ、ネットワークルータ、または動作可能に相互結合される他のネットワーク機器を含み得る。コンピューティングデバイス１０２、コンピューティングシステム１０４、および発信者側システム１０６は、任意の適切な通信技術を使用して、ネットワーク１０８にわたってデータを送受信し得る。コンピューティングデバイス１０２、コンピューティングシステム１０４、および発信者側システム１０６は、それぞれのネットワークリンクを使用して、ネットワーク１０８に動作可能に結合され得る。

【0022】

コンピューティングデバイス１０２は、ＩＶＲシステム用の選択可能なコントロールを提供できる任意の適切なコンピューティングデバイスを表す。たとえば、コンピューティングデバイス１０２は、ユーザが発信者側エンティティ（たとえば、発信者側システム１０６）との音声通話またはビデオ通話を行うための、または受け付けるための入力を提供するスマートフォンであってもよい。

【0023】

コンピューティングデバイス１０２は、１つ以上の通信ユニット１１２を含む。通信ユニット１１２は、コンピューティングデバイス１０２が、ネットワーク１０８を含む無線ネットワークまたは有線ネットワーク上で通信することを可能にする。たとえば、通信ユニット１１２は、携帯電話通信またはネットワークデータ通信用のトランシーバを含み得る。コンピューティングデバイス１０２は、通信ユニット１１２およびサポート回路（たとえば、アンテナ、フロントエンドモジュール、アンプ）を、さまざまな通信規格によって定義された１つ以上の周波数帯域に調整することができる。

【0024】

コンピューティングデバイス１０２は、オーディオコンポーネント１１６、表示コンポーネント１１８、および入力コンポーネント１２０を含むユーザインターフェイスコンポーネント１１４を含む。コンピューティングデバイス１０２は、オペレーティングシステム１２２および通信アプリケーション１２４も含む。コンピューティングデバイス１０２のこれらのコンポーネントおよび他のコンポーネント（図示せず）は、有線および無線のバスとリンクとを含むさまざまな方法で動作可能に結合される。コンピューティングデバイス１０２は、分かりやすくするために図１から省略された、追加のコンポーネントおよびインターフェイスを含み得る。

【0025】

ユーザインターフェイスコンポーネント１１４は、オペレーティングシステム１２２またはコンピューティングデバイス１０２上で実行されるアプリケーションによって制御されるユーザインターフェイス１２６への入出力を管理する。たとえば、通信アプリケーション１２４は、ユーザインターフェイス１２６に、入力コントロール、ナビゲーションコンポーネント、情報コンポーネント、またはそれらの組み合わせを含むさまざまなユーザインターフェイス要素を表示させることができる。

【0026】

上述したように、ユーザインターフェイスコンポーネント１１４は、オーディオコンポーネント１１６、表示コンポーネント１１８、および入力コンポーネント１２０を含み得る。オーディオコンポーネント１１６、表示コンポーネント１１８、および入力コンポーネント１２０は、別個であることも、単一のコンポーネントとして統合することもできる。オーディオコンポーネント１１６（たとえば、単一のスピーカまたは複数のスピーカ）は、入力として音声信号を受信し、音声信号を可聴音に変換することができる。表示コンポーネント１１８は、ユーザインターフェイス１２６上に視覚的要素を表示することができる。表示コンポーネント１１８は、発光ダイオード（ｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ：ＬＥＤ）、有機発光ダイオード（ｏｒｇａｎｉｃｌｉｇｈｔ－ｅｍｉｔｔｉｎｇｄｉｏｄｅ：ＯＬＥＤ）、および液晶ディスプレイ（ｌｉｑｕｉｄｃｒｙｓｔａｌｄｉｓｐｌａｙ：ＬＣＤ）技術を含む、任意の好適なディスプレイ技術を含み得る。入力コンポーネント１２０は、マイクロフォン、存在感知デバイス、タッチスクリーン、マウス、キーボード、またはユーザ入力を受信するように構成された別のタイプのコンポーネントであってもよい。

【0027】

オペレーティングシステム１２２は一般に、通信ユニット１１２、ユーザインターフェイスコンポーネント１１４、および他の周辺機器を含むコンピューティングデバイス１０２を制御する。たとえば、オペレーティングシステム１２２は、コンピューティングデバイス１０２のハードウェアリソースおよびソフトウェアリソースを管理し、アプリケーションに共通のサービスを提供することができる。別の例として、オペレーティングシステム１２２は、タスクスケジューリングを制御することができる。オペレーティングシステム１２２およびアプリケーションは一般に、コンピューティングデバイス１０２との通信およびユーザ対話を可能にするために、１つ以上のプロセッサ（たとえば、システムオンチップ（ｓｙｓｔｅｍｏｎｃｈｉｐ：ＳｏＣ）、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＣＰＵ））によって実行可能である。オペレーティングシステム１２２は一般に、ユーザインターフェイス１２６を介してユーザとの対話を提供する。

【0028】

オペレーティングシステム１２２は、たとえば通信アプリケーション１２４などのアプリケーションの実行環境も提供する。通信アプリケーション１２４により、コンピューティングデバイス１０２は、発信者側システム１０６を含む発信者と、音声通話およびビデオ通話の発信および着信を行い得る。

【0029】

音声通話中またはビデオ通話中、通信アプリケーション１２４は、ユーザインターフェイス１２６に、発信者側ボックス１２８、テンキーパッドアイコン１３０、スピーカフォンアイコン１３２、選択可能なコントロール１３４、および通話終了アイコン１３６を表示させることができる。発信者側ボックス１２８は、発信者（たとえば、発信者側システム１０６）の名前と電話番号とを表示することができる。テンキーパッドアイコン１３０は選択可能なアイコンであり、選択されると、テンキーパッドをユーザインターフェイス１２６上に表示させる。スピーカフォンアイコン１３２は選択可能なアイコンであり、選択されると、コンピューティングデバイス１０２に、音声通話またはビデオ通話のためにスピーカフォン機能を使用させる。

【0030】

選択可能なコントロール１３４は、コンピューティングデバイス１０２のユーザが特定の動作または機能を実行するために選択可能である。図示の例では、選択可能なコントロール１３４は、発信者側システム１０６に、ＩＶＲシステム１１０によって提供される選択可能なオプションから選択されたオプションを示すために、ユーザによって選択可能である。選択可能なコントロール１３４は、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンを含み得る。通話終了アイコン１３６により、コンピューティングデバイス１０２のユーザは、音声通話またはビデオ通話を終了することができる。

【0031】

オペレーティングシステム１２２は、入力コンポーネント１２０において検出された入力をユーザインターフェイス１２６の要素に関連付けることができる。入力コンポーネント１２０での入力（たとえば、タップ）の受信に応答して、オペレーティングシステム１２２または通信アプリケーション１２４は、検出された入力に関する情報をユーザインターフェイスコンポーネント１１４から受信することができる。オペレーティングシステム１２２または通信アプリケーション１２４は、検出された入力に応答して、機能または動作を実行し得る。たとえば、オペレーティングシステム１２２は、入力が、ユーザが選択可能なコントロール１３４のうちの１つを選択することに対応すると判定し、これに応答して、対応する選択されたオプションの指示を、発信者側システム１０６に送信し得る。

【0032】

動作中、オペレーティングシステム１２２または通信アプリケーション１２４は、発信者側システム１０６によって提供されるＩＶＲシステム１１０の選択可能なオプションに対応する選択可能なコントロール１３４を、自動的に生成することができる。コンピューティングデバイス１０２は、オペレーティングシステム１２２のオーディオミキサまたはサウンドエンジンから、オーディオデータを取得することができる。オーディオデータは一般に、ＩＶＲシステム１１０によって提供されるＩＶＲオプションを含む、音声通話またはビデオ通話の可聴部分を含む。

【0033】

構成例
このセクションでは、ＩＶＲシステム用の選択可能なコントロールを提供するシステムの構成例を説明し、これらの全部または一部は、別々にまたは一緒に発生することもある。このセクションでは、さまざまな構成例について説明し、読みやすくするために、各構成例を図面に関連付けて説明する。

【0034】

図２は、ＩＶＲシステム（たとえば、ＩＶＲシステム１１０）用の選択可能なコントロールを提供できるコンピューティングデバイス２０２のデバイス２００の例を示す。コンピューティングデバイス２０２は、コンピューティングデバイス１０２の一例であり、いくつか詳細が追加されている。

【0035】

図２に示すように、コンピューティングデバイス２０２は、スマートフォン２０２－１、タブレットデバイス２０２－２、ラップトップコンピュータ２０２－３、デスクトップコンピュータ２０２－４、コンピュータ化された腕時計２０２－５もしくは他のウェアラブルデバイス、音声アシスタントシステム２０２－６、スマートディスプレイシステム、または車両に設置されたコンピューティングシステムであってもよい。

【0036】

通信ユニット１１２とユーザインターフェイスコンポーネント１１４とに加えて、コンピューティングデバイス２０２は、１つ以上のプロセッサ２０４とコンピュータ読取可能記憶媒体（ｃｏｍｐｕｔｅｒ－ｒｅａｄａｂｌｅｓｔｏｒａｇｅｍｅｄｉａ：ＣＲＭ）２０６とを含む。

【0037】

プロセッサ２０４は、１つ以上のコントローラ、マイクロコントローラ、プロセッサ、マイクロプロセッサ、ハードウェアプロセッサ、ハードウェア処理ユニット、デジタル信号プロセッサ、グラフィックプロセッサ、およびグラフィック処理ユニットなどの任意の組み合わせを含み得る。たとえば、プロセッサ２０４は、非限定的な例として、ＳｏＣ、ＣＰＵ、グラフィック処理ユニット、またはテンソル処理ユニットを含む統合プロセッサおよびメモリサブシステムであり得る。ＳｏＣは一般に、中央処理装置、メモリ、および入出力ポートを含む、コンピューティングデバイス２０２のコンポーネントの多くを、単一のデバイスに統合する。ＣＰＵは一般に、コンピューティングデバイス２０２に必要なコマンドおよび処理を実行する。グラフィック処理ユニットは、コンピューティングデバイス２０２のグラフィックを表示するための動作を実行し、他の特定の計算タスクを実行することができる。テンソル処理ユニットは一般に、ニューラルネットワーク機械学習アプリケーションにおいて、シンボリックマッチ演算を実行する。プロセッサ２０４は、シングルコアまたはマルチコアを含み得る。

【0038】

ＣＲＭ２０６は、実行可能命令（たとえば、ファームウェア、リカバリファームウェア、ソフトウェア、アプリケーション、モジュール、プログラム、機能）と、実行可能命令の実行をサポートするためのデータ（たとえば、ユーザデータ、動作データ）との永続的および非永続的なストレージを、コンピューティングデバイス２０２に提供することができる。たとえば、ＣＲＭ２０６は、プロセッサ２０４によって実行されると、オペレーティングシステム１２２および通信アプリケーション１２４を実行する命令を含む。ＣＲＭ２０６の例として、揮発性メモリおよび不揮発性メモリ、固定媒体デバイスおよび取外し可能媒体デバイス、ならびに実行可能命令およびサポートデータを保持する任意の好適なメモリデバイスまたは電子データストレージが挙げられる。ＣＲＭ２０６は、ランダムアクセスメモリ（ｒａｎｄｏｍ－ａｃｃｅｓｓｍｅｍｏｒｙ：ＲＡＭ）、スタティックＲＡＭ（ｓｔａｔｉｃＲＡＭ：ＳＲＡＭ）、ダイナミックＲＡＭ（ｄｙｎａｍｉｃＲＡＭ：ＤＲＡＭ）、不揮発性ＲＡＭ（ｎｏｎ－ｖｏｌａｔｉｌｅＲＡＭ：ＮＶＲＡＭ）、リードオンリメモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ：ＲＯＭ）、フラッシュメモリ、およびさまざまなメモリデバイス構成の他の記憶メモリタイプのさまざまな実現例を含み得る。ＣＲＭ２０６は、伝搬信号を除く。ＣＲＭ２０６は、ソリッドステートドライブ（ｓｏｌｉｄ－ｓｔａｔｅｄｒｉｖｅ：ＳＳＤ）またはハードディスクドライブ（ｈａｒｄｄｉｓｋｄｒｉｖｅ：ＨＤＤ）であり得る。

【0039】

オペレーティングシステム１２２は、オーディオミキサ２０８およびキャプションモジュール２１０を含むか、または制御することもできる。オーディオミキサ２０８およびキャプションモジュール２１０は、専用のハードウェアコンポーネント、ソフトウェアコンポーネント、またはそれらの組み合わせであり得る。他の例では、オーディオミキサ２０８およびキャプションモジュール２１０は、（たとえば、コンピューティングデバイス２０２にローカルにインストールされたシステムプラグインまたは追加のアドオンサービスとして）オペレーティングシステム１２２とは別個である。

【0040】

オーディオミキサ２０８は、コンピューティングデバイス２０２上で実行される通信アプリケーション１２４を含むアプリケーションによって生成されたオーディオデータを取得し、統合することができる。オーディオミキサ２０８は、通信アプリケーション１２４などのアプリケーションからオーディオストリームを取得し、統合されオーディオコンポーネント１１６から出力されると、オーディオストリームにエンコードされた音を再現するオーディオ出力信号を生成する。オーディオミキサ２０８は、たとえば、フォーカス、インテントおよび音量を制御するといった、他の方法で音声信号を調整し得る。オーディオミキサは、コンテンツを生成するアプリケーションソースと、コンテンツから音を生成するオーディオコンポーネント１１６との間のインターフェイスを提供する。オーディオミキサ２０８は、生のオーディオデータを管理し、それを分析し、オーディオコンポーネント１１６によって音声信号が出力されるか、または通信ユニット１１２を介して、別のコンピューティングデバイス（たとえば、発信者側システム１０６）に音声信号が送信されるように指示することができる。

【0041】

キャプションモジュール２１０は、（たとえば、バイトストリームとして）オーディオミキサ２０８によって受信した生の形態のオーディオデータを分析するように構成されている。たとえば、キャプションモジュール２１０は、オーディオデータに対して音声認識を実行して、オーディオデータがＩＶＲシステムの選択可能なオプション、ユーザ情報の要求、または通話コンテキストに関連する伝達情報を含むかどうかを判定することができる。キャプションモジュール２１０は、各音声信号を処理するのではなく、キャプション付けに適した個々の事前混合オーディオデータストリームを識別することができる。たとえば、キャプションモジュール２１０は、話し言葉のオーディオデータには自動的にキャプションを付けるが、通知またはソニフィケーションオーディオデータ（たとえば、システムビープ音、呼び出し音）には付けないことができる。キャプションモジュール２１０は、オーディオミキサ２０８が受信したバイトストリームにフィルタを適用して、キャプション付けに適したオーディオデータを識別し得る。キャプションモジュール２１０は、機械学習モデルを使用して、音声通話またはビデオ通話の可聴部分からオーディオデータの記述を判定することができる。

【0042】

すべてのオーディオデータにキャプションを付けるのではなく、オペレーティングシステム１２２は、メタデータを使用して、オーディオデータの特定の部分にキャプションを集中させることができる。たとえば、キャプションモジュール２１０は、ＩＶＲシステムの選択可能なコントロール、要求に応答するユーザ情報、または通話コンテキストに関連する伝達情報の提供に関連するオーディオデータに焦点を当てることができる。言い換えれば、オペレーティングシステム１２２は、メタデータに基づいて「キャプション可能な」オーディオデータを識別し、すべてのオーディオデータにキャプションを付けないようにすることができる。いくつかのメタデータの例には、音声通話またはビデオ通話の内容を指定するコンテキストインジケータが含まれる。オーディオミキサは、コンテキストインジケータを使用して、オーディオデータに関するルーティング、フォーカス、およびキャプション付けの決定を制御し得る。

【0043】

一部のコンピューティングデバイスは、音声通話またはビデオ通話をトランスクライブすることができる。しかしながら、トランスクリプションは通常、通話の可聴部分の直接的なトランスクリプションを提供し、会話がＩＶＲシステムの選択可能なオプション、ユーザ情報の要求、または通話のコンテキストに関連する伝達情報を含むかどうかを判定することはできない。ユーザは、所望のメニューオプション、要求されたユーザ情報、または伝達情報を判定するために、依然としてトランスクリプトを読む必要がある。したがって、たとえコンピューティングデバイスがトランスクリプションを提供するとしても、ユーザは、ＩＶＲシステムをナビゲートし、所望のオプションを選択することが依然として困難であると感じる可能性がある。対照的に、説明するシステムおよび技術は、選択可能なコントロールおよびメッセージ要素を関連情報と共に表示することにより、ユーザがＩＶＲシステムをナビゲートしたり、要求に応じてユーザ情報を提供したり、音声通話およびビデオ通話から伝達情報を管理したりするのを支援する。

【0044】

コンピューティングデバイス２０２は、１つ以上のセンサ２１４も含む。センサ２１４は、コンピューティングデバイス２０２の物理的動作環境、または物理的動作環境で機能している間のコンピューティングデバイス２０２の特性を示すコンテキスト情報を取得する。たとえば、キャプションモジュール２１０は、このコンテキスト情報を、オーディオデータ処理に焦点を合わせるためのメタデータとして使用することができる。センサ２１４の例としては、動きセンサ、温度センサ、位置センサ、近接センサ、周囲光センサ、水分センサ、および圧力センサ等が挙げられる。

【0045】

動作中、オペレーティングシステム１２２またはキャプションモジュール２１０は、オーディオデータがキャプション用であるかどうかを判定する。たとえば、キャプションモジュール２１０は、オーディオデータがＩＶＲシステムの選択可能なオプション、ユーザ情報の要求、または通話コンテキストに関連する伝達情報を含むかどうかを判定することができる。オーディオデータがキャプション用であると判定することに応答して、オペレーティングシステム１２２は、オーディオデータの記述を判定する。たとえば、オペレーティングシステム１２２は、音声通話またはビデオ通話の可聴部分の記述を生成するように訓練された機械学習モデル（たとえば、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデル）を実行し得る。機械学習モデルは、口頭による音声のトランスクリプションを含む、音声の記述を学習するのに適した任意のタイプのモデルであり得る。オペレーティングシステム１２２によって使用される機械学習モデルは、音声通話およびビデオ通話の可聴部分を識別するためにのみ訓練される必要があるため、他の機械学習モデルよりも小さく、かつ複雑でないことがある。機械学習モデルは、オーディオミキサ２０８に送信されるすべてのオーディオデータの処理を回避することができる。このように、説明するシステムおよび技術は、不必要なプライバシーリスクおよび潜在的な処理待ち時間を回避するために、リモート処理リソース（たとえば、リモートコンピューティングデバイスにおける機械学習モデル）の使用を回避することができる。

【0046】

オーディオコンポーネント１１６によって生成された音声信号ではなく、元のオーディオデータに依存することによって、機械学習モデルは、音声通話およびビデオ通話の可聴部分をより正確に表現する記述を生成することができる。機械学習モデルを使用する前に、オーディオデータがキャプション用であるかどうかを判定することによって、オペレーティングシステム１２２は、通信アプリケーション１２４によって出力されるすべてのオーディオデータを過剰に分析するリソースの浪費を避けることができる。このようにキャプションを判定することにより、コンピューティングデバイス２０２は、より効率的で、より小さく、より複雑でない機械学習モデルを実行することができる。このように、機械学習モデルは、プライバシーを維持するために、自動音声認識技術および自動音声分類技術をローカルで実行することができる。

【0047】

オペレーティングシステム１２２は、機械学習モデルの記述を受信し、表示コンポーネント１１８を使用して表示する。表示コンポーネント１１８は、記述に関連する他の視覚的要素（たとえば、ユーザがコンピューティングデバイス２０２上でアクションを実行することを可能にする選択可能なコントロール）を表示することもできる。たとえば、オペレーティングシステム１２２は、ユーザインターフェイス１２６の一部として視覚的要素（たとえば、選択可能なコントロール１３４）を提示することができる。記述は、音声通話およびビデオ通話の可聴部分（たとえば、電話会話）のトランスクリプションまたはサマリを含み得る。記述はまた、オーディオデータの可聴部分のコンテキストを特定することもできる。機械学習モデルの詳細および動作は、図３に関してより詳細に説明される。

【0048】

図３は、ＩＶＲシステムに応答して選択可能なコントロール用のテキスト記述を提供することができるコンピューティングデバイス２０２の機械学習モデル３０２の例を示す図３００である。他の実現例では、コンピューティングデバイス２０２は、図１のコンピューティングデバイス１０２または同様のコンピューティングデバイスであってもよい。

【0049】

図３に示すように、機械学習モデル３０２は、キャプションモジュール２１０の一部であり得る。機械学習モデル３０２は、オーディオデータ３０４を音に変換することなく、オーディオデータ３０４を音声通話またはビデオ通話の可聴部分のテキスト記述３０６（たとえば、ＩＶＲシステム１１０によって提供される選択可能なオプションのテキスト記述）に変換することができる。オーディオデータ３０４は、通信アプリケーション１２４からのデータの異なるタイプ、形態、またはバリエーションを含み得る。たとえば、オーディオデータ３０４は、生の、予め混合された音声バイトストリームデータまたは処理されたバイトストリームデータを含み得る。機械学習モデル３０２は、オーディオデータ３０４に応答してテキスト記述３０６を提供する単一のモデルに組み合わされた複数の機械学習モデルを含み得る。

【0050】

通信アプリケーション１２４を含むアプリケーションは、機械学習モデル３０２を使用して、オーディオデータ３０４をテキスト記述３０６に処理することができる。たとえば、通信アプリケーション１２４は、アプリケーションプログラミングインターフェイス（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ：ＡＰＩ）（たとえば、すべてのアプリケーションにわたるパブリックＡＰＩ）を使用して、オペレーティングシステム１２２またはキャプションモジュール２１０を介して機械学習モデル３０２と通信することができる。いくつかの実現例では、機械学習モデル３０２は、ユーザのプライバシーおよびセキュリティを確保するために、オペレーティングシステム１２２もしくはＣＲＭ２０６のセキュアセクションまたはエンクレーブ内でオーディオデータ３０４を処理することができる。

【0051】

機械学習モデル３０２は、推論を行うことができる。特に、機械学習モデル３０２は、オーディオデータ３０４を入力として受信し、通話の可聴部分のテキスト記述３０６を出力データとして提供するように訓練することができる。機械学習モデル３０２を使用して推論を実行することにより、キャプションモジュール２１０は、オーディオデータ３０４をローカルに処理することができる。機械学習モデル３０２は、分類、回帰、クラスタリング、異常検出、勧告の生成、および他のタスクを実行することもできる。

【0052】

エンジニアは、教師あり学習技術を使用して機械学習モデル３０２を訓練することができる。たとえば、エンジニアは、一連の音声通話およびビデオ通話からのオーディオデータ３０４の例から推論される記述の例を含む訓練データ３０８（たとえば、真理データ）を使用して、機械学習モデル３０２を訓練することができる。推論は、エンジニアもしくは他の専門家によって手動で適用されるか、クラウドソーシングを通じて生成されるか、または他の技術（たとえば、複雑な音声認識アルゴリズムおよびコンテンツ認識アルゴリズム）によって提供されることが可能である。訓練データ３０８は、オーディオデータ３０４に対する音声通話およびビデオ通話からのオーディオデータを含み得る。一例として、オーディオデータ３０４が、診療所で使用されるＩＶＲシステムとの音声通話を含むとする。機械学習モデル３０２の訓練データ３０８は、ＩＶＲシステムとの広範な音声通話およびビデオ通話からの多数のオーディオデータファイルを含み得る。別の例として、オーディオデータ３０４が企業の顧客担当者との音声通話を含むとする。訓練データ３０８は、広範な類似の音声通話およびビデオ通話からの多くのオーディオデータファイルを含むことがある。エンジニアは、教師なし学習技術を使用して、機械学習モデル３０２を訓練することもできる。

【0053】

機械学習モデル３０２は、訓練コンピューティングシステムで訓練され、その後、１つ以上のコンピューティングデバイス２０２での格納および実装のために提供され得る。たとえば、訓練コンピューティングシステムは、モデルトレーナーを含み得る。訓練コンピューティングシステムを、機械学習モデル３０２を実装するコンピューティングデバイス２０２に含むことも、またはそれとは別に含むことも可能である。

【0054】

エンジニアは、機械学習モデル３０２をオンラインまたはオフラインで訓練することもできる。オフライン訓練（たとえば、バッチ学習）では、エンジニアは、訓練データ３０８の静的なセットの全体で機械学習モデル３０２を訓練する。オンライン学習では、エンジニアは、新しい訓練データ３０８が利用可能になると（たとえば、機械学習モデル３０２が推論を実行するためにコンピューティングデバイス２０２上で使用されている間）、機械学習モデル３０２を継続的に訓練する。たとえば、エンジニアは、音声通話およびビデオ通話の可聴部分（たとえば、キャプション付きＩＶＲシステム、キャプション付き電話会話）に適用される記述を複製するように、機械学習モデル３０２を最初に訓練することができる。機械学習モデル３０２がオーディオデータ３０４からテキスト記述３０６を推論すると、コンピューティングデバイス２０２は、テキスト記述３０６（およびオーディオデータ３０４の対応する部分）を新しい訓練データ３０８として、機械学習モデル３０２にフィードバックすることができる。このように、機械学習モデル３０２は、テキスト記述３０６の精度を継続的に向上させることができる。いくつかの実現例では、コンピューティングデバイス２０２のユーザは、機械学習モデル３０２に入力を提供して、特定の記述にエラーがあるとしてフラグを立てることができる。コンピューティングデバイス２０２は、このフラグを使用して機械学習モデル３０２を訓練し、将来の予測を改善することができる。

【0055】

エンジニアまたはトレーナーは、複数の機械学習モデル３０２の集中型訓練を（たとえば、集中的に保存されたデータセットに基づいて）実行することができる。他の実現例では、トレーナーまたはエンジニアは、機械学習済みモデル３０２を訓練、更新、または個人用に設定するために、分散型訓練または連合学習を含む分散訓練技術を使用できる。エンジニアは、ユーザから明示的な許可を受信した後にのみ、機械学習モデル３０２を個人用に設定するためにユーザ情報を使用し得る。たとえば、コンピューティングデバイス２０２がユーザ情報を収集する可能性がある状況において、機械学習モデル３０２のプログラムまたは機能が、ユーザ情報を収集し利用できるかどうかを制御するための入力を提供する機会が、個々のユーザに提供される可能性がある。さらに、個々のユーザには、プログラムまたは機能がユーザ情報を用いてできること、またはできないことを制御する機会が提供される可能性がある。

【0056】

機械学習モデル３０２は、１つ以上の人工ニューラルネットワークであるか、またはそれを含み得る。そのような実現例では、機械学習モデル３０２は、接続されたノードまたは完全には接続されていないノード（たとえば、ニューロン）のグループを含み得る。エンジニアはまた、機械学習モデル３０２を１つ以上の層（たとえば、ディープネットワーク）に編成することもできる。ディープネットワークの実現例では、機械学習モデル３０２は、入力層と、出力層と、入力層と出力層との間に配置された１つ以上の隠れ層とを含み得る。

【0057】

機械学習モデル３０２は、１つ以上のリカレントニューラルネットワークも含み得る。たとえば、機械学習モデル３０２は、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデルであり得る。リカレントニューラルネットワークの例として、長短記憶（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ：ＬＳＴＭ）リカレントニューラルネットワーク、ゲート型リカレントユニット、双方向リカレントニューラルネットワーク、連続時間リカレントニューラルネットワーク、ニューラルヒストリー圧縮プログラム、エコー状態ネットワーク、エルマンネットワーク、ジョーダンネットワーク、リカーシブニューラルネットワーク、ホップフィールドネットワーク、完全リカレントネットワーク、およびシーケンスツーシーケンス構成が挙げられる。

【0058】

リカレントニューラルネットワークのノードの少なくとも一部は、サイクルを形成することができる。リカレントニューラルネットワークとして構成される場合、機械学習モデル３０２は、連続入力データ（たとえば、オーディオデータ３０４）を処理するために特に有用であり得る。たとえば、リカレントニューラルネットワークは、リカレントまたは有向循環ノード接続を使用して、オーディオデータ３０４の前の部分からオーディオデータ３０４の後続部分に情報を渡すか、または保存することができる。

【0059】

オーディオデータ３０４は、時系列データ（たとえば、時間に対するオーディオデータ）を含むこともできる。リカレントニューラルネットワークとして、機械学習モデル３０２は、オーディオデータ３０４を経時的に分析して、オーディオデータ３０４の少なくとも一部のテキスト記述３０６を生成するために、話し言葉の音声および関連する非話し言葉の音声を検出または予測することができる。たとえば、オーディオデータ３０４からの連続音は、文中の話し言葉を示し得る（たとえば、自然言語処理、音声検出、または処理）。

【0060】

機械学習モデル３０２は、１つ以上の畳み込みニューラルネットワークも含み得る。畳み込みニューラルネットワークは、学習済みのフィルタまたはカーネルを使用して入力データに対して畳み込みを実行する複数の畳み込み層を含み得る。エンジニアは一般に、畳み込みニューラルネットワークを使用して、静止画または動画における視覚の問題を診断する。エンジニアはまた、テキスト記述３０６を生成するために、オーディオデータ３０４の自然言語処理に畳み込みニューラルネットワークを適用することもできる。

【0061】

本明細書では、キャプションモジュール２１０と機械学習モデル３０２との動作を、図４に関してより詳細に説明する。

【0062】

方法例
図４は、音声通話およびビデオ通話に関連する選択可能なコントロールとユーザデータとを提供することができるコンピューティングデバイスの動作４００の例を示すフローチャートである。動作４００は、図２のコンピューティングデバイス２０２の文脈で以下に説明される。他の実現例では、コンピューティングデバイス２０２は、図１のコンピューティングデバイス１０２または同様のコンピューティングデバイスであり得る。動作４００は、図４に示されたものとは異なる順序で実行されてもよく、追加の動作またはより少ない動作で実行されてもよい。

【0063】

４０２において、コンピューティングデバイスは、オプションとして、コンピューティングデバイスユーザのユーザ情報を含むコンテンツを取得する。コンピューティングデバイスは、ユーザ情報を使用して、ユーザが要求された情報を検索したり、音声通話およびビデオ通話に関連する伝達情報を保存したりするのを助けることができる。ユーザ情報を取得する前、または以下に説明するオプションを実行する前に、コンピューティングデバイス２０２は、音声通話およびビデオ通話のためにユーザ情報を使用する同意をユーザから取得し得る。たとえば、コンピューティングデバイス２０２は、明示的な同意を受信した後にのみ、ユーザ情報を使用し得る。コンピューティングデバイス２０２は、コンピューティングデバイス２０２上のアプリケーションへのユーザの入力（たとえば、ユーザプロファイルへの連絡先情報の入力、サードパーティアプリケーションを介したアカウント番号の入力）からユーザ情報を取得することができ、またはアプリケーションで受信した情報（たとえば、電子メールで送信された明細書に含まれるアカウント番号、保存されたカレンダーの項目）からそれを学習することができる。

【0064】

４０４において、コンピューティングデバイスは、通信アプリケーションのグラフィカルユーザインターフェイスを表示する。たとえば、コンピューティングデバイス２０２は、ユーザが音声通話もしくはビデオ通話を発信または受信したことに応答して、表示コンポーネント１１８に、通信アプリケーション１２４のユーザインターフェイス１２６を表示するように指示し得る。

【0065】

４０６において、コンピューティングデバイスは、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得する。オーディオデータは、音声通話またはビデオ通話の可聴部分を含む。たとえば、通信アプリケーション１２４は、コンピューティングデバイス２０２のユーザが音声通話およびビデオ通話を発信および受信することを可能にする。オーディオミキサ２０８は、音声通話中およびビデオ通話中に通信アプリケーション１２４から出力されるオーディオデータ３０４を取得する。オーディオデータ３０４は、コンピューティングデバイス２０２のユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。音声通話中またはビデオ通話中に選択可能なコントロールおよび他の情報をユーザに提供するために、キャプションモジュール２１０は、オーディオミキサ２０８からオーディオデータ３０４を抽出することができる。

【0066】

４０８において、コンピューティングデバイスは、音声通話またはビデオ通話の可聴部分を使用して、オーディオデータが関連情報を含むかどうかを判定する。関連情報は、ＩＶＲシステムの２つ以上の選択可能なオプション（たとえば、電話ツリーオプション）、ユーザ情報の要求（たとえば、クレジットカード番号、住所、アカウント番号の要求）、または伝達情報（たとえば、予約詳細、連絡先情報、アカウント情報）であり得る。たとえば、キャプションモジュール２１０は、機械学習モデル３０２を用いて、オーディオデータ３０４が関連情報を含むかどうかを判定することができる。関連情報は、ＩＶＲシステムの２つ以上の選択可能なオプション、ユーザ情報の要求、または伝達情報を含み得る。ユーザまたはサードパーティは、音声通話中またはビデオ通話中に関連情報を可聴的に提供する。キャプションモジュール２１０または機械学習モデル３０２は、通知音および背景雑音など、処理を必要としないオーディオデータ３０４をフィルタリングし得る。オーディオデータ３０４が２つ以上の選択可能なオプションを含むかどうかを機械学習モデル３０２が判定する例を、図６Ａおよび図８Ａに示す。オーディオデータ３０４がユーザ情報の要求を含むかどうかを機械学習モデル３０２が判定する例を、図６Ｂ、図６Ｃ、図７Ａおよび図８Ｂに示す。オーディオデータ３０４が伝達情報を含むかどうかを機械学習モデル３０２が判定する例を、図６Ｄ、図７Ｂ、図７Ｃおよび図８Ｃに示す。

【0067】

オーディオデータが関連情報を含まない場合、４１６において、コンピューティングデバイスは、通信アプリケーションのユーザインターフェイスを表示する。たとえば、オーディオデータ３０４が関連情報を含んでいないと判定することに応答して、コンピューティングデバイス２０２は、通信アプリケーション１２４のユーザインターフェイス１２６を表示する。

【0068】

オーディオデータが関連情報を含んでいると判定した場合、４１０において、コンピューティングデバイスは、関連情報のテキスト記述を判定する。テキスト記述は、関連情報をトランスクライブする。たとえば、キャプションモジュール２１０は、機械学習モデル３０２を使用して、オーディオデータ３０４に対して音声認識を実行し、関連情報のテキスト記述３０６を判定することができる。テキスト記述３０６は、２つ以上の選択可能なオプション、ユーザ情報の要求、または伝達情報の少なくとも一部のトランスクリプションを提供する。機械学習３０２が２つ以上の選択可能なオプションのテキスト記述３０６を判定する例を、図６Ａおよび図８Ａに示す。機械学習モデル３０２がユーザ情報の要求のテキスト記述３０６を判定する例を、図６Ｂ、図６Ｃ、図７Ａおよび図８Ｂに示す。機械学習モデル３０２が伝達情報のテキスト記述を判定する例を、図６Ｄ、図７Ｂ、図７Ｃおよび図８Ｃに示す。

【0069】

キャプションモジュール２１０は、コンピューティングデバイス２０２のコンテキストに基づいて機械学習モデル３０２にバイアスをかけることを含め、さまざまな方法でテキスト記述３０６の精度を向上させることができる。たとえば、キャプションモジュール２１０は、音声通話またはビデオ通話のサードパーティの身元に基づいて、機械学習モデル３０２にバイアスをかけ得る。コンピューティングデバイス２０２のユーザが、診療所に音声通話をかけるとする。キャプションモジュール２１０は、診療所の会話から一般的な単語を使用して、機械学習モデル３０２にバイアスをかけることができる。このように、コンピューティングデバイス２０２は、この音声通話のテキスト記述３０６を改善することができる。キャプションモジュール２１０は、機械学習モデル３０２にバイアスをかけるために、センサ２１４から得られる位置情報および他のアプリケーションからの情報を含む、他のコンテキスト情報タイプを使用することができる。

【0070】

いくつかの実現例では、コンピューティングデバイス２０２は、テキスト記述３０６を表示する前に、それを別の言語に翻訳することができる。たとえば、キャプションモジュール２１０は、オペレーティングシステム１２２からユーザの希望言語を決定し、テキスト記述３０６を希望言語に翻訳し得る。このように、日本人のユーザは、オーディオデータ３０４が異なる言語（たとえば、中国語または英語）であっても、テキスト記述３０６を日本語で見ることができる。

【0071】

４１２において、コンピューティングデバイスは、オプションとして、ユーザ情報の要求に応答してユーザデータを特定する。コンピューティングデバイスは、オーディオデータがユーザ情報の要求を含まない場合、この動作を実行しない。たとえば、サードパーティがユーザ情報を要求したと判定することに応答して、コンピューティングデバイス２０２は、ユーザ情報要求に応答してユーザデータを特定することができる。コンピューティングデバイス２０２は、ＣＲＭ２０６、通信アプリケーション１２４、コンピューティングデバイス２０２上の別のアプリケーション、またはユーザもしくはコンピューティングデバイス２０２に関連するリモートコンピューティングデバイスからユーザデータを取り出すことができる。上記の診療所の通話シナリオを考える。診療所の受付係は、ユーザに保険情報の提供を要求することができる。これに応答して、コンピューティングデバイス２０２は、ユーザによって以前に受信され、コンピューティングデバイス２０２に格納された電子メールから、医療保険会社およびユーザアカウント番号を取り出すことができる。コンピューティングデバイス２０２がユーザ情報の要求に対するユーザデータ応答を特定する例を、図６Ｂ、図６Ｃ、図７Ａおよび図８Ｂに示す。

【0072】

コンピューティングデバイスは、コンピューティングデバイスのユーザから明示的な許可を受け取った後にのみ、ユーザ情報の要求に応答する情報を使用し得る。たとえば、コンピューティングデバイスがユーザデータを収集する可能性がある上述の状況において、個々のユーザには、コンピューティングデバイスのプログラムまたは機能がユーザデータを収集および利用できるかどうかを制御するための入力を提供する機会が提供される可能性がある。さらに、個々のユーザには、プログラムまたは機能がユーザデータを用いてできること、またはできないことを制御する機会が提供される可能性がある。

【0073】

４１４において、コンピューティングデバイスは、ユーザデータまたは選択可能なコントロールを表示する。選択可能なコントロールは、ユーザが選択可能であり、テキスト記述を含む。オーディオデータにユーザ情報の要求が含まれていたとする。このシナリオでは、コンピューティングデバイスは、特定されたユーザデータを表示することができる。オーディオデータにＩＶＲシステムの２つ以上の選択可能なオプションが含まれていたとする。このシナリオでは、ユーザは、選択可能なコントロールを使用して、２つ以上の選択可能なオプションから選択されたオプションをサードパーティに示すことができる。オーディオデータに伝達情報が含まれていたとする。このシナリオでは、ユーザは、選択可能なコントロールを使用して、伝達情報をコンピューティングデバイス、通信アプリケーション、または別のアプリケーションに保存することができる。たとえば、コンピューティングデバイス２０２は、表示コンポーネント１１８に、ユーザデータまたは選択可能なコントロール１３４を表示させることができる。表示コンポーネント１１８は、ユーザデータを、ユーザインターフェイス１２６上のテキスト通知として提供することができる。上記の診療所の通話シナリオを考える。表示コンポーネント１１８は、音声通話中に、医療保険会社およびユーザアカウント情報を、ユーザインターフェイス１２６上のテキストボックスとして表示することができる。表示コンポーネント１１８は、選択可能なコントロール１３４も提供できる。表示コンポーネント１１８は、テキスト記述３０６または要求された情報を、通信アプリケーション１２４のユーザインターフェイス１２６上のボタンの一部として提供することができる。選択可能なコントロール１３４を表示する表示コンポーネント１１８の例を、図６Ａおよび図８Ａに示す。ユーザデータを表示する表示コンポーネント１１８の例を、図６Ｂ、図６Ｃ、図７Ａおよび図８Ｂに示す。伝達情報に応答して選択可能なコントロール１３４およびユーザデータを表示する表示コンポーネント１１８の例を、図６Ｄ、図７Ｂ、図７Ｃおよび図８Ｃに示す。

【0074】

診療所がＩＶＲシステム１１０を使用して音声通話を受付係に誘導したとする。表示コンポーネント１１８は、選択可能なコントロール１３４を表示することができる。選択可能なコントロール１３４は、ＩＶＲシステム１１０によって提供される２つ以上の選択可能なオプションのそれぞれのテキスト記述３１８を提供する。ユーザは、選択可能なコントロール１３４を使用して、２つ以上の選択可能なオプションから選択されたオプションを、診療所に示すことができる。

【0075】

また、ユーザが診療所に予約すると考える。表示コンポーネント１１８は、選択可能なコントロール１３４を表示することができる。選択可能なコントロール１３４は、予約のテキスト記述を含む。ユーザは、選択可能なコントロール１３４を使用して、予約の詳細をカレンダーアプリケーションに保存することができる。

【0076】

４１６において、コンピューティングデバイスは、通信アプリケーションのユーザインターフェイスを表示する。たとえば、表示コンポーネント１１８は、通信アプリケーション１２４に関連付けられたユーザインターフェイス１２６を表示することができる。ユーザインターフェイス１２６は、ユーザデータおよび選択可能なコントロール１３４を含み得る。

【0077】

図５は、ＩＶＲシステム用の選択可能なコントロールを提供するための動作５００の例を示す。動作５００は、図２のコンピューティングデバイス２０２の文脈で説明される。動作５００は、異なる順序で実行されてもよいし、追加の動作またはより少ない動作で実行されてもよい。

【0078】

５０２において、コンピューティングデバイスは、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得する。オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含む。たとえば、コンピューティングデバイス２０２のオーディオミキサ２０８は、コンピューティングデバイス２０２上で実行される通信アプリケーション１２４から出力されるオーディオデータ３０４を取得することができる。キャプションモジュール２１０は、オーディオミキサ２０８からオーディオデータ３０４を受信することができる。オーディオデータ３０４は、コンピューティングデバイス２０２のユーザとサードパーティ（たとえば、人、コンピュータ化されたＩＶＲシステム）との間の音声通話またはビデオ通話の可聴部分を含む。

【0079】

５０４において、コンピューティングデバイスは、可聴部分を使用して、オーディオデータが２つ以上の選択可能なオプションを含むかどうかを判定する。サードパーティは、音声通話中またはビデオ通話中に、２つ以上の選択可能なオプションを可聴的に提供する。たとえば、キャプションモジュール２１０の機械学習モデル３０２は、オーディオデータ３０４の可聴部分を使用して、オーディオデータ３０４が２つ以上の選択可能なオプション（たとえば、ＩＶＲメニューまたは電話ツリーの番号付きオプション）を含むかどうかを判定することができる。サードパーティは、音声通話中またはビデオ通話中に、２つ以上の選択可能なオプションを可聴的に提供する。

【0080】

５０６において、オーディオデータが２つ以上の選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスは、２つ以上の選択可能なオプションのテキスト記述を判定する。テキスト記述は、２つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供する。たとえば、オーディオデータ３０４が２つ以上の選択可能なオプションを含むと判定することに応答して、機械学習モデル３０２は、２つ以上の選択可能なオプションのテキスト記述３０６を判定する。テキスト記述３０６は、２つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供する。いくつかの実現例では、テキスト記述３０６は、２つ以上の選択可能なオプションの単語ごとのトランスクリプションを含む。他の実現例では、テキスト記述３０６は、２つ以上の選択可能なオプションの言い換えを提供する。

【0081】

５０８において、コンピューティングデバイスは、２つ以上の選択可能なコントロールを表示する。２つ以上の選択可能なコントロールは、２つ以上の選択可能なオプションのうちの選択されたオプションをサードパーティに示すために、ユーザによって選択可能である。２つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。たとえば、表示コンポーネント１１８は、コンピューティングデバイス２０２のディスプレイ上に２つ以上の選択可能なコントロール１３４を表示する。ディスプレイは、ユーザインターフェイス１２６を含む。２つ以上の選択可能なコントロール１３４は、２つ以上の選択可能なオプションのうちの選択されたオプションの指示をサードパーティに提供するために、ユーザによって選択可能である。２つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述３０６を提供する。

【0082】

実現例
このセクションでは、音声通話およびビデオ通話でユーザを支援することができる、説明するシステムおよび技術の実現例を説明し、これらの全部または一部は、別々にまたは一緒に発生することもある。このセクションでは、さまざまな実現例について説明し、読みやすくするために、各々を特定の図面に関連付けて概説する。

【0083】

図６Ａ～図６Ｄは、音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイス例を示す図である。図６Ａ～図６Ｄは、連続して、図２のコンピューティングデバイス２０２の文脈で説明される。コンピューティングデバイス２０２は、図６Ａ～図６Ｄに示されたものよりも少ない機能、または追加の機能を有する異なるユーザインターフェイスを提供し得る。

【0084】

図６Ａにおいて、コンピューティングデバイス２０２は、表示コンポーネント１１８にユーザインターフェイス１２６を表示させる。ユーザインターフェイス１２６は、通信アプリケーション１２４に関連付けられている。ユーザインターフェイス１２６は、発信者側ボックス１２８、テンキーパッドアイコン１３０、スピーカフォンアイコン１３２、選択可能なコントロール１３４、および通話終了アイコン１３６を含む。

【0085】

ユーザが新しい医療提供会社である医院に電話をかけたとする。この実現例では、ユーザは、通信アプリケーション１２４を使用して音声通話を行った。他の実現例では、ユーザは、通信アプリケーション１２４またはコンピューティングデバイス２０２上の他のアプリケーションを使用して、ビデオ通話を行うことができる。発信者側ボックス１２８には、サードパーティの事業名（たとえば、医院）と電話番号（たとえば、（１１１）５５５－１２３４）とが表示される。医院は、ＩＶＲシステム１１０を使用して、選択可能なオプションのメニューを可聴的に提供する。ＩＶＲシステム１１０は、発信者を医院の適切な人員およびスタッフに誘導することができる。ＩＶＲシステム１１０が、音声通話に応答する際に「医院にお電話いただきありがとうございます。以下のオプションをお聞きいただき、本日のお電話の目的に最も適したオプションをお選び下さい。処方箋の再処方の場合、１を押して下さい。ご予約の場合、２を押して下さい。請求の場合、３を押して下さい。看護師との通話をご希望の場合、４を押して下さい。」というダイアログを提供する。

【0086】

ＩＶＲシステム１１０が選択可能なオプションを可聴的に提供すると、キャプションモジュール２１０は、通信アプリケーション１２４から出力されるオーディオデータ３０４を取得する。上述したように、オーディオミキサ２０８は、オーディオデータ３０４をキャプションモジュール２１０に送信することができる。キャプションモジュール２１０は次に、オーディオデータ３０４が複数の選択可能なオプションを含むと判定する。この判定に応答して、キャプションモジュール２１０は、選択可能なオプションのテキスト記述３０６を判定する。たとえば、機械学習モデル３０２は、選択可能なオプションの少なくとも一部をトランスクライブすることができる。トランスクリプションは、選択可能なオプションの各々の一語一語のトランスクリプションか、または言い換えでもよい。

【0087】

キャプションモジュール２１０は次に、表示コンポーネント１１８に、選択可能なコントロール１３４をユーザインターフェイス１２６上に表示させる。選択可能なコントロール１３４は、ＩＶＲシステム１１０によって提供される選択可能なオプションの各々に関連付けられた選択可能なコントロール、すなわち、第１の選択可能なコントロール１３４－１、第２の選択可能なコントロール１３４－２、第３の選択可能なコントロール１３４－３、および第４の選択可能なコントロール１３４－４を含む。選択可能なコントロール１３４は、それぞれの選択可能なオプションに関連付けられたテキスト記述３０６を含む。たとえば、第１の選択可能なコントロール１３４－１は、テキスト「１－処方箋再処方」を含む。数字「１」は、第１の選択可能なコントロール１３４－１が、ＩＶＲシステム１１０によって提供される第１の選択可能なオプションに関連付けられていることを示す。第２の選択可能なコントロール１３４－２は、テキスト「２－予約」を提供する。第３の選択可能なコントロール１３４－３は、テキスト「３－請求」を表示する。そして、第４の選択可能なコントロール１３４－４は、テキスト「４－看護師と通話」を含む。いくつかの実現例では、選択可能なコントロール１３４は、各選択可能なオプションに関連付けられた数字を省略することができる。

【0088】

上述したように、選択可能なコントロール１３４は、ユーザインターフェイス１２６上にさまざまな形態で提示することができる。たとえば、選択可能なコントロール１３４は、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンであり得る。ユーザは、選択可能なコントロール１３４を選択して、コンピューティングデバイス２０２に、複数の選択可能なオプションのうちの選択されたオプションをＩＶＲシステム１１０に指示させることができる。

【0089】

ＩＶＲシステム１１０が選択可能なオプションを提供することに応答して、ユーザは、テンキーアイコン１３０を選択してテンキーを表示し、所望の選択可能なオプションに関連付けられた番号を選択することができる。たとえば、ユーザは、テンキーで数字「２」を選択して、予約することができる。これに応答して、コンピューティングデバイス２０２は、ＩＶＲシステム１１０にＤＴＭＦトーンを送信することができる。他の実現例では、ＩＶＲシステム１１０は、ユーザが数字「２」を可聴的に言うことによって、選択されたオプションを提供することを可能にし得る。また、説明するシステムおよび技術により、ユーザは、所望のオプションに関連付けられた選択可能なコントロール１３４を選択することができる。この例では、ユーザは、第２の選択可能なコントロール１３４－２を選択して、新たに予約する。ユーザが第２の選択可能なコントロール１３４－２を選択することに応答して、入力コンポーネント１２０は、コンピューティングデバイス２０２に、番号「２」に関連付けられたＤＴＭＦトーンまたは番号「２」の可聴通信を、ＩＶＲシステム１１０に送信させる。このように、説明するシステムおよび技術は、ユーザが選択可能なＩＶＲメニューオプションをナビゲートし、所望のオプションを選択するのを支援する。

【0090】

いくつかの実現例では、コンピューティングデバイス２０２は、ＩＶＲメニューの異なるレベルに応じて、一連の選択可能なコントロール１３４を提供することができる。コンピューティングデバイス２０２は、現在の選択可能なオプションに対応するように、選択可能なコントロール１３４を更新することができる。他の実現例では、コンピューティングデバイス２０２は、音声通話またはビデオ通話の以前からの選択可能なオプションの以前のメニューを表示するオプションを提供することができる。

【0091】

図６Ｂは、ユーザ情報の要求に応答するユーザインターフェイス１２６の例である。前のシナリオでユーザが第２の選択可能なコントロール１３４－２を選択したことに応答して、ＩＶＲシステム１１０は、ユーザを医院の受付係に誘導する。ユーザは新患であるため、受付係は、ユーザに関連するアカウントまたはプロファイルを設定するために一連の質問を行い得る。たとえば、受付係はユーザの医療保険情報を要求することがある。このような状況では、オーディオデータ３０４は「医療保険に加入していますか？」という質問を含み得る。機械学習モデル３０２は、医院との音声通話の可聴部分を使用して、オーディオデータ３０４がユーザ情報の要求を含むかどうかを判定することができる。この例では、機械学習モデル３０２は、会話の他の部分およびサードパーティが診療所であるという文脈と共に、「医療保険」という単語を使用して、オーディオデータ３０４がユーザ情報の要求を含むと判定することができる。

【0092】

機械学習モデル３０２は、それに応答して、ユーザ情報の要求のテキスト記述３０６を判定することができる。この例では、機械学習モデル３０２またはキャプションモジュール２１０は、テキスト記述３０６が「医療保険」を含むと判定する。キャプションモジュール２１０またはコンピューティングデバイス２０２は次に、ＣＲＭ２０６内の医療保険情報の要求に応答してユーザデータを識別し、表示コンポーネント１１８にそれをユーザインターフェイス１２６上に表示させることができる。この例では、ユーザデータは、保険会社、保険契約番号、またはアカウント識別子を含み得る。コンピューティングデバイス２０２はまた、電子メールアプリケーション内の電子メールまたは連絡先アプリケーションに格納されたプロファイル情報から、医療保険情報を取り出すこともできる。いくつかの実現例では、コンピューティングデバイス２０２は、ＣＲＭ２０６のセキュアなエンクレーブ、またはコンピューティングデバイス２０２内の他のメモリから、機密性の高いユーザデータを格納し、取り出すことができる。

【0093】

表示コンポーネント１１８は、ユーザインターフェイス１２６上のメッセージ要素６００にユーザデータ（たとえば、保険会社および保険契約番号）を表示することができる。メッセージ要素６００は、テキスト情報を表示するためのアイコン、通知、メッセージボックス、または同様のユーザインターフェイス要素であり得る。メッセージ要素６００はまた、コンテキストを提供するために、ユーザ情報の要求のテキスト記述３０６を含み得る。この例では、メッセージ要素６００は、「あなたの保険会社：アペックス医療保険会社」および「あなたの保険番号：１２３４５６７８９－０」というテキストを提供する。示されている実現例では、メッセージ要素６００は、単一のメッセージ要素６００で両方のユーザデータセットを提供する。他の実現例では、表示コンポーネント１１８は、複数のメッセージ要素６０４にユーザデータを含めることができる。

【0094】

表示コンポーネント１１８は、受付係が質問した直後に、メッセージ要素６００をユーザインターフェイス１２６上に表示する。いくつかの実現例では、コンピューティングデバイス２０２は、オーディオデータ３０４から、ユーザが医院の新しい患者であると判定することができる。このコンテキストに応答して、機械学習モデル３０２またはキャプションモジュール２１０は、受付係が医療保険情報を尋ねると予測し、このユーザデータを取り出すことができる。他の実現例では、機械学習モデル３０２またはキャプションモジュール２１０は、ユーザが診療所に電話したときに医療保険情報が要求される可能性があると予測することができる。このような状況では、医療保険情報を、この情報の要求に応答して表示することができる。

【0095】

コンピューティングデバイス２０２は、センサ２１４を使用して、コンピューティングデバイス２０２のコンテキストを判定することができる。ユーザがディスプレイを見ていないと判定することに応答して、コンピューティングデバイス２０２は、オーディオコンポーネント１１６に音声信号または触覚フィードバックを提供させることができる。音声信号は、ユーザ情報要求に関連するユーザデータが表示されていると、ユーザに警告することができる。たとえば、コンピューティングデバイス２０２が、（たとえば、近接センサ、ジャイロスコープ、または加速度計を使用することによって）ユーザがコンピューティングデバイス２０２を耳に当てていると判定した場合、コンピューティングデバイス２０２は、オーディオコンポーネント１１６に、ユーザのみが聞くことができる音声信号（たとえば、ソフトトーン）を提供させることができる。他の実現例では、コンピューティングデバイス２０２は、警告として、ユーザに触覚フィードバックを提供することができる。

【0096】

医療保険情報を含むメッセージ要素６００を読み出すことに応答して、ユーザはこの情報を受付係に可聴的に提供することができる。状況によっては、ユーザは公共の場にいて、ユーザデータを可聴的に提供したくない場合もある。その結果、ユーザは、複数の選択可能なコントロール１３４のうちの１つを選択することができる。表示コンポーネント１１８は、第５の選択可能なコントロール１３４－５および第６の選択可能なコントロール１３４－６を表示する。第５の選択可能なコントロール１３４－５は、「私の保険会社を読み出し」というテキストを含む。第６の選択可能なコントロール１３４－６は、「私の保険番号を読み出し」というテキストを読む。ユーザが選択可能なコントロール１３４のうちの１つを選択することに応答して、コンピューティングデバイス２０２は、ユーザにこの情報を可聴的に提供することを要求することなく、オーディオミキサ２０８に、それぞれのユーザデータを受付係に対して可聴的に読ませる。他の実現例では、コンピューティングデバイス２０２は、ユーザデータ（たとえば、医療保険情報）を受付係に電子メールで送信、テキストで送信、または他の態様で送信するための追加の選択可能なコントロール１３４を、ユーザに与えることができる。このように、説明する技術およびシステムは、音声通話およびビデオ通話中に、機密性の高いユーザデータを別の人物またはエンティティと共有するための安全な、かつ非公開の方法を提供する。

【0097】

図６Ｃにおいて、コンピューティングデバイス２０２は、提案された予約時間に応答してユーザデータを提供する。医院への前回の音声通話を考える。ユーザが医療保険情報を提供した後、受付係は火曜日の午前１１時の予約を提案する。たとえば、オーディオデータ３０４には、「来週の火曜日の午前１１時でよろしいですか？」という受付係からの質問が含まれている。提案された時間に応答して、コンピューティングデバイス２０２は、カレンダーアプリケーション内のユーザカレンダー情報をチェックし、予定が重なっている可能性を特定することができる。この例では、ユーザは、火曜日の午前１１時１５分に歯科医院の予約を取っている。コンピューティングデバイス２０２は、表示コンポーネント１１８に、この情報をメッセージ要素６００に表示させる。たとえば、表示コンポーネント１１８は、「午前１１時１５分の歯医者の予約」というテキストを表示することができる。いくつかの実現例では、コンピューティングデバイス２０２は、ユーザカレンダー情報に基づいて、代替の時間を自動的に提案することもできる。表示コンポーネント１１８は、「予定が重なっているので、代わりにこれらの時間はいかがでしょうか：火曜日の午前９時３０分［または］水曜日の午後１時」というテキストを表示することができる。このように、コンピューティングデバイス２０２は、ユーザが医院に新しく予約する手助けをする。ユーザは、受付係と話している間、以前に取った歯医者の予約を呼び出したり、コンピューティングデバイス２０２上のカレンダーアプリケーションを開いたりしてはならない。また、ユーザは、予定が重なっていることを思い出した後、予約を再び取るために医院に電話をかけ直すことも避けることができる。

【0098】

図６Ｄにおいて、コンピューティングデバイス２０２は、音声通話に関連する伝達情報を表示する。前回の医院への音声通話について考える。受付係は、水曜日の午後１時に予約枠が空いており、「１１月４日水曜日の午後１時に予約をお取りしました。」と言って予約を確認した。これに応答して、コンピューティングデバイス２０２は、表示コンポーネント１１８に、メッセージ要素６００に予約の詳細を表示させることができる。たとえば、メッセージ要素６００は、「２０２０年１１月４日水曜日午後１時、医院の診察予約」という伝達情報を提供することができる。

【0099】

コンピューティングデバイス２０２はまた、第７の選択可能なコントロール１３４－７および第８の選択可能なコントロール１３４－８を含む、伝達情報に関連するいくつかの選択可能なコントロールをユーザに提供することができる。この例では、第７の選択可能なコントロール１３４－７は、「カレンダーに保存」というテキストを表示する。選択されると、第７の選択可能なコントロール１３４－７は、コンピューティングデバイス２０２に、予約情報をカレンダーアプリケーションに保存させる。第８の選択可能なコントロール１３４－８は、「配偶者に送信」というテキストを表示する。選択されると、第８の選択可能なコントロール１３４－８は、コンピューティングデバイス２０２に、予約情報を配偶者に送信させる。ユーザは、可聴コマンドを介して、コンピューティングデバイス２０２に、予約情報をカレンダーアプリケーションに保存させることもできる。

【0100】

コンピューティングデバイス２０２は、表示コンポーネント１１８に、音声通話が終了するまで、およびその後数分間、予約に関連するメッセージ要素６００および選択可能なコントロール１３４を、ユーザインターフェイス１２６上に残させることができる。他の実現例では、ユーザは、通信アプリケーション１２４の履歴メニューで医院との会話を選択することにより、メッセージ要素６００および選択可能なコントロールを含むこの情報を取り出すことができる。このように、ユーザは、予定を書き留めたり、後で予定を呼び出したり、カレンダーアプリケーションに別途予定を入力したりすることなく、音声通話またはビデオ通話から伝達情報を保存することができる。図６Ａ～図６Ｄに関して説明する特徴および機能により、コンピューティングデバイス２０２は、音声通話およびビデオ通話において、よりユーザフレンドリーな体験を提供することができる。

【0101】

図７Ａ～図７Ｃは、音声通話およびビデオ通話でユーザを支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す。図７Ａ～図７Ｃは、連続して、コンピューティングデバイス２０２の文脈で説明される。コンピューティングデバイス２０２は、図７Ａ～図７Ｃに示されたものよりも少ない機能、または追加の機能を有する異なるユーザインターフェイスを提供し得る。

【0102】

図７Ａにおいて、コンピューティングデバイス２０２は、表示コンポーネントにユーザインターフェイス１２６を表示させる。ユーザが、通信アプリケーション１２４を使用して、友人のエイミーに音声通話をかけたとする。発信者側ボックス１２８は、エイミーの名前と電話番号（たとえば、（１１１）５５５－６７８９）を提供する。音声通話中、エイミーはユーザの新しい住所をユーザに尋ねる。図７Ａに示すように、オーディオデータ３０４には、「あなたの新しい住所は？」というフレーズが含まれる。

【0103】

オーディオデータ３０４がユーザ情報（たとえば、ユーザアドレス）の要求を含むと判定することに応答して、コンピューティングデバイス２０２は、要求の記述を判定する。この例では、キャプションモジュール２１０は、要求のテキスト記述３０６がユーザの自宅住所を含むと判定する。コンピューティングデバイス２０２は、ＣＲＭ２０６内の自宅住所を探し出し、それをユーザインターフェイス１２６に表示する。たとえば、表示コンポーネント１１８は、メッセージ要素７００に、テキスト記述３０６および応答するユーザデータを提供させることができる。メッセージ要素７００は、「あなたの住所：郵便番号９４０１６カリフォルニア州サンフランシスコ１丁目１００番地」という情報を提供する。ほとんどの場合、ユーザはこのユーザデータを思い出すが、特定の詳細事項（郵便番号など）を思い出すのに助けが必要な場合がある。

【0104】

コンピューティングデバイス２０２は、表示コンポーネント１１８に選択可能なコントロール７０２を表示させることもできる。ユーザは、エイミーに自宅住所を可聴的に提供することができる。状況によっては、ユーザは公共の場にいる場合があり、自分の住所を可聴的に提供したくない場合がある。その結果、ユーザは選択可能なコントロール７０２のうちの１つを選択することができる。この例では、選択可能なコントロール７０２は、第１の選択可能なコントロール７０２－１、第２の選択可能なコントロール７０２－２、および第３の選択可能なコントロール７０２－３を含む。第１の選択可能なコントロール７０２－１は、「私の住所を読み出し」というテキストを含む。選択されると、第１の選択可能なコントロール７０２－１は、ユーザがこの情報を可聴的に提供することを要求することなく、音声ミキサー２０８にエイミーに対して自宅住所を可聴的に読ませる。第２の選択可能なコントロール７０２－２は、「住所をテキストで送信」というテキストを含む。選択されると、第２の選択可能なコントロール７０２－２は、通信アプリケーション１２４または別のアプリケーションに、通信ユニット１１６を使用して、エイミーに対して自宅住所を有するテキストメッセージを送信させる。第３の選択可能なコントロール７０２－３は、「住所を電子メールで送信」というテキストを含む。第３の選択可能なコントロール７０２－３は、選択されると、電子メールアプリケーションに、自宅住所を有する電子メールをエイミーに対して送信させる。コンピューティングデバイス２０２は、連絡先アプリケーションからエイミーの電子メールアドレスを取得することができる。このように、コンピューティングデバイス２０２は、音声通話またはビデオ通話において、ユーザに、機密性の高いユーザデータを近くにいる人に可聴的に流すことなく共有する安全な方法を提供する。

【0105】

図７Ｂにおいて、コンピューティングデバイス２０２は、音声通話に関連する伝達情報を表示する。エイミーとの以前の音声通話と、エイミーが新しい連絡先情報（たとえば、彼女の新しい仕事の電子メールアドレス）を提供することとを考える。これに応答して、コンピューティングデバイス２０２は、伝達情報をユーザに提供する。キャプションモジュール２１０は、オーディオデータ３０４が、エイミーが新しい電子メールアドレス「私の電子メールアドレスはａｍｙ＠ｅｍａｉｌ．ｃｏｍです」を提供することを含むと判定する。次に、表示コンポーネント１１８は、新しい電子メールアドレスをメッセージ要素７０２に表示する。メッセージ要素は、「エイミーの電子メールアドレス：ａｍｙ＠ｅｍａｉｌ．ｃｏｍ」というテキストを提供する。

【0106】

いくつかの実現例では、コンピューティングデバイス２０２は、新しい電子メールアドレスがコンピューティングデバイス２０２に（たとえば、連絡先アプリケーションまたは電子メールアプリケーションに）保存されていないと確認することができる。新しい電子メールアドレスが保存されている場合、コンピューティングデバイス２０２は、キャプションモジュール２１０に、この伝達情報を表示させないようにし得る。新しい電子メールアドレスが保存されていない場合、コンピューティングデバイス２０２は、キャプションモジュール２１０に、この伝達情報を表示させ得る。

【0107】

コンピューティングデバイス２０２は、第４の選択可能なコントロール７０２－４を表示することができる。第４の選択可能なコントロール７０２－４は、「連作先に保存」というテキストを含む。第４の選択可能なコントロール７０２－４は、選択されると、コンピューティングデバイス２０２に、電子メールアドレスを連絡先アプリケーションに保存させる。

【0108】

図７Ｃにおいて、コンピューティングデバイス２０２は、音声通話中に伝達情報に応答して、追加の選択可能なコントロールを提供する。エイミーとの以前の音声通話で、ユーザとエイミーとがランチのために会うことに合意したことを考える。オーディオデータ３０４は、ユーザが可聴的に話した「メリーのレストランで２０分後に会いましょう。」というフレーズを含む。この伝達情報に応答して、コンピューティングデバイス２０２は、メリーのレストランのアドレスをメッセージ要素７００に表示することができる。メッセージ要素７０２は、「メリーのレストランのアドレス：郵便番号９４０１６カリフォルニア州サンフランシスコ２０丁目５００番地」というテキストを含む。コンピューティングデバイス２０２は、第５の選択可能なコントロール７０２－５を表示することもできる。第５の選択可能なコントロール７０２－５は、「メリーのレストランへの道順」というテキストを表示する。選択されると、第５の選択可能なコントロール７０２－５は、コンピューティングデバイス２０２に、ナビゲーションアプリケーションからのナビゲーション指示を開始させる。

【0109】

いくつかの実現例では、第５の選択可能なコントロール７０２－５は、伝達情報に関連するナビゲーションアプリケーションの機能のサブセットを提供するナビゲーションアプリケーションのスライスウィンドウであり得る。たとえば、ナビゲーションアプリケーションのスライスウィンドウは、ユーザにメリーのレストランへの徒歩での道順、車での道順、または公共交通機関での道順を選択することを可能にする。

【0110】

図８Ａ～図８Ｄは、ユーザの音声通話およびビデオ通話を支援するコンピューティングデバイスのユーザインターフェイスの他の例を示す。図８Ａ～図８Ｄは、連続して、図２のコンピューティングデバイス２０２の文脈で説明される。コンピューティングデバイス２０２は、図８Ａ～図８Ｄに示されたものよりも少ない機能、または追加の機能を有する異なるユーザインターフェイスを提供し得る。

【0111】

図８Ａにおいて、コンピューティングデバイス２０２は、ＩＶＲシステム１１０の選択可能なオプションに応答して、表示コンポーネント１１８に、メッセージ要素８００および選択可能なコントロール８０２を有するユーザインターフェイス１２６を表示させる。ユーザが新しい公益事業会社に音声通話をかけたとする。発信者側ボックス１２８には、通話相手の事業名（たとえば、公益事業会社）と電話番号（たとえば、（１１１）５５５－２３４５）とが表示される。

【0112】

ＩＶＲシステム１１０は、一連の質問および文に対する音声応答を提供するよう発信者に促す音声応答システムを使用する。オーディオデータ３０４に、「新規顧客登録についてご連絡いただきありがとうございます。ご興味のあるサービスの種類をおっしゃって下さい。」という文が含まれているとする。ＩＶＲシステム１１０は、提供されるサービスのリストと一致またはかなり一致するフレーズを聞くことができる。たとえば、公益事業会社は、家庭用インターネットサービス、家庭用電話、またはテレビサービスという選択可能なオプションのうちの１つを聞き取ることができる。コンピューティングデバイス２０２は、オーディオデータ３０４が２つ以上の選択可能なオプションの暗黙のリストを含むと判定することができる。表示コンポーネント１１８は、メッセージ要素８００に、「以下は、新規顧客によって提供される一般的な応答のリストです。」というテキストを表示することができる。この例では、選択可能なコントロール８０２は、第１の選択可能なコントロール８０２－１（たとえば、「家庭用インターネットサービス」）、第２の選択可能なコントロール８０２－２（たとえば、「家庭用電話」）、および第３の選択可能なコントロール８０２－３（たとえば、「テレビサービス」）を含み得る。選択可能なコントロール８０２は、追加の提案またはより少ない提案を含み得る。ユーザは、選択可能なコントロール８０２のうちの１つを選択して、音声ミキサー２０８に、選択されたオプションを可聴的にＩＶＲシステム１１０に提供させることができる。

【0113】

コンピューティングデバイス２０２は、音声通話の可聴部分から利用可能なサービスを解読することによって、オーディオデータ３０４に基づいて潜在的な提案を判定することができる。また、コンピューティングデバイス２０２は、同じ公共事業体または同様の会社によって同様の要求が与えられた他のコンピューティングデバイスから得られたデータに基づいて、選択可能なオプションを判定することもできる。このように、コンピューティングデバイス２０２は、ユーザがオープンエンドのＩＶＲプロンプトをナビゲートし、効果的でない応答を回避したり、システムを再起動させたりするのを助けることができる。

【0114】

図８Ｂは、ユーザ情報（たとえば、支払い情報）の要求に応答するユーザインターフェイス１２６の例である。ユーザが家庭用インターネットサービスを選択したことに応答して、ＩＶＲシステム１１０は、ユーザをアカウント専門家に誘導し、新しいアカウントを設定して家庭用インターネットサービスを開始する。ユーザは新しいアカウント所有者であるため、アカウント専門家は、アカウントを設定するためにクレジットカード番号を含む支払い情報を収集する。たとえば、オーディオデータ３０４は、専門家からの「新しいサービスのご希望の支払方法を提供して下さい」という要求を含み得る。オーディオデータ３０４がユーザ情報の要求を含むと判定することに応答して、コンピューティングデバイス２０２は、要求のテキスト記述３０６を判定する。この例では、キャプションモジュール２１０は、テキスト記述３０６がクレジットカード情報を要求していると判定する。コンピューティングデバイス２０２は、ＣＲＭ２０６内のクレジットカード情報を識別し、ユーザデータをユーザインターフェイス１２６上に表示する。応答要素８００は、「あなたのクレジットカード情報：＃＃＃＃－＃＃＃＃－＃＃＃＃－１２３４、［有効期限］０１／２１、［ＰＩＮ］７８９」という情報を含む。

【0115】

コンピューティングデバイス２０２はまた、ユーザデータが機密情報を含むかどうかを判定することができる。ユーザデータの一部が機密情報であると判定したことに応答して、コンピューティングデバイス２０２は、機密情報の一部を不明瞭にすることができる（たとえば、クレジットカード番号の少なくとも数桁を、「＃」または「＊」を含む異なる記号に置き換えるか、または省略する）。このように、コンピューティングデバイス２０２は、機密情報の秘匿性を維持し、他の人から見えにくくすることができる。

【0116】

表示コンポーネント１１８は、ユーザデータの機密性を維持するために、選択可能なコントロール８０２を表示することができる。この例では、表示コンポーネント１１８は、「クレジットカード情報を読んで下さい」というテキストを含む第４の選択可能なコントロール８０２－４を表示する。選択されると、第４の選択可能なコントロール８０２－４は、コンピューティングデバイス２０２に、クレジットカード番号、有効期限、およびＰＩＮの全部を、アカウント専門家に可聴的に読ませる。このように、コンピューティングデバイス２０２は、ユーザが機密性の高いクレジットカード情報をアカウント専門家と共有するための安全な方法を提供する。

【0117】

図８Ｃにおいて、コンピューティングデバイス２０２は、音声通話に関連する伝達情報を表示する。公益事業会社への以前の音声通話を考える。アカウント専門家は、アカウント情報（たとえば、アカウント番号および個人識別番号（ＰＩＮ））をユーザに提供する。この状況において、オーディオデータ３０４は、「あなたの新しいアカウント番号はＵＴＩＬ１２３４５で、あなたのアカウントに関連付けられたＰＩＮは６７８９です。」という文を含む。これに応答して、コンピューティングデバイス２０２は、メッセージ要素８００にアカウント番号とＰＩＮとを表示する。具体的には、メッセージ要素８０２は、「あなたのアカウント番号：ＵＴＩＬ１２３４５、あなたのＰＩＮ：６７８９」を表示する。コンピューティングデバイス２０２は、第５の選択可能なコントロール８０２－５および第６の選択可能なコントロール８０２－６を、ユーザに提供することができる。第５の選択可能なコントロール８０２－５は、「連作先に保存」というテキストを含む。選択されると、第５の選択可能なコントロール８０２－５は、コンピューティングデバイス２０２に、アカウント番号およびＰＩＮを連絡先アプリケーションに保存させる。第６の選択可能なコントロール８０２－６は、「セキュアメモリに保存」というテキストを含む。選択されると、第６の選択可能なコントロール８０２－６は、コンピューティングデバイス２０２に、アクセスするためにアプリケーションまたはユーザによる特別な特権を必要とするセキュアメモリに、アカウント番号およびＰＩＮを保存させる。

【0118】

図８Ｄにおいて、コンピューティングデバイス２０２は、以前の音声通話に関連する伝達情報を表示する。公益事業会社への以前の音声通話を考える。この例では、ユーザは、音声通話の間またはその直後に、ユーザインターフェイス上に表示された伝達情報を確認することができなかった。コンピューティングデバイス２０２は、音声通話に関連するメッセージ要素８０２、第５の選択可能なコントロール８０２－５、第６の選択可能なコントロール８０２－６、またはそれらの組み合わせを格納することができる。このように、ユーザは、後で伝達情報のテキスト記述３０６にアクセスすることができる。

【0119】

通話履歴は、各音声通話またはビデオ通話に関連するユーザインターフェイス１２６を提供することができる。たとえば、公益事業会社との音声通話の履歴に関連付けられたユーザインターフェイス１２６は、履歴要素８０４を含み得る。履歴要素８０４は、「１１月２日の発信」というテキストを含む、音声通話に関する履歴情報を含み得る。

【0120】

状況によっては、ユーザは、公益事業会社との音声通話の終了直後に別の音声通話もしくはビデオ通話を行わなければならないか、またはコンピューティングデバイス２０２上で別の機能を実行しなければならない場合がある。コンピューティングデバイス２０２は、各音声通話またはビデオ通話に関連付けられたメッセージ要素８００および選択可能なコントロール８０２を、通信アプリケーション１２４に関連付けられたメモリに格納することができる。通信アプリケーション１２４は、通話履歴を含み得る。このように、ユーザは、後で都合のよいときに、音声通話またはビデオ通話に関連するメッセージ要素８００および選択可能なコントロール８０２を取り出すことができる。

【0121】

例
以下のセクションでは、例について説明する。

【0122】

例１：方法であって、コンピューティングデバイスが、コンピューティングデバイス上で実行される通信アプリケーションから出力されるオーディオデータを取得することを含み、オーディオデータは、コンピューティングデバイスのユーザとサードパーティとの間の音声通話またはビデオ通話の可聴部分を含み、方法はさらに、コンピューティングデバイスが、可聴部分を使用して、オーディオデータが２つ以上の選択可能なオプションを含むかどうかを判定することを含み、２つ以上の選択可能なオプションは、音声通話中またはビデオ通話中にサードパーティによって可聴的に提供され、方法はさらに、オーディオデータが２つ以上の選択可能なオプションを含むと判定することに応答して、コンピューティングデバイスが、２つ以上の選択可能なオプションのテキスト記述を判定することを含み、テキスト記述は、２つ以上の選択可能なオプションの少なくとも一部のトランスクリプションを提供し、方法はさらに、コンピューティングデバイスのディスプレイ上に２つ以上の選択可能なコントロールを表示することを含み、２つ以上の選択可能なコントロールは、２つ以上の選択可能なオプションのうちの選択されたオプションの指示をサードパーティに提供するために、ユーザによって選択可能に構成され、２つ以上の選択可能なコントロールの各々は、それぞれの選択可能なオプションのテキスト記述を提供する。

【0123】

例２：方法はさらに、選択されたオプションに関連付けられた２つ以上の選択可能なコントロールのうちの１つの選択可能なコントロールの選択を受信することを含み、選択は、音声通話中またはビデオ通話中にユーザによって行われ、方法はさらに、１つの選択可能なコントロールの選択を受信したことに応答して、コンピューティングデバイスが、選択されたオプションをサードパーティに伝達することを含む、例１に記載の方法。

【0124】

例３：選択されたオプションをサードパーティに伝達することは、ユーザが選択されたオプションを可聴的に伝達することなく、コンピューティングデバイスが、音声応答またはＤＴＭＦ（Ｄｕａｌ－ＴｏｎｅＭｕｌｔｉ－Ｆｒｅｑｕｅｎｃｙ）トーンをサードパーティに送信することを含む、例２に記載の方法。

【0125】

例４：方法はさらに、選択されたオプションをサードパーティに伝達することに応答して、コンピューティングデバイスが、通信アプリケーションから出力される追加のオーディオデータを取得することを含み、追加のオーディオデータは、選択されたオプションに応答して、音声通話中またはビデオ通話中にサードパーティによって可聴的に提供される２つ以上の追加の選択可能なオプションを含む、例２または３に記載の方法。

【0126】

例５：方法はさらに、コンピューティングデバイスが、可聴部分を使用して、オーディオデータがユーザ情報の要求を含むかどうかを判定することを含み、ユーザ情報の要求は、音声通話中またはビデオ通話中にサードパーティによって可聴的に提供され、方法はさらに、コンピューティングデバイスが、可聴部分を使用して、ユーザ情報の要求に応答してユーザデータを特定することと、音声通話中またはビデオ通話中に、コンピューティングデバイスが、ユーザデータをディスプレイ上に表示すること、またはコンピューティングデバイスが、ユーザデータをサードパーティに提供することとを含む、先行する例のいずれか１つに記載の方法。

【0127】

例６：方法はさらに、コンピューティングデバイスが、可聴部分を使用して、オーディオデータが伝達情報を含むかどうかを判定することを含み、伝達情報は、音声通話またはビデオ通話のコンテキストに関連し、音声通話またはビデオ通話中にサードパーティまたはユーザによって可聴的に提供され、方法はさらに、オーディオデータが伝達情報を含むと判定することに応答して、コンピューティングデバイスが、伝達情報のテキスト記述を判定することを含み、伝達情報のテキスト記述は、伝達情報の少なくとも一部のトランスクリプションを提供し、方法はさらに、他の選択可能なコントロールをディスプレイ上に表示することを含み、他の選択可能なコントロールは、伝達情報のテキスト記述を提供し、伝達情報を、コンピューティングデバイス、アプリケーション、またはコンピューティングデバイス上の他のアプリケーションのうちの少なくとも１つに保存するように、ユーザによって選択可能に構成されている、先行する例のいずれか１つに記載の方法。

【0128】

例７：２つ以上の選択可能なオプションのテキスト記述を判定することは、コンピューティングデバイスが、２つ以上の選択可能なオプションのテキスト記述を判定するために機械学習モデルを実行することを含み、機械学習モデルは、オーディオデータからテキスト記述を判定するように訓練され、オーディオデータは、コンピューティングデバイスのオーディオミキサから受信される、先行する例のいずれか１つに記載の方法。

【0129】

例８：機械学習モデルは、エンドツーエンドのリカレントニューラルネットワーク・トランスデューサ自動音声認識モデルを含む、例７に記載の方法。

【0130】

例９：２つ以上の選択可能なオプションは、自動音声応答（ＩＶＲ）システムまたは音声応答ユニット（ＶＲＵ）システムのオプションを表すメニューであり、ＩＶＲシステムまたはＶＲＵシステムは、ユーザと対話し、ユーザを、ＩＶＲシステムまたはＶＲＵシステムの別のメニュー、サードパーティに関連する人員、サードパーティに関連する部署、サードパーティに関連するサービス、またはサードパーティに関連する情報のうちの少なくとも１つに誘導するように構成されている、先行する例のいずれか１つに記載の方法。

【0131】

例１０：２つ以上の選択可能なコントロールは、ボタン、トグル、選択可能なテキスト、スライダ、チェックボックス、またはアイコンのうちの少なくとも１つを含み、通信アプリケーションのユーザインターフェイスに含まれる、先行する例のいずれか１つに記載の方法。

【0132】

例１１：テキスト記述は、２つ以上の選択可能なオプションの各々に関連付けられた番号を含み、選択可能なコントロールの各々は、２つ以上の選択可能なオプションの各々に関連付けられた番号の視覚的表現を含む、先行する例のいずれか１つに記載の方法。

【0133】

例１２：コンピューティングデバイスのディスプレイはタッチ感知スクリーンを含み、選択可能なコントロールはタッチ感知スクリーン上に提示される、先行する例のいずれか１つに記載の方法。

【0134】

例１３：コンピューティングデバイスは、スマートフォン、コンピュータ化された時計、タブレットデバイス、ウェアラブルデバイス、またはラップトップコンピュータを含む、先行する例のいずれか１つに記載の方法。

【0135】

例１４：例１～１３に記載の方法のうちのいずれか１つを実行するように構成された少なくとも１つのプロセッサを備える、コンピューティングデバイス。

【0136】

例１５：実行されると、例１～１３に記載の方法のうちのいずれか１つを実行するようにコンピューティングデバイスのプロセッサを構成する命令を含む、コンピュータ読取可能記憶媒体。

【0137】

結論
ＩＶＲシステム用にコンピューティングデバイス上に選択可能なコントロールを提供するためのさまざまな構成および方法について、特徴および／または方法に特有の言語で説明してきたが、添付の特許請求の範囲の主題は、必ずしも説明された特定の特徴または方法に限定されないことを理解されたい。むしろ、特定の特徴および方法は、ＩＶＲシステム用のコンピューティングデバイス上で選択可能なコントロールを提供するための非限定的な例として開示されている。さらに、さまざまな例が上述され、各例は特定の特徴を有するが、１つの例の特定の特徴がその例と排他的に使用される必要はないことが理解されるべきである。その代わり、上述したおよび／または図面に示された特徴のいずれかを、それらの例の他の特徴のいずれかに加えて、またはその代わりに、いずれかの例と組み合わせることができる。

【図1】