(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-05
(54)【発明の名称】通話のための音声メニューの決定および視覚的表示
(51)【国際特許分類】
H04M 3/493 20060101AFI20240829BHJP
H04M 1/72469 20210101ALI20240829BHJP
G06F 3/16 20060101ALI20240829BHJP
【FI】
H04M3/493
H04M1/72469
G06F3/16 650
G06F3/16 620
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024512125
(86)(22)【出願日】2022-07-19
(85)【翻訳文提出日】2024-02-22
(86)【国際出願番号】 US2022037550
(87)【国際公開番号】W WO2023027833
(87)【国際公開日】2023-03-02
(32)【優先日】2021-08-24
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-02
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】110001195
【氏名又は名称】弁理士法人深見特許事務所
(72)【発明者】
【氏名】チェルカラ,ジョセフ・ジョセフ
(72)【発明者】
【氏名】シバン,アミット
(72)【発明者】
【氏名】シェバノウ,アンドリュー・ジョージ
(72)【発明者】
【氏名】ツル,ヨアブ
(72)【発明者】
【氏名】ワン,フェリックス
(72)【発明者】
【氏名】リバイアサン,ヤニフ
【テーマコード(参考)】
5K127
5K201
【Fターム(参考)】
5K127AA12
5K127BA03
5K127CA08
5K127CA27
5K127CB16
5K127FA05
5K201AA05
5K201CA09
5K201DC05
5K201ED05
5K201ED07
5K201EF03
5K201EF10
(57)【要約】
実施は、通話のための音声メニューの決定および視覚的表示に関する。幾つかの実施において、コンピュータが実行する方法は、通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話において出力されるオーディオデータを受信することを含む。オーディオデータは、通話においてターゲットエンティティによって提供される通話メニューを通じて移動するために通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含む。オーディオデータをプログラムで分析することによってテキストが決定され、テキストは発話を表す。選択オプションは、テキストまたはオーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて決定される。テキストの少なくとも一部は、選択オプションに対応する1つまたは複数の視覚的オプションとして、通話中に通話デバイスによって表示される。視覚的オプションは各々、通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である。
【特許請求の範囲】
【請求項1】
コンピュータが実行する方法であって、
通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話においてオーディオデータを受信することを含み、前記オーディオデータは、前記通話において前記ターゲットエンティティによって提供される通話メニューを通じて移動するために前記通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含み、
前記方法は、
前記オーディオデータにおいて前記発話を表すテキストを決定するために前記オーディオデータをプログラムで分析することと、
前記テキストまたは前記オーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて前記1つまたは複数の選択オプションを決定することと、
前記テキストの少なくとも一部を前記通話中に前記通話デバイスによって表示させることをさらに含み、前記テキストの前記一部は、前記1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションとして表示され、前記1つまたは複数の視覚的オプションは各々、前記通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である、コンピュータが実行する方法。
【請求項2】
前記1つまたは複数の視覚的オプションのうちの特定の視覚的オプションの選択を受信することに応答して、前記選択の指示を、前記ターゲットエンティティに関連した前記デバイスへ送信させることをさらに含み、前記指示は、
前記特定の視覚的オプションに関連したキーパッドのキーを押すことに対応する信号、または
前記特定の視覚的オプションに関連した指示子を含む、前記通話において前記通話デバイスによって提供される発話
のうちの1つである、請求項1に記載のコンピュータが実行する方法。
【請求項3】
前記1つまたは複数の視覚的オプションはそれぞれ、前記通話デバイスのタッチスクリーン上のタッチ入力を介して選択可能である、請求項1に記載のコンピュータが実行する方法。
【請求項4】
前記オーディオデータは、第1のオーディオデータであり、前記1つまたは複数の視覚的オプションのうちの特定の視覚的オプションの選択を受信することに応答して、前記方法は、
前記通話において第2のオーディオデータを受信することをさらに含み、前記第2のオーディオデータは、前記通話デバイスの前記ユーザのための1つまたは複数の第2の選択オプションを示す第2の発話を含み、
前記方法は、
前記第2のオーディオデータにおける前記第2の発話を表す第2のテキストを決定するために、前記第2のオーディオデータをプログラムで分析することと、
前記第2のテキストまたは前記第2のオーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて前記1つまたは複数の第2の選択オプションを決定することと、
前記第2のテキストの少なくとも一部を前記通話デバイスによって表示させることと、をさらに含み、前記第2のテキストの前記少なくとも一部は、前記1つまたは複数の第2の選択オプションに対応する1つまたは複数の第2の視覚的オプションとして表示され、前記1つまたは複数の第2の視覚的オプションは各々、前記通話メニューを通じた対応する移動を生じさせるために第2のユーザ入力を介して選択可能である、請求項1に記載のコンピュータが実行する方法。
【請求項5】
前記1つまたは複数の選択オプションは、複数の選択オプションであり、前記通話メニューにおける前記複数の選択オプションの階層構造を決定するために前記テキストまたは前記オーディオデータのうちの少なくとも一方をプログラムで分析することをさらに含む、請求項1に記載のコンピュータが実行する方法。
【請求項6】
前記オーディオデータを受信する前に、
前記1つまたは複数の選択オプションを含む選択オプションデータを取得することと、
前記通話デバイスが、前記1つまたは複数の選択オプションを示す前記発話を含む前記オーディオデータを受信する前に、前記1つまたは複数の選択オプションに対応する前記1つまたは複数の視覚的オプションを前記通話デバイスによって表示させることと、
をさらに含む、請求項1に記載のコンピュータが実行する方法。
【請求項7】
前記選択オプションデータにおける前記1つまたは複数の選択オプションは、前の通話中に受信されたオーディオデータをプログラムで分析することによって決定される、請求項6に記載のコンピュータが実行する方法。
【請求項8】
前記取得された選択オプションデータは、前記通話の開始前に前記通話デバイスにキャッシュされ、前記取得された選択オプションデータは、前記通話デバイスの地理的エリアにおける発呼側によって前に通話されたエンティティ識別子に関連しており、前記エンティティ識別子は、少なくともしきい値回数だけ前に通話されている、または前記取得された選択オプションデータに関連していない他のエンティティ識別子よりも多い回数だけ前に通話されている、請求項7に記載のコンピュータが実行する方法。
【請求項9】
前記通話中に視覚的インジケータを表示させることをさらに含み、前記視覚的インジケータは、前記通話中に表示される前記1つまたは複数の視覚的オプションの前記テキストの特定の部分を強調し、前記テキストの前記特定の部分は、前記オーディオデータにおける前記発話において前記通話中に現在受信されている、請求項6に記載のコンピュータが実行する方法。
【請求項10】
前記選択オプションデータを、前記オーディオデータから決定された前記1つまたは複数の選択オプションと比較することと、
前記選択オプションデータと、前記オーディオデータから決定された前記1つまたは複数の選択オプションとの間に不一致が存在するかどうかを決定することと、
をさらに含む、請求項6に記載のコンピュータが実行する方法。
【請求項11】
前記選択オプションデータと、前記オーディオデータから決定された前記1つまたは複数の選択オプションとの間の不一致を決定することに応答して、前記通話デバイスによって前記不一致の通知を生じさせることをさらに含む、請求項10に記載のコンピュータが実行する方法。
【請求項12】
前記選択オプションデータと、前記オーディオデータから決定された前記1つまたは複数の選択オプションとの間の不一致を決定することに応答して、前記オーディオデータから決定された前記1つまたは複数の選択オプションと一致するように前記選択オプションデータを修正することをさらに含む、請求項10に記載のコンピュータが実行する方法。
【請求項13】
前記選択オプションデータを前記1つまたは複数の選択オプションと比較することは、
前記選択オプションデータのテキストを前記1つまたは複数の選択オプションの前記テキストと比較すること、または
前記選択オプションデータのオーディオデータを、前記通話中に受信された前記オーディオデータと比較すること
のうちの1つを含む、請求項10に記載のコンピュータが実行する方法。
【請求項14】
前記通話デバイスのストレージまたは通信ネットワーク上で前記通話デバイスと通信するリモートデバイスのストレージのうちの少なくとも一方に前記1つまたは複数の選択オプションを記憶させることと、
前記通話デバイスと前記ターゲットエンティティとの間の次の通話のために前記1つまたは複数の選択オプションを検索することと
をさらに含む、請求項1に記載のコンピュータが実行する方法。
【請求項15】
通話のための選択オプションを表示するための通話デバイスであって、前記通話デバイスは、
命令が記憶されたメモリと、
ディスプレイデバイスと、
前記メモリに結合された少なくとも1つのプロセッサと、を含み、前記少なくとも1つのプロセッサは、
前記通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話においてオーディオデータを受信することを含み、前記オーディオデータは、前記通話において前記ターゲットエンティティによって提供される通話メニューを通じて移動するために前記通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含み、
前記オーディオデータにおける前記発話を表すテキストを決定するために前記オーディオデータをプログラムで分析することと、
前記テキストまたは前記オーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて前記1つまたは複数の選択オプションを決定することと、
前記テキストの少なくとも一部を前記通話中に前記ディスプレイデバイスによって表示させることと、を含み、前記テキストの前記一部は、前記1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションとして表示され、前記1つまたは複数の視覚的オプションは各々、前記通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である、
オペレーションを実行するために前記メモリから前記命令にアクセスするように構成されている、通話のための選択オプションを表示するための通話デバイス。
【請求項16】
前記少なくとも1つのプロセッサは、前記1つまたは複数の視覚的オプションの特定の視覚的オプションの選択を受信することに応答して、前記選択の指示を前記ターゲットエンティティに関連した前記デバイスへ送信させることを含むさらなるオペレーションを実行し、前記指示は、
前記特定の視覚的オプションに関連したキーパッドのキーを押すことに対応する信号、または
前記特定の視覚的オプションに関連した指示子を含む、前記通話において前記通話デバイスによって提供される発話
のうちの一方である、請求項15に記載の通話デバイス。
【請求項17】
前記少なくとも1つのプロセッサは、前記オーディオデータを受信する前に、
前記1つまたは複数の選択オプションおよび前記通話メニューにおける前記1つまたは複数の選択オプションの階層構造を含む選択オプションデータを取得することと、
前記通話デバイスが、前記1つまたは複数の選択オプションを示す前記発話を含む前記オーディオデータを受信する前に、前記1つまたは複数の選択オプションに対応する前記1つまたは複数の視覚的オプションを前記ディスプレイデバイスによって表示させることと、
を含むさらなるオペレーションを実行する、請求項15に記載の通話デバイス。
【請求項18】
前記少なくとも1つのプロセッサは、
視覚的インジケータを前記通話中に表示させることをさらに含み、前記視覚的インジケータは、前記通話中に表示される前記1つまたは複数の視覚的オプションの前記テキストの特定の部分を強調し、前記テキストの前記特定の部分は、前記オーディオデータにおける前記発話において前記通話中に現在発話されている、
さらなるオペレーションを実行する、請求項17に記載の通話デバイス。
【請求項19】
前記少なくとも1つのプロセッサは、
前記選択オプションデータを前記オーディオデータから決定された前記1つまたは複数の選択オプションと比較することと、
前記選択オプションデータと、前記オーディオデータから決定された前記1つまたは複数の選択オプションとの間に不一致が存在するかどうかを決定することと
を含むさらなるオペレーションを実行する、請求項17に記載の通話デバイス。
【請求項20】
プロセッサによって実行されると、
通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話においてオーディオデータを受信することを含み、前記オーディオデータは、前記ターゲットエンティティによって提供される通話メニューを通じて移動するために前記通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含み、
前記オーディオデータにおける前記発話を表すテキストを決定するために前記オーディオデータをプログラムで分析することと、
前記テキストまたは前記オーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて前記1つまたは複数の選択オプションを決定することと、
前記テキストの少なくとも一部を前記通話中に前記通話デバイスによって表示させることと、を含み、前記テキストの前記一部は、前記1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションとして表示され、前記1つまたは複数の視覚的オプションは各々、前記通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である、
オペレーションを前記プロセッサに実行させる命令が記憶された、非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【背景技術】
【0001】
関連出願の相互参照
本願は、2021年8月24日に出願された、「Determination and Visual Display of Spoken Menus for Calls」という名称の米国仮特許出願第63/236,651号についての優先権を主張する、2021年12月2日に出願された、「Determination and Visual Display of Spoken Menus for Calls」という名称の米国特許出願第17/540,895号についての優先権を主張し、両出願は、参照により全体が本明細書に組み込まれる。
【0002】
背景
多くの企業およびその他の組織は、自動音声応答システム(IVR)としても知られる、企業と通話する発呼側のための自動化された電話メニューを提供する。一般的に、企業と通話する発呼側は、音声単語において、発呼側が選択することができる複数のオプションのメニューを説明する自動音声を受信する。しばしば、このようなオプションのセットの階層が提供され、発呼側が、オプションを通じて所望の結果まで移動することを可能にする。例えば、発呼側は、特定の情報を受信すること、企業の製品またはサービスをリクエストすること、人間エージェントと話すことなどを望む場合がある。発呼側は、自動システムによって検出および認識される、オプションに関連した数字、単語またはフレーズを発話すること、またはキーを押すことによって、通話メニューにおけるオプションを選択することができる。
【0003】
ここで提供される背景の説明は、開示の背景を一般的に提供するためのものである。この背景セクションにおいて説明されている範囲の、現時点で名前が挙げられる発明者らの業績、およびさもなければ出願時点で従来技術としての資格を有し得ない説明の態様は、本開示に対する従来技術として明示的にも暗示的にも認められない。
【発明の概要】
【0004】
概要
本願の実施は、通話のための音声メニューの決定および視覚的表示に関する。幾つかの実施において、コンピュータが実行する方法は、通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話においてオーディオデータ出力を受信することを含む。オーディオデータは、通話においてターゲットエンティティによって提供される通話メニューを通じて移動するために通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含む。テキストは、オーディオデータをプログラムで分析することによって決定され、テキストは、オーディオデータにおける発話を表す。選択オプションは、テキストまたはオーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて決定される。テキストの少なくとも一部は、通話中に通話デバイスによって表示させられ、テキストは、選択オプションに対応する1つまたは複数の視覚的オプションとして表示される。視覚的オプションはそれぞれ、通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である。
【0005】
方法の様々な実施および例が説明されている。例えば、幾つかの実施において、方法は、1つまたは複数の視覚的オプションのうちの特定の視覚的オプションの選択を受信することに応答して、選択の指示を、ターゲットエンティティに関連したデバイスへ送信させることをさらに含み、指示は、キーパッドの、特定の視覚的オプションに関連したキーを押すことに対応する信号、または特定の視覚的オプションに関連した指示子を含む、通話において通話デバイスによって提供される発話である。幾つかの実施において、1つまたは複数の視覚的オプションはそれぞれ、通話デバイスのタッチスクリーン上のタッチ入力を介して選択可能である。
【0006】
幾つかの実施において、オーディオデータは、第1のオーディオデータであり、特定の視覚的オプションの選択を受信することに応答して、方法は、通話において第2のオーディオデータを受信することをさらに含み、第2のオーディオデータは、1つまたは複数の第2の選択オプションを示す第2の発話を含み、方法は、第2のオーディオデータにおける第2の発話を表す第2のテキストを決定するために、第2のオーディオデータをプログラムで分析することと、第2のテキストまたは第2のオーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて1つまたは複数の第2の選択オプションを決定することと、第2のテキストの少なくとも一部を通話デバイスによって、第2の選択オプションに対応する1つまたは複数の第2の視覚的オプションとして表示させること、とをさらに含み、1つまたは複数の第2の視覚的オプションはそれぞれ、通話メニューを通じた対応する移動を生じさせるために第2のユーザ入力を介して選択可能である。幾つかの実施において、1つまたは複数の選択オプションは、複数の選択オプションであり、方法は、通話メニューにおける複数の選択オプションの階層構造を決定するためにテキストまたはオーディオデータのうちの少なくとも一方をプログラムで分析することをさらに含む。幾つかの実施において、方法は、1つまたは複数の選択オプションを通話デバイスのストレージおよび/または通信ネットワーク上で通話デバイスと通信するリモートデバイスのストレージに記憶させることと、通話デバイスとターゲットエンティティとの間の次の通話のための1つまたは複数の選択オプションを検索することと、をさらに含む。
【0007】
幾つかの実施において、方法は、オーディオデータを受信する前に、1つまたは複数の選択オプションを含む選択オプションデータを取得することと、通話デバイスが1つまたは複数の選択オプションを示す発話を含むオーディオデータを受信する前に、1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションを通話デバイスによって表示させることと、をさらに含む。幾つかの例において、選択オプションデータにおける選択オプションは、前の通話中に受信されたオーディオデータをプログラムで分析することによって決定される。例えば、幾つかの実施において、取得された選択オプションデータは、通話の開始前に通話デバイスにキャッシュされ、取得された選択オプションデータは、通話デバイスの地理的エリアにおける発呼側によって前に通話されたエンティティ識別子に関連しており、かつ少なくともしきい値回数だけ前に通話されているエンティティ識別子、または取得された選択オプションデータに関連していない他のエンティティ識別子よりも多い回数だけ前に通話されているエンティティ識別子に関連している。
【0008】
幾つかの実施において、通話中に視覚的インジケータが表示させられ、視覚的インジケータは、通話中に表示される視覚的オプションのテキストの特定の部分を強調し、テキストの特定の部分は、オーディオデータにおける発話において通話中に現在受信されている。幾つかの実施において、方法は、選択オプションデータを、オーディオデータから決定された1つまたは複数の選択オプションと比較することと、選択オプションデータと、オーディオデータから決定された1つまたは複数の選択オプションとの間に不一致が存在するかどうかを決定することと、をさらに含む。様々な実施において、方法は、不一致を決定することに応答して、通話デバイスによって不一致の通知を生じさせることおよび/またはオーディオデータから決定された1つもしくは複数の選択オプションと一致するように選択オプションデータを修正することをさらに含む。幾つかの実施において、選択オプションデータを1つまたは複数の選択オプションと比較することは、選択オプションデータのテキストを1つまたは複数の選択オプションのテキストと比較すること、および/または選択オプションデータのオーディオデータを、通話中に受信されたオーディオデータと比較することを含む。
【0009】
幾つかの実施において、通話のための選択オプションを表示するための通話デバイスは、命令が記憶されたメモリと、ディスプレイデバイスと、メモリに結合された少なくとも1つのプロセッサと、を含み、少なくとも1つのプロセッサは、オペレーションを実行するためにメモリからの命令にアクセスするように構成されている。オペレーションは、通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話においてオーディオデータを受信することを含み、オーディオデータは、通話においてターゲットエンティティによって提供される通話メニューを通じて移動するために通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含み、オーディオデータにおける発話を表すテキストを決定するためにオーディオデータをプログラムで分析することと、テキストまたはオーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて1つまたは複数の選択オプションを決定することと、テキストの少なくとも一部を通話中にディスプレイデバイスによって表示させることとをさらに含み、テキストの一部は、1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションとして表示され、1つまたは複数の視覚的オプションはそれぞれ、通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である。
【0010】
通話デバイスの様々な実施において、プロセッサは、1つまたは複数の視覚的オプションの特定の視覚的オプションの選択を受信することに応答して、選択の指示をターゲットエンティティに関連したデバイスへ送信させることを含むさらなるオペレーションを実行し、指示は、キーパッドの、特定の視覚的オプションに関連したキーを押すことに対応する信号、または特定の視覚的オプションに関連した指示子を含む、通話において通話デバイスによって提供される発話である。幾つかの実施において、プロセッサは、オーディオデータを受信する前に、1つまたは複数の選択オプションおよび通話メニューにおける1つまたは複数の選択オプションの階層構造を含む選択オプションデータを取得することと、通話デバイスが1つまたは複数の選択オプションを示す発話を含むオーディオデータを受信する前に、1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションをディスプレイデバイスによって表示させることと、を含むさらなるオペレーションを実行する。
【0011】
幾つかの実施において、プロセッサは、視覚的インジケータを通話中に表示させることを含み、視覚的インジケータは、通話中に表示される1つまたは複数の視覚的オプションのテキストの特定の部分を強調し、テキストの特定の部分は、オーディオデータにおける発話において通話中に現在発話されている、さらなるオペレーションを実行する。幾つかの実施において、プロセッサは、選択オプションデータをオーディオデータから決定された1つまたは複数の選択オプションと比較することと、選択オプションデータと、オーディオデータから決定された1つまたは複数の選択オプションとの間に不一致が存在するかどうかを決定することとを含むさらなるオペレーションを実行する。様々な実施において、プロセッサによって実行されるオペレーションは、上記方法の1つまたは複数の特徴を含むことができる。
【0012】
幾つかの実施において、非一時的コンピュータ可読媒体は、プロセッサによって実行されると、プロセッサにオペレーションを実行させる命令が記憶されている。オペレーションは、通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話においてオーディオデータを受信することを含み、オーディオデータは、ターゲットエンティティによって提供される通話メニューを通じて移動するために通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含み、オーディオデータにおける発話を表すテキストを決定するためにオーディオデータをプログラムで分析することと、テキストまたはオーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて1つまたは複数の選択オプションを決定することと、テキストの少なくとも一部を通話中に通話デバイスによって表示させることと、をさらに含み、テキストの一部は、1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションとして表示され、1つまたは複数の視覚的オプションはそれぞれ、通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である。様々な実施において、プロセッサによって実行されるオペレーションは、上記の方法または通話デバイスの1つまたは複数の特徴を含むことができる。
【図面の簡単な説明】
【0013】
【
図1】本明細書で説明されている1つまたは複数の実施のために使用されてよい例示的なシステムのブロック図である。
【
図2】幾つかの実施による、通話のための音声メニューを決定および視覚的に表示するための例示的な方法を示す流れ図である。
【
図3】幾つかの実施による、取得されたデータおよび/または通話に基づいてエンティティの選択オプションを取得するための例示的な方法を示す流れ図である。
【
図4】幾つかの実施による、通話からオーディオデータを処理しかつオーディオデータに基づいて視覚的オプションを表示または更新するための例示的な方法を示す流れ図である。
【
図5】幾つかの実施による、通話を開始することができる通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図6】幾つかの実施による、通話における通話メニューのための選択オプションが表示され、選択されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図7】幾つかの実施による、通話における通話メニューのための選択オプションが表示され、選択されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図8】幾つかの実施による、通話における通話メニューのための選択オプションが表示され、選択されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図9】幾つかの実施による、通話における通話メニューのための選択オプションが表示され、選択されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図10】幾つかの実施による、通話における通話メニューのための選択オプションが表示され、選択されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図11】幾つかの実施による、対応する選択オプションが通話において発話される前に通話メニューの視覚的オプションが表示されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図12】幾つかの実施による、対応する選択オプションが通話において発話される前に通話メニューの視覚的オプションが表示されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図13】幾つかの実施による、対応する選択オプションが通話において発話される前に通話メニューの視覚的オプションが表示されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図14】幾つかの実施による、対応する選択オプションが通話において発話される前に通話メニューの視覚的オプションが表示されている、通話デバイスによって表示されたユーザインターフェースの概略図である。
【
図15】本明細書で説明されている1つまたは複数の実施のために使用されてよい例示的なデバイスのブロック図である。
【発明を実施するための形態】
【0014】
詳細な説明
本明細書で説明されている1つまたは複数の実施は、通話のための音声メニューの決定および視覚的表示に関する。様々な実施において、発話を含むオーディオデータが、ユーザの通話デバイスとターゲットエンティティ(例えば、人または企業)との間の通話から取得される。ターゲットエンティティは、自動音声システム(例えば、音声自動応答システム(IVR)または留守番電話を使用する)または人間エージェントを使用することができる。発話は、所望の結果(情報を受信する、人間エージェントに話す等)を得るためにユーザが移動することができる通話メニューにおける選択オプションを含む。テキストが、通話オーディオデータから認識され、テキストは、選択オプションを説明する発話を表す。選択オプションは、テキストおよび/またはオーディオデータを分析することに基づいて検出される。テキストの少なくとも一部は、選択オプションに対応する視覚的オプションとして、通話中に通話デバイスによって表示される。視覚的オプションはそれぞれ、通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である。
【0015】
様々な追加的な特徴が説明されている。例えば、幾つかの実施において、特定の視覚的オプションのユーザによる選択は、この選択をターゲットエンティティへ送信させ、この選択は、通話デバイスのキーパッドの適切なキーを押すことに対応する信号であることができるか、または視覚的オプションを選択する通話デバイスによって提供される発話であることができる。オーディオデータおよび/またはテキストは、通話メニューにおける選択オプションの階層構造を決定するために分析されることができる。
【0016】
幾つかの実施において、選択オプションデータは、通話の前に通話デバイスによって取得される、例えば、様々なエンティティのための選択オプションデータを記憶するサーバまたはその他のリモートデバイスから通話デバイスによって受信される。幾つかの例において、選択オプションデータは、エンティティへの通話デバイスによる前の通話のオーディオデータから決定されていてよい。通話デバイスは、通話の前に様々なエンティティのための選択オプションデータおよび/またはエンティティ識別子(例えば、エンティティの電話番号、電子メールアドレス、インスタントメッセージまたはオーバーザトップ(OTT)サービス識別子等)をダウンロードおよびキャッシュすることができる。幾つかの例において、キャッシュされた選択オプションデータは、ユーザによってより頻繁に通話された(例えば、エンティティ識別子のセットにおいて最も多く通話された)エンティティ識別子、または通話デバイスの地理的エリア(またはしきい値距離)におけるユーザによって少なくともしきい値回数だけ通話されたエンティティ識別子のためであることができる。
【0017】
キャッシュされた選択オプションを使用して、選択オプションが通話においてターゲットエンティティによって発話される前に、通話前にまたは通話中に、対応する視覚的オプションを表示することができる。幾つかの実施は、通話中に発話された選択オプションをキャッシュされた選択オプションデータと比較することができ、これらのオプションバージョンの間に不一致が検出された場合、ユーザに不一致を通知することができるおよび/または現在の通話の発話データから決定された選択オプションと一致するように選択オプションデータを修正することができる。幾つかの実施において、視覚的インジケータが通話中に表示され、視覚的インジケータは、通話中に現在発話されている視覚的オプションのテキストの特定の部分を強調する。
【0018】
説明されている技術および特徴には幾つかの利点がある。説明されている実施は、通話中にオーディオ通話メニューの視覚的表示を提供することができる。これは、通話メニューを通じて移動する際にユーザを大きく支援することができる。なぜならば、オーディオ通話メニューはしばしば長く、ユーザが必要とするオプションを見つけるために長いオーディオメッセージを聞き通すためにユーザの著しい認知的負荷を課すからである。通話デバイスにおいて通話メニューの対応する視覚的バージョンを提供することは、どのオプションが提供されているかおよびどのオプションがユーザにとって興味があるかを決定する際にユーザを大きく支援することができる。さらに、表示される視覚的オプションは、ユーザによって直接アクション可能および選択可能であるため、ユーザは、例えば、タッチスクリーンのタッチを介して、オプションの単純な選択を使用して視覚的オプションを選択することができる。したがって、複雑なオーディオ体験は、説明されている特徴によって単純な視覚的体験へ変換される。
【0019】
加えて、幾つかの実施は、これらのオプションが通話においてターゲットエンティティによって発話される前に視覚的形式で通話メニューのオプションを提供することができる。これにより、ユーザは、前もって通話メニューを見ることができ、幾つかの通話メニューにおいて、ユーザは、その選択オプションが発話される前にメニューオプションを選択することができ、通話において発話される残りのオプションを聞くのをユーザが待つ必要なく、ターゲットエンティティに即座に通話メニューを別のレベルへ前進させることができる。メニューの視覚的形式により、ユーザは、メニューの発話部分より前に目を通し、所望のオプションを見つけ、オプションをオーディオ形式で聞き、次いで、所望のオプションを見つけて選択する場合よりも大幅に迅速にオプションを選択することができる。
【0020】
1つまたは複数の説明されている実施の技術的効果は、デバイスが、結果を得るためにより少ない計算リソースを費やすということである。例えば、説明されている技術の技術的効果は、説明されている技術または特徴のうちの1つまたは複数を提供しない従来のシステムと比較して、システム処理リソースおよびパワーリソースの消費の減少である。例えば、このような従来のシステムは、ユーザが、どのオプションがユーザのニーズに最も適合するかを決定する前に利用可能なオプションの出力を聞くことに通話中に著しい時間を費やす必要がある場合がある。幾つかのケースにおいて、このような従来のシステムにおいて、ユーザは、発話されるオプションメッセージの長さにより、どのメニューオプションが前に提供されたかを忘れる場合があり、利用可能なオプションを理解するためにメニューまたは通話を再びリプレイしなければならない場合があり、これにより、より多くの時間を費やす。このような長い通話時間は、システムリソースを無駄に費やす。本明細書で説明されている特徴は、例えば、通話メニューのための選択オプションを表示し、ユーザが、利用可能な通話オプションを見ることおよび所望のオプションをより迅速に選択することを可能にし、通話持続時間を減じかつより少ない通話を開始させ、これにより、通話デバイス、ターゲットエンティティデバイス、および通話を可能にするために通話デバイスと通信するその他のデバイスの全体的な処理およびパワー要求を低下させることにより、このような欠点を減じることができる。
【0021】
さらに、幾つかの実施において、視覚的通話メニューオプションは、これらのオプションが通話において発話される前に表示される。ユーザは、対応する発話されるオプションの前に視覚的オプションに目を通し、所望のオプションを見つけ、オプションがオーディオ形式のみである場合よりも大幅に迅速にオプションを選択することができる。このような特徴は、通話持続時間を減じ、ユーザが前に聞いたことがないまたは遭遇したことがない通話メニューを通じて迅速に移動することを含む、ユーザがより速い速度で通話メニューを通じて移動することを可能にすることによって通話デバイスおよびエンティティデバイスの処理リソースを節約する。
【0022】
さらに、幾つかの実施において、通話の前に選択オプションを提供する選択オプションデータは、通話の開始前に通話デバイスへダウンロードされ、通話デバイスによってキャッシュされることができ、これにより、通話中の処理およびネットワーキングリソースの消費が減じられ得る。さらに、幾つかの実施において、発話された選択オプションは、通話中に検出され、表示されたオプションが発話されたオプションと異なる場合があるかどうかを決定するために、キャッシュされた選択オプションデータと比較されることができ、これにより、ユーザが不正確なまたは望ましくないオプションを見てかつ選択する場合に、さもなければ通話デバイスの処理およびネットワークリソースを無駄にする可能性があるエラーまたは食い違いを検出する。さらに、説明されている技術の幾つかの実施は、例えば、利用可能でない場合があるエンティティまたは関連するエンティティから選択オプションデータが直接に受信されることを要求することなく、エンティティへのユーザおよびユーザ通話デバイス(例えば、クライアントデバイス)による前の通話から導き出されたデータに基づいて、通話の前および/またはこれらのオプションが通話において発話される前に通話メニューの表示された選択オプションを提供することができる。
【0023】
本明細書における説明に対してさらに、ユーザは、本明細書で説明されているシステム、プログラム、または特徴が、ユーザ情報(例えば、通話されたエンティティおよびエンティティ識別子を指定するユーザの通話履歴、社会的ネットワーク、社会的行動、または活動、職業、通話メニューのためを含むユーザの好み、ユーザの現在位置、ユーザのメッセージ、ユーザによってなされた発信通話、通話のオーディオデータ、またはユーザのデバイス、についての情報)の収集を可能にし得るかどうかおよびいつ可能にするかの両方、ならびにユーザがサーバからコンテンツまたは通信を送信されるかどうかに関して、ユーザが選択を行うことを可能にする制御が提供されてよい。加えて、個人的に識別可能な情報が除去されるように、あるデータは、記憶または使用される前に1つまたは複数の方法で処理されてよい。例えば、個人的に識別可能な情報がユーザのために決定されることができないようにユーザのアイデンティティが処理されてよく、またはユーザの特定の位置を決定することができないように、位置情報が取得されるところでユーザの地理的位置が一般化されてよい(例えば、都市、郵便番号、または州レベルに)。したがって、ユーザは、ユーザについてどの情報が収集されるか、その情報がどのように使用されるか、およびどの情報がユーザに提供されるかについてのコントロールを有し得る。
【0024】
図1は、本明細書で説明されている幾つかの実施において使用されてよい例示的なネットワーク環境100のブロック図を示す。幾つかの実施において、ネットワーク環境100は、1つまたは複数のサーバデバイス、例えば、
図1の例におけるサーバシステム102を含む。サーバシステム102は、例えば、ネットワーク130上で通信することができる。サーバシステム102は、サーバデバイス104およびデータベース106またはその他のストレージデバイスを含むことができる。ネットワーク環境100は、ネットワーク接続130を介してサーバ102と、互いに、および/または他のデバイスと通信してよい1つまたは複数のクライアントデバイス、例えば、クライアントデバイス120、122、124および126も含む。ネットワーク130は、インターネット、ローカルエリアネットワーク(LAN)、無線ネットワーク、スイッチまたはハブ接続等のうちの1つまたは複数を含む、あらゆるタイプの通信ネットワークであることができる。幾つかの実施において、ネットワーク130は、例えば、ピアツーピア無線プロトコル(例えば、Bluetooth(登録商標)、Wi-Fi Direct等)を使用する、または他方のクライアントデバイスへのサーバとして作用する1つのクライアントデバイスを有する等、デバイス120~126の間のピアツーピア通信を含むことができる。2つのクライアントデバイス120および122の間のピアツーピア通信の1つの例は、矢印132によって示されている。
【0025】
説明を容易にするために、
図1は、サーバシステム102、サーバデバイス104、およびデータベース106のための1つのブロックを示しており、クライアントデバイス120、122、124、および126のための4つのブロックを示している。サーバブロック102、104、および106は、多数のシステム、サーバデバイス、およびネットワークデータベースを表してよく、ブロックは、示されているものとは異なる構成で提供することができる。例えば、サーバシステム102は、例えば、ネットワーク130を介して、他のサーバシステムと通信することができる多数のサーバシステムを表すことができる。幾つかの実施において、サーバシステム102は、例えば、クラウドホスティングサーバ、または電話サービス(例えば、ボイスオーバーインターネットプロトコル(VOIP))を提供するサーバを含むことができる。幾つかの例において、データベース106および/またはその他のストレージデバイスは、サーバデバイス104とは別の、ネットワーク130を介してサーバデバイス104およびその他のサーバシステムと通信することができるサーバシステムブロックに提供することができる。また、任意の数のクライアントデバイスがあってよい。幾つかの例において、サーバシステム102は、ネットワーク接続130上でクライアントデバイスと無線で通信し、クライアントデバイスは、サーバモバイルデバイスからの信号によって有効化または補足されることができる様々な特徴を提供する。
【0026】
サーバシステム102およびクライアントデバイス120~126は、様々なアプリケーションにおいて使用されるあらゆるタイプのデバイス、例えば、デスクトップコンピュータ、ラップトップコンピュータ、ポータブルまたはモバイルデバイス、携帯電話、スマートフォン、タブレットコンピュータ、テレビ、TVセットトップボックスまたはエンターテイメントデバイス、ウェアラブルデバイス(例えば、ディスプレイ眼鏡またはゴーグル、頭部取付式ディスプレイ(HMD)、イヤピース、イヤバッド、フィットネスバンド、腕時計、ヘッドセット、アームバンド、ジュエリー等)、仮想現実(VR)および/または拡張現実(AR)有効化デバイス、パーソナルデジタルアシスタント(PDA)、メディアプレーヤ、ゲームデバイス等であることができる。幾つかのクライアントデバイスは、データベース106またはその他のストレージと類似のローカルデータベースも有してよい。その他の実施において、ネットワーク環境100は、示されている構成要素の全てを有していなくてもよいおよび/または本明細書で説明されているものの代わりにもしくはそれに加えてその他のタイプの要素を含むその他の要素を有してよい。
【0027】
様々な実施において、クライアントデバイス120~126は、それぞれのクライアントデバイスおよび/またはサーバシステム102上で動作するアプリケーションを介してサーバシステム102と相互作用してよい。例えば、それぞれのクライアントデバイス120、122、124、および126は、サーバシステム102へおよびサーバシステム102からデータを通信してよい。幾つかの実施において、サーバシステム102は、コンテンツデータ(例えば、オーディオ、画像、ビデオ、メッセージ、電子メール等)、通知、コマンドなどの様々なデータをクライアントデバイスの全てのまたは特定のデバイスへ送信してよい。各クライアントデバイスは、適切なデータ、例えば、肯定応答、データの要求、通知、ユーザコマンド、呼び出し要求等をサーバシステム102に送信することができる。幾つかの例において、サーバおよびクライアントデバイスは、テキストデータ、オーディオデータ、ビデオデータ、画像データ、またはその他のタイプのデータを含む様々な形式のデータを通信することができる。
【0028】
様々な実施において、エンドユーザU1、U2、U3、およびU4は、それぞれのクライアントデバイス120、122、124、および126を使用してサーバシステム102とおよび/または互いに通信してよい。幾つかの例において、ユーザU1、U2、U3、およびU4は、それぞれのクライアントデバイスおよび/もしくはサーバシステム102上で動作するアプリケーションを介して、および/またはサーバシステム102に実施されるネットワークサービス、例えば、ソーシャルネットワークサービスもしくはその他のタイプのネットワークサービスを介して、互いに相互作用してよい。幾つかの実施において、サーバシステム102は、通信されたコンテンツ、またはサーバシステム102および/もしくはネットワークサービスにアップロードされた共有コンテンツを各クライアントデバイスが受信することができるように、クライアントデバイスに適切なデータを提供してよい。幾つかの実施において、「ユーザ」は、1つまたは複数のプログラムまたは仮想エンティティ、およびシステムまたはネットワークとインターフェースする人を含むことができる。
【0029】
クライアントデバイス120、122、124、および/または126上のユーザインターフェースは、画像、ビデオ、データ、およびその他のコンテンツ、ならびに通信(例えば、電話またはインターネット呼び出し、ビデオ会議、同期または非同期チャット等のための)、プライバシーセッティング、通知、およびその他のデータを含む、ユーザコンテンツおよびその他のコンテンツの表示を可能にすることができる。このようなユーザインターフェースは、クライアントデバイス上のソフトウェア、サーバデバイス上のソフトウェア、および/またはクライアントソフトウェアとサーバデバイス104上で実行されるサーバソフトウェアとの組合せ、例えば、サーバシステム102と通信するアプリケーションソフトウェアもしくはクライアントソフトウェアを使用して表示することができる。ユーザインターフェースは、クライアントデバイスまたはサーバデバイスのディスプレイデバイス、例えば、タッチスクリーンまたはその他のディスプレイスクリーン、プロジェクタ等によって表示することができる。幾つかの実施において、サーバシステム上で動作するアプリケーションプログラムは、クライアントデバイスにおけるユーザ入力を受信するために、およびクライアントデバイスにおいて視覚データ、聴覚データなどのデータを出力するために、クライアントデバイスと通信することができる。
【0030】
サーバおよびクライアントデバイス上で実行される様々なアプリケーションおよび/またはオペレーティングシステムは、通信アプリケーション(例えば、オーディオ通話または音声電話、ビデオ会議、チャットまたはその他の通信を接続および提供する)、電子メールアプリケーション、コンテンツデータの表示、プライバシーセッティング、通知、ブラウザ等を含む様々な機能を有効化することができる。ユーザインターフェースは、クライアントデバイス上で実行されるアプリケーションまたはその他のソフトウェア、サーバデバイス上のソフトウェア、および/またはクライアントソフトウェアとサーバ102上で実行されるサーバソフトウェアとの組合せ、例えば、サーバ102と通信するアプリケーションソフトウェアもしくはクライアントソフトウェア、を使用して、クライアントデバイス上に表示することができる。ユーザインターフェースは、クライアントデバイスまたはサーバデバイスのディスプレイデバイス、例えば、ディスプレイスクリーン、プロジェクタ等によって表示することができる。幾つかの実施において、サーバ上で動作するアプリケーションプログラムは、クライアントデバイスにおいてユーザ入力を受信するために、およびクライアントデバイスにおいて視覚データ、聴覚データなどのデータを出力するために、クライアントデバイスと通信することができる。幾つかの実施において、ネットワーク環境100の1つまたは複数のデバイス、例えば、サーバシステム102の1つまたは複数のサーバは、電子百科事典、ナレッジグラフ、1つまたは複数のデータベース、単語、フレーズ、記号およびその他の情報のコーパス、ソーシャルネットワークアプリケーション(例えば、ソーシャルグラフ、友人のためのソーシャルネットワーク、企業のためのソーシャルネットワーク等)、場所または位置(例えば、レストラン、カーディーラ等)のためのウェブサイト、マッピングアプリケーション(例えば、地図位置を調べるウェブサイト)、通話特性ならびにその他の通話データ等を維持してよい。幾つかの実施において、サーバシステム102は、特定のタイプのコンテンツアイテム(例えば、テキストまたは画像)の分類子を含んでよく、受信されたコンテンツアイテムにおいて特定のクラスのいずれかが検出されたかどうかを決定することができる。
【0031】
幾つかの実施は、コンピュータネットワークから切断されたまたはコンピュータネットワークに断続的に接続されるクライアントまたはサーバデバイス上に、本明細書で説明されている1つまたは複数の特徴を提供することができる。幾つかの実施において、クライアントデバイスは、例えば、チャットまたはその他のメッセージを介して、非同期通信のための本明細書に説明されているような特徴および結果を提供することができる。
【0032】
機械学習モデルが、本明細書で説明されているサーバシステム102および/または1つもしくは複数のクライアントデバイス120~126によって使用されることができる。幾つかの実施において、機械学習モデルは、ネットワークアーキテクチャに従って、例えば、1つまたは複数の層において配置された1つまたは複数のノードを備え、ネットワークアーキテクチャを介して接続された様々なノードを備え、かつ関連する重みを備えるニューラルネットワークであってよい。例えば、モデルの訓練段階において、モデルは、訓練データを使用して訓練されることができ、次いで、推論段階において、訓練されたモデルは、入力データに基づいて出力を決定することができる。幾つかの実施において、モデルは、オフラインで、例えば、試験室における試験デバイスまたはその他のセッティングにおいて訓練されてよく、訓練されたモデルは、モデルを実行するサーバに提供されてよい。幾つかの実施において、訓練されたモデルは、オンデバイスでローカルに再訓練もしくは更新されてよい、または未訓練モデルがオンデバイスで訓練されてよい。幾つかの実施において、ユーザの許可により、例えば、個々のサーバデバイスが、それぞれローカルモデル訓練を行ってよい場合、1つまたは複数の訓練されたモデルを更新するために連合学習が利用されてよく、モデルに対する更新は、モデルの1つまたは複数の中央バージョンを更新するために集約されてよい。
【0033】
図2は、幾つかの実施による、通話のための音声メニューを決定および視覚的に表示するための例示的な方法200を示す流れ図である。幾つかの実施において、方法200は、サーバ、例えば、
図1に示されているようなサーバシステム102上で実施されることができる。幾つかの実施において、方法200のブロックのうちの幾つかまたは全ては、1つもしくは複数のクライアントデバイス(例えば、
図1に示されているようなクライアントデバイス120、122、124、および/または126)、1つもしくは複数のサーバデバイス、ならびに/またはサーバデバイスおよびクライアントデバイスの両方において実施されることができる。説明されている例において、方法200のブロックを実施するシステムは、1つまたは複数のプロセッサハードウェアまたは処理回路(「プロセッサ」)を含み、データベース106またはその他のアクセス可能なストレージなどの1つまたは複数のストレージデバイスにアクセスすることができる。幾つかの実施において、1つまたは複数のサーバシステムの異なる構成要素は、異なるブロックまたはブロックの部分を実行することができる。
【0034】
幾つかの実施は、ユーザ入力に基づいて方法200またはその部分を開始することができる。ユーザは、例えば、表示されたユーザインターフェースから方法200または方法200の特定のブロックの開始を選択していてよい。幾つかの実施において、方法200またはその部分は、ユーザ入力を介してユーザによるガイダンスと共に実行されることができる。幾つかの実施において、方法200または方法の部分は、デバイスによって自動的に開始されることができる。例えば、方法(またはその部分)は、周期的に開始されるか、または1つもしくは複数の特定のイベントもしくは条件の発生に基づいて開始されることができる。例えば、このようなイベントまたは条件は、(例えば、ブロック208が実行されるために)エンティティへの通話において提供された1つまたは複数の選択オプションを示す選択オプションデータを取得すること、方法200もしくはその部分の最後の実行から所定の期間が経過したこと、および/または方法200を実施するデバイスのセッティングにおいて指定されることができる1つもしくは複数のその他のイベントもしくは条件が発生すること、を含むことができる。幾つかの例において、デバイス(サーバまたはクライアント)は、(ユーザ同意が受信された場合)通話における選択オプションデータへのアクセスと共に方法200を実行することができる。
【0035】
ブロック202において、方法200の実施においてユーザデータを使用するためにユーザ同意(例えば、ユーザ許可)が得られているかどうかがチェックされる。例えば、ユーザデータは、ユーザの好み、ユーザが選択した応答(例えば、ダイヤラーアプリケーション、通信アプリケーション、またはその他のアプリケーション)、ユーザ通話特性データ(例えば、通話持続時間、通話の回数および位置、通話中に受信されたオーディオデータ)、デバイスのユーザインターフェースにおけるその他のコンテンツ、またはコンテンツ収集におけるその他のコンテンツデータアイテム(例えば、ユーザに関連した通話)、ユーザによって送信または受信されたメッセージ、ユーザのソーシャルネットワークおよび/または社会的接触についての情報、コンテンツ格付け、ユーザの地理的位置、過去のユーザデータ等を含むことができる。本明細書で説明されている方法の1つまたは複数のブロックは、幾つかの実施においてユーザデータを使用してよい。
【0036】
そのためにユーザデータが方法200において使用されてよい関連するユーザからユーザ同意が取得されると、次にブロック204において、本明細書における方法のブロックが、これらのブロックのために説明されているようにユーザデータの可能な使用と共に実施されることができることが決定され、方法は、ブロック208へ続く。ユーザ同意が得られていない場合、ブロック206において、ブロックがユーザデータの使用なく実施されることが決定され、方法は、ブロック208へ続く。幾つかの実施において、ユーザ同意が得られていない場合、方法200の残りは実行されない、および/またはユーザデータを使用する特定のブロックが実行されない。幾つかの実施において、ユーザ同意が得られていない場合、方法200のブロックは、ユーザデータの使用なく、一般的なまたは公的にアクセス可能および公的に使用可能なデータと共に実行される。
【0037】
ブロック208において、以前の通話において様々なエンティティによって提供されている選択オプションが、得られたデータおよび/またはエンティティ識別子に対してなされた通話に基づいてエンティティのエンティティ識別子のために決定される。選択オプションは、エンティティと通話デバイスとの間の通話においてオーディオデータを介してエンティティ(例えば、通話に自動的に応答しかつオーディオデータを提供するように構成されたサーバデバイス)によってユーザ(例えば、通話デバイス)へ提供されるオプションである。幾つかの実施において、選択オプションは、ターゲットエンティティによって提供される通話メニューにおけるオプションであることができる。幾つかの実施において、通話メニューは、例えば、1つのメニューレベルにおいてオプションの1つのセットを表し、前のメニューレベルにおいて選択されたオプションに基づく異なるメニューレベルにおけるオプションの別のまたは異なるセットを表す、オプションのセットの多数のレベル(例えば、階層レベル)を含むことができる。
【0038】
幾つかの実施において、選択オプションは、通話メニューまたはその他のメニューに含まれないユーザインターフェースにおいて表される選択可能なエレメントまたは領域、例えば、選択可能なボタン、リンク、またはターゲットエンティティ(例えば、ブロック232のために説明される例)によるアクションを生じさせるその他のエレメントであることができる。このような選択オプションは、通話中、例えば、通話メニューオプションが通話において話される前、話されている間もしくは話された後に提供される発話、またはいかなる通話メニューオプションも提供しない通話における発話から決定されることができる。
【0039】
幾つかの実施において、構造化された(または注釈付きの)情報は、通話において様々なエンティティによって提供された発話から決定されることができ、構造化された情報は、選択オプションおよび/または視覚的情報として提供されることができる。例えば、アウトライン、ツリー、書式付きテキスト(例えば、システムによって加えられた、改段落、改文および/または改ページ、句読点等を有していたテキスト)、またはその他の構造化された情報は、発話から決定されることができる。さらなる例において、構造化された情報は、情報またはウェブページを検索および表示する等の1つまたは複数のオペレーションを実行する、プログラムを開くまたは実行すること等をシステムに実行させるユーザ入力によって実行可能、例えば、選択可能な選択オプションであることができる、ユニフォームリソースロケータ(URL)、ハイパーリンク、電子メール、日付、位置、確認番号、アカウント番号等を含むことができる。幾つかの構造化された情報は、ユーザ入力によって実行可能または選択可能ではない視覚的情報として表されてよい。構造化された情報は、選択オプションとして、または本明細書における例において説明されている選択オプションに加えて、通話中に通話デバイスによって決定および表示されることができる。
【0040】
通話においてアクティブなターゲットエンティティは、エンティティの音声自動応答(IVR)システム、通話メニューを提供しかつ発呼側から選択を受信することができる留守番電話、または幾つかのケースにおいて通話においてオプションを発話しかつ通話デバイスからこれらのオプションの音声選択を受信するエンティティの人間エージェントなどの自動化されたシステムであることができる。選択オプションを提供する通話において、ユーザは、通話メニューの1つもしくは複数の階層メニューレベルを通じて移動(例えば、前進または後退)するおよび/または特定の情報を受信する、特定の製品もしくはサービスを要求する、質問に答えることができる生きた人間エージェントに発話することを要求する等の所望の結果を得るためのオプションのうちの1つまたは複数を選択することができる。通話は、ユーザによって使用される通話デバイスに接続された、例えば、通話デバイスによって開始または応答された、電話通話、音声通話、またはその他の通話(例えば、インスタントメッセージングまたはオーバーザトップ(OTT)サービス等を介してなされた)であることができる。選択オプションは、エンティティとの通話においてこのようなオプションを提供するエンティティの様々なエンティティ識別子のためにブロック208において決定される。本明細書において言及されているように、ターゲットエンティティは、通話されるまたは通話においてアクティブである(例えば、通話デバイスがターゲットエンティティと通話した後、またはその逆)エンティティであり、音声通信を可能にする通話にターゲットエンティティを接続するために使用されることができる、電話番号またはその他のアドレス情報(例えば、ユーザまたはエンティティ名、ユーザ識別子等)などの、1つまたは複数のエンティティ識別子(例えば、ターゲットエンティティ識別子)に関連付けられている。エンティティは、様々な個人、組織、企業、グループなどのいずれかを含むことができる。
【0041】
幾つかの実施において、選択オプションは、エンティティから(関連するエンティティ、例えば、コールセンターまたはエンティティのための通話をハンドリングするその他のエンティティからのものを含む)受信されるエンティティデータに基づいて決定される。幾つかの実施において、選択オプションは、通話デバイスによってエンティティに対してなされる前の通話に基づいて決定される。
【0042】
ブロック208は、ターゲットエンティティへの通話を開始する前ならびに以下で説明されるように現在の通話のための選択オプションを決定および視覚的に表示する前に、選択オプションデータを決定および記憶する前処理ブロックとして実行することができる。エンティティによって提供される選択オプションを取得する幾つかの例は、
図3に関して説明される。方法は、ブロック210へ続く。
【0043】
ブロック210において、ターゲットエンティティのエンティティ識別子は、通話デバイスによって取得される。通話デバイスは、エンティティへ通話を行うために使用することができるデバイス、例えば、
図1のクライアントデバイス120~126、または代替的にサーバもしくはその他のデバイスである。エンティティ識別子は、例えば、電話番号、その他の通話名、アドレス、または通話デバイスによってターゲットエンティティに通話が開始されることを可能にするその他のエンティティ識別子であることができる。エンティティ識別子は、様々な実施および/またはケースにおいて複数の方法のうちのいずれかにおいて取得することができる。例えば、エンティティ識別子は、通話デバイスのユーザからのユーザ入力を介して取得することができる。このようなユーザ入力は、識別子を入力するための物理的または仮想キーパッドまたはキーボードのキーをユーザが選択することを含み得る。幾つかの例において、エンティティ識別子は、通話デバイスに記憶されたコンタクトリストにおけるコンタクトエントリをユーザが選択することに応答して取得することができ、これにより、コンタクトエントリに関連したエンティティ識別子がストレージから自動的に検索され、使用のために提供される。例えば、エンティティ識別子は、通話を開始するダイヤラもしくは通話アプリケーション、または通話を開始することができる別のアプリケーションなどの、通話デバイス上で動作するアプリケーションに入力または提供されることができる。幾つかのその他の例において、エンティティ識別子は、通話デバイス上で動作する別のアプリケーションまたはネットワーク上のリモートデバイスから取得することができる。
【0044】
幾つかの例において、エンティティ識別子は、識別子が受信されるときおよび/または選択オプションが表示されるときに通話を開始することなく、ターゲットエンティティへの1つまたは複数のその後の通話のための準備などにおいて、例えば、エンティティと通話するときに提供される表示された選択オプションを見るために、通話から独立して受信される。その他の例において、エンティティ識別子は、現在の時刻においてターゲットエンティティへの通話を即座に開始するために受信され、例えば、識別子は、ダイヤラもしくは通話アプリケーションにおいて受信され、通話を開始するための制御がユーザによって選択され、または通話が通話デバイスによって自動的に開始される。幾つかの実施において、エンティティ識別子は、ターゲットエンティティまたは異なるエンティティへの(現在の)通話中に受信される。例えば、エンティティ識別子は、既に進行中であり得る現在の通話を開始するために、または異なるエンティティへの第2の通話を開始するために、通話デバイスによって受信され得る。方法は、ブロック212へ続いてよい。
【0045】
ブロック212において、選択オプションデータがターゲットエンティティのエンティティ識別子のために検索されるかどうかが決定される。例えば、選択オプションデータが検索されるために利用可能であるかどうかを決定することができる。幾つかの例において、様々なエンティティのための選択オプションデータは、例えば、通話デバイス(例えば、ネットワーク上で接続されたサーバまたはその他のリモートデバイス)へアクセス可能なシステムによっておよび/または
図3の例において説明されるような通話デバイスによって、ブロック208において以前に取得または決定されている場合がある。幾つかの実施において、ターゲットエンティティ識別子のための選択オプションデータの完全なセットの一部は、ブロック208において取得または決定されている場合があり、検索されるために利用可能である。幾つかのケースにおいて、ブロック208において取得された選択オプションデータは、ターゲットエンティティ識別子のためのデータを含まず、選択オプションデータは検索されるために利用可能ではない。
【0046】
幾つかの実施において、選択オプションデータは、通話デバイスによって既に記憶されていてよく、これにより、選択オプションデータはブロック212において検索される必要はない。例えば、ターゲットエンティティ識別子のための選択オプションデータは、通話デバイスによるターゲットエンティティ識別子への1つまたは複数の以前の通話に基づいて前に決定されている場合がある(例えば、ブロック210の前に)。ターゲットエンティティ識別子の通話メニューにおける選択オプションのうちの幾つかのみが通話デバイスによって前に決定および記憶された場合、その他の残りの選択オプションデータを検索することができる。
【0047】
別の例において、ターゲットエンティティ識別子のための選択オプションまたはそのサブセットは、1つまたは複数のリモートデバイスから通話デバイスによって選択オプションデータとして前に検索されている場合がある。幾つかの実施において、選択オプションまたはそのサブセットは、ブロック210においてターゲットエンティティ識別子(またはその任意の部分)を受信する前に、検索され、通話デバイスのローカルストレージに記憶されることができる。これは、エンティティ識別子が取得されるときにネットワーク上のリモートデバイスから(例えば、サーバ、クライアントサーバまたはその他のデバイスから)選択オプションを検索することと比較して、通話デバイスによる選択オプションへのより迅速なアクセスおよびその表示を可能にし得る。
【0048】
幾つかの実施において、リモートデバイス上で利用可能な選択オプションデータのサブセットは、ブロック210の開始の前に、受信され、通話デバイスのローカルストレージに記憶(例えば、キャッシュ)されることができる。例えば、ユーザによって通話されるポピュラーなエンティティ識別子のための選択オプションデータは、通話デバイスによって取得され、ローカルに記憶されることができる。幾つかの例において、これらのポピュラーなエンティティ識別子は、エンティティ識別子のセットにおいて最も頻繁に通話されたもの(例えば、エンティティ識別子のセットの最も多くの回数通話されたもの、またはローカルストレージにキャッシュされていない他のエンティティ識別子よりもより多くの回数通話されたもの)、特定の期間内に(上記のように)最も頻繁に通話されたもの、および/または通話デバイスの同じ地理的位置もしくは領域に位置した(またはユーザ/通話デバイスへの類似のその他の特性を有する)ユーザによって(上記のように)最も頻繁に通話されたものであることができる。別の例において、通話デバイスの地理的エリア(またはしきい値距離)において発呼側によって少なくともしきい値回数だけ、前に通話されたエンティティ識別子のための選択オプションデータは、通話デバイスによって取得されローカルに記憶されることができる。別の例において、選択オプションデータは、ユーザの国または通話デバイスが現在位置する国に位置するエンティティ識別子のためにダウンロードされることができる。
【0049】
ターゲットエンティティ識別子のための選択オプションデータが検索されない場合、ブロック212において決定されているように、方法は、以下で説明されるブロック216へ進んでよい。選択オプションデータが検索される場合、方法はブロック214へ続く。ブロック214において、利用可能な選択オプションデータが検索され、通話デバイスのローカルストレージにキャッシュ(またはさもなければ記憶)される。キャッシュされた選択オプションデータは、以下で説明されるように、通話中に選択オプションを表示するために使用することができる。例えば、通話デバイスは、サーバまたはその他のデバイスなど、リモートデバイスから(例えば、様々なエンティティのための通話メニュー選択オプションのリポジトリから)ネットワーク上でターゲットエンティティ識別子に関連した選択オプションデータを検索し、通話デバイスのローカルストレージに選択オプションデータをキャッシュすることができる。幾つかの実施において、キャッシュされた選択オプションデータは、選択オプションが組織化される通話メニューの構造を示すデータを含むことができる。幾つかの実施において、ユーザ許可と共に、選択オプションを決定するために分析された通話からの元のオーディオデータ(またはそのシグネチャ)の部分が、選択オプションに関連してキャッシュされてよい。
【0050】
幾つかの実施において、通話デバイスは、ブロック210において通話デバイスによってエンティティ識別子が完全に取得される前に、例えば、ユーザが通話デバイスへのエンティティ識別子の入力を完了する前に、リモートデバイスから1つまたは複数の選択オプションをプリフェッチすることを要求することができる。例えば、通話デバイスは、それまでに入力されたエンティティ識別子の部分と一致する多数の候補エンティティ(例えば、上記で説明されているのと同様に、通話デバイスの地理的領域における最も頻繁に通話されたエンティティまたはエンティティ識別子)のためにリモートデバイスから選択オプションを要求およびダウンロードすることができる。通話デバイスは、次いで、識別子が完全に指定された後、エンティティ識別子に関連した選択オプションのセットを選択および使用することができる。このようなプリフェッチは、エンティティ識別子が指定された後に選択オプションがより迅速に通話デバイスによって表示されることを可能にし得る。なぜならば、選択オプションデータのダウンロードは、識別子入力が完了する前に開始され、選択オプションがローカルストレージから表示されるからである。
【0051】
幾つかの実施において、選択オプションデータのプリフェッチは、完全なエンティティ識別子のしきい値部分が受信された場合に実行される。幾つかの例において、完全なエンティティ識別子が10桁である場合、プリフェッチは、部分的な識別子の8番目(または代替的に9番目)の数字が受信される前ではなく、受信された後に実行されることができる。これにより、候補の数は、完全な識別子が受信された後に一致する選択オプションデータを決定するために十分な比較的短い時間で通話デバイスにおいて受信することができるデータの量に狭められることができる。幾つかの実施において、選択オプションデータのより大きな量のサブセットは、例えば、通話デバイスによってプリフェッチされるために、通話デバイスまたはリモートデバイスによって決定される。例えば、データのサブセットは、ユーザが前に通話したエンティティ(例えば、前に通話された最も頻繁なおよび/または最近のエンティティ)および/またはユーザデータ(ユーザの許可と共にアクセスされた最近のメッセージ等)において言及されたエンティティはどれかを示す過去のデータなどの1つまたは複数のファクタに基づいて、ユーザ許可と共に、決定されるように、ユーザによって入力される最も可能性の高い識別子であるエンティティ識別子に関連させられることができる。
【0052】
幾つかの実施において、通話デバイスによって記憶された、キャッシュされた選択オプションデータは、例えば、通話デバイスによる通話に基づいてデータが修正されることに応答して、リモートデバイスにおいてデータが更新されることに応答して(例えば、その他のユーザによってなされた最近の通話に基づいて、新たなエンティティまたはエンティティ識別子を追加する等)、それぞれの特定の期間の後に周期的に、など、発生する特定の条件に基づいてより新しいまたは修正されたデータで周期的に更新されることができる。
【0053】
幾つかの実施において、選択オプションデータ(またはその部分)は、通話中に通話デバイスにおいて決定されることができ(以下で説明されるように)、異なるデバイスからダウンロードされない。方法は、ブロック216へ続いてよい。
【0054】
ブロック216において、通話は、取得されたエンティティ識別子を使用して通話デバイスとターゲットエンティティとの間で開始されたことが検出される。幾つかの実施において、通話は、通話デバイスを、ターゲットエンティティに関連したデバイスに接続する。通話は、オーディオ、例えば、電話、OTTアプリケーションを介した通話、アプリケーションプログラム(例えば、ブラウザ、バンキングアプリ、ブラウザ等)を介した通話等を含むターゲットエンティティとのあらゆる接続であることができる。幾つかの実施において、通話は、選択的にビデオ通話であることができ、ビデオ通話では、通話に接続された通話デバイスおよび/またはターゲットエンティティデバイスにおける発呼側および/または被発呼側のビデオ画像の表示を生じさせるために、ビデオデータが送信される。幾つかの例において、通話デバイスのユーザは、通話を開始していてよく、例えば、通話デバイスに、エンティティ識別子にダイヤルさせかつターゲットエンティティとの通話を開始させるために、ダイヤラーアプリケーションまたは通話アプリケーションなどのアプリケーションのユーザインターフェースにおいて通話制御を選択していてよい。幾つかの例において、通話は、例えば、ブロック210においてエンティティ識別子が取得された後に、通話デバイスのアプリケーションによって自動的に開始されていてよい。これらのケースにおいて、ユーザおよび通話デバイスが、発呼側である。幾つかの他の例において、通話は、ターゲットエンティティによって開始されていてよく、このケースでは、ターゲットエンティティデバイスが発呼側であり、ユーザおよび通話デバイスは非発呼側である。本明細書では、通話においてアクティブであってよくかつターゲットエンティティを表す自動化されたシステム(例えば、IVRシステムまたは留守番電話)および/または人間エージェントが、ターゲットエンティティと呼ばれる。方法は、ブロック218へ続く。
【0055】
ブロック218において、キャッシュされた選択オプションが、ターゲットエンティティとの通話における表示のために利用可能であるかが決定される(例えば、現在のメニューレベルまたは現在の通話のその他のステージにおける表示に適しているキャッシュされた選択オプション)。ブロック212および214に関して上記で説明されているように、ターゲットエンティティのエンティティ識別子のための選択オプションは、通話デバイスのストレージにキャッシュされていてよい。幾つかの実施において、例えば、以下のブロック222~230の1つまたは複数の前の反復から、現在の通話において(または同じ通話デバイスによる前の通話において)前に決定および記憶されたローカルメモリにキャッシュされた選択オプションデータが存在してよく、このキャッシュされたデータは、現在のステージにおける表示に適していてよい(例えば、ユーザが、現在の通話における通話メニューにおける前のメニューレベルへ戻った場合)。キャッシュされた選択オプションが利用可能でない場合、または利用可能なキャッシュされた選択オプションが通話の現在のステージ(例えば、ユーザが移動した通話メニューの特定の階層レベル)と関連付けられていないもしくはそれに適していないと決定される場合、方法は、以下で説明されるブロック222へ続く。
【0056】
関連するキャッシュされた選択オプションが表示のために利用可能である場合、次いで方法は、ブロック220へ続き、ここで、(例えば、通話メニューの)1つまたは複数の視覚的オプションが、1つまたは複数の対応するキャッシュされた選択オプションに基づいて表示される。視覚的オプションは、例えば、通話においてユーザに通常発話される通話メニューの選択可能なオプションに対応することができる通話デバイスのユーザインターフェースに表示されるアイテムである。例えば、視覚的オプションは、ダイヤラーアプリケーションもしくはその他のアプリケーションのインターフェース内、または通話デバイスに表示されるメッセージもしくは通知において表示されることができる。幾つかの実施において、視覚的オプションは、別のウィンドウもしくは表示領域においておよび/または視覚的オプションの表示をコマンドするための制御をユーザが選択することに応答して表示されることができる。
【0057】
視覚的オプションは、テキスト、記号、画像、絵文字、アイコン、および/またはその他の情報を含むことができ、ユーザによって選択可能なオプションを提供する。幾つかの実施において、視覚的オプションは、ユーザがタッチ入力を提供することによって、例えば、視覚的オプションの表示に対応する位置においてタッチスクリーンに触れるまたはさもなければ接触することによって選択可能である。幾つかの実施において、視覚的オプションのうちの1つまたは複数は、指示子(例えば、数字、名前、キーワード等)に関連しており、この指示子は、指示子に関連したオプションを選択するために通話中にユーザによって(例えば、キーを押すことを介して)通常は話されるまたは入力される。視覚的オプションを表示する幾つかの例は、
図4(
図2のブロック224を参照する)に関して、および以下で説明される
図5~
図13に関して説明される。
【0058】
視覚的オプションは、ターゲットエンティティによって、例えば、自動化されたシステム(例えば、IVRシステムまたは留守番電話)によってまたは人間エージェントによって、対応する選択可能なオプションが通話において発話される前にブロック220において表示されてよい。したがって、ユーザは、発話のより遅い方法を介してオプションを聴くのを待つ必要なく、ユーザに利用可能な選択可能なオプションのうちの1つもしくは複数、または全てを即座に見ることができる。幾つかの実施において、階層通話メニューにおける現在のレベルのための選択オプションのみを表示することができるか、またはその他の実施において、例えば、ユーザが、通話メニューのレベルを通して選択パスを見ることができるように、通話メニューの多数のレベルからの選択オプションを表示することができる。幾つかの実施において、または通話デバイスのユーザまたはユーザセッティングによって命令された場合、視覚的オプションは、キャッシュされた選択オプションに基づいて、エンティティ識別子を使用する通話デバイスにおいて通話が開始される前に表示することができる。幾つかの実施において、視覚的オプションは、通話が開始された後に表示される。例えば、選択オプションは、通話を開始する前にユーザが視覚的オプションを見ることができるようにダイヤラーアプリケーションまたはその他のアプリケーションのインターフェースにおいて(またはオペレーティングシステムによる通知として)表示されることができる。
【0059】
幾つかの実施において、視覚的オプションは、また、または代替的に、その他の選択可能アイテムを含むことができる。例えば、視覚的オプションは、例えば、ターゲットエンティティに関連した情報を提供することができ、通話メニューのオプションに関連しているかまたは関連していなくてよい。視覚的オプションは、ターゲットエンティティに特定の選択または情報を送信するためにユーザによって選択されることができるボタンまたはチェックボックスなどの、選択可能なアイテムまたは部分を含むことができる。幾つかの例において、視覚的オプションは、情報の様々なソースへのウェブリンクまたはその他のタイプのリンクを含むことができる。例えば、ユーザによって選択されると、このようなリンクは、例えば、ブラウザアプリケーションまたはその他のアプリケーションにおいて、通話デバイス上にウェブページ、ウィンドウまたはその他の表示領域を開かせることができ、そこでの表示のために情報をダウンロードさせることができる。幾つかの実施において、例えば、視覚的オプションに加えて、上記で説明されているように選択可能ではないその他の視覚的情報(例えば、構造化された情報)を表示することができる。方法は、ブロック222へ続いてよい。
【0060】
ブロック222において、ターゲットエンティティ(例えば、自動化されたシステムまたは人間エージェント)によっておよびユーザによって通話においてなされた発話を示すまたは表すオーディオデータを含むオーディオデータが通話から受信される。方法は、ブロック224へ続いてよい。
【0061】
ブロック224において、オーディオデータは処理され、オーディオデータに基づいて視覚的オプションが表示および/または更新される。例えば、オーディオデータに表された発話からテキストが決定され、そこではテキストが発話を表す。通話メニューの選択オプション(および/またはその他の選択オプション)はテキストに基づいて決定され、選択オプションは、通話デバイスのユーザが通話メニューを通じて移動することを可能にする。幾つかの実施またはケースにおいて、選択オプションは、通話デバイスによる視覚的オプションとして表示される。幾つかの実施またはケースにおいて、視覚的オプションは、キャッシュされた選択オプションに基づいて(例えば、ブロック220に基づいて)既に表示されており、これらの視覚的オプションおよび対応する選択オプションは、適切な場合、処理されたオーディオデータに基づいて更新されることができる。幾つかの実施において、選択オプションを含む階層通話メニューの構造は、オーディオデータおよびそこから導き出されたテキストに基づいて決定されることもできる。視覚的オプションを表示および/または更新する幾つかの例が、
図4に関して以下で説明される。
【0062】
幾つかの実施において、例えば、キャッシュされた選択オプションがブロック220において通話デバイスによって表示されている場合、ブロック224を飛ばすまたは省略することができる。幾つかの実施において、キャッシュされた選択オプションが最近決定され、したがって現在のものである可能性がより高い場合、ブロック224を飛ばすことができる。
【0063】
通話において受信されたオーディオデータはまた、オーディオデータにおける発話がデバイススピーカ、ヘッドフォン、または通話デバイス内のもしくは通話デバイスに接続されたその他のオーディオデバイスを介して再生されるように、例えば、通話デバイスのオーディオシステムがオーディオデータを処理した後、通話デバイスによって出力される。方法は、ブロック226へ続いてよい。
【0064】
ブロック226において、1つまたは複数の視覚的オプションがユーザによって選択されたかどうかが決定される。様々な実施は、視覚的オプションの選択の1つまたは複数の方法を可能にすることができる。例えば、視覚的オプションは、タッチスクリーンインターフェース、音声コマンド、物理的入力デバイス(マウス、ジョイスティック、トラックパッド等)、またはその他のユーザ入力デバイスを介してユーザによって選択可能であることができる。視覚的オプションのうちのいずれもブロック226において選択されない場合、方法は、ブロック218へ続き、通話から追加的なオーディオデータを受信する。視覚的オプションのうちの1つまたは複数が選択されると、方法は、ブロック228へ続く。
【0065】
ブロック228において、選択された視覚的オプションに対応する選択オプションが、ターゲットエンティティへ送信される。幾つかの実施において、選択の指示が、ターゲットエンティティへ送信され、そこで、指示は、ユーザが通話におけるオプションの標準的な選択を行ったかのように提供される入力に対応する。幾つかの例において、選択されたオプションが、通常、ユーザ発話(例えば、選択オプションに関連した数字または単語などの指示子を発話する)を介して選択されることができる場合、送信された指示は、通話において、例えば、録音であるまたは適切な指示子を発話する通話デバイスによって合成された音声において、通話デバイスによって発話された適切な発話であることができる。幾つかの例において、ユーザは、非音声入力(例えば、タッチスクリーン上に表示されたボタンまたは領域に触れる)を介して視覚的オプションを選択することができ、通話デバイスは、発話を介して対応する選択オプションを選択する発話を出力することができる。別の例において、選択されるオプションが、通常はキーパッドまたはキーボードのキーを押すことを介して選択されることができる場合、通話デバイスは、ユーザがデバイス上のそのキーを押すことに対応する信号である指示を送信することができる。例えば、このような信号は、タッチトーン(例えば、デュアルトーンマルチ周波数またはDTMF信号)もしくはそのコード化、または押される特定のキーに対応するその他の帯域内信号を含んでよい。幾つかの実施において、タッチトーンまたはキー押し入力に代わるもの、例えば、セッション初期化プロトコル(SIP)、リアルタイムトランスポートプロトコル(RTP)、H323等を介して提供される信号などの帯域外信号、を使用することができる。方法は、ブロック230へ続いてよい。
【0066】
ブロック230において、表示するためのさらなる選択オプションが存在するかどうかが決定される。例えば、ブロック226のユーザの選択は、通話メニューの次のレベルへの移動を生じさせてよい(例えば、通話メニューにおいて進むまたは戻るように移動する)。ターゲットエンティティは、例えば、前の選択されたオプションに基づいてユーザのための選択オプションの新たなセットを発話することによって、通話におけるその次のレベルを提供し始めることができ、そこで、オプションの新たなセットを通話デバイスによって表示することができる。幾つかのケースまたは実施において、選択オプションの新たなセットは、ユーザが前に移動した通話メニューの前のレベルにあり、これらの選択オプションは、方法200の前の反復においてキャッシュされている場合がある。このようなキャッシュされた選択オプションは、通話デバイスのローカルメモリにおけるキャッシュから検索されることができる。表示するためのさらなる選択オプションが存在する場合、方法は、キャッシュされた選択オプションが、選択オプションの新たなセットのために利用可能であるかどうかをチェックするために、ブロック218へ続く。
【0067】
ユーザ選択に応答してブロック230において表示するための選択オプションが存在しない場合、方法は、ブロック232へ続き、そこで、ターゲットエンティティによる1つまたは複数のアクションに基づいて結果が取得される。ターゲットエンティティは、選択されたオプションを受信することに応答してあらゆるタイプおよび/または数のアクションを実行することができる。例えば、アクションは、例えば、ユーザの選択が、通話メニューを通じた特定のパスにおける最後のオプションである場合、ターゲットエンティティから受信された情報の提供であることができる。例えば、ターゲットエンティティは、ブロック230において通話デバイスによって受信される、ユーザが要求した通話における情報を提供(例えば、発話)してよい。幾つかの実施またはケースにおいて、通話は、このような情報が受信された後に終了させられることができる。幾つかの実施またはケースにおいて、ターゲットエンティティは、ユーザが情報、例えば、ユーザの名前またはその他の情報(住所、アカウント番号等)を発話することを要求してよい。幾つかの実施において、ターゲットエンティティは、ユーザに対して発話するためにターゲットエンティティの人間エージェントを通話に接続することができ、これは、通話デバイス(例えば、発話認識技術を使用する)およびユーザに提供される通知によって検出されることができる。
【0068】
幾つかのケースにおいて、ターゲットエンティティのアクションは、通話デバイスを保留にすること、例えば、人間エージェントが利用可能になるのを待つことを含んでよい。幾つかの実施において、通話デバイス(および/または接続されたデバイス)は、例えば、特定の単語(例えば、「エージェントが10分であなたの通話を取ることができます。お待ちいただきありがとうございます」)を介してまたは保留状態を示す音楽の再生を介して通話が保留状態であることをエンティティの自動化されたシステムが示しているかどうかを決定するための発話認識技術を使用することによって、現在の通話において通話デバイスが保留になっているかどうかを、ユーザ入力または介入なしに、自動的に決定することができる。幾つかの実施において、通話がターゲットエンティティによって保留にされた場合、通話デバイスは、その保留状態の指示、例えば、音楽再生を示すメッセージ等を表示することができる。幾つかの実施において、通話デバイスは、通話がもはや保留状態ではないように、例えば、エージェントまたはユーザによって発話された特定の単語、保留音楽または自動化された音声の終了等を介して、通話が保留中に人間エージェントが通話に接続されたかどうかを検出することができる。幾つかの実施において、通話デバイスは、通話がもはや保留状態ではなくかつ人間エージェントが通話に接続されていることを示す通知を出力することができる。
【0069】
幾つかの実施またはケースにおいて、アクションがターゲットエンティティによって取られた後に通話メニューへ戻るためのオプションがターゲットエンティティによって提供され、このケースでは、プロセスはブロック218へ続くことができる。
【0070】
幾つかの実施において、通話が終了した後、方法200によって決定および表示された選択オプションは、通話デバイスのキャッシュ(またはその他のストレージ)に記憶されることができる、および/または様々なエンティティのための選択オプションデータを記憶しかつ多数の通話デバイスによってアクセス可能な、サーバなどのリモートデバイスのストレージへ(ネットワーク接続上で)送信されることができる。通話デバイス(またはその他のユーザデバイスもしくはクライアントデバイス)を使用するユーザによって同じターゲットエンティティ識別子が再び通話されると、通話デバイスのキャッシュに記憶されたおよび/またはリモートデバイスに記憶された選択オプションデータが、例えば、通話においてこれらのオプションが発話される前に選択オプションを表示するために、新たな通話のために使用されることができる。幾つかの実施において、選択オプションのうちの幾つかは、通話デバイスのローカルストレージから検索されることができる(例えば、これらの選択オプションが選択された通話に基づいて前にローカルストレージに記憶されている)および/または幾つかの選択オプションは、上記で説明されているのと同様に、リモートデバイスから検索されることができる。同様に、キャッシュされた選択オプションに対するあらゆる更新または修正は、通話デバイスにキャッシュされることができるおよび/またはサーバなどのリモートデバイスにおける様々なエンティティのための選択オプションデータのストレージへ送信されることができる。
【0071】
幾つかの実施において、ユーザ許可と共に、通話のイベントおよび/または結果を示すデータが、通話の後に記憶される選択オプションと共にメタデータとして記憶されることができる。例えば、ユーザ許可と共に、結果データは、通話においてどの選択オプションが選択されたかの指示、特定の選択オプションをダイヤルした後にユーザが人間エージェントに接続することができたかどうか、ユーザが通話から切断される前の持続時間および選択された選択オプション等を含むことができる。このようなデータは、多数の通話および通話デバイスから蓄積されたとき、例えば、提供された発呼者メニューの有効性および効率を高めるために、将来の通話においてエンティティによって提供される選択オプションを修正するかどうかを決定するために使用されることができる。
【0072】
幾つかの実施において、ユーザ同意が得られている場合、通話の記録および/または通話中にユーザによって選択された選択オプションは、記憶されることができ、例えば、通話デバイスまたはその他のユーザインターフェース上の通話ログから、ユーザが見るために利用可能であることができる。
【0073】
図3は、幾つかの実施による、取得されたデータおよび/または通話に基づいてエンティティの選択オプションを取得するための例示的な方法300を示す流れ図である。例えば、方法300は、このような選択オプションが使用されてよいターゲットエンティティへの通話の前にエンティティの選択オプションを取得するために
図2のブロック208またはブロック208の一部として実施されることができる。幾つかの実施において、方法300は、例えば、
図2に関して説明されているようにターゲットエンティティへの通話の前またはその間に通話デバイス(例えば、クライアントデバイスまたはその他のデバイス)によってダウンロードまたはアクセスされることができる選択オプションを取得するために、通話デバイス以外のサーバまたはその他のデバイスによって実行されることができる。幾つかの実施において、方法300は、通話デバイス、例えば、クライアントデバイスによって実行されることができるか、または方法の異なる部分が、それぞれサーバデバイスおよび/もしくはクライアントデバイスによって実行されることができる。
【0074】
方法は、ブロック302において開始する。ブロック302において、エンティティデータがエンティティのセットから取得され、エンティティデータは、エンティティのセットにおけるエンティティに関連したエンティティ識別子のための選択オプションデータを含む。幾つかの実施において、エンティティデータは、通話における選択オプションをこれらのエンティティに提供するためにエンティティによって利用可能にされることができる。例えば、エンティティデータは、オプションのテキストおよびその他の詳細、ならびに/または選択オプションが現れる通話メニューの階層構造を含む、エンティティ識別子のエンティティ識別を使用する通話中に、関連するエンティティの通話メニューにおいて発話される選択オプションの指示を含むことができる。幾つかの例において、エンティティデータは、特定の基準を満たすエンティティ(またはエンティティ識別子)の特定のセットのために探索されることができる。例えば、セットは、通話デバイスの領域もしくはエリアにおいておよび/または特定の期間内で通話される最もポピュラーなエンティティ識別子を有するエンティティの数を含むことができる。例えば、ポピュラーなエンティティ識別子は、上記で説明されているのと同様に最も頻繁にかつ/または最近通話されたものであることができ、通話は、特定の期間内におよび/または通話デバイスのしきい値距離もしくは地理的エリア内で発呼者によってなされることができる。幾つかの実施において、エンティティデータは、取得されたエンティティデータに、より最近の更新が含まれるように、エンティティから周期的に取得されることができる。幾つかの実施において、エンティティデータは、エンティティに関連したコールセンターまたはその他のエンティティなどの、エンティティ識別子によって表されるエンティティに関連したエンティティから取得されることができる。方法は、ブロック304へ続く。
【0075】
ブロック304において、そこからエンティティデータが探索されるエンティティのセットの1つまたは複数のエンティティ識別子のためにエンティティデータが利用不能であるかどうかが決定される。様々な例において、エンティティデータは、様々な理由(例えば、セキュリティ制限、選択オプションが変更されかつ迅速に廃れたものになる傾向、技術的問題等)のいずれかによりエンティティによって提供されない場合がある。幾つかの実施において、エンティティ識別子のためのエンティティデータは、利用可能なエンティティデータが古いおよび/または不正確であることが知られている場合に利用不能と考慮されることができる。エンティティデータがエンティティのセットから利用可能である場合、方法は、上記で説明されている
図2のブロック210へ続く。エンティティデータがエンティティのセットの1つまたは複数のエンティティから利用可能ではない場合、方法は、ブロック306へ続く。
【0076】
ブロック306において、そのためにエンティティデータがエンティティから利用可能でないエンティティ識別子が、エンティティのセットに関連したエンティティ識別子から選択される。幾つかの実施において、これは、そのためにエンティティデータが不完全であることが知られているエンティティ識別子を含むことができ、例えば、エンティティデータは、通話メニューの選択オプションのうちの全てではなく幾つかを指定してよい。幾つかの実施において、不完全なエンティティデータは、取得されたエンティティデータに基づいて通話中に表示されるキャッシュされた選択オプションにおいて1つまたは複数の選択オプションが失われている(または不正確である)、したがって、エンティティデータは不完全である可能性が高い、ことを示すユーザフィードバックから決定されてよい。方法は、ブロック308へ続く。
【0077】
ブロック308において、選択されたエンティティ識別子を含む1つまたは複数の前の通話から、選択されたエンティティ識別子のために選択オプションデータが利用可能であるかどうかが決定される。例えば、1つまたは複数のユーザは、前の機会において、選択されたエンティティ識別子を使用して通話した場合があり、これらの通話中に受信された選択オプションは、ユーザ許可と共に、保持、例えば、検出および/または記憶されている場合がある。幾つかの実施において、これらの通話のその他の通話特性(例えば、エンティティ識別子、通話の時刻、通話の位置、通話の持続時間等)も、ユーザ許可と共に、保持されている場合があり、この場合、通話特性のみが知られるように、通話特性は、通話を行ったユーザから切り離されている。このようなデータの幾つかまたは全てが、方法300に利用可能である場合がある。例えば、前の通話は、ユーザ同意と共に、通信ネットワーク上で、そこから通話特性が取得される通話デバイスを使用してユーザの集団によってなされている場合がある。このようなデータが利用可能でない場合、プロセスは、以下で説明されるブロック312へ続いてよい。このような選択オプション(および/またはその他のデータ)が利用可能である場合、プロセスは、ブロック310へ続く。
【0078】
ブロック310において、選択オプションが、前の通話に基づいて、選択されたエンティティ識別子のために決定される。1つまたは複数の選択オプションは、ユーザ同意が得られている場合、(
図4を参照して以下で説明されるように)機械学習モデルまたはその他の技術を介して発話認識などの技術を使用して前の通話から記録されたオーディオデータにおける発話データの分析に基づいてシステムによって自動的に決定されてよい。例えば、選択されたエンティティ識別子への前の通話から決定された選択オプションデータは、その通話において提供された選択オプションのテキスト、および/または通話において提供された選択オプションを含む通話メニューの構造的データ(例えば、通話メニューにおける選択オプションの階層構造および前のオプションのどの選択がこれらのオプションへアクセスするために必要とされるかを示す、前に選択されたオプションへの特定のオプションの依存)を示してよい。幾つかの実施において、特定の通話は、選択オプションの全てではなく、通話メニューにおける選択オプションのうちの幾つかへ移動しており、それらをログしていてよい。例えば、ログされた通話において、ユーザは、オプションのいかなるその他のパスまたはブランチも下降することなく通話メニューを通じて連続する選択オプションの単一のナビゲーションパスを選択していてよい。幾つかの実施において、ブロック310は、可能であるならば通話メニューの各ブランチにおける選択オプションの全てが決定されるまで、通話メニューにおける選択オプションの異なるブランチを辿る選択されたエンティティ識別子への複数の前の通話を試験することを含むことができる。幾つかの実施において、ユーザ許可と共に、選択オプションを決定するために分析されたオーディオデータ(またはそのシグネチャ)の部分は、決定された選択オプションに関連して記憶されてよい。方法は、以下で説明されるブロック318へ続いてよい。
【0079】
ブロック312において、選択オプションデータが、選択されたエンティティ識別子のために前の通話から利用可能でないことが決定された後、選択されたエンティティ識別子を使用する1つまたは複数の通話が開始される。幾つかの実施において、自動化されたシステムは、選択されたエンティティ識別子を1回または複数回通話するために使用されることができる。幾つかの実施において、通話は、例えば、エンティティが企業であるならば営業時間内の特定の時刻になされることができる。幾つかの実施において、複数の通話が、例えば営業時間外の様々な時刻になされることができ、これにより、このような様々な時刻に提供され得る異なる選択オプションデータを決定する。方法は、ブロック314へ続く。
【0080】
ブロック314において、選択されたエンティティ識別子のための選択オプションが決定されるように、通話において発話された選択オプションが決定、例えば、検出および記憶される。幾つかの実施において、選択オプションは、1つまたは複数の発話認識技術、例えば、機械学習モデルまたはその他の技術を使用して検出される。オーディオ発話データから選択オプションおよびメニュー構造を検出する幾つかの例が、
図4に関して以下で説明され、類似の技術をブロック314において使用することができる。幾つかの実施において、ブロック314は、通話において提供された選択オプションを選択することを含み、これにより、通話メニューのさらなる階層レベルへ移動し、これらのレベルにおいてオーディオデータを受信し、さらなる選択オプションを検出する。幾つかの実施において、通話メニューを通じた選択オプションの異なるナビゲーションパスは、提供された通話メニューにおける各々の利用可能な選択オプションを決定するために、選択されたエンティティ識別子への各通話において選択されることができる。幾つかの実施において、例えば、比較のための追加のデータを提供するためにおよび選択オプションの検出におけるエラーをチェックするために、選択オプションの同じパスが多数の通話において移動させられることができる。幾つかの実施において、ブロック314の前またはブロック314の反復の前に幾つかの選択オプションが利用可能であった場合、まだ決定されていないメニューの部分(例えば、ブランチ)は、提供される選択オプションを決定するために選択されることができ、利用可能なオプションまたは部分を飛ばすことができる。幾つかの実施において、ユーザ許可と共に、選択オプションを決定するために分析されるオーディオデータ(またはそのシグネチャ)の部分は、決定された選択オプションに関連して記憶されてよい。方法は、ブロック316へ続く。
【0081】
ブロック316において、選択されたエンティティ識別子の通話メニューのためのメニュー構造は、ブロック314の検出された選択オプションに基づいて決定されることができる。例えば、検出された選択オプションは記憶され、通話メニューの異なる階層レベルにおける選択オプション間の関係および依存を提供するデータ構造(例えば、グラフ、表等)が作成される。選択されたエンティティ識別子への多数の通話からの選択オプションデータは、利用可能なデータから可能な限り完全な通話メニュー構造を形成するために試験されることができる。幾つかの実施において、通話メニューにおける選択オプションの構造は、例えば、ブロック302からの部分的に完全なエンティティデータ、または方法300の前の反復に基づいて、前に決定されている場合がある。ブロック312および314においてなされた通話からの選択オプションデータは、このような既存のデータ構造に追加されることができる。方法は、ブロック318へ続いてよい。
【0082】
ブロック318において、そのためにエンティティデータが利用可能でなくかつ選択オプションデータを決定することができる選択するためのより多くのエンティティ識別子が存在するかが決定される。そうであるならば、プロセスは、ブロック306へ続き、そこで、そのために選択オプションデータを決定するための、別のエンティティ識別子が選択される。選択するためのエンティティ識別子がもうない場合、プロセスは、
図2におけるブロック210へ続いてよい。
【0083】
図4は、幾つかの実施による、通話からのオーディオデータを処理しかつオーディオデータに基づいて視覚的オプションを表示または更新するための例示的な方法400を示す流れ図である。例えば、方法400は、取得されたエンティティ識別子を使用してターゲットエンティティと共に開始された通話においてオーディオデータが受信されるブロック222の後に、
図2のブロック224において実施されることができる。
【0084】
方法は、ブロック402において開始する。ブロック402において、通話のオーディオデータにおける発話を表すテキストが決定される。幾つかの実施において、テキストは、1つまたは複数の発話認識技術を使用して、例えば、1つまたは複数の機械学習モデルおよび/またはその他の技術を使用して決定される。幾つかの実施において、例えば、ユーザが許可を与えたおよび/または関連するユーザセッティングを設定した場合、通話デバイスは、導入発話、ユーザ応答等を含む、通話において発話された全ての単語の認識されたテキストが表示される通話の記録を提供することができる。方法は、ブロック404へ続く。
【0085】
ブロック404において、1つもしくは複数の現在の選択オプションおよび/またはメニュー構造は、ブロック402において決定されたテキストおよび/またはブロック222において受信されたオーディオデータに基づいて決定される。幾つかの実施において、各選択オプションは、一般的に、例えば、指示子を言うことによってまたは通話デバイス上の対応するキーもしくはボタンを押すことによって(例えば、プッシュホンによって提供されるようなトーン、または
図2を参照して説明されているようなその他の信号を提供するために)、そのオプションを選択するためにユーザが通話に入力しようとするオプションのための選択指示子を伴ってよい選択のための記述されたオプションを含む。幾つかの例において、選択オプションは、提供されている選択オプションを指示または説明してよい特定の音声単語(またはその他の音声指示子)に基づいて検出されることができる。例えば、選択オプションは、一般的に、後に動詞が続く「to」という単語(例えば、「代表者に話すために(to speak to a representive)」または「あなたの勘定残高のために(for your account balance)」)または後に名詞が続く「for」という単語(例えば、「スペイン語のために(for Spanish)」または「あなたの勘定残高のためにfor your account balance)」)を含んでよい。選択オプションは、一般的に、数字または単語などの指示子が後に続く「押す」または「言う」を含むフレーズ、例えば、「2を押すか言ってください」によって開始または終了してよい。幾つかの実施において、発話認識技術は、選択オプションを検出するためのこのような単語を認識するように適応または訓練されることができる。
【0086】
幾つかの実施において、選択されたエンティティ識別子の通話メニューのためのメニュー構造は、検出された選択オプションに基づいて、例えば、オーディオデータおよび/または決定された選択オプションが、通話メニューの異なるレベルが通話においてアクセスされたことを示している場合、決定または追加されることもできる。これは、例えば、ユーザが、提供された選択オプションを選択した後に生じることができる。幾つかの例において、通話メニューの異なる階層レベルにおける選択オプション間の関係および依存を提供するデータ構造(例えば、グラフ、表等)が作成されることができる。幾つかの実施において、決定されたおよびユーザ選択された選択オプションは、通話が進行するときに追加される通話メニュー構造を形成するために試験されることができ、さらなるオプションが選択される。幾つかの実施において、通話メニュー構造は、キャッシュされた通話メニュー構造(例えば、本明細書で説明されているようなキャッシュされた選択オプションと類似であることができる)と比較されることができる、および/または通話メニュー構造は、本明細書で説明されているように、記憶され、これらの通話のための通話メニュー構造を提供するためにターゲットエンティティへの将来の通話においてアクセスされることができる。
【0087】
幾つかの実施において、選択オプションならびに/またはオーディオ発話データからのメニュー構造および/もしくはオーディオ発話データから決定されたテキストを検出するために、1つまたは複数のモデルを使用することができる。様々な実施において、これらのモデルは、ブロック402において使用されるようなオーディオデータにおける発話を表すテキストを決定するために使用されるモデルとは異なることができる、またはこれらのモデルの機能は、ブロック402において使用される同じモデルに含まれることができる。幾つかの実施において、選択オプションを検出するためのモデルは、音声選択オプションを提供するオーディオデータ、テキスト選択オプション、通話メニュー構造などを含む、前の通話の通話特性に基づいて訓練されることができる。幾つかの例において、モデルは、選択オプションに対応する単語の例を提供する訓練データ、および/または非テキストデータ(例えば、選択オプションに対応するオーディオデータ断片またはシグネチャ)を含む訓練データにより訓練されることができる。幾つかの実施において、モデルは、機械学習モデル、例えば、ネットワークアーキテクチャを介して接続された様々なノードを備え、関連する重みを備える、ネットワークアーキテクチャに従って、例えば、1つまたは複数の層において配列された、1つまたは複数のノードを備えるニューラルネットワークである。例えば、モデルの訓練段階において、モデルは、訓練データを使用して訓練されることができ、次いで、推論段階において、訓練されたモデルは、入力データに基づいて出力を提供することができる。モデルに含まれることができる特徴の追加的な例は、
図15に関して以下で説明される。選択オプションを検出するために、その他のタイプのモデルまたは技術も使用される、または代替的に使用されることができる。
【0088】
幾つかの例示的な実施において、1つまたは複数の機械学習モデルを含むシステムは、ストリーミング形式で通話からオーディオデータを処理し、オーディオデータを発話認識モデルに通過させてテキストを提供し(ブロック402におけるように)、次いで、BERT(Bidirectional Encoder Representations from Transformers)またはその他の適切な符号化から予め訓練された専用ニューラルネットに通過させて選択オプションおよび/または通話構造を検出する。加えて、オーディオデータは、オーディオ-トゥ-インテントアーキテクチャによって直接に処理されることができ、結果は、出力の組合せに基づいてよい。出力は、選択オプションのセットおよびオーディオデータから検出されるようなこれらのオプションの通話メニュー構造(例えば、階層構造)を提供する。
【0089】
幾つかの実施は、幾つかのその他の特徴のうちのいずれかを使用することができる。例えば、幾つかのシステムは、オーディオデータのストリームを受信し、リアルタイムでテキストを発話に処理し、ストリーミング発話認識を有することができる。機械学習モデルは、追加的なオーディオデータが受信されるときに、ストリーミングされたオーディオデータの認識を変化させながら時間と共に認識されたテキストを修正することができる。モデルは、発話認識における信頼度を決定することができる。モデルは、発話を認識することを助けるためにオーディオおよびタイミング(例えば、単語間のポーズ)のような非テキストキューまたはデータ部分を使用することができる。方法は、ブロック406へ続いてよい。
【0090】
ブロック406において、ユーザに利用可能な選択オプションを、それらのオプションがターゲットエンティティによって発話される前に示すために、例えば、
図2のブロック220から、キャッシュされた選択オプションが現在の通話において表示されたかどうかが決定される。キャッシュされた選択オプションが表示されていない場合、方法は、以下で説明されるブロック414へ続いてよい。キャッシュされた選択オプションが表示されている場合、方法は、ブロック408へ続いてよい。
【0091】
ブロック408において、ブロック404において決定された現在の選択オプションと、表示されたキャッシュされた選択オプションとの間に不一致が存在するかどうか、例えば、1つまたは複数のしきい値を満たすためにこれらのオプションの間に著しい十分な違いが存在するかどうかが決定される。現在の選択オプションは、キャッシュされた選択オプションと比較され、幾つかの実施において、現在およびキャッシュされた選択オプションのメニュー構造が比較される。
【0092】
様々な実施において、現在の選択オプションは、様々な技術のうちの1つまたは複数を使用して、キャッシュされた選択オプションと比較されることができる。第1の技術の幾つかの例において、キャッシュされた選択オプションのテキストは、現在の選択オプションの対応する決定されたテキストと比較されることができる。これらのオプションのテキストは、例えば、オーディオデータに影響した通話における不十分な音響特性からのまたはその他の理由による、発話認識におけるエラーにより多くの場合に正確に一致しない場合がある。幾つかの実施において、現在およびキャッシュされた選択オプションの間の不一致の大きさまたは重大性は、例えば、テキスト比較技術を使用して決定することができる。不一致の大きさがしきい値を下回ると、キャッシュされたおよび現在の選択オプションが一致すると考えることができる。
【0093】
選択オプションを比較するための別の技術の幾つかの例において、
図2のブロック222において受信されるような通話のオーディオデータは、(利用可能であるならば)キャッシュされた選択オプションの対応するオーディオデータ部分と比較されることができ、オーディオデータにおける違いを決定することができる。幾つかの実施において、キャッシュされた選択オプションは、ユーザ許可が得られた場合、(例えば、上記で説明されているように
図3のブロック312において開始された通話において)現在の通話の前になされたターゲットエンティティ識別子への通話からの特定のオーディオデータに基づくことができる。このようなオーディオデータは、例えば、選択オプションを検出するために使用される、機械学習モデルを訓練することにおける使用から利用可能であってもよい。例えば、ユーザ許可と共に、キャッシュされた選択オプションを決定するために使用される(例えば、前の通話からの)オーディオデータは、キャッシュされた選択オプションに関連して記憶されることができ(またはオーディオデータから導き出されたオーディオシグネチャを記憶することができる)、例えば、通話デバイスのローカルメモリに記憶されるまたはリモートデバイスから検索されることができる。キャッシュされたおよび現在の選択オプションのための対応するオーディオデータ(または対応するオーディオシグネチャ)は、違いを調べるために比較されることができる。現在およびキャッシュされたオーディオデータにおいて、オーディオデータにおける著しい違いが見られる(例えば、しきい値を超える違いがある)場合、不一致が存在し得る。比較技術は、異なる通話のオーディオ品質における可能なばらつきを補償するためにロバストであることが選択されることができる。
【0094】
現在の選択オプションのテキストの精度を決定するための技術の幾つかの例において、現在の選択オプションのオーディオデータおよびテキストの両方が、オーディオおよびテキストを整列させることによってテキストの精度を決定するために使用されることができる。例えば、機械学習モデルは、テキストが現在の通話におけるオーディオデータから正確に認識されている可能性の指示を出力するために、前の通話における選択オプションからのオーディオデータおよび/または認識されたテキストの入力に基づいて訓練されることができる。テキストが正確であるこの可能性は、現在の通話のオーディオデータに基づいて、例えば、テキストに対応する単語のためのおよび単語のための文脈を形成する周囲の単語のためのオーディオデータに基づいて、決定される。このようなモデルは、ブロック404において決定された現在の選択オプションのテキストの精度を提供するために使用されることができる。幾つかの実施において、対応するキャッシュされた選択オプションのオーディオデータおよび/またはテキストは、モデル出力の精度を高めるためにモデルのためのさらなる基準または比較を提供するためにモデルへの入力として提供されることもできる(例えば、モデルは、このような補足の入力に基づいて訓練されている場合がある)。幾つかの実施において、この技術は、現在の選択オプションのための発話認識技術としてブロック402において使用されることができる。
【0095】
現在の通話からの通話メニュー構造の少なくとも一部を決定するために、十分な現在の選択オプション(およびユーザ選択)が受信されている場合、キャッシュされたおよび現在の選択オプションのメニュー構造も比較されることができる。例えば、前の選択オプションから移動させられる選択オプションは、キャッシュされたおよび現在の通話メニューの間で比較されることができる。
【0096】
ブロック408の比較は、幾つかの実施において、キャッシュされた選択オプション(および/またはメニュー構造)が不正確であり得るかどうかを決定することができる。例えば、ターゲットエンティティがその通話メニューを変更した場合があり、キャッシュされた選択オプションは、ターゲットエンティティによって提供された選択オプションが変更される前に前の時に取得された場合がある。ブロック404において決定される選択オプションは、一般的に、より最新であり得る。なぜならば、通話オプションが現在の通話において検出されているからである。
【0097】
現在の選択オプションが(例えば、1つまたは複数のしきい値に基づいて)、表示されたキャッシュされた選択オプションとして一致する(および通話メニュー構造が一致する)場合、方法は、以下で説明されるブロック418へ続いてよい。このケースでは、表示された視覚的オプションは変更または更新されない。なぜならば、現在の選択オプションとの著しい不一致が存在しないからである。現在のおよびキャッシュされた選択オプションにおいて不一致がある場合、例えば、現在の選択オプションのいずれかが、1つまたは複数のしきい値に基づいて、表示されたキャッシュされた選択オプションとは異なる場合(または通話メニュー構造が異なる場合)、方法は、ブロック410へ続く。
【0098】
ブロック410において、現在の選択オプションとは異なるキャッシュされた選択オプションは、現在の選択オプションに基づいて修正される。例えば、異なるキャッシュされた選択オプションを記憶するキャッシュまたはその他のストレージは、(不正確であると考えられている)異なるキャッシュされた選択オプションを、正確であると考えられている対応する現在の選択オプションと選択的に置き換えることによって更新されることができる。幾つかの例において、「あなたの注文についての情報を受信するためには、3と言うか3を押してください」のキャッシュされた選択オプションは、各単語が数字を除いて一致させられる場合、対応する現在の選択オプションのために「あなたの注文についての情報を受信するためには、4と言うか4を押してください」として検出されてよい。したがって、「3」の前のインスタンスは、オプションを修正するためにこの選択オプションを記憶するストレージにおいて「4」に変更される。幾つかの実施において、選択オプションの全体またはキャッシュのより大きな部分は、廃棄され、対応する現在の選択オプションと置き換えられることができる。幾つかの実施において、通話メニュー構造において不一致が同様に存在する場合、不一致の前の構造エレメントは、方法400において決定されたエレメントによって置き換えられることができる。
【0099】
幾つかの実施において、古くなった選択オプション(および/または通話メニュー構造)に対する修正はまた、その他のデバイスによって記憶された選択オプションを更新するためにこれらの選択オプションを記憶してよいその他のデバイスへ送信されることができる、または代替的に送信されることができる。例えば、サーバ(またはその他のリモートデバイス)は、ブロック208において取得されるような現在の選択オプションを記憶してよく、このサーバは、ブロック404において決定された正しい更新された選択オプション(および/または通話メニュー構造)が送信されることができる。幾つかの実施において、サーバは、その他の通話デバイスが、修正の精度を決定するためにサーバにこのような修正を送信したかどうかを決定してもよい。例えば、通話デバイスのしきい値数が特定の選択オプションへ修正を送信した場合、サーバは、修正が正確であると仮定することができ、その対応する記憶された選択オプションに修正を適用することができる。
【0100】
幾つかの実施において、キャッシュされた選択オプション(および/または通話メニュー構造)は、例えば、1つまたは複数の特定の条件が当てはまる場合、現在の選択オプションにおける違いに基づいて修正されない場合がある。例えば、幾つかの実施において、現在の選択オプション(および/または通話メニューにおけるそれらの構造)が、特定のしきい値を下回る信頼レベルを有する発話認識技術によって認識された場合、現在の選択オプションは、正しく認識されていない場合があり、キャッシュされた選択オプションは、調整されない。幾つかの実施において、キャッシュされた選択オプションは、キャッシュされた選択オプションが、現在時刻よりも前のしきい値期間よりも古い作成時刻を有し、したがって、それらが廃れているまたは古くなっている可能性が高いことを示す場合、調整されることができる。方法は、ブロック412へ続いてよい。
【0101】
ブロック412において、通話デバイスによって表示された視覚的オプションは、現在の通話からブロック404において決定された現在の選択オプションに基づいて更新される。例えば、ブロック410において不正確であるまたは古いことが分かった選択オプションに対応する視覚的オプションは、不正確なオプションと置き換えられた対応する(例えば現在の)選択オプションに対応する視覚的オプションによって置き換えられることができる。幾つかの例において、不正確な視覚的オプションのテキストは、正確な視覚的オプションのテキストに変更される。幾つかの実施において、通知がまた、修正が行われたことを示す、および/または特にどの修正が行われたかを示してよい通話デバイスのユーザインターフェースに表示される。幾つかの実施において、修正は、特定の条件下で、例えば、選択オプションのテキストのための発話認識の信頼値がしきい値を下回る場合、行われない。幾つかの実施において、表示された視覚的オプションと、通話における発話との不一致が存在し得ることを示す(例えば、視覚的オプションの情報が、通話においてターゲットエンティティによって話されたものでない場合があることを示す)通知が表示されることができる。幾つかの実施において、修正が行われず、対応する選択オプションのうちの1つまたは複数が不正確であることの決定に応答して不正確な(および/または全ての)視覚的オプションがスクリーンから除去されることができる。方法は、以下で説明されるブロック418へ続いてよい。
【0102】
ブロック414において、キャッシュされた選択オプションが現在の通話のために利用可能でなくかつ表示されなかったことがブロック406において決定された後、ブロック404において決定された現在の選択オプションは、通話デバイスのローカルメモリにキャッシュされることができる。幾つかの実施において、このようなキャッシュされた選択オプションは、例えば、メニューレベルが現在の通話においてユーザによって再訪問される場合、現在の通話における表示のために後で検索されてよい、および/または後の通話において検索および表示されることができる。幾つかのケースにおいて、現在の選択オプションのうちの1つまたは複数は、例えば、現在の通話または前の通話における方法400の前の反復において、既にキャッシュされていてよい。方法は、ブロック416へ続いてよい。
【0103】
ブロック416において、視覚的オプションは、ブロック404において決定された現在の選択オプションに基づいて現在の通話のために決定および表示される。幾つかの実施において、選択オプションは、選択オプションが完了したことを説明する発話の後に表示され、それぞれの追加的な選択オプションは、(例えば、現在の通話の間の方法400のより後の反復において)対応する発話がそれを説明し終わった後、表示されることができる。幾つかの実施において、これが現在の通話のためのブロック416の最初の反復である場合、視覚的オプションは、現在の通話のためにユーザインターフェースにおいて表示される最初の視覚的オプションであってよい。より後の反復において、ブロック416において表示された視覚的オプションが、前の反復において表示された既存の視覚的オプションに加わることができる。方法は、ブロック418へ続いてよい。
【0104】
ブロック418において、現在の発話されたテキストのインジケータが、通話においてターゲットエンティティによって現在発話されている視覚的オプションの一部を指し示すためにユーザインターフェースにおいて表示および/または更新される。幾つかの実施形態において、ディスプレイインジケータは、通話においてどの単語、フレーズまたは選択オプション全体が現在発話されているかを視覚的に示す。この特徴は、前に表示された視覚的オプションのどれが通話における発話によって現在表されているかをユーザに示すために使用されることができる。様々な例において、インジケータは、現在発話されている視覚的オプション(またはその部分)のための太字テキスト、表示されている視覚的オプションおよびその他の視覚的オプションのその他のテキストに対するこのようなテキストのフォント、色、サイズ、またはその他の視覚的特性を変更する、通話において現在発話されている単語に視覚的に関連したポインタをインターフェースに追加する、などの様々な形式を取ることができる。例えば、ポインタは、通話において現在発話されている単語の上に現れるアイコン、矢印、またはその他のオブジェクトであることができる。
【0105】
幾つかの実施において、(ブロック402におけるように)オーディオデータから決定されたテキストの認識の信頼度がしきい値を下回る場合、ブロック412または416において視覚的オプションを表示するときに通話デバイスによって通知を出力することができる。幾つかの実施において、(例えば、ブロック402において)通話オーディオデータから認識されたテキストは、通話デバイスにおいて使用されるユーザの標準的な言語とは異なる言語であることが決定される場合があり、このテキストは、通話メニュー選択オプションがユーザの言語で表示されるように自動的に翻訳されることができる。
【0106】
様々な実施において、ブロックのうちの1つまたは複数は、例えば、これらのブロックの特定の特徴が特定の実施において提供されない場合、方法400から省略することができる。例えば、キャッシュされた選択オプションが使用されない幾つかの実施において、ブロック406~412を省略することができる。別の例において、特定の実施においてエンティティデータを取得するために使用されない
図3におけるブロックを省略することができる。
【0107】
本明細書で説明されている方法、ブロックおよびオペレーションは、
図2~
図4に示されたもしくは説明されたものとは異なる順序で実行されることができる、および/または適切である場合、その他のブロックもしくはオペレーションと同時に(部分的にまたは完全に)実行されることができる。例えば、
図2のブロック220は、ブロック222および/または224と少なくとも部分的に同時に実行されることができる。別の例において、
図4のブロック414および416は、異なる順序でおよび/または少なくとも部分的に同時に実行されることができる。幾つかのブロックまたはオペレーションは、データの1つの部分のために実行され、例えば、データの別の部分のために後で再び実行されることができる。説明されたブロックおよびオペレーションの全てが様々な実施において実行される必要はない。幾つかの実施において、ブロックおよびオペレーションは、複数回、異なる順序で、および/または方法における異なるときに実行されることができる。
【0108】
本明細書に開示された1つまたは複数の方法は、複数の環境およびプラットフォームにおいて、例えば、任意のタイプのコンピューティングデバイス上で動作することができるスタンドアロンコンピュータプログラムとして、モバイルコンピューティングデバイス上で動作するモバイルアプリケーション(「アプリ」)などとして、動作することができる。
【0109】
本明細書で説明されている1つまたは複数の方法(例えば、200、300、および/または400)は、任意のタイプのコンピューティングデバイス上で実行されることができるスタンドアロンプログラム、ウェブブラウザ上で動作するプログラム、モバイルコンピューティングデバイス(例えば、携帯電話、スマートフォン、タブレットコンピュータ、腕時計、アームバンド、ジュエリー、ヘッドウェアなどのウェアラブルデバイス、仮想現実ゴーグルまたは眼鏡、拡張現実ゴーグルまたは眼鏡、頭部取付式ディスプレイ等、ラップトップコンピュータ等)上で動作するモバイルアプリケーション(「アプリ」)において動作させられることができる。1つの例において、クライアント/サーバアーキテクチャを使用することができ、例えば、(クライアントデバイスとしての)モバイルコンピューティングデバイスは、ユーザ入力データをサーバデバイスへ送信し、出力のための(例えば、表示のための)最終的な出力データをサーバから受信する。別の例において、方法の全ての計算は、モバイルコンピューティングデバイス上のモバイルアプリ(および/またはその他のアプリ)内で実行されることができる。別の例において、計算は、モバイルコンピューティングデバイスと、1つまたは複数のサーバデバイスとの間で分割されることができる。
【0110】
1つの例において、クライアント/サーバアーキテクチャを使用することができ、例えば、(クライアントデバイスとしての)モバイルコンピューティングデバイスは、ユーザ入力データをサーバデバイスへ送信し、出力のための(例えば、表示のための)最終的な出力データをサーバから受信する。別の例において、全ての計算は、モバイルコンピューティングデバイス上のモバイルアプリ(および/またはその他のアプリ)内で実行されることができる。別の例において、計算は、モバイルコンピューティングデバイスと、1つまたは複数のサーバデバイスとの間で分割されることができる。
【0111】
本明細書で説明されている方法は、コンピュータ上で実行されることができるコンピュータプログラム命令またはコードによって実施されることができる。例えば、コードは、1つまたは複数のデジタルプロセッサ(例えば、マイクロプロセッサまたはその他の処理回路)によって実施されることができ、磁気的、光学式、電磁気式などの非一時的コンピュータ可読媒体(例えば、ストレージ媒体)、または半導体もしくはソリッドステートメモリを含む半導体ストレージ媒体、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、剛性磁気ディスク、光ディスク、ソリッドステートメモリドライブ等を含む、コンピュータプログラム製品に記憶されることができる。プログラム命令は、例えば、サーバ(例えば、分散システムおよび/またはクラウドコンピューティングシステム)から供給されたsoftware as a service(SaaS)の形式で、電子信号に含まれ、電子信号として提供されることもできる。代替的に、1つまたは複数の方法は、ハードウェア(ロジックゲート等)において、またはハードウェアとソフトウェアとの組合せにおいて実施されることができる。例示的なハードウェアは、プログラマブルプロセッサ(例えば、フィールドプログラマブルゲートアレイ(FPGA)、コンプレックスプログラマブルロジックデバイス)、汎用プロセッサ、グラフィックスプロセッサ、特定用途向け集積回路(ASIC)等であることができる。1つまたは複数の方法は、システム上で動作するアプリケーションの一部もしくは構成要素として、またはその他のアプリケーションおよびオペレーティングシステムに関連して動作するアプリケーションもしくはソフトウェアとして実行されることができる。
【0112】
図5は、幾つかの実施による、通話が開始されることができる通話デバイスの表示スクリーンによって表示される例示的なユーザインターフェース500の概略図である。例えば、インターフェース500は、クライアントデバイス、例えば、
図1に示されているようなクライアントデバイス120~126のうちの1つ、またはサーバデバイス、例えば、サーバシステム102などの異なるデバイスのディスプレイデバイスによってタッチスクリーン上に表示されることができる。
【0113】
幾つかの実施において、ユーザインターフェース500は、その他のデバイスへの通話を開始し、その他のデバイスからの着信に応答し、かつ呼接続を介してその他のデバイスと通信する通話アプリケーションプログラムに関連させられることができる。この例において、ターゲットエンティティの名前502が表示され、そこでは、ターゲットエンティティが、例えば、ウェブページ、コンタクトリストまたはその他の情報ディスプレイからユーザによって直接、エンティティの検索もしくはナビゲーションの結果として、または通話デバイスもしくはその他のデバイスにおいて実行される別のユーザアプリケーションもしくはアプリケーションプロセスからの結果として、選択されている。テンキー508、識別子入力フィールド510、および通話制御512を含む通話インターフェース504も表示される。テンキー508のキーは、入力フィールド510に識別子514を、例えば一度に1文字、またはその他の実施においては多数の文字を、入力するために、ユーザによって(例えば、タッチスクリーンまたはその他の入力デバイスを介して)選択されることができる。エンティティ識別子514は、エンティティ名502によって示されたエンティティに関連している。通話は、エンティティ識別子514を使用することによってエンティティへ開始されることができる。例えば、エンティティ識別子514は、電話番号として示されるが、識別子(例えば、電子メールアドレスまたはその他のアドレス)に関連したエンティティへの通話を可能にするためにその他のタイプの識別子が入力されることもできる。幾つかの実施において、識別子514は、例えば、インターフェース500を通話デバイスによって表示させる、異なるアプリケーション(例えば、地図アプリケーション、ウェブブラウザ等)からターゲットエンティティに通話するためのユーザ選択に応答して、通話デバイスによって入力フィールド510において自動的に入力されることができる。通話制御512は、ユーザによって選択されると、通話デバイスに、名前502によって示されたターゲットエンティティの識別子514をダイヤルさせ、ターゲットエンティティへの通話を開始させることができる。
【0114】
図6は、幾つかの実施による、通話において通話メニューのための選択オプションが表示されている通話インターフェース600の概略図である。通話インターフェース600は、通話デバイス(例えば、クライアントデバイス120~126のうちの1つなどのクライアントデバイス、またはサーバシステム102などの異なるデバイスのディスプレイデバイス)によって表示されることができる。例えば、通話インターフェース600は、
図5に示されたエンティティ識別子514を介してターゲットエンティティ502への通話を開始した後に表示されることができる。幾つかの例において、通話は、
図5のインターフェース500の通話制御512のユーザ選択がユーザによって選択されることに応答して開始されることができる。通話は、代替的に、様々なその他の方法で、例えば、ターゲットエンティティまたはエンティティ識別子のユーザ選択に応答してアプリケーションによって、別のイベントに応答して、ユーザからのスケジュールされたコマンドに基づいて自動的に等、開始されることができる。
【0115】
ターゲットエンティティの名前602は、現在の通話の被発呼側を示すために表示されることができる。持続時間も、通話が開始されてから経過した時間を示すために表示されることができる。
【0116】
幾つかの実施において、ユーザからの許可および/またはコマンドが取得された場合、通話中にユーザおよびターゲットエンティティによって発せられた全ての発話の書き換えが、通話デバイスによって書き換えられかつユーザインターフェース600に表示されることができる。例えば、発話の書き換えは、ユーザインターフェース600のディスプレイ領域604に表示されることができる。インターフェース600は、ユーザによって選択されたときに通話またはインターフェース600に関連した機能の制御を生じさせる様々なユーザ制御も含むことができる。例えば、切断制御606は、通話デバイスを通話から切断させ、キーパッド制御608は、テンキー(またはキーボード)をインターフェース600内にまたはインターフェース600上に表示させ(例えば、キーパッド508と同様)、スピーカ制御610は、通話デバイスのオーディオ出力をスピーカフォンとして出力させ、ミュート制御612は、通話デバイスにおけるユーザの発話およびその他の音を通話における被発呼側へ送信させない。
【0117】
図6の例において、ターゲットエンティティへの通話は、自動化された音声が発話し、ユーザ(発呼側)のための通話メニューにおける選択オプションを提供する、自動音声(IVR)システム(ターゲットエンティティとしての)によって応答される。テキスト614は、ユーザの通話デバイスによる通話中に検出および認識される発話から書き換えられる。書き換えられたテキスト614の第1の部分616は、通話メニューの選択オプションでもこのような選択オプションの一部でもないことが検出される前置き情報を提供する自動化されたシステムの発話に対応する。その他の実施において、第1の部分614など、選択オプションに含まれないことが検出されるテキストは、ユーザがデバイスの優先度またはセッティングをそうするように設定していない限り、通話デバイスによって表示されない。
【0118】
テキスト614の第2の部分618は、デフォルト言語または第1の部分616の言語とは異なる言語であることが通話において検出された発話に対応する。第2の部分618は、ターゲットエンティティによって提供される通話メニューにおける選択オプションに対応する(「スペイン語の場合は9を押してください」)。
図6において、第2の部分618はまだ選択オプションとして検出されていない。
【0119】
図7は、幾つかの実施による、通話における通話メニューのための選択オプションが検出および表示されている通話インターフェース600の概略図である。
図7の例において、(
図6に示された)書き換えられたテキスト614の第2の部分618は、例えば、発話認識技術を使用して、通話メニューにおける選択オプションとして検出されている。例えば、それを選択オプションとして指定する単語の検出の後、テキストの第2の部分618は、(例えば、通話デバイスまたは接続されたリモートデバイスによって)インターフェース600に表示された関連する視覚的オプション702を有する選択オプションに変換される。さらに、テキスト部分614は、スクリーンから除去され、視覚的オプション702によって置き換えられている。幾つかの実施において、第2の部分618におけるテキストの一部は、視覚的オプションがより明瞭に提供され得るように、視覚的オプション702のために示されているように、テキストを視覚的オプションに変換するときに除去されることができる。
【0120】
幾つかの実施において、示されているように、視覚的オプション702が、ボタンと同様に選択されることができる、輪郭を描かれたオプションであることを示すために、視覚的オプション702のテキストの周囲に、ボーダー、アウトライン、またはその他の視覚的セパレータが表示されることができる。この例において、発話された選択オプションにおいて指定された数字(「nueve」)は、視覚的オプション702に表示された(または視覚的オプション702に関連した)選択指示子704に変換され、この選択指示子704は、視覚的オプション702を選択するためにキーパッド上で(例えば、キーパッド制御608を介して)選択されることができる(または幾つかの実施において、通話において発話されることができる)数字を示す。この例において、視覚的オプション702がユーザによって選択されると、自動化されたシステムが現在の通話において発話する言語は、指示された言語(この例では、スペイン語)に変換される。視覚的オプション702の選択はまた、書き換えられたテキストおよび選択オプションなどの、インターフェース600に表示されたテキストを、選択された言語に変換させる。
【0121】
視覚的オプション702は、例えば、タッチスクリーン上でユーザによって視覚的オプション702を触れること、入力デバイスの操作、音声コマンド等のユーザ入力を介して、ユーザによって選択可能である。例えば、視覚的オプション702がタッチスクリーンを介してタッチ入力によって選択される場合、このオプションの選択は通話デバイスによってターゲットエンティティへ送信される。幾つかの例において、選択は、通話デバイスによって送信され、通話デバイスは、
図7の例におけるキーパッド上の「9」キーなどの、指定された数字キーがユーザによって押されたときに出力される信号の均等物を提供する通話における信号(例えば、トーン)を出力する。これは、ターゲットエンティティに、ユーザが、数字「9」、および視覚的オプション702に関連した対応する選択オプションを選択したことを示す信号を受信させる。
【0122】
図7の例において、視覚的オプション702は選択されておらず、ターゲットエンティティの自動化されたシステムは発話を続け、その通話メニューにおけるさらなる選択オプションを説明する。発話が検出され、テキスト部分706として書き換えられ、このテキスト部分706は、この例では、選択オプションとして検出される前に表示領域604において視覚的オプション702の下に生テキストとして表示される。
【0123】
図8は、幾つかの実施による、通話における通話メニューの追加的な選択オプションが検出および表示されている通話インターフェース600の概略図である。
図8の例において、テキスト部分706(
図7に示されている)は、選択オプションとして検出されている。この選択オプションに対応する視覚的オプション802は、視覚的オプション702の後の表示領域604に表示されている。テキスト部分706はスクリーンから除去されており、視覚的オプション802によって置き換えられている。
【0124】
視覚的オプション802はユーザによって選択可能である。このケースでは、選択オプション802は、視覚的オプション702の場合のようにキーバッド上のキーを押すのではなく、オプションを選択するために単語(「旅行」)である指示子を言うように指示している。ユーザがターゲットエンティティにその単語を発話すると、被発呼側は、その単語および関連する選択オプションの選択を検出する。幾つかの実施において、発話選択式選択オプションは、キーバッドキーを押すことによって選択される選択オプションと区別するために視覚的にインターフェース600に指定されることができる。この例において、発話選択式指示子がこの選択オプションを選択することができることを示すために、アイコン804が視覚的オプション802に表示されている(またはさもなければ視覚的オプション802に視覚的に関連している)。幾つかの通話メニューにおいて、選択オプションは、発話によってまたはユーザがキーを押すことのいずれかによって選択することができる。幾つかの実施において、このような選択オプションのための視覚的オプションは、キー識別子を示しかつ発話による選択可能性の指示を示す選択指示子と共に表示されることができる。
【0125】
図8の例において、ターゲットエンティティからの追加的な発話の後、追加的な選択オプションが検出されている。これらの選択オプションは、表示領域604に連続的に表示された視覚的オプションとして表示されている。各視覚的オプションは、上記で説明されている視覚的オプション702および802と同様に決定および表示されることができる。幾つかの実施において、各選択オプションのテキストが通話における発話から検出および認識されるとき、これは、
図6および
図7に示されているのと同様に、視覚的オプションとして提供される。幾つかの実施において、通話における発話は、現在のメニューレベルにおける通話メニュー選択オプションの全てが通話において発話されるまで生テキストとして表示されることができ、この時点で、テキストは、テキストの代わりに表示される視覚的オプションに変換される。
【0126】
幾つかの実施において、選択オプションの全てが現在のメニューレベルにおいて検出および表示される前にユーザが視覚的オプションのうちのいずれかを選択すると、現在のメニューレベルの残りの選択オプションは視覚的オプションとして表示されない(例えば、選択を受信したとき、ターゲットエンティティは、現在のメニューレベルにおけるさらなる選択オプションを発話することを中断し、次のメニューレベルにおける選択オプションを発話し始めてよい)。
【0127】
図8において、ユーザは、インターフェース600に表示された選択オプションのうちのいずれも選択しておらず、追加の選択オプションは、視覚的オプション702および802の場合と同様に、関連する視覚的オプションとして検出および表示されている。例えば、視覚的オプション806および808はキーを押すことによって選択可能であるように検出され、これにより、選択指示子810および812がそれぞれ、これらのオプションを選択するためのキーパッドキーに対応する数字で表示されている。視覚的オプション814は、キーパッドの「アステリスク」キーのキー押しによって選択可能であることが検出され、これにより、選択指示子816はアステリスク記号で表示されている。
【0128】
図9は、幾つかの実施による、通話メニューの視覚的オプションがユーザによって選択されている通話インターフェース600の概略図である。
図9の例において、ユーザは、その視覚的オプションを選択するために視覚的オプション808の位置において通話デバイスのタッチスクリーンをタップしている。この例において、選択に応答して、通話デバイスは、視覚的オプション808が選択されたことを示すために選択指示子812(
図8に示されている)の代わりに選択されたアイコン902を表示しており、通話メニューのその他の視覚的オプション702、802、806、および814は、選択された視覚的オプション808を強調するために、より見えにくく表示されている(例えば、輝度および/または色が、背景の輝度/色に近くなるように変化させられる)。様々な実施は、表示された通話メニューのその他の視覚的オプションに対して選択された視覚的オプションを強調するためのその他の方法を提供することができる。
【0129】
視覚的オプション808の選択に応答して、通話デバイスは、選択された数字(「2」)を示す信号を通話においてターゲットエンティティへ送信する。ターゲットエンティティは、選択された数字を受信し、以下で説明されるように、対応して応答する。
【0130】
図10は、幾つかの実施による、通話メニューの視覚的オプションが選択された通話インターフェース600の概略図である。
図10の例において、
図9に示されているような視覚的オプション808に対応する選択を受信した後、ターゲットエンティティは、選択されたオプションに基づく異なるレベル(通話メニューの第2、第3、またはそれ以降のレベルであってよい)へ通話メニューを変更する。この例において、通話メニューのこのナビゲーションパスの次のメニューレベルは、通話においてターゲットエンティティによって発話され、通話デバイスによって検出され、かつ表示された視覚的オプション1002、1004および1006に変換される、多数の選択オプションを含む。通話メニューの現在のレベルにおいてさらなる選択オプションが存在する場合、追加の視覚的オプションも表示されてよい。これらの視覚的オプションのうちの1つは、前の視覚的オプションに関して上記で説明されているのと同様にユーザによって選択されることができる。幾つかの実施において、示されているように、表示スクリーンは、通話メニューにおいて検出されたさらなる視覚的オプションを表示するために下方へスクロールすることができる。
【0131】
図11は、幾つかの実施による、対応する選択オプションが通話において発話される前に通話メニューの視覚的オプションが表示されている、通話デバイスによって表示された通話インターフェース1100の概略図である。通話インターフェース1100は、
図6に示された通話インターフェース600と類似であることができる。幾つかの実施において、通話インターフェース1100は、通話デバイスが、エンティティ識別子を介して、
図5のターゲットエンティティ502などのターゲットエンティティへの通話を開始した後に表示されることができる。幾つかの実施において、通話インターフェース1100(または
図5のユーザインターフェース500などの類似のインターフェース)は、ターゲットエンティティへの通話を開始する前に表示されることができる。例えば、ターゲットエンティティのエンティティ識別子を介して通話が開始された後にどのオプションが通話においてユーザに利用可能となるかを通話の前に示す選択オプションが、ターゲットエンティティのために表示されることができる。
【0132】
この例において、通話は、例えば、ユーザが
図5のインターフェース500の通話制御512を選択することに応答してまたはその他の方法のうちの1つにおいて、開始される。現在の通話のターゲットエンティティが関連付けられているターゲットエンティティの名前1102を表示することができ、通話が開始されてから経過した時間を示すために持続時間を表示することができる。幾つかの実施において、ユーザからの許可および/またはコマンドが取得されると、通話中に発呼側および被発呼側によって発せられた全ての発話の書き換えが、
図6の通話インターフェース600の場合と同様に、通話デバイスによって書き換えられかつユーザインターフェース1100の表示領域1104に表示されることができる。切断制御1106、キーパッド制御1108、スピーカ制御1110、ミュート制御1112は、上記で説明されている対応する制御と類似であることができる。
【0133】
図11の例において、通話メニュー1120は、通話の開始直後または通話の開始中に表示される(または上記で説明されているように通話を開始する前に表示されてよい)。通話メニュー1120は、この例において、
図6~
図10について上記で説明されている選択オプションと類似の5つの視覚的オプション1122、1124、1126、1128、および1130を含む。これらの視覚的オプションのための選択オプションは、本明細書で説明されているように、通話の前に受信される選択オプションデータに基づいて、ターゲットエンティティの発話の前に通話デバイスにアクセス可能である。ターゲットエンティティが対応する選択オプションを発話する前に通話メニュー1120の視覚的オプションを表示することにより、ユーザは、前もって通話メニューを見ることができ、幾つかの通話メニュー実施において、ユーザは、メニューの残りのオプションを発話する必要なくターゲットエンティティに通話メニューを別のレベルへ進行させる選択オプションを選択することができる。
【0134】
幾つかの実施において、
図11に示されているように、ターゲットエンティティへの通話におけるターゲットエンティティの発話されたコンテンツのその他の部分は、本明細書で説明されているように通話メニューの選択オプションと同様に通話の前に検索されることができ、ターゲットエンティティが通話中にそのテキストを発話する前に表示されることができる。
図11の例において、テキスト1132は、ターゲットエンティティがそのテキストを発話する前に表示されており、表示領域1104において通話メニュー選択オプションの上に表示されている。例えば、テキスト1132は、
図6の例と同様に前置き情報を含むことができ、この前置き情報は、通話の前に取得された選択オプション情報に基づいて通話メニューの選択オプションの一部ではないことが検出されるまたは前もって知られている。
【0135】
通話中、ターゲットエンティティは、通話デバイスおよび/またはその他の接続されたデバイスによって検出および認識される発話情報を発話する。一般的に、発話情報は、表示されたテキストおよび視覚的オプションと一致すべきである(発話情報は、一部の発話情報を、選択指示子アイコンまたは数字などの視覚的オプションフォーマットに変換することにより、表示された視覚的オプションと正確に一致しない場合がある)。
図4に関して上記で説明されているように、発話された情報が視覚的オプションのテキストと一致しない場合、視覚的オプションは修正されることができ、修正されたバージョンが元のバージョンの代わりに表示される。修正が行われない幾つかの実施またはケースにおいて、視覚的オプションにエラーが存在し得ることを示す通知を表示することができる、および/または視覚的オプションのうちの1つもしくは複数を表示スクリーンから除去することができる。
【0136】
示された幾つかの実施において、通話においてターゲットエンティティによって現在発話されている表示されたテキストの部分(選択オプションにおけるテキストを含む)を示すために、インジケータを表示することができる。この例において、インジケータは、現在発話されているテキスト1134を太字フォントで強調する。後続のテキスト1134および選択オプション1122~1130はまだ通話において発話されておらず、通常の(例えば、非太字)フォントで表示されておりかつ/または見えにくく(例えば、背景の輝度および/または色に応じて、より高いまたはより低い輝度で)表示されている。この例において、通話において前に発話されたテキストは、通話メニューの発話された部分が新たなテキストを強調し続けながら太字で強調されたままであり、これにより、新たな、先に進む太字のテキストは、通話において現在発話されているテキストを示す。幾つかの実施において、
図12に示されているように、選択オプションの一部ではない前に発話されたテキストは、選択オプションのテキストに対して強調が減じられて示されることができる。幾つかの実施において、現在発話されているテキストは、例えば、その他の表示されたテキストとは異なる色で表示される、現在発話されているテキストの上または近くに別のポインタ、矢印、またはその他の視覚的インジケータを表示するなど、その他の方法で強調されることができる。
【0137】
現在被発呼側によって発話されているテキストの表示された指示により、ユーザは、発話された通話メニューの進行を一目で見ることができ、これにより、例えば、ユーザは、ターゲットエンティティが、提供されたオプションをユーザが選択することを現在待っているかどうかを見ることができてよい。通話メニューの幾つかの実施において、ターゲットエンティティは、通話メニューを発話することにおいて進行の特定の量がなされるまで、選択オプションの選択に応答しない場合がある。例えば、選択オプションは、それが選択可能になる前に完全に発話されるかまたは特定の量だけ部分的に発話されなければならない場合がある。これらの実施のうちの幾つかにおいて、通話において現在発話されているテキストのインジケータを提供することにより、ユーザは、いつ視覚的オプションが選択されるために適格となるかを推定することができてよく、これにより、ターゲットエンティティが応答しないユーザによるオプションの選択における無駄な試みを潜在的に減じる。
【0138】
図12は、幾つかの実施による、現在発話されているテキストのインジケータが通話メニューの視覚的オプションまで進行した、
図11の通話インターフェース1100の概略図である。この例において、ターゲットエンティティは、前置きテキスト1132の残りの部分、および視覚的オプション1122によって提供された選択オプションを発話している。したがって、テキスト1132の全ておよび視覚的オプション1122は、強調された形式で、例えば、太字テキストでおよび/またはより見やすく表示されている。加えて、視覚的オプション1124の初期部分1202が、被発呼側によって現在発話されており、これにより、部分1202は、視覚的オプション1124の他の部分と比較して強調されて表示されている(幾つかの実施において、視覚的オプションの1つまたは複数の部分は、示されているような選択指示子、および/またはオプションのボーダーなど、視覚的オプションの少なくとも一部が発話されているときに強調されることもできる)。視覚的オプション1126、1128、および1130は、ターゲットエンティティによってまだ発話されておらず、より見にくく表示されている。
【0139】
図13は、幾つかの実施による、現在発話されているテキストのインジケータが通話メニューにおいてさらに進行した、
図11の通話インターフェース1100の概略図である。この例において、ターゲットエンティティは、前置きテキスト1132ならびに視覚的オプション1122、1124、および1126によって表された選択オプションを発話している。したがって、テキスト1132およびこれらの視覚的オプションは、発話される前よりもさらに見やすく、強調された形式で表示されている。加えて、視覚的オプション1128の初期部分1302は、被発呼側によって現在発話されており、これにより、部分1302は、視覚的オプション1128の他の部分と比較して強調された形式で表示されている。視覚的オプション1130は、ターゲットエンティティによってまだ発話されておらず、より見にくく表示されている。
【0140】
図14は、幾つかの実施による、現在発話されているテキストのインジケータが通話メニューにおける次のレベルへ進行した、
図11の通話インターフェース1100の概略図である。この例において、ターゲットエンティティは、前置きテキスト1132および通話メニューの初期レベルの選択オプションの全てを発話している。したがって、テキスト1132およびこれらの視覚的オプションは、強調された形式で表示されている(表示スクリーンのスクロールにより、視覚的オプション1126、1128、および1130のみが
図14において現在見えている)。加えて、ユーザは、選択指示子1402によって示されているように、視覚的オプション1128を選択している。
【0141】
視覚的オプション1128の選択後、通話メニューの次のレベルが通話デバイスによって表示される。
図11に表示されている前のレベルのように、次のレベルの視覚的オプションは、本明細書で説明されているようにこれらのオプションを示すデータに通話デバイスがアクセスしたことにより前もって知られており、次のレベルの視覚的オプションは、通話において発話される前に表示される。次のレベルの視覚的オプションは、視覚的オプション1404、1406、1408、および1410として表示されている。
図14の例において、視覚的オプション1404の初期部分1412が、現在被発呼側によって発話されており、これにより、部分1412は、視覚的オプション1404の他の部分と比較して強調された形式で表示されている(幾つかの実施において、示されているように、関連したキー番号の選択指示子など、視覚的オプションの1つまたは複数の部分も強調されることができる)。視覚的オプション1406~1410は、まだターゲットエンティティによって発話されておらず、より見えにくく表示されている。
【0142】
図6~
図14の例において、通話を開始したユーザおよび/または通話デバイスが発呼側であり、ターゲットエンティティが例示的な通話における被発呼側(エンティティ被発呼側)である。その他の例において、ターゲットエンティティがユーザおよび/または通話デバイスに電話する場合があり、これにより、ターゲットエンティティが発呼側であり、ユーザおよび/または通話デバイスが被発呼側である。
【0143】
図15は、本明細書で説明されている1つまたは複数の特徴を実施するために使用されてよい例示的なデバイス1500のブロック図である。1つの例において、デバイス1500は、クライアントデバイス、例えば、
図1に示されたクライアントデバイス120~126のうちのいずれかを実施するために使用されてよい。代替的に、デバイス1500は、サーバデバイス、例えば、サーバデバイス104等を実施することができる。幾つかの実施において、デバイス1500は、クライアントデバイス、サーバデバイス、または上記の組合せを実施するために使用されてよい。デバイス1500は、あらゆる適切なコンピュータシステム、サーバ、または本明細書で説明されているようなその他の電子もしくはハードウェアデバイスであってよい。
【0144】
幾つかの実施において、デバイス1500は、プロセッサ1502、メモリ1504、およびI/Oインターフェース1506を含む。プロセッサ1502は、プログラムコードを実行しかつデバイス1500の基本オペレーションを制御するための1つまたは複数のプロセッサおよび/または処理回路であることができる。「プロセッサ」は、データ、信号またはその他の情報を処理するあらゆる適切なハードウェアシステム、メカニズムまたは構成要素を含む。プロセッサは、1つまたは複数のコアを備える(例えば、シングルコア、デュアルコアまたはマルチコア構成において)汎用中央処理ユニット(CPU)を備えるシステム、多重処理ユニット(例えば、マルチプロセッサ構成において)、グラフィックス処理ユニット(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、コンプレックスプログラマブルロジックデバイス(CPLD)、機能を達成するための専用回路、ニューラルネットワークモデルベース処理を実施するための専用プロセッサ、ニューラル回路、行列計算(例えば、行列乗算)のために最適化されたプロセッサ、またはその他のシステムを含んでよい。
【0145】
幾つかの実施において、プロセッサ1502は、ニューラルネットワーク処理を実施する1つまたは複数のコプロセッサを含んでよい。幾つかの実施において、プロセッサ1502は、確率的出力を生成するためにデータを処理するプロセッサであってよく、例えば、プロセッサ1502によって生成された出力は、不正確である場合があるまたは予想された出力から所定の範囲内で正確である場合がある。例えば、プロセッサは、「リアルタイム」、「オフライン」、「バッチモード」等においてその機能を実行してよい。処理の部分は、異なる時点および異なる位置において、異なる(または同じ)処理システムによって実行されてよい。コンピュータは、メモリと通信するあらゆるプロセッサであってよい。
【0146】
メモリ1504は、一般的に、プロセッサ1502によってアクセスするためにデバイス1500に設けられており、プロセッサによる実行のための命令を記憶するのに適しており、かつプロセッサ1502とは別個に配置されたおよび/またはプロセッサ1502と一体化された、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能読み出し専用メモリ(EEPROM)、フラッシュメモリ等の、任意の適切なプロセッサ可読ストレージ媒体であってよい。メモリ1504は、オペレーティングシステム1508、機械学習アプリケーション1530、その他のアプリケーション1512、およびアプリケーションデータ1514を含む、プロセッサ1502によってサーバデバイス1500上で動作するソフトウェアを記憶することができる。その他のアプリケーション1512は、データ表示エンジン、通信アプリケーション(例えば、ダイヤラまたは通話アプリケーション、オーバーザトップ通話アプリケーション、銀行、レストランまたはアプリを提供するその他の組織/プロバイダなどの特定のエンティティに関連したアプリケーションなどの通話能力を備えるその他のアプリケーション)、ウェブホスティングエンジン、画像表示エンジン、通知エンジン、ソーシャルネットワーキングエンジン等のアプリケーションを含んでよい。幾つかの実施において、機械学習アプリケーション1530および/またはその他のアプリケーション1512はそれぞれ、本明細書で説明されている機能、例えば、
図2、
図3および/または
図4の方法のうちの一部または全てをプロセッサ1502が実行することを可能にする命令を含むことができる。アプリケーションデータ1514は、選択オプションデータおよびその他のエンティティデータなどの通話メニューデータ、(ユーザ許可による)通話からのオーディオデータ、通話メニューからのオーディオデータ、通話メニューのテキスト記録、リーセンシーを示す通話選択オプションおよび通話メニュー構造のタイプスタンプ、(ユーザ許可による)前の通話の通話時刻、通話持続時間およびその他の特性を含む通話特性、ならびに/または本明細書で説明されている通話選択オプションを決定するために使用することができるデータ構造(例えば、表、リスト、グラフ)を含むことができる。
【0147】
機械学習アプリケーション1530は、1つまたは複数の固有表現抽出(NER)実施を含むことができ、そのために教師あり学習および/または教師なし学習を使用することができる。機械学習モデルは、マルチタスク学習ベースモデル、条件付き確率場を備える残留タスク双方向LSTM(長・短期記憶)、統計的NER等を含むことができる。本明細書で開示された1つまたは複数の方法は、幾つかの環境およびプラットフォームにおいて、例えば、任意のタイプのコンピューティングデバイス上で動作することができるスタンドアロンコンピュータプログラムとして、ウェブページを有するウェブアプリケーションとして、モバイルコンピューティングデバイス上で動作するモバイルアプリケーション(「アプリ」)としてなど、動作することができる。
【0148】
様々な実施において、機械学習アプリケーション1530は、ベイズ分類器、サポートベクターマシン、ニューラルネットワーク、またはその他の学習技術を利用してよい。幾つかの実施において、機械学習アプリケーション1530は、訓練済みモデル1534、推論エンジン1536、およびデータ1532を含んでよい。幾つかの実施において、データ1532は、訓練データ、例えば、訓練済みモデル1534を生成するために使用されるデータを含んでよい。例えば、訓練データは、前の通話中に発せられた発話を示す発話データ、エンティティによって通話において提供された選択オプションを示す通話メニューデータ、ユーザによる前の通話の通話特性(ユーザ同意が得られている場合)等の、通話のための選択オプションを決定するためのモデルを訓練するために適した任意のタイプのデータを含んでよい。訓練データは、任意のソース、例えば、訓練のために具体的にマークされたデータリポジトリ、機械学習のための訓練データとしての使用のために許可がそのために提供されるデータ等から得られてよい。機械学習モデル、例えば、訓練済みモデル1534を訓練するためにそれぞれのユーザデータの使用を1つまたは複数のユーザが許可する実施において、訓練データは、このようなユーザデータを含んでよい。それぞれのユーザデータの使用をユーザが許可する実施において、データ1532は、許可されたデータを含んでよい。
【0149】
幾つかの実施において、訓練データは、訓練されているコンテクストにおけるユーザ入力またはアクティビティに基づかないデータ、例えば、シミュレーションまたはモデルから生成されたデータ等、訓練の目的で生成された合成データを含んでよい。幾つかの実施において、機械学習アプリケーション1530は、データ1532を除外する。例えば、これらの実施において、訓練済みモデル1534は、例えば、異なるデバイスにおいて生成され、機械学習アプリケーション1530の一部として提供されてよい。様々な実施において、訓練済みモデル1534は、モデル構造または形式、および関連する重みを含むデータファイルとして提供されてよい。推論エンジン1536は、訓練済みモデル1534のためのデータファイルを読み取り、訓練済みモデル1534において指定されたモデル構造または形式に基づいて、ノード接続性、層、および重みと共にニューラルネットワークを実施してよい。
【0150】
機械学習アプリケーション1530は、1つまたは複数の訓練済みモデル1534も含む。例えば、このようなモデルは、発話を認識し、本明細書で説明されているように通話においてオーディオデータとして受信された発話から選択オプションを決定するための訓練済みモデルを含むことができる。幾つかの実施において、訓練済みモデル1534は、1つまたは複数のモデル形式または構造を含んでよい。例えば、モデル形式または構造は、任意のタイプのニューラルネットワーク、例えば、線形ネットワーク、複数の層(例えば、入力層と出力層との間の「隠れ層」であり、各層は線形ネットワークである)を実施するディープニューラルネットワーク、畳み込みニューラルネットワーク(例えば、入力データを多数の部分またはタイルに分割しまたは区切り、1つまたは複数のニューラルネットワーク層を使用して各タイルを別々に処理し、各タイルの処理から結果を集約するネットワーク)、sequence-to-sequenceニューラルネットワーク(例えば、センテンスにおける単語、ビデオにおけるフレームなどの入力シーケンシャルデータとして取得し、出力として結果シーケンスを生成する)等を含むことができる。
【0151】
モデル形式または構造は、様々なノード間の接続性および層へのノードの組織化を指定してよい。例えば、第1の層(例えば、入力層)のノードは、データを入力データ1532またはアプリケーションデータ1514として受信してよい。このようなデータは、例えば、通話からの発話データ、通話のための選択オプションを示すエンティティデータ、前の通話の通話特性、ならびに/または前の通話および提供された選択オプションに関するユーザからのフィードバックを含むことができる。その後の中間層は、モデル形式または構造において指定された接続性ごとの前の層のノードの入力出力として受信してよい。これらの層は、隠れ層と呼ばれてもよい。最後の層(例えば、出力層)は、機械学習アプリケーションの出力を生成する。例えば、出力は、インターフェースにおいて提供される選択オプションのセットであってよい。幾つかの実施において、異なる層またはモデルが、発話を認識するために、例えば、オーディオデータの入力を受信し、入力オーディオデータにおける発話を表すテキストである出力を提供するために使用されることができる。幾つかの実施において、モデル形式または構造は、各層におけるノードの数および/またはタイプも指定する。
【0152】
異なる実施において、1つまたは複数の訓練済みモデル1534は、モデル構造または形式ごとに層に配置された複数のノードを含むことができる。幾つかの実施において、ノードは、例えば、出力の1つのユニットを生成するために入力の1つのユニットを処理するように構成された、メモリを有さない計算ノードであってよい。ノードによって実行される計算は、例えば、複数のノード入力の各々に重みを掛ける、加重和を得る、およびノード出力を生成するために加重和をバイアスまたはインターセプト値で調整することを含んでよい。
【0153】
幾つかの実施において、ノードによって実行される計算は、調整された加重和に階段関数/活性化関数を適用することも含んでよい。幾つかの実施において、階段関数/活性化関数は、非線形関数であってよい。様々な実施において、このような計算は、行列乗算などのオペレーションを含んでよい。幾つかの実施において、複数のノードによる計算は、並列に、例えば、マルチコアプロセッサの多数のプロセッサコアを使用して、GPUの個々の処理ユニットを使用して、または専用ニューラル回路を使用して実行されてよい。幾つかの実施において、ノードは、メモリを含んでよい、例えば、後続の入力を処理する際に1つまたは複数の前の入力を記憶および使用することができてよい。例えば、メモリを備えるノードは、長・短期メモリ(LSTM)ノードを含んでよい。LSTMノードは、ノードが有限状態機械(FSM)のように働くことを可能にする「状態」を維持するためにメモリを使用してよい。このようなノードを備えるモデルは、シーケンシャルデータ、例えば、文または段落における単語、ビデオにおけるフレーム、発話またはその他のオーディオ等を処理する際に有用であり得る。
【0154】
幾つかの実施において、1つまたは複数の訓練済みモデル1534は、個々のノードのためのエンベディングまたは重みを含んでよい。例えば、モデルは、モデル形式または構造によって指定されているように層に組織化された複数のノードとして初期化されてよい。初期化において、モデル形式ごとに接続されたノード、例えば、ニューラルネットワークの連続する層におけるノードの各対の間の接続に、それぞれの重みが適用されてよい。例えば、それぞれの重みは、ランダムに割り当てられるか、またはデフォルト値に初期化されてよい。次いで、モデルは、結果を生成するために、例えば、データ1532を使用して訓練されてよい。
【0155】
例えば、訓練は、教師あり学習技術を適用することを含んでよい。教師あり学習において、訓練データは、複数の入力(例えば、オーディオデータおよび/またはエンティティデータ)および各入力のために対応する予想される出力(例えば、通話メニューのための選択オプションのセット、および/またはオーディオデータにおける発話を表すテキスト)を含むことができる。予想された出力とのモデルの出力の比較に基づき、重みの値が自動的に、例えば、類似の入力が提供されたときにモデルが予想された出力を生成する確率を高める形式で調整される。
【0156】
幾つかの実施において、訓練は、教師なし学習技術を適用することを含んでよい。教師なし学習において、入力データのみが提供されてよく、モデルは、データを区別するように、例えば、入力データを複数のグループに集めるように訓練されてよく、各グループは、何らかの方法で類似の入力データを含む。例えば、モデルは、互いに類似の通話特性を決定するまたは集めるように訓練されてよい。
【0157】
別の例において、教師なし学習を使用して訓練されたモデルは、データソースにおける発話および選択オプションの使用に基づいて発話または選択オプションの特徴を集めてよい。幾つかの実施において、教師なし学習は、例えば、機械学習アプリケーション1530によって使用されてよい知識表現を生成するために使用されてよい。様々な実施において、訓練済みモデルは、モデル構造に対応する重みまたはエンベディングのセットを含む。データ1532が省略される実施において、機械学習アプリケーション1530は、例えば、機械学習アプリケーション1530のデベロッパ、第三者などによる、前の訓練に基づく訓練済みモデル1534を含んでよい。幾つかの実施において、訓練済みモデル1534のうちの1つまたは複数は各々、固定された、例えば、重みを提供するサーバからダウンロードされた、重みのセットを含んでよい。
【0158】
機械学習アプリケーション1530は、推論エンジン1536も含む。推論エンジン1536は、通話メニューにおける選択オプションのセットおよび通話メニューの構造などの推論を提供するために、アプリケーションデータ1514などのデータに訓練済みモデル1534を適用するように構成されている。幾つかの実施において、推論エンジン1536は、プロセッサ1502によって実行されるためのソフトウェアコードを含んでよい。幾つかの実施において、推論エンジン1536は、プロセッサ1502が訓練済みモデルを適用することを可能にする回路構成(例えば、プログラマブルプロセッサのための、フィールドプログラマブルゲートアレイ(FPGA)のための、など)を指定してよい。幾つかの実施において、推論エンジン1536は、ソフトウェア命令、ハードウェア命令、または組合せを含んでよい。幾つかの実施において、推論エンジン1536は、推論エンジン1536を起動するために、例えば、推論を生成するためにアプリケーションデータ1514に訓練済みモデル1534を適用するために、オペレーティングシステム1508および/またはその他のアプリケーション1512によって使用することができるアプリケーションプログラミングインターフェース(API)を提供してよい。
【0159】
機械学習アプリケーション1530は、幾つかの技術的利点を提供し得る。例えば、訓練済みモデル1534が教師なし学習に基づいて生成される場合、訓練済みモデル1534は、入力データ、例えば、アプリケーションデータ1514から知識表現(例えば、数値表現)を生成するために推論エンジン1536によって適用されることができる。例えば、選択オプションおよび/またはメニュー構造を決定するために訓練されたモデルは、その表現を生成してよい。幾つかの実施において、このような表現は、出力(例えば、ラベル、分類、推定特性等)を生成するために処理コスト(例えば、計算コスト、メモリ使用量等)を減じるのに役立ち得る。幾つかの実施において、このような表現は、推論エンジン1536の出力から出力を生成する異なる機械学習アプリケーションへの入力として提供されてよい。
【0160】
幾つかの実施において、機械学習アプリケーション1530によって生成された知識表現は、例えば、ネットワーク上でさらなる処理を行う異なるデバイスへ提供されてよい。このような実施において、データではなく知識表現を提供することは、技術的利点を提供し、例えば、コストを削減しながらより高速のデータ伝送を可能にし得る。
【0161】
幾つかの実施において、機械学習アプリケーション1530は、オフライン形式で実施されてよい。これらの実施において、訓練済みモデル1534は、第1段階において生成され、機械学習アプリケーション1530の一部として提供されてよい。幾つかの実施において、機械学習アプリケーション1530は、オンライン形式で実施されてよい。例えば、このような実施において、機械学習アプリケーション1530を起動するアプリケーション(例えば、オペレーティングシステム1508、その他のアプリケーション1512のうちの1つまたは複数)は、機械学習アプリケーション1530によって生成された推論を利用してよく、例えば、ユーザに推論を提供してよく、システムログ(例えば、ユーザによって許可された場合、推論に基づいてユーザによって取られる行為、またはさらなる処理のための入力として利用される場合、さらなる処理の結果)を生成してよい。システムログは、周期的に、例えば、1時間ごと、1ヶ月ごと、3ヶ月ごとなどで生成されてよく、ユーザ許可により、訓練済みモデル1534を更新するために、例えば、訓練済みモデル1534のためのエンベディングを更新するために使用されてよい。
【0162】
幾つかの実施において、機械学習アプリケーション1530は、機械学習アプリケーション1530が実行されるデバイス1500の特定の構成に適応することができる形式で実施されてよい。例えば、機械学習アプリケーション1530は、利用可能な計算リソース、例えば、プロセッサ1502を利用する計算グラフを決定してよい。例えば、機械学習アプリケーション1530が多数のデバイス上の分散アプリケーションとして実施されている場合、機械学習アプリケーション1530は、計算を最適化する形式で個々のデバイス上で実行される計算を決定してよい。別の例において、機械学習アプリケーション1530は、プロセッサ1502が、特定の数(例えば、1000)のGPUコアを備えるGPUを含むことを決定し、推論エンジンを対応して(例えば、1000の個々のプロセスまたはスレッドとして)実施してよい。
【0163】
幾つかの実施において、機械学習アプリケーション1530は、訓練済みモデルのアンサンブルを実施してよい。例えば、訓練済みモデル1534は、各々同じ入力データに適用可能な複数の訓練済みモデルを含んでよい。これらの実施において、機械学習アプリケーション1530は、例えば、利用可能な計算リソース、前の推論との成功率等に基づいて、特定の訓練済みモデルを選択してよい。幾つかの実施において、機械学習アプリケーション1530は、複数の訓練済みモデルが適用されるように推論エンジン1536を実行してよい。これらの実施において、機械学習アプリケーション1530は、各訓練済みモデルを提供することによる個々の出力を記録する投票技術を使用して、または1つもしくは複数の特定の出力を選択することによって、個々のモデルを提供することによる出力を組み合わせてよい。さらに、これらの実施において、機械学習アプリケーションは、個々の訓練済みモデルを提供するための時間しきい値(例えば、0.5ms)を適用してよく、時間しきい値内で利用可能なこれらの個々の出力のみを利用してよい。時間しきい値内に受信されない出力は、利用されない、例えば、廃棄されてよい。例えば、このようなアプローチは、例えば、オペレーティングシステム1508または1つまたは複数のその他のアプリケーション1512によって機械学習アプリケーションを起動しながら指定される時間制限があるときに適している場合がある。
【0164】
異なる実施において、機械学習アプリケーション1530は、異なるタイプの出力を生成することができる。幾つかの実施において、機械学習アプリケーション1530は、起動アプリケーション、例えば、オペレーティングシステム1508または1つまたは複数のその他のアプリケーション1512によって指定されたフォーマットに基づいて出力を生成してよい。幾つかの実施において、起動アプリケーションは、別の機械学習アプリケーションであってよい。例えば、このような構成は、敵対的生成ネットワークにおいて使用されてよく、そこでは、起動機械学習アプリケーションは、機械学習アプリケーション1530からの出力を使用して訓練され、またその逆である。
【0165】
メモリ1504におけるソフトウェアのいずれかは、代替的に、任意のその他の適切なストレージロケーションまたはコンピュータ可読媒体に記憶されることができる。加えて、メモリ1504(および/またはその他の接続されたストレージデバイス)は、1つもしくは複数のメッセージ、1つまたは複数の分類、電子百科事典、辞書、用語辞典、知識ベース、メッセージデータ、文法、ユーザ選択、ならびに/または本明細書で説明されている特徴において使用されるその他の命令およびデータを記憶することができる。メモリ1504および任意のその他のタイプのストレージ(磁気ディスク、光ディスク、磁気テープまたはその他の有形媒体)が、「ストレージ」または「ストレージデバイス」として考えられることができる。
【0166】
I/Oインターフェース1506は、サーバデバイス1500をその他のシステムおよびデバイスとインターフェースさせることを可能にするための機能を提供することができる。インターフェースされたデバイスは、デバイス1500の一部として含まれることができるかまたは別個でありかつデバイス1500と通信することができる。例えば、ネットワーク通信デバイス、ストレージデバイス(例えば、メモリ1504および/またはデータベース106)、および入力/出力デバイスは、I/Oインターフェース1506を介して通信することができる。幾つかの実施において、I/Oインターフェースは、入力デバイス(キーボード、ポインティングデバイス、タッチスクリーン、マイクロフォン、カメラ、スキャナ、センサ等)および/または出力デバイス(ディスプレイデバイス、スピーカデバイス、プリンタ、モータ等)などのインターフェースデバイスに接続されることができる。
【0167】
I/Oインターフェース1506に接続されることができるインターフェースされたデバイスの幾つかの例は、1つまたは複数のディスプレイデバイス1520および1つまたは複数のデータストア1538(上記で説明されている)を含むことができる。コンテンツを表示するために使用することができるディスプレイデバイス1520、例えば、本明細書で説明されているような出力アプリケーションのユーザインターフェース。ディスプレイデバイス1520は、ローカル接続(例えば、ディスプレイバス)を介しておよび/またはネットワーク接続を介してデバイス1500に接続されることができ、任意の適切なディスプレイデバイスであることができる。ディスプレイデバイス1520は、LCD、LED、もしくはプラズマディスプレイスクリーン、CRT、テレビ、モニタ、タッチスクリーン、3Dディスプレイスクリーン、またはその他の視覚的ディスプレイデバイスなどの任意の適切なディスプレイデバイスを含むことができる。例えば、ディスプレイデバイス1520は、モバイルデバイスに設けられたフラットディスプレイスクリーン、ゴーグルもしくはヘッドセットデバイスに設けられた多数のディスプレイスクリーン、プロジェクタ、またはコンピュータデバイスのためのモニタスクリーンであることができる。
【0168】
I/Oインターフェース1506は、その他の入力および出力デバイスにインターフェースすることができる。幾つかの例は、ディスプレイデバイス、プリンタデバイス、スキャナデバイス等を含む。幾つかの実施は、音、音声コマンド等をキャプチャするためのマイクロフォン、音を出力するためのオーディオスピーカデバイス、またはその他の入力および出力デバイスを提供することができる。
【0169】
説明を容易にするために、
図15は、プロセッサ1502、メモリ1504、I/Oインターフェース1506、ならびにソフトウェアブロック1508、1512および1530の各々のための1つのブロックを示す。これらのブロックは、1つまたは複数のプロセッサまたは処理回路、オペレーティングシステム、メモリ、I/Oインターフェース、アプリケーション、および/またはソフトウェアモジュールを表してよい。その他の実施において、デバイス1500は、示された構成要素の全てを有さなくてよいおよび/または本明細書に示されたものの代わりにまたはそれらに加えてその他のタイプの要素を含むその他の要素を有してよい。幾つかの構成要素は、本明細書における幾つかの実施において説明されているようにブロックおよびオペレーションを実行するように説明されているが、環境100、デバイス1500、類似のシステム、またはこのようなシステムに関連した1つもしくは複数のあらゆる適切なプロセッサの、任意の適切な構成要素または構成要素の組合せが、説明されたブロックおよびオペレーションを実行してよい。
【0170】
説明は、特定の実施に関して説明されているが、これらの特定の実施は単に例示的であり、限定的ではない。例において示された概念は、その他の例および実施に適用されてよい。
【0171】
上記の説明に加え、ユーザは、本明細書で説明されているシステム、プログラム、または特徴がユーザ情報(例えば、ユーザの社会的ネットワーム、社会的行動もしくは活動、職業、ユーザ選択、またはユーザのまたはユーザデバイスの現在位置)の収集を可能にし得るかどうか、およびいつ可能にするか、ならびにユーザがサーバからコンテンツまたは通信を送信されるかどうかに関する選択をユーザが行うことを可能にする制御が提供されてよい。加えて、あるデータは、個人的に識別可能な情報が除去されるように、記憶または使用される前に1つまたは複数の方法で処理されてよい。例えば、ユーザのアイデンティティは、個人的に識別可能な情報がユーザのために決定されることができないように処理されてよい、またはユーザの地理的位置は、位置情報が取得されるところで一般化(都市、郵便番号または州レベルなどに)されてよく、これにより、ユーザの特定の位置を決定することはできない。したがって、ユーザは、ユーザについてどの情報が収集されるか、その情報がどのように使用されるか、およびどの情報がユーザに提供されるかについてコントロールを有してよい。
【0172】
本開示において説明されている機能ブロック、オペレーション、特徴、方法、デバイス、およびシステムは、当業者に知られるようにシステム、デバイス、および機能ブロックの異なる組合せに統合または分割されてよいことに留意されたい。任意の適切なプログラミング言語およびプログラミング技術が、特定の実施のルーチンを実施するために使用されてよい。手続き型またはオブジェクト指向などの異なるプログラミング技術が採用されてよい。ルーチンは、単一の処理デバイスまたは多数のプロセッサ上で実行されてよい。ステップ、オペレーション、または計算は、特定の順序で表される場合があるが、順序は、異なる特定の実施において変更されてよい。幾つかの実施において、本明細書において順次のものとして示された複数のステップまたはオペレーションは、同時に実行されてもよい。
【手続補正書】
【提出日】2024-04-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータが実行する方法であって、
通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話においてオーディオデータを受信することを含み、前記オーディオデータは、前記通話において前記ターゲットエンティティによって提供される通話メニューを通じて移動するために前記通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含み、
前記方法は、
前記オーディオデータにおいて前記発話を表すテキストを決定するために前記オーディオデータをプログラムで分析することと、
前記テキストまたは前記オーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて前記1つまたは複数の選択オプションを決定することと、
前記テキストの少なくとも一部を前記通話中に前記通話デバイスによって表示させることをさらに含み、前記テキストの前記一部は、前記1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションとして表示され、前記1つまたは複数の視覚的オプションは各々、前記通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である、コンピュータが実行する方法。
【請求項2】
前記1つまたは複数の視覚的オプションのうちの特定の視覚的オプションの選択を受信することに応答して、前記選択の指示を、前記ターゲットエンティティに関連した前記デバイスへ送信させることをさらに含み、前記指示は、
前記特定の視覚的オプションに関連したキーパッドのキーを押すことに対応する信号、または
前記特定の視覚的オプションに関連した指示子を含む、前記通話において前記通話デバイスによって提供される発話
のうちの1つである、請求項1に記載のコンピュータが実行する方法。
【請求項3】
前記1つまたは複数の視覚的オプションはそれぞれ、前記通話デバイスのタッチスクリーン上のタッチ入力を介して選択可能である、請求項1に記載のコンピュータが実行する方法。
【請求項4】
前記オーディオデータは、第1のオーディオデータであり、前記1つまたは複数の視覚的オプションのうちの特定の視覚的オプションの選択を受信することに応答して、前記方法は、
前記通話において第2のオーディオデータを受信することをさらに含み、前記第2のオーディオデータは、前記通話デバイスの前記ユーザのための1つまたは複数の第2の選択オプションを示す第2の発話を含み、
前記方法は、
前記第2のオーディオデータにおける前記第2の発話を表す第2のテキストを決定するために、前記第2のオーディオデータをプログラムで分析することと、
前記第2のテキストまたは前記第2のオーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて前記1つまたは複数の第2の選択オプションを決定することと、
前記第2のテキストの少なくとも一部を前記通話デバイスによって表示させることと、をさらに含み、前記第2のテキストの前記少なくとも一部は、前記1つまたは複数の第2の選択オプションに対応する1つまたは複数の第2の視覚的オプションとして表示され、前記1つまたは複数の第2の視覚的オプションは各々、前記通話メニューを通じた対応する移動を生じさせるために第2のユーザ入力を介して選択可能である、請求項1に記載のコンピュータが実行する方法。
【請求項5】
前記1つまたは複数の選択オプションは、複数の選択オプションであり、前記通話メニューにおける前記複数の選択オプションの階層構造を決定するために前記テキストまたは前記オーディオデータのうちの少なくとも一方をプログラムで分析することをさらに含む、請求項1に記載のコンピュータが実行する方法。
【請求項6】
前記オーディオデータを受信する前に、
前記1つまたは複数の選択オプションを含む選択オプションデータを取得することと、
前記通話デバイスが、前記1つまたは複数の選択オプションを示す前記発話を含む前記オーディオデータを受信する前に、前記1つまたは複数の選択オプションに対応する前記1つまたは複数の視覚的オプションを前記通話デバイスによって表示させることと、
をさらに含む、請求項1に記載のコンピュータが実行する方法。
【請求項7】
前記選択オプションデータにおける前記1つまたは複数の選択オプションは、前の通話中に受信されたオーディオデータをプログラムで分析することによって決定される、請求項6に記載のコンピュータが実行する方法。
【請求項8】
前記取得された選択オプションデータは、前記通話の開始前に前記通話デバイスにキャッシュされ、前記取得された選択オプションデータは、前記通話デバイスの地理的エリアにおける発呼側によって前に通話されたエンティティ識別子に関連しており、前記エンティティ識別子は、少なくともしきい値回数だけ前に通話されている、または前記取得された選択オプションデータに関連していない他のエンティティ識別子よりも多い回数だけ前に通話されている、請求項7に記載のコンピュータが実行する方法。
【請求項9】
前記通話中に視覚的インジケータを表示させることをさらに含み、前記視覚的インジケータは、前記通話中に表示される前記1つまたは複数の視覚的オプションの前記テキストの特定の部分を強調し、前記テキストの前記特定の部分は、前記オーディオデータにおける前記発話において前記通話中に現在受信されている、請求項6に記載のコンピュータが実行する方法。
【請求項10】
前記選択オプションデータを、前記オーディオデータから決定された前記1つまたは複数の選択オプションと比較することと、
前記選択オプションデータと、前記オーディオデータから決定された前記1つまたは複数の選択オプションとの間に不一致が存在するかどうかを決定することと、
をさらに含む、請求項6に記載のコンピュータが実行する方法。
【請求項11】
前記選択オプションデータと、前記オーディオデータから決定された前記1つまたは複数の選択オプションとの間の不一致を決定することに応答して、前記通話デバイスによって前記不一致の通知を生じさせることをさらに含む、請求項10に記載のコンピュータが実行する方法。
【請求項12】
前記選択オプションデータと、前記オーディオデータから決定された前記1つまたは複数の選択オプションとの間の不一致を決定することに応答して、前記オーディオデータから決定された前記1つまたは複数の選択オプションと一致するように前記選択オプションデータを修正することをさらに含む、請求項10に記載のコンピュータが実行する方法。
【請求項13】
前記選択オプションデータを前記1つまたは複数の選択オプションと比較することは、
前記選択オプションデータのテキストを前記1つまたは複数の選択オプションの前記テキストと比較すること、または
前記選択オプションデータのオーディオデータを、前記通話中に受信された前記オーディオデータと比較すること
のうちの1つを含む、請求項10に記載のコンピュータが実行する方法。
【請求項14】
前記通話デバイスのストレージまたは通信ネットワーク上で前記通話デバイスと通信するリモートデバイスのストレージのうちの少なくとも一方に前記1つまたは複数の選択オプションを記憶させることと、
前記通話デバイスと前記ターゲットエンティティとの間の次の通話のために前記1つまたは複数の選択オプションを検索することと
をさらに含む、請求項1に記載のコンピュータが実行する方法。
【請求項15】
通話のための選択オプションを表示するための通話デバイスであって、前記通話デバイスは、
命令が記憶されたメモリと、
ディスプレイデバイスと、
前記メモリに結合された少なくとも1つのプロセッサと、を含み、前記少なくとも1つのプロセッサは、
前記通話デバイスと、ターゲットエンティティに関連したデバイスとの間の通話においてオーディオデータを受信することを含み、前記オーディオデータは、前記通話において前記ターゲットエンティティによって提供される通話メニューを通じて移動するために前記通話デバイスのユーザのための1つまたは複数の選択オプションを示す発話を含み、
前記オーディオデータにおける前記発話を表すテキストを決定するために前記オーディオデータをプログラムで分析することと、
前記テキストまたは前記オーディオデータのうちの少なくとも一方をプログラムで分析することに基づいて前記1つまたは複数の選択オプションを決定することと、
前記テキストの少なくとも一部を前記通話中に前記ディスプレイデバイスによって表示させることと、を含み、前記テキストの前記一部は、前記1つまたは複数の選択オプションに対応する1つまたは複数の視覚的オプションとして表示され、前記1つまたは複数の視覚的オプションは各々、前記通話メニューを通じた対応する移動を生じさせるためにユーザ入力を介して選択可能である、
オペレーションを実行するために前記メモリから前記命令にアクセスするように構成されている、通話のための選択オプションを表示するための通話デバイス。
【請求項16】
前記少なくとも1つのプロセッサは、前記1つまたは複数の視覚的オプションの特定の視覚的オプションの選択を受信することに応答して、前記選択の指示を前記ターゲットエンティティに関連した前記デバイスへ送信させることを含むさらなるオペレーションを実行し、前記指示は、
前記特定の視覚的オプションに関連したキーパッドのキーを押すことに対応する信号、または
前記特定の視覚的オプションに関連した指示子を含む、前記通話において前記通話デバイスによって提供される発話
のうちの一方である、請求項15に記載の通話デバイス。
【請求項17】
前記少なくとも1つのプロセッサは、前記オーディオデータを受信する前に、
前記1つまたは複数の選択オプションおよび前記通話メニューにおける前記1つまたは複数の選択オプションの階層構造を含む選択オプションデータを取得することと、
前記通話デバイスが、前記1つまたは複数の選択オプションを示す前記発話を含む前記オーディオデータを受信する前に、前記1つまたは複数の選択オプションに対応する前記1つまたは複数の視覚的オプションを前記ディスプレイデバイスによって表示させることと、
を含むさらなるオペレーションを実行する、請求項15に記載の通話デバイス。
【請求項18】
前記少なくとも1つのプロセッサは、
視覚的インジケータを前記通話中に表示させることをさらに含み、前記視覚的インジケータは、前記通話中に表示される前記1つまたは複数の視覚的オプションの前記テキストの特定の部分を強調し、前記テキストの前記特定の部分は、前記オーディオデータにおける前記発話において前記通話中に現在発話されている、
さらなるオペレーションを実行する、請求項17に記載の通話デバイス。
【請求項19】
前記少なくとも1つのプロセッサは、
前記選択オプションデータを前記オーディオデータから決定された前記1つまたは複数の選択オプションと比較することと、
前記選択オプションデータと、前記オーディオデータから決定された前記1つまたは複数の選択オプションとの間に不一致が存在するかどうかを決定することと
を含むさらなるオペレーションを実行する、請求項17に記載の通話デバイス。
【請求項20】
プロセッサによって実行されると
、前記プロセッサに
請求項1~14のいずれか1項に記載の方法を実行させる命令
を含む、プログラム。
【国際調査報告】