(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-08
(45)【発行日】2024-03-18
(54)【発明の名称】データ処理システム
(51)【国際特許分類】
G10L 15/22 20060101AFI20240311BHJP
G10L 15/30 20130101ALI20240311BHJP
G10L 15/10 20060101ALI20240311BHJP
【FI】
G10L15/22 453
G10L15/30
G10L15/10 200W
(21)【出願番号】P 2020039299
(22)【出願日】2020-03-06
【審査請求日】2022-12-22
(73)【特許権者】
【識別番号】000101732
【氏名又は名称】アルパイン株式会社
(74)【代理人】
【識別番号】100099748
【氏名又は名称】佐藤 克志
(74)【代理人】
【識別番号】100103171
【氏名又は名称】雨貝 正彦
(74)【代理人】
【識別番号】100105784
【氏名又は名称】橘 和之
(74)【代理人】
【識別番号】100098497
【氏名又は名称】片寄 恭三
(72)【発明者】
【氏名】工藤 信範
【審査官】中村 天真
(56)【参考文献】
【文献】特開2017-107078(JP,A)
【文献】特表2016-531375(JP,A)
【文献】特開2014-191030(JP,A)
【文献】特開2015-135419(JP,A)
【文献】特開2015-011170(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
音声アシスタントサーバに通信を介して接続可能なデータ処理システムであって、
前記音声アシスタントサーバは、前記データ処理システムから受信した音声が表す発話内容を音声認識し、当該データ処理システムに、音声認識した発話内容が表す要求に応える動作を実行させる応答を行い、
当該データ処理システムは、
マイクと、
マイクから入力する音声の音声認識を行う音声認識手段と、
所定の契機で、前記音声アシスタントサーバの利用を開始し、前記マイクから入力する音声を前記音声アシスタントサーバに送信し、前記音声アシスタントサーバから受信した応答に応じた動作を当該データ処理システムに行わせる音声アシスタントクライアントと、
前記所定の契機で、前記音声認識手段に、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信する音声に対する、所定のワードのセットである予測用ワードセットに含まれる各ワードの音声認識を開始させ、前記音声認識手段が前記予測用ワードセットに含まれるワードを音声認識したときに、当該音声認識されたワードに予め対応づけられている動作を当該データ処理システムに実行させる予測処理実行手段とを有
し、
前記予測用ワードセットに含まれるワードは、各々、複数の要求の種類の内の特定の種類に対応しており、
前記音声認識された前記予測用ワードセットに含まれるワードに予め対応づけられている動作は、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信した音声の発話内容が、当該音声認識されたワードに対応する種類の要求を表すものであった場合に、当該データ処理システムが行うこととなる処理の前工程の部分の動作、もしくは、当該処理の準備を行う動作であり、
前記予測処理実行手段は、前記音声認識された前記予測用ワードセットに含まれるワードに予め対応づけられている動作を当該データ処理システムに実行させた後に、前記音声アシスタントサーバから受信した応答が、当該音声認識されたワードに対応する種類の要求に対する応答でなかった場合に、当該データ処理システムの状態を、前記動作を実行させる前の状態に復帰することを特徴とするデータ処理システム。
【請求項2】
請求項1記載のデータ処理システムであって、
前記所定の契機は、前記音声認識手段による予め定められた特定のワードであるウェイクワードの音声認識の発生であることを特徴とするデータ処理システム。
【請求項3】
音声アシスタントサーバに通信を介して接続可能なデータ処理システムであって、
前記音声アシスタントサーバは、前記データ処理システムから受信した音声が表す発話内容を音声認識し、当該データ処理システムに、音声認識した発話内容が表す要求に応える動作を実行させる応答を行い、
当該データ処理システムは、
マイクと、
マイクから入力する音声の音声認識を行う音声認識手段と、
所定の契機で、前記音声アシスタントサーバの利用を開始し、前記マイクから入力する音声を前記音声アシスタントサーバに送信し、前記音声アシスタントサーバから受信した応答に応じた動作を当該データ処理システムに行わせる音声アシスタントクライアントと、
前記所定の契機で、前記音声認識手段に、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信する音声に対する、所定のワードのセットである予測用ワードセットに含まれる各ワードの音声認識を開始させ、前記音声認識手段が前記予測用ワードセットに含まれるワードを音声認識したときに、当該音声認識されたワードに予め対応づけられている動作を当該データ処理システムに実行させる予測処理実行手段とを有し、
前記所定の契機は、前記音声認識手段による予め定められた特定のワードであるウェイクワードの音声認識の発生であり、
音声認識手段は、コマンド入力用のワードのセットであるコマンド用ワードセットが現用ワードセットとして設定されているときには、前記コマンド用ワードセットに含まれるワードと前記ウェイクワードの音声認識を行い、前記予測用ワードセットが現用ワードセットとして設定されているときには、前記予測用ワードセットに含まれるワードの音声認識を行い、
前記予測処理実行手段は、前記音声認識手段が前記ウェイクワードを音声認識したときに、前記現用ワードセットを、前記予測用ワードセットに切り替え、
当該データ処理システムは、前記音声認識手段が、前記コマンド用ワードセットに含まれるワードを音声認識したときに、当該音声認識したワードが表すコマンドを受け付けて、当該コマンドに対応する動作を当該データ処理システムに行わせる音声入力コマンド受付手段を有することを特徴とするデータ処理システム。
【請求項4】
音声アシスタントサーバに通信を介して接続可能なデータ処理システムであって、
前記音声アシスタントサーバは、前記データ処理システムから受信した音声が表す発話内容を音声認識し、当該データ処理システムに、音声認識した発話内容が表す要求に応える動作を実行させる応答を行い、
当該データ処理システムは、
マイクと、
マイクから入力する音声の音声認識を行う音声認識手段と、
所定の契機で、前記音声アシスタントサーバの利用を開始し、前記マイクから入力する音声を前記音声アシスタントサーバに送信し、前記音声アシスタントサーバから受信した応答に応じた動作を当該データ処理システムに行わせる音声アシスタントクライアントと、
前記所定の契機で、前記音声認識手段に、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信する音声に対する、所定のワードのセットである予測用ワードセットに含まれる各ワードの音声認識を開始させ、前記音声認識手段が前記予測用ワードセットに含まれるワードを音声認識したときに、当該音声認識されたワードに予め対応づけられている動作を当該データ処理システムに実行させる予測処理実行手段とを有し、
前記予測用ワードセットは、少なくともワード「行きたい」を含み、
ワード「行きたい」に予め対応づけられている動作は、地図の表示動作を含むことを特徴とするデータ処理システム。
【請求項5】
音声アシスタントサーバに通信を介して接続可能なデータ処理システムであって、
前記音声アシスタントサーバは、前記データ処理システムから受信した音声が表す発話内容を音声認識し、当該データ処理システムに、音声認識した発話内容が表す要求に応える動作を実行させる応答を行い、
当該データ処理システムは、
マイクと、
マイクから入力する音声の音声認識を行う音声認識手段と、
所定の契機で、前記音声アシスタントサーバの利用を開始し、前記マイクから入力する音声を前記音声アシスタントサーバに送信し、前記音声アシスタントサーバから受信した応答に応じた動作を当該データ処理システムに行わせる音声アシスタントクライアントと、
前記所定の契機で、前記音声認識手段に、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信する音声に対する、所定のワードのセットである予測用ワードセットに含まれる各ワードの音声認識を開始させ、前記音声認識手段が前記予測用ワードセットに含まれるワードを音声認識したときに、当該音声認識されたワードに予め対応づけられている動作を当該データ処理システムに実行させる予測処理実行手段とを有し、
前記予測用ワードセットは、少なくともワード「テレビ」を含み、
ワード「テレビ」に予め対応づけられている動作は、テレビ番組表の表示動作を含むことを特徴とするデータ処理システム。
【請求項6】
請求項1、2または3記載のデータ処理システムであって、
前記予測用ワードセットは、少なくともワード「行きたい」を含み、
ワード「行きたい」に予め対応づけられている動作は、地図の表示動作を含むことを特徴とするデータ処理システム。
【請求項7】
請求項1、2、3または6記載のデータ処理システムであって、
前記予測用ワードセットは、少なくともワード「テレビ」を含み、
ワード「テレビ」に予め対応づけられている動作は、テレビ番組表の表示動作を含むことを特徴とするデータ処理システム。
【請求項8】
請求項1、2、3、4、5、6または7記載のデータ処理システムであって、
当該データ処理システムは、自動車に搭載されるシステムであることを特徴とするデータ処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの発話音声を音声認識し発話内容に応じたサービスを提供する音声アシスタントに関するものである。
【背景技術】
【0002】
ユーザの発話音声を認識し発話内容に応じたサービスを提供する音声アシスタントの技術としては、端末に搭載された音声アシスタントクライアントが、通信を介して音声アシスタントサーバにアクセスして端末のユーザの発話音声を音声アシスタントサーバに送信し、音声アシスタントサーバにおいて受信した発話音声を音声認識し、音声認識した発話内容が表すユーザの要求事項を解析し、要求事項に応じたサービスを、音声アシスタントクライアントを介して端末のユーザに提供する技術が知られている(たとえば、特許文献1)。なお、発話内容に応じたサービスとしては、情報の提供や端末の動作の制御などが行われる
ここで、この技術では、端末において、ウェイクワードやホットワードと呼ばれる特定のワードの音声入力の発生を監視し、当該特定のワードの音声入力が発生したときに、音声アシスタントサーバへのアクセスを開始する。
【0003】
また、ユーザが使用する装置であるユーザ装置において、入力された音声が表すコマンドを音声認識し、認識したコマンドに対応づけられた動作を実行する技術も知られている(たとえば、特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2020-9463号公報
【文献】国際公開第2009/019768号
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述した音声アシスタントの技術では、通信の所要時間や、音声アシスタントサーバにおける発話内容の解析処理の所要時間の長大化などのために、ユーザの発話に対する応答に比較的大きな遅延が生じることがある。
【0006】
そして、このために、ユーザがストレスを感じたり、音声アシスタントの利用を敬遠したりしてしまうことがある。
そこで、本発明は、音声アシスタンの応答の遅延に対するユーザのストレスを軽減することを課題とする。
また、併せて、本発明は、ユーザが、音声アシスタントを利用して行う作業をより速やかに行えるように支援することを課題とする。
【課題を解決するための手段】
【0007】
前記課題達成のために、本発明は、音声アシスタントサーバに通信を介して接続可能なデータ処理システムを提供する。ここで、前記音声アシスタントサーバは、前記データ処理システムから受信した音声が表す発話内容を音声認識し、当該データ処理システムに、音声認識した発話内容が表す要求に応える動作を実行させる応答を行うサーバである。そして、データ処理システムは、マイクと、マイクから入力する音声の音声認識を行う音声認識手段と、所定の契機で、前記音声アシスタントサーバの利用を開始し、前記マイクから入力する音声を前記音声アシスタントサーバに送信し、前記音声アシスタントサーバから受信した応答に応じた動作を当該データ処理システムに行わせる音声アシスタントクライアントと、前記所定の契機で、前記音声認識手段に、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信する音声に対する、所定のワードのセットである予測用ワードセットに含まれる各ワードの音声認識を開始させ、前記音声認識手段が前記予測用ワードセットに含まれるワードを音声認識したときに、当該音声認識されたワードに予め対応づけられている動作を当該データ処理システムに実行させる予測処理実行手段とを備えている。
【0008】
ここで、このようなデータ処理システムにおいて、前記所定の契機は、前記音声認識手段による予め定められた特定のワードであるウェイクワードの音声認識の発生としてよい。
また、このようなデータ処理システムでは、前記予測用ワードセットに含まれるワードを、各々、特定の種類の要求を表す発話内容に含まれている蓋然性の高いワードとし、前記音声認識された前記予測用ワードセットに含まれるワードに予め対応づけられている動作を、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信した音声の発話内容が、当該音声認識されたワードが含まれている蓋然の高い種類の要求を表すものであった場合に、当該データ処理システムが行うこととなる処理の前工程の部分の動作、もしくは、当該処理の準備を行う動作としてよい。
【0009】
また、この場合には、データ処理システムは、前記予測処理実行手段において、前記音声認識された前記予測用ワードセットに含まれるワードに予め対応づけられている動作を当該データ処理システムに実行させた後に、前記音声アシスタントサーバから受信した応答が、当該音声認識されたワードが含まれている蓋然の高い種類の要求に対する応答でなかった場合に、当該データ処理システムの状態を、前記動作を実行させる前の状態に復帰するように構成してもよい。
【0010】
また、以上のデータ処理システムは、前記所定の契機を、前記音声認識手段による予め定められた特定のワードであるウェイクワードの音声認識の発生とした場合には、音声認識手段において、コマンド入力用のワードのセットであるコマンド用ワードセットが現用ワードセットとして設定されているときには、前記コマンド用ワードセットに含まれるワードと前記ウェイクワードの音声認識を行い、前記予測用ワードセットが現用ワードセットとして設定されているときには、前記予測用ワードセットに含まれるワードの音声認識を行い、前記予測処理実行手段において、前記音声認識手段が前記ウェイクワードを音声認識したときに、前記現用ワードセットを、前記予測用ワードセットに切り替えるように構成してもよい。また、この場合には、当該データ処理システムは、前記音声認識手段が、前記コマンド用ワードセットに含まれるワードを音声認識したときに、当該音声認識したワードが表すコマンドを受け付けて、当該コマンドに対応する動作を当該データ処理装置に行わせる音声入力コマンド受付手段を備える。
【0011】
また、以上のデータ処理システムにおいて、前記予測用ワードセットに、少なくともワード「行きたい」を含め、ワード「行きたい」に予め対応づけられている動作は、地図の表示動作を含むものとしてもよい。
【0012】
また、以上のデータ処理システムにおいて、前記予測用ワードセットに、少なくともワード「テレビ」を含め、ワード「テレビ」に予め対応づけられている動作を、テレビ番組表の表示動作を含むものとしてもよい。
【0013】
また、以上のデータ処理システムは、自動車に搭載されるシステムであってよい。
以上のようなデータ処理システムによれば、音声アシスタントサーバを利用する場合に、送信した音声に対する応答が音声アシスタントサーバから返ってくる前に、送信した音声から音声認識したワードに応じた動作を実行することができる。ここで、送信した音声に含まれるワードからは、音声アシスタントサーバに対するユーザの要求の種類を予測することができる。したがって、音声認識したワードに応じて実行する動作を、送信した音声が当該ワードから予測される種類の要求を表すものであった場合に、当該データ処理システムが行うこととなる処理の前工程の部分の動作、もしくは、当該処理の準備を行う動作として、ユーザが、音声アシスタントサーバを利用して行う作業をより速やかに行えるようにすることができる。
【0014】
また、ユーザの発話音声に対する応答が音声アシスタントサーバから返ってくる前に、ユーザの発話に応答して、予測処理実行手段が行わせる動作によるレスポンスが得られるので、当該発話から音声アシスタントサーバの応答までに比較的大きな遅延が発生した場合にも、当該遅延に対してユーザが感じるストレスを軽減することができる。
【発明の効果】
【0015】
以上のように、本発明によれば、音声アシスタントの応答の遅延に対するユーザのストレスを軽減することができる。
また、本発明によれば、ユーザが、音声アシスタントを利用して行う作業をより速やかに行えるように支援できる。
【図面の簡単な説明】
【0016】
【
図1】本発明の実施形態に係る車載システムの構成を示すブロック図である。
【
図2】本発明の実施形態に係る予測アクション実行処理を示すフローチャートである。
【
図3】本発明の実施形態に係るアクション予測用辞書とアクションテーブルを示す図である。
【
図4】本発明の実施形態に係る予測アクション実行処理の処理例を示す図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について説明する。
図1に本実施形態に係る車載システムの構成を示す。
車載システム1は自動車に搭載されるシステムであり、図示するように、データ処理装置11、マイク12、記憶装置13、表示装置14、入力装置15、スピーカ16、その他の周辺装置17を備えている。
【0018】
また、データ処理装置11は、モバイル端末2を接続可能な通信インタフェース111、オペレーティングシステム112、オペレーティングシステム112上で稼働するアプリケーションを備えている
また、オペレーティングシステム112上で稼働するアプリケーションとしては、ナビゲーションAPP1131、WebブラウザAPP1132、メディアプレイヤAPP1133、HFT_APP1134、音声アシスタントクライアントAPP1135や、その他のアプリケーション1136を備えている。
【0019】
次に、オペレーティングシステム112は、マイク12から入力する音声の音声認識を行う音声認識エンジン1121、音声認識辞書1122、ウェイクワード認識辞書1123、音声入力制御部1124を備えている。
【0020】
音声認識辞書1122は複数用意されており、個々の音声認識辞書1122は相互に異なるワードのセットに対応して設けられている。そして、各音声認識辞書1122は、対応するセット内の各ワードの音声認識用の情報が登録されている。また、ウェイクワード認識辞書1123には、予め設定された特定のワードであるウェイクワードの音声認識用の情報が登録されている。
【0021】
音声入力制御部1124は、状況に応じて、複数の音声認識辞書1122のうちの一つの音声認識辞書1122を現用音声認識辞書に設定する。
音声認識エンジン1121は、現用音声認識辞書を用いて、マイク12から入力する音声から、現用音声認識辞書に対応するセット内の各ワードの音声認識を行うと共に、ウェイクワード認識辞書1123を用いて、マイク12から入力する音声から、ウェイクワードの音声認識を行う。
【0022】
また、各アプリケーションは、音声入力制御部1124を介して、音声認識辞書1122を生成して現用音声認識辞書に設定することができる。
次に、ナビゲーションAPP1131は、周辺装置17として備えたGNSS受信機や記憶装置13に記憶された地図データを用いた現在位置の算出や、ユーザから設定された目的地までの経路の設定や、現在位置や経路を表した地図の表示装置14への表示などを行う。
【0023】
また、WebブラウザAPP1132は、Webブラウザとして、通信インタフェース111を介してモバイル端末2の通信機能を利用してインターネット上のWebサイトにアクセスし、Webコンテンツの表示装置14やスピーカ16への出力などを行う。
【0024】
また、メディアプレイヤAPP1133は、記憶装置13に記憶された楽曲やビデオの再生の制御や、表示装置14やスピーカ16への出力を行う。また、メディアプレイヤAPP1133は、周辺装置17として備えたTVチューナの受信動作の制御や、TVチューナで受信した番組の表示装置14やスピーカ16への出力などを行う。
【0025】
HFT_APP1134は、通信インタフェース111を介してモバイル端末2の移動電話機能を利用し、マイク12とスピーカ16を通話音声の入出力に用いて通話を行うハンズフリー通話を実現する。
【0026】
音声アシスタントクライアントAPP1135は、音声アシスタントの利用を開始したならば、通信インタフェース111を介してモバイル端末2の通信機能を利用して、音声アシスタントサーバ3にアクセスし、音声入力制御部1124から入力する音声を、音声アシスタントサーバ3に送信する。
【0027】
音声アシスタントサーバ3は、受信した音声を音声認識し、音声認識した発話内容が表すユーザの要求事項を解析し、要求事項に応えるサービスをデータ処理装置11に実行させる応答を、音声アシスタントクライアントAPP1135に応答する。
【0028】
そして、音声アシスタントクライアントAPP1135は、音声アシスタントサーバ3からの応答内容に従った処理を実行し、音声アシスタントの利用を終了する。この応答内容に従った処理としては、音声アシスタントサーバ3から応答された情報の表示装置14への表示や、他アプリケーションの動作の制御などがある。
【0029】
さて、このような構成において、音声入力制御部1124は、音声アシスタントを利用していないときに、音声認識エンジン1121で、現用音声認識辞書を用いたワードの認識が発生したならば、そのワードに対応するコマンドを受け付け、受け付けたコマンドに対応づけられている処理を行う。
【0030】
このようなコマンドに対応づけられている処理としては、アクティブアプリケーションの切り替えや、アプリケーションの動作の制御等がある。
また、音声入力制御部1124は、
図2に示す予測アクション実行処理を行う。
図示するように、予測アクション実行処理では、音声認識エンジン1121によるウェイクワードの音声認識の発生を監視し(ステップ202)、ウェイクワードの音声認識が発生したならば、音声アシスタントクライアントAPP1135の、音声アシスタントの利用の開始を制御する(ステップ204)。なお、音声入力制御部1124は、音声アシスタントの利用中、マイク12から入力する音声を、音声アシスタントクライアントAPP1135に出力する。
【0031】
そして、現用音声認識辞書を、予め音声認識辞書1122の一つとして用意しておいたアクション予測用辞書に切り替える(ステップ206)。
アクション予測用辞書には、
図3aに示すように「行きたい」、「食べたい」、「教えて」、「テレビ」、...などの、ユーザが、ユーザの音声アシスタントへの要求の種類の推測に汎用的に用いることができるワードのセットを音声認識するための情報が登録されている。ここで、要求の種類の推測に汎用的に用いることができるワードとしては、その種類の要求を音声アシスタントに行うときの発話に汎用的に含まれるワードを用いる。
【0032】
たとえば、音声アシスタント対するユーザの発話にワード「行きたい」が含まれていれば、ユーザの要求の種類を、ナビゲーションAPP1131を利用した、いずれかの地点までの案内であると推測でき、音声アシスタント対するユーザの発話にワード「テレビ」が含まれていれば、ユーザの要求の種類を、メディアプレイヤAPP1133を利用した、いずれかの番組の視聴であると推測できる。
【0033】
図2に戻り、現用音声認識辞書をアクション予測用辞書に切り替えたならば、音声アシスタントクライアントAPP1135の音声アシスタントの利用の終了の発生と(ステップ208)と、音声認識エンジン1121による現用音声認識辞書に設定されているアクション予測用辞書を用いたワードの音声認識の発生を監視する(ステップ210)。
【0034】
そして、音声アシスタントクライアントAPP1135の音声アシスタントの利用の終了が発生したならば(ステップ208)、ステップ206で現用音声認識辞書をアクション予測用辞書に切り替える前に現用音声認識辞書であった音声認識辞書1122に現用音声認識辞書を復帰し(ステップ222)、ステップ202からの処理に戻る。
【0035】
一方、アクション予測用辞書を用いたワードの音声認識が発生した場合には(ステップ210)、記憶装置13に予め記憶しておいたアクションテーブルに、音声認識したワードに対応づけて登録されているアクションを実行する(ステップ212)。
【0036】
ここで、
図3bに示すように、アクションテーブルには、アクション予測用辞書に音声認識用の情報が登録されている各ワードに対してアクションと予測応答を登録することができる。
【0037】
アクションとしては、そのワードから推測されるユーザの音声アシスタントへの要求の種類に応える場合にデータ処理装置11において行う処理のうち、音声アシスタントサーバ3からの応答前に行っておける処理である前処理や、要求の種類に応える場合にデータ処理装置11において行う処理の準備を行う処理の内容を登録する。
【0038】
また、予測応答としては、ユーザの発話による音声アシスタントへの要求の種類が、そのワードから推測される要求の種類であったときに、音声アシスタントサーバ3からの応答内容に含まれることが期待できる内容を登録する、
たとえば、ワード「行きたい」に対しては、推測されるユーザの要求の種類が、ナビゲーションAPP1131を利用した、いずれかの地点までの案内であるので、地点によらずに地点の案内のために前処理または準備として行うこととなる、ナビゲーションAPP1131による地図表示や、経路探索のための渋滞情報の取得などを、アクションとして登録する。
【0039】
また、ワード「行きたい」に対する予測応答としては、ユーザが発話によって行った要求の種類が、ナビゲーションAPP1131を利用した、いずれかの地点までの案内であれば、音声アシスタントサーバ3からの応答内容には、住所等の地名や施設名が含まれていることが期待できるので、地名や施設名を予測応答として登録する。
【0040】
同様に、ワード「テレビ」に対しては、推測されるユーザの要求の種類が、メディアプレイヤAPP1133を利用した、いずれかの番組の視聴であるので、番組によらずに番組の視聴のために前処理または準備として行うこととなる、メディアプレイヤAPP1133の出力ソースのTVチューナへの切り替えや番組表の表示を、アクションとして登録する。
【0041】
また、ワード「テレビ」に対する予測応答としては、ユーザが発話によって行った要求の種類が、メディアプレイヤAPP1133を利用した、いずれかの番組の視聴であれば、音声アシスタントサーバ3からの応答内容には、番組名や局名やチャンネル番号等が含まれていることが期待できるので、番組名や局名やチャンネル番号を予測応答として登録する。
【0042】
図2に戻り、ステップ212で、音声認識したワードに対応づけてアクションテーブルに登録されているアクションを、当該アクションに関わるアプリケーションを制御して実行したならば、音声アシスタントサーバ3からの応答を音声アシスタントクライアントAPP1135が受信するのを待って(ステップ214)、音声アシスタントクライアントAPP1135が受信した応答を取得する。
【0043】
そして、ステップ210で音声認識したワードに対応づけてアクションテーブルに予測応答が登録されているかどうかを調べ(ステップ216)、登録されていなければ、ステップ206で現用音声認識辞書をアクション予測用辞書に切り替える前に現用音声認識辞書であった音声認識辞書1122に現用音声認識辞書を復帰し(ステップ222)、ステップ202からの処理に戻る。
【0044】
一方、ステップ210で音声認識したワードに対応づけてアクションテーブルに予測応答が登録されている場合には(ステップ216)、音声アシスタントクライアントAPP1135が受信した応答が、当該登録されている予測応答と整合するかどうかを調べる(ステップ218)。
【0045】
ここで、ステップ218では、音声アシスタントサーバ3から音声アシスタントクライアントAPP1135が受信した応答に、予測応答として登録されている種類の情報が含まれている場合に、登録されている予測応答と整合すると判定する。たとえば、予測応答として地名や施設名が登録されている場合には、応答に、具体的な地名や施設名が含まれていれば、予測応答と整合すると判定し、予測応答として番組名や局名やチャンネル番号が登録されている場合には、応答に、具体的な番組名や局名やチャンネル番号が含まれていれば、予測応答と整合すると判定する。
【0046】
ただし、音声アシスタントサーバ3において、応答に含まれている情報の種別を表すコードを応答中に含めるようにし、ステップ218では、当該コードに基づいて応答に、予測応答として登録されている種類の情報が含まれているかどうかを判定するようにしてもよい。
【0047】
そして、整合していない場合には、データ処理装置11の状態を、ステップ212でアクションを実行する状態の前の状態に復帰した上で(ステップ220)、ステップ206で現用音声認識辞書をアクション予測用辞書に切り替える前に現用音声認識辞書であった音声認識辞書1122に現用音声認識辞書を復帰し(ステップ222)、ステップ202からの処理に戻る。
【0048】
一方、音声アシスタントクライアントAPP1135が受信した応答が、当該登録されている予測応答と整合する場合には、ステップ206で現用音声認識辞書をアクション予測用辞書に切り替える前に現用音声認識辞書であった音声認識辞書1122に現用音声認識辞書を復帰し(ステップ222)、ステップ202からの処理に戻る。
【0049】
以上、音声入力制御部1124が行う予測アクション実行処理について説明した。
図4に、このような予測アクション実行処理の処理例を示す。
図示するように、ユーザがウェイクワードを発話すると(S401)、データ処理装置11において、ウェイクワードが音声認識され(S402)、音声入力制御部1124の制御によって、音声アシスタントクライアントAPP1135の音声アシスタントの利用が開始される(S403)と共に、現用音声認識辞書がアクション予測用辞書に切り替えられる(S404)。
【0050】
音声アシスタントの利用を開始した、音声アシスタントクライアントAPP1135は、音声アシスタントサーバ3にアクセスしてコネクションを確立し(S405)、以降、入力する音声を音声アシスタントサーバ3に送信する。
【0051】
すなわち、ユーザが、「テレビでニュースやってる」と発話すると(S406)、この音声が、音声アシスタントクライアントAPP1135から、音声アシスタントサーバ3に送られる(S407)。
【0052】
一方、この発話に対して、アクション予測用辞書を用いて音声認識エンジン1121で「テレビ」が認識され(S408)、音声入力制御部1124の制御によって、「テレビ」に対してアクションテーブルに登録されているアクションである、メディアプレイヤAPP1133による出力ソースのTVチューナへの切り替えや番組表の表示が行われる(S409)。
【0053】
そして、音声アシスタントサーバ3において、「テレビでニュースやってる」との発話内容が解析され、その応答として、「MHKで"xxニュース"を放送しています」とのメッセージが生成され、音声アシスタントクライアントAPP1135に送られ(S410)、その後、音声アシスタントクライアントAPP1135と音声アシスタントサーバ3のコネクションが切断される(S411)。
【0054】
一方、音声アシスタントサーバ3から応答を受け取った音声アシスタントクライアントAPP1135は、応答として受け付けた「MHKで"xxニュース"を放送しています」とのメッセージを表示装置14に表示する処理(S412)など、応答内容に応じた処理を行い、音声アシスタントの利用を終了する。
【0055】
ここで、応答内容に応じた処理として、応答として受け付けた「MHKで"xxニュース"を放送しています」とのメッセージを表示する処理を行う場合、このメッセージが表示される以前に、メディアプレイヤAPP1133による出力ソースのTVチューナへの切り替えが完了しており、表示装置14には番組表が表示されているので、ユーザは番組表から、メッセージで示された番組MHKの"xxニュース"を選択し、当該番組をすみやかに視聴することができるようになる。なお、本実施形態において、メディアプレイヤAPP1133は、番組表上での番組の選択に応答して、TVチューナの受信チャネルを、その番組が放送されているチャネルに切り替えて、当該チャネルで受信した番組を表示装置14やスピーカ16へ出力する。
【0056】
また、このメッセージが表示される以前に、ユーザの音声アシスタントに対する発話に応答して、表示装置14の表示が番組の表示に切り替わるレスポンスが得られるので、当該発話から音声アシスタントサーバ3の応答までに比較的大きな遅延が発生した場合でも、当該遅延に対してユーザが感じるストレスを軽減することができる。
【0057】
以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、音声アシスタントサーバ3の応答の遅延に対するユーザのストレスを軽減することができると共に、ユーザが、音声アシスタントサーバ3を利用して行う作業をより速やかに行えるように支援することができる。
【0058】
なお、本実施形態は、自動車に搭載される車載システム1以外の、音声アシスタントを利用する任意のシステムに同様に適用することができる。
また、以上の実施形態では、音声認識エンジン1121においてウェイクワードの音声認識を行ったが、マイク12から入力する音声を音声アシスタントを利用していないときにも音声アシスタントクライアントAPP1135にも送り、音声アシスタントクライアントAPP1135においてウェイクワードの音声認識を行うようにしてもよい。この場合には、音声アシスタントクライアントAPP1135においてウェイクワードを音声認識したときに、その旨を音声入力制御部1124に通知し、当該通知から音声入力制御部1124はウェイクワードの音声認識の発生を検出する。
【0059】
また、以上の実施形態の予測アクション実行処理のステップ202は、入力装置15の一つとして設けたトークスイッチの操作などのユーザの所定の操作の発生と、音声認識エンジン1121によるウェイクワードの音声認識の発生との双方を監視し、いずれかが発生したならば、ステップ204に進む処理としてもよいし、トークスイッチの操作などのユーザの所定の操作の発生のみを監視し、所定の操作が発生したならば、ステップ204に進む処理としてもよい。
【符号の説明】
【0060】
1…車載システム、2…モバイル端末、3…音声アシスタントサーバ、11…データ処理装置、12…マイク、13…記憶装置、14…表示装置、15…入力装置、16…スピーカ、17…周辺装置、111…通信インタフェース、112…オペレーティングシステム、1121…音声認識エンジン、1122…音声認識辞書、1123…ウェイクワード認識辞書、1124…音声入力制御部、1131…ナビゲーションAPP、1132…WebブラウザAPP、1133…メディアプレイヤAPP、1134…HFT_APP、1135…音声アシスタントクライアントAPP。