特許7451033 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アルパイン株式会社の特許一覧

特許7451033データ処理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-08

(45)【発行日】2024-03-18

(54)【発明の名称】データ処理システム

(51)【国際特許分類】

G10L 15/22 20060101AFI20240311BHJP

G10L 15/30 20130101ALI20240311BHJP

G10L 15/10 20060101ALI20240311BHJP

【ＦＩ】

G10L15/22 453

G10L15/30

G10L15/10 200W

【請求項の数】 8

(21)【出願番号】P 2020039299

(22)【出願日】2020-03-06

(65)【公開番号】P2021140088

(43)【公開日】2021-09-16

【審査請求日】2022-12-22

(73)【特許権者】

【識別番号】000101732

【氏名又は名称】アルパイン株式会社

(74)【代理人】

【識別番号】100099748

【弁理士】

【氏名又は名称】佐藤克志

(74)【代理人】

【識別番号】100103171

【弁理士】

【氏名又は名称】雨貝正彦

(74)【代理人】

【識別番号】100105784

【弁理士】

【氏名又は名称】橘和之

(74)【代理人】

【識別番号】100098497

【弁理士】

【氏名又は名称】片寄恭三

(72)【発明者】

【氏名】工藤信範

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１７－１０７０７８（ＪＰ，Ａ）

【文献】特表２０１６－５３１３７５（ＪＰ，Ａ）

【文献】特開２０１４－１９１０３０（ＪＰ，Ａ）

【文献】特開２０１５－１３５４１９（ＪＰ，Ａ）

【文献】特開２０１５－０１１１７０（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

Ｇ０６Ｆ３／１６

(57)【特許請求の範囲】

【請求項1】

音声アシスタントサーバに通信を介して接続可能なデータ処理システムであって、
前記音声アシスタントサーバは、前記データ処理システムから受信した音声が表す発話内容を音声認識し、当該データ処理システムに、音声認識した発話内容が表す要求に応える動作を実行させる応答を行い、
当該データ処理システムは、
マイクと、
マイクから入力する音声の音声認識を行う音声認識手段と、
所定の契機で、前記音声アシスタントサーバの利用を開始し、前記マイクから入力する音声を前記音声アシスタントサーバに送信し、前記音声アシスタントサーバから受信した応答に応じた動作を当該データ処理システムに行わせる音声アシスタントクライアントと、
前記所定の契機で、前記音声認識手段に、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信する音声に対する、所定のワードのセットである予測用ワードセットに含まれる各ワードの音声認識を開始させ、前記音声認識手段が前記予測用ワードセットに含まれるワードを音声認識したときに、当該音声認識されたワードに予め対応づけられている動作を当該データ処理システムに実行させる予測処理実行手段とを有し、
前記予測用ワードセットに含まれるワードは、各々、複数の要求の種類の内の特定の種類に対応しており、
前記音声認識された前記予測用ワードセットに含まれるワードに予め対応づけられている動作は、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信した音声の発話内容が、当該音声認識されたワードに対応する種類の要求を表すものであった場合に、当該データ処理システムが行うこととなる処理の前工程の部分の動作、もしくは、当該処理の準備を行う動作であり、
前記予測処理実行手段は、前記音声認識された前記予測用ワードセットに含まれるワードに予め対応づけられている動作を当該データ処理システムに実行させた後に、前記音声アシスタントサーバから受信した応答が、当該音声認識されたワードに対応する種類の要求に対する応答でなかった場合に、当該データ処理システムの状態を、前記動作を実行させる前の状態に復帰することを特徴とするデータ処理システム。

【請求項2】

請求項１記載のデータ処理システムであって、
前記所定の契機は、前記音声認識手段による予め定められた特定のワードであるウェイクワードの音声認識の発生であることを特徴とするデータ処理システム。

【請求項3】

音声アシスタントサーバに通信を介して接続可能なデータ処理システムであって、
前記音声アシスタントサーバは、前記データ処理システムから受信した音声が表す発話内容を音声認識し、当該データ処理システムに、音声認識した発話内容が表す要求に応える動作を実行させる応答を行い、
当該データ処理システムは、
マイクと、
マイクから入力する音声の音声認識を行う音声認識手段と、
所定の契機で、前記音声アシスタントサーバの利用を開始し、前記マイクから入力する音声を前記音声アシスタントサーバに送信し、前記音声アシスタントサーバから受信した応答に応じた動作を当該データ処理システムに行わせる音声アシスタントクライアントと、
前記所定の契機で、前記音声認識手段に、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信する音声に対する、所定のワードのセットである予測用ワードセットに含まれる各ワードの音声認識を開始させ、前記音声認識手段が前記予測用ワードセットに含まれるワードを音声認識したときに、当該音声認識されたワードに予め対応づけられている動作を当該データ処理システムに実行させる予測処理実行手段とを有し、
前記所定の契機は、前記音声認識手段による予め定められた特定のワードであるウェイクワードの音声認識の発生であり、
音声認識手段は、コマンド入力用のワードのセットであるコマンド用ワードセットが現用ワードセットとして設定されているときには、前記コマンド用ワードセットに含まれるワードと前記ウェイクワードの音声認識を行い、前記予測用ワードセットが現用ワードセットとして設定されているときには、前記予測用ワードセットに含まれるワードの音声認識を行い、
前記予測処理実行手段は、前記音声認識手段が前記ウェイクワードを音声認識したときに、前記現用ワードセットを、前記予測用ワードセットに切り替え、
当該データ処理システムは、前記音声認識手段が、前記コマンド用ワードセットに含まれるワードを音声認識したときに、当該音声認識したワードが表すコマンドを受け付けて、当該コマンドに対応する動作を当該データ処理システムに行わせる音声入力コマンド受付手段を有することを特徴とするデータ処理システム。

【請求項4】

【請求項5】

【請求項6】

請求項１、２または３記載のデータ処理システムであって、
前記予測用ワードセットは、少なくともワード「行きたい」を含み、
ワード「行きたい」に予め対応づけられている動作は、地図の表示動作を含むことを特徴とするデータ処理システム。

【請求項7】

請求項１、２、３または６記載のデータ処理システムであって、
前記予測用ワードセットは、少なくともワード「テレビ」を含み、
ワード「テレビ」に予め対応づけられている動作は、テレビ番組表の表示動作を含むことを特徴とするデータ処理システム。

【請求項8】

請求項１、２、３、４、５、６または７記載のデータ処理システムであって、
当該データ処理システムは、自動車に搭載されるシステムであることを特徴とするデータ処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザの発話音声を音声認識し発話内容に応じたサービスを提供する音声アシスタントに関するものである。

【背景技術】

【0002】

ユーザの発話音声を認識し発話内容に応じたサービスを提供する音声アシスタントの技術としては、端末に搭載された音声アシスタントクライアントが、通信を介して音声アシスタントサーバにアクセスして端末のユーザの発話音声を音声アシスタントサーバに送信し、音声アシスタントサーバにおいて受信した発話音声を音声認識し、音声認識した発話内容が表すユーザの要求事項を解析し、要求事項に応じたサービスを、音声アシスタントクライアントを介して端末のユーザに提供する技術が知られている（たとえば、特許文献１）。なお、発話内容に応じたサービスとしては、情報の提供や端末の動作の制御などが行われる
ここで、この技術では、端末において、ウェイクワードやホットワードと呼ばれる特定のワードの音声入力の発生を監視し、当該特定のワードの音声入力が発生したときに、音声アシスタントサーバへのアクセスを開始する。

【0003】

また、ユーザが使用する装置であるユーザ装置において、入力された音声が表すコマンドを音声認識し、認識したコマンドに対応づけられた動作を実行する技術も知られている（たとえば、特許文献２）。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０２０-９４６３号公報

【文献】国際公開第２００９／０１９７６８号

【発明の概要】

【発明が解決しようとする課題】

【0005】

上述した音声アシスタントの技術では、通信の所要時間や、音声アシスタントサーバにおける発話内容の解析処理の所要時間の長大化などのために、ユーザの発話に対する応答に比較的大きな遅延が生じることがある。

【0006】

そして、このために、ユーザがストレスを感じたり、音声アシスタントの利用を敬遠したりしてしまうことがある。
そこで、本発明は、音声アシスタンの応答の遅延に対するユーザのストレスを軽減することを課題とする。
また、併せて、本発明は、ユーザが、音声アシスタントを利用して行う作業をより速やかに行えるように支援することを課題とする。

【課題を解決するための手段】

【0007】

前記課題達成のために、本発明は、音声アシスタントサーバに通信を介して接続可能なデータ処理システムを提供する。ここで、前記音声アシスタントサーバは、前記データ処理システムから受信した音声が表す発話内容を音声認識し、当該データ処理システムに、音声認識した発話内容が表す要求に応える動作を実行させる応答を行うサーバである。そして、データ処理システムは、マイクと、マイクから入力する音声の音声認識を行う音声認識手段と、所定の契機で、前記音声アシスタントサーバの利用を開始し、前記マイクから入力する音声を前記音声アシスタントサーバに送信し、前記音声アシスタントサーバから受信した応答に応じた動作を当該データ処理システムに行わせる音声アシスタントクライアントと、前記所定の契機で、前記音声認識手段に、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信する音声に対する、所定のワードのセットである予測用ワードセットに含まれる各ワードの音声認識を開始させ、前記音声認識手段が前記予測用ワードセットに含まれるワードを音声認識したときに、当該音声認識されたワードに予め対応づけられている動作を当該データ処理システムに実行させる予測処理実行手段とを備えている。

【0008】

ここで、このようなデータ処理システムにおいて、前記所定の契機は、前記音声認識手段による予め定められた特定のワードであるウェイクワードの音声認識の発生としてよい。
また、このようなデータ処理システムでは、前記予測用ワードセットに含まれるワードを、各々、特定の種類の要求を表す発話内容に含まれている蓋然性の高いワードとし、前記音声認識された前記予測用ワードセットに含まれるワードに予め対応づけられている動作を、前記音声アシスタントクライアントが前記音声アシスタントサーバに送信した音声の発話内容が、当該音声認識されたワードが含まれている蓋然の高い種類の要求を表すものであった場合に、当該データ処理システムが行うこととなる処理の前工程の部分の動作、もしくは、当該処理の準備を行う動作としてよい。

【0009】

また、この場合には、データ処理システムは、前記予測処理実行手段において、前記音声認識された前記予測用ワードセットに含まれるワードに予め対応づけられている動作を当該データ処理システムに実行させた後に、前記音声アシスタントサーバから受信した応答が、当該音声認識されたワードが含まれている蓋然の高い種類の要求に対する応答でなかった場合に、当該データ処理システムの状態を、前記動作を実行させる前の状態に復帰するように構成してもよい。

【0010】

また、以上のデータ処理システムは、前記所定の契機を、前記音声認識手段による予め定められた特定のワードであるウェイクワードの音声認識の発生とした場合には、音声認識手段において、コマンド入力用のワードのセットであるコマンド用ワードセットが現用ワードセットとして設定されているときには、前記コマンド用ワードセットに含まれるワードと前記ウェイクワードの音声認識を行い、前記予測用ワードセットが現用ワードセットとして設定されているときには、前記予測用ワードセットに含まれるワードの音声認識を行い、前記予測処理実行手段において、前記音声認識手段が前記ウェイクワードを音声認識したときに、前記現用ワードセットを、前記予測用ワードセットに切り替えるように構成してもよい。また、この場合には、当該データ処理システムは、前記音声認識手段が、前記コマンド用ワードセットに含まれるワードを音声認識したときに、当該音声認識したワードが表すコマンドを受け付けて、当該コマンドに対応する動作を当該データ処理装置に行わせる音声入力コマンド受付手段を備える。

【0011】

また、以上のデータ処理システムにおいて、前記予測用ワードセットに、少なくともワード「行きたい」を含め、ワード「行きたい」に予め対応づけられている動作は、地図の表示動作を含むものとしてもよい。

【0012】

また、以上のデータ処理システムにおいて、前記予測用ワードセットに、少なくともワード「テレビ」を含め、ワード「テレビ」に予め対応づけられている動作を、テレビ番組表の表示動作を含むものとしてもよい。

【0013】

また、以上のデータ処理システムは、自動車に搭載されるシステムであってよい。
以上のようなデータ処理システムによれば、音声アシスタントサーバを利用する場合に、送信した音声に対する応答が音声アシスタントサーバから返ってくる前に、送信した音声から音声認識したワードに応じた動作を実行することができる。ここで、送信した音声に含まれるワードからは、音声アシスタントサーバに対するユーザの要求の種類を予測することができる。したがって、音声認識したワードに応じて実行する動作を、送信した音声が当該ワードから予測される種類の要求を表すものであった場合に、当該データ処理システムが行うこととなる処理の前工程の部分の動作、もしくは、当該処理の準備を行う動作として、ユーザが、音声アシスタントサーバを利用して行う作業をより速やかに行えるようにすることができる。

【0014】

また、ユーザの発話音声に対する応答が音声アシスタントサーバから返ってくる前に、ユーザの発話に応答して、予測処理実行手段が行わせる動作によるレスポンスが得られるので、当該発話から音声アシスタントサーバの応答までに比較的大きな遅延が発生した場合にも、当該遅延に対してユーザが感じるストレスを軽減することができる。

【発明の効果】

【0015】

以上のように、本発明によれば、音声アシスタントの応答の遅延に対するユーザのストレスを軽減することができる。
また、本発明によれば、ユーザが、音声アシスタントを利用して行う作業をより速やかに行えるように支援できる。

【図面の簡単な説明】

【0016】

【図1】本発明の実施形態に係る車載システムの構成を示すブロック図である。

【図2】本発明の実施形態に係る予測アクション実行処理を示すフローチャートである。

【図3】本発明の実施形態に係るアクション予測用辞書とアクションテーブルを示す図である。

【図4】本発明の実施形態に係る予測アクション実行処理の処理例を示す図である。

【発明を実施するための形態】

【0017】

以下、本発明の実施形態について説明する。
図１に本実施形態に係る車載システムの構成を示す。
車載システム１は自動車に搭載されるシステムであり、図示するように、データ処理装置１１、マイク１２、記憶装置１３、表示装置１４、入力装置１５、スピーカ１６、その他の周辺装置１７を備えている。

【0018】

また、データ処理装置１１は、モバイル端末２を接続可能な通信インタフェース１１１、オペレーティングシステム１１２、オペレーティングシステム１１２上で稼働するアプリケーションを備えている
また、オペレーティングシステム１１２上で稼働するアプリケーションとしては、ナビゲーションＡＰＰ１１３１、ＷｅｂブラウザＡＰＰ１１３２、メディアプレイヤＡＰＰ１１３３、ＨＦＴ_ＡＰＰ１１３４、音声アシスタントクライアントＡＰＰ１１３５や、その他のアプリケーション１１３６を備えている。

【0019】

次に、オペレーティングシステム１１２は、マイク１２から入力する音声の音声認識を行う音声認識エンジン１１２１、音声認識辞書１１２２、ウェイクワード認識辞書１１２３、音声入力制御部１１２４を備えている。

【0020】

音声認識辞書１１２２は複数用意されており、個々の音声認識辞書１１２２は相互に異なるワードのセットに対応して設けられている。そして、各音声認識辞書１１２２は、対応するセット内の各ワードの音声認識用の情報が登録されている。また、ウェイクワード認識辞書１１２３には、予め設定された特定のワードであるウェイクワードの音声認識用の情報が登録されている。

【0021】

音声入力制御部１１２４は、状況に応じて、複数の音声認識辞書１１２２のうちの一つの音声認識辞書１１２２を現用音声認識辞書に設定する。
音声認識エンジン１１２１は、現用音声認識辞書を用いて、マイク１２から入力する音声から、現用音声認識辞書に対応するセット内の各ワードの音声認識を行うと共に、ウェイクワード認識辞書１１２３を用いて、マイク１２から入力する音声から、ウェイクワードの音声認識を行う。

【0022】

また、各アプリケーションは、音声入力制御部１１２４を介して、音声認識辞書１１２２を生成して現用音声認識辞書に設定することができる。
次に、ナビゲーションＡＰＰ１１３１は、周辺装置１７として備えたＧＮＳＳ受信機や記憶装置１３に記憶された地図データを用いた現在位置の算出や、ユーザから設定された目的地までの経路の設定や、現在位置や経路を表した地図の表示装置１４への表示などを行う。

【0023】

また、ＷｅｂブラウザＡＰＰ１１３２は、Ｗｅｂブラウザとして、通信インタフェース１１１を介してモバイル端末２の通信機能を利用してインターネット上のＷｅｂサイトにアクセスし、Ｗｅｂコンテンツの表示装置１４やスピーカ１６への出力などを行う。

【0024】

また、メディアプレイヤＡＰＰ１１３３は、記憶装置１３に記憶された楽曲やビデオの再生の制御や、表示装置１４やスピーカ１６への出力を行う。また、メディアプレイヤＡＰＰ１１３３は、周辺装置１７として備えたＴＶチューナの受信動作の制御や、ＴＶチューナで受信した番組の表示装置１４やスピーカ１６への出力などを行う。

【0025】

ＨＦＴ_ＡＰＰ１１３４は、通信インタフェース１１１を介してモバイル端末２の移動電話機能を利用し、マイク１２とスピーカ１６を通話音声の入出力に用いて通話を行うハンズフリー通話を実現する。

【0026】

音声アシスタントクライアントＡＰＰ１１３５は、音声アシスタントの利用を開始したならば、通信インタフェース１１１を介してモバイル端末２の通信機能を利用して、音声アシスタントサーバ３にアクセスし、音声入力制御部１１２４から入力する音声を、音声アシスタントサーバ３に送信する。

【0027】

音声アシスタントサーバ３は、受信した音声を音声認識し、音声認識した発話内容が表すユーザの要求事項を解析し、要求事項に応えるサービスをデータ処理装置１１に実行させる応答を、音声アシスタントクライアントＡＰＰ１１３５に応答する。

【0028】

そして、音声アシスタントクライアントＡＰＰ１１３５は、音声アシスタントサーバ３からの応答内容に従った処理を実行し、音声アシスタントの利用を終了する。この応答内容に従った処理としては、音声アシスタントサーバ３から応答された情報の表示装置１４への表示や、他アプリケーションの動作の制御などがある。

【0029】

さて、このような構成において、音声入力制御部１１２４は、音声アシスタントを利用していないときに、音声認識エンジン１１２１で、現用音声認識辞書を用いたワードの認識が発生したならば、そのワードに対応するコマンドを受け付け、受け付けたコマンドに対応づけられている処理を行う。

【0030】

このようなコマンドに対応づけられている処理としては、アクティブアプリケーションの切り替えや、アプリケーションの動作の制御等がある。
また、音声入力制御部１１２４は、図２に示す予測アクション実行処理を行う。
図示するように、予測アクション実行処理では、音声認識エンジン１１２１によるウェイクワードの音声認識の発生を監視し（ステップ２０２）、ウェイクワードの音声認識が発生したならば、音声アシスタントクライアントＡＰＰ１１３５の、音声アシスタントの利用の開始を制御する（ステップ２０４）。なお、音声入力制御部１１２４は、音声アシスタントの利用中、マイク１２から入力する音声を、音声アシスタントクライアントＡＰＰ１１３５に出力する。

【0031】

そして、現用音声認識辞書を、予め音声認識辞書１１２２の一つとして用意しておいたアクション予測用辞書に切り替える（ステップ２０６）。
アクション予測用辞書には、図３ａに示すように「行きたい」、「食べたい」、「教えて」、「テレビ」、...などの、ユーザが、ユーザの音声アシスタントへの要求の種類の推測に汎用的に用いることができるワードのセットを音声認識するための情報が登録されている。ここで、要求の種類の推測に汎用的に用いることができるワードとしては、その種類の要求を音声アシスタントに行うときの発話に汎用的に含まれるワードを用いる。

【0032】

たとえば、音声アシスタント対するユーザの発話にワード「行きたい」が含まれていれば、ユーザの要求の種類を、ナビゲーションＡＰＰ１１３１を利用した、いずれかの地点までの案内であると推測でき、音声アシスタント対するユーザの発話にワード「テレビ」が含まれていれば、ユーザの要求の種類を、メディアプレイヤＡＰＰ１１３３を利用した、いずれかの番組の視聴であると推測できる。

【0033】

図２に戻り、現用音声認識辞書をアクション予測用辞書に切り替えたならば、音声アシスタントクライアントＡＰＰ１１３５の音声アシスタントの利用の終了の発生と（ステップ２０８）と、音声認識エンジン１１２１による現用音声認識辞書に設定されているアクション予測用辞書を用いたワードの音声認識の発生を監視する（ステップ２１０）。

【0034】

そして、音声アシスタントクライアントＡＰＰ１１３５の音声アシスタントの利用の終了が発生したならば（ステップ２０８）、ステップ２０６で現用音声認識辞書をアクション予測用辞書に切り替える前に現用音声認識辞書であった音声認識辞書１１２２に現用音声認識辞書を復帰し（ステップ２２２）、ステップ２０２からの処理に戻る。

【0035】

一方、アクション予測用辞書を用いたワードの音声認識が発生した場合には（ステップ２１０）、記憶装置１３に予め記憶しておいたアクションテーブルに、音声認識したワードに対応づけて登録されているアクションを実行する（ステップ２１２）。

【0036】

ここで、図３ｂに示すように、アクションテーブルには、アクション予測用辞書に音声認識用の情報が登録されている各ワードに対してアクションと予測応答を登録することができる。

【0037】

アクションとしては、そのワードから推測されるユーザの音声アシスタントへの要求の種類に応える場合にデータ処理装置１１において行う処理のうち、音声アシスタントサーバ３からの応答前に行っておける処理である前処理や、要求の種類に応える場合にデータ処理装置１１において行う処理の準備を行う処理の内容を登録する。

【0038】

また、予測応答としては、ユーザの発話による音声アシスタントへの要求の種類が、そのワードから推測される要求の種類であったときに、音声アシスタントサーバ３からの応答内容に含まれることが期待できる内容を登録する、
たとえば、ワード「行きたい」に対しては、推測されるユーザの要求の種類が、ナビゲーションＡＰＰ１１３１を利用した、いずれかの地点までの案内であるので、地点によらずに地点の案内のために前処理または準備として行うこととなる、ナビゲーションＡＰＰ１１３１による地図表示や、経路探索のための渋滞情報の取得などを、アクションとして登録する。

【0039】

また、ワード「行きたい」に対する予測応答としては、ユーザが発話によって行った要求の種類が、ナビゲーションＡＰＰ１１３１を利用した、いずれかの地点までの案内であれば、音声アシスタントサーバ３からの応答内容には、住所等の地名や施設名が含まれていることが期待できるので、地名や施設名を予測応答として登録する。

【0040】

同様に、ワード「テレビ」に対しては、推測されるユーザの要求の種類が、メディアプレイヤＡＰＰ１１３３を利用した、いずれかの番組の視聴であるので、番組によらずに番組の視聴のために前処理または準備として行うこととなる、メディアプレイヤＡＰＰ１１３３の出力ソースのＴＶチューナへの切り替えや番組表の表示を、アクションとして登録する。

【0041】

また、ワード「テレビ」に対する予測応答としては、ユーザが発話によって行った要求の種類が、メディアプレイヤＡＰＰ１１３３を利用した、いずれかの番組の視聴であれば、音声アシスタントサーバ３からの応答内容には、番組名や局名やチャンネル番号等が含まれていることが期待できるので、番組名や局名やチャンネル番号を予測応答として登録する。

【0042】

図２に戻り、ステップ２１２で、音声認識したワードに対応づけてアクションテーブルに登録されているアクションを、当該アクションに関わるアプリケーションを制御して実行したならば、音声アシスタントサーバ３からの応答を音声アシスタントクライアントＡＰＰ１１３５が受信するのを待って（ステップ２１４）、音声アシスタントクライアントＡＰＰ１１３５が受信した応答を取得する。

【0043】

そして、ステップ２１０で音声認識したワードに対応づけてアクションテーブルに予測応答が登録されているかどうかを調べ（ステップ２１６）、登録されていなければ、ステップ２０６で現用音声認識辞書をアクション予測用辞書に切り替える前に現用音声認識辞書であった音声認識辞書１１２２に現用音声認識辞書を復帰し（ステップ２２２）、ステップ２０２からの処理に戻る。

【0044】

一方、ステップ２１０で音声認識したワードに対応づけてアクションテーブルに予測応答が登録されている場合には（ステップ２１６）、音声アシスタントクライアントＡＰＰ１１３５が受信した応答が、当該登録されている予測応答と整合するかどうかを調べる（ステップ２１８）。

【0045】

ここで、ステップ２１８では、音声アシスタントサーバ３から音声アシスタントクライアントＡＰＰ１１３５が受信した応答に、予測応答として登録されている種類の情報が含まれている場合に、登録されている予測応答と整合すると判定する。たとえば、予測応答として地名や施設名が登録されている場合には、応答に、具体的な地名や施設名が含まれていれば、予測応答と整合すると判定し、予測応答として番組名や局名やチャンネル番号が登録されている場合には、応答に、具体的な番組名や局名やチャンネル番号が含まれていれば、予測応答と整合すると判定する。

【0046】

ただし、音声アシスタントサーバ３において、応答に含まれている情報の種別を表すコードを応答中に含めるようにし、ステップ２１８では、当該コードに基づいて応答に、予測応答として登録されている種類の情報が含まれているかどうかを判定するようにしてもよい。

【0047】

そして、整合していない場合には、データ処理装置１１の状態を、ステップ２１２でアクションを実行する状態の前の状態に復帰した上で（ステップ２２０）、ステップ２０６で現用音声認識辞書をアクション予測用辞書に切り替える前に現用音声認識辞書であった音声認識辞書１１２２に現用音声認識辞書を復帰し（ステップ２２２）、ステップ２０２からの処理に戻る。

【0048】

一方、音声アシスタントクライアントＡＰＰ１１３５が受信した応答が、当該登録されている予測応答と整合する場合には、ステップ２０６で現用音声認識辞書をアクション予測用辞書に切り替える前に現用音声認識辞書であった音声認識辞書１１２２に現用音声認識辞書を復帰し（ステップ２２２）、ステップ２０２からの処理に戻る。

【0049】

以上、音声入力制御部１１２４が行う予測アクション実行処理について説明した。
図４に、このような予測アクション実行処理の処理例を示す。
図示するように、ユーザがウェイクワードを発話すると(Ｓ４０１）、データ処理装置１１において、ウェイクワードが音声認識され(Ｓ４０２）、音声入力制御部１１２４の制御によって、音声アシスタントクライアントＡＰＰ１１３５の音声アシスタントの利用が開始される(Ｓ４０３）と共に、現用音声認識辞書がアクション予測用辞書に切り替えられる(Ｓ４０４）。

【0050】

音声アシスタントの利用を開始した、音声アシスタントクライアントＡＰＰ１１３５は、音声アシスタントサーバ３にアクセスしてコネクションを確立し(Ｓ４０５）、以降、入力する音声を音声アシスタントサーバ３に送信する。

【0051】

すなわち、ユーザが、「テレビでニュースやってる」と発話すると(Ｓ４０６）、この音声が、音声アシスタントクライアントＡＰＰ１１３５から、音声アシスタントサーバ３に送られる(Ｓ４０７）。

【0052】

一方、この発話に対して、アクション予測用辞書を用いて音声認識エンジン１１２１で「テレビ」が認識され(Ｓ４０８）、音声入力制御部１１２４の制御によって、「テレビ」に対してアクションテーブルに登録されているアクションである、メディアプレイヤＡＰＰ１１３３による出力ソースのＴＶチューナへの切り替えや番組表の表示が行われる(Ｓ４０９）。

【0053】

そして、音声アシスタントサーバ３において、「テレビでニュースやってる」との発話内容が解析され、その応答として、「MHKで"xxニュース"を放送しています」とのメッセージが生成され、音声アシスタントクライアントＡＰＰ１１３５に送られ(Ｓ４１０）、その後、音声アシスタントクライアントＡＰＰ１１３５と音声アシスタントサーバ３のコネクションが切断される(Ｓ４１１）。

【0054】

一方、音声アシスタントサーバ３から応答を受け取った音声アシスタントクライアントＡＰＰ１１３５は、応答として受け付けた「MHKで"xxニュース"を放送しています」とのメッセージを表示装置１４に表示する処理(Ｓ４１２）など、応答内容に応じた処理を行い、音声アシスタントの利用を終了する。

【0055】

ここで、応答内容に応じた処理として、応答として受け付けた「MHKで"xxニュース"を放送しています」とのメッセージを表示する処理を行う場合、このメッセージが表示される以前に、メディアプレイヤＡＰＰ１１３３による出力ソースのＴＶチューナへの切り替えが完了しており、表示装置１４には番組表が表示されているので、ユーザは番組表から、メッセージで示された番組MHKの"xxニュース"を選択し、当該番組をすみやかに視聴することができるようになる。なお、本実施形態において、メディアプレイヤＡＰＰ１１３３は、番組表上での番組の選択に応答して、ＴＶチューナの受信チャネルを、その番組が放送されているチャネルに切り替えて、当該チャネルで受信した番組を表示装置１４やスピーカ１６へ出力する。

【0056】

また、このメッセージが表示される以前に、ユーザの音声アシスタントに対する発話に応答して、表示装置１４の表示が番組の表示に切り替わるレスポンスが得られるので、当該発話から音声アシスタントサーバ３の応答までに比較的大きな遅延が発生した場合でも、当該遅延に対してユーザが感じるストレスを軽減することができる。

【0057】

以上、本発明の実施形態について説明した。
以上のように、本実施形態によれば、音声アシスタントサーバ３の応答の遅延に対するユーザのストレスを軽減することができると共に、ユーザが、音声アシスタントサーバ３を利用して行う作業をより速やかに行えるように支援することができる。

【0058】

なお、本実施形態は、自動車に搭載される車載システム１以外の、音声アシスタントを利用する任意のシステムに同様に適用することができる。
また、以上の実施形態では、音声認識エンジン１１２１においてウェイクワードの音声認識を行ったが、マイク１２から入力する音声を音声アシスタントを利用していないときにも音声アシスタントクライアントＡＰＰ１１３５にも送り、音声アシスタントクライアントＡＰＰ１１３５においてウェイクワードの音声認識を行うようにしてもよい。この場合には、音声アシスタントクライアントＡＰＰ１１３５においてウェイクワードを音声認識したときに、その旨を音声入力制御部１１２４に通知し、当該通知から音声入力制御部１１２４はウェイクワードの音声認識の発生を検出する。

【0059】

また、以上の実施形態の予測アクション実行処理のステップ２０２は、入力装置１５の一つとして設けたトークスイッチの操作などのユーザの所定の操作の発生と、音声認識エンジン１１２１によるウェイクワードの音声認識の発生との双方を監視し、いずれかが発生したならば、ステップ２０４に進む処理としてもよいし、トークスイッチの操作などのユーザの所定の操作の発生のみを監視し、所定の操作が発生したならば、ステップ２０４に進む処理としてもよい。

【符号の説明】

【0060】

１…車載システム、２…モバイル端末、３…音声アシスタントサーバ、１１…データ処理装置、１２…マイク、１３…記憶装置、１４…表示装置、１５…入力装置、１６…スピーカ、１７…周辺装置、１１１…通信インタフェース、１１２…オペレーティングシステム、１１２１…音声認識エンジン、１１２２…音声認識辞書、１１２３…ウェイクワード認識辞書、１１２４…音声入力制御部、１１３１…ナビゲーションＡＰＰ、１１３２…ＷｅｂブラウザＡＰＰ、１１３３…メディアプレイヤＡＰＰ、１１３４…ＨＦＴ_ＡＰＰ、１１３５…音声アシスタントクライアントＡＰＰ。

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版