(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-10
(45)【発行日】2024-01-18
(54)【発明の名称】電子機器及び音声起動方法
(51)【国際特許分類】
G10L 15/10 20060101AFI20240111BHJP
G10L 15/28 20130101ALI20240111BHJP
【FI】
G10L15/10 500T
G10L15/28 230K
G10L15/10 200W
(21)【出願番号】P 2020121823
(22)【出願日】2020-07-16
【審査請求日】2022-12-28
(73)【特許権者】
【識別番号】000237592
【氏名又は名称】株式会社デンソーテン
(74)【代理人】
【識別番号】110001933
【氏名又は名称】弁理士法人 佐野特許事務所
(72)【発明者】
【氏名】鶴田 勝浩
【審査官】大野 弘
(56)【参考文献】
【文献】特開2002-169584(JP,A)
【文献】特開平04-177400(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/10
G10L 15/28
(57)【特許請求の範囲】
【請求項1】
ユーザによるキーワードの発話を契機に所定機能を起動させることが可能な電子機器において、
ユーザにより前記キーワード又は前記キーワードに関連するリレイションワードが発話されたか否かを検出するワード検出部と、
前記ワード検出部の検出結果に基づき前記所定機能の起動を制御する起動制御部と、を備え、
前記起動制御部は、
前記リレイションワードの発話の検出後に前記キーワードの発話が検出された場合において、前記リレイションワード及び前記キーワードの発話間隔が所定の判定時間より短ければ前記所定機能を非起動とする一方、前記発話間隔が前記判定時間より長ければ前記所定機能を起動する
、電子機器。
【請求項2】
前記起動制御部は、前記リレイションワードの発話が検出されずに前記キーワードの発話が検出された場合、前記所定機能を起動する
、請求項1に記載の電子機器。
【請求項3】
前記起動制御部は、前記キーワードの発話が検出された場合において前記所定機能を非起動としたとき、ユーザに対し所定の非起動通知を行う
、請求項1又は2に記載の電子機器。
【請求項4】
前記キーワードを格納するとともに、前記キーワードに関連するワードとして予め設定された1以上のワードを前記リレイションワードとして格納するワード格納部を更に備えた
、請求項1~3の何れかに記載の電子機器。
【請求項5】
ユーザによるキーワードの発話を契機に所定機能を起動させるための音声起動方法において、
ユーザにより前記キーワード又は前記キーワードに関連するリレイションワードが発話されたか否かを検出するワード検出ステップと、
前記ワード検出ステップでの検出結果に基づき前記所定機能の起動を制御する起動制御ステップと、を備え、
前記起動制御ステップ
は、前記リレイションワードの発話の検出後に前記キーワードの発話が検出された場合において、前記リレイションワード及び前記キーワードの発話間隔が所定の判定時間より短ければ前記所定機能を非起動とする一方、前記発話間隔が前記判定時間より長ければ前記所定機能を起動する
、音声起動方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子機器及び音声起動方法に関する。
【背景技術】
【0002】
ユーザの発話により操作が可能な装置が提案されている。このような装置では音声で起動する方式(音声起動方式)が採用されている。ユーザは、まず予め登録されたキーワードを発話し、続けて要求内容(例えば天気情報を知りたいという要求内容)を発話する。音声起動方式が採用された装置では、キーワードの発話を受けて必要な機能が起動し、起動した機能によりユーザの要求に応じた応答(例えば天気情報のユーザへの通知)を行う。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2019-204025号公報
【文献】特開2004-301875号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
音声起動方式は利便性の高い方式である。しかしながら、ユーザが装置の機能を利用する意思がないのに、キーワードが一連の会話の中で発話されることもあり、この場合、ユーザが意図しないタイミングで装置の機能が起動する(即ち誤起動が生じる)。誤起動の具体例は後述される。誤起動の発生はユーザにとって煩わしく、抑制されるべきである。
【0005】
本発明は、音声起動方式に関わる誤起動の抑制に寄与する電子機器及び音声起動方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る電子機器は、ユーザによるキーワードの発話を契機に所定機能を起動させることが可能な電子機器において、ユーザにより前記キーワード又は前記キーワードに関連するリレイションワードが発話されたか否かを検出するワード検出部と、前記ワード検出部の検出結果に基づき前記所定機能の起動を制御する起動制御部と、を備え、前記起動制御部は、前記キーワードの発話が検出されたとき、その検出前において前記リレイションワードの発話が検出されたかに応じ、前記所定機能の起動の是非を判断する構成(第1の構成)である。
【0007】
上記第1の構成に係る電子機器において、前記起動制御部は、前記リレイションワードの発話の検出後に前記キーワードの発話が検出された場合、前記リレイションワード及び前記キーワードの発話間隔に基づき、前記所定機能の起動の是非を判断する構成(第2の構成)であっても良い。
【0008】
上記第2の構成に係る電子機器において、前記起動制御部は、前記リレイションワードの発話の検出後に前記キーワードの発話が検出された場合、前記発話間隔が所定の判定時間より短ければ前記所定機能を非起動とする一方、前記発話間隔が前記判定時間より長ければ前記所定機能を起動する構成(第3の構成)であっても良い。
【0009】
上記第1~第3の構成の何れかに係る電子機器において、前記起動制御部は、前記リレイションワードの発話が検出されずに前記キーワードの発話が検出された場合、前記所定機能を起動する構成(第4の構成)であっても良い。
【0010】
上記第1~第4の構成の何れかに係る電子機器において、前記起動制御部は、前記キーワードの発話が検出された場合において前記所定機能を非起動としたとき、ユーザに対し所定の非起動通知を行う構成(第5の構成)であっても良い。
【0011】
上記第1~第5の構成の何れかに係る電子機器において、前記キーワードを格納するとともに、前記キーワードに関連するワードとして予め設定された1以上のワードを前記リレイションワードとして格納するワード格納部を更に備えた構成(第6の構成)であっても良い。
【0012】
本発明に係る音声起動方法は、ユーザによるキーワードの発話を契機に所定機能を起動させるための音声起動方法において、ユーザにより前記キーワード又は前記キーワードに関連するリレイションワードが発話されたか否かを検出するワード検出ステップと、前記ワード検出ステップでの検出結果に基づき前記所定機能の起動を制御する起動制御ステップと、を備え、前記起動制御ステップでは、前記キーワードの発話が検出されたとき、その検出前において前記リレイションワードの発話が検出されたかに応じ、前記所定機能の起動の是非を判断する構成(第7の構成)である。
【発明の効果】
【0013】
本発明によれば、音声起動方式に関わる誤起動の抑制に寄与する電子機器及び音声起動方法を提供することが可能となる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態に係るアシスタントシステムの全体構成図である。
【
図2】本発明の実施形態に係り、アシスタント装置が車両に搭載される様子を示す図である。
【
図3】本発明の実施形態に係り、キーワード及びリレイションワードの例を示す図である。
【
図4】本発明の実施形態に係り、アシスタント機能の概要を示す図である。
【
図5】本発明の実施形態に係り、ユーザ間の会話の例を示す図である。
【
図6】本発明の実施形態に係り、ユーザ間の会話の他の例を示す図である。
【
図7】本発明の実施形態に属する第1実施例に係り、アシスタントシステムの動作フローチャートである。
【
図8】本発明の実施形態に属する第1実施例に係り、リレイションワードの発話検出後にキーワードの発話が検出されたときのアシスタント機能の起動制御を示す図である。
【
図9】本発明の実施形態に属する第1実施例に係り、リレイションワード及びキーワードの発話間隔の説明図である。
【
図10】本発明の実施形態に属する第1実施例に係り、リレイションワードの発話検出を経ずにキーワードの発話が検出されたときのアシスタント機能の起動制御を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。
【0016】
図1は本発明の実施形態に係るアシスタントシステムSYSの全体構成図である。アシスタントシステムSYSは、ユーザの音声により操作が可能な音声操作システムの一種であり、アシスタント装置1とサーバ装置40とで構成される。アシスタント装置1は、電子機器10、マイクロホン20及びスピーカ30を備える。本実施形態では、
図2に示す如くアシスタント装置1が車両CRに搭載されることを想定する。車両CRとして路面上を走行可能な車両(自動車等)が主に想定されるが、車両CRは任意の種類の車両であって良い。
【0017】
電子機器10に対してマイクロホン20及びスピーカ30が接続される。
図2では、アシスタント装置1が1つの四角形として表現されているが、実際には、電子機器10、マイクロホン20及びスピーカ30が車両CRの適所に配置される。マイクロホン20及びスピーカ30の内、任意の一方、又は、双方は、電子機器10に内蔵されていても良い。
【0018】
電子機器10は、ユーザと対話したり、対話を通じて車両CRに搭載された様々な機器を制御したりすることができる。本実施形態において、ユーザとは車両CRの乗員を指す。ユーザとしての乗員は、車両CRの運転操作を行う運転手であっても良いし、運転手以外の同乗者であっても良い。ユーザが発話を行う際、ユーザは発話者となる。以下、発話とは、特に記述なき限りユーザの発声による発話を指す。
【0019】
マイクロホン20は、ユーザの発話内容を収音し、収音した音を音声信号に変換して出力する。マイクロホン20の出力音声信号は電子機器10(後述の音声認識部12)に入力される。スピーカ30は、電子機器10(後述の音声合成部16)から供給される音声信号を音声としてユーザに出力する。
【0020】
電子機器10は、システム制御部11、音声認識部12、ワード検出部13、ワード格納部14、起動制御部15、音声合成部16及び通信部17を備える。電子機器10において、音声認識部12、ワード検出部13、ワード格納部14、起動制御部15、音声合成部16及び通信部17は、システム制御部11を介して互いに接続されており、符号11~17によって参照される計7つのブロックの間で任意の信号及び情報のやり取りが可能となっている。
【0021】
音声認識部12は、マイクロホン20の出力音声信号に基づきユーザの発話内容を認識することで、ユーザの発話内容をテキストデータ(文字列データ)に変換する。この変換により生成される、ユーザの発話内容を示すテキストデータを、発話テキストデータと称する。ワード検出部13は、発話テキストデータに基づき、ユーザが所定のキーワードの発話を行ったか否か及び所定のリレイションワードの発話を行ったか否かを検出する。ワード格納部14にはワード検出部13にて検出の対象となるワードが格納される。即ち、ワード格納部14にはキーワード及びリレイションワードが格納される。ユーザがキーワードを発話することで発話テキストデータにキーワードが含まれるとき、キーワードの発話があったと判断され、ユーザがリレイションワードを発話することで発話テキストデータにリレイションワードが含まれるとき、リレイションワードの発話があったと判断される。発話テキストデータにキーワードが含まれるとは、厳密には発話テキストデータにより表される文字列の中にキーワードが含まれることを指す。同様に、発話テキストデータにリレイションワードが含まれるとは、厳密には発話テキストデータにより表される文字列の中にリレイションワードが含まれることを指す。
【0022】
キーワードは予め電子機器10に登録された特定の言葉である。キーワードとして複数のキーワードがワード格納部14に格納されていても良く、この場合、ワード格納部14に格納された複数のキーワードの内、任意の何れかのキーワードがユーザにより発話されることで発話テキストデータに含まれるとき、ワード検出部13によりキーワードの発話があったと検出される。但し、以下では、ワード格納部14に格納されるキーワードの個数は1であるとする。
【0023】
ワード格納部14には複数のリレイションワードが格納される。ワード格納部14に格納された複数のリレイションワードの内、任意の何れかのリレイションワードがユーザにより発話されることで発話テキストデータに含まれるとき、ワード検出部13によりリレイションワードの発話があったと検出される。但し、ワード格納部14に格納されるリレイションワードの個数は1であっても良い。
【0024】
キーワードの同義語がリレイションワードとしてワード格納部14に格納されていて良く、これに加えて又はこれに代えて、キーワードの類義語がリレイションワードとしてワード格納部14に格納されていて良い。更に、キーワードの共起語がリレイションワードとしてワード格納部14に格納されていて良い。リレイションワードとしての共起語とは、キーワードと共に使用される確率が高いワード(言葉)を指す。キーワードの同義語及び類似語は、キーワードの共起語に含まれうる。何れにせよ、キーワードに関連するワードとして予め設定された1以上のワード(言葉)がリレイションワードとしてワード格納部14に格納される。
【0025】
例えば、或る特定の会社においてブランド名「イクリプス」を冠する商品群が販売及び製造されていて、当該商品群にカーナビゲーション装置、ドライブレコーダ装置及びカーオーディオ装置が含まれている場合を考える。この場合において、当該商品群の1つに電子機器10が含まれていて、キーワードが上記ブランド名と同じ「イクリプス」である場合、
図3に示す如く、カーナビゲーション装置の呼び名又は略称である「カーナビ」及び「ナビ」と、特定の会社(ここでは本願の出願人である「株式会社デンソーテン」)の呼び名又は略称である「デンソーテン」及び「テン」と、ドライブレコーダ装置の呼び名又は略称である「ドライブレコーダ」及び「ドラレコ」と、オーディオ一体型ナビケーション装置の呼び名である「AVN」(登録商標)とが、計7つのリレイションワードとして含まれる。勿論、6つ未満のリレイションワード又は8つ以上のリレイションワードを設定しておくことも可能である。
【0026】
電子機器10においては、発話者によるキーワードの発話を契機に所定機能を起動させる(キーワードの発話があっても所定機能が起動しないケースも有り;詳細は後述)。システム制御部11は所定機能を実現可能に構成されている。この際、システム制御部11はサーバ装置40と協働して所定機能を実現して良い。但し、サーバ装置40と協働することなく、システム制御部11単体で所定機能が実現されることがあっても良い。
【0027】
起動制御部15は、ワード検出部13によるキーワードの発話の有無の検出結果及びリレイションワードの発話の有無の検出結果に基づき所定機能の起動を制御する(換言すれば起動の是非を判断する)。この制御方法については後述される。音声合成部16は、システム制御部11から供給されたテキストデータを音声信号に変換し、得られた音声信号をスピーカ30に供給することで、スピーカ30から当該テキストデータを音声として出力させる。通信部17は所定の通信網を介してサーバ装置40と無線接続され、サーバ装置40と双方向通信を行う。サーバ装置40はインターネット網に接続されたコンピュータ装置である。サーバ装置40はインターネット網に接続された任意の他のコンピュータ装置から様々な情報の提供を受けることができる。
【0028】
上述の所定機能は任意の機能であって良いが、ここでは、所定機能は以下のアシスタント機能であるとする。
【0029】
アシスタント機能は、音声操作機能とも称されるべき機能であり、ユーザの発話内容を認識して、ユーザの発話内容に対する応答(以下、アシスタント応答と称する)を行う機能である。このアシスタント機能の起動により、ユーザは電子機器10を音声操作することができる。アシスタント応答は、ユーザに対する音声応答及び表示応答の少なくとも一方を含んでいて良い。音声応答は、音声合成部16を用いて実現されるスピーカ30からの音声出力により実現される。表示応答は、電子機器10に接続又は内蔵された表示画面(不図示)での文字や画像の表示により実現される。発話者が運転操作の従事などにより表示画面を見がたいことも考えられるため、アシスタント応答は少なくとも音声応答を含んでいると良い。
【0030】
例えば、アシスタント応答では、キーワードに続くユーザの発話内容に応じて、天候情報、ニュース、店舗又は観光地などの情報を音声応答又は表示応答によりユーザに提供したり、音楽又は動画像などのコンテンツを音声応答又は表示応答によりユーザに提供する。天候情報を例にとれば、
図4に示す如く、キーワード発話によるアシスタント機能の起動後、ユーザから「今日の天気を教えて」という発話があった場合、サーバ装置40により天候情報の提供サイトから車両CRの現在地の天候情報が取得され、取得された天候情報が通信部17を通じてシステム制御部11に送られる。システム制御部11は、アシスタント応答として、取得された天候情報(例えば「今日は、終日、晴れの予報です」)をユーザに通知する。この通知は、音声応答により実現される、或いは、音声応答及び表示応答により実現される。
【0031】
システム制御部11がナビゲーション動作を実行可能に構成されている場合、アシスタント応答は、例えば、ナビゲーション動作における目的地の設定を含んでいて良い。ナビゲーション動作では、車両CRの現在地から目的地までの走行予定ルートを設定し、地図画像上に走行予定ルートを重畳した画像を上記表示画面に表示する。走行予定ルートは、目的地に至るまでに車両CRが走行する予定のルートを表しており、車両CRの運転者は走行予定ルートに沿って車両CRが走行するよう運転操作を行うことが支援される。例えば、キーワード発話によるアシスタント機能の起動後、ユーザから「ABC市役所を目的地に設定して」という発話があった場合、サーバ装置40により地図情報の提供サイトからABC市役所の位置情報が取得され、取得された位置情報が通信部17を通じてシステム制御部11に送られる。システム制御部11は、アシスタント応答として、取得された位置情報に基づきナビゲーション動作における目的地を設定すると共にABC市役所を目的地に設定したナビゲーション動作を開始し、この際、ABC市役所を目的地に設定したことをユーザに通知する。この通知は、音声応答により実現される、或いは、音声応答及び表示応答により実現される。
【0032】
システム制御部11は制御対象機器の制御を行う機能を有していても良く、この場合、アシスタント応答は制御対象機器の制御を含み得る。制御対象機器は、車両CRに搭載された機器(但し電子機器10、マイクロホン20及びスピーカ30とは異なる)であって、システム制御部11により動作が制御される機器である。例えば、車外を照らす車外用照明装置(ヘッドライト等)、車室内を照らす車内用照明装置、車両CRのフロントガラスに付着した水や汚れを払拭するためのワイパー、車室内の温度及び湿度を調整するエアコンディショナが、制御対象機器に該当しうる。ワイパーを例にとれば、キーワード発話によるアシスタント機能の起動後、ユーザから「ワイパーをオンにして」という発話があった場合、システム制御部11は、アシスタント応答として、「了解しました」という音声出力による音声応答を行うと共に(この際、表示応答も行っても良い)、ワイパーを作動させる。制御対象機器の制御そのものは、サーバ装置40の機能によることなく、システム制御部11単体で実現される。
【0033】
ところで、ユーザがアシスタント機能を利用する意思がないのに、アシスタント機能を起動させるためのキーワードが一連の会話の中で発話されることがある。この場合、何らかの対応策を講じなかったとしたならば、ユーザが意図しないタイミングでアシスタント機能が起動する。このような起動を誤起動と称する。
【0034】
図3に示すキーワード及びリレイションワードが採用される場合を考えて誤起動に関わる具体例を挙げる。例えば、
図5に示す如く、第1ユーザが「このカーナビのブランドは何?」と発話し、これに返答する形で第2ユーザが「イクリプスです」と発話する第1ケースでは、第2ユーザによりキーワードの発話が行われているが、そのキーワードの発話は一連の会話の中での発話であるので、当該発話を契機にアシスタント機能を起動させるべきでは無い。また例えば、
図6に示す如く、一連の会話の中で第1ユーザが第2ユーザに向け「このカーナビのブランド名はイクリプスといいます」という文章の発話を行う第2ケースもあり、この第2ケースでもアシスタント機能を起動させるべきでは無い。
【0035】
ここで、一連の会話の中でキーワードが発話される際には、リレイションワードの発話も行われやすい点が注目される。上記第1及び第2ケースにおいては、キーワードの発話の前にリレイションワードの発話がある。つまり、キーワードの発話の前にリレイションワードの発話がある場合、当該キーワードの発話は一連の会話の中での発話である可能性が高い。
【0036】
これに着眼し、起動制御部15は、キーワードの発話が検出されたとき、キーワードの発話の検出前においてリレイションワードの発話が検出されたかに応じ、所定機能(ここではアシスタント機能)の起動の是非を判断する。リレイションワードの発話の検出後にキーワードの発話が検出されたときにおいて所定機能の起動を止めることが可能に起動制御部15を構成しておけば良い。
【0037】
これにより、第1及び第2ケースのような一連の会話の中でキーワードが発話されるケースにおいて、アシスタント機能を非起動とする制御が可能となる。つまり、誤起動を抑制することが可能となり、結果、ユーザの音声操作性の向上が図られる。誤起動抑制を促進させるためにも、キーワードと共に会話の中で使用される可能性が高い言葉をリレイションワードとしてワード格納部14に設定及び格納しておくと良い。
【0038】
以下、アシスタントシステムSYSに関わる具体的な動作例、応用技術又は変形技術を、複数の実施例の中で説明する。本実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の各実施例に適用される。各実施例において、上述の事項と矛盾する事項がある場合には、各実施例での記載が優先されて良い。また矛盾無き限り、以下に示す複数の実施例の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる(即ち複数の実施例の内の任意の2以上の実施例を組み合わせることも可能である)。
【0039】
<<第1実施例>>
アシスタントシステムSYSの第1実施例を説明する。
図7に、ユーザによるキーワード又はリレイションワードの発話があった場合にアシスタント機能が起動又は非起動とされるまでの、アシスタントシステムSYSの動作の流れを示す。
【0040】
まずステップS11において、ユーザの発話に対し音声認識部12により発話テキストデータが生成される。発話テキストデータが生成されるとステップS12に進む。ステップS12において、ワード検出部13は、発話テキストデータをワード格納部14に格納されたキーワード及びリレイションワードと比較することで、発話テキストデータにキーワード又はリレイションワードが含まれているか否かを判断する、即ちユーザによるキーワード又はリレイションワードの発話の有無を検出する。
【0041】
ステップS12に続くステップS13ではステップS12での判断結果がチェックされる。ユーザによるリレイションワードの発話が検出された場合にはステップS14に進む一方、そうでない場合にはステップS17に進む。ステップS17においてもステップS12での判断結果がチェックされる。ユーザによるリレイションワードの発話が検出されることなくキーワードの発話が検出された場合にはステップS17からステップS18に進む一方、リレイションワード及びキーワードの何れの発話も検出されなかった場合にはステップS17からステップS11に戻る。尚、ステップS13~S18の各処理は起動制御部15により実行される。但し、ステップS13及びS17の処理はワード検出部13により実行されると考えても良い。
【0042】
ステップS14では、ユーザによるリレイションワードの発話の検出後にキーワードの発話が検出されたか否かがチェックされる。リレイションワードの発話の検出後にキーワードの発話が検出された場合には、ステップS14からステップS15に進む。リレイションワードの発話の検出後にキーワードの発話が検出されなかった場合にはステップS11に戻る。リレイションワードの発話の検出後、所定のリセット時間以上、キーワードの発話が検出されなかった場合には、ステップS14からステップS11に戻ると良い。尚、リセット時間は後述の判定時間T
REF(
図8参照)よりも長い。
【0043】
ステップS15において、起動制御部15により所定の非起動判定条件の成否が判断され、非起動判定条件が成立する場合にはステップS15からステップS16に進む一方で、非起動判定条件が成立しない場合にはステップS15からステップS18に進む。非起動判定条件については後述される。
【0044】
起動制御部15は、ステップS16においてアシスタント機能を起動させず、ステップS18においてアシスタント機能を起動させる。
図7には特に示さないが、ステップS16に進んだ後にはステップS11に戻って上述の動作を繰り返すことができ、ステップS18に進んだ後は、キーワードに続くユーザの発話に対してアシスタント応答を行ってからステップS11に戻り上述の動作を繰り返すことができる。
【0045】
図8等を参照して、ステップS16又はS18に至る発話パターンを説明する。
図8には、第1発話パターンによるユーザの発話の流れが示されている。任意の自然数iに関し、時刻t
A(i+1)は時刻t
Aiよりも後の時刻であるとする。第1発話パターンではリレイションワードの発話の後にキーワードの発話が行われている。第1発話パターンにおいて、リレイションワードの発話とキーワードの発話は、
図5の第1ケースの如く、別々のユーザの発話であっても良いし、
図6の第2ケースの如く、一人のユーザの発話であっても良い。任意のワードの発話には、当然、有限の時間がかかる。第1発話パターンでは、時刻t
A1から時刻t
A2にかけてリレイションワードの発話が行われ、その後、時刻t
A3から時刻t
A4にかけてキーワードの発話が行われる。即ち、時刻t
A1及びt
A2間の期間511はリレイションワードの発話期間であり、時刻t
A3及びt
A4間の期間512はキーワードの発話期間である。第1発話パターンでは、電子機器10においてリレイションワードの発話の検出後にキーワードの発話が検出されることになるので、
図7のステップS14を経由してステップS15に至り、非起動判定条件の成否が判定される。
【0046】
第1実施例では、非起動判定条件の成否が発話間隔に基づいて判定される。ここにおける発話間隔とは、リレイションワードの発話の後にキーワードの発話があった場合における、リレイションワードの発話とキーワードの発話との時間間隔を指す。ワード検出部13又は起動制御部15により発話間隔が検出され、検出された発話間隔(即ち発話間隔の検出値)を記号“TDET”により表す。発話間隔は、時刻tA1及びtA3間の間隔であると考えることもできるし、時刻tA2及びtA4間の間隔であると考えることもできるし、発話期間511中の特定の時刻(例えば中心時刻)と発話期間512中の特定の時刻(例えば中心時刻)との間隔であると考えることもできるし、時刻tA2及びtA3間の間隔であると考えることもできる。
【0047】
故に、第1発話パターンにおいて、
図9(a)に示す如く時刻t
A1及びt
A3間の間隔が発話間隔T
DETとして導出されても良いし、
図9(b)に示す如く時刻t
A2及びt
A4間の間隔が発話間隔T
DETとして導出されても良いし、
図9(c)に示す如く発話期間511中の特定の時刻(例えば中心時刻)と発話期間512中の特定の時刻(例えば中心時刻)との間隔が発話間隔T
DETとして導出されても良いし、
図9(d)に示す如く時刻t
A2及びt
A3間の間隔が発話間隔T
DETとして導出されても良い。
【0048】
電子機器10には、現在時刻を取得できる計時部(不図示)が設けられており、マイクロホン20の出力音声信号に基づいてリレイションワード及びキーワードの発話が検出されたとき、ワード検出部13又は起動制御部15は、計時部の取得内容を参照して、リレイションワードの発話開始時刻tA1、発話終了時刻tA2及び発話期間511、並びに、キーワードの発話開始時刻tA3、発話終了時刻tA4及び発話期間512を認識することができる。
【0049】
図8の第1発話パターンにおいて、発話間隔T
DETが相対的に短い場合、リレイションワード及びキーワードは一連の会話の中で発話されている可能性が相対的に高いと考えられ、発話間隔T
DETが相対的に長い場合には、その可能性は相対的に低いと考えられる。このため、第1発話パターンにおいて、起動制御部15は、発話間隔T
DETを所定の判定時間T
REFと比較することで非起動判定条件の成否を判定する。具体的には、第1発話パターンにおいて、発話間隔T
DETが判定時間T
REFよりも短ければ非起動判定条件が成立してステップS15からステップS16(
図7参照)に進み、アシスタント機能が非起動とされる。逆に、第1発話パターンにおいて、発話間隔T
DETが判定時間T
REFよりも長ければ非起動判定条件が成立せずにステップS15からステップS18(
図7参照)に進み、アシスタント機能が起動される。発話間隔T
DETが判定時間T
REFとちょうど一致する場合、非起動判定条件は成立及び不成立の何れであっても良い。判定時間T
REFは、会話の中で生じると想定される発話間の間隔を考慮した時間長さを持ち、数秒程度(例えば5秒)に設定されるが、任意の時間長さを持ちうる。
【0050】
上述の如く、起動制御部15は、リレイションワードの発話の検出後にキーワードの発話が検出された場合、リレイションワード及びキーワードの発話間隔に基づき、アシスタント機能の起動の是非を判断する(
図8及び
図9参照)。具体的には、起動制御部15は、リレイションワードの発話の検出後にキーワードの発話が検出された場合、それらの発話間隔を検出して、その検出値を示す発話間隔T
DETが所定の判定時間T
REFより短ければアシスタント機能を非起動とする一方、発話間隔T
DETが判定時間T
REFより長ければアシスタント機能を起動する。
【0051】
これにより、一連の会話の中でキーワードが発話されるケース(“TDET<TREF”となることが見込まれるケース)において、アシスタント機能を非起動とすることが可能となる。つまり、誤起動を抑制することが可能となり、結果、ユーザの音声操作性の向上が図られる。
【0052】
図10には、第2発話パターンによるユーザの発話の流れが示されている。第2発話パターンでは、リレイションワードが発話されることなくキーワードが発話される。そうすると、第2発話パターンでは、電子機器10においてリレイションワードの発話が検出されることなくキーワードの発話が検出されるので、
図7のステップS13の“否定”及びステップS17の“肯定”を経由してステップS18に至り、アシスタント機能が起動する。第2発話パターンにおいて、キーワードの発話後にリレイションワードが発話されるか否か(詳細にはキーワードの発話の検出後にリレイションワードの発話が検出されるか否か)は任意であり、キーワードの発話が検出された時点でアシスタント機能が起動する。何らかのリレイションワードの発話が検出された後、他のリレイションワードの発話検出を伴わずに十分に長い時間が経過してからキーワードの発話が検出されるパターンは、第2発話パターンに属する。
【0053】
尚、
図7のフローチャートでは、ステップS11及びS12の段階でのみ発話テキストデータの生成動作並びにリレイションワード及びキーワードの発話検出動作が行われているかのように示されているが、実際には、それらの生成動作及び発話検出動作は、リアルタイムで常時実行されるものであって良い。何れにせよ、
図7のフローチャートは処理の流れの一例にすぎず、
図8及び
図10を参照して説明したアシスタント機能の起動/非起動の制御が可能となる限り、処理の流れは任意に変更できる。
【0054】
アシスタント機能の起動後の動作について説明を補足する。アシスタント機能において、ユーザが所望するアシスタント応答を実現するためには、ユーザが発する任意の言葉を認識してテキストデータに変換する詳細音声認識処理、及び、詳細音声認識機能にて得られたテキストデータに基づきユーザの発話内容の意味及びユーザの意図を理解する自然言語処理が必要となる。詳細音声認識処理及び自然言語処理は多くのリソースを要する。このため、アシスタントシステムSYSでは、詳細音声認識処理及び自然言語処理をサーバ装置40に担わせ、電子機器10の音声認識部12及びワード検出部13にはキーワード又はリレイションワードの発話があったか否かの認識及び検出処理だけを担わせている。
【0055】
このため、アシスタント機能が起動すると、システム制御部11は、キーワードに続いて発話されるユーザの要求内容を示すマイクロホン20の出力音声信号を通信部17を通じサーバ装置40に送信する。サーバ装置40は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの要求内容に応えるための成果データを生成し、当該成果データを電子機器10に送信する。システム制御部11は、受信した成果データに基づいてアシスタント応答を行う。
【0056】
例えば、アシスタント機能の起動後、ユーザから「今日の天気を教えて」という発話があった場合を考える。この場合、「今日の天気を教えて」という発話の電気信号であるマイクロホン20の出力音声信号がシステム制御部11からサーバ装置40に送信され、サーバ装置40は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの要求内容(今日の天気の情報を知りたいという要求内容)を認識する。この認識結果に基づき、サーバ装置40は、天候情報の提供サイトから車両CRの現在地の天候情報を取得し、取得した天候情報を成果データとして電子機器10に送信する。システム制御部11は、アシスタント応答として、受信した天候情報(例えば「今日は、終日、晴れの予報です」)を音声応答又は表示応答によりユーザに通知する。
【0057】
また例えば、アシスタント機能の起動後、ユーザから「ABC市役所を目的地に設定して」という発話があった場合を考える。この場合、「ABC市役所を目的地に設定して」という発話の電気信号であるマイクロホン20の出力音声信号がシステム制御部11からサーバ装置40に送信され、サーバ装置40は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの要求内容(ABC市役所を目的地に設定したいという要求内容)を認識する。この認識結果に基づき、サーバ装置40は、地図情報の提供サイトからABC市役所の位置情報を取得し、取得した位置情報を成果データとして電子機器10に送信する。システム制御部11は、受信した位置情報に基づき、アシスタント応答として、ナビゲーション動作における目的地を設定すると共にABC市役所を目的地に設定したナビゲーション動作を開始し、この際、ABC市役所を目的地に設定したことを音声応答又は表示応答によりユーザに通知する。
【0058】
また例えば、アシスタント機能の起動後、ユーザから「ワイパーをオンにして」という発話があった場合を考える。この場合、「ワイパーをオンにして」という発話の電気信号であるマイクロホン20の出力音声信号がシステム制御部11からサーバ装置40に送信され、サーバ装置40は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの要求内容(ワイパーを作動させたいという要求内容)を認識する。サーバ装置40は、この認識結果に基づく情報(例えば、ワイパーを作動させる要求がユーザからあったことを示す情報)を成果データとして電子機器10に送信する。システム制御部11は、受信した成果データに基づき、アシスタント応答として「了解しました」という音声出力による音声応答を行うと共に(この際、表示応答も行っても良い)、ワイパーを作動させる。
【0059】
<<第2実施例>>
アシスタントシステムSYSの第2実施例を説明する。起動制御部15は、キーワードの発話が検出されたとき、ユーザの発話の文脈も考慮して、アシスタント機能の起動の是非を判定しても良い。これについて説明する。
【0060】
第2実施例では、アシスタント機能の起動の是非判定のためにユーザの発話の文脈を考慮することから、ユーザの発話の電気信号であるマイクロホン20の出力音声信号が、アシスタント機能の起動前においてもシステム制御部11からサーバ装置40に送信される。サーバ装置40は、受信した出力音声信号に対し詳細音声認識処理及び自然言語処理を行うことでユーザの発話の文脈を認識する。例えば、発話が、質問とその質問に対する回答とで構成されているか否かに基づいて、或いは、同じ話題の会話中のものであるか否かに基づいて、当該発話の文脈を認識する。
【0061】
そして、
図8の第1発話パターンにおいては、ユーザの発話の文脈の認識結果に基づき、リレイションワード及びキーワードの発話が一連の会話の中での発話であるのか否かをサーバ装置40が判断する。リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断された場合には、所定の非起動対応信号がサーバ装置40から電子機器10に送信され、リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断されなかった場合には、所定の起動対応信号がサーバ装置40から電子機器10に送信される。
【0062】
例えば、リレイションワードを含む第1の発話に続きキーワードを含む第2の発話があった場合において、第1の発話が質問の発話であって且つ第2の発話が当該質問に対する回答の発話であると文脈認識が成されたときには、或いは、第1の発話及び第2の発話が同じ話題の会話中のものであると文脈認識が成されたときには、リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断し、そうでないときにはリレイションワード及びキーワードの発話が一連の会話の中での発話であると判断しない、といったことが可能である。
【0063】
図8の第1発話パターンにおいては、リレイションワードの発話の検出後にキーワードの発話が検出されるので、
図7のステップS14を経由してステップS15に至り、非起動判定条件の成否が判定される。第2実施例において、非起動判定条件の成否は、非起動対応信号及び起動対応信号の何れを受信したかで定まる。即ち、サーバ装置40から非起動対応信号が電子機器10に送信され、非起動対応信号が電子機器10にて受信されると非起動判定条件が成立し、ステップS15からステップS16に進んでアシスタント機能が非起動とされる。一方、サーバ装置40から起動対応信号が電子機器10に送信され、起動対応信号が電子機器10にて受信されると非起動判定条件が不成立となり、ステップS15からステップS18に進んでアシスタント機能が起動される。
【0064】
第2実施例において非起動判定条件の成否は発話間隔TDETに依存しないものであって良い。従って、第1発話パターンにおいて、ユーザの発話の文脈の認識結果に基づき、リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断されたならば、発話間隔TDETと判定時間TREFとの長短関係に関係なくアシスタント機能を非起動とし、リレイションワード及びキーワードの発話が一連の会話の中での発話であると判断されなかったならば、発話間隔TDETと判定時間TREFとの長短関係に関係なくアシスタント機能を起動して良い。但し、ユーザの発話の文脈の認識結果と発話間隔TDETとの双方を考慮して、アシスタント機能を起動の是非を判断するようにしても良い。
【0065】
第2実施例においても、
図10の第2発話パターンでは、第1実施例と同様に、アシスタント機能が起動する。
【0066】
尚、キーワードの発話が検出された場合であっても、ユーザの発話の文脈の認識結果に基づき、当該キーワードが一連の文章の発話の途中において発話されたものであると判断されるときには、アシスタント機能を非起動としても良い。これは、キーワードの発話の検出前にリレイションワードの発話が検出された場合でも、キーワードの発話の検出前にリレイションワードの発話が検出されなかった場合でも、同様であって良い。
【0067】
<<第3実施例>>
アシスタントシステムSYSの第3実施例を説明する。第1及び第2実施例では、リソースの観点から詳細音声認識処理及び自然言語処理をサーバ装置40に担わせることを想定したが、サーバ装置40の機能の全部又は一部をシステム制御部11に担わせても良い。サーバ装置40の機能の全部をシステム制御部11に担わせる場合、詳細音声認識処理及び自然言語処理がシステム制御部11にて行われることになる。そして、この場合、
図1のアシスタントシステムSYSからサーバ装置40を省略でき、第2実施例で示したような文脈を考慮したアシスタント機能の起動制御も電子機器10単体で行うことができる。
【0068】
<<第4実施例>>
アシスタントシステムSYSの第4実施例を説明する。キーワードの発話があってワード検出部13によりキーワードの発話が検出されたにも関わらずアシスタント機能を非起動としたとき、起動制御部15はユーザに対し所定の非起動通知を行うようにしても良い。つまり、
図7の動作の流れでは、ステップS16にて所定の非起動通知を行うようにしても良い。非起動通知は、電子機器10に接続又は内蔵された表示画面(不図示)を用いた視覚的な通知を含んでいても良いし、これに加えて又はこれに代えて、スピーカ30を用いた聴覚的な通知を含んでいても良い。非起動通知の内容は任意である。非起動通知は、キーワードの発話が検知されたが誤起動抑制アルゴリズムによりアシスタント機能の起動がマスクされた旨を示すような通知であっても良いし、より簡素な通知であっても良い。
【0069】
非起動通知を行うようにしておくことにより、ユーザは、適切に誤起動が抑制されていることを認識でき、安心してアシスタントシステムSYSの利用を継続することができる。
【0070】
<<第5実施例>>
アシスタントシステムSYSの第5実施例を説明する。
【0071】
リレイションワードの発話の検出後にキーワードの発話が検出される第1発話パターン(
図8参照)おいてアシスタント機能が非起動とされうる方法を上述した。しかしながら、キーワードの発話の検出後にリレイションワードの発話が検出される第3発話パターン(不図示)においても、ユーザの発話の文脈等を適宜考慮してアシスタント機能が非起動とされることが有りうるよう、アシスタントシステムSYSを構成しても良い。
【0072】
アシスタント装置1及び電子機器10が車両CRに搭載されることを想定したが(
図2参照)、アシスタント装置1又は電子機器10は車両CR以外の任意の装置に搭載されて良い。例えば、アシスタント装置1又は電子機器10は、室内設置用のテレビ受信機、空気調和器、オーディオ機器のような家電機器に搭載されても良いし、スマートホン、パーソナルコンピュータ又はタブレットのような情報端末装置に搭載されても良い(アシスタント装置1自体が、又は、電子機器10自体が、情報端末装置であっても良い)。
【0073】
本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。
【符号の説明】
【0074】
SYS アシスタントシステム
1 アシスタント装置
10 電子機器
11 システム制御部
12 音声認識部
13 ワード検出部
14 ワード格納部
15 起動制御部
16 音声合成部
17 通信部
20 マイクロホン
30 スピーカ
40 サーバ装置
CR 車両