(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024054651
(43)【公開日】2024-04-17
(54)【発明の名称】対話装置及び対話制御方法
(51)【国際特許分類】
G10L 15/22 20060101AFI20240410BHJP
G10L 15/00 20130101ALI20240410BHJP
G10L 15/08 20060101ALI20240410BHJP
【FI】
G10L15/22 470Z
G10L15/22 300Z
G10L15/22 460Z
G10L15/00 200J
G10L15/08 300B
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022161020
(22)【出願日】2022-10-05
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(74)【代理人】
【識別番号】110000486
【氏名又は名称】弁理士法人とこしえ特許事務所
(72)【発明者】
【氏名】上島 宏幸
(72)【発明者】
【氏名】大泉 透
(57)【要約】
【課題】音声認識機能を修正し、発話の繰り返し抑制できる。対話装置を提供する。
【解決手段】ユーザの音声を認識して、前記ユーザとの対話を行う対話装置であって、コントローラ100は、音声認識エンジンを用いた音声認識機能により、ユーザの発話による音声コマンドを受け付け、音声コマンドを修正するための修正入力を検知した場合には修正モードを起動し、修正モードにおいて、音声認識機能で認識された音声コマンドを修正する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザの音声を認識して、前記ユーザとの対話を行う対話装置であって、
音声認識エンジンを用いた音声認識機能により、前記ユーザの発話による音声コマンドを受け付けるコントローラを有し、
前記コントローラは、
前記音声コマンドを修正するための修正入力を検知した場合には、前記音声コマンドを修正する修正モードを起動し、
前記修正モードにおいて、前記音声認識機能により認識された前記音声コマンドを修正する対話装置。
【請求項2】
請求項1記載の対話装置であって、
前記コントローラは、前記ユーザによるスイッチ操作、及び/又は、前記ユーザによる特定コマンドの発話があった場合に、前記修正入力が検知されたと判定する対話装置。
【請求項3】
請求項1又は2記載の対話装置であって、
前記コントローラは、
前記修正モードで修正された前記音声コマンドを含む音声が正常に認識できるように、前記音声認識エンジンを更新し、
前記ユーザのスイッチ操作により前記修正モードを終了するための操作入力を検知した場合には、前記修正モードを終了する対話装置。
【請求項4】
請求項1又は2記載の対話装置であって、
前記コントローラは、
前記修正モードにおいて、前記音声認識機能により認識された音声コマンドを単語で分割し、
分割された前記音声コマンドを、ディスプレイの表示画面に表示させて、
前記分割された前記音声コマンドのうち、前記ユーザにより選択された前記単語を修正する対話装置。
【請求項5】
請求項4記載の対話装置であって、
前記コントローラは、
前記分割された前記音声コマンドに含まれる単語毎に異なる表示形態で、前記ディスプレイの表示画面に表示させる対話装置。
【請求項6】
請求項4記載の対話装置であって、
前記コントローラは、
前記ユーザにより選択された前記単語の修正候補と、複数の前記修正候補と対応させた数字及び/又は記号とを、前記ディスプレイの表示画面に表示させて、
前記音声認識機能により認識された前記数字及び/又は前記記号に対応する前記修正候補で前記単語を修正する対話装置。
【請求項7】
請求項4記載の対話装置であって、
前記コントローラは、
前記音声認識機能により認識された音声に基づき、前記分割された音声コマンドのうち、修正対象となる修正対象単語を抽出し、
前記修正対象単語に対する複数の修正候補を、前記ディスプレイの表示画面に表示させる対話装置。
【請求項8】
請求項1又は2記載の対話装置であって、
前記コントローラは、
前記音声認識機能により認識された音声の音声認識精度を算出し、
前記音声認識精度が所定精度閾値より低い場合には、前記修正モードに関する画面をディスプレイの表示画面に表示させる対話装置。
【請求項9】
請求項8記載の対話装置であって、
前記コントローラは、
前記音声認識機能により受け付けた前記音声コマンドが第1音声コマンドである場合には、車両の運転に関連する運転関連機器を制御し、
前記音声認識機能により受け付けた前記音声コマンドが第2音声コマンドである場合には、車両の運転に関連しない運転非関連機器を制御し、
前記所定精度閾値は、前記第1音声コマンドに対して設定される第1精度閾値と、前記第2音声コマンドに対して設定される第2精度閾値とを含み、
前記第1精度閾値は前記第2精度閾値より高い対話装置。
【請求項10】
請求項1又は2記載の対話装置であって、
前記コントローラは、
前記音声認識機能により第1ユーザの音声を認識し、前記第1ユーザの音声に含まれる音声コマンドを受け付け、
前記修正モードにおいて、前記音声認識機能により第2ユーザの音声を認識し、前記第2ユーザの音声に基づき、前記第1ユーザの音声に含まれる音声コマンドを修正する対話装置。
【請求項11】
コントローラにより実行される、ユーザの音声を認識して前記ユーザとの対話を行う対話制御方法であって、
前記コントローラは
音声認識エンジンを用いた音声認識機能により、前記ユーザの発話による音声コマンドを受け付け、
前記音声コマンドを修正するための修正入力を検知した場合には、前記音声コマンドを修正する修正モードを起動し、
前記修正モードにおいて、前記音声認識機能により認識された前記音声コマンドを修正する対話制御方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話装置及び対話制御方法に関するものである。
【背景技術】
【0002】
車両の乗員の発話に応じて、応答を含むサービスを提供するエージェント装置が知られている(例えば特許文献1)。このエージェント装置は、認識部により乗員の発話に含まれる要求を認識し、認識された要求を複数のエージェント機能部に出力し、複数のエージェント機能部のそれぞれによってなされた結果に基づいて、複数のエージェント機能部のうち、乗員の発話に対する応答を行うエージェント機能部を選択する。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来のエージェント装置において、認識部による音響処理で得られた音声が乗員の意図と異なる場合には、音声認識機能を修正することなく、再び同じ音声を発すると、認識部は再び誤って音声を処理することになるため、発話が繰り返されることになる。
【0005】
本発明が解決しようとする課題は、音声認識機能を修正し、発話の繰り返し抑制できる対話装置及び対話方法を提供することである。
【課題を解決するための手段】
【0006】
本発明は、音声認識エンジンを用いた音声認識機能により、ユーザの発話による音声コマンドを受け付け、音声コマンドを修正するための修正入力を検知した場合には修正モードを起動し、修正モードにおいて、音声認識機能で認識された音声コマンドを修正することによって、上記課題を解決する。
【発明の効果】
【0007】
本発明によれば、音声認識機能を修正し、発話の繰り返し抑制できる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、本発明の一実施の形態に係る対話サービスシステムを示すブロック図である。
【
図2】
図2は、
図1のディスプレイの表示画面を示す図である。
【
図4A】
図4Aは、本発明の変形例におけるディスプレイの表示画面を示す図である。
【
図4B】
図4Bは、本発明の変形例におけるディスプレイの表示画面を示す図である。
【
図4C】
図4Cは、本発明の変形例におけるディスプレイの表示画面を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明に係る対話装置1の一実施の形態を図面に基づいて説明する。
図1は、本発明の一実施の形態に係る対話装置を示すブロック図である。対話装置は、車両に搭載された装置であって、ディスプレイ10と、ハンドルスイッチ20と、マイク30と、スピーカ40と、コントローラ100を備えている。本実施形態に係る対話装置は、音声処理機能を用いて乗員と対話して、乗員にサービスを提供するシステムと、ディスプレイの表示画面を制御するシステムを含んでいる。
【0010】
ディスプレイ10は、タッチパネル式のディスプレイであり、車両に搭載されている。タッチパネル式のディスプレイ10は、感圧センサを備え、接触操作時にディスプレイ10に与えられた押圧力を抵抗値や電圧などから測定することで、ユーザによるタッチ操作を検知する。感圧センサの機構は特に限定されず、出願時に知られた方法を適宜に用いることができる。またタッチパネルは、感圧式に限らず、静電式等、他の方式でもよい。ディスプレイ10は、ダッシュボードの正面部分のディスプレイ(センタディスプレイ)であり、運転席と助手席の間に配置されている。ディスプレイ10は、運転席に座った状態の乗員と助手席に座った状態の乗員がそれぞれ触れることができる位置に設けられている。また、ディスプレイ10は、必ずしもドライバーと助手席乗員の両乗員が触れる位置に配置する必要は無く、例えばドライバーのみが触れることが可能な位置に配置されてもよい。またディスプレイ10は、ダッシュボードに限らず、例えば後部座席の乗員が触れる位置に配置されてもよい。乗員は指又は指に代わる操作機器により、ディスプレイ10に触れるタッチ操作により、メニュー画面からアイコン、ボタン等を選択すると、ディスプレイ10の画面表示が遷移する。
【0011】
ハンドルスイッチ(ステアリングスイッチ)20は、対話システムを立ち上げる(起動する)ためのスイッチであり、ハンドルに設けられている。乗員(ドライバー)は、対話システムによりサービスの提供を受けたい場合には、ハンドルスイッチ20を操作して、対話システムを起動させる。対話システムは、車両に設けられた音声認識エンジンを用いて音声処理を行い、乗員との対話を通じて、乗員の音声により指定されたサービスを提供する。また対話システムは、音声認識機能に誤りが生じた場合には、音声コマンドを修正できる機能を有している。例えば、乗員は、対話システムとの対話中に、音声認識機能の誤りに気付いた場合には、ハンドルスイッチ20を操作して、通常時の音声認識モードから、音声コマンドを修正する修正モードに遷移できる。
【0012】
マイク30は、車両に設けられており、乗員の音声を電気信号に変換してコントローラ100に送信する。スピーカ40は、車両に設けられており、音声システム側で生成される音声をユーザに対して発する。
【0013】
コントローラ100は、ハードウェア及びソフトウェアを備えたコンピュータにより構成され、プログラムを格納したメモリと、このメモリに格納されたプログラムを実行するCPU等を有している。また、コントローラ100は、機能ブロックとして、音声認識制御部110及び表示制御部120を有しており、音声認識制御部110及び表示制御部120の各機能を実現するためのプログラムがメモリに記憶されている。そして、コントローラ100に含まれるコンピュータがプログラムを実行することで、機能ブロックの各機能を実現する。またコントローラ100は、ディスプレイ10、ハンドルスイッチ20、マイク30、スピーカ40等とCAN通信網等で接続されている。コントローラ100は、音声認識制御部110及び表示制御部120に限らず、例えばナビゲーションシステムを制御する機能等、車室内の各種システムを制御するための制御ブロックを有しており、他の車載機器を制御する。またコントローラ100は、空調機器、サンルーフ等の車載機器を制御するコントロールユニット(ECU)とCAN通信網で接続されている。そして、コントローラ100は、対話システムを通じて、ユーザから車載機器を操作する指令を受け付けた場合には、操作対象を制御するための制御指令を、ECUに送信する。なお、コントローラ100を有する装置が、本発明の「対話装置」に相当する。
【0014】
音声認識制御部110は、音声認識エンジンを用いた音声認識機能により、ユーザの発話による音声コマンドを受け付ける音声認識モードと、音声コマンドを修正する修正モードとを選択して、音声認識エンジンを制御する。音声認識モードでは、音声認識制御部110は、マイク30から入力された乗員の音声情報からユーザの音声情報を識別し、ユーザの音声情報に対して音声認識処理を行う。乗員の音声情報の識別処理には、公知の技術を適用することができる。また、車内に設けられた車内カメラ(図示しない)で撮像した画像データから発話者を特定し、音声情報の識別処理をしてもよい。音声認識処理では、音声情報をデジタル化して音声コマンドを生成する。これにより、音声認識制御部110は、ユーザの発話による音声コマンドを受け付ける。さらに、音声認識制御部110は、音声認識処理において、生成した音声コマンドを単語で分割する。音声コマンドはテキストデータ(文字列)で示される。例えば乗員が「ニッサンテクニカルセンター」と発した場合には、「ニッサン」、「テクニカル」、「センター」のように1つ以上の単語を抽出する。また音声認識モードでは、音声認識制御部110は、認識された音声コマンドから、発話者の意図を理解して、その意図に対する返答を予め記録されたデータを探索して、スピーカ40から回答に対応する音声を出力する。乗員の音声認識処理には、公知の技術を適用できる。
【0015】
音声認識制御部110は、音声認識モードにおいて、音声認識機能によりユーザの音声を認識した後に、音声コマンドを修正するための修正入力を検知した場合には修正モードを起動させる。例えば、音声認識処理において、音声情報をデジタル化する工程、音声コマンドを単語に分割する工程、音声コマンドに対する返答する工程など、ユーザがシステムと対話を行うための各処理工程で誤りが生じた場合には、ユーザは、その誤りを修正するために修正モードを起動させる。例えばハンドルスイッチ20の操作や、修正モードの起動のために予め割り当てられている特定のコマンドをユーザが発することで、修正モードが起動する。特定のコマンドは、例えば「修正モード」等の複数の単語やセンテンスであり、予め登録されている。
【0016】
修正モードでは、音声コマンドの音の認識の誤り、意味の誤り、変換の誤り、単語の区切りの誤り等が修正される。なお、音声コマンドの修正方法は後述する。音声認識制御部110は、修正モードにおいて、音声認識モードで受け付けた音声コマンドを修正する。なお、音声認識機能を用いた音声認識は、修正モードでも有効であり、ユーザは、システムとの対話を通じて、音声コマンドを修正することができる。なお、以下の説明では、ユーザを乗員とも称する。音声認識制御部110は、音声認識モードにおいて、同じ音声が発された場合に、修正された音声コマンドで受け付けられるように、音声認識エンジンを更新する。
【0017】
表示制御部120は、ディスプレイ10の表示画面を制御する。また表示制御部120は、ディスプレイ10によりタッチ操作を検知した場合には、表示画面上におけるタッチ操作の位置やタッチ操作の種類に応じた操作指令を受け入れる。表示制御部120は、対話システムを操作するための操作画面、対話システムの設定画面、対話システムから提供される情報を表示する画面等をディスプレイ10に表示させる。また、表示制御部120は、音声認識制御部110の制御に応じて、ディスプレイ10の表示画面を遷移させる。
【0018】
表示制御部120は、音声認識モードにおける音声認識の状態に合わせて、ディスプレイ10の表示画面を遷移させる。例えば、対話システムの起動のためにハンドルスイッチ20が操作されると、あるいは、乗員がウェイクアップワードを発すると、音声認識制御部110は音声認識モードを起動させる。このとき、表示制御部120は、音信認識エンジンの起動中を示す「初期状態」の画面を、ディスプレイ10に表示させる。
【0019】
図2は、対話システムの動作状態が「初期状態」である場合に、ディスプレイ10に表示される表示画面を示している。
図2に示すように、「初期状態」の表示画面は、メインメッセージ50、サンプルメッセージ60、及びアニメーション70を含んでいる。メインメッセージ50は、対話システムから乗員に向けたメッセージであって、乗員に音声入力を促す表記である。乗員はメインメッセージ50を確認することで、対話システムが起動されたことを確認できる。すなわち、メインメッセージ50は、対話システムが起動されたことを示す動作状態画像に相当する。サンプルメッセージ60は、対話システムを利用するために、乗員が発すべき音声の例文を表しており、コマンドを含んでいる。コマンドは、対話システムを通じて乗員が受けたいサービスの動作や状態を表す単語や、地名、人名、一般名称などの単語等である。サンプルメッセージ60は、機能ボタンを兼ねており、例えば乗員が3段目のメッセージ「電話番号を入力」をタッチした場合には、電話番号を入力するための画面に遷移する。
【0020】
アニメーション70は、所定の機能におけるステータスを周期的な動きで表した画像である。
図2の例では、所定の機能は対話システムにおる音声認識機能に相当し、ステータスは対話システムの動作状態に相当する。周期的な動きは、波形の動きで表される。つまり、アニメーション70には、対話システムの4つ動作状態を表すために、4つのアニメーションがある。つまり、対話システムによる音声処理の進み具合を、4つのアニメーションで表している。アニメーション70は、波の形、波の色、波の大きさ等により、アニメーションをみた乗員が見てわかるように動作状態毎に区別されている。そして、コントローラ100は、乗員の音声入力に応じて、アニメーション70を動作させることで、音声処理の進み具合をディスプレイ10の表示画面に表示させる。
図2のアニメーション71は「初期状態」を表している。アニメーション71は、灰色の波形であり、振幅が小さめの波である。アニメーション70は、メインメッセージ50とサンプルメッセージ60との間の位置に表示される。なお、対話システムの動作状態を示す動作状態画像は、メインメッセージ50及びアニメーション70の少なくともいずれか一方の画像を含めばよい。
【0021】
音声認識エンジンの起動処理が終わり、対話システムの動作状態が「初期状態」から「音声受付可能状態」になると、表示制御部120は、ディスプレイ10の表示画面を「初期状態」を示す画面から「音声受付可能状態」の画面に切り替える。「音声受付可能状態」は、乗員が音声を発した場合に、音声認識処理が実行されることを表している。そして、「音声受付可能状態」を表示中に、音声が認識された場合には、表示制御部120は、ディスプレイ10の表示画面を、「音声受付可能状態」の画面から「音声検知状態」の画面に切り替える。「音声検知状態」は、対話システムが音声を検知している状態を表している。
【0022】
音声認識制御部110は、入力された音声に対して音声認識処理を実行する。表示制御部120は、音声認識制御部110による音声認識処理が行われている間、ディスプレイ10の表示画面を、「音声処理状態」の画面にする。乗員は、「音声処理状態」の表示画面を見ることで、音声処理中であることを確認できる。表示制御部120は、アニメーション70の動きや色などを変えることで、対話システムの各動作状態(「初期状態」、「音声受付可能状態」、「音声検知状態」、及び「音声処理状態」)を表す。なお、表示制御部120は、対話システムの動作状態に応じて、画面の全体を異なる表示としてもよい。
【0023】
次に、
図2及び
図3A~3Fを参照しつつ、音声コマンドの修正方法を説明する。音声認識制御部110は、対話システムを起動させるためのウェイクアップワードを認識すると、音声認識モードを選択し、音声認識エンジンを起動させる。表示制御部120は、
図2に示す、「初期状態」の画面をディスプレイ10に表示させる。乗員が発話をすると、音声認識制御部110は、マイク30から入力された乗員の音声情報に対して、音声認識処理を行うことで、音声情報をテキスト化して音声コマンドを生成する。このとき、音声認識制御部110は、音声を発した個人を識別する、音声情報の識別処理をしなくてもよい。
【0024】
表示制御部120は、音声認識制御部110で受け付けた音声コマンドをディスプレイに10に表示させる。
図3Aは、音声認識モードで受け付けた音声コマンドをディスプレイ10に表示させたときの表示例を示す。
図3Aに示すように、音声認識モードにおける認識結果がサンプルメッセージ60として表示される。
図3Aの例では、コントローラ100は、音声認識機能を用いてナビゲーションシステムを制御しており、乗員は目的地を指定するために「日産テクニカルセンター」と発したが、音声認識制御部110は、音声認識処理の工程のうち、「にっさん」の変換処理を誤り、「日参」と変換したと仮定する。そのため、音声認識制御部110は、「日参テクニカルセンター」として音声コマンドを受け付けている。
【0025】
音声認識制御部110は、音声コマンドを修正するための修正入力を検知する。音声認識制御部110は、乗員によるスイッチ操作、及び/又は、乗員による特定コマンドの発話があった場合に、修正入力が検知されたと判定する。スイッチ操作は、ハンドルスイッチ20の操作、ディスプレイ10のタッチ操作等である。特定コマンドは、例えば「修正モード」等の音声である。
図3Aの例では、乗員が「日参」を修正するためにハンドルスイッチ20が操作された場合に、音声認識制御部110は、修正入力が検知されたと判定し、修正モードを起動させる。表示制御部120は、メインメッセージ50として、『「修正モード」動作中』のメッセージを表示させ、サンプルメッセージ60として、「<どこを修正しますか> 日参テクニカルセンター」を表示させる。
図3Bは、修正モードに入ったときの、ディスプレイ10の表示画面の例を示す。
図3Bに示すように、メインメッセージ50は修正モードに入ったことを示している。なお、修正モードに入ったことを示す表示は、メインメッセージ50に限らずボップアップ表示としてもよい。音声認識制御部110は、修正対象となる音声コマンドを単語で分割し、表示制御部120は分割された音声コマンドを、ディスプレイ10に表示させる。このとき、表示制御部120は、分割された音声コマンドに含まれる単語ごとに異なる表示形態で、ディスプレイ10の表示画面に表示させてもよい。例えば、
図3Bに示すように、表示制御部120は文字の書式を変えることで単語の表示形態を変えてもよい。他の例では、文字の色を変えたり、文字の大きさを変えたり、単語の間にスペースも設けたりすることで、単語の表示形態を変えてもよい。そして、乗員は修正したい単語を発話する。なお、乗員は、ディスプレイ10の表示画面上で修正したい単語の部分をタッチする、あるいは、乗員は、ハンドルスイッチ20の操作で、修正したい単語を選択してもよい。
【0026】
例えば、乗員は修正したい単語「にっさん」を発話する。音声認識制御部110は、音声認識機能により、乗員が発した単語を認識し、サンプルメッセージ60に含まれる音声コマンドのうち、認識した単語と同じ単語、あるいは、認識した単語に類似する単語を抽出する。抽出された単語が修正対象単語となる。音声認識制御部110は修正対象単語に対する複数の修正候補を特定する。修正候補は、乗員が発した修正したい単語と同じ音及び又は類似の音をもつ単語であり、例えば、ひらがな、カタカナ、漢字、外国語で表記される文字である。
図3Cは、修正モードにおいて、修正候補を表示したときの、ディスプレイ10の表示画面の例を示す。
図3Cに示すように、表示制御部120は修正候補をディスプレイ10の表示画面に表示させる。また表示制御部120は、サンプルメッセージ60として「<選んでください>」を表示させる。
図3Cの例では、修正したい単語として選択された単語は修正候補に含めていない。また、表示制御部120は、複数の修正候補と、複数の修正候補と対応させた数字とを、ディスプレイ10の表示画面に表示させる。例えば
図3Cの例では、複数の修正候補が候補順で「にっさん」、「ニッサン」、「日産」と並べた場合に、対応する数字「1、2、3」は、修正候補の上位から順番に振られている。なお、数字の代わりに、例えば「A、B、C」、「い、ろ、は」のような文字などの記号でもよい。また色分けでもよい。
図3Cに示す表示画面がディスプレイ10に表示されている状態で、乗員は「サン(3)」と発話する。音声認識制御部110は、音声認識機能により、乗員が発した単語「サン(3)」を認識し、数字「3」に対応する単語「日産」を選択する。
【0027】
図3Dは、修正モードにおいて、修正候補が選択されたときの、ディスプレイ10の表示画面の例を示す。
図3Dに示すように、表示制御部120は、選択された単語の周囲に枠61を表示させる。枠61の表示後、所定時間(数秒程度)を経過すると、音声認識制御部110は、修正対象として抽出されたコマンドを、選択された単語に置き換えることで、音声コマンドを修正する。
【0028】
図3Eは、音声コマンドの修正内容を乗員に確認するときの、ディスプレイ10の表示画面の例を示す。
図3Eに示すように、表示制御部120は、修正された音声コマンドをディスプレイ10の表示画面に表示させる。表示制御部120は、修正後の、サンプルメッセージ60として「<これでよいですか?> 日産テクニカルセンター」を表示させる。
図3Eに示す表示画面がディスプレイ10に表示されている状態で、乗員は「はい」と発話する。音声認識制御部110は、音声認識機能により、乗員が発した単語「はい」を認識し、音声コマンドの修正を確定する。一方、乗員が「いいえ」と発話した場合には、表示制御部120は、ディスプレイ10の表示画面を
図3Cに示す表示画面に戻し、複数の修正候補をディスプレイ10の表示画面に表示させる。
【0029】
図3Fは、修正後の音声コマンドを表示するときの、ディスプレイ10の表示画面の例を示す。
図3Fに示すように、表示制御部120は、サンプルメッセージ60として「<修正します> 日産テクニカルセンター」をディスプレイ10の表示画面に表示させる。すなわち、表示制御部120は、修正確定後の音声コマンドを表示させる。
【0030】
このように、音声認識制御部110は、音声コマンドを分割し、分割された音声コマンドの中から、修正対象となる単語を乗員に選択させる。さらに音声認識制御部110は、修正対象として選択された単語に対して修正候補を抽出し、表示制御部120は、複数の修正候補をディスプレイ10の表示画面に表示して、乗員に修正候補を選択させる。そして、音声認識制御部110は、修正対象の単語を修正候補の単語に置き換えることで、音声コマンドを修正する。音声認識制御部110は、修正された音声コマンドを含む音声が正常に認識できるように音声認識エンジンを更新する。音声認識制御部110は、更新された音声認識エンジンを用いて音声認識処理を行うことで、音声認識精度を高めることができる。
【0031】
図3Fに示す表示画面がディスプレイ10に表示されている状態で、乗員が、修正モードを終了させるために、ハンドルスイッチ20を操作する。コントローラ100は、スイッチ操作により修正モードを終了するための操作入力を検知しており、操作入力が検知されたと判定した場合には、修正モードを終了させ、音声認識モードに戻る。またコントローラ100の表示制御部120は、「日産テクニカルセンター」を目的としたルート演算を実行する旨の表示、例えばサンプルメッセージ60として「<実行しますか?>又は<ルート検索を実行しますか?>」をディスプレイ10の表示画面に表示させる。乗員は、「はい」と発すると、ルート検索が開始する。なお、目的地「日産テクニカルセンター」のルート検索は、修正モードを終了するための操作入力を検知した時点で実行してもよく、その際の操作入力は、ハンドルスイッチ20の操作に限らず、例えば乗員が「実行」と発話することとしてもよい。なお、
図3A~
図3Fでは、乗員が「日参」を修正した例を説明したが、コントローラ100は、受け付けた音声コマンドの一部の単語に限らず、乗員が音声コマンドの全体の修正を要求した場合には、音声コマンド全体を修正してもよい。
【0032】
上記のように、本実施形態に係る対話装置又は対話方法において、コントローラ100は、音声認識エンジンを用いた音声認識機能により、乗員の発話による音声コマンドを受け付け、音声コマンドを修正するための修正入力を検知した場合には修正モードを起動し、修正モードにおいて、音声認識機能で認識された音声コマンドを修正する。これにより、音声認識機能を修正し、発話の繰り返し抑制できる。また音声コマンドを容易な操作で修正できる。
【0033】
また本実施形態において、コントローラ100は、乗員によるスイッチ操作、及び/又は、乗員による特定コマンドの発話があった場合に、修正入力が検知されたと判定する。これにより、音声コマンドを容易な操作で修正できる。
【0034】
また本実施形態において、コントローラ100は、修正モードで修正された音声コマンドを含む音声が正常に認識できるように、音声認識エンジンを更新し、乗員のスイッチ操作により修正モードを終了するための操作入力を検知した場合には、修正モードを終了する。これにより、音声コマンドを容易な操作で修正できる。
【0035】
また本実施形態において、コントローラ100は、修正モードにおいて、音声認識機能により受け付けた音声コマンドを単語で分割し、分割された音声コマンドを、ディスプレイ10の表示画面に表示させて、分割された音声コマンドのうち、乗員により選択された単語を修正する。これにより、音声コマンドを容易な操作で修正できる。
【0036】
また本実施形態において、コントローラ100は、分割された音声コマンドに含まれる単語毎に異なる表示形態で、ディスプレイ10の表示画面に表示させる。これにより、乗員は、修正対象となる単語をディスプレイ10の表示画面上で容易に確認できる。
【0037】
また本実施形態において、コントローラ100は、乗員により選択された単語の修正候補と、複数の修正候補と対応させた数字及び/又は記号とを、ディスプレイの表示画面10に表示させて、音声認識機能により認識された数字及び/又は前記記号に対応する修正候補で単語を修正する。これにより、音声コマンドに含まれる単語を容易な操作で修正できる。
【0038】
また本実施形態において、コントローラ100は、音声認識機能により認識された音声に基づき、分割された音声コマンドのうち、修正対象となる修正対象単語を抽出し、修正対象単語に対する複数の修正候補をディスプレイ10の表示画面に表示させる。これにより、乗員は修正候補の単語を容易に把握できる。
【0039】
なお本実施形態の変形例として、音声認識制御部110が、音声認識モードで音声認識エンジンを制御していない状態で、修正モードを起動させた場合には、コントローラ100は、過去の発話内容をディスプレイ10に表示して、修正したい音声コマンドを乗員に選択させてもよい。例えば、音声認識機能を用いてナビゲーションシステムを制御する場合には、過去に音声で入力された目的地の名称がディスプレイ10に表示される。コントローラ100は、例えば、過去1回目(前回)から3回目までの発話内容をディスプレイ10の表示画面に表示させる。このとき、
図3Cの例と同様に、発話内容を示すサンプルメッセージと、対応する数値を表示する。例えば乗員が「サン(3)」と発話した場合には、3回前の発話内容であるサンプルメッセージが選択される。コントローラ100の音声認識制御部110は、選択されたサンプルメッセージに含まれる音声コマンドを単語で分割し、表示制御部120は、分割された音声コマンドをディスプレイ10に表示させる。このとき、表示制御部120は、分割された音声コマンドに含まれる単語ごとに色分けしてディスプレイ10に表示してもよい。
【0040】
また本実施形態の他の変形例として、音声コマンドの音の認識に誤りがあった場合の修正方法を説明する。
図4Aは、音声認識モードで受け付けた音声コマンドをディスプレイ10に表示させたときの表示例を示す。
図4Aの例では、コントローラ100は、音声認識機能を用いてナビゲーションシステムを制御しており、乗員は目的地を指定するために「ニッサンテクニカルセンター」と発したが、音声認識制御部110は、音声認識処理の工程のうち、「ニッサン」の音の認識処理を誤り、「ニッタン」と認識している。つまり、音声認識制御部110は、「ニッタンテクニカルセンター」として音声コマンドを受け付けている。
【0041】
音声認識制御部110は、音声コマンドを単語で分割し、表示制御部120は分割された音声コマンドを、ディスプレイ10に表示させる。
図4Aに示すように、表示制御部120は、単語ごとに色分けしてディスプレイ10の表示画面に表示させる。なお、
図4Aでは、文字の書式を変えて色の違いを表現している。乗員は、
図4Aの表示画面がディスプレイ10に表示されている状態で、乗員は修正したいワード「にっさん」と発話する。音声認識制御部110は、本来であれば「にっさん」と認識すべきところ、前回の音声認識処理と同様に、音の認識を誤り、「にったん」と認識する。また音声認識制御部110は、認識した「にったん」の修正候補として、「にったん」、「日単」、「日鍛」を特定する。表示制御部120は、
図4Bに示すように、複数の修正候補を示す音声コマンドと、対応する数値をディスプレイ10の表示画面に表示させる。
図4Bは、修正モードにおいて、修正候補を表示したときの、ディスプレイ10の表示画面の例を示す。すなわち表示画面には「1 にっさん」、「2 日単」、「3 日鍛」のように表示される。
【0042】
乗員は、ディスプレイ10に「にっさん」等が表示されていることから、音声コマンドの音の認識に誤りがあることを確認する。音声認識制御部110は、特定の音声コマンド「やりなおし」を、音の誤認識を修正するためのコマンドとして予め登録している。乗員は「やりなおし にっさん」と発話する。音声認識制御部110は、誤認識した音声コマンド「にったん」に類似する単語であり、修正可能性の高い単語を特定する。修正の可能性の高さは、単語の使用回数、著名性、単語の類似度等で決定されればよい。誤認識した音声コマンド「にったん」に対する修正候補には、例えば「にっさん」及び「にっざん」が選ばれる。また音声認識制御部110は、誤認識した音声コマンドも修正候補に含める。表示制御部120は、
図4Cに示すように、修正候補をディスプレイ10の表示画面に表示させる。
図4Cは、修正モードにおいて、修正候補を表示したときの、ディスプレイ10の表示画面の例を示す。修正候補表示後の修正方法は、本実施形態の
図3D~
図3Fを参照して説明した方法と同様である。
【0043】
また本実施形態の他の変形例として、コントローラ100は、音声認識精度を算出し、算出された音声認識精度が所定精度閾値より低い場合に、修正モードに関する画面をディスプレイ10の表示画面に表示させてもよい。音声認識制御部110は、音声認識機能により認識された乗員の音声の音声認識精度を算出する。音声認識精度の算出処理は、公知の技術を適用することができる。音声認識制御部110には、修正モードを起動させるたか否かを判定するための、精度閾値が予め設定されている。コントローラ100は、音声認識モードで受け付けた音声コマンドの音声認識精度を算出する。音声認識精度は、音声コマンドに含まれる単語ごとに算出されてもよい。そして、コントローラ100は、算出された音声認識精度が所定精度閾値より低い場合には、「修正モードに入りますか?」のような、乗員に確認するためのサンプルメッセージを、ディスプレイ10の表示画面に表示させる。そして、乗員は「はい」と発話すると、コントローラ100は修正モードを起動させる。なお、表示制御部110は、
図3Bの表示画面のように、音声メッセージをディスプレイ10の表示画面に表示させる際に、音声精度の低い単語が目立つように表示させてもよい。なお目立つ表示のためには、例えば色や文字の太さを変えればよい。また、表示制御部110は、音声認識精度が所定精度閾値より低い単語のみを、ディスプレイ10の表示画面に表示させてよい。
【0044】
また本実施形態の他の変形例として、コントローラ100は、音声認識機能を用いて、車両の運転に関する運転関連機器と、車両の運転に関連しない運転非関連機器を制御してもよい。運転関連機器は、ヘッドライトやワイパー等、運転に影響を及ぼす可能性の高い車載機器である。運転非関連機器は、エアーコンディショナー等、運転に影響を及ぼす可能性の低い車載機器である。そして、コントローラ100は、音声コマンドに応じて、運転関連機器と非運転機器を区別して車載機器を制御する。例えば、「ワイパーをオン」と発話した場合には、コントローラ100は、運転関連機器であるワイパーをオンにする。
【0045】
またコントローラ100には、運転関連機器を駆動させるために割り当てれた特定のコマンド(以下、第1音声コマンドとも称する)と、非運転関連機器を駆動させるために割り当てれた特定のコマンド(以下、第2音声コマンドとも称する)が予め登録されている。そして、上記の他の変形例のように、認識された音声コマンドの音声認識精度の高さに応じて、修正モードを起動させる。所定精度閾値は、第1音声コマンドに対して設定された第1精度閾値と、第2音声コマンドに対して設定された第2精度閾値を含んでおり、第1精度閾値は第2精度閾値より高い値に設定されている。
【0046】
運転関連機器を駆動させるための第1音声コマンドが発生された場合、認識結果である音声精度が高いときには、コントローラ100は、修正モードに入らず、運転関連機器を制御する。一方、第1音声コマンドが発生された場合、認識結果である音声精度が高くなく、第1精度閾値より低いときには、コントローラ100は、運転関連機器を駆動させる前に、修正モードに入る。これにより、運転に影響を及ぼす可能性の高い車載機器を音声で駆動させる場合には、非運転機器を音声で駆動される場合と比較して、単語の認識精度の条件をより厳しくしている。なお、修正モードに入るときには、修正モードに入るための確認画面がディスプレイ10に表示されてもよい。
【0047】
また本実施形態の他の変形例として、コントローラ100は、マイク30から入力される外部騒音が所定値より大きい場合に、音声認識精度が低くなるような環境であると判定し、乗員に対して修正モードに入るための確認画面をディスプレイ10に表示させてもよい。修正モードに入るための確認画面は、例えば、「修正モードに入りますか?」のようなサンプルメッセージを含む。
【0048】
また本実施形態の他の変形例として、音声認識モードにおいて、第1ユーザの発話により認識された音声コマンドを、第2ユーザの音声で修正してもよい。すなわち、コントローラ100は、音声認識機能により第1ユーザの音声を認識し、第1ユーザの音声に含まれる音声コマンドを受け付け、修正モードにおいて、音声認識機能により第2ユーザの音声を認識し、第2ユーザの音声に基づき、第1ユーザの音声に含まれる音声コマンドを修正する。第1ユーザは例えばドライバーであり、第2ユーザは、助手席の乗員及び/又は後部座席の乗員である。
【0049】
例えば、音声認識モードにおいて、ドライバーが発話し、運転者の音声に基づき音声コマンドが受け付けられる。ドライバーは、修正モードを起動させるために、ハンドルスイッチ20を操作する。音声認識制御部110は、修正入力が検知されたと判定すると、修正モードに入る。修正モードに入った後に、ドライバー又は他の乗員が「後座で修正」又は「助手席で修正」と発話する。音声認識制御部110は、これらの音声コマンドを認識すると、運転席付近のマイク30をオフにして、他の座席付近のマイクから入力される音声に基づき、修正モードを進めて、音声コマンドを修正する。このとき、表示制御部110は、
図3Aに示す表示画面等を、修正のための音声を発する乗員付近のディスプレイ10に表示させてもよい。なお、修正モード中、ドライバー付近のスピーカはオンのままでもよい。例えばドライバーが、運転により集中するために、音声認識エンジンの更新を他の乗員に委ねたい場合には、この変形例が特に有効である。これにより、音声認識機能で認識した音声コマンドを、他の乗員の音声に基づき修正できる。
【0050】
なお、以上説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
【符号の説明】
【0051】
1 対話装置
10 ディスプレイ
20 ハンドルスイッチ
30 マイク
40 スピーカ
100 コントローラ
110 音声認識制御部
120 表示制御部