(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024132462
(43)【公開日】2024-10-01
(54)【発明の名称】音声対話方法及び音声対話装置
(51)【国際特許分類】
G10L 15/22 20060101AFI20240920BHJP
G10L 15/00 20130101ALI20240920BHJP
【FI】
G10L15/22 300U
G10L15/00 200J
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023043231
(22)【出願日】2023-03-17
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(71)【出願人】
【識別番号】507308902
【氏名又は名称】ルノー エス.ア.エス.
【氏名又は名称原語表記】RENAULT S.A.S.
【住所又は居所原語表記】122-122 bis, avenue du General Leclerc, 92100 Boulogne-Billancourt, France
(74)【代理人】
【識別番号】100103850
【弁理士】
【氏名又は名称】田中 秀▲てつ▼
(74)【代理人】
【識別番号】100114177
【弁理士】
【氏名又は名称】小林 龍
(74)【代理人】
【識別番号】100066980
【弁理士】
【氏名又は名称】森 哲也
(72)【発明者】
【氏名】神沼 充伸
(57)【要約】
【課題】ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にする。
【解決手段】音声対話方法では、第1時刻において入力されたユーザの第1音声を認識する処理(S2)と、車両に関するいずれかの車両情報を第1音声の認識結果に応じて取得する処理(S3)と、第1時刻の後の第2時刻において入力されたユーザの第2音声を認識する処理(S6)と、車両情報と第2音声の認識結果とに基づいて応答文を生成して出力する処理(S7)と、をコントローラが実行する。
【選択図】
図10
【特許請求の範囲】
【請求項1】
第1時刻において入力されたユーザの第1音声を認識する処理と、
車両に関するいずれかの車両情報を前記第1音声の認識結果に応じて取得する処理と、
前記第1時刻の後の第2時刻において入力された前記ユーザの第2音声を認識する処理と、
前記車両情報と前記第2音声の認識結果とに基づいて応答文を生成して出力する処理と、
をコントローラが実行することを特徴とする音声対話方法。
【請求項2】
前記第1音声の認識結果に応じて取得すべき前記車両情報を、音声認識結果と前記車両情報との関連付けを記憶したテーブル又は前記関連づけを学習した学習モデルに基づいて選択することを特徴とする請求項1に記載の音声対話方法。
【請求項3】
前記第1音声は、前記車両の車載機器に対する操作指示、又は前記車載機器に対する質問であることを特徴とする請求項1に記載の音声対話方法。
【請求項4】
前記車両情報として、前記車両の車載機器を制御する制御信号又は外部装置から入力された入力信号を取得することを請求項1に記載の音声対話方法。
【請求項5】
前記応答文として、前記車両の車載機器に関する文を生成することを特徴とする請求項1に記載の音声対話方法。
【請求項6】
ユーザが発話した音声信号を検出するセンサと、
第1時刻において入力された前記ユーザの第1音声を認識する処理と、車両に関するいずれかの車両情報を前記第1音声の認識結果に応じて取得する処理と、前記第1時刻の後の第2時刻において入力された前記ユーザの第2音声を認識する処理と、前記車両情報と前記第2音声の認識結果とに基づいて応答文を生成して出力する処理と、を実行するコントローラと、
を備えることを特徴とする音声対話装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声対話方法及び音声対話装置に関する。
【背景技術】
【0002】
特許文献1には、車載システムに関する意味などの説明を、メータディスプレイに表示するとともに連動した音声によって出力する情報提供装置が提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、ユーザの発話に対する音声対話装置からの応答を1度に出力しようとすると、一回の応答文が長くなりすぎることによりユーザと音声対話装置との間のコミュニケーションが煩雑になる虞がある。
本発明は、ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にすることを目的とする。
【課題を解決するための手段】
【0005】
本発明の一態様による音声対話方法では、第1時刻において入力されたユーザの第1音声を認識する処理と、車両に関するいずれかの車両情報を前記第1音声の認識結果に応じて取得する処理と、第1時刻の後の第2時刻において入力されたユーザの第2音声を認識する処理と、車両情報と前記第2音声の認識結果とに基づいて応答文を生成して出力する処理と、をコントローラが実行する。
【発明の効果】
【0006】
本発明によれば、ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にすることができる。
【図面の簡単な説明】
【0007】
【
図1】実施形態の音声対話装置を備えた車両の一例の概略構成図である。
【
図2】実施形態の音声対話装置の機能構成の一例を示すブロック図である。
【
図3】実施形態の音声対話方法による対話の第1例の模式図である。
【
図7】実施形態の音声対話方法による対話の第2例の模式図である。
【
図8】実施形態の音声対話方法による対話の第3例の模式図である。
【
図9】実施形態の音声対話方法による対話の第4例の模式図である。
【
図10】実施形態の音声対話方法のフローチャートである。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態について、図面を参照しつつ説明する。なお、各図面は模式的なものであって、現実のものとは異なる場合がある。また、以下に示す本発明の実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の構造、配置等を下記のものに特定するものではない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。
【0009】
(構成)
図1は、実施形態の音声対話装置を備えた車両の一例の概略構成図である。車両1には、車載機器2と、車載機器コントローラ3と、車内センサ4と、外部センサ5と、地図データベース(以下「地
図DB」と表記する)6と、音声入力装置7と、ヒューマンマシンインタフェース(以下「HMI」と表記する)8と、音声対話装置9を備える。
車載機器2は、車両1に搭載されている各種機器である。例えば車載機器2は、車両1の運転席のインストルメントパネルやAピラー付近に配置された表示灯であってよい。車載機器2は、例えば車両1のユーザに警報音を出力する警報装置であってもよい。車載機器2は、車両1のドアに設けられた窓や、車両1のエンジン、空調装置であってもよい。
【0010】
車載機器コントローラ3は、車載機器2の動作を制御する電子制御ユニット(ECU:Electronic Control Unit)であり、車載機器2を制御するための制御信号を生成する。車載機器コントローラ3は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばCPU(Central Processing Unit)やMPU(Micro-Processing Unit)であってよい。
記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリを含んでよい。
【0011】
なお、車載機器コントローラ3を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ3は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ3はフィールド・プログラマブル・ゲート・アレイ(FPGA:Field-Programmable Gate Array)等のプログラマブル・ロジック・デバイス(PLD:Programmable Logic Device)等を有していてもよい。
【0012】
車内センサ4は、車両1の車内の状態を検出するセンサである。例えば車内センサ4は、車内を撮影する車内カメラであってもよく、座席に設けられて乗員が着座しているか否かを判定するための着席センサ(例えば座面圧力を検出する圧力センサやシートベルトセンサ)であってもよい。車内センサ4は、車両1から発生する音を検出するためのマイクロフォンであってもよい。
外部センサ5は、車両1の周囲に存在する物体を検出するセンサである。例えば車内センサ4は、例えば車両1の周囲環境を撮影する外部カメラであってもよく、レーザレンジファインダ(LRF)やレーダ、LiDAR(Light Detection and Ranging)のレーザレーダなどの測距センサであってもよい。
【0013】
地
図DB6は、道路地図データを記憶している。道路地図データは、道路線種、道路形状、勾配、車線数、法定速度(制限速度)、道幅、合流地点の有無、道路沿いの施設等に関する情報を含む。道路線種には、例えば一般道路と高速道路が含まれる。
音声入力装置7は、車両1のユーザの音声入力を取得して音声データを生成するセンサである。例えば音声入力装置7は、マイクロフォンであってよい。例えば音声入力装置7は、音源の方向を推定できるマイクロフォンアレイであってもよい。
【0014】
HMI8は、音声対話装置9とユーザとの間で情報を授受するインタフェース装置である。HMI8は、車両1のユーザが視認可能な表示装置(例えば、ナビゲーションシステムの表示画面)や、警報音や通知音、音声情報を出力するためのスピーカやブザーを備える。
音声対話装置9は、車両1のユーザの音声の発話内容を認識して、ユーザの音声に応答する応答文を生成してHMI8から出力するコントローラとして動作する電子制御ユニット(ECU)である。例えば、音声対話装置9は、生成した応答文を音声情報としてHMI8のスピーカから出力してよい。また例えば音声対話装置9は、生成した応答文を文字情報としてHMI8の表示装置に表示してもよい。
また、音声対話装置9は、ユーザとの対話において取得したユーザの発話内容に基づいて車載機器2を制御する制御信号を車載機器コントローラ3に出力してもよい。
【0015】
音声対話装置9は、プロセッサ9aと、記憶装置9b等の周辺部品とを含む。プロセッサ9aは、例えばCPUやMPUであってよい。
記憶装置9bは、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置9bは、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM及びRAM等のメモリを含んでよい。以下に説明する音声対話装置9の機能は、例えばプロセッサ9aが、記憶装置9bに格納されたコンピュータプログラムを実行することにより実現される。
音声対話装置9を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声対話装置9は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声対話装置9はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。
【0016】
図2は、音声対話装置9の機能構成の一例を示すブロック図である。音声対話装置9は、音声認識部20と、自然言語理解部21と、車両情報取得部22と、車両情報記憶部23と、車両情報抽出部24と、応答生成部25を備える。
音声認識部20は、音声入力装置7が取得したユーザからの音声入力を認識してテキストなどの言語情報に変換する。音声認識部20は、音声入力を変換して生成した言語情報を自然言語理解部21に出力する。
【0017】
自然言語理解部21は、音声認識部20から出力された言語情報を自然言語処理によって解析し、ユーザの発話意図(すなわち「インテント」)を取得する。
図3は、実施形態の音声対話方法による対話の第1例の模式図である。本実施形態では、第1時刻t1及び第1時刻t1よりも後の第2時刻t2においてそれぞれユーザの音声が音声対話装置9に入力され、音声認識部20及び自然言語理解部21が、第1時刻t1に入力された第1音声U1と、第2時刻t2に入力された第2音声U2とを、それぞれ認識した場合を想定する。
例えば
図3の例では、ユーザが発話した「窓を開けて」及び「いいえ、ここだけ」がそれぞれ第1音声U1及び第2音声U2として入力されている。
【0018】
例えば自然言語理解部21は、発話意図として車載機器2に対する制御指示(VCC:vehicle control command)を取得してよい。
例えば自然言語理解部21は、ユーザの音声から生成した言語情報に含まれている単語と発話意図とを関連付けて記憶したテーブルに基づいて、ユーザの発話意図を取得してよい。例えばユーザが「窓を開けて」と発話した場合に、自然言語理解部21は、ユーザが発話した単語「窓」及び「開けて」に基づいて、発話意図が「窓の開放」であると判断してよい。
【0019】
例えば自然言語理解部21は、ユーザの音声から生成した言語情報に含まれている単語と発話意図との関連付けを機械学習した学習モデルに基づいて、ユーザの発話意図を取得してもよい。
また自然言語理解部21は、発話に含まれる意味のある要素(有意要素)であるキーワード(すなわち「エンティティ」)を取得する。例えばユーザが「窓を開けて」と発話した場合に、自然言語理解部21はキーワード「窓」を取得してよい。
【0020】
また例えば自然言語理解部21は、車載機器2の意味を問い合わせる「意味の照会」を発話意図として取得してもよい。また例えば自然言語理解部21は、車載機器2の使用方法を問い合わせる「使用方法の照会」を発話意図として取得してもよい。また例えば自然言語理解部21は、車載機器2の異常や故障に対応するための対処方法を問い合わせる「対処方法の照会」を抽出してもよい。
【0021】
図2を参照する。車両情報取得部22は、車載機器コントローラ3が生成した車載機器2の制御信号を、車両1に関する車両情報として取得する。また車両情報取得部22は、車内センサ4及び外部センサ5から入力される検出信号を、車両情報として取得する。また車両情報取得部22は、車両1の現在位置の周辺の地図情報を地
図DB6として読み出し、車両情報として取得する。
これら車内センサ4、外部センサ5及び地
図DB6は、特許請求の範囲に記載の「外部装置」の一例である。車内センサ4及び外部センサ5の検出信号と、地
図DB6の地図情報は、特許請求の範囲に記載の「外部装置から入力された入力信号」の一例である。
【0022】
例えば車両情報取得部22は、車載機器2の制御信号として、各座席の窓の開閉状態を表す状態信号を車載機器コントローラ3から取得してもよい。また例えば車両情報取得部22は、車載機器2の制御信号として、車両1の運転席のインストルメントパネルやAピラー付近に配置された表示灯の点灯状態を表す状態信号を車載機器コントローラ3から取得してもよい。また例えば車両情報取得部22は、車載機器2の制御信号として、空調装置の動作状態(例えば、暖房、冷房などの動作モード、風量レベル、設定温度)を表す状態信号を車載機器コントローラ3から取得してもよい。
【0023】
また例えば車両情報取得部22は車内センサ4のマイクロフォンが出力した音情報を解析し、音情報の特徴に基づいて、車両1から発生する異常音の音源となる車載機器2と、この異常音の原因を推定してもよい。車両情報取得部22は、音源となる車載機器2と異常音の原因とを示す異音推定情報を、車両情報として設定してもよい。
車両情報記憶部23は、車両情報取得部22が取得した車両情報を一時的に記憶する。例えば車両情報記憶部23が車両情報を一時的に記憶する保持期間は、車両情報の種類に応じて異なる長さに設定されていてもよい。また例えば、車両情報記憶部23が車両情報を消去する契機となるトリガイベントは、車両情報の種類に応じてそれぞれ設定してもよい。車両情報記憶部23は、トリガイベントの発生から所定の保持期間が経過した時に車両情報を消去してよい。例えば表示灯の状態信号を消去する契機となるトリガイベントは、表示灯が点灯状態から消灯状態への変化であってよい。
【0024】
車両情報抽出部24は、車両情報記憶部23に記憶されている車両情報のいずれかを、第1音声U1の認識結果に応じて取得する。例えば車両情報抽出部24は、第1音声U1から取得した発話意図に基づいて車両情報記憶部23に記憶されている車両情報のいずれかを取得してよい。車両情報抽出部24は、第1音声U1から取得した発話意図とキーワードの組合せに基づいて車両情報のいずれかを取得してもよい。以下の説明において車両情報抽出部24が取得した車両情報を「車両情報C1」と表記することがある。
例えば車両情報抽出部24は、第1音声U1の認識結果と取得すべき車両情報との関連付けを記憶した車両情報テーブルに基づいて、車両情報記憶部23に記憶されている車両情報のいずれかを選択して車両情報C1として取得してもよい。
【0025】
図4は、車両情報テーブルの一例の模式図である。車両情報テーブルは、第1音声U1の認識結果と取得すべき車両情報とを対応付けるテーブルである。すなわち車両情報テーブルの各レコードには、第1音声U1の認識結果(例えば発話意図、又は発話意図とキーワードの組合せ)と、取得すべき車両情報とが記憶されている。
例えば
図3の対話例のように、第1音声U1としてユーザが「窓を開けて」と発話した場合には、
図4の車両情報テーブルの第1行を参照して、発話意図「窓の開放」に対応する窓の状態信号を車両情報C1として取得する。なお、窓の状態信号は、車載機器コントローラ3が車載機器2を制御する制御信号の一例である。
なお、車両情報抽出部24は、車両情報テーブル以外の手段を用いて第1音声U1の認識結果に応じた車両情報C1を取得してもよい。例えば、第1音声U1の認識結果と取得すべき車両情報との関連付けを機械学習した学習モデルに基づいて車両情報C1を取得してもよい。
【0026】
図2を参照する。応答生成部25は、ユーザの音声に対する応答を生成する。例えば応答生成部25は、第1音声U1に応答する第1応答文S1と、第2音声U2に応答する第2応答文S2とをそれぞれ生成する。応答生成部25は、生成した第1応答文S1及び第2応答文S2をHMI8から出力する。
また例えば、ユーザの音声が車載機器2に対する制御指示を含む場合には、応答生成部25は、車載機器2に対する制御信号を生成する。応答生成部25は、生成した制御信号を車載機器コントローラ3へ出力する。
【0027】
例えば応答生成部25は、第1音声U1と車両情報C1の組合せに基づいて第1応答文S1を生成してよい。例えば応答生成部25は、第1音声U1の認識結果と車両情報C1の組合せと出力すべき第1応答文S1との関連付けを記憶した第1応答文テーブルから第1応答文S1を取得してよい。
図5は、第1応答文テーブルの一例の模式図である。第1応答文テーブルは、第1音声U1の認識結果と車両情報C1の組合せと出力すべき第1応答文S1とを対応付けるテーブルである。すなわち第1応答文テーブルの各レコードには、第1音声U1の認識結果(例えば発話意図、又は発話意図とキーワードの組合せ)と、車両情報C1と、出力すべき第1応答文S1とが記憶されている。
【0028】
例えば
図3の対話例のように、第1音声U1としてユーザが「窓を開けて」と発話した場合には、第1音声U1の発話意図が「窓の開放」であると判定される。また、車両情報抽出部24は、車両情報C1として窓の状態信号を取得する。
応答生成部25は、発話意図が「窓の開放」であり、且ついずれかの窓が閉まっている場合(第1応答文テーブルの第1行の場合には全ての座席の窓が閉まっており、第2行の場合には運転席の窓と後席窓が閉まっており、第3行の場合には助手席の窓と後席窓が閉まっている)には、第1応答文S1として「全ての窓を開けます」を取得してHMI8から出力する。
なお、応答生成部25は、第1音声U1の認識結果と車両情報C1の組合せと第1応答文S1との関連付けを機械学習した学習モデルに基づいて第1応答文S1を取得してもよい。
【0029】
次に応答生成部25は、第2音声U2と車両情報C1の組合せに基づいて第2応答文S2を生成する。
まず応答生成部25は、第2音声U2の認識結果を自然言語理解部21から取得すると、第2音声U2の発話意図を判定する。例えば第2音声U2としてユーザが「いいえ、運転席の窓だけを開けて」と発話した場合には、自然言語理解部21は、第2音声U2から発話意図「窓の開放」を取得できるので、応答生成部25は、自然言語理解部21が取得した発話意図が第2音声U2の発話意図であると判断してよい。また、第2音声U2から発話意図を表す文言を抽出できなかった場合には、第1音声U1の発話意図が第2音声U2の発話意図であると判定してよい。
例えば
図3の対話例のように、第2音声U2としてユーザが「いいえ、ここだけ」と発話した場合、応答生成部25は、第2音声U2の発話意図は、第1音声U1の発話意図と同じ「窓の開放」であると判定してよい。
【0030】
応答生成部25は、第2音声U2の認識結果に基づいて、発話内容で言及された車載機器2である対象機器を特定する。例えば第2音声U2から車載機器2に一対一で対応するキーワードを取得した場合、応答生成部25は、第2音声U2から取得したキーワードに基づいて対象機器を特定してよい。例えば第2音声U2としてユーザが「いいえ、運転席の窓だけを開けて」と発話した場合には、キーワード「運転席の窓」に基づいて対象機器が運転席の窓であると特定してよい。例えば応答生成部25は、キーワードと車載機器2との対応関連付けを記憶したテーブルやキーワードと車載機器2との関連付けを機械学習した学習モデルに基づいて対象機器を特定してもよい。
【0031】
一方で、第2音声U2が対象機器を特定する指示代名詞(たとえば「ここ」や「それ」)を含む場合には、第2音声U2に含まれる指示代名詞と車両情報に基づいて対象機器を特定してもよい。
例えば
図3の対話例のように、第2音声U2として運転者が「いいえ、ここだけ」と発話した場合を想定する。この場合に、応答生成部25は、車内カメラの画像や着席センサの検出信号を車両情報として取得し、車両情報に基づいて第2音声U2の発話者が着座しているのが運転席であると判定してよい。そして第1音声U1の認識結果に応じて取得した車両情報C1が窓の状態信号であることに基づいて、対象機器が運転席の窓であると特定してよい。
【0032】
応答生成部25は、発話意図と対象機器と車両情報C1の組合せに基づいて第2応答文S2を生成する。例えば応答生成部25は、発話意図と対象機器と車両情報C1の組合せと出力すべき第2応答文S2との関連付けを記憶した第2応答文テーブルから第2応答文S2を取得してよい。
図6は、第2応答文テーブルの一例の模式図である。第2応答文テーブルは、発話意図と対象機器と車両情報C1の組合せと出力すべき第2応答文S2とを対応付けるテーブルである。すなわち第2応答文テーブルの各レコードには、発話意図と、対象機器と、車両情報C1と、出力すべき第2応答文S2とが記憶されている。
【0033】
例えば
図3の対話例のように、第2音声U2としてユーザが「いいえ、ここだけ」と発話し、第2音声U2の発話意図が「窓の開放」であると判定され、対象機器が「運転席の窓」であると判定され、運転席の窓が閉まっている場合(第2応答文テーブルの第1行及び第2行の場合)を想定する。この場合に応答生成部25は、第2応答文S2として「分かりました」、「運転席の窓だけ開けます」を取得してHMI8から出力する。また、運転席の窓を開ける制御信号を生成して、車載機器コントローラ3へ出力する。
一方で、運転席の窓が開いている場合(第2応答文テーブルの第3行の場合)には、第2応答文S2として「運転席の窓は開いています」を取得してHMI8から出力する。
なお、応答生成部25は、発話意図と対象機器と車両情報C1の組合せと第2応答文S2との関連付けを機械学習した学習モデルに基づいて第2応答文S2を取得してもよい。
【0034】
以上説明したように、本実施形態の音声対話装置9は、第1時刻t1において入力された第1音声U1に応じて車両情報C1を取得し、第2時刻t2において入力された第2音声U2と車両情報C1とに基づいて応答文(第2応答文S2)を生成する。
これにより、第1音声U1に応じて取得した車両情報C1に基づいて、第2音声U2に対する応答文でユーザに提供すべき情報を絞り込むことができるので、応答文を短くすることができる。この結果、一回の応答文が長くなりすぎることによりユーザと音声対話装置9との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置9との間のコミュニケーションをより円滑にすることができる。
また、第1音声U1に応じて取得した車両情報C1に基づいて、第2音声U2に対する応答文でユーザに提供すべき情報を絞り込むことができるので、第2音声U2の発話内容が曖昧であってもユーザの発話意図を正確に受諾できる。そのためユーザは音声による入力文を簡略化することが可能となる。またユーザは直感的に入力することも可能となる。結果として、ユーザと音声対話装置9との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置9との間のコミュニケーションをより円滑にすることができる。
【0035】
図7は、実施形態の音声対話方法による対話の第2例の模式図である。
図7は、ユーザの発話意図が車載機器2の意味を問い合わせる「意味の照会」である例、すなわち第1音声U1又は第2音声U2が車載機器に対する質問である例を示している。
例えばユーザが第1音声U1として「この黄色いランプは何?」と発話した場合に、自然言語理解部21は、第1音声U1で言及されたキーワードの意味を問い合わせる「意味の照会」が発話意図であると判断する。また自然言語理解部21は、キーワード「黄色」、「ランプ」を取得する。
【0036】
車両情報抽出部24は、
図4の車両情報テーブルの第2行を参照して、発話意図「意味の照会」とキーワード「黄色、ランプ」の組合せに対応する表示灯の状態信号を車両情報C1として取得する。
応答生成部25は、
図5の車両情報テーブルの第4行を参照して、第1音声U1の認識結果(発話意図「意味の照会」及びキーワード「黄色、ランプ」の組合せ)と、横滑り防止装置(VDC:Vehicle Dynamics Control)オフ表示灯が点灯状態であることを示す表示灯の状態信号に基づいて、第1応答文S1として「このランプはVDCオフ表示灯です」を取得してHMI8から出力する。
【0037】
次に、第2音声U2としてユーザが「それは何?」と発話すると、自然言語理解部21は第2音声U2の発話意図として「意味の照会」を取得するとともに指示代名詞「それ」をキーワードとして取得する。応答生成部25は、第2音声U2の認識結果に含まれるキーワード「それ」と車両情報C1とに基づいて対象機器を特定する。例えばこの場合には、VDCオフ表示灯が点灯状態であることを示す表示灯の状態信号に基づいて、対象機器がVDCであると特定してよい。
応答生成部25は、発話意図「意味の照会」と対象機器「VDC」と車両情報(VDCオフ表示灯が点灯状態である)の組合せに基づいて第2応答文テーブルの第4行目を参照し、第2応答文S2「VDCは、各種センサを使用して運転者の車両操作と車両の動きを監視し…」を取得してHMI8から出力する。
【0038】
図8は、実施形態の音声対話方法による対話の第3例の模式図である。
図8は、第1音声U1と第2音声U2とでユーザの発話意図が変化する場合の例を示している。
例えばユーザが第1音声U1として「エアコンを入れて」と発話した場合に、自然言語理解部21は、「空調装置の始動」が発話意図であると判断する。車両情報抽出部24は、
図4の車両情報テーブルの第5行を参照して、発話意図「空調装置の始動」に対応する空調装置の状態信号を車両情報C1として取得する。
【0039】
応答生成部25は、
図5の車両情報テーブルの第5行を参照して、第1音声U1の認識結果(発話意図「空調装置の始動」)と、現在設定されている動作モード(例えば、前回に空調装置を停止したときの最後の動作モード)が暖房であることを示す空調装置の状態信号に基づいて、第1応答文S1として「暖房を入れます」を取得してHMI8から出力する。また、空調装置を始動する制御信号を生成して、車載機器コントローラ3へ出力する。
【0040】
次に、第2音声U2としてユーザが「風量を変えたいんだけど」と発話すると、自然言語理解部21は第2音声U2の発話意図として「空調装置の風量の調整」を取得する。また応答生成部25は対象機器が空調装置であると特定する。例えば応答生成部25は、第2音声U2から車載機器2を表す文言を抽出できなかった場合には、第1音声U1に含まれる車載機器2を表すキーワード「エアコン」に基づいて第2音声U2の対象機器が「空調装置」であると特定してよい。また、第2音声U2の発話意図が「空調装置の風量の調整」であることに基づいて対象機器が空調装置であると特定してもよい。
【0041】
応答生成部25は、発話意図「空調装置の風量の調整」と対象機器「空調装置」と車両情報(現在の設定風量はレベル2)の組合せに基づいて第2応答文テーブルの第5行目を参照し、第2応答文S2「現在の風量はレベル2です」、「風量を上げる場合は「風量を2つ上げて」のように発話して下さい」を取得してHMI8から出力する。
【0042】
図9は、実施形態の音声対話方法による対話の第4例の模式図である。
図9は、車両情報C1として外部装置からの入力信号を取得する場合の例を示している。ここでは、外部装置として、車両1から発生する音を検出する車内センサ4(マイクロフォン)を例示する。
例えばユーザが第1音声U1として「この変な音は何?」と発話した場合に、自然言語理解部21は、「意味の照会」を発話意図として取得し、キーワード「変な音」を取得する。
【0043】
車両情報抽出部24は、
図4の車両情報テーブルの第6行を参照して、発話意図「意味の照会」とキーワード「変な音」の組合せに対応する車両情報C1として上記の異音推定情報を取得する。異音推定情報は、車両1から発生する異常音の音源との原因の情報であり、上記のとおり車両情報取得部22により設定される。
応答生成部25は、
図5の車両情報テーブルの第6行を参照して、第1音声U1の認識結果(発話意図「意味の照会」及びキーワード「変な音」)と、異常音の音源がCVTであり原因がCVTの異常であることを示す異音推定情報に基づいて、第1応答文S1として「CVT異常音である」を取得してHMI8から出力する。
【0044】
次に、第2音声U2としてユーザが「どうしたらいい?」と発話すると、自然言語理解部21は第2音声U2の発話意図として「対処方法の照会」を取得する。
また応答生成部25は、車両情報C1として取得した異音推定情報が示す音源がCVTであること(すなわち、ユーザが第1音声U1で言及した異常音の音源がCVTであること)に基づいて、第2音声U2の対象機器が「CVT」であると特定する。
【0045】
応答生成部25は、発話意図「対処方法の照会」と対象機器「CVT」と車両情報(異常音の音源がCVTであり原因がCVTの異常である)の組合せに基づいて第2応答文テーブルの第6行目を参照し、第2応答文S2「CVTの点検が必要ですので○○販売会社に連絡して下さい」を取得してHMI8から出力する。
【0046】
なお上記の例では、車両情報C1として取得する外部装置からの入力信号が、車内センサ4として車両1から発生する音を検出するためのマイクロフォンの検出信号である場合を説明したが、車両情報C1として取得する外部装置からの入力信号は、外部センサ5の検出信号(例えば車両1の周囲の撮像画像や車両周囲の物体の測距信号)や、地
図DB6の地図情報であってもよい。
【0047】
(動作)
図10は、実施形態の音声対話方法のフローチャートである。ステップS1において音声入力装置7は第1音声U1を入力する。ステップS2において音声対話装置9の音声認識部20と自然言語理解部21は、第1音声U1を認識する。
ステップS3において車両情報抽出部24は、第1音声U1の認識結果に応じて車両情報C1を取得する。ステップS4において応答生成部25は、第1音声U1と車両情報C1の組合せに基づいて第1応答文S1を生成してHMI8から出力する。
ステップS5において音声入力装置7は第2音声U2を入力する。ステップS6において音声認識部20と自然言語理解部21は、第2音声U2を認識する。ステップS7において応答生成部25は、第2音声U2と車両情報C1の組合せに基づいて第2応答文S2を生成してHMI8から出力する。その後に処理は終了する。
【0048】
(実施形態の効果)
(1)音声対話装置9は、第1時刻t1において入力されたユーザの第1音声U1を認識する処理と、車両1に関するいずれかの車両情報C1を第1音声U1の認識結果に応じて取得する処理と、第1時刻t1の後の第2時刻t2において入力されたユーザの第2音声U2を認識する処理と、車両情報C1と第2音声U2の認識結果とに基づいて応答文を生成して出力する処理と、を実行する。
【0049】
これにより、第1音声U1に応じて取得した車両情報C1に基づいて、第2音声U2に対する応答文でユーザに提供すべき情報を絞り込むことができるので、応答文を短くすることができる。この結果、一回の応答文が長くなりすぎることによりユーザと音声対話装置9との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置9との間のコミュニケーションをより円滑にすることができる。
また、第1音声U1に応じて取得した車両情報C1に基づいて、第2音声U2に対する応答文でユーザに提供すべき情報を絞り込むことができるので、第2音声U2の発話内容が曖昧であってもユーザの発話意図を正確に受諾できる。そのためユーザは音声による入力文を簡略化することが可能となる。またユーザは直感的に入力することも可能となる。結果として、ユーザと音声対話装置9との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置9との間のコミュニケーションをより円滑にすることができる。
【0050】
(2)音声対話装置9は、第1音声U1の認識結果に応じて取得すべき車両情報C1を、音声認識結果と車両情報との関連付けを記憶したテーブル又は音声認識結果と車両情報との関連付けを学習した学習モデルに基づいて選択してよい。これにより、第2音声U2の生成に利用する車両情報C1を、第1音声U1の認識結果に応じて取得できる。
(3)第1音声U1は、車両1の車載機器に対する操作指示、又は車載機器に対する質問であってよい。これにより車両1の車載機器に関する対話を生成できる。
【0051】
(4)音声対話装置9は、車両情報C1として、車両1の車載機器2を制御する制御信号又は外部装置から入力された入力信号を取得してよい。これにより、車両1に関する様々な情報に基づいて応答文を生成できる。
(5)音声対話装置9は、応答文として車両1の車載機器2に関する文を生成してよい。これにより、車両1の車載機器2を利用する際のユーザの利便性を向上できる。
【符号の説明】
【0052】
1…車両、2…車載機器、3…車載機器コントローラ、4…車内センサ、5…外部センサ、6…地図データベース、7…音声入力装置、8…ヒューマンマシンインタフェース、9…音声対話装置、9a…プロセッサ、9b…記憶装置、20…音声認識部、21…自然言語理解部、22…車両情報取得部、23…車両情報記憶部、24…車両情報抽出部、25…応答生成部