特開2024-132462 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧 ▶ ルノー　エス．ア．エス．の特許一覧

特開2024-132462音声対話方法及び音声対話装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024132462

(43)【公開日】2024-10-01

(54)【発明の名称】音声対話方法及び音声対話装置

(51)【国際特許分類】

G10L 15/22 20060101AFI20240920BHJP

G10L 15/00 20130101ALI20240920BHJP

【ＦＩ】

G10L15/22 300U

G10L15/00 200J

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2023043231

(22)【出願日】2023-03-17

(71)【出願人】

【識別番号】000003997

【氏名又は名称】日産自動車株式会社

(71)【出願人】

【識別番号】507308902

【氏名又は名称】ルノーエス．ア．エス．

【氏名又は名称原語表記】ＲＥＮＡＵＬＴＳ．Ａ．Ｓ．

【住所又は居所原語表記】１２２－１２２ｂｉｓ，ａｖｅｎｕｅｄｕＧｅｎｅｒａｌＬｅｃｌｅｒｃ，９２１００Ｂｏｕｌｏｇｎｅ－Ｂｉｌｌａｎｃｏｕｒｔ，Ｆｒａｎｃｅ

(74)【代理人】

【識別番号】100103850

【弁理士】

【氏名又は名称】田中秀▲てつ▼

(74)【代理人】

【識別番号】100114177

【弁理士】

【氏名又は名称】小林龍

(74)【代理人】

【識別番号】100066980

【弁理士】

【氏名又は名称】森哲也

(72)【発明者】

【氏名】神沼充伸

(57)【要約】

【課題】ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にする。
【解決手段】音声対話方法では、第１時刻において入力されたユーザの第１音声を認識する処理（Ｓ２）と、車両に関するいずれかの車両情報を第１音声の認識結果に応じて取得する処理（Ｓ３）と、第１時刻の後の第２時刻において入力されたユーザの第２音声を認識する処理（Ｓ６）と、車両情報と第２音声の認識結果とに基づいて応答文を生成して出力する処理（Ｓ７）と、をコントローラが実行する。
【選択図】図１０

【特許請求の範囲】

【請求項1】

第１時刻において入力されたユーザの第１音声を認識する処理と、
車両に関するいずれかの車両情報を前記第１音声の認識結果に応じて取得する処理と、
前記第１時刻の後の第２時刻において入力された前記ユーザの第２音声を認識する処理と、
前記車両情報と前記第２音声の認識結果とに基づいて応答文を生成して出力する処理と、
をコントローラが実行することを特徴とする音声対話方法。

【請求項2】

前記第１音声の認識結果に応じて取得すべき前記車両情報を、音声認識結果と前記車両情報との関連付けを記憶したテーブル又は前記関連づけを学習した学習モデルに基づいて選択することを特徴とする請求項１に記載の音声対話方法。

【請求項3】

前記第１音声は、前記車両の車載機器に対する操作指示、又は前記車載機器に対する質問であることを特徴とする請求項１に記載の音声対話方法。

【請求項4】

前記車両情報として、前記車両の車載機器を制御する制御信号又は外部装置から入力された入力信号を取得することを請求項１に記載の音声対話方法。

【請求項5】

前記応答文として、前記車両の車載機器に関する文を生成することを特徴とする請求項１に記載の音声対話方法。

【請求項6】

ユーザが発話した音声信号を検出するセンサと、
第１時刻において入力された前記ユーザの第１音声を認識する処理と、車両に関するいずれかの車両情報を前記第１音声の認識結果に応じて取得する処理と、前記第１時刻の後の第２時刻において入力された前記ユーザの第２音声を認識する処理と、前記車両情報と前記第２音声の認識結果とに基づいて応答文を生成して出力する処理と、を実行するコントローラと、
を備えることを特徴とする音声対話装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声対話方法及び音声対話装置に関する。

【背景技術】

【0002】

特許文献１には、車載システムに関する意味などの説明を、メータディスプレイに表示するとともに連動した音声によって出力する情報提供装置が提案されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許５０５６７１１号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、ユーザの発話に対する音声対話装置からの応答を１度に出力しようとすると、一回の応答文が長くなりすぎることによりユーザと音声対話装置との間のコミュニケーションが煩雑になる虞がある。
本発明は、ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にすることを目的とする。

【課題を解決するための手段】

【0005】

本発明の一態様による音声対話方法では、第１時刻において入力されたユーザの第１音声を認識する処理と、車両に関するいずれかの車両情報を前記第１音声の認識結果に応じて取得する処理と、第１時刻の後の第２時刻において入力されたユーザの第２音声を認識する処理と、車両情報と前記第２音声の認識結果とに基づいて応答文を生成して出力する処理と、をコントローラが実行する。

【発明の効果】

【0006】

本発明によれば、ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にすることができる。

【図面の簡単な説明】

【0007】

【図1】実施形態の音声対話装置を備えた車両の一例の概略構成図である。

【図2】実施形態の音声対話装置の機能構成の一例を示すブロック図である。

【図3】実施形態の音声対話方法による対話の第１例の模式図である。

【図4】車両情報テーブルの一例の模式図である。

【図5】第１応答文テーブルの一例の模式図である。

【図6】第２応答文テーブルの一例の模式図である。

【図7】実施形態の音声対話方法による対話の第２例の模式図である。

【図8】実施形態の音声対話方法による対話の第３例の模式図である。

【図9】実施形態の音声対話方法による対話の第４例の模式図である。

【図10】実施形態の音声対話方法のフローチャートである。

【発明を実施するための形態】

【0008】

以下、本発明の実施形態について、図面を参照しつつ説明する。なお、各図面は模式的なものであって、現実のものとは異なる場合がある。また、以下に示す本発明の実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の構造、配置等を下記のものに特定するものではない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。

【0009】

（構成）
図１は、実施形態の音声対話装置を備えた車両の一例の概略構成図である。車両１には、車載機器２と、車載機器コントローラ３と、車内センサ４と、外部センサ５と、地図データベース（以下「地図ＤＢ」と表記する）６と、音声入力装置７と、ヒューマンマシンインタフェース（以下「ＨＭＩ」と表記する）８と、音声対話装置９を備える。
車載機器２は、車両１に搭載されている各種機器である。例えば車載機器２は、車両１の運転席のインストルメントパネルやＡピラー付近に配置された表示灯であってよい。車載機器２は、例えば車両１のユーザに警報音を出力する警報装置であってもよい。車載機器２は、車両１のドアに設けられた窓や、車両１のエンジン、空調装置であってもよい。

【0010】

車載機器コントローラ３は、車載機器２の動作を制御する電子制御ユニット（ＥＣＵ：Electronic Control Unit）であり、車載機器２を制御するための制御信号を生成する。車載機器コントローラ３は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばＣＰＵ（Central Processing Unit）やＭＰＵ（Micro-Processing Unit）であってよい。
記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等のメモリを含んでよい。

【0011】

なお、車載機器コントローラ３を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ３は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ３はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：Field-Programmable Gate Array）等のプログラマブル・ロジック・デバイス（ＰＬＤ：Programmable Logic Device）等を有していてもよい。

【0012】

車内センサ４は、車両１の車内の状態を検出するセンサである。例えば車内センサ４は、車内を撮影する車内カメラであってもよく、座席に設けられて乗員が着座しているか否かを判定するための着席センサ（例えば座面圧力を検出する圧力センサやシートベルトセンサ）であってもよい。車内センサ４は、車両１から発生する音を検出するためのマイクロフォンであってもよい。
外部センサ５は、車両１の周囲に存在する物体を検出するセンサである。例えば車内センサ４は、例えば車両１の周囲環境を撮影する外部カメラであってもよく、レーザレンジファインダ（ＬＲＦ）やレーダ、ＬｉＤＡＲ（Light Detection and Ranging）のレーザレーダなどの測距センサであってもよい。

【0013】

地図ＤＢ６は、道路地図データを記憶している。道路地図データは、道路線種、道路形状、勾配、車線数、法定速度（制限速度）、道幅、合流地点の有無、道路沿いの施設等に関する情報を含む。道路線種には、例えば一般道路と高速道路が含まれる。
音声入力装置７は、車両１のユーザの音声入力を取得して音声データを生成するセンサである。例えば音声入力装置７は、マイクロフォンであってよい。例えば音声入力装置７は、音源の方向を推定できるマイクロフォンアレイであってもよい。

【0014】

ＨＭＩ８は、音声対話装置９とユーザとの間で情報を授受するインタフェース装置である。ＨＭＩ８は、車両１のユーザが視認可能な表示装置（例えば、ナビゲーションシステムの表示画面）や、警報音や通知音、音声情報を出力するためのスピーカやブザーを備える。
音声対話装置９は、車両１のユーザの音声の発話内容を認識して、ユーザの音声に応答する応答文を生成してＨＭＩ８から出力するコントローラとして動作する電子制御ユニット（ＥＣＵ）である。例えば、音声対話装置９は、生成した応答文を音声情報としてＨＭＩ８のスピーカから出力してよい。また例えば音声対話装置９は、生成した応答文を文字情報としてＨＭＩ８の表示装置に表示してもよい。
また、音声対話装置９は、ユーザとの対話において取得したユーザの発話内容に基づいて車載機器２を制御する制御信号を車載機器コントローラ３に出力してもよい。

【0015】

音声対話装置９は、プロセッサ９ａと、記憶装置９ｂ等の周辺部品とを含む。プロセッサ９ａは、例えばＣＰＵやＭＰＵであってよい。
記憶装置９ｂは、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置９ｂは、レジスタ、キャッシュメモリ、主記憶装置として使用されるＲＯＭ及びＲＡＭ等のメモリを含んでよい。以下に説明する音声対話装置９の機能は、例えばプロセッサ９ａが、記憶装置９ｂに格納されたコンピュータプログラムを実行することにより実現される。
音声対話装置９を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声対話装置９は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声対話装置９はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。

【0016】

図２は、音声対話装置９の機能構成の一例を示すブロック図である。音声対話装置９は、音声認識部２０と、自然言語理解部２１と、車両情報取得部２２と、車両情報記憶部２３と、車両情報抽出部２４と、応答生成部２５を備える。
音声認識部２０は、音声入力装置７が取得したユーザからの音声入力を認識してテキストなどの言語情報に変換する。音声認識部２０は、音声入力を変換して生成した言語情報を自然言語理解部２１に出力する。

【0017】

自然言語理解部２１は、音声認識部２０から出力された言語情報を自然言語処理によって解析し、ユーザの発話意図（すなわち「インテント」）を取得する。
図３は、実施形態の音声対話方法による対話の第１例の模式図である。本実施形態では、第１時刻ｔ１及び第１時刻ｔ１よりも後の第２時刻ｔ２においてそれぞれユーザの音声が音声対話装置９に入力され、音声認識部２０及び自然言語理解部２１が、第１時刻ｔ１に入力された第１音声Ｕ１と、第２時刻ｔ２に入力された第２音声Ｕ２とを、それぞれ認識した場合を想定する。
例えば図３の例では、ユーザが発話した「窓を開けて」及び「いいえ、ここだけ」がそれぞれ第１音声Ｕ１及び第２音声Ｕ２として入力されている。

【0018】

例えば自然言語理解部２１は、発話意図として車載機器２に対する制御指示（ＶＣＣ：vehicle control command）を取得してよい。
例えば自然言語理解部２１は、ユーザの音声から生成した言語情報に含まれている単語と発話意図とを関連付けて記憶したテーブルに基づいて、ユーザの発話意図を取得してよい。例えばユーザが「窓を開けて」と発話した場合に、自然言語理解部２１は、ユーザが発話した単語「窓」及び「開けて」に基づいて、発話意図が「窓の開放」であると判断してよい。

【0019】

例えば自然言語理解部２１は、ユーザの音声から生成した言語情報に含まれている単語と発話意図との関連付けを機械学習した学習モデルに基づいて、ユーザの発話意図を取得してもよい。
また自然言語理解部２１は、発話に含まれる意味のある要素（有意要素）であるキーワード（すなわち「エンティティ」）を取得する。例えばユーザが「窓を開けて」と発話した場合に、自然言語理解部２１はキーワード「窓」を取得してよい。

【0020】

また例えば自然言語理解部２１は、車載機器２の意味を問い合わせる「意味の照会」を発話意図として取得してもよい。また例えば自然言語理解部２１は、車載機器２の使用方法を問い合わせる「使用方法の照会」を発話意図として取得してもよい。また例えば自然言語理解部２１は、車載機器２の異常や故障に対応するための対処方法を問い合わせる「対処方法の照会」を抽出してもよい。

【0021】

図２を参照する。車両情報取得部２２は、車載機器コントローラ３が生成した車載機器２の制御信号を、車両１に関する車両情報として取得する。また車両情報取得部２２は、車内センサ４及び外部センサ５から入力される検出信号を、車両情報として取得する。また車両情報取得部２２は、車両１の現在位置の周辺の地図情報を地図ＤＢ６として読み出し、車両情報として取得する。
これら車内センサ４、外部センサ５及び地図ＤＢ６は、特許請求の範囲に記載の「外部装置」の一例である。車内センサ４及び外部センサ５の検出信号と、地図ＤＢ６の地図情報は、特許請求の範囲に記載の「外部装置から入力された入力信号」の一例である。

【0022】

例えば車両情報取得部２２は、車載機器２の制御信号として、各座席の窓の開閉状態を表す状態信号を車載機器コントローラ３から取得してもよい。また例えば車両情報取得部２２は、車載機器２の制御信号として、車両１の運転席のインストルメントパネルやＡピラー付近に配置された表示灯の点灯状態を表す状態信号を車載機器コントローラ３から取得してもよい。また例えば車両情報取得部２２は、車載機器２の制御信号として、空調装置の動作状態（例えば、暖房、冷房などの動作モード、風量レベル、設定温度）を表す状態信号を車載機器コントローラ３から取得してもよい。

【0023】

また例えば車両情報取得部２２は車内センサ４のマイクロフォンが出力した音情報を解析し、音情報の特徴に基づいて、車両１から発生する異常音の音源となる車載機器２と、この異常音の原因を推定してもよい。車両情報取得部２２は、音源となる車載機器２と異常音の原因とを示す異音推定情報を、車両情報として設定してもよい。
車両情報記憶部２３は、車両情報取得部２２が取得した車両情報を一時的に記憶する。例えば車両情報記憶部２３が車両情報を一時的に記憶する保持期間は、車両情報の種類に応じて異なる長さに設定されていてもよい。また例えば、車両情報記憶部２３が車両情報を消去する契機となるトリガイベントは、車両情報の種類に応じてそれぞれ設定してもよい。車両情報記憶部２３は、トリガイベントの発生から所定の保持期間が経過した時に車両情報を消去してよい。例えば表示灯の状態信号を消去する契機となるトリガイベントは、表示灯が点灯状態から消灯状態への変化であってよい。

【0024】

車両情報抽出部２４は、車両情報記憶部２３に記憶されている車両情報のいずれかを、第１音声Ｕ１の認識結果に応じて取得する。例えば車両情報抽出部２４は、第１音声Ｕ１から取得した発話意図に基づいて車両情報記憶部２３に記憶されている車両情報のいずれかを取得してよい。車両情報抽出部２４は、第１音声Ｕ１から取得した発話意図とキーワードの組合せに基づいて車両情報のいずれかを取得してもよい。以下の説明において車両情報抽出部２４が取得した車両情報を「車両情報Ｃ１」と表記することがある。
例えば車両情報抽出部２４は、第１音声Ｕ１の認識結果と取得すべき車両情報との関連付けを記憶した車両情報テーブルに基づいて、車両情報記憶部２３に記憶されている車両情報のいずれかを選択して車両情報Ｃ１として取得してもよい。

【0025】

図４は、車両情報テーブルの一例の模式図である。車両情報テーブルは、第１音声Ｕ１の認識結果と取得すべき車両情報とを対応付けるテーブルである。すなわち車両情報テーブルの各レコードには、第１音声Ｕ１の認識結果（例えば発話意図、又は発話意図とキーワードの組合せ）と、取得すべき車両情報とが記憶されている。
例えば図３の対話例のように、第１音声Ｕ１としてユーザが「窓を開けて」と発話した場合には、図４の車両情報テーブルの第１行を参照して、発話意図「窓の開放」に対応する窓の状態信号を車両情報Ｃ１として取得する。なお、窓の状態信号は、車載機器コントローラ３が車載機器２を制御する制御信号の一例である。
なお、車両情報抽出部２４は、車両情報テーブル以外の手段を用いて第１音声Ｕ１の認識結果に応じた車両情報Ｃ１を取得してもよい。例えば、第１音声Ｕ１の認識結果と取得すべき車両情報との関連付けを機械学習した学習モデルに基づいて車両情報Ｃ１を取得してもよい。

【0026】

図２を参照する。応答生成部２５は、ユーザの音声に対する応答を生成する。例えば応答生成部２５は、第１音声Ｕ１に応答する第１応答文Ｓ１と、第２音声Ｕ２に応答する第２応答文Ｓ２とをそれぞれ生成する。応答生成部２５は、生成した第１応答文Ｓ１及び第２応答文Ｓ２をＨＭＩ８から出力する。
また例えば、ユーザの音声が車載機器２に対する制御指示を含む場合には、応答生成部２５は、車載機器２に対する制御信号を生成する。応答生成部２５は、生成した制御信号を車載機器コントローラ３へ出力する。

【0027】

例えば応答生成部２５は、第１音声Ｕ１と車両情報Ｃ１の組合せに基づいて第１応答文Ｓ１を生成してよい。例えば応答生成部２５は、第１音声Ｕ１の認識結果と車両情報Ｃ１の組合せと出力すべき第１応答文Ｓ１との関連付けを記憶した第１応答文テーブルから第１応答文Ｓ１を取得してよい。
図５は、第１応答文テーブルの一例の模式図である。第１応答文テーブルは、第１音声Ｕ１の認識結果と車両情報Ｃ１の組合せと出力すべき第１応答文Ｓ１とを対応付けるテーブルである。すなわち第１応答文テーブルの各レコードには、第１音声Ｕ１の認識結果（例えば発話意図、又は発話意図とキーワードの組合せ）と、車両情報Ｃ１と、出力すべき第１応答文Ｓ１とが記憶されている。

【0028】

例えば図３の対話例のように、第１音声Ｕ１としてユーザが「窓を開けて」と発話した場合には、第１音声Ｕ１の発話意図が「窓の開放」であると判定される。また、車両情報抽出部２４は、車両情報Ｃ１として窓の状態信号を取得する。
応答生成部２５は、発話意図が「窓の開放」であり、且ついずれかの窓が閉まっている場合（第１応答文テーブルの第１行の場合には全ての座席の窓が閉まっており、第２行の場合には運転席の窓と後席窓が閉まっており、第３行の場合には助手席の窓と後席窓が閉まっている）には、第１応答文Ｓ１として「全ての窓を開けます」を取得してＨＭＩ８から出力する。
なお、応答生成部２５は、第１音声Ｕ１の認識結果と車両情報Ｃ１の組合せと第１応答文Ｓ１との関連付けを機械学習した学習モデルに基づいて第１応答文Ｓ１を取得してもよい。

【0029】

次に応答生成部２５は、第２音声Ｕ２と車両情報Ｃ１の組合せに基づいて第２応答文Ｓ２を生成する。
まず応答生成部２５は、第２音声Ｕ２の認識結果を自然言語理解部２１から取得すると、第２音声Ｕ２の発話意図を判定する。例えば第２音声Ｕ２としてユーザが「いいえ、運転席の窓だけを開けて」と発話した場合には、自然言語理解部２１は、第２音声Ｕ２から発話意図「窓の開放」を取得できるので、応答生成部２５は、自然言語理解部２１が取得した発話意図が第２音声Ｕ２の発話意図であると判断してよい。また、第２音声Ｕ２から発話意図を表す文言を抽出できなかった場合には、第１音声Ｕ１の発話意図が第２音声Ｕ２の発話意図であると判定してよい。
例えば図３の対話例のように、第２音声Ｕ２としてユーザが「いいえ、ここだけ」と発話した場合、応答生成部２５は、第２音声Ｕ２の発話意図は、第１音声Ｕ１の発話意図と同じ「窓の開放」であると判定してよい。

【0030】

応答生成部２５は、第２音声Ｕ２の認識結果に基づいて、発話内容で言及された車載機器２である対象機器を特定する。例えば第２音声Ｕ２から車載機器２に一対一で対応するキーワードを取得した場合、応答生成部２５は、第２音声Ｕ２から取得したキーワードに基づいて対象機器を特定してよい。例えば第２音声Ｕ２としてユーザが「いいえ、運転席の窓だけを開けて」と発話した場合には、キーワード「運転席の窓」に基づいて対象機器が運転席の窓であると特定してよい。例えば応答生成部２５は、キーワードと車載機器２との対応関連付けを記憶したテーブルやキーワードと車載機器２との関連付けを機械学習した学習モデルに基づいて対象機器を特定してもよい。

【0031】

一方で、第２音声Ｕ２が対象機器を特定する指示代名詞（たとえば「ここ」や「それ」）を含む場合には、第２音声Ｕ２に含まれる指示代名詞と車両情報に基づいて対象機器を特定してもよい。
例えば図３の対話例のように、第２音声Ｕ２として運転者が「いいえ、ここだけ」と発話した場合を想定する。この場合に、応答生成部２５は、車内カメラの画像や着席センサの検出信号を車両情報として取得し、車両情報に基づいて第２音声Ｕ２の発話者が着座しているのが運転席であると判定してよい。そして第１音声Ｕ１の認識結果に応じて取得した車両情報Ｃ１が窓の状態信号であることに基づいて、対象機器が運転席の窓であると特定してよい。

【0032】

応答生成部２５は、発話意図と対象機器と車両情報Ｃ１の組合せに基づいて第２応答文Ｓ２を生成する。例えば応答生成部２５は、発話意図と対象機器と車両情報Ｃ１の組合せと出力すべき第２応答文Ｓ２との関連付けを記憶した第２応答文テーブルから第２応答文Ｓ２を取得してよい。
図６は、第２応答文テーブルの一例の模式図である。第２応答文テーブルは、発話意図と対象機器と車両情報Ｃ１の組合せと出力すべき第２応答文Ｓ２とを対応付けるテーブルである。すなわち第２応答文テーブルの各レコードには、発話意図と、対象機器と、車両情報Ｃ１と、出力すべき第２応答文Ｓ２とが記憶されている。

【0033】

例えば図３の対話例のように、第２音声Ｕ２としてユーザが「いいえ、ここだけ」と発話し、第２音声Ｕ２の発話意図が「窓の開放」であると判定され、対象機器が「運転席の窓」であると判定され、運転席の窓が閉まっている場合（第２応答文テーブルの第１行及び第２行の場合）を想定する。この場合に応答生成部２５は、第２応答文Ｓ２として「分かりました」、「運転席の窓だけ開けます」を取得してＨＭＩ８から出力する。また、運転席の窓を開ける制御信号を生成して、車載機器コントローラ３へ出力する。
一方で、運転席の窓が開いている場合（第２応答文テーブルの第３行の場合）には、第２応答文Ｓ２として「運転席の窓は開いています」を取得してＨＭＩ８から出力する。
なお、応答生成部２５は、発話意図と対象機器と車両情報Ｃ１の組合せと第２応答文Ｓ２との関連付けを機械学習した学習モデルに基づいて第２応答文Ｓ２を取得してもよい。

【0034】

以上説明したように、本実施形態の音声対話装置９は、第１時刻ｔ１において入力された第１音声Ｕ１に応じて車両情報Ｃ１を取得し、第２時刻ｔ２において入力された第２音声Ｕ２と車両情報Ｃ１とに基づいて応答文（第２応答文Ｓ２）を生成する。
これにより、第１音声Ｕ１に応じて取得した車両情報Ｃ１に基づいて、第２音声Ｕ２に対する応答文でユーザに提供すべき情報を絞り込むことができるので、応答文を短くすることができる。この結果、一回の応答文が長くなりすぎることによりユーザと音声対話装置９との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置９との間のコミュニケーションをより円滑にすることができる。
また、第１音声Ｕ１に応じて取得した車両情報Ｃ１に基づいて、第２音声Ｕ２に対する応答文でユーザに提供すべき情報を絞り込むことができるので、第２音声Ｕ２の発話内容が曖昧であってもユーザの発話意図を正確に受諾できる。そのためユーザは音声による入力文を簡略化することが可能となる。またユーザは直感的に入力することも可能となる。結果として、ユーザと音声対話装置９との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置９との間のコミュニケーションをより円滑にすることができる。

【0035】

図７は、実施形態の音声対話方法による対話の第２例の模式図である。図７は、ユーザの発話意図が車載機器２の意味を問い合わせる「意味の照会」である例、すなわち第１音声Ｕ１又は第２音声Ｕ２が車載機器に対する質問である例を示している。
例えばユーザが第１音声Ｕ１として「この黄色いランプは何？」と発話した場合に、自然言語理解部２１は、第１音声Ｕ１で言及されたキーワードの意味を問い合わせる「意味の照会」が発話意図であると判断する。また自然言語理解部２１は、キーワード「黄色」、「ランプ」を取得する。

【0036】

車両情報抽出部２４は、図４の車両情報テーブルの第２行を参照して、発話意図「意味の照会」とキーワード「黄色、ランプ」の組合せに対応する表示灯の状態信号を車両情報Ｃ１として取得する。
応答生成部２５は、図５の車両情報テーブルの第４行を参照して、第１音声Ｕ１の認識結果（発話意図「意味の照会」及びキーワード「黄色、ランプ」の組合せ）と、横滑り防止装置（ＶＤＣ：Vehicle Dynamics Control）オフ表示灯が点灯状態であることを示す表示灯の状態信号に基づいて、第１応答文Ｓ１として「このランプはＶＤＣオフ表示灯です」を取得してＨＭＩ８から出力する。

【0037】

次に、第２音声Ｕ２としてユーザが「それは何？」と発話すると、自然言語理解部２１は第２音声Ｕ２の発話意図として「意味の照会」を取得するとともに指示代名詞「それ」をキーワードとして取得する。応答生成部２５は、第２音声Ｕ２の認識結果に含まれるキーワード「それ」と車両情報Ｃ１とに基づいて対象機器を特定する。例えばこの場合には、ＶＤＣオフ表示灯が点灯状態であることを示す表示灯の状態信号に基づいて、対象機器がＶＤＣであると特定してよい。
応答生成部２５は、発話意図「意味の照会」と対象機器「ＶＤＣ」と車両情報（ＶＤＣオフ表示灯が点灯状態である）の組合せに基づいて第２応答文テーブルの第４行目を参照し、第２応答文Ｓ２「ＶＤＣは、各種センサを使用して運転者の車両操作と車両の動きを監視し…」を取得してＨＭＩ８から出力する。

【0038】

図８は、実施形態の音声対話方法による対話の第３例の模式図である。図８は、第１音声Ｕ１と第２音声Ｕ２とでユーザの発話意図が変化する場合の例を示している。
例えばユーザが第１音声Ｕ１として「エアコンを入れて」と発話した場合に、自然言語理解部２１は、「空調装置の始動」が発話意図であると判断する。車両情報抽出部２４は、図４の車両情報テーブルの第５行を参照して、発話意図「空調装置の始動」に対応する空調装置の状態信号を車両情報Ｃ１として取得する。

【0039】

応答生成部２５は、図５の車両情報テーブルの第５行を参照して、第１音声Ｕ１の認識結果（発話意図「空調装置の始動」）と、現在設定されている動作モード（例えば、前回に空調装置を停止したときの最後の動作モード）が暖房であることを示す空調装置の状態信号に基づいて、第１応答文Ｓ１として「暖房を入れます」を取得してＨＭＩ８から出力する。また、空調装置を始動する制御信号を生成して、車載機器コントローラ３へ出力する。

【0040】

次に、第２音声Ｕ２としてユーザが「風量を変えたいんだけど」と発話すると、自然言語理解部２１は第２音声Ｕ２の発話意図として「空調装置の風量の調整」を取得する。また応答生成部２５は対象機器が空調装置であると特定する。例えば応答生成部２５は、第２音声Ｕ２から車載機器２を表す文言を抽出できなかった場合には、第１音声Ｕ１に含まれる車載機器２を表すキーワード「エアコン」に基づいて第２音声Ｕ２の対象機器が「空調装置」であると特定してよい。また、第２音声Ｕ２の発話意図が「空調装置の風量の調整」であることに基づいて対象機器が空調装置であると特定してもよい。

【0041】

応答生成部２５は、発話意図「空調装置の風量の調整」と対象機器「空調装置」と車両情報（現在の設定風量はレベル２）の組合せに基づいて第２応答文テーブルの第５行目を参照し、第２応答文Ｓ２「現在の風量はレベル２です」、「風量を上げる場合は「風量を２つ上げて」のように発話して下さい」を取得してＨＭＩ８から出力する。

【0042】

図９は、実施形態の音声対話方法による対話の第４例の模式図である。図９は、車両情報Ｃ１として外部装置からの入力信号を取得する場合の例を示している。ここでは、外部装置として、車両１から発生する音を検出する車内センサ４（マイクロフォン）を例示する。
例えばユーザが第１音声Ｕ１として「この変な音は何？」と発話した場合に、自然言語理解部２１は、「意味の照会」を発話意図として取得し、キーワード「変な音」を取得する。

【0043】

車両情報抽出部２４は、図４の車両情報テーブルの第６行を参照して、発話意図「意味の照会」とキーワード「変な音」の組合せに対応する車両情報Ｃ１として上記の異音推定情報を取得する。異音推定情報は、車両１から発生する異常音の音源との原因の情報であり、上記のとおり車両情報取得部２２により設定される。
応答生成部２５は、図５の車両情報テーブルの第６行を参照して、第１音声Ｕ１の認識結果（発話意図「意味の照会」及びキーワード「変な音」）と、異常音の音源がＣＶＴであり原因がＣＶＴの異常であることを示す異音推定情報に基づいて、第１応答文Ｓ１として「ＣＶＴ異常音である」を取得してＨＭＩ８から出力する。

【0044】

次に、第２音声Ｕ２としてユーザが「どうしたらいい？」と発話すると、自然言語理解部２１は第２音声Ｕ２の発話意図として「対処方法の照会」を取得する。
また応答生成部２５は、車両情報Ｃ１として取得した異音推定情報が示す音源がＣＶＴであること（すなわち、ユーザが第１音声Ｕ１で言及した異常音の音源がＣＶＴであること）に基づいて、第２音声Ｕ２の対象機器が「ＣＶＴ」であると特定する。

【0045】

応答生成部２５は、発話意図「対処方法の照会」と対象機器「ＣＶＴ」と車両情報（異常音の音源がＣＶＴであり原因がＣＶＴの異常である）の組合せに基づいて第２応答文テーブルの第６行目を参照し、第２応答文Ｓ２「ＣＶＴの点検が必要ですので○○販売会社に連絡して下さい」を取得してＨＭＩ８から出力する。

【0046】

なお上記の例では、車両情報Ｃ１として取得する外部装置からの入力信号が、車内センサ４として車両１から発生する音を検出するためのマイクロフォンの検出信号である場合を説明したが、車両情報Ｃ１として取得する外部装置からの入力信号は、外部センサ５の検出信号（例えば車両１の周囲の撮像画像や車両周囲の物体の測距信号）や、地図ＤＢ６の地図情報であってもよい。

【0047】

（動作）
図１０は、実施形態の音声対話方法のフローチャートである。ステップＳ１において音声入力装置７は第１音声Ｕ１を入力する。ステップＳ２において音声対話装置９の音声認識部２０と自然言語理解部２１は、第１音声Ｕ１を認識する。
ステップＳ３において車両情報抽出部２４は、第１音声Ｕ１の認識結果に応じて車両情報Ｃ１を取得する。ステップＳ４において応答生成部２５は、第１音声Ｕ１と車両情報Ｃ１の組合せに基づいて第１応答文Ｓ１を生成してＨＭＩ８から出力する。
ステップＳ５において音声入力装置７は第２音声Ｕ２を入力する。ステップＳ６において音声認識部２０と自然言語理解部２１は、第２音声Ｕ２を認識する。ステップＳ７において応答生成部２５は、第２音声Ｕ２と車両情報Ｃ１の組合せに基づいて第２応答文Ｓ２を生成してＨＭＩ８から出力する。その後に処理は終了する。

【0048】

（実施形態の効果）
（１）音声対話装置９は、第１時刻ｔ１において入力されたユーザの第１音声Ｕ１を認識する処理と、車両１に関するいずれかの車両情報Ｃ１を第１音声Ｕ１の認識結果に応じて取得する処理と、第１時刻ｔ１の後の第２時刻ｔ２において入力されたユーザの第２音声Ｕ２を認識する処理と、車両情報Ｃ１と第２音声Ｕ２の認識結果とに基づいて応答文を生成して出力する処理と、を実行する。

【0049】

これにより、第１音声Ｕ１に応じて取得した車両情報Ｃ１に基づいて、第２音声Ｕ２に対する応答文でユーザに提供すべき情報を絞り込むことができるので、応答文を短くすることができる。この結果、一回の応答文が長くなりすぎることによりユーザと音声対話装置９との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置９との間のコミュニケーションをより円滑にすることができる。
また、第１音声Ｕ１に応じて取得した車両情報Ｃ１に基づいて、第２音声Ｕ２に対する応答文でユーザに提供すべき情報を絞り込むことができるので、第２音声Ｕ２の発話内容が曖昧であってもユーザの発話意図を正確に受諾できる。そのためユーザは音声による入力文を簡略化することが可能となる。またユーザは直感的に入力することも可能となる。結果として、ユーザと音声対話装置９との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置９との間のコミュニケーションをより円滑にすることができる。

【0050】

（２）音声対話装置９は、第１音声Ｕ１の認識結果に応じて取得すべき車両情報Ｃ１を、音声認識結果と車両情報との関連付けを記憶したテーブル又は音声認識結果と車両情報との関連付けを学習した学習モデルに基づいて選択してよい。これにより、第２音声Ｕ２の生成に利用する車両情報Ｃ１を、第１音声Ｕ１の認識結果に応じて取得できる。
（３）第１音声Ｕ１は、車両１の車載機器に対する操作指示、又は車載機器に対する質問であってよい。これにより車両１の車載機器に関する対話を生成できる。

【0051】

（４）音声対話装置９は、車両情報Ｃ１として、車両１の車載機器２を制御する制御信号又は外部装置から入力された入力信号を取得してよい。これにより、車両１に関する様々な情報に基づいて応答文を生成できる。
（５）音声対話装置９は、応答文として車両１の車載機器２に関する文を生成してよい。これにより、車両１の車載機器２を利用する際のユーザの利便性を向上できる。

【符号の説明】

【0052】

１…車両、２…車載機器、３…車載機器コントローラ、４…車内センサ、５…外部センサ、６…地図データベース、７…音声入力装置、８…ヒューマンマシンインタフェース、９…音声対話装置、９ａ…プロセッサ、９ｂ…記憶装置、２０…音声認識部、２１…自然言語理解部、２２…車両情報取得部、２３…車両情報記憶部、２４…車両情報抽出部、２５…応答生成部

【図1】