(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024132463
(43)【公開日】2024-10-01
(54)【発明の名称】音声対話方法及び音声対話装置
(51)【国際特許分類】
G10L 15/22 20060101AFI20240920BHJP
G10L 15/00 20130101ALI20240920BHJP
【FI】
G10L15/22 200H
G10L15/00 200J
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2023043232
(22)【出願日】2023-03-17
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(71)【出願人】
【識別番号】507308902
【氏名又は名称】ルノー エス.ア.エス.
【氏名又は名称原語表記】RENAULT S.A.S.
【住所又は居所原語表記】122-122 bis, avenue du General Leclerc, 92100 Boulogne-Billancourt, France
(74)【代理人】
【識別番号】100103850
【弁理士】
【氏名又は名称】田中 秀▲てつ▼
(74)【代理人】
【識別番号】100114177
【弁理士】
【氏名又は名称】小林 龍
(74)【代理人】
【識別番号】100066980
【弁理士】
【氏名又は名称】森 哲也
(72)【発明者】
【氏名】神沼 充伸
(57)【要約】
【課題】ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にする。
【解決手段】音声対話方法では、第1時刻において入力されたユーザの第1音声を認識する処理(S2)と、第1音声の認識結果に基づいて、第1音声に対する応答文と、応答文に追加する追加情報と、を抽出する処理(S3)と、応答文に追加情報を付加した第1応答文を出力する処理(S4)と、第1応答文を出力した後の第2時刻において追加情報に関連する音声情報として入力されたユーザの第2音声を認識する処理(S6)と、第1応答文と第2音声の認識結果とに基づいて第2応答文を生成して出力する処理(S7)と、をコントローラが実行する。
【選択図】
図11
【特許請求の範囲】
【請求項1】
第1時刻において入力されたユーザの第1音声を認識する処理と、
前記第1音声の認識結果に基づいて、前記第1音声に対する応答文と、前記応答文に追加する追加情報と、を抽出する処理と、
前記応答文に前記追加情報を付加した第1応答文を出力する処理と、
前記第1応答文を出力した後の第2時刻において前記追加情報に関連する音声情報として入力された前記ユーザの第2音声を認識する処理と、
前記第1応答文と前記第2音声の認識結果とに基づいて第2応答文を生成して出力する処理と、
をコントローラが実行することを特徴とする音声対話方法。
【請求項2】
前記第1音声と前記第2音声は質問文を含むことを特徴とする請求項1に記載の音声対話方法。
【請求項3】
前記第1応答文は、前記ユーザに提示する候補を含む文であることを特徴とする請求項1に記載の音声対話方法。
【請求項4】
前記第2音声がカテゴリを問う質問文であり、且つ何のカテゴリに関する質問文であるか前記第2音声で言及されていない場合には、前記コントローラは、前記第1応答文に含まれる前記追加情報を抽出して、前記追加情報で提示された対象のカテゴリを回答する前記第2応答文を生成することを特徴とする請求項1に記載の音声対話方法。
【請求項5】
前記ユーザが乗る車両の目的地情報、経由地情報、経路情報又は前記車両の車載機器に関する車載機器情報のいずれかを含んだ第2応答文を生成することを特徴とする請求項1に記載の音声対話方法。
【請求項6】
ユーザが発話した音声信号を検出するセンサと、
第1時刻において入力されたユーザの第1音声を認識する処理と、前記第1音声の認識結果に基づいて、前記第1音声に対する応答文と、前記応答文に追加する追加情報と、を抽出する処理と、前記応答文に前記追加情報を付加した第1応答文を出力する処理と、前記第1応答文を出力した後の第2時刻において前記追加情報に関連する音声情報として入力された前記ユーザの第2音声を認識する処理と、前記第1応答文と前記第2音声の認識結果とに基づいて第2応答文を生成して出力する処理と、を実行するコントローラと、
を備えることを特徴とする音声対話装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声対話方法及び音声対話装置に関する。
【背景技術】
【0002】
特許文献1には、車載システムに関する意味などの説明を、メータディスプレイに表示するとともに連動した音声によって出力する情報提供装置が提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
音声対話装置とユーザとの間で一連の会話が往復する場合に、発話の回数が多すぎると、ユーザと音声対話装置との間のコミュニケーションが煩雑になる虞がある。
本発明は、ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にすることを目的とする。
【課題を解決するための手段】
【0005】
本発明の一態様による音声対話方法では、第1時刻において入力されたユーザの第1音声を認識する処理と、第1音声の認識結果に基づいて、第1音声に対する応答文と、応答文に追加する追加情報と、を抽出する処理と、応答文に追加情報を付加した第1応答文を出力する処理と、第1応答文を出力した後の第2時刻において追加情報に関連する音声情報として入力されたユーザの第2音声を認識する処理と、第1応答文と第2音声の認識結果とに基づいて第2応答文を生成して出力する処理と、をコントローラが実行する。
【発明の効果】
【0006】
本発明は、ユーザの発話に応答する音声対話装置とユーザとの間のコミュニケーションをより円滑にすることができる。
【図面の簡単な説明】
【0007】
【
図1】実施形態の音声対話装置を備えた車両の一例の概略構成図である。
【
図2】実施形態の音声対話装置の機能構成の一例を示すブロック図である。
【
図3】実施形態の音声対話方法による対話の第1例の模式図である。
【
図4】実施形態の音声対話方法による対話の第2例の模式図である。
【
図7】実施形態の音声対話方法による対話の第3例の模式図である。
【
図8】実施形態の音声対話方法による対話の第4例の模式図である。
【
図9】実施形態の音声対話方法による対話の第5例の模式図である。
【
図10】実施形態の音声対話方法による対話の第6例の模式図である。
【
図11】実施形態の音声対話方法のフローチャートである。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態について、図面を参照しつつ説明する。なお、各図面は模式的なものであって、現実のものとは異なる場合がある。また、以下に示す本発明の実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の構造、配置等を下記のものに特定するものではない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。
【0009】
(第1実施形態)
(構成)
図1は、実施形態の音声対話装置を備えた車両の一例の概略構成図である。車両1は、車載機器2と、車載機器コントローラ3と、ナビゲーション装置4と、走行制御装置5と、地図データベース(以下「地
図DB」と表記する)6と、音声入力装置7と、ヒューマンマシンインタフェース(以下「HMI」と表記する)8と、音声対話装置9を備える。
車載機器2は、車両1に搭載されている各種機器である。例えば車載機器2は、車両1の運転席のインストルメントパネルやAピラー付近に配置された表示灯であってよい。
【0010】
車載機器コントローラ3は、車載機器2の動作を制御する電子制御ユニット(ECU:Electronic Control Unit)であり、車載機器2を制御するための制御信号を生成する。車載機器コントローラ3は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばCPU(Central Processing Unit)やMPU(Micro-Processing Unit)であってよい。
記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリを含んでよい。
【0011】
なお、車載機器コントローラ3を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ3は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ3はフィールド・プログラマブル・ゲート・アレイ(FPGA:Field-Programmable Gate Array)等のプログラマブル・ロジック・デバイス(PLD:Programmable Logic Device)等を有していてもよい。
【0012】
ナビゲーション装置4は、車両1の現在位置から目的地までの目標走行経路の経路情報を演算する。
走行制御装置5は、車両1の加速、減速及び操舵のうち少なくとも1つを自動的に制御する。
例えば走行制御装置5は、ナビゲーション装置4により設定された目標走行経路に沿って車両1に自律的に走行させるように、車両1の加速、減速及び操舵を制御する自動運転制御を実行する自動運転装置であってよい。
【0013】
また例えば走行制御装置5は、車両1の加速、減速及び操舵のうち少なくとも1つを運転者に代わって自動的に制御することにより車両1の運転を支援する運転支援装置であってもよい。運転支援装置は、例えば横滑り防止装置(VDC:Vehicle Dynamics Control)や、車線維持装置、車間距離制御装置、自動ブレーキ装置であってよい。
これら車載機器2、ナビゲーション装置4及び走行制御装置5は、特許請求の範囲に記載の「車載機器」の一例である。
【0014】
地
図DB6は、道路地図データを記憶している。道路地図データは、ナビゲーション装置4による目標走行経路の演算に使用可能なナビゲーション地図(以下の説明において「ナビ地図」と表記することがある)であってよい。ナビ地図は、道路単位の情報として、道路基準線(例えば道路の中央の線)上の基準点を示す道路ノードの情報と、道路ノード間の道路の区間態様を示す道路リンクの情報、道路線種、道路形状、勾配、車線数、法定速度(制限速度)、道幅、合流地点の有無、高速道路のインターチェンジ、道路沿いの施設(サービスエリアや道の駅)等に関する情報を含む。道路線種には、例えば一般道路と高速道路が含まれる。道路地図データは、走行制御装置5による自動運転制御に用いる地図として好適な高精度地図データであってもよい。
【0015】
音声入力装置7は、車両1のユーザの音声入力を取得して音声データを生成するセンサである。例えば音声入力装置7は、マイクロフォンであってよい。例えば音声入力装置7は、音源の方向を推定できるマイクロフォンアレイであってもよい。
HMI8は、音声対話装置9とユーザとの間で情報を授受するインタフェース装置である。HMI8は、車両1のユーザが視認可能な表示装置(例えば、ナビゲーションシステムの表示画面)や、警報音や通知音、音声情報を出力するためのスピーカやブザーを備える。
【0016】
音声対話装置9は、車両1のユーザの音声の発話内容を認識して、ユーザの音声に応答する応答文を生成してHMI8から出力するコントローラとして動作する電子制御ユニット(ECU)である。例えば、音声対話装置9は、生成した応答文を音声情報としてHMI8のスピーカから出力してよい。また例えば音声対話装置9は、生成した応答文を文字情報としてHMI8の表示装置に表示してもよい。
また、音声対話装置9は、ユーザとの対話において取得したユーザの発話内容に基づいて車載機器2を制御する制御信号を車載機器コントローラ3に出力してもよい。また、ユーザの発話内容に基づいてナビゲーション装置4や走行制御装置5に対する操作信号を出力してもよい。
【0017】
音声対話装置9は、プロセッサ9aと、記憶装置9b等の周辺部品とを含む。プロセッサ9aは、例えばCPUやMPUであってよい。
記憶装置9bは、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置9bは、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM及びRAM等のメモリを含んでよい。以下に説明する音声対話装置9の機能は、例えばプロセッサ9aが、記憶装置9bに格納されたコンピュータプログラムを実行することにより実現される。
音声対話装置9を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声対話装置9は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声対話装置9はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。
【0018】
図2は、音声対話装置9の機能構成の一例を示すブロック図である。音声対話装置9は、音声認識部20と、自然言語理解部21と、応答生成部22と、応答文記憶部23と、を備える。
音声認識部20は、音声入力装置7が取得したユーザからの音声入力を認識してテキストなどの言語情報に変換する。音声認識部20は、音声入力を変換して生成した言語情報を自然言語理解部21に出力する。
自然言語理解部21は、音声認識部20から出力された言語情報を自然言語処理によって解析し、ユーザの発話意図(すなわち「インテント」)を取得する。
【0019】
図3は、実施形態の音声対話方法による対話の第1例の模式図である。本実施形態では、第1時刻t1、及び第1時刻t1よりも後の第2時刻t2、及び第2時刻t2よりも後の第3時刻t3においてそれぞれユーザの音声が音声対話装置9に入力され、音声認識部20及び自然言語理解部21が、第1時刻t1に入力された第1音声U1と、第2時刻t2に入力された第2音声U2と、第3時刻t3に入力された第3音声U3を、それぞれ認識した場合を想定する。
例えば
図3の対話の例では、ユーザが発話した「途中で道の駅に寄りたいけど、候補を教えて」、「ジャンルは何?」及び「R2にしよう」がそれぞれ第1音声U1、第2音声U2及び第3音声U3として入力されている。
【0020】
例えば自然言語理解部21は、発話意図として車両1の目標走行経路上で立ち寄ることができる経由地を問い合わせる「経由地の照会」を取得してよい。
例えば自然言語理解部21は、ユーザの音声から生成した言語情報に含まれている単語と発話意図とを関連付けて記憶したテーブルに基づいて、ユーザの発話意図を取得してよい。
図3の対話の例では、第1音声U1として質問文「途中で道の駅に寄りたいけど、候補を教えて」とユーザが発話した場合を想定する。自然言語理解部21は、ユーザが発話した単語「途中」、「寄りたい」、「候補」及び「教えて」に基づいて、発話意図が「経由地の照会」であると判断してよい。
【0021】
例えば自然言語理解部21は、ユーザの音声から生成した言語情報に含まれている単語と発話意図の関連付けを機械学習した学習モデルに基づいて、ユーザの発話意図を取得してもよい。
また自然言語理解部21は、発話に含まれる意味のある要素(有意要素)であるキーワード(すなわち「エンティティ」)を取得する。例えばユーザが「途中で道の駅に寄りたいけど、候補を教えて」と発話した場合に、自然言語理解部21は、キーワード「道の駅」を取得してよい。
【0022】
図2を参照する。応答生成部22は、ユーザの音声に応答する応答を生成する。
図3の対話例の場合に応答生成部22は、第1音声U1に応答する第1応答文S1と、第2音声U2に応答する第2応答文S2と、第3音声U3に応答する第3応答文S3とをそれぞれ生成する。応答生成部22は、生成した第1応答文S1~第3応答文S3をHMI8から出力する。
【0023】
一方で、ユーザの音声が車載機器2に対する制御指示を含む場合には、応答生成部22は、車載機器2に対する制御信号を生成する。応答生成部22は、生成した制御信号を車載機器コントローラ3へ出力する。ユーザの音声がナビゲーション装置4や走行制御装置5に対する操作指示を含む場合には、応答生成部22は、ナビゲーション装置4や走行制御装置5に対する操作信号を生成して、ナビゲーション装置4や走行制御装置5にそれぞれ出力する。
【0024】
第1音声U1に対する第1応答文S1を生成する場合、応答生成部22は、第1音声U1に対する応答文である基礎応答文と、基礎応答文に追加すべき追加応答文を抽出する。
基礎応答文は、第1音声U1に応答して音声入力装置7から提供する情報(以下の説明において「基礎応答情報」と表記することがある)を含んだ文である。例えば第1音声U1が質問文である場合には、基礎応答情報は第1音声U1の質問に対する回答を含んだ情報であってよい。
【0025】
例えば応答生成部22は、第1音声U1の認識結果と、基礎応答文のテンプレートと、追加応答文のテンプレートとの関連付けを記憶した第1応答文テーブルに基づいて、基礎応答文と追加応答文とを抽出してよい。
図5は、第1応答文テーブルの一例の模式図である。第1応答文テーブルは、第1音声U1の認識結果と基礎応答文のテンプレートと追加応答文のテンプレートとを対応付けるテーブルである。すなわち第1応答文テーブルの各レコードには、第1音声U1の認識結果(例えば発話意図及びキーワード)と、基礎応答文のテンプレートと、追加応答文のテンプレートとが記憶されている。
【0026】
例えば第1音声U1として「途中で道の駅に寄りたいけど、候補を教えて」とユーザが発話した場合、応答生成部22は、
図5の第1応答文テーブルの第1行を参照して、発話意図「経由地の照会」及びキーワード「道の駅」の組合せに対応する基礎応答文のテンプレート「[基礎応答情報]が見つかりました」を抽出する。テンプレートに含まれる[基礎応答情報]は、基礎応答情報が代入される箇所を示す。
応答生成部22は、地
図DB6から目標走行経路上にある道の駅の候補R1、R2及びR3を基礎応答情報として抽出する。応答生成部22は、抽出した基礎応答文のテンプレートに基礎応答情報を代入して基礎応答文「R1とR2とR3が見つかりました」を生成する。
【0027】
また応答生成部22は、
図5の第1応答文テーブルの第1行を参照して、発話意図「経由地の照会」及びキーワード「道の駅」の組合せに対応する追加応答文のテンプレート「[追加情報]にはレストランがあります」を抽出する。テンプレートに含まれる[追加情報]は、追加情報が代入される箇所を示す。
応答生成部22は、地
図DB6を参照して、基礎応答情報(R1、R2、R3)のうち道の駅(R2、R3)にあるレストランを追加情報として抽出する。応答生成部22は、抽出した追加応答文のテンプレートに追加情報を代入して追加応答文「R2とR3にはレストランがあります」を生成する。
【0028】
応答生成部22は、基礎応答文に追加応答文を付加することにより第1応答文S1「R1とR2とR3が見つかりました、R2とR3にはレストランがあります」を生成して、HMI8から出力する。
なお、応答生成部22は、第1音声U1の認識結果と基礎応答文と追加応答文との関連付けを機械学習した学習モデルに基づいて基礎応答文と追加応答文とを抽出してもよい。
【0029】
応答文記憶部23は、第1応答文S1を一時的に記憶する。例えば応答文記憶部23は、第2応答文S2を生成するまで第1応答文S1を記憶し、第2応答文S2の生成後に第1応答文S1を消去してよい。また応答文記憶部23は、第1応答文S1を出力した後に所定時間が経過しても第2音声U2が入力されない場合に、所定時間の経過後に第1応答文S1を消去してよい。
【0030】
なお、どのような種類の情報を追加情報として抽出するかは、例えば、基礎応答情報(例えば基礎応答文のテンプレートに代入される情報)の種類に応じて予め設定してよい。
例えば、第1応答文テーブルの第1行の例では、基礎応答情報は道の駅の情報であり、追加情報は道の駅のレストランの情報である。
例えば慣用的に基礎応答情報に関連して質問される頻度が高い情報を、追加情報の種類として設定してよい。
【0031】
例えば基礎応答情報が道の駅の情報である場合、道の駅に関連して質問されることが多いのは道の駅にあるレストラン、トイレ、ガソリンスタンドに関する情報である。このため、追加情報の種類として、道の駅のレストランの情報を設定してよい。
また例えば、慣用的に基礎応答情報と共起され易い情報(すなわち、基礎応答情報の共起情報)や、慣用的に基礎応答情報と同時に用いられ易い情報を、追加情報の種類として設定してもよい。
なお、基礎応答情報は、第1音声U1に含まれるキーワードに応じて抽出されるので、第1音声U1に含まれると予想されるキーワードに関連して追加情報の種類を設定してもよい。
【0032】
応答生成部22が第1応答文S1を出力した後の第2時刻t2において、第1応答文S1に含まれる追加情報に関連する音声情報がユーザの第2音声U2から入力されると、自然言語理解部21は、第2音声U2の発話意図を取得するとともに、第2音声U2に含まれるキーワードを取得する。
例えば、第2音声U2としてユーザが質問文「レストランのジャンルは何?」と発話した場合を想定する。自然言語理解部21は、カテゴリ(ジャンル)を問い合わせる「カテゴリの照会」を発話内容として取得する。また自然言語理解部21は、キーワード「レストラン」を取得する。
【0033】
応答生成部22は、第2音声U2の認識結果を自然言語理解部21から取得する。応答生成部22は、第1応答文S1を出力した後に第2音声U2が入力された場合に、第2音声U2は、第1応答文S1に含まれる追加情報に関してユーザが発話した音声情報として認識する。応答生成部22は、応答文記憶部23から第1応答文S1を読み出して、第1応答文S1に含まれる追加情報を抽出する。
【0034】
次に応答生成部22は、第2音声U2の主題としてユーザが意図している対象テーマを決定する。例えば応答生成部22は、第2音声U2から取得したキーワード「レストラン」に基づいて、第1応答文S1に含まれる追加情報であるレストランが対象テーマであると設定してよい。
なお、第2音声U2がカテゴリを問う質問文であり、且つ何のカテゴリに関する質問文であるか第2音声U2で言及されていない場合には、応答生成部22は、第1応答文S1に含まれる追加情報を、対象テーマとして設定してもよい。
【0035】
例えば
図3の対話例のように、第2音声U2としてユーザが単に「ジャンルは何?」と発話した場合には、応答生成部22は、第1応答文S1に含まれる追加情報であるレストランが対象テーマとして設定してもよい。
これにより、応答生成部22は、追加情報で提示された対象である道の駅R2及びR3のレストランのカテゴリ(ジャンル)を回答する第2応答文S2を生成できる。
【0036】
応答生成部22は、第2音声U2の認識結果と第1応答文S1に基づいて第2応答文S2を生成する。
例えば応答生成部22は、第2音声U2の発話意図と対象テーマと、第2応答文S2のテンプレートとの関連付けを記憶した第2応答文テーブルに基づいて、第2応答文S2を抽出してよい。
図6は、第2応答文テーブルの一例の模式図である。第2応答文テーブルは、第2音声U2の発話意図と対象テーマと、第2応答文S2のテンプレートとを対応付けるテーブルである。すなわち第2応答文テーブルの各レコードには、第2音声U2の発話意図と対象テーマと、第2応答文S2のテンプレートとが記憶されている。
【0037】
例えば第2音声U2として「ジャンルは何?」とユーザが発話した場合、発話意図「カテゴリの照会」が取得され、対象テーマが「レストラン」に設定される。応答生成部22は、
図6の第2応答文テーブルの第1行を参照して、第2応答文S2のテンプレート「[追加情報]は[カテゴリ]です」を抽出する。テンプレートに含まれる[カテゴリ]は、追加情報のカテゴリが代入される箇所を示す。
応答生成部22は、追加情報である道の駅R2及びR3のレストランのカテゴリ(ジャンル)を地
図DB6から抽出する。応答生成部22は、抽出したカテゴリと、追加情報とを第2応答文S2のテンプレートに代入して第2応答文S2「R2はイタリアン、R3はフレンチです」を生成する。
【0038】
応答生成部22は、生成した第2応答文S2をHMI8から出力する。
なお、応答生成部22は、第2音声U2の発話意図と対象テーマと、第2応答文S2のテンプレートとの関連付けを機械学習した学習モデルに基づいて第2応答文2を抽出してもよい。
その後に、ユーザの第3音声U3「R2にしよう」が入力されると、応答生成部22は、第3応答文S3「分かりました、R2を経由地に設定します」を生成してHMI8から出力するとともに、道の駅R2を目標走行経路の経由地に設定する操作信号をナビゲーション装置4に出力する。
【0039】
以上説明したように、本実施形態の音声対話装置9は、第1時刻t1において入力された第1音声U1に応じて、第1音声U1に対する基礎応答文と、基礎応答文に追加する追加応答文と、を抽出し、基礎応答文に追加応答文を付加した第1応答文S1を出力する。そして、第2時刻t2において入力された第2音声U2と第1応答文S1とに基づいて第2応答文S2を生成する。
【0040】
これにより、音声対話装置9は、第1音声U1に対する基礎応答文だけでなく、基礎応答文に関連する追加情報を、予め第1応答文S1に含めてユーザに提示できるので、ユーザの発話回数を減らすことができる。この結果、ユーザと音声対話装置9との間の一連の会話における発話回数を低減できる。このため、ユーザと音声対話装置9との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置9との間のコミュニケーションをより円滑にすることができる。
【0041】
図4は、実施形態の音声対話方法による対話の第2例の模式図である。
図4の対話例の第1音声U1、第1応答文S1、第2音声U2及び第2応答文S2のやり取りは、
図3の対話例と同様である。
図4の対話例において、ユーザの第3音声U3「そのイタリアンのところ」が入力されると、応答生成部22は、第2応答文S2「R2はイタリアン、R3はフレンチです」に基づいて、ユーザの発話の対象が道の駅R2であると判断し、第3応答文S3「分かりました、R2を経由地にします」を生成してHMI8から出力するとともに、道の駅R2を目標走行経路の経由地に設定する操作信号をナビゲーション装置4に出力する。
これにより、ユーザの第3音声U3が、
図3の第3音声U3「R2にしよう」よりも更に曖昧であってもユーザの発話内容を正確に受諾できる。
【0042】
図7は、実施形態の音声対話方法による対話の第3例の模式図である。
図7の対話例では車両1の目的地情報を含んだ第2応答文S2を生成する。
例えばユーザが第1音声U1として「道の駅に行きたいけど、候補を教えて」と発話すると、自然言語理解部21は、目的地として設定できる地点を問い合わせる「目的地の照会」が発話意図であると判断し、キーワード「道の駅」を取得する。
【0043】
応答生成部22は、
図5の第1応答文テーブルの第2行を参照して、発話意図「目的地の照会」及びキーワード「道の駅」の組合せに対応する基礎応答文のテンプレート「[基礎応答情報]が見つかりました」と追加応答文のテンプレート「[追加情報]にはレストランがあります」を抽出する。
応答生成部22は、
図3の対話例と同様に第1応答文S1「R1とR2とR3が見つかりました、R2とR3にはレストランがあります」を生成して、HMI8から出力する。
【0044】
次に、ユーザが第2音声U2として「ジャンルは何?」と発話すると、応答生成部22は、第1の対話例と同様に第2応答文S2「R2はイタリアン、R3はフレンチです」を生成して、HMI8から出力する。
次に、ユーザが第3音声U3として「R2にしよう」が入力されると、応答生成部22は、第3応答文S3「分かりました、R2を目的地に設定します」を生成してHMI8から出力するとともに、道の駅R2を目標走行経路の目的地に設定する操作信号をナビゲーション装置4に出力する。
【0045】
図8は、実施形態の音声対話方法による対話の第4例の模式図である。
図7の対話例の第1音声U1、第1応答文S1、第2音声U2及び第2応答文S2のやり取りは、
図3の対話例と同様である。
図8の対話例において、ユーザの第3音声U3「そのイタリアンのところ」が入力されると、応答生成部22は、第2応答文S2「R2はイタリアン、R3はフレンチです」に基づいて、ユーザの発話の対象が道の駅R2であると判断し、第3応答文S3「分かりました、R2を目的地にします」を生成してHMI8から出力するとともに、道の駅R2を目標走行経路の目的地に設定する操作信号をナビゲーション装置4に出力する。
これにより、ユーザの第3音声U3が、
図3の第3音声U3「R2にしよう」よりも更に曖昧であってもユーザの発話内容を正確に受諾できる。
【0046】
図9は、実施形態の音声対話方法による対話の第5例の模式図である。
図9の対話例では車両1の経路情報を含んだ第2応答文S2を生成する。
例えばユーザが第1音声U1として「高速道路を降りる場所の候補を教えて」と発話すると、自然言語理解部21は、目標走行経路として設定できる走行経路を問い合わせる「経路の照会」が発話意図であると判断し、キーワード「高速道路」、「降りる」を取得する。
【0047】
応答生成部22は、
図5の第1応答文テーブルの第3行を参照して、発話意図「経路の照会」及びキーワード「高速道路」、「降りる」の組合せに対応する基礎応答文のテンプレート「[基礎応答情報]で降りることができます」と追加応答文のテンプレート「混雑していないのは[追加情報]です」を抽出する。
応答生成部22は、目標走行経路上にある高速道路の降り口となるインターチェンジIC1、IC2及びIC3を基礎応答情報として抽出する。応答生成部22は、抽出した基礎応答文のテンプレートに基礎応答情報を代入して基礎応答文「IC1、IC2及びIC3で降りることができます」を生成する。
【0048】
また応答生成部22は、基礎応答情報である高速道路の降り口(IC1、IC2、IC3)の混雑状態の情報をナビゲーション装置4から取得し、これらの高速道路の降り口のうち、混雑していない降り口(IC2、IC3)を追加情報として抽出する。応答生成部22は、抽出した追加応答文のテンプレートに追加情報を代入して追加応答文「混雑していないのはIC2とIC3です」を生成する。応答生成部22は、基礎応答文に追加応答文を付加することにより第1応答文S1「C1、IC2及びIC3で降りることができます、混雑していないのはIC2とIC3です」を生成して、HMI8から出力する。
【0049】
次に、ユーザが第2音声U2として「IC2でお願いします」と発話すると、自然言語理解部21は、キーワード「IC2」を取得する。応答生成部22は、第1応答文S1に含まれる追加情報である高速道路の降り口が対象テーマであると設定する。
応答生成部22は、
図6の第2応答文テーブルの第2行を参照して、第1音声U1から取得した発話意図「経路の照会」と対象テーマ「高速道路降り口」の組合せに対応する第2応答文S2のテンプレート「[キーワード]で高速道路を降りる経路を設定します」を抽出する。テンプレートに含まれる[キーワード]は、第2音声U2のキーワードが代入される箇所を示す。
応答生成部22は、キーワード「IC2]を第2応答文S2のテンプレートに代入して、第2応答文S2「IC2で高速道路を降りる経路を設定します」を生成して、HMI8から出力する。また、目標走行経路をインターチェンジIC2で高速道路を降りる経路に変更する操作信号をナビゲーション装置4に出力する。
【0050】
図10は、実施形態の音声対話方法による対話の第6例の模式図である。
図10の対話例では車載機器2に関する車載機器情報を含んだ第2応答文S2を生成する。
例えばユーザが第1音声U1として「このVDCオフってランプ何?」と発話すると、自然言語理解部21は、第1音声U1で言及されたキーワードの意味を問い合わせる「意味の照会」が発話意図であると判断し、キーワード「VDCオフ」、「ランプ」を取得する。
【0051】
応答生成部22は、
図5の第1応答文テーブルの第4行を参照して、発話意図「意味の照会」及びキーワード「VDCオフ」、「ランプ」の組合せに対応する基礎応答文のテンプレート「このランプはVDCオフ表示灯です」と追加応答文のテンプレート「VDCがオフのときに点灯します」を抽出する。
応答生成部22は、基礎応答文のテンプレートに追加応答文のテンプレートを付加することにより第1応答文S1「このランプはVDCオフ表示灯です、VDCがオフのときに点灯します」を生成して、HMI8から出力する。
【0052】
次に、ユーザが第2音声U2として「それって何?」と発話すると、自然言語理解部21は、発話意図が「意味の照会」であると判断し、キーワード「それ」を取得する。
応答生成部22は、キーワードに含まれる指示代名詞「それ」が示す「VDC」を、第1応答文S1の追加応答文から抽出して第2音声U2の対象テーマとして設定する。
応答生成部22は、
図6の第2応答文テーブルの第3行を参照して、発話意図「意味の照会」と対象テーマ「VDC」の組合せに対応する第2応答文S2のテンプレート「VDCは、各種センサを使用して運転者の車両操作と車両の動きを監視し…」を抽出する。
応答生成部22は、抽出したテンプレートを第2応答文S2としてHMI8から出力する。
【0053】
(動作)
図11は、実施形態の音声対話方法のフローチャートである。ステップS1において音声入力装置7は第1音声U1を入力する。ステップS2において音声対話装置9の音声認識部20と自然言語理解部21は、第1音声U1を認識する。
ステップS3において応答生成部22は、第1音声U1に対する基礎応答文と基礎応答文に追加する追加応答文とを抽出する。ステップS4において応答生成部22は、基礎応答文に追加応答文を付加して第1応答文S1を生成してHMI8から出力する。
ステップS5において音声入力装置7は、第1応答文S1の追加応答文に関連する音声情報である第2音声U2を入力する。ステップS6において音声認識部20と自然言語理解部21は、第2音声U2を認識する。ステップS7において応答生成部22は、第1応答文S1と第2音声U2の認識結果とに基づいて第2応答文S2を生成してHMI8から出力する。その後に処理は終了する。
【0054】
(実施形態の効果)
(1)音声対話装置9は、第1時刻t1において入力されたユーザの第1音声U1を認識する処理と、第1音声U1の認識結果に基づいて、第1音声U1に対する応答文と、応答文に追加する追加情報と、を抽出する処理と、応答文に追加情報を付加した第1応答文S1を出力する処理と、第1応答文S1を出力した後の第2時刻t2において追加情報に関連する音声情報として入力されたユーザの第2音声U2を認識する処理と、第1応答文S1と第2音声U2の認識結果とに基づいて第2応答文S2を生成して出力する処理と、をコントローラが実行する。
【0055】
これにより、第1音声U1に対する基礎応答文に関連する追加情報を、予め第1応答文S1に含めてユーザに提示できるので、ユーザが音声対話装置9に発話する回数を減らすことができる。この結果、ユーザと音声対話装置9との間の一連の会話における発話回数を低減できる。このため、ユーザと音声対話装置9との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置9との間のコミュニケーションをより円滑にすることができる。
また、第1音声U1に応じて取得した車両情報C1に基づいて、第2音声U2に対する応答文でユーザに提供すべき情報を絞り込むことができるので、第2音声U2の発話内容が曖昧であってもユーザの発話意図を正確に受諾できる。そのためユーザは音声による入力文を簡略化することが可能となる。またユーザは直感的に入力することも可能となる。結果としてユーザと音声対話装置9との間のコミュニケーションが煩雑になるのを回避でき、ユーザと音声対話装置9との間のコミュニケーションをより円滑にすることができる。
【0056】
(2)第1音声U1と第2音声U2は質問文を含んでよい。これにより、第1音声U1と第2音声U2の質問に応答する応答文をユーザに提示できる。
(3)第1応答文S1は、ユーザに提示する候補を含む文であってよい。これにより、第1音声U1の質問に対する回答の候補をユーザに提示できる。
【0057】
(4)第2音声U2がカテゴリを問う質問文であり、且つ何のカテゴリに関する質問文であるか第2音声U2で言及されていない場合には、音声対話装置9は、第1応答文S1に含まれる追加情報を抽出して、追加情報で提示された対象のカテゴリを回答する第2応答文S2を生成してもよい。
これにより、ユーザは何のカテゴリに関する質問文であるかを発話しなくても済むので、ユーザと音声対話装置9との間のコミュニケーションをより円滑にすることができる。
【0058】
(5)音声対話装置9は、ユーザが乗る車両1の目的地情報、経由地情報、経路情報又は車両の車載機器2に関する車載機器情報のいずれかを含んだ第2応答文S2を生成してよい。
これにより、ユーザが車両1を利用する際の利便性を向上できる。
【符号の説明】
【0059】
1…車両、2a…車載機器、2b…ナビゲーション装置、2c…走行制御装置、3…車載機器コントローラ、6…地図データベース、7…音声入力装置、8…ヒューマンマシンインタフェース、9…音声対話装置、9a…プロセッサ、9b…記憶装置、20…音声認識部、21…自然言語理解部、22…応答生成部、23…応答文記憶部