(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024045996
(43)【公開日】2024-04-03
(54)【発明の名称】音声認識方法及び音声認識装置
(51)【国際特許分類】
G10L 15/10 20060101AFI20240327BHJP
G10L 15/00 20130101ALI20240327BHJP
B60R 16/02 20060101ALI20240327BHJP
【FI】
G10L15/10 200W
G10L15/00 200J
B60R16/02 655B
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022151109
(22)【出願日】2022-09-22
(71)【出願人】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(74)【代理人】
【識別番号】100103850
【弁理士】
【氏名又は名称】田中 秀▲てつ▼
(74)【代理人】
【識別番号】100114177
【弁理士】
【氏名又は名称】小林 龍
(74)【代理人】
【識別番号】100066980
【弁理士】
【氏名又は名称】森 哲也
(72)【発明者】
【氏名】神沼 充伸
(57)【要約】
【課題】車両に設けられたユーザインタフェースに関する発話を音声認識する際のユーザによる発話入力を容易にする。
【解決手段】音声認識方法では、車両の利用者の発話音声から、前記車両に設けられたユーザインタフェースに関連するオノマトペを含んだ発話内容を認識し(S1)、認識した前記発話内容に基づいて、前記発話音声で言及されたユーザインタフェースである対象インタフェースを推定し(S2)、対象インタフェースに関する情報を提示するか、前記情報の提示を提案するか、対象インタフェースを操作する(S3)。
【選択図】
図9
【特許請求の範囲】
【請求項1】
車両の利用者の発話音声から、前記車両に設けられたユーザインタフェースに関連するオノマトペを含んだ発話内容を認識し、
認識した前記発話内容に基づいて、前記発話音声で言及されたユーザインタフェースである対象インタフェースを推定し、
前記対象インタフェースに関する情報を提示するか、前記情報の提示を提案するか、前記対象インタフェースを操作する、
ことを特徴とする音声認識方法。
【請求項2】
前記対象インタフェースに関する情報は、前記対象インタフェースの意味又は前記対象インタフェースの使用方法の情報であることを特徴とする請求項1に記載の音声認識方法。
【請求項3】
前記ユーザインタフェースは、車両操作のためのスイッチ、ランプ、報知音生成装置であることを特徴とする請求項1に記載の音声認識方法。
【請求項4】
前記ユーザインタフェースはランプであり、
前記対象インタフェースに関する情報は、前記対象インタフェースであるランプが点灯した場合の対処方法の情報、又は前記車両の故障の有無の情報である、
ことを特徴とする請求項1に記載の音声認識方法。
【請求項5】
前記ユーザインタフェースは報知音生成装置であり、
前記対象インタフェースに関する情報は、前記対象インタフェースが報知音を生成した場合の対処方法の情報又は前記車両の故障の有無の情報である、
ことを特徴とする請求項1に記載の音声認識方法。
【請求項6】
前記認識した発話内容に含まれるオノマトペの回数を認識し、
前記オノマトペと前記オノマトペの回数とに基づいて前記対象インタフェースを推定する、
ことを特徴とする請求項1に記載の音声認識方法。
【請求項7】
前記認識した発話内容と前記ユーザインタフェースに含まれる図形とに基づいて前記対象インタフェースを推定する、ことを特徴とする請求項1に記載の音声認識方法。
【請求項8】
前記認識した発話内容に含まれるオノマトペの回数を認識し、
前記オノマトペの回数と前記図形に含まれる図形要素の個数とに基づいて前記対象インタフェースを推定する、
ことを特徴とする請求項7に記載の音声認識方法。
【請求項9】
前記認識した発話内容に含まれる方向を表す表現を認識し、
前記オノマトペと前記方向を表す表現とに基づいて前記対象インタフェースを推定する、
ことを特徴とする請求項7に記載の音声認識方法。
【請求項10】
前記方向を表す表現と前記図形に含まれる線の方向とに基づいて前記対象インタフェースを推定することを特徴とする請求項9に記載の音声認識方法。
【請求項11】
「シュ」、「シャ」又は「スー」の音声を含むオノマトペに対応する図形要素を直線として特定し、「ニョロ」、「ユラ」又は「ナミ」の音声を含むオノマトペに対応する図形要素を曲線として特定することを特徴とする請求項7に記載の音声認識方法。
【請求項12】
前記認識した発話内容に含まれるユーザインタフェースの動作状態を表す表現を認識し、前記オノマトペと前記動作状態を表す表現とに基づいて前記対象インタフェースを推定する、ことを特徴とする請求項1に記載の音声認識方法。
【請求項13】
前記オノマトペは、擬態語、擬音語又は擬声語のいずれか1つ以上であることを特徴とする請求項1に記載の音声認識方法。
【請求項14】
車両の利用者の発話音声から、前記車両に設けられたユーザインタフェースに関連するオノマトペを含んだ発話内容を認識する処理と、
認識した前記発話内容に基づいて、前記発話音声で言及されたユーザインタフェースである対象インタフェースを推定する処理と、
前記対象インタフェースに関する情報を提示するか、前記情報の提示を提案するか、前記対象インタフェースを操作する処理と、
を実行するコントローラを備えることを特徴とする音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識方法及び音声認識装置に関する。
【背景技術】
【0002】
特許文献1には、車両の異常発生時に点灯または点滅する警告灯の意味を運転者に教示する情報提供装置が提案されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
近年、音声認識を用いて利用者からの質問に応答したり機器の操作を行う音声入力システムが提案されている。このような音声入力システムでは、利用者が入力することを意図した指示を、利用者の発話内容から推定する。
このような音声入力システムを実現するためには、利用者の発話内容で言及された対象物を特定する必要がある。しかしながら、対象物を正確に特定できる特徴を利用者が正確に発話することが困難なことがある。例えば、車両の運転をしている場合のように利用者が他の作業をしている場合には、対象を正確に特定できる特徴を正確に発話することは困難である。
本発明では、車両に設けられたユーザインタフェースに関する発話を音声認識する際のユーザによる発話入力を容易にすることを目的とする。
【課題を解決するための手段】
【0005】
本発明の一態様による音声認識方法では、車両の利用者の発話音声から、前記車両に設けられたユーザインタフェースに関連するオノマトペを含んだ発話内容を認識し、認識した前記発話内容に基づいて、前記発話音声で言及されたユーザインタフェースである対象インタフェースを推定し、対象インタフェースに関する情報を提示するか、前記情報の提示を提案するか、対象インタフェースを操作する。
【発明の効果】
【0006】
本発明によれば、車両に設けられたユーザインタフェースに関する発話を音声認識する際のユーザによる発話入力が容易になる。
【図面の簡単な説明】
【0007】
【
図1】実施形態の音声認識装置を備えた車両の一例の概略構成図である。
【
図2】音声認識装置の機能構成の一例を示すブロック図である。
【
図4】(a)~(h)はオノマトペで表現される部品の例の模式図である。
【
図5】(a)~(g)はオノマトペで表現される部品の例の模式図である。
【
図6】対象インタフェーステーブルの第1例の模式図である。
【
図7】(a)~(f)は車両に設けられたランプを示す図である。
【
図8】対象インタフェーステーブルの第2例の模式図である。
【
図9】実施形態の音声認識方法の一例のフローチャートである。
【発明を実施するための形態】
【0008】
以下、本発明の実施形態について、図面を参照しつつ説明する。なお、各図面は模式的なものであって、現実のものとは異なる場合がある。また、以下に示す本発明の実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の構造、配置等を下記のものに特定するものではない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。
【0009】
(構成)
図1は、実施形態の音声認識装置を備えた車両の一例の概略構成図である。車両1は、ユーザインタフェース2と、車載機器コントローラ3と、音入力装置4と、情報出力装置5と、音声認識装置6を備える。
ユーザインタフェース2は、車両1の利用者(例えば運転者等の乗員であり、以下の説明において「利用者」と表記する)から車両1への操作入力の受け付けと、車両1から利用者への情報提供を行うインタフェース装置である。
【0010】
例えばユーザインタフェース2は、車両1のメータクラスタに設けられたランプ(警告灯、表示灯)であってよい。ランプには、何のランプであるか(すなわちユーザインタフェース2の意味)を表す図形(マーク、アイコン)を有する。例えば
図7(a)に示す図形は、VDC(Vehicle Dynamics Control)警告灯を表す図形である。
【0011】
また例えばユーザインタフェース2は、車両1のインストルメントパネルやステアリングホール、センターコンソールに設けられた車両操作のためのスイッチであってもよい。スイッチには、それぞれ何のスイッチであるかを表す図形(マーク、アイコン)が付けられているものを含む。以下の説明において、ユーザインタフェース2の意味を表すためにユーザインタフェース2が持つ図形やユーザインタフェース2に付けられた図形を「マーク」と表記することがある。
【0012】
また例えばユーザインタフェース2は、例えば車両1の利用者に報知音や警報音を出力する報知音生成装置であってもよい。
なお警報音とは、利用者である乗員(例えば運転者)に対して車両1から提示する報知音の一種であり、緊急度や重要度が高い状況を報知する。報知音生成装置は、車両1の車内に設けられて利用者に聴覚情報を提示する聴覚情報提示機器の一例である。
以下の説明として、ユーザインタフェース2として設けられたこれらのランプ、スイッチ、報知音生成装置を単に「ランプ」、「スイッチ」、「報知音生成装置」とそれぞれ表記する。
【0013】
図2を参照する。車載機器コントローラ3は、車両1に搭載された車載機器の動作を制御する電子制御ユニット(ECU:Electronic Control Unit)である。
例えば車載機器コントローラ3は、ランプの点灯状態を車両1の状態に応じて制御する。また例えば車載機器コントローラ3は、スイッチの操作状態を検出する。
【0014】
また例えば、車載機器コントローラ3は、利用者に代わってスイッチを操作してもよい。例えば、車載機器コントローラ3は、スイッチの操作片とは別個にスイッチの接点を開閉するアクチュエータ(継電器など)を制御することにより、スイッチを操作してよい。
また車載機器コントローラ3は、車両1の状態に応じて報知音生成装置を制御することにより報知音や警報音を出力又は停止する。
【0015】
車載機器コントローラ3は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばCPU(Central Processing Unit)やMPU(Micro-Processing Unit)であってよい。
記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリを含んでよい。
【0016】
なお、車載機器コントローラ3を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ3は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ3はフィールド・プログラマブル・ゲート・アレイ(FPGA:Field-Programmable Gate Array)等のプログラマブル・ロジック・デバイス(PLD:Programmable Logic Device)等を有していてもよい。
【0017】
音入力装置4は、車両1の車室内及び車室外の音を検知して音データを生成する。例えば音入力装置は、マイクロフォンであってよい。
情報出力装置5は、音声認識装置6が利用者に提示する情報を出力するインタフェース装置である。情報出力装置5は、車両1の利用者に音情報や音声情報を出力するためのスピーカやブザーを備えてよい。情報出力装置5は、車両1の利用者が視認可能な表示装置(例えば、ナビゲーションシステムの表示画面)を備えてもよい。
【0018】
音声認識装置6は、車両1の利用者の発話内容を認識する音声認識を実行するコントローラとして動作する電子制御ユニットである。音声認識装置6は、車両1に設けられたユーザインタフェース2のうち、利用者の発話内容で言及されたユーザインタフェース(以下「対象インタフェース」と表記することがある)を推定し、対象インタフェースに関する情報を提示するか、対象インタフェースに関する情報の提示を提案するか、対象インタフェースを操作する。
【0019】
音声認識装置6は、プロセッサ6aと、記憶装置6b等の周辺部品とを含む。プロセッサ6aは、例えばCPUやMPUであってよい。
記憶装置6bは、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置6bは、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM及びRAM等のメモリを含んでよい。以下に説明する音声認識装置6の機能は、例えばプロセッサ6aが、記憶装置6bに格納されたコンピュータプログラムを実行することにより実現される。
なお、音声認識装置6を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば音声認識装置6は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声認識装置6はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。
【0020】
図2は、第1実施形態の音声認識装置6の機能構成の一例を示すブロック図である。音声認識装置6は、音声認識部10と、自然言語理解部11と、信号取得部12と、対象物特定部13と、対象物記憶部14と、応答生成部15を備える。
音声認識部10は、音入力装置4が生成した音データから利用者からの音声を取得し、利用者からの音声入力を認識してテキストなどの言語情報に変換する。音声認識部10は、音声入力を変換して生成した言語情報を自然言語理解部11に出力する。
【0021】
自然言語理解部11は、音声認識部10から出力された言語情報を自然言語処理によって解析し、利用者の発話意図(すなわち「インテント」)と、発話意図に関連するキーワード(すなわち「エンティティ」)を抽出する。
例えば自然言語理解部11は、利用者の発話意図として、対象インタフェースの意味を質問する「意味の照会」を抽出してよい。例えば利用者が「車にニョロニョロがついたランプ何?」と発話した場合、利用者の発話意図として「意味の照会」を抽出してよい。
【0022】
また例えば自然言語理解部11は、利用者の発話意図として、対象インタフェースの使用方法を質問する「使用方法の照会」を抽出してよい。例えば利用者が「横にシュシュシュ、縦にナミナミのマークがついたスイッチはどうやって使うの?」と発話した場合、利用者の発話意図として「対処方法の照会」を抽出してよい。
また例えば自然言語理解部11は、利用者の発話意図として、対象インタフェースであるランプが点灯した場合や報知音生成装置が報知音を出力した場合の対処方法を質問する「対処方法の照会」を抽出してよい。例えば利用者が「車にニョロニョロがついたランプがついたけどどうしたらいい?」と発話した場合、利用者の発話意図として「対処方法の照会」を抽出してよい。
【0023】
また例えば自然言語理解部11は、利用者の発話意図として、対象インタフェースであるランプが点灯した場合や報知音生成装置が報知音を出力した場合に故障があるか否かを質問する「故障有無の照会」を抽出してよい。
例えば利用者が「車にニョロニョロがついたランプがついたけど故障してる?」と発話した場合、利用者の発話意図として「故障有無の照会」を抽出してよい。
【0024】
また例えば自然言語理解部11は、利用者の発話意図として、単に対象インタフェースに関する「モノローグ(独白)」を抽出してもよい。例えば利用者が「車にニョロニョロがついたランプがついた。」と発話した場合、利用者の発話意図として「モノローグ」を抽出してよい。
また例えば自然言語理解部11は、利用者の発話意図として、対象インタフェースの操作を要求する「インタフェースの操作」を検出してもよい。例えば利用者が「横にシュシュシュ、縦にナミナミのマークがついたスイッチをつけて」と発話した場合、利用者の発話意図として「インタフェースの操作」を抽出してよい。
【0025】
また、例えば自然言語理解部11は、対象インタフェースの特定に利用するキーワードを抽出する。
例えば自然言語理解部11は、ユーザインタフェース2に付けられたマークを構成する部品(以下、単に「部品」と表記することがある)を表すキーワードを抽出してよい。例えば自然言語理解部11は、部品を表すキーワードとして、オノマトペ(すなわち擬態語、擬音語又は擬声語)を抽出してもよい。例えば、
図4(a)に示す部品を表すオノマトペとして「シュシュシュ」を抽出してよい。
【0026】
また例えば自然言語理解部11は、部品を表すキーワードとして、オノマトペ以外のキーワードを抽出してもよい。例えば
図7(a)のVDC警告灯のマークを構成する部品の一つを表すキーワードとして「車」を抽出してよい。また例えば
図7(b)の高水温警告灯のマークを構成する部品の一つを表すキーワードとして「旗」や「棒」を抽出してよい。また例えば
図7(d)のロービーム表示灯のマークを構成する部品の一つを表すキーワードとして「半月」を抽出してもよい。
【0027】
また例えば自然言語理解部11は、部品を表すキーワードとしてオノマトペの方向を表すキーワードを抽出してもよい。例えば対象インタフェースが
図7(d)のロービーム表示灯であり、利用者が「半月のマークに左に向かってシュシュシュシュシュがついたランプ何?」と発話した場合、オノマトペ「シュシュシュシュシュ」の方向を表すキーワードとして「左」を抽出してもよい。
【0028】
また例えば自然言語理解部11は、対象インタフェースの種類を表すキーワード「ランプ」、「スイッチ」を抽出してもよい。
また例えば自然言語理解部11は、ユーザインタフェース2の動作状態を表すキーワードを認識してもよい。例えば、利用者が「いま点灯したシュシュシュって線が入ったランプ何?」と発話した場合に、動作状態を表すキーワードとして「いま点灯した」を抽出してもよい。
自然言語理解部11は、抽出した発話意図の情報を応答生成部15へ出力する。また、抽出したオノマトペと、オノマトペ以外のキーワードの情報を対象物特定部13へ出力する。
【0029】
信号取得部12は、車両1に搭載された車載機器の動作状態を示す動作状態信号を車載機器コントローラ3から取得する。例えば信号取得部12は、ユーザインタフェース2の動作状態信号を車載機器コントローラ3から取得してよい。ユーザインタフェース2の動作状態信号として、ランプの点灯状態を示す信号や、スイッチの操作状態を示す信号や、報知音の出力状態を示す信号を取得してよい。信号取得部12は、ユーザインタフェース2の動作状態信号を対象物特定部13に出力する。
【0030】
対象物特定部13は、自然言語理解部11が抽出したキーワードに基づいて、車両1に設けられたユーザインタフェース2のうち、利用者の発話内容で言及された対象インタフェースがどれであるかを特定する。
例えば対象物特定部13は、自然言語理解部11が抽出したオノマトペに基づいて対象インタフェースを特定する。以下の説明において、自然言語理解部11が抽出したオノマトペを「抽出オノマトペ」と表記することがある。
以下の説明では、対象インタフェースがランプである場合の例について説明する。しかしながら本発明は、利用者がランプ以外のユーザインタフェース2をオノマトペで表現した場合にも広く適用できる。例えば対象インタフェースは、後述のようにスイッチや報知音生成装置であってよい。
【0031】
対象物特定部13は、抽出オノマトペにより表現される部品と、ランプのマークとに基づいて、利用者の発話内容で言及された対象インタフェースのランプを特定する。例えば対象物特定部13は、抽出オノマトペにより表現される部品を含んだマークのランプを、対象インタフェースとして特定する。
このとき、例えば対象物特定部13は、抽出オノマトペにより表現される部品を推定し、推定した部品を含んだマークのランプを対象インタフェースとして特定してよい。
【0032】
例えば対象物特定部13は、対象物記憶部14に記憶されたオノマトペテーブルと、抽出オノマトペと、を照合することによって部品を推定してもよい。対象物記憶部14は、
図1の記憶装置6bに設けられた記憶領域であってよい。
図3は、オノマトペテーブルの一例の模式図である。オノマトペテーブルは、オノマトペと、部品を識別する部品IDと、を関連付けて記憶するテーブル情報である。オノマトペテーブルに格納されるオノマトペは、例えば自然言語理解部11によって抽出される抽出オノマトペを含むように設定してよい。
【0033】
図4(a)~
図4(h)、
図5(a)~
図5(g)は、オノマトペテーブルに格納されるオノマトペに対応する部品(すなわち、オノマトペテーブルに格納されるオノマトペで表現される部品)の模式図である。これらの部品は、それぞれオノマトペテーブルに格納される部品IDによって識別される。
図4(a)の部品(部品ID「id001-1」)と
図4(b)の部品(部品ID「id001-2」)は、オノマトペ「シュシュシュ」で表現される部品である。
オノマトペ「シュシュシュ」は、同じオノマトペ(音声)「シュ」を3回反復し、オノマトペ「シュ」は垂直の直線又は水平の直線を表す。部品ID「id001-1」の部品は、オノマトペ「シュ」の反復回数3に対応して、マークを構成する図形要素として垂直の直線を3個含んでいる。
同様に、部品ID「id001-2」の部品は、図形要素として水平の直線を3個含んでいる。すなわち、対象物特定部13は、「シュ」の音声を含むオノマトペに対応する図形要素を垂直又は水平の直線として特定する。
【0034】
図4(c)の部品(部品ID「id002-1」)と
図4(d)の部品(部品ID「id002-2」)は、オノマトペ「シャシャシャ」で表現される部品である。
オノマトペ「シャシャシャ」は、同じオノマトペ(音声)「シャ」を3回反復し、オノマトペ「シャ」は斜めの直線を表す。部品ID「id002-1」及び「id002-2」の部品は、オノマトペ「シャ」の反復回数3に対応して、図形要素である斜めの直線を3個含んでいる。すなわち、対象物特定部13は、「シャ」の音声を含むオノマトペに対応する図形要素を斜めの直線として特定する。
【0035】
図4(e)の部品(部品ID「id002-3」)は、オノマトペ「シャシャシャシャシャ」で表現される部品である。オノマトペ「シャシャシャシャシャ」は、オノマトペ「シャ」を5回反復するため、部品ID「id002-3」の部品は、図形要素である斜めの直線を5個含んでいる。
なお、対象物特定部13は「スー」の音声を含むオノマトペに対応する図形要素を直線として特定してもよい。
【0036】
図4(f)の部品(部品ID「id003-1」)と
図4(g)の部品(部品ID「id003-2」)は、オノマトペ「ニョロニョロ」又は「ユラユラ」で表現される部品である。
図4(h)の部品(部品ID「id004」)は、オノマトペ「ナミナミ」で表現される部品である。
これら部品ID「id003-1」、部品ID「id003-2」及び部品ID「id004」は、図形要素として曲線を有している。すなわち、対象物特定部13は、「ニョロ」、「ユラ」、「ナミ」の音声を含むオノマトペに対応する図形要素を曲線として特定する。
【0037】
図5(a)の部品(部品ID「id005」)は、オノマトペ「チカチカ」又は「ピカピカ」で表現される部品である。
図5(b)の部品(部品ID「id006-1」)と
図5(c)の部品(部品ID「id006-2」)と
図5(d)の部品(部品ID「id006-3」)は、オノマトペ「ピカッ」又は「チカッ」で表現される部品である。
【0038】
図5(e)の部品(部品ID「id007-1」)と
図5(f)の部品(部品ID「id007-2」)は、オノマトペ「パン、ポン」で表現される部品である。
図5(g)の部品(部品ID「id008」)は、オノマトペ「モヤッ」、「ホワッ」又は「ユルッ」で表現される部品である。
【0039】
対象物特定部13は、オノマトペテーブルにおいて抽出オノマトペと関連付けて記憶されている部品IDを、対象インタフェースのランプのマークに含まれている部品の部品IDであると推定する。
次に、対象物特定部13は、推定した部品IDに基づいてこの部品を含んだマークのランプを対象インタフェースとして特定する。
【0040】
例えば対象物特定部13は、推定した部品IDと、自然言語理解部11が抽出したオノマトペ以外のキーワードと、に基づいて対象インタフェースであるランプを特定してよい。例えば対象物特定部13は、推定した部品IDと、オノマトペ以外のキーワードと、対象物記憶部14に記憶された対象インタフェーステーブルと、を照合することによって対象インタフェースであるランプを特定してもよい。
【0041】
図6は、対象インタフェーステーブルの第1例の模式図である。対象インタフェーステーブルは、部品IDと、オノマトペ以外のキーワードと、対象インタフェースとを関連付けて記憶するテーブル情報である。
例えば、利用者が「ニョロニョロって感じのランプ何?」と発話した場合、自然言語理解部11は、オノマトペ「ニョロニョロ」を抽出し、オノマトペ以外のキーワード「ランプ」を抽出する。対象物特定部13は、
図3のオノマトペテーブルを参照して、抽出オノマトペ「ニョロニョロ」に対応する部品ID「id003-2」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
対象物特定部13は、
図6の対象インタフェーステーブルを参照して、部品ID「id003-2」とオノマトペ以外のキーワード「ランプ」とに関連付けて記憶されているVDC警告灯(
図7(a)参照)が対象インタフェースであると特定する。
【0042】
また例えば利用者が「車にニョロニョロって感じのランプ何?」や「ニョロニョロって車が揺れている感じのランプ何?」と発話した場合、自然言語理解部11は、オノマトペ「ニョロニョロ」を抽出し、オノマトペ以外のキーワード「車」、「ランプ」を抽出する。対象物特定部13は、部品ID「id003-2」とオノマトペ以外のキーワード「車」、「ランプ」とに関連付けて記憶されているVDC警告灯(
図7(a)参照)が対象インタフェースであると特定する。
【0043】
また例えば利用者が「ナミナミの上に何か浮いているランプ何?」と発話した場合、自然言語理解部11は、オノマトペ「ナミナミ」を抽出し、オノマトペ以外のキーワード「浮く」、「ランプ」を抽出する。対象物特定部13は、抽出オノマトペ「ナミナミ」に対応する部品ID「id004」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
対象物特定部13は、部品ID「id004」とオノマトペ以外のキーワード「浮く」、「ランプ」とに関連付けて記憶されている高水温警告灯(
図7(b)参照)が対象インタフェースであると特定する。
【0044】
また例えば利用者が「ナミナミの上に旗みたいな棒が乗っているランプ何?」と発話した場合、自然言語理解部11は、オノマトペ「ナミナミ」を抽出し、オノマトペ以外のキーワード「旗」、「棒」、「ランプ」を抽出する。対象物特定部13は、部品ID「id004」とオノマトペ以外のキーワード「旗」、「棒」、「ランプ」とに関連付けて記憶されている高水温警告灯(
図7(b)参照)が対象インタフェースであると特定する。
【0045】
また例えば利用者が「チカチカってしているランプ何?」や「ピカピカ輝いた感じのランプ何?」と発話した場合に、自然言語理解部11は、オノマトペ「チカチカ」又は「ピカピカ」を抽出し、オノマトペ以外のキーワード「ランプ」を抽出する。対象物特定部13は、抽出オノマトペ「チカチカ」又は「ピカピカ」に対応する部品ID「id005」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
対象物特定部13は、部品ID「id005」とオノマトペ以外のキーワード「ランプ」とに関連付けて記憶されているテールランプ表示灯(
図7(c)参照)が対象インタフェースであると特定する。
【0046】
また例えば利用者が「半月からシャシャシャシャシャって出ているランプ何?」と発話した場合に、自然言語理解部11は、オノマトペ「シャシャシャシャシャ」を抽出し、オノマトペ以外のキーワード「半月」、「ランプ」を抽出する。
対象物特定部13は、抽出オノマトペ「シャシャシャシャシャ」に対応する部品ID「id002-3」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
対象物特定部13は、部品ID「id002-3」とオノマトペ以外のキーワード「半月」、「ランプ」とに関連付けて記憶されているロービーム表示灯(
図7(d)参照)が対象インタフェースであると特定する。
【0047】
このように自然言語理解部11が認識した発話内容に含まれているオノマトペ(この場合は音声「シャ」)の回数(この場合は5回)を認識してもよい。すなわち、発話内容に含まれている同一のオノマトペ(音声「シャ」)が反復する回数を認識してよい。対象物特定部13は、オノマトペとオノマトペの反復回数に基づいて対象インタフェースを推定してもよい。
例えば対象物特定部13は、オノマトペの反復回数とマークに含まれる図形要素の個数とに基づいて対象インタフェースを推定してよい。
【0048】
例えば、オノマトペ「シャシャシャシャシャ」の例では、図形要素である斜めの直線を表す「シャ」を5回含んでいる。このため、対象物特定部13は、
図3のオノマトペテーブルに従って斜めの直線を5個含んだ部品ID「id002-3」を選択し、
図6の対象インタフェーステーブルに従って、斜めの直線を5個含んだマークのロービーム表示灯(
図7(d)参照)が対象インタフェースであると推定してよい。
【0049】
図6を参照する。利用者が「横にシュシュシュ、縦にナミナミとしたランプ何?」と発話した場合に、自然言語理解部11は、オノマトペ「シュシュシュ」と「ナミナミ」を抽出し、オノマトペ以外のキーワードとして、オノマトペの方向を表すキーワード「横」、「縦」を抽出する。
対象物特定部13は、抽出オノマトペ「シュシュシュ」に対応する部品ID「id001-1」又は「id001-2」の部品と、「ナミナミ」に対応する部品ID「id004」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
【0050】
対象物特定部13は、部品ID「id001-2」及び「id004」並びにオノマトペの方向を表すキーワード「横」及び「縦」に関連付けて記憶されているリアフォグランプ表示灯(
図7(e)参照)が対象インタフェースであると特定する。
このように、自然言語理解部11が認識した発話内容に含まれているオノマトペ(この場合は「シュシュシュ」や「ナミナミ」)の方向を表すキーワード(この場合は「横」や「縦」)を認識してもよい。対象物特定部13は、オノマトペとオノマトペの方向を表すキーワードとに基づいて対象インタフェースを推定してもよい。
【0051】
例えば「横にシュシュシュ、縦にナミナミ」の発話内容の例では、オノマトペ「シュシュシュ」が表す部品要素である直線の方向を表すキーワード「横」と、オノマトペ「ナミナミ」が表す部品要素である曲線の方向を表すキーワード「縦」とに基づいて、横方向に伸びる直線と縦方向に伸びる曲線を含んだマークのリアフォグランプ表示灯(
図7(e)参照)が対象インタフェースであると推定してよい。
【0052】
利用者が「縦のナミナミの上に、斜めにシャシャシャってしてるランプ何?」と発話した場合に、自然言語理解部11は、オノマトペ「ナミナミ」と「シャシャシャ」を抽出し、オノマトペ以外のキーワードとして、オノマトペの方向を表すキーワード「縦」、「斜め」を抽出する。
対象物特定部13は、抽出オノマトペ「シャシャシャ」に対応する部品ID「id002-1」又は「id002-2」の部品と、「ナミナミ」に対応する部品ID「id004」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
【0053】
対象物特定部13は、部品ID「id002-1」及び「id004」並びにオノマトペの方向を表すキーワード「斜め」及び「縦」に関連付けて記憶されているフォグランプ表示灯(
図7(f)参照)が対象インタフェースであると特定する。
すなわち、オノマトペ「ナミナミ」が表す部品要素である曲線の方向を表すキーワード「縦」と、オノマトペ「シャシャシャ」が表す部品要素である直線の方向を表すキーワード「斜め」と、に基づいて、縦方向に伸びる曲線と斜めに伸びる直線とを含んだマークのフォグランプ表示灯(
図7(f)参照)が対象インタフェースであると推定してよい。
【0054】
また例えば対象物特定部13は、
図8に示すような対象インタフェーステーブルに従って、対象インタフェースを特定してもよい。
図8に示す対象インタフェーステーブルは、オノマトペと、オノマトペ以外のキーワードと、対象インタフェースとを関連付けて記憶するテーブル情報である。
例えば
図8に示す対象インタフェーステーブルは、対象インタフェースと、対象インタフェースが有するマーク又は対象インタフェースに付けられたマークを構成する部品を表すオノマトペと、を関連付けるように設定してよい。
対象物特定部13は、抽出オノマトペとオノマトペ以外のキーワードとに関連付けて対象インタフェーステーブルに記憶されたユーザインタフェースを、対象インタフェースとして特定してよい。
【0055】
図2を参照する。例えば対象物特定部13は、ユーザインタフェース2の動作状態を表すキーワードを自然言語理解部11が抽出した場合に、ユーザインタフェース2の動作状態を表すキーワードと、抽出オノマトペと、に基づいて対象インタフェースを推定してもよい。
例えば対象物特定部13は、動作状態を表すキーワードと、抽出オノマトペと、信号取得部12が取得した動作状態信号と、に基づいて対象インタフェースを推定してもよい。
【0056】
例えば、対象物特定部13は、抽出オノマトペが表す部品を含んだマークのランプのうち、自然言語理解部11が抽出したキーワードが表す動作状態と、動作状態信号が示す動作状態とが一致するランプを対象インタフェースとして推定してもよい。
【0057】
例えば、利用者が「いま点灯したナミナミのランプ何?」と発話した場合を想定する。
自然言語理解部11は、動作状態を表すキーワードとして「いま点灯した」を抽出し、オノマトペ「ナミナミ」を抽出する。
抽出オノマトペが表す「ナミナミ」に対応する部品ID「id004」の部品(
図4(f))を含むマークのランプの候補は、
図7(b)の高水温警告灯と、
図7(e)のリアフォグランプ表示灯と、
図7(f)のフォグランプ表示灯である。
【0058】
対象物特定部13は、信号取得部12が取得した動作状態信号に基づいて、各ランプの点灯状態を判定し、動作状態を表すキーワード「いま点灯した」と一致する点灯状態のランプを対象インタフェースとして推定してもよい。
例えば、高水温警告灯が点灯しており、他のランプが点灯していない場合には、高水温警告灯を対象インタフェースとして推定してもよい。また、高水温警告灯が発話の直前に点灯を開始し、他のランプが点灯していないか、発話よりも所定時間以上前の時点から点灯している場合に、高水温警告灯を対象インタフェースとして推定してもよい。
【0059】
応答生成部15は、自然言語理解部11が出力した発話意図の情報と、対象物特定部13が特定した対象インタフェースとに基づいて利用者の発話に対する応答を生成する。
例えば利用者の発話意図が「意味の照会」、「対処方法の照会」、「使用方法の紹介」、「故障」などの「質問」である場合には、対象インタフェースに関する情報(対象インタフェースの意味、対処方法、使用方法、故障の有無の情報)を情報出力装置5から出力してよい。
応答生成部15は、対象インタフェースに関する情報として聴覚情報(音声メッセージ等の聴覚的メッセージ)をスピーカから出力してもよく視覚情報(文字メッセージや図形、シンボル、動画などの視覚的メッセージ)を表示装置から出力してよい。
【0060】
具体的には、対象インタフェースがランプであり、発話意図が「意味の照会」である場合には、対象インタフェースであるランプの意味の情報を情報出力装置5から出力してよい。
また対象インタフェースがランプであり、発話意図が「対処方法の照会」である場合には、対象インタフェースであるランプが点灯した場合の対処方法の情報を情報出力装置5から出力してよい。
また対象インタフェースがランプであり、発話意図が「故障の照会」である場合には、対象インタフェースであるランプが点灯した場合の故障の有無の情報を情報出力装置5から出力してよい。
【0061】
また、例えば利用者の発話意図が「モノローグ」である場合には、対象インタフェースに関する情報(対象インタフェースの意味、対処方法、使用方法、故障の有無の情報)を情報出力装置5から出力してよく、情報の提示を提案するメッセージを出力してもよい。
例えば、利用者が「車にニョロニョロがついたランプがついた」と発話した場合には、「VDC警告灯です」と対象インタフェースに関する情報(意味)を出力してもよく、情報の提示を直接的に提案するメッセージ「意味を説明しましょうか」や、間接的に提案するメッセージ「大丈夫ですか?」を出力してもよい。
【0062】
図9は、実施形態の音声認識方法の一例のフローチャートである。
ステップS1において音声認識部10と自然言語理解部11は、車両1の利用者によるオノマトペを含んだ発話内容を認識する。
ステップS2において対象物特定部13は、オノマトペを発話内容に基づいて、車両1に設けられたユーザインタフェース2のうち、利用者の発話内容で言及された対象インタフェースがどれであるかを特定する。
ステップS3において応答生成部15は、対象音に対する利用者の発話に対する応答を生成する。その後に処理は終了する。
【0063】
(変形例1)
上述の説明では、利用者の発話内容で言及された対象インタフェースとしてランプを特定する例について記載した。本発明は、利用者がランプ以外のユーザインタフェース2をオノマトペで表現した場合にも広く適用できる。例えば対象インタフェースはスイッチであってもよい。
【0064】
例えば、対象物特定部13は、スイッチに付けられたマークを構成する部品を表すオノマトペに基づいて、対象インタフェースであるスイッチを特定してもよい。例えば利用者が「横にシュシュシュ、縦にナミナミのマークがついたスイッチはどうやって使うの?」と発話した場合、対象物特定部13は、オノマトペ「シュシュシュ」及び「ナミナミ」に基づいて、部品ID「id001-1」及び「id001-2」及び「id004」の部品を特定してよい。そして部品ID「id001-2」及び「id004」の部品を含んだリアフォグランプスイッチを対象インタフェースとして特定してよい。
【0065】
また例えば対象物特定部13は、スイッチに付けられたマーク以外のスイッチの態様を表現するオノマトペに基づいて対象インタフェースであるスイッチを特定してもよい。例えば利用者が「正面にデーンと置いてある大きなスイッチ何?」と発話した場合、「大きな」「スイッチ」というキーワードと、スイッチの態様を表現する「デーン」というオノマトペに基づいて、ハザードスイッチを対象インタフェースのスイッチとして特定してもよい。
【0066】
また例えば対象物特定部13は、スイッチの動作状態を表すキーワードを自然言語理解部11が抽出した場合に、スイッチの動作状態を表すキーワードと、抽出オノマトペと、に基づいて対象インタフェースのスイッチを推定してもよい。例えば、利用者が「いま、操作した横にシュシュシュ、縦にナミナミのマークがついたスイッチ何?」と発話した場合に、動作状態を表すキーワード「いま操作した」とオノマトペ「シュシュシュ」及び「ナミナミ」と、信号取得部12が取得した動作状態信号とに基づいて対象インタフェースのスイッチを推定してもよい。
【0067】
また対象インタフェースがスイッチであり、発話意図が「意味の照会」である場合に、応答生成部15は、対象インタフェースであるスイッチの意味の情報を情報出力装置5から出力してよい。
また対象インタフェースがスイッチであり、発話意図が「使用方法の照会」である場合には、対象インタフェースであるスイッチの使用方法の情報を情報出力装置5から出力してよい。
【0068】
また対象インタフェースがスイッチであり、発話意図が「インタフェースの操作」である場合に、応答生成部15は、利用者に代わってスイッチを操作する応答コマンドを車載機器コントローラ3に出力してもよい。例えば利用者が「横にシュシュシュ、縦にナミナミのマークがついたスイッチをつけて」と発話した場合に、対象インタフェースであるリアフォグランプスイッチをオンにする応答コマンドを出力してよい。
車載機器コントローラ3は、応答生成部15から出力された応答コマンドに基づいて対象インタフェースのスイッチを操作してよい。例えば、スイッチの接点を開閉するアクチュエータ(継電器など)を制御してよい。
【0069】
(変形例2)
例えば対象インタフェースは、後述するように報知音生成装置であってもよい。例えば、対象物特定部13は、報知音生成装置が発生する報知音(警報音を含む)の態様を表すオノマトペに基づいて、利用者の発話内容で言及された報知音を特定してもよい。例えば利用者が「ポーンって音、何?」と発話した場合に、対象物特定部13は、報知音の態様を表すオノマトペ「ポーン」に基づいて、利用者の発話内容で言及された報知音が他車両の割り込み検知音」であると特定してよい。
【0070】
また例えば対象物特定部13は、報知音生成装置の動作状態を表すキーワードを自然言語理解部11が抽出した場合に、報知音生成装置の動作状態を表すキーワードと、抽出オノマトペと、に基づいて利用者の発話内容で言及された報知音を推定してもよい。例えば、利用者が「いま鳴った、ポーンって音、何?」と発話した場合に、動作状態を表すキーワード「いま鳴った」とオノマトペ「ポーン」と信号取得部12が取得した動作状態信号とに基づいて利用者の発話内容で言及された報知音を推定してもよい。
【0071】
また対象インタフェースが報知音生成装置であり、発話意図が「意味の照会」である場合に、応答生成部15は、報知音生成装置が出力した報知音の意味の情報を情報出力装置5から出力してよい。
また対象インタフェースが報知音生成装置であり、発話意図が「対処方法の照会」である場合には、報知音生成装置が報知音を出力した場合の対処方法の情報を情報出力装置5から出力してよい。
【0072】
また対象インタフェースが報知音生成装置であり、発話意図が「故障の照会」である場合には、報知音生成装置が報知音を出力した場合の故障の有無の情報を情報出力装置5から出力してよい。
また対象インタフェースが報知音生成装置であり、発話意図が「インタフェースの操作」である場合に、応答生成部15は、報知音生成装置を操作する応答コマンドを車載機器コントローラ3に出力してもよい。例えば利用者が「ピピピっていう音を止めて」と発話した場合に、該当する報知音を停止させる制御信号を応答コマンドとして車載機器コントローラ3に出力することにより、報知音の発生を停止させてもよい。
【0073】
(変形例3)
対象物特定部13は、
図3のオノマトペテーブルに代えて、学習済みモデルとしての識別器(例えばニューラルネット)を使用してオノマトペに対応する部品を推定してもよい。例えば、オノマトペと、正解クラスの部品IDを学習信号として機械学習手法を適用して学習させることによって予め識別器を生成してよい。対象物特定部13は、このような識別器に、自然言語理解部11が抽出したオノマトペを入力することにより、発話内容において言及されたユーザインタフェース2が有するマークやユーザインタフェース2に付けられたマークの部品を推定してもよい。
同様に対象物特定部13は、
図8の対象インタフェーステーブルに代えて、学習済みモデルとしての識別器を使用して、自然言語理解部11が抽出したオノマトペとそれ以外のキーワードに対応するユーザインタフェース2を推定してもよい。
【0074】
(実施形態の効果)
(1)音声認識方法では、車両1の利用者の発話音声から、車両1に設けられたユーザインタフェース2に関連するオノマトペを含んだ発話内容を認識し、認識した発話内容に基づいて、発話音声で言及されたユーザインタフェース2である対象インタフェースを推定し、対象インタフェースに関する情報を提示するか、情報の提示を提案するか、対象インタフェースを操作する。例えば、ユーザインタフェース2は、車両操作のためのスイッチ、ランプ、報知音生成装置であってよい。また例えば、オノマトペは、擬態語、擬音語又は擬声語のいずれか1つ以上であってよい。
これにより、車両1に設けられたユーザインタフェース2に関する発話を音声認識する際のユーザによる発話入力が容易になる。
【0075】
(2)対象インタフェースに関する情報は、対象インタフェースの意味又は対象インタフェースの使用方法の情報であってよい。
例えばユーザインタフェース2はランプである場合、対象インタフェースに関する情報は、対象インタフェースであるランプが点灯した場合の対処方法の情報、又は車両1の故障の有無の情報であってよい。
例えばユーザインタフェース2は報知音生成装置である場合には、対象インタフェースに関する情報は、対象インタフェースが報知音を生成した場合の対処方法の情報又は車両1の故障の有無の情報であってよい。
これにより、車両1に設けられたユーザインタフェース2に関する情報を利用者に提供できる。
【0076】
(3)認識した発話内容に含まれるオノマトペの回数を認識し、オノマトペとオノマトペの回数とに基づいて対象インタフェースを推定してよい。
これにより、オノマトペに基づく対象インタフェースの推定精度を向上できる。
(4)認識した発話内容とユーザインタフェース2に含まれる図形とに基づいて対象インタフェースを推定してよい。これにより利用者は、特定のマークのユーザインタフェース2を、オノマトペに基づいて言及できる。
【0077】
(5)認識した発話内容に含まれるオノマトペの回数を認識し、オノマトペの回数と図形に含まれる図形要素の個数とに基づいて対象インタフェースを推定してもよい。
これにより、オノマトペに基づく対象インタフェースの推定精度を向上できる。
(6)認識した発話内容に含まれる方向を表す表現を認識し、オノマトペと方向を表す表現とに基づいて対象インタフェースを推定してよい。
例えば、方向を表す表現と図形に含まれる線の方向とに基づいて対象インタフェースを推定してよい。
これにより、オノマトペに基づく対象インタフェースの推定精度を向上できる。
【0078】
(7)「シュ」、「シャ」又は「スー」の音声を含むオノマトペに対応する図形要素を直線として特定し、「ニョロ」、「ユラ」又は「ナミ」の音声を含むオノマトペに対応する図形要素を曲線として特定してよい。
これにより、オノマトペに基づく対象インタフェースの推定精度を向上できる。
(8)認識した発話内容に含まれるユーザインタフェース2の動作状態を表す表現を認識し、オノマトペと動作状態を表す表現とに基づいて対象インタフェースを推定してもよい。これにより、より正確に対象インタフェースを推定できる。
【符号の説明】
【0079】
1…車両、2…ユーザインタフェース、4…音入力装置、5…情報出力装置、6…音声認識装置、6a…プロセッサ、6b…記憶装置、10…音声認識部、11…自然言語理解部、12…信号取得部、13…対象物特定部、14…対象物記憶部、15…応答生成部