特開2024-45996 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日産自動車株式会社の特許一覧

特開2024-45996音声認識方法及び音声認識装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024045996

(43)【公開日】2024-04-03

(54)【発明の名称】音声認識方法及び音声認識装置

(51)【国際特許分類】

G10L 15/10 20060101AFI20240327BHJP

G10L 15/00 20130101ALI20240327BHJP

B60R 16/02 20060101ALI20240327BHJP

【ＦＩ】

G10L15/10 200W

G10L15/00 200J

B60R16/02 655B

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2022151109

(22)【出願日】2022-09-22

(71)【出願人】

【識別番号】000003997

【氏名又は名称】日産自動車株式会社

(74)【代理人】

【識別番号】100103850

【弁理士】

【氏名又は名称】田中秀▲てつ▼

(74)【代理人】

【識別番号】100114177

【弁理士】

【氏名又は名称】小林龍

(74)【代理人】

【識別番号】100066980

【弁理士】

【氏名又は名称】森哲也

(72)【発明者】

【氏名】神沼充伸

(57)【要約】

【課題】車両に設けられたユーザインタフェースに関する発話を音声認識する際のユーザによる発話入力を容易にする。
【解決手段】音声認識方法では、車両の利用者の発話音声から、前記車両に設けられたユーザインタフェースに関連するオノマトペを含んだ発話内容を認識し（Ｓ１）、認識した前記発話内容に基づいて、前記発話音声で言及されたユーザインタフェースである対象インタフェースを推定し（Ｓ２）、対象インタフェースに関する情報を提示するか、前記情報の提示を提案するか、対象インタフェースを操作する（Ｓ３）。
【選択図】図９

【特許請求の範囲】

【請求項1】

車両の利用者の発話音声から、前記車両に設けられたユーザインタフェースに関連するオノマトペを含んだ発話内容を認識し、
認識した前記発話内容に基づいて、前記発話音声で言及されたユーザインタフェースである対象インタフェースを推定し、
前記対象インタフェースに関する情報を提示するか、前記情報の提示を提案するか、前記対象インタフェースを操作する、
ことを特徴とする音声認識方法。

【請求項2】

前記対象インタフェースに関する情報は、前記対象インタフェースの意味又は前記対象インタフェースの使用方法の情報であることを特徴とする請求項１に記載の音声認識方法。

【請求項3】

前記ユーザインタフェースは、車両操作のためのスイッチ、ランプ、報知音生成装置であることを特徴とする請求項１に記載の音声認識方法。

【請求項4】

前記ユーザインタフェースはランプであり、
前記対象インタフェースに関する情報は、前記対象インタフェースであるランプが点灯した場合の対処方法の情報、又は前記車両の故障の有無の情報である、
ことを特徴とする請求項１に記載の音声認識方法。

【請求項5】

前記ユーザインタフェースは報知音生成装置であり、
前記対象インタフェースに関する情報は、前記対象インタフェースが報知音を生成した場合の対処方法の情報又は前記車両の故障の有無の情報である、
ことを特徴とする請求項１に記載の音声認識方法。

【請求項6】

前記認識した発話内容に含まれるオノマトペの回数を認識し、
前記オノマトペと前記オノマトペの回数とに基づいて前記対象インタフェースを推定する、
ことを特徴とする請求項１に記載の音声認識方法。

【請求項7】

前記認識した発話内容と前記ユーザインタフェースに含まれる図形とに基づいて前記対象インタフェースを推定する、ことを特徴とする請求項１に記載の音声認識方法。

【請求項8】

前記認識した発話内容に含まれるオノマトペの回数を認識し、
前記オノマトペの回数と前記図形に含まれる図形要素の個数とに基づいて前記対象インタフェースを推定する、
ことを特徴とする請求項７に記載の音声認識方法。

【請求項9】

前記認識した発話内容に含まれる方向を表す表現を認識し、
前記オノマトペと前記方向を表す表現とに基づいて前記対象インタフェースを推定する、
ことを特徴とする請求項７に記載の音声認識方法。

【請求項10】

前記方向を表す表現と前記図形に含まれる線の方向とに基づいて前記対象インタフェースを推定することを特徴とする請求項９に記載の音声認識方法。

【請求項11】

「シュ」、「シャ」又は「スー」の音声を含むオノマトペに対応する図形要素を直線として特定し、「ニョロ」、「ユラ」又は「ナミ」の音声を含むオノマトペに対応する図形要素を曲線として特定することを特徴とする請求項７に記載の音声認識方法。

【請求項12】

前記認識した発話内容に含まれるユーザインタフェースの動作状態を表す表現を認識し、前記オノマトペと前記動作状態を表す表現とに基づいて前記対象インタフェースを推定する、ことを特徴とする請求項１に記載の音声認識方法。

【請求項13】

前記オノマトペは、擬態語、擬音語又は擬声語のいずれか１つ以上であることを特徴とする請求項１に記載の音声認識方法。

【請求項14】

車両の利用者の発話音声から、前記車両に設けられたユーザインタフェースに関連するオノマトペを含んだ発話内容を認識する処理と、
認識した前記発話内容に基づいて、前記発話音声で言及されたユーザインタフェースである対象インタフェースを推定する処理と、
前記対象インタフェースに関する情報を提示するか、前記情報の提示を提案するか、前記対象インタフェースを操作する処理と、
を実行するコントローラを備えることを特徴とする音声認識装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声認識方法及び音声認識装置に関する。

【背景技術】

【0002】

特許文献１には、車両の異常発生時に点灯または点滅する警告灯の意味を運転者に教示する情報提供装置が提案されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特許第５０５６７１１号明細書

【発明の概要】

【発明が解決しようとする課題】

【0004】

近年、音声認識を用いて利用者からの質問に応答したり機器の操作を行う音声入力システムが提案されている。このような音声入力システムでは、利用者が入力することを意図した指示を、利用者の発話内容から推定する。
このような音声入力システムを実現するためには、利用者の発話内容で言及された対象物を特定する必要がある。しかしながら、対象物を正確に特定できる特徴を利用者が正確に発話することが困難なことがある。例えば、車両の運転をしている場合のように利用者が他の作業をしている場合には、対象を正確に特定できる特徴を正確に発話することは困難である。
本発明では、車両に設けられたユーザインタフェースに関する発話を音声認識する際のユーザによる発話入力を容易にすることを目的とする。

【課題を解決するための手段】

【0005】

本発明の一態様による音声認識方法では、車両の利用者の発話音声から、前記車両に設けられたユーザインタフェースに関連するオノマトペを含んだ発話内容を認識し、認識した前記発話内容に基づいて、前記発話音声で言及されたユーザインタフェースである対象インタフェースを推定し、対象インタフェースに関する情報を提示するか、前記情報の提示を提案するか、対象インタフェースを操作する。

【発明の効果】

【0006】

本発明によれば、車両に設けられたユーザインタフェースに関する発話を音声認識する際のユーザによる発話入力が容易になる。

【図面の簡単な説明】

【0007】

【図1】実施形態の音声認識装置を備えた車両の一例の概略構成図である。

【図2】音声認識装置の機能構成の一例を示すブロック図である。

【図3】オノマトペテーブルの一例の模式図である。

【図4】（ａ）～（ｈ）はオノマトペで表現される部品の例の模式図である。

【図5】（ａ）～（ｇ）はオノマトペで表現される部品の例の模式図である。

【図6】対象インタフェーステーブルの第１例の模式図である。

【図7】（ａ）～（ｆ）は車両に設けられたランプを示す図である。

【図8】対象インタフェーステーブルの第２例の模式図である。

【図9】実施形態の音声認識方法の一例のフローチャートである。

【発明を実施するための形態】

【0008】

以下、本発明の実施形態について、図面を参照しつつ説明する。なお、各図面は模式的なものであって、現実のものとは異なる場合がある。また、以下に示す本発明の実施形態は、本発明の技術的思想を具体化するための装置や方法を例示するものであって、本発明の技術的思想は、構成部品の構造、配置等を下記のものに特定するものではない。本発明の技術的思想は、特許請求の範囲に記載された請求項が規定する技術的範囲内において、種々の変更を加えることができる。

【0009】

（構成）
図１は、実施形態の音声認識装置を備えた車両の一例の概略構成図である。車両１は、ユーザインタフェース２と、車載機器コントローラ３と、音入力装置４と、情報出力装置５と、音声認識装置６を備える。
ユーザインタフェース２は、車両１の利用者（例えば運転者等の乗員であり、以下の説明において「利用者」と表記する）から車両１への操作入力の受け付けと、車両１から利用者への情報提供を行うインタフェース装置である。

【0010】

例えばユーザインタフェース２は、車両１のメータクラスタに設けられたランプ（警告灯、表示灯）であってよい。ランプには、何のランプであるか（すなわちユーザインタフェース２の意味）を表す図形（マーク、アイコン）を有する。例えば図７（ａ）に示す図形は、ＶＤＣ（Vehicle Dynamics Control）警告灯を表す図形である。

【0011】

また例えばユーザインタフェース２は、車両１のインストルメントパネルやステアリングホール、センターコンソールに設けられた車両操作のためのスイッチであってもよい。スイッチには、それぞれ何のスイッチであるかを表す図形（マーク、アイコン）が付けられているものを含む。以下の説明において、ユーザインタフェース２の意味を表すためにユーザインタフェース２が持つ図形やユーザインタフェース２に付けられた図形を「マーク」と表記することがある。

【0012】

また例えばユーザインタフェース２は、例えば車両１の利用者に報知音や警報音を出力する報知音生成装置であってもよい。
なお警報音とは、利用者である乗員（例えば運転者）に対して車両１から提示する報知音の一種であり、緊急度や重要度が高い状況を報知する。報知音生成装置は、車両１の車内に設けられて利用者に聴覚情報を提示する聴覚情報提示機器の一例である。
以下の説明として、ユーザインタフェース２として設けられたこれらのランプ、スイッチ、報知音生成装置を単に「ランプ」、「スイッチ」、「報知音生成装置」とそれぞれ表記する。

【0013】

図２を参照する。車載機器コントローラ３は、車両１に搭載された車載機器の動作を制御する電子制御ユニット（ＥＣＵ：Electronic Control Unit）である。
例えば車載機器コントローラ３は、ランプの点灯状態を車両１の状態に応じて制御する。また例えば車載機器コントローラ３は、スイッチの操作状態を検出する。

【0014】

また例えば、車載機器コントローラ３は、利用者に代わってスイッチを操作してもよい。例えば、車載機器コントローラ３は、スイッチの操作片とは別個にスイッチの接点を開閉するアクチュエータ（継電器など）を制御することにより、スイッチを操作してよい。
また車載機器コントローラ３は、車両１の状態に応じて報知音生成装置を制御することにより報知音や警報音を出力又は停止する。

【0015】

車載機器コントローラ３は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばＣＰＵ（Central Processing Unit）やＭＰＵ（Micro-Processing Unit）であってよい。
記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）等のメモリを含んでよい。

【0016】

なお、車載機器コントローラ３を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ３は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ３はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ：Field-Programmable Gate Array）等のプログラマブル・ロジック・デバイス（ＰＬＤ：Programmable Logic Device）等を有していてもよい。

【0017】

音入力装置４は、車両１の車室内及び車室外の音を検知して音データを生成する。例えば音入力装置は、マイクロフォンであってよい。
情報出力装置５は、音声認識装置６が利用者に提示する情報を出力するインタフェース装置である。情報出力装置５は、車両１の利用者に音情報や音声情報を出力するためのスピーカやブザーを備えてよい。情報出力装置５は、車両１の利用者が視認可能な表示装置（例えば、ナビゲーションシステムの表示画面）を備えてもよい。

【0018】

音声認識装置６は、車両１の利用者の発話内容を認識する音声認識を実行するコントローラとして動作する電子制御ユニットである。音声認識装置６は、車両１に設けられたユーザインタフェース２のうち、利用者の発話内容で言及されたユーザインタフェース（以下「対象インタフェース」と表記することがある）を推定し、対象インタフェースに関する情報を提示するか、対象インタフェースに関する情報の提示を提案するか、対象インタフェースを操作する。

【0019】

音声認識装置６は、プロセッサ６ａと、記憶装置６ｂ等の周辺部品とを含む。プロセッサ６ａは、例えばＣＰＵやＭＰＵであってよい。
記憶装置６ｂは、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置６ｂは、レジスタ、キャッシュメモリ、主記憶装置として使用されるＲＯＭ及びＲＡＭ等のメモリを含んでよい。以下に説明する音声認識装置６の機能は、例えばプロセッサ６ａが、記憶装置６ｂに格納されたコンピュータプログラムを実行することにより実現される。
なお、音声認識装置６を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば音声認識装置６は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声認識装置６はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。

【0020】

図２は、第１実施形態の音声認識装置６の機能構成の一例を示すブロック図である。音声認識装置６は、音声認識部１０と、自然言語理解部１１と、信号取得部１２と、対象物特定部１３と、対象物記憶部１４と、応答生成部１５を備える。
音声認識部１０は、音入力装置４が生成した音データから利用者からの音声を取得し、利用者からの音声入力を認識してテキストなどの言語情報に変換する。音声認識部１０は、音声入力を変換して生成した言語情報を自然言語理解部１１に出力する。

【0021】

自然言語理解部１１は、音声認識部１０から出力された言語情報を自然言語処理によって解析し、利用者の発話意図（すなわち「インテント」）と、発話意図に関連するキーワード（すなわち「エンティティ」）を抽出する。
例えば自然言語理解部１１は、利用者の発話意図として、対象インタフェースの意味を質問する「意味の照会」を抽出してよい。例えば利用者が「車にニョロニョロがついたランプ何？」と発話した場合、利用者の発話意図として「意味の照会」を抽出してよい。

【0022】

また例えば自然言語理解部１１は、利用者の発話意図として、対象インタフェースの使用方法を質問する「使用方法の照会」を抽出してよい。例えば利用者が「横にシュシュシュ、縦にナミナミのマークがついたスイッチはどうやって使うの？」と発話した場合、利用者の発話意図として「対処方法の照会」を抽出してよい。
また例えば自然言語理解部１１は、利用者の発話意図として、対象インタフェースであるランプが点灯した場合や報知音生成装置が報知音を出力した場合の対処方法を質問する「対処方法の照会」を抽出してよい。例えば利用者が「車にニョロニョロがついたランプがついたけどどうしたらいい？」と発話した場合、利用者の発話意図として「対処方法の照会」を抽出してよい。

【0023】

また例えば自然言語理解部１１は、利用者の発話意図として、対象インタフェースであるランプが点灯した場合や報知音生成装置が報知音を出力した場合に故障があるか否かを質問する「故障有無の照会」を抽出してよい。
例えば利用者が「車にニョロニョロがついたランプがついたけど故障してる？」と発話した場合、利用者の発話意図として「故障有無の照会」を抽出してよい。

【0024】

また例えば自然言語理解部１１は、利用者の発話意図として、単に対象インタフェースに関する「モノローグ（独白）」を抽出してもよい。例えば利用者が「車にニョロニョロがついたランプがついた。」と発話した場合、利用者の発話意図として「モノローグ」を抽出してよい。
また例えば自然言語理解部１１は、利用者の発話意図として、対象インタフェースの操作を要求する「インタフェースの操作」を検出してもよい。例えば利用者が「横にシュシュシュ、縦にナミナミのマークがついたスイッチをつけて」と発話した場合、利用者の発話意図として「インタフェースの操作」を抽出してよい。

【0025】

また、例えば自然言語理解部１１は、対象インタフェースの特定に利用するキーワードを抽出する。
例えば自然言語理解部１１は、ユーザインタフェース２に付けられたマークを構成する部品（以下、単に「部品」と表記することがある）を表すキーワードを抽出してよい。例えば自然言語理解部１１は、部品を表すキーワードとして、オノマトペ（すなわち擬態語、擬音語又は擬声語）を抽出してもよい。例えば、図４（ａ）に示す部品を表すオノマトペとして「シュシュシュ」を抽出してよい。

【0026】

また例えば自然言語理解部１１は、部品を表すキーワードとして、オノマトペ以外のキーワードを抽出してもよい。例えば図７（ａ）のＶＤＣ警告灯のマークを構成する部品の一つを表すキーワードとして「車」を抽出してよい。また例えば図７（ｂ）の高水温警告灯のマークを構成する部品の一つを表すキーワードとして「旗」や「棒」を抽出してよい。また例えば図７（ｄ）のロービーム表示灯のマークを構成する部品の一つを表すキーワードとして「半月」を抽出してもよい。

【0027】

また例えば自然言語理解部１１は、部品を表すキーワードとしてオノマトペの方向を表すキーワードを抽出してもよい。例えば対象インタフェースが図７（ｄ）のロービーム表示灯であり、利用者が「半月のマークに左に向かってシュシュシュシュシュがついたランプ何？」と発話した場合、オノマトペ「シュシュシュシュシュ」の方向を表すキーワードとして「左」を抽出してもよい。

【0028】

また例えば自然言語理解部１１は、対象インタフェースの種類を表すキーワード「ランプ」、「スイッチ」を抽出してもよい。
また例えば自然言語理解部１１は、ユーザインタフェース２の動作状態を表すキーワードを認識してもよい。例えば、利用者が「いま点灯したシュシュシュって線が入ったランプ何？」と発話した場合に、動作状態を表すキーワードとして「いま点灯した」を抽出してもよい。
自然言語理解部１１は、抽出した発話意図の情報を応答生成部１５へ出力する。また、抽出したオノマトペと、オノマトペ以外のキーワードの情報を対象物特定部１３へ出力する。

【0029】

信号取得部１２は、車両１に搭載された車載機器の動作状態を示す動作状態信号を車載機器コントローラ３から取得する。例えば信号取得部１２は、ユーザインタフェース２の動作状態信号を車載機器コントローラ３から取得してよい。ユーザインタフェース２の動作状態信号として、ランプの点灯状態を示す信号や、スイッチの操作状態を示す信号や、報知音の出力状態を示す信号を取得してよい。信号取得部１２は、ユーザインタフェース２の動作状態信号を対象物特定部１３に出力する。

【0030】

対象物特定部１３は、自然言語理解部１１が抽出したキーワードに基づいて、車両１に設けられたユーザインタフェース２のうち、利用者の発話内容で言及された対象インタフェースがどれであるかを特定する。
例えば対象物特定部１３は、自然言語理解部１１が抽出したオノマトペに基づいて対象インタフェースを特定する。以下の説明において、自然言語理解部１１が抽出したオノマトペを「抽出オノマトペ」と表記することがある。
以下の説明では、対象インタフェースがランプである場合の例について説明する。しかしながら本発明は、利用者がランプ以外のユーザインタフェース２をオノマトペで表現した場合にも広く適用できる。例えば対象インタフェースは、後述のようにスイッチや報知音生成装置であってよい。

【0031】

対象物特定部１３は、抽出オノマトペにより表現される部品と、ランプのマークとに基づいて、利用者の発話内容で言及された対象インタフェースのランプを特定する。例えば対象物特定部１３は、抽出オノマトペにより表現される部品を含んだマークのランプを、対象インタフェースとして特定する。
このとき、例えば対象物特定部１３は、抽出オノマトペにより表現される部品を推定し、推定した部品を含んだマークのランプを対象インタフェースとして特定してよい。

【0032】

例えば対象物特定部１３は、対象物記憶部１４に記憶されたオノマトペテーブルと、抽出オノマトペと、を照合することによって部品を推定してもよい。対象物記憶部１４は、図１の記憶装置６ｂに設けられた記憶領域であってよい。
図３は、オノマトペテーブルの一例の模式図である。オノマトペテーブルは、オノマトペと、部品を識別する部品ＩＤと、を関連付けて記憶するテーブル情報である。オノマトペテーブルに格納されるオノマトペは、例えば自然言語理解部１１によって抽出される抽出オノマトペを含むように設定してよい。

【0033】

図４（ａ）～図４（ｈ）、図５（ａ）～図５（ｇ）は、オノマトペテーブルに格納されるオノマトペに対応する部品（すなわち、オノマトペテーブルに格納されるオノマトペで表現される部品）の模式図である。これらの部品は、それぞれオノマトペテーブルに格納される部品ＩＤによって識別される。
図４（ａ）の部品（部品ＩＤ「ｉｄ００１－１」）と図４（ｂ）の部品（部品ＩＤ「ｉｄ００１－２」）は、オノマトペ「シュシュシュ」で表現される部品である。
オノマトペ「シュシュシュ」は、同じオノマトペ（音声）「シュ」を３回反復し、オノマトペ「シュ」は垂直の直線又は水平の直線を表す。部品ＩＤ「ｉｄ００１－１」の部品は、オノマトペ「シュ」の反復回数３に対応して、マークを構成する図形要素として垂直の直線を３個含んでいる。
同様に、部品ＩＤ「ｉｄ００１－２」の部品は、図形要素として水平の直線を３個含んでいる。すなわち、対象物特定部１３は、「シュ」の音声を含むオノマトペに対応する図形要素を垂直又は水平の直線として特定する。

【0034】

図４（ｃ）の部品（部品ＩＤ「ｉｄ００２－１」）と図４（ｄ）の部品（部品ＩＤ「ｉｄ００２－２」）は、オノマトペ「シャシャシャ」で表現される部品である。
オノマトペ「シャシャシャ」は、同じオノマトペ（音声）「シャ」を３回反復し、オノマトペ「シャ」は斜めの直線を表す。部品ＩＤ「ｉｄ００２－１」及び「ｉｄ００２－２」の部品は、オノマトペ「シャ」の反復回数３に対応して、図形要素である斜めの直線を３個含んでいる。すなわち、対象物特定部１３は、「シャ」の音声を含むオノマトペに対応する図形要素を斜めの直線として特定する。

【0035】

図４（ｅ）の部品（部品ＩＤ「ｉｄ００２－３」）は、オノマトペ「シャシャシャシャシャ」で表現される部品である。オノマトペ「シャシャシャシャシャ」は、オノマトペ「シャ」を５回反復するため、部品ＩＤ「ｉｄ００２－３」の部品は、図形要素である斜めの直線を５個含んでいる。
なお、対象物特定部１３は「スー」の音声を含むオノマトペに対応する図形要素を直線として特定してもよい。

【0036】

図４（ｆ）の部品（部品ＩＤ「ｉｄ００３－１」）と図４（ｇ）の部品（部品ＩＤ「ｉｄ００３－２」）は、オノマトペ「ニョロニョロ」又は「ユラユラ」で表現される部品である。
図４（ｈ）の部品（部品ＩＤ「ｉｄ００４」）は、オノマトペ「ナミナミ」で表現される部品である。
これら部品ＩＤ「ｉｄ００３－１」、部品ＩＤ「ｉｄ００３－２」及び部品ＩＤ「ｉｄ００４」は、図形要素として曲線を有している。すなわち、対象物特定部１３は、「ニョロ」、「ユラ」、「ナミ」の音声を含むオノマトペに対応する図形要素を曲線として特定する。

【0037】

図５（ａ）の部品（部品ＩＤ「ｉｄ００５」）は、オノマトペ「チカチカ」又は「ピカピカ」で表現される部品である。
図５（ｂ）の部品（部品ＩＤ「ｉｄ００６－１」）と図５（ｃ）の部品（部品ＩＤ「ｉｄ００６－２」）と図５（ｄ）の部品（部品ＩＤ「ｉｄ００６－３」）は、オノマトペ「ピカッ」又は「チカッ」で表現される部品である。

【0038】

図５（ｅ）の部品（部品ＩＤ「ｉｄ００７－１」）と図５（ｆ）の部品（部品ＩＤ「ｉｄ００７－２」）は、オノマトペ「パン、ポン」で表現される部品である。
図５（ｇ）の部品（部品ＩＤ「ｉｄ００８」）は、オノマトペ「モヤッ」、「ホワッ」又は「ユルッ」で表現される部品である。

【0039】

対象物特定部１３は、オノマトペテーブルにおいて抽出オノマトペと関連付けて記憶されている部品ＩＤを、対象インタフェースのランプのマークに含まれている部品の部品ＩＤであると推定する。
次に、対象物特定部１３は、推定した部品ＩＤに基づいてこの部品を含んだマークのランプを対象インタフェースとして特定する。

【0040】

例えば対象物特定部１３は、推定した部品ＩＤと、自然言語理解部１１が抽出したオノマトペ以外のキーワードと、に基づいて対象インタフェースであるランプを特定してよい。例えば対象物特定部１３は、推定した部品ＩＤと、オノマトペ以外のキーワードと、対象物記憶部１４に記憶された対象インタフェーステーブルと、を照合することによって対象インタフェースであるランプを特定してもよい。

【0041】

図６は、対象インタフェーステーブルの第１例の模式図である。対象インタフェーステーブルは、部品ＩＤと、オノマトペ以外のキーワードと、対象インタフェースとを関連付けて記憶するテーブル情報である。
例えば、利用者が「ニョロニョロって感じのランプ何？」と発話した場合、自然言語理解部１１は、オノマトペ「ニョロニョロ」を抽出し、オノマトペ以外のキーワード「ランプ」を抽出する。対象物特定部１３は、図３のオノマトペテーブルを参照して、抽出オノマトペ「ニョロニョロ」に対応する部品ＩＤ「ｉｄ００３－２」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
対象物特定部１３は、図６の対象インタフェーステーブルを参照して、部品ＩＤ「ｉｄ００３－２」とオノマトペ以外のキーワード「ランプ」とに関連付けて記憶されているＶＤＣ警告灯（図７（ａ）参照）が対象インタフェースであると特定する。

【0042】

また例えば利用者が「車にニョロニョロって感じのランプ何？」や「ニョロニョロって車が揺れている感じのランプ何？」と発話した場合、自然言語理解部１１は、オノマトペ「ニョロニョロ」を抽出し、オノマトペ以外のキーワード「車」、「ランプ」を抽出する。対象物特定部１３は、部品ＩＤ「ｉｄ００３－２」とオノマトペ以外のキーワード「車」、「ランプ」とに関連付けて記憶されているＶＤＣ警告灯（図７（ａ）参照）が対象インタフェースであると特定する。

【0043】

また例えば利用者が「ナミナミの上に何か浮いているランプ何？」と発話した場合、自然言語理解部１１は、オノマトペ「ナミナミ」を抽出し、オノマトペ以外のキーワード「浮く」、「ランプ」を抽出する。対象物特定部１３は、抽出オノマトペ「ナミナミ」に対応する部品ＩＤ「ｉｄ００４」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
対象物特定部１３は、部品ＩＤ「ｉｄ００４」とオノマトペ以外のキーワード「浮く」、「ランプ」とに関連付けて記憶されている高水温警告灯（図７（ｂ）参照）が対象インタフェースであると特定する。

【0044】

また例えば利用者が「ナミナミの上に旗みたいな棒が乗っているランプ何？」と発話した場合、自然言語理解部１１は、オノマトペ「ナミナミ」を抽出し、オノマトペ以外のキーワード「旗」、「棒」、「ランプ」を抽出する。対象物特定部１３は、部品ＩＤ「ｉｄ００４」とオノマトペ以外のキーワード「旗」、「棒」、「ランプ」とに関連付けて記憶されている高水温警告灯（図７（ｂ）参照）が対象インタフェースであると特定する。

【0045】

また例えば利用者が「チカチカってしているランプ何？」や「ピカピカ輝いた感じのランプ何？」と発話した場合に、自然言語理解部１１は、オノマトペ「チカチカ」又は「ピカピカ」を抽出し、オノマトペ以外のキーワード「ランプ」を抽出する。対象物特定部１３は、抽出オノマトペ「チカチカ」又は「ピカピカ」に対応する部品ＩＤ「ｉｄ００５」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
対象物特定部１３は、部品ＩＤ「ｉｄ００５」とオノマトペ以外のキーワード「ランプ」とに関連付けて記憶されているテールランプ表示灯（図７（ｃ）参照）が対象インタフェースであると特定する。

【0046】

また例えば利用者が「半月からシャシャシャシャシャって出ているランプ何？」と発話した場合に、自然言語理解部１１は、オノマトペ「シャシャシャシャシャ」を抽出し、オノマトペ以外のキーワード「半月」、「ランプ」を抽出する。
対象物特定部１３は、抽出オノマトペ「シャシャシャシャシャ」に対応する部品ＩＤ「ｉｄ００２－３」の部品が、対象インタフェースのランプのマークに含まれていると推定する。
対象物特定部１３は、部品ＩＤ「ｉｄ００２－３」とオノマトペ以外のキーワード「半月」、「ランプ」とに関連付けて記憶されているロービーム表示灯（図７（ｄ）参照）が対象インタフェースであると特定する。

【0047】

このように自然言語理解部１１が認識した発話内容に含まれているオノマトペ（この場合は音声「シャ」）の回数（この場合は５回）を認識してもよい。すなわち、発話内容に含まれている同一のオノマトペ（音声「シャ」）が反復する回数を認識してよい。対象物特定部１３は、オノマトペとオノマトペの反復回数に基づいて対象インタフェースを推定してもよい。
例えば対象物特定部１３は、オノマトペの反復回数とマークに含まれる図形要素の個数とに基づいて対象インタフェースを推定してよい。

【0048】

例えば、オノマトペ「シャシャシャシャシャ」の例では、図形要素である斜めの直線を表す「シャ」を５回含んでいる。このため、対象物特定部１３は、図３のオノマトペテーブルに従って斜めの直線を５個含んだ部品ＩＤ「ｉｄ００２－３」を選択し、図６の対象インタフェーステーブルに従って、斜めの直線を５個含んだマークのロービーム表示灯（図７（ｄ）参照）が対象インタフェースであると推定してよい。

【0049】

図６を参照する。利用者が「横にシュシュシュ、縦にナミナミとしたランプ何？」と発話した場合に、自然言語理解部１１は、オノマトペ「シュシュシュ」と「ナミナミ」を抽出し、オノマトペ以外のキーワードとして、オノマトペの方向を表すキーワード「横」、「縦」を抽出する。
対象物特定部１３は、抽出オノマトペ「シュシュシュ」に対応する部品ＩＤ「ｉｄ００１－１」又は「ｉｄ００１－２」の部品と、「ナミナミ」に対応する部品ＩＤ「ｉｄ００４」の部品が、対象インタフェースのランプのマークに含まれていると推定する。

【0050】

対象物特定部１３は、部品ＩＤ「ｉｄ００１－２」及び「ｉｄ００４」並びにオノマトペの方向を表すキーワード「横」及び「縦」に関連付けて記憶されているリアフォグランプ表示灯（図７（ｅ）参照）が対象インタフェースであると特定する。
このように、自然言語理解部１１が認識した発話内容に含まれているオノマトペ（この場合は「シュシュシュ」や「ナミナミ」）の方向を表すキーワード（この場合は「横」や「縦」）を認識してもよい。対象物特定部１３は、オノマトペとオノマトペの方向を表すキーワードとに基づいて対象インタフェースを推定してもよい。

【0051】

例えば「横にシュシュシュ、縦にナミナミ」の発話内容の例では、オノマトペ「シュシュシュ」が表す部品要素である直線の方向を表すキーワード「横」と、オノマトペ「ナミナミ」が表す部品要素である曲線の方向を表すキーワード「縦」とに基づいて、横方向に伸びる直線と縦方向に伸びる曲線を含んだマークのリアフォグランプ表示灯（図７（ｅ）参照）が対象インタフェースであると推定してよい。

【0052】

利用者が「縦のナミナミの上に、斜めにシャシャシャってしてるランプ何？」と発話した場合に、自然言語理解部１１は、オノマトペ「ナミナミ」と「シャシャシャ」を抽出し、オノマトペ以外のキーワードとして、オノマトペの方向を表すキーワード「縦」、「斜め」を抽出する。
対象物特定部１３は、抽出オノマトペ「シャシャシャ」に対応する部品ＩＤ「ｉｄ００２－１」又は「ｉｄ００２－２」の部品と、「ナミナミ」に対応する部品ＩＤ「ｉｄ００４」の部品が、対象インタフェースのランプのマークに含まれていると推定する。

【0053】

対象物特定部１３は、部品ＩＤ「ｉｄ００２－１」及び「ｉｄ００４」並びにオノマトペの方向を表すキーワード「斜め」及び「縦」に関連付けて記憶されているフォグランプ表示灯（図７（ｆ）参照）が対象インタフェースであると特定する。
すなわち、オノマトペ「ナミナミ」が表す部品要素である曲線の方向を表すキーワード「縦」と、オノマトペ「シャシャシャ」が表す部品要素である直線の方向を表すキーワード「斜め」と、に基づいて、縦方向に伸びる曲線と斜めに伸びる直線とを含んだマークのフォグランプ表示灯（図７（ｆ）参照）が対象インタフェースであると推定してよい。

【0054】

また例えば対象物特定部１３は、図８に示すような対象インタフェーステーブルに従って、対象インタフェースを特定してもよい。図８に示す対象インタフェーステーブルは、オノマトペと、オノマトペ以外のキーワードと、対象インタフェースとを関連付けて記憶するテーブル情報である。
例えば図８に示す対象インタフェーステーブルは、対象インタフェースと、対象インタフェースが有するマーク又は対象インタフェースに付けられたマークを構成する部品を表すオノマトペと、を関連付けるように設定してよい。
対象物特定部１３は、抽出オノマトペとオノマトペ以外のキーワードとに関連付けて対象インタフェーステーブルに記憶されたユーザインタフェースを、対象インタフェースとして特定してよい。

【0055】

図２を参照する。例えば対象物特定部１３は、ユーザインタフェース２の動作状態を表すキーワードを自然言語理解部１１が抽出した場合に、ユーザインタフェース２の動作状態を表すキーワードと、抽出オノマトペと、に基づいて対象インタフェースを推定してもよい。
例えば対象物特定部１３は、動作状態を表すキーワードと、抽出オノマトペと、信号取得部１２が取得した動作状態信号と、に基づいて対象インタフェースを推定してもよい。

【0056】

例えば、対象物特定部１３は、抽出オノマトペが表す部品を含んだマークのランプのうち、自然言語理解部１１が抽出したキーワードが表す動作状態と、動作状態信号が示す動作状態とが一致するランプを対象インタフェースとして推定してもよい。

【0057】

例えば、利用者が「いま点灯したナミナミのランプ何？」と発話した場合を想定する。
自然言語理解部１１は、動作状態を表すキーワードとして「いま点灯した」を抽出し、オノマトペ「ナミナミ」を抽出する。
抽出オノマトペが表す「ナミナミ」に対応する部品ＩＤ「ｉｄ００４」の部品（図４（ｆ））を含むマークのランプの候補は、図７（ｂ）の高水温警告灯と、図７（ｅ）のリアフォグランプ表示灯と、図７（ｆ）のフォグランプ表示灯である。

【0058】

対象物特定部１３は、信号取得部１２が取得した動作状態信号に基づいて、各ランプの点灯状態を判定し、動作状態を表すキーワード「いま点灯した」と一致する点灯状態のランプを対象インタフェースとして推定してもよい。
例えば、高水温警告灯が点灯しており、他のランプが点灯していない場合には、高水温警告灯を対象インタフェースとして推定してもよい。また、高水温警告灯が発話の直前に点灯を開始し、他のランプが点灯していないか、発話よりも所定時間以上前の時点から点灯している場合に、高水温警告灯を対象インタフェースとして推定してもよい。

【0059】

応答生成部１５は、自然言語理解部１１が出力した発話意図の情報と、対象物特定部１３が特定した対象インタフェースとに基づいて利用者の発話に対する応答を生成する。
例えば利用者の発話意図が「意味の照会」、「対処方法の照会」、「使用方法の紹介」、「故障」などの「質問」である場合には、対象インタフェースに関する情報（対象インタフェースの意味、対処方法、使用方法、故障の有無の情報）を情報出力装置５から出力してよい。
応答生成部１５は、対象インタフェースに関する情報として聴覚情報（音声メッセージ等の聴覚的メッセージ）をスピーカから出力してもよく視覚情報（文字メッセージや図形、シンボル、動画などの視覚的メッセージ）を表示装置から出力してよい。

【0060】

具体的には、対象インタフェースがランプであり、発話意図が「意味の照会」である場合には、対象インタフェースであるランプの意味の情報を情報出力装置５から出力してよい。
また対象インタフェースがランプであり、発話意図が「対処方法の照会」である場合には、対象インタフェースであるランプが点灯した場合の対処方法の情報を情報出力装置５から出力してよい。
また対象インタフェースがランプであり、発話意図が「故障の照会」である場合には、対象インタフェースであるランプが点灯した場合の故障の有無の情報を情報出力装置５から出力してよい。

【0061】

また、例えば利用者の発話意図が「モノローグ」である場合には、対象インタフェースに関する情報（対象インタフェースの意味、対処方法、使用方法、故障の有無の情報）を情報出力装置５から出力してよく、情報の提示を提案するメッセージを出力してもよい。
例えば、利用者が「車にニョロニョロがついたランプがついた」と発話した場合には、「ＶＤＣ警告灯です」と対象インタフェースに関する情報（意味）を出力してもよく、情報の提示を直接的に提案するメッセージ「意味を説明しましょうか」や、間接的に提案するメッセージ「大丈夫ですか？」を出力してもよい。

【0062】

図９は、実施形態の音声認識方法の一例のフローチャートである。
ステップＳ１において音声認識部１０と自然言語理解部１１は、車両１の利用者によるオノマトペを含んだ発話内容を認識する。
ステップＳ２において対象物特定部１３は、オノマトペを発話内容に基づいて、車両１に設けられたユーザインタフェース２のうち、利用者の発話内容で言及された対象インタフェースがどれであるかを特定する。
ステップＳ３において応答生成部１５は、対象音に対する利用者の発話に対する応答を生成する。その後に処理は終了する。

【0063】

（変形例１）
上述の説明では、利用者の発話内容で言及された対象インタフェースとしてランプを特定する例について記載した。本発明は、利用者がランプ以外のユーザインタフェース２をオノマトペで表現した場合にも広く適用できる。例えば対象インタフェースはスイッチであってもよい。

【0064】

例えば、対象物特定部１３は、スイッチに付けられたマークを構成する部品を表すオノマトペに基づいて、対象インタフェースであるスイッチを特定してもよい。例えば利用者が「横にシュシュシュ、縦にナミナミのマークがついたスイッチはどうやって使うの？」と発話した場合、対象物特定部１３は、オノマトペ「シュシュシュ」及び「ナミナミ」に基づいて、部品ＩＤ「ｉｄ００１－１」及び「ｉｄ００１－２」及び「ｉｄ００４」の部品を特定してよい。そして部品ＩＤ「ｉｄ００１－２」及び「ｉｄ００４」の部品を含んだリアフォグランプスイッチを対象インタフェースとして特定してよい。

【0065】

また例えば対象物特定部１３は、スイッチに付けられたマーク以外のスイッチの態様を表現するオノマトペに基づいて対象インタフェースであるスイッチを特定してもよい。例えば利用者が「正面にデーンと置いてある大きなスイッチ何？」と発話した場合、「大きな」「スイッチ」というキーワードと、スイッチの態様を表現する「デーン」というオノマトペに基づいて、ハザードスイッチを対象インタフェースのスイッチとして特定してもよい。

【0066】

また例えば対象物特定部１３は、スイッチの動作状態を表すキーワードを自然言語理解部１１が抽出した場合に、スイッチの動作状態を表すキーワードと、抽出オノマトペと、に基づいて対象インタフェースのスイッチを推定してもよい。例えば、利用者が「いま、操作した横にシュシュシュ、縦にナミナミのマークがついたスイッチ何？」と発話した場合に、動作状態を表すキーワード「いま操作した」とオノマトペ「シュシュシュ」及び「ナミナミ」と、信号取得部１２が取得した動作状態信号とに基づいて対象インタフェースのスイッチを推定してもよい。

【0067】

また対象インタフェースがスイッチであり、発話意図が「意味の照会」である場合に、応答生成部１５は、対象インタフェースであるスイッチの意味の情報を情報出力装置５から出力してよい。
また対象インタフェースがスイッチであり、発話意図が「使用方法の照会」である場合には、対象インタフェースであるスイッチの使用方法の情報を情報出力装置５から出力してよい。

【0068】

また対象インタフェースがスイッチであり、発話意図が「インタフェースの操作」である場合に、応答生成部１５は、利用者に代わってスイッチを操作する応答コマンドを車載機器コントローラ３に出力してもよい。例えば利用者が「横にシュシュシュ、縦にナミナミのマークがついたスイッチをつけて」と発話した場合に、対象インタフェースであるリアフォグランプスイッチをオンにする応答コマンドを出力してよい。
車載機器コントローラ３は、応答生成部１５から出力された応答コマンドに基づいて対象インタフェースのスイッチを操作してよい。例えば、スイッチの接点を開閉するアクチュエータ（継電器など）を制御してよい。

【0069】

（変形例２）
例えば対象インタフェースは、後述するように報知音生成装置であってもよい。例えば、対象物特定部１３は、報知音生成装置が発生する報知音（警報音を含む）の態様を表すオノマトペに基づいて、利用者の発話内容で言及された報知音を特定してもよい。例えば利用者が「ポーンって音、何？」と発話した場合に、対象物特定部１３は、報知音の態様を表すオノマトペ「ポーン」に基づいて、利用者の発話内容で言及された報知音が他車両の割り込み検知音」であると特定してよい。

【0070】

また例えば対象物特定部１３は、報知音生成装置の動作状態を表すキーワードを自然言語理解部１１が抽出した場合に、報知音生成装置の動作状態を表すキーワードと、抽出オノマトペと、に基づいて利用者の発話内容で言及された報知音を推定してもよい。例えば、利用者が「いま鳴った、ポーンって音、何？」と発話した場合に、動作状態を表すキーワード「いま鳴った」とオノマトペ「ポーン」と信号取得部１２が取得した動作状態信号とに基づいて利用者の発話内容で言及された報知音を推定してもよい。

【0071】

また対象インタフェースが報知音生成装置であり、発話意図が「意味の照会」である場合に、応答生成部１５は、報知音生成装置が出力した報知音の意味の情報を情報出力装置５から出力してよい。
また対象インタフェースが報知音生成装置であり、発話意図が「対処方法の照会」である場合には、報知音生成装置が報知音を出力した場合の対処方法の情報を情報出力装置５から出力してよい。

【0072】

また対象インタフェースが報知音生成装置であり、発話意図が「故障の照会」である場合には、報知音生成装置が報知音を出力した場合の故障の有無の情報を情報出力装置５から出力してよい。
また対象インタフェースが報知音生成装置であり、発話意図が「インタフェースの操作」である場合に、応答生成部１５は、報知音生成装置を操作する応答コマンドを車載機器コントローラ３に出力してもよい。例えば利用者が「ピピピっていう音を止めて」と発話した場合に、該当する報知音を停止させる制御信号を応答コマンドとして車載機器コントローラ３に出力することにより、報知音の発生を停止させてもよい。

【0073】

（変形例３）
対象物特定部１３は、図３のオノマトペテーブルに代えて、学習済みモデルとしての識別器（例えばニューラルネット）を使用してオノマトペに対応する部品を推定してもよい。例えば、オノマトペと、正解クラスの部品ＩＤを学習信号として機械学習手法を適用して学習させることによって予め識別器を生成してよい。対象物特定部１３は、このような識別器に、自然言語理解部１１が抽出したオノマトペを入力することにより、発話内容において言及されたユーザインタフェース２が有するマークやユーザインタフェース２に付けられたマークの部品を推定してもよい。
同様に対象物特定部１３は、図８の対象インタフェーステーブルに代えて、学習済みモデルとしての識別器を使用して、自然言語理解部１１が抽出したオノマトペとそれ以外のキーワードに対応するユーザインタフェース２を推定してもよい。

【0074】

（実施形態の効果）
（１）音声認識方法では、車両１の利用者の発話音声から、車両１に設けられたユーザインタフェース２に関連するオノマトペを含んだ発話内容を認識し、認識した発話内容に基づいて、発話音声で言及されたユーザインタフェース２である対象インタフェースを推定し、対象インタフェースに関する情報を提示するか、情報の提示を提案するか、対象インタフェースを操作する。例えば、ユーザインタフェース２は、車両操作のためのスイッチ、ランプ、報知音生成装置であってよい。また例えば、オノマトペは、擬態語、擬音語又は擬声語のいずれか１つ以上であってよい。
これにより、車両１に設けられたユーザインタフェース２に関する発話を音声認識する際のユーザによる発話入力が容易になる。

【0075】

（２）対象インタフェースに関する情報は、対象インタフェースの意味又は対象インタフェースの使用方法の情報であってよい。
例えばユーザインタフェース２はランプである場合、対象インタフェースに関する情報は、対象インタフェースであるランプが点灯した場合の対処方法の情報、又は車両１の故障の有無の情報であってよい。
例えばユーザインタフェース２は報知音生成装置である場合には、対象インタフェースに関する情報は、対象インタフェースが報知音を生成した場合の対処方法の情報又は車両１の故障の有無の情報であってよい。
これにより、車両１に設けられたユーザインタフェース２に関する情報を利用者に提供できる。

【0076】

（３）認識した発話内容に含まれるオノマトペの回数を認識し、オノマトペとオノマトペの回数とに基づいて対象インタフェースを推定してよい。
これにより、オノマトペに基づく対象インタフェースの推定精度を向上できる。
（４）認識した発話内容とユーザインタフェース２に含まれる図形とに基づいて対象インタフェースを推定してよい。これにより利用者は、特定のマークのユーザインタフェース２を、オノマトペに基づいて言及できる。

【0077】

（５）認識した発話内容に含まれるオノマトペの回数を認識し、オノマトペの回数と図形に含まれる図形要素の個数とに基づいて対象インタフェースを推定してもよい。
これにより、オノマトペに基づく対象インタフェースの推定精度を向上できる。
（６）認識した発話内容に含まれる方向を表す表現を認識し、オノマトペと方向を表す表現とに基づいて対象インタフェースを推定してよい。
例えば、方向を表す表現と図形に含まれる線の方向とに基づいて対象インタフェースを推定してよい。
これにより、オノマトペに基づく対象インタフェースの推定精度を向上できる。

【0078】

（７）「シュ」、「シャ」又は「スー」の音声を含むオノマトペに対応する図形要素を直線として特定し、「ニョロ」、「ユラ」又は「ナミ」の音声を含むオノマトペに対応する図形要素を曲線として特定してよい。
これにより、オノマトペに基づく対象インタフェースの推定精度を向上できる。
（８）認識した発話内容に含まれるユーザインタフェース２の動作状態を表す表現を認識し、オノマトペと動作状態を表す表現とに基づいて対象インタフェースを推定してもよい。これにより、より正確に対象インタフェースを推定できる。

【符号の説明】

【0079】

１…車両、２…ユーザインタフェース、４…音入力装置、５…情報出力装置、６…音声認識装置、６ａ…プロセッサ、６ｂ…記憶装置、１０…音声認識部、１１…自然言語理解部、１２…信号取得部、１３…対象物特定部、１４…対象物記憶部、１５…応答生成部

【図1】