(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-17
(45)【発行日】2024-09-26
(54)【発明の名称】音声認識方法及び音声認識装置
(51)【国際特許分類】
G10L 15/18 20130101AFI20240918BHJP
G10L 15/00 20130101ALI20240918BHJP
B60R 16/02 20060101ALI20240918BHJP
G06F 3/16 20060101ALI20240918BHJP
【FI】
G10L15/18 400
G10L15/00 200Q
B60R16/02 655K
G06F3/16 630
(21)【出願番号】P 2020049179
(22)【出願日】2020-03-19
【審査請求日】2023-01-11
(73)【特許権者】
【識別番号】000003997
【氏名又は名称】日産自動車株式会社
(74)【代理人】
【識別番号】110000486
【氏名又は名称】弁理士法人とこしえ特許事務所
(72)【発明者】
【氏名】杉本 美香
【審査官】中村 天真
(56)【参考文献】
【文献】特開2019-211752(JP,A)
【文献】特開2005-208198(JP,A)
【文献】特開2004-354722(JP,A)
【文献】特開2004-184803(JP,A)
【文献】国際公開第2019/142418(WO,A1)
【文献】特開2017-090612(JP,A)
【文献】特開2003-015689(JP,A)
【文献】特開平07-146698(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
B60R 16/02
G06F 3/16
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
ユーザの発した音声による指示に基づいて、移動体に搭載される装置に対する制御要求を受け付ける音声認識装置を用いた音声認識方法であって、
前記音声認識装置は、
前記音声を取得し、
取得した前記音声を音声データに変換し、
前記移動体の状態情報を取得し、
前記移動体の前記状態情報に基づいて、前記音声が取得される集音環境における前記音声の誤認識の可能性を示す誤認識レベルを算出し、
算出された前記誤認識レベルが予め定められた基準レベル未満である場合は、前記集音環境が良好であると判定し、前記音声データに対応する前記制御要求を特定するための検出モードを、自然言語認識によって前記音声データを解析する第1検出モードに設定し、
算出された前記誤認識レベルが前記基準レベル以上である場合は、前記集音環境が良好でないと判定し、前記検出モードを、自然言語認識とは異なる手法の音声認識によって前記音声データを解析する第2検出モードに設定し、
設定された前記検出モードに基づいて、前記音声データを解析して、制御の対象である操作対象装置と前記操作対象装置に対する前記制御要求とを特定し、
各々の前記操作対象装置及び前記制御要求に対応して認識することができる前記音声データの範囲は、前記第2検出モードの方が、前記第1検出モードよりも狭い、音声認識方法。
【請求項2】
前記検出モードが前記第2検出モードに設定されている場合に、
前記音声認識装置は、
前記音声データが、予め定義された制御要求テキストに一致するか否かを判定し、
前記音声データが前記制御要求テキストに一致すると判定した場合に、前記制御要求テキストに対応する前記操作対象装置及び前記制御要求を特定する、請求項1に記載の音声認識方法。
【請求項3】
前記検出モードが前記第2検出モードに設定されている場合であって、前記音声による指示に基づく前記音声データが前記制御要求テキストに一致しない場合に、
前記音声認識装置は、前記ユーザに対して、前記音声データが前記制御要求テキストに一致するように前記指示をやり直すことを案内する案内情報を、前記移動体に設けられた情報出力部に出力する、請求項2に記載の音声認識方法。
【請求項4】
前記音声認識装置は、前記移動体に設けられた空調装置から吹き出される空気の風量を前記状態情報として取得する、請求項1~3のいずれか一項に記載の音声認識方法。
【請求項5】
前記音声認識装置は、前記移動体に設けられた開口部の開閉状態と、前記開口部が開状態である場合における前記移動体の走行速度とを前記状態情報として取得する、請求項1~4のいずれか一項に記載の音声認識方法。
【請求項6】
前記音声認識装置は、前記移動体に設けられた開口部の開閉状態と、前記開口部が開状態である場合における前記移動体の周囲の風速を前記状態情報として取得する、請求項1~5のいずれか一項に記載の音声認識方法。
【請求項7】
前記開口部は、ドアウィンドウ又はルーフウィンドウである、請求項5又は6に記載の音声認識方法。
【請求項8】
前記音声認識装置は、前記移動体の内部の騒音レベルを前記状態情報として取得する、請求項1~7のいずれか一項に記載の音声認識方法。
【請求項9】
前記音声認識装置は、前記集音環境に応じて前記検出モードを変更した場合に、前記検出モードが変更されたことを示す情報を、前記移動体に設けられた情報提供装置に出力する、請求項1~8のいずれか一項に記載の音声認識方法。
【請求項10】
音声による指示に基づいて、移動体に搭載される装置に対する制御要求を受け付ける音声認識装置であって、
前記音声を取得する音声取得部と、
前記音声取得部により取得された前記音声を音声データに変換する音声データ変換部と、
前記移動体の状態情報を取得する移動体情報取得部と、
前記移動体情報取得部により取得された前記移動体の前記状態情報に基づいて、前記音声が取得される集音環境における前記音声の誤認識の可能性を示す誤認識レベルを算出し、算出された前記誤認識レベルが予め定められた基準レベル未満である場合は、前記集音環境が良好であると判定し、算出された前記誤認識レベルが前記基準レベル以上である場合は、前記集音環境が良好でないと判定する集音環境推定部と、
前記集音環境が良好であると判定された場合
、前記音声データに対応する前記制御要求を特定するための検出モードを、自然言語認識によって前記音声データを解析する第1検出モードに設定し、前記集音環境が良好でないと判定された場合
、前記検出モードを、自然言語認識とは異なる手法の音声認識によって前記音声データを解析する第2検出モードに設定する検出モード設定部と、
設定された前記検出モードに基づいて、前記音声データを解析して、制御の対象である操作対象装置と前記操作対象装置に対する前記制御要求とを特定する制御要求特定部とを備え、
各々の前記操作対象装置及び前記制御要求に対応して認識することができる前記音声データの範囲は、前記第2検出モードの方が、前記第1検出モードよりも狭い、音声認識装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識方法及び音声認識装置に関するものである。
【背景技術】
【0002】
音声認識装置は、ユーザが発した音声を音声認識し、音声認識結果に基づいて、各種の処理を行う。音声認識装置が音声を正しく認識するためには、集音環境が適正であることが必要である。そこで、特許文献1の情報処理装置は、受信された音声に基づいて集音の適正度を算出し、集音の適正度に応じて、集音部の位置や姿勢を調整し、音声認識の精度を向上させる。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、車両等の移動体の内部で音声認識装置を用いて装置の制御が行われる場合、特許文献1の情報処理装置では、移動体の状態が集音環境に及ぼす影響が考慮されていない。そのため、移動体の状態によっては、集音環境にノイズが多くなり、情報処理装置が音声を適切に取得することができずに、ユーザの指示内容が誤認識されてしまうおそれがあった。
【0005】
本発明が解決しようとする課題は、移動体の状態に応じて集音環境を推定し、指示内容の誤認識を防止することができる音声認識装置を提供することである。
【課題を解決するための手段】
【0006】
本発明に係る音声認識方法及び音声認識装置は、移動体の状態情報に基づいて集音環境における音声の誤認識の可能性を示す誤認識レベルを算出し、誤認識レベルが基準レベル未満である場合は、検出モードを、自然言語認識によって音声データを解析する第1検出モードに設定し、誤認識レベルが基準レベル以上である場合は、検出モードを、自然言語認識とは異なる手法の音声認識によって音声データを解析する第2検出モードに設定し、設定された検出モードに基づき、制御の対象である操作対象装置と操作対象装置に対する制御要求とを特定することによって、上記課題を解決する。
【発明の効果】
【0007】
本発明によれば、集音環境に応じて制御要求の検出モードを設定するので、操作対象装置及び制御要求を含む音声指示の内容を誤って特定することを防止することができるという効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】本発明の実施の形態に係る音声認識装置を含む車両の構成を示すブロック図である。
【
図2】
図1に示す音声認識装置を用いた音声認識方法の概要を示すフローチャートである。
【
図3】
図2に示す音声認識方法において、各々の車両状態に応じて加算される誤認識レベルの点数を示す表である。
【
図4】
図2に示す音声認識方法に用いられるルールベース認識に基づく第2検出モードと自然言語認識に基づく第1検出モードとの音声の認識範囲の違いを例示する表である。
【
図5】
図2に示す音声認識方法を用いてエアコンの電源をONにする操作を行う場合において、誤認識レベルに対応して設定される検出モードと、各々の検出モードで認識することができる発話例との関係を示す表である。
【
図6】
図2に示す音声認識方法を用いてルーフウィンドウの開閉の操作をする場合において、誤認識レベルに対応して設定される検出モードと、各々の検出モードで認識することができる発話例との関係を示す表である。
【発明を実施するための形態】
【0009】
以下、本発明の実施形態を図面に基づいて説明する。
図1に示すように、移動体である車両1は、音声入力によって、ディスプレイ12,オーディオ機器13,ナビゲーション機器14及び通話装置15のうちの何れか一つ以上又はこれらの全てを制御するIVIシステム等のナビゲーションシステム10を有している。ナビゲーションシステム10は、車両1に乗車したユーザの発した音声による指示に基づいて、車両1に搭載される各種の装置に対する制御要求を受け付ける音声認識装置100を有する。またさらに、ナビゲーションシステム10は、音声認識装置100との間で通信可能な機器制御部11を有する。機器制御部11は、無線又は有線で信号を出力することにより、ディスプレイ12,オーディオ機器13,ナビゲーション機器14及び通話装置15の各々を制御する。なお、ディスプレイ12は、ユーザのタッチ操作によって、オーディオ機器13,ナビゲーション機器14,通話装置15及びその他の車載装置への制御指示を入力することができる入力機能を備えるタッチパネル式のディスプレイである。また、ディスプレイ12は、通話装置15への着信情報、通話装置15を介して会話をしている通話相手の情報、ナビゲーション機器14による案内情報などを、文字情報やアイコンを含む映像として出力することができる。また、オーディオ機器13は、通話装置15に着信があったことを通知する音声、通話装置15を介して会話をしている通話相手の発話音声、ナビゲーション機器による案内情報を示す音声などを出力することができる。
ディスプレイ12及びオーディオ機器13は、情報出力部を構成する。
【0010】
また、車両1は、車載装置として、例えば、室内灯3、エアコン4、ドアウィンドウ5、ルーフウィンドウ6及びバックドア7を有している。ナビゲーションシステム10の機器制御部11は、無線又は有線で信号を出力することにより、室内灯3の電源のON/OFF、エアコン4の電源のON/OFF、ドアウィンドウ5の開閉、ルーフウィンドウ6の開閉及びバックドア7の開閉の各々を制御することができる。また、車両1は、車両1の走行速度を検出する車速センサ2を有している。車速センサ2は、例えば、車両1の車輪の回転速度(車輪速)から、車両1の走行速度を検出する。さらに、車両1は、車両1の周囲の風速を検出する風速センサ8を有している。
なお、ドアウィンドウ5、ルーフウィンドウ6及びバックドア7は、車両1の開口部を構成する。また、エアコン4は、空調装置を構成する。
【0011】
ナビゲーションシステム10の音声認識装置100は、音声取得部101、音声データ変換部102、車両情報取得部103、集音環境推定部104、検出モード設定部105、制御要求特定部106及び通信部107を有する。車両情報取得部103,検出モード設定部105及び制御要求特定部106は、通信部107を介して、機器制御部11とデータ又は信号のやり取りを行うことができる。また、車両情報取得部103は、車速センサ2及び風速センサ8に無線又は有線で接続されている。
車両情報取得部103は、移動体情報取得部を構成する。
【0012】
音声取得部101は、車両1の室内の音声を取得するマイクである。音声データ変換部102は、音声取得部101が取得した音声を音声データに変換する。なお、音声データは、音声に基づくテキストデータである。
【0013】
車両情報取得部103は、車速センサ2,風速センサ8,音声取得部101及び通信部107を介して、車両1の状態情報を取得する。車両1の状態情報とは、車両1の室内の音環境に影響を与える要素に関する情報である。例えば、車両1の状態情報は、車両1の室内の騒音の大きさ、ドアウィンドウ5,ルーフウィンドウ6又はバックドア7の開閉情報、車両1の走行速度、車両1の周囲の風速、オーディオ機器13の設定音量、エアコン4から吹き出される空気の風量等である。車両1の室内の騒音の大きさは、音声取得部101によって検出されるノイズ、すなわち、ユーザの発話による音声以外の音の大きさ(例えば計測値)であり、dB(デシベル)を単位として算出される。また、車両情報取得部103は、通信部107及び機器制御部11を介して、オーディオ機器13の設定音量、エアコン4から吹き出される空気の風量、ドアウィンドウ5,ルーフウィンドウ6又はバックドア7の開閉情報等を、車両1の状態情報として取得する。また、車両情報取得部103は、車両1の室内の騒音の大きさとオーディオ機器13の設定音量とに基づいて、車両1の内部のうち、例えば、室内の騒音レベルを算出し、算出された騒音レベルを車両1の状態情報として取得することもできる。具体的には、車両1の室内の騒音の大きさに応じて割り振られた点数と、オーディオ機器13の設定音量に応じて割り振られた点数とを合計することで、騒音レベルが算出される。騒音レベルは、車両1の車室内に設けられたマイクによる計測値を用いて算出してもよいし、車両1の車体に設けられたマイクや振動センサによる計測値を用いて算出してもよい。
【0014】
集音環境推定部104は、車両情報取得部103によって取得された車両1の状態情報に基づいて、車両1の室内の集音環境を推定する。車両1の室内の集音環境とは、音声認識装置100の音声取得部101がユーザの発した音声が取得される環境である。車両1の室内の集音環境が良好である程、音声取得部101が取得する音声に含まれるノイズ(ユーザの発話による音声以外の音)が少なく、音声認識装置100がユーザの音声による指示を正確に認識できる可能性が高くなる。一方、車両1の室内の集音環境が良好でない程、音声取得部101が取得する音声に含まれるノイズが多く、音声認識装置100がユーザの音声による指示を、誤って特定する、つまり、誤認識してしまう可能性が高くなる。なお、ユーザの音声による指示の認識処理には、制御要求の内容の特定及び/又は制御要求の対象となる操作対象装置の特定処理を含む。
【0015】
検出モード設定部105は、音声データ変換部102が変換した音声データに対応する制御要求を特定するための検出モードを、集音環境推定部104が推定した集音環境に応じて、設定する。具体的には、検出モード設定部105は、検出モードを、集音環境に応じて、後述する自然言語認識に基づく第1検出モード、又は、後述するルールベース認識に基づく第2検出モードのいずれかに設定する。検出モード設定部105によって設定された検出モードの情報は、通信部107及び機器制御部11を介してディスプレイ12及びオーディオ機器13に出力される。すなわち、現在の検出モードが、第1検出モード又は第2検出モードのいずれに設定されているかを示す情報が、ディスプレイ12に映像やテキストを含む画像として表示され、又は、オーディオ機器13により音声によって出力される。また、集音環境の変化によって、検出モード設定部105が検出モードを、第1検出モードから第2検出モードに、又は、第2検出モードから第1検出モードに切り替えた場合、検出モードが変更されたことを示す情報がディスプレイ12又はオーディオ機器13に出力される。
【0016】
制御要求特定部106は、検出モード設定部105によって設定された検出モードに基づいて、音声データ変換部102が変換した音声データを解析し、制御の対象である操作対象装置と、操作対象装置に対する制御要求の内容とを特定する。なお、制御要求特定部106は、操作対象装置及び制御要求を特定する際に参照するための辞書データ及び文脈データを有している。そして、制御要求特定部106は、操作対象装置の情報及び操作対象装置に対する制御要求の内容を、通信部107を介して、機器制御部11に送信する。機器制御部11は、受信した操作対象装置の情報及び操作対象装置に対する制御要求の内容に基づいて、操作対象装置を制御する。
【0017】
次に、音声認識装置100による音声認識方法の手順について、
図2に示すフローチャートを用いて説明する。
まず、ステップS1において、音声認識装置100の音声取得部101は、ユーザが発した音声を取得する。具体的には、音声取得部101は、周波数によってユーザが発話したことを検出し、ユーザの発話が検出された場合に、ユーザが発した音声を含む音声情報を音声認識対象として取得する。このように、音声取得部101が、ユーザが発話している間にのみ音声情報を取得することにより、常に音声情報を取得している場合に比べて、音声認識装置100の制御負荷を減らすことができる。また、音声による指示の開始を示す特定のキーワードが予め決められている場合は、音声取得部101は、ユーザが特定のキーワードを発話した直後から、音声認識対象としての音声情報を取得してもよい。
【0018】
次に、ステップS2において、音声データ変換部102は、取得した音声を、テキストとして認識可能な音声データに変換する。また、ステップS3において、車両情報取得部103が、車両の状態情報を取得する。そして、ステップS4において、集音環境推定部104が車両の状態情報に基づいて、集音環境を推定し、集音環境が良好であるか否かを判定する。
なお、ステップS3の処理は、ステップS1又はステップS2の処理と並行して実行してもよい。ステップS3の処理は、本制御手順のスタート以降、継続的又は周期的に行ってもよい。また、車両情報取得部103は、本制御手順のスタート前から車両の状態情報を継続的又は周期的に取得しており、ステップS3の処理で、予め継続的又は周期的に取得していた状態情報の中から、音声取得後の車両の状態情報を抽出して取得してもよい。
【0019】
ここで、車両の状態情報に基づいて集音環境が良好であるか否かを判定する基準について、
図3を用いて説明する。
集音環境が良好であるか否かは、車両1の状態情報に応じた誤認識レベルによって判定される。誤認識レベルとは、音声認識装置100がユーザの発した音声を正確に認識することができず、正しい制御要求を特定することができない可能性を示す指標である。
図3に示す例では、誤認識レベルを定量的な指標値として表現する。すなわち、誤認識レベルの指標値が高いほど、車両1の室内にノイズが多く、音声データ変換部102が音声を正確に音声データに変換することができないため、ユーザの音声による指示の誤認識の可能性が高くなる。従って、誤認識レベルの指標値が高いほど、集音環境は良好ではない。
図3に示す表では、車両1の状態情報に応じた誤認識レベル(指標値)の加算点数が規定されている。なお、
図3は、誤認識レベルの算出手法の一例を示すものであり、加算点数や加算の事項は、車両特性、音声認識装置の特性等に応じて予め定義することができる。
【0020】
図3に示すように、ルーフウィンドウ6又はドアウィンドウ5が開状態である場合の誤認識レベルの加算点数は1点である。また、エアコンの風量が予め定められた基準風量以上である場合の誤認識レベルの加算点数は2点である。また、ルーフウィンドウ6又はドアウィンドウ5が開状態であって、車両1の走行速度が20km/h以上80km/h未満である場合の誤認識レベルの加算点数は2点である。また、ルーフウィンドウ6又はドアウィンドウ5が開状態であって、車両1の走行速度が80km/h以上である場合の誤認識レベルの加算点数は3点である。さらに、車両1の室内の騒音レベルが予め定められた基準騒音レベル以上である場合の誤認識レベルの加算点数は3点である。
【0021】
集音環境の誤認識レベル(指標値)は、車両1の状態情報に応じて、
図3の表の右側に示す点数を加算することにより算出される。例えば、ルーフウィンドウ6が開状態であり、車速が20km/h以上80km/h未満である場合の誤認識レベルを示す点数は、1点と2点とを加算して3点と算出される。また、ルーフウィンドウ6が開状態であり、エアコン風量が基準風量以上であり、車速が80km/h以上である場合の誤認識レベルを示す点数は、1点と2点と3点とを加算して6点と算出される。
ステップS4において、集音環境推定部104は、誤認識レベルの基準レベルを4点と定め、誤認識レベルが基準レベルである4点未満である場合に集音環境が良好であると判定し、誤認識レベルが4点以上である場合に集音環境が良好でないと判定する。なお、基準レベルの点数は、車両特性、音声認識装置の特性等に応じて予め定義することができる。また、基準レベルの点数は、実験又はシミュレーションに基づいて予め定義することもできる。
【0022】
ステップS4において、集音環境が良好であると判定された場合、ステップS5において、検出モード設定部105は、検出モードを第1検出モードに設定する。そして、ステップS6において、制御要求特定部106は、ステップS2で変換された音声データから、自然言語認識によって、ユーザの指示の内容が読み取り可能か否かを判定する。指示の内容が読み取り可能か否かは、音声データ変換部102によって変換された音声データを、制御要求特定部106が、辞書データ及び文脈データを参照して自然言語認識に基づき解釈し、操作対象装置及び制御要求の内容を特定することができるか否かによって判定する。音声データから指示を読み取ることができない場合は、ステップS12において、音声認識装置100は、ユーザに聞き直しを行う。聞き直しは、ディスプレイ12に表示されるか、又は、オーディオ機器13が音声案内を行うことによって、ユーザに提示される。一方、音声データから指示内容が読み取り可能であった場合、ステップS7において、制御要求特定部106は、操作対象装置及び制御要求を特定する。すなわち、制御要求特定部106は、音声データ変換部102によって変換された音声データを、辞書データ及び文脈データを参照して自然言語認識に基づき解釈し、操作対象装置及び制御要求の内容を特定する。特定された制御要求は、ステップS11において、操作対象装置を制御するために、機器制御部11へ送信され、フローは終了する。
【0023】
ステップS4において、集音環境が良好でないと判定された場合、ステップS8において、検出モード設定部105は、検出モードを第2検出モードに設定する。そして、ステップS9において、ステップS2で変換された音声データが、予め定義された制御要求テキストに一致するか否かを判定し、一致していない場合は、ステップS12において、ユーザに聞き直しを行う。ユーザへの聞き直しとは、音声入力(指示の発話)のやり直しを提案又は要求する処理である。このとき、制御要求特定部106は、ユーザに対して、音声データが制御要求テキストに一致するように指示(音声入力/発話)をやり直すことを案内する案内情報を、通信部107及び機器制御部11を介して、ディスプレイ12又はオーディオ機器13に出力する。
【0024】
一方、音声データが制御要求テキストに一致している場合、ステップS10において、制御要求特定部106は、ルールベース認識に基づく第2検出モードにより、制御要求テキストに対応する操作対象装置及び制御要求を特定する。ステップS11において、特定された制御要求は、操作対象装置を制御するために、機器制御部11へ送信され、フローは終了する。
なお、ルールベース認識における音声データが制御要求テキストに一致しているか否かの判断は、ステップS1において入力された音声に基づく音声データ(テキストデータ)の全部と、制御要求テキストとを比較することによって実行する。音声データの全部とは、発話開始から発話終了までに入力された音声に基づく音声データである。つまり、制御要求特定部は、発話が開始されてから終了するまでの一連の音声に基づく音声データと制御要求テキストとが一致するか否かを判断する。
【0025】
ここで、自然言語認識に基づく第1検出モードと、ルールベース認識に基づく第2検出モードとの違いについて、
図4を用いて説明する。
図4の表に示す例では、制御対象装置がエアコンであり、制御要求の内容が「エアコンの電源をONにしたい」というものである場合、この制御対象装置及び制御要求の内容に対応する制御要求テキストは、「エアコンかけて」であると予め定義されている。
ルールベース認識に基づく第2検出モードでは、ユーザの発した音声に基づく音声データが制御要求テキストに一致すると判定した場合に、操作対象装置及び制御要求を特定する(
図2のステップS10参照)。すなわち、
図4に示す例では、検出モード設定部105が検出モードを第2検出モードに設定した場合には、ユーザが、定義された制御要求テキストに従って「エアコンかけて」と発話した時にのみ、機器制御部11は、エアコン4の電源をONにする。従って、ユーザが制御要求テキストに一致しない発話をした場合、例えば、「エアコンつけて」、「えーと、エアコンかけたい」又は「エアコンかけると寒くなっちゃうよね」と発話した場合は、機器制御部11は、エアコン4の電源をONにせず、OFFの状態を維持する。
【0026】
自然言語認識に基づく第1検出モードでは、ユーザが、制御要求テキストである「エアコンかけて」を発話する場合以外にも、例えば、「エアコンつけて」又は「えーと、エアコンかけたい」と発話した場合には、機器制御部11は、エアコン4の電源をONにする。具体的には、ユーザが「エアコンつけて」と発話した場合、制御要求特定部106は、音声データを「エアコン」と「つけて」とに分節し、辞書データを参照し、「つけて」が「かけて」の類語であると判断して、「エアコンの電源をONにしたい」という制御要求を特定する。なお、第1検出モードで用いる辞書データは、登録された一の単語と、その単語と意味内容が共通する他の単語とを、類語として対応づけて記憶する。また、ユーザが「えーと、エアコンかけたい」と発話した場合は、制御要求特定部106は、「えーと」が間投詞であり、意味を持たない単語であると判断するとともに、「えーと、エアコンかけたい」は、「エアコンかけて」と同じ要求を意味する音声データであると判断する。これによって、制御要求特定部106は、「えーと、エアコンかけたい」という音声データに基づいて「エアコンの電源をONにしたい」という制御要求を特定する。
すなわち、各々の操作対象装置及び制御要求に対応して認識することができる音声データの範囲は、ルールベース認識に基づく第2検出モードの方が、自然言語認識に基づく第1検出モードよりも狭い。すなわち、ルールベース認識に基づく第2検出モードは、制御要求テキストが定義づけられている制御要求のみを特定するので、制御要求の内容を特定することができる音声データの範囲は、定義された制御要求の数に応じて制限される。また、ルールベース認識に基づく第2検出モードは、定義された制御要求テキストと一致する制御要求のみを特定するので、第2検出モードで特定することができる(第2検出モードで入力できる)音声データは制限される。すなわち、検出モードが第2検出モードに設定された場合の音声入力の自由度は、検出モードが第1検出モードに設定された場合よりも低い。従って、第2検出モードの方が第1検出モードよりも、操作対象装置及び制御要求を特定するための条件が厳しい。
言い換えると、各々の操作対象装置及び制御要求に対応して認識することができる音声データの範囲は、自然言語認識に基づく第1検出モードの方が、ルールベース認識に基づく第2検出モードよりも広い。すなわち、第1検出モードの方が第2検出モードよりも、操作対象装置及び制御要求を特定するための条件が緩和されている。
【0027】
一方、ユーザが「エアコンかけると寒くなっちゃうよね」と発話した場合、制御要求特定部106は、単語の組み合わせ及び順序を辞書データ及び文脈データに沿って解析し、「エアコンの電源をONにした場合は、車両の室温が適温を下回るため、エアコンの電源をONにしたくない」というユーザによる音声入力の意味を推測する。従って、制御要求特定部106は、機器制御部11に対して、エアコン4の電源をONにする指示を送信しない。すなわち、ユーザが「エアコンかけると寒くなっちゃうよね」と発話した場合は、検出モードが第1検出モード又は第2検出モードのいずれに設定されていても、エアコン4の電源はOFFの状態に維持され、ONにはならない。
なお、音声認識装置100の制御要求特定部106は、音声データとユーザの実際の指示内容との対応関係のパターンを学習し、辞書データ及び文脈データを定期的に更新することができる。
【0028】
次に、集音環境の誤認識レベルと検出モードとの関係について、
図5及び6を用いて説明する。
図5は、制御対象装置がエアコンであり、制御要求が「エアコンの電源をONにしたい」である場合の、誤認識レベルに対応して設定される検出モードと、各々の検出モードに対応する発話例とを示す表である。
まず、
図5の表の下段では、
図3の表に基づいて算出される誤認識レベルが4以上であり、集音環境が良好ではないと判定される。従って、検出モード設定部105は、検出モードを、ルールベース認識に基づく第2検出モードに設定する(
図2のステップS8参照)。この場合、「エアコンの電源をONにしたい」という制御要求に対応する音声は、前述の通り、予め定められた制御要求テキストと一致する「エアコンかけて」のみである。
【0029】
次に、
図5の表の中段では、
図3の表に基づいて算出される誤認識レベルが2~3であり、集音環境は良好であると判定される。従って、検出モード設定部105は、検出モードを、自然言語認識に基づく第1検出モードに設定する(
図2のステップS5参照)。ただし、誤認識レベルが2~3である場合の第1検出モードでは、後述する誤認識レベルが0~1である場合の第1検出モードに比べて、制御要求に対応して認識することができる音声データの範囲が狭く、音声入力の自由度が小さい。
図5の表の中段に示す第1検出モードの例では、「エアコンの電源をONにしたい」という制御要求に対応する音声は、制御要求テキストに一致する「エアコンかけて」に加えて、「エアコンつけて」又は「A/C(エーシー)かけて」という発話例も含む。
【0030】
さらに、
図5の表の上段では、
図3の表に基づいて算出される誤認識レベルが0~1であり、集音環境はさらに良好であると判定される。従って、検出モード設定部105は、検出モードを、自然言語認識に基づく第1検出モードに設定する(
図2のステップS5参照)。前述の通り、誤認識レベルが0~1である場合の第1検出モードは、誤認識レベルが2~3である場合の第1検出モードに比べて、制御要求に対応して認識することができる音声データの範囲が広く、音声入力の自由度が大きい。
図5の表の上段に示す第1検出モードの例では、「エアコンの電源をONにしたい」という制御要求に対応する音声は、「エアコンかけて」、「エアコンつけて」又は「A/Cかけて」に加えて、「暑いなぁ」又は「もっと涼しくして」という発話例も含む。すなわち、制御要求特定部106は、ユーザが「暑いなぁ」又は「もっと涼しくして」と発話した場合に、「車両1の室内の温度が高いため、室温を低下させるために、エアコンの電源をONにしたい」という制御要求を特定する。このように、音声入力の自由度が大きい第1検出モードが設定された場合、制御要求特定部106は、ユーザの発した音声のみならず、車両1の室内の温度や外気温等の情報も、制御要求を特定するための条件の一部として記憶し、音声データを分析することができる。
【0031】
一方、
図6は、制御対象装置がルーフウィンドウであり、制御要求が「ルーフウィンドウを開けたい」又は「ルーフウィンドウを閉じたい」である場合の、誤認識レベルに対応して設定される検出モードと、各々の検出モードに対応する発話例とを示す表である。
まず、
図6の表の下段では、
図3の表に基づいて算出される誤認識レベルが4以上であり、集音環境が良好ではないと判定される。従って、検出モード設定部105は、検出モードを、ルールベース認識に基づく第2検出モードに設定する(
図2のステップS8参照)。この場合、「ルーフウィンドウを開けたい」という制御要求に対応する音声は、予め定められた制御要求テキストと一致する「サンルーフをあけて」のみである。
【0032】
次に、
図6の表の中段では、
図3の表に基づいて算出される誤認識レベルが2~3であり、集音環境は良好であると判定される。従って、検出モード設定部105は、検出モードを、自然言語認識に基づく第1検出モードに設定する(
図2のステップS5参照)。ただし、
図5の例と同様に、誤認識レベルが2~3である場合の第1検出モードでは、誤認識レベルが0~1である場合の第1検出モードに比べて、制御要求に対応して認識することができる音声データの範囲が狭く、音声入力の自由度が小さい。
図6の表の中段に示す第1検出モードの例では、「ルーフウィンドウを開けたい」という制御要求に対応する音声は、制御要求テキストに一致する「サンルーフをあけて」に加えて、「上の窓あけて」又は「屋根あけて」という発話例も含む。
なお、制御要求特定部106は、車両1の運転中にユーザが発話する「上の窓」又は「屋根」は、「ルーフウィンドウ」を意味しているということを、予め第1検出モードの辞書データに記憶させておいてもよいし、ユーザの発話とユーザの操作との対応関係の履歴を用いた学習機能によって、辞書データ及び文脈データに登録してもよい。
【0033】
さらに、
図6の表の上段では、
図3の表に基づいて算出される誤認識レベルが0~1であり、集音環境はさらに良好であると判定される。従って、検出モード設定部105は、検出モードを、自然言語認識に基づく第1検出モードに設定する(
図2のステップS5参照)。前述の通り、誤認識レベルが0~1である場合の第1検出モードは、誤認識レベルが2~3である場合の第1検出モードに比べて、制御要求に対応して認識することができる音声データの範囲が広く、音声入力の自由度が大きい。
図6の表の上段に示す第1検出モードの例では、「ルーフウィンドウを開けたい」という制御要求に対応する音声は、「サンルーフをあけて」、「上の窓あけて」又は「屋根あけて」に加えて、「星がみたい」という発話例も含む。すなわち、制御要求特定部106は、ユーザが「星がみたい」と発話した場合に、「上空の星空を視認することが可能となるように、ルーフウィンドウを開けたい」という制御要求を特定する。
【0034】
また、
図6の表の上段に示す第1検出モードでは、「ルーフウィンドウを閉じたい」という制御要求に対応する発話例は、「雨がふってきた」である。すなわち、制御要求特定部106は、ユーザが「雨がふってきた」と発話した場合に、「自分や車内が雨で濡れてしまわないように、ルーフウィンドウを閉めたい」という制御要求を特定する。
このように、音声認識の自由度が大きい第1検出モードが設定された場合、制御要求特定部106は、ユーザの発した音声のみならず、時刻情報や気象情報等も制御要求を特定するための条件の一部として記憶し、音声データを分析することができる。
【0035】
以上より、本実施の形態に係る音声認識装置100及び音声認識装置100を用いた音声認識方法は、集音環境に応じて、音声データに対応する制御要求を特定するための検出モードを設定し、設定された検出モードに基づいて操作対象装置と制御要求とを特定する。従って、ノイズが多い集音環境であっても、集音環境に適した検出モードが設定されるため、音声認識装置100は、音声に基づく制御要求の特定に係る誤認識を防止することができる。
【0036】
また、音声認識装置100は、集音環境に応じて、検出モードを、自然言語認識によって音声データを解析する第1検出モード、又は、自然言語認識とは異なる手法の音声認識によって音声データを解析する第2検出モードのいずれかに設定することができる。また、各々の操作対象装置及び制御要求に対応して認識することができる音声データの範囲は、第2検出モードの方が、第1検出モードよりも狭く、限定的である。従って、音声認識装置100は、集音環境に応じて、音声による曖昧な指示(自由度の高い指示)を受け付ける自然言語認識に基づく第1検出モードと、自然言語認識よりも自由度が低いものの、確度の高い音声認識に基づく第2検出モードとを使い分けることができる。よって、音声認識装置100は、音声認識に適した集音環境では、音声認識ができる範囲が広く、入力が許容される音声の自由度が高い第1検出モードを選択することができ、一方で、自然言語認識による音声認識が適していない集音環境では、検出モードとして、高い確度の音声認識が期待できる第2検出モードを選択することができる。これにより、音声認識装置100は、集音環境に関わらず、操作対象装置及び制御要求の特定に関する誤認識を防止することができる。
【0037】
また、検出モードが第2検出モードに設定されている場合に、音声認識装置100は、音声データが、予め定義された制御要求テキストに一致するか否かを判定する。そして、音声認識装置100は、音声データが制御要求テキストに一致すると判定した場合に、制御要求テキストに対応する操作対象装置及び制御要求を特定する。すなわち、第2検出モードは、ルールベース認識によって音声データを解析する検出モードである。従って、自然言語認識による音声認識が適していない、例えばノイズの大きい集音環境では、音声認識装置100は、ルールベース認識によって音声データを解析する第2検出モードを選択することができる。よって、音声認識装置100は、集音環境に応じて、音声認識の確度を向上させ、ユーザの音声による指示の誤認識を防止することができる。
【0038】
また、検出モードが第2検出モードに設定されている場合であって、音声による指示に基づく音声データが制御要求テキストに一致しない場合に、音声認識装置100は、ユーザに対して、音声による指示をやり直すように案内する。これにより、検出モードが第2検出モードに設定されている場合に、音声認識装置100は、ユーザに対して、ルールベース認識が可能な態様で、音声による指示を出すように促すことができる。
【0039】
さらに、音声認識装置100は、車両1の状態情報に基づいて集音環境が良好か否かを判定する。そして、音声認識装置100は、集音環境が良好であると判定した場合は、検出モードを第1検出モードに設定し、集音環境が良好でないと判定した場合は、検出モードを第2検出モードに設定する。これにより、音声認識装置100は、集音環境が良好である場合、すなわち、ノイズが少ない集音環境の場合は、自然言語認識によって曖昧な音声指示も受け付けて、ユーザによる音声指示の意味を推測した上で、操作対象装置及び制御要求を特定することができる。一方、集音環境が良好でない場合、すなわち、ノイズが多い集音環境の場合にも、自然言語認識によって曖昧な音声指示を受け付けてしまうと、指示の内容の誤認識の可能性が高くなる。そのため、集音環境が良好でない場合に、検出モードとして第1検出モードを設定してしまうと、音声認識装置100が、ユーザの意図に反した操作対象装置及び制御要求を特定してしまうおそれがある。従って、音声認識装置100は、集音環境が良好でない場合、すなわち、ノイズが多い集音環境の場合には、ルールベース認識により、予め決められた制御要求テキストに一致する指示のみを受け付ける。これにより、音声認識装置100は、集音環境が良好でない場合において、音声による指示の誤認識を防止することができる。
【0040】
また、音声認識装置100は、車両1の状態情報に基づいて、音声の誤認識の可能性を示す指標値である誤認識レベルを算出する。そして、音声認識装置100は、誤認識レベルが予め定められた基準レベル未満である場合は、検出モードを第1検出モードに設定し、誤認識レベルが基準レベル以上である場合は、検出モードを第2検出モードに設定する。これにより、音声認識装置100は、音声の誤認識の可能性を誤認識レベルとして具体的に算出することができる。さらに、音声認識装置100は、誤認識の可能性が基準より低い場合は、自然言語認識によって曖昧な音声指示を受け付け、誤認識の可能性が基準以上の場合は、ルールベース認識によって予め定義された制御要求テキストに沿った音声指示のみを受け付ける。これにより、音声認識装置100は、音声の誤認識の可能性が高い集音環境での、音声による指示の内容の誤認識を防止することができる。
【0041】
音声認識装置100は、空調装置であるエアコン4から吹き出される空気の風量を状態情報として取得する。エアコン4の風量が多い程、音声取得部101が取得する音声にノイズが混じりやすくなるため、エアコン4から吹き出される空気の風量を状態情報として取得することによって、音声認識装置100は、集音環境をより適切に推定することができる。
【0042】
また、音声認識装置100は、車両1に設けられた開口部であるドアウィンドウ5又はルーフウィンドウ6の開閉状態と、ドアウィンドウ5又はルーフウィンドウ6が開状態である場合における車両1の走行速度を状態情報として取得する。ドアウィンドウ5又はルーフウィンドウ6が開けられた状態で車両1が走行している場合、車両1の走行速度が速い程、風音や対向車の走行音等、外から車両1の室内に入ってくるノイズが大きくなるからである。そのため、ドアウィンドウ5又はルーフウィンドウ6の開閉状態と、車両1の走行速度とを状態情報として取得することにより、音声認識装置100は、集音環境をより適切に推定することができる。
【0043】
さらに、音声認識装置100は、開口部であるドアウィンドウ5、ルーフウィンドウ6又はバックドア7の開閉状態と、ドアウィンドウ5、ルーフウィンドウ6又はバックドア7が開状態である場合における車両1の周囲の風速を状態情報として取得する。ドアウィンドウ5、ルーフウィンドウ6又はバックドア7が開状態にある場合には、車両1の周囲の風速が速い程、車両1の室内に吹き込む風量が多く、ノイズが大きくなるからである。なお、車両1が走行しておらず停止している場合であっても、ドアウィンドウ5、ルーフウィンドウ6又はバックドア7が開状態にあれば、車両1の周囲の風速は、車両1の室内の集音環境に影響を及ぼす。そのため、ドアウィンドウ5、ルーフウィンドウ6又はバックドア7の開閉状態と、車両1の周囲の風速とを状態情報として取得することにより、音声認識装置100は、集音環境をより適切に推定することができる。
なお、車両1が走行中である時は、バックドア7は常に閉状態であるため、音声認識装置100は、ドアウィンドウ5又はルーフウィンドウ6の開閉状態と、車両1の周囲の風速とを状態情報として取得する。
また、車両1が停止している場合には、音声認識装置100は、バックドア7以外のドア(図示せず)の開閉状態も、車両1の状態情報として取得してもよい。
【0044】
また、音声認識装置100は、車両1の室内の騒音レベルを状態情報として取得する。車両1の室内の騒音レベルが高い程、音声取得部101が取得する音声にノイズが混じりやすくなるため、車両1の室内の騒音レベルを状態情報として取得することによって、音声認識装置100は、集音環境をより適切に推定することができる。
【0045】
また、音声認識装置100は、集音環境に応じて検出モードを変更した場合に、検出モードが変更されたことを示す情報を、ディスプレイ12又はオーディオ機器13に出力する。これにより、検出モードが第1検出モードから第2検出モードに変更されたこと、又は、検出モードが第2検出モードから第1検出モードに変更されたことをユーザが確実に確認することができ、ユーザは、検出モードに合わせた音声指示を出しやすくなる。
【0046】
また、音声認識装置100は、音声認識の手法として自然言語認識又はルールベース認識のいずれを用いるかの区別に関わらずに、集音環境に応じて、第1検出モード又は第2検出モードを設定してもよい。例えば、第1検出モード及び第2検出モードは、いずれも、自然言語認識に基づく検出モードであってもよい。この場合も、各々の操作対象装置及び制御要求に対応して認識することができる音声データの範囲は、第2検出モードの方が、第1検出モードよりも狭くなるように設定される。具体的には、音声認識装置100は、
図5又は
図6の上段の例に示す検出モードを第1検出モードとして設定する一方で、
図5又は
図6の中段の例に示す検出モードを第2検出モードとして設定してもよい。これにより、音声認識装置100は、常に、音声入力の自由度が高い自然言語認識によって音声データの分析を行うことができるとともに、集音環境に応じて、音声認識することができる音声データの範囲、すなわち音声入力の自由度を適宜変えることができる。そのため、音声認識装置100は、音声入力の自由度を高めるとともに、音声による指示の誤認識を防止することができる。
【0047】
なお、本実施の形態では、車両1に設けられた音声認識装置100が、
図2に示す音声認識方法のうち、ステップS1~S12の全ての処理を実行しているが、これに限定されず、一部の処理を、音声認識装置100と通信可能なサーバが行っていてもよい。
【0048】
また、移動体は車両に限定されず、電車又は飛行機であってもよい。
【0049】
上記の車両1は、本発明に係る移動体に相当する。上記のエアコン4は、本発明に係る空調装置に相当する。上記のドアウィンドウ5、ルーフウィンドウ6及びバックドア7は、本発明に係る開口部に相当する。上記のディスプレイ12及びオーディオ機器13は、本発明に係る情報出力部に相当する。上記の車両情報取得部103は、本発明の移動体情報取得部に相当する。
【符号の説明】
【0050】
1…車両(移動体)
4…エアコン(空調装置)
5…ドアウィンドウ(開口部)
6…ルーフウィンドウ(開口部)
7…バックドア(開口部)
12…ディスプレイ(情報出力部)
13…オーディオ機器(情報出力部)
100…音声認識装置
101…音声取得部
102…音声データ変換部
103…車両情報取得部(移動体情報取得部)
104…集音環境推定部
105…検出モード設定部
106…制御要求特定部