(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【0005】
本発明の1つの目的は、音声認識の精度を向上可能な音声認識方法及び音声認識装置を提供することにある。本発明の他の目的は、以下に例示する態様及び好ましい実施形態、並びに添付の図面を参照することによって、当業者に明らかになるであろう。
【0006】
以下に、本発明の概要を容易に理解するために、本発明に従う態様を例示する。
【0007】
本願発明によれば、音声認識装置であって、
口の開きの有無に基づき、第1のトリガー信号を生成するとともに、目の向きの変化の有無及び/又は顔の向きの変化の有無とに基づき、第2のトリガー信号を生成するトリガー生成部と、
認識用の認識トリガー信号に応じて、音信号を取り込み、取り込まれた前記音信号の音声認識を開始する音声認識部と、
を備え、
前記トリガー生成部は、前記口の開きの有無が有りであった時点から前記第1のトリガー信号を生成し、前記目の向きの変化の有無及び/又は前記顔の向きの変化の有無の何れかが有りであった時点から前記第2のトリガー信号を生成し、
前記音声認識部は、前記トリガー生成部が前記第2のトリガー信号を生成しないで前記第1のトリガー信号を生成する時、前記第1のトリガー信号をそのまま前記認識トリガー信号として利用し、
前記音声認識部は、前記トリガー生成部が前記第1のトリガー信号を生成するとともに前記第2のトリガー信号を生成する時、前記第2のトリガー信号をそのまま前記認識トリガー信号として利用し、
前記音声認識部は、前記第1のトリガー信号又は前記第2のトリガー信号による前記音声認識の結果がエラーを示す時、
前記口の開きの有無が有りであった時点から所定期間だけ遡って生成される前記第1のトリガー信号を前記認識トリガー信号として利用することを特徴とする音声認識装置が提供される。
本願発明によれば、音声認識方法であって、
口の開きの有無が有りであった時点で、第1のトリガー信号を生成すること、
前記第1のトリガー信号を生成した後に、前記口の開きの有無が有りであった前記時点から遡る所定期間内に、目の向きの変化の有無及び/又は顔の向きの変化の有無の何れかが有りであった時点で第2のトリガー信号を生成すること、及び
前記第2のトリガー信号が生成されない時には前記第1のトリガー信号に応じて音信号を取り込む一方、前記第2のトリガー信号が生成される時には前記第2のトリガー信号に応じて前記音信号を取り込み、取り込まれた前記音信号の音声認識を開始すること、
を含み、
前記第1のトリガー信号又は前記第2のトリガー信号による前記音声認識の結果がエラーを示す時に、前記口の開きの有無が有りであった時点から前記所定期間だけ遡った時点で、修正された第1のトリガー信号を生成し、
前記修正された第1のトリガー信号が生成される時には前記修正された第1のトリガー信号に応じて前記音信号を取り込み、取り込まれた前記音信号の音声認識を再度開始することを特徴とする音声認識方法が提供される。
【0008】
本発明者は、人によっては口の開きを伴わないで発話することを認識した。
本願発明によれば、トリガー生成部は、口の開きが有る前の所定期間だけ遡ってトリガー信号を生成するか、或いは、口の開きだけでなく、目の向きの変化及び/又は顔の向きの変化に基づきトリガー信号を生成する。このようなトリガー信号によれば、口の開きを伴った音声の前の口の開きを伴わない音声を取り込み、その取り込んだ音声を含んで、音声認識を実行することができる。これにより、音声認識の精度を向上させることができる。
【0009】
また、音信号中の音声認識を開始する期間を定めるトリガー信号を利用することで、すべての期間の音信号に対して音声認識を実行する必要がない。言い換えれば、トリガー信号によって切り出される音信号だけに対して音声認識を実行すればよい。従って、音声認識を実行する時の処理を軽減させることができる。
【0011】
音声認識の結果がエラーを示す時、音声認識部がトリガー信号を修正するので、音声認識の結果がエラーを示さない時、音声認識部は、修正されないトリガー信号(即ち、口の開きの有無だけ)を用いて音声認識を早期に実行又は完了することができる。
【0013】
音声認識の結果がエラーを示さない時、音声認識部は、修正されないトリガー信号(即ち、口の開きの有無だけ)を用いて音声認識を早期に実行又は完了することができる。
【0015】
一般に、人が、例えば日本語の「ラ」,「リ」,「ル」等の日本語の子音、例えば英語の「b」,「c」,「d」等の英語の子音等を含む任意の言語の子音を発話する時の口の開きは、母音を発生する時の口の開きよりも小さい。また、人によっては、口の開きが小さい。従って、口の動きに基づき音声認識を実行すると、口の動きを伴わない音声を認識することができない。本発明者は、人が発話を開始する前に目、顔、眉等の口以外の顔器官が動くことを認識し、音声認識方法におけるトリガー信号の生成過程において、口(第1の顔器官)以外の顔器官(第2の顔器官)の動きを考慮することを発明した。
【0016】
本願発明によれば、口(第1の顔器官)の動きだけでは認識できなかった音声を口以外の他の顔器官(第2の顔器官)の動きに基づくトリガー信号を生成することができる。従って、このトリガー信号によれば、口の動きを伴わない期間の音声も認識することができ、音声の認識率(音声認識の精度)を向上させることができる。
【0017】
また、音信号中の音声認識を開始する期間を定めるトリガー信号を利用することで、すべての期間の音信号に対して音声認識を実行する必要がない。言い換えれば、トリガー信号によって切り出される音信号だけに対して音声認識を実行すればよい。従って、音声認識を実行する時の処理を軽減させることができる。
【0019】
本発明者は、顔器官の動きの中でも目の動きに伴って人が発話する可能性が高いことを認識した。また、本発明者は、顔器官の動きの中でも顔の動きに伴って人が発話することを認識した。目の動き及び又は顔の動きでトリガー信号を生成することで、音声認識の精度をさらに向上させることができる。
【0021】
本発明者は、特定の物に人が一瞬注視する時、また、他人の声を人が聞く時、その人の目の向きの変化及び顔の向きの変化が生じ易く、このようなタイミングで人が発話する可能性が高いことを認識した。このような人の一般的な行動特性を利用しながらトリガー信号を生成することで、音声認識の精度をより一層向上させることができる。
【0023】
本発明者は、人によっては口の動きを伴わないで発話することを認識した。
本願発明によれば、口の動きの有無が有りであった時から所定期間だけ遡ってトリガー信号を生成することができる。従って、口の動きを伴った音声の前の口の動きを伴わない音声を取り込み、その取り込んだ音声を含んで、音声認識を実行することができる。これにより、音声認識の精度を向上させることができる。
【0024】
また、音信号中の音声認識を開始する期間を定めるトリガー信号を利用することで、すべての期間の音信号に対して音声認識を実行する必要がない。言い換えれば、トリガー信号によって切り出される音信号だけに対して音声認識を実行すればよい。従って、音声認識を実行する時の処理を軽減させることができる。
【0026】
音声認識の結果がエラーを示さない時、音声認識方法は、修正されないトリガー信号(即ち、口の開きの有無だけ)を用いて音声認識を早期に実行又は完了することができる。
【0028】
音声認識の結果がエラーを示さない時、音声認識方法は、修正されないトリガー信号(即ち、口の開きの有無だけ)を用いて音声認識を早期に実行又は完了することができる。
【0029】
当業者は、例示した本発明に従う態様が、本発明の精神を逸脱することなく、さらに変更され得ることを容易に理解できるであろう。
【発明を実施するための形態】
【0031】
以下に説明する最良の実施形態は、本発明を容易に理解するために用いられている。従って、当業者は、本発明が、以下に説明される実施形態によって不当に限定されないことを留意すべきである。
【0032】
図1は、本発明に従う音声認識方法を実行する音声認識装置の構成例を示す。
図1に示される音声認識装置100は、トリガー信号生成部22及び音声認識部23を備える。例えばマイク11で取得された音信号中の音声認識を開始する期間を定めるトリガー信号が生成される間、トリガー信号生成部22は、例えばカメラ12によって、音信号と同期可能に取得された映像信号を利用する。トリガー信号生成部22は、映像信号中の各画像から口等の顔器官を抽出し、顔器官の動きを認識し、顔器官の動きに基づきトリガー信号を生成する。
【0033】
図1に示される音声認識装置100は、例えば音信号を記憶する音声記憶部21を更に備えることができ、音声認識部23は、音声記憶部21で一時的に記憶された音信号をトリガー信号に基づき所定期間だけ遡って取り込むことができる。但し、音声認識装置100は、音声記憶部21を省略して、音声認識部23は、音声認識部23は、例えばマイク11からの音信号を直接に取り込んでもよい。
【0034】
トリガー信号生成部22及び音声認識部23は、例えば1つのマイコンで構成され、マイコンのRead Only Memory(ROM)は、トリガー信号生成部22及び音声認識部23の各々に処理を実行させるためのプログラム(データ)を格納することができ、マイコンのRandom Access Memory(RAM)には各プログラムを実行するためのデータを記憶することができる。音声記憶部21は、例えばフラッシュメモリで構成される。なお、例えばマイコンのROM及びRAM、並びにフラッシュメモリは、1つの記憶部で構成されてもよく、その記憶部の中で、様々な信号及びデータを記憶してもよい。音声認識装置100は、例えば1つのマイコン及び1つのフラッシュメモリ、並びに入出力インターフェース等を含む1つの電子制御ユニットで構成され、電装品31も、例えば1つの電子制御ユニットで構成される。なお、1つの電子制御ユニットで、電装品31及び音声認識装置100を構成することもできる。
【0035】
図1に示されるトリガー生成部22は、少なくとも口の開きの有無に基づき、トリガー信号を生成する。また、音声認識部23は、トリガー信号に応じて、音信号を取り込み、取り込まれた音信号中の音声認識を開始する。音声記憶部21は、音信号を記憶する。
【0036】
トリガー生成部22が口の開きの有無だけに基づきトリガー信号を生成する時、トリガー生成部22は、口の開きの有無が「有り」であった時点から所定期間だけ遡ってトリガー信号を生成する。或いは、トリガー生成部22が口の開きの有無と目の向きの変化の有無及び/又は顔の向きの変化の有無とに基づきトリガー信号を生成する時、トリガー生成部22は、上記有無の何れかが「有り」であった時点からトリガー信号を生成する。
【0037】
トリガー生成部22は、少なくとも1種類の音声認識方法でトリガー信号を生成することができる。具体的には、予め1種類の音声認識方法を実行可能なプログラムだけが音声認識装置100にインストールされ、トリガー生成部22は、その1種類の音声認識方法でトリガー信号を生成することができる。1種類の音声認識方法は、後述する第1の音声認識方法又は第2の音声認識方法である。或いは、予め2種類の音声認識方法を実行可能なプログラムだけが音声認識装置100にインストールされ、トリガー生成部22は、その2種類の音声認識方法の中から1つの音声認識方法を選択し、選択された音声認識方法でトリガー信号を生成してもよい。1種類の音声認識方法は、後述する第1の音声認識方法及び第2の音声認識方法である。
【0038】
2種類の音声認識方法のうちの第1の音声認識方法は、口の動きの有無に基づき、トリガー信号を生成すること、及びトリガー信号に応じて音信号を取り込み、取り込まれた音信号中の音声認識を開始すること、を含む。トリガー信号は、口の動きの有無が有りであった時から所定期間だけ遡って生成される。2種類の音声認識方法のうちの第2の音声認識方法は、口である第1の顔器官の動きと第1の顔器官(口)と異なる例えば目、顔等である第2の顔器官の動きとに基づき、トリガー信号を生成すること、及びトリガー信号に応じて音信号中の音声認識を開始すること、を含む。
【0039】
図2に示されるように、本発明者は、人によっては口の動きを伴わないで発話することを認識した。本発明によれば、口の動きが有る前の所定期間だけ遡ってトリガー信号を生成するか、或いは、口の動きだけでなく、口以外の他の顔器官の動きにも基づきトリガー信号を生成する。このようなトリガー信号によれば、口の動きを伴った音声の前の口の動きを伴わない音声も取り込むことができ、その取り込んで音声認識を実行することにより、音声認識の精度を向上させることができる。
【0040】
音声認識装置100又はその音声認識装置100に実行される音声認識方法は、様々な機器に利用することができ、例えば車両に搭載されるナビゲーション装置等の電装品31に利用することができる。電装品31は、音声認識装置100によって認識された音声に基づき、様々な制御を実行することができ、例えば、ナビゲーション装置は、運転者の音声で住所検索等の操作を実行することができる。ナビゲーション装置等の電装品31に限定されず、様々な機器で、音声認識装置100又は音声認識装置100で実行される音声認識方法を組み込んで、本発明を利用し、音声認識の精度を向上させることができる。
【0041】
なお、
図1に示される音声認識装置100は、マイク11を備えていないが、音声認識装置100は、例えばマイク11等の音声取得部を組み込んでもよい。同様に、音声認識装置100は、カメラ12を備えていないが、音声認識装置100は、例えばカメラ12等の映像取得部を組み込んでもよい。
【0042】
図2は、
図1に示される音声記憶部31に記憶される音信号に対応するトリガー信号を生成する期間の説明図の1例を示す。
図2にされるように、音声記憶部21に記憶される音信号が波形として表され、
図1に示されるマイク11で取得される音信号は、カメラ12で取得される映像信号と同期している。言い換えれば、音信号の時刻は、映像信号の時刻と一致している。
図2にされるように、音信号は、音声だけでなく、ノイズも含んでいる。
【0043】
図2にされるように、時刻t0で、
図1に示されるトリガー信号生成部22は、映像信号中の口の動き(例えば口の開き)を特定し、以後、時刻t1まで、口の開きが継続していたと判定した。即ち、時刻t0は、口の動きを伴う音声期間の始点を示す時刻であり、時刻t1は、口の動きを伴う音声期間の終点を示す時刻である。トリガー生成部22が口の動きの有無だけに基づきトリガー信号を生成する時、第1の比較例において、トリガー信号(第1のトリガー信号)は、例えば時刻t0まで、ゼロ又はLowを示し、時刻t0から時刻t1まで、1又はHighを示し、時刻t1以降、ゼロ又はLowを示す。
【0044】
しかしながら、人によっては、口の開きが小さく、
図2に示されるように、口の動きを伴わないで発話することもある。即ち、トリガー生成部22で口の動きを特定できないとしても、時刻t0よりも前に口の動きを伴わない音声期間tsが存在することを本発明者は認識した。第1の比較例におけるトリガー信号(第1のトリガー信号)は、時刻t0から時刻t1までのみ、1又はHighを示すので、このようなトリガー信号(第1のトリガー信号)で時刻t0から時刻t1までの音声信号中の音声を認識しても、音声期間tsに含まれる音声を認識することができない。同様に、時刻t1よりも後に口の動きを伴わない音声期間teが存在する時も、その音声期間teに含まれる音声を認識することができない。従って、第1の比較例におけるトリガー信号(第1のトリガー信号)では、音声認識の精度が低下してしまう。
【0045】
そこで、本発明に従う第1の音声認識方法では、トリガー信号(修正される第1のトリガー信号)は、口の動きの有無が「有り」であった時刻t0から所定期間だけ遡って生成される。所定期間は、音声期間tsを含むように設定され、所定期間は、例えば2[sec]〜3[sec]である。即ち、時刻t0から時刻t1までに口の動きの有無が「有り」である時、時刻t0の例えば2,3秒前から、1又はHighを示すトリガー信号(修正される第1のトリガー信号)が生成される。同様に、口の動きの有無が「有り」であった時刻t1から所定期間だけ遅れる時にゼロ又はLowを示すトリガー信号(修正される第1のトリガー信号)が生成されてもよく、即ち、時刻t0の例えば2,3秒前から時刻t1の例えば2,3秒後まで、1又はHighを示すトリガー信号(修正される第1のトリガー信号)が生成されてもよい。少なくとも、時刻t0の例えば2,3秒前からの音声信号を取り込み、取り込まれた音信号中の音声認識を開始することで、音声期間tsの子音(例えば日本語の「ラ」、英語の「b」等)等の音素を認識することができ、第1の音声認識方法におけるトリガー信号(修正される第1のトリガー信号)では、音声認識の精度が向上する。同様に、時刻t1の例えば2,3秒後までの音声信号を取り込み、取り込まれた音信号中の音声認識を終了する。
【0046】
また、本発明に従う第2の音声認識方法では、トリガー信号(第2のトリガー信号)の1又はHighを示す期間が音声期間tsを含むように、トリガー信号(第2のトリガー信号)が生成される。即ち、口の動きの有無が「無し」であった音声期間ts内に、口以外の顔器官である例えば目の動きの有無が「有り」であった時、生成されたトリガー信号(第2のトリガー信号)は、1又はHighを示す。同様に、トリガー信号(第2のトリガー信号)の1又はHighを示す期間が音声期間teを含むように、トリガー信号(第2のトリガー信号)が生成されてもよい。音声期間te内に例えば目の動きの有無が「有り」であった時、生成されたトリガー信号(第2のトリガー信号)は、1又はHighを示す。目の動きの有無だけでなく、顔の動きの有無も考慮されてもよく、或いは、目の動きの有無の代わりに、顔の動きの有無が考慮されてもよい。口である第1の顔器官の動きと第1の顔器官(口)と異なる例えば目、顔等である第2の顔器官の動きとに基づき、トリガー信号(第2のトリガー信号)を生成することで、音声認識部23は、音声期間ts,teの子音等の音素を認識することができ、第2の音声認識方法におけるトリガー信号(第2のトリガー信号)でも、音声認識の精度が向上する。
【0047】
なお、例えば特許文献1の音声認識回路のような第2の比較例は、特定の期間の音信号ではなく、すべての期間の音信号に対して音声認識を実行することもできる。
【0048】
第1の音声認識方法又は第2音声認識方法では、音信号中の音声認識を開始する期間を定めるトリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)を利用することで、すべての期間の音信号に対して音声認識が実行される必要がない。言い換えれば、トリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)によって切り出される音信号だけに対して音声認識を実行すればよい。従って、第1の音声認識方法又は第2音声認識方法では、音声認識を実行する時の処理を軽減させることができる。
【0049】
図3は、顔器官の動きを特定する特徴点の説明図の1例を示す。
図1に示されるカメラ12は、運転者等の人の顔を映すように設置され、例えば車室内のインナーミラー、サンバイザー、インストルメントパネル、ルーフライニング等に設置される。従って、運転者が運転席に正面(車両の前進方向)を向いて座った時に、カメラ12は、運転者の顔を捕らえることができる。
図3を参照するに、カメラ12は、顔の正面を捕らえている。
図1に示されるトリガー信号生成部22は、
図3に示されるような顔の特徴点Pを画像認識することができる。具体的には、トリガー信号生成部22(画像認識部)は、映像信号中の各フレーム(画像)に対して人の顔領域の切出しを行う。
図3を参照するに、トリガー信号生成部22は、顔器官として、例えば口領域、目領域及び眉領域を抽出し、口領域、目領域及び眉領域の特徴点として、それぞれ、特徴点P11,P12,P13,P14、特徴点P21、P22、P23、P24、P25、P31、P32、P34、P35及び特徴点P41、P42、P43、P44、P45、P51、P52、P54、P55を抽出する。
【0050】
トリガー信号生成部22は、例えば4個の特徴点P11,P12,P13,P14から口の動きを特定し、具体的には、口の開きの有無を判定する。口の開きの有無が「有り」である時、トリガー信号(第2のトリガー信号)は、1又はHighを示す。なお、口の開きの有無だけで、トリガー信号(修正された第1のトリガー信号)を生成する時、トリガー信号(修正されない第1のトリガー信号)が「0又はLow」から「1又はHigh」に変化した時点から例えば2,3秒前から、(修正された第1のトリガー信号)は、「1又はHigh」を示す。
【0051】
また、トリガー信号生成部22は、口の動きだけでなく、目の動きも考慮する時、トリガー信号生成部22は、例えば10個の特徴点P21、P22、P23、P24、P25、P31、P32、P34、P35から目の動きを特定し、具体的には、目の向きの変化の有無を判定する。口の開きの有無及び目の向きの変化の有無の少なくとも1つが「有り」である時、トリガー信号(第2のトリガー信号)は、1又はHighを示す。
【0052】
トリガー信号生成部22は、眉の動きの有無、眉の移動の有無を判定してもよいが、眉の移動の有無よりも、目の向きの変化の有無に基づきトリガー信号(第2のトリガー信号)を生成した方が、口の動きを伴わない音声を取り込む確率が高くなる。
【0053】
加えて、トリガー信号生成部22は、例えば顔領域中の口領域及び目領域の位置に基づき、顔の動きを特定し、具体的には、顔の向きの変化の有無を判定することができる。顔の向きの変化の有無は、目の向きの変化の有無と同様に、口の動きを伴わない音声を取り込む確率が高くなる。口の開きの有無及び顔の向きの変化の有無の少なくとも1つが「有り」である時、トリガー信号(第2のトリガー信号)は、1又はHighを示す。或いは、口の開きの有無、目の向きの変化の有無及び顔の向きの変化の有無の少なくとも1つが「有り」である時、トリガー信号(第2のトリガー信号)は、1又はHighを示す。
【0054】
このようにしてトリガー生成部22がトリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)を生成し、且つトリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)が1又はHighを示す期間の音信号が音声認識部23によって音声認識される時、音声中の音素を例えば音響モデルで認識する精度が向上する。その後、音声認識部23は、認識された音素から例えば言語モデルで単語又は文章を特定し、文字データを例えば電装品31に送信することができる。電装品31は、文字データが特定の制御コマンドに一致するか否かを判定し、運転者等の人は、例えば電装品31を音声で操作することができる。
【0055】
図4は、本発明に従う音声認識方法を実行する音声認識装置である電装品の構成例を示す。
図4に示される電装品31は、
図1の音声認識装置100と同様に、トリガー信号生成部22及び音声認識部23を備える。また、
図4に示される電装品31は、
図1の音声認識装置100及び
図1のマイク11を組み込む
図1の電装品31の変形例に相当する。
【0056】
図4に示されるように、
図4のカメラ12は、画像記憶部13を有し、画像記憶部13は、マイク11からの音信号と同期可能な映像信号を記憶することができる。なお、カメラ12が起動している間、画像記憶部13は、カメラ12で取得される映像信号を常に記憶することができ、画像記憶部13に記憶される映像信号は、複数のフレーム(画像)を含んでいる。
【0057】
図4の電装品31は、マイク11を備えることができ、また、
図4の電装品31は、例えば操作部24、処理部25、センサ部26、表示部27及び情報記憶部28を備えることができる。但し、
図4の電装品31は、
図1の音声認識装置100と同様に、マイク11を備えなくてもよい。また、
図4の電装品31は、操作部24、処理部25、センサ部26、表示部27及び情報記憶部28の一部又は全部を備えなくてもよい。
【0058】
図4の音声認識部23は、
図1の音声認識部23と同様に、トリガー信号(修正された第1のトリガー信号又は第2のトリガー信号)を利用することができるとともに、修正されない第1のトリガー信号を利用してもよい。音声認識部23の動作例については、後述する。
【0059】
図5は、
図4の電装品31の動作例を表すフローチャートを示す。
図5において、スタートは、例えば、電装品31がONされた時を表す。
図4の電装品31は、例えばナビゲーション装置であり、
図4の操作部24は、例えば運転者である人(ユーザ)からの操作情報を入力し、その操作情報を音声記憶部21に出力することができる。具体的には、操作部24は、例えば発話ボタンであり、音声記憶部21は、発話ボタンが押されたか否かを判定することができる(
図5のステップS1)。
【0060】
例えば運転者がある目的地まで車両を運転したい時、運転者はナビゲーション装置である電装品31にその目的地を設定する必要がある。運転者が運転者の音声でその目的地の住所検索等の操作を実行する時、運転者は発話ボタンである操作部24を押すことができる。発話ボタンが押された後に、音声記憶部21は、運転者の音声を記憶することができる(
図5のステップS2)。但し、音声記憶部21は、操作部24からの操作情報と無関係に、音声の記憶を開始してもよい。即ち、電装品31は、操作部24を備えなくてもよく、電装品31が起動する時、音声記憶部21は、操作部24からの操作情報と無関係に、音声の記憶を開始してもよい。
【0061】
例えば
図4のカメラ12が起動する時、カメラ12の画像記憶部13は、複数のフレーム(画像)で構成される映像信号の記憶を開始することができる。但し、例えば電装品31からの起動信号を入力する時、画像記憶部13は、映像信号(複数の画像)の記憶を開始してもよい。
図4のトリガー信号生成部22は、映像信号中の各画像から口等の顔器官を抽出し、顔器官の動きを認識し、顔器官の動きに基づき例えば第1及び第2のトリガー信号を生成する。
【0062】
トリガー生成部22は、少なくとも口の開きの有無を抽出し、口の開きの有無が「有り」であった時点からに1又はHighを示す第1のトリガー信号を生成し、第1のトリガー信号を音声認識部23に出力する。また、トリガー生成部22は、例えば目及び/又は顔の向きの変化の有無を抽出してもよい。トリガー生成部22は、例えば目の向きの変化の有無が「有り」であった瞬間だけに1又はHighを示す第2のトリガー信号を生成し、第2のトリガー信号を音声認識部23に出力する。
【0063】
図4の音声認識部23は、第1のトリガー信号を入力し、口の開きの有無の状態が「無し」から「有り」に変化するまで待つ(
図5のステップS3)。音声認識部23は、第2のトリガー信号も入力し、口の開きの有無の状態が「無し」から「有り」に変化する時点(例えば
図2の時刻t0)の前に、例えば目の向きの変化の有無が「有り」であった瞬間が存在していたか否かを判定する(
図5のステップS4)。
【0064】
口の開きの有無の状態が「無し」から「有り」に変化する時点(例えば
図2の時刻t0)の前に、例えば目の向きの変化の有無が「有り」であった瞬間が存在していない時、即ち、例えば目の向きの変化の有無の状態が「有り」を示す前に、口の開きの有無の状態が「有り」を示す時、音声認識部23は、口の開きの有無(例えば
図2の時刻t0から時刻t1まで)に応じて音声認識を開始する(
図5のステップS5)。
【0065】
口の開きの有無の状態が「無し」から「有り」に変化する時点(例えば
図2の時刻t0)の前に、例えば目の向きの変化の有無が「有り」であった瞬間が存在している時、即ち、口の開きの有無の状態が「有り」を示す前に、例えば目の向きの変化の有無の状態が「有り」を示す時、音声認識部23は、例えば目の向きの変化の有無及び口の開きの有無(例えば
図2の時刻t0から音声期間tsだけ前の時刻から少なくとも時刻t1まで)に応じて音声認識を開始する(
図5のステップS6)。
【0066】
音声認識部23の音声認識の結果がエラーを示さない時、即ち音声認識部23が音声中の音素から例えば言語モデルで単語又は文章を特定できる時、その単語又はその文章を
図4の処理部25に出力する。処理部25は、その単語又はその文章に応じて制御コマンド(例えば住所検索)を実行する(
図5のステップS11)。具体的には、処理部25は、例えば言語モデルで特定された単語又は文章に一致する制御コマンドを実行する(
図5のステップS11)。
【0067】
代替的に、音声認識部23の音声認識の結果がエラーを示す時、即ち音声認識部23が音声中の音素から例えば言語モデルで単語又は文章を特定できない時、音声認識部23は、修正される第1のトリガー信号を生成し、音声認識を開始する(
図5のステップS7)。具体的には、音声認識部23は、口の開きの有無の状態が「無し」から「有り」に変化する時点から所定期間だけ遡る時点(例えば
図2の時刻t0の例えば2,3秒前)から、音声認識を開始する(
図5のステップS8)。その後、
図5のステップS9において、音声認識部23の音声認識の結果がエラーを示し続ける時、音声認識部23は、音声中の音素を認識する範囲を拡大させ、その後、認識又は推定される音素から例えば言語モデルで単語又は文章を特定できる(
図5のステップS10)。その後、処理部25は、その単語又はその文章に応じて制御コマンド(例えば住所検索)を実行する(
図5のステップS10)。具体的には、処理部25は、音声中の音素を認識する範囲を拡大させた後に例えば言語モデルで特定された単語又は文章に一致する制御コマンド、即ち、拡大される前の範囲で特定された単語又は文章に類似する制御コマンドを実行する(
図5のステップS11)。
【0068】
なお、
図4の音声認識部23は、第2のトリガー信号を利用しなくてもよく、第1のトリガー信号だけを利用してもよい。また、第1のトリガー信号を利用した後に、音声認識部23の音声認識の結果がエラーを示す時、
図4の音声認識部23は、修正される第1のトリガー信号だけを利用してもよい。
【0069】
図4のセンサ部26は、例えば車両の位置を取得するGPSセンサであり、
図5の処理部25は、車両の位置から例えば設定された目的地までのルートを算出することができる。
図4の情報記憶部28は、処理部25によって利用される情報として、例えば地図情報を記憶し、処理部25は、例えば算出したルート及び車両の位置に基づき車両の位置の周辺の周辺地図情報を情報記憶部28から取得し、表示部27に表示することができる。なお、表示部27は、例えばタッチパネル式のディスプレイであり、運転者が表示部27(タッチパネル式のディスプレイ)を触ることで、運転者は、電装品31(ナビゲーション装置)を操作することができる。即ち、表示部27は、第2の操作部の機能を有してもよく、表示部27(タッチパネル式のディスプレイ)は、操作情報を入力し、その操作情報を処理部25に出力することができる。これにより、処理部25は、運転者の例えば指による第2の操作部への操作を入力し、例えば住所検索等の操作を実行してもよい。
【0070】
本発明は、上述の例示的な実施形態に限定されず、また、当業者は、上述の例示的な実施形態を特許請求の範囲に含まれる範囲まで、容易に変更することができるであろう。