(58)【調査した分野】(Int.Cl.,DB名)
上記第2音声認識部は、上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識した場合、または、認識処理の開始から所定時間が経過した場合に、認識処理を停止することを特徴とする請求項1に記載の音声認識装置。
上記第1音声認識部は、上記類似度を表す指標として距離値を算出し、当該算出した距離値が第1の閾値より小さくなった時点で、上記外部入力音声が上記認識対象ワードの前半部分に相当すると認識し、引き続き算出した距離値が第2の閾値より小さくなった時点で、上記外部入力音声が上記認識対象ワードの全体に相当すると認識し、
上記第2音声認識部は、上記第1音声認識部により算出された距離値が上記第1の閾値より小さくなった時点で認識処理を開始した後、上記類似度を表す指標として距離値を算出し、当該算出した距離値が所定の閾値より小さくなった場合に、上記内部発生音声が上記認識対象ワードの後半部分に相当すると認識することを特徴とする請求項1または2に記載の音声認識装置。
【発明を実施するための形態】
【0014】
以下、本発明の一実施形態を図面に基づいて説明する。
図1は、本実施形態に係る音声認識装置100の機能構成例を示すブロック図を、車両に設けられたマイク200、ナビゲーション装置300、オーディオ装置400、カメラシステム500、表示装置600、および音声出力装置700と共に示す図である。本実施形態に係る音声認識装置100は、車両の車内に設けられたマイク200より入力される乗員の発話音声(特定の単語や熟語、簡単な命令文などのワード)を発話コマンドとして認識し、認識結果に基づいてナビゲーション装置300を制御するものである。なお、ここでは音声認識装置100の制御対象の電子機器をナビゲーション装置300としているが、オーディオ装置400、エアコンディショナ、その他の電子機器であってもよい。
【0015】
マイク200は、収音装置であり、車両に搭乗する搭乗者の発話音声を収音可能な位置に設けられる。マイク200は、収音した音声に基づく音声信号を、後述する第1音声認識部10に出力する。以下、マイク200が収音する音声を「外部入力音声」といい、マイク200が第1音声認識部10に出力する音声信号を「外部入力音声信号」という。
【0016】
ナビゲーション装置300には、表示装置600と、カメラシステム500とが接続される。表示装置600は、液晶表示パネル等の画像が表示可能な装置であり、例えば、ダッシュボードの中央部に設けられる。カメラシステム500は、車両の前方を撮影するフロントカメラ、および、車両の後方を撮影するリアカメラを備え、ナビゲーション装置300からの要求に応じて、いずれか一方のカメラの撮影結果をナビゲーション装置300に出力する。
【0017】
ナビゲーション装置300は、車両の位置を検出する機能や、表示装置600に地図を表示して地図上に車両の位置を表示する機能、目的地までの経路を探索する機能、表示装置600に地図を表示して地図上に目的地までの経路を描画して当該経路を案内する機能を備える。また、ナビゲーション装置300は、ユーザの指示に応じて、フロントカメラの撮影結果を示す画像、または、リアカメラの撮影結果を示す画像を、表示装置600に表示する機能を備える。
【0018】
音声出力装置700は、D/Aコンバータや、ボリューム、アンプ、スピーカ等を備え、入力された音声信号をD/A変換し、増幅した後、スピーカにより音声出力する。オーディオ装置400は、メディア(CD、DVD、MD等)に記録された音声データや、メモリー(オーディオ装置400に搭載された内部メモリーであってもよく、当該装置に接続された外部メモリーであってもよい)に記憶された音声データに基づいて、音声信号を生成し、音声出力装置700に出力する。なお、オーディオ装置400は、音声出力装置700に音声信号を出力し、車内に音声を放音する装置であればよく、例えば、ラジオ受信装置であってもよい。
図1に示すように、オーディオ装置400が出力する音声信号は、分岐されて、後述する第2音声認識部12に出力される。以下、第2音声認識部12が入力する音声信号を「内部発生音声信号」といい、この内部発生音声信号に基づく音声を内部発生音声という。内部発生音声は、車載機の1つであるオーディオ装置400で発生されスピーカから出力される前の音声である。
【0019】
図1に示すように、本実施形態に係る音声認識装置100は、その機能構成として、第1音声認識部10、電子機器制御部11、第2音声認識部12および認識結果破棄部13を備えている。また、音声認識装置100は、記憶媒体として、辞書記憶部20を備えている。
【0020】
なお、上記各機能ブロック10〜13は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック10〜13は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
【0021】
辞書記憶部20は、第1音声認識辞書20Aおよび第2音声認識辞書20Bを記憶する。以下、認識対象ワードについて説明した後、第1音声認識辞書20Aおよび第2音声認識辞書20Bについて説明する。
【0022】
図2は、本実施形態における認識対象ワードの一覧例である。なお、
図2で例示した認識対象ワードはあくまで一例であり、他の認識対象ワードが存在してもよいことは勿論である。
図2に示すように、本実施形態では、認識対象ワードとして、9個の認識対象ワードが用意されている。従って、搭乗者が、9個の認識対象ワードのうち、いずれかの認識対象ワードに対応する文言を発話した場合、音声認識装置100は、発話音声を認識対象ワードと認識し、認識対象ワードに対応する処理をナビゲーション装置300に実行させる。また、9個の認識対象ワードのそれぞれには、番号A1〜番号A9の識別情報が割り振られている。
【0023】
認識対象ワードのそれぞれについて、各ワードに相当する文言が発話された場合に、音声認識装置100がナビゲーション装置300に実行させる処理について簡単に説明すると、番号A1の認識対象ワードは、車両の現在位置の近くにあるコンビニエンスストアを探索する処理を実行するためのワードである。また、番号A2の認識対象ワードは、車両の現在位置の近くにあるガソリンスタンドを探索する処理を実行するためのワードである。番号A3の認識対象ワードは、目的地までの経路を案内する処理を実行するためのワードである。番号A4の認識対象ワードは、事前に登録された自宅までの経路を案内する処理を実行するためのワードである。番号A5の認識対象ワードは、表示装置600に車両の現在位置を中心とした所定スケールの地図を表示する処理を実行するためのワードである。番号A6の認識対象ワードは、表示された地図の縮尺を拡大する処理を実行するためのワードである。番号A7の認識対象ワードは、表示された地図の縮尺を縮小する処理を実行するためのワードである。番号A8の認識対象ワードは、フロントカメラの撮影結果を示す画像を表示装置600に表示する処理を実行するためのワードである。番号A9の認識対象ワードは、リアカメラの撮影結果を示す画像を表示装置600に表示する処理を実行するためのワードである。
【0024】
本実施形態では、認識対象ワードのそれぞれは、事前に、前半部分と、後半部分とに分けられている。
図2では、記号「/」で、各認識対象ワードの前半部分と、後半部分との区切りを示している。例えば、番号A1の認識対象ワードは、文言「近くのコンビニ」からなる認識対象ワードである。そして、番号A1の認識対象ワードは、文言「近くの」と、文言「コンビニ」とに分けられている。また例えば、番号A8の認識対象ワードは、文言「フロントカメラ」からなる認識対象ワードである。そして、番号A8の認識対象ワードは、文言「フロント」と、文言「カメラ」とに分けられている。
【0025】
図3(A)は、第1音声認識辞書20Aが記憶する情報を説明に適した内容で模式的に示す図である。
図3(B)は、第2音声認識辞書20Bが記憶する情報を説明に適した内容で模式的に示す図である。
図3(A)に示すように、第1音声認識辞書20Aには、全ての認識対象ワードのそれぞれ(本実施形態では、上述した9個の認識対象ワードのそれぞれ)について、認識対象ワードの「全体」の音声パターンが登録されている。
【0026】
図3(B)に示すように、第2音声認識辞書20Bには、全ての認識対象ワードのそれぞれについて、認識対象ワードの「後半部分」の音声パターンが登録されている。例えば、番号A1の認識対象ワードについて、第2音声認識辞書20Bには、認識対象ワードの後半部分の文言「コンビニ」の音声パターンが登録されている。
図2に示すように、番号A5、A6、A7の認識対象ワードの後半部分は、「表示」で共通する。これを踏まえ、
図3(B)に示すように、番号A5、A6、A7の認識対象ワードについては、認識対象ワードの「後半部分」の音声パターンとして、文言「表示」の音声パターンが、1つだけ、第2音声認識辞書20Bに登録されている。このことは、後半部分が文言「カメラ」で共通している番号A8、A9の認識対象ワードについても同様である。この結果、本実施形態に係る第2音声認識辞書20Bには、文言「コンビニ」、文言「ガソリンスタンド」、文言「案内」、文言「帰る」、文言「表示」、文言「カメラ」の6個の認識対象ワードの後半部分の音声パターンが登録される。
【0027】
第1音声認識部10は、第1音声認識辞書20Aに登録されている認識対象ワードの全体の音声パターンと、マイク200より入力された外部入力音声との類似度を算出し、当該算出した類似度が所定レベルより大きい場合に、外部入力音声が認識対象ワードの全体に相当すると認識する。より詳細には、第1音声認識部10は、外部入力音声の順次入力と並行して類似度の算出を逐次行い、当該算出した類似度が第1のレベルより大きくなった時点で、外部入力音声が認識対象ワードの前半部分に相当すると認識し、引き続き算出した類似度が第2のレベルより大きくなった時点で、外部入力音声が認識対象ワードの全体に相当すると認識する。
【0028】
本実施形態では、第1音声認識部10は、類似度を表す指標として距離値を算出する。距離値は、値「0」〜値「1000」の範囲で値をとる。第1音声認識部10が算出する1の認識対象ワードに係る距離値は、外部入力音声と、当該1の認識対象ワードの「全体」の音声パターンとが類似するほど、その距離値の値は小さくなる。そして、第1音声認識部10は、算出した距離値が第1閾値T1(>第2閾値T2(後述))より小さくなったことを検出することによって、類似度が第1のレベルより大きくなったことを検出し、その時点で外部入力音声が認識対象ワードの前半部分に相当すると認識する。第1音声認識部10は、算出した距離値が第1閾値T1より小さくなった後、引き続き算出した距離値が第2閾値T2より小さくなったことを検出することによって、類似度が第2のレベルより大きくなったことを検出し、その時点で、外部入力音声が認識対象ワードの全体に相当すると認識する。
【0029】
以下、第1音声認識部10の処理について詳述する。
図4(A)は、ある1の認識対象ワードについて、第1音声認識部10により算出された距離値の推移の一例を示すグラフである。特に、
図4(A)は、距離値が第1閾値T1を下回った後、さらに、第2閾値T2を下回る場合の距離値の推移の一例を示す。
図4(A)のグラフの縦軸は距離値を示し、横軸は時間の経過を示す。第1音声認識部10は、いわゆるトリガレス音声認識を実行し、常時、距離値の算出を実行する。
【0030】
上述したように、マイク200は、収音した音声に基づく外部入力音声信号を第1音声認識部10に出力する。第1音声認識部10は、9個の認識対象ワードのそれぞれについて、外部入力音声の順次入力と並行して、外部入力音声信号の音声波形と、第1音声認識辞書20Aに登録された音声パターン(認識対象ワードの「全体」の音声パターン)との比較に基づく距離値の算出を逐次行う。この結果、
図4(A)に示すように、時間の経過と共に距離値の値が逐次変化する。
【0031】
第1音声認識部10は、距離値が第1閾値T1を上回っている状態の場合、距離値が第1閾値T1を下回った状態へ移行したか否かを監視する。
図4(A)では、タイミングTM1で、距離値が第1閾値T1を上回った状態から、下回った状態へ移行している。第1音声認識部10は、距離値が第1閾値T1を下回った状態へ移行したことを検出した場合、その時点(
図4(A)ではタイミングTM1)で、外部入力音声が認識対象ワードの前半部分に相当すると認識する。
【0032】
ここで、マイク200が、1の認識対象ワードに対応する文言の音声を収音した場合、収音した音声に基づく外部入力音声信号と、当該1の認識対象ワードの音声パターンとの距離値は、徐々に小さくなっていく。より詳細には、収音した音声に基づく外部入力音声信号と、当該1の認識対象ワードの音声パターンとの比較量が多くなるにつれて、外部入力音声信号の音声波形と、当該1の認識対象ワードの音声パターンとの一致率が徐々に高くなり、これに伴って距離値が徐々に小さくなっていき、ある時点で第1閾値T1を下回り、さらにその後の時点で第2閾値T2を下回る。
【0033】
そして、1の認識対象ワードに係る第1閾値T1の値は、マイク200が当該1の認識対象ワードに対応する文言の音声を収音する場合において、当該1の認識対象ワードの「前半部分」に対応する文言の音声が収音され、当該1の認識対象ワードの「前半部分」に対応する外部入力音声に基づく距離値の算出が完了した時点で、その距離値が第1閾値T1に至るような値に設定される。第1閾値T1の値は、認識対象ワードごとに、事前のテストの結果等を踏まえ、適切に設定される。以上のことを踏まえ、第1音声認識部10は、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したことを検出した場合、その時点で、外部入力音声が認識対象ワードの前半部分に相当すると認識する。
【0034】
第1音声認識部10は、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したことを検出した場合、処理開始通知を第2音声認識部12に出力する。
図4(A)で例示するグラフでは、第1音声認識部10は、タイミングTM1で処理開始通知を出力する。処理開始通知については、第2音声認識部12の処理と共に後に説明する。
【0035】
第1音声認識部10は、距離値が第1閾値T1を下回った場合、その時点からの経過時間の計測を開始する。そして、第1音声認識部10は、距離値が第1閾値T1を下回ってからの経過時間として時間J1が経過したか否かを監視しつつ、距離値が第2閾値T2を下回ったか否かを監視する。
【0036】
ここで、第2閾値T2および時間J1の値は、時間J1が経過することなく距離値が第2閾値T2を下回った場合、外部入力音声が、認識対象ワードの全体に相当するとみなすことができ、逆に、距離値が第2閾値T2を下回ることなく時間J1が経過した場合、外部入力音声が、認識対象ワードの全体に相当しないとみなすことができるような値に設定される。第2閾値T2および時間J1は、事前のテストの結果等を踏まえ、第1音声認識辞書20Aに登録された認識対象ワードごとに適切な値とされる。なお、距離値が第2閾値T2を下回ることなく、時間J1が経過した場合、時間J1の経過後、距離値は徐々に大きくなっていき、いずれ、第1閾値T1を上回ることになる。
【0037】
以上のことを踏まえ、距離値が第2閾値T2を下回ることなく時間J1が経過した場合、第1音声認識部10は、距離値が第2閾値T2を下回ったか否かの判定を停止し、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したか否かを監視する。上述したように、時間J1の経過後、距離値は、いずれ第1閾値T1を上回った状態となるため、第1音声認識部10は、距離値が、一旦、第1閾値T1を上回った後、第1閾値T1を上回った状態から下回った状態へ移行したか否かを監視する。なお、本実施形態では、距離値が第2閾値T2を下回ることなく時間J1が経過したことをもって、外部入力音声が、認識対象ワードの全体に相当しないと判定する構成であるが、この点について、距離値が、第1閾値T1を下回った後に、第2閾値T2を下回ることなく、第1閾値T1を上回ったことをもって、外部入力音声が、認識対象ワードの全体に相当しないと判定する構成としてもよい。
【0038】
一方、時間J1が経過する前に距離値が第2閾値T2を下回った場合、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当すると認識する。
図4(A)で例示するグラフでは、第1音声認識部10は、タイミングTM2において、外部入力音声が認識対象ワードの全体に相当すると認識する。なお、距離値が第2閾値T2を下回った場合、距離値は、一旦、第2閾値T2を下回った後、徐々に大きくなっていき、いずれ、第1閾値T1を上回ることになる。
【0039】
上記認識後、第1音声認識部10は、いずれか1つの認識対象ワードについて、外部入力音声が認識対象ワードの全体に相当したと認識したことを通知する第1音声認識通知を認識結果破棄部13に出力する。認識結果破棄部13の処理については後述する。
【0040】
次いで、第1音声認識部10は、認識結果破棄部13から、認識破棄通知または認識確定通知のいずれかを入力したか否かを監視する。認識破棄通知とは、外部入力音声が認識対象ワードの全体に相当したという認識(以下、単に「第1音声認識部10の認識結果」という場合がある)について、認識を破棄することを指示する通知である。認識破棄通知は、後に詳述するが、オーディオ装置400が放音した音声に、偶発的に、認識対象ワードに対応する文言が含まれており、当該音声に基づく外部入力信号を音声処理した結果、第1音声認識部10が外部入力音声が認識対象ワードの全体に相当したと認識した場合に通知される。この場合、搭乗者が、認識対象ワードに対応する文言を発話したわけではないので、第1音声認識部10の認識結果を破棄し、当該認識結果に基づいてナビゲーション装置300の制御が行われないようにする必要がある。また、認識確定通知は、後に詳述するが、第1音声認識部10の認識結果が、オーディオ装置400が放音した音声に対する音声処理の結果に由来するものではなく、搭乗者が発話した音声に対する音声処理の結果に由来する場合に通知される。この場合、ナビゲーション装置300に、認識対象ワードに対応する処理を実行させる必要がある。
【0041】
認識破棄通知を入力した場合、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当したという認識について、認識を破棄する。この場合、マイク200が収音した音声に基づくナビゲーション装置300の制御は行われない。その後、第1音声認識部10は、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したか否かを監視する。上述したように、距離値は、第2閾値T2を下回った後、いずれ第1閾値T1を上回った状態となるため、第1音声認識部10は、距離値が、一旦、第1閾値T1を上回った後、第1閾値T1を上回った状態から下回った状態へ移行したか否かを監視する。
【0042】
一方、認識確定通知を入力した場合、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当したという認識について、認識を確定する。次いで、第1音声認識部10は、外部入力音声が相当したと認識した認識対象ワード(以下、「確定認識対象ワード」という。)を電子機器制御部11に通知する。確定認識対象ワードは、搭乗者が、ナビゲーション装置300に特定の処理を実行させるべく発話した発話コマンドに対応する認識対象ワードである。その後、第1音声認識部10は、距離値が第1閾値T1を上回っている状態から下回った状態へ移行したか否かを監視する。
【0043】
電子機器制御部11は、第1音声認識部10から確定認識対象ワードが通知された場合、通知された確定認識対象ワードに対応する処理をナビゲーション装置300に実行させる制御信号をナビゲーション装置300に出力する。ナビゲーション装置300は、入力した制御信号に基づいて、処理を実行する。
【0044】
第2音声認識部12は、第2音声認識辞書20Bに登録されている認識対象ワードの後半部分の音声パターンと、上述した内部発生音声との類似度を算出し、当該算出した類似度が所定レベルより大きい場合に、内部発生音声が認識対象ワードの後半部分に相当すると認識する。より詳細には、第2音声認識部12は、第1音声認識部10と同様、類似度を表す指標として距離値を算出すると共に、当該算出した距離値が第3閾値T3より小さくなったことを検出することによって、類似度が所定レベルより大きくなったことを検出する。そして、第2音声認識部12は、当該算出した距離値が第3閾値T3より小さくなった場合、内部発生音声が認識対象ワードの後半部分に相当すると認識する。
【0045】
さらに、第2音声認識部12は、第1音声認識部10により算出された距離値が第1閾値T1よりも小さくなった時点(=第1音声認識部10により算出された類似度が第1のレベルよりも大きくなった時点)で、認識処理を開始する。認識処理は、第2音声認識辞書20Bを用いた距離値の算出および算出した距離値を用いた各種処理のことを意味する。また、第2音声認識部12は、認識処理を開始してから時間J2(後述)が経過する前に内部発生音声が認識対象ワードの後半部分に相当すると認識した場合、または、内部発生音声が認識対象ワードの後半部分に相当すると認識することなく時間J2が経過した場合、認識処理を停止する。
【0046】
以下、第2音声認識部12の処理について詳述する。
図4(B)は、ある1の認識対象ワードについて、第2音声認識部12により算出された距離値の推移の一例を示すグラフである。特に、
図4(B)のグラフは、第2音声認識部12が実行する認識処理において、時間J2以内に、距離値が第3閾値T3を下回る場合の距離値の推移を示す。
図4(B)のグラフの縦軸は距離値を示し、横軸は時間の経過を示す。
図4(B)のグラフの横軸の各タイミングは、
図4(A)のグラフの横軸の各タイミングと対応する。
【0047】
以下の説明では、第2音声認識辞書20Bに音声パターンが登録された認識対象ワードの後半部分のことを「後半部分ワード」という。
図3(B)を用いて説明したように、本実施形態では、後半部分ワードは、6個、用意されている。
【0048】
上述したように、オーディオ装置400が音声出力装置700に出力する音声信号は、分岐されて、第2音声認識部12に出力される。また、上述したように、第1音声認識部10は、1の認識対象ワードについての距離値が第1閾値T1を下回ったことを検出した場合、その時点(
図4では、タイミングTM1)で、処理開始通知を第2音声認識部12に出力する。第2音声認識部12は、この処理開始通知を入力するまでは、認識処理(上述したように、第2音声認識辞書20Bを用いた距離値の算出および付随する処理)を実行せず、処理開始通知を入力したか否かを監視する。そして、第2音声認識部12は、処理開始通知を入力すると、認識処理を開始する。この結果、第2音声認識部12は、第1音声認識部10により算出された距離値が第1閾値T1よりも小さくなった時点で、認識処理を開始する。
図4(B)で例示するグラフでは、第2音声認識部12は、タイミングTM1(
図4(A)も併せて参照)で、認識処理を開始する。
【0049】
認識処理において、第2音声認識部12は、6個の後半部分ワードのそれぞれについて、内部発生音声の順次入力と並行して、内部発生音声信号の音声波形と、第2音声認識辞書20Bに登録された音声パターン(認識対象ワードの「後半部分」の音声パターン)との比較に基づく距離値の算出を逐次行う。この結果、
図4(B)に示すように、時間の経過と共に距離値の値が逐次変化する。
【0050】
第2音声認識部12は、認識処理の開始と併せて経過時間の計測を開始する。そして、第2音声認識部12は、認識処理を開始してから時間J2が経過したか否かを監視しつつ、距離値が第3閾値T3を下回ったか否かを監視する。
【0051】
ここで、第3閾値T3および時間J2の値は、時間J2が経過することなく距離値が第3閾値T3を下回った場合、内部発生音声が、後半部分ワード(認識対象ワードの後半部分)に相当するとみなすことができ、逆に、距離値が第3閾値T3を下回ることなく時間J2が経過した場合、内部発生音声が、後半部分ワードに相当しないとみなすことができるような値に設定される。第3閾値T3および時間J2は、事前のテストの結果等を踏まえ、第2音声認識辞書20Bに登録された後半部分ワードごとに適切な値とされる。
【0052】
距離値が第3閾値T3を下回ることなく時間J2が経過した場合、第2音声認識部12は、認識不能通知を認識結果破棄部13に出力する。認識不能通知は、認識処理において内部発生音声を後半部分ワードと認識しなかったことの通知である。認識結果破棄部13の処理については後述する。その後、第2音声認識部12は、認識処理を停止する。認識処理を停止後、第2音声認識部12は、上述した処理開始通知を入力するまでは、認識処理を開始しない。
【0053】
一方、時間J2が経過する前に距離値が第3閾値T3を下回った場合、第2音声認識部12は、内部発生音声が後半部分ワードに相当すると認識する。当該認識後、第2音声認識部12は、第2音声認識通知を認識結果破棄部13に出力する。第2音声認識通知は、内部発生音声が、第2音声認識辞書20Bに登録された後半部分ワードのうち、いずれか1つの後半部分ワードに相当したと認識したことの通知である。認識結果破棄部13の処理については後述する。その後、第2音声認識部12は、認識処理を停止する。認識処理を停止後、第2音声認識部12は、上述した処理開始通知を入力するまでは、認識処理を開始しない。
図4(B)のグラフでは、第2音声認識部12は、タイミングTM3において、第2音声認識通知の出力、および、認識処理の停止を実行する。
【0054】
なお、第1音声認識部10が第1音声認識通知を出力するタイミングと、第2音声認識部12が第2音声認識通知または認識不能通知を出力するタイミングとは、時間的に非常に近接する。また、第1音声認識部10により第1音声認識通知が認識結果破棄部13に出力された場合、必ず、第2音声認識部12により第2音声認識通知または認識不能通知が認識結果破棄部13に出力される。
【0055】
認識結果破棄部13は、第1音声認識部10により外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12により内部発生音声が後半部分ワード(認識対象ワードの後半部分)に相当すると認識された場合、第1音声認識部10による認識結果を破棄する。
【0056】
以下、認識結果破棄部13の処理について詳述する。上述したように、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当すると認識した場合、第1音声認識通知を認識結果破棄部13に出力する。認識結果破棄部13は、第1音声認識部10から、この第1音声認識通知を入力したか否かを監視する。そして、認識結果破棄部13は、第1音声認識通知を入力した場合、当該第1音声認識通知と時間的に近接したタイミングで第2音声認識通知または認識不能通知のいずれかを入力する。
【0057】
認識結果破棄部13は、第2音声認識部12から入力した通知が第2音声認識通知の場合、認識破棄通知を第1音声認識部10に出力する。上述したように、第1音声認識部10は、認識破棄通知を入力した場合、外部入力音声が認識対象ワードの全体に相当したという認識について、認識を破棄する。つまり、認識結果破棄部13は、第2音声認識通知を入力した場合は、第1音声認識部10に認識結果を破棄させる。
【0058】
一方、認識結果破棄部13は、第2音声認識部12から入力した通知が認識不能通知の場合、認識確定通知を第1音声認識部10に出力する。上述したように、第1音声認識部10は、認識確定通知を入力した場合、確定認識対象ワードを電子機器制御部11に通知して、確定認識対象ワードに対応する処理をナビゲーション装置300に実行させる。つまり、認識結果破棄部13は、認識不能通知を入力した場合は、第1音声認識部10の認識結果を確定させて、ナビゲーション装置300に対応する処理を実行させる。
【0059】
ここで、オーディオ装置400が放音する音声には、偶然、認識対象ワードに対応する文言が含まれる場合がある。このような場合、第1音声認識部10は、マイク200が収音する外部入力音声(認識対象ワードに対応する文言が含まれる音声)が、認識対象ワードの全体に相当すると認識してしまうが、このような認識は破棄し、ナビゲーション装置300の制御が行われないようにする必要がある。外部入力音声は、搭乗者が発した音声ではないからである。そして、上述のとおり、本実施形態では、第1音声認識部10が、外部入力音声が認識対象ワードの全体に相当すると認識した場合であっても、第2音声認識部12が、内部発生音声が後半部分ワードに相当すると認識した場合、第1音声認識部10の認識が破棄され、ナビゲーション装置300の制御が行われない。これにより、オーディオ装置400が放音する音声に、偶然、認識対象ワードに対応する文言が含まれていた場合であっても、ナビゲーション装置300の制御が行われないようにすることができる。以下、詳述する。
【0060】
上述したように、第2音声認識部12により認識処理が行われる期間は、第1音声認識部10によって外部入力音声が認識対象ワードの前半部分に相当すると認識されたタイミングに続く所定の期間である。このように、第1音声認識部10によって外部入力音声が認識対象ワードの前半部分に相当すると認識されたタイミングに続く所定の期間で、第1音声認識部10および第2音声認識部12が、共に、音声が認識対象ワードの後半部分に相当すると認識した場合、以下の状況であるということができる。すなわち、オーディオ装置400が放音した音声に認識対象ワードに対応する文言が含まれている状況であり、かつ、第1音声認識部10が、オーディオ装置400が放音した音声について、認識対象ワードの後半部分に相当すると認識した可能性が高い状況である。
【0061】
すなわち、第1音声認識部10が、外部入力音声が認識対象ワードの全体に相当すると認識した場合であっても、第2音声認識部12が、内部発生音声が後半部分ワードに相当すると認識した場合には、第1音声認識部10の認識は、搭乗者が発生した音声に由来するものではなく、オーディオ装置400が放音した音声に由来するものである可能性が高い。これを踏まえ、第1音声認識部10が、外部入力音声が認識対象ワードの全体に相当すると認識した場合であっても、第2音声認識部12が、内部発生音声が後半部分ワードに相当すると認識した場合には、第1音声認識部10の認識を破棄することにより、オーディオ装置400が放音した音声に認識対象ワードに対応する文言が含まれていた場合であっても、その音声に基づいて、ナビゲーション装置300が制御されて処理を実行してしまうことを防止できる。
【0062】
さらに、本実施形態では、第1音声認識部10で外部入力音声が認識対象ワードの前半部分に相当すると認識された場合にのみ、第2音声認識部12は、認識処理を実行する。これにより、第1音声認識部10が外部入力音声が認識対象ワードの前半部分に相当すると認識し、その後、第1音声認識部10が、外部入力音声が認識対象ワードの「全体」に相当すると認識する可能性が生じた状況でのみ、第2音声認識部12により認識処理を行って、必要な場合に的確に、第1音声認識部10の認識結果を破棄することができる。
【0063】
このように、第2音声認識部12が認識処理を実行するのは、第1音声認識部10が外部入力音声が認識対象ワードの前半部分に相当すると認識した場合のみであり、かつ、第2音声認識部12が認識処理を実行する期間は、最長で、時間J2である。このような構成のため、第2音声認識部12が、常時、認識処理を実行している場合に比べて、認識処理を実行する期間が限定され、処理負荷を小さくすることができる。処理負荷が小さいため、第1音声認識部10および第2音声認識部12による音声認識処理以外の他処理が実行された場合に、その他処理のレスポンス性能の低下が抑制される。そのため、第2音声認識部12の認識処理に係る処理負荷の増大に伴う他処理への悪影響(例えば、他処理に対するCPUの割り当ての著しい減少)を考慮して、第1音声認識部10によるトリガレス音声認識において定常的に待ち受ける認識対象ワード(第1音声認識辞書20Aに登録する認識対象ワード)の数を少なく制限する必要がない。
【0064】
さらに、本実施形態では、複数の認識対象ワードの後半部分の文言が共通する場合があり、このような場合、第2音声認識辞書20Bには、共通する文言の後半部分ワードが1つ登録される。これにより、第2音声認識辞書20Bに登録される後半部分ワードの数を少なくすることができ、より効果的に第2音声認識部12の処理負荷を低減できる。
【0065】
図5は、本実施形態に係る第1音声認識部10の動作例を示すフローチャートである。
図6は、本実施形態に係る第2音声認識部12の動作例を示すフローチャートである。
図7は、本実施形態に係る認識結果破棄部13の動作例を示すフローチャートである。
図5、6、7の各フローチャートの処理は、音声認識装置100の電源が投入され、トリガレス音声認識の開始が指示された後に適宜実行される。
【0066】
以下の説明では、
図5のフローチャートの開始時点では、第1音声認識部10が算出する距離値が、第1閾値T1を上回っている状態であるものとする。また、特に説明はしないが、
図5のフローチャートの処理が行われる間、第1音声認識部10は、継続して距離値を算出している。
【0067】
図5のフローチャートに示すように、第1音声認識部10は、現時点で算出した距離値が、距離値が第1閾値T1を上回った状態から、下回った状態へ移行したか否かを判定する(ステップSA1)。このステップSA1では、第1音声認識部10は、距離値が第1閾値T1を下回っているか否かを判定するのではなく、「第1閾値T1を上回った状態」から、「第1閾値T1を下回った状態」へと状態の変化があったか否かを判定する。第1音声認識部10は、ステップSA1の処理を、距離値が第1閾値T1を上回った状態から、下回った状態へ移行したことを検出するまで、継続して繰り返し実行する。
【0068】
距離値が、距離値が第1閾値T1を上回った状態から、下回った状態へ移行しことを検出した場合、第1音声認識部10は、外部入力音声が認識対象ワードの前半部分に相当すると認識する(ステップSA2)。次いで、第1音声認識部10は、処理開始通知を第2音声認識部12に出力する(ステップSA3)。次いで、第1音声認識部10は、経過時間の計測を開始する(ステップSA4)。
【0069】
次いで、第1音声認識部10は、時間J1が経過したか否かを判定しつつ(ステップSA5)、距離値が第2閾値T2を下回ったか否かを判定する(ステップSA6)。
【0070】
距離値が第2閾値T2を下回ることなく時間J1が経過した場合(ステップSA5:YES)、第1音声認識部10は、処理手順をステップSA1へ移行する。一方、時間J1が経過する前に距離値が第2閾値T2を下回った場合(ステップSA6:YES)、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当すると認識する(ステップSA7)。次いで、第1音声認識部10は、第1音声認識通知を認識結果破棄部13に出力する(ステップSA8)。
【0071】
第1音声認識通知の出力後、第1音声認識部10は、認識結果破棄部13から、認識破棄通知または認識確定通知のいずれかを入力したか否かを判定する(ステップSA9)。第1音声認識部10は、ステップSA9の処理を、いずれかの通知が入力されるまで、継続して繰り返し実行する。いずれかの通知を入力した場合(ステップSA9:YES)、第1音声認識部10は、入力した通知が、認識破棄通知であるか否かを判定する(ステップSA10)。
【0072】
入力した通知が認識破棄通知の場合(ステップSA10:YES)、第1音声認識部10は、認識結果を破棄する(ステップSA11)。その後、第1音声認識部10は、処理手順をステップSA14へ移行する。
【0073】
一方、入力した通知が認識破棄通知でない場合(ステップSA10:NO)、第1音声認識部10は、外部入力音声が認識対象ワードの全体に相当したという認識について、認識を確定する(ステップSA12)。次いで、第1音声認識部10は、確定認識対象ワードを電子機器制御部11に通知する(ステップSA13)。その後、第1音声認識部10は、処理手順をステップSA14へ移行する。
【0074】
ステップSA14において、第1音声認識部10は、トリガレス音声認識の終了が指示されたか否かを判定する。トリガレス音声認識の終了が指示されていない場合(ステップSA14:NO)、第1音声認識部10は、処理手順をステップSA1に移行する。トリガレス音声認識の終了が指示された場合(ステップSA14:YES)、第1音声認識部10は、処理を終了する。なお、
図5のフローチャートでは、説明の便宜のため、第1音声認識部10が、ステップSA14で、トリガレス音声認識の終了が指示されたか否かを判定する構成としているが、第1音声認識部10は、フローチャートの処理が実行されている間、継続してトリガレス音声認識の終了が指示されたか否かを監視し、指示された場合は、必要な終了処理を実行した上で、処理を終了する。
【0075】
図6のフローチャートに示すように、第2音声認識部12は、処理開始通知を入力したか否かを判定する(ステップSB1)。処理開始通知を入力した場合(ステップSB1:YES)、第2音声認識部12は、認識処理を開始する(ステップSB2)。次いで、第2音声認識部12は、認識処理の開始に応じて経過時間の計測を開始する(ステップSB3)。次いで、第2音声認識部12は、認識処理を開始してから時間J2が経過したか否かを判定しつつ(ステップSB4)、距離値が第3閾値T3を下回ったか否かを判定する(ステップSB5)。
【0076】
距離値が第3閾値T3を下回ることなく時間J2が経過した場合(ステップSB4:YES)、第2音声認識部12は、認識不能通知を認識結果破棄部13に出力する(ステップSB6)。次いで、第2音声認識部12は、認識処理を停止する(ステップSB7)。その後、第2音声認識部12は、処理手順をステップSB11へ移行する。
【0077】
一方、時間J2が経過する前に距離値が第3閾値T3を下回った場合(ステップSB5:YES)、第2音声認識部12は、内部発生音声が後半部分ワードに相当すると認識する(ステップSB8)。次いで、第2音声認識部12は、第2音声認識通知を認識結果破棄部13に出力する(ステップSB9)。次いで、第2音声認識部12は、認識処理を停止する(ステップSB10)。その後、第2音声認識部12は、処理手順をステップSB11へ移行する。
【0078】
ステップSB11において、第2音声認識部12は、トリガレス音声認識の終了が指示されたか否かを判定する。トリガレス音声認識の終了が指示されていない場合(ステップSB11:NO)、第2音声認識部12は、処理手順をステップSB1に移行する。トリガレス音声認識の終了が指示された場合(ステップSB11:YES)、第2音声認識部12は、処理を終了する。なお、
図6のフローチャートは、説明の便宜のため、第2音声認識部12が、ステップSB11で、トリガレス音声認識の終了が指示されたか否かを判定する構成としているが、第2音声認識部12は、フローチャートの処理が実行されている間、継続してトリガレス音声認識の終了が指示されたか否かを監視し、指示された場合は、必要な終了処理を実行した上で、処理を終了する。
【0079】
図7のフローチャートに示すように、認識結果破棄部13は、第1音声認識部10から第1音声認識通知を入力したか否かを判定する(ステップSC1)。第1音声認識部10は、ステップSC1の処理を、第1音声認識通知を入力するまで、継続して繰り返し実行する。第1音声認識通知を入力した場合(ステップSC1:YES)、認識結果破棄部13は、ステップSC1で入力した第1音声認識通知と時間的に近接したタイミングで第2音声認識通知と認識不能通知とのいずれかを入力する(ステップSC2)。
【0080】
次いで、認識結果破棄部13は、ステップSC2で入力した通知が第2音声認識通知か否かを判定する(ステップSC3)。ステップSC2で入力した通知が第2音声認識通知の場合(ステップSC3:YES)、認識結果破棄部13は、認識破棄通知を第1音声認識部10に出力する(ステップSC4)。その後、認識結果破棄部13は、処理手順をステップSC6へ移行する。
【0081】
ステップSC2で入力した通知が第2音声認識通知ではない場合(=認識不能通知の場合)(ステップSC3:NO)、認識結果破棄部13はイン式確定通知を第1音声認識部10に出力する(ステップSC5)。その後、認識結果破棄部13は、処理手順をステップSC6へ移行する。
【0082】
ステップSC6において、認識結果破棄部13は、トリガレス音声認識の終了が指示されたか否かを判定する。トリガレス音声認識の終了が指示されていない場合(ステップSC6:NO)、認識結果破棄部13は、処理手順をステップSC1に移行する。トリガレス音声認識の終了が指示された場合(ステップSC6:YES)、認識結果破棄部13は、処理を終了する。なお、
図7のフローチャートは、説明の便宜のため、認識結果破棄部13が、ステップSC6で、トリガレス音声認識の終了が指示されたか否かを判定する構成としているが、認識結果破棄部13は、フローチャートの処理が実行されている間、継続してトリガレス音声認識の終了が指示されたか否かを監視し、指示された場合は、必要な終了処理を実行した上で、処理を終了する。
【0083】
以上詳しく説明したように、本実施形態に係る音声認識装置100は、認識対象ワードの全体が登録された第1音声認識辞書20Aと、認識対象ワードの後半部分のみが登録された第2音声認識辞書20Bとを有する。また、本実施形態に係る音声認識装置100は、第1音声認識辞書20Aを用いて、マイク200より入力された外部入力音声の音声認識を行う第1音声認識部10と、第2音声認識辞書20Bを用いて、車載機たるオーディオ装置400で発生されスピーカから出力される前の内部発生音声の音声認識を行う第2音声認識部12とを備える。第1音声認識部10は、外部入力音声の順次入力と並行して類似度の算出(距離値の算出)を逐次行い、算出した類似度が第1のレベルより大きくなった時点(算出した距離値が第1閾値T1を下回った時点)で、外部入力音声が認識対象ワードの前半部分に相当すると認識する。第1音声認識部10は、引き続き算出した類似度が第2のレベルより大きくなった時点(距離値が第2閾値T2を下回った時点)で、外部入力音声が認識対象ワードの全体に相当すると認識する。第2音声認識部12は、第1音声認識部10により算出された類似度が第1のレベルよりも大きくなった時点(第1音声認識部10により算出された距離値が第1閾値T1を下回った時点)で認識処理を開始し、算出した類似度が所定レベルより大きい場合に(算出した距離値が第3閾値T3を下回った場合に)、内部発生音声が認識対象ワードの後半部分に相当すると認識する。そして、第1音声認識部10において外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12により内部発生音声が認識対象ワードの後半部分に相当すると認識された場合、第1音声認識部10による認識結果を破棄するようにしている。
【0084】
上記構成によれば、第1音声認識部10において外部入力音声が認識対象ワードの前半部分に相当すると認識された場合にのみ第2音声認識部12が起動されるので、第2音声認識部12が常時動作している場合に比べて処理負荷を小さくすることができる。処理負荷が小さいので、トリガレス音声認識において定常的に待ち受ける認識対象ワードの数を少なく制限する必要がない。そして、第1音声認識部10において外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12により内部発生音声が認識対象ワードの後半部分に相当すると認識された場合には、第1音声認識部10による認識結果が、スピーカから出力された内部発生音声がマイク200から入力されたために生じた誤認識であるものとして破棄される。これにより、本発明によれば、トリガレス音声認識において定常的に待ち受ける認識対象ワードの数を少なく制限することなく、また音声認識処理以外の他処理のレスポンス性能の低下を極力抑えつつ、車載機で発生された音声による誤認識を抑制することができる。
【0085】
なお、上述した実施形態では、認識結果破棄部13は、第1音声認識部10により外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12により内部発生音声が認識対象ワードの後半部分に相当すると認識された場合、第1音声認識部10に対して認識破棄通知を出力し、第1音声認識部10よる認識結果を破棄した。この点に関し、以下の構成でもよい。すなわち、認識結果破棄部13は、第1音声認識部10により外部入力音声が認識対象ワードの全体に相当すると認識され、かつ、第2音声認識部12より内部発生音声が認識対象ワードの後半部分に相当すると認識された場合、さらに、以下の処理を実行する。すなわち、認識結果破棄部13は、第1音声認識部10において認識された認識対象ワードの後半部分と、第2音声認識部12において認識された認識対象ワードの後半部分とが同じであるか否かを判定する。そして、認識結果破棄部13は、認識された認識対象ワードの後半部分が同じ場合に、第1音声認識部10に対して認識破棄通知を出力し、第1音声認識部10よる認識結果を破棄する。この構成によれば、以下の効果を奏する。
【0086】
すなわち、第1音声認識部10によって外部入力音声が一の認識対象ワードの前半部分に相当すると認識された後に行われる認識処理の実行中に、偶然、内部発生音声に、一の認識対象ワードとは異なる他の認識対象ワードの後半部分が含まれる可能性が全くないわけではない。この場合、第1音声認識部10が認識対象ワードの前半部分に相当すると認識した外部入力音声は、オーディオ装置400が放音した音声ではないため、第1音声認識部10の認識結果は破棄されてはならない。しかしながら、上述した実施形態では、第1音声認識部10において認識された認識対象ワードの後半部分と、第2音声認識部12において認識された認識対象ワードの後半部分とが同じであるか否かの判定までは行われないため、第1音声認識部10の認識結果が破棄されてしまう。一方、上記構成によれば、認識結果破棄部13は、第1音声認識部10において認識された認識対象ワードの後半部分と、第2音声認識部12において認識された認識対象ワードの後半部分とが同じである場合にのみ、第1音声認識部10よる認識結果を破棄する。このため、第1音声認識部10によって外部入力音声が認識対象ワードの前半部分に相当すると認識された後に行われる認識処理の実行中に、偶然、内部発生音声に、その認識対象ワードとは異なる認識対象ワードの後半部分が含まれた場合に、第1音声認識部10の認識結果が破棄されるのを防止できる。
【0087】
また、上述した実施形態では、登録された音声パターンと、入力された音声との類似度として、値「0」〜値「1000」の範囲で値をとる距離値を用いた。しかしながら、類似度として、距離値以外の指標を用いる構成でもよい。すなわち、類似度の判定には、既存の技術を広く用いることができる。
【0088】
その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。