(58)【調査した分野】(Int.Cl.,DB名)
上記ソース判定部は、会話が多く含まれる可能性の高さに応じて上記ソース種別を区分し、上記車両内で再生されているオーディオ音声が、当該区分したソース種別のどれに該当するかを判定することを特徴とする請求項1または2に記載の音声認識装置。
【背景技術】
【0002】
車両には、オーディオ装置、エアコンディショナ、ナビゲーション装置など各種の電子機器が搭載されている。また、これらの電子機器を操作する際の片手運転等を回避するために、電子機器の操作を音声認識により行えるようにしたシステムも提供されている。この音声認識技術を用いれば、運転者は、ハンドルから手を離すことなく(リモートコントローラや操作パネル等の操作部を手動で操作せずに)各種電子機器の操作を行うことができる。
【0003】
音声認識装置は通常、ユーザが発声した特定の単語や熟語、簡単な命令文など(以下、これらをまとめて「ワード」という)を発話コマンドとして認識する。電子機器は、音声認識装置により認識されたワード(発話コマンド)に応じた制御を行う。かかる音声認識装置では、発話コマンドとして用いる各認識対象ワードとその音声パターンとを対応付けた音響モデルを音声認識辞書にあらかじめ登録しておく。そして、ユーザの発話音声から算出した特徴量と音響モデルの特徴量とを比較して類似度が最も高い音声パターンを検索し、その音声パターンに対応付けられているワードを発話音声のワードであると認識する。
【0004】
従来の音声認識装置は、ユーザが備え付けの発話ボタンを押すことで音声認識モードとなり、マイクから入力されたユーザの発話音声を認識してコマンドを実行するようになされている。発話ボタンの操作に代えて、手を叩く等の特定動作をトリガとして音声認識モードとなるようになされたものも知られている。最近では、音声認識時に発話ボタンの操作や特定動作などのトリガを不要にした音声認識装置(以下、トリガレス音声認識装置という)も提供されている。
【0005】
トリガレス音声認識装置では、マイクを常時オン状態にしておき、入力音声を識別して、発話コマンドに該当するワードかどうかを判定する。すなわち、音声認識辞書に登録している各ワードの音声パターンと、マイクより入力された音声との近さの程度(類似度)を示す指標として距離値を算出する。そして、算出した距離値が、ワード毎に設定されている閾値よりも小さい場合に、その入力音声が、閾値を下回ったワードであると認識する。
【0006】
なお、車室内では、マイクより入力される音声には、音声認識のための発話音声の他に、エンジンの動作音や走行音、オーディオ音声、搭乗者どうしの会話音声などの各種ノイズが含まれている。特に、トリガレス音声認識装置の場合は音声認識モードが設けられておらず、ノイズとなる音声が常にマイクに入力されている。そのため、このような環境下においても音声認識を正しく行えるようにするための工夫が必要となる。
【0007】
音声認識の正解率を上げる(誤認識を抑制する)ためには、距離値と比較される閾値を適切に設定することが必要である。これに対し、従来、車室内の騒音レベルを車両の運転パラメータ(エンジン回転数、車速、車載エアコンディショナの送風ファンの強度、カーステレオの出力音量など)に基づいて推定し、推定した騒音レベルに応じて音声認識の閾値を設定するようになされた音声認識装置が知られている(例えば、特許文献1参照)。
【発明を実施するための形態】
【0014】
(第1の実施形態)
以下、本発明による第1の実施形態を図面に基づいて説明する。
図1は、第1の実施形態による音声認識装置100の構成例を示す機能ブロック図である。本実施形態の音声認識装置100は、マイク200より入力されるユーザの発話音声(特定の単語や熟語、簡単な命令文などのワード)を発話コマンドとして認識し、ナビゲーション装置300に対して発話コマンドを実行するものである。なお、ここでは制御対象の電子機器をナビゲーション装置300としているが、オーディオ装置400、エアコンディショナ、その他の電子機器であってもよい。
【0015】
図1に示すように、第1の実施形態による音声認識装置100は、認識辞書記憶部11、音声認識部12、確認部13、ソース判定部14および閾値設定部15を備えて構成されている。なお、上記各機能ブロック12〜15は、ハードウェア、DSP(Digital Signal Processor)、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、上記各機能ブロック12〜15は、実際にはコンピュータのCPU、RAM、ROMなどを備えて構成され、RAMやROM、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。
【0016】
認識辞書記憶部11は、認識対象とするワードとその音声パターンとを対応付けるとともに、音声認識の指標と比較される閾値が設定されて成る音声認識辞書を記憶する。本実施形態では指標の一例として、認識辞書記憶部11に登録している各ワードの音声パターンと、マイク200より入力された発話音声との近さの程度(類似度)を示す距離値(例えば、0〜1000の値)を用いる。距離値が小さいほど類似度が高いことを意味する。本実施形態において、閾値は可変設定されるものである。
【0017】
音声認識部12は、認識辞書記憶部11の音声認識辞書に登録されているワードの音声パターンと、マイク200より入力された発話音声との類似度を示す指標を算出し、当該算出した指標が閾値に対して所定の条件を満たす場合に、発話音声が当該所定の条件を満たすワードであると認識する。上記のように、指標として距離値を用いた場合、音声認識部12は、発話音声について算出した距離値が、ワード毎に設定されている閾値よりも小さい場合に、その発話音声が、閾値を下回ったワードであると認識する。なお、類似度が高くなるほど値が大きくなるような指標を用いた場合、音声認識部12は、発話音声について算出した指標が、ワード毎に設定されている閾値よりも大きい場合に、その発話音声が、閾値を上回ったワードであると認識する。
【0018】
確認部13は、音声認識部12により認識されたワードをユーザに提示することにより、ユーザが発声したワードと一致しているか否かをユーザに確認させる。この確認は、例えば、音声認識部12により認識されたワードを合成音声によって出力するトークバックによって行う。あるいは、音声認識部12により認識されたワードを文字によって画面表示するようにしてもよい。
【0019】
もし、ユーザが発声したワードとは異なるワードが確認部13により提示された場合、ユーザはキャンセルを指示して音声認識を取り消すことができる。キャンセルの指示は、タッチパネルの手動操作または「キャンセル」というワードの発話入力によって行うことが可能である。確認部13により音声認識の結果が提示されてから所定時間以内にユーザがキャンセルを指示しない場合、確認部13は、音声認識部12により認識されたワードを確定し、発話コマンドとしてナビゲーション装置300に出力する。
【0020】
ソース判定部14は、車両内でオーディオ装置400により再生されているオーディオ音声のソース種別を判定する。オーディオ音声は、音声認識にとってノイズとなる音声である。ここで、オーディオ音声の中には、会話が多く含まれる可能性の高いもの(例えば、ニュースやドラマなどの音声)から、会話が多く含まれる可能性が低いもの(例えば、ミュージック系の音声)まで、種々のソースがある。会話が多く含まれるほど、音声認識部12において誤認識を生じる可能性が高いと言える。
【0021】
そこで、ソース判定部14は、会話が多く含まれる可能性の高さに応じてソース種別を区分し、車両内で再生されているオーディオ音声が、当該区分したソース種別のどれに該当するかを判定する。なお、オーディオ装置400により再生されているオーディオ音声のソース種別は、オーディオ装置400のソース設定情報を確認することによって判定することが可能である。
【0022】
閾値設定部15は、ソース判定部14により判定されたソース種別に応じて、認識辞書記憶部11に記憶されている音声認識の閾値を可変設定する。
図2は、ソース種別の区分と、区分ごとの閾値の調整値とを対応付けたテーブル情報の一例を示す図である。閾値設定部15は、このテーブル情報を参照して、音声認識の閾値を可変設定する。
【0023】
図2の例では、会話が多く含まれる可能性の高さに応じて、ソース種別を3つに区分している。第1の区分は、CD(Compact Disc)、メモリカード、ポータブル音源等が接続されるUSB(Universal Serial Bus)などの音楽系のソースである。第2の区分は、DVD(Digital Versatile Disk)、HDMI(High-Definition Multimedia Interface)、AUXなどの映像系のソースである。第3の区分は、DTV(Digital TeleVision)、Radioなどのニュース/ドラマ系のソースである。
【0024】
ここで、第1の区分<第2の区分<第3の区分の順番で、オーディオ装置400により再生されるオーディオ音声の中に会話が多く含まれる可能性が高くなる。本実施形態では、会話が多く含まれる可能性が高い区分ほど、音声認識の閾値を下げるようにテーブル情報が設定されている。閾値が小さくなるほど、音声認識部12により算出される距離値が閾値を下回りにくくなるので、誤認識の発生を低減することができる。
【0025】
なお、
図2に示した数値は、基準の閾値に対して調整する値を示している。すなわち、音楽系のソースの場合は、基準の閾値に対して“40”を加算することを示している。映像系のソースの場合は、基準の閾値をそのまま用いることを示している。ニュース/ドラマ系のソースの場合は、基準の閾値から“20”を減算することを示している。
【0026】
図3および
図4は、第1の実施形態による音声認識装置100の動作例を示すフローチャートである。
図3に示すフローチャートは、音声認識装置100の電源がオンとされたときに開始し、オフとされるまで継続して実行される。
図4に示すフローチャートは、
図3のステップS2における具体的な処理内容を示すものである。なお、ここでは、マイク200を常時オン状態にしておき、ユーザが特に操作を行わなくても常に音声認識部12が音声認識を行うトリガレス音声認識の動作例を示している。
【0027】
図3において、まず、音声認識部12および確認部13において、音声認識処理を行う(ステップS1)。すなわち、音声認識部12は、認識辞書記憶部11の音声認識辞書に登録されているワードの音声パターンと、マイク200より入力された発話音声との類似度を示す距離値を算出し、当該算出した距離値が閾値より小さくなるワードを認識する。そして、確認部13は、音声認識部12により認識されたワードをユーザに提示し、所定時間以内にキャンセルの指示がない場合、上記認識されたワードを発話コマンドとしてナビゲーション装置300に出力する。
【0028】
次に、ソース判定部14および閾値設定部15において、ソース種別に応じた閾値の設定処理を実行する(ステップS2)。すなわち、
図4において、ソース判定部14は、オーディオ装置400においてオーディオ音声の再生が行われているか否かを判定する(ステップS11)。オーディオ音声の再生が行われていない場合、
図4に示すフローチャートの処理は終了となる。
【0029】
オーディオ音声の再生が行われている場合、ソース判定部14は、当該再生されているオーディオ音声のソース種別を判定する(ステップS12)。そして、閾値設定部15は、ソース判定部14により判定されたソース種別に応じて、
図2に示すテーブル情報を参照して、認識辞書記憶部11に記憶されている音声認識の閾値を可変設定する(ステップS13)。これにより、
図4に示すフローチャートの処理は終了となる。
【0030】
以上詳しく説明したように、第1の実施形態では、車両内で再生されているオーディオ音声のソース種別を判定し、判定したソース種別に応じて音声認識の閾値を可変設定するようにしている。このように構成した第1の実施形態によれば、認識対象のワードを音声認識する際にノイズとなるオーディオ音声のソース種別に応じて、登録ワードの音声パターンと発話音声との類似度を示す距離値と比較される閾値が設定されるため、ノイズの内容によって閾値を最適化することができ、誤認識の発生を低減することができる。
【0031】
(第2の実施形態)
次に、本発明による第2の実施形態を図面に基づいて説明する。
図5は、第2の実施形態による音声認識装置100Aの構成例を示す機能ブロック図である。なお、この
図5において、
図1に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0032】
図5に示すように、第2の実施形態による音声認識装置100Aは、キャンセル回数カウント部16を更に備えている。また、第2の実施形態による音声認識装置100Aは、閾値設定部15に代えて閾値設定部15Aを備えている。
【0033】
キャンセル回数カウント部16は、音声認識部12により認識されたワード(発話音声について算出された距離値が閾値より小さくなったワード)を確認部13がユーザに提示した後、所定時間以内にユーザがキャンセルを指示した回数(以下、キャンセル回数という)をカウントする。キャンセル回数カウント部16は、ワード毎にこのキャンセル回数を記憶しておく。
【0034】
閾値設定部15Aは、第1の実施形態で説明した閾値設定部15の機能に加えて、以下の機能を有する。すなわち、閾値設定部15Aは、キャンセル回数カウント部16によりカウントされるキャンセル回数が所定回数に達した場合、発話音声について算出される指標が所定の条件を満たしにくくなる方向に閾値を変更する。
【0035】
ここで、類似度の指標として距離値を用いる場合、閾値設定部15Aは、キャンセル回数が所定回数に達したワードについて、認識辞書記憶部11に記憶されている閾値を現状よりも小さい値に変更する。例えば、閾値設定部15Aは、閾値の現在値から所定値を減算した値を新たな閾値として設定する。なお、類似度が高くなるほど値が大きくなるような指標を用いた場合、閾値設定部15Aは、キャンセル回数が所定回数に達したワードについて、認識辞書記憶部11に記憶されている閾値を現状よりも所定値だけ大きい値に変更する。
【0036】
ユーザ(例えば運転者)がキャンセルを指示するということは、運転者が発話コマンドに相当するワードを発声していないのに、オーディ音声や他の搭乗者の会話音声の中から発話コマンドのワードが音声認識部12によって認識されてしまい、確認部13による確認の動作が生じているということである。しかも、このような状況が所定回数繰り返し生じているということは、今後も同じ状況が繰り返し発生する可能性があることを意味している。その場合、運転者はその都度キャンセルを指示しなくてはならなくなり、煩わしい。そこで、第2の実施形態では、キャンセル回数が所定回数に達したワードについては、閾値を小さくすることにより、音声認識部12によるワードの認識が行われにくくなるようにしている。
【0037】
図6は、第2の実施形態による音声認識装置100Aの動作例を示すフローチャートである。
図6は、
図3におけるステップS1の具体的な処理例を示すものである。
【0038】
まず、音声認識部12は、認識辞書記憶部11の音声認識辞書に登録されているワードの音声パターンと、マイク200より入力された音声との類似度を示す距離値を算出し、当該算出した距離値が閾値より小さくなるワードの認識処理を実行する(ステップS21)。そして、確認部13は、距離値が閾値より小さくなるワードが音声認識辞書の中から音声認識部12により検出されたか否かを判定する(ステップS22)。
【0039】
ここで、距離値が閾値より小さくなるワードが音声認識部12により検出されていないと判定した場合、
図6に示すフローチャートの処理が終了となり、
図3に示すステップS2の処理へと進む。一方、距離値が閾値より小さくなるワードが音声認識部12により検出されたと判定した場合、確認部13は、その検出されたワードを提示して、発話音声と一致しているかどうかをユーザに確認させる(ステップS23)。
【0040】
その後、確認部13は、所定時間以内にユーザからキャンセルの指示があったか否かを判定する(ステップS24)。所定時間以内にキャンセルの指示があった場合、キャンセル回数カウント部16は、キャンセル回数のカウント値をインクリメントする(ステップS25)。そして、閾値設定部15Aは、キャンセル回数が所定回数に達したか否かを判定する(ステップS26)。
【0041】
ここで、キャンセル回数が所定回数に達した場合、閾値設定部15Aは、当該キャンセル回数が所定回数に達したワードについて、認識辞書記憶部11に記憶されている閾値を現状よりも所定値だけ小さい値に変更する(ステップS27)。これにより、
図6に示すフローチャートの処理が終了となり、
図3に示すステップS2の処理へと進む。一方、キャンセル回数がまだ所定回数に達していない場合は、閾値を変更することなく
図6に示すフローチャートの処理が終了となり、
図3に示すステップS2の処理へと進む。
【0042】
上記ステップS24において、所定時間以内にキャンセルの指示がないと判定された場合、キャンセル回数カウント部16は、キャンセル回数のカウント値をゼロにクリアする(ステップS28)。これにより、
図6に示すフローチャートの処理が終了となり、
図3に示すステップS2の処理へと進む。なお、この場合は、確認部13は、認識されたワードを発話コマンドとしてナビゲーション装置300に出力する。
【0043】
以上詳しく説明したように、第2の実施形態によれば、音声認識部12により認識されたワードに対するユーザのキャンセル操作が所定回数繰り返された場合に、そのワードに関する閾値を小さくすることにより、音声認識部12によるワードの認識が行われにくくなるようにしている。これにより、ユーザの意図に反して音声認識部12によるワードの認識が行われてしまう状況が減り、ユーザが煩わしいキャンセル操作を何度も行わなくても済むようにすることができる。
【0044】
(第3の実施形態)
次に、本発明による第3の実施形態を図面に基づいて説明する。
図7は、第3の実施形態による音声認識装置100Bの構成例を示す機能ブロック図である。なお、この
図7において、
図5に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【0045】
図7に示すように、第3の実施形態による音声認識装置100Bは、近接回数カウント部17を更に備えている。また、第3の実施形態による音声認識装置100Bは、閾値設定部15Aに代えて閾値設定部15Bを備えている。
【0046】
近接回数カウント部17は、類似度を示す指標が閾値に対して所定の条件を満たさないワードについて、指標と閾値との差分が所定値より小さくなる回数(以下、近接回数という)をカウントする。ここで、類似度の指標として距離値を用いる場合、近接回数カウント部17は、距離値が閾値より小さくならないワードのうち、距離値と閾値との差分が所定値より小さくなるワードの検出回数を近接回数としてカウントする。近接回数カウント部17は、ワード毎にこの近接回数を記憶しておく。
【0047】
あるワードについて算出された距離値と閾値との差分が所定値より小さいということは、距離値が閾値を下回らずにワード認識には至らないものの、登録ワードに対して比較的類似度が高い、近接したワードをユーザが発声しているということである。例えば、ユーザが発話コマンドに相当する登録ワードを発声しているものの、ユーザの発話の状態(音量、イントネーション、発声速度など)によって、距離値が閾値を下回らないようなケースでは、距離値と閾値との差分が所定値より小さくなる。
【0048】
閾値設定部15Bは、第2の実施形態で説明した閾値設定部15Aの機能に加えて、以下の機能を有する。すなわち、閾値設定部15Bは、近接回数カウント部17によりカウントされる近接回数が所定回数に達した場合、発話音声について算出される指標が所定の条件を満たしやすくなる方向に閾値を変更する。これにより、第3の実施形態では、音声認識部12によるワードの認識が行われやすくなるようにしている。
【0049】
ここで、類似度の指標として距離値を用いる場合、閾値設定部15Bは、近接回数が所定回数に達したワードについて、認識辞書記憶部11に記憶されている閾値を現状よりも所定値だけ大きい値に変更する。なお、類似度が高くなるほど値が大きくなるような指標を用いた場合、閾値設定部15Bは、近接回数が所定回数に達したワードについて、認識辞書記憶部11に記憶されている閾値を現状よりも所定値だけ小さい値に変更する。
【0050】
図8は、第3の実施形態による音声認識装置100Bの動作例を示すフローチャートである。
図8は、
図3におけるステップS1の具体的な処理例を示すものである。なお、
図8において、
図6に示したステップ番号と同一の番号を付したものは同一の処理を行うものであるので、ここでは重複する説明を省略する。
【0051】
図8のステップS22において、距離値が閾値より小さくなるワードが音声認識辞書の中から検出されたと確認部13により判定された場合、近接回数カウント部17は、近接回数のカウント値をセロにクリアする(ステップS29)。その後、処理はステップS23へ進む。
【0052】
また、ステップS22において、距離値が閾値より小さくなるワードが音声認識辞書の中から検出されていないと確認部13により判定された場合、近接回数カウント部17は、近接回数のカウント値をインクリメントする(ステップS31)。そして、閾値設定部15Bは、近接回数が所定回数に達したか否かを判定する(ステップS32)。
【0053】
ここで、近接回数が所定回数に達した場合、閾値設定部15Bは、当該近接回数が所定回数に達したワードについて、認識辞書記憶部11に記憶されている閾値を現状よりも所定値だけ大きい値に変更する(ステップS33)。これにより、
図8に示すフローチャートの処理が終了となり、
図3に示すステップS2の処理へと進む。一方、近接回数がまだ所定回数に達していない場合は、閾値を変更することなく
図8に示すフローチャートの処理が終了となり、
図3に示すステップS2の処理へと進む。
【0054】
以上詳しく説明したように、第3の実施形態によれば、あるワードについて算出された距離値が閾値を下回らないものの、閾値との差分が所定値より小さい状況が所定回数繰り返された場合に、そのワードに関する閾値を大きくすることにより、音声認識部12によるワードの認識が行われやすくなるようにしている。これにより、ユーザが発話コマンドに相当するワードを発声しているのに、ユーザの発話の状態(音量、イントネーション、発声速度など)によって認識されないといった不都合を解消することができる。
【0055】
なお、上記第1〜第3の実施形態では、オーディオ音声のソース種別に応じて閾値を可変設定する例について説明したが、本発明はこれに限定されない。例えば、オーディオ音声のソース種別と音量との組み合わせに応じて閾値を可変設定するようにしてもよい。
図9に、ソース種別と音量との組み合わせに応じて閾値を可変設定する場合に参照するテーブル情報の一例を示す。
図9の例では、音量が小さいほど正しい音声認識をしにくくなることから、音量が小さいほど閾値が大きくなるようにテーブル情報が設定されている。
【0056】
また、上記第3の実施形態では、キャンセル回数カウント部16および近接回数カウント部17の両方を設ける構成について説明したが、近接回数カウント部17のみを適用した実施形態とすることも可能である。
【0057】
その他、上記第1〜第3の実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。