(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0006】
さて、各々語句や文などのワードである複数の認識候補について音声認識を行う場合、発音が類似している認識候補については誤認識が生じ易い。
そこで、本発明は、複数の認識候補について音声認識を行う際に、発音が類似している認識候補が存在する場合にも、より適正に音声認識を行えるようにすることを課題とする。
【課題を解決するための手段】
【0007】
前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第1認識候補が複数登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、入力した音声に所定レベルより良好に整合する第1認識候補を対象候補として検出する第1音声認識手段と、第2音声認識手段と、
第2音声認識手段によって用いられる第2音声認識辞書と、認識手段とを設けたものである。ここで、当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第2認識候補として登録されており、前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と当該ワードの抜粋部分である第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。
【0008】
このような音声認識システムによれば、第1音声認識辞書と第2音声認識辞書を用いて、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より強力に識別する形態で、第1音声認識辞書に登録されたワードの音声認識を行うことができる。
【0009】
また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第1認識候補が複数、各第1認識候補に各々対応する複数の第1しきい値と共に登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、対応する第1しきい値が示すレベルより良好に入力した音声に整合する第1認識候補を対象候補として検出する第1音声認識手段と、第2音声認識手段と、第2音声認識手段によって用いられる第2音声認識辞書と、認識手段とを備えたものである。ここで、当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードが各々第2認識候補として、当該各第2認識候補に各々対応する複数の第2しきい値と共に登録されており、前記第1の認識モードにおいて、前記第2音声認識辞書に登録された各第2認識候補に対応する第2しきい値は、当該第2認識候補として登録されたワードと同じワードである第1認識候補に対応する第1しきい値より良好な整合のレベルを示しており、前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、対応する第2しきい値が示すレベルより良好に入力した音声に整合する第2認識候補を対象候補として検出し、前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。
【0010】
このような音声認識システムによれば、第1音声認識辞書と第2音声認識辞書を用いた異なるしきい値による評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第1音声認識辞書に登録されたワードの音声認識を行うことができる。
【0011】
また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第1認識候補が複数、各第1認識候補に各々対応する複数の第1しきい値と共に登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、対応する第1しきい値が示すレベルより良好に入力した音声に整合する第1認識候補を対象候補として検出する第1音声認識手段と、第2音声認識手段と、前記第2音声認識手段によって用いられる第2音声認識辞書と、認識手段とを設けたものである。ここで、当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、前記第1の認識モードにおいて第2音声認識手段によって用いられる第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分と、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードとが各々第2認識候補として、当該各第2認識候補に各々対応する複数の第2しきい値と共に登録されており、前記第1の認識モードにおいて、前記第2音声認識辞書に登録された、前記第1認識候補として登録されているワードと同じワードである第2認識候補に対応する第2しきい値は、当該第2認識候補として登録されたワードと同じワードである第1認識候補に対応する第1しきい値より良好な整合のレベルを示しており、前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、対応する第2しきい値が示すレベルより良好に入力した音声に整合する第2認識候補を対象候補として検出し、前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と当該ワードである第2認識候補と当該ワードの抜粋部分である第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。
【0012】
ここで、このような音声認識システムは、前記第1の認識モードにおいて、前記認識手段が、前記算定した数が最大のワードが複数存在する場合には、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードをユーザの発話したワードとして認識するように構成してもよい。
【0013】
また、この場合には、音声認識システムを、前記第1の認識モードにおいて、前記認識手段が、前記算定した数が最大のワードが複数存在し、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードが複数存在する場合には、前記算定した数が最大のワードであって、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードのうちの、前記対象候補として検出された当該ワードである第1認識候補に対応する第1しきい値と、前記対象候補として検出された当該ワードである第2認識候補に対応する第2しきい値と、前記対象候補として検出された当該ワードの抜粋部分である第2認識候補に対応する第2しきい値との最小値が、最小であるワードをユーザの発話したワードとして認識するように構成してもよい。
【0014】
このような音声認識システムによれば、第1音声認識辞書と第2音声認識辞書を用いた異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第1音声認識辞書に登録されたワードの音声認識を行うことができる。
【0015】
また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第1認識候補が複数登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、入力した音声に所定レベルより良好に整合する第1認識候補を対象候補として検出する第1音声認識手段と、第2音声認識手段と、第2音声認識手段によって用いられる第2音声認識辞書と、認識手段とを備えたものである。ここで、当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第2認識候補として登録されており、前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識手段によって前記対象候補として検出された第1認識候補であるワードが複数存在する場合には、当該複数のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記第2音声認識手段によって前記対象候補として検出されたワードをユーザの発話したワードとして認識する。
【0016】
このような音声認識システムによれば、第1音声認識辞書と第2音声認識辞書を用いて、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第1音声認識辞書に登録されたワードの音声認識を行うことができる。
【0017】
また、以上の音声認識システムは、前記マイクロフォンを、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間中に配置し、当該音声認識システムに前記第1の認識モードと第2の認識モードを含む複数の認識モードを設け、前記第2の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書を、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードが各々第2認識候補として登録されているものとし、前記第2の認識モードにおいて、前記第2音声認識手段において、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、前記第2の認識モードにおいて、前記認識手段において、前記第2音声認識手段によって第2認識候補が前記対象候補として検出された後の所定期間中は、当該対象候補として検出された第2認識候補と同じワードである第1認識候補が前記第1音声認識手段によって前記対象候補として検出されても、当該対象候補として検出された第1認識候補であるワードをーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識手段によって前記対象候補として検出された第1認識候補であるワードをユーザの発話したワードとして認識するように構成してもよい。
【0018】
このような音声認識システムは、当該音声認識システムに、前記第1音声認識辞書と第2音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、ユーザの音声入力を受け付ける音声入力受付手段と、前記認識モードを制御する認識モード制御手段とを設けると共に、当該音声入力受付手段に、予め定めた音声認識データが表す前記第1音声認識辞書と第2音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第1音声認識辞書と第2音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第1音声認識辞書と第2音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として1回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを設け、音声入力受付手段において、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、前記認識モード制御手段において、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第2の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードを、前記第1の認識モードと前記第2の認識モードの間で、前記前回音声入力として受け付けたワードに応じて定まる音声認識データに応じて切り替えるように構成してもよい。
【0019】
または、このような音声認識システムは、当該音声認識システムに、前記第1音声認識辞書と第2音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、ユーザの音声入力を受け付ける音声入力受付手段と、前記認識モードを制御する認識モード制御手段とを設けると共に、当該音声入力受付手段に、予め定めた音声認識データが表す前記第1音声認識辞書と第2音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第1音声認識辞書と第2音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第1音声認識辞書と第2音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として1回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを設け、当該音声入力受付手段において、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、前記認識モード制御手段において、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第2の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードとして前記第1の認識モードを設定するように構成してもよい。
【0020】
また、以上の音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであってもよい。
【発明の効果】
【0021】
以上のように、本発明によれば、複数の認識候補について音声認識を行う際に、発音が類似している認識候補が存在する場合にも、より適正に音声認識を行うことができる。
【発明を実施するための形態】
【0023】
以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図1に、本実施形態に係る情報処理システムの構成を示す。
図示するように、情報処理システムは、データ処理部1、辞書DB2、マイクロフォン3、音声入力部4、スピーカ5、オーディオソース6、表示装置7、GPS受信器等のその他の周辺装置8を備えている。
【0024】
ここで、オーディオソース6は、データ処理部1の制御に従って動作する、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声をスピーカ5と、音声入力部4に出力する。また、スピーカ5は、オーディオソース6から入力した音声を車内に放射する。
【0025】
また、音声入力部4は、マイクロフォン3から入力するユーザの発話音声を音声認識し認識結果をデータ処理部1に出力する
そして、データ処理部1は、音声入力部4をコマンド等の音声入力に、表示装置7を画面の表示に用いながら、各種処理を行う。
また、音声入力部4は、第1音声認識エンジン41、第1音声認識辞書42、第2音声認識エンジン43、第2音声認識辞書44、認識調整部45を備えている。
【0026】
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部1や音声入力部4は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。
次に、辞書DB2には、
図2に示すように、第1階層認識データから第3階層認識データまでの複数階層の認識データが格納されている。
【0027】
そして、各階層の認識データには、オーディオキャンセルモードと類似ワード強識別モードのいずれかが認識モードとして登録される。また、各階層の認識データには、主音声認識辞書と副音声認識辞書が登録される。
主音声認識辞書は、音声認識用の辞書であり、複数のワードのそれぞれについて、番号(No.)と、ワードと、しきい値Thが登録されている。
さて、第1階層認識データの認識モードは、オーディオキャンセルモードに設定されており、第1階層認識データの主音声認識辞書は、初期状態において音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)としきい値Thが登録されている。
【0028】
そして、第2階層認識データは、第1階層認識データの主音声認識辞書に登録されている各ワードに対応して複数設けることができ、第3階層認識データは、各第2階層認識データの主音声認識辞書に登録されている各ワードに対応して複数設けることができる。すなわち辞書DB2は、各階層の認識データをノードとするツリー構造を備えている。
【0029】
また、第2階層認識データの主音声認識辞書は、当該第2階層認識データに対応する第1階層認識データの主音声認識辞書のワードが、音声入力部4における音声認識によって認識結果として算定されたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)としきい値Thが登録されている。
【0030】
また、第3階層認識データの主音声認識辞書は、当該第3階層認識データに対応する第2階層認識データの主音声認識辞書のワードが、音声入力部4における音声認識によって認識結果として算定されたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)としきい値Thが登録されている。
【0031】
次に、第2階層認識データの各々と第3階層認識データの各々の認識モードを、オーディオキャンセルモードとするか類似ワード強識別モードとするかは、その認識データの主音声認識辞書に発音が類似する類似ワードが含まれているかどうかによって定められており、その認識データの主音声認識辞書に発音が相互に類似する複数のワードが含まれている場合に、認識モードを類似ワード強識別モードに設定し、他の場合に認識モードをオーディオキャンセルモードに設定する。
【0032】
そして、認識モードをオーディオキャンセルモードに設定した各階層の認識データの副音声認識辞書としては、その認識データの主音声認識辞書の各ワードのしきい値Thを所定値増加させたものを登録する。すなわち、認識モードをオーディオキャンセルモードに設定した認識データの主音声認識辞書と副音声認識辞書とは、副音声認識辞書の各ワードのしきい値Thが、主音声認識辞書のものより所定値大きい点のみが異なる。
【0033】
また、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードと同じワードや、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードの他のワードと発音が類似していない部分をワードとして登録する。
【0034】
すなわち、たとえば、
図2の第3階層認識データに示すように、主音声認識辞書に登録されている「ひとつめにいく」、「ふたつめにいく」、「みっつめにいく」、「よっつめにいく」、「いつつめにいく」との相互に発音が類似する5つのワードについては、これらの5つのワードと、各ワードの他のワードと異なる部分「ひと」、「ふた」、「みっ」、「よっ」、「いつ」をワードとして副音声認識辞書に登録する。また、同様に、主音声認識辞書に登録されている「つぎのぺーじ、「まえのぺーじ」との相互に発音が類似する2つのワードについては、これらの2つのワードの他のワードと異なる部分「つぎ」、「まえ」を副音声認識辞書に登録する。
【0035】
また、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、各ワードの番号(No.)としきい値Thに加え、参照番号(ref)と部分フラグ(P)を登録する。ここで、副音声認識辞書の各ワードのしきい値Thは、そのワードと一致する、もしくは、そのワードが部分である主音声認識辞書のワードのしきい値Thより小さい値を設定する。また、副音声認識辞書の各ワードの参照番号(ref)には、そのワードと一致する、もしくは、そのワードが部分である主音声認識辞書のワードの番号(No.)を設定する。また、副音声認識辞書の各ワードの部分フラグ(P)には、そのワードが主音声認識辞書のワードの一部である場合に、その旨を示す値(Y)を設定する。
【0036】
以上、辞書DB2について説明した。
なお、以上では、辞書DB2に登録する認識データとして、第1階層認識データから第3階層認識データまでの3階層の認識データを設ける場合について示したが、辞書DB2に登録する認識データは、2以上の任意の数の階層の認識データとしてよい。
【0037】
さて、データ処理部1は、カーナビゲーション機能やミュージックプレイヤ機能などの各種機能を備えており、起動したならば、所定の情報処理(たとえば、カーナビゲーション機能により表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、ミュージックプレイヤ機能によりオーディオソース6から音楽を出力する情報処理等)の実行を開始する。
また、データ処理部1は、音声入力の受け付けに関して以下の処理を行う。
すなわち、データ処理部1は、起動したならば、音声入力設定処理を開始し、第1階層認識データを現用認識データに設定し、音声入力部4からの認識結果の入力を待つ待受状態となる。そして、待受状態において、音声入力部4から認識結果が出力されたならば、認識結果の入力を受け付けてシーケンス実行状態に遷移し、シーケンス実行状態において、入力を受け付けた認識結果のワードに応じた処理と、現用認識データの入力を受け付けた認識結果のワードに対応する、現用認識データの一つ下の階層の認識データを現用認識データに設定することによる現用認識データの切り替えとを行いながら、音声入力部4から認識結果の入力を所定回数受け付けるシーケンスを実行する。そして、当該シーケンスが終了したならば、第1階層認識データを現用認識データに設定し、待受状態に復帰する。
【0038】
また、データ処理部1は、上述した音声入力設定処理を次のように行う。
図3に、この音声入力設定処理の手順を示す。
図示するように、音声入力設定処理においてデータ処理部1は、上述のように行われる現用認識データの設定の発生を監視する(ステップ302)。
そして、現用認識データの設定が発生したならば(ステップ302)、現用認識データの認識モードがオーディオキャンセルモードであるかどうかを調べる(ステップ304)。
【0039】
そして、認識モードがオーディオキャンセルモードであれば(ステップ304)、オーディオキャンセルモードを認識調整部45に設定し(ステップ306)、現用認識データの主音声認識辞書を第1音声認識辞書42に設定し、現用認識データの副音声認識辞書を第2音声認識辞書44に設定する(ステップ308)。
【0040】
そして、音声認識開始を認識調整部45に指示し(ステップ310)、ステップ302の監視に戻る。
一方、現用認識データの認識モードが、オーディオキャンセルモードでなく、類似ワード強識別モードである場合には(ステップ304)、類似ワード強識別モードを認識調整部45に設定し(ステップ312)、現用認識データの主音声認識辞書を第1音声認識辞書42に設定し、現用認識データの副音声認識辞書を第2音声認識辞書44に設定する(ステップ308)。
【0041】
そして、音声認識開始を認識調整部45に指示し(ステップ310)、ステップ302の監視に戻る。
以上、データ処理部1が行う音声入力設定処理について説明した。
次に、第1音声認識エンジン41と第2音声認識エンジン43において行う音声認識の動作について説明する。
第1音声認識エンジン41と第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書に格納された各認識候補のワードのスコアを算定する。
【0042】
すなわち、第1音声認識エンジン41は、認識対象音声の入力と並行して、認識対象音声に対する第1音声認識辞書42に格納されたワードのスコアを算定し、第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する第2音声認識辞書44に格納された各ワードのスコアを算定する。
【0043】
なお、第1音声認識エンジン41の認識対象音声はマイクロフォン3から入力する音声である。一方、第2音声認識エンジン43については、マイクロフォン3から入力する音声とオーディオソース6から入力する音声の一方を、選択的に、第1音声認識エンジン41の認識対象音声とすることができる。
【0044】
ここで、認識対象音声に対する音声認識辞書に登録された各ワードのスコアは、認識対象音声が表す語句と、ワードとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。
【0045】
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、音声認識辞書に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合しているワードについてはスコアを所定値減少し、整合していないワードについてはスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のワードのスコアの増加値/減少値は、たとえば、当該音声区間の時間長のワードの全音声区間の時間長に対する比率を、スコアの初期値に乗じた大きさとする。
【0046】
このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を
図4aに、ワード「あいうあい」に対して算出されるスコアの推移を
図4bに示すように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。
【0047】
すなわち、たとえば、
図4aに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。
【0048】
また、同様に、
図4bに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。
【0049】
さて、第1音声認識エンジン41と第2音声認識エンジン43は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、音声認識辞書に登録されている、そのワードのしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードのヒットを検出し、ヒットしたワードの番号(No.)をヒットデータとして認識調整部45に通知する。
【0050】
すなわち、たとえば、
図4aに示した場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、ワード「あいうえお」のヒットが検出される。
【0051】
一方、
図4bに示した場合では、ワード「あいうあいお」についてのスコアがしきい値Th以下となることはないので、このワード「あいうあいお」のヒットは検出されない。
次に、音声入力部4の認識調整部45の動作について説明する。
認識調整部45は、データ処理部1から
図3に示した音声入力設定処理によって音声認識開始を指示されたならば、オーディオキャンセルモードが設定されているときには、オーディオキャンセルモード認識処理を実行し、類似ワード強識別モードが設定されているときには、類似ワード強識別モード認識処理を実行する。
【0052】
まず、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明する。
図5に、この示すオーディオキャンセルモード認識処理の手順を示す。
図示するように、このオーディオキャンセルモード認識処理では、まず、第2音声認識エンジン43の認識対象音声をオーディオソース6から入力する音声に設定する(ステップ502)。
【0053】
そして、第1音声認識エンジン41からのヒットデータの通知の発生(ステップ504)と、第2音声認識エンジン43からのヒットデータの通知の発生(ステップ506)と、タイマのタイムアウトの発生(ステップ508)とを監視する。
【0054】
そして、第2音声認識エンジン43からのヒットデータの通知が発生したばらば(ステップ506)、マスクフラグをセットし(ステップ514)、第2音声認識エンジン43から通知さらたヒットデータが示す番号(No.)を調整ワード番号に設定する(ステップ516)。そして、上述のタイマを所定のタイムアウト時間を設定してスタートし(ステップ518)、ステップ504、506、508の監視に戻る。
【0055】
一方、タイマのタイムアウトが発生したならば(ステップ508)、マスクフラグをクリアし(ステップ510)、調整ワード番号の設定をクリアする(ステップ512)。そして、ステップ504、506、508の監視に戻る。
【0056】
また、第1音声認識エンジン41からのヒットデータの通知が発生した場合には(ステップ504)、マスクフラグがセットされているかどうを調べ(ステップ520)、マスクフラグが設定されていなければ、第1音声認識辞書の、第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ524)。そして、オーディオキャンセルモード認識処理を終了する。
【0057】
一方、ステップ520において、マスクフラグが設定されている場合には、第1音声認識エンジン41からのヒットデータが示す番号(No.)と調整ワード番号の一致の有無を調べ(ステップ522)、一致している場合には、そのままステップ504、506、508の監視に戻る。
【0058】
一方、第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードが調整ワードと一致していない場合には(ステップ522)、第1音声認識辞書の、第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ524)。そして、オーディオキャンセルモード認識処理を終了する。
【0059】
以上、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明した。
ここで、このようなオーディオキャンセルモード認識処理によれば、第2音声認識エンジン43がオーディオソース6から入力する音声に対してヒットを検出したワードは、その後、一定期間、第1音声認識エンジン41でヒットが検出されても認識結果とはしない。
【0060】
また、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されるときには、そのワードのしきい値Thは第1音声認識辞書42よりも第2音声認識辞書44の方が大きく設定されており、また、第2音声認識エンジン43に入力するオーディオソース6の音声の方が音声品質が良いので、それ以前に第2音声認識エンジン43で、そのワードのヒットが検出される。
【0061】
したがって、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されてしまった場合でも、当該ワードが認識結果としてデータ処理部1に出力されてしまうことが抑止される。
【0062】
次に、類似ワード強識別モードが設定されているときに認識調整部45が行う類似ワード強識別モード認識処理について説明する。
図6に、この類似ワード強識別モード認識処理の手順を示す。
図示するように、類似ワード強識別モード認識処理において認識調整部45は、まず、第2音声認識エンジン43の認識対象音声をマイクロフォン3から入力する音声に設定する(ステップ602)。
【0063】
そして、第1音声認識エンジン41もしくは第2音声認識エンジン43からのヒットデータの通知の発生を監視する(ステップ604)。
そして、第1音声認識エンジン41もしくは第2音声認識エンジン43からのヒットデータの通知が発生したならば(ステップ604)、通知されたヒットデータを通知元の音声認識エンジンと対応づけて保存し(ステップ606)、所定のタイムアウト時間(たとえば、500ms)を設定したタイマをスタートする(ステップ608)。
【0064】
また、次に、第1音声認識エンジン41もしくは第2音声認識エンジン43からのヒットデータの通知の発生と(ステップ610)と、ステップ608でスタートしたタイマのタイムアウトの発生(ステップ612)とを監視する。
【0065】
そして、第1音声認識エンジン41もしくは第2音声認識エンジン43からのヒットデータの通知が発生したならば(ステップ610)、通知されたヒットデータを通知元の音声認識エンジンと対応づけて保存し(ステップ618)、ステップ610、612に監視に戻る。
【0066】
一方、タイマのタイムアウトが発生したならば(ステップ612)、保存されているヒットデータが番号(No.)を示すワードを解析し、認識結果とするワードを算定する(ステップ614)。
【0067】
ここで、ステップ614では、以下のように、認識結果とするワードを算定する。
すなわち、まず、通知元の音声認識エンジンと対応づけて保存されている各ヒットデータについて、ヒットデータが表すワードの番号(No.)と通知元の音声認識エンジンより、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードと、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されているワードとを識別する。
【0068】
そして、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードの番号(No.)の値と、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されていたワードの参照番号(ref)の値とのいずれかとして、最も多く出現する値を算定する。
【0069】
そして、最も多く出現する値が一つであれば、その値を番号(No.)として持つ、第1音声認識辞書42に登録されていたワードを認識結果とするワードとして算定する。
すなわち、たとえば、
図2の第3階層認識データが現用認識データであり、第3階層認識データの主音声認識辞書が第1音声認識辞書42に設定されており、第3階層認識データの副音声認識辞書が第2音声認識辞書44に設定されているときに、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードが番号(No.)が1の「ひとつめにいく」と番号(No.)が5の「いつつめにいく」であり、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されていたワードが参照番号(ref)が1の「ひと」と参照番号(ref)が1の「ひとつめにいく」であれば、値1の出現回数が3、値5の出現回数が1となって、値1が最も多く出現する値となるので、1を番号(No.)として持つ、第1音声認識辞書42に登録されているワード「ひとつめにいく」を認識結果とするワードとして算定する。
【0070】
このようにすることにより、発音が類似する複数のワードを、異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えて総合的に評価することができるようになり、この結果、発音が類似する複数のワードについても良好に音声認識できるようになる。
【0071】
一方、最も多く出現する値が複数あれば、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されていたワードのうちに、最も多く出現する値を参照番号(ref)の値として持ち、かつ、部分フラグ(P)に値(Y)が登録されているワード、すなわち、そのワードが第1音声認識辞書42に登録されていたワードの部分である旨が設定されているワードである最多出現部分ワードが存在するかどうかを調べる。
【0072】
そして最多出現部分ワードが存在し、存在した最多出現部分ワードの参照番号(ref)が全て等しければ、存在したワードの参照番号(ref)の値を番号(No.)として持つ、第1音声認識辞書42に登録されているワードを認識結果とするワードとして算定する。
【0073】
すなわち、たとえば、
図2の第3階層認識データが現用認識データであり、第3階層認識データの主音声認識辞書が第1音声認識辞書42に設定されており、第3階層認識データの副音声認識辞書が第2音声認識辞書44に設定されているときに、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードが番号(No.)が1の「ひとつめにいく」と番号(No.)が2の「ふたつめにいく」と番号(No.)が5の「いつつめにいく」であり、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されているワードが参照番号(ref)が1の「ひと」と、参照番号(ref)が5の「いつつめにいく」であれば、1と5が最も多く出現する値となるが、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されているワードであって参照番号(ref)として最も多く出現する値1または5を持つワードのうちで、部分フラグ(P)に値(Y)が登録されている第2音声認識辞書44のワードは参照番号(ref)が1の「ひと」のみであるので、1を番号(No.)として持つ、第1音声認識辞書42に登録されていたワード「ひとつめにいく」を認識結果とするワードとして算定する。
【0074】
このようにすることにより、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価結果をより重要視して、認識結果とするワードを算定できるようになる。
【0075】
一方、最多出現部分ワードが存在しない場合には、最も多く出現する値を番号(No.)として持つ第1音声認識辞書42に登録されているワードと、最も多く出現する値を参照番号(ref)としてもつ第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されているワードのうちの、そのワードのしきい値Thが最小であるワードを算定し、算定したワードが第1音声認識辞書42のワードであれば、そのワードを認識結果とするワードとして算定し、算定したワードが第2音声認識辞書44のワードであれば、そのワードの参照番号(ref)の値を番号(No.)として持つ、第1音声認識辞書42に登録されているワードを認識結果とするワードとして算定する。
【0076】
また、最多出現部分ワードが存在し、存在した最多出現部分ワードの参照番号(ref)が全て等しいものでなければ、最多出現部分ワードの参照番号(ref)を、参照番号(ref)としてもつ第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されていたワードと、最多出現部分ワードの参照番号(ref)を番号(No.)として持つ第1音声認識エンジン41でヒットが検出された1音声認識辞書に登録されていたワードのうちの、そのワードのしきい値Thが最小であるワード算定し、算定したワードが第1音声認識辞書42のワードであれば、そのワードを認識結果とするワードとして算定し、算定したワードが第2音声認識辞書44のワードであれば、そのワードの参照番号(ref)の値を番号(No.)として持つ、第1音声認識辞書42に登録されているワードを認識結果とするワードとして算定する。
【0077】
ただし、このステップ614は、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードが一つである場合には、そのワードを認識結果とするワードとして算定し、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードが複数ある場合には、当該複数のワードの各々について、そのワードの番号(No.)を参照番号(ref)として持ち部分フラグ(P)に値(Y)が登録されている第2音声認識辞書44のワードのヒットが第2音声認識エンジン43で検出されているかどうかを調べ、ヒットが第2音声認識エンジン43で検出されているワードが当該複数のワードのうちに一つだけ存在する場合には、そのワードを認識結果とするワードとして算定する処理としてもよい。
【0078】
そして、算定した認識結果をデータ処理部1に出力し(ステップ616)類似ワード強識別モード認識処理を終了する。
以上、類似ワード強識別モードが設定されているときに認識調整部45が行う類似ワード強識別モード認識処理について説明した。
さて、ここで、以上のような情報処理装置の動作例を
図7に示す。
まず、起動したデータ処理部1は、表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、オーディオソース6から音楽を出力する情報処理を開始する。
また、データ処理部1は、起動したならば、音声入力設定処理を開始し、第1階層認識データを現用認識データに設定することにより、
図7a2に示すように第1階層認識データの主音声認識データを第1音声認識辞書42に設定し、
図7a3に示すように第1階層認識データの副音声認識データを第2音声認識辞書44に設定すると共に、認識調整部45に、第1階層認識データに認識モードとして登録されているオーディオキャンセルモードを設定する。
【0079】
そして、この結果、音声入力部4の認識調整部45において、オーディオキャンセルモード認識処理によって、第1音声認識辞書42に登録されたワードの音声認識が、オーディオソース6の出力音声による誤認識を第2音声認識辞書44を用いて抑止しながら行われる。
【0080】
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「もくてきちせってい」を発話すると、認識調整部45により、ワード「もくてきちせってい」が認識結果として算定され、ワード「もくてきちせってい」が認識結果として音声入力部4からデータ処理部1に出力される。
【0081】
データ処理部1は、ワード「もくてきちせってい」を認識結果として受け付けたならば、これに応答して、第1階層認識データの主音声認識辞書のワード「もくてきちせってい」に対応する第2階層認識データを、現用認識データに設定する。そして、
図7b1に示すように、表示装置7の表示画面を、現用認識データに設定した第2階層認識データの主音声認識データに登録されているワードのリストを含めた画面に変更する。
【0082】
また、データ処理部1は、
図7b2に示すように現用認識データに設定した第2階層認識データの主音声認識データを第1音声認識辞書42に設定し、
図7b3に示すように現用認識データに設定した第2階層認識データの副音声認識データを第2音声認識辞書44に設定すると共に、認識調整部45に、現用認識データに設定した第2階層認識データに認識モードとして登録されているオーディオキャンセルモードを設定する。
【0083】
そして、この結果、音声入力部4の認識調整部45において、オーディオキャンセルモード認識処理によって、第1音声認識辞書42に登録されたワードの音声認識が、オーディオソース6の出力音声による誤認識を第2音声認識辞書44を用いて抑止しながら行われる。
【0084】
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「ちかくのらーめんや」を発話すると、認識調整部45により、ワード「ちかくのらーめんや」が認識結果として算定され、ワード「ちかくのらーめんや」が認識結果として音声入力部4からデータ処理部1に出力される。
【0085】
データ処理部1は、ワード「ちかくのらーめんや」を認識結果として受け付けたならば、これに応答して、現用認識データに設定している第2階層認識データの主音声認識辞書のワード「ちかくのらーめんや」に対応する第3階層認識データを、現用認識データに設定する。そして、現在位置の近くのラーメン屋を、データ処理部1が備えているカーナビゲーション機能により探索し、
図7c1に示すように、表示装置7の表示画面を、現用認識データに設定した第3階層認識データの主音声認識データに登録されているワードのリストを、リスト中の現用認識データに設定した第3階層認識データの主音声認識データに登録されている「ひとつめにいく」から「いつつめにいく」の5つのワードに、探索した現在位置の近くの5つのラーメン屋の表示を各々対応づけた形態で含めた画面に変更する。
【0086】
また、データ処理部1は、
図7c2に示すように現用認識データに設定した第3階層認識データの主音声認識データを第1音声認識辞書42に設定し、
図7c3に示すように現用認識データに設定した第3階層認識データの副音声認識データを第2音声認識辞書44に設定し、認識調整部45に、現用認識データに設定した第3階層認識データに認識モードとして登録されている類似ワード強識別モードを設定する。
【0087】
そして、この結果、音声入力部4の認識調整部45において、類似ワード強識別モード認識処理によって、上述のように、第1音声認識辞書42と第2音声認識辞書44を用いた異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より良好に識別する形態で、第1音声認識辞書42に登録されたワードの音声認識が行われる。
【0088】
そして、この状態で、ユーザが第1音声認識辞書42に登録されているワード「ひとつめにいく」を発話すると、認識調整部45により、ワード「ひとつめにいく」が認識結果として算定され、ワード「ひとつめにいく」が認識結果として音声入力部4からデータ処理部1に出力される。
【0089】
データ処理部1は、ワード「ひとつめにいく」を認識結果として受け付けたならば、ワード「ひとつめにいく」に対応づけて
図7c1の画面に表したラーメン屋を目的地に設定し、データ処理部1が備えているカーナビゲーション機能において目的地までの道案内のための処理を開始する。
【0090】
さて、以上のように類似ワード強識別モードを設定しているときには、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止は行われない。しかし、類似ワード強識別モードが設定されるのは、第1階層認識データ以外の階層の認識データが現用認識データに設定されているときであり、第1階層認識データ以外の階層の認識データが現用認識データに設定されるときは、ユーザが一連の階層的な音声入力を連続的に行っているときである。
【0091】
したがって、類似ワード強識別モードを設定してから、ユーザの発話による音声入力が行われるまでの期間は短く、この間に、第1音声認識辞書42に設定されているワードと同じワードの音声が、オーディオソース6から出力されることは希である。
【0092】
したがって、第1階層認識データ以外の階層の認識データを現用認識データに設定しているときに、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止を行わなくても実用上、支障が生じることはない。
【0093】
なお、第1階層認識データを現用認識データに設定しているときには、第1階層認識データを現用認識データに設定してからユーザの発話による音声入力が発生するまでの期間は不定であり、この間に、第1音声認識辞書42に設定されているワードと同じワードの音声がオーディオソース6から出力される可能性は小さくない。よって、第1階層認識データを現用認識データに設定しているときには、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止を行うことが重要となる。
【0094】
以上、本発明の実施形態について説明した。
なお、以上の実施形態では、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードに一致する語句や、当該ワードの他のワードと発音が類似していない部分をワードとして登録したが、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードに一致する語句のみを登録したり、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードの他のワードと発音が類似していない部分のみを登録するようにしてもよい。
【0095】
また、以上の実施形態においては、第1階層認識データ以外の各階層の認識データの認識モードを、全て類似ワード強識別モードに設定するようにしてもよい。