(58)【調査した分野】(Int.Cl.,DB名)
スピーカから、当該スピーカにオーディオソース機器から出力された音声が放射される空間の中に配置されたマイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ワードが複数登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第1音声認識部と、
第2音声認識部と、
第2音声認識部によって用いられる第2音声認識辞書と、
ユーザの発話したワードを認識する認識部と、
第1の認識モードと第2の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部として機能させるコンピュータプログラムであって、
前記第1の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、
前記第1の認識モードにおいて、前記第2音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第1の認識モードにおいて、前記認識部は、前記第2音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第1音声認識部によって前記対象候補として検出されても、当該前記第1音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識し、
第2の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、
前記第2の認識モードにおいて、前記第2音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第2の認識モードにおいて、前記認識部は、前記第1音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第2音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とするコンピュータプログラム。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図1に、本実施形態に係る情報処理システムの構成を示す。
図示するように、情報処理システムは、データ処理部1、辞書DB2、マイクロフォン3、音声入力部4、スピーカ5、ラジオ受信器やミュージックプレイヤ等のオーディオソース6、表示装置7、複数のカメラ8、GPS受信器等のその他の周辺装置9を備えている。
【0020】
ここで、音声入力部4は、マイクロフォン3から入力するユーザの発話音声を音声認識し認識結果をデータ出力部に出力する。
また、オーディオソース6は、データ処理部1の制御に従って動作する、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声を、スピーカ5と、音声入力部4に出力する。また、スピーカ5は、オーディオソース6から入力した音声を車内に放射する。
【0021】
また、複数のカメラ8は、自動車の前方を撮影するフロントカメラや、自動車の後方を撮影するバックカメラや、自動車の側方を撮影するサイドカメラ等である。
そして、データ処理部1は、音声入力部4をコマンド等の音声入力に、表示装置7を画面の表示に用いながら、各種処理を行うことができる。
また、音声入力部4は、第1音声認識エンジン41、第1音声認識辞書42、第2音声認識エンジン43、第2音声認識辞書44、認識調整部45を備えている。
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部1や音声入力部4は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。
【0022】
次に、辞書DB2には、
図2に示すように、第1階層認識データから第3階層認識データまでの複数階層の認識データが格納されている。
各階層の認識データは、音声認識に用いられる音声認識辞書を著すものであり、複数のワードのそれぞれについて、番号(No.)とワードとが登録されている。
また、第2階層認識データは、第1階層認識データに登録されている各ワードに対応して複数設けることができ、第3階層認識データは、各第2階層認識データに登録されている各ワードに対応して複数設けることができる。すなわち、辞書DB2は、各階層の認識データをノードとするツリー構造を備えている。
【0023】
そして、第2階層認識データには、当該第2階層認識データに対応する第1階層認識データのワードが、音声入力部4における音声認識によって認識結果とされたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)とが登録されている。
【0024】
また、第3階層認識データには、当該第3階層認識データに対応する第2階層認識データのワードが、音声入力部4における音声認識によって認識結果とされたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)とが登録されている。
【0025】
以上、辞書DB2について説明した。
なお、以上では、辞書DB2に登録する認識データとして、第1階層認識データから第3階層認識データまでの3階層の認識データを設ける場合について示したが、辞書DB2に登録する階層認識データは、2以上の任意の数の階層の認識データとしてよい。
【0026】
さて、データ処理部1は、カーナビゲーション機能やミュージックプレイヤ機能などの各種機能を備えており、起動したならば、所定の情報処理(たとえば、カーナビゲーション機能により表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、ミュージックプレイヤ機能によりオーディオソース6から音楽を出力する情報処理)の実行を開始する 。
【0027】
また、データ処理部1は、起動したならば、
図3に示す音声入力制御処理を開始する。
図示するように、音声入力制御処理では、後述する音声入力設定処理を開始した上で(ステップ302)、待受処理を開始する(ステップ304)。
ここで、待受処理では、第1階層認識データを現用認識データに設定し、音声入力部4から現用認識データのワードが認識結果として入力するのを待って、認識結果のワードの入力を受け付ける。
【0028】
また、音声入力部4は、第1階層認識データに登録されているワードと現用認識データに設定された認識データに登録されているワードのうちから、ユーザが発話したワードを認識し、認識したワードを認識結果としてデータ処理部1に出力する。ここで、このような音声入力部4の認識を実現する動作の詳細については後述する。
【0029】
そして、データ処理部1は、待受処理によって、認識結果として入力した現用認識データに設定している第1階層認識データのワードの入力を受け付けたならば(ステップ306)、入力を受け付けた認識結果のワードに応じた処理を行う(ステップ308)。また、認識結果の第1階層認識データのワードに対応する第2階層認識データが存在するかどうかを調べ(ステップ310)、存在する場合には、待受処理が実行中であれば(ステップ312)、待受処理を終了した上で(ステップ320)、認識結果の第1階層認識データのワードを第1階層ワードとするシーケンス実行処理を開始する(ステップ314)。
【0030】
一方、認識結果の第1階層認識データのワードに対応する第2階層認識データが存在しない場合には(ステップ310)、待受処理を継続したまま、ステップ306に戻って、待受処理による次の認識結果の入力の受け付けの発生を待つ。
【0031】
ここで、ステップ314で開始したシーケンス実行処理では、第1階層認識データの第1階層ワードに対応する第2階層認識データを現用認識データに設定した上で、現用認識データのワードの認識結果としての入力の所定回数の受け付けを、各回の認識結果の受け付け毎に、入力を受け付けた認識結果のワードに応じた処理と、認識結果のワードに対応する現用認識データの一つ下の階層の認識データの現用認識データへの設定、すなわち、現用認識データの更新とを行いながら実行するシーケンスを実行する。
【0032】
そして、シーケンス実行処理を開始したならば(ステップ314)、音声入力部4からの第1階層認識データのワードの認識結果としての入力の発生(ステップ316)と、シーケンス実行処理の終了の発生(ステップ318)を監視する。
【0033】
そして、シーケンス実行処理の実行中に、第1階層認識データのワードの認識結果としての入力が発生した場合には(ステップ316)、シーケンス実行処理を終了し(ステップ322)、ステップ308に戻って、第1階層認識データが現用認識データである待受処理において、認識結果のワードの入力として、当該第1階層認識データのワードの入力を受け付けた場合と同様の動作を行う。
【0034】
すなわち、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードに応じた処理を行うと共に(ステップ308)、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードに対応する第2階層認識データが存在すれば(ステップ310)、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードを第1階層ワードとするシーケンス実行処理を開始する(ステップ314)。
【0035】
一方、シーケンス実行処理の終了が発生した場合には(ステップ318)、ステップ304に戻って、待受処理を再開する。
以上、データ処理部1が起動時に開始する音声入力制御処理について説明した。
次に、データ処理部1は、音声入力制御処理のステップ302で開始する音声入力設定処理を次のように行う。
図4に、この音声入力設定処理の手順を示す。
図示するように、音声入力設定処理においてデータ処理部1は、上述した待受処理やシーケンス実行処理による現用認識データの設定の発生を監視する(ステップ402)。
そして、現用認識データの設定が発生したならば(ステップ402)、現用認識データの認識モードが第1階層認識データであるかどうかを判定する(ステップ404)。
そして、現用認識データが第1階層認識データであれば(ステップ404)、現用認識データである第1階層認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ406)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ408)。
【0036】
そして、音声認識開始を認識調整部45に指示し(ステップ410)、ステップ402の監視に戻る。
一方、現用認識データが1階層認識データでなければ(ステップ404)、現用認識データを第1音声認識辞書42に設定し(ステップ412)、認識モードとして並列モードを認識調整部45に設定する(ステップ414)。なお、ステップ414では、第2音声認識辞書44は更新されず、この結果、第2音声認識辞書44は第1階層認識データのまま維持される。
【0037】
そして、音声認識開始を認識調整部45に指示し(ステップ410)、ステップ402の監視に戻る。
以上、データ処理部1が行う音声入力設定処理について説明した。
次に、第1音声認識エンジン41と第2音声認識エンジン43で行う音声認識の動作について説明する。
第1音声認識エンジン41と第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書に格納された各認識候補のワードのスコアを算定する。
【0038】
すなわち、第1音声認識エンジン41は、認識対象音声の入力と並行して、認識対象音声に対する第1音声認識辞書42に格納されたワードのスコアを算定し、第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する第2音声認識辞書44に格納された各ワードのスコアを算定する。
【0039】
なお、第1音声認識エンジン41の認識対象音声はマイクロフォン3から入力する音声である。一方、第2音声認識エンジン43については、選択的に、マイクロフォン3から入力する音声とオーディオソース6から入力する音声の一方を、第2音声認識エンジン43の認識対象音声とすることができる。
【0040】
ここで、認識対象音声に対する音声認識辞書に登録された各ワードのスコアは、認識対象音声が表す語句と、ワードとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。
【0041】
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、音声認識辞書に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のスコアの増加値/減少値は、たとえば、当該音声区間のワードの全音声区間に対する比率を、スコアの初期値に乗じた大きさとする。
【0042】
このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を
図5aに示し、ワード「あいうあい」に対して算出されるスコアの推移を
図5bに示したように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。
【0043】
すなわち、たとえば、
図5aに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。
【0044】
また、同様に、
図5bに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。
【0045】
さて、第1音声認識エンジン41と第2音声認識エンジン43は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、予め設定されたしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードのヒットを検出し、ヒットしたワードの番号(No.)をヒットデータとして認識調整部45に通知する。
【0046】
すなわち、たとえば、
図5aに示した場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、ワード「あいうえお」のヒットが検出される。
【0047】
一方、
図5bに示した場合では、ワード「あいうあいお」についてのスコアがしきい値Th以下となることはないので、このワード「あいうあいお」のヒットは検出されない。
次に、音声入力部4の認識調整部45の動作について説明する。
認識調整部45は、データ処理部1から
図4に示した音声入力設定処理によって音声認識開始を指示されたならば、オーディオキャンセルモードが設定されているときには、オーディオキャンセルモード認識処理を実行し、並列認識モードが設定されているときには、並列認識モード認識処理を実行する。
【0048】
まず、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明する。
図6に、この示すオーディオキャンセルモード認識処理の手順を示す。
図示するように、このオーディオキャンセルモード認識処理では、予め定めた値Th1を第1音声認識エンジン41に上述したしきい値Thとして設定し、予め定めた値Th2を第2音声認識エンジン43に上述したしきい値Thを設定する(ステップ602)。ここで、Th1、Th2としては、Th2>Th1となる値を用いる。
【0049】
そして、次に、第2音声認識エンジン43の認識対象音声をオーディオソース6から入力する音声に設定する(ステップ604)。
そして、第1音声認識エンジン41からのヒットデータの通知の発生(ステップ606)と、第2音声認識エンジン43からのヒットデータの通知の発生(ステップ608)と、タイマのタイムアウトの発生(ステップ610)とを監視する。
【0050】
そして、第2音声認識エンジン43からのヒットデータの通知が発生したばらば(ステップ608)、マスクフラグをセットし(ステップ616)、第2音声認識エンジン43から通知さらたヒットデータが示す番号(No.)を調整ワード番号に設定する(ステップ618)。そして、上述のタイマを所定のタイムアウト時間を設定してスタートし(ステップ620)、ステップ606、608、610の監視に戻る。
【0051】
一方、タイマのタイムアウトが発生したならば(ステップ610)、マスクフラグをクリアし(ステップ612)、調整ワード番号をクリアする(ステップ614)。そして、ステップ606、608、610の監視に戻る。
【0052】
また、第1音声認識エンジン41からのヒットデータの通知が発生した場合には(ステップ606)、マスクフラグがセットされているかどうを調べ(ステップ622)、マスクフラグがセットされていなければ、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ626)。そして、オーディオキャンセルモード認識処理を終了する。
【0053】
一方、ステップ622において、マスクフラグがセットされている場合には、第1音声認識エンジン41からのヒットデータが示す番号(No.)がワードが調整ワード番号と一致しているかどうかを調べ(ステップ624)、一致している場合には、そのままステップ606、608、610の監視に戻る。
【0054】
一方、第1音声認識エンジン41からのヒットデータが示す番号(No.)が調整ワード番号と一致していない場合には(ステップ624)、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ626)。そして、オーディオキャンセルモード認識処理を終了する。
【0055】
以上、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明した。
ここで、このようなオーディオキャンセルモード認識処理によれば、第2音声認識エンジン43がオーディオソース6から入力する音声に対してヒットを検出したワードは、その後、一定期間、第1音声認識エンジン41でヒットが検出されても認識結果とはしない。
【0056】
また、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されるときには、そのワードのしきい値Thは第1音声認識エンジン41よりも第2音声認識エンジン43の方が大きく設定されており、また、第2音声認識エンジン43に入力するオーディオソース6の音声の方が音声品質が良いので、それ以前に第2音声認識エンジン43で、そのワードのヒットが検出される。
【0057】
したがって、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されてしまった場合でも、当該ワードが認識結果としてデータ処理部1に出力されてしまうことが抑止される。
【0058】
次に、並列認識モードが設定されているときに認識調整部45が行う並列認識モード認識処理について説明する。
図7に、この並列認識モード認識処理の手順を示す。
図示するように、この並列認識モード認識処理では、上述した値Th1を第1音声認識エンジン41と第2音声認識エンジン43の双方にしきい値Thとして設定する(ステップ702)。
【0059】
また、第2音声認識エンジン43の認識対象音声をマイクロフォン3から入力する音声に設定する(ステップ704)。
そして、第1音声認識エンジン41からのヒットデータの通知の発生(ステップ706)と、第2音声認識エンジン43からのヒットデータの通知の発生(ステップ708)とを監視する。
【0060】
そして、第1音声認識エンジン41からのヒットデータの通知が発生した場合には(ステップ706)、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ710)。そして、並列認識モード認識処理を終了する。
【0061】
一方、第2音声認識エンジン43からのヒットデータの通知が発生した場合には(ステップ708)、第2音声認識辞書44の第2音声認識エンジン43からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ712)。そして、並列認識モード認識処理を終了する。
【0062】
以上、並列認識モードが設定されているときに認識調整部45が行う並列認識モード認識処理について説明した。
このような並列認識モード認識処理によれば、第1音声認識辞書42に登録された各ワードと第2音声認識辞書44に登録されたワードの双方について音声認識を行うことができるようになる。
【0063】
さて、ここで、以上のような情報処理装置の動作例を
図8に示す。
起動したデータ処理部1は、表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、オーディオソース6から音楽を出力する情報処理を開始する。
また、データ処理部1は、起動したならば、音声入力設定処理を開始し、第1階層認識データを現用認識データに設定することにより、
図8a2、
図8a3に示すように第1階層認識データを第1音声認識辞書42と第2音声認識辞書44の双方に設定し、認識調整部45にオーディオキャンセルモードを設定する。
【0064】
そして、この結果、音声入力部4の認識調整部45において、オーディオキャンセルモード認識処理によって、第1音声認識辞書42に登録されたワードの音声認識が、オーディオソース6の出力音声による誤認識を第2音声認識辞書44を用いて抑止しながら行われる。
【0065】
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「もくてきちせってい」を発話すると、認識調整部45により、ワード「もくてきちせってい」が認識結果として算定され、ワード「もくてきちせってい」が認識結果として音声入力部4からデータ処理部1に出力される。
【0066】
データ処理部1は、ワード「もくてきちせってい」を認識結果として受け付けたならば、これに応答して、第1階層認識データのワード「もくてきちせってい」に対応する第2階層認識データを、現用認識データに設定する。そして、
図8b1に示すように、表示装置7の表示画面を、現用認識データに設定した第2階層認識データに登録されているワードのリストを含めた画面に変更する。
【0067】
また、データ処理部1は、
図8b2に示すように現用認識データに設定した第2階層認識データを第1音声認識辞書42に設定する。一方、
図8b3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
【0068】
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第2階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
【0069】
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「ちかくのらーめんや」を発話すると、認識調整部45により、ワード「ちかくのらーめんや」が認識結果として算定され、ワード「ちかくのらーめんや」が認識結果として音声入力部4からデータ処理部1に出力される。
【0070】
データ処理部1は、ワード「ちかくのらーめんや」を認識結果として受け付けたならば、これに応答して、現用認識データに設定している第2階層認識データのワード「ちかくのらーめんや」に対応する第3階層認識データを、現用認識データに設定する。そして、現在位置の近くのラーメン屋を、データ処理部1が備えているカーナビゲーション機能により探索し、
図8c1に示すように、表示装置7の表示画面を、現用認識データに設定した第3階層認識データに登録されているワードのリストを、リスト中の現用認識データに設定した第3階層認識データに登録されている「ひとつめにいく」から「いつつめにいく」の5つのワードに、探索した現在位置の近くの5つのラーメン屋の表示を各々対応づけた形態で含めた画面に変更する。
【0071】
また、データ処理部1は、
図8c2に示すように現用認識データに設定した第3階層認識データを第1音声認識辞書42に設定する。一方、
図8c3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
【0072】
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第3階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
【0073】
そして、この状態で、ユーザが第1音声認識辞書42に登録されているワード「ひとつめにいく」を発話すると、認識調整部45により、ワード「ひとつめにいく」が認識結果として算定され、ワード「ひとつめにいく」が認識結果として音声入力部4からデータ処理部1に出力される。そして、データ処理部1は、ワード「ひとつめにいく」を認識結果として受け付けたならば、ワード「ひとつめにいく」に対応づけて
図8c1の画面に表したラーメン屋を目的地に設定し、データ処理部1が備えているカーナビゲーション機能において目的地までの道案内のための処理を開始する。
【0074】
一方、
図8b1、b2、b3の第2階層認識データが第1音声認識辞書42に設定されている状態において、ユーザが第2音声認識辞書44に登録されている第1階層認識データのワード「ばっくかめら」を発話すると、認識調整部45により、ワード「ばっくかめら」が認識結果として算定され、ワード「ばっくかめら」が認識結果として音声入力部4からデータ処理部1に出力される。
【0075】
ここで、本実施形態に係るデータ処理部1は、「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードが認識結果として入力したときに対応するカメラ8で撮影した画像を表示装置7に表示する処理を行うものであるとする。
【0076】
この場合、データ処理部1は、ワード「ばっくかめら」を認識結果として受け付けたならば、第1階層認識データのワード「ばっくかめら」に対応する第2階層認識データを、現用認識データに設定する。
【0077】
また、データ処理部1は、
図9d1に示すように、カメラ8の一つとして備えたバックカメラで撮影した自動車後方の画像を、現用認識データに設定した第2階層認識データに登録されているワードのリストと共に表示する。なお、
図9a1、a2、a3は
図8a1、a2、a3と同じものであり、
図9b1、b2、b3は、
図8b1、b2、b3と同じものである。
【0078】
また、データ処理部1は、
図9d2に示すように現用認識データに設定した第2階層認識データを第1音声認識辞書42に設定する。一方、
図9d3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
【0079】
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第2階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
【0080】
さて、以上のように並列認識モードを設定しているときには、オーディオソース6の出力音声による誤認識の抑止は行われない。しかし、並列認識モードが設定されるのは、第1階層認識データ以外の階層の階層認識データが現用認識データに設定されているときであり、第1階層認識データ以外の階層の階層認識データが現用認識データに設定されるときは、データ処理部1が上述したシーケンス実行処理を行っており、ユーザが一連の階層的な音声入力を連続的に行っているときである。
【0081】
したがって、並列認識モードを設定してから、ユーザの発話による音声入力が行われるまでの期間は短く、この間に、第1音声認識辞書42や第2音声認識辞書44に設定されているワードと同じワードの音声が、オーディオソース6から出力されることは希である。
【0082】
したがって、第1階層認識データ以外の階層の階層認識データを現用認識データに設定しているときに、オーディオソース6の出力音声による誤認識の抑止を行わなくても実用上、支障が生じることはない。
【0083】
なお、第1階層認識データを現用認識データに設定しているときには、データ処理部1は上述した待受処理を行っている状態にあり、第1階層認識データを現用認識データに設定してからユーザの発話による音声入力が発生するまでの期間は不定となる。したがって、この間に、第1音声認識辞書42に設定されているワードと同じワードの音声がオーディオソース6から出力される可能性は小さくないので、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止を行うことが必要となる。
【0084】
一方、以上のように第2音声認識辞書44を第1階層認識データに維持したまま、第1音声認識辞書42を更新して、並列認識モードを設定することにより、音声認識したワードに応じて次回認識する候補とするワードを更新しつつ、第1階層認識データのワードを常時音声認識できるようになる。
【0085】
また、ユーザにとって緊急を要する処理の実行を要求するコマンドを表すワードは、第1階層認識データに登録されることが多い。
たとえば、本実施形態に係るデータ処理部1は、上述のように「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードが認識結果として入力したときに対応するカメラ8で撮影した画像を表示装置7に表示する処理を行うものであり、第1階層認識データに登録されている、これらの「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードは、ユーザが周囲状況確認のためにカメラ8の撮影画像の表示を指示するコマンドのワードであるので、緊急を要する処理の実行を要求するコマンドを表すワードに該当する。
【0086】
したがって、本実施形態によれば、ユーザにとって緊急を要する処理の実行を要求するコマンドの音声入力を、任意の時点において受け付けることができるようになる。
以上、本発明の実施形態について説明した。
ところで、以上の実施形態は、
図4に示した音声入力設定処理に代えて、
図10に示す音声入力設定処理を行うようにしてもよい。
すなわち、この音声入力設定処理では、データ処理部1は、現用認識データの設定の発生を監視する(ステップ1002)。
そして、現用認識データの設定が発生したならば(ステップ1002)、現用認識データの認識モードが第1階層認識データであるかどうかを調べる(ステップ1004)。
そして、現用認識データが第1階層認識データであれば(ステップ1004)、現用認識データである第1階層認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ1006)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ1008)。
【0087】
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
一方、現用認識データが1階層認識データでなければ、現在、データ処理部1が、オーディオソース6からスピーカ5に音声を出力させているかどうかを調べる(ステップ1012)。
【0088】
そして、オーディオソース6からスピーカ5に音声を出力させていれば(ステップ1012)、現用認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ1006)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ1008)。
【0089】
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
また、オーディオソース6からスピーカ5に音声を出力させていなければ(ステップ1012)、現用認識データを第1音声認識辞書42に設定し、第1階層認識データを第2音声認識辞書44に設定し、(ステップ1014)、認識モードとして並列認識モードを認識調整部45に設定する(ステップ1016)。
【0090】
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
このような音声入力設定処理によれば、オーディオソース6からスピーカ5に音声が出力されているときにはオーディオソース6の出力音声による誤認識を行いつつ、オーディオソース6からスピーカ5に音声を出力させていないとき、すなわち、オーディオソース6の出力音声による誤認識が生じないときには、音声認識できるワードの数を拡大することができる。
【0091】
また、以上の実施形態では、並列認識モードのときに第1階層認識データを第2音声認識辞書44として維持するようにしたが、並列認識モードのときに、第1音声認識辞書42と同様に第2音声認識辞書44の内容を切り替えるようにしてもよい。
【0092】
すなわち、たとえば、
図11に示すように、第1階層認識データ以外の各階層の認識データには、相互に異なるワードのセットを登録した主認識データと副認識データとを含めておき、
図4に示した音声入力設定処理のステップ412や
図10に示した音声入力設定処理のステップ1014において、現用認識データの主認識データを第1音声認識辞書42に設定し、現用認識データの副認識データを第2音声認識辞書44に設定するようにしてもよい。
【0093】
このようにすることにより、並列認識モード認識処理によって音声認識できるワードを、より柔軟に設定することができるようになる。