特許6912985 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ アルパイン株式会社の特許一覧

特許6912985音声認識システム及びコンピュータプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6912985

(24)【登録日】2021年7月13日

(45)【発行日】2021年8月4日

(54)【発明の名称】音声認識システム及びコンピュータプログラム

(51)【国際特許分類】

G10L 15/32 20130101AFI20210727BHJP

G10L 15/00 20130101ALI20210727BHJP

G10L 15/10 20060101ALI20210727BHJP

G10L 15/06 20130101ALI20210727BHJP

G06F 3/16 20060101ALI20210727BHJP

【ＦＩ】

G10L15/32 220Z

G10L15/00 200J

G10L15/10 200W

G10L15/06 400W

G06F3/16 630

G06F3/16 650

【請求項の数】14

【全頁数】24

(21)【出願番号】特願2017-176219(P2017-176219)

(22)【出願日】2017年9月13日

(65)【公開番号】特開2019-53143(P2019-53143A)

(43)【公開日】2019年4月4日

【審査請求日】2020年6月26日

(73)【特許権者】

【識別番号】000101732

【氏名又は名称】アルパイン株式会社

(74)【代理人】

【識別番号】100099748

【弁理士】

【氏名又は名称】佐藤克志

(74)【代理人】

【識別番号】100103171

【弁理士】

【氏名又は名称】雨貝正彦

(74)【代理人】

【識別番号】100105784

【弁理士】

【氏名又は名称】橘和之

(74)【代理人】

【識別番号】100098497

【弁理士】

【氏名又は名称】片寄恭三

(72)【発明者】

【氏名】助川諒

(72)【発明者】

【氏名】工藤信範

【審査官】上田雄

(56)【参考文献】

【文献】特開平０９−０６９０３８（ＪＰ，Ａ）

【文献】実開平０７−０２３４００（ＪＰ，Ｕ）

【文献】国際公開第２０１４／１０３０９９（ＷＯ，Ａ１）

【文献】国際公開第２０１１／０１６１２９（ＷＯ，Ａ１）

【文献】特開２０１３−１３４３０２（ＪＰ，Ａ）

【文献】特開２００１−３０６０８８（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１５／００−１５／３４

Ｇ０６Ｆ３／１６

(57)【特許請求の範囲】

【請求項1】

スピーカから、当該スピーカにオーディオソース機器から出力された音声が放射される空間の中で発話された音声を認識する音声認識システムであって、
マイクロフォンと、
ワードが複数登録された第１音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第１音声認識部と、
第２音声認識部と、
第２音声認識部によって用いられる第２音声認識辞書と、
ユーザの発話したワードを認識する認識部と、
第１の認識モードと第２の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部とを有し、
前記第１の認識モードにおいて第２音声認識部によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、
前記第１の認識モードにおいて、前記第２音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第２音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第１の認識モードにおいて、前記認識部は、前記第２音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第１音声認識部によって前記対象候補として検出されても、当該前記第１音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第１音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識し、
第２の認識モードにおいて第２音声認識部によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、
前記第２の認識モードにおいて、前記第２音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第２の認識モードにおいて、前記認識部は、前記第１音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第２音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。

【請求項2】

請求項１記載の音声認識システムであって、
前記音声入力受付部は、
前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとするシーケンス実行処理を開始し、
前記シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、各時点において、前記第１音声認識辞書と前記第２音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第１音声認識辞書と前記第２音声認識辞書を用いつつ、前記第１階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始し、
前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とする音声認識システム。

【請求項3】

【請求項4】

請求項１記載の音声認識システムであって、
前記音声入力受付部は、
前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第１シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第２シーケンス実行処理を開始し、
前記第１シーケンス実行処理は、前記認識モードとして前記第１の認識モードを設定し、前記第１階層ワードに応じて定まる同じ音声認識辞書を設定した第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第２シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、各時点において、前記第１音声認識辞書と前記第２音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第１音声認識辞書と前記第２音声認識辞書を用いつつ、前記第１階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第１シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第２シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第２シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とする音声認識システム。

【請求項5】

請求項１記載の音声認識システムであって、
前記音声入力受付部は、
前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第１シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第２シーケンス実行処理を開始し、
前記第１シーケンス実行処理は、前記認識モードとして前記第１の認識モードを設定し、前記第１階層ワードに応じて定まる同じ音声認識辞書を設定した第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第２シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、前記第１階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第１シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第２シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とする音声認識システム。

【請求項6】

請求項１記載の音声認識システムであって、
前記音声入力受付部は、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第１の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第２の認識モードに設定することを特徴とする音声認識システム。

【請求項7】

請求項１、２、３、４、５または６記載の音声認識システムであって、
当該音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。

【請求項8】

スピーカから、当該スピーカにオーディオソース機器から出力された音声が放射される空間の中に配置されたマイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ワードが複数登録された第１音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第１音声認識部と、
第２音声認識部と、
第２音声認識部によって用いられる第２音声認識辞書と、
ユーザの発話したワードを認識する認識部と、
第１の認識モードと第２の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部として機能させるコンピュータプログラムであって、
前記第１の認識モードにおいて第２音声認識部によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、
前記第１の認識モードにおいて、前記第２音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第２音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第１の認識モードにおいて、前記認識部は、前記第２音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第１音声認識部によって前記対象候補として検出されても、当該前記第１音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第１音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識し、
第２の認識モードにおいて第２音声認識部によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、
前記第２の認識モードにおいて、前記第２音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第２の認識モードにおいて、前記認識部は、前記第１音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第２音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とするコンピュータプログラム。

【請求項9】

請求項８記載のコンピュータプログラムであって、
前記音声入力受付部は、
前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとするシーケンス実行処理を開始し、
前記シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、各時点において、前記第１音声認識辞書と前記第２音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第１音声認識辞書と前記第２音声認識辞書を用いつつ、前記第１階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始し、
前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とするコンピュータプログラム。

【請求項10】

【請求項11】

請求項８記載のコンピュータプログラムであって、
前記音声入力受付部は、
前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第１シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第２シーケンス実行処理を開始し、
前記第１シーケンス実行処理は、前記認識モードとして前記第１の認識モードを設定し、前記第１階層ワードに応じて定まる同じ音声認識辞書を設定した第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第２シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、各時点において、前記第１音声認識辞書と前記第２音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第１音声認識辞書と前記第２音声認識辞書を用いつつ、前記第１階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第１シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第２シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第２シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とするコンピュータプログラム。

【請求項12】

請求項８記載のコンピュータプログラムであって、
前記音声入力受付部は、
前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第１シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第２シーケンス実行処理を開始し、
前記第１シーケンス実行処理は、前記認識モードとして前記第１の認識モードを設定し、前記第１階層ワードに応じて定まる同じ音声認識辞書を設定した第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第２シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、前記第１階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第１シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第２シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とするコンピュータプログラム。

【請求項13】

請求項８記載のコンピュータプログラムであって、
前記音声入力受付部は、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第１の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第２の認識モードに設定することを特徴とするコンピュータプログラム。

【請求項14】

請求項８、９、１０、１１、１２または１３記載のコンピュータプログラムであって、
前記コンピュータは、自動車に搭載されたコンピュータであることを特徴とするコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。

【背景技術】

【0002】

ユーザの発話音声を認識する音声認識の技術としては、楽曲等のオーディオコンテンツの音声をスピーカから出力するオーディオ装置を備えたシステムに、マイクロフォンでピックアップしたユーザの発話音声を認識する第１の音声認識部に加え、オーディオ装置がスピーカに出力する音声の音声認識を行う第２の音声認識部を設け、第１の音声認識部が音声認識した結果と、第２の音声認識部が音声認識した結果とが一致した場合に、第１の音声認識部が音声認識した結果を無効化する技術が知られている（たとえば、特許文献１）。

【0003】

このような第１の技術によれば、マイクロフォンに回りこんだオーディオ装置の出力音声に対しても行われてしまう第１の音声認識部の音声認識結果を、ユーザの発話音声の音声認識結果として誤認してしまうことを抑止することができる。

【0004】

また、ユーザの発話音声を認識する音声認識の技術としては、音声入力の候補となるコマンドのセットが前回入力されたコマンドによって変化するシステムにおいて、第１の音声認識部で今回音声入力の候補となるコマンドのセット中のコマンドの音声認識を行いつつ、第２の音声認識部で前回音声入力の候補であったコマンドのセット中のコマンドの音声認識を行うことにより、ユーザのコマンドの言い直しを受け付ける技術も知られている（たとえば、特許文献２）。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】実登２６０２３４２号公報

【特許文献2】国際公開第２０１１/０１６１２９号

【発明の概要】

【発明が解決しようとする課題】

【0006】

さて、コマンドの音声入力を行うシステムにおいては、各時点において多くのコマンドの音声入力を受け付けることができることが好ましい。特に、ユーザにとって緊急を要する処理の実行を要求するコマンドの音声入力は任意の時点において受け付けることができることが好ましい。

【0007】

しかし、一般的に音声認識部において実用的に音声認識できるコマンドの数には限りがある。
一方で、第１の音声認識部と第２の音声認識部との二つの音声認識部を備えたシステムにおいて、上述した特許文献１の技術のように第１の音声認識部と第２の音声認識部において、異なるコマンドのセット中のコマンドの音声認識を行えば、各時点において、一つの音声認識部のみを用いる場合に比べ多くのコマンドの音声入力を受け付けることができるようになるが、このようにすると、上述した特許文献２の技術を適用して、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンドを誤認識してしまうことを防止することができなくなってしまう。

【0008】

そこで、本発明は、第１の音声認識部と第２の音声認識部との二つの音声認識部を備えた音声認識システムにおいて、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンド等のワードを誤認してしまうことを抑制しつつ、音声入力を受け付けることのできるワードの数を可及的に増大することを課題とする。

【課題を解決するための手段】

【0009】

前記課題達成のために、本発明は、スピーカから、当該スピーカにオーディオソース機器から出力された音声が放射される空間の中で発話された音声を認識する音声認識システムに、マイクロフォンと、ワードが複数登録された第１音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第１音声認識部と、第２音声認識部と、第２音声認識部によって用いられる第２音声認識辞書と、ユーザの発話したワードを認識する認識部と、第１の認識モードと第２の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部とを備えたものである。ここで、前記第１の認識モードにおいて第２音声認識部によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、前記第１の認識モードにおいて、前記第２音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第２音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、前記第１の認識モードにおいて、前記認識部は、前記第２音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第１音声認識部によって前記対象候補として検出されても、当該前記第１音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第１音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識する。また、第２の認識モードにおいて第２音声認識部によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、前記第２の認識モードにおいて、前記第２音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、前記第２の認識モードにおいて、前記認識部は、前記第１音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第２音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識する。

【0010】

以上のような音声認識システムによれば、第２音声認識辞書を用いてオーディオソース機器の出力音声による第１音声認識辞書に登録されたワードの誤認識を抑止した形態で音声認識を行う第１の認識モードと、第２音声認識辞書を第１音声認識辞書と並列に用いて音声認識を行う第２の認識モードとを備えているので、オーディオソース機器の出力音声による第１音声認識辞書に登録されたワードの誤認識が生じ易い状況下では第１の認識モードを設定して音声認識を行い、オーディオソース機器の出力音声による第１音声認識辞書に登録されたワードの誤認識が生じ難い状況下では第２の認識モードを設定して、音声認識可能なワードの数を拡大することができる。したがって、オーディオソース機器の出力音声による第１音声認識辞書に登録されたワードの誤認識を効果的に抑制しつつ、音声入力を受け付けることのできるワードの数を増大することができる。

【0011】

より具体的には、たとえば、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとするシーケンス実行処理を開始するように構成してもよい。ここで、前記シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、各時点において、前記第１音声認識辞書と前記第２音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第１音声認識辞書と前記第２音声認識辞書を用いつつ、前記第１階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記シーケンス実行処理を終了したならば前記待受処理を開始し、前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行う。

【0012】

または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとするシーケンス実行処理を開始するように構成してもよい。ここで、当該シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、前記第１階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第１音声認識辞書と前記第２音声認識辞書とを、音声入力として受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記シーケンス実行処理を終了したならば前記待受処理を開始する。

【0013】

または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第１シーケンス実行処理を開始し、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第２シーケンス実行処理を開始するように構成してもよい。ここで、前記第１シーケンス実行処理は、前記認識モードとして前記第１の認識モードを設定し、前記第１階層ワードに応じて定まる同じ音声認識辞書を設定した第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、前記第２シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、各時点において、前記第１音声認識辞書と前記第２音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第１音声認識辞書と前記第２音声認識辞書を用いつつ、前記第１階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記第１シーケンス実行処理を終了したならば前記待受処理を開始し、前記第２シーケンス実行処理を終了したならば前記待受処理を開始し、前記第２シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行う。

【0014】

または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第１の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第１音声認識辞書と第２音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第１シーケンス実行処理を開始し、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第１階層ワードとする第２シーケンス実行処理を開始するように構成してもよい。ここで、前記第１シーケンス実行処理は、前記認識モードとして前記第１の認識モードを設定し、前記第１階層ワードに応じて定まる同じ音声認識辞書を設定した第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理であり、前記第２シーケンス実行処理は、前記認識モードとして前記第２の認識モードを設定し、前記第１階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第１音声認識辞書と前記第２音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を１回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記第１シーケンス実行処理を終了したならば前記待受処理を開始し、前記第２シーケンス実行処理を終了したならば前記待受処理を開始する。

【0015】

または、以上の音声認識システムでは、前記音声入力受付部において、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第１の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第２の認識モードに設定するように構成してもよい。

【0016】

ここで、以上のような音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであってよい。

【発明の効果】

【0017】

以上のように、本発明によれば、第１の音声認識部と第２の音声認識部との二つの音声認識部を備えた音声認識システムにおいて、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンド等のワードを誤認してしまうことを抑制しつつ、音声入力を受け付けることのできるワードの数を可及的に増大することができる。

【図面の簡単な説明】

【0018】

【図1】本発明の実施形態に係る情報処理システムの構成を示すブロック図である。

【図2】本発明の実施形態に係る認識データを示す図である。

【図3】本発明の実施形態に係る音声入力制御処理を示すフローチャートである。

【図4】本発明の実施形態に係る音声入力設定処理を示すフローチャートである。

【図5】本発明の実施形態に係る音声認識エンジンの音声認識の手法を示す図である。

【図6】本発明の実施形態に係るオーディオキャンセルモード認識処理を示すフローチャートである。

【図7】本発明の実施形態に係る並列認識モード認識処理を示すフローチャートである。

【図8】本発明の実施形態に係る表示画面と音声認識辞書の遷移例を示す図である。

【図9】本発明の実施形態に係る表示画面と音声認識辞書の遷移例を示す図である。

【図10】本発明の実施形態に係る音声入力設定処理の他の例を示すフローチャートである。

【図11】本発明の実施形態に係る情報処理システムの他の構成例を示す図である。

【発明を実施するための形態】

【0019】

以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図１に、本実施形態に係る情報処理システムの構成を示す。
図示するように、情報処理システムは、データ処理部１、辞書ＤＢ２、マイクロフォン３、音声入力部４、スピーカ５、ラジオ受信器やミュージックプレイヤ等のオーディオソース６、表示装置７、複数のカメラ８、ＧＰＳ受信器等のその他の周辺装置９を備えている。

【0020】

ここで、音声入力部４は、マイクロフォン３から入力するユーザの発話音声を音声認識し認識結果をデータ出力部に出力する。
また、オーディオソース６は、データ処理部１の制御に従って動作する、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声を、スピーカ５と、音声入力部４に出力する。また、スピーカ５は、オーディオソース６から入力した音声を車内に放射する。

【0021】

また、複数のカメラ８は、自動車の前方を撮影するフロントカメラや、自動車の後方を撮影するバックカメラや、自動車の側方を撮影するサイドカメラ等である。
そして、データ処理部１は、音声入力部４をコマンド等の音声入力に、表示装置７を画面の表示に用いながら、各種処理を行うことができる。
また、音声入力部４は、第１音声認識エンジン４１、第１音声認識辞書４２、第２音声認識エンジン４３、第２音声認識辞書４４、認識調整部４５を備えている。
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部１や音声入力部４は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。

【0022】

次に、辞書ＤＢ２には、図２に示すように、第１階層認識データから第３階層認識データまでの複数階層の認識データが格納されている。
各階層の認識データは、音声認識に用いられる音声認識辞書を著すものであり、複数のワードのそれぞれについて、番号（No.）とワードとが登録されている。
また、第２階層認識データは、第１階層認識データに登録されている各ワードに対応して複数設けることができ、第３階層認識データは、各第２階層認識データに登録されている各ワードに対応して複数設けることができる。すなわち、辞書ＤＢ２は、各階層の認識データをノードとするツリー構造を備えている。

【0023】

そして、第２階層認識データには、当該第２階層認識データに対応する第１階層認識データのワードが、音声入力部４における音声認識によって認識結果とされたときに、次に、音声入力部４における音声認識の認識候補とする複数のワードとその番号（No.）とが登録されている。

【0024】

また、第３階層認識データには、当該第３階層認識データに対応する第２階層認識データのワードが、音声入力部４における音声認識によって認識結果とされたときに、次に、音声入力部４における音声認識の認識候補とする複数のワードとその番号（No.）とが登録されている。

【0025】

以上、辞書ＤＢ２について説明した。
なお、以上では、辞書ＤＢ２に登録する認識データとして、第１階層認識データから第３階層認識データまでの３階層の認識データを設ける場合について示したが、辞書ＤＢ２に登録する階層認識データは、２以上の任意の数の階層の認識データとしてよい。

【0026】

さて、データ処理部１は、カーナビゲーション機能やミュージックプレイヤ機能などの各種機能を備えており、起動したならば、所定の情報処理（たとえば、カーナビゲーション機能により表示装置７にカーナビゲーション用の案内地図を表示する情報処理や、ミュージックプレイヤ機能によりオーディオソース６から音楽を出力する情報処理）の実行を開始する。

【0027】

また、データ処理部１は、起動したならば、図３に示す音声入力制御処理を開始する。
図示するように、音声入力制御処理では、後述する音声入力設定処理を開始した上で（ステップ３０２）、待受処理を開始する（ステップ３０４）。
ここで、待受処理では、第１階層認識データを現用認識データに設定し、音声入力部４から現用認識データのワードが認識結果として入力するのを待って、認識結果のワードの入力を受け付ける。

【0028】

また、音声入力部４は、第１階層認識データに登録されているワードと現用認識データに設定された認識データに登録されているワードのうちから、ユーザが発話したワードを認識し、認識したワードを認識結果としてデータ処理部１に出力する。ここで、このような音声入力部４の認識を実現する動作の詳細については後述する。

【0029】

そして、データ処理部１は、待受処理によって、認識結果として入力した現用認識データに設定している第１階層認識データのワードの入力を受け付けたならば（ステップ３０６）、入力を受け付けた認識結果のワードに応じた処理を行う（ステップ３０８）。また、認識結果の第１階層認識データのワードに対応する第２階層認識データが存在するかどうかを調べ（ステップ３１０）、存在する場合には、待受処理が実行中であれば（ステップ３１２）、待受処理を終了した上で（ステップ３２０）、認識結果の第１階層認識データのワードを第１階層ワードとするシーケンス実行処理を開始する（ステップ３１４）。

【0030】

一方、認識結果の第１階層認識データのワードに対応する第２階層認識データが存在しない場合には（ステップ３１０）、待受処理を継続したまま、ステップ３０６に戻って、待受処理による次の認識結果の入力の受け付けの発生を待つ。

【0031】

ここで、ステップ３１４で開始したシーケンス実行処理では、第１階層認識データの第１階層ワードに対応する第２階層認識データを現用認識データに設定した上で、現用認識データのワードの認識結果としての入力の所定回数の受け付けを、各回の認識結果の受け付け毎に、入力を受け付けた認識結果のワードに応じた処理と、認識結果のワードに対応する現用認識データの一つ下の階層の認識データの現用認識データへの設定、すなわち、現用認識データの更新とを行いながら実行するシーケンスを実行する。

【0032】

そして、シーケンス実行処理を開始したならば（ステップ３１４）、音声入力部４からの第１階層認識データのワードの認識結果としての入力の発生（ステップ３１６）と、シーケンス実行処理の終了の発生（ステップ３１８）を監視する。

【0033】

そして、シーケンス実行処理の実行中に、第１階層認識データのワードの認識結果としての入力が発生した場合には（ステップ３１６）、シーケンス実行処理を終了し（ステップ３２２）、ステップ３０８に戻って、第１階層認識データが現用認識データである待受処理において、認識結果のワードの入力として、当該第１階層認識データのワードの入力を受け付けた場合と同様の動作を行う。

【0034】

すなわち、シーケンス実行処理の実行中に入力を受け付けた認識結果の第１階層認識データのワードに応じた処理を行うと共に（ステップ３０８）、シーケンス実行処理の実行中に入力を受け付けた認識結果の第１階層認識データのワードに対応する第２階層認識データが存在すれば（ステップ３１０）、シーケンス実行処理の実行中に入力を受け付けた認識結果の第１階層認識データのワードを第１階層ワードとするシーケンス実行処理を開始する（ステップ３１４）。

【0035】

一方、シーケンス実行処理の終了が発生した場合には（ステップ３１８）、ステップ３０４に戻って、待受処理を再開する。
以上、データ処理部１が起動時に開始する音声入力制御処理について説明した。
次に、データ処理部１は、音声入力制御処理のステップ３０２で開始する音声入力設定処理を次のように行う。
図４に、この音声入力設定処理の手順を示す。
図示するように、音声入力設定処理においてデータ処理部１は、上述した待受処理やシーケンス実行処理による現用認識データの設定の発生を監視する（ステップ４０２）。
そして、現用認識データの設定が発生したならば（ステップ４０２）、現用認識データの認識モードが第１階層認識データであるかどうかを判定する（ステップ４０４）。
そして、現用認識データが第１階層認識データであれば（ステップ４０４）、現用認識データである第１階層認識データを第１音声認識辞書４２と第２音声認識辞書４４に設定し、（ステップ４０６）、認識モードとしてオーディオキャンセルモードを認識調整部４５に設定する（ステップ４０８）。

【0036】

そして、音声認識開始を認識調整部４５に指示し（ステップ４１０）、ステップ４０２の監視に戻る。
一方、現用認識データが１階層認識データでなければ（ステップ４０４）、現用認識データを第１音声認識辞書４２に設定し（ステップ４１２）、認識モードとして並列モードを認識調整部４５に設定する（ステップ４１４）。なお、ステップ４１４では、第２音声認識辞書４４は更新されず、この結果、第２音声認識辞書４４は第１階層認識データのまま維持される。

【0037】

そして、音声認識開始を認識調整部４５に指示し（ステップ４１０）、ステップ４０２の監視に戻る。
以上、データ処理部１が行う音声入力設定処理について説明した。
次に、第１音声認識エンジン４１と第２音声認識エンジン４３で行う音声認識の動作について説明する。
第１音声認識エンジン４１と第２音声認識エンジン４３は、認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書に格納された各認識候補のワードのスコアを算定する。

【0038】

すなわち、第１音声認識エンジン４１は、認識対象音声の入力と並行して、認識対象音声に対する第１音声認識辞書４２に格納されたワードのスコアを算定し、第２音声認識エンジン４３は、認識対象音声の入力と並行して、認識対象音声に対する第２音声認識辞書４４に格納された各ワードのスコアを算定する。

【0039】

なお、第１音声認識エンジン４１の認識対象音声はマイクロフォン３から入力する音声である。一方、第２音声認識エンジン４３については、選択的に、マイクロフォン３から入力する音声とオーディオソース６から入力する音声の一方を、第２音声認識エンジン４３の認識対象音声とすることができる。

【0040】

ここで、認識対象音声に対する音声認識辞書に登録された各ワードのスコアは、認識対象音声が表す語句と、ワードとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。

【0041】

より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間（たとえば、音素毎の音声区間）の音が入力する度に、当該音声区間の音と、音声認識辞書に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のスコアの増加値／減少値は、たとえば、当該音声区間のワードの全音声区間に対する比率を、スコアの初期値に乗じた大きさとする。

【0042】

このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を図５ａに示し、ワード「あいうあい」に対して算出されるスコアの推移を図５ｂに示したように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。

【0043】

すなわち、たとえば、図５ａに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。

【0044】

また、同様に、図５ｂに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。

【0045】

さて、第１音声認識エンジン４１と第２音声認識エンジン４３は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、予め設定されたしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードのヒットを検出し、ヒットしたワードの番号（No.)をヒットデータとして認識調整部４５に通知する。

【0046】

すなわち、たとえば、図５ａに示した場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、ワード「あいうえお」のヒットが検出される。

【0047】

一方、図５ｂに示した場合では、ワード「あいうあいお」についてのスコアがしきい値Th以下となることはないので、このワード「あいうあいお」のヒットは検出されない。
次に、音声入力部４の認識調整部４５の動作について説明する。
認識調整部４５は、データ処理部１から図４に示した音声入力設定処理によって音声認識開始を指示されたならば、オーディオキャンセルモードが設定されているときには、オーディオキャンセルモード認識処理を実行し、並列認識モードが設定されているときには、並列認識モード認識処理を実行する。

【0048】

まず、オーディオキャンセルモードが設定されているときに認識調整部４５が行うオーディオキャンセルモード認識処理について説明する。
図６に、この示すオーディオキャンセルモード認識処理の手順を示す。
図示するように、このオーディオキャンセルモード認識処理では、予め定めた値Th1を第１音声認識エンジン４１に上述したしきい値Thとして設定し、予め定めた値Th2を第２音声認識エンジン４３に上述したしきい値Thを設定する（ステップ６０２）。ここで、Th1、Th2としては、Th2＞Th1となる値を用いる。

【0049】

そして、次に、第２音声認識エンジン４３の認識対象音声をオーディオソース６から入力する音声に設定する（ステップ６０４）。
そして、第１音声認識エンジン４１からのヒットデータの通知の発生（ステップ６０６）と、第２音声認識エンジン４３からのヒットデータの通知の発生（ステップ６０８）と、タイマのタイムアウトの発生（ステップ６１０）とを監視する。

【0050】

そして、第２音声認識エンジン４３からのヒットデータの通知が発生したばらば（ステップ６０８）、マスクフラグをセットし（ステップ６１６）、第２音声認識エンジン４３から通知さらたヒットデータが示す番号（No.)を調整ワード番号に設定する（ステップ６１８）。そして、上述のタイマを所定のタイムアウト時間を設定してスタートし（ステップ６２０）、ステップ６０６、６０８、６１０の監視に戻る。

【0051】

一方、タイマのタイムアウトが発生したならば（ステップ６１０）、マスクフラグをクリアし（ステップ６１２）、調整ワード番号をクリアする（ステップ６１４）。そして、ステップ６０６、６０８、６１０の監視に戻る。

【0052】

また、第１音声認識エンジン４１からのヒットデータの通知が発生した場合には（ステップ６０６）、マスクフラグがセットされているかどうを調べ（ステップ６２２）、マスクフラグがセットされていなければ、第１音声認識辞書４２の第１音声認識エンジン４１からのヒットデータが示す番号（No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部１に出力する（ステップ６２６）。そして、オーディオキャンセルモード認識処理を終了する。

【0053】

一方、ステップ６２２において、マスクフラグがセットされている場合には、第１音声認識エンジン４１からのヒットデータが示す番号（No.)がワードが調整ワード番号と一致しているかどうかを調べ（ステップ６２４）、一致している場合には、そのままステップ６０６、６０８、６１０の監視に戻る。

【0054】

一方、第１音声認識エンジン４１からのヒットデータが示す番号（No.)が調整ワード番号と一致していない場合には（ステップ６２４）、第１音声認識辞書４２の第１音声認識エンジン４１からのヒットデータが示す番号（No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部１に出力する（ステップ６２６）。そして、オーディオキャンセルモード認識処理を終了する。

【0055】

以上、オーディオキャンセルモードが設定されているときに認識調整部４５が行うオーディオキャンセルモード認識処理について説明した。
ここで、このようなオーディオキャンセルモード認識処理によれば、第２音声認識エンジン４３がオーディオソース６から入力する音声に対してヒットを検出したワードは、その後、一定期間、第１音声認識エンジン４１でヒットが検出されても認識結果とはしない。

【0056】

また、オーディオソース６が出力した音声がマイクロフォン３に回りこんで、当該音声に対して第１音声認識エンジン４１でワードのヒットが検出されるときには、そのワードのしきい値Thは第１音声認識エンジン４１よりも第２音声認識エンジン４３の方が大きく設定されており、また、第２音声認識エンジン４３に入力するオーディオソース６の音声の方が音声品質が良いので、それ以前に第２音声認識エンジン４３で、そのワードのヒットが検出される。

【0057】

したがって、オーディオソース６が出力した音声がマイクロフォン３に回りこんで、当該音声に対して第１音声認識エンジン４１でワードのヒットが検出されてしまった場合でも、当該ワードが認識結果としてデータ処理部１に出力されてしまうことが抑止される。

【0058】

次に、並列認識モードが設定されているときに認識調整部４５が行う並列認識モード認識処理について説明する。
図７に、この並列認識モード認識処理の手順を示す。
図示するように、この並列認識モード認識処理では、上述した値Th1を第１音声認識エンジン４１と第２音声認識エンジン４３の双方にしきい値Thとして設定する（ステップ７０２）。

【0059】

また、第２音声認識エンジン４３の認識対象音声をマイクロフォン３から入力する音声に設定する（ステップ７０４）。
そして、第１音声認識エンジン４１からのヒットデータの通知の発生（ステップ７０６）と、第２音声認識エンジン４３からのヒットデータの通知の発生（ステップ７０８）とを監視する。

【0060】

そして、第１音声認識エンジン４１からのヒットデータの通知が発生した場合には（ステップ７０６）、第１音声認識辞書４２の第１音声認識エンジン４１からのヒットデータが示す番号（No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部１に出力する（ステップ７１０）。そして、並列認識モード認識処理を終了する。

【0061】

一方、第２音声認識エンジン４３からのヒットデータの通知が発生した場合には（ステップ７０８）、第２音声認識辞書４４の第２音声認識エンジン４３からのヒットデータが示す番号（No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部１に出力する（ステップ７１２）。そして、並列認識モード認識処理を終了する。

【0062】

以上、並列認識モードが設定されているときに認識調整部４５が行う並列認識モード認識処理について説明した。
このような並列認識モード認識処理によれば、第１音声認識辞書４２に登録された各ワードと第２音声認識辞書４４に登録されたワードの双方について音声認識を行うことができるようになる。

【0063】

さて、ここで、以上のような情報処理装置の動作例を図８に示す。
起動したデータ処理部１は、表示装置７にカーナビゲーション用の案内地図を表示する情報処理や、オーディオソース６から音楽を出力する情報処理を開始する。
また、データ処理部１は、起動したならば、音声入力設定処理を開始し、第１階層認識データを現用認識データに設定することにより、図８ａ２、図８ａ３に示すように第１階層認識データを第１音声認識辞書４２と第２音声認識辞書４４の双方に設定し、認識調整部４５にオーディオキャンセルモードを設定する。

【0064】

そして、この結果、音声入力部４の認識調整部４５において、オーディオキャンセルモード認識処理によって、第１音声認識辞書４２に登録されたワードの音声認識が、オーディオソース６の出力音声による誤認識を第２音声認識辞書４４を用いて抑止しながら行われる。

【0065】

次に、この状態において、ユーザが第１音声認識辞書４２に登録されているワード「もくてきちせってい」を発話すると、認識調整部４５により、ワード「もくてきちせってい」が認識結果として算定され、ワード「もくてきちせってい」が認識結果として音声入力部４からデータ処理部１に出力される。

【0066】

データ処理部１は、ワード「もくてきちせってい」を認識結果として受け付けたならば、これに応答して、第１階層認識データのワード「もくてきちせってい」に対応する第２階層認識データを、現用認識データに設定する。そして、図８ｂ１に示すように、表示装置７の表示画面を、現用認識データに設定した第２階層認識データに登録されているワードのリストを含めた画面に変更する。

【0067】

また、データ処理部１は、図８ｂ２に示すように現用認識データに設定した第２階層認識データを第１音声認識辞書４２に設定する。一方、図８ｂ３に示すように、第２音声認識辞書４４は、第１階層認識データのまま維持される。そして、データ処理部１は、認識調整部４５に、並列認識モードを設定する。

【0068】

そして、この結果、音声入力部４の認識調整部４５において並列認識モード認識処理によって、第１音声認識辞書４２に登録された第２階層認識データのワードと第２音声認識辞書４４に登録された第１階層認識データのワードの双方の音声認識が行われる。

【0069】

次に、この状態において、ユーザが第１音声認識辞書４２に登録されているワード「ちかくのらーめんや」を発話すると、認識調整部４５により、ワード「ちかくのらーめんや」が認識結果として算定され、ワード「ちかくのらーめんや」が認識結果として音声入力部４からデータ処理部１に出力される。

【0070】

データ処理部１は、ワード「ちかくのらーめんや」を認識結果として受け付けたならば、これに応答して、現用認識データに設定している第２階層認識データのワード「ちかくのらーめんや」に対応する第３階層認識データを、現用認識データに設定する。そして、現在位置の近くのラーメン屋を、データ処理部１が備えているカーナビゲーション機能により探索し、図８ｃ１に示すように、表示装置７の表示画面を、現用認識データに設定した第３階層認識データに登録されているワードのリストを、リスト中の現用認識データに設定した第３階層認識データに登録されている「ひとつめにいく」から「いつつめにいく」の５つのワードに、探索した現在位置の近くの５つのラーメン屋の表示を各々対応づけた形態で含めた画面に変更する。

【0071】

また、データ処理部１は、図８ｃ２に示すように現用認識データに設定した第３階層認識データを第１音声認識辞書４２に設定する。一方、図８ｃ３に示すように、第２音声認識辞書４４は、第１階層認識データのまま維持される。そして、データ処理部１は、認識調整部４５に、並列認識モードを設定する。

【0072】

そして、この結果、音声入力部４の認識調整部４５において並列認識モード認識処理によって、第１音声認識辞書４２に登録された第３階層認識データのワードと第２音声認識辞書４４に登録された第１階層認識データのワードの双方の音声認識が行われる。

【0073】

そして、この状態で、ユーザが第１音声認識辞書４２に登録されているワード「ひとつめにいく」を発話すると、認識調整部４５により、ワード「ひとつめにいく」が認識結果として算定され、ワード「ひとつめにいく」が認識結果として音声入力部４からデータ処理部１に出力される。そして、データ処理部１は、ワード「ひとつめにいく」を認識結果として受け付けたならば、ワード「ひとつめにいく」に対応づけて図８ｃ１の画面に表したラーメン屋を目的地に設定し、データ処理部１が備えているカーナビゲーション機能において目的地までの道案内のための処理を開始する。

【0074】

一方、図８ｂ１、ｂ２、ｂ３の第２階層認識データが第１音声認識辞書４２に設定されている状態において、ユーザが第２音声認識辞書４４に登録されている第１階層認識データのワード「ばっくかめら」を発話すると、認識調整部４５により、ワード「ばっくかめら」が認識結果として算定され、ワード「ばっくかめら」が認識結果として音声入力部４からデータ処理部１に出力される。

【0075】

ここで、本実施形態に係るデータ処理部１は、「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードが認識結果として入力したときに対応するカメラ８で撮影した画像を表示装置７に表示する処理を行うものであるとする。

【0076】

この場合、データ処理部１は、ワード「ばっくかめら」を認識結果として受け付けたならば、第１階層認識データのワード「ばっくかめら」に対応する第２階層認識データを、現用認識データに設定する。

【0077】

また、データ処理部１は、図９ｄ１に示すように、カメラ８の一つとして備えたバックカメラで撮影した自動車後方の画像を、現用認識データに設定した第２階層認識データに登録されているワードのリストと共に表示する。なお、図９ａ１、ａ２、ａ３は図８ａ１、ａ２、ａ３と同じものであり、図９ｂ１、ｂ２、ｂ３は、図８ｂ１、ｂ２、ｂ３と同じものである。

【0078】

また、データ処理部１は、図９ｄ２に示すように現用認識データに設定した第２階層認識データを第１音声認識辞書４２に設定する。一方、図９ｄ３に示すように、第２音声認識辞書４４は、第１階層認識データのまま維持される。そして、データ処理部１は、認識調整部４５に、並列認識モードを設定する。

【0079】

【0080】

さて、以上のように並列認識モードを設定しているときには、オーディオソース６の出力音声による誤認識の抑止は行われない。しかし、並列認識モードが設定されるのは、第１階層認識データ以外の階層の階層認識データが現用認識データに設定されているときであり、第１階層認識データ以外の階層の階層認識データが現用認識データに設定されるときは、データ処理部１が上述したシーケンス実行処理を行っており、ユーザが一連の階層的な音声入力を連続的に行っているときである。

【0081】

したがって、並列認識モードを設定してから、ユーザの発話による音声入力が行われるまでの期間は短く、この間に、第１音声認識辞書４２や第２音声認識辞書４４に設定されているワードと同じワードの音声が、オーディオソース６から出力されることは希である。

【0082】

したがって、第１階層認識データ以外の階層の階層認識データを現用認識データに設定しているときに、オーディオソース６の出力音声による誤認識の抑止を行わなくても実用上、支障が生じることはない。

【0083】

なお、第１階層認識データを現用認識データに設定しているときには、データ処理部１は上述した待受処理を行っている状態にあり、第１階層認識データを現用認識データに設定してからユーザの発話による音声入力が発生するまでの期間は不定となる。したがって、この間に、第１音声認識辞書４２に設定されているワードと同じワードの音声がオーディオソース６から出力される可能性は小さくないので、オーディオソース６の出力音声による誤認識の第２音声認識辞書４４を用いた抑止を行うことが必要となる。

【0084】

一方、以上のように第２音声認識辞書４４を第１階層認識データに維持したまま、第１音声認識辞書４２を更新して、並列認識モードを設定することにより、音声認識したワードに応じて次回認識する候補とするワードを更新しつつ、第１階層認識データのワードを常時音声認識できるようになる。

【0085】

また、ユーザにとって緊急を要する処理の実行を要求するコマンドを表すワードは、第１階層認識データに登録されることが多い。
たとえば、本実施形態に係るデータ処理部１は、上述のように「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードが認識結果として入力したときに対応するカメラ８で撮影した画像を表示装置７に表示する処理を行うものであり、第１階層認識データに登録されている、これらの「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードは、ユーザが周囲状況確認のためにカメラ８の撮影画像の表示を指示するコマンドのワードであるので、緊急を要する処理の実行を要求するコマンドを表すワードに該当する。

【0086】

したがって、本実施形態によれば、ユーザにとって緊急を要する処理の実行を要求するコマンドの音声入力を、任意の時点において受け付けることができるようになる。
以上、本発明の実施形態について説明した。
ところで、以上の実施形態は、図４に示した音声入力設定処理に代えて、図１０に示す音声入力設定処理を行うようにしてもよい。
すなわち、この音声入力設定処理では、データ処理部１は、現用認識データの設定の発生を監視する（ステップ１００２）。
そして、現用認識データの設定が発生したならば（ステップ１００２）、現用認識データの認識モードが第１階層認識データであるかどうかを調べる（ステップ１００４）。
そして、現用認識データが第１階層認識データであれば（ステップ１００４）、現用認識データである第１階層認識データを第１音声認識辞書４２と第２音声認識辞書４４に設定し、（ステップ１００６）、認識モードとしてオーディオキャンセルモードを認識調整部４５に設定する（ステップ１００８）。

【0087】

そして、音声認識開始を認識調整部４５に指示し（ステップ１０１０）、ステップ１００２の監視に戻る。
一方、現用認識データが１階層認識データでなければ、現在、データ処理部１が、オーディオソース６からスピーカ５に音声を出力させているかどうかを調べる（ステップ１０１２）。

【0088】

そして、オーディオソース６からスピーカ５に音声を出力させていれば（ステップ１０１２）、現用認識データを第１音声認識辞書４２と第２音声認識辞書４４に設定し、（ステップ１００６）、認識モードとしてオーディオキャンセルモードを認識調整部４５に設定する（ステップ１００８）。

【0089】

そして、音声認識開始を認識調整部４５に指示し（ステップ１０１０）、ステップ１００２の監視に戻る。
また、オーディオソース６からスピーカ５に音声を出力させていなければ（ステップ１０１２）、現用認識データを第１音声認識辞書４２に設定し、第１階層認識データを第２音声認識辞書４４に設定し、（ステップ１０１４）、認識モードとして並列認識モードを認識調整部４５に設定する（ステップ１０１６）。

【0090】

そして、音声認識開始を認識調整部４５に指示し（ステップ１０１０）、ステップ１００２の監視に戻る。
このような音声入力設定処理によれば、オーディオソース６からスピーカ５に音声が出力されているときにはオーディオソース６の出力音声による誤認識を行いつつ、オーディオソース６からスピーカ５に音声を出力させていないとき、すなわち、オーディオソース６の出力音声による誤認識が生じないときには、音声認識できるワードの数を拡大することができる。

【0091】

また、以上の実施形態では、並列認識モードのときに第１階層認識データを第２音声認識辞書４４として維持するようにしたが、並列認識モードのときに、第１音声認識辞書４２と同様に第２音声認識辞書４４の内容を切り替えるようにしてもよい。

【0092】

すなわち、たとえば、図１１に示すように、第１階層認識データ以外の各階層の認識データには、相互に異なるワードのセットを登録した主認識データと副認識データとを含めておき、図４に示した音声入力設定処理のステップ４１２や図１０に示した音声入力設定処理のステップ１０１４において、現用認識データの主認識データを第１音声認識辞書４２に設定し、現用認識データの副認識データを第２音声認識辞書４４に設定するようにしてもよい。

【0093】

このようにすることにより、並列認識モード認識処理によって音声認識できるワードを、より柔軟に設定することができるようになる。

【符号の説明】

【0094】

１…データ処理部、２…辞書ＤＢ、３…マイクロフォン、４…音声入力部、５…スピーカ、６…オーディオソース、７…表示装置、８…カメラ、９…周辺装置、４１…第１音声認識エンジン、４２…第１音声認識辞書、４３…第２音声認識エンジン、４４…第２音声認識辞書、４５…認識調整部。

【図1】