特許第6912985号(P6912985)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アルパイン株式会社の特許一覧

特許6912985音声認識システム及びコンピュータプログラム
<>
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000002
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000003
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000004
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000005
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000006
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000007
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000008
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000009
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000010
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000011
  • 特許6912985-音声認識システム及びコンピュータプログラム 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6912985
(24)【登録日】2021年7月13日
(45)【発行日】2021年8月4日
(54)【発明の名称】音声認識システム及びコンピュータプログラム
(51)【国際特許分類】
   G10L 15/32 20130101AFI20210727BHJP
   G10L 15/00 20130101ALI20210727BHJP
   G10L 15/10 20060101ALI20210727BHJP
   G10L 15/06 20130101ALI20210727BHJP
   G06F 3/16 20060101ALI20210727BHJP
【FI】
   G10L15/32 220Z
   G10L15/00 200J
   G10L15/10 200W
   G10L15/06 400W
   G06F3/16 630
   G06F3/16 650
【請求項の数】14
【全頁数】24
(21)【出願番号】特願2017-176219(P2017-176219)
(22)【出願日】2017年9月13日
(65)【公開番号】特開2019-53143(P2019-53143A)
(43)【公開日】2019年4月4日
【審査請求日】2020年6月26日
(73)【特許権者】
【識別番号】000101732
【氏名又は名称】アルパイン株式会社
(74)【代理人】
【識別番号】100099748
【弁理士】
【氏名又は名称】佐藤 克志
(74)【代理人】
【識別番号】100103171
【弁理士】
【氏名又は名称】雨貝 正彦
(74)【代理人】
【識別番号】100105784
【弁理士】
【氏名又は名称】橘 和之
(74)【代理人】
【識別番号】100098497
【弁理士】
【氏名又は名称】片寄 恭三
(72)【発明者】
【氏名】助川 諒
(72)【発明者】
【氏名】工藤 信範
【審査官】 上田 雄
(56)【参考文献】
【文献】 特開平09−069038(JP,A)
【文献】 実開平07−023400(JP,U)
【文献】 国際公開第2014/103099(WO,A1)
【文献】 国際公開第2011/016129(WO,A1)
【文献】 特開2013−134302(JP,A)
【文献】 特開2001−306088(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
スピーカから、当該スピーカにオーディオソース機器から出力された音声が放射される空間の中で発話された音声を認識する音声認識システムであって、
マイクロフォンと、
ワードが複数登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第1音声認識部と、
第2音声認識部と、
第2音声認識部によって用いられる第2音声認識辞書と、
ユーザの発話したワードを認識する認識部と、
第1の認識モードと第2の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部とを有し、
前記第1の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、
前記第1の認識モードにおいて、前記第2音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第1の認識モードにおいて、前記認識部は、前記第2音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第1音声認識部によって前記対象候補として検出されても、当該前記第1音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識し、
第2の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、
前記第2の認識モードにおいて、前記第2音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第2の認識モードにおいて、前記認識部は、前記第1音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第2音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。
【請求項2】
請求項1記載の音声認識システムであって、
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始し、
前記シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始し、
前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とする音声認識システム。
【請求項3】
請求項1記載の音声認識システムであって、
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始し、
当該シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力として受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とする音声認識システム。
【請求項4】
請求項1記載の音声認識システムであって、
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始し、
前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とする音声認識システム。
【請求項5】
請求項1記載の音声認識システムであって、
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始し、
前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とする音声認識システム。
【請求項6】
請求項1記載の音声認識システムであって、
前記音声入力受付部は、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第1の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第2の認識モードに設定することを特徴とする音声認識システム。
【請求項7】
請求項1、2、3、4、5または6記載の音声認識システムであって、
当該音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。
【請求項8】
スピーカから、当該スピーカにオーディオソース機器から出力された音声が放射される空間の中に配置されたマイクロフォンを備えたコンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ワードが複数登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第1音声認識部と、
第2音声認識部と、
第2音声認識部によって用いられる第2音声認識辞書と、
ユーザの発話したワードを認識する認識部と、
第1の認識モードと第2の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部として機能させるコンピュータプログラムであって、
前記第1の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、
前記第1の認識モードにおいて、前記第2音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第1の認識モードにおいて、前記認識部は、前記第2音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第1音声認識部によって前記対象候補として検出されても、当該前記第1音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識し、
第2の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、
前記第2の認識モードにおいて、前記第2音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第2の認識モードにおいて、前記認識部は、前記第1音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第2音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とするコンピュータプログラム。
【請求項9】
請求項8記載のコンピュータプログラムであって、
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始し、
前記シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始し、
前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とするコンピュータプログラム。
【請求項10】
請求項8記載のコンピュータプログラムであって、
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始し、
当該シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力として受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とするコンピュータプログラム。
【請求項11】
請求項8記載のコンピュータプログラムであって、
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始し、
前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とするコンピュータプログラム。
【請求項12】
請求項8記載のコンピュータプログラムであって、
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始し、
前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とするコンピュータプログラム。
【請求項13】
請求項8記載のコンピュータプログラムであって、
前記音声入力受付部は、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第1の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第2の認識モードに設定することを特徴とするコンピュータプログラム。
【請求項14】
請求項8、9、10、11、12または13記載のコンピュータプログラムであって、
前記コンピュータは、自動車に搭載されたコンピュータであることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。
【背景技術】
【0002】
ユーザの発話音声を認識する音声認識の技術としては、楽曲等のオーディオコンテンツの音声をスピーカから出力するオーディオ装置を備えたシステムに、マイクロフォンでピックアップしたユーザの発話音声を認識する第1の音声認識部に加え、オーディオ装置がスピーカに出力する音声の音声認識を行う第2の音声認識部を設け、第1の音声認識部が音声認識した結果と、第2の音声認識部が音声認識した結果とが一致した場合に、第1の音声認識部が音声認識した結果を無効化する技術が知られている(たとえば、特許文献1)。
【0003】
このような第1の技術によれば、マイクロフォンに回りこんだオーディオ装置の出力音声に対しても行われてしまう第1の音声認識部の音声認識結果を、ユーザの発話音声の音声認識結果として誤認してしまうことを抑止することができる。
【0004】
また、ユーザの発話音声を認識する音声認識の技術としては、音声入力の候補となるコマンドのセットが前回入力されたコマンドによって変化するシステムにおいて、第1の音声認識部で今回音声入力の候補となるコマンドのセット中のコマンドの音声認識を行いつつ、第2の音声認識部で前回音声入力の候補であったコマンドのセット中のコマンドの音声認識を行うことにより、ユーザのコマンドの言い直しを受け付ける技術も知られている(たとえば、特許文献2)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】実登2602342号公報
【特許文献2】国際公開第2011/016129号
【発明の概要】
【発明が解決しようとする課題】
【0006】
さて、コマンドの音声入力を行うシステムにおいては、各時点において多くのコマンドの音声入力を受け付けることができることが好ましい。特に、ユーザにとって緊急を要する処理の実行を要求するコマンドの音声入力は任意の時点において受け付けることができることが好ましい。
【0007】
しかし、一般的に音声認識部において実用的に音声認識できるコマンドの数には限りがある。
一方で、第1の音声認識部と第2の音声認識部との二つの音声認識部を備えたシステムにおいて、上述した特許文献1の技術のように第1の音声認識部と第2の音声認識部において、異なるコマンドのセット中のコマンドの音声認識を行えば、各時点において、一つの音声認識部のみを用いる場合に比べ多くのコマンドの音声入力を受け付けることができるようになるが、このようにすると、上述した特許文献2の技術を適用して、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンドを誤認識してしまうことを防止することができなくなってしまう。
【0008】
そこで、本発明は、第1の音声認識部と第2の音声認識部との二つの音声認識部を備えた音声認識システムにおいて、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンド等のワードを誤認してしまうことを抑制しつつ、音声入力を受け付けることのできるワードの数を可及的に増大することを課題とする。
【課題を解決するための手段】
【0009】
前記課題達成のために、本発明は、スピーカから、当該スピーカにオーディオソース機器から出力された音声が放射される空間の中で発話された音声を認識する音声認識システムに、マイクロフォンと、ワードが複数登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第1音声認識部と、第2音声認識部と、第2音声認識部によって用いられる第2音声認識辞書と、ユーザの発話したワードを認識する認識部と、第1の認識モードと第2の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部とを備えたものである。ここで、前記第1の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、前記第1の認識モードにおいて、前記第2音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、前記第1の認識モードにおいて、前記認識部は、前記第2音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第1音声認識部によって前記対象候補として検出されても、当該前記第1音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識する。また、第2の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、前記第2の認識モードにおいて、前記第2音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、前記第2の認識モードにおいて、前記認識部は、前記第1音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第2音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識する。
【0010】
以上のような音声認識システムによれば、第2音声認識辞書を用いてオーディオソース機器の出力音声による第1音声認識辞書に登録されたワードの誤認識を抑止した形態で音声認識を行う第1の認識モードと、第2音声認識辞書を第1音声認識辞書と並列に用いて音声認識を行う第2の認識モードとを備えているので、オーディオソース機器の出力音声による第1音声認識辞書に登録されたワードの誤認識が生じ易い状況下では第1の認識モードを設定して音声認識を行い、オーディオソース機器の出力音声による第1音声認識辞書に登録されたワードの誤認識が生じ難い状況下では第2の認識モードを設定して、音声認識可能なワードの数を拡大することができる。したがって、オーディオソース機器の出力音声による第1音声認識辞書に登録されたワードの誤認識を効果的に抑制しつつ、音声入力を受け付けることのできるワードの数を増大することができる。
【0011】
より具体的には、たとえば、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始するように構成してもよい。ここで、前記シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記シーケンス実行処理を終了したならば前記待受処理を開始し、前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行う。
【0012】
または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始するように構成してもよい。ここで、当該シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力として受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記シーケンス実行処理を終了したならば前記待受処理を開始する。
【0013】
または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始するように構成してもよい。ここで、前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、前記第2シーケンス実行処理を終了したならば前記待受処理を開始し、前記第2シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行う。
【0014】
または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始するように構成してもよい。ここで、前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、前記第2シーケンス実行処理を終了したならば前記待受処理を開始する。
【0015】
または、以上の音声認識システムでは、前記音声入力受付部において、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第1の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第2の認識モードに設定するように構成してもよい。
【0016】
ここで、以上のような音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであってよい。
【発明の効果】
【0017】
以上のように、本発明によれば、第1の音声認識部と第2の音声認識部との二つの音声認識部を備えた音声認識システムにおいて、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンド等のワードを誤認してしまうことを抑制しつつ、音声入力を受け付けることのできるワードの数を可及的に増大することができる。
【図面の簡単な説明】
【0018】
図1】本発明の実施形態に係る情報処理システムの構成を示すブロック図である。
図2】本発明の実施形態に係る認識データを示す図である。
図3】本発明の実施形態に係る音声入力制御処理を示すフローチャートである。
図4】本発明の実施形態に係る音声入力設定処理を示すフローチャートである。
図5】本発明の実施形態に係る音声認識エンジンの音声認識の手法を示す図である。
図6】本発明の実施形態に係るオーディオキャンセルモード認識処理を示すフローチャートである。
図7】本発明の実施形態に係る並列認識モード認識処理を示すフローチャートである。
図8】本発明の実施形態に係る表示画面と音声認識辞書の遷移例を示す図である。
図9】本発明の実施形態に係る表示画面と音声認識辞書の遷移例を示す図である。
図10】本発明の実施形態に係る音声入力設定処理の他の例を示すフローチャートである。
図11】本発明の実施形態に係る情報処理システムの他の構成例を示す図である。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図1に、本実施形態に係る情報処理システムの構成を示す。
図示するように、情報処理システムは、データ処理部1、辞書DB2、マイクロフォン3、音声入力部4、スピーカ5、ラジオ受信器やミュージックプレイヤ等のオーディオソース6、表示装置7、複数のカメラ8、GPS受信器等のその他の周辺装置9を備えている。
【0020】
ここで、音声入力部4は、マイクロフォン3から入力するユーザの発話音声を音声認識し認識結果をデータ出力部に出力する。
また、オーディオソース6は、データ処理部1の制御に従って動作する、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声を、スピーカ5と、音声入力部4に出力する。また、スピーカ5は、オーディオソース6から入力した音声を車内に放射する。
【0021】
また、複数のカメラ8は、自動車の前方を撮影するフロントカメラや、自動車の後方を撮影するバックカメラや、自動車の側方を撮影するサイドカメラ等である。
そして、データ処理部1は、音声入力部4をコマンド等の音声入力に、表示装置7を画面の表示に用いながら、各種処理を行うことができる。
また、音声入力部4は、第1音声認識エンジン41、第1音声認識辞書42、第2音声認識エンジン43、第2音声認識辞書44、認識調整部45を備えている。
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部1や音声入力部4は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。
【0022】
次に、辞書DB2には、図2に示すように、第1階層認識データから第3階層認識データまでの複数階層の認識データが格納されている。
各階層の認識データは、音声認識に用いられる音声認識辞書を著すものであり、複数のワードのそれぞれについて、番号(No.)とワードとが登録されている。
また、第2階層認識データは、第1階層認識データに登録されている各ワードに対応して複数設けることができ、第3階層認識データは、各第2階層認識データに登録されている各ワードに対応して複数設けることができる。すなわち、辞書DB2は、各階層の認識データをノードとするツリー構造を備えている。
【0023】
そして、第2階層認識データには、当該第2階層認識データに対応する第1階層認識データのワードが、音声入力部4における音声認識によって認識結果とされたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)とが登録されている。
【0024】
また、第3階層認識データには、当該第3階層認識データに対応する第2階層認識データのワードが、音声入力部4における音声認識によって認識結果とされたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)とが登録されている。
【0025】
以上、辞書DB2について説明した。
なお、以上では、辞書DB2に登録する認識データとして、第1階層認識データから第3階層認識データまでの3階層の認識データを設ける場合について示したが、辞書DB2に登録する階層認識データは、2以上の任意の数の階層の認識データとしてよい。
【0026】
さて、データ処理部1は、カーナビゲーション機能やミュージックプレイヤ機能などの各種機能を備えており、起動したならば、所定の情報処理(たとえば、カーナビゲーション機能により表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、ミュージックプレイヤ機能によりオーディオソース6から音楽を出力する情報処理)の実行を開始する 。
【0027】
また、データ処理部1は、起動したならば、図3に示す音声入力制御処理を開始する。
図示するように、音声入力制御処理では、後述する音声入力設定処理を開始した上で(ステップ302)、待受処理を開始する(ステップ304)。
ここで、待受処理では、第1階層認識データを現用認識データに設定し、音声入力部4から現用認識データのワードが認識結果として入力するのを待って、認識結果のワードの入力を受け付ける。
【0028】
また、音声入力部4は、第1階層認識データに登録されているワードと現用認識データに設定された認識データに登録されているワードのうちから、ユーザが発話したワードを認識し、認識したワードを認識結果としてデータ処理部1に出力する。ここで、このような音声入力部4の認識を実現する動作の詳細については後述する。
【0029】
そして、データ処理部1は、待受処理によって、認識結果として入力した現用認識データに設定している第1階層認識データのワードの入力を受け付けたならば(ステップ306)、入力を受け付けた認識結果のワードに応じた処理を行う(ステップ308)。また、認識結果の第1階層認識データのワードに対応する第2階層認識データが存在するかどうかを調べ(ステップ310)、存在する場合には、待受処理が実行中であれば(ステップ312)、待受処理を終了した上で(ステップ320)、認識結果の第1階層認識データのワードを第1階層ワードとするシーケンス実行処理を開始する(ステップ314)。
【0030】
一方、認識結果の第1階層認識データのワードに対応する第2階層認識データが存在しない場合には(ステップ310)、待受処理を継続したまま、ステップ306に戻って、待受処理による次の認識結果の入力の受け付けの発生を待つ。
【0031】
ここで、ステップ314で開始したシーケンス実行処理では、第1階層認識データの第1階層ワードに対応する第2階層認識データを現用認識データに設定した上で、現用認識データのワードの認識結果としての入力の所定回数の受け付けを、各回の認識結果の受け付け毎に、入力を受け付けた認識結果のワードに応じた処理と、認識結果のワードに対応する現用認識データの一つ下の階層の認識データの現用認識データへの設定、すなわち、現用認識データの更新とを行いながら実行するシーケンスを実行する。
【0032】
そして、シーケンス実行処理を開始したならば(ステップ314)、音声入力部4からの第1階層認識データのワードの認識結果としての入力の発生(ステップ316)と、シーケンス実行処理の終了の発生(ステップ318)を監視する。
【0033】
そして、シーケンス実行処理の実行中に、第1階層認識データのワードの認識結果としての入力が発生した場合には(ステップ316)、シーケンス実行処理を終了し(ステップ322)、ステップ308に戻って、第1階層認識データが現用認識データである待受処理において、認識結果のワードの入力として、当該第1階層認識データのワードの入力を受け付けた場合と同様の動作を行う。
【0034】
すなわち、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードに応じた処理を行うと共に(ステップ308)、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードに対応する第2階層認識データが存在すれば(ステップ310)、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードを第1階層ワードとするシーケンス実行処理を開始する(ステップ314)。
【0035】
一方、シーケンス実行処理の終了が発生した場合には(ステップ318)、ステップ304に戻って、待受処理を再開する。
以上、データ処理部1が起動時に開始する音声入力制御処理について説明した。
次に、データ処理部1は、音声入力制御処理のステップ302で開始する音声入力設定処理を次のように行う。
図4に、この音声入力設定処理の手順を示す。
図示するように、音声入力設定処理においてデータ処理部1は、上述した待受処理やシーケンス実行処理による現用認識データの設定の発生を監視する(ステップ402)。
そして、現用認識データの設定が発生したならば(ステップ402)、現用認識データの認識モードが第1階層認識データであるかどうかを判定する(ステップ404)。
そして、現用認識データが第1階層認識データであれば(ステップ404)、現用認識データである第1階層認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ406)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ408)。
【0036】
そして、音声認識開始を認識調整部45に指示し(ステップ410)、ステップ402の監視に戻る。
一方、現用認識データが1階層認識データでなければ(ステップ404)、現用認識データを第1音声認識辞書42に設定し(ステップ412)、認識モードとして並列モードを認識調整部45に設定する(ステップ414)。なお、ステップ414では、第2音声認識辞書44は更新されず、この結果、第2音声認識辞書44は第1階層認識データのまま維持される。
【0037】
そして、音声認識開始を認識調整部45に指示し(ステップ410)、ステップ402の監視に戻る。
以上、データ処理部1が行う音声入力設定処理について説明した。
次に、第1音声認識エンジン41と第2音声認識エンジン43で行う音声認識の動作について説明する。
第1音声認識エンジン41と第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書に格納された各認識候補のワードのスコアを算定する。
【0038】
すなわち、第1音声認識エンジン41は、認識対象音声の入力と並行して、認識対象音声に対する第1音声認識辞書42に格納されたワードのスコアを算定し、第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する第2音声認識辞書44に格納された各ワードのスコアを算定する。
【0039】
なお、第1音声認識エンジン41の認識対象音声はマイクロフォン3から入力する音声である。一方、第2音声認識エンジン43については、選択的に、マイクロフォン3から入力する音声とオーディオソース6から入力する音声の一方を、第2音声認識エンジン43の認識対象音声とすることができる。
【0040】
ここで、認識対象音声に対する音声認識辞書に登録された各ワードのスコアは、認識対象音声が表す語句と、ワードとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。
【0041】
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、音声認識辞書に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のスコアの増加値/減少値は、たとえば、当該音声区間のワードの全音声区間に対する比率を、スコアの初期値に乗じた大きさとする。
【0042】
このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を図5aに示し、ワード「あいうあい」に対して算出されるスコアの推移を図5bに示したように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。
【0043】
すなわち、たとえば、図5aに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。
【0044】
また、同様に、図5bに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。
【0045】
さて、第1音声認識エンジン41と第2音声認識エンジン43は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、予め設定されたしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードのヒットを検出し、ヒットしたワードの番号(No.)をヒットデータとして認識調整部45に通知する。
【0046】
すなわち、たとえば、図5aに示した場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、ワード「あいうえお」のヒットが検出される。
【0047】
一方、図5bに示した場合では、ワード「あいうあいお」についてのスコアがしきい値Th以下となることはないので、このワード「あいうあいお」のヒットは検出されない。
次に、音声入力部4の認識調整部45の動作について説明する。
認識調整部45は、データ処理部1から図4に示した音声入力設定処理によって音声認識開始を指示されたならば、オーディオキャンセルモードが設定されているときには、オーディオキャンセルモード認識処理を実行し、並列認識モードが設定されているときには、並列認識モード認識処理を実行する。
【0048】
まず、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明する。
図6に、この示すオーディオキャンセルモード認識処理の手順を示す。
図示するように、このオーディオキャンセルモード認識処理では、予め定めた値Th1を第1音声認識エンジン41に上述したしきい値Thとして設定し、予め定めた値Th2を第2音声認識エンジン43に上述したしきい値Thを設定する(ステップ602)。ここで、Th1、Th2としては、Th2>Th1となる値を用いる。
【0049】
そして、次に、第2音声認識エンジン43の認識対象音声をオーディオソース6から入力する音声に設定する(ステップ604)。
そして、第1音声認識エンジン41からのヒットデータの通知の発生(ステップ606)と、第2音声認識エンジン43からのヒットデータの通知の発生(ステップ608)と、タイマのタイムアウトの発生(ステップ610)とを監視する。
【0050】
そして、第2音声認識エンジン43からのヒットデータの通知が発生したばらば(ステップ608)、マスクフラグをセットし(ステップ616)、第2音声認識エンジン43から通知さらたヒットデータが示す番号(No.)を調整ワード番号に設定する(ステップ618)。そして、上述のタイマを所定のタイムアウト時間を設定してスタートし(ステップ620)、ステップ606、608、610の監視に戻る。
【0051】
一方、タイマのタイムアウトが発生したならば(ステップ610)、マスクフラグをクリアし(ステップ612)、調整ワード番号をクリアする(ステップ614)。そして、ステップ606、608、610の監視に戻る。
【0052】
また、第1音声認識エンジン41からのヒットデータの通知が発生した場合には(ステップ606)、マスクフラグがセットされているかどうを調べ(ステップ622)、マスクフラグがセットされていなければ、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ626)。そして、オーディオキャンセルモード認識処理を終了する。
【0053】
一方、ステップ622において、マスクフラグがセットされている場合には、第1音声認識エンジン41からのヒットデータが示す番号(No.)がワードが調整ワード番号と一致しているかどうかを調べ(ステップ624)、一致している場合には、そのままステップ606、608、610の監視に戻る。
【0054】
一方、第1音声認識エンジン41からのヒットデータが示す番号(No.)が調整ワード番号と一致していない場合には(ステップ624)、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ626)。そして、オーディオキャンセルモード認識処理を終了する。
【0055】
以上、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明した。
ここで、このようなオーディオキャンセルモード認識処理によれば、第2音声認識エンジン43がオーディオソース6から入力する音声に対してヒットを検出したワードは、その後、一定期間、第1音声認識エンジン41でヒットが検出されても認識結果とはしない。
【0056】
また、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されるときには、そのワードのしきい値Thは第1音声認識エンジン41よりも第2音声認識エンジン43の方が大きく設定されており、また、第2音声認識エンジン43に入力するオーディオソース6の音声の方が音声品質が良いので、それ以前に第2音声認識エンジン43で、そのワードのヒットが検出される。
【0057】
したがって、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されてしまった場合でも、当該ワードが認識結果としてデータ処理部1に出力されてしまうことが抑止される。
【0058】
次に、並列認識モードが設定されているときに認識調整部45が行う並列認識モード認識処理について説明する。
図7に、この並列認識モード認識処理の手順を示す。
図示するように、この並列認識モード認識処理では、上述した値Th1を第1音声認識エンジン41と第2音声認識エンジン43の双方にしきい値Thとして設定する(ステップ702)。
【0059】
また、第2音声認識エンジン43の認識対象音声をマイクロフォン3から入力する音声に設定する(ステップ704)。
そして、第1音声認識エンジン41からのヒットデータの通知の発生(ステップ706)と、第2音声認識エンジン43からのヒットデータの通知の発生(ステップ708)とを監視する。
【0060】
そして、第1音声認識エンジン41からのヒットデータの通知が発生した場合には(ステップ706)、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ710)。そして、並列認識モード認識処理を終了する。
【0061】
一方、第2音声認識エンジン43からのヒットデータの通知が発生した場合には(ステップ708)、第2音声認識辞書44の第2音声認識エンジン43からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ712)。そして、並列認識モード認識処理を終了する。
【0062】
以上、並列認識モードが設定されているときに認識調整部45が行う並列認識モード認識処理について説明した。
このような並列認識モード認識処理によれば、第1音声認識辞書42に登録された各ワードと第2音声認識辞書44に登録されたワードの双方について音声認識を行うことができるようになる。
【0063】
さて、ここで、以上のような情報処理装置の動作例を図8に示す。
起動したデータ処理部1は、表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、オーディオソース6から音楽を出力する情報処理を開始する。
また、データ処理部1は、起動したならば、音声入力設定処理を開始し、第1階層認識データを現用認識データに設定することにより、図8a2、図8a3に示すように第1階層認識データを第1音声認識辞書42と第2音声認識辞書44の双方に設定し、認識調整部45にオーディオキャンセルモードを設定する。
【0064】
そして、この結果、音声入力部4の認識調整部45において、オーディオキャンセルモード認識処理によって、第1音声認識辞書42に登録されたワードの音声認識が、オーディオソース6の出力音声による誤認識を第2音声認識辞書44を用いて抑止しながら行われる。
【0065】
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「もくてきちせってい」を発話すると、認識調整部45により、ワード「もくてきちせってい」が認識結果として算定され、ワード「もくてきちせってい」が認識結果として音声入力部4からデータ処理部1に出力される。
【0066】
データ処理部1は、ワード「もくてきちせってい」を認識結果として受け付けたならば、これに応答して、第1階層認識データのワード「もくてきちせってい」に対応する第2階層認識データを、現用認識データに設定する。そして、図8b1に示すように、表示装置7の表示画面を、現用認識データに設定した第2階層認識データに登録されているワードのリストを含めた画面に変更する。
【0067】
また、データ処理部1は、図8b2に示すように現用認識データに設定した第2階層認識データを第1音声認識辞書42に設定する。一方、図8b3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
【0068】
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第2階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
【0069】
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「ちかくのらーめんや」を発話すると、認識調整部45により、ワード「ちかくのらーめんや」が認識結果として算定され、ワード「ちかくのらーめんや」が認識結果として音声入力部4からデータ処理部1に出力される。
【0070】
データ処理部1は、ワード「ちかくのらーめんや」を認識結果として受け付けたならば、これに応答して、現用認識データに設定している第2階層認識データのワード「ちかくのらーめんや」に対応する第3階層認識データを、現用認識データに設定する。そして、現在位置の近くのラーメン屋を、データ処理部1が備えているカーナビゲーション機能により探索し、図8c1に示すように、表示装置7の表示画面を、現用認識データに設定した第3階層認識データに登録されているワードのリストを、リスト中の現用認識データに設定した第3階層認識データに登録されている「ひとつめにいく」から「いつつめにいく」の5つのワードに、探索した現在位置の近くの5つのラーメン屋の表示を各々対応づけた形態で含めた画面に変更する。
【0071】
また、データ処理部1は、図8c2に示すように現用認識データに設定した第3階層認識データを第1音声認識辞書42に設定する。一方、図8c3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
【0072】
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第3階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
【0073】
そして、この状態で、ユーザが第1音声認識辞書42に登録されているワード「ひとつめにいく」を発話すると、認識調整部45により、ワード「ひとつめにいく」が認識結果として算定され、ワード「ひとつめにいく」が認識結果として音声入力部4からデータ処理部1に出力される。そして、データ処理部1は、ワード「ひとつめにいく」を認識結果として受け付けたならば、ワード「ひとつめにいく」に対応づけて図8c1の画面に表したラーメン屋を目的地に設定し、データ処理部1が備えているカーナビゲーション機能において目的地までの道案内のための処理を開始する。
【0074】
一方、図8b1、b2、b3の第2階層認識データが第1音声認識辞書42に設定されている状態において、ユーザが第2音声認識辞書44に登録されている第1階層認識データのワード「ばっくかめら」を発話すると、認識調整部45により、ワード「ばっくかめら」が認識結果として算定され、ワード「ばっくかめら」が認識結果として音声入力部4からデータ処理部1に出力される。
【0075】
ここで、本実施形態に係るデータ処理部1は、「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードが認識結果として入力したときに対応するカメラ8で撮影した画像を表示装置7に表示する処理を行うものであるとする。
【0076】
この場合、データ処理部1は、ワード「ばっくかめら」を認識結果として受け付けたならば、第1階層認識データのワード「ばっくかめら」に対応する第2階層認識データを、現用認識データに設定する。
【0077】
また、データ処理部1は、図9d1に示すように、カメラ8の一つとして備えたバックカメラで撮影した自動車後方の画像を、現用認識データに設定した第2階層認識データに登録されているワードのリストと共に表示する。なお、図9a1、a2、a3は図8a1、a2、a3と同じものであり、図9b1、b2、b3は、図8b1、b2、b3と同じものである。
【0078】
また、データ処理部1は、図9d2に示すように現用認識データに設定した第2階層認識データを第1音声認識辞書42に設定する。一方、図9d3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
【0079】
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第2階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
【0080】
さて、以上のように並列認識モードを設定しているときには、オーディオソース6の出力音声による誤認識の抑止は行われない。しかし、並列認識モードが設定されるのは、第1階層認識データ以外の階層の階層認識データが現用認識データに設定されているときであり、第1階層認識データ以外の階層の階層認識データが現用認識データに設定されるときは、データ処理部1が上述したシーケンス実行処理を行っており、ユーザが一連の階層的な音声入力を連続的に行っているときである。
【0081】
したがって、並列認識モードを設定してから、ユーザの発話による音声入力が行われるまでの期間は短く、この間に、第1音声認識辞書42や第2音声認識辞書44に設定されているワードと同じワードの音声が、オーディオソース6から出力されることは希である。
【0082】
したがって、第1階層認識データ以外の階層の階層認識データを現用認識データに設定しているときに、オーディオソース6の出力音声による誤認識の抑止を行わなくても実用上、支障が生じることはない。
【0083】
なお、第1階層認識データを現用認識データに設定しているときには、データ処理部1は上述した待受処理を行っている状態にあり、第1階層認識データを現用認識データに設定してからユーザの発話による音声入力が発生するまでの期間は不定となる。したがって、この間に、第1音声認識辞書42に設定されているワードと同じワードの音声がオーディオソース6から出力される可能性は小さくないので、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止を行うことが必要となる。
【0084】
一方、以上のように第2音声認識辞書44を第1階層認識データに維持したまま、第1音声認識辞書42を更新して、並列認識モードを設定することにより、音声認識したワードに応じて次回認識する候補とするワードを更新しつつ、第1階層認識データのワードを常時音声認識できるようになる。
【0085】
また、ユーザにとって緊急を要する処理の実行を要求するコマンドを表すワードは、第1階層認識データに登録されることが多い。
たとえば、本実施形態に係るデータ処理部1は、上述のように「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードが認識結果として入力したときに対応するカメラ8で撮影した画像を表示装置7に表示する処理を行うものであり、第1階層認識データに登録されている、これらの「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードは、ユーザが周囲状況確認のためにカメラ8の撮影画像の表示を指示するコマンドのワードであるので、緊急を要する処理の実行を要求するコマンドを表すワードに該当する。
【0086】
したがって、本実施形態によれば、ユーザにとって緊急を要する処理の実行を要求するコマンドの音声入力を、任意の時点において受け付けることができるようになる。
以上、本発明の実施形態について説明した。
ところで、以上の実施形態は、図4に示した音声入力設定処理に代えて、図10に示す音声入力設定処理を行うようにしてもよい。
すなわち、この音声入力設定処理では、データ処理部1は、現用認識データの設定の発生を監視する(ステップ1002)。
そして、現用認識データの設定が発生したならば(ステップ1002)、現用認識データの認識モードが第1階層認識データであるかどうかを調べる(ステップ1004)。
そして、現用認識データが第1階層認識データであれば(ステップ1004)、現用認識データである第1階層認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ1006)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ1008)。
【0087】
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
一方、現用認識データが1階層認識データでなければ、現在、データ処理部1が、オーディオソース6からスピーカ5に音声を出力させているかどうかを調べる(ステップ1012)。
【0088】
そして、オーディオソース6からスピーカ5に音声を出力させていれば(ステップ1012)、現用認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ1006)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ1008)。
【0089】
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
また、オーディオソース6からスピーカ5に音声を出力させていなければ(ステップ1012)、現用認識データを第1音声認識辞書42に設定し、第1階層認識データを第2音声認識辞書44に設定し、(ステップ1014)、認識モードとして並列認識モードを認識調整部45に設定する(ステップ1016)。
【0090】
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
このような音声入力設定処理によれば、オーディオソース6からスピーカ5に音声が出力されているときにはオーディオソース6の出力音声による誤認識を行いつつ、オーディオソース6からスピーカ5に音声を出力させていないとき、すなわち、オーディオソース6の出力音声による誤認識が生じないときには、音声認識できるワードの数を拡大することができる。
【0091】
また、以上の実施形態では、並列認識モードのときに第1階層認識データを第2音声認識辞書44として維持するようにしたが、並列認識モードのときに、第1音声認識辞書42と同様に第2音声認識辞書44の内容を切り替えるようにしてもよい。
【0092】
すなわち、たとえば、図11に示すように、第1階層認識データ以外の各階層の認識データには、相互に異なるワードのセットを登録した主認識データと副認識データとを含めておき、図4に示した音声入力設定処理のステップ412や図10に示した音声入力設定処理のステップ1014において、現用認識データの主認識データを第1音声認識辞書42に設定し、現用認識データの副認識データを第2音声認識辞書44に設定するようにしてもよい。
【0093】
このようにすることにより、並列認識モード認識処理によって音声認識できるワードを、より柔軟に設定することができるようになる。
【符号の説明】
【0094】
1…データ処理部、2…辞書DB、3…マイクロフォン、4…音声入力部、5…スピーカ、6…オーディオソース、7…表示装置、8…カメラ、9…周辺装置、41…第1音声認識エンジン、42…第1音声認識辞書、43…第2音声認識エンジン、44…第2音声認識辞書、45…認識調整部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11