特許第6351440号(P6351440)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ アルパイン株式会社の特許一覧

特許6351440音声認識装置及びコンピュータプログラム
<>
  • 特許6351440-音声認識装置及びコンピュータプログラム 図000002
  • 特許6351440-音声認識装置及びコンピュータプログラム 図000003
  • 特許6351440-音声認識装置及びコンピュータプログラム 図000004
  • 特許6351440-音声認識装置及びコンピュータプログラム 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6351440
(24)【登録日】2018年6月15日
(45)【発行日】2018年7月4日
(54)【発明の名称】音声認識装置及びコンピュータプログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20180625BHJP
   G10L 15/10 20060101ALI20180625BHJP
【FI】
   G10L15/22 200Z
   G10L15/22 460Z
   G10L15/10 300Z
   G10L15/22 470Z
【請求項の数】5
【全頁数】12
(21)【出願番号】特願2014-173553(P2014-173553)
(22)【出願日】2014年8月28日
(65)【公開番号】特開2016-48338(P2016-48338A)
(43)【公開日】2016年4月7日
【審査請求日】2017年3月3日
(73)【特許権者】
【識別番号】000101732
【氏名又は名称】アルパイン株式会社
(74)【代理人】
【識別番号】100099748
【弁理士】
【氏名又は名称】佐藤 克志
(72)【発明者】
【氏名】鈴木 大和
(72)【発明者】
【氏名】松本 修一
【審査官】 堀 洋介
(56)【参考文献】
【文献】 特開2008−164809(JP,A)
【文献】 特開2010−197669(JP,A)
【文献】 特開2010−079103(JP,A)
【文献】 特開2008−009153(JP,A)
【文献】 特開2008−051895(JP,A)
【文献】 特開平08−160988(JP,A)
【文献】 特開2003−036094(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/22
G10L 15/10
(57)【特許請求の範囲】
【請求項1】
ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを有し、
当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、
当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、当該スコアが最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行う第1のモードと、
当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第2のモードととのいずれかで行い、かつ、
当該入力文字列確定手段は、前記第1のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第2のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第1のモードで行うことを特徴とする音声認識装置。
【請求項2】
請求項1記載の音声認識装置であって、
前記入力文字列確定手段は、前記第2のモードにおいて、
ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが所定値以上の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することを特徴とする音声認識装置。
【請求項3】
ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置であって、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを有し、
当該入力文字列確定手段は、
前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差がしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が前記しきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、
前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、予め定めた標準値を増加させた値を前記しきい値の値として、当該再発話された発話音声に対する入力文字列の確定を行い、他の場合に、前記標準値を前記しきい値の値として、発話音声に対する入力文字列の確定を行うことを特徴とする音声認識装置。
【請求項4】
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段として機能させるコンピュータプログラムであって、
当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、
当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、当該スコアが最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行う第1のモードと、
当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第2のモードととのいずれかで行い、かつ、
当該入力文字列確定手段は、前記第1のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第2のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第1のモードで行うことを特徴とするコンピュータプログラム。
【請求項5】
コンピュータによって読み取られ実行されるコンピュータプログラムであって、
当該コンピュータプログラムは、前記コンピュータを、
ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、
ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段として機能させるコンピュータプログラムであって、
当該入力文字列確定手段は、
前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差がしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が前記しきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、
前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該入力文字列が確定された発話をユーザがやり直す再発話が発生した場合に、予め定めた標準値を増加させた値を前記しきい値の値として、当該再発話された発話音声に対する入力文字列の確定を行い、他の場合に、前記標準値を前記しきい値の値として、発話音声に対する入力文字列の確定を行うことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識の技術に関するものである。
【背景技術】
【0002】
音声認識の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として、発話が表す文字列としての尤度を表すスコアと共に算出し、スコアが最大の認識候補を認識結果として処理する技術が知られている(たとえば、特許文献1)。
【0003】
また、音声認識の技術としては、ユーザの発話にマッチする文字列の候補を認識候補として、発話が表す文字列としての尤度を表すスコアと共に算出して、スコアが上位の複数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を認識結果として処理する技術が知られている(たとえば、特許文献2)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平10-097284号公報
【特許文献2】特表2005-530253号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
上述したスコアが最大の認識候補を認識結果として処理する技術によれば、音声認識によって正しいユーザの発話内容が認識候補として算出された場合であっても、当該認識候補のスコアが最大でない場合には、他の認識候補が認識結果として処理されてしまうこととなる。そして、このような場合、ユーザが再度発話を行っても、ユーザが同様の発話を行う限り、前回と同様に、正しい発話内容とは異なる他の認識候補が認識結果として処理されてしまう蓋然性が大きい。したがって、この技術によれば、正しい発話内容ではない認識結果が得られた場合、ユーザは、正しい発話内容が認識結果として得られるように、発声の態様を変化させながら何度も繰り返し発話を行う煩雑な作業を行う必要がある。
【0006】
一方、スコアが上位の複数の認識候補のリストをユーザに対して提示すると共に、提示した複数の認識候補のうちからユーザによって選定された認識候補を認識結果として処理する技術によれば、毎回、認識候補のリスト中から認識結果とする認識候補を選定する煩雑な作業が必要となってしまう。
【0007】
そこで、本発明は、本発明は、ユーザがより簡易に、正しい認識結果を得ることのできる音声認識装置を提供することを課題とする。
【課題を解決するための手段】
【0008】
前記課題達成のために、ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを備えたものである。ただし、当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが最大の認識候補を自動的に入力文字列として確定する第1の形態、もしくは、当該形態と他の形態とを選択的に適用する第2の形態のいずれかで入力文字列の確定を行う第1のモードと、当該ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが上位の複数の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定する第2のモードととのいずれかで行い、かつ、当該入力文字列確定手段は、前記第1のモードでスコアが最大の認識候補を自動的に入力文字列として確定した後に、当該確定した入力文字列が発話音声の誤認識であることによるユーザの再発話が発生した場合に、当該再発話された発話音声に対する入力文字列の確定を前記第2のモードで行い、他の場合には、発話音声に対する入力文字列の確定を前記第1のモードで行うものである。
【0009】
ここで、このような音声認識装置は、前記入力文字列確定手段が、前記第1のモードにおいて、ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定するように構成してもよい。
【0010】
また、以上の音声認識装置は、前記入力文字列確定手段が、前記第2のモードにおいて、
ユーザの発話音声に対して前記音声認識手段が算出した認識候補のうちスコアが所定値以上の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定するように構成してもよい。
【0011】
また、本発明は、前記課題達成のために、ユーザの発話音声を音声認識し入力文字列を確定する音声認識装置に、ユーザの発話音声を音声認識し、発話音声にマッチする文字列の候補を認識候補として、当該認識候補の発話音声が表す文字列としての尤度を表すスコアと共に算出する音声認識手段と、ユーザの発話音声に対して入力文字列を確定する入力文字列確定手段とを備えたものである。ただし、当該入力文字列確定手段は、前記ユーザの発話音声に対する入力文字列の確定を、当該ユーザの発話音声に対して前記音声認識手段が算出したスコアが最大の認識候補とその次にスコアが大きい認識候補とのスコアの差が所定のしきい値より大きい場合に、当該スコアが最大の認識候補を自動的に入力文字列として確定し、前記スコアの差が所定のしきい値より大きくない場合に、最大の認識候補とのスコアの差が前記しきい値以内の認識候補のリストを表示し、ユーザによってリスト中から選定された認識候補を入力文字列として確定することにより行うと共に、前記スコアが最大の認識候補を自動的に入力文字列として確定した後に、当該確定した入力文字列が発話音声の誤認識であることによるユーザの再発話が発生した場合に、前記所定のしきい値の値を増加させて、当該再発話された発話音声に対する入力文字列の確定を行うものである。
【0012】
本発明に係る音声認識装置によれば、自動的にスコアが最大の認識候補を入力文字列として確定した場合において、当該確定した入力文字列が発話内容の誤認識であることによるユーザの再発話が発生した場合には、スコアが上位の複数の認識候補のリストを表示、または、当該リストが表示される蓋然性を高めることにより、ユーザが、複数の認識候補のうちから入力文字列として確定する認識候補の選択を行えるようにする。
【0013】
したがって、本発明によれば、正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、ユーザの再発話に対して複数の認識候補のリストを表示して、ユーザが、当該再発話によって、正しい発話内容である認識候補の入力文字列としての確定を確実に行えるようすることができる。
【発明の効果】
【0014】
以上のように、本発明によれば、ユーザがより簡易に、正しい認識結果を得ることのできる音声認識装置を提供することができる。
【図面の簡単な説明】
【0015】
図1】本発明の実施形態に係る音声認識装置の構成を示すブロック図である。
図2】本発明の実施形態に係る音声入力処理を示すフローチャートである。
図3】本発明の実施形態に係る音声入力処理の処理例を示す図である。
図4】本発明の実施形態に係る音声入力処理の他の例を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態に係る情報処置システムについて説明する。
図示するように、情報処置システムは、マイクロフォン1、音声認識エンジン2、音声認識辞書3、音声入力制御部4、アプリケーション部5、GUI制御部6、表示装置7、入力装置8を備えている。
【0017】
但し、情報処理システムは、ハードウエア的には、CPUやメモリなどを備えたコンピュータを用いて構成されるものであり、音声認識エンジン2、音声認識辞書3、音声入力制御部4、アプリケーション部5、GUI制御部6などは、当該コンピュータが、所定のコンピュータプログラムを実行することにより実現されるものである。
【0018】
さて、このような構成において、音声認識エンジン2は、音声入力制御部4から音声認識開始を指示されると、マイクロフォン1から入力するユーザの発話音声に対して音声認識辞書3を用いて音声認識処理を行い、ユーザの発話にマッチする文字列の候補を認識候補として、認識候補の発話が表す文字列としての尤度を表すスコアと共に算出する。
【0019】
音声入力制御部4は、GUI制御部6を介して、表示装置7と入力装置8を用いたGUIをユーザに提供しながら、ユーザの操作に従って音声認識エンジン2に音声認識開始を指示し、当該指示に応答して音声認識エンジン2が算出した認識候補とスコアに基づいて認識候補のうちから入力文字列を確定し、確定した入力文字列を、音声入力制御部4を用いた音声入力を利用しているアプリケーション部5に出力する音声入力処理を行う。この音声入力処理の詳細については後述する。
【0020】
アプリケーション部5は、たとえば、カーナビゲーションアプリケーションや、ミュージックプレイヤアプリケーションなどの、各々所定のサービスをユーザに提供するアプリケーションであり、各アプリケーション部5は、それぞれ、GUI制御部6を介して表示装置7と入力装置8を用いたサービス提供用のGUIをユーザに提供する。
【0021】
また、各アプリケーション部5は、音声入力制御部4を用いた音声入力を利用することができ、音声入力を利用しているアプリケーション部5は、音声入力制御部4から入力する入力文字列に対して所定の処理を行う。
【0022】
所定の処理としては、たとえば、カーナビゲーションアプリケーションが行う、入力文字列に名称がマッチする施設の検索や、ュージックプレイヤアプリケーションが行う、入力文字列にタイトルやアルバム名やアーティスト名がマッチする楽曲の検索などがある。
【0023】
以下、このような情報処理システムの構成において、上述のように音声入力制御部4が行う音声入力処理について説明する。
図2に、音声入力処理の手順を示す。
図示するように、音声入力処理において音声入力制御部4は、まず、動作モードとして自動確定モードを設定する(ステップ202)。
そして、入力装置8を用いたユーザからの音声入力開始の指示の入力を待ち(ステップ204)、音声入力開始の指示が発声したならば音声認識エンジン2に音声認識開始を指示し(ステップ206)、当該指示に応答して音声認識エンジン2で行われる音声認識処理によって、ユーザの発話に対する認識結果として得られた認識候補とスコアを取得する(ステップ208)。
【0024】
そして、現在、動作モードとして自動確定モードが設定されているかどうかを調べ(ステップ210)、自動確定モードが設定されている場合には以下の処理を行う。
すなわち、動作モードとして自動確定モードが設定されている場合には(ステップ210)、音声認識エンジン2から得られた認識候補のうちスコアが最大の認識候補を第1候補、スコアが2番目に大きな認識候補を第2候補として、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きいかどうかを調べる(ステップ212)、
そして、スコアの差がしきい値Thdより大きい場合には(ステップ212)、第1候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ214)。
【0025】
そして、言い直しが発生(ステップ216)を監視する。
言い直しとは、ユーザが入力文字列として認識された発話をやり直すことであり、入力文字列としてアプリケーション部5に出力した文字列が誤認識であった場合に発生する。また、言い直しの発生の検出は、たとえば、以下のように検出する。
【0026】
すなわち、まず、入力文字列を音声入力制御部4から入力されたアプリケーション部5において、入力文字列に対して行った処理の結果と共に表示装置7に表示した「戻る」ボタンの操作等により、入力文字列に対して行った処理のやり直しの指示をユーザから受け付けるようにする。そして、アプリケーション部5において、「戻る」ボタンの操作で、やり直しの指示を受け付けた場合に、音声入力制御部4に音声入力再実行指示を発行し、アプリケーション部5において、「戻る」ボタンの操作以外のユーザ操作が発生した場合には、音声入力成功をアプリケーション部5に通知する。
そして、音声入力制御部4において、入力文字列を出力したアプリケーション部5から、音声入力再実行指示を受け付けた場合に、言い直しの発生を検出し、入力文字列を出力したアプリケーション部5から、音声入力成功を通知された場合に、言い直し無しを検出するようにする。
【0027】
ただし、言い直し/言い直し無しの検出は、他の手法によってもよく、ユーザが入力文字列として認識された発話をやり直すことの有無を検出できるものであれば、どのような態様によるものであってもよい。
【0028】
そして、言い直しが発生していなければ(ステップ216)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
一方、言い直しが発生した場合には(ステップ216)、動作モードとして選択受付モードを設定した上で(ステップ218)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
【0029】
一方、ステップ212で、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きくないと判定された場合には、第1候補となっている認識候補と、第1候補のスコアとスコアの差がしきい値Thd以内の認識候補とをスコア順に並べたリストを表示装置7に表示する(ステップ220)。
【0030】
そして、ユーザのキャンセル操作(ステップ222)とリスト内の認識候補の選択の受付(ステップ224)との発生を監視する。なお、リスト内の認識候補の選択の受付(ステップ224)は、入力装置8への所定操作または音声認識エンジン2を利用して認識候補を特定する所定の発話音声を音声認識することにより行う。
そして、キャンセル操作が発生したならば(ステップ222)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
【0031】
一方、リスト内の認識候補の選択の受付が発生した場合には(ステップ224)、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ226)。そして、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
【0032】
さて、ステップ210で動作モードとして自動確定モードが設定されていない、すなわち、動作モードとして選択受付モードが設定されていると判定された場合には、以下の処理を行う。
【0033】
すなわち、選択受付モードが設定されている場合には、スコアが所定値S以上の認識候補をスコア順に並べたリストを表示装置7に表示する(ステップ228)。
そして、ユーザのキャンセル操作(ステップ230)とリスト内の認識候補の選択の受付(ステップ232)との発生を監視し、キャンセル操作が発生したならば(ステップ230)、動作モードを自動確定モードに復帰した上で(ステップ236)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
【0034】
また、リスト内の認識候補の選択の受付が発生した場合には(ステップ232)、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ234)。そして、動作モードを自動確定モードに復帰した上で(ステップ236)、ステップ204に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
【0035】
以上、音声入力制御部4が行う音声入力処理について説明した。
以下、このような音声入力処理の処理例を示す。
いま、自動確定モードにあるときのユーザの「スターバイク」との発話に対して、図3aに示すように認識候補/スコアが、「スターブック」/90点、「スターバイク」/84点、「スカイブック」/79点、「スターバス」/64点と、音声認識エンジン2によって算出されたものとする。
【0036】
また、自動確定モードで用いるしきい値Thdは5であり、選択受付モードで用いる所定値Sは75であるものとする。
この場合、自動確定モードが設定されており、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=5より大きいので、第1候補「スターブック」が入力文字列として自動的に確定しアプリケーション部5に出力されることとなる。
【0037】
そして、この入力文字列「スターブック」が、ユーザの発話した「スターバイク」と異なるためにユーザが言い直しを行うと、選択受付モードが設定される。
そして、選択受付モードにおいて、ユーザが再度「スターバイク」と発話し、音声認識エンジン2によって、さきほどと同様に図3aに示した認識候補/スコアが算出されたものとする。
【0038】
すると、今度は、選択受付モードが設定されているので、スコアが所定値S=75以上の認識候補「スターブック」、「スターバイク」、「スカイブック」のリストが、図3bに示すように表示される。なお、図3b中の301は認識候補の選択を受け付けるための選択ボタン、302はキャンセル操作を受け付けるためのキャンセルボタンである。
【0039】
したがって、ユーザは、今度は、図3bに示すリスト中より、自身が発話した「スターバイク」を選択し、入力文字列として確定することができるようになる。
以上、音声入力処理の処理例を示した。
なお、以上の音声入力処理は、ステップ212、220-226を廃すると共に、ステップ210を自動確定モードと判定されたときにステップ214に進む処理に変更し、自動確定モードが設定されているときには、無条件にスコアが最大の認識候補を入力文字列として確定する処理としてもよい。
以上のように、本実施形態に係る音声入力処理によれば、自動確定モードで、自動的にスコアが最大の認識候補を入力文字列として確定した場合において、当該確定した入力文字列がユーザの発話の誤認識であるために、ユーザの言い直しが発生した場合には、選択受付モードを設定し、ユーザの再発話に対しては、スコアの高い複数の認識候補のリストを表示し、リスト中から入力文字列として確定する認識候補の選択を受け付ける。
【0040】
したがって、正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、次回のユーザの発話に対して複数の認識候補のリストを表示し、ユーザが、当該次回の発話によって、正しい発話内容である認識候補の入力文字列としての確定を確実に行えるようすることができる。
【0041】
以上、本発明の実施形態について説明した。
ところで、以上の実施形態において音声入力制御部4は、音声入力処理としては、図2に示した音声入力処理に代えて、図4に示す音声入力処理を行うようにしてもよい。
すなわち、音声入力制御部4は、音声入力処理において、まず、しきい値Thdを予め定めた標準値に設定する(ステップ402)。
そして、入力装置8を用いたユーザからの音声入力開始の指示の入力を待ち(ステップ404)、音声入力開始の指示が発声したならば音声認識エンジン2に音声認識開始を指示し(ステップ406)、当該指示に応答して音声認識エンジン2で行われる音声認識処理によって、ユーザの発話に対する認識結果として得られた認識候補とスコアを取得する(ステップ408)。
【0042】
次に、音声認識エンジン2から得られた認識候補のうちスコアが最大の認識候補を第1候補、スコアが2番目に大きな認識候補を第2候補として、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きいかどうかを調べる(ステップ410)、
そして、スコアの差がしきい値Thdより大きい場合には(ステップ410)、第1候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ412)。
【0043】
そして、言い直しが発生したかどうかを調べる(ステップ414)
言い直しが発生していなければ(ステップ414)、ステップ402からの処理を行う。
【0044】
一方、言い直しが発生した場合には(ステップ414)、しきい値Thdを一段階(所定値)増加した上で(ステップ416)、ステップ404に戻って、次のユーザからの音声入力開始の指示の入力を待つ。
【0045】
一方、ステップ410で、第1候補と第2候補のスコアの差が所定のしきい値Thdより大きくないと判定された場合には、第1候補となっている認識候補と、第1候補のスコアとスコアの差がしきい値Thd以内の認識候補とをスコア順に並べたリストを表示装置7に表示する(ステップ418)。
【0046】
そして、ユーザのキャンセル操作(ステップ420)とリスト内の認識候補の選択の受付(ステップ422)との発生を監視し、キャンセル操作が発生したならば(ステップ420)、ステップ402からの処理に戻る。
【0047】
また、リスト内の認識候補の選択の受付が発生した場合には(ステップ422)、選択された認識候補を入力文字列として確定し、音声入力を利用しているアプリケーション部5に出力する(ステップ424)。そして、ステップ402からの処理に戻る。
【0048】
以下、図4に示した音声入力処理の処理例を示す。
いま、ユーザの「スターバイク」との発話に対して、図3aに示すように認識候補/スコアが、「スターブック」/90点、「スターバイク」/84点、「スカイブック」/79点、「スターバス」/64点と、音声認識エンジン2によって算出されたものとする。
【0049】
また、しきい値Thdは標準値に設定されており、その値は5であるものとする。
この場合、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=5より大きいので、第1候補「スターブック」が入力文字列として自動的に確定しアプリケーション部5に出力されることとなる。
【0050】
そして、この入力文字列「スターブック」が、ユーザの発話した「スターバイク」と異なるためにユーザが言い直しを行うと、しきい値Thdが一段階増加される。ここでは、しきい値Thdが標準値の5から10に増加されたものとする。
【0051】
そして、ユーザが再度「スターバイク」と発話し、音声認識エンジン2によって、さきほどと同様に図3aに示した認識候補/スコアが算出されたものとする。
すると、今度は、第1候補「スターブック」と第2候補「スターバイク」とのスコアの差が6としきい値Thd=10以内であるので、第1候補「スターブック」と第1候補「スターブック」とスコア差がしきい値Thd=10以内の認識候補「スターバイク」とのリストが図3cに示すように表示される。
【0052】
従って、ユーザは、今度は、図3cに示すリスト中より、自身が発話した「スターバイク」を選択し、入力文字列として確定することができるようになる。
以上、図4に示した音声入力処理の処理例を示した。
このように、図4に示した音声入力処理によっても正しい発話内容を最大スコアの認識候補として算出できているときには自動的にスコアが最大の認識候補を入力文字列として確定することを継続してユーザ操作を簡便化しつつ、正しい発話内容を最大スコアの認識候補として算出できなかった場合には、次回のユーザの発話に対して複数の認識候補のリストが表示され易くして、ユーザが、当該次回の発話によって正しい発話内容である認識候補の入力文字列として確定を、より確実に行えるようすることができる。
【符号の説明】
【0053】
1…マイクロフォン、2…音声認識エンジン、3…音声認識辞書、4…音声入力制御部、5…アプリケーション部、6…GUI制御部、7…表示装置、8…入力装置。
図1
図2
図3
図4