(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023004485
(43)【公開日】2023-01-17
(54)【発明の名称】音声認識装置、音声認識システムおよび音声認識方法
(51)【国際特許分類】
G10L 15/32 20130101AFI20230110BHJP
G10L 15/30 20130101ALI20230110BHJP
【FI】
G10L15/32 210Z
G10L15/32 220Z
G10L15/30
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2021106166
(22)【出願日】2021-06-25
(71)【出願人】
【識別番号】000010098
【氏名又は名称】アルプスアルパイン株式会社
(72)【発明者】
【氏名】工藤 信範
(57)【要約】 (修正有)
【課題】発話音声が音声認識辞書に登録されているワードと一致していなくても音声認識が可能となる音声認識装置、音声認識システム及び音声認識方法を提供する。
【解決手段】音声認識システム10は、音声認識プログラムを備える車載装置100と、音声認識サーバ300と、を含む。車載装置100は、音声認識辞書に登録されている各ワードに対し、発話音声との整合の度合いを示すスコアが所定の条件を満たすと判定された場合に、発話音声を音声認識サーバ300へ送信する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
マイクロフォンと、
整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、
前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした発話音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する第1音声認識部と、
前記第1音声認識部より認識レベルが高い第2音声認識部と、
前記第1音声認識部による認識結果において、前記発話音声との整合の度合いを示すスコアの遷移が所定の条件を満たすか否かを判定する判定部と、
前記判定部によりスコアの遷移が前記所定の条件を満たすと判定された場合に、前記発話音声を前記第2音声認識部へ送信する送信部と、を備える音声認識装置。
【請求項2】
前記所定の条件として、一時的な整合の度合いの悪化を示すスコアの遷移が少なくとも1箇所検出された場合に、前記送信部は、前記第2音声認識部へ当該発話音声を送信する、請求項1に記載の音声認識装置。
【請求項3】
前記所定の条件として、前記第1音声認識部による認識結果が前記基準値を満たさなかった場合に、前記送信部は、前記第2音声認識部へ当該発話音声を送信する、請求項2に記載の音声認識装置。
【請求項4】
前記音声認識辞書はさらに、前記基準値よりも低い整合の度合いを表すように設定した予備基準値を有し、前記所定の条件として、前記第1音声認識部による認識結果がワードに設定されている前記予備基準値よりも高い度合で整合した場合に、前記送信部は、前記第2音声認識部へ当該発話音声を送信する、請求項2および3に記載の音声認識装置。
【請求項5】
前記第2音声認識部は、前記送信部より送信された前記発話音声に基づいて音声認識を実行し、認識結果を出力する、請求項1ないし4いずれか1つに記載の音声認識装置。
【請求項6】
前記送信部は、前記予備基準値よりも高い度合で整合した前記ワードのテキストデータを前記発話音声と共に前記2音声認識部へ送信する、請求項4に記載の音声認識装置。
【請求項7】
前記第2音声認識部は、前記送信部より送信された前記発話音声および前記テキストデータに基づいて音声認識を実行し、認識結果を出力する、請求項6に記載の音声認識装置。
【請求項8】
請求項1から7のいずれか1つに記載の音声認識装置と、前記音声認識装置から発話音声を受信して音声認識を行い、認識結果を当該音声認識装置へ送信する音声認識サーバと、からなる音声認識システム。
【請求項9】
前記第2音声認識部は、前記音声認識サーバである、請求項8に記載の音声認識システム。
【請求項10】
前記音声認識装置は、前記音声認識サーバより取得した音声認識結果を出力する、請求項8および9に記載の音声認識システム。
【請求項11】
マイクロフォンと、第1音声認識部と、当該第1音声認識部より認識レベルの高い第2音声認識部とを備えた音声認識方法であって、
前記第1音声認識部により、整合の度合いを表す基準値が各々設定された複数のワードが登録された第1音声認識辞書から、前記マイクロフォンがピックアップした発話音声に対し、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力するステップと、
前記第1音声認識部による認識結果において、前記発話音声との整合の度合いを示すスコアの遷移が所定の条件を満たすか否かを判定するステップと、
前記判定するステップによりスコアの遷移が前記所定の条件を満たすと判定された場合に、当該発話音声を前記第2音声認識部へ送信するステップと、を備える音声認識方法。
【請求項12】
前記所定の条件として、一時的な整合の度合いの悪化を示すスコアの遷移が少なくとも1箇所検出された場合に、前記送信するステップは、前記第2音声認識部へ当該発話音声を送信する、請求項11に記載の音声認識方法。
【請求項13】
前記所定の条件として、前記第1音声認識部による認識結果が前記基準値を満たさなかった場合に、前記送信するステップは、前記第2音声認識部へ当該発話音声を送信する、請求項12に記載の音声認識方法。
【請求項14】
前記音声認識辞書はさらに、前記基準値よりも低い整合の度合いを表すように設定した予備基準値を有し、前記所定の条件として、前記第1音声認識部による認識結果がワードに設定されている前記予備基準値よりも高い度合で整合した場合に、前記送信するステップは、前記第2音声認識部へ当該発話音声を送信する、請求項12および13に記載の音声認識方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザの発話を認識する音声認識の技術に関するものである。
【背景技術】
【0002】
ユーザの発話を認識する音声認識の技術としては、予め音声認識辞書に登録した各ワードについて、当該ワードが発話音声が表すワードであることの尤もらしさを表す尤度を算定し、尤度が最大のワードを、当該尤度が所定のしきい値を超えたときに、ユーザが発話したワードとして認識する技術が知られている。
【0003】
また、上記のような音声認識の技術において、認識率を向上するため、音声認識レベルの高い別の音声認識部を併用して音声認識を行う技術が存在する。例えば、ユーザの発話音声を音声認識端末が認識できなかった場合に、発話音声の音声データがサーバに送信され、サーバがこの音声データを用いて音声認識を行い、その認識結果を音声認識端末に送信する技術がある(特許文献1)。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の音声認識技術における課題について説明する。例えば、音声認識辞書に“じたくにかえる”がワードとして登録されているとする。ここでユーザが、当該ワードの機能を利用するために“じたくへかえる”と発話した場合、登録ワードの“に”の部分を“へ”と誤って発話してしまうことで、尤度が基準値を超えず、発話したワードとして認識できないという問題が発生していた。また、上記以外では、“ちかくのこうえん”という登録ワードに対して、“ちかくのこーえん”のように、“こうえん”の部分を長音化して発話してしまった場合も同様に、尤度が基準値を超えないため、認識することができなかった。
【0006】
特許文献1に記載の発明により、認識できなかったとされる音声を、より認識レベルの高い音声認識部を用いて音声認識させることで、上述のような登録しているワードと多少異なる発話をした場合においても、認識させ実行することが可能となる。しかし、認識できなかった発話音声を全て、サーバに送信し解析させるため、音声認識に関係しない発話についても送信されてしまうという課題が生じる。また、例えば、音声認識辞書に“じたくへかえる”と“じたくにかえる”の両方を登録しておくことで対策することも可能だが、すべてのワードにおける類義語、および長音化に対応したワードを登録するとなると、膨大な数のワードを登録する必要が出てくる。
【0007】
本発明は、このような課題を解決するために成されたものであり、入力された発話音声が音声認識辞書に登録されているワードと一致していなくても音声認識が可能となる音声認識装置、音声認識システムおよび音声認識方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る音声認識装置は、マイクロフォンと、整合の度合いを表す基準値が各々設定された複数のワードが登録された音声認識辞書と、前記音声認識辞書に登録されたワードであって、前記マイクロフォンがピックアップした発話音声に、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力する第1音声認識部と、前記第1音声認識部より認識レベルが高い第2音声認識部と、前記第1音声認識部による認識結果において、前記発話音声との整合の度合いを示すスコアの遷移が所定の条件を満たすか否かを判定する判定部と、前記判定部によりスコアの遷移が前記所定の条件を満たすと判定された場合に、前記発話音声を前記第2音声認識部へ送信する送信部とを備える。
【0009】
ある実施態様では、前記所定の条件として、一時的な整合の度合いの悪化を示すスコアの遷移が少なくとも1箇所検出された場合に、前記送信部は、前記第2音声認識部へ当該発話音声を送信する。ある実施態様では、前記所定の条件として、前記第1音声認識部による認識結果が前記基準値を満たさなかった場合に、前記送信部は、前記第2音声認識部へ当該発話音声を送信する。ある実施態様では、前記音声認識辞書はさらに、前記基準値よりも低い整合の度合いを表すように設定した予備基準値を有し、前記所定の条件として、前記第1音声認識部による認識結果がワードに設定されている前記予備基準値よりも高い度合で整合した場合に、前記送信部は、前記第2音声認識部へ当該発話音声を送信する。ある実施態様では、前記第2音声認識部は、前記送信部より送信された前記発話音声に基づいて音声認識を実行し、認識結果を出力する。ある実施態様では、前記送信部は、前記予備基準値よりも高い度合で整合した前記ワードのテキストデータを前記発話音声と共に前記2音声認識部へ送信する。ある実施態様では、前記第2音声認識部は、前記送信部より送信された前記発話音声および前記テキストデータに基づいて音声認識を実行し、認識結果を出力する。
【0010】
本発明に係る音声認識システムは、上記記載の音声認識装置と、前記音声認識装置から発話音声を受信して音声認識を行い、認識結果を当該音声認識装置へ送信する音声認識サーバとからなる。ある実施態様では、上記記載の第2音声認識部は、前記音声認識サーバである。ある実施態様では、前記音声認識装置は、前記音声認識サーバより取得した音声認識結果を出力する。
【0011】
本発明に係る音声認識方法は、マイクロフォンと、第1音声認識部と、当該第1音声認識部より認識レベルの高い第2音声認識部とを備えた音声認識方法であって、前記第1音声認識部により、整合の度合いを表す基準値が各々設定された複数のワードが登録された第1音声認識辞書から、前記マイクロフォンがピックアップした発話音声に対し、当該ワードに設定されている前記基準値が表す度合以上高い度合で整合するワードを認識結果として出力するステップと、前記第1音声認識部による認識結果において、前記発話音声との整合の度合いを示すスコアの遷移が所定の条件を満たすか否かを判定するステップと、前記判定するステップによりスコアの遷移が前記所定の条件を満たすと判定された場合に、当該発話音声を前記第2音声認識部へ送信するステップとを備える。
【0012】
ある実施態様では、前記所定の条件として、一時的な整合の度合いの悪化を示すスコアの遷移が少なくとも1箇所検出された場合に、前記送信するステップは、前記第2音声認識部へ当該発話音声を送信する。前記所定の条件として、前記第1音声認識部による認識結果が前記基準値を満たさなかった場合に、前記送信するステップは、前記第2音声認識部へ当該発話音声を送信する。ある実施態様では、前記音声認識辞書はさらに、前記基準値よりも低い整合の度合いを表すように設定した予備基準値を有し、前記所定の条件として、前記第1音声認識部による認識結果がワードに設定されている前記予備基準値よりも高い度合で整合した場合に、前記送信するステップは、前記第2音声認識部へ当該発話音声を送信する。
【発明の効果】
【0013】
本発明によれば、音声認識時のスコアが所定の条件を満たすような発話が入力された場合に、認識レベルの高い音声認識部に音声認識させるようにしたので、発話音声が音声認識辞書に登録されているワードと一致していなくても音声認識が可能となる。
することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の実施形態に係る音声認識システムの構成を示すブロック図である。
【
図2】本発明の実施形態に係る音声認識辞書を示す図である。
【
図3】本発明の実施形態に係る音声認識プログラム500の機能的な構成を示す図である。
【
図4】本発明の実施形態に係る入力音声認識処理の手法を示す図である。
【
図5】本発明の実施形態に係る音声認識の制御動作を説明するフローチャートである。
【
図6】長音化語発話時における入力音声認識処理の手法を示す図である。
【
図7】一時的なスコアの悪化が複数箇所に存在した場合における入力音声認識処理の手法を示す図である。
【発明を実施するための形態】
【0015】
次に、本発明の実施の形態について図面を参照して詳細に説明する。以下では、本発明に係る音声認識機能を備えた車載装置の例をとって本発明の詳細を説明する。
【実施例0016】
まず、本発明の実施形態に係る音声認識システムのシステム構成について説明する。
図1は、本発明の実施形態に係る音声認識システムのシステム構成を示すブロック図である。音声認識システム10は、車載装置100および音声認識サーバ300を含んで構成される。車載装置100および音声認識サーバ300は、例えば、インターネットなどのネットワーク900を介して情報の送受信を行う。
【0017】
車載装置100は、車両に搭載された、いわゆるカーナビゲーションであり、車両の現在位置を検出する機能や、車両に搭乗するユーザにより設定された目的地までの経路を探索し、案内する機能等を有する。なお、これらの機能に関する詳細な説明は省略する。車載装置100は、車両に固定的に取り付けられた装置でなくてもよい。例えば、車載装置100は、ユーザによって車内に持ち込まれたモバイル端末であってもよい。
【0018】
音声認識サーバ300は、クライアント端末で収集された音声の音声認識に関するサービスを提供するクラウドサーバである。バーチャルアシスタントが搭載されたモバイル端末、本実施形態に係る車載装置100等が、音声認識サーバ300に対するクライアント端末として機能する。音声認識サーバ300は、クライアント端末より送信された発話音声の音声データについて音声認識を行い、その認識結果をクライアント端末へ送信する。本実施例における音声認識サーバ300は、ハードウェア資源が豊富であり、CPUの処理能力も高いため、スタンドアロン型である車載装置100に搭載される音声認識機能に比べて認識性能が高い。また、登録できるワード数も多く、受け付けられる発話の自由度も高い。よって、語彙の組み合わせや言い回しなど多種多様な音声入力に対して認識を行うことが可能である。例えば、テレビをつける動作を実行させる場合に、“テレビをつけて”や“テレビON”のような異なる言い回しで入力しても、「テレビをつける」に関するワードであると認識し、所定の動作を実行することが可能である。
【0019】
次に、車載装置100の構成について説明する。車載装置100は、記憶部110、入力部120、出力部130、制御部140、通信部150を含んで構成される。記憶部110は、車載装置100が実行するアプリケーションソフトウェアやプログラム、道路地図データ、楽曲や映像等のコンテンツデータなどを記憶することができる。また、記憶部110は音声認識を行うために必要な音声認識辞書を格納する。ここで
図2に、音声認識辞書の格納態様を示す。
図2に示すように、音声認識辞書には、音声認識の対象とする複数のワードと、当該ワードの識別番号(No.)と、基準値Thが登録されている。なお、
図2に示す音声認識辞書の格納態様は一例であり、登録ワードの内容や基準値の値については、実施例によって変更可能である。
【0020】
入力部120は、音声入力やタッチパネル、入力キーデバイスを含む。音声入力は、マイクロフォン等の収音機器を介してユーザが発話した音声を収音する。当該収音した発話音声に基づいて音声認識処理が行われる。出力部130は、画面への表示や音声による出力を行う。
【0021】
制御部140は、マイクロコントローラまたは中央プロセッサ等を含み、記憶部に記憶された制御プログラムに基づいて所定の処理を実行する。通信部150は、外部機器や外部ネットワーク等との間で有線または無線によるデータの送受信を可能にする。通信部150は、発話音声の音声データを音声認識サーバ300に送信することができる。さらに、通信部150は、音声認識サーバ300による音声認識結果を受信することができる。
【0022】
本実施形態では、制御部140は、音声認識プログラム500を実行する。
図3は、本発明の実施形態に係る音声認識プログラム500の機能的な構成を示す図である。音声認識プログラム500は、音声認識部510、実行部520、条件判定部530、データ送信部540を備えている。
【0023】
音声認識部510は、入力部120から入力される発話音声の入力と並行して、発話音声に対する音声認識辞書に格納された各ワードのスコアを算定する。
【0024】
ここで、発話音声に対する音声認識辞書に登録された各ワードのスコアは、当該ワードと発話音声が表す語句との相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。
【0025】
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、発話音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、音声認識辞書に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。なお、発話音声の音声区間毎のスコアの増加値/減少値は、例えば、当該音声区間のワードの全音声区間に対する割合を、スコアの初期値に乗じた大きさとする。
【0026】
ここで、本発明の実施形態に係る音声認識におけるのスコア遷移について
図4に示す具体例を参照して説明する。例えば、
図4(a)に示すように、発話音声“じたくにかえる”と、登録ワード“じたくにかえる”とのスコアは、発話音声の“じたくにかえる”の発話が入力されている期間は順次減少し、
図2に示した音声認識辞書に登録してある“じたくにかえる”の基準値Thを超えた場合に、登録ワードである“じたくにかえる”と発話したと認識する。つまり、基準値Thは類似度を示し、類似度が基準値を超えた場合に、入力された発話音声が音声認識辞書の登録ワードのいずれかに相当すると認識する。
【0027】
また、音声認識部510は、
図4(a)に示したワード“じたくにかえる”の場合では、ワード“じたくにかえる”についてのスコアは、発話音声の“じたくにかえる”の“え”が入力されると基準値Th以下となるので、この時点で、“じたくにかえる”を認識する。
【0028】
一方で、
図4(b)に示す発話音声“じたくへかえる”が入力された場合、“じたく”の部分における音声が入力されている期間は、
図4(a)と同様にスコアは順次減少するが、“へ”の音声が入力されたタイミングでスコアは増加する。これは、登録ワード“じたくにかえる”の“に”の部分が異なっているため、類似度が悪化し、スコアの値が基準値Thと離れる方向に遷移するためである。その後、“かえる”と音声が入力されている期間は順次減少するが、最終的な認識結果としては、基準値Thを超えない。よって、発話音声“じたくへかえる”は、登録ワード“じたくにかえる”の基準値Thを下回らないため認識されない。
【0029】
音声認識部510は、以上のような処理により、入力された発話音声について音声認識を行う。なお、本実施例における音声認識部510は、音声認識サーバ300に比べてハードウェア資源が少なく、CPUの処理能力も低い。また、音声認識機能に登録できるワードの数に限りがあるため、認識性能や受け付けられる発話の自由度は音声認識サーバ300に劣る。
【0030】
図3に戻り、実行部520は、音声認識部510の認識結果の登録ワードに対応する機能を実行する。実行する際は、出力部130を介して表示や音声により実行結果を出力する。例えば、発話音声が“じたくにかえる”である場合、認識結果として、自宅を目的地設定した経路を地図表示して経路案内を開始する。また、後述する音声認識サーバ300より取得したワードの認識結果を実行する。
【0031】
条件判定部530は、発話音声を音声認識サーバ300に送信する必要があるか否かを判定する。本実施例では、後述する条件を満たした場合に、発話音声を音声認識サーバ300へ送信する必要があると判定する。
【0032】
データ送信部540は、条件判定部530により所定の条件を満たすと判定された場合に、音声認識サーバ300にて音声認識処理するためにデータを通信部150を介して音声認識サーバ300へ送信する。ここで、送信するデータは、好ましくは、発話音声の音声データ、あるいは、音声データに加えて類似度が高いとされた登録ワードのテキストデータを含んだデータを送信する。
【0033】
そして、音声認識サーバ300は、データ送信部540により送信された各種データに基づいて音声認識を行い、その認識結果を車載装置100へ送信する。ある実施態様では、音声認識サーバ300は、送信された音声データを当該音声認識サーバ300側で保持している音声認識辞書を用いて音声認識処理を実施する。そして、認識結果を車載装置100へフィードバックする。またある実施態様では、音声認識サーバ300は、送信された音声データと類似度が高いとされたワードが同義であるか解析する。そして、認識結果を車載装置100へフィードバックする。この音声認識処理に関しては、音声認識サーバ300の形態によって変更可能である。
【0034】
車載装置100は、音声認識サーバ300から受け取った認識結果に基づいて、実行部520により、ワードに対応する機能を実行する。
【0035】
次に、本発明の実施形態に係る音声認識の制御動作について、
図4と
図5のフローチャートを参照して説明する。なお、以下の説明では、発話音声として登録ワードである“じたくにかえる”と、登録ワードと異なる“じたくへかえる”のそれぞれが入力されたものを例に説明する。まず、入力部120を介して、ユーザによる発話を検出する(S101)。発話音声が入力されたことが検出されたら次のステップへ進む。
【0036】
発話音声が入力された場合、音声認識部510は、発話音声が音声認識辞書に登録しているワードのいずれに相当するかスコアにより判定する(S103)。例えば、
図4(a)のように、ユーザが “じたくにかえる”と発話する場合、音声認識部510は、登録ワード“じたくにかえる”に対するスコアを発話による音声入力と並行して算定していき、スコアが基準値Thを超えた段階で、発話音声“じたくにかえる”を認識する。
【0037】
以上のように、スコアが基準値Thを超える場合は、実行部520により認識した登録ワードに関する所定の処理を実行する(S105)。本実施例では、認識した登録ワードが“じたくにかえる”であるため、経路案内の目的地を自宅に設定するなどの処理を実行する。
【0038】
S103に戻り、スコアが基準値Thを超えない場合は、S107へ進む。例えば、
図4(b)のように、ユーザが “じたくへかえる”と発話する場合、音声認識部510は同様にスコアを算定していき、発話終了時に基準値Thを超えていないため、対象の登録ワードがないと判定し、認識に失敗する。
【0039】
上記のように、音声認識部510による音声認識が失敗した場合に、条件判定部530は、発話音声を音声認識サーバ300に送信する必要があるか否かを判定する。なお、本実施例では、2つの条件を満たした場合に、発話音声を音声認識サーバ300へ送信する必要があると判定する。
【0040】
ここで、実施例における第1の条件は、音声認識結果として、基準値Thよりも低い整合の度合いに設定された予備基準値PThを超えるか否かである(S107)。ここで、
図4(b)に示すように“じたくへかえる”と発話された場合、最終的な認識結果は、基準値Thは超えないが、予備基準値PThを超えている。この場合、認識には至らないが登録ワードと類似度の高い音声が発話されたと判定できる。そして、予備基準値PThを超えていると判定されたことを受け、次のステップへ進む。
【0041】
一方で予備基準値PThを超えない発話音声については、登録ワードに関係しない音声を入力しているものと推定できるため、後述する第2の条件を判定せず、認識処理を終了させたり、エラー表示を行う(S118)。
【0042】
次に、第2の条件は、スコアの値が一時的に悪化しているタイミングがあるか否かを判定する(S109)。
図4(b)に示すように、“じたくへかえる”と発話された場合、発話音声内で“へ”が入力されたタイミングだけ、一時的にスコアが悪化して増加している。このようなスコアの遷移が検出された場合は、第2の条件を満たすと判定し、次のステップへ進む。一方で、上記のようなスコアの遷移が検出されない場合は、認識処理を終了させたり、エラー表示を行う(S118)。
【0043】
次に、条件判定部530により、2つの条件を満たすと判定された場合に、データ送信部540は、音声認識処理を実施するために必要なデータを音声認識サーバ300へ通信部150を介して送信する(S111)。ここで、データ送信部540により送信するデータには、本実施例では、発話音声の音声データと、予備基準値PThを超えた登録ワードのテキストデータが含まれる。例えば、
図4(b)を例にすると、“じたくへかえる”と発話した時の音声データと、予備基準値PThを超えたワードである“じたくにかえる”のテキストデータを音声認識サーバ300へ送信する。
【0044】
音声認識サーバ300は、データ送信部540により送信された音声データとテキストデータに基づいて、音声認識を行う。なお、本実施例においては、音声認識サーバ300では、音声データとテキストデータが同義であるか否かを判定し、音声データがテキストデータと同義であると判定した場合に、その結果を車載装置100に対しフィードバックする。例えば、音声データ“じたくへかえる”とテキストデータ“じたくにかえる”が送信された場合、音声認識サーバ300は、音声データ“じたくへかえる”がテキストデータ“じたくにかえる”と同義であるかを解析する。
【0045】
ここで、S111に戻り、音声認識サーバ300より送信した発話音声が同義であるか否かの判定結果を、通信部150を介して受信する(S113)。音声認識サーバ300により、音声データとテキストデータが同義であるという認識結果を受信した場合は、実行部540へ同義と判定された登録ワードが送信される(S115)。そして、実行部540は、ワードに対応する機能を実行する(S105)。
【0046】
S115において、音声認識サーバ300により、音声データとテキストデータが同義ではないという認識結果を受信した場合は、認識処理を終了させたり、エラー表示を行う(S118)。
【0047】
以上のように、音声認識辞書に登録されているワードに対して、異なる言いまわしで発話した場合であっても、スコアの遷移から言い間違えであることを検出して、当該言い間違えにより認識失敗した発話のみを、認識レベルの高い音声認識サーバ300に送信して音声認識させるため、従来認識できなかった言いまわしであっても、認識できるようになる。これにより、すべての同義語を辞書登録しておく必要がなくなる。また、スタンドアロン型の音声認識装置は、応答速度は速いが認識性能が低いデメリットがあり、対してサーバ型の音声認識装置は、認識性能は高いがデータの送受信により応答速度が低下するというデメリットがあるが、本実施例のように、特定の発話のみサーバ型の音声認識装置で認識させるため、認識率の向上と応答の遅延抑制を両立することができる。
【0048】
また、本実施例では、条件判定部530は、2つの条件を順番に判定していたが、実施形態によっては、判定する順番は逆であってもよく、また、同時にそれぞれの条件を判定するようにしてもよい。また、ある実施態様では、条件判定部530は、第2の条件である、スコア遷移による判定のみで、発話音声を音声認識サーバに送信する必要があるか否か判定するようにしてもよい。これにより、例えば、周囲の雑音が混じって予備基準値PThを超えないような場合であっても判定できるようになり、かつ、基準値Thを超えないすべての発話音声が音声認識サーバに送信されることも抑制できる。
【0049】
次に、本実施例においては、“じたくへかえる”のような同義語を例に説明したが、長音化語にも対応させることができる。ここで、
図6に長音化語発話時における発話音声認識処理の手法を示す。
図6(a)は、音声認識辞書にワード“ちかくのえいがかん”が登録されている場合に、発話音声“ちかくのえいがかん”が発話された際の音声認識部510による音声認識結果を示している。登録ワードと同じ発話音声を入力しているため、スコアは発話するごとに減少していき、基準値Thを超えることで音声認識に成功する。
【0050】
次に、
図6(b)は、音声認識辞書にワード“ちかくのえいがかん”が登録されている場合に、発話音声が長音化した“ちかくのえーがかん”が発話された際の音声認識部510による音声認識結果を示している。登録ワードの“い”の部分を長音化して音声入力してしまっているため、その部分だけスコアが悪化している。そして、当該スコアの悪化が原因で、基準値Thを超えないため、音声認識に失敗する。
【0051】
上記のような発話音声が長音化してしまった場合においても、上記実施例に示した同義語の音声認識手法と同様に、条件判定部530によりスコアが予備基準値PThを超え、かつ、スコアが一時的に悪化するタイミングがないかを検出し、音声認識サーバに音声データとテキストデータを送信して高精度な音声認識処理を行わせ、発話音声が登録ワードと同義であるかの判定結果を受信することで、認識の失敗を抑制することができる。
【0052】
また、本実施例では、
図4(b)や
図6(b)のようなスコアが悪化するタイミングが一箇所だけ存在する例を記載したが、ある実施態様では、一時的なスコアの悪化が複数箇所に存在しているものであってもよい。ここで、
図7に一時的なスコアの悪化が複数箇所に存在した場合における発話音声認識処理の手法を示す。
図7(a)は、音声認識辞書にワード“えいがかんにいく”が登録されている場合に、“えいがかんにいく”と発話された際の音声認識部510による音声認識結果を示している。登録ワードと同じ音声を発話しているため、スコアは発話するごとに減少して、基準値Thを超えるため、音声認識に成功する。
【0053】
次に、
図7(b)は、音声認識辞書にワード“えいがかんにいく”が登録されている場合に、発話音声の言い間違えと、長音化による入力である“えーがかんへいく”が発話された際の音声認識部510による音声認識結果を示している。登録ワードの“い”の部分を長音化し、“に”の部分を“へ”に言い間違えて音声入力してしまっているため、それぞれ部分ではスコアが悪化している。そして、当該スコアの悪化が原因で、基準値Thを超えないため、音声認識に失敗してしまうのである。
【0054】
以上のような、一時的なスコアの悪化が複数箇所に存在するような場合であっても、上記実施例と同様の音声認識処理を施すことによって、多少の言い回しの違いであっても発話音声を認識し、実行することが可能となる。
【0055】
本実施例では、データ送信部540は、音声データとテキストデータを音声認識サーバ300へ送信していたが、ある実施態様では、音声データのみ送信し、音声認識サーバ300は、当該受信した音声データに基づいて音声認識を行い、その認識結果を車載装置100へフィードバックするようにしてもよい。
【0056】
本実施例では、外部の音声認識サーバを用いる音声認識システムを例に説明したが、ある実施態様では、車載装置100が音声認識レベルの異なる2つの音声認識装置を備えているようなものであっても、本発明は適応可能である。例えば、車載装置100は、認識レベルの低い方の音声認識装置にて音声認識を行い、上記実施例のような言い回しの違いにより認識に失敗した場合に、条件判定部530による判定結果に基づいて、もう一方の認識レベルの高い音声認識装置に音声認識させることによって、無駄な音声認識処理とそれによる待ち時間を削減することが可能になる。
【0057】
本実施例では、直接音声認識サーバ300と通信を行っていたが、ある実施態様では、例えば、車載装置100がバーチャルアシスタントが搭載された携帯電話のようなモバイル端末と通信接続しており、車載装置100で上記実施例のような言い回しの違いにより認識に失敗した場合に、モバイル端末に発話音声を送信し、モバイル端末側の音声認識機能を利用して認識結果を受信するような形態であってもよい。
【0058】
本実施例では、車載装置100を例に説明したが、ある実施態様では、例えば、外部の音声認識サーバと連携可能な音声認識機能を備えたポータブル端末であってもよい。この場合、ポータブル端末側で備える音声認識機能を通常は利用し、上記実施例のような言い回しの違いにより認識に失敗した場合に、外部の音声認識サーバ発話音声を送信して認識結果を受信するような形態であってもよい。
【0059】
本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。