(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5957269
(24)【登録日】2016年6月24日
(45)【発行日】2016年7月27日
(54)【発明の名称】音声認識サーバ統合装置および音声認識サーバ統合方法
(51)【国際特許分類】
G10L 15/32 20130101AFI20160714BHJP
G10L 15/30 20130101ALI20160714BHJP
G10L 15/06 20130101ALI20160714BHJP
G10L 15/22 20060101ALI20160714BHJP
【FI】
G10L15/32 220Z
G10L15/30
G10L15/06 400V
G10L15/22 470Z
【請求項の数】15
【全頁数】18
(21)【出願番号】特願2012-88230(P2012-88230)
(22)【出願日】2012年4月9日
(65)【公開番号】特開2013-218095(P2013-218095A)
(43)【公開日】2013年10月24日
【審査請求日】2015年1月9日
(73)【特許権者】
【識別番号】000001487
【氏名又は名称】クラリオン株式会社
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜特許業務法人
(74)【代理人】
【識別番号】110000350
【氏名又は名称】ポレール特許業務法人
(72)【発明者】
【氏名】大淵 康成
(72)【発明者】
【氏名】本間 健
【審査官】
大野 弘
(56)【参考文献】
【文献】
特表2012−501480(JP,A)
【文献】
特開2003−108170(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/32
G10L 15/06
G10L 15/22
G10L 15/30
(57)【特許請求の範囲】
【請求項1】
ユーザが音声を用いて操作を行うための端末装置と、音声データを認識してその結果を返す音声認識サーバとの間を中継する装置であって、
ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合用パラメータを学習し保存する統合方式学習部と、
ユーザが音声認識を意図して発した音声のデータである音声データを前記端末装置から受信する手段と、
前記受信した音声データを汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、
前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段と、
前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を、前記保存された認識結果統合用パラメータと比較し、最適な認識結果を選択する認識結果統合部と、
前記選択された認識結果を前記端末装置に送信する手段と
を備える音声認識サーバ統合装置。
【請求項2】
請求項1記載の音声認識サーバ統合装置において、更に、
前記端末装置からユーザが登録した語句もしくはユーザがよく使う語句のリストを受信する手段と、
前記受信した語句をもとに合成音声を生成する音声合成部と、
前記生成された合成音声を前記汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、
前記合成音声の前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段を備え、
前記統合方式学習部は、前記合成音声の基となった語句と前記認識結果とを合わせて解析し、認識結果統合用パラメータを学習し保存することを特徴とする音声認識サーバ統合装置。
【請求項3】
請求項1記載の音声認識サーバ統合装置において、更に、
前記端末装置からユーザが登録した語句もしくはユーザがよく使う語句のリストを受信する手段と、
前記汎用音声認識サーバから認識用の語句リストを受信する手段と、
前記認識用の語句リストを前記端末装置から受信した語句リストと比較し、類似度を推定する語句比較・類似度推定部とを備え、
前記統合方式学習部は、前記推定結果を認識結果統合用パラメータとして保存することを特徴とする音声認識サーバ統合装置。
【請求項4】
ユーザが音声を用いて操作を行うための装置であって、
ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合用パラメータを学習し保存する統合方式学習部と、
ユーザが音声認識を意図して発した音声のデータである音声データを汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、
前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段と、
前記汎用音声認識サーバおよび専用音声認識サーバの認識結果を、前記保存された認識結果統合用パラメータと比較し、最適な認識結果を選択する認識結果統合部と、
前記選択された認識結果を表示する表示部を備える音声認識サーバ統合装置。
【請求項5】
請求項4記載の音声認識サーバ統合装置において、更に、
ユーザが登録した語句もしくはユーザがよく使う語句を記憶するユーザ辞書と、
前記ユーザ辞書に記憶した語句をもとに合成音声を生成する音声合成部と、
前記生成された合成音声を前記汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、
前記合成音声の前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段とを備え、
前記統合方式学習部は、前記合成音声の基となった語句と前記認識結果とを合わせて解析し、認識結果統合用パラメータを学習し保存することを特徴とする音声認識サーバ統合装置。
【請求項6】
請求項4記載の音声認識サーバ統合装置において、更に、
ユーザが登録した語句もしくはユーザがよく使う語句のリストを記憶するユーザ辞書と、
前記汎用音声認識サーバから認識用の語句リストを受信する手段と、
前記認識用の語句リストを前記ユーザ辞書の語句リストと比較し、類似度を推定する語句比較・類似度推定部とを備え、
前記統合方式学習部は、前記推定結果を認識結果統合用パラメータとして保存することを特徴とする音声認識サーバ統合装置。
【請求項7】
請求項1〜6の何れか1つに記載の音声認識サーバ統合装置において、
前記専用音声認識サーバは、ユーザが登録した語句もしくはユーザがよく使う語句のリストをもとに認識対象語句リストを作成し、このリストに含まれる語句を高い精度で認識することが可能なことを特徴とする音声認識サーバ統合装置。
【請求項8】
請求項1〜6の何れか1つに記載の音声認識サーバ統合装置において、
前記専用音声認識サーバは、前記音声認識サーバ統合装置或いは端末装置内に音声専用認識部として組み込まれていることを特徴とする音声認識サーバ統合装置。
【請求項9】
請求項2または請求項5に記載の音声認識サーバ統合装置において、
前記認識結果統合用パラメータは、ユーザが登録した語句もしくはユーザがよく使う語句に対する前記汎用音声認識サーバの認識結果の正誤を保存するものであり、
前記認識結果統合部は、前記専用音声認識サーバによる認識結果をもとに、前記認識結果統合用パラメータから前記専用音声認識サーバによる認識結果に対する前記汎用音声認識サーバの認識結果の正誤を取り出し、前記取り出した結果が正であるような汎用音声認識サーバによる音声認識結果に基づき最適な認識結果を選択することを特徴とする音声認識サーバ統合装置。
【請求項10】
請求項2または請求項5に記載の音声認識サーバ統合装置において、
前記認識結果統合用パラメータは、ユーザが登録した語句もしくはユーザがよく使う語句に対する汎用音声認識サーバの認識結果の正誤、および、個々の語句に対する前記汎用音声認識サーバの認識結果の信頼度を表す値を保存するものであり、
前記認識結果統合部は、前記専用音声認識サーバによる認識結果をもとに、前記認識結果統合用パラメータから前記専用音声認識サーバによる認識結果に対する前記汎用音声認識サーバの認識結果の正誤およびその信頼度を取り出し、かつ、前記取り出した認識結果が正であるような汎用音声認識サーバによる音声認識結果に前記信頼度の重み付けをして統合した結果に基づき最適な認識結果を選択することを特徴とする音声認識サーバ統合装置。
【請求項11】
請求項2または請求項5に記載の音声認識サーバ統合装置において、
前記認識結果統合用パラメータは、ユーザが登録した語句もしくはユーザがよく使う語句に対する専用および汎用音声認識サーバの認識にかかる時間を測定し測定値を保存するものであり、
前記認識結果統合部は、前記専用音声認識サーバによる認識結果をもとに、前記認識結果統合用パラメータから前記専用音声認識サーバによる認識結果に対する前記専用および汎用音声認識サーバの認識所要時間を取り出し、前記専用および汎用音声認識サーバのうち認識所要時間がアプリケーションに依存して決まる認識所要時間の許容上限値を下回るもののみの認識結果を取り出すことにより、前記取り出した認識結果をもとに最適な認識結果を選択することを特徴とする音声認識サーバ統合装置。
【請求項12】
請求項2または請求項5に記載の音声認識サーバ統合装置において、
前記認識結果統合用パラメータは、ユーザが登録した語句もしくはユーザがよく使う語句に対する汎用音声認識サーバの誤認識結果を含む認識結果を保存するものであり、
前記認識結果統合部は、前記専用音声認識サーバによる認識結果をもとに、前記認識結果統合用パラメータから前記専用音声認識サーバによる認識結果に対する前記汎用音声認識サーバの誤認識結果を含む認識結果を取り出し、汎用音声認識サーバの音声認識結果が前記取り出した誤認識結果を含む認識結果と一致する場合には正しい語句に変換し、各認識結果での多数決を行うことにより最適な認識結果を選択することを特徴とする音声認識サーバ統合装置。
【請求項13】
ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合用パラメータを学習して保存するステップと、
ユーザが音声認識を意図して発した音声のデータである音声データを汎用音声認識サーバおよび専用音声認識サーバに送信するステップと、
前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信するステップと、
汎用音声認識サーバの認識結果および専用音声認識サーバの認識結果と、前記認識結果統合用パラメータとを比較して、最適な音声認識結果を選択するステップと、
から成る音声認識サーバ統合方法。
【請求項14】
請求項13記載の音声認識サーバ統合方法において、更に、
ユーザが登録した語句もしくはユーザがよく使う語句をもとに合成音声を生成するステップと、
前記生成された合成音声を前記汎用音声認識サーバおよび専用音声認識サーバに送信するステップと、
前記合成音声の前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信するステップとを備え、
認識結果統合用パラメータを学習して保存するステップは、前記合成音声の基となった語句と前記認識結果とを合わせて解析し、認識結果統合用パラメータを学習し保存することを特徴とする音声認識サーバ統合方法。
【請求項15】
請求項13記載の音声認識サーバ統合方法において、更に、
ユーザが登録した語句もしくはユーザがよく使う語句のリストを得るステップと、
前記汎用音声認識サーバから認識用の語句リストを受信するステップと、
前記認識用の語句リストを、前記ユーザが登録した語句もしくはユーザがよく使う語句のリストと比較し、類似度を推定するステップとを備え、
前記認識結果統合用パラメータを学習して保存するステップは、前記推定結果を認識結果統合用パラメータとして保存することを特徴とする音声認識サーバ統合方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが音声を用いて操作を行うための端末装置と、音声データを認識してその結果を返す複数の音声認識サーバとを繋ぎ、複数の音声認識サーバにより得られる認識結果を統合して最適な音声認識結果をユーザに提供するための装置および方法に関する。
【背景技術】
【0002】
車載情報機器や携帯電話などの操作を、ユーザの声により行うための音声認識機能が、数多くの機器に搭載されている。さらに近年では、データ通信技術の発展により、音声データをサーバに送信し、サーバの潤沢な計算資源を用いてより高精度の音声認識を行う方式が普及しつつある。また、特許文献1に示されるように、こうした音声認識サーバをより有効に用いるため、個人用端末と音声認識サーバとの間に中継サーバを置き、その中で付加的な処理を行う方式も提案されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008−242067号公報
【特許文献2】特開2002−116796号公報
【特許文献3】特開2010−224301号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
音声認識サーバが汎用のサービスとして運営される例が増えており、ユーザが扱う端末向けのサービスを提供する主体と、音声認識サーバを運営する主体とが異なる場合が多くなっている。また、運営主体が同一である場合においても、音声認識サーバの開発と音声認識アプリケーションの開発を別個に行い、それらが相互に最適化されていない場合もある。このような状況で、汎用の音声認識サーバが全般的には高い性能を示しながら、特定の語句に対しては必ずしも十分な性能を示さないということがある。
【0005】
一方、特定のアプリケーションを使用する特定のユーザに着目した場合、そのユーザの知人の名前や好きな音楽の楽曲名など、一般的ではないが重要度の高い語句が存在する。こうした語句を認識するためには、専用の音声認識サーバを設けることが望ましいが、専用音声認識サーバの開発には十分なコストをかけられないことが多く、一般的な語句に対する性能では、汎用音声認識サーバに劣ることになる。このように、汎用音声認識サーバと専用音声認識サーバとでは、語句によって認識の得手不得手があり、音声認識性能が異なる。したがって、ユーザの発した語句によってこれらを使い分けることが求められるが、音声認識というのが「内容のわからない発話に対して内容を推定する」タスクである以上、事前に発話内容を知ってサーバの使い分けを行うことは原理的に不可能である。
【0006】
本発明は、汎用音声認識サーバの音声認識結果と専用音声認識サーバの音声認識結果とを最適な形で統合し、最終的に間違いの少ない音声認識機能を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明においては、ユーザが持つ端末装置に含まれる特定単語のリストをあらかじめ入手し、それらの単語のデータをもとに、専用の音声認識サーバを構築する。また、それらのデータを用い、汎用音声認識サーバの性能を事前評価する。その評価結果をもとに、専用および汎用の音声認識サーバから得られた認識結果の中で、どれを採用し、それらに対してどのような重み付けを行えば最適な認識結果が得られるかを、データベースの形で保持しておく。ユーザが実際に音声認識機能を用いる際には、専用および汎用の音声認識サーバにより入力音声を認識した後、そこで得られる結果を、先に述べたデータベースの内容と比較することにより、最適な音声認識結果を得る。また、事前評価の基準として、音声認識の正しさに加えて応答速度を用いることで、なるべく正しい音声認識結果を、なるべく早く得ることができるようにする。
【0008】
本発明の音声認識サーバ統合装置に一例を挙げるならば、ユーザが音声を用いて操作を行うための端末装置と、音声データを認識してその結果を返す音声認識サーバとの間を中継する装置であって、ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合
用パラメータを学習し保存する統合方式学習部と、ユーザが音声認識を意図して発した音声のデータ
である音声データを前記端末装置から受信する手段と、前記受信した音声データを汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段と、前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を、前記保存された認識結果統合
用パラメータと比較し、最適な認識結果を選択する認識結果統合部と、前記選択された認識結果を前記端末装置に送信する手段とを備えるものである。
【0009】
本発明の音声認識サーバ統合装置において、更に、前記端末装置からユーザが登録した語句もしくはユーザがよく使う語句のリストを受信する手段と、前記受信した語句をもとに合成音声を生成する音声合成部と、前記生成された合成音声を前記汎用音声認識サーバおよび専用音声認識サーバに送信する手段と、前記合成音声の前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信する手段を備え、前記統合方式学習部は、前記合成音声の基となった語句と前記認識結果とを合わせて解析し、認識結果統合用パラメータを学習し保存するものでよい。
【0010】
また、本発明の音声認識サーバ統合装置において、更に、前記端末装置からユーザが登録した語句もしくはユーザがよく使う語句のリストを受信する手段と、前記汎用音声認識サーバから認識用の語句リストを受信する手段と、前記認識用の語句リストを前記端末装置から受信した語句リストと比較し、類似度を推定する語句比較・類似度推定部とを備え、前記統合方式学習部は、前記推定結果を認識結果統合
用パラメータとして保存するものでよい。
【0011】
本発明の音声認識サーバ統合方法の一例を挙げるならば、ユーザが登録した語句もしくはユーザがよく使う語句のリストに基づいて認識結果統合
用パラメータを学習して保存するステップと、ユーザが音声認識を意図して発した音声のデータ
である音声データを汎用音声認識サーバおよび専用音声認識サーバに送信するステップと、前記音声データの前記汎用音声認識サーバおよび専用音声認識サーバによる認識結果を受信するステップと、汎用音声認識サーバの認識結果および専用音声認識サーバの認識結果と、前記認識結果統合用パラメータとを比較して、最適な音声認識結果を選択するステップと、から成るものである。
【発明の効果】
【0012】
本発明により、一般的な語句に関しては汎用音声認識サーバの認識結果を重要視し、ユーザ固有の語句に関しては専用音声認識サーバの結果を重要視するなど、個々の入力に対して最適な形で認識結果の統合が行われ、最終的に間違いの少ない音声認識機能をユーザに提供することが可能となる。また、間違いが少ないだけでなく、応答速度の点でも利便性の高いシステムを実現することができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施例1の音声認識サーバ統合装置の構成図である。
【
図2】本発明の実施例1の音声合成を用いた結果統合用パラメータ推定の処理を示す図である。
【
図3】本発明の単一汎用音声認識サーバを用いた結果統合用パラメータの一例を示す図である。
【
図4】本発明の複数汎用音声認識サーバを用いた結果統合用パラメータの一例を示す図である。
【
図5】本発明の実施例1の複数サーバの認識結果の統合方法の一例を示す図である。
【
図6】本発明の複数汎用音声認識サーバの認識結果信頼度を用いた結果統合用パラメータの一例を示す図である。
【
図7】本発明の複数汎用音声認識サーバの認識結果信頼度と誤認識結果を用いた結果統合用パラメータの一例を示す図である。
【
図8】本発明の同音異表記の変換を利用した認識結果の統合方法の一例を示す図である。
【
図9】本発明を実現するためのユーザ端末の構成例を示す図である。
【
図10】本発明におけるユーザ辞書の作成方法の一例を示す図である。
【
図11】本発明における音声合成部の構成の一例を示す図である。
【
図12】本発明の応答時間を考慮した結果統合用パラメータの一例を示す図である。
【
図13】本発明の実施例2の音声認識サーバ統合装置の構成図である。
【
図14】本発明の実施例3の音声認識サーバ統合装置の構成図である。
【
図15】本発明の実施例3の認識用語句リストを用いた結果統合用パラメータ推定の処理を示す図である。
【
図16】本発明の実施例4の音声認識サーバ装置の構成図である。
【
図17】本発明の実施例5の音声認識サーバ装置の構成図である。
【発明を実施するための形態】
【0014】
以下、図面を用いて本発明の実施例を説明する。なお、発明を実施するための形態を説明するための全図において、同一の機能を有する要素には同一の名称、符号を付して、その繰り返しの説明を省略する。
【実施例1】
【0015】
図1は、本発明の実施例1に基づく音声認識サーバ統合装置の構成例を示す図である。音声認識機能は、ユーザ端末102、中継サーバ104、汎用音声認識サーバ群106、専用音声認識サーバ108を用いて提供される。なお、汎用音声認識サーバ群106は、単一の汎用音声認識サーバでも構わない。
【0016】
ユーザ端末102は、ユーザ個人が持つ端末装置で、入力音声データの取得および音声認識結果に基づくサービスの提供を行う他に、アドレス帳や楽曲名リストなどのユーザに固有の語句リストを保持している。以下では、これらのユーザに固有の語句リストのことを「ユーザ辞書」と呼ぶ。ユーザ辞書には、ユーザが登録した語句もしくはユーザがよく使う語句のリストが保持されている。
【0017】
汎用音声認識サーバ群106は、本発明により実現されるサービスのみにより使用されることを想定していない、1台以上の音声認識サーバである。一般に、大規模な語句リストを内蔵し、様々な言葉に対する認識性能が高い一方、ユーザ辞書に含まれる一部の語句については、正しく認識できない可能性がある。
【0018】
専用音声認識サーバ108は、本発明により実現されるサービスに特化した音声認識サーバであり、ユーザ辞書に含まれる語句のすべてもしくは大半を認識するように設計されている。専用音声認識サーバ108は、ユーザ辞書に含まれない語句が入力された場合には、「認識結果なし」という結果が出力されるよう設計されている。専用音声認識サーバは、サーバとして構成されるものにかぎらず、専用音声認識装置でも良いし、また、実施例2や実施例5のように、ユーザ端末や中継サーバに内蔵されるものでもよい。
【0019】
中継サーバ104は、本発明の「音声認識サーバ統合装置」に該当するもので、ユーザ端末102と音声認識サーバ106,108とを繋ぎ、音声認識結果の統合などを行う。ユーザ端末102とのデータのやりとりは、端末装置通信部110を介して行う。また、音声認識サーバ106,108とのデータのやりとりは、認識サーバ通信部112を介して行う。中継サーバ104は、端末装置通信部110、音声合成部114、統合方式学習部116、信号処理部120、認識結果統合部122、認識サーバ通信部112などから構成されている。
【0020】
中継サーバ104の動作を説明する。はじめに、ユーザがユーザ端末102を通信可能な状態にセットすると、ユーザ辞書124のデータが端末装置通信部110を経由して送信される。このデータは直接認識サーバ通信部112に送られ、さらに専用音声認識サーバ108に送られる。専用音声認識サーバ108では、送られてきたユーザ辞書データに基づき、そこに含まれる語句を正しく認識できるようチューニングを行う。一方、端末装置通信部110で受信されたユーザ辞書データは、音声合成部114にも送られる。ここでは、文字列として送られてきたユーザ辞書データをもとに、合成音声データが作られる。一つの語句に対する合成音声データは、一つでも良いし、音質の違う複数のものであっても良い。作成された合成音声データは、認識サーバ通信部112を介して、汎用音声認識サーバ群106および専用音声認識サーバ108に送られる。これらに対する認識結果が各サーバから返されると、認識サーバ通信部112がそれを受信し、統合方式学習部116に送る。統合方式学習部116では、合成音声のもととなったユーザ辞書データと認識結果とを合わせて解析し、認識結果統合のためのパラメータを学習する。得られたパラメータは、結果統合用パラメータ118として保存される。この時点で、本発明を用いたシステムの事前学習処理が終了する。
【0021】
ユーザが実際に音声インタフェースを使う際には、ユーザ端末102で取得した入力音声データが、端末装置通信部110により受信される。受信されたデータは、信号処理部120に送られ、必要な処理が施される。ここで、必要な処理とは、例えば雑音を含む入力音声から雑音を取り除くこと等を指すが、必ずしも必須ではなく、何も処理をしなくても良い。信号処理部120から出力されたデータは、認識サーバ通信部112を経て、汎用音声認識サーバ群106および専用音声認識サーバ108に送られる。これらのサーバから返された認識結果は、認識サーバ通信部112を経て、認識結果統合部122に送られる。認識結果統合部122では、複数の認識結果と、結果統合用パラメータ118に含まれるパラメータとを比較して、最適な認識結果を選択する。選択された認識結果は、端末装置通信部110を経て、ユーザ端末102に送られる。ユーザ端末102では、この結果をもとに、ナビゲーション機能の目的地を設定する、電話をかける、楽曲を再生するなどのサービスを提供する。
【0022】
図2は、
図1に示した構成において、ユーザ辞書データを使って結果統合用パラメータを作成するまでの処理の手順を示す図である。まず、ユーザ辞書データは、そのまま専用音声認識サーバに送られる。専用音声認識サーバでは、送られてきた語句を認識対象とするよう、音声認識エンジンをチューニングする。従って、ユーザ辞書に含まれない語句を発声したデータが送られてきた場合、専用音声認識サーバは、間違った結果を返すか、もしくは認識不能という結果を返すことになる。一方、ユーザ辞書データは、音声合成部にも送られ、そこで合成音声データが作成される。通常、一つの語句に対しては一つの合成音声が作られるが、音声合成部が、話者や話速、声の高さなどを選択できるような機能を持っている場合は、それらを変化させて、同じ語句に対して複数の合成音声データを作成すれば、後段で行う統合方式学習の性能をより高めることができる。
【0023】
こうして得られた合成音声データは、各汎用音声認識サーバおよび専用音声認識サーバに送られる。それらのサーバからは、認識結果が返される。また、認識結果だけではなく、それに付随する信頼度スコアが一緒に帰される場合もある。これらを元に、統合方式学習部で統合方式を学習し、その結果を結果統合用パラメータに保存する。
【0024】
図3は、結果統合用パラメータの最も簡単な構成の例を示す図である。この例では、汎用音声認識サーバが1台だけ存在すると仮定し、そのサーバで、ユーザ辞書の各語句が正しく認識されたかどうかだけを○と×で保持している。即ち、「鈴木一郎」「山田二郎」という語句は汎用音声認識サーバで正しく認識されたが、それ以外は正しく認識されなかったということを、この図は表している。
図4は、同様の学習を、3台の汎用音声認識サーバを用いて行った際の例である。
【0025】
図3、
図4に示したような結果を使って実際に認識を行う際の処理の手順を、
図5に示す。入力音声データは、はじめに信号処理部で事前処理される。信号処理部での処理の代表的なものとして、特許文献1に示されるような雑音抑圧処理が挙げられる。信号処理部での処理の結果、一つの入力音声データに対して一つの音声データが得られるのが普通であるが、設定を変えて複数の音声データが得られる場合もある。そのような場合には、以下に述べる処理を、音声データの数だけ繰り返す。また、信号処理部での処理が不要と思われる場合には、入力音声データをそのまま信号処理部の出力データとする。
【0026】
信号処理部の出力データは、汎用音声認識サーバおよび専用音声認識サーバに送られる。これらの結果がすべて認識結果統合部に送られる。認識結果統合部では、まず専用音声認識サーバの認識結果をチェックする。専用認識サーバの認識結果が、「認識結果なし」であった場合、汎用音声認識サーバの認識結果のみから最終的な認識結果を決定する。すなわち、汎用音声認識サーバが1台しかない場合は、その結果をそのまま採用する。複数台ある場合には、それらの認識結果のあいだで多数決を取る。多数決を取る際、各認識サーバが信頼度スコアを付与する場合であれば、その値で重み付けをした多数決とすることもできる。また、事前に各認識サーバの性能を推定して、重み付けの係数とすることもできる。このような、一般的な語句に対する複数の音声認識サーバの認識結果の統合については、特許文献2に示されるような公知の技術を用いることが可能である。
【0027】
一方、専用音声認識サーバの認識結果として、ユーザ辞書データに含まれる語句が得られた場合、
図3や
図4に示したような結果統合用パラメータを参照する。例えば、
図3の例で、専用音声認識サーバの認識結果が「日立太郎」であった場合、結果統合用パラメータの該当する行を見ると、この語句は汎用音声認識サーバでは認識できないはずだということがわかるので、専用音声認識サーバの結果をそのまま採用する。一方、専用音声認識サーバの認識結果が「鈴木一郎」であった場合、結果統合用パラメータの該当する行を見ると、この語句は専用音声認識サーバでも認識されうるということがわかる。そこで次に汎用音声認識サーバの認識結果をチェックする。汎用音声認識サーバの認識結果も「鈴木一郎」である場合にはそのまま「鈴木一郎」を最終的な認識結果とすれば良いが、そうでない場合には、一般的に性能が高いと思われる汎用音声認識サーバの結果を優先するか、もしくは汎用音声認識サーバと専用音声認識サーバの認識結果のうち、信頼度スコアの高い方を最終認識結果として採用する。これにより、「鈴木一郎」と似た発音の言葉が、専用音声認識サーバにより誤認識されてしまった場合であっても、汎用音声認識サーバの認識結果に基づきこれを棄却することができるようになる。
図4の例でも同様であり、「日立太郎」については無条件で専用音声認識サーバの結果を採用する。「鈴木一郎」については3台の汎用音声認識サーバすべてが認識可能な語句であるので、これらの認識結果での多数決、もしくはこれらすべてに専用音声認識サーバも加えての多数決により最終認識結果を決定する。また、専用音声認識サーバの認識結果が「山田二郎」であった場合には、これを正しく認識できる可能性のある汎用音声認識サーバは1番のみであることから、このサーバと専用音声認識サーバとの間で、
図3の例と同じ処理を行うことにより最終認識結果を得る。
【0028】
図6は、
図3や
図4とは異なるもう一つの結果統合用パラメータの実現例である。ここでは、ある語句が各汎用音声認識サーバで認識可能な場合に、その語句が正しく認識される確率を重みの数値に置き換えて保持している。ここで、正しく認識される確率は、たとえば「鈴木一郎」という語句に対し、音声合成用パラメータを様々に変えて作った合成音声による認識を行い、それらに対する認識結果のうち何個が正しいものであったかにより推定することができる。また、汎用音声認識サーバが複数の認識結果候補を返す仕様になっている場合には、正解単語の平均順位や平均信頼度スコアなどを用いることもできる。これらの値を適当な非線形変換により重み値に変換したものを、結果統合用パラメータに保持する。この例では、専用音声認識サーバの認識結果が「鈴木一郎」、汎用サーバ1の結果が「佐々木一郎」、汎用サーバ2と3の結果が「鈴木一郎」だった場合、「佐々木一郎」の重みが3.0、「鈴木一郎」の重みが1.4と1.2の和で2.6となり、前者の方が大きいことから、「佐々木一郎」を最終認識結果とする。
【0029】
図7は、
図3,4,6とは異なるもう一つの結果統合用パラメータの実現例である。ここでは、ユーザ辞書データに含まれる語句を汎用音声認識サーバで認識して、正しく認識されなかった場合においても、そのときに得られた認識結果を結果統合用パラメータとして保存しておく。それぞれのサーバの重みを設定するのは
図6の例と同様である。複数回の実験を行った際には、最も多かった結果のみか、もしくは複数の認識結果を保存しておいても良い。また、実験の回数にかかわらず、2位以下の認識結果も併せて保存しておいても良い。認識実行時には、これまでの例と同じように、専用音声認識サーバの認識結果に基づき結果統合用パラメータを参照する。その際、汎用音声認識サーバの認識結果が、結果統合用パラメータに保存されているものと一致するかどうかをチェックする。例えば、専用音声認識サーバの認識結果が「日立太郎」で、汎用サーバ1の結果が「日立市」、汎用サーバ2の結果が「二十歳」、汎用サーバ3の結果が「日立」だった場合、汎用サーバ1の結果は「日立太郎」に変換した上で、各認識結果での多数決を行い、最終的に「日立太郎」が選択される。
【0030】
図8は、同音異表記の検出を利用した、音声認識結果統合方式の例を示す図である。図に示すように、専用音声認識サーバの認識結果が「左藤一郎」である場合、これを汎用音声認識サーバの各認識結果と比較し、同音異表記が含まれないかをチェックする。ここで、表記から発音を推定するには、日本語であれば、個々の漢字の読みをデータとして保持しておき、当該語句を構成する漢字の読みを連結することにより発音表記を得る。英語であれば、部分的な綴りに対する読み付与のルールを保持しておき、これらを順次適用することにより発音表記を得る。その他の言語の場合であっても、一般にGrapheme to Phonemeと呼ばれる技術によって、発音表記を得ることができることは良く知られている。また、ユーザ辞書データの中に、漢字表記とカナ表記のように、発音情報が含まれている場合もあり、そのような場合にはそれを活用する。上述のチェックにより、同音異表記が含まれている場合には、当該認識結果の表記を専用音声認識サーバによる認識結果の表記に変換して用いる。図の例では、汎用音声認識サーバ1の認識結果「佐藤一郎」が、専用音声認識サーバの認識結果と同音であることから、これを「左藤一郎」に変換する。その結果、3台の汎用音声認識サーバによる多数決の結果は「左藤一郎」となり、これが最終結果として採用される。
【0031】
図9は、自動車内でのナビゲーション機能やハンズフリー通話機能などを提供する場合を例に、ユーザ端末の具体的な実現形態の例を示した図である。(a)では、マイク装置904、アプリケーション906、通信モジュール908などのすべての機能をカーナビゲーション装置902内に実装している。(b)では、カーナビゲーション装置902とスマートフォン910とを連結し、マイク装置904はカーナビゲーション装置902のものを、通信部908はスマートフォン910のものを用いている。アプリケーション912,914は、それぞれの機能に応じて、カーナビゲーション装置内とスマートフォン内に分散して配置するか、もしくはどちらか片方のみに配置する。(c)では、スマートフォン910内に、すべての機能を実装する。
【0032】
図10は、本発明を構成するユーザ辞書124の作成方法の例を示した図である。例えば、ユーザ端末102内にアドレス帳1002が存在する場合には、そこに含まれる人名をユーザ辞書に登録する。同様に、音楽プレーヤーの楽曲リスト1004が存在する場合には、そこに含まれる楽曲名やアーティスト名をユーザ辞書に登録する。また、ウェブブラウザのブックマーク1006として登録されたページタイトルをユーザ辞書に登録することもできる。その他に、ユーザ端末内に蓄積されたメール1008やショートメッセージなどのデータを解析し、そこに頻出する語句をユーザ辞書に登録するという方式も可能である。これらのデータに関しては、ユーザ端末がはじめて本発明によるシステムに接続された際には、ユーザ端末に含まれる全ユーザ辞書データをシステムに送信するのに加えて、アドレス帳や楽曲リストなどへの新規エントリの追加時には、新規追加データのみをシステムに追加送信し、結果統合用パラメータの更新を促すという方式を採ることもできる。このとき、結果統合用パラメータだけでなく、専用音声認識部の照合用辞書も同時に更新する必要がある。
【0033】
図11は、一般的な音声合成部の構成を変更し、本発明に特化した特殊な構成の一例を示す図である。一般に音声合成部114は、合成音声作成部1102と、音声素片データ1106〜1110とから成る。ここで、素片データとは、データを直接つなぎあわせて合成音声を作る方式で用いるためのデータの名称であるが、直接つなぎあわせる代わりに、統計処理と信号処理により波形を合成する方式を用いる場合でも、個々の音素や音節などの処理単位に対し、類似のデータ集合を用いるため、以下に述べる方式を適用することは可能である。合成音声作成部1102では、音声素片データを繋ぎ合わせ、必要であれば適切な信号処理を行い、標準合成音声を作成する。しかし、本発明においては、ユーザ端末の所有者である特定ユーザの声に対して各汎用音声認識サーバ群がどのように反応するかを知ることが重要であるので、音声合成部で作成される合成音声も、ユーザの声に似たものであることが望ましい。そこで、ユーザが音声認識機能を使用するたびに、あるいはそれ以外の音声機能や音声通話を使用するたびに、その声をユーザ音声データ1112として蓄積しておき、これを活用して音声変換部1104により標準合成音声からユーザ適応音声への変換を行う。こうして変換した音声を汎用音声認識サーバ群への入力とすることにより、より精度の高い性能予測を行うことが可能となり、結果統合用パラメータの値もより適切なものになることが期待できる。
【0034】
図12は、音声認識の正しさに加えて、応答速度を評価基準とする場合の結果統合用パラメータの例を示す図である。この例では、ユーザ辞書データに含まれる各語句に対応する合成音声を用いた認識を実行し、その処理にかかった平均時間をパラメータとして保持しておく。この例でいうと、専用音声認識サーバの認識結果が「鈴木一郎」であった場合、汎用サーバ2の認識結果は0.5秒で得られると期待されるが、汎用サーバ1の認識結果を得るには1.5秒も待たなければならない。この応答時間がアプリケーションで想定される上限値を上回る場合、汎用サーバ2の結果が得られた時点で結果統合処理を行う。これにより、結果統合処理にほとんど時間がかからないと仮定すると、約0.5秒の応答時間で最終認識結果を得ることができることになり、ユーザの利便性を向上させることができる。
【実施例2】
【0035】
図13は、ユーザ端末内に組み込まれた専用音声認識部108を用いて、
図1に示した例と同等の機能を実現するような例の構成を示した図である。ここでは、ユーザ端末102が、中継サーバ104を介することなく、内部に存在する専用音声認識部108を用いてユーザ辞書124に含まれる語句の認識を行う。ユーザ辞書データを用いて、汎用音声認識サーバ群106の性能評価を事前に行う方法は、
図1の場合に示したものと同様である。認識実行時には、中継サーバ104を介して汎用音声認識サーバ106による認識を実行すると同時に、ユーザ端末内の専用音声認識部108でも認識を実行する。このような、端末内の音声認識部と、通信装置を介して接続された音声認識部とを併用する方式は、特許文献3にも示されているが、特許文献3記載の発明が、通信経路が確立されているかどうかという点に着目して結果の取捨選択を行うのに対し、本発明では、事前に行った音声認識の結果に基づき求めた結果統合用パラメータを用いるという点が異なっている。
【実施例3】
【0036】
図14は、本発明に基づく音声認識サーバ統合装置のもう一つの構成例を示す図である。ここでは、汎用音声認識サーバ群106の機能として、そこで用いられている認識用語句リストが入手可能である場合を想定する。そのような条件のもとで、ユーザ端末102から中継サーバ104に送られたユーザ辞書データは、語句比較・類似度推定部126に送られる。当該部では、汎用音声認識サーバ群106から入手した認識用語句リストとユーザ辞書データとを比較し、ユーザ辞書124に含まれる各語句が、各々のサーバで正しく認識されうるかどうかを判定する。判定結果は統合方式学習部116に送られ、パラメータとして整理されたものが結果統合用パラメータ118に保持される。一方、ユーザ辞書データがそのまま専用音声認識サーバ108に送られ、専用音声認識サーバがチューニングされるのは、
図1に示した例と同じである。
【0037】
このような準備が済んだ状態で、ユーザ端末102から入力音声データが送られてくると、
図1に示した例と同様に、信号処理部120を経由して、汎用音声認識サーバ106および専用音声認識サーバ108に当該データが送られる。それらのサーバから返された認識結果は、認識結果統合部122に送られ、そこで、結果統合用パラメータ118との比較により、最適な認識結果が選択される。選択された認識結果がユーザ端末102に送信されて後は、
図1に示した例と同様である。
【0038】
図15は、
図14に示した構成において、ユーザ辞書データを使って結果統合用パラメータを作成するまでの処理の手順を示す図である。この例では、合成音声を作成することも、それを使って音声認識を実行してみることもなく、単に各汎用音声認識サーバから認識用語句リストを取得する。これらのリストと、ユーザ辞書データに含まれる語句とを比較し、ユーザ辞書データの各語句が、どの汎用音声認識サーバの語句リストに含まれているかをデータ化する。ここでは、認識用語句リストに含まれている(○)か、含まれていない(×)かのどちらかしか有り得ないことから、得られた結果をまとめた結果統合用パラメータは、
図3ないし
図4と同じものになる。従って、実際の認識を行う際の使い方も、前述した例と同じになる。また、各汎用音声認識サーバから、語句リストのみならず、それらの語句の認識されやすさを表す言語モデルを入手することが可能な際には、
図6のような重み付きの結果統合用パラメータを作成することもできる。たとえば、代表的な言語モデルであるNグラム言語モデルを用いる場合、ユニグラムの値をその単語の認識されやすさとする、もしくは倍グラムやトライグラムの最大値をその単語の認識されやすさとするなどの方式が考えられる。
【実施例4】
【0039】
図16は、ユーザとの間の入出力機能と音声認識サーバ統合機能とを単一の装置の中に組み込んだ装置により、
図1に示した例と同等の機能を実現するような例の構成を示した図である。ここでは、音声認識サーバ統合装置104の内部に蓄積されているユーザ辞書124に含まれるユーザ辞書データが、装置内の音声合成部114および認識サーバ通信部112に転送される。ユーザが話した声は、マイク装置128により取り込まれ、信号処理部120に転送される。これらを用いた処理の進め方は、
図1の例において説明したものと同等であり、結果として認識結果統合部122にて認識結果が確定させられる。この認識結果は、装置内の表示部132に転送され、ユーザに提示される。
【実施例5】
【0040】
図17は、
図16に示した例をもとに、さらに専用音声認識サーバが担っている機能を音声認識サーバ統合装置に組み込んだ場合の構成を示した図である。音声認識サーバ統合装置104に含まれるマイク装置128から入力音声が取り込まれ、ユーザ辞書124からユーザ辞書データが転送される部分は
図16の例と同様であるが、それらに加えて、専用音声認識部108が装置内に組み込まれており、ユーザ辞書の内容を直接読み出した上で、マイク装置から送られてくる音声データを認識する。そこで得られた単体認識結果は、認識結果統合部122に送られ、汎用音声認識サーバ群106によって得られた認識結果と統合される。統合された認識結果は、装置内に存在するアプリケーション130に送られ、そこで各々のアプリケーションの目的に沿って活用される。
【産業上の利用可能性】
【0041】
本発明は、車載端末と音声認識サーバとの間に介在して、高精度の音声認識機能を提供するための音声データ中継装置として利用可能である。
【符号の説明】
【0042】
102 ユーザ端末
104 中継サーバ
106 汎用音声認識サーバ群
108 専用音声認識サーバ
110 端末装置通信部
112 認識サーバ通信部
114 音声合成部
116 統合方式学習部
118 結果統合用パラメータ
120 信号処理部
122 認識結果統合部
124 ユーザ辞書
126 語句比較・類似度推定部
128 マイク装置
130 アプリケーション
132 表示部