IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7173327学習装置、音声認識装置、それらの方法、およびプログラム
<>
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図1
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図2
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図3
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図4
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図5
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図6
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図7
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図8
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図9
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図10
  • 特許-学習装置、音声認識装置、それらの方法、およびプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-08
(45)【発行日】2022-11-16
(54)【発明の名称】学習装置、音声認識装置、それらの方法、およびプログラム
(51)【国際特許分類】
   G10L 15/10 20060101AFI20221109BHJP
   G10L 15/06 20130101ALI20221109BHJP
【FI】
G10L15/10 300G
G10L15/06 300C
【請求項の数】 5
(21)【出願番号】P 2021524644
(86)(22)【出願日】2019-06-07
(86)【国際出願番号】 JP2019022774
(87)【国際公開番号】W WO2020246033
(87)【国際公開日】2020-12-10
【審査請求日】2021-10-13
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】佐藤 宏
(72)【発明者】
【氏名】福冨 隆朗
【審査官】梅本 達雄
(56)【参考文献】
【文献】特開2013-114202(JP,A)
【文献】特開平06-282295(JP,A)
【文献】特開2008-139747(JP,A)
【文献】特開2008-228129(JP,A)
【文献】特開2004-333738(JP,A)
【文献】伊藤 彰則 Akinori Ito,N-best候補からの言語重みと挿入ペナルティの最適化に関する検討 Fast and Robust Optimization of Language Model Weight and Insertion Penalty from N-best Candidates,情報処理学会研究報告 Vol.99 No.91 IPSJ SIG Notes,日本,社団法人情報処理学会 Information Processing Society of Japan,1999年10月29日,第99巻,pp.35-40
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00 - 17/26
(57)【特許請求の範囲】
【請求項1】
Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、
前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識仮説Hmを評価し、評価値Emを求める仮説評価部と、
Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλkを用いて、前記認識仮説Hmに対して総合スコアxm,kを求め、順位rankm,kを付けるリランキング部と、
前記評価値Emと前記順位rankm,kとに基づき、認識パラメータの最適値または前記認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出部と、
前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む、
学習装置。
【請求項2】
請求項1の学習装置で学習された回帰モデルを用いる音声認識装置であって、
Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、
学習された前記回帰モデルを用いて、前記音響特徴量系列Oに対する認識パラメータλEを求め、求めた認識パラメータλEを用いて、前記認識仮説Hmに対する総合スコアxE,mを求め、求めた総合スコアxE,mに基づき前記認識仮説Hmに対して順位を付けるモデル利用部とを含む、
音声認識装置。
【請求項3】
Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識ステップと、
前記音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、前記認識仮説Hmを評価し、評価値Emを求める仮説評価ステップと、
Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλkを用いて、前記認識仮説Hmに対して総合スコアxm,kを求め、順位rankm,kを付けるリランキングステップと、
前記評価値Emと前記順位rankm,kとに基づき、認識パラメータの最適値または前記認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出ステップと、
前記音響特徴量系列Oと前記算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習ステップとを含む、
学習方法。
【請求項4】
請求項3の学習方法で学習された回帰モデルを用いる音声認識方法であって、
Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識ステップと、
学習された前記回帰モデルを用いて、前記音響特徴量系列Oに対する認識パラメータλEを求め、求めた認識パラメータλEを用いて、前記認識仮説Hmに対する総合スコアxE,mを求め、求めた総合スコアxE,mに基づき前記認識仮説Hmに対して順位を付けるモデル利用ステップとを含む、
音声認識方法。
【請求項5】
請求項1の学習装置、または、請求項2の音声認識装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声認識における認識パラメータの最適値を推定する際に用いるモデルを学習する学習装置、モデルを用いて推定した最適値を用いて音声認識する音声認識装置、それらの方法、およびプログラムに関する。
【背景技術】
【0002】
HMM(Hidden Markov Model)音声認識において、認識機の挙動を調整するパラメータが多数存在し、認識パラメータと呼ばれている。
【0003】
end to end音声認識に関しても、複数のモデルを組み合わせる構成についてはモデル間のスケーリングパラメータが存在し、認識器の挙動を変化させる。例えば、言語モデルを持つend to end音声認識は言語モデルの出力を考慮する度合を表す言語重みをパラメータとして持っている。
【0004】
認識精度を向上させるためにはこうした認識パラメータを適切な値に設定することが必要である。
【0005】
認識パラメータを最適化する手法として、人手で用意した複数のパラメータの組に対し、音声データと書き起こしデータとが紐づいたデータセットを用いて認識精度を算出し、最も精度がよかったパラメータの組を採用する方法が一般的にとられている。
【0006】
音声データと書き起こしデータとが紐づいたデータセットを元に自動的に適切な認識パラメータを設定する手法が存在する(非特許文献1、非特許文献2参照)。
【0007】
さらに、音声データに含まれるノイズを推定し、推定結果を用いて各フレームで言語モデル重みを調整する手法が存在する(非特許文献3参照)。
【0008】
認識時に調整する必要のある認識パラメータとして例えば言語モデル重み、挿入ペナルティが存在する。言語モデル重みは音響モデルと言語モデルを持つ音声認識器において両者のモデルのバランスを取るパラメータである。また、挿入ペナルティは、単語数あるいは文字数(以下「単語数等」ともいう)の多い認識結果をどれだけ抑制するかを制御するパラメータであり、挿入ペナルティを大きくすると単語数等の少ない認識結果が出やすくなる。
【先行技術文献】
【非特許文献】
【0009】
【文献】Mak, B., & Ko, T., "Min-max discriminative training of decoding parameters using iterative linear programming", In Ninth Annual Conference of the International Speech Communication Association. 2008.
【文献】江森正, 大西祥史, 篠田浩一, 「音声認識における確率モデルの重み係数の自動推定」. 情報処理学会研究報告音声言語情報処理 (SLP), 2007(129 (2007-SLP-069)), 49-53, 2007.
【文献】Novoa, J., Fredes, J., Poblete, V., & Yoma, N. B., "Uncertainty weighting and propagation in DNN-HMM-based speech recognition", Computer Speech & Language, 47, 30-46, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、入力される一文ごとに最適な認識パラメータは一定ではない。その事例として例えばノイズ交じりの音声については言語モデルを音響モデルより重視したほうが、正確な音声認識結果を取得しやすい。そのため、言語モデル重みを大きくすることにより性能が向上する。
【0011】
音声データと書き起こしデータのデータセットに対して、一定の認識パラメータを設定する非特許文献1、非特許文献2の手法では、音声データごとの性質の違いによる最適な認識パラメータの差異を捉えて、認識パラメータを動的に変化させることはできない。
【0012】
音声データごとの性質の違いによる最適な認識パラメータの差異を捉えることが可能な手法として非特許文献3が挙げられる。しかし、非特許文献3のパラメータ推定は、ノイズの推定結果に基づくため、ノイズ以外の、例えばクリッピングなどの適切なパラメータに影響を与えうる音響的な現象を捉えることができない。
【0013】
本発明は、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定し、推定した認識パラメータを用いて音声認識する音声認識装置、推定する際に用いるモデルを学習する学習装置、それらの方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
上記の課題を解決するために、本発明の一態様によれば、学習装置は、Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、認識仮説Hmを評価し、評価値Emを求める仮説評価部と、Kを1以上の整数の何れかとし、k=1,2,…,Kとし、認識パラメータλkを用いて、認識仮説Hmに対して総合スコアxm,kを求め、順位rankm,kを付けるリランキング部と、評価値Emと順位rankm,kとに基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出部と、音響特徴量系列Oと算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む。
【0015】
上記の課題を解決するために、本発明の他の態様によれば、音声認識装置は、Mを1以上の整数の何れかとし、m=1,2,…,Mとし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い、認識仮説Hmと総合スコアxmを求める音声認識部と、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、音響特徴量系列Oに対する認識パラメータλEを求め、求めた認識パラメータλEを用いて、認識仮説Hmに対する総合スコアxmを求め、求めた総合スコアxmに基づき認識仮説Hmに対して順位を付けるモデル利用部とを含む。
【0016】
上記の課題を解決するために、本発明の他の態様によれば、学習装置は、Kを1以上の整数の何れかとし、k=1,2,…,Kとし、発話単位の音響特徴量系列Oに対して、認識パラメータλkを用いて、音声認識処理を行い、認識結果Rkと総合スコアxkを求める音声認識部と、音響特徴量系列Oに対する正しい音声認識結果である正解テキストを用いて、認識結果Rkを評価し、評価値Ekを求める仮説評価部と、認識結果Rkに対する総合スコアxkと評価値Ekとに基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求める最適パラメータ算出部と、音響特徴量系列Oと算出結果とを用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習するモデル学習部とを含む。
【0017】
上記の課題を解決するために、本発明の他の態様によれば、音声認識装置は、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλEを求めるモデル利用部と、音響特徴量系列Oに対して、認識パラメータλEを用いて、音声認識処理を行う音声認識部とを含む。
【発明の効果】
【0018】
本発明によれば、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定することができるという効果を奏する。
【図面の簡単な説明】
【0019】
図1】第一実施形態に係る学習装置の機能ブロック図。
図2】第一実施形態に係る学習装置の処理フローの例を示す図。
図3】第二実施形態に係る音声認識装置の機能ブロック図。
図4】第二実施形態に係る音声認識装置の処理フローの例を示す図。
図5】従来法と本手法における文誤り率と文字誤り率を示す図。
図6】本手法の適用による改善事例を示す図。
図7】第三実施形態に係る学習装置の機能ブロック図。
図8】第三実施形態に係る学習装置の処理フローの例を示す図。
図9】第四実施形態に係る音声認識装置の機能ブロック図。
図10】第四実施形態に係る音声認識装置の処理フローの例を示す図。
図11】本手法を適用するコンピュータの構成例を示す図。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
【0021】
<第一実施形態のポイント>
本実施形態では、発話単位の音響特徴量系列から適切な認識パラメータを直接ニューラルネットワークを用いて推定する。なお、本実施形態では、認識パラメータを言語重みおよび挿入パラメータとの組合せとする。本実施形態では、認識パラメータの中の言語モデル重み、挿入パラメータといった限られたものについて、一度適当な値で音声認識を行って生じた、多数の認識結果の候補(以下、「認識仮説」ともいう)に対して、疑似的に認識パラメータを変化させて認識仮説のリランキングを行う。
【0022】
従来こうした認識パラメータは一定の値を用いることが通例となっており、発話ごとに異なる認識パラメータを与えるという着眼点の研究は限られている。言語モデル重みの動的な制御については非特許文献3や以下の参考文献1が知られている。
(参考文献1)Stemmer, G., Zeissler, V., Noeth, E., & Niemann, H., "Towards a dynamic adjustment of the language weight", Springer, Berlin, Heidelberg, In International Conference on Text, Speech and Dialogue, pp. 323-328, 2001.
【0023】
参考文献1では、言語重みを発話単位で動的に変化させることが認識精度の改善に繋がることが示唆されており、話速や認識結果の信頼度を言語重みの推定に用いることができる可能性があると書かれている。しかし、適切な言語重みに対して影響を及ぼす特徴は現実的には多岐にわたるため、こうした話速や認識結果の信頼度のような人手で選定した特徴を用いても十分な推定はできないと考えられる。本手法では特徴量系列を入力として直接認識パラメータの推定を行うことで、認識パラメータの推定に必要な多様な情報をデータドリブンに学習することが可能である。
【0024】
本実施形態では、リランキングとして手法を適用する。リランキングとして手法を適用する場合、言語モデル重みと挿入誤りと呼ばれる認識パラメータについて、文単位での最適化が可能となる。第一実施形態はリランキングによって文単位での最適パラメータを推定するモデルを学習するものである。
【0025】
<第一実施形態>
図1は第一実施形態に係る学習装置の機能ブロック図を、図2はその処理フローを示す。
【0026】
学習装置は、音声認識部101と、仮説評価部102-1と、リランキング部102-2と、最適パラメータ算出部102-3と、モデル学習部103とを含む。
【0027】
学習装置は、学習用の音響特徴量系列OL,pと対応する音声データを人が書き起こした書き起こしデータとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習して、学習済みの回帰モデルを出力する。書き起こしデータは、音響特徴量系列に対する正しい音声認識結果である正解テキストに相当する。なお、OL,pの下付き添え字のLは、学習用のデータであることを表すインデックスであり、pは音響特徴量系列を示すインデックスである。例えば、学習装置は、P個の発話に対応するP個の学習用の音響特徴量系列OL,pとその書き起こしデータとを入力とし、p=1,2,…,Pとする。音声データごとの違いによる最適パラメータの差異を捉えることができるように様々な学習用の音声データを用意することが望ましい。本実施形態では、学習用の音響特徴量系列に対する処理の説明のみを行うため、インデックスLを省略する。また、p=1,2,…,Pに対して同様の処理を行うため、インデックスpを省略する。
【0028】
学習装置および後述する音声認識装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置および音声認識装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置および音声認識装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置および音声認識装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置および音声認識装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置および音声認識装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置および音声認識装置の外部に備える構成としてもよい。
【0029】
以下、各部について説明する。
【0030】
<音声認識部101>
音声認識部101は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い(S101)、M個の認識仮説HmとM個の総合スコアxmを求める。なお、Mを1以上の整数の何れかとし、m=1,2,…,Mとする。Mは認識仮説Hmとして採用する認識結果の候補の個数を示し、例えば、上位M個の総合スコアxmに対応する認識結果の候補を認識仮説Hmとして採用してもよいし、所定の閾値を超える総合スコアxmの個数をMとし、M個の総合スコアxmに対応するM個の認識結果の候補を認識仮説Hmとして採用してもよい。ただし、候補数Mは、通常の音声認識結果の候補として出力されるよりも多いほうが好ましい。認識仮説に対して各認識パラメータを変化させながらリランキングを行い、どの認識パラメータが適切かを判断する材料とするため、正解となる可能性のある幅広い認識結果を得る必要があり、候補数が多いほど精度が上がる可能性がある。
【0031】
音声認識部101は、M個の認識仮説Hmを仮説評価部102-1に出力し、M個の総合スコアxmを求める過程で得られるM個の言語スコアxL,m,音響スコアxA,m,単語数等nmの組合せをリランキング部102-2に出力する。
【0032】
音声認識部101は、例えば、公知の音声認識技術を用いて音声認識を行い、十分な数(M)の認識仮説を文単位で出力する。音声認識部101は、各認識仮説について音響スコア、言語スコア、単語数等を出力できることが必要とされる。したがって、例えば、HMM音声認識に代表される言語モデルと音響モデルとを備える音声認識部101であることが必要とされる。音声認識部101における認識パラメータλiniはデータセットに対して非特許文献1、非特許文献2のような方法で予め精密な調整を行う必要はなく、例えば言語重みWLというパラメータは一般的に用いられる値(例えば10など)を設定することができる。なお、言語重みWLとは
x=xA+WLxL+PIn (1)
を用いて各認識仮説の総合スコアxを音響スコアxAと言語スコアxLの和で表すときの重みのパラメータである。ただし、PIは挿入ペナルティであり、nは単語数等である。
【0033】
後述する仮説評価部102-1、リランキング部102-2および最適パラメータ算出部102-3からなる最適パラメータ推定部102では、音声認識部101から出力されたそれぞれの認識仮説および各仮説の言語スコア、音響スコア、単語数等と、人が書き起こした書き起こしデータを用いて、学習用の音響特徴量系列に対して最適な言語モデル重み及び挿入ペナルティを推定する。
【0034】
以下、各部の処理内容を説明する。
【0035】
<仮説評価部102-1>
仮説評価部102-1は、認識仮説Hmと正解テキストとを入力とし、正解テキストに基づき、認識仮説Hmを評価し、評価値Emを求め(S102-1)、出力する。言い換えると、仮説評価部102-1は、音声認識部101で音声認識によって得られた認識仮説に対する認識の良さを表す評価値を与える部分である。評価手法は公知の技術を用い、各認識仮説に対して文正解率(0か1)や文字正解精度(0から1の実数)などを算出する。文正解率は各文に対して人が書き起こした正解テキストと認識結果が完全に一致している場合に1それ以外の場合に0とする評価方法で、文字正解精度cacc.は以下の式で計算されるものである。
cacc.=(HIT-INS)/(HIT+SUB+DEL) (2)
ただしHITは正解文字数、DELは削除誤り文字数、SUBは置換誤り文字数、INSは挿入誤り文字数を表す。仮説評価部102-1では、各認識候補と上記のような尺度で評価された値との組(Hm,Em)が出力される。
【0036】
<リランキング部102-2>
リランキング部102-2は、M個の言語スコアxL,m,音響スコアxA,m,単語数等nmの組合せを入力とし、K個の認識パラメータλk=(WL,k,PI,k)を用いて、M個の認識仮説Hmに対してそれぞれK個の総合スコアxm,kを求め、各認識パラメータλkについてM個の認識仮説Hmの順位rankm,kを付け(S102-2)、出力する。なお、Kを1以上の整数の何れかとし、k=1,2,…,Kとする。なお、本実施形態では、認識パラメータλkは言語重みWL,kと挿入ペナルティPI,kとの組合せからなるが、認識パラメータλkは少なくとも言語重みWL,kまたは挿入ペナルティPI,kを含むものであればよい。
【0037】
リランキング部102-2は、音声認識部101で認識によって得られた認識仮説Hmを、K個の認識パラメータλkでリランキングする。ここでは言語重みと挿入ペナルティのパラメータを少しずつ変化させた時の、各認識仮説Hmに対する総合スコアxm,kを計算し、認識仮説の順位をつける。総合スコアxm,kを以下の式で算出することができる。
xm,k=(1-WL,k)xA,m+WL,kxL,m+PI,knm (3)
ここでxm,kが総合スコア、xA,mは音響スコア、xL,mは言語スコア、nmは単語数等、WL,kは言語重み、PI,kは挿入ペナルティである。(3)式は、(1)式を言語重みWL,kが0から1の範囲になるようにスケーリングしたものである。音響スコアxA,mと言語スコアxL,mは、それぞれ音声認識部の音響モデルと言語モデルにおいて計算される各認識仮説Hmのスコアで、単語数等nmは各認識仮説Hmが何単語あるいは何文字から構成されるかを数えたものである。各認識仮説Hmに対して音響スコアxA,m、言語スコアxL,m、単語数等nmは決まっているため、言語重みWL,kと挿入ペナルティPI,kの値を変化させることによって認識仮説の順位が変わることになる。言語重みWL,kと挿入ペナルティPI,kの値は、例えば言語重みWL,kを0から1の間で0.01刻みで変化させ、挿入ペナルティPI,kを0から10の間で0.1刻みで変化させる。それぞれのパラメータの組み合わせ(この例では、100×100=10000通りでありK=10000)について、各認識仮説Hmに対して総合スコアxm,kを計算し、順位rankm,kをつける。例えば、総合スコアxm,kに基づいて、各認識パラメータλk=(WL,k,PI,k)ごとに認識仮説Hmの順位rankm,kを付ける。この場合、順位rankm',k'は、ある認識パラメータλk'におけるある認識仮説Hm'の順位を示す。
【0038】
<最適パラメータ算出部102-3>
最適パラメータ算出部102-3は、評価値Emと順位rankm,kを入力とし、これらの値に基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求め(S102-3)、出力する。
【0039】
例えば、最適パラメータ算出部102-3は、各々の認識パラメータλk=(WL,k,PI,k)に対してどういった評価値Emの認識仮説Hmが上位から並ぶかを算出することで、各認識パラメータλk=(WL,k,PI,k)の良さを計算する。
【0040】
例えば、認識パラメータの最適値を求める場合、各認識パラメータλk=(WL,k,PI,k)の値に対して第一位にリランキングされた認識仮説Hmに着目し、文正解率や文字正解精度などの評価値Emが1となる認識仮説Hmが第一位になるような認識パラメータλk=(WL,k,PI,k)の領域の、重心を計算し、認識パラメータの最適値とする。
【0041】
また、認識パラメータλkの不適切さを表す値を求める場合、例えば、文正解率などの評価値Emが1となる認識仮説が第一位になるような認識パラメータの領域Sとの距離を表す以下のロス関数L(λk)を最適パラメータ算出部102-3の出力とする。後述するモデル学習部103は、L(λk)をもとにモデルを学習することが可能である。
【0042】
【数1】
【0043】
ただし領域Sは文正解率などの評価値Emが1となる認識パラメータの領域Sから外縁部εを削ったものであり、λ∈Sは領域Sに属する認識パラメータである。式(4)は定性的には各認識パラメータλkの悪さを表すもの、言い換えると、不適切さを表す値となっている。
【0044】
また、第N位までの認識仮説を用いて識別的に正解となる認識仮説が上位に来やすくなるようなロス関数を設定する手法を採用することも可能である。こうしたロス関数の設計についての公知の技術として参考文献2があげられる。
(参考文献2)Och, F. J., "Minimum error rate training in statistical machine translation", Association for Computational Linguistics, In Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1, pp. 160-167, 2003.
参考文献2では、第N位までの認識仮説のうち誤りを含む認識仮説のスコアを下げるようにモデル学習部103で学習する。
【0045】
<モデル学習部103>
モデル学習部103は、音響特徴量系列Oと最適パラメータ算出部102-3の算出結果とを入力とし、これらの値を用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習し(S103)、P個の学習用の音響特徴量系列Oとその書き起こしデータについて同様の処理を行い、学習済みの回帰モデルを出力する。
【0046】
例えば、モデル学習部103は、音響特徴量系列から最適パラメータ推定部102で得られた最適な認識パラメータを推定する回帰モデルを公知の深層学習技術を用いて学習する。教師有学習の枠組みで入力特徴量としては音声ファイルの音響特徴量系列を用い、正解ラベルとしては最適パラメータ算出部102―3における算出結果を用いる。ロス関数は例えば平均二乗誤差を用いる。長時間の時系列情報も考慮可能なRNN,LSTM,AttentionつきLSTMモデルなどでモデル化すると良い。
【0047】
最適パラメータ算出部102-3の算出結果が一意な最適な認識パラメータの場合、学習中のモデルに音響特徴量系列を与えたときに得られるパラメータと、最適な認識パラメータとの平均二乗誤差をロス関数として求め、ロス関数が小さくなるようにモデルを学習する。
【0048】
最適パラメータ算出部102-3の算出結果がロス関数の場合、ロス関数が小さくなるようにモデルを学習する。
【0049】
なお、学習を終了するエポック数などのハイパーパラメーターは、学習用のデータをトレーニングデータとバリデーションデータに分割し、バリデーションデータに対する評価を通して決定する。
【0050】
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
【0051】
本実施形態では、第一実施形態で説明した学習済みの回帰モデルを用いた音声認識方法について説明する。
【0052】
図3は第二実施形態に係る音声認識装置の機能ブロック図を、図4はその処理フローを示す。
【0053】
音声認識装置は、音声認識部201と、モデル利用部202とを含む。
【0054】
音声認識装置は、音声認識対象となる音声データの音響特徴量系列Otを入力とし、認識パラメータλiniを用いて音声認識した認識結果を、学習済みの回帰モデルを用いて推定した認識パラメータでリランキングし、最も順位の高いものを認識結果として出力する。なお、下付き添え字のtは、音声認識対象のデータであることを表すインデックスである。本実施形態では、音声認識対象となる音声データの音響特徴量系列Otに対する処理の説明のみを行うため、インデックスtを省略する。
【0055】
以下、各部について説明する。
【0056】
<音声認識部201>
音声認識部201は、音声認識部101と同様である。つまり、音声認識部201は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλiniを用いて、音声認識処理を行い(S201)、M個の認識仮説HmとM個の総合スコアxmを求める。ただし、入力の発話単位の音響特徴量系列Oは、音声認識対象となる音声データの音響特徴量系列である。
【0057】
音声認識部201は、M個の認識仮説Hmと、M個の総合スコアxmを求める過程で得られるM個の言語スコアxL,m,音響スコアxA,m,単語数等nmの組合せとをモデル利用部202に出力する。
【0058】
<モデル利用部202>
モデル利用部202は、発話単位の音響特徴量系列Oと、M個の認識仮説Hmと、M個の言語スコアxL,m,音響スコアxA,m,単語数等nmの組合せとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、音響特徴量系列Oに対する認識パラメータλE=(WL,E,PI,E)を求める。モデル利用部202は、求めた認識パラメータλEを用いて、M個の認識仮説Hmに対するM個の総合スコアxE,mを求める。
xE,m=(1-WL,E)xA,m+WL,ExL,m+PI,Enm
モデル利用部202は、求めたM個の総合スコアxE,mに基づきM個の認識仮説Hmに対して順位(リランキング)を付け(S202)、最も順位の高い認識仮説を認識結果として出力する。つまり、本実施形態では、音声認識部201で音声認識を行うと同時に、モデル利用部202にて認識パラメータλEを推定し、音声認識部201から出力された認識仮説のリランキングを行う。
【0059】
認識パラメータλEの推定は1発話単位ごとに行い、1発話単位ごとに適切な認識パラメータでの音声認識が行われる。
【0060】
図5は、従来法と本手法における文誤り率と文字誤り率を示す。図5に示すように本手法の適用により、実サービスログ音声に対しておよそ9%の文誤り率削減とおよそ4%の文字誤り率削減が実現された。図6は、本手法の適用による改善事例を示す。口語表現として省略された助詞が正しく認識される例(a)、なまった表現が正しく認識される例(b)、文法的に正しく認識される例(c)、本来認識結果を返すべきでない背景発話に対して正しく空の認識結果を返す例(d)が見られた。
【0061】
<効果>
このような構成とすることで、ノイズの推定結果によらずに、発話ごとに適切な認識パラメータを推定することができるという効果を奏する。また、データセット全体に対して一定の認識パラメータを設定する場合と比較して認識精度が向上する。発話ごとの適切な認識パラメータの適用をリランキングとして行うことで、認識パラメータの推定を音声認識と並行して行うことが可能となり遅延なく適用できる。
【0062】
<第三実施形態>
第一実施形態と異なる部分を中心に説明する。
【0063】
第一実施形態のようにリランキングとして本手法を適用する場合、適用可能なパラメータは言語モデル重みと挿入誤りに限られている。しかし、音声認識の前処理として本手法を適用する場合は言語重みと挿入誤りに加えてビーム幅やバイアス値といった認識パラメータに対して本手法が適用可能であり、文単位での最適化が可能となる。本実施形態では、各パラメータを変化させながら複数回の認識を行うことで、文単位での最適パラメータを推定するモデルを学習する。
【0064】
図7は第三実施形態に係る学習装置の機能ブロック図を、図8はその処理フローを示す。
【0065】
学習装置は、音声認識部301と、仮説評価部302-1と、最適パラメータ算出部302-2と、モデル学習部303とを含む。
【0066】
学習装置は、学習用の音響特徴量系列Oと対応する音声データを人が書き起こした書き起こしデータとを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習して、学習済みの回帰モデルを出力する。
【0067】
以下、各部について説明する。
【0068】
<音声認識部301>
音声認識部301は、発話単位の音響特徴量系列Oを入力とし、発話単位の音響特徴量系列Oに対して、K個の認識パラメータλkを用いて、音声認識処理を行い(S301)、K個の認識結果RkとK個の総合スコアxkを求める。
【0069】
音声認識部301は、K個の認識結果Rkを仮説評価部302-1に出力し、K個の総合スコアxkを最適パラメータ算出部302-2に出力する。
【0070】
音声認識部301は、最適化したい認識パラメータの設定値を少しずつ変化させながら公知の音声認識技術を用いて認識を行い、各認識パラメータに対する認識結果を取得する。
【0071】
後述する仮説評価部302-1および最適パラメータ算出部302-2からなる最適パラメータ推定部302では、音声認識部301から出力された各認識パラメータにおける認識結果を評価し、最適な認識パラメータを出力する。第一実施形態の最適パラメータ推定部102は、リランキング部102-2において認識仮説に対して各認識パラメータでリランキングすることで、各認識パラメータでの認識結果を模擬する。一方、本実施形態では、音声認識部301において既に認識パラメータを変化させながら認識を行っているのでリランキングの工程が不要である。
【0072】
なお、本実施形態の認識パラメータλkは、言語重み、挿入ペナルティ、ビーム幅、バイアス値等の音声認識のパラメータの少なくとも何れか1つ以上を含む。
【0073】
<仮説評価部302-1>
仮説評価部302-1は、第一実施形態の仮説評価部102-1と同様の処理を行う。つまり、仮説評価部302-1は、認識結果Rkと正解テキストとを入力とし、正解テキストに基づき、認識結果Rkを評価し、評価値Ekを求め(S302-1)、出力する。
【0074】
<最適パラメータ算出部302-2>
最適パラメータ算出部302-2は、認識結果Rkに対する総合スコアxkと評価値Ekとを入力とし、これらの値に基づき、認識パラメータの最適値または認識パラメータλkの不適切さを表す値を算出結果として求め(S302-2)、出力する。
【0075】
最適パラメータ算出部302-2は、各認識パラメータにおける認識結果と仮説評価部302-1で得られたそれらに対する評価値を用い、各々の認識パラメータに対してどういった評価値の認識結果が得られているかを考慮することで、各認識パラメータの良さを定量化する。詳細は、最適パラメータ算出部102―3と同様である。
【0076】
例えば、認識パラメータの最適値を求める場合、評価値Ekが1となる認識結果Rkに対応する認識パラメータλkを抽出し、抽出した認識パラメータλkの重心を計算し、計算した重心を認識パラメータの最適値とする。
【0077】
また、認識パラメータλkの不適切さを表す値を求める場合、例えば、文正解率などの評価値Emが1となる認識結果Rkが第一位になるような認識パラメータの領域Sとの距離を表す(4)式のロス関数L(λk)を最適パラメータ算出部102-3の出力とする。(4)式のロス関数L(λk)のようにあるパラメータ(とその周辺)における認識結果のみから計算できるようなロス関数を用いれば、ロスの値を認識パラメータで数値微分して勾配降下の要領で逐次的に認識パラメータを更新することが可能となる。
【0078】
<モデル学習部303>
モデル学習部303は、第一実施形態のモデル学習部103と同様の処理を行う。つまり、モデル学習部303は、音響特徴量系列Oと最適パラメータ算出部302-2の算出結果とを入力とし、これらの値を用いて、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを学習し(S303)、P個の学習用の音響特徴量系列Oとその書き起こしデータについて同様の処理を行い、学習済みの回帰モデルを出力する。
【0079】
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、本実施形態の場合、回帰モデルが推定する認識パラメータλEとして、ビーム幅やバイアス値を用いることができる。ただし、本実施形態の場合、K個の認識パラメータλkを用いて、音声認識処理を行うため、第一実施形態よりも演算量が多くなる。
【0080】
<第四実施形態>
第二実施形態と異なる部分を中心に説明する。
【0081】
本実施形態では、第三実施形態に於いて学習したモデルを用いて最適なパラメータを推定し、それを音声認識部のパラメータの設定値として音声認識を行う。
【0082】
図9は第四実施形態に係る音声認識装置の機能ブロック図を、図10はその処理フローを示す。
【0083】
音声認識装置は、音声認識部402と、モデル利用部401とを含む。
【0084】
音声認識装置は、音声認識対象となる音声データの音響特徴量系列Oを入力とし、学習済みの回帰モデルを用いて、最適な認識パラメータを推定し、推定した認識パラメータを用いて音声認識して認識結果を出力する。
【0085】
以下、各部について説明する。
【0086】
<モデル利用部401>
モデル利用部401は、音響特徴量系列Oを入力とし、音響特徴量系列から最適な認識パラメータを推定する回帰モデルを用いて、発話単位の音響特徴量系列Oに対する認識パラメータλEを求め(S401)、出力する。なお、回帰モデルは、第三実施形態で学習したモデルである。
【0087】
音声認識部402の音声認識処理の前段でモデル利用部401にて適切な認識パラメータを推定し、それを用いて音声認識を行う。音声認識部402の内部で認識結果を探索する際に、推定した認識パラメータを設定値として与えることで適切な仮説探索を行うことが可能である。
【0088】
<音声認識部402>
音声認識部402は、音響特徴量系列Oと認識パラメータλEとを入力とし、発話単位の音響特徴量系列Oに対して、認識パラメータλEを用いて、音声認識処理を行い(S402)、認識結果を出力する。
【0089】
<効果>
このような構成とすることで、第二実施形態と同様の効果を得ることができる。さらに、本実施形態の場合、推定する認識パラメータλEとして、ビーム幅やバイアス値を用いることができる。
【0090】
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0091】
<プログラム及び記録媒体>
上述の各種の処理は、図11に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
【0092】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0093】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0094】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0095】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11