特許第6625961号(P6625961)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6625961発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
<>
  • 特許6625961-発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム 図000002
  • 特許6625961-発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム 図000003
  • 特許6625961-発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6625961
(24)【登録日】2019年12月6日
(45)【発行日】2019年12月25日
(54)【発明の名称】発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム
(51)【国際特許分類】
   G10L 15/06 20130101AFI20191216BHJP
   G10L 15/14 20060101ALI20191216BHJP
【FI】
   G10L15/06 300Y
   G10L15/14 200Z
【請求項の数】5
【全頁数】9
(21)【出願番号】特願2016-239050(P2016-239050)
(22)【出願日】2016年12月9日
(65)【公開番号】特開2018-97045(P2018-97045A)
(43)【公開日】2018年6月21日
【審査請求日】2018年12月12日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】小橋川 哲
(72)【発明者】
【氏名】河内 祐太
(72)【発明者】
【氏名】中澤 裕一
(72)【発明者】
【氏名】青野 裕司
【審査官】 岩田 淳
(56)【参考文献】
【文献】 特開2005−292770(JP,A)
【文献】 特開2002−082688(JP,A)
【文献】 特開2009−217006(JP,A)
【文献】 辻岡聡他,英語習熟度を考慮した発音辞書と音響モデル逐次適応による非母語音声認識,日本音響学会 2016年 春季研究発表会講演論文集,一般社団法人日本音響学会,2016年 3月11日,pp. 75-76
【文献】 安斎拓也他,日本人英語学習者の発音レベルを考慮した音響モデルに関する検討,日本音響学会 2011年 春季研究発表会講演論文集,社団法人日本音響学会,2011年 3月11日,pp. 31-32
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−17/26
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
ある言語の非母国語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとして、上記学習データをスキルレベルに基づいてクラスタリングすることにより、N個の学習クラスタi(i=1,…,N)を生成するデータクラスタリング部と、
発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書iを生成し、上記学習クラスタiの音声データ及び所定の音響モデルの下で上記学習クラスタiのテキストデータを上記追加発音辞書iの各エントリで変換した読みが尤もらしい上記追加発音辞書iの中のエントリを残すことによりクラスタ発音辞書iを生成する発音獲得部と、上記学習クラスタiのテキストデータを上記クラスタ発音辞書iで変換した読み及び上記学習クラスタiの音声データを用いて音響モデルを学習することによりクラスタ音響モデルiを生成する音響モデル学習部とを含み、上記生成された更新後発音辞書iを上記所定の発音辞書とし、上記クラスタ音響モデルiを上記所定の音響モデルとする上記発音獲得部及び上記モデル学習部の処理を繰り返すことにより、クラスタ発音辞書i及びクラスタ音響モデルiを更新する処理を、i=1,…,Nのそれぞれについて行う更新部と、
上記更新されたクラスタ発音辞書i及びクラスタ音響モデルiを統合することにより、統合発音辞書及び統合音響モデルを生成する統合部と、
を含む発音辞書及び音響モデル生成装置。
【請求項2】
請求項1の発音辞書及び音響モデル生成装置で生成された上記統合発音辞書及び上記統合音響モデルを用いて、音声認識を行う音声認識部、
を含む音声認識装置。
【請求項3】
データクラスタリング部が、ある言語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとして、上記学習データをスキルレベルに基づいてクラスタリングすることにより、N個の学習クラスタi(i=1,…,N)を生成するデータクラスタリングステップと、
発音獲得部が、発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書iを生成し、上記学習クラスタiの音声データ及び所定の音響モデルの下で上記学習クラスタiのテキストデータを上記追加発音辞書iの各エントリで変換した読みが尤もらしい上記追加発音辞書iの中のエントリを残すことにより、クラスタ発音辞書iを生成する発音獲得ステップと、音響モデル学習部が、上記学習クラスタiのテキストデータを上記クラスタ発音辞書iで変換したテキストデータ及び上記学習クラスタiの音声データを用いて音響モデルを学習することによりクラスタ音響モデルiを生成する音響モデル学習ステップとを含み、更新部が、上記生成された更新後発音辞書iを上記所定の発音辞書とし、上記クラスタ音響モデルiを上記所定の音響モデルとする上記発音獲得ステップ及び上記モデル学習ステップの処理を繰り返すことにより、クラスタ発音辞書i及びクラスタ音響モデルiを更新する処理を、i=1,…,Nのそれぞれについて行う更新ステップと、
統合部が、上記更新されたクラスタ発音辞書i及びクラスタ音響モデルiを統合することにより、統合発音辞書及び統合音響モデルを生成する統合ステップと、
を含む発音辞書及び音響モデル生成方法。
【請求項4】
音声認識部が、請求項1の発音辞書及び音響モデル生成装置で生成された上記統合発音辞書及び上記統合音響モデルを用いて、音声認識を行う音声認識ステップ、
を含む音声認識方法。
【請求項5】
請求項1の発音辞書及び音響モデル生成装置又は請求項2の音声認識装置の各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、発音辞書及び音響モデルを生成するための技術及び音声認識技術に関する。
【背景技術】
【0002】
音響モデルの作成技術として、特許文献1に記載された技術が知られている(例えば、特許文献1参照。)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010-96899号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の音響モデルの作成において、日本人の英語等の非母国語の話者に音声認識を対応させるためには、発音誤りを考慮した書き起こしテキストを用意し、発音辞書を整備する必要がある。しかし、話者のスキルレベルに応じて、発音誤りの傾向が異なるため、スキルレベルを考慮しないで、発音辞書及び音響モデルを作ると、十分な精度が出ない可能性があった。
【0005】
この発明は、従来よりも認識精度が高い発音辞書及び音響モデル発音辞書及び音響モデルを生成する発音辞書及び音響モデル生成装置、従来よりも認識精度が高い音声認識装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の一態様による発音辞書及び音響モデル生成装置は、ある言語の非母国語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとして、上記学習データをスキルレベルに基づいてクラスタリングすることにより、N個の学習クラスタi(i=1,…,N)を生成するデータクラスタリング部と、発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書iを生成し、上記学習クラスタiの音声データ及び所定の音響モデルの下で上記学習クラスタiのテキストデータを上記追加発音辞書iの各エントリで変換した読みが尤もらしい上記追加発音辞書iの中のエントリを残すことによりクラスタ発音辞書iを生成する発音獲得部と、上記学習クラスタiのテキストデータを上記クラスタ発音辞書iで変換した読み及び学習クラスタiの音声データを用いて音響モデルを学習することによりクラスタ音響モデルiを生成する音響モデル学習部とを含み、生成された更新後発音辞書iを所定の発音辞書とし、クラスタ音響モデルiを所定の音響モデルとする発音獲得部及びモデル学習部の処理を繰り返すことにより、クラスタ発音辞書i及びクラスタ音響モデルiを更新する処理を、i=1,…,Nのそれぞれについて行う更新部と、更新されたクラスタ発音辞書i及びクラスタ音響モデルiを統合することにより、統合発音辞書及び統合音響モデルを生成する統合部と、を備えている。
【発明の効果】
【0007】
話者のスキルレベルを考慮することで、従来よりも認識精度が高い発音辞書及び音響モデルを生成することができる。また、従来よりも精度が高い音声認識を行うことができる。
【図面の簡単な説明】
【0008】
図1】発音辞書及び音響モデル生成装置及び音声認識装置の例を説明するためのブロック図。
図2】発音辞書及び音響モデル生成方法の例を説明するための流れ図。
図3】音声認識方法の例を説明するための流れ図。
【発明を実施するための形態】
【0009】
以下、図面を参照して、この発明の実施形態について説明する。
【0010】
[発音辞書及び音響モデル生成装置1]
発音辞書及び音響モデル生成装置1は、図1に示すように、データクラスタリング部11、更新部12及び統合部13を例えば備えている。
【0011】
発音辞書及び音響モデル生成方法は、発音辞書及び音響モデル生成装置1の各部が、図2及び以下に説明するステップS11からステップS13の処理を行うことにより例えば実現される。
【0012】
<データクラスタリング部11>
データクラスタリング部11は、学習データをスキルレベルに基づいてクラスタリングすることにより、N個の学習クラスタi(i=1,…,N)を生成する(ステップS11)。生成されたN個の学習クラスタiは、更新部12に出力される。Nは、所定の正の整数(例えば、6から10等の整数〜10等)である。
【0013】
学習データは、音声データと、対応した発声内容を記述したテキストデータとを含んでいる。テキストデータは、話者がそもそも発声しようとした文章を想定する。学習データには、その学習データに係る話者のスキルレベルが与えられているものとする。スキルレベルは、話者のネイティブレベル(当該言語に対するテストの点数等)としても良いし、話者の出身地等、話者の発音に影響する要素を数値化したものであっても良い。学習データは、話者毎に元々分割されていても良い。
【0014】
このように、ある言語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとする。
【0015】
<更新部12>
更新部12は、発音獲得部121及び音響モデル学習部122を備えている。更新部12は、以下に説明する発音獲得部121及び音響モデル学習部122の処理を繰り返すことにより、クラスタ発音辞書i及びクラスタ音響モデルiを更新する処理を、i=1,…,Nのそれぞれについて行う。更新は、例えば所定の回数だけ行われる。所定の回数は例えば10回である。更新は、クラスタ発音辞書i及びクラスタ音響モデルiが所定の範囲内に収束するまで行われてもよい。また、所定の回数という閾値と併用して、獲得される発音が変化しなくなる収束段階で止めても構わない。
最終的に更新されたクラスタ発音辞書i及びクラスタ音響モデルiは、統合部13に出力される。
【0016】
発音獲得部121は、発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書iを生成し、学習クラスタiの音声データ及び所定の音響モデルの下で学習クラスタiのテキストデータを追加発音辞書iの各エントリで変換した読みが尤もらしい追加発音辞書iの中のエントリを残すことにより、クラスタ発音辞書iを生成する(ステップS121)。生成されたクラスタ発音辞書iは、音響モデル学習部122に出力される。
【0017】
発音辞書とは、単語等のテキストデータの構成単位とその構成単位に対応する読みとの組であるエントリの集合である。読みは、例えば音素により表される。
【0018】
発音誤り候補パタンとは、誤り易い発音誤りに対応する、単語等のテキストデータの構成単位とその構成単位に対応する読みとの組であるエントリである。発音誤り候補パタンは、l/rの誤り、音素の脱落/挿入等の非母国語の話者が起こしやすい発音の誤りを考慮して定められる。
【0019】
例えば、「Rice」という単語とrの発音を含む読みとの組がエントリの1つとして発音辞書に登録されているとする。ここで、日本人等の英語の話者は、「Rice」のrの発音を正しくすることが難しいため、rではなくlの発音をしてしまうことが多い。このため、l/rの誤りという誤り易い発音誤りに対応して、「Rice」という単語とlの発音を含む読みとの組が発音誤り候補パタンのエントリとして、発音辞書iに追加される。
【0020】
所定の発音辞書は、最初の発音獲得部121による1回目の処理を行う場合には、予め定められた発音辞書であるベース発音辞書であり、kを2以上の整数として最初の発音獲得部121によるk回目以降の一番初めの処理を行う場合には、発音獲得部121によるk−1回目の処理のより生成されたクラスタ発音辞書iである。
【0021】
所定の音響モデルは、最初の発音獲得部121による1回目の処理を行う場合には、予め定められた音響モデルであるベース音響モデルであり、kを2以上の整数として最初の発音獲得部121によるk回目以降の一番初めの処理を行う場合には、音響モデル学習部122によるk−1回目の処理のより生成された音響モデルiである。
【0022】
尤もらしいとは、言い換えれば尤度又は事後確率が高いということである。尤もらしいエントリを残すために、例えば、尤度又は事後確率が所定の閾値以上のエントリを残してもよいし、Mを所定の正の整数として尤度又は事後確率が高い上位M個のエントリを残してもよい。例えば、M=1とすることで、最高尤度のエントリのみを残すこととなる。
【0023】
例えば、「Rice」という単語とlの発音を含む読みとの組が発音誤り候補パタンのエントリとして発音辞書iに追加されており、かつ、M=1の場合には、学習クラスタiの音声データ及び所定の音響モデルの下で、rの発音を含む読みのエントリと、lの発音を含む読みのエントリとのうち尤もらしい、言い換えれば尤度又は事後確率が高いエントリが発音辞書iに残され、そうでない方のエントリは発音辞書iから削除される。例えば、M=1の場合は、発音誤りパタンとして許容する範囲が少なく、M≧2の場合は話者毎に大きく異なる様々な発音誤りパタンに対応できる。
【0024】
このように、発音誤り候補パタンのエントリを発音辞書に追加するという手法により発話誤りを考慮することにより、非母国語の話者の書き起こすべき量が少なくなるため、音響モデル、発音辞書を整備するコストを大幅に削減できる。さらに、学習に使うべきデータ量を減らせるため、学習時間も少なくなる。
【0025】
音響モデル学習部122は、学習クラスタiのテキストデータをクラスタ発音辞書iで変換したテキストデータ及び学習クラスタiの音声データを用いて音響モデルを学習することによりクラスタ音響モデルiを生成する(ステップS122)。
【0026】
<統合部13>
統合部13は、更新されたクラスタ発音辞書i及びクラスタ音響モデルiを統合することにより、統合発音辞書及び統合音響モデルを生成する(ステップS13)。生成された統合発音辞書及び統合音響モデルは、音声認識装置2の記憶部21に記憶される。
【0027】
統合部13は、例えば、スキルレベル毎の音響モデル/辞書が読み込める形式でまとめる。
【0028】
なお、統合部13は、クラスタ発音辞書iのみを複数のものを統合してもよい。この場合、音響モデルは全学習データで学習し直すことにより、統合音響モデルを生成する。
【0029】
[音声認識装置2]
音声認識装置2は、記憶部21及び音声認識部22を例えば備えている。音声認識方法は、音声認識部22がステップS21の処理を行うことにより実現される。
【0030】
<記憶部21>
記憶部21には、発音辞書及び音響モデル生成装置1により生成された統合発音辞書及び統合音響モデルが記憶されている。
【0031】
<音声認識部22>
音声認識部22は、記憶部21から読み込んだ統合された発音辞書及び統合音響モデルを用いて、入力された音声データについての音声認識を行うことにより、入力音声をテキストに変換する(ステップS21)。
【0032】
入力音声には、事前にその言語の話者のスキルレベルが対応付けられている。例えば、音声認識部22は、入力音声に対応するスキルレベルのクラスタ発音辞書及びクラスタ音響モデルを用いて、音声認識を行う。
【0033】
なお、音声認識部22は、複数のクラスタ音響モデル・クラスタ発音辞書を用いて、最大尤度の認識結果を出力してもよい。すなわち、音声認識部22は、各スキルレベルのクラスタ発音辞書及びクラスタ音響モデルを用いて音声認識を行い、各スキルレベルに対応する音声認識結果を得て、各スキルレベルに対応する音声認識結果の中で最大尤度の音声認識結果を出力してもよい。
【0034】
[変形例1]
データクラスタリング部11は、各学習データが、予め定められた各スキルレベルに対応する発話誤りパタンのどれに尤も当てはまるかに基づいて、その各学習データのスキルレベルを推定し、その推定されたスキルレベルに基づいてクラスタリング処理を行ってもよい。
【0035】
より詳細には、データクラスタリング部11は、各学習データの音声データ及び所定の音響モデルの下で、その各学習データのテキストデータの各構成単位を発話誤りパタンで変換した読みが最も尤もらしい発話誤りパタンを見つけ、その各構成単位にその見つかった発話誤りパタンに対応するスキルレベルを割り当てる。そして、学習データのテキストデータの各構成単位のスキルレベルの中で、最も多いスキルレベルをその学習データのスキルレベルとする。
【0036】
このように、データクラスタリング部11は、入力された発音誤りパタンをスキルレベル分けして、考慮するパタン数が異なる発音誤りパタン候補リストを行い、学習データに対して最適となる発音誤りパタンを選定。そして、最適となる発音誤り数(割合)に応じて、スキルレベルを設定してもよい。
【0037】
このように、データクラスタリング部11が、スキルレベルを推定及び設定することにより、学習データに予めスキルレベルを付与する手間を省くことができる。
【0038】
[変形例2]
更新部12は、スキルレベル毎の学習データiの量を減らしてもよい。これにより、学習時間を減らすことができる。
【0039】
例えば、更新部12は、クラスタリングにより生成された学習クラスタiに含まれるデータをランダムに選定する。更新部12は、クラスタリングにより生成された学習クラスタiに含まれるデータを、各学習クラスタiの話者数が一定数又は一定数以下となるように減らしてもよい。ただし、学習クラスタi毎で考慮するべき発音誤りパタンが全て含まれるテキストを選定する必要がある。
【0040】
変形例2は、非ネイティブ話者の発話誤りが獲得できれば十分であるため、スキルレベル毎の学習データiの量はそれほど多くなくてもよく、全学習データを利用しなくてもよいという考えに基づくものである。
【0041】
[変形例3]
データクラスタリング部11は、学習データのスキルレベルを母国語の音響モデルと非母国語の音響モデルのどちらに近いかで判定し、その判定されたされたスキルレベルに基づいて学習データのクラスタリング処理を行ってもよい。
【0042】
例えば、データクラスタリング部11は、各学習データの音声データの下で、母国語の音響モデル及び非母国語の音響モデルのそれぞれを用いて、その各学習データのテキストデータの各構成単位を所定の発音辞書で変換した読みの尤もらしさを計算し、その各構成単位には母国語の音響モデル及び非母国語の音響モデルのどちらがより尤もらしいかを決定する。そして、学習データのテキストデータの中で、非母国語の音響モデルが割り当てられた構成単位の割合をその学習データのスキルレベルとする。
【0043】
このように、母国語/非母国語音響モデルで尤度計算を行い、尤度が高くなった学習データの非母国語音響モデルが選定された割合をスキルレベルとしてもよい。
【0044】
このように、データクラスタリング部11が、スキルレベルを判定及び設定することにより、学習データに予めスキルレベルを付与する手間を省くことができる。
【0045】
なお,スキルレベルの判定に音響モデルを用いる事で、最終的に生成される音響モデルと整合性が取れるため、精度の向上が期待できる。
【0046】
[変形例4]
発音獲得部121による1回目の処理を行う場合に用いる、予め定められた音響モデルであるベース音響モデルは、母国語モデルを元モデルとして構築されたものであってもよい。例えば、ベースとなる音響モデルを母国語モデルとし、非母国語考慮音素変換テーブルを用意して、母国語辞書の音素情報を非母国語に変換することにより、構築された音響モデルをベース音響モデルとする。
【0047】
元モデルとして、母国語モデルを使う事で、スキルレベルが低く発音が母国語に近い話者の発音獲得の収束を早める事が期待できる。ここで、非母国語考慮音素変換テーブルは、非母国語の音素と、母国語話者の音素で、類似している音素関係対を持つ情報である。例えば、日本語と英語の場合は「あ」の音素「a_jp」と、英語の「ae」の音素「ae_en」等が相当する。
【0048】
[変形例5]
発音獲得部121による1回目の処理を行う場合に用いる、予め定められた音響モデルであるベース音響モデルとして、予め定められた母国語音響モデル、予め定められた非母国語音響モデルの両方を用いてもよい。この時の母国語音響モデルは、変形例4と同様音素情報を非母国語に変換したものを用いる。
【0049】
母国語音響モデル、非母国語音響モデルの両方を用いる事で、スキルレベルが大きく異なる話者を包含する事ができる。発音辞書としては、母国語の音素体系・音響モデル、非母国語の音素体系・音響モデルを併用する事で、発音が母国語に近い話者と、非母国語に近い話者の両方の精度を同時に高める事が可能となる。
【0050】
[プログラム及び記録媒体]
発音辞書及び音響モデル生成装置1又は音声認識装置2における各処理をコンピュータによって実現する場合、発音辞書及び音響モデル生成装置1又は音声認識装置2が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、発音辞書及び音響モデル生成装置1又は音声認識装置2の処理がコンピュータ上で実現される。
【0051】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0052】
また、各処理手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0053】
[変形例]
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
【符号の説明】
【0054】
1 発音辞書及び音響モデル生成装置
11 データクラスタリング部
12 更新部
121 発音獲得部
122 音響モデル学習部
13 統合部
2 音声認識装置
21 記憶部
22 音声認識部
図1
図2
図3