特許第6970345号(P6970345)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許6970345学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
<>
  • 特許6970345-学習装置、音声認識装置、学習方法、音声認識方法およびプログラム 図000017
  • 特許6970345-学習装置、音声認識装置、学習方法、音声認識方法およびプログラム 図000018
  • 特許6970345-学習装置、音声認識装置、学習方法、音声認識方法およびプログラム 図000019
  • 特許6970345-学習装置、音声認識装置、学習方法、音声認識方法およびプログラム 図000020
  • 特許6970345-学習装置、音声認識装置、学習方法、音声認識方法およびプログラム 図000021
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6970345
(24)【登録日】2021年11月2日
(45)【発行日】2021年11月24日
(54)【発明の名称】学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
(51)【国際特許分類】
   G10L 15/06 20130101AFI20211111BHJP
   G10L 15/16 20060101ALI20211111BHJP
【FI】
   G10L15/06 300C
   G10L15/06 300Y
   G10L15/16
【請求項の数】6
【全頁数】16
(21)【出願番号】特願2018-154945(P2018-154945)
(22)【出願日】2018年8月21日
(65)【公開番号】特開2020-30286(P2020-30286A)
(43)【公開日】2020年2月27日
【審査請求日】2020年7月20日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】100153017
【弁理士】
【氏名又は名称】大倉 昭人
(72)【発明者】
【氏名】増村 亮
(72)【発明者】
【氏名】田中 智大
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2017−90660(JP,A)
【文献】 特開2003−22087(JP,A)
【文献】 米国特許出願公開第2005/0197835(US,A1)
【文献】 欧州特許出願公開第1418570(EP,A1)
【文献】 坂上綾太他,GMMとDNNを組み合わせた遠隔環境下での母国語認識,電子情報通信学会技術研究報告,2014年12月,Vol.114, No.365,pp.123-128
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00−15/34
(57)【特許請求の範囲】
【請求項1】
入力音声の音声認識に用いられるパラメータを学習する学習装置であって、
前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第1のモデルパラメータ群学習部と、
前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習する第2のモデルパラメータ群学習部と、
前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第3のモデルパラメータ群学習部と、を備えることを特徴とする学習装置。
【請求項2】
請求項1に記載の学習装置により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置であって、
前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換する第1の音韻気付き特徴量抽出部と、
前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換する第2の音韻気付き特徴量抽出部と、
前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成する音韻認識部と、
前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力する音声テキスト変換部と、を備えることを特徴とする音声認識装置。
【請求項3】
入力音声の音声認識に用いられるパラメータを学習する学習装置における学習方法であって、
前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、
前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習するステップと、
前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、を含むことを特徴とする学習方法。
【請求項4】
請求項3に記載の学習方法により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、
前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換するステップと、
前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換するステップと、
前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、
前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含むことを特徴とする音声認識方法。
【請求項5】
コンピュータを請求項1に記載の学習装置として機能させるためのプログラム。
【請求項6】
コンピュータを請求項2に記載の音声認識装置として機能させるためのプログラム。



【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、音声認識装置、学習方法、音声認識方法およびプログラムに関する。
【背景技術】
【0002】
国際化の進展とともに、母国語でない言語を人が話す機会が増えてきている。特に、英語は世界的な共通語として、全世界で人が英語を話す様々な場面が見られる。以下では、ある言語を対象とした場合に、その言語を母国語とする話者をネイティブ話者と称し、その言語を母国語としない話者をノンネイティブ話者と称する。また、ネイティブ話者がその言語で発話した音声データをネイティブ音声データと称し、ノンネイティブ話者がその言語で発話した音声データをノンネイティブ音声データと称する。
【0003】
ノンネイティブ話者が登場する具体的な場面として、国際会議などが挙げられる。国際会議では、英語についてのノンネイティブ話者同士が英語を介してコミュニケーションをとることが一般的になってきている。しかしながら、ノンネイティブ話者の発音は、ネイティブ話者の発音とは大きく異なるため、コミュニケーションが困難となることがある。特に、母国語が異なるノンネイティブ話者同士が会話する際にコミュニケーションが困難となることがある。例えば、インド人は日本人が話す英語を聞きとることが難しく、日本人はインド人が話す英語を聞きとることが難しいことなどが知られている。そこで、ある言語についてのノンネイティブ話者同士がコミュニケーションをとる場合において、音声認識を用いることでコミュニケーションの円滑化を図ることが期待される。すなわち、音声のままでは聞きとることが困難であっても、テキストに変換することができれば、発話内容を容易に理解できることが期待できる。そのためには、ノンネイティブ話者向けの音声認識の高度化が必要となる。
【0004】
【0005】
近年の音声認識システムで用いられている音響モデルは、Deep Neural Network(Convolutional Neural NetworkおよびRecurrent Neural Networkなどを含む)を用いた音響モデル(以下、「DNN音響モデル」と称する)である。DNN音響モデルは公知技術であり、代表的なモデル構造および計算方法などの詳細は、例えば、非特許文献1および非特許文献2に記載されている。
【0006】
上述した背景から、ノンネイティブ話者向けの音声認識システムには、ノンネイティブ音声データから学習した音響モデルを用いることが有効である。しかしながら、ノンネイティブ話者向けの音響モデルを構築するために、ノンネイティブ音声データを大量に集めることは困難である。そこで、ノンネイティブ音声データとネイティブ音声データとを併用して音響モデルを学習することがしばしば行われる。例えば、非特許文献3には、ネイティブ音声データとノンネイティブ音声データとを併用してDNN音響モデルを学習する技術が記載されている。
【0007】
背景技術としての非特許文献3に記載されている技術をより詳細に説明する。
【0008】
<DNN音響モデルの学習>
DNN音響モデルの学習における入出力は以下の通りである。
入力:D=ノンネイティブ音声データの集合+ネイティブ音声データの集合
出力:θ=ノンネイティブ向けDNN音響モデルのモデルパラメータ群
音声データの集合Dは、音声データXとその音素列Sとのペア(S,X)が1個以上含まれたデータ集合である。学習では、以下の式(1)に基づき、モデルパラメータ群θが決定される。
【0009】
【数1】
【0010】
<ノンネイティブ話者向けの音声認識>
ノンネイティブ話者向けの音声認識における入出力は以下の通りである。
入力:X=ノンネイティブ音声、モデルパラメータ群θを有するDNN音響モデル
出力:O=音素に対する事後確率系列
出力(事後確率系列O)をもとに音声認識が行われる。事後確率系列Oをもとに音声認識を行う方法は、公知であり、例えば、上述した非特許文献1および非特許文献2などに記載されているため、説明を省略する。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】G. Hinton, L. Deng, D. Yu, G. Dahl, A. rahman Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, B. Kingsbury, and T. Sainath, “Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups,” IEEE Signal Processing Magazine, pp. 82-97, 2012.
【非特許文献2】G. E. Dahl, D. Yu, L. Deng, and A. Acero, “Context-dependent pretrained deep neural networks for large-vocabulary speech recognition,” IEEE transactions on Audio, Speech and Language Processing, vol. 20, pp. 30-42, 2012.
【非特許文献3】木菱裕志, 中川聖一, “DNN-HMMによる日本人英語音声の認識", 日本音響学会講演論文集, 2013年
【発明の概要】
【発明が解決しようとする課題】
【0012】
上述した非特許文献3に記載されている技術は、ノンネイティブ音声データおよびネイティブ音声データの両方に対して音声認識性能(音素識別性能)が最大になるように学習したモデルパラメータ群を用いる技術である。そのため、非特許文献3に記載されている技術では、音声認識対象とするノンネイティブ音声の発音が、ネイティブ音声の発音と近い場合には、高い音声認識性能を得ることができる。一方、非特許文献3に記載されている技術では、音声認識対象とするノンネイティブ音声の発音が、ネイティブ音声の発音と大きく異なる場合には、ノンネイティブ音声に対する音声認識性能が低くなってしまうという課題がある。
【0013】
例えば、日本人が英語で発話したノンネイティブ音声を音声認識対象とする場合、英語を十分に勉強し、ネイティブに近い発音が可能な話者によるノンネイティブ音声であれば、非特許文献3に記載されている技術により高い音声認識性能を実現することができる。一方、英語を勉強したばかりで日本語の音素をつないだような発音の話者によるノンネイティブ音声の場合、非特許文献3に記載されている技術では、高い音声認識性能を実現することができない。
【0014】
なお、非特許文献3に記載されている技術では、ノンネイティブ話者の母国語の音声データを音響モデルの学習に活用することができない。例えば、日本人が話す英語向けの音響モデルを構築する場合に、非特許文献3に記載されている技術では、日本人が話す日本語の音声データを活用することができない。これは、ノンネイティブ話者の母国語の音声データに含まれる音素集合と、音声認識の対象としている言語の音素集合とが異なるため、ノンネイティブ話者の母国語の音声データが、音響モデルの学習データとして適合していないからである。
【0015】
上記のような問題点に鑑みてなされた本発明の目的は、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる学習装置、音声認識装置、学習方法、音声認識方法およびプログラムを提供することにある。
【課題を解決するための手段】
【0016】
上記課題を解決するため、本発明に係る学習装置は、入力音声の音声認識に用いられるパラメータを学習する学習装置であって、前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第1のモデルパラメータ群学習部と、前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習する第2のモデルパラメータ群学習部と、前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習する第3のモデルパラメータ群学習部と、を備える。
【0017】
また、上記課題を解決するため、本発明に係る音声認識装置は、上記の学習装置により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置であって、前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換する第1の音韻気付き特徴量抽出部と、前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換する第2の音韻気付き特徴量抽出部と、前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成する音韻認識部と、前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力する音声テキスト変換部と、を備える。
【0018】
また、上記課題を解決するため、本発明に係る学習方法は、入力音声の音声認識に用いられるパラメータを学習する学習装置における学習方法であって、前記入力音声を、第1の言語において音素を識別するための情報を含む特徴量の系列である第1の言語向け音韻気付き特徴量系列に変換するための第1のモデルパラメータ群を、前記第1の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、前記入力音声を、第2の言語において音素を識別するための情報を含む特徴量の系列である第2の言語向け音韻気付き特徴量系列に変換するための第2のモデルパラメータ群を、前記第2の言語を母国語とする話者が前記第2の言語で発話する音声データの集合を用いて学習するステップと、前記入力音声から前記第1の言語の音素に対する事後確率系列を生成するための第3のモデルパラメータ群を、前記第1のモデルパラメータ群、前記第2のモデルパラメータ群、および、前記第2の言語を母国語とする話者が前記第1の言語で発話する音声データの集合を用いて学習するステップと、を含む。
【0019】
また、上記課題を解決するため、本発明に係る音声認識方法は、請求項3に記載の学習方法により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換するステップと、前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換するステップと、前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含む。
【0020】
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の学習装置として機能させる。
【0021】
また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の音声認識装置として機能させる。
【発明の効果】
【0022】
本発明に係る学習装置、音声認識装置、学習方法、音声認識方法およびプログラムによれば、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。
【図面の簡単な説明】
【0023】
図1】本発明の一実施形態に係る音声認識装置の構成例を示す図である。
図2】本発明の一実施形態に係る学習装置の構成例を示す図である。
図3図2に示す第1のモデルパラメータ群学習部によるモデルパラメータ群の学習について説明するための図である。
図4図1に示す音声認識装置における音声認識方法について説明するためのフローチャートである。
図5図2に示す学習装置における学習方法について説明するためのフローチャートである。
【発明を実施するための形態】
【0024】
以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。
【0025】
図1は、本発明の一実施形態に係る音声認識装置10の構成例を示す図である。本実施形態に係る音声認識装置10は、音声認識対象の言語についてのノンネイティブ話者が発話した音声を入力音声とし、その入力音声に対する音声認識結果のテキストを出力するものである。
【0026】
以下では、2つの言語(言語1、言語2)と、3つのデータ集合(データ集合A、データ集合B、データ集合C)を定義する。
【0027】
第1の言語としての言語1は、ノンネイティブ話者が発話する音声認識対象の言語である。例えば、日本人が英語で発話する音声の音声認識を行う例では、言語1は英語である。第2の言語としての言語2は、音声認識対象の言語についてのノンネイティブ話者の母国語である。上述した、日本人が英語で発話する音声の音声認識を行う例では、言語2は日本語である。
【0028】
データ集合Aは、言語1を母国語とする話者が言語1で発話する音声データの集合である。データ集合Bは、言語2を母国語とする話者が言語2で発話する音声データの集合である。データ集合Cは、言語2を母国語とする話者が言語1で発話する音声データの集合である。すなわち、データ集合Cは、ノンネイティブ音声データの集合である。
【0029】
図1に示す音声認識装置10は、言語1向け音韻気付き特徴量抽出部11と、言語2向け音韻気付き特徴量抽出部12と、ノンネイティブ話者向け音韻識別部13と、音声テキスト変換部14とを備える。
【0030】
第1の音韻気付き特徴量抽出部としての言語1向け音韻気付き特徴量抽出部11は、第1のモデルパラメータ群としてのモデルパラメータ群θを用いて、入力音声の音響特徴量系列Xを、第1の言語向け音韻気付き特徴量系列としての言語1向け音韻気付き特徴量系列Aに変換する。
【0031】
第2の音韻気付き特徴量抽出部としての言語2向け音韻気付き特徴量抽出部12は、第2のモデルパラメータ群としてのモデルパラメータ群θを用いて、入力音声の音響特徴量系列Xを、第2の言語向け音韻気付き特徴量系列としての言語2向け音韻気付き特徴量系列Bに変換する。
【0032】
音韻認識部としてのノンネイティブ話者向け音韻識別部13は、第3のモデルパラメータ群としてのモデルパラメータ群θを用いて、入力音声の音響特徴量系列Xと、言語1向け音韻気付き特徴量系列Aと、言語2向け音韻気付き特徴量系列Bとから、言語1の音素に対する事後確率系列Oを生成する。
【0033】
音声テキスト変換部14は、事後確率系列Oに基づき音声認識を行い、音声認識結果のテキストを出力する。
【0034】
なお、入力音声は、音響特徴量系列Xに変換して、音声認識装置10に入力される。音響特徴量としては任意のものを利用することができ、例えば、メル周波数ケプストラム係数、メル周波数ケプストラム係数に対して、正規化などの変換をしたもの、あるいは、時間的に前後する複数個の特徴量を結合したものなど、任意のものを利用することができる。音響特徴量は、短時間のインターバル(例えば、0.01秒ごと)で抽出されるものであり、音声は、音響特徴量の系列(音響特徴量系列)として扱うことできる。以下では、音響特徴量系列X=(x,...,x)と表す。なお、xは、tフレーム目の音響特徴量である。
【0035】
また、音韻気付き特徴量とは、音素を識別するための情報を含む特徴量である。具体的には、音韻気付き特徴量は、音素を弁別するように学習されたモデルを用いることで抽出できる特徴量である。
【0036】
以下では、音声認識装置10が備える各部の動作について、より詳細に説明する。まず、言語1向け音韻気付き特徴量抽出部11について説明する。
【0037】
言語1向け音韻気付き特徴量抽出部11は、入力音声の音響特徴量系列X=(x,...,x)およびモデルパラメータ群θを入力とし、言語1向け音韻気付き特徴量系列A=(a,...,a)を出力する。 言語1向け音韻気付き特徴量抽出部11は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列X=(x,...,x)を、言語1向け音韻気付き特徴量系列A=(a,...,a)に変換する。音響特徴量系列Xおよび言語1向け音韻気付き特徴量系列Aはともに、長さがTである。言語1向け音韻気付き特徴量抽出部11は、以下の式(2)に従い、音響特徴量系列Xを言語1向け音韻気付き特徴量系列Aに変換する。
【0038】
【数2】
【0039】
DNN()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、3層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θは、後述する学習により推定されるモデルパラメータ群である。
【0040】
次に、言語2向け音韻気付き特徴量抽出部12について説明する。
【0041】
言語2向け音韻気付き特徴量抽出部12は、入力音声の音響特徴量系列X=(x,...,x)およびモデルパラメータ群θを入力とし、言語2向け音韻気付き特徴量系列B=(b,...,b)を出力する。言語2向け音韻気付き特徴量抽出部12は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列X=(x,...,x)を、言語2向け音韻気付き特徴量系列B=(b,...,b)に変換する。ここで、音響特徴量系列Xおよび言語2向け音韻気付き特徴量系列Bはともに、長さがTである。言語2向け音韻気付き特徴量抽出部12は、以下の式(3)に従い、音響特徴量系列Xを言語2向け音韻気付き特徴量系列Bに変換する。
【0042】
【数3】
【0043】
DNN()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、3層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θは、後述する学習により推定されるモデルパラメータ群である。
【0044】
次に、ノンネイティブ話者向け音韻識別部13について説明する。
【0045】
ノンネイティブ話者向け音韻識別部13は、入力音声の音響特徴量系列X=(x,...,x)、言語1向け音韻気付き特徴量系列A=(a,...,a)、言語2向け音韻気付き特徴量系列B=(b,...,b)およびモデルパラメータ群θを入力とし、音素に対する事後確率系列O=(o,...,o)を出力する。ノンネイティブ話者向け音韻識別部13は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列X=(x,...,x)と、言語1向け音韻気付き特徴量系列A=(a,...,a)と、言語2向け音韻気付き特徴量系列B=(b,...,b)とから、音素に対する事後確率系列O=(o,...,o)を生成する。
【0046】
具体的には、ノンネイティブ話者向け音韻識別部13はまず、入力された各特徴量系列から新たなベクトル系列C=(c,...,c)を作成する。ここで、ノンネイティブ話者向け音韻識別部13は、cを以下の式(4)に従い生成する。
【0047】
【数4】
【0048】
式(4)において、Tは転置記号である。つまり、cはxを並べたベクトルとして表される。
【0049】
ノンネイティブ話者向け音韻識別部13は、以下の式(5)に従い、ベクトル系列Cから音素に対する事後確率系列Oを生成する。
【0050】
【数5】
【0051】
INPUTtoPosteriorgram()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、INPUTtoPosteriorgram()は、5層のニューラルネットワークで、最終層をソフトマックス関数とすることで実現することができる。モデルパラメータ群θは、後述する学習により推定されるモデルパラメータ群である。
【0052】
次に、音声テキスト変換部14について説明する。
【0053】
音声テキスト変換部14は、音素に対する事後確率系列O=(o,...,o)を入力とし、音声認識結果のテキストを出力する。音声テキスト変換部14は、音素に対する事後確率系列O=(o,...,o)に基づき音声認識を行い、音声認識結果のテキストを出力する。音素に対する事後確率系列Oに基づく音声認識の方法は公知であり、例えば、上述した非特許文献1および非特許文献2に記載されているため、説明を省略する。
【0054】
図2は、本発明の一実施形態に係る学習装置20の構成例を示す図である。本実施形態に係る学習装置20は、図1を参照して説明した音声認識装置10において用いられるモデルパラメータ群θ〜θを学習するものである。
【0055】
図2に示す学習装置20は、第1のモデルパラメータ群学習部21と、第2のモデルパラメータ群学習部22と、第3のモデルパラメータ群学習部23とを備える。
【0056】
第1のモデルパラメータ群学習部21は、データ集合Aが入力され、上述した言語1向け音韻気付き特徴量抽出部11で用いられるモデルパラメータ群θを学習する。すなわち、第1のモデルパラメータ群学習部21は、入力音声を、言語1向け音韻気付き特徴量系列A(言語1において音素を識別するために情報を含む特徴量の系列)に変換するためのモデルパラメータ群θを、データ集合Aから学習する。
【0057】
第2のモデルパラメータ群学習部22は、データ集合Bが入力され、上述した言語2向け音韻気付き特徴量抽出部12で用いられるモデルパラメータ群θを学習する。すなわち、第2のモデルパラメータ群学習部22は、入力音声を、言語2向け音韻気付き特徴量系列B(言語2において音素を識別するために情報を含む特徴量の系列)に変換するためのモデルパラメータ群θを、データ集合Bから学習する。
【0058】
【0059】
以下では、学習装置20が備える各部の動作について、より詳細に説明する。まず、第1のモデルパラメータ群学習部21について説明する。
【0060】
第1のモデルパラメータ群学習部21は、データ集合A:Dを入力とし、モデルパラメータ群θを出力する。第1のモデルパラメータ群学習部21は、データ集合A(データ集合D)から、モデルパラメータ群θを学習する。第1のモデルパラメータ群学習部21は、言語1向け音韻気付き特徴量系列A=(a,...,a)を事後確率系列O=(o,...,o)に変換するネットワークを連結したネットワークを構成する。このようなネットワークの具体的な構造を図3に示す。
【0061】
図3に示すネットワーク構造は、以下の式(6)で表される。
【0062】
【数6】
【0063】
【0064】
【数7】
【0065】
なお、以下では、記号^が付されたθは、右辺を満たす(右辺により推定された)θであることを意味する。また、ot,sはoにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(7)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
【0066】
次に、第2のモデルパラメータ群学習部22について説明する。
【0067】
第2のモデルパラメータ群学習部22は、データ集合B:Dを入力とし、モデルパラメータ群θを出力する。第2のモデルパラメータ群学習部22は、データ集合B(データ集合D)から、モデルパラメータ群θを学習する。第2のモデルパラメータ群学習部22は、言語2向け音韻気付き特徴量系列B=(b,...,b)を事後確率系列O=(o,...,o)に変換するネットワークを連結したネットワークを構成する。このようなネットワーク構造は、以下の式(8)で表される。
【0068】
【数8】
【0069】
【0070】
【数9】
【0071】
ここで、ot,sはoにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(9)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
【0072】
次に、第3のモデルパラメータ群学習部23について説明する。
【0073】
第3のモデルパラメータ群学習部23は、データ集合C:D、モデルパラメータ群θおよびモデルパラメータ群θが入力され、モデルパラメータ群θを出力する。第3のモデルパラメータ群学習部23は、モデルパラメータ群θおよびモデルパラメータ群θを用いて、データ集合C(データ集合D)からモデルパラメータ群θを学習する。具体的には、第3のモデルパラメータ群学習部23はまず、事前にデータ集合Dにおける音声データXについて、決定されたモデルパラメータ群θおよびモデルパラメータ群θを用いて、ベクトル系列Cに変換する。第3のモデルパラメータ群学習部23は、以下の式(10)に従い、ベクトル系列Cに変換する。
【0074】
【数10】
【0075】
第3のモデルパラメータ群学習部23は、作成したベクトル系列Cを用いて、モデルパラメータ群θを学習する。第3のモデルパラメータ群学習部23は、以下の式(11)に従い、モデルパラメータ群θを学習する。
【0076】
【数11】
【0077】
ここで、ot,sはoにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(11)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
【0078】
なお、本実施形態においては、音声認識装置10と学習装置20とを分けて記載しているが、これらの装置は一体的に形成されていてもよい。したがって、音声認識装置10が、学習装置20が備える各部を備えていてもよい。また、学習装置20が、音声認識装置10が備える各部を備えていてもよい。
【0079】
次に、本実施形態に係る音声認識装置10における音声認識方法について、図4に示すフローチャートを参照して説明する。
【0080】
言語1向け音韻気付き特徴量抽出部11は、モデルパラメータ群θを用いて、入力音声の音響特徴系列Xを言語1向け音韻気付き特徴量系列A=(a,...,a)に変換する(ステップS11)。具体的には、言語1向け音韻気付き特徴量抽出部11は、上述した式(2)に従い、入力音声の音響特徴系列Xを言語1向け音韻気付き特徴量系列A=(a,...,a)に変換する。
【0081】
言語2向け音韻気付き特徴量抽出部12は、モデルパラメータ群θを用いて、入力音声の音響特徴系列Xを言語2向け音韻気付き特徴量系列B=(b,...,b)に変換する(ステップS12)。具体的には、言語2向け音韻気付き特徴量抽出部12は、上述した式(3)に従い、入力音声の音響特徴系列Xを言語2向け音韻気付き特徴量系列B=(b,...,b)に変換する。
【0082】
なお、ステップS11の処理とステップS12の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。
【0083】
ノンネイティブ話者向け音韻識別部13は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列X=(x,...,x)と、言語1向け音韻気付き特徴量系列A=(a,...,a)と、言語2向け音韻気付き特徴量系列B=(b,...,b)とから、音素に対する事後確率系列O=(o,...,o)を生成する(ステップS13)。具体的には、ノンネイティブ話者向け音韻識別部13は、上述した式(5)に従い、事後確率系列O=(o,...,o)を生成する。
【0084】
音声テキスト変換部14は、事後確率系列O=(o,...,o)に基づき音声認識を行い、音声認識結果のテキストを出力する(ステップS14)。
【0085】
次に、本実施形態に係る学習装置20における学習方法について、図5に示すフローチャートを参照して説明する。
【0086】
第1のモデルパラメータ群学習部21は、入力音声を言語1向け音韻気付き特徴量系列Aに変換するためのモデルパラメータ群θを、データ集合D(言語1を母国語とする話者が言語1で発話する音声データの集合)を用いて学習する(ステップS21)。具体的には、第1のモデルパラメータ群学習部21は、上述した式(7)に従い、モデルパラメータ群θを学習する。
【0087】
第2のモデルパラメータ群学習部22は、入力音声を言語2向け音韻気付き特徴量系列Bに変換するためのモデルパラメータ群θを、データ集合D(言語2を母国語とする話者が言語2で発話する音声データの集合)を用いて学習する(ステップS22)。具体的には、第2のモデルパラメータ群学習部22は、上述した式(9)に従い、モデルパラメータ群θを学習する。
【0088】
なお、ステップS21の処理とステップS22の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。
【0089】
第3のモデルパラメータ群学習部23は、入力音声から音素に対する事後確率系列Oを生成するためのモデルパラメータ群θを、モデルパラメータ群θ、モデルパラメータ群θおよびデータ集合D(言語2を母国語とする話者が第1の言語で発話する音声データの集合)を用いて学習する(ステップS23)。具体的には、第3のモデルパラメータ群学習部23は、上述した式(11)に従い、モデルパラメータ群θを学習する。
【0090】
このように本実施形態においては、音声認識装置10は、モデルパラメータ群θを用いて、入力音声の音響特徴量系列Xと、言語1向け音韻気付き特徴量系列Aと、言語2向け音韻気付き特徴量系列Bとから、音素に対する事後確率系列Oを生成する。ここで、モデルパラメータ群θは、言語2を母国語とする話者が言語1で発話する音声データの集合、すなわち、ノンネイティブ音声データの集合から学習されている。そのため、ノンネイティブ音声を入力音声とした場合に、高い音声認識性能を得ることができる。
【0091】
さらに本実施形態においては、モデルパラメータ群θの学習にあたり、言語2を母国語とする話者が言語2で発話する音声データの集合から学習されたモデルパラメータ群θも用いられている。そのため、ノンネイティブ音声の発音が、ネイティブ音声の発音とは大きく異なり、ノンネイティブ話者の母国語に近い発音である場合にも、高い音声認識性能を得ることができる。したがって、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。
【0092】
また、本実施形態においては、モデルパラメータ群θの学習にあたり、言語1を母国語とする話者が言語1で発話する音声データの集合から学習されたモデルパラメータ群θも用いられている。そのため、ネイティブ音声およびネイティブ音声の発音に近い発音のノンネイティブ音声に対しても、高い音声認識性能を得ることができる。
【0093】
以上、音声認識装置10および学習装置20について説明したが、音声認識装置10および学習装置20として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、音声認識装置10および学習装置20の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
【0094】
また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMおよびDVD−ROMなどの記録媒体であってもよい。
【0095】
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
【符号の説明】
【0096】
10 音声認識装置
11 言語1向け音韻気付き特徴量抽出部(第1の音韻気付き特徴量抽出部)
12 言語2向け音韻気付き特徴量抽出部(第2の音韻気付き特徴量抽出部)
13 ノンネイティブ話者向け音韻識別部(音韻認識部)
14 音声テキスト変換部
20 学習装置
21 第1のモデルパラメータ群学習部
22 第2のモデルパラメータ群学習部
23 第2のモデルパラメータ群学習部
図1
図2
図3
図4
図5