【文献】
坂上綾太他,GMMとDNNを組み合わせた遠隔環境下での母国語認識,電子情報通信学会技術研究報告,2014年12月,Vol.114, No.365,pp.123-128
(58)【調査した分野】(Int.Cl.,DB名)
請求項3に記載の学習方法により学習された前記第1から第3のモデルパラメータ群を用いて、前記入力音声の音声認識を行う音声認識装置における音声認識方法であって、
前記第1のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第1の言語向け音韻気付き特徴量系列に変換するステップと、
前記第2のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列を、前記第2の言語向け音韻気付き特徴量系列に変換するステップと、
前記第3のモデルパラメータ群を用いて、前記入力音声の音響特徴量系列と、前記第1の言語向け音韻気付き特徴量系列と、前記第2の言語向け音韻気付き特徴量系列とから前記事後確率系列を生成するステップと、
前記事後確率系列に基づき音声認識を行い、音声認識結果のテキストを出力するステップと、を含むことを特徴とする音声認識方法。
【背景技術】
【0002】
国際化の進展とともに、母国語でない言語を人が話す機会が増えてきている。特に、英語は世界的な共通語として、全世界で人が英語を話す様々な場面が見られる。以下では、ある言語を対象とした場合に、その言語を母国語とする話者をネイティブ話者と称し、その言語を母国語としない話者をノンネイティブ話者と称する。また、ネイティブ話者がその言語で発話した音声データをネイティブ音声データと称し、ノンネイティブ話者がその言語で発話した音声データをノンネイティブ音声データと称する。
【0003】
ノンネイティブ話者が登場する具体的な場面として、国際会議などが挙げられる。国際会議では、英語についてのノンネイティブ話者同士が英語を介してコミュニケーションをとることが一般的になってきている。しかしながら、ノンネイティブ話者の発音は、ネイティブ話者の発音とは大きく異なるため、コミュニケーションが困難となることがある。特に、母国語が異なるノンネイティブ話者同士が会話する際にコミュニケーションが困難となることがある。例えば、インド人は日本人が話す英語を聞きとることが難しく、日本人はインド人が話す英語を聞きとることが難しいことなどが知られている。そこで、ある言語についてのノンネイティブ話者同士がコミュニケーションをとる場合において、音声認識を用いることでコミュニケーションの円滑化を図ることが期待される。すなわち、音声のままでは聞きとることが困難であっても、テキストに変換することができれば、発話内容を容易に理解できることが期待できる。そのためには、ノンネイティブ話者向けの音声認識の高度化が必要となる。
【0004】
【0005】
近年の音声認識システムで用いられている音響モデルは、Deep Neural Network(Convolutional Neural NetworkおよびRecurrent Neural Networkなどを含む)を用いた音響モデル(以下、「DNN音響モデル」と称する)である。DNN音響モデルは公知技術であり、代表的なモデル構造および計算方法などの詳細は、例えば、非特許文献1および非特許文献2に記載されている。
【0006】
上述した背景から、ノンネイティブ話者向けの音声認識システムには、ノンネイティブ音声データから学習した音響モデルを用いることが有効である。しかしながら、ノンネイティブ話者向けの音響モデルを構築するために、ノンネイティブ音声データを大量に集めることは困難である。そこで、ノンネイティブ音声データとネイティブ音声データとを併用して音響モデルを学習することがしばしば行われる。例えば、非特許文献3には、ネイティブ音声データとノンネイティブ音声データとを併用してDNN音響モデルを学習する技術が記載されている。
【0007】
背景技術としての非特許文献3に記載されている技術をより詳細に説明する。
【0008】
<DNN音響モデルの学習>
DNN音響モデルの学習における入出力は以下の通りである。
入力:D=ノンネイティブ音声データの集合+ネイティブ音声データの集合
出力:θ=ノンネイティブ向けDNN音響モデルのモデルパラメータ群
音声データの集合Dは、音声データXとその音素列Sとのペア(S,X)が1個以上含まれたデータ集合である。学習では、以下の式(1)に基づき、モデルパラメータ群θが決定される。
【0009】
【数1】
【0010】
<ノンネイティブ話者向けの音声認識>
ノンネイティブ話者向けの音声認識における入出力は以下の通りである。
入力:X=ノンネイティブ音声、モデルパラメータ群θを有するDNN音響モデル
出力:O=音素に対する事後確率系列
出力(事後確率系列O)をもとに音声認識が行われる。事後確率系列Oをもとに音声認識を行う方法は、公知であり、例えば、上述した非特許文献1および非特許文献2などに記載されているため、説明を省略する。
【発明を実施するための形態】
【0024】
以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。
【0025】
図1は、本発明の一実施形態に係る音声認識装置10の構成例を示す図である。本実施形態に係る音声認識装置10は、音声認識対象の言語についてのノンネイティブ話者が発話した音声を入力音声とし、その入力音声に対する音声認識結果のテキストを出力するものである。
【0026】
以下では、2つの言語(言語1、言語2)と、3つのデータ集合(データ集合A、データ集合B、データ集合C)を定義する。
【0027】
第1の言語としての言語1は、ノンネイティブ話者が発話する音声認識対象の言語である。例えば、日本人が英語で発話する音声の音声認識を行う例では、言語1は英語である。第2の言語としての言語2は、音声認識対象の言語についてのノンネイティブ話者の母国語である。上述した、日本人が英語で発話する音声の音声認識を行う例では、言語2は日本語である。
【0028】
データ集合Aは、言語1を母国語とする話者が言語1で発話する音声データの集合である。データ集合Bは、言語2を母国語とする話者が言語2で発話する音声データの集合である。データ集合Cは、言語2を母国語とする話者が言語1で発話する音声データの集合である。すなわち、データ集合Cは、ノンネイティブ音声データの集合である。
【0029】
図1に示す音声認識装置10は、言語1向け音韻気付き特徴量抽出部11と、言語2向け音韻気付き特徴量抽出部12と、ノンネイティブ話者向け音韻識別部13と、音声テキスト変換部14とを備える。
【0030】
第1の音韻気付き特徴量抽出部としての言語1向け音韻気付き特徴量抽出部11は、第1のモデルパラメータ群としてのモデルパラメータ群θ
1を用いて、入力音声の音響特徴量系列Xを、第1の言語向け音韻気付き特徴量系列としての言語1向け音韻気付き特徴量系列Aに変換する。
【0031】
第2の音韻気付き特徴量抽出部としての言語2向け音韻気付き特徴量抽出部12は、第2のモデルパラメータ群としてのモデルパラメータ群θ
2を用いて、入力音声の音響特徴量系列Xを、第2の言語向け音韻気付き特徴量系列としての言語2向け音韻気付き特徴量系列Bに変換する。
【0032】
音韻認識部としてのノンネイティブ話者向け音韻識別部13は、第3のモデルパラメータ群としてのモデルパラメータ群θ
3を用いて、入力音声の音響特徴量系列Xと、言語1向け音韻気付き特徴量系列Aと、言語2向け音韻気付き特徴量系列Bとから、言語1の音素に対する事後確率系列Oを生成する。
【0033】
音声テキスト変換部14は、事後確率系列Oに基づき音声認識を行い、音声認識結果のテキストを出力する。
【0034】
なお、入力音声は、音響特徴量系列Xに変換して、音声認識装置10に入力される。音響特徴量としては任意のものを利用することができ、例えば、メル周波数ケプストラム係数、メル周波数ケプストラム係数に対して、正規化などの変換をしたもの、あるいは、時間的に前後する複数個の特徴量を結合したものなど、任意のものを利用することができる。音響特徴量は、短時間のインターバル(例えば、0.01秒ごと)で抽出されるものであり、音声は、音響特徴量の系列(音響特徴量系列)として扱うことできる。以下では、音響特徴量系列X=(x
1,...,x
T)と表す。なお、x
tは、tフレーム目の音響特徴量である。
【0035】
また、音韻気付き特徴量とは、音素を識別するための情報を含む特徴量である。具体的には、音韻気付き特徴量は、音素を弁別するように学習されたモデルを用いることで抽出できる特徴量である。
【0036】
以下では、音声認識装置10が備える各部の動作について、より詳細に説明する。まず、言語1向け音韻気付き特徴量抽出部11について説明する。
【0037】
言語1向け音韻気付き特徴量抽出部11は、入力音声の音響特徴量系列X=(x
1,...,x
T)およびモデルパラメータ群θ
1を入力とし、言語1向け音韻気付き特徴量系列A=(a
1,...,a
T)を出力する。 言語1向け音韻気付き特徴量抽出部11は、モデルパラメータ群θ
1を用いて、入力音声の音響特徴量系列X=(x
1,...,x
T)を、言語1向け音韻気付き特徴量系列A=(a
1,...,a
T)に変換する。音響特徴量系列Xおよび言語1向け音韻気付き特徴量系列Aはともに、長さがTである。言語1向け音韻気付き特徴量抽出部11は、以下の式(2)に従い、音響特徴量系列Xを言語1向け音韻気付き特徴量系列Aに変換する。
【0039】
DNN()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、3層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θ
1は、後述する学習により推定されるモデルパラメータ群である。
【0040】
次に、言語2向け音韻気付き特徴量抽出部12について説明する。
【0041】
言語2向け音韻気付き特徴量抽出部12は、入力音声の音響特徴量系列X=(x
1,...,x
T)およびモデルパラメータ群θ
2を入力とし、言語2向け音韻気付き特徴量系列B=(b
1,...,b
T)を出力する。言語2向け音韻気付き特徴量抽出部12は、モデルパラメータ群θ
2を用いて、入力音声の音響特徴量系列X=(x
1,...,x
T)を、言語2向け音韻気付き特徴量系列B=(b
1,...,b
T)に変換する。ここで、音響特徴量系列Xおよび言語2向け音韻気付き特徴量系列Bはともに、長さがTである。言語2向け音韻気付き特徴量抽出部12は、以下の式(3)に従い、音響特徴量系列Xを言語2向け音韻気付き特徴量系列Bに変換する。
【0043】
DNN()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、DNN()は、3層のニューラルネットワークを用いて実現することができる。モデルパラメータ群θ
2は、後述する学習により推定されるモデルパラメータ群である。
【0044】
次に、ノンネイティブ話者向け音韻識別部13について説明する。
【0045】
ノンネイティブ話者向け音韻識別部13は、入力音声の音響特徴量系列X=(x
1,...,x
T)、言語1向け音韻気付き特徴量系列A=(a
1,...,a
T)、言語2向け音韻気付き特徴量系列B=(b
1,...,b
T)およびモデルパラメータ群θ
3を入力とし、音素に対する事後確率系列O=(o
1,...,o
T)を出力する。ノンネイティブ話者向け音韻識別部13は、モデルパラメータ群θ
3を用いて、入力音声の音響特徴量系列X=(x
1,...,x
T)と、言語1向け音韻気付き特徴量系列A=(a
1,...,a
T)と、言語2向け音韻気付き特徴量系列B=(b
1,...,b
T)とから、音素に対する事後確率系列O=(o
1,...,o
T)を生成する。
【0046】
具体的には、ノンネイティブ話者向け音韻識別部13はまず、入力された各特徴量系列から新たなベクトル系列C=(c
1,...,c
T)を作成する。ここで、ノンネイティブ話者向け音韻識別部13は、c
tを以下の式(4)に従い生成する。
【0048】
式(4)において、Tは転置記号である。つまり、c
tはx
ta
tb
tを並べたベクトルとして表される。
【0049】
ノンネイティブ話者向け音韻識別部13は、以下の式(5)に従い、ベクトル系列Cから音素に対する事後確率系列Oを生成する。
【0051】
INPUTtoPosteriorgram()は、上述したDNNを用いた非線形変換関数であり、様々な構成を用いることが可能である。例えば、INPUTtoPosteriorgram()は、5層のニューラルネットワークで、最終層をソフトマックス関数とすることで実現することができる。モデルパラメータ群θ
3は、後述する学習により推定されるモデルパラメータ群である。
【0052】
次に、音声テキスト変換部14について説明する。
【0053】
音声テキスト変換部14は、音素に対する事後確率系列O=(o
1,...,o
T)を入力とし、音声認識結果のテキストを出力する。音声テキスト変換部14は、音素に対する事後確率系列O=(o
1,...,o
T)に基づき音声認識を行い、音声認識結果のテキストを出力する。音素に対する事後確率系列Oに基づく音声認識の方法は公知であり、例えば、上述した非特許文献1および非特許文献2に記載されているため、説明を省略する。
【0054】
図2は、本発明の一実施形態に係る学習装置20の構成例を示す図である。本実施形態に係る学習装置20は、
図1を参照して説明した音声認識装置10において用いられるモデルパラメータ群θ
1〜θ
3を学習するものである。
【0055】
図2に示す学習装置20は、第1のモデルパラメータ群学習部21と、第2のモデルパラメータ群学習部22と、第3のモデルパラメータ群学習部23とを備える。
【0056】
第1のモデルパラメータ群学習部21は、データ集合Aが入力され、上述した言語1向け音韻気付き特徴量抽出部11で用いられるモデルパラメータ群θ
1を学習する。すなわち、第1のモデルパラメータ群学習部21は、入力音声を、言語1向け音韻気付き特徴量系列A(言語1において音素を識別するために情報を含む特徴量の系列)に変換するためのモデルパラメータ群θ
1を、データ集合Aから学習する。
【0057】
第2のモデルパラメータ群学習部22は、データ集合Bが入力され、上述した言語2向け音韻気付き特徴量抽出部12で用いられるモデルパラメータ群θ
2を学習する。すなわち、第2のモデルパラメータ群学習部22は、入力音声を、言語2向け音韻気付き特徴量系列B(言語2において音素を識別するために情報を含む特徴量の系列)に変換するためのモデルパラメータ群θ
2を、データ集合Bから学習する。
【0059】
以下では、学習装置20が備える各部の動作について、より詳細に説明する。まず、第1のモデルパラメータ群学習部21について説明する。
【0060】
第1のモデルパラメータ群学習部21は、データ集合A:D
Aを入力とし、モデルパラメータ群θ
1を出力する。第1のモデルパラメータ群学習部21は、データ集合A(データ集合D
A)から、モデルパラメータ群θ
1を学習する。第1のモデルパラメータ群学習部21は、言語1向け音韻気付き特徴量系列A=(a
1,...,a
T)を事後確率系列O=(o
1,...,o
T)に変換するネットワークを連結したネットワークを構成する。このようなネットワークの具体的な構造を
図3に示す。
【0061】
図3に示すネットワーク構造は、以下の式(6)で表される。
【0065】
なお、以下では、記号^が付されたθは、右辺を満たす(右辺により推定された)θであることを意味する。また、o
t,sはo
tにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(7)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
【0066】
次に、第2のモデルパラメータ群学習部22について説明する。
【0067】
第2のモデルパラメータ群学習部22は、データ集合B:D
Bを入力とし、モデルパラメータ群θ
2を出力する。第2のモデルパラメータ群学習部22は、データ集合B(データ集合D
B)から、モデルパラメータ群θ
2を学習する。第2のモデルパラメータ群学習部22は、言語2向け音韻気付き特徴量系列B=(b
1,...,b
T)を事後確率系列O=(o
1,...,o
T)に変換するネットワークを連結したネットワークを構成する。このようなネットワーク構造は、以下の式(8)で表される。
【0071】
ここで、o
t,sはo
tにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(9)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
【0072】
次に、第3のモデルパラメータ群学習部23について説明する。
【0073】
第3のモデルパラメータ群学習部23は、データ集合C:D
C、モデルパラメータ群θ
1およびモデルパラメータ群θ
2が入力され、モデルパラメータ群θ
3を出力する。第3のモデルパラメータ群学習部23は、モデルパラメータ群θ
1およびモデルパラメータ群θ
2を用いて、データ集合C(データ集合D
C)からモデルパラメータ群θ
3を学習する。具体的には、第3のモデルパラメータ群学習部23はまず、事前にデータ集合D
Cにおける音声データXについて、決定されたモデルパラメータ群θ
1^およびモデルパラメータ群θ
2^を用いて、ベクトル系列Cに変換する。第3のモデルパラメータ群学習部23は、以下の式(10)に従い、ベクトル系列Cに変換する。
【0075】
第3のモデルパラメータ群学習部23は、作成したベクトル系列Cを用いて、モデルパラメータ群θ
3を学習する。第3のモデルパラメータ群学習部23は、以下の式(11)に従い、モデルパラメータ群θ
3を学習する。
【0077】
ここで、o
t,sはo
tにおいて音素列Sにおけるt番目の音素に対応する次元の値を示す。式(11)に従う学習は、例えば、公知の方法であるバックプロパゲーション法などを利用することができる。
【0078】
なお、本実施形態においては、音声認識装置10と学習装置20とを分けて記載しているが、これらの装置は一体的に形成されていてもよい。したがって、音声認識装置10が、学習装置20が備える各部を備えていてもよい。また、学習装置20が、音声認識装置10が備える各部を備えていてもよい。
【0079】
次に、本実施形態に係る音声認識装置10における音声認識方法について、
図4に示すフローチャートを参照して説明する。
【0080】
言語1向け音韻気付き特徴量抽出部11は、モデルパラメータ群θ
1を用いて、入力音声の音響特徴系列Xを言語1向け音韻気付き特徴量系列A=(a
1,...,a
T)に変換する(ステップS11)。具体的には、言語1向け音韻気付き特徴量抽出部11は、上述した式(2)に従い、入力音声の音響特徴系列Xを言語1向け音韻気付き特徴量系列A=(a
1,...,a
T)に変換する。
【0081】
言語2向け音韻気付き特徴量抽出部12は、モデルパラメータ群θ
2を用いて、入力音声の音響特徴系列Xを言語2向け音韻気付き特徴量系列B=(b
1,...,b
T)に変換する(ステップS12)。具体的には、言語2向け音韻気付き特徴量抽出部12は、上述した式(3)に従い、入力音声の音響特徴系列Xを言語2向け音韻気付き特徴量系列B=(b
1,...,b
T)に変換する。
【0082】
なお、ステップS11の処理とステップS12の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。
【0083】
ノンネイティブ話者向け音韻識別部13は、モデルパラメータ群θ
3を用いて、入力音声の音響特徴量系列X=(x
1,...,x
T)と、言語1向け音韻気付き特徴量系列A=(a
1,...,a
T)と、言語2向け音韻気付き特徴量系列B=(b
1,...,b
T)とから、音素に対する事後確率系列O=(o
1,...,o
T)を生成する(ステップS13)。具体的には、ノンネイティブ話者向け音韻識別部13は、上述した式(5)に従い、事後確率系列O=(o
1,...,o
T)を生成する。
【0084】
音声テキスト変換部14は、事後確率系列O=(o
1,...,o
T)に基づき音声認識を行い、音声認識結果のテキストを出力する(ステップS14)。
【0085】
次に、本実施形態に係る学習装置20における学習方法について、
図5に示すフローチャートを参照して説明する。
【0086】
第1のモデルパラメータ群学習部21は、入力音声を言語1向け音韻気付き特徴量系列Aに変換するためのモデルパラメータ群θ
1を、データ集合D
A(言語1を母国語とする話者が言語1で発話する音声データの集合)を用いて学習する(ステップS21)。具体的には、第1のモデルパラメータ群学習部21は、上述した式(7)に従い、モデルパラメータ群θ
1を学習する。
【0087】
第2のモデルパラメータ群学習部22は、入力音声を言語2向け音韻気付き特徴量系列Bに変換するためのモデルパラメータ群θ
2を、データ集合D
B(言語2を母国語とする話者が言語2で発話する音声データの集合)を用いて学習する(ステップS22)。具体的には、第2のモデルパラメータ群学習部22は、上述した式(9)に従い、モデルパラメータ群θ
2を学習する。
【0088】
なお、ステップS21の処理とステップS22の処理とは、いずれかが先に行われてもよいし、並行して行われてもよい。
【0089】
第3のモデルパラメータ群学習部23は、入力音声から音素に対する事後確率系列Oを生成するためのモデルパラメータ群θ
3を、モデルパラメータ群θ
1、モデルパラメータ群θ
2およびデータ集合D
C(言語2を母国語とする話者が第1の言語で発話する音声データの集合)を用いて学習する(ステップS23)。具体的には、第3のモデルパラメータ群学習部23は、上述した式(11)に従い、モデルパラメータ群θ
3を学習する。
【0090】
このように本実施形態においては、音声認識装置10は、モデルパラメータ群θ
3を用いて、入力音声の音響特徴量系列Xと、言語1向け音韻気付き特徴量系列Aと、言語2向け音韻気付き特徴量系列Bとから、音素に対する事後確率系列Oを生成する。ここで、モデルパラメータ群θ
3は、言語2を母国語とする話者が言語1で発話する音声データの集合、すなわち、ノンネイティブ音声データの集合から学習されている。そのため、ノンネイティブ音声を入力音声とした場合に、高い音声認識性能を得ることができる。
【0091】
さらに本実施形態においては、モデルパラメータ群θ
3の学習にあたり、言語2を母国語とする話者が言語2で発話する音声データの集合から学習されたモデルパラメータ群θ
2も用いられている。そのため、ノンネイティブ音声の発音が、ネイティブ音声の発音とは大きく異なり、ノンネイティブ話者の母国語に近い発音である場合にも、高い音声認識性能を得ることができる。したがって、音声認識対象とするノンネイティブ音声データの発音が、ネイティブ音声データの発音と大きく異なる場合にも、音声認識性能の向上を図ることができる。
【0092】
また、本実施形態においては、モデルパラメータ群θ
3の学習にあたり、言語1を母国語とする話者が言語1で発話する音声データの集合から学習されたモデルパラメータ群θ
2も用いられている。そのため、ネイティブ音声およびネイティブ音声の発音に近い発音のノンネイティブ音声に対しても、高い音声認識性能を得ることができる。
【0093】
以上、音声認識装置10および学習装置20について説明したが、音声認識装置10および学習装置20として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、音声認識装置10および学習装置20の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
【0094】
また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMおよびDVD−ROMなどの記録媒体であってもよい。
【0095】
上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。