【文献】
Keiichiro OURA,"List of modifications made in HTS (for version 2.2)",HMM-based Speech Synthesis System (HTS) - PukiWiki [online],2011年 7月,pp.1-15,[平成27年2月16日検索],インターネット,URL,http://hts.sp.nitech.ac.jp/archives/2.2/HTS_Document.pdf
(58)【調査した分野】(Int.Cl.,DB名)
請求項1又は請求項2に記載の,音声合成用の隠れマルコフモデル学習装置により学習が行なわれた隠れマルコフモデルを用い,入力されるテキストに対する音声を合成するための音声合成装置であって,
前記テキストに対しテキスト解析を行なうことにより,音素ラベル列を出力するためのテキスト解析手段と,
前記テキスト解析手段により出力される音素ラベル列を用い,各音素ラベルについて,前記決定木を用いて隠れマルコフモデルを選択し,当該隠れマルコフモデルに基づいて,基本周波数情報と前記角度量とを生成するためのパラメータ生成手段と,
前記パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段と,
前記パラメータ生成手段により生成された前記角度量に対し,前記変換手段による変換の逆変換に相当する変換を行なって前記所定の音響特徴量を算出するための逆変換手段と,
前記逆変換手段により変換された音響特徴量に基づくフィルタ特性により,前記音源生成手段により生成された前記音源信号を変調するための合成フィルタとを含む,音声合成装置。
【背景技術】
【0002】
マン・マシン・インターフェイスの必須技術として,音声認識技術と音声合成技術とがある。音声認識と音声合成とを組み合わせることにより,音声を使うという,人間にとって自然な動作で,複雑な操作指示を必要とする最新の装置を利用できる。
【0003】
これらの技術のうちでも,音声合成技術に関しては,単に目的のテキストを発声すればよいというわけではなく,より自然な発声を得ることが必要である。そのために様々な方式が提案されている。
【0004】
そうした方式の1つに,HMMを用いるものがある。HMMを用いる音声合成では,予め多数の音声から音声の規則合成用のパラメータを推定するためのHMMを学習しておく。音声合成時には,入力テキストを解析して音素ラベル列を得て,それら音素ラベル列に含まれる各音素を合成するためのフィルタパラメータを上記したHMMから生成する。
【0005】
そのような技術は,例えば特許文献1に開示されている。特許文献1に開示された音声合成装置の基本的構成を
図1に示す。
【0006】
図1を参照して,従来の音声合成システム40は,大きく分けて音声合成用のHMMの学習を行なうための学習装置50と,学習装置50を記憶するためのHMM記憶部52と,入力テキスト54が与えられると,入力テキスト54を構成する各音素について,HMM記憶部52に記憶されたHMMを用いて規則合成のための合成フィルタのパラメータと音声生成のためのF0パラメータとを生成して音声を合成するための音声合成装置56とを含む。
【0007】
学習装置50は,音素別にラベル付けされた多数の音声データを記憶する音声データベース60を含む。音声は所定フレーム長及び所定シフト長でフレーム化されている。学習装置50はさらに,音声データベース60に記憶された音声の各フレームについて基本周波数(F0)を抽出するためのF0抽出処理部62と,音声データベース60に記憶された音声の各フレームについて,音響パラメータとしてMFCC(Mel Frequency Cepstrum Coefficient)を算出するMFCC算出部64と,音声データベース60に記憶された音声データの各フレームについて,音素ラベルと,F0抽出処理部62により抽出されたF0と,MFCC算出部64により算出されたMFCCとを1組にしてHMM学習用データとして記憶するHMM学習用データ記憶部66と,HMM学習用データ記憶部66に記憶されたHMM学習用データを用いてHMMの学習を行なうための,HTSツールキット(参考文献1)を用いるHMM学習部68とを含んでおり,HMM学習部68による学習が行なわれたHMMはHMM記憶部52に記憶される。典型的には,HMM記憶部52に記憶されたHMMは,コンテキスト依存の3音素HMMである。
【0008】
一方,音声合成装置56は,入力テキスト54に対してテキスト解析を行ない,合成音声が持つべき韻律情報等が付された音素ラベル列82を出力するテキスト解析部80と,音素ラベル列82を受け,HMM記憶部52から,音素ラベル列82の各音素について各音素のコンテキスト及び韻律情報に基づいて,最も適合したHMMをHMM記憶部52から選択して接続することにより音声合成用のF0のパラメータ系列及びMFCCのパラメータ系列を生成するパラメータ生成部84と,パラメータ生成部84により生成されたF0のパラメータ系列にしたがい,音源信号を生成する音源生成部86と,パラメータ生成部84により生成されたMFCCのパラメータ系列にしたがい,音源生成部86により生成された音源信号をフィルタリング(変調)することにより,合成音声信号を生成する合成フィルタ88とを含む。
【0009】
このようなHMMを用いた音声合成は高速であるとともに,話者対応が容易で,種々の発話様式にも対応可能な柔軟なものであることが知られている。しかし,HMMを用いた音声合成では,汎化処理のために,合成音声が不自然なものになることも多い。そうした問題を解決するために,音声のダイナミックな特徴量と,系列内変動(global variance)とを用いる方式が提案されている。ダイナミックな特徴量としては,例えばMFCCの差分(デルタ)と,差分の差分(デルタ─デルタ)とが用いられる.
【発明の概要】
【発明が解決しようとする課題】
【0011】
HMMを用いた音声合成における問題は,以下の3つの局面に分けることができる。
【0012】
(1)音声パラメータをHMM生成時に統計処理して平滑化してしまうために,音質が劣化してしまうこと。
【0013】
(2)種々の話者の音声を用いるため,音声の変化がノイズとして作用し,音質が劣化すること。
【0014】
(3)定型化されていない音声収録環境で,種々の話者の種々の発話スタイルの音声をHMMの学習に用いるために合成音声にひずみが生じること。
【0015】
第1の局面については,MFCCパラメータに振幅だけでなく位相も含ませることが必要であることが知られている。しかし,通常はそうした位相に関する情報は利用できない。発話の特徴量を生成するという観点からは,位相情報を持たないMFCCパラメータは,厳密には非線形パラメータと考えるべきである。したがって,種々の位相のMFCCパラメータをHMM学習時に統計処理し平均化してしまうことにより,合成音声にひずみが生じることになる。そうしたひずみはバズノイズを生じさせる。
【0016】
第2の局面に関しては,発話の変化しやすさは,ノイズの発生源の1つと考えることができる。
【0017】
第3の局面は,エキスパートでないユーザが音声合成を利用してコミュニケーションをとる上では重大な問題である。
【0018】
バズノイズについていうと,上記したようにダイナミックな音響特徴量(MFCCのデルタ及びデルタ−デルタ)を用いることでかなり音声が改善されることが分かってきた。こうした手法を用いると,あるフレームの特徴量の計算に,そのフレームの前後の複数フレームの特徴量を用いる必要がある。すなわち,MFCCパラメータの応答が,1フレームだけでなく複数フレームにまたがってくる。
【0019】
こうした手法で信号処理にウィンドウを用いたりする場合,スペクトル間での,干渉の生じないような属性を維持する必要が生ずる。さもなければ合成音声にひずみが生じてしまうという問題がある。
【0020】
それゆえに本発明の目的は,HMMを用いる音声合成装置であって,合成音声波形にひずみが生じることを抑えることが可能な音声合成装置,及びそのためのHMM学習装置を提供することである。
【課題を解決するための手段】
【0021】
本発明の第1の局面に係る音声合成用の隠れマルコフモデル学習装置は,各々に音素ラベルが付された複数の音声単位を含む音声データベースを記憶するための音声データベース記憶手段と,複数の音声単位の各々から基本周波数を抽出し,基本周波数情報を出力するための基本周波数抽出手段と,複数の音声単位の各々について,所定の音響特徴量を算出するための音響特徴量算出手段とを含む。隠れマルコフモデル学習装置はさらに,所定の音響特徴量の算出のための時間領域のサンプリングと双対をなす,周波数領域のサンプリングを行なうことにより,複数の音声単位の各々について,所定の音響特徴量を角度量に変換するための変換手段と,音声データベースに含まれる複数の音声単位について,基本周波数抽出手段の出力する基本周波数情報,及び,変換手段の出力する角度量に,当該音声単位のラベルが付された学習用データを用い,別々の音素コンテキストに対する隠れマルコフモデルの学習と,音素ラベル列から隠れマルコフモデルのいずれかを選択するための決定木の学習とを行なうための学習手段と,学習手段により学習が行なわれた隠れマルコフモデルと決定木とを記憶するための記憶手段とを含む。
【0022】
好ましくは,所定の音響特徴量はMFCCを含む。音響特徴量算出手段は,複数の音声単位の各々について,所定次元までのMFCCを算出するための手段を含んでもよい。
【0023】
本発明の第2の局面に係る音声合成装置は,上記した音声合成用の隠れマルコフモデル学習装置のいずれかにより学習が行なわれた隠れマルコフモデルを用い,入力されるテキストに対する音声を合成するための音声合成装置である。この音声合成装置は,テキストに対しテキスト解析を行なうことにより,音素ラベル列を出力するためのテキスト解析手段と,テキスト解析手段により出力される音素ラベル列を用い,各音素ラベルについて,決定木を用いて隠れマルコフモデルを選択し,当該隠れマルコフモデルに基づいて,基本周波数情報と角度量とを生成するためのパラメータ生成手段と,パラメータ生成手段により生成された基本周波数情報に基づいて音源信号を生成するための音源生成手段とを含む。音声合成装置はさらに,パラメータ生成手段により生成された角度量に対し,変換手段による変換の逆変換に相当する変換を行なって所定の音響特徴量を算出するための逆変換手段と,逆変換手段により変換された音響特徴量に基づくフィルタ特性により,音源生成手段により生成された音源信号を変調するための合成フィルタとを含んでもよい。
【発明を実施するための形態】
【0025】
以下の説明及び図面では,同一の部品には同一の参照番号を付してある。したがって,それらについての詳細な説明は繰返さない。
【0026】
[構成]
本実施の形態では,合成音声のひずみを軽減するために,音声信号の帯域幅を広げることなくMFCCパラメータを整形する,帯域内整形を用いる。そのため,本実施の形態では,デュアルサンプリングを用いる。本明細書でのデュアルサンプリングは,時間領域と周波数領域との双方でのサンプリングを意味する。このデュアルサンプリングに基づき,音声パラメータのデュアル量子化を行なう。さらに,MFCCパラメータに対し,アンチ・エイリアシング・フィルタリング及び平滑化による帯域内波形整形(帯域を増加させない)を行なう。
【0027】
図2を参照して,本発明の1実施の形態に係る音声合成システム100は,
図1に示す学習装置50に相当する学習装置110と,学習装置110による学習が行なわれたHMMを記憶するためのHMM記憶部112と,
図1に示す音声合成装置56に相当する音声合成装置116とを含む。
【0028】
学習装置110が学習装置50(
図1参照)と異なるのは,
図1のMFCC算出部64の後に,各フレームについてMFCC算出部64により算出されたMFCCパラメータΛを,本実施の形態の特徴の1つである,周波数領域のパラメータΘに変換するMFCC変換部120をさらに含む点と,
図1のHMM学習用データ記憶部52に代えて,F0抽出処理部62により各フレームについて抽出されたF0と,MFCC変換部120により各フレームについて算出されたパラメータΘとを,そのフレームのラベルとともに1組にしてHMM学習用データとして記憶するHMM学習用データ記憶部122を含む点と,
図1のHMM学習部68に代えて,このHMM学習用データ記憶部122に記憶されたHMM学習用データを用いて音声合成用のHMMの学習を行なう,HMM学習部68と同様のHTSツールキット(参考文献1)からなるHMM学習部124を含む点とである。学習の終わった後のHMMは,
図1のHMM記憶部52に代えてHMM記憶部112に記憶されるが,HMM記憶部112とHMM記憶部52とは,内部に記憶されるHMMのパラメータが異なるだけであって,そのハードウェアは同じである。
【0029】
図2に示す音声合成装置116が
図1に示す音声合成装置56と異なるのは,パラメータ生成部84に代えて,音素ラベル列82を受けてHMM記憶部112から各音素ラベル及び韻律情報に最も適合したHMMを選択し,F0の系列とパラメータΘの系列とを出力するパラメータ生成部134を含む点と,パラメータ生成部134から出力されるパラメータΘの系列を受け,
図2のMFCC変換部120で行なわれる処理と逆の関係になる処理を行なってMFCCの系列を出力し,合成フィルタ88に設定するMFCC逆変換部136を含む点とである。
【0030】
以下,MFCC変換部120で行なわれるパラメータΘの計算,及びMFCC逆変換部136で行なわれるパラメータΘからMFCCパラメータΛを計算する手法とその考え方について説明する。MFCC変換部120での処理はデュアルサンプリングとデュアル量子化に相当する。
【0031】
基本的に,デュアルサンプリングは時間とともに変化する関数について,正確な再構成を与えることができる。デュアル量子化では,デュアルサンプリングの結果に基づき,音声パラメータが時間及び周波数の双方によりエンコードされる。デュアル量子化により,周波数の帯域制限について多少のゆとりが得られる。帯域内整形によって,ノイズ及び発話の流動性による合成音声のひずみが小さくなり,HMMによる合成音声の音質が改善される。
【0032】
デュアルサンプリングとは,帯域制限された信号を時間と周波数領域との双方でサンプリングすることを意味する。各サンプリング点でのサンプルの対は互いにコヒーレントである。
【0033】
デュアルサンプリングは以下のように表すことができる。
【0034】
【数1】
ただしAは対称な共鳴曲線を表し,λは周波数比の二乗を表し,ζは強制振動の減衰係数を表し,ζ
2<0.5である。nは整数でn=0,…,N,本実施の形態ではN=10
6,ε
nはnにより変化する,ほぼ10
−10程度の小さな値である。
【0035】
ζ
nはさらに以下の式により単位円回りの回転角α
n(ラジアン)に変換される。
【0037】
したがって,n番目のサンプリング点λ
n(0<λ
n<1)は角α
n(0<αn<w
c,ただし本実施の形態ではw
c=0.33325ラジアンに固定)に対して逆順で双対をなす。さらに,以下の式によりゼロ点α
zを中心としてα
nを折り返したθnを計算することにより,θ
nはλ
nと同じ順番を持つ変数となる。
【0038】
【数3】
この折り返しの関係から,周波数領域におけるデュアルサンプリングは,平行移動に関して不変であり,かつ線形であるということができる。したがって,離散周波数系は線形かつ平行移動に関して不変であり,離散時間系も同様である。
【0039】
MFCCに関するデュアル量子化は以下のように表すことができる。k次元目のMFCC係数をΛ
kとし,MFCCΛ
kが最小値Λ
kminから最大値Λ
kmax(k=0,…,K:Kは最大次元の次元番号)の間の範囲にあるものとする。
【0040】
ここで,Λ
kを再サンプリングし,次の式により時間領域で量子化する。
【0041】
【数4】
ただしQ[x]はxを最も近いλ
n,n∈{0,…,N}に丸めることを示す。
【0042】
θ
nkがλ
nkとデュアルであって,θ
mとλ
nとの間の関係がルックアップテーブル化されているものとする。Λ
kに関する周波数領域のデュアル関数は以下の式により表される。
【0044】
時間領域で(可能なら)位相を持つΛ
kにより表される情報は,1次元(線形)空間ではなく,3/2次元(円形)空間内に存在する。大雑把に言えば,Λ
kからΘ
kへの写像は,幾何学的には,λ
nkにより表される3/2次元の外部平面から,θ
nkにより表される2次元の球面への写像であるということができる。周波数領域での再サンプリングにより,情報は,位相を考えなければ球面Θ
k上にランダムに分配される。Λkに位相情報が含まれない場合,位相情報は考える必要がないと想定できる。
【0045】
帯域内波形整形は,本実施の形態ではHMMの学習と発話パラメータの生成とに密接に関与している。基本的には,HMMによる音声の生成にこれらの技術を組込む手続は以下を含む。
【0046】
〈パラメータ化〉
MFCCを角度量に変換する。
【0047】
発話コーパス中の全ての発話について,例えばK=39,フレームシフト=5ミリ秒としてMFCCを計算する。MFCCをΛ
kiで示す(k=0,…,K,i=0,…,Iとする。Iは発話のフレーム数を指す。)。MFCCの集合からΛ
kmax及びΛ
kminを見つけ,Λ
kiの全てをΘ
kiにマッピングする。
【0048】
〈HMMの学習〉
MFCCを残りの帯域分に拡張し,最尤基準によってデコードを行なう。この作業にはHTSツールキット(参考文献1)を用いるが,Λ
kiの代わりにγ
e×Θ
kiを用いることにより帯域内整形のために帯域を1.4倍に拡張する。
【0049】
〈音声合成〉
アンチ・エイリアシングと平滑化とを行なう。GV(^Θ
kjで示す。ただしk=0,…,K,J=0,…,J。Jは発話中のフレーム数。)まずΘ
kjをα
kjに変換する。α
kj>w
cであればα
kj=w
cとしてエイリアシングの削減を図る。その後,α
kjを{α
n,n=0,…,N}中のいずれかのα
nkjに量子化する。この量子化には,最小誤差基準を用いる。さらに,α
nkjにγ
cを乗算することにより帯域を1.2倍して平滑化し,その結果を再度量子化する。最後に,α
nkjをΛ
nkjにマッピングすることによりMFCCを計算し直す。このマッピングが1対多の場合には,本実施の形態では写像のうちの任意の1つをランダムに選択する。この結果,音声合成のためのMFCCパラメータとしてΛ
kj,k=0,…,K及びj=0,…,Jが得られる。
【0050】
〈学習後のHMM〉
HMM学習用データ記憶部122に記憶される学習後のHMMについて
図3を参照して説明する。本実施の形態では,HMMはコンテキスト依存の3状態HMMである。例えば中間の音素として/a/を含むHMM140,142及び144等を考える。これらは,2番目の音素160として/a/を持つが,先頭の音素としてそれぞれc
11,c
21及びc
31を持ち,3番目の音素としてそれぞれc
12,c
22及びc
32を持つものとする。これ以外にも同様に2番目の音素に/a/を持つ3状態HMMは多数存在し得るが,ここでは図の理解を容易にするためにこの3つのHMM140,142及び144のみを示す。
【0051】
2番目の音素160として/a/を持つHMMのうち,いずれかを選択するために,HMMに関する決定木162の学習が行なわれる。この決定木162は,例えば複数のノード180〜200を持つ。これらのうち,ノード184,188,190,196,198及び200がリーフノードであり,HMM140〜144等のいずれかに対応する。決定木162の各ノードには2値の質問が対応付けられており,音声の合成条件(韻律情報を持つラベル列により定められる。)に応じて各ノードの質問に対して答えながら決定木162をルートノード180からたどっていき,到達したリーフノードに対応するHMMを選択する。
【0052】
[動作]
図2に示した音声合成システム100は以下のように動作する。音声データベース60には,音声データベースとして多数の発話データが準備される。これらの発話データはいずれもフレーム化され,音素ラベルが付されている。F0抽出処理部62は,音声データベース60内の各フレームからF0を抽出して出力する。MFCC算出部64は各フレームからMFCCパラメータΛ
kiを算出しMFCC変換部120に与える。MFCC変換部120は,上記したとおりMFCCの集合からΛ
kmax及びΛ
kminを見つけ,Λ
kiの全てをΘ
kiにマッピングする。
【0053】
各フレームについて算出されたF0及びΘ
kiには,そのフレームの音素ラベルが付され,HMM学習用データ記憶部122に記憶される。
【0054】
HMM学習部124の実体は,上記したとおりHMM学習部68同様のHTSツールキットであって,Θ
kiを用いてHMM記憶部112内のHMMの学習を行なう。全ての発話データについてHMMの学習が終了すると,HMM記憶部112を用いて音声の合成を行なうことが可能になる。
【0055】
音声合成では,入力テキスト54が与えられると,音声合成装置116のテキスト解析部80は入力テキスト54に対するテキスト解析を行ない,韻律情報が付された音素ラベル列82をパラメータ生成部134に与える。パラメータ生成部134は,与えられた韻律情報付の音素ラベル列を用い,HMM記憶部112に格納された決定木162(
図3参照)をたどることで各音素に対応するHMMを選択し,HMMのシーケンスを出力する。このシーケンスに対応してF0のシーケンスも得られ,音源生成部86に与えられる。HMMのシーケンスから得られたΘ
kjの各々をα
kjに変換する。α
kj>w
cであればα
kj=w
cとしてエイリアシングの削減を図る。さらにα
kjを{α
n,n=0,…,N}中のいずれかのα
nkjに量子化する。この量子化には,最小誤差基準を用いる。さらに,α
nkjにγ
cを乗算して平滑化し,その結果を再度量子化する。最後に,α
nkjをΛ
nkjにマッピングすることによりMFCCを計算し直す。このマッピングが1対多の場合には,写像のうちの任意の1つをランダムに選択する。この結果,MFCCパラメータとしてΛ
kjのシーケンス(k=0,…,K及びj=0,…,J)が得られる。このシーケンスを構成するMFCCパラメータΛ
kiの各々により合成フィルタ88を各フレームについて設定し,当該フレームについてのF0に基づいて音源生成部86が生成する音源信号を合成フィルタ88でフィルタリングすることにより,合成音声が得られる。
【0056】
[実施の形態の効果]
以上のように本実施の形態によれば,時間及び周波数領域におけるデュアルサンプリング点でのサンプルはコヒーレントである。いずれか一方に何らかの変化があれば,他方にもそれに対応した変化が生ずる。これは,共鳴曲線と平衡条件とによる。すなわち,ζの値は,入力λと出力λとの値が互いに等しくなるように選ばれる。この結果,デュアルサンプリングによって,音声パラメータを時間及び周波数領域の双方で量子化するための基本的枠組が得られ,双方の領域で音声パラメータを処理することが可能になる。
【0057】
第2に,周波数領域では処理対象は円であるため,「振幅」は一定であり,したがって統計的平均値は線形である角度量によって表される。
【0058】
第3に,MFCCの量子化は基本的には,デュアルサンプリングにより定義される10
6個の位置のうち,0.3535×10
6個の位置を抽出し,必要であればさらに内挿を行なう余地を残している。利用できない位相情報のために生ずるこうした余地は,HMMの学習を行なう際には,Θ
kを統計的に平均することにより生ずるノイズに対処するために好適である。ただし,このノイズがガウシアンノイズと同じ統計的特徴を示すものと想定した場合であるが。人間の聴覚が,位相のある程度の量には不感であることはよく知られている。したがって音声パラメータを効率的に統計的分類及び平均化するための手段が得られる。
【0059】
第4に,ボコーダは通常,ある周波数のグループ,特に高い周波数のグループをかなりの程度までまとめることを利用する。周波数領域でのデュアルサンプリングはこの要求に合致する。高い周波数の圧縮の程度は,低い周波数と比較して約2.5倍である。
【0060】
最後に,パラメータΘ
kに線形係数γを乗ずることにより,デュアルサンプリングの効用によって時間領域での群遅延を可能にするための簡便な手段が得られる。
【0061】
[利用例]
少数の女性話者によるATR503データセットを用い,上記実施の形態に係る方法を従来の方法と比較する実験を行なった。結果を
図4に示す。この
図4は,MFCCの応答を1より大きなフレームに拡大したときのMFCCの帯域内整形の結果を示す。この結果は,本発明におけるリーフノード数が従来法より全般的に少なく,音響的特徴の多様性が縮小されていることを示している。このことは,上記実施の形態に係る方法により,話者に固有の特徴と普遍的な特徴が良好に分離された結果,HMM学習に際して話者に固有の特徴が被る平均化が改善されたことを意味する。
【0062】
上記方法によって合成された音声を発明者達が聞いて評価した結果,従来の方法と比較して本実施の形態によってバズノイズがかなり低減され,HMMによる合成音声の音質が改善されることが確認された。
【0063】
今回開示された実施の形態は単に例示であって,本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は,発明の詳細な説明の記載を参酌した上で,特許請求の範囲の各請求項によって示され,そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【0064】
[参考文献]
[1]K.Tokuda,H.Zen,J.Yamagishi,T.Masuko,S.Sako,A.B.Black,T.Nose,“The HMM−Based Speech Synthesis System(HTS) Version 2.1.”[Online]。URL:http://hts.sp.nitech.ac.jp/.