【新規性喪失の例外の表示】特許法第30条第2項適用 2013年3月5日 社団法人 日本音響学会発行の「2013年 春季研究発表会 講演論文集」にて発表 2013年5月4日 一般社団法人 情報処理学会 音楽情報科学研究会 電子図書館 ウェブページ(https://ipsj.ixsq.nii.ac.jp)にて公開
【文献】
北条伸克,外4名,複合ウェーブレットモデルと隠れマルコフモデルの統合モデルによるテキスト音声合成,日本音響学会2013年春季研究発表会講演論文集,日本,一般社団法人日本音響学会,2013年 3月 5日,pp.273-276
【文献】
北条伸克,外4名,複合ウェーブレットモデル分析合成系に基づくHMM音声合成,日本音響学会2012年秋季研究発表会講演論文集,日本,一般社団法人日本音響学会,2012年 9月19日,pp.287-290
【文献】
北条伸克,外4名,複合ウェーブレットモデルとHMMの統合モデルによるテキスト音声合成,情報処理学会研究報告,日本,一般社団法人情報処理学会,2013年 5月11日,Vol.2013-MUS-99, No.21,pp.1-5
(58)【調査した分野】(Int.Cl.,DB名)
音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルCWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記CWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して、前記CWMのパラメータを推定する推定部と、
前記推定部により推定されたCWMのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記HMMを学習する学習部と、を含み、
前記同一の規準を、前記CWMのパラメータが決まった場合に、前記スペクトル包絡が出力される確率と、前記HMMの状態系列の確率と、前記状態系列が決まった場合に、前記CWMのパラメータが出力される確率との積とする
音声合成モデル学習装置。
前記推定部は、前記同一の規準を、前記HMMのパラメータ、前記CWMのパラメータ、及び補助変数によって表され、前記CWMのパラメータが決まった場合に、前記スペクトル包絡が出力される確率の対数を上回らず、かつ前記対数に接する関数とし、前記HMMのパラメータ、前記CWMのパラメータ、及び前記補助変数を交互に更新する請求項1記載の音声合成モデル学習装置。
推定部が、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルCWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記CWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して、前記CWMのパラメータを推定するステップと、
学習部が、前記推定部により推定されたCWMのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記HMMを学習するステップと、を含み、
前記同一の規準を、前記CWMのパラメータが決まった場合に、前記スペクトル包絡が出力される確率と、前記HMMの状態系列の確率と、前記状態系列が決まった場合に、前記CWMのパラメータが出力される確率との積とする
音声合成モデル学習方法。
【背景技術】
【0002】
統計的モデルに基づくテキスト音声合成方式の基本戦略は、音声の確率的な生成モデルを立て、学習データからそのモデルパラメータを学習させ、学習したモデルを用いて任意のテキストデータに対して音声を生成するというものである。従って、音声における様々な性質や挙動をいかに適切に生成モデルの形で記述できるかが、合成音声の品質を左右する。特に音声の音韻に着目すると、スペクトル包絡特徴量の時系列をいかに適切にモデル化するかが重要であるが、従来の隠れマルコフモデル(Hidden Markov Model、HMM)またはその変種による音声合成(以下、「HMM音声合成」という)方式(例えば、非特許文献1参照)は、音声スペクトル系列の時間伸縮を確率的な現象として捉えようという考えの下、考案されたものである。
【0003】
従来のHMM音声合成方式では、スペクトル包絡を表現する音声特徴量として、ケプストラムや線スペクトル対(Line Spectral Pairs、LSP)が用いられている。ケプストラムを特徴量とした場合、スペクトル包絡がパワー方向にのみ確率的に揺らぐ現象を表現したモデルに相当し、LSPを特徴量とした場合、スペクトル包絡のピークが周波数方向にのみ確率的に揺らぐ現象を表現したモデルに相当する。ケプストラムを特徴量としたHMM音声合成方式では、合成音声のスペクトル包絡が周波数方向に平滑化される傾向にあるが、これは生成モデルがスペクトルの周波数方向の揺らぎを上手く捉えられないモデルであることが原因である。スペクトル包絡が平滑化されると、一般にはbuzzyな音になるが、これは従来のHMM音声合成において良く知られた傾向である。
【0004】
そのため、例えばスペクトル包絡のピークとディップとの間を強調する目的で、確率モデルにGlobal Variance(GV)を導入することにより改善が図られているが、ひとたび平滑化されたスペクトル包絡からは、本来あるべきピーク及びディップを復元することは難しく、根本的な解決には至っていない。
【0005】
スペクトル包絡ピークの周波数及びパワーは、声道における共振の共振周波数及びパワーに相当するため、音声のスペクトル包絡には、実際にはパワー方向及び周波数方向の双方の揺らぎが存在する。共振周波数及びパワーは、声道形状の物理的な変化に従い時間方向に連続に変化すると考えられる。そのため、例えばある音素の中央部分付近のスペクトル包絡と、後続音素との接続部分付近のスペクトル包絡とを比較した場合、後者は声道形状が後続音素の声道形状へ連続的に変化する過程にあるため、両者のスペクトル包絡間には、共振周波数及びパワーに差異があり、これを揺らぎとしてモデル化することが重要である。
【0006】
音声分析合成系のための音声スペクトルモデルとして、スペクトル包絡の各ピークがガウス分布で近似可能という仮定に基づき、スペクトル包絡全体を混合ガウス関数モデル(Gaussian Mixture Model、GMM)によって表現した複合ウェーブレットモデル(Composite Wavelet Model、CWM)と呼ぶモデルが提案されている(例えば、非特許文献2参照)。
【0007】
CWMは、スペクトル包絡ピークの周波数及びパワーの双方をパラメータとして持つため、スペクトル包絡のパワー方向及び周波数方向の双方の揺らぎを確率モデル化するのに適している。なお、CWMパラメータから音声波形を合成する際は、周波数領域におけるガウス分布関数は時間領域ではGabor関数に対応するため、このGabor関数を基本周波数に対応する時間間隔で配置することにより音声波形が合成される。CWMに基づく音声分析合成は、FIRフィルタによる合成手法であり、従来のLSPやケプストラムなどの巡回型フィルタによる合成手法に比べ、Q値の高いフィルタであっても、基本周波数に依らず時間特性の良い音声が合成可能である。
【0008】
以上のCWMの利点より、CWMパラメータを音声特徴量としたHMM音声合成方式が提案されている(例えば、非特許文献3参照)。この方式では、パラメータ学習において、まず各時刻(短時間フレーム)の音声スペクトル包絡に対し、まずCWMのパラメータ抽出を前段で行い、抽出したCWMパラメータセットを並べたベクトルの系列をHMM音声合成における音声特徴量系列としている。
【発明の概要】
【発明が解決しようとする課題】
【0010】
非特許文献3の技術では、フォルマント周波数推定の問題に内在する難しさに起因して、十分な性能が得られないという問題がある。フォルマント軌跡は、音声スペクトログラムに鮮明に現れるが、自動的に取り出すことは容易ではない。実際に存在するはずのフォルマントを検出できなかったり、実際には存在しないはずのフォルマントを誤検出してしまったりするからである。各短時間フレームでCWMパラメータの推定を行うことは、フォルマント抽出問題と同等と見なせるため、非特許文献3のような手法では、前段のCWMパラメータの推定においても、これと同様な誤りが多発してしまう。
【0011】
図9に、ある音声信号のサンプルに対して、時刻(短時間フレーム)毎にCWMパラメータの推定を行った結果の例を示す。
図9では、各時刻で推定されたCWMにおける各ガウス関数の中心を、ガウス関数のインデックス毎に異なるマーカーでプロットしたものである。
図9に示すように、CWMにおける各ガウス関数のインデックスの付けられ方が時刻毎に整合していないことが多々ある(例えば、
図9中の楕円部分)。例えば、同一音素が発せられている異なる2つの時刻において、一方の時刻では第一フォルマント及び第二フォルマントに1番目のガウス関数及び2番目のガウス関数がフィッティングされているのに対し、他方の時刻では2番目のガウス関数及び3番目のガウス関数がフィッティングされる、というようなケースが頻繁に起こる。このような、CWMパラメータのインデックスの不整合は後段のHMM音声合成のパラメータ学習において、性能低下の原因となる。なぜなら各状態の特徴量分布の平均を得る際、異なるスペクトルピークに対応したガウス関数の中心同士の平均を算出する事態となってしまうからである。
【0012】
以上のことから、CWMパラメータによるスペクトル表現は、スペクトル包絡のピークのパワー方向及び周波数方向の双方の揺らぎを確率モデル化するのに適しているという利点を持ちながら、CWMパラメータの推定とHMMパラメータの学習とを単純に多段的に繋げた方式ではうまく動作しない、という問題がある。
【0013】
本発明は、上記の事情を鑑みてなされたもので、各ガウス関数のインデックスが同一状態において整合するよう保証されたCWMパラメータを音声特徴量としてHMMを学習することができる音声合成モデル学習装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
上記目的を達成するために、本発明の音声合成モデル学習装置は、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルCWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記CWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して、前記CWMのパラメータを推定する推定部と、前記推定部により推定されたCWMのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記HMMを学習する学習部と、を含んで構成されている。
【0015】
本発明の音声合成モデル学習装置によれば、推定部が、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルCWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応するCWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して、CWMのパラメータを推定する。そして、学習部が、推定部により推定されたCWMのパラメータ、及び音声信号の各時刻の状態を示すラベルを用いて、HMMを学習する。
【0016】
このように、CWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応するCWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して推定したCWMパラメータを用いてHMMを学習するため、各ガウス関数のインデックスが同一状態において整合するよう保証されたCWMパラメータを音声特徴量としてHMMを学習することができる。
【0017】
また、前記推定部は、前記同一の規準を、前記CWMのパラメータが決まった場合に、前記スペクトル包絡が出力される確率と、前記HMMの状態系列の確率と、前記状態系列が決まった場合に、前記CWMのパラメータが出力される確率との積とすることができる。
【0018】
また、前記推定部は、前記同一の規準を、前記HMMのパラメータ、前記CWMのパラメータ、及び補助変数によって表され、前記CWMのパラメータが決まった場合に、前記スペクトル包絡が出力される確率の対数を上回らず、かつ前記対数に接する関数とし、前記HMMのパラメータ、前記CWMのパラメータ、及び前記補助変数を交互に更新することができる。
【0019】
また、前記推定部は、前記同一の規準を、負の対数関数の凸性を利用して、ジェンセンの不等式により得られる下限関数とすることができる。
【0020】
また、本発明の音声合成モデル学習方法は、推定部が、音声信号の各時刻のスペクトル包絡を混合ガウスモデルによって表現した複合ウェーブレットモデルCWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応する前記CWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して、前記CWMのパラメータを推定するステップと、学習部が、前記推定部により推定されたCWMのパラメータ、及び前記音声信号の各時刻の状態を示すラベルを用いて、前記HMMを学習するステップと、を含む方法である。
【0021】
また、本発明の音声合成モデル学習プログラムは、コンピュータを、上記の音声合成モデル学習装置を構成する各部として機能させるためのプログラムである。
【発明の効果】
【0022】
以上説明したように、本発明の音声合成モデル学習装置、方法、及びプログラムによれば、CWMのパラメータと、テキストデータから得られる情報によって表される各時刻の状態に対応するCWMのパラメータの系列を出力する隠れマルコフモデルHMMのパラメータとを、同一の規準を最大化するように交互に更新して推定したCWMパラメータを用いてHMMを学習するため、各ガウス関数のインデックスが同一状態において整合するよう保証されたCWMパラメータを音声特徴量としてHMMを学習することができる、という効果が得られる。
【発明を実施するための形態】
【0024】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0025】
<本実施の形態の概要>
スペクトル包絡全体を混合ガウス関数モデル(Gaussian Mixture Model、GMM)によって表現した複合ウェーブレットモデル(Composite Wavelet Model、CWM)における各ガウス関数のインデックスが同一状態において整合するよう保証されたCWMパラメータと隠れマルコフモデル(Hidden Markov Model、HMM)との一体化モデルを構築したこと、及び学習データが与えられた下で当該モデルのパラメータを学習するための収束性が保証された反復アルゴリズムを実現したことが、本実施の形態のポイントである。具体的には以下により実現する。
【0026】
1.HMMパラメータとCWMパラメータとを、同一の規準を大きくするように交互に更新する
2.上記1において、同一の規準を、CWMパラメータが決まった場合に、スペクトル包絡が出力される確率と、HMMの状態系列の確率と、HMMの状態系列が決まった場合に、CWMパラメータが出力される確率との積(またはその対数)とする
3.上記2において、HMMパラメータとCWMパラメータと補助変数λとによって表され、CWMパラメータが決まった場合にスペクトル包絡が出力される確率の対数を上回らず、かつ、これに接する関数を、同一の規準とし、この規準を大きくするようにHMMパラメータとCWMパラメータと補助変数とを交互に更新する
4.上記3において、同一の規準は、負の対数関数の凸性を利用してジェンセン(Jensen)の不等式を用いて作られる下限関数である
【0027】
<CWMによるスペクトル包絡系列生成モデル>
まず、スペクトル包絡系列の生成モデルについて述べる。
【0028】
従来のHMM音声合成方式では、ケプストラム特徴量系列を出力するHMMを立て、学習データから出力分布のパラメータを学習し、各状態での平均的なケプストラム特徴量が推定される。しかし、こうした手法では、スペクトル包絡の平滑化現象が起こる。なぜなら、ケプストラムは、スペクトル包絡の線形変換により得られるため、ケプストラムの平均を得ることは、スペクトル包絡のパワー方向の平均を得ることと同等である。しかし、スペクトル包絡ピークの周波数の揺らぎが存在すると、スペクトル包絡の山と谷とが平均化され、なだらかな形状へ平滑化されるためである。このようにスペクトル平滑化の原因は、ケプストラム特徴量の確率的な揺らぎを仮定し、スペクトル包絡のパワー方向のみの揺らぎをモデル化している点にあると考えられる。
【0029】
音声のスペクトル包絡に見られる揺らぎには、声道形状の物理的な変化に基づく共振周波数及びパワーの変動が含まれると考えられるため、スペクトル包絡ピークの周波数及びパワーの双方の揺らぎを表現できる確率的生成モデルを立てるべきである。そこで、スペクトル包絡ピークの周波数及びパワーをパラメータに持つCWMを用いれば、このような確率モデル化を行うことが可能である。CWMは、GMMによりスペクトル包絡を近似し、そのGMMのパラメータを音声特徴量とするモデルである。CWMでは、スペクトル包絡f
ω,lは下記(1)式のように表される。なお、f
ω,lを、以下では「モデルスペクトル包絡」という。
【0031】
ただし、KはGMMの混合数である。μ
k、w
k、σ
kはそれぞれGMMの平均、重み、分散パラメータであり、それぞれモデルスペクトル包絡ピークの周波数、パワー、鋭さに相当するものと見なすことができる。
【0032】
続いて、観測スペクトル包絡系列が生成される過程について述べる。
図1に示すような、離散時刻l毎に、平均μ
k,l、分散の逆数ρ
k,l、及び重みw
k,lのCWMパラメータを出力するHMMを考える。HMMの各状態は、言語ラベルの一状態を表しており、例えば
図1に示すように、それぞれ一つの音素に対応させることができる。また、従来のHMM音声合成方式などの手法と同様に、音素状態に加え、前後の音素のアクセント位置などの情報を用いたコンテキストラベルの一状態を対応させてもよい。本実施の形態では、各状態から出力されるCWMパラメータの確率分布は、各時刻lの状態s
lについて、下記(2)式〜(4)式と仮定した。
【0034】
ここで、N(x;m,η
2)は正規分布、Gamma(x;a,b)は下記(5)式に示すガンマ分布である。
【0036】
CWMパラメータの系列^μ={μ
k}
k,l、^ρ={ρ
k}
k,l、及び^w={w
k}
k,lが与えられたとき、時刻lにおいて、観測スペクトル包絡{y
w,l}を生成する確率分布は、下記(6)式とする。なお、数式内の太字表記の記号、及び文章内の「^」が前に付された記号は、行列またはベクトルを表している。
【0038】
ここで、f
w,lは、CWMパラメータ系列^μ、^ρ、及び^wが与えられたとき、時刻lのCWMパラメータを用いて(1)式で表されるスペクトル包絡であり、Poisson(x;λ)は、下記(7)式に示すポアソン分布である。
【0040】
上記の生成モデルを定めることにより、以下のパラメータ推定アルゴリズムを適用することが可能となる。
【0041】
<パラメータ推定アルゴリズム>
パラメータの学習(推定)は、観測スペクトル包絡系列Y={y
w,l}
w,lが与えられたときに、スペクトル包絡系列生成モデルのパラメータΘの事後確率P(Θ|Y)を最大化する問題として定式化される。推定すべきパラメータΘは、HMMの状態系列^s={s
l}
l、HMMの各状態iの状態出力分布^θ={m
k,i,η
k,i,a
k,i(σ),b
k,i(σ),a
k,i(w),b
k,i(w)}、並びにCWMパラメータ系列^μ、^ρ、及び^wである。
【0042】
パラメータΘの事後確率P(Θ|Y)を最大化するΘを求めることは難しいが、各変数について局所最適化を繰り返すことは可能である。このときP(Θ|Y)は、下記(8)式のように書ける。
【0044】
ここで、αは正則化パラメータであり、対数尤度に対する対数事前分布の重みを表す。また、「=」の上に「C」を付した記号は、定数部分を除いて一致することを意味する。
【0045】
本実施の形態におけるパラメータ推定アルゴリズムでは、各変数について−logP(Θ|Y)の最小化を反復することにより、パラメータ推定を行う。ここで、−logP(Y|Θ)は、各時刻の観測スペクトル包絡y
ω,lとモデルスペクトル包絡f
ω,lとの擬距離であるI−divergenceを全時刻について足し合わせたものに相当する。I−divergenceは、下記(10)で示される。
【0047】
従って、P(Θ|Y)の最大化は、Θについて、I(Θ)−αlogP(Θ)を最小化することと同等である。
【0048】
I−divergenceの項についての最小化は、補助関数法を用いて各パラメータについて逐次的に実行可能である。すなわち、対数関数の凸性に基づき、Jensenの不等式を適用すると、下記(12)となる。
【0050】
ここで、g
k,ω,lは、下記(13)式である。また、(12)式の等号成立条件は、下記(14)式である。
【0052】
I(Θ)の上限関数、すなわち(12)式の右辺をJ(Θ,λ)とする。ここで、任意のΘについて、λが(14)式で与えられるとき、補助関数J(Θ、λ)−αlogP(Θ)は、目的関数I(Θ)−αlogP(Θ)と等しい。そして、任意の固定されたλについてJ(Θ,λ)−αlogP(Θ)を減少させるΘは、(12)式により、I(Θ)−αlogP(Θ)を必ず減少させる。以上より、(14)式によるλの更新と、J(Θ,λ)−αlogP(Θ)を減少させるようなΘの更新とを繰り返すことにより、目的関数は局所最適解に到達するまで、単調に減少する。
【0053】
<音声合成装置の構成>
本実施の形態に係る音声合成装置は、CPUと、RAMと、後述する学習処理及び合成処理を含む音声合成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成されている。
【0054】
図2に示すように、音声合成装置10を構成するコンピュータは、機能的には、学習部20及び合成部40を含んだ構成で表すことができる。なお、学習部20は、本発明の音声合成モデル学習装置の一例である。
【0055】
さらに、学習部20は、基本周波数系列抽出部22、観測スペクトル包絡系列抽出部24、CWMパラメータ推定部26、及びHMM学習部28を含んだ構成で表すことができる。学習部20には、データベースから、音声信号の時系列データ及び各時刻の状態s
lの情報を含むラベルが入力される。なお、CWMパラメータ推定部26は、本発明の推定部の一例であり、HMM学習部28は、本発明の学習部の一例である。
【0056】
基本周波数系列抽出部22は、入力された音声信号の時系列データから、基本周波数の時系列データを抽出し、それらを離散時間lで表現するように変換して、音声信号の基本周波数の時系列データである基本周波数系列を抽出する。この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献4(H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.)に記載の手法を利用して、例えば8ms毎に基本周波数を抽出することができる。基本周波数系列抽出部22は、抽出した基本周波数系列を、HMM学習部28へ出力する。
【0057】
観測スペクトル包絡系列抽出部24は、入力された音声信号の時系列データを時刻(短時間フレーム)毎にフーリエ変換して、観測スペクトル包絡系列Yを抽出する。観測スペクトル包絡系列抽出部24は、抽出した観測スペクトル包絡系列YをCWMパラメータ推定部26へ出力する。
【0058】
CWMパラメータ推定部26は、観測スペクトル包絡系列抽出部24から出力された観測スペクトル包絡系列Y、及びデータベースから入力されたラベルを受け付け、観測スペクトル包絡系列事後確率P(Θ|Y)を最大化するパラメータΘを推定する。そして、CWMパラメータ推定部26は、推定したパラメータΘに含まれるCWMパラメータ^μ、^ρ、及び^wを、HMM学習部28へ出力する。CWMパラメータ推定部26は、さらに、
図3に示すように、初期更新部260、補助変数更新部262、CWMパラメータ更新部264、第1収束判定部266、状態出力分布更新部268、状態系列更新部270、観測スペクトル包絡系列事後確率更新部272、及び第2収束判定部274を含んだ構成で表すことができる。
【0059】
初期更新部260は、パラメータΘの初期値を用いて、観測スペクトル包絡系列事後確率P(Θ|Y)の初期更新を行う。パラメータΘの初期値として、状態出力分布^θ、並びにCWMパラメータ^μ、^ρ、及び^wの初期値については、予め適当に設定した値を用いる。HMMの状態列^sの初期値としては、入力されたラベルに含まれる情報を用いる。
【0060】
補助変数更新部262は、前回更新されたCWMパラメータ^μ、^ρ、及び^w、または初期値として設定されたCWMパラメータ^μ、^ρ、及び^wを用いて、(14)式により、補助変数λを更新する。
【0061】
CWMパラメータ更新部264は、状態系列^s及び状態出力分布^θを、前回更新された値、または初期値として設定された値で固定し、補助変数更新部262により更新された補助変数λを用いて、補助関数J(Θ、λ)−αlogP(Θ)を減少させるように、CWMパラメータ^μ、^ρ、及び^wを、下記(15)式〜(17)式の更新式により更新する。
【0063】
ただし、C
k,l、D
k,l、及びE
k,lは、下記(18)式〜(20)式である。
【0065】
第1収束判定部266は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部262及びCWMパラメータ更新部264の各処理を繰り返す。第1収束判定部266は、収束条件を満足したと判定した場合には、収束条件を満足したときのCWMパラメータ^μ、^ρ、及び^wを状態出力分布更新部268へ出力する。
【0066】
収束条件としては、繰り返し回数n
1が予め定めた回数N
1(例えば、20回)に達したことを用いればよい。なお、n
1−1回目のパラメータを用いたときの補助関数の値とn
1回目のパラメータを用いたときの補助関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。
【0067】
状態出力分布更新部268は、CWMパラメータ^μ、^ρ、及び^wを、第1収束判定部266から出力された^μ、^ρ、及び^wで固定すると共に、状態出力分布^θを、前回更新された値、または初期値として設定された値で固定し、補助変数更新部262により更新された補助変数λを用いて、補助関数J(Θ、λ)−αlogP(Θ)を減少させるように、状態出力分布^θに含まれる{m
k,i,η
k,i2}
k,iを、下記(21)式及び(22)式の更新式により更新する。
【0069】
ただし、Ti={l|s
l=i}である。また、状態出力分布^θに含まれる{a
k,i(ρ),b
k,i(ρ),a
k,i(w),b
k,i(w)}
k,lについての更新式は、下記(23)式〜(26)式の方程式の根として得られる。
【0071】
ただし、ψ(a)は下記(27)式に示すdigamma関数を表す。
【0073】
状態系列更新部270は、CWMパラメータ^μ、^ρ、及び^wを、第1収束判定部266から出力された^μ、^ρ、及び^wで固定すると共に、状態出力分布^θを、前回更新された値、または初期値として設定された値で固定し、Viterbiアルゴリズムにより、補助関数J(Θ、λ)−αlogP(Θ)を減少させるように、状態系列^sを更新する。
【0074】
観測スペクトル包絡系列事後確率更新部272は、CWMパラメータ更新部264で更新されたCWMパラメータ^μ、^ρ、及び^w、状態出力分布更新部268で更新された状態出力分布^θ、並びに状態系列更新部270で更新された状態系列^sを用いて、観測スペクトル包絡系列事後確率P(Θ|Y)を更新する。
【0075】
第2収束判定部274は、予め定められた収束条件を満足するか否かを判定し、収束条件を満足していない場合には、補助変数更新部262、CWMパラメータ更新部264、第1収束判定部266、状態出力分布更新部268、状態系列更新部270、及び観測スペクトル包絡系列事後確率更新部272の各処理を繰り返す。第2収束判定部274は、収束条件を満足したと判定した場合には、収束条件を満足したときのCWMパラメータ^μ、^ρ、及び^wを、HMM学習部28へ出力する。
【0076】
収束条件としては、繰り返し回数n
2が予め定めた回数N
2(例えば、20回)に達したことを用いればよい。なお、n
2−1回目のパラメータを用いたときの補助関数の値とn
2回目のパラメータを用いたときの補助関数の値との差が、予め定めた閾値よりも小さくなったことを、収束条件として用いてもよい。
【0077】
HMM学習部28は、CWMパラメータ推定部26から出力されたCWMパラメータ^μ、^ρ、及び^w、並びにデータベースから入力されたラベルを用いて、例えば非特許文献1等の従来技術を用いて、HMM30を学習する。なお、学習したHMMを用いて、テキストデータからモデルスペクトル包絡系列を求める際に、単に尤度最大の基準により求めたモデルスペクトル包絡系列は、音素境界付近で不連続となり、合成音声品質の劣化の原因となる。そこで、例えば非特許文献1の手法のように、音素状態を細かく分割し、さらに動的特徴量(特徴量の1階、2階の時間差分量)を用いて、HMM30を学習する。これにより、連続的なモデルスペクトル包絡系列を出力することができるHMM30を学習することができる。HMM学習部28は、学習したHMM30を所定の記憶領域に記憶する。
【0078】
また、合成部40は、
図2に示すように、テキスト解析部42、パラメータ合成部44、及び音声波形合成部46を含んだ構成で表すことができる。合成部40には、テキストデータが入力される。
【0079】
テキスト解析部42は、入力されたテキストデータを解析し、例えば各音素に対応させたラベルで表される状態を解析し、ラベル系列をパラメータ合成部44へ出力する。
【0080】
パラメータ合成部44は、テキスト解析部42から出力されたラベル系列に対し、学習部20で学習されたHMM30を用いて、尤度最大の基準によりCWMパラメータ系列を求める。このCWMパラメータ系列に基づいて、モデルスペクトル包絡系列を得ることができる。また、パラメータ合成部44は、テキスト解析部42から出力されたラベル系列に基づいて、基本周波数系列を求める。なお、CWMパラメータ系列の出力の際には、音素状態のDurationに関するモデルが別途必要である。また、ラベル系列から基本周波数系列を求めるためには、別途基本周波数に関するモデルが必要である。これらのモデルとしては、例えば非特許文献1に記載のモデルを用いることができる。パラメータ合成部44は、求めた基本周波数系列及びCWMパラメータ系列を、音声波形合成部46へ出力する。
【0081】
音声波形合成部46は、パラメータ合成部44から出力されたCWMパラメータ系列と基本周波数系列とを用いて、例えば非特許文献2、非特許文献3等の手法により、音声波形を合成する。すなわち、下記(28)式に示すように、周波数領域のGMMは時間領域ではGabor関数に相当するため、CWMパラメータからGabor関数の重ね合わせであるGabor Waveletを生成し、基本周波数に対応する時間間隔で時間軸上に並べることにより、音声波形を合成する。
【0083】
これは、FIRフィルタによる合成手法であり、基本周波数に依らず、時間特性の良い音声合成が可能である。音声波形合成部46は、合成した音声波形を出力する。
【0084】
<音声合成装置の作用>
次に、本実施の形態に係る音声合成装置10の作用について説明する。まず、学習部20に、データベースから、音声信号の時系列データ及び各時刻の状態s
lの情報を含むラベルが入力され、学習部20が、
図4に示す学習処理を実行することにより、HMM30が学習される。そして、合成部40に、テキストデータが入力され、合成部40が、
図6に示す合成処理を実行することにより、音声波形が出力される。以下、各処理について詳述する。
【0085】
図4に示す学習処理のステップS10で、基本周波数系列抽出部22が、入力された音声信号の時系列データから、基本周波数の時系列データを抽出し、それらを離散時間lで表現するように変換して、音声信号の基本周波数の時系列データである基本周波数系列を抽出し、HMM学習部28へ出力する。
【0086】
次に、ステップS12で、観測スペクトル包絡系列抽出部24が、入力された音声信号の時系列データを時刻(短時間フレーム)毎にフーリエ変換して、観測スペクトル包絡系列Yを抽出し、CWMパラメータ推定部26へ出力する。
【0087】
次に、ステップS14で、CWMパラメータ推定部26が、
図5に示すCWMパラメータ推定処理を実行する。
【0088】
図5に示すCWMパラメータ推定処理のステップS140で、初期更新部260が、状態出力分布^θ、並びにCWMパラメータ^μ、^ρ、及び^wの初期値として、予め適当に設定した値を用い、HMMの状態列^sの初期値として、入力されたラベルに含まれる情報を用い、観測スペクトル包絡系列事後確率P(Θ|Y)の初期更新を行う。
【0089】
次に、ステップS142で、補助変数更新部262が、前回更新されたCWMパラメータ^μ、^ρ、及び^w、または初期値として設定されたCWMパラメータ^μ、^ρ、及び^wを用いて、(14)式により、補助変数λを更新する。
【0090】
次に、ステップS144で、CWMパラメータ更新部264が、状態系列^s及び状態出力分布^θを、前回更新された値、または初期値として設定された値で固定し、上記ステップS142で更新された補助変数λを用いて、補助関数J(Θ、λ)−αlogP(Θ)を減少させるように、CWMパラメータ^μ、^ρ、及び^wを(15)式〜(17)式の更新式により更新する。
【0091】
次に、ステップS146で、第1収束判定部266が、予め定められた収束条件を満足したか否かを判定する。収束条件を満足していない場合には、ステップS142へ戻り、ステップS142及びS144の各処理を繰り返す。一方、収束条件を満足した場合には、収束条件を満足したときのCWMパラメータ^μ、^ρ、及び^wを状態出力分布更新部268へ出力し、ステップS148へ移行する。
【0092】
ステップS148では、状態出力分布更新部268が、CWMパラメータ^μ、^ρ、及び^wを、第1収束判定部266から出力された^μ、^ρ、及び^wで固定すると共に、状態出力分布^θを、前回更新された値、または初期値として設定された値で固定し、上記ステップS142で更新された補助変数λを用いて、補助関数J(Θ、λ)−αlogP(Θ)を減少させるように、状態出力分布^θを、(21)式〜(26)式により更新する。
【0093】
次に、ステップS150で、状態系列更新部270が、CWMパラメータ^μ、^ρ、及び^wを、第1収束判定部266から出力された^μ、^ρ、及び^wで固定すると共に、状態出力分布^θを、前回更新された値、または初期値として設定された値で固定し、Viterbiアルゴリズムにより、補助関数J(Θ、λ)−αlogP(Θ)を減少させるように、状態系列^sを更新する。
【0094】
なお、上記ステップS148と上記ステップS150とは、いずれを先に実行してもよい。
【0095】
次に、ステップS152で、観測スペクトル包絡系列事後確率更新部272が、上記ステップS144で更新されたCWMパラメータ^μ、^ρ、及び^w、上記ステップS148で更新された状態出力分布^θ、並びに上記ステップS150で更新された状態系列^sを用いて、観測スペクトル包絡系列事後確率P(Θ|Y)を更新する。
【0096】
次に、ステップS154で、第2収束判定部274が、予め定められた収束条件を満足したか否かを判定する。収束条件を満足していない場合には、ステップS142へ戻り、ステップS142〜S152の各処理を繰り返す。一方、収束条件を満足した場合には、収束条件を満足したときのCWMパラメータ^μ、^ρ、及び^wを、HMM学習部28へ出力し、学習処理へリターンする。
【0097】
次に、
図4に示す学習処理のステップS16で、HMM学習部28が、上記ステップS14で出力されたCWMパラメータ^μ、^ρ、及び^w、並びにデータベースから入力されたラベルを用いて、例えば非特許文献1等の従来技術を用いて、HMM30を学習し、学習したHMM30を所定の記憶領域に記憶して、学習処理を終了する。
【0098】
次に、
図6に示す合成処理のステップS20で、テキスト解析部42が、入力されたテキストデータを解析し、例えば各音素に対応させたラベルで表される状態を解析し、ラベル系列をパラメータ合成部44へ出力する。
【0099】
次に、ステップS22で、パラメータ合成部44が、上記ステップS20で出力されたラベル系列に対し、
図4に示す学習処理で学習されたHMM30を用いて、尤度最大の基準によりCWMパラメータ系列を求め、音声波形合成部46へ出力する。また、パラメータ合成部44が、上記ステップS20で出力されたラベル系列に基づいて、基本周波数系列を求め、音声波形合成部46へ出力する。
【0100】
次に、ステップS24で、音声波形合成部46が、上記ステップS22で出力されたCWMパラメータ系列と基本周波数系列とを用いて、例えば非特許文献2、非特許文献3等の手法により、音声波形を合成して出力し、合成処理を終了する。
【0101】
<実験>
本実施の形態に係る音声合成装置10を用いた音声合成手法に関し、適切にCWMパラメータの推定及び音声合成が実行可能であることの検証結果について説明する。
【0102】
ATR503のJ04文「切符を買うのは自動販売機からである。」の(A)サンプル音声(肉声)のスペクトログラム、及び(B)本実施の形態の手法(以下、「本手法」という)による合成音声のスペクトログラムを
図7に示す。また、冒頭「切符」の音素/i/の中央部のスペクトル包絡を、本手法(実線)、従来法(破線)、及び肉声(一点破線)についてそれぞれ
図8に示す。ここでの従来法とは、24次メルケプストラムによる手法(非特許文献1参照)である。
【0103】
図7に示すように、本手法による合成音声のスペクトログラムは、肉声のスペクトログラムと類似しており、本手法によりテキストデータの音声合成が可能であることを示している。本手法で再現されたスペクトル包絡は、主に4kHzから7kHzの周波数において、スペクトル包絡のディップを上手く再現する傾向があった。これは、CWMパラメータがスペクトル包絡ピークの周波数及びパワーの両方の揺らぎを捉えたため、従来法に比べ、スペクトル包絡が平滑化し難くなった結果であると考えることができる。
【0104】
一方で、1kHz以下の低周波数において、複数のスペクトル包絡ピークがなだらかな曲線で再現されており、共振周波数が不明瞭となり、品質劣化の原因となっていると考えられる。これは、CWMパラメータ抽出の際、複数のスペクトル包絡ピークを少数のガウス関数の和で近似しているためであると考えられる。例えばGMMの混合数を増やすなど、スペクトル包絡の各ピークに対し、精緻にガウス関数を対応付けることにより、共振周波数がより明瞭な音声を合成することができると考えられる。
【0105】
以上説明したように、本発明の実施の形態に係る音声合成装置によれば、CWMパラメータ及びHMMパラメータを、同一の規準を最大化するように交互に更新して得られたCWMパラメータを音声特徴量として用いることにより、各ガウス関数のインデックスが同一状態において整合するよう保証されたCWMパラメータを音声特徴量としてHMMを学習することができる。
【0106】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0107】
例えば、上記の実施の形態では、学習部と合成部とを同一のコンピュータで構成する場合について説明したが、それぞれ別のコンピュータで構成するようにしてもよい。
【0108】
また、上記の音声合成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0109】
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。