【文献】
MAIA, Ranniery, et al.,An Excitation Model for HMM-Based Speech Synthesis Based on Residual Modeling,6th ISCA Workshop on Speech Synthesis,ドイツ,ISCA,2007年 8月,pp. 131-136
(58)【調査した分野】(Int.Cl.,DB名)
前記第2の抽出部は、前記第1の抽出部が前記基本周波数を抽出できない単位区間から前記非周期成分のみを抽出し、それ以外の単位区間から前記周期成分および前記非周期成分を抽出する、請求項1または2に記載の音声合成システム。
前記第1の抽出部は、前記基本周波数を抽出できない単位区間について、補間処理により基本周波数を決定する、請求項1〜3のいずれか1項に記載の音声合成システム。
【先行技術文献】
【非特許文献】
【0008】
【非特許文献1】H. Zen, Andrew Senior, Mike Schuster, "Statistical parametric speech synthesis using deep neural networks", Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference, 26-31 May 2013
【非特許文献2】K. Tokuda, T. Masuko, N. Miyazaki, T. Kobayashi, "Hidden Markov models based on multi-space probability distribution for pitch pattern modeling", Acoustics, Speech and Signal Processing (ICASSP), 1999 IEEE International Conference, 15-19 March 1999
【非特許文献3】K. Yu and S. Young, "Continuous F0 modeling for HMM based statistical parametric speech synthesis", IEEE Trans. Audio Speech Lang. Process., vol. 19, no. 5, pp. 1071-1079, 2011
【非特許文献4】Javier Latorre, Mark J. F. Gales, Sabine Buchholz, Kate Knill, Masatsune Tamura, Yamato Ohtani, Masami Akamine, "Continuous F0 in the source-excitation generation for HMM-based TTS: Do we need voiced/unvoiced classification?", Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference, 22-27 May 2011
【非特許文献5】T. G. Csapo', G. Ne'meth, and M. Cernak, "Residual-based excitation with continuous F0 modeling in HMM-based speech synthesis", in Lecture Notes in Artificial Intelligence, vol. 9449, A.-H. Dediu, C. Mart in-Vide, and K. Vicsi, Eds. Budapest, Hungary: Springer International Publishing, pp. 27-38, 2015
【非特許文献6】E. Banos, D. Erro, A. Bonafonte, and A. Moreno, "Flexible harmonic/stochastic modeling for HMM-based speech synthesis", in Proc. VJTH, pp. 145-148, 2008
【非特許文献7】Gilles Degottex, John Kane, Thomas Drugman, Tuomo Raitio, Stefan Scherer, "COVAREP - A collaborative voice analysis repository for speech technologies", Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference, 4-9 May 2014
【非特許文献8】Ioannis Stylianou, "Harmonic plus noise models for speech, combined with statistical methods, for speech and speaker modification", Ecole Nationale Superieure des Telecommunications, 1996
【発明を実施するための形態】
【0022】
本発明の実施の形態について、図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については、同一符号を付してその説明は繰返さない。
【0023】
[A.応用例]
まず、本実施の形態に従う音声合成システムの一つの応用例について説明する。より具体的には、本実施の形態に従う音声合成システムを用いた多言語翻訳システムについて説明する。
【0024】
図1は、本実施の形態に従う音声合成システムを用いた多言語翻訳システム1の概要を示す模式図である。
図1を参照して、多言語翻訳システム1は、サービス提供装置10を含む。サービス提供装置10は、ネットワーク2を介して接続される携帯端末30からの入力音声(第1言語で発せられたなんらかのことば)に対して音声認識、多言語翻訳などを行なって、第2言語での対応することばを合成して、その合成結果を出力音声として携帯端末30へ出力する。
【0025】
例えば、ユーザ4は、携帯端末30に対して、「Where is the station ?」という英語のことばを発すると、携帯端末30は、その発せられたことばからマイクロフォンなどにより入力音声を生成し、生成した入力音声をサービス提供装置10へ送信する。サービス提供装置10は、「Where is the station ?」に対応する、日本語の「駅はどこですか?」ということばを示す出力音声を合成する。携帯端末30は、サービス提供装置10から出力音声を受信すると、その受信した出力音声を再生する。これによって、ユーザ4の対話相手には、日本語の「駅はどこですか?」とのことばが聞こえる。
【0026】
図示していないが、ユーザ4の対話相手も同様の携帯端末30を有していてもよく、例えば、ユーザ4からの質問に対して、「まっすぐ行って左です」との回答を自身の携帯端末に向かって発すると、上述したような処理が実行されて、ユーザ4の対話相手の携帯端末から、対応する英語の「Go straight and turn left」ということばが回答される。
【0027】
このように、多言語翻訳システム1においては、第1言語のことば(音声)と第2言語のことば(音声)との間で自在に翻訳が可能である。なお、2つの言語に限らず、任意の数の言語間で相互に自動翻訳できるようにしてもよい。
【0028】
このような自動音声翻訳の機能を利用することで、外国旅行や外国人とのコミュニケーションを容易化できる。
【0029】
サービス提供装置10に含まれる本実施の形態に従う音声合成システムは、後述するように、SPSSの一手法を採用する。サービス提供装置10は、音声合成システムに関するコンポーネントとして、分析部12と、学習部14と、DNN16と、音声合成部18とを含む。
【0030】
サービス提供装置10は、自動翻訳に関するコンポーネントとして、音声認識部20と、翻訳部22とを含む。サービス提供装置10は、さらに、携帯端末30との間で通信処理を行なうための通信処理部24を含む。
【0031】
より具体的には、分析部12および学習部14は、DNN16を構築するための機械学習を担当する。分析部12および学習部14の機能および処理の詳細については、後述する。DNN16は、分析部12および学習部14による機械学習の結果としてのニューラルネットワークを格納する。
【0032】
本実施の形態においては一例として、DNNを用いているが、DNNに代えて、再帰型ニューラルネットワーク(recurrent neural network;以下「RNN」とも略称する)、長・短記憶(long-short term memory;LSTM)RNN、畳み込みニューラルネットワーク(convolutional neural network;CNN)のいずれかを用いてもよい。
【0033】
音声認識部20は、通信処理部24を介して受信した携帯端末30からの入力音声に対して、音声認識処理を実行することで音声認識テキストを出力する。翻訳部22は、音声認識部20からの音声認識テキストから、指定された言語のテキスト(説明の便宜上、「翻訳テキスト」とも記す。)を生成する。音声認識部20および翻訳部22については、公知の任意の方法を採用できる。
【0034】
音声合成部18は、翻訳部22からの翻訳テキストに対して、DNN16を参照して音声合成を行ない、その結果得られる出力音声を、通信処理部24を介して携帯端末30へ送信する。
【0035】
図1には、説明の便宜上、DNN16を構築するための機械学習を担当するコンポーネント(主として、分析部12および学習部14)と、生成されたDNN16を用いて多言語翻訳を担当するコンポーネント(主として、音声認識部20、翻訳部22、および音声合成部18)が同一のサービス提供装置10に実装されている例を示すが、これらの機能をそれぞれ別の装置に実装してもよい。この場合、第1の装置において、機械学習を実施することでDNN16を構築し、第2の装置において、当該生成されたDNN16を用いて音声合成および当該音声合成を利用したサービスを提供するようにしてもよい。
【0036】
上述したような多言語翻訳サービスにおいては、音声認識部20および翻訳部22の少なくとも一部の機能を携帯端末30で実行されるアプリケーションが担当するようにしてもよい。また、音声合成を担当するコンポーネント(DNN16および音声合成部18)の機能を携帯端末30で実行されるアプリケーションが担当するようにしてもよい。
【0037】
このように、サービス提供装置10および携帯端末30が任意の形態で協働することで、多言語翻訳システム1およびその一部である音声合成システムを実現できる。このとき、それぞれの装置が分担する機能については、状況に応じて適宜決定すればよく、
図1に示される多言語翻訳システム1に限定されるようなものではない。
【0038】
[B.サービス提供装置のハードウェア構成]
次に、サービス提供装置のハードウェア構成の一例について説明する。
図2は、本実施の形態に従うサービス提供装置10のハードウェア構成例を示す模式図である。サービス提供装置10は、典型的には、汎用コンピュータを用いて実現される。
【0039】
図2を参照して、サービス提供装置10は、主要なハードウェアコンポーネントとして、プロセッサ100と、主メモリ102と、ディスプレイ104と、入力デバイス106と、ネットワークインターフェイス(I/F:interface)108と、光学ドライブ134と、二次記憶装置112とを含む。これらのコンポーネントは、内部バス110を介して互いに接続される。
【0040】
プロセッサ100は、後述するような各種プログラムを実行することで、本実施の形態に従うサービス提供装置10の実現に必要な処理を実行する演算主体であり、例えば、1または複数のCPU(central processing unit)やGPU(graphics processing unit)などで構成される。複数のコアを有するようなCPUまたはGPUを用いてもよい。
【0041】
主メモリ102は、プロセッサ100がプログラムを実行するにあたって、プログラムコードやワークメモリなどを一時的に格納する記憶領域であり、例えば、DRAM(dynamic random access memory)やSRAM(static random access memory)などの揮発性メモリデバイスなどで構成される。
【0042】
ディスプレイ104は、処理に係るユーザインターフェイスや処理結果などを出力する表示部であり、例えば、LCD(liquid crystal display)や有機EL(electroluminescence)ディスプレイなどで構成される。
【0043】
入力デバイス106は、ユーザからの指示や操作などを受付けるデバイスであり、例えば、キーボード、マウス、タッチパネル、ペンなどで構成される。また、入力デバイス106としては、機械学習に必要な音声を収集するためのマイクロフォンを含んでいてもよいし、機械学習に必要な音声を収集した集音デバイスと接続するためのインターフェイスを含んでいてもよい。
【0044】
ネットワークインターフェイス108は、インターネット上またはイントラネット上の携帯端末30や任意の情報処理装置などとの間でデータを遣り取りする。ネットワークインターフェイス108としては、例えば、イーサネット(登録商標)、無線LAN(Local Area Network)、Bluetooth(登録商標)などの任意の通信方式を採用できる。
【0045】
光学ドライブ134は、CD−ROM(compact disc read only memory)、DVD(digital versatile disc)などの光学ディスク136に格納されている情報を読出して、内部バス110を介して他のコンポーネントへ出力する。光学ディスク136は、非一過的(non-transitory)な記録媒体の一例であり、任意のプログラムを不揮発的に格納した状態で流通する。光学ドライブ134が光学ディスク136からプログラムを読み出して、二次記憶装置112などにインストールすることで、汎用コンピュータがサービス提供装置10(または、音声合成装置)として機能するようになる。したがって、本発明の主題は、二次記憶装置112などにインストールされたプログラム自体、または、本実施の形態に従う機能や処理を実現するためのプログラムを格納した光学ディスク136などの記録媒体でもあり得る。
【0046】
図2には、非一過的な記録媒体の一例として、光学ディスク136などの光学記録媒体を示すが、これに限らず、フラッシュメモリなどの半導体記録媒体、ハードディスクまたはストレージテープなどの磁気記録媒体、MO(magneto-optical disk)などの光磁気記録媒体を用いてもよい。
【0047】
二次記憶装置112は、プロセッサ100にて実行されるプログラム、プログラムが処理対象とする入力データ(学習用の入力音声およびテキスト、ならびに、携帯端末30からの入力音声などを含む)、および、プログラムの実行により生成される出力データ(携帯端末30へ送信される出力音声などを含む)などを格納するコンポーネントであり、例えば、ハードディスク、SSD(solid state drive)などの不揮発性記憶装置で構成される。
【0048】
より具体的には、二次記憶装置112は、典型的には、図示しないOS(operating system)の他、分析部12を実現するための分析プログラム121と、学習部14を実現するための学習プログラム141と、音声認識部20を実現するための音声認識プログラム201と、翻訳部22を実現するための翻訳プログラム221と、音声合成部18を実現するための音声合成プログラム181とを格納している。
【0049】
これらのプログラムをプロセッサ100で実行する際に必要となるライブラリや機能モジュールの一部を、OSが標準で提供するライブラリまたは機能モジュールを用いて代替するようにしてもよい。この場合には、各プログラム単体では、対応する機能を実現するために必要なプログラムモジュールのすべてを含むものにはならないが、OSの実行環境下にインストールされることで、必要な機能を実現できる。このような一部のライブラリまたは機能モジュールを含まないプログラムであっても、本発明の技術的範囲に含まれ得る。
【0050】
また、これらのプログラムは、上述したようないずれかの記録媒体に格納されて流通するだけでなく、インターネットまたはイントラネットを介してサーバ装置などからダウンロードすることで配布されてもよい。
【0051】
なお、実際には、音声認識部20および翻訳部22を実現するためのデータベースが必要となるが、説明の便宜上、それらのデータベースについては描いていない。
【0052】
二次記憶装置112は、DNN16に加えて、DNN16を構築するための、機械学習用の入力音声130および対応するテキスト132を格納していてもよい。
【0053】
図2には、単一のコンピュータがサービス提供装置10を構成する例を示すが、これに限らず、ネットワークを介して接続された複数のコンピュータが明示的または黙示的に連携して、多言語翻訳システム1およびその一部である音声合成システムを実現するようにしてもよい。
【0054】
コンピュータ(プロセッサ100)がプログラムを実行することで実現される機能の全部または一部を、集積回路などのハードワイヤード回路(hard-wired circuit)を用いて実現してもよい。例えば、ASIC(application specific integrated circuit)やFPGA(field-programmable gate array)などを用いて実現してもよい。
【0055】
当業者であれば、本発明が実施される時代に応じた技術を適宜用いて、本実施の形態に従う音声合成システムを実現できるであろう。
【0056】
[C.概要]
本実施の形態においては、SPSSに従う音声合成システムが提供される。本実施の形態に従う音声合成システムにおいては、励振源を示す源信号を周期成分と非周期成分とに分解することで、V/UVの判定を不要化した方式を採用する。源信号を表現する周期成分および非周期成分を示す音声パラメータをDNNに適用して学習を行なう。
【0057】
まず、関連技術に係る音声合成処理および当該音声合成処理をSPSSに適用する場合の処理について説明する。
図3は、関連技術に係る音声合成処理の概要を説明するための模式図である。
図3を参照して、関連技術に係る音声合成処理においては、パルス生成部250と、ホワイトノイズ生成部252と、切替部254と、音声合成フィルタ256とを含む。
図3に示す構成において、パルス生成部250、ホワイトノイズ生成部252、および、切替部254は、励振源をモデル化した部分に相当し、励振源からの源信号は、パルス生成部250から出力されるパルス系列と、ホワイトノイズ生成部252からの雑音系列とのうち、いずれか一方が切替部254にて選択されて、音声合成フィルタ256へ与えられる。パルス生成部250には、声の高さを示すF
0のパラメータが与えられ、F
0の逆数(基本周期/ピッチ周期)の間隔でパルス系列を出力する。なお、図示していないが、パルス生成部250には、声の大きさを示す振幅のパラメータが与えられてもよい。音声合成フィルタ256は、音声の音色を決定する部分であり、スペクトル包絡を示すパラメータが与えられる。
【0058】
図3に示す音声生成時のソースフィルタモデルにおいては、入力された音声波形を単位区間(例えば、フレーム単位)で区切るとともに、各単位区間が有声区間であるか無声区間であるかが判定され、有声区間についてはパルス系列が源信号として出力され、無声区間についてはノイズ系列が源信号として出力される。この有声区間と無声区間とを識別するパラメータがV/UVフラグである。
【0059】
図3に示すソースフィルタモデルをSPSSに適用する場合には、F
0、V/UVフラグ、スペクトル包絡が学習対象のパラメータとなる。したがって、各単位区間についてV/UVを正しく判定しなければならない。しかしながら、V/UVの判定、および、パルス系列およびノイズ系列が切替えられることによる不連続性を伴う源信号のモデル化は容易ではないので、合成音声に品質劣化が生じる可能性がある。
【0060】
そこで、本実施の形態においては、音声波形の各単位区間についてのV/UVを判定する必要のない手法を採用する。これにより、関連技術において生じ得る、V/UVの判定エラーによる合成音声の品質への影響を低減する。
【0061】
図4は、本実施の形態に従う音声合成処理の概要を説明するための模式図である。
図4を参照して、本実施の形態に従う音声合成処理においては、パルス生成部200と、音声合成フィルタ(周期成分)202と、ガウシアンノイズ生成部204と、音声合成フィルタ(非周期成分)206と、加算部208とを含む。
【0062】
本実施の形態においては、
図3に示すV/UVフラグを用いた源信号の切替えではなく、周期成分および非周期成分のそれぞれに源信号を用意する。すなわち、音声信号を周期成分および非周期成分に分解する。
【0063】
より具体的には、パルス生成部200および音声合成フィルタ(周期成分)202は、周期成分を生成する部分であり、パルス生成部200は、指定されたF
0に従うパルス(後述するように、連続的なパルス系列)を生成するとともに、音声合成フィルタ(周期成分)202が周期成分に対応するスペクトル包絡に応じたフィルタを当該連続的なパルス系列に乗じることで、合成音声に含まれる周期成分を出力する。
【0064】
このように、各単位区間がV/UVのいずれであるかによらず、連続的なパルス系列を用いることができるのは、周期成分の無音区間は非可聴なパワーであると仮定し、全区間を有声であると扱うためである。すなわち、無音や無声といった周期性をもたない区間において、周期成分に対応するスペクトル包絡は、十分に振幅が小さいと仮定する。この仮定に従うと、このような無音または無声の区間において、F
0のパルス系列から周期成分を生成したとしても、非可聴な程に十分に小さくなると考えられる。そのため、関連技術に係る音声合成処理において、パルス系列の生成を停止していた無声区間においても、本実施の形態に従う音声合成処理においては、パルス系列を発生することで、パルス系列の不連続性に起因する合成音声への影響を低減することができる。
【0065】
また、ガウシアンノイズ生成部204および音声合成フィルタ(非周期成分)206は、非周期成分を生成する部分であり、ガウシアンノイズ生成部204は、連続的なノイズ系列の一例として、ガウシアンノイズを生成するとともに、音声合成フィルタ(非周期成分)206が非周期成分に対応するスペクトル包絡に応じたフィルタを当該ノイズ系列に乗じることで、合成音声に含まれる非周期成分を出力する。
【0066】
最終的に、音声合成フィルタ(周期成分)202から出力される周期成分、および、音声合成フィルタ(非周期成分)206から出力される非周期成分が加算部208で加算されることで、合成音声を示す音声波形が出力される。
【0067】
このように、各単位区間がV/UVのいずれであるかによらず、ノイズ系列を用いることができるのは、非周期成分が無声信号および無音により構成されると仮定し、全区間を無声であると扱うためである。以上のように、有声区間および無声区間を区別する必要のない音響モデルを用いるとともに、その音響モデルに基づく学習を行なうことで、V/UVの判定を必要としない音声合成方法を実現できる。
【0068】
[D.学習処理および音声合成処理]
次に、本実施の形態に従う音声合成システムにおける学習処理および音声合成処理の詳細について説明する。
図5は、本実施の形態に従う音声合成システムにおける要部の処理を説明するためのブロック図である。
【0069】
図5を参照して、音声合成システムは、DNN16を構築するための分析部12および学習部14と、DNN16を用いて音声波形を出力する音声合成部18とを含む。以下、これらの各部の処理および機能について詳述する。
【0070】
(d1:分析部12)
まず、分析部12における処理および機能について説明する。分析部12は、音声分析を担当する部分であり、学習用の入力音声が示す音声波形から音響特徴量系列を生成する。本実施の形態に従う音声合成システムにおいて、フレーム毎の音響特徴量は、F
0およびスペクトル包絡(周期成分および非周期成分)を含む。
【0071】
より具体的には、分析部12は、F
0抽出部120と、周期/非周期成分抽出部122と、特徴量抽出部124とを含む。特徴量抽出部124は、F
0補間部126と、スペクトル包絡抽出部128とを含む。
【0072】
F
0抽出部120は、既知のテキストに対応する音声波形のF
0をフレーム(単位区間)毎に抽出する。すなわち、F
0抽出部120は、入力される音声波形からF
0をフレーム毎に抽出する。抽出されたF
0は、周期/非周期成分抽出部122および特徴量抽出部124へ与えられる。
【0073】
周期/非周期成分抽出部122は、入力される音声波形から周期成分および非周期成分をフレーム(単位区間)毎に抽出する。より具体的には、周期/非周期成分抽出部122は、入力される音声波形のF
0に基づいて、F
0から周期成分および非周期成分を抽出する。本実施の形態においては、源信号s(t)を以下の(1)式に示すように抽出する。
【0075】
但し、f
0(t)は、音声波形のフレームtにおけるF
0を示し、周期性信号s
pdc(t)は、音声波形のフレームtにおける周期成分を示し、非周期性信号s
apd(t)は、音声波形のフレームtにおける非周期成分を示す。
【0076】
このように、入力される音声波形のフレームt毎に、F
0が存在する場合には、源信号は周期成分および非周期成分を含むものとして扱い、F
0が存在しない場合には、源信号は非周期成分のみを含むものとして扱う。すなわち、周期/非周期成分抽出部122は、F
0抽出部120がF
0を抽出できないフレーム(単位区間)から非周期成分のみを抽出し、それ以外のフレームから周期成分および非周期成分を抽出する。
【0077】
本実施の形態においては、源信号の周期(harmonic)成分を表現する一例として、以下の(2)式に示すようなsinusoidalモデルを採用する。
【0079】
(2)式において、Jはharmonicの数を示す。すなわち、(2)式に示すsinusoidalモデルにおいては、harmonicでの周波数および振幅は線形的に近似されている。このsinusoidalモデルを解くにあたって、α
k,β
k,γ,φ
kの値をそれぞれ決定する必要がある。より具体的には、以下の(3)式に従って定義されるδを最小化する値が解として決定される。
【0081】
但し、ω(t)は、長さ2N
w+1の窓関数である。(3)式に従って定義されるδを最小化する値は、非特許文献8に示される解法によって決定される。
【0082】
周期/非周期成分抽出部122は、上述したような数学的な解法に従って、入力される音声波形に含まれる周期性信号s
pdc(t)および非周期性信号s
apd(t)を抽出する。
【0083】
特徴量抽出部124は、音響特徴量として、連続的なF
0、周期成分のスペクトル包絡、非周期成分のスペクトル包絡を出力する。スペクトル包絡としては、例えば、LSP(line spectral pair)、LPC(linear prediction coefficients)、メルケプストラム係数のいずれを採用してもよい。なお、音響特徴量としては、連続的なF
0の対数(以下、「連続的なlogF
0」とも略称する。)が用いられる。
【0084】
F
0補間部126は、F
0抽出部120が音声波形からフレーム毎に抽出されるF
0を補間して、連続的なF
0(F
0系列)を生成する。より具体的には、例えば、直近の1または複数のフレームにおいて抽出されたF
0から所定の補間関数に従って、対象のフレームにおけるF
0を決定できる。F
0補間部126におけるF
0の補間方法は、公知の任意の方法を採用できる。
【0085】
スペクトル包絡抽出部128は、抽出される周期成分および非周期成分のスペクトル包絡を抽出する。より具体的には、スペクトル包絡抽出部128は、F
0抽出部120が抽出したF
0に基づいて、周期/非周期成分抽出部122から出力される周期性信号s
pdc(t)および非周期性信号s
apd(t)から、スペクトル包絡を抽出する。すなわち、スペクトル包絡抽出部128は、フレーム毎の周期性信号s
pdc(t)に含まれる各周波数成分の分布特性を示す周期成分を示すスペクトル包絡(pdc)を抽出するとともに、フレーム毎の非周期性信号s
apd(t)に含まれる各周波数成分の分布特性を示す非周期成分を示すスペクトル包絡(apd)を抽出する。
【0086】
図6は、本実施の形態に従う音声合成システムにおいて出力される周期成分および非周期成分の音声波形の一例を示す図である。
図6には、一例として、話者が「すべて」と発したときの音声信号を示す。後述するように、DNN16において、フレーム単位で音響特徴量が学習される。
【0087】
図6(a)には、入力された音声波形(源信号)を示し、
図6(b)には、源信号から抽出された周期成分の音声波形を示し、
図6(c)には、源信号から抽出された非周期成分の音声波形を示す。F
0が抽出される区間の周期成分が
図6(b)に示すように抽出される一方、F
0が抽出される区間の非周期成分とF
0が抽出されない区間とは、
図6(c)のようになる。
図6(b)中において「non−F
0」とラベル付けされた区間では、振幅がほとんどゼロになっており、この区間がF
0が抽出されない区間に相当する。
【0088】
(d2:学習部14)
次に、学習部14における処理および機能について説明する。SPSSにおいては、入力されたテキストと当該テキストに対応する音声波形との関係を統計的に学習する。一般的に、この関係を直接モデル化することは容易ではない。そこで、本実施の形態に従う音声合成システムにおいては、入力されたテキストの文脈情報に基づくコンテキストラベル系列を生成するとともに、入力された音声波形からF
0およびスペクトル包絡を含む音響特徴量系列を生成する。そして、コンテキストラベル系列および音響特徴量系列を用いて学習することで、コンテキストラベル系列を入力とし、音響特徴量系列を出力する音響モデルを構築する。本実施の形態においては、DNNに従って統計モデルである音響モデルを構築する。その結果、DNN16には、構築される音響モデル(統計モデル)を示すパラメータが格納されることになる。
【0089】
図5に示す構成においては、コンテキストラベル系列を生成するコンポーネントとして、テキスト分析部162およびコンテキストラベル生成部164を含む。テキスト分析部162およびコンテキストラベル生成部164は、既知のテキストの文脈情報に基づくコンテキストラベルを生成する。
【0090】
コンテキストラベルは、学習部14および音声合成部18の両方で用いるため、学習部14および音声合成部18が共通に利用する構成例を示している。しかしながら、学習部14および音声合成部18の各々に、コンテキストラベルを生成するためのコンポーネントをそれぞれ実装するようにしてもよい。
【0091】
テキスト分析部162は、入力される学習用または合成対象のテキストを分析して、その文脈情報をコンテキストラベル生成部164へ出力する。コンテキストラベル生成部164は、テキスト分析部162からの分脈情報に基づいて、コンテキストラベルを決定してモデル学習部140へ出力する。
【0092】
本実施の形態に従う音声合成システムにおいては、フレーム毎の音響特徴量を用いて学習を行なうので、コンテキストラベル生成部164についても、フレーム毎のコンテキストラベルを生成する。一般的に、コンテキストラベルは音素単位で生成されるため、コンテキストラベル生成部164は、音素内における各フレームの位置情報を付与することで、フレーム単位のコンテキストラベルを生成する。
【0093】
モデル学習部140は、分析部12からの音響特徴量系列142と、コンテキストラベル生成部164からのコンテキストラベル系列166とを入力として、DNNを用いて音響モデルを学習する。このように、モデル学習部140は、F
0、周期成分のスペクトル包絡、非周期成分のスペクトル包絡を含む音響特徴量と、対応するコンテキストラベルとを対応付けて学習することで、統計モデルである音響モデルを構築する。
【0094】
モデル学習部140でのDNNに基づく音響モデルの学習においては、フレーム毎にコンテキストラベルを入力するとともに、フレーム毎の音響特徴量ベクトル(要素として、少なくとも、連続的なlogF
0、周期成分のスペクトル包絡、非周期成分のスペクトル包絡を含む)を出力とするDNNを用いることで、確率分布のモデル化を行なう。典型的には、モデル学習部140は、正規化された音響特徴量ベクトルについての平均二乗誤差を最小化するようにDNNを学習する。このようなDNNの学習は、以下の(4)式に示すように、フレーム毎に変化する平均ベクトルおよびコンテキスト非依存の共分散行列をもつ正規分布により、確率分布のモデル化を行なうことと等価である。
【0096】
但し、λはDNNのパラメータセットを示し、Uはグローバルな共分散行列を示し、μtはDNNにより推定される音声パラメータの平均ベクトルを示す。したがって、生成された確率分布系列は、時変な平均ベクトルおよび時不変な共分散行列をもつことになる。
【0097】
(d3:音声合成部18)
次に、音声合成部18における処理および機能について説明する。音声合成部18は、合成対象のテキストから生成されるフレーム毎のコンテキストラベルを生成し、生成したフレーム毎のコンテキストラベルをDNN16に入力することで、確率分布系列を推定する。そして、推定した確率分布系列に基づいて、学習時とは逆の処理を経て、音声波形を合成する。
【0098】
より具体的には、音声合成部18は、音響特徴量推定部180と、パルス生成部184と、周期成分生成部186と、非周期成分生成部188と、加算部187とを含む。
【0099】
何らかの合成対象のテキストが入力されると、テキスト分析部162が入力されたテキストを分析して文脈情報を出力し、コンテキストラベル生成部164が分脈情報に基づいてコンテキストラベルを生成する。すなわち、テキスト分析部162およびコンテキストラベル生成部164は、任意のテキストの入力に応答して、当該テキストの文脈情報に基づくコンテキストラベルを決定する。
【0100】
音響特徴量推定部180は、DNN16に構築された統計モデルである音響モデルから決定されたコンテキストラベルに対応する音響特徴量を推定する。より具体的には、音響特徴量推定部180は、生成されたフレーム毎のコンテキストラベルを、学習された音響モデルを示すDNN16に入力する。音響特徴量推定部180は、入力されたコンテキストラベルに対応する音響特徴量をDNN16から推定する。コンテキストラベル系列の入力に対応して、DNN16からはフレーム毎に平均ベクトルのみが変化する確率分布系列である音響特徴量系列182が出力される。
【0101】
音響特徴量系列182に含まれる、補間された連続的なF
0(F
0系列)、周期成分のスペクトル包絡、非周期成分のスペクトル包絡は、DNN16を用いて、コンテキストラベル系列から推定される。
【0102】
補間された連続的なF
0(F
0系列)は、連続分布として表現できるため、連続的なパルス系列から構成される。周期成分のスペクトル包絡および非周期成分のスペクトル包絡は、それぞれについてモデル化される。
【0103】
パルス生成部184および周期成分生成部186は、推定された音響特徴量に含まれるF
0に従って生成されたパルス系列を、周期成分のスペクトル包絡に応じてフィルタリングすることで、周期成分を再構成する。より具体的には、パルス生成部184は、音響特徴量推定部180からのF
0(F
0系列)に従ってパルス系列を生成する。周期成分生成部186は、パルス生成部184からのパルス系列を周期成分のスペクトル包絡でフィルタリングすることで、周期成分を生成する。
【0104】
非周期成分生成部188は、ガウシアンノイズ系列などのノイズ系列を非周期成分のスペクトル包絡に応じてフィルタリングすることで、非周期成分を再構成する。より具体的には、非周期成分生成部188は、任意の励振源からのガウス性ノイズを非周期成分のスペクトル包絡でフィルタリングすることで、非周期成分を生成する。
【0105】
加算部187は、周期成分生成部186からの周期成分と非周期成分生成部188からの非周期成分とを加算することで、音声波形を再構成する。すなわち、加算部187は、再構成された周期成分および非周期成分を加算して、入力された任意のテキストに対応する音声波形として出力する。
【0106】
上述したように、本実施の形態に従う音声合成システムにおいては、予め学習により構築されたDNN16を用いて、フレーム毎のコンテキストラベルについて確率分布系列を推定するとともに、静的特徴量と動的特徴量との間の明示的な関係を利用することで,適切に遷移する音響特徴量系列を生成する。そして、生成された音響特徴量系列をボコーダーに適用することで、推定された音響特徴量から合成音声を生成する。
【0107】
このように、本実施の形態に従う音声合成システムにおいては、V/UVの判定を行なうことなく、連続的な系列から音声波形を生成できる。
【0108】
なお、本実施の形態においては、典型例として、学習手段としてDNNを用いるシステムを説明するが、学習手段としてはDNNに限られず、任意の教師あり学習の方法を採用できる。例えば、HMMや再帰型ニューラルネットワーク(Recurrent Neural Network)などを採用してもよい。
【0109】
[E.処理手順]
図7および
図8は、本実施の形態に従う音声合成システムにおける処理手順の一例を示すフローチャートである。
図7および
図8に示す各ステップは、1または複数のプロセッサ(例えば、
図2に示すプロセッサ100)が1または複数のプログラムを実行することで実現されてもよい。
【0110】
図7には、DNN16を構築するための事前の機械学習の処理を示し、
図8には、DNN16を用いた音声合成の処理を示す。
【0111】
図7を参照して、プロセッサ100は、既知のテキストおよび当該テキストに対応する音声波形が入力されると(ステップS100)、入力された音声波形をフレームに区切り(ステップS102)、フレーム毎に、入力されたテキストからコンテキストラベルを生成する処理(ステップS110〜S112)、および、音響特徴量系列を生成する処理(ステップS120〜S128)を実行することで、コンテキストラベル系列および音響特徴量系列を生成する。
【0112】
すなわち、プロセッサ100は、入力されたテキストを分析して文脈情報を生成し(ステップS110)、当該生成された文脈情報に基づいて、対応するフレームについてのコンテキストラベルを決定する(ステップS112)。
【0113】
また、プロセッサ100は、入力された音声波形の対象フレームにおけるF
0を抽出し(ステップS120)、先に抽出されたF
0との間で補間処理を行なうことで、連続的なF
0を決定する(ステップS122)。そして、プロセッサ100は、入力された音声波形の対象フレームにおける周期成分および非周期成分を抽出し(ステップS124)、それぞれの成分についてのスペクトル包絡を抽出する(ステップS126)。プロセッサ100は、ステップS122において決定した連続的なF
0の対数、ならびに、ステップS126において抽出したスペクトル包絡(周期成分および非周期成分)を音響特徴量として決定する(ステップS128)。
【0114】
プロセッサ100は、ステップS112において決定されたコンテキストラベルと、ステップS128において決定された音響特徴量とをDNN16に追加する(ステップS130)。そして、プロセッサ100は、未処理のフレームが存在するか否かを判断し(ステップS132)、未処理のフレームが存在する場合(ステップS132においてYESの場合)には、ステップS110〜S112、および、ステップS120〜S128の処理を繰返す。また、未処理のフレームが存在しない場合(ステップS132においてNOの場合)には、プロセッサ100は、新たなテキストおよび当該テキストに対応する音声波形が入力されたか否かを判断し(ステップS134)、新たなテキストおよび当該テキストに対応する音声波形が入力された場合(ステップS134においてYESの場合)には、ステップS102以下の処理を繰返す。
【0115】
新たなテキストおよび当該テキストに対応する音声波形が入力されていない場合(ステップS134においてNOの場合)には、学習処理は終了する。
【0116】
なお、上述の説明においては、コンテキストラベルおよび音響特徴量が生成される毎に、DNN16へ入力する処理例を示すが、対象の音声波形からコンテキストラベル系列および音響特徴量系列の生成が完了した後に、まとめてDNN16へ入力するようにしてもよい。
【0117】
次に、
図8を参照して、プロセッサ100は、合成対象のテキストが入力されると(ステップS200)、入力されたテキストを分析して文脈情報を生成し(ステップS202)、当該生成された文脈情報に基づいて、対応するフレームについてのコンテキストラベルを決定する(ステップS204)。そして、プロセッサ100は、ステップS204において決定したコンテキストラベルに対応する音響特徴量をDNN16から推定する(ステップS206)。
【0118】
プロセッサ100は、推定した音響特徴量に含まれるF
0に従ってパルス系列を発生する(ステップS208)とともに、推定した音響特徴量に含まれるスペクトル包絡(周期成分)で当該発生したパルス系列をフィルタリングすることで、音声波形の周期成分を生成する(ステップS210)。
【0119】
また、プロセッサ100は、ガウシアンノイズ系列を発生する(ステップS212)とともに、推定した音響特徴量に含まれるスペクトル包絡(非周期成分)で当該発生したガウシアンノイズ系列をフィルタリングすることで、音声波形の非周期成分を生成する(ステップS214)。
【0120】
最終的に、プロセッサ100は、ステップS210において生成した周期成分とステップS214において生成した非周期成分とを加算して、合成音声の音声波形として出力する(ステップS216)。そして、入力されたテキストに対する音声合成処理は終了する。なお、ステップS206〜S216の処理は、入力されたテキストを構成するフレームの数だけ繰返される。
【0121】
[F.実験的評価]
次に、本実施の形態に従う音声合成システムのおける有効性について実施した実験的評価について説明する。
【0122】
(f1:実験条件)
本実施の形態に係る実施例の比較対象となる比較例として、一般的なDNN音声合成を用いた。
【0123】
音声データとして、日本語女性話者1名により発声されたATR音素バランス文503文を用いた。このうち、493文を学習データとして用いるとともに、残り10文を評価文として用いた。
【0124】
音声データのサンプリング周波数は16kHzとし、分析周期は5msとした。学習データの音声データに対するWORLD分析によって得られた、スペクトルおよび非周期性指標(AP)を、それぞれ39次のメルケプストラム係数(0次を含めて40次)として表現した。
【0125】
logF
0については、公知の複数の抽出法による結果を統合することで算出した上で、平滑化によってマイクロプロソディを除去した。
【0126】
実施例の音素継続長モデルは、比較例のHMM音声合成と同様に、音素単位のコンテキストラベルを用いて、5状態のスキップ無しleft-to-right型のコンテキスト依存音素HSMM(hidden semi-Markov model:隠れセミマルコフモデル)を学習した。また、DNNによる音響モデルの学習では、さらに無声区間を補間した連続logF
0パターンを用いた。これらのパラメータに対して、さらに1次動的特徴量および2次動的特徴量を付与したものを音響特徴量とした。
【0127】
比較例のDNN音声合成については、上記特徴量に加え、V/UV情報を用いた。入力ベクトルは、音素単位のコンテキストラベルに対して、HSMMの継続長モデルから得られた継続長情報を付与することで、フレーム毎のコンテキストラベルを生成し、合計483次元のベクトルとして表現した。
【0128】
出力ベクトルは、比較例が244次元の音響特徴量のベクトルとし、実施例が243次元の音響特徴量のベクトルとした。
【0129】
実施例および比較例にそれぞれ用いた特徴量およびモデルの一覧を以下の表1に示す。但し、入力ベクトルおよび出力ベクトルは、いずれも平均が0、分散が1となるように正規化した。
【0130】
DNNのネットワーク構成は、隠れ層を6層とし、ユニット数1024とした上で、重みは乱数を用いて初期化した。また、ミニバッチサイズは256として、epoch数は30として、学習係数は2.5×10
4として、隠れ層の活性化関数はReLU(rectied linear unit)とし、optimizerはAdamとした。また、重み0.5のDropoutも用いた。
【0132】
(f2:主観評価)
表1に示すように、実施例と比較例との間で音響特徴量が異なっているため、客観評価ではなく主観評価にて評価した。より具体的には、対比較実験により合成音声の自然性を比較した。
【0133】
上述したように、ATR音素バランス文503文のうち学習データとしなかった10文を評価音声とした。実施例および比較例のそれぞれによって生成された合成音声を被験者(内訳:男性4名、女性1名)に聞いてもらい、より自然性である(音声品質が高い)と感じたものを選択してもらった。但し、提示音声対に差が感じられない際には、「どちらでもない」という選択肢を認めた。
【0134】
なお、実施例および比較例ともに、スペクトル包絡のメルケプストラム係数に対するポストフィルタを適用した。
【0135】
図9は、本実施の形態に従う音声合成システムについての対比較実験の評価結果例を示す図である。
図9において、比較例の非周期性指標(AP)は0.0から1.0の間で非周期性を表現している。
【0136】
図9中のαはAPのしきい値を示す。α=0.0の場合に完全に有声となり、α=1.0の場合に完全に無声となる。APがしきい値αより低い場合は有声とし、高い場合は無声とした。
【0137】
予備実験においてV/UVの判定エラー率の低かったしきい値として、α=0.5およびα=0.6を用いた(
図9(a)および(b))。また、
図9(c)の「reference」は、V/UVの判定結果の正解を与えた場合の結果を示す。
【0138】
図9(a)〜(c)に示すいずれの場合についても、実施例が比較例に対して、検定統計量のp値がp<0.01となり、有意性を示したことが確認された。
【0139】
(f3:実験的評価の結論)
本実施の形態に従う音声合成システムにおいては、入力音声を周期成分/非周期成分に分離することにより、連続的にF
0およびスペクトル包絡のトラジェクトリを表現できた。このような手法を採用することにより、モデリング精度の改善およびV/UVの判定エラーの回避といった利点を得ることができたと考えられる。
【0140】
上述の主観評価の結果によれば、本実施の形態に係る実施例は、比較例に対して正しいV/UV情報が与えられたときでさえ、より優れた性能を示した。このような結果によれば、周期成分と非周期成分とに分離したモデリングが品質改善に寄与していると評価できる。
【0141】
[G.まとめ]
本実施の形態に従う音声合成システムにおいては、SPSSを実施するにあたって、源信号についてV/UVを判定する必要のない手法を採用した。V/UVを判定する代わりに、源信号を周期成分と非周期成分との組み合わせとして表現することで、V/UVの判定エラーによる合成音声への品質劣化を抑制することができる。また、F
0系列を連続化することで、構築される音響モデルのモデリング精度を向上することもできる。
【0142】
本実施の形態に従う音声合成システムによる合成音声については、主観評価ながら、従来の手法に比較して、十分に品質を向上させることができることが示された。
【0143】
今回開示された実施の形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施の形態の説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。