(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-08
(45)【発行日】2024-04-16
(54)【発明の名称】学習装置、音声合成装置及びプログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20240409BHJP
【FI】
G10L13/10 111Z
(21)【出願番号】P 2019181862
(22)【出願日】2019-10-02
【審査請求日】2022-09-01
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】399060908
【氏名又は名称】一般財団法人NHK財団
(74)【代理人】
【識別番号】100121119
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】栗原 清
(72)【発明者】
【氏名】熊野 正
(72)【発明者】
【氏名】今井 篤
【審査官】中村 天真
(56)【参考文献】
【文献】特開2020-106643(JP,A)
【文献】特開2018-146803(JP,A)
【文献】国際公開第2018/216729(WO,A1)
【文献】松永 悟行ほか,“深層学習を用いた日本語音声合成における基本周波数に適した言語特徴量の正規化手法”,電子情報通信学会論文誌D ,2019年10月,第J102-D巻, 第10号,p.721-729
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
(57)【特許請求の範囲】
【請求項1】
予め音声信号がテキストに対応するように設定された前記テキスト及び前記音声信号に基づいて、音声合成に用いる時間長モデル及び音響モデルを学習する学習装置において、
予め設定された前記テキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
予め設定された前記テキストに対応する前記音声信号について音声分析処理を行い、音響特徴量を求める音声分析部と、
前記文脈質問群処理部により生成された前記言語特徴行列と前記音声分析部により求めた前記音響特徴量との時間的な対応付けを行い、音素毎の継続時間長を求め、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める対応付け部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記対応付け部により求めた前記音素毎の継続時間長を用いて、前記時間長モデルを学習し、前記対応付け部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を用いて、前記音響モデルを学習する学習部と、
を備えたことを特徴とする学習装置。
【請求項2】
請求項1に記載の学習装置において、
前記学習部は、
前記時間長モデル及び前記音響モデルについて深層学習(DL:Deep Learning)を行う、ことを特徴とする学習装置。
【請求項3】
請求項1に記載の学習装置において、
前記相対値化部は、
前記韻律に関わる時間情報を、
現在着目している音素の属する位置であって、発話内の呼気段落単位での位置、発話内の呼気段落のアクセント句単位での位置、発話内の呼気段落の拍単位での位置、呼気段落内のアクセント句単位での位置、呼気段落内のアクセント句の拍単位での位置、アクセント句内の拍単位での位置、及びアクセント句内のアクセント核からの拍単位での位置のうちの1つまたは複数の情報とし、
現在着目している音素の属する位置の相対値であって、前記発話内の呼気段落単位での位置の相対値、前記発話内の呼気段落のアクセント句単位での位置の相対値、前記発話内の呼気段落の拍単位での位置の相対値、前記呼気段落内のアクセント句単位での位置の相対値、前記呼気段落内のアクセント句の拍単位での位置の相対値、前記アクセント句内の拍単位での位置の相対値、及び前記アクセント句内のアクセント核からの拍単位での位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする学習装置。
【請求項4】
請求項1または2の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、
前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、
前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、
を備えたことを特徴とする音声合成装置。
【請求項5】
請求項3の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、
前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、
前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備え、
前記相対値化部は、
前記韻律に関わる時間情報を、
現在着目している音素の属する位置であって、発話内の呼気段落単位での位置、発話内の呼気段落のアクセント句単位での位置、発話内の呼気段落の拍単位での位置、呼気段落内のアクセント句単位での位置、呼気段落内のアクセント句の拍単位での位置、アクセント句内の拍単位での位置、及びアクセント句内のアクセント核からの拍単位での位置のうちの1つまたは複数の情報とし、
現在着目している音素の属する位置の相対値であって、前記発話内の呼気段落単位での位置の相対値、前記発話内の呼気段落のアクセント句単位での位置の相対値、前記発話内の呼気段落の拍単位での位置の相対値、前記呼気段落内のアクセント句単位での位置の相対値、前記呼気段落内のアクセント句の拍単位での位置の相対値、前記アクセント句内の拍単位での位置の相対値、及び前記アクセント句内のアクセント核からの拍単位での位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする音声合成装置。
【請求項6】
コンピュータを、請求項1から3までのいずれか一項に記載の学習装置として機能させるためのプログラム。
【請求項7】
コンピュータを、請求項4または5に記載の音声合成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト及び音声信号を用いて統計モデルを学習する学習装置、統計モデルを用いてテキストから音声信号を合成する音声合成装置、及びこれらのプログラムに関する。
【背景技術】
【0002】
従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する音声信号を合成する方法として、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いた深層学習(DL:Deep Learning)に基づく技術が知られている(例えば、非特許文献1を参照)。
【0003】
図18は、非特許文献1に記載された従来の事前学習処理のフローを示す説明図である。従来の事前学習を行う学習装置は、事前に用意されたテキストとこれに対応する音声信号を用いて、時間長モデル及び音響モデルを学習する。
【0004】
具体的には、学習装置は、テキストについては、音声コーパスから読み出して言語分析処理により文脈依存ラベルを求め(ステップS1801)、事前に用意した文脈に関する質問群を適用して言語特徴行列を求める(ステップS1802)。また、学習装置は、音声信号については、音声コーパスから読み出して音声分析処理により音響特徴量を求める(ステップS1803)。
【0005】
学習装置は、言語特徴行列と音響特徴量との間の時間対応付けを行うことにより、音素毎の継続時間長を求め(ステップS1804)、音素毎の継続時間長及び言語特徴行列から言語特徴量を求める(ステップS1805)。そして、学習装置は、言語特徴行列及び音素毎の継続時間長を用いて、時間長モデルを学習する(ステップS1806)。また、学習装置は、言語特徴量及び音響特徴量を用いて音響モデルを学習する(ステップS1807)。
【0006】
図19は、非特許文献1に記載された従来の音声合成処理のフローを示す説明図である。従来の音声合成を行う音声合成装置は、任意のテキストを入力し、テキストから言語分析処理により文脈依存ラベルを求め(ステップS1901)、事前に用意した文脈に関する質問群を適用して言語特徴行列を求める(ステップS1902)。
【0007】
音声合成装置は、言語特徴行列及び事前に学習した時間長モデルを用いて、音素毎の継続時間長を推定し(ステップS1903)、音素毎の継続時間長及び言語特徴行列から言語特徴量を求める(ステップS1904)。
【0008】
音声合成装置は、言語特徴量及び事前に学習した音響モデルを用いて、音響特徴量を推定する(ステップS1905)。そして、音声合成装置は、音響特徴量から音声生成処理にて音声信号波形を求めることにより、任意のテキストに対する合成した音声信号を得る(ステップS1906)。
【0009】
これらの一連の処理において、言語特徴量を求めるためには、学習装置及び音声合成装置は、まず、テキストに対して形態素解析及び構文解析等の言語分析処理を行い、これにより得られる情報に基づいて、文脈依存ラベルを求める。文脈依存ラベルは、所定の文脈依存ラベル形式で記述されたものであり、発話毎に求められ、音素単位で構成される。文脈依存ラベルの形式は言語によって異なるが、日本語においては、所定の形式を利用することができる(例えば、非特許文献2を参照)。
【0010】
学習装置及び音声合成装置は、次に、事前に文脈に関する質問群(例えば、非特許文献3を参照)を用意しておき、文脈依存ラベルにおける各行の音素の情報に質問群を適用し、言語特徴行列を求める。学習装置は、次に、言語特徴行列と音響特徴量との間の時間対応付けを行うことにより、音素毎の継続時間長を求める。一方、音声合成装置は、言語特徴行列及び事前に学習した時間長モデルを用いて、音素毎の継続時間長を推定する。
【0011】
学習装置及び音声合成装置は、発話内における現在着目している音素の継続時間長に応じたフレーム(音響特徴量の処理単位)数分の言語特徴行列に、それぞれ音素の継続時間長に応じたフレーム数及びフレーム内の位置情報を付加することにより、音響特徴量に対応する言語特徴量を得る。
【先行技術文献】
【非特許文献】
【0012】
【文献】Zhizheng Wu, Oliver Watts, Simon King,“Merlin:An Open Source Neural Network Speech Synthesis System”, in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA.
【文献】“An example of context-dependent label format for HMM-based speech synthesis in Japanese”、[online]、HTS Working Group、Dec. 25, 2015、[令和1年9月7日検索]、インターネット<URL:http://hts.sp.nitech.ac.jp/>
【文献】“Added japanese question set compatible with OpenJTalk produced labels.”、[online]、HTS Working Group、Dec. 25, 2015、[令和1年9月7日検索]、インターネット<URL:https://github.com/CSTR-Edinburgh/merlin/blob/master/misc/questions/questions-japanese.hed>
【発明の概要】
【発明が解決しようとする課題】
【0013】
前述の非特許文献1の方法においては、前述の非特許文献2に記載された形式に対応した文脈依存ラベルに、前述の非特許文献3に記載された文脈に関する質問群を適用して数値化することにより、言語特徴行列を求める。
【0014】
しかしながら、この方法では、言語特徴行列の取り得る数値の組み合わせが膨大なものとなる。これは、言語特徴行列を構成する複数の要素について、取り得る数値の範囲が広くてまちまちであり、統一されていないからである。
【0015】
図18に示した事前学習処理においては、次元毎に正規化処理及び標準化処理を行うことで、統計モデルの学習が行われる。また、
図19に示した音声合成処理においては、次元毎に正規化処理及び逆標準化処理を行うことで、統計モデルを用いた特徴量の推定が行われる。しかし、これらの処理に用いる言語特徴行列を構成する複数の要素のそれぞれは、特に連続的な数値の取り得る範囲が広い。
【0016】
事前学習処理においては、言語特徴行列の取り得る数値の組み合わせをカバーすることができず、言語特徴行列の要素によっては連続的に分布しないため、疎(スパース)な状態となり、精度の高い統計モデルを学習することができない。そして、音声合成処理においては、任意のテキストを入力として言語特徴行列を求めたときに、その要素が連続的な数値の取り得る範囲の中にあるとしても、このような統計モデルを用いる限り、音素毎の継続時間長及び音響特徴量の推定精度が低くなってしまう。
【0017】
また、言語特徴行列の要素が、連続的な数値の取り得る範囲を超える外れ値となることにより、音素毎の継続時間長及び音響特徴量を推定する際に誤りが生じてしまう。これでは、合成した音声信号の品質が劣化し、音質が不安定となる可能性がある。
【0018】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることが可能な学習装置、音声合成装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0019】
前記課題を解決するために、請求項1の学習装置は、予め音声信号がテキストに対応するように設定された前記テキスト及び前記音声信号に基づいて、音声合成に用いる時間長モデル及び音響モデルを学習する学習装置において、予め設定された前記テキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、予め設定された前記テキストに対応する前記音声信号について音声分析処理を行い、音響特徴量を求める音声分析部と、前記文脈質問群処理部により生成された前記言語特徴行列と前記音声分析部により求めた前記音響特徴量との時間的な対応付けを行い、音素毎の継続時間長を求め、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める対応付け部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記対応付け部により求めた前記音素毎の継続時間長を用いて、前記時間長モデルを学習し、前記対応付け部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を用いて、前記音響モデルを学習する学習部と、を備えたことを特徴とする。
【0020】
また、請求項2の学習装置は、請求項1に記載の学習装置において、前記学習部が、前記時間長モデル及び前記音響モデルについて深層学習(DL:Deep Learning)を行う、ことを特徴とする。
【0021】
また、請求項3の学習装置は、請求項1に記載の学習装置において、前記相対値化部が、前記韻律に関わる時間情報を、現在着目している音素の属する位置であって、発話内の呼気段落単位での位置、発話内の呼気段落のアクセント句単位での位置、発話内の呼気段落の拍単位での位置、呼気段落内のアクセント句単位での位置、呼気段落内のアクセント句の拍単位での位置、アクセント句内の拍単位での位置、及びアクセント句内のアクセント核からの拍単位での位置のうちの1つまたは複数の情報とし、現在着目している音素の属する位置の相対値であって、前記発話内の呼気段落単位での位置の相対値、前記発話内の呼気段落のアクセント句単位での位置の相対値、前記発話内の呼気段落の拍単位での位置の相対値、前記呼気段落内のアクセント句単位での位置の相対値、前記呼気段落内のアクセント句の拍単位での位置の相対値、前記アクセント句内の拍単位での位置の相対値、及び前記アクセント句内のアクセント核からの拍単位での位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする。
【0022】
さらに、請求項4の音声合成装置は、請求項1または2の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備えたことを特徴とする。
【0023】
また、請求項5の音声合成装置は、請求項3の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備え、前記相対値化部が、前記韻律に関わる時間情報を、現在着目している音素の属する位置であって、発話内の呼気段落単位での位置、発話内の呼気段落のアクセント句単位での位置、発話内の呼気段落の拍単位での位置、呼気段落内のアクセント句単位での位置、呼気段落内のアクセント句の拍単位での位置、アクセント句内の拍単位での位置、及びアクセント句内のアクセント核からの拍単位での位置のうちの1つまたは複数の情報とし、現在着目している音素の属する位置の相対値であって、前記発話内の呼気段落単位での位置の相対値、前記発話内の呼気段落のアクセント句単位での位置の相対値、前記発話内の呼気段落の拍単位での位置の相対値、前記呼気段落内のアクセント句単位での位置の相対値、前記呼気段落内のアクセント句の拍単位での位置の相対値、前記アクセント句内の拍単位での位置の相対値、及び前記アクセント句内のアクセント核からの拍単位での位置の相対値のうちの、前記韻律に関わる時間情報に対応する1つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする。
【0024】
さらに、請求項6のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の学習装置として機能させることを特徴とする。
【0025】
さらに、請求項7のプログラムは、コンピュータを、請求項4または5に記載の音声合成装置として機能させることを特徴とする。
【発明の効果】
【0026】
以上のように、本発明によれば、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。
【図面の簡単な説明】
【0027】
【
図1】本発明の実施形態による学習装置の構成を示すブロック図である。
【
図2】学習装置の事前学習処理を示すフローチャートである。
【
図3】言語分析部のステップS201の言語分析処理、及び文脈依存ラベルのデータ構成を説明する図である。
【
図4】非特許文献2に記載された文脈依存ラベルの形式例を示す図である。
【
図5】文脈依存相対ラベルを生成する際の、韻律に関わる時間情報の相対値化処理の例を説明する図である。
【
図6】非特許文献3に記載された文脈に関する質問群例を示す図である。
【
図7】文脈質問群処理部のステップS203の文脈質問群適用処理、及び音素毎の言語特徴行列のデータ構成を説明する図である。
【
図8】音声分析部のステップS204の音声分析処理、及びフレーム毎の音響特徴量のデータ構成を説明する図である。
【
図9】対応付け部のステップS205の音素アライメント処理、及び音素毎の継続時間長のデータ構成を説明する図である。
【
図10】対応付け部のステップS206の言語特徴量抽出処理、及びフレーム毎の言語特徴量のデータ構成を説明する図である。
【
図11】学習部のステップS207の時間長モデル学習処理を説明する図である。
【
図12】学習部のステップS208の音響モデル学習処理を説明する図である。
【
図13】本発明の実施形態による音声合成装置の構成を示すブロック図である。
【
図14】音声合成装置の音声合成処理を示すフローチャートである。
【
図15】音声生成部の音声生成処理を説明する図である。
【
図18】非特許文献1に記載された従来の事前学習処理のフローを示す説明図である。
【
図19】非特許文献1に記載された従来の音声合成処理のフローを示す説明図である。
【発明を実施するための形態】
【0028】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、テキストを言語分析して生成した文脈依存ラベルについて、韻律に関わる時間情報を相対値化して文脈依存相対ラベルを生成し、文脈依存相対ラベルに文脈質問群を適用して言語特徴行列を生成することを特徴とする。
【0029】
これにより、事前学習処理において、韻律に関わる時間情報を相対値化することで、言語特徴行列の所定の要素において、取り得る数値の範囲内で連続的に分布させることができ、疎な状態となる程度を低減することができる。そして、精度の高い統計モデル(時間長モデル及び音響モデル)を学習することができる。
【0030】
また、音声合成処理において、このような時間長モデル及び音響モデルを用いることで、音素毎の継続時間長及び音響特徴量を推定する際の精度を高くすることができる。また、言語特徴行列の要素は、外れ値になり難くなるから、時間長モデル及び音響モデルを用いて音素毎の継続時間長及び音響特徴量を推定する際に、誤りが生じ難くなる。
【0031】
したがって、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。
【0032】
以下、本発明の実施形態について、時間長モデル及び音響モデルを事前学習する学習装置、及び、学習装置により学習された時間長モデル及び音響モデルを用いて、音声合成を行う音声合成装置について説明する。学習装置及び音声合成装置が扱う音声信号はモノラルであり、標本化周波数は48kHz、ビット数は16で標本化されているものとする。
【0033】
尚、本発明の実施形態では、日本語を対象として説明するが、他の言語においても、文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化する手法を適用することができる。
【0034】
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。
図1は、本発明の実施形態による学習装置の構成を示すブロック図であり、
図2は、学習装置の事前学習処理を示すフローチャートである。
【0035】
この学習装置1は、音声コーパスが記憶された記憶部10、言語分析部11、相対値化部12、文脈質問群処理部13、音声分析部14、対応付け部15、学習部16、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18を備えている。
【0036】
(音声コーパス)
記憶部10には、予め設定された音声コーパスが格納されている。音声コーパスは、予め設定されたテキストと、これに対応する予め設定された音声信号から構成される。例えば、ATR(株式会社国際電気通信基礎技術研究所)により作成された音素バランス503文を利用する場合、テキストとこれを読み上げた音声信号は、503対からなる。例えば、503対のうち統計モデルの訓練用に493対、評価用に8対、テスト用に5対を利用する。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、 pp.89-90(1988.3)
【0037】
(言語分析部11)
言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、テキストについて既知の言語分析処理を行う(ステップS201)。そして、言語分析部11は、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報等の各情報を求め、文脈依存ラベルを生成する。言語分析部11は、音素毎の文脈依存ラベルを相対値化部12に出力する。
【0038】
図3は、言語分析部11のステップS201の言語分析処理、及び文脈依存ラベルのデータ構成を説明する図である。
図3に示すように、文脈依存ラベルは、
図2のステップS201の言語分析処理により生成され、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。この例は、テキストが「あらゆる現実を、すべて自分の方へ捻じ曲げたのだ。」の場合の文脈依存ラベルである。
【0039】
言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab:Yet Another Part-of-Speech and Morphological Analyzer”,インターネット<URL:http://taku910.github.io/mecab/>
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜:Yet Another Japanese Dependency Structure Analyzer”,インターネット<URL:https://taku910.github.io/cabocha/>
【0040】
(文脈依存ラベルの形式)
文脈依存ラベルの形式は言語によって異なるが、日本語においては、例えば前述の非特許文献2に記載された形式を利用することができる。
図4は、非特許文献2に記載された文脈依存ラベルの形式例を示す図である。
【0041】
図4に示す文脈依存ラベルの形式では、文脈依存ラベルにおいて、現在着目している音素に関する情報が1行に記述される。音素毎の文脈依存ラベルとしては、現在着目している音素及びこれに隣接する前後2つの音素を併せた5つの音素(p1~p5)、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1~a3)、現在着目している音素の属するアクセント句における形態素の品詞及びその活用形並びに活用型(c1~c3)、現在着目している音素の属するアクセント句に隣接するアクセント句における形態素の品詞及びその活用形並びに活用型(b1~b3,d1~d3)、現在着目している音素の属するアクセント句の拍数、アクセント核の拍単位での位置及びアクセント句のタイプ(疑問形か疑問形でないか)並びに現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f1~f8)、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置並びに現在着目している音素の属するアクセント句と隣接するアクセント句との間のポーズの有無(e1~e5,g1~g5)、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1~i8)、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)、発話内の呼気段落数、アクセント句数及び拍数(k1~k3)等が使用される。
【0042】
文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成される。韻律に関わる情報のうちの時間情報は、相対値化部12による相対値化処理の対象である。
図4に示した文脈依存ラベルの形式において、韻律に関わる時間情報は、a1~a3,f1,f2,f5~f8,e1,e2,g1,g2,i1~i8,h1,h2,j1,j2である。
【0043】
(相対値化部12)
相対値化部12は、言語分析部11から音素毎の文脈依存ラベルを入力し、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行う(ステップS202)。そして、相対値化部12は、音素毎に、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成し、音素毎の文脈依存相対ラベルを文脈質問群処理部13に出力する。ここでの相対値は、例えば0~1の範囲における実数値である。
【0044】
前述のとおり、文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成され、この韻律に関わる情報は、絶対的な整数値である。これに対し、文脈依存相対ラベルも、音韻に関わる情報及び韻律に関わる情報から構成されるが、この韻律に関わる情報のうち時間情報については、相対的な実数値であり、時間情報以外の情報については、絶対的な整数値である。
【0045】
ここで、従来技術において、言語分析処理(
図18のステップS1801または
図19のステップS1901の処理)により生成された音素毎の文脈依存ラベルを用いて、文脈質問群適用処理(ステップS1802またはステップS1902)が行われる。これにより生成される言語特徴行列において、文脈依存ラベルの絶対的な整数値に対応する要素の数値も、絶対的な整数値となる。
【0046】
事前学習処理においては、言語特徴行列の要素の値が連続的な数値の取り得る範囲の中にあるとしても、言語特徴行列の要素が疎な状態であるため、統計モデルを精度高く学習することはできない。このため、音声合成処理においては、このような統計モデルを用いて音素毎の継続時間長及び音響特徴量を推定する際の精度が低くなってしまう。また、言語特徴行列の要素の値が連続的な数値の取り得る範囲を超える外れ値となった場合には、音素毎の継続時間長及び音響特徴量の推定に誤りが生じてしまう。これでは、合成した音声信号の品質が劣化する場合があり、音質が不安定となる。
【0047】
そこで、本発明の実施形態では、相対値化部12は、言語分析処理により生成された音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化し、韻律に関わる相対値(相対的な実数値)の時間情報を含む文脈依存相対ラベルを生成するようにした。これにより生成される言語特徴行列において、文脈依存相対ラベルの相対的な実数値に対応する要素の数値も、相対的な実数値となる。
【0048】
事前学習処理において、言語特徴行列の要素の値が連続的な数値の取り得る範囲の中にある場合、言語特徴行列の要素は疎な状態とはならない。このため、統計モデルを精度高く学習することができる。そして、音声合成処理において、このような統計モデルを用いることで、高品質な音声信号を安定的に得ることができる。
【0049】
(文脈依存相対ラベル)
相対値化部12は、文脈依存ラベルを構成する複数の情報のうち、韻律に関わる時間情報について相対値化し、相対的な数値ではない(相対値化できない)情報について相対値化しないで、文脈依存相対ラベルを生成する。以下、韻律に関わる時間情報の相対値化処理について、具体的に説明する。
【0050】
尚、相対値化できない情報は、韻律に関わる時間情報以外の情報であり、例えば、発話内の呼気段落数、アクセント句数及び拍数(k1~k3)である。
【0051】
<1>韻律に関わる時間情報として、発話内の呼気段落の位置等を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1~i8)について、それぞれ発話内の呼気段落数、アクセント句数及び拍数(k1~k3)で除算し、相対値(I1~I8)を求める。相対値(I1,I2)は相対的な数(割合)を示し、相対値(I3~I8)は相対的な位置を示す。
[数1]
I1=i1/k2
I2=i2/k3
In=in/k1 for n=3,4
In=in/k2 for n=5,6
In=in/k3 for n=7,8 ・・・(1)
【0052】
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落におけるアクセント句数(i1)を、発話内のアクセント句数(k2)で除算することで、i1についての相対値(I1)を求める。
【0053】
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落における拍数(i2)を、発話内の拍数(k3)で除算することで、i2についての相対値(I2)を求める。
【0054】
図5は、文脈依存相対ラベルを生成する際の、韻律に関わる時間情報の相対値化処理の例を説明する図である。
図5において、発話は人が発した会話の文である。呼気段落は一息の発話区間であり、発話の文を無音区間で区切った際の段落に相当する。アクセント句は、最大で1つのアクセントが含まれる、文法的または意味的なまとまりである。拍は、一定の時間的長さを有する音の文節単位であり、モーラともいう。また、音素は、言語学的な意味で、音声の最小基本単位である。
【0055】
例えば、発話「将来は全部彼の方へ」の場合、呼気段落は、「将来は」及び「全部彼の方へ」である。また、アクセント句は、「将来は」「全部」「彼の」及び「方へ」であり、拍は、「しょ」「う」「ら」「い」「は」「ぜ」「ん」「ぶ」「か」「れ」「の」「ほ」「う」及び「へ」である。
【0056】
現在着目している音素が、アクセント句「彼の」における拍「か」の時間長の中にある場合を想定する。この場合、現在着目している音素の属する呼気段落は、「全部彼の方へ」であり、当該呼気段落に対応するアクセント句は、「全部」「彼の」及び「方へ」である。また、当該呼気段落に対応する拍は、「ぜ」「ん」「ぶ」「か」「れ」「の」「ほ」「う」及び「へ」である。
【0057】
したがって、現在着目している音素の属する呼気段落におけるアクセント句数i1=3であり、発話内のアクセント句数k2=4であり、現在着目している音素の属する呼気段落における拍数i2=9、発話内の拍数k3=14である。したがって、i1についての相対値I1=i1/k2=3/4=0.75、i2についての相対値I2=i2/k3=9/14=0.64となる
【0058】
前記式(1)に戻って、相対値化部12は、現在着目している音素の属する呼気段落の呼気段落単位での順方向の位置(i3)を、発話内の呼気段落数(k1)で除算することで、i3についての相対値(I3)を求める。
【0059】
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の呼気段落単位での逆方向の位置(i4)を、発話内の呼気段落数(k1)で除算することで、i4についての相対値(I4)を求める。
【0060】
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落のアクセント句単位での順方向の位置(i5)を、発話内のアクセント句数(k2)で除算することで、i5についての相対値(I5)を求める。
【0061】
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落のアクセント句単位での逆方向の位置(i6)を、発話内のアクセント句数(k2)で除算することで、i6についての相対値(I6)を求める。
【0062】
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の拍単位での順方向の位置(i7)を、発話内の拍数(k3)で除算することで、i7についての相対値(I7)を求める。
【0063】
前記式(1)において、相対値化部12は、現在着目している音素の属する呼気段落の拍単位での逆方向の位置(i8)を、発話内の拍数(k3)で除算することで、i8についての相対値(I8)を求める。
【0064】
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置(i1~i8)を用いる場合、前記式(1)にて相対値(I1~I8)を求める。
【0065】
また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)について、それぞれ発話内のアクセント句数及び拍数(k2,k3)で除算し、相対値(H1,H2,J1,J2)を求める。相対値(H1,H2,J1,J2)は相対的な数を示す。
[数2]
H1=h1/k2
H2=h2/k3
J1=j1/k2
J2=j2/k3 ・・・(2)
【0066】
前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の前に隣接する呼気段落のアクセント句数(h1)を、発話内のアクセント句数(k2)で除算することで、h1についての相対値(H1)を求める。
【0067】
前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の前に隣接する呼気段落の拍数(h2)を、発話内の拍数(k3)で除算することで、h2についての相対値(H2)を求める。
【0068】
前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の後に隣接する呼気段落のアクセント句数(j1)を、発話内のアクセント数(k2)で除算することで、j1についての相対値(J1)を求める。
【0069】
前記式(2)において、相対値化部12は、現在着目している音素の属する呼気段落の後に隣接する呼気段落の拍数(j2)を、発話内の拍数(k3)で除算することで、j2についての相対値(J2)を求める。
【0070】
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数(h1,h2,j1,j2)を用いる場合、前記式(2)にて相対値(H1,H2,J1,J2)を求める。
【0071】
<2>韻律に関わる時間情報として、呼気段落内のアクセント句の位置等を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句の拍数及びアクセント核の拍単位での位置(f1,f2)について、それぞれ現在着目している音素の属する呼気段落における拍数及びアクセント句の拍数(i2,f1)で除算し、相対値(F1,F2)を求める。ここで、アクセント核は、音が低くなる直前の高い音節の部分をいう。相対値(F1)は相対的な数を示し、相対値(F2)は相対的な位置を示す。
[数3]
F1=f1/i2
F2=f2/f1 ・・・(3)
【0072】
前記式(3)において、相対値化部12は、現在着目している音素の属するアクセント句の拍数(f1)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f1についての相対値(F1)を求める。
【0073】
前記式(3)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核の拍単位での位置(f2)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、f2についての相対値(F2)を求める。
【0074】
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属するアクセント句の拍数及びアクセント核の拍単位での位置(f1,f2)を用いる場合、前記式(3)にて相対値(F1,F2)を求める。
【0075】
また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f5~f8)について、それぞれ現在着目している音素の属する呼気段落におけるアクセント句数及び拍数(i1,i2)で除算し、相対値(F5~F8)を求める。相対値(F5~F8)は相対的な位置を示す。
[数4]
Fn=fn/i1 for n=5,6
Fn=fn/i2 for n=7,8 ・・・(4)
【0076】
前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での順方向の位置(f5)を、現在着目している音素の属する呼気段落におけるアクセント句数(i1)で除算することで、f5についての相対値(F5)を求める。
【0077】
前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での逆方向の位置(f6)を、現在着目している音素の属する呼気段落におけるアクセント句数(i1)で除算することで、f6についての相対値(F6)を求める。
【0078】
前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句の拍単位での順方向の位置(f7)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f7についての相対値(F7)を求める。
【0079】
前記式(4)において、相対値化部12は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句の拍単位での逆方向の位置(f8)を、現在着目している音素の属する呼気段落における拍数(i2)で除算することで、f8についての相対値(F8)を求める。
【0080】
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置(f5~f8)を用いる場合、前記式(4)にて相対値(F5~F8)を求める。
【0081】
また、相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置(e1,e2,g1,g2)について、それぞれ現在着目している音素の属するアクセント句に隣接するアクセント句の属する呼気段落におけるアクセント句数及びアクセント句の拍数(i’2,e1,i”2,g1)で除算し、相対値(E1,E2,G1,G2)を求める。相対値(E1,G1)は相対的な数を示し、相対値(E2,G2)は相対的な位置を示す。
[数5]
E1=e1/i’2
E2=e2/e1
G1=g1/i”2
G2=g2/g1 ・・・(5)
【0082】
前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の前に隣接するアクセント句の拍数(e1)を、現在着目している音素の属するアクセント句に隣接する順方向のアクセント句の属する呼気段落におけるアクセント句数(i’2)で除算することで、e1についての相対値(E1)を求める。
【0083】
前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の前に隣接するアクセント句のアクセント核の拍単位での位置(e2)を、現在着目している音素の属するアクセント句の前に隣接するアクセント句の拍数(e1)で除算することで、e2についての相対値(E2)を求める。
【0084】
前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の後に隣接するアクセント句の拍数(g1)を、現在着目している音素の属するアクセント句の後に隣接するアクセント句の属する呼気段落におけるアクセント句数(i”2)で除算することで、g1についての相対値(G1)を求める。
【0085】
前記式(5)において、相対値化部12は、現在着目している音素の属するアクセント句の後に隣接するアクセント句のアクセント核の拍単位での位置(g2)を、現在着目している音素の属するアクセント句の後に隣接するアクセント句の拍数(g1)で除算することで、g2についての相対値(G2)を求める。
【0086】
このように、相対値化部12は、韻律に関わる時間情報として、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置(e1,e2,g1,g2)を用いる場合、前記式(5)にて相対値(E1,E2,G1,G2)を求める。
【0087】
<3>韻律に関わる時間情報として、アクセント句内の拍の位置及びアクセント句内の拍とアクセント核との間の相対位置(アクセント句内のアクセント核からの拍の位置)を用いる場合
相対値化部12は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1~a3)について、現在着目している音素の属するアクセント句の拍数(f1)で除算し、相対値(A1~A3)を求める。相対値(A1~A3)は相対的な位置を示す。
[数6]
An=an/f1 for n=1,2,3 ・・・(6)
【0088】
前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句における拍単位での位置(a1)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a1についての相対値(A1)を求める。
【0089】
前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核からの拍単位での順方向の位置(a2)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a2についての相対値(A2)を求める。
【0090】
前記式(6)において、相対値化部12は、現在着目している音素の属するアクセント句におけるアクセント核からの拍単位での逆方向の位置(a3)を、現在着目している音素の属するアクセント句の拍数(f1)で除算することで、a3についての相対値(A3)を求める。
【0091】
このように、相対値化部12は、韻律に関わる時間情報として、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置(a1~a3)を用いる場合、前記式(6)にて相対値(A1~A3)を求める。
【0092】
そして、相対値化部12は、以下のように、文脈依存相対ラベルを生成する。
p1^p2-p3+p4=p5/A:A1+A2+A3
/B:b1-b2_b3/C:c1_c2+c3/D:d1+d2_d3
/E:E1_E2!e3_e4-e5/F:F1_F2#f3_f4@F5_F6|F7_F8/G:G1_G2%g3_g4_g5
/H:H1_H2/I:I1-I2@I3+I4&I5-I6|I7+I8/J:J1_J2
尚、前記の文脈依存相対ラベルは、便宜上4行に分割して記述しているが、実際は音素毎に1行で記述する。詳細については、前述の非特許文献2を参照されたい。
【0093】
(文脈質問群処理部13)
図1及び
図2に戻って、文脈質問群処理部13は、相対値化部12から音素毎の文脈依存相対ラベルを入力し、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行う(ステップS203)。そして、文脈質問群処理部13は、音素毎の言語特徴行列を生成し、音素毎の言語特徴行列を対応付け部15に出力する。
【0094】
図6は、非特許文献3に記載された文脈に関する質問群例を示す図である。この文脈に関する質問群は、1行につき1つの質問が記述されており、質問毎に、1項目目の質問セット種別(「QS(Question Set):質問セット」または「CQS(Continuous Question Set):連続値質問セット」)、2項目目のラベル(“”内の文字列で表したラベル)、及び3項目目の条件({}内の文字列で表した条件)から構成される。
【0095】
つまり、質問は、質問セットである「QS」及び連続値質問セットである「CQS」のいずれかで記述される。
【0096】
質問セット種別が「QS」の場合、2項目目のラベルの値として、文脈依存ラベルのデータが3項目目の条件として指定された文字列に合致するときに「1」、合致しないときに「0」が与えられる。つまり、質問セット種別が「QS」の場合に得られるデータは、2値のうちのいずれかをとるバイナリな特徴量のバイナリデータとなる。
【0097】
尚、3項目目の条件として、複数の文字列を「,」で接続することによって、文字列のいずれかに合致するときに「1」、いずれにも合致しないときに「0」が与えられるという論理和が定義される。
【0098】
質問セット種別が「CQS」の場合、2項目目のラベルの値として、文脈依存ラベルのデータが3項目目の条件として指定した文字列による数値を抽出する正規表現に合致するときに、その数値が与えられ、合致しないときに「0」が与えられる。つまり、質問セット種別が「CQS」の場合に得られるデータは、連続的な特徴量の数値データとなる。
【0099】
図6に示した文脈に関する質問群例は、従来の非特許文献3に記載されたものであるが、本発明の実施形態においても、同様の質問群例が用いられる。つまり、文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、質問セット種別が「QS」の場合、2項目目のラベルの値として、文脈依存相対ラベルのデータが3項目目の条件として指定した文字列に合致するときに「1」、合致しないときに「0」を与えることで、言語特徴行列のバイナリデータを求める。
【0100】
また、文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、質問セット種別が「CQS」の場合、2項目目のラベルの値として、文脈依存相対ラベルのデータが3項目目の条件として指定した文字列による数値を抽出する正規表現に合致するときに、その数値を与え、合致しないときに「0」を与えることで、言語特徴行列の数値データを求める。この場合、文脈依存相対ラベルのデータが韻律に関わる時間情報であるとき、言語特徴行列の数値データとして相対的な実数値が求められる。
【0101】
このように、質問セット種別が「CQS」の場合、従来技術では、文脈依存ラベルのデータが韻律に関わる時間情報であるとき、当該時間情報は絶対的な整数値であるため、対応する言語特徴行列の数値データも、絶対的な整数値となる。これに対し、本発明の実施形態では、文脈依存相対ラベルのデータが韻律に関わる時間情報であるとき、当該時間情報は相対的な実数値であるため、対応する言語特徴行列の数値データも、相対的な実数値となる。
【0102】
図7は、文脈質問群処理部13のステップS203の文脈質問群適用処理、及び音素毎の言語特徴行列のデータ構成を説明する図である。文脈質問群処理部13は、文脈依存相対ラベルについて、予め用意しておいた文脈に関する質問群を適用することで、
図2のステップS203の処理を行い、音素毎に言語特徴行列を求める。
【0103】
具体的には、文脈質問群処理部13は、文脈依存相対ラベルの1行に記された1つの音素に関する情報毎に、文脈に関する全ての質問群を適用し、全ての質問群に対するデータ(バイナリな特徴量のバイナリデータ、及び連続的な特徴量の数値データ)を求める。そして、文脈質問群処理部13は、音素毎の言語特徴行列を生成する。
【0104】
例えば、文脈依存相対ラベルのデータの行数(音素数)をNpとし、「QS」で始まる質問数がNb個、「CQS」で始まる質問数がNc個、合計でNq個(Nq=Nb+Nc)の質問群で構成される場合を想定する。この場合、文脈質問群処理部13は、文脈依存相対ラベルの行(音素)毎に、Nq個の質問に対するデータを求める。そして、文脈質問群処理部13は、Nb次元のバイナリデータ及びNc次元の数値データからなる合計Nq次元のベクトルを持つ(Np,Nq)の行列を、言語特徴行列として生成する。
【0105】
文脈に関する質問群において、質問セット種別が「QS」の場合の質問数がNb=643個であり、質問セット種別が「CQS」の質問数がNc=25個であるとする。この場合、文脈質問群処理部13は、文脈依存相対ラベルの1行に記述された1つの音素に関する情報について、全ての質問群を適用することで、643次元のバイナリデータ及び25次元の数値データを求める。
【0106】
そして、文脈質問群処理部13は、文脈依存相対ラベルを構成する全ての音素に関する情報について、それぞれ643次元のバイナリデータ及び25次元の数値データを求め、音素毎の言語特徴行列(643次元のバイナリデータ+25次元の数値データ)を生成する。
【0107】
ここで、従来技術では、
図18のステップS1802及び
図19のステップS1902に示したとおり、絶対的な整数値の数値データ(
図4において例えばi1=1~49)を含む文脈依存ラベルを用いて、言語特徴行列が生成される。質問セット種別が「CQS」の場合、絶対的な整数値の数値データを含む文脈依存ラベルから、絶対的な整数値の数値データが得られ、絶対的な整数値の数値データを含む言語特徴行列が生成される。前述のとおり、この絶対的な整数値の数値データは、取り得る値の範囲内で連続的に分布しないため、疎な状態となる。
【0108】
これに対し、本発明の実施形態では、
図2のステップS203及び後述する
図14のステップS1403に示すとおり、相対的な実数値の数値データ(例えば0~1の範囲における実数値、
図5において例えばI1=0.75)を含む文脈依存相対ラベルを用いて、言語特徴行列が生成される。質問セット種別が「CQS」の場合、相対的な実数値の数値データを含む文脈依存相対ラベルから、相対的な実数値の数値データが得られ、相対的な実数値の数値データを含む言語特徴行列が生成される。この相対的な実数値の数値データについては、取り得る値の範囲において連続的に分布するため、疎な状態の程度が従来技術に比べて低減される。これにより、精度の高い時間長モデル及び音響モデルを学習することができる。
【0109】
(音声分析部14)
図1及び
図2に戻って、音声分析部14は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出す。そして、音声分析部14は、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音声(音響)分析処理を行い、フレーム毎の所定情報からなる音響特徴量を求める(ステップS204)。音声分析部14は、フレーム毎の音響特徴量を対応付け部15に出力する。
【0110】
音声分析処理としては、例えば以下に記載された処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”,インターネット<URL:https://github.com/mmorise/World>
また、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”,インターネット<URL:http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
【0111】
図8は、音声分析部14のステップS204の音声分析処理、及びフレーム毎の音響特徴量のデータ構成を説明する図である。音声分析部14は、記憶部10から音声コーパスの各音声信号を読み出し、フレーム長25msの音声信号をフレームシフト5ms毎に切り出す(ステップS801)。そして、音声分析部14は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める(ステップS802)。
【0112】
音声分析部14は、スペクトルをメルケプストラム分析してメルケプストラム係数MGCを求める(ステップS803)。また、音声分析部14は、ピッチ周波数から有声/無声判定情報VUVを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数LF0を求める(ステップS804)。また、音声分析部14は、非周期成分をメルケプストラム分析して帯域非周期成分BAPを求める(ステップS805)。
【0113】
これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数MGC、有声/無声判定情報VUV、対数ピッチ周波数LF0及び帯域非周期成分BAPが得られる。
【0114】
音声分析部14は、メルケプストラム係数MGCの1次差分Δを算出して1次差分メルケプストラム係数ΔMGCを求め(ステップS806)、2次差分Δ2を算出して2次差分メルケプストラム係数Δ2MGCを求める(ステップS807)。
【0115】
音声分析部14は、対数ピッチ周波数LF0の1次差分Δを算出して1次差分対数ピッチ周波数ΔLF0を求め(ステップS808)、2次差分Δ2を算出して2次差分対数ピッチ周波数Δ2LF0を求める(ステップS809)。
【0116】
音声分析部14は、帯域非周期成分BAPの1次差分Δを算出して1次差分帯域非周期成分ΔBAPを求め(ステップS810)、2次差分Δ2を算出して2次差分帯域非周期成分Δ2BAPを求める(ステップS811)。
【0117】
これにより、動特性の音響特徴量として、フレーム毎に、1次差分メルケプストラム係数ΔMGC、2次差分メルケプストラム係数Δ2MGC、1次差分対数ピッチ周波数ΔLF0、2次差分対数ピッチ周波数Δ2LF0、1次差分帯域非周期成分ΔBAP及び2次差分帯域非周期成分Δ2BAPが得られる。
【0118】
このようにして得られた音響特徴量は、フレーム毎に、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVから構成される。この音響特徴量は、199次元のデータから構成される。
【0119】
(対応付け部15)
図1及び
図2に戻って、対応付け部15は、文脈質問群処理部13から音素毎の言語特徴行列を入力すると共に、音声分析部14からフレーム毎の音響特徴量を入力する。
【0120】
対応付け部15は、既知の音素アライメントの技術を用いて、音素毎の言語特徴行列とフレーム毎の音響特徴量との間で時間対応付け処理を行う(ステップS205)。そして、対応付け部15は、テキストの文を構成する言語特徴行列の各音素が、音響特徴量における音声信号のどの時刻に位置(対応)するのかを算出し、音素毎の継続時間長を求める。
【0121】
対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長を学習部16に出力する。音素毎の言語特徴行列及び音素毎の継続時間長は、時間長モデルの学習のために用いられる。
【0122】
この継続時間長は、ミリ秒(ms)単位の時間情報がフレームシフト5msで除算され、これにより得られる5msフレーム単位の数値が用いられる。
【0123】
音素アライメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit(HTK)”,インターネット<URL:http://htk.eng.cam.ac.uk>
“The HTK Book (for HTK Version 3.4)”,Cambridge University Engineering Department ,インターネット<URL:www.seas.ucla.edu/spapl/weichu/htkbook/>
【0124】
図9は、対応付け部15のステップS205の音素アライメント処理、及び音素毎の継続時間長のデータ構成を説明する図である。対応付け部15は、1音素あたり668次元のデータからなる言語特徴行列と1フレームあたり199次元の音響特徴量とを用いて、ステップS205の音素アライメント処理の時間的な対応付けにより、音素毎の継続時間長を求める。具体的には、対応付け部15は、言語特徴行列における音素毎に、対応する音響特徴量における開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、音素の時間長(フレーム数)を音素毎の継続時間長(1次元の数値データ)として生成する。
【0125】
図1及び
図2に戻って、対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長について、既知の言語特徴量抽出処理を行い(ステップS206)、音響特徴量に対応するフレーム毎の言語特徴量を求める。そして、対応付け部15は、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習部16に出力する。フレーム毎の言語特徴量及びフレーム毎の音響特徴量は、音響モデルの学習のために用いられる。
【0126】
図10は、対応付け部15のステップS206の言語特徴量抽出処理、及びフレーム毎の言語特徴量のデータ構成を説明する図である。対応付け部15は、発話内における現在着目している音素の継続時間長に応じたフレーム(音響特徴量の処理単位)数分の言語特徴行列に、それぞれ音素の継続時間長に応じたフレーム数及びフレーム内の位置を表現する4次元の時間データを付加することによって、フレーム毎の言語特徴量を生成する。
【0127】
つまり、言語特徴量は、フレーム毎に、音響特徴量との間で時間対応付けされた言語特徴行例の643次元のバイナリデータ及び25次元の数値データ、並びに継続時間長に応じた4次元の時間データから構成される。すなわち、言語特徴量は、音素数分の全てのフレームのそれぞれにつき、合計672次元のデータから構成される。
【0128】
尚、対応付け部15は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。
【0129】
(学習部16)
図1及び
図2に戻って、学習部16は、対応付け部15から音素毎の言語特徴行列及び音素毎の継続時間長を入力する。そして、学習部16は、音素毎の言語特徴行列及び音素毎の継続時間長を学習データとして、時間長モデルを学習し(ステップS207)、時間長モデルを記憶部17に格納する。
【0130】
学習部16は、対応付け部15からフレーム毎の言語特徴量及びフレーム毎の音響特徴量を入力する。そして、学習部16は、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習データとして、音響モデルを学習し(ステップS208)、音響モデルを記憶部18に格納する。学習部16は、例えば深層学習にて、時間長モデル及び音響モデルを学習する。
【0131】
(時間長モデル)
時間長モデルの学習処理について説明する。
図11は、学習部16のステップS207の時間長モデル学習処理を説明する図である。
【0132】
学習部16は、テキストを表現する音素毎に、643次元のバイナリデータ及び25次元の数値データからなる668次元の言語特徴行列のデータを、時間長モデルの入力データとし、1次元の整数値の継続時間長(5ms単位のフレーム数)のデータを、時間長モデルの出力データとして扱う。
【0133】
学習部16は、入力データである言語特徴行列のデータについて、次元毎に、全てのデータの最大値及び最小値を求めて記憶部17に格納すると共に、全てのデータのそれぞれを、次元毎の最大値及び最小値を用いて正規化する。
【0134】
学習部16は、出力データである継続時間長のデータについて、全てのデータの平均値及び標準偏差を求めて記憶部17に格納すると共に、全てのデータのそれぞれを、平均値及び標準偏差を用いて標準化する。
【0135】
学習部16は、音素毎に、言語特徴行列の正規化された668次元のデータを入力データとし、継続時間長の標準化された1次元のデータを出力データとして、ステップS207にて時間長モデルを学習する。そして、学習部16は、学習済みの時間長モデルを記憶部17に格納する。
【0136】
時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”,インターネット<URL:https://github.com/CSTR-Edinburgh/merlin>
後述する音響モデルの学習の場合も同様である。
【0137】
(音響モデル)
音響モデルの学習処理について説明する。
図12は、学習部16のステップS208の音響モデル学習処理を説明する図である。
【0138】
学習部16は、音響特徴量と時間対応付けされた、5ms単位のフレーム毎の643次元のバイナリデータ、25次元の数値データ及び4次元の時間データからなる672次元の言語特徴量を、音響モデルの入力データとして扱う。また、学習部16は、5ms単位のフレーム毎の199次元の音響特徴量を、音響モデルの出力データとして扱う。
【0139】
学習部16は、入力データである言語特徴量のデータについて、次元毎に、全てのデータの最大値及び最小値を求めて記憶部18に格納すると共に、全てのデータのそれぞれを、次元毎の最大値及び最小値を用いて正規化する。
【0140】
学習部16は、出力データである音響特徴量のデータについて、次元毎に、全てのデータの平均値及び標準偏差を求めて記憶部18に格納すると共に、全てのデータのそれぞれを、次元毎の平均値及び標準偏差を用いて標準化する。
【0141】
学習部16は、フレーム毎に、言語特徴量の正規化された672次元のデータを入力データとし、音響特徴量の標準化された199次元のデータを出力データとして、ステップS208にて音響モデルを学習する。そして、学習部16は、学習済みの音響モデルを記憶部18に格納する。
【0142】
音響モデルの出力データである音響特徴量は、音声信号から5ms単位のフレーム毎に抽出された199次元のデータにより構成される。具体的には、60次元のメルケプストラム係数、1次元の対数ピッチ周波数及び5次元の帯域非周期成分を併せた静特性66次元と、静特性を1次差分及び2次差分した動特性と有声/無声判定値とを併せて、合計199次元である。
【0143】
図11及び
図12を参照して、時間長モデルの入力層が668次元、音響モデルの入力層が672次元、両モデル共隠れ層が1024次元×6層、時間長モデルの出力層が1次元、音響モデルの出力層が199次元の順伝播型で構成される。隠れ層における活性化関数は双曲線正接関数、損失誤差関数は平均二乗誤差関数、ミニバッチ数は64、エポック数は25、学習係数の最適化方法として確率的勾配降下法、開始学習率0.002、10epoch(エポック)を過ぎてからepoch毎に学習率を指数減衰させ、誤差逆伝播法で学習する。尚、15epochを過ぎてから、5epoch連続して評価誤差が減少しない場合は早期終了する。
【0144】
以上のように、本発明の実施形態による学習装置1によれば、言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、言語分析処理を行って音素毎の文脈依存ラベルを生成する。
【0145】
相対値化部12は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行い、音素毎の文脈依存相対ラベルを生成する。文脈質問群処理部13は、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行い、音素毎の言語特徴行列を生成する。
【0146】
音声分析部14は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出し、フレーム毎の音声信号について音声分析処理を行い、フレーム毎の音響特徴量を求める。
【0147】
対応付け部15は、音素アライメントの技術を用いて、音素毎の言語特徴行列とフレーム毎の音響特徴量とを時間的に対応付け、音素毎の継続時間長を求める。そして、対応付け部15は、音素毎の言語特徴行列及び音素毎の継続時間長について、言語特徴量抽出処理を行い、音響特徴量に対応するフレーム毎の言語特徴量を求める。
【0148】
学習部16は、音素毎の言語特徴行列及び音素毎の継続時間長を学習データとして、時間長モデルを学習し、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習データとして、音響モデルを学習する。
【0149】
ここで、従来技術では、韻律に関わる時間情報は、絶対的な整数値の数値データとして扱われ、韻律に関わる絶対値の時間情報を含む文脈依存ラベルを用いて、言語特徴行列が生成される。このため、言語特徴行列に含まれる韻律に関わる整数値の時間情報の数値データは、取り得る範囲内で連続的に分布せず、疎な状態となる。そして、精度の高い時間長モデル及び音響モデルを学習することができず、これらの統計モデルを用いて任意のテキストを音声合成する場合に、高品質な音声信号を安定的に得ることができなかった。
【0150】
本発明の実施形態では、韻律に関わる時間情報を相対値化して相対的な小数値の数値データを求め、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを用いて、言語特徴行列を生成するようにした。このため、言語特徴行列に含まれる韻律に関わる相対値の時間情報の数値データは、取り得る範囲内で連続的に分布し、疎な状態の程度が従来技術に比べて低減される。したがって、精度の高い時間長モデル及び音響モデルを学習することができ、これらの統計モデルを用いて任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。
【0151】
〔音声合成装置〕
次に、本発明の実施形態による音声合成装置について説明する。
図13は、本発明の実施形態による音声合成装置の構成を示すブロック図であり、
図14は、音声合成装置の音声合成処理を示すフローチャートである。
【0152】
この音声合成装置2は、言語分析部20、相対値化部21、文脈質問群処理部22、時間長推定部23、音響特徴量推定部24、音声生成部25、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18を備えている。記憶部17に記憶された時間長モデル及び記憶部18に記憶された音響モデルは、
図1に示した学習装置1により学習されたモデルである。
【0153】
(言語分析部20~文脈質問群処理部22)
言語分析部20は、音声合成処理の対象とするテキストを入力し、
図1に示した言語分析部11と同様の処理を行い(ステップS1401)、文脈依存ラベルを相対値化部21に出力する。
【0154】
相対値化部21は、言語分析部20から文脈依存ラベルを入力し、
図1に示した相対値化部12と同様の処理を行い(ステップS1402)、文脈依存相対ラベルを文脈質問群処理部22に出力する。
【0155】
文脈質問群処理部22は、相対値化部21から文脈依存相対ラベルを入力し、
図1に示した文脈質問群処理部13と同様の処理を行い(ステップS1403)、音素毎の言語特徴行列を時間長推定部23に出力する。
【0156】
(時間長推定部23)
時間長推定部23は、文脈質問群処理部22から音素毎の言語特徴行列を入力し、音素毎の言語特徴行列及び記憶部17に格納された時間長モデルを用いて、音素毎の継続時間長を推定する(ステップS1404)。
【0157】
具体的には、時間長推定部23は、記憶部17に格納された時間長モデルの入力データの最大値及び最小値を用いて、音素毎の言語特徴行列を正規化し、正規化した音素毎の言語特徴行列を入力データとして、時間長モデルを用いた演算を行う。そして、時間長推定部23は、記憶部17に格納された時間長モデルの出力データの平均値及び標準偏差を用いて、出力データである標準化された音素毎の継続時間長を逆標準化し、元の音素毎の継続時間長を求める。
【0158】
時間長推定部23は、音素毎の言語特徴行列及び音素毎の継続時間長を用いて、
図1に示した対応付け部15と同様の言語特徴量抽出処理を行い、フレーム毎の言語特徴量を求める。そして、時間長推定部23は、フレーム毎の言語特徴量を音響特徴量推定部24に出力する。
【0159】
(音響特徴量推定部24)
音響特徴量推定部24は、時間長推定部23からフレーム毎の言語特徴量を入力し、フレーム毎の言語特徴量及び記憶部18に格納された音響モデルを用いて、フレーム毎の音響特徴量を推定する(ステップS1405)。音響特徴量推定部24は、フレーム毎の音響特徴量を音声生成部25に出力する。
【0160】
具体的には、音響特徴量推定部24は、記憶部18に格納された音響モデルの入力データの最大値及び最小値を用いて、フレーム毎の言語特徴量を正規化し、正規化したフレーム毎の言語特徴量を入力データとして、音響モデルを用いた演算を行う。そして、音響特徴量推定部24は、記憶部18に格納された音響モデルの出力データの平均値及び標準偏差を用いて、出力データである標準化されたフレーム毎の音響特徴量を逆標準化し、元のフレーム毎の音響特徴量を求める。
【0161】
このようにして推定された音響特徴量は、フレーム毎に離散的な値をとる。このため、音響特徴量推定部24は、連続するフレーム毎の音響特徴量に対して、最尤推定または移動平均を算出することで、滑らかな値の音響特徴量を求める。
【0162】
(音声生成部25)
音声生成部25は、音響特徴量推定部24からフレーム毎の音響特徴量を入力し、フレーム毎の音響特徴量に基づいて音声信号を合成する(ステップS1406)。そして、音声生成部25は、音声合成対象のテキストに対する音声信号を出力する。
【0163】
図15は、音声生成部25の音声生成処理を説明する図である。音声生成部25は、音響特徴量推定部24から入力したフレーム毎の音響特徴量のうち、フレーム毎のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAPである静特性の音響特徴量を選択する(ステップS1501)。
【0164】
音声生成部25は、メルケプストラム係数MGCをメルケプストラムスペクトル変換し、スペクトルを求める(ステップS1502)。また、音声生成部25は、対数ピッチ周波数LF0から有声/無声判定情報VUVを求め、対数ピッチ周波数LF0の有声区間を対数化し、無声及び無音区間についてはゼロとし、ピッチ周波数を求める(ステップS1503)。また、音声生成部25は、帯域非周期成分BAPをメルケプストラムスペクトル変換し、非周期成分を求める(ステップS1504)。
【0165】
音声生成部25は、ステップS1502にて求めたフレーム毎のスペクトル、ステップS1503にて求めたフレーム毎のピッチ周波数、及びステップS1504にて求めたフレーム毎の非周期成分を用いて連続的に音声波形を生成し(ステップS1505)、音声信号を出力する(ステップS1506)。
【0166】
以上のように、本発明の実施形態による音声合成装置2によれば、言語分析部20は、音声合成処理の対象とするテキストについて、言語分析処理を行って音素毎の文脈依存ラベルを生成する。
【0167】
相対値化部21は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行い、音素毎の文脈依存相対ラベルを生成する。文脈質問群処理部22は、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行い、音素毎の言語特徴行列を生成する。
【0168】
時間長推定部23は、音素毎の言語特徴行列、及び学習装置1により生成された時間長モデルを用いて、音素毎の継続時間長を推定する。そして、時間長推定部23は、音素毎の言語特徴行列及び音素毎の継続時間長を用いて、言語特徴量抽出処理を行い、フレーム毎の言語特徴量を求める。
【0169】
音響特徴量推定部24は、フレーム毎の言語特徴量、及び学習装置1により生成された音響モデルを用いて、フレーム毎の音響特徴量を推定する。音声生成部25は、フレーム毎の音響特徴量に基づいて音声信号を合成する。
【0170】
ここで、従来技術では、韻律に関わる時間情報は、絶対的な整数値の数値データとして扱われ、韻律に関わる絶対値の時間情報を含む文脈依存ラベルを用いて、言語特徴行列が生成される。このため、言語特徴行列に含まれる韻律に関わる整数値の時間情報の数値データは、取り得る範囲内で連続的に分布せず疎な状態となり、精度の高い時間長モデル及び音響モデルを学習することができない。このように統計モデルを用いて任意のテキストを音声合成する場合、高品質な音声信号を安定的に得ることができなかった。
【0171】
本発明の実施形態では、韻律に関わる時間情報を相対値化して相対的な小数値の数値データを求め、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを用いて、言語特徴行列を生成するようにした。このため、言語特徴行列に含まれる韻律に関わる相対値の時間情報の数値データは、取り得る範囲内で連続的に分布し、疎な状態の程度が従来技術に比べて低減される。したがって、学習装置1により学習された統計モデルを用いて任意のテキストを音声合成する場合、高品質な音声信号を安定的に得ることができる。
【0172】
〔実験結果〕
次に、従来技術と本発明の実施形態とを比較するためのシミュレーションによる実験結果について説明する。以下に説明する実験結果の従来技術は、前述の非特許文献2及び非特許文献3を利用して言語特徴行列を生成し、時間長モデル及び音響モデルを学習したものである。
【0173】
時間長モデルの入力データである言語特徴行列は、テキストを表現する音素毎に、643次元のバイナリデータ及び25次元の数値データからなる合計668次元のデータから構成される。音響モデルの入力データである言語特徴量は、5ms単位のフレーム毎に、音響特徴量と時間対応付けされた言語特徴行列の643次元のバイナリデータ及び25次元の数値データ、並びに4次元の時間データからなる合計672次元のデータから構成される。
【0174】
図16は、時間長モデルの実験結果を示す図であり、その客観評価値及び訓練誤差を示している。具体的は、本図は、時間長モデルの出力データである継続時間長に関し、所定のDevelopセット及びTestセットのそれぞれについて、リファレンスデータと推定値との間の二乗平均平方根誤差(RMSE)及び相関係数(CORR)を示している。
【0175】
また、本図は、継続時間長に関し、訓練(学習)時に過剰適合しないように早期終了した際のValidセットの誤差最小値、及びそのときのTrainセットの誤差値を、誤差値(Error)として示している。RMSE及びErrorは小さいほど評価が高く、CORRは大きいほど評価が高いことを示す。
【0176】
従来技術と本発明の実施形態とを比較すると、本発明の実施形態のRMSE及びErrorは、いずれも従来技術よりも小さく、本発明の実施形態のCORRは、従来技術よりも大きい。したがって、本発明の実施形態は、従来技術よりも評価値に改善が見られ、時間長モデルを用いた継続時間長の推定精度が向上し、有効性を確認することができる。
【0177】
図17は、音響モデルの実験結果を示す図であり、その客観評価値及び訓練誤差を示している。具体的は、本図は、音響モデルの出力データである音響特徴量に関し、所定のDevelopセット及びTestセットのそれぞれについて、メルケプストラムのリファレンスデータと推定値との間の二乗平均誤差(MCD)、帯域非周期成分のリファレンスデータと推定値との間の二乗平均誤差(BAP)、ピッチ周波数F0のリファレンスデータと推定値との間の二乗平均平方根誤差(RMSE)、相関係数(CORR)及び有声無声判定誤り率(VUV)を示している。
【0178】
また、本図は、音響特徴量に関し、訓練(学習)時に過剰適合しないよう早期終了した際のValidセットの誤差最小値、及びそのときのTrainセットの誤差値を、誤差値(Error)として示している。MCD、BAP、RMSE、VUV及びErrorは小さいほど評価が高く、CORRは大きいほど評価が高いことを示す。
【0179】
従来技術と本発明の実施形態とを比較すると、本発明の実施形態のMCD、BAP、RMSE、VUV及びErrorは、いずれも従来技術よりも小さく、本発明の実施形態のCORRは、従来技術よりも大きい。したがって、本発明の実施形態は、従来技術よりも評価値に改善が見られ、音響モデルを用いた音響特徴量の推定精度が向上し、有効性を確認することができる。
【0180】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、学習装置1の相対値化部12は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化し、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成するようにした。
【0181】
この場合、相対値化部12は、文脈依存ラベルに含まれる全ての韻律に関わる時間情報を対象として、文脈依存相対ラベルを生成するようにしてもよいし、一部の韻律に関わる時間情報を対象として、文脈依存相対ラベルを生成するようにしてもよい。つまり、相対値化部12は、全ての韻律に関わる時間情報のうち、予め設定された1つまたは複数の韻律に関わる時間情報を対象として相対値化し、1つまたは複数の韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成するようにしてもよい。音声合成装置2の相対値化部21についても同様である。
【0182】
尚、本発明の実施形態による学習装置1及び音声合成装置2のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1及び音声合成装置2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0183】
学習装置1に備えた、音声コーパスが記憶された記憶部10、言語分析部11、相対値化部12、文脈質問群処理部13、音声分析部14、対応付け部15、学習部16、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0184】
また、音声合成装置2に備えた言語分析部20、相対値化部21、文脈質問群処理部22、時間長推定部23、音響特徴量推定部24、音声生成部25、時間長モデルが記憶された記憶部17、及び音響モデルが記憶された記憶部18の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0185】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0186】
1 学習装置
2 音声合成装置
10,17,18 記憶部
11,20 言語分析部
12,21 相対値化部
13,22 文脈質問群処理部
14 音声分析部
15 対応付け部
16 学習部
23 時間長推定部
24 音響特徴量推定部
25 音声生成部