特許7469015 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫサービスセンターの特許一覧

特許7469015学習装置、音声合成装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-04-08

(45)【発行日】2024-04-16

(54)【発明の名称】学習装置、音声合成装置及びプログラム

(51)【国際特許分類】

G10L 13/10 20130101AFI20240409BHJP

【ＦＩ】

G10L13/10 111Z

【請求項の数】 7

(21)【出願番号】P 2019181862

(22)【出願日】2019-10-02

(65)【公開番号】P2021056467

(43)【公開日】2021-04-08

【審査請求日】2022-09-01

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(73)【特許権者】

【識別番号】399060908

【氏名又は名称】一般財団法人ＮＨＫ財団

(74)【代理人】

【識別番号】100121119

【弁理士】

【氏名又は名称】花村泰伸

(72)【発明者】

【氏名】清山信正

(72)【発明者】

【氏名】栗原清

(72)【発明者】

【氏名】熊野正

(72)【発明者】

【氏名】今井篤

【審査官】中村天真

(56)【参考文献】

【文献】特開２０２０－１０６６４３（ＪＰ，Ａ）

【文献】特開２０１８－１４６８０３（ＪＰ，Ａ）

【文献】国際公開第２０１８／２１６７２９（ＷＯ，Ａ１）

【文献】松永悟行ほか，“深層学習を用いた日本語音声合成における基本周波数に適した言語特徴量の正規化手法”，電子情報通信学会論文誌D ，2019年10月，第J102-D巻, 第10号，p.721-729

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－１３／１０

(57)【特許請求の範囲】

【請求項1】

予め音声信号がテキストに対応するように設定された前記テキスト及び前記音声信号に基づいて、音声合成に用いる時間長モデル及び音響モデルを学習する学習装置において、
予め設定された前記テキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
予め設定された前記テキストに対応する前記音声信号について音声分析処理を行い、音響特徴量を求める音声分析部と、
前記文脈質問群処理部により生成された前記言語特徴行列と前記音声分析部により求めた前記音響特徴量との時間的な対応付けを行い、音素毎の継続時間長を求め、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める対応付け部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記対応付け部により求めた前記音素毎の継続時間長を用いて、前記時間長モデルを学習し、前記対応付け部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を用いて、前記音響モデルを学習する学習部と、
を備えたことを特徴とする学習装置。

【請求項2】

請求項１に記載の学習装置において、
前記学習部は、
前記時間長モデル及び前記音響モデルについて深層学習（ＤＬ：Deep Learning）を行う、ことを特徴とする学習装置。

【請求項3】

請求項１に記載の学習装置において、
前記相対値化部は、
前記韻律に関わる時間情報を、現在着目している音素の属する位置であって、発話内の呼気段落単位での位置、発話内の呼気段落のアクセント句単位での位置、発話内の呼気段落の拍単位での位置、呼気段落内のアクセント句単位での位置、呼気段落内のアクセント句の拍単位での位置、アクセント句内の拍単位での位置、及びアクセント句内のアクセント核からの拍単位での位置のうちの１つまたは複数の情報とし、
現在着目している音素の属する位置の相対値であって、前記発話内の呼気段落単位での位置の相対値、前記発話内の呼気段落のアクセント句単位での位置の相対値、前記発話内の呼気段落の拍単位での位置の相対値、前記呼気段落内のアクセント句単位での位置の相対値、前記呼気段落内のアクセント句の拍単位での位置の相対値、前記アクセント句内の拍単位での位置の相対値、及び前記アクセント句内のアクセント核からの拍単位での位置の相対値のうちの、前記韻律に関わる時間情報に対応する１つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする学習装置。

【請求項4】

請求項１または２の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、
前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、
前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、
を備えたことを特徴とする音声合成装置。

【請求項5】

請求項３の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、
前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、
前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、
前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、
前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、
前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備え、
前記相対値化部は、
前記韻律に関わる時間情報を、現在着目している音素の属する位置であって、発話内の呼気段落単位での位置、発話内の呼気段落のアクセント句単位での位置、発話内の呼気段落の拍単位での位置、呼気段落内のアクセント句単位での位置、呼気段落内のアクセント句の拍単位での位置、アクセント句内の拍単位での位置、及びアクセント句内のアクセント核からの拍単位での位置のうちの１つまたは複数の情報とし、
現在着目している音素の属する位置の相対値であって、前記発話内の呼気段落単位での位置の相対値、前記発話内の呼気段落のアクセント句単位での位置の相対値、前記発話内の呼気段落の拍単位での位置の相対値、前記呼気段落内のアクセント句単位での位置の相対値、前記呼気段落内のアクセント句の拍単位での位置の相対値、前記アクセント句内の拍単位での位置の相対値、及び前記アクセント句内のアクセント核からの拍単位での位置の相対値のうちの、前記韻律に関わる時間情報に対応する１つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする音声合成装置。

【請求項6】

コンピュータを、請求項１から３までのいずれか一項に記載の学習装置として機能させるためのプログラム。

【請求項7】

コンピュータを、請求項４または５に記載の音声合成装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、テキスト及び音声信号を用いて統計モデルを学習する学習装置、統計モデルを用いてテキストから音声信号を合成する音声合成装置、及びこれらのプログラムに関する。

【背景技術】

【0002】

従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する音声信号を合成する方法として、ディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）を用いた深層学習（ＤＬ：Deep Learning）に基づく技術が知られている（例えば、非特許文献１を参照）。

【0003】

図１８は、非特許文献１に記載された従来の事前学習処理のフローを示す説明図である。従来の事前学習を行う学習装置は、事前に用意されたテキストとこれに対応する音声信号を用いて、時間長モデル及び音響モデルを学習する。

【0004】

具体的には、学習装置は、テキストについては、音声コーパスから読み出して言語分析処理により文脈依存ラベルを求め（ステップＳ１８０１）、事前に用意した文脈に関する質問群を適用して言語特徴行列を求める（ステップＳ１８０２）。また、学習装置は、音声信号については、音声コーパスから読み出して音声分析処理により音響特徴量を求める（ステップＳ１８０３）。

【0005】

学習装置は、言語特徴行列と音響特徴量との間の時間対応付けを行うことにより、音素毎の継続時間長を求め（ステップＳ１８０４）、音素毎の継続時間長及び言語特徴行列から言語特徴量を求める（ステップＳ１８０５）。そして、学習装置は、言語特徴行列及び音素毎の継続時間長を用いて、時間長モデルを学習する（ステップＳ１８０６）。また、学習装置は、言語特徴量及び音響特徴量を用いて音響モデルを学習する（ステップＳ１８０７）。

【0006】

図１９は、非特許文献１に記載された従来の音声合成処理のフローを示す説明図である。従来の音声合成を行う音声合成装置は、任意のテキストを入力し、テキストから言語分析処理により文脈依存ラベルを求め（ステップＳ１９０１）、事前に用意した文脈に関する質問群を適用して言語特徴行列を求める（ステップＳ１９０２）。

【0007】

音声合成装置は、言語特徴行列及び事前に学習した時間長モデルを用いて、音素毎の継続時間長を推定し（ステップＳ１９０３）、音素毎の継続時間長及び言語特徴行列から言語特徴量を求める（ステップＳ１９０４）。

【0008】

音声合成装置は、言語特徴量及び事前に学習した音響モデルを用いて、音響特徴量を推定する（ステップＳ１９０５）。そして、音声合成装置は、音響特徴量から音声生成処理にて音声信号波形を求めることにより、任意のテキストに対する合成した音声信号を得る（ステップＳ１９０６）。

【0009】

これらの一連の処理において、言語特徴量を求めるためには、学習装置及び音声合成装置は、まず、テキストに対して形態素解析及び構文解析等の言語分析処理を行い、これにより得られる情報に基づいて、文脈依存ラベルを求める。文脈依存ラベルは、所定の文脈依存ラベル形式で記述されたものであり、発話毎に求められ、音素単位で構成される。文脈依存ラベルの形式は言語によって異なるが、日本語においては、所定の形式を利用することができる（例えば、非特許文献２を参照）。

【0010】

学習装置及び音声合成装置は、次に、事前に文脈に関する質問群（例えば、非特許文献３を参照）を用意しておき、文脈依存ラベルにおける各行の音素の情報に質問群を適用し、言語特徴行列を求める。学習装置は、次に、言語特徴行列と音響特徴量との間の時間対応付けを行うことにより、音素毎の継続時間長を求める。一方、音声合成装置は、言語特徴行列及び事前に学習した時間長モデルを用いて、音素毎の継続時間長を推定する。

【0011】

学習装置及び音声合成装置は、発話内における現在着目している音素の継続時間長に応じたフレーム（音響特徴量の処理単位）数分の言語特徴行列に、それぞれ音素の継続時間長に応じたフレーム数及びフレーム内の位置情報を付加することにより、音響特徴量に対応する言語特徴量を得る。

【先行技術文献】

【非特許文献】

【0012】

【文献】Zhizheng Wu, Oliver Watts, Simon King,“Merlin：An Open Source Neural Network Speech Synthesis System”, in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA.

【文献】“An example of context-dependent label format for HMM-based speech synthesis in Japanese”、［online］、HTS Working Group、Dec. 25, 2015、［令和１年９月７日検索］、インターネット＜ＵＲＬ：http://hts.sp.nitech.ac.jp/＞

【文献】“Added japanese question set compatible with OpenJTalk produced labels.”、［online］、HTS Working Group、Dec. 25, 2015、［令和１年９月７日検索］、インターネット＜ＵＲＬ：https://github.com/CSTR-Edinburgh/merlin/blob/master/misc/questions/questions-japanese.hed＞

【発明の概要】

【発明が解決しようとする課題】

【0013】

前述の非特許文献１の方法においては、前述の非特許文献２に記載された形式に対応した文脈依存ラベルに、前述の非特許文献３に記載された文脈に関する質問群を適用して数値化することにより、言語特徴行列を求める。

【0014】

しかしながら、この方法では、言語特徴行列の取り得る数値の組み合わせが膨大なものとなる。これは、言語特徴行列を構成する複数の要素について、取り得る数値の範囲が広くてまちまちであり、統一されていないからである。

【0015】

図１８に示した事前学習処理においては、次元毎に正規化処理及び標準化処理を行うことで、統計モデルの学習が行われる。また、図１９に示した音声合成処理においては、次元毎に正規化処理及び逆標準化処理を行うことで、統計モデルを用いた特徴量の推定が行われる。しかし、これらの処理に用いる言語特徴行列を構成する複数の要素のそれぞれは、特に連続的な数値の取り得る範囲が広い。

【0016】

事前学習処理においては、言語特徴行列の取り得る数値の組み合わせをカバーすることができず、言語特徴行列の要素によっては連続的に分布しないため、疎（スパース）な状態となり、精度の高い統計モデルを学習することができない。そして、音声合成処理においては、任意のテキストを入力として言語特徴行列を求めたときに、その要素が連続的な数値の取り得る範囲の中にあるとしても、このような統計モデルを用いる限り、音素毎の継続時間長及び音響特徴量の推定精度が低くなってしまう。

【0017】

また、言語特徴行列の要素が、連続的な数値の取り得る範囲を超える外れ値となることにより、音素毎の継続時間長及び音響特徴量を推定する際に誤りが生じてしまう。これでは、合成した音声信号の品質が劣化し、音質が不安定となる可能性がある。

【0018】

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることが可能な学習装置、音声合成装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0019】

前記課題を解決するために、請求項１の学習装置は、予め音声信号がテキストに対応するように設定された前記テキスト及び前記音声信号に基づいて、音声合成に用いる時間長モデル及び音響モデルを学習する学習装置において、予め設定された前記テキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、予め設定された前記テキストに対応する前記音声信号について音声分析処理を行い、音響特徴量を求める音声分析部と、前記文脈質問群処理部により生成された前記言語特徴行列と前記音声分析部により求めた前記音響特徴量との時間的な対応付けを行い、音素毎の継続時間長を求め、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める対応付け部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記対応付け部により求めた前記音素毎の継続時間長を用いて、前記時間長モデルを学習し、前記対応付け部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を用いて、前記音響モデルを学習する学習部と、を備えたことを特徴とする。

【0020】

また、請求項２の学習装置は、請求項１に記載の学習装置において、前記学習部が、前記時間長モデル及び前記音響モデルについて深層学習（ＤＬ：Deep Learning）を行う、ことを特徴とする。

【0021】

また、請求項３の学習装置は、請求項１に記載の学習装置において、前記相対値化部が、前記韻律に関わる時間情報を、現在着目している音素の属する位置であって、発話内の呼気段落単位での位置、発話内の呼気段落のアクセント句単位での位置、発話内の呼気段落の拍単位での位置、呼気段落内のアクセント句単位での位置、呼気段落内のアクセント句の拍単位での位置、アクセント句内の拍単位での位置、及びアクセント句内のアクセント核からの拍単位での位置のうちの１つまたは複数の情報とし、現在着目している音素の属する位置の相対値であって、前記発話内の呼気段落単位での位置の相対値、前記発話内の呼気段落のアクセント句単位での位置の相対値、前記発話内の呼気段落の拍単位での位置の相対値、前記呼気段落内のアクセント句単位での位置の相対値、前記呼気段落内のアクセント句の拍単位での位置の相対値、前記アクセント句内の拍単位での位置の相対値、及び前記アクセント句内のアクセント核からの拍単位での位置の相対値のうちの、前記韻律に関わる時間情報に対応する１つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする。

【0022】

さらに、請求項４の音声合成装置は、請求項１または２の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備えたことを特徴とする。

【0023】

また、請求項５の音声合成装置は、請求項３の学習装置により学習された時間長モデル及び音響モデルを用いて、任意のテキストに対する音声信号を合成する音声合成装置において、前記任意のテキストについて言語分析処理を行い、文脈依存ラベルを生成する言語分析部と、前記言語分析部により生成された前記文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化し、前記韻律に関わる相対値の前記時間情報を含む文脈依存相対ラベルを生成する相対値化部と、前記相対値化部により生成された前記文脈依存相対ラベルについて、予め設定された文脈に関する質問群を適用する処理を行い、言語特徴行列を生成する文脈質問群処理部と、前記文脈質問群処理部により生成された前記言語特徴行列及び前記時間長モデルを用いて、音素毎の継続時間長を推定し、当該音素毎の継続時間長及び前記言語特徴行列から言語特徴量を求める時間長推定部と、前記時間長推定部により求めた前記言語特徴量及び前記音響モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、前記音声信号を合成する音声生成部と、を備え、前記相対値化部が、前記韻律に関わる時間情報を、現在着目している音素の属する位置であって、発話内の呼気段落単位での位置、発話内の呼気段落のアクセント句単位での位置、発話内の呼気段落の拍単位での位置、呼気段落内のアクセント句単位での位置、呼気段落内のアクセント句の拍単位での位置、アクセント句内の拍単位での位置、及びアクセント句内のアクセント核からの拍単位での位置のうちの１つまたは複数の情報とし、現在着目している音素の属する位置の相対値であって、前記発話内の呼気段落単位での位置の相対値、前記発話内の呼気段落のアクセント句単位での位置の相対値、前記発話内の呼気段落の拍単位での位置の相対値、前記呼気段落内のアクセント句単位での位置の相対値、前記呼気段落内のアクセント句の拍単位での位置の相対値、前記アクセント句内の拍単位での位置の相対値、及び前記アクセント句内のアクセント核からの拍単位での位置の相対値のうちの、前記韻律に関わる時間情報に対応する１つまたは複数の前記相対値を含む前記文脈依存相対ラベルを求める、ことを特徴とする。

【0024】

さらに、請求項６のプログラムは、コンピュータを、請求項１から３までのいずれか一項に記載の学習装置として機能させることを特徴とする。

【0025】

さらに、請求項７のプログラムは、コンピュータを、請求項４または５に記載の音声合成装置として機能させることを特徴とする。

【発明の効果】

【0026】

以上のように、本発明によれば、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。

【図面の簡単な説明】

【0027】

【図1】本発明の実施形態による学習装置の構成を示すブロック図である。

【図2】学習装置の事前学習処理を示すフローチャートである。

【図3】言語分析部のステップＳ２０１の言語分析処理、及び文脈依存ラベルのデータ構成を説明する図である。

【図4】非特許文献２に記載された文脈依存ラベルの形式例を示す図である。

【図5】文脈依存相対ラベルを生成する際の、韻律に関わる時間情報の相対値化処理の例を説明する図である。

【図6】非特許文献３に記載された文脈に関する質問群例を示す図である。

【図7】文脈質問群処理部のステップＳ２０３の文脈質問群適用処理、及び音素毎の言語特徴行列のデータ構成を説明する図である。

【図8】音声分析部のステップＳ２０４の音声分析処理、及びフレーム毎の音響特徴量のデータ構成を説明する図である。

【図9】対応付け部のステップＳ２０５の音素アライメント処理、及び音素毎の継続時間長のデータ構成を説明する図である。

【図10】対応付け部のステップＳ２０６の言語特徴量抽出処理、及びフレーム毎の言語特徴量のデータ構成を説明する図である。

【図11】学習部のステップＳ２０７の時間長モデル学習処理を説明する図である。

【図12】学習部のステップＳ２０８の音響モデル学習処理を説明する図である。

【図13】本発明の実施形態による音声合成装置の構成を示すブロック図である。

【図14】音声合成装置の音声合成処理を示すフローチャートである。

【図15】音声生成部の音声生成処理を説明する図である。

【図16】時間長モデルの実験結果を示す図である。

【図17】音響モデルの実験結果を示す図である。

【図18】非特許文献１に記載された従来の事前学習処理のフローを示す説明図である。

【図19】非特許文献１に記載された従来の音声合成処理のフローを示す説明図である。

【発明を実施するための形態】

【0028】

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、テキストを言語分析して生成した文脈依存ラベルについて、韻律に関わる時間情報を相対値化して文脈依存相対ラベルを生成し、文脈依存相対ラベルに文脈質問群を適用して言語特徴行列を生成することを特徴とする。

【0029】

これにより、事前学習処理において、韻律に関わる時間情報を相対値化することで、言語特徴行列の所定の要素において、取り得る数値の範囲内で連続的に分布させることができ、疎な状態となる程度を低減することができる。そして、精度の高い統計モデル（時間長モデル及び音響モデル）を学習することができる。

【0030】

また、音声合成処理において、このような時間長モデル及び音響モデルを用いることで、音素毎の継続時間長及び音響特徴量を推定する際の精度を高くすることができる。また、言語特徴行列の要素は、外れ値になり難くなるから、時間長モデル及び音響モデルを用いて音素毎の継続時間長及び音響特徴量を推定する際に、誤りが生じ難くなる。

【0031】

したがって、任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。

【0032】

以下、本発明の実施形態について、時間長モデル及び音響モデルを事前学習する学習装置、及び、学習装置により学習された時間長モデル及び音響モデルを用いて、音声合成を行う音声合成装置について説明する。学習装置及び音声合成装置が扱う音声信号はモノラルであり、標本化周波数は４８ｋＨｚ、ビット数は１６で標本化されているものとする。

【0033】

尚、本発明の実施形態では、日本語を対象として説明するが、他の言語においても、文脈依存ラベルに含まれる韻律に関わる時間情報を相対値化する手法を適用することができる。

【0034】

〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。図１は、本発明の実施形態による学習装置の構成を示すブロック図であり、図２は、学習装置の事前学習処理を示すフローチャートである。

【0035】

この学習装置１は、音声コーパスが記憶された記憶部１０、言語分析部１１、相対値化部１２、文脈質問群処理部１３、音声分析部１４、対応付け部１５、学習部１６、時間長モデルが記憶された記憶部１７、及び音響モデルが記憶された記憶部１８を備えている。

【0036】

（音声コーパス）
記憶部１０には、予め設定された音声コーパスが格納されている。音声コーパスは、予め設定されたテキストと、これに対応する予め設定された音声信号から構成される。例えば、ＡＴＲ（株式会社国際電気通信基礎技術研究所）により作成された音素バランス５０３文を利用する場合、テキストとこれを読み上げた音声信号は、５０３対からなる。例えば、５０３対のうち統計モデルの訓練用に４９３対、評価用に８対、テスト用に５対を利用する。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論（春）、 pp.89-90（1988.3）

【0037】

（言語分析部１１）
言語分析部１１は、記憶部１０から音声コーパスの各テキストを読み出し、テキストについて既知の言語分析処理を行う（ステップＳ２０１）。そして、言語分析部１１は、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報等の各情報を求め、文脈依存ラベルを生成する。言語分析部１１は、音素毎の文脈依存ラベルを相対値化部１２に出力する。

【0038】

図３は、言語分析部１１のステップＳ２０１の言語分析処理、及び文脈依存ラベルのデータ構成を説明する図である。図３に示すように、文脈依存ラベルは、図２のステップＳ２０１の言語分析処理により生成され、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。この例は、テキストが「あらゆる現実を、すべて自分の方へ捻じ曲げたのだ。」の場合の文脈依存ラベルである。

【0039】

言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab：Yet Another Part-of-Speech and Morphological Analyzer”，インターネット＜ＵＲＬ：http://taku910.github.io/mecab/＞
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜：Yet Another Japanese Dependency Structure Analyzer”，インターネット＜ＵＲＬ：https://taku910.github.io/cabocha/＞

【0040】

（文脈依存ラベルの形式）
文脈依存ラベルの形式は言語によって異なるが、日本語においては、例えば前述の非特許文献２に記載された形式を利用することができる。図４は、非特許文献２に記載された文脈依存ラベルの形式例を示す図である。

【0041】

図４に示す文脈依存ラベルの形式では、文脈依存ラベルにおいて、現在着目している音素に関する情報が１行に記述される。音素毎の文脈依存ラベルとしては、現在着目している音素及びこれに隣接する前後２つの音素を併せた５つの音素（p1～p5）、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置（a1～a3）、現在着目している音素の属するアクセント句における形態素の品詞及びその活用形並びに活用型（c1～c3）、現在着目している音素の属するアクセント句に隣接するアクセント句における形態素の品詞及びその活用形並びに活用型（b1～b3，d1～d3）、現在着目している音素の属するアクセント句の拍数、アクセント核の拍単位での位置及びアクセント句のタイプ（疑問形か疑問形でないか）並びに現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置（f1～f8）、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置並びに現在着目している音素の属するアクセント句と隣接するアクセント句との間のポーズの有無（e1～e5，g1～g5）、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置（i1～i8）、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数（h1，h2，j1，j2）、発話内の呼気段落数、アクセント句数及び拍数（k1～k3）等が使用される。

【0042】

文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成される。韻律に関わる情報のうちの時間情報は、相対値化部１２による相対値化処理の対象である。図４に示した文脈依存ラベルの形式において、韻律に関わる時間情報は、a1～a3，f1，f2，f5～f8，e1，e2，g1，g2，i1～i8，h1，h2，j1，j2である。

【0043】

（相対値化部１２）
相対値化部１２は、言語分析部１１から音素毎の文脈依存ラベルを入力し、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行う（ステップＳ２０２）。そして、相対値化部１２は、音素毎に、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成し、音素毎の文脈依存相対ラベルを文脈質問群処理部１３に出力する。ここでの相対値は、例えば０～１の範囲における実数値である。

【0044】

前述のとおり、文脈依存ラベルは、音韻に関わる情報及び韻律に関わる情報から構成され、この韻律に関わる情報は、絶対的な整数値である。これに対し、文脈依存相対ラベルも、音韻に関わる情報及び韻律に関わる情報から構成されるが、この韻律に関わる情報のうち時間情報については、相対的な実数値であり、時間情報以外の情報については、絶対的な整数値である。

【0045】

ここで、従来技術において、言語分析処理（図１８のステップＳ１８０１または図１９のステップＳ１９０１の処理）により生成された音素毎の文脈依存ラベルを用いて、文脈質問群適用処理（ステップＳ１８０２またはステップＳ１９０２）が行われる。これにより生成される言語特徴行列において、文脈依存ラベルの絶対的な整数値に対応する要素の数値も、絶対的な整数値となる。

【0046】

事前学習処理においては、言語特徴行列の要素の値が連続的な数値の取り得る範囲の中にあるとしても、言語特徴行列の要素が疎な状態であるため、統計モデルを精度高く学習することはできない。このため、音声合成処理においては、このような統計モデルを用いて音素毎の継続時間長及び音響特徴量を推定する際の精度が低くなってしまう。また、言語特徴行列の要素の値が連続的な数値の取り得る範囲を超える外れ値となった場合には、音素毎の継続時間長及び音響特徴量の推定に誤りが生じてしまう。これでは、合成した音声信号の品質が劣化する場合があり、音質が不安定となる。

【0047】

そこで、本発明の実施形態では、相対値化部１２は、言語分析処理により生成された音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化し、韻律に関わる相対値（相対的な実数値）の時間情報を含む文脈依存相対ラベルを生成するようにした。これにより生成される言語特徴行列において、文脈依存相対ラベルの相対的な実数値に対応する要素の数値も、相対的な実数値となる。

【0048】

事前学習処理において、言語特徴行列の要素の値が連続的な数値の取り得る範囲の中にある場合、言語特徴行列の要素は疎な状態とはならない。このため、統計モデルを精度高く学習することができる。そして、音声合成処理において、このような統計モデルを用いることで、高品質な音声信号を安定的に得ることができる。

【0049】

（文脈依存相対ラベル）
相対値化部１２は、文脈依存ラベルを構成する複数の情報のうち、韻律に関わる時間情報について相対値化し、相対的な数値ではない（相対値化できない）情報について相対値化しないで、文脈依存相対ラベルを生成する。以下、韻律に関わる時間情報の相対値化処理について、具体的に説明する。

【0050】

尚、相対値化できない情報は、韻律に関わる時間情報以外の情報であり、例えば、発話内の呼気段落数、アクセント句数及び拍数（k1～k3）である。

【0051】

＜１＞韻律に関わる時間情報として、発話内の呼気段落の位置等を用いる場合
相対値化部１２は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置（i1～i8）について、それぞれ発話内の呼気段落数、アクセント句数及び拍数（k1～k3）で除算し、相対値（I1～I8）を求める。相対値（I1，I2）は相対的な数（割合）を示し、相対値（I3～I8）は相対的な位置を示す。
［数１］
I1＝i1／k2
I2＝i2／k3
In＝in／k1 for n＝3,4
In＝in／k2 for n＝5,6
In＝in／k3 for n＝7,8 ・・・（１）

【0052】

前記式（１）において、相対値化部１２は、現在着目している音素の属する呼気段落におけるアクセント句数（i1）を、発話内のアクセント句数（k2）で除算することで、i1についての相対値（I1）を求める。

【0053】

前記式（１）において、相対値化部１２は、現在着目している音素の属する呼気段落における拍数（i2）を、発話内の拍数（k3）で除算することで、i2についての相対値（I2）を求める。

【0054】

図５は、文脈依存相対ラベルを生成する際の、韻律に関わる時間情報の相対値化処理の例を説明する図である。図５において、発話は人が発した会話の文である。呼気段落は一息の発話区間であり、発話の文を無音区間で区切った際の段落に相当する。アクセント句は、最大で１つのアクセントが含まれる、文法的または意味的なまとまりである。拍は、一定の時間的長さを有する音の文節単位であり、モーラともいう。また、音素は、言語学的な意味で、音声の最小基本単位である。

【0055】

例えば、発話「将来は全部彼の方へ」の場合、呼気段落は、「将来は」及び「全部彼の方へ」である。また、アクセント句は、「将来は」「全部」「彼の」及び「方へ」であり、拍は、「しょ」「う」「ら」「い」「は」「ぜ」「ん」「ぶ」「か」「れ」「の」「ほ」「う」及び「へ」である。

【0056】

現在着目している音素が、アクセント句「彼の」における拍「か」の時間長の中にある場合を想定する。この場合、現在着目している音素の属する呼気段落は、「全部彼の方へ」であり、当該呼気段落に対応するアクセント句は、「全部」「彼の」及び「方へ」である。また、当該呼気段落に対応する拍は、「ぜ」「ん」「ぶ」「か」「れ」「の」「ほ」「う」及び「へ」である。

【0057】

したがって、現在着目している音素の属する呼気段落におけるアクセント句数i1＝３であり、発話内のアクセント句数k2＝４であり、現在着目している音素の属する呼気段落における拍数i2＝９、発話内の拍数k3＝１４である。したがって、i1についての相対値I1＝i1／k2＝３／４＝０．７５、i2についての相対値I2＝i2／k3＝９／１４＝０．６４となる

【0058】

前記式（１）に戻って、相対値化部１２は、現在着目している音素の属する呼気段落の呼気段落単位での順方向の位置（i3）を、発話内の呼気段落数（k1）で除算することで、i3についての相対値（I3）を求める。

【0059】

前記式（１）において、相対値化部１２は、現在着目している音素の属する呼気段落の呼気段落単位での逆方向の位置（i4）を、発話内の呼気段落数（k1）で除算することで、i4についての相対値（I4）を求める。

【0060】

前記式（１）において、相対値化部１２は、現在着目している音素の属する呼気段落のアクセント句単位での順方向の位置（i5）を、発話内のアクセント句数（k2）で除算することで、i5についての相対値（I5）を求める。

【0061】

前記式（１）において、相対値化部１２は、現在着目している音素の属する呼気段落のアクセント句単位での逆方向の位置（i6）を、発話内のアクセント句数（k2）で除算することで、i6についての相対値（I6）を求める。

【0062】

前記式（１）において、相対値化部１２は、現在着目している音素の属する呼気段落の拍単位での順方向の位置（i7）を、発話内の拍数（k3）で除算することで、i7についての相対値（I7）を求める。

【0063】

前記式（１）において、相対値化部１２は、現在着目している音素の属する呼気段落の拍単位での逆方向の位置（i8）を、発話内の拍数（k3）で除算することで、i8についての相対値（I8）を求める。

【0064】

このように、相対値化部１２は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落におけるアクセント句数及び拍数並びに発話内における現在着目している音素の属する呼気段落の呼気段落単位での位置、アクセント句単位及び拍単位での位置（i1～i8）を用いる場合、前記式（１）にて相対値（I1～I8）を求める。

【0065】

また、相対値化部１２は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数（h1，h2，j1，j2）について、それぞれ発話内のアクセント句数及び拍数（k2,k3）で除算し、相対値（H1，H2，J1，J2）を求める。相対値（H1，H2，J1，J2）は相対的な数を示す。
［数２］
H1＝h1／k2
H2＝h2／k3
J1＝j1／k2
J2＝j2／k3 ・・・（２）

【0066】

前記式（２）において、相対値化部１２は、現在着目している音素の属する呼気段落の前に隣接する呼気段落のアクセント句数（h1）を、発話内のアクセント句数（k2）で除算することで、h1についての相対値（H1）を求める。

【0067】

前記式（２）において、相対値化部１２は、現在着目している音素の属する呼気段落の前に隣接する呼気段落の拍数（h2）を、発話内の拍数（k3）で除算することで、h2についての相対値（H2）を求める。

【0068】

前記式（２）において、相対値化部１２は、現在着目している音素の属する呼気段落の後に隣接する呼気段落のアクセント句数（j1）を、発話内のアクセント数（k2）で除算することで、j1についての相対値（J1）を求める。

【0069】

前記式（２）において、相対値化部１２は、現在着目している音素の属する呼気段落の後に隣接する呼気段落の拍数（j2）を、発話内の拍数（k3）で除算することで、j2についての相対値（J2）を求める。

【0070】

このように、相対値化部１２は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落に隣接する呼気段落のアクセント句数及び拍数（h1，h2，j1，j2）を用いる場合、前記式（２）にて相対値（H1，H2，J1，J2）を求める。

【0071】

＜２＞韻律に関わる時間情報として、呼気段落内のアクセント句の位置等を用いる場合
相対値化部１２は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句の拍数及びアクセント核の拍単位での位置（f1,f2）について、それぞれ現在着目している音素の属する呼気段落における拍数及びアクセント句の拍数（i2,f1）で除算し、相対値（F1，F2）を求める。ここで、アクセント核は、音が低くなる直前の高い音節の部分をいう。相対値（F1）は相対的な数を示し、相対値（F2）は相対的な位置を示す。
［数３］
F1＝f1／i2
F2＝f2／f1 ・・・（３）

【0072】

前記式（３）において、相対値化部１２は、現在着目している音素の属するアクセント句の拍数（f1）を、現在着目している音素の属する呼気段落における拍数（i2）で除算することで、f1についての相対値（F1）を求める。

【0073】

前記式（３）において、相対値化部１２は、現在着目している音素の属するアクセント句におけるアクセント核の拍単位での位置（f2）を、現在着目している音素の属するアクセント句の拍数（f1）で除算することで、f2についての相対値（F2）を求める。

【0074】

このように、相対値化部１２は、韻律に関わる時間情報として、現在着目している音素の属するアクセント句の拍数及びアクセント核の拍単位での位置（f1,f2）を用いる場合、前記式（３）にて相対値（F1，F2）を求める。

【0075】

また、相対値化部１２は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置（f5～f8）について、それぞれ現在着目している音素の属する呼気段落におけるアクセント句数及び拍数（i1，i2）で除算し、相対値（F5～F8）を求める。相対値（F5～F8）は相対的な位置を示す。
［数４］
Fn＝fn／i1 for n＝5,6
Fn＝fn／i2 for n＝7,8 ・・・（４）

【0076】

前記式（４）において、相対値化部１２は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での順方向の位置（f5）を、現在着目している音素の属する呼気段落におけるアクセント句数（i1）で除算することで、f5についての相対値（F5）を求める。

【0077】

前記式（４）において、相対値化部１２は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での逆方向の位置（f6）を、現在着目している音素の属する呼気段落におけるアクセント句数（i1）で除算することで、f6についての相対値（F6）を求める。

【0078】

前記式（４）において、相対値化部１２は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句の拍単位での順方向の位置（f7）を、現在着目している音素の属する呼気段落における拍数（i2）で除算することで、f7についての相対値（F7）を求める。

【0079】

前記式（４）において、相対値化部１２は、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句の拍単位での逆方向の位置（f8）を、現在着目している音素の属する呼気段落における拍数（i2）で除算することで、f8についての相対値（F8）を求める。

【0080】

このように、相対値化部１２は、韻律に関わる時間情報として、現在着目している音素の属する呼気段落における現在着目している音素の属するアクセント句のアクセント句単位での位置及び拍単位での位置（f5～f8）を用いる場合、前記式（４）にて相対値（F5～F8）を求める。

【0081】

また、相対値化部１２は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置（e1，e2，g1，g2）について、それぞれ現在着目している音素の属するアクセント句に隣接するアクセント句の属する呼気段落におけるアクセント句数及びアクセント句の拍数（i’2，e1，i”2，g1）で除算し、相対値（E1，E2，G1，G2）を求める。相対値（E1，G1）は相対的な数を示し、相対値（E2，G2）は相対的な位置を示す。
［数５］
E1＝e1／i’2
E2＝e2／e1
G1＝g1／i”2
G2＝g2／g1 ・・・（５）

【0082】

前記式（５）において、相対値化部１２は、現在着目している音素の属するアクセント句の前に隣接するアクセント句の拍数（e1）を、現在着目している音素の属するアクセント句に隣接する順方向のアクセント句の属する呼気段落におけるアクセント句数（i’2）で除算することで、e1についての相対値（E1）を求める。

【0083】

前記式（５）において、相対値化部１２は、現在着目している音素の属するアクセント句の前に隣接するアクセント句のアクセント核の拍単位での位置（e2）を、現在着目している音素の属するアクセント句の前に隣接するアクセント句の拍数（e1）で除算することで、e2についての相対値（E2）を求める。

【0084】

前記式（５）において、相対値化部１２は、現在着目している音素の属するアクセント句の後に隣接するアクセント句の拍数（g1）を、現在着目している音素の属するアクセント句の後に隣接するアクセント句の属する呼気段落におけるアクセント句数（i”2）で除算することで、g1についての相対値（G1）を求める。

【0085】

前記式（５）において、相対値化部１２は、現在着目している音素の属するアクセント句の後に隣接するアクセント句のアクセント核の拍単位での位置（g2）を、現在着目している音素の属するアクセント句の後に隣接するアクセント句の拍数（g1）で除算することで、g2についての相対値（G2）を求める。

【0086】

このように、相対値化部１２は、韻律に関わる時間情報として、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句に隣接するアクセント句の拍数及びアクセント核の拍単位での位置（e1，e2，g1，g2）を用いる場合、前記式（５）にて相対値（E1，E2，G1，G2）を求める。

【0087】

＜３＞韻律に関わる時間情報として、アクセント句内の拍の位置及びアクセント句内の拍とアクセント核との間の相対位置（アクセント句内のアクセント核からの拍の位置）を用いる場合
相対値化部１２は、以下の式にて、文脈依存ラベルを構成する複数の情報のうち、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置（a1～a3）について、現在着目している音素の属するアクセント句の拍数（f1）で除算し、相対値（A1～A3）を求める。相対値（A1～A3）は相対的な位置を示す。
［数６］
An＝an／f1 for n=1,2,3 ・・・（６）

【0088】

前記式（６）において、相対値化部１２は、現在着目している音素の属するアクセント句における拍単位での位置（a1）を、現在着目している音素の属するアクセント句の拍数（f1）で除算することで、a1についての相対値（A1）を求める。

【0089】

前記式（６）において、相対値化部１２は、現在着目している音素の属するアクセント句におけるアクセント核からの拍単位での順方向の位置（a2）を、現在着目している音素の属するアクセント句の拍数（f1）で除算することで、a2についての相対値（A2）を求める。

【0090】

前記式（６）において、相対値化部１２は、現在着目している音素の属するアクセント句におけるアクセント核からの拍単位での逆方向の位置（a3）を、現在着目している音素の属するアクセント句の拍数（f1）で除算することで、a3についての相対値（A3）を求める。

【0091】

このように、相対値化部１２は、韻律に関わる時間情報として、現在着目している音素の属するアクセント句における拍単位での位置及びアクセント核からの拍単位での位置（a1～a3）を用いる場合、前記式（６）にて相対値（A1～A3）を求める。

【0092】

そして、相対値化部１２は、以下のように、文脈依存相対ラベルを生成する。
p1^p2-p3+p4=p5/A:A1+A2+A3
/B:b1-b2_b3/C:c1_c2+c3/D:d1+d2_d3
/E:E1_E2!e3_e4-e5/F:F1_F2#f3_f4@F5_F6|F7_F8/G:G1_G2%g3_g4_g5
/H:H1_H2/I:I1-I2@I3+I4&I5-I6|I7+I8/J:J1_J2
尚、前記の文脈依存相対ラベルは、便宜上４行に分割して記述しているが、実際は音素毎に１行で記述する。詳細については、前述の非特許文献２を参照されたい。

【0093】

（文脈質問群処理部１３）
図１及び図２に戻って、文脈質問群処理部１３は、相対値化部１２から音素毎の文脈依存相対ラベルを入力し、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行う（ステップＳ２０３）。そして、文脈質問群処理部１３は、音素毎の言語特徴行列を生成し、音素毎の言語特徴行列を対応付け部１５に出力する。

【0094】

図６は、非特許文献３に記載された文脈に関する質問群例を示す図である。この文脈に関する質問群は、１行につき１つの質問が記述されており、質問毎に、１項目目の質問セット種別（「ＱＳ（Question Set）：質問セット」または「ＣＱＳ（Continuous Question Set）：連続値質問セット」）、２項目目のラベル（“”内の文字列で表したラベル）、及び３項目目の条件（｛｝内の文字列で表した条件）から構成される。

【0095】

つまり、質問は、質問セットである「ＱＳ」及び連続値質問セットである「ＣＱＳ」のいずれかで記述される。

【0096】

質問セット種別が「ＱＳ」の場合、２項目目のラベルの値として、文脈依存ラベルのデータが３項目目の条件として指定された文字列に合致するときに「１」、合致しないときに「０」が与えられる。つまり、質問セット種別が「ＱＳ」の場合に得られるデータは、２値のうちのいずれかをとるバイナリな特徴量のバイナリデータとなる。

【0097】

尚、３項目目の条件として、複数の文字列を「，」で接続することによって、文字列のいずれかに合致するときに「１」、いずれにも合致しないときに「０」が与えられるという論理和が定義される。

【0098】

質問セット種別が「ＣＱＳ」の場合、２項目目のラベルの値として、文脈依存ラベルのデータが３項目目の条件として指定した文字列による数値を抽出する正規表現に合致するときに、その数値が与えられ、合致しないときに「０」が与えられる。つまり、質問セット種別が「ＣＱＳ」の場合に得られるデータは、連続的な特徴量の数値データとなる。

【0099】

図６に示した文脈に関する質問群例は、従来の非特許文献３に記載されたものであるが、本発明の実施形態においても、同様の質問群例が用いられる。つまり、文脈質問群処理部１３は、音素毎の文脈依存相対ラベルについて、質問セット種別が「ＱＳ」の場合、２項目目のラベルの値として、文脈依存相対ラベルのデータが３項目目の条件として指定した文字列に合致するときに「１」、合致しないときに「０」を与えることで、言語特徴行列のバイナリデータを求める。

【0100】

また、文脈質問群処理部１３は、音素毎の文脈依存相対ラベルについて、質問セット種別が「ＣＱＳ」の場合、２項目目のラベルの値として、文脈依存相対ラベルのデータが３項目目の条件として指定した文字列による数値を抽出する正規表現に合致するときに、その数値を与え、合致しないときに「０」を与えることで、言語特徴行列の数値データを求める。この場合、文脈依存相対ラベルのデータが韻律に関わる時間情報であるとき、言語特徴行列の数値データとして相対的な実数値が求められる。

【0101】

このように、質問セット種別が「ＣＱＳ」の場合、従来技術では、文脈依存ラベルのデータが韻律に関わる時間情報であるとき、当該時間情報は絶対的な整数値であるため、対応する言語特徴行列の数値データも、絶対的な整数値となる。これに対し、本発明の実施形態では、文脈依存相対ラベルのデータが韻律に関わる時間情報であるとき、当該時間情報は相対的な実数値であるため、対応する言語特徴行列の数値データも、相対的な実数値となる。

【0102】

図７は、文脈質問群処理部１３のステップＳ２０３の文脈質問群適用処理、及び音素毎の言語特徴行列のデータ構成を説明する図である。文脈質問群処理部１３は、文脈依存相対ラベルについて、予め用意しておいた文脈に関する質問群を適用することで、図２のステップＳ２０３の処理を行い、音素毎に言語特徴行列を求める。

【0103】

具体的には、文脈質問群処理部１３は、文脈依存相対ラベルの１行に記された１つの音素に関する情報毎に、文脈に関する全ての質問群を適用し、全ての質問群に対するデータ（バイナリな特徴量のバイナリデータ、及び連続的な特徴量の数値データ）を求める。そして、文脈質問群処理部１３は、音素毎の言語特徴行列を生成する。

【0104】

例えば、文脈依存相対ラベルのデータの行数（音素数）をＮ_pとし、「ＱＳ」で始まる質問数がＮ_b個、「ＣＱＳ」で始まる質問数がＮ_c個、合計でＮ_q個（Ｎ_q＝Ｎ_b＋Ｎ_c）の質問群で構成される場合を想定する。この場合、文脈質問群処理部１３は、文脈依存相対ラベルの行（音素）毎に、Ｎ_q個の質問に対するデータを求める。そして、文脈質問群処理部１３は、Ｎ_b次元のバイナリデータ及びＮ_c次元の数値データからなる合計Ｎ_q次元のベクトルを持つ（Ｎ_p，Ｎ_q）の行列を、言語特徴行列として生成する。

【0105】

文脈に関する質問群において、質問セット種別が「ＱＳ」の場合の質問数がＮ_b＝６４３個であり、質問セット種別が「ＣＱＳ」の質問数がＮ_c＝２５個であるとする。この場合、文脈質問群処理部１３は、文脈依存相対ラベルの１行に記述された１つの音素に関する情報について、全ての質問群を適用することで、６４３次元のバイナリデータ及び２５次元の数値データを求める。

【0106】

そして、文脈質問群処理部１３は、文脈依存相対ラベルを構成する全ての音素に関する情報について、それぞれ６４３次元のバイナリデータ及び２５次元の数値データを求め、音素毎の言語特徴行列（６４３次元のバイナリデータ＋２５次元の数値データ）を生成する。

【0107】

ここで、従来技術では、図１８のステップＳ１８０２及び図１９のステップＳ１９０２に示したとおり、絶対的な整数値の数値データ（図４において例えばi1＝１～４９）を含む文脈依存ラベルを用いて、言語特徴行列が生成される。質問セット種別が「ＣＱＳ」の場合、絶対的な整数値の数値データを含む文脈依存ラベルから、絶対的な整数値の数値データが得られ、絶対的な整数値の数値データを含む言語特徴行列が生成される。前述のとおり、この絶対的な整数値の数値データは、取り得る値の範囲内で連続的に分布しないため、疎な状態となる。

【0108】

これに対し、本発明の実施形態では、図２のステップＳ２０３及び後述する図１４のステップＳ１４０３に示すとおり、相対的な実数値の数値データ（例えば０～１の範囲における実数値、図５において例えばＩ１＝０．７５）を含む文脈依存相対ラベルを用いて、言語特徴行列が生成される。質問セット種別が「ＣＱＳ」の場合、相対的な実数値の数値データを含む文脈依存相対ラベルから、相対的な実数値の数値データが得られ、相対的な実数値の数値データを含む言語特徴行列が生成される。この相対的な実数値の数値データについては、取り得る値の範囲において連続的に分布するため、疎な状態の程度が従来技術に比べて低減される。これにより、精度の高い時間長モデル及び音響モデルを学習することができる。

【0109】

（音声分析部１４）
図１及び図２に戻って、音声分析部１４は、記憶部１０から音声コーパスの各テキストに対応する各音声信号を読み出す。そして、音声分析部１４は、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音声（音響）分析処理を行い、フレーム毎の所定情報からなる音響特徴量を求める（ステップＳ２０４）。音声分析部１４は、フレーム毎の音響特徴量を対応付け部１５に出力する。

【0110】

音声分析処理としては、例えば以下に記載された処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”，インターネット＜ＵＲＬ：https://github.com/mmorise/World＞
また、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”，インターネット＜ＵＲＬ：http://sp-tk.sourceforge.net/＞
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”

【0111】

図８は、音声分析部１４のステップＳ２０４の音声分析処理、及びフレーム毎の音響特徴量のデータ構成を説明する図である。音声分析部１４は、記憶部１０から音声コーパスの各音声信号を読み出し、フレーム長２５ｍｓの音声信号をフレームシフト５ｍｓ毎に切り出す（ステップＳ８０１）。そして、音声分析部１４は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める（ステップＳ８０２）。

【0112】

音声分析部１４は、スペクトルをメルケプストラム分析してメルケプストラム係数ＭＧＣを求める（ステップＳ８０３）。また、音声分析部１４は、ピッチ周波数から有声／無声判定情報ＶＵＶを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数ＬＦ０を求める（ステップＳ８０４）。また、音声分析部１４は、非周期成分をメルケプストラム分析して帯域非周期成分ＢＡＰを求める（ステップＳ８０５）。

【0113】

これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数ＭＧＣ、有声／無声判定情報ＶＵＶ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰが得られる。

【0114】

音声分析部１４は、メルケプストラム係数ＭＧＣの１次差分Δを算出して１次差分メルケプストラム係数ΔＭＧＣを求め（ステップＳ８０６）、２次差分Δ²を算出して２次差分メルケプストラム係数Δ²ＭＧＣを求める（ステップＳ８０７）。

【0115】

音声分析部１４は、対数ピッチ周波数ＬＦ０の１次差分Δを算出して１次差分対数ピッチ周波数ΔＬＦ０を求め（ステップＳ８０８）、２次差分Δ²を算出して２次差分対数ピッチ周波数Δ²ＬＦ０を求める（ステップＳ８０９）。

【0116】

音声分析部１４は、帯域非周期成分ＢＡＰの１次差分Δを算出して１次差分帯域非周期成分ΔＢＡＰを求め（ステップＳ８１０）、２次差分Δ²を算出して２次差分帯域非周期成分Δ²ＢＡＰを求める（ステップＳ８１１）。

【0117】

これにより、動特性の音響特徴量として、フレーム毎に、１次差分メルケプストラム係数ΔＭＧＣ、２次差分メルケプストラム係数Δ²ＭＧＣ、１次差分対数ピッチ周波数ΔＬＦ０、２次差分対数ピッチ周波数Δ²ＬＦ０、１次差分帯域非周期成分ΔＢＡＰ及び２次差分帯域非周期成分Δ²ＢＡＰが得られる。

【0118】

このようにして得られた音響特徴量は、フレーム毎に、静特性のメルケプストラム係数ＭＧＣ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰ、動特性の１次差分メルケプストラム係数ΔＭＧＣ、１次差分対数ピッチ周波数ΔＬＦ０、１次差分帯域非周期成分ΔＢＡＰ、２次差分メルケプストラム係数Δ²ＭＧＣ、２次差分対数ピッチ周波数Δ²ＬＦ０及び２次差分帯域非周期成分Δ²ＢＡＰ、並びに静特性の有声／無声判定情報ＶＵＶから構成される。この音響特徴量は、１９９次元のデータから構成される。

【0119】

（対応付け部１５）
図１及び図２に戻って、対応付け部１５は、文脈質問群処理部１３から音素毎の言語特徴行列を入力すると共に、音声分析部１４からフレーム毎の音響特徴量を入力する。

【0120】

対応付け部１５は、既知の音素アライメントの技術を用いて、音素毎の言語特徴行列とフレーム毎の音響特徴量との間で時間対応付け処理を行う（ステップＳ２０５）。そして、対応付け部１５は、テキストの文を構成する言語特徴行列の各音素が、音響特徴量における音声信号のどの時刻に位置（対応）するのかを算出し、音素毎の継続時間長を求める。

【0121】

対応付け部１５は、音素毎の言語特徴行列及び音素毎の継続時間長を学習部１６に出力する。音素毎の言語特徴行列及び音素毎の継続時間長は、時間長モデルの学習のために用いられる。

【0122】

この継続時間長は、ミリ秒（ｍｓ）単位の時間情報がフレームシフト５ｍｓで除算され、これにより得られる５ｍｓフレーム単位の数値が用いられる。

【0123】

音素アライメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit（HTK）”，インターネット＜ＵＲＬ：http://htk.eng.cam.ac.uk＞
“The HTK Book (for HTK Version 3.4)”，Cambridge University Engineering Department ，インターネット＜ＵＲＬ：www.seas.ucla.edu/spapl/weichu/htkbook/＞

【0124】

図９は、対応付け部１５のステップＳ２０５の音素アライメント処理、及び音素毎の継続時間長のデータ構成を説明する図である。対応付け部１５は、１音素あたり６６８次元のデータからなる言語特徴行列と１フレームあたり１９９次元の音響特徴量とを用いて、ステップＳ２０５の音素アライメント処理の時間的な対応付けにより、音素毎の継続時間長を求める。具体的には、対応付け部１５は、言語特徴行列における音素毎に、対応する音響特徴量における開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、音素の時間長（フレーム数）を音素毎の継続時間長（１次元の数値データ）として生成する。

【0125】

図１及び図２に戻って、対応付け部１５は、音素毎の言語特徴行列及び音素毎の継続時間長について、既知の言語特徴量抽出処理を行い（ステップＳ２０６）、音響特徴量に対応するフレーム毎の言語特徴量を求める。そして、対応付け部１５は、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習部１６に出力する。フレーム毎の言語特徴量及びフレーム毎の音響特徴量は、音響モデルの学習のために用いられる。

【0126】

図１０は、対応付け部１５のステップＳ２０６の言語特徴量抽出処理、及びフレーム毎の言語特徴量のデータ構成を説明する図である。対応付け部１５は、発話内における現在着目している音素の継続時間長に応じたフレーム（音響特徴量の処理単位）数分の言語特徴行列に、それぞれ音素の継続時間長に応じたフレーム数及びフレーム内の位置を表現する４次元の時間データを付加することによって、フレーム毎の言語特徴量を生成する。

【0127】

つまり、言語特徴量は、フレーム毎に、音響特徴量との間で時間対応付けされた言語特徴行例の６４３次元のバイナリデータ及び２５次元の数値データ、並びに継続時間長に応じた４次元の時間データから構成される。すなわち、言語特徴量は、音素数分の全てのフレームのそれぞれにつき、合計６７２次元のデータから構成される。

【0128】

尚、対応付け部１５は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。

【0129】

（学習部１６）
図１及び図２に戻って、学習部１６は、対応付け部１５から音素毎の言語特徴行列及び音素毎の継続時間長を入力する。そして、学習部１６は、音素毎の言語特徴行列及び音素毎の継続時間長を学習データとして、時間長モデルを学習し（ステップＳ２０７）、時間長モデルを記憶部１７に格納する。

【0130】

学習部１６は、対応付け部１５からフレーム毎の言語特徴量及びフレーム毎の音響特徴量を入力する。そして、学習部１６は、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習データとして、音響モデルを学習し（ステップＳ２０８）、音響モデルを記憶部１８に格納する。学習部１６は、例えば深層学習にて、時間長モデル及び音響モデルを学習する。

【0131】

（時間長モデル）
時間長モデルの学習処理について説明する。図１１は、学習部１６のステップＳ２０７の時間長モデル学習処理を説明する図である。

【0132】

学習部１６は、テキストを表現する音素毎に、６４３次元のバイナリデータ及び２５次元の数値データからなる６６８次元の言語特徴行列のデータを、時間長モデルの入力データとし、１次元の整数値の継続時間長（５ｍｓ単位のフレーム数）のデータを、時間長モデルの出力データとして扱う。

【0133】

学習部１６は、入力データである言語特徴行列のデータについて、次元毎に、全てのデータの最大値及び最小値を求めて記憶部１７に格納すると共に、全てのデータのそれぞれを、次元毎の最大値及び最小値を用いて正規化する。

【0134】

学習部１６は、出力データである継続時間長のデータについて、全てのデータの平均値及び標準偏差を求めて記憶部１７に格納すると共に、全てのデータのそれぞれを、平均値及び標準偏差を用いて標準化する。

【0135】

学習部１６は、音素毎に、言語特徴行列の正規化された６６８次元のデータを入力データとし、継続時間長の標準化された１次元のデータを出力データとして、ステップＳ２０７にて時間長モデルを学習する。そして、学習部１６は、学習済みの時間長モデルを記憶部１７に格納する。

【0136】

時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”，インターネット＜ＵＲＬ：https://github.com/CSTR-Edinburgh/merlin＞
後述する音響モデルの学習の場合も同様である。

【0137】

（音響モデル）
音響モデルの学習処理について説明する。図１２は、学習部１６のステップＳ２０８の音響モデル学習処理を説明する図である。

【0138】

学習部１６は、音響特徴量と時間対応付けされた、５ｍｓ単位のフレーム毎の６４３次元のバイナリデータ、２５次元の数値データ及び４次元の時間データからなる６７２次元の言語特徴量を、音響モデルの入力データとして扱う。また、学習部１６は、５ｍｓ単位のフレーム毎の１９９次元の音響特徴量を、音響モデルの出力データとして扱う。

【0139】

学習部１６は、入力データである言語特徴量のデータについて、次元毎に、全てのデータの最大値及び最小値を求めて記憶部１８に格納すると共に、全てのデータのそれぞれを、次元毎の最大値及び最小値を用いて正規化する。

【0140】

学習部１６は、出力データである音響特徴量のデータについて、次元毎に、全てのデータの平均値及び標準偏差を求めて記憶部１８に格納すると共に、全てのデータのそれぞれを、次元毎の平均値及び標準偏差を用いて標準化する。

【0141】

学習部１６は、フレーム毎に、言語特徴量の正規化された６７２次元のデータを入力データとし、音響特徴量の標準化された１９９次元のデータを出力データとして、ステップＳ２０８にて音響モデルを学習する。そして、学習部１６は、学習済みの音響モデルを記憶部１８に格納する。

【0142】

音響モデルの出力データである音響特徴量は、音声信号から５ｍｓ単位のフレーム毎に抽出された１９９次元のデータにより構成される。具体的には、６０次元のメルケプストラム係数、１次元の対数ピッチ周波数及び５次元の帯域非周期成分を併せた静特性６６次元と、静特性を１次差分及び２次差分した動特性と有声／無声判定値とを併せて、合計１９９次元である。

【0143】

図１１及び図１２を参照して、時間長モデルの入力層が６６８次元、音響モデルの入力層が６７２次元、両モデル共隠れ層が１０２４次元×６層、時間長モデルの出力層が１次元、音響モデルの出力層が１９９次元の順伝播型で構成される。隠れ層における活性化関数は双曲線正接関数、損失誤差関数は平均二乗誤差関数、ミニバッチ数は６４、エポック数は２５、学習係数の最適化方法として確率的勾配降下法、開始学習率０．００２、１０epoch（エポック）を過ぎてからepoch毎に学習率を指数減衰させ、誤差逆伝播法で学習する。尚、１５epochを過ぎてから、５epoch連続して評価誤差が減少しない場合は早期終了する。

【0144】

以上のように、本発明の実施形態による学習装置１によれば、言語分析部１１は、記憶部１０から音声コーパスの各テキストを読み出し、言語分析処理を行って音素毎の文脈依存ラベルを生成する。

【0145】

相対値化部１２は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行い、音素毎の文脈依存相対ラベルを生成する。文脈質問群処理部１３は、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行い、音素毎の言語特徴行列を生成する。

【0146】

音声分析部１４は、記憶部１０から音声コーパスの各テキストに対応する各音声信号を読み出し、フレーム毎の音声信号について音声分析処理を行い、フレーム毎の音響特徴量を求める。

【0147】

対応付け部１５は、音素アライメントの技術を用いて、音素毎の言語特徴行列とフレーム毎の音響特徴量とを時間的に対応付け、音素毎の継続時間長を求める。そして、対応付け部１５は、音素毎の言語特徴行列及び音素毎の継続時間長について、言語特徴量抽出処理を行い、音響特徴量に対応するフレーム毎の言語特徴量を求める。

【0148】

学習部１６は、音素毎の言語特徴行列及び音素毎の継続時間長を学習データとして、時間長モデルを学習し、フレーム毎の言語特徴量及びフレーム毎の音響特徴量を学習データとして、音響モデルを学習する。

【0149】

ここで、従来技術では、韻律に関わる時間情報は、絶対的な整数値の数値データとして扱われ、韻律に関わる絶対値の時間情報を含む文脈依存ラベルを用いて、言語特徴行列が生成される。このため、言語特徴行列に含まれる韻律に関わる整数値の時間情報の数値データは、取り得る範囲内で連続的に分布せず、疎な状態となる。そして、精度の高い時間長モデル及び音響モデルを学習することができず、これらの統計モデルを用いて任意のテキストを音声合成する場合に、高品質な音声信号を安定的に得ることができなかった。

【0150】

本発明の実施形態では、韻律に関わる時間情報を相対値化して相対的な小数値の数値データを求め、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを用いて、言語特徴行列を生成するようにした。このため、言語特徴行列に含まれる韻律に関わる相対値の時間情報の数値データは、取り得る範囲内で連続的に分布し、疎な状態の程度が従来技術に比べて低減される。したがって、精度の高い時間長モデル及び音響モデルを学習することができ、これらの統計モデルを用いて任意のテキストを音声合成する際に、高品質な音声信号を安定的に得ることができる。

【0151】

〔音声合成装置〕
次に、本発明の実施形態による音声合成装置について説明する。図１３は、本発明の実施形態による音声合成装置の構成を示すブロック図であり、図１４は、音声合成装置の音声合成処理を示すフローチャートである。

【0152】

この音声合成装置２は、言語分析部２０、相対値化部２１、文脈質問群処理部２２、時間長推定部２３、音響特徴量推定部２４、音声生成部２５、時間長モデルが記憶された記憶部１７、及び音響モデルが記憶された記憶部１８を備えている。記憶部１７に記憶された時間長モデル及び記憶部１８に記憶された音響モデルは、図１に示した学習装置１により学習されたモデルである。

【0153】

（言語分析部２０～文脈質問群処理部２２）
言語分析部２０は、音声合成処理の対象とするテキストを入力し、図１に示した言語分析部１１と同様の処理を行い（ステップＳ１４０１）、文脈依存ラベルを相対値化部２１に出力する。

【0154】

相対値化部２１は、言語分析部２０から文脈依存ラベルを入力し、図１に示した相対値化部１２と同様の処理を行い（ステップＳ１４０２）、文脈依存相対ラベルを文脈質問群処理部２２に出力する。

【0155】

文脈質問群処理部２２は、相対値化部２１から文脈依存相対ラベルを入力し、図１に示した文脈質問群処理部１３と同様の処理を行い（ステップＳ１４０３）、音素毎の言語特徴行列を時間長推定部２３に出力する。

【0156】

（時間長推定部２３）
時間長推定部２３は、文脈質問群処理部２２から音素毎の言語特徴行列を入力し、音素毎の言語特徴行列及び記憶部１７に格納された時間長モデルを用いて、音素毎の継続時間長を推定する（ステップＳ１４０４）。

【0157】

具体的には、時間長推定部２３は、記憶部１７に格納された時間長モデルの入力データの最大値及び最小値を用いて、音素毎の言語特徴行列を正規化し、正規化した音素毎の言語特徴行列を入力データとして、時間長モデルを用いた演算を行う。そして、時間長推定部２３は、記憶部１７に格納された時間長モデルの出力データの平均値及び標準偏差を用いて、出力データである標準化された音素毎の継続時間長を逆標準化し、元の音素毎の継続時間長を求める。

【0158】

時間長推定部２３は、音素毎の言語特徴行列及び音素毎の継続時間長を用いて、図１に示した対応付け部１５と同様の言語特徴量抽出処理を行い、フレーム毎の言語特徴量を求める。そして、時間長推定部２３は、フレーム毎の言語特徴量を音響特徴量推定部２４に出力する。

【0159】

（音響特徴量推定部２４）
音響特徴量推定部２４は、時間長推定部２３からフレーム毎の言語特徴量を入力し、フレーム毎の言語特徴量及び記憶部１８に格納された音響モデルを用いて、フレーム毎の音響特徴量を推定する（ステップＳ１４０５）。音響特徴量推定部２４は、フレーム毎の音響特徴量を音声生成部２５に出力する。

【0160】

具体的には、音響特徴量推定部２４は、記憶部１８に格納された音響モデルの入力データの最大値及び最小値を用いて、フレーム毎の言語特徴量を正規化し、正規化したフレーム毎の言語特徴量を入力データとして、音響モデルを用いた演算を行う。そして、音響特徴量推定部２４は、記憶部１８に格納された音響モデルの出力データの平均値及び標準偏差を用いて、出力データである標準化されたフレーム毎の音響特徴量を逆標準化し、元のフレーム毎の音響特徴量を求める。

【0161】

このようにして推定された音響特徴量は、フレーム毎に離散的な値をとる。このため、音響特徴量推定部２４は、連続するフレーム毎の音響特徴量に対して、最尤推定または移動平均を算出することで、滑らかな値の音響特徴量を求める。

【0162】

（音声生成部２５）
音声生成部２５は、音響特徴量推定部２４からフレーム毎の音響特徴量を入力し、フレーム毎の音響特徴量に基づいて音声信号を合成する（ステップＳ１４０６）。そして、音声生成部２５は、音声合成対象のテキストに対する音声信号を出力する。

【0163】

図１５は、音声生成部２５の音声生成処理を説明する図である。音声生成部２５は、音響特徴量推定部２４から入力したフレーム毎の音響特徴量のうち、フレーム毎のメルケプストラム係数ＭＧＣ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰである静特性の音響特徴量を選択する（ステップＳ１５０１）。

【0164】

音声生成部２５は、メルケプストラム係数ＭＧＣをメルケプストラムスペクトル変換し、スペクトルを求める（ステップＳ１５０２）。また、音声生成部２５は、対数ピッチ周波数ＬＦ０から有声／無声判定情報ＶＵＶを求め、対数ピッチ周波数ＬＦ０の有声区間を対数化し、無声及び無音区間についてはゼロとし、ピッチ周波数を求める（ステップＳ１５０３）。また、音声生成部２５は、帯域非周期成分ＢＡＰをメルケプストラムスペクトル変換し、非周期成分を求める（ステップＳ１５０４）。

【0165】

音声生成部２５は、ステップＳ１５０２にて求めたフレーム毎のスペクトル、ステップＳ１５０３にて求めたフレーム毎のピッチ周波数、及びステップＳ１５０４にて求めたフレーム毎の非周期成分を用いて連続的に音声波形を生成し（ステップＳ１５０５）、音声信号を出力する（ステップＳ１５０６）。

【0166】

以上のように、本発明の実施形態による音声合成装置２によれば、言語分析部２０は、音声合成処理の対象とするテキストについて、言語分析処理を行って音素毎の文脈依存ラベルを生成する。

【0167】

相対値化部２１は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化する時間情報相対値化処理を行い、音素毎の文脈依存相対ラベルを生成する。文脈質問群処理部２２は、音素毎の文脈依存相対ラベルについて、文脈に関する質問群を適用する文脈質問群適用処理を行い、音素毎の言語特徴行列を生成する。

【0168】

時間長推定部２３は、音素毎の言語特徴行列、及び学習装置１により生成された時間長モデルを用いて、音素毎の継続時間長を推定する。そして、時間長推定部２３は、音素毎の言語特徴行列及び音素毎の継続時間長を用いて、言語特徴量抽出処理を行い、フレーム毎の言語特徴量を求める。

【0169】

音響特徴量推定部２４は、フレーム毎の言語特徴量、及び学習装置１により生成された音響モデルを用いて、フレーム毎の音響特徴量を推定する。音声生成部２５は、フレーム毎の音響特徴量に基づいて音声信号を合成する。

【0170】

ここで、従来技術では、韻律に関わる時間情報は、絶対的な整数値の数値データとして扱われ、韻律に関わる絶対値の時間情報を含む文脈依存ラベルを用いて、言語特徴行列が生成される。このため、言語特徴行列に含まれる韻律に関わる整数値の時間情報の数値データは、取り得る範囲内で連続的に分布せず疎な状態となり、精度の高い時間長モデル及び音響モデルを学習することができない。このように統計モデルを用いて任意のテキストを音声合成する場合、高品質な音声信号を安定的に得ることができなかった。

【0171】

本発明の実施形態では、韻律に関わる時間情報を相対値化して相対的な小数値の数値データを求め、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを用いて、言語特徴行列を生成するようにした。このため、言語特徴行列に含まれる韻律に関わる相対値の時間情報の数値データは、取り得る範囲内で連続的に分布し、疎な状態の程度が従来技術に比べて低減される。したがって、学習装置１により学習された統計モデルを用いて任意のテキストを音声合成する場合、高品質な音声信号を安定的に得ることができる。

【0172】

〔実験結果〕
次に、従来技術と本発明の実施形態とを比較するためのシミュレーションによる実験結果について説明する。以下に説明する実験結果の従来技術は、前述の非特許文献２及び非特許文献３を利用して言語特徴行列を生成し、時間長モデル及び音響モデルを学習したものである。

【0173】

時間長モデルの入力データである言語特徴行列は、テキストを表現する音素毎に、６４３次元のバイナリデータ及び２５次元の数値データからなる合計６６８次元のデータから構成される。音響モデルの入力データである言語特徴量は、５ｍｓ単位のフレーム毎に、音響特徴量と時間対応付けされた言語特徴行列の６４３次元のバイナリデータ及び２５次元の数値データ、並びに４次元の時間データからなる合計６７２次元のデータから構成される。

【0174】

図１６は、時間長モデルの実験結果を示す図であり、その客観評価値及び訓練誤差を示している。具体的は、本図は、時間長モデルの出力データである継続時間長に関し、所定のDevelopセット及びTestセットのそれぞれについて、リファレンスデータと推定値との間の二乗平均平方根誤差（RMSE）及び相関係数（CORR）を示している。

【0175】

また、本図は、継続時間長に関し、訓練（学習）時に過剰適合しないように早期終了した際のValidセットの誤差最小値、及びそのときのTrainセットの誤差値を、誤差値（Error）として示している。RMSE及びErrorは小さいほど評価が高く、CORRは大きいほど評価が高いことを示す。

【0176】

従来技術と本発明の実施形態とを比較すると、本発明の実施形態のRMSE及びErrorは、いずれも従来技術よりも小さく、本発明の実施形態のCORRは、従来技術よりも大きい。したがって、本発明の実施形態は、従来技術よりも評価値に改善が見られ、時間長モデルを用いた継続時間長の推定精度が向上し、有効性を確認することができる。

【0177】

図１７は、音響モデルの実験結果を示す図であり、その客観評価値及び訓練誤差を示している。具体的は、本図は、音響モデルの出力データである音響特徴量に関し、所定のDevelopセット及びTestセットのそれぞれについて、メルケプストラムのリファレンスデータと推定値との間の二乗平均誤差（MCD）、帯域非周期成分のリファレンスデータと推定値との間の二乗平均誤差（BAP）、ピッチ周波数F0のリファレンスデータと推定値との間の二乗平均平方根誤差（RMSE）、相関係数（CORR）及び有声無声判定誤り率（VUV）を示している。

【0178】

また、本図は、音響特徴量に関し、訓練（学習）時に過剰適合しないよう早期終了した際のValidセットの誤差最小値、及びそのときのTrainセットの誤差値を、誤差値（Error）として示している。MCD、BAP、RMSE、VUV及びErrorは小さいほど評価が高く、CORRは大きいほど評価が高いことを示す。

【0179】

従来技術と本発明の実施形態とを比較すると、本発明の実施形態のMCD、BAP、RMSE、VUV及びErrorは、いずれも従来技術よりも小さく、本発明の実施形態のCORRは、従来技術よりも大きい。したがって、本発明の実施形態は、従来技術よりも評価値に改善が見られ、音響モデルを用いた音響特徴量の推定精度が向上し、有効性を確認することができる。

【0180】

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。前記実施形態では、学習装置１の相対値化部１２は、音素毎の文脈依存ラベルについて、韻律に関わる時間情報を相対値化し、韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成するようにした。

【0181】

この場合、相対値化部１２は、文脈依存ラベルに含まれる全ての韻律に関わる時間情報を対象として、文脈依存相対ラベルを生成するようにしてもよいし、一部の韻律に関わる時間情報を対象として、文脈依存相対ラベルを生成するようにしてもよい。つまり、相対値化部１２は、全ての韻律に関わる時間情報のうち、予め設定された１つまたは複数の韻律に関わる時間情報を対象として相対値化し、１つまたは複数の韻律に関わる相対値の時間情報を含む文脈依存相対ラベルを生成するようにしてもよい。音声合成装置２の相対値化部２１についても同様である。

【0182】

尚、本発明の実施形態による学習装置１及び音声合成装置２のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置１及び音声合成装置２は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

【0183】

学習装置１に備えた、音声コーパスが記憶された記憶部１０、言語分析部１１、相対値化部１２、文脈質問群処理部１３、音声分析部１４、対応付け部１５、学習部１６、時間長モデルが記憶された記憶部１７、及び音響モデルが記憶された記憶部１８の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0184】

また、音声合成装置２に備えた言語分析部２０、相対値化部２１、文脈質問群処理部２２、時間長推定部２３、音響特徴量推定部２４、音声生成部２５、時間長モデルが記憶された記憶部１７、及び音響モデルが記憶された記憶部１８の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0185】

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

【符号の説明】

【0186】

１学習装置
２音声合成装置
１０，１７，１８記憶部
１１，２０言語分析部
１２，２１相対値化部
１３，２２文脈質問群処理部
１４音声分析部
１５対応付け部
１６学習部
２３時間長推定部
２４音響特徴量推定部
２５音声生成部

【図1】