特許7133998 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人ＮＨＫエンジニアリングシステムの特許一覧

特許7133998音声合成装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-09-01

(45)【発行日】2022-09-09

(54)【発明の名称】音声合成装置及びプログラム

(51)【国際特許分類】

G10L 13/10 20130101AFI20220902BHJP

G10L 13/06 20130101ALI20220902BHJP

【ＦＩ】

G10L13/10 113Z

G10L13/06 140

【請求項の数】 6

(21)【出願番号】P 2018118332

(22)【出願日】2018-06-21

(65)【公開番号】P2019219590

(43)【公開日】2019-12-26

【審査請求日】2021-04-30

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(73)【特許権者】

【識別番号】591053926

【氏名又は名称】一般財団法人ＮＨＫエンジニアリングシステム

(74)【代理人】

【識別番号】100121119

【弁理士】

【氏名又は名称】花村泰伸

(72)【発明者】

【氏名】清山信正

(72)【発明者】

【氏名】栗原清

(72)【発明者】

【氏名】熊野正

(72)【発明者】

【氏名】今井篤

(72)【発明者】

【氏名】都木徹

【審査官】米倉秀明

(56)【参考文献】

【文献】特開２００３－０８４７８７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／１０

Ｇ１０Ｌ１３／０６

(57)【特許請求の範囲】

【請求項1】

学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
話速または時間長、パワー、ピッチ及び抑揚のそれぞれを示す調整パラメータに基づいて、前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記調整部は、
前記調整パラメータが前記話速を示す話速パラメータまたは前記時間長を示す時間長パラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる時間長の前記学習時の平均値を調整し、
前記調整パラメータが前記パワーを示すパワーパラメータである場合、前記統計モデルにおける前記音響特徴量に含まれるメルケプストラム係数の前記学習時の平均値を調整し、
前記調整パラメータが前記ピッチを示すピッチパラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる対数ピッチ周波数の前記学習時の平均値を調整し、
前記調整パラメータが前記抑揚を示す抑揚パラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる前記対数ピッチ周波数の前記学習時の標準偏差を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記学習モデルを用いて、前記音響特徴量の標準化された前記所定数の次元のデータを推定し、前記所定数の次元のデータのそれぞれについて、前記学習時の平均値または前記調整部により前記学習時の平均値が調整された場合には調整時の平均値、及び前記学習時の標準偏差または前記調整部により前記学習時の標準偏差が調整された場合には調整時の標準偏差を用いて、前記データを逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。

【請求項2】

学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記学習モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、
前記調整部は、
話速を示す話速パラメータまたは時間長を示す時間長パラメータに基づいて、前記時間長の前記学習時の平均値を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記調整部により調整された前記時間長の調整時の平均値及び前記時間長の前記学習時の標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、
前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記データの前記学習時の平均値及び標準偏差を用いて、前記時間長以外の標準化されたデータを逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。

【請求項3】

学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記学習モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、メルケプストラム係数の静特性及び動特性における０次元目の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、
前記調整部は、
パワーを示すパワーパラメータに基づいて、前記メルケプストラム係数の静特性及び動特性における０次元目の値の前記学習時の平均値を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、
前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、
前記メルケプストラム係数の静特性及び動特性における０次元目の値の標準化されたデータについて、前記調整部により調整された調整時の平均値及び前記学習時の標準偏差を用いて逆標準化すると共に、
前記メルケプストラム係数の静特性及び動特性における０次元目の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。

【請求項4】

学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記学習モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、対数ピッチ周波数における静特性及び動特性の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、
前記調整部は、
ピッチを示すピッチパラメータに基づいて、前記対数ピッチ周波数における静特性及び動特性の値の前記学習時の平均値を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、
前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、
前記対数ピッチ周波数における静特性及び動特性の値の標準化されたデータについて、前記調整部により調整された調整時の平均値及び前記学習時の標準偏差を用いて逆標準化すると共に、
前記対数ピッチ周波数における静特性及び動特性の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。

【請求項5】

学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記学習モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、対数ピッチ周波数における静特性及び動特性の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、
前記調整部は、
抑揚を示す抑揚パラメータに基づいて、前記対数ピッチ周波数における静特性及び動特性の値の前記学習時の標準偏差を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、
前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、
前記対数ピッチ周波数における静特性及び動特性の値の標準化されたデータについて、前記学習時の平均値及び前記調整部により調整された調整時の標準偏差を用いて逆標準化すると共に、
前記対数ピッチ周波数における静特性及び動特性の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。

【請求項6】

コンピュータを、請求項１から５までのいずれか一項に記載の音声合成装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、統計モデルを用いてテキストから音声信号を合成する音声合成装置及びプログラムに関する。

【背景技術】

【0002】

従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する合成音声を得る方法として、ディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）を用いた深層学習（ＤＬ：Deep Learing）に基づく技術が知られている（例えば、非特許文献１を参照）。

【0003】

一方、音声信号の読み上げ方を調整する方法として、音声分析生成処理に基づく技術が知られている（例えば、非特許文献２を参照）。

【0004】

図１８は、非特許文献１に記載された従来の学習方法及び合成方法を示す説明図である。この学習方法を実現する学習装置は、事前に用意された音声コーパスのテキストとこれに対応する音声信号を用いて、テキストについては言語分析処理により言語特徴量を抽出する（ステップＳ１８０１）。また、学習装置は、音声信号について音声分析処理により音響特徴量を抽出する（ステップＳ１８０２）。

【0005】

学習装置は、言語特徴量と音響特徴量の時間対応付けを行い（ステップＳ１８０３）、言語特徴量と音響特徴量を用いて統計モデルを学習する（ステップＳ１８０４）。

【0006】

また、この合成方法を実現する音声合成装置は、任意のテキストを入力し、テキストの言語分析処理により言語特徴量を抽出する（ステップＳ１８０５）。そして、音声合成装置は、学習装置により学習された統計モデルを用いて、言語特徴量から音響特徴量を推定し（ステップＳ１８０６）、音声生成処理により、音響特徴量から音声信号波形を求める（ステップＳ１８０７）。これにより、任意のテキストに対応する合成音声信号を得ることができる。

【0007】

図１９は、非特許文献２に記載された従来の音声信号調整方法を示す説明図である。この音声信号調整方法を実現する音声調整装置は、音声分析処理により、音声信号からフレーム毎の音響特徴量を抽出し（ステップＳ１９０１）、調整パラメータに基づいて、音響特徴量の所望の部分に所望の調整を加える（ステップＳ１９０２）。

【0008】

音声調整装置は、音声生成処理により、調整が加えられたフレーム毎の音響特徴量から音声信号を生成する（ステップＳ１９０３）。これにより、調整を加えた音声信号を得ることができる。

【先行技術文献】

【非特許文献】

【0009】

【文献】Zhizheng Wu, Oliver Watts, Simon King,“ Merlin：An Open Source Neural Network Speech Synthesis System”, in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA.

【文献】M. Morise, F. Yokomori, and K. Ozawa,“WORLD：a vocoder-based high-quality speech synthesis system for real-time applications”, IEICE transactions on information and systems, vol. E99-D, no, 7, pp. 1877-1884, 2016

【発明の概要】

【発明が解決しようとする課題】

【0010】

例えば、放送番組等のコンテンツ制作に合成音声信号を利用する際に、演出効果として、読み上げ方を調整した合成音声信号が求められることがある。

【0011】

前述の非特許文献１の方法は、任意のテキストに対して合成音声信号を得るものであり、同一のテキストに対して常に同一の合成音声信号が得られる。また、前述の非特許文献２の方法は、音声信号の読み上げ方を調整するものである。

【0012】

そこで、読み上げ方を調整した合成音声信号を求める方法として、前述の非特許文献１，２を組み合わせることが想定される。

【0013】

図２０は、非特許文献１，２の従来技術を組み合わせた想定例を示す説明図である。この想定例の学習方法は、図１８に示したステップＳ１８０１～Ｓ１８０４と同様である（ステップＳ２００１～Ｓ２００４）。

【0014】

この想定例の合成方法は、図１８に示したステップＳ１８０５～Ｓ１８０７の処理に、図１９に示したステップＳ１９０２の処理を挿入したものである。具体的には、音声合成装置は、任意のテキストから言語特徴量を抽出し（ステップＳ２００５）、統計モデルを用いて言語特徴量から音響特徴量を推定する（ステップＳ２００６）。

【0015】

音声合成装置は、調整パラメータに基づいて、音響特徴量の所望の部分に所望の調整を加える（ステップＳ２００７）。音声合成装置は、音声生成処理により、調整が加えられたフレーム毎の音響特徴量から音声信号を生成する（ステップＳ２００８）。これにより、任意のテキストに対応する合成音声信号を得ることができる。

【0016】

しかしながら、この想定例では、ステップＳ２００６にて統計モデルを用いて言語特徴量から推定した音響特徴量は、実際の音声信号から音声分析処理により抽出した音響特徴量とは異なり、時間的に平滑化された特性を持っている。このため、ステップＳ２００７にて統計モデルを用いて推定した音響特徴量に調整を加え、ステップＳ２００８にて調整後の音響特徴量から合成音声信号を得ると、合成音声信号に音質劣化を生じてしまう。

【0017】

このように、図２０に示した想定例では、高品質の合成音声信号を得ることができないという問題があった。このため、テキストの読み上げ方を調整した高品質の合成音声信号を得るために、新たな手法が所望されていた。

【0018】

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、テキストの読み上げ方を調整した合成音声信号を、高品質に生成可能な音声合成装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0019】

前記課題を解決するために、請求項１の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、話速または時間長、パワー、ピッチ及び抑揚のそれぞれを示す調整パラメータに基づいて、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記調整部が、前記調整パラメータが前記話速を示す話速パラメータまたは前記時間長を示す時間長パラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる時間長の前記学習時の平均値を調整し、前記調整パラメータが前記パワーを示すパワーパラメータである場合、前記統計モデルにおける前記音響特徴量に含まれるメルケプストラム係数の前記学習時の平均値を調整し、前記調整パラメータが前記ピッチを示すピッチパラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる対数ピッチ周波数の前記学習時の平均値を調整し、前記調整パラメータが前記抑揚を示す抑揚パラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる前記対数ピッチ周波数の前記学習時の標準偏差を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記学習モデルを用いて、前記音響特徴量の標準化された前記所定数の次元のデータを推定し、前記所定数の次元のデータのそれぞれについて、前記学習時の平均値または前記調整部により前記学習時の平均値が調整された場合には調整時の平均値、及び前記学習時の標準偏差または前記調整部により前記学習時の標準偏差が調整された場合には調整時の標準偏差を用いて、前記データを逆標準化し、前記音響特徴量を求める、ことを特徴とする。

【0021】

また、請求項２の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記学習モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、前記調整部が、話速を示す話速パラメータまたは時間長を示す時間長パラメータに基づいて、前記時間長の前記学習時の平均値を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記調整部により調整された前記時間長の調整時の平均値及び前記時間長の前記学習時の標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記データの前記学習時の平均値及び標準偏差を用いて、前記時間長以外の標準化されたデータを逆標準化し、前記音響特徴量を求める、ことを特徴とする。

【0022】

また、請求項３の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記学習モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、メルケプストラム係数の静特性及び動特性における０次元目の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、前記調整部が、パワーを示すパワーパラメータに基づいて、前記メルケプストラム係数の静特性及び動特性における０次元目の値の前記学習時の平均値を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記メルケプストラム係数の静特性及び動特性における０次元目の値の標準化されたデータについて、前記調整部により調整された調整時の平均値及び前記学習時の標準偏差を用いて逆標準化すると共に、前記メルケプストラム係数の静特性及び動特性における０次元目の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする。

【0023】

また、請求項４の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記学習モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、対数ピッチ周波数における静特性及び動特性の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、前記調整部が、ピッチを示すピッチパラメータに基づいて、前記対数ピッチ周波数における静特性及び動特性の値の前記学習時の平均値を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記対数ピッチ周波数における静特性及び動特性の値の標準化されたデータについて、前記調整部により調整された調整時の平均値及び前記学習時の標準偏差を用いて逆標準化すると共に、前記対数ピッチ周波数における静特性及び動特性の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする。

【0024】

また、請求項５の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記学習モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、対数ピッチ周波数における静特性及び動特性の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、前記調整部が、抑揚を示す抑揚パラメータに基づいて、前記対数ピッチ周波数における静特性及び動特性の値の前記学習時の標準偏差を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記対数ピッチ周波数における静特性及び動特性の値の標準化されたデータについて、前記学習時の平均値及び前記調整部により調整された調整時の標準偏差を用いて逆標準化すると共に、前記対数ピッチ周波数における静特性及び動特性の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする。

【0025】

さらに、請求項６プログラムは、コンピュータを、請求項１から５までのいずれか一項に記載の音声合成装置として機能させることを特徴とする。

【発明の効果】

【0026】

以上のように、本発明によれば、テキストの読み上げ方を調整した合成音声信号を、高品質に生成することが可能となる。

【図面の簡単な説明】

【0027】

【図1】本発明の実施形態による音声合成装置の構成例を示すブロック図である。

【図2】本発明の実施形態による音声合成装置の処理例を示すフローチャートである。

【図3】調整部の構成例を示すブロック図である。

【図4】調整パラメータが話速の場合の話速調整部による処理例を説明する図である。

【図5】調整パラメータがパワーの場合のパワー調整部による処理例を説明する図である。

【図6】調整パラメータがピッチの場合のピッチ調整部による処理例を説明する図である。

【図7】調整パラメータが抑揚の場合の抑揚調整部による処理例を説明する図である。

【図8】時間長モデルを用いた時間長推定処理例を説明する図である。

【図9】音響モデルを用いた音響特徴量推定処理例を説明する図である。

【図10】音声生成部による音声合成処理例を説明する図である。

【図11】学習装置の構成例を示すブロック図である。

【図12】言語特徴量のデータ構成例を説明する図である。

【図13】音声分析部による音声分析処理例を示すフローチャートである。

【図14】音響特徴量のデータ構成例を説明する図である。

【図15】時間情報が追加された言語特徴量のデータ構成例を説明する図である。

【図16】時間長モデルの学習処理例を説明する図である。

【図17】音響モデルの学習処理例を説明する図である。

【図18】非特許文献１に記載された従来の学習方法及び合成方法を示す説明図である。

【図19】非特許文献２に記載された従来の音声信号調整方法を示す説明図である。

【図20】非特許文献１，２の従来技術を組み合わせた想定例を示す説明図である。

【発明を実施するための形態】

【0028】

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明の実施形態による音声合成装置の説明に先立って、学習装置について説明する。

【0029】

〔学習装置〕
この学習装置は、図１８に示したステップＳ１８０１～Ｓ１８０４に対応する処理（または図２０に示したステップＳ２００１～Ｓ２００４に対応する処理）により、統計モデルを学習する。

【0030】

本発明の実施形態による音声合成装置は、学習装置により学習された統計モデルに含まれる平均値等を、調整パラメータに応じて調整し、調整後の統計モデルを生成する。そして、音声合成装置は、調整後の統計モデルを用いてテキストから音声信号を合成する。

【0031】

図１１は、学習装置の構成例を示すブロック図である。この学習装置１００は、記憶部１１０，１１５、言語分析部１１１、音声分析部１１２、対応付け部１１３及び学習部１１４を備えている。音声信号はモノラルであり、標本化周波数４８ｋＨｚ及びビット数１６で標本化されているものとする。

【0032】

記憶部１１０には、予め設定された音声コーパスが格納されている。音声コーパスは、テキストと、これに対応する音声信号から構成される。例えば、ＡＴＲ（株式会社国際電気通信基礎技術研究所）により作成された音素バランス５０３文を利用する場合、テキストと、これを読み上げた音声信号は、５０３対からなる。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論（春）、 pp.89-90（1988.3）

【0033】

言語分析部１１１は、記憶部１１０から音声コーパスの各テキストを読み出し、テキストについて既知の言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める。そして、言語分析部１１１は、音素毎の言語特徴量を対応付け部１１３に出力する。言語分析部１１１による処理は、図１８のステップＳ１８０１及び図２０のステップＳ２００１に対応する。

【0034】

具体的には、言語分析部１１１は、言語分析処理により、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報を求め、これらの情報からなる言語特徴量を求める。

【0035】

言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab：Yet Another Part-of-Speech and Morphological Analyzer”，インターネット＜ＵＲＬ：http://taku910.github.io/mecab/＞
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜：Yet Another Japanese Dependency Structure Analyzer”，インターネット＜ＵＲＬ：https://taku910.github.io/cabocha/＞

【0036】

図１２は、言語特徴量のデータ構成例を説明する図である。図１２に示すように、言語特徴量は、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。

【0037】

図１１に戻って、音声分析部１１２は、記憶部１１０から音声コーパスの各テキストに対応する各音声信号を読み出し、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音響分析処理を行う。そして、音声分析部１１２は、フレーム毎の所定情報からなる音響特徴量を求め、フレーム毎の音響特徴量を対応付け部１１３に出力する。音声分析部１１２による処理は、図１８のステップＳ１８０２及び図２０のステップＳ２００２に対応する。音響特徴量は、後述するように、１９９次元のデータから構成される。

【0038】

音響分析処理としては、例えば以下に記載された音響分析処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”，インターネット＜ＵＲＬ：https://github.com/mmorise/World＞
また、音響分析処理としては、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”，インターネット＜ＵＲＬ：http://sp-tk.sourceforge.net/＞
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”

【0039】

図１３は、音声分析部１１２による音声分析処理例を示すフローチャートである。音声分析部１１２は、記憶部１１０から音声コーパスの各音声信号を読み出し、フレーム長２５ｍｓの音声信号をフレームシフト５ｍｓ毎に切り出す（ステップＳ１３０１）。そして、音声分析部１１２は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める（ステップＳ１３０２）。

【0040】

音声分析部１１２は、スペクトルをメルケプストラム分析してメルケプストラム係数ＭＧＣを求める（ステップＳ１３０３）。また、音声分析部１１２は、ピッチ周波数から有声／無声判定情報ＶＵＶを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数ＬＦ０を求める（ステップＳ１３０４）。また、音声分析部１１２は、非周期成分をメルケプストラム分析して帯域非周期成分ＢＡＰを求める（ステップＳ１３０５）。

【0041】

これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数ＭＧＣ、有声／無声判定情報ＶＵＶ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰが得られる。

【0042】

音声分析部１１２は、メルケプストラム係数ＭＧＣの１次差分Δを算出して１次差分メルケプストラム係数ΔＭＧＣを求め（ステップＳ１３０６）、２次差分Δ²を算出して２次差分メルケプストラム係数Δ²ＭＧＣを求める（ステップＳ１３０７）。

【0043】

音声分析部１１２は、対数ピッチ周波数ＬＦ０の１次差分Δを算出して１次差分対数ピッチ周波数ΔＬＦ０を求め（ステップＳ１３０８）、２次差分Δ²を算出して２次差分対数ピッチ周波数Δ²ＬＦ０を求める（ステップＳ１３０９）。

【0044】

音声分析部１１２は、帯域非周期成分ＢＡＰの１次差分Δを算出して１次差分帯域非周期成分ΔＢＡＰを求め（ステップＳ１３１０）、２次差分Δ²を算出して２次差分帯域非周期成分Δ²ＢＡＰを求める（ステップＳ１３１１）。

【0045】

これにより、動特性の音響特徴量として、フレーム毎に、１次差分メルケプストラム係数ΔＭＧＣ、２次差分メルケプストラム係数Δ²ＭＧＣ、１次差分対数ピッチ周波数ΔＬＦ０、２次差分対数ピッチ周波数Δ²ＬＦ０、１次差分帯域非周期成分ΔＢＡＰ及び２次差分帯域非周期成分Δ²ＢＡＰが得られる。

【0046】

音声分析部１１２は、フレーム毎の静特性及び動特性の所定情報からなる音響特徴量を対応付け部１１３に出力する。

【0047】

図１４は、音響特徴量のデータ構成例を説明する図である。図１４に示すように、音響特徴量は、フレーム毎に、静特性のメルケプストラム係数ＭＧＣ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰ、動特性の１次差分メルケプストラム係数ΔＭＧＣ、１次差分対数ピッチ周波数ΔＬＦ０、１次差分帯域非周期成分ΔＢＡＰ、２次差分メルケプストラム係数Δ²ＭＧＣ、２次差分対数ピッチ周波数Δ²ＬＦ０及び２次差分帯域非周期成分Δ²ＢＡＰ、並びに静特性の有声／無声判定情報ＶＵＶから構成される。この音響特徴量は、後述するように、１９９次元のデータから構成される。

【0048】

図１１に戻って、対応付け部１１３は、言語分析部１１１から音素毎の言語特徴量を入力すると共に、音声分析部１１２からフレーム毎の音響特徴量を入力する。そして、対応付け部１１３は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付けることで、テキストの文を構成する各音素が音声信号のどの時刻に位置（対応）するのかを算出する。対応付け部１１３による処理は、図１８のステップＳ１８０３及び図２０のステップＳ２００３に対応する。

【0049】

対応付け部１１３は、音素毎に、対応する開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、言語特徴量を構成する音素毎の所定情報に時間情報を追加すると共に、音素の時間長（フレーム数）を求める。そして、対応付け部１１３は、対応付けた音素毎の時間情報を追加した言語特徴量を学習部１１４に出力する。また、対応付け部１１３は、音素毎の時間長を音響特徴量に含め、対応付けたフレーム毎の音響特徴量（時間長については音素毎のデータ）を学習部１１４に出力する。

【0050】

ここで、言語特徴量に追加される時間情報は、ミリ秒単位の情報である。また、音素毎の時間長は、後述する統計モデルにおける時間長モデルの出力データに用いられ、音素におけるミリ秒単位の時間の長さをフレームシフト５ｍｓで除算した５ｍｓフレーム単位の数値、すなわち音素のフレーム数が用いられる。

【0051】

音素アラインメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit（HTK）”，インターネット＜ＵＲＬ：http://htk.eng.cam.ac.uk＞
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”

【0052】

尚、対応付け部１１３は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。

【0053】

図１５は、時間情報が追加された言語特徴量のデータ構成例を説明する図である。図１５に示すように、時間情報が追加された言語特徴量は、図１２に示した言語特徴量に時間情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、時間情報、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。

【0054】

図１１に戻って、学習部１１４は、対応付け部１１３から、音素毎の言語特徴量及びフレーム毎の音響特徴量（時間長については音素毎のデータ）を入力する。そして、学習部１１４は、これらのデータを標準化し、統計モデルである時間長モデル及び音響モデルを学習し、統計モデルを記憶部１１５に格納する。

【0055】

（時間長モデルの学習）
次に、学習部１１４による時間長モデルの学習処理について説明する。図１６は、時間長モデルの学習処理例を説明する図である。学習部１１４は、対応付け部１１３から入力した音素毎の言語特徴量に基づいて、言語特徴を表す３１２次元のバイナリデータ及び１３次元の数値データを生成する。言語特徴量の次元数は３２５である。

【0056】

ここで、言語特徴量における３１２次元のバイナリデータ及び１３次元の数値データは、言語特徴量に含まれる音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報に基づいて生成される。

【0057】

学習部１１４は、言語特徴量の３１２次元のバイナリデータ及び１３次元の数値データからなる３２５次元のデータを、時間長モデルの入力データとして扱う（ステップＳ１６０１）。

【0058】

学習部１１４は、言語特徴量の３２５次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部１１５に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する（ステップＳ１６０２）。

【0059】

また、学習部１１４は、対応付け部１１３から入力したフレーム毎の音響特徴量（時間長については音素毎のデータ）のうちの音素毎の時間長について、当該時間長の１次元のデータを、時間モデルの出力データとして扱う（ステップＳ１６０３）。この時間長は、５ｍｓ単位のフレーム数であり、テキストを表現する音素毎に１次元の整数値からなる。

【0060】

学習部１１４は、時間長の１次元の全てのデータを用いて、平均値μ_DUR及び標準偏差σ_DURを求めて記憶部１１５に格納すると共に、全てのデータのそれぞれについて、平均値μ_DUR及び標準偏差σ_DURを用いて標準化する（ステップＳ１６０４）。

【0061】

学習部１１４は、ステップＳ１６０２，Ｓ１６０４から移行して、音素毎に、言語特徴量の３２５次元の標準化されたデータを入力データとし、時間長の１次元の標準化されたデータを出力データとして時間長モデルを学習する（ステップＳ１６０５）。そして、学習部１１４は、学習済みの時間長モデルを記憶部１１５に格納する。

【0062】

ステップＳ１６０５における時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”，インターネット＜ＵＲＬ：https://github.com/CSTR-Edinburgh/merlin＞
後述する図１７のステップＳ１７０５における音響モデルの学習の場合も同様である。

【0063】

時間長モデルは、例えば入力層を３２５次元、隠れ層を１０２４次元の６層、出力層を１次元とした順伝播型のニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を６４、エポック数を１００、dropout（ドロップアウト）率を０．５、学習係数の最適化方法として確率的勾配降下法、開始学習率を０．０１、１０エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、１５エポックを過ぎてから、５エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。

【0064】

これにより、記憶部１１５には、統計モデルとして時間長モデルが格納される。また、記憶部１１５には、統計モデルとして、時間長モデルの入力データである言語特徴量の３１２次元のバイナリデータ及び１３次元の数値データからなる３２５次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部１１５には、統計モデルとして、時間長モデルの出力データである時間長の１次元のデータに関する平均値μ_DUR及び標準偏差σ_DURが格納される。

【0065】

（音響モデルの学習）
次に、学習部１１４による音響モデルの学習処理について説明する。図１７は、音響モデルの学習処理例を説明する図である。学習部１１４は、対応付け部１１３から入力した音素毎の言語特徴量に基づいて、言語特徴を表す３１２次元のバイナリデータ、１３次元の数値データ及び４次元の時間データを生成する。

【0066】

４次元の時間データは、当該フレームに対応する音素のフレーム数（１次元のデータ）、及び当該フレームの音素内における位置（３次元のデータ）からなる。言語特徴量の次元数は３２９である。

【0067】

学習部１１４は、音素毎の言語特徴量における３１２次元のバイナリデータ、１３次元の数値データ及び４次元の時間データからなる３２９次元のデータから、フレーム毎の言語特徴量における３２９次元のデータを生成する。

【0068】

学習部１１４は、フレーム毎の言語特徴量について、言語特徴量の３１２次元のバイナリデータ、１３次元の数値データ及び４次元の時間データからなる３２９次元のデータを、音響モデルの入力データとして扱う（ステップＳ１７０１）。

【0069】

学習部１１４は、言語特徴量の３２９次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部１１５に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する（ステップＳ１７０２）。

【0070】

また、学習部１１４は、対応付け部１１３から入力したフレーム毎の音響特徴量（時間長については音素毎のデータ）のうちの時間長を除く音響特徴量について、１９９次元のデータを、音響モデルの出力データとして扱う（ステップＳ１７０３）。

【0071】

ここで、前述のとおり、時間長を除く音響特徴量は、静特性のメルケプストラム係数ＭＧＣ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰ、動特性の１次差分メルケプストラム係数ΔＭＧＣ、１次差分対数ピッチ周波数ΔＬＦ０、１次差分帯域非周期成分ΔＢＡＰ、２次差分メルケプストラム係数Δ²ＭＧＣ、２次差分対数ピッチ周波数Δ²ＬＦ０及び２次差分帯域非周期成分Δ²ＢＡＰ、並びに静特性の有声／無声判定情報ＶＵＶからなる。

【0072】

具体的には、時間長を除く音響特徴量は、静特性の６０次元のメルケプストラム係数ＭＧＣ[0:59]、１次元の対数ピッチ周波数ＬＦ０及び５次元の帯域非周期成分ＢＡＰ[0:4]を併せた静特性の６６次元のデータと、これらの静特性のデータを１次差分（ΔＭＧＣ[0:59]，ΔＬＰ０，ΔＢＡＰ[0:4]）及び２次差分（Δ²ＭＧＣ[0:59]，Δ²ＬＰ０，Δ²ＢＡＰ[0:4]）して得られた動特性の１３２次元のデータと、１次元の有声／無声判定データとからなる。つまり、時間長を除く音響特徴量の次元数は１９９である。

【0073】

学習部１１４は、音響特徴量の１９９次元の全てのデータを用いて、次元毎に、平均値μ_MGC[0:59]，μ_LF0，μ_BAP[0:4]，μ_ΔMGC[0:59]，μ_ΔLF0，μ_ΔBAP[0:4]，μ_Δ2MGC[0:59]，μ_Δ2LF0，μ_Δ2BAP[0:4]及び標準偏差σ_MGC[0:59]，σ_LF0，σ_BAP[0:4]，σ_ΔMGC[0:59]，σ_ΔLF0，σ_ΔBAP[0:4]，σ_Δ2MGC[0:59]，σ_Δ2LF0，σ_Δ2BAP[0:4]を求めて記憶部１１５に格納する。

【0074】

学習部１１４は、全てのデータのそれぞれについて、次元毎の平均値μ_MGC[0:59]，・・・及び標準偏差σ_MGC[0:59]，・・・を用いて標準化する（ステップＳ１７０４）。

【0075】

学習部１１４は、ステップＳ１７０２，Ｓ１７０４から移行して、フレーム毎に、言語特徴量の３２９次元の標準化されたデータを入力データとし、音響特徴量の１９９次元の標準化されたデータを出力データとして音響モデルを学習する（ステップＳ１７０５）。そして、学習部１１４は、学習済みの音響モデルを記憶部１１５に格納する。

【0076】

音響モデルは、例えば入力層を３２９次元、隠れ層を１０２４次元の６層、出力層を１９９次元とした順伝播型のニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を２５６、エポック数を１００、dropout（ドロップアウト）率を０．５、学習係数の最適化方法として確率的勾配降下法、開始学習率を０．００１、１０エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、１５エポックを過ぎてから、５エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。

【0077】

これにより、記憶部１１５には、統計モデルとして音響モデルが格納される。また、記憶部１１５には、統計モデルとして、音響モデルの入力データである言語特徴量の３１２次元のバイナリデータ、１３次元の数値データ及び４次元の時間データからなる３２９次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部１１５には、統計モデルとして、音響モデルの出力データである音響特徴量の１９９次元のデータに関する次元毎の平均値μ_MGC[0:59]，・・・及び標準偏差σ_MGC[0:59]，・・・が格納される。

【0078】

〔音声合成装置〕
次に、本発明の実施形態による音声合成装置について説明する。図１は、音声合成装置の構成例を示すブロック図であり、図２は、音声合成装置による音声合成処理例を示すフローチャートである。

【0079】

この音声合成装置１は、調整部１０、言語分析部１１、記憶部１２、音響特徴量推定部１３及び音声生成部１４を備えている。記憶部１２には、初期状態において、図１１に示した記憶部１１５の統計モデル（学習済みの統計モデル）が格納されており、調整部１０の調整処理に応じて、調整後の統計モデルが格納される。

【0080】

尚、学習装置１００により学習された統計モデルは、学習装置１００に備えた記憶部１１５から読み出され、音声合成装置１に備えた記憶部１２に格納されるようにしてもよい。また、音声合成装置１は、記憶部１２の代わりに、インターネットを介して、学習装置１００に備えた記憶部１１５へ直接アクセスするようにしてもよい。

【0081】

調整部１０は、所定の調整パラメータを入力し、記憶部１２から、調整パラメータに応じた平均値等を読み出し、調整パラメータに基づいて平均値等を調整して新たな平均値等を算出する。そして、調整部１０は、新たな平均値等を、調整後の平均値等として記憶部１２に格納する（ステップＳ２０１）。

【0082】

これにより、記憶部１２には、学習装置１００により学習された統計モデルである時間長モデル、音響モデル、並びに最大値及び平均値等に加え、調整後の平均値等が格納される。つまり、記憶部１２には、初期状態において、統計モデルである時間長モデル、音響モデル、並びに最大値及び平均値等が格納されており、調整後において、時間長モデル、音響モデル、最大値及び平均値等、並びに調整後の平均値等が調整後の統計モデルとして格納された状態となる。

【0083】

所定の調整パラメータは、音声信号を調整する（音響の特徴を調整する）ためのパラメータであり、話速Ｒ_ST、パワーＲ_PW、ピッチＲ_PT及び抑揚Ｒ_PDのうちのどれか、またはこれらの組み合わせとし、ユーザにより指定されるものとする。調整パラメータの値は、所定の調整範囲において任意の実数とする。

【0084】

尚、所定の調整パラメータは、話速Ｒ_ST、パワーＲ_PW、ピッチＲ_PT及び抑揚Ｒ_PDとし、これらの４つのパラメータのうちのいずれか１つのパラメータの調整量は、所定の調整範囲内における任意の値が指定され、他の３つのパラメータの調整量は、固定値が用いられるようにしてもよい。また、所定の調整パラメータは、前述の４つのパラメータとし、それぞれの調整量は、それぞれの所定の調整範囲内における任意の値が指定されるようにしてもよい。

【0085】

話速Ｒ_STは話速の調整量を示し、パワーＲ_PWはパワー（声の大きさ）の調整量を示し、ピッチＲ_PTはピッチ（声の高さ）の調整量を示し、抑揚Ｒ_PDは抑揚（声の高さの変化幅）の調整量を示す。尚、話速の代わりに、時間長を用いるようにしてもよい。

【0086】

話速Ｒ_STの範囲（話速の調整量範囲）は、例えば以下のとおりとする。
（遅い）0.5<=Ｒ_ST<=4.0（速い）
これは、話速Ｒ_STは0.5から4.0までの範囲において、0.5に近いほど遅く、4.0に近いほど速いことを意味する。

【0087】

パワーＲ_PWの範囲（パワーの調整量範囲）は、例えば以下のとおりとする。
（小さい）1.0E-5<=Ｒ_PW<=2.0（大きい）
これは、パワーＲ_PWは1.0E-5から2.0までの範囲において、1.0E-5に近いほど小さく、2.0に近いほど大きいことを意味する。

【0088】

ピッチＲ_PTの範囲（ピッチの調整量範囲）は、例えば以下のとおりとする。
（低い）0.5<=Ｒ_PT<=2.0（高い）
これは、ピッチＲ_PTは0.5から2.0までの範囲において、0.5に近いほど低く、2.0に近いほど高いことを意味する。

【0089】

抑揚Ｒ_PDの範囲（抑揚の調整量範囲）は、例えば以下のとおりとする。
（小さい）1.0E-5<=Ｒ_PD<=2.0（大きい）
これは、抑揚Ｒ_PDは1.0E-5から2.0までの範囲において、1.0E-5に近いほど小さく、2.0に近いほど大きいことを意味する。

【0090】

話速Ｒ_ST、パワーＲ_PW、ピッチＲ_PT及び抑揚Ｒ_PDの標準値は、いずれも1.0とする。調整部１０は、各調整パラメータについて、前述の範囲における任意の実数の調整量を入力する。

【0091】

図３は、調整部１０の構成例を示すブロック図である。この調整部１０は、話速調整部２０、パワー調整部２１、ピッチ調整部２２及び抑揚調整部２３を備えている。

【0092】

調整パラメータが話速の場合、話速調整部２０は、話速Ｒ_STの調整パラメータを入力し、話速Ｒ_STに基づいて、記憶部１２に格納された時間長モデルにおける時間長の平均値μ_DURを調整し、新たな平均値μ_DUR’を求める。そして、話速調整部２０は、新たな平均値μ_DUR’を調整後の平均値μ_DUR’として記憶部１２に格納する。

【0093】

図４は、調整パラメータが話速の場合の話速調整部２０による処理例を説明する図である。話速調整部２０は、話速Ｒ_STの調整パラメータを入力し（ステップＳ４０１）、記憶部１２から、時間長モデルの出力データである時間長の平均値μ_DURを読み出す（ステップＳ４０２）。

【0094】

話速調整部２０は、話速Ｒ_STに基づいて平均値μ_DURを調整する（ステップＳ４０３）。具体的には、話速調整部２０は、以下の式のとおり、平均値μ_DURに話速Ｒ_STの逆数を乗算し、新たな平均値μ_DUR’を求める。
［数１］
μ_DUR’＝ μ_DUR×１／Ｒ_ST ・・・（１）

【0095】

話速調整部２０は、新たな平均値μ_DUR’を、時間長モデルの出力データである時間長の調整後の平均値μ_DUR’として記憶部１２に格納する（ステップＳ４０４）。

【0096】

このように、話速Ｒ_STの調整パラメータにより、記憶部１２に格納された時間長の平均値μ_DURが調整され、調整後の平均値μ_DUR’が記憶部１２に格納される。そして、記憶部１２に格納された調整後の平均値μ_DUR’は、音響特徴量推定部１３が音響特徴量を推定する際に用いられ、話速が調整された音響特徴量を得ることができる。

【0097】

尚、話速調整部２０は、話速Ｒ_STの代わりに時間長の調整パラメータＲ_DR（＝１／Ｒ_ST）を入力するようにしてもよい。この場合、話速調整部２０は、以下の式のとおり、平均値μ_DURに時間長の調整パラメータＲ_DR（＝１／Ｒ_ST）を乗算し、新たな平均値μ_DUR’を求めることで、平均値μ_DURを調整する。
［数２］
μ_DUR’＝ μ_DUR×Ｒ_DR ・・・（２）

【0098】

図３に戻って、調整パラメータがパワーの場合、パワー調整部２１は、パワーＲ_PWの調整パラメータを入力する。そして、パワー調整部２１は、パワーＲ_PWに基づいて、記憶部１２に格納された音響モデルにおけるメルケプストラム係数の静特性及び動特性における０次元目の値MGC[0]，ΔMGC[0]，Δ²MGC[0]の平均値μ_MGC[0]，μ_ΔMGC[0]，μ_Δ2MGC[0]を調整し、新たな平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]を求める。パワー調整部２１は、新たな平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]を調整後の平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]として記憶部１２に格納する。

【0099】

図５は、調整パラメータがパワーの場合のパワー調整部２１による処理例を説明する図である。パワー調整部２１は、パワーＲ_PWの調整パラメータを入力する（ステップＳ５０１）。そして、パワー調整部２１は、記憶部１２から、音響モデルの出力データであるメルケプストラム係数の静特性及び動特性における０次元目の値MGC[0]，ΔMGC[0]，Δ²MGC[0]の平均値μ_MGC[0]，μ_ΔMGC[0]，μ_Δ2MGC[0]を読み出す（ステップＳ５０２）。

【0100】

パワー調整部２１は、以下の式のとおり、パワーＲ_PWに基づいて平均値μ_MGC[0]，μ_ΔMGC[0]，μ_Δ2MGC[0]を調整する（ステップＳ５０３）。具体的には、パワー調整部２１は、平均値μ_MGC[0]，μ_ΔMGC[0]，μ_Δ2MGC[0]に、パワーＲ_PWを対数化した値を加算し、加算結果の値と０とを比較して大きい方を、新たな平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]とする。
［数３］
μ_MGC’[0]＝ max（０，μ_MGC[0]＋logＲ_PW）
μ_ΔMGC’[0]＝ max（０，μ_ΔMGC[0]＋logＲ_PW）
μ_Δ2MGC’[0]＝ max（０，μ_Δ2MGC[0]＋logＲ_PW）・・・（３）

【0101】

パワー調整部２１は、新たな平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]を、音響モデルの出力データであるメルケプストラム係数の静特性及び動特性における０次元目の値MGC[0]，ΔMGC[0]，Δ²MGC[0]の調整後の平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]として記憶部１２に格納する（ステップＳ５０４）。

【0102】

このように、パワーＲ_PWの調整パラメータにより、記憶部１２に格納されたメルケプストラム係数の静特性及び動特性における０次元目の値MGC[0]，ΔMGC[0]，Δ²MGC[0]の平均値μ_MGC[0]，μ_ΔMGC[0]，μ_Δ2MGC[0]が調整され、調整後の平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]が記憶部１２に格納される。そして、記憶部１２に格納された調整後の平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]は、音響特徴量推定部１３が音響特徴量を推定する際に用いられ、パワーが調整された音響特徴量を得ることができる。

【0103】

図３に戻って、調整パラメータがピッチの場合、ピッチ調整部２２は、ピッチＲ_PTの調整パラメータを入力する。そして、ピッチ調整部２２は、ピッチＲ_PTに基づいて、記憶部１２に格納された音響モデルにおける対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0の平均値μ_LF0，μ_ΔLF0，μ_Δ2LF0を調整し、新たな平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’を求める。ピッチ調整部２２は、新たな平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’を調整後の平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’として記憶部１２に格納する。

【0104】

図６は、調整パラメータがピッチの場合のピッチ調整部２２による処理例を説明する図である。ピッチ調整部２２は、ピッチＲ_PTの調整パラメータを入力する（ステップＳ６０１）。そして、ピッチ調整部２２は、記憶部１２から、音響モデルの出力データである対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0の平均値μ_LF0，μ_ΔLF0，μ_Δ2LF0を読み出す（ステップＳ６０２）。

【0105】

ピッチ調整部２２は、以下の式のとおり、ピッチＲ_PTに基づいて平均値μ_LF0，μ_ΔLF0，μ_Δ2LF0を調整する（ステップＳ６０３）。具体的には、ピッチ調整部２２は、平均値μ_LF0，μ_ΔLF0，μ_Δ2LF0に、ピッチＲ_PTを対数化した値を加算し、加算結果の値と０とを比較して大きい方を、新たな平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’とする。
［数４］
μ_LF0’＝ max（０，μ_LF0＋logＲ_PT）
μ_ΔLF0’＝ max（０，μ_ΔLF0＋logＲ_PT）
μ_Δ2LF0’＝ max（０，μ_Δ2LF0＋logＲ_PT）・・・（４）

【0106】

ピッチ調整部２２は、新たな平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’を、音響モデルの出力データである対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0の調整後の平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’として記憶部１２に格納する（ステップＳ６０４）。

【0107】

このように、ピッチＲ_PTの調整パラメータにより、記憶部１２に格納された対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0の平均値μ_LF0，μ_ΔLF0，μ_Δ2LF0が調整され、調整後の平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’が記憶部１２に格納される。そして、記憶部１２に格納された調整後の平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’は、音響特徴量推定部１３が音響特徴量を推定する際に用いられ、ピッチが調整された音響特徴量を得ることができる。

【0108】

図３に戻って、調整パラメータが抑揚の場合、抑揚調整部２３は、抑揚Ｒ_PDの調整パラメータを入力する。そして、抑揚調整部２３は、抑揚Ｒ_PDに基づいて、記憶部１２に格納された音響モデルにおける対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0の標準偏差σ_LF0，σ_ΔLF0，σ_Δ2LF0を調整し、新たな標準偏差σ_LF0’， σ_ΔLF0’， σ_Δ2LF0’を求める。抑揚調整部２３は、新たな標準偏差σ_LF0’， σ_ΔLF0’， σ_Δ2LF0’を調整後の新たな標準偏差σ_LF0’， σ_ΔLF0’， σ_Δ2LF0’として記憶部１２に格納する。

【0109】

図７は、調整パラメータが抑揚の場合の抑揚調整部２３による処理例を説明する図である。抑揚調整部２３は、抑揚Ｒ_PDの調整パラメータを入力する（ステップＳ７０１）。そして、抑揚調整部２３は、記憶部１２から、音響モデルの出力データである対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0の標準偏差σ_LF0，σ_ΔLF0，σ_Δ2LF0を読み出す（ステップＳ７０２）。

【0110】

抑揚調整部２３は、以下の式のとおり、抑揚Ｒ_PDに基づいて標準偏差σ_LF0，σ_ΔLF0，σ_Δ2LF0を調整する（ステップＳ７０３）。具体的には、抑揚調整部２３は、標準偏差σ_LF0，σ_ΔLF0，σ_Δ2LF0に、抑揚Ｒ_PDを対数化した値を加算し、加算結果の値と０とを比較して大きい方を、新たな標準偏差σ_LF0’， σ_ΔLF0’， σ_Δ2LF0’とする。
［数５］
σ_LF0’＝ max（０，σ_LF0＋logＲ_PD）
σ_ΔLF0’＝ max（０，σ_ΔLF0＋logＲ_PD）
σ_Δ2LF0’＝ max（０，σ_Δ2LF0＋logＲ_PD）・・・（５）

【0111】

抑揚調整部２３は、新たな標準偏差σ_LF0’， σ_ΔLF0’， σ_Δ2LF0’を、音響モデルの出力データである対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0の調整後の標準偏差σ_LF0’， σ_ΔLF0’， σ_Δ2LF0’として記憶部１２に格納する（ステップＳ７０４）。

【0112】

このように、抑揚Ｒ_PDの調整パラメータにより、記憶部１２に格納された対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0の標準偏差σ_LF0，σ_ΔLF0，σ_Δ2LF0が調整され、調整後の標準偏差σ_LF0’，σ_ΔLF0’，σ_Δ2LF0’が記憶部１２に格納される。そして、記憶部１２に格納された調整後の標準偏差σ_LF0’，σ_ΔLF0’，σ_Δ2LF0’は、音響特徴量推定部１３が音響特徴量を推定する際に用いられ、抑揚が調整された音響特徴量を得ることができる。

【0113】

図１及び図２に戻って、言語分析部１１は、音声合成対象のテキストを入力し、図１１に示した言語分析部１１１と同様に、テキストについて既知の言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める（ステップＳ２０２）。そして、言語分析部１１は、音素毎の言語特徴量を音響特徴量推定部１３に出力する。

【0114】

音響特徴量推定部１３は、言語分析部１１から音素毎の言語特徴量を入力し、記憶部１２に格納された最大値、平均値等を用いて標準化及び逆標準化の処理を行い、時間長モデル及び音響モデルを用いてフレーム毎の音響特徴量を推定する（ステップＳ２０３）。音響特徴量推定部１３は、フレーム毎の音響特徴量を音声生成部１４に出力する。

【0115】

（時間長モデルを用いた時間長の推定）
次に、音響特徴量推定部１３による時間長モデルを用いた時間長の推定処理について説明する。図８は、時間長モデルを用いた時間長推定処理例を説明する図である。音響特徴量推定部１３は、言語分析部１１から入力した音素毎の言語特徴量に基づいて、言語特徴を表す３１２次元のバイナリデータ及び１３次元の数値データを生成する。言語特徴量の次元数は３２５である。

【0116】

音響特徴量推定部１３は、言語特徴量の３１２次元のバイナリデータ及び１３次元の数値データからなる３２５次元のデータを、時間長モデルの入力データとして扱う（ステップＳ８０１）。

【0117】

音響特徴量推定部１３は、記憶部１２から、時間長モデルの入力データである言語特徴量の３１２次元のバイナリデータ及び１３次元の数値データからなる３２５次元のデータに関する次元毎の最大値及び最小値を読み出す。そして、音響特徴量推定部１３は、言語特徴量の３２５次元のデータのそれぞれについて、次元毎に、最大値及び最小値を用いて標準化を行う（ステップＳ８０２）。

【0118】

音響特徴量推定部１３は、記憶部１２に格納された時間長モデルを用いて、言語特徴量の３２５次元の標準化されたデータを時間長モデルの入力データとして、時間長モデルの出力データである時間長の１次元の標準化されたデータを推定する（ステップＳ８０３）。

【0119】

音響特徴量推定部１３は、記憶部１２から、時間長モデルの出力データである時間長の１次元のデータに関する平均値μ_DUR、及び調整後の平均値μ_DUR’が格納されている場合はその値を読み出す。また、音響特徴量推定部１３は、その標準偏差σ_DURを読み出す。

【0120】

音響特徴量推定部１３は、ステップＳ８０３にて推定した時間長の１次元の標準化されたデータについて、平均値μ_DUR（調整後の平均値μ_DUR’がある場合はその値）及び標準偏差σ_DURを用いて逆標準化を行う（ステップＳ８０４）。そして、音響特徴量推定部１３は、時間長の１次元のデータを求める（ステップＳ８０５）。

【0121】

これにより、記憶部１２に格納された時間長モデル、時間長モデルの入力データである言語特徴量の３２５次元のデータに関する次元毎の最大値及び最小値、並びに、時間長モデルの出力データである時間長の１次元のデータに関する平均値μ_DURまたは平均値μ_DUR’及び標準偏差σ_DURを用いて、音素毎の言語特徴量の３２５次元のデータから、音素毎の時間長の１次元のデータを得ることができる。

【0122】

（音響モデルを用いた音響特徴量の推定）
次に、音響特徴量推定部１３による音響モデルを用いた音響特徴量の推定処理について説明する。図９は、音響モデルを用いた音響特徴量推定処理例を説明する図である。音響特徴量推定部１３は、ステップＳ８０５にて求めた音素毎の時間長の１次元のデータに基づいて、音素に対応する複数フレームのそれぞれにつき、４次元の時間データを求める（ステップＳ９０１）。

【0123】

前述のとおり、４次元の時間データは、当該フレームに対応する音素のフレーム数（１次元のデータ）、及び当該フレームの音素内における位置（３次元のデータ）からなる。

【0124】

音響特徴量推定部１３は、言語分析部１１から入力した音素毎の言語特徴量に基づいて、言語特徴を表す３１２次元のバイナリデータ及び１３次元の数値データを求める。そして、音響特徴量推定部１３は、音素毎の言語特徴量における３１２次元のバイナリデータ及び１３次元の数値データからなる３２５次元のデータから、フレーム毎の言語特徴量における３２５次元のデータを求める。

【0125】

音響特徴量推定部１３は、フレーム毎の言語特徴量の３１２次元のバイナリデータ及び１３次元の数値データからなる３２５次元のデータ、並びにステップＳ９０１にて生成した４次元の時間データを、音響モデルの入力データとして扱う（ステップＳ９０２）。

【0126】

音響特徴量推定部１３は、記憶部１２から、音響モデルの入力データである言語特徴量の３１２次元のバイナリデータ、１３次元の数値データ及び４次元の時間データからなる３２９次元のデータに関する次元毎の最大値及び最小値を読み出す。そして、音響特徴量推定部１３は、３２９次元のデータのそれぞれについて、次元毎に、最大値及び最小値を用いて標準化を行う（ステップＳ９０３）。

【0127】

音響特徴量推定部１３は、記憶部１２に格納された音響モデルを用いて、３２９次元の標準化されたデータを音響モデルの入力データとして、音響モデルの出力データである音響特徴量の１９９次元の標準化されたデータを推定する（ステップＳ９０４）。

【0128】

音響特徴量推定部１３は、記憶部１２から、音響モデルの出力データである音響特徴量の１９９次元のデータに関する平均値μ_MGC[0:59]，・・・、及び調整後の平均値μ_MGC’[0]，・・・が格納されている場合はその値を読み出す。また、音響特徴量推定部１３は、その標準偏差σ_MGC[0:59]，・・・、及び調整後の標準偏差σ_LF0’[0]，・・・が格納されている場合はその値を読み出す。

【0129】

音響特徴量推定部１３は、ステップＳ９０４にて推定した音響特徴量の１９９次元の標準化されたデータについて、次元毎に、平均値μ_MGC[0:59]，・・・（調整後の平均値μ_MGC’[0]，・・・がある場合はその値）及び標準偏差σ_MGC[0:59]，・・・（調整後の標準偏差σ_LF0’[0]，・・・がある場合はその値）を用いて逆標準化を行う（ステップＳ９０５）。そして、音響特徴量推定部１３は、フレーム毎の音響特徴量の１９９次元のデータを求める（ステップＳ９０６）。

【0130】

このようにして推定され逆標準化された音響特徴量は、フレーム毎に離散的な値をとる。そこで、音響特徴量推定部１３は、連続するフレーム毎の音響特徴量の１９９次元のデータに対して、最尤推定または移動平均をとり、新たなフレーム毎の音響特徴量の１９９次元のデータを求める。これにより、フレーム毎の音響特徴量は滑らかな値となる。

【0131】

これにより、記憶部１２に格納された音響モデル、音響モデルの入力データである言語特徴量の３２５次元のデータ及び時間データの４次元のデータに関する次元毎の最大値及び最小値、並びに、音響モデルの出力データである音響特徴量の１９９次元のデータに関する平均値μ_MGC[0:59]，・・・（調整後の平均値μ_MGC’[0]，・・・がある場合はその値）及び標準偏差σ_MGC[0:59]，・・・（調整後の標準偏差σ_LF0’[0]，・・・がある場合はその値）を用いて、フレーム毎の言語特徴量の３２５次元のデータ及び時間データの４次元のデータから、フレーム毎の音響特徴量の１９９次元のデータを得ることができる。

【0132】

図１及び図２に戻って、音声生成部１４は、音響特徴量推定部１３からフレーム毎の音響特徴量を入力し、フレーム毎の音響特徴量に基づいて音声信号を合成する（ステップＳ２０４）。そして、音声生成部１４は、音声合成対象のテキストに対して調整パラメータによる調整が加えられた音声信号を出力する。

【0133】

図１０は、音声生成部１４による音声合成処理例を説明する図である。音声生成部１４は、音響特徴量推定部１３から入力したフレーム毎の音響特徴量のうち、フレーム毎のメルケプストラム係数ＭＧＣ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰである静特性の音響特徴量を選択する（ステップＳ１００１）。

【0134】

音声生成部１４は、メルケプストラム係数ＭＧＣをメルケプストラムスペクトル変換し、スペクトルを求める（ステップＳ１００２）。また、音声生成部１４は、対数ピッチ周波数ＬＦ０から有声／無声判定情報ＶＵＶを求め、対数ピッチ周波数ＬＦ０の有声区間を指数化し、無声及び無音区間についてはゼロとし、ピッチ周波数を求める（ステップＳ１００３）。また、音声生成部１４は、帯域非周期成分ＢＡＰをメルケプストラムスペクトル変換し、非周期成分を求める（ステップＳ１００４）。

【0135】

音声生成部１４は、ステップＳ１００２にて求めたフレーム毎のスペクトル、ステップＳ１００３にて求めたフレーム毎のピッチ周波数、及びステップＳ１００４にて求めたフレーム毎の非周期成分を用いて連続的に音声波形を生成し（ステップＳ１００５）、音声信号を出力する（ステップＳ１００６）。

【0136】

これにより、音声合成対象のテキストに対して所定の調整パラメータによる調整が加えられた音声信号を得ることができる。

【0137】

以上のように、本発明の実施形態の音声合成装置１によれば、調整部１０は、話速Ｒ_ST、パワーＲ_PW、ピッチＲ_PT及び抑揚Ｒ_PDのうちのどれか、またはこれらの組み合わせの調整パラメータを入力し、記憶部１２から、調整パラメータに対応する平均値等を読み出し、調整パラメータに基づいて平均値等を調整して新たな平均値等を算出する。そして、調整部１０は、新たな平均値等を、調整後の平均値等として記憶部１２に格納する。

【0138】

これにより、記憶部１２には、調整後の統計モデルが格納される。調整後の統計モデルは、学習装置１００により学習された統計モデル、及び調整後の平均値等からなる。調整後の平均値等は、話速Ｒ_STの調整パラメータに応じた時間長の調整後の平均値μ_DUR’、パワーＲ_PWの調整パラメータに応じたメルケプストラム係数の静特性及び動特性の０次元目の値MGC[0]，ΔMGC[0]，Δ²MGC[0]における調整後の平均値μ_MGC’[0]，μ_ΔMGC’[0]，μ_Δ2MGC’[0]、ピッチＲ_PTの調整パラメータに応じた対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0における調整後の平均値μ_LF0’，μ_ΔLF0’，μ_Δ2LF0’、及び、抑揚Ｒ_PDの調整パラメータに応じた対数ピッチ周波数の静特性及び動特性LF0，ΔLF0，Δ²LF0における調整後の標準偏差σ_LF0’，σ_ΔLF0’，σ_Δ2LF0’である。

【0139】

言語分析部１１は、音声合成対象のテキストについて既知の言語分析処理を行い、音素毎の言語特徴量を求める。

【0140】

音響特徴量推定部１３は、記憶部１２から、言語特徴量における所定のデータに関する次元毎の最大値及び最小値を読み出し、次元毎に標準化を行う。そして、音響特徴量推定部１３は、記憶部１２に格納された時間長モデルを用いて、言語特徴量の標準化されたデータを時間長モデルの入力データとして、時間長モデルの出力データである時間長の標準化されたデータを推定する。

【0141】

音響特徴量推定部１３は、記憶部１２から、時間長モデルの出力データである時間長のデータに関する調整後の平均値μ_DUR’及び標準偏差σ_DURを読み出す。音響特徴量推定部１３は、時間長の標準化されたデータについて、調整後の平均値μ_DUR’及び標準偏差σ_DURを用いて逆標準化を行い、音素毎の時間長のデータを求める。

【0142】

音響特徴量推定部１３は、音素毎の時間長のデータに基づいて、フレーム毎の時間データを生成する。音響特徴量推定部１３は、記憶部１２から、フレーム毎の言語特徴量のデータ及び時間データに関する次元毎の最大値及び最小値を読み出し、次元毎に標準化を行う。

【0143】

音響特徴量推定部１３は、記憶部１２に格納された音響モデルを用いて、言語特徴量及び時間データの標準化されたデータを音響モデルの入力データとして、音響モデルの出力データである音響特徴量の標準化されたデータを推定する。

【0144】

音響特徴量推定部１３は、記憶部１２から、音響特徴量のデータに関する調整後の平均値μ_MGC’[0]等及び調整後の標準偏差σ_LF0’[0]等を読み出す。そして、音響特徴量推定部１３は、音響特徴量の標準化されたデータについて、次元毎に、調整後の平均値μ_MGC’[0]等及び調整後の標準偏差σ_LF0’[0]等を用いて逆標準化を行い、フレーム毎の音響特徴量を求める。

【0145】

音声生成部１４は、フレーム毎の音響特徴量に基づいて音声信号を合成し、合成音声信号を生成する。

【0146】

これにより、話速Ｒ_ST、パワーＲ_PW、ピッチＲ_PT及び抑揚Ｒ_PDのうちのどれか、またはこれらの組み合わせの調整パラメータが反映された調整後の統計モデルが生成される。そして、調整後の統計モデルを用いて、話速、パワー、ピッチ及び抑揚のうちのどれか、またはこれらの組み合わせが調整された合成音声信号を得ることができる。

【0147】

図２０に示した非特許文献１，２の従来技術を組み合わせた想定例では、統計モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、合成音声信号に音質劣化を生じてしまう。

【0148】

これに対し、本発明の実施形態による音声合成装置１は、調整パラメータが反映された調整後の統計モデルを用いて音響特徴量を推定し、合成音声信号を生成するから、統計モデルを用いて推定された音響特徴量に対し調整を加える必要がない。

【0149】

したがって、テキストの読み上げ方を調整した合成音声信号を、発話単位で高品質にかつ簡易な方法で生成することができる。

【0150】

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。

【0151】

尚、本発明の実施形態による音声合成装置１のハードウェア構成としては、通常のコンピュータを使用することができる。音声合成装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

【0152】

音声合成装置１に備えた調整部１０、言語分析部１１、記憶部１２、音響特徴量推定部１３及び音声生成部１４の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0153】

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

【符号の説明】

【0154】

１音声合成装置
１０調整部
１１，１１１言語分析部
１２，１１０，１１５記憶部
１３音響特徴量推定部
１４音声生成部
２０話速調整部
２１パワー調整部
２２ピッチ調整部
２３抑揚調整部
１００学習装置
１１２音声分析部
１１３対応付け部
１１４学習部

【図1】