IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧 ▶ 一般財団法人NHKエンジニアリングシステムの特許一覧

<>
  • 特許-音声合成装置及びプログラム 図1
  • 特許-音声合成装置及びプログラム 図2
  • 特許-音声合成装置及びプログラム 図3
  • 特許-音声合成装置及びプログラム 図4
  • 特許-音声合成装置及びプログラム 図5
  • 特許-音声合成装置及びプログラム 図6
  • 特許-音声合成装置及びプログラム 図7
  • 特許-音声合成装置及びプログラム 図8
  • 特許-音声合成装置及びプログラム 図9
  • 特許-音声合成装置及びプログラム 図10
  • 特許-音声合成装置及びプログラム 図11
  • 特許-音声合成装置及びプログラム 図12
  • 特許-音声合成装置及びプログラム 図13
  • 特許-音声合成装置及びプログラム 図14
  • 特許-音声合成装置及びプログラム 図15
  • 特許-音声合成装置及びプログラム 図16
  • 特許-音声合成装置及びプログラム 図17
  • 特許-音声合成装置及びプログラム 図18
  • 特許-音声合成装置及びプログラム 図19
  • 特許-音声合成装置及びプログラム 図20
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-01
(45)【発行日】2022-09-09
(54)【発明の名称】音声合成装置及びプログラム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20220902BHJP
   G10L 13/06 20130101ALI20220902BHJP
【FI】
G10L13/10 113Z
G10L13/06 140
【請求項の数】 6
(21)【出願番号】P 2018118332
(22)【出願日】2018-06-21
(65)【公開番号】P2019219590
(43)【公開日】2019-12-26
【審査請求日】2021-04-30
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】栗原 清
(72)【発明者】
【氏名】熊野 正
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
【審査官】米倉 秀明
(56)【参考文献】
【文献】特開2003-084787(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/10
G10L 13/06
(57)【特許請求の範囲】
【請求項1】
学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
話速または時間長、パワー、ピッチ及び抑揚のそれぞれを示す調整パラメータに基づいて、前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記調整部は、
前記調整パラメータが前記話速を示す話速パラメータまたは前記時間長を示す時間長パラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる時間長の前記学習時の平均値を調整し、
前記調整パラメータが前記パワーを示すパワーパラメータである場合、前記統計モデルにおける前記音響特徴量に含まれるメルケプストラム係数の前記学習時の平均値を調整し、
前記調整パラメータが前記ピッチを示すピッチパラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる対数ピッチ周波数の前記学習時の平均値を調整し、
前記調整パラメータが前記抑揚を示す抑揚パラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる前記対数ピッチ周波数の前記学習時の標準偏差を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記学習モデルを用いて、前記音響特徴量の標準化された前記所定数の次元のデータを推定し、前記所定数の次元のデータのそれぞれについて、前記学習時の平均値または前記調整部により前記学習時の平均値が調整された場合には調整時の平均値、及び前記学習時の標準偏差または前記調整部により前記学習時の標準偏差が調整された場合には調整時の標準偏差を用いて、前記データを逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。
【請求項2】
学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記学習モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、
前記調整部は、
話速を示す話速パラメータまたは時間長を示す時間長パラメータに基づいて、前記時間長の前記学習時の平均値を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記調整部により調整された前記時間長の調整時の平均値及び前記時間長の前記学習時の標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、
前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記データの前記学習時の平均値及び標準偏差を用いて、前記時間長以外の標準化されたデータを逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。
【請求項3】
学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記学習モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、メルケプストラム係数の静特性及び動特性における0次元目の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、
前記調整部は、
パワーを示すパワーパラメータに基づいて、前記メルケプストラム係数の静特性及び動特性における0次元目の値の前記学習時の平均値を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、
前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、
前記メルケプストラム係数の静特性及び動特性における0次元目の値の標準化されたデータについて、前記調整部により調整された調整時の平均値及び前記学習時の標準偏差を用いて逆標準化すると共に、
前記メルケプストラム係数の静特性及び動特性における0次元目の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。
【請求項4】
学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記学習モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、対数ピッチ周波数における静特性及び動特性の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、
前記調整部は、
ピッチを示すピッチパラメータに基づいて、前記対数ピッチ周波数における静特性及び動特性の値の前記学習時の平均値を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、
前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、
前記対数ピッチ周波数における静特性及び動特性の値の標準化されたデータについて、前記調整部により調整された調整時の平均値及び前記学習時の標準偏差を用いて逆標準化すると共に、
前記対数ピッチ周波数における静特性及び動特性の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。
【請求項5】
学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、
前記統計モデルを調整する調整部と、
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、
前記学習モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、対数ピッチ周波数における静特性及び動特性の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、
前記調整部は、
抑揚を示す抑揚パラメータに基づいて、前記対数ピッチ周波数における静特性及び動特性の値の前記学習時の標準偏差を調整し、
前記音響特徴量推定部は、
前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、
前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、
前記対数ピッチ周波数における静特性及び動特性の値の標準化されたデータについて、前記学習時の平均値及び前記調整部により調整された調整時の標準偏差を用いて逆標準化すると共に、
前記対数ピッチ周波数における静特性及び動特性の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする音声合成装置。
【請求項6】
コンピュータを、請求項1からまでのいずれか一項に記載の音声合成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、統計モデルを用いてテキストから音声信号を合成する音声合成装置及びプログラムに関する。
【背景技術】
【0002】
従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する合成音声を得る方法として、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いた深層学習(DL:Deep Learing)に基づく技術が知られている(例えば、非特許文献1を参照)。
【0003】
一方、音声信号の読み上げ方を調整する方法として、音声分析生成処理に基づく技術が知られている(例えば、非特許文献2を参照)。
【0004】
図18は、非特許文献1に記載された従来の学習方法及び合成方法を示す説明図である。この学習方法を実現する学習装置は、事前に用意された音声コーパスのテキストとこれに対応する音声信号を用いて、テキストについては言語分析処理により言語特徴量を抽出する(ステップS1801)。また、学習装置は、音声信号について音声分析処理により音響特徴量を抽出する(ステップS1802)。
【0005】
学習装置は、言語特徴量と音響特徴量の時間対応付けを行い(ステップS1803)、言語特徴量と音響特徴量を用いて統計モデルを学習する(ステップS1804)。
【0006】
また、この合成方法を実現する音声合成装置は、任意のテキストを入力し、テキストの言語分析処理により言語特徴量を抽出する(ステップS1805)。そして、音声合成装置は、学習装置により学習された統計モデルを用いて、言語特徴量から音響特徴量を推定し(ステップS1806)、音声生成処理により、音響特徴量から音声信号波形を求める(ステップS1807)。これにより、任意のテキストに対応する合成音声信号を得ることができる。
【0007】
図19は、非特許文献2に記載された従来の音声信号調整方法を示す説明図である。この音声信号調整方法を実現する音声調整装置は、音声分析処理により、音声信号からフレーム毎の音響特徴量を抽出し(ステップS1901)、調整パラメータに基づいて、音響特徴量の所望の部分に所望の調整を加える(ステップS1902)。
【0008】
音声調整装置は、音声生成処理により、調整が加えられたフレーム毎の音響特徴量から音声信号を生成する(ステップS1903)。これにより、調整を加えた音声信号を得ることができる。
【先行技術文献】
【非特許文献】
【0009】
【文献】Zhizheng Wu, Oliver Watts, Simon King,“ Merlin:An Open Source Neural Network Speech Synthesis System”, in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA.
【文献】M. Morise, F. Yokomori, and K. Ozawa,“WORLD:a vocoder-based high-quality speech synthesis system for real-time applications”, IEICE transactions on information and systems, vol. E99-D, no, 7, pp. 1877-1884, 2016
【発明の概要】
【発明が解決しようとする課題】
【0010】
例えば、放送番組等のコンテンツ制作に合成音声信号を利用する際に、演出効果として、読み上げ方を調整した合成音声信号が求められることがある。
【0011】
前述の非特許文献1の方法は、任意のテキストに対して合成音声信号を得るものであり、同一のテキストに対して常に同一の合成音声信号が得られる。また、前述の非特許文献2の方法は、音声信号の読み上げ方を調整するものである。
【0012】
そこで、読み上げ方を調整した合成音声信号を求める方法として、前述の非特許文献1,2を組み合わせることが想定される。
【0013】
図20は、非特許文献1,2の従来技術を組み合わせた想定例を示す説明図である。この想定例の学習方法は、図18に示したステップS1801~S1804と同様である(ステップS2001~S2004)。
【0014】
この想定例の合成方法は、図18に示したステップS1805~S1807の処理に、図19に示したステップS1902の処理を挿入したものである。具体的には、音声合成装置は、任意のテキストから言語特徴量を抽出し(ステップS2005)、統計モデルを用いて言語特徴量から音響特徴量を推定する(ステップS2006)。
【0015】
音声合成装置は、調整パラメータに基づいて、音響特徴量の所望の部分に所望の調整を加える(ステップS2007)。音声合成装置は、音声生成処理により、調整が加えられたフレーム毎の音響特徴量から音声信号を生成する(ステップS2008)。これにより、任意のテキストに対応する合成音声信号を得ることができる。
【0016】
しかしながら、この想定例では、ステップS2006にて統計モデルを用いて言語特徴量から推定した音響特徴量は、実際の音声信号から音声分析処理により抽出した音響特徴量とは異なり、時間的に平滑化された特性を持っている。このため、ステップS2007にて統計モデルを用いて推定した音響特徴量に調整を加え、ステップS2008にて調整後の音響特徴量から合成音声信号を得ると、合成音声信号に音質劣化を生じてしまう。
【0017】
このように、図20に示した想定例では、高品質の合成音声信号を得ることができないという問題があった。このため、テキストの読み上げ方を調整した高品質の合成音声信号を得るために、新たな手法が所望されていた。
【0018】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、テキストの読み上げ方を調整した合成音声信号を、高品質に生成可能な音声合成装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0019】
前記課題を解決するために、請求項1の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、話速または時間長、パワー、ピッチ及び抑揚のそれぞれを示す調整パラメータに基づいて、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記調整部が、前記調整パラメータが前記話速を示す話速パラメータまたは前記時間長を示す時間長パラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる時間長の前記学習時の平均値を調整し、前記調整パラメータが前記パワーを示すパワーパラメータである場合、前記統計モデルにおける前記音響特徴量に含まれるメルケプストラム係数の前記学習時の平均値を調整し、前記調整パラメータが前記ピッチを示すピッチパラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる対数ピッチ周波数の前記学習時の平均値を調整し、前記調整パラメータが前記抑揚を示す抑揚パラメータである場合、前記統計モデルにおける前記音響特徴量に含まれる前記対数ピッチ周波数の前記学習時の標準偏差を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記学習モデルを用いて、前記音響特徴量の標準化された前記所定数の次元のデータを推定し、前記所定数の次元のデータのそれぞれについて、前記学習時の平均値または前記調整部により前記学習時の平均値が調整された場合には調整時の平均値、及び前記学習時の標準偏差または前記調整部により前記学習時の標準偏差が調整された場合には調整時の標準偏差を用いて、前記データを逆標準化し、前記音響特徴量を求める、ことを特徴とする。
【0021】
また、請求項の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記学習モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、前記調整部が、話速を示す話速パラメータまたは時間長を示す時間長パラメータに基づいて、前記時間長の前記学習時の平均値を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記調整部により調整された前記時間長の調整時の平均値及び前記時間長の前記学習時の標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記データの前記学習時の平均値及び標準偏差を用いて、前記時間長以外の標準化されたデータを逆標準化し、前記音響特徴量を求める、ことを特徴とする。
【0022】
また、請求項の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記学習モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、メルケプストラム係数の静特性及び動特性における0次元目の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、前記調整部が、パワーを示すパワーパラメータに基づいて、前記メルケプストラム係数の静特性及び動特性における0次元目の値の前記学習時の平均値を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記メルケプストラム係数の静特性及び動特性における0次元目の値の標準化されたデータについて、前記調整部により調整された調整時の平均値及び前記学習時の標準偏差を用いて逆標準化すると共に、前記メルケプストラム係数の静特性及び動特性における0次元目の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする。
【0023】
また、請求項の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記学習モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、対数ピッチ周波数における静特性及び動特性の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、前記調整部が、ピッチを示すピッチパラメータに基づいて、前記対数ピッチ周波数における静特性及び動特性の値の前記学習時の平均値を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記対数ピッチ周波数における静特性及び動特性の値の標準化されたデータについて、前記調整部により調整された調整時の平均値及び前記学習時の標準偏差を用いて逆標準化すると共に、前記対数ピッチ周波数における静特性及び動特性の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする。
【0024】
また、請求項の音声合成装置は、学習済みの学習モデル、並びに所定数の次元のデータからなる音響特徴量の標準化のために用いた学習時の平均値及び標準偏差を含む統計モデルと、前記統計モデルを調整する調整部と、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に基づき、前記統計モデルを用いて、前記音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記音声合成対象の前記テキストに対応する音声信号を出力する音声生成部と、を備え、前記学習モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記統計モデルには、時間長の標準化のために用いた前記学習時の平均値及び標準偏差、及び、対数ピッチ周波数における静特性及び動特性の値の標準化のために用いた前記学習時の平均値及び標準偏差が含まれており、前記調整部が、抑揚を示す抑揚パラメータに基づいて、前記対数ピッチ周波数における静特性及び動特性の値の前記学習時の標準偏差を調整し、前記音響特徴量推定部が、前記言語特徴量に基づき、前記時間長モデルを用いて、前記音響特徴量に含まれる前記時間長の標準化されたデータを推定し、前記時間長の前記学習時の平均値及び標準偏差を用いて、前記時間長の標準化されたデータを逆標準化し、前記言語特徴量及び前記時間長の逆標準化されたデータに基づき、前記音響モデルを用いて、前記音響特徴量に含まれる前記時間長以外の標準化されたデータを推定し、前記対数ピッチ周波数における静特性及び動特性の値の標準化されたデータについて、前記学習時の平均値及び前記調整部により調整された調整時の標準偏差を用いて逆標準化すると共に、前記対数ピッチ周波数における静特性及び動特性の値以外の標準化されたデータについて、前記学習時の平均値及び標準偏差を用いて逆標準化し、前記音響特徴量を求める、ことを特徴とする。
【0025】
さらに、請求項プログラムは、コンピュータを、請求項1からまでのいずれか一項に記載の音声合成装置として機能させることを特徴とする。
【発明の効果】
【0026】
以上のように、本発明によれば、テキストの読み上げ方を調整した合成音声信号を、高品質に生成することが可能となる。
【図面の簡単な説明】
【0027】
図1】本発明の実施形態による音声合成装置の構成例を示すブロック図である。
図2】本発明の実施形態による音声合成装置の処理例を示すフローチャートである。
図3】調整部の構成例を示すブロック図である。
図4】調整パラメータが話速の場合の話速調整部による処理例を説明する図である。
図5】調整パラメータがパワーの場合のパワー調整部による処理例を説明する図である。
図6】調整パラメータがピッチの場合のピッチ調整部による処理例を説明する図である。
図7】調整パラメータが抑揚の場合の抑揚調整部による処理例を説明する図である。
図8】時間長モデルを用いた時間長推定処理例を説明する図である。
図9】音響モデルを用いた音響特徴量推定処理例を説明する図である。
図10】音声生成部による音声合成処理例を説明する図である。
図11】学習装置の構成例を示すブロック図である。
図12】言語特徴量のデータ構成例を説明する図である。
図13】音声分析部による音声分析処理例を示すフローチャートである。
図14】音響特徴量のデータ構成例を説明する図である。
図15】時間情報が追加された言語特徴量のデータ構成例を説明する図である。
図16】時間長モデルの学習処理例を説明する図である。
図17】音響モデルの学習処理例を説明する図である。
図18】非特許文献1に記載された従来の学習方法及び合成方法を示す説明図である。
図19】非特許文献2に記載された従来の音声信号調整方法を示す説明図である。
図20】非特許文献1,2の従来技術を組み合わせた想定例を示す説明図である。
【発明を実施するための形態】
【0028】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明の実施形態による音声合成装置の説明に先立って、学習装置について説明する。
【0029】
〔学習装置〕
この学習装置は、図18に示したステップS1801~S1804に対応する処理(または図20に示したステップS2001~S2004に対応する処理)により、統計モデルを学習する。
【0030】
本発明の実施形態による音声合成装置は、学習装置により学習された統計モデルに含まれる平均値等を、調整パラメータに応じて調整し、調整後の統計モデルを生成する。そして、音声合成装置は、調整後の統計モデルを用いてテキストから音声信号を合成する。
【0031】
図11は、学習装置の構成例を示すブロック図である。この学習装置100は、記憶部110,115、言語分析部111、音声分析部112、対応付け部113及び学習部114を備えている。音声信号はモノラルであり、標本化周波数48kHz及びビット数16で標本化されているものとする。
【0032】
記憶部110には、予め設定された音声コーパスが格納されている。音声コーパスは、テキストと、これに対応する音声信号から構成される。例えば、ATR(株式会社国際電気通信基礎技術研究所)により作成された音素バランス503文を利用する場合、テキストと、これを読み上げた音声信号は、503対からなる。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、 pp.89-90(1988.3)
【0033】
言語分析部111は、記憶部110から音声コーパスの各テキストを読み出し、テキストについて既知の言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める。そして、言語分析部111は、音素毎の言語特徴量を対応付け部113に出力する。言語分析部111による処理は、図18のステップS1801及び図20のステップS2001に対応する。
【0034】
具体的には、言語分析部111は、言語分析処理により、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報を求め、これらの情報からなる言語特徴量を求める。
【0035】
言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab:Yet Another Part-of-Speech and Morphological Analyzer”,インターネット<URL:http://taku910.github.io/mecab/>
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜:Yet Another Japanese Dependency Structure Analyzer”,インターネット<URL:https://taku910.github.io/cabocha/>
【0036】
図12は、言語特徴量のデータ構成例を説明する図である。図12に示すように、言語特徴量は、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。
【0037】
図11に戻って、音声分析部112は、記憶部110から音声コーパスの各テキストに対応する各音声信号を読み出し、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音響分析処理を行う。そして、音声分析部112は、フレーム毎の所定情報からなる音響特徴量を求め、フレーム毎の音響特徴量を対応付け部113に出力する。音声分析部112による処理は、図18のステップS1802及び図20のステップS2002に対応する。音響特徴量は、後述するように、199次元のデータから構成される。
【0038】
音響分析処理としては、例えば以下に記載された音響分析処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”,インターネット<URL:https://github.com/mmorise/World>
また、音響分析処理としては、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”,インターネット<URL:http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
【0039】
図13は、音声分析部112による音声分析処理例を示すフローチャートである。音声分析部112は、記憶部110から音声コーパスの各音声信号を読み出し、フレーム長25msの音声信号をフレームシフト5ms毎に切り出す(ステップS1301)。そして、音声分析部112は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める(ステップS1302)。
【0040】
音声分析部112は、スペクトルをメルケプストラム分析してメルケプストラム係数MGCを求める(ステップS1303)。また、音声分析部112は、ピッチ周波数から有声/無声判定情報VUVを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数LF0を求める(ステップS1304)。また、音声分析部112は、非周期成分をメルケプストラム分析して帯域非周期成分BAPを求める(ステップS1305)。
【0041】
これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数MGC、有声/無声判定情報VUV、対数ピッチ周波数LF0及び帯域非周期成分BAPが得られる。
【0042】
音声分析部112は、メルケプストラム係数MGCの1次差分Δを算出して1次差分メルケプストラム係数ΔMGCを求め(ステップS1306)、2次差分Δ2を算出して2次差分メルケプストラム係数Δ2MGCを求める(ステップS1307)。
【0043】
音声分析部112は、対数ピッチ周波数LF0の1次差分Δを算出して1次差分対数ピッチ周波数ΔLF0を求め(ステップS1308)、2次差分Δ2を算出して2次差分対数ピッチ周波数Δ2LF0を求める(ステップS1309)。
【0044】
音声分析部112は、帯域非周期成分BAPの1次差分Δを算出して1次差分帯域非周期成分ΔBAPを求め(ステップS1310)、2次差分Δ2を算出して2次差分帯域非周期成分Δ2BAPを求める(ステップS1311)。
【0045】
これにより、動特性の音響特徴量として、フレーム毎に、1次差分メルケプストラム係数ΔMGC、2次差分メルケプストラム係数Δ2MGC、1次差分対数ピッチ周波数ΔLF0、2次差分対数ピッチ周波数Δ2LF0、1次差分帯域非周期成分ΔBAP及び2次差分帯域非周期成分Δ2BAPが得られる。
【0046】
音声分析部112は、フレーム毎の静特性及び動特性の所定情報からなる音響特徴量を対応付け部113に出力する。
【0047】
図14は、音響特徴量のデータ構成例を説明する図である。図14に示すように、音響特徴量は、フレーム毎に、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVから構成される。この音響特徴量は、後述するように、199次元のデータから構成される。
【0048】
図11に戻って、対応付け部113は、言語分析部111から音素毎の言語特徴量を入力すると共に、音声分析部112からフレーム毎の音響特徴量を入力する。そして、対応付け部113は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付けることで、テキストの文を構成する各音素が音声信号のどの時刻に位置(対応)するのかを算出する。対応付け部113による処理は、図18のステップS1803及び図20のステップS2003に対応する。
【0049】
対応付け部113は、音素毎に、対応する開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、言語特徴量を構成する音素毎の所定情報に時間情報を追加すると共に、音素の時間長(フレーム数)を求める。そして、対応付け部113は、対応付けた音素毎の時間情報を追加した言語特徴量を学習部114に出力する。また、対応付け部113は、音素毎の時間長を音響特徴量に含め、対応付けたフレーム毎の音響特徴量(時間長については音素毎のデータ)を学習部114に出力する。
【0050】
ここで、言語特徴量に追加される時間情報は、ミリ秒単位の情報である。また、音素毎の時間長は、後述する統計モデルにおける時間長モデルの出力データに用いられ、音素におけるミリ秒単位の時間の長さをフレームシフト5msで除算した5msフレーム単位の数値、すなわち音素のフレーム数が用いられる。
【0051】
音素アラインメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit(HTK)”,インターネット<URL:http://htk.eng.cam.ac.uk>
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”
【0052】
尚、対応付け部113は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。
【0053】
図15は、時間情報が追加された言語特徴量のデータ構成例を説明する図である。図15に示すように、時間情報が追加された言語特徴量は、図12に示した言語特徴量に時間情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、時間情報、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。
【0054】
図11に戻って、学習部114は、対応付け部113から、音素毎の言語特徴量及びフレーム毎の音響特徴量(時間長については音素毎のデータ)を入力する。そして、学習部114は、これらのデータを標準化し、統計モデルである時間長モデル及び音響モデルを学習し、統計モデルを記憶部115に格納する。
【0055】
(時間長モデルの学習)
次に、学習部114による時間長モデルの学習処理について説明する。図16は、時間長モデルの学習処理例を説明する図である。学習部114は、対応付け部113から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリデータ及び13次元の数値データを生成する。言語特徴量の次元数は325である。
【0056】
ここで、言語特徴量における312次元のバイナリデータ及び13次元の数値データは、言語特徴量に含まれる音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報に基づいて生成される。
【0057】
学習部114は、言語特徴量の312次元のバイナリデータ及び13次元の数値データからなる325次元のデータを、時間長モデルの入力データとして扱う(ステップS1601)。
【0058】
学習部114は、言語特徴量の325次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部115に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する(ステップS1602)。
【0059】
また、学習部114は、対応付け部113から入力したフレーム毎の音響特徴量(時間長については音素毎のデータ)のうちの音素毎の時間長について、当該時間長の1次元のデータを、時間モデルの出力データとして扱う(ステップS1603)。この時間長は、5ms単位のフレーム数であり、テキストを表現する音素毎に1次元の整数値からなる。
【0060】
学習部114は、時間長の1次元の全てのデータを用いて、平均値μDUR及び標準偏差σDURを求めて記憶部115に格納すると共に、全てのデータのそれぞれについて、平均値μDUR及び標準偏差σDURを用いて標準化する(ステップS1604)。
【0061】
学習部114は、ステップS1602,S1604から移行して、音素毎に、言語特徴量の325次元の標準化されたデータを入力データとし、時間長の1次元の標準化されたデータを出力データとして時間長モデルを学習する(ステップS1605)。そして、学習部114は、学習済みの時間長モデルを記憶部115に格納する。
【0062】
ステップS1605における時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”,インターネット<URL:https://github.com/CSTR-Edinburgh/merlin>
後述する図17のステップS1705における音響モデルの学習の場合も同様である。
【0063】
時間長モデルは、例えば入力層を325次元、隠れ層を1024次元の6層、出力層を1次元とした順伝播型のニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を64、エポック数を100、dropout(ドロップアウト)率を0.5、学習係数の最適化方法として確率的勾配降下法、開始学習率を0.01、10エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、15エポックを過ぎてから、5エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。
【0064】
これにより、記憶部115には、統計モデルとして時間長モデルが格納される。また、記憶部115には、統計モデルとして、時間長モデルの入力データである言語特徴量の312次元のバイナリデータ及び13次元の数値データからなる325次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部115には、統計モデルとして、時間長モデルの出力データである時間長の1次元のデータに関する平均値μDUR及び標準偏差σDURが格納される。
【0065】
(音響モデルの学習)
次に、学習部114による音響モデルの学習処理について説明する。図17は、音響モデルの学習処理例を説明する図である。学習部114は、対応付け部113から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリデータ、13次元の数値データ及び4次元の時間データを生成する。
【0066】
4次元の時間データは、当該フレームに対応する音素のフレーム数(1次元のデータ)、及び当該フレームの音素内における位置(3次元のデータ)からなる。言語特徴量の次元数は329である。
【0067】
学習部114は、音素毎の言語特徴量における312次元のバイナリデータ、13次元の数値データ及び4次元の時間データからなる329次元のデータから、フレーム毎の言語特徴量における329次元のデータを生成する。
【0068】
学習部114は、フレーム毎の言語特徴量について、言語特徴量の312次元のバイナリデータ、13次元の数値データ及び4次元の時間データからなる329次元のデータを、音響モデルの入力データとして扱う(ステップS1701)。
【0069】
学習部114は、言語特徴量の329次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部115に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する(ステップS1702)。
【0070】
また、学習部114は、対応付け部113から入力したフレーム毎の音響特徴量(時間長については音素毎のデータ)のうちの時間長を除く音響特徴量について、199次元のデータを、音響モデルの出力データとして扱う(ステップS1703)。
【0071】
ここで、前述のとおり、時間長を除く音響特徴量は、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVからなる。
【0072】
具体的には、時間長を除く音響特徴量は、静特性の60次元のメルケプストラム係数MGC[0:59]、1次元の対数ピッチ周波数LF0及び5次元の帯域非周期成分BAP[0:4]を併せた静特性の66次元のデータと、これらの静特性のデータを1次差分(ΔMGC[0:59],ΔLP0,ΔBAP[0:4])及び2次差分(Δ2MGC[0:59],Δ2LP0,Δ2BAP[0:4])して得られた動特性の132次元のデータと、1次元の有声/無声判定データとからなる。つまり、時間長を除く音響特徴量の次元数は199である。
【0073】
学習部114は、音響特徴量の199次元の全てのデータを用いて、次元毎に、平均値μMGC[0:59],μLF0,μBAP[0:4],μΔMGC[0:59],μΔLF0,μΔBAP[0:4],μΔ2MGC[0:59],μΔ2LF0,μΔ2BAP[0:4]及び標準偏差σMGC[0:59],σLF0,σBAP[0:4],σΔMGC[0:59],σΔLF0,σΔBAP[0:4],σΔ2MGC[0:59],σΔ2LF0,σΔ2BAP[0:4]を求めて記憶部115に格納する。
【0074】
学習部114は、全てのデータのそれぞれについて、次元毎の平均値μMGC[0:59],・・・及び標準偏差σMGC[0:59],・・・を用いて標準化する(ステップS1704)。
【0075】
学習部114は、ステップS1702,S1704から移行して、フレーム毎に、言語特徴量の329次元の標準化されたデータを入力データとし、音響特徴量の199次元の標準化されたデータを出力データとして音響モデルを学習する(ステップS1705)。そして、学習部114は、学習済みの音響モデルを記憶部115に格納する。
【0076】
音響モデルは、例えば入力層を329次元、隠れ層を1024次元の6層、出力層を199次元とした順伝播型のニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を256、エポック数を100、dropout(ドロップアウト)率を0.5、学習係数の最適化方法として確率的勾配降下法、開始学習率を0.001、10エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、15エポックを過ぎてから、5エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。
【0077】
これにより、記憶部115には、統計モデルとして音響モデルが格納される。また、記憶部115には、統計モデルとして、音響モデルの入力データである言語特徴量の312次元のバイナリデータ、13次元の数値データ及び4次元の時間データからなる329次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部115には、統計モデルとして、音響モデルの出力データである音響特徴量の199次元のデータに関する次元毎の平均値μMGC[0:59],・・・及び標準偏差σMGC[0:59],・・・が格納される。
【0078】
〔音声合成装置〕
次に、本発明の実施形態による音声合成装置について説明する。図1は、音声合成装置の構成例を示すブロック図であり、図2は、音声合成装置による音声合成処理例を示すフローチャートである。
【0079】
この音声合成装置1は、調整部10、言語分析部11、記憶部12、音響特徴量推定部13及び音声生成部14を備えている。記憶部12には、初期状態において、図11に示した記憶部115の統計モデル(学習済みの統計モデル)が格納されており、調整部10の調整処理に応じて、調整後の統計モデルが格納される。
【0080】
尚、学習装置100により学習された統計モデルは、学習装置100に備えた記憶部115から読み出され、音声合成装置1に備えた記憶部12に格納されるようにしてもよい。また、音声合成装置1は、記憶部12の代わりに、インターネットを介して、学習装置100に備えた記憶部115へ直接アクセスするようにしてもよい。
【0081】
調整部10は、所定の調整パラメータを入力し、記憶部12から、調整パラメータに応じた平均値等を読み出し、調整パラメータに基づいて平均値等を調整して新たな平均値等を算出する。そして、調整部10は、新たな平均値等を、調整後の平均値等として記憶部12に格納する(ステップS201)。
【0082】
これにより、記憶部12には、学習装置100により学習された統計モデルである時間長モデル、音響モデル、並びに最大値及び平均値等に加え、調整後の平均値等が格納される。つまり、記憶部12には、初期状態において、統計モデルである時間長モデル、音響モデル、並びに最大値及び平均値等が格納されており、調整後において、時間長モデル、音響モデル、最大値及び平均値等、並びに調整後の平均値等が調整後の統計モデルとして格納された状態となる。
【0083】
所定の調整パラメータは、音声信号を調整する(音響の特徴を調整する)ためのパラメータであり、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせとし、ユーザにより指定されるものとする。調整パラメータの値は、所定の調整範囲において任意の実数とする。
【0084】
尚、所定の調整パラメータは、話速RST、パワーRPW、ピッチRPT及び抑揚RPDとし、これらの4つのパラメータのうちのいずれか1つのパラメータの調整量は、所定の調整範囲内における任意の値が指定され、他の3つのパラメータの調整量は、固定値が用いられるようにしてもよい。また、所定の調整パラメータは、前述の4つのパラメータとし、それぞれの調整量は、それぞれの所定の調整範囲内における任意の値が指定されるようにしてもよい。
【0085】
話速RSTは話速の調整量を示し、パワーRPWはパワー(声の大きさ)の調整量を示し、ピッチPTはピッチ(声の高さ)の調整量を示し、抑揚RPDは抑揚(声の高さの変化幅)の調整量を示す。尚、話速の代わりに、時間長を用いるようにしてもよい。
【0086】
話速RSTの範囲(話速の調整量範囲)は、例えば以下のとおりとする。
(遅い)0.5<=RST<=4.0(速い)
これは、話速RSTは0.5から4.0までの範囲において、0.5に近いほど遅く、4.0に近いほど速いことを意味する。
【0087】
パワーRPWの範囲(パワーの調整量範囲)は、例えば以下のとおりとする。
(小さい)1.0E-5<=RPW<=2.0(大きい)
これは、パワーRPWは1.0E-5から2.0までの範囲において、1.0E-5に近いほど小さく、2.0に近いほど大きいことを意味する。
【0088】
ピッチRPTの範囲(ピッチの調整量範囲)は、例えば以下のとおりとする。
(低い)0.5<=RPT<=2.0(高い)
これは、ピッチRPTは0.5から2.0までの範囲において、0.5に近いほど低く、2.0に近いほど高いことを意味する。
【0089】
抑揚RPDの範囲(抑揚の調整量範囲)は、例えば以下のとおりとする。
(小さい)1.0E-5<=RPD<=2.0(大きい)
これは、抑揚RPDは1.0E-5から2.0までの範囲において、1.0E-5に近いほど小さく、2.0に近いほど大きいことを意味する。
【0090】
話速RST、パワーRPW、ピッチRPT及び抑揚RPDの標準値は、いずれも1.0とする。調整部10は、各調整パラメータについて、前述の範囲における任意の実数の調整量を入力する。
【0091】
図3は、調整部10の構成例を示すブロック図である。この調整部10は、話速調整部20、パワー調整部21、ピッチ調整部22及び抑揚調整部23を備えている。
【0092】
調整パラメータが話速の場合、話速調整部20は、話速RSTの調整パラメータを入力し、話速RSTに基づいて、記憶部12に格納された時間長モデルにおける時間長の平均値μDURを調整し、新たな平均値μDUR’を求める。そして、話速調整部20は、新たな平均値μDUR’を調整後の平均値μDUR’として記憶部12に格納する。
【0093】
図4は、調整パラメータが話速の場合の話速調整部20による処理例を説明する図である。話速調整部20は、話速RSTの調整パラメータを入力し(ステップS401)、記憶部12から、時間長モデルの出力データである時間長の平均値μDURを読み出す(ステップS402)。
【0094】
話速調整部20は、話速RSTに基づいて平均値μDURを調整する(ステップS403)。具体的には、話速調整部20は、以下の式のとおり、平均値μDURに話速RSTの逆数を乗算し、新たな平均値μDUR’を求める。
[数1]
μDUR’= μDUR×1/RST ・・・(1)
【0095】
話速調整部20は、新たな平均値μDUR’を、時間長モデルの出力データである時間長の調整後の平均値μDUR’として記憶部12に格納する(ステップS404)。
【0096】
このように、話速RSTの調整パラメータにより、記憶部12に格納された時間長の平均値μDURが調整され、調整後の平均値μDUR’が記憶部12に格納される。そして、記憶部12に格納された調整後の平均値μDUR’は、音響特徴量推定部13が音響特徴量を推定する際に用いられ、話速が調整された音響特徴量を得ることができる。
【0097】
尚、話速調整部20は、話速RSTの代わりに時間長の調整パラメータRDR(=1/RST)を入力するようにしてもよい。この場合、話速調整部20は、以下の式のとおり、平均値μDURに時間長の調整パラメータRDR(=1/RST)を乗算し、新たな平均値μDUR’を求めることで、平均値μDURを調整する。
[数2]
μDUR’= μDUR×RDR ・・・(2)
【0098】
図3に戻って、調整パラメータがパワーの場合、パワー調整部21は、パワーRPWの調整パラメータを入力する。そして、パワー調整部21は、パワーRPWに基づいて、記憶部12に格納された音響モデルにおけるメルケプストラム係数の静特性及び動特性における0次元目の値MGC[0],ΔMGC[0],Δ2MGC[0]の平均値μMGC[0],μΔMGC[0],μΔ2MGC[0]を調整し、新たな平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]を求める。パワー調整部21は、新たな平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]を調整後の平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]として記憶部12に格納する。
【0099】
図5は、調整パラメータがパワーの場合のパワー調整部21による処理例を説明する図である。パワー調整部21は、パワーRPWの調整パラメータを入力する(ステップS501)。そして、パワー調整部21は、記憶部12から、音響モデルの出力データであるメルケプストラム係数の静特性及び動特性における0次元目の値MGC[0],ΔMGC[0],Δ2MGC[0]の平均値μMGC[0],μΔMGC[0],μΔ2MGC[0]を読み出す(ステップS502)。
【0100】
パワー調整部21は、以下の式のとおり、パワーRPWに基づいて平均値μMGC[0],μΔMGC[0],μΔ2MGC[0]を調整する(ステップS503)。具体的には、パワー調整部21は、平均値μMGC[0],μΔMGC[0],μΔ2MGC[0]に、パワーRPWを対数化した値を加算し、加算結果の値と0とを比較して大きい方を、新たな平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]とする。
[数3]
μMGC’[0]= max(0,μMGC[0]+logRPW
μΔMGC’[0]= max(0,μΔMGC[0]+logRPW
μΔ2MGC’[0]= max(0,μΔ2MGC[0]+logRPW) ・・・(3)
【0101】
パワー調整部21は、新たな平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]を、音響モデルの出力データであるメルケプストラム係数の静特性及び動特性における0次元目の値MGC[0],ΔMGC[0],Δ2MGC[0]の調整後の平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]として記憶部12に格納する(ステップS504)。
【0102】
このように、パワーRPWの調整パラメータにより、記憶部12に格納されたメルケプストラム係数の静特性及び動特性における0次元目の値MGC[0],ΔMGC[0],Δ2MGC[0]の平均値μMGC[0],μΔMGC[0],μΔ2MGC[0]が調整され、調整後の平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]が記憶部12に格納される。そして、記憶部12に格納された調整後の平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]は、音響特徴量推定部13が音響特徴量を推定する際に用いられ、パワーが調整された音響特徴量を得ることができる。
【0103】
図3に戻って、調整パラメータがピッチの場合、ピッチ調整部22は、ピッチRPTの調整パラメータを入力する。そして、ピッチ調整部22は、ピッチRPTに基づいて、記憶部12に格納された音響モデルにおける対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0の平均値μLF0,μΔLF0,μΔ2LF0を調整し、新たな平均値μLF0’,μΔLF0’,μΔ2LF0’を求める。ピッチ調整部22は、新たな平均値μLF0’,μΔLF0’,μΔ2LF0’を調整後の平均値μLF0’,μΔLF0’,μΔ2LF0’として記憶部12に格納する。
【0104】
図6は、調整パラメータがピッチの場合のピッチ調整部22による処理例を説明する図である。ピッチ調整部22は、ピッチRPTの調整パラメータを入力する(ステップS601)。そして、ピッチ調整部22は、記憶部12から、音響モデルの出力データである対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0の平均値μLF0,μΔLF0,μΔ2LF0を読み出す(ステップS602)。
【0105】
ピッチ調整部22は、以下の式のとおり、ピッチRPTに基づいて平均値μLF0,μΔLF0,μΔ2LF0を調整する(ステップS603)。具体的には、ピッチ調整部22は、平均値μLF0,μΔLF0,μΔ2LF0に、ピッチRPTを対数化した値を加算し、加算結果の値と0とを比較して大きい方を、新たな平均値μLF0’,μΔLF0’,μΔ2LF0’とする。
[数4]
μLF0’= max(0,μLF0+logRPT
μΔLF0’= max(0,μΔLF0+logRPT
μΔ2LF0’= max(0,μΔ2LF0+logRPT) ・・・(4)
【0106】
ピッチ調整部22は、新たな平均値μLF0’,μΔLF0’,μΔ2LF0’を、音響モデルの出力データである対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0の調整後の平均値μLF0’,μΔLF0’,μΔ2LF0’として記憶部12に格納する(ステップS604)。
【0107】
このように、ピッチRPTの調整パラメータにより、記憶部12に格納された対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0の平均値μLF0,μΔLF0,μΔ2LF0が調整され、調整後の平均値μLF0’,μΔLF0’,μΔ2LF0’が記憶部12に格納される。そして、記憶部12に格納された調整後の平均値μLF0’,μΔLF0’,μΔ2LF0’は、音響特徴量推定部13が音響特徴量を推定する際に用いられ、ピッチが調整された音響特徴量を得ることができる。
【0108】
図3に戻って、調整パラメータが抑揚の場合、抑揚調整部23は、抑揚RPDの調整パラメータを入力する。そして、抑揚調整部23は、抑揚RPDに基づいて、記憶部12に格納された音響モデルにおける対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0の標準偏差σLF0,σΔLF0,σΔ2LF0を調整し、新たな標準偏差σLF0’, σΔLF0’, σΔ2LF0’を求める。抑揚調整部23は、新たな標準偏差σLF0’, σΔLF0’, σΔ2LF0’を調整後の新たな標準偏差σLF0’, σΔLF0’, σΔ2LF0’として記憶部12に格納する。
【0109】
図7は、調整パラメータが抑揚の場合の抑揚調整部23による処理例を説明する図である。抑揚調整部23は、抑揚RPDの調整パラメータを入力する(ステップS701)。そして、抑揚調整部23は、記憶部12から、音響モデルの出力データである対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0の標準偏差σLF0,σΔLF0,σΔ2LF0を読み出す(ステップS702)。
【0110】
抑揚調整部23は、以下の式のとおり、抑揚RPDに基づいて標準偏差σLF0,σΔLF0,σΔ2LF0を調整する(ステップS703)。具体的には、抑揚調整部23は、標準偏差σLF0,σΔLF0,σΔ2LF0に、抑揚RPDを対数化した値を加算し、加算結果の値と0とを比較して大きい方を、新たな標準偏差σLF0’, σΔLF0’, σΔ2LF0’とする。
[数5]
σLF0’= max(0,σLF0+logRPD
σΔLF0’= max(0,σΔLF0+logRPD
σΔ2LF0’= max(0,σΔ2LF0+logRPD) ・・・(5)
【0111】
抑揚調整部23は、新たな標準偏差σLF0’, σΔLF0’, σΔ2LF0’を、音響モデルの出力データである対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0の調整後の標準偏差σLF0’, σΔLF0’, σΔ2LF0’として記憶部12に格納する(ステップS704)。
【0112】
このように、抑揚RPDの調整パラメータにより、記憶部12に格納された対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0の標準偏差σLF0,σΔLF0,σΔ2LF0が調整され、調整後の標準偏差σLF0’,σΔLF0’,σΔ2LF0’が記憶部12に格納される。そして、記憶部12に格納された調整後の標準偏差σLF0’,σΔLF0’,σΔ2LF0’は、音響特徴量推定部13が音響特徴量を推定する際に用いられ、抑揚が調整された音響特徴量を得ることができる。
【0113】
図1及び図2に戻って、言語分析部11は、音声合成対象のテキストを入力し、図11に示した言語分析部111と同様に、テキストについて既知の言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める(ステップS202)。そして、言語分析部11は、音素毎の言語特徴量を音響特徴量推定部13に出力する。
【0114】
音響特徴量推定部13は、言語分析部11から音素毎の言語特徴量を入力し、記憶部12に格納された最大値、平均値等を用いて標準化及び逆標準化の処理を行い、時間長モデル及び音響モデルを用いてフレーム毎の音響特徴量を推定する(ステップS203)。音響特徴量推定部13は、フレーム毎の音響特徴量を音声生成部14に出力する。
【0115】
(時間長モデルを用いた時間長の推定)
次に、音響特徴量推定部13による時間長モデルを用いた時間長の推定処理について説明する。図8は、時間長モデルを用いた時間長推定処理例を説明する図である。音響特徴量推定部13は、言語分析部11から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリデータ及び13次元の数値データを生成する。言語特徴量の次元数は325である。
【0116】
音響特徴量推定部13は、言語特徴量の312次元のバイナリデータ及び13次元の数値データからなる325次元のデータを、時間長モデルの入力データとして扱う(ステップS801)。
【0117】
音響特徴量推定部13は、記憶部12から、時間長モデルの入力データである言語特徴量の312次元のバイナリデータ及び13次元の数値データからなる325次元のデータに関する次元毎の最大値及び最小値を読み出す。そして、音響特徴量推定部13は、言語特徴量の325次元のデータのそれぞれについて、次元毎に、最大値及び最小値を用いて標準化を行う(ステップS802)。
【0118】
音響特徴量推定部13は、記憶部12に格納された時間長モデルを用いて、言語特徴量の325次元の標準化されたデータを時間長モデルの入力データとして、時間長モデルの出力データである時間長の1次元の標準化されたデータを推定する(ステップS803)。
【0119】
音響特徴量推定部13は、記憶部12から、時間長モデルの出力データである時間長の1次元のデータに関する平均値μDUR、及び調整後の平均値μDUR’が格納されている場合はその値を読み出す。また、音響特徴量推定部13は、その標準偏差σDURを読み出す。
【0120】
音響特徴量推定部13は、ステップS803にて推定した時間長の1次元の標準化されたデータについて、平均値μDUR(調整後の平均値μDUR’がある場合はその値)及び標準偏差σDURを用いて逆標準化を行う(ステップS804)。そして、音響特徴量推定部13は、時間長の1次元のデータを求める(ステップS805)。
【0121】
これにより、記憶部12に格納された時間長モデル、時間長モデルの入力データである言語特徴量の325次元のデータに関する次元毎の最大値及び最小値、並びに、時間長モデルの出力データである時間長の1次元のデータに関する平均値μDURまたは平均値μDUR’及び標準偏差σDURを用いて、音素毎の言語特徴量の325次元のデータから、音素毎の時間長の1次元のデータを得ることができる。
【0122】
(音響モデルを用いた音響特徴量の推定)
次に、音響特徴量推定部13による音響モデルを用いた音響特徴量の推定処理について説明する。図9は、音響モデルを用いた音響特徴量推定処理例を説明する図である。音響特徴量推定部13は、ステップS805にて求めた音素毎の時間長の1次元のデータに基づいて、音素に対応する複数フレームのそれぞれにつき、4次元の時間データを求める(ステップS901)。
【0123】
前述のとおり、4次元の時間データは、当該フレームに対応する音素のフレーム数(1次元のデータ)、及び当該フレームの音素内における位置(3次元のデータ)からなる。
【0124】
音響特徴量推定部13は、言語分析部11から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリデータ及び13次元の数値データを求める。そして、音響特徴量推定部13は、音素毎の言語特徴量における312次元のバイナリデータ及び13次元の数値データからなる325次元のデータから、フレーム毎の言語特徴量における325次元のデータを求める。
【0125】
音響特徴量推定部13は、フレーム毎の言語特徴量の312次元のバイナリデータ及び13次元の数値データからなる325次元のデータ、並びにステップS901にて生成した4次元の時間データを、音響モデルの入力データとして扱う(ステップS902)。
【0126】
音響特徴量推定部13は、記憶部12から、音響モデルの入力データである言語特徴量の312次元のバイナリデータ、13次元の数値データ及び4次元の時間データからなる329次元のデータに関する次元毎の最大値及び最小値を読み出す。そして、音響特徴量推定部13は、329次元のデータのそれぞれについて、次元毎に、最大値及び最小値を用いて標準化を行う(ステップS903)。
【0127】
音響特徴量推定部13は、記憶部12に格納された音響モデルを用いて、329次元の標準化されたデータを音響モデルの入力データとして、音響モデルの出力データである音響特徴量の199次元の標準化されたデータを推定する(ステップS904)。
【0128】
音響特徴量推定部13は、記憶部12から、音響モデルの出力データである音響特徴量の199次元のデータに関する平均値μMGC[0:59],・・・、及び調整後の平均値μMGC’[0],・・・が格納されている場合はその値を読み出す。また、音響特徴量推定部13は、その標準偏差σMGC[0:59],・・・、及び調整後の標準偏差σLF0’[0],・・・が格納されている場合はその値を読み出す。
【0129】
音響特徴量推定部13は、ステップS904にて推定した音響特徴量の199次元の標準化されたデータについて、次元毎に、平均値μMGC[0:59],・・・(調整後の平均値μMGC’[0],・・・がある場合はその値)及び標準偏差σMGC[0:59],・・・(調整後の標準偏差σLF0’[0],・・・がある場合はその値)を用いて逆標準化を行う(ステップS905)。そして、音響特徴量推定部13は、フレーム毎の音響特徴量の199次元のデータを求める(ステップS906)。
【0130】
このようにして推定され逆標準化された音響特徴量は、フレーム毎に離散的な値をとる。そこで、音響特徴量推定部13は、連続するフレーム毎の音響特徴量の199次元のデータに対して、最尤推定または移動平均をとり、新たなフレーム毎の音響特徴量の199次元のデータを求める。これにより、フレーム毎の音響特徴量は滑らかな値となる。
【0131】
これにより、記憶部12に格納された音響モデル、音響モデルの入力データである言語特徴量の325次元のデータ及び時間データの4次元のデータに関する次元毎の最大値及び最小値、並びに、音響モデルの出力データである音響特徴量の199次元のデータに関する平均値μMGC[0:59],・・・(調整後の平均値μMGC’[0],・・・がある場合はその値)及び標準偏差σMGC[0:59],・・・(調整後の標準偏差σLF0’[0],・・・がある場合はその値)を用いて、フレーム毎の言語特徴量の325次元のデータ及び時間データの4次元のデータから、フレーム毎の音響特徴量の199次元のデータを得ることができる。
【0132】
図1及び図2に戻って、音声生成部14は、音響特徴量推定部13からフレーム毎の音響特徴量を入力し、フレーム毎の音響特徴量に基づいて音声信号を合成する(ステップS204)。そして、音声生成部14は、音声合成対象のテキストに対して調整パラメータによる調整が加えられた音声信号を出力する。
【0133】
図10は、音声生成部14による音声合成処理例を説明する図である。音声生成部14は、音響特徴量推定部13から入力したフレーム毎の音響特徴量のうち、フレーム毎のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAPである静特性の音響特徴量を選択する(ステップS1001)。
【0134】
音声生成部14は、メルケプストラム係数MGCをメルケプストラムスペクトル変換し、スペクトルを求める(ステップS1002)。また、音声生成部14は、対数ピッチ周波数LF0から有声/無声判定情報VUVを求め、対数ピッチ周波数LF0の有声区間を指数化し、無声及び無音区間についてはゼロとし、ピッチ周波数を求める(ステップS1003)。また、音声生成部14は、帯域非周期成分BAPをメルケプストラムスペクトル変換し、非周期成分を求める(ステップS1004)。
【0135】
音声生成部14は、ステップS1002にて求めたフレーム毎のスペクトル、ステップS1003にて求めたフレーム毎のピッチ周波数、及びステップS1004にて求めたフレーム毎の非周期成分を用いて連続的に音声波形を生成し(ステップS1005)、音声信号を出力する(ステップS1006)。
【0136】
これにより、音声合成対象のテキストに対して所定の調整パラメータによる調整が加えられた音声信号を得ることができる。
【0137】
以上のように、本発明の実施形態の音声合成装置1によれば、調整部10は、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせの調整パラメータを入力し、記憶部12から、調整パラメータに対応する平均値等を読み出し、調整パラメータに基づいて平均値等を調整して新たな平均値等を算出する。そして、調整部10は、新たな平均値等を、調整後の平均値等として記憶部12に格納する。
【0138】
これにより、記憶部12には、調整後の統計モデルが格納される。調整後の統計モデルは、学習装置100により学習された統計モデル、及び調整後の平均値等からなる。調整後の平均値等は、話速RSTの調整パラメータに応じた時間長の調整後の平均値μDUR’、パワーRPWの調整パラメータに応じたメルケプストラム係数の静特性及び動特性の0次元目の値MGC[0],ΔMGC[0],Δ2MGC[0]における調整後の平均値μMGC’[0],μΔMGC’[0],μΔ2MGC’[0]、ピッチRPTの調整パラメータに応じた対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0における調整後の平均値μLF0’,μΔLF0’,μΔ2LF0’、及び、抑揚RPDの調整パラメータに応じた対数ピッチ周波数の静特性及び動特性LF0,ΔLF0,Δ2LF0における調整後の標準偏差σLF0’,σΔLF0’,σΔ2LF0’である。
【0139】
言語分析部11は、音声合成対象のテキストについて既知の言語分析処理を行い、音素毎の言語特徴量を求める。
【0140】
音響特徴量推定部13は、記憶部12から、言語特徴量における所定のデータに関する次元毎の最大値及び最小値を読み出し、次元毎に標準化を行う。そして、音響特徴量推定部13は、記憶部12に格納された時間長モデルを用いて、言語特徴量の標準化されたデータを時間長モデルの入力データとして、時間長モデルの出力データである時間長の標準化されたデータを推定する。
【0141】
音響特徴量推定部13は、記憶部12から、時間長モデルの出力データである時間長のデータに関する調整後の平均値μDUR’及び標準偏差σDURを読み出す。音響特徴量推定部13は、時間長の標準化されたデータについて、調整後の平均値μDUR’及び標準偏差σDURを用いて逆標準化を行い、音素毎の時間長のデータを求める。
【0142】
音響特徴量推定部13は、音素毎の時間長のデータに基づいて、フレーム毎の時間データを生成する。音響特徴量推定部13は、記憶部12から、フレーム毎の言語特徴量のデータ及び時間データに関する次元毎の最大値及び最小値を読み出し、次元毎に標準化を行う。
【0143】
音響特徴量推定部13は、記憶部12に格納された音響モデルを用いて、言語特徴量及び時間データの標準化されたデータを音響モデルの入力データとして、音響モデルの出力データである音響特徴量の標準化されたデータを推定する。
【0144】
音響特徴量推定部13は、記憶部12から、音響特徴量のデータに関する調整後の平均値μMGC’[0]等及び調整後の標準偏差σLF0’[0]等を読み出す。そして、音響特徴量推定部13は、音響特徴量の標準化されたデータについて、次元毎に、調整後の平均値μMGC’[0]等及び調整後の標準偏差σLF0’[0]等を用いて逆標準化を行い、フレーム毎の音響特徴量を求める。
【0145】
音声生成部14は、フレーム毎の音響特徴量に基づいて音声信号を合成し、合成音声信号を生成する。
【0146】
これにより、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせの調整パラメータが反映された調整後の統計モデルが生成される。そして、調整後の統計モデルを用いて、話速、パワー、ピッチ及び抑揚のうちのどれか、またはこれらの組み合わせが調整された合成音声信号を得ることができる。
【0147】
図20に示した非特許文献1,2の従来技術を組み合わせた想定例では、統計モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、合成音声信号に音質劣化を生じてしまう。
【0148】
これに対し、本発明の実施形態による音声合成装置1は、調整パラメータが反映された調整後の統計モデルを用いて音響特徴量を推定し、合成音声信号を生成するから、統計モデルを用いて推定された音響特徴量に対し調整を加える必要がない。
【0149】
したがって、テキストの読み上げ方を調整した合成音声信号を、発話単位で高品質にかつ簡易な方法で生成することができる。
【0150】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0151】
尚、本発明の実施形態による音声合成装置1のハードウェア構成としては、通常のコンピュータを使用することができる。音声合成装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0152】
音声合成装置1に備えた調整部10、言語分析部11、記憶部12、音響特徴量推定部13及び音声生成部14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0153】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0154】
1 音声合成装置
10 調整部
11,111 言語分析部
12,110,115 記憶部
13 音響特徴量推定部
14 音声生成部
20 話速調整部
21 パワー調整部
22 ピッチ調整部
23 抑揚調整部
100 学習装置
112 音声分析部
113 対応付け部
114 学習部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20