(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022081691
(43)【公開日】2022-05-31
(54)【発明の名称】音声合成装置及びプログラム
(51)【国際特許分類】
G10L 13/06 20130101AFI20220524BHJP
G10L 13/10 20130101ALI20220524BHJP
G10L 25/30 20130101ALI20220524BHJP
【FI】
G10L13/06 120Z
G10L13/10 111F
G10L13/10 111E
G10L13/10 111A
G10L13/10 111C
G10L25/30
【審査請求】有
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2022049374
(22)【出願日】2022-03-25
(62)【分割の表示】P 2018113433の分割
【原出願日】2018-06-14
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(71)【出願人】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】栗原 清
(72)【発明者】
【氏名】熊野 正
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
(57)【要約】
【課題】テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることが可能な音声合成装置及びプログラムを提供する。
【解決手段】音声合成装置2の言語分析部20は、音声合成対象のテキストを言語分析して言語特徴量を求め、調整量追加部21は、言語特徴量に、調整パラメータの調整量情報を追加する。音響特徴量推定部22は、調整量情報が追加された言語特徴量に基づき、予め学習された統計モデルを用いて音響特徴量を推定する。音声生成部23は、音響特徴量に基づいて音声信号を合成し、テキストに対して調整パラメータによる調整が加えられた音声信号を出力する。
【選択図】
図10
【特許請求の範囲】
【請求項1】
音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、
前記言語分析部により求めた前記言語特徴量に、音響の特徴を調整するための調整パラメータの調整量情報を追加する調整量追加部と、
前記調整量追加部により前記調整量情報が追加された前記言語特徴量に基づき、予め学習された統計モデルを用いて、音響特徴量を推定する音響特徴量推定部と、
前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記テキストに対して前記調整パラメータによる調整が加えられた音声信号を出力する音声生成部と、を備えたことを特徴とする音声合成装置。
【請求項2】
請求項1に記載の音声合成装置において、
前記統計モデルは、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、
前記音響特徴量推定部は、
前記時間長モデルを用いて、音素毎の前記言語特徴量を前記時間長モデルの入力データとして、前記時間長モデルの出力データである音素毎の時間長を推定し、
音素毎の前記時間長からフレーム毎の時間長を生成し、
前記音響モデルを用いて、フレーム毎の前記言語特徴量及びフレーム毎の前記時間長を入力データとし、前記音響モデルの出力データであるフレーム毎の前記音響特徴量を推定する、ことを特徴とする音声合成装置。
【請求項3】
請求項1または2に記載の音声合成装置において、
前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータのうちのいずれか1つまたは2つ以上の組み合わせとする、ことを特徴とする音声合成装置。
【請求項4】
請求項1または2に記載の音声合成装置において、
前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータとし、
当該4つのパラメータのうちのいずれか1つのパラメータの調整量は、所定範囲内の任意の値が指定され、他の3つのパラメータの調整量は、固定値が用いられる、ことを特徴とする音声合成装置。
【請求項5】
請求項1または2に記載の音声合成装置において、
前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータとし、
当該4つのパラメータにおけるそれぞれの調整量は、それぞれの所定範囲内の任意の値が指定される、ことを特徴とする音声合成装置。
【請求項6】
コンピュータを、請求項1から5までのいずれか一項に記載の音声合成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストから音声信号を合成するための統計モデルを用いて音声信号を合成する音声合成装置及びプログラムに関する。
【背景技術】
【0002】
従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する合成音声を得る方法として、ディープニューラルネットワーク(DNN:Deep Neural Network)を用いた深層学習(DL:Deep Learing)に基づく技術が知られている(例えば、非特許文献1を参照)。
【0003】
一方、音声信号の読み上げ方を調整する方法として、音声分析生成処理に基づく技術が知られている(例えば、非特許文献2を参照)。
【0004】
図15は、非特許文献1に記載された従来の学習方法及び合成方法を示す説明図である。この学習方法を実現する学習装置は、事前に用意された音声コーパスのテキストとこれに対応する音声信号を用いて、テキストについては言語分析処理により言語特徴量を抽出する(ステップS1501)。また、学習装置は、音声信号について音声分析処理により音響特徴量を抽出する(ステップS1502)。
【0005】
学習装置は、言語特徴量と音響特徴量の時間対応付けを行い(ステップS1503)、言語特徴量と音響特徴量を用いて統計モデルを学習する(ステップS1504)。
【0006】
また、この合成方法を実現する音声合成装置は、任意のテキストを入力し、テキストの言語分析処理により言語特徴量を抽出する(ステップS1505)。そして、音声合成装置は、学習装置により学習された統計モデルを用いて、言語特徴量から音響特徴量を推定し(ステップS1506)、音声生成処理により、音響特徴量から音声信号波形を求める(ステップS1507)。これにより、任意のテキストに対応する合成音声信号を得ることができる。
【0007】
図16は、非特許文献2に記載された従来の音声信号調整方法を示す説明図である。この音声信号調整方法を実現する音声調整装置は、音声分析処理により、音声信号からフレーム毎の音響特徴量を抽出し(ステップS1601)、調整パラメータに基づいて、音響特徴量の所望の部分に所望の調整を加える(ステップS1602)。
【0008】
音声調整装置は、音声生成処理により、調整が加えられたフレーム毎の音響特徴量から音声信号を生成する(ステップS1603)。これにより、調整を加えた音声信号を得ることができる。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Zhizheng Wu, Oliver Watts, Simon King,“ Merlin:An Open Source Neural Network Speech Synthesis System”, in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA.
【非特許文献2】M. Morise, F. Yokomori, and K. Ozawa,“WORLD:a vocoder-based high-quality speech synthesis system for real-time applications”, IEICE transactions on information and systems, vol. E99-D, no, 7, pp. 1877-1884, 2016
【発明の概要】
【発明が解決しようとする課題】
【0010】
例えば、放送番組等のコンテンツ制作に合成音声信号を利用する際に、演出効果として、テキストの特定部分の読み上げ方を調整した合成音声信号が求められることがある。
【0011】
前述の非特許文献1の方法は、任意のテキストに対して合成音声信号を得るものであり、同一のテキストに対して常に同一の合成音声信号が得られる。また、前述の非特許文献2の方法は、音声信号の読み上げ方を調整するものである。
【0012】
そこで、テキストの特定部分の読み上げ方を調整した合成音声信号を求める方法として、前述の非特許文献1,2を組み合わせることが想定される。
【0013】
図17は、非特許文献1,2の従来技術を組み合わせた想定例を示す説明図である。この想定例の学習方法は、
図15に示したステップS1501~S1504と同様である(ステップS1701~S1704)。
【0014】
この想定例の合成方法は、
図15に示したステップS1505~S1507の処理に、
図16に示したステップS1602の処理を挿入したものである。具体的には、音声合成装置は、任意のテキストから言語特徴量を抽出し(ステップS1705)、統計モデルを用いて言語特徴量から音響特徴量を推定する(ステップS1706)。
【0015】
音声合成装置は、調整パラメータに基づいて、音響特徴量の所望の部分に所望の調整を加える(ステップS1707)。音声合成装置は、音声生成処理により、調整が加えられたフレーム毎の音響特徴量から音声信号を生成する(ステップS1708)。これにより、任意のテキストに対応する合成音声信号を得ることができる。
【0016】
しかしながら、この想定例では、ステップS1706にて統計モデルを用いて言語特徴量から推定した音響特徴量は、実際の音声信号から音声分析処理により抽出した音響特徴量とは異なり、時間的に平滑化された特性を持っている。このため、ステップS1707にて統計モデルを用いて推定した音響特徴量に調整を加え、ステップS1708にて調整後のフレーム毎の音響特徴量から合成音声信号を得ると、合成音声信号に音質劣化を生じてしまう。
【0017】
このように、
図17に示した想定例では、高品質の合成音声信号を得ることができないという問題があった。このため、テキストの特定部分の読み上げ方を調整した、高品質の合成音声信号を得るために、新たな手法が所望されていた。
【0018】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることが可能な音声合成装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0019】
前記課題を解決するために、請求項1の音声合成装置は、音声合成対象のテキストを言語分析し、言語特徴量を求める言語分析部と、前記言語分析部により求めた前記言語特徴量に、音響の特徴を調整するための調整パラメータの調整量情報を追加する調整量追加部と、前記調整量追加部により前記調整量情報が追加された前記言語特徴量に基づき、予め学習された統計モデルを用いて、音響特徴量を推定する音響特徴量推定部と、前記音響特徴量推定部により推定された前記音響特徴量に基づいて、音声信号を合成し、前記テキストに対して前記調整パラメータによる調整が加えられた音声信号を出力する音声生成部と、を備えたことを特徴とする。
【0020】
また、請求項2の音声合成装置は、請求項1に記載の音声合成装置において、前記統計モデルが、ニューラルネットワークで構成された時間長モデル及び音響モデルからなり、前記音響特徴量推定部が、前記時間長モデルを用いて、音素毎の前記言語特徴量を前記時間長モデルの入力データとして、前記時間長モデルの出力データである音素毎の時間長を推定し、音素毎の前記時間長からフレーム毎の時間長を生成し、前記音響モデルを用いて、フレーム毎の前記言語特徴量及びフレーム毎の前記時間長を入力データとし、前記音響モデルの出力データであるフレーム毎の前記音響特徴量を推定する、ことを特徴とする。
【0021】
また、請求項3の音声合成装置は、請求項1または2に記載の音声合成装置において、前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータのうちのいずれか1つまたは2つ以上の組み合わせとする、ことを特徴とする。
【0022】
また、請求項4の音声合成装置は、請求項1または2に記載の音声合成装置において、前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータとし、当該4つのパラメータのうちのいずれか1つのパラメータの調整量は、所定範囲内の任意の値が指定され、他の3つのパラメータの調整量は、固定値が用いられる、ことを特徴とする。
【0023】
また、請求項5の音声合成装置は、請求項1または2に記載の音声合成装置において、前記調整パラメータを、話速または時間長、パワー、ピッチ、及び抑揚の4つのパラメータとし、当該4つのパラメータにおけるそれぞれの調整量は、それぞれの所定範囲内の任意の値が指定される、ことを特徴とする。
【0024】
また、請求項6のプログラムは、コンピュータを、請求項1から5までのいずれか一項に記載の音声合成装置として機能させることを特徴とする。
【発明の効果】
【0025】
以上のように、本発明によれば、テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることが可能となる。
【図面の簡単な説明】
【0026】
【
図1】本発明の実施形態による学習装置の構成例を示すブロック図である。
【
図2】学習装置による事前学習処理例を示すフローチャートである。
【
図3】言語特徴量のデータ構成例を説明する図である。
【
図4】音声分析部による音声分析処理例を示すフローチャートである。
【
図5】音響特徴量のデータ構成例を説明する図である。
【
図6】時間情報が追加された言語特徴量のデータ構成例を説明する図である。
【
図7】調整量情報が追加された言語特徴量のデータ構成例を説明する図である。
【
図8】時間長モデルの学習処理例を説明する図である。
【
図9】音響モデルの学習処理例を説明する図である。
【
図10】本発明の実施形態による音声合成装置の構成例を示すブロック図である。
【
図11】音声合成装置による音声合成処理例を示すフローチャートである。
【
図12】時間長モデルを用いた時間長推定処理例を説明する図である。
【
図13】音響モデルを用いた音響特徴量推定処理例を説明する図である。
【
図14】音声生成部による音声合成処理例を説明する図である。
【
図15】非特許文献1に記載された従来の学習方法及び合成方法を示す説明図である。
【
図16】非特許文献2に記載された従来の音声信号調整方法を示す説明図である。
【
図17】非特許文献1,2の従来技術を組み合わせた想定例を示す説明図である。
【発明を実施するための形態】
【0027】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。
図1は、学習装置の構成例を示すブロック図であり、
図2は、学習装置による事前学習処理例を示すフローチャートである。
【0028】
この学習装置1は、記憶部10,17、言語分析部11、音声分析部12、対応付け部13、調整量追加部14、音響特徴量調整部15及び学習部16を備えている。音声信号はモノラルであり、標本化周波数48kHz及びビット数16で標本化されているものとする。
【0029】
記憶部10には、予め設定された音声コーパスが格納されている。音声コーパスは、テキストと、これに対応する音声信号から構成される。例えば、ATR(株式会社国際電気通信基礎技術研究所)により作成された音素バランス503文を利用する場合、テキストと、これを読み上げた音声信号は、503対からなる。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論(春)、 pp.89-90(1988.3)
【0030】
言語分析部11は、記憶部10から音声コーパスの各テキストを読み出し、テキストについて既知の言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める(ステップS201)。そして、言語分析部11は、音素毎の言語特徴量を対応付け部13に出力する。
【0031】
具体的には、言語分析部11は、言語分析処理により、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報を求め、これらの情報からなる言語特徴量を求める。
【0032】
言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab:Yet Another Part-of-Speech and Morphological Analyzer”,インターネット<URL:http://taku910.github.io/mecab/>
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜:Yet Another Japanese Dependency Structure Analyzer”,インターネット<URL:https://taku910.github.io/cabocha/>
【0033】
図3は、言語特徴量のデータ構成例を説明する図である。
図3に示すように、言語特徴量は、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。
【0034】
図1及び
図2に戻って、音声分析部12は、記憶部10から音声コーパスの各テキストに対応する各音声信号を読み出し、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音響分析処理を行う。そして、音声分析部12は、フレーム毎の所定情報からなる音響特徴量を求め(ステップS202)、フレーム毎の音響特徴量を対応付け部13に出力する。音響特徴量は、後述するように、199次元のデータから構成される。
【0035】
音響分析処理としては、例えば以下に記載された音響分析処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”,インターネット<URL:https://github.com/mmorise/World>
また、音響分析処理としては、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”,インターネット<URL:http://sp-tk.sourceforge.net/>
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”
【0036】
図4は、音声分析部12による音声分析処理例を示すフローチャートである。音声分析部12は、記憶部10から音声コーパスの各音声信号を読み出し、フレーム長25msの音声信号をフレームシフト5ms毎に切り出す(ステップS401)。そして、音声分析部12は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める(ステップS402)。
【0037】
音声分析部12は、スペクトルをメルケプストラム分析してメルケプストラム係数MGCを求める(ステップS403)。また、音声分析部12は、ピッチ周波数から有声/無声判定情報VUVを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数LF0を求める(ステップS404)。また、音声分析部12は、非周期成分をメルケプストラム分析して帯域非周期成分BAPを求める(ステップS405)。
【0038】
これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数MGC、有声/無声判定情報VUV、対数ピッチ周波数LF0及び帯域非周期成分BAPが得られる。
【0039】
音声分析部12は、メルケプストラム係数MGCの1次差分Δを算出して1次差分メルケプストラム係数ΔMGCを求め(ステップS406)、2次差分Δ2を算出して2次差分メルケプストラム係数Δ2MGCを求める(ステップS407)。
【0040】
音声分析部12は、対数ピッチ周波数LF0の1次差分Δを算出して1次差分対数ピッチ周波数ΔLF0を求め(ステップS408)、2次差分Δ2を算出して2次差分対数ピッチ周波数Δ2LF0を求める(ステップS409)。
【0041】
音声分析部12は、帯域非周期成分BAPの1次差分Δを算出して1次差分帯域非周期成分ΔBAPを求め(ステップS410)、2次差分Δ2を算出して2次差分帯域非周期成分Δ2BAPを求める(ステップS411)。
【0042】
これにより、動特性の音響特徴量として、フレーム毎に、1次差分メルケプストラム係数ΔMGC、2次差分メルケプストラム係数Δ2MGC、1次差分対数ピッチ周波数ΔLF0、2次差分対数ピッチ周波数Δ2LF0、1次差分帯域非周期成分ΔBAP及び2次差分帯域非周期成分Δ2BAPが得られる。
【0043】
音声分析部12は、フレーム毎の静特性及び動特性の所定情報からなる音響特徴量を対応付け部13に出力する。
【0044】
図5は、音響特徴量のデータ構成例を説明する図である。
図5に示すように、音響特徴量は、フレーム毎に、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ
2MGC、2次差分対数ピッチ周波数Δ
2LF0及び2次差分帯域非周期成分Δ
2BAP、並びに静特性の有声/無声判定情報VUVから構成される。この音響特徴量は、後述するように、199次元のデータから構成される。
【0045】
図1及び
図2に戻って、対応付け部13は、言語分析部11から音素毎の言語特徴量を入力すると共に、音声分析部12からフレーム毎の音響特徴量を入力する。そして、対応付け部13は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付けることで、テキストの文を構成する各音素が音声信号のどの時刻に位置(対応)するのかを算出する(ステップS203)。
【0046】
対応付け部13は、音素毎に、対応する開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、言語特徴量を構成する音素毎の所定情報に時間情報を追加すると共に、音素の時間長(フレーム数)を求める。そして、対応付け部13は、対応付けた音素毎の時間情報を追加した言語特徴量を調整量追加部14に出力する。また、対応付け部13は、音素毎の時間長を音響特徴量に含め、対応付けたフレーム毎の音響特徴量(時間長については音素毎のデータ)を音響特徴量調整部15に出力する。
【0047】
ここで、言語特徴量に追加される時間情報は、ミリ秒単位の情報である。また、音素毎の時間長は、後述する統計モデルにおける時間長モデルの出力データに用いられ、音素におけるミリ秒単位の時間の長さをフレームシフト5msで除算した5msフレーム単位の数値、すなわち音素のフレーム数が用いられる。
【0048】
音素アラインメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit(HTK)”,インターネット<URL:http://htk.eng.cam.ac.uk>
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”
【0049】
尚、対応付け部13は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。
【0050】
図6は、時間情報が追加された言語特徴量のデータ構成例を説明する図である。
図6に示すように、時間情報が追加された言語特徴量は、
図3に示した言語特徴量に時間情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、時間情報、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。
【0051】
図1及び
図2に戻って、調整量追加部14は、対応付け部13から音素毎の言語特徴量を入力すると共に、所定の調整パラメータを入力する。そして、調整量追加部14は、言語特徴量を構成する音素毎の所定情報に、調整パラメータの調整量情報を追加する(ステップS204)。調整量追加部14は、音素毎の調整量情報を追加した言語特徴量を学習部16に出力する。
【0052】
所定の調整パラメータは、音声信号を調整する(音響の特徴を調整する)ためのパラメータであり、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのいずれか、またはこれらの組み合わせとし、ユーザにより選択されるものとする。また、調整パラメータは、学習部16において学習データの一部として用いられる。
【0053】
話速RSTは話速の調整量を示し、パワーRPWはパワー(声の大きさ)の調整量を示し、RPTはピッチ(声の高さ)の調整量を示し、抑揚RPDは抑揚(声の高さの変化幅)の調整量を示す。尚、話速の代わりに、時間長を用いるようにしてもよい。
【0054】
話速RSTの範囲(話速の調整量範囲)は、例えば以下のとおりとする。
(遅い)0.5<=RST<=4.0(速い)
これは、話速RSTは0.5から4.0までの範囲において、0.5に近いほど遅く、4.0に近いほど速いことを意味する。
【0055】
パワーRPWの範囲(パワーの調整量範囲)は、例えば以下のとおりとする。
(小さい)1.0E-5<=RPW<=2.0(大きい)
これは、パワーRPWは1.0E-5から2.0までの範囲において、1.0E-5に近いほど小さく、2.0に近いほど大きいことを意味する。
【0056】
ピッチRPTの範囲(ピッチの調整量範囲)は、例えば以下のとおりとする。
(低い)0.5<=RPT<=2.0(高い)
これは、ピッチRPTは0.5から2.0までの範囲において、0.5に近いほど低く、2.0に近いほど高いことを意味する。
【0057】
抑揚RPDの範囲(抑揚の調整量範囲)は、例えば以下のとおりとする。
(小さい)1.0E-5<=RPD<=2.0(大きい)
これは、抑揚RPDは1.0E-5から2.0までの範囲において、1.0E-5に近いほど小さく、2.0に近いほど大きいことを意味する。話速RST、パワーRPW、ピッチRPT及び抑揚RPDの標準値は、いずれも1.0とする。
【0058】
また、これらの調整パラメータのそれぞれは、例えば以下に示す11個のデータから選択されるものとする。すなわち、学習装置1における話速R
ST、パワーR
PW、ピッチR
PT及び抑揚R
PDの調整パラメータは、それぞれ11個のデータのいずれかが使用される。
[数1]
【0059】
ここで、4つの調整パラメータを以下の調整ベクトルで表現する。
話速、パワー等の調整量を変化させないで元の話速、パワー等を維持する場合、調整ベクトルは以下のとおりである。
【0060】
4つの調整パラメータにおいて、それぞれ11個のデータから1個のデータが選択されるものとすると、全ての組み合わせ数は、114=14,641となる。このため、統計モデルを学習するためには、膨大なデータ量が必要となることから、学習の負荷が高くなり、時間もかかってしまう。
【0061】
そこで、本発明の実施形態では、ユーザは、4つの調整パラメータのうちの1つの調整パラメータについて、所定範囲の11個のデータから1個のデータを選択し、他の3つの調整パラメータについては、標準値1.0を固定値として用いるようにしてもよい。音響特徴量調整部15、及び後述する
図10の音声合成装置2についても同様である。
【0062】
例えば、ユーザは、話速R
STについて11個のデータから1個のデータを選択し、パワーR
PW、ピッチR
PT及び抑揚R
PDについて標準値1.0を固定値として用いるものとすると、調整ベクトルは以下のとおりである。
この場合、調整量追加部14は、調整パラメータとして、ユーザにより11個のデータのうち1個のデータが選択された話速R
ST、並びに、標準値1.0を固定値としたパワーR
PW、ピッチR
PT及び抑揚R
PDを入力する。
【0063】
このように、4つの調整パラメータのうちの1つの調整パラメータについては11個のデータから1個のデータが選択され、他の3つの調整パラメータについては標準値である1.0を固定値として用いることは、調整ベクトルRのいずれか1つの要素の軸方向のみに調整量をプロットしたことと等価である。この場合の組み合わせ数は、10×4+1=41となる。これにより、統計モデルを学習する際に、学習データの数を減らすことができるから、学習処理の負荷を低減し、学習処理の時間を短縮することができる。
【0064】
また、本発明の実施形態における他の例として、ユーザは、4つの調整パラメータを11段階で連動させて選択するようにしてもよい。音響特徴量調整部15、及び後述する
図10の音声合成装置2についても同様である。
【0065】
この場合、調整量追加部14は、調整パラメータとして、予め設定された11種類のパターンのうち、ユーザにより選択されたいずれかのパターンの話速R
ST、パワーR
PW、ピッチR
PT及び抑揚R
PDを入力する。11種類のパターンの調整ベクトルは以下のとおりである。
a1,b1,・・・,c11,d11は、対応する調整パラメータの調整量範囲に含まれる値とする。
【0066】
この場合の組み合わせ数は、11となる。これにより、統計モデルを学習する際に、学習データの数を一層減らすことができるから、その負荷を一層低減し、その時間を一層短縮することができる。
【0067】
尚、調整量追加部14は、文章単位、呼気段落単位またはアクセント句単位で、異なる調整パラメータを入力するようにしてもよい。音響特徴量調整部15、及び後述する音声合成装置2についても同様である。
【0068】
図7は、調整量情報が追加された言語特徴量のデータ構成例を説明する図である。
図7に示すように、調整量情報が追加された言語特徴量は、
図6に示した言語特徴量に、調整パラメータの調整量情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、時間情報、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報及び調整量情報から構成される。
【0069】
調整量情報は、話速RST、パワーRPW、ピッチRPT及び抑揚RPDの調整パラメータにおける調整量が反映された情報である。
【0070】
前述のとおり、調整量追加部14は、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせの調整パラメータを入力する。調整量追加部14は、例えば話速RSTのみの調整パラメータを入力した場合、言語特徴量に、入力した話速RST、並びに固定値である標準値1.0のパワーRPW、ピッチRPT及び抑揚RPDの調整量情報を追加する。また、調整量追加部14は、例えば話速RST及びパワーRPWの調整パラメータを入力した場合、言語特徴量に、入力した話速RST及びパワーRPW、並びに固定値である標準値1.0のピッチRPT及び抑揚RPDの調整量情報を追加する。
【0071】
図1及び
図2に戻って、音響特徴量調整部15は、対応付け部13から、調整量追加部14が入力する音素毎の言語特徴量に対応するフレーム毎の音響特徴量(時間長については音素毎のデータ)を入力する。また、音響特徴量調整部15は、調整量追加部14と同様の所定の調整パラメータを入力する。
【0072】
音響特徴量調整部15は、調整パラメータに従ってフレーム毎の音響特徴量を調整し、調整後のフレーム毎の音響特徴量(時間長については音素毎のデータ)を学習部16に出力する。
【0073】
話速RSTの調整パラメータに従い話速が調整される場合、音響特徴量調整部15は、以下の式のとおり、対応付け部13から入力した時間長DURに話速RSTの逆数を乗算し、乗算結果を整数化し、新たな時間長DUR’を求めることで、時間長を調整する。
[数2]
DUR’= int(DUR×1/RST) ・・・(2)
対応付け部13から入力した時間長をDUR、調整後の時間長をDUR’とする。
【0074】
尚、話速RSTの代わりに時間長の調整パラメータRDR(=1/RST)に従い時間長が調整される場合、音響特徴量調整部15は、対応付け部13から入力した時間長DURに対し、話速RSTの逆数の代わりに、時間長の調整パラメータRDRを乗算し、乗算結果を整数化し、新たな時間長DUR’を求めることで、時間長を調整する。
【0075】
音響特徴量調整部15は、調整後の時間長に応じて、対応付け部13から入力したフレームの音響特徴量を繰り返しまたは間引きして、音響特徴量のフレーム数を揃えることで、音響特徴量を調整する。このように、音素毎の時間長の調整に応じて、音響特徴量のフレーム数が揃えられる。
【0076】
尚、音響特徴量調整部15は、調整後の時間長に応じて、対応するフレームの音響特徴量を繰り返しまたは間引くことで音響特徴量を調整する際に、前後のフレームの音響特徴量を用いて補間を行うようにしてもよい。これにより、高品質の音響特徴量を得ることができる。また、話速RSTの調整パラメータ及び他の調整パラメータに従い話速等が調整される場合、音響特徴量調整部15は、話速を調整する前に、他の調整パラメータによる調整を行う。
【0077】
また、パワーRPWの調整パラメータに従い音声のパワーが調整される場合、音響特徴量調整部15は、対応付け部13から入力した音響特徴量に含まれる静特性のメルケプストラム係数MGCにおける0次元目の値MGC[0]に、パワーRPWを対数化した値を加算する。
【0078】
音響特徴量調整部15は、以下の式のとおり、加算した値と0とを比較して大きい方を、新たな静特性のメルケプストラム係数MGCにおける0次元目の値MGC[0]’として求めることで、音響特徴量を調整する。
[数3]
MGC[0]’= max(0,MGC[0]+logRPW) ・・・(3)
対応付け部13から入力した音響特徴量に含まれる静特性のメルケプストラム係数MGCにおける0次元目の値をMGC[0]、調整後の値をMGC[0]’とする。
【0079】
また、ピッチRPTの調整パラメータに従い音声のピッチ周波数が調整される場合、音響特徴量調整部15は、対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0における0次元目の値LF0[0]に、ピッチRPTを対数化した値を加算する。
【0080】
音響特徴量調整部15は、以下の式のとおり、加算した値と0とを比較して大きい方を、新たな静特性の対数ピッチ周波数LF0における0次元目の値LF0[0]’として求めることで、音響特徴量を調整する。
[数4]
LF0[0]’= max(0,LF0[0]+logRPT) ・・・(4)
対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0における0次元目の値をLF0[0]、調整後の値をLF0[0]’とする。
【0081】
また、抑揚RPDの調整パラメータに従い音声の抑揚が調整される場合、音響特徴量調整部15は、対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0から、予め算出しておいた平均値μLF0を減算する。そして、音響特徴量調整部15は、減算結果を、予め算出しておいた標準偏差ΣLF0で除算し、除算結果を求める。平均値μLF0は、対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0の平均値であり、標準偏差ΣLF0はその標準偏差である。
【0082】
音響特徴量調整部15は、以下の式のとおり、対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数LF0について、その平均値μ
LF0及び標準偏差Σ
LF0を文毎に算出しておくものとする。Nは、文に対応するフレーム数である。
[数5]
[数6]
【0083】
音響特徴量調整部15は、標準偏差ΣLF0に、抑揚RPDを対数化した値を加算し、加算結果と0とを比較して大きい方を求める。そして、音響特徴量調整部15は、前記除算結果に、大きい方の値を乗算し、乗算結果に平均値μLF0を加算する。
【0084】
音響特徴量調整部15は、加算した値と0とを比較して大きい方を、新たな静特性の対数ピッチ周波数LF0’として求める。音響特徴量調整部15による演算処理の式は以下のとおりである。
[数7]
LF0’= max(0,((LF0-μLF0)/ΣLF0)×max(0,ΣLF0+logRPD)+μLF0)
・・・(7)
対応付け部13から入力した音響特徴量に含まれる静特性の対数ピッチ周波数をLF0、その平均値をμLF0、その標準偏差をΣLF0、調整後の静特性の対数ピッチ周波数をLF0’とする。
【0085】
音響特徴量調整部15は、前記のように各調整パラメータに従い算出された新たな静特性の1次差分Δを算出して新たな動特性の1次差分を求める。また、音響特徴量調整部15は、2次差分Δ2を算出して新たな動特性の2次差分を求める。このようにして、音響特徴量調整部15は、音響特徴量を調整する。
【0086】
尚、音響特徴量調整部15による音響特徴量の調整処理は、調整量追加部14による調整量情報の言語特徴量への追加処理と連動するものとする。
【0087】
学習部16は、調整量追加部14から音素毎の言語特徴量を入力すると共に、音響特徴量調整部15からフレーム毎の音響特徴量(時間長については音素毎のデータ)を入力する。そして、学習部16は、これらのデータを標準化し、統計モデルである時間長モデル及び音響モデルを学習する。
【0088】
(時間長モデルの学習)
次に、学習部16による時間長モデルの学習処理について説明する。
図8は、時間長モデルの学習処理例を説明する図である。学習部16は、調整量追加部14から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリ値及び13次元の数値データ、並びに1次元の調整データを生成する。1次元の調整データは話速データであり、言語特徴量の次元数は326である。
【0089】
ここで、言語特徴量における312次元のバイナリ値及び13次元の数値データは、言語特徴量に含まれる音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報に基づいて生成される。言語特徴量における1次元の調整データは、言語特徴量に含まれる調整量情報(話速の調整量、パワーの調整量、ピッチの調整量及び抑揚の調整量)のうち、話速の調整量に基づいて生成される。
【0090】
学習部16は、言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータを、時間長モデルの入力データとして扱う(ステップS801)。
【0091】
学習部16は、言語特徴量の326次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部17に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する(ステップS802)。
【0092】
また、学習部16は、音響特徴量調整部15から入力したフレーム毎の音響特徴量(時間長については音素毎のデータ)のうちの音素毎の時間長について、当該時間長の1次元のデータを、時間モデルの出力データとして扱う(ステップS803)。この時間長は、5ms単位のフレーム数であり、テキストを表現する音素毎に1次元の整数値からなる。
【0093】
学習部16は、時間長の1次元の全てのデータを用いて、平均値及び標準偏差を求めて記憶部17に格納すると共に、全てのデータのそれぞれについて、平均値及び標準偏差を用いて標準化する(ステップS804)。
【0094】
学習部16は、ステップS802,S804から移行して、音素毎に、言語特徴量の326次元の標準化されたデータを入力データとし、時間長の1次元の標準化されたデータを出力データとして時間長モデルを学習する(ステップS805)。そして、学習部16は、学習済みの時間長モデルを記憶部17に格納する。
【0095】
ステップS805における時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”,インターネット<URL:https://github.com/CSTR-Edinburgh/merlin>
後述する
図9のステップS905における音響モデルの学習の場合も同様である。
【0096】
時間長モデルは、例えば入力層を326次元、隠れ層を1024次元の6層、出力層を1次元とした順伝播型のニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を64、エポック数を100、dropout(ドロップアウト)率を0.5、学習係数の最適化方法として確率的勾配降下法、開始学習率を0.01、10エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、15エポックを過ぎてから、5エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。
【0097】
これにより、記憶部17には、統計モデルとして時間長モデルが格納される。また、記憶部17には、統計モデルとして、時間長モデルの入力データである言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部17には、統計モデルとして、時間長モデルの出力データである時間長の1次元のデータに関する平均値及び標準偏差が格納される。
【0098】
(音響モデルの学習)
次に、学習部16による音響モデルの学習処理について説明する。
図9は、音響モデルの学習処理例を説明する図である。学習部16は、調整量追加部14から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データを生成する。
【0099】
4次元の時間データは、当該フレームに対応する音素のフレーム数(1次元のデータ)、及び当該フレームの音素内における位置(3次元のデータ)からなる。3次元の調整データは、パワーデータ、ピッチデータ及び抑揚データである。これらの調整データは、言語特徴量に含まれる調整量情報(話速の調整量、パワーの調整量、ピッチの調整量及び抑揚の調整量)のうち、パワーの調整量、ピッチの調整量及び抑揚の調整量に基づいて生成される。また、言語特徴量の次元数は332である。
【0100】
学習部16は、音素毎の言語特徴量における312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータから、フレーム毎の言語特徴量における332次元のデータを生成する。
【0101】
学習部16は、フレーム毎の言語特徴量について、言語特徴量の312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータを、音響モデルの入力データとして扱う(ステップS901)。
【0102】
学習部16は、言語特徴量の332次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部17に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する(ステップS902)。
【0103】
また、学習部16は、音響特徴量調整部15から入力したフレーム毎の音響特徴量(時間長については音素毎のデータ)のうちの時間長を除く音響特徴量について、199次元のデータを、音響モデルの出力データとして扱う(ステップS903)。
【0104】
ここで、前述のとおり、時間長を除く音響特徴量は、静特性のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAP、動特性の1次差分メルケプストラム係数ΔMGC、1次差分対数ピッチ周波数ΔLF0、1次差分帯域非周期成分ΔBAP、2次差分メルケプストラム係数Δ2MGC、2次差分対数ピッチ周波数Δ2LF0及び2次差分帯域非周期成分Δ2BAP、並びに静特性の有声/無声判定情報VUVからなる。
【0105】
具体的には、時間長を除く音響特徴量は、静特性の60次元のメルケプストラム係数、1次元の対数ピッチ周波数及び5次元の帯域非周期成分を併せた静特性の66次元のデータと、これらの静特性のデータを1次差分及び2次差分して得られた動特性の132次元のデータと、1次元の有声/無声判定データとからなる。つまり、時間長を除く音響特徴量の次元数は199である。
【0106】
学習部16は、音響特徴量の199次元の全てのデータを用いて、次元毎に、平均値及び標準偏差を求めて記憶部17に格納すると共に、全てのデータのそれぞれについて、次元毎の平均値及び標準偏差を用いて標準化する(ステップS904)。
【0107】
学習部16は、ステップS902,S904から移行して、フレーム毎に、言語特徴量の332次元の標準化されたデータを入力データとし、音響特徴量の199次元の標準化されたデータを出力データとして音響モデルを学習する(ステップS905)。そして、学習部16は、学習済みの音響モデルを記憶部17に格納する。
【0108】
音響モデルは、例えば入力層を332次元、隠れ層を1024次元の6層、出力層を199次元とした順伝播型のニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を256、エポック数を100、dropout(ドロップアウト)率を0.5
学習係数の最適化方法として確率的勾配降下法、開始学習率を0.001、10エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、15エポックを過ぎてから、5エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。
【0109】
これにより、記憶部17には、統計モデルとして音響モデルが格納される。また、記憶部17には、統計モデルとして、音響モデルの入力データである言語特徴量の312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部17には、統計モデルとして、音響モデルの出力データである音響特徴量の199次元のデータに関する次元毎の平均値及び標準偏差が格納される。
【0110】
以上のように、本発明の実施形態の学習装置1によれば、言語分析部11は、音声コーパスのテキストについて既知の言語分析処理を行い、音素毎の言語特徴量を求める。音声分析部12は、音声コーパスのテキストに対応する音声信号をフレーム毎に切り出し、フレーム毎の音声信号について既知の音響分析処理を行い、フレーム毎の音響特徴量を求める。
【0111】
対応付け部13は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付け、音素毎の時間長を求める。そして、対応付け部13は、時間情報を追加した音素毎の言語特徴量を生成し、対応付けたフレーム毎の音響特徴量(時間長については音素毎のデータ)を生成する。
【0112】
調整量追加部14は、時間情報を追加した音素毎の言語特徴量に、調整パラメータの調整量情報を追加する。音響特徴量調整部15は、調整パラメータに従って、フレーム毎の音響特徴量(時間長については音素毎のデータ)を調整する。
【0113】
学習部16は、言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータに基づいて、次元毎に、最大値及び最小値を求め、全てのデータのそれぞれを標準化する。また、学習部16は、時間長の1次元のデータに基づいて平均値及び標準偏差を求め、時間長の1次元のデータを標準化する。
【0114】
学習部16は、音素毎に、言語特徴量の326次元の標準化されたデータを入力データとし、時間長の1次元の標準化されたデータを出力データとして時間長モデルを学習する。
【0115】
学習部16は、言語特徴量の312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータに基づいて、次元毎に、最大値及び最小値を求め、全てのデータのそれぞれを標準化する。また、学習部16は、音響特徴量の199次元のデータに基づいて、次元毎に、平均値及び標準偏差を求め、全てのデータのそれぞれを標準化する。
【0116】
学習部16は、フレーム毎に、言語特徴量の332次元の標準化されたデータを入力データとし、音響特徴量の199次元の標準化されたデータを出力データとして音響モデルを学習する。
【0117】
これにより、記憶部17には、学習済みの統計モデルとして、調整パラメータの調整量情報が反映された時間長モデル、音響モデル及び最大値等が格納される。
【0118】
そして、後述の音声合成装置2により、調整パラメータの調整量情報が反映された学習モデルを用いて、調整パラメータの調整量情報が追加された言語特徴量に基づき音響特徴量が推定され、フレーム毎の音響特徴量から合成音声信号が生成される。
【0119】
図17に示した非特許文献1,2の従来技術を組み合わせた想定例では、学習モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、合成音声信号に音質劣化が生じてしまう。さらに、入力文章の特定部分に対応する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、調整を加えた部分と、これに隣接する調整を加えていない部分との間の接続部分において、合成音声信号に不連続を生じてしまう。
【0120】
これに対し、本発明の実施形態による音声合成装置2は、調整パラメータの調整量情報が反映された学習モデルを用いて音響特徴量を推定し、合成音声信号を生成するから、学習モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加える必要がない。また、入力文章の特定部分に対応する言語特徴量を調整したものを学習モデルに入力して音響特徴量を求め、合成音声信号を生成することから、調整を加えた部分と、これに隣接する調整を加えていない部分との間の接続部分において、合成音声信号に不連続を生じることがない
【0121】
したがって、テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることができる。
【0122】
また、本発明の実施形態では、調整パラメータは、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせであり、ユーザにより選択される。この場合、ユーザは、例えば4つの調整パラメータのうちの1つの調整パラメータについて、11個のデータから1個のデータを選択し、他の3つの調整パラメータについては、標準値1.0を固定値として用いる。または、ユーザは、例えば4つの調整パラメータを11段階で連動させて選択する。
【0123】
このように、調整パラメータの選択範囲を限定することにより、統計モデルを学習する際の学習データを少なくすることができ、低負荷かつ短時間で、統計モデルを学習することができる。
【0124】
〔音声合成装置〕
次に、本発明の実施形態による音声合成装置について説明する。
図10は、音声合成装置の構成例を示すブロック図であり、
図11は、音声合成装置による音声合成処理例を示すフローチャートである。
【0125】
この音声合成装置2は、言語分析部20、調整量追加部21、音響特徴量推定部22、記憶部17及び音声生成部23を備えている。記憶部17は、
図1に示した記憶部17に相当し、学習装置1により学習された統計モデルとして、時間長モデル、音響モデル及び最大値等が格納されている。
【0126】
尚、学習装置1により学習された統計モデルは、学習装置1に備えた記憶部17から読み出され、音声合成装置2に備えた記憶部17に格納されるようにしてもよい。また、音声合成装置2は、インターネットを介して、学習装置1に備えた記憶部17へ直接アクセスするようにしてもよい。
【0127】
言語分析部20は、音声合成対象のテキストを入力し、
図1に示した言語分析部11と同様に、テキストについて既知の言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める(ステップS1101)。そして、言語分析部20は、音素毎の言語特徴量を調整量追加部21に出力する。
【0128】
調整量追加部21は、言語分析部20から音素毎の言語特徴量を入力すると共に、所定の調整パラメータを入力する。そして、調整量追加部21は、
図1に示した調整量追加部14と同様に、言語特徴量を構成する音素毎の所定情報に、調整パラメータの調整量情報を追加する(ステップS1102)。調整量追加部21は、音素毎の調整量情報を追加した言語特徴量を音響特徴量推定部22に出力する。
【0129】
所定の調整パラメータは、前述と同様に、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのどれか、またはこれらの組み合わせとし、ユーザにより指定されるものとする。調整パラメータの値は、前述した調整の範囲において任意の実数とする。つまり、所定の調整パラメータは、話速RST、パワーRPW、ピッチRPT及び抑揚RPDのうちのいずれか1つまたは2つ以上の組み合わせとする。
【0130】
尚、所定の調整パラメータは、話速RST、パワーRPW、ピッチRPT及び抑揚RPDとし、これらの4つのパラメータのうちのいずれか1つのパラメータの調整量は、所定範囲内の任意の値が指定され、他の3つのパラメータの調整量は、固定値が用いられるようにしてもよい。また、所定の調整パラメータは、前述の4つのパラメータとし、それぞれの調整量は、それぞれの所定範囲内の任意の値が指定されるようにしてもよい。
【0131】
尚、調整量追加部21は、
図1に示した調整量追加部14と同様に、文章単位、呼気段落単位またはアクセント句単位で、異なる調整パラメータを入力するようにしてもよい。
【0132】
音響特徴量推定部22は、調整量追加部21から音素毎の言語特徴量を入力し、記憶部17に格納された最大値等を用いて標準化及び逆標準化の処理を行い、時間長モデルを用いて音素毎の時間長を推定する。
【0133】
音響特徴量推定部22は、記憶部17に格納された最大値等を用いて標準化及び逆標準化の処理を行い、音響モデルを用いてフレーム毎の音響特徴量を推定する(ステップS1103)。音響特徴量推定部22は、フレーム毎の音響特徴量を音声生成部23に出力する。
【0134】
(時間長モデルを用いた時間長の推定)
次に、音響特徴量推定部22による時間長モデルを用いた時間長の推定処理について説明する。
図12は、時間長モデルを用いた時間長推定処理例を説明する図である。音響特徴量推定部22は、調整量追加部21から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリ値及び13次元の数値データ、並びに1次元の調整データ(話速データ)を生成する。言語特徴量の次元数は326である。
【0135】
音響特徴量推定部22は、言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータを、時間長モデルの入力データとして扱う(ステップS1201)。
【0136】
音響特徴量推定部22は、記憶部17から、時間長モデルの入力データである言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータに関する次元毎の最大値及び最小値を読み出す。そして、音響特徴量推定部22は、言語特徴量の326次元のデータのそれぞれについて、次元毎に、最大値及び最小値を用いて標準化を行う(ステップS1202)。
【0137】
音響特徴量推定部22は、記憶部17に格納された時間長モデルを用いて、言語特徴量の326次元の標準化されたデータを時間長モデルの入力データとして、時間長モデルの出力データである時間長の1次元の標準化されたデータを推定する(ステップS1203)。
【0138】
音響特徴量推定部22は、記憶部17から、時間長モデルの出力データである時間長の1次元のデータに関する平均値及び標準偏差を読み出す。そして、音響特徴量推定部22は、ステップS1203にて推定した時間長の1次元の標準化されたデータについて、平均値及び標準偏差を用いて逆標準化を行い(ステップS1204)、時間長の1次元のデータを求める(ステップS1205)。
【0139】
これにより、記憶部17に格納された時間長モデル、時間長モデルの入力データである言語特徴量の326次元のデータに関する次元毎の最大値及び最小値、並びに、時間長モデルの出力データである時間長の1次元のデータに関する平均値及び標準偏差を用いて、音素毎の言語特徴量の326次元のデータから、音素毎の時間長の1次元のデータを得ることができる。
【0140】
(音響モデルを用いた音響特徴量の推定)
次に、音響特徴量推定部22による音響モデルを用いた音響特徴量の推定処理について説明する。
図13は、音響モデルを用いた音響特徴量推定処理例を説明する図である。音響特徴量推定部22は、ステップS1205にて求めた音素毎の時間長の1次元のデータに基づいて、
図9のステップS901と同様に、音素に対応する複数フレームのそれぞれについて、時間データの4次元のデータを生成する(ステップS1301)。
【0141】
音響特徴量推定部22は、調整量追加部21から入力した音素毎の言語特徴量に基づいて、言語特徴を表す312次元のバイナリ値、13次元の数値データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)を生成する。そして、音響特徴量推定部22は、音素毎の言語特徴量における312次元のバイナリ値、13次元の数値データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる328次元のデータから、フレーム毎の言語特徴量における328次元のデータを生成する。
【0142】
音響特徴量推定部22は、フレーム毎の言語特徴量の312次元のバイナリ値、13次元の数値データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる328次元のデータ、並びにステップS1301にて生成した時間データの4次元のデータを、音響モデルの入力データとして扱う(ステップS1302)。
【0143】
音響特徴量推定部22は、記憶部17から、音響モデルの入力データである言語特徴量の312次元のバイナリ値、13次元の数値データ、4次元の時間データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる332次元のデータに関する次元毎の最大値及び最小値を読み出す。そして、音響特徴量推定部22は、言語特徴量の328次元のデータ及び時間データの4次元のデータからなる332次元のデータのそれぞれについて、次元毎に、最大値及び最小値を用いて標準化を行う(ステップS1303)。
【0144】
音響特徴量推定部22は、記憶部17に格納された音響モデルを用いて、言語特徴量の328次元の標準化されたデータ及び時間データの4次元の標準化されたデータからなる332次元の標準化されたデータを音響モデルの入力データとして、音響モデルの出力データである音響特徴量の199次元の標準化されたデータを推定する(ステップS1304)。
【0145】
音響特徴量推定部22は、記憶部17から、音響モデルの出力データである音響特徴量の199次元のデータに関する平均値及び標準偏差を読み出す。そして、音響特徴量推定部22は、ステップS1304にて推定した音響特徴量の199次元の標準化されたデータについて、次元毎に、平均値及び標準偏差を用いて逆標準化を行う(ステップS1305)。音響特徴量推定部22は、フレーム毎の音響特徴量の199次元のデータを生成する(ステップS1306)。
【0146】
このようにして推定され逆標準化された音響特徴量は、フレーム毎に離散的な値をとる。そこで、音響特徴量推定部22は、連続するフレーム毎の音響特徴量の199次元のデータに対して、最尤推定または移動平均をとり、新たなフレーム毎の音響特徴量の199次元のデータを求める。これにより、フレーム毎の音響特徴量は滑らかな値となる。
【0147】
これにより、記憶部17に格納された音響モデル、音響モデルの入力データである言語特徴量の332次元のデータに関する次元毎の最大値及び最小値、並びに、音響モデルの出力データである音響特徴量の199次元のデータに関する平均値及び標準偏差を用いて、フレーム毎の言語特徴量の328次元のデータ及び時間データの4次元のデータから、フレーム毎の音響特徴量の199次元のデータを得ることができる。
【0148】
図10及び
図11に戻って、音声生成部23は、音響特徴量推定部22からフレーム毎の音響特徴量を入力し、フレーム毎の音響特徴量に基づいて音声信号を合成する(ステップS1104)。そして、音声生成部23は、音声合成対象のテキストに対して調整パラメータによる調整が加えられた音声信号を出力する。
【0149】
図14は、音声生成部23による音声合成処理例を説明する図である。音声生成部23は、音響特徴量推定部22から入力したフレーム毎の音響特徴量のうち、フレーム毎のメルケプストラム係数MGC、対数ピッチ周波数LF0及び帯域非周期成分BAPである静特性の音響特徴量を選択する(ステップS1401)。
【0150】
音声生成部23は、メルケプストラム係数MGCをメルケプストラムスペクトル変換し、スペクトルを求める(ステップS1402)。また、音声生成部23は、対数ピッチ周波数LF0から有声/無声判定情報VUVを求め、対数ピッチ周波数LF0の有声区間を指数化し、無声及び無音区間についてはゼロとし、ピッチ周波数を求める(ステップS1403)。また、音声生成部23は、帯域非周期成分BAPをメルケプストラムスペクトル変換し、非周期成分を求める(ステップS1404)。
【0151】
音声生成部23は、ステップS1402にて求めたフレーム毎のスペクトル、ステップS1403にて求めたフレーム毎のピッチ周波数、及びステップS1404にて求めたフレーム毎の非周期成分を用いて連続的に音声波形を生成し(ステップS1405)、音声信号を出力する(ステップS1406)。
【0152】
これにより、音声合成対象のテキストに対して所定の調整パラメータによる調整が加えられた音声信号を得ることができる。
【0153】
以上のように、本発明の実施形態の音声合成装置2によれば、言語分析部20は、音声合成対象のテキストについて既知の言語分析処理を行い、音素毎の言語特徴量を求め、調整量追加部21は、音素毎の言語特徴量に、調整パラメータの調整量情報を追加する。
【0154】
音響特徴量推定部22は、言語特徴量の312次元のバイナリ値、13次元の数値データ及び1次元の調整データ(話速データ)からなる326次元のデータを、記憶部17に格納された最大値等を用いて標準化する。そして、音響特徴量推定部22は、記憶部17に格納された時間長モデルを用いて、これらの標準化されたデータを入力データとして、出力データである時間長の1次元の標準化されたデータを推定する。
【0155】
音響特徴量推定部22は、時間長の1次元の標準化されたデータを、記憶部17に格納された平均値等を用いて逆標準化し、フレーム毎の時間データを求める。音響特徴量推定部22は、言語特徴量の329次元のデータのうち312次元のバイナリ値、13次元の数値データ及び3次元の調整データ(パワーデータ、ピッチデータ及び抑揚データ)からなる328次元のデータ、並びに時間データの4次元のデータを、記憶部17に格納された最大値等を用いて標準化する。そして、音響特徴量推定部22は、記憶部17に格納された音響モデルを用いて、これらの標準化されたデータを入力データとして、出力データである音響特徴量の199次元の標準化されたデータを推定する。
【0156】
音響特徴量推定部22は、音響特徴量の199次元の標準化されたデータを、記憶部17に格納された平均値等を用いて逆標準化し、フレーム毎の音響特徴量を求める。そして、音声生成部23は、フレーム毎の音響特徴量に基づいて音声信号を合成し、合成音声信号を生成する。
【0157】
図17に示した非特許文献1,2の従来技術を組み合わせた想定例では、学習モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、合成音声信号に音質劣化を生じてしまう。さらに、入力文章の特定部分に対応する音響特徴量に調整を加え、調整後のフレーム毎の音響特徴量から合成音声信号を生成することから、調整を加えた部分と、これに隣接する調整を加えていない部分との間の接続部分において、合成音声信号に不連続を生じてしまう。
【0158】
これに対し、本発明の実施形態による音声合成装置2は、調整パラメータの調整量情報が反映された学習モデルを用いて音響特徴量を推定し、合成音声信号を生成するから、学習モデルを用いた推定により時間的に平滑化された特性を有する音響特徴量に調整を加える必要がない。また、入力文章の特定部分に対応する言語特徴量を調整したものを学習モデルに入力して音響特徴量を求め、合成音声信号を生成することから、調整を加えた部分と、これに隣接する調整を加えていない部分との間の接続部分において、合成音声信号に不連続を生じることがない。
【0159】
したがって、テキストの特定部分の読み上げ方を調整した合成音声信号を生成する際に、高品質の合成音声信号を得ることができる。
【0160】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0161】
尚、本発明の実施形態による学習装置1及び音声合成装置2のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1及び音声合成装置2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。
【0162】
学習装置1に備えた記憶部10,17、言語分析部11、音声分析部12、対応付け部13、調整量追加部14、音響特徴量調整部15及び学習部16の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。また、音声合成装置2に備えた言語分析部20、調整量追加部21、音響特徴量推定部22、記憶部17及び音声生成部23の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0163】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0164】
1 学習装置
2 音声合成装置
10,17 記憶部
11,20 言語分析部
12 音声分析部
13 対応付け部
14,21 調整量追加部
15 音響特徴量調整部
16 学習部
22 音響特徴量推定部
23 音声生成部