(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-02
(45)【発行日】2022-03-10
(54)【発明の名称】音声合成装置、音声モデル学習装置およびそれらのプログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20220303BHJP
G10L 25/30 20130101ALI20220303BHJP
【FI】
G10L13/10 114
G10L25/30
(21)【出願番号】P 2018066484
(22)【出願日】2018-03-30
【審査請求日】2021-03-11
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(73)【特許権者】
【識別番号】591053926
【氏名又は名称】一般財団法人NHKエンジニアリングシステム
(74)【代理人】
【識別番号】110001807
【氏名又は名称】特許業務法人磯野国際特許商標事務所
(72)【発明者】
【氏名】栗原 清
(72)【発明者】
【氏名】熊野 正
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】今井 篤
(72)【発明者】
【氏名】都木 徹
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2003-140678(JP,A)
【文献】特開平8-6586(JP,A)
【文献】特開2009-157220(JP,A)
【文献】特開2008-243043(JP,A)
【文献】栗原清 他,話者の特徴と感情表現を制御可能なDNN音声合成方式の検討,電子情報通信学会2017年総合大会講演論文集,2017年03月,情報・システム講演論文集1,p.150
【文献】熊野正,スポーツ番組を解説する「音声ガイド」生成技術,NHK技研R&D,日本放送協会,2017年08月,No.164,pp.49-55
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10,25/30
G06F 3/16
(57)【特許請求の範囲】
【請求項1】
ディープニューラルネットワークにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力し、前記音素の時間長を出力する予め学習された時間長モデルと、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力し、前記フレームの音響特徴量を出力する予め学習された音響特徴量モデルとを用いて、競技データから競技内容の音声を合成する音声合成装置であって、
前記競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、前記競技データから前記強調箇所を示したテキストを生成するテキスト生成手段と、
前記テキスト生成手段で生成されたテキストを解析し、音素ごとの言語特徴量と前記音素に対する強調情報とを生成する音素言語特徴量生成手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とから、前記時間長モデルにより、前記音素の時間長を生成する時間長演算手段と、
前記時間長演算手段で生成された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と前記フレームに対応する強調情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成する音響特徴量演算手段と、
前記音響特徴量演算手段で生成されたフレームごとの音響特徴量により音声合成を行う合成手段と、
を備えることを特徴とする音声合成装置。
【請求項2】
前記時間長モデルおよび前記音響特徴量モデルは、前記音素が体言止めの文末単語の音素であるか否かを示す文末情報によりさらに学習したモデルであって、
前記音素言語特徴量生成手段は、前記テキストの文末単語の品詞により、前記音素ごとの前記文末情報を生成し、
前記時間長演算手段は、前記音素の言語特徴量と前記強調情報と前記文末情報とから、前記時間長モデルにより、前記音素の時間長を生成し、
前記フレーム言語特徴量生成手段は、前記フレームごとの言語特徴量に、さらに前記文末情報を対応付け、
前記音響特徴量演算手段は、前記フレームの言語特徴量と前記フレームに対応する前記強調情報および前記文末情報とから、前記音響特徴量モデルにより、前記フレームごとの音響特徴量を生成する
ことを特徴とする請求項1に記載の音声合成装置。
【請求項3】
テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、請求項1に記載の音声合成装置で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習する音声モデル学習装置であって、
前記テキストを解析するとともに、前記テキストが前記強調して発話した音声に対応したものか否かにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを生成する音素言語特徴量生成手段と、
前記テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する音素区切り手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを入力し、前記音素区切り手段で特定された音素の時間長を出力するように前記時間長モデルを学習する時間長モデル学習手段と、
前記音素区切り手段で特定された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報と対応付けるフレーム言語特徴量生成手段と、
前記音素区切り手段で検出された音素の区切りに基づいて、前記テキストに対応する音声から前記音素の時間長の区間を構成するフレームごとの音響特徴量を生成する音響特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報とを入力し、前記音響特徴量を出力するように前記音響特徴量モデルを学習する音響特徴量モデル学習手段と、
を備えることを特徴とする音声モデル学習装置。
【請求項4】
テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、請求項2に記載の音声合成装置で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習する音声モデル学習装置であって、
前記テキストを解析するとともに、前記テキストが前記強調して発話した音声に対応したものか否かにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報と前記音素が体言止めの文末単語の音素であるか否かを示す文末情報とを生成する音素言語特徴量生成手段と、
前記テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する音素区切り手段と、
前記音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報と文末情報とを入力し、前記音素区切り手段で特定された音素の時間長を出力するように前記時間長モデルを学習する時間長モデル学習手段と、
前記音素区切り手段で特定された音素の時間長と前記音素の言語特徴量とから、前記音素のフレームごとの言語特徴量を生成し、前記フレームに対応する音素の強調情報および文末情報と対応付けるフレーム言語特徴量生成手段と、
前記音素区切り手段で検出された音素の区切りに基づいて、前記テキストに対応する音声から前記音素の時間長の区間を構成するフレームごとの音響特徴量を生成する音響特徴量生成手段と、
前記フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報と文末情報とを入力し、前記音響特徴量を出力するように前記音響特徴量モデルを学習する音響特徴量モデル学習手段と、
を備えることを特徴とする音声モデル学習装置。
【請求項5】
コンピュータを、請求項1または請求項2に記載の音声合成装置として機能させるための音声合成プログラム。
【請求項6】
コンピュータを、請求項3または請求項4に記載の音声モデル学習装置として機能させるための音声モデル学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、抑揚にメリハリのついた音声を生成する音声合成装置、音声モデル学習装置およびそれらのプログラムに関する。
【背景技術】
【0002】
近年、スポーツ競技のスコア、ゴール、反則等の進行状態を示す競技データから、音声による解説(音声ガイド)を生成する技術開発が進められている(非特許文献1参照)。
この手法は、スコア等の進行によって変化する情報をパラメータとする定型文のパラメータを、競技データで補うことで、競技の進行を案内するテキストを生成し、音声合成により音声ガイドを生成する。
この競技データから音声ガイドを生成することで、例えば、視覚障害者が、テレビのスポーツ中継をより楽しむことができたり、インターネットで配信されるスポーツ競技映像に音声による解説を付加したりすることが可能になる。
【0003】
また、近年、統計モデルを用いた音声合成技術が進歩している。例えば、ディープニューラルネットワーク(Deep Neural Network:DNN)を用いて、話者の特徴や感情表現を学習し、テキストから、話者や感情を制御した音声合成を行う技術が開示されている(非特許文献2,3参照)。これによって、表現の豊かな音声合成が可能になる。
【先行技術文献】
【非特許文献】
【0004】
【文献】K.Kurihara et al,“AUTOMATIC GENERATIONOF AUDIO DESCRIPTIONS FOR SPORTS PROGRAMS”,International Broadcasting Convention [IBC 2017] Conference,Sep 2017
【文献】栗原,清山,今井,都木,“話者の特徴と感情表現を制御可能なDNN音声合成方式の検討”,電子情報通信学会総合大会,D-14-10,p.150(2017)
【文献】北条,井島,宮崎,“話者コードを用いたDNN音声合成の検討”,日本音響学会講演論文集,pp.215-218,Sep 2015
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の競技データから音声ガイドを生成する手法を用いることで、競技の進行を音声で案内することが可能になる。しかし、従来の手法は、単にテキストを音声合成するため、合成音声は抑揚にメリハリのない音声となり、意図を表現することができないという問題がある。
また、従来の話者や感情を制御した音声合成を行う手法を用いて、音声ガイドを生成したとしても、テキスト全体に対して話者や感情を制御することしかできないため、テキストの途中で音声を強調する等の制御を行うことはできない。そのため、この手法を用いて、競技データから音声ガイドを生成することとしても、音声の抑揚にメリハリをつけることはできず、意図を表現することができないという問題を解決することはできない。
【0006】
本発明は、このような問題に鑑みてなされたものであり、競技データから、抑揚にメリハリのついた音声を生成することが可能な音声合成装置、音声モデル学習装置およびそれらのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0007】
前記課題を解決するため、本発明に係る音声合成装置は、ディープニューラルネットワークにより、音素ごとの言語特徴量と前記音素に対する強調の有無を示す強調情報とを入力し、前記音素の時間長を出力する予め学習された時間長モデルと、前記音素のフレームごとの言語特徴量と前記フレームの強調の有無を示す強調情報とを入力し、前記フレームの音響特徴量を出力する予め学習された音響特徴量モデルとを用いて、競技データから競技内容の音声を合成する音声合成装置であって、テキスト生成手段と、音素言語特徴量生成手段と、時間長演算手段と、フレーム言語特徴量生成手段と、音響特徴量演算手段と、合成手段と、を備える構成とした。
【0008】
かかる構成において、音声合成装置は、テキスト生成手段によって、競技データに対して強調箇所を予め定めたテキストのテンプレートを用いて、競技データから強調箇所を示したテキストを生成する。
そして、音声合成装置は、音素言語特徴量生成手段によって、テキスト生成手段で生成されたテキストに対して、形態素解析、韻律推定等の解析を行うことで、音素ごとの言語特徴量と音素に対する強調情報とを生成する。
そして、音声合成装置は、時間長演算手段によって、音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを、時間長モデルの入力として演算することで、音素の時間長を生成する。
【0009】
また、音声合成装置は、フレーム言語特徴量生成手段によって、時間長演算手段で生成された音素の時間長と、音素言語特徴量生成手段で生成された音素の言語特徴量とから、音素のフレームごとの言語特徴量を生成し、フレームに対応する音素の強調情報と対応付ける。これによって、音素の時間長の区間を構成するフレームごとの言語特徴量と強調情報とが対応付けられる。
そして、音声合成装置は、音響特徴量演算手段によって、フレーム言語特徴量生成手段で生成されたフレームの言語特徴量とフレームに対応する強調情報とを、音響特徴量モデルの入力として演算することで、フレームごとの音響特徴量を生成する。
【0010】
さらに、音声合成装置は、合成手段によって、音響特徴量演算手段で生成されたフレームごとの音響特徴量により音声合成を行う。
これによって、音声合成装置は、予め強調音声の特徴を学習した音響特徴量モデルにより、テキスト中の強調箇所を強調した合成音声を生成することができる。
【0011】
また、前記課題を解決するため、本発明に係る音声モデル学習装置は、テキストと、前記テキストを強調して発話した音声および強調せずに発話した音声とを用いて、音声合成装置で使用するディープニューラルネットワークの時間長モデルおよび音響特徴量モデルを学習する音声モデル学習装置であって、音素言語特徴量生成手段と、音素区切り手段と、時間長モデル学習手段と、フレーム言語特徴量生成手段と、音響特徴量生成手段と、音響特徴量モデル学習手段と、を備える構成とした。
【0012】
かかる構成において、音声モデル学習装置は、音素言語特徴量生成手段によって、テキストに対して、形態素解析、韻律推定等の解析を行うとともに、テキストが強調した音声に対応したものか否かにより、音素ごとの言語特徴量と音素に対する強調の有無を示す強調情報とを生成する。
そして、音声モデル学習装置は、音素区切り手段によって、テキストに対応する音声から、音素ごとの区切りを検出し、音素の時間長を特定する。
そして、音声モデル学習装置は、時間長モデル学習手段によって、音素言語特徴量生成手段で生成された音素の言語特徴量と強調情報とを入力し、音素区切り手段で特定された音素の時間長を出力するように時間長モデルを学習する。
【0013】
また、音声モデル学習装置は、フレーム言語特徴量生成手段によって、音素区切り手段で特定された音素の時間長と、音素言語特徴量生成手段で生成された音素の言語特徴量とから、音素のフレームごとの言語特徴量を生成し、フレームに対応する音素の強調情報と対応付ける。
そして、音声モデル学習装置は、音響特徴量生成手段によって、音素区切り手段で検出された音素の区切りに基づいて、テキストに対応する音声から音素の時間長の区間を構成するフレームごとの音響特徴量を生成する。
そして、音声モデル学習装置は、音響特徴量モデル学習手段によって、フレーム言語特徴量生成手段で生成されたフレームの言語特徴量と強調情報とを入力し、音響特徴量生成手段で生成された音響特徴量を出力するように音響特徴量モデルを学習する。
これによって、音声モデル学習装置は、テキストが同一であっても、強調情報によって異なる音素の時間長および音響特徴量を学習するモデルを生成することができる。
【0014】
なお、音声合成装置は、コンピュータを、音声合成装置の各手段として機能させるための音声合成プログラムで動作させることができる。
また、音声モデル学習装置は、コンピュータを、音声モデル学習装置の各手段として機能させるための音声モデル学習プログラムで動作させることができる。
【発明の効果】
【0015】
本発明は、以下に示す優れた効果を奏するものである。
本発明によれば、競技データから、強調すべき箇所を特定したテキストを生成し、当該個所を強調した合成音声を生成することができる。
これによって、本発明は、競技データから、抑揚にメリハリがつき、意図を表現可能な音声を生成することができる。
【図面の簡単な説明】
【0016】
【
図1】本発明の実施形態に係る音声合成装置の構成を示すブロック構成図である。
【
図2】
図1の事前学習部の構成を示すブロック構成図である。
【
図3】
図1の合成処理部の構成を示すブロック構成図である。
【
図4】時間長モデルの構成例を説明するためのネットワーク構成図である。
【
図5】音響特徴モデルの構成例を説明するためのネットワーク構成図である。
【
図6】競技データの一例を説明するための図であって、(a)は出場選手、(b)は競技で発生するイベントを示す。
【
図7】競技データをテキストに変換するためのテンプレートを示す図であって、(a)は固定的に強調タグを挿入した例を示す図、(b)は条件によって強調タグを挿入する例を示す図である。
【
図8】テンプレートを用いて変換した発話スタイル付きテキストの例を示す図であって、(a)は強調タグを挿入した例を示す図、(b)は強調タグを挿入しない例を示す図である。
【
図9】発話スタイルを特定した合成音声の出力例を示す図であって、(a)は発話スタイルを設定していない場合の声の高さを示し、(b)は発話スタイルを設定した場合の声の高さを示す。
【
図10】本発明の実施形態に係る音声合成装置の事前学習部の動作を示すフローチャートである。
【
図11】本発明の実施形態に係る音声合成装置の合成処理部の動作を示すフローチャートである。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について図面を参照して説明する。
〔音声合成装置の概要〕
図1を参照して、本発明の実施形態に係る音声合成装置1の概要について説明する。
【0018】
音声合成装置1は、スポーツ等の進行状態を示す競技データから、音声(合成音声)を生成するものである。
音声合成装置1は、事前学習段階として、コーパス記憶装置5に記憶した学習データであるコーパスから、テキストを音声に変換するための音声モデルをディープニューラルネットワーク(以下、DNNという)により学習する。
コーパスは、強調音声コーパスと通常音声コーパスとがある。
強調音声コーパスは、テキストと、当該テキストを強調して発話した音声(強調音声)とを対とした学習データである。
通常音声コーパスは、テキストと、当該テキストを通常(強調せず)に発話した音声(通常音声)とを対とした学習データである。
【0019】
音声合成装置1は、合成処理段階として、学習した音声モデルを用いて、競技データから、競技の進行を解説した音声を生成する。
競技データは、競技の進行状況を示すデータである。この競技データは、例えば、OBS(Olympic Broadcasting Services)等の競技大会における公式のデータセンタから実時間で配信されるデータを用いることができる。音声合成装置1は、順次更新される競技データを入力する。
【0020】
音声合成装置1は、競技データの強調すべき箇所を予め定めたテンプレートに基づいて、競技データから、強調箇所を示す発話スタイルを付加した競技の進行を解説したテキスト(発話スタイル付きテキスト)を生成し、学習した音声モデルを用いて、音声合成を行う。
これによって、音声合成装置1は、競技データから、抑揚にメリハリのついた音声を生成することができる。
【0021】
〔音声合成装置の構成〕
次に、
図1~
図3を参照して、本発明の実施形態に係る音声合成装置1の構成について説明する。
図1に示すように、音声合成装置1は、事前学習部2と、合成処理部3と、を備える。
【0022】
事前学習部2は、事前学習段階として、音声モデルを学習するものである。
合成処理部3は、合成処理段階として、学習済みの音声モデルを用いて、競技データから音声(合成音声)を生成するものである。
音声合成装置1は、外部にコーパス記憶装置5を接続する。
【0023】
(事前学習部)
図2を参照(適宜
図1参照)して、事前学習部2の構成について説明する。事前学習部2は、コーパス入力手段10と、モデル学習手段20と、モデル記憶手段30と、を備える。なお、モデル記憶手段30は、事前学習部2と合成処理部3とで共用する。
【0024】
コーパス入力手段10は、コーパス記憶装置5から、強調音声コーパスおよび通常音声コーパスを入力するものである。
コーパス入力手段10は、テキストと音声(強調音声または通常音声)とを対として、コーパス記憶装置5から読み出し、モデル学習手段20に出力する。コーパス入力手段10は、強調音声コーパスから読み込んだテキストについては、対応する音声が強調音声であることを示す強調判別情報とともに、モデル学習手段20に出力する。また、コーパス入力手段10は、通常音声コーパスから読み込んだテキストについては、対応する音声が通常音声である(強調音声ではない)ことを示す強調判別情報とともに、モデル学習手段20に出力する。
【0025】
モデル学習手段20は、コーパス入力手段10で入力したテキスト、強調判別情報および音声(強調、通常)を用いて、DNNの音声モデルとして、時間長モデル31と、音響特徴量モデル32と、を学習するものである。モデル学習手段20は、テキスト解析手段21と、音声解析手段22と、DNN学習手段23と、を備える。
【0026】
テキスト解析手段21は、テキストを解析して、音素およびフレームごとの言語特徴量を生成するとともに、強調判別情報に基づいて、発話スタイルを特定する音素ごとのラベル(強調情報、文末情報)を生成するものである。テキスト解析手段21は、音素言語特徴量生成手段211と、フレーム言語特徴量生成手段212と、を備える。
【0027】
音素言語特徴量生成手段211は、入力したテキストを構成する音素ごとの言語特徴量である音素言語特徴量を生成するものである。音素言語特徴量は、音素が有する文脈に依存する素性である。例えば、音素言語特徴量は、音素情報(前後の音素を含む音素ラベル)、アクセントの位置、アクセント句情報、品詞情報、呼気段落情報等である。なお、これらの音素言語特徴量は、一般的なテキスト解析(形態素解析、韻律推定等)により求めることができるため、解析手法についての詳細な説明を省略する。
【0028】
また、音素言語特徴量生成手段211は、生成した音素言語特徴量に、強調、体言止めを示す発話スタイル固有のラベル(発話スタイルラベル〔強調情報、文末情報〕)を付加する。
音素言語特徴量生成手段211は、テキストとともに入力される強調判別情報が、音声が強調音声であることを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加する。また、音素言語特徴量生成手段211は、テキストとともに入力される強調判別情報が、音声が通常音声である(強調音声ではない)ことを示す情報である場合、テキストを構成するすべての音素に対して、発話スタイルラベルとして、通常を示すラベル(強調情報;強調無し)を付加する。
【0029】
また、音素言語特徴量生成手段211は、入力したテキストの文末単語の品詞が名詞である場合、文末単語を構成するすべての音素に対して、発話スタイルラベルとして、体言止めを示すラベル(文末情報;体言止め有り)を付加する。また、音素言語特徴量生成手段211は、体言止めを示すラベルを付加する音素以外の音素については、体言止めではないことを示すラベル(文末情報;体言止め無し)を付加する。一般的に、スポーツ実況等では、体言止めが多用されるため、ここでは、体言止めの有無を音声モデルの学習に利用する。
【0030】
音素言語特徴量生成手段211は、音素言語特徴量と、発話スタイルラベル(強調情報、文末情報)とを、フレーム言語特徴量生成手段212に出力するとともに、DNN学習手段23の時間長モデル学習手段231に出力する。
さらに、音素言語特徴量生成手段211は、音素ごとに、解析した音素固有の音素ラベルを音声解析手段22の音素区切り手段221に出力する。
【0031】
フレーム言語特徴量生成手段212は、入力したテキストの音素の時間長の区間を構成するフレームに対応した言語特徴量であるフレーム言語特徴量を生成するものである。なお、フレームは、音声解析手段22で解析される音響特徴量を生成する単位である。
フレーム言語特徴量は、音素言語特徴量生成手段211で生成された音素言語特徴量に、音素の時間長の区間を構成するフレームの番号(フレームの位置)、フレームの総数等の音素の時間的特徴を加えたものである。このフレーム言語特徴量生成手段212は、1音素に対して、音素の時間長に対応したフレーム言語特徴量を生成する。
【0032】
フレーム言語特徴量生成手段212は、音声解析手段22から音素の時間長を入力し、音素の時間長の区間を構成するフレームの番号、フレームの総数等を求める。なお、音素の時間長は、例えば、1音素あたりのフレームの数である。
フレーム言語特徴量生成手段212は、生成した1音素に対応するフレーム数分のフレーム言語特徴量と、音素言語特徴量生成手段211から入力された発話スタイルラベルとを対応付けて、DNN学習手段23の音響特徴量モデル学習手段232に出力する。
【0033】
音声解析手段22は、入力した音声を解析して、音素の時間長とフレームごとの音響特徴量とを生成するものである。音声解析手段22は、音素区切り手段221と、音響特徴量生成手段222と、を備える。
【0034】
音素区切り手段221は、コーパス入力手段10で入力した音声の音声波形において、テキスト解析手段21から入力される音素ラベルの音素の区切りを検出するものである。
音素区切り手段221は、例えば、音素と当該音素の波形とを対応付けた素片辞書(不図示)を用いて、音素の区切り位置を検出する。
音素区切り手段221は、検出した音素の区切り位置を音響特徴量生成手段222に出力する。
【0035】
さらに、音素区切り手段221は、検出した音素の区切り位置に基づいて、音素ラベルに対応する音素の時間長を求め、テキスト解析手段21のフレーム言語特徴量生成手段212と、DNN学習手段23の時間長モデル学習手段231とに出力する。
なお、音素区切り手段221が生成する音素の時間長は、時間長モデル学習手段231で時間長モデル31を学習する際の正解データとなる。
【0036】
音響特徴量生成手段222は、入力した音声のフレームごとの音響特徴量を生成するものである。音響特徴量生成手段222は、音素の時間長の区間を構成するフレーム数分の音響特徴量を生成する。音響特徴量生成手段222は、音素区切り手段221で検出された区切り位置に基づく音素の時間長の区間において、入力した音声を所定のフレーム長(例えば、25ミリ秒)、所定のフレーム周期(例えば、5ミリ秒)ごとに切り出し、音響分析を行うことで、音響特徴量として、スペクトル係数(メルケプストラム係数等)、ピッチ(対数ピッチ周波数等)、雑音性係数、有性/無声判定値等を生成する。
【0037】
例えば、音響特徴量生成手段222は、60次元のスペクトル係数、1次元のピッチ、1次元の雑音性係数の計62次元の静特性と、静特性の時間方向の1次差分および2次差分の124次元の動特性と、1次元の有性/無声判定値とからなる計187次元の音響特徴量を生成する。なお、これらの音響特徴量は、一般的な音響解析により求めることができるため、解析手法についての詳細な説明を省略する。
【0038】
音響特徴量生成手段222は、生成した音響特徴量を、DNN学習手段23の音響特徴量モデル学習手段232に出力する。
なお、音響特徴量生成手段222が生成する音響特徴量は、音響特徴量モデル学習手段232で音響特徴量モデル32を学習する際の正解データとなる。
【0039】
DNN学習手段23は、DNNの音声モデルとして、時間長モデル31と、音響特徴量モデル32と、を学習するものである。DNN学習手段23は、時間長モデル学習手段231と、音響特徴量モデル学習手段232と、を備える。
【0040】
時間長モデル学習手段231は、音素言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力し、音素の時間長を出力するDNNのモデル(時間長モデル31)を学習するものである。
図4にDNNで構成した時間長モデル31の例を示す。
図4に示すように、時間長モデル31は、入力層I、隠れ層H、出力層Oで構成される順伝播ニューラルネットワーク(Feed Forward Neural Network:FFNN)で構成することができる。
【0041】
時間長モデル学習手段231は、時間長モデル31の入力層Iの各ユニットに、テキスト解析手段21で解析された音素言語特徴量をそれぞれ入力するとともに、発話スタイルラベルである強調情報(強調有無)、文末情報(体言止め有無)の各ラベルを入力する。そして、時間長モデル学習手段231は、入力層Iに入力された音素言語特徴量および発話スタイルラベル(強調情報、文末情報)の各値を、重みを付加して伝播させ、出力層Oからの出力が、音声解析手段22で解析された音素の時間長となるように、時間長モデル31における重み(パラメータ)を学習する。なお、パラメータの学習には、例えば、誤差逆伝播法(back propagation)を用いることができる。
時間長モデル学習手段231は、モデル記憶手段30において、学習により、時間長モデル31を逐次更新する。
【0042】
音響特徴量モデル学習手段232は、フレーム言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力し、音素のフレームごとの音響特徴量を出力するDNNのモデル(音響特徴量モデル32)を学習するものである。
図5にDNNで構成した音響特徴量モデル32の例を示す。
図5に示すように、音響特徴量モデル32は、入力層I、隠れ層H、出力層Oで構成される順伝播ニューラルネットワーク(FFNN)で構成することができる。
【0043】
音響特徴量モデル学習手段232は、音響特徴量モデル32の入力層Iの各ユニットに、テキスト解析手段21で解析されたフレーム言語特徴量を入力するとともに、発話スタイルラベルである強調情報(強調有無)、文末情報(体言止め有無)の各ラベルを入力する。そして、音響特徴量モデル学習手段232は、入力層Iに入力されたフレーム言語特徴量および発話スタイルラベル(強調情報、文末情報)の各値を、重みを付加して伝播させ、出力層Oからの出力が、音声解析手段22で解析されたフレームの音響特徴量となるように、音響特徴量モデル32における重み(パラメータ)を学習する。なお、パラメータの学習には、時間長モデル31と同様に、誤差逆伝播法を用いることができる。
音響特徴量モデル学習手段232は、モデル記憶手段30において、学習により、音響特徴量モデル32を逐次更新する。
【0044】
モデル記憶手段30は、モデル学習手段20で学習される音声モデル(時間長モデル31、音響特徴量モデル32)を記憶するものである。モデル記憶手段30は、半導体メモリ等の一般的な記憶媒体で構成することができる。
モデル記憶手段30に記憶された事前学習段階で学習した音声モデル(時間長モデル31、音響特徴量モデル32)は、合成処理部3において使用される。
【0045】
以上説明したように事前学習部2を構成することで、音声合成装置1は、通常の音声以外に、強調した音声や体言止めの音声における音素の時間長や音響特徴量を学習した音声モデルを生成することができる。
【0046】
(合成処置部)
次に、
図3を参照(適宜
図1参照)して、合成処理部3の構成について説明する。合成処理部3は、モデル記憶手段30と、データ入力手段40と、テンプレート記憶手段50と、テキスト生成手段60と、合成音声生成手段70と、を備える。
【0047】
モデル記憶手段30は、
図2において、事前学習部2の構成で説明したものと同一であるため、説明を省略する。
データ入力手段40は、外部から競技データを入力するものである。データ入力手段40は、例えば、通信回線を介して、競技データを配信するデータセンタから、競技データを入力する。
データ入力手段40は、入力した競技データをテキスト生成手段60に出力する。
【0048】
ここで、
図6を参照して、競技データの一例について説明する。
図6に示すように、競技データは、例えば、試合に出場する出場選手(
図6(a))、試合中に発生するイベント一覧(
図6(b))等の試合内容および試合進行に応じたデータである。
図6は、一例として、テニスを対象とした競技データの例を示す。
【0049】
図6(a)では、[選手Aのフルネーム]が“A1・A2”、[選手Aのファミリネーム]が“A2”等であることを示している。
また、
図6(b)では、123番目のイベントが、[時刻]○時△分□秒に発生したことを示している。[セット]はゲームのセット数を示す。なお、競技データは、イベントが更新されるたびに、順次追加されていく。ここでは、123番目のイベントにおいて、第4セット(“4S”)であることを示している。[ゲームカウント]はゲームカウントが更新されたことを示す。ここでは、“B2”(選手B)に5点目(“5”)が入ったことを示している。[アンフォーストエラー]はアンフォーストエラーが発生したことを示す。ここでは、“A2”(選手A)がアンフォーストエラーを起こし、アンフォーストエラーが“12”回目であることを示している。[ブレーク成功]はブレークに成功したことを示す。ここでは、“B2”(選手B)が“6”回目のブレークに成功したことを示している。
さらに、
図6(b)では、[全体ゲーム数]、[選手Aの獲得ゲーム数]、[選手Bの獲得ゲーム数]、[選手Bのブレーク数]等を試合状況として示している。
もちろん、
図6に示した競技データはこれに限定されるものでないし、競技の種類によって異なるものであることはいうまでもない。
図3に戻って、合成処理部3の構成について説明を続ける。
【0050】
テンプレート記憶手段50は、競技データを、音声合成用のテキストに変換するためのテンプレートを記憶するものである。テンプレート記憶手段50は、半導体メモリ等の一般的な記憶媒体で構成することができる。
【0051】
テンプレート記憶手段50は、競技データにおける予め定めたデータを示す条件に対応付けて、テンプレートを複数記憶する。
例えば、
図7(a)は、
図6に示した競技データにおいて、選手Aがアンフォーストエラーを起こし、選手Bがブレークに成功した場合のテンプレートを示す。
図7(a)に示したテンプレートにおいて、“[”および“]”で挟まれた箇所が、競技データに応じて変化することになる。
このテンプレートにおいて、音声を強調して発声させたい箇所には、予め定めたタグで示すこととする。例えば、
図7(a)に示すように、<強調>タグと</強調>タグとで挟まれた箇所を強調対象とする。ここでは、“[選手Bのブレーク数]回目のブレーク”を強調する例を示している。
【0052】
なお、テンプレートは、
図7(a)で示した条件において、さらに条件を付加して、強調の有無を制御するものとしてもよい。
例えば、
図7(b)の(b-1)に示すように、
図7(a)で示した、選手Aがアンフォーストエラーを起こし、選手Bがブレークに成功した場合に加え、選手Bのブレーク数が予め定めた数(例えば“5”)以上である場合に使用するテンプレートは、
図7(a)と同様に、“[選手Bのブレーク数]回目のブレーク”を強調するテンプレートとする。
また、選手Bのブレーク数が予め定めた数(例えば“5”)未満である場合に使用するテンプレートは、
図7(b)の(b-2)に示すように、(b-1)のテンプレートから<強調>タグと</強調>タグとを削除したテンプレートとする。
図3に戻って、合成処理部3の構成について説明を続ける。
【0053】
テキスト生成手段60は、テンプレート記憶手段50に記憶しているテンプレートを用いて、データ入力手段40で入力した競技データを、音声合成を行うためのテキストに変換するものである。
【0054】
テキスト生成手段60は、
図6で例示した競技データを入力し、各種データが条件に合致するテンプレートをテンプレート記憶手段50から読み出し、競技データに応じて変化する文字列を埋め込む。なお、テキスト生成手段60は、競技データが更新された場合、その更新した内容からテキストを生成する。
例えば、テキスト生成手段60は、
図6で例示した競技データ(ここでは、123番目のイベント)を入力した場合、
図7(a)あるいは、
図7(b)の(b-1)に示したテンプレートに文字列を埋め込むことで、
図8(a)に示すテキストを生成する。
なお、テキスト生成手段60は、
図7(b)の(b-2)に示したテンプレートを用いた場合、
図8(b)に示すテキストを生成する。
これによって、テキスト生成手段60は、発話スタイルとしてテキスト中に強調すべき箇所をタグで示した発話スタイル付きテキストを生成する。
テキスト生成手段60は、生成した発話スタイル付きテキストを合成音声生成手段70に出力する。
【0055】
合成音声生成手段70は、モデル記憶手段30に記憶されている学習済みの音声モデル(時間長モデル31、音響特徴量モデル32)を用いて、テキスト生成手段60で生成された発話スタイル付きテキストを音声合成するものである。合成音声生成手段70は、スタイル解析手段71と、テキスト解析手段72と、DNN演算手段73と、合成手段74と、を備える。
【0056】
スタイル解析手段71は、テキスト生成手段60で生成された発話スタイル付きテキストにおいて、強調箇所を解析するものである。
スタイル解析手段71は、発話スタイル付きテキストにおいて、一文ごとに予め定めたタグ(<強調>、</強調>)を検出することで、当該文中における強調箇所を特定する。そして、スタイル解析手段71は、文単位で、発話スタイル付きテキストからタグを削除したテキストと、当該テキストにおける強調箇所を示す強調位置情報とを、テキスト解析手段72に出力する。なお、発話スタイル付きテキストにおいて、予め定めたタグが存在しない場合、スタイル解析手段71は、文単位で、テキストと、強調箇所が存在しないことを示す強調位置情報とを、テキスト解析手段72に出力する。
【0057】
テキスト解析手段72は、テキストを解析して、音素およびフレームごとの言語特徴量を生成するとともに、強調位置情報に基づいて、発話スタイルを特定する音素ごとのラベルを生成するものである。テキスト解析手段72は、音素言語特徴量生成手段721と、フレーム言語特徴量生成手段722と、を備える。
【0058】
音素言語特徴量生成手段721は、入力したテキストを構成する音素ごとの言語特徴量である音素言語特徴量を生成するものである。音素言語特徴量は、音素が有する素性である。また、音素言語特徴量生成手段721は、生成した音素言語特徴量に、強調、体言止めを示す発話スタイル固有のラベル(発話スタイルラベル〔強調情報、文末情報〕)を付加するものでもある。この音素言語特徴量生成手段721は、
図2で説明した音素言語特徴量生成手段211と同じ機能を有する。
【0059】
なお、音素言語特徴量生成手段211は、強調音声に対応するテキストを構成するすべての音素に対して、発話スタイルラベルとして、強調を示すラベル(強調有り)を付加した。一方、音素言語特徴量生成手段721は、スタイル解析手段71で解析された強調位置情報で示される強調箇所に対応する音素に対して、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加し、それ以外の音素に対して、強調ではないことを示すラベル(強調情報;強調無し)を付加する。
音素言語特徴量生成手段721は、音素言語特徴量と、発話スタイルラベル(強調情報、文末情報)とを、フレーム言語特徴量生成手段722に出力するとともに、DNN演算手段73の時間長演算手段731に出力する。
【0060】
フレーム言語特徴量生成手段722は、入力したテキストの音素の時間長の区間を構成するフレームに対応した言語特徴量であるフレーム言語特徴量を生成するものである。このフレーム言語特徴量生成手段722は、
図2で説明したフレーム言語特徴量生成手段212と同じ機能を有する。
【0061】
フレーム言語特徴量生成手段722は、音素言語特徴量生成手段721で生成された音素言語特徴量と、DNN演算手段73の時間長演算手段731で生成された当該音素の時間長とを入力し、フレーム言語特徴量生成手段212(
図2)と同様にフレーム言語特徴量を生成する。
フレーム言語特徴量生成手段722は、生成したフレーム言語特徴量と、音素言語特徴量生成手段721から入力された発話スタイルラベルとを対応付けて、DNN演算手段73の音響特徴量演算手段732に出力する。
【0062】
DNN演算手段73は、モデル記憶手段30に記憶されている音声モデル(時間長モデル31、音響特徴量モデル32)を用いて、DNNの演算を行うものである。DNN演算手段73は、時間長演算手段731と、音響特徴量演算手段732と、を備える。
【0063】
時間長演算手段731は、学習済みの時間長モデル31を用いて、音素言語特徴量と発話スタイルラベル(強調情報、文末情報)とから、音素の時間長を生成するものである。
時間長演算手段731は、例えば、
図4に示した時間長モデル31の入力層Iの各ユニットに、音素言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力する。そして、時間長演算手段731は、学習済みの時間長モデル31のパラメータを用いてDNNの演算を行い、出力層Oから出力される値を音素の時間長とする。
時間長演算手段731は、生成した音素の時間長を、テキスト解析手段72のフレーム言語特徴量生成手段722に出力する。
【0064】
音響特徴量演算手段732は、学習済みの音響特徴量モデル32を用いて、フレーム言語特徴量と発話スタイルラベル(強調情報、文末情報)とから、音素のフレームごとの音響特徴量を生成するものである。
音響特徴量演算手段732は、例えば、
図5に示した音響特徴量モデル32の入力層Iの各ユニットに、フレーム言語特徴量と発話スタイルラベル(強調情報、文末情報)とを入力する。そして、音響特徴量演算手段732は、学習済みの音響特徴量モデル32のパラメータを用いてDNNの演算を行い、出力層Oから出力される値を音響特徴量とする。
音響特徴量演算手段732は、生成したフレームごとの音響特徴量を、合成手段74に出力する。
【0065】
合成手段74は、DNN演算手段73の音響特徴量演算手段732で生成されたフレームごとの音響特徴量を用いて音声合成を行い、合成音声を生成するものである。
合成手段74は、音響特徴量に含まれるピッチ、雑音特性等の情報(音源パラメータ)に基づいて、声の高さ、大きさ、雑音性度合いの時間変化を表現した声帯音源波形を生成する。また、合成手段74は、フレームごとの音響特徴量に含まれるスペクトル係数等の情報(スペクトルパラメータ)に基づいて、音韻の違いや声質を表現した声道フィルタを生成する。そして、合成手段74は、声帯音源波形を声道フィルタへの入力として、フレームに対応する音声波形を生成する。
なお、音響特徴量を用いて音声合成を行う手法は、ボコーダ方式の一般的な手法を用いればよいため、ここでは、詳細な説明を省略する。
合成手段74は、フレームごとの音声波形を連結して合成音声として出力する。
【0066】
以上説明したように合成処理部3を構成することで、音声合成装置1は、事前学習部2で事前学習した音声モデルを用いて、競技データから、スポーツ実況として使用可能な強調および体言止めを表現した合成音声を生成することができる。
【0067】
例えば、強調を学習せずに音声合成を行った場合、
図9(a)に示すように、「このセット6回目のブレーク。」は、通常、平坦な音の高さで音声合成される。また、体言止めを学習せずに音声合成を行った場合、
図9(a)に示すように、通常、文末の「ブレーク」は下がり調子で音声合成される。なお、図中、文字列の上に一般的な声の高さLを示している。
一方、音声合成装置1は、強調や体言止めを学習するため、
図9(b)に示すように、強調箇所である「6回目のブレーク」の声の高さが高くなり、体言止めとなる文末の「ブレーク」は末尾の声の高さが持ち上げられることなる。
【0068】
以上、本発明の実施形態に係る音声合成装置1の構成について説明したが、音声合成装置1は、コンピュータを前記した各手段として機能させるためのプログラム(音声合成プログラム)で動作させることができる。
【0069】
〔音声合成装置の動作〕
次に、
図10および
図11を参照して、本発明の実施形態に係る音声合成装置1の動作について説明する。ここでは、音声合成装置1の動作を、事前学習部2の動作と、合成処理部3の動作とに分けて説明する。
(事前学習部)
まず、
図10を参照(構成については、適宜
図1,
図2参照)して、音声合成装置1の事前学習部2の動作について説明する。
【0070】
ステップS1において、コーパス入力手段10は、テキストと音声(強調音声または通常音声)とを対として、コーパス記憶装置5からコーパスを入力する。ここで、コーパス入力手段10は、強調音声に対応するテキストに、当該テキストが強調音声に対応するものであることを示す強調判別情報を付加する。また、コーパス入力手段10は、通常音声に対応するテキストに、当該テキストが強調音声ではないことを示す強調判別情報を付加する。
【0071】
ステップS2において、テキスト解析手段21の音素言語特徴量生成手段211は、ステップS1で入力したテキストを解析し、テキストを構成する音素ごとの言語特徴量(音素言語特徴量)を生成する。
【0072】
ステップS3において、音素言語特徴量生成手段211は、ステップS2で生成した音素言語特徴量に、発話スタイルラベルを付加する。ここで、音素言語特徴量生成手段211は、テキストに、当該テキストが強調音声であることを示す強調判別情報が付加されている場合、音素言語特徴量に、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加する。また、音素言語特徴量生成手段211は、テキストに、当該テキストが強調音声ではないことを示す強調判別情報が付加されている場合、音素言語特徴量に、発話スタイルラベルとして、通常を示すラベル(強調情報;強調無し)を付加する。
【0073】
さらに、音素言語特徴量生成手段211は、文末単語の品詞が名詞である単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めを示すラベル(文末情報;体言止め有り)を付加する。また、音素言語特徴量生成手段211は、文末単語以外、および、文末単語であっても名詞ではない単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めではないことを示すラベル(文末情報;体言止め無し)を付加する。
【0074】
ステップS4において、音声解析手段22の音素区切り手段221は、ステップS1で入力した音声について、音素の区切り位置を検出し、音素の時間長を求める。
ステップS5において、DNN学習手段23の時間長モデル学習手段231は、ステップS2で生成した音素言語特徴量と、ステップS3で付加した発話スタイルラベルとを入力し、ステップS4で求めた音素の時間長を出力するように、時間長モデル31を学習する。
【0075】
ステップS6において、テキスト解析手段21のフレーム言語特徴量生成手段212は、ステップS4で求めた音素の時間長に基づいて音素の時間長の区間を構成するフレームの言語特徴量(フレーム言語特徴量)を生成する。
ステップS7において、フレーム言語特徴量生成手段212は、ステップS6で生成したフレーム言語特徴量に、ステップS3で音素言語特徴量に付加したものと同じ発話スタイルラベルを付加する。
【0076】
ステップS8において、音声解析手段22の音響特徴量生成手段222は、ステップS1で入力した音声について、ステップS4で求めた音素の区切り位置に基づいて、フレームの音響特徴量を生成する。
ステップS9において、DNN学習手段23の音響特徴量モデル学習手段232は、ステップS6で生成したフレーム言語特徴量と、ステップS7で付加した発話スタイルラベルとを入力し、ステップS8で生成した音響特徴量を出力するように、音響特徴量モデル32を学習する。
【0077】
(合成処理部)
次に、
図11を参照(構成については、適宜
図1,
図3参照)して、音声合成装置1の合成処理部3の動作について説明する。
【0078】
ステップS10において、データ入力手段40は、外部から競技データを入力する。
ステップS11において、テキスト生成手段60は、予めテンプレート記憶手段50に記憶されているテンプレートに基づいて、ステップS10で入力した競技データから、発話スタイル付きテキストを生成する。このテンプレートは、音声を強調して発声させたい箇所に、予め定めたタグ(<強調>、</強調>)が付加されている(
図7(a)参照)。テキスト生成手段60は、テンプレートの可変箇所を、競技データで特定される情報に置き換えることで、発話スタイル付きテキストを生成する(
図8(a)参照)。
【0079】
ステップS12において、合成音声生成手段70のスタイル解析手段71は、ステップS11で生成した発話スタイル付きテキストを解析し、タグを削除したテキストと、タグで指定された当該テキストにおける強調箇所を示す強調位置情報とを生成する。
ステップS13において、テキスト解析手段72の音素言語特徴量生成手段721は、ステップS12で生成したテキストを解析し、テキストを構成する音素ごとの言語特徴量(音素言語特徴量)を生成する。
【0080】
ステップS14において、音素言語特徴量生成手段721は、ステップS13で生成した音素言語特徴量に、発話スタイルラベルを付加する。ここで、音素言語特徴量生成手段721は、強調位置情報に基づいて強調が指定された強調箇所に対応する音素に対して、発話スタイルラベルとして、強調を示すラベル(強調情報;強調有り)を付加し、それ以外の音素に対して、強調ではないことを示すラベル(強調情報;強調無し)を付加する。
【0081】
また、音素言語特徴量生成手段721は、文末単語の品詞が名詞である単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めを示すラベル(文末情報;体言止め有り)を付加する。また、音素言語特徴量生成手段721は、文末単語以外、および、文末単語であっても名詞ではない単語に対応する音素については、音素言語特徴量に、発話スタイルラベルとして、体言止めではないことを示すラベル(文末情報;体言止め無し)を付加する。
【0082】
ステップS15において、DNN演算手段73の時間長演算手段731は、学習済みの時間長モデル31を用いて、ステップS13で生成した音素言語特徴量と、ステップS14で付加した発話スタイルラベルとから、音素の時間長を生成する。
ステップS16において、テキスト解析手段72のフレーム言語特徴量生成手段722は、ステップS15で生成した音素の時間長に基づいて、音素の時間長の区間を構成するフレームの言語特徴量(フレーム言語特徴量)を生成する。
【0083】
ステップS17において、フレーム言語特徴量生成手段722は、ステップS16で生成したフレーム言語特徴量に、ステップS14で音素言語特徴量に付加したものと同じ発話スタイルラベルを付加する。
ステップS18において、DNN演算手段73の音響特徴量演算手段732は、学習済みの音響特徴量モデル32を用いて、ステップS16で生成したフレーム言語特徴量と、ステップS17で付加した発話スタイルラベルとから、フレームの音響特徴量を生成する。
【0084】
ステップS19において、合成手段74は、ステップS18で生成したフレームの音響特徴量を用いて音声合成を行い、合成音声を生成する。
以上の動作によって、音声合成装置1は、競技データから、スポーツ実況として使用可能な強調および体言止めを表現した合成音声を生成することができる。
【0085】
〔変形例〕
以上、本発明の実施形態に係る音声合成装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
音声合成装置1は、音声モデル(時間長モデル31、音響特徴量モデル32)を学習する事前学習と、音声モデルを用いて競技データから音声合成を行う合成処理との2つの動作を1つの装置で行うものである。しかし、これらの動作は、別々の装置で行うようにしても構わない。
【0086】
具体的には、音声モデルを事前学習する装置として、
図2に示した事前学習部2を音声モデル学習装置として分離することができる。この場合、音声モデル学習装置(事前学習部2)は、コンピュータを、事前学習部2で説明した各手段として機能させるためのプログラム(音声モデル学習プログラム)で動作させることができる。
また、競技データから音声合成を行う装置として、
図3に示した合成処理部3を音声合成装置として分離することができる。この場合、音声合成装置(合成処理部3)は、コンピュータを、合成処理部3で説明した各手段として機能させるためのプログラム(音声合成プログラム)で動作させることができる。
【0087】
このように、音声モデルを学習する事前学習動作と、音声モデルを用いて音声合成を行う合成処理動作とを、異なる装置で動作させることで、1つの音声モデル学習装置(事前学習部2)で学習した音声モデルを、複数の音声合成装置(合成処理部3)で利用することが可能になる。
【0088】
また、ここでは、音声合成装置1は、発話スタイルとして、強調および体言止めを実現した合成音声を生成するものとして説明した。
しかし、例えば、音声合成装置1は、発話スタイルとして、強調のみを実現した合成音声を生成するものとしてもよい。
この場合、時間長モデル31および音響特徴量モデル32は、
図4に示した時間長モデル31の入力層Iから、文末情報(体言止め有無のラベル)を省略し、
図5に示した音響特徴量モデル32の入力層Iから、文末情報を省略したモデルとすればよい。また、テキスト解析手段21からDNN学習手段23に出力される発話スタイルラベルから、文末情報を省略すればよい。また、テキスト解析手段72からDNN演算手段73に出力される発話スタイルラベルから、文末情報を省略すればよい。
【符号の説明】
【0089】
1 音声合成装置
2 事前学習部(音声モデル学習装置)
3 合成処理部(音声合成装置)
10 コーパス入力手段
20 モデル学習手段
21 テキスト解析手段
211 音素言語特徴量生成手段
212 フレーム言語特徴量生成手段
22 音声解析手段
221 音素区切り手段
222 音響特徴量生成手段
23 DNN学習手段
231 時間長モデル学習手段
232 音響特徴量モデル学習手段
30 モデル記憶手段
31 時間長モデル
32 音響特徴量モデル
40 データ入力手段
50 テンプレート記憶手段
60 テキスト生成手段
70 合成音声生成手段
71 スタイル解析手段
72 テキスト解析手段
721 音素言語特徴量生成手段
722 フレーム言語特徴量生成手段
73 DNN演算手段
731 時間長演算手段
732 音響特徴量演算手段
74 合成手段