(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-16
(45)【発行日】2023-02-27
(54)【発明の名称】音声合成装置及びプログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20230217BHJP
G10L 25/30 20130101ALI20230217BHJP
【FI】
G10L13/10 113Z
G10L25/30
(21)【出願番号】P 2018227704
(22)【出願日】2018-12-04
【審査請求日】2021-11-02
(31)【優先権主張番号】P 2018158560
(32)【優先日】2018-08-27
(33)【優先権主張国・地域又は機関】JP
【新規性喪失の例外の表示】特許法第30条第2項適用 日本音響学会 2018年 秋季研究発表会 講演論文集が記録されたCD-ROM 発行日 平成30年8月29日 集会名 日本音響学会 2018年 秋季研究発表会 開催日 平成30年9月12日
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】栗原 清
(72)【発明者】
【氏名】清山 信正
(72)【発明者】
【氏名】熊野 正
(72)【発明者】
【氏名】今井 篤
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2019-109278(JP,A)
【文献】特表平08-512150(JP,A)
【文献】SHEN, Jonathan et al.,"NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS",[online],2018年02月16日,[retrieved on 2022.07.26], Retrieved from the Internet:<URL: https://arxiv.org/pdf/1712.05884.pdf>
【文献】DONG, Minghui et al.,"Representing raw linguistic information in chinese text-to-speech system",Proc. of the 2017 APSIPA ASC,2017年12月12日,pp.167-170
【文献】宮崎太郎 他,"国籍情報を用いた人名の音訳",FIT2016 第15回情報科学技術フォーラム 講演論文集 第2分冊,2016年08月23日,pp.145-146
【文献】大塚貴弘 他,"テキスト音声合成技術",三菱電機技報,2011年11月25日,Vol.85, No.11,pp.27-30
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10,25/30
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
日本語の発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列と韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号とを用いた文字列
により記述した第一のテキストデータを、当該第一のテキストデータから音響特徴量を生成する第一の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する第一推定処理、
又は、前記読み方を表す文字又は文字列と前記韻律記号と用いた文字列
により記述した第二のテキストデータを、当該第二のテキストデータから音響特徴量を生成する第二の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する第二推定処理、
又は、前記読み方を表す文字又は文字列と前記発話スタイル記号とを用いた文字列により記述した
第三のテキストデータを、当該
第三のテキストデータから音響特徴量を生成する
第三の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する
第三推定処理のいずれかを行う音響特徴量推定部と、
前記音響特徴量推定部が
前記第一推定処理、又は、前記第二推定処理、又は、前記第三推定処理のいずれかにより推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、
を備え、
前記
第一の音響特徴量生成モデル
、前記第二の音響特徴量生成モデル、及び、前記第三の音響特徴量生成モデルは、ディープニューラルネットワークを用いたエンコーダ及びデコーダを有し、
前記エンコーダは、再帰型ニューラルネットワークにより、前記テキストデータが示す前記発話内容に前記文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成し、
前記デコーダは、再帰型ニューラルネットワークにより、前記エンコーダが生成した前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、
ことを特徴とする音声合成装置。
【請求項2】
前記読み方を表す前記文字は、カタカナ、ひらがな、アルファベット又は発音記号であ
り、
前記第一の音響特徴量生成モデル、前記第二の音響特徴量生成モデル、及び、前記第三の音響特徴量生成モデルは、ディープニューラルネットワークを用いたアテンションネットワークをさらに有し、
前記アテンションネットワークは、前記エンコーダが出力した前記特徴量に対して重み付けを行うための重みを生成し、生成した前記重みにより前記特徴量に重み付けを行って前記デコーダへ入力し、
前記デコーダは、再帰型ニューラルネットワークにより、前記アテンションネットワークから入力された前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、
ことを特徴とする請求項1に記載の音声合成装置。
【請求項3】
前記韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポー
ズを指定する記号とのうちのいずれかを含む、
ことを特徴とする請求項1又は請求項2に記載の音声合成装置。
【請求項4】
発話に与える前記特徴は、感情、発話スタイル、又は、話者である、
ことを特徴とする請求項1から請求項3のいずれか一項に記載の音声合成装置。
【請求項5】
前記特徴を与える対象の発話は、前記発話スタイル記号が所定位置に付加された1以上の文の発話全体、前記発話スタイル記号に囲まれた1以上の文の発話全体、又は、前記発話スタイル記号により囲まれた1以上の文節の発話である、
ことを特徴とする請求項1から請求項4のいずれか一項に記載の音声合成装置。
【請求項6】
コンピュータを、請求項1から請求項5のいずれか一項に記載の音声合成装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成装置及びプログラムに関する。
【背景技術】
【0002】
近年、統計モデルを用いた音声合成技術が進歩したことにより、テキストから音声を合成する技術が知られている。例えば、ディープニューラルネットワーク(Deep Neural Network:DNN)を用いて話者の音声等の特徴を学習し、テキストから音声合成を行う技術が開発されている(例えば、非特許文献1、2、3参照)。また、英語で記述された文字列からメルスペクトログラムを推定し、このメルスペクトログラムから音声波形を生成する技術も開発されている(非特許文献4参照)。
【0003】
従来の統計的音声合成装置は、音響特徴量を算出して音声合成を行うために、音素ラベルファイルを用いた統計モデルにより音声を生成する。この音素ラベルファイルは、音素や音素の時間長、品詞等のラベルが含まれ、音声の音響特徴量からラベルを付与する。
【先行技術文献】
【非特許文献】
【0004】
【文献】Kiyoshi Kurihara et al,"Automatic generation of audio descriptions for sports programs",International Broadcasting Convention [IBC 2017],2017年
【文献】栗原 清,清山信正,今井 篤,都木 徹,"話者の特徴と感情表現を制御可能なDNN音声合成方式の検討",電子情報通信学会総合大会,2017年,D-14-10,p.150
【文献】北条,井島,宮崎,"話者コードを用いたDNN音声合成の検討",日本音響学会講演論文集,2015年9月,p.215-218
【文献】Shen et al.,[online],2018年2月,"Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions",arXiv:1712.05884,[2018年7月11日検索],インターネット<URL: https://arxiv.org/pdf/1712.05884.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記のように統計的音声合成装置では音素ラベルファイルが用いられるが、音声には音響的な解析を行う上で曖昧な音が存在するため、この音声を構成する音素に応じた音響特徴量を正しく認識することが難しい場合があり、上述したラベルを正しく付与されないことがあった。また、音素の境界を正しく判別する事が難しい場合、正しい音素ラベルファイルを生成するには、人手による修正を要し、このため人的なコストや時間的コストの問題も存在していた。さらに、日本語の場合、漢字と平仮名とカタカナとの多様な組み合わせによる仮名漢字混じりの文を網羅するために、大量の学習データを要するとともに、同じ文字列でも読み仮名が複数存在するため、学習が正しく行えないという問題もあった。このため、非特許文献4に開示された技術をそのまま仮名漢字混じりの日本語の文に適用することは難しい。
【0006】
本発明は、このような事情を考慮してなされたもので、品質の良い音声を低コストで合成できる音声合成装置及びプログラムを提供する。
【課題を解決するための手段】
【0007】
本発明の一態様は、日本語の発話内容を表す文章を当該発話内容の読み方を表す文字又は文字列と韻律を表す韻律記号と発話に与える特徴を表す発話スタイル記号とを用いた文字列により記述した第一のテキストデータを、当該第一のテキストデータから音響特徴量を生成する第一の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する第一推定処理、又は、前記読み方を表す文字又は文字列と前記韻律記号と用いた文字列により記述した第二のテキストデータを、当該第二のテキストデータから音響特徴量を生成する第二の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する第二推定処理、又は、前記読み方を表す文字又は文字列と前記発話スタイル記号とを用いた文字列により記述した第三のテキストデータを、当該第三のテキストデータから音響特徴量を生成する第三の音響特徴量生成モデルに入力し、前記発話内容に対応する音声の音響特徴量を推定する第三推定処理のいずれかを行う音響特徴量推定部と、前記音響特徴量推定部が前記第一推定処理、又は、前記第二推定処理、又は、前記第三推定処理のいずれかにより推定した前記音響特徴量を用いて音声波形を推定するボコーダ部と、を備え、前記第一の音響特徴量生成モデル、前記第二の音響特徴量生成モデル、及び、前記第三の音響特徴量生成モデルは、ディープニューラルネットワークを用いたエンコーダ及びデコーダを有し、前記エンコーダは、再帰型ニューラルネットワークにより、前記テキストデータが示す前記発話内容に前記文章内における当該発話内容の前後の文字列を考慮した文字列の特徴量を生成し、前記デコーダは、再帰型ニューラルネットワークにより、前記エンコーダが生成した前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、ことを特徴とする音声合成装置である。
【0008】
本発明の一態様は、上述する音声合成装置であって、前記読み方を表す前記文字は、カタカナ、ひらがな、アルファベット又は発音記号であり、前記第一の音響特徴量生成モデル、前記第二の音響特徴量生成モデル、及び、前記第三の音響特徴量生成モデルは、ディープニューラルネットワークを用いたアテンションネットワークをさらに有し、前記アテンションネットワークは、前記エンコーダが出力した前記特徴量に対して重み付けを行うための重みを生成し、生成した前記重みにより前記特徴量に重み付けを行って前記デコーダへ入力し、前記デコーダは、再帰型ニューラルネットワークにより、前記アテンションネットワークから入力された前記特徴量と過去に生成した音響特徴量とに基づいて、前記テキストデータが示す前記発話内容に対応する音声の音響特徴量を生成する、ことを特徴とする。
【0009】
本発明の一態様は、上述する音声合成装置であって、前記韻律記号は、アクセント位置を指定する記号と、句又はフレーズの区切りを指定する記号と、文末のイントネーションを指定する記号と、ポーズを指定する記号とのうちのいずれかを含む、ことを特徴とする。
【0010】
本発明の一態様は、上述する音声合成装置であって、発話に与える前記特徴は、感情、発話スタイル、又は、話者である、ことを特徴とする。
【0011】
本発明の一態様は、上述する音声合成装置であって、前記特徴を与える対象の発話は、前記発話スタイル記号が所定位置に付加された1以上の文の発話全体、前記発話スタイル記号に囲まれた1以上の文の発話全体、又は、前記発話スタイル記号により囲まれた1以上の文節の発話である、ことを特徴とする。
【0012】
本発明の一態様は、コンピュータを、上述したいずれかの音声合成装置として機能させるためのプログラムである。
【発明の効果】
【0013】
本発明によれば、品質の良い音声を低コストにより合成することができる。
【図面の簡単な説明】
【0014】
【
図1】本発明の第1の実施形態による音声合成装置及び従来技術による音声合成装置の概要を示す図である。
【
図2】同実施形態による音声合成装置の構成例を示す機能ブロック図である。
【
図3】同実施形態による中間言語に用いられる韻律記号を示す図である。
【
図4】同実施形態による音声合成装置の学習処理を示すフロー図である。
【
図5】同実施形態による音声合成装置の音声合成処理を示すフロー図である。
【
図6】同実施形態による音響特徴量生成モデル及び学習アルゴリズムを示す図である。
【
図7】同実施形態によるエンコーダの例を示す図である。
【
図8】同実施形態によるデコーダの例を示す図である。
【
図9】同実施形態による音響特徴量生成モデルを用いた音声合成アルゴリズムを示す図である。
【
図10】同実施形態による評価実験の結果を示す図である。
【
図11】第2の実施形態による音声合成装置の構成例を示す機能ブロック図である。
【
図12】同実施形態による音声合成装置の音声合成処理の概要を示す図である。
【
図13】同実施形態による音響特徴量生成モデル及び学習アルゴリズムを示す図である。
【
図14】同実施形態による音響特徴量生成モデルを用いた音声合成アルゴリズムを示す図である。
【
図15】同実施形態によるエンコーダの例を示す図である。
【
図16】同実施形態による評価実験の結果を示す図である。
【
図17】同実施形態による評価実験の結果を示す図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。
【0016】
[第1の実施形態]
図1は、本実施形態による音声合成装置1及び従来技術による音声合成装置9の概要を示す図である。従来技術による音声合成装置9では、第一言語処理部91が日本語の仮名漢字混じりの文の仮名(例えば、カタカナ)表記及び韻律記号を推定し、第二言語処理部92がその推定結果に音素ラベルや音素の長さ等のラベルを付与し、音素ラベルファイルを生成する。音響特徴量推定部93は、人手により修正が行われた音素ラベルファイルを用いて例えばDNN(Deep Neural Network;ディープニューラルネットワーク)により周波数波形を音響特徴量として推定し、ボコーダ部94は、推定された周波数波形から音声波形を推定する。
【0017】
一方、本実施形態の音声合成装置1は、言語処理部41と、音響特徴量推定部42と、ボコーダ部43とを備える。言語処理部41は、日本語の仮名漢字混じりの文を、仮名と韻律記号を用いた中間言語に変換する。本実施形態では、仮名としてカタカナを用いるが、ひらがなやアルファベットや発音記号を用いてもよい。また、仮名に代えて、音素を表す記号を用いることも可能である。中間言語に用いられる韻律記号は、韻律を表す文字である。音響特徴量推定部42は、中間言語が記述されたテキストデータを入力データに用いて、DNNにより音響特徴量を推定する。音響特徴量には、例えば、メルスペクトログラムが用いられる。ボコーダ部43は、WaveNetなどのDNN等を用いて、音響特徴量から音声波形を推定する。WaveNetは、例えば、参考文献1「A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior and K. Kavukcuoglu,“WaveNet: A Generative Model for Raw Audio,” arXiv:1609.03499, 2016」に記載されている。
【0018】
このように本実施形態の音声合成装置1は、音素や音素の位置等を詳しく規定したフルコンテキストラベルが不要であり、カタカナと韻律記号を表す文字により記述した中間言語のテキストデータから、DNNを用いて直接音響特徴量を生成する。よって、音響特徴量を生成するDNNの学習に用いるデータの作成が容易であり、例えば、既存の音声データを学習データとして活用しやすくなる。これにより、人的コスト及び時間的コストを低減しながら、大量のデータを用いて学習を行い、音声合成の精度を向上させることができる。
【0019】
図2は、本実施形態による音声合成装置1の構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出したものである。音声合成装置1は、記憶部20と、学習部30と、音声合成部40とを備えて構成される。
【0020】
記憶部20は、音響特徴量生成モデル20-1及び音声波形生成モデル20-2を記憶する。音響特徴量生成モデル20-1は、テキストデータを入力し、音響特徴量を表すデータを出力するDNNである。音声波形生成モデル20-2は、音響特徴量のデータを入力し、音声波形を出力するDNNである。
【0021】
学習部30は、学習データを用いて、記憶部20に記憶されている音響特徴量生成モデル20-1を更新する。学習データは、発話の音声波形を表す学習用音声データと、その発話の内容を仮名漢字混じりで記述した学習用テキストデータとの組である。学習部30は、正解音響特徴量算出部31と、モデル更新部32とを備える。
【0022】
正解音響特徴量算出部31は、学習データに含まれる学習用音声データの音声波形から音響特徴量を算出する。モデル更新部32は、正解音響特徴量算出部31が学習用音声データから算出した音響特徴量と、音声合成部40が学習データに含まれる学習用テキストデータに基づいて推定した音響特徴量との差分に基づいて、記憶部20に記憶されている音響特徴量生成モデル20-1を更新する。
【0023】
音声合成部40は、カタカナ及び韻律記号により記述された中間言語のテキストデータを入力して音響特徴量生成モデル20-1を実行し、発話内容の音声の音響特徴量を表すデータを得る。音声合成部40は、言語処理部41と、音響特徴量推定部42と、ボコーダ部43とを備える。
【0024】
言語処理部41は、仮名漢字混じり文のテキストデータを、カタカナ及び韻律記号を用いた中間言語に変換する。この変換は、形態素解析などの既存技術により行うことができる。言語処理部41は、中間言語を表すテキストデータを音響特徴量推定部42に出力する。音響特徴量推定部42は、記憶部20に記憶されている音響特徴量生成モデル20-1に、言語処理部41から入力した中間言語のテキストデータを入力することにより、中間言語により記述された発話内容の音響特徴量を推定する。ボコーダ部43は、音響特徴量推定部42が推定した音響特徴量を入力とし、記憶部20に記憶されている音声波形生成モデル20-2を用いて音声波形を生成する。
【0025】
音響特徴量生成モデル20-1の学習時、言語処理部41及び音響特徴量推定部42は、学習部30として動作する。言語処理部41は、学習データに含まれる学習用テキストデータを中間言語に変換し、音響特徴量推定部42は、この変換された中間言語を表すテキストデータを音響特徴量生成モデル20-1に入力して音響特徴量を推定し、推定結果をモデル更新部32に出力する。
【0026】
なお、音声合成装置1は、1台以上のコンピュータ装置により実現することができる。音声合成装置1が複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、記憶部20及び学習部30を1台又は複数台のサーバコンピュータにより実現し、音声合成部40をクライアント端末で実現してもよい。また、同一の機能部を複数台のコンピュータ装置により実現してもよい。
【0027】
図3は、本実施形態の中間言語に用いられる韻律記号を示す図である。
図3に示す韻律記号は、参考文献2「音声入出力方式標準化専門委員会,JEITA規格 IT-4006 日本語テキスト音声合成用記号,社団法人 電子情報技術産業協会,2010年,p.4-10」に記載の韻律記号を改変した情報である。韻律情報には、アクセント位置の指定、句・フレーズの区切り指定、文末イントネーションの指定、ポー
ズの指定などの種類がある。アクセント位置の指定には、アクセント上昇位置を表す韻律記号「’」が用いられ、韻律記号の直前のモーラにアクセント核があることを表す。アクセント位置の指定には、さらに、アクセント下降位置を表す韻律記号「_」を用いてもよい。句・フレーズの区切り指定には、アクセント句の区切りを表す韻律記号「/」、及び、フレーズの区切りを表す韻律記号「#」が用いられる。文末イントネーションの指定には、通常の文末を表す韻律記号「=」、及び、疑問の文末を表す韻律記号「?」が用いられる。ポー
ズの指定には、ポーズを表す韻律記号「$%」が用いられる。なお、句・フレーズの区切り指定については、使用しなくてもよい。
【0028】
これらの韻律記号には、便宜的に上記の記号を割り振っているが、アクセント上昇位置を表す韻律記号、アクセント下降位置を表す韻律記号、句・フレーズの区切りを表す韻律記号、フレーズの区切りを表す韻律記号、文末を表す韻律記号、疑問の文末を表す韻律記号、ポーズを表す韻律記号のそれぞれを、他の記号に置き換えて学習する事で、上記と同等の機能を持たせる事が可能である。
【0029】
図4は、音声合成装置1の学習処理を示すフロー図である。
まず、ステップS110において、音声合成装置1は、学習データを入力する。ステップS120において、正解音響特徴量算出部31は、学習データに含まれる未選択の学習用音声データを一つ選択し、選択した学習用音声データが示す音声波形から音響特徴量を算出する。ステップS130において、言語処理部41は、選択された学習用音声データの発話内容が記述された学習用テキストデータを学習データから取得して形態素解析等を行い、発話内容を表す文章を、読み仮名と韻律記号とを用いた文字列により記載した中間言語に変換する。ユーザは、必要に応じて中間言語を修正してもよい。ステップS140において、音響特徴量推定部42は、記憶部20から読み出した音響特徴量生成モデル20-1に、ステップS130において言語処理部41が生成した中間言語を表すテキストデータである中間言語データを入力して音響特徴量を推定する。
【0030】
ステップS150において、モデル更新部32は、ステップS120において正解音響特徴量算出部31が算出した音響特徴量と、ステップS140において音響特徴量推定部42が推定した音響特徴量との差分に基づいて、記憶部20に記憶されている音響特徴量生成モデル20-1を更新する。具体的には、モデル更新部32は、この誤差をMSE(最小二乗法)により算出し、算出した差分が小さくなるように、確率的勾配降下法のADAMを用いて、音響特徴量生成モデル20-1における各ユニット(ノード)への入力の重み等を更新する。MSEは、例えば、参考文献3「GitHub, Inc,[online], " Spectrogram Feature prediction network",[2018年8月24日検索],インターネット<URL:https://github.com/Rayhane-mamah/Tacotron-2/wiki/Spectrogram-Feature-prediction-network#training>」に記載されている。また、ADAMは、例えば、参考文献4「Diederik P. Kingma,Jimmy Ba,[online],2017年," ADAM: A Method for Stochastic Optimization ",arXiv:1412.6980v9,[2018年8月24日検索],インターネット<URL: https://arxiv.org/pdf/1412.6980.pdf >」に記載されている。
【0031】
ステップS160において、学習部30は、モデル更新が終了したか否かを判断する。例えば、正解音響特徴量算出部31が算出した音響特徴量と、音響特徴量推定部42が推定した音響特徴量との平均二乗誤差が所定以下となった場合にモデル更新が終了したと判断する。学習部30は、モデル更新が終了していないと判断した場合(ステップS160:NO)、ステップS120からの処理を繰り返す。そして、学習部30は、モデル更新が終了したと判断した場合(ステップS160:YES)、学習処理を終了する。
【0032】
図5は、音声合成装置1の音声合成処理を示すフロー図である。
まず、ステップS210において、音声合成部40は、発話内容を表す仮名漢字混じりの文章のテキストデータを入力する。発話内容を表す文章は、1文でもよく複数文でもよい。ステップS220において、言語処理部41は、入力されたテキストデータに形態素解析を行い、発話内容を表す文章を、読み仮名と韻律記号とを用いた文字列により記載した中間言語に変換する。ユーザは、必要に応じて中間言語を修正してもよい。
【0033】
ステップS230において、音響特徴量推定部42は、記憶部20から読み出した音響特徴量生成モデル20-1に、ステップS220において生成された中間言語を表すテキストデータである中間言語データを入力して音響特徴量を推定する。ステップS240において、ボコーダ部43は、記憶部20から読み出した音声波形生成モデル20-2に、ステップS230において生成された音響特徴量を入力し、音声波形を推定する。ボコーダ部43は、推定した音声波形を音声データにより、あるいは、スピーカーなどの音声出力部(図示せず)により出力する。
【0034】
図6は、音声合成装置1が用いる音響特徴量生成モデル及び学習アルゴリズムを示す図である。まず、音響特徴量生成モデル60について説明する。
図6に示す音響特徴量生成モデル60は、音響特徴量生成モデル20-1の一例であり、非特許文献4に示す技術を適用したDNNである。音響特徴量生成モデル60は、エンコーダ61及びデコーダ65を有する。
図7は、エンコーダ61の例を示す図であり、
図8は、デコーダ65の例を示す図である。なお、デコーダ65が有するアテンションネットワーク651ついては、
図7に記載されている。
図6~
図8を用いて、エンコーダ61及びデコーダ65について説明する。
【0035】
エンコーダ61は、CNN(Convolutional Neural Network;畳み込みニューラルネットワーク)及びRNN(Recurrent Neural Network;再帰型ニューラルネットワーク)により、入力された中間言語のテキストデータが示す文章内の発話内容に、そのテキストデータが示す文章内における当該発話内容の前後の文脈を考慮した文字列の特徴量を生成することができる。デコーダ65は、RNNにより、エンコーダ61が生成した特徴量と、過去に生成した音響特徴量とに基づいて、入力されたテキストデータが示す発話内容に対応する音声の予測の音響特徴量を1フレームずつ生成する。
【0036】
エンコーダ61は、文字列変換処理611と、畳み込みネットワーク612と、双方向LSTMネットワーク613とにより構成される。文字列変換処理611では、中間言語の記述に用いられている各文字を数値に変換し、中間言語をベクトル表現に変換する。
【0037】
畳み込みネットワーク612は、複数層(例えば、3層)の畳み込みレイヤが接続されたニューラルネットワークである。各畳み込みレイヤでは、中間言語のベクトル表現に対して、所定の文字数に相当する大きさの複数のフィルタにより畳み込み処理を行い、さらに、バッチ正規化及びReLU(Rectified Linear Units)活性化を行う。これにより、発話内容の文脈がモデル化される。例えば、3層の畳み込みレイヤのフィルタサイズは[5,0,0]、フィルタの数は512である。デコーダ65に入力する文字列の特徴量を生成するために、畳み込みネットワーク612の出力が双方向LSTMネットワーク613に入力される。双方向LSTMネットワーク613は、512ユニット(各方向に256ユニット)の単一の双方向LSTMである。双方向LSTMネットワーク613により、入力されたテキストデータに記述された文章内における前後の文脈を考慮した文字列の特徴量を生成することが可能となる。LSTMは、RNN(Recurrent Neural Network)の一つである。
【0038】
デコーダ65は、自己回帰RNNである。デコーダ65は、アテンションネットワーク651と、前処理ネットワーク652と、LSTMネットワーク653と、第一線形変換処理654と、後処理ネットワーク655と、加算処理656と、第二線形変換処理657とにより構成される。
【0039】
アテンションネットワーク651は、自己回帰RNNにアテンション機能を追加したネットワークであり、エンコーダ61からの出力全体を1フレームごとに要約した固定長のコンテキストベクトルを出力する。アテンションネットワーク651は、双方向LSTMネットワーク613からの出力(エンコーダ出力)を入力する。フレームごとに、要約を生成するためにエンコーダ出力からデータを抽出するときの重みは、エンコーダ出力におけるデータ位置に応じて異なっている。アテンションネットワーク651は、エンコーダ出力から抽出したデータに、前のデコードのタイミングで生成したコンテキストベクトルを用いて特徴を追加したデータを用いて、今回のフレームの出力となるコンテキストベクトル(アテンションネットワーク出力)を生成する。
【0040】
前処理ネットワーク652は、前回の時間ステップにおいて第一線形変換処理654が出力したデータを入力する。前処理ネットワーク652は、それぞれ256個の隠れReLUユニットからなる完全結合された複数(例えば2つ)のレイヤを含んだニューラルネットワークである。ReLUユニットからなるレイヤは、各ユニットの値がゼロよりも小さい場合はゼロを出力し、ゼロよりも大きい場合はそのままの値を出力する。LSTMネットワーク653は、1024ユニットを有する複数(例えば、2層)の一方向LSTMが結合されたニューラルネットワークであり、前処理ネットワーク652からの出力と、アテンションネットワーク651からの出力を結合したデータを入力する。フレームの音響特徴量は、前のフレームの音響特徴量の影響を受けるため、アテンションネットワーク651から出力された現在のフレームの特徴量に、前処理ネットワーク652からの出力を結合することにより、前のフレームの音響特徴量に基づく特徴を付加している。(詳細は非特許文献4を参照されたい。)
【0041】
第一線形変換処理654は、LSTMネットワーク653から出力されたデータを線形変換し、1フレーム分のメルスペクトログラムのデータであるコンテキストベクトルを生成する。第一線形変換処理654は、生成したコンテキストベクトルを、前処理ネットワーク652、後処理ネットワーク655及び加算処理656に出力する。
【0042】
後処理ネットワーク655は、複数層(例えば、5層)の畳み込みネットワークを結合したニューラルネットワークである。例えば、5層の畳み込みネットワークは、フィルタサイズが[5,0,0]、フィルタの数は1024である。各畳み込みネットワークでは、畳み込み処理及びバッチ正規化と、最後の層を除いてtanh活性化とを行う。後処理ネットワーク655からの出力は、波長変換後の全体的な品質を改善するために用いられる。加算処理656では、第一線形変換処理654が生成したコンテキストベクトルと、後処理ネットワーク655からの出力とを加算する。
【0043】
上記のスペクトログラムフレーム予測と並行して、第二線形変換処理657では、LSTMネットワーク653の出力とアテンションコンテキストとの連結をスカラに投影したのちシグモイド活性化を行って、出力シーケンスが完了したかの判定に用いるストップトークン(Stop Token)を出力する。
【0044】
続いて、学習アルゴリズムについて説明する。
図4に示す学習処理のステップS120において、正解音響特徴量算出部31は、学習用音声データA1が示す音声波形にFFT(Fast Fourier Transform:高速フーリエ変換)を行った結果にABS(絶対値算出処理)を行い、さらに、メルフィルタバンク処理を行ってMFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)を取得する。正解音響特徴量算出部31は、MFCCからメルスペクトログラムA2を音響特徴量として算出する。
【0045】
一方で、ステップS140において、音響特徴量推定部42は、学習用テキストデータから生成された中間言語データである学習用中間言語データB1を音響特徴量生成モデル60に入力し、メルスペクトログラムB2を推定結果として得る。ステップS150において、モデル更新部32は、正解音響特徴量算出部31が算出したメルスペクトログラムA2と、音響特徴量生成モデル60により推定したメルスペクトログラムB2との差分を誤差として算出する。モデル更新部32は、算出した誤差に基づいて、音響特徴量生成モデル60を更新する。
【0046】
学習部30は、複数の学習データを用いて、学習用音声データから算出したメルスペクトログラムと、学習用中間言語データから音響特徴量生成モデル60により推定したメルスペクトログラムとの差分が小さくなるように、音響特徴量生成モデル60を更新する。
【0047】
図9は、音響特徴量生成モデル60を用いた音声合成アルゴリズムを示す図である。
図5のステップS230において、音響特徴量推定部42は、仮名漢字混じりのテキストデータを基に生成された中間言語データC1を学習済みの音響特徴量生成モデル60に入力し、フレーム毎の音響特徴量であるメルスペクトログラムC2を生成し、ボコーダ部43に出力する。ステップS240において、ボコーダ部43は、記憶部20に記憶されている音声波形生成モデル20-2にフレーム毎のメルスペクトログラムC2を入力し、時間領域波形に逆変換して音声波形C3を生成する。音声波形生成モデル20-2には、例えば、多層の畳み込みネットワークを利用したWaveNetを用いる。なお、この処理には、上記以外の種類のボコーダ部を用いて実現してもよい。
【0048】
続いて、本実施形態の音声合成装置1によるメルスペクトログラムの推定精度に関する評価実験の結果について示す。評価実験には、女性ナレーター1名が発声した12,518文(18時間)の音声コーパスを使用した。音声データはサンプリング周波数22050[Hz]、16[ビット]量子化のPCM(pulse code modulation)である。音声コーパスのうち12,452文を音響特徴量生成モデルの学習に用い、残りのデータのうち無作為に抽出した10文を評価実験に用いた。学習回数は535,000回である。
【0049】
被験者への音声刺激には、4種類×10文を用いた。この4種類は、仮名及び韻律記号により記述された中間言語データを入力に用いて音声合成装置1が生成した合成音声(本実施形態)、従来技術により原音声を分析合成した音声(分析合成)、仮名のみを入力データとして音声合成装置1が生成した合成音声(仮名のみ)、及び、原音声である。
【0050】
被験者は音声研究専門家6人である。各被験者は、ヘッドホンにより各自が聞き取りやすい音量で音声刺激を聴取し、評定を行った。被験者はランダムに提示された音声刺激に対して総合的な音質に関する5段階評価を行った。被験者全員の評価結果から平均オピニオン評点(MOS)を求めた。
【0051】
図10は、評価実験の結果を示す図である。
図10では、MOS値と95%信頼区間とを示している。本実施形態の音声合成装置1により合成された音声は、原音声より劣るものの、分析合成と同程度の品質であり、仮名のみを入力データに用いるよりも高く評価された。これは、韻律記号が有効に機能したものと考えられる。
【0052】
本実施形態の音声合成装置1によれば、仮名と韻律記号とを用いて記述された中間言語のテキストデータから直接音響特徴量を生成し、また、その生成に用いられるモデルを学習できる。本実施形態では、日本語の音声表現の多様性と正確性を担保しつつ、入力に用いる文字列の種類を限定する事で、End-to-End音声合成に適した入力表現を得られる。日本語の漢字は、読み方が複数あることから、その文字列が必ずしも音声と一致しないが、本実施形態の音声合成装置1は、中間言語に仮名を用いることにより、日本語の正確性を担保しつつ自然な音声を合成でき、アクセントの位置やポーズ位置についても制御する事ができる。
【0053】
上述した実施形態では、発話内容を表す文章を当該発話内容の仮名と韻律を表す韻律記号とを用いた文字列により記述した中間言語データを言語処理部41において生成しているが、このような中間言語データを人手で生成してもよい。この場合、音声合成装置1は、言語処理部41を備えなくてもよい。
【0054】
なお、本実施形態における日本語音声合成に用いる中間言語の表記方法は、非特許文献4に記載されたエンコーダ・デコーダモデルの音声合成手法に限定せず、他のエンコーダ・デコーダモデルにも適用可能である。例えば、参考文献5「Wei Ping et al.,[online],2018年2月,"Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning", arXiv:1710.07654,インターネット<URL: https://arxiv.org/pdf/1710.07654.pdf>」に記載のエンコーダ・デコーダモデルに適用可能である。
【0055】
本実施形態の音声合成装置1では、音素や音素の位置等を詳しく規定したフルコンテキストラベルが不要であるため、学習データの作成が容易である。よって、既存の音声データを学習データとして活用しやすくなる。従来法で高品質な合成音を得るには、学習データに人手で音素区切り境界を付与するなど煩雑な作業を行う必要があったが、本実施形態では音素区切り境界の情報は必要なく、自動で読み仮名と韻律記号に対する境界が決定される。そのため、従来のようなHTS準拠フルコンテキストラベルを使用する場合と比較し、1音素あたりのコストは1/3程度に削減される。さらには、作業時間も大幅に短縮できるため、大量の学習データを作成して音響特徴量生成モデルの精度を向上させることができる。
【0056】
また、既存の表記法を活用することにより、既存のフロントエンドとの接続が容易であり、既存のシステムの利用が容易となる。また、音声合成装置1は、音素境界を事前にデータとして持っていなくても、HMM(Hidden Markov Model、隠れマルコフモデル)等による強制アライメントを実施する事なく、中間言語のみからアライメントを実施したかのように音素を学習することができる。
【0057】
[第2の実施形態]
番組制作の意図に沿った放送品質の音声合成を実現するためには、番組の演出要件に応じて発話スタイルを制御することが重要である。例えば、ニュース、スポーツ実況、ドキュメンタリーなど、番組によってそれぞれ異なる発話スタイルが求められる。本実施形態では、発話全体に与える特徴を文字列で表されるタグなどの発話スタイル記号により制御可能とする。発話全体に与える特徴は、例えば、発話スタイル(実況調、ニュース調)や、感情(悲しい、うれしいなど)、話者である。以下では、第1の実施形態との差分を中心に説明する。
【0058】
図11は、本実施形態による音声合成装置1aの構成例を示す機能ブロック図であり、本実施形態と関係する機能ブロックのみを抽出したものである。
図11において、
図2に示す第1の実施形態による音声合成装置1と同一の部分には同一の符号を付し、その説明を省略する。音声合成装置1aは、記憶部20と、学習部30と、音声合成部40aとを備えて構成される。
【0059】
音声合成部40aが、第1の実施形態の音声合成部40と異なる点は、言語処理部41に代えて言語処理部41aを備える点である。言語処理部41aは、言語処理部41と同様に仮名漢字混じり文のテキストデータを、カタカナ及び韻律記号を用いた中間言語に変換する。さらに、言語処理部41aは、カタカナ及び韻律記号を用いた中間言語に対して、発話全体に与える特徴を表す記号を付加する。以下では、発話全体に与える特徴を表す記号を「発話スタイル記号」と記載する。発話スタイル記号には、仮名(読み方を表す文字)とは異なり、かつ、韻律記号を表す文字又は文字列とも異なる文字又は文字列を使用する。
【0060】
なお、音声合成装置1aは、1台以上のコンピュータ装置により実現することができる。音声合成装置1aが複数台のコンピュータ装置により実現される場合、いずれの機能部をいずれのコンピュータ装置により実現するかは任意とすることができる。例えば、音声合成部40aをクライアント端末で実現し、記憶部20及び学習部30を1台又は複数台のサーバコンピュータにより実現してもよい。あるいは、言語処理部41aをクライアント端末で実現し、他の機能部をサーバコンピュータで実現してもよい。また、同一の機能部を複数台のコンピュータ装置により実現してもよい。また、音声合成装置1aは、図示しない表示部及び入力部を備えてもよい。
【0061】
図12は、音声合成装置1aによる音声合成処理の流れを示す図である。以下、
図11を併用して説明を続ける。テキストD1は、発話内容を表す仮名漢字混じりの文章のテキストデータであり、音声合成部40aに入力される。言語処理部41aは、テキストD1を形態素解析するなどしてテキストD2を得る。テキストD2は、第1の実施形態において用いられる中間言語であり、読み仮名と韻律記号とを用いた文字列である。テキストD2に、人手で修正を加えてもよい。続いて言語処理部41aは、テキストD2に発話スタイル記号を付加し、本実施形態における中間言語となるテキストD3を得る。
図12では、発話タグ「<tag>」を発話スタイル記号として用いている。
【0062】
発話スタイル記号「<tag>」における「tag」の部分には、発話全体に与える特徴の種類を表す文字列を使用可能である。発話スタイル記号を表す文字列の文字数を変えてもよい。例えば、発話全体に与える特徴が悲しい感情のときには「<sad>」を使用し、ニュース調のときには「<news>」を使用し、話者Aのときには「<spkerA>」を使用する。また、
図12では、発話全体に与える特徴を付与したい文を、発話スタイル記号により囲っているが、文の先頭のみに発話スタイル記号を付与してもよい。発話スタイル記号により囲む文は一文でもよく、複数文でもよい。また、文中の文節に特徴を与える場合は、特徴を与えるその文節を発話スタイル記号により囲む。このように、特徴を与える対象の発話は、発話スタイル記号が所定位置に付加された1以上の文の発話全体、発話スタイル記号に囲まれた1以上の文の発話全体、又は、発話スタイル記号により囲まれた1以上の文節の部分の発話全体とすることができる。
【0063】
ここでは、発話スタイル記号として、XML(extensible markup language)のように人間の可読性を重視した発話タグ「<tag>」を用いているが、「*」、「-」、「#」などの記号やそれらの組み合わせを用いてもよい。これらの記号は、半角でも全角でもよい。
【0064】
言語処理部41aは、例えば、スポーツ実況の文章など、所定の目的で使用される文章を自動生成する文章生成システムからテキストD1を入力してもよい。この場合、文章生成システムは、自動生成された文書を記述したテキストD1と、その文章の目的に応じた、発話全体に与える特徴を示す情報とを、言語処理部41aに入力する。
【0065】
また、発話に与える特徴をユーザが入力してもよい。この場合、表示部(図示せず)は、テキストD1又はテキストD2と、発話全体に与える特徴に対応したアイコンの一覧(各感情に対応したアイコン、各発話スタイルに対応したアイコン、各話者に対応したアイコンなど)を表示する。ユーザは、ポインティングデバイスにより、付加したい特徴を表すアイコンを選択する。言語処理部41aは、選択されたアイコンに対応した発話スタイル記号を、テキストD2に含まれる文章の前後に付加し、テキストD3を生成する。なお、ユーザは、表示されているテキストD1又はテキストD2の一部の文又は文節を入力部(図示せず)により選択するようにしてもよい。言語処理部41aは、選択された文又は文節に対応した、テキストD2の部分の前後に発話スタイル記号を付加する。言語処理部41aは、生成したテキストD3を音響特徴量推定部42に出力する。
【0066】
あるいは、ユーザは、発話スタイル記号を手動で入力してもよい。具体的には、ユーザは、表示部(図示せず)に表示されているテキストD2に対し、マウス等のポインティングデバイスにより発話スタイル記号の入力位置を指定する。さらに、ユーザは、キーボードなどにより、発話全体に与える特徴に応じた発話スタイル記号を入力する。
【0067】
音響特徴量推定部42及びボコーダ部43は、第1の実施形態と同様の処理を行う。すなわち、音響特徴量推定部42は、非特許文献4、参考文献5に記載の技術等を用い、RNNのSeq2Seq(エンコーダ・デコーダモデル)とエンコーダの出力に対して重み付けを行うための重み(アテンション)を生成するアテンションネットワークとにより音響特徴量を推定する。エンコーダは、中間言語で記述された文字列であるテキストD3をベクトル化してエンコードを行う。デコーダは、エンコーダの出力に重み付けを行い、自己回帰RNNによりメルスペクトログラムの音響特徴量を生成する。ボコーダ部43は、参考文献1に記載の技術等を用いて、音響特徴量から音声波形を推定する。
【0068】
韻律記号を用いることにより、韻律(アクセントの高低)、文末の上がり下がり、ポーズなど局所的な音響的特徴が制御可能である。一方、発話スタイル記号を用いることにより、音声合成における、発話全体や一部の口調や調子、感情、話者をコントロール可能である。発話スタイル記号を用いた中間言語により、実況調やニュース調などの番組演出に対応した音声を、少量の学習データによりモデル学習できる。また、音声合成装置1aは、複数の特徴を単一の音響特徴量生成モデル20-1により学習させてもよい。この場合、音声合成装置1aは、学習させた音響特徴量生成モデル20-1を用いて、学習に用いた特徴を有する音声を合成することができる。
【0069】
音声合成装置1aの学習処理は、
図4のフロー図が示す第1の実施形態とステップS130の処理を除いて同様である。ステップS130において、音声合成装置1aの言語処理部41aは、第1の実施形態の言語処理部41と同様に学習用テキストデータを読み仮名と韻律記号とを用いた文字列に変換する。言語処理部41aは、変換後の文字列に、学習用音声データの発話に与える特徴を表す発話スタイル記号を付加して中間言語を生成する。
【0070】
図13は、音声合成装置1aの学習アルゴリズムを示す図である。音声合成装置1aは、第1の実施形態の音響特徴量生成モデル60の構成を変化させることなく、発話スタイル記号を学習用中間言語データに設定するのみでスタイル制御を可能とする。例えば、悲しい音声ばかりの音声コーパスを音響特徴量生成モデル60の学習に用いる。この音声コーパスに含まれる各音声のデータを、学習用音声データA4とする。音声合成装置1aの言語処理部41aは、学習用音声データA4の発話内容を形態素解析し、形態素解析の結果を、悲しい感情を表す発話タグ「<sad>」で囲って学習用中間言語データB4を生成する。音声合成装置1aは、音声コーパスから得られた学習用音声データA4と、この学習用音声データA4の発話内容から生成された学習用中間言語データB4との対を学習データに用いて、音響特徴量生成モデル60の学習を行う。また、音声合成装置1aは、例えば話者Aの音声を、発話タグ「<spkerA>」を用いて学習し、話者Bの音声を、発話タグ「<spkerB>」を用いて学習する。音声合成装置1aの学習アルゴリズムは、学習用音声データA1と学習用中間言語データB1の対に代えて、学習用音声データA4と学習用中間言語データB4の対を用いること以外は、
図6に示す第1の実施形態による音声合成装置1の学習アルゴリズムと同様である。
【0071】
音声合成装置1aの音声合成処理は、
図5のフロー図が示す第1の実施形態とステップS220の処理を除いて同様である。ステップS220において、言語処理部41aは、発話内容を表す仮名漢字混じりの文章のテキストデータを、第1の実施形態の言語処理部41と同様に読み仮名と韻律記号とを用いた文字列に変換する。言語処理部41aは、変換された文字列に、所望の発話スタイルを表す発話スタイル記号を付加した中間言語を生成する。
【0072】
図14は、音声合成装置1aの音響特徴量生成モデル60を用いた音声合成アルゴリズムを示す図である。
図14に示す音声合成アルゴリズムが、
図9に示す第1の実施形態の音声合成アルゴリズムと異なる点は、中間言語データC1に代えて、中間言語データC4が入力される点である。中間言語データC4は、発話タグ(発話スタイル記号)、韻律記号及びカタカナを用いて記述される。中間言語データC4が入力される点以外については、
図14に示す音声合成アルゴリズムは、
図9に示す第1の実施形態の音声合成アルゴリズムと同様である。音響特徴量生成モデル60は、
図13に示す学習アルゴリズムにより学習されたモデルである。
【0073】
図15は、本実施形態のエンコーダ61の例を示す図である。エンコーダ61へ入力される中間言語データは、学習処理の場合は
図13において入力される学習用中間言語データB4に対応し、音声合成処理の場合は
図14において入力される中間言語データC4に対応する。文字列変換処理611では、中間言語の記述に用いられている各文字や記号を数値に変換し、中間言語をベクトル表現に変換する。例えば、文字列変換処理611では、発話タグ「<tag>」の部分を、「<」、「t」、「a」、「g」、「>」それぞれを表す値に変換する。文字列変換処理611以降は、
図7に示す第1の実施形態のエンコーダ61と同様である。また、本実施形態のデコーダ65は、
図8に示す第1の実施形態と同様である。
【0074】
上述したように、エンコーダ61の構造には、第1の実施形態からの変更はない。しかしながら、文字列変換処理611によりベクトル表現に変換された中間言語の発話スタイル記号(発話タグ)は、畳み込みネットワーク612において近くに位置する文字列と畳み込まれる。さらに、双方向LSTMネットワーク613において、発話スタイル記号は、発話全体に影響を及ぼす。このため、アテンションネットワーク651において、エンコーダ61からの出力を受ける層は、発話スタイル制御を受け付けることになる。アテンションネットワーク651の構造も、第1の実施形態からの変化はない。そして、デコーダ65が、RNNにより音響特徴量を推定するときには、中間言語データに記述された発話スタイル記号に応じた特色がある音声コーパスと同じ特徴を持った音声、具体的には「<sad>」の音声コーパスのように悲しい感情の音声の特徴を持った音声や、「<spkerA>」の音声コーパスのように話者Aの音声の特徴を持った音声を再現可能となる。
【0075】
上記のように、エンコーダ61は、双方向LSTMネットワーク613を用いているため、本実施形態では、発話スタイル記号を、韻律記号及びカタカナで記述された文章の前後に配置している。
【0076】
上述した実施形態では、中間言語データを言語処理部41aにおいて生成しているが、中間言語データを人手により生成するか、中間言語データを音声合成装置1aの外部の装置により生成して音声合成装置1aに入力してもよい。この場合、音声合成装置1aは、言語処理部41aを備えなくてもよい。
【0077】
続いて、本実施形態の音声合成装置1aによる評価実験の結果について示す。評価実験には、女性ナレーター1名が発声した12,518文(18時間)の音声コーパスを使用した。この音声コーパスに含まれる音声データの分類は、スポーツ実況(以下、「実況」と記載)が2,596文(3時間40分)、悲哀が633文(50分)、通常読み上げ(以下、「平静」と記載)が9,222文(13時間)である。音声データは、サンプリング周波数22,050[Hz]、16[ビット]量子化のPCMである。音響特徴量生成モデル60には非特許文献4の技術を用い、ボコーダ部43には、参考文献1に記載の技術を用いた。モデル学習処理及び音声合成処理において使用したメルスペクトログラムは、それぞれ80[次元]、窓関数は1,024[point]、フレームシフトは11.6[ms]である。
【0078】
音響特徴量生成モデル60の学習には、前述の女性ナレーターの音声コーパスに含まれる音声データである学習用音声データA4と、この音声コーパスの仮名漢字混じり文から作成された学習用中間言語データB4とを対にした学習データを用いた。実験で用いた学習用中間言語データB4は、音声コーパスの仮名漢字混じり文を言語解析して求められた仮名及び韻律記号に対して人手で修正を行い、発話スタイル記号を付加して生成したものである。学習回数は310,000回である。また、ボコーダ部43の学習には、12,451文(18時間)の音声データから算出したメルスペクトログラムを直接用いた。学習回数は1,220,000回である。
【0079】
評価実験では、音声コーパスには含まれていない10文の仮名及び韻律記号に、実況、平静、悲哀の3種類の発話スタイル記号を付加して中間言語データを生成した。これら生成された中間言語データを使用して音響特徴量推定部42が推定したメルスペクトログラムをボコーダ部43に入力することによって、30個の音声を合成した。これら合成された音声(以下、「発話スタイル付き合成音声」とも記載)の音量を平均ラウドネス値に基づいて調整したものを音声刺激として使用した。実験は防音室において、ヘッドホン受聴にて各被験者が聞きやすい音量で行った。被験者は13人である。実験は防音室において、ヘッドホン受聴にて各被験者が聞きやすい音量で行った。被験者はランダムに提示された音声刺激に対して評定を行った。
【0080】
図16は、本実施形態により合成した発話スタイル付き合成音声に対する発話スタイルの再現性の評価結果として得られた5段階評価のDMOS値(Degradation Mean Opinion Score)と95%信頼区間を示す図である。DMOSについては、例えば、参考文献6「日本電信電話株式会社,[online],"音声品質評価法 3.音声品質の主観評価法 3.2.DMOS(Degradation Mean Opinion Score)",インターネット<URL: http://www.ntt.co.jp/qos/technology/sound/03_2.html>」に記載されている。この発話スタイルが再現されているかの実験では、リファレンス音声(発話付きスタイル収録音声)と、本実施形態の音声合成装置1aが音声合成した評価対象音声(発話スタイル付き合成音声)とを連続で再生し、それらの発話スタイル(悲しい口調か実況のような口調か)の類似性を5段階評価で評定し、その平均値をまとめた。実況、平静、悲哀の3種類の発話スタイルについて各文を5回評定するために、音声コーパスには含まれていない10文のそれぞれに対して5種類のリファレンス音声を用意した。そして、30個の発話スタイル付き合成音声それぞれに、5種類のリファレンス音声を組み合わせることにより、被験者1人当たり合計150回分の音声刺激を評価に用いた。被験者は音声刺激に対して発話スタイルの類似性に関する5段階評価を行った。
図16に示すように、各発話スタイルとも、高い再現性が得られたが、実況が有意に高く評価された。悲哀と平静の間に有意な差はなかった。実況は話速が早く、明瞭な発話の特徴が、平静や悲哀の発話よりもわかりやすい。これを精度よく再現できたことが理由と考えられる。
【0081】
図17は、本実施形態により合成した発話スタイル付き合成音声に対する発話スタイルの自然性評価として得られたMOS値と95%信頼区間を示す図である。被験者は13人である。実況、平静、悲哀の3種類の発話スタイルについて10文ずつ、合計30文の音声刺激を評価に用いた。被験者は、1音声刺激について5回ずつ、一人当たり合計150回の自然性に関する5段階評価を行った。
図17に示すように、自然性は平静、実況、悲哀の順に高く評価された。これは、各発話スタイルの音声コーパスのデータ量が評価結果に影響したものと考えられる。
【0082】
第1の実施形態では、韻律という局所的な音響特徴量の制御を実現しており、日本語における、読み仮名以外のアクセントによる音響的な特徴を記号により再現する。本実施形態では、音声発話の「全体的」な音響特徴量の制御を実現しており、発話全体にわたる特徴の再現を可能とする。
【0083】
本実施形態の音声合成装置1aによれば、学習用テキストデータ、音声合成を行う際に入力するテキストデータ共に、簡易な表記法により、合成される音声の感情、発話スタイル、話者の制御が可能である。
【0084】
本実施形態は、日本語だけではなく、他の言語にも適用することができる。この場合、日本語の仮名に代えて、その言語の読み方を表す文字又は文字列を用いる。また、本実施形態では、日本語の音声合成を行うために、読み方を表す文字として仮名を用い、さらに、韻律記号を用いているが、英語などの他の言語には、単語の綴り(文字列)自体が読み方と韻律記号を兼ねる場合がある。このような言語の場合は、読み方を表す文字又は文字列と、発話全体に与える特徴を表す文字又は文字列とを用いて発話内容を表す文章を記述した中間言語のテキストデータを音響特徴量推定部42に入力すればよい。
【0085】
また、仮名と発話スタイル記号とを含み、韻律記号を含まないテキストデータを音響特徴量推定部42に入力してもよい。このような中間言語を用いることにより、単語レベルの局所的な特徴については精度が低下するものの、発話に与える特徴については精度よく制御することできる。
【0086】
従来は、発話に与える特徴別に音響特徴量生成モデルを組み替えたり、発話に与える特徴に応じた切り替えを制御するための入力をエンコーダに与えたりしなければならなかった。本実施形態の音声合成装置1aによれば、発話スタイル記号が記述された中間言語を用いて、一つの音響特徴量生成モデルにより複数の特徴(感情、発話スタイル、話者)の音声を学習し、学習時に用いた発話スタイル記号が表す特徴を有する任意の発話内容の音声を合成することができる。
【0087】
なお、上述の音声合成装置1、1aは、内部にコンピュータシステムを有している。そして、音声合成装置1、1aの動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPU及び各種メモリやOS、周辺機器等のハードウェアを含むものである。
【0088】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0089】
1、1a…音声合成装置
20…記憶部
20-1…音響特徴量生成モデル
20-2…音声波形生成モデル
30…学習部
31…正解音響特徴量算出部
32…モデル更新部
40、40a…音声合成部
41、41a…言語処理部
42…音響特徴量推定部
43…ボコーダ部
60…音響特徴量生成モデル