(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024132588
(43)【公開日】2024-10-01
(54)【発明の名称】音声合成装置、予測装置、音声合成システム、音声合成方法及びプログラム
(51)【国際特許分類】
G10L 13/08 20130101AFI20240920BHJP
G10L 13/06 20130101ALI20240920BHJP
【FI】
G10L13/08 122
G10L13/08 124
G10L13/06 200
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2023043422
(22)【出願日】2023-03-17
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和4年3月18日に「コーネル大学ウェブサイト」https://arxiv.org/abs/2203.09961にて発表 令和4年6月にThe 13th Conference on Language Resources and Evaluation(LREC 2022)にてUSBメモリを配布 令和4年6月にThe 13th Conference on Language Resources and Evaluation(LREC 2022)にて発表 令和4年6月にthe 13th Conference on Language Resources and Evaluation(LREC 2022)の論文集にて発表 令和4年6月にThe 13th Conference on Language Resources and Evaluation(LREC 2022)ウェブサイトにてビデオを公開 令和4年6月にThe 13th Conference on Language Resources and Evaluation(LREC 2022)ウェブサイトにて資料を公開 令和4年8月31日に日本音響学会第148回(2022季)研究発表会予稿集にて発表 令和4年9月16日に日本音響学会第148回(2022年秋季)研究発表会にて発表 令和4年10月18日にコーネル大学ウェブサイト」https://arxiv.org/abs/2210.09815にて発表 令和5年1月26日に修士論文審査会にて発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和2年度 国立研究開発法人科学技術振興機構、ムーンショット型研究開発事業「誰もが自在に活躍できるアバター共生社会の実現」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(71)【出願人】
【識別番号】504137912
【氏名又は名称】国立大学法人 東京大学
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】高道 慎之介
(72)【発明者】
【氏名】松永 裕太
(72)【発明者】
【氏名】佐伯 高明
(72)【発明者】
【氏名】猿渡 洋
(57)【要約】
【課題】非流暢性を含む合成音声の人間らしさを向上すること。
【解決手段】音声合成装置は、フィラー部分を含む第1のテキストに関する情報を取得する取得部と、前記第1のテキストに含まれる第1の言語部分に対応する音声と前記フィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第1のテキストに対応する音声を合成する音声合成部と、を備える。
【選択図】
図5
【特許請求の範囲】
【請求項1】
フィラー部分を含む第1のテキストに関する情報を取得する取得部と、
前記第1のテキストに含まれる第1の言語部分に対応する音声と前記フィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第1のテキストに対応する音声を合成する音声合成部と、
を備える音声合成装置。
【請求項2】
前記第1の言語部分に対応する音声と、前記第2の言語部分に対応する音声との間の一貫性を保証する損失を用いて、前記音声合成モデルの学習を行う学習部、
を更に備える請求項1記載の音声合成装置。
【請求項3】
前記学習部は、真のフィラー部分を含む第3のテキストに含まれる第3の言語部分に関する第1の損失と、疑似フィラー部分を含む第4のテキストに含まれる第4の言語部分に関する第2の損失と、を算出し、前記第1の損失と前記第2の損失とに基づいて前記一貫性を保証する前記損失を算出する、
を更に備える請求項2記載の音声合成装置。
【請求項4】
前記音声合成モデルは、前記第3のテキストと前記第3のテキストに対応する音声とのペアを用いて事前学習されたモデルを教師モデルとする生徒モデルであり、
前記学習部は、前記真のフィラー部分と第3の言語部分とを含む前記第3のテキストに関する情報を前記生徒モデルに入力して得られる前記第3の言語部分の中間表現と、前記第3の言語部分に関する情報を前記教師モデルに入力して得られる中間表現と、の間の距離に基づいて、前記第1の損失を算出する、
請求項3記載の音声合成装置。
【請求項5】
前記学習部は、前記疑似フィラー部分と第4の言語部分とを含む前記第4のテキストに関する情報を前記生徒モデルに入力して得られる前記第4の言語部分の中間表現と、前記第4の言語部分に関する情報を前記教師モデルに入力して得られる中間表現と、の間の距離に基づいて、前記第2の損失を算出する、
請求項4記載の音声合成装置。
【請求項6】
話者又は前記話者が属するグループに依存する予測モデルを用いて、前記第4のテキスト内の前記疑似フィラー部分の位置及びワードを予測する予測部
を更に備える請求項5記載の音声合成装置。
【請求項7】
フィラー部分を含まない第2のテキストに関する情報を取得する取得部と、
話者又は前記話者が属するグループに依存する予測モデルに基づいて、前記第2のテキストに対して挿入される前記フィラー部分の位置及びワードを予測する予測部と、
予測された前記位置及び前記ワードのフィラー部分を含む第1のテキストに関する情報を出力する出力部と、
を備える予測装置。
【請求項8】
複数の話者の話者データに含まれる前記フィラー部分の位置及びワードの少なくとも一つに基づいて前記複数の話者を複数のグループにグループ化するグループ化部と、
前記複数のグループそれぞれに対応する複数の予測モデルを記憶する記憶部と、
前記複数の予測モデルの中から、前記フィラー部分の位置及びワードの少なくとも一つに関する前記話者の傾向に基づいて前記話者が属するグループの前記予測モデルを選択する選択部、
を更に備える請求項7に記載の予測装置。
【請求項9】
請求項1から請求項6のいずれか記載の音声合成装置と、請求項7又は請求項8記載の予測装置と、を含む音声合成システムであって、
前記音声合成装置の前記取得部は、前記予測装置の前記出力部から出力された前記フィラー部分を含む前記第1のテキストに関する情報を取得する、
音声合成システム。
【請求項10】
音声合成装置が、
フィラー部分を含む第1のテキストに関する情報を取得する工程と、
前記第1のテキストに含まれる第1の言語部分に対応する音声と前記フィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第1のテキストに対応する音声を合成する工程と、
を有する音声合成方法。
【請求項11】
予測装置が、
フィラー部分を含まない第2のテキストに関する情報を取得する工程と、
話者又は前記話者が属するグループに依存する予測モデルに基づいて、前記第2のテキストに対して挿入される前記フィラー部分の位置及びワードを予測する工程と、
予測された前記位置及び前記ワードのフィラー部分を含む第1のテキストに関する情報を出力する工程と、
を有する音声合成方法。
【請求項12】
コンピュータを、
フィラー部分を含む第1のテキストに関する情報を取得する取得部と、
前記第1のテキストに含まれる第1の言語部分に対応する音声と前記フィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第1のテキストに対応する音声を合成する音声合成部と、
して機能させるためのプログラム。
【請求項13】
コンピュータを、
フィラー部分を含まない第2のテキストに関する情報を取得する取得部と、
話者又は前記話者が属するグループに依存する予測モデルに基づいて、前記第2のテキストに対して挿入される前記フィラー部分の位置及びワードを予測する予測部と、
予測された前記位置及び前記ワードのフィラー部分を含む第1のテキストに関する情報を出力する出力部と、
して機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成装置、予測装置、音声合成システム、音声合成方法及びプログラムに関する。
【背景技術】
【0002】
従来、テキストから人間のような自然な音声を人工的に合成するテキスト音声合成(TTS)が知られている(例えば、非特許文献1)。深層学習を用いたTTSの発展により、読み上げ音声については、人間に近い自然な音声の合成が可能となっている(例えば、非特許文献2)。また、非個人性化(Non-personalized)モデルを用いて、流暢なテキストから非流暢性(disfluency)(例えば、フィラー)を含むテキストを生成する技術も知られている(例えば、非特許文献3)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Y. Sagisaka, “Speech synthesis by rule using an optimal selection of non-uniform synthesis units,” in Proc. ICASSP, Apr. 1988, pp. 679-682.
【非特許文献2】J. Shen et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” in Proc. ICASSP, Apr. 2018, pp. 4779-4783.
【非特許文献3】Yamazaki et al., “Filter prediction based on bidirectional lstm for generation of natural response of spoken dialog” in Proc. GCCE, pages 360-361.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、以上の従来技術では、非流暢性を含む合成音声(例えば、フィラーを含む自発音声等)の人間らしさを実現するには至っていない。例えば、上記非特許文献3により生成された非流暢性を含むテキストから音声を合成しても、非流暢性の個人性の欠如する結果、非流暢性を含む合成音声の人間らしさを十分に実現できない恐れがある。また、非流暢性を含むテキストから音声を合成する場合、当該テキスト内の言語部分の合成音声の品質が低下する結果、非流暢性を含む合成音声の人間らしさを十分に実現できない恐れがある。
【0005】
そこで、本開示は、非流暢性を含む合成音声の人間らしさを向上可能な音声合成装置、予測装置、音声合成システム、音声合成方法及びプログラムを提供することを目的の一つとする。
【課題を解決するための手段】
【0006】
本開示の一態様に係る音声合成装置は、フィラー部分を含む第1のテキストに関する情報を取得する取得部と、前記第1のテキストに含まれる第1の言語部分に対応する音声と前記フィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第1のテキストに対応する音声を合成する音声合成部と、を備える。
【0007】
本開示の一態様に係る予測装置は、フィラー部分を含まない第2のテキストに関する情報を取得する取得部と、話者又は前記話者が属するグループに依存する予測モデルに基づいて、前記第2のテキストに対して挿入される前記フィラー部分の位置及びワードを予測する予測部と、予測された前記位置及び前記ワードのフィラー部分を含む第1のテキストに関する情報を出力する出力部と、を備える。
【0008】
本開示の一態様に係る音声合成システムは、前記フィラー部分を含まない第2のテキストに関する情報を取得する取得部と、話者又は前記話者が属するグループに依存する予測モデルに基づいて、前記第2のテキストに対して挿入される前記フィラー部分の位置及びワードを予測する予測部と、予測された前記位置及び前記ワードのフィラー部分を含む前記第1のテキストに関する情報を出力する出力部と、を備える予測装置と、前記第1のテキストに関する情報を取得する取得部と、前記第1のテキストに含まれる第1の言語部分に対応する音声と前記フィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデルに基づいて、前記第1のテキストに対応する音声を合成する音声合成部と、を備える音声合成装置と、を備える。
【発明の効果】
【0009】
本開示の一態様によれば、非流暢性を含む合成音声の人間らしさを向上できる。
【図面の簡単な説明】
【0010】
【
図1】本実施形態に係る自発音声合成モデルの概要を示す図である。
【
図2】本実施形態に係る予測モデル1の概念図である。
【
図3】本実施形態に係るグループに依存する予測モデル1の一例を示す図である。
【
図4】本実施形態に係るグループ化の一例を示す図である。
【
図5】本実施形態に係る音声合成モデル2の一例を示す図である。
【
図6】本実施形態に係る音声合成モデル2の品質改善に向けた事前調査の一例を示す図である。
【
図7】本実施形態に係る音声合成モデル2の一貫性保証学習の一例を示す図である。
【
図8】本実施形態に係る音声合成システムを構成する装置の物理構成の一例を示す図である。
【
図9】本実施形態に係る予測装置10の機能構成の一例を示す図である。
【
図10】本実施形態に係る音声合成装置20の機能構成の一例を示す図である。
【
図11】本実施形態に係るグループ依存の予測モデル1を用いた予測装置10及び従来例に係る装置による予測精度の評価の結果を示す図である。
【
図12】本実施形態に係る音声合成モデル2を用いた音声合成装置20及び従来例に係る装置による合成音声の評価の結果を示す図である。
【
図13】本実施形態に係る音声合成システムの動作の一例を示すフローチャートである。
【発明を実施するための形態】
【0011】
添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。以下では、非流暢性を含む音声との一例として自発音声を挙げるが、これに限られないことは勿論である。また、非流暢性の一例としてフィラーに着目するが、これに限られず、フィラーは非流暢性を形成する他の要素に変換可能である。
【0012】
また、複数のテキストの識別のために「第1」~「第4」を便宜上付与したが、これらは時系列の順番や、当該複数のテキストの数等を示すものではなく、当該複数のテキストを識別できる限り「第1」~「第4」の標記が入れ替えられてもよいし、「第1」~「第4」が省略されてもよい。言語部分に付された「第1」~「第4」についても同様である。
【0013】
(自発音声合成モデル)
図1は、本実施形態に係る自発音声合成モデルの概要を示す図である。
図1に示すように、本実施形態に係る自発音声合成モデルは、フィラー部分を含まない第2のテキストにフィラー部分を挿入する予測モデル1と、フィラー部分を含む第1のテキストに基づいてフィラー部分を含む音声を合成する音声合成モデル2と、を含むモデルである。なお、フィラー部分は、一以上の連続又は不連続のフィラーを含む。
【0014】
例えば、
図1では、フィラー部分を含まない第2のテキスト(例えば、「I’ll explain the theory」)に関する情報(以下、「第2のテキスト情報」という)が予測モデル1に入力される。第2のテキスト情報は、第2のテキスト自体であってもよいし、第2のテキストから生成されるワード表現であってもよい。ワード表現とは、テキスト内の各ワード(例えば、「I’ll」、「explain」、「the」、「theory」)のベクトル又は特徴量等であってもよい。なお、ワードは、形態素又は音素等と言い換えられてもよい。
【0015】
予測モデル1では、当該ワード表現に基づいて、当該テキストに挿入されるフィラー部分の位置及びワードが予測される。具体的には、予測モデル1では、第2のテキスト内のどのワード間の境界(以下、「ワード境界」という)にフィラー用のワード(以下、「フィラーワード」)を挿入するかと、挿入されるフィラーワードと、が予測される。フィラーワードは、例えば、えー(ee)、え(e)、ま(ma)、あの(ano)、あのー(anoo)、まー(maa)、えーと(eeto)、あ(a)、あー(aa)、ん(n)、んー(nn)、えっと(etto)、あーのー(aanoo)等である。
【0016】
例えば、
図1では、当該第2のテキストの「the」と「theory」との間にワード境界にフィラーワード「uh」が挿入されると予測される。予測モデル1からは、予測された位置にフィラーワードが挿入された第1のテキスト(例えば、「I’ll explain the uh theory」)に関する情報(以下、「第1のテキスト情報」という)が出力される。第1のテキスト情報は、当該第1のテキスト自体であってもよいし、第1のテキストに対応するワード表現であってもよい。
【0017】
なお、図示しないが、予測モデル1は、一以上のモジュールを有してもよい。例えば、予測モデル1は、フィラー部分を含まない第2のテキストからワード表現を生成するワード埋め込み(word embedding)用のモジュールと、第2のテキストに挿入されるフィラー部分の位置及びワードを予測する予測モデル用のモジュールとを含んでもよい。
【0018】
予測モデル1から出力された第1のテキスト「I’ll explain the uh theory」は音声合成モデル2に入力される。第1のテキストは音素に分割され、各音素は、各音素がフィラーであるか否かを示す情報(以下、「フィラータグ」という)とともに、音声合成モデル2に入力されてもよい。音声合成モデル2では、各音素の特徴量が抽出され、当該特徴量に基づいて音声パラメータが生成されてもよい。当該音声パラメータは、例えば、メルスペクトログラム(Mel-spectrogram)又はメル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient:MFCC)であってもよい。
【0019】
なお、図示しないが、音声合成モデル2は、一以上のモジュールを有してもよい。例えば、音声合成モデル2は、各音素の特徴量を抽出するエンコーダ(encoder)、当該特徴量から音声パラメータを生成するデコーダ(decoder)を含んでもよい。また、音声合成モデル2は、エンコーダ及びデコーダに加えて、ピッチを予測するモジュール(以下、「ピッチプレディクター(pitch predictor)」という)、期間を予測するモジュール(以下、「期間プレディクター(duration predictor)」という)及びエネルギーを予測するモジュール(以下、「エネルギープレディクター(energy predictor)」という)の少なくとも一つを含んでもよい。各モジュールからの出力は中間表現(intermediate representation)と呼ばれてもよい。例えば、音声合成モデル2としてseq2seqのFastSpeech2を用いる場合、音声合成モデル2は、エンコーダ、ピッチプレディクター、期間プレディクター、エネルギープレディクター及びデコーダを含んでもよい。
【0020】
図1に示す自発音声合成モデルによると、予測モデル1を用いた言語的なフィラー予測によりフィラー部分を含まない第2のテキストからフィラー部分を含む第1のテキストが生成される。また、音声合成モデル2を用いた音声言語的なフィラー挿入により、当該第1のテキストからフィラー部分を含む音声が生成される。予測モデル1と音声合成モデル2との双方を用いることにより、言語的なフィラー予測の精度及び音声言語的なフィラー挿入の精度のそれぞれを、言語的なデータおよび音声言語的なデータを用いて向上できるので、非流暢性を含む合成音声の人間らしさを向上できる。
【0021】
(予測モデル)
図2~4を参照し、本実施形態に係る予測モデル1について説明する。予測モデル1は、話者(speaker)又は話者が属するグループに依存するモデルであってもよい。
【0022】
図2は、本実施形態に係る予測モデル1の概念図である。
図2(a)に示すように、フィラー部分を含まない第2のテキストに対してフィラー部分を挿入する際に、話者又はグループに依存しない予測モデル1を用いると、話者に関係なく、同一の位置に同一のフィラーワードが挿入されたテキスト(例えば、「I’ll explain (uh) FP prediction」)が生成されてしまう恐れがある。
【0023】
一方、
図2(b)に示すように、フィラー部分を含まない第2のテキストに対してフィラー部分を挿入する際に、話者又はグループに依存する予測モデル1を用いると、話者又はグループに基づいて決定された位置にフィラーワードが挿入された第1のテキストを生成できる。例えば、
図2(b)では、ある話者に対しては、「I’ll」と「explain」との間のワード境界にフィラーワード「uh」が挿入された「I’ll (uh) explain FP prediction」が第1のテキストとして予測モデル1から出力される。一方、他の話者に対しては、「explain」と「FP」との間のワード境界に他のフィラーワード「um」が挿入された「I’ll explain (um) FP prediction」が第1のテキストとして予測モデル1から出力される。
【0024】
図3は、本実施形態に係るグループに依存する予測モデル1の一例を示す図である。
図3では、2つのグループが示されるが、グループの数は2以上であってもよい。
図3に示すように、複数の話者の話者データは、フィラーの使用(usage)(例えば、使用するフィラーワード、及び、当該フィラーワードの位置の少なくとも一つ)の傾向に基づいて、グループ化されてもよい。
【0025】
予測モデル1は多話者データで学習した非個人モデルを各グループの話者データを用いて再学習することで、グループ依存の予測モデル1を学習してもよい。当該非個人モデルは、例えば、多話者のフィラーの注釈付きコーパス(filler annotated corpus)で事前学習されたものであってもよい。
【0026】
図3に示すように、フィラー部分を含まない第2のテキストが入力されると、第2のテキストの話者の属するグループに対応する予測モデル1を用いて、フィラー部分を含む第1のテキスト(例えば、「I’ll explain (uh) FP prediction」)が生成される。グループ依存の予測モデル1では、話者依存の予測モデル1と比較して各話者の自発音声データを多く準備する必要がなく、学習に要する時間も軽減できる。
【0027】
図4は、本実施形態に係るグループ化の一例を示す図である。例えば、
図4(a)に示すように、各話者によるフィラーワードの使用傾向として各フィラーワードの使用率を導出し、当該使用率をクラスタリングして、各話者をグループ化してもよい。当該使用率は、例えば、各話者のフィラーワードの総数及び各フィラーワードの数の比であってもよい。
図4(a)では、13種類のフィラーワードの使用率をクラスタリングすることにより、各フィラーワードの使用率に応じた4グループ(クラスタ(cluster))が形成される。
【0028】
また、
図4(b)に示すように、フィラーワードが挿入される位置の傾向(以下、「位置的傾向」という)を導出し、当該位置的傾向をクラスタリングして、各話者をグループ化してもよい。当該位置は、例えば、息継ぎグループの境界、息継ぎグループの途中及び文の最後の4種類であるが、これに限られない。例えば、
図4(b)では、文の最初、息継ぎグループの境界、息継ぎグループの途中及び文の最後のそれぞれの割合に応じた4グループ(クラスタ)が形成される。
【0029】
以上のように、フィラーワードの使用及び位置の少なくとも一つに関する傾向に基づいて話者がグループ化され、グループ毎に予測モデル1の学習が行われるので、当該予測モデル1を用いた予測によると、話者が属するグループに応じて挿入するフィラーワード及びフィラーワードの挿入位置の少なくとも一つを調整できる。したがって、フィラーの個人性を再現でき、非流暢性の個人性が欠如する従来のモデルと比べて、非流暢性を含む合成音声の人間らしさを向上できる。
【0030】
(音声合成モデル)
図5~7を参照し、本実施形態に係る音声合成モデル2について説明する。フィラー部分を含む音声を合成する既存のモデルによると、フィラー部分以外の言語部分の合成音声の品質が劣化する恐れがある。そこで、音声合成モデル2は、フィラー部分を含む合成音声とフィラー部分を含まない合成音声とにおいて、言語部分の一貫性(consistency)を保証するように学習される。
【0031】
図5は、本実施形態に係る音声合成モデル2の一例を示す図である。
図5には、フィラー部分を含む第1のテキストからフィラー部分を含む音声を合成する音声合成モデル2と、フィラー部分を含まない第2のテキストからフィラー部分を含まない音声を合成する音声合成モデル2aとが示される。第1のテキストと第2のテキストとは、フィラー部分の有無以外は同じテキストである。音声合成モデル2は、フィラー部分を含む音声の言語部分(フィラー部分以外の部分)が、事前学習済みの音声合成モデル2aによるフィラー部分を含まない音声の言語部分に類似するように学習される。
【0032】
図5に示すように、音声合成モデル2に入力されたフィラー部分を含む第1のテキスト(例えば、「I’ll explain (uh) FP prediction」)は各ワードに分割され、エンコーダ21により各ワードの特徴量が抽出され、当該特徴量に基づいて言語部分の中間表現L1~L4とフィラー部分の中間表現Fが生成される。同様に、音声合成モデル2aに入力されたフィラー部分を含まない第2のテキスト(例えば、「I’ll explain FP prediction」)はワードに分割され、エンコーダ21aにより各ワードから特徴量が抽出され、当該特徴量に基づいて言語部分の中間表現L1a~L4aが生成される。なお、フィラー部分を含む第1のテキストは、例えば、予測モデル1を用いて予測されたものであってもよいし、大規模データ(例えば、多話者のフィラーの注釈付きコーパス)で学習されたモデルを用いて予測されたものであってもよいし、又は、ランダムにフィラー部分が挿入されたテキスト等であってもよく、フィラー部分を含めばどのような方法で生成されたものでもよい。
【0033】
音声合成モデル2は、フィラー部分を含む第1のテキストから生成される言語部分の中間表現L1~L4と、フィラー部分を含まない第2のテキストから生成される言語部分の中間表現L1a~L4aと、の一貫性が保証されるように学習される。デコーダ22は、言語部分の中間表現L1~L4と、フィラー部分の中間表現Fに基づいて音声パラメータを生成し、出力する。なお、言語部分の一貫性を保証するとは、フィラー部分を含む第1のテキストの合成音声のうち言語部分(フィラー部分以外の部分)の合成音声と、フィラー部分を含まない第2のテキストの合成音声とが類似することをいう。ここで、2つの音声が類似するとは、2つの音声の所定の特徴量が類似することを含む。
【0034】
<事前調査>
図6は、本実施形態に係る音声合成モデル2の品質改善に向けた事前調査の一例を示す図である。
図6では、音声合成モデル2が有するモジュールとして、エンコーダ21、ピッチプレディクター23、エナジープレディクター24を示すが、図示する少なくとも一部のモジュールを含まなくともよいし、不図示のモジュールを含んでもよい。
【0035】
図6では、音声合成モデル2のどのモジュールでフィラー挿入による影響が生じているかの調査方法が示される。フィラーは間を埋めるための音声であり、フィラー部分以外の言語部分の音声は、フィラーの有無に依存する可能性が低いと予想される。そこで、言語部分の中間表現(すなわち、音声合成モデル2の各モジュールの出力)はあまり変わらないと仮定する。これを検証するために、フィラー部分を含むテキストとフィラー部分を含まないテキストをそれぞれ所定のモデル(例えば、FastSpeech)に入力した時の言語部分の中間表現を比較する。
【0036】
図6に示すように、音声合成モデル2の各モジュールにより出力された中間表現を比較する。ここで、後段のモジュールは前段のモジュールの中間表現の影響を累積して受けるため、各モジュールにより出力された中間表現を比較するだけでは、当該モジュールの影響のみを評価できない。そこで、フィラー部分を含む第1のテキストから推論される直前段のモジュールの中間表現を、フィラー部分を含まない第2のテキストから推論される中間表現に置換する。
【0037】
例えば、
図6では、フィラー部分を含む第1のテキストの言語部分L1~L3とフィラー部分Fが音声合成モデル2のエンコーダ21に入力されるとともに、当該第1のテキストからフィラー部分を除いた言語部分L1~L3が音声合成モデル2aのエンコーダ21aに入力される。ピッチプレディクター23による影響を評価する場合、エンコーダ21から出力された言語部分の中間表現L1
1~L3
1をエンコーダ21aから出力された言語部分の中間表現L1
1~L3
1に置き換える。言語部分の中間表現L1
1~L3
1及びフィラー部分の中間表現F
1をピッチプレディクター23に入力して得られる言語部分の中間表現L1
2~L3
2と、言語部分の中間表現L1
1~L3
1のみをピッチプレディクター23aに入力して得られる言語部分の中間表現L1
2~L3
2とを比較することにより、フィラー部分Fがピッチプレディクター23に与える影響を調査できる。
【0038】
このように、音声合成モデル2内のi(i=2、3…)番目のモジュールが与える影響を調査する場合、音声合成モデル2にはJ個の言語部分Lj(j=1~J、例えば、
図6では、J=3)及びフィラー部分Fを含むテキストを入力する一方、音声合成モデル2aにはフィラー部分を除いた言語部分Ljのみを入力する。そして、音声合成モデル2aのi-1番目のモジュールから出力された言語部分の中間表現Lj
i-1をコピーして、音声合成モデル2のi-1番目のモジュールから出力されたフィラー部分Fと一緒に、音声合成モデル2のi番目のモジュールに入力する。音声合成モデル2のi番目のモジュールから出力された言語部分の中間表現Lj
iと音声合成モデル2aのi番目のモジュールから出力された言語部分の中間表現Lj
iとを比較することで、音声合成モデル2のi番目のモジュールにおいてフィラー部分Fが言語部分の中間表現Lj
iに与える影響を調査できる。
【0039】
以上の事前調査により、フィラー部分を含む第1のテキストが入力される音声合成モデル2のどのモジュールにおいてフィラー部分が言語部分の音声に影響を与えるかを確認できる。
【0040】
<一貫性保証学習>
一貫性保証学習では、フィラー部分を含む第1のテキストに含まれる第1の言語部分に対応する音声とフィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように、音声合成モデル2が学習されてもよい。
【0041】
具体的には、まず、上記第1のテキストとして真のフィラー部分を含む第3のテキストを用い、当該第3のテキスト内の第3の言語部分と、真のフィラー部分を含まない第2のテキストの第2の言語部分との一貫性が保証されるように、音声合成モデル2の学習が行われてもよい。真のフィラー部分とは、話者が実際に使用したフィラーであるGT(Ground Truth)フィラーの部分である。
【0042】
次に、上記第1のテキストとして疑似(pseudo)フィラー部分を含む第4のテキストを用い、当該第4のテキスト内の第4の言語部分と、疑似フィラー部分を含まない第2のテキストの言語部分との一貫性が保証されるように、音声合成モデル2の学習が行われてもよい。疑似フィラー部分とは、例えば、予測モデル1を用いて予測されたフィラー部分や、フィラー部分を含まない第2のテキストにランダムに挿入されるフィラー部分や、大規模データ(例えば、多話者のフィラーの注釈付きコーパス)で事前学習されたモデルを用いて予測されたフィラー部分等、話者が実際に使用していない疑似的なフィラー部分である。
【0043】
図7は、本実施形態に係る音声合成モデル2の一貫性保証学習の一例を示す図である。当該一貫性保証学習では、フィラー部分を含む第1のテキストとフィラー部分を含まない第2のテキストの間における言語部分の一貫性を保証する損失(以下、「一貫性損失」という)を導入する。当該一貫性損失Lは、例えば、以下の式(1)で示される。ここで、一貫性損失とは、フィラー部分を含む第1のテキスト内の言語部分の中間表現とフィラー部分を含まない第2のテキスト内の言語部分の中間表現との差分であってもよい。なお、当該フィラー部分を含む第1のテキストは、真のフィラー部分を含む第3のテキスト又は疑似フィラー部分を含む第4のテキストであってもよい。一般性損失は、フィラー部分の挿入によって言語部分の合成音声の品質を変化させない(フィラー部分を挿入しても言語部分の合成音声の品質を維持する)ための損失関数である。また、上記一貫性損失とは別に、例えば、ピッチロス(Pitch loss)、エナジーロス(Energy loss)、期間ロス(Duration loss)及びメルロス(Mel-spectrogram loss)等の合成音声を目標とする人間の音声に近づけるための損失関数が入力されてもよい。
(式1)
L=L
TTS+α(L
GT-FP+βL
Pseudo-FP)
ここで、L
TTSは、音声合成モデル2の学習に用いられる損失である。L
GT-FPは、真のフィラー部分を含む第3のテキストの言語部分の一貫性損失である。L
Pseudo-FPは、疑似フィラー部分を含む第4のテキストの言語部分の一貫性損失である。α及びβは、それぞれ、一貫性損失の重みを制御するパラメータであり、それぞれ、真のフィラー部分の一貫性損失に対する疑似フィラー部分の一貫性損失の比であってもよい。
【0044】
≪真のフィラー部分を含む場合の一貫性保証学習≫
音声合成モデル2は、教師モデル2tを知識蒸留することにより得られる生徒モデル2sであってもよい。具体的には、教師モデル2tは、フィラー部分を含む音声データ(例えば、自発音声データ)を用いて事前学習される。教師モデル2tを用いて固定されたパラメータを用いて生徒モデル2sが学習される。
【0045】
真のフィラー部分を含む第3のテキストを用いた一貫性保証学習では、
図7に示すように、真のフィラー部分を含む第3のテキストが生徒モデル2sに入力され、当該第3のテキストから真のフィラー部分が除去された第2のテキストが教師モデル2tに入力される。
【0046】
次に、生徒モデル2sにおける第3のテキストの言語部分の中間表現Lj
i(j=1~J)と、教師モデル2tにおける第2のテキストの言語部分の中間表現Lj
i´との距離が、真のフィラー部分の一貫性損失L
GT-FPとして算出される。なお、
図7では、第1及び第2のテキストには2個の言語部分が含まれるのでJ=2であり、教師モデル2t及び生徒モデル2sはそれぞれ5個のモジュール21~25及び21´~25´を含むので、i=1~4である。
【0047】
一貫性損失L
GT-FPの算出には、教師モデル2t及び生徒モデル2sに含まれるどのモジュールから出力された言語部分の中間表現の比較結果が用いられてもよい。例えば、
図7では、生徒モデル2sのエナジープレディクター24から出力される言語部分の中間表現Lj
3(j=1、2)と、教師モデル2tのエナジープレディクター24´から出力されある言語部分の中間表現Lj
3´(j=1、2)の比較結果に基づいて、一貫性損失L
GT-FPが算出されるものとするが、これに限られない。上記事前調査により、影響が大きいと判断されるモジュールの中間表現の比較結果を用いて一貫性損失L
GT-FPが算出されてもよい。
【0048】
また、生徒モデル2s及び教師モデル2tの各々に含まれる複数のモジュールから出力された言語部分の中間表現の比較結果に基づいて、一貫性損失LGT-FPが算出されてもよい。例えば、エナジープレディクター24から出力される言語部分の中間表現Lj3(j=1、2)と、エナジープレディクター24´から出力される言語部分の中間表現Lj3´(j=1、2)の比較結果と、期間プレディクター25から出力される言語部分の中間表現Lj4(j=1~4)と、期間プレディクター25´から出力される言語部分の中間表現Lj4´(j=1~4)の比較結果とに基づいて、一貫性損失LGT-FPが算出されてもよい。
【0049】
≪疑似フィラー部分を含む場合の一貫性保証学習≫
次に、上記真のフィラー部分を含む第3のテキストを用いた一貫性保証学習を、疑似フィラー部分を含む第4のテキストを用いた一貫性保証学習に拡張する。以下では、真のフィラー部分を含む第3のテキストを用いた一貫性保証学習との相違点を中心に説明し、同様の説明は繰り返さない。
【0050】
図7に示すように、フィラー部分を含まない第2のテキストを予測モデル1に入力することで、疑似フィラー部分を含む第4のテキストが生成される。なお、予測モデル1は、上記話者又はグループベースの予測モデルであってもよいし、単に、確率的にサンプルフィラーを挿入するモデルであってもよい。また、疑似フィラー部分を含む第4のテキストとしては、予測モデル1の代わりに、単に、ランダムにフィラーが挿入された第4のテキストが用いられてもよい。
【0051】
生徒モデル2sには、上記疑似フィラー部分を含む第4のテキストが入力される。生徒モデル2sにおける第4のテキストの言語部分の中間表現Lji(j=1~J)と、教師モデル2tにおける第2のテキストの言語部分の中間表現Lji´(j=1~J)と、の距離が、疑似フィラー部分の一貫性損失LPseudo-FPとして算出される。一貫性損失LPseudo-FPの算出には、一貫性損失LGT-FPと同様に、教師モデル2t及び生徒モデル2sに含まれる少なくとも一つのモジュールから出力された言語部分の中間表現の比較結果が用いられればよい。
【0052】
以上のように算出される当該疑似フィラー部分の一貫性損失LPseudo-FPと真のフィラー部分の一貫性損失LGT-FPとに基づいて、上記式1に示されるように、一貫性損失Lが導出される。音声合成モデル2のパラメータは、当該一貫性損失Lを最小化するように設定される。
【0053】
以上の一貫性保証学習によると、真のフィラー部分だけでなく疑似フィラー部分を含む音声の合成にも頑健なモデルを構築するため、真のフィラー部分を含む合成音声だけでなく、疑似フィラー部分を含む合成音声に対しても一貫性保証を導入できる。
【0054】
以上のように、当該音声合成モデル2は、フィラー部分を含む第1のテキストに含まれる言語部分に対応する音声と、フィラー部分を含まない第2のテキストに含まれる言語部分に対応する音声との一貫性が保証されるように学習される。このため、フィラー部分を含む第1のテキストを音声合成する場合に、当該第1のテキストに含まれる言語部分の音声品質の低下を防止できる。この結果、非流暢性を含む合成音声の人間らしさを向上できる。
【0055】
(構成)
次に、上記予測モデル1及び音声合成モデル2の少なくとも一つを実装する音声合成システムの構成について説明する。以下では、予測モデル1を実装する装置を予測装置10、音声合成モデル2を実装する装置を音声合成装置20と呼ぶが、予測装置10及び音声合成装置20は、別体の装置に限られず、1つの装置として構成されてもよい。また、予測装置10は、一つの装置に限られず、複数の装置を組み合わせて構成されてもよい。同様に、音声合成装置20は、一つの装置に限られず、複数の装置を組み合わせて構成されてもよい。また、予測装置10及び音声合成装置20の少なくとも一方は、スマートフォン、タブレット等の端末に搭載されるプログラム等として実現されてもよい。
【0056】
<物理構成>
図8は、本実施形態に係る音声合成システムを構成する装置の物理構成の一例を示す図である。
図8に示すように、予測装置10及び音声合成装置20の少なくとも一方としての装置は、演算部に相当するプロセッサ10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read Only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、音声入力部10gと、音声出力部10hと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、
図8で示す構成は一例であり、各装置はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。
【0057】
プロセッサ10aは、例えば、CPU(Central Processing Unit)である。プロセッサ10aは、RAM10b又はROM10cに記憶されているプログラムを実行することにより、当該装置の各種処理を制御する制御部である。プロセッサ10aは、当該装置が備える他の構成と、プログラムとの協働により、当該装置の機能を実現し、処理の実行を制御する。プロセッサ10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。
【0058】
RAM10b及びROM10cは、各種処理に必要なデータ及び処理結果のデータを記憶する記憶部である。各装置は、RAM10b及びROM10c以外に、ハードディスクドライブ等の大容量の記憶部を備えてもよい。RAM10b及びROM10cは、例えば、半導体記憶素子で構成されてもよい。
【0059】
通信部10dは、当該装置を他の機器に接続するインターフェースである。通信部10dは、他の機器と通信する。入力部10eは、ユーザからデータの入力を受け付けるためのデバイスや、各装置の外部からデータを入力するためのデバイスである。入力部10eは、例えば、キーボード、マウス及びタッチパネル等を含んでよい。表示部10fは、プロセッサ10aによる制御に従って、情報を表示するデバイスである。表示部10fは、例えば、LCD(Liquid Crystal Display)により構成されてよい。音声入力部10gは、音声を収音するデバイスであり、例えば、マイクである。音声出力部10hは、音声を出力するデバイスであり、例えば、スピーカーである。
【0060】
当該装置を実行させるためのプログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続されるネットワークを介して提供されてもよい。各装置では、プロセッサ10aが当該プログラムを実行することにより、各装置を制御するための様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、各装置は、プロセッサ10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。
【0061】
<機能構成>
図9は、本実施形態に係る予測装置10の機能構成の一例を示す図である。
図9に示すように、予測装置10は、記憶部101、取得部102、選択部103、予測部104、出力部105、グループ化部106及び学習部107を備える。なお、予測装置10は、
図9に示す全ての構成を備えていなくともよく一部の構成(例えば、グループ化部106)を含んでいなくともよいし、不図示の構成を含んでもよい。
【0062】
記憶部101は、上記予測モデル1と、上記予測モデル1の学習用データD1を記憶する。学習用データD1は、例えば、各話者のフィラー部分を含む第1のテキストと、当該フィラー部分を含まない第2のテキストと、のペアであってもよい。なお、
図1では、記憶部101は、グループ毎に予測モデル1を記憶するが、これに限られず、話者毎に予測モデル1を記憶してもよい。同様に、記憶部101は、グループ毎に学習用データD1を記憶するが、これに限られず、話者毎に学習用データD1を記憶してもよい。
【0063】
取得部102は、フィラー部分を含まない第2のテキストに関する第2のテキスト情報を取得する。
【0064】
選択部103は、記憶部101に記憶された複数のグループにそれぞれ対応する複数の予測モデル1の中から、フィラー部分の位置及びワードの少なくとも一つに関する話者の傾向に基づいて話者が属するグループを決定し、当該グループに対応する予測モデルを選択してもよい。当該話者の傾向は、例えば、取得部102によって取得されるフィラー部分を含まないテキスト情報によって推定されてもよい。
【0065】
予測部104は、話者又は話者が属するグループの予測モデルに基づいて、フィラー部分を含まない第2のテキストに対して挿入されるフィラー部分の位置及びフィラーワードを予測する。具体的には、予測部104は、選択部103によって選択された予測モデル1に取得部102によって取得された第2のテキスト情報を入力して、予測された位置及びフィラーワードのフィラー部分を含む第1のテキスト情報を生成してもよい。
【0066】
出力部105は、予測部104によって予測された位置及びフィラーワードのフィラー部分を含む第1のテキスト情報を出力する。
【0067】
グループ化部106は、複数の話者の話者データに含まれるフィラー部分の位置及びフィラーワードの少なくとも一つに基づいて当該複数の話者を複数のグループにグループ化する。グループ化部106は、当該話者データを当該複数の話者がそれぞれ属するグループ毎に学習用データD1として記憶部101に記憶させてもよい。
【0068】
学習部107は、予測モデル1の学習処理を行う。学習部107は、複数のグループそれぞれの学習用データD1を用いて、当該複数のグループそれぞれに対応する複数の予測モデル1を学習してもよい。例えば、学習部107は、多話者のフィラーの注釈付き自発音声コーパスで予測モデル1の事前学習を行った予測モデル1を各グループの学習用データD1を用いて学習し、各グループに対応する予測モデル1を生成してもよい。
【0069】
図10は、本実施形態に係る音声合成装置20の機能構成の一例を示す図である。
図10に示すように、音声合成装置20は、記憶部201、取得部202、音声合成部203、出力部204、学習部205及び予測部206を備える。なお、音声合成装置20は、
図10に示す全ての構成を備えていなくともよく一部の構成(例えば、予測部206)を含んでいなくともよいし、不図示の構成を含んでもよい。
【0070】
記憶部201は、上記音声合成モデル2と、上記音声合成モデル2の学習用データD2を記憶する。学習用データD2は、各話者のフィラー部分を含む第1のテキスト情報と、当該フィラー部分を含む音声と、のペアであってもよい。また、記憶部201は、上記予測モデル1を記憶してもよい。
【0071】
取得部202は、フィラー部分を含む第1のテキスト情報を取得する。取得部202は、予測装置10の出力部105から出力された第1のテキスト情報を取得してもよいが、これに限られない。取得部202は、フィラー部分を含む第1のテキスト情報を取得しさえすれば、その取得元は限定されない。
【0072】
音声合成部203は、取得部202によって取得された第1のテキスト情報が示す第1のテキストに含まれる第1の言語部分に対応する音声と上記フィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデル2に基づいて、前記第1のテキストに対応する音声を合成する。
【0073】
出力部204は、音声合成部203によって合成された音声を出力する。
【0074】
学習部205は、上記第1の言語部分に対応する音声と、上記第2の言語部分に対応する音声との間の一貫性を保証する一貫性損失を用いて、音声合成モデル2の学習を行う。具体的には、学習部205は、当該一貫性損失を最小化するように、音声合成モデル2のパラメータを設定してもよい。
【0075】
学習部205は、音声合成モデル2の学習に用いられる一貫性損失を算出する。具体的には、学習部205は、真のフィラー部分を含む第3のテキストに含まれる第3の言語部分に関する一貫性損失LGT-FP(第1の損失)と、疑似フィラー部分を含む第4のテキストに含まれる第4の言語部分に関する一貫性損失LPseudo-FP(第2の損失)とを算出し、当該一貫性損失LGT-FP及び一貫性損失LPseudo-FPに基づいて、一貫性損失Lを算出してもよい。例えば、学習部205は、該一貫性損失LGT-FP及び一貫性損失LPseudo-FPに基づく式1が示すLを、一貫性損失として算出してもよい。
【0076】
図7を用いて説明したように、音声合成モデル2は、真のフィラー部分を含む第3のテキストと当該第3のテキストに対応する音声とのペアを用いて事前学習されたモデルを教師モデル2tとする生徒モデル2sであってもよい。
【0077】
上記真のフィラー部分を含む場合の一貫性保証学習においては、学習部205は、真のフィラー部分と第3の言語部分とを含む第3のテキストに関する情報を生徒モデル2sに入力して得られる第3の言語部分の中間表現Lj
iと、当該第3の言語部分に関する情報を教師モデル2tに入力して得られる中間表現Lj
i´と、の間の距離に基づいて、上記損失L
GT-FPを算出してもよい。なお、
図7では、中間表現Lj
iと中間表現Lj
i´において、j=1,2、i=1~4である。
【0078】
また、上記疑似フィラー部分を含む場合の一貫性保証学習においては、学習部205は、疑似フィラー部分と第4の言語部分とを含む第4のテキストに関する情報を生徒モデル2sに入力して得られる第4の言語部分の中間表現Ljiと、第4の言語部分に関する情報を教師モデル2tに入力して得られる中間表現Lji´と、の間の距離に基づいて、上記損失LPseudo-FPを算出してもよい。
【0079】
予測部206は、予測モデル1を用いて、上記疑似フィラー部分を含む第4のテキストに関する情報を生成する。具体的には、当該第4のテキスト内の疑似フィラー部分の位置及びワードを予測する。
【0080】
(評価)
図11は、本実施形態に係るグループ依存の予測モデル1を用いた予測装置10及び従来例に係る装置による予測精度の評価の結果を示す図である。
図11に示すように、フィラーワード(word)に基づくグループに依存する予測モデル1、及び、フィラー部分の位置(position)に基づくグループに依存する予測モデル1の双方において、非個人性化(Non-personalized)モデルよりも高いFスコアを示している。したがって、話者のグループに対応する予測モデル1を用いることにより、フィラー部分の予測性能を向上できる。
【0081】
図12は、本実施形態に係る音声合成モデル2を用いた音声合成装置20及び従来例に係る装置による合成音声の評価の結果を示す図である。
図12に示すように、フィラー部分を含む第1のテキストに含まれる第1の言語部分に対応する音声とフィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデル2(Proposed)は、従来例(Baseline)と比較して、真のフィラー部分(TrueFP)を含む音声及び疑似フィラー部分(PseudoFP)を含む音声の双方において、自然性が向上した。したがって、音声合成モデル2を用いることにより、非流暢性を含む合成音声の人間らしさの実現に寄与できる。
【0082】
(動作)
図13は、本実施形態に係る音声合成システムの動作の一例を示すフローチャートである。なお、
図13では、話者が属するグループに依存する予測モデル1を用いるものとするが、話者に依存する予測モデル1や、話者又は当該グループに依存しない予測モデル1を利用できることは勿論である。また、以下のステップS101~S106の全てが実施されなくともよく、一部のみ(例えば、予測装置10主体のステップS101~S103、又は、音声合成装置20主体のステップS104~S106等)が実施されてもよい。
【0083】
予測装置10は、予測装置10がフィラー部分を含まない第2のテキストに関する情報(第2のテキスト情報)を取得する(ステップS101)。
【0084】
予測装置10は、話者が属するグループに依存する予測モデル1に基づいて、ステップS101で取得された情報が示す第2のテキストに対して、挿入されるフィラー部分の位置及びフィラーワードを予測する(ステップS102)。
【0085】
予測装置10は、ステップS102で予測された位置及びフィラーワードのフィラー部分を含む第1のテキストに関する情報(第1のテキスト情報)を出力する(ステップS103)。
【0086】
音声合成装置20は、フィラー部分を含む第1のテキストに関する情報(第1のテキスト情報)を取得する(ステップS104)。ここでは、音声合成装置20は、ステップS103で予測装置10から出力された情報を取得するものとするが、これに限られない。例えば、音声合成装置20は、「第1のテキスト情報」として、真のフィラー部分を含む第3のテキストに関する情報を取得することもできるし、疑似フィラー部分を含む第4のテキストに関する情報を取得してもよい。
【0087】
音声合成装置20は、第1のテキストに含まれる第1の言語部分に対応する音声とフィラー部分を含まない第2のテキストに含まれる第2の言語部分に対応する音声との一貫性が保証されるように学習される音声合成モデル2に基づいて、フィラー部分を含む第1のテキストに対応する音声を合成する(ステップS105)。
【0088】
音声合成装置20は、ステップS105において合成された音声を出力する(ステップS106)。
【0089】
以上のように、本実施形態に係る音声合成システムによれば、従来装置に比べて、非流暢性を含む合成音声の人間らしさを向上できる。具体的には、フィラーワードの使用及び位置の少なくとも一つに関する傾向に基づいて話者がグループ化され、グループ毎に予測モデル1の学習が行われるので、当該予測モデル1を用いた予測によると、話者が属するグループに応じて挿入するフィラーワード及びフィラーワードの挿入位置の少なくとも一つを調整できる。したがって、フィラーの個人性を再現でき、非流暢性の個人性が欠如する従来のモデルと比べて、非流暢性を含む合成音声の人間らしさを向上できる。
【0090】
また、音声合成モデル2は、フィラー部分を含む第1のテキストに含まれる言語部分に対応する音声と、フィラー部分を含まない第2のテキストに含まれる言語部分に対応する音声との一貫性が保証されるように学習される。このため、フィラー部分を含む第1のテキストを音声合成する場合に、当該第1のテキストに含まれる言語部分の音声品質の低下を防止できる。この結果、非流暢性を含む合成音声の人間らしさを向上できる。
【0091】
(その他の実施形態)
上記実施形態では、予測モデル1は、話者又は当該グループに依存しないモデルであるものとしたが、音声合成装置20で用いられる予測モデル1は、これに限られず、話者又は当該グループに依存しないモデルであってもよい。
【0092】
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
【符号の説明】
【0093】
1…予測モデル、2、2a…音声合成モデル、2s…生徒モデル、2t…教師モデル、10…予測装置、20…音声合成装置、21、21a、21´…エンコーダ、22、22a、22´…デコーダ、23、23a…ピッチプレディクター、24、24a、24´…エナジープレディクター、25、25a、25´…期間プレディクター、10a…プロセッサ、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、10g…音声入力部、10h…音声出力部、101…記憶部、102…取得部、103…選択部、104…予測部、105…出力部、106…グループ化部、107…学習部、201…記憶部、202…取得部、203…音声合成部、204…出力部、205…学習部、206…予測部