(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-23
(45)【発行日】2023-08-31
(54)【発明の名称】音声合成装置
(51)【国際特許分類】
G10L 13/06 20130101AFI20230824BHJP
G10L 25/30 20130101ALI20230824BHJP
【FI】
G10L13/06 120Z
G10L25/30
(21)【出願番号】P 2019149823
(22)【出願日】2019-08-19
【審査請求日】2022-06-01
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「声のアイデンティティのモデル化に関する論理的統合」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】504202472
【氏名又は名称】大学共同利用機関法人情報・システム研究機構
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】安田 裕介
(72)【発明者】
【氏名】加藤 集平
(72)【発明者】
【氏名】山岸 順一
【審査官】中村 天真
(56)【参考文献】
【文献】特表2021-511533(JP,A)
【文献】特開2019-120841(JP,A)
【文献】岡本拓磨ほか,“基本周波波とメルケプストラムを用いたリアルタイムニューラルボコーダに関する検討”,日本音響学会講演論文集,2019年03月,p.1057-1060
【文献】Xiaolian ZHU et al.,“Pre-Alignment Guided Attention for Improving Training Efficiency and Model Stability in End-to-End Speech Synthesis”,IEEE Access,2019年04月,Vol. 7,p.65955-65964
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 25/30
G06N 3/02-3/10
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
エンコーダニューラルネットワークによってテキスト系列から言語特徴量を生成するエンコーダと、
デコーダニューラルネットワークによって前記言語特徴量から音声系列を生成するデコーダと、
を有し、
前記デコーダは、
第1のデコーダニューラルネットワークによって前記言語特徴量から
現在の状態に留まるか又は次の状態に遷移するかに関する遷移確率を予測する遷移確率予測部と、
第2のデコーダニューラルネットワークによって前記言語特徴量から音響特徴量の出力確率を予測する出力確率予測部と、
前記遷移確率と前記出力確率とを掛け合わせた同時確率に基づき前記音声系列を連続時系列として生成する音声系列生成部と、
を有し、
前記第2のデコーダニューラルネットワークは、ジャコビアンが存在する可逆なニューラルネットワークであり、
前記出力確率予測部は、前記第2のデコーダニューラルネットワークによって周波数スペクトル
を低次元化
し、周波数スペクトルの次元間の相関を無相関化する音声合成装置。
【請求項2】
前記第2のデコーダニューラルネットワークは、Glow(Generative Flow)構造を有する、請求項1記載の音声合成装置。
【請求項3】
前記第1のデコーダニューラルネットワークは、SSNT(Segment to Segment Neural Transduction)ベースアライメント機構を有し、
前記遷移確率予測部は、前記第1のデコーダニューラルネットワークによって、現在の状態に留まるか、又は次の状態に遷移するかに関する前記遷移確率を予測する、請求項1又は2記載の音声合成装置。
【請求項4】
前記デコーダニューラルネットワークは、再帰構造を有し、前記言語特徴量と過去の音声系列とから生成された中間表現を前記遷移確率予測部と前記出力確率予測部とに入力し、
前記第1のデコーダニューラルネットワーク
は、前記中間表現から前記遷移確率を予測し、
前記第2のデコーダニューラルネットワー
クは、前記中間表現か
ら前記音響特徴量
の出力確率を予測する、請求項1乃至3何れか一項記載の音声合成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に音声合成技術に関し、より詳細には、ニューラルネットワークを利用したエンコーダ-デコーダ型音声合成技術に関する。
【背景技術】
【0002】
従来の音声合成では、テキスト解析処理、音韻継続長決定(アライメント)処理、音響処理、ボコーダ処理などの個別の各処理をパイプライン処理として実行することによって、テキスト入力から音声出力が生成される。例えば、
図1に示されるように、変換対象のテキスト系列が入力されると、言語モデルが当該テキスト系列を言語特徴量に変換し、次に、アライメントモデルが当該言語特徴量をアライメントされた言語特徴量に変換する。さらに、音響モデルが当該アライメントされた言語特徴量を音響特徴量に変換し、最終的に、ボコーダが当該音響特徴量から音声系列を出力する。しかしながら、上述したような従来の音声合成では、前段の処理におけるエラーが後段の処理に増幅し、音声合成の品質を劣化させるという問題がある。
【0003】
一方、近年の深層学習の進展によって、ニューラルネットワークを利用した音声合成システムの研究開発が進められている。従来の音声合成における問題を解消するため、例えば、End-to-Endタイプのエンコーダ-デコーダ型の音声合成に関する研究開発が盛んにされている。典型的なエンコーダ-デコーダ型の音声合成では、従来の音声合成におけるテキスト解析処理、アライメント処理、音響処理及びボコーダ処理の個別処理がニューラルネットワークによって実現される。例えば、
図2に示されるように、テキスト解析処理、アライメント処理、音響処理及びボコーダ処理はそれぞれ、エンコーダニューラルネットワーク、アテンション機構、デコーダニューラルネットワーク及びボコーダニューラルネットワークによって実現される。
【0004】
ここで、アテンション機構は、テキスト入力の各文字又は音素と音声との時間的対応関係を示すアライメントを決定するニューラルネットワークにより実現される。例えば、アテンション機構は、
図3の上側に示されるようなテキスト入力の各音素と音声出力との時間的対応関係を決定する。例えば、50番目の音素は、100~125番目の時間フレームにおいて出力されるようアテンション機構によって決定される。図示された具体例では、各音素と時間フレームとの対応付けにグレースケールにより示される確率が関連付けされている。このようにして、アテンション機構によってアライメントが予測されると、
図3の下側に示されるように、テキスト入力に対応する音声出力の周波数表現を予測することができる。
【先行技術文献】
【非特許文献】
【0005】
【文献】Jose Sotelo, Soroush Mehri, Kundan Kumar, Joao Felipe Santos, Kyle Kastner, Aaron Courville, Yoshua Bengio, "Char2Wav: End-to-End Speech Synthesis", ICLR 2017 (https://openreview.net/forum?id=B1VWyySKx).
【文献】Yuxuan Wang, R. J. Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J. Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc V. Le, Yannis Agiomyrgiannakis, Rob Clark, Rif A. Saurous, "Tacotron: Towards End-to-End Speech Synthesis", INTERSPEECH 2017: 4006-4010 (https://arxiv.org/abs/1703.10135).
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述したアテンション機構の学習は容易でなく失敗するケースもある。すなわち、テキスト入力と対応する音声出力との対応位置は、基本的には時間の経過に従って前進する一方、アテンション機構では、各時点でテキスト入力のどの部分を発話するかについて任意の確率が割り当てられるというフレキシブルな構成となっている。このようなフレキシビリティのため、確率分布が不明瞭になったり、単調増加にならなかったりすることがあり、これらの場合、例えば、言いよどみ、読み飛ばし、読み戻し、遅すぎる又は早すぎる読み終わりが発生するなど、アテンション機構の学習は失敗する。
【0007】
例えば、言いよどみでは、
図4(a)に示されるように、複数の入力部分が同時に発話される。読み飛ばしでは、
図4(b)に示されるように、垂直方向に関するギャップ部分がアライメントに出現し、発話されない入力部分が発生する。読み戻しでは、
図4(c)に示されるように、既に発話された入力部分が再度発話される。早すぎる読み終わりでは、
図4(d)の左側に示されるように、時間軸の途中で入力系列の全てが発話されてしまい、遅すぎる読み終わりでは、
図4(d)の右側に示されるように、最終時間フレームまでに全ての入力系列の発話が完了しない。
【0008】
上述した問題点を鑑み、本発明の課題は、エンコーダ-デコーダ型音声合成に適したアライメント技術を提供することである。
【課題を解決するための手段】
【0009】
上記課題を解決するため、本発明の一態様は、エンコーダニューラルネットワークによってテキスト系列から言語特徴量を生成するエンコーダと、デコーダニューラルネットワークによって前記言語特徴量から音声系列を生成するデコーダと、を有し、前記デコーダは、第1のデコーダニューラルネットワークによって前記言語特徴量から遷移確率を予測する遷移確率予測部と、第2のデコーダニューラルネットワークによって前記言語特徴量から音響特徴量の出力確率を予測する出力確率予測部と、前記遷移確率と前記出力確率とを掛け合わせた同時確率に基づき前記音声系列を連続時系列として生成する音声系列生成部と、を有し、前記第2のデコーダニューラルネットワークは、ジャコビアンが存在する可逆なニューラルネットワークであり、前記出力確率予測部は、前記第2のデコーダニューラルネットワークによって周波数スペクトルを無相関化及び低次元化する音声合成装置に関する。
【発明の効果】
【0010】
本発明によると、エンコーダ-デコーダ型音声合成に適したアライメント技術を提供することができる。
【図面の簡単な説明】
【0011】
【
図2】End-to-Endエンコーダ-デコーダ型音声合成処理を示す概略図である。
【
図3】アテンション機構によるテキスト入力と音声出力との間のアライメントを示す図である。
【
図4】アテンション機構による各種失敗例を示す図である。
【
図5】本発明の一実施例による音声合成装置の機能構成を示すブロック図である。
【
図6】本発明の一実施例による音声合成装置のハードウェア構成を示すブロック図である。
【
図7】本発明の一実施例によるエンコーダニューラルネットワークのアーキテクチャを示す図である。
【
図8】本発明の一実施例によるSSNTによるアライメントを示す概略図である。
【
図9】本発明の一実施例による音声合成装置のアーキテクチャを示す図である。
【
図10】本発明の一実施例による音声合成装置の学習時のデータフローを示す概略図である。
【
図11】本発明の一実施例による音声合成装置の推論時のデータフローを示す概略図である。
【
図12】本発明の一実施例による実験結果を示す図である。
【
図13】本発明の他の実施例による音声合成装置のアーキテクチャを示す図である。
【
図14】本発明の一実施例による実験結果を示す図である。
【
図15】本発明の一実施例による実験結果を示す図である。
【
図16】本発明の一実施例による実験結果を示す図である。
【
図17】本発明の一実施例による実験結果を示す図である。
【
図18】本発明の一実施例による実験結果を示す図である。
【発明を実施するための形態】
【0012】
以下の実施例では、SSNT(Segment-to-Segment Neural Transduction)ベースアライメント機構を備えた音声合成装置が開示される。
[概略]
本発明の実施例による音声合成装置は、テキスト入力を言語特徴量に変換するエンコーダと、言語特徴量から音声出力を生成するデコーダとを備えることによって、End-to-Endタイプのエンコーダ-デコーダ型音声合成を実現する。ここで、エンコーダ及びデコーダはニューラルネットワークとして実現され、デコーダは、エンコーダから取得した言語特徴量から音声の出力確率を予測するニューラルネットワークと、言語特徴量からテキスト入力の各文字又は音素と音声又は周波数スペクトルとの間のアライメントに関する遷移確率を予測するニューラルネットワークとから構成される。
【0013】
本発明によるSSNTベースアライメント機構は、Lei Yu, Jan Buys and Phil Blunsom, "Online Segment to Segment Neural Transduction" Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing", pages 1307-1316, Austin, Texas, November 1-5, 2016(以降、Leiと呼ぶ)におけるSSNTに基づくものであるが、Leiでは、SSNTは、離散時系列である入力情報と離散時系列である出力情報との時間的対応関係を予測する一方、本発明によるSSNTベースアライメント機構は、離散時系列であるテキスト入力と連続時系列である音声出力との時間的対応関係を予測する。このようなSSNTベースアライメント機構を実現するため、音声出力確率を予測するニューラルネットワークは、周波数スペクトルに対して無相関化及び低次元化を実行することが可能なジャコビアンが存在する可逆なニューラルネットワークとして実現される。
[音声合成装置]
まず、
図5~12を参照して、本発明の一実施例による音声合成装置を説明する。
図5は、本発明の一実施例による音声合成装置の機能構成を示すブロック図である。
【0014】
図5に示されるように、音声合成装置100は、エンコーダ110及びデコーダ120を有し、また、デコーダ120は、遷移確率予測部121、出力確率予測部122及び音声系列生成部123を有する。
【0015】
ここで、音声合成装置100は、例えば、
図6に示されるように、CPU (Central Processing unit)、GPU (Graphics Processing Unit)などのプロセッサ101、RAM (Random Access Memory)、フラッシュメモリなどのメモリ102、ハードディスク103及び入出力(I/O)インタフェース104によるハードウェア構成を有してもよい。
【0016】
プロセッサ101は、音声合成装置100の各種処理を実行する。
【0017】
メモリ102は、音声合成装置100における各種データ及びプログラムを格納し、特に作業用データ、実行中のプログラムなどのためのワーキングメモリとして機能する。具体的には、メモリ102は、ハードディスク103からロードされた後述される各種ニューラルネットワークを実現するプログラム、各種処理を実行及び制御するためのプログラムなどを格納し、プロセッサ101によるプログラムの実行中にワーキングメモリとして機能する。
【0018】
ハードディスク103は、音声合成装置100における各種データ及びプログラムを格納する。
【0019】
I/Oインタフェース104は、ユーザからの命令、入力データなどを受け付け、出力結果を表示、再生などすると共に、外部装置との間でデータを入出力するためのインタフェースである。例えば、I/Oインタフェース104は、USB (Universal Serial Bus)、通信回線、キーボード、マウス、ディスプレイ、マイクロフォン、スピーカなどの各種データを入出力するためのデバイスである。
【0020】
しかしながら、本発明による音声合成装置100は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、音声合成装置100による各種処理の1つ以上は、これを実現するよう配線化された処理回路又は電子回路により実現されてもよい。
【0021】
エンコーダ110は、エンコーダニューラルネットワークによってテキスト系列から言語特徴量を生成する。例えば、エンコーダ110は、
図7に示されるようなCBHG(1-D convolution bank+highway network+bidirectional GRU)構造のエンコーダニューラルネットワークを有してもよく、当該エンコーダニューラルネットワークによって、入力されたテキスト系列を言語特徴量に変換する。しかしながら、本発明によるエンコーダ110は、当該CBHG構造に限定されるものでなく、テキスト系列から言語特徴量を生成する他の何れか適切なニューラルネットワーク構造を有してもよい。エンコーダ110は、エンコーダニューラルネットワークによって生成された言語特徴量をデコーダ120にわたす。
【0022】
デコーダ120は、デコーダニューラルネットワークによって言語特徴量から音声系列を生成する。ここで、デコーダニューラルネットワークは、遷移確率予測部121、出力確率予測部122及び音声系列生成部123における後述される各種ニューラルネットワークによって構成される。
【0023】
遷移確率予測部121は、アライメント予測ニューラルネットワークによって言語特徴量から遷移確率を予測する。アライメント予測ニューラルネットワークは、LeiによるSSNT(Segment to Segment Neural Transduction)ベースアライメント機構を有し、遷移確率予測部121は、アライメント予測ニューラルネットワークによって、現在の状態に留まるか(Emit)、又は次の状態に遷移するか(Shift)に関する遷移確率を予測する。
【0024】
例えば、
図8に示されるように、テキスト列"fukusuuno"に対して、アライメント予測ニューラルネットワークは、Shift,Shift,Shift,Shift,Emit,Shift,Shift,Emitを予測し、図示されるようなパスによりテキスト列と時間フレームとの対応関係を予測する。すなわち、アライメントの前進は各時間フレームについて1回のみであり、最後の入力に到達したとき、遷移確率予測部121は、当該アライメント予測(○で記された位置)を終了する。
【0025】
このようなSSNTベースアライメント機構の性質から理解されるように、アテンション機構による言いよどみ、読み飛ばし、読み戻し、早すぎるもしくは遅すぎる読み終わりなどの問題は、SSNTベースアライメント機構では発生しない。
【0026】
出力確率予測部122は、音響予測ニューラルネットワークによって言語特徴量から音響特徴量の候補を予測し、その出力確率を計算する。音声信号は、周波数スペクトル空間では、連続かつ非常に高次元空間の情報であり、ニューラルネットワークの学習が容易には行えない。しかし、ジャコビアンが存在する可逆なニューラルネットワークを利用することで、連続かつ高次元空間の元々の関係を保ったまま、周波数スペクトルを低次元空間に変換し、その低次元空間でニューラルネットワークの演算、学習や予測、および確率計算を行うことが可能になる。それゆえ、出力確率予測部122は、ジャコビアンが存在する可逆なニューラルネットワークにより実現される。
【0027】
一実施例では、音響予測ニューラルネットワークは、Glow(Generative Flow)構造を有してもよい。Glow構造は、Diederik P. Kingma, Prafulla Dhariwal, "Glow: Generative Flow with Invertible 1x1 Convolutions", arXiv: 1807.03039v2, July 10, 2018に開示され、逆変換可能であって、ジャコビアンが計算可能なニューラルネットワークを実現する。Glow構造によって、高次元かつ連続値である周波数スペクトルを低次元化および次元間の相関を少なくすることができる。Glow構造とは、可逆な1×1の畳み込み層とアファインカップリング層とから構成されるニューラルネットワーク構造である。これらの構造は厳密な逆変換関数を数学的に定義することが可能である特殊なネットワークである。ニューラルネットワークの学習時にはこれらの層を何層も重ね繰り返し演算を行うことで、段階的に周波数スペクトルの次元および相関を減らし、最終的には正規分布に近づける処理を行う。ニューラルネットワークを利用して予測を行う際には、1×1の畳み込み層とアファインカップリング層の逆変換関数を利用し、低次元の正規分布から段階的に次元を増やしていき、最終的には高次元の周波数スペクトルの候補を生成する。学習時および予測時ともに低次元空間における正規分布を利用し、出力確率を計算する。
【0028】
音声系列生成部123は、遷移確率と出力確率とを掛け合わせた同時確率に基づき音声系列を連続時系列として生成する。まず、出力確率予測部122に従って各時刻の周波数スペクトル候補が複数生成され、つぎに、遷移確率予測部121に従って遷移確率の候補が複数生成され、それぞれの確率値も保存される。音声系列生成部123では、これらの確率を掛け合わせ、発話全体の確率を考慮し、複数の候補の中で最も確率の高いパターンを選び出すことで、各入力に対応する音が何れの時間フレームで発話されるべきか決定することができ、テキスト入力に対応する音声出力を生成することができる。
【0029】
一実施例では、音声合成装置100は、
図9に示されるようなニューラルネットワーク構造により実現されてもよい。図示されるように、エンコーダ110は、全文字又は音素系列全体を入力として取得し、当該文字又は音素をPre-net及びCBHGに入力し、取得した言語特徴量をデコーダ120にわたす。
【0030】
デコーダ120は、エンコーダ110から取得した言語特徴量を、一つ前の時刻においてサンプリング等により予測された周波数スペクトルからPre-net及びLSTMを介し取得した情報と連接し、連接の結果として取得した中間表現をFFN(Feedforward Neural Network)及びtanhに入力する。そして、デコーダ120は、tanhから出力された情報をGlow構造とFFN及びsigmoidとの双方に入力し、次の時刻の周波数スペクトルの複数候補とその出力確率、および、遷移確率をそれぞれ取得する。
図9に示されるように、遷移確率については、EmitとShiftとの2つの状態について確率が予測され、出力確率については、正規分布により確率が予測される。他の分布を利用しても良い。
【0031】
周波数スペクトルのサンプリング結果は、次の時点における予測のためにPre-net及びLSTMに再び入力され、上述した処理が以降において繰り返される。すなわち、デコーダ120は、再帰構造を有するニューラルネットワークにより実現され、言語特徴量と過去の音声系列とから生成された中間表現が、アライメント予測ニューラルネットワークと音響予測ニューラルネットワークとに入力される。なお、1番目のフレームおいては過去の情報を使わずに周波数スペクトル、出力確率および遷移確率の予測を行う。
【0032】
そして、音声系列生成部123は、再帰的に処理された遷移確率と出力確率に基づき、発話全体の確率を考慮し、発話全体で最も確率の高いパターンを探索し、テキスト入力に対応する音声出力を生成することができる。この探索はbeam探索法により実現されても良い。
【0033】
上述した処理がテキスト入力全体に対して実行され、最終的に生成された音声系列と訓練データの音声系列とが比較され、これらの誤差もしくは尤度に応じてエンコーダ110及びデコーダ120のニューラルネットワークのパラメータが更新される。例えば、用意された訓練データの全てに対して上述した学習処理が実行された後、最終的に獲得されたニューラルネットワークによって、音声合成装置100のニューラルネットワーク構造が構成される。
【0034】
例えば、
図9に示されるようなデコーダ120のニューラルネットワーク構造の学習処理は、
図10に示されるようなデータフローによって学習されうる。すなわち、テキスト系列と対応する音声系列とのペアから構成される訓練データに対して、訓練データのテキスト系列からエンコーダ110によって変換された言語特徴量が、直前のサンプリング結果と連接され、連接の結果として取得した中間表現がアライメント予測ニューラルネットワーク(c)と音響予測ニューラルネットワーク(f)の逆関数とに入力される。ここで、音響予測ニューラルネットワークは、上述したように、ジャコビアンが存在する可逆な複数のGlow構造を含み、各時刻の周波数スペクトル(t)は段階的に低次元化される。PはPre-netを表し、uはLSTM-RNNを表す。
【0035】
そして、アライメント予測ニューラルネットワークから遷移確率(a)が出力され、音響予測ニューラルネットワークから正規分布N(0,I)に従う出力確率が出力され、遷移確率と出力確率との同時確率がこれらを掛け合わせることで計算される。分散Iは学習を行う前に決める値である。
【0036】
一方、このようにして学習されたニューラルネットワーク構造による音声合成時には、
図11に示されるデータフローによって実行される。テキスト入力からエンコーダ110によって変換された言語特徴量が、直前のサンプリング結果と連接され、連接の結果として取得した中間表現がアライメント予測ニューラルネットワーク(c)と音響予測ニューラルネットワーク(f)とに入力される。ここで、音響予測ニューラルネットワークは、上述したように、ジャコビアンが存在する可逆な複数のGlow構造を含み、低次元の正規分布から段階的に次元を増やしていき、最終的には高次元の周波数スペクトルの候補が生成される。
【0037】
そして、アライメント予測ニューラルネットワークから遷移確率(a)が出力され、正規分布N(0,I)と言語特徴量とから音響予測ニューラルネットワークによって当該時間周波数スペクトル(t)が出力される。そして、決定された周波数スペクトルが次の言語特徴量との連接のため、フィードバックされる。上述した処理がテキスト入力全体に対して実行され、最終的に音声系列が生成される。すなわち、学習済みのニューラルネットワークの逆変換を利用して、白色雑音から音声の周波数スペクトルの生成が行われる。
【0038】
図12には、日本語の女性話者がテキストを通常の読み上げにより発話し、発話の音声系列から構成されるテキスト入力と音声系列とのペアの訓練データを利用して学習された音声合成装置100(SSNT)と、アテンション機構を利用したTacotronベースの音声合成装置との比較結果が示されている。TacotronとSSNTとの予測結果及び正解から理解されるように、SSNTの予測結果は正解とほぼ同様の音声系列となり、また、Tacotronともほぼ同様な音声系列を出力可能である。
[適用例]
次に、
図13~18を参照して、音声合成装置100の落語音声への適用例を説明する。具体的には、音声合成装置100への入力として、真打の落語家に古典落語25演目を演じてもらい、演じられた音声をスタジオにて録音し、音素表記によるテキスト入力と録音された音声系列とによって、音声合成装置100のニューラルネットワークを学習した。落語では、ひとりで何役も演じ、通常の発話とは異なる調子で発話が行われるなどの独自の特徴がある。
【0039】
本適用例では、音素のみ、音素+登場人物のラベル、音素+登場人物およびその他のコンテキストラベル、及び音素+データから学習した登場人物のラベルの4パターンを入力として与えることを行った。登場人物のラベルは「男,女;子供,若者,壮年,老人;武士,職人,商人,その他町人,田舎者,その他方言,現代人」という情報である。その他のコンテキストラベルには「呆れ,怒り,息切れ,苛立ち,驚き,悲しみ,恐怖,興奮等」の登場人物の状態や「独り言,目上,目下」等の登場人物の話し相手との関係性のラベルも含めた。データから学習した登場人物のラベルとしては、Style tokenにより推定されても良い。Style token構造は、Yuxuan Wang, Daisy Stanton, Yu Zhang, RJ Skerry-Ryan, Eric Battenberg, Joel Shor, Ying Xiao, Fei Ren, Ye Jia, Rif A. Saurous, "Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis", arXiv: 1803.09017, August 13, 2018に開示され、参照音声から発話スタイルの情報を表した潜在変数を抽出する方法である。
【0040】
例えば、音素+登場人物およびその他のコンテキストラベルが入力として与えられた場合、音素とコンテキストラベルとは、
図13に示されるようなニューラルネットワーク構造によってエンコーダ110に与えられてもよい。他方、音素+データから学習した登場人物のラベルが入力として与える場合、Style tokenは、先行技術と同様に、
図13に示されるマルチヘッドアテンションにより構成されるスタイルトークンレイヤ、および、2次元コンボリューションニューラルネットワーク(conv 2D)およびGated Recurrent Unit(GRU)により構成されるリファレンスエンコーダによって処理されてもよい。
【0041】
図14に示されるように、Tacotronでは、アライメント及び予測結果から学習に失敗したことがわかるが、SSNTでは、予測結果は正解とほぼ同様のものとなり、適切な学習が行われたとかわる。
【0042】
また、
図15では、学習に失敗したアライメントの割合のパーセンテージが示され、4種類の入力の何れのケースでも、SSNTは有意にTacotoronより学習に成功していることがわかる。
【0043】
さらに、リスナによる主観的評価を行ったところ、音声品質については、
図16に示されるように、SSNTによる合成結果は、Tacotronによる合成結果より高品質であったと評価された。また、役の区別については、
図17に示されるように、SSNTによる合成結果は、Tacotronによる合成結果より良好に識別できたと評価された。また、話しの理解度については、
図18に示されるように、SSNTによる合成結果は、Tacotronによる合成結果より理解度が高かったと評価された。
【0044】
以上、本発明の実施例について詳述したが、本発明は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
【符号の説明】
【0045】
100 音声合成装置
110 エンコーダ
120 デコーダ
121 遷移確率予測部
122 出力確率予測部
123 音声系列生成部