(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-19
(45)【発行日】2023-12-27
(54)【発明の名称】声質変換システムおよび声質変換方法
(51)【国際特許分類】
G10L 21/007 20130101AFI20231220BHJP
【FI】
G10L21/007
(21)【出願番号】P 2020048518
(22)【出願日】2020-03-19
【審査請求日】2022-07-14
(73)【特許権者】
【識別番号】000233169
【氏名又は名称】株式会社日立ソリューションズ・テクノロジー
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】孫 慶華
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2019-8120(JP,A)
【文献】米国特許出願公開第2018/0012613(US,A1)
【文献】特開2020-190605(JP,A)
【文献】齋藤佑樹他,音素事後確率を用いた多対一音声変換のための音声認識・生成モデルの同時敵対学習,日本音響学会2019年秋季研究発表会講演論文集[CD-ROM],2019年09月,pp.963-966
【文献】YI Zhou, et al.,CROSS-LINGUAL VOICE CONVERSION WITH BILINGUAL PHONETIC POSTERIORGRAM AND AVERAGE MODELING,ICASSP 2019,IEEE,2019年05月,pp.6790-6794
【文献】YOW-Bang Wang, et al.,An Experimental Analysis on Integrating Multi-Stream Spectro-Temporal, Cepstral and Pitch Information for Mandarin Speech Recognition,IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING,Vol.21, No.10,2013年10月,pp.2006-2014
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-15/34,21/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
情報処理装置により、入力音声から声質を変換した合成音声を出力する声質変換システムであって、
声質変換用データ作成装置と、
声質変換装置とを備え、
前記声質変換用データ作成装置は、
単語辞書とテキストと音声情報を対応付けた音声コーパスとを入力して、PPG変換モデルを生成する
PPG(音素事後確率)変換モデル学習部と、
音声コーパスと前記PPG変換モデルを入力して音声パラメータ生成モデルを生成する音声パラメータ生成モデル学習部とよりなり、
前記PPG変換モデル学習部は、
前記単語辞書から韻律情報付き辞書を生成し、
前記音声コーパスに含まれるテキストを形態素解析して、形態素解析の結果と、前記韻律情報付き辞書に基づいて、韻律情報付き音素配列を生成し、
前記韻律情報付き音素配列と、前記音声コーパスに含まれる音声情報の特徴量解析の結果として出力される音声特徴量とから、音響モデルを生成し、
前記音響モデルを学習して、前記PPG変換モデルを生成し、
前記音声パラメータ生成モデル学習部は、
前記PPG変換モデルと音声コーパスより、前記PPG変換モデルに対応するPPGを生成し、
前記音声コーパスに含まれる音声情報から音声パラメータを抽出し、
前記生成されたPPGと前記音声パラメータを学習して、音声パラメータ生成モデルを生成し、
前記声質変換装置は、前記入力音声と前記PPG変換モデル学習部が生成したPPG変換モデルと前記音声パラメータ生成モデル学習部が生成した音声パラメータ生成モデルとを入力し、
前記音声コーパスに含まれる音声情報の特徴量解析の結果として出力される音声特徴量と前記PPG変換モデルとに基づいて、PPGを生成し、
生成した前記PPGと前記音声パラメータ生成モデルに基づいて、音声パラメータを生成し、
前記音声パラメータによる音声の波形を生成して、出力音声として出力することを特徴とする声質変換システム。
【請求項2】
前記PPG変換モデル学習部が生成するPPG変換モデルは、言語ごとに複数あることを特徴とする請求項1記載の声質変換システム。
【請求項3】
前記PPG変換モデル学習部における前記韻律情報付き音素配列の生成にあたり、各々の言語の特徴に基づいて韻律シンボルを付与することを特徴とする請求項2記載の声質変換システム。
【請求項4】
前記PPG変換モデル学習部は、前記音声コーパスのテキストを形態素解析し、言語モデル学習を行い、言語モデルを生成し、
前記音響モデルと前記言語モデルの学習により、前記PPG変換モデルを生成することを特徴とする請求項1記載の声質変換システム。
【請求項5】
情報処理装置により、入力音声から声質を変換した合成音声を出力する声質変換システムにより声質変換を行う声質変換方法であって、
前記声質変換システムは、
声質変換用データ作成装置と、
声質変換装置とを備え、
前記声質変換用データ作成装置が、単語辞書とテキストと音声情報を対応付けた音声コーパスとを入力して、PPG変換モデルを生成する
PPG(音素事後確率)変換モデル学習ステップと、
前記声質変換用データ作成装置が、音声コーパスと前記PPG変換モデルを入力して音声パラメータ生成モデルを生成する音声パラメータ生成モデル学習ステップとを有し、
前記PPG変換モデル学習ステップは、
前記声質変換用データ作成装置が、前記単語辞書から韻律情報付き辞書を生成するステップと、
前記声質変換用データ作成装置が、前記音声コーパスに含まれるテキストを形態素解析して、形態素解析の結果と、前記韻律情報付き辞書に基づいて、韻律情報付き音素配列を生成するステップと、
前記声質変換用データ作成装置が、前記韻律情報付き音素配列と、前記音声コーパスに含まれる音声情報の特徴量解析の結果として出力される音声特徴量とから、音響モデルを生成するステップと、
前記声質変換用データ作成装置が、前記音響モデルを学習して、前記PPG変換モデルを生成するステップとからなり、
前記音声パラメータ生成モデル学習ステップは、
前記声質変換用データ作成装置が、前記PPG変換モデルと音声コーパスより、前記PPG変換モデルに対応するPPGを生成するステップと、
前記声質変換用データ作成装置が、前記音声コーパスに含まれる音声情報から音声パラメータを抽出するステップと、
前記声質変換用データ作成装置が、前記生成されたPPGと前記音声パラメータを学習して、音声パラメータ生成モデルを生成するステップとからなり、
前記声質変換装置が、前記入力音声と前記PPG変換モデル学習ステップにより生成されたPPG変換モデルと前記音声パラメータ生成モデル学習ステップにより生成された音声パラメータ生成モデルとを入力するステップと、
前記声質変換装置が、前記音声コーパスに含まれる音声情報の特徴量解析の結果として出力される音声特徴量と前記PPG変換モデルとに基づいて、PPGを生成するステップと、
前記声質変換装置が、生成した前記PPGと前記音声パラメータ生成モデルに基づいて、音声パラメータを生成するステップと、
前記声質変換装置が、前記音声パラメータによる音声の波形を生成して、出力音声として出力するステップとを有することを特徴とする声質変換方法。
【請求項6】
前記PPG変換モデル学習ステップにより生成されるPPG変換モデルは、言語ごとに複数あることを特徴とする請求項5記載の声質変換方法。
【請求項7】
前記PPG変換モデル学習ステップにおける前記韻律情報付き音素配列の生成にあたり、各々の言語の特徴に基づいて韻律シンボルを付与することを特徴とする請求項6記載の声質変換方法。
【請求項8】
前記PPG変換モデル学習ステップは、前記音声コーパスのテキストを形態素解析するステップと、その形態素解析の結果に基づいて、言語モデル学習を行い、言語モデルを生成するステップと、
前記音響モデルと前記言語モデルの学習により、前記PPG変換モデルを生成するステップとからなることを特徴とする請求項5記載の声質変換方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、声質変換システムおよび声質変換方法に係り、特に、音声の声質変換を行うにあたって、安定して高い音質の音質変換を可能にする声質変換システムおよび声質変換方法に関する。
【背景技術】
【0002】
近年、音声認識、機械翻訳、対話生成などの技術が飛躍的に向上してきたことを背景に、音声翻訳、音声対話サービス、サービスロボットなどの人工知能による音声コミュニケーションの実用化が急激に進んできた。その中に、声質変換(VC: Voice Conversion)技術が重要な技術の一つとして注目されている。声質変換とは、ある話者(source speaker)の発話に対して、含まれる発話内容と話し方を変えずに、別の話者(target speaker)の声に聞こえるように音声を編集する技術である。
【0003】
近年、各社サービスロボットのプロトタイプが次々と開発され、PoC(概念実証)が実施されている。このようなサービスロボットにおいては、音声認識や音声合成の技術は必須のものとなる。しかしながら、実環境(特に空港や駅など)では音声認識の精度が悪く、対話成功率が非常に低いという問題が生じる。このような結果、サービスロボットでの実戦配備が先延ばしとなり、リアルデータの蓄積ができなくなり、サービスロボットの市場成長を阻害する原因の一つとなっている。そこで、ロボットによる接客サービスの品質向上のために、音声認識や意図理解の精度向上研究と並行して、自動応答とオペレータ対応が連携した、ハイブリッド音声対話サービスが構想されている。
【0004】
この構想を実現するためには、TTS(Text To Speech)で生成した自動対応音声とオペレータの肉声とがシームレスに切り替えられるため、オペレータの声をロボットの声に変換する声質変換技術が不可欠となる。
【0005】
このような声質変換技術については、例えば、非特許文献1に、音素事後確率(PPG:Phonetic Posterior Gram)を用いて声質変換を行うことが論じられている。
【先行技術文献】
【非特許文献】
【0006】
【文献】L. Sun, K. Li, H. Wang, S. Kang, and H. Meng, “PHONETIC POSTERIORGRAMS FOR MANY-TO-ONE VOICE CONVERSION WITHOUT PARALLEL DATA TRAINING” Multimedia and Expo (ICME), 2016.
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来の声質変換技術では、入力音声の収録環境によって、声質変換の性能が著しく低下するなどといった課題があったが、非特許文献1に記載された声質変換技術は、そのような課題を解決することを意図している。非特許文献1の記載された技術は、入力音声の話者性と収録環境音を取り除き、音声認識で学習した音響モデルを用いて、音声特徴量を発話内容にかかわる情報のみが含まれるPPGに変換することによって、安定した声質変換を実現しようとするものである。
【0008】
しかしながら、日本語音声認識で用いる音響モデルから生成されたPPGは、日本語音素の音素事後確率であり、調音構造に関係しない韻律情報や非周期成分情報などの情報は含まれていないとされている。そのため、日本語PPGのみから基本周波数(F0)(音響特徴量の一つ、音声のインパルス列の間隔の逆数と定義される。声の高さに相当する)を推測することは難しい。従来研究では、声道構造に関係するMCEP(メルケプトラム係数、メルケプトラムは、人の聴覚特性に合わせて低周波領域を細かくサンプリングする手法)のみをPPGで変換し、韻律情報(ピッチなど)は線形変換する手法で変換する。そして、別々に変換したパラメータを使って音声を再構築する。しかし、声質変換においては別々で生成した音声パラメータを用いた場合、声質変換音質の劣化につながりやすいと、一般的知られている。特に、F0の抽出が非常に不安定であるため、安定した声質変換ができなかった。
【0009】
本発明の目的は、音声の声質変換を行うにあたって、安定して高い音質の音質変換を可能にする声質変換システムおよび声質変換方法を提供することにある。
【課題を解決するための手段】
【0010】
本発明の声質変換システムの構成は、好ましくは、情報処理装置により、入力音声から声質を変換した合成音声を出力する声質変換システムであって、声質変換用データ作成装置と、声質変換装置とを備え、声質変換用データ作成装置は、単語辞書とテキストと音声情報を対応付けた音声コーパスとを入力して、PPG変換モデルを生成するPPG(音素事後確率)変換モデル学習部と、音声コーパスとPPG変換モデルを入力して音声パラメータ生成モデルを生成する音声パラメータ生成モデル学習部とよりなり、PPG変換モデル学習部は、単語辞書から韻律情報付き辞書を生成し、音声コーパスに含まれるテキストを形態素解析して、形態素解析の結果と、韻律情報付き辞書に基づいて、韻律情報付き音素配列を生成し、韻律情報付き音素配列と、音声コーパスに含まれる音声情報の特徴量解析の結果として出力される音声特徴量とから、音響モデルを生成し、音響モデルを学習して、PPG変換モデルを生成し、音声パラメータ生成モデル学習部は、PPG変換モデルと音声コーパスより、PPG変換モデルに対応するPPGを生成し、音声コーパスに含まれる音声情報から音声パラメータを抽出し、生成されたPPGと音声パラメータを学習して、音声パラメータ生成モデルを生成し、声質変換装置は、入力音声とPPG変換モデル学習部が生成したPPG変換モデルと音声パラメータ生成モデル学習部が生成した音声パラメータ生成モデルとを入力し、音声コーパスに含まれる音声情報の特徴量解析の結果として出力される音声特徴量とPPG変換モデルとに基づいて、PPGを生成し、生成したPPGと音声パラメータ生成モデルに基づいて、音声パラメータを生成し、音声パラメータによる音声の波形を生成して、出力音声として出力するようにしたものである。
【発明の効果】
【0011】
本発明によれば、音声の声質変換を行うにあたって、安定して高い音質の音質変換を可能にする声質変換システムおよび声質変換方法を提供することができる。
【図面の簡単な説明】
【0012】
【
図1】声質変換システムの構成とデータフローを示した図である。
【
図3】クライアント・サーバシステムからなる声質変換システムのハードウェア構成図である。
【
図4】声質変換用データ作成装置の機能構成とデータフローを示す図である。
【
図5】PPG変換モデル学習部の機能構成とデータフローを示す図である。
【
図6A】テキスト「これは橋です。」の形態素解析の結果を示す表である。
【
図6B】テキスト「これは箸です。」の形態素解析の結果を示す表である。
【
図7】音声モデル学習部の機能構成とデータフローを示す図である。
【
図8】声質変換装置の機能構成とデータフローを示す図である。
【
図9】敵対的生成ネットワーク学習を用いた音声特徴量学習システムの処理とデータフローを示す図である。
【
図10】声質変換により変換された音声コーパスを用いたマルチリンガル音声合成システムを構築する処理の流れとデータフローを示す図である。
【
図11】声質変換により変換された音声コーパスを用いて、入力テキストに対する音声合成をするシステムを構築する処理の流れとデータフローを示す図である。
【発明を実施するための形態】
【0013】
以下、本発明に係る各実施形態を、
図1ないし
図11を用いて説明する。
【0014】
〔実施形態1〕
先ず、
図1および
図3を用いて声質変換システムの構成を説明する。
一般的な声質変換システムは、
図1に示されるように、声質変換用データ作成装置200と、声質変換装置100により構成されている。声質変換用データ作成装置200は、音声コーパス10から声質変換用データ20を生成装置する装置である。声質変換装置100は、その声質変換用データ20を用いて、入力音声30から所望の声質を有する合成音声40に変換して出力する装置である。
【0015】
音声コーパス10は、音声ファイルとテキストを対応付けたデータである。声質変換用データ20は、PPG変換モデル1~PPG変換モデルNと、音声パラメータ生成モデルである(詳細は後述)。
【0016】
以下では、各装置の機能構成とそれによる処理を主体として述べるが、それらの機能構成部は、ハードウェアとして実現してもよいし、ソフトウェアプログラムとして実現されてもよい。
【0017】
また、以下の説明では、学習時に日本語音声コーパスを例にしているが、ほかの自然言語、あるいは、複数言語の混じっている音声コーパスも用いても処理可能である。ただし、その場合は、その言語に対応したプログラム・データを用いなければならない。
【0018】
さらに、以下の説明では、声質変換手法として、例えば、DNN(Deep Neural Network:深層ニューラルネットワーク)を用いることを前提にして説明しているが、他の統計ベース手法を用いてもよい。
【0019】
次に、
図2を用いて声質変換装置のハードウェア構成について説明する。
声質変換装置100は、一般的な情報処理装置で実現でき、
図2に示されるように、例えば、補助記憶装置101と、音声入力I/F(InterFace)102と、CPU103と、主メモリ104と、音声出力I/F105とからなり、それらがバス107により接続された形態である。
【0020】
CPU103は、声質変換装置100の各部を制御し、主記憶装置104に必要なプログラムをロードして実行する。
主メモリ104は、通常、RAMなどの揮発メモリで構成され、CPU102が実行するプログラム、参照するデータが記憶される。
【0021】
音声入力I/F102は、マイクなどと接続されて、音声信号を入力するためのインターフェースである。
音声出力I/F103は、スピーカなどと接続されて、音声信号を入力するためのインターフェースである。
【0022】
音声の入出力は、例えば、WAVEファイルやMP3ファイルのようにコード化された音声データを入出力するようにしてもよい。
【0023】
補助記憶装置101は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などの大容量の記憶容量を有する記憶装置である。
補助記憶装置101には、図示しなかったが、本実施形態の声質変換装置100の機能を実行するためのプログラムである特徴量解析プログラム、PPG抽出プログラム、マージプログラム、音声パラメータ生成プログラム、波形生成プログラムがインストールされている。
【0024】
特徴量解析プログラム、PPG抽出プログラム、マージプログラム、音声パラメータ生成プログラム、波形生成プログラムは、それぞれ特徴量解析部、PPG抽出部、マージ部、音声パラメータ生成部、波形生成部の機能を実行するプログラムである。なお、これらの機能部の処理の詳細については、後述する。
【0025】
また、補助記憶装置101には、声質変換装置100で使用される各種データが格納される。声質変換装置100で使用される各種データには、後述するように、音声特徴量、PPG、音声パラメータ生成モデル、音声パラメータがある。
【0026】
同様に、声質変換用データ作成装置200も、
図2の声質変換装置100と同様の構成を有する情報処理装置で実現することができる。
【0027】
声質変換用データ作成装置200の補助記憶装置101には、図示しなかったが、本実施形態の声質変換用データ作成装置200の機能を実行するためのプログラムであるPPG変換モデル学習プログラム、音声パラメータ生成モデル学習プログラムがインストールされている。
【0028】
PPG変換モデル学習プログラム、音声パラメータ生成モデル学習プログラムは、それぞれPPG変換モデル学習部、音声パラメータ生成モデル学習部の機能を実行するプログラムである。なお、これらの機能部の処理の詳細については、後述する。
【0029】
また、補助記憶装置101には、声質変換用データ作成装置200で使用される各種データが格納される。声質変換用データ作成装置200で使用される各種データには、後述するように、単語辞書、音声コーパス、音声パラメータ生成モデルがある。
【0030】
声質変換装置100は、例えば、カーナビゲーション装置、携帯電話機、パーソナルコンピュータ等のデバイスに、声質変換ユニットとして組み込まれている。そのため、
図2に示した各ハードウェアは、声質変換装置100が組み込まれたデバイスにより実現してもよいし、声質変換用データ作成装置200と声質変換装置100が組み込まれたデバイスとは別個に設けられていてもよい。
【0031】
声質変換に関するすべての機能を一つあるいは二つのデバイスだけで実現してもよいが、
図3に示す変形例のように、サーバ330とクライアント端末400(
図3では、400A、400Bと表記)が、ネットワーク5により相互接続されたシステムでも実現することができる。
【0032】
この場合には、クライアント端末400は、音声入力I/F402、音声出力I/F405と、通信I/F406を有し、クライアント端末400側で音声を受付け、声質変換に関する機能の一部または全部をサーバ300側で担当し、必要なデータをサーバ300側の通信I/F306とクライアント端末400の通信I/F405でやりとりするようにしてもよい。
【0033】
次に、
図4ないし
図8を用いて実施形態1に係る声質変換システムの機能と処理について説明する。
先ず、
図4を用いて声質変換データ装置の機能構成とデータフローについて説明する。
声質変換用データ作成装置200は、
図4に示されるように、機能構成として、PPG変換モデル学習部210と音声パラメータ生成モデル学習部220を有している。
【0034】
PPG変換モデル学習部210は、単語辞書500と音声コーパス510を用いた学習により、PPG変換モデル(詳細は後述)700を生成する機能部である。
【0035】
PPG(音素事後確率)とは、非特許文献1に定義されているように、ある発話におけるそれぞれの音素クラスに対する事後確率(非特許文献1では、時間-音素クラスの事後確率の表現行列)である。
【0036】
音声パラメータ生成モデル学習部220は、生成用音声コープス(音声コープス510とデータ構造は同じ)520とPPG変換モデル600より、音声パラメータ生成モデルを生成する機能部である。
【0037】
次に、
図5を用いてPPG変換モデル学習部の機能とデータフローの詳細について説明する。
PPG変換モデル学習部210では、上述のように単語辞書500と音声コーパス510を用いた学習により、PPG変換モデル700を生成する。このPPG変換モデル700は、入力音声30から発話内容と発話スタイル情報を含むPPGに変換するモデルである。このPPG変換モデル学習部210は、
図5に示されるように、形態素解析部211、言語モデル学習部212、特徴量解析部213、辞書読み拡張部214、形態素配列拡張部215、音素配列&音響モデル学習部216、言語モデル考慮音響モデル学習部217のサブ機能部により構成されている。
【0038】
形態素解析部211、言語モデル学習部212、特徴量解析部213、辞書読み拡張部214、形態素配列拡張部215、音素配列&音響モデル学習部216、言語モデル考慮音響モデル学習部217は、それぞれ、PPG変換モデル学習プログラムのサブルーチンとして、形態素解析プログラム、言語モデル学習プログラム、特徴量解析プログラム、辞書読み拡張プログラム、形態素配列拡張プログラム、音素配列&音響モデル学習プログラム、言語モデル考慮音響モデル学習プログラムを実行することにより実現することができる。
【0039】
形態素解析部211は、事前に用意した単語辞書500を用いて、テキストを形態素単位に分割する機能部である。ここで、形態素とは、言語学上で意味を有する最小の表現単位である。この形態素解析部211の機能を実現するために、一般的に使われているMeCabや茶筌などのOSS(Open Source Software)の形態素解析ツールを利用することができる。
【0040】
単語辞書500には、必ずその言語における読みが用意してあるものとする。そして、形態素解析部211により、入力したテキストに対して、読み情報付き形態素配列600が生成される。
【0041】
なお、本実施形態の説明で、形態素解析部211に「単語辞書」を入力するとしたが、辞書の単位は必ず単語ではなく、フレーズや文でもよい。
【0042】
ここで、一例を示すと、テキスト「これは箸です。」に対して、形態素解析した結果は、
図6Aに示されるようになり、一方、テキスト「これは橋です。」に対して、形態素解析した結果は、
図6Bに示されるようになる。
【0043】
言語モデル学習部212は、形態素解析部211から生成された読み情報付き形態素配列600を用いて、言語モデル学習を行い、言語モデルを作成する機能部である。言語モデル学習では、一般的にN-gramと呼ばれる言語モデルが使われることが多い。N-gramとは、任意の文字列や文書を、N個の連続した文字で分割する手法である。なお、近年、RNN(Recurrent Neural Network:再帰型ニューラルネットワーク)を用いた言語モデルなども使われるようになっている。
【0044】
特徴量解析部213は、音声コーパス520に含まれている音声から、特徴量を抽出する機能部である。音声コーパス520は、
図5に示されるように、発話テキスト521と音声522を一対一に対応付けたデータである。音声の特徴量としては、一般的に、MFCCがよく使われているが、一部、LF0などの韻律情報を用いる研究も存在する。MFCC(Mel Frequency Ceastral Coefficient:メル周波数ケプストラム係数)は、対数ケプストラム(声道成分に由来した周波数特性を表現する)の低次成分に対して、ヒトの周波数知覚特性を考慮した重み付けをした特徴量である。LF0は、基本周波数F0の対数である。
【0045】
本実施形態で用いる特徴量は、どのような特徴量を用いてもよいが、最低限、調音情報と韻律情報を含まれている必要がある。すなわち、MFCCを用いる場合は、低次元のみを用いる場合は、韻律情報が含まれていないため、全次元(16kHzの音声の場合は、全40次元)を用いることが推奨される。
【0046】
ここで、調音(articulation)とは、喉頭以上の器官の形や動きによって発声器官内の空気の流れを制御したり、発声器官内で発生する音声の共鳴の仕方を変化させたり、新たな音を発生あるいは追加したりして、さまざまな母音や子音を発生させることである。また、韻律(prosody)とは、発話において現れる音声学的性質で、抑揚あるいは音調、強勢、音長、リズムなどのその言語の一般的な書記記録からは予測されないものをいう。
【0047】
辞書読み拡張部214は、事前に用意されている形態素解析用の単語辞書500に付与されている読み情報(音素情報)に対して、韻律シンボルを加えて、韻律情報付き音素に拡張し、韻律情報付き音素辞書602を生成する。なお、日本語の場合は、読み情報として音節を与えられることもあるので、以降単に「音素」と書いた場合でも、「音節」を指すこともあるものとする。ここで、言語学において、音素(phoneme)とは、ある個別言語の中で、同じとみなされる音の集まりをいい、音節(syllable)とは、連続する言語音を区切る文節単位の一種である。
【0048】
この韻律情報付き音素は、各言語の特徴に合わせる必要があり、言語情報を担う韻律情報を定義することが必要である。例えば、日本語のような高低アクセント言語では、音節間F0の相対位置がアクセントの区別に重要な手がかりとなっているため、すべての母音にHigh Pitchを意味する「H」とLow Pitch を意味する「L」をつけることができる。一方では、中国語のような声調(tone)言語では、音節内のF0パターンが意味の理解に重要な役割を果たしているため、母音音素に4つの声調シンボルとして(いわゆる普通話の場合)、数字1~5(軽声、第1声~第4声)をつけることができる。さらに、アクセントの変形(中国語では変調)のことを考慮し、同じ単語に対しても、複数の韻律パターンを登録することにより、実際に音声の韻律変化を正確にとらえることができる。
【0049】
一例としては、単語「橋」に対して、拡張前は、「表記=橋;読み=/ハ/+/シ/」となっているとして、拡張後は、上記の日本語の場合の韻律シンボルを付加し、「表記=橋;読み1=/ハL/+/シH/:読み2=/ハH/+/シH/」に拡張し、すべての話しうるアクセント型をリストする。一方、単語「箸」に対しては、拡張前は「表記=箸;読み=/ハ/+/シ/」となっていることに対して、拡張後は「表記=箸;読み1=/ハH/+/シL/:読み2=/ハH/+/シしH/」に拡張する。
【0050】
すなわち、従来では、単語辞書500から音素配列を生成するのみであったが、本実施形態では、韻律情報付き辞書602により、韻律情報付き音素配列603を生成する。そのため、従来では音素配列だけでは一意に特定できない同音異義語に対しても、アクセントの違いによって、特定することができるようになる。すなわち、韻律情報付き音素を導入することにより、音声認識時に韻律情報を考慮することとなり、音響モデルの出力であるPPGには韻律情報が含まれることになる。
【0051】
形態素配列拡張部215は、形態素の読みを複数に展開し、すべての読みうるパターンを用意し、韻律情報付き音素配列603に変換する機能部である。
【0052】
例えば、「これは橋です。」に対して、「/コL/+/レH/+/ワH/+/ハL/+/シH/+/デH/+/スL/」や「/コL/+/レH/+/ワH/+/ハH/+/シH/+/デH/+/スL/」に展開される。音素配列の数は、各単語に登録されている全読み数の組み合わせとなる。
【0053】
音素配列決定&音響モデル学習部216は、形態素配列拡張部215が生成した複数の韻律情報付き音素配列603から、最も確率の高い組み合わせを決定したうえ、各音素の特徴(音声特徴量であるMFCCの平均と分散)を計算し、音響モデル620を生成する機能部である。一般的に、最適系列の決定にHMM(Hidden Markov Model:隠れマルコフモデル)がよく使われているが、音響モデルの学習では、DNNを用いることが主流となっている。
【0054】
言語モデル考慮音響モデル学習部213は、言語モデル学習部212が生成した言語モデル610と、音素配列決定&音響モデル学習部210が生成した音響モデル620を用いて、音声コーパス520に対してエラー率最小化の基準で再学習を行い、PPG変換モデル700を生成する機能部である。このように学習したPPG変換モデル700は、言語情報の伝達に必要な韻律情報を表現できるため、言語の特徴によって、表現できる韻律情報が異なる。
【0055】
例えば、高低アクセント言語(音節間のF0相対位置が単語の区別に寄与する言語)である日本語なら広域(複数シラブルにまたいだ範囲)のF0変動、声調言語(音節内のF0パターンの形状の違いが単語の区別に寄与する言語)である中国語なら局所的な(音節内の)F0変動をとらえることができる。それに対して、強弱アクセント言語である英語では音の強弱を表現することができると考えられる。
【0056】
次に、
図7を用いて音声パラメータ生成モデル学習部の機能とデータフローの詳細について説明する。
音声パラメータ生成モデル学習部220では、上述のように、生成用音声コープス520とPPG変換モデル700より、音声パラメータ生成モデル1000を生成する機能部である。
【0057】
音声パラメータ生成モデル学習部220は、
図7に示されるように、PPG抽出部221、PPGマージ部222、音声パラメータ抽出部223、音声モデル学習部224、特徴量解析部225のサブ機能部で構成されている。
【0058】
PPG抽出部221、PPGマージ部222、音声パラメータ抽出部223、モデル学習部224、特徴量解析部225は、それぞれ、音声パラメータ生成モデル学習プログラムのサブルーチンとして、PPG抽出プログラム、PPGマージプログラム、音声パラメータ抽出プログラム、音声モデル学習プログラム、特徴量解析プログラムを実行することにより実現することができる。
【0059】
PPG抽出部221は、
図5で説明したPPG変換モデル学習部210で得られたPPG変換モデル700(
図7では、PPG変換モデル1:700-1~PPG変換モデルN:700-Nと表記)を用いて、生成用音声コーパス511から特徴量解析部225により取り出された音声特徴量640に対して、PPG800(
図7では、PPG1:800-1~PPGN:800-Nと表記)を抽出する機能部である。なお、特徴量解析部225は、
図5に示した特徴量解析部213と同様である。ここで、複数のPPG変換モデルを用いることによって、正確な韻律表現が可能となる。具体的には、音節をまたいでゆっくり変化するF0の動きを表現できる日本語PPGと、音節内の局所的なF0変化をとらえられる中国語PPGとを組み合わせることにより、F0パターンを充実して表現することができる。すなわち、複数の特徴の異なる言語を組み合わせることによって、入力音声のどの特徴を出力音声に残したいのかを、デザインすることができる。この点で、本発明者の実証では、日本語、中国語、英語の3言語を用いることにより、発音の強弱や発話のイントネーションを精度よく再現できることを確認することができた。
【0060】
PPGマージ部222は、PPG抽出部221から得られた複数のPPG800を一つのベクトルにマージする機能部である。ここでは、単に複数のベクトルをつなげ合わせて、次元数の大きなベクトルにすることも考えられるが、AutoEncoderなどの次元圧縮技術を使って、小さいベクトルに圧縮することもできる。
【0061】
音声パラメータ抽出部223は、生成用音声コーパス511の音声から音声合成用の音声パラメータ223を抽出する。この部分は、一般的に、音声合成にも使われている技術であり、StraightやWorldなどのOSSを利用すれば、高品質な合成音声を得ることができる。
【0062】
音声モデル学習部224は、同じ音声から抽出され、PPGマージ部222によりマージされたPPG800と音声パラメータ抽出部223が抽出した音声パラメータ900に対して、変換用DNNの学習により、音声パラメータ生成モデル1000を生成する。すなわち、入力がPPG800と音声パラメータ900であり、その出力として、入力した音声パラメータ900の音声パラメータ生成モデル1000が得られる。一般的に音声のような時系列信号に対しては、Bi-LSTM(Bidirectional Long Short Term Memory:双方向長期短期記憶)を用いたほうがより高い性能が得られる。
【0063】
次に、
図8を用いて声質変換装置の機能とデータフローについて説明する。
声質変換装置100は、
図8に示されるように、特徴量解析部110、PPG抽出部111、PPGマージ部112、音声パラメータ生成部113、波形生成部114を有している。
【0064】
特徴量解析部110は、
図5に示した声質変換用データ作成装置200のPPG変換モデル学習部210の特徴量解析部213と同じ機能構成部である。PPG抽出部111とPPGマージ部112は、
図7に示した声質変換用データ作成装置200の音声パラメータ生成モデル学習部210のPPG抽出部221とPPGマージ部222と、それぞれ同じ機能構成部である。
【0065】
音声パラメータ生成部113は、声質変換用データ作成装置200の音声パラメータ生成モデル学習部210で得られた音声パラメータ生成モデル1000と、入力音声30とPPG変換モデル700から得られたPPG800を入力し、音声パラメータ900を生成する。音声パラメータ900は、例えば、音声の高さに相当する基本周波数、音色に相当するスペクトル包絡、有声音のかすれに相当する非周期性指標(Aperiodicity)がある。
【0066】
波形生成部(ボコーダーともいう)114は、生成された音声パラメータ900を用いて、音声波形を生成し、変換した音声を出力音声40として出力する。
【0067】
本実施形態の声質変換システムによれば、韻律情報を含んだPPG変換モデルによって、PPGを生成し、そのPPGを用いて音声パラメータを生成する。したがって、その音声パラメータによった声質変換により、話者の言語特有の韻律が考慮され、安定して高い音質の音質変換が可能となる。
【0068】
〔実施形態2〕
以下、本発明の実施形態2を、
図9を用いて説明する。
本実施形態では、実施形態1に示した声質変換装置を用いた応用の一つとして、敵対的生成ネットワーク(GAN:Generative adversarial network)学習を用いた音声特徴量学習システムの処理とそのデータフローを説明する。
【0069】
本実施形態の音声特徴量学習システムは、敵対的生成ネットワークに基づいた学習を行うものであり、Generator Training Stage Generator Training StageとDiscriminator Training Stageの二つの段階よりなる。
【0070】
本実施形態の音声特徴量学習システムは、異なる発話者から収録した多言語音声コーパス2010から、統一した声質の音声特徴量を抽出することができるシステムである。これにより最適化された音声特徴量を用いて、マルチリンガル音声合成システムを構築することができる。
【0071】
先ず、音声特徴量学習システムでは、言語が異なり、声質も異なる多言語音声コーパス2010(
図9では、音声コーパス2010-1,音声コーパス2010-2,…と表記)から、実施形態1の声質変換装置100による声質変換処理150を実行し、各々の言語に対して、目標の声質Zを有する多言語音声コーパス2060(
図9では、音声コーパス2060-1,音声コーパス2060-2,…と表記)を生成する。
【0072】
一方、音声特徴量学習システムでは、Generator Training Stageで、多言語音声コーパス2010から言語特徴量解析処理2002により、言語特徴量2020を生成し、音声特徴量解析処理2003により、収録音声の音声特徴量2030を生成する。
【0073】
次に、その言語特徴量2020と収録音声の音声特徴量2030を入力してモデル学習処理2000を行い、Generator(生成ネットワーク)による処理2001によって結果を出力する。Generatorによる処理2001では、ノイズを含んだデータによる合成音声特徴量2040を出力する。いわば、次に説明するDiscriminator(識別ネットワーク)をだますようなデータを生成する。
【0074】
また、Discriminator Training Stageでは、目標の声質Zを有する多言語音声コーパス2060から、言語特徴量解析処理2006により、変換後音声の音声特徴量2050を生成する。そして、Generator2001が生成した合成音声の特徴量2040と変換後音声の音声特徴量2050を入力してモデル学習処理2005を実行し、その結果をDiscriminatorに出力する。Discriminatorによる処理2004では、その真偽を識別し、真偽を判定するラベルを生成して、Generator Training Stageのモデル学習処理2000にフィードバックする。これによって、Generatorによる処理2001によって、自然でかつ声質Zの話者の声質に近い音声特徴量を生成することができる。
【0075】
すなわち、このGenerator Training Stageと、Discriminator Training Stageを反復し、お互いの学習処理をループ処理させることにより、高い音質を維持したターゲットの声質Zの合成音声の音声特徴量を得ることができ、その音声特徴量を用いて複数の言語をサポートするターゲット話者の多言語音声合成システムを構築可能となる。
【0076】
本の実施形態においては、声質変換装置100に用いるPPGは、多言語音声コーパス2010に含まれる全ての言語のPPGをマージするものを利用することが望ましい。例えば、日中英の3言語バイリンガル音声合成システムを構築する場合は、
図8に示したPPG抽出部において、日本語PPG、中国語PPG、英語PPGを抽出することが望ましい。
【0077】
なお、本実施形態の説明には、入力とする多言語音声コーパス2010には複数言語と複数の声質を含まれているものとして説明したが、単一言語単一声質でもよい。その場合には、音声合成の声質カスタマイズの効果を得ることができる。
【0078】
〔実施形態3〕
以下、本発明に係る実施形態3を、
図10を用いて説明する。
本実施形態では、実施形態1の声質変換装置100を用いた応用の一つとして、マルチリンガル音声合成システムを生成する処理について説明する。
先ず、言語が異なり、声質も異なる多言語音声コーパス3010(
図10では、音声コーパス3010-1,音声コーパス3010-2,…と表記)から、実施形態1の声質変換装置100による声質変換処理150を実行し、各々の言語に対して、目標の声質Zを有する多言語音声コーパス3020(
図9では、音声コーパス3020-1,音声コーパス3020-2,…と表記)を生成する。
【0079】
次に、多言語音声コーパス3020より、言語特徴量解析処理3001により、言語特徴量3030を生成し、音声特徴量解析処理3002により、収録音声の音声特徴量3040を生成する。
そして、それらを入力とする合成システム構築処理3000により、マルチリンガル音声合成システム3050を構築する。
【0080】
この音声合成システムを構築処理では、合成システム構築処理3000の合成手法によらず、音声合成システムを構築することができる。
【0081】
なお、本実施形態の説明には、入力とする多言語音声コーパス2010には複数言語と複数の声質を含まれているものとして説明したが、単一言語単一声質でもよい。その場合には、音声合成の声質カスタマイズの効果を得ることができる。
【0082】
〔実施形態4〕
以下、本発明に係る実施形態4を、
図11を用いて説明する。
図11は、声質変換により変換された音声コーパスを用いて、入力テキストに対する音声合成をするシステムを構築する処理の流れとデータフローを示す図である。
本実施形態の処理は、音声合成システム構築処理と音声合成処理の二段階よりなる。
【0083】
先ず、音声合成システム構築処理では、言語が異なり、声質も異なる多言語音声コーパス4010(
図10では、音声コーパス4010-1,音声コーパス4010-2,…と表記)から、言語特徴量解析処理4001により、言語特徴量4020を生成し、音声特徴量解析処理4002により、収録音声の音声特徴量4030を生成する。
そして、それらを入力とする合成システム構築処理4000により、マルチリンガル音声合成システム5000を構築する。
【0084】
次に、音声合成処理では、音声合成システム5000に入力テキスト5010を入力して、合成音声5020を生成し、それを入力して、実施形態1の声質変換装置100の声質変換処理150により、目標とする声質Zの合成音声5030を出力する。
【0085】
本実施形態では、言語が異なり、声質も異なる多言語音声コーパス4010から、入力テキストに対応した統一した声質Zの声質の合成音声を出力することができる。
【0086】
なお、本実施形態の説明には、入力とする多言語音声コーパス2010には複数言語と複数の声質を含まれているものとして説明したが、単一言語単一声質でもよい。その場合には、音声合成の声質カスタマイズの効果を得ることができる。