IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7192882発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
<>
  • 特許-発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム 図1
  • 特許-発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム 図2
  • 特許-発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム 図3
  • 特許-発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-12
(45)【発行日】2022-12-20
(54)【発明の名称】発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
(51)【国際特許分類】
   G10L 21/057 20130101AFI20221213BHJP
   G10L 25/30 20130101ALI20221213BHJP
【FI】
G10L21/057
G10L25/30
【請求項の数】 6
(21)【出願番号】P 2020562317
(86)(22)【出願日】2019-06-20
(86)【国際出願番号】 JP2019024438
(87)【国際公開番号】W WO2020136948
(87)【国際公開日】2020-07-02
【審査請求日】2021-03-23
(31)【優先権主張番号】P 2018242126
(32)【優先日】2018-12-26
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】廣谷 定男
【審査官】梅本 達雄
(56)【参考文献】
【文献】特開2016-218386(JP,A)
【文献】特開2016-218309(JP,A)
【文献】MORITZ,Niko et al.,A CHIME-3 CHALLENGE SYSTEM: LONG-TERM ACOUSTIC FEATURES FOR NOISE ROBUST AUTOMATIC SPEECH RECOGNITION,2015 IEEE Workshop on Automatic Speech Recognition and Understanding(ASRU),IEEE,2015年12月13日,pp.468-474
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/057
G10L 25/30
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含むベクトルを入力とし、上記第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルを記憶するモデル記憶部と、
上記第一グループの話者が発話した入力音声信号から、声道スペクトルに関する情報と、発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルとを抽出する特徴量抽出部と、
記第1特徴量ベクトルを上記発話リズム変換モデルに入力して変換後の発話リズムを得る変換部と、
上記変換後の発話リズムと上記入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する音声合成部とを含み、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方
を含む発話リズム変換装置。
【請求項2】
請求項1に記載の発話リズム変換装置であって、
上記第1特徴量ベクトルは、前後に連続する複数の音素の発話リズムに関する情報をさらに含むものである、
発話リズム変換装置。
【請求項3】
第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データを記憶する学習データ記憶部と、
上記学習データを用いて、上記第一音声信号から抽出した第1特徴量ベクトルを入力とし、上記第一音声信号の発話リズムを、上記第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する学習部とを含み、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方
を含むモデル学習装置。
【請求項4】
モデル記憶部に、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含むベクトルを入力とし、上記第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルが記憶されており、
特徴量抽出部が、上記第一グループの話者が発話した入力音声信号から声道スペクトルに関する情報と、発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルとを抽出し、
変換部が、上記第1特徴量ベクトルを上記発話リズム変換モデルに入力して変換後の発話リズムを得、
音声合成部が、上記変換後の発話リズムと上記入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する発話リズム変換方法であって、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム係数、及び有声無声フラグと基本周波数の、両方またはいずれか一方である
発話リズム変換方法。
【請求項5】
学習データ記憶部に、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報と付加特徴量とを含む第1特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データが記憶されており、
学習部が、上記学習データを用いて、上記第一音声信号から抽出した第1特徴量ベクトルを入力とし、上記第一音声信号の発話リズムを、上記第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習するモデル学習方法であって、
上記付加特徴量は、音素の駆動時点におけるメル周波数ケプストラム、及び有声無声フラグと基本周波数の、両方またはいずれか一方である
モデル学習方法。
【請求項6】
請求項1または2に記載の発話リズム変換装置もしくは請求項3に記載のモデル学習装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、音声信号の発話リズムを変換する技術に関する。
【背景技術】
【0002】
外国語を用いた音声コミュニケーションは、多くの人にとって困難な課題となっている。例えば、日本語を母語とする話者(以下、「日本語母語話者」と呼ぶ)は、英語を母語とする話者(以下、「英語母語話者」と呼ぶ)の話が聞き取れない、自分のしゃべった言葉が英語母語話者に伝わらず聞き返される等の問題を抱えている。日本語と英語の違いは、発話リズムやイントネーションなどの超文節的特徴になるため、これまで、日本語母語話者が発話した任意の英語音声の発話リズムを自動的に変換し、英語母語話者に聞き取り易くする技術が提案されてきた。
【0003】
例えば、特許文献1では、日本語母語話者および英語母語話者が発話した大量の英語音声を用いて、非負値時空間分解法により得られた時間関数の発話リズム変換則(コードブック)を用いて発話リズムの変換を行っている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2016-218386号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の発話リズム変換技術では、基本的に、ネイティブ話者が変換対象の音声と同一のテキストを発話した音声が必要とされる。これに対し、特許文献1の手法では、ネイティブ話者と非ネイティブ話者とが同一のテキストを発話した音声から発話リズムの変換則を表すガウス混合モデルを学習し、変換対象の音声信号の発話リズムにガウス混合モデルが最も良く当てはまるようにガウス分布を重み付け加算することで変換後の発話リズムを求める。これにより、ネイティブ話者が同一のテキストを発話した音声が存在しなくとも、発話リズムの変換を行うことができる。しかしながら、発話リズム間の関係は非線形であるため、特許文献1の手法では変換精度が十分に上がらないという課題があった。
【0006】
この発明の目的は、上記のような技術的課題に鑑みて、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも精度よく発話リズムを変換することができる発話リズム変換技術を実現することである。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、この発明の第一の態様の発話リズム変換装置は、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含む第1特徴量ベクトルを入力とし、第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークである発話リズム変換モデルを記憶するモデル記憶部と、第一グループの話者が発話した入力音声信号から声道スペクトルに関する情報と発話リズムに関する情報とを抽出する特徴量抽出部と、入力音声信号から抽出した発話リズムに関する情報を含む第1特徴量ベクトルを発話リズム変換モデルに入力して変換後の発話リズムを得る変換部と、変換後の発話リズムと入力音声信号から抽出した声道スペクトルに関する情報とを用いて出力音声信号を生成する音声合成部と、を含む。
【0008】
上記の課題を解決するために、この発明の第二の態様のモデル学習装置は、第一グループの話者が発話した第一音声信号から抽出した少なくとも音素の発話リズムに関する情報を含む第1特徴量ベクトルと第二グループの話者が発話した第二音声信号から抽出した発話リズムに関する情報との組からなる学習データを記憶する学習データ記憶部と、学習データを用いて、第一音声信号から抽出した第1特徴量ベクトルを入力とし、第一音声信号の発話リズムを、第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する学習部と、を含む。
【発明の効果】
【0009】
この発明によれば、予め学習したニューラルネットワークを用いて発話リズムを変換することで、発話リズムの変換を行う音声信号と同一のテキストから得られた音声信号がない場合でも精度よく発話リズムを変換することができる。
【図面の簡単な説明】
【0010】
図1図1は、発話リズム変換装置の機能構成を例示する図である。
図2図2は、発話リズム変換方法の処理手順を例示する図である。
図3図3は、モデル学習装置の機能構成を例示する図である。
図4図4は、モデル学習方法の処理手順を例示する図である。
【発明を実施するための形態】
【0011】
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0012】
[第一実施形態]
この発明の第一実施形態は、事前に学習されたニューラルネットワーク(以下、「発話リズム変換モデル」と呼ぶ)を用いて、第一グループの話者による音声信号を、第二グループの話者の発話リズムに変換する発話リズム変換装置および方法と、事前に収集された学習データを用いて、発話リズム変換装置および方法が用いる発話リズム変換モデルを学習するモデル学習装置および方法である。第一グループとは、例えば、第一言語(例えば、日本語)を母語とする話者(以下、「日本語母語話者」と呼ぶ)である。第二グループとは、例えば、第二言語(例えば、英語)を母語とする話者(以下、「英語母語話者」と呼ぶ)である。
【0013】
<発話リズム変換>
第一実施形態の発話リズム変換装置1は、図1に例示するように、モデル記憶部10、特徴量抽出部11、変換部12、および音声合成部13を備える。この発話リズム変換装置1が、図2に例示する各ステップの処理を行うことにより第一実施形態の発話リズム変換方法が実現される。
【0014】
発話リズム変換装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。発話リズム変換装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。発話リズム変換装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。発話リズム変換装置1の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。発話リズム変換装置1が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。
【0015】
モデル記憶部10には、予め学習した発話リズム変換モデルが記憶されている。発話リズム変換モデルは、第一グループの話者が発話した音声を収録した音声信号から抽出した特徴量ベクトルを入力とし、第一グループの話者の発話リズムを第二グループの話者の発話リズムに変換して出力するニューラルネットワークである。発話リズム変換モデルは、第一グループの話者が第二言語で発話した音声を収録した音声信号(以下、「第一音声信号」と呼ぶ)と、第二グループの話者が第二言語で発話した音声を収録した音声信号(以下、「第二音声信号」と呼ぶ)との組からなるデータの集合(以下、「学習データ」と呼ぶ)を用いて、深層学習により、予め学習されたものである。学習データは、例えば、日本語母語話者が英語で発話した音声信号と、英語母語話者が同一のテキストを英語で発話した音声信号とを組にした十分な量のデータである。
【0016】
ニューラルネットワークとしては、例えば、512ユニット、5層からなる多層パーセプトロン(MLP: Multi Layer Perceptron)や、5層、フィルタ数512で構成される畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)等を用いればよい。畳み込みニューラルネットワークを用いる場合、入力側から順にフィルタを、例えば、(10, 2), (8, 1), (6, 1), (3, 1), (1, 2)とすればよい。
【0017】
ステップS11において、特徴量抽出部11は、発話リズム変換装置1に入力された第一音声信号(以下、「入力音声信号」と呼ぶ)からフレーム毎に特徴量を抽出し、その特徴量を含む特徴量ベクトルを生成する。特徴量抽出部11は、抽出した特徴量ベクトルを、変換部12および音声合成部13へ出力する。
【0018】
具体的には、特徴量抽出部11は、入力音声信号を声道スペクトルに関する情報と発話リズムに関する情報とに分解し、発話リズムに関する情報を含む第1特徴量ベクトルを変換部12に、声道スペクトルに関する情報を含む第2特徴量ベクトルを音声合成部13にそれぞれ出力する。
【0019】
変換部12に出力される特徴量ベクトル(以下、「第1特徴量ベクトル」とする)は、少なくとも変換対象の音素ptに対応した発話リズム情報(Φ'1,t, D1,t)を含む。ただし、tは入力音声信号に含まれる音素の番号である。発話リズム情報の求め方は、例えば、特許文献1の段落[0011]-[0027]に記載された方法を用いることができる。抽出する特徴量は、発話リズム情報(Φ'1,t, D1,t)のほかに、音素ptの駆動時点(その音素を最もよく表す時刻)におけるメル周波数ケプストラム係数(MFCC: Mel-Frequency Cepstrum Coefficients)や基本周波数F0等、音声信号に関する既知の特徴量をさらに含んでいてもよい。
【0020】
生成する第1特徴量ベクトルは、連続する所定数の音素についての特徴量を並べたベクトルである。例えば、変換対象の音素ptの特徴量を((Φ'1,t, D1,t), MFCC1,t, F01,t)とすれば、特徴量ベクトルは連続する3つの音素pt-1, pt, pt+1の特徴量を並べた(Φ'1,t-1, Φ'1,t, Φ'1,t+1, D1,t-1, D1,t, D1,t+1, MFCC1,t-1, MFCC1,t, MFCC1,t+1, Flag1,t-1, F01,t-1, Flag1,t, F01,t, Flag1,t+1, F01,t+1)Tと表すことができる。ここで、・T(上付きのT)は行列またはベクトルの転置を表す。Flagは有声か無声かを表す情報であり、例えば有声の場合は1、無声の場合は0が設定される。
【0021】
特徴量抽出部11は、例えば、表1に示す要素からなる第1特徴量ベクトルを抽出する。表1において、1段目は要素の種類(属性)を表し、2段目はその要素を抽出した音素の番号を表し、3段目はその要素の次数を表す。
【0022】
【表1】
【0023】
Φ'Jは日本語母語話者のサンプリングした時間関数を10点でサンプリングしたものとする。ただし、Φ'Jの1次および10次(最終次)の値は常に0.5のため、第1特徴量ベクトルから除外する。DJは音素の継続時間長である。MFCCは音声認識等で用いられる音声信号から抽出されるメルケプストラム周波数であり、13次で分析し、0次項(ゲイン)を除いた13次を用いるものとする。F0は無音の値を補完してHzにlogを取り、平均値を引いて正規化したものとする。Flagは有声が1、無声が0のフラグ情報を表すものとする。この例では、入力音声信号に対する第1特徴量ベクトルは72次のベクトルとなる。
【0024】
発話リズム変換モデルを多層パーセプトロン(MLP)で構成する場合は、この72次のベクトルを変換部12へ入力する。発話リズム変換モデルを畳み込みニューラルネットワーク(CNN)で構成する場合は、1つ前の音素pt-1に関する24次のベクトル(Φ'1,t-1, D1,t-1, MFCC1,t-1, Flag1,t-1, F01,t-1)Tと、現在の音素ptに関する24次のベクトル(Φ'1,t, D1,t, MFCC1,t, Flag1,t, F01,t)Tと、1つ後の音素pt+1に関する24次のベクトル(Φ'1,t+1, D1,t+1, MFCC1,t+1, Flag1,t+1, F01,t+1)Tとからなる24×3行列を変換部12へ入力する。
【0025】
また、音声合成部13に出力される特徴量ベクトル(以下、「第2特徴量ベクトル」という)は、声道スペクトルに関する情報であり、例えばLSPパラメータ列である。特許文献1の[0011]-[0027]に記載された方法では、LSPパラメータの分析次数の総数をp、分析次数を表すインデックスをiとし、tを時刻を表すインデックスとして、入力音声信号である時系列信号Y(t)に対するLSPパラメータ列Y(t)={y1(t),…,yi(t),…,yp(t)}が得られるので、これを第2特徴量ベクトルとして用いれば良い。
【0026】
ステップS12において、変換部12は、特徴量抽出部11から入力音声信号の第1特徴量ベクトルを受け取り、モデル記憶部10に記憶された発話リズム変換モデルへその第1特徴量ベクトルを入力して、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した変換後の発話リズム情報(Φ'2,t, D2,t)を得る。変換部12は、得られた変換後の発話リズム情報(Φ'2,t, D2,t)を音声合成部13へ出力する。
【0027】
変換部12は、上述の72次の第1特徴量ベクトルを入力としたとき、ΦEを英語母語話者のサンプリングした時間関数を20点でサンプリングしたものとし、表2に示す要素からなる21次のベクトルを出力する。
【0028】
【表2】
【0029】
ステップS13において、音声合成部13は、特徴量抽出部11から入力音声信号の第2特徴量ベクトルを、変換部12から変換後の発話リズム情報(Φ'2,t, D2,t)を受け取り、入力音声信号の第2特徴量ベクトルと変換後の発話リズム情報(Φ'2,t, D2,t)とを用いて、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した出力音声信号を合成して出力する。音声合成の処理は、例えば、特許文献1の段落[0048]-[0054]に記載された方法を用いることができる。
【0030】
<モデル学習>
第一実施形態のモデル学習装置2は、図3に例示するように、モデル記憶部10、学習データ記憶部20、および学習部21を備える。学習部21は、変換部211、終了判定部212、およびパラメータ更新部213を備える。このモデル学習装置2が、図4に例示する各ステップの処理を行うことにより第一実施形態のモデル学習方法が実現される。
【0031】
モデル学習装置2は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。モデル学習装置2は、例えば、中央演算処理装置の制御のもとで各処理を実行する。モデル学習装置2に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。モデル学習装置2の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。モデル学習装置2が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。モデル学習装置2が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
【0032】
学習データ記憶部20には、予め収集した学習データが記憶されている。学習データは、第一音声信号から抽出した発話リズムに関する情報を含む第1特徴量ベクトルと、第二音声信号から抽出した発話リズムに関する情報との組からなるデータの集合である。学習データは、例えば、日本語母語話者が英語で発話した音声信号の第1特徴量ベクトルと、英語母語話者が同一のテキストを英語で発話した音声信号の発話リズムに関する情報とを組にした十分な量のデータである。第1特徴量ベクトルに含まれる特徴量の種類(属性)は、発話リズム変換装置1の特徴量抽出部11で抽出する特徴量と同様とする。学習データは、予め抽出した特徴量ベクトルではなく、音声信号そのものであってもよい。その場合、モデル学習装置2は、学習データの音声信号から特徴量ベクトルを都度抽出する特徴量抽出部を備えるように構成すればよい。
【0033】
ステップS21において、学習部21は、学習データ記憶部20に記憶された学習データを用いて、第一音声信号から抽出した第1特徴量ベクトルを入力とし、第一音声信号の発話リズムを第二グループの話者の発話リズムに変換して出力するニューラルネットワークを学習する。学習部21は、学習済みのニューラルネットワークのパラメータを発話リズム変換モデルとしてモデル記憶部10へ記憶する。
【0034】
ニューラルネットワークの学習は、具体的には、以下のようにして行う。
【0035】
ステップS211において、変換部211は、予め適当な初期値が設定されたニューラルネットワークに、学習データ中の第一音声信号の第1特徴量ベクトルを入力し、変換後の発話リズム情報の推定値を求める。
【0036】
ステップS212において、終了判定部212は、所定の終了条件を満たすか否かを判定する。終了条件を満たす場合(YES)には、学習を終了する。終了条件を満たさない場合(NO)には、ステップS213を実行し、その後再度ステップS211を実行する。所定の終了条件は、予め設定された繰り返し回数に到達したこと、発話リズム情報の推定値と正解データとの誤差が所定の閾値以下になったこと、パラメータの更新量が所定の閾値以下となったこと等を用いればよい。
【0037】
ステップS213において、パラメータ更新部213は、変換部211で求めた発話リズム情報の推定値と、入力した第1特徴量ベクトルに対応する学習データ中の第二音声信号の発話リズム情報(正解データ)との比較結果に応じて、ニューラルネットワークの各パラメータを更新する。パラメータの更新は周知の誤差伝搬学習法などにより行えばよい。例えば、発話リズム情報の推定値と正解データとの平均二乗誤差を最小化するようにパラメータの更新(学習)を行う。
【0038】
学習部21は、学習が終了したときのニューラルネットワークのパラメータをモデル記憶部10へ記憶する。発話リズム変換装置1へ直接記憶するために学習済みのニューラルネットワークのパラメータを出力し、モデル学習装置2はモデル記憶部10を備えないように構成してもよい。発話リズム変換装置1の変換部12は、学習済みのパラメータを設定したニューラルネットワークを発話リズム変換モデルとして、第一実施形態で説明した処理を実行する。
【0039】
[第二実施形態]
第一実施形態では、日本語母語話者の3音素組の時間関数を英語母語話者の3音素組の中心音素の時間関数に変換していた。これに対して、第二実施形態では、日本語母語話者の時間関数全体を英語母語話者の時間関数全体に変換するように発話リズム変換モデルを構成する。第一実施形態の発話リズム変換モデルは、多層パーセプトロン(MLP)や畳み込みニューラルネットワーク(CNN)で構成したが、第二実施形態の発話リズム変換モデルは、再帰型ニューラルネットワーク(RNN)で構成する。
【0040】
第一実施形態では、3音素組による局所的な変換が行われていたが、発話リズムは超文節的特徴であり、局所的な近似では不十分である。また、従来技術では、日本語母語話者の英語音声に含まれる言いよどみや言い間違いなどを別のモデルで表現し、不要であれば時間関数から削除していたが、この方法では時間関数が不連続になってしまうという問題がある。そのため、第二実施形態では、時系列を扱うことが可能な、自然言語処理や音声処理で広く用いられている、再帰型ニューラルネットワークを時間関数の変換に用いることにより、発話全体を考慮しながら時間関数の推定を可能とする。また、言いよどみや言い間違いなどに関して別のモデルを必要としないため、より自然な発話リズム変換を行うことが可能となる。
【0041】
<発話リズム変換>
第二実施形態の特徴量抽出部11は、入力音声信号から発話リズムに関する情報を含む第1特徴量ベクトルと声道スペクトルに関する情報を含む第2特徴量ベクトルとを抽出する。各音素から求める発話リズム情報は第一実施形態と同様であるが、生成する第1特徴量ベクトルは、入力されたすべての音素(すなわち、発話全体)についての特徴量を連結したベクトル系列とする。
【0042】
第二実施形態の発話リズム変換モデルは再帰型ニューラルネットワークで構成するため、ある音素ptに関する特徴量ベクトルは1つの音素の特徴量のみからなり、例えば、表3に示す要素からなる24次のベクトルとなる。
【0043】
【表3】
【0044】
第二実施形態の特徴量抽出部11は、発話リズム情報に加え、日本語母語話者の言いよどみや言い間違いなどを考慮するために、音素分類情報を抽出して第1特徴量ベクトルに含めてもよい。音素分類情報とは、例えば、発話開始を0、発話終了を1、ショートポーズを2、不要な挿入母音を3、などに設定した情報である。
【0045】
第二実施形態の変換部12は、発話リズム変換モデルへ第1特徴量ベクトルを入力し、入力音声信号の発話リズムを第二グループの話者の発話リズムに変換した変換後の発話リズム情報を得る。各音素について得られる変換後の発話リズム情報は、第一実施形態と同様であり、例えば、表2に示した要素からなる21次のベクトルであるが、発話リズム変換モデルの出力ベクトルは、すべての音素(すなわち、発話全体)についての特徴量を連結したベクトル系列となる。
【0046】
特徴量抽出部11が生成して音声合成部13に入力される第2特徴量ベクトルや、音声合成部13の処理は、第一実施形態と同様である。
【0047】
<モデル学習>
第二実施形態で用いる学習データは、第一実施形態と同様に、例えば、日本語母語話者と英語母語話者が同一の英文(例えば、"I have a pen"など)を英語で発話したパラレルデータである。同じ英文ではあるが、日本語母語話者の英語音声は言いよどみや言い間違いなどが含まれるため、第二実施形態では、非パラレルなデータを扱える注意機構(attention)付系列変換モデル(Seq2Seq)を用いる。注意機構とは、Decoderが推論するためにEncoderのどの時刻に注意するかを示すものである。リズム変換では、Encoderの時刻とDecoderの時刻との対応がほぼ対角になることから、例えば、Guided Attention Loss(参考文献1参照)を利用する。これにより、言いよどみや言い間違いなどをスキップなどすることができる。ネットワーク構造は、音声合成などで用いられるTacotron2(参考文献2参照)を参考にして構築する。なお、入力ベクトルと出力ベクトルの音素数は一致していなくてもよい。
【0048】
〔参考文献1〕Tachibana, Hideyuki & Uenoyama, Katsuya & Aihara, Shunsuke. (2017). Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention.
〔参考文献2〕Shen, J.; Pang, R.; Weiss, R.J.; Schuster, M.; Jaitly, N.; Yang, Z.; Chen, Z.; Zhang, Y.; Wang, Y.; Skerrv-Ryan, R.; et al. Natural TTS Synthesis by ConditioningWavenet on MEL Spectrogram Predictions. In Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, AB, Canada, 12-17 May 2018; pp. 4779-4783. doi:10.1109/ICASSP.2018.8461368.
【0049】
学習のための目的関数は、例えば、|Y^-Y|2 + |P^-P|2 + wGALとし、これを最小化するようにネットワークを学習する。ここで、Yは表3に示した特徴量ベクトルであり、Pは音素分類情報であり、^は推定値を表す。GALはGuided Attention Lossを表し、参考文献1の4.1章に記載されたWntに相当する。wは重みであり、例えば10000とする。|P^-P|2の代わりに、Pに対するエントロピーを用いてもよい。
【0050】
[変形例]
発話リズム変換モデルに入力する第1特徴量ベクトルは、ゲイン(声の大きさ)、音素、調音特徴などを加えてもよい。
【0051】
第一実施形態では、変換対象の音素ptと前後の音素pt-1, pt+1との3つ組を第1特徴量ベクトルに含めたが、音素pt-2, pt-1, pt, pt+1, pt+2の5つ組を第1特徴量ベクトルに含めてもよい。
【0052】
発話リズム変換装置1の音声合成部13において、出力ベクトルの基本周波数F0を用いて、入力音声信号のイントネーションを変換した変換後音声信号を合成してもよい。
【0053】
上述の実施形態では、発話リズム変換装置1とモデル学習装置2とを別々の装置として構成する例を説明したが、発話リズム変換装置1とモデル学習装置2とが備えるべき機能をすべて備えた一台の発話リズム変換装置として構成してもよい。すなわち、モデル記憶部10、特徴量抽出部11、変換部12、音声合成部13、学習データ記憶部20、および学習部21を含む発話リズム変換装置を構成することも可能である。
【0054】
第一および第二実施形態により変換された時間関数およびF0は、ニューラルネットワークを用いたとしても、人間のそれらと比べて変動が小さく、自然な合成音声とならないことがわかっている。参考文献3の敵対的生成ネットワーク(GAN)を用いることで、この問題を解消することも可能である。
【0055】
〔参考文献3〕Y. Saito, S. Takamichi and H. Saruwatari, "Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 26, no. 1, pp. 84-96, Jan. 2018.
【0056】
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
【0057】
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0058】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0059】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0060】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0061】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
図1
図2
図3
図4