【解決手段】前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つ前のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、当該セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成する。
前記音声信号生成部は、前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項2記載の音声変換装置。
前記音声信号生成部が前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項5記載の音声変換方法。
【発明を実施するための形態】
【0014】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声特徴量を変換し、変換した特徴量から音声信号を合成することを目的とした音声変換技術である。
【0015】
<本発明の実施の形態の概要>
本発明の実施の形態では、上記の2つの課題に対し、以下により解決する。
(第一の課題に対する解決策)
連続する複数フレーム(セグメント)の特徴量を連結したもの(セグメント特徴量)を入出力としたNNを構築し、セグメントごとに変換を行う。これにより特徴量系列の局所的な時間連続性とコンテキストを考慮した変換が可能になる。
【0016】
また、セグメントの重複区間における変換特徴量が矛盾しないように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える。これにより特徴量の大域的な連続性を保証することができる。
【0017】
(第二の課題に対する解決策)
音声特徴量として、
(1)メルケプストラム、またはSTRAIGHT(非特許文献2)やWORLD(非特許文献3)などによって得られるスペクトル包絡、または短時間フーリエ変換(Short Time Fourier Transform; STFT)やウェーブレット変換(Constant Q Transform; CQT) などによって得られる振幅スペクトル
(2)基本周波数、又は
(3)非周期性指標
を用いる。
【0018】
[非特許文献2]Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuichi Nisimura, Toshio Irino, Hideki Banno,“Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation," in Proc. 2008 IEEE
[非特許文献3]M. Morise, F. Yokomori, and K. Ozawa, “WORLD: A vocoder-based high-quality speech synthesis system for real-time applications," IEICE Transactions on Information and Systems、 Vol. E99-D,No. 7, pp. 1877-1884, 2016.
【0019】
また、敵対的生成ネットワーク(Generative Adversarial Network; GAN) を用いたポストフィルタ(非特許文献4)により変換特徴量系列をより自然音声らしくなるようにさらに変換する。
【0020】
[非特許文献4]金子卓弘、 亀岡弘和、 北条伸克、 井島勇祐、 平松薫、 柏野邦夫. “統計的パラメトリック音声合成のための敵対的学習に基づくポストフィルタリング、” 電子情報通信学会技術研究報告、 2016.
【0021】
音声特徴量としてメルケプストラムを用いる場合はメルケプストラムボコーダ、STRAIGHTスペクトル包絡を用いる場合はSTRAIGHT ボコーダ、WORLD スペクトル包絡を用いる場合はWORLDボコーダを用いて音声信号を生成する。音声特徴量として振幅スペクトルを用いる場合は位相推定法(非特許文献5、6)を用いて音声信号を生成する。
【0022】
[非特許文献5]Daniel W. Griffin and Jae S. Lim, “Signal estimation from modified short-time Fourier transform, "IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No. 2、 1984.
[非特許文献6]Tomohiko Nakamura and Hirokazu Kameoka、 “Fast signal reconstruction from magnitude spec-trogram of continuous wavelet transform based on spectrogram consistency、" in Proc. The 17th International Conference on Digital Audio Effects (DAFx-14)、 pp. 129-135、 Sep. 2014.
【0023】
音声特徴量としてスペクトル包絡、振幅スペクトルなどを用いる場合は学習規準にKullback-Leibler ダイバージェンスや板倉齋藤距離などの非負値同士の近さを測る規準を用いる。
【0024】
<既存手法>
深層学習を用いた音声変換手法がMohammadiらにより提案されている(上記非特許文献1参照)。この手法では、元音声から目標音声への特徴量の変換関数がニューラルネットワーク(Neural Network; NN)により表現され、元音声と目標音声のパラレルデータ(非線形時間伸縮(Dynamic Time Warping; DTW) によって時間整合された特徴量系列のペア)を用いて当該NNのパラメータを学習することで特徴量変換関数が構成される。上記非特許文献1では、音声特徴量としてメルケプストラムが用いられ、積層自己符号化器を
用いた事前学習を行うことで学習を効率化する方法が用いられている。積層自己符号化器とは文字どおり単層の自己符号化器を積み重ねたもので、具体的には、単層の自己符号化器を学習することで得られる中間層を別の自己符号化器の入力層として学習する操作を繰り返すことにより構成される多層の自己符号化器である(
図1)。
【0025】
自己符号化器の入力をxとすると、出力^x
【0027】
が
となるようにパラメータθを決定することが自己符号化器学習の目的である。xと^xとの距離を二乗誤差で測る場合、学習規準L(θ) は
【0029】
となる。自己符号化器の目的は入力x から冗長な情報をそぎ落とし、コンパクトな表現を得ることにあるので、h
θが恒等写像となるようでは意味をなさない。このため、
図1のように中間層の次元を入力次元より小さくしたり、適切な正則化を行ったりすることが多い。非特許文献1では、
図1のような多層の自己符号化器を学習したのち、中間層に層を追加する(
図1から
図2となるようにする) ことで変換モデルを構築している。
【0030】
メルケプストラムは音声の短時間フレームごとの声道特性を特徴付けた低次元の特徴量であるため、メルケプストラムを特徴量とする場合はNNのパラメータ数は比較的少数となる利点がある一方で、フレーム間の特徴量の連続性やコンテキストを考慮した変換が行えないのが本アプローチの難点である。
【0031】
<提案手法>
<基本方式>
非特許文献1に記載の手法では音声特徴量の変換がフレームごとに独立に行われる。一方、提案手法では、音声特徴量の局所的な系列から系列への変換を行えるようにするため、
図3のように複数フレーム(セグメント)の音声特徴量系列を連結したもの(セグメント特徴量)をNNの入出力とすることを考える。セグメント間に重複区間がない場合、変換特徴量系列がセグメント境界において不連続的になる可能性があるため、各セグメントのフレームは互いに重複を許すものとする。
図3は、1セグメントのフレーム数を10、重複区間のフレーム数を5とした場合の例である。変換特徴量の大域的な連続性を保証するためには、セグメントの重複区間における変換特徴量が矛盾しないようにする必要がある。そこで、
図4の例のように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える仕組みを導入する。例えば
図3のようにセグメント分けした場合、1番目のセグメントと2 番目のセグメントでは6〜10番目のフレームが重複する。そこで、2番目のセグメントの変換においては、1番目のセグメントにおける変換特徴量系列のうち6〜10番目のフレームに相当するものを入力の一部として与える。本方式では、
図5のように逐次的に特徴量系列を変換していくことができるので、オンライン処理に向いている。
【0032】
<学習方法>
まず、学習データとして同一発話内容の音声データのペア
を用意する。x
tを元音声データ、y
tを目標音声データとする。これらに音声分析(メルケプストラム分析、STRAIGHT分析、WORLD分析、基本周波数推定、STFT、CQT等)を行い、音声特徴量系列
を得る。ただし、N、Mはフレーム数である。同一発話内容の音声データであっても発話タイミングが揃っているとは限らないため、DTWを用いて
の時間整合を行う。ここではf
ymの方をf
xnに合わせて時間伸縮することとする。時間整合された音声特徴量系列
をL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量
を得る。ただし、
はl番目のセグメントの始端・終端フレームの番号を表す。ここで、各セグメントに
図5のように重複区間があるものとし、l-1番目とl番目のセグメントの重複区間(フレーム番号の集合)を
とする。l-1番目のセグメントの入力に対するNNの出力を
とし、重複区間
における目標音声のセグメントl−1のセグメント特徴量
の一部を
とする。このとき、l番目のセグメントにおける出力
は
【0034】
と書ける。g
θはパラメータθのNNにより表現される変換関数である。前述のとおりl番目のセグメントの出力は、l番目のセグメントの元音声データ
とl−1番目の目標セグメント特徴量の重複部
に依存して決まる。
は重複区間
に該当する
の一部であるため,この仕組みにより、
が
のユニットに入る値とできるだけ一致するように変換則を学習することができるようになる。
【0035】
学習ステップでは、
のペアデータを用い、
となるようにパラメータθを学習するのが目的である。
と
との距離を二乗誤差で測る場合、学習規準
【0037】
となる。また、
と
がともに非負値の場合は、DEU の代わりにKullback-Leibler (KL) ダイバージェンス
【0041】
を学習規準として用いることもできる。ただし、x
i、 y
iはベクトルx、yの要素とする。
【0042】
また、音声変換モデルの学習においても、上記非特許文献1に記載の手法と同様に積層自己符号化器を用いた事前学習を用いることができる。自己符号化器の出力
は
【0044】
とし、上述の規準を用いて
となるようにθの最適化を行う。積層自己符号化器を構築したのち、非特許文献1に記載の手法と同様に中間層を追加し、全体学習を行うことで変換関数g を構築できる。
【0045】
<生成方法>
音声変換モデルの学習でθが決まれば、
【0047】
により元音声のセグメント特徴量系列s
xから目標音声のセグメント特徴量系列
を逐次的に算出することができる。ただし、
は、セグメントl−1における出力
の、重複区間
に該当する部分とする。
【0048】
と
は重複区間において同一フレームの特徴量系列を含むため、それらの平均値や中央値を取ることで音声特徴量系列
を得ることができる。また、これを用いて信号を合成すれば目標音声の信号
を得ることができる。
【0049】
<音声特徴量の例>
本実施の形態の手法では音声特徴量として、メルケプストラムやSTRAIGHT(非特許文献2)やWORLD(非特許文献3)により抽出されるスペクトル包絡などの声道スペクトル特性を反映した量や短時間フーリエ変換(STFT)やウェーブレット変換(CQT)で抽出される振幅(まやはパワー)スペクトル、基本周波数(F0)値、STRAIGHT やWORLDで抽出される非周期性指標などを用いることができる。それぞれの分析手法に備わっている合成手法を用いれば特徴量系列から信号を合成することができる。音声特徴量として振幅(またはパワー)スペクトルを用いる場合は位相再構成方法(STFTの場合はGriffin らの手法(非特許文献5)、CQT の場合は中村らの手法(非特許文献6))などを用いて信号を得ることができる。
【0050】
<ポストフィルタリング>
信号を合成する前に、特徴量系列
に対してポストフィルタリングを行うこともできる。
【0051】
ポストフィルタリングの手法としては例えば金子らの手法(非特許文献4)がある。非特許文献4では、敵対的生成ネットワーク(Generative Adversarial Network; GAN) に基づく手法であり、自然音声と合成音声(または変換音声)の特徴量系列に現れるミクロな差異の統計分布をGAN により学習する方法である。本発明の実施の形態の手法で生成した目標音声の特徴量系列
と学習に用いた目標音声の特徴量系列
を、非特許文献4の手法における学習データとすることで自然音声と変換音声の特徴量系列のギャップを埋めるポストフィルタを構成することができる。
【0052】
<システム構成>
<音声変換モデル学習装置の構成>
次に、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置、及び学習されたニューラルネットワークを用いて変換対象の音声信号を目標の音声信号に変換する音声変換装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
【0053】
図6に示すように、本発明の実施の形態に係る音声変換モデル学習装置は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0054】
図6に示すように、音声変換モデル学習装置100は、入力部10と、演算部20と、出力部50とを備えている。
【0055】
入力部10は、学習サンプルの変換対象の音声信号(例えば電気音声)の時系列データと目標の音声信号(例えば自然音声)の時系列データとのペアを受け付ける。
【0056】
演算部20は、音声特徴量抽出部22と、学習部24とを備えている。
【0057】
音声特徴量抽出部22は、入力部10によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、音声特徴量抽出部22は、入力部10によって受け付けた学習サンプルの目標の音声信号の時系列データから、音声特徴量系列を抽出する。音声特徴量抽出部22は、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との時間整合を行う。
【0058】
また、音声特徴量抽出部22は、時間整合された、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との各々を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
【0059】
学習部24は、変換対象の音声信号のL個のセグメント特徴量と、目標の音声信号のL個のセグメント特徴量とに基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号のl番目のセグメント特徴量が出力されるように、ニューラルネットワークのパラメータを学習する。
【0060】
学習部24により学習されたニューラルネットワークのパラメータが、出力部50により出力される。
【0061】
<音声変換装置の構成>
図7に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0062】
図7に示すように、音声変換装置150は、入力部60と、演算部70と、出力部90とを備えている。
【0063】
入力部60は、変換対象の音声信号(例えば電気音声)の時系列データを受け付ける。
【0064】
演算部70は、音声特徴量抽出部72と、音声特徴量変換部74と、音声信号生成部76とを備えている。
【0065】
音声特徴量抽出部72は、入力部60によって受け付けた変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、音声特徴量抽出部72は、抽出された音声特徴量系列を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
【0066】
音声特徴量変換部74は、音声変換モデル学習装置100で学習されたニューラルネットワークのパラメータと、変換対象の音声信号のL個のセグメント特徴量に基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、l番目のセグメントのセグメント特徴量を逐次出力する。
【0067】
音声信号生成部76は、音声特徴量変換部74によってセグメントの各々について出力されたセグメント特徴量に基づいて、目標の音声信号の時系列データを生成する。ここで、セグメントの重複部分についての目標の音声信号を生成する際には、セグメント特徴量から得られる、当該セグメントの重複部分についての特徴量系列を統合した結果に基づいて、当該セグメントの重複部分についての目標の音声信号を生成する。
【0068】
<音声変換モデル学習装置の作用>
次に、本実施の形態に係る音声変換モデル学習装置100の作用について説明する。まず、学習サンプルの変換対象の音声信号(例えば電気音声)の時系列データと目標の音声信号(例えば自然音声)の時系列データとのペアが、音声変換モデル学習装置100に入力されると、音声変換モデル学習装置100において、
図8に示す学習処理ルーチンが実行される。
【0069】
まず、ステップS100において、入力部10によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、入力部10によって受け付けた学習サンプルの目標の音声信号の時系列データから、音声特徴量系列を抽出する。そして、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列の時間整合を行う。
【0070】
ステップS102では、時間整合された、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との各々を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
【0071】
ステップS104では、変換対象の音声信号のL個のセグメント特徴量と、目標の音声信号のL個のセグメント特徴量とに基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号のl番目のセグメント特徴量が出力されるように、ニューラルネットワークのパラメータを学習する。そして、学習されたニューラルネットワークのパラメータが、出力部50により出力され、学習処理ルーチンを終了する。
【0072】
<音声変換装置の作用>
次に、本実施の形態に係る音声変換装置150の作用について説明する。まず、音声変換モデル学習装置100によって学習されたニューラルネットワークのパラメータが、音声変換装置150に入力される。また、変換対象の音声信号(例えば電気音声)の時系列データが、音声変換装置150に入力されると、音声変換装置150において、
図9に示す音声変換処理ルーチンが実行される。
【0073】
まず、ステップS110において、入力部60によって受け付けた変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。
【0074】
ステップS112において、抽出された音声特徴量系列を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
【0075】
ステップS114では、音声変換モデル学習装置100で学習されたニューラルネットワークのパラメータと、変換対象の音声信号のL個のセグメント特徴量に基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、l番目のセグメントのセグメント特徴量を逐次出力する。
【0076】
ステップS116では、上記ステップS114でセグメントの各々について出力されたセグメント特徴量に基づいて、目標の音声信号の時系列データを生成し、出力部90により出力して、音声変換処理ルーチンを終了する。
【0077】
<実験>
本発明の実施の形態による変換結果と、上記非特許文献1に記載の手法による変換結果を示す。ここでは音声特徴量として25次元のメルケプストラムを用いている。
図10は学習時にテストデータとして用いた音声特徴量系列を示している。
図11は、
図10について本発明の実施の形態の手法で変換した結果として得られた音声特徴量系列を示しており、
図12は、
図10について非特許文献1に記載の手法で変換した結果として得られた音声特徴量系列を示している。これらの図は横軸が時間軸、縦軸がメルケプストラムの各次元に対応している。
【0079】
以上説明したように、本発明の実施の形態に係る音声変換モデル学習装置によれば、前後のセグメントと重複したセグメントとし、セグメントの各々について順番に、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つ前のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列を出力するように、ニューラルネットワークを学習することにより、変換音声の音質を向上させることができるニューラルネットワークを学習することができる。
【0080】
また、本発明の実施の形態に係る音声変換装置によれば、前後のセグメントと重複したセグメントとし、セグメントの各々について順番に、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つの前のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、当該セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる。
【0081】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0082】
例えば、上述した実施形態では、音声変換モデル学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
【0083】
また、前から順番にセグメントの各々について、ニューラルネットワークに入力する場合を例に説明したが、これに限定されるものではなく、例えば、後ろから順番にセグメントの各々について、ニューラルネットワークに入力するようにしてもよい。この場合には、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l+1番目のセグメントについてのニューラルネットワークの出力とを入力とすればよい。
【0084】
また、上述の音声変換モデル学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0085】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。