特開2018-136430(P2018-136430A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 筑波大学の特許一覧

特開2018-136430音声変換モデル学習装置、音声変換装置、方法、及びプログラム
<>
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000054
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000055
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000056
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000057
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000058
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000059
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000060
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000061
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000062
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000063
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000064
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000065
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000066
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000067
  • 特開2018136430-音声変換モデル学習装置、音声変換装置、方法、及びプログラム 図000068
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2018-136430(P2018-136430A)
(43)【公開日】2018年8月30日
(54)【発明の名称】音声変換モデル学習装置、音声変換装置、方法、及びプログラム
(51)【国際特許分類】
   G10L 21/007 20130101AFI20180803BHJP
   G06N 3/08 20060101ALI20180803BHJP
【FI】
   G10L21/007
   G06N3/08
【審査請求】未請求
【請求項の数】7
【出願形態】OL
【全頁数】22
(21)【出願番号】特願2017-30432(P2017-30432)
(22)【出願日】2017年2月21日
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】亀岡 弘和
(72)【発明者】
【氏名】金子 卓弘
(72)【発明者】
【氏名】平松 薫
(72)【発明者】
【氏名】柏野 邦夫
(72)【発明者】
【氏名】小山田 圭佑
(72)【発明者】
【氏名】安東 弘泰
(57)【要約】
【課題】変換音声の音質を向上させることができるようにする。
【解決手段】前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つ前のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、当該セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成する。
【選択図】図4
【特許請求の範囲】
【請求項1】
変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置であって、
前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する学習部
を含む音声変換モデル学習装置。
【請求項2】
変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、
前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力する音声特徴量変換部と、
前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、
を含む音声変換装置。
【請求項3】
前記音声信号生成部は、前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項2記載の音声変換装置。
【請求項4】
変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、
学習部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する
音声変換モデル学習方法。
【請求項5】
変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、
音声特徴量変換部が、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、
前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、
音声信号生成部が、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する
音声変換方法。
【請求項6】
前記音声信号生成部が前記セグメントの重複部分についての前記目標の音声信号を生成する際に、前記セグメントの重複部分について出力された前記特徴量系列を統合した結果に基づいて、前記セグメントの重複部分についての前記目標の音声信号を生成する請求項5記載の音声変換方法。
【請求項7】
請求項1に記載の音声変換モデル学習装置又は請求項2若しくは3に記載の音声変換装置の各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声変換モデル学習装置、音声変換装置、方法、及びプログラムに係り、変換対象の音声信号を目標の音声信号に変換するための音声変換モデル学習装置、音声変換装置、方法、及びプログラムに関する。
【背景技術】
【0002】
音声信号を、発話内容を変えず非言語情報およびパラ言語情報を自動変換する技術を声質変換といい、音声合成の話者性変換、発声障碍者のための発話補助、帯域拡張、非母語話者音声のコミュニケーション支援などへの応用が期待されている。
【0003】
近年、深層学習を用いた音声変換手法(非特許文献1)が提案されている。この手法では、元音声から目標音声への特徴量の変換関数がニューラルネットワーク(Neural Network; NN)により表現される。元音声と目標音声のパラレルデータ(非線形時間伸縮(Dynamic Time Warping; DTW)によって時間整合された特徴量系列のペア)を用いてNNのパラメータを学習することで、特徴量変換関数を構成することができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Seyed Hamidreza Mohammadi and Alexander Kain, “Voice conversion using deep neural networks with speaker-independent pre-training,” in Proc. 2014 IEEE Workshop on Spoken Language Tech-nology (SLT 2014)、 pp. 19-23, 2014.
【発明の概要】
【発明が解決しようとする課題】
【0005】
この方法には以下に示す2つの課題が挙げられる。
第一に、各フレームの音声特徴量の変換が独立に行われるため、特徴量の時間連続性や前後のコンテキストを考慮した変換を行うことできない。第二に、特徴量がメルケプストラムであるため、音声信号を得るためにメルケプストラムボコーダを用いることが前提になっている。このため、変換音声の音質には一定の限界がある。
【0006】
本発明は、上記課題を解決するためになされたものであり、変換音声の音質を向上させることができる音声変換モデル学習装置、音声変換装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成するために本発明に係る音声変換モデル学習装置は、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置であって、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する学習部を含んで構成されている。
【0008】
本発明に係る音声変換モデル学習方法は、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置における音声変換モデル学習方法であって、学習部が、前記変換対象の音声信号の時系列データと前記目標の音声信号の時系列データとのペアを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについての前記ニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列を出力するように、前記ニューラルネットワークを学習する。
本発明に係る音声変換装置は、変換対象の音声信号を目標の音声信号に変換する音声変換装置であって、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力する音声特徴量変換部と、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する音声信号生成部と、を含んで構成されている。
【0009】
本発明に係る音声変換方法は、変換対象の音声信号を目標の音声信号に変換する音声変換装置における音声変換方法であって、音声特徴量変換部が、前記変換対象の音声信号の時系列データを入力とし、連続する複数フレームであるセグメントの各々を、前後のセグメントと重複したセグメントとし、前記セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される、連続する複数フレームの特徴量からなる特徴量系列と、前記セグメントの前または後のセグメントとの重複部分に対応する、前記セグメントの前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号についての、前記セグメントに対応する、連続する複数フレームの特徴量からなる特徴量系列を出力するように予め学習された前記ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、音声信号生成部が、前記音声特徴量変換部によって前記セグメントの各々について出力された前記特徴量系列に基づいて、前記目標の音声信号の時系列データを生成する。
【0010】
本発明に係るプログラムは、上記の音声変換モデル学習装置または音声変換装置の各部としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0011】
以上説明したように、本発明の音声変換モデル学習装置、方法、及びプログラムによれば、前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列と、前または後のセグメントとの重複部分に対応する、前または後のセグメントについてのニューラルネットワークの出力とを入力とし、前記目標の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列を出力するように、前記ニューラルネットワークを学習することにより、変換音声の音質を向上させることができるニューラルネットワークを学習することができる、という効果が得られる。
【0012】
また、本発明の音声変換装置、方法、及びプログラムによれば、前後のセグメントと重複したセグメントとし、セグメントの各々について所定の順序で、前記変換対象の音声信号の時系列データのうち、前記セグメントから抽出される特徴量系列と、前または後のセグメントとの重複部分に対応する、前または後のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、前記目標の音声信号についての、前記セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる、という効果が得られる。
【図面の簡単な説明】
【0013】
図1】多層自己符号化器の一例を説明するための図である。
図2】中間層に層を追加する方法を説明するための図である。
図3】音声特徴量系列のセグメント分けの方法を説明するための図である。
図4】ニューラルネットワークの入出力の一例を説明するための図である。
図5】ニューラルネットワークの入出力の一例を説明するための図である。
図6】本発明の実施の形態に係る音声変換モデル学習装置の構成を示す概略図である。
図7】本発明の実施の形態に係る音声変換装置の構成を示す概略図である。
図8】本発明の実施の形態に係る音声変換モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。
図9】本発明の実施の形態に係る音声変換装置における音声変換処理ルーチンの内容を示すフローチャートである。
図10】実験のテストデータを示す図である。
図11】本発明の実施の形態の手法の実験結果を示す図である。
図12】比較例の手法の実験結果を示す図である。
図13】実験のテストデータを示す拡大図である。
図14】本発明の実施の形態の手法の実験結果を示す拡大図である。
図15】比較例の手法の実験結果を示す拡大図である。
【発明を実施するための形態】
【0014】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声特徴量を変換し、変換した特徴量から音声信号を合成することを目的とした音声変換技術である。
【0015】
<本発明の実施の形態の概要>
本発明の実施の形態では、上記の2つの課題に対し、以下により解決する。
(第一の課題に対する解決策)
連続する複数フレーム(セグメント)の特徴量を連結したもの(セグメント特徴量)を入出力としたNNを構築し、セグメントごとに変換を行う。これにより特徴量系列の局所的な時間連続性とコンテキストを考慮した変換が可能になる。
【0016】
また、セグメントの重複区間における変換特徴量が矛盾しないように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える。これにより特徴量の大域的な連続性を保証することができる。
【0017】
(第二の課題に対する解決策)
音声特徴量として、
(1)メルケプストラム、またはSTRAIGHT(非特許文献2)やWORLD(非特許文献3)などによって得られるスペクトル包絡、または短時間フーリエ変換(Short Time Fourier Transform; STFT)やウェーブレット変換(Constant Q Transform; CQT) などによって得られる振幅スペクトル
(2)基本周波数、又は
(3)非周期性指標
を用いる。
【0018】
[非特許文献2]Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuichi Nisimura, Toshio Irino, Hideki Banno,“Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation," in Proc. 2008 IEEE
[非特許文献3]M. Morise, F. Yokomori, and K. Ozawa, “WORLD: A vocoder-based high-quality speech synthesis system for real-time applications," IEICE Transactions on Information and Systems、 Vol. E99-D,No. 7, pp. 1877-1884, 2016.
【0019】
また、敵対的生成ネットワーク(Generative Adversarial Network; GAN) を用いたポストフィルタ(非特許文献4)により変換特徴量系列をより自然音声らしくなるようにさらに変換する。
【0020】
[非特許文献4]金子卓弘、 亀岡弘和、 北条伸克、 井島勇祐、 平松薫、 柏野邦夫. “統計的パラメトリック音声合成のための敵対的学習に基づくポストフィルタリング、” 電子情報通信学会技術研究報告、 2016.
【0021】
音声特徴量としてメルケプストラムを用いる場合はメルケプストラムボコーダ、STRAIGHTスペクトル包絡を用いる場合はSTRAIGHT ボコーダ、WORLD スペクトル包絡を用いる場合はWORLDボコーダを用いて音声信号を生成する。音声特徴量として振幅スペクトルを用いる場合は位相推定法(非特許文献5、6)を用いて音声信号を生成する。
【0022】
[非特許文献5]Daniel W. Griffin and Jae S. Lim, “Signal estimation from modified short-time Fourier transform, "IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-32, No. 2、 1984.
[非特許文献6]Tomohiko Nakamura and Hirokazu Kameoka、 “Fast signal reconstruction from magnitude spec-trogram of continuous wavelet transform based on spectrogram consistency、" in Proc. The 17th International Conference on Digital Audio Effects (DAFx-14)、 pp. 129-135、 Sep. 2014.
【0023】
音声特徴量としてスペクトル包絡、振幅スペクトルなどを用いる場合は学習規準にKullback-Leibler ダイバージェンスや板倉齋藤距離などの非負値同士の近さを測る規準を用いる。
【0024】
<既存手法>
深層学習を用いた音声変換手法がMohammadiらにより提案されている(上記非特許文献1参照)。この手法では、元音声から目標音声への特徴量の変換関数がニューラルネットワーク(Neural Network; NN)により表現され、元音声と目標音声のパラレルデータ(非線形時間伸縮(Dynamic Time Warping; DTW) によって時間整合された特徴量系列のペア)を用いて当該NNのパラメータを学習することで特徴量変換関数が構成される。上記非特許文献1では、音声特徴量としてメルケプストラムが用いられ、積層自己符号化器を
用いた事前学習を行うことで学習を効率化する方法が用いられている。積層自己符号化器とは文字どおり単層の自己符号化器を積み重ねたもので、具体的には、単層の自己符号化器を学習することで得られる中間層を別の自己符号化器の入力層として学習する操作を繰り返すことにより構成される多層の自己符号化器である(図1)。
【0025】
自己符号化器の入力をxとすると、出力^x
【0026】
【数1】
【0027】


となるようにパラメータθを決定することが自己符号化器学習の目的である。xと^xとの距離を二乗誤差で測る場合、学習規準L(θ) は
【0028】
【数2】
【0029】
となる。自己符号化器の目的は入力x から冗長な情報をそぎ落とし、コンパクトな表現を得ることにあるので、hθが恒等写像となるようでは意味をなさない。このため、図1のように中間層の次元を入力次元より小さくしたり、適切な正則化を行ったりすることが多い。非特許文献1では、図1のような多層の自己符号化器を学習したのち、中間層に層を追加する(図1から図2となるようにする) ことで変換モデルを構築している。
【0030】
メルケプストラムは音声の短時間フレームごとの声道特性を特徴付けた低次元の特徴量であるため、メルケプストラムを特徴量とする場合はNNのパラメータ数は比較的少数となる利点がある一方で、フレーム間の特徴量の連続性やコンテキストを考慮した変換が行えないのが本アプローチの難点である。
【0031】
<提案手法>
<基本方式>
非特許文献1に記載の手法では音声特徴量の変換がフレームごとに独立に行われる。一方、提案手法では、音声特徴量の局所的な系列から系列への変換を行えるようにするため、図3のように複数フレーム(セグメント)の音声特徴量系列を連結したもの(セグメント特徴量)をNNの入出力とすることを考える。セグメント間に重複区間がない場合、変換特徴量系列がセグメント境界において不連続的になる可能性があるため、各セグメントのフレームは互いに重複を許すものとする。図3は、1セグメントのフレーム数を10、重複区間のフレーム数を5とした場合の例である。変換特徴量の大域的な連続性を保証するためには、セグメントの重複区間における変換特徴量が矛盾しないようにする必要がある。そこで、図4の例のように、各セグメントにおけるNNの入力の一部に前後のセグメントにおける出力の一部を与える仕組みを導入する。例えば図3のようにセグメント分けした場合、1番目のセグメントと2 番目のセグメントでは6〜10番目のフレームが重複する。そこで、2番目のセグメントの変換においては、1番目のセグメントにおける変換特徴量系列のうち6〜10番目のフレームに相当するものを入力の一部として与える。本方式では、図5のように逐次的に特徴量系列を変換していくことができるので、オンライン処理に向いている。
【0032】
<学習方法>
まず、学習データとして同一発話内容の音声データのペア

を用意する。xtを元音声データ、ytを目標音声データとする。これらに音声分析(メルケプストラム分析、STRAIGHT分析、WORLD分析、基本周波数推定、STFT、CQT等)を行い、音声特徴量系列

を得る。ただし、N、Mはフレーム数である。同一発話内容の音声データであっても発話タイミングが揃っているとは限らないため、DTWを用いて

の時間整合を行う。ここではfymの方をfxnに合わせて時間伸縮することとする。時間整合された音声特徴量系列

をL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量

を得る。ただし、

はl番目のセグメントの始端・終端フレームの番号を表す。ここで、各セグメントに図5のように重複区間があるものとし、l-1番目とl番目のセグメントの重複区間(フレーム番号の集合)を

とする。l-1番目のセグメントの入力に対するNNの出力を

とし、重複区間

における目標音声のセグメントl−1のセグメント特徴量

の一部を

とする。このとき、l番目のセグメントにおける出力

【0033】
【数3】
【0034】
と書ける。gθはパラメータθのNNにより表現される変換関数である。前述のとおりl番目のセグメントの出力は、l番目のセグメントの元音声データ

とl−1番目の目標セグメント特徴量の重複部

に依存して決まる。

は重複区間

に該当する

の一部であるため,この仕組みにより、



のユニットに入る値とできるだけ一致するように変換則を学習することができるようになる。
【0035】
学習ステップでは、

のペアデータを用い、

となるようにパラメータθを学習するのが目的である。



との距離を二乗誤差で測る場合、学習規準
【0036】
【数4】
【0037】
となる。また、



がともに非負値の場合は、DEU の代わりにKullback-Leibler (KL) ダイバージェンス
【0038】
【数5】
【0039】
や板倉齋藤距離
【0040】
【数6】
【0041】
を学習規準として用いることもできる。ただし、xi、 yiはベクトルx、yの要素とする。
【0042】
また、音声変換モデルの学習においても、上記非特許文献1に記載の手法と同様に積層自己符号化器を用いた事前学習を用いることができる。自己符号化器の出力

【0043】
【数7】

または
【0044】
とし、上述の規準を用いて

となるようにθの最適化を行う。積層自己符号化器を構築したのち、非特許文献1に記載の手法と同様に中間層を追加し、全体学習を行うことで変換関数g を構築できる。
【0045】
<生成方法>
音声変換モデルの学習でθが決まれば、
【0046】
【数8】
【0047】
により元音声のセグメント特徴量系列sxから目標音声のセグメント特徴量系列

を逐次的に算出することができる。ただし、

は、セグメントl−1における出力

の、重複区間

に該当する部分とする。
【0048】



は重複区間において同一フレームの特徴量系列を含むため、それらの平均値や中央値を取ることで音声特徴量系列

を得ることができる。また、これを用いて信号を合成すれば目標音声の信号

を得ることができる。
【0049】
<音声特徴量の例>
本実施の形態の手法では音声特徴量として、メルケプストラムやSTRAIGHT(非特許文献2)やWORLD(非特許文献3)により抽出されるスペクトル包絡などの声道スペクトル特性を反映した量や短時間フーリエ変換(STFT)やウェーブレット変換(CQT)で抽出される振幅(まやはパワー)スペクトル、基本周波数(F0)値、STRAIGHT やWORLDで抽出される非周期性指標などを用いることができる。それぞれの分析手法に備わっている合成手法を用いれば特徴量系列から信号を合成することができる。音声特徴量として振幅(またはパワー)スペクトルを用いる場合は位相再構成方法(STFTの場合はGriffin らの手法(非特許文献5)、CQT の場合は中村らの手法(非特許文献6))などを用いて信号を得ることができる。
【0050】
<ポストフィルタリング>
信号を合成する前に、特徴量系列

に対してポストフィルタリングを行うこともできる。
【0051】
ポストフィルタリングの手法としては例えば金子らの手法(非特許文献4)がある。非特許文献4では、敵対的生成ネットワーク(Generative Adversarial Network; GAN) に基づく手法であり、自然音声と合成音声(または変換音声)の特徴量系列に現れるミクロな差異の統計分布をGAN により学習する方法である。本発明の実施の形態の手法で生成した目標音声の特徴量系列

と学習に用いた目標音声の特徴量系列

を、非特許文献4の手法における学習データとすることで自然音声と変換音声の特徴量系列のギャップを埋めるポストフィルタを構成することができる。
【0052】
<システム構成>
<音声変換モデル学習装置の構成>
次に、変換対象の音声信号を目標の音声信号に変換するためのニューラルネットワークを学習する音声変換モデル学習装置、及び学習されたニューラルネットワークを用いて変換対象の音声信号を目標の音声信号に変換する音声変換装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
【0053】
図6に示すように、本発明の実施の形態に係る音声変換モデル学習装置は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0054】
図6に示すように、音声変換モデル学習装置100は、入力部10と、演算部20と、出力部50とを備えている。
【0055】
入力部10は、学習サンプルの変換対象の音声信号(例えば電気音声)の時系列データと目標の音声信号(例えば自然音声)の時系列データとのペアを受け付ける。
【0056】
演算部20は、音声特徴量抽出部22と、学習部24とを備えている。
【0057】
音声特徴量抽出部22は、入力部10によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、音声特徴量抽出部22は、入力部10によって受け付けた学習サンプルの目標の音声信号の時系列データから、音声特徴量系列を抽出する。音声特徴量抽出部22は、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との時間整合を行う。
【0058】
また、音声特徴量抽出部22は、時間整合された、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との各々を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
【0059】
学習部24は、変換対象の音声信号のL個のセグメント特徴量と、目標の音声信号のL個のセグメント特徴量とに基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号のl番目のセグメント特徴量が出力されるように、ニューラルネットワークのパラメータを学習する。
【0060】
学習部24により学習されたニューラルネットワークのパラメータが、出力部50により出力される。
【0061】
<音声変換装置の構成>
図7に示すように、本発明の実施の形態に係る音声変換装置150は、CPUと、RAMと、後述する音声変換処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0062】
図7に示すように、音声変換装置150は、入力部60と、演算部70と、出力部90とを備えている。
【0063】
入力部60は、変換対象の音声信号(例えば電気音声)の時系列データを受け付ける。
【0064】
演算部70は、音声特徴量抽出部72と、音声特徴量変換部74と、音声信号生成部76とを備えている。
【0065】
音声特徴量抽出部72は、入力部60によって受け付けた変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、音声特徴量抽出部72は、抽出された音声特徴量系列を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
【0066】
音声特徴量変換部74は、音声変換モデル学習装置100で学習されたニューラルネットワークのパラメータと、変換対象の音声信号のL個のセグメント特徴量に基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、l番目のセグメントのセグメント特徴量を逐次出力する。
【0067】
音声信号生成部76は、音声特徴量変換部74によってセグメントの各々について出力されたセグメント特徴量に基づいて、目標の音声信号の時系列データを生成する。ここで、セグメントの重複部分についての目標の音声信号を生成する際には、セグメント特徴量から得られる、当該セグメントの重複部分についての特徴量系列を統合した結果に基づいて、当該セグメントの重複部分についての目標の音声信号を生成する。
【0068】
<音声変換モデル学習装置の作用>
次に、本実施の形態に係る音声変換モデル学習装置100の作用について説明する。まず、学習サンプルの変換対象の音声信号(例えば電気音声)の時系列データと目標の音声信号(例えば自然音声)の時系列データとのペアが、音声変換モデル学習装置100に入力されると、音声変換モデル学習装置100において、図8に示す学習処理ルーチンが実行される。
【0069】
まず、ステップS100において、入力部10によって受け付けた学習サンプルの変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。また、入力部10によって受け付けた学習サンプルの目標の音声信号の時系列データから、音声特徴量系列を抽出する。そして、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列の時間整合を行う。
【0070】
ステップS102では、時間整合された、変換対象の音声信号の音声特徴量系列と、目標の音声信号の音声特徴量系列との各々を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
【0071】
ステップS104では、変換対象の音声信号のL個のセグメント特徴量と、目標の音声信号のL個のセグメント特徴量とに基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号のl番目のセグメント特徴量が出力されるように、ニューラルネットワークのパラメータを学習する。そして、学習されたニューラルネットワークのパラメータが、出力部50により出力され、学習処理ルーチンを終了する。
【0072】
<音声変換装置の作用>
次に、本実施の形態に係る音声変換装置150の作用について説明する。まず、音声変換モデル学習装置100によって学習されたニューラルネットワークのパラメータが、音声変換装置150に入力される。また、変換対象の音声信号(例えば電気音声)の時系列データが、音声変換装置150に入力されると、音声変換装置150において、図9に示す音声変換処理ルーチンが実行される。
【0073】
まず、ステップS110において、入力部60によって受け付けた変換対象の音声信号の時系列データから、音声特徴量系列を抽出する。
【0074】
ステップS112において、抽出された音声特徴量系列を、前後のセグメントと重複したL個のセグメントに分け、同一セグメント内の特徴量系列を連結したセグメント特徴量を得る。
【0075】
ステップS114では、音声変換モデル学習装置100で学習されたニューラルネットワークのパラメータと、変換対象の音声信号のL個のセグメント特徴量に基づいて、1番目のセグメント〜L番目のセグメントの各々について順番に、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l−1番目のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、l番目のセグメントのセグメント特徴量を逐次出力する。
【0076】
ステップS116では、上記ステップS114でセグメントの各々について出力されたセグメント特徴量に基づいて、目標の音声信号の時系列データを生成し、出力部90により出力して、音声変換処理ルーチンを終了する。
【0077】
<実験>
本発明の実施の形態による変換結果と、上記非特許文献1に記載の手法による変換結果を示す。ここでは音声特徴量として25次元のメルケプストラムを用いている。図10は学習時にテストデータとして用いた音声特徴量系列を示している。図11は、図10について本発明の実施の形態の手法で変換した結果として得られた音声特徴量系列を示しており、図12は、図10について非特許文献1に記載の手法で変換した結果として得られた音声特徴量系列を示している。これらの図は横軸が時間軸、縦軸がメルケプストラムの各次元に対応している。
【0078】
図10図12の各々について、0〜5次元目について拡大した図が図13図15である。
【0079】
以上説明したように、本発明の実施の形態に係る音声変換モデル学習装置によれば、前後のセグメントと重複したセグメントとし、セグメントの各々について順番に、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つ前のセグメントについてのニューラルネットワークの出力とを入力とし、目標の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列を出力するように、ニューラルネットワークを学習することにより、変換音声の音質を向上させることができるニューラルネットワークを学習することができる。
【0080】
また、本発明の実施の形態に係る音声変換装置によれば、前後のセグメントと重複したセグメントとし、セグメントの各々について順番に、変換対象の音声信号の時系列データのうち、当該セグメントから抽出される特徴量系列と、一つ前のセグメントとの重複部分に対応する、一つの前のセグメントについてのニューラルネットワークの出力とを入力とし、ニューラルネットワークを用いて、目標の音声信号についての、当該セグメントに対応する特徴量系列を逐次出力し、目標の音声信号の時系列データを生成することにより、変換音声の音質を向上させることができる。
【0081】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0082】
例えば、上述した実施形態では、音声変換モデル学習装置及び音声変換装置を別々の装置として構成しているが、一つの装置として構成してもよい。
【0083】
また、前から順番にセグメントの各々について、ニューラルネットワークに入力する場合を例に説明したが、これに限定されるものではなく、例えば、後ろから順番にセグメントの各々について、ニューラルネットワークに入力するようにしてもよい。この場合には、変換対象の音声信号のl番目のセグメント特徴量と、l−1番目のセグメントとの重複部分に対応する、l+1番目のセグメントについてのニューラルネットワークの出力とを入力とすればよい。
【0084】
また、上述の音声変換モデル学習装置、音声変換装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0085】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0086】
10 入力部
20 演算部
22 音声特徴量抽出部
24 学習部
50 出力部
60 入力部
70 演算部
72 音声特徴量抽出部
74 音声特徴量変換部
76 音声信号生成部
90 出力部
100 音声変換モデル学習装置
150 音声変換装置
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15