特許第6872197号(P6872197)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人 筑波大学の特許一覧

特許6872197音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
<>
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000012
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000013
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000014
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000015
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000016
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000017
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000018
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000019
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000020
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000021
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000022
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000023
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000024
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000025
  • 特許6872197-音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム 図000026
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6872197
(24)【登録日】2021年4月21日
(45)【発行日】2021年5月19日
(54)【発明の名称】音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
(51)【国際特許分類】
   G10L 25/30 20130101AFI20210510BHJP
   G06N 3/08 20060101ALI20210510BHJP
【FI】
   G10L25/30
   G06N3/08
【請求項の数】8
【全頁数】24
(21)【出願番号】特願2018-23296(P2018-23296)
(22)【出願日】2018年2月13日
(65)【公開番号】特開2019-139102(P2019-139102A)
(43)【公開日】2019年8月22日
【審査請求日】2020年1月20日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】504171134
【氏名又は名称】国立大学法人 筑波大学
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】亀岡 弘和
(72)【発明者】
【氏名】金子 卓弘
(72)【発明者】
【氏名】田中 宏
(72)【発明者】
【氏名】北条 伸克
(72)【発明者】
【氏名】小山田 圭佑
(72)【発明者】
【氏名】安東 弘泰
【審査官】 中村 天真
(56)【参考文献】
【文献】 米国特許出願公開第2017/0330586(US,A1)
【文献】 特開平05−066795(JP,A)
【文献】 特表2017−520803(JP,A)
【文献】 Tim Salimans, 外5名,Improved Techniques for Training GANs,[online],2016年 6月10日,[検索日 2020.10.12], インターネット,URL,URL: https://arxiv.org/pdf/1606.03498.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00−25/93
G06N 3/02− 3/08
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
を含み、
前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す音響信号生成モデル学習装置。
【請求項2】
音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、
教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部
を含む音響信号生成モデル学習装置。
【請求項3】
音響信号を生成するためのニューラルネットワークである生成器を用いて、 振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部を含み、
前記生成器は、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器であり、
前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す音響信号生成装置。
【請求項4】
入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、
音響信号を生成するためのニューラルネットワークである生成器を用いて、 前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、
前記生成器は、
教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である音響信号生成装置。
【請求項5】
音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、
学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習することを含み、
前記学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、実データであるか否かを識別するためのニューラルネットワークである識別器に入力したときの中間層の出力値と、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムを、前記識別器に入力したときの中間層の出力値との誤差を表す
音響信号生成モデル学習方法。
【請求項6】
音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、
入力生成部が、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、
学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、
時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、
前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する
音響信号生成モデル学習方法。
【請求項7】
請求項1又は請求項に記載の音響信号生成モデル学習装置の各部としてコンピュータを機能させるためのプログラム。
【請求項8】
求項3又は請求項に記載の音響信号生成装置の各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムに係り、音響信号を生成するための音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムに関する。
【背景技術】
【0002】
音響信号処理において、短時間Fourier 変換(Short Time Fourier Transform; STFT) などにより得られる振幅スペクトログラムに対する加工処理(強調処理を含む)が有効な場面が多い。また、近年は音声合成においても、振幅スペクトログラムの合成を経て信号生成を行うアプローチの有効性が示されている。振幅スペクトログラムは位相情報を含まないため、振幅スペクトログラムから音響信号を再構成するには位相スペクトログラムの再構成が必要となる。従来、STFT の振幅スペクトログラムを対象とした位相再構成手法として、Griffin-Lim らによる信号処理をベースとした方法(非特許文献1)(以後、Griffin-Lim 法)が広く用いられてきた。この方法は、STFT によって得られる複素スペクトログラムが、時間領域信号の冗長表現となっていることを手がかりにした方法で、振幅スペクトログラムを入力とし、
【0003】
Step 0:位相スペクトログラムを初期設定する。
Step 1:入力振幅スペクトログラムと前段で得られる位相スペクトログラムから複素スペクトログラムを構成し、逆STFT により時間領域信号を算出する。
Step 2:上記Step 1 の時間領域信号にSTFT を行い、複素スペクトログラムを再計算する。
Step 3:上記Step 2 の複素スペクトログラムの偏角成分を新しい位相スペクトログラムの推定値とし、上記Step 1 に戻る。
という反復アルゴリズムにより振幅スペクトログラムから音響信号を再構成することができる。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Daniel Griffin and Jae Lim: "Signal estimation from modi_ed short-time Fourier transform," IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236-243, 1984.
【発明の概要】
【発明が解決しようとする課題】
【0005】
この方法では少ない反復回数では必ずしも品質の高い音響信号が再構成されるとは限らないことが知られており、質の高い音響信号を得るには多数の反復回数を要する場合が多い。このため実時間処理などには不向きという難点がある。
【0006】
本発明は、上記課題を解決するためになされたものであり、音響信号を高品質に生成することができる音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記の目的を達成するために第1の発明に係る音響信号生成モデル学習装置は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部を含んで構成されている。
【0008】
第2の発明に係る音響信号生成モデル学習装置は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置であって、前記教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する学習部を含んで構成されている。
【0009】
第3の発明に係る音響信号生成装置は、音響信号を生成するためのニューラルネットワークである生成器を用いて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部を含み、前記生成器は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である。
【0010】
第4の発明に係る音響信号生成装置は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する入力生成部と、音響信号を生成するためのニューラルネットワークである生成器を用いて、前記入力生成部により構成された前記時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成部とを含み、前記生成器は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習された、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器である。
【0011】
第5の発明に係る音響信号生成モデル学習方法は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記教師音響信号の振幅スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。
【0012】
第6の発明に係る音響信号生成モデル学習方法は、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置における音響信号生成モデル学習方法であって、入力生成部が、前記教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成し、学習部が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する前記生成器を、前記教師音響信号の時間領域信号又は複素スペクトログラムと、前記入力生成部により前記教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として前記生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。
【0013】
第7の発明に係るプログラムは、上記の音響信号生成モデル学習装置または音響信号生成装置の各部としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0014】
以上説明したように、本発明の音響信号生成モデル学習装置、方法、及びプログラムによれば、音響信号を高品質に生成する生成器を学習することができる、という効果が得られる。
【0015】
また、本発明の音響信号生成装置及びプログラムによれば、音響信号を高品質に生成することができる、という効果が得られる。
【図面の簡単な説明】
【0016】
図1】第1の実施の形態における位相再構成フローを示す図である。
図2】第1の実施の形態における学習方法を示す図である。
図3】第1の実施の形態に係る音響信号生成モデル学習装置の構成を示す概略図である。
図4】第1の実施の形態に係る音響信号生成装置の構成を示す概略図である。
図5】第2の実施の形態における位相再構成フローを示す図である。
図6】第2の実施の形態における学習方法を示す図である。
図7】第3の実施の形態における位相再構成フローを示す図である。
図8】第3の実施の形態に係る音響信号生成モデル学習装置の構成を示す概略図である。
図9】第3の実施の形態に係る音響信号生成装置の構成を示す概略図である。
図10】第3の実施の形態に係る音響信号生成モデル学習装置における学習処理ルーチンの内容を示すフローチャートである。
図11】第3の実施の形態に係る音響信号生成装置における音響信号生成処理ルーチンの内容を示すフローチャートである。
図12】本実験における生成フローを示す図である。
図13】本実験におけるニューラルネットワークの構成を示す図である。
図14】第3の実施の形態の手法及び従来手法の実験結果を示す図である。
図15】第3の実施の形態の手法及び従来手法の実験結果を示す図である。
【発明を実施するための形態】
【0017】
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、振幅スペクトログラムから音響信号を生成することを目的とした音響信号生成技術である。
【0018】
<本発明の実施の形態の概要>
本発明の実施の形態の特徴は以下の通りである。
【0019】
時間領域信号(または複素スペクトログラム)とその振幅スペクトログラムのペアを教師データとして、振幅スペクトログラムから時間領域信号(または複素スペクトログラム)を再構成するプロセスをニューラルネットワーク(生成器)でモデル化し、信号再構成(または位相再構成)プロセスそのものを学習により決定する。
【0020】
教師信号(または教師複素スペクトログラム)と生成器により生成された信号(または複素スペクトログラム)の誤差を学習規準とする。
【0021】
誤差の測り方の例は下記のとおりである。
【0022】
(手法1) 教師信号(または教師複素スペクトログラム)と生成器により生成された信号(または複素スペクトログラム)の要素ごとの誤差の総和を、学習規準とする。
【0023】
(手法2) 生成器により生成された信号か実データの信号かを識別する識別器の中間層の出力値間で測る誤差を学習規準とする。
【0024】
期待される効果は以下のとおりである。
【0025】
Griffin-Lim 法より高速に音響信号を生成できる。また、Griffin-Lim 法より高品質な音響信号を生成できる。
【0026】
[第1の実施の形態]
<提案手法1>
既存手法では、複素スペクトログラムが時間領域信号の冗長表現となっていることを手掛かりに振幅スペクトログラムのみから位相スペクトログラムを再構成することを可能にしている。これに対し本発明の実施に形態に係る方法では、振幅スペクトログラムから時間領域信号または複素スペクトログラムへの変換関数をニューラルネットワーク(Neural Network; NN) によりモデル化し、振幅スペクトログラムから時間領域信号または複素スペクトログラムのペアを教師データとしてニューラルネットワーク のパラメータを学習により決定する。生成処理のフローを図1に示す。学習が完了したニューラルネットワーク を用いることで、入力された振幅スペクトログラムに対して時間領域信号または複素スペクトログラムを得ることができる。
【0027】
<学習方法1>
まず、学習データとして、音声や楽曲などの音響信号またはSTFT やウェーブレット変換などにより得られるその複素スペクトログラムx を用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム(複素スペクトログラムの振幅成分)fa を得る。この振幅スペクトログラムfa を入力として、x が再構成されるようニューラルネットワーク を学習する。具体的には、振幅スペクトログラムfa を入力したニューラルネットワーク の出力を~x とすると、x と~x を何らかの距離指標を小さくするようにニューラルネットワーク のパラメータを最適化する。距離指標の例としては、最小二乗誤差などが挙げられる。最小二乗誤差を距離指標として用いる場合、目的関数L2 は以下の式で表される。
【0028】
【数1】
【0029】
図2に、学習処理フローを示す。
【0030】
<学習方法補足1>
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。
【0031】
<学習方法補足2>
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513 点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。
【0032】
<生成方法>
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列faを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。
【0033】
<生成方法補足1>
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。
【0034】
<生成方法補足2>
学習方法補足2と同様に、想定する時間周波数解析の方法によって、その対称性を利用することもできる。
【0035】
<システム構成>
<音響信号生成モデル学習装置の構成>
次に、音響信号を生成するためのニューラルネットワークである生成器を学習する音響信号生成モデル学習装置、及び学習された生成器を用いて音響信号を生成する音響信号生成装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
【0036】
図3に示すように、第1の実施の形態に係る音響信号生成モデル学習装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0037】
図3に示すように、音響信号生成モデル学習装置100は、入力部10と、演算部20と、出力部50とを備えている。
【0038】
入力部10は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアを受け付ける。
【0039】
演算部20は、学習部24を備えている。
【0040】
学習部24は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習する。
【0041】
学習規準は、例えば、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの要素毎の誤差の総和を表す。
【0042】
学習部24により学習された生成器のパラメータが、出力部50により出力される。
【0043】
<音響信号生成装置の構成>
図4に示すように、第1の実施の形態に係る音響信号生成装置150は、CPUと、RAMと、後述する音響信号生成処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0044】
図4に示すように、音響信号生成装置150は、入力部60と、演算部70と、出力部90とを備えている。
【0045】
入力部60は、振幅スペクトログラムを受け付ける。
【0046】
演算部70は、生成部76を備えている。
【0047】
生成部76は、音響信号生成モデル学習装置100により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
【0048】
<音響信号生成モデル学習装置の作用>
次に、第1の実施の形態に係る音響信号生成モデル学習装置100の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置100に入力されると、音響信号生成モデル学習装置100において、学習処理ルーチンが実行される。学習処理ルーチンでは、学習部24が、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器を学習する。そして、学習された生成器のパラメータが、出力部50により出力される。
【0049】
<音響信号生成装置の作用>
次に、第1の実施の形態に係る音響信号生成装置150の作用について説明する。まず、音響信号生成モデル学習装置100によって学習された生成器のパラメータが、音響信号生成装置150に入力される。また、振幅スペクトログラムが、音響信号生成装置150に入力されると、音響信号生成装置150において、音響信号生成処理ルーチンが実行される。音響信号生成処理ルーチンでは、生成部76が、生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
【0050】
以上説明したように、第1の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器を、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。
【0051】
また、第1の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムとの誤差の大きさを表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を用いることにより、音響信号を高品質に生成することができる。
【0052】
[第2の実施の形態]
次に、第2の実施の形態について説明する。なお、第2の実施の形態に係る音響信号生成モデル学習装置及び音響信号生成装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
【0053】
<提案手法2>
上記提案手法1では、時間領域信号間または複素スペクトログラム間の要素ごとの誤差の総和を学習規準としたが、このような規準を用いた場合、ターゲットの時間領域信号または複素スペクトログラムに平均的にフィットするものを出力するよう生成器Gのパラメータが学習されることになる。このように学習された生成器Gからは、ランダムな成分が除去され、過剰に平滑化された時間領域信号または複素スペクトログラムしか生成されないようになる可能性が考えられる。実世界信号の多くは少なからずのランダム成分を含むものであり、ランダム成分が信号(または位相)再構成の過程で除去されることが再構成信号の聴感上の品質に限界を与える可能性がある。そこで、提案手法2では、生成器Gによる信号(または位相)再構成の過程で、実世界信号が本来もつ微細なランダム成分が失われないようにするため、提案手法1と異なる学習規準を用いて生成器G を学習する。具体的には、生成器Gにより生成された信号なのか実データの信号なのかを識別するニューラルネットワーク(以後、識別器D)を導入し、この識別器Dの中間層の出力値間で測る誤差を学習規準とする。提案手法2の処理のフローを図5に示す。
【0054】
<学習方法>
図6に学習方法の処理フローを示す。まず、学習データとして、音声や楽曲などの音響信号またはSTFTやウェーブレット変換などにより得られるその複素スペクトログラムをベクトル化したものxを用意する。このデータに対して、STFT やウェーブレット変換を行い、振幅スペクトログラム(複素スペクトログラムの振幅成分)をベクトル化したものfa を得る。この振幅スペクトログラムfa とランダム源成分z を入力として、x が再構成されるよう生成器G を学習する。ここで、ランダム源成分z はある分布(例えば、一様分布) に従って生成した乱数ベクトルである。さらに、生成器G により生成された信号なのか実データの信号なのかを2クラス識別する(例えば0 か1 かを出力する)識別器D を導入し、これも生成器G と併せて学習する。振幅スペクトログラムfa とランダム源成分z を入力した生成器G の出力を~x とすると、x と~x を入力したときの識別器D の中間層におけるそれぞれの出力値の間で測る誤差を小さくするように生成器G のパラメータを学習する。一方、識別器D は、生成器G により生成された信号なのか実データの信号なのかを正しく識別するよう何らかの識別スコアを学習規準として学習する。
【0055】
まず、式(2) のような規準を考える。式(2) において、G は生成器(Generator) を表し、D は識別器(Discriminator) を表す。この規準は、識別器D が入力の時間領域信号または複素スペクトログラムが実データなのか生成器G から生成されたものなのかを正しく識別できているかを表すクロスエントロピーと呼ぶ識別スコアを表す。よって、この規準をD に関して大きくすることは、識別器D が、入力の時間領域信号または複素スペクトログラムが実データなのか生成器G から生成されたものなのかを正しく識別できるようにすることを意味する。
【0056】
【数2】
【0057】
一方、生成器G は、再構成した時間領域信号または複素スペクトログラムが、識別器D に(誤って)実データと識別されるように学習したい。これは上記規準をG に関して小さくすることにより達成される。加えて、生成器の出力~x がターゲットの信号x とできるだけ近くなるようにしたい。学習がある程度進んだ識別器D の中間層は、~x とx をできるだけ識別しやすいような(引き離すような)特徴量空間となっているはずのため、そのような空間で~x とx をできるだけ近づけることで、x との違いをより見分けられないような~x を得られるようになることが期待される。そこで、式(2) に加えて、~x とx の識別器D の中間層におけるそれぞれの出力値の誤差
【0058】
【数3】
【0059】
を生成器G の学習規準として考える。ただし、Dh(・) は識別器D の第h層の出力値を表す。よって、D0(x) = x である。C(α,β)はαとβのベクトル間距離を表す関数であり、例えばp-ノルム
【0060】
【数4】
【0061】
などが挙げられる。また、wh は非負の重み定数である。よって、第h層の出力値のみの距離を考慮する場合はwh′= 0 (h′≠h)とすれば良い。
【0062】
以上より、識別器D に関しては

を、生成器G に関しては

をそれぞれ学習規準として識別器D と生成器G を競争させながら学習する。ただし、λは第二項の重みを表す定数で、0≦λ≦1 の範囲で適当に定めるものとする。
【0063】
このように識別器と生成器を競争させることにより生成器を学習する方法論は、敵対的生成器(Generative Adversarial Network; GAN) と呼ばれる。本実施の形態はこの方法論を、以上のように信号(または位相)再構成問題に合った形に導入した点が新しい。式(2) に示した規準は、非特許文献2で提案されたものである。近年、GAN に関する研究は多岐に渡っており、非特許文献3や非特許文献4などを始めとして様々な改良が行われている。
【0064】
[非特許文献2] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozairy, Aaron Courville and Yoshua Bengio: “Generative Adversarial Nets," arXiv:1406.2661, 2014.
【0065】
[非特許文献3] MAO, Xudong, et al.: “Least squares generative adversarial networks," arXiv preprint ArXiv:1611.04076, 2016.
【0066】
[非特許文献4] Martin Arjovsky, Soumith Chintala, and Leon Bottou: “Wasserstein GAN," arXiv preprint arXiv:1701.07875, 2017.
【0067】
本学習方法において設計すべき最適化関数として、式(2) に限る必要性はなく、非特許文献3や非特許文献4などで提案されているものを用いても良い。
【0068】
<学習方法補足1>
識別器D には、式(6) のように音声特徴量系列f′も入力させても良い。音声特徴量系列f′の例としては、声帯音源情報や振幅スペクトログラムなどが挙げられる。後者の場合はf′= faとなる。
【0069】
【数5】
【0070】
<学習方法補足2>
本ニューラルネットワークを学習するときに、提案手法1を用いて、生成器Gを事前学習しても良い。
【0071】
<学習方法補足3>
複素スペクトログラムにおいて、各周波数のフレーム間の位相差が同じであれば第一フレームの位相スペクトル(初期位相)が任意であったとしても、対応する時間領域信号は人間の聴覚的には同一と知覚されることが知られている。よって、人間にとって知覚できない違いを同一と見なすことにすれば、初期位相の任意性の分、それぞれの入力振幅スペクトログラムに対し正解となる時間領域信号または複素スペクトログラムは多数存在することになる。そこで、ターゲットの教師データを、それぞれの入力振幅スペクトログラムに対し初期位相を変えた時間領域信号または複素スペクトログラムを多数用意しても良い。
【0072】
<学習方法補足4>
生成器に特に制約がない場合、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムが入力振幅スペクトログラムと一致することを強制するため、生成器の最終層に、時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換える演算に相当する層を追加しても良い。
【0073】
<学習方法補足5>
実数信号のフーリエ変換は実部が偶関数、虚部が奇関数となるため、想定する時間周波数解析の方法によってはその対称性を利用することもできる。例えば、STFTのフレーム長を1024点とすると、得られる複素スペクトログラムの周波数ビン数は負の周波数も含めれば1024となるが、対称性を利用すれば、0からナイキスト周波数までの周波数に対応する513点のみの情報さえあれば時間領域信号を構成するのに十分である。よって、生成器の出力を複素スペクトログラムとする場合、一部の周波数ビンに対応する複素スペクトログラムを出力としても良い。
【0074】
<学習方法補足6>
時間領域信号について、フーリエ変換を行って得られる複素スペクトログラムの位相成分に対して、 任意の値を足し合わせて新たな複素スペクトログラムを構築する。この新たな複素スペクトログラムを逆フーリエ変換で時間領域信号に変換しても、人間の聴覚的には元の時間領域信号と同一に知覚されることが知られている。この性質を利用して、学習方法補足3のように入力振幅スペクトログラムに対応する教師データ(時間領域信号ないし複素スペクトログラム) を多数用意しても良い。
【0075】
<生成方法>
学習が完了したニューラルネットワークに任意の振幅スペクトログラム系列faを入力することにより再構成信号または再構成複素スペクトログラム~x を得ることができる。
【0076】
<生成方法補足1>
生成器が出力する時間領域信号または複素スペクトログラムから算出される振幅スペクトログラムは、入力の振幅スペクトログラムと完全に一致するとは限らない。そこで、生成器から出力される時間領域信号または複素スペクトログラムの振幅スペクトログラムを入力振幅スペクトログラムに置き換えた上で時間領域信号を再計算する処理を追加しても良い。
【0077】
<生成方法補足2>
学習方法補足5と同様に、想定する時間周波数解析の方法によってはその対称性を利用することもできる。
【0078】
<システム構成>
<音響信号生成モデル学習装置の構成>
第2の実施の形態に係る音響信号生成モデル学習装置100の学習部24は、教師音響信号の時間領域信号又は複素スペクトログラムと前記教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。
【0079】
具体的には、学習規準は、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す。
【0080】
学習部24により学習された生成器のパラメータが、出力部50により出力される。
【0081】
<音響信号生成装置の構成>
第2の実施の形態に係る音響信号生成装置150の生成部76は、音響信号生成モデル学習装置100により学習された、音響信号を生成するためのニューラルネットワークである生成器を用いて、入力された振幅スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
【0082】
なお、第2の実施の形態に係る音響信号生成モデル学習装置100及び音響信号生成装置150の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
【0083】
以上説明したように、第2の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器、及び実データであるか否かを識別するためのニューラルネットワークである識別器を、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。
【0084】
また、第2の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように予め学習された、振幅スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器を用いることにより、音響信号を高品質に生成することができる。
【0085】
[第3の実施の形態]
次に、第3の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
【0086】
<提案手法3>
提案手法1、2では振幅スペクトログラムとランダム源成分を生成器の入力としていたが、提案手法3では入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする。入力の時間領域信号または複素スペクトログラムは、入力振幅スペクトログラムとランダムに生成した位相スペクトログラムから構成しても良いし、Griffin-Lim法を適用することにより得たものを用いても良い。ただし、Griffin-Lim 法を用いる場合、アルゴリズムの反復回数を増やすと生成器の入力を算出する段階で計算時間がかかってしまう。従って、その場合には例えば反復回数を5回程度とする。図7に提案手法3の処理フローを示す。
【0087】
<学習方法>
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第2の実施の形態で説明した提案手法2の学習方法、学習方法補足1〜6と同様である。
【0088】
<学習方法補足>
生成器に入力する位相スペクトログラムをランダム生成する際、あるフレームの位相スペクトルは固定しても良い。音響信号の位相成分について考えると、ある瞬間にどのような位相をもっているべきかは絶対的に決まるものではなく、前後の信号の位相との相対的な関係性からどのような位相をもつべきかは決まる。この性質を利用し、位相をランダムサンプリングする時に、例えば1 フレーム目の位相成分だけ固定しておくと、生成器は2 フレーム目以降の位相を再構成するにあたり1 フレーム目の位相成分との相対的な関係性を学習するだけで良いので効率的に学習が進む可能性がある。
【0089】
<生成方法>
振幅スペクトログラムとランダム源成分を生成器の入力とするのではなく、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて構成される時間領域信号または複素スペクトログラムを生成器の入力とする点以外は、上記第2の実施の形態で説明した提案手法2の生成方法、生成方法補足1〜2と同様である。
【0090】
<システム構成>
<音響信号生成モデル学習装置の構成>
図8に示すように、第3の実施の形態に係る音響信号生成モデル学習装置100は、入力部10と、演算部320と、出力部50とを備えている。
【0091】
入力部10は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアを受け付ける。
【0092】
演算部320は、入力生成部322と、学習部324とを備えている。
【0093】
入力生成部322は、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。例えば、入力振幅スペクトログラムと何らかの方法で生成した位相スペクトログラムを用いて、Griffin-Lim 法により、時間領域信号または複素スペクトログラムを構成する。
【0094】
学習部324は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力する生成器と、実データであるか否かを識別するためのニューラルネットワークである識別器とを、学習規準を小さくするように学習する。
【0095】
学習規準は、例えば、教師音響信号の時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、入力生成部322により教師音響信号の振幅スペクトログラムから構成された時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す。
【0096】
学習部24により学習された生成器のパラメータが、出力部50により出力される。
【0097】
<音響信号生成装置の構成>
図9に示すように、第3の実施の形態に係る音響信号生成装置350は、入力部60と、演算部370と、出力部90とを備えている。
【0098】
入力部60は、振幅スペクトログラムを受け付ける。
【0099】
演算部370は、入力生成部372及び生成部376を備えている。
【0100】
入力生成部372は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
【0101】
生成部376は、音響信号生成モデル学習装置300により学習された生成器を用いて、入力生成部372により構成された時間領域信号又は複素スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
【0102】
<音響信号生成モデル学習装置の作用>
次に、第3の実施の形態に係る音響信号生成モデル学習装置300の作用について説明する。まず、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアが、音響信号生成モデル学習装置300に入力されると、音響信号生成モデル学習装置300において、図10に示す学習処理ルーチンが実行される。
【0103】
まず、ステップS300において、入力生成部322は、教師音響信号の振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
【0104】
そして、ステップS302において、学習部324は、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、生成器と識別器とを、学習規準を小さくするように学習する。そして、学習された生成器のパラメータが、出力部50により出力される。
【0105】
<音響信号生成装置の作用>
次に、第3の実施の形態に係る音響信号生成装置350の作用について説明する。まず、音響信号生成モデル学習装置300によって学習された生成器のパラメータが、音響信号生成装置350に入力される。また、振幅スペクトログラムが、音響信号生成装置350に入力されると、音響信号生成装置150において、図11に示す音響信号生成処理ルーチンが実行される。
【0106】
まず、ステップS310において、入力生成部372は、入力された振幅スペクトログラムから、時間領域信号又は複素スペクトログラムを構成する。
【0107】
ステップS312では、生成部376が、音響信号生成モデル学習装置300により学習された生成器を用いて、上記ステップS310で構成された時間領域信号又は複素スペクトログラムから、音響信号の時間領域信号又は複素スペクトログラムを生成し、出力部90により出力する。
【0108】
以上説明したように、第3の実施の形態に係る音響信号生成モデル学習装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムと教師音響信号の振幅スペクトログラムとのペアに基づいて、時間領域信号又は複素スペクトログラムを入力とし、音響信号の時間領域信号又は複素スペクトログラムを出力するニューラルネットワークである生成器、及び実データであるか否かを識別するためのニューラルネットワークである識別器を、教師音響信号の時間領域信号又は複素スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように学習することにより、音響信号を高品質に生成する生成器を学習することができる。
【0109】
また、第3の実施の形態に係る音響信号生成装置によれば、教師音響信号の時間領域信号又は複素スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値と、教師音響信号の振幅スペクトログラムから構成された、時間領域信号又は複素スペクトログラムを入力として生成器により出力される時間領域信号又は複素スペクトログラムを、識別器に入力したときの中間層の出力値との誤差を表す学習規準を小さくするように予め学習された生成器を用いることにより、音響信号を高品質に生成することができる。
【0110】
<実験>
本発明の第3の実施の形態で説明した提案手法3の有効性を示すために、一実現方法を用いて、実験を行った。
【0111】
<実験設定(品質に関して)>
<ニューラルネットワークの概要>
実験用のデータセットとして、非特許文献5を利用した。このデータセットには、ノイズを含んだ音声データとノイズを含まない音声データが存在するが、本実験ではノイズを含まない音声データのみを用いた。訓練データとテストデータは、すでにデータセット内で分割されているので、そのまま訓練用とテスト用として用いた。なお、音声信号のサンプリング周波数は16kHz とした。ただし、学習時は音声データを0.5 秒の重複を持たせつつ1 秒ごとに切り分けた。
【0112】
[非特許文献5] Cassia Valentini-Botinhao: “Noisy speech database for training speech enhancement algorithms and TTS models," [dataset]. University of Edinburgh. School of Informatics. Centre for Speech Technology Research (CSTR). http://dx.doi.org/10.7488/ds/1356.
【0113】
提案手法3では、生成器(図7参照)の入力として、振幅スペクトログラムfa と乱数で与えられる位相成分z を用いて構成した複素スペクトログラムないし音響信号を用いている。本実験では、これらのうち複素スペクトログラムx′を用いた。生成器の出力は複素スペクトログラム^x とした。ただし、上記第2の実施の形態の学習方法補足5で述べた複素スペクトログラムの対称性を利用した。また、識別器(図6参照) の入力としては、音響信号xを用いた。ここで、識別器は音響信号を入力とし、生成器は複素スペクトログラムを出力としているため、生成器が出力する複素スペクトログラム^x に対して逆STFT を適用し音響信号~x に変換してから識別器に与えた。つまり、識別器は音響信号としての本物らしさを基準に、真のデータx と生成器の出力を逆STFT で変換した~x を分類すること目的とし、生成器は音響信号に変換した時に本物らしい複素スペクトログラムを生成することを目的とする。
【0114】
<データの前処理>
ここでニューラルネットワークの学習に際して行った前処理について述べる。まず、音声データに対してSTFTを適用して、複素スペクトログラムに変換した。この時、フーリエ変換の窓幅は1024 点、シフト幅は512点、窓関数はブラックマン窓とした。次に、複素スペクトログラムの絶対値をとることで、振幅スペクトログラムを抽出した。また、音声データから変換された複素スペクトログラムについて、時系列方向に周波数方向の各次元の平均と分散を求めておく。この平均と分散は、学習および生成時に用いる。
【0115】
<学習方法>
次に、生成器に入力する複素スペクトログラムの構築を考える。前述のようにして得た振幅スペクトログラムに、反復回数を5回としたGriffin-Lim 法を適用し、生成器に入力する複素スペクトログラムを構築した。ただし、この複素スペクトログラムの構築は、学習と並行して行った。つまり、生成器に複素スペクトログラムを入力する時に毎回、Griffin-Lim 法により振幅スペクトログラムから複素スペクトログラムを構築した。このとき、Griffin-Lim 法で用いる位相成分の初期値は毎回一様分布からランダムサンプリングした。
【0116】
また、構築した複素スペクトログラムを生成器に入力する時、データの前処理で求めた平均と分散を用いて、複素スペクトログラムの正規化を行う。ここで適用する正規化とは、データの平均が0、分散が1 になるような手法をさす。生成器に入力する複素スペクトログラムを構築する時に位相成分をランダムサンプリングするが、上記第3の実施の形態で説明した学習方法補足を適用して、1フレーム目の位相は固定した。
【0117】
なお、1 フレーム目の位相を固定するために、真の音声信号から得られる位相を用いた。
【0118】
生成器の出力について、上記第2の実施の形態で説明した学習方法補足4を適用した。つまり、生成器が出力した複素スペクトログラムの振幅成分を、生成器に入力した複素スペクトログラムの振幅成分に置き換える処理を適用した。なお、生成器へ入力された複素スペクトログラムは正規化が適用されているので、生成器が出力する複素スペクトログラムに対して、スケールを元に戻す処理を適用した。
【0119】
識別器に入力する真の音声信号については、上記第2の実施の形態で説明した学習方法補足6を適用して位相の異なる音声信号を多数構築し、与えた。また、識別器に音声信号を与えるとき、16384 で割ったものを与えた。
【0120】
生成器と識別器を競争させながら最適化を行う目的関数

としては、非特許文献3で提案されたものを用いた。また、識別器の中間層におけるターゲットの信号x と生成器が生成した信号~x の距離に関する学習規準

について、距離尺度はL2 ノルムを用いて、重み定数whはwh≠0=1、w0= 0とした。また、上記第2の実施の形態で説明した学習方法補足1にあるように、識別器には真のデータないし再構成されたデータと共に、音響特徴量系列f′を与えた。音響特徴量系列としては、振幅スペクトログラムfa を用いた。
【0121】
<生成方法>
本実験における生成方法を図12に示す。なお、ニューラルネットワークに入力する複素スペクトログラムは前処理で求めた平均・分散を用いて正規化し、出力はスケールを元に戻す処理を適用している。また、学習時には1 フレーム目の位相を固定しているが、テスト時は位相成分全てをランダムサンプリングした。
【0122】
<ネットワーク構造>
図13に本実験で構築したニューラルネットワーク を示す。今回は、非特許文献6を参考にニューラルネットワーク を構築した。
【0123】
[非特許文献6] Christian Ledig et al.: “Photo-realistic single image super-resolution using a generative adversarial network," arXiv preprint arXiv:1609.04802, 2016.
【0124】
生成器に複素スペクトログラムを入力する時に、実部と虚部を分けて2 チャンネル化した。図の右上がり斜線で示される層は畳み込みニューラルネットワーク(Convolutional Neural Network; CNN) を表す。CNN の上に記述されている記号(例:2D k11 s1 c64) は、CNN のハイパーパラメータを表す。D は、畳み込み演算の際の次元を示す。二次元の畳み込み演算を行った時は2D と示してある。k は、カーネルの大きさを表す。例えば、2D かつk5 の時、カーネルのサイズは52= 25 である。1D かつk32 の時は、カーネルのサイズは321 = 32 である。s は、カーネルのストライド幅を示す。s1 はストライド幅が1 を示す。c はカーネルの数を表す。c64 は畳み込み演算に64 つのカーネルを用いたことを示す。次に、ドットの層は活性化関数を示す。生成器は全てPReLU を用い、識別器は全てLeaky ReLUを用いた。また、右下がり斜線で示される層は線型結合を表し、上についている数字は出力の次元を示す。特に記号がついていない層は、前の層と同じ設定にしている。本実験で用いたニューラルネットワーク の構造は、一例に過ぎない。
【0125】
<評価方法>
本実験では、評価方法としてAB テストを用いた。反復回数を400 回としたGriffin-Lim 法と提案手法3で再構成した音声データのペアをつくり、5 人の被験者に評価させた。また、1 人の被験者につき10 つのペア音声を与え、1 ペアごとにどちらの方が品質が高いかを質問した。この時、非特許文献5のテストデータを用いたが、2-5 秒の長さのデータのみを評価対象とした。
【0126】
<評価結果>
図14に品質に関する主観的評価実験の結果を示す。本実験では、50 ペア(10 ペア/人× 5 人) のうち、約76% のペアについて反復回数を400 回としたGriffin-Lim 法よりも提案手法で位相を復元させた音声信号の方が、不快感がなく自然な音声に聞こえると評価された。よって、Griffin-Lim 法よりも提案手法3の方が、自然な音声が得られるように位相を復元できていることが示された。
【0127】
<実験設定(位相復元処理の速度について)>
<ニューラルネットワーク の概要>
ニューラルネットワーク の実装に関しては、品質に関する実験と同様の設定とした。
【0128】
<評価方法>
本実験では、提案手法3と非特許文献1で位相復元を行なった場合の、処理速度に関する比較を行う。以下の2 つの状況それぞれについて、比較をした。
【0129】
・1秒に切り分けたテストデータを1000 サンプル与え、1 サンプルあたりの位相復元にかかる時間
・テストデータを切り分けずに全サンプル与え、1 サンプルあたりの位相復元にかかる時間
【0130】
また、提案手法3はGPU を用いた時と、CPU のみを用いた時のそれぞれについて処理時間を計測した。実験に用いた計算機のCPU モデルは"Intel(R) Core(TM) i7-6850K CPU @ 3.60GHz"であり、コア数は12、クロック周波数は3799.968[MHz] である。また、GPU はNVIDIA(R)社製の"GeForce GTX 1080"を用いた。
【0131】
<評価結果>
まず、1 秒の音声信号に関して位相復元にかかる時間について比較する。表1 は処理時間の平均値と標準偏差を示す。括弧の中の数字が標準偏差である。提案手法3をGPU 上で実行した時が最も処理速度が速く、既存手法をCPU 上で実行した時と比較して、約10 倍の速度で位相復元処理が行えている。
【0132】
【表1】
【0133】
次に、テストデータを切り分けずに各手法に与え、1 サンプルごとに処理にかかる時間を計測した。
【0134】
図15に結果を示す。与える音声を1 秒に切り分けた時と同様、提案手法3をGPU 上で実行した時が最も処理速度が速かった。
【0135】
以上説明したように、本発明の実施の形態の手法を用いることによって、振幅スペクトログラムから時間領域信号(または複素スペクトログラム)を再構成するプロセスをニューラルネットワーク(生成器)でモデル化することができるようになる。これにより、Griffin-Lim 法よりも高速かつ高品質に、振幅スペクトログラムから音響信号を再構成できる。また、GAN を用いた手法では、実世界信号がもつランダム性を考慮しており、自然な音響信号が得られる。
【0136】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0137】
例えば、上述した実施形態では、音響信号生成モデル学習装置及び音響信号生成装置を別々の装置として構成しているが、一つの装置として構成してもよい。
【0138】
また、上述の音響信号生成モデル学習装置、音響信号生成装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0139】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0140】
10、60 入力部
20、70、320、370 演算部
24、324 学習部
50、90 出力部
76、376 生成部
100、300 音響信号生成モデル学習装置
150、350 音響信号生成装置
322、372 入力生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15