(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-08
(45)【発行日】2022-08-17
(54)【発明の名称】推定装置、その方法、およびプログラム
(51)【国際特許分類】
G10L 25/30 20130101AFI20220809BHJP
【FI】
G10L25/30
(21)【出願番号】P 2019014052
(22)【出願日】2019-01-30
【審査請求日】2021-04-08
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】899000068
【氏名又は名称】学校法人早稲田大学
(74)【代理人】
【識別番号】100121706
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】小泉 悠馬
(72)【発明者】
【氏名】升山 義紀
(72)【発明者】
【氏名】矢田部 浩平
【審査官】大野 弘
(56)【参考文献】
【文献】特開2019-139102(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)前記所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを前記所望の音響信号に近づける処理と、を関連付けることで、前記振幅スペクトログラムAを前記所望の音響信号に近づける位相スペクトログラムを推定する推定部を有する、
推定装置。
【請求項2】
所望の音響信号の振幅スペクトログラムAに複素スペクトログラムXの位相を付与し、付与後の信号Yを求める位相付与部と、
前記信号Yを逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号Zに変換する変換部と、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記複素スペクトログラムXの位相を前記所望の音響信号の位相に近づける位相変更部と、を含む、
推定装置。
【請求項3】
請求項2の
推定装置であって、
前記学習用の音響信号の統計的性質は、深層ニューラルネットワークにより表現され、
前記深層ニューラルネットワークは、
前記学習用の音響信号から得られる複素スペクトログラムX
(L)*と、その振幅スペクトログラムA
(L)とを用いて、学習されたものであり、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを入力とし、前記信号Zと前記複素スペクトログラムXとの残差の推定値を出力とする、
推定装置。
【請求項4】
(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)前記所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを前記所望の音響信号に近づける処理と、を関連付けることで、前記振幅スペクトログラムAを前記所望の音響信号に近づける位相スペクトログラムを推定する推定ステップを有する、
推定方法。
【請求項5】
所望の音響信号の振幅スペクトログラムAに複素スペクトログラムXの位相を付与し、付与後の信号Yを求める位相付与ステップと、
前記信号Yを逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号Zに変換する変換ステップと、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記複素スペクトログラムXの位相を前記所望の音響信号の位相に近づける位相変更ステップと、を含む、
推定方法。
【請求項6】
請求項5の
推定方法であって、
前記学習用の音響信号の統計的性質は、深層ニューラルネットワークにより表現され、
前記深層ニューラルネットワークは、
前記学習用の音響信号から得られる複素スペクトログラムX
(L)*と、その振幅スペクトログラムA
(L)とを用いて、学習されたものであり、
前記複素スペクトログラムXと前記信号Yと前記信号Zとを入力とし、前記信号Zと前記複素スペクトログラムXとの残差の推定値を出力とする、
推定方法。
【請求項7】
請求項1から請求項3の何れかの推定装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、振幅スペクトルのみから、位相スペクトルを推定し、復元する推定装置、その方法、およびプログラムに関する。
【背景技術】
【0002】
STFT(short-time Fourier transform)スペクトルは複素数であり、STFTスペクトログラムから時間信号を復元するには、(1)振幅スペクトログラムと(2)位相スペクトログラムの両方が必要である。ところが、位相スペクトルはその扱いが難しいため、音声合成や音声強調では、振幅スペクトルのみを推定したり制御し、位相スペクトルは最小位相や、観測位相で代用し、時間信号へと逆変換することが多い。振幅スペクトログラムと位相スペクトログラムは独立変数ではないため、片方を制御した場合、もう片方はそれに対応した変数である必要がある。ゆえに、音声合成や音声強調では、振幅と位相の矛盾により、出力音の品質が低下することがある。
【0003】
振幅スペクトログラムから、それと矛盾しない位相スペクトログラムを推定する技術として、非特許文献1が知られている。非特許文献1の技術(Griffin-Limアルゴリズムと呼ばれている)は、以下の手順を繰り返すことで振幅スペクトログラムAから、無矛盾な位相スペクトログラムを推定する技術である。
【0004】
【0005】
【0006】
ここでXは振幅がAの複素スペクトログラム、GとG†は短時間フーリエ変換(STFT)と逆STFT、
【0007】
【0008】
|・|は要素毎の絶対値演算を表す。この方式は、以下の最適化問題を解いていることと等しい。
【0009】
【0010】
ここで||・||2
Froはフロベニウスノルムを表す。なお、Bは振幅がAのスペクトログラムの集合である。前述の通り、位相スペクトルは最小位相や、観測位相で代用するため、複素スペクトログラムXに式(1)のSTFTと逆STFTを行うと、元の複素スペクトログラムXに戻らない。そこで、式(2)により振幅を与えられた振幅スペクトログラムAに固定し、式(3)により、正しい短時間フーリエ変換表現となるように位相を求める。
【先行技術文献】
【非特許文献】
【0011】
【文献】D. Griffin and J. Lim, "Signal estimation from modied shorttime Fouriertransform", IEEE Trans. Acoust., Speech, Signal Process., vol. 32, no. 2, pp. 236-243, Apr.1984.
【発明の概要】
【発明が解決しようとする課題】
【0012】
しかしながら、非特許文献1の方式は、あらゆる音響信号に対して適応可能である一方、膨大な回数の繰り返しが必要である。これは、最適化の枠組みの中に、復元したい信号(以下、所望の音響信号ともいう)の統計的性質について一切の仮定を置いていないためである。
【0013】
本発明は、復元したい信号の統計的性質を利用して、振幅スペクトルのみから、矛盾のない位相スペクトルを復元する推定装置、その方法、およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0014】
上記の課題を解決するために、本発明の一態様によれば、推定装置は、(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを所望の音響信号に近づける処理と、を関連付けることで、振幅スペクトログラムAを所望の音響信号に近づける位相スペクトログラムを推定する推定部を有する。
【0015】
上記の課題を解決するために、本発明の他の態様によれば、推定装置は、所望の音響信号の振幅スペクトログラムAに複素スペクトログラムXの位相を付与し、付与後の信号Yを求める位相付与部と、信号Yを逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号Zに変換する変換部と、複素スペクトログラムXと信号Yと信号Zとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムXの位相を所望の音響信号の位相に近づける位相変更部と、を含む。
【発明の効果】
【0016】
本発明によれば、復元したい信号の統計的性質を利用して、従来技術よりも少ない計算量で振幅スペクトルのみから、矛盾のない位相スペクトルを復元することができるという効果を奏する。
【図面の簡単な説明】
【0017】
【
図1】第一実施形態に係る推定装置の機能ブロック図。
【
図2】第一実施形態に係る推定装置の処理フローの例を示す図。
【
図3】第一実施形態に係る推定部の機能ブロック図。
【
図4】第一実施形態に係る学習装置の機能ブロック図。
【
図5】第一実施形態に係る学習装置の処理フローの例を示す図。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
【0019】
<第一実施形態のポイント>
本実施形態では、、非特許文献1の方式に、深層学習を組み込む。なお、深層学習を利用した位相復元には例えば参考文献1などの方式がある。
(参考文献1) K. Oyamada, H. Kameoka, K. Tanaka T. Kaneko, N. Hojo, and H. Ando, "Generative adversarial network-based approach to signal reconstruction from magnitude spectrograms", in Eur. Signal Process. Conf. (EUSIPCO), Sept. 2018.
【0020】
これらの方式と本実施形態の違いは、参考文献1が大規模なニューラルネットワークを用いていわば、end-to-endで位相を復元するのに対し、本実施形態は、非特許文献1の繰り返し最適化の一部にDNN(Deep Neural Network,ディープニューラルネットワーク)を利用することで、学習に必要なパラメータ数を削減する点にある。
【0021】
また、繰り返し回数がそのままニューラルネットワークのスタッキング(深層化)に直結するため、従来のニューラルネットワークと異なり、学習時とテスト時にネットワーク形状が一致する必要がない。また、実用時の計算機パワーや精度の要件などに合わせ、処理時間と復元精度のトレードオフに対して、スケーラビリティを持つことも特徴である。
【0022】
前述の通り、本実施形態では、Griffin-Limアルゴリズムの中に深層学習を組み込む。例えば、学習データを用いて訓練したDNNを利用して、Griffin-Limアルゴリズムの中に復元したい信号の統計的性質を組み込む。
図1は第一実施形態に係る推定装置100の機能ブロック図を、
図2はその処理フローの例を示す。推定装置100はM個の推定部110-m(m=0,1,2,…,M-1、Mは1以上の整数の何れか)を含む。
図3は、推定部110-mの機能ブロック図を示す。推定部110-mは、式(2)に対応する位相付与部111と、式(1)に対応する変換部112と含み、さらに、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムXの位相を所望の音響信号の位相に近づける位相変更部113を含む。
【0023】
図1、
図3の構成にし、Griffin-Limアルゴリズムの1回分の繰り返しの後にDNNによる処理を行うことで、復元したい信号の統計的性質を考慮した無矛盾位相推定を実現する。これは、内部のDNNを繰り返し数(M)分スタッキングしていることと等価である。つまり、この処理ブロックの繰り返し数(M)を制御することで、処理時のDNNのスケールを変化させることができる。例えば、DNN部113-1内のDNNの層数が3の場合には、M=1,2,3,…のときそれぞれ全体として3,6,9,…層からなるDNNとして機能する。繰り返し数を少なくすることは浅いDNNを使うことと等価であり、処理性能は低下するが、高速な演算が可能になる。一方、繰り返し数を多くすることは深いDNNを使うことと等価であり、処理速度は遅くなるが、高品質な出力音を得ることができる。
【0024】
ここで利用するDNNの条件は、復元したい信号の統計的性質に基づき(復元したい信号の学習データから何らかの方式で学習されればよい)、Griffin-Limアルゴリズムの出力音の位相を、復元したい信号に近づける処理であれば何でもよい。その一例として、以下の残差学習を実施形態として示す。
Y[m]=PB(X[m]) (4)
Z[m]=PC(Y[m]) (5)
X[m+1]=E(X[m]) (6)
=Z[m]-Fθ(X[m],Y[m],Z[m]) (7)
ここでFθは何らかの形で実装されたDNNである。つまり、Griffin-Limアルゴリズムで生じた歪みや推定誤差を、復元したい信号の統計的性質に基づき学習されたDNNが除去(減算)するという構成になっている。ここでDNNは、復元したい信号を直接推定するのではなく、復元したい信号でない成分を推定していることになる。DNNの学習は、例えば以下の目的関数を最小化するように学習できる。
【0025】
【0026】
ここでX*は真の複素スペクトログラム、~X=X*+N、Nは複素ガウスノイズ、~Y=PB(~X)、~Z=PC(~Y)である。ただし、Griffin-Limアルゴリズムは位相スペクトルのみを復元する処理のため、~Yの振幅は、X*の振幅と一致するようにする。
【0027】
本実施形態は、DNNの学習段階と位相スペクトルの推定段階とからなる。まず、学習段階について説明する。
<第一実施形態に係る学習装置>
図4は本実施形態の学習装置200の機能ブロック図を、
図5はその処理フローの例を示す。
【0028】
学習装置200は、復元したい信号の学習データ(クリーン音響信号X(L)*であり、複素スペクトログラムで表現される)とクリーン音響信号X(L)*に対応する振幅スペクトログラムA(L)とノイズNと各種最適化に必要なパラメータを入力とし、学習済みのDNNを出力する。
【0029】
学習装置200は、ノイズ加算部209と、位相付与部211と、変換部212と、DNN部213と、減算部214と、パラメータ更新部215とを含む。
【0030】
例えば、学習装置200は、図示しない初期化部において、DNN部213で用いるDNNのパラメータθを何からの乱数で初期化する(S208)。
【0031】
<ノイズ加算部209>
ノイズ加算部209は、クリーン音響信号X(L)*とノイズNとを入力とし、クリーン音響信号X(L)*にノイズNを加算し(S209)、複素スペクトログラム~X(=X(L)*+N)を求め、出力する。
【0032】
<位相付与部211>
位相付与部211は、複素スペクトログラム~Xとクリーン音響信号X(L)*に対応する振幅スペクトログラムA(L)とを入力とし、次式に示すように、振幅スペクトログラムA(L)に複素スペクトログラム~Xの位相を付与し(S211)、付与後の信号~Y=PB(~X)を求め、出力する。
【0033】
【0034】
なお、
【0035】
【0036】
が複素スペクトログラム~Xの位相を抽出する処理に相当し、式(12)が抽出した複素スペクトログラム~Xの位相を振幅スペクトログラムA(L)に付与する処理に相当する。なお、式(12)は、複素スペクトログラム~Xの各要素に対して振幅スペクトログラムA(L)の各要素を乗算し、その積を複素スペクトログラム~Xの振幅スペクトログラム|~X|で除算しているため、複素スペクトログラム~Xの振幅を振幅スペクトログラムA(L)の大きさに変換する処理といってもよい。
【0037】
<変換部212>
変換部212は、信号~Yを入力とし、次式により、信号~Yを逆短時間フーリエ変換G†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G†に対応する短時間フーリエ変換Gにより周波数領域の信号~Z=Pc(~Y)に変換し(S212)、出力する。
【0038】
【0039】
<DNN部213>
DNN部213は、パラメータθの初期値または後述するパラメータ更新部215で更新されたパラメータθと、複素スペクトログラム~Xと、信号~Yと、信号~Zとを入力とし、DNNにより、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を推定し(S213)、推定値Fθ(~X,~Y,~Z)を出力する。
【0040】
<減算部214>
減算部214は、信号~Zとクリーン音響信号X(L)*とを入力とし、差分を求め(S214)、求めた差分(複素スペクトログラム~Z-X(L)*)を出力する。
【0041】
<パラメータ更新部215>
パラメータ更新部215は、差分(複素スペクトログラム~Z-X(L)*)と、推定値Fθ(~X,~Y,~Z)とを入力とし、これらの値を用いて、
【0042】
【0043】
となるように、DNNのパラメータθを更新する(S215-1)。学習法には、確率的最急降下法などを利用すればよく、その学習率は10-5程度に設定すればよい。さらに、パラメータ更新部215は、所定の条件を満たすか否かを判定し(S215-2)、所定の条件を満たす場合には、その時点のDNNを学習済みのDNNとして出力する。所定の条件を満たさない場合には、更新後のパラメータθをDNN部213へ出力し、新たなクリーン音響信号X(L)*と新たなノイズNと更新後のパラメータθとを用いて、S209~S215-1を繰り返す。なお、所定の条件には、学習を一定回数(例えば10万回)繰り返したか?などを利用できる。
【0044】
以上の処理により、DNNの学習段階を実現する。次に位相スペクトルの推定段階について説明する。
<推定装置100>
上述の通り、
図1は本実施形態の推定装置100の機能ブロック図を、
図2はその処理フローの例を示す。
【0045】
推定装置100は、振幅スペクトログラムAと位相と振幅が矛盾する複素スペクトログラムX[0]とを入力とし、振幅スペクトログラムAに矛盾しない位相スペクトログラムを持つ複素スペクトログラムY[M]を求め、出力する。ここで、複素スペクトログラムX[0]の振幅は振幅スペクトログラムAである。
【0046】
推定装置100は、M個の推定部110-mと、位相付与部120とを含む(
図1参照)。
【0047】
<推定部110-m>
推定部110-mは、所望の音響信号の振幅スペクトログラムAと、位相と振幅が矛盾する複素スペクトログラムX[m]とを入力とし、推定した位相スペクトログラムを持つ複素スペクトログラムX[m+1]を求め、出力する。例えば、推定部110-mは、(i)位相と振幅が矛盾する複素スペクトログラムを時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムに変換する処理と、(ii)振幅を所望の音響信号の振幅スペクトログラムAの大きさに変換する処理と、(iii)所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、位相スペクトログラムを所望の音響信号に近づける処理と、を関連付けることで、振幅スペクトログラムAを所望の音響信号に近づける位相スペクトログラムを推定する(S110)。
【0048】
図3は、推定部110-mの機能ブロック図を示す。推定部110-mは位相付与部111と変換部112と位相変更部113とを含み、さらに、位相変更部113はDNN部113-1と減算部113-2とを含む。
【0049】
各推定部110-mの位相変更部113のDNN部113-1には、学習装置200で学習されたDNNが設定されている。前述の通り、繰り返し回数がそのままニューラルネットワークのスタッキング(深層化)に直結するため、従来のニューラルネットワークと異なり、学習時とテスト時にネットワーク形状が一致する必要がなく、学習時には上述の通りM個ではなく1個のDNNを学習すればよい。また、推定時には計算機パワーや精度の要件などに合わせ、繰り返し回数(M)を制御し、処理時間と復元精度のトレードオフに対して、スケーラビリティを持つことができる。例えば、M=5程度を実行すればよい。
【0050】
<位相付与部111>
位相付与部111は、所望の音響信号の振幅スペクトログラムAと、位相と振幅が矛盾する複素スペクトログラムX[m]とを入力とし、次式に示すように、振幅スペクトログラムAに複素スペクトログラムX[m]の位相を付与し(S111)、付与後の信号Y[m]=PB(X[m])を求め、出力する。
【0051】
【0052】
なお、
【0053】
【0054】
が複素スペクトログラムX[m]の位相を抽出する処理に相当し、式(21)が抽出した複素スペクトログラムX[m]の位相を振幅スペクトログラムAに付与する処理に相当する。なお、式(21)は、複素スペクトログラムX[m]の各要素に対して振幅スペクトログラムAの各要素を乗算し、その積を複素スペクトログラムX[m]の振幅スペクトログラム|X[m]|で除算しているため、複素スペクトログラムX[m]の振幅を振幅スペクトログラムAの大きさに変換する処理といってもよい。
【0055】
<変換部112>
変換部112は、信号Y[m]を入力とし、次式により、信号Y[m]を逆短時間フーリエ変換G†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G†に対応する短時間フーリエ変換Gにより周波数領域の信号Z[m]=Pc(Y[m])に変換し(S112)、出力する。
【0056】
【0057】
この処理は、位相と振幅が矛盾する複素スペクトログラムY[m]を時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムZ[m]に変換する処理に相当する。
【0058】
<位相変更部113>
位相変更部113は、複素スペクトログラムX[m]と信号Y[m]と信号Z[m]とを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムX[m]の位相を所望の音響信号の位相に近づけ(S113)、近づけた信号X[m+1]を出力する。例えば、位相変更部113は、以下のDNN部113-1と減算部113-2とにより、この処理を実現する。
【0059】
<DNN部113-1>
DNN部113-1は、複素スペクトログラムX[m]と信号Y[m]と信号Z[m]とを入力とし、所望の音響信号に対応する学習用の音響信号の統計的性質に基づくDNNにより、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差(Z[m]-X[m])を推定し(S113-1)、推定値Fθ(X[m],Y[m],Z[m])を出力する。なお、推定値Fθ(X[m],Y[m],Z[m])は複素スペクトログラムであり、例えば、次式によりFθ(X[m],Y[m],Z[m])からその位相スペクトログラムを求めることができる。
【0060】
【0061】
そのため、複素スペクトログラムFθ(X[m],Y[m],Z[m])を求める処理とその位相スペクトログラムを求める処理とは等価な処理と言える。
【0062】
<減算部113-2>
減算部113-2は、信号Z[m]と推定値Fθ(X[m],Y[m],Z[m])とを入力とし、差分を求め(S113-2)、求めた差分(複素スペクトログラムX[m+1]=Z[m]-Fθ(X[m],Y[m],Z[m]))を出力する。この減算が、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を除去する処理に相当し、また、信号Z[m](対応する複素スペクトログラムX[m]と言ってもよい)の位相スペクトログラムを所望の音響信号に近づける処理に相当する。
【0063】
推定部110-mは、全体として振幅スペクトログラムAを所望の音響信号に近づけており、これは、振幅スペクトログラムAを所望の音響信号に近づける位相スペクトログラムを推定する処理と等価である。
【0064】
上述の処理S111~S113-2を推定部110-mの個数M回分繰り返し、推定部110-(M-1)は複素スペクトログラムX[M]を求め、出力する。
【0065】
<位相付与部120>
位相付与部120は、複素スペクトログラムX[M]を入力とし、次式に示すように、振幅スペクトログラムAに複素スペクトログラムX[M]の位相を付与し(S120)、付与後の信号Y[M]=PB(X[M])を出力する。
【0066】
【0067】
この処理により、再度、複素スペクトログラムX[M]の振幅を振幅スペクトログラムAの大きさに変換する。
【0068】
<効果>
以上の構成により、復元したい信号の統計的性質を利用して、従来技術よりも少ない計算量で振幅スペクトルのみから、矛盾のない位相スペクトルを復元することができる。
【0069】
<変形例>
本実施形態では、位相と振幅が矛盾する複素スペクトログラムX[0]を入力として与えられているが、振幅スペクトログラムAのみを入力とし、振幅スペクトログラムAに対し、適当な位相スペクトログラム(初期値)を乱数で選び、初期値の複素スペクトログラムX[0]を作成する構成としてもよい。
【0070】
本実施形態では、ノイズに強いDNNを構築するために、ノイズ加算部209を設けているが、ノイズ加算部209を設けずに、クリーン音響信号X(L)*をそのまま複素スペクトログラム~X(=X(L)*)として用いてもよい。
【0071】
本実施形態では、残差学習の例を示したが、復元したい信号の統計的性質に基づき、Griffin-Limアルゴリズムの出力信号の位相を、復元したい信号に近づける処理を含めばよい。
【0072】
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
【0073】
<ハードウェア構成>
学習装置200と推定装置100は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。学習装置200と推定装置100は、例えば、中央演算処理装置の制御のもとで各処理を実行する。学習装置200と推定装置100に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。学習装置200と推定装置100の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。学習装置200と推定装置100が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも学習装置200と推定装置100がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、学習装置200と推定装置100の外部に備える構成としてもよい。
【0074】
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0075】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
【0076】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
【0077】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0078】
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。