(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-07
(45)【発行日】2024-10-16
(54)【発明の名称】推定方法、推定プログラム、深層ニューラルネットワーク装置および推定装置
(51)【国際特許分類】
G10L 25/03 20130101AFI20241008BHJP
G10L 25/30 20130101ALI20241008BHJP
【FI】
G10L25/03
G10L25/30
(21)【出願番号】P 2021136088
(22)【出願日】2021-08-24
【審査請求日】2023-08-02
【新規性喪失の例外の表示】特許法第30条第2項適用 [公開の事実1] 1.発行日:2020年8月26日 2.刊行物:一般財団法人日本音響学会 2020年秋季研究発表会(講演予稿集) https://acoustics.jp/annualmeeting/past-meetings/ 3.公開者:小泉悠馬、原田登、矢田部浩平、升山義紀、及川靖広 [公開の事実2] 1.開催日:2020年9月9日~2020年9月11日(公知日:2020年9月10日) 2.集会名:一般財団法人日本音響学会 2020年秋季研究発表会(オンライン開催) https://acoustics.jp/annualmeeting/past-meetings/ 3.公開者:小泉悠馬、原田登、矢田部浩平、升山義紀、及川靖広 [公開の事実3] 1.ウェブサイト掲載日:2020年10月28日 2.ウェブサイトのアドレス IEEE signal processing (vol15,No1,Jan 2021) https://ieeexplore.ieee.org/document/9242279 3.公開者:小泉悠馬、原田登、矢田部浩平、升山義紀、及川靖広
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100098394
【氏名又は名称】山川 茂樹
(74)【代理人】
【識別番号】100153006
【氏名又は名称】小池 勇三
(74)【代理人】
【識別番号】100064621
【氏名又は名称】山川 政樹
(74)【代理人】
【識別番号】100121669
【氏名又は名称】本山 泰
(72)【発明者】
【氏名】小泉 悠馬
(72)【発明者】
【氏名】安田 昌弘
(72)【発明者】
【氏名】矢田部 浩平
(72)【発明者】
【氏名】升山 義紀
【審査官】大野 弘
(56)【参考文献】
【文献】特開2020-122855(JP,A)
【文献】Yoshiki Masuyama, Kohei Yatabe, Yuma Koizumi, Yasuhiro Oikawa, Noboru Harada,DEEP GRIFFIN-LIM ITERATION,2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2019年04月17日,https://ieeexplore.ieee.org/document/8682744,DOI: 10.1109/ICASSP.2019.8682744
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/03
G10L 25/30
(57)【特許請求の範囲】
【請求項1】
複数回のゲート付き複素畳み込みステップと、
最終回の前記ゲート付き複素畳み込みステップの出力の畳み込み演算を行う第1の複素畳み込みステップとを含み、
初回の前記ゲート付き複素畳み込みステップは、
第1の複素スペクトログラムの畳み込み演算を行う第2の複素畳み込みステップと、
前記第1の複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力として前記第1の複素スペクトログラムの補正が必要な領域のみを選び出す第1の振幅ゲート演算ステップと、
前記第2の複素畳み込みステップの出力と前記第1の振幅ゲート演算ステップの出力とを乗算した結果を出力する第1の乗算ステップとを含み、
初回以外の前記ゲート付き複素畳み込みステップは、
直前の前記ゲート付き複素畳み込みステップの出力の畳み込み演算を行う第3の複素畳み込みステップと、
直前の前記ゲート付き複素畳み込みステップの出力と前記振幅スペクトログラムとを入力として直前の前記ゲート付き複素畳み込みステップの出力の補正が必要な領域のみを選び出す第2の振幅ゲート演算ステップと、
前記第3の複素畳み込みステップの出力と前記第2の振幅ゲート演算ステップの出力とを乗算した結果を出力する第2の乗算ステップとを含み、
深層ニューラルネットワークにより前記所望の音響信号の雑音成分の複素スペクトログラムを推定することを特徴とする推定方法。
【請求項2】
複数回のゲート付き複素畳み込みステップと、
最終回の前記ゲート付き複素畳み込みステップの出力の畳み込み演算を行う第1の複素畳み込みステップとを含み、
初回の前記ゲート付き複素畳み込みステップは、
第1の複素スペクトログラムの畳み込み演算を行う第2の複素畳み込みステップと、
前記第1の複素スペクトログラムの補正が必要な領域のみを選び出す第1の振幅ゲート演算ステップと、
前記第2の複素畳み込みステップの出力と前記第1の振幅ゲート演算ステップの出力とを乗算した結果を出力する第1の乗算ステップとを含み、
初回以外の前記ゲート付き複素畳み込みステップは、
直前の前記ゲート付き複素畳み込みステップの出力の畳み込み演算を行う第3の複素畳み込みステップと、
直前の前記ゲート付き複素畳み込みステップの出力の補正が必要な領域のみを選び出す第2の振幅ゲート演算ステップと、
前記第3の複素畳み込みステップの出力と前記第2の振幅ゲート演算ステップの出力とを乗算した結果を出力する第2の乗算ステップとを含み、
前記第1の振幅ゲート演算ステップは、前記第1の複素スペクトログラムをC、実数の重みパラメータをW
R
としたとき、Sigmoid(|C|*W
R
)により振幅ゲート演算を行うステップを含み、
前記第2の振幅ゲート演算ステップは、直前の前記ゲート付き複素畳み込みステップの出力である複素スペクトログラムをCとしたとき、Sigmoid(|C|*W
R
)により振幅ゲート演算を行うステップを含み、
深層ニューラルネットワークにより所望の音響信号の雑音成分の複素スペクトログラムを推定することを特徴とする推定方法。
【請求項3】
請求項1または2記載の推定方法において、
位相と振幅が矛盾する第2の複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力とし、前記振幅スペクトログラムに前記第2の複素スペクトログラムの位相を付与して、付与後の第1の信号を求める位相付与ステップと、
前記第1の信号を逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の第2の信号に変換する変換ステップと、
所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記第2の複素スペクトログラムの位相を前記所望の音響信号の位相に近づける位相変更ステップとをさらに含み、
前記位相変更ステップは、前記複数回のゲート付き複素畳み込みステップと前記第1の複素畳み込みステップとを含み、前記深層ニューラルネットワークに入力する前記第1の複素スペクトログラムとして、前記第2の複素スペクトログラムと前記第1の信号と前記第2の信号とを用い、前記変換ステップの出力と前記深層ニューラルネットワークの出力との差分を出力するステップを含むことを特徴とする推定方法。
【請求項4】
請求項3記載の推定方法において、
前記深層ニューラルネットワークは、
学習用の音響信号から得られる複素スペクトログラムとその振幅スペクトログラムとを用いて予め学習されたものであり、
前記第2の信号と前記第2の複素スペクトログラムとの残差の推定値を出力することを特徴とする推定方法。
【請求項5】
請求項1乃至4のいずれか1項に記載の各ステップをコンピュータに実行させることを特徴とする推定プログラム。
【請求項6】
縦続接続された複数のゲート付き複素畳み込み層と、
終段の前記ゲート付き複素畳み込み層の出力の畳み込み演算を行うように構成された第1の複素畳み込み層とを備え、
初段の前記ゲート付き複素畳み込み層は、
第1の複素スペクトログラムの畳み込み演算を行うように構成された第2の複素畳み込み層と、
前記第1の複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力として前記第1の複素スペクトログラムの補正が必要な領域のみを選び出すように構成された第1の振幅ゲート層と、
前記第2の複素畳み込み層の出力と前記第1の振幅ゲート層の出力とを乗算した結果を出力するように構成された第1の乗算部とから構成され、
初段以外の前記ゲート付き複素畳み込み層は、
前段の前記ゲート付き複素畳み込み層の出力の畳み込み演算を行うように構成された第3の複素畳み込み層と、
前段の前記ゲート付き複素畳み込み層の出力と前記振幅スペクトログラムとを入力として前段の前記ゲート付き複素畳み込み層の出力の補正が必要な領域のみを選び出すように構成された第2の振幅ゲート層と、
前記第3の複素畳み込み層の出力と前記第2の振幅ゲート層の出力とを乗算した結果を出力するように構成された第2の乗算部とから構成され、
前記所望の音響信号の雑音成分の複素スペクトログラムを推定することを特徴とする深層ニューラルネットワーク
装置。
【請求項7】
縦続接続された複数のゲート付き複素畳み込み層と、
終段の前記ゲート付き複素畳み込み層の出力の畳み込み演算を行うように構成された第1の複素畳み込み層とを備え、
初段の前記ゲート付き複素畳み込み層は、
第1の複素スペクトログラムの畳み込み演算を行うように構成された第2の複素畳み込み層と、
前記第1の複素スペクトログラムの補正が必要な領域のみを選び出すように構成された第1の振幅ゲート層と、
前記第2の複素畳み込み層の出力と前記第1の振幅ゲート層の出力とを乗算した結果を出力するように構成された第1の乗算部とから構成され、
初段以外の前記ゲート付き複素畳み込み層は、
前段の前記ゲート付き複素畳み込み層の出力の畳み込み演算を行うように構成された第3の複素畳み込み層と、
前段の前記ゲート付き複素畳み込み層の出力の補正が必要な領域のみを選び出すように構成された第2の振幅ゲート層と、
前記第3の複素畳み込み層の出力と前記第2の振幅ゲート層の出力とを乗算した結果を出力するように構成された第2の乗算部とから構成され、
前記第1の振幅ゲート層は、前記第1の複素スペクトログラムをC、実数の重みパラメータをW
R
としたとき、Sigmoid(|C|*W
R
)により振幅ゲート演算を行うものであり、
前記第2の振幅ゲート層は、前段の前記ゲート付き複素畳み込み層の出力である複素スペクトログラムをCとしたとき、Sigmoid(|C|*W
R
)により振幅ゲート演算を行うものであり、
所望の音響信号の雑音成分の複素スペクトログラムを推定することを特徴とする深層ニューラルネットワーク
装置。
【請求項8】
位相と振幅が矛盾する第2の複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力とし、前記振幅スペクトログラムに前記第2の複素スペクトログラムの位相を付与して、付与後の第1の信号を求めるように構成された位相付与部と、
前記第1の信号を逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の第2の信号に変換するように構成された変換部と、
所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記第2の複素スペクトログラムの位相を前記所望の音響信号の位相に近づけるように構成された位相変更部とを備え、
前記位相変更部は、請求項6または7記載の深層ニューラルネットワーク
装置を含み、前記深層ニューラルネットワーク
装置に入力する第1の複素スペクトログラムとして、前記第2の複素スペクトログラムと前記第1の信号と前記第2の信号とを用い、前記変換部の出力と前記深層ニューラルネットワーク
装置の出力との差分を出力することを特徴とする推定装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、振幅スペクトルのみから位相スペクトルを復元する音響信号復元技術に関するものである。
【背景技術】
【0002】
音声合成や音声強調などの多くの音響信号処理のアプリケーションは、時間領域の観測信号(波形)を短時間フーリエ変換(STFT:Short-Time Fourier Transform)などを利用して時間周波数領域に変換して処理を行う。STFTスペクトルは複素数であり、STFTスペクトログラムから時間信号を復元するには、振幅スペクトログラムと位相スペクトログラムの両方が必要である。ところが、位相スペクトルはその扱いが難しい。このため、音声合成や音声強調では、振幅スペクトルのみを推定して制御し、位相スペクトルを最小位相や観測位相で代用して、時間信号へと逆変換することが多い。
【0003】
振幅スペクトログラムと位相スペクトログラムは独立変数ではないため、片方を制御した場合、もう片方はそれに対応した変数である必要がある。ゆえに、音声合成や音声強調では、振幅と位相の矛盾により、出力音の品質が低下することがあった。
【0004】
振幅スペクトログラムから、振幅と矛盾しない位相スペクトログラムを推定する技術として、非特許文献1に開示された技術が知られている。非特許文献1に開示された技術(Griffin-Limアルゴリズムと呼ばれている)は、以下の手順を繰り返すことで振幅スペクトログラムAから、無矛盾な位相スペクトログラムを推定する技術である。
【0005】
【0006】
ここで、Xは振幅がAの複素スペクトログラム、GはSTFT、G†は逆STFT、◎は要素毎の乗算、:は要素毎の除算、|・|は要素毎の絶対値演算を表す。式(1)、式(2)は、以下の最適化問題を解いていることと等しい。
【0007】
【0008】
ここで||・||Froはフロベニウスノルムを表す。なお、Bは振幅がAのスペクトログラムの集合である。前述のとおり、位相スペクトルを最小位相や観測位相で代用するために、複素スペクトログラムXに式(1)のSTFTと逆STFTを行うと、元の複素スペクトログラムXに戻らない。そこで、式(2)により振幅を与えられた振幅スペクトログラムAに固定し、式(3)により、正しい短時間フーリエ変換表現となるように位相を求める。
【0009】
非特許文献1に開示された方式は、あらゆる音響信号に対して適応可能である一方、膨大な回数の繰り返しが必要である。膨大な回数の繰り返しが必要な理由は、最適化の枠組みの中に、復元したい所望の音響信号の統計的性質について一切の仮定を置いていないためである。
【0010】
一方、非特許文献2では、非特許文献1に開示されたGriffin-Limアルゴリズムに深層学習を組み込む手法を提案している。すなわち、復元したい信号の統計的性質を、学習データを用いて訓練した深層ニューラルネットワーク(DNN:Deep Neural Network)を利用して組み込む。
図8に、非特許文献2に開示された推定装置の構成を示す。推定装置100は、M個の推定部110-m(m=0,1,2,・・・,M-1、Mは1以上の整数)と、位相付与部120とを備えている。
【0011】
図9は推定部110-mの構成を示すブロック図である。推定部110-mは、式(2)に対応する位相付与部111と、式(1)に対応する変換部112と、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムXの位相を所望の音響信号の位相に近づける位相変更部113とから構成される。位相変更部113は、DNN114と、減算部115とから構成される。
【0012】
図8、
図9に示したような構成において、Griffin-Limアルゴリズムの1回分の繰り返しの後にDNNによる処理を行うことで、復元したい信号の統計的性質を考慮した無矛盾位相推定を実現する。
図8、
図9の構成は、内部のDNNを繰り返し数M分スタッキングしていることと等価である。つまり、推定部110-mの繰り返し数Mを制御することで、処理時のDNNのスケールを変化させることができる。繰り返し数Mを少なくすることは浅いDNNを使うことと等価であり、処理性能は低下するが、高速な演算が可能になる。一方、繰り返し数Mを多くすることは深いDNNを使うことと等価であり、処理速度は遅くなるが、高品質な出力音を得ることができる。
【0013】
ここで利用するDNNは、復元したい信号の学習データから何らかの方式で学習されたものであればよく、Griffin-Limアルゴリズムの出力音の位相を、復元したい信号に近づける処理であれば何でもよい。DNNの学習方法の1例として、以下の残差学習の例を示す。
【0014】
Y[m]=PB(X[m]) ・・・(4)
Z[m]=PC(Y[m]) ・・・(5)
X[m+1]=E(X[m]) ・・・(6)
=Z[m]-Fθ(X[m],Y[m],Z[m]) ・・・(7)
【0015】
Y
[m]は位相付与部111の出力信号、Z
[m]は変換部112の出力信号、X
[m+1]は位相変更部113の出力信号である。ここでF
θは実数畳み込み層とゲート付線形層とからなるDNNである。つまり、
図9の構成は、Griffin-Limアルゴリズムで生じた歪みや推定誤差を、復元したい信号の統計的性質に基づき学習されたDNNが除去(減算)するという構成になっている。ここでDNNは、復元したい信号を直接推定するのではなく、復元したい信号でない成分を推定していることになる。DNNは、例えば以下の目的関数を最小化するように学習される。
【0016】
【0017】
ここで、X*は真の複素スペクトログラムである。Xチルダ、Yチルダ、Zチルダは次式のようになる。
【0018】
【0019】
Nは複素ガウスノイズである。ただし、Griffin-Limアルゴリズムは位相スペクトルのみを復元する処理である。このため、Yチルダの振幅は、真の複素スペクトログラムX*の振幅と一致するようにする。
【0020】
非特許文献2に開示されたDNNの学習段階について説明する。
図10は従来の学習装置の構成を示すブロック図である。
図10に示す学習装置200は、復元したい信号の学習データ(クリーン音響信号X
(L)*であり、複素スペクトログラムで表現される)とクリーン音響信号X
(L)*の振幅スペクトログラムA
(L)とノイズNと各種最適化に必要なパラメータとを入力とする。
【0021】
学習装置200は、ノイズ加算部209と、位相付与部211と、変換部212と、DNN213と、減算部214と、パラメータ更新部215とから構成される。
【0022】
図11はDNN213の構成を示すブロック図である。DNN213は、複数の実数畳み込み層2130~2134と、複数のゲート付線形層2135~2138とから構成される。
図11において、sは畳み込みのストライド、cはチャネル数、kはカーネルサイズを表している。
【0023】
図12は学習装置200の動作を説明するフローチャートである。例えば、図示しない初期化部は、DNN213のパラメータθを乱数で初期化する(
図12ステップS100)。
ノイズ加算部209は、クリーン音響信号X
(L)*とノイズNとを入力とし、クリーン音響信号X
(L)*にノイズNを加算し、複素スペクトログラムXチルダを出力する(
図12ステップS101)。
【0024】
【0025】
位相付与部211は、複素スペクトログラムXチルダと振幅スペクトログラムA
(L)とを入力とし、次式に示すように、振幅スペクトログラムA
(L)に複素スペクトログラムXチルダの位相を付与して、付与後の信号Yチルダを出力する(
図12ステップS102)。
【0026】
【0027】
上記のとおり、◎は要素毎の乗算、:は要素毎の除算、|・|は要素毎の絶対値演算を表している。式(13)は、複素スペクトログラムXチルダの各要素に対して振幅スペクトログラムA(L)の各要素を乗算し、乗算結果を複素スペクトログラムXチルダの振幅スペクトログラム|Xチルダ|で除算しているため、複素スペクトログラムXチルダの振幅を振幅スペクトログラムA(L)の大きさに変換する処理といってもよい。
【0028】
変換部212は、信号Yチルダを入力とし、次式により、信号Yチルダを逆短時間フーリエ変換G†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G†に対応する短時間フーリエ変換Gにより周波数領域の信号Zチルダに変換して出力する(
図12ステップS103)。
【0029】
【0030】
DNN213は、複素スペクトログラムXチルダと、信号Yチルダと、信号Zチルダとを入力とし、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を推定し、推定値F
θ(Xチルダ,Yチルダ,Zチルダ)を出力する(
図12ステップS104)。
【0031】
一方、減算部214は、信号Zチルダとクリーン音響信号X
(L)*との差分Zチルダ-X
(L)*を求めて出力する(
図12ステップS105)。
【0032】
パラメータ更新部215は、差分Zチルダ-X
(L)*と、推定値F
θ(Xチルダ,Yチルダ,Zチルダ)とを入力とし、これらの値を用いて、以下の目的関数を最小化するようにDNN213のパラメータθを更新する(
図12ステップS106)。
【0033】
【0034】
学習法としては、確率的最急降下法などを利用すればよい。学習率は例えば10
-5程度に設定すればよい。
パラメータ更新部215は、所定の条件を満たすか否かを判定し(
図12ステップS107)、所定の条件を満たす場合には、その時点のDNN213を学習済みのDNNとする。
【0035】
所定の条件を満たさない場合には、新たなクリーン音響信号X(L)*と新たなノイズNと更新後のパラメータθとを用いて、ステップS101~S106の処理が再び実施される。例えばステップS101~S106の処理を10万回繰り返したときに、所定の条件を満たしたとしてDNN213の学習が終了する。
【0036】
図13は推定装置100の動作を説明するフローチャートである。推定装置100は、位相と振幅が矛盾する複素スペクトログラムX
[0]と、所望の音響信号の振幅スペクトログラムAとを入力とし、振幅スペクトログラムAに矛盾しない位相スペクトログラムを持つ複素スペクトログラムY
[M]を求めて出力する。複素スペクトログラムX
[0]の振幅は振幅スペクトログラムAである。
【0037】
M個の推定部110-m(m=0,1,2,・・・,M-1、Mは1以上の整数)は、位相と振幅が矛盾する複素スペクトログラムX[m]と、所望の音響信号の振幅スペクトログラムAとを入力とし、推定した位相スペクトログラムを持つ複素スペクトログラムX[m+1]を求めて出力する。
【0038】
上記のとおり、推定部110-mは、位相付与部111と、変換部112と、位相変更部113とから構成される。位相変更部113は、DNN114と、減算部115とから構成される。DNN114には、
図10の学習装置200で学習されたDNNが設定されている。
【0039】
位相付与部111は、位相と振幅が矛盾する複素スペクトログラムX
[m]と、所望の音響信号の振幅スペクトログラムAとを入力とし、次式に示すように、振幅スペクトログラムAに複素スペクトログラムX
[m]の位相を付与して、付与後の信号Y
[m]=P
B(X
[m])を出力する(
図13ステップS201)。
【0040】
【0041】
式(16)は、複素スペクトログラムX[m]の各要素に対して振幅スペクトログラムAの各要素を乗算し、乗算結果を複素スペクトログラムX[m]の振幅スペクトログラム|X[m]|で除算しているため、複素スペクトログラムX[m]の振幅を振幅スペクトログラムAの大きさに変換する処理といってもよい。
【0042】
変換部112は、信号Y
[m]を入力とし、次式により、信号Y
[m]を逆短時間フーリエ変換G†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G†に対応する短時間フーリエ変換Gにより周波数領域の信号Z
[m]=P
C(Y
[m])に変換して出力する(
図13ステップS202)。
【0043】
【0044】
ステップS202の処理は、位相と振幅が矛盾する複素スペクトログラムY[m]を時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムZ[m]に変換する処理に相当する。
【0045】
位相変更部113は、複素スペクトログラムX[m]と信号Y[m]と信号Z[m]とを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムX[m]の位相を所望の音響信号の位相に近づける。
【0046】
DNN114は、複素スペクトログラムX
[m]と信号Y
[m]と信号Z
[m]とを入力とし、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差(Z
[m]-X
[m])を推定し、推定値F
θ(X
[m],Y
[m],Z
[m])を出力する(
図13ステップS203)。
【0047】
減算部115は、信号Z
[m]と推定値F
θ(X
[m],Y
[m],Z
[m])との差分X
[m+1]=Z
[m]-F
θ(X
[m],Y
[m],Z
[m])を求めて出力する(
図13ステップS204)。この減算処理が、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を除去する処理に相当し、複素スペクトログラムX
[m]の位相スペクトログラムを所望の音響信号に近づける処理に相当する。
【0048】
ステップS201~S204の処理を推定部110-mの個数M回分繰り返し、M回の処理が終わると(
図13ステップS206においてYES)、終段の推定部110-(M-1)から複素スペクトログラムX
[M]が出力される。繰り返し数Mは例えば5程度とすればよい。
【0049】
位相付与部120は、複素スペクトログラムX
[M]と振幅スペクトログラムAとを入力とし、次式に示すように、振幅スペクトログラムAに複素スペクトログラムX
[M]の位相を付与して、付与後の信号Y
[M]=P
B(X
[M])を出力する(
図13ステップS207)。
【0050】
【0051】
ステップS207の処理により、再度、複素スペクトログラムX[M]の振幅を振幅スペクトログラムAの大きさに変換する。
以上の構成により、非特許文献2に開示された技術では、復元したい信号の統計的性質を利用して、振幅スペクトルのみから、矛盾のない位相スペクトルを復元することができる。
【0052】
ただし、非特許文献2で用いられているDNNの構造では、スペクトログラムの実部と虚部とをそれぞれ実数として連結したものを実数畳み込み層に入力していた。このようなDNNでは、スペクトログラムの複素数としての代数構造を考慮できない。スペクトログラムの位相と振幅の関係は、スペクトログラムの複素数としての構造から得られるものである。このため、実数のみのDNNの構造では、雑音成分の複素スペクトログラムを十分に推定できない可能性があった。
【先行技術文献】
【非特許文献】
【0053】
【文献】D.Griffin and J.Lim,“Signal estimation from modified shorttime Fourier transform”,IEEE Transactions on Acoustics,Speech,and Signal Processing,vol.32,no.2,pp.236-243,Apr.1984
【文献】Y.Masuyama,K.Yatabe,Y.Koizumi,Y.Oikawa,N.Harada,“DEEP GRIFFIN-LIM ITERATION”,International Conference on Acoustics,Speech,and Signal Processing,Oct.2019
【発明の概要】
【発明が解決しようとする課題】
【0054】
本発明は、上記課題を解決するためになされたもので、スペクトログラムの複素数としての代数構造を考慮した音響信号復元のための演算を行うことが可能な推定方法、推定プログラム、深層ニューラルネットワーク装置および推定装置を提供することを目的とする。
【課題を解決するための手段】
【0055】
本発明の推定方法は、複数回のゲート付き複素畳み込みステップと、最終回の前記ゲート付き複素畳み込みステップの出力の畳み込み演算を行う第1の複素畳み込みステップとを含み、初回の前記ゲート付き複素畳み込みステップは、第1の複素スペクトログラムの畳み込み演算を行う第2の複素畳み込みステップと、前記第1の複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力として前記第1の複素スペクトログラムの補正が必要な領域のみを選び出す第1の振幅ゲート演算ステップと、前記第2の複素畳み込みステップの出力と前記第1の振幅ゲート演算ステップの出力とを乗算した結果を出力する第1の乗算ステップとを含み、初回以外の前記ゲート付き複素畳み込みステップは、直前の前記ゲート付き複素畳み込みステップの出力の畳み込み演算を行う第3の複素畳み込みステップと、直前の前記ゲート付き複素畳み込みステップの出力と前記振幅スペクトログラムとを入力として直前の前記ゲート付き複素畳み込みステップの出力の補正が必要な領域のみを選び出す第2の振幅ゲート演算ステップと、前記第3の複素畳み込みステップの出力と前記第2の振幅ゲート演算ステップの出力とを乗算した結果を出力する第2の乗算ステップとを含み、深層ニューラルネットワークにより前記所望の音響信号の雑音成分の複素スペクトログラムを推定することを特徴とするものである。
【0056】
また、本発明の推定方法は、複数回のゲート付き複素畳み込みステップと、最終回の前記ゲート付き複素畳み込みステップの出力の畳み込み演算を行う第1の複素畳み込みステップとを含み、初回の前記ゲート付き複素畳み込みステップは、第1の複素スペクトログラムの畳み込み演算を行う第2の複素畳み込みステップと、前記第1の複素スペクトログラムの補正が必要な領域のみを選び出す第1の振幅ゲート演算ステップと、前記第2の複素畳み込みステップの出力と前記第1の振幅ゲート演算ステップの出力とを乗算した結果を出力する第1の乗算ステップとを含み、初回以外の前記ゲート付き複素畳み込みステップは、直前の前記ゲート付き複素畳み込みステップの出力の畳み込み演算を行う第3の複素畳み込みステップと、直前の前記ゲート付き複素畳み込みステップの出力の補正が必要な領域のみを選び出す第2の振幅ゲート演算ステップと、前記第3の複素畳み込みステップの出力と前記第2の振幅ゲート演算ステップの出力とを乗算した結果を出力する第2の乗算ステップとを含み、前記第1の振幅ゲート演算ステップは、前記第1の複素スペクトログラムをC、実数の重みパラメータをW
R
としたとき、Sigmoid(|C|*W
R
)により振幅ゲート演算を行うステップを含み、前記第2の振幅ゲート演算ステップは、直前の前記ゲート付き複素畳み込みステップの出力である複素スペクトログラムをCとしたとき、Sigmoid(|C|*W
R
)により振幅ゲート演算を行うステップを含み、深層ニューラルネットワークにより所望の音響信号の雑音成分の複素スペクトログラムを推定することを特徴とするものである。
【0057】
また、本発明の推定方法は、位相と振幅が矛盾する第2の複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力とし、前記振幅スペクトログラムに前記第2の複素スペクトログラムの位相を付与して、付与後の第1の信号を求める位相付与ステップと、前記第1の信号を逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の第2の信号に変換する変換ステップと、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記第2の複素スペクトログラムの位相を前記所望の音響信号の位相に近づける位相変更ステップとをさらに含み、前記位相変更ステップは、前記複数回のゲート付き複素畳み込みステップと前記第1の複素畳み込みステップとを含み、前記深層ニューラルネットワークに入力する前記第1の複素スペクトログラムとして、前記第2の複素スペクトログラムと前記第1の信号と前記第2の信号とを用い、前記変換ステップの出力と前記深層ニューラルネットワークの出力との差分を出力するステップを含むことを特徴とするものである。
また、本発明の推定方法の1構成例において、前記深層ニューラルネットワークは、学習用の音響信号から得られる複素スペクトログラムとその振幅スペクトログラムとを用いて予め学習されたものであり、前記第2の信号と前記第2の複素スペクトログラムとの残差の推定値を出力することを特徴とするものである。
また、本発明の推定プログラムは、前記の各ステップをコンピュータに実行させることを特徴とするものである。
【0058】
また、本発明の深層ニューラルネットワーク装置は、縦続接続された複数のゲート付き複素畳み込み層と、終段の前記ゲート付き複素畳み込み層の出力の畳み込み演算を行うように構成された第1の複素畳み込み層とを備え、初段の前記ゲート付き複素畳み込み層は、第1の複素スペクトログラムの畳み込み演算を行うように構成された第2の複素畳み込み層と、前記第1の複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力として前記第1の複素スペクトログラムの補正が必要な領域のみを選び出すように構成された第1の振幅ゲート層と、前記第2の複素畳み込み層の出力と前記第1の振幅ゲート層の出力とを乗算した結果を出力するように構成された第1の乗算部とから構成され、初段以外の前記ゲート付き複素畳み込み層は、前段の前記ゲート付き複素畳み込み層の出力の畳み込み演算を行うように構成された第3の複素畳み込み層と、前段の前記ゲート付き複素畳み込み層の出力と前記振幅スペクトログラムとを入力として前段の前記ゲート付き複素畳み込み層の出力の補正が必要な領域のみを選び出すように構成された第2の振幅ゲート層と、前記第3の複素畳み込み層の出力と前記第2の振幅ゲート層の出力とを乗算した結果を出力するように構成された第2の乗算部とから構成され、前記所望の音響信号の雑音成分の複素スペクトログラムを推定することを特徴とするものである。
【0059】
また、本発明の深層ニューラルネットワーク装置は、縦続接続された複数のゲート付き複素畳み込み層と、終段の前記ゲート付き複素畳み込み層の出力の畳み込み演算を行うように構成された第1の複素畳み込み層とを備え、初段の前記ゲート付き複素畳み込み層は、第1の複素スペクトログラムの畳み込み演算を行うように構成された第2の複素畳み込み層と、前記第1の複素スペクトログラムの補正が必要な領域のみを選び出すように構成された第1の振幅ゲート層と、前記第2の複素畳み込み層の出力と前記第1の振幅ゲート層の出力とを乗算した結果を出力するように構成された第1の乗算部とから構成され、初段以外の前記ゲート付き複素畳み込み層は、前段の前記ゲート付き複素畳み込み層の出力の畳み込み演算を行うように構成された第3の複素畳み込み層と、前段の前記ゲート付き複素畳み込み層の出力の補正が必要な領域のみを選び出すように構成された第2の振幅ゲート層と、前記第3の複素畳み込み層の出力と前記第2の振幅ゲート層の出力とを乗算した結果を出力するように構成された第2の乗算部とから構成され、前記第1の振幅ゲート層は、前記第1の複素スペクトログラムをC、実数の重みパラメータをW
R
としたとき、Sigmoid(|C|*W
R
)により振幅ゲート演算を行うものであり、前記第2の振幅ゲート層は、前段の前記ゲート付き複素畳み込み層の出力である複素スペクトログラムをCとしたとき、Sigmoid(|C|*W
R
)により振幅ゲート演算を行うものであり、所望の音響信号の雑音成分の複素スペクトログラムを推定することを特徴とするものである。
【0060】
また、本発明の推定装置は、位相と振幅が矛盾する第2の複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力とし、前記振幅スペクトログラムに前記第2の複素スペクトログラムの位相を付与して、付与後の第1の信号を求めるように構成された位相付与部と、前記第1の信号を逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を前記逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の第2の信号に変換するように構成された変換部と、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、前記第2の複素スペクトログラムの位相を前記所望の音響信号の位相に近づけるように構成された位相変更部とを備え、前記位相変更部は、前記深層ニューラルネットワーク装置を含み、前記深層ニューラルネットワーク装置に入力する第1の複素スペクトログラムとして、前記第2の複素スペクトログラムと前記第1の信号と前記第2の信号とを用い、前記変換部の出力と前記深層ニューラルネットワーク装置の出力との差分を出力することを特徴とするものである。
【発明の効果】
【0061】
本発明によれば、複素畳み込みステップの結果と振幅ゲート演算ステップの結果とを乗算するゲート付き複素畳み込みステップを実行することにより、スペクトログラムの複素数としての代数構造を考慮した音響信号復元のための演算を行うことが可能になる。その結果、本発明では、雑音成分の複素スペクトログラムを精度良く推定することができ、従来の技術と比較して、より高品質な出力音を得ることが可能になる。
【図面の簡単な説明】
【0062】
【
図1】
図1は、本発明の実施例に係るDNNの構成を示すブロック図である。
【
図2】
図2は、本発明の実施例に係るDNNの動作を説明するフローチャートである。
【
図3】
図3は、本発明の実施例に係る推定装置の構成を示すブロック図である。
【
図4】
図4は、本発明の実施例に係る推定装置の推定部の構成を示すブロック図である。
【
図5】
図5は、本発明の実施例に係る学習装置の構成を示すブロック図である。
【
図6】
図6は、本発明の実施例に係るDNNの別の構成を示すブロック図である。
【
図7】
図7は、本発明の実施例に係る推定装置と学習装置を実現するコンピュータの構成例を示すブロック図である。
【
図8】
図8は、従来の推定装置の構成を示すブロック図である。
【
図9】
図9は、従来の推定装置の推定部の構成を示すブロック図である。
【
図10】
図10は、従来の学習装置の構成を示すブロック図である。
【
図11】
図11は、従来のDNNの構成を示すブロック図である。
【
図12】
図12は、従来の学習装置の動作を説明するフローチャートである。
【
図13】
図13は、従来の推定装置の動作を説明するフローチャートである。
【発明を実施するための形態】
【0063】
以下、本発明の実施例について図面を参照して説明する。本実施例では、非特許文献2におけるDNNの構造として、AI-GCNN(amplitude-informed gated complex convolutional neural network)を提案する。
【0064】
複素スペクトログラムCに対する複素畳み込みは、次式のように定義される。
ConvC(C)=(WRe*CRe-WIm*CIm)+i(WRe*CIm+WIm*CRe)
・・・(19)
【0065】
iは虚数単位、CReは複素スペクトログラムCの実部、CImは複素スペクトログラムCの虚部、WReは実部に対する重みパラメータ、WImは虚部に対する重みパラメータである。
【0066】
図1は本実施例に係るDNNであるAI-GCNNの構成を示すブロック図である。AI-GCNNは、縦続接続された複数のゲート付き複素畳み込み層1000~1002と、終段のゲート付き複素畳み込み層1002の出力の畳み込み演算を行う複素畳み込み層1003とから構成される。
【0067】
ゲート付き複素畳み込み層1000~1002の各々は、複素スペクトログラムの畳み込み演算を行う複素畳み込み層1004と、複素スペクトログラムと所望の音響信号の振幅スペクトログラムとを入力として複素スペクトログラムの補正が必要な領域のみを選び出す振幅ゲート層1005と、複素畳み込み層1004の出力と振幅ゲート層1005の出力とを要素毎に乗算した結果を出力する乗算部1006とから構成される。
【0068】
図1において、cはチャネル数、kはカーネルサイズを表している。複素畳み込み層1004と振幅ゲート層1005のチャネル数は64、カーネルサイズは5×3である。複素畳み込み層1003のチャネル数は1、カーネルサイズは1×1である。各層の畳み込みのストライドは1とする。
【0069】
AI-GCNNでは、非線形層として次式のように定義される振幅ゲート層を用いる。
AmpGateWR(C)=Sigmoid(|C|*WR) ・・・(20)
【0070】
Cは入力される複素スペクトログラム、WRは実数の重みパラメータである。振幅ゲート層は、複素スペクトログラムに対して時間周波数マスクのように働き、スペクトログラムの補正が必要な領域のみを選びだすことが期待できる。この振幅ゲート層を複素畳みこみ層ConvWCに対して適用する操作として、次式のようにAGC(amplitude-basedgated complex convolution)層が定義される。
AGCWC,WR(C)=ConvWC(C)◎AmpGateWR(C) ・・(21)
【0071】
上記のとおり、◎は要素毎の乗算を表す。さらに、時間周波数マスクの推定に有用であることが知られている振幅情報をより直接的に取り入れるため、AGC層は次式のように定義されるゲート付き複素畳み込み(AI-GC:amplitude-informed gated complex convolution)層に拡張される。
【0072】
【0073】
式(23)の[A,C]は振幅スペクトログラムAと複素スペクトログラムCのチャネル方向の結合を示している。式(22)、式(23)によれば、目的となる振幅スペクトログラムAと複素スペクトログラムCの振幅とを比較し、残差を抽出することが可能である。
このように、本実施例のゲート付き複素畳み込み層1000~1002は、複素スペクトログラムCに加えて、振幅スペクトログラムAも入力とする。
【0074】
図2は本実施例に係るDNNであるAI-GCNNの動作を説明するフローチャートである。ここでは、ゲート付き複素畳み込みステップの実行回数を数える変数をnとする。
【0075】
初回(n=0)のゲート付き複素畳み込みステップでは、ゲート付き複素畳み込み層1000の複素畳み込み層1004により複素スペクトログラムCの畳み込み演算を行い(
図2ステップS11)、ゲート付き複素畳み込み層1000の振幅ゲート層1005により複素スペクトログラムCの補正が必要な領域のみを選び出す振幅ゲート演算を行う(
図2ステップS12)。ゲート付き複素畳み込み層1000の乗算部1006は、ゲート付き複素畳み込み層1000の複素畳み込み層1004と振幅ゲート層1005の出力を要素毎に乗算した結果を出力する(
図2ステップS13)。
【0076】
2回目(n=1)のゲート付き複素畳み込みステップでは、ゲート付き複素畳み込み層1001の複素畳み込み層1004により前段のゲート付き複素畳み込み層1000から出力された複素スペクトログラムの畳み込み演算を行い(ステップS11)、ゲート付き複素畳み込み層1001の振幅ゲート層1005により前段のゲート付き複素畳み込み層1000から出力された複素スペクトログラムの補正が必要な領域のみを選び出す振幅ゲート演算を行う(ステップS12)。ゲート付き複素畳み込み層1001の乗算部1006は、ゲート付き複素畳み込み層1001の複素畳み込み層1004と振幅ゲート層1005の出力を要素毎に乗算した結果を出力する(ステップS13)。
【0077】
3回目(n=2)のゲート付き複素畳み込みステップでは、ゲート付き複素畳み込み層1002の複素畳み込み層1004により前段のゲート付き複素畳み込み層1001から出力された複素スペクトログラムの畳み込み演算を行い(ステップS11)、ゲート付き複素畳み込み層1002の振幅ゲート層1005により前段のゲート付き複素畳み込み層1001から出力された複素スペクトログラムの補正が必要な領域のみを選び出す振幅ゲート演算を行う(ステップS12)。ゲート付き複素畳み込み層1002の乗算部1006は、ゲート付き複素畳み込み層1002の複素畳み込み層1004と振幅ゲート層1005の出力を要素毎に乗算した結果を出力する(ステップS13)。
【0078】
3回のゲート付き複素畳み込みステップの終了後、複素畳み込み層1003により前段のゲート付き複素畳み込み層1002から出力された複素スペクトログラムの畳み込み演算を行う(
図2ステップS16)。
こうして、本実施例では、Griffin-Limアルゴリズムの出力(Z
[m])に含まれる不要な残差をDNNで抽出することが可能になる。
【0079】
本実施例では、ゲート付き複素畳み込み層1000~1002の数を3層(ゲート付き複素畳み込みステップの実行回数を3)としているが、これに限るものではなく、3層以上としてもよい。
また、複素畳み込み演算と振幅ゲート演算で用いられるパラメータは学習によって与えられるものであり、n毎(層毎)に異なるパラメータを用いてもよい。
【0080】
図3は本実施例に係る推定装置の構成を示すブロック図である。推定装置100aは、位相と振幅が矛盾する複素スペクトログラムX
[m]と、所望の音響信号の振幅スペクトログラムAとを入力とし、推定した位相スペクトログラムを持つ複素スペクトログラムX
[m+1]を出力するM個の推定部110a-m(m=0,1,2,・・・,M-1、Mは1以上の整数)と、振幅スペクトログラムAに終段の推定部110a-(M-1)から出力された複素スペクトログラムX
[M]の位相を付与する位相付与部120とを備えている。
なお、m=0の処理ブロック、すなわち初段の推定部110a-0に入力されるスペクトログラムX
[0]は、振幅スペクトログラムAであってもよい。
【0081】
図4は推定部110a-mの構成を示すブロック図である。本実施例の推定部110a-mは、複素スペクトログラムX
[m]と振幅スペクトログラムAとを入力とし、振幅スペクトログラムAに複素スペクトログラムX
[m]の位相を付与する位相付与部111と、位相付与部111の出力信号を逆短時間フーリエ変換により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換に対応する短時間フーリエ変換により周波数領域の信号に変換する変換部112と、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムX
[m]の位相を所望の音響信号の位相に近づける位相変更部113aとから構成される。位相変更部113aは、DNN114aと、減算部115とから構成される。
【0082】
図5は本実施例に係る学習装置の構成を示すブロック図である。学習装置200aは、ノイズ加算部209と、位相付与部211と、変換部212と、DNN213aと、減算部214と、パラメータ更新部215とから構成される。DNN114a,213aは、
図1に示した構成を有する。
【0083】
次に、本実施例のDNN114a,213aの学習段階について説明する。学習装置200aの動作の流れは非特許文献2に開示された学習装置200と同様であるので、
図12を用いて学習装置200aの動作を説明する。
【0084】
学習装置200aの図示しない初期化部は、DNN213aのパラメータθを乱数で初期化する(
図12ステップS100)。
ノイズ加算部209は、クリーン音響信号X
(L)*とノイズNとを入力とし、式(12)に示すようにクリーン音響信号X
(L)*にノイズNを加算し、複素スペクトログラムXチルダを出力する(
図12ステップS101)。
【0085】
位相付与部211は、複素スペクトログラムXチルダと振幅スペクトログラムA
(L)とを入力とし、式(13)に示すように、振幅スペクトログラムA
(L)に複素スペクトログラムXチルダの位相を付与して、付与後の信号Yチルダを出力する(
図12ステップS102)。式(13)は、複素スペクトログラムXチルダの各要素に対して振幅スペクトログラムA
(L)の各要素を乗算し、乗算結果を複素スペクトログラムXチルダの振幅スペクトログラム|Xチルダ|で除算しているため、複素スペクトログラムXチルダの振幅を振幅スペクトログラムA
(L)の大きさに変換する処理といってもよい。
【0086】
変換部212は、信号Yチルダを入力とし、式(14)に示すように、信号Yチルダを逆短時間フーリエ変換G†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G†に対応する短時間フーリエ変換Gにより周波数領域の信号Zチルダに変換して出力する(
図12ステップS103)。
【0087】
DNN213aは、複素スペクトログラムXチルダと、信号Yチルダと、信号Zチルダと、振幅スペクトログラムA
(L)とを入力とし、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を推定し、推定値F
θ(Xチルダ,Yチルダ,Zチルダ)を出力する(
図12ステップS104)。
【0088】
一方、減算部214は、信号Zチルダとクリーン音響信号X
(L)*との差分Zチルダ-X
(L)*を求めて出力する(
図12ステップS105)。
【0089】
パラメータ更新部215は、差分Zチルダ-X
(L)*と、推定値F
θ(Xチルダ,Yチルダ,Zチルダ)とを入力とし、これらの値を用いて、式(15)に示す目的関数を最小化するようにDNN213aのパラメータθを更新する(
図12ステップS106)。
【0090】
学習法としては、確率的最急降下法などを利用すればよい。学習率は例えば10
-5程度に設定すればよい。
パラメータ更新部215は、所定の条件を満たすか否かを判定し(
図12ステップS107)、所定の条件を満たす場合には、その時点のDNN213aを学習済みのDNNとする。
【0091】
所定の条件を満たさない場合には、新たなクリーン音響信号X(L)*と新たなノイズNと更新後のパラメータθとを用いて、ステップS101~S106の処理が再び実施される。例えばステップS101~S106の処理を10万回繰り返したときに、所定の条件を満たしたとしてDNN213aの学習が終了する。
【0092】
次に、推定装置100aの動作について説明する。推定装置100aの動作の流れは非特許文献2に開示された推定装置100と同様であるので、
図13を用いて推定装置100aの動作を説明する。
【0093】
推定装置100aは、位相と振幅が矛盾する複素スペクトログラムX[0]と、所望の音響信号の振幅スペクトログラムAとを入力とし、振幅スペクトログラムAに矛盾しない位相スペクトログラムを持つ複素スペクトログラムY[M]を求めて出力する。
【0094】
M個の推定部110a-m(m=0,1,2,・・・,M-1、Mは1以上の整数)は、位相と振幅が矛盾する複素スペクトログラムX[m]と、所望の音響信号の振幅スペクトログラムAとを入力とし、推定した位相スペクトログラムを持つ複素スペクトログラムX[m+1]を求めて出力する。
【0095】
図4に示したように、本実施例の推定部110a-mは、位相付与部111と、変換部112と、位相変更部113aとから構成される。位相変更部113aは、DNN114aと、減算部115とから構成される。DNN114aには、学習装置200aで学習されたDNNが設定されている。
【0096】
位相付与部111は、位相と振幅が矛盾する複素スペクトログラムX
[m]と、所望の音響信号の振幅スペクトログラムAとを入力とし、式(16)に示すように、振幅スペクトログラムAに複素スペクトログラムX
[m]の位相を付与して、付与後の信号Y
[m]=P
B(X
[m])を出力する(
図13ステップS201)。
【0097】
変換部112は、信号Y
[m]を入力とし、式(17)に示すように、信号Y
[m]を逆短時間フーリエ変換G†により時間波形に変換し、変換された時間波形を逆短時間フーリエ変換G†に対応する短時間フーリエ変換Gにより周波数領域の信号Z
[m]=P
C(Y
[m])に変換して出力する(
図13ステップS202)。
【0098】
ステップS202の処理は、位相と振幅が矛盾する複素スペクトログラムY[m]を時間波形に変換し、変換された時間波形を位相と振幅が矛盾しない複素スペクトログラムZ[m]に変換する処理に相当する。
【0099】
位相変更部113aは、複素スペクトログラムX[m]と信号Y[m]と信号Z[m]と振幅スペクトログラムAとを用いて、所望の音響信号に対応する学習用の音響信号の統計的性質に基づき、複素スペクトログラムX[m]の位相を所望の音響信号の位相に近づける。
【0100】
DNN114aは、複素スペクトログラムX
[m]と信号Y
[m]と信号Z
[m]と振幅スペクトログラムAとを入力とし、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差(Z
[m]-X
[m])を推定し、推定値F
θ(X
[m],Y
[m],Z
[m])を出力する(
図13ステップS203)。
【0101】
減算部115は、信号Z
[m]と推定値F
θ(X
[m],Y
[m],Z
[m])との差分X
[m+1]=Z
[m]-F
θ(X
[m],Y
[m],Z
[m])を求めて出力する(
図13ステップS204)。この減算処理が、Griffin-Limアルゴリズムで生じた歪みまたは推定誤差を除去する処理に相当し、複素スペクトログラムX
[m]の位相スペクトログラムを所望の音響信号に近づける処理に相当する。
【0102】
ステップS201~S204の処理を推定部110a-mの個数M回分繰り返し、M回の処理が終わると(
図13ステップS206においてYES)、終段の推定部110a-(M-1)から複素スペクトログラムX
[M]が出力される。繰り返し数Mは例えば5程度とすればよい。
【0103】
位相付与部120は、複素スペクトログラムX
[M]と振幅スペクトログラムAとを入力とし、式(18)に示すように、振幅スペクトログラムAに複素スペクトログラムX
[M]の位相を付与して、付与後の信号Y
[M]=P
B(X
[M])を出力する(
図13ステップS207)。ステップS207の処理により、再度、複素スペクトログラムX
[M]の振幅を振幅スペクトログラムAの大きさに変換する。
【0104】
本実施例では、
図1に示したDNNの構造によって複素数の代数構造を考慮した音響信号復元のための演算を行うことが可能になる。その結果、本実施例では、雑音成分の複素スペクトログラムを精度良く推定することができ、非特許文献2に開示された技術と比較して、より高品質な出力音を得ることが可能になる。
【0105】
なお、
図1に示したDNNは振幅スペクトログラムAを利用するため、少ない反復回数(上記の繰り返し数M)で高い精度が得られる。ただし、真の振幅情報が利用できない場合には、
図1に示したDNNを使用することはできない。
【0106】
一方で、式(21)に示したAGC層を用いたDNNは、少ない反復回数(繰り返し数M)での精度は
図1に示したDNNに劣るものの、真の振幅情報が利用できない場合でも使用可能である。したがって、DNN114a,213aとして、
図1に示したDNNとAGC層を用いたDNNを、目的に応じて使い分けることが望ましい。
【0107】
DNN114a,213aとしてAGC層を用いたDNNを使用する場合には、
図1に示した構成において各ゲート付き複素畳み込み層1000~1002の振幅ゲート層1005の代わりに、式(20)に示した振幅ゲート層を使用すればよい。この場合のDNNの構成を
図6に示す。
【0108】
図6に示すDNNであるAGCNNは、縦続接続された複数のゲート付き複素畳み込み層1000a~1002aと、終段のゲート付き複素畳み込み層1002aの出力の畳み込み演算を行う複素畳み込み層1003とから構成される。
【0109】
ゲート付き複素畳み込み層1000a~1002aの各々は、複素畳み込み層1004と、式(20)に対応する振幅ゲート層1005aと、複素畳み込み層1004の出力と振幅ゲート層1005aの出力とを要素毎に乗算した結果を出力する乗算部1006とから構成される。振幅ゲート層1005aへの入力は、複素スペクトログラムCのみとなる。学習装置200aにおける複素スペクトログラムCはXチルダ,Yチルダ,Zチルダ、推定装置100aにおける複素スペクトログラムCはX[m],Y[m],Z[m]である。
【0110】
本実施例で説明した推定装置100aと学習装置200aは、CPU(Central Processing Unit)、記憶装置及びインタフェースを備えたコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。このコンピュータの構成例を
図7に示す。コンピュータは、CPU300と、記憶装置301と、インタフェース装置(I/F)302とを備えている。
【0111】
I/F302には、例えばネットワーク等が接続される。本発明の推定方法を実現させるための推定プログラムは、記憶装置301に格納される。また、プログラムをネットワークを通して提供してもよい。CPU300は、記憶装置301に格納されたプログラムに従って本実施例で説明した処理を実行する。
【0112】
また、コンピュータ上で所定のプログラムを実行させることにより、推定装置100a、学習装置200aを構成することとしたが、推定装置、学習装置の処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【産業上の利用可能性】
【0113】
本発明は、振幅スペクトルのみから位相スペクトルを復元する音響信号復元技術に適用することができる。
【符号の説明】
【0114】
100a…推定装置、110a-0~110a-(M-1)…推定部、111,120,211…位相付与部、112,212…変換部、113a…位相変更部、114a,213a…DNN、115,214…減算部、200a…学習装置、209…ノイズ加算部、215…パラメータ更新部、1000,1000a,1001,1001a,1002,1002a…ゲート付き複素畳み込み層、1003,1004…複素畳み込み層、1005,1005a…振幅ゲート層、1006…乗算部。