【文献】
北村大地他,半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法,電子情報通信学会技術研究報告,2016年 3月,Vol.115,No.523,p.355-360
(58)【調査した分野】(Int.Cl.,DB名)
各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力する時間周波数展開部と、
前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定するパラメータ学習部と、
を含み、
前記パラメータ学習部は、
前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新するパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
を含む信号解析装置。
時間周波数展開部が、各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力し、
パラメータ学習部が、前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定する
信号解析方法であって、
前記パラメータ学習部が推定することでは、
パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む
信号解析方法。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0013】
<既存手法>
<教師ありNMF による音源分離>
L個の音源からなる混合信号のパワースペクトログラムを
とする。
【0014】
ただし、ωとtは周波数および時刻のインデックスである。教師ありNMFでは、事前学習した各音源の基底スペクトル
を用いて、観測スペクトログラム
を基底行列
とアクティベーション行列
の積で近似することで、Wiener フィルタにより各音源信号を混合信号から抽出するためのパワースペクトログラム推定値を得ることが目的である。
【0015】
非特許文献1では
の事前学習において、音源l の学習サンプルのスペクトログラム
との誤差
【0017】
を最適化規準として用いている。ただし、
は音源l の学習サンプルのスペクトログラム
と行列積
の誤差を測る関数である。テスト時においては、事前学習した基底行列
を固定し、
【0019】
を最小にするアクティベーション行列
を推定することで、
に含まれる各音源のパワースペクトログラムの成分
を推定することができる。誤差関数
としてI ダイバージェンスを用いる場合、(2)式は具体的に
【0021】
となる。ただし、[・]i.jは行列の{i,j}番目要素を表す。各音源のパワースペクトログラム
が求まれば、Wiener フィルタ
【0023】
により、足して矛盾なく
になるよう保証された各音源信号のスペクトログラムを得ることができる。ただし、
と
は要素ごとの乗法と除法を表すものとする。しかし、上述のアプローチ(非特許文献1)では、基底の学習規準において(1)式 が用いられていることから、(4)式 による分離信号が最適となるような規準になっていなかった。
【0024】
<識別的NMF と乗法更新アルゴリズム>
識別的NMF(非特許文献2)は、(1)式 の代わりにWiener フィルタ出力と学習サンプルのスペクトログラムの誤差
【0026】
を規準として基底学習を行う教師ありNMF による音源分離の枠組である。ただし、有るがα
l≧0はl 番目の分離信号の重要度を表すパラメータである。
【0027】
以下では説明の簡略化のため、音声と雑音の二種類の音源(L = 2) からなる音源分離問題を考える。音声強調が目的の場合は音声信号の分離精度がより重要となるので、重要度αは、音声に対して1、雑音に対して0とする。従って、クリーン音声の学習サンプルのスペクトログラムを
、雑音の学習サンプルのスペクトログラムを
とし、その混合信号のスペクトログラムを
とすると、識別的NMF の基底学習問題は
【0029】
のような最適化問題として定式化される。ただし、基底行列
はK
s個の音声基底スペクトルとK
n個の雑音基底スペクトルで構成される。
【0030】
Weninger らは上述の最適化問題に対し乗法更新法を用いた最適化アルゴリズムを提案している(非特許文献2)。Weninger らのアルゴリズムでは、まず通常のNMF(すなわち(2)式)でアクティベーション行列
を求め、
を固定した下で基底行列Wを
【0032】
により更新する方法がとられている。上述の更新式は
の
に関する偏微分の負の項と正の項の商と
の要素ごとの積で与えられるが、各更新により目的関数が減少することが保証されない。このため、これらの更新式による反復アルゴリズムの収束性は保証されない。
【0033】
<提案手法>
<補助関数法による基底学習アルゴリズム>
本発明の実施の形態は、補助関数法の原理に基づいて導かれる、(6)式 の最適化問題の停留点への収束性が保証された最適化アルゴリズムである。
【0034】
<補助関数法>
F(θ)をθに関して最小化したい目的関数とすると、
を満たす関数
を補助関数、αを補助変数と呼ぶ。このような補助関数を設計できれば、
と
を交互に繰り返すことで、目的関数F(θ)の停留点を得ることができる。この最適化手法を補助関数法と呼ぶ。
【0035】
<補助関数の設計>
以下で、目的関数
の補助関数を設計する。まず、目的関数
の中の
【0037】
の補助関数を次の不等式を用いて設計する。
【0038】
(補題1)
任意の
に対して、不等式
が成り立ち、
のとき等号成立する。
【0041】
M
ω、tは非負値のため、補題1 より、
【0043】
が成り立つ。ただし、=
cはパラメータに依存する項のみに関する等号を表す。また、
とし、
とする。(12)式 の等号は
【0045】
のとき成立する。次に、(12)式 の各項の補助関数を設計する。
は正値であること、および負の対数関数は凸関数であることより、Jensen の不等式
【0047】
が成り立つ。ただし、
は
を満たす変数であり、(14)式 の等号は
【0049】
のとき成立する。
は正値のため、(12)式 の第二項の対数関数は凹関数である。凹関数は任意の点における接線により上から抑えることができるため、
【0051】
が成り立つ。ここで、
は正の変数であり、
【0053】
のとき、(16)式 の等号は成立する。続いて、
の補助関数を設計する。二次関数は凸関数なので、Jensenの不等式
【0055】
が成り立つ。ただし、
は
を満たす正数であり、(18)式 の等号は
【0057】
のときに成立する。最後に、
の補助関数を設計する。関数1/x
2はx>0においては凸であるため、Jensenの不等式により
【0059】
が成り立つ。ただし、
は
を満たす変数である。(20)式 の等号は
【0062】
(12)式、(14)式、(16)式、(18)式 と(20)式 により、目的関数
の補助関数
【0064】
を得ることができる。ここで、
は補助変数
の集合であり、dは定数項である。この補助関数を導いたことのポイントは、
と
に関する大域最適解は解析的に得ることができる点にある。
【0065】
<パラメータの更新式>
以上の補助関数を最小にする補助変数の条件は各不等式の等号成立条件に他ならないので、(13)式、(15)式、 (17)式、 (19)式、 (21)式 で与えられる。また、補助関数を最小にする
は
と
すなわち、
【0067】
のような四次方程式と三次方程式の正数解を解くことにより得られる。上記四次方程式の定数項と二次式の係数はいずれも負値であるため、必ず一つの正数解のみを持つことが示される。
【0068】
<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。
図1に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には
図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
【0069】
入力部10は、各構成音が混合された混合信号の時系列データと、当該混合信号を分離した各構成音について音響信号の時系列データとを受け付ける。
【0070】
演算部20は、時間周波数展開部24と、パラメータ学習部36と、を含んで構成されている。
【0071】
時間周波数展開部24は、混合信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム
を計算する。また、各構成音信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム
を計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
【0072】
パラメータ学習部36は、時間周波数展開部24によって計算された、混合信号のパワースペクトログラム及び各構成音信号のパワースペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、混合信号のスペクトログラムから抽出される、構成音の構成音信号の抽出スペクトログラムと、構成音の構成音信号のスペクトログラムとの誤差の大きさを表す、上記(5)式の規準を小さくするように、各構成音の基底スペクトル
と、各構成音のアクティベーション
とを推定する。
【0073】
具体的には、パラメータ学習部36は、初期値設定部40、補助変数更新部42、パラメータ更新部44、及び収束判定部46を備えている。
【0074】
初期値設定部40は、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
とに初期値を設定する。例えば、ランダムに初期値を設定する。
【0075】
補助変数更新部42は、初期値である、又は前回更新した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
とに基づいて、上記(13)式、(15)式、(17)式、(19)式、(21)式に従って、各基底k、各周波数ω、及び各時刻tに対するγ
k,ω,t、β
k,ω,t、θ
k,ω,t、各周波数ω及び各時刻tに対するλ
ω,t、η
ω,tを更新する。
【0076】
パラメータ更新部44は、時間周波数展開部24により出力された
混合信号のパワースペクトログラム
と、音声信号のパワースペクトログラム
と、補助変数更新部42によって更新された各基底k、各周波数ω、及び各時刻tに対するγ
k,ω,t、β
k,ω,t、θ
k,ω,t、各周波数ω及び各時刻tに対するλ
ω,t、η
ω,tと、初期値である、又は前回更新した、初期値である、又は前回更新した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
と、に基づいて、上記(23)式〜(26)式に示す四次方程式と三次方程式を解くことにより、初期値である、又は前回更新した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
とを推定する。
【0077】
収束判定部46は、収束条件を満たすか否かを判定し、収束条件を満たすまで、補助変数更新部42における更新処理と、パラメータ更新部44における更新処理とを繰り返させる。
【0078】
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記(6)式の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。
【0079】
出力部90は、パラメータ学習部36において最終的に取得した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
を出力する。
【0080】
<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。まず、入力部10において各構成音が混合された混合信号の時系列データと、当該混合信号を分離した各構成音について音響信号の時系列データとを受け付けると、信号解析装置100は、
図2に示す学習処理ルーチンを実行する。
【0081】
まず、ステップS100では、入力部10において混合信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム
を計算する。また、各構成音信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム
を計算する。
【0082】
次に、ステップS102では、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
とに初期値を設定する。
【0083】
ステップS104では、初期値である、又は前回更新した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
とに基づいて、上記(13)式、(15)式、(17)式、(19)式、(21)式に従って、各基底k、各周波数ω、及び各時刻tに対するγ
k,ω,t、β
k,ω,t、θ
k,ω,t、各周波数ω及び各時刻tに対するλ
ω,t、η
ω,tを更新する。
【0084】
次に、ステップS106では、時間周波数展開部24により出力された混合信号のパワースペクトログラム
と、音声信号のパワースペクトログラム
と、補助変数更新部42によって更新された各基底k、各周波数ω、及び各時刻tに対するγ
k,ω,t、β
k,ω,t、θ
k,ω,t、各周波数ω及び各時刻tに対するλ
ω,t、η
ω,tと、初期値である、又は前回更新した、初期値である、又は前回更新した、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
と、に基づいて、上記(23)式〜(26)式に示す四次方程式と三次方程式を解くことにより、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
とを推定する。
【0085】
次に、ステップS108では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS110へ移行し、収束条件を満たしていない場合には、ステップS104へ移行し、ステップS104〜ステップS106の処理を繰り返す。
【0086】
ステップS110では、上記ステップS106で最終的に更新された、音声と雑音の基底スペクトル
と、音声と雑音のアクティベーション
を、出力部90から出力して、学習処理ルーチンを終了する。
【0087】
<実験例>
本実施の形態の手法による音声強調効果を検証するため、ATR 音声データベース503 文の音声データ(非特許文献3参照)とATR 環境音データベース(department noise、 subway station noise の2種類)を用いて評価実験を行った。比較対象は従来の教師ありNMF 法(SNMF)と識別的NMF の乗法更新式アルゴリズム(DNMF MU)とし、処理前と処理後の信号対歪み比(SDR) および信号対干渉比(SIR) (非特許文献4参照)の改善値を評価した。
【0088】
[非特許文献3]A. Kurematsu、 K. Takeda、 Y. Sagisaka、 S. Katagiri、 H. Kuwabara、 and K. Shikano、 "ATR Japanese speech database as a tool of speech recognition and synthesis、" Speech Communication、 vol. 9、 pp. 357-363、 1990.
[非特許文献4] E. Vincent、 R. Gribonval、 and C. Fevotte、 "Performance measurement in blind audio source separa-tion."、 IEEE transactions on audio、 speech、 and language processing、 vol. 14、 no. 4、 pp. 1462-1469、 2016.
【0089】
テストデータはクリーン音声に各雑音を-6、-3、0、3dB の信号対雑音比(SNR) で重畳させて作成した。実験に用いた音響信号はサンプリング周波数16kHzのモノラル信号で、フレーム長32ms、フレームシフト16ms で短時間Fourier 変換を行い、観測スペクトログラム
を算出した。基底学習においては男性2 名と女性2 名の話者の計200 文の音声を用いて音声基底の学習を行った。基底数は音声と雑音両方40とした。ランダムに決めた初期値で反復アルゴリズムを5 回試行し、各試行における反復回数が0、10、25、50、100、200の時のSDR改善値の平均と分散をプロットしたものが
図3である。
図3の結果により、以下の実験では反復回数を25とした。テストデータセットは、ATR503 文データベースからランダムに選定した40 文の音声データに雑音を重畳させて作成した。以上の条件下で、提案法(DNMF AU)と従来法(SNMF、DNMF MU)を5回試行して得られたSDR およびSIR の改善値の平均を表1、2に示す。いずれの評価尺度においても全ての場合において提案手法の方が高い改善値を得られていることが確認できた。
【0091】
上記表1は、各手法を5 回試行して得られたSDR 改善量平均値[dB]を示している。上段はDepartment ノイズにおける音声強調結果であり、下段はSubway station ノイズにおける音声強調結果である。
【0093】
上記表2は、各手法を5 回試行して得られたSIR 改善量平均値[dB]を示している。上段はDepartment ノイズにおける音声強調結果であり、下段はSubway station ノイズにおける音声強調結果である。
【0094】
以上説明したように、本発明の実施の形態に係る信号解析装置によれば、各構成音の構成音信号の各々についての、基底スペクトル、およびアクティベーションパラメータを用いて、混合信号のスペクトログラムから抽出される、構成音の構成音信号の抽出スペクトログラムと、構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新することを繰り返すことにより、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。
また、非負値行列因子分解を用いた教師あり音源分離手法において、分離信号の復元誤差を規準として、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。
【0095】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0096】
例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。