(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-06
(45)【発行日】2024-11-14
(54)【発明の名称】信号解析装置、信号解析方法及びプログラム
(51)【国際特許分類】
G10L 21/0272 20130101AFI20241107BHJP
G10L 21/028 20130101ALI20241107BHJP
【FI】
G10L21/0272 100B
G10L21/028 B
(21)【出願番号】P 2022028027
(22)【出願日】2022-02-25
【審査請求日】2024-01-26
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001634
【氏名又は名称】弁理士法人志賀国際特許事務所
(72)【発明者】
【氏名】関 翔悟
(72)【発明者】
【氏名】亀岡 弘和
(72)【発明者】
【氏名】李 莉
【審査官】大野 弘
(56)【参考文献】
【文献】特開2020-034870(JP,A)
【文献】特開2019-078864(JP,A)
【文献】村島 允也 Naoya Murashima,識別的変分自己符号化器学習による特定話者モノラル音声分離,日本音響学会 2021年 春季研究発表会講演論文集CD-ROM [CD-ROM],2021年03月12日,pp.205~208
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-21/18
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
複数の位置それぞれにおいて観測された多重音を表す観測信号から複数の音源それぞれの音を表す音源信号を分離するための多チャンネルウィナーフィルタを推定する信号解析装置であって、
音源信号の特徴量及び音源を識別する音源ラベル情報を入力し、前記音源信号の特徴量を低次元化した潜在表現の平均及び分散を出力するエンコーダと、前記エンコーダが出力した前記平均及び前記分散に基づく潜在表現と前記音源ラベル情報とを入力し、前記エンコーダに入力された前記音源信号の特徴量を表す分散を出力するデコーダとを有する音源モデルの前記デコーダに、音源信号の初期値の潜在表現及び音源ラベル情報を入力する処理を学習用の観測信号が表す多重音の各音源について行って得られた出力に基づいて完全データに対する対数尤度関数の条件付き期待値L
EMを算出するEステップと、前記Eステップにおいて算出された前記条件付き期待値L
EMを用いて前記音源それぞれの前記潜在表現及び前記音源ラベル情報を更新するMステップと、前記Eステップにおいて得られた前記デコーダからの出力に基づいて前記音源それぞれの前記多チャンネルウィナーフィルタを算出するフィルタ算出処理とを行い、更新された前記潜在表現及び前記音源ラベル情報を前記デコーダへの入力に用いて前記Eステップ、前記Mステップ及び前記フィルタ算出処理を繰り返す学習部、
を備える信号解析装置。
【請求項2】
前記音源モデルは、GMVAE(generalized multichannel variational autoencoder)法又はACVAE(auxiliary classifier variational autoencoder)法に用いられるニューラルネットワークである、
請求項1に記載の信号解析装置。
【請求項3】
前記音源それぞれに対応した初期値の前記潜在表現は、学習用の前記観測信号をMNMF(multichannel non-negative matrix factorization)又はConvTasNetにより分離した前記音源それぞれの音源信号を、前記音源に対応した前記音源モデルの前記エンコーダに入力して得られた平均及び分散に基づいて生成される、
請求項1又は請求項2に記載の信号解析装置。
【請求項4】
前記特徴量は、複素スペクトログラムであり、
前記学習部は、前記フィルタ算出処理において、音源数Jのうちj番目の音源jに対応した前記デコーダからの出力に基づいて、音源jの周波数f及び時間フレームnにおける複素スペクトログラムの分散v
j(f,n)及び周波数fの空間共分散モデルR
j(f)を算出し、音源数Jの全ての音源jについて算出された前記分散v
j(f,n)及び前記空間共分散モデルR
j(f)を用いて、各音源jの周波数f及び時間フレームnの多チャンネルウィナーフィルタM
j(f,n)を算出する、
請求項1から請求項3のいずれか一項に記載の信号解析装置。
【請求項5】
音源jの分散v
j(f,n)は、音源jに対応した前記デコーダからの出力における周波数f及び時間フレームnに対応した要素と音源jのスケールを表す変数g
jとの乗算により算出され、
前記学習部は、前記Eステップにおいて、音源jに対応した前記デコーダからの出力に基づいて、学習用の前記観測信号の周波数f及び時間フレームnの複素スペクトログラムを並べたベクトルの直積についての音源jの条件付き期待値Λ
j(f,n)を算出し、音源数Jの全ての音源jの前記条件付き期待値Λ
j(f,n)及び前記空間共分散モデルR
j(f)を用いて前記条件付き期待値L
EMを算出し、前記Mステップにおいて、各音源jの前記変数g
j及び前記空間共分散モデルR
jを当該音源jの前記条件付き期待値Λ
j(f,n)を用いて更新する、
請求項4に記載の信号解析装置。
【請求項6】
前記学習部により更新された前記多チャンネルウィナーフィルタと、複数の前記位置それぞれにおいて観測された観測信号とに基づいて、複数の音源それぞれの音源信号を推定する推定部をさらに備える、
請求項1から請求項5のいずれか一項に記載の信号解析装置。
【請求項7】
複数の位置それぞれにおいて観測された多重音を表す観測信号から複数の音源それぞれの音を表す音源信号を分離するための多チャンネルウィナーフィルタを推定する信号解析方法であって、
音源信号の特徴量及び音源を識別する音源ラベル情報を入力し、前記音源信号の特徴量を低次元化した潜在表現の平均及び分散を出力するエンコーダと、前記エンコーダが出力した前記平均及び前記分散に基づく潜在表現と前記音源ラベル情報とを入力し、前記エンコーダに入力された前記音源信号の特徴量を表す分散を出力するデコーダとを有する音源モデルの前記デコーダに、音源信号の初期値の潜在表現及び音源ラベル情報を入力する処理を学習用の観測信号が表す多重音の各音源について行って得られた出力に基づいて完全データに対する対数尤度関数の条件付き期待値L
EMを算出するEステップと、前記Eステップにおいて算出された前記条件付き期待値L
EMを用いて前記音源それぞれの前記潜在表現及び前記音源ラベル情報を更新するMステップと、前記Eステップにおいて得られた前記デコーダからの出力に基づいて前記音源それぞれの前記多チャンネルウィナーフィルタを算出するフィルタ算出処理とを行う更新過程と、
更新された前記潜在表現及び前記音源ラベル情報を前記デコーダへの入力に用いて前記Eステップ、前記Mステップ及び前記フィルタ算出処理を繰り返す繰り返し過程と、
を有する信号解析方法。
【請求項8】
コンピュータを、
請求項1から請求項6のいずれか一項に記載の信号解析装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号解析装置、信号解析方法及びプログラムに関する。
【背景技術】
【0002】
音源分離は、マイクロフォンアレイで観測される混合信号に含まれる個々の音源信号を分離する技術である。音源分離は、音声認識や話者ダイアライゼーションといった他のタスクの性能向上に大きく寄与する。音源分離の技術の一つとして、一般化MVAE(generalized multichannel variational autoencoder;GMVAE)法が提案されている(例えば、非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】S. Seki, H. Kameoka, L. Li, T. Toda and K. Takeda, "Underdetermined Source Separation Based on Generalized Multichannel Variational Autoencoder", IEEE Access, vol. 7, pp. 168104-168115, 2019.
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述のGMVAE法は、マイク数より音源数が多いような劣決定条件下でも音源分離が可能である。音源分離をより早く行うためには、計算量の低減が求められる。
【0005】
上記事情に鑑み、本発明は、音源分離の計算量を低減することができる信号解析装置、信号解析方法及びプログラムを提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明の一態様は、複数の位置それぞれにおいて観測された多重音を表す観測信号から複数の音源それぞれの音を表す音源信号を分離するための多チャンネルウィナーフィルタを推定する信号解析装置であって、音源信号の特徴量及び音源を識別する音源ラベル情報を入力し、前記音源信号の特徴量を低次元化した潜在表現の平均及び分散を出力するエンコーダと、前記エンコーダが出力した前記平均及び前記分散に基づく潜在表現と前記音源ラベル情報とを入力し、前記エンコーダに入力された前記音源信号の特徴量を表す分散を出力するデコーダとを有する音源モデルの前記デコーダに、音源信号の初期値の潜在表現及び音源ラベル情報を入力する処理を学習用の観測信号が表す多重音の各音源について行って得られた出力に基づいて完全データに対する対数尤度関数の条件付き期待値LEMを算出するEステップと、前記Eステップにおいて算出された前記条件付き期待値LEMを用いて前記音源それぞれの前記潜在表現及び前記音源ラベル情報を更新するMステップと、前記Eステップにおいて得られた前記デコーダからの出力に基づいて前記音源それぞれの前記多チャンネルウィナーフィルタを算出するフィルタ算出処理とを行い、更新された前記潜在表現及び前記音源ラベル情報を前記デコーダへの入力に用いて前記Eステップ、前記Mステップ及び前記フィルタ算出処理を繰り返す学習部、を備える。
【0007】
本発明の一態様は、複数の位置それぞれにおいて観測された多重音を表す観測信号から複数の音源それぞれの音を表す音源信号を分離するための多チャンネルウィナーフィルタを推定する信号解析方法であって、音源信号の特徴量及び音源を識別する音源ラベル情報を入力し、前記音源信号の特徴量を低次元化した潜在表現の平均及び分散を出力するエンコーダと、前記エンコーダが出力した前記平均及び前記分散に基づく潜在表現と前記音源ラベル情報とを入力し、前記エンコーダに入力された前記音源信号の特徴量を表す分散を出力するデコーダとを有する音源モデルの前記デコーダに、音源信号の初期値の潜在表現及び音源ラベル情報を入力する処理を学習用の観測信号が表す多重音の各音源について行って得られた出力に基づいて完全データに対する対数尤度関数の条件付き期待値LEMを算出するEステップと、前記Eステップにおいて算出された前記条件付き期待値LEMを用いて前記音源それぞれの前記潜在表現及び前記音源ラベル情報を更新するMステップと、前記Eステップにおいて得られた前記デコーダからの出力に基づいて前記音源それぞれの前記多チャンネルウィナーフィルタを算出するフィルタ算出処理とを行う更新過程と、更新された前記潜在表現及び前記音源ラベル情報を前記デコーダへの入力に用いて前記Eステップ、前記Mステップ及び前記フィルタ算出処理を繰り返す繰り返し過程と、を有する。
【0008】
本発明の一態様は、コンピュータを、上述した信号解析装置として機能させるためのプログラムである。
【発明の効果】
【0009】
本発明により、音源分離の計算量を低減することが可能となる。
【図面の簡単な説明】
【0010】
【
図1】本発明の一実施形態による信号解析装置の構成を示す機能ブロック図である。
【
図2】同実施形態による信号解析装置のハードウェア構成例を示す図である。
【
図3】同実施形態によるGMVAEモデルを示す図である。
【
図4】同実施形態によるGMVAEモデルのエンコーダに用いられるDNNを示す図である。
【
図5】同実施形態によるGMVAEモデルのデコーダに用いられるDNNを示す図である。
【
図6】同実施形態によるACVAEモデルを示す図である。
【
図7】同実施形態によるACVAEモデルのエンコーダに用いられるDNNを示す図である。
【
図8】同実施形態によるACVAEモデルのデコーダに用いられるDNNを示す図である。
【
図9】同実施形態によるACVAEモデルの識別器に用いられるDNNを示す図である。
【
図10】同実施形態による信号解析装置の学習処理を示すフロー図である。
【
図11】同実施形態による信号解析装置の音源分離処理を示すフロー図である。
【
図12】同実施形態による信号解析装置を用いた実験結果を示す図である。
【
図13】同実施形態による信号解析装置を用いた実験結果を示す図である。
【
図14】同実施形態による信号解析装置を用いた実験結果を示す図である。
【
図15】同実施形態による信号解析装置を用いた実験結果を示す図である。
【
図16】同実施形態による信号解析装置を用いた実験結果を示す図である。
【
図17】同実施形態による信号解析装置を用いた実験結果を示す図である。
【
図18】同実施形態による信号解析装置を用いた実験結果を示す図である。
【発明を実施するための形態】
【0011】
以下、図面を参照しながら本発明の実施形態を詳細に説明する。本実施形態は、音響信号を分解する信号処理技術に関する。
【0012】
[1. 概要]
音源分離では、一般的に周波数領域表現を用いて問題が定式化される。このとき、音源信号や、音源とマイク間の空間的な伝達特性に対して様々なモデル化が用いられている。モデル化への有効なアプローチの一つとして、独立成分分析(independent component analysis;ICA)が提案されている。ICAでは、観測信号から音源信号が得られる分離系とよばれる分離プロセスを仮定する。一方で、分離系とは反対に、音源信号から観測信号が得られる混合系とよばれる生成プロセスを仮定する手法がある。その一つとして、フルランク空間共分散分析(full-rank spatial covariance analysis;FCA)が提案されている(例えば、参考文献1参照)。分離系と比較して制約がより緩和される混合系を仮定することで、FCAはマイク数より音源数が多いような劣決定条件下での音源分離が可能である。ICAおよびFCAでは、いずれも周波数ごとに独立した音源分離問題を解く。そのため、それぞれの周波数で得られる分離信号がどの音源に属しているか対応づけるパーミュテーション整合を解決する必要がある。
【0013】
パーミュテーション整合問題に対して、同一音源に由来する周波数成分の大きさは同期して時間変化しやすい、という傾向を音源のモデル化に取り入れた手法が提案されている。この手法として、これまでに、非負値行列因子分解(non-negative matrix factorization;NMF)とよばれる、より一般化された音源のモデル化手法が利用されている(例えば、参考文献2参照)。NMFは、自動採譜タスクへの適用において有効性が示された手法である。NMFでは、各時刻で観測される混合信号のパワースペクトルを少数のスペクトルテンプレートの錐結合として近似する。NMFの枠組みは、ICAやFCAにおける各音源パワースペクトログラムのモデル化に適用され、それぞれ独立低ランク行列分析(independent low-rank matrix analysis;ILRMA)、多チャンネルNMF(multichannel NMF;MNMF)とよばれる手法が提案されている(例えば、参考文献3、4参照)。スペクトルテンプレートを音響的な手がかりとすることで、ILRMAやMNMFは、周波数ごとの音源分離問題とパーミュテーション整合を同時に解決することが可能となる。その一方で、NMFによるパワースペクトログラムのモデル化が困難な音源信号に対して、分離性能が限定されるといった問題がある。
【0014】
近年、深層ニューラルネットワーク(deep neural network;DNN)を用いてNMFより柔軟な音源のモデル化を行う生成的アプローチが提案されている。その一つとして、変分自己符号化器(variational autoencoder;VAE)を用いた手法が注目されている。ICAやILRMAと同様に分離系を仮定して、音源数がマイク数と等しいという優決定条件での音源分離問題に対しては、多チャンネル変分自己符号化器(multichannel VAE;MVAE)法とよばれる条件つきVAE(conditional VAE;CVAE)を音源モデルに利用した手法が提案されている(例えば、参考文献5参照)。MVAE法では、CVAEを用いた音源モデルがNMFを用いた音源モデルに比べて高い表現能力をもつとともに、それぞれの音源をより正確に弁別することが可能であることから、高い分離性能が示されている。現在までにMVAE法をFCAやMNMFと同様に劣決定条件での音源分離へと拡張した一般化MVAE(generalized MVAE;GMVAE)法についても提案されている(例えば、非特許文献1参照)。
【0015】
非特許文献1に記載のGMVAE法では、MVAE法と同様にmajorization-minimization/minorization-maximization(MM)法とよばれる反復アルゴリズムを利用した、収束性が保障されたパラメータの最適化アルゴリズムが導出されている。一方で、FCAやMNMFにおいては、MM方式のほか、expectation-maximization(EM)法とよばれる反復アルゴリズムを利用することでも、MM法と同様に収束性が保障される最適化アルゴリズムを設計することが知られている。これまで、FCAやMNMFにおいては、MM方式とEM方式を用いた最適化アルゴリズムの比較について計算量や分離性能について報告されているが、GMVAE法についてはいまだに検討されていない。
【0016】
本実施形態の信号解析装置は、以下の二つの特徴を備える。
一つ目の特徴は、EM方式に基づくパラメータ最適化アルゴリズムを利用することである。本実施形態の信号解析装置は、GMVAE法において、EM方式に基づくパラメータ最適化アルゴリズムを行う。このアルゴリズムは、MM方式に基づくパラメータ最適化アルゴリズムと同様に、停留点への収束性が保障されるパラメータ推定が可能である。
【0017】
二つ目の特徴は、補助関数つきVAE(auxiliary classifier VAE;ACVAE音源モデル(例えば、参考文献6参照)の利用である。GMVAE法では、CVAE音源モデルが利用される。しかしながら、CVAEから出力されるパワースペクトログラムが話者情報を無視したサンプルの場合がある。本実施形態の信号解析装置は、CVAE音源モデルを拡張し、別タスクにおいても有効性が示されているACVAE法の音源モデルを利用することも可能である。
【0018】
[2. 装置構成]
図1は、本実施形態の信号解析装置1の構成を示す図である。信号解析装置1は、入力部11と、記憶部12と、学習部13と、推定部14とを備える。異なる位置に設置されたマイク6-1~6-I(Iは2以上の整数)はそれぞれ、音源7-1~7-J(Jは2以上の整数)それぞれからの音が混合された音を収音する。各マイク6-1~6-Iは、収音した音を示す観測信号を出力する。観測信号は、各音源の音が混合された混合信号である。以下では、マイク6-i(iは1以上I以下の整数)をマイクi、音源7-j(jは1以上J以下の整数)を音源jとも記載する。
【0019】
入力部11は、学習用のデータや音源分離対象のデータなどの各種データを入力する。学習用のデータは、マイク6-1~6-Iそれぞれにおいて収音された観測信号や、音源7-1~7-Jそれぞれの音を表す音源信号を含む。音源分離対象のデータは、マイク6-1~6-Iそれぞれにおいて収音された音の観測信号を含む。なお、入力部11は、入力するデータを、マイク6-1~6-I又は他の装置から受信してもよく、記録媒体から読み出してもよい。記憶部12は、学習部13及び推定部14の処理に用いられる各種データを記憶する。
【0020】
学習部13は、学習用のデータを用いて、音源分離モデルを学習する。音源分離モデルは、マイク6-1~6-Iにおいて得られた観測信号から、音源7-1~7-Jそれぞれの音源信号を推定するために用いられるモデルである。音源分離モデルは、観測信号の特徴量と音源信号の特徴量との対応を表す。学習部13は、音源分離モデルの学習に、GMVAE法の音源モデル、または、ACVAE法の音源モデルを用いる。また、学習部13は、これら音源分離モデルの学習に、EM方式に基づくパラメータ最適化アルゴリズムを使用する。推定部14は、学習部13により学習された音源分離モデルと、マイク6-1~6-Iそれぞれにおける観測信号とを用いて、音源7-1~7-Jそれぞれの推定の音源信号を得る。
【0021】
信号解析装置1は、例えば、コンピュータ装置により実現される。信号解析装置1をネットワークに接続される複数のコンピュータ装置により実現してもよい。この場合、信号解析装置1の各機能部を、これら複数のコンピュータ装置のいずれにより実現するかは任意とすることができる。例えば、学習部13と、推定部14とを異なるコンピュータ装置で実現してもよい。また、信号解析装置1の同一の機能部を複数のコンピュータ装置により実現してもよい。例えば、学習部13を複数のコンピュータ装置で分散して実現してもよい。
【0022】
図2は、信号解析装置1のハードウェア構成例を示す装置構成図である。信号解析装置1は、プロセッサ51と、記憶部52と、通信インタフェース53と、ユーザインタフェース54とを備える。プロセッサ51は、演算や制御を行う中央演算装置である。プロセッサ51は、例えば、CPU(central processing unit)やGPU(Graphics Processing Unit)である。記憶部52は、記憶部12を実現する。また、プロセッサ51は、記憶部52からプログラムを読み出して実行することにより、上述の学習部13及び推定部14の機能を実現する。記憶部52は、さらに、プロセッサ51が各種プログラムを実行する際のワークエリアなどを有する。通信インタフェース53は、他装置と通信可能に接続するものである。ユーザインタフェース54は、キーボード、ポインティングデバイス(マウス、タブレット等)、ボタン、タッチパネル等の入力装置や、ディスプレイなどの表示装置である。ユーザインタフェース54により、人為的な操作が入力される。
【0023】
なお、記憶部12、学習部13及び推定部14の機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。
【0024】
以下では、信号解析装置1に用いられるアルゴリズムについて説明した後、信号解析装置1の動作及び効果を述べる。
【0025】
[3. 問題の定式化]
音源数をJ、マイク数をIとする。音源j(jは1以上J以下の整数)の音源信号を短時間フーリエ変換(short-time Fourier transform;STFT)して得られる複素スペクトログラムをsj(f,n)とし、マイクi(iは1以上I以下の整数)の観測信号をSTFTして得られる複素スペクトログラムをxi(f,n)とする。ここで、fは周波数のインデックスを表し、nは時間フレームのインデックスを表す。インデックスfの周波数を周波数fとも記載し、インデックスnの時間フレームを時間フレームnとも記載する。
【0026】
以下の式(1)に示すようにsj(f,n)を要素とするベクトルをs(f,n)とし、以下の式(2)に示すようにxi(f,n)を要素とするベクトルをx(f,n)とする。
【0027】
【0028】
【0029】
ここで、(・)Tは転置であり、Cは複素数集合を表す。
【0030】
音源jの複素スペクトログラムsj(f,n)について、局所ガウス音源モデル(local Gaussian modeling;LGM)とよばれる、以下の式(3)に示す複素ガウス分布を仮定する。
【0031】
【0032】
~NC(α1,α2)は、平均α1,共分散行列α2の複素ガウス分布を表す。つまり、複素スペクトログラムsj(f,n)は、平均0、分散vj(f,n)の複素ガウス分布と仮定される。ここで、分散vj(f,n)は、以下の式(4)で示される。
【0033】
【0034】
Eは、期待値の算出を表す。上記によれば、分散vj(f,n)は、音源jのパワースペクトル密度(power spectral density;PSD)を表す。j≠j’であり、音源jの複素スペクトログラムsj(f,n)と、音源j’の複素スペクトログラムsj’(f,n)とが統計的に独立であるとき、ベクトルs(f,n)は、以下の式(5)に示すように平均値が0、分散がV(f,n)の複素ガウス分布に従う。
【0035】
【0036】
V(f,n)は、対角成分がv1(f,n),v2(f,n),...,vJ(f,n)で与えられる対角行列である。音源数Jがマイク数Iより大きいような状況も考慮可能な混合系は、以下の式(6)で与えられる。
【0037】
【0038】
ここで、A(f)は、以下の式(7)に示す混合行列を表わす。
【0039】
【0040】
式(5)及び式(6)より、ベクトルx(f,n)についても平均0、分散A(f)V(f,n)AH(f,n)の複素ガウス分布にしたがう。ここで、(・)Hは、共役転置を表す。また、混合行列に含まれる音源jのステアリングベクトルaj(f)の直積について、以下の式(8)で与えられるフルランクな空間共分散(spatial covariance matrix;SCM)モデルRj(f)を仮定する。
【0041】
【0042】
上記のRj(f)を仮定することで、ベクトルx(f,n)は、以下の式(9)に示す複素ガウス分布として与えられる。
【0043】
【0044】
したがって、対数尤度関数Lは、以下の式(10)で表される。
【0045】
【0046】
tr[・]は行列のトレースを表し、det[・]は行列式を表す。また、以下は、パラメータに対する等号を表す。
【0047】
【0048】
ベクトルX(f,n)は以下の式(12)であり、ベクトル^X(f,n)は以下の式(13)である。
【0049】
【0050】
【0051】
{vj(f,n)}j,f,nおよび{Rj(f)}j,fを推定することで、音源jの分離信号は、多チャンネルウィナーフィルタMj(f,n)及び逆STFTを適用することで得られる。^sj(f,n)は、音源jの推定の観測信号の複素スペクトログラムである。すなわち、以下の式(14)における多チャンネルウィナーフィルタMj(f,n)が、信号解析装置1の学習部13により学習される音源分離モデルである。
【0052】
【0053】
[4. GMVAE法]
GMVAE法について説明する。
【0054】
[4.1 CVAE音源モデル]
図3は、GMVAE音源モデルを表す図である。エンコーダは、入力データ^Sを低次元の潜在変数Zに圧縮するニューラルネットワーク(NN)である。エンコーダは、デコーダは、潜在変数Zから入力データ^Sを復元するNNである。
図4は、
図3に示すエンコーダに用いられるDNNの例を示す図であり、
図5は、
図3に示すデコーダに用いられるDNNの例を示す図である。
図4及び
図5において、Convは畳み込み(Convolution)層を示し、BNはバッチ正規化(Batch Normalization)層、GLUはGated Linear Unit層を示し、Deconvは逆畳み込み(Deconvolution)層を示す。また、[α1;α2]は、入力されるチャンネルα1と入力フレーム長α2を示し、(β1,β2)はフレームに沿ったカーネルサイズβ1とストライドサイズβ2を示す。エンコーダの入力(Input)におけるチャンネル及びフレームはそれぞれ、周波数f及び時間フレームnに相当する。Fは周波数インデックス数を表し、Tは時間フレーム数を表す。
【0055】
GMVAE法では、ラベルつきのデータセットで予め学習されたCVAEのデコーダを音源のパワースペクトログラムモデルとして利用する。正規化されたスペクトログラム~Sおよびone-hotエンコーディングされた音源ラベルcを用いた場合に、CVAEのエンコーダ出力の分布qφ(Z|~S,c)が以下の式(15)で表されるガウス分布で表され、デコーダ出力の分布pθ(~S|Z,c)が以下の式(16)で表される複素ガウス分布にしたがうと仮定する。音源ラベルcは、音源jに対応した要素のみが1であり、他の要素が0のベクトルである。
【0056】
【0057】
【0058】
μφ(~S,c)及びσφ
2(~S,c)はエンコーダの出力であり、σθ
2(Z,c)はデコーダの出力である。なお、diagαは、対角要素にαを持つ対角行列を表す。
【0059】
CVAEでは、エンコーダおよびデコーダのネットワークパラメータφ、θを以下の式(17)に示す学習規準I(φ,θ)を最大化するように学習する。
【0060】
【0061】
ここで、以下は、学習サンプルによる標本平均を表す。
【0062】
【0063】
また、以下は、Kullback-Leivler(KL)ダイバージェンスを表す。
【0064】
【0065】
また、上記のp(Z)は、以下の標準ガウス分布である。
【0066】
【0067】
デコーダの分布はLGMと同形であることから、学習されたデコーダを用いることで、式(3)は、以下の式(21)のように変形される。
【0068】
【0069】
ここで、σθ
2(f,n;Z,c)は、要素(f,n)のデコーダ出力σθ
2(Z,c)を表す。また、gjは、音源jのスケールを表す変数である。
【0070】
[4.2 MM方式に基づくパラメータ最適化アルゴリズム]
MM法は、最大化したい学習規準に対してminorizerとよばれる下限を表す代理関数を設計し、反復的に最大化することで目的とする学習基準における停留点を探索する反復アルゴリズムである。
【0071】
式(10)で与えられる対数尤度関数に対してMM法を適用することで、以下の式(22)に示すminorizerLMM(≦L)が得られる。なお、trは、正方行列の対角成分の和を示す。
【0072】
【0073】
ここで、Pj(f,n)およびK(f,n)は、補助変数である。Pj(f,n)は以下の式(23)で定義され、K(f,n)は以下の式(24)で定義される。なお、←は、左辺の値を右辺の値に更新することを表す。
【0074】
【0075】
【0076】
MM方式に基づくパラメータ最適化アルゴリズムは、補助変数{Pj(f,n)}j,f,n、{K(f,n)}f,nの更新およびパラメータ{gj}j、{Zj}j、{cj}j、{Rj(f)}j,fに対するminorizerLMMの最大化によって構成される。デコーダ入力{Zj}jおよび{cj}jについては、以下の式(25)に示すように誤差逆伝搬法により更新される。
【0077】
【0078】
ここで、ηは学習率を表す。ラベル情報cjの推定には総和が1となる制約を考慮する必要がある。これはcjを出力とするsoftmax層を用意し、その入力をパラメータとして扱うことで満たされる。{gj}jおよび{Rj(f)}j,fについては以下の式(26)、式(27)に示す更新式が導出できる。
【0079】
【0080】
【0081】
ここで、#は二つの半正定値行列間の幾何平均を表す。Ψj(f)は以下の式(28)であり、Ωj(f)は以下の式(29)である。
【0082】
【0083】
【0084】
[5. 本実施形態におけるアルゴリズム]
[5.1 EM方式に基づくパラメータ最適化アルゴリズム]
EMアルゴリズムは、Q関数とよばれる完全データに対する対数尤度関数の条件つき期待値を、二つの手順(EステップおよびMステップ)の繰り返しにより最大化することで、目的とする不完全データに対する対数尤度関数を最大化するアルゴリズムである。混合信号{x(f,n)}f,nを観測データ、音源信号{s(f,n)}f,nを非観測データとすると、以下の式(30)に示すQ関数LEM(≦L)が得られる。
【0085】
【0086】
ここで、Λj(f,n)は、s(f,n)の直積についての条件つき期待値であり、Eステップに相当する。Λj(f,n)は、以下の式(31)で示される。
【0087】
【0088】
Mステップは、パラメータ{gj}j、{Zj}j、{cj}j及び{Rj(f)}j,fに対するQ関数の最大化によって構成される。MM方式に基づくパラメータ最適化アルゴリズムと同様に、デコーダの出力{Zj}j及び{cj}jは、以下の式(32)に示すように誤差逆伝搬法により推定される。
【0089】
【0090】
{gj}jには以下の更新式(33)が導出でき、{Rj(f)}j,fには以下の更新式(34)が導出できる。
【0091】
【0092】
【0093】
MM方式およびEM方式に基づくパラメータ最適化アルゴリズムにおける逆行列および行列積の演算について注目する。アルゴリズムの各反復において、MM方式のアルゴリズムでは各パラメータをそれぞれ更新する際に補助変数Pj(f,n)およびKj(f,n)の更新が必要となるとともに、{Rj(f)}j,fを更新する際にも逆行列演算および行列積演算が必要となる。最終的に(3N+2J)F回の逆行列計算と(5N+2)JF回の行列積計算が必要となる。一方でEM方式のアルゴリズムでは、各反復において補助変数Λj(f,n)の更新は一度であり、{Rj(f)}j,fは、重みつき和によって更新される。そのため、(N+J)F回の逆行列演算と2NJF回の行列積計算のみとなる。したがって、EM方式に基づくパラメータ最適化アルゴリズムでは計算量が小さく、処理時間の削減が期待できる。
【0094】
[5.2 ACVAE音源モデル]
図6は、ACVAE音源モデルを示す図である。ACVAEは、CVAEの拡張モデルである(例えば、参考文献6参照)。ACVAEは、
図3に示すGMVAE音源モデルに、識別器を付加した構成である。
図7は、
図6に示すエンコーダに用いられるDNNの例を示す図であり、
図8は、
図6に示すデコーダに用いられるDNNの例を示す図であり、
図9は、
図6に示す識別器に用いられるNNの例を示す図である。
図7~
図9において、「w」は幅、「c」はチャンネル番号、「k」はカーネルサイズを表す。また、
図7~
図9において、Convは1次元畳み込み(Convolution)層を示し、BNはバッチ正規化(Batch Normalization)層、GLUはGated Linear Unit層、Deconvは1次元逆畳み込み(Deconvolution)層を示す。
【0095】
ACVAEは、デコーダの出力~S~pθ(~S|Z,c)と音源ラベルcができるだけ相関をもつよう、相互情報量I(c;~S|Z)を学習基準として利用する。相互情報量を直接学習基準に利用するのは困難であるため、ACVAEでは以下の式(35)に示す変分下限J(φ,θ,ψ)を代わりに利用する。
【0096】
【0097】
ここで、rΨ(c|~S)は、ネットワークパラメータψをもつ識別器の出力の分布を表す。ACVAEでは、以下の式(36)に示すクロスエントロピーK(ψ)も同様に学習基準として利用する。
【0098】
【0099】
したがって、最終的なACVAEの学習基準は以下の式(37)に示すI(φ,θ)で与えられる。
【0100】
【0101】
ここで、λJ≧0及びλK≧0は、重みパラメータである。
【0102】
[6. 信号解析装置の動作]
続いて、信号解析装置1の動作について説明する。
【0103】
図10は、信号解析装置1における学習処理を示すフロー図である。まず、信号解析装置1は、ラベル付きのデータセットで各音源jのCVAEのデコーダを学習する(ステップS11)。具体的には、入力部11は、音源jを表すラベルc
jが付与された音源信号を複数入力する。学習部13は、入力された音源信号をSTFTして複素スペクトログラムを生成する。学習部13は、複素スペクトログラムを正規化し、ラベルc
j付きの
~S
j={s(f,n)}
f,nを生成する。なお、入力部11は、ラベルc
j付きの
~S
j={s(f,n)}
f,nを入力してもよい。学習部13は、音源jごとに、ラベルc
jが付与された正規化パワースペクトログラム
~S
jを用いて以下のようにデコーダを学習する。
【0104】
学習部13は、CVAE音源モデルを用いる場合、
図3に示すエンコーダに、
~S
jと、音源ラベルc
jとを入力する。音源ラベルc
jは、
~S
jに付与されているラベルc
jが表す音源jに対応した要素に1が設定されるようone-hotエンコーディングされたベクトルである。学習部13は、エンコーダから出力された平均μ
φ(
~S
j,c
j)及び分散σ
φ
2(
~S
j,c
j)に基づいてランダムに潜在表現Z
jを生成する。学習部13は、潜在表現Z
jと音源ラベルc
jとをデコーダに入力して分散σ
θ
2(Z
j,c
j)を表す出力を得る。学習部13は、式(17)の学習基準を最大化するように音源jのエンコーダのパラメータφ及びデコーダのパラメータσを学習する。
【0105】
学習部13は、ACVAE音源モデルを用いる場合、CVAE音源モデルを用いる場合と同様にデコーダ出力を得る。すなわち、学習部13は、
図6に示すエンコーダに、
~S
j及び音源ラベルc
jを入力し、エンコーダから出力された平均μ
φ(
~S
j,c
j)及び分散σ
φ
2(
~S
j,c
j)に基づいてランダムに潜在表現Z
jを生成する。学習部13は、潜在表現Z
j及び音源ラベルc
jをデコーダに入力し、分散σ
θ
2(Z
j,c
j)を出力として得る。学習部13は、さらに、デコーダ出力の分散σ
θ
2(Z
j,c
j)を識別器に入力して、出力p
jを得る。学習部13は、式(37)の学習基準を最大化するように音源jのエンコーダのパラメータφ、デコーダのパラメータσ及び識別器のパラメータψを学習する。
【0106】
続いて、学習部13は、ステップS11において学習されたデコーダを用いて、各音源jについて、式(14)における多チャンネルウィナーフィルタMj(f,n)を学習する。入力部11は、各マイク6-1~6-Iそれぞれの観測信号及び各音源7-1~7-Jの音源信号を学習用のデータとして入力する。学習部13は、入力された観測信号及び音源信号をSTFTして、各観測信号の複素スペクトログラムsi(f,n)及び各音源信号の複素スペクトログラムxi(f,n)を算出する(ステップS12)。あるいは、入力部11は、各観測信号の複素スペクトログラムsi(f,n)及び各音源信号の複素スペクトログラムxi(f,n)を入力してもよい。
【0107】
学習部13は、学習に用いる各音源jの初期値の潜在表現Zjを算出するため、~Sj及び音源ラベルcjをステップS11において学習した音源jのエンコーダに入力する。初期値の~Sjとして、例えば、MNMF又はConvTasNetを用いて観測信号から分離した音源jの音源信号の複素スペクトログラムを用いることができるが、これらに限定されない。学習部13は、音源j毎に、エンコーダから出力されたμφ(~Sj,cj)及びσφ
2(~Sj,cj)に基づいて初期値の潜在表現Zjを生成する(ステップS13)。
【0108】
学習部13は、音源j毎に、潜在表現Zj及び音源ラベルcjをステップS11において学習した音源jのデコーダに入力してσθ
2(Zj,cj)を得る(ステップS14)。学習部13は、Eステップを実行する。すなわち、学習部13は、音源j毎に、現在の多チャンネルウィナーフィルタMj(f,n)と、観測信号の複素スペクトログラムから得られるベクトルx(f,n)と、現在の空間共分散モデルRj(f)と、音源信号の複素スペクトログラムの分散vj(f,n)とを用いて式(31)により更新後のΛj(f,n)を算出する。学習部13は、分散vj(f,n)を、式(21)のように、音源jの現在のスケールgjと音源jのデコーダの出力から得られるσθ
2(f,n;Zj,cj)との乗算により算出する。学習部13は、さらに、音源j毎に、全ての周波数f、全ての時間フレームn、及び、全ての音源jとの組み合わせについてのΛj(f,n)と、分散vj(f,n)と、空間共分散モデルRj(f)とを用いて式(30)によりQ関数LEMを算出する(ステップS15)。
【0109】
続いて、学習部13は、Mステップを実行する。すなわち、学習部13は、音源j毎に、ステップS15のEステップにおいて算出されたQ関数LEMと、{Zj、cj}jの勾配とを用いて、式(32)により更新後の{Zj、cj}jを算出する(ステップS16)。さらに、学習部13は、音源j毎に、音源jのデコーダの出力から得られるσθ
2(f,n;Zj,cj)と、現在の音源jの空間共分散モデルRj(f)と、ステップS15において算出された音源jのΛj(f,n)とを用いて、式(33)により更新後のスケールgjを算出する。学習部13は、音源jのデコーダの出力から得られるσθ
2(f,n;Zj,cj)と、現在の音源jのスケールgjと、ステップS15において算出された音源jのΛj(f,n)とを用いて、式(34)により音源jの更新後のRj(f)を算出する(ステップS17)。学習部13は、音源j毎に、式(21)のように更新後のgjと、デコーダ出力から得られるσ2
θ(f,n;Zj,cj)とを乗算して、更新後の分散vj(f,n)を算出する。学習部13は、音源j毎に、全ての音源jそれぞれの更新後の空間共分散モデルRj(f)及び更新後の分散vj(f,n)を用いて、式(14)における更新後の多チャンネルウィナーフィルタMj(f,n)を算出する(ステップS18)。
【0110】
学習部13は、終了条件を満たしたか否かを判定する(ステップS19)。終了条件は、例えば、繰り返し回数が所定値に達したこととすることができる。学習部13は、終了条件を満たしていないと判定した場合は、ステップS14からの処理を繰り返す。学習部13が終了条件を満たしたと判断した場合、信号解析装置1は、ステップS13~ステップS19の処理を繰り返す。なお、ステップS13において、学習部13は、ステップS16において算出された音源jの更新後の{Z
j、c
j}
jを、音源jのデコーダに入力する。学習部13は、終了条件を満たしたと判定した場合、音源jそれぞれの多チャンネルウィナーフィルタM
j(f,n)を記憶部12に書き込み、
図10の処理を終了する。
【0111】
図11は、信号解析装置1における音源分離処理を示すフロー図である。信号解析装置1の入力部11は、マイク6-1~6-Iそれぞれの観測信号を入力する。推定部14は、各観測信号をSTFTして複素スペクトログラムを算出し、周波数f及び時間フレームnの組み合わせ毎のベクトルx(f,n)を生成する(ステップS21)。推定部14は、記憶部12から
図10の学習処理により学習された多チャンネルウィナーフィルタM
j(f,n)を読み出す。推定部14は、式(14)に示すようにベクトルx(f,n)に音源jの多チャンネルウィナーフィルタM
j(f,n)を乗算して、各音源jの推定の複素スペクトログラム^s
j(f,n)を算出する(ステップS22)。推定部14は、音源jごとに、周波数f及び時間フレームnの順に^s
j(f,n)を並べた後に逆STFTすることによって、音源jの音源信号を推定する(ステップS23)。
【0112】
従来、GMVAE法は、収束性が保障されたパラメータの最適化アルゴリズムを導出するための反復アルゴリズムにMM方式を使用していた。しかし、最適化のための反復でパラメータ更新の度に複数回の逆行列演算および行列積演算が生じ、演算速度に問題があった。本実施形態では、深層ニューラルネットワークを用いてGMVAE法により音源分離を行う際に、Q関数とよばれる完全データに対する対数尤度関数の条件つき期待値を、EステップおよびMステップの2つの手順を繰り返して最大化する。これにより、目的とする不完全データに対する対数尤度関数を最大化するアルゴリズムを用いて最適解に収束させる。よって、計算量を抑えた音源分離が可能である。
【0113】
[7. 本実施形態の効果]
本実施形態の有効性を調査するために音源数3、マイク数2の劣決定条件を想定した音源分離実験を行った。
【0114】
VCC2018データセットに含まれる男女各2名の音声計400発話を学習データとして利用し、別の男女各2名の音声計40発話をテストデータとして利用した。テストデータから無作為に音声信号を取り出して、残響環境がT60=78msである3話者の混合信号を計40サンプル作成した。サンプリング周波数は16kHzとし、STFT分析条件はフレーム長およびシフト長をそれぞれ128ms、64msとした。
【0115】
本実施形態の信号解析装置1により観測信号から音源信号を分離する比較対象となるベースラインとして、EM方式のMNMF、MM方式のMNMF、及び、ConvTasNetを利用した。また、これらの手法を、本実施形態の信号解析装置1におけるGMVAE法の初期値として利用した。NMFの基底数は各話者ごとに10とし、学習データに対して反復数1000のItakura-Saito NMF(IS-NMF)を適用することでスペクトルテンプレートを学習した。テスト時には、MNMFの反復数を300とするとともに、反復数が200のときの分離信号をGMVAE法の初期化に利用した。ConvTasNetは、オープンソースasteroidで提供されている学習スクリプトを利用し、LibriSpeechデータから作成された3話者のモノラル混合信号データセットであるLibri3Mixを用いて学習した。テスト時には、マルチチャンネルの観測信号に対して、各チャンネルの信号をモノラル信号とみなしてネットワークへ入力し、出力された分離信号を結合することでマルチチャンネルの分離信号とした。また、ConvTasNetによって得られた分離信号についても、GMVAE法の初期化に利用した。
【0116】
本実施形態の信号解析装置1におけるGMVAE法で用いられるACVAE音源モデルとして、エンコーダ、デコーダ、識別器にはゲート機構をもつ3層の畳み込み、3層の逆畳み込み、4層の畳み込みネットワークをそれぞれ利用した。式(37)が示す学習規準に含まれる重みパラメータλJおよびλKは1とし、学習エポック数は1000とした。ネットワークの学習およびGMVAE法の誤差逆伝搬法における最適化アルゴリズムには学習率がそれぞれ0.0001、0.01であるAdamアルゴリズムを利用した。
【0117】
評価尺度として、分離性能を表すsignal-to-distortion ratio(SDR)、source image-to-spatial distortion ratio(ISR)、signal-to-inference ratio(SIR)、signal-to-artifact ratio(SAR)、音声品質を表すperceptual evaluation of speech quality(PESQ)、及び、明瞭性を表すshort-time objective intelligibility(STOI)を用いた。
【0118】
図12は、各手法による処理時間の比較結果の表を示す。
図12では、6.89s(秒)の音声信号の分離に要する処理時間[s]を示している。ここでは、本実施形態と学習基準が同様のMNMFにMM方式及びEM方式を用いた場合と、GMVAE法にMM方式を用いた場合とを、本実施形態の信号解析装置1との比較対象としている。()内の数値は誤差逆伝搬法による反復数を表す。また、
図12では、同一条件で処理時間が高速である手法を太字で示している。CPUおよびGPUとして、Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHzおよびNVIDIA Tesla K80を用いた。上段はCPU利用時のEM方式のMNMF及びEM方式のGMVAE法、ならびに、MM方式のGMVAE法及び本実施形態によるEM方式のGMVAE法それぞれの処理時間を示す。下段はGPU利用時のMM方式のGMVAE法、及び、本実施形態によるEM方式のGMVAE法それぞれの処理時間を示す。
図12に示すように、MNMFと異なり、GMVAE法では本実施形態によるEM方式のパラメータ最適化アルゴリズムがMM方式と比較して、一貫して高速であることが確認された。また本実施形態のEM方式のGMVAE法では、誤差逆伝搬法の反復回数がGPU利用時には10[s]未満、CPU利用時でも反復数1の場合でMM方式のMNMFと同程度に高速であった。
【0119】
図13~
図18は、EM方式のMNMF、MM方式のMNMF及びConvTasNetそれぞれを初期化手法として用いた実験結果を示す。つまり、ステップS13において、これらの初期化手法により算出された
~Sを初期値の潜在表現Zを算出するためにエンコーダに入力した。
図13はSDR、
図14はISR、
図15はSIR、
図16はSAR、
図17はPESQ、
図18はSTOIを用いた分離性能を示す。エラーバーは95%信頼区間を表す。()内の数値は誤差逆伝搬法による反復数を表す。
【0120】
GMVAE法では、誤差逆伝搬法における更新回数の増加にともなって性能改善がみられ、EM方式およびMM方式のいずれのパラメータ最適化アルゴリズムにおいても同等の分離性能が達成された。また、ConvTasNetといったより分離性能の高い手法を初期化として利用することで、大幅な性能改善が可能であることが示された。
【0121】
以上より、本実施形態のEM方式に基づくGMVAE法が、(1)MM方式に基づくMNMFと同程度高速かつより高い分離性能を達成すること、(2)MM方式に基づくGMVAE法より高速かつ同程度の分離性能が達成可能であることが確認された。
【0122】
以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。
【0123】
(参考文献1)N. Q. Duong, E. Vincent, and R. Gribonval, "Under-Determined Reverberant Audio Source Separation Using a Full-Rank Spatial Covariance Model," IEEE Transactions on Audio, Speech, and Language Processing, vol. 18, no. 7, pp. 1830-1840, 2010.
【0124】
(参考文献2)D. D. Lee and H. S. Seung, "Learning the parts of objects by non-negative matrix factorization," Nature, vol. 401, no. 6755, pp. 788-791, 1999.
【0125】
(参考文献3)S. Arberet, A. Ozerov, N. Q.K. Duong, E. Vincent, R. Gribonval, F. Bimbot, and P. Vandergheynst, "Nonnegative matrix factorization and spatial covariance model for under-determined reverberant audio source separation," in Proc. International Conference on Information Science, Signal Processing and their Applications(ISSPA), pp. 1-4, 2010.
【0126】
(参考文献4)H. Sawada, H. Kameoka, S. Araki, and N. Ueda, "Multichannel Extensions of Non-Negative Matrix Factorization With Complex-Valued Data," IEEE Transactions on Audio, Speech, and Language Processing, vol. 21, no. 5, pp. 971-982, 2013.
【0127】
(参考文献5)D. P. Kingma, D. J. Rezende, S. Mohamed, and M. Welling, "Semi-Supervised Learning with Deep Generative Models," in Proc. Neural Information Processing Systems (NIPS), 2014.
【0128】
(参考文献6)H. Kameoka, T. Kaneko, K. Tanaka, and N. Hojo, "ACVAE-VC: Non-Parallel Voice Conversion With Auxiliary Classifier Variational Autoencoder," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 9, pp. 1432-1443, 2019.
【符号の説明】
【0129】
1…信号解析装置、6-1~6-I…マイク、7-1~7-J…音源、11…入力部、12…記憶部、13…学習部、14…推定部、51…プロセッサ、52…記憶部、53…通信インタフェース、54…ユーザインタフェース