IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 学校法人慶應義塾の特許一覧

<>
  • 特許-信号解析装置、方法、及びプログラム 図1
  • 特許-信号解析装置、方法、及びプログラム 図2
  • 特許-信号解析装置、方法、及びプログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-25
(45)【発行日】2022-04-04
(54)【発明の名称】信号解析装置、方法、及びプログラム
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20220328BHJP
   G10L 21/0208 20130101ALI20220328BHJP
【FI】
G10L21/0272 100Z
G10L21/0208 100B
【請求項の数】 3
(21)【出願番号】P 2018026316
(22)【出願日】2018-02-16
(65)【公開番号】P2019144320
(43)【公開日】2019-08-29
【審査請求日】2020-12-09
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(73)【特許権者】
【識別番号】899000079
【氏名又は名称】学校法人慶應義塾
(74)【代理人】
【識別番号】110001519
【氏名又は名称】特許業務法人太陽国際特許事務所
(72)【発明者】
【氏名】亀岡 弘和
(72)【発明者】
【氏名】鏡 英章
(72)【発明者】
【氏名】湯川 正裕
【審査官】大野 弘
(56)【参考文献】
【文献】特開2016-045221(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0272
G10L 21/0208
(57)【特許請求の範囲】
【請求項1】
各構成音が混合された観測信号を入力として、
各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定するパラメータ推定部
を含み、
前記パラメータ推定部は、
前記目的関数の上界関数である補助関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを更新するパラメータ更新部と、
前記目的関数を小さくするように、前記分離行列を更新する分離行列更新部と、
前記目的関数を小さくするように、前記残響除去フィルタを更新する残響除去フィルタ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新、前記分離行列更新部による更新、及び前記残響除去フィルタ更新部による更新を繰り返させる収束判定部と、
を含み、
前記目的関数は、以下の式で表わされる信号解析装置。
【数1】


ただし、






であり、Nは時間フレームの総数を表し、


は、周波数fの分離行列を表し、(・) H は、ベクトルの複素共役転置であり、h j,k は、基底k及び構成音jの基底スペクトルを表し、u j,k は、構成音j及び基底kのアクティベーションパラメータを表し、s j (f,n)は、前記残響除去された観測信号を構成音jに分離した信号の時間フレームnの周波数fの成分を表す。
【請求項2】
パラメータ推定部が、各構成音が混合された観測信号を入力として、
各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定する
ことを含み、
前記パラメータ推定部によって推定することでは、
パラメータ更新部が、前記目的関数の上界関数である補助関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを更新し、
分離行列更新部が、前記目的関数を小さくするように、前記分離行列を更新し、
残響除去フィルタ更新部が、前記目的関数を小さくするように、前記残響除去フィルタを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新、前記分離行列更新部による更新、及び前記残響除去フィルタ更新部による更新を繰り返させ、
前記目的関数は、以下の式で表わされる信号解析方法。
【数2】


ただし、






であり、Nは時間フレームの総数を表し、


は、周波数fの分離行列を表し、(・) H は、ベクトルの複素共役転置であり、h j,k は、基底k及び構成音jの基底スペクトルを表し、u j,k は、構成音j及び基底kのアクティベーションパラメータを表し、s j (f,n)は、前記残響除去された観測信号を構成音jに分離した信号の時間フレームnの周波数fの成分を表す。
【請求項3】
請求項に記載の信号解析装置の各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、信号解析装置、方法、及びプログラムに係り、特に、各構成音が混合された観測信号を分離する信号解析装置、方法、及びプログラムに関する。
【背景技術】
【0002】
ブラインド音源分離(Blind Source separation; BSS) は、音源とマイクとの間の伝達関数が未知な状況下で、マイクアレイの入力から個々の音源信号を分離する技術である。周波数領域で定式化されるBSS のアプローチは、周波数ごとの音源分離の問題と周波数ごとに得られる分離信号がそれぞれどの音源のものであるかを対応づけるパーミュテーション整合と呼ぶ問題を併せて解く必要があるが、音源の混合過程を畳み込み演算を含まない瞬時混合系で表せるため比較的効率の高いアルゴリズムを実現できる利点がある。また、音源に関する時間周波数領域で成り立つ様々な仮定やマイクロホンアレーの周波数応答に関する仮定を有効活用できるようになる点も大きな利点である。例えば、同一音源に由来する周波数成分の大きさは同期して時間変化しやすいという傾向を手がかりにしながら各周波数における音源分離とパーミュテーション整合を同時解決する独立ベクトル分析(Independent Vector Analysis; IVA)と呼ぶICAの拡張版が提案されている。
【0003】
異なるアプローチとして、非負行列因子分解(Non-negative Matrix Factorization; NMF) の多チャンネル拡張が近年注目を集めている(非特許文献1~3)。NMFはもともとモノラル音源分離に適用されてきた手法である。NMFでは観測信号のパワー(あるいは振幅)スペクトログラムを非負値行列とみなし、これを二つの行列の非負値行列の積で近似する。これは、各時間フレームで観測される混合信号のパワースペクトルが、時間変化する振幅によってスケーリングされた限られた数の基底スペクトルの線形和によって近似できると仮定することに相当する。多チャンネルNMF(MNMF)は分離のための追加の手掛かりとして空間情報の使用を可能にするために、このアプローチを多チャンネルのケースに拡張したものである。また、MNMF は周波数ごとの音源分離とパーミュテーション整合の手掛かりとしてスペクトルテンプレートを用いた周波数領域BSSの拡張として解釈することもできる。
【0004】
従来のMNMF (非特許文献1)では劣決定条件(マイク数<音源数)における分離を対象としているが、優決定(マイク数_音源数)の状況に限定した場合、優決定MNMF(DMNMF)と呼ばれる効果的な手法が提案されている(非特許文献2、3)。非特許文献3ではDNMFとIVAの関連が考察されており、この考察を通して、IVAで導入された高速なアルゴリズムをDMNMF における分離行列推定に適用可能であることが示されている。これにより、非特許文献3のアルゴリズムは従来の劣決定版MNMF(非特許文献1)よりも30倍以上高速であることが報告されている。
【先行技術文献】
【非特許文献】
【0005】
【文献】A. Ozerov and C. F_evotte, “Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation," IEEE Transactions on Audio, Speech, and Language Processing, vol.18, no. 3, pp. 550-563, 2010.
【文献】H. Kameoka, T. Yoshioka, M. Hamamura, J. Le Roux, and K. Kashino, “Statistical model of speech signals based on composite autoregressive system with application to blind source separation," in LVA/ICA. Springer, 2010, pp. 245-253.
【文献】D. Kitamura, N. Ono, H. Sawada, H. Kameoka, and H. Saruwatari, “Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 24, no. 9, pp. 1626-1641, 2016.
【発明の概要】
【発明が解決しようとする課題】
【0006】
IVAやDMNMFで仮定している時間周波数領域での瞬時混合モデルの1つの欠点は、高残響下でその仮定が成り立たない点である。
【0007】
本発明では、上記事情を鑑みて成されたものであり、高残響下であっても、各構成音が混合した混合信号から、各構成音を精度よく分離することができる信号解析装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本発明に係る信号解析装置は、各構成音が混合された観測信号を入力として、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定するパラメータ推定部を含んで構成されている。
【0009】
本発明に係る信号解析方法は、パラメータ推定部が、各構成音が混合された観測信号を入力として、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定する。
【0010】
また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。
【発明の効果】
【0011】
以上説明したように、本発明の信号解析装置、方法、及びプログラムによれば、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定することにより、高残響下であっても、各構成音が混合した混合信号から、各構成音を精度よく分離することができる。
【図面の簡単な説明】
【0012】
図1】本発明の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。
図2】本発明の実施の形態に係る信号解析装置におけるパラメータ推定処理ルーチンを示すフローチャート図である。
図3】実験結果を示す図である。
【発明を実施するための形態】
【0013】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0014】
<本発明の実施の形態の概要>
高残響の混合信号の音源分離は、周波数領域の畳み込み混合モデルを用いて効果的に解くことができることが示されている(非特許文献2、5)。非特許文献5の方法では、分離行列、残響除去フィルタおよび各音源のスペクトルパラメータを反復的に更新することによって、周波数領域畳み込み混合モデルのパラメータを効率的に推定することを可能にしている。
【0015】
本発明の実施の形態は、周波数領域畳み込み混合モデルをDNMF の枠組に導入し、非特許文献6と非特許文献3、4と非特許文献5のアルゴリズムを融合することにより、高残響下で頑健な音源分離を実現するものである。本発明の実施の形態の最適化プロセスは、(i) 補助関数法を用いたNMF のパラメータ推定、(ii) 分離行列更新、(iii) 残響除去フィルタ更新、の3ステップによって構成され、(i) に非特許文献6、7のアルゴリズム、(ii) に非特許文献3、4のアルゴリズム、(iii) に非特許文献5のアルゴリズムを用いる。
【0016】
[非特許文献4] N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique," in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2011 IEEE Workshop on. IEEE, 2011, pp. 189-192.
【0017】
[非特許文献5] T. Yoshioka, T. Nakatani, M. Miyoshi, and H. G. Okuno, “Blind separation and dereverberation of speech mixtures by joint optimization," IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 1, pp. 69-84, 2011.
【0018】
[非特許文献6] 亀岡弘和, 後藤真孝, 嵯峨山茂樹, “スペクトル制御エンベロープによる混合音中の周期および非周期成分の選択的イコライザ," 情報処理学会研究報告, 2006-MUS-66-13, pp. 77-84, Aug. 2006.
【0019】
[非特許文献7] M. Nakano, H. Kameoka, J. Le Roux, Y. Kitano, N. Ono, and S. Sagayama, “Convergence-guaranteed multiplicative algorithms for non-negative matrix factorization with beta-divergence," in Proc. IEEE International Workshop on Machine Learning for Signal Processing (MLSP), 2010, pp. 283-288.
【0020】
<問題の定式化>
マイク数をM、音源数をMとし、観測信号、推定信号に短時間フーリエ変換(short-time Fouriertrans form; STFT) をかけた信号をそれぞれ
【0021】
【数1】

【数2】
【0022】
とする。ここで、f とn はそれぞれ周波数ビンおよび時間フレームのインデックス、i とj はそれぞれマイクと音源のインデックスである。また、(・)T は行列またはベクトルの転置を表す。多くの優決定条件のBSS では時間周波数領域での瞬時分離系
【0023】
【数3】
【0024】
を仮定する。ここでWH(f) は分離行列と呼ばれる。また、(・)Hは複素共役転置を表す。しかしながら、高残響下(インパルス応答がSTFTのフレーム長より長い状況)ではこの仮定は成り立たない。
【0025】
本発明の実施の形態では時間周波数領域でマルチチャネル有限インパルス応答を有する分離システム
【0026】
【数4】
【0027】
を用いる。ここでWH(f, n′)、 0≦n′≦N′はM×Mの係数行列である。WH(f, 0) が可逆であるとすると、式(4) は次のように変形できる。
【0028】
【数5】

【数6】
【0029】
ここで

である。式(5) は混合信号x(f,n)の残響除去を行うプロセスであり、式(6) は残響除去された信号y(f,n) の分離プロセスであることが分かる。
【0030】
確率変数sj(f,n) を
【0031】
【数7】
【0032】
とし、sj(f, n) とsj′ (f′,n′) が(f, n, j) ≠ (f′, n′, j′) のとき統計的に独立であるとする。ここで複素正規分布を
【0033】
【数8】
【0034】
とする。さらにパワースペクトル密度vj(f, n) を
【0035】
【数9】
【0036】
とする。それぞれ、hj,k(f)≧0は基底行列、uj,k(n)≧0はアクティベーション行列のj 番目の音源の(j, k) 要素である。パワースペクトログラムモデル(9) や、その類似モデルを用いた多チャンネル音源分離はMNMF と呼ばれている。yi(f, n) に関して負の対数尤度をとると目的関数
【0037】
【数10】
【0038】
が得られる。ここで

である。
【0039】
<パラメータ推定アルコリスムの導出>
目的関数(10) は次のように各変数についてそれぞれ最小化することで、関数値を小さくする更新式が得られる。
【0040】
【数11】

【数12】

【数13】
【0041】
以下の節で各変数に関する更新式を導出する。
【0042】


の更新>
【0043】

に関する更新式は補助関数法を用いて導出する。式(10) から

に関する項だけを取り出すと
【0044】
【数14】
【0045】
となる。この関数を最小化するために、C1 の補助関数(上界関数)
【0046】
【数15】
【0047】
を用いる。ここで

である。このときC1 +が補助関数になっていることは
【0048】
【数16】
【0049】
【数17】
【0050】
を満たすことから確認できる。また、式(16)、(17) の等号成立条件はそれぞれ
【0051】
【数18】

【数19】
【0052】
である。目的関数C1 は次の二つの更新を繰り返すことで間接的に最小化される。
【0053】
1. 式(18)、(19) を用いてC1 +

について最小化、
【0054】
2. C1 +

について最小化.
【0055】
二番目の更新は

の要素ごとに偏微分が0 になるように行う。
【0056】
【数20】

【数21】
【0057】
ここで

とした。
【0058】


の更新>
【0059】
式(10) から

に関する項だけを取り出すと
【0060】
【数22】
【0061】
となる。ここでwj(f) は

のj 番目の列ベクトル、

である。前述の通り、

を固定したとき、式(10) は残響除去された混合信号y(f, n) の瞬時分離問題である。このことから、分離行列

に関する更新は、従来の優決定BSS で用いられていた手法を使うことができる。例えば自然勾配法、FastICA(FICA) や反復射影法(IP) などである。ここではIP を用いた導出を行う。
【0062】
IP は

の列ベクトルごとに更新するブロック座標降下型アルゴリズムである。
【0063】



の複素共役

で偏微分し、それを0 とすると
【0064】
【数23】
【0065】
となる。行列式に関する微分

を用いることで式(23) は次のように変形できる。
【0066】
【数24】

【数25】
【0067】
このとき、式(24)、(25)からの解は、
【0068】
【数26】

【数27】
【0069】
を全てのf、 j について行うことで得られる。ej はM×M 単位行列Iのj 列ベクトルである。
【0070】


の更新>
【0071】
式(10) から

に関する項だけを取り出すと
【0072】
【数28】
【0073】
となる。ここで

であり、

を零行列とする。
【0074】
式(28) から明らかに、全てのf について

が互いに依存している。

を独立に更新するために、

を次のようにベクトル化し、式変形を行う。
【0075】
【数29】
【0076】
ここで



のm番目の列ベクトルである。g(f) を用いて、式(28) の

【0077】
【数30】
【0078】
と書き換えられる。ここで
【0079】
【数31】
【0080】

はクロネッカー積である。式(28) に式(31) を代入すると、目的関数は
【0081】
【数32】
【0082】
となる。以上より

について最小化する更新を求めればよいが、式(33) は

に関する二次式となるため偏微分が0 になるように更新すればよく、
【0083】
【数33】
【0084】
となる。
【0085】
<全体の更新式>
以上より、提案手法の更新式をまとめると次のようになる。
【0086】
Step1)

の初期値を設定する。
【0087】
Step2) 式(20)、(21)に従って各周波数f、各時刻n、各構成音jについて

の要素を更新する。
【0088】
Step3) 式(26)、(27)に従って、各周波数f、各構成音jについて

の要素を更新する。
【0089】
Step4) 式(34)に従って、各周波数fについて

の要素を更新する。
【0090】
収束するまで、Step2)~Step4)を繰り返す。
【0091】
<本発明の実施の形態に係る信号解析装置の構成>
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図1に示すように、本発明の実施の形態に係る信号解析装置100は、CPUと、RAMと、後述するパラメータ推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この信号解析装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90と、を含んで構成されている。
【0092】
入力部10は、複数の構成音が混じっている混合信号(以後、観測信号)の時系列データを受け付ける。
【0093】
演算部20は、時間周波数展開部24と、パラメータ推定部36と、を含んで構成されている。
【0094】
時間周波数展開部24は、観測信号の時系列データに基づいて、各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムを計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。
【0095】
パラメータ推定部36は、観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムに基づいて、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、分離行列と、残響除去フィルタとを推定する。
【0096】
具体的には、パラメータ推定部36は、初期値設定部40、パラメータ更新部42、分離行列更新部44、残響除去フィルタ更新部46、及び収束判定部48を備えている。
【0097】
初期値設定部40は、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、分離行列と、残響除去フィルタとに初期値を設定する。
【0098】
パラメータ更新部42は、観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、前回更新された、又は初期値が設定された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタとに基づいて、上記(15)式に示す補助関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを更新する。
【0099】
具体的には、上記(15)式に示す補助関数を小さくするように、上記(20)式、(21)式に従って、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを要素毎に更新する。
【0100】
分離行列更新部44は、観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、更新された基底スペクトル及びアクティベーションパラメータと、前回更新された、又は初期値が設定された、分離行列及び残響除去フィルタとに基づいて、上記(10)式に示す目的関数を小さくするように、上記(26)式、(27)式に従って、分離行列を更新する。
【0101】
残響除去フィルタ更新部46は、観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、更新された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタに基づいて、上記(10)式に示す目的関数を小さくするように、上記(34)式に従って、残響除去フィルタを更新する。
【0102】
収束判定部48は、収束条件を満たすか否かを判定し、収束条件を満たすまで、パラメータ更新部42における更新処理と、分離行列更新部44における更新処理と、残響除去フィルタ更新部46における更新処理とを繰り返させる。
【0103】
収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記(10)式の目的関数の値と前回の目的関数の値との差分が、予め定められた閾値以下であることを用いることができる。
【0104】
出力部90は、パラメータ推定部36において取得した、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを出力する。
【0105】
<本発明の実施の形態に係る信号解析装置の作用>
次に、本発明の実施の形態に係る信号解析装置100の作用について説明する。
【0106】
入力部10において、各構成音が混在した観測信号の時系列データを受け付けると、信号解析装置100は、図2に示すパラメータ推定処理ルーチンを実行する。
【0107】
まず、ステップS120では、観測信号の時系列データに基づいて、各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムを計算する。
【0108】
ステップS122では、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、分離行列と、残響除去フィルタとに初期値を設定する。
【0109】
ステップS124では、パラメータ更新部42は、上記ステップS120で計算された観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、前回更新された、又は初期値が設定された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタとに基づいて、上記(15)式に示す補助関数を小さくするように、上記(20)式、(21)式に従って、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを要素毎に更新する。
【0110】
ステップS126では、分離行列更新部44は、上記ステップS120で計算された観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、前回更新された、又は初期値が設定された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタとに基づいて、上記(10)式に示す目的関数を小さくするように、上記(26)式、(27)式に従って、分離行列を更新する。
【0111】
ステップS128では、残響除去フィルタ更新部46は、上記ステップS120で計算された観測信号の各時刻のスペクトルを表す振幅スペクトログラム又はパワースペクトログラムと、前回更新された、又は初期値が設定された、基底スペクトル、アクティベーションパラメータ、分離行列、及び残響除去フィルタとに基づいて、上記(10)式に示す目的関数を小さくするように、上記(34)式に従って、残響除去フィルタを更新する。
【0112】
次に、ステップS130では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップS132へ移行し、収束条件を満たしていない場合には、ステップS124へ移行し、ステップS124~ステップS128の処理を繰り返す。
【0113】
ステップS132では、上記ステップS124で最終的に更新された各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータとを、出力部90から出力して、パラメータ推定処理ルーチンを終了する。
【0114】
<実験例>
本実施の形態の手法の有効性を確認するため、ATR speech database の男性話者と女性話者の声を用いて実験を行った。音源数を2、 マイク数を4 として、インパルス応答を畳み込むことで高残響(0.6 sec) な状況の混合信号を生成した。比較対象として従来のDMNMF をベースラインとした。図3にその結果を示す。提案手法が他手法に比べて高い分離性能を得られていることが確認できる。
【0115】
以上説明したように、本発明の実施の形態に係る信号解析装置によれば、各構成音の基底スペクトル、各構成音及び各基底の各時刻における音量を表すアクティベーションパラメータ、時間周波数領域で各構成音が混合された混合音を各構成音に分離するための分離行列、及び残響除去フィルタを用いて残響除去された観測信号を各構成音に分離した信号を用いて表される目的関数を小さくするように、各構成音及び各基底における基底スペクトルと、各構成音及び各基底の各時刻におけるアクティベーションパラメータと、前記分離行列と、前記残響除去フィルタとを推定することにより、高残響下であっても、各構成音が混合した混合信号から、各構成音を精度よく分離することができる。
【0116】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0117】
例えば、更新するパラメータの順番には任意性があるため、上記の実施の形態の順番に限定されない。
【0118】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
【符号の説明】
【0119】
10 入力部
20 演算部
24 時間周波数展開部
36 パラメータ推定部
40 初期値設定部
42 パラメータ更新部
44 分離行列更新部
46 残響除去フィルタ更新部
48 収束判定部
90 出力部
100 信号解析装置
図1
図2
図3