【文献】
池澤浩気,外4名,非定常雑音・時変残響環境下でのパワースペクトログラム領域セミブラインド音声強調,電子情報通信学会総合大会講演論文集,日本,一般社団法人電子情報通信学会,2013年 3月 5日,基礎・境界講演論文集,p.72
【文献】
安良岡直希,調波パラメトリックNMF及びIダイバージェンス規準残響推定に基づく音響信号モデリングとフレーズ置換への応用,修士論文,日本,京都大学大学院情報学研究科,2011年,pp.1-47
(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0011】
しかし、上記の非特許文献2の手法では加法的な雑音の混入プロセスしか想定されておらず、残響のような乗法的な雑音の混入プロセスは陽に想定されていない(残響がない状況を仮定している)ため、観測信号に残響が含まれる場合には高い性能を発揮できないという問題があった。
【0012】
本発明は、上記の事情を鑑みてなされたもので、原音声信号に雑音及び残響成分が重畳した音響信号の時系列データから原音声信号を精度よく分離して、原音声信号を強調させることができる音響信号解析装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】
上記の目的を達成するために本発明に係る音響信号解析装置は、音響信号の時系列データを入力として、各時刻tにおける各周波数kの観測時間周波数成分y
k[t]を出力する時間周波数解析部と、前記音響信号に含まれる原音声信号sの各時刻t及び各周波数kのパワースペクトル密度Φ
(s)k[t]を、M個の基底スペクトルmを表す非負値の各要素B
(s)m,kからなる基底行列と、各時刻tにおける基底スペクトルB
(s)m,kのゲインG
(s)m[t]を非負値である各要素とする係数行列との積として表した場合の前記係数行列の各要素G
(s)m[t]、各時刻τの室内インパルス応答の各周波数kのパワーH
k[τ]、前記音響信号に含まれる雑音信号nの各時刻t及び各周波数kのパワースペクトル密度Φ
(n)k[t]を、Q個の基底スペクトルqを表す非負値の各要素B
(n)q,kからなる基底行列と、各時刻tにおける基底スペクトルB
(n)q,kのゲインG
(n)q[t]を非負値である各要素とする係数行列との積として表した場合の前記基底行列の各要素B
(n)q,k、前記係数行列の各要素G
(n)q[t]の各々の初期値を設定すると共に、前記基底行列の各要素B
(s)m,kに、予め求められた値を設定するパラメータ初期値設定部と、(τ、m)の全ての組み合わせにおける、前記基底行列の要素B
(s)m,k、前記係数行列の要素G
(s)m[t]、及び前記パワーH
k[τ]と、前記パワースペクトル密度Φ
(n)k[t]とに基づいて算出されるパワースペクトル密度系列モデルΦ
xk[t]と、前記観測時間周波数成分y
k[t]との距離が小さくなるように、各時刻t及び各周波数kの前記観測時間周波数成分y
k[t]と、前記基底行列の各要素B
(s)m,kと、前記係数行列の各要素G
(s)m[t]と、前記基底行列の各要素B
(n)q,kと、前記係数行列の各要素G
(n)q[t]と、各時刻τの室内インパルス応答の各周波数kのパワーH
k[τ]と、各時刻t及び各周波数kのパワースペクトル密度系列モデルΦ
xk[t]とに基づいて、前記係数行列の各要素G
(s)m[t]と、前記基底行列の各要素B
(n)q,kと、前記係数行列の各要素G
(n)q[t]と、各時刻τの室内インパルス応答の各周波数kのパワーH
k[τ]とを更新するパラメータ更新部と、予め定められた終了条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う終了判定部と、を含んで構成されている。
【0014】
本発明に係る音響信号解析方法は、時間周波数解析部によって、音響信号の時系列データを入力として、各時刻tにおける各周波数kの観測時間周波数成分y
k[t]を出力し、パラメータ初期値設定部によって、前記音響信号に含まれる原音声信号sの各時刻t及び各周波数kのパワースペクトル密度Φ
(s)k[t]を、M個の基底スペクトルmを表す非負値の各要素B
(s)m,kからなる基底行列と、各時刻tにおける基底スペクトルB
(s)m,kのゲインG
(s)m[t]を非負値である各要素とする係数行列との積として表した場合の前記係数行列の各要素G
(s)m[t]、各時刻τの室内インパルス応答の各周波数kのパワーH
k[τ]、前記音響信号に含まれる雑音信号nの各時刻t及び各周波数kのパワースペクトル密度Φ
(n)k[t]を、Q個の基底スペクトルqを表す非負値の各要素B
(n)q,kからなる基底行列と、各時刻tにおける基底スペクトルB
(n)q,kのゲインG
(n)q[t]を非負値である各要素とする係数行列との積として表した場合の前記基底行列の各要素B
(n)q,k、前記係数行列の各要素G
(n)q[t]の各々の初期値を設定すると共に、前記基底行列の各要素B
(s)m,kに、予め求められた値を設定し、パラメータ更新部によって、(τ、m)の全ての組み合わせにおける、前記基底行列の要素B
(s)m,k、前記係数行列の要素G
(s)m[t]、及び前記パワーH
k[τ]と、前記パワースペクトル密度Φ
(n)k[t]とに基づいて算出されるパワースペクトル密度系列モデルΦ
xk[t]と、前記観測時間周波数成分y
k[t]との距離が小さくなるように、各時刻t及び各周波数kの前記観測時間周波数成分y
k[t]と、前記基底行列の各要素B
(s)m,kと、前記係数行列の各要素G
(s)m[t]と、前記基底行列の各要素B
(n)q,kと、前記係数行列の各要素G
(n)q[t]と、各時刻τの室内インパルス応答の各周波数kのパワーH
k[τ]と、各時刻t及び各周波数kのパワースペクトル密度系列モデルΦ
xk[t]とに基づいて、前記係数行列の各要素G
(s)m[t]と、前記基底行列の各要素B
(n)q,kと、前記係数行列の各要素G
(n)q[t]と、各時刻τの室内インパルス応答の各周波数kのパワーH
k[τ]とを更新し、終了判定部によって、予め定められた終了条件を満たすまで、前記パラメータ更新部による更新を繰り返し行う。
【0015】
本発明に係るプログラムは、上記の音響信号解析装置の各部としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0016】
以上説明したように、本発明の音響信号解析装置、方法、及びプログラムによれば、原音声信号sのパワースペクトル密度Φ
(s)k[t]の基底行列及び係数行列と、室内インパルス応答のパワーH
k[τ]と、雑音信号nのパワースペクトル密度Φ
(n)k[t]とに基づいて算出されるパワースペクトル密度系列モデルΦ
xk[t]と、観測時間周波数成分y
k[t]との距離が小さくなるように、パワースペクトル密度Φ
(s)k[t]の係数行列と、パワースペクトル密度Φ
(n)k[t]の基底行列及び係数行列と、室内インパルス応答のパワーH
k[τ]を更新することを繰り返すことにより、原音声信号に雑音及び残響成分が重畳した音響信号の時系列データから原音声信号を精度よく分離して、原音声信号を強調させることができる、という効果が得られる。
【発明を実施するための形態】
【0018】
以下、図面を参照して本発明の実施の形態を詳細に説明する。
【0020】
まず、本発明の原理について説明する。
【0022】
室内伝達系が時不変の場合、原音声信号をs[t]、室内インパルス応答をh[t]、雑音信号をn[t] とすると、音響信号としての観測信号y[t]は時間領域において、以下の(1)式のように表される。
【0024】
ただし、tは離散時刻のインデックスである。右辺第1項Σ
τs[t-τ]h[τ]は残響音声信号を表す。ここで、観測信号、原信号、室内インパルス応答、雑音信号の短時間フーリエ変換をそれぞれy
k[t]、s
k[t]、h
k[t]、n
k[t]とする。ただし、k=1,...,Kは周波数のインデックス、t=1,...,Tはフレーム(時刻)のインデックスを表す。時間領域における信号同士の畳み込みは、特定の条件の下でそれぞれの信号の各周波数における狭帯域信号同士の畳み込みで近似できることが知られている。もしこの近似が成立するような短時間フーリエ変換の分析条件を選べば、y
k[t]は(2)式のように表される。
【0026】
以上では時不変な系を考えたが、実際には音源が移動することがあるため、室内伝達系の時不変性の仮定は必ずしも成り立たない。ここで、時変な室内伝達系を仮定することは、(2)式において室内インパルス応答h
k[τ]が時刻tごとに変化しうることを許容することに相当する。すなわち、以下の(3)式のように表される。
【0028】
非定常雑音、時変残響環境下における音声強調問題は、(3)式をもとに観測時間周波数成分Y={y
k[t]}
1≦k≦K,1≦t≦TからS={s
k[t]}
1≦k≦K,1≦t≦Tを推定する問題として定式化される。(3)式では室内インパルス応答が時刻ごとに変化することを許容しているため、(2)式に比べて未知パラメータが圧倒的に多くなっており、同じ右辺を与えるsとhとnの組み合わせは無数に存在する。そこで以下では、その無数の組み合わせの中から正しい解を得るためにどのような仮定を置くべきか、について説明する。
【0030】
室内インパルス応答が時間的に変化する主要因の1つは話者の移動である。なぜなら、話者の移動に伴い、話者からマイクロホンまでの(壁からの反射音の到来経路を含む)あらゆる音響経路の距離が一斉に変化するからである。
【0031】
ここで、単一の音響経路のみに着目すると、伝達系のインパルス応答はデルタ関数となるが、経路の距離に変化があった場合、当該インパルス応答のフーリエ変換の位相成分には音響経路の距離変化に伴う到来時間の変化、振幅成分には音響経路の距離変化に伴う強度の変化がそれぞれ反映されることになる。音の強度は伝播距離に対して反比例的であるため、伝播距離がある程度大きい場合には伝播距離に変化があっても振幅成分はほとんど変化しないことになる。
【0032】
一方、位相成分については、到来時間と周波数に比例した量だけ変化するため、到来時間の変化がたとえわずかであっても、特に高周波域においては著しく変化しうる。
【0033】
よって、単一の音響経路の伝達系のインパルス応答の短時間フーリエ変換には、話者の移動に伴って振幅は変化しにくく位相は変化しやすい、という性質があることが予想される。
【0034】
実際の室内インパルス応答はあらゆる音響経路の伝達系のインパルス応答の重ね合わせとなるので、一つ一つのインパルス応答が上述のような傾向があるならば、その重ね合わせもおおよそ同様な傾向があるのではないかと考えられる。
【0035】
図1は、話者の代わりにマイクロホンの位置を数センチ変えて測定した室内インパルス応答の短時間フーリエ変換の振幅成分と位相成分を比較したものである。
【0036】
上記
図1の上段は、室内インパルス応答の短時間フーリエ変換の振幅成分(A)及び位相成分(B)を示したものであり、上記
図1の下段は、マイクロホンの位置を数センチ変えて測定した室内インパルス応答の短時間フーリエ変換の振幅成分(C)と位相成分(D)を示したものである。なお、室内インパルス応答のデータはRWCP実環境音声・音響データベースのマイクロホンアレーデータベースに収録されている、残響時間0.3[s]の残響可変室(パネル)で測定されたものである。
【0037】
上記
図1から、振幅成分はさほど変化していないのに対し位相成分は著しく変化していることが分かる。
【0038】
以上より、発明者らは、話者の移動等、環境の軽微な変化については、室内インパルス応答の短時間フーリエ変換の振幅成分を時不変、位相成分を時変と仮定した特殊な系により扱えるのではないかと考えた。以後、このような系を「半時変系」と呼ぶこととする。
【0040】
以上の2つの仮定をベースに、観測信号の生成モデルを定式化する。(3)式に半時変性の仮定を導入すると、観測信号の短時間フーリエ変換は(4)式のように表される。
【0042】
ただし、φ
k,t[τ]とH
k[t]は室内インパルス応答の短時間フーリエ変換の位相成分と振幅成分であり、H
k[t]=|h
k,t[τ]|である。ここで、φ
k,t[τ]をk,n,mごとに独立に区間[0;2π)上の一様分布に従う確率変数とする。さらに、原音声信号、雑音については、それぞれ平均が0の複素正規分布(5)式及び(6)式に従う確率変数とする。
【0044】
ただし、Φ
(s)k[t]、Φ
(n)k[t]はそれぞれ原音声信号および雑音信号の時刻t、k番目の周波数ビンにおけるパワースペクトル密度である。ここで、N
C(z;0,λ)は複素正規分布の確率密度関数を表し、(7)式によって与えられる。
【0046】
証明は省略するが、原音声信号と雑音のガウス性の仮定と、正規分布の再生性より、観測信号の短時間フーリエ変換y
k[t]はk、tごとに独立に、(8)式に示す複素正規分布に従うことが示される。
【0048】
次に、原音声信号のパワースペクトル密度系列Φ
(s)k[t]に対し、非負値行列積表現を導入する。基底スペクトルをM個とし、m番目の基底スペクトルをB
(s)m,kとする。また、時刻tにおける基底スペクトルB
(s)m,kのゲインをG
(s)m[t]とすると、原音声信号のパワースペクトル密度系列は(9)式及び(10)式で示される。
【0050】
なお、基底スペクトルとそのゲインは非負であることに注意する.また、スケールの任意性を除くため、(11)式に示す条件を満たすものとする。
【0052】
音声の基底スペクトルB
(s)m,kは未知変数として観測信号から他の未知パラメータとしてブラインドで推定することもありえるが、ある程度の量のクリーン音声サンプルからあらかじめ学習しておくことを想定する。その意味で、本実施の形態に係る手法(以下、提案法と称する)はセミブラインドな音声強調手法である。基底の事前学習は、クリーン音声データのスペクトログラムに対してNMFを適用することで行うことができる。
【0054】
以上で立てた観測時間周波数成分Y={y
k[t]}
1≦k≦K,1≦t≦Tの確率密度関数は、未知パラメータの尤度関数に対応する。(8)式より、観測時間周波数成分Yが与えられたもとでの未知パラメータの対数尤度は、定数項・符号を無視すれば、観測スペクトログラム|y
k[t]|
2と(12)式で示されるパワースペクトル密度系列モデルとの距離を表す板倉斎藤距離(13)式と等しくなる。
【0056】
従って、提案法は観測スペクトログラム|y
k[t]|
2とパワースペクトル密度系列モデルΦ
xk[t]との最適フィッティング問題に帰着する。ここで、雑音信号のパワースペクトル密度系列Φ
(n)k[t]に関しても、(14)式のようにモデル化される。
【0058】
なお、板倉斎藤距離I(H,G
(s),B
(n),G
(n))は、距離尺度を表すβ-divergenceにおいてβを0にした場合に得られる距離に相当する。
【0059】
(13)式で示される板倉斎藤距離I(H,G
(s),B
(n),G
(n))は直接最小化することが困難であるため、板倉斎藤距離I(H,G
(s),B
(n),G
(n))を下回らず1点で接する上限関数を設定する。導出は省略するが、(15)式に示す上限関数が板倉斎藤距離I(H,G
(s),B
(n),G
(n))の上限関数となる。
【0061】
すなわち、板倉斎藤距離I(H,G
(s),B
(n),G
(n))の代わりに(15)式に示された上限関数を小さくするようにH,G
(s),B
(n),G
(n)および補助変数ζ,ξ,ηを交互に更新することで目的関数I(H,G
(s),B
(n),G
(n))を小さくしていくことができる。この際、H,G
(s),B
(n),G
(n)の各パラメータは非負値を保ったまま更新するようにする。なお、(15)式におけるΦ
(x)k[t]は(16)式によって示される。
【0063】
そして、この上限関数D
0の更新則は(17)式〜(23)式で示される。
【0065】
次に、原音声信号に雑音及び残響成分が重畳された観測信号を解析して、観測信号に含まれる原音声信号を推定する音響信号解析装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
【0066】
図2に示すように、本発明の実施の形態に係る音響信号解析装置は、CPUと、RAMと、後述する音響信号解析処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
【0067】
音響信号解析装置100は、入力部10と、演算部20と、記憶部30と、出力部40とを備えている。
【0068】
入力部10により、原音声信号に雑音及び残響成分が重畳された観測信号の時系列データが入力される。記憶部30は、入力部10により入力された観測信号の時系列データを記憶する。また、記憶部30は、後述する各処理での結果を記憶すると共に、本処理ルーチンで用いる各パラメータの初期値を記憶している。
【0069】
演算部20は、時間周波数解析部21と、初期設定部22と、補助変数更新部23と、パラメータ更新部24と、終了判定部25と、信号変換部26とを備えている。
【0070】
時間周波数解析部21は、例えばマイクロホンの時系列信号としての観測された観測信号y[t]を入力として、観測信号y[t]の観測時間周波数成分Y={y
k[t]}(周波数k=1,・・・,K、時刻t=1,・・・,T)を計算する。また、計算した観測時間周波数成分Yを、記憶部30に記憶しておく。より詳細には、時間周波数解析部21は、例えばマイクロホンで観測された観測信号の時系列データを入力として、短時間フーリエ変換(Short-Time Fourier Transform;STFT)を用いて時間周波数解析を行うことにより観測時間周波数成分Yを計算する。
【0071】
初期設定部22は、後述する処理で用いる各パラメータG
(s)m[t]、H
k[τ]、B
(n)q,k 、G
(n)q[t]の各初期値及びB
(s)m,k の値を設定する。なお、B
(s)m,k以外のパラメータの初期値は、例えば乱数を用いて適当な値に設定すればよい。この場合、G
(s)m[t]、H
k[τ]、B
(n)q,k 、G
(n)q[t]の各パラメータの初期値は非負値となるように設定する。
【0072】
そして、B
(s)m,kの値には、一定量のクリーン音声サンプルから予め学習して得た値を設定する。なお、スケールの任意性を排除するため、B
(s)m,kの値は上記(11)式を満たすように予め学習されているものとする。
【0073】
補助変数更新部23は、(k、m、t、τ)の全ての組み合わせの各々について、記憶部30に記憶されているB
(s)m,k、G
(s)m[t]、H
k[τ]、B
(n)q,k 、G
(n)q[t]に基づいて、上記(21)式に従って上限関数D
0を小さくするように補助変数ζ
k,m,t,τを更新し、記憶部30に格納する。
【0074】
また、補助変数更新部23は、(k、q、t)の全ての組み合わせの各々について、記憶部30に記憶されているB
(s)m,k、G
(s)m[t]、H
k[τ]、B
(n)q,k 、G
(n)q[t]に基づいて、上記(22)式に従って上限関数D
0を小さくするように補助変数ξ
k,q,tを更新し、記憶部30に格納する。
【0075】
更に、補助変数更新部23は、各時刻t及び各周波数kについて、記憶部30に記憶されているB
(s)m,k、G
(s)m[t]、H
k[τ]、B
(n)q,k 、G
(n)q[t]に基づいて、上記(16)式、上記(23)式に従って上限関数D
0を小さくするように補助変数η
k[t]を更新し、記憶部30に格納する。
【0076】
パラメータ更新部24は、(m、t)の全ての組み合わせの各々について、記憶部30に記憶されているy
k[t]、B
(s)m,k、H
k[τ]、ζ
k,m,t,τ、η
k[t]に基づいて、上記(17)式に従って、上限関数D
0を小さくするように、基底スペクトルB
(s)m,kのゲイン係数G
(s)m[t]を更新し、記憶部30に格納する。
【0077】
また、パラメータ更新部24は、(q、k)の全ての組み合わせの各々について、記憶部30に記憶されているy
k[t]、G
(n)q[t]、ξ
k,q,t、η
k[t]に基づいて、上記(18)式に従って、上限関数D
0を小さくするように、雑音信号nのパワースペクトル密度Φ
(n)k[t]の基底行列の要素B
(n)q,kを更新し、記憶部30に格納する。
【0078】
また、パラメータ更新部24は、(q、t)の全ての組み合わせの各々について、記憶部30に記憶されているy
k[t]、B
(n)q,k、ξ
k,q,t、η
k[t]に基づいて、上記(19)式に従って、上限関数D
0を小さくするように、基底スペクトルB
(n)q,kのゲインG
(n)q[t]を更新し、記憶部30に格納する。
【0079】
更に、パラメータ更新部24は、(k、τ)の全ての組み合わせの各々について、記憶部30に記憶されているy
k[t]、B
(s)m,k、G
(s)m[t]、ζ
k,m,t,τ、η
k[t]に基づいて、上記(20)式に従って、上限関数D
0を小さくするように、室内インパルス応答のパワーH
k[τ]を更新し、記憶部30に格納する。
【0080】
終了判定部25は、予め定められた終了条件を満足するか否かを判定し、終了条件を満足していない場合には、補助変数更新部23及びパラメータ更新部24の各処理を繰り返す。終了判定部25は、終了条件を満足したと判定した場合には、信号変換部26による処理に移行する。信号変換部26は、記憶部30に記憶されているB
(s)m,k 及びG
(s)m[t]に基づいて、雑音信号を取り除くことにより推定される原音声信号(以下、推定原音声信号と称する)に変換し、出力部40により、推定原音声信号を出力する。
【0081】
なお、終了条件としては、繰り返し回数がL-1回目の上限関数(15)式の値と、繰り返し回数がL回目の上限関数(15)式の値との差が、予め定めた閾値よりも小さくなったことを用いればよい。あるいは、終了条件として、繰り返し回数が、予め定められた上限回数に到達したことを用いてもよい。
【0083】
次に、本実施の形態に係る音響信号解析装置100の作用について説明する。まず、解析対象の信号として、原音声信号に雑音及び残響成分が重畳された観測信号の時系列データが音響信号解析装置100に入力され、記憶部30に格納される。そして、音響信号解析装置100において、
図3に示す音響信号解析処理ルーチンが実行される。
【0084】
まず、ステップS101において、記憶部30から、観測信号y[t]を読み込み、当該観測信号y[t]に対して、短時間フーリエ変換を用いた時間周波数分析を行い、観測信号y[t]の観測時間周波数成分Y={y
k[t]}(k=1,・・・,K、t=1,・・・,T)を算出すると共に、得られた観測時間周波数成分Yを記憶部30に記憶する。
【0085】
そして、ステップS102において、乱数を用いて、G
(s)m[t]、H
k[τ]、B
(n)q,k 、G
(n)q[t]の各初期値を設定して、記憶部30に記憶すると共に、一定量のクリーン音声サンプルから予め学習して得た各周波数kのM個の基底スペクトルmからなる基底行列の各要素をB
(s)m,kとして設定して、記憶部30に記憶する。
【0086】
次にステップS103では、上記ステップS102で設定されたB
(s)m,k、G
(s)m[t]、H
k[τ]、B
(n)q,k 、G
(n)q[t]、又は上記ステップS102で設定されたB
(s)m,k及び後述するステップS104、S105、S106、S107で更新されたG
(s)m[t]、H
k[τ]、B
(n)q,k 、G
(n)q[t]に基づいて、上記(21)式に従って、補助変数ζ
k,m,t,τを各(k、m、t、τ)の組み合わせについて算出すると共に、上記(22)式に従って、補助変数ξ
k,q,tを各(k、q、t)の組み合わせについて算出し、更に、上記(16)式、(23)式に従って、補助変数η
k[t]を各時刻t及び各周波数kについて算出して、記憶部30に格納する。
【0087】
ステップS104では、上記ステップS101で生成された観測信号y[t]の観測時間周波数成分Yと、上記ステップS102で設定されたB
(s)m,kと、上記ステップS102で設定されたH
k[τ]、又は後述するステップS107で更新されたH
k[τ]と、上記ステップS103で更新された補助変数ζ
k,m,t,τ、η
k[t]に基づいて、上記(17)式に従って、基底スペクトルB
(s)m,kの非負値のゲイン係数G
(s)m[t]を各(m、t)の組み合わせについて算出して、記憶部30に格納する。
【0088】
ステップS105では、上記ステップS101で生成された観測信号y[t]の観測時間周波数成分Yと、上記ステップS102で設定されたG
(n)q[t]、又は後述するステップS106で更新されたG
(n)q[t]と、上記ステップS103で更新された補助変数ξ
k,q,t、η
k[t]に基づいて、上記(18)式に従って、雑音信号nのパワースペクトル密度Φ
(n)k[t]の基底行列の要素B
(n)q,kを各(q、k)の組み合わせについて算出して、記憶部30に格納する。
【0089】
ステップS106では、上記ステップS101で生成された観測信号y[t]の観測時間周波数成分Yと、上記ステップS102で設定されたB
(n)q,k、又は上記ステップS105で更新されたB
(n)q,kと、上記ステップS103で更新された補助変数ξ
k,q,t、η
k[t]に基づいて、上記(19)式に従って、基底スペクトルB
(n)q,kのゲインG
(n)q[t]を各(q、t)の組み合わせについて算出して、記憶部30に格納する。
【0090】
そして、ステップS107では、上記ステップS101で生成された観測信号y[t]の観測時間周波数成分Yと、上記ステップS102で設定されたB
(s)m,kと、上記ステップS102で設定されたG
(s)m[t]、又は上記ステップS104で更新されたG
(s)m[t]と、上記ステップS103で更新された補助変数ζ
k,m,t,τ、η
k[t]に基づいて、上記(20)式に従って、室内インパルス応答のパワーH
k[τ]を各(k、τ)の組み合わせについて算出して、記憶部30に格納する。
【0091】
次のステップS108では、上記ステップS101で生成された観測信号y[t]の観測時間周波数成分Yと、上記ステップS102で設定されたB
(s)m,kと、上記ステップS103で更新された補助変数ζ
k,m,t,τ、ξ
k,q,t、η
k[t]と、上記ステップS104で更新されたG
(s)m[t]と、上記ステップS105で更新されたB
(n)q,kと、上記ステップS106で更新されたG
(n)q[t]と、上記ステップS107で更新されたH
k[τ]に基づいて、上記(15)式に従って上限関数D
0の値を算出して、記憶部30に記憶する。そして、前回のステップS108で算出した上限関数D
0の値を記憶部30から読み込み、今回のステップS108で算出した上限関数D
0の値と、前回のステップS108で算出した上限関数D
0の値との差分が、予め記憶部30に記憶されている予め定められた閾値よりも小さいか否かを判定し、差分が予め定められた閾値以上の場合には、終了条件を満足していないと判断して、上記ステップS103へ戻り、上記ステップS103〜ステップS107の処理を繰り返す。一方、差分が予め定められた閾値未満の場合には、終了条件を満足したと判断して、ステップS109で、上記ステップS102で設定されたB
(s)m,kと、上記ステップS104で最終的に更新されたG
(s)m[t]に基づいて推定原音声信号を算出すると共に、出力部40より推定原音声信号を出力して音響信号解析処理ルーチンを終了する。
【0093】
次に、本実施の形態に係る手法の有用性を示す目的で、残響室内(残響時間1.3秒)での移動音声信号に、PHSの着信音、背景雑音、当該PHSの着信音及び背景雑音を組み合わせた音、粒子落下音、BGM音、他者の音声といった非定常雑音を重畳したものを観測信号として用いた場合の、提案法での評価実験の結果について説明する。
【0094】
図4は、提案法を用いた場合の評価実験結果を示した図である。上記
図4(A)はメル周波数ケプストラム係数歪み(Mel-Frequency Cepstral Coefficients Distortion:MFCCD)を評価基準とした実験結果、上記
図4(B)はバークスペクトル歪みスコア(Bark Spectral Distortion Score:BSDS)を評価基準とした実験結果、上記
図4(C)は信号対干渉比(Source to Interference Ratio:SIR)を評価基準とした実験結果を示している。なお、MFCCD及びBSDSは値が小さくなる程、音声の明瞭度が良くなることを示す値であり、一方、SIRは値が大きくなる程、音声の明瞭度が良くなることを示す値である。
【0095】
上記
図4から分かるように、移動音声信号にBGM又は他者の音声を重畳した場合のMFCCDの評価結果を除いて、観測信号に含まれる音声の明瞭度に比べ提案法による推定原音声信号の明瞭度の方が向上するという結果を得られた。特に、移動音声信号にPHSの着信音を重畳した場合のSIRに関する評価結果では、4倍以上の改善が見られた。
【0096】
以上説明したように、本発明の実施の形態に係る音響信号解析装置によれば、上記(15)式で示される上限関数の値が小さくなるように、係数行列の各要素G
(s)m[t]と、基底行列の各要素B
(n)q,kと、係数行列の各要素G
(n)q[t]と、各時刻τの室内インパルス応答の各周波数kのパワーH
k[τ]と、補助変数ζ
k,m,t,τと、補助変数ξ
k,q,tと、補助変数η
k[t]とを繰り返し更新することにより、音声信号に雑音及び残響成分が重畳した観測信号から精度よく音声信号を推定して、音声信号の明瞭度を向上させることができる。
【0097】
このように、本発明で提案する手法では、音源の移動等に関して、室内インパルス応答の短時間フーリエ変換の振幅成分を時不変、位相成分を時変とする観測信号の生成モデルを立てて、観測信号に含まれる原音声信号を高い精度で推定する
【0098】
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0099】
例えば、上述の音響信号解析装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
【0100】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【0101】
また、本実施の形態に係る手法では、パワースペクトル密度系列モデルΦ
xk[t]と観測時間周波数成分y
k[t]との距離の尺度として板倉斎藤距離I(H,G
(s),B
(n),G
(n))を用いたが、これに限らず、β-divergenceの一種であるGeneralized Kullback-Leibler距離やFrobeniusノルムといった尺度を用いるようにしてもよい。