【文献】
Aditya Arie Nugraha et al.,Multichannel music separation with deep neural networks,2016 24th European Signal Processing Conference,2016年08月,p.1748-1752
【文献】
John R. Hershey et al.,Deep clustering: Discriminative embeddings for segmentation and separation,[online],2015年08月,arXiv, [2021.6.10検索], インターネット<URL: https://arxiv.org/pdf/1508.04306.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0021】
以下、図面を参照して、本技術を適用した実施の形態について説明する。
【0022】
〈第1の実施の形態〉
〈本技術について〉
例えば、音源分離では一般的に
図1に示すようにして各音源が分離される。
【0023】
この例では、収音空間には音源s
1乃至音源s
JのJ個の音源が存在している。このようなJ個の各音源からの音をI個のマイクロフォンからなるマイクアレイ11で収音すると、I個のマイクロフォンごと、つまりI個のチャネルごとの収音信号x
1乃至収音信号x
IからなるIチャネル(I次元)の混合音信号xが得られる。
【0024】
このようにして得られたIチャネルの混合音信号xが音源分離器12に入力されると、音源分離器12は、入力された混合音信号xに対して音源分離を行う。
【0025】
すると、音源s
1乃至音源s
Jの各音源の音の信号の推定結果としてソース信号^s
1乃至ソース信号^s
Jが得られる。例えばソース信号^s
1は、I個の各チャネルについて得られた音源s
1の音の信号からなるIチャネルの信号(I次元のベクトル)である。
【0026】
音源分離器12で行われる音源分離の手法として、例えばDNNを用いたMWFベースの音源分離手法が知られている。
【0027】
ここで、DNNを用いたMWFベースの音源分離手法について説明する。なお、以下では各信号はSTFT(Short Term Fourier Transform)ドメインで表記することとする。
【0028】
例えば周波数ビンをkとし、時間のフレームをmとしてIチャネルの混合音信号をx(k,m)と記し、J個の音源のうちのj(但し、1≦j≦J)番目の音源s
jの音の信号であるソース信号をs
j(k,m)と記すこととする。混合音信号x(k,m)およびソース信号s
j(k,m)は、ともにI個のチャネルごとの複素スペクトルからなる信号である。
【0029】
このような場合、MWFでは信号モデルが次式(1)のように仮定される。
【0031】
なお、式(1)において、z(k,m)は複素ガウシアンノイズを示しており、ν
j(k,m)はパワースペクトル密度を示しており、R
j(k,m)は空間相関行列を示している。また、N
C(0,ν
j(k,m)R
j(k,m))は複素数のガウシアン確率密度分布を示している。
【0032】
式(1)では、目的とするj番目の音源s
j以外の他の音源のソース信号s
j'(k,m)の和が複素ガウシアンノイズz(k,m)となっている。このような式(1)から混合音信号x(k,m)は、目的とする音源s
jのソース信号s
j(k,m)と複素ガウシアンノイズz(k,m)の和で表されることが分かる。
【0033】
さらに、各ソース信号s
j(k,m)が互いに独立であると仮定することで、最小二乗平均誤差法により、目的とする音源s
jのソース信号s
j(k,m)を混合音信号x(k,m)から推定することができる。ここで、最小二乗平均誤差の推定値^s
j,MWF(k,m)、つまり最小二乗平均誤差法によるソース信号s
j(k,m)の推定値は、次式(2)に示す計算により求められる。なお、^s
j,MWF(k,m)はI個のチャネルごとの複素スペクトルからなる信号である。
【0035】
この式(2)の計算がMWFの演算となるが、実際のソース信号s
j(k,m)の推定値であるソース信号^s
j,MWF(k,m)を式(2)により求めるためには、J個の各音源についてパワースペクトル密度ν
j(k,m)および空間相関行列R
j(k,m)を求める必要がある。
【0036】
DNNを用いたMWFベースの音源分離手法では、空間相関行列R
j(k,m)が時不変である、つまり各音源の位置が時間によって変化しないと仮定して、DNNによりこれらのパワースペクトル密度ν
j(k,m)および空間相関行列R
j(k,m)が求められている。
【0037】
具体的には、DNNの出力を{^s
1(k,m),…,^s
J(k,m)}とすると、パワースペクトル密度ν
j(k,m)および空間相関行列R
j(k,m)は、それぞれ以下の式(3)および式(4)により求められる。
【0040】
なお、式(3)において^ν
j(k,m)は、パワースペクトル密度ν
j(k,m)の推定値を示しており、式(4)において^R
j(k)は、空間相関行列R
j(k,m)の推定値を示している。特に、ここでは空間相関行列R
j(k,m)はフレームmによらず一定であると仮定されているので、推定により得られる空間相関行列はインデックスmが省略されて^R
j(k)と記されている。
【0041】
また、式(3)および式(4)において、DNNの出力である^s
j(k,m)は、I個のチャネルごとの振幅スペクトルからなる信号であり、音源s
jからの音の振幅スペクトルの推定値である。
【0042】
DNNを用いたMWFベースの音源分離手法では、以上のようにして目的とする音源のソース信号^s
j,MWF(k,m)が求められる。
【0043】
このとき、DNNの出力である振幅スペクトル^s
j(k,m)が元のソース信号s
j(k,m)に近いほど推定誤差は少なくなる。しかしながら、学習データが限られていることや問題が複雑であることからDNNの学習は一般的に難しく、DNNの出力として得られる振幅スペクトルは誤差を含み、このことが音源分離の分離性能を悪化させる一因となっている。
【0044】
上述したMWFベースの音源分離手法において、DNNをLSTM(Long Short Term Memory)に置き換えることも可能であり、振幅スペクトルの推定結果としてDNNにおける場合と異なる性質の推定結果を得ることができる。しかし、依然としてLSTMの学習は難しく、推定結果として得られる振幅スペクトルは誤差を含むため、十分に高い分離性能を得ることは困難である。
【0045】
そこで、本技術では、時間的な性質の異なる出力をもつ同程度の分離性能の音源分離器、つまり音源分離方式を組み合わせることで各々の分離性能よりも高い分離性能を得ることができるようにした。
【0046】
ここで、出力の時間的な性質が異なるとは、音源分離方式による音源の信号の推定結果、より具体的には例えばinterference(インターフェランス)のレベル(強度)や、アーティファクトのレベル、ノイズのレベルなどの分離性能が時刻ごと異なることをいう。
【0047】
特に、本技術で組み合わせる複数の音源分離方式は例えば以下のようなものとされる。
【0048】
すなわち、個々の音源分離方式ではフレーム単位などの所定の時間単位で音源の分離性能が異なる、つまり所定の時間単位でinterferenceのレベル(強度)や、アーティファクトのレベル、ノイズのレベルなどの分離性能が変化する。なお、より具体的には音源の分離性能としては、例えばSIR(Source to Interference Ratio)、SAR(Sources to Artifacts Ratio)、SDR(Signal to Distortion Ratio)、ISR(source Image to Spatial distortion Ratio)などを用いることができる。
【0049】
組み合わせられる複数の音源分離方式は、フレーム単位などの所定の時間単位で音源の分離性能が互いに異なる方式とされる。すなわち、ある音源分離方式と他の音源分離方式とで分離性能が異なり、しかも、それらの音源分離方式の分離性能の関係が所定時間単位で変化する(異なる)。
【0050】
より詳細には、例えば組み合わせられる複数の音源分離方式は、所定の時間単位でみたときに分離性能の大小関係が時間とともに変化する音源分離方式である。
【0051】
具体的には、例えば第1の音源分離方式と第2の音源分離方式を組み合わせるとする。この場合、第1の音源分離方式と第2の音源分離方式では、それぞれ任意の混合音信号に対する音源分離を行ったときに所定時間単位で分離性能が変化する。そして、ある時刻では第1の音源分離方式の方が第2の音源分離方式よりも分離性能が高いが、他の時刻では第1の音源分離方式よりも第2の音源分離方式の方が分離性能が高いといったように、どちらの音源分離方式の分離性能がより高いかが時間(時刻)によって異なる。つまり、フレーム等によって第1の音源分離方式と第2の音源分離方式の分離性能の大小関係が異なる。
【0052】
〈音源分離装置の構成例〉
図2に本技術を適用した音源分離装置の構成例を示す。
【0053】
図2に示される音源分離装置41は、振幅スペクトル推定部51−1乃至振幅スペクトル推定部51−N、結合部52、および分離信号生成部53を有している。音源分離装置41では、振幅スペクトル推定部51−1乃至振幅スペクトル推定部51−Nおよび分離信号生成部53に、混合音信号x(k,m)が供給される。
【0054】
振幅スペクトル推定部51−1乃至振幅スペクトル推定部51−Nは、互いに異なる振幅スペクトル推定アルゴリズムに従って、すなわち互いに異なる音源分離方式により、混合音信号x(k,m)から振幅スペクトル^s
j(k,m)を推定により求め、結合部52に供給する。換言すれば、混合音信号x(k,m)から各音源の音源分離信号として振幅スペクトル^s
j(k,m)を分離させる。
【0055】
なお、以下、振幅スペクトル推定部51−1乃至振幅スペクトル推定部51−Nを特に区別する必要のない場合、単に振幅スペクトル推定部51とも称する。これらの振幅スペクトル推定部51は、振幅スペクトル推定器である。
【0056】
結合部52は、N個の振幅スペクトル推定部51から供給された振幅スペクトル^s
j(k,m)を結合して最終的な1つの振幅スペクトル^s
j(k,m)とし、分離信号生成部53に供給(出力)する。
【0057】
分離信号生成部53は、供給された混合音信号x(k,m)と、結合部52から供給された振幅スペクトル^s
j(k,m)とに基づいて、目的とする音源の振幅スペクトル^s
j(k,m)に位相を加える処理を行うことで、目的とする音源のソース信号の推定値を算出し、出力する。
【0058】
ここで、振幅スペクトル推定部51における振幅スペクトル推定アルゴリズムとしては、例えばCNN(Convolutinal Neural Network)、ResNet(Residual Network)を含むフィードフォワード型ニューラルネットワーク(FNN(Feedforward Neural Network))や、リカーレント型ニューラルネットワーク(RNN(Recurrent Neural Network))、DenseNet (Densely connected convolutional Networks)、NMF(Non-negative Matrix Factrization)などを採用することができる。また、前述のネットワークはバイナリネットを含む任意の精度で実現されるようにしてもよい。
【0059】
また、振幅スペクトル推定部51における振幅スペクトル推定アルゴリズムとしては、例えば
図3に示すように、周波数帯域ごとに異なるアルゴリズムやネットワークを採用することができる。
【0060】
図3に示す例では、振幅スペクトル推定部51は、帯域ソーススペクトル推定部71−1乃至帯域ソーススペクトル推定部71−3、および全帯域ソーススペクトル推定部72を有している。
【0061】
帯域ソーススペクトル推定部71−1乃至帯域ソーススペクトル推定部71−3には、各周波数ビンkの混合音信号x(k,m)からなる混合音スペクトルの一部の帯域または全帯域の信号が供給される。
【0062】
帯域ソーススペクトル推定部71−1乃至帯域ソーススペクトル推定部71−3は、混合音スペクトルの一部の帯域または全帯域の信号を入力とし、互いに異なる帯域ソーススペクトル推定アルゴリズムに従って各周波数ビンkの振幅スペクトル^s
j(k,m)からなるソーススペクトルの一部の帯域または全帯域の信号を推定する。
【0063】
例えば帯域ソーススペクトル推定部71−1乃至帯域ソーススペクトル推定部71−3のそれぞれでは、混合音スペクトルの互いに異なる帯域が入力とされ、ソーススペクトルの互いに異なる帯域の信号が推定される。
【0064】
帯域ソーススペクトル推定部71−1乃至帯域ソーススペクトル推定部71−3は、推定により得られた、ソーススペクトルの一部の帯域または全帯域の信号を帯域スペクトルとして全帯域ソーススペクトル推定部72に供給する。
【0065】
なお、以下、帯域ソーススペクトル推定部71−1乃至帯域ソーススペクトル推定部71−3を特に区別する必要のない場合、単に帯域ソーススペクトル推定部71とも称することとする。
【0066】
全帯域ソーススペクトル推定部72は、供給された混合音スペクトルと、帯域ソーススペクトル推定部71−1乃至帯域ソーススペクトル推定部71−3のそれぞれから供給された帯域スペクトルに基づいて、各周波数ビンkの振幅スペクトル^s
j(k,m)を生成する。すなわち、全帯域ソーススペクトル推定部72は、全帯域ソーススペクトル推定アルゴリズムに従って、各帯域ソーススペクトル推定部71から供給された帯域スペクトルを統合し、統合により得られた全帯域のソーススペクトルとして各周波数ビンkの振幅スペクトル^s
j(k,m)を出力する。
【0067】
なお、各帯域ソーススペクトル推定部71における帯域ソーススペクトル推定アルゴリズムや、全帯域ソーススペクトル推定部72における全帯域ソーススペクトル推定アルゴリズムとして、例えばDNNを採用することができる。
【0068】
一般的にスペクトルのパターンは帯域によって異なる。例えば低域では音は比較的長い継続長を持ち、調性のある音も多い一方で、高域では減衰が早く調性のないノイズ音がより高頻度で発生し得る。そのため、このような帯域ごとの異なる特性をとらえるためには帯域ごとにソーススペクトルを推定した方が容易である可能性がある。また、帯域ごとに最適なモデルサイズやアルゴリズムを選ぶことで高性能化や効率化を図ることができる。
【0069】
そこで、振幅スペクトル推定部51では、帯域ごとにソーススペクトルの推定を行い、それらの推定結果を統合して最終的なソーススペクトルとすることで、より効率的かつ高精度にソーススペクトルを推定できるようにされている。
【0070】
なお、各振幅スペクトル推定部51における振幅スペクトル推定アルゴリズムについて、互いに学習モデルが異なる場合には、例えばDNN同士を組み合わせるなどしてもよい。すなわち、例えばDNN同士など、同じ音源分離方式(振幅スペクトル推定アルゴリズム)でも、それらの学習モデルが異なり、互いに異なる性質の出力をする場合には、それらの音源分離方式を組み合わせても分離性能を向上させることができる。
【0071】
互いに異なる振幅スペクトル推定アルゴリズムの組み合わせ、つまり音源分離方式の組み合わせの一例として、例えばDNNとLSTMを組み合わせることが考えられる。
【0072】
DNNによる振幅スペクトルの推定は、目的とする音源以外の音、つまり非目的音の抑圧に優れるがアーティファクトが大きい傾向にある。
【0073】
これに対して、時間方向に結合をもつリカーレント型ニューラルネットワーク(RNN)の一種であるLSTMによる振幅スペクトルの推定は、時間的に安定した性能を示すが非目的音の漏れが大きい傾向にある。
【0074】
このようにDNNとLSTMという時間的に異なる性質の出力をもつ音源分離方式を組み合わせて音源分離を行うことで、より高精度に振幅スペクトルを推定し、音源の分離性能を向上させることができる。つまり、互いに異なる振幅スペクトル推定器を結合することで、より高精度に振幅スペクトルを推定し、これにより、より高精度に目的とする音源の信号を得ることができる。
【0075】
例えば、分離された信号におけるinterferenceのレベルなど、振幅スペクトル推定アルゴリズムの性質が異なるものを組み合わせると、一方の振幅スペクトル推定アルゴリズムでは十分な分離性能を得ることができないフレームでも、他方の振幅スペクトル推定アルゴリズムでは十分な分離性能が得られることがある。そのため、それらの振幅スペクトル推定アルゴリズムを組み合わせると、結果として全体的に音源の分離性能を向上させることができる。
【0076】
これに対して、例えば、どの時刻においてもinterferenceのレベル等の分離性能の大小関係が変化しない複数の振幅スペクトル推定アルゴリズムを組み合わせても分離性能の改善を見込むことは困難である。
【0077】
以下では、時間的に異なる性質の出力をもつ複数の音源分離方式として、DNNとLSTMを組み合わせる場合を具体的な例として説明を続ける。
【0078】
音源分離方式としてDNNとLSTMを組み合わせた場合、
図2に示した音源分離装置41は、
図4に示すように構成される。なお、
図4において
図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0079】
図4に示す音源分離装置41は、DNN部81、LSTM部82、結合部52、および分離信号生成部53を有している。この例では、DNN部81およびLSTM部82は、
図2に示した振幅スペクトル推定部51に対応している。
【0080】
すなわち、DNN部81は予め学習により得られたDNNによる振幅スペクトル推定器であり、供給された混合音信号x(k,m)に基づいて振幅スペクトル推定を行い、その結果得られた振幅スペクトル^s
j(k,m)を結合部52に供給する。
【0081】
以下では、特にDNN部81で得られた振幅スペクトル^s
j(k,m)を、振幅スペクトル^s
j,DNN(k,m)とも記すこととする。
【0082】
LSTM部82は予め学習により得られたLSTMによる振幅スペクトル推定器であり、供給された混合音信号x(k,m)に基づいて振幅スペクトル推定を行い、その結果得られた振幅スペクトル^s
j(k,m)を結合部52に供給する。
【0083】
以下では、特にLSTM部82で得られた振幅スペクトル^s
j(k,m)を、振幅スペクトル^s
j,LSTM(k,m)とも記すこととする。
【0084】
結合部52は、DNN部81から供給された振幅スペクトル^s
j,DNN(k,m)と、LSTM部82から供給された振幅スペクトル^s
j,LSTM(k,m)とを結合して最終的な1つの振幅スペクトル^s
j(k,m)とし、分離信号生成部53に供給する。
【0085】
なお、振幅スペクトルの結合方法は、例えば線形結合やアーティフィシャルニューラルネットワーク(ANN(Artificial Neural Network))による結合など、どのような方法であってもよい。例えばANNにより結合を行う場合、ANNのパラメータ学習時には結合用のANNのみを学習してもよいし、下層のDNNおよびLSTMを含めて学習を行うようにしてもよい。
【0086】
以下では、結合部52において、振幅スペクトルが線形結合されるものとして説明を続ける。振幅スペクトルを線型結合する場合、例えば結合部52は次式(5)を計算することにより、結合結果としての振幅スペクトル^s
j(k,m)を求める。
【0088】
なお、式(5)においてλは結合パラメータを示している。この結合パラメータλは、予め定められた固定値であり、線形結合の際の振幅スペクトル^s
j,LSTM(k,m)の重みを示している。
【0089】
分離信号生成部53は、供給された混合音信号x(k,m)と、結合部52から供給された振幅スペクトル^s
j(k,m)とに基づいて、推定により目的とする音源のソース信号を算出し、出力する。
【0090】
例えば分離信号生成部53は、振幅スペクトル^s
j(k,m)に基づいて上述した式(3)および式(4)を計算することで、J個の各音源についてパワースペクトル密度^ν
j(k,m)および空間相関行列^R
j(k)を求める。
【0091】
そして、分離信号生成部53は、それらのパワースペクトル密度^ν
j(k,m)および空間相関行列^R
j(k)と、混合音信号x(k,m)とに基づいて上述した式(2)を計算し、MWFにより目的とする音源の推定分離音スペクトルであるソース信号^s
j,MWF(k,m)を算出する。
【0092】
なお、式(2)の計算時には、パワースペクトル密度^ν
j(k,m)および空間相関行列^R
j(k)が、パワースペクトル密度ν
j(k,m)および空間相関行列R
j(k,m)として式(2)に代入される。
【0093】
このような式(2)の計算は、位相のない振幅スペクトル^s
j(k,m)に対して位相を加えて、位相のある複素スペクトルを求める計算となっている。その際、付加される位相は、二乗平均誤差が最小となるように定められる。
【0094】
また、ここではMWFによりソース信号^s
j,MWF(k,m)を算出する例について説明するが、分離信号生成部53では混合音信号x(k,m)と振幅スペクトル^s
j(k,m)とに基づいて、DNN等により目的とする音源のソース信号を求めるようにしてもよい。
【0095】
以上のようにしてDNNとLSTMとにより振幅スペクトルを推定し、それらの推定結果を線型結合してMWFによりソース信号^s
j,MWF(k,m)を算出する場合、例えば
図5に示すように高い分離性能が得られることが確認された。なお、
図5において縦軸はSDR(Signal to Distortion Ratio)を示しており、横軸は結合パラメータλの値を示している。
【0096】
図5に示す例ではVocals、Drums、Other、およびBassのそれぞれの音が含まれる音響信号が混合音信号とされて音源分離が行われている。
【0097】
曲線L11乃至曲線L14は、結合パラメータλを0から1までの各値とし、ソース信号としてVocals、Drums、Other、およびBassのそれぞれの信号を抽出したときのSDRの大きさを示している。また、曲線L15は、曲線L11乃至曲線L14の平均値を示している。
【0098】
これらの曲線L11乃至曲線L15から分かるように、結合パラメータλ=0、つまりDNNのみを用いた場合や、結合パラメータλ=1、つまりLSTMのみを用いた場合よりも、結合パラメータλ=0.5、つまりDNNとLSTMの出力を同レベルで混合した場合など、結合を行った場合の方がより大きいSDRが得られていることが分かる。すなわち、より高い分離性能が得られていることが分かる。
【0099】
ここで、混合音信号x(k,m)からソース音源の振幅スペクトル^s
j,DNN(k,m)を得るためのDNNや、混合音信号x(k,m)からソース音源の振幅スペクトル^s
j,LSTM(k,m)を得るためのLSTMの学習方法について説明する。
【0100】
DNNやLSTMの学習では、ネットワークの入力は混合音信号の振幅スペクトル|x(k,m)|とされ、教師データはソース音、つまり目的とする音源の音の振幅スペクトル|s
j(k,m)|とされる。
【0101】
ネットワークによる非線形関数をf(,θ)とすると、ネットワークパラメータθは非線形関数とソース音の振幅スペクトルとの二乗誤差が最小化されるように求められる。ここで、最小化すべき目的関数Lは、次式(6)に示すようになる。
【0103】
DNNやLSTMによる振幅スペクトルの推定時には、このようにして得られた非線形関数f(|x(k,m)|,θ)に混合音信号x(k,m)、より詳細には混合音信号x(k,m)の振幅スペクトルを代入することにより、振幅スペクトル^s
j,DNN(k,m)や振幅スペクトル^s
j,LSTM(k,m)が求められる。
【0104】
〈音源分離処理の説明〉
次に、
図4に示した音源分離装置41の動作について説明する。
【0105】
すなわち、以下、
図6のフローチャートを参照して、音源分離装置41による音源分離処理について説明する。
【0106】
ステップS11において、DNN部81は、供給された混合音信号x(k,m)に基づいてDNNにより振幅スペクトルを推定し、その結果得られた振幅スペクトル^s
j,DNN(k,m)を結合部52に供給する。
【0107】
例えばステップS11では、DNNの学習により得られた非線形関数f(|x(k,m)|,θ)に混合音信号x(k,m)が代入されて、振幅スペクトル^s
j,DNN(k,m)が算出される。
【0108】
ステップS12において、LSTM部82は、供給された混合音信号x(k,m)に基づいてLSTMにより振幅スペクトルを推定し、その結果得られた振幅スペクトル^s
j,LSTM(k,m)を結合部52に供給する。
【0109】
例えばステップS12では、LSTMの学習により得られた非線形関数f(|x(k,m)|,θ)に混合音信号x(k,m)が代入されて、振幅スペクトル^s
j,LSTM(k,m)が算出される。
【0110】
ステップS13において、結合部52は、DNN部81から供給された振幅スペクトル^s
j,DNN(k,m)と、LSTM部82から供給された振幅スペクトル^s
j,LSTM(k,m)とを結合し、その結果得られた振幅スペクトル^s
j(k,m)を分離信号生成部53に供給する。例えばステップS13では、上述した式(5)の計算が行われ、線形結合により振幅スペクトル^s
j(k,m)が算出される。
【0111】
ステップS14において、分離信号生成部53は、供給された混合音信号x(k,m)と、結合部52から供給された振幅スペクトル^s
j(k,m)とに基づいて、推定により目的とする音源のソース信号^s
j,MWF(k,m)を算出して出力し、音源分離処理は終了する。
【0112】
例えばステップS14では、振幅スペクトル^s
j(k,m)から式(3)および式(4)の計算が行われるとともに、それらの計算結果と混合音信号x(k,m)とから式(2)の計算が行われ、ソース信号^s
j,MWF(k,m)が算出される。
【0113】
以上のようにして音源分離装置41は、DNNおよびLSTMという互いに性質の異なる音源分離方式により振幅スペクトルを推定し、それらの推定結果を結合して得られた振幅スペクトルに基づいて、目的とする音源のソース信号を算出する。
【0114】
これにより、音源の性質によらず、安定して高い分離性能を得ることができる。すなわち、ノイズや、非目的音の漏れ、アーティファクトなどを低減させ、より高い分離性能を得ることができる。特に、音源分離装置41によれば、計算コストが低い振幅スペクトル推定アルゴリズムを複数組み合わせて高い分離性能を得ることができる。
【0115】
また、例えばDNN部81やLSTM部82など、一部の振幅スペクトル推定部51に不具合が生じたときでも、動的に結合部52で結合する振幅スペクトルを変化させるようにすることもできるので頑健に音源分離を行うことができる。
【0116】
〈第2の実施の形態〉
〈音源分離装置の構成例〉
ところで、以上においては結合部52において予め定められた結合パラメータλを用いて振幅スペクトルを線形結合する場合について説明したが、結合パラメータλが動的に定められるようにしてもよい。
【0117】
そのような場合、例えばLSTMが得意とする混合音信号x(k,m)が入力された場合には、結合時にLSTMで得られる振幅スペクトルに対してより大きな重みがかかるように結合パラメータλが大きな値とされる。このようにするとで、振幅スペクトルの推定精度をさらに向上させ、その結果、音源の分離性能を向上させることができる。
【0118】
このように結合パラメータλを動的に決定する場合、音源分離装置41は、例えば
図7に示すように構成される。なお、
図7において
図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0119】
図7に示す音源分離装置41の構成は、新たに結合パラメータ決定部111が設けられた点で
図4に示した音源分離装置41の構成と異なり、その他の点では
図4に示した音源分離装置41と同じ構成となっている。
【0120】
すなわち、
図7に示す音源分離装置41は、DNN部81、LSTM部82、結合パラメータ決定部111、結合部52、および分離信号生成部53を有している。
【0121】
DNN部81は、予め学習により得られた識別器である分離性能評価関数D
DNN(y)を用いて、DNN部81による振幅スペクトルの推定性能、すなわち目的とする音源の信号の分離性能の評価値D
DNNを算出し、結合パラメータ決定部111に供給する。
【0122】
LSTM部82は、予め学習により得られた識別器である分離性能評価関数D
LSTM(y)を用いて、LSTM部82による振幅スペクトルの推定性能、すなわち目的とする音源の信号の分離性能の評価値D
LSTMを算出し、結合パラメータ決定部111に供給する。
【0123】
結合パラメータ決定部111は、DNN部81から供給された評価値D
DNNと、LSTM部82から供給された評価値D
LSTMとに基づいて結合パラメータλを決定し、結合部52に供給する。
【0124】
なお、以下、分離性能評価関数D
DNN(y)および分離性能評価関数D
LSTM(y)を特に区別する必要のない場合、単に分離性能評価関数D(y)とも称することとする。
【0125】
結合部52は、結合パラメータ決定部111から供給された結合パラメータλを用いて、DNN部81から供給された振幅スペクトル^s
j,DNN(k,m)と、LSTM部82から供給された振幅スペクトル^s
j,LSTM(k,m)とを結合し、得られた振幅スペクトル^s
j(k,m)を分離信号生成部53に供給する。
【0126】
図7に示す音源分離装置41では、予め各音源分離方式、つまり各振幅スペクトル推定アルゴリズムでの分離性能を評価する関数である分離性能評価関数D(y)がDNNなどの学習により求められ、DNN部81やLSTM部82に保持されている。そして、結合パラメータ決定部111では、より分離性能が高い振幅スペクトル推定アルゴリズムに、より大きな重みが与えられるように制御される。
【0127】
ここで、分離性能評価関数D(y)をDNNで構成する場合の例について説明する。
【0128】
この場合、例えば分離性能評価関数D(y)は、引数yとして実際の音源の音のソース信号s
j(k,m)が分離性能評価関数D(y)に代入された場合には1を出力し、引数yとして音源分離後の振幅スペクトル、つまりソース信号s
j(k,m)の推定値が分離性能評価関数D(y)に代入された場合には0を出力するような識別器として学習させることができる。
【0129】
このような分離性能評価関数D(y)のコスト関数Lは次式(7)のようになる。
【0131】
なお、式(7)において^s
jは、ソース信号s
j(k,m)の振幅スペクトルの推定値を示している。したがって、例えば分離性能評価関数D(y)が分離性能評価関数D
DNN(y)であれば、式(7)の^s
jは振幅スペクトル^s
j,DNN(k,m)となる。また、例えば分離性能評価関数D(y)が分離性能評価関数D
LSTM(y)であれば、式(7)の^s
jは振幅スペクトル^s
j,LSTM(k,m)となる。
【0132】
また、この例では分離性能評価関数D(y)はDNNであり、その最終出力層は次式(8)に示すシグモイド関数で表される。
【0134】
なお、式(8)におけるaは最終出力層への入力、つまり1つ前のレイヤの出力を示している。
【0135】
定義から分離性能評価関数D(y)は(0,1)、すなわち0から1までの間の値を取り、引数yがソース信号s
j(k,m)の振幅スペクトルである事後確率を表している。
【0136】
換言すれば、分離性能評価関数D(y)の出力である評価値D
DNNや評価値D
LSTMは、入力された振幅スペクトル^s
j,DNN(k,m)や振幅スペクトル^s
j,LSTM(k,m)がソース信号s
j(k,m)の振幅スペクトルである確からしさを示している。
【0137】
すなわち、評価値D
DNNは、振幅スペクトル^s
j,DNN(k,m)について得られた目的とする音源の信号である確からしさを示しており、評価値D
LSTMは、振幅スペクトル^s
j,LSTM(k,m)について得られた目的とする音源の信号である確からしさを示している。
【0138】
したがって、分離性能評価関数D(y)の出力である評価値が高いほど振幅スペクトルの推定精度が高く、推定誤差が少ないことになる。
【0139】
DNN部81およびLSTM部82には、以上のようにして予め学習された分離性能評価関数D
DNN(y)および分離性能評価関数D
LSTM(y)が保持されている。
【0140】
そして、結合パラメータ決定部111では、DNN部81で得られた評価値D
DNNと、LSTM部82で得られた評価値D
LSTMとから、例えば次式(9)を計算することで、結合パラメータλを算出する。
【0142】
なお、結合パラメータλを決定するにあたっては、式(9)の計算により結合パラメータλを算出してもよいし、閾値処理や評価値の大小関係を利用して結合パラメータλを決定するようにしてもよい。
【0143】
例えば評価値D
DNNと評価値D
LSTMのうち、より大きい方の値が予め定めた閾値以上であれば、その閾値以上の評価値に対応する振幅スペクトルの重みが1となるようにし、そうでなければ式(9)により結合パラメータλが決定されるようにしてもよい。
【0144】
したがって、この場合、例えば評価値D
DNNが評価値D
LSTMよりも大きく、かつ評価値D
DNNが閾値以上である場合には、結合パラメータλ=0とされ、振幅スペクトル^s
j,DNN(k,m)がそのまま振幅スペクトル^s
j(k,m)とされる。
【0145】
また、例えば予め定められた数のフレームの間、継続して一方の評価値が他方の評価値よりも大きい場合には、その一方の評価値に対応する振幅スペクトルの重みが1となるようにし、そうでなければ式(9)により結合パラメータλが決定されるようにしてもよい。
【0146】
以上のようにして評価値D
DNNおよび評価値D
LSTMに基づいて結合パラメータλを求めるようにすれば、振幅スペクトルの推定精度を向上させ、音源の分離性能をさらに向上させることができる。
【0147】
特に、この実施の形態では、DNNとLSTMのうちの一方の振幅スペクトル推定アルゴリズムに不具合が生じたときでも結合パラメータλを手動で定め直す必要がないため、頑健に音源分離を行うことができる。
【0148】
また、振幅スペクトル推定アルゴリズムごとに評価値を算出し、それらの評価値から結合パラメータλを算出する手法は、3以上の振幅スペクトル推定アルゴリズムを組み合わせる場合にも適用可能である。
【0149】
〈音源分離処理の説明〉
続いて、
図8のフローチャートを参照して、
図7に示した音源分離装置41による音源分離処理について説明する。なお、ステップS41の処理は
図6のステップS11の処理と同様であるので、その説明は省略する。
【0150】
ステップS42において、DNN部81は、ステップS41で得られた振幅スペクトル^s
j,DNN(k,m)を分離性能評価関数D
DNN(y)に代入することで、DNNでの振幅スペクトル推定の評価値D
DNNを算出し、結合パラメータ決定部111に供給する。
【0151】
評価値D
DNNが算出されると、その後、ステップS43の処理が行われるが、ステップS43の処理は
図6のステップS12の処理と同様であるので、その説明は省略する。
【0152】
ステップS44において、LSTM部82は、ステップS43で得られた振幅スペクトル^s
j,LSTM(k,m)を分離性能評価関数D
LSTM(y)に代入することで、LSTMでの振幅スペクトル推定の評価値D
LSTMを算出し、結合パラメータ決定部111に供給する。
【0153】
ステップS45において、結合パラメータ決定部111は、DNN部81から供給された評価値D
DNNと、LSTM部82から供給された評価値D
LSTMとに基づいて結合パラメータλを決定し、分離信号生成部53に供給する。
【0154】
例えば結合パラメータ決定部111は、上述した式(9)を計算することで、結合パラメータλを算出する。
【0155】
結合パラメータλが算出されると、その後、ステップS46およびステップS47の処理が行われて音源分離処理は終了するが、これらの処理は
図6のステップS13およびステップS14の処理と同様であるので、その説明は省略する。
【0156】
以上のようにして音源分離装置41は、DNNおよびLSTMという互いに性質の異なる音源分離方式により振幅スペクトルを推定するとともに、それらの推定結果の評価値に基づいて結合パラメータを決定する。また、音源分離装置41は、得られた結合パラメータに基づいて推定により得られた振幅スペクトルを結合し、目的とする音源のソース信号を算出する。これにより、より高い分離性能を得ることができる。
【0157】
〈第3の実施の形態〉
〈音源分離装置の構成例〉
さらに、以上においては、複数の振幅スペクトルを結合してからソース信号を求める例について説明したが、複数の振幅スペクトル推定アルゴリズムごとにソース信号を求め、それらのソース信号を結合して、最終的なソース信号としてもよい。
【0158】
そのような場合、音源分離装置は、例えば
図9に示すように構成される。なお、
図9において
図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0159】
図9に示す音源分離装置141は、振幅スペクトル推定部51−1乃至振幅スペクトル推定部51−N、分離信号生成部151−1乃至分離信号生成部151−N、および結合部152を有している。
【0160】
分離信号生成部151−1乃至分離信号生成部151−Nは、振幅スペクトル推定部51−1乃至振幅スペクトル推定部51−Nから供給された振幅スペクトルと、供給された混合音信号x(k,m)とに基づいて目的とする音源のソース信号の推定値を算出し、結合部152に供給する。
【0161】
例えば分離信号生成部151−1乃至分離信号生成部151−Nのそれぞれでは、上述した式(2)乃至式(4)の計算が行われてソース信号^s
j,MWF(k,m)が算出される。
【0162】
結合部152は、分離信号生成部151−1乃至分離信号生成部151−Nから供給されたソース信号を結合し、得られたソース信号を最終的なソース信号として出力する。
【0163】
例えば結合部152では、線形結合により、すなわち線形和を求めることによりソース信号を結合するようにしてもよいし、ANNによりソース信号を結合するなど、他の方法により結合を行うようにしてもよい。なお、線形結合が行われる場合には、上述した第2の実施の形態における場合と同様に、結合パラメータが動的に決定されてもよい。
【0164】
以上のように、振幅スペクトル推定アルゴリズムごとに、つまり音源分離方式ごとにソース信号を生成し、それらのソース信号を結合して最終的なソース信号とすることでも、上述した音源分離装置41と同様に高い分離性能を得ることができる。
【0165】
〈第4の実施の形態〉
〈音源分離装置の構成例〉
また、ソース信号を推定する方法は、MWFベースの音源分離手法に限らず、他のどのような手法であってもよい。
【0166】
例えば、混合音信号x(k,m)から直接、ソース信号を推定により求める音源分離方式を複数組み合わせるようにしてもよい。そのような場合、音源分離装置は、例えば
図10に示すように構成される。なお、
図10において、
図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0167】
図10に示す音源分離装置181は、ソーススペクトル推定部191−1乃至ソーススペクトル推定部191−N、および結合部152を有している。
【0168】
ソーススペクトル推定部191−1乃至ソーススペクトル推定部191−Nは、互いに異なる複素スペクトル推定アルゴリズムに従って、すなわち互いに異なる音源分離方式により、供給された混合音信号x(k,m)からソース信号s
j(k,m)の推定値を算出し、結合部152に供給する。換言すれば、混合音信号x(k,m)から各音源の音源分離信号としてソース信号s
j(k,m)の推定値を分離させる。ソーススペクトル推定部191−1乃至ソーススペクトル推定部191−Nのそれぞれから出力されるソース信号は、I個のチャネルごとの複素スペクトルからなるソース信号s
j(k,m)の推定値である。
【0169】
なお、以下、ソーススペクトル推定部191−1乃至ソーススペクトル推定部191−Nを特に区別する必要のない場合、単にソーススペクトル推定部191とも称する。
【0170】
各ソーススペクトル推定部191では、例えば混合音信号x(k,m)からソース信号s
j(k,m)を推定するように学習されたDNNやLSTMが保持されており、それらのDNNやLSTMが用いられてソース信号の推定が行われる。
【0171】
したがって、例えばDNNやLSTMによるソース信号の推定時には、学習により得られた非線形関数に混合音信号x(k,m)を代入することにより、ソース信号s
j(k,m)の推定値が求められる。
【0172】
なお、複数の各ソーススペクトル推定部191で行われるソース信号の推定手法、つまり音源分離方式の組み合わせは、DNNとLSTMに限らず、CNN、ResNet、NMFなどを組み合わせるようにしてもよい。また、結合部152で線形結合が行われる場合には、第2の実施の形態における場合と同様に、結合パラメータが動的に決定されてもよい。
【0173】
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
【0174】
図11は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0175】
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
【0176】
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
【0177】
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
【0178】
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
【0179】
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
【0180】
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
【0181】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0182】
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
【0183】
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
【0184】
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0185】
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
【0186】
また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
【0187】
さらに、本技術は、以下の構成とすることも可能である。
【0188】
(1)
第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する結合部を備える
音源分離装置。
(2)
前記結合部は、結合パラメータに基づいて前記第1の音源分離信号と前記第2の音源分離信号とを線型結合する
(1)に記載の音源分離装置。
(3)
前記第1の音源分離信号について得られた前記音源の信号である確からしさと、前記第2の音源分離信号について得られた前記音源の信号である確からしさとに基づいて、前記結合パラメータを決定する結合パラメータ決定部をさらに備える
(2)に記載の音源分離装置。
(4)
前記分離性能はSIR、SAR、SDR、またはISRである
(1)乃至(3)の何れか一項に記載の音源分離装置。
(5)
前記第1の音源分離方式の分離性能と前記第2の音源分離方式の分離性能との大小関係が時間によって変化する
(1)乃至(4)の何れか一項に記載の音源分離装置。
(6)
前記第1の音源分離方式と前記第2の音源分離方式は同じ音源分離方式である
(1)乃至(5)の何れか一項に記載の音源分離装置。
(7)
前記第1の音源分離方式はFNN、RNN、およびNMFの何れかであり、前記第2の音源分離方式はFNN、RNN、およびNMFの何れかである
(1)乃至(5)の何れか一項に記載の音源分離装置。
(8)
第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
ステップを含む音源分離方法。
(9)
第1の音源分離方式により混合音信号から分離された所定の音源の第1の音源分離信号と、前記第1の音源分離方式と所定時間単位で分離性能が異なる第2の音源分離方式により前記混合音信号から分離された前記音源の第2の音源分離信号とを結合し、前記結合により得られた音源分離信号を出力する
ステップを含む処理をコンピュータに実行させるプログラム。