【文献】
浅野 太,ICAによる音響信号の分離,電子情報通信学会誌,2004年 3月 1日,第87巻 第3号,第175-181ページ
【文献】
春原 政浩, 外3名,MMSE-STSA法を利用した補聴器のための雑音残響同時低減手法,日本音響学会 2016年春季研究発表会講演論文集, CD-ROM,2016年 2月24日,第667-668ページ
(58)【調査した分野】(Int.Cl.,DB名)
前記フィルタ係数除去部は、前記非因果成分のうち、時系列の中央近傍の所定サンプル数を除いた前記所定部分を除去することを特徴とする請求項4に記載の音源分離装置。
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記従来の音源分離技術は多様な用途があるが、例えば、一般的な補聴器に対して適用可能な音源分離技術が要望されている。補聴器の使用に際しては、外部の音がマイクロホンに到達してから、その音が耳介内のイヤホンから出力されるまでの時間遅れが問題となる。例えば、使用者が快適に補聴器を使用するには、前述の時間遅れの許容限界は10ms程度が目安であると考えられる。しかし、上記特許文献1の技術は、前述したように、オフラインの演算処理を行うので、観測信号を入力してから分離信号を出力するまでの遅延時間の低減は考慮されていない。また、上記特許文献2の技術は、オンラインでリアルタイムに演算処理を行うことが可能であるが、観測信号の主たる経路にフーリエ変換処理と逆フーリエ変換処理が介在し、それによりトータルで数百ms程度の遅延時間が発生するため、補聴器への適用は困難である。
【0005】
本発明はこれらの問題を解決するためになされたものであり、目的音源を含む複数の音源の混合音を分離する際、音源の分離性能を保ちつつ、オンラインで音源分離を行う際の遅延時間を低減し得る音源分離装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明の音源分離装置(1)は、複数の音源の混合音から各音源の音を分離する音源分離装置であって、前記複数の音源から伝搬する音を収集し、それぞれ電気信号に変換する複数のマイクロホン(10、11)と、前記複数のマイクロホンから時系列で出力される複数の観測信号(x1(n)、x2(n))を周波数領域の信号群(x1(ω)、x2(ω))に変換し、前記複数の音源を分離するための分離行列(W(ω))を前記周波数領域の信号群に基づいて更新し、更新された前記分離行列を時系列のフィルタ係数(ha(n))に変換して出力する分離行列処理部(20)と、前記時系列のフィルタ係数に含まれる
因果成分と非因果成分のうち、前記因果成分は残しつつ、前記非因果成分は所定サンプル数を除き部分的に除去することにより、前記フィルタ係数を変換するフィルタ係数変換部(30)と、前記フィルタ係数変換部により変換されたフィルタ係数(h(n))を、前記複数の観測信号の畳み込み演算を行うフィルタ群(41〜44)に供給し、前記分離行列に対応して前記複数の観測信号から分離された複数の分離信号(y1(n)、y2(n))を生成する分離部(40)とを備えて構成される。
【0007】
本発明の音源分離装置によれば、複数のマイクロホンを介して得られた複数の観測信号はサイドブランチ側に分岐し、周波数領域で分離行列の更新処理が行われるとともに、更新後の分離行列に対応する時間領域のフィルタ係数は、その非因果成分を部分的に除去した上で分離部のフィルタ群に供給される。よって、複数の観測信号の主たる経路に位置する分離部では、分離行列の更新を直接行うことなく、かつ短縮されたフィルタ係数が用いられるので、分離性能を保ちつつ、信号伝搬の遅延時間を大幅に低減しつつオンラインの動作を行うことが可能となる。
【0008】
本発明において、前記分離部により生成された前記複数の分離信号をそれぞれ音に変換する複数のレシーバを設けることができる。例えば、一般的な補聴器を想定すると、使用者の外耳道に音を出力するレシーバを具備する補聴器に対して本発明の適用が可能である。
【0009】
本発明の分離行列処理部は、前記複数の観測信号のそれぞれを前記周波数領域の信号群に変換する短時間フーリエ変換部と、前記周波数領域の信号群に基づいて前記分離行列を更新する分離行列更新部と、前記分離行列を時系列の前記フィルタ係数に変換する逆フーリエ変換部とを含めて構成することができる。よって、短時間フーリエ変換部から逆フーリエ変換部に至る周波数領域において分離行列の更新を行うので、遅延時間への影響が少ない演算処理を実現することができる。
【0010】
本発明のフィルタ係数変換部は、前記分離行列処理部により生成された前記フィルタ係数に対する循環シフトを行う循環シフト部と、前記循環シフトされた前記フィルタ係数の前記非因果成分のうち所定部分を除去するフィルタ係数除去部とを含めて構成することができる。この場合、前記フィルタ係数除去部は、前記非因果成分のうちの時系列の中央近傍の所定サンプル数を除いた前記所定部分を除去することが望ましい。よって、分離性能に比較的寄与が少ない非因果成分の所定部分を選択的に除去することでフィルタ係数を短縮化し、分離部における遅延時間の確実な低減が可能となる。
【0011】
本前記非因果成分の所定部分から除かれる所定サンプル数は、10msを超えない時間に相当するサンプル数に設定することが望ましい。一般的な補聴器における遅延時間の許容値上限は10ms程度であると言われているため、本発明を補聴器に適用する場合の性能を確保するためである。
【0012】
本発明の分離部は、前記分離行列の要素に対応する複数のFIRフィルタ部と、前記分離行列による分離演算の加算に対応して、前記複数のFIRフィルタ部の出力を加算する複数の加算部とを含めて構成することができる。よって、K×Mの分離行列に対応して、K×M個のFIRフィルタ部及びM個の加算部を設けることで時間領域の分離部を構成することが可能となる。なお、2×2の分離行列の場合には、分離部には4個のFIRフィルタ部及び2個の加算部を設ければよい(
図1参照)。
【発明の効果】
【0013】
以上説明したように本発明によれば、サイドブランチ側で周波数領域の分離演算を行うとともに、時間領域のフィルタ係数の非因果成分を部分的に除去した上で分離部のフィルタ群に供給するようにしたので、分離性能を劣化させることなく、信号伝搬の遅延時間を大幅に低減することが可能となる。よって、オンラインでリアルタイムに音源分離を行うことができ、補聴器等への適用に好適な音源分離装置を実現することできる。
【発明を実施するための形態】
【0015】
以下、本発明を適用した音源分離装置の実施形態について添付図面を参照しながら説明する。ただし、以下に述べる実施形態は本発明の技術思想を適用した形態の例であって、本発明が本実施形態の内容により限定されることはない。
【0016】
図1は、本発明を適用した一実施形態である音源分離装置1の概略の構成例を示すブロック図である。
図1の音源分離装置1は、2つのマイクロホン10、11と、2つのレシーバ12、13と、短時間フーリエ変換部21と、分離行列更新部22と、逆フーリエ変換部23と、循環シフト部31と、フィルタ係数除去部32と、4つのFIRフィルタ部41、42、43、44と、2つの加算部45、46とを含んで構成される。このうち、短時間フーリエ変換部21、分離行列更新部22、逆フーリエ変換部23は、分離行列処理部20を構成し、循環シフト部31及びフィルタ係数除去部32は、フィルタ係数変換部30を構成し、FIRフィルタ部41、42、43、44及び加算部45、46は、分離部40を構成する。
【0017】
以上の構成において、マイクロホン10、11は、複数の音源が存在する空間内の異なる2つの観測位置にそれぞれ配置され、入力される音を収集して電気信号に変換する。
図1においては、一方のマイクロホン10が時系列の観測信号x1(n)を出力し、他方のマイクロホン11が時系列の観測信号x2(n)を出力する。マイクロホン10、11から出力される観測信号x1(n)、x2(n)に対し、後述の分離部40を介して、各音源の音を推定した信号である分離信号y1(n)、y2(n)が分離される。そして、一方のレシーバ12は、分離信号y1(n)を音に変換して出力するとともに、他方のレシーバ13は、分離信号y2(n)を音に変換して出力する。なお、レシーバ12、13を1つのレシーバと切替スイッチ(図示せず)で構成し、分離信号y1(n)、y2(n)をスイッチなどで切り替えてレシーバに出力し、このレシーバが、入力されるそれぞれの分離信号y1(n)、y2(n)を音に変換して出力してもよい。さらに、分離信号y1(n)、y2(n)を直接他の機器に取り込んで処理する場合には、
図1の1対のレシーバ12、13を省略した構成を採用することもできる。
【0018】
ここで、
図1に示すように、マイクロホン10、11からレシーバ12、13に至る主な経路には分離部40のみが配置されるとともに、それと並列する経路(サイドブランチ)に分離行列処理部20及びフィルタ係数変換部30が配置されている。このような構成により、観測信号x1(n)、x2(n)に基づき分離信号y1(n)、y2(n)が得られるまでには、前述のサイドブランチにおける処理による時間遅れの影響を受けないため、遅延時間の短縮が可能である。なお、本実施形態の音源分離装置1の遅延時間について詳しくは後述する。
【0019】
図1に示すように、マイクロホン10、11から出力される観測信号x1(n)、x2(n)はサイドブランチ側に分岐し、短時間フーリエ変換部21に入力される。短時間フーリエ変換部21は、時系列の観測信号x1(n)、x2(n)をずらしながら所定の窓関数を乗じることで短時間フーリエ変換処理を施し、周波数領域の観測信号x1(ω)、x2(ω)を生成する。短時間フーリエ変換部21では、観測信号x1(n)、x2(n)のうち連続する所定のサンプル数が一括して変換処理の対象となる。短時間フーリエ変換部21により生成された観測信号x1(ω)、x2(ω)は、分離行列更新部22に入力される。
【0020】
分離行列更新部22は、観測信号x1(ω)、x2(ω)に基づいて分離信号y1(ω)、y2(ω)を生成するための分離行列W(ω)を更新する。
図1の例では、分離行列W(ω)が2×2の行列で表され、周波数領域で観測信号ベクトルx(ω)及び分離信号ベクトルy(ω)との間で、次の(1)式の関係が成り立つ。
【数1】
ただし、Tは行列の転置を表す。
【0021】
分離行列更新部22においては多様な分離アルゴリズムを適用可能であるが、例えば、周知の独立ベクトル分析を適用することができる。この独立ベクトル分析は、周波数領域における分離信号ベクトルが互いに統計的に独立になるように分離行列を更新する手法である。独立ベクトル分析によれば、原理上、各々の周波数帯域の分離信号を各音源に対応付けて並べ替えるというパーミュテーション問題を回避できるメリットがある。
【0022】
ここで、K個の音源とM個の観測点が存在する状況で独立ベクトル分析を適用することを想定すると、観測信号ベクトルx(ω)の要素数がM、かつ分離信号ベクトルy(ω)の要素数がKで、K×Mの分離行列W(ω)が更新されることになる。この場合、
図1は、K=M=2の場合に対応する構成例である。独立ベクトル分析による分離アルゴリズムは、次の(2)式に示す目的関数J(W)を最小化する処理に帰結する。
【数2】
ただし、
W:分離行列W(ω)の全周波数が集合した分離行列
E[・]:時刻tに関する期待値
G[・]:G(y(ω))=−logq(y(ω))(音源の確率密度関数q[・]を用いた関数)
y
k:全周波数の分離信号ベクトル
N
ω:周波数の上限
【0023】
(2)式の目的関数J(W)の最小化は、所定のステップサイズηを設定し、演算により得られた修正量ΔWを用いて、次の(3)式によりWを逐次更新することにより行うことができる。
W ← W−ηΔW (3)
なお、(2)式の目的関数J(W)を最小化するために演算アルゴリズムは多様であるが、例えば、収束速度の向上の観点から、補助関数法を用いることができる。補助関数法は、前述の目的関数J(W)に対して設定された補助関数を最小化することで、目的関数J(W)を小さくする分離行列Wを求める手法であり、収束が速い点が特徴である。
【0024】
次に
図1に戻って、分離行列更新部22により更新された分離行列W(ω)は、逆フーリエ変換部23に入力される。逆フーリエ変換部23は、分離行列W(ω)の各要素に対しそれぞれ逆フーリエ変換処理を施し、時間領域のフィルタ係数ha(n)を生成する。具体的には、2×2の分離行列W(ω)の要素であるW11(ω)、W12(ω)、W21(ω)、W22(ω)に基づき、時間領域の4つのフィルタ係数ha11(n)、ha12(n)、ha21(n)、ha22(n)が生成される。以下の説明では、単にフィルタ係数ha(n)と表記したときは、前述の4つのフィルタ係数ha11(n)、ha12(n)、ha21(n)、ha22(n)の各々を代表したものとする。
【0025】
次に、逆フーリエ変換部23で生成されたフィルタ係数ha(n)は、循環シフト部31に入力される。循環シフト部31は、フィルタ係数ha(n)に対して、いわゆる循環シフトを行い、時間領域でシフトされたフィルタ係数hb(n)を出力する。具体的には、Nサンプル(n=1〜N)相当の時系列のフィルタ係数ha(1)〜ha(N)に対し、次の(4)式で示す変換を順次行う。
【数3】
【0026】
ここで、
図2には、逆フーリエ変換部23から出力されるフィルタ係数ha(n)の波形例を示すとともに、
図3には、循環シフト部31から出力されるフィルタ係数hb(n)の波形例を示している。
図2及び
図3では、横軸の全体のサンプル数をN=4096としており、縦軸のレベルが−1〜1で規格化されている。なお、
図2ではn=0が表記されているが、この部分は実際にはデータが存在せず、以降の図についても同様である。まず、
図2のフィルタ係数ha(n)は、インパルス信号の波形に類似しており、n=1及びn=Nの付近に多くの成分が集中している。そして、循環シフト部31によりフィルタ係数ha(n)が循環シフトされると、
図2の右側の半分の部分が
図2のn=1の左側の部分に移る。その結果、
図3に示すように、変換後のフィルタ係数hb(n)の場合、n=1〜Nの範囲内の略中央に成分が集中する対称的な波形になる。この循環シフトは、後述の分離部40で時間領域の畳み込み演算を行うのに先立って実行すべき処理である。
【0027】
次に、循環シフト部31による循環シフト後のフィルタ係数hb(n)は、フィルタ係数除去部32に入力される。フィルタ係数除去部32は、循環シフト後のフィルタ係数hb(n)に対し、非因果成分のうち所定部分を除去して、サンプル数が減少したフィルタ係数h(n)を生成する。ここで、前述の
図3には位置Pを示しており、
図3の位置Pから左側の部分がフィルタ係数除去部32により除去される。
図4は、フィルタ係数除去部32によって除去された後のフィルタ係数h(n)の波形例を示しており、縦軸及び横軸は
図2及び
図3と同様の表記に従っている。
【0028】
図3に戻って、フィルタ係数hb(n)の中央(n=2048)のサンプルを時刻t=0のサンプルとみなした場合、時間領域の後半の範囲(中央から右側の範囲)は、フィルタ演算で時系列上の過去のサンプルが用いられることになるので、因果性を有する範囲であるということができる。一方、時間領域の前半の範囲(中央から左側の範囲)は、フィルタ演算で時系列上の未来のサンプルが用いられることになるので、非因果性を有する範囲であるということができる。本実施形態においては、フィルタ係数除去部32により、入力されたフィルタ係数hb(n)のうち非因果成分の所定サンプル数を除いた部分のサンプルを除去することで、演算処理に伴う遅延時間を低減できることが確認された。
【0029】
なお、フィルタ係数hb(n)のうち全ての非因果成分の全てを除去することは、音源分離の性能劣化を招くことになるので、時系列の中央近傍の所定サンプル数の部分のみを残すものである。例えば、
図4の例では、
図3の位置Pの近傍の160サンプル相当の部分を残し、それよりも左側の範囲を除去するものである。この場合、全体のサンプル数がN=4096であると仮定すると、除去対象のサンプル数が4096/2−160=1888となり、その結果として、フィルタ係数h(n)のサンプル数が4096/2+160=2208となる。
【0030】
ここで、本実施形態の音源分離装置1を補聴器に適用する場合、前述の非因果成分のうちの残すべき所定サンプル数は、10msを超えない時間に相当するサンプル数に設定することが望ましい。前述の所定サンプル数が時間換算で10msを超える場合、マイクロホン10、11からレシーバ12、13に至る遅延時間も10msを超えることになる。一般的な補聴器における遅延時間の許容値は、10msを超えないことが知られている。すなわち、前述の所定サンプル数が10msを超える時間に設定されると、本実施形態の音源分離装置1を適用した補聴器の使用者に違和感を与える要因になる。一方、前述の非因果成分のうちの残すべき所定サンプル数の下限値は分離性能に関連するが、補聴器の使用状況や分離性能などの条件に応じて適切に設定される。
【0031】
次に、フィルタ係数除去部32で得られた変換後のフィルタ係数h(n)は、分離部40に含まれるFIRフィルタ部41〜44に供給される。具体的には、フィルタ係数h11(n)がFIRフィルタ部41に供給され、フィルタ係数h12(n)がFIRフィルタ部42に供給され、フィルタ係数h21(n)がFIRフィルタ部43に供給され、フィルタ係数h22(n)がFIRフィルタ部44に供給される。このうち、2つのFIRフィルタ部41、43には時系列の観測信号x1(n)が入力され、2つのFIRフィルタ部42、44には時系列の観測信号x2(n)が入力される。FIRフィルタ部41〜44の役割は、周波数領域における前述の(1)式に含まれる各々の積に対応して、時間領域での畳み込み演算を行うことである。
【0032】
続いて、FIRフィルタ部41〜44の後段には2つの加算部45、46が配置されている。一方の加算部45は、2つのFIRフィルタ部41、42の各出力を加算し、加算結果を分離信号y1(n)として出力する。他方の加算部46は、2つのFIRフィルタ部43、44の各出力を加算し、加算結果を分離信号y2(n)として出力する。加算部45、46の役割は、周波数領域における前述の(1)式に含まれる加算を時間領域で行うことである。FIRフィルタ部41〜44及び加算部45、46により得られた分離信号y1(n)、y2(n)のうち、一方の分離信号y1(n)がレシーバ12を介して音に変換され、他方の分離信号y2(n)がレシーバ13を介して音に変換される。
【0033】
分離部40における分離演算は、観測信号x1(n)、x2(n)を入力とし、分離信号y1(n)、y2(n)を出力とし、タップ数をTとしたとき、次の(5)式及び(6)式で表すことができる。
【数4】
【0034】
なお、
図1の音源分離装置1は、2つの観測信号x1(n)、x2(n)と、2つの分離信号y1(n)、y2(n)と、2×2の分離行列W(ω)に対応する構成例を前提としているが、より一般的に、M個の観測信号x(n)と、K個の分離信号y(n)と、K×Mの分離行列Wとに基づく音源分離を行う音源分離装置に対しても本発明の適用が可能である。この場合には、
図1の構成例において、M個のマイクロホン及びK個のレシーバを設けるとともに、分離部40にはK×M個のFIRフィルタ部とK個の加算部を設ける必要がある。
【0035】
次に、
図5〜
図7を参照して、本実施形態の音源分離装置1の効果について説明する。
図5は、本発明との対比のため、従来の構成を適用した音源分離装置によるシミュレーションの検証結果を示す比較例であり、
図6は、本実施形態の音源分離装置1による同様のシミュレーションの検証結果を示す実施例である。ここで、
図7は、
図5の比較例において用いられる従来の構成の概要を示している。すなわち、
図1の構成と同様の2つのマイクロホン10、11及び2つのレシーバ12、13が設けられ、その間の主たる経路には順に、短時間フーリエ変換部100と、分離行列演算部101と、逆短時間フーリエ変換部102が配置されている。
【0036】
図5及び
図6のシミュレーションは、マイクロホン10、11に対して男声及び女声の混合音を入力し、マイクロホン10の観測信号x1(n)及びマイクロホン11の観測信号x2(n)に基づく分離演算の結果である2つの分離信号y1(n)、y2(n)を生成することにより実施した。
図5及び
図6には、0〜0.7sの時間範囲内で観測信号x1(n)及び分離信号y1(n)、y2(n)のそれぞれの波形を示している。なお、
図5及び
図6には、混合前の原信号の波形は示されないが、分離信号y1(n)、y2(n)の波形自体は、原信号に概ね忠実であり、主に遅延時間のみが問題となる。
【0037】
まず、従来の
図5の比較例においては、観測信号x1(n)に対する分離信号y1(n)、y2(n)の遅延時間は、0.3s(300ms)程度であった。これに対し、本実施形態の
図6によれば、観測信号x1(n)に対する分離信号y1(n)、y2(n)の遅延時間は極めて小さくなり、概ね0.01s(10ms)程度であることが確認された。このような遅延時間の大幅な低減は、分離行列Wの更新をサイドブランチ側で行っているため主な経路の遅延が解消されることに加え、フィルタ係数変換部30によりフィルタ係数h(n)の音源分離への寄与が比較的少ない非因果成分を除去したためである。従って、本実施形態の音源分離装置1の構成を採用することにより、オンラインの演算処理を行いつつ入出力間の時間遅れに伴う課題を解決でき、例えば補聴器への適用に適した音源分離装置1を実現することができる。
【0038】
次に
図8は、本実施形態の音源分離装置1の変形例を示している。
図8の変形例は、いわゆるプロジェクションバックの構成を想定したものであり、2つのマイクロホン10、11に収集された混合音を単に分離するだけではなく、ステレオ装置のように音源の定位情報を保持したまま分離する機能を有する。
図8の変形例において、
図1と異なる点は、分離行列処理部20に、分離行列W(ω)に対してプロジェクションバックを適用するための周知の演算を施すプロジェクションバック演算部50を追加した点と、分離部40及び1対の分離信号y1(n)、y2(n)の経路のそれぞれを2系統にした点である。
【0039】
すなわち、2つの分離部40p、40qはいずれも2つのマイクロホンからの2つの観測信号x1(n)、x2(n)を入力し、フィルタ係数変換部30からそれぞれに対応するフィルタ係数h(n)が供給される。そして、一方の分離部40pは2つの分離信号y1p(n)、y2p(n)を出力し、他方の分離部40qは2つの分離信号y1q(n)、y2q(n)を出力する。このうち、1対の分離信号y1p(n)、y1q(n)により一方の音源の定位が得られ、1対の分離信号y2p(n)、y2q(n)により他方の音源の定位が得られる。
【0040】
以上、本実施形態により本発明を適用した音源分離装置1について説明したが、本発明は、多様な機器に適用することができる。すなわち、本発明の音源分離装置1を一般的な補聴器に適用できることは上述した通りであるが、それ以外のコンピュータや通信機器の一部として組み込んでもよい。また、本実施形態の
図1の構成は同様の機能を有する限り適宜に変更でき、細部の処理内容の変更に加えて、各部材間の相互接続にネットワークや無線通信が介在してもよい。それ以外の点についても、本実施形態の内容に限定されず、多様な構成及び処理を採用可能である。