特許第6644356号(P6644356)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧 ▶ 学校法人早稲田大学の特許一覧

<>
  • 特許6644356-音源分離システム、方法及びプログラム 図000012
  • 特許6644356-音源分離システム、方法及びプログラム 図000013
  • 特許6644356-音源分離システム、方法及びプログラム 図000014
  • 特許6644356-音源分離システム、方法及びプログラム 図000015
  • 特許6644356-音源分離システム、方法及びプログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6644356
(24)【登録日】2020年1月10日
(45)【発行日】2020年2月12日
(54)【発明の名称】音源分離システム、方法及びプログラム
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20200130BHJP
   G10L 21/028 20130101ALI20200130BHJP
   G10L 21/0308 20130101ALI20200130BHJP
【FI】
   G10L21/0272 100B
   G10L21/028 Z
   G10L21/0308 Z
【請求項の数】9
【全頁数】16
(21)【出願番号】特願2015-154997(P2015-154997)
(22)【出願日】2015年8月5日
(65)【公開番号】特開2017-32905(P2017-32905A)
(43)【公開日】2017年2月9日
【審査請求日】2018年7月12日
【新規性喪失の例外の表示】特許法第30条第2項適用 一般社団法人情報処理学会、第105回音声言語情報処理研究会 オンライン版予稿集、平成27年2月20日 一般社団法人情報処理学会 第105回音声言語情報処理研究会(伊勢志摩合歓の郷ホテル&リゾート、三重県志摩市浜島町迫子2692−3)、平成27年2月27日
(73)【特許権者】
【識別番号】000000295
【氏名又は名称】沖電気工業株式会社
(73)【特許権者】
【識別番号】899000068
【氏名又は名称】学校法人早稲田大学
(74)【代理人】
【識別番号】100180275
【弁理士】
【氏名又は名称】吉田 倫太郎
(74)【代理人】
【識別番号】100161861
【弁理士】
【氏名又は名称】若林 裕介
(74)【代理人】
【識別番号】100090620
【弁理士】
【氏名又は名称】工藤 宣幸
(72)【発明者】
【氏名】矢頭 隆
(72)【発明者】
【氏名】片桐 一浩
(72)【発明者】
【氏名】藤枝 大
(72)【発明者】
【氏名】小林 哲則
(72)【発明者】
【氏名】大町 基
(72)【発明者】
【氏名】小川 哲司
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2007−298564(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00−21/18
(57)【特許請求の範囲】
【請求項1】
少なくとも2本のマイクロホンにより捕捉されて得られた、1又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、上記目的音を含む分離信号を出力する線形分離フィルタ部と、
無歪目的音信号の特徴学習・記憶し、上記分離信号から上記無歪目的音信号を推定して参照信号とする参照信号推定部と、
上記分離信号を、推定された上記参照信号に近づけるように、上記線形分離フィルタ係数を更新する線形分離フィルタ更新部と
を備えることを特徴とする音源分離システム。
【請求項2】
上記参照信号推定部が、連想記憶により上記無歪目的音信号を推定して上記参照信号とするものであって、
上記線形分離フィルタ更新部による上記線形分離フィルタ係数の更新と、上記参照信号推定部による上記参照信号の推定とを繰り返すことを特徴とする請求項1に記載の音源分離システム。
【請求項3】
上記線形分離フィルタ更新部は、更新前の上記線形分離フィルタ係数に乗じることで、更新後の上記線形分離フィルタ係数を得る補正値を更新する
ことを特徴とする請求項1又は2に記載の音源分離システム。
【請求項4】
上記線形分離フィルタ更新部は、上記入力音信号に対して上記線形分離フィルタ係数と前回の更新で得られた上記補正値とを適用することで得た上記分離信号と、当該分離信号から推定した上記参照信号との対数パワースペクトルの二乗誤差を最小とするように上記補正値を更新する
ことを特徴とする請求項3に記載の音源分離システム。
【請求項5】
上記線形分離フィルタ更新部は、上記補正値を初めて更新する場合において、当該補正値の初期値を単位行列とすることを特徴とする請求項3又は4に記載の音源分離システム。
【請求項6】
上記線形分離フィルタ更新部は、上記補正値を初めて更新する場合において、上記分離信号の初期値を、上記入力音信号に対して上記線形分離フィルタ係数を適用して得ることを特徴とする請求項3〜5のいずれかに記載の音源分離システム。
【請求項7】
上記線形分離フィルタ部が、勾配法によって上記補正値を更新することを特徴とする請求項3〜6のいずれかに記載の音源分離システム。
【請求項8】
コンピュータを、
少なくとも2本のマイクロホンにより捕捉されて得られた、1又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、上記目的音を含む分離信号を出力する線形分離フィルタ部と、
無歪目的音信号の特徴学習・記憶し、上記分離信号から上記無歪目的音信号を参照信号として推定する参照信号推定部と、
上記分離信号を、推定された上記参照信号に近づけるように、上記線形分離フィルタ係数を更新する線形分離フィルタ更新部と
して機能させることを特徴とする音源分離プログラム。
【請求項9】
線形分離フィルタ部が、少なくとも2本のマイクロホンにより捕捉されて得られた、1又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、上記目的音を含む分離信号を出力し、
参照信号推定部は、無歪目的音信号の特徴学習・記憶し、当該参照信号推定部が、上記分離信号から上記無歪目的音信号を参照信号として推定し、
線形分離フィルタ更新部が、上記分離信号を、推定された上記参照信号に近づけるように、上記線形分離フィルタ係数を更新する
ことを特徴とする音源分離方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源分離システム、方法及びプログラムに関し、連想記憶と線形分離フィルタとを組み合わせることにより、歪の少ない高精度な音源分離方式に適用し得るものである。
【背景技術】
【0002】
マルチチャネルのブラインド音源分離方式は、時間周波数マスクに基づく手法と、線形分離フィルタに基づく手法とに大別できる。時間周波数マスクに基づく手法は、スペクトルの時間周波数パターンのうち、支配的に存在する音源の時間周波数成分のみを通過させる非線形なマスクを用いて音源を再現する。分離精度は高いが、非線形処理に起因する歪が発生するという欠点がある。一方、線形分離フィルタに基づく手法は、音源の混合過程の影響を取り除く線形のフィルタを用いて目的音源を再現する。このアプローチでは非線形処理に起因する歪が原理的に発生しないため、時間周波数マスクに基づく手法よりも高音質な分離信号が得られるという利点がある。
【0003】
線形分離フィルタの推定には、音源が独立かつ非ガウスな分布から生成されるという仮定が広く用いられている。この仮定を用いた代表的な手法として、独立成分分析(Independent Component Analysis:ICA)や独立ベクトル分析(Independent Vector Analysis:IVA)がある。ICAやIVAは、音源が独立でない場合や、音源の事前分布と実際のデータの分布が異なるときに分離性能が劣化する。この問題に対し、音源の性質を表現するのに適した事前分布を用いることで性能を改善する試みが多くなされている(非特許文献1〜3参照)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】E.Moulines et.al.,“Maximum likelihood for blind separation and deconvolution of noisy signals using mixture models”,Proc.of ICASSP1997,pp.3617−3620,Apr.1997.
【非特許文献2】I.Lee et al.,“Adaptive independent vector analysis for the separation of convoluted mixtures using EM algorithm”,Proc.of ICASSP2008,pp.145−148.,Mar.2008.
【非特許文献3】Y.Liang et al.,“Independent vector analysis with a generalized multivariate Gaussian source prior for frequency domain blind souce separation”,Signal proces.,vol.105,pp.175−184,May 2014.
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、ICA、IVAは、音源の独立性や非ガウス性を仮定するため、音源の独立性や非ガウス性が成立しないとき音源分離性能が劣化するという問題が生じ得る。
【0006】
そこで、本発明は、連想記憶と線形分離フィルタを組み合わせることにより、歪が少ない高精度なブラインド音源分離方式を提案しようとするものである。
【課題を解決するための手段】
【0007】
本発明は、上記課題に鑑み、以下の構成要素を備える。
【0008】
第1の本発明の音源分離システムは、少なくとも2本のマイクロホンにより捕捉されて得られた、1又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、目的音を含む分離信号を出力する線形分離フィルタ部と、無歪目的音信号の特徴学習・記憶し、分離信号から無歪目的音信号を参照信号として推定する参照信号推定部と、分離信号を、推定された無歪目的音信号に近づけるように、線形分離フィルタ係数を更新する線形分離フィルタ更新部とを備えることを特徴とする。
【0009】
第2の本発明の音源分離プログラムは、コンピュータを、少なくとも2本のマイクロホンにより捕捉されて得られた、1又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、目的音を含む分離信号を出力する線形分離フィルタ部と、無歪目的音信号の特徴学習・記憶し、分離信号から無歪目的音信号を参照信号として推定する参照信号推定部と、分離信号を、推定された無歪目的音信号に近づけるように、線形分離フィルタ係数を更新する線形分離フィルタ更新部として機能させることを特徴とする。
【0010】
第3の本発明の音源分離方法は、線形分離フィルタ部が、少なくとも2本のマイクロホンにより捕捉されて得られた、1又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、目的音を含む分離信号を出力し、参照信号推定部は、無歪目的音信号の特徴学習・記憶し、当該参照信号推定部が、分離信号から無歪目的音信号を参照信号として推定し、線形分離フィルタ更新部が、分離信号を、推定された無歪目的音信号に近づけるように、線形分離フィルタ係数を更新することを特徴とする。
【発明の効果】
【0011】
本発明によれば、線形分離フィルタに基づく音源分離において、音源に関する仮定を必要とせず、高精度な音源分離を実現できる。また、音源の独立性・非ガウス性の仮定を置くこと無く分離が可能であり、かつ線形分離の枠組みのため音源分離処理による歪も少なくすることができる。
【図面の簡単な説明】
【0012】
図1】第1の実施形態に係る音源分離システムの構成を示す構成図である。
図2】第1の実施形態に係る参照信号推定部に用いる連想記憶モデルの構造を示す図である。
図3】第2の実施形態に係る補正値及び分離信号のスペクトルの更新処理を示すフローチャートである。
図4】第2の実施形態に係る音源分離システムを用いたシミュレーションの環境を説明する説明図である。
図5】第2の実施形態の音源分離システムを用いたシミュレーションによる評価データを示す図である。
【発明を実施するための形態】
【0013】
(A)本発明の基本的概念
本発明は、線形分離フィルタに基づく音源分離方式において、音源に関する仮定を必要とせずに、音源分離を実現可能な線形分離フィルタ係数を推定する。
【0014】
本発明の音源分離方式は、線形分離フィルタ係数を適用することにより分離された分離信号のスペクトルから、参照信号推定部が連想記憶モデルを用いて無歪目的音信号のスペクトルを参照信号のスペクトルとして推定する処理と、参照信号推定部により推定された参照信号のスペクトルと分離信号のスペクトルとの誤差が最小となるように線形分離フィルタ更新部が線形分離フィルタ係数を更新する処理とを繰り返すことにより、線形分離フィルタ係数を推定する。これにより、本発明の音源分離方式は、音源の独立性や非ガウス性の仮定を置くことなく、音源分離が可能であり、かつ、線形分離の枠組みのために音源分離処理による歪も少ないことが期待できる。
【0015】
連想記憶モデルは、Denoising Autoencoder(以下、DAEとも呼ぶ。)により実現した場合を例示する。DAEは、歪を含む入力パターンから歪を取り除いたパターンの推定が可能であり、残響抑圧や雑音抑圧において高い性能が得られることが報告されている。また、線形分離フィルタによって得られる分離信号には、妨害音の消し残りや過剰な減算処理に起因する歪が含まれる。そこで、線形分離フィルタの後段に、DAEに基づく連想記憶モデルを用いた参照信号推定部によって推定された無歪目的音信号のスペクトルを参照信号のスペクトルとして線形分離フィルタ係数を更新することで、このような歪が低減され、目的音に近いスペクトルが得られることが期待できる。
【0016】
DAEにより推定された無歪目的音信号のスペクトルは、平滑化の影響を受ける。そこで、無歪目的音信号のスペクトルをそのまま分離信号のスペクトルとして用いるのではなく、線形分離フィルタ係数を推定するために用いるというアプローチを提案する。
【0017】
(B)第1の実施形態
以下では、本発明の音源分離システム、方法及びプログラムの実施形態を、図面を参照しながら詳細に説明する。
【0018】
(B−1)第1の実施形態の構成
図1は、第1の実施形態に係る音源分離システム10の構成を示す構成図である。図1において、音源分離システム10は、複数のマイクロホンM1及びM2、周波数分析部4、線形分離フィルタ3、参照信号推定部1−1及び1−2、線形分離フィルタ更新部2−1及び2−2を有する。
【0019】
音源分離システム10は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また一部の構成要素をCPU、ROM、RAM等のプログラムの実行構成を適用してその機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、音源分離システム10の機能的な詳細構成は、図1で表す構成を有する。
【0020】
マイクロホンM1及びM2は、音源分離システム10が意図している目的音源S1、S2からの目的音に加えて、他の音源からの妨害音や音源がはっきりしない雑音など(以下、これらをまとめて妨害音と呼ぶ。)も捕捉する。マイクロホンM1及びM2が音(音声、音響等を含む。)を捕捉して得た信号はディジタル信号に変換される。
【0021】
周波数分析部4は、マイクロホンM1及びM2からの時間軸上の信号であるディジタル信号を周波数分析するものである。周波数分析部4は、例えば高速フーリエ変換(FFT)、DWT(離散ウェーブレット変換)等の周波数分析方法を適用することができる。
【0022】
線形分離フィルタ3は、マイクロホンM1及びM2の音信号のFFTによって得られた観測信号のスペクトルから、目的音のスペクトルを分離するものである。音源分離による歪を少なくするために、第1の実施形態では音源分離フィルタとして線形分離フィルタ3を用いる。線形分離フィルタに基づくブラインド音源分離の目的は、混合過程が未知の条件下で、混合過程の影響を取り除く逆フィルタを推定することである。
【0023】
ここでは、N個の観測信号からN個の音源を推定する問題を想定し、線形分離フィルタ係数の推定方法を説明する。ただし、N≦Nとする。
【0024】
n番目の音源信号をs(t)、m番目のマイクロホンにおける観測信号をz(t)、n番目の音源からm番目のマイクロホンまでのインパルス応答をhmn(t)とすると、時間領域における混合過程は式(1)のように書ける。
【数1】
【0025】
ここで、Tはインパルス応答長を表す。時間領域において逆フィルタを求めることは、計算量及び学習の収束性の観点において困難である。そこで、観測信号z(t)をインパルス応答長Tよりも十分に長い分析長で短時間フーリエ変換し、周波数領域で逆フィルタを求める。周波数領域では、混合過程は音源のスペクトルと伝達関数の積として式(2)のように書ける。
【数2】
【0026】
ω、τは離散周波数及びフレームを表す。また、Z(ω,τ)、S(ω、τ)はそれぞれ観測信号のスペクトルと音源のスペクトルを、Hmn(ω)は伝達関数を表す。ここで、Z(ω、τ)=[Z(ω,τ),・・・,ZNm(ω、τ)]ΤΤは転置を表す。)、S(ω、τ)=[S(ω,τ),・・・,SNs(ω、τ)]Τとすると、式(2)は以下のように書き直すことができる。
【数3】
【0027】
観測信号のスペクトルZ(ω、τ)に対して線形分離フィルタ係数W(ω)を適用すると、分離信号のスペクトルY(ω,τ)=[Y(ω,τ)・・・,YNs(ω、τ)]Τは以下のようになる。このとき、Y(ω,τ)はn番目の目的音のスペクトルの推定値を表す。
【数4】
【0028】
式(5)において、W(ω)=H−1(ω)であるならば、線形分離フィルタ係数を適用して得られる分離信号のスペクトルと目的音のスペクトルは一致する。すなわち、H(ω)が既知であるならば、逆フィルタを求めることは容易である。しかし、H(ω)はマイクロホンと音源の位置関係や収音環境に依存する。そのため、H(ω)を事前情報として持つことは実用上困難である。
【0029】
W(ω)の推定には、音源がそれぞれ独立かつ非ガウスな分布から生成されるという仮定が広く用いられる。W(ω)=H−1(ω)であるならば、分離された信号のスペクトルもまた音源のスペクトルと同じ分布から生成されたものと考えることができる。すなわち、分離された信号のスペクトルがお互いに独立となるようなW(ω)を求めればよい。
【0030】
ICAは、離散周波数ωごとに、分離信号のスペクトル成分Y(ω,τ)が互いに独立となるようなW(ω)を求める。独立な信号を推定することが可能であるが、分離信号の順番の不定性(パーミュテーション問題)に起因する周波数間の不整合を解消する必要がある。IVAは、分離信号のスペクトル成分のベクトル[Y(1,τ),・・・,Y(Nω,τ)]Τが互いに独立となるようなW(ω)を求める。音源の事前分布として周波数間の関係を考慮した多次元分布を仮定するため、周波数間の整合性は保証される。そのため、パーミュテーション問題が発生しないという利点がある。
【0031】
しかし、音源が独立でない場合や音源の事前分布が実際の分布と異なる場合には分離性能が低下する。また、独立性に基づき推定されたスペクトルは互いに独立であるという保証はあるものの、必ずしも音源のスペクトルと一致するとは限らない。
【0032】
そこで、第1の実施形態の音源分離システム10は、線形分離フィルタ3から出力される分離信号のスペクトルY(ω,τ)から対応する目的音のスペクトルS(ω,τ)を推定し、分離信号のスペクトルY(ω,τ)との誤差最小化問題を解くことにより、線形分離フィルタ係数W(ω)を推定するものである。
【0033】
参照信号推定部1−1及び1−2は、線形分離フィルタ係数W(ω)により得られた分離信号のスペクトルY(ω,τ)から、事前に学習した連想記憶モデルを用いて、目的音のスペクトルS(ω,τ)に相当する無歪目的音信号のスペクトルY^(ω,τ)(以降では、参照信号のスペクトルとも呼ぶ。)を推定する。
【0034】
線形分離フィルタ更新部2−1及び2−2は、参照信号推定部1−1及び1−2で推定された参照信号のスペクトルY^(ω,τ)と、分離信号のスペクトルY(ω、τ)との誤差が小さくなるように線形分離フィルタ係数W(ω)を補正する。線形分離フィルタ更新部2−1及び2−2は、誤差がより小さな値に収束するまで参照信号のスペクトルの推定と線形分離フィルタ係数の更新を繰り返すことにより、分離信号のスペクトルY(ω,τ)を求める。なお、分離信号の時間波形は、Y(ω,τ)を逆フーリエ変換した上で重畳加算法により得る。
【0035】
(B−2)第1の実施形態の動作
次に、第1の実施形態に係る音源分離システム10における音源分離処理の動作を詳細に説明する。
【0036】
マイクロホンM1及びM2により捕捉されて得られた受音信号は、それぞれディジタル信号に変換された後、それぞれの観測信号z(t)が周波数分析部4に与えられる。
【0037】
周波数分析部4において、マイクロホンM1及びM2のそれぞれの観測信号z(t)が、インパルス応答長Tよりも十分に長い分析長で短時間フーリエ変換されて、観測信号のスペクトルZ(ω,τ)が線形分離フィルタ3に与えられる。
【0038】
線形分離フィルタ3において、観測信号のスペクトルZ(ω,τ)に対して線形分離フィルタ係数W(ω)を適用して分離信号のスペクトルY(ω,τ)を出力する。
【0039】
参照信号推定部1−1及び1−2では、線形分離フィルタ係数W(ω)を適用して得られた分離信号のスペクトルY(ω,τ)から、事前に学習した連想記憶モデル(AMM:Associative Memory Model)を用いて、目的音のスペクトルS(ω,τ)に相当する参照信号のスペクトルY^(ω,τ)を推定する。
【0040】
ここで、参照信号推定部1−1及び1−2では、歪を含む音声(例えば音源分離処理によって得られた分離信号)のスペクトルから無歪の音声(例えば目的音源からの目的音)のスペクトルを推定する連想記憶モデルを、図2に示すようなConvolutional neural network(CNN)により実現する。CNNは、音声スペクトルの時間周波数パターンにおける局所的な特徴を抽出するのに適した構造を持つ。また、音源分離処理により生じる歪は局所的に表れる。したがって、CNNを用いてDAEを設計することで、局所的に存在する歪が低減されることを期待する。
【0041】
図2を用いて、CNNの構造例を説明する。例えば、歪を含む音声の対数パワースペクトルから513ビン×10フレームの2次元パターンを5フレーム間隔で切り出す。切り出したパターンを平均が0、分散が1となるよう標準化しCNNの入力とする。畳み込み層の各ユニットは、入力された2次元パターンに対して、30ビン×5フレームのフィルタを周波数方向に15、フレーム方向に2ずつシフトさせながら重畳することで得られる。つまり、畳み込み層の各ユニットは音声の時間周波数パターンにおける小さな部分領域のみから入力を受ける。また、入力層と畳み込み層の各ユニット間では同一の重みを共有する。したがって、畳み込み層では、時間周波数パターンにおける異なる位置の同一の局所パターンが検出される。ボトルネック層では、畳み込み層で得た音声の局所的な特徴から時間周波数パターンにおける異なる位置間の高次な特徴を抽出する。出力層では、音声の対数パワースペクトルにおける513ビン×10フレームの2次元パターンの推定値を出力する。
【0042】
各層の重み及びバイアスは誤差逆伝播法によって決定する。以下の2種類のデータ対をパラレルコーパスとして用い、CNNの学習を行った。
【0043】
Train−1;無歪目的音信号(例えば目的音源からの目的音)の対数パワースペクトルを入力データと教師データ双方に用いる。
【0044】
Train−2;分離信号の対数パワースペクトルを入力データ、対応する無歪目的音信号(例えば目的音源からの目的音)の対数パワースペクトルを教師データに用いる。
【0045】
次に、線形分離フィルタ係数の更新を説明する。第1の実施形態では、ICAやIVAなどにより線形分離フィルタ係数の初期値W(init)(ω)を定め、当該線形分離フィルタ係数を適用して得られる分離信号のスペクトルをY(ω,τ)とする。
【0046】
線形分離フィルタ更新部2−1及び2−2は、Y(ω,τ)を、参照信号推定部1−1及び1−2で連想記憶モデルに基づいて推定された参照信号のスペクトルY^(ω,τ)(記号「^」は文字Yの上に付与されるハットを示す。)に近づけるよう線形分離フィルタ係数W(ω)を推定することを考える。繰り返し更新して推定されたW(ω)(記号「」は文字Wの上に付与されるハットを示す。)を適用して得られた分離信号のスペクトルY(ω,τ)は、式(7)となる。
【数5】
【0047】
式(7)において、W(ω)は線形変換である。
【0048】
与えられたY^(ω,τ)に対して、W(ω)を推定するには、Y^(ω,τ)とY(ω,τ)の誤差を評価し、当該誤差を最小とするように公知の最適化手法によってW(ω)を更新する。当該誤差の基準には、例えば誤差の絶対値や二乗誤差、カルバック・ライブラー情報量などを用いることができる。また、Y^(ω,τ)とY(ω,τ)そのものの誤差を評価しても良いし、それらのパワー(絶対値の二乗)を評価しても良いし、パワーの対数(対数パワースペクトルと呼ばれる)を評価しても良い。また、当該最適化手法として、勾配法や最急降下法、ニュートン法、ガウス・ニュートン法、補助関数法などを用いることができる。
【0049】
(ω)を更新した後、式(7)によってY(ω,τ)を求め、新たに得られたY(ω,τ)に基づいて連想記憶モデルによりY^(ω,τ)を推定し、同様にW(ω)を更新する。以上のようなY^(ω,τ)の推定とW(ω)の更新とを繰り返すことで、最終的な分離信号のスペクトルY(ω,τ)を得る。
【0050】
(B−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、線形分離フィルタに基づく音源分離において、音源に関する仮定を必要とせず、高精度な音源分離を実現可能なフィルタを推定することができる。また、第1の実施形態によれば、音源の独立性・非ガウス性の仮定を置くこと無く分離が可能であり、かつ線形分離の枠組みのため音源分離処理による歪も少なくすることができる。
【0051】
(C)第2の実施形態
以下では、本発明の音源分離システム、方法及びプログラムの第2の実施形態を、図面を参照しながら詳細に説明する。
【0052】
第1の実施形態では、線形分離フィルタ係数を直接更新していた。しかし、参照信号のスペクトルとは大きく異なる観測信号のスペクトルで張られるベクトル空間上で線形分離フィルタ係数の更新を行うと、分離信号のスペクトルと参照信号のスペクトルとの誤差が十分に小さくならない可能性や、音源分離処理による歪が十分小さくならない可能性がある。
【0053】
そこで、第2の実施形態では、線形分離フィルタ係数を直接更新するのでなく、補正値を導入し、当該補正値と線形分離フィルタ係数を乗算すると最適な線形分離フィルタ係数が得られるように当該補正値を更新する。こうすることで、より参照信号のスペクトルに近い分離信号のスペクトルで張られるベクトル空間上で線形分離フィルタ係数の更新を行うことになるため、収束の安定性の更なる向上と、歪の更なる減少が可能となる。
【0054】
第2の実施形態に係る音源分離システム(以下、符号「10A」を用いる)の構成も、上述した図1で表すことができる。
【0055】
第2の実施形態に係る音源分離システム10Aにおける音源分離処理の動作は、線形分離フィルタ更新部(以下、符号「2−1A」及び「2−2A」を用いる)を除けば、第1の実施形態の動作と同一なので、説明を省略する。
【0056】
次に、線形分離フィルタ係数の更新を説明する。第2の実施形態では、第1の実施形態における更新された線形分離フィルタ係数W(ω)を、第1の実施形態における線形分離フィルタ係数の初期値W(init)(ω)と第2の実施形態で導入される補正値M(ω)∈CNS×NSとを乗算したものと考え、線形分離フィルタ係数を直接更新する代わりに補正値M(ω)を更新する。W(init)(ω)は、第1の実施形態と同様にICAやIVAなどにより定め、当該線形分離フィルタ係数W(init)(ω)を適用して得られる分離信号のスペクトルをY(ω,τ)とする。なお、便宜上、第2の実施形態においても、W(init)(ω)を線形分離フィルタ係数の初期値と呼ぶ。
【0057】
第2の実施形態における線形分離フィルタ更新部2−1A及び2−2Aは、Y(ω,τ)を、参照信号推定部1−1及び1−2で連想記憶モデルに基づいて推定された参照信号のスペクトルY^(ω,τ)に近づけるように、補正値M(ω)を推定することを考える。繰り返し更新して推定されたM(ω)とW(init)(ω)とを適用して得られた分離信号のスペクトルY(ω,τ)は、式(8)となる。
【数6】
【0058】
式(8)において、M(ω)及びW(init)(ω)は線形変換であり、その積M(ω)W(init)(ω)も線形変換とみなすことができる。そこで、W(ω)=M(ω)W(init)(ω)とすると、式(8)は以下となる。
【数7】
【0059】
これは、観測信号のスペクトルZ(ω,τ)に、線形分離フィルタ係数W(ω)を適用したものと解釈できる。
【0060】
そこで、線形分離フィルタ更新部2−1A及び2−2Aは、式(10)で定義されるコスト関数J(ω)を最小化するように、M(ω)を更新する。
【数8】
【0061】
njはM(ω)の(n,j)要素を表す。線形分離フィルタ更新部2−1A及び2−2Aは、式(11)〜(13)で示される勾配法により、M(ω)を推定する。
【数9】
【0062】
μ,nはそれぞれ学習係数及び更新回数のインデックスを、Iは単位行列を、G(ω)は勾配行列を表す。また、*は複素共役を表す。
【0063】
図3は、第2の実施形態に係る補正値及び分離信号のスペクトルの更新処理を示すフローチャートである。参照信号のスペクトルの更新回数をi(0≦i≦N)、補正値の更新回数j(0≦j≦N)とし、学習係数をμとする。
【0064】
まず、補正値M(ω)の初期値M(0)(ω)=Iとする(S101)。観測信号のスペクトルZ(ω,τ)に対して線形分離フィルタ係数の初期値W(init)(ω)を適用して、分離信号のスペクトルの初期値Y(0)(ω,τ)を得る(S102)。連想記憶モデル(AMM)を用いた参照信号推定部1−1及び1−2により、Y(0)(ω,τ)から参照信号のスペクトルの初期値Y^(0)(ω,τ)を推定する(S103)。
【0065】
iをi=0に初期化し(S104)、jをj=0に初期化する(S105)。Y^(i)(ω,τ)及びY(i)(ω,τ)を用いて、式(10)に従ってコスト関数J(ω)を計算して、式(13)に従って勾配行列G(ω)を計算する(S106)。
【0066】
次に、M(j)(ω)とG(ω)とを用いて、式(12)に従って、M(j+1)(ω)を計算する(S107)。そして、jの値をインクリメントしていき、j=N−1までS105〜S106の処理を繰り返し行う。
【0067】
S105〜S107の処理で得られたM(NM)(ω)をM(ω)として(S108)、観測信号のスペクトルZ(ω,τ)に対して、M(ω)W(init)(ω)を乗じてY(i+1)(ω,τ)を計算する(S109)。M(ω)及びW(init)(ω)は線形変換であるため、その積であるM(ω)W(init)(ω)も線形変換とみなせる。
【0068】
連想記憶モデル(AMM)を用いて、Y(i+1)(ω,τ)からY^(i+1)(ω,τ)を推定し(S110)、M(ω)をM(0)(ω)とする(S111)。
【0069】
そして、iをインクリメントしていき、i=N−1まで処理を行い、観測信号のスペクトルZ(ω、τ)に線形分離フィルタ係数の初期値W(init)(ω)及び補正値M(ω)を乗じて、最終的な分離信号のスペクトルであるY(ω,τ)を計算する。図3に示すアルゴリズムにより補正値を更新することで、線形分離フィルタ係数の更新を実現する。
【0070】
以上のように、第2の実施形態によれば、更新後の線形分離フィルタ係数を更新前の線形分離フィルタ係数と補正値との乗算で表すこととし、分離信号のスペクトルを参照信号のスペクトルに近付けるために線形分離フィルタ係数を更新する代わりに補正値を更新することによって、第1の実施形態よりも更新の収束特性を安定化させることができ、分離信号の歪を更に少なくすることができる。
【0071】
第2の実施形態に係る音源分離システム10Aを用いてシミュレーションを行ない、これにより得られた評価データを説明する。図4は、第2の実施形態に係る音源分離システム10Aを用いたシミュレーションの環境を説明する説明図である。ここでは、反射や残響の影響を取り除くために、直接波到来時刻から初期反射到来時刻までの区間のみを切り出したインパルス応答を用いた。
【0072】
参照信号推定部1の連想記憶モデルには、JNAS新聞読み上げコーパスを用いた。このJNAS新聞読み上げコーパスにより無作為に抽出した音声にインパルス応答を畳み込み、2話者同時発話30発話(女性話者10組、各組3発話)を作成した。こうして得た混合信号に対して下記の音源分離手法を適用し分離性能を評価した。IVA(補助関数法に基づくIVA)による評価データと、第2の実施形態に係るIVA−AMM(連想記憶を用いた線形分離フィルタ係数の補正値の更新(初期値:IVAのフィルタ))による評価データとを並べる。
【0073】
参照信号の更新の上限は30回とした。また、得られた参照信号に対する式(12)に基づく線形分離フィルタ係数の補正値の更新回数の上限は5000とした。学習係数μは初期値を0.0001とし、new−bob法により動的に制御した。
【0074】
評価尺度は、signal−to−distortion ratio(SDR)を用いた。SDRは音源分離処理により生じた歪に対する目的音源の成分の比を表す。以下にSDR[dB]の計算式を示す。
【数10】
【0075】
τ,Nωは、それぞれフレーム数、周波数ビン数を表す。
【0076】
図5は、第2の実施形態の音源分離システム10Aを用いたシミュレーションによる評価データを示す図である。図5では、SDRの平均値と標準偏差を示す。図5に示すように、いずれの実験条件においても、第2の実施形態に係るIVA−AMMが、IVAよりも高いSDRを得た。この実験により、第2の実施形態によって、IVAで生じる歪を少なくし、目的音を高精度に推定できることがわかった。
【0077】
(D)他の実施形態
(D−1)上述した実施形態で説明した音源分離システムでは、参照信号推定部に適用した連想記憶モデルが、音源の目的音を学習した連想記憶を用いる場合を例示した。連想記憶モデルが学習する音源の目的音は、音声、音響(音楽を含む。)、騒音等であっても良い。
【0078】
(D−2)上述した実施形態の音源分離システムは、音源の目的音の反射音を抑圧する高精度な残響抑圧(エコー抑圧とも呼ぶ。)を行うようにしても良い。マイクロホンの受音信号に目的音の直接音とこれに遅延した反射音が含まれ、当該音源分離システムによって、直接音を推定した直接音分離信号と、反射音を推定した反射音分離信号を得る。直接音分離信号をそのまま出力してもよいし、反射音分離信号を受音信号から抑圧することで残響抑圧を行うようにしてもよいし、反射音分離信号を直接音分離信号から抑圧することで残響抑圧を行うようにしてもよい。
【0079】
(D−3)上記実施形態で説明した音源分離システムは、マイクロホンの受音信号を周波数領域に変換した信号が線形分離フィルタ部に入力される場合を例示した。しかし、線形分離フィルタに入力される入力信号は、例えば、マイクロホンからの受音信号を録音した録音装置から、当該受音信号が周波数分析部に入力されるようにしても良いし、ネットワーク等を通じて通信された信号が、周波数分析部に入力されるようにしても良い。また、マイクロホンからの受音信号を周波数分析した観測信号のスペクトルを記録した記録装置から、当該観測信号のスペクトルが線形分離フィルタ部に入力されるようにしても良いし、ネットワーク等を通じて通信された観測信号のスペクトルが、線形分離フィルタ部に入力されるようにしても良い。また、音源分離された信号(分離信号)またはそのスペクトル(分離信号のスペクトル)がネットワークを通じて出力されるようにしても良い。
【0080】
(D−4)上記実施形態で説明したマイクロホンは、指向性であっても良いし、無指向性のものであっても良い。また、マイクロホンは2つに限定されず、3以上であっても良い。線形分離フィルタ部で適用する線形分離フィルタ係数の内部構成を、指向性のマイクロホンに合わせて設計すればよい。
【0081】
(D−5)上述した実施形態及び変形実施形態以外にも、本発明の技術分野において通常の知識を有する者によって、本発明の技術的思想の範囲内で様々なバリエーションが可能である。
【符号の説明】
【0082】
10及び10A…音源分離システム、M1及びM2…マイクロホン、1−1及び1−2…参照信号推定部、2−1及び2−2、2−1A及び2−2A…線形分離フィルタ更新部、3…線形分離フィルタ、4…周波数分析部。
図1
図2
図3
図4
図5