特許6644356 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 沖電気工業株式会社の特許一覧 ▶ 学校法人早稲田大学の特許一覧

特許6644356音源分離システム、方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6644356

(24)【登録日】2020年1月10日

(45)【発行日】2020年2月12日

(54)【発明の名称】音源分離システム、方法及びプログラム

(51)【国際特許分類】

G10L 21/0272 20130101AFI20200130BHJP

G10L 21/028 20130101ALI20200130BHJP

G10L 21/0308 20130101ALI20200130BHJP

【ＦＩ】

G10L21/0272 100B

G10L21/028 Z

G10L21/0308 Z

【請求項の数】9

【全頁数】16

(21)【出願番号】特願2015-154997(P2015-154997)

(22)【出願日】2015年8月5日

(65)【公開番号】特開2017-32905(P2017-32905A)

(43)【公開日】2017年2月9日

【審査請求日】2018年7月12日

【新規性喪失の例外の表示】特許法第３０条第２項適用一般社団法人情報処理学会、第１０５回音声言語情報処理研究会オンライン版予稿集、平成２７年２月２０日一般社団法人情報処理学会第１０５回音声言語情報処理研究会（伊勢志摩合歓の郷ホテル＆リゾート、三重県志摩市浜島町迫子２６９２−３）、平成２７年２月２７日

(73)【特許権者】

【識別番号】000000295

【氏名又は名称】沖電気工業株式会社

(73)【特許権者】

【識別番号】899000068

【氏名又は名称】学校法人早稲田大学

(74)【代理人】

【識別番号】100180275

【弁理士】

【氏名又は名称】吉田倫太郎

(74)【代理人】

【識別番号】100161861

【弁理士】

【氏名又は名称】若林裕介

(74)【代理人】

【識別番号】100090620

【弁理士】

【氏名又は名称】工藤宣幸

(72)【発明者】

【氏名】矢頭隆

(72)【発明者】

【氏名】片桐一浩

(72)【発明者】

【氏名】藤枝大

(72)【発明者】

【氏名】小林哲則

(72)【発明者】

【氏名】大町基

(72)【発明者】

【氏名】小川哲司

【審査官】山下剛史

(56)【参考文献】

【文献】特開２００７−２９８５６４（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ２１／００−２１／１８

(57)【特許請求の範囲】

【請求項1】

少なくとも２本のマイクロホンにより捕捉されて得られた、１又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、上記目的音を含む分離信号を出力する線形分離フィルタ部と、
無歪目的音信号の特徴を学習・記憶し、上記分離信号から上記無歪目的音信号を推定して参照信号とする参照信号推定部と、
上記分離信号を、推定された上記参照信号に近づけるように、上記線形分離フィルタ係数を更新する線形分離フィルタ更新部と
を備えることを特徴とする音源分離システム。

【請求項2】

上記参照信号推定部が、連想記憶により上記無歪目的音信号を推定して上記参照信号とするものであって、
上記線形分離フィルタ更新部による上記線形分離フィルタ係数の更新と、上記参照信号推定部による上記参照信号の推定とを繰り返すことを特徴とする請求項１に記載の音源分離システム。

【請求項3】

上記線形分離フィルタ更新部は、更新前の上記線形分離フィルタ係数に乗じることで、更新後の上記線形分離フィルタ係数を得る補正値を更新する
ことを特徴とする請求項１又は２に記載の音源分離システム。

【請求項4】

上記線形分離フィルタ更新部は、上記入力音信号に対して上記線形分離フィルタ係数と前回の更新で得られた上記補正値とを適用することで得た上記分離信号と、当該分離信号から推定した上記参照信号との対数パワースペクトルの二乗誤差を最小とするように上記補正値を更新する
ことを特徴とする請求項３に記載の音源分離システム。

【請求項5】

上記線形分離フィルタ更新部は、上記補正値を初めて更新する場合において、当該補正値の初期値を単位行列とすることを特徴とする請求項３又は４に記載の音源分離システム。

【請求項6】

上記線形分離フィルタ更新部は、上記補正値を初めて更新する場合において、上記分離信号の初期値を、上記入力音信号に対して上記線形分離フィルタ係数を適用して得ることを特徴とする請求項３〜５のいずれかに記載の音源分離システム。

【請求項7】

上記線形分離フィルタ部が、勾配法によって上記補正値を更新することを特徴とする請求項３〜６のいずれかに記載の音源分離システム。

【請求項8】

コンピュータを、
少なくとも２本のマイクロホンにより捕捉されて得られた、１又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、上記目的音を含む分離信号を出力する線形分離フィルタ部と、
無歪目的音信号の特徴を学習・記憶し、上記分離信号から上記無歪目的音信号を参照信号として推定する参照信号推定部と、
上記分離信号を、推定された上記参照信号に近づけるように、上記線形分離フィルタ係数を更新する線形分離フィルタ更新部と
して機能させることを特徴とする音源分離プログラム。

【請求項9】

線形分離フィルタ部が、少なくとも２本のマイクロホンにより捕捉されて得られた、１又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、上記目的音を含む分離信号を出力し、
参照信号推定部は、無歪目的音信号の特徴を学習・記憶し、当該参照信号推定部が、上記分離信号から上記無歪目的音信号を参照信号として推定し、
線形分離フィルタ更新部が、上記分離信号を、推定された上記参照信号に近づけるように、上記線形分離フィルタ係数を更新する
ことを特徴とする音源分離方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音源分離システム、方法及びプログラムに関し、連想記憶と線形分離フィルタとを組み合わせることにより、歪の少ない高精度な音源分離方式に適用し得るものである。

【背景技術】

【0002】

マルチチャネルのブラインド音源分離方式は、時間周波数マスクに基づく手法と、線形分離フィルタに基づく手法とに大別できる。時間周波数マスクに基づく手法は、スペクトルの時間周波数パターンのうち、支配的に存在する音源の時間周波数成分のみを通過させる非線形なマスクを用いて音源を再現する。分離精度は高いが、非線形処理に起因する歪が発生するという欠点がある。一方、線形分離フィルタに基づく手法は、音源の混合過程の影響を取り除く線形のフィルタを用いて目的音源を再現する。このアプローチでは非線形処理に起因する歪が原理的に発生しないため、時間周波数マスクに基づく手法よりも高音質な分離信号が得られるという利点がある。

【0003】

線形分離フィルタの推定には、音源が独立かつ非ガウスな分布から生成されるという仮定が広く用いられている。この仮定を用いた代表的な手法として、独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：ＩＣＡ）や独立ベクトル分析（ＩｎｄｅｐｅｎｄｅｎｔＶｅｃｔｏｒＡｎａｌｙｓｉｓ：ＩＶＡ）がある。ＩＣＡやＩＶＡは、音源が独立でない場合や、音源の事前分布と実際のデータの分布が異なるときに分離性能が劣化する。この問題に対し、音源の性質を表現するのに適した事前分布を用いることで性能を改善する試みが多くなされている（非特許文献１〜３参照）。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Ｅ．Ｍｏｕｌｉｎｅｓｅｔ．ａｌ．，“Ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｆｏｒｂｌｉｎｄｓｅｐａｒａｔｉｏｎａｎｄｄｅｃｏｎｖｏｌｕｔｉｏｎｏｆｎｏｉｓｙｓｉｇｎａｌｓｕｓｉｎｇｍｉｘｔｕｒｅｍｏｄｅｌｓ”，Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ１９９７，ｐｐ．３６１７−３６２０，Ａｐｒ．１９９７．

【非特許文献2】Ｉ．Ｌｅｅｅｔａｌ．，“ＡｄａｐｔｉｖｅｉｎｄｅｐｅｎｄｅｎｔｖｅｃｔｏｒａｎａｌｙｓｉｓｆｏｒｔｈｅｓｅｐａｒａｔｉｏｎｏｆｃｏｎｖｏｌｕｔｅｄｍｉｘｔｕｒｅｓｕｓｉｎｇＥＭａｌｇｏｒｉｔｈｍ”，Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ２００８，ｐｐ．１４５−１４８.，Ｍａｒ.２００８．

【非特許文献3】Ｙ．Ｌｉａｎｇｅｔａｌ．，“ＩｎｄｅｐｅｎｄｅｎｔｖｅｃｔｏｒａｎａｌｙｓｉｓｗｉｔｈａｇｅｎｅｒａｌｉｚｅｄｍｕｌｔｉｖａｒｉａｔｅＧａｕｓｓｉａｎｓｏｕｒｃｅｐｒｉｏｒｆｏｒｆｒｅｑｕｅｎｃｙｄｏｍａｉｎｂｌｉｎｄｓｏｕｃｅｓｅｐａｒａｔｉｏｎ”，Ｓｉｇｎａｌｐｒｏｃｅｓ．，ｖｏｌ.１０５，ｐｐ．１７５−１８４，Ｍａｙ２０１４．

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、ＩＣＡ、ＩＶＡは、音源の独立性や非ガウス性を仮定するため、音源の独立性や非ガウス性が成立しないとき音源分離性能が劣化するという問題が生じ得る。

【0006】

そこで、本発明は、連想記憶と線形分離フィルタを組み合わせることにより、歪が少ない高精度なブラインド音源分離方式を提案しようとするものである。

【課題を解決するための手段】

【0007】

本発明は、上記課題に鑑み、以下の構成要素を備える。

【0008】

第１の本発明の音源分離システムは、少なくとも２本のマイクロホンにより捕捉されて得られた、１又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、目的音を含む分離信号を出力する線形分離フィルタ部と、無歪目的音信号の特徴を学習・記憶し、分離信号から無歪目的音信号を参照信号として推定する参照信号推定部と、分離信号を、推定された無歪目的音信号に近づけるように、線形分離フィルタ係数を更新する線形分離フィルタ更新部とを備えることを特徴とする。

【0009】

第２の本発明の音源分離プログラムは、コンピュータを、少なくとも２本のマイクロホンにより捕捉されて得られた、１又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、目的音を含む分離信号を出力する線形分離フィルタ部と、無歪目的音信号の特徴を学習・記憶し、分離信号から無歪目的音信号を参照信号として推定する参照信号推定部と、分離信号を、推定された無歪目的音信号に近づけるように、線形分離フィルタ係数を更新する線形分離フィルタ更新部として機能させることを特徴とする。

【0010】

第３の本発明の音源分離方法は、線形分離フィルタ部が、少なくとも２本のマイクロホンにより捕捉されて得られた、１又は複数の音源からの目的音と非目的音とが混在する複数の入力音信号に対して、線形分離フィルタ係数を適用して、目的音を含む分離信号を出力し、参照信号推定部は、無歪目的音信号の特徴を学習・記憶し、当該参照信号推定部が、分離信号から無歪目的音信号を参照信号として推定し、線形分離フィルタ更新部が、分離信号を、推定された無歪目的音信号に近づけるように、線形分離フィルタ係数を更新することを特徴とする。

【発明の効果】

【0011】

本発明によれば、線形分離フィルタに基づく音源分離において、音源に関する仮定を必要とせず、高精度な音源分離を実現できる。また、音源の独立性・非ガウス性の仮定を置くこと無く分離が可能であり、かつ線形分離の枠組みのため音源分離処理による歪も少なくすることができる。

【図面の簡単な説明】

【0012】

【図1】第１の実施形態に係る音源分離システムの構成を示す構成図である。

【図2】第１の実施形態に係る参照信号推定部に用いる連想記憶モデルの構造を示す図である。

【図3】第２の実施形態に係る補正値及び分離信号のスペクトルの更新処理を示すフローチャートである。

【図4】第２の実施形態に係る音源分離システムを用いたシミュレーションの環境を説明する説明図である。

【図5】第２の実施形態の音源分離システムを用いたシミュレーションによる評価データを示す図である。

【発明を実施するための形態】

【0013】

（Ａ）本発明の基本的概念
本発明は、線形分離フィルタに基づく音源分離方式において、音源に関する仮定を必要とせずに、音源分離を実現可能な線形分離フィルタ係数を推定する。

【0014】

本発明の音源分離方式は、線形分離フィルタ係数を適用することにより分離された分離信号のスペクトルから、参照信号推定部が連想記憶モデルを用いて無歪目的音信号のスペクトルを参照信号のスペクトルとして推定する処理と、参照信号推定部により推定された参照信号のスペクトルと分離信号のスペクトルとの誤差が最小となるように線形分離フィルタ更新部が線形分離フィルタ係数を更新する処理とを繰り返すことにより、線形分離フィルタ係数を推定する。これにより、本発明の音源分離方式は、音源の独立性や非ガウス性の仮定を置くことなく、音源分離が可能であり、かつ、線形分離の枠組みのために音源分離処理による歪も少ないことが期待できる。

【0015】

連想記憶モデルは、ＤｅｎｏｉｓｉｎｇＡｕｔｏｅｎｃｏｄｅｒ（以下、ＤＡＥとも呼ぶ。）により実現した場合を例示する。ＤＡＥは、歪を含む入力パターンから歪を取り除いたパターンの推定が可能であり、残響抑圧や雑音抑圧において高い性能が得られることが報告されている。また、線形分離フィルタによって得られる分離信号には、妨害音の消し残りや過剰な減算処理に起因する歪が含まれる。そこで、線形分離フィルタの後段に、ＤＡＥに基づく連想記憶モデルを用いた参照信号推定部によって推定された無歪目的音信号のスペクトルを参照信号のスペクトルとして線形分離フィルタ係数を更新することで、このような歪が低減され、目的音に近いスペクトルが得られることが期待できる。

【0016】

ＤＡＥにより推定された無歪目的音信号のスペクトルは、平滑化の影響を受ける。そこで、無歪目的音信号のスペクトルをそのまま分離信号のスペクトルとして用いるのではなく、線形分離フィルタ係数を推定するために用いるというアプローチを提案する。

【0017】

（Ｂ）第１の実施形態
以下では、本発明の音源分離システム、方法及びプログラムの実施形態を、図面を参照しながら詳細に説明する。

【0018】

（Ｂ−１）第１の実施形態の構成
図１は、第１の実施形態に係る音源分離システム１０の構成を示す構成図である。図１において、音源分離システム１０は、複数のマイクロホンＭ１及びＭ２、周波数分析部４、線形分離フィルタ３、参照信号推定部１−１及び１−２、線形分離フィルタ更新部２−１及び２−２を有する。

【0019】

音源分離システム１０は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また一部の構成要素をＣＰＵ、ＲＯＭ、ＲＡＭ等のプログラムの実行構成を適用してその機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、音源分離システム１０の機能的な詳細構成は、図１で表す構成を有する。

【0020】

マイクロホンＭ１及びＭ２は、音源分離システム１０が意図している目的音源Ｓ１、Ｓ２からの目的音に加えて、他の音源からの妨害音や音源がはっきりしない雑音など（以下、これらをまとめて妨害音と呼ぶ。）も捕捉する。マイクロホンＭ１及びＭ２が音（音声、音響等を含む。）を捕捉して得た信号はディジタル信号に変換される。

【0021】

周波数分析部４は、マイクロホンＭ１及びＭ２からの時間軸上の信号であるディジタル信号を周波数分析するものである。周波数分析部４は、例えば高速フーリエ変換（ＦＦＴ）、ＤＷＴ（離散ウェーブレット変換）等の周波数分析方法を適用することができる。

【0022】

線形分離フィルタ３は、マイクロホンＭ１及びＭ２の音信号のＦＦＴによって得られた観測信号のスペクトルから、目的音のスペクトルを分離するものである。音源分離による歪を少なくするために、第１の実施形態では音源分離フィルタとして線形分離フィルタ３を用いる。線形分離フィルタに基づくブラインド音源分離の目的は、混合過程が未知の条件下で、混合過程の影響を取り除く逆フィルタを推定することである。

【0023】

ここでは、Ｎ_ｍ個の観測信号からＮ_ｓ個の音源を推定する問題を想定し、線形分離フィルタ係数の推定方法を説明する。ただし、Ｎ_ｓ≦Ｎ_ｍとする。

【0024】

ｎ番目の音源信号をｓ_ｎ（ｔ）、ｍ番目のマイクロホンにおける観測信号をｚ_ｍ（ｔ）、ｎ番目の音源からｍ番目のマイクロホンまでのインパルス応答をｈ_ｍｎ（ｔ）とすると、時間領域における混合過程は式（１）のように書ける。

【数1】

【0025】

ここで、Ｔ_ｈはインパルス応答長を表す。時間領域において逆フィルタを求めることは、計算量及び学習の収束性の観点において困難である。そこで、観測信号ｚ_ｍ（ｔ）をインパルス応答長Ｔ_ｈよりも十分に長い分析長で短時間フーリエ変換し、周波数領域で逆フィルタを求める。周波数領域では、混合過程は音源のスペクトルと伝達関数の積として式（２）のように書ける。

【数2】

【0026】

ω、τは離散周波数及びフレームを表す。また、Ｚ_ｍ（ω，τ）、Ｓ_ｎ（ω、τ）はそれぞれ観測信号のスペクトルと音源のスペクトルを、Ｈ_ｍｎ（ω）は伝達関数を表す。ここで、Ｚ（ω、τ）＝［Ｚ_１（ω，τ），・・・，Ｚ_Ｎｍ（ω、τ）］^Τ（^Τは転置を表す。）、Ｓ（ω、τ）＝［Ｓ_１（ω，τ），・・・，Ｓ_Ｎｓ（ω、τ）］^Τとすると、式（２）は以下のように書き直すことができる。

【数3】

【0027】

観測信号のスペクトルＺ（ω、τ）に対して線形分離フィルタ係数Ｗ（ω）を適用すると、分離信号のスペクトルＹ（ω，τ）＝［Ｙ_１（ω，τ）・・・，Ｙ_Ｎｓ（ω、τ）］^Τは以下のようになる。このとき、Ｙ_ｎ（ω，τ）はｎ番目の目的音のスペクトルの推定値を表す。

【数4】

【0028】

式（５）において、Ｗ（ω）＝Ｈ^−１（ω）であるならば、線形分離フィルタ係数を適用して得られる分離信号のスペクトルと目的音のスペクトルは一致する。すなわち、Ｈ（ω）が既知であるならば、逆フィルタを求めることは容易である。しかし、Ｈ（ω）はマイクロホンと音源の位置関係や収音環境に依存する。そのため、Ｈ（ω）を事前情報として持つことは実用上困難である。

【0029】

Ｗ（ω）の推定には、音源がそれぞれ独立かつ非ガウスな分布から生成されるという仮定が広く用いられる。Ｗ（ω）＝Ｈ^−１（ω）であるならば、分離された信号のスペクトルもまた音源のスペクトルと同じ分布から生成されたものと考えることができる。すなわち、分離された信号のスペクトルがお互いに独立となるようなＷ（ω）を求めればよい。

【0030】

ＩＣＡは、離散周波数ωごとに、分離信号のスペクトル成分Ｙ_ｎ（ω，τ）が互いに独立となるようなＷ（ω）を求める。独立な信号を推定することが可能であるが、分離信号の順番の不定性（パーミュテーション問題）に起因する周波数間の不整合を解消する必要がある。ＩＶＡは、分離信号のスペクトル成分のベクトル［Ｙ_ｎ（１，τ），・・・，Ｙ_ｎ（Ｎ_ω，τ）］^Τが互いに独立となるようなＷ（ω）を求める。音源の事前分布として周波数間の関係を考慮した多次元分布を仮定するため、周波数間の整合性は保証される。そのため、パーミュテーション問題が発生しないという利点がある。

【0031】

しかし、音源が独立でない場合や音源の事前分布が実際の分布と異なる場合には分離性能が低下する。また、独立性に基づき推定されたスペクトルは互いに独立であるという保証はあるものの、必ずしも音源のスペクトルと一致するとは限らない。

【0032】

そこで、第１の実施形態の音源分離システム１０は、線形分離フィルタ３から出力される分離信号のスペクトルＹ（ω，τ）から対応する目的音のスペクトルＳ（ω，τ）を推定し、分離信号のスペクトルＹ（ω，τ）との誤差最小化問題を解くことにより、線形分離フィルタ係数Ｗ（ω）を推定するものである。

【0033】

参照信号推定部１−１及び１−２は、線形分離フィルタ係数Ｗ（ω）により得られた分離信号のスペクトルＹ（ω，τ）から、事前に学習した連想記憶モデルを用いて、目的音のスペクトルＳ（ω，τ）に相当する無歪目的音信号のスペクトルＹ＾（ω，τ）（以降では、参照信号のスペクトルとも呼ぶ。）を推定する。

【0034】

線形分離フィルタ更新部２−１及び２−２は、参照信号推定部１−１及び１−２で推定された参照信号のスペクトルＹ＾（ω，τ）と、分離信号のスペクトルＹ（ω、τ）との誤差が小さくなるように線形分離フィルタ係数Ｗ（ω）を補正する。線形分離フィルタ更新部２−１及び２−２は、誤差がより小さな値に収束するまで参照信号のスペクトルの推定と線形分離フィルタ係数の更新を繰り返すことにより、分離信号のスペクトルＹ（ω，τ）を求める。なお、分離信号の時間波形は、Ｙ（ω，τ）を逆フーリエ変換した上で重畳加算法により得る。

【0035】

（Ｂ−２）第１の実施形態の動作
次に、第１の実施形態に係る音源分離システム１０における音源分離処理の動作を詳細に説明する。

【0036】

マイクロホンＭ１及びＭ２により捕捉されて得られた受音信号は、それぞれディジタル信号に変換された後、それぞれの観測信号ｚ_ｍ（ｔ）が周波数分析部４に与えられる。

【0037】

周波数分析部４において、マイクロホンＭ１及びＭ２のそれぞれの観測信号ｚ_ｍ（ｔ）が、インパルス応答長Ｔ_ｈよりも十分に長い分析長で短時間フーリエ変換されて、観測信号のスペクトルＺ（ω，τ）が線形分離フィルタ３に与えられる。

【0038】

線形分離フィルタ３において、観測信号のスペクトルＺ（ω，τ）に対して線形分離フィルタ係数Ｗ（ω）を適用して分離信号のスペクトルＹ（ω，τ）を出力する。

【0039】

参照信号推定部１−１及び１−２では、線形分離フィルタ係数Ｗ（ω）を適用して得られた分離信号のスペクトルＹ（ω，τ）から、事前に学習した連想記憶モデル（ＡＭＭ：ＡｓｓｏｃｉａｔｉｖｅＭｅｍｏｒｙＭｏｄｅｌ）を用いて、目的音のスペクトルＳ（ω，τ）に相当する参照信号のスペクトルＹ＾（ω，τ）を推定する。

【0040】

ここで、参照信号推定部１−１及び１−２では、歪を含む音声（例えば音源分離処理によって得られた分離信号）のスペクトルから無歪の音声（例えば目的音源からの目的音）のスペクトルを推定する連想記憶モデルを、図２に示すようなＣｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ（ＣＮＮ）により実現する。ＣＮＮは、音声スペクトルの時間周波数パターンにおける局所的な特徴を抽出するのに適した構造を持つ。また、音源分離処理により生じる歪は局所的に表れる。したがって、ＣＮＮを用いてＤＡＥを設計することで、局所的に存在する歪が低減されることを期待する。

【0041】

図２を用いて、ＣＮＮの構造例を説明する。例えば、歪を含む音声の対数パワースペクトルから５１３ビン×１０フレームの２次元パターンを５フレーム間隔で切り出す。切り出したパターンを平均が０、分散が１となるよう標準化しＣＮＮの入力とする。畳み込み層の各ユニットは、入力された２次元パターンに対して、３０ビン×５フレームのフィルタを周波数方向に１５、フレーム方向に２ずつシフトさせながら重畳することで得られる。つまり、畳み込み層の各ユニットは音声の時間周波数パターンにおける小さな部分領域のみから入力を受ける。また、入力層と畳み込み層の各ユニット間では同一の重みを共有する。したがって、畳み込み層では、時間周波数パターンにおける異なる位置の同一の局所パターンが検出される。ボトルネック層では、畳み込み層で得た音声の局所的な特徴から時間周波数パターンにおける異なる位置間の高次な特徴を抽出する。出力層では、音声の対数パワースペクトルにおける５１３ビン×１０フレームの２次元パターンの推定値を出力する。

【0042】

各層の重み及びバイアスは誤差逆伝播法によって決定する。以下の２種類のデータ対をパラレルコーパスとして用い、ＣＮＮの学習を行った。

【0043】

Ｔｒａｉｎ−１；無歪目的音信号（例えば目的音源からの目的音）の対数パワースペクトルを入力データと教師データ双方に用いる。

【0044】

Ｔｒａｉｎ−２；分離信号の対数パワースペクトルを入力データ、対応する無歪目的音信号（例えば目的音源からの目的音）の対数パワースペクトルを教師データに用いる。

【0045】

次に、線形分離フィルタ係数の更新を説明する。第１の実施形態では、ＩＣＡやＩＶＡなどにより線形分離フィルタ係数の初期値Ｗ^{（ｉｎｉｔ）}（ω）を定め、当該線形分離フィルタ係数を適用して得られる分離信号のスペクトルをＹ（ω，τ）とする。

【0046】

線形分離フィルタ更新部２−１及び２−２は、Ｙ（ω，τ）を、参照信号推定部１−１及び１−２で連想記憶モデルに基づいて推定された参照信号のスペクトルＹ＾（ω，τ）（記号「＾」は文字Ｙの上に付与されるハットを示す。）に近づけるよう線形分離フィルタ係数Ｗ⁻（ω）を推定することを考える。繰り返し更新して推定されたＷ⁻（ω）（記号「⁻」は文字Ｗの上に付与されるハットを示す。）を適用して得られた分離信号のスペクトルＹ（ω，τ）は、式（７）となる。

【数5】

【0047】

式（７）において、Ｗ⁻（ω）は線形変換である。

【0048】

与えられたＹ＾（ω，τ）に対して、Ｗ⁻（ω）を推定するには、Ｙ＾（ω，τ）とＹ（ω，τ）の誤差を評価し、当該誤差を最小とするように公知の最適化手法によってＷ⁻（ω）を更新する。当該誤差の基準には、例えば誤差の絶対値や二乗誤差、カルバック・ライブラー情報量などを用いることができる。また、Ｙ＾（ω，τ）とＹ（ω，τ）そのものの誤差を評価しても良いし、それらのパワー（絶対値の二乗）を評価しても良いし、パワーの対数（対数パワースペクトルと呼ばれる）を評価しても良い。また、当該最適化手法として、勾配法や最急降下法、ニュートン法、ガウス・ニュートン法、補助関数法などを用いることができる。

【0049】

Ｗ⁻（ω）を更新した後、式（７）によってＹ（ω，τ）を求め、新たに得られたＹ（ω，τ）に基づいて連想記憶モデルによりＹ＾（ω，τ）を推定し、同様にＷ⁻（ω）を更新する。以上のようなＹ＾（ω，τ）の推定とＷ⁻（ω）の更新とを繰り返すことで、最終的な分離信号のスペクトルＹ（ω，τ）を得る。

【0050】

（Ｂ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、線形分離フィルタに基づく音源分離において、音源に関する仮定を必要とせず、高精度な音源分離を実現可能なフィルタを推定することができる。また、第１の実施形態によれば、音源の独立性・非ガウス性の仮定を置くこと無く分離が可能であり、かつ線形分離の枠組みのため音源分離処理による歪も少なくすることができる。

【0051】

（Ｃ）第２の実施形態
以下では、本発明の音源分離システム、方法及びプログラムの第２の実施形態を、図面を参照しながら詳細に説明する。

【0052】

第１の実施形態では、線形分離フィルタ係数を直接更新していた。しかし、参照信号のスペクトルとは大きく異なる観測信号のスペクトルで張られるベクトル空間上で線形分離フィルタ係数の更新を行うと、分離信号のスペクトルと参照信号のスペクトルとの誤差が十分に小さくならない可能性や、音源分離処理による歪が十分小さくならない可能性がある。

【0053】

そこで、第２の実施形態では、線形分離フィルタ係数を直接更新するのでなく、補正値を導入し、当該補正値と線形分離フィルタ係数を乗算すると最適な線形分離フィルタ係数が得られるように当該補正値を更新する。こうすることで、より参照信号のスペクトルに近い分離信号のスペクトルで張られるベクトル空間上で線形分離フィルタ係数の更新を行うことになるため、収束の安定性の更なる向上と、歪の更なる減少が可能となる。

【0054】

第２の実施形態に係る音源分離システム（以下、符号「１０Ａ」を用いる）の構成も、上述した図１で表すことができる。

【0055】

第２の実施形態に係る音源分離システム１０Ａにおける音源分離処理の動作は、線形分離フィルタ更新部（以下、符号「２−１Ａ」及び「２−２Ａ」を用いる）を除けば、第１の実施形態の動作と同一なので、説明を省略する。

【0056】

次に、線形分離フィルタ係数の更新を説明する。第２の実施形態では、第１の実施形態における更新された線形分離フィルタ係数Ｗ⁻（ω）を、第１の実施形態における線形分離フィルタ係数の初期値Ｗ^{（ｉｎｉｔ）}（ω）と第２の実施形態で導入される補正値Ｍ（ω）∈Ｃ^{ＮＳ×ＮＳ}とを乗算したものと考え、線形分離フィルタ係数を直接更新する代わりに補正値Ｍ（ω）を更新する。Ｗ^{（ｉｎｉｔ）}（ω）は、第１の実施形態と同様にＩＣＡやＩＶＡなどにより定め、当該線形分離フィルタ係数Ｗ^{（ｉｎｉｔ）}（ω）を適用して得られる分離信号のスペクトルをＹ（ω，τ）とする。なお、便宜上、第２の実施形態においても、Ｗ^{（ｉｎｉｔ）}（ω）を線形分離フィルタ係数の初期値と呼ぶ。

【0057】

第２の実施形態における線形分離フィルタ更新部２−１Ａ及び２−２Ａは、Ｙ（ω，τ）を、参照信号推定部１−１及び１−２で連想記憶モデルに基づいて推定された参照信号のスペクトルＹ＾（ω，τ）に近づけるように、補正値Ｍ（ω）を推定することを考える。繰り返し更新して推定されたＭ（ω）とＷ^{（ｉｎｉｔ）}（ω）とを適用して得られた分離信号のスペクトルＹ⁻（ω，τ）は、式（８）となる。

【数6】

【0058】

式（８）において、Ｍ（ω）及びＷ^{（ｉｎｉｔ）}（ω）は線形変換であり、その積Ｍ（ω）Ｗ^{（ｉｎｉｔ）}（ω）も線形変換とみなすことができる。そこで、Ｗ⁻（ω）＝Ｍ（ω）Ｗ^{（ｉｎｉｔ）}（ω）とすると、式（８）は以下となる。

【数7】

【0059】

これは、観測信号のスペクトルＺ（ω，τ）に、線形分離フィルタ係数Ｗ⁻（ω）を適用したものと解釈できる。

【0060】

そこで、線形分離フィルタ更新部２−１Ａ及び２−２Ａは、式（１０）で定義されるコスト関数Ｊ（ω）を最小化するように、Ｍ（ω）を更新する。

【数8】

【0061】

Ｍ_ｎｊはＭ（ω）の（ｎ，ｊ）要素を表す。線形分離フィルタ更新部２−１Ａ及び２−２Ａは、式（１１）〜（１３）で示される勾配法により、Ｍ（ω）を推定する。

【数9】

【0062】

μ，ｎはそれぞれ学習係数及び更新回数のインデックスを、Ｉは単位行列を、Ｇ（ω）は勾配行列を表す。また、＊は複素共役を表す。

【0063】

図３は、第２の実施形態に係る補正値及び分離信号のスペクトルの更新処理を示すフローチャートである。参照信号のスペクトルの更新回数をｉ（０≦ｉ≦Ｎ_Ｒ）、補正値の更新回数ｊ（０≦ｊ≦Ｎ_Ｍ）とし、学習係数をμとする。

【0064】

まず、補正値Ｍ（ω）の初期値Ｍ^（０）（ω）＝Ｉとする（Ｓ１０１）。観測信号のスペクトルＺ（ω，τ）に対して線形分離フィルタ係数の初期値Ｗ^{（ｉｎｉｔ）}（ω）を適用して、分離信号のスペクトルの初期値Ｙ^（０）（ω，τ）を得る（Ｓ１０２）。連想記憶モデル（ＡＭＭ）を用いた参照信号推定部１−１及び１−２により、Ｙ^（０）（ω，τ）から参照信号のスペクトルの初期値Ｙ＾^（０）（ω，τ）を推定する（Ｓ１０３）。

【0065】

ｉをｉ＝０に初期化し（Ｓ１０４）、ｊをｊ＝０に初期化する（Ｓ１０５）。Ｙ＾^（ｉ）（ω，τ）及びＹ^（ｉ）（ω，τ）を用いて、式（１０）に従ってコスト関数Ｊ（ω）を計算して、式（１３）に従って勾配行列Ｇ（ω）を計算する（Ｓ１０６）。

【0066】

次に、Ｍ^（ｊ）（ω）とＧ（ω）とを用いて、式（１２）に従って、Ｍ^{（ｊ＋１）}（ω）を計算する（Ｓ１０７）。そして、ｊの値をインクリメントしていき、ｊ＝Ｎ_Ｍ−１までＳ１０５〜Ｓ１０６の処理を繰り返し行う。

【0067】

Ｓ１０５〜Ｓ１０７の処理で得られたＭ^（ＮＭ）（ω）をＭ⁻（ω）として（Ｓ１０８）、観測信号のスペクトルＺ（ω，τ）に対して、Ｍ⁻（ω）Ｗ^{（ｉｎｉｔ）}（ω）を乗じてＹ^{（ｉ＋１）}（ω，τ）を計算する（Ｓ１０９）。Ｍ⁻（ω）及びＷ^{（ｉｎｉｔ）}（ω）は線形変換であるため、その積であるＭ⁻（ω）Ｗ^{（ｉｎｉｔ）}（ω）も線形変換とみなせる。

【0068】

連想記憶モデル（ＡＭＭ）を用いて、Ｙ^{（ｉ＋１）}（ω，τ）からＹ＾^{（ｉ＋１）}（ω，τ）を推定し（Ｓ１１０）、Ｍ⁻（ω）をＭ^（０）（ω）とする（Ｓ１１１）。

【0069】

そして、ｉをインクリメントしていき、ｉ＝Ｎ_Ｒ−１まで処理を行い、観測信号のスペクトルＺ（ω、τ）に線形分離フィルタ係数の初期値Ｗ^{（ｉｎｉｔ）}（ω）及び補正値Ｍ⁻（ω）を乗じて、最終的な分離信号のスペクトルであるＹ（ω，τ）を計算する。図３に示すアルゴリズムにより補正値を更新することで、線形分離フィルタ係数の更新を実現する。

【0070】

以上のように、第２の実施形態によれば、更新後の線形分離フィルタ係数を更新前の線形分離フィルタ係数と補正値との乗算で表すこととし、分離信号のスペクトルを参照信号のスペクトルに近付けるために線形分離フィルタ係数を更新する代わりに補正値を更新することによって、第１の実施形態よりも更新の収束特性を安定化させることができ、分離信号の歪を更に少なくすることができる。

【0071】

第２の実施形態に係る音源分離システム１０Ａを用いてシミュレーションを行ない、これにより得られた評価データを説明する。図４は、第２の実施形態に係る音源分離システム１０Ａを用いたシミュレーションの環境を説明する説明図である。ここでは、反射や残響の影響を取り除くために、直接波到来時刻から初期反射到来時刻までの区間のみを切り出したインパルス応答を用いた。

【0072】

参照信号推定部１の連想記憶モデルには、ＪＮＡＳ新聞読み上げコーパスを用いた。このＪＮＡＳ新聞読み上げコーパスにより無作為に抽出した音声にインパルス応答を畳み込み、２話者同時発話３０発話（女性話者１０組、各組３発話）を作成した。こうして得た混合信号に対して下記の音源分離手法を適用し分離性能を評価した。ＩＶＡ（補助関数法に基づくＩＶＡ）による評価データと、第２の実施形態に係るＩＶＡ−ＡＭＭ（連想記憶を用いた線形分離フィルタ係数の補正値の更新（初期値：ＩＶＡのフィルタ））による評価データとを並べる。

【0073】

参照信号の更新の上限は３０回とした。また、得られた参照信号に対する式（１２）に基づく線形分離フィルタ係数の補正値の更新回数の上限は５０００とした。学習係数μは初期値を０．０００１とし、ｎｅｗ−ｂｏｂ法により動的に制御した。

【0074】

評価尺度は、ｓｉｇｎａｌ−ｔｏ−ｄｉｓｔｏｒｔｉｏｎｒａｔｉｏ（ＳＤＲ）を用いた。ＳＤＲは音源分離処理により生じた歪に対する目的音源の成分の比を表す。以下にＳＤＲ［ｄＢ］の計算式を示す。

【数10】

【0075】

Ｎ_τ，Ｎ_ωは、それぞれフレーム数、周波数ビン数を表す。

【0076】

図５は、第２の実施形態の音源分離システム１０Ａを用いたシミュレーションによる評価データを示す図である。図５では、ＳＤＲの平均値と標準偏差を示す。図５に示すように、いずれの実験条件においても、第２の実施形態に係るＩＶＡ−ＡＭＭが、ＩＶＡよりも高いＳＤＲを得た。この実験により、第２の実施形態によって、ＩＶＡで生じる歪を少なくし、目的音を高精度に推定できることがわかった。

【0077】

（Ｄ）他の実施形態
（Ｄ−１）上述した実施形態で説明した音源分離システムでは、参照信号推定部に適用した連想記憶モデルが、音源の目的音を学習した連想記憶を用いる場合を例示した。連想記憶モデルが学習する音源の目的音は、音声、音響（音楽を含む。）、騒音等であっても良い。

【0078】

（Ｄ−２）上述した実施形態の音源分離システムは、音源の目的音の反射音を抑圧する高精度な残響抑圧（エコー抑圧とも呼ぶ。）を行うようにしても良い。マイクロホンの受音信号に目的音の直接音とこれに遅延した反射音が含まれ、当該音源分離システムによって、直接音を推定した直接音分離信号と、反射音を推定した反射音分離信号を得る。直接音分離信号をそのまま出力してもよいし、反射音分離信号を受音信号から抑圧することで残響抑圧を行うようにしてもよいし、反射音分離信号を直接音分離信号から抑圧することで残響抑圧を行うようにしてもよい。

【0079】

（Ｄ−３）上記実施形態で説明した音源分離システムは、マイクロホンの受音信号を周波数領域に変換した信号が線形分離フィルタ部に入力される場合を例示した。しかし、線形分離フィルタに入力される入力信号は、例えば、マイクロホンからの受音信号を録音した録音装置から、当該受音信号が周波数分析部に入力されるようにしても良いし、ネットワーク等を通じて通信された信号が、周波数分析部に入力されるようにしても良い。また、マイクロホンからの受音信号を周波数分析した観測信号のスペクトルを記録した記録装置から、当該観測信号のスペクトルが線形分離フィルタ部に入力されるようにしても良いし、ネットワーク等を通じて通信された観測信号のスペクトルが、線形分離フィルタ部に入力されるようにしても良い。また、音源分離された信号（分離信号）またはそのスペクトル（分離信号のスペクトル）がネットワークを通じて出力されるようにしても良い。

【0080】

（Ｄ−４）上記実施形態で説明したマイクロホンは、指向性であっても良いし、無指向性のものであっても良い。また、マイクロホンは２つに限定されず、３以上であっても良い。線形分離フィルタ部で適用する線形分離フィルタ係数の内部構成を、指向性のマイクロホンに合わせて設計すればよい。

【0081】

（Ｄ−５）上述した実施形態及び変形実施形態以外にも、本発明の技術分野において通常の知識を有する者によって、本発明の技術的思想の範囲内で様々なバリエーションが可能である。

【符号の説明】

【0082】

１０及び１０Ａ…音源分離システム、Ｍ１及びＭ２…マイクロホン、１−１及び１−２…参照信号推定部、２−１及び２−２、２−１Ａ及び２−２Ａ…線形分離フィルタ更新部、３…線形分離フィルタ、４…周波数分析部。

【図1】