IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 公立大学法人首都大学東京の特許一覧

特許7683938音源分離プログラム、音源分離方法、および音源分離装置
<>
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図1
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図2
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図3
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図4
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図5
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図6
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図7
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図8
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図9
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図10
  • 特許-音源分離プログラム、音源分離方法、および音源分離装置 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-19
(45)【発行日】2025-05-27
(54)【発明の名称】音源分離プログラム、音源分離方法、および音源分離装置
(51)【国際特許分類】
   G10L 21/0308 20130101AFI20250520BHJP
【FI】
G10L21/0308 Z
【請求項の数】 4
(21)【出願番号】P 2022503752
(86)(22)【出願日】2021-02-26
(86)【国際出願番号】 JP2021007398
(87)【国際公開番号】W WO2021172524
(87)【国際公開日】2021-09-02
【審査請求日】2023-11-16
(31)【優先権主張番号】62/982,755
(32)【優先日】2020-02-28
(33)【優先権主張国・地域又は機関】US
【国等の委託研究の成果に係る記載事項】(出願人による申告)令和元年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、音メディアコミュニケーションにおける共創型機能拡張技術の創出「共創型聴覚機能拡張技術の構築」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】305027401
【氏名又は名称】東京都公立大学法人
(74)【代理人】
【識別番号】100165179
【弁理士】
【氏名又は名称】田▲崎▼ 聡
(74)【代理人】
【識別番号】100175824
【弁理士】
【氏名又は名称】小林 淳一
(74)【代理人】
【識別番号】100152272
【弁理士】
【氏名又は名称】川越 雄一郎
(74)【代理人】
【識別番号】100181722
【弁理士】
【氏名又は名称】春田 洋孝
(72)【発明者】
【氏名】小野 順貴
(72)【発明者】
【氏名】シャイブラー ロビン
【審査官】中村 天真
(56)【参考文献】
【文献】特開2014-041308(JP,A)
【文献】小野 順貴, シャイブラー ロビン,分離行列のランク1更新によるブラインド音源分離,日本音響学会講演論文集,2020年03月,p.207-208,ISSN 1880-7658
【文献】MAKISHIMA Naoki, et al.,Column-wise update algorithm for independent deeply learned matrix analysis,Proceedings of the 23rd International Congress on Acoustics,2019年09月,p.2805-2812,ISSN 2570-2092
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-21/18
(57)【特許請求の範囲】
【請求項1】
コンピュータに、
音響信号を取得させ、
取得された前記音響信号を時間領域から周波数領域に変換させ、
前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行わせる、
音源分離プログラムであって、
前記音源分離プログラムは、前記コンピュータに、
周波数f毎に且つk=1,…,Mの間で次式の前記行基本変形に基づく変換式によって更新を行わせ、
【数1】
未知ベクトルv kf =(v ,…,v (Tは転置を表す、kは音源信号の番号であり1からマイクロホン数Mまでの整数、fは周波数を表すインデックス)を、前記目的関数を用いて解かせ、
=(w 1f ,…,w Kf は分離行列であり、Hはエルミート転置であり、Kは音源数であり、Mは前記音響信号を収音したマイクロホン数であり、K=Mであり、
前記音源分離プログラムは、前記コンピュータに、
周波数f毎に、分離行列W に対して、前記目的関数を最小化するように第k列が定められた、第k列以外は単位行列である行列を乗じることにより更新を行い、前記更新を繰り返すことで前記分離行列W を求めさせる、
音源分離プログラム
【請求項2】
前記目的関数は、次式であり、
【数2】
前記分離行列Wは(w1f…wKfであり、Fは周波数の総数であり、Hはエルミート転置であり、Vkfは重み付き共分散行列である、
請求項1に記載の音源分離プログラム。
【請求項3】
複数のマイクロホンを備える収音部が、音響信号を取得し、
音源分離部が、取得された前記音響信号を時間領域から周波数領域に変換し、
前記音源分離部が、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行う、
音源分離方法であって、
前記音源分離部が、
周波数f毎に且つk=1,…,Mの間で次式の前記行基本変形に基づく変換式によって更新を行い、
【数3】
未知ベクトルv kf =(v ,…,v (Tは転置を表す、kは音源信号の番号であり1からマイクロホン数Mまでの整数、fは周波数を表すインデックス)を、前記目的関数を用いて解き、
=(w 1f ,…,w Kf は分離行列であり、Hはエルミート転置であり、Kは音源数であり、Mは前記音響信号を収音したマイクロホン数であり、K=Mであり、
前記音源分離部が、
周波数f毎に、分離行列W に対して、前記目的関数を最小化するように第k列が定められた、第k列以外は単位行列である行列を乗じることにより更新を行い、前記更新を繰り返すことで前記分離行列W を求める、
音源分離方法
【請求項4】
音響信号を取得する複数のマイクロホンを備える収音部と、
取得された前記音響信号を時間領域から周波数領域に変換させ、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行う音源分離部と、
と備える音源分離装置であって、
前記音源分離部が、
周波数f毎に且つk=1,…,Mの間で次式の前記行基本変形に基づく変換式によって更新を行い、
【数4】
未知ベクトルv kf =(v ,…,v (Tは転置を表す、kは音源信号の番号であり1からマイクロホン数Mまでの整数、fは周波数を表すインデックス)を、前記目的関数を用いて解き、
=(w 1f ,…,w Kf は分離行列であり、Hはエルミート転置であり、Kは音源数であり、Mは前記音響信号を収音したマイクロホン数であり、K=Mであり、
前記音源分離部が、
周波数f毎に、分離行列W に対して、前記目的関数を最小化するように第k列が定められた、第k列以外は単位行列である行列を乗じることにより更新を行い、前記更新を繰り返すことで前記分離行列W を求める、
音源分離装置
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音源分離プログラム、音源分離方法、および音源分離装置に関する。
本願は、2020年2月28日に、アメリカ合衆国に仮出願された62/982,755に基づき優先権を主張し、その内容をここに援用する。
【背景技術】
【0002】
マイクロホンによって収音された信号には、音源信号と雑音信号とが混合された混合信号の場合が多い。このような混合信号に対して、音源方稿などの事前情報なしに、音源信号を推定する手法としてブラインド音源分離の手法が知られている。ブラインド音源分離では、混合信号に対して分離行列Wを用いて音源を分離する。ここで、音源数がN個、マイクロホン数がM個の場合、分離行列Wは、N行×M列の行列となる。ここで、観測される信号xは、混合前の音源sと混合行列Aの積で表される。そして、分離行列Wは、この混合行列Aの逆行列A-1である。分離行列Wを求める手法として、例えば、独立成分分析(Independent Component Analysis;ICA)、独立ベクトル分析(Independent Vector Analysis;IVA)などがある。
【0003】
さらに、ブラインド音源分離を行う手法として、近年、補助関数を用いたAuxICA(補助関数型独立成分分析;例えば非特許文献1参照)、AuxIVA(補助関数型独立ベクトル分析;例えば非特許文献2参照)等が提案されている。
【0004】
AuxIVAでは、次式(1)の補助関数Qを反復的に最小化することにより分離行列の推定を行う。なお、数式において、大文字太字は行列、小文字変数の太字はベクトル、普通の小文字変数はスカラーを表す。
【0005】
【数1】
【0006】
式(1)において、kは音源信号のインデックスであり、fは周波数を表すインデックスであり、Fは周波数の総数である。W=(w1f…wKfは推定したい分離行列であり、Mは音源数(=マイクロホン数)であり、Hはエルミート転置である。また、Vkfは、ICA、IVA等、手法によって異なる方法で計算される半正定値行列である。式(1)を分離行列Wに関して最小化することは簡単ではないため、AuxIVAは、行ベクトルを、次式(2)、次式(3)の更新式を用いて1つずつ順番に更新する。
【0007】
【数2】
【0008】
【数3】
【0009】
なお、式(2)において、Vkfは次式(4)である。
【0010】
【数4】
【0011】
ただしeは、m番目の要素のみが1で他の要素は0であるK次元の単位ベクトルである。ここでは、この手法をIP(Iterative Projection)と呼ぶ。
【先行技術文献】
【非特許文献】
【0012】
【文献】N. Ono and S. Miyabe, “Auxiliary-function-based independent component analysis for super-Gaussian sources”, Proc. LVA/ICA, vol. 6365, no. 6, pp. 165-172, Sep. 2010.
【文献】N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique”, in Proc. IEEE WASPAA, New Paltz, NY, USA, Oct. 2011, pp. 189-192.
【発明の概要】
【発明が解決しようとする課題】
【0013】
しかしながら、従来技術のIPのような手法では、マイクロホン数が増えるに従い、式(2)において逆行列演算の計算コストが大きくなるという課題があった。
【0014】
本発明は、上記の問題点に鑑みてなされたものであって、逆行列の算出を行わずに高速に音源分離することが可能な音源分離プログラム、音源分離方法、および音源分離装置を提供することを目的とする。
【課題を解決するための手段】
【0015】
上記目的を達成するため、本発明の一態様に係る音源分離プログラムは、コンピュータに、音響信号を取得させ、取得された前記音響信号を時間領域から周波数領域に変換させ、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行わせる。
【0016】
また、本発明の一態様に係る音源分離プログラムにおいて、前記コンピュータに、周波数f毎に且つk=1,…,Mの間で次式の前記行基本変形に基づく変換式によって更新を行わせ、
【数5】
未知ベクトルvkf=(v,…,v(Tは転置を表す、kは音源信号の番号であり1からマイクロホン数Mまでの整数、fは周波数を表すインデックス)を、前記関数を用いて解かせ、W=(w1f,…,wKfは分離行列であり、Hはエルミート転置であり、Kは音源数であり、Mは前記音響信号を収音したマイクロホン数であり、K=Mであるようにしてもよい。
【0017】
また、本発明の一態様に係る音源分離プログラムにおいて、前記コンピュータに、周波数f毎に、分離行列Wに対して、前記関数を最小化するように第k列が定められた、第k列以外は単位行列である行列を乗じることにより更新を行い、前記処理を繰り返すことで前記分離行列Wを求めさせるようにしてもよい。
【0018】
また、本発明の一態様に係る音源分離プログラムにおいて、前記関数は、次式であり、
【数6】
前記分離行列Wは(w1f…wKfであり、Fは周波数の総数であり、Hはエルミート転置であり、Vkfは重み付き共分散行列であるようにしてもよい。
【0019】
上記目的を達成するため、本発明の一態様に係る音源分離方法は、複数のマイクロホンを備える収音部が、音響信号を取得し、音源分離部が、取得された前記音響信号を時間領域から周波数領域に変換し、前記音源分離部が、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行う。
【0020】
上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を取得する複数のマイクロホンを備える収音部と、取得された前記音響信号を時間領域から周波数領域に変換させ、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行う音源分離部と、と備える。
【発明の効果】
【0021】
本発明によれば、逆行列の算出を行わずに高速に音源分離することが可能となる。
【図面の簡単な説明】
【0022】
図1】ブラインド音源分離処理の概要を示す図である。
図2】実施形態に係る音源分離装置の構成の一例を示す図である。
図3】行基本変形による更新を説明するための図である。
図4】補助関数を用いた補助係数法の概要を説明するための図である。
図5】実施形態に係る音源分離のISSアルゴリズムの一例を示す図である。
図6】比較例のIPアルゴリズムを示す図である。
図7】実施形態の更新の効率化を説明するための図である。
図8】シミュレーションにもちいた部屋の残響時間のヒストグラムである。
図9】10M回繰り返した後のSDRを示す図である。
図10】10M回繰り返した後のSIRを示す図である。
図11】繰り返し毎の演算時を示す図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施の形態について図面を参照しながら説明する。
【0024】
(概要)
まず、実施形態の概要を説明する。図1は、ブラインド音源分離処理の概要を示す図である。図1のように、ブラインド音源分離では、分離フィルタ(分離行列)Wを用いて、混合音から分離音を分離する。本実施形態では、分離行列Wの算出を、行ベクトル毎に更新する代わりに、行列のランク(階数)1更新によって行う。これにより、本実施形態では、ブラインド音源分離のさらなる高速化を実現できる。
【0025】
(音源分離装置の構成例)
次に、音源分離装置の構成例を説明する。
図2は、本実施形態に係る音源分離装置1の構成の一例を示す図である。図2のように、音源分離装置1は、取得部11、音源分離部12、および出力部13を備える。
音源分離部12は、STFT部121、分離部122、および逆STFT部123を備える。
【0026】
(音源分離装置の動作)
次に、音源分離装置1の動作を、図1を参照して説明する。
音源分離装置1は、マイクロホン2(収音部)が収音した混合信号から音源信号を分離する。なお、マイクロホン2は、複数のマイクロホンから構成されているマイクロホンアレイである。
【0027】
取得部11は、マイクロホン2が出力する混合信号(音響信号)を取得する。取得部11は、混合信号をアナログ信号からデジタル信号に変換し、変換した混合信号を音源分離部12に出力する。
【0028】
音源分離部12は、例えばパーソナルコンピュータ、CPU(中央演算装置)、DSP(デジタル信号処理装置)、ASIC(特定用途向け集積回路)等であってもよい。
【0029】
STFT部121は、取得部11が出力する混合信号を、短時間フーリエ変換(Short-Time Fourier Transform)によって、時間領域から周波数領域に変換する。
【0030】
分離部122は、短時間フーリエ変換された混合信号に対する分離行列Wの代わりに、補助関数を反復的に最小化することで音源分離を行う。なお、補助関数、処理アルゴリズム等については後述する。
【0031】
逆STFT部123は、分離部122が分離した周波数領域の音源信号を、逆短時間フーリエ変換によって、周波数領域から時間領域に変換する。
【0032】
出力部13は、音源分離部12が分離した音源信号を、外部装置(例えばスピーカー)に出力する。
【0033】
(信号処理の例)
次に、音源分離処置における信号処理の例を説明する。
なお、以下の例では、AuxIVA(補助関数型独立ベクトル分析)を例に説明するが、これに限らない。実施形態の分離行列の更新則は,AuxICA(補助関数型独立成分分析)、ILRMA(独立低ランク行列分析;Independent Low-Rank MAtrix)などへも適用可能である。
【0034】
M個のマイクロホンで収音されたK個の音源が混合された混合音は、次式(5)のように表すことができる。なお、実施形態で用いる数式において、大文字太字は行列、小文字変数の太字はベクトル、普通の小文字変数はスカラーを表す。
【0035】
【数7】
【0036】
式(5)において、x^[t]はm番目のマイクロホンの信号であり、s^[t]はk番目の音源信号であり、a^mk[t]はマイクロホン信号と音源信号とのインパルス応答である。また、星印は畳み込み演算を表している。時間周波数領域では、畳み込みは、周波数毎の乗算になり、次式(6)のようになる。
【0037】
【数8】
【0038】
式(6)において、xmfnはx^m[t]を短時間フーリエ変換したものであり、skfnはs^[t]を短時間フーリエ変換したものであり、amk[f]はa^mk[t]を離散フーリエ変換したものである。f(=1,…,F)は離散周波数ビンであり、n(=1,…,N)は周波数のインデックスである。なお、式(6)は、フーリエ変換がインパルス応答よりも十分に長い場合に有効な近似値である。周波数fでのマイクロホン信号と音源信号をベクトルでグループ化すると、次式(7)のようにマイクロホン信号を音源信号の線形混合として表現することができる。
【0039】
【数9】
【0040】
式(7)において、Aは(Amk=amkfによる混合行列である。
独立ベクトル分析(Independent Vector Analysis;IVA)の目的は、次式(8)における分離行列W(=[w1f,…,wMf)を求めることである。
【0041】
【数10】
【0042】
式(8)において、yfnは分離信号である。IVAでは、情報源が統計的に独立していると仮定し、音源信号の分布が球状のスーパーガウス分布(p(sk1n,…,skFn)~e-G(√(Σkfn))、Gは例えばラプラス関数G(r)=rまたはコーシー関数G(r)=-log(1+r/v))であると仮定する。AuxIVAでは、これらの仮定の下で次式(9)の補助関数Qを反復的に最小化することにより分離行列の推定を行う。
【0043】
【数11】
【0044】
換言すると、式(9)は、分離ベクトルの二次形式(1項目)と、分離行列の行列式(2項目)からなる関数である。なお、式(9)は、他の項を含んでいてもよい。また、式(9)の2項目は、行列式の対数に限らず他の形式であってもよい。
また、式(9)において、Vkfは次式(10)である。
【0045】
【数12】
【0046】
また、式(10)においてφ(r)は音源モデルに依存して決まる非線形関数であり、例えばφ(r)=1/rである。また、rknは次式(11)である。
【0047】
【数13】
【0048】
従来のAuxIVA等では、次式(12)、(13)を用いて行ベクトルと1つずつ順番に更新する。以下の説明では、このような手法をIP(iterative projection)と呼ぶ。
【0049】
【数14】
【0050】
【数15】
【0051】
このようなIP法では、マイクロホン数が増えるに従い、式(12)の逆行列演算の計算コストが大きくなってしまう。
【0052】
(本実施形態のISS手法)
次に、本実施形態の手法を説明する。なお、本実施形態の手法を、ISS(Iterative Source Steering)ともいう。
本実施形態では、分離行列Wを行ベクトル毎に更新する代わりに、次式(14)のように行基本変形に基づく更新を行うことで分離行列Wを求める。なお、行基本変形に基づく更新では、周波数f毎に、且つk=1,…,Mの間で処理が繰り返される。
【0053】
【数16】
【0054】
式(14)において、vkf(=(v1kf,…,vMkf(Tは転置を表す)))は、算出する未知ベクトルである。
図3は、行基本変形による更新を説明するための図である。g101が示す領域は、本実施形態のISS手法による更新を説明するための図である。実施形態では、分離行列W(g103)に対して、第k列(g103)以外を、対角行列(g102)である行列を左から乗じることにより、行基本変形による更新を行う。
g111が示す領域は、従来のIP手法による更新を説明するための図である。従来のIP手法では、分離行列k行目(g113)の更新を行う。
【0055】
式(14)における未知ベクトルvkfの算出は、次式(15)の補助関数Q(vkf)を最小化するvkfを見つけることで行うことができる。
【0056】
【数17】
【0057】
式(15)においてfを省略すると次式(16)のようになる。
【0058】
【数18】
【0059】
式(16)において、Vは次式(17)である。
【0060】
【数19】
【0061】
式(15)、(16)において、アスタリスク*は、複素共役を表す。
なお、補助関数Qは周波数f毎の寄与に分割できるため、以下の説明では周波数インデックスfを省略して表記する。この最小化問題(次式(18))は、次式(19)のように解くことができる。なお、式(18)のCは、複素数全体の集合である。
【0062】
【数20】
【0063】
【数21】
【0064】
fを省略しない場合は、次式(20)となる。
【0065】
【数22】
【0066】
ここで、行列の行列式に関する定理を適用すると、次式(21)のようになる。
【0067】
【数23】
【0068】
式(16)において、定数項を省くと補助関数Qは次式(22)のように単純化できる。
【0069】
【数24】
【0070】
mkに関して複素微分をとると、次式(23)のようになる。
【0071】
【数25】
【0072】
式(23)をゼロに等しくするとことで、所望の結果が得られる。この更新式は、逆行列演算を含まない。また、ykn=w に注意すれば、更新に必要な量は次式(24)、(25)のみとなる。なお、φ(rmn)は音源モデルに依存して決まる非線形関数である。
【0073】
【数26】
【0074】
【数27】
【0075】
式(24)、(25)において、fを省略しない場合は、次式(26)、(27)となる。
【0076】
【数28】
【0077】
【数29】
【0078】
本実施形態では、Vの要素全体を求めることなく、式(24)、(25)の右辺のように効率的に計算できる。さらに、右辺の計算に必要なのはyであるから、本実施形態では、次式(28)の更新を行えばよい。
【0079】
【数30】
【0080】
式(28)において、fを省略しない場合は、次式(29)となる。
【0081】
【数31】
【0082】
これらの量はmに対して必要であり、それぞれがN個の演算を必要とするため、更新あたりの総複雑度はO(MN)である。なお、k個ごとの更新では、すべてのVを必要とし、すべての復調フィルタを変更する必要がある。これに対して、本実施形態では、rknを反復ごとに1回だけ更新するだけで十分である。
【0083】
ここで、補助関数を用いた補助係数法の概要を説明する。
ここでは、関数J(θ)の最小化問題(J(θ)→min)を例に説明する。目的関数と補助関数とは、J(θ)=minηQ(θ,η)の関係を満たす。この関係より、任意の補助変数ηに対して補助関数Q(θ,η)≧目的関数J(θ)を満たし、任意のパラメータθに対してJ(θ)=Q(θ,η)を満たす補助変数ηが存在する。そして、補助関数法では、補助関数をパラメータθと補助変数ηについて、次式(30)と(31)によって最小化を交互に行う。なお、kは反復階数を表す正の整数である。
【0084】
【数32】
【0085】
【数33】
【0086】
図3は、補助関数を用いた補助係数法の概要を説明するための図である。図3において横軸はパラメータθである。
式(26)は、現在の推定値θ=θ(k)で目的関数J(θ)と等しくなるような補助関数Q(θ,η(k+1))を計算する操作である。また、式(27)は、補助関数Q(θ,η(k+1))を最小化する操作である。そして、反復処理を繰り返し、図3のようにパラメータを更新して、最小化していく。このように補助関数法は、目的関数J(θ)の代わりに、J(θ)=minηQ(θ,η)の関係を満たす補助関数Q(θ,η)を反復的に最小化するアルゴリズムである(参考文献1参照)。
【0087】
参考文献1;小野順貴、「補助関数法による最適化アルゴリズムとその音響信号処理への応用」、日本音響学会、日本音響学会誌 68巻11号、2012、pp.566-571
【0088】
(アルゴリズムの説明)
次に、本実施形態の音源分離のISSアルゴリズムの一例を説明する。
図5は、本実施形態に係る音源分離のISSアルゴリズムの一例を示す図である。入力される混合信号を{xfn}とし、分離信号を{yfn}とする。
1から最大値まで以下の処理を繰り返す(g201)。
全てのk、nに対してrknに√(Σ|ykfn|)を代入する。
kについて、1からMまで処理を繰り返す(g202)。
fについて、1からFまで以下の処理を繰り返す(g203)。
km(m=k以外)に{(Σφ(rmn)ymfnkfn )/(Σφ(rmn)|ykfn)}を代入し、vkkに{1-(Σφ(rmn)|ykfn(-1/2)}を代入し、全てのnについてyfnに(yfn-vkfn)を代入する。
【0089】
図4のように、本実施形態では、逆行列の算出手順がなく共分散行列もない。計算量は、O(FMN)/繰り返し、である。
【0090】
(比較例;IPアルゴリズム)
ここで、前述したIPアルゴリズムでの処理例を説明する。
図6は、比較例のIPアルゴリズムを示す図である。
以下の処理を、1から最大値まで繰り返す(g901)。
全てのk、nに対してrknに√(Σ|ykfn|)を代入する。
kについて、1からMまで処理を繰り返す(g902)。
fについて、1からFまで処理を繰り返す(g903)。
kmに{1/N(Σφ(rkn)xfn fn}を代入し、wkfに{(Wkf-1}を代入し、wkfに{wkf/√(x fnkfkf)}、全てのnについてyfnに(x fnkf)を代入する。
【0091】
(IPアルゴリズムとISSアルゴリズムの計算量の比較)
図5図6を比較すると、IPアルゴリズムは、g903の処理の中で分離行列Wの逆行列を算出処理が含まれている。このような逆行列を求めるコストはO(M)である。また、共分散行列の演算に要するコストはO(MN)である。IPアルゴリズムの総合計算量は、O(FMN)/繰り返し、である。
【0092】
図7は、本実施形態の更新の効率化を説明するための図である。
AuxIVA-IPは分離行列Wの行を更新する。これに対して本実施形態のISSアルゴリズムは、混合行列の列、すなわちA=W-1のk番目のステアリングベクトルを更新する。更新では、例えばシャーマンモリソンの手法を用いて近似逆行列を求める。式(14)のW=A-1への更新は等価である。処理は、例えば次式(32)のように、k番目のステアリングベクトルを同量だけ変化させる。なお、混合行列A=[a,…,a]は、音源のステアリングベクトルに従う。
【0093】
【数34】
【0094】
なお、ベクトルa+uは、ベクトル{1/(1-vkk)}aとベクトル{1/(1-vkk)}aをv倍したベクトル{v/(1-vkk)}aの和である。また、シャーマンモリソンの式においてW=A-1であるので、式(32)は次式(33)のようになる。
【0095】
【数35】
【0096】
式(14)と同一化することで、v=Wu(1+w u)-1となることがわかる。
式(32)において、k番目のステアリングベクトルは、他のソースのステアリングベクトルの重み付けされた和によって更新され、その後、再スケーリングが行われる。m≠kの場合の係数vmkは、m番目の音源推定値yのノイズをyの部分空間に投影したものであり、次式(34)のように表される。
【0097】
【数36】
【0098】
φ(r)の性質からφ(rmn)は、m番目のソースがアクティブなときに小さくなり、m番目のソースがアクティブではないときには大きくなる。したがって、本実施形態では、k番目のステアリングベクトルをm番目のステアリングベクトルに比例した量だけ修正する。なお、本実施形態では、反復処理中に信号のスケールを維持するためにスケーリングが必要である。
この処理によって、例えば第1の信号g311と、他の信号g312とに分離する。
【0099】
次に、IPアルゴリズムと本実施形態のISSアルゴリズムの比較結果例を説明する。
IPアルゴリズムにおける分離行列Wのk番目の行の更新の演算量は、共分散行列Vkfか線形システムのどちらかに支配される。上述したように、IPアルゴリズムの演算量は、O(M)であり、ISSアルゴリズムの演算量はO(MN)である。
IPアルゴリズムでは、M行目の更新とF周波数帯の更新を繰り返すので、1回の反復の全体的な計算量CIPは、次式(35)であり、少なくともO(M)である。
【0100】
【数37】
【0101】
ISSアルゴリズムでは、m,k=1,…,Mの場合に、反復ごとに式(19)と(21)を計算する。また、rkn,∀,nの計算は、1回の反復ごとにO(FMN)の計算量を有している。したがって,反復あたりの全体的な計算量CISSは次式(36)である。
【0102】
【数38】
【0103】
ただし、ISSアルゴリズムの計算量は、単一の共分散行列を繰り返し使用する。また、オンライン処理のようなN=1の場合の計算量は、マイクロホンの数の2次関数である。
【0104】
(検証結果)
次に、比較例のIPアルゴリズムと本実施形態のISSアルゴリズムを実験によって比較した結果を説明する。
【0105】
まず、実験環境を説明する。
実験は、Python(登録商標)パッケージを使用して、次のようなシミュレーションを行った。
・6[m]から10[m]の間の壁を持つ100のランダムな長方形の部屋と、天井高が2.8[m]から4.5[m]までの高さのものを使用した。
・室内の音のエネルギーが-60[dB]になるまでの時間である残響時間(T60)は60[ms]から540[ms]の範囲とした。
図8は、シミュレーションにもちいた部屋の残響時間のヒストグラムである。横軸は残響時間RT60[ms]であり、縦軸は周波数[kHz]である。
【0106】
音源とマイクロホンアレイは、少なくとも50[cm]の位置にランダムに配置し、壁から離れて、高さ1[m]から2[m]の間配置した。マイクロホンアレイは、10個のマイクロホンを持ち、半径が3.2[cm]の円形で、マイクロホンの間隔が2[cm]である。
音源とマイクロホンアレイ中心との間の距離は、少なくとも臨界距離がdcrit=0.057√(V=T60)[m]である。Vは体積部屋である。第1のマイクロホンでは、音源信号を正規化した単位電力を使用する。
【0107】
SNR=M/σ と定義する。σ は、マイクロホンでの無相関ホワイトノイズの分散である。SNRは30[dB]に固定した。分離は、2,3,4,6,8,10の音源に対して行った。
【0108】
なお、音源数はマイクロホン数以下である。サンプリング周波数は16[kHz]で、STFTフレームサイズは256[ms]で、ハーフオーバーラップである。解析と合成のために、にハミングウィンドウによるマッチングウィンドウを用いた。実験では、比較例のAuxIVA-IPアルゴリズムと本実施形態のISSアルゴリズムそれぞれを10M回繰り返して(Mはマイクロホンの数)分離した。分離後、出力のスケールは第一のマイクロホンに投影して復元した。
【0109】
評価指標には、信号対歪み比(SDR)と信号対干渉比(SIR)を用いた。SDRとSIRは分離前と分離後に測定した。図9は、10M[回]繰り返した後のSDRを示す図である。図10は、10M[回]繰り返した後のSIRを示す図である。図9、10において、横軸チャネル数であり、縦軸は改善量[dB]である。図9、10において、符号g401は比較例のAuxIVA-IPアルゴリズムの結果であり、符号g402は本実施形態のISSアルゴリズムの結果である。図9、10のように、本実施形態のISSアルゴリズムを用いた結果は、比較例のAuxIVA-IPアルゴリズムを用いた結果と同等であった。
【0110】
次に、分離の演算に要した時間を比較した結果を説明する。
図11は、繰り返し毎の演算時を示す図である。図11において、横軸はチャネルであり、縦軸は繰り返し毎の処理時間[ms]である。図11において、符号g451は比較例のAuxIVA-IPアルゴリズムの結果であり、符号g452は本実施形態のISSアルゴリズムの結果である。実験では、1~17個の音源について確認した。なお、シミュレーションには、クロック周波数が3.3[GHz]で10コアのCPU(中央演算装置)を搭載したワークステーションで行った。図11の結果は1回の繰り返しの平均実行時間を示している。
【0111】
図11のように、比較例と比較して本実施形態のISSアルゴリズムの方が、音源数が増えるほど演算にかかる時間が短くなっている。すなわち、本実施形態のISSアルゴリズムの方が比較例のAuxIVA-IPより演算コストを低減できる。
【0112】
以上のように、本実施形態では、音源分離に補助関数法に基づく独立ベクトル分析のための反復的ソースステアリングを導入した。比較例のAuxIVA-IPが復号化ベクトルを交互に更新していたのに対し、本実施形態にアルゴリズムは行基本変形に基づく更新を連続して行うようにした。これにより、本実施形態では、逆行列のない計算複雑度の低い更新規則が得られ、安定性と速度が高速化でき、重要な実用的な実装に理想的な手法である。本実施形態の手法は、ある音源のステアリングベクトルを、他の音源の残留雑音の音源部分空間への投影に比例した量だけ更新することになる。
シミュレーション結果より本実施形態の手法は、音源分離のために効率的なものであることが確認され、計算コストが削減できることが確認できた。
【0113】
なお、上述した音声認識方法、プログラム、音声認識装置は、音声認識システム、遠隔会議システム、WEB会議システム、スマートスピーカー、家電の音声入力インタフェース、補聴器、ロボット聴覚等にも適用可能である。
【0114】
なお、本発明における音源分離部12の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離部12が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0115】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0116】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
【符号の説明】
【0117】
1…音源分離装置、11…取得部、12…音源分離部、13…出力部、121…STFT部、122…分離部、123…逆STFT部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11