7683938 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7683938音源分離プログラム、音源分離方法、および音源分離装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-05-19

(45)【発行日】2025-05-27

(54)【発明の名称】音源分離プログラム、音源分離方法、および音源分離装置

(51)【国際特許分類】

G10L 21/0308 20130101AFI20250520BHJP

【ＦＩ】

G10L21/0308 Z

【請求項の数】 4

(21)【出願番号】P 2022503752

(86)(22)【出願日】2021-02-26

(86)【国際出願番号】 JP2021007398

(87)【国際公開番号】W WO2021172524

(87)【国際公開日】2021-09-02

【審査請求日】2023-11-16

(31)【優先権主張番号】62/982,755

(32)【優先日】2020-02-28

(33)【優先権主張国・地域又は機関】US

【国等の委託研究の成果に係る記載事項】（出願人による申告）令和元年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、音メディアコミュニケーションにおける共創型機能拡張技術の創出「共創型聴覚機能拡張技術の構築」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(73)【特許権者】

【識別番号】305027401

【氏名又は名称】東京都公立大学法人

(74)【代理人】

【識別番号】100165179

【弁理士】

【氏名又は名称】田▲崎▼ 聡

(74)【代理人】

【識別番号】100175824

【弁理士】

【氏名又は名称】小林淳一

(74)【代理人】

【識別番号】100152272

【弁理士】

【氏名又は名称】川越雄一郎

(74)【代理人】

【識別番号】100181722

【弁理士】

【氏名又は名称】春田洋孝

(72)【発明者】

【氏名】小野順貴

(72)【発明者】

【氏名】シャイブラーロビン

【審査官】中村天真

(56)【参考文献】

【文献】特開２０１４－０４１３０８（ＪＰ，Ａ）

【文献】小野順貴, シャイブラーロビン，分離行列のランク１更新によるブラインド音源分離，日本音響学会講演論文集，2020年03月，p.207-208，ISSN 1880-7658

【文献】MAKISHIMA Naoki, et al.，Column-wise update algorithm for independent deeply learned matrix analysis，Proceedings of the 23rd International Congress on Acoustics，2019年09月，p.2805-2812，ISSN 2570-2092

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２１／００－２１／１８

(57)【特許請求の範囲】

【請求項1】

コンピュータに、
音響信号を取得させ、
取得された前記音響信号を時間領域から周波数領域に変換させ、
前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行わせる、
音源分離プログラムであって、
前記音源分離プログラムは、前記コンピュータに、
周波数ｆ毎に且つｋ＝１，…，Ｍの間で次式の前記行基本変形に基づく変換式によって更新を行わせ、

【数1】

未知ベクトルｖ _ｋｆ＝（ｖ _１，…，ｖ _Ｍ） ^Ｔ（Ｔは転置を表す、ｋは音源信号の番号であり１からマイクロホン数Ｍまでの整数、ｆは周波数を表すインデックス）を、前記目的関数を用いて解かせ、
Ｗ _ｆ＝（ｗ _１ｆ，…，ｗ _Ｋｆ） ^Ｈは分離行列であり、Ｈはエルミート転置であり、Ｋは音源数であり、Ｍは前記音響信号を収音したマイクロホン数であり、Ｋ＝Ｍであり、
前記音源分離プログラムは、前記コンピュータに、
周波数ｆ毎に、分離行列Ｗ _ｆに対して、前記目的関数を最小化するように第ｋ列が定められた、第ｋ列以外は単位行列である行列を乗じることにより更新を行い、前記更新を繰り返すことで前記分離行列Ｗ _ｆを求めさせる、
音源分離プログラム。

【請求項2】

前記目的関数は、次式であり、

【数2】

前記分離行列Ｗ_ｆは（ｗ_１ｆ…ｗ_Ｋｆ）^Ｈであり、Ｆは周波数の総数であり、Ｈはエルミート転置であり、Ｖ_ｋｆは重み付き共分散行列である、
請求項１に記載の音源分離プログラム。

【請求項3】

複数のマイクロホンを備える収音部が、音響信号を取得し、
音源分離部が、取得された前記音響信号を時間領域から周波数領域に変換し、
前記音源分離部が、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行う、
音源分離方法であって、
前記音源分離部が、
周波数ｆ毎に且つｋ＝１，…，Ｍの間で次式の前記行基本変形に基づく変換式によって更新を行い、

【数3】

未知ベクトルｖ _ｋｆ＝（ｖ _１，…，ｖ _Ｍ） ^Ｔ（Ｔは転置を表す、ｋは音源信号の番号であり１からマイクロホン数Ｍまでの整数、ｆは周波数を表すインデックス）を、前記目的関数を用いて解き、
Ｗ _ｆ＝（ｗ _１ｆ，…，ｗ _Ｋｆ） ^Ｈは分離行列であり、Ｈはエルミート転置であり、Ｋは音源数であり、Ｍは前記音響信号を収音したマイクロホン数であり、Ｋ＝Ｍであり、
前記音源分離部が、
周波数ｆ毎に、分離行列Ｗ _ｆに対して、前記目的関数を最小化するように第ｋ列が定められた、第ｋ列以外は単位行列である行列を乗じることにより更新を行い、前記更新を繰り返すことで前記分離行列Ｗ _ｆを求める、
音源分離方法。

【請求項4】

音響信号を取得する複数のマイクロホンを備える収音部と、
取得された前記音響信号を時間領域から周波数領域に変換させ、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行う音源分離部と、
と備える音源分離装置であって、
前記音源分離部が、
周波数ｆ毎に且つｋ＝１，…，Ｍの間で次式の前記行基本変形に基づく変換式によって更新を行い、

【数4】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音源分離プログラム、音源分離方法、および音源分離装置に関する。
本願は、２０２０年２月２８日に、アメリカ合衆国に仮出願された６２／９８２，７５５に基づき優先権を主張し、その内容をここに援用する。

【背景技術】

【0002】

マイクロホンによって収音された信号には、音源信号と雑音信号とが混合された混合信号の場合が多い。このような混合信号に対して、音源方稿などの事前情報なしに、音源信号を推定する手法としてブラインド音源分離の手法が知られている。ブラインド音源分離では、混合信号に対して分離行列Ｗを用いて音源を分離する。ここで、音源数がＮ個、マイクロホン数がＭ個の場合、分離行列Ｗは、Ｎ行×Ｍ列の行列となる。ここで、観測される信号ｘは、混合前の音源ｓと混合行列Ａの積で表される。そして、分離行列Ｗは、この混合行列Ａの逆行列Ａ^－１である。分離行列Ｗを求める手法として、例えば、独立成分分析（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ；ＩＣＡ）、独立ベクトル分析（ＩｎｄｅｐｅｎｄｅｎｔＶｅｃｔｏｒＡｎａｌｙｓｉｓ；ＩＶＡ）などがある。

【0003】

さらに、ブラインド音源分離を行う手法として、近年、補助関数を用いたＡｕｘＩＣＡ（補助関数型独立成分分析；例えば非特許文献１参照）、ＡｕｘＩＶＡ（補助関数型独立ベクトル分析；例えば非特許文献２参照）等が提案されている。

【0004】

ＡｕｘＩＶＡでは、次式（１）の補助関数Ｑを反復的に最小化することにより分離行列の推定を行う。なお、数式において、大文字太字は行列、小文字変数の太字はベクトル、普通の小文字変数はスカラーを表す。

【0005】

【数1】

【0006】

式（１）において、ｋは音源信号のインデックスであり、ｆは周波数を表すインデックスであり、Ｆは周波数の総数である。Ｗ_ｆ＝（ｗ_１ｆ…ｗ_Ｋｆ）^Ｈは推定したい分離行列であり、Ｍは音源数（＝マイクロホン数）であり、Ｈはエルミート転置である。また、Ｖ_ｋｆは、ＩＣＡ、ＩＶＡ等、手法によって異なる方法で計算される半正定値行列である。式（１）を分離行列Ｗ_ｆに関して最小化することは簡単ではないため、ＡｕｘＩＶＡは、行ベクトルを、次式（２）、次式（３）の更新式を用いて１つずつ順番に更新する。

【0007】

【数2】

【0008】

【数3】

【0009】

なお、式（２）において、Ｖ_ｋｆは次式（４）である。

【0010】

【数4】

【0011】

ただしｅ_ｍは、ｍ番目の要素のみが１で他の要素は０であるＫ次元の単位ベクトルである。ここでは、この手法をＩＰ（ＩｔｅｒａｔｉｖｅＰｒｏｊｅｃｔｉｏｎ）と呼ぶ。

【先行技術文献】

【非特許文献】

【0012】

【文献】N. Ono and S. Miyabe, “Auxiliary-function-based independent component analysis for super-Gaussian sources”, Proc. LVA/ICA, vol. 6365, no. 6, pp. 165-172, Sep. 2010.

【文献】N. Ono, “Stable and fast update rules for independent vector analysis based on auxiliary function technique”, in Proc. IEEE WASPAA, New Paltz, NY, USA, Oct. 2011, pp. 189-192.

【発明の概要】

【発明が解決しようとする課題】

【0013】

しかしながら、従来技術のＩＰのような手法では、マイクロホン数が増えるに従い、式（２）において逆行列演算の計算コストが大きくなるという課題があった。

【0014】

本発明は、上記の問題点に鑑みてなされたものであって、逆行列の算出を行わずに高速に音源分離することが可能な音源分離プログラム、音源分離方法、および音源分離装置を提供することを目的とする。

【課題を解決するための手段】

【0015】

上記目的を達成するため、本発明の一態様に係る音源分離プログラムは、コンピュータに、音響信号を取得させ、取得された前記音響信号を時間領域から周波数領域に変換させ、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行わせる。

【0016】

また、本発明の一態様に係る音源分離プログラムにおいて、前記コンピュータに、周波数ｆ毎に且つｋ＝１，…，Ｍの間で次式の前記行基本変形に基づく変換式によって更新を行わせ、

【数5】

未知ベクトルｖ_ｋｆ＝（ｖ_１，…，ｖ_Ｍ）^Ｔ（Ｔは転置を表す、ｋは音源信号の番号であり１からマイクロホン数Ｍまでの整数、ｆは周波数を表すインデックス）を、前記関数を用いて解かせ、Ｗ_ｆ＝（ｗ_１ｆ，…，ｗ_Ｋｆ）^Ｈは分離行列であり、Ｈはエルミート転置であり、Ｋは音源数であり、Ｍは前記音響信号を収音したマイクロホン数であり、Ｋ＝Ｍであるようにしてもよい。

【0017】

また、本発明の一態様に係る音源分離プログラムにおいて、前記コンピュータに、周波数ｆ毎に、分離行列Ｗ_ｆに対して、前記関数を最小化するように第ｋ列が定められた、第ｋ列以外は単位行列である行列を乗じることにより更新を行い、前記処理を繰り返すことで前記分離行列Ｗ_ｆを求めさせるようにしてもよい。

【0018】

また、本発明の一態様に係る音源分離プログラムにおいて、前記関数は、次式であり、

【数6】

前記分離行列Ｗ_ｆは（ｗ_１ｆ…ｗ_Ｋｆ）^Ｈであり、Ｆは周波数の総数であり、Ｈはエルミート転置であり、Ｖ_ｋｆは重み付き共分散行列であるようにしてもよい。

【0019】

上記目的を達成するため、本発明の一態様に係る音源分離方法は、複数のマイクロホンを備える収音部が、音響信号を取得し、音源分離部が、取得された前記音響信号を時間領域から周波数領域に変換し、前記音源分離部が、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行う。

【0020】

上記目的を達成するため、本発明の一態様に係る音源分離装置は、音響信号を取得する複数のマイクロホンを備える収音部と、取得された前記音響信号を時間領域から周波数領域に変換させ、前記周波数領域に変換された音響信号に対して、分離行列に対して行基本変形に基づく更新を行って分離ベクトルの二次形式と前記分離行列の行列式を含む目的関数を反復的に最小化して音源分離を行う音源分離部と、と備える。

【発明の効果】

【0021】

本発明によれば、逆行列の算出を行わずに高速に音源分離することが可能となる。

【図面の簡単な説明】

【0022】

【図1】ブラインド音源分離処理の概要を示す図である。

【図2】実施形態に係る音源分離装置の構成の一例を示す図である。

【図3】行基本変形による更新を説明するための図である。

【図4】補助関数を用いた補助係数法の概要を説明するための図である。

【図5】実施形態に係る音源分離のＩＳＳアルゴリズムの一例を示す図である。

【図6】比較例のＩＰアルゴリズムを示す図である。

【図7】実施形態の更新の効率化を説明するための図である。

【図8】シミュレーションにもちいた部屋の残響時間のヒストグラムである。

【図9】１０Ｍ回繰り返した後のＳＤＲを示す図である。

【図10】１０Ｍ回繰り返した後のＳＩＲを示す図である。

【図11】繰り返し毎の演算時を示す図である。

【発明を実施するための形態】

【0023】

以下、本発明の実施の形態について図面を参照しながら説明する。

【0024】

（概要）
まず、実施形態の概要を説明する。図１は、ブラインド音源分離処理の概要を示す図である。図１のように、ブラインド音源分離では、分離フィルタ（分離行列）Ｗを用いて、混合音から分離音を分離する。本実施形態では、分離行列Ｗの算出を、行ベクトル毎に更新する代わりに、行列のランク（階数）１更新によって行う。これにより、本実施形態では、ブラインド音源分離のさらなる高速化を実現できる。

【0025】

（音源分離装置の構成例）
次に、音源分離装置の構成例を説明する。
図２は、本実施形態に係る音源分離装置１の構成の一例を示す図である。図２のように、音源分離装置１は、取得部１１、音源分離部１２、および出力部１３を備える。
音源分離部１２は、ＳＴＦＴ部１２１、分離部１２２、および逆ＳＴＦＴ部１２３を備える。

【0026】

（音源分離装置の動作）
次に、音源分離装置１の動作を、図１を参照して説明する。
音源分離装置１は、マイクロホン２（収音部）が収音した混合信号から音源信号を分離する。なお、マイクロホン２は、複数のマイクロホンから構成されているマイクロホンアレイである。

【0027】

取得部１１は、マイクロホン２が出力する混合信号（音響信号）を取得する。取得部１１は、混合信号をアナログ信号からデジタル信号に変換し、変換した混合信号を音源分離部１２に出力する。

【0028】

音源分離部１２は、例えばパーソナルコンピュータ、ＣＰＵ（中央演算装置）、ＤＳＰ（デジタル信号処理装置）、ＡＳＩＣ（特定用途向け集積回路）等であってもよい。

【0029】

ＳＴＦＴ部１２１は、取得部１１が出力する混合信号を、短時間フーリエ変換（Ｓｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）によって、時間領域から周波数領域に変換する。

【0030】

分離部１２２は、短時間フーリエ変換された混合信号に対する分離行列Ｗの代わりに、補助関数を反復的に最小化することで音源分離を行う。なお、補助関数、処理アルゴリズム等については後述する。

【0031】

逆ＳＴＦＴ部１２３は、分離部１２２が分離した周波数領域の音源信号を、逆短時間フーリエ変換によって、周波数領域から時間領域に変換する。

【0032】

出力部１３は、音源分離部１２が分離した音源信号を、外部装置（例えばスピーカー）に出力する。

【0033】

（信号処理の例）
次に、音源分離処置における信号処理の例を説明する。
なお、以下の例では、ＡｕｘＩＶＡ（補助関数型独立ベクトル分析）を例に説明するが、これに限らない。実施形態の分離行列の更新則は，ＡｕｘＩＣＡ（補助関数型独立成分分析）、ＩＬＲＭＡ（独立低ランク行列分析；ＩｎｄｅｐｅｎｄｅｎｔＬｏｗ－ＲａｎｋＭＡｔｒｉｘ）などへも適用可能である。

【0034】

Ｍ個のマイクロホンで収音されたＫ個の音源が混合された混合音は、次式（５）のように表すことができる。なお、実施形態で用いる数式において、大文字太字は行列、小文字変数の太字はベクトル、普通の小文字変数はスカラーを表す。

【0035】

【数7】

【0036】

式（５）において、ｘ＾_ｍ［ｔ］はｍ番目のマイクロホンの信号であり、ｓ＾_ｋ［ｔ］はｋ番目の音源信号であり、ａ＾_ｍｋ［ｔ］はマイクロホン信号と音源信号とのインパルス応答である。また、星印は畳み込み演算を表している。時間周波数領域では、畳み込みは、周波数毎の乗算になり、次式（６）のようになる。

【0037】

【数8】

【0038】

式（６）において、ｘ_ｍｆｎはｘ＾ｍ［ｔ］を短時間フーリエ変換したものであり、ｓ_ｋｆｎはｓ＾_ｋ［ｔ］を短時間フーリエ変換したものであり、ａ_ｍｋ［ｆ］はａ＾_ｍｋ［ｔ］を離散フーリエ変換したものである。ｆ（＝１，…，Ｆ）は離散周波数ビンであり、ｎ（＝１，…，Ｎ）は周波数のインデックスである。なお、式（６）は、フーリエ変換がインパルス応答よりも十分に長い場合に有効な近似値である。周波数ｆでのマイクロホン信号と音源信号をベクトルでグループ化すると、次式（７）のようにマイクロホン信号を音源信号の線形混合として表現することができる。

【0039】

【数9】

【0040】

式（７）において、Ａ_ｆは（Ａ_ｆ）_ｍｋ＝ａ_ｍｋｆによる混合行列である。
独立ベクトル分析（ＩｎｄｅｐｅｎｄｅｎｔＶｅｃｔｏｒＡｎａｌｙｓｉｓ；ＩＶＡ）の目的は、次式（８）における分離行列Ｗ_ｆ（＝［ｗ_１ｆ，…，ｗ_Ｍｆ］^Ｈ）を求めることである。

【0041】

【数10】

【0042】

式（８）において、ｙ_ｆｎは分離信号である。ＩＶＡでは、情報源が統計的に独立していると仮定し、音源信号の分布が球状のスーパーガウス分布（ｐ（ｓ_ｋ１ｎ，…，ｓ_ｋＦｎ）～ｅ^－Ｇ（√（Σ_ｆｓ_ｋｆｎ））、Ｇは例えばラプラス関数Ｇ（ｒ）＝ｒまたはコーシー関数Ｇ（ｒ）＝－ｌｏｇ（１＋ｒ^２／ｖ））であると仮定する。ＡｕｘＩＶＡでは、これらの仮定の下で次式（９）の補助関数Ｑを反復的に最小化することにより分離行列の推定を行う。

【0043】

【数11】

【0044】

換言すると、式（９）は、分離ベクトルの二次形式（１項目）と、分離行列の行列式（２項目）からなる関数である。なお、式（９）は、他の項を含んでいてもよい。また、式（９）の２項目は、行列式の対数に限らず他の形式であってもよい。
また、式（９）において、Ｖ_ｋｆは次式（１０）である。

【0045】

【数12】

【0046】

また、式（１０）においてφ（ｒ）は音源モデルに依存して決まる非線形関数であり、例えばφ（ｒ）＝１／ｒである。また、ｒ_ｋｎは次式（１１）である。

【0047】

【数13】

【0048】

従来のＡｕｘＩＶＡ等では、次式（１２）、（１３）を用いて行ベクトルと１つずつ順番に更新する。以下の説明では、このような手法をＩＰ（ｉｔｅｒａｔｉｖｅｐｒｏｊｅｃｔｉｏｎ）と呼ぶ。

【0049】

【数14】

【0050】

【数15】

【0051】

このようなＩＰ法では、マイクロホン数が増えるに従い、式（１２）の逆行列演算の計算コストが大きくなってしまう。

【0052】

（本実施形態のＩＳＳ手法）
次に、本実施形態の手法を説明する。なお、本実施形態の手法を、ＩＳＳ（ＩｔｅｒａｔｉｖｅＳｏｕｒｃｅＳｔｅｅｒｉｎｇ）ともいう。
本実施形態では、分離行列Ｗを行ベクトル毎に更新する代わりに、次式（１４）のように行基本変形に基づく更新を行うことで分離行列Ｗを求める。なお、行基本変形に基づく更新では、周波数ｆ毎に、且つｋ＝１，…，Ｍの間で処理が繰り返される。

【0053】

【数16】

【0054】

式（１４）において、ｖ_ｋｆ（＝（ｖ_１ｋｆ，…，ｖ_Ｍｋｆ）^Ｔ（Ｔは転置を表す）））は、算出する未知ベクトルである。
図３は、行基本変形による更新を説明するための図である。ｇ１０１が示す領域は、本実施形態のＩＳＳ手法による更新を説明するための図である。実施形態では、分離行列Ｗ_ｆ（ｇ１０３）に対して、第ｋ列（ｇ１０３）以外を、対角行列（ｇ１０２）である行列を左から乗じることにより、行基本変形による更新を行う。
ｇ１１１が示す領域は、従来のＩＰ手法による更新を説明するための図である。従来のＩＰ手法では、分離行列ｋ行目（ｇ１１３）の更新を行う。

【0055】

式（１４）における未知ベクトルｖ_ｋｆの算出は、次式（１５）の補助関数Ｑ（ｖ_ｋｆ）を最小化するｖ_ｋｆを見つけることで行うことができる。

【0056】

【数17】

【0057】

式（１５）においてｆを省略すると次式（１６）のようになる。

【0058】

【数18】

【0059】

式（１６）において、Ｖ_ｍは次式（１７）である。

【0060】

【数19】

【0061】

式（１５）、（１６）において、アスタリスク＊は、複素共役を表す。
なお、補助関数Ｑは周波数ｆ毎の寄与に分割できるため、以下の説明では周波数インデックスｆを省略して表記する。この最小化問題（次式（１８））は、次式（１９）のように解くことができる。なお、式（１８）のＣは、複素数全体の集合である。

【0062】

【数20】

【0063】

【数21】

【0064】

ｆを省略しない場合は、次式（２０）となる。

【0065】

【数22】

【0066】

ここで、行列の行列式に関する定理を適用すると、次式（２１）のようになる。

【0067】

【数23】

【0068】

式（１６）において、定数項を省くと補助関数Ｑは次式（２２）のように単純化できる。

【0069】

【数24】

【0070】

ｖ^＊ _ｍｋに関して複素微分をとると、次式（２３）のようになる。

【0071】

【数25】

【0072】

式（２３）をゼロに等しくするとことで、所望の結果が得られる。この更新式は、逆行列演算を含まない。また、ｙ_ｋｎ＝ｗ^Ｈ _ｋｘ_ｎに注意すれば、更新に必要な量は次式（２４）、（２５）のみとなる。なお、φ（ｒ_ｍｎ）は音源モデルに依存して決まる非線形関数である。

【0073】

【数26】

【0074】

【数27】

【0075】

式（２４）、（２５）において、ｆを省略しない場合は、次式（２６）、（２７）となる。

【0076】

【数28】

【0077】

【数29】

【0078】

本実施形態では、Ｖ_ｍの要素全体を求めることなく、式（２４）、（２５）の右辺のように効率的に計算できる。さらに、右辺の計算に必要なのはｙ_ｎであるから、本実施形態では、次式（２８）の更新を行えばよい。

【0079】

【数30】

【0080】

式（２８）において、ｆを省略しない場合は、次式（２９）となる。

【0081】

【数31】

【0082】

これらの量はｍに対して必要であり、それぞれがＮ個の演算を必要とするため、更新あたりの総複雑度はＯ（ＭＮ）である。なお、ｋ個ごとの更新では、すべてのＶ_ｋを必要とし、すべての復調フィルタを変更する必要がある。これに対して、本実施形態では、ｒ_ｋｎを反復ごとに１回だけ更新するだけで十分である。

【0083】

ここで、補助関数を用いた補助係数法の概要を説明する。
ここでは、関数Ｊ（θ）の最小化問題（Ｊ（θ）→ｍｉｎ）を例に説明する。目的関数と補助関数とは、Ｊ（θ）＝ｍｉｎ_ηＱ（θ，η）の関係を満たす。この関係より、任意の補助変数ηに対して補助関数Ｑ（θ，η）≧目的関数Ｊ（θ）を満たし、任意のパラメータθに対してＪ（θ）＝Ｑ（θ，η）を満たす補助変数ηが存在する。そして、補助関数法では、補助関数をパラメータθと補助変数ηについて、次式（３０）と（３１）によって最小化を交互に行う。なお、ｋは反復階数を表す正の整数である。

【0084】

【数32】

【0085】

【数33】

【0086】

図３は、補助関数を用いた補助係数法の概要を説明するための図である。図３において横軸はパラメータθである。
式（２６）は、現在の推定値θ＝θ^（ｋ）で目的関数Ｊ（θ）と等しくなるような補助関数Ｑ（θ，η^{（ｋ＋１）}）を計算する操作である。また、式（２７）は、補助関数Ｑ（θ，η^{（ｋ＋１）}）を最小化する操作である。そして、反復処理を繰り返し、図３のようにパラメータを更新して、最小化していく。このように補助関数法は、目的関数Ｊ（θ）の代わりに、Ｊ（θ）＝ｍｉｎ_ηＱ（θ，η）の関係を満たす補助関数Ｑ（θ，η）を反復的に最小化するアルゴリズムである（参考文献１参照）。

【0087】

参考文献１；小野順貴、「補助関数法による最適化アルゴリズムとその音響信号処理への応用」、日本音響学会、日本音響学会誌６８巻１１号、２０１２、ｐｐ．５６６－５７１

【0088】

（アルゴリズムの説明）
次に、本実施形態の音源分離のＩＳＳアルゴリズムの一例を説明する。
図５は、本実施形態に係る音源分離のＩＳＳアルゴリズムの一例を示す図である。入力される混合信号を｛ｘ_ｆｎ｝とし、分離信号を｛ｙ_ｆｎ｝とする。
１から最大値まで以下の処理を繰り返す（ｇ２０１）。
全てのｋ、ｎに対してｒ_ｋｎに√（Σ｜ｙ_ｋｆｎ｜）^２を代入する。
ｋについて、１からＭまで処理を繰り返す（ｇ２０２）。
ｆについて、１からＦまで以下の処理を繰り返す（ｇ２０３）。
ｖ_ｋｍ（ｍ＝ｋ以外）に｛（Σ_ｎφ（ｒ_ｍｎ）ｙ_ｍｆｎｙ_ｋｆｎ ^＊）／（Σ_ｎφ（ｒ_ｍｎ）｜ｙ_ｋｆｎ｜^２）｝を代入し、ｖ_ｋｋに｛１－（Σ_ｎφ（ｒ_ｍｎ）｜ｙ_ｋｆｎ｜^２）^{（－１／２）}｝を代入し、全てのｎについてｙ_ｆｎに（ｙ_ｆｎ－ｖ_ｋｙ_ｋｆｎ）を代入する。

【0089】

図４のように、本実施形態では、逆行列の算出手順がなく共分散行列もない。計算量は、Ｏ（ＦＭ^２Ｎ）／繰り返し、である。

【0090】

（比較例；ＩＰアルゴリズム）
ここで、前述したＩＰアルゴリズムでの処理例を説明する。
図６は、比較例のＩＰアルゴリズムを示す図である。
以下の処理を、１から最大値まで繰り返す（ｇ９０１）。
全てのｋ、ｎに対してｒ_ｋｎに√（Σ｜ｙ_ｋｆｎ｜）^２を代入する。
ｋについて、１からＭまで処理を繰り返す（ｇ９０２）。
ｆについて、１からＦまで処理を繰り返す（ｇ９０３）。
Ｖ_ｋｍに｛１／Ｎ（Σ_ｎφ（ｒ_ｋｎ）ｘ_ｆｎｘ^Ｈ _ｆｎ｝を代入し、ｗ_ｋｆに｛（Ｗ_ｆＶ_ｋｆ）^－１ｅ_ｋ｝を代入し、ｗ_ｋｆに｛ｗ_ｋｆ／√（ｘ^Ｈ _ｆｎＶ_ｋｆｗ_ｋｆ）｝、全てのｎについてｙ_ｆｎに（ｘ^Ｈ _ｆｎｗ_ｋｆ）を代入する。

【0091】

（ＩＰアルゴリズムとＩＳＳアルゴリズムの計算量の比較）
図５と図６を比較すると、ＩＰアルゴリズムは、ｇ９０３の処理の中で分離行列Ｗ_ｆの逆行列を算出処理が含まれている。このような逆行列を求めるコストはＯ（Ｍ^３）である。また、共分散行列の演算に要するコストはＯ（Ｍ^２Ｎ）である。ＩＰアルゴリズムの総合計算量は、Ｏ（ＦＭ^３Ｎ）／繰り返し、である。

【0092】

図７は、本実施形態の更新の効率化を説明するための図である。
ＡｕｘＩＶＡ－ＩＰは分離行列Ｗの行を更新する。これに対して本実施形態のＩＳＳアルゴリズムは、混合行列の列、すなわちＡ＝Ｗ^－１のｋ番目のステアリングベクトルを更新する。更新では、例えばシャーマンモリソンの手法を用いて近似逆行列を求める。式（１４）のＷ＝Ａ^－１への更新は等価である。処理は、例えば次式（３２）のように、ｋ番目のステアリングベクトルを同量だけ変化させる。なお、混合行列Ａ＝［ａ_１，…，ａ_Ｍ］は、音源のステアリングベクトルに従う。

【0093】

【数34】

【0094】

なお、ベクトルａ_ｋ＋ｕは、ベクトル｛１／（１－ｖ_ｋｋ）｝ａ_ｋとベクトル｛１／（１－ｖ_ｋｋ）｝ａ_ｍをｖ_ｍ倍したベクトル｛ｖ_ｍ／（１－ｖ_ｋｋ）｝ａ_ｍの和である。また、シャーマンモリソンの式においてＷ＝Ａ^－１であるので、式（３２）は次式（３３）のようになる。

【0095】

【数35】

【0096】

式（１４）と同一化することで、ｖ＝Ｗｕ（１＋ｗ^Ｈ _ｋｕ）^－１となることがわかる。
式（３２）において、ｋ番目のステアリングベクトルは、他のソースのステアリングベクトルの重み付けされた和によって更新され、その後、再スケーリングが行われる。ｍ≠ｋの場合の係数ｖ_ｍｋは、ｍ番目の音源推定値ｙ_ｍのノイズをｙ_ｋの部分空間に投影したものであり、次式（３４）のように表される。

【0097】

【数36】

【0098】

φ（ｒ）の性質からφ（ｒ_ｍｎ）は、ｍ番目のソースがアクティブなときに小さくなり、ｍ番目のソースがアクティブではないときには大きくなる。したがって、本実施形態では、ｋ番目のステアリングベクトルをｍ番目のステアリングベクトルに比例した量だけ修正する。なお、本実施形態では、反復処理中に信号のスケールを維持するためにスケーリングが必要である。
この処理によって、例えば第１の信号ｇ３１１と、他の信号ｇ３１２とに分離する。

【0099】

次に、ＩＰアルゴリズムと本実施形態のＩＳＳアルゴリズムの比較結果例を説明する。
ＩＰアルゴリズムにおける分離行列Ｗ_ｆのｋ番目の行の更新の演算量は、共分散行列Ｖ_ｋｆか線形システムのどちらかに支配される。上述したように、ＩＰアルゴリズムの演算量は、Ｏ（Ｍ^３）であり、ＩＳＳアルゴリズムの演算量はＯ（Ｍ^２Ｎ）である。
ＩＰアルゴリズムでは、Ｍ行目の更新とＦ周波数帯の更新を繰り返すので、１回の反復の全体的な計算量Ｃ_ＩＰは、次式（３５）であり、少なくともＯ（Ｍ^４）である。

【0100】

【数37】

【0101】

ＩＳＳアルゴリズムでは、ｍ，ｋ＝１，…，Ｍの場合に、反復ごとに式（１９）と（２１）を計算する。また、ｒ_ｋｎ，∀_ｋ，ｎの計算は、１回の反復ごとにＯ（ＦＭＮ）の計算量を有している。したがって,反復あたりの全体的な計算量Ｃ_ＩＳＳは次式（３６）である。

【0102】

【数38】

【0103】

ただし、ＩＳＳアルゴリズムの計算量は、単一の共分散行列を繰り返し使用する。また、オンライン処理のようなＮ＝１の場合の計算量は、マイクロホンの数の２次関数である。

【0104】

（検証結果）
次に、比較例のＩＰアルゴリズムと本実施形態のＩＳＳアルゴリズムを実験によって比較した結果を説明する。

【0105】

まず、実験環境を説明する。
実験は、Ｐｙｔｈｏｎ（登録商標）パッケージを使用して、次のようなシミュレーションを行った。
・６［ｍ］から１０［ｍ］の間の壁を持つ１００のランダムな長方形の部屋と、天井高が２．８［ｍ］から４．５［ｍ］までの高さのものを使用した。
・室内の音のエネルギーが－６０［ｄＢ］になるまでの時間である残響時間（Ｔ_６０）は６０［ｍｓ］から５４０［ｍｓ］の範囲とした。
図８は、シミュレーションにもちいた部屋の残響時間のヒストグラムである。横軸は残響時間ＲＴ６０［ｍｓ］であり、縦軸は周波数［ｋＨｚ］である。

【0106】

音源とマイクロホンアレイは、少なくとも５０［ｃｍ］の位置にランダムに配置し、壁から離れて、高さ１［ｍ］から２［ｍ］の間配置した。マイクロホンアレイは、１０個のマイクロホンを持ち、半径が３．２［ｃｍ］の円形で、マイクロホンの間隔が２［ｃｍ］である。
音源とマイクロホンアレイ中心との間の距離は、少なくとも臨界距離がｄ_ｃｒｉｔ＝０．０５７√（Ｖ＝Ｔ_６０）［ｍ］である。Ｖは体積部屋である。第１のマイクロホンでは、音源信号を正規化した単位電力を使用する。

【0107】

ＳＮＲ＝Ｍ／σ^２ _ｎと定義する。σ^２ _ｎは、マイクロホンでの無相関ホワイトノイズの分散である。ＳＮＲは３０［ｄＢ］に固定した。分離は、２，３，４，６，８，１０の音源に対して行った。

【0108】

なお、音源数はマイクロホン数以下である。サンプリング周波数は１６［ｋＨｚ］で、ＳＴＦＴフレームサイズは２５６［ｍｓ］で、ハーフオーバーラップである。解析と合成のために、にハミングウィンドウによるマッチングウィンドウを用いた。実験では、比較例のＡｕｘＩＶＡ－ＩＰアルゴリズムと本実施形態のＩＳＳアルゴリズムそれぞれを１０Ｍ回繰り返して（Ｍはマイクロホンの数）分離した。分離後、出力のスケールは第一のマイクロホンに投影して復元した。

【0109】

評価指標には、信号対歪み比（ＳＤＲ）と信号対干渉比（ＳＩＲ）を用いた。ＳＤＲとＳＩＲは分離前と分離後に測定した。図９は、１０Ｍ［回］繰り返した後のＳＤＲを示す図である。図１０は、１０Ｍ［回］繰り返した後のＳＩＲを示す図である。図９、１０において、横軸チャネル数であり、縦軸は改善量［ｄＢ］である。図９、１０において、符号ｇ４０１は比較例のＡｕｘＩＶＡ－ＩＰアルゴリズムの結果であり、符号ｇ４０２は本実施形態のＩＳＳアルゴリズムの結果である。図９、１０のように、本実施形態のＩＳＳアルゴリズムを用いた結果は、比較例のＡｕｘＩＶＡ－ＩＰアルゴリズムを用いた結果と同等であった。

【0110】

次に、分離の演算に要した時間を比較した結果を説明する。
図１１は、繰り返し毎の演算時を示す図である。図１１において、横軸はチャネルであり、縦軸は繰り返し毎の処理時間［ｍｓ］である。図１１において、符号ｇ４５１は比較例のＡｕｘＩＶＡ－ＩＰアルゴリズムの結果であり、符号ｇ４５２は本実施形態のＩＳＳアルゴリズムの結果である。実験では、１～１７個の音源について確認した。なお、シミュレーションには、クロック周波数が３．３［ＧＨｚ］で１０コアのＣＰＵ（中央演算装置）を搭載したワークステーションで行った。図１１の結果は１回の繰り返しの平均実行時間を示している。

【0111】

図１１のように、比較例と比較して本実施形態のＩＳＳアルゴリズムの方が、音源数が増えるほど演算にかかる時間が短くなっている。すなわち、本実施形態のＩＳＳアルゴリズムの方が比較例のＡｕｘＩＶＡ－ＩＰより演算コストを低減できる。

【0112】

以上のように、本実施形態では、音源分離に補助関数法に基づく独立ベクトル分析のための反復的ソースステアリングを導入した。比較例のＡｕｘＩＶＡ－ＩＰが復号化ベクトルを交互に更新していたのに対し、本実施形態にアルゴリズムは行基本変形に基づく更新を連続して行うようにした。これにより、本実施形態では、逆行列のない計算複雑度の低い更新規則が得られ、安定性と速度が高速化でき、重要な実用的な実装に理想的な手法である。本実施形態の手法は、ある音源のステアリングベクトルを、他の音源の残留雑音の音源部分空間への投影に比例した量だけ更新することになる。
シミュレーション結果より本実施形態の手法は、音源分離のために効率的なものであることが確認され、計算コストが削減できることが確認できた。

【0113】

なお、上述した音声認識方法、プログラム、音声認識装置は、音声認識システム、遠隔会議システム、ＷＥＢ会議システム、スマートスピーカー、家電の音声入力インタフェース、補聴器、ロボット聴覚等にも適用可能である。

【0114】

なお、本発明における音源分離部１２の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源分離部１２が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

【0115】

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

【0116】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

【符号の説明】

【0117】

１…音源分離装置、１１…取得部、１２…音源分離部、１３…出力部、１２１…ＳＴＦＴ部、１２２…分離部、１２３…逆ＳＴＦＴ部

【図1】