(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-06-03
(45)【発行日】2025-06-11
(54)【発明の名称】ソース信号分離装置、ソース信号分離方法、プログラム、ならびに、情報記録媒体
(51)【国際特許分類】
G10L 21/0272 20130101AFI20250604BHJP
G10L 21/0308 20130101ALI20250604BHJP
【FI】
G10L21/0272 100Z
G10L21/0308 A
(21)【出願番号】P 2021025864
(22)【出願日】2021-02-22
【審査請求日】2023-12-27
【新規性喪失の例外の表示】特許法第30条第2項適用 発行者名:一般社団法人電子情報通信学会、刊行物名:電子情報通信学会技術研究報告(信学技報)vol.119、no.439-441、発行年月日:令和2年2月24日 掲載年月日:令和2年3月2日、掲載アドレス:https://www.ieice.org/ken/paper/20200302O1WK/ 発行者名:IEEE、刊行物名:IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol.28,2020、発行年月日:令和2年8月25日 掲載年月日:令和2年8月25日、掲載アドレス:https://ieeexplore.ieee.org/document/9177266 発行者名:IEEE、刊行物名:IEEE Signal Processing Letters,vol.27,2020、発行年月日:令和2年11月24日 掲載年月日:令和2年11月24日、掲載アドレス:https://ieeexplore.ieee.org/document/9269436 発行者名:EUSIPCO、刊行物名:28th European Signal Processing Conference(EUSIPCO 2020)、公開年月日:令和2年8月24日、発行年月日:令和3年1月18日 掲載年月日:令和2年8月24日、掲載アドレス:https://eusipco2020.org/proceedings-2020/ https://www.eurasip.org/Proceedings/Eusipco/Eusipco2020/pdfs/0000306.pdf https://ieeexplore.ieee.org/abstract/document/9287530 集会名:2020 28th European Signal Processing Conference(EUSIPCO 2020)、開催日:令和3年1月18日から令和3年1月22日まで 発行者名:International Speech Communication Association
【新規性喪失の例外の表示】特許法第30条第2項適用 刊行物名:Proceedings of the 21st Annual Conference of the International Speech Communication Association、刊行物名:Proceedings of the 21st Annual Conference of the International Speech Communication Association(INTERSPEECH 2020)、発行年月日:令和2年10月19日掲載年月日:令和2年10月19日、掲載アドレス:http://www.interspeech2020.org/ https://www.isca-speech.org/archive/Interspeech_2020/abstracts/3202.html 集会名:INTERSPEECH 2020,the 21st Annual Conference of the International Speech Communication Association、開催日:令和2年10月25日から令和2年10月29日まで刊行物名:京都大学大学院情報学研究科知能情報学専攻博士論文、発行年月日:令和3年2月16日 集会名:京都大学大学院情報学研究科博士論文公聴会、開催日:令和3年2月16日 集会名:第15回ICTイノベーション、開催日:令和3年2月17日
(73)【特許権者】
【識別番号】503359821
【氏名又は名称】国立研究開発法人理化学研究所
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100110135
【氏名又は名称】石井 裕一郎
(74)【代理人】
【識別番号】100132883
【氏名又は名称】森川 泰司
(72)【発明者】
【氏名】吉井 和佳
(72)【発明者】
【氏名】關口 航平
(72)【発明者】
【氏名】マシュー フォンテーヌ
(72)【発明者】
【氏名】アディティヤ アリ ヌグラハ
【審査官】佐久 聖子
(56)【参考文献】
【文献】北村大地、他,独立深層学習行列分析に基づく多チャネル音源分離の実験的評価,電子情報通信学会技術研究報告,日本,電子情報通信学会,2018年03月19日,P.13-20
【文献】渡辺瑠伊、他,深層学習に基づく音響帯域拡張による音源分離処理の高速化,日本音響学会講演論文集,日本,日本音響学会,2020年09月09日,P.131-134
【文献】George Papamakarios, et. al,Normalizing Flows for Probabilistuc Modeling and Inference,Journal of Machine Learing Reserch ,Journal of Machine Learing Reserch ,2019年12月05日,P.1-64
【文献】Kouhei Sekiguchi, et. al,Fast Multichannel Nonnegative Matrix Factorization With Directivivty-Aware Jointly-Diagonalizable Spatial Covariance Matrices for Blind Source Separation,IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING,米国,IEEE,2020年08月25日,Volume 28,p. 2610-2625
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0272
G10L 21/0308
(57)【特許請求の範囲】
【請求項1】
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をT個の時間フレーム、F個の周波数ビン、M個のチャネルにおける複素スペクトログラムに変換する変換部、
前記複素スペクトログラムから、N個のソースのそれぞれに対するN個の共分散行列Y
1, …, Y
Nの推定をする推定部、
前記複素スペクトログラムと、前記N個の共分散行列Y
1, …, Y
Nと、により、N個のソース信号を分離する分離部
を備えるソース信号分離装置であって、
前記推定部は、
前記N個のソースのそれぞれのソースn、
前記T個の時間フレームのそれぞれの時刻t、ならびに、
前記F個の周波数ビンのそれぞれの周波数f
に対する空間相関行列G
ntfを、
当該時刻tおよび当該周波数fに依存しうるが当該ソースnに依存しない複素行列Q
tfにより、
当該ソースnに依存しうるが当該周波数fに依存しない重みベクトルg
ntを対角成分とする対角行列Diag(g
nt)へ、
同時対角化
Q
tf G
ntf Q
tf
H = Diag(g
nt)
が可能なものに制限して、前記推定をする
ことを特徴とするソース信号分離装置。
【請求項2】
前記推定部は、前記N個の共分散行列Y
1, …, Y
Nのそれぞれの共分散行列Y
nを、
サイズTの複素行列Rと、
サイズFの複素行列Pと、
サイズMの単位行列I
Mと、
時不変複素行列Q
fをF個の周波数ビンの各周波数f = 1, …, Fに対して並べたF個の時不変複素行列Q
1, …, Q
Fからなるブロック対角行列Diag(Q
・)と、
行列のクロネッカー積(×)と、
に
より
U = R(×)(Diag(Q
・)(P(×)I
M))
と定められる行列U
により、
前記N個のソースのそれぞれのソースnに対するパワースペクトル密度ベクトルλ
nを対角成分とする対角行列Diag(λ
n)と、
時不変重みベクトルg
nを対角成分とする対角行列Diag(g
n)と、
を用いて、対角化
U Y
n U
H = Diag(λ
n) (×) Diag(g
n)
が可能なものに制限して、前記推定をする
ことを特徴とする請求項1に記載のソース信号分離装置。
【請求項3】
前記推定部は、前記N個のソースのそれぞれのソースnに対するパワースペクトル密度ベクトルλ
nを、K個の基底に対する非負値行列因子分解
Diag(λ
n) = Σ
k=1
K Diag(h
nk) (×) Diag(w
nk)
により、
前記N個のソースのそれぞれのソースnと、
前記K個の基底のそれぞれの基底kと、に対する
時間基底ベクトルh
nkと、
周波数基底ベクトルw
nkと、
に分解が可能なものに制限して、前記推定をする
ことを特徴とする請求項2に記載のソース信号分離装置。
【請求項4】
前記推定部は、ニューラルネットワークにより、前記N個の共分散行列Y
1, …, Y
Nの推定を行う
ことを特徴とする請求項1に記載のソース信号分離装置。
【請求項5】
前記推定部は、前記ニューラルネットワークにより、前記複素行列Q
tfを求める
ことを特徴とする請求項4に記載のソース信号分離装置。
【請求項6】
前記推定部は、前記空間相関行列G
ntf、前記複素行列Q
tf、ならびに、前記重みベクトルg
ntが、前記T個の時間フレームの任意の時刻tにおいて、時不変空間相関行列G
nf、時不変複素行列Q
f、ならびに、時不変重みベクトルg
nにそれぞれ等しくなるように制限して、前記推定をする
ことを特徴とする請求項1に記載のソース信号分離装置。
【請求項7】
前記推定部は、前記空間相関行列G
ntf、前記複素行列Q
tf、ならびに、前記重みベクトルg
ntが、前記T個の時間フレームの任意の時刻tにおいて、時不変空間相関行列G
nf、時不変複素行列Q
f、ならびに、時不変重みベクトルg
nにそれぞれ等しくなるように制限し、前記複素行列RをサイズTの単位行列I
Tとし、前記複素行列PをサイズFの単位行列I
Fとし、前記行列Uを
U = I
T(×)Diag(Q
・)
とすることにより、前記推定をする
ことを特徴とする請求項2に記載のソース信号分離装置。
【請求項8】
前記推定部は、ニューラルネットワークにより、前記N個の共分散行列Y
1, …, Y
Nの推定を行う
ことを特徴とする請求項6に記載のソース信号分離装置。
【請求項9】
前記推定部は、前記ニューラルネットワークにより、前記時不変複素行列Q
fを求める
ことを特徴とする請求項8に記載のソース信号分離装置。
【請求項10】
前記ニューラルネットワークは、ノーマライジング・フローに基づく
ことを特徴とする請求項4、5、8、9のいずれか1項に記載のソース信号分離装置。
【請求項11】
複数の位置で観測された観測信号を取得する取得工程、
前記観測信号をT個の時間フレーム、F個の周波数ビン、M個のチャネルにおける複素スペクトログラムに変換する変換工程、
前記複素スペクトログラムから、N個のソースのそれぞれに対するN個の共分散行列Y
1, …, Y
Nの推定をする推定工程、
前記複素スペクトログラムと、前記N個の共分散行列Y
1, …, Y
Nと、により、N個のソース信号を分離する分離工程
を備えるソース信号分離方法であって、
前記推定工程では、
前記N個のソースのそれぞれのソースn、
前記T個の時間フレームのそれぞれの時刻t、ならびに、
前記F個の周波数ビンのそれぞれの周波数f
に対する空間相関行列G
ntfを、
当該時刻tおよび当該周波数fに依存しうるが当該ソースnに依存しない複素行列Q
tfにより、
当該ソースnに依存しうるが当該周波数fに依存しない重みベクトルg
ntを対角成分とする対角行列Diag(g
nt)へ、
同時対角化
Q
tf G
ntf Q
tf
H = Diag(g
nt)
が可能なものに制限して、前記推定をする
ことを特徴とするソース信号分離方法。
【請求項12】
コンピュータを、
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をT個の時間フレーム、F個の周波数ビン、M個のチャネルにおける複素スペクトログラムに変換する変換部、
前記複素スペクトログラムから、N個のソースのそれぞれに対するN個の共分散行列Y
1, …, Y
Nの推定をする推定部、
前記複素スペクトログラムと、前記N個の共分散行列Y
1, …, Y
Nと、により、N個のソース信号を分離する分離部
として機能させるプログラムであって、
前記推定部は、
前記N個のソースのそれぞれのソースn、
前記T個の時間フレームのそれぞれの時刻t、ならびに、
前記F個の周波数ビンのそれぞれの周波数f
に対する空間相関行列G
ntfを、
当該時刻tおよび当該周波数fに依存しうるが当該ソースnに依存しない複素行列Q
tfにより、
当該ソースnに依存しうるが当該周波数fに依存しない重みベクトルg
ntを対角成分とする対角行列Diag(g
nt)へ、
同時対角化
Q
tf G
ntf Q
tf
H = Diag(g
nt)
が可能なものに制限して、前記推定をする
ことを特徴とするプログラム。
【請求項13】
複数の位置で観測された
M個の観測信号を取得する取得部、
前記観測信号をSTFT係数ベクトルに変換する変換部、
前記STFT係数ベクトルに順次適用する投影行列
であって、
奇数番目に適用される投影行列は、時不変な行列であり、
偶数番目に適用される投影行列は、時変な対角行列である
投影行列をニューラルネットワークにより
実現されるノーマライジング・フローにより推定する推定部、
前記STFT係数ベクトルと、前記推定された投影行列と、により、N個のソース信号を分離する分離部
を備えるソース信号分離装置。
【請求項14】
M=Nである
ことを特徴とする請求項13に記載のソース信号分離装置。
【請求項15】
複数の位置で観測された
M個の観測信号を取得する取得工程、
前記観測信号をSTFT係数ベクトルに変換する変換工程、
前記STFT係数ベクトルに順次適用する投影行列
であって、
奇数番目に適用される投影行列は、時不変な行列であり、
偶数番目に適用される投影行列は、時変な対角行列である
投影行列をニューラルネットワークにより
実現されるノーマライジング・フローにより推定する推定工程、
前記STFT係数ベクトルと、前記推定された投影行列と、により、N個のソース信号を分離する分離工程
を備えることを特徴とするソース信号分離方法。
【請求項16】
コンピュータを、
複数の位置で観測された
M個の観測信号を取得する取得部、
前記観測信号をSTFT係数ベクトルに変換する変換部、
前記STFT係数ベクトルに順次適用する投影行列
であって、
奇数番目に適用される投影行列は、時不変な行列であり、
偶数番目に適用される投影行列は、時変な対角行列である
投影行列をニューラルネットワークにより
実現されるノーマライジング・フローにより推定する推定部、
前記STFT係数ベクトルと、前記推定された投影行列と、により、N個のソース信号を分離する分離部
として機能させることを特徴とするプログラム。
【請求項17】
請求項
12、16のいずれか1項に記載のプログラムが記録されたコンピュータ読取可能な非一時的な情報記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、高精度なブラインドソース信号分離(BSS; Blind Source Separation)に好適なソース信号分離装置、ソース信号分離方法、プログラム、ならびに、情報記録媒体に関する。
【背景技術】
【0002】
実環境下での音響イベントや音声認識のためのフロントエンドとして、マイクアレイで録音された複数チャネルの観測信号を、複数のソース信号に分離するためのソース信号分離技術の研究が進められている。この技術は、より一般的には、音響信号の分離のみならず、種々の信号が混合されたものを複数の箇所で並行して観測することにより得られた観測信号から、源の信号を復元する信号源分離技術ということができる。
【0003】
(FastFCA, FastMNMF)
非特許文献1および非特許文献2では、複数チャネルの観測信号を、T個の時間フレーム、F個の周波数ビン、M個のチャネルからなる複素スペクトログラムに変換した上で、M個のチャネル間の相関を表すサイズMの空間相関行列を用いてソース信号分離を行う技術が提案されている。この技術では、N個のソースのうち各ソースnから発せられる各ソース信号n(以下、「n番目のソース」を、適宜「ソースn」と記載し、「n番目のソース信号」を、適宜「ソース信号n」と記載する。)と、F個の周波数ビンの各周波数f(以下「f番目の周波数ビン」を、適宜「周波数f」と記載する。)と、に対する空間相関行列Gnfが、周波数fごとに異なりうるが、すべてのソース信号で共通する行列Qfによって同時対角化が可能であるという制約(非特許文献2における数式(16)を参照。)を課して、処理の高速化を図っている。すなわち、行列Qfは、周波数fには依存するが、ソースnには依存しない。
また、空間相関行列Gnfおよび行列Qfは、時不変であることを前提としており、T個の時間フレームの各時刻t(以下、「t番目の時間フレーム」を、適宜「時刻t」と記載する。)にも依存しない。
【0004】
【0005】
【0006】
【0007】
なお、一般に、ある行列Qに対して、
Q-1は、Qの逆行列であり、
QHは、Qのエルミート転置(Hermitian transpose;行列を転置して各要素について複素共役をとった行列であり、「随伴行列」「共役転置」とも呼ばれる。)であり、
Q-Hは、Qの逆行列のエルミート転置である。
【0008】
また、任意のベクトルaの各要素を対角成分に並べた対角行列をDiag(a)と表記する。また、任意のN個の行列A1, …, ANを対角上に順に並べたブロック対角行列をDiag(A・)と表記する。これらは、文脈によっては、[a], [A・]と表記することもある。
【0009】
一方で、任意のN個のベクトルv1, …, vNを、ベクトルの要素が並ぶ方向とは直角に順に並べた行列を、[v1, …, vN]と表記する。
【0010】
また、任意のN個のスカラー値s1, …, sNを横方向に順に並べた行ベクトルを、[s1, …, sN]と表記すると、これらを縦方向に順に並べた列ベクトルは、[s1, …, sN]Tとなる。
【0011】
【0012】
このほか、「行列Uにより行列Yを対角化」するとは、行列U Y UHが、ベクトルyに対する対角行列Diag(y)となることを意味する。
U Y UH = Diag(y)
【0013】
【0014】
さて、gnfは、M次元の非負値ベクトルであり、ソースnおよび周波数fごとに異なりうる。
【0015】
ここで、観測信号の複素スペクトログラムにおいて、時刻tおよび周波数fにおけるサイズMの複素ベクトルxtfの空間相関行列はGnfである。
【0016】
一方で、複素ベクトルxtfにQfを作用して得られる新たな複素ベクトルQfxtfの共分散行列は、QfGnfQf
Hになる。
【0017】
したがって、非特許文献2に開示された同時対角化の制限は、「xtfをQfで変換した空間では、各チャネルが独立」であることを意味する。
【先行技術文献】
【非特許文献】
【0018】
【文献】Nobutaka Ito, Shoko Araki, and Tomohiro Nakatani, "FastFCA: A Joint Diagonalization Based Fast Algorithm for Audio Source Separation Using A Full-Rank Spatial Covariance Model", arXiv:1805.06572v1, https://arxiv.org/abs/1805.06572v1, 2018年5月17日
【文献】Kouhei Sekiguchi, Aditya Arie Nugraha, Yoshiaki Bando, and Kazuyoshi Yoshii, "Fast Multichannel Source Separation Based on Jointly Diagonalizable Spatial Covariance Matrices", arXiv:1903.03237v1, https://arxiv.org/abs/1903.03237v1, 2019年3月8日
【発明の概要】
【発明が解決しようとする課題】
【0019】
ここで、非特許文献1および非特許文献2に開示される技術では、ソース信号nと周波数fに依存する空間相関行列Gnfは、時刻tに依存せず(時不変)、ソース信号nと周波数fごとに異なる値を取りうるベクトルgnfが対角成分となるように同時対角化がなされる。
【0020】
しかしながら、空間相関行列としてさらに適切な表現を選ぶことによって、精度の向上をさらに図りたい、という要望がある。
【0021】
また、同時対角化の手法を、さまざまな状況に適用できるようにしたい、という要望もある。
【0022】
本発明は、以上の課題を解決するもので、高精度なブラインドソース信号分離に好適なソース信号分離装置、ソース信号分離方法、プログラム、ならびに、情報記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0023】
本発明に係るソース信号分離装置は、
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をT個の時間フレーム、F個の周波数ビン、M個のチャネルにおける複素スペクトログラムに変換する変換部、
前記複素スペクトログラムから、N個のソースのそれぞれに対するN個の共分散行列Y1, …, YNの推定をする推定部、
前記複素スペクトログラムと、前記N個の共分散行列Y1, …, YNと、により、N個のソース信号を分離する分離部
を備え、
前記推定部は、
前記N個のソースのそれぞれのソースn、
前記T個の時間フレームのそれぞれの時刻t、ならびに、
前記F個の周波数ビンのそれぞれの周波数f
に対する空間相関行列Gntfを、
当該時刻tおよび当該周波数fに依存しうるが当該ソースnに依存しない複素行列Qtfにより、
当該ソースnに依存しうるが当該周波数fに依存しない重みベクトルgntを対角成分とする対角行列Diag(gnt)へ、
同時対角化
Qtf Gntf Qtf
H = Diag(gnt)
が可能なものに制限して、前記推定をする。
【0024】
【0025】
【0026】
【発明の効果】
【0027】
本発明によれば、高精度なブラインドソース信号分離に好適なソース信号分離装置、ソース信号分離方法、プログラム、ならびに、情報記録媒体を提供することができる。
【図面の簡単な説明】
【0028】
【
図1】本発明の実施形態に係るソース信号分離装置の概要構成を示す説明図である。
【0029】
【
図2】本発明の実施形態に係るソース信号分離装置が実行する分離処理の制御の流れを示すフローチャートである。
【0030】
【
図3】ソース信号分離装置にて繰り返し計算を行う際のコスト関数値の変化を示すグラフである。
【0031】
【
図4】本発明の実施形態に係るソース信号分離装置が実行するNF-IVAの制御の流れを示すフローチャートである。
【0032】
【
図5】フローブロックのニューラルネットワークによる構成を示す説明図である。
【発明を実施するための形態】
【0033】
以下に、本発明の実施形態を説明する。なお、本実施形態は、説明のためのものであり、本発明の範囲を制限するものではない。したがって、当業者であれば、本実施形態の各要素もしくは全要素を、これと均等なものに置換した実施形態を採用することが可能である。また、各実施例にて説明する要素は、用途に応じて適宜省略することも可能である。このように、本発明の原理にしたがって構成された実施形態は、いずれも本発明の範囲に含まれる。
【0034】
(構成)
本実施形態に係るソース信号分離装置は、典型的には、プログラムをコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。
【0035】
コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。
【0036】
プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等などの非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPU(Central Processing Unit)は、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。
【0037】
さらに、上記のように、コンピュータは、GPU(Graphics Processing Unit)を備え、各種画像処理計算を高速に行うためのGPUを備えることが望ましい。GPUならびにPyTorch等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能やソース信号分離機能を利用することができるようになる。
【0038】
なお、汎用のコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置を構成することも可能である。この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)により構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。
【0039】
以下では、理解を容易にするため、ソース信号分離装置は、コンピュータがプログラムを実行することによって実現される態様を想定して説明する。
図1は、本発明の実施形態に係るソース信号分離装置の概要構成を示す説明図である。
【0040】
本図に示すように、本実施形態に係るソース信号分離装置101は、取得部102、変換部103、推定部104、分離部105を備える。
【0041】
本実施形態では、各部は、コンピュータがプログラムを実効することによって実現される。
【0042】
図2は、本発明の実施形態に係るソース信号分離装置が実行する分離処理の制御の流れを示すフローチャートである。以下、本図も参照しつつ説明する。
【0043】
まず、ソース信号分離装置101の取得部102は、複数の位置で観測された観測信号を取得する(ステップS201)。
【0044】
本実施形態に係るソース信号分離装置101は、M個の観測信号をN個のソース信号にブラインドソース信号分離するものである。音源分離に適用すると、N個の音源から発せられた音声(ソース信号)が混合される状況をM個のマイクで観測して得られる混合音(観測信号)から、元の音声を得ようとすることになる。この場合、取得部102は、得られたM個の混合音を観測信号として取得することになる。
【0045】
ここで取得される観測信号は、コンピュータにA/D変換器を介して接続された複数のマイクからリアルタイムで取得しても良いし、あらかじめ録音したデータを利用しても良い。
【0046】
次に、ソース信号分離装置101の変換部103は、観測信号をT個の時間フレーム、F個の周波数ビン、M個のチャネルにおける複素スペクトログラムに変換する(ステップS202)。観測信号の多チャネル複素スペクトログラムS∈CT×F×Mは、チャネル・周波数優先で直列化することで、ベクトルs∈CTFMとすることができる。ここで、観測信号を得る際のサンプリングレートならびにサンプリング時間を考慮すると、T<FM, F<TM, M<Tと仮定しても一般性を失わない。この変換には、短時間フーリエ変換(STFT; Short-Term Fourier Transform)を利用することができる。
【0047】
【0048】
ここでソース信号nのイメージ(ソース信号nの多チャネル複素スペクトログラム)Sn∈CT×F×Mを直列化したベクトルsn∈CTFMが、全要素間の共分散行列Yn∈STFMに基づく多変量複素ガウス分布に従うことを仮定する。
【0049】
そして、ソース信号分離装置101の推定部104は、複素スペクトログラムSから、N個のソースのそれぞれに対するN個の共分散行列Y1, …, YNの推定をする(ステップS203-S206)。
【0050】
ここで行われる推定は、各種のパラメータを初期設定した後(ステップS203)、当該各種のパラメータが収束するまで(ステップS204)、対数尤度等に基づくコスト関数を計算し(ステップS205)、当該コストを最小化するように、当該各種のパラメータを最急降下法等の所定のアルゴリズムにより更新する(ステップS206)処理を繰り返す(ステップS204へ戻る)ものである。
【0051】
【0052】
【0053】
現在のパラメータに基いて対数尤度やコスト関数を算定し、これらを最適化するように各種パラメータを更新することを、各種パラメータが収束するまで繰り返すというアルゴリズムは、一種の学習を行っていると考えることもできる。したがって、これらの計算には、ニューラルネットワーク技術にて用意されたPyTorch等のライブラリを適用することで、高速な処理が可能となる。
【0054】
アルゴリズムに収束保証がある場合には、パラメータの収束は、あらかじめ設定された回数だけ繰り返しを行ったか否かによって判定することも可能である。また、既知の収束判定の技術と同様に、更新によって変化したパラメータの量や比率を算定し、これが閾値未満となったことをもって、収束したとみなしても良い。
【0055】
さて、複素スペクトログラムの加法性
s = Σn=1
N sn;
Y = Σn=1
N Yn
を仮定すると、複素ガウス分布の再生性から次式が成り立つ。
【0056】
【0057】
【0058】
【0059】
ここで、観測X = ssHとすると、対数尤度およびコスト関数は以下のようになる。
【0060】
【0061】
【0062】
【0063】
共分散行列Y1, …, YNが推定されれば、共分散パラメータYが定まる。そこで、多変量ウィーナフィルタを用いることで、観測信号に基づく多チャネル複素スペクトログラムSに係るベクトルsから観測イメージsnを事後推論できる。
【0064】
すなわち、ソース信号分離装置101の分離部106は、複素スペクトログラムSと、N個の共分散行列Y1, …, Ynと、から、N個のソース信号を分離して(ステップS207)、本処理を終了する。
【0065】
ここで、複素スペクトログラムSを直列化したベクトルsを使うと、ソース信号nのイメージの分布は、以下のように表現される。
【0066】
【0067】
ソース信号nのイメージの期待値E[sn]は、以下の通りである。
【0068】
【0069】
したがって、E[sn]に対して逆STFTを施すことにより、ソース信号nが分離されることになる。
【0070】
以下、信号分離を行う3つの技術(FastCTF, FastMNMF, FastMCTF)について説明する。
【0071】
(FastCTFによる分解)
上記の定式化は、観測Xを共分散パラメータYで近似することに相当する。
【0072】
ここで、CTF(相関テンソル分解)では、半正定値行列X∈STFを、基底k=1, …, Kに応じた半正定値行列群H1, …, HK∈STおよび半正定値行列群W1, …, WK∈SFのクロネッカー積の和に分解する。以下では、元来単チャネルの手法であるCTFを全チャネルに拡張するため、M行M列(サイズM)の単位行列IMとのクロネッカー積をとっている。
【0073】
【0074】
【0075】
この近似によるパラメータ推定を高速化するため、FastCTFでは、HkおよびWkが同時対角化可能であると仮定する。
【0076】
【0077】
【0078】
【0079】
【0080】
ここで、hk∈RTおよびwk∈RFは非負値ベクトルであり、それぞれ、基底kに対する時間基底ベクトルおよび周波数基底ベクトルである。
【0081】
このとき、共分散パラメータYは、以下のように書き表せる。
【0082】
【0083】
【0084】
(FastMNMFによる分解)
音源nのイメージsnを、時刻t、周波数fにおけるチャネル軸のスペクトルsntf∈CMに分割した上で、これらが独立した複素ガウス分布にしたがうことを仮定する。
【0085】
すると、共分散行列Yn∈STFMはブロック対角行列となる。共分散行列Ynの(t,f)番目のブロック対角成分をYntf∈SMとする。
【0086】
【0087】
ソース信号nの時刻t、周波数fにおける空間相関行列をGntfとし、時間および周波数上のパワースペクトル密度が低ランク構造を持つことを仮定する。
【0088】
【0089】
ここで、hnk = [hnk1, …, hnkT]T∈RTは、ソース信号nにおける時間基底ベクトルであり、wnk = [wnk1, …, wnkF]T∈RFは、ソース信号nにおける周波数基底ベクトルである。
【0090】
【0091】
【0092】
MNMF(非負値行列分解)では、空間相関行列を時不変と仮定する。任意の時刻tについてGntf=Gnfであるから、以下が成立する。
【0093】
【0094】
すると、X = ssHを近似する共分散パラメータYは、以下のように書くことができる。
【0095】
【0096】
ここで、Diag(Gn・)は、Gn1, …, GnFを並べたブロック対角行列であり、丸印の中に点を描いた演算子は、行列の同じ位置の要素同士の積をとるアダマール積(要素積)を意味する。なお、アダマール積は、本願明細書文章内で利用できる文字種の制限により、適宜「◎」により標記する。また、1Mは、すべての要素が1であるM行M列の行列である。
【0097】
この前提でパラメータの最尤推定を行うには、MM(Minorization Maximization)アルゴリズムを採用することができ、この場合の計算量はO(TFM3)となる。
【0098】
FastMNMFでは、各周波数fにおける時不変な空間相関行列Gn1, …, GnFを、時不変な行列Qfにより同時対角化可能なものに制限して、パラメータの最尤推定の高速化を図る。同時対角化は以下のように表現できる。
【0099】
【0100】
【0101】
【0102】
gnが非負値ベクトルであり、Qfが正則行列である、という前提の元では、共分散パラメータYは、以下のように書き直すことができる。
【0103】
【0104】
ここで、行列Uは、以下のように与えられる。
【0105】
【0106】
すると、複素ガウス分布の再生性から、行列Uと、観測信号の複素スペクトログラムSに基づくベクトルsについて、以下が成立する。
【0107】
【0108】
ここで、Usは、「ベクトルsの時刻t・周波数fにおけるチャネル軸方向のスライスstf∈CMを、Qf∈CM×Mで変換したQfstf∈CM Qfstfを並べたもの」である。Usは、TFM個の要素を持つが、これらはすべて独立となっており、Qfは、分離フィルタに類似する機能を有することになる。
【0109】
上記のような定式化がされたFastMNMFに対しては、非特許文献2に開示されるパラメータの最尤推定の推定アルゴリズムが適用可能であり、計算量のオーダーは、O(TFM2)である。
【0110】
(MCTFによる分解)
CTFでは、時間と周波数の共分散モデルに基づいて、ソース信号分離を行う。一方、MNMFでは、空間の共分散モデルに基づいて、ソース信号分離を行う。そこで、以下では、これらを組み合わせたMCTFによる分解により、さらなる信号分離の精度向上を目指す形態について説明する。
【0111】
MNMFにおける分解において時間・周波数分散を考慮できるようにするには、まず、時不変の制限をなくし、時変な同時対角化を行う。
【0112】
【0113】
【0114】
【0115】
FastCTF, FastMNMFに基づくFastMCTFでは、行列Uは、以下のように定式化できる。
【0116】
【0117】
ここで定式化された行列Uは、M=1であれば、CTFに帰着し(ソース信号n = 1, …, Nは、基底k = 1, …, Kに読み替えることができる。)、R, Pが単位行列であれば、FastMNMFに帰着する。
【0118】
このとき、ソース信号nに対する共分散行列Ynは、以下のように対角化される。
【0119】
【0120】
【0121】
λnは、ソース信号nに対するパワースペクトル密度ベクトルであり、gnは、ソース信号nに対する重みベクトルである。また、hnkは、ソース信号nおよび基底kに対する時間基底ベクトルであり、wnkは、ソース信号nおよび基底kに対する周波数基底ベクトルである。
【0122】
FastMCTFでは、観測信号の複素スペクトログラム(三階複素テンソル)S∈CT×F×Mの周波数軸・チャネル軸・時間軸に対して、行列P, Q, Rをこの順に作用させた新たなテンソルV∈CT×F×M(各要素はvtfmと表記する。)考える。なお、チャネル軸については、周波数fごとに異なる変換Qfを施す。すると、得られる新たなテンソルでは、TFM個の要素を独立に扱うことができる。したがって、各要素のパワーxtfm = |vtfm|2を低ランクなytfmで近似する問題を考えれば良いことになる。
【0123】
【0124】
【0125】
観測X=ssHを近似する共分散パラメータYを求める問題は、以下のコスト関数を最小化するパラメータH, W, G, R, P, Qを推定すれば良い。
【0126】
【0127】
このコスト関数は、FastCTF等と同様な形式を持つため、これと同様の収束保証がされたアルゴリズムを適用することが可能である。まず、H, W, Gについては、以下のような更新を行う。
【0128】
【0129】
つぎに、R, P, Qに対しては、独立ベクトル分析と同様に、以下の更新を行う。
【0130】
【0131】
これらの更新を、H, W, G, R, P, Qが収束するまで行う。収束判定については、更新の繰り返しを所定回数行ったら収束したと判定する、各行列の要素の変化率の最大値や平均値が所定の閾値以下となったら収束したと判定する、等、種々の判定基準を採用することができる。
【0132】
時間・周波数・空間についての完全な共分散を考慮しながらSを直接分解する計算量はO(T3F3M3)であるが、同時対角化を制限として課して各要素ごとに独立に分解を行うことにより、O(TFM(T+F+M))での高速な実行が可能となる。
【0133】
上記のように、FastMCTFは、FastCTFとFastMNMFを組み合わせて時変な同時対角化の制約を課すものであるが、FastMCTFにおいてR, Pを単位行列に固定して更新の対象から外せば、時不変な同時対角化の制約を課したFastMNMFを実現することが可能である。これは、以下の制約を課したことに相当する。
【0134】
【0135】
【0136】
【0137】
(FastMCTFの評価実験)
以下では、FastMCTFの振舞いを確認するために行った評価実験の結果について説明する。
【0138】
本評価実験では、Spatialize WSJ0-mixデータセットから、男性と女性の音声を含む4チャネルの混合音を実験に用いた(N=2, M=4)。音源・マイクロホンの配置はランダムで、残響は含まれない。窓幅512・シフト長256のSTFTを用いて、混合音の複素スペクトログラムを得た(T=295, F=257)。
【0139】
すべての共分散行列を用いるFastMCTFを、空間共分散行列を用いるFastMNMF、空間に加えて時間・周波数共分散行列を用いるFastMPSDTF-TおよびFastMPSDTF-Fと比較した。
【0140】
具体的には、P = IFとR = ITに固定したままH, W, G, Qを100回更新した後(FastMNMFに相当)、PあるいはRを10回更新するたびにH, W, G, Qを50回更新した。
【0141】
図3は、ソース信号分離装置にて繰り返し計算を行う際のコスト関数値の変化を示すグラフである。全手法で、SDR(Signal to Distortion Ratio)に大きな差は生じておらず、コスト関数値は単調に減少しており、PやRを更新する際の減少幅が大きかったため、その変化が階段状に見えている。最終的に、FastMCTFのコスト関数値が最小となった。したがって、FastMCTFやFastMNMFにおいて、ソース信号分離の精度を向上させる足掛かりが得られた。
【0142】
上記の実験では、単純に繰り返し計算を行ったが、FastMCTF等においては、モデルの自由度が高いことから、たとえば焼きなまし法(Simulated Annealing)などを採用することにより、性質の悪い局所解に陥らないようにこともできる。
【0143】
(NF-IVA)
上記手法における行列Qf, Qtfは、観測信号をソース信号へ変換する行列と考えることができる。そして、上記手法で課した同時対角化という制約は、行列Qf, Qtfで変換した観測信号が独立であると考えていることに相当する。
【0144】
したがって、ニューラルネットワークにより実現可能なノーマライジング・フロー(NF; Normalizing Flow)によって、上記手法の行列Qf, Qtfに相当するものを計算し、独立ベクトル分析(IVA; Independent Vector Analysis)を行うことが可能である。
【0145】
本実施形態に係るNF-IVAは、M=Nという条件の下で、周波数f、時刻tにおける観測信号のSTFT係数ベクトルxft = [x1ft, …, xMft]T∈CMを、ソース信号のSTFT係数ベクトルyft = [y1ft, …, yNft]T∈CNへ変換する分解行列Wftを、ニューラルネットワークを利用して求めるものである。なお、以下の説明では、周波数と時間の添字の順序を「tf」から「ft」に変更している。また、以下では、インデックスとして、mとnの両方を利用しているが、M=Nという制約を課しているため、mとnは互いに置き換えが可能である。
【0146】
【0147】
【0148】
ここで、xftは、上記実施形態における観測信号の複素スペクトログラムSを並べ直したものであり、これと実質的に等価である。
【0149】
本実施形態に係るNF-IVAでは、L個のフロー・ブロックを使用して、xftからyftを計算する。
【0150】
【0151】
ここで、K = 2L+1は、全フロー数である。
【0152】
Wk',fは、時不変な投影行列である。
【0153】
【0154】
Wk'',ft=Diag(sk'',ft)は、時変な対角行列である。
【0155】
【0156】
sk'',ftは、時変対角行列Wk'',ftの対角要素を並べたベクトルであり、カップリング関数出力を結合したものである。
【0157】
【0158】
したがって、全体として、Wftは時変な信号分離フィルタとして機能する。このWftが、上記手法の行列Qf, Qtfに相当する。
【0159】
【0160】
ここで、ソース信号yntが円対称なガウス分布にしたがうことを仮定する。
【0161】
【0162】
すると、ソース信号および観測の対数尤度関数は、以下のようになる。
【0163】
【0164】
ここで、||・||Fはフロベニウスノルムである。また、{v}mは、ベクトルvのm番目の要素を取り出す演算である。分散σnt
2は、最尤の観点で以下のように計算される。
【0165】
【0166】
NF-IVAでは、対数尤度ln p(X)を最大化するため、LNVP = -ln p(X)を最小化する最急降下法を実行する。
【0167】
【0168】
図4は、本発明の実施形態に係るソース信号分離装置が実行するNF-IVAの制御の流れを示すフローチャートである。以下、本図を参照して説明する。なお、本図の制御では、STFTおよび逆STFTについては、記載を省略している。
【0169】
NF-IVAによる分解では、まず、任意の周波数fおよび任意の時刻tに対して、一時ベクトルh0,ftを観測信号xftで初期化する(ステップS401)。
【0170】
【0171】
次に、任意の奇数k'および周波数fに対して、投影行列Wk',fの初期値を、たとえば単位行列により初期化する(ステップS402)。
【0172】
【0173】
ついで、任意の偶数k''および周波数fに対して、スケールエスティメータΩa
k'',f, Ωb
k'',fを、たとえば一様分布により初期化する(ステップS403)。
【0174】
【0175】
そして、回数Iの繰り返しを開始する(ステップS404)。なお、回数Iは、定数として適当な値を採用しても良いし、所定の収束条件が満たされたら繰り返しを終了することとしても良い。また、回数Iによる繰り返しではなく、収束するまで繰り返しを続けることとしても良い。
【0176】
すなわち、時間・周波数ビンftのそれぞれについての繰り返しを開始する(ステップS405)。
【0177】
各フローブロックl = 1, …, Lについての繰り返しを開始する(ステップS406)。
【0178】
まず、投影(projection)を行う(ステップS407)。
【0179】
【0180】
次に、ベクトル分割(vector split)をする(ステップS408)。
【0181】
【0182】
ついで、スケール評価(scale estimation)をする(ステップS409)。
【0183】
【0184】
そして、要素単位のスケーリング(element-wise scaling)をする(ステップS410)。
【0185】
【0186】
さらに、もう一度スケール評価(scale estimation)をする(ステップS411)。
【0187】
【0188】
ついで、もう一度要素単位のスケーリング(element-wise scaling)をする(ステップS412)。
【0189】
【0190】
そして、ベクトル結合(vector concatination)をする(ステップS414)。
【0191】
【0192】
各フローブロックlについての繰り返しが終わったら(ステップS415)、最終投影(final projection)を行い(ステップS416)、yftを更新する(ステップS417)。
【0193】
【0194】
各時間・周波数ビンftについての繰り返しが終わったら(ステップS418)、負の対数尤度関数(negative log-likelihood function)を計算する(ステップS419)。
【0195】
そして、計算された結果に基いて、最急降下法(gradient descent)により、すべてのWk',f, Ωa
k'',f, Ωb
k'',fを更新する(ステップS420)。
【0196】
回数I回の繰り返しが終わったら(ステップS421)、yftをソース信号の分離結果として出力し(ステップS422)、本処理を終了する。
【0197】
【0198】
図5は、フローブロックのニューラルネットワークによる構成を示す説明図である。本図には、ニューラルネットワークによってステップS407-S414に係る処理がされる様子を示している。
【0199】
各スケールエスティメータΩa
k'',f, Ωb
k'',fは、1つの隠れ層を持つマルチレイヤーパーセプトロン(MLP; MultiLayer Perceptron)である。
【0200】
2による切り捨て除算(floor division)をMに施した結果をM'とする。Ωa
k'',fについては、入力次元はM-M'、隠れ次元はM'、出力次元はM'である。Ωb
k'',fについては、入力次元はM'、隠れ次元はM-M'、出力次元はM-M'である。
【0201】
各k'', fについて、Ωa
k'',f, Ωb
k'',fの重みパラメータおよびバイアスパラメータの個数は、合わせてM2+2M個である。
【0202】
正規化線形ユニットが隠れ層として使用され、出力層には活性化関数として双曲線正接関数tanhが適用される。出力は、各要素が[-1, 1]の間になるようにスケールされる。
【0203】
上記のNF-IVAには、正規化のためのボリューム保存制約(volume-preserving constraint)を課すこともできる。ボリューム保存制約は、2つの手段によって達成される。
【0204】
第1に、ニューラルネットワークの順伝搬(forward propagation/forward path)を開始する冒頭で、各行列Wk',fを直交化(orthogonalize)する。これによって、ln p(X)の第2項を無視することができるようになる。直交化は、以下のように行う。
【0205】
【0206】
ここで、jは繰り返しインデックスであり、Iは単位行列である。
【0207】
収束を保証するために、以下の正規化を行う。
【0208】
【0209】
ここで、||・||1は、L1-ノルム(マンハッタン距離)である。
【0210】
繰り返し最大回数J = 32に至る前に、以下の条件が満たされた場合には、繰り返しを終了する。
【0211】
【0212】
第2に、L2-ノルム(ユークリッド距離)に基づく正規化項を追加して、ln p(X)の第3項をできるだけゼロに近付ける。その結果、パラメータ最適化の間に最小化されるべき損失関数は、以下のようになる。
【0213】
【0214】
以下、LNVPを最小化する上記の態様を、NF-IVA(NVP)と呼ぶこととする。また、LVPを最小化する態様を、NF-IVA(VP)と呼ぶこととする。IVAは、独立ベクトル分析(Independent Vector Analysis)を意味する。
【0215】
(NF-IVAの評価実験)
以下では、NF-IVAの性能等を評価する実験の結果について説明する。
【0216】
実験では、2, 4, 6, 8個の観測信号(M = 2, 4, 6, 8)から2個のソース信号を分離するタスク、および、3, 4, 6, 8個の観測信号(M = 3, 4, 6, 8)から3個のソース信号を分離するタスクを採用した。
【0217】
2個のソース信号に係るタスクでは、wsj0-2mixのテストセットからランダムに選択された150個の観測信号を採用した。3個のソース信号に係るタスクでは、wsj0-3mixのテストセットからランダムに選択された150個の観測信号を採用した。残響時間は、0.2秒から0.6秒までの一様分布を採用した。データはすべて、16kHzでサンプリングされたものである。STFT係数は、75%オーバーラップ(F = 1025)の2048点ハン・ウィンドウ(2048-point Hann window)を使用して抽出された。時間フレーム数の平均は、T≒175である。
【0218】
上記の諸元に対して、NF-IVA(NVP)、NF-IVA(VP)のほか、公知技術であるAuxIVA、ベースライン技術としてIVA-BPを適用する実験を行った。全手法について、ソース信号は、時変の分散を有する円対称なガウス分布を仮定している。
【0219】
後処理として、投影バック(projection-back)を実行している。投影バックは、分離された要素を観測された混合空間に投影して、マルチチャネルのソースイメージを得るとともに、エネルギースケールを較正するものである。なお、M>Nの場合には、平均パワーが上位のN個のソースイメージを採用することとした。
【0220】
分離性能は、SDR(Signal to Distortion Ratio)、ISR(Image to Spatial distortion Ratio)、SIR(Signal to Interference Ratio)、SAR(Signal to Artifacs Ratio)からなるBSS-Evalメトリックスを採用した。
【0221】
実験によると、マイクの数を増やしたとしても、性能が向上しないことがある旨が判明した。これは、より多くのパラメータを最適化する必要があるからだと思われる。
【0222】
SDRの観点からは、N=2に対してはM=4が、N=3に対してはM=6が、それぞれ最適であるとの結果が得られた。
【0223】
なお、AuxIVAでは、M=2, 4は、M=6, 8に比べて良好な収束がされることがわかった。これは、更新されるパラメータの個数が数値計算上の不安定性につながるからと考えられる。
【0224】
一方、バックプロパゲーションに基づく手法では、Mの値にかかわらず、収束は良好である。ただし、計算負荷は、AuxIVAよりも大きい。
【0225】
NF-IVA(VP)は、NF-IVA(NVP)に比べて、かなり遅いことが判明した。これは、行列の直交化のコストが高いからである。
【0226】
NF-IVA(NVP)のSDRの最高値は、いずれも、IVA-BPのSDRの最高値に近いが、これは、フローブロックが役立っていない、あるいは、最適化が十分でないことを意味する。
【0227】
一方、NF-IVA(VP)のSDR性能は、ほとんどのタスクで他の手法を上回っている。NF-IVA(VP)では、ln p(X)の第2項、第3項をゼロにしようとするが、現実世界では、これらがゼロになることはない。それにもかかわらず、NF-IVA(VP)における正規化が、性能の向上に貢献しているものと思われる。
【0228】
SDRの観点では、N=2に対してはL=1としたNF-IVA(VP)が最高成績を出しており、N=2に対しては、L=2あるいはL=4としたNF-IVA(VP)が最高成績を出している。
【0229】
全タスクについて、L=1が、良好なISRとSARを出しており、人間が聞くのに適している。L=2, 4に対するSIRは、L=1に対するSIRよりも良好である。これはフローブロックによって干渉が抑制できることを意味する。
【0230】
(一般化)
ここまで、ブラインドソース信号分離に対して、FastMNMF, FastMCTF, NF-IVAの技術を説明した。
【0231】
これらの技術は、時変の変換(R; Wk'',ft)と、時不変の変換(P, Q; Wk',f)を最尤推定することによって、観測信号からソース信号を分離している、と考えることができる。
【0232】
したがって、本実施形態に係るソース信号分離装置は、
複数の位置で観測された観測信号を取得し、
観測信号をソース信号に分離するための時変な変換と、時不変な変換と、を最尤推定し、
推定された時変な変換と、推定された時不変な変換と、により、観測信号から、ソース信号を分離する
ものと一般化することができる。
【0233】
(まとめ)
以上説明したように、本実施形態に係るソース信号分離装置は、
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をT個の時間フレーム、F個の周波数ビン、M個のチャネルにおける複素スペクトログラムに変換する変換部、
前記複素スペクトログラムから、N個のソースのそれぞれに対するN個の共分散行列Y1, …, YNの推定をする推定部、
前記複素スペクトログラムと、前記N個の共分散行列Y1, …, YNと、により、N個のソース信号を分離する分離部
を備えるソース信号分離装置であって、
前記推定部は、
前記N個のソースのそれぞれのソースn、
前記T個の時間フレームのそれぞれの時刻t、ならびに、
前記F個の周波数ビンのそれぞれの周波数f
に対する空間相関行列Gntfを、
当該時刻tおよび当該周波数fに依存しうるが当該ソースnに依存しない複素行列Qtfにより、
当該ソースnに依存しうるが当該周波数fに依存しない重みベクトルgntを対角成分とする対角行列Diag(gnt)へ、
同時対角化
Qtf Gntf Qtf
H = Diag(gnt)
が可能なものに制限して、前記推定をする。
【0234】
また、本実施形態に係るソース信号分離装置において、
前記推定部は、前記N個の共分散行列Y1, …, YNのそれぞれの共分散行列Ynを、
サイズTの複素行列Rと、
サイズFの複素行列Pと、
サイズMの単位行列IMと、
時不変複素行列QfをF個の周波数ビンの各周波数f = 1, …, Fに対して並べたF個の時不変複素行列Q1, …, QFからなるブロック対角行列Diag(Q・)と、
行列のクロネッカー積(×)と、
により定められる行列
U = R(×)(Diag(Q・)(P(×)IM))
により、
前記N個のソースのそれぞれのソースnに対するパワースペクトル密度ベクトルλnを対角成分とする対角行列Diag(λn)と、
時不変重みベクトルgnを対角成分とする対角行列Diag(gn)と、
を用いて、対角化
U Yn UH = Diag(λn) (×) Diag(gn)
が可能なものに制限して、前記推定をする
ように構成することができる。
【0235】
また、本実施形態に係るソース信号分離装置において、
前記推定部は、前記N個のソースのそれぞれのソースnに対するパワースペクトル密度ベクトルλnを、K個の基底に対する非負値行列因子分解
Diag(λn) = Σk=1
K Diag(hnk) (×) Diag(wnk)
により、
前記N個のソースのそれぞれのソースnと、
前記K個の基底のそれぞれの基底kと、に対する
時間基底ベクトルhnkと、
周波数基底ベクトルwnkと、
に分解が可能なものに制限して、前記推定をする
ように構成することができる。
【0236】
また、本実施形態に係るソース信号分離装置において、
前記推定部は、ニューラルネットワークにより、前記N個の共分散行列Y1, …, YNの推定を行う
ように構成することができる。
【0237】
また、本実施形態に係るソース信号分離装置において、
前記推定部は、前記ニューラルネットワークにより、前記複素行列Qtfを求める
ように構成することができる。
【0238】
また、本実施形態に係るソース信号分離装置において、
前記推定部は、前記空間相関行列Gntf、前記複素行列Qtf、ならびに、前記重みベクトルgntが、前記T個の時間フレームの任意の時刻tにおいて、時不変空間相関行列Gnf、時不変複素行列Qf、ならびに、時不変重みベクトルgnにそれぞれ等しくなるように制限して、前記推定をする
ように構成することができる。
【0239】
また、本実施形態に係るソース信号分離装置において、
前記推定部は、前記空間相関行列Gntf、前記複素行列Qtf、ならびに、前記重みベクトルgntが、前記T個の時間フレームの任意の時刻tにおいて、時不変空間相関行列Gnf、時不変複素行列Qf、ならびに、時不変重みベクトルgnにそれぞれ等しくなるように制限し、前記複素行列RをサイズTの単位行列ITとし、前記複素行列PをサイズFの単位行列IFとし、前記行列Uを
U = IT(×)Diag(Q・)
とすることにより、前記推定をする
ように構成することができる。
【0240】
また、本実施形態に係るソース信号分離装置において、
前記推定部は、ニューラルネットワークにより、前記N個の共分散行列Y1, …, YNの推定を行う
ように構成することができる。
【0241】
また、本実施形態に係るソース信号分離装置において、
前記推定部は、前記ニューラルネットワークにより、前記時不変複素行列Qfを求める
ように構成することができる。
【0242】
また、本実施形態に係るソース信号分離装置において、
前記ニューラルネットワークは、ノーマライジング・フローに基づく
ように構成することができる。
【0243】
本実施形態に係るソース信号分離方法は、
複数の位置で観測された観測信号を取得する取得工程、
前記観測信号をT個の時間フレーム、F個の周波数ビン、M個のチャネルにおける複素スペクトログラムに変換する変換工程、
前記複素スペクトログラムから、N個のソースのそれぞれに対するN個の共分散行列Y1, …, YNの推定をする推定工程、
前記複素スペクトログラムと、前記N個の共分散行列Y1, …, YNと、により、N個のソース信号を分離する分離工程
を備えるソース信号分離方法であって、
前記推定工程では、
前記N個のソースのそれぞれのソースn、
前記T個の時間フレームのそれぞれの時刻t、ならびに、
前記F個の周波数ビンのそれぞれの周波数f
に対する空間相関行列Gntfを、
当該時刻tおよび当該周波数fに依存しうるが当該ソースnに依存しない複素行列Qtfにより、
当該ソースnに依存しうるが当該周波数fに依存しない重みベクトルgntを対角成分とする対角行列Diag(gnt)へ、
同時対角化
Qtf Gntf Qtf
H = Diag(gnt)
が可能なものに制限して、前記推定をする。
【0244】
本実施形態に係るプログラムは、コンピュータを、
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をT個の時間フレーム、F個の周波数ビン、M個のチャネルにおける複素スペクトログラムに変換する変換部、
前記複素スペクトログラムから、N個のソースのそれぞれに対するN個の共分散行列Y1, …, YNの推定をする推定部、
前記複素スペクトログラムと、前記N個の共分散行列Y1, …, YNと、により、N個のソース信号を分離する分離部
として機能させるプログラムであって、
前記推定部は、
前記N個のソースのそれぞれのソースn、
前記T個の時間フレームのそれぞれの時刻t、ならびに、
前記F個の周波数ビンのそれぞれの周波数f
に対する空間相関行列Gntfを、
当該時刻tおよび当該周波数fに依存しうるが当該ソースnに依存しない複素行列Qtfにより、
当該ソースnに依存しうるが当該周波数fに依存しない重みベクトルgntを対角成分とする対角行列Diag(gnt)へ、
同時対角化
Qtf Gntf Qtf
H = Diag(gnt)
が可能なものに制限して、前記推定をする。
【0245】
本実施形態に係るソース信号分離装置は、
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をSTFT係数ベクトルに変換する変換部、
前記STFT係数ベクトルに順次適用する投影行列をニューラルネットワークにより推定する推定部、
前記STFT係数ベクトルと、前記推定された投影行列と、により、N個のソース信号を分離する分離部
を備える。
【0246】
また、本実施形態に係るソース信号分離装置において、
前記ニューラルネットワークは、ノーマライジング・フローに基づく
ように構成することができる。
【0247】
本実施形態に係るソース信号分離方法は、
複数の位置で観測された観測信号を取得する取得工程、
前記観測信号をSTFT係数ベクトルに変換する変換工程、
前記STFT係数ベクトルに順次適用する投影行列をニューラルネットワークにより推定する推定工程、
前記STFT係数ベクトルと、前記推定された投影行列と、により、N個のソース信号を分離する分離工程
を備える。
【0248】
本実施形態に係るプログラムは、コンピュータを、
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をSTFT係数ベクトルに変換する変換部、
前記STFT係数ベクトルに順次適用する投影行列をニューラルネットワークにより推定する推定部、
前記STFT係数ベクトルと、前記推定された投影行列と、により、N個のソース信号を分離する分離部
として機能させる。
【0249】
本実施形態に係るソース信号分離装置は、
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をソース信号に分離するための時変な変換と、時不変な変換と、を最尤推定する推定部、
前記推定された時変な変換と、前記推定された時不変な変換と、により、前記観測信号から、ソース信号を分離する分離部
を備える。
【0250】
本実施形態に係るソース信号分離方法は、
複数の位置で観測された観測信号を取得する取得工程、
前記観測信号をソース信号に分離するための時変な変換と、時不変な変換と、を最尤推定する推定工程、
前記推定された時変な変換と、前記推定された時不変な変換と、により、前記観測信号から、ソース信号を分離する分離工程
を備える。
【0251】
本実施形態に係るプログラムは、コンピュータを、
複数の位置で観測された観測信号を取得する取得部、
前記観測信号をソース信号に分離するための時変な変換と、時不変な変換と、を最尤推定する推定部、
前記推定された時変な変換と、前記推定された時不変な変換と、により、前記観測信号から、ソース信号を分離する分離部
として機能させる。
【0252】
本実施形態に係るプログラムは、非一時的なコンピュータ読取可能な情報記録媒体に記録して配布、販売することができる。また、コンピュータ通信網等の一時的な伝送媒体を介して配布、販売することができる。
【0253】
本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
【産業上の利用可能性】
【0254】
本発明によれば、高精度なブラインドソース信号分離に好適なソース信号分離装置、ソース信号分離方法、プログラム、ならびに、情報記録媒体を提供することができる。
【符号の説明】
【0255】
101 ソース信号分離装置
102 取得部
103 変換部
104 推定部
105 分離部