(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-07
(45)【発行日】2024-10-16
(54)【発明の名称】音源分離学習装置、音源分離学習方法、及び音源分離学習プログラム
(51)【国際特許分類】
G10L 21/0272 20130101AFI20241008BHJP
G10L 21/028 20130101ALI20241008BHJP
【FI】
G10L21/0272 100Z
G10L21/028 B
(21)【出願番号】P 2021152169
(22)【出願日】2021-09-17
【審査請求日】2023-07-31
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】亀岡 弘和
(72)【発明者】
【氏名】渡邊 千紘
(72)【発明者】
【氏名】関 翔悟
(72)【発明者】
【氏名】李 莉
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2020-134657(JP,A)
【文献】KAMEOKA, Hirokazu et al.,"ATTENTIOPIT: SOFT PERMUTATION INVARIANT TRAINING FOR AUDIO SOURCE SEPARATION WITH ATTENTION MECHANISM",Proc. of the ICASSP2022,2022年04月27日,pp.706-710
【文献】OCHIAI, Tsubasa et al.,"A UNIFIED FRAMEWORK FOR NEURAL SPEECH SEPARATION AND EXTRACTION",Proc. of the ICASSP2019,2019年04月17日,pp.6975-6979
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/02-21/0364
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
複数の音源信号が混合された混合信号を、ニューラルネットワークで構成された音源分離モデルにより複数の分離信号に分離する分離部と、
前記複数の分離信号の各々及び前記複数の音源信号の各々から抽出器により特徴量を抽出し、抽出した特徴量に基づいて、前記複数の分離信号の各々と前記複数の音源信号の各々との類似度を要素に持つ注意行列
であって、各列の要素の和が1となり、かつ、各要素は、前記分離信号と前記音源信号とが類似しているほど1に近い値をとり、類似していないほど0に近い値をとる注意行列を算出する算出部と、
前記注意行列に基づいて対応付けした前記複数の音源信号の各々と前記複数の分離信号の各々との誤差を含
み、前記注意行列が直交行列に近いほど小さい値をとる学習規準を最小化するように、前記音源分離モデル及び前記抽出器のパラメータを学習する学習部と、
を含む音源分離学習装置。
【請求項2】
前記抽出器は、ニューラルネットワークで構成されたエンコーダである請求項1に記載の音源分離学習装置。
【請求項3】
前記学習規準は、前記注意行列が直交行列に近いほど小さい値をとる正則化項を含み、
前記学習部は、前記学習規準における前記正則化項の重みを、学習が進むにしたがって大きくする請求項
1又は請求項2に記載の音源分離学習装置。
【請求項4】
前記誤差を、前記複数の音源信号を表す音源信号行列及び前記複数の分離信号を表す分離信号行列の一方に前記注意行列を乗算した行列と、前記音源信号行列及び前記分離信号行列の他方との差とする請求項1~請求項
3のいずれか1項に記載の音源分離学習装置。
【請求項5】
前記音源信号行列は、各音源信号を表す行ベクトルを縦に並べた行列であり、前記分離信号行列は、各分離信号を表す行ベクトルを縦に並べた行列であり、前記注意行列のi行j列の要素は、前記音源信号行列及び前記分離信号行列の一方のi列目の行ベクトルと、前記音源信号行列及び前記分離信号行列の他方のj列目の行ベクトルとの類似度を表す値であり、前記注意行列を乗算した行列は、前記音源信号行列及び前記分離信号行列の一方に前記注意行列を右から乗じた行列である請求項
4に記載の音源分離学習装置。
【請求項6】
分離部が、複数の音源信号が混合された混合信号を、ニューラルネットワークで構成された音源分離モデルにより複数の分離信号に分離し、
算出部が、前記複数の分離信号の各々及び前記複数の音源信号の各々から抽出器により特徴量を抽出し、抽出した特徴量に基づいて、前記複数の分離信号の各々と前記複数の音源信号の各々との類似度を要素に持つ注意行列
であって、各列の要素の和が1となり、かつ、各要素は、前記分離信号と前記音源信号とが類似しているほど1に近い値をとり、類似していないほど0に近い値をとる注意行列を算出し、
学習部が、前記注意行列に基づいて対応付けした前記複数の音源信号の各々と前記複数の分離信号の各々との誤差を含
み、前記注意行列が直交行列に近いほど小さい値をとる学習規準を最小化するように、前記音源分離モデル及び前記抽出器のパラメータを学習する
音源分離学習方法。
【請求項7】
コンピュータを、請求項1~請求項
5のいずれか1項に記載の音源分離学習装置を構成する各部として機能させるための音源分離学習プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
開示の技術は、音源分離学習装置、音源分離学習方法、及び音源分離学習プログラムに関する。
【背景技術】
【0002】
複数の音源の音響信号が混在したモノラル混合音響信号から、各音源の信号を分離抽出する問題をモノラル音源分離という。モノラル音源分離技術は、深層ニューラルネットワークをベースにした手法が頭角を現して以来、飛躍的な進歩を遂げている。現在までに提案されているモノラル音源分離手法は、スペクトルベースと時間領域ベースとの2つの手法に大別されるが、現時点において、精度の面では後者が優位に立っている。
【0003】
時間領域ベースの手法では、混合信号を入力とし、J個の分離信号を出力するようなニューラルネットワークモデル(以下、「音源分離モデル」という)を適当に設計し、この音源分離モデルを学習することが目的となる。しかし、音源分離モデルから出力される各分離信号がどの音源に対応するかは、音源分離モデルのアーキテクチャやパラメータ次第であり、事前に予測することが難しい。そのため、混合信号に混合されている正解の音源信号(以下、「正解音源信号」という)を適当な順番で並べた上で、分離信号と正解音源信号との誤差を学習規準とする単純な方法では、音源分離モデルが期待どおりに学習されない場合があった。
【0004】
そこで、各学習サンプルについて、音源分離モデルから出力される各分離信号がどの正解音源信号に対応しているかを見つけた上で、分離信号と正解音源信号との誤差を評価し、その評価値に基づいて音源分離モデルのパラメータを更新するパーミュテーション不変学習(Permutation Invariant Training;PIT)と呼ばれる学習方式(非特許文献1)が提案され、現在多くの手法で採用されている。
【先行技術文献】
【非特許文献】
【0005】
【文献】D. Yu, M. Kolbak, Z. Tan, and J. Jensen, "Permutation invariant training of deep models for speaker-independent multitalker speech separation," in Proc. ICASSP, 2017, pp.241-245.
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、上述のPITでは、音源の数J個に対して、学習の計算コストがO(J!)となるため、混合されている音源の数が多い混合信号(例えば、10音源以上の混合信号)を対象とした音源分離モデルの場合、現実的な計算コストでの学習が困難である。例えば、J=20の場合、J!は2.4×1018と途方もない数となり、学習の計算コストも膨大となる。
【0007】
開示の技術は、上記の点に鑑みてなされたものであり、音源分離モデルの学習において、混合されている音源の数が多い混合信号を分離する場合でも、音源分離精度の低下を抑制しつつ、学習効率を向上させることを目的とする。
【課題を解決するための手段】
【0008】
本開示の第1態様は、音源分離学習装置であって、複数の音源信号が混合された混合信号を、ニューラルネットワークで構成された音源分離モデルにより複数の分離信号に分離する分離部と、前記複数の分離信号の各々及び前記複数の音源信号の各々から抽出器により特徴量を抽出し、抽出した特徴量に基づいて、前記複数の分離信号の各々と前記複数の音源信号の各々との類似度を要素に持つ注意行列を算出する算出部と、前記注意行列に基づいて対応付けした前記複数の音源信号の各々と前記複数の分離信号の各々との誤差を含む学習規準を最小化するように、前記音源分離モデル及び前記抽出器のパラメータを学習する学習部と、を含む。
【0009】
本開示の第2態様は、音源分離学習方法であって、分離部が、複数の音源信号が混合された混合信号を、ニューラルネットワークで構成された音源分離モデルにより複数の分離信号に分離し、算出部が、前記複数の分離信号の各々及び前記複数の音源信号の各々から抽出器により特徴量を抽出し、抽出した特徴量に基づいて、前記複数の分離信号の各々と前記複数の音源信号の各々との類似度を要素に持つ注意行列を算出し、学習部が、前記注意行列に基づいて対応付けした前記複数の音源信号の各々と前記複数の分離信号の各々との誤差を含む学習規準を最小化するように、前記音源分離モデル及び前記抽出器のパラメータを学習する方法である。
【0010】
本開示の第3態様は、音源分離学習プログラムであって、コンピュータを、上記の音源分離学習装置を構成する各部として機能させるためのプログラムである。
【発明の効果】
【0011】
開示の技術によれば、音源分離モデルの学習において、混合されている音源の数が多い混合信号を分離する場合でも、音源分離精度の低下を抑制しつつ、学習効率を向上させることができる。
【図面の簡単な説明】
【0012】
【
図1】PITの学習方式を説明するための図である。
【
図2】音源分離学習装置のハードウェア構成を示すブロック図である。
【
図3】音源分離学習装置の機能構成の例を示すブロック図である。
【
図4】音源分離学習処理の流れを示すフローチャートである。
【
図5】AttentionPITの学習方式を説明するための図である。
【
図6】AttentionPIT及び参考方式の音源分離精度及び学習効率の評価結果の一例を示す図である。
【
図7】音源分離装置の機能構成の例を示すブロック図である。
【発明を実施するための形態】
【0013】
以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
【0014】
<問題の定式化>
本実施形態に係る音源分離学習装置の詳細を説明する前に、本実施形態における問題を定式化する。なお、以下の各数式内の太字のアルファベットで表された記号は、行列又はベクトルを表す。文章内では、対応する記号を、そのアルファベットの前に行列又はベクトルの文字を付して表記する。また、数式内においてアクセント記号が付されたアルファベットは、文章内では、例えば、「^S」のように、そのアルファベットの前にアクセント記号を付して表記する。その他、文章内で数式内と同様に表記することができない記号については、適宜説明を付して表記の変換を行う。
【0015】
音源jの音響信号(以下、「音源信号」という)をsj(n)とすると、J個の音源信号s1(n),...,sJ(n)が混在するモノラル混合信号y(n)は、下記(1)式で表される。
【0016】
【0017】
ただし、nは時刻のインデックス、Nは混合信号の全標本点数である。モノラル音源分離の目的は、混合信号y=[y(1),...,y(N)]∈実数R1×Nから各音源信号sj=[sj(1),...,sj(N)]∈実数R1×N(j=1,...,J)を復元することである。
【0018】
下記(2)式を参照して、ニューラルネットワークを用いた時間領域ベースのモノラル音源分離手法について説明する。
【0019】
【0020】
ニューラルネットワークを用いた時間領域ベースのモノラル音源分離手法は、(2)式に示すように、混合信号を表すベクトルyを入力とし、各分離信号を表すベクトルを並べた行列(以下、「分離信号行列」という)^S=[ベクトル^s1;...;ベクトル^sJ]∈実数RJ×Nを出力する関数fθ(・)を適当なアーキテクチャのニューラルネットワークでモデル化し、そのパラメータθを学習により決定するアプローチをとる。ただし、「;」は行列における改行を表す記号とする。ベクトル^s1、...、ベクトル^sJがそれぞれどの音源に対応するかは、fθ(・)のアーキテクチャやパラメータに依存し、学習時に事前に予測することは必ずしも容易ではない。そのため、分離信号と正解音源信号との対応付けを行いつつ、パラメータθの学習を行う方法が必要となる。
【0021】
上記のような学習を行う方法が、上述した非特許文献1に記載のPITである。PITでは、各学習サンプルである混合信号(ベクトルy)に混合されている正解音源信号を表すベクトルを並べた行列(以下、「正解音源信号行列」という)を行列S=[ベクトルs1,...,ベクトルsJ]とする場合、その学習規準は下記(3)式となる。
【0022】
【0023】
ただし、E(数式内では二重線を含む表記)(行列S,ベクトルy)~p_D(行列S,ベクトルy)[・]は全学習サンプルについての集合平均を表す。行列Pは各分離信号と各正解音源信号との対応関係を表すバイナリ行列である。集合P(数式内では筆記体表記)は置換行列の集合を表す。D(A,B)はAとBとの誤差を表す尺度であり、例えば、絶対誤差、二乗誤差、負のスケール不変信号対歪比(Scale-InvariantSignal-to-DistortionRatio;SI-SDR、参考文献1)等が用いられる。
参考文献1:J. Le Roux, S. Wisdom, H. Erdogan, and J. R. Hershey, "SDR - half-baked or well done?," arXiv:1811.02508 [cs.SD], 2018.
【0024】
PITでは、
図1に示すように、各学習サンプルについてD(f
θ(ベクトルy)行列P,行列S)が最小となる行列Pを全列挙により探索した上で、パラメータθを更新する方法がとられる。そのため、学習の計算時間オーダーはO(J!)となる。音源の数Jが2や3の場合にはこの方法でも特に問題とならないが、Jが大きくなるにしたがって組み合わせ爆発が起こり、現実的な計算量で学習することが困難になる。
【0025】
そこで、本実施形態では、音源分離モデルから出力される各分離信号がどの正解音源信号に対応しているかを注意(Attention)機構により見つけ出し、この対応を注意行列として算出する。そして、注意行列に基づいて分離信号又は正解音源信号を並び替えた上で、分離信号と正解音源信号との誤差を評価する。すなわち、本実施形態における学習方式は、注意機構に基づくアプローチにより、PITの学習規準の緩和版に相当する学習規準を最適化する方式である。以下では、本実施形態における学習方式を「AttentionPIT」と呼ぶ。以下、本実施形態に係る音源分離学習装置について詳述する。
【0026】
<音源分離学習装置の構成>
図2は、音源分離学習装置10のハードウェア構成を示すブロック図である。
図2に示すように、音源分離学習装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16、及び通信I/F(Interface)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
【0027】
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、後述する音源分離学習処理を実行するための音源分離学習プログラムが格納されている。
【0028】
ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
【0029】
入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能してもよい。通信I/F17は、他の機器と通信するためのインタフェースである。当該通信には、たとえば、イーサネット(登録商標)若しくはFDDI等の有線通信の規格、又は、4G、5G、若しくはWi-Fi(登録商標)等の無線通信の規格が用いられる。
【0030】
次に、音源分離学習装置10の機能構成について説明する。
図3は、音源分離学習装置10の機能構成の例を示すブロック図である。
図3に示すように、音源分離学習装置10は、機能構成として、分離部101と、算出部102と、学習部103とを有する。各機能構成は、CPU11がROM12又はストレージ14に記憶された音源分離学習プログラムを読み出し、RAM13に展開して実行することにより実現される。
【0031】
分離部101は、複数の音源信号が混合された混合信号を、ニューラルネットワークで構成された音源分離モデル111により複数の分離信号に分離する。
【0032】
具体的には、分離部101は、音源分離学習装置10に入力された、学習サンプルとなる混合信号を取得し、取得した混合信号を表すベクトルyを音源分離モデル111に入力する。上記の問題の定式化で説明したように、音源分離モデル111は、(2)式に示すように、混合信号を表すベクトルyを入力とし、分離信号行列^Sを出力する関数fθ(・)を適当なアーキテクチャのニューラルネットワークでモデル化したものである。分離部101は、音源分離モデル111から出力される分離信号行列^Sを取得する。分離部101は、学習サンプルを構成する正解音源信号行列S、及び音源分離モデル111から出力された分離信号行列^Sを算出部102へ受け渡す。
【0033】
算出部102は、複数の分離信号の各々及び複数の音源信号の各々から抽出器112により特徴量を抽出し、抽出した特徴量に基づいて、複数の分離信号の各々と複数の音源信号の各々との類似度を要素に持つ注意行列を算出する。
【0034】
抽出器112は、ニューラルネットワークで構成されたエンコーダである。このエンコーダは、分離信号行列^S及び正解音源信号行列Sの各々を入力とし、入力と同じ行数で適当な列数の行列を出力する関数gφ(・)を適当なアーキテクチャのニューラルネットワークでモデル化したものである。そこで、分離信号行列^S及び正解音源信号行列Sを入力した際のgφ(・)の出力をそれぞれ下記(4)式及び下記(5)とする。
【0035】
【0036】
行列K及び行列Q∈実数RJ×N’は、分離信号行列^S及び正解音源信号行列Sの特徴をそれぞれ強調(エンコード)したものとなる。ただし、N’は行列K及び行列Qの列数である。行列K及び行列Qを用いて算出される、分離信号^sjと正解音源信号sj’との類似度ajj’(0以上1以下)を要素にもつ行列A∈実数RJ×Jを「注意行列」と呼ぶ。注意行列Aは、例えば、下記(6)式としてよい。
【0037】
【0038】
ただし、softmax(・)は行列の各列にソフトマックス関数を適用する演算を意味する。よって、(6)式の場合、注意行列Aの各列の要素の和は1となる。注意行列Aの要素ajj’は、分離信号^sjと正解音源信号sj’とが類似しているほど1に近い値をとり、類似していないほど0に近い値をとることになる。したがって、注意行列Aの各要素が厳密に0か1のいずれかになっている場合、下記(7)式に示すように分離信号行列^Sに右から注意行列Aを乗じて得られる行列~Sは、正解音源信号行列Sの各行に最も類似した分離信号行列^Sの行を見つけ、それらを正解音源信号行列Sの行番号順に並べたような行列となる。
【0039】
【0040】
具体的には、算出部102は、分離信号行列^Sを抽出器112に入力し、抽出器112から出力される分離信号行列^Sの特徴量(行列K)を取得する。また、算出部102は、正解音源信号行列Sを抽出器112に入力し、抽出器112から出力される正解音源信号行列Sの特徴量(行列Q)を取得する。そして、算出部102は、取得した特徴量を用いて、例えば(6)式により、注意行列Aを算出する。算出部102は、正解音源信号行列S及び分離信号行列^Sと、算出した注意行列Aとを学習部103へ受け渡す。
【0041】
学習部103は、注意行列Aに基づいて対応付けした複数の音源信号の各々と複数の分離信号の各々との誤差を含む学習規準を最小化するように、音源分離モデル111のパラメータθ、及び抽出器112のパラメータφを学習する。(7)式に示す行列~Sを正解音源信号行列Sにできるだけ近づけることが、パラメータθ及びφの学習目標となる。(6)式と(7)式とをまとめた式を下記(8)式とした場合、最小化したい学習規準L(θ,φ)は、下記(9)式及び(10)式となる。
【0042】
【0043】
各分離信号sjと各正解音源信号sj’とは一対一で対応していることが望ましいが、これは注意行列Aが置換行列の要件を満たしている場合に相当する。上記の学習規準のみでは、注意行列Aが置換行列の要件を満たすように学習が行われるとは限らない。そこで、学習部103は、上記の学習規準に加え、注意行列Aが直交行列に近いほど小さい値をとるような学習規準を用いて、パラメータθ及びφを学習してもよい。例えば、下記(11)式に示すように、注意行列Aとその転置行列ATとの積と、単位行列との誤差を表す正則化項R(数式内では筆記体表記)(θ,φ)を含む学習規準を用いてもよい。
【0044】
【0045】
(11)式に示す正則化項は、注意行列Aが置換行列になっている場合に0になる。ただし、λ≧0は正則化重み、行列IはJ×Jの単位行列、||・||ρは行列のρノルムである。λは、固定値としてもよいし、学習開始時は小さめの値に設定し、学習が進むに従って徐々に値を大きくするようにしてもよい。
【0046】
学習部103は、例えば、算出部102から受け渡された分離信号行列^S及び注意行列Aから、(7)式に示す行列~Sを算出し、算出部102から受け渡された正解音源信号行列S及び行列~Sから、(9)式に示す学習規準を算出する。学習部103は、算出した学習規準が小さくなるように、パラメータθ及びφを更新する。そして、学習部103は、終了条件を満たすまで、パラメータθ及びφの更新を繰り返す。終了条件は、パラメータθ及びφの更新が所定の繰り返し回数に達した場合、学習規準が所定値以下となった場合、前回算出された学習規準と今回算出された学習規準との差が所定値以下となった場合等としてよい。学習部103は、終了条件を満たした際のパラメータθを出力する。
【0047】
次に、音源分離学習装置10の作用について説明する。
【0048】
図4は、音源分離学習装置10による音源分離学習処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から音源分離学習プログラムを読み出して、RAM13に展開して実行することにより、音源分離学習処理が行なわれる。また、
図5は、本実施形態における学習方式(AttentionPIT)を表す概略図である。
図4に示す音源分離学習処理について、
図5も参照して説明する。
【0049】
ステップS101において、CPU11は、分離部101として、音源分離学習装置10に入力された、学習サンプルとなる混合信号を取得する。次に、ステップS102で、CPU11は、分離部101として、取得した混合信号を表すベクトルyを音源分離モデル111(f
θ(・))に入力し、音源分離モデル111から出力される分離信号行列^Sを取得する(
図5のA)。
【0050】
次に、ステップS103で、CPU11は、算出部102として、上記ステップS102で取得された分離信号行列^Sを抽出器112(g
φ(・))に入力し、抽出器112から出力される分離信号行列^Sの特徴量(行列K)を取得する(
図5のB)。また、CPU11は、算出部102として、上記ステップS101で取得された学習サンプルを構成する正解音源信号行列Sを抽出器112(g
φ(・))に入力し、抽出器112から出力される正解音源信号行列Sの特徴量(行列Q)を取得する。そして、CPU11は、算出部102として、取得した特徴量を用いて、例えば(6)式により、注意行列Aを算出する。
【0051】
次に、ステップS104で、CPU11は、学習部103として、上記ステップS102で取得された分離信号行列^S、及び上記ステップS103で算出された注意行列Aから、(7)式に示す行列
~Sを算出する(
図5のD)。そして、CPU11は、学習部103として、正解音源信号行列Sと行列
~Sとの誤差を示す、例えば(9)式に示すような学習規準を算出し(
図5のE)、算出した学習規準が小さくなるように、パラメータθ及びφを更新する。
【0052】
次に、ステップS105で、CPU11は、学習部103として、学習の終了条件を満たすか否かを判定する。学習の終了条件を満たす場合には、ステップS106へ移行し、満たさない場合には、ステップS102に戻る。ステップS106では、CPU11は、学習部103として、終了条件を満たした際のパラメータθを出力し、音源分離学習処理は終了する。
【0053】
ここで、本実施形態における学習方式(AttentionPIT)の効果を、参考手法と比較して説明する。ここでは、参考手法を、SinkPIT(参考文献2)、及びHungarianPIT(参考文献3)とする。
【0054】
参考文献2:H. Tachibana, "Towards Listening to 10 People Simultaneously: An Efficient Permutation Invariant Training of Audio Source Separation Using Sinkhorn's Algorithm," arXiv:2010.11871 [cs.SD], 2020.
参考文献3:S. Dovrat, E. Nachmani, and L. Wolf, "Many-Speakers Single Channel Speech Separation with Optimal Permutation Training," arXiv:2104.08955 [cs.SD], 2021.
【0055】
SinkPITは、Sinkhorn-Knoppアルゴリズムにより任意の正値行列を二重確率行列に収束させられる点に着眼し、音源分離モデルの出力信号と正解信号との各ペアの誤差を要素にしたペアワイズ誤差行列を構成し、この誤差行列と、誤差行列を元にして作られる正値行列の収束先の二重確率行列との内積を学習規準とした方式である。SinkPITの計算コストは、O(J2)である。
【0056】
HungarianPITは、割当問題の求解法の1つであるハンガリアン法を用いて、音源分離モデルの出力信号と正解信号との最適割当を行った上で、音源分離モデルの出力信号と正解信号との誤差(PITと同一の学習規準)を学習規準とする方式である。HungarianPITの計算コストはO(J3)である。
【0057】
本実施形態における学習方式(AttentionPIT)は、SinkPITと同様の計算時間オーダーである。しかし、無限大のJを考えない限り、各方式の実際の学習時間の長短は音源分離モデルのアーキテクチャや各方式のハイパーパラメータに依存して決まるため、各方式の優劣は音源分離精度及び学習時間を実験的に実測比較した上で議論する必要がある。
【0058】
図6に、10話者の音声の混合信号を対象としたモノラル音源分離の実験について、各方式の音源分離精度(SI-SDR改善値)及び学習効率(反復計算のサイクル毎秒)の評価結果を示す。本実験において、学習データ及びテストデータは、LibrSpeechを元に作られるLibriMixと呼ぶデータセットを用い、ConvTasNet(参考文献4)を音源分離モデルとして用いた。各方式において、音源分離モデル及び学習の条件は同一である。なお、PITで学習した場合の音源分離精度はHungarianPITで学習した場合と同等になる一方で、学習効率が著しく低かったため、比較対象の参考例から省略している。
【0059】
参考文献4:Y. Luo and N. Mesgarani, "Conv-TasNet: Surpassing ideal time frequency magnitude masking for speech separation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 8, pp. 1256-1266, 2019.
【0060】
図6の評価結果が示すように、音源分離精度においては、AttentionPITは他の2方式に比べて優位であることが確認された。また、学習効率においては、AttentionPITはHungarianPITには若干及ばなかったものの、SinkPITよりわずかに高効率であることが確認された。
【0061】
以上説明したように、本実施形態に係る音源分離学習装置は、複数の音源信号が混合された混合信号を、ニューラルネットワークで構成された音源分離モデルにより複数の分離信号に分離する。また、音源分離学習装置は、複数の分離信号の各々及び複数の音源信号の各々から抽出器により特徴量を抽出し、抽出した特徴量に基づいて、複数の分離信号の各々と複数の音源信号の各々との類似度を要素に持つ注意行列を算出する。そして、音源分離学習装置は、注意行列に基づいて対応付けした複数の音源信号の各々と複数の分離信号の各々との誤差を含む学習規準を最小化するように、音源分離モデル及び抽出器のパラメータを学習する。これにより、音源分離モデルの学習において、混合されている音源の数が多い混合信号を分離する場合でも、音源分離精度の低下を抑制しつつ、学習効率を向上させることができる。
【0062】
具体的には、本実施形態に係る音源分離学習装置は、PITと同様に、分離信号と正解音源分離信号との対応付けを行った上で分離信号と正解音源分離信号との誤差を評価するため、音源分離精度の低下は抑制される。一方、PITでは学習の計算コストがO(C!)であるのに対して、本実施形態に係る音源分離学習装置では、計算コストはO(C2)であり、学習効率を向上させることができる。
【0063】
また、本実施形態に係る音源分離学習装置は、抽出器として、ニューラルネットワークで構成されたエンコーダを用いる。これにより、分離信号と正解音源信号との対応を注意機構により見つけ出すことができる。
【0064】
また、本実施形態に係る音源分離学習装置は、注意行列が直交行列に近いほど小さい値をとる正則化項を含む学習規準を用いてもよい。これにより、注意行列が置換行列の要件を満たす可能性が高まり、分離信号と正解音源信号とを一対一で対応させ易くなる。
【0065】
なお、上記実施形態では、(7)式に示すように、分離信号行列に注意行列を乗算した行列と、正解音源信号行列との誤差を含む学習規準を最小化する場合について説明したが、これに限定されない。正解音源信号行列に注意行列を乗算した行列と、分離信号行列との誤差を含む学習規準を最小化するようにしてもよい。
【0066】
また、本実施形態に係る音源分離学習装置で学習されたパラメータθを用いて構成される音源分離モデルは、混合されている複数の音源信号の各々が未知の推論対象の混合信号から、混合されている複数の音源信号の各々を推論する音源分離装置で利用される。
図7に、音源分離装置30の機能構成の一例を示す。音源分離装置30は、推論対象の混合信号を、音源分離モデル311を用いて分離した複数の分離信号の各々を、推論対象の混合信号に含まれる複数の音源信号の各々を示す推論結果として出力する推論部301を含む。音源分離装置30の所定の記憶領域に記憶される音源分離モデル311は、上記実施形態の音源分離学習装置10における音源分離モデル111と同様のアーキテクチャであって、音源分離学習装置10で学習されたパラメータθが設定されている。
【0067】
なお、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した音源分離学習処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、音源分離学習処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0068】
また、上記各実施形態では、音源分離学習処理プログラムがROM12又はストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0069】
以上の実施形態に関し、更に以下の付記を開示する。
【0070】
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
複数の音源信号が混合された混合信号を、ニューラルネットワークで構成された音源分離モデルにより複数の分離信号に分離し、
前記複数の分離信号の各々及び前記複数の音源信号の各々から抽出器により特徴量を抽出し、抽出した特徴量に基づいて、前記複数の分離信号の各々と前記複数の音源信号の各々との類似度を要素に持つ注意行列を算出し、
前記注意行列に基づいて対応付けした前記複数の音源信号の各々と前記複数の分離信号の各々との誤差を含む学習規準を最小化するように、前記音源分離モデル及び前記抽出器のパラメータを学習する
ように構成されている音源分離学習装置。
【0071】
(付記項2)
音源分離学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記録媒体であって、
前記音源分離学習処理は、
複数の音源信号が混合された混合信号を、ニューラルネットワークで構成された音源分離モデルにより複数の分離信号に分離し、
前記複数の分離信号の各々及び前記複数の音源信号の各々から抽出器により特徴量を抽出し、抽出した特徴量に基づいて、前記複数の分離信号の各々と前記複数の音源信号の各々との類似度を要素に持つ注意行列を算出し、
前記注意行列に基づいて対応付けした前記複数の音源信号の各々と前記複数の分離信号の各々との誤差を含む学習規準を最小化するように、前記音源分離モデル及び前記抽出器のパラメータを学習する
ことを含む非一時的記録媒体。
【符号の説明】
【0072】
10 音源分離学習装置
11 CPU
12 ROM
13 RAM
14 ストレージ
15 入力部
16 表示部
17 通信I/F
19 バス
101 分離部
102 算出部
103 学習部
111 音源分離モデル
112 抽出器
30 音源分離装置
301 推論部
311 音源分離モデル