(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-10-01
(54)【発明の名称】データ生成に基づく少数サンプルにおける話者分離方法
(51)【国際特許分類】
G10L 21/0308 20130101AFI20250924BHJP
G10L 25/30 20130101ALI20250924BHJP
【FI】
G10L21/0308 Z
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2025519086
(86)(22)【出願日】2023-12-06
(85)【翻訳文提出日】2025-04-02
(86)【国際出願番号】 CN2023136613
(87)【国際公開番号】W WO2024140070
(87)【国際公開日】2024-07-04
(31)【優先権主張番号】202211740126.3
(32)【優先日】2022-12-30
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521234722
【氏名又は名称】重▲慶▼▲郵▼▲電▼大学
【氏名又は名称原語表記】CHONGQING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS
(74)【代理人】
【識別番号】110001357
【氏名又は名称】弁理士法人つばさ国際特許事務所
(72)【発明者】
【氏名】▲銭▼ ▲鷹▼
(72)【発明者】
【氏名】▲陳▼ 奉
(72)【発明者】
【氏名】▲劉▼ ▲シン▼
(72)【発明者】
【氏名】万 邦睿
(72)【発明者】
【氏名】姜 美▲蘭▼
(57)【要約】
本発明は、データ生成に基づく少数サンプル話者分離方法に関し、音声を分離するの分野に属し、S1において、分離待ち音声データとターゲット話者のクリーンな音声データを採集して構築するステップと、S2において、データセットに対して前処理を行うステップと、S3において、LSTMに基づく音声マッチングモデルを利用して前処理後の分離待ち音声データセットにおける各段の音声に対してフレームレベルのターゲット話者マッチングを行い、マッチング結果に基づき、音声段を、ターゲット話者を含まないこと、1つのターゲット話者のみを含むこと、複数のターゲット話者を含むこととして判断するステップと、S4において、GANに基づく複数のターゲット話者を含む音声生成モデルを利用し、分離待ち音声段を拡張するステップと、S5において、TCNに基づく音声を分離するモデルを構築してトレーニングし、分離待ち音声の複数ターゲット話者を含む音声を分離し、単一のターゲット話者の音声データを取得し、最後に単一のターゲット話者の完全な音声を合成するステップと、を含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
S1において、各段の分離待ち音声データとターゲット話者のクリーンな音声データを採集し、分離待ち音声データセットとターゲット話者のクリーンな音声の少数サンプルデータセットをそれぞれ構築するステップと、
S2において、分離待ち音声データセットとターゲット話者のクリーンな音声データセットに対して前処理を行うステップと、
S3において、LSTMに基づく音声マッチングモデルを利用して前処理後の分離待ち音声データセットにおける各段の音声に対してフレームレベルのターゲット話者マッチングを行い、マッチング結果に基づき、音声段を、ターゲット話者を含まないこと、1つのターゲット話者のみを含むこと、複数のターゲット話者を含むこととして判断するステップと、
S4において、GANに基づく複数のターゲット話者を含む音声生成モデルを利用し、複数のターゲット話者を含む分離待ち音声データを処理し、分離待ち音声段データセットを拡張するステップと、
S5において、TCNに基づく音声を分離するモデルを構築してトレーニングし、分離待ち音声の複数ターゲット話者を含む音声を分離し、単一のターゲット話者の音声データを取得し、最後に単一のターゲット話者の完全な音声を合成するステップと、を含む、
ことを特徴とするデータ生成に基づく小さなサンプル話者分離方法。
【請求項2】
ステップS1は、具体的には、データを採集する時、録音機器を利用して発話者及び所在する実のシーンを録音し、分離待ち音声データセットV
0={v
1,v
2,…,v
i,…,v
n}i∈[1,n]を得、そのうちnは、分離待ち音声データセットにおける音声段の総数を示し、v
iは、第i段の分離待ち音声を示し、各段の分離待ち音声の時間はTime分間であるステップと、全てのターゲット話者が無雑音外乱でのクリーンな音声信号を収集し、ターゲット話者のクリーンな音声の小さなサンプルデータセットClean={c
1,c
2,…,c
j,…,c
m}j∈[1,m]を取得し、そのうちmは、ターゲット話者の数を示し、c
jは、第j個のターゲット話者のクリーンな音声を示し、各段のクリーンな音声の時間は、Time分間であるステップと、を含むことを特徴とする請求項1に記載のデータ生成に基づく少数サンプル話者分離方法。
【請求項3】
ステップS2に記載の前処理は、
S21において、短時間エネルギー法とゼロクロッシング率閾値法を結合する方法を利用して採集された分離待ち音声に対してエンドポイント検出を行い、空白音声部分を除去するステップと、
S22において、周波数域マスクに基づくディープラーニングモデルにより、ステップS21で得られた分離待ち音声段に対して騒音低減処理を行うステップと、を含むことを特徴とする請求項1に記載のデータ生成に基づく少数サンプル話者分離方法。
【請求項4】
ステップS3は、具体的には、
S31において、各段の分離待ち音声段とターゲット話者のクリーンな音声をいずれもpフレームに分け、各フレームの分離待ち音声のメルスペクトル特徴Xa={x
11,x
12,…,x
1k,…,x
1p,…,x
lk,…,x
np}を抽出し、そのうちx
1kは、第l段の分離待ち音声の第kフレームから抽出して得られた特徴ベクトルを示し、l∈[1,n],k∈[1,p]であり、ターゲット話者のクリーンな音声における各フレームのメルスペクトル特徴Yb={y
11,y
12,…,y
1k,…,y
1p,…,y
jk,…,y
mp}を抽出し、そのうちy
1kは、第j個のターゲット話者のクリーンな音声の第kフレームから抽出して得られた特徴ベクトルを示すステップと、
S32において、LSTMに基づく音声マッチングモデルを構築し、メルスペクトル特徴XaとYbを、それぞれ各段の分離待ち音声の各フレームの音声特徴を1行とし、上から下へフレーム順に従って順次配列し、各段のターゲット話者の各フレームのクリーンな音声特徴は、一行であり、上から下へフレーム順に順次配列し、batchを構成し、batchにおけるメルスペクトル特徴は、3層LSTMにより入力音声の特徴を含む特徴ベクトルを得、最後の1層LSTMの後に1層の線形マッピング層を繋ぎ、最後の1層LSTMの出力を低次元のembedding特徴ベクトルにマッピングし、続いて分離待ち音声の各フレームのembedding特徴ベクトルと各ターゲット話者のクリーンな音声の中心ベクトルのembedding特徴との類似度を求め、類似度行列を得、次元は、n×pmであり、類似度行列における全ての要素の平均値を閾値とし、当該段の分離待ち音声における発話中のターゲット話者を認識するために用いられるステップと、
S33において、分離待ち音声段を、ターゲット話者を含まないこと、1つのターゲット話者を含むこと、複数のターゲット話者を含むことという音声段に分け、次元がn×pの発話行列を用いて類似度行列における各フレームの発話中のターゲット話者の数を記録し、発話行列の統計結果に基づき、各段の分離待ち音声の現在発話者の数が0、1及び2以上の音声フレームを選別し、現在ターゲット話者の数が2以上の音声フレームのみを保留し、保留された音声フレームを合併し、当該段の分離待ち音声の複数のターゲット話者の音声段M={M
1,M
2,…,M
n}を得、それに対してさらに音声を分離するを行うステップと、を含むことを特徴とする請求項1に記載のデータ生成に基づく少数サンプル話者分離方法。
【請求項5】
前記ステップS32において、具体的には、
S321において、分離待ち音声batchは、n×p個のメルスペクトル特徴で構成され、そのうち分離待ち音声は、n段があり、各段は、pフレームに分けられ、各フレームの特徴は、Xa内の特徴要素に対応するステップであって、
ターゲット話者のクリーンな音声batchは、m×p個のメルスペクトル特徴ベクトルで構成され、そのうちターゲット話者のクリーンな音声は、m段があり、各段は、pフレームに分けられ、各フレームの特徴は、Yb内の特徴要素に対応するステップと、
S322において、Xaは、3層LSTM処理により各フレームの音声の特徴ベクトルを得、最後に線形マッピング層を用いて特徴ベクトルの次元を低減させ、結果は、f(x
lk;W)であり、そのうちx
lkは、第l段の分離待ち音声の第kフレームの音声信号であり、fは、最後の1層LSTM後の線形マッピング関数であり、Wは、当該関数のパラメータであり、一次元ベクトルを用いて示すステップと、
S323において、embedding特徴ベクトルをf(x
lk;W)のL2ノルムとして正規化し、そのうちの第l段の分離待ち音声の第kフレームのembedding特徴ベクトルをe
l,kに示し、
そのうち||f(x
lk;W)||
2は、モデル出力f(x
lk;W)のL2ノルムであるステップと、
S324において、Ybは、モデル処理によりターゲット話者のクリーンな音声のembedding特徴ベクトルe
j,kを得、第j個のターゲット話者、第kフレームのクリーンな音声のembedding特徴ベクトルを示し、pフレームのクリーンな音声信号のembedding特徴ベクトルを平均して当該発話者中心特徴ベクトルCentre
jを得、第j個のターゲット話者のクリーンな音声信号の中心特徴ベクトルを示し、
のステップと、
S325において、各Xaで得られたe
l,kと各ターゲット話者のクリーンな音声中心特徴ベクトルCentre
jとのコサイン類似度S
l、k、jを計算し、
そのうちwとbは、それぞれニューラルネットワークが学習可能な重み及びオフセットであり、計算結果は、次元がn×pmの類似度行列を構成するステップと、
S326において、類似度行列における全ての要素の平均値を計算し、それを発話者の判定閾値に設定し、類似度行列における各要素に対して閾値判断を行い、要素値が閾値以上である場合、当該要素に対応するフレームを1に設定し、当該フレームにおいてターゲット話者が発話していることを示し、逆に、0に設定し、当該フレームにおいてターゲット話者が発話していないことを示すステップと、を含むことを特徴とする請求項4に記載のデータ生成に基づく少数サンプル話者分離方法。
【請求項6】
ステップS326に記載の各Xaで得られたe
l,kと各ターゲット話者のクリーンな音声中心特徴ベクトルCentre
jとのコサイン類似度S
l、k、jを計算することは、具体的な過程は、
Xaで得られたe
1,1とCentre
1によりコサイン類似度を計算し、計算結果を類似度行列の第1個の要素とし、当該行要素は、e
1,1と全てのCentre
1のコサイン類似度の計算結果であり、次の行は、e
1,2と全てのCentreのコサイン類似度の計算結果であり、このように類推し、e
1,pと全てのCentreのコサイン類似度結果まで計算し、
次にe
2,1と全てのCentreのコサイン類似度を計算し、計算結果を類似度行列の第p+1行の第1個の要素とし、当該行要素は、e
2,1と全てのCentreのコサイン類似度の計算結果であり、このように類推し、e
n,pと全てのCentreのコサイン類似度まで計算し、次元がn×pmの類似度行列を得ることであることを特徴とする請求項5に記載のデータ生成に基づく少数サンプル話者分離方法。
【請求項7】
ステップS4は、具体的には、
S41において、複数のターゲット話者を含む分離待ち音声段Mに対してメルスペクトル特徴H={h
1,h
2,…,h
v,…,h
n}を抽出し、h
vは、第v段の分離待ち音声を示し、v∈[1,n]であるステップと、
S42において、GANに基づく音声生成モデルを構築し、生成器と判別器で構成されるステップであって、
複数のターゲット話者の音声を含むメルスペクトル特徴Hを生成器の入力とし、1層の畳み込み層を経た後にアップサンプリングネットワークブロックに送り込み、各アップサンプリングネットワークブロックに残差ブロックをネスティングし、最後に1層の畳み込み層により入力特徴に対応する音声信号出力を得、
判別器は、マルチスケールアーキテクチャを採用し、元のオーディオを判別するために用いられ、さらに元のオーディオに対して平均プール化の方式を採用してダウンコンバート処理を行った後に次の判別器に入力して判別を行い、生成器が生成した音声信号と元の音声信号を判別器Dに入力し、1層の畳み込み層を経た後にダウンサンプリングネットワークブロックに送り込み、ダウンサンプリングネットワークブロックは、4つがあり、最後に2層の畳み込み層を経て判別結果を得、生成器と判別器を絶えずトレーニングし、最後に複数のターゲット話者の音声を生成可能な音声生成モデルを得るステップと、
S43において、拡張が必要とする分離待ち音声段Mをトレーニングして得られた音声生成モデルに入れ、n段の生成された複数のターゲット話者を含む分離待ち音声を得、元の分離待ち音声と合併して新たな分離待ち音声段Data={data
1,data
2,…,data
n,…,data
2n}を得るステップと、を含むことを特徴とする請求項1に記載のデータ生成に基づく少数サンプル話者分離方法。
【請求項8】
前記生成器のアップサンプリングネットワークブロックは、4つがあり、順次8x、8x、2x、2xであり、各層にアップサンプリングした後に空洞畳み込み付きの残差ブロックResidualStackを加え、各残差ブロックは、3層があり、各層の膨張係数は、1、3、9であり、生成器は、4層のアップサンプリング及び畳み込みにより、複数のターゲット話者を含む一次元特徴Hを、複数のターゲット話者を含む音声信号に処理し、
前記判別器は、3つのサブ判別器D
1,D
2,D
3で構成され、サブ判別器は、同じネットワーク構造を有し、3つのサブ判別器は、異なるサンプリング周波数で行われ、D
1の入力は、正常のサンプリング周波数の音声であり、D
2の入力は、ダウンサンプリングが1回で得られた音声であり、D
3の入力は、ダウンサンプリングが2回で得られた音声であることを特徴とする請求項7に記載のデータ生成に基づく少数サンプル話者分離方法。
【請求項9】
ステップS5は、具体的には、
S51において、Praatによりミュート段の音声信号を生成し、複数のターゲット話者を含む分離待ち音声信号の尾部に合成し、全ての複数のターゲット話者を含む分離待ち音声の時間を等しくさせるステップと、
S52において、TCNに基づく音声を分離するモデルを構築し、エンコーダ、分離器、デコーダで構成されるステップであって、
エンコーダは、1*1の畳み込みにより入力された複数のターゲット話者を含む分離待ち音声の波形に対して特徴抽出を行い、音声波形を特徴行列に変換し、
分離器は、エンコーダで得られた特徴行列をTCNに基づく時間畳み込みネットワークに入れ、学習して各発話者の特徴行列を得、1*1の畳み込みを用い、まずチャンネル数を拡大し、異なる発話者に対して異なるチャンネル次元の区分を行い、続いて発話者に対応する特徴行列に分け、
分離器で得られた特徴行列をデコーダに入れ、逆変換して対応する音声信号を得、複数のターゲット話者の分離を実現するステップと、
S53において、ステップS3の各段の分離待ち音声にマッチングするターゲット話者のクリーンな音声を融合し、複数のターゲット話者を含む音声を得、それにより分離モデルのトレーニング音声データを得、信号対雑音比の評価値に基づいて音声を分離するモデルに対して反復トレーニングを行い、信号対雑音比の評価値が最大値に達した場合、音声を分離するモデルのトレーニングが完了したと決定し、トレーニングされた音声を分離するモデルを得るステップと、
S54において、複数のターゲット話者を含む分離待ち音声波形をトレーニングされた音声を分離するモデルに入れ、複数の単一の発話者を含む音声信号を出力し、複数のターゲット話者の音声を分離することを実現するステップと、を含むことを特徴とする請求項1に記載のデータ生成に基づく少数サンプル話者分離方法。
【請求項10】
ステップS52において、エンコーダの入力は、複数のターゲット話者の分離待ち音声の時間領域における波形であり、波形は、次元がIの1次元ベクトルであり、I=Time*pであり、エンコーダは、1次元畳み込みConv1D(1,256,20,stride=10,padding=0)により1次元ベクトルを256×Pの2次元特徴行列に変換し、そのうち、P=(I-20)/10+1であり、
分離器において、得られた256×Pの特徴行列を積層されたCNNネットワークで構成されたTCN時間畳み込みネットワークに入力し、学習して各発話者の特徴行列を得、また畳み込みを用いてチャネル数を拡大し、次に異なる発話者に対して異なるチャネル次元の区分を行い、続いて発話者の数に応じて複数に分け、
最後に分離器で学習して得られた異なる発話者の特徴行列をデコーダに入れて復号し、発話者に対応する音声波形を得、256×Pの特徴行列を入力スケールと同じである1次元ベクトルに変換し、単一の発話者の音声信号を得ることを特徴とする請求項9に記載のデータ生成に基づく少数サンプル話者分離方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声分離の分野に属し、データ生成に基づく少数サンプルにおける話者分離方法に関する。
【背景技術】
【0002】
音声を分離する問題は、有名な「カクテルパーティー効果」に起因し、すなわち複雑な混合音において、人間は、ある発話者の音を効果的に選択して追跡することができる。音声を分離するの研究は、音声通信、音響検出、音響信号の補強などの分野に基礎的なものである。音声分離の技術はは、ほぼ以下2種類に分けられる。1.音声信号より複数の音源を区分して分離することであり、2.音声信号より単一の音源と雑音などの外乱との分離を行うことである。複数音源の分離は、考慮すべき要因が多く、研究の難題であり、現在でも以下の問題が存在する。
【0003】
(1)分離対象とする音声サンプルが常に少数である。特定の発話者の音声を分離しようとする時、当該ターゲット話者の音声を大量に収集することが困難であり、音声分離モデルのトレーニングに影響を与え、音声分離モデルが完全なターゲット話者の音声特徴を十分に学習することが困難である。
【0004】
(2)複数のターゲット話者の音声を分離するは、非常に困難である。あるターゲット話者をほかの発話者と区分し、音声信号より分離して得ることは、当該発話者以外の全ての音を雑音とすればよく、技術上容易に実現できる。ただ、、複数のターゲット話者の音声を一一区分し、音声信号より分離して得る必要があると、上記方法の効果が低い。
【発明の概要】
【発明が解決しようとする課題】
【0005】
これに鑑みて、本発明の目的は、データ生成に基づく少数サンプルにおける話者分離方法を提供することである。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明は、以下の技術的な解決手段を提供する。
【0007】
データ生成に基づく少数サンプルにおける話者分離方法であって、
S1において、複数段の分離待ち音声データとターゲット話者のクリーンな音声データを採集し、分離待ち音声データセットとターゲット話者のクリーンな音声の少数サンプルデータセットをそれぞれ構築するステップと、
S2において、分離待ち音声データセットとターゲット話者のクリーンな音声データセットに対して前処理を行うステップと、
S3において、LSTMに基づく音声マッチングモデルを利用して前処理後の分離待ち音声データセットにおける各段の音声に対してフレームレベルのターゲット話者マッチングを行い、マッチング結果に基づき、音声段を、ターゲット話者を含まないこと、1つのターゲット話者のみを含むこと、複数のターゲット話者を含むこととして判断するステップと、
S4において、GANに基づく複数のターゲット話者を含む音声生成モデルを利用し、複数のターゲット話者を含む分離待ち音声データを処理し、分離待ち音声段データセットを拡張するステップと、
S5において、TCNに基づく音声を分離するモデルを構築してトレーニングし、複数のターゲット話者を含む分離待ち音声を分離し、単一のターゲット話者の音声データを取得し、最後に単一のターゲット話者の完全な音声を合成するステップと、を含む。
【0008】
さらに、ステップS1は、具体的には、データを採集する時、録音機器を利用して発話者及び所在する実のシーンを録音し、分離待ち音声データセットV0={v1,v2,…,vi,…,vn}i∈[1,n]を取得し、そのうちnは、分離待ち音声データセットにおける音声段の総数を示し、viは、第i段の分離待ち音声を示し、各段の分離待ち音声の時間はTime分間であるステップと、全てのターゲット話者が無雑音外乱でのクリーンな音声信号を収集し、ターゲット話者のクリーンな音声の少数サンプルデータセットClean={c1,c2,…,cj,…,cm}j∈[1,m]を取得し、そのうちmは、ターゲット話者の数を示し、cjは、第j個のターゲット話者のクリーンな音声を示し、各段のクリーンな音声の時間はTime分間であるステップと、を含む。
【0009】
さらに、ステップS2に記載の前処理は、
S21において、短時間エネルギー法とゼロクロッシング率閾値法を結合する方法を利用して採集された分離待ち音声に対してエンドポイント検出を行い、空白音声部分を除去するステップと、
S22において、周波数域マスクに基づくディープラーニングモデルにより、ステップS21で得られた分離待ち音声段に対して騒音低減処理を行うステップと、を含む。
【0010】
さらに、ステップS3は、具体的には、
S31において、各段の分離待ち音声段とターゲット話者のクリーンな音声をいずれもpフレームに分け、各フレームの分離待ち音声のメルスペクトル特徴Xa={x11,x12,…,x1k,…,x1p,…,xlk,…,xnp}を抽出し、そのうちx1kは、第l段の分離待ち音声の第kフレームから抽出して得られた特徴ベクトルを示し、l∈[1,n],k∈[1,p]であり、各フレームのターゲット話者のクリーンな音声における各フレームのメルスペクトル特徴Yb={y11,y12,…,y1k,…,y1p,…,yjk,…,ymp}を抽出し、そのうちyjkは、第j個のターゲット話者のクリーンな音声の第kフレームから抽出して得られた特徴ベクトルを示すステップと、
S32において、LSTMに基づく音声マッチングモデルを構築し、メルスペクトル特徴XaとYbを、それぞれ各段の分離待ち音声の各フレームの音声特徴を1行とし、上から下へフレーム順に従って順次配列し、各段のターゲット話者の各フレームのクリーンな音声特徴は、一行であり、上から下へフレーム順に順次配列し、batchを構成し、batchにおけるメルスペクトル特徴は、3層LSTMにより入力音声特徴を含む特徴ベクトルを得、最後の1層LSTMの後に1層の線形マッピング層を繋ぎ、最後の1層LSTMの出力を低次元のembedding特徴ベクトルにマッピングし、続いて分離待ち音声の各フレームのembedding特徴ベクトルと各ターゲット話者のクリーンな音声の中心ベクトルのembedding特徴との類似度を求め、類似度行列を取得し、次元はn×pmであり、類似度行列における全ての要素の平均値を閾値とし、当該段の分離待ち音声における発話中のターゲット話者を認識するために用いられるステップと、
S33において、分離待ち音声段を、ターゲット話者を含まないこと、1つのターゲット話者を含むこと、複数のターゲット話者を含むことという音声段に分け、次元がn×pの発話行列を用いて類似度行列における各フレームの発話中のターゲット話者の数を記録し、発話行列の統計結果に基づき、各段の分離待ち音声の現在発話者の数が0、1及び2以上の音声フレームを選別し、現在ターゲット話者の数が2以上の音声フレームのみを保留し、保留された音声フレームを合併し、当該段の分離する音声の複数のターゲット話者の音声段M={M1,M2,…,Mn}を取得し、それに対してさらに音声を分離するを行うステップと、を含む。
【0011】
さらに、前記ステップS32において、具体的には、
S321において、分離待ち音声batchは、n×p個のメルスペクトル特徴で構成され、そのうち分離待ち音声は、n段があり、各段は、pフレームに分けられ、各フレームの特徴は、Xa内の特徴要素に対応するステップであって、
ターゲット話者のクリーンな音声batchは、m×p個のメルスペクトル特徴ベクトルで構成され、そのうちターゲット話者のクリーンな音声は、m段があり、各段は、pフレームに分けられ、各フレームの特徴は、Yb内の特徴要素に対応するステップと、
S322において、Xaは、3層LSTM処理により各フレームの音声の特徴ベクトルを得、最後に線形マッピング層を用いて特徴ベクトルの次元を低減させ、結果は、f(x
lk;W)であり、そのうちx
lkは、第l段の分離待ち音声の第kフレームの音声信号であり、fは、最後の1層LSTM後の線形マッピング関数であり、Wは、当該関数のパラメータであり、一次元ベクトルを用いて示すステップと、
S323において、embedding特徴ベクトルをf(x
lk;W)のL2ノルムとして正規化し、そのうちの第l段の分離待ち音声の第kフレームのembedding特徴ベクトルをe
l,kに示し、
そのうち||f(x
lk;W)||
2は、モデル出力f(x
lk;W)のL2ノルムであるステップと、
S324において、Ybは、モデル処理によりターゲット話者のクリーンな音声のembedding特徴ベクトルe
j,kを得、第j個のターゲット話者、第kフレームのクリーンな音声のembedding特徴ベクトルを示し、pフレームのクリーンな音声信号のembedding特徴ベクトルを平均して当該発話者中心特徴ベクトルCentre
jを得、第j個のターゲット話者のクリーンな音声信号の中心特徴ベクトルを示し、
のステップと、
S325において、各Xaで得られたe
l,kと各ターゲット話者のクリーンな音声中心特徴ベクトルCentre
jとのコサイン類似度S
l、k、jを計算し、
そのうちwとbは、それぞれニューラルネットワークが学習可能な重み及びオフセットであり、計算結果は、次元がn×pmの類似度行列を構成するステップと、
S326において、類似度行列における全ての要素の平均値を計算し、それを発話者の判定閾値に設定し、類似度行列における各要素に対して閾値判断を行い、要素値が閾値以上である場合、当該要素に対応するフレームを1に設定し、当該フレームにおいてターゲット話者が発話していることを示し、逆に、0に設定し、当該フレームにおいてターゲット話者が発話していないことを示すステップと、を含む。
【0012】
さらに、ステップS326に記載の各Xaで得られたel,kと各ターゲット話者のクリーンな音声中心特徴ベクトルCentrejとのコサイン類似度Sl、k、jを計算することは、具体的な過程は、
Xaで得られたe1,1とCentre1によりコサイン類似度を計算し、計算結果を類似度行列の第1個の要素とし、当該行要素は、e1,1と全てのCentre1のコサイン類似度の計算結果であり、次の行は、e1,2と全てのCentreのコサイン類似度の計算結果であり、このように類推し、e1,pと全てのCentreのコサイン類似度結果まで計算し、
次にe2,1と全てのCentreのコサイン類似度を計算し、計算結果を類似度行列の第p+1行の第1個の要素とし、当該行要素は、e2,1と全てのCentreのコサイン類似度の計算結果であり、このように類推し、en,pと全てのCentreのコサイン類似度まで計算し、次元がn×pmの類似度行列を得ることである。
【0013】
さらに、ステップS4は、具体的には、
S41において、複数のターゲット話者を含む分離待ち音声段Mに対してメルスペクトル特徴H={h1,h2,…,hv,…,hn}を抽出し、hvは、第v段の分離待ち音声を示し、v∈[1,n]であるステップと、
S42において、GANに基づく音声生成モデルを構築し、生成器と判別器で構成されるステップであって、
複数のターゲット話者の音声を含むメルスペクトル特徴Hを生成器の入力とし、1層の畳み込み層を経た後にアップサンプリングネットワークブロックに送り込み、各アップサンプリングネットワークブロックに残差ブロックをネスティングし、最後に1層の畳み込み層により入力特徴に対応する音声信号出力を得、
判別器は、マルチスケールアーキテクチャを採用し、元のオーディオを判別するために用いられ、さらに元のオーディオに対して平均プール化の方式を採用してダウンコンバート処理を行った後に次の判別器に入力して判別を行い、生成器が生成した音声信号と元の音声信号を判別器Dに入力し、1層の畳み込み層を経た後にダウンサンプリングネットワークブロックに送り込み、ダウンサンプリングネットワークブロックは、4つがあり、最後に2層の畳み込み層を経て判別結果を得、生成器と判別器を絶えずトレーニングし、最後に複数のターゲット話者の音声を生成可能な音声生成モデルを得るステップと、
S43において、拡張が必要とする分離待ち音声段Mをトレーニングして得られた音声生成モデルに入れ、n段の生成された複数のターゲット話者を含む分離待ち音声を取得し、元の分離待ち音声と合併して新たな分離待ち音声段Data={data1,data2,…,datan,…,data2n}を得るステップと、を含む。
【0014】
さらに、前記生成器のアップサンプリングネットワークブロックは、4つがあり、順次8x、8x、2x、2xであり、各層にアップサンプリングした後に空洞畳み込み付きの残差ブロックResidualStackを加え、各残差ブロックは、3層があり、各層の膨張係数は、1、3、9であり、生成器は、4層のアップサンプリング及び畳み込みにより、複数のターゲット話者を含む一次元特徴Hを、複数のターゲット話者を含む音声信号に処理し、
前記判別器は、3つのサブ判別器D1,D2,D3で構成され、サブ判別器は、同じネットワーク構造を有し、3つのサブ判別器は、異なるサンプリング周波数で行われ、D1の入力は、正常のサンプリング周波数の音声であり、D2の入力は、ダウンサンプリングが1回で得られた音声であり、D3の入力は、ダウンサンプリングが2回で得られた音声である。
【0015】
さらに、ステップS5は、具体的には、
S51において、Praatによりミュート段の音声信号を生成し、複数のターゲット話者を含む分離待ち音声信号の尾部に合成し、全ての複数のターゲット話者を含む分離待ち音声の時間を等しくさせるステップと、
S52において、TCNに基づく音声を分離するモデルを構築し、エンコーダ、分離器、デコーダで構成されるステップであって、
エンコーダは、1*1の畳み込みにより入力された複数のターゲット話者を含む分離待ち音声の波形に対して特徴抽出を行い、音声波形を特徴行列に変換し、
分離器は、エンコーダで得られた特徴行列をTCNに基づく時間畳み込みネットワークに入れ、学習して各発話者の特徴行列を取得し、1*1の畳み込みを用い、まずチャンネル数を拡大し、異なる発話者に対して異なるチャンネル次元の区分を行い、続いて発話者に対応する特徴行列に分け、
分離器で得られた特徴行列をデコーダに入れ、逆変換して対応する音声信号を得、複数のターゲット話者の分離を実現するステップと、
S53において、ステップS3の各段の分離待ち音声にマッチングするターゲット話者のクリーンな音声を融合し、複数のターゲット話者を含む音声を取得し、それにより分離モデルのトレーニング音声データを取得し、信号対雑音比の評価値に基づいて音声を分離するモデルに対して反復トレーニングを行い、信号対雑音比の評価値が最大値に達した場合、音声を分離するモデルのトレーニングが完了したと決定し、トレーニングされた音声を分離するモデルを得るステップと、
S54において、複数のターゲット話者を含む分離する音声波形をトレーニングされた音声を分離するモデルに入れ、複数の単一の発話者を含む音声信号を出力し、複数のターゲット話者の音声を分離するを実現するステップと、を含む。
【0016】
さらに、ステップS52において、エンコーダの入力は、複数のターゲット話者の分離する音声の時間領域における波形であり、波形は、次元がIの1次元ベクトルであり、I=Time*pであり、エンコーダは、1次元畳み込みConv1D(1,256,20,stride=10,padding=0)により1次元ベクトルを256×Pの2次元特徴行列に変換し、そのうち、P=(I-20)/10+1であり、
分離器において、得られた256×Pの特徴行列を積層されたCNNネットワークで構成されたTCN時間畳み込みネットワークに入力し、学習して各発話者の特徴行列を取得し、また畳み込みを用いてチャネル数を拡大し、次に異なる発話者に対して異なるチャネル次元の区分を行い、続いて発話者の数に応じて複数に分け、
最後に分離器で学習して得られた異なる発話者の特徴行列をデコーダに入れて復号し、発話者に対応する音声波形を得、256×Pの特徴行列を入力スケールと同じである1次元ベクトルに変換し、単一の発話者の音声信号を得る。
【発明の効果】
【0017】
本発明の有益な効果は、本発明が全段のオーディオデータに対して音声を分離することを行う時に、モデル性能要求が高く且つトレーニングに必要な時間が長いという問題について、分離待ち音声を音声を分離するモデルに入力する前に、分離待ち音声に対してフレームレベルの音声マッチングを行い、分離待ち音声を、発話者を含まない音声、1つの発話者のみを含む音声、複数の発話者を含む音声に分ける。まず発話者を含まず及び1つの発話者のみを含む音声を分離し、複数の発話者を含む分離待ち音声のみに対してさらに音声を分離するを行い、それにより性能と時間を節約する。しかも、複数のターゲット話者の分離待ち音声サンプルが不足であり異なる発話者の音声特徴を十分に学習できないという問題について、本発明が複数のターゲット話者を含む音声データを拡張し、音声を分離するモデルが各ターゲット話者の音声特徴を学習することができ、それにより音声を分離することをよりよく実現することである。
【0018】
本発明の他の利点、目標及び特徴は、ある程度以下の明細書に説明され、ある程度で、以下の考察研究に基づいて当業者にとって明らかであり、又は本発明の実践から教示される。本発明の目的及びその他の利点は、以下の明細書から実現して取得することができる。
【図面の簡単な説明】
【0019】
本発明の目的、技術的な解決手段及び利点をより明確にするために、以下、図面を参照して本発明を好ましい詳細に説明する。
【
図1】本発明に記載のデータ生成に基づく少数サンプル話者分離方法の全体フローチャートの概略図である。
【
図2】本発明に記載の音声マッチングモデルの構成図である。
【
図3】本発明に記載の複数のターゲット話者の音声を生成する音声生成モデルの構成図である。
【
図4】本発明に記載の複数のターゲット話者を分離する音声を分離するモデルの構成図である。
【発明を実施するための形態】
【0020】
以下、特定の具体例により本発明の実施形態を説明し、当業者は本明細書に開示された内容により本発明の他の利点と効果を容易に理解することができる。本発明は、さらに異なる具体的な実施形態により実施又は応用することができ、本明細書における各詳細も異なる観点及び応用に基づき、本発明の精神から逸脱することなく様々な修飾又は変更を行うことができる。なお、以下の実施例にて提供される図面は、本発明の基本的な構想を概略的に説明するだけであり、矛盾しない場合、以下の実施例及び実施例における特徴は、互いに組み合わせることができる。
【0021】
そのうち、図面は、例示的な説明のみに用いられ、示したのは、概略図のみであり、実物図ではなく、本発明を限定するものと理解できなく、本発明の実施例をよりよく説明するために、図面のある部品は、省略、拡大又は縮小があり、実際の製品のサイズを表しなく、当業者であれば、図面におけるいくつかの公知構造及びその説明を省略する可能性が理解されるであろう。
【0022】
本発明の実施例の図面における同一又は類似の符号は、同一又は類似の部材に対応し、本発明の説明において、理解すべきものとして、用語「上」、「下」、「左」、「右」、「前」、「後」などが指示する方位又は位置関係は、図面に示された方位又は位置関係に基づくものであり、本発明を説明しやすく説明を簡略化するためだけであり、示された装置又は素子は特定の方位を有し、特定の方位で構造及び操作しなければならないことを指示又は示唆するものではないため、図面における位置関係を説明する用語は、例示的な説明だけに用いられるものであり、本発明を限定するものと理解することができず、当業者にとっては、具体的な状況に基づいて上記用語の具体的な意味を理解することができる。
【0023】
本発明は、複数人の会話シーンでの目標人の音声を分離する話者分離方法を提供する。当該方法の実施のフローチャートを
図1に示す。本発明は、以下のステップを含む。
【0024】
S1において、n段の分離する音声データ及びm個のターゲット話者のクリーンな音声データを採集し、採集された各段の音声をそれぞれ分離待ち音声データセット及びターゲット話者のクリーンな音声の小さいなサンプルデータセットに構築する。具体的な内容は、以下のとおりである。
【0025】
データを採集する時、録音機器を利用して発話者及び所在する実のシーンを録音し、分離待ち音声データセットV0={v1,v2,…,vi,…,vn}i∈[1,n]を取得し、そのうちnは、分離待ち音声データセットにおける音声段の総数を示し、viは、第i段の分離待ち音声を示し、各段の分離待ち音声の時間は、1分間である。全てのターゲット話者が無雑音外乱でのクリーンな音声信号を収集し、ターゲット話者のクリーンな音声の少数サンプルデータセットClean={c1,c2,…,cj,…,cm}j∈[1,m]を取得し、そのうちmは、ターゲット話者の数を示し、cjは、第j個のターゲット話者のクリーンな音声を示し、各段のクリーンな音声の時間は、1分間である。本例では、m=10とし、すなわちクリーンな音声の少数サンプルデータセットに10個のターゲット話者のクリーンな音声が含まれる。
【0026】
S2において、分離待ち音声データセットとターゲット話者のクリーンな音声データセットに対して前処理を行う。ディープラーニングモデルを利用して分離待ち音声データセットに対してエンドポイント検出、騒音低減処理を行う。具体的な内容は、以下のとおりである
【0027】
S21において、短時間エネルギー法とゼロクロッシング率閾値法を結合する方法を利用してS11で採集された分離待ち音声に対してエンドポイント検出を行い、空白音声部分を除去する。
【0028】
S22において、周波数域マスクに基づくディープラーニングモデル(例えばRNNoise)により、ステップS21で得られた分離待ち音声段に対して騒音低減処理を行う。
【0029】
前記S21において、具体的な内容は、以下のとおりである。
【0030】
S211において、分離待ち音声信号の短時間エネルギーと短時間平均ゼロクロッシング率を計算し、エネルギーとゼロクロッシング率の比(エネルギーとゼロの比)を計算し、短時間エネルギーとゼロクロッシング率の計算式は、以下のとおりである。
【0031】
【0032】
そのうちEは、短時間エネルギー値であり、S(y)は、音声信号であり、iは、フレーム数であり、yは、音声信号のサンプリングポイント数であり、Yは、窓長である。
【0033】
【0034】
そのうち、Zは、ゼロクロッシング率であり、sgn[]は、判定符号の関数であり、以下のように定義される。
【0035】
【0036】
計算結果に基づいてエネルギーとゼロの比の曲線を作成し、横軸は、時間であり、縦軸は、エネルギーとゼロの比である。
【0037】
S212において、音声エネルギーとゼロの比の曲線に基づいて低い閾値Dを選択し、本例では、D=15とし、音声信号のエネルギーとゼロの比の大部分がこの閾値以上である。エネルギーとゼロの比の曲線と閾値Dの全ての交点をそれぞれ見つけ、隣接する2つの交点の間は、すなわち検出された音声段である。
【0038】
S213において、閾値の決定は、分離待ち音声信号の特徴に基づいて決定して調整する必要がある。音声開始段のエネルギー変化特徴も異なり、開始時の変化幅が大きく、終了時の変化が緩やかである。そのため最終的な開始点を判定する前に、さらに前後10フレームを採集してその短時間エネルギー及び平均ゼロクロッシング率を計算する必要があり、開始点を判定する根拠とする。
【0039】
前記S22において、具体的な内容は、以下のとおりである。
【0040】
S221において、雑音付きの音声信号は、短時間フーリエ変換により、音声信号を時間領域から周波数域特徴に変換する。
【0041】
S222において、周波数域信号特徴をディープラーニング予測モデルに入力し、モデルは、周波数域における各スペクトルの周波数点に1以下の係数を乗算して雑音抑制の効果を達成する。モデルは、周波数点のエネルギー変化に基づいて学習して各周波数点に乗算する必要がある係数を得、最後にモデルは、当該音声段の周波数域マスクを予測して出力する。
【0042】
S223において、周波数域信号に周波数域マスクを乗算し、騒音低減後の周波数域信号を得る。
【0043】
S224において、騒音低減後の周波数域信号は、逆短時間フーリエ変換により時間領域での騒音低減後の音声信号を得る。
【0044】
S3において、LSTMに基づくディープラーニングモデルを利用して前処理後の分離待ち音声データセットにおける各段の音声に対してフレームレベルのターゲット話者マッチングを行い、マッチング結果に基づき、当該段の分離待ち音声に含まれるターゲット話者の数を判断し、音声段を、ターゲット話者を含まないこと、1つのターゲット話者のみを含むこと、複数のターゲット話者を含むことという3つの種類にそれぞれ分け、複数のターゲット話者を含む音声段に対して音声を分離することを継続する。具体的な内容は、以下のとおりである。
【0045】
S31において、分離待ち音声とターゲット話者のクリーンな音声をフレームに分け、いずれもp=600フレームに分ける。各フレームの分離待ち音声のメルスペクトル特徴Xa={x11,x12,…,x1k,…,x1p,…,xlk,…,xnp}を抽出し、そのうちx1kは、第l段の分離待ち音声の第kフレームから抽出して得られた特徴ベクトルを示す。同様に、ターゲット話者のクリーンな音声における各フレームの特徴Yb={y11,y12,…,y1k,…,y1p,…,yjk,…,ymp}を抽出し、そのうちyjkは、第j個のターゲット話者のクリーンな音声の第kフレームから抽出して得られた特徴ベクトルを示す。
【0046】
S32において、LSTMに基づく音声マッチングモデルを構築する。S31で処理して得られた複数のターゲット話者とターゲット話者のクリーンな音声を含むメルスペクトル特徴XaとYbを
図2に示す順に従い、各段の分離待ち音声の各フレームの音声特徴を1行とし、上から下へフレーム順に従って順次配列し、各段のターゲット話者の各フレームのクリーンな音声特徴は、一行であり、上から下へフレーム順に順次配列し、batchを構成し、batchにおけるメルスペクトル特徴は、3層LSTMにより入力音声特徴を含む特徴ベクトルを得、最後の1層LSTMの後に1層の線形マッピング層を繋ぎ、最後の1層LSTMの出力を低次元のembedding特徴ベクトルにマッピングする。続いて分離待ち音声の各フレームのembedding特徴ベクトルと各ターゲット話者のクリーンな音声の中心ベクトルのembedding特徴との類似度を求め、類似度行列を得、次元はn×pmであり、類似度行列における全ての要素の平均値を閾値とし、当該段の分離待ち音声における発話中のターゲット話者を認識するために用いられる。
【0047】
分離待ち音声batchは、n×p個のメルスペクトル特徴で構成され、そのうち分離待ち音声は、n段があり、各段は、pフレームに分けられ、各フレームの特徴は、Xaに対応する。発話者のクリーンな音声batchは、m×p個のメルスペクトル特徴ベクトルで構成され、そのうちターゲット話者のクリーンな音声は、m段があり、各段は、pフレームに分けられ、各フレームの特徴は、Ybに対応する。Xaは、3層LSTM処理により各フレームの音声の特徴ベクトルを得、最後に線形マッピング層を用いて特徴ベクトルの次元を低減させる。ネットワーク全体の出力は、f(x
lk;W)であり、そのうちx
lkは、第l段の分離待ち音声の第kフレームの音声信号であり、fは、最後の1層LSTM後の線形マッピング関数であり、Wは、当該関数のパラメータであり、一次元ベクトルを用いて示す。embedding特徴ベクトルをネットワーク出力のL2ノルムとして正規化し、そのうちの第l段の分離待ち音声の第kフレームのembedding特徴ベクトルをe
l,kに示し、
は、モデル出力f(x
lk;W)のL2ノルムである。同様に、Ybは、上記モデル処理によりターゲット話者のクリーンな音声のembedding特徴ベクトルe
j,kを取得し、第j個のターゲット話者、第kフレームのクリーンな音声のembedding特徴ベクトルを示す。pフレームのクリーンな音声信号のembedding特徴ベクトルを平均して当該発話者中心特徴ベクトルCentre
jを取得し、第j個のターゲット話者のクリーンな音声信号の中心特徴ベクトルを示し、
である。各Xaで得られたe
l,kと各ターゲット話者のクリーンな音声中心特徴ベクトルCentre
jとのコサイン類似度S
l、k、jを計算し、
であり、そのうちwとbは、それぞれニューラルネットワークが学習可能な重み及びオフセットであり、計算結果は、次元がn×pmの類似度行列を構成する。具体的な過程は、以下のとおりである。Xaで得られたe
1,1とCentre
1によりコサイン類似度を計算し、計算結果を類似度行列の第1個の要素とし、当該行要素は、e
1,1と全てのCentre
1のコサイン類似度の計算結果であり、次の行は、e
1,2と全てのCentreのコサイン類似度の計算結果であり、このように類推し、e
1,pと全てのCentreのコサイン類似度結果まで計算する。次にe
2,1と全てのCentreのコサイン類似度を計算し、計算結果を類似度行列の第p+1行の第1個の要素とし、当該行要素は、e
2,1と全てのCentreのコサイン類似度の計算結果であり、このように類推し、e
n,pと全てのCentreのコサイン類似度まで計算し、次元がn×pmの類似度行列を得る。類似度行列における全ての要素の平均値を計算し、それを発話者の判定閾値に設定し、類似度行列における各要素に対して閾値判断を行い、要素値が閾値以上である場合、当該要素に対応するフレームを1に設定し、当該フレームにおいてターゲット話者が発話していることを示し、逆に、0に設定し、当該フレームにおいてターゲット話者が発話していないことを示す。
【0048】
分離待ち音声段を、ターゲット話者を含まないこと、1つのターゲット話者を含むこと、複数のターゲット話者を含むことという音声段に分ける。次元がn×pの発話行列を用いて類似度行列における各フレームの発話中のターゲット話者の数を記録し、第1段の分離する音声の第1フレームとm個の発話者の類似度が閾値よりも大きい数をnum1,1と記し、発話行列の第1個の要素とし、第l段の分離する音声の第kフレームの現在発話者の数は、numl,kであり、発話行列の第l行の第k個の要素とし、第n段の分離待ち音声の第pフレームまで統計し、次元がn×pの発話行列を形成する。発話行列の統計結果に基づき、各段の分離待ち音声の現在の発話者の数が0、1及び2以上の音声フレームを選別し、現在ターゲット話者の数が2以上の音声フレームのみを保留し、保留された音声フレームを合併し、当該段の分離待ち音声の複数のターゲット話者の音声段M={M1,M2,…,Mn}を得、それに対してさらに音声を分離するを行う。
【0049】
S4において、複数のターゲット話者を含む分離待ち音声データを拡張する。GANに基づく複数のターゲット話者を含む音声生成モデルを構築してトレーニングし、拡張する必要がある複数のターゲット話者を含む音声データをモデルに入れ、生成された複数のターゲット話者を含む分離待ち音声を得る。具体的なステップは、以下のとおりである。
【0050】
S41において、生成する必要がある複数のターゲット話者を含む分離待ち音声データに対してメルスペクトル特徴H={h1,h2,…,hi,…,ht}を抽出し、hvは、第v段の分離待ち音声を示し、v∈[1,t]である。
【0051】
S42において、GANに基づく音声生成モデルを構築し、モデルは、生成器と判別器で構成される。複数のターゲット話者の音声を含むメルスペクトル特徴Hを生成器の入力とし、1層のConv層を経た後にアップサンプリングネットワークブロックに送り込み、アップサンプリングネットワークブロックは、全部で4つがあり、順次8x、8x、2x、2xであり、各アップサンプリングネットワークブロックに残差ブロックをネスティングして周波数域から時間領域への変換を実現し、各残差ブロックは、3層を有し、dilationは、順次1、3、9であり、最後に1層のConv層を経た後に入力特徴に対応する音声信号を得て出力する。生成器が生成した音声信号と元の音声信号を判別器に入れて判別を行い、判別器は、マルチスケールアーキテクチャを採用し、元のオーディオを判別するほかに、さらに元のオーディオに対して平均プール化の方式を採用してダウンコンバート処理を行った後に次の判別器に入力して判別を行い、オーディオにおける高周波結果をキャプチャする効果を達成する。生成器と判別器を絶えずトレーニングし、最後に複数のターゲット話者の音声を生成可能な音声生成モデルを得る。
【0052】
音声の生成過程における前後時間に存在する相関性を補強するために、各層にサンプリングした後に空洞畳み込み付きの残差ブロックResidual Stackを加え、構成は、
図3に示す。当該残差ブロックは、遠い時間ステップ幅の受容野に大きい重なりを存在させ、それにより生成された複数のターゲット話者の音声は、より良好な遠隔関連性を有する。生成器は、4層のアップサンプリング及び畳み込みにより、複数のターゲット話者を含む1次元特徴を、複数のターゲット話者を含む音声信号として処理する。判別器は、3つのサブ判別器(D
1,D
2,D
3)で構成され、サブ判別器は、同じネットワーク構成を有し、3つのサブ判別器は、異なるサンプリング周波数で行われ、D
1の入力は、正常のサンプリング周波数の音声であり、D
2の入力は、ダウンサンプリングが1回で得られた音声であり、D
3の入力は、ダウンサンプリングが2回で得られた音声であり、異なる周波数を分離することにより、判別器は、異なる周波数での音声の差異をそれぞれ計算し、それによりトレーニング効果を最適化する。
【0053】
S43において、拡張が必要とする分離待ち音声段MをS42においてトレーニングして得られた音声生成モデルに入れ、n段の生成された複数のターゲット話者を含む分離待ち音声を取得し、元の分離待ち音声と合併して新たな分離待ち音声段Data={data1,data2,…,datan,…,data2n}を得る。
【0054】
S5において、TCNに基づく音声を分離するモデルを構築して、分離待ち音声の複数ターゲット話者を含む音声データとS4において拡張して得られた音声データを音声を分離するモデルに入れてトレーニングを行い、次に分離待ち音声の複数ターゲット話者を含む音声をトレーニングされた音声を分離するモデルに入れ、最終的に1つのターゲット話者のみを含む音声データを分離して得る。具体的なステップは、以下のとおりである。
【0055】
S51において、Praatによりミュート段の音声信号を生成し、複数のターゲット話者を含む分離待ち音声信号の尾部に合成し、全ての複数のターゲット話者を含む分離待ち音声の時間を等しくさせる。
【0056】
S52において、TCNに基づく音声を分離するモデルを構築し、エンコーダ、分離器、デコーダで構成される。エンコーダは、1*1の畳み込みにより入力された複数のターゲット話者を含む分離待ち音声の波形に対して特徴抽出を行い、音声波形を特徴行列に変換する。分離器は、エンコーダで得られた特徴行列をTCNに基づく時間畳み込みネットワークに入れ、学習して各発話者の特徴行列を得、1*1の畳み込みを用い、まずチャンネル数を拡大し、異なる発話者に対して異なるチャンネル次元の区分を行い、続いて発話者に対応する特徴行列に分ける。分離器で得られた特徴行列をデコーダに入れ、逆変換して対応する音声信号を得、複数のターゲット話者の分離を実現する。
【0057】
エンコーダの入力は、複数のターゲット話者の分離待ち音声の時間領域における波形であり、波形は、次元がI=Time*p=1*60*600=36000の1次元ベクトルであり、エンコーダは、1次元畳み込みConv1D(1,256,20,stride=10,padding=0)により1次元ベクトルを1×256×3599の2次元特徴行列に変換し、そのうち、3599=(36000-20)/10+1である。分離器において、得られた1×256×3599の特徴行列を
図4に示した積層されたCNNネットワーク(BlockA)で構成されたTCN時間畳み込みネットワークに入力し、ネットワークは、学習して各発話者の特徴行列を得、また1*1の畳み込みを用いてチャネル数を拡大し、1×256×3599の特徴行列を1×512×3599に変換し、次に異なる発話者に対して異なるチャネル次元の区分を行い、続いて発話者に応じて複数に分け、例えば1×512×3599を2つの1×256×3599に分ければ2つの発話者の特徴行列を得ることができる。最後に分離器で学習して得られた異なる発話者の特徴行列をデコーダに入れて復号し、発話者に対応する音声波形を得、1×256×3599の特徴行列を入力スケールと同じである1×36000の1次元ベクトルに変換する。
【0058】
S53において、音声を分離するモデルをトレーニングする。ステップS3の各段の分離待ち音声にマッチングするターゲット話者のクリーンな音声を融合し、複数のターゲット話者を含む音声を取得し、それにより分離モデルのトレーニング音声データを得る。信号対雑音比の評価値に基づいて分離モデルに対して反復トレーニングを行い、信号対雑音比の評価値が最大値に達した場合、音声を分離するモデルのトレーニングが完了したと決定し、トレーニングされた音声を分離するモデルを得る。
【0059】
S54において、複数のターゲット話者の音声を分離することを実現する。複数のターゲット話者を含む分離待ち音声波形をトレーニングされた音声を分離するモデルに入れ、複数の単一の発話者を含む音声信号を出力する。最後にS3における閾値選別後の類似度行列及び単一の発話者を分離した音声信号により、単一の発話者の完全な音声を合成する。
【0060】
最後に説明したのは、以上の実施例は、本発明の技術的な解決手段を説明するためのものであって限定するものではなく、好適な実施例を参照して本発明を詳細に説明したが、当業者であれば理解されるように、本技術的な解決手段の趣旨及び範囲から逸脱することなく、本発明の技術的な解決手段を修正又は同等置換することができ、いずれも本発明の特許請求の範囲に含まれるべきである。
【国際調査報告】