特表2025-532714 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 重▲慶▼▲郵▼▲電▼大学の特許一覧

特表2025-532714データ生成に基づく少数サンプルにおける話者分離方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-10-01

(54)【発明の名称】データ生成に基づく少数サンプルにおける話者分離方法

(51)【国際特許分類】

G10L 21/0308 20130101AFI20250924BHJP

G10L 25/30 20130101ALI20250924BHJP

【ＦＩ】

G10L21/0308 Z

G10L25/30

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2025519086

(86)(22)【出願日】2023-12-06

(85)【翻訳文提出日】2025-04-02

(86)【国際出願番号】 CN2023136613

(87)【国際公開番号】W WO2024140070

(87)【国際公開日】2024-07-04

(31)【優先権主張番号】202211740126.3

(32)【優先日】2022-12-30

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】521234722

【氏名又は名称】重▲慶▼▲郵▼▲電▼大学

【氏名又は名称原語表記】ＣＨＯＮＧＱＩＮＧＵＮＩＶＥＲＳＩＴＹＯＦＰＯＳＴＳＡＮＤＴＥＬＥＣＯＭＭＵＮＩＣＡＴＩＯＮＳ

(74)【代理人】

【識別番号】110001357

【氏名又は名称】弁理士法人つばさ国際特許事務所

(72)【発明者】

【氏名】▲銭▼ ▲鷹▼

(72)【発明者】

【氏名】▲陳▼ 奉

(72)【発明者】

【氏名】▲劉▼ ▲シン▼

(72)【発明者】

【氏名】万邦睿

(72)【発明者】

【氏名】姜美▲蘭▼

(57)【要約】

本発明は、データ生成に基づく少数サンプル話者分離方法に関し、音声を分離するの分野に属し、Ｓ１において、分離待ち音声データとターゲット話者のクリーンな音声データを採集して構築するステップと、Ｓ２において、データセットに対して前処理を行うステップと、Ｓ３において、ＬＳＴＭに基づく音声マッチングモデルを利用して前処理後の分離待ち音声データセットにおける各段の音声に対してフレームレベルのターゲット話者マッチングを行い、マッチング結果に基づき、音声段を、ターゲット話者を含まないこと、１つのターゲット話者のみを含むこと、複数のターゲット話者を含むこととして判断するステップと、Ｓ４において、ＧＡＮに基づく複数のターゲット話者を含む音声生成モデルを利用し、分離待ち音声段を拡張するステップと、Ｓ５において、ＴＣＮに基づく音声を分離するモデルを構築してトレーニングし、分離待ち音声の複数ターゲット話者を含む音声を分離し、単一のターゲット話者の音声データを取得し、最後に単一のターゲット話者の完全な音声を合成するステップと、を含む。
【選択図】図１

【特許請求の範囲】

【請求項1】

Ｓ１において、各段の分離待ち音声データとターゲット話者のクリーンな音声データを採集し、分離待ち音声データセットとターゲット話者のクリーンな音声の少数サンプルデータセットをそれぞれ構築するステップと、
Ｓ２において、分離待ち音声データセットとターゲット話者のクリーンな音声データセットに対して前処理を行うステップと、
Ｓ３において、ＬＳＴＭに基づく音声マッチングモデルを利用して前処理後の分離待ち音声データセットにおける各段の音声に対してフレームレベルのターゲット話者マッチングを行い、マッチング結果に基づき、音声段を、ターゲット話者を含まないこと、１つのターゲット話者のみを含むこと、複数のターゲット話者を含むこととして判断するステップと、
Ｓ４において、ＧＡＮに基づく複数のターゲット話者を含む音声生成モデルを利用し、複数のターゲット話者を含む分離待ち音声データを処理し、分離待ち音声段データセットを拡張するステップと、
Ｓ５において、ＴＣＮに基づく音声を分離するモデルを構築してトレーニングし、分離待ち音声の複数ターゲット話者を含む音声を分離し、単一のターゲット話者の音声データを取得し、最後に単一のターゲット話者の完全な音声を合成するステップと、を含む、
ことを特徴とするデータ生成に基づく小さなサンプル話者分離方法。

【請求項2】

ステップＳ１は、具体的には、データを採集する時、録音機器を利用して発話者及び所在する実のシーンを録音し、分離待ち音声データセットＶ_０＝｛ｖ_１，ｖ_２，…，ｖ_ｉ，…，ｖ_ｎ｝ｉ∈［１，ｎ］を得、そのうちｎは、分離待ち音声データセットにおける音声段の総数を示し、ｖ_ｉは、第ｉ段の分離待ち音声を示し、各段の分離待ち音声の時間はＴｉｍｅ分間であるステップと、全てのターゲット話者が無雑音外乱でのクリーンな音声信号を収集し、ターゲット話者のクリーンな音声の小さなサンプルデータセットＣｌｅａｎ＝｛ｃ_１，ｃ_２，…，ｃ_ｊ，…，ｃ_ｍ｝ｊ∈［１，ｍ］を取得し、そのうちｍは、ターゲット話者の数を示し、ｃ_ｊは、第ｊ個のターゲット話者のクリーンな音声を示し、各段のクリーンな音声の時間は、Ｔｉｍｅ分間であるステップと、を含むことを特徴とする請求項１に記載のデータ生成に基づく少数サンプル話者分離方法。

【請求項3】

ステップＳ２に記載の前処理は、
Ｓ２１において、短時間エネルギー法とゼロクロッシング率閾値法を結合する方法を利用して採集された分離待ち音声に対してエンドポイント検出を行い、空白音声部分を除去するステップと、
Ｓ２２において、周波数域マスクに基づくディープラーニングモデルにより、ステップＳ２１で得られた分離待ち音声段に対して騒音低減処理を行うステップと、を含むことを特徴とする請求項１に記載のデータ生成に基づく少数サンプル話者分離方法。

【請求項4】

ステップＳ３は、具体的には、
Ｓ３１において、各段の分離待ち音声段とターゲット話者のクリーンな音声をいずれもｐフレームに分け、各フレームの分離待ち音声のメルスペクトル特徴Ｘａ＝｛ｘ_１１，ｘ_１２，…，ｘ_１ｋ，…，ｘ_１ｐ，…，ｘ_ｌｋ，…，ｘ_ｎｐ｝を抽出し、そのうちｘ_１ｋは、第ｌ段の分離待ち音声の第ｋフレームから抽出して得られた特徴ベクトルを示し、ｌ∈［１，ｎ］，ｋ∈［１，ｐ］であり、ターゲット話者のクリーンな音声における各フレームのメルスペクトル特徴Ｙｂ＝｛ｙ_１１，ｙ_１２，…，ｙ_１ｋ，…，ｙ_１ｐ，…，ｙ_ｊｋ，…，ｙ_ｍｐ｝を抽出し、そのうちｙ_１ｋは、第ｊ個のターゲット話者のクリーンな音声の第ｋフレームから抽出して得られた特徴ベクトルを示すステップと、
Ｓ３２において、ＬＳＴＭに基づく音声マッチングモデルを構築し、メルスペクトル特徴ＸａとＹｂを、それぞれ各段の分離待ち音声の各フレームの音声特徴を１行とし、上から下へフレーム順に従って順次配列し、各段のターゲット話者の各フレームのクリーンな音声特徴は、一行であり、上から下へフレーム順に順次配列し、ｂａｔｃｈを構成し、ｂａｔｃｈにおけるメルスペクトル特徴は、３層ＬＳＴＭにより入力音声の特徴を含む特徴ベクトルを得、最後の１層ＬＳＴＭの後に１層の線形マッピング層を繋ぎ、最後の１層ＬＳＴＭの出力を低次元のｅｍｂｅｄｄｉｎｇ特徴ベクトルにマッピングし、続いて分離待ち音声の各フレームのｅｍｂｅｄｄｉｎｇ特徴ベクトルと各ターゲット話者のクリーンな音声の中心ベクトルのｅｍｂｅｄｄｉｎｇ特徴との類似度を求め、類似度行列を得、次元は、ｎ×ｐｍであり、類似度行列における全ての要素の平均値を閾値とし、当該段の分離待ち音声における発話中のターゲット話者を認識するために用いられるステップと、
Ｓ３３において、分離待ち音声段を、ターゲット話者を含まないこと、１つのターゲット話者を含むこと、複数のターゲット話者を含むことという音声段に分け、次元がｎ×ｐの発話行列を用いて類似度行列における各フレームの発話中のターゲット話者の数を記録し、発話行列の統計結果に基づき、各段の分離待ち音声の現在発話者の数が０、１及び２以上の音声フレームを選別し、現在ターゲット話者の数が２以上の音声フレームのみを保留し、保留された音声フレームを合併し、当該段の分離待ち音声の複数のターゲット話者の音声段Ｍ＝｛Ｍ_１，Ｍ_２，…，Ｍ_ｎ｝を得、それに対してさらに音声を分離するを行うステップと、を含むことを特徴とする請求項１に記載のデータ生成に基づく少数サンプル話者分離方法。

【請求項5】

前記ステップＳ３２において、具体的には、
Ｓ３２１において、分離待ち音声ｂａｔｃｈは、ｎ×ｐ個のメルスペクトル特徴で構成され、そのうち分離待ち音声は、ｎ段があり、各段は、ｐフレームに分けられ、各フレームの特徴は、Ｘａ内の特徴要素に対応するステップであって、
ターゲット話者のクリーンな音声ｂａｔｃｈは、ｍ×ｐ個のメルスペクトル特徴ベクトルで構成され、そのうちターゲット話者のクリーンな音声は、ｍ段があり、各段は、ｐフレームに分けられ、各フレームの特徴は、Ｙｂ内の特徴要素に対応するステップと、
Ｓ３２２において、Ｘａは、３層ＬＳＴＭ処理により各フレームの音声の特徴ベクトルを得、最後に線形マッピング層を用いて特徴ベクトルの次元を低減させ、結果は、ｆ（ｘ_ｌｋ；Ｗ）であり、そのうちｘ_ｌｋは、第ｌ段の分離待ち音声の第ｋフレームの音声信号であり、ｆは、最後の１層ＬＳＴＭ後の線形マッピング関数であり、Ｗは、当該関数のパラメータであり、一次元ベクトルを用いて示すステップと、
Ｓ３２３において、ｅｍｂｅｄｄｉｎｇ特徴ベクトルをｆ（ｘ_ｌｋ；Ｗ）のＬ２ノルムとして正規化し、そのうちの第ｌ段の分離待ち音声の第ｋフレームのｅｍｂｅｄｄｉｎｇ特徴ベクトルをｅ_ｌ，ｋに示し、

そのうち||ｆ（ｘ_ｌｋ；Ｗ）||_２は、モデル出力ｆ（ｘ_ｌｋ；Ｗ）のＬ２ノルムであるステップと、
Ｓ３２４において、Ｙｂは、モデル処理によりターゲット話者のクリーンな音声のｅｍｂｅｄｄｉｎｇ特徴ベクトルｅ_ｊ，ｋを得、第ｊ個のターゲット話者、第ｋフレームのクリーンな音声のｅｍｂｅｄｄｉｎｇ特徴ベクトルを示し、ｐフレームのクリーンな音声信号のｅｍｂｅｄｄｉｎｇ特徴ベクトルを平均して当該発話者中心特徴ベクトルＣｅｎｔｒｅ_ｊを得、第ｊ個のターゲット話者のクリーンな音声信号の中心特徴ベクトルを示し、

のステップと、
Ｓ３２５において、各Ｘａで得られたｅ_ｌ，ｋと各ターゲット話者のクリーンな音声中心特徴ベクトルＣｅｎｔｒｅ_ｊとのコサイン類似度Ｓ_{ｌ、ｋ、ｊ}を計算し、

そのうちｗとｂは、それぞれニューラルネットワークが学習可能な重み及びオフセットであり、計算結果は、次元がｎ×ｐｍの類似度行列を構成するステップと、
Ｓ３２６において、類似度行列における全ての要素の平均値を計算し、それを発話者の判定閾値に設定し、類似度行列における各要素に対して閾値判断を行い、要素値が閾値以上である場合、当該要素に対応するフレームを１に設定し、当該フレームにおいてターゲット話者が発話していることを示し、逆に、０に設定し、当該フレームにおいてターゲット話者が発話していないことを示すステップと、を含むことを特徴とする請求項４に記載のデータ生成に基づく少数サンプル話者分離方法。

【請求項6】

ステップＳ３２６に記載の各Ｘａで得られたｅ_ｌ，ｋと各ターゲット話者のクリーンな音声中心特徴ベクトルＣｅｎｔｒｅ_ｊとのコサイン類似度Ｓ_{ｌ、ｋ、ｊ}を計算することは、具体的な過程は、
Ｘａで得られたｅ_１，１とＣｅｎｔｒｅ_１によりコサイン類似度を計算し、計算結果を類似度行列の第１個の要素とし、当該行要素は、ｅ_１，１と全てのＣｅｎｔｒｅ_１のコサイン類似度の計算結果であり、次の行は、ｅ_１，２と全てのＣｅｎｔｒｅのコサイン類似度の計算結果であり、このように類推し、ｅ_１，ｐと全てのＣｅｎｔｒｅのコサイン類似度結果まで計算し、
次にｅ_２，１と全てのＣｅｎｔｒｅのコサイン類似度を計算し、計算結果を類似度行列の第ｐ＋１行の第１個の要素とし、当該行要素は、ｅ_２，１と全てのＣｅｎｔｒｅのコサイン類似度の計算結果であり、このように類推し、ｅ_ｎ，ｐと全てのＣｅｎｔｒｅのコサイン類似度まで計算し、次元がｎ×ｐｍの類似度行列を得ることであることを特徴とする請求項５に記載のデータ生成に基づく少数サンプル話者分離方法。

【請求項7】

ステップＳ４は、具体的には、
Ｓ４１において、複数のターゲット話者を含む分離待ち音声段Ｍに対してメルスペクトル特徴Ｈ＝｛ｈ_１，ｈ_２，…，ｈ_ｖ，…，ｈ_ｎ｝を抽出し、ｈ_ｖは、第ｖ段の分離待ち音声を示し、ｖ∈［１，ｎ］であるステップと、
Ｓ４２において、ＧＡＮに基づく音声生成モデルを構築し、生成器と判別器で構成されるステップであって、
複数のターゲット話者の音声を含むメルスペクトル特徴Ｈを生成器の入力とし、１層の畳み込み層を経た後にアップサンプリングネットワークブロックに送り込み、各アップサンプリングネットワークブロックに残差ブロックをネスティングし、最後に１層の畳み込み層により入力特徴に対応する音声信号出力を得、
判別器は、マルチスケールアーキテクチャを採用し、元のオーディオを判別するために用いられ、さらに元のオーディオに対して平均プール化の方式を採用してダウンコンバート処理を行った後に次の判別器に入力して判別を行い、生成器が生成した音声信号と元の音声信号を判別器Ｄに入力し、１層の畳み込み層を経た後にダウンサンプリングネットワークブロックに送り込み、ダウンサンプリングネットワークブロックは、４つがあり、最後に２層の畳み込み層を経て判別結果を得、生成器と判別器を絶えずトレーニングし、最後に複数のターゲット話者の音声を生成可能な音声生成モデルを得るステップと、
Ｓ４３において、拡張が必要とする分離待ち音声段Ｍをトレーニングして得られた音声生成モデルに入れ、ｎ段の生成された複数のターゲット話者を含む分離待ち音声を得、元の分離待ち音声と合併して新たな分離待ち音声段Ｄａｔａ＝｛ｄａｔａ_１，ｄａｔａ_２，…，ｄａｔａ_ｎ，…，ｄａｔａ_２ｎ｝を得るステップと、を含むことを特徴とする請求項１に記載のデータ生成に基づく少数サンプル話者分離方法。

【請求項8】

前記生成器のアップサンプリングネットワークブロックは、４つがあり、順次８ｘ、８ｘ、２ｘ、２ｘであり、各層にアップサンプリングした後に空洞畳み込み付きの残差ブロックＲｅｓｉｄｕａｌＳｔａｃｋを加え、各残差ブロックは、３層があり、各層の膨張係数は、１、３、９であり、生成器は、４層のアップサンプリング及び畳み込みにより、複数のターゲット話者を含む一次元特徴Ｈを、複数のターゲット話者を含む音声信号に処理し、
前記判別器は、３つのサブ判別器Ｄ_１，Ｄ_２，Ｄ_３で構成され、サブ判別器は、同じネットワーク構造を有し、３つのサブ判別器は、異なるサンプリング周波数で行われ、Ｄ_１の入力は、正常のサンプリング周波数の音声であり、Ｄ_２の入力は、ダウンサンプリングが１回で得られた音声であり、Ｄ_３の入力は、ダウンサンプリングが２回で得られた音声であることを特徴とする請求項７に記載のデータ生成に基づく少数サンプル話者分離方法。

【請求項9】

ステップＳ５は、具体的には、
Ｓ５１において、Ｐｒａａｔによりミュート段の音声信号を生成し、複数のターゲット話者を含む分離待ち音声信号の尾部に合成し、全ての複数のターゲット話者を含む分離待ち音声の時間を等しくさせるステップと、
Ｓ５２において、ＴＣＮに基づく音声を分離するモデルを構築し、エンコーダ、分離器、デコーダで構成されるステップであって、
エンコーダは、１＊１の畳み込みにより入力された複数のターゲット話者を含む分離待ち音声の波形に対して特徴抽出を行い、音声波形を特徴行列に変換し、
分離器は、エンコーダで得られた特徴行列をＴＣＮに基づく時間畳み込みネットワークに入れ、学習して各発話者の特徴行列を得、１＊１の畳み込みを用い、まずチャンネル数を拡大し、異なる発話者に対して異なるチャンネル次元の区分を行い、続いて発話者に対応する特徴行列に分け、
分離器で得られた特徴行列をデコーダに入れ、逆変換して対応する音声信号を得、複数のターゲット話者の分離を実現するステップと、
Ｓ５３において、ステップＳ３の各段の分離待ち音声にマッチングするターゲット話者のクリーンな音声を融合し、複数のターゲット話者を含む音声を得、それにより分離モデルのトレーニング音声データを得、信号対雑音比の評価値に基づいて音声を分離するモデルに対して反復トレーニングを行い、信号対雑音比の評価値が最大値に達した場合、音声を分離するモデルのトレーニングが完了したと決定し、トレーニングされた音声を分離するモデルを得るステップと、
Ｓ５４において、複数のターゲット話者を含む分離待ち音声波形をトレーニングされた音声を分離するモデルに入れ、複数の単一の発話者を含む音声信号を出力し、複数のターゲット話者の音声を分離することを実現するステップと、を含むことを特徴とする請求項１に記載のデータ生成に基づく少数サンプル話者分離方法。

【請求項10】

ステップＳ５２において、エンコーダの入力は、複数のターゲット話者の分離待ち音声の時間領域における波形であり、波形は、次元がＩの１次元ベクトルであり、Ｉ＝Ｔｉｍｅ＊ｐであり、エンコーダは、１次元畳み込みＣｏｎｖ１Ｄ（１，２５６，２０，ｓｔｒｉｄｅ＝１０，ｐａｄｄｉｎｇ＝０）により１次元ベクトルを２５６×Ｐの２次元特徴行列に変換し、そのうち、Ｐ＝（Ｉ－２０）／１０＋１であり、
分離器において、得られた２５６×Ｐの特徴行列を積層されたＣＮＮネットワークで構成されたＴＣＮ時間畳み込みネットワークに入力し、学習して各発話者の特徴行列を得、また畳み込みを用いてチャネル数を拡大し、次に異なる発話者に対して異なるチャネル次元の区分を行い、続いて発話者の数に応じて複数に分け、
最後に分離器で学習して得られた異なる発話者の特徴行列をデコーダに入れて復号し、発話者に対応する音声波形を得、２５６×Ｐの特徴行列を入力スケールと同じである１次元ベクトルに変換し、単一の発話者の音声信号を得ることを特徴とする請求項９に記載のデータ生成に基づく少数サンプル話者分離方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声分離の分野に属し、データ生成に基づく少数サンプルにおける話者分離方法に関する。

【背景技術】

【0002】

音声を分離する問題は、有名な「カクテルパーティー効果」に起因し、すなわち複雑な混合音において、人間は、ある発話者の音を効果的に選択して追跡することができる。音声を分離するの研究は、音声通信、音響検出、音響信号の補強などの分野に基礎的なものである。音声分離の技術はは、ほぼ以下２種類に分けられる。１．音声信号より複数の音源を区分して分離することであり、２．音声信号より単一の音源と雑音などの外乱との分離を行うことである。複数音源の分離は、考慮すべき要因が多く、研究の難題であり、現在でも以下の問題が存在する。

【0003】

（１）分離対象とする音声サンプルが常に少数である。特定の発話者の音声を分離しようとする時、当該ターゲット話者の音声を大量に収集することが困難であり、音声分離モデルのトレーニングに影響を与え、音声分離モデルが完全なターゲット話者の音声特徴を十分に学習することが困難である。

【0004】

（２）複数のターゲット話者の音声を分離するは、非常に困難である。あるターゲット話者をほかの発話者と区分し、音声信号より分離して得ることは、当該発話者以外の全ての音を雑音とすればよく、技術上容易に実現できる。ただ、、複数のターゲット話者の音声を一一区分し、音声信号より分離して得る必要があると、上記方法の効果が低い。

【発明の概要】

【発明が解決しようとする課題】

【0005】

これに鑑みて、本発明の目的は、データ生成に基づく少数サンプルにおける話者分離方法を提供することである。

【課題を解決するための手段】

【0006】

上記目的を達成するために、本発明は、以下の技術的な解決手段を提供する。

【0007】

データ生成に基づく少数サンプルにおける話者分離方法であって、
Ｓ１において、複数段の分離待ち音声データとターゲット話者のクリーンな音声データを採集し、分離待ち音声データセットとターゲット話者のクリーンな音声の少数サンプルデータセットをそれぞれ構築するステップと、
Ｓ２において、分離待ち音声データセットとターゲット話者のクリーンな音声データセットに対して前処理を行うステップと、
Ｓ３において、ＬＳＴＭに基づく音声マッチングモデルを利用して前処理後の分離待ち音声データセットにおける各段の音声に対してフレームレベルのターゲット話者マッチングを行い、マッチング結果に基づき、音声段を、ターゲット話者を含まないこと、１つのターゲット話者のみを含むこと、複数のターゲット話者を含むこととして判断するステップと、
Ｓ４において、ＧＡＮに基づく複数のターゲット話者を含む音声生成モデルを利用し、複数のターゲット話者を含む分離待ち音声データを処理し、分離待ち音声段データセットを拡張するステップと、
Ｓ５において、ＴＣＮに基づく音声を分離するモデルを構築してトレーニングし、複数のターゲット話者を含む分離待ち音声を分離し、単一のターゲット話者の音声データを取得し、最後に単一のターゲット話者の完全な音声を合成するステップと、を含む。

【0008】

さらに、ステップＳ１は、具体的には、データを採集する時、録音機器を利用して発話者及び所在する実のシーンを録音し、分離待ち音声データセットＶ_０＝｛ｖ_１，ｖ_２，…，ｖ_ｉ，…，ｖ_ｎ｝ｉ∈［１，ｎ］を取得し、そのうちｎは、分離待ち音声データセットにおける音声段の総数を示し、ｖ_ｉは、第ｉ段の分離待ち音声を示し、各段の分離待ち音声の時間はＴｉｍｅ分間であるステップと、全てのターゲット話者が無雑音外乱でのクリーンな音声信号を収集し、ターゲット話者のクリーンな音声の少数サンプルデータセットＣｌｅａｎ＝｛ｃ_１，ｃ_２，…，ｃ_ｊ，…，ｃ_ｍ｝ｊ∈［１，ｍ］を取得し、そのうちｍは、ターゲット話者の数を示し、ｃ_ｊは、第ｊ個のターゲット話者のクリーンな音声を示し、各段のクリーンな音声の時間はＴｉｍｅ分間であるステップと、を含む。

【0009】

さらに、ステップＳ２に記載の前処理は、
Ｓ２１において、短時間エネルギー法とゼロクロッシング率閾値法を結合する方法を利用して採集された分離待ち音声に対してエンドポイント検出を行い、空白音声部分を除去するステップと、
Ｓ２２において、周波数域マスクに基づくディープラーニングモデルにより、ステップＳ２１で得られた分離待ち音声段に対して騒音低減処理を行うステップと、を含む。

【0010】

さらに、ステップＳ３は、具体的には、
Ｓ３１において、各段の分離待ち音声段とターゲット話者のクリーンな音声をいずれもｐフレームに分け、各フレームの分離待ち音声のメルスペクトル特徴Ｘａ＝｛ｘ_１１，ｘ_１２，…，ｘ_１ｋ，…，ｘ_１ｐ，…，ｘ_ｌｋ，…，ｘ_ｎｐ｝を抽出し、そのうちｘ_１ｋは、第ｌ段の分離待ち音声の第ｋフレームから抽出して得られた特徴ベクトルを示し、ｌ∈［１，ｎ］，ｋ∈［１，ｐ］であり、各フレームのターゲット話者のクリーンな音声における各フレームのメルスペクトル特徴Ｙｂ＝｛ｙ_１１，ｙ_１２，…，ｙ_１ｋ，…，ｙ_１ｐ，…，ｙ_ｊｋ，…，ｙ_ｍｐ｝を抽出し、そのうちｙ_ｊｋは、第ｊ個のターゲット話者のクリーンな音声の第ｋフレームから抽出して得られた特徴ベクトルを示すステップと、
Ｓ３２において、ＬＳＴＭに基づく音声マッチングモデルを構築し、メルスペクトル特徴ＸａとＹｂを、それぞれ各段の分離待ち音声の各フレームの音声特徴を１行とし、上から下へフレーム順に従って順次配列し、各段のターゲット話者の各フレームのクリーンな音声特徴は、一行であり、上から下へフレーム順に順次配列し、ｂａｔｃｈを構成し、ｂａｔｃｈにおけるメルスペクトル特徴は、３層ＬＳＴＭにより入力音声特徴を含む特徴ベクトルを得、最後の１層ＬＳＴＭの後に１層の線形マッピング層を繋ぎ、最後の１層ＬＳＴＭの出力を低次元のｅｍｂｅｄｄｉｎｇ特徴ベクトルにマッピングし、続いて分離待ち音声の各フレームのｅｍｂｅｄｄｉｎｇ特徴ベクトルと各ターゲット話者のクリーンな音声の中心ベクトルのｅｍｂｅｄｄｉｎｇ特徴との類似度を求め、類似度行列を取得し、次元はｎ×ｐｍであり、類似度行列における全ての要素の平均値を閾値とし、当該段の分離待ち音声における発話中のターゲット話者を認識するために用いられるステップと、
Ｓ３３において、分離待ち音声段を、ターゲット話者を含まないこと、１つのターゲット話者を含むこと、複数のターゲット話者を含むことという音声段に分け、次元がｎ×ｐの発話行列を用いて類似度行列における各フレームの発話中のターゲット話者の数を記録し、発話行列の統計結果に基づき、各段の分離待ち音声の現在発話者の数が０、１及び２以上の音声フレームを選別し、現在ターゲット話者の数が２以上の音声フレームのみを保留し、保留された音声フレームを合併し、当該段の分離する音声の複数のターゲット話者の音声段Ｍ＝｛Ｍ_１，Ｍ_２，…，Ｍ_ｎ｝を取得し、それに対してさらに音声を分離するを行うステップと、を含む。

【0011】

さらに、前記ステップＳ３２において、具体的には、
Ｓ３２１において、分離待ち音声ｂａｔｃｈは、ｎ×ｐ個のメルスペクトル特徴で構成され、そのうち分離待ち音声は、ｎ段があり、各段は、ｐフレームに分けられ、各フレームの特徴は、Ｘａ内の特徴要素に対応するステップであって、
ターゲット話者のクリーンな音声ｂａｔｃｈは、ｍ×ｐ個のメルスペクトル特徴ベクトルで構成され、そのうちターゲット話者のクリーンな音声は、ｍ段があり、各段は、ｐフレームに分けられ、各フレームの特徴は、Ｙｂ内の特徴要素に対応するステップと、
Ｓ３２２において、Ｘａは、３層ＬＳＴＭ処理により各フレームの音声の特徴ベクトルを得、最後に線形マッピング層を用いて特徴ベクトルの次元を低減させ、結果は、ｆ（ｘ_ｌｋ；Ｗ）であり、そのうちｘ_ｌｋは、第ｌ段の分離待ち音声の第ｋフレームの音声信号であり、ｆは、最後の１層ＬＳＴＭ後の線形マッピング関数であり、Ｗは、当該関数のパラメータであり、一次元ベクトルを用いて示すステップと、
Ｓ３２３において、ｅｍｂｅｄｄｉｎｇ特徴ベクトルをｆ（ｘ_ｌｋ；Ｗ）のＬ２ノルムとして正規化し、そのうちの第ｌ段の分離待ち音声の第ｋフレームのｅｍｂｅｄｄｉｎｇ特徴ベクトルをｅ_ｌ，ｋに示し、

【0012】

さらに、ステップＳ３２６に記載の各Ｘａで得られたｅ_ｌ，ｋと各ターゲット話者のクリーンな音声中心特徴ベクトルＣｅｎｔｒｅ_ｊとのコサイン類似度Ｓ_{ｌ、ｋ、ｊ}を計算することは、具体的な過程は、
Ｘａで得られたｅ_１，１とＣｅｎｔｒｅ_１によりコサイン類似度を計算し、計算結果を類似度行列の第１個の要素とし、当該行要素は、ｅ_１，１と全てのＣｅｎｔｒｅ_１のコサイン類似度の計算結果であり、次の行は、ｅ_１，２と全てのＣｅｎｔｒｅのコサイン類似度の計算結果であり、このように類推し、ｅ_１，ｐと全てのＣｅｎｔｒｅのコサイン類似度結果まで計算し、
次にｅ_２，１と全てのＣｅｎｔｒｅのコサイン類似度を計算し、計算結果を類似度行列の第ｐ＋１行の第１個の要素とし、当該行要素は、ｅ_２，１と全てのＣｅｎｔｒｅのコサイン類似度の計算結果であり、このように類推し、ｅ_ｎ，ｐと全てのＣｅｎｔｒｅのコサイン類似度まで計算し、次元がｎ×ｐｍの類似度行列を得ることである。

【0013】

さらに、ステップＳ４は、具体的には、
Ｓ４１において、複数のターゲット話者を含む分離待ち音声段Ｍに対してメルスペクトル特徴Ｈ＝｛ｈ_１，ｈ_２，…，ｈ_ｖ，…，ｈ_ｎ｝を抽出し、ｈ_ｖは、第ｖ段の分離待ち音声を示し、ｖ∈［１，ｎ］であるステップと、
Ｓ４２において、ＧＡＮに基づく音声生成モデルを構築し、生成器と判別器で構成されるステップであって、
複数のターゲット話者の音声を含むメルスペクトル特徴Ｈを生成器の入力とし、１層の畳み込み層を経た後にアップサンプリングネットワークブロックに送り込み、各アップサンプリングネットワークブロックに残差ブロックをネスティングし、最後に１層の畳み込み層により入力特徴に対応する音声信号出力を得、
判別器は、マルチスケールアーキテクチャを採用し、元のオーディオを判別するために用いられ、さらに元のオーディオに対して平均プール化の方式を採用してダウンコンバート処理を行った後に次の判別器に入力して判別を行い、生成器が生成した音声信号と元の音声信号を判別器Ｄに入力し、１層の畳み込み層を経た後にダウンサンプリングネットワークブロックに送り込み、ダウンサンプリングネットワークブロックは、４つがあり、最後に２層の畳み込み層を経て判別結果を得、生成器と判別器を絶えずトレーニングし、最後に複数のターゲット話者の音声を生成可能な音声生成モデルを得るステップと、
Ｓ４３において、拡張が必要とする分離待ち音声段Ｍをトレーニングして得られた音声生成モデルに入れ、ｎ段の生成された複数のターゲット話者を含む分離待ち音声を取得し、元の分離待ち音声と合併して新たな分離待ち音声段Ｄａｔａ＝｛ｄａｔａ_１，ｄａｔａ_２，…，ｄａｔａ_ｎ，…，ｄａｔａ_２ｎ｝を得るステップと、を含む。

【0014】

さらに、前記生成器のアップサンプリングネットワークブロックは、４つがあり、順次８ｘ、８ｘ、２ｘ、２ｘであり、各層にアップサンプリングした後に空洞畳み込み付きの残差ブロックＲｅｓｉｄｕａｌＳｔａｃｋを加え、各残差ブロックは、３層があり、各層の膨張係数は、１、３、９であり、生成器は、４層のアップサンプリング及び畳み込みにより、複数のターゲット話者を含む一次元特徴Ｈを、複数のターゲット話者を含む音声信号に処理し、
前記判別器は、３つのサブ判別器Ｄ_１，Ｄ_２，Ｄ_３で構成され、サブ判別器は、同じネットワーク構造を有し、３つのサブ判別器は、異なるサンプリング周波数で行われ、Ｄ_１の入力は、正常のサンプリング周波数の音声であり、Ｄ_２の入力は、ダウンサンプリングが１回で得られた音声であり、Ｄ_３の入力は、ダウンサンプリングが２回で得られた音声である。

【0015】

さらに、ステップＳ５は、具体的には、
Ｓ５１において、Ｐｒａａｔによりミュート段の音声信号を生成し、複数のターゲット話者を含む分離待ち音声信号の尾部に合成し、全ての複数のターゲット話者を含む分離待ち音声の時間を等しくさせるステップと、
Ｓ５２において、ＴＣＮに基づく音声を分離するモデルを構築し、エンコーダ、分離器、デコーダで構成されるステップであって、
エンコーダは、１＊１の畳み込みにより入力された複数のターゲット話者を含む分離待ち音声の波形に対して特徴抽出を行い、音声波形を特徴行列に変換し、
分離器は、エンコーダで得られた特徴行列をＴＣＮに基づく時間畳み込みネットワークに入れ、学習して各発話者の特徴行列を取得し、１＊１の畳み込みを用い、まずチャンネル数を拡大し、異なる発話者に対して異なるチャンネル次元の区分を行い、続いて発話者に対応する特徴行列に分け、
分離器で得られた特徴行列をデコーダに入れ、逆変換して対応する音声信号を得、複数のターゲット話者の分離を実現するステップと、
Ｓ５３において、ステップＳ３の各段の分離待ち音声にマッチングするターゲット話者のクリーンな音声を融合し、複数のターゲット話者を含む音声を取得し、それにより分離モデルのトレーニング音声データを取得し、信号対雑音比の評価値に基づいて音声を分離するモデルに対して反復トレーニングを行い、信号対雑音比の評価値が最大値に達した場合、音声を分離するモデルのトレーニングが完了したと決定し、トレーニングされた音声を分離するモデルを得るステップと、
Ｓ５４において、複数のターゲット話者を含む分離する音声波形をトレーニングされた音声を分離するモデルに入れ、複数の単一の発話者を含む音声信号を出力し、複数のターゲット話者の音声を分離するを実現するステップと、を含む。

【0016】

さらに、ステップＳ５２において、エンコーダの入力は、複数のターゲット話者の分離する音声の時間領域における波形であり、波形は、次元がＩの１次元ベクトルであり、Ｉ＝Ｔｉｍｅ＊ｐであり、エンコーダは、１次元畳み込みＣｏｎｖ１Ｄ（１，２５６，２０，ｓｔｒｉｄｅ＝１０，ｐａｄｄｉｎｇ＝０）により１次元ベクトルを２５６×Ｐの２次元特徴行列に変換し、そのうち、Ｐ＝（Ｉ－２０）／１０＋１であり、
分離器において、得られた２５６×Ｐの特徴行列を積層されたＣＮＮネットワークで構成されたＴＣＮ時間畳み込みネットワークに入力し、学習して各発話者の特徴行列を取得し、また畳み込みを用いてチャネル数を拡大し、次に異なる発話者に対して異なるチャネル次元の区分を行い、続いて発話者の数に応じて複数に分け、
最後に分離器で学習して得られた異なる発話者の特徴行列をデコーダに入れて復号し、発話者に対応する音声波形を得、２５６×Ｐの特徴行列を入力スケールと同じである１次元ベクトルに変換し、単一の発話者の音声信号を得る。

【発明の効果】

【0017】

本発明の有益な効果は、本発明が全段のオーディオデータに対して音声を分離することを行う時に、モデル性能要求が高く且つトレーニングに必要な時間が長いという問題について、分離待ち音声を音声を分離するモデルに入力する前に、分離待ち音声に対してフレームレベルの音声マッチングを行い、分離待ち音声を、発話者を含まない音声、１つの発話者のみを含む音声、複数の発話者を含む音声に分ける。まず発話者を含まず及び１つの発話者のみを含む音声を分離し、複数の発話者を含む分離待ち音声のみに対してさらに音声を分離するを行い、それにより性能と時間を節約する。しかも、複数のターゲット話者の分離待ち音声サンプルが不足であり異なる発話者の音声特徴を十分に学習できないという問題について、本発明が複数のターゲット話者を含む音声データを拡張し、音声を分離するモデルが各ターゲット話者の音声特徴を学習することができ、それにより音声を分離することをよりよく実現することである。

【0018】

本発明の他の利点、目標及び特徴は、ある程度以下の明細書に説明され、ある程度で、以下の考察研究に基づいて当業者にとって明らかであり、又は本発明の実践から教示される。本発明の目的及びその他の利点は、以下の明細書から実現して取得することができる。

【図面の簡単な説明】

【0019】

本発明の目的、技術的な解決手段及び利点をより明確にするために、以下、図面を参照して本発明を好ましい詳細に説明する。

【図1】本発明に記載のデータ生成に基づく少数サンプル話者分離方法の全体フローチャートの概略図である。

【図2】本発明に記載の音声マッチングモデルの構成図である。

【図3】本発明に記載の複数のターゲット話者の音声を生成する音声生成モデルの構成図である。

【図4】本発明に記載の複数のターゲット話者を分離する音声を分離するモデルの構成図である。

【発明を実施するための形態】

【0020】

以下、特定の具体例により本発明の実施形態を説明し、当業者は本明細書に開示された内容により本発明の他の利点と効果を容易に理解することができる。本発明は、さらに異なる具体的な実施形態により実施又は応用することができ、本明細書における各詳細も異なる観点及び応用に基づき、本発明の精神から逸脱することなく様々な修飾又は変更を行うことができる。なお、以下の実施例にて提供される図面は、本発明の基本的な構想を概略的に説明するだけであり、矛盾しない場合、以下の実施例及び実施例における特徴は、互いに組み合わせることができる。

【0021】

そのうち、図面は、例示的な説明のみに用いられ、示したのは、概略図のみであり、実物図ではなく、本発明を限定するものと理解できなく、本発明の実施例をよりよく説明するために、図面のある部品は、省略、拡大又は縮小があり、実際の製品のサイズを表しなく、当業者であれば、図面におけるいくつかの公知構造及びその説明を省略する可能性が理解されるであろう。

【0022】

本発明の実施例の図面における同一又は類似の符号は、同一又は類似の部材に対応し、本発明の説明において、理解すべきものとして、用語「上」、「下」、「左」、「右」、「前」、「後」などが指示する方位又は位置関係は、図面に示された方位又は位置関係に基づくものであり、本発明を説明しやすく説明を簡略化するためだけであり、示された装置又は素子は特定の方位を有し、特定の方位で構造及び操作しなければならないことを指示又は示唆するものではないため、図面における位置関係を説明する用語は、例示的な説明だけに用いられるものであり、本発明を限定するものと理解することができず、当業者にとっては、具体的な状況に基づいて上記用語の具体的な意味を理解することができる。

【0023】

本発明は、複数人の会話シーンでの目標人の音声を分離する話者分離方法を提供する。当該方法の実施のフローチャートを図１に示す。本発明は、以下のステップを含む。

【0024】

Ｓ１において、ｎ段の分離する音声データ及びｍ個のターゲット話者のクリーンな音声データを採集し、採集された各段の音声をそれぞれ分離待ち音声データセット及びターゲット話者のクリーンな音声の小さいなサンプルデータセットに構築する。具体的な内容は、以下のとおりである。

【0025】

データを採集する時、録音機器を利用して発話者及び所在する実のシーンを録音し、分離待ち音声データセットＶ_０＝｛ｖ_１，ｖ_２，…，ｖ_ｉ，…，ｖ_ｎ｝ｉ∈［１，ｎ］を取得し、そのうちｎは、分離待ち音声データセットにおける音声段の総数を示し、ｖ_ｉは、第ｉ段の分離待ち音声を示し、各段の分離待ち音声の時間は、１分間である。全てのターゲット話者が無雑音外乱でのクリーンな音声信号を収集し、ターゲット話者のクリーンな音声の少数サンプルデータセットＣｌｅａｎ＝｛ｃ_１，ｃ_２，…，ｃ_ｊ，…，ｃ_ｍ｝ｊ∈［１，ｍ］を取得し、そのうちｍは、ターゲット話者の数を示し、ｃ_ｊは、第ｊ個のターゲット話者のクリーンな音声を示し、各段のクリーンな音声の時間は、１分間である。本例では、ｍ＝１０とし、すなわちクリーンな音声の少数サンプルデータセットに１０個のターゲット話者のクリーンな音声が含まれる。

【0026】

Ｓ２において、分離待ち音声データセットとターゲット話者のクリーンな音声データセットに対して前処理を行う。ディープラーニングモデルを利用して分離待ち音声データセットに対してエンドポイント検出、騒音低減処理を行う。具体的な内容は、以下のとおりである

【0027】

Ｓ２１において、短時間エネルギー法とゼロクロッシング率閾値法を結合する方法を利用してＳ１１で採集された分離待ち音声に対してエンドポイント検出を行い、空白音声部分を除去する。

【0028】

Ｓ２２において、周波数域マスクに基づくディープラーニングモデル（例えばＲＮＮｏｉｓｅ）により、ステップＳ２１で得られた分離待ち音声段に対して騒音低減処理を行う。

【0029】

前記Ｓ２１において、具体的な内容は、以下のとおりである。

【0030】

Ｓ２１１において、分離待ち音声信号の短時間エネルギーと短時間平均ゼロクロッシング率を計算し、エネルギーとゼロクロッシング率の比（エネルギーとゼロの比）を計算し、短時間エネルギーとゼロクロッシング率の計算式は、以下のとおりである。

【0031】

【0032】

そのうちＥは、短時間エネルギー値であり、Ｓ（ｙ）は、音声信号であり、ｉは、フレーム数であり、ｙは、音声信号のサンプリングポイント数であり、Ｙは、窓長である。

【0033】

【0034】

そのうち、Ｚは、ゼロクロッシング率であり、ｓｇｎ［］は、判定符号の関数であり、以下のように定義される。

【0035】

【0036】

計算結果に基づいてエネルギーとゼロの比の曲線を作成し、横軸は、時間であり、縦軸は、エネルギーとゼロの比である。

【0037】

Ｓ２１２において、音声エネルギーとゼロの比の曲線に基づいて低い閾値Ｄを選択し、本例では、Ｄ＝１５とし、音声信号のエネルギーとゼロの比の大部分がこの閾値以上である。エネルギーとゼロの比の曲線と閾値Ｄの全ての交点をそれぞれ見つけ、隣接する２つの交点の間は、すなわち検出された音声段である。

【0038】

Ｓ２１３において、閾値の決定は、分離待ち音声信号の特徴に基づいて決定して調整する必要がある。音声開始段のエネルギー変化特徴も異なり、開始時の変化幅が大きく、終了時の変化が緩やかである。そのため最終的な開始点を判定する前に、さらに前後１０フレームを採集してその短時間エネルギー及び平均ゼロクロッシング率を計算する必要があり、開始点を判定する根拠とする。

【0039】

前記Ｓ２２において、具体的な内容は、以下のとおりである。

【0040】

Ｓ２２１において、雑音付きの音声信号は、短時間フーリエ変換により、音声信号を時間領域から周波数域特徴に変換する。

【0041】

Ｓ２２２において、周波数域信号特徴をディープラーニング予測モデルに入力し、モデルは、周波数域における各スペクトルの周波数点に１以下の係数を乗算して雑音抑制の効果を達成する。モデルは、周波数点のエネルギー変化に基づいて学習して各周波数点に乗算する必要がある係数を得、最後にモデルは、当該音声段の周波数域マスクを予測して出力する。

【0042】

Ｓ２２３において、周波数域信号に周波数域マスクを乗算し、騒音低減後の周波数域信号を得る。

【0043】

Ｓ２２４において、騒音低減後の周波数域信号は、逆短時間フーリエ変換により時間領域での騒音低減後の音声信号を得る。

【0044】

Ｓ３において、ＬＳＴＭに基づくディープラーニングモデルを利用して前処理後の分離待ち音声データセットにおける各段の音声に対してフレームレベルのターゲット話者マッチングを行い、マッチング結果に基づき、当該段の分離待ち音声に含まれるターゲット話者の数を判断し、音声段を、ターゲット話者を含まないこと、１つのターゲット話者のみを含むこと、複数のターゲット話者を含むことという３つの種類にそれぞれ分け、複数のターゲット話者を含む音声段に対して音声を分離することを継続する。具体的な内容は、以下のとおりである。

【0045】

Ｓ３１において、分離待ち音声とターゲット話者のクリーンな音声をフレームに分け、いずれもｐ＝６００フレームに分ける。各フレームの分離待ち音声のメルスペクトル特徴Ｘａ＝｛ｘ_１１，ｘ_１２，…，ｘ_１ｋ，…，ｘ_１ｐ，…，ｘ_ｌｋ，…，ｘ_ｎｐ｝を抽出し、そのうちｘ_１ｋは、第ｌ段の分離待ち音声の第ｋフレームから抽出して得られた特徴ベクトルを示す。同様に、ターゲット話者のクリーンな音声における各フレームの特徴Ｙｂ＝｛ｙ_１１，ｙ_１２，…，ｙ_１ｋ，…，ｙ_１ｐ，…，ｙ_ｊｋ，…，ｙ_ｍｐ｝を抽出し、そのうちｙ_ｊｋは、第ｊ個のターゲット話者のクリーンな音声の第ｋフレームから抽出して得られた特徴ベクトルを示す。

【0046】

Ｓ３２において、ＬＳＴＭに基づく音声マッチングモデルを構築する。Ｓ３１で処理して得られた複数のターゲット話者とターゲット話者のクリーンな音声を含むメルスペクトル特徴ＸａとＹｂを図２に示す順に従い、各段の分離待ち音声の各フレームの音声特徴を１行とし、上から下へフレーム順に従って順次配列し、各段のターゲット話者の各フレームのクリーンな音声特徴は、一行であり、上から下へフレーム順に順次配列し、ｂａｔｃｈを構成し、ｂａｔｃｈにおけるメルスペクトル特徴は、３層ＬＳＴＭにより入力音声特徴を含む特徴ベクトルを得、最後の１層ＬＳＴＭの後に１層の線形マッピング層を繋ぎ、最後の１層ＬＳＴＭの出力を低次元のｅｍｂｅｄｄｉｎｇ特徴ベクトルにマッピングする。続いて分離待ち音声の各フレームのｅｍｂｅｄｄｉｎｇ特徴ベクトルと各ターゲット話者のクリーンな音声の中心ベクトルのｅｍｂｅｄｄｉｎｇ特徴との類似度を求め、類似度行列を得、次元はｎ×ｐｍであり、類似度行列における全ての要素の平均値を閾値とし、当該段の分離待ち音声における発話中のターゲット話者を認識するために用いられる。

【0047】

分離待ち音声ｂａｔｃｈは、ｎ×ｐ個のメルスペクトル特徴で構成され、そのうち分離待ち音声は、ｎ段があり、各段は、ｐフレームに分けられ、各フレームの特徴は、Ｘａに対応する。発話者のクリーンな音声ｂａｔｃｈは、ｍ×ｐ個のメルスペクトル特徴ベクトルで構成され、そのうちターゲット話者のクリーンな音声は、ｍ段があり、各段は、ｐフレームに分けられ、各フレームの特徴は、Ｙｂに対応する。Ｘａは、３層ＬＳＴＭ処理により各フレームの音声の特徴ベクトルを得、最後に線形マッピング層を用いて特徴ベクトルの次元を低減させる。ネットワーク全体の出力は、ｆ（ｘ_ｌｋ；Ｗ）であり、そのうちｘ_ｌｋは、第ｌ段の分離待ち音声の第ｋフレームの音声信号であり、ｆは、最後の１層ＬＳＴＭ後の線形マッピング関数であり、Ｗは、当該関数のパラメータであり、一次元ベクトルを用いて示す。ｅｍｂｅｄｄｉｎｇ特徴ベクトルをネットワーク出力のＬ２ノルムとして正規化し、そのうちの第ｌ段の分離待ち音声の第ｋフレームのｅｍｂｅｄｄｉｎｇ特徴ベクトルをｅ_ｌ，ｋに示し、

は、モデル出力ｆ（ｘ_ｌｋ；Ｗ）のＬ２ノルムである。同様に、Ｙｂは、上記モデル処理によりターゲット話者のクリーンな音声のｅｍｂｅｄｄｉｎｇ特徴ベクトルｅ_ｊ，ｋを取得し、第ｊ個のターゲット話者、第ｋフレームのクリーンな音声のｅｍｂｅｄｄｉｎｇ特徴ベクトルを示す。ｐフレームのクリーンな音声信号のｅｍｂｅｄｄｉｎｇ特徴ベクトルを平均して当該発話者中心特徴ベクトルＣｅｎｔｒｅ_ｊを取得し、第ｊ個のターゲット話者のクリーンな音声信号の中心特徴ベクトルを示し、

である。各Ｘａで得られたｅ_ｌ，ｋと各ターゲット話者のクリーンな音声中心特徴ベクトルＣｅｎｔｒｅ_ｊとのコサイン類似度Ｓ_{ｌ、ｋ、ｊ}を計算し、

であり、そのうちｗとｂは、それぞれニューラルネットワークが学習可能な重み及びオフセットであり、計算結果は、次元がｎ×ｐｍの類似度行列を構成する。具体的な過程は、以下のとおりである。Ｘａで得られたｅ_１，１とＣｅｎｔｒｅ_１によりコサイン類似度を計算し、計算結果を類似度行列の第１個の要素とし、当該行要素は、ｅ_１，１と全てのＣｅｎｔｒｅ_１のコサイン類似度の計算結果であり、次の行は、ｅ_１，２と全てのＣｅｎｔｒｅのコサイン類似度の計算結果であり、このように類推し、ｅ_１，ｐと全てのＣｅｎｔｒｅのコサイン類似度結果まで計算する。次にｅ_２，１と全てのＣｅｎｔｒｅのコサイン類似度を計算し、計算結果を類似度行列の第ｐ＋１行の第１個の要素とし、当該行要素は、ｅ_２，１と全てのＣｅｎｔｒｅのコサイン類似度の計算結果であり、このように類推し、ｅ_ｎ，ｐと全てのＣｅｎｔｒｅのコサイン類似度まで計算し、次元がｎ×ｐｍの類似度行列を得る。類似度行列における全ての要素の平均値を計算し、それを発話者の判定閾値に設定し、類似度行列における各要素に対して閾値判断を行い、要素値が閾値以上である場合、当該要素に対応するフレームを１に設定し、当該フレームにおいてターゲット話者が発話していることを示し、逆に、０に設定し、当該フレームにおいてターゲット話者が発話していないことを示す。

【0048】

分離待ち音声段を、ターゲット話者を含まないこと、１つのターゲット話者を含むこと、複数のターゲット話者を含むことという音声段に分ける。次元がｎ×ｐの発話行列を用いて類似度行列における各フレームの発話中のターゲット話者の数を記録し、第１段の分離する音声の第１フレームとｍ個の発話者の類似度が閾値よりも大きい数をｎｕｍ_１，１と記し、発話行列の第１個の要素とし、第ｌ段の分離する音声の第ｋフレームの現在発話者の数は、ｎｕｍ_ｌ，ｋであり、発話行列の第ｌ行の第ｋ個の要素とし、第ｎ段の分離待ち音声の第ｐフレームまで統計し、次元がｎ×ｐの発話行列を形成する。発話行列の統計結果に基づき、各段の分離待ち音声の現在の発話者の数が０、１及び２以上の音声フレームを選別し、現在ターゲット話者の数が２以上の音声フレームのみを保留し、保留された音声フレームを合併し、当該段の分離待ち音声の複数のターゲット話者の音声段Ｍ＝｛Ｍ_１，Ｍ_２，…，Ｍ_ｎ｝を得、それに対してさらに音声を分離するを行う。

【0049】

Ｓ４において、複数のターゲット話者を含む分離待ち音声データを拡張する。ＧＡＮに基づく複数のターゲット話者を含む音声生成モデルを構築してトレーニングし、拡張する必要がある複数のターゲット話者を含む音声データをモデルに入れ、生成された複数のターゲット話者を含む分離待ち音声を得る。具体的なステップは、以下のとおりである。

【0050】

Ｓ４１において、生成する必要がある複数のターゲット話者を含む分離待ち音声データに対してメルスペクトル特徴Ｈ＝｛ｈ_１，ｈ_２，…，ｈ_ｉ，…，ｈ_ｔ｝を抽出し、ｈ_ｖは、第ｖ段の分離待ち音声を示し、ｖ∈［１，ｔ］である。

【0051】

Ｓ４２において、ＧＡＮに基づく音声生成モデルを構築し、モデルは、生成器と判別器で構成される。複数のターゲット話者の音声を含むメルスペクトル特徴Ｈを生成器の入力とし、１層のＣｏｎｖ層を経た後にアップサンプリングネットワークブロックに送り込み、アップサンプリングネットワークブロックは、全部で４つがあり、順次８ｘ、８ｘ、２ｘ、２ｘであり、各アップサンプリングネットワークブロックに残差ブロックをネスティングして周波数域から時間領域への変換を実現し、各残差ブロックは、３層を有し、ｄｉｌａｔｉｏｎは、順次１、３、９であり、最後に１層のＣｏｎｖ層を経た後に入力特徴に対応する音声信号を得て出力する。生成器が生成した音声信号と元の音声信号を判別器に入れて判別を行い、判別器は、マルチスケールアーキテクチャを採用し、元のオーディオを判別するほかに、さらに元のオーディオに対して平均プール化の方式を採用してダウンコンバート処理を行った後に次の判別器に入力して判別を行い、オーディオにおける高周波結果をキャプチャする効果を達成する。生成器と判別器を絶えずトレーニングし、最後に複数のターゲット話者の音声を生成可能な音声生成モデルを得る。

【0052】

音声の生成過程における前後時間に存在する相関性を補強するために、各層にサンプリングした後に空洞畳み込み付きの残差ブロックＲｅｓｉｄｕａｌＳｔａｃｋを加え、構成は、図３に示す。当該残差ブロックは、遠い時間ステップ幅の受容野に大きい重なりを存在させ、それにより生成された複数のターゲット話者の音声は、より良好な遠隔関連性を有する。生成器は、４層のアップサンプリング及び畳み込みにより、複数のターゲット話者を含む１次元特徴を、複数のターゲット話者を含む音声信号として処理する。判別器は、３つのサブ判別器（Ｄ_１，Ｄ_２，Ｄ_３）で構成され、サブ判別器は、同じネットワーク構成を有し、３つのサブ判別器は、異なるサンプリング周波数で行われ、Ｄ_１の入力は、正常のサンプリング周波数の音声であり、Ｄ_２の入力は、ダウンサンプリングが１回で得られた音声であり、Ｄ_３の入力は、ダウンサンプリングが２回で得られた音声であり、異なる周波数を分離することにより、判別器は、異なる周波数での音声の差異をそれぞれ計算し、それによりトレーニング効果を最適化する。

【0053】

Ｓ４３において、拡張が必要とする分離待ち音声段ＭをＳ４２においてトレーニングして得られた音声生成モデルに入れ、ｎ段の生成された複数のターゲット話者を含む分離待ち音声を取得し、元の分離待ち音声と合併して新たな分離待ち音声段Ｄａｔａ＝｛ｄａｔａ_１，ｄａｔａ_２，…，ｄａｔａ_ｎ，…，ｄａｔａ_２ｎ｝を得る。

【0054】

Ｓ５において、ＴＣＮに基づく音声を分離するモデルを構築して、分離待ち音声の複数ターゲット話者を含む音声データとＳ４において拡張して得られた音声データを音声を分離するモデルに入れてトレーニングを行い、次に分離待ち音声の複数ターゲット話者を含む音声をトレーニングされた音声を分離するモデルに入れ、最終的に１つのターゲット話者のみを含む音声データを分離して得る。具体的なステップは、以下のとおりである。

【0055】

Ｓ５１において、Ｐｒａａｔによりミュート段の音声信号を生成し、複数のターゲット話者を含む分離待ち音声信号の尾部に合成し、全ての複数のターゲット話者を含む分離待ち音声の時間を等しくさせる。

【0056】

Ｓ５２において、ＴＣＮに基づく音声を分離するモデルを構築し、エンコーダ、分離器、デコーダで構成される。エンコーダは、１＊１の畳み込みにより入力された複数のターゲット話者を含む分離待ち音声の波形に対して特徴抽出を行い、音声波形を特徴行列に変換する。分離器は、エンコーダで得られた特徴行列をＴＣＮに基づく時間畳み込みネットワークに入れ、学習して各発話者の特徴行列を得、１＊１の畳み込みを用い、まずチャンネル数を拡大し、異なる発話者に対して異なるチャンネル次元の区分を行い、続いて発話者に対応する特徴行列に分ける。分離器で得られた特徴行列をデコーダに入れ、逆変換して対応する音声信号を得、複数のターゲット話者の分離を実現する。

【0057】

エンコーダの入力は、複数のターゲット話者の分離待ち音声の時間領域における波形であり、波形は、次元がＩ＝Ｔｉｍｅ＊ｐ＝１＊６０＊６００＝３６０００の１次元ベクトルであり、エンコーダは、１次元畳み込みＣｏｎｖ１Ｄ（１，２５６，２０，ｓｔｒｉｄｅ＝１０，ｐａｄｄｉｎｇ＝０）により１次元ベクトルを１×２５６×３５９９の２次元特徴行列に変換し、そのうち、３５９９＝（３６０００－２０）／１０＋１である。分離器において、得られた１×２５６×３５９９の特徴行列を図４に示した積層されたＣＮＮネットワーク（ＢｌｏｃｋＡ）で構成されたＴＣＮ時間畳み込みネットワークに入力し、ネットワークは、学習して各発話者の特徴行列を得、また１＊１の畳み込みを用いてチャネル数を拡大し、１×２５６×３５９９の特徴行列を１×５１２×３５９９に変換し、次に異なる発話者に対して異なるチャネル次元の区分を行い、続いて発話者に応じて複数に分け、例えば１×５１２×３５９９を２つの１×２５６×３５９９に分ければ２つの発話者の特徴行列を得ることができる。最後に分離器で学習して得られた異なる発話者の特徴行列をデコーダに入れて復号し、発話者に対応する音声波形を得、１×２５６×３５９９の特徴行列を入力スケールと同じである１×３６０００の１次元ベクトルに変換する。

【0058】

Ｓ５３において、音声を分離するモデルをトレーニングする。ステップＳ３の各段の分離待ち音声にマッチングするターゲット話者のクリーンな音声を融合し、複数のターゲット話者を含む音声を取得し、それにより分離モデルのトレーニング音声データを得る。信号対雑音比の評価値に基づいて分離モデルに対して反復トレーニングを行い、信号対雑音比の評価値が最大値に達した場合、音声を分離するモデルのトレーニングが完了したと決定し、トレーニングされた音声を分離するモデルを得る。

【0059】

Ｓ５４において、複数のターゲット話者の音声を分離することを実現する。複数のターゲット話者を含む分離待ち音声波形をトレーニングされた音声を分離するモデルに入れ、複数の単一の発話者を含む音声信号を出力する。最後にＳ３における閾値選別後の類似度行列及び単一の発話者を分離した音声信号により、単一の発話者の完全な音声を合成する。

【0060】

最後に説明したのは、以上の実施例は、本発明の技術的な解決手段を説明するためのものであって限定するものではなく、好適な実施例を参照して本発明を詳細に説明したが、当業者であれば理解されるように、本技術的な解決手段の趣旨及び範囲から逸脱することなく、本発明の技術的な解決手段を修正又は同等置換することができ、いずれも本発明の特許請求の範囲に含まれるべきである。

【図1】

【図2】

【図3】

【図4】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版