IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特表2024-542658音声処理方法及びその装置、コンピュータ機器並びにプログラム
<>
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図1
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図2
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図3
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図4
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図5
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図6
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図7
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図8
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図9
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図10
  • 特表-音声処理方法及びその装置、コンピュータ機器並びにプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-15
(54)【発明の名称】音声処理方法及びその装置、コンピュータ機器並びにプログラム
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20241108BHJP
   G10L 25/30 20130101ALI20241108BHJP
【FI】
G10L21/0208 100Z
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024532312
(86)(22)【出願日】2023-03-31
(85)【翻訳文提出日】2024-05-29
(86)【国際出願番号】 CN2023085321
(87)【国際公開番号】W WO2023216760
(87)【国際公開日】2023-11-16
(31)【優先権主張番号】202210495197.5
(32)【優先日】2022-05-07
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】黄 俊
(72)【発明者】
【氏名】王 燕南
(57)【要約】
本願は、音声処理方法及びその装置、コンピュータ機器並びにプログラムを開示し、前記方法は、通話音声の初期音声特徴を取得するステップと、前記初期音声特徴を事前訓練された音声強調モデルに入力して、前記音声強調モデルから出力される目標音声特徴を得るステップであって、前記音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られる、ステップと、前記目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算するステップと、を含む。
【特許請求の範囲】
【請求項1】
音声処理方法であって、
通話音声の初期音声特徴を取得するステップと、
前記初期音声特徴を音声強調モデルに入力して、前記音声強調モデルから出力される目標音声特徴を得るステップであって、前記音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られる、ステップと、
前記目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算するステップと、を含む、音声処理方法。
【請求項2】
前記音声処理方法は、
以下の方式によって前記音声強調モデルを事前訓練するステップをさらに含み、前記方式は、
訓練サンプルセットを取得するステップであって、前記訓練サンプルセットは、ノイズ音声特徴、クリーン音声ラベル、ノイズ音声ラベル、及び深度クラスタリング注釈を含む、ステップと、
所定の強調ネットワークを取得するステップと、
前記所定の強調ネットワークが所定条件を満たすまで、前記訓練サンプルセットを介して前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行い、訓練後の目標強調ネットワークを前記音声強調モデルとして得るステップと、を含む、
請求項1に記載の音声処理方法。
【請求項3】
前記所定の強調ネットワークは、隠れ層、深度クラスタリング層、及びマスク推定層を含み、前記マスク推定層は、音声マスク推定層及びノイズマスク推定層を含み、前記所定の強調ネットワークが所定条件を満たすまで、前記訓練サンプルセットを介して前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
前記ノイズ音声特徴を前記隠れ層に入力し、前記隠れ層を通じて中間訓練特徴を生成するステップと、
前記中間訓練特徴を前記深度クラスタリング層に入力し、前記深度クラスタリング層を通じてクラスタリング訓練注釈を生成するステップと、
前記中間訓練特徴を前記音声マスク推定層に入力し、前記音声マスク推定層を通じてクリーン音声訓練特徴を生成するステップと、
前記中間訓練特徴を前記ノイズマスク推定層に入力し、前記ノイズマスク推定層を通じてノイズ音声訓練特徴を生成するステップと、
前記クリーン音声ラベル、前記ノイズ音声ラベル、前記深度クラスタリング注釈、前記クリーン音声訓練特徴、前記ノイズ音声訓練特徴、及び前記クラスタリング訓練注釈に基づいて、目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップと、を含む、
請求項2に記載の音声処理方法。
【請求項4】
前記クリーン音声ラベル、前記ノイズ音声ラベル、前記深度クラスタリング注釈、前記クリーン音声訓練特徴、前記ノイズ音声訓練特徴、及び前記クラスタリング訓練注釈に基づいて、目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
前記クラスタリング訓練注釈及び前記深度クラスタリング注釈に基づいて、第1損失関数を決定するステップと、
前記クリーン音声訓練特徴及び前記クリーン音声ラベルに基づいて、第2損失関数を決定するステップと、
前記ノイズ音声訓練特徴及び前記ノイズ音声ラベルに基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップと、を含む、
請求項3に記載の音声処理方法。
【請求項5】
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築するステップは、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数にそれぞれ対応する重み付けパラメータに基づいて、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に対して重み付け加算を行い、前記所定の強調ネットワークの目標損失関数を得るステップを含む、
請求項4に記載の音声処理方法。
【請求項6】
前記クリーン音声ラベルは、第1クリーン音声ラベルを含み、前記クリーン音声訓練特徴及び前記クリーン音声ラベルに基づいて、第2損失関数を決定するステップは、
前記クリーン音声訓練特徴及び前記第1クリーン音声ラベルに基づいて、ノイズ除去損失関数を決定するステップと、
前記ノイズ除去損失関数を第2損失関数とするステップであって、前記第1クリーン音声ラベルは、ノイズなし残響ありの音声に基づいて取得された音声ラベルである、ステップと、を含む、
請求項4に記載の音声処理方法。
【請求項7】
前記クリーン音声ラベルは、第2クリーン音声ラベルを含み、前記クリーン音声訓練特徴及び前記クリーン音声ラベルに基づいて、第2損失関数を決定するステップは、
前記クリーン音声訓練特徴及び前記第2クリーン音声ラベルに基づいて、残響除去損失関数を決定するステップと、
前記残響除去損失関数を第2損失関数とするステップであって、前記第2クリーン音声ラベルは、ノイズなし残響なしの音声に基づいて取得された音声ラベルである、ステップと、を含む、
請求項4に記載の音声処理方法。
【請求項8】
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
適用シーン属性を取得するステップと、
前記適用シーン属性に基づいて、対応する分散型訓練ポリシを決定するステップと、
前記分散型訓練ポリシに基づいて、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップと、を含む、
請求項5、6又は7に記載の音声処理方法。
【請求項9】
前記分散型訓練ポリシは、第1分散型訓練ポリシを含み、前記分散型訓練ポリシに基づいて、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
前記分散型訓練ポリシが第1分散型訓練ポリシである場合、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を決定し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練を繰り返し、ノイズ除去ネットワークを得るステップであって、前記第2損失関数は、ノイズ除去損失関数によって決定される、ステップと、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記ノイズ除去ネットワークの目標損失関数を決定し、前記ノイズ除去ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記ノイズ除去ネットワークに対して残響除去訓練を繰り返すステップであって、前記第2損失関数は、残響除去損失関数によって決定される、ステップと、を含む、
請求項8に記載の音声処理方法。
【請求項10】
前記分散型訓練ポリシは、第2分散型訓練ポリシを含み、前記分散型訓練ポリシに基づいて、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
前記分散型訓練ポリシが第2分散型訓練ポリシである場合、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を決定し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対して残響除去訓練を繰り返し、残響除去ネットワークを得るステップであって、前記第2損失関数は、残響除去損失関数によって決定される、ステップと、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記残響除去ネットワークの目標損失関数を決定し、前記残響除去ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記残響除去ネットワークに対してノイズ除去訓練を繰り返すステップであって、前記第2損失関数は、ノイズ除去損失関数によって決定される、ステップと、を含む、
請求項8に記載の音声処理方法。
【請求項11】
前記訓練サンプルセットを取得するステップは、
第1サンプル音声を取得するステップであって、前記第1サンプル音声は、マイクに基づいて収集された、ノイズ及び残響を含む音声である、ステップと、
前記第1サンプル音声に対して音声特徴抽出を行い、ノイズ音声特徴を得るステップと、
第2サンプル音声を取得するステップであって、前記第2サンプル音声は、ノイズなし残響ありのクリーン音声及びノイズなし残響なしのクリーン音声を含む、ステップと、
前記第2サンプル音声に対して音声特徴抽出を行い、第1クリーン音声ラベル及び第2クリーン音声ラベルを得るステップと、
前記第1サンプル音声及び前記第2サンプル音声に基づいて、深度クラスタリング注釈を決定するステップと、を含む、
請求項2に記載の音声処理方法。
【請求項12】
前記所定条件は、
前記目標損失関数の総損失値が所定値以下であること、前記目標損失関数の総損失値が変化しなくなること、訓練回数が所定回数に達することのうちのいずれかを含む、
請求項3から11のいずれか一項に記載の音声処理方法。
【請求項13】
前記音声強調モデルは、隠れ層、深度クラスタリング層、音声マスク推定層、及びノイズマスク推定層を含み、前記初期音声特徴を事前訓練された音声強調モデルに入力して、前記音声強調モデルから出力される目標音声特徴を得るステップは、
前記初期音声特徴を前記隠れ層に入力し、前記隠れ層を通じて中間特徴を生成するステップと、
前記中間特徴を前記音声マスク推定層に入力し、前記音声マスク推定層を通じてクリーン音声特徴を生成し、前記クリーン音声特徴を目標音声特徴とするステップと、を含み、
前記目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算するステップは、
前記目標音声特徴に対して特徴逆変換を行い、ノイズ及び残響が除去された目標音声を計算するステップを含む、
請求項1に記載の音声処理方法。
【請求項14】
音声処理装置であって、
通話音声の初期音声特徴を取得するように構成される取得モジュールと、
前記初期音声特徴を事前訓練された音声強調モデルに入力して、前記音声強調モデルから出力される目標音声特徴を得るように構成される強調モジュールであって、前記音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られる、強調モジュールと、
前記目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算する計算モデルと、を備える、音声処理装置。
【請求項15】
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、プログラムコードが記憶され、前記プログラムコードは、プロセッサによって呼び出され、請求項1から13のいずれか一項に記載の方法を実行する、コンピュータ可読記憶媒体。
【請求項16】
コンピュータ機器であって、
メモリと、
前記メモリに結合された1つ又は複数のプロセッサと、
前記メモリに記憶され、前記1つ又は複数のプロセッサによって実行されるように構成され、請求項1から13のいずれか一項に記載の方法を実行するように構成される、1つ又は複数のアプリケーションと、を備える、コンピュータ機器。
【請求項17】
コンピュータプログラム製品又はコンピュータプログラムであって、
前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、記憶媒体に記憶され、コンピュータ機器のプロセッサは、前記記憶媒体から前記コンピュータ命令を読み取って実行することにより、前記コンピュータ機器に、請求項1から13のいずれか一項に記載の方法を実行させる、コンピュータプログラム製品又はコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本願は、2022年5月7日に中国特許局に提出された、出願番号が第202210495197.5号である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。
【0002】
本願は、音声認識技術分野に関し、より具体的には、音声処理方法及びその装置、記憶媒体、コンピュータ機器並びにプログラム製品に関するものである。
【背景技術】
【0003】
音声強調(Speech Enhancement)の本質は音声のノイズ低減であり、日常生活において、マイクによって収集される音声は通常、異なるノイズを有する「汚染された」音声であり、音声強調の主な目的は、これらの「汚染された」ノイズのある音声から、我々が希望するきれいな音声を復元し、それにより、各種の干渉信号を効果的に抑制し、目標音声信号を強調することである。これにより、音声の品質を向上させるだけでなく、音声認識性能を向上させるのに役立つ。
【0004】
音声強調の適用分野は、ビデオ会議や音声認識などを含み、多くの音声符号化及び認識システムの前処理モジュールであり、通常、近距離音声強調と遠距離音声強調に分類される。複雑な音声収集環境では、ノイズと残響が同時に存在するため、既存の音声強調では、2レベルネットワークに基づくノイズ低減・残響除去方案が使用されているが、この2レベルネットワークの大きな計算量により、音声強調は実際の適用の性能要求を満たすことができない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例は、音声処理方法及びその装置、記憶媒体、コンピュータ機器並びにプログラム製品を提供し、音声強調の性能を向上させることを目的とする。
【課題を解決するための手段】
【0006】
本願の実施例は、音声処理方法を提供し、前記方法は、通話音声の初期音声特徴を取得するステップと、初期音声特徴を事前訓練された音声強調モデルに入力して、音声強調モデルから出力される目標音声特徴を得るステップであって、音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られる、ステップと、目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算するステップと、を含む。
【0007】
本願の実施例は、音声処理装置をさらに提供し、前記装置は、通話音声の初期音声特徴を取得するように構成される取得モジュールと、初期音声特徴を事前訓練された音声強調モデルに入力して、音声強調モデルから出力される目標音声特徴を得るように構成される強調モジュールであって、音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られる、強調モジュールと、目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算するように構成される計算モデルと、を含む。
【0008】
本願の実施例は、コンピュータ機器をさらに提供し、前記コンピュータ機器は、プロセッサと、メモリとを備え、メモリにはコンピュータプログラム命令が記憶され、コンピュータプログラム命令は、プロセッサによって呼び出されるときに、上記の音声処理方法を実行する。
【0009】
本願の実施例は、コンピュータ可読記憶媒体をさらに提供し、前記コンピュータ可読記憶媒体には、プログラムコードが記憶され、前記プログラムコードがプロセッサによって実行されるときに、上記の音声処理方法を実行する。
【0010】
本願の実施例は、コンピュータプログラム製品又はコンピュータプログラムをさらに提供し、前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、記憶媒体に記憶される。コンピュータ機器のプロセッサは、記憶媒体から前記コンピュータ命令を読み取り、プロセッサは前記命令を実行することにより、前記コンピュータに、上記の音声処理方法のステップを実行させる。
【発明の効果】
【0011】
本願の実施例は、2種類の異なる損失関数を通じて事前設定された音声強調モデルに対して段階的にモデル訓練を行い、モデルが音声特徴におけるノイズと残響を効率的に除去するように誘導し、ノイズ低減タスクと残響除去タスクを可能にし、独自の訓練プロセスで最適な訓練効果を達成することができ、それによって音声強調モデルのノイズ低減と残響除去の能力を向上させるのに役立ち、モデル計算資源を低減しながら、音声強調の性能を向上させることができる。
【図面の簡単な説明】
【0012】
図1】本願の実施例による一般的なノイズ低減及び残響除去方法の模式図である。
図2】本願の実施例による音声処理システムのアーキテクチャの模式図である。
図3】本願の実施例による音声処理方法のフローチャートである。
図4】本願の実施例による音声処理方法の適用シーンの模式図である。
図5】本願の実施例による音声強調モデルのアーキテクチャの模式図である。
図6】本願の実施例による別の音声処理方法のフローチャートである。
図7】本願の実施例による音声特徴抽出のフローチャートである。
図8】本願の実施例による所定の強調ネットワークのアーキテクチャの模式図である。
図9】本願の実施例による音声処理装置のモジュールブロック図である。
図10】本願の実施例によるコンピュータ機器のモジュールブロック図である。
図11】本願の実施例によるコンピュータ可読記憶媒体のモジュールブロック図である。
【発明を実施するための形態】
【0013】
本願の実施例の技術的解決策をより明確に説明するために、下記において、実施例の説明で使用される図面について簡単に紹介する。明らかに、上記の図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な労力を払わなくても、これらの図面に基づいて他の関連図面を得ることもできる。
【0014】
下記において、本願の実施形態を詳細に説明する。実施形態の例は図面に示し、ここで、最初から最後まで同じ又は類似の参照符号は、同じ又は類似の要素又は同じ又は類似の機能を有する要素を表す。図面を参照して以下に説明される実施形態は例示的なものであり、本願を説明するためのみを意図したものであり、本願を限定するものとして解釈されるものではない。
【0015】
当業者が本願の技術案をより良く理解できるようにするため、下記において、本願の実施例における図面を参照して、本願の実施例の技術的解決策について、明確且つ完全に説明する。明らかに、説明される実施例は、本願の実施例の一部のみであり、全部の実施例ではない。本願の実施例に基づいて、創造的な作業なしに当業者によって得られる他のすべての実施例は、本願の保護範囲に含まれる。
【0016】
日常生活において、ノイズ干渉下で音声通信を行うという問題がよく発生する。例えば、自動車や電車内での携帯電話の使用、周囲のノイズ、及び複数人のビデオ会議の際にマイクによって収集されるノイズありの遠端音声などがあるため、音声強調技術を使用して、ノイズあり音声信号から可能な限り純粋なオリジナルの音声を抽出する必要がある。通話シーンによっては、クライアントを利用してユーザが行う通話タイプには、近端通話と遠端通話が含まれ得、通話の参加者にとっては、近端は参加者の位置であり、遠端は遠隔会議における他の参加者の位置である。各位置には、少なくとも1つのマイクと1つのスピーカがある。しかしながら、クライアントの近端通話は1人又は少人数の近距離通話にしか適しておらず、音声ビデオ体験は一般的である。
【0017】
ユーザ体験を向上させるために、産業的には大画面通信機器での遠端通話の研究に重点を置いている。しかしながら、遠端通話は通話距離がより遠く、信号対雑音比がより低く、通話音声は通常、ノイズと残響を伴うため、性能の良い遠距離音声強調を利用して通話音声に対してノイズ低減・残響除去を行う必要がある。関連技術の音声強調方案は通常、2つのモデルを採用してノイズ低減及び残響除去をそれぞれ行っている。ノイズあり残響あり音声については、図1を参照することができる。図1は、一般的に使用されるノイズ低減及び残響除去の2つの技術案が示され、これには、ノイズ低減の後に残響除去する方法と、残響除去の後にノイズ低減する方法とを含む。
【0018】
例えば、マイクアレイを異なるサブセットに分割し、各サブセットは第1レベルの音声強調ネットワークを介して、各マイクによって強調された音声を取得し、強調された音声を統合し、次に第2レベルの音声強調ネットワークを介して、最終出力を得る。しかしながら、このような2レベルネットワークベースの音声強調方案では、訓練プロセスで多くの計算量を消費する必要があり、製品の実際の適用の性能要求に適していない。ネットワークのパラメータの数を減らして計算量を削減すると、ネットワークで音声強調を行う際の効果が悪くなる。
【0019】
上記の問題を解決するために、出願人は研究により、本願の実施例によって提供される音声処理方法を提案し、前記方法は、通話音声の初期音声特徴を取得し、初期音声特徴を事前訓練された音声強調モデルに入力して、音声強調モデルから出力される目標音声特徴を得ることができ、前記音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られる。これにより、2つのモデル(2レベルネットワーク)を1つのモデルに融合して、モデル訓練プロセスの計算コストを削減する。目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算する。このようにして、異なる損失関数を通じて事前設定された音声強調モデルに対してモデル訓練を行い、モデルが音声特徴におけるノイズと残響を効率的に除去するように誘導し、モデル計算資源を低減しながら、音声強調の性能を向上させることができる。
【0020】
まず、本願に係る音声処理方法の適用シーンについて説明する。図2は、音声処理システムのアーキテクチャの模式図である。いくつかの実施例では、音声処理システム300は、遠隔ビデオ会議のシーンに適用され、前記音声処理システム300は、近端クライアント310と、遠端クライアント330と、サーバ側350と、を含み得る。ここで、近端クライアント310、遠端クライアント330、及びサーバ側350は、ネットワークを介して通信接続され、一実施形態として、近端クライアント310及び遠端クライアント330は、ビデオ用の大画面端末であり得、サーバ側350は、クラウドサーバであり得る。
【0021】
例示的に、遠端クライアント330は、参加者が発するノイズ及び残響有する初期音声を収集し、初期音声をサーバ側350に伝送することができ、サーバ側350は初期音声を受信した後、事前訓練された音声強調モデルを利用して、前記初期音声に対してノイズ低減及び残響除去を行い、強調されたクリーン音声(目標音声)を得、クリーン音声を近端クライアント310に伝送することができる。いくつかの実施例では、音声強調モデルは、実際の適用シーンの必要に応じて、近端クライアント310又は遠端クライアント330に配置されてもよい。
【0022】
なお、上記の音声処理システム300は一例に過ぎず、本願の実施例で説明される音声処理システムのアーキテクチャ及び適用シーンは本願の実施例の技術的解決策をより明確に説明するためのものであり、本願の実施例によって提供される技術的解決策を限定するものではなく、当業者であれば、音声処理システムアーキテクチャの進化及び新たな適用シーンの出現に伴い、本願の実施例によって提供される技術的解決策は、類似した技術的問題に同様に適用されることが分かる。
【0023】
図3を参照すると、図3は、本願の一実施例による音声処理方法のフローチャートである。具体的な実施例では、前記音声処理方法は、図9に示す音声処理装置500及び音声処理装置500が配置されたコンピュータ機器600(図10)に適用される。
【0024】
コンピュータ機器を例として、本願の実施例の具体的なプロセスを説明する。もちろん、本願の実施例に適用されるコンピュータ機器は、サーバ又は端末などであり得る。サーバは、独立した物理サーバであってもよいし、複数の物理サーバで構成されたサーバクラスタ又は分散システムでもあってもよいし、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメインネームサービス、セキュリティサービス、CDN、ビッグデータ及び人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。端末は、スマートフォン、タブレットコンピュータ、ノートパソコン、デスクトップコンピュータ、スマートスピーカ、スマートウォッチなどであってもよいが、これらに限定されない。
【0025】
以下では、図3に示すプロセスについて、図4に示す適用シーンを参照して詳細に説明する。図4は、本願の実施例による音声処理方法の適用シーンの模式図である。前記適用シーンにおいて、音声処理方法は、特定の音声強調システムに適用され得、前記音声強調システムの音声強調モデル411は、クラウドサーバ410に配置され得、クラウドサーバ410は、2つの会場の会議端末(第1会議端末430及び第2会議端末450)それぞれに通信接続することができる。ここで、第1会議端末430及び第2会議端末450は、それぞれの会場にいる参加者の音声(即ち、オリジナル通話音声)を収集し、収集した音声をクラウドサーバ410にアップロードし、クラウドサーバ410は音声の音声強調を完了してクリーン音声を得、最後に、クラウドサーバ410は、クリーン音声を対応する会議端末に送信して再生する。前記音声処理方法は、具体的に以下のステップを含み得る。
【0026】
ステップS110において、通話音声の初期音声特徴を取得する。
【0027】
本願の実施例では、コンピュータ機器は、音声強調を必要とする通話音声の初期音声特徴を取得することができる。ここで、初期音声特徴は、通話音声の変換に基づいて得られる音響特徴である。例えば、対数パワースペクトル(LPS:Logarithmic Power Spectrum)や周波数逆スペクトル係数(MFCC:Mel-Frequency Cepstral Coefficients)などであるが、ここでは限定しない。
【0028】
音声データは画像データのようにモデルに直接入力することができないことが多く、長時間領域では明らかな特徴変化がないため、音声データの特徴を学習することは難しく、音声の時間領域データは通常16Kサンプリングレート、即ち、1秒16000サンプリングポイントから構成され、時間領域サンプリングポイントを直接入力すると、訓練データ量が大き過ぎて実際的な効果を訓練することが困難になる。したがって、音声処理関連タスクでは、通常、音声データを音響特徴に変換して、モデルの入力又は出力とする。
【0029】
一実施形態として、通話音声を取得した後、通話音声に対してフレーム分割処理及びウィンドウィング処理を行い、初期音声特徴を得ることができる。例えば、マイクによって収集されるすべての通話音声に対してフレーム分割処理及びウィンドウィング処理を順次行い、通話音声の音声信号フレームを得、音声信号フレームに対して高速フーリエ変換(FFT:Fast Fourier Transformation)を行い、FFTされた離散パワースペクトルを求め、次に、取得した離散パワースペクトルに対して対数計算を行い、初期音声特徴として対数パワースペクトルを得る。通話音声に対してフレーム分割処理及びウィンドウィング処理を行うことにより、通話音声を時間領域空間の非定常信号から周波数領域空間の定常信号に変換し、モデルの訓練を容易にすることができる。
【0030】
音声信号フレーム分割の目的はいくつかの音声サンプリングポイントを1フレームに分けることであり、この1フレーム内で、音声信号の特性は安定していると見なされる。通常、1フレームの長さは、イントラ信号が安定していることを保証するのに十分に短くなければならないため、1フレームの長さは、1音素の長さよりも小さいべきであり、通常の音速では、1音素の持続時間は約50msである。また、フーリエ分析を行うには、1フレームに十分な振動周期が含まれている必要があり、男性の声が100ヘルツ前後、女性の声が200ヘルツ前後で、周期に換算すると10msと5msである。したがって、一般的に音声フレーム分割の長さは10~40msを取る。
【0031】
フレーム分割の後、各フレームの開始と終了に不連続性があるため、分割されたフレームが多いほど、オリジナル信号との誤差が大きくなる。この問題を解決するために、ウィンドウィングにより、フレーム化された信号は連続的になり、且つ各フレームは周期関数の特性を表現するようになる。例えば、使用可能な窓関数には、矩形窓、ハミング窓、ハニング窓がある。
【0032】
図4に示すビデオ会議シーンでは、参加者と会議端末との間に一定の距離があるため、会議端末で収集された参加者音声にはノイズ及び残響が発生する。このために、本願の実施例によって提供される音声処理方法を利用して、参加者の音声に対して音声強調処理を行うことで、音声内のノイズ及び残響を除去することができる。
【0033】
例示的に、第2会議端末450は、マイクを介して会場内で参加者420の音声、即ち、通話音声を収集し、前記通話音声をネットワークを介してクラウドサーバ410に送信し、次に、クラウドサーバ410は通話音声受信した後、通話音声に対してフレーム分割処理、ウィンドウィング処理、及びフーリエ変換を行い、初期音声特徴を得る。
【0034】
ステップS120において、初期音声特徴を事前訓練された音声強調モデルに入力して、音声強調モデルから出力される目標音声特徴を得る。
【0035】
実際の適用シーンでは、マイクアレイによって収集された通話音声には、ノイズ及び残響が同時に含まれ、通話音声に対してノイズ低減及び残響除去を行うための2レベルネットワークを考慮すると、訓練時に2つのネットワークのパラメータ量が大きいため、大量の計算資源を消費する必要があり、各ネットワークのパラメータ量を減らすと、モデルのノイズ低減及び残響除去の性能も低下する。このため、2レベルネットワークを1つのネットワークに融合することができ、2つのネットワークのパラメータ量に対して、融合後のモデルのパラメータ量が少なくなり、訓練プロセスの計算量を大幅に削減できるほか、モデルの音声強調の性能を向上させることができる。
【0036】
本願の実施例では、音声強調モデルは、入力された初期音声特徴に基づいて、通話音声に対応する目標音声特徴、即ち、音声強調の後にノイズ及び残響が除去されたクリーンな音声特徴を生成することができる。図5を参照すると、図5は、音声強調モデルのアーキテクチャの模式図である。前記音声強調モデルは、複数の隠れ層、深度クラスタリング層、音声マスク推定層、及びノイズマスク推定層を含み得る。
【0037】
ここで、深度クラスタリング層、音声マスク推定層、及びノイズマスク推定層は線形層であり得、これら3つの層の入力は全部隠れ層の出力からのものである。隠れ層は、入力された初期音声特徴に基づいて計算して、中間特徴を得ることができ、前記中間特徴は、音声強調プロセスの中間値である。
【0038】
例えば、深度クラスタリング層は、正規化(Normalization)及びタンジェント関数(tanhと表記)によって実現され得、隠れ層の出力は、まず正規化処理され、後続の処理を容易にするために、隠れ層の出力を一定の範囲内、例えば[0,1]又は[-1,1]に制限し、次に、正規化結果に対してタンジェント関数値を計算して、深度クラスタリング層の出力とする。
【0039】
例えば、音声マスク推定層及びノイズマスク推定層は、いずれもsoftmax函数によって実現され得る。
【0040】
音声マスク推定層は、中間特徴に基づいてマスク推定(MI:Mask Inference)を行い、ノイズ及び残響を除去した目標音声特徴を得ることができ、ノイズマスク推定層は、中間特徴に基づいてマスク推定を行い、ノイズを有する音声特徴を得ることができ、深度クラスタリング層は、取得した中間特徴に基づいて深度クラスタリング(DC:Deep Clustering)を行うことにより、音声マスク推定層及びノイズマスク推定層のノイズ低減及び残響除去を支援することができる。例えば、隠れ層は、長短期間記憶ネットワーク(LSTM:Long Short-Term Memory)又は、双方向長短期間記憶ネットワーク(Bi-LSTM:Bi-directional Long-Short Term Memory)などのバリアントであり得、これは、音声特徴が短時間安定性のある時系列を有することが、LSTMの長短期間記憶能力と一致しているためである。隠れ層は、GRU(Gated Recurrent Unit)などの記憶的な特性を有する他のネットワークであってもよい。
【0041】
一実施形態として、モデル訓練プロセスでは、深度クラスタリング層に対応する深度クラスタリング損失関数と、音声マスク推定層及びノイズマスク推定層にそれぞれ対応するマスク推定損失関数とによって、モデルに対して段階的訓練を行うことができる。例示的に、第1のステップにおいて、深度クラスタリング損失関数及びマスク推定損失関数に基づいてノイズ低減モデルを訓練することができ、ノイズ低減モデルが収束したら、訓練を停止する。ここで、音声マスク推定層に対応するマスク推定損失関数は、ノイズなし残響ありのクリーン音声ラベルを使用する。第2のステップにおいて、残響除去モデルを訓練し、第1のステップで訓練されたノイズ低減モデルを残響除去モデルとして使用し、深度クラスタリング損失関数及びマスク推定損失関数に基づいて残響除去モデルを訓練し、残響除去モデルが収束したら、訓練を停止する。ここで、音声マスク推定層に対応するマスク推定損失関数は、ノイズなし残響なしのクリーン音声ラベルを使用し、これにより、最終的に得られる残響除去モデル、即ち、音声強調モデルは、ノイズ低減及び残響除去を同時に行う能力を備える。
【0042】
なお、音声強調モデルの深度クラスタリング層は、時間周波数点クラスタリングに基づくバイナリ損失であり、深度クラスタリング損失の正則化(Regularization)特性のため、関連技術の訓練プロセスでは、音声内のノイズ及び残響を効果的に除去するように音声マスク推定層及びノイズマスク推定層を導くことが困難であり、さらに、モデルの音声強調の性能を効果的に向上させることが困難である。一方、本願の実施例の段階的訓練方法により、ノイズ低減タスク及び残響除去タスクは、独自の訓練プロセスで最適な訓練効果を達成することができ、それによって音声強調モデルのノイズ低減と残響除去の能力を向上させるのに役立つ。
【0043】
これにより、上記の訓練により得られる音声強調モデルは、多層LSTMによって中間特徴を得ることができ、音声マスク推定層は、中間特徴に基づいてマスク推定を行い、音声のマスク、即ち、目標音声特徴を計算することができる。例示的に、図4に示すビデオ会議シーンでは、クラウドサーバ410は、初期音声特徴を得た後、前記初期音声特徴を音声強調モデル411に入力することができ、前記音声強調モデル411の音声マスク推定層は、中間特徴に基づいてマスク推定を行い、音声のマスク、即ち、目標音声特徴を計算することができ、中間特徴は、多層LSTMによって得られる。音声強調の適用シーンでは、音声マスク推定から出力される目標音声特徴を利用して音声を復元するだけでよいため、音声強調プロセスにおける計算量を効果的に削減することができる。
【0044】
ステップS130において、目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算する。
【0045】
一実施形態として、取得した目標音声特徴に対して特徴逆変換を行い、ノイズ及び残響が除去された目標音声を計算することができる。例えば、目標音声特徴に対してフーリエ逆変換(IFT:Inverse Fourier Transform)を行い、目標音声特徴を周波数領域から時間領域に変換することにより、音声強調後の時間領域音声、即ち、目標音声を取得することができる。例示的に、図4に示すビデオ会議シーンでは、クラウドサーバ410は、音声強調モデル411から出力される目標音声特徴を取得した後、フーリエ逆変換によって目標音声特徴、即ち、クリーンな音声特徴を目標音声に変換することができ、それによって、ノイズ及び残響が除去されたクリーン音声を得ることができる。クラウドサーバ410は、クリーン音声を第1会議端末430に送信し、第1会議端末430のスピーカから参加者420のノイズ及び残響を有しない音声を再生することができる。
【0046】
本願の実施例では、通話音声の初期音声特徴を取得し、初期音声特徴を事前訓練された音声強調モデルに入力して、音声強調モデルから出力される目標音声特徴を得、前記音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られ、目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算することができる。このようにして、異なる損失関数を通じて事前設定された音声強調モデルに対してモデル訓練を行い、モデルが音声特徴におけるノイズと残響を効率的に除去するように誘導し、モデル計算資源を低減しながら、音声強調の性能を向上させることができる。
【0047】
上記の実施例で説明した方法を参照して、以下に例を挙げてさらに詳細に説明する。
【0048】
本願の実施例では、前記音声処理装置が具体的にコンピュータ機器に組み込まれた場合を例として説明する。
【0049】
図6を参照すると、図6は、本願の実施例による別の音声処理方法を示し、具体的な実施例では、前記音声処理方法は、図8に示す所定の強調ネットワークに適用される。下記において、図5に示すプロセスについて詳細に説明する。
【0050】
本願の実施例は、人工知能(AI:Artificial Intelligence)を組み込んだものである。人工知能技術は、デジタルコンピュータ又はデジタルコンピュータによって制御される機械を使用して、人間の知性をシミュレート、拡張及び拡大し、環境を知覚し、知識を取得し、知識を使用して最適な結果を得る理論、方法、技術、及びアプリケーションシステムである。言い換えれば、人工知能は、知能の実体を理解しようとし、人間の知能と類似した方式で反応できる新しい知能機械を生産しようとする、コンピュータ科学の総合技術である。人工知能は、機械に知覚、推理、意思決定の機能を持たせるように、様々な知能機械の設計原理及び実現方法を研究する。
【0051】
人工知能技術は、ハードウェア技術とソフトウェア技術の両方を含む幅広い分野を含む総合的な学科である。人工知能の基本技術に、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、操作/インタラクションシステム、メカトロニクス化などの技術が含まれる。人工知能ソフトウェア技術には、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などのいくつかの大きな方向が含まれる。
【0052】
本願の実施例によって提供される技術案は、人工知能の音声技術(Speech Technology)などの技術に関するものであり、音声技術の核心技術としては、自動音声識別技術(ASR:Automatic Speech Recognition)、音声合成技術(TTS:Text To Speech)、及び声紋識別技術(VPR:Voiceprint Recognition)がある。コンピュータが聞き、見て、話し、感じることができるようにすることは、未来のヒューマンマシンインタラクションの発展方向であり、その中で音声は未来で最も好まれるヒューマンマシンインタラクション方式の一つとなっている。
【0053】
下記において、図6に示すプロセスと図8に示すネットワークアーキテクチャ図を参照して詳細に説明する。前記音声処理方法は、具体的に以下のステップを含み得る。
【0054】
ステップS210において、コンピュータ機器は、訓練サンプルセットを取得する。
【0055】
本願の実施例によって提供される音声処理方法は、所定の強調ネットワークに対する訓練を含み、説明すべきこととして、所定の強調ネットワークに対する訓練は、取得した訓練サンプルデータセットに基づいて事前に行われてもよく、その後、通話音声の初期音声特徴に対して音声強調を行う必要があるたびに、訓練により得られた音声強調モデルを利用して、ノイズ及び残響を除去した目標音声特徴を計算することができ、音声強調を行うたびに、所定の強調ネットワークを再度訓練する必要がない。
【0056】
いくつかの実施例では、wsj0-2mix(Wall Street Journal)データセットを利用して訓練サンプルセットを決定することができ、前記wsj0-2mixデータセットには、30時間の音声訓練セット及び10時間の音声訓練セットが含まれている。対応するセットから異なる話者の音声をランダムに選択し、0dBと10dBとの間のランダムな相対信号対雑音比(SNR:Signal to Noise Ratio)で混合することにより、ネットワーク訓練に使用されるノイズ及び残響を有する音声を生成することができる。
【0057】
一実施形態として、前記コンピュータ機器が訓練サンプルセットを取得するステップは、以下のステップを含み得る。
(1)コンピュータ機器は、第1サンプル音声を取得する。
(2)コンピュータ機器は、第1サンプル音声に対して音声特徴抽出を行い、ノイズ音声特徴を得る。
(3)コンピュータ機器は、第2サンプル音声を取得する。
(4)コンピュータ機器は、第2サンプル音声に対して音声特徴抽出を行い、第1クリーン音声ラベル及び第2クリーン音声ラベルを得る。
(5)コンピュータ機器は、第1サンプル音声及び第2サンプル音声に基づいて、深度クラスタリング注釈を決定する。
【0058】
ここで、第1サンプル音声は、マイクに基づいて収集された、ノイズ及び残響を含む音声である。第2サンプル音声は、ノイズなし残響ありのクリーン音声、及びノイズなし残響なしのクリーン音声である。深度クラスタリング注釈は、各時間周波数点における第1サンプル音声及び第2サンプル音声の特徴の割合である。
【0059】
例示的に、コンピュータ機器は、ノイズ及び残響を含む通話音声をマイクによって直接収集することができ、例えば、ビデオ会議では、大画面会議端末のマイクによって収集された参加者の発言を第1サンプル音声とする。実際の訓練プロセスでは、技術者は既に構築されているノイズ低減訓練コーパスから第1サンプル音声を直接取得することができる。
【0060】
コンピュータ機器は、取得した第1サンプル音声に対して音声特徴抽出を行うことができる。図7を参照すると、図7は、音声特徴抽出のフローチャートであり、マイクによって収集された、ノイズ及び残響を含む通話音声、即ち、第1サンプル音声
【数1】
に対して、フレーム分割処理及びウィンドウィング処理をそれぞれ行い、マルチフレーム音声信号
【数2】
を得、
【数3】
であり、
【数4】
は総フレーム数であり、
【数5】
は時間領域空間を表し、
【数6】
は正の整数集合を表す。次に、コンピュータ機器は、各フレームの音声信号に対してFFTを行い、各フレームの音声信号を時間領域空間から周波数領域空間に変換して、対応する離散パワースペクトルを得、取得した離散パワースペクトルの対数を求め、対数パワースペクトル
【数7】
を得ることができ、
【数8】
は周波数領域空間を表し、すべてのマイクの特徴を繋ぎ合わせて最終的なノイズ音声特徴
【数9】
を得ることができる。いくつかの実施例では、ノイズ音声特徴に基づいてノイズ音声ラベル、即ち、
【数10】
をマークすることができ、ここで、
【数11】
は、それぞれ第1フレームから第nフレームの音声信号のFFT変換結果である。
【0061】
コンピュータ機器は、ノイズ低減訓練コーパスから参考となるクリーン音声を取得し、クリーン音声を第2サンプル音声とすることができる。所定の強調ネットワークに対する段階的訓練を容易にするために、ノイズなし残響ありのクリーン音声、及びノイズなし残響なしのクリーン音声を取得することができ、次に、ノイズなし残響ありのクリーン音声に対して音声特徴抽出を行い、第1クリーン音声ラベルを得、ノイズなし残響なしのクリーン音声に対して音声特徴抽出を行い、第2クリーン音声ラベル得る。計算プロセスでは、ノイズ音声ラベル
【数12】
、第1クリーン音声ラベル
【数13】
、及び第2クリーン音声ラベル
【数14】
の数学的表現は、特徴ベクトル(Embedding)であり、埋め込みベクトルとも称され、ここで、特徴ベクトルの長さは、特徴の次元である。
【0062】
一実施形態として、コンピュータ機器は、各時間周波数点における第1サンプル音声及び第2サンプル音声の音声エネルギーを比較することにより、深度クラスタリング注釈
【数15】
を決定することができる。音声信号は時間と共に変化するため、そのエネルギーも時間と共に変化する。そのため、デジタル化された音声信号のエネルギーを計算する際には、全体のエネルギーを計算するのではなく、フレームごとに各時間周波数点におけるエネルギーを計算する。例示的に、コンピュータ機器は、ノイズなし残響ありの音声とノイズ音声とのエネルギー比を、深度クラスタリング注釈としてもよいし、ノイズなし且つ残響なし音声とノイズ音声とのエネルギー比を、深度クラスタリング注釈としてもよい。前記深度クラスタリング注釈は、深度クラスタリング損失関数の計算に使用される。
【0063】
ステップS220において、コンピュータ機器は、所定の強調ネットワークを取得する。
【0064】
音声強調技術に関連する製品が産業的に実用化される場合、遅延、即ち、リアルタイム性が非常に厳しく要求されることを考慮すると、音声強調モデルのパラメータ量を可能な限り減らす必要があるが、その結果、モデルの音声強調の効果が大幅に低下する。このため、本願の実施例では、2レベルネットワークを1つのネットワークに融合することを提案し、これにより、音声強調モデルは、ノイズ低減及び残響除去を同時に行うことができ、モデルのパラメータ量を減らすことなく、依然として音声強調の効果を向上させることができる。
【0065】
図8を参照すると、図8は、所定の強調ネットワークのアーキテクチャの模式図である。前記所定の強調ネットワークは、隠れ層、深度クラスタリング(Deep Clustering)層、及びマスク推定層を含む。所定の強調ネットワークは、下位重みが共有され、多重出力されるネットワークであり、ここで、深度クラスタリング層は、音声マスク推定層及びノイズマスク推定層のマスク推定を支援することができ、これにより、音声マスク推定層及びノイズマスク推定層は、ネットワーク訓練のプロセスで音声内のノイズ及び残響を効果的に区別することができ、隠れ層は、LSTM又はBi-LSTMを利用することができる。図8に示す隠れ層はLSTMであり、マスク推定層は、音声マスク層(Clean-MI)とノイズマスク層(Noise-MI)とを含む。
【0066】
音声マスク推定層は、音声的マスク、即ち、クリーン音声ラベルを計算することができ、ノイズマスク推定層は、ノイズ及び残響のマスク、即ち、ノイズ音声ラベルを計算することができる。なお、適用プロセスでは、音声マスク推定から出力されるマスクを利用して音声を復元するだけでよいため、音声強調プロセスの計算量が増加せず、音声強調効率を向上させる。
【0067】
ステップS230において、コンピュータ機器は、所定の強調ネットワークが所定条件を満たすまで、訓練サンプルセットを介して前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行い、音声強調モデルとして訓練後の目標強調ネットワークを得る。
【0068】
訓練完了後に得られる目標強調ネットワーク、即ち、音声強調モデルは、ノイズ低減及び残響除去の2つの強調タスクを同時に行う必要があり、この2つの強調タスクを同時に訓練すると、所定の強調ネットワークの訓練は最適な訓練効果を達成できない。このため、2つのタスクの訓練プロセスを別々に行う段階的訓練方式を採用することができる。
【0069】
具体的には、本願の実施例は、2つの段階的訓練方法を提供する。例えば、ノイズ除去訓練を先に行ってから、残響除去訓練を行ってもよいし、残響除去訓練を先に行ってから、ノイズ除去訓練を行ってもよい。ここで、ノイズ除去訓練の目的は、ネットワークがノイズ低減の能力を備えさせることであり、残響除去訓練の目的は、ネットワークに残響除去の能力を備えさせることであり、これにより、2つの強調タスクは、独自の訓練プロセスで最適な訓練効果を達成することができ、それによって音声強調モデルの音声強調の性能を向上させることができる。
【0070】
いくつかの実施例では、前記コンピュータ機器は、所定の強調ネットワークが所定条件を満たすまで、訓練サンプルセットを介して前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、以下のステップを含み得る。
(1)コンピュータ機器は、ノイズ音声特徴を隠れ層に入力し、隠れ層を通じて中間訓練特徴を生成する。
(2)コンピュータ機器は、中間訓練特徴を深度クラスタリング層に入力し、深度クラスタリング層を通じてクラスタリング訓練注釈を生成する。
(3)コンピュータ機器は、中間訓練特徴を音声マスク推定層に入力し、音声マスク推定層を通じてクリーン音声訓練特徴を生成する。
(4)コンピュータ機器は、中間訓練特徴をノイズマスク推定層に入力し、ノイズマスク推定層を通じてノイズ音声訓練特徴を生成する。
(5)コンピュータ機器は、クリーン音声ラベル、ノイズ音声ラベル、深度クラスタリング注釈、クリーン音声訓練特徴、ノイズ音声訓練特徴、及びクラスタリング訓練注釈に基づいて、目標損失関数を構築し、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行う。
【0071】
ここで、中間訓練特徴は、所定の強調ネットワークの隠れ層から生成される中間値であり、1つの共有値として深度クラスタリング層、音声マスク推定層及びノイズマスク推定層にそれぞれ入力され、下位重み共有を達成してネットワークのパラメータ量を減らすことができる。音声マスク推定層及びノイズマスク推定層は、中間訓練特徴に基づいて、クリーン音声訓練特徴
【数16】
及びノイズ音声訓練特徴
【数17】
をそれぞれ対応付けて生成することができる。深度クラスタリング層は、中間訓練特徴に基づいて、クラスタリング訓練注釈
【数18】
を生成することができる。
【0072】
一実施形態として、前記コンピュータ機器は、クリーン音声ラベル、ノイズ音声ラベル、深度クラスタリング注釈、クリーン音声訓練特徴、ノイズ音声訓練特徴、及びクラスタリング訓練注釈に基づいて、目標損失関数を構築し、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、以下のステップを含み得る。
【0073】
(5.1)コンピュータ機器は、クラスタリング訓練注釈及び深度クラスタリング注釈に基づいて、第1損失関数を決定する。
【0074】
ここで、第1損失関数は、深度クラスタリング損失関数であり、例示的に、第1損失関数
【数19】
において、
【数20】
は、クラスタリング訓練注釈であり、
【数21】
は、深度クラスタリング注釈である。
【0075】
(5.2)コンピュータ機器は、クリーン音声訓練特徴及びクリーン音声ラベルに基づいて、第2損失関数を決定する。
【0076】
2つの段階的訓練方法について、異なるクリーン音声ラベルに基づいて、2つの異なる第2損失関数を決定することができる。
【0077】
いくつかの実施例では、コンピュータ機器は、クリーン音声訓練特徴
【数22】
及び第1クリーン音声ラベル
【数23】
に基づいて、ノイズ除去損失関数
【数24】
を決定し、ノイズ除去損失関数を第2損失関数
【数25】
とすることができる。
【0078】
いくつかの実施例では、コンピュータ機器は、クリーン音声訓練特徴
【数26】
及び第2クリーン音声ラベル
【数27】
に基づいて、ノイズ除去損失関数
【数28】
を決定し、ノイズ除去損失関数を第2損失関数
【数29】
とすることができる。
【0079】
(5.3)コンピュータ機器は、ノイズ音声訓練特徴及びノイズ音声ラベルに基づいて、第3損失関数を決定する。
【0080】
例示的に、第3損失関数
【数30】
において、
【数31】
はノイズ音声訓練特徴であり、
【数32】
はノイズ音声ラベルである。
【0081】
ここで、第2損失関数
【数33】
及び第3損失関数
【数34】
は、マスク推定損失関数である。
【0082】
(5.4)コンピュータ機器は、第1損失関数、第2損失関数、及び第3損失関数に基づいて、所定の強調ネットワークの目標損失関数を構築し、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行う。
【0083】
例示的に、コンピュータ機器は、第1損失関数
【数35】
、第2損失関数
【数36】
、及び第3損失関数
【数37】
に基づいて、所定の強調ネットワークの目標損失関数
【数38】
を構築することができ、上記の3つの損失関数のそれぞれに対応する重み付けパラメータを、上記の3つの損失関数に重み付け加算することができる。この処理は下記式の通りである。
【0084】
【数39】
【0085】
ここで、
【数40】
は、重み付けパラメータである。目標損失関数
【数41】
は、所定の強調ネットワークが所定条件を満たすまで、所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段的に行う。いくつかの実施例では、マルチタスク学習(Multi-Task Learning)に基づいて、所定の強調ネットワークを訓練することによって、深度クラスタリング損失関数とマスク推定損失関数とを組み合わせてノイズ低減及び残響除去の2つの強調タスクの学習を同時に行うことができ、2つのタスク間でパラメータを共有することにより、学習プロセス中に学習された情報を共有することができ、これにより、訓練により得られた目標強調ネットワークはより良い一般化(Generalization)効果を得ることができる。
【0086】
通常、ノイズとは、特定の状況下における「不要な音」、例えば、人の騒々しい声や様々な突発的な音などを指す。残響とは、室内の音源の発音が止まった後も、依然として存在する音響継続現象を指す。異なる適用シーンによって、音声強調に対するニーズ方向が異なること、例えば、多人数会場では、主に会議端末で収集された音声内のノイズを除去し、専門録音場所では主に録音設備で収集された音声内の残響を除去することを考慮すると、最終音声強調モデルに使用される実際のシーンに基づいて、異なる方式の段階的訓練を行うことができる。
【0087】
いくつかの実施例では、最終音声強調モデルに使用される実際のシーンに基づいて、適用シーン属性を取得し、適用シーン属性に基づいて、対応する分散型訓練ポリシを決定することができる。分散型訓練ポリシに基づいて、第1損失関数、第2損失関数、及び第3損失関数に基づいて、所定の強調ネットワークの目標損失関数を構築し、所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて、所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行う。
【0088】
ここで、適用シーン属性は、音声強調モデルが適用される実際のシーンを表すために使用され、例えば、ノイズ低減に重点を置いたシーン属性、残響除去に重点を置いたシーン属性である。分散型訓練ポリシは、第1分散型訓練ポリシ及び第2分散型訓練ポリシを含み、第1分散型訓練ポリシは、ノイズ低減に重点を置いたシーンに対して、ノイズ除去訓練を先に行ってから、残響除去訓練を行うために使用される。第2分散型訓練ポリシは、残響除去に重点を置いたシーンに対して、残響除去訓練を先に行ってから、ノイズ除去訓練を行うために使用される。
【0089】
一実施形態として、ノイズ除去を目的とした適用シーンでは、例えば、複数の参加者によるテレビ会議において、会議端末で収集された、発言者からの音声に加えて、他の発言者の音声も含まれ、会議端末で収集した通話音声に対してノイズ低減処理を行う必要があるため、ノイズ除去訓練を行ってから、残響除去訓練を行うことができる。コンピュータ機器は、第1分散型訓練ポリシに基づいて、第1損失関数、第2損失関数、及び第3損失関数に基づいて、所定の強調ネットワークの目標損失関数を決定することができ、前記第2損失関数は、ノイズ除去損失関数によって決定される。次に、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対してノイズ除去訓練を繰り返し、ノイズ除去ネットワークを得、前記ノイズ除去ネットワークは、ノイズ低減の役割のみを果たす。
【0090】
いくつかの実施例では、コンピュータ機器は、第1損失関数、第2損失関数、及び第3損失関数に基づいて、ノイズ除去ネットワークの目標損失関数を決定することができ、前記第2損失関数は、残響除去損失関数によって決定される。次に、ノイズ除去ネットワークが所定条件を満たすまで、目標損失関数に基づいて残響除去ネットワークに対してノイズ除去訓練を繰り返す。このように、個別のノイズ除去訓練を先に行うことで、残響要因による訓練プロセスへの干渉を回避することができ、それにより、生成された目標強調ネットワークは、より良いノイズ低減性能を有するようになる。
【0091】
別の実施形態として、残響を目的とした適用シーンでは、例えば、録音スタジオでは、音質に対する要求が高く、不要な残響を除去することが特に重要であるため、残響除去訓練を先に行ってから、ノイズ除去訓練を行うことができる。コンピュータ機器は、第2分散型訓練ポリシに基づいて、第1損失関数、第2損失関数、及び第3損失関数に基づいて、所定の強調ネットワークの目標損失関数を決定することができ、前記第2損失関数は、残響除去損失関数によって決定される。次に、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対して残響除去訓練を繰り返し、残響除去ネットワークを得、前記残響除去ネットワークは、残響除去の役割のみを果たす。
【0092】
いくつかの実施例では、コンピュータ機器は、第1損失関数、第2損失関数、及び第3損失関数に基づいて、残響除去ネットワークの目標損失関数を決定することができ、前記第2損失関数は、ノイズ除去損失関数によって決定される。次に、残響除去ネットワークが所定条件を満たすまで、目標損失関数に基づいて残響除去ネットワークに対してノイズ除去訓練を繰り返す。このように、個別の残響除去訓練を先に行うことで、ノイズ要因による訓練プロセスへの干渉を回避することができ、それにより、生成された目標強調ネットワークは、より良い残響除去性能を有するようになる。
【0093】
例えば、ノイズを正確に定義する場合、ノイズの概念には実質的に残響が含まれるため、音声強調モデルの適用シーンに特別な要求がない場合、所定の強調ネットワークに対してノイズ除去訓練を先に行ってから、残響除去訓練を行うことにより、優れたノイズ低減ネットワークの上に残響除去の能力を学習することができる。このようにして、2つの訓練プロセスはいずれも最適な訓練効果を達成することができ、音声強調モデルの音声強調の性能を向上させることができる。
【0094】
なお、所定条件は、目標損失関数の総損失値が所定値以下であること、目標損失関数の総損失値が変化しなくなること、又は訓練回数が所定回数に達することであり得る。例えば、オプティマイザを採用して目標損失関数を最適化することができ、実験経験に基づいて学習率、訓練時のバッチサイズ(batch size)訓練の周期(epoch)を設定することができる。
【0095】
理解可能なこととして、訓練サンプルデータセットに基づいて、訓練すべきネットワーク(所定の強調ネットワーク/ノイズ除去ネットワーク/残響除去ネットワーク)に対して複数周期の繰り返し訓練を行った後、ここで、各周期は複数回の繰り返し訓練を含み、訓練すべきネットワークのパラメータを最適化し続けると、上記の総損失値は小さくなり、最終的には1つの固定値まで小さくなるか、又は上記の所定値よりも小さくなり、この場合、訓練すべきネットワークが収束したことを表す。もちろん、訓練回数が所定回数に達した後、所定の強調ネットワーク/ノイズ除去ネットワーク/残響除去ネットワークが収束したことを決定することもできる。
【0096】
マルチタスク学習によって所定の強調ネットワークに対して行われる訓練では、深度クラスタリング損失とマスク推定損失との組み合わせを使用して訓練されるが、目標強調ネットワーク、即ち、音声強調モデル選択の検証過程でのみマスク推定損失を使用し、音声強調モデル実行時に、マスク推定分岐の出力を音声強調後のマスク、即ち、目標音声特徴として使用する。
【0097】
ステップS240において、コンピュータ機器は、通話音声の初期音声特徴を取得する。
【0098】
ステップS250において、コンピュータ機器は、初期音声特徴を隠れ層に入力し、隠れ層を通じて中間特徴を生成する。
【0099】
ステップS260において、コンピュータ機器は、中間特徴を音声マスク推定層に入力し、音声マスク推定層を通じてクリーン音声特徴を生成し、クリーン音声特徴を目標音声特徴とする。
【0100】
一実施形態として、コンピュータ機器は、通話音声を収集した後、前記通話音声に対して、フレーム分割処理、ウィンドウィング処理及びフーリエ変換を含む音声特徴抽出を行い、初期音声特徴を得ることができ、コンピュータ機器は、初期音声特徴を音声強調ネットワークの隠れ層に入力し、隠れ層を通じて中間特徴を生成することができ、コンピュータ機器は、中間特徴を音声マスク推定層に入力し、音声マスク推定層を通じてクリーン音声特徴を生成し、クリーン音声特徴を目標音声特徴とすることができる。
【0101】
ステップS270において、コンピュータ機器は、目標音声特徴に対して特徴逆変換を行い、ノイズ及び残響が除去された目標音声を計算する。
【0102】
一実施形態として、コンピュータ機器は、目標音声特徴を取得した後、目標音声特徴に対して特徴逆変換を行い、周波数領域空間の目標音声特徴(マスク)を時間領域空間の目標音声に変換することができる。いくつかの実施例では、特徴逆変換は、フーリエ逆変換であり得る。本願の実施例では、訓練サンプルセットを取得し、所定の強調ネットワークを取得し、所定の強調ネットワークが所定条件を満たすまで、訓練サンプルセットを介して前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行い、音声強調モデルとして訓練後の目標強調ネットワークを得、初期音声特徴を隠れ層に入力し、隠れ層を通じて中間特徴を生成し、中間特徴を音声マスク推定層に入力し、音声マスク推定層を通じてクリーン音声特徴を生成し、クリーン音声特徴を目標音声特徴とし、目標音声特徴に対して特徴逆変換を行い、ノイズ及び残響が除去された目標音声を計算することができる。これにより、音声強調モデルの音声マスク推定から出力される目標音声特徴を利用して音声を復元するだけで、音声強調プロセスの計算量の増加を回避し、音声強調効率を向上させる。
【0103】
図9を参照すると、図9は、本願の実施例による音声処理装置500のモジュールブロック図である。前記音声処理装置500は、取得モジュール510と、強調モジュール520と、計算モデル530と、を備え、取得モジュール510は、通話音声の初期音声特徴を取得するように構成され、強調モジュール520は、初期音声特徴を事前訓練された音声強調モデルに入力して、音声強調モデルから出力される目標音声特徴を得るように構成され、音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて段階的訓練によって得られ、計算モデル530は、目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算するように構成される。
【0104】
いくつかの実施例では、音声処理装置500は、サンプル取得モジュールと、ネットワーク取得モジュールと、モデル訓練モジュールと、をさらに備えることができる。前記サンプル取得モジュールは、訓練サンプルセットを取得するように構成され、訓練サンプルセットは、ノイズ音声特徴、クリーン音声ラベル、ノイズ音声ラベル、及び深度クラスタリング注釈を含み、前記ネットワーク取得モジュールは、所定の強調ネットワークを取得するように構成され、所定の強調ネットワークは、隠れ層、深度クラスタリング層、及びマスク推定層を含み、前記ネットワーク訓練モジュールは、所定の強調ネットワークが所定条件を満たすまで、訓練サンプルセットを介して前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行い、音声強調モデルとして訓練後の目標強調ネットワークを得るように構成される。
【0105】
いくつかの実施例では、マスク推定層は、音声マスク推定層及びノイズマスク推定層を含み、ネットワーク訓練モジュールは、隠蔽ユニットと、深度クラスタリングユニットと、音声推定ユニットと、ノイズ推定ユニットと、ネットワーク訓練ユニットと、を備えることができ、前記隠蔽ユニットは、ノイズ音声特徴を隠れ層に入力し、隠れ層を通じて中間訓練特徴を生成するように構成され、前記深度クラスタリングユニットは、中間訓練特徴を深度クラスタリング層に入力し、深度クラスタリング層を通じてクラスタリング訓練注釈を生成するように構成され、前記音声推定ユニットは、中間訓練特徴を音声マスク推定層に入力し、音声マスク推定層を通じてクリーン音声訓練特徴を生成するように構成され、前記ノイズ推定ユニットは、中間訓練特徴をノイズマスク推定層に入力し、ノイズマスク推定層を通じてノイズ音声訓練特徴を生成するように構成され、前記ネットワーク訓練ユニットは、クリーン音声ラベル、ノイズ音声ラベル、深度クラスタリング注釈、クリーン音声訓練特徴、ノイズ音声訓練特徴、及びクラスタリング訓練注釈に基づいて、目標損失関数を構築し、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うように構成される。
【0106】
いくつかの実施例では、ネットワーク訓練ユニットは、第1サブユニットと、第2サブユニットと、第3サブユニットと、訓練サブユニットと、を備え、前記第1サブユニットは、クラスタリング訓練注釈及び深度クラスタリング注釈に基づいて、第1損失関数を決定するように構成され、前記第2サブユニットは、クリーン音声訓練特徴及びクリーン音声ラベルに基づいて、第2損失関数を決定するように構成され、前記第3サブユニットは、ノイズ音声訓練特徴及びノイズ音声ラベルに基づいて、第3損失関数を決定するように構成され、前記訓練サブユニットは、第1損失関数、第2損失関数、及び第3損失関数に基づいて、所定の強調ネットワークの目標損失関数を構築し、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うように構成される。
【0107】
いくつかの実施例では、第2サブユニットは、具体的に、クリーン音声訓練特徴及び第1クリーン音声ラベルに基づいて、ノイズ除去損失関数を決定し、ノイズ除去損失関数を第2損失関数とするように構成され得、第1クリーン音声ラベルは、ノイズなし残響ありの音声に基づいて取得された音声ラベルである。
【0108】
いくつかの実施例では、第2サブユニットはさらに、具体的に、クリーン音声訓練特徴及び第2クリーン音声ラベルに基づいて、残響除去損失関数を決定し、残響除去損失関数を第2損失関数とするように構成され得、第2クリーン音声ラベルは、ノイズなし残響なしの音声に基づいて取得された音声ラベルである。
【0109】
いくつかの実施例では、訓練サブユニットは、具体的に、第1損失関数、第2損失関数、及び第3損失関数に基づいて、所定の強調ネットワークの目標損失関数を決定し、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対してノイズ除去訓練を繰り返し、ノイズ除去ネットワークを得るステップであって、第2損失関数は、ノイズ除去損失関数によって決定される、ステップと、第1損失関数、残響除去損失関数、及び第3損失関数に基づいて、ノイズ除去ネットワークの目標損失関数を決定し、ノイズ除去ネットワークが所定条件を満たすまで、目標損失関数に基づいてノイズ除去ネットワークに対して残響除去訓練を繰り返すステップであって、第2損失関数は、残響除去損失関数によって決定される、ステップと、を実行するように構成され得る。
【0110】
いくつかの実施例では、訓練サブユニットは、具体的に、第1損失関数、第2損失関数、及び第3損失関数に基づいて、所定の強調ネットワークの目標損失関数を決定し、所定の強調ネットワークが所定条件を満たすまで、目標損失関数に基づいて所定の強調ネットワークに対して残響除去訓練を繰り返し、残響除去ネットワークを得るステップであって、第2損失関数は、残響除去損失関数によって決定される、ステップと、第1損失関数、第2損失関数、及び第3損失関数に基づいて、残響除去ネットワークの目標損失関数を決定し、残響除去ネットワークが所定条件を満たすまで、目標損失関数に基づいて残響除去ネットワークに対してノイズ除去訓練を繰り返すステップであって、第2損失関数は、ノイズ除去損失関数によって決定される、ステップと、を実行するように構成され得る。
【0111】
いくつかの実施例では、サンプル取得モジュールは、具体的に、第1サンプル音声を取得するステップであって、第1サンプル音声は、マイクに基づいて収集された、ノイズを含む音声である、ステップと、第1サンプル音声に対して音声特徴抽出を行い、ノイズ音声特徴を得るステップと、第2サンプル音声を取得するステップであって、第2サンプル音声は、ノイズなし残響ありのクリーン音声及びノイズなし残響なしのクリーン音声を含む、ステップと、第2サンプル音声に対して音声特徴抽出を行い、第1クリーン音声ラベル及び第2クリーン音声ラベルを得るステップと、第1サンプル音声及び第2サンプル音声に基づいて、深度クラスタリング注釈を決定するステップと、を実行するように構成され得る。
【0112】
いくつかの実施例では、音声強調モデルは、隠れ層、深度クラスタリング層、音声マスク推定層、及びノイズマスク推定層を含み、強調モジュール520は、具体的に、初期音声特徴を隠れ層に入力し、隠れ層を通じて中間特徴を生成し、中間特徴を音声マスク推定層に入力し、音声マスク推定層を通じてクリーン音声特徴を生成し、クリーン音声特徴を目標音声特徴とするように構成され得、
計算モデル530は、具体的に、目標音声特徴に対して特徴逆変換を行い、ノイズ及び残響が除去された目標音声を計算するように構成され得る。
【0113】
当業者であれば、説明の便宜及び簡潔のために、上記の装置及びモジュールの具体的な動作プロセスについては、前述の方法の実施例における対応するプロセスを参照できることを明確に理解することができ、ここでは繰り返して説明しない。
【0114】
本願によって提供されるいくつかの実施例では、モジュール間の相互結合は、電気的、機械的又は他の形態であり得る。
【0115】
また、本願の各実施例における各機能モジュールは、1つの処理モジュールに統合されてもよいし、又は各ユニットが物理的に別々に存在してもよいし、2つ又は2つ以上のモジュールが1つのモジュールに統合されてもよい。上記統合されたモジュールは、ハードウェアの形で実現されてもよいし、ソフトウェア機能モジュールの形で実現されてもよい。
【0116】
本願によって提供される技術案では、通話音声の初期音声特徴を取得し、初期音声特徴を事前訓練された音声強調モデルに入力して、音声強調モデルから出力される目標音声特徴を得、前記音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られ、目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算することができる。このようにして、異なる損失関数を通じて事前設定された音声強調モデルに対してモデル訓練を行い、モデルが音声におけるノイズと残響を効率的に除去するように誘導し、モデル計算資源を低減しながら、音声強調の性能を向上させることができる。
【0117】
図10に示すように、本願の実施例は、コンピュータ機器600をさらに提供し、前記コンピュータ機器600は、プロセッサ610、メモリ620、電源630、及び入力ユニット640を含み、メモリ620にはコンピュータプログラム命令が記憶され、コンピュータプログラム命令は、プロセッサ610によって呼び出されると、上記の実施例によって提供される各種方法のステップを実行することができる。当業者であれば、図示されたコンピュータ機器の構造は、コンピュータ機器の限定を構成するものではなく、図示よりも多い又は少ないコンポーネントを含んでもよいし、又は特定のコンポーネントを組み合わせてもよいし、又は異なるコンポーネント配置を有してもよいことを理解することができる。
【0118】
プロセッサ610は、1つ又は複数の処理コアを含み得る。プロセッサ610は、各種インターフェース及び回線を使用してバッテリ管理システム全体の各部分を接続し、メモリ620に記憶された命令、プログラム、コードセット又は命令セットを実行し、メモリ620に記憶されたデータを呼び出すことによって、バッテリ管理システム全体の各種機能を実行し、データを処理し、コンピュータ機器の各種機能を実行し、データを処理することにより、コンピュータ機器を全体的に制御する。いくつかの実施例では、プロセッサ610は、デジタル信号プロセッサ(DSP:Digital Signal Processor)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、及びプログラマブルロジックアレイ(PLA:Programmable Logic Array)のうちの少なくとも1つのハードウェア形で実現され得る。プロセッサ610は、中央処理装置610(CPU:Central Processing Unit)、グラフィック処理ユニット610(GPU:Graphics Processing Unit)、及びモデムなどの1つ又は複数の組み合わせを統合することができる。ここで、CPUは、主にオペレーティングシステム、ユーザインターフェース、アプリケーションなどを処理し、GPUは、表示内容のレンダリングと描画を担当し、モデムは、無線通信を処理するために使用される。理解可能なこととして、上記モデムは、プロセッサ610に統合されず、1つの通信チップのみで単独で実現されてもよい。
【0119】
メモリ620は、ランダムアクセスメモリ620(RAM:Random Access Memory)を含んでもよいし、読み取り専用メモリ620(Read-Only Memory)を含んでもよい。メモリ620は、命令、プログラム、コード、コードセット、又は命令セットを記憶するように構成され得る。メモリ620は、ストレージプログラム領域とストレージデータ領域とを含み得、ここで、ストレージプログラム領域は、オペレーティングシステムを実現するための命令、少なくとも1つの機能を実現するための命令(例えば、タッチ機能、音声再生機能、画像再生機能など)、以下の各種方法の実施例を実現するための命令などを記憶することができる。ストレージデータ領域には、コンピュータ機器が使用中に作成したデータ(例えば、電話帳や音声ビデオデータ)なども記憶することができる。これに対応して、メモリ620は、プロセッサ610によるメモリ620へのアクセスを提供するためのメモリコントローラを含むこともできる。
【0120】
電源630は、電源管理システムを介してプロセッサ610と論理的に接続され、電源管理システムを介して充電、放電、及び消費電力の管理などの機能を実現することができる。電源630は、1つ又は複数の直流又は交流電源、再充電システム、電源障害検出回路、電源コンバータ又はインバータ、電源状態インジケータなどの任意のコンポーネントをさらに含み得る。
【0121】
入力ユニット640は、入力された数字又は文字情報を受信し、ユーザ設定及び機能制御に関連するキーボード、マウス、ジョイスティック、光学又はトラックボール信号入力を生成するように構成される。
【0122】
また、図示されていないが、コンピュータ機器600は、ディスプレイユニットなどをさらに含み得、ここでは繰り返して説明しない。具体的には、本願の実施例では、コンピュータ機器内のプロセッサ610は、以下の命令に従って、1つ又は複数のアプリケーションのプロセスに対応する実行可能ファイルをメモリ620にロードし、プロセッサ610は、メモリ620に記憶されたアプリケーションを実行することにより、上記の実施例によって提供される各種方法のステップを実現する。
【0123】
図11に示すように、本願の実施例は、コンピュータ可読記憶媒体700をさらに提供し、前記コンピュータ可読記憶媒体700には、コンピュータプログラム命令710が記憶され、コンピュータプログラム命令710は、プロセッサによって呼び出され、上記の実施例で説明された方法を実行することができる。
【0124】
コンピュータ可読記憶媒体は、フラッシュメモリ、電気的に消去可能なプログラマブル読み取り専用メモリ(EEPROM)、EPROM、ハードディスク、又はROMなどの電子メモリであり得る。いくつかの実施例では、コンピュータ可読記憶媒体は、不揮発性コンピュータ可読記憶媒体(Non-Transitory Computer-Readable Storage Medium)を含む。コンピュータ可読記憶媒体700は、上記の方法のいずれかの方法ステップを実行するためのプログラムコードのための記憶空間を有する。これらのプログラムコードは、1つ又は複数のコンピュータプログラム製品から読み出されてもよいし、1つ又は複数のコンピュータプログラム製品に書き込まれてもよい。プログラムコードは、例えば、適切な形式で圧縮さすることができる。
【0125】
本願の一態様によれば、コンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータプログラム製品又はコンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、プロセッサは前記コンピュータ命令を実行することにより、前記コンピュータ機器に上記の実施例によって提供される各種代替実施形態で提供される方法を実行させる。
【0126】
上記は、本願の好適な実施例に過ぎず、本願を限定することを意図するものではない。上述したように本願は好適な実施例で開示されているが、本願を限定するものではなく、当業者であれば、本願の技術的解決策の範囲から逸脱することなく、上記に開示された技術的内容を利用して、同等の変更又は修正を行うことができるが、本願の技術的解決策の内容から逸脱することなく、本願の技術的実質に基づいて上記の実施例に加えられた変更、修正は、依然として本願の技術的解決策の範囲内にある。
【符号の説明】
【0127】
300 音声処理システム
310 近端クライアント
330 遠端クライアント
350 サーバ側
410 クラウドサーバ
411 音声強調モデル
420 参加者
430 第1会議端末
450 第2会議端末
500 音声処理装置
510 取得モジュール
520 強調モジュール
530 計算モジュール
600 コンピュータ機器
610 プロセッサ
620 メモリ
630 電源
640 入力ユニット
700 コンピュータ可読記憶媒体
710 コンピュータプログラム命令
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
【手続補正書】
【提出日】2024-05-29
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0002
【補正方法】変更
【補正の内容】
【0002】
本願は、音声認識技術分野に関し、より具体的には、音声処理方法及びその装置、コンピュータ機器並びにプログラムに関するものである。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0005
【補正方法】変更
【補正の内容】
【0005】
本願の実施例は、音声処理方法及びその装置、コンピュータ機器並びにプログラムを提供し、音声強調の性能を向上させることを目的とする。
【手続補正4】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声処理方法であって、
通話音声の初期音声特徴を取得するステップと、
前記初期音声特徴を事前訓練された音声強調モデルに入力して、前記音声強調モデルから出力される目標音声特徴を得るステップであって、前記音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られる、ステップと、
前記目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算するステップと、を含む、音声処理方法。
【請求項2】
前記音声処理方法は、
以下の方式によって前記音声強調モデルを事前訓練するステップをさらに含み、前記方式は、
訓練サンプルセットを取得するステップであって、前記訓練サンプルセットは、ノイズ音声特徴、クリーン音声ラベル、ノイズ音声ラベル、及び深度クラスタリング注釈を含む、ステップと、
所定の強調ネットワークを取得するステップと、
前記所定の強調ネットワークが所定条件を満たすまで、前記訓練サンプルセットを介して前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行い、訓練後の目標強調ネットワークを前記音声強調モデルとして得るステップと、を含む、
請求項1に記載の音声処理方法。
【請求項3】
前記所定の強調ネットワークは、隠れ層、深度クラスタリング層、及びマスク推定層を含み、前記マスク推定層は、音声マスク推定層及びノイズマスク推定層を含み、前記所定の強調ネットワークが所定条件を満たすまで、前記訓練サンプルセットを介して前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
前記ノイズ音声特徴を前記隠れ層に入力し、前記隠れ層を通じて中間訓練特徴を生成するステップと、
前記中間訓練特徴を前記深度クラスタリング層に入力し、前記深度クラスタリング層を通じてクラスタリング訓練注釈を生成するステップと、
前記中間訓練特徴を前記音声マスク推定層に入力し、前記音声マスク推定層を通じてクリーン音声訓練特徴を生成するステップと、
前記中間訓練特徴を前記ノイズマスク推定層に入力し、前記ノイズマスク推定層を通じてノイズ音声訓練特徴を生成するステップと、
前記クリーン音声ラベル、前記ノイズ音声ラベル、前記深度クラスタリング注釈、前記クリーン音声訓練特徴、前記ノイズ音声訓練特徴、及び前記クラスタリング訓練注釈に基づいて、目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップと、を含む、
請求項2に記載の音声処理方法。
【請求項4】
前記クリーン音声ラベル、前記ノイズ音声ラベル、前記深度クラスタリング注釈、前記クリーン音声訓練特徴、前記ノイズ音声訓練特徴、及び前記クラスタリング訓練注釈に基づいて、目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
前記クラスタリング訓練注釈及び前記深度クラスタリング注釈に基づいて、第1損失関数を決定するステップと、
前記クリーン音声訓練特徴及び前記クリーン音声ラベルに基づいて、第2損失関数を決定するステップと、
前記ノイズ音声訓練特徴及び前記ノイズ音声ラベルに基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップと、を含む、
請求項3に記載の音声処理方法。
【請求項5】
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築するステップは、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数にそれぞれ対応する重み付けパラメータに基づいて、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に対して重み付け加算を行い、前記所定の強調ネットワークの目標損失関数を得るステップを含む、
請求項4に記載の音声処理方法。
【請求項6】
前記クリーン音声ラベルは、第1クリーン音声ラベルを含み、前記クリーン音声訓練特徴及び前記クリーン音声ラベルに基づいて、第2損失関数を決定するステップは、
前記クリーン音声訓練特徴及び前記第1クリーン音声ラベルに基づいて、ノイズ除去損失関数を決定するステップと、
前記ノイズ除去損失関数を第2損失関数とするステップであって、前記第1クリーン音声ラベルは、ノイズなし残響ありの音声に基づいて取得された音声ラベルである、ステップと、を含む、
請求項4に記載の音声処理方法。
【請求項7】
前記クリーン音声ラベルは、第2クリーン音声ラベルを含み、前記クリーン音声訓練特徴及び前記クリーン音声ラベルに基づいて、第2損失関数を決定するステップは、
前記クリーン音声訓練特徴及び前記第2クリーン音声ラベルに基づいて、残響除去損失関数を決定するステップと、
前記残響除去損失関数を第2損失関数とするステップであって、前記第2クリーン音声ラベルは、ノイズなし残響なしの音声に基づいて取得された音声ラベルである、ステップと、を含む、
請求項4に記載の音声処理方法。
【請求項8】
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
適用シーン属性を取得するステップと、
前記適用シーン属性に基づいて、対応する分散型訓練ポリシを決定するステップと、
前記分散型訓練ポリシに基づいて、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップと、を含む、
請求項5に記載の音声処理方法。
【請求項9】
前記分散型訓練ポリシは、第1分散型訓練ポリシを含み、前記分散型訓練ポリシに基づいて、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
前記分散型訓練ポリシが第1分散型訓練ポリシである場合、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を決定し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練を繰り返し、ノイズ除去ネットワークを得るステップであって、前記第2損失関数は、ノイズ除去損失関数によって決定される、ステップと、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記ノイズ除去ネットワークの目標損失関数を決定し、前記ノイズ除去ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記ノイズ除去ネットワークに対して残響除去訓練を繰り返すステップであって、前記第2損失関数は、残響除去損失関数によって決定される、ステップと、を含む、
請求項8に記載の音声処理方法。
【請求項10】
前記分散型訓練ポリシは、第2分散型訓練ポリシを含み、前記分散型訓練ポリシに基づいて、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を構築し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対してノイズ除去訓練及び残響除去訓練を段階的に行うステップは、
前記分散型訓練ポリシが第2分散型訓練ポリシである場合、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記所定の強調ネットワークの目標損失関数を決定し、前記所定の強調ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記所定の強調ネットワークに対して残響除去訓練を繰り返し、残響除去ネットワークを得るステップであって、前記第2損失関数は、残響除去損失関数によって決定される、ステップと、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記残響除去ネットワークの目標損失関数を決定し、前記残響除去ネットワークが所定条件を満たすまで、前記目標損失関数に基づいて前記残響除去ネットワークに対してノイズ除去訓練を繰り返すステップであって、前記第2損失関数は、ノイズ除去損失関数によって決定される、ステップと、を含む、
請求項8に記載の音声処理方法。
【請求項11】
前記訓練サンプルセットを取得するステップは、
第1サンプル音声を取得するステップであって、前記第1サンプル音声は、マイクに基づいて収集された、ノイズ及び残響を含む音声である、ステップと、
前記第1サンプル音声に対して音声特徴抽出を行い、ノイズ音声特徴を得るステップと、
第2サンプル音声を取得するステップであって、前記第2サンプル音声は、ノイズなし残響ありのクリーン音声及びノイズなし残響なしのクリーン音声を含む、ステップと、
前記第2サンプル音声に対して音声特徴抽出を行い、第1クリーン音声ラベル及び第2クリーン音声ラベルを得るステップと、
前記第1サンプル音声及び前記第2サンプル音声に基づいて、深度クラスタリング注釈を決定するステップと、を含む、
請求項2に記載の音声処理方法。
【請求項12】
前記所定条件は、
前記目標損失関数の総損失値が所定値以下であること、前記目標損失関数の総損失値が変化しなくなること、訓練回数が所定回数に達することのうちのいずれかを含む、
請求項3に記載の音声処理方法。
【請求項13】
前記音声強調モデルは、隠れ層、深度クラスタリング層、音声マスク推定層、及びノイズマスク推定層を含み、前記初期音声特徴を事前訓練された音声強調モデルに入力して、前記音声強調モデルから出力される目標音声特徴を得るステップは、
前記初期音声特徴を前記隠れ層に入力し、前記隠れ層を通じて中間特徴を生成するステップと、
前記中間特徴を前記音声マスク推定層に入力し、前記音声マスク推定層を通じてクリーン音声特徴を生成し、前記クリーン音声特徴を目標音声特徴とするステップと、を含み、
前記目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算するステップは、
前記目標音声特徴に対して特徴逆変換を行い、ノイズ及び残響が除去された目標音声を計算するステップを含む、
請求項1に記載の音声処理方法。
【請求項14】
音声処理装置であって、
通話音声の初期音声特徴を取得するように構成される取得モジュールと、
前記初期音声特徴を事前訓練された音声強調モデルに入力して、前記音声強調モデルから出力される目標音声特徴を得るように構成される強調モジュールであって、前記音声強調モデルは、深度クラスタリング損失関数及びマスク推定損失関数に基づいて行われる段階的訓練により得られる、強調モジュールと、
前記目標音声特徴に基づいて、ノイズ及び残響が除去された目標音声を計算する計算モデルと、を備える、音声処理装置。
【請求項15】
コンピュータ機器であって、
メモリと、
前記メモリに結合された1つ又は複数のプロセッサと、
前記メモリに記憶され、前記1つ又は複数のプロセッサによって実行されるように構成され、請求項1から13のいずれか一項に記載の方法を実行するように構成される、1つ又は複数のアプリケーションと、を備える、コンピュータ機器。
【請求項16】
ンピュータプログラムであって、
記コンピュータプログラムは、コンピュータ命令を含み、前記コンピュータ命令は、記憶媒体に記憶され、コンピュータ機器のプロセッサは、前記記憶媒体から前記コンピュータ命令を読み取って実行することにより、前記コンピュータ機器に、請求項1から13のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【国際調査報告】