特表2023-552090 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ　トラスティーズ　オブ　コロンビア　ユニバーシティ　イン　ザ　シティー　オブ　ニューヨークの特許一覧 ▶ ソフトバンクモバイル株式会社の特許一覧

特表2023-552090連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-12-14

(54)【発明の名称】連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法

(51)【国際特許分類】

G10L 21/0208 20130101AFI20231207BHJP

G10L 21/0216 20130101ALI20231207BHJP

G10L 21/0232 20130101ALI20231207BHJP

G10L 25/30 20130101ALI20231207BHJP

【ＦＩ】

G10L21/0208 100Z

G10L21/0216

G10L21/0232

G10L25/30

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023530195

(86)(22)【出願日】2021-07-20

(85)【翻訳文提出日】2023-05-18

(86)【国際出願番号】 JP2021027243

(87)【国際公開番号】W WO2022107393

(87)【国際公開日】2022-05-27

(31)【優先権主張番号】63/116,400

(32)【優先日】2020-11-20

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り令和２年１０月２２日に、「２０２０ＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ」にて、「ＡＮＥＵＲＡＬ－ＮＥＴＷＯＲＫ－ＢＡＳＥＤＡＰＰＲＯＡＣＨＦＯＲＳＰＥＥＣＨＤＥＮＯＩＳＩＮＧＳＴＡＴＥＭＥＮＴＲＥＧＡＲＤＩＮＧＦＥＤＥＲＡＬＬＹＳＰＯＮＳＯＲＥＤＲＥＳＥＡＲＣＨ」に関する研究（ＬｉｓｔｅｎｉｎｇｔｏＳｏｕｎｄｓＬｉｓｔｅｎｉｎｇｏｆＳｉｌｅｎｃｅｆｏｒＳｐｅｅｃｈＤｅｎｏｉｓｉｎｇ）について公開した。令和３年４月１０日に、「ＮＩＫＫＥＩＲｏｂｏｔｉｃｓ」の第１８頁～第２３頁にて、「ＡＮＥＵＲＡＬ－ＮＥＴＷＯＲＫ－ＢＡＳＥＤＡＰＰＲＯＡＣＨＦＯＲＳＰＥＥＣＨＤＥＮＯＩＳＩＮＧＳＴＡＴＥＭＥＮＴＲＥＧＡＲＤＩＮＧＦＥＤＥＲＡＬＬＹＳＰＯＮＳＯＲＥＤＲＥＳＥＡＲＣＨ」に関する研究について公開した。

(71)【出願人】

【識別番号】507247232

【氏名又は名称】ザトラスティーズオブコロンビアユニバーシティインザシティーオブニューヨーク

(71)【出願人】

【識別番号】501440684

【氏名又は名称】ソフトバンク株式会社

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】チャンシゼン

(72)【発明者】

【氏名】ルイリンズー

(72)【発明者】

【氏名】ルンディウー

(72)【発明者】

【氏名】カールボンドリック

(72)【発明者】

【氏名】石若裕子

(57)【要約】

方法、システム、デバイス、及び他の実装形態が開示され、オーディオ信号表現を受信し、第１の学習モデルを利用して、低減されたフォアグラウンドの音レベルの１つ又は複数の無音インターバルを、受信したオーディオ信号表現において検出し、検出された１つ又は複数の無音インターバルに基づいて、オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定し、第２の学習モデルを用いて、受信したオーディオ信号表現及び判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成することを含む方法を含む。

【特許請求の範囲】

【請求項1】

オーディオ信号表現を受信する段階；
第１の学習モデルを利用して、フォアグラウンドの音レベルが低減された１つ又は複数の無音インターバルを、前記受信したオーディオ信号表現において検出する段階；
前記検出された１つ又は複数の無音インターバルに基づいて、前記オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定する段階；及び
第２の学習モデルを用いて、前記受信したオーディオ信号表現及び前記判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成する段階
を備える方法。

【請求項2】

前記第１の学習モデルを利用して前記１つ又は複数の無音インターバルを検出する段階は：
前記オーディオ信号表現を複数のセグメントに分割する段階、各セグメントは、前記受信したオーディオ信号表現のインターバルの長さより短い；
前記複数のセグメントを時間周波数表現に変換する段階；及び
第１の学習機を利用して前記複数のセグメントの前記時間周波数表現を処理して、前記第１の学習モデルを実施して、前記複数のセグメントの各々に関して、前記複数のセグメントの各々１つが無音インターバルである尤度を表す信頼値を含むノイズベクトルを生成する段階を含む、請求項１に記載の方法。

【請求項3】

前記時間周波数表現を処理する段階は：
前記複数のセグメントの前記時間周波数表現を２Ｄ畳み込みエンコーダでエンコードして、２Ｄ特徴マップを生成する段階；
無音ベクトルを生成するために、少なくとも双方向性の長短期記憶（ＬＳＴＭ）構造を含む学習ネットワーク構造を前記２Ｄ特徴マップに適用する段階；
前記無音ベクトルからノイズマスクを判定する段階；及び
前記オーディオ信号表現及び前記ノイズマスクに基づいて、前記オーディオ信号表現の部分的なノイズプロファイルを生成する段階を含む、請求項２に記載の方法。

【請求項4】

前記推定されるフルノイズプロファイルを判定する段階は：
前記検出された１つ又は複数の無音インターバルの時間周波数の特徴を表す部分的なノイズプロファイルを生成する段階；
前記オーディオ信号表現と前記部分的なノイズプロファイルをそれぞれの時間周波数表現に変換する段階；
畳み込みエンコードを前記オーディオ信号表現及び前記部分的なノイズプロファイルの時間周波数表現に適用して、エンコードされたオーディオ信号表現及びエンコードされた部分的なノイズプロファイルを生成する段階；及び
前記エンコードされたオーディオ信号表現及び前記エンコードされた部分的なノイズプロファイルを組み合わせて、前記推定されるフルノイズプロファイルを生成する段階を含む、請求項１から３のいずれか一項に記載の方法。

【請求項5】

前記低減されたノイズレベルを有する、前記結果として得られるオーディオ信号表現を生成する段階は：
前記オーディオ信号表現及び前記推定されるフルノイズプロファイルの時間周波数表現を生成する段階；及び
前記第２の学習モデルを前記オーディオ信号表現及び前記推定されるフルノイズプロファイルの前記時間周波数表現に適用して、前記結果として得られるオーディオ信号表現を生成する段階を含む、請求項１から４のいずれか一項に記載の方法。

【請求項6】

前記第２の学習モデルは、双方向性の長短期記憶（ＬＳＴＭ）構造で実装される、請求項５に記載の方法。

【請求項7】

請求項１から６のいずれか一項に記載の方法をコンピュータに実行させるためのプログラム。

【請求項8】

オーディオ信号表現を受信する受信器ユニット；及び
プログラム可能命令を格納するために前記受信器ユニット及びメモリデバイスと通信して、１つ又は複数の学習エンジンを実装することで：
第１の学習モデルを利用して、フォアグラウンドの音レベルが低減された１つ又は複数の無音インターバルを、前記受信したオーディオ信号表現において検出すること；
前記検出された１つ又は複数の無音インターバルに基づいて、前記オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定すること；及び
第２の学習モデルを用いて、前記受信したオーディオ信号表現及び前記判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成すること
を行うコントローラ
を備えるシステム。

【請求項9】

オーディオ信号表現を受信し；
第１の学習モデルを利用して、低減されたフォアグラウンドの音レベルを有する１つ又は複数の無音インターバルを、前記受信したオーディオ信号表現において検出すること；
前記検出された１つ又は複数の無音インターバルに基づいて、前記オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定すること；及び
第２の学習モデルを用いて、前記受信したオーディオ信号表現及び前記判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成すること
を行うために、少なくとも１つのプログラム可能デバイス上で実行可能な命令のセットを格納する非一時的コンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、米国国立科学財団（ＮＦＳ）によって付与された助成金番号１９１０８３９、１４５３１０１、及び１８５００６９、及び国防高等研究計画局（ＤＡＲＰＡ）が運営するＫｎｏｗｌｅｄｇｅ－ｄｉｒｅｃｔｅｄＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＲｅａｓｏｎｉｎｇＯｖｅｒＳｃｈｅｍａｓ（ＫＡＩＲＯＳ）のプログラムによって付与された契約に基づく政府の支援により作成された。政府は、本発明に一定の権利を有する。

【背景技術】

【0002】

人間の音声の録音は、多くの場合様々なソースからのノイズで汚染されている。録音での一部のノイズは定常である場合があるが、他のノイズは録音している間周波数及び振幅において変動し得る。非定常ノイズと呼ばれるこの後者のノイズは、録音から除去するのが困難である。

【図面の簡単な説明】

【0003】

図中のコンポーネントは、必ずしも原寸に比例しているとは限らず、むしろ、発明の原理を示すことに重きを置いている。同様の参照番号は、異なる図を通じて対応する部分を指定する。添付図面の図において、実施形態は例として示されており、限定ではない。

【図1】ネットワーク構成。

【図2】時間の経過を伴う無音インターバル。

【図3】中間及び最終的な結果の例

【図4】ノイズギャラリー

【図5】定量比較

【図6】入力されたＳＮＲに関するノイズ除去の質。

【図7】異なるＳＮＲレベルに基づいて構築されたノイズの多いオーディオ

【図8】異なる入力されたＳＮＲでのノイズ除去の質

【図9】無音インターバル検出の例

【発明を実施するための形態】

【0004】

モノチャネルオーディオのみ与えられた自動音声ノイズ除去のためのモデルを学習するための音声における豊富な無音インターバルを活用する音声ノイズ除去の枠組みで対象とされる、システム、方法、及び他の実装形態（ハードウェア、ソフトウエア、及びハイブリッドのハードウェア／ソフトウエアの実装を含む）が開示される。本明細書に記載されている実装は、無音インターバルを緻密に統合し、それにより古典的な手法の限定の多数を克服する音声ノイズ除去手法用のディープニューラルネットワークに基づく。目標は、単一の無音インターバルを特定するのみでなく、時間の経過に伴い可能な無音インターバルを極力多数見出すことである。実際、音声における無音インターバルは、存在量であるように見える：心理言語学的研究は、各々の文の後、及びさらには発話における各単語の後、ほぼ常に中断があることを示す。各々の中断は、いかに短くても、時間においてローカルな無音インターバル明示ノイズ特徴を設ける。総じてこれらの無音インターバルは、背景のノイズの時変画像を組み入れ、非定常ノイズの存在下でさえあっても、ニューラルネットワークのより優れたノイズ除去の音声信号を可能にする。

【0005】

本明細書に記載されている技術は、確実に声の録音のノイズ除去をする長短期記憶（ＬＳＴＭ）構造に基づくニューラルネットワーク構成を利用する（他の学習機構成/構造もまた利用できる）。そうするために、ＬＳＴＭは、無音インターバルと呼ばれる音声における断続的なギャップから取得されるノイズについて訓練され、これは自動的に録音において特定していく。無音インターバルは、定常及び非定常ノイズの組み合わせを含み、そのためこれらの無音インターバルの間のノイズのスペクトラム分布は、ノイズ除去の際に利用され得る。ＬＳＴＭは、声のインターバルで定常及び非定常スペクトラムを除去し、ロバストにノイズ除去された高い質の音声の録音をもたらすことができる。この技術はまた、録音、フィルム作成、及び音声をテキスト化するアプリケーションで適用可能である。

【0006】

ニューラルネットワークを、確立されたノイズ除去のパイプラインと交互配置すべく、ネットワーク構成が提案され、それは３つの主なコンポーネント（図１に示される）：ｉ）無音インターバル検出専用のコンポーネント、ｉｉ）コンピュータビジョンのインペインティングプロセスに類似している、無音インターバルで明示されるものからフルノイズを推定する別のコンポーネント、及びｉｉｉ）入力信号をクリーンアップさせる別のコンポーネントを含む。

【0007】

より詳細には無音インターバル検出のコンポーネントは、入力信号において無音インターバルを検出するように構成される。このコンポーネントへの入力は、入力される（ノイズの多い）信号ｘのスペクトログラムである。スペクトログラムＳ_ｘは、第１に、２Ｄ畳み込みエンコーダによって２Ｄ特徴マップにエンコードされ、さらに、双方向性のＬＳＴＭにより処理され、２つの全結合（ＦＣ）層が続く。双方向性のＬＳＴＭは、スペクトログラムの結果生じる時系列の特徴の処理に適したものであり、ＦＣ層は、可変の長さの入力に適応するよう各タイムサンプルの特徴を適用されるものである。このネットワーク構成要素からの出力は、ベクトルD（Ｓ_ｘ）である。Ｄ（Ｓ_ｘ）の各要素は、［０，１］のスカラ（Ｓｉｇｍｏｉｄ関数の適用後）であり、無音である小さい時間区分の信頼度スコアを示す。いくつかの例において、各時間区分は、１／３０秒の持続期間を有し、それは短い音声中断を捉えるには十分小さく、ロバスト予測を可能にするには十分大きい。出力されるベクトルＤ（Ｓ_ｘ）はその後、ｍ（ｘ）と示されるより長いマスクに、拡大される。このマスクの各要素は、純然たるノイズとして入力信号ｘの各サンプルを分類する信頼度を示す。このマスクで、無音インターバルに晒される

【数1】

は、要素ごとの積により推定される、すなわち

【数2】

である。

【0008】

ノイズ推定コンポーネント／モジュールにおいて、無音インターバル検出から結果として得られる

【数3】

は、一連の時間枠を通してのみ晒されるノイズプロファイルであるが、ノイズの完全な画像ではない。しかしながら、入力信号がクリーンな音声信号及びノイズの重畳であるため、完全なノイズプロファイルを有することは、特に非定常ノイズの存在下で、ノイズ除去の処理を容易にする。したがって、時間の経過と共に全体のノイズプロファイルが推定され、それはいくつかの実装において、ニューラルネットワークを利用して実現される。このコンポーネントへの入力は、ノイズの多いオーディオ信号表現ｘ及び

【数4】

の両方を含む。両者共、ＳＴＦＴによって、

【数5】

とそれぞれ示されるスペクトログラムに変換される。スペクトログラムは、２Ｄ画像とみなし得る。スペクトログラムの隣接する時間・周波数ピクセルは、多くの場合相関させて、ここでの目標はコンピュータビジョンにおける画像インペインティングタスクに概念的に類似している。この目的に対し、

【数6】

は２つの個々の２Ｄ畳み込みエンコーダにより２つの特徴マップにエンコードされる。特徴マップはその後、チャネルごとの方式で連結され、

【数7】

と示されるフルノイズスペクトログラムを推定すべく畳み込みデコーダによりさらにデコードされる。

【0009】

最後に、入力信号ｘからのノイズは、ノイズを除去するコンポーネント／モジュールを利用してクリーンアップされる。ニューラルネットワークＲは、入力として、入力音声スペクトログラムＳ_ｘ、及び推定されるフルノイズスペクトログラム

【数8】

の両方を受信する。２つの入力されたスペクトログラムは、個々に、それ自体の２Ｄ畳み込みエンコーダにより処理される。２つのエンコードされた特徴マップは、その後、双方向性のＬＳＴＭにパスする前に、共に連結され、３つの十分に接続された層が続く。このコンポーネントの出力は、２個のチャネルを有するベクトルで、それは周波数時間領域に複素比率マスク

【数9】

の実数部と虚数部を形成する。換言すると、マスクｃは、Ｓ_ｘと同じ（時間及び周波数）次元を有する。最終的な段階で、ノイズ除去スペクトログラム

【数10】

は、入力音声スペクトログラムＳ_ｘ及びマスク

【数11】

の要素ごとの乗算を通して計算される。最終的に、クリーンアップされたオーディオ信号表現は、

【数12】

に対する逆のＳＴＦＴ（ＩＳＴＦＴ）を適用することによって取得される。

【0010】

全段階に劣勾配が存在しているので、いくつかの実施形態で、ネットワークは、確率的勾配降下手法でエンドツーエンドの様式にて訓練され得る。続く損失関数が最適化される：

【数13】

ここで、表記

【数14】

が上に定義されるものであり、

【数15】

はそれぞれグラウンドトゥルースフォアグラウンド信号及び背景のノイズのスペクトログラムを示す。第１項は、推定されるノイズ及びグラウンドトゥルースノイズの間の不一致にペナルティを課すが、第２項はフォアグラウンド信号の推定を担う。これら２つの項はスカラβ（いくつかの例でβ＝１．０）により平衡にされる。

【0011】

尤もらしいノイズ除去の結果を生成するが、エンドツーエンドの訓練プロセスは、無音インターバル検出の監視がない：損失関数のみがノイズ及びクリーンな音声信号の回復を担う。しかしながら、幾分驚くべきことに、無音インターバルを検出する能力は、第１のネットワークコンポーネントの出力として自動的に生み出される。換言すると、ネットワークは、この監視なしで音声ノイズ除去の無音インターバルを検出するため自動的に学習する。

【0012】

モデルがそれ自体の無音インターバルを検出するべく学習しているとき、無音の検出が直接監視され得て、さらに、ノイズ除去の質を改良できる。その目的に対し、項は検出された無音インターバル及びそれらのグラウンドトゥルース間の不一致にペナルティを課す、上記の損失関数を追加し得る。実験は、この方法は有効ではないが、それに代えてモデルは２つの連続的な段階で訓練されるということを示した。第１に、無音インターバル検出のコンポーネントは、続く損失関数を通して計算される：

【数16】

式中ｌ_ＢＣＥはバイナリクロスエントロピー損失であり、ｍ（ｘ）は無音インターバル検出のコンポーネントの結果生じるマスクであり、

【数17】

は、無音又はそうではない個々の信号サンプルのグラウンドトゥルースのラベルである。

【0013】

次に、ノイズ推定及び除去コンポーネントが、損失関数Ｌ_０により訓練される。この訓練段階は、無音検出コンポーネントを無視することにより開始する。損失関数Ｌ_０において、推定される無音インターバルに晒されたノイズのスペクトログラムである

【数18】

の利用に代えて、グラウンドトゥルースの無音インターバル

【数19】

により晒されるノイズのスペクトログラムが利用される。このような損失関数を利用し訓練した後、ネットワーク構成要素は、訓練済みの無音インターバル検出コンポーネントを組み込むことにより微調整される。無音インターバル検出のコンポーネントが固定され、この微調整段階は、元の損失関数Ｌ_０を最適化し、それによりノイズ推定の重み及び除去コンポーネントを更新する。

【0014】

そうして、いくつかの実施形態で、システムが提供され、オーディオ信号表現を受信する受信器ユニット（例えば、マイク、オーディオ／音の電子信号表現を受信する通信モジュールなど）、及び１つ又は複数の学習エンジンを実装し、受信器ユニット及びプログラム可能命令を格納するメモリデバイスと通信して、第１の学習モデルを利用して、フォアグラウンドの音レベルが低減された１つ又は複数の無音インターバルを、受信したオーディオ信号表現において検出し、検出された１つ又は複数の無音インターバルに基づいて、オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定し、第２の学習モデルを用いて、受信したオーディオ信号表現及び判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成するコントローラ（例えば、プログラム可能デバイス）を含む。いくつかの実装では、非一時的コンピュータ可読媒体が提供され、それはオーディオ信号表現を受信し、第１の学習モデルを利用して、低減されたフォアグラウンドの音レベルの１つ又は複数の無音インターバルを、受信したオーディオ信号表現において検出し、検出された１つ又は複数の無音インターバルに基づいて、オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定し、第２の学習モデルを用いて、受信したオーディオ信号表現及び判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成するための、少なくとも１つのプログラム可能デバイス上で実行可能な命令のセットを格納する。

【0015】

いくつかの実装では、方法が提供され、それはオーディオ信号表現を受信する段階、第１の学習モデルを利用して、低減されたフォアグラウンドの音レベルの１つ又は複数の無音インターバルを、受信したオーディオ信号表現において検出する段階、検出された１つ又は複数の無音インターバルに基づいて、オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定する段階、及び第２の学習モデルを用いて、受信したオーディオ信号表現及び判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成する段階を含む。

【0016】

いくつかの例において、第１の学習モデルを利用して１つ又は複数の無音インターバルを検出することが、オーディオ信号表現を複数のセグメントに分割すること、各セグメントは、受信したオーディオ信号表現のインターバルの長さより短い、複数のセグメントを時間周波数表現に変換すること、及び第１の学習モデルを実施して、第１の学習機を利用して複数のセグメントの時間周波数表現を処理して、複数のセグメントの各々に関して、複数のセグメントの各々１つが無音インターバルである尤度の信頼値の表現を含むノイズベクトルを生成することを含むことができる。このような例で、時間周波数表現を処理することは、２Ｄ特徴マップを生成すべく２Ｄ畳み込みエンコーダで複数のセグメントの時間周波数表現をエンコードすること、少なくとも双方向性の長短期記憶（ＬＳＴＭ）構造を備える学習ネットワーク構造を２Ｄ特徴マップに適用して無音ベクトルを生成すること、無音ベクトルからのノイズマスクを判定すること、及びオーディオ信号表現及びノイズマスクに基づいてオーディオ信号表現用の部分的なノイズプロファイルを生成することを含むことができる。

【0017】

いくつかの実施形態で、推定されるフルノイズプロファイルを判定することは、検出された１つ又は複数の無音インターバルの時間周波数の特徴を表す部分的なノイズプロファイルを生成すること、オーディオ信号表現及び部分的なノイズプロファイルをそれぞれの時間周波数表現に変換すること、畳み込みエンコードをオーディオ信号表現の時間周波数表現及び部分的なノイズプロファイルに適用し、エンコードされたオーディオ信号表現及びエンコードされた部分的なノイズプロファイルを生成すること、及びエンコードされたオーディオ信号表現及びエンコードされた部分的なノイズプロファイルを組み合わせて、推定されるフルノイズプロファイルを生成することを含むことができる。いくつかの例において、結果として得られる低減されたノイズレベルを有するオーディオ信号表現を生成することは、オーディオ信号表現及び推定されるフルノイズプロファイルの時間周波数表現を生成すること、及び第２の学習モデルをオーディオ信号表現及び推定されるフルノイズプロファイルの時間周波数表現に適用して、結果として得られるオーディオ信号表現を生成することを含むことができる。第２の学習モデルは、双方向性の長短期記憶（ＬＳＴＭ）構造により実施され得る。

【0018】

記されているように、本明細書に記載されているノイズ除去処理の実装は、１又は複数の学習機（ニューラルネットワークなど）を利用して、実現され得る。ニューラルネットワークは一般に、線形変換の複数の層から構成され（「重み」のマトリックスによる乗算）、各々は非線形関数（例えば、修正された線形活性化関数、又はＲｅＬＵ、など）が続く。線形変換は、最終的な分類タスク（又はその他のタイプの所望の出力）により役立つ変換を徐々に行う重みマトリックスに小さな変更を加えることによって、訓練中に学習される。層状のネットワークは、畳み込み処理を含み得、層間の情報共有を向上させる層間の中間的な接続と共に、プール処理が続く。利用できる学習エンジン手法／構成のいくつかの例は、自動のエンコーダを生成すること、及びネットワークの高密度層を利用して、サポートベクターマシンを介して将来のイベントの確率と相関させるか、又は、入力データから特定の出力を予測する回帰又は分類ニューラルネットワークモデルを構築することを含む（同様の入力及び予測される出力の間の相関関係が反映する訓練に基づく）。

【0019】

ニューラルネットワークの例は、畳み込みニューラルネットワーク（ＣＮＮ）、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク（ＲＮＮ、例えば長短期記憶（ＬＳＴＭ）構造を利用して実装されたもの）などを含む。フィードフォワードネットワークは、入力データの１又は複数の部分に接続する学習ノード／要素の１又は複数の層を含む。フィードフォワードネットワークにおいて、入力及び学習要素の層の接続は、入力データ及び中間データがネットワークの出力に向かって順方向に伝播するようなものになる。典型的には、フィードフォワードネットワークの構成／構造においてフィードバックループ又はサイクルは存在しない。畳み込みレイヤーは、ネットワークが、同じ学習された変形をデータの細別に適用することによって、特徴を効率よく学習することを可能にする。いくつかの実施形態で、学習機の利用を通して実施される様々な学習プロセスは、ｋｅｒａｓ（オープンソースのニューラルネットワークライブラリ）構築ブロック及び／又はＮｕｍＰｙ（アレイを処理するモジュールを実現するのに有用なオープンソースのプログラミングライブラリ）構築ブロックを利用することを実現できる。

【0020】

いくつかの実施形態で、様々な学習エンジンの実装は、訓練された学習エンジン（例えば、ニューラルネットワーク）及び所望の出力を生成するであろう学習エンジンのパラメータ（例えばニューラルネットワークの重み）を判定及び／又は適合させるように構成された、対応する結合される学習エンジンのコントローラ／アダプタを含み得る。このような実装において、訓練データは、入力される訓練レコードのためのグラウンドトゥルースを定める対応するデータと共に入力レコードのセットを含む。本明細書に記載のシステムを含む様々な学習エンジンの初期の訓練の後に、後続の訓練が断続的に（定期的又は不定期に）実行される場合がある。特定の学習エンジンに結合されるアダプタ／コントローラによる訓練サイクルが完了すると、アダプタは更新／変更のデータ代表例（例えばニューラルネットワークベースの学習エンジンのリンクに割り当てられるパラメータの値／重みの形態で）を特定の学習エンジンに提供し、学習エンジンを、完了した訓練サイクルに応じて更新させる。

【0021】

本明細書に記載の様々な技術及び操作を実行することは、音声通信デバイス（補聴器デバイスなど）の一部として実現され得るコントローラデバイス（例えば、プロセッサベースのコンピューティングデバイス）によって促進され得る。このようなコントローラデバイスは、典型的には中央処理装置又は処理コアを含むコンピューティングデバイスなどのようなプロセッサベースデバイスを含み得る。デバイスはまた、ＣＰＵ又は処理コアの一部であり得る１又は複数の専用の学習機（例えば、ニューラルネットワーク）を含み得る。ＣＰＵに加えて、システムは主要メモリ、キャッシュメモリ、及びバスインターフェース回路を含む。コントローラデバイスは、ハードドライブ（ソリッドステートハードドライブ、又は他のタイプのハードドライブ）、又はコンピュータシステムに関連付けられたフラッシュドライブなどのマスストレージ要素を含み得る。コントローラデバイスは、さらに、キーボード、又はキーパッド、又は何らかのその他のユーザ入力インターフェイス、及びモニタ、例えばユーザがそれらにアクセスできる場所に配置できるＬＣＤ（液晶ディスプレイ）モニタなどを含み得る。

【0022】

コントローラデバイスは、例えばノイズ除去処理の実施を促進するように構成される。ストレージデバイスは、そのため、コントローラデバイスにおいて実行されるときに（記されているように、プログラム可能又はプロセッサベースデバイスであってよい）、プロセッサベースデバイスに対して、本明細書に記載の手順及び操作の実施を促進する操作を実行させるコンピュータプログラム製品を含み得る。コントローラデバイスは、さらに、入力／出力の機能を可能にする周辺デバイスを含み得る。そのような周辺デバイスは、接続されているシステムへの関連する内容のダウンロードのために、例えば、フラッシュドライブ（例えば取り外し可能なフラッシュドライブ）、又はネットワーク接続（例えばＵＳＢポート及び／又はワイヤレストランシーバーを利用して実装される）を含み得る。そのような周辺デバイスはまた、個々のシステム／デバイスの一般的な操作を可能にするコンピュータ命令を含むソフトウエアをダウンロードするために利用できる。あるいは、及び／又はさらに、いくつかの実施形態では、専用論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＩＣ（特定用途向け集積回路）、ＤＳＰプロセッサ、グラフィック処理ユニット（ＧＰＵ）、加速処理ユニット（ＡＰＵ）、アプリケーション処理ユニットなどは、コントローラデバイスの実装で利用できる。コントローラデバイスと共に含まれ得る他のモジュールは、入力及び出力データを提供又は受信するためのユーザインターフェースを含み得る。さらに、いくつかの実施形態で、マイク、ライトキャプチャーデバイス（例えば、ＣＭＯＳベース又はＣＣＤベースのカメラデバイス）、他のタイプの光学式又は電磁式センサ、環境状況測定用センサなどのようなセンサデバイスが、コントローラデバイスに結合でき、処理される信号又はデータを観察又は測定するように構成され得る。コントローラデバイスは、操作システムを含み得る。

【0023】

コンピュータプログラム（プログラム、ソフトウエア、ソフトウエアアプリケーション又はコードとしても公知）は、プログラマブルプロセッサ用の機械命令を含み、高水準の手続き型及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械語において実装され得る。本明細書で利用される場合、「機械可読媒体」という用語は、機械可読信号として機械命令を受信する非一時的機械可読媒体を含む、プログラマブルプロセッサへの機械命令及び／又はデータを提供するために利用される、いずれかの非一時的なコンピュータプログラム製品、装置及び／又はデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラム可能ロジックデバイス（ＰＬＤ））を示す。

【0024】

いくつかの実施形態で、いずれかの適したコンピュータ可読媒体が、本明細書に記載の処理／操作／手順を実行するための命令を格納するために利用できる。例えば、いくつかの実施形態では、コンピュータ可読媒体は、一時的又は非一時的であり得る。例えば、非一時的コンピュータ可読媒体は、磁気媒体（ハードディスク、フロッピディスクなどのようなもの）、光学媒体（コンパクトディスク、デジタルビデオディスク、ブルーレイディスクなどのようなもの）、半導体媒体（フラッシュメモリ、電気的にプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）などのようなもの）、瞬間的ではない、又は送信中のいずれかの永続性のセンブランスを欠いていないいずれかの適した媒体、及び／又はいずれかの適した有形の媒体などの媒体を含み得る。別の例として、一時的コンピュータ可読媒体は、ネットワーク、ワイヤ、コンダクタ、光ファイバー、回路、瞬間的及び送信中に永続性のいずれかのセンブランスのないいずれかの適した媒体、及び／又は適した有形ではない媒体の信号を含み得る。

【0025】

本開示の主題は、さらに、添付の資料にて記載されている。特定の実施形態が本明細書に詳細に開示されてきたが、このことは、例として例示の目的のみでなされ、続く添付の請求項の範囲に関して制限することを意図していない。開示の実施形態の特徴は、さらなる実施形態を生成すべく発明の範囲内で、組み合わせ、再構成などをすることができる。何らかの他の態様、利点、及び修正が、下部に設けられる特許請求の範囲内にあるものとみなされる。提示される請求項は、本明細書に開示の実施形態及び特徴の少なくとも一部を表す。他の特許請求されていない実施形態及び特徴がまた企図される。

【0026】

（音声ノイズ除去のため無音の音を聞く）この実施形態で、本発明者らは、多数の適用で生じるオーディオ分析での長期の挑戦である、音声ノイズ除去のディープラーニングモデルを取り入れる。本発明者らの手法は、人間の発話の重要な観察に基づく：多くの場合、各文又は単語の間に短い中断がある。録音される音声信号で、これらの中断は、ノイズのみが存在する一連の時間を取り入れる。本発明者らは、モノチャネルオーディオのみ与えられた自動音声ノイズ除去のモデルを学習するためこれらの付随的な無音インターバルを活用する。時間の経過を伴う検出された無音インターバルは、純然たるノイズのみではなく、時間で可変の特徴を晒し、モデルがノイズダイナミクスを学習し、それを音声信号から抑制するのを可能にする。複数のデータセットでの実験により、音声ノイズ除去のための無音インターバル検出の極めて重要な役割が確認され、本発明者らの方法は、（本発明者らの方法のような）オーディオ入力のみを受け付けるもの、及び視聴覚的入力に基づいてノイズ除去をする（したがって、より多くの情報を必要とする）ものを含む、いくつかの最先端のノイズ除去法よりも優れている。本発明者らはまた、本発明者らの方法が訓練の間に見られない話し言葉のノイズ除去などの優れた生成特性を享受することを示す。

【0027】

（１緒言）
ノイズは至る所にある。誰かが話をするのを我々が聞くとき、我々が受け取るオーディオ信号は決して純粋でクリーンなものではなく、常に全種類のノイズ－通り過ぎる車、エアコンのファンの回転、犬の鳴き声、ラウドスピーカーからの音楽などによって汚染されている。かなりの程度、会話をしている個人は、努力せずにこれらのノイズをフィルタ処理できる（参考文献４０）。同じ傾向で、セルラ通信から人間－ロボット相互作用に及ぶ多数の適用が、根本的な構築ブロックとして音声ノイズ除去アルゴリズムに頼っている。

【0028】

その極めて重大な重要性にもかかわらず、アルゴリズムの音声ノイズ除去は、大きな課題であり続けている。入力されたオーディオ信号を与えられると、音声ノイズ除去はフォアグラウンド（音声）信号をその付加的な背景のノイズから分離することを目的とする。この分離の問題は本質的に不適切である。スペクトル減算などの古典的手法（参考文献７、９１、６、６６、７３）及びＷｉｅｎｅｒフィルタ処理（参考文献７４、３８）は、スペクトル領域でのオーディオのノイズ除去を実行し、それらは典型的には定常又は準定常ノイズに制限される。近年、ディープニューラルネットワークの進化がまた、オーディオのノイズ除去での利用を鼓舞してきた。古典的なノイズ除去手法より優れているが、存在するニューラルネットワークベースの手法は、一般的なオーディオ処理タスク（参考文献５１、８３、９３）用に展開されたか又はコンピュータビジョン（参考文献２９、２４、３、３４、３０）などの他の領域から借用したネットワーク構造及び敵対的生成ネットワーク（参考文献６４、６５）を利用する。それにもかかわらず、ブラックボックスのようなうまく展開させたネットワークモデルを再利用することを越えて、根本的な疑問が残る：音声のどのような自然構造を、音声ノイズ除去のより優れた性能のためのネットワークの構成をかたどるために我々が活用できるか、ということである。

【0029】

（１．１重要な洞察：無音インターバルの時間分布）この疑問に動機づけられて、本発明者らは、実施されている最も広く利用されているオーディオのノイズ除去の方法の１つ、すなわちスペクトル減算法を再検討する（参考文献７、９１、６、６６、７３）。ＡｄｏｂｅＡｕｄｉｔｉｏｎ（参考文献３７）などの多数の商用ソフトウエアで実施されると、この古典的な方法は、ユーザが、フォアグラウンド信号がない間の時間間隔を特定する必要がある。本発明者らは、このようなインターバルを無音インターバルと呼ぶ。無音インターバルは純然たるノイズを晒す時間枠である。アルゴリズムはその後無音インターバルからノイズの特性を学習し、それは次に入力信号全体の付加的なノイズを抑制するのに利用されている（スペクトル領域の減算を通して）。

【0030】

図２：経時的な無音インターバル
（上）音声信号は多数の自然な中断を有する。いずれのノイズもなければ、これらの中断は無音インターバルとして提示される（赤で強調表示）。
（下）しかしながら、たいていの音声信号はノイズにより汚染されている。軽いノイズによっても、無音インターバルは圧倒され、検出するのが困難になる。ロバストに検出されるなら、無音インターバルは時間の経過と共にノイズプロファイルを明示するのを促せる。

【0031】

第３４回ニューラル情報処理システム会議に提出（ＮｅｕｒＩＰＳ２０２０）。配布しないこと。さらに、スペクトラル減算法は、２つの主要な欠点に苛まれている：ｉ）それは無音インターバルのユーザの特定を必要とする、すなわち、完全に自動ではない；ｉｉ）ユーザに対し要求をしないが、単一の無音インターバルは、非定常ノイズ－例えば背景の音楽－の存在下で十分ではない。日常生活におけるユビキタスで、非定常ノイズは、時間で可変のスペクトラルの特徴を有する。単一の無音インターバルはその特定の時間のスパンにのみノイズのスペクトラルの特徴を明示し、そのため入力信号全体のノイズ除去に対し不適切である。スペクトラル減算の連続は無音インターバルの概念の中枢である；その欠点でもある。

【0032】

この実施形態で、本発明者らは、無音インターバルを緻密に統合し、それにより古典的な手法の限定の多数を克服する音声ノイズ除去用のディープネットワークを取り入れる。本発明者らの目標は、単一の無音インターバルを特定するのみでなく、時間の経過に伴い可能な無音インターバルを極力多数見出すことである。実際、音声における無音インターバルは、存在量であるように見える：心理言語学的研究は、各々の文の後、及びさらには発話における各単語の後、ほぼ常に中断があることを示す（参考文献７２，２１）。各々の中断は、いかに短くても、時間においてローカルな無音インターバル明示ノイズ特徴を設ける。全部を合わせると、これらの無音インターバルは、背景のノイズの時変画像を組み入れ、非定常ノイズの存在下でさえあっても、ニューラルネットワークのより優れたノイズ除去の音声信号を可能にする（図２参照）。

【0033】

手短には、ニューラルネットワークを、確立されたノイズ除去のパイプラインと交互配置すべく、本発明者らはネットワーク構成を提案し、それは３つの主なコンポーネント（図１を参照）：ｉ）無音インターバル検出専用のもの、ｉｉ）コンピュータビジョンのインペインティングプロセスに類似している、無音インターバルで明示されるものからフルノイズを推定することを照準とする別のもの（参考文献３６）、及びｉｉｉ）入力信号をクリーンアップさせるさらに別のものからなる。

【0034】

結果の概要。
本発明者らのニューラルネットワークが基盤のノイズ除去モデルは、オーディオ信号の単独のチャネルを受け付け、クリーンアップ信号を出力する。入力された視聴覚信号として、（すなわちオーディオ及び動画映像の両方として）取得する昨今のノイズ除去の方法の一部とは異なり、本発明者らの方法は、より広い範囲のシナリオ（例えば、セルラ通信）で適用できる。本発明者らは、本発明者らのネットワーク構成要素の有効性を示すアブレーションスタディ、及びいくつかの最先端のノイズ除去法との比較を含む広範な実験を実行した。本発明者らはまた、様々な信号対雑音比の下で－先行の方法に対してテストしていない強いノイズの水準の下でさえ－本発明者らの方法を評価する。本発明者らは様々なノイズ除去のメトリックで、本発明者らの方法がオーディオ入力のみを受け付けるもの（本発明者のもののように）、及び視聴覚的入力に基づくノイズ除去のものを含む、それらの方法よりも一貫して優れていることを示す。

【0035】

音声ノイズ除去の無音インターバルの極めて重要な役割は、さらに、重要なわずかな結果により確認される。無音インターバル検出の監視がないのであっても、無音インターバルを検出する能力は、当然本発明者らのネットワークにおいて生み出される。また、本発明者らのモデルは英語の音声のみ訓練されているが、付加的な訓練なしで、それは、他の言語（中国語、日本語、及び韓国語など）でのノイズ除去の音声に対して容易に利用できる。本発明者らのノイズ除去の結果を聞くべく、どうか補足の資料を参照されたい。

【0036】

（２関連する研究）
音声ノイズ除去音声ノイズ除去（参考文献４８）は、数十年研究された根本的な問題である。スペクトラル減算（参考文献７、９１、６、６６、７３）は、ノイズの多い音声スペクトラムからのノイズスペクトラムの推定をサブストラクションすることによって、クリーンな信号のスペクトラムを推定する。この古典的な方法は、スペクトログラム因数分解方法（参考文献７８）が後続する。Ｗｉｅｎｅｒフィルタ処理（参考文献７４、３８）は、平均自乗誤差を最適化することにより、向上した信号を導出する。他の方法は、音声における中断を利用し、低い音響エネルギーのセグメントを形成し、ノイズ統計はより正確に測定できる（参考文献１３，５２，７９，１５，６９，１０，１１）。統計モデルベースの方法（参考文献１４、３２）及び部分空間アルゴリズム（参考文献１２、１６）がまた検討されている。

【0037】

ニューラルネットワークをオーディオのノイズ除去に適用することは、８０年代に遡る（参考文献８１、６３）。計算力の向上により、ディープニューラルネットワークが多くの場合において利用されている（参考文献９７、９９、９８、４２）。長短期記憶ネットワーク（ＬＳＴＭ）（参考文献３３）は、オーディオ信号の一時的なコンテキスト情報を保存することが可能（参考文献４７）であり、強力な結果に至る（参考文献５１、８３、９３）。敵対的生成ネットワーク（ＧＡＮ）（参考文献３１）を活用して、（参考文献６４、６５）などの方法がＧＡＮをオーディオの分野に採用し、また強力な性能を実現した。

【0038】

オーディオ信号処理方法は、生の波形又はスペクトログラムにおいて、短時間フーリエ変換（ＳＴＦＴ）により動作する。一部は直接波形に作用し（参考文献２２、６２、５４、５０）、他のものは音声ノイズ除去のためにＷａｖｅｎｅｔ（参考文献８４）を利用している（参考文献６８、７０、２８）。（参考文献４９，８７，５６，９２，４１，１００，９）などの多数の他の方法は、オーディオ信号のスペクトログラムを研究し、それは、大きさ及び位相情報の両方を含む。スペクトログラムを最大のポテンシャルに対していかに利用するかを論じる研究がある（参考文献８６、６１）が、短所の１つが、逆のＳＴＦＴを適用する必要があるということである。これに対して、また、時間のエイリアシングからのアーティファクトをいかに克服するかを調査した研究が存在している（参考文献４６，２７，２６，８８，１９，９４，５５）。

【0039】

音声ノイズ除去はまた、音声及び顔の特徴の間の関連に起因するコンピュータビジョンと共に検討されてきた（参考文献８）。（参考文献２９、２４、３、３４、３０）などの方法は、その能力の最大限までオーディオ信号を向上させる様々なネットワーク構造を利用している。Ａｄｅｅｌｅｔａｌ．（参考文献１）は、音声の背景のノイズをフィルタ処理するために読唇術さえも利用している。

【0040】

他のオーディオ処理タスクでのディープラーニング。ディープラーニングは、コンピュータビジョンに促されて、読唇、音声認識、音声の分離、及び多数のオーディオ処理又はオーディオ関連タスクのために、広く利用されている（参考文献５８、６０、５、４）。（参考文献４５、１７、５９）などの方法は、純粋な顔の特徴から音声を再構成することが可能である。（参考文献２、５７）などの方法は、音声認識の正確度を改良するために顔の特徴を利用する。音声の分離は、コンピュータビジョンが最大限活用される領域の１つである。（参考文献２３、５８、１８、１０２）などの方法は、印象的な結果を実現し、以前には不可能だった単一のオーディオ信号からの音声の分離を可能にした。最近、Ｚｈａｎｇｅｔａｌ．（参考文献１０１）は、ＨａｒｍｏｎｉｃＣｏｎｖｏｌｕｔｉｏｎと呼ばれる新たな操作を提案し、ネットワークがオーディオの事前確率を引き出すのを促しており、それは音声の分離の質をさらに改良することさえも示す。

【0041】

（３音声ノイズ除去の学習）
本発明者らは、音声ノイズ除去の無音インターバルの時間分布を利用するニューラルネットワークを提示する。本発明者らのモデルへの入力は、ノイズの多い音声のスペクトログラム（参考文献９６、２０、７７）であり、それは２個のチャネルでＴ×Ｆの大きさの２Ｄ画像として見ることができ、式中Ｔは信号の時間の長さを表し、Ｆは周波数ビンの数である。２個のチャネルはそれぞれ、ＳＴＦＴの実数部と虚数部を格納する。学習後、モデルは、抑制されたノイズと同じ大きさの別のスペクトログラムを生成する。

【0042】

本発明者らは第１に、エンドツーエンドの様式で本発明者らの提案されたネットワーク構造を、ノイズ除去の監視でのみ訓練し（セクション３．２）；それは既に本発明者らが比較している最先端の方法より優れている。さらに、本発明者らは無音インターバル検出に対する監視を組み込み（セクション．３．３）、さらにより優れたノイズ除去の結果を取得している（セクション．４参照）。

【0043】

（３．１ネットワーク構造）
３つの一般的な段階分け：無音インターバルの特定、ノイズの特徴の推定、及びノイズの除去で、古典的なノイズ除去アルゴリズムは機能する。本発明者らは、このプロセス全体で学習を織り込むことを提案する：本発明者らはニューラルネットワークに促されて各段階分けを再考し、新規の音声ノイズ除去モデルを形成する。本発明者らは、これらのネットワークを共同でつなげてグラジエントを推定することができるので、本発明者らは効率よく、大きな規模のオーディオデータでモデルを訓練することができる。図１は、このモデルを示しており、それについて本発明者らが下部に記載する。

【0044】

無音インターバル検出。
第１のコンポーネントは、専ら入力信号における無音インターバルを検出する。このコンポーネントへの入力は、入力される（ノイズの多い）信号ｘのスペクトログラムである。スペクトログラムＳ_ｘは、第１に、２Ｄ畳み込みエンコーダによって２Ｄ特徴マップにエンコードされ、さらに、双方向性のＬＳＴＭにより処理され（参考文献３３、７５）、２つの全結合（ＦＣ）層が続く（後続のＡのネットワークの詳細を参照）。双方向性のＬＳＴＭは、スペクトログラムの結果生じる時系列の特徴の処理に適したものであり（参考文献５３、３９、６７、１８）、ＦＣ層は、可変の長さの入力に適応するよう各タイムサンプルの特徴を適用されるものである。このネットワーク構成要素からの出力は、ベクトルD（Ｓ_ｘ）である。Ｄ（Ｓ_ｘ）の各要素は、［０，１］のスカラ（Ｓｉｇｍｏｉｄ関数の適用後）であり、無音である小さい時間区分の信頼度スコアを示す。本発明者らは１／３０秒を有する各時間区分を選択し、短い音声の中断を捉えるのに十分小さいもので、ロバスト予測を可能にするには十分大きいものである（セクション．３．３を参照）。

【0045】

図３：中間及び最終的な結果の例（ａ）ノイズの多い入力信号のスペクトログラム、クリーンな音声信号（ｂ）及びノイズ（ｃ）の重畳である。（ｂ）における黒い領域は、グラウンドトゥルースの無音インターバルを示す。（ｄ）自動的に出現する無音インターバルに晒されるノイズ、すなわち、ネットワーク全体が無音インターバルの監視なしで訓練されるときの無音インターバル検出のコンポーネントの出力（セクション．３．２を思い出されたい）。（ｅ）検出された無音インターバルに晒されるノイズ、すなわち、ネットワークが無音インターバルの監視なしで訓練されるときの無音インターバル検出のコンポーネントの出力（セクション．３．３を思い出されたい）。（ｆ）ノイズ推定コンポーネントに対する入力として副次的な図３の（ａ）及び（ｅ）を利用する、推定されるノイズプロファイル。（ｇ）最終的なノイズ除去スペクトログラムの出力。

【0046】

出力されるベクトルＤ（Ｓ_ｘ）はその後、ｍ（ｘ）と本発明者らが示すより長いマスクに、拡大される。このマスクの各要素は、純然たるノイズとして入力信号ｘの各サンプルを分類する信頼度を示す（図３の（ｅ）参照）。このマスクで、無音インターバルに晒される

【数20】

は、要素ごとの積により推定される、すなわち

【数21】

【0047】

ノイズ推定。
無音インターバル検出の結果として得られる

【数22】

は、一連の時間枠（図３の（ｅ）参照）のみに晒されるが、ノイズの完全な画像には晒されないノイズプロファイルである。しかしながら、入力信号はクリーンな音声信号及びノイズの重畳であるため、完全なノイズプロファイルを有することは、特に非定常ノイズの存在時にノイズ除去の処理を容易にする。したがって、本発明者らはまた、時間の経過と共に全体のノイズプロファイルを推定し、本発明者らはニューラルネットワークでそれを行う。

【0048】

このコンポーネントへの入力は、ノイズの多いオーディオ信号及び

【数23】

の両方を含む。両方共ＳＴＦＴより、それぞれ

【数24】

として示されるスペクトログラムへ変換される。本発明者らは、２Ｄ画像としてスペクトログラムを見る。また、スペクトログラムの隣接する時間・周波数ピクセルが多くの場合相関するので、本発明者らの目標はここで、コンピュータビジョンの画像インペインティングタスクと概念的に類似している（参考文献３６）。この目的に対して、本発明者らは、２つの特徴マップへの２つの個々の２Ｄ畳み込みエンコーダにより

【数25】

をエンコードする。特徴マップはその後、チャネルごとの方式で連結され、さらに畳み込みデコーダによりデコードされて、フルノイズスペクトログラムを推定し、それを本発明者らは、

【数26】

として示す。この段階の結果は図３の（ｆ）に示す。

【0049】

ノイズの除去。
最後に、本発明者らは、入力信号ｘからノイズをクリーンアップする。本発明者らは、入力として、入力音声スペクトログラムＳ_ｘ、及び推定されるフルノイズスペクトログラム

【数27】

の両方を取得するニューラルネットワークＲを利用する。２つの入力されたスペクトログラムは、個々に、それ自体の２Ｄ畳み込みエンコーダにより処理される。２つのエンコードされた特徴マップは、その後、共に連結され、双方向性のＬＳＴＭにパスし、３つの十分に接続された層が続く（後続のＡの詳細を参照）。他のオーディオ拡大モデル（参考文献１８、８５、８９）と同様に、このコンポーネントの出力は、２個のチャネルを有するベクトルで、それは周波数時間領域に複素比率マスク

【数28】

の実数部と虚数部を形成する。換言すると、マスクｃは、Ｓ_ｘと同じ一時的及び周波数）の次元を有する。

【0050】

最終的な段階で、本発明者らは、入力音声スペクトログラムＳ_ｘ及びマスク

【数29】

の要素ごとの乗算を通してノイズ除去スペクトログラム

【数30】

を計算する。最終的に、クリーンアップされたオーディオ信号は、

【数31】

に対する逆のＳＴＦＴを適用することによって取得される。

【0051】

（３．２損失関数及び訓練）
全段階に劣勾配が存在しているので、本発明者らは、確率的勾配降下でエンドツーエンドの様式にて、本発明者らのネットワークを訓練できる。続く損失関数を、本発明者らは最適化する：

【数32】

ここで、表記

【数33】

がセクション．３．１に定義されるものであり、

【数34】

【0052】

無音インターバルの自然発生。
尤もらしいノイズ除去の結果（セクション．４．４参照）を生成するが、エンドツーエンドの訓練プロセスは、無音インターバル検出の監視がない：損失関数（１）のみがノイズ及びクリーンな音声信号の回復を担う。しかし、幾分驚くべきことに、無音インターバルを検出する能力は、第１のネットワークコンポーネントの出力として自動的に生み出される。

【数35】

換言すると、ネットワークは、この監視なしで音声ノイズ除去の無音インターバルを検出するため自動的に学習する。

【0053】

（３．３無音インターバルの監視）
モデルがそれ自体の無音インターバルを検出するべく学習しているとき、本発明者らは無音インターバル検出を直接監視し、さらに、ノイズ除去の質を改良できる。本発明者らの第１の試みは、検出された無音インターバル及びそのグラウンドトゥルースの間の不一致にペナルティを課す項を（１）において加えることであった。しかし、本発明者らの実験は、この方法が有効ではないことを示す（セクション．４．４を参照）。それに代えて、本発明者らは２つの連続的な段階で本発明者らのネットワークを訓練した。

【0054】

第１に、本発明者らは、無音インターバル検出のコンポーネントを以下の損失関数を通して訓練した：

【数36】

式中

【数37】

はバイナリクロスエントロピー損失であり、ｍ（ｘ）は無音インターバル検出のコンポーネントからの結果のマスクであり、

【数38】

は各信号サンプルが無音であるか否かのグラウンドトゥルースのラベル－構築方法であり、

【数39】

及び訓練データセットは、セクション．４．１に記載される。

【0055】

次に、本発明者らは、ノイズ推定及び除去コンポーネントを、損失関数（１）により訓練する。この訓練段階は、無音検出コンポーネントを無視することにより開始する。損失関数（１）において、推定される無音インターバルに晒されるノイズのスペクトログラムである

【数40】

の利用に代えて、本発明者らは、グラウンドトゥルースの無音インターバル

【数41】

により晒されるノイズのスペクトログラムを利用する。このような損失関数を利用して訓練した後、本発明者らは、訓練済みの無音インターバル検出コンポーネントを組み込むことにより、ネットワーク構成要素を微調整する。固定の無音インターバル検出のコンポーネントにより、この微調整段階は元の損失関数（１）を最適化し、それによりノイズ推定の重み及び除去コンポーネントを更新する。

【0056】

（４実験）
このセクションは、本発明者らの方法の主要な評価、いくつかのベースライン及び先行研究との比較、及びアブレーションスタディを提示する。本発明者らはまた、本発明者らのネットワーク構造、実装の詳細、付加的な評価、またオーディオの例の十分な記載のための補足の資料（補足的な文書及びオフラインでのウエブページで組織されたオーディオの効果を含む）を読み手に記載する。

【0057】

（４．１実験の設定）
データセットの構築。訓練及びテストデータを構築するために、本発明者らは一般的に使用可能なオーディオデータセットを活用した。本発明者らは、ＡＶＳＰＥＥＣＨを利用してクリーンな音声信号を取得し（参考文献１８）、それから本発明者らはランダムに２４４８の映像を選択し（全体の長さは４．５時間）、その音声オーディオチャネルを抽出した。それらの間で、本発明者らは、２２１４の訓練用映像、及び２３４のテスト映像を利用し、そのため訓練及びテスト音声は十分に分離している。これらの全音声映像は英語で、意図的に選ばれた：本発明者らが補足の資料に示すように、このデータセットで訓練された本発明者らのモデルは、他の言語での容易な音声のノイズ除去を可能にする。

【0058】

本発明者らは背景のノイズとしてＤＥＭＡＮＤ（参考文献８２）及びＧｏｏｇｌｅのＡｕｄｉｏＳｅｔ（参考文献２５）という２つのデータセットを利用する。共に、環境的なノイズ、交通騒音、音楽及び多数の他のタイプのノイズからなる。ＤＥＭＡＮＤは先行のノイズ除去研究で利用されていた（例えば（参考文献６４、２８、８３）。さらに、ＡｕｄｉｏＳｅｔはＤＥＭＡＮＤよりもはるかに大きく、多様で、そのためノイズとして利用されるとき、より難題になる。図４は、いくつかのノイズの例を示す。本発明者らの評価は、別個に両方のデータセットについて実行される。

【0059】

図４：ノイズギャラリー。
本発明者らは、ノイズのデータセットからのノイズの４つの例を示す。
ノイズ１）は、定常（ホワイト）ノイズであり、他の３つはそうではない。
ノイズ２）は、会議でのモノローグである。
ノイズ３）は、背景のノイズを伴う、会話をする及び笑う個人からのパーティー時のノイズである。
ノイズ４）は、運転する及び警笛を鳴らす車両などの付加的な交通騒音を伴う、叫び声をあげて及ぶ個人からの通りでのノイズである。

【0060】

音響波の伝播の直線性に起因して、本発明者らは、クリーンな音声信号をノイズに重ね、ノイズの多い入力信号を同期させることができる（先行研究と同様（参考文献６４、２８、８３））。ノイズの多い入力信号を同期するとき、本発明者らはランダムに、７つの別個の値：－１０ｄＢ、－７ｄＢ、－３ｄＢ、０ｄＢ、３ｄＢ、７ｄＢ、及び１０ｄＢから信号対雑音比（ＳＮＲ）を選択し；フォアグラウンドの音声を適切に測定されたノイズと混合することにより、本発明者らはノイズの多い信号を、選択したＳＮＲにより生成した。例えば、－１０ｄＢのＳＮＲは、ノイズの力が音声の１０倍であることを意味する（図７を参照）。本発明者らの評価でのＳＮＲの範囲（すなわち、［－１０ｄＢ，１０ｄＢ］）は、先行研究でテストされたものより著しく大きい。

【0061】

本発明者らの無音インターバル検出を監視するために（セクション．３．３を思い出されたい）、本発明者らは無音インターバルのグラウンドトゥルースのラベルを必要とする。この目的に対し、本発明者らは各々のクリーンな音声信号を時間区分に分け、その各々は１／３０秒続く。本発明者らは、当該のセグメントの全音響エネルギーが閾値を下回るとき、時間区分を無音と分類する。音声がクリーンなので、この自動分類処理は、ロバストである。

【0062】

方法の比較。
本発明者らは、本発明者らの方法を、音声ノイズ除去のためにまた設計されたいくつかの存在する方法と比較しており、古典的手法及び最近提案された学習ベースの方法の両方を含む。本発明者らは、この方法を以下のように参照する：ｉ）本発明者らのもの、無音インターバルの監視で訓練された本発明者らのモデル（セクション．３．３を思い出されたい）；ｉｉ）ベースライン閾値、無音インターバルを分類する音響エネルギーの閾値を利用して（セクション．４．１の本発明者らの自動ラベリング手法と同じだが、ノイズの多い入力信号に適用される）、その後本発明者らの訓練されたノイズ推定及び音声ノイズ除去のための除去ネットワークを利用するベースライン方法。ｉｉｉ）本発明者らのＧＴＳＩ、本発明者らの訓練されたノイズ推定及び除去ネットワークを利用するが、仮説的にグラウンドトゥルースの無音インターバルを利用する別の参照の方法；ｉｖ）スペクトルゲーティング、スペクトラル減算に基づく古典的な音声ノイズ除去アルゴリズム（参考文献７３）；ｖ）ＡｄｏｂｅＡｕｄｉｔｉｏｎ（参考文献３７）、最も広く利用されている専門家用オーディオ処理ソフトウエアの１つで、本発明者らは、最新のＡｄｏｂｅＡｕｄｉｔｉｏｎＣＣ２０２０に設けられ、本発明者らの全テストデータをバッチ処理するためのデフォルトのパラメータを備える、その機械学習ベースのノイズの低減特徴を利用する；ｖｉ）ＳＥＧＡＮ（参考文献６４）、敵対的生成ネットワークに基づく最新のオーディオのみの発話エンハンスメント方法の１つ。ｖｉｉ）ＤＦＬ（参考文献２８）、深層ネットワーク特徴に亘る損失関数に基づく最近提案された音声ノイズ除去方法；１ｖｉｉｉ）ＶＳＥ（参考文献２４）、映像及びオーディオの両方を入力として取得し、音声ノイズ除去のためオーディオ信号及び口の動き（動画映像からの）両方を活用する学習ベースの方法。本発明者らは、別の視聴覚的方法（参考文献１８）と比較することはできない、なぜならいずれのソースコード又は実行可能ファイルが一般的に使用可能にされてはいないからである。

【0063】

公平な比較のため、本発明者らは、同じデータセットを利用して、全方法を訓練する（学習ベース及びブラックボックスとして商業的に出荷されているＡｄｏｂｅＡｕｄｉｔｉｏｎではないスペクトルゲーティングは除く）。ＳＥＧＡＮ、ＤＦＬ、及びＶＳＥに対し、本発明者らは、著者により公開されたそのソースコードを利用する。視聴覚的ノイズ除去方法ＶＳＥはまた、動画映像を必要とし、それはＡＶＳＰＥＥＣＨで使用可能である。

【0064】

（４．２音声ノイズ除去の評価）
メトリック。
オーディオ処理タスクの知覚的性質に起因して、量的評価及び比較のための広く受け付けられている単一のメトリックは存在していない。本発明者らは、したがって、６つの異なるメトリックで本発明者らの方法を評価し、その全部がオーディオ処理の質を評価するために頻繁に利用されている。すなわち、そのメトリックは：ｉ）音声の質の知覚評価（ＰＥＳＱ）（参考文献７１）、ｉｉ）セグメントの信号対雑音比（ＳＳＮＲ）（参考文献７６）、ｉｉｉ）短時間客観的明瞭度（ＳＴＯＩ）（参考文献８０）、ｉｖ）信号の歪みの平均意見スコア（ＭＯＳ）予測子（ＣＳＩＧ）（参考文献３５）、ｖ）背景ノイズの侵入性のＭＯＳ予測子（ＣＢＡＫ）（参考文献３５）、及びｖｉ）全体的な信号の質のＭＯＳ予測子（ＣＯＶＬ）（参考文献３５）である。

【0065】

図５：定量比較。
本発明者らは、６つのメトリックでノイズ除去の質を測定している（カラムに対応）。比較は、ＤＥＭＡＮＤ及びＡｕｄｉｏＳｅｔからのノイズを別個に利用して実行している。本発明者らのＧＴＳＩ（黒）は、グラウンドトゥルースの無音インターバルを利用している。実際的な手法ではないが、それは全方法の上限参照として役に立つ。

【0066】

図６：入力されたＳＮＲに関するノイズ除去の質。
異なる入力されたＳＮＲに関連する各方法についてのＰＥＳＱで測定されたノイズ除去の結果。他のメトリックで測定された結果を図８に示す。

【0067】

結果。
本発明者らは、ＤＥＭＡＮＤ及びＡｕｄｉｏＳｅｔのノイズのデータセットをそれぞれ利用する２つの分離モデルを訓練し、それらを、同じデータセットで訓練した他のモデルと比較している。本発明者らは、平均のメトリックの値を評価し、それらを図５において報告している。全メトリックで、本発明者らの方法は一貫して他のものより優れている。

【0068】

本発明者らは、各方法の成績を、両方のノイズのデータセットに関する－１０ｄＢから１０ｄＢまでのＳＮＲの水準に関して分解している。結果は、ＰＥＳＱ（図８参照）について、図６で報告されている。本発明者らが比較した先行研究で、それらの低ＳＮＲ水準下（＜０ｄＢｓ）でのいずれの結果も報告されていない。それにもかかわらず、入力されたＳＮＲの全水準に亘って、本発明者らの方法は、最良に実行され、本発明者らの手法が光及び極端なノイズ両方に対してかなりロバストであることを示す。

【0069】

図６から、本発明者らのＧＴＳＩ方法がさらにより優れた実行を伴うことを記すのは価値のあることである。これは本発明者らのモデルであるが、グラウンドトゥルースの無音インターバルを設けられているということを思い出されたい。実際的ではない（グラウンドトゥルースの無音インターバルの必要性に起因）が、本発明者らのＧＴＳＩは、ノイズ除去のための無音インターバルの重要性を確認する：質の高い無音インターバル検出は、音声ノイズ除去の質を改良するのに役立つ。

【0070】

（４．３無音インターバル検出の評価）
音声ノイズ除去のための無音インターバルの重要性に起因して、本発明者らはまた、本発明者らの無音インターバル検出の質を評価し、２個の代替物、ベースラインのベースライン閾値及び発話検出器（ＶＡＤ）（参考文献９５）を比較している。前者は上部に記載されているが、後者は、オーディオ信号の各時間枠を、人間の声を伴っているかいないかということで分類する（参考文献４３、４４）。本発明者らは、ＧｏｏｇｌｅのＷｅｂＲＴＣプロジェクトにより開発され、最も使用可能なものの１つとして報告された既成のＶＡＤを利用している。

【0071】

本発明者らは、４つの標準的な統計メトリック：精度、再現度、Ｆ１スコア、及び正確度を利用するこれらの方法を評価する。本発明者らは、Ｃ．１において要約されるこれらのメトリックの標準的な定義に従う。これらのメトリックは、陽性／陰性の条件の定義に基づく。ここで、陽性の条件は、無音の区分として分類されている時間区分を示し、陰性の条件は非無音の分類を示す。そうして、メトリックが高値であるほど、検出手法がより優れたものとなる。

【0072】

表１は、全メトリックの下で、本発明者らの方法が一貫して、代替のものより優れたものであることを示す。ＶＡＤ及びベースライン閾値の間で、ＶＡＤは高い精度及びより低い再現度を有し、このことは、ＶＡＤが過度に保存的で、無音インターバルを検出するときベースライン閾値が過度に積極的であることを意味する（図９参照）。本発明者らの方法は、より良好なバランスに達し、そのため、より正確に無音インターバルを検出する。

【0073】

［表１］

【表1】

表１：無音インターバル検出の結果。
メトリックは、－１０ｄＢから１０ｄＢのＳＮＲを有する本発明者らのテスト信号を利用して測定される。これらのメトリックの定義は、続くＣ．１において要約されている。

【0074】

［表２］

【表2】

表２：アブレーションスタディ。本発明者らは、ネットワーク構成要素及び訓練損失を変更し、様々なメトリックでのノイズ除去の質を評価する。本発明者らの提案された手法が最良に実行されている。

【0075】

（４．４アブレーションスタディ）
加えて、本発明者らは、個々のネットワーク構成要素及び損失項の有効性を理解するための一連のアブレーションスタディを実行する（さらなる詳細のため、続くＤ．１を参照されたい）。表２において、「本発明者らのＷ／ＯＳＩＤ損失は、セクション．３．２に提示の訓練法を参照する（すなわち、無音インターバルの監視がない）。「本発明者らのジョイント損失」は、追加項（２）を伴う損失関数（１）を最適化するエンドツーエンドの訓練手法を参照する。また、「本発明者らのｗ／ｏＮＥ損失」が、本発明者らの二段階の訓練（セクション．３．３）を利用するが、ノイズ推定の損失項がない－つまり（１）の第１項がない。これらの代替的な訓練手法を比較して、無音インターバルの監視を伴う本発明者らの二段階の訓練（「本発明者らのもの」と称される）は、最良に実行される。本発明者らはまた、「本発明者らのＷ／ＯＳＩＤ損失」－すなわち監視がない－が既に本発明者らが図５で比較した方法より優れていること、及び「本発明者らのものが、さらにノイズ除去の質を改良することを記す。これは、本発明者らの提案する訓練手法の無音インターバル検出の有効性を示す。

【0076】

本発明者らはまた、本発明者らのネットワーク構造の２つの変形例を実験した。「本発明者らのｗ／ｏＳＩＤｃｏｍｐ」と称される第１のものは、無音インターバル検出をオフにする：無音インターバル検出のコンポーネントは常に、全部がゼロのベクトルを出力する。
「本発明者らのｗ／ｏＮＲｃｏｍｐ」と記載される第２のものは、本発明者らのノイズを除去するコンポーネントを置き換えるべく単純なスペクトル減算を利用する。表２は、全部のテストされたメトリックの下で、両方の変形例が本発明者らの方法より不良に実行され、本発明者らの提案のネットワーク構造が有効であることを示す。

【0077】

さらに、本発明者らは、無音インターバル検出の正確度がどの程度音声ノイズ除去の質に影響するかを検討した。本発明者らは、無音インターバル検出がより正確度を欠くようになると、ノイズ除去の質が低下することを示す。続くＤ．２に詳細に提示され、これらの実験は、無音インターバルが音声ノイズ除去タスクに教育的であるという本発明者らの直感を補強する。

【0078】

（５結論）
音声ノイズ除去は、長期の挑戦であった。本発明者らは、音声での無音インターバルの存在量を活用する新たなネットワーク構造を提示する。無音インターバルの監視がなくても、本発明者らのネットワークは、音声信号のノイズ除去を尤もらしいものにすることが可能であり、またこれに対して、無音インターバルを検出する能力が、自動的に生み出される。本発明者らはこの能力を補強する。無音インターバルに対する本発明者らの明白な監視は、ネットワークが、それらをより正確に検出することを可能にし、それにより、音声ノイズ除去の性能をさらに改良する。結果として、様々なノイズ除去のメトリックの下で、本発明者らの方法は、一貫して、いくつかの最先端のオーディオのノイズ除去モデルより優れている。

【0079】

（より広範囲の影響）
良質の音声ノイズ除去は、多数の適用：人間－ロボット相互作用、セルラ通信、補聴器、遠隔会議、音楽の録音、フィルム作成、ニュースの報道、及び監視システムなどにおいて所望である。したがって、本発明者らは、本発明者らの提案のノイズ除去方法－それが実際に利用されているシステムであっても、未来の技術のための礎であっても－が、これらの適用への影響を見出すことを期待している。

【0080】

本発明者らの実験で、本発明者らは、英語の音声のみを利用する本発明者らのモデルを訓練し、その一般化した特性－英語を越えて話し言葉のノイズ除去をする能力－を証明する。日本語、中国語、及び韓国語の音声のノイズ除去を本発明者らが証明することが意図されている：それらは言語的にも音韻的にも英語から離れている（ドイツ語やオランダ語などの他の英語の「兄弟」と対照的である）。依然として、本発明者らのモデルは、英語により近いか、無音インターバルを明示する頻繁な中断を含む話し言葉及び文化が有利であるバイアスがあり得る。この潜在的なバイアスのより深淵な理解が、言語学的及び社会文化的洞察と並行した未来の検討を必要とする。

【0081】

最後に一般のオーディオ信号又はさらにはオーディオを越える信号をノイズ除去するための本発明者らのモデルを拡大させるのは当然のことである（重力波のノイズ除去など（参考文献９０））。成功すれば、本発明者らのモデルは、さらに広い影響をもたらすことができる。しかしながら、この拡大を追求するには、「無音インターバル」の賢明な定義が必要である。結局、信号処理の一般的なコンテキストにおける「ノイズ」の概念は、特定の適用に依存する：１つの適用におけるノイズは、別の信号のものであることがある。無音インターバルの一般的な概念を利用するニューラルネットワークを訓練するために、特定の種類のノイズにバイアスがかからないように慎重に行う必要がある。

【0082】

（参考文献）
（参考文献１）Ａ．Ａｄｅｅｌ，Ｍ．Ｇｏｇａｔｅ，Ａ．Ｈｕｓｓａｉｎ，ａｎｄＷ．Ｍ．Ｗｈｉｔｍｅｒ．Ｌｉｐ－ｒｅａｄｉｎｇｄｒｉｖｅｎｄｅｅｐｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＥｍｅｒｇｉｎｇＴｏｐｉｃｓｉｎＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ｐａｇｅ１－１０，２０１９．ＩＳＳＮ２４７１－２８５ｘ．ｄｏｉ：１０．１１０９／ｔｅｔｃｉ．２０１９．２９１７０３９．ＵＲＬｈｔｔｐ：／／ｄＸ．ｄｏｉ．ｏｒｇ／１０．１１０９／ｔｅｔｃｉ．２０１９．２９１７０３９．
（参考文献２）Ｔ．Ａｆｏｕｒａｓ，Ｊ．Ｓ．Ｃｈｕｎｇ，Ａ．Ｓｅｎｉｏｒ，Ｏ．Ｖｉｎｙａｌｓ，ａｎｄＡ．Ｚｉｓｓｅｒｍａｎ．Ｄｅｅｐａｕｄｉｏ－ｖｉｓｕａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，ｐａｇｅｓ１－１，２０１８．
（参考文献３）Ｔ．Ａｆｏｕｒａｓ，Ｊ．Ｓ．Ｃｈｕｎｇ，ａｎｄＡ．Ｚｉｓｓｅｒｍａｎ．Ｔｈｅｃｏｎｖｅｒｓａｔｉｏｎ：Ｄｅｅｐａｕｄｉｏ－ｖｉｓｕａｌｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．ＩｎＰｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１８，ｐａｇｅｓ３２４４－３２４８，２０１８．ｄｏｉ：１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１８－１４００．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１８－１４００．
（参考文献４）Ｒ．ＡｒａｎｄｊｅｌｏｖｉｃａｎｄＡ．Ｚｉｓｓｅｒｍａｎ．Ｏｂｊｅｃｔｓｔｈａｔｓｏｕｎｄ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ），ｐａｇｅｓ４３５－４５１，２０１８．
（参考文献５）Ｙ．Ａｙｔａｒ，Ｃ．Ｖｏｎｄｒｉｃｋ，ａｎｄＡ．Ｔｏｒｒａｌｂａ．Ｓｏｕｎｄｎｅｔ：Ｌｅａｒｎｉｎｇｓｏｕｎｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍｕｎｌａｂｅｌｅｄｖｉｄｅｏ．ＩｎＡｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，ｐａｇｅｓ８９２－９００，２０１６．
（参考文献６）Ｍ．Ｂｅｒｏｕｔｉ，Ｒ．Ｓｃｈｗａｒｔｚ，ａｎｄＪ．Ｍａｋｈｏｕｌ．Ｅｎｈａｎｃｅｍｅｎｔｏｆｓｐｅｅｃｈｃｏｒｒｕｐｔｅｄｂｙａｃｏｕｓｔｉｃｎｏｉｓｅ．ＩｎＩＣＡＳＳＰ７９．ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌｕｍｅ４，ｐａｇｅｓ２０８－２１１，１９７９．
（参考文献７）Ｓ．Ｂｏｌｌ．Ｓｕｐｐｒｅｓｓｉｏｎｏｆａｃｏｕｓｔｉｃｎｏｉｓｅｉｎｓｐｅｅｃｈｕｓｉｎｇｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２７（２）：１１３－１２０，１９７９．
（参考文献８）Ｃ．ＢｕｓｓｏａｎｄＳ．Ｓ．Ｎａｒａｙａｎａｎ．Ｉｎｔｅｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｓｐｅｅｃｈａｎｄｆａｃｉａｌｇｅｓｔｕｒｅｓｉｎｅｍｏｔｉｏｎａｌｕｔｔｅｒａｎｃｅｓ：Ａｓｉｎｇｌｅｓｕｂｊｅｃｔｓｔｕｄｙ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，１５（８）：２３３１－２３４７，２００７．（参考文献９）ＪＣｈｅｎａｎｄＤ．Ｗａｎｇ．Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙｆｏｒｓｐｅａｋｅｒｇｅｎｅｒａｌｉｚａｔｉｏｎｉｎｓｕｐｅｒｖｉｓｅｄｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎ．ＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａＪｏｕｒｎａｌ，１４１（６）：４７０５－４７１４，Ｊｕｎｅ２０１７．ｄｏｉ：１０．１１２１／１．４９８６９３１．
（参考文献１０）Ｉ．Ｃｏｈｅｎ．Ｎｏｉｓｅｓｐｅｃｔｒｕｍｅｓｔｉｍａｔｉｏｎｉｎａｄｖｅｒｓｅｅｎｖｉｒｏｎｍｅｎｔｓ：ｉｍｐｒｏｖｅｄｍｉｎｉｍａｃｏｎｔｒｏｌｌｅｄｒｅｃｕｒｓｉｖｅａｖｅｒａｇｉｎｇ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，１１（５）：４６６－４７５，２００３．
（参考文献１１）Ｉ．ＣｏｈｅｎａｎｄＢ．Ｂｅｒｄｕｇｏ．Ｎｏｉｓｅｅｓｔｉｍａｔｉｏｎｂｙｍｉｎｉｍａｃｏｎｔｒｏｌｌｅｄｒｅｃｕｒｓｉｖｅａｖｅｒａｇｉｎｇｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ，９（１）：１２－１５，２００２．
（参考文献１２）Ｍ．Ｄｅｎｄｒｉｎｏｓ，Ｓ．Ｂａｋａｍｉｄｉｓ，ａｎｄＧ．Ｃａｒａｙａｎｎｉｓ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｆｒｏｍｎｏｉｓｅ：Ａｒｅｇｅｎｅｒ－ａｔｉｖｅａｐｐｒｏａｃｈ．ＳｐｅｅｃｈＣｏｍｍｕｎ．，１０（１）：４５－６７，Ｆｅｂ．１９９１．ＩＳＳＮ０１６７－６３９３．ｄｏｉ：１０．１０１６／０１６７－６３９３（９１）９００２７－ｑ．ＵＲＬｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１０１６／０１６７－６３９３（９１）９００２７－０．
（参考文献１３）Ｇ．Ｄｏｂｌｉｎｇｅｒ．Ｃｏｍｐｕｔａｔｉｏｎａｌｌｙｅｆｆｉｃｉｅｎｔｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｂｙｓｐｅｃｔｒａｌｍｉｎｉｍａｔｒａｃｋｉｎｇｉｎｓｕｂｂａｎｄｓ．ＩｎｉｎＰｒｏｃ．Ｅｕｒｏｓｐｅｅｃｈ，ｐａｇｅｓ１５１３－１５１６，１９９５．
（参考文献１４）Ｙ．Ｅｐｈｒａｉｍ．Ｓｔａｔｉｓｔｉｃａｌ－ｍｏｄｅｌ－ｂａｓｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｓｙｓｔｅｍｓ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ，８０（１０）：１５２６－１５５５，１９９２．
（参考文献１５）Ｙ．ＥｐｈｒａｉｍａｎｄＤ．Ｍａｌａｈ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｕｓｉｎｇａｍｉｎｉｍｕｍｍｅａｎ－ｓｑｕａｒｅｅｒｒｏｒｌｏｇ－ｓｐｅｃｔｒａｌａｍｐｌｉｔｕｄｅｅｓｔｉｍａｔｏｒ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，３３（２）：４４３－４４５，１９８５．
（参考文献１６）Ｙ．ＥｐｈｒａｉｍａｎｄＨ．Ｌ．ＶａｎＴｒｅｅｓ．Ａｓｉｇｎａｌｓｕｂｓｐａｃｅａｐｐｒｏａｃｈｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，３（４）：２５１－２６６，１９９５．
（参考文献１７）Ａ．Ｅｐｈｒａｔ，Ｔ．Ｈａｌｐｅｒｉｎ，ａｎｄＳ．Ｐｅｌｅｇ．Ｉｍｐｒｏｖｅｄｓｐｅｅｃｈｒｅｃｏｎｓｔｒｕｃｔｉｏｎｆｒｏｍｓｉｌｅｎｔｖｉｄｅｏ．Ｉｎ２０１７ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎＷｏｒｋｓｈｏｐｓ（ＩＣＣＶＷ），ｐａｇｅｓ４５５－４６２，２０１７．
（参考文献１８）Ａ．Ｅｐｈｒａｔ，Ｉ．Ｍｏｓｓｅｒｉ，Ｏ．Ｌａｎｇ，Ｔ．Ｄｅｋｅｌ，Ｋ．Ｗｉｌｓｏｎ，Ａ．Ｈａｓｓｉｄｉｍ，Ｗ．Ｔ．Ｆｒｅｅｍａｎ，ａｎｄＭ．Ｒｕ－ｂｉｎｓｔｅｉｎ．Ｌｏｏｋｉｎｇｔｏｌｉｓｔｅｎａｔｔｈｅｃｏｃｋｔａｉｌｐａｒｔｙ：Ａｓｐｅａｋｅｒ－ｉｎｄｅｐｅｎｄｅｎｔａｕｄｉｏ－ｖｉｓｕａｌｍｏｄｅｌｆｏｒｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，３７（４）：１－１１，Ｊｕｌｙ２０１８．ＩＳＳＮ０７３０－０３０１．ｄｏｉ：１０．１１４５／３１９７５１７．３２０１３５７．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１Ｏ．１１４５／３１９７５１７．３２０１３５７．
（参考文献１９）Ｈ．Ｅｒｄｏｇａｎ，Ｊ．Ｒ．Ｈｅｒｓｈｅｙ，Ｓ．Ｗａｔａｎａｂｅ，ａｎｄＪ．ＬｅＲｏｕｘ．Ｐｈａｓｅ－ｓｅｎｓｉｔｉｖｅａｎｄｒｅｃｏｇｎｉｔｉｏｎ－ｂｏｏｓｔｅｄｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎｕｓｉｎｇｄｅｅｐｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ．Ｉｎ２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），ｐａｇｅｓ７０８－７１２，２０１５．
（参考文献２０）Ｊ．Ｌ．Ｆｌａｎａｇａｎ．ＳｐｅｅｃｈＡｎａｌｙｓｉｓＳｙｎｔｈｅｓｉｓａｎｄＰｅｒｃｅｐｔｉｏｎ．Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ，２ｎｄｅｄｉｔｉｏｎ，１９７２．ＩＳＢＮ９７８３６６２０１５６２９．
（参考文献２１）Ｋ．Ｌ．Ｆｏｒｓ．Ｐｒｏｄｕｃｔｉｏｎａｎｄｐｅｒｃｅｐｔｉｏｎｏｆｐａｕｓｅｓｉｎｓｐｅｅｃｈ．ＰｈＤｔｈｅｓｉｓ，ＤｅｐａｒｔｍｅｎｔｏｆＰｈｉｌｏｓｏｐｈｙ，Ｌｉｎｇｕｉｓｔｉｃｓ，ａｎｄＴｈｅｏｒｙｏｆＳｃｉｅｎｃｅ，ＵｎｉｖｅｒｓｉｔｙｏｆＧｏｔｈｅｎｂｕｒｇ，２０１５．
（参考文献２２）Ｓ．－Ｗ．Ｆｕ，Ｙ．Ｔｓａｏ，Ｘ．Ｌｕ，ａｎｄＨ．Ｋａｗａｉ．Ｒａｗｗａｖｅｆｏｒｍ－ｂａｓｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｂｙｆｕｌｌｙｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ．２０１７Ａｓｉａ－ＰａｃｉｆｉｃＳｉｇｎａｌａｎｄＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＡｓｓｏｃｉａｔｉｏｎＡｎｎｕａｌＳｕｍｍｉｔａｎｄＣｏｎｆｅｒｅｎｃｅ（ＡＰＳＩＰＡＡＳＣ），Ｄｅｃ．２０１７．ｄｏｉ：１０．１１０９／ａｐｓｉｐａ．２０１７．８２８１９９３．ＵＲＬｈｔｔｐ：／／ｄＸ．ｄｏｉ．ｏｒｇ／１０．１１０９／ＡＰＳＩＰＡ．２０１７．８２８１９９３．
（参考文献２３）Ａ．Ｇａｂｂａｙ，Ａ．Ｅｐｈｒａｔ，Ｔ．Ｈａｌｐｅｒｉｎ，ａｎｄＳ．Ｐｅｌｅｇ．Ｓｅｅｉｎｇｔｈｒｏｕｇｈｎｏｉｓｅ：Ｖｉｓｕａｌｌｙｄｒｉｖｅｎｓｐｅａｋｅｒｓｅｐａｒａｔｉｏｎａｎｄｅｎｈａｎｃｅｍｅｎｔ，２０１７．
（参考文献２４）Ａ．Ｇａｂｂａｙ，Ａ．Ｓｈａｍｉｒ，ａｎｄＳ．Ｐｅｌｅｇ．Ｖｉｓｕａｌｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ，２０１７．
（参考文献２５）Ｊ．Ｆ．Ｇｅｍｍｅｋｅ，Ｄ．Ｐ．Ｗ．Ｅｌｌｉｓ，Ｄ．Ｆｒｅｅｄｍａｎ，Ａ．Ｊａｎｓｅｎ，Ｗ．Ｌａｗｒｅｎｃｅ，Ｒ．Ｃ．Ｍｏｏｒｅ，Ｍ．Ｐｌａｋａｌ，ａｎｄＭ．Ｒｉｔｔｅｒ．Ａｕｄｉｏｓｅｔ：Ａｎｏｎｔｏｌｏｇｙａｎｄｈｕｍａｎ－ｌａｂｅｌｅｄｄａｔａｓｅｔｆｏｒａｕｄｉｏｅｖｅｎｔｓ．ＩｎＰｒｏｃ．ＩＥＥＥＩＣＡＳＳＰ２０１７，ＮｅｗＯｒｌｅａｎｓ，ＬＡ，２０１７．
（参考文献２６）Ｔ．Ｇｅｒｋｍａｎｎ，Ｍ．Ｋｒａｗｃｚｙｋ－Ｂｅｃｋｅｒ，ａｎｄＪ．ＬｅＲｏｕｘ．Ｐｈａｓｅｐｒｏｃｅｓｓｉｎｇｆｏｒｓｉｎｇｌｅ－ｃｈａｎｎｅｌｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ：Ｈｉｓｔｏｒｙａｎｄｒｅｃｅｎｔａｄｖａｎｃｅｓ．ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＭａｇａｚｉｎｅ，３２（２）：５５－６６，２０１５．
（参考文献２７）Ｆ．Ｇ．Ｇｅｒｍａｉｎ，Ｇ．Ｊ．Ｍｙｓｏｒｅ，ａｎｄＴ．Ｆｕｊｉｏｋａ．Ｅｑｕａｌｉｚａｔｉｏｎｍａｔｃｈｉｎｇｏｆｓｐｅｅｃｈｒｅｃｏｒｄｉｎｇｓｉｎｒｅａｌ－ｗｏｒｌｄｅｎｖｉｒｏｎｍｅｎｔｓ．Ｉｎ２０１６ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），ｐａｇｅｓ６０９－６１３，２０１６．
（参考文献２８）Ｆ．Ｇ．Ｇｅｒｍａｉｎ，Ｑ．Ｃｈｅｎ，ａｎｄＶ．Ｋｏｌｔｕｎ．Ｓｐｅｅｃｈｄｅｎｏｉｓｉｎｇｗｉｔｈｄｅｅｐｆｅａｔｕｒｅｌｏｓｓｅｓ．ＩｎＰｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１９，ｐａｇｅｓ２７２３－２７２７，２０１９．ｄｏｉ：１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１９－１９２４．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１９－１９２４．
（参考文献２９）Ｌ．Ｇｉｒｉｎ，Ｊ．－Ｌ．Ｓｃｈｗａｒｔｚ，ａｎｄＧ．Ｆｅｎｇ．Ａｕｄｉｏ－ｖｉｓｕａｌｅｎｈａｎｃｅｍｅｎｔｏｆｓｐｅｅｃｈｉｎｎｏｉｓｅ．ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，１０９（６）：３００７－３０２０，２００１．ｄｏｉ：１０．１１２１／１．１３５８８８７．ＵＲＬｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１１２１／１．１３５８８８７．
（参考文献３０）Ｍ．Ｇｏｇａｔｅ，Ａ．Ａｄｅｅｌ，Ｋ．Ｄａｓｈｔｉｐｏｕｒ，Ｐ．Ｄｅｒｌｅｔｈ，ａｎｄＡ．Ｈｕｓｓａｉｎ．Ａｖｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｃｈａｌｌｅｎｇｅｕｓｉｎｇａｒｅａｌｎｏｉｓｙｃｏｒｐｕｓ，２０１９．
（参考文献３１）Ｉ．Ｊ．Ｇｏｏｄｆｅｌｌｏｗ，Ｊ．Ｐｏｕｇｅｔ－Ａｂａｄｉｅ，Ｍ．Ｍｉｒｚａ，Ｂ．Ｘｕ，Ｄ．Ｗａｒｄｅ－Ｆａｒｌｅｙ，Ｓ．Ｏｚａｉｒ，Ａ．Ｃｏｕｒｖｉｌｌｅ，ａｎｄＹ．Ｂｅｎｇｉｏ．Ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｓ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ－Ｖｏｌｕｍｅ２，Ｎｉｐｓ' １４，ｐａｇｅ２６７２－２６８０，Ｃａｍｂｒｉｄｇｅ，ＭＡ，ＵＳＡ，２０１４．ＭＩＴＰｒｅｓｓ．（参考文献３２）Ｈ．－Ｇ．ＨｉｒｓｃｈａｎｄＣ．Ｅｈｒｌｉｃｈｅｒ．Ｎｏｉｓｅｅｓｔｉｍａｔｉｏｎｔｅｃｈｎｉｑｕｅｓｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．１９９５ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１：１５３－１５６ｖｏｌ．１，１９９５．
（参考文献３３）Ｓ．ＨｏｃｈｒｅｉｔｅｒａｎｄＪ．Ｓｃｈｍｉｄｈｕｂｅｒ．Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，９：１７３５－８０，１２１９９７．ｄｏｉ：１０．１１６２／ｎｅｃｏ．１９９７．９．８．１７３５．
（参考文献３４）Ｊ．－Ｃ．Ｈｏｕ，Ｓ．－Ｓ．Ｗａｎｇ，Ｙ．－Ｈ．Ｌａｉ，Ｙ．Ｔｓａｏ，Ｈ．－Ｗ．Ｃｈａｎｇ，ａｎｄＨ．－ｍ．Ｗａｎｇ．Ａｕｄｉｏ－ｖｉｓｕａｌｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｕｓｉｎｇｍｕｌｔｉｍｏｄａｌｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＥｍｅｒｇｉｎｇＴｏｐｉｃｓｉｎＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２，０３２０１８．ｄｏｉ：１０．１１０９／ｔｅｔｃｉ．２０１７．２７８４８７８．
（参考文献３５）Ｙ．ＨｕａｎｄＰ．Ｌｏｉｚｏｕ．Ｅｖａｌｕａｔｉｏｎｏｆｏｂｊｅｃｔｉｖｅｑｕａｌｉｔｙｍｅａｓｕｒｅｓｆｏｒｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．Ａｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，１６：２２９－２３８，０２２００８．ｄｏｉ：１０．１１０９／ｔａｓｌ．２００７．９１１０５４．
（参考文献３６）Ｓ．Ｉｉｚｕｋａ，Ｅ．Ｓｉｍｏ－Ｓｅｒｒａ，ａｎｄＨ．Ｉｓｈｉｋａｗａ．Ｇｌｏｂａｌｌｙａｎｄｌｏｃａｌｌｙｃｏｎｓｉｓｔｅｎｔｉｍａｇｅｃｏｍｐｌｅｔｉｏｎ．ＡＣＭＴｒａｎｓ．Ｇｒａｐｈ．，３６（４），Ｊｕｌｙ２０１７．ＩＳＳＮ０７３０－０３０１．ｄｏｉ：１０．１１４５／３０７２９５９．３０７３６５９．ＵＲＬｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１１４５／３０７２９５９．３０７３６５９．
（参考文献３７）Ａ．Ｉｎｃ．Ａｄｏｂｅａｕｄｉｔｉｏｎ，２０２０．ＵＲＬｈｔｔｐｓ：／／ｗｗｗ．ａｄｏｂｅ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／ａｕｄｉｔｉｏｎ．ｈｔｍｌ．
（参考文献３８）ＪａｅＬｉｍａｎｄＡ．Ｏｐｐｅｎｈｅｉｍ．Ａｌｌ－ｐｏｌｅｍｏｄｅｌｉｎｇｏｆｄｅｇｒａｄｅｄｓｐｅｅｃｈ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２６（３）：１９７－２１０，１９７８．
（参考文献３９）Ｎ．Ｋａｌｃｈｂｒｅｎｎｅｒ，Ｅ．Ｅｌｓｅｎ，Ｋ．Ｓｉｍｏｎｙａｎ，Ｓ．Ｎｏｕｒｙ，Ｎ．Ｃａｓａｇｒａｎｄｅ，Ｅ．Ｌｏｃｋｈａｒｔ，Ｆ．Ｓｔｉｍｂｅｒｇ，Ａ．ｖａｎｄｅｎＯｏｒｄ，Ｓ．Ｄｉｅｌｅｍａｎ，ａｎｄＫ．Ｋａｖｕｋｃｕｏｇｌｕ．Ｅｆｆｉｃｉｅｎｔｎｅｕｒａｌａｕｄｉｏｓｙｎｔｈｅｓｉｓ，２０１８．
（参考文献４０）Ａ．Ｊ．Ｅ．ＫｅｌｌａｎｄＪ．Ｈ．ＭｃＤｅｒｍｏｔｔ．Ｉｎｖａｒｉａｎｃｅｔｏｂａｃｋｇｒｏｕｎｄｎｏｉｓｅａｓａｓｉｇｎａｔｕｒｅｏｆｎｏｎ－ｐｒｉｍａｒｙａｕｄｉｔｏｒｙｃｏｒｔｅｘ．ＮａｔｕｒｅＣｏｍｍｕｎｉｃａｔｉｏｎｓ，１０（１）：３９５８，Ｓｅｐｔ．２０１９．ＩＳＳＮ２０４１－１７２３．ｄｏｉ：１０．１０３８／ｓ４１４６７－０１９－１１７１０－ｙ．ＵＲＬｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１０３８／ｓ４１４６７－０１９－１１７１０－ｙ．
（参考文献４１）Ａ．ＫｕｍａｒａｎｄＤ．Ｆｌｏｒｅｎｃｉｏ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｉｎｍｕｌｔｉｐｌｅ－ｎｏｉｓｅｃｏｎｄｉｔｉｏｎｓｕｓｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１６，Ｓｅｐｔ．２０１６．ｄｏｉ：１０．２１４３７／ｉｎｔｅｒｓｐｅｅｃｈ．２０１６－８８．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１６－８８．
（参考文献４２）Ａ．ＫｕｍａｒａｎｄＤ．Ａ．Ｆ．Ｆｌｏｒｅｎｃｉｏ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｉｎｍｕｌｔｉｐｌｅ－ｎｏｉｓｅｃｏｎｄｉｔｉｏｎｓｕｓｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＩｎＩｎｔｅｒｓｐｅｅｃｈ，２０１６．
（参考文献４３）Ｒ．ＬｅＢｏｕｑｕｉｎＪｅａｎｎｅｓａｎｄＧ．Ｆａｕｃｏｎ．Ｐｒｏｐｏｓａｌｏｆａｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒｆｏｒｎｏｉｓｅｒｅｄｕｃｔｉｏｎ．ＥｌｅｃｔｒｏｎｉｃｓＬｅｔｔｅｒｓ，３０（１２）：９３０－９３２，１９９４．
（参考文献４４）Ｒ．ＬｅＢｏｕｑｕｉｎＪｅａｎｎｅｓａｎｄＧ．Ｆａｕｃｏｎ．Ｓｔｕｄｙｏｆａｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒａｎｄｉｔｓｉｎｆｌｕｅｎｃｅｏｎａｎｏｉｓｅｒｅｄｕｃｔｉｏｎｓｙｓｔｅｍ．ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，１６（３）：２４５－２５４，１９９５．ＩＳＳＮ０１６７－６３９３．ｄｏｉ：ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１０１６／０１６７－６３９３（９４）０００５６－Ｇ．ＵＲＬｈｔｔｐ：／／ｗｗｗ．ｓｃｉｅｎｃｅｄｉｒｅｃｔ．ｃｏｍ／ｓｃｉｅｎｃｅ／ａｒｔｉｃｌｅ／ｐｉｉ／０１６７６３９３９４０００５６Ｇ．
（参考文献４５）Ｔ．ＬｅＣｏｒｎｕａｎｄＢ．Ｍｉｌｎｅｒ．Ｇｅｎｅｒａｔｉｎｇｉｎｔｅｌｌｉｇｉｂｌｅａｕｄｉｏｓｐｅｅｃｈｆｒｏｍｖｉｓｕａｌｓｐｅｅｃｈ．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２５（９）：１７５１－１７６１，２０１７．
（参考文献４６）Ｊ．ＬｅＲｏｕｘａｎｄＥ．Ｖｉｎｃｅｎｔ．Ｃｏｎｓｉｓｔｅｎｔｗｉｅｎｅｒｆｉｌｔｅｒｉｎｇｆｏｒａｕｄｉｏｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ．ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ，２０（３）：２１７－２２０，２０１３．
（参考文献４７）Ｚ．Ｃ．Ｌｉｐｔｏｎ，Ｊ．Ｂｅｒｋｏｗｉｔｚ，ａｎｄＣ．Ｅｌｋａｎ．Ａｃｒｉｔｉｃａｌｒｅｖｉｅｗｏｆｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｓｅｑｕｅｎｃｅｌｅａｒｎｉｎｇ，２０１５．
（参考文献４８）Ｐ．Ｃ．Ｌｏｉｚｏｕ．ＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔ：ＴｈｅｏｒｙａｎｄＰｒａｃｔｉｃｅ．ＣＲＣＰｒｅｓｓ，Ｉｎｃ．，Ｕｓａ，２ｎｄｅｄｉｔｉｏｎ，２０１３．ＩＳＢＮ１４６６５０４２１８．
（参考文献４９）Ｘ．Ｌｕ，Ｙ．Ｔｓａｏ，Ｓ．Ｍａｔｓｕｄａ，ａｎｄＣ．Ｈｏｒｉ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｂａｓｅｄｏｎｄｅｅｐｄｅｎｏｉｓｉｎｇａｕｔｏｅｎｃｏｄｅｒ．ＩｎＩｎｔｅｒｓｐｅｅｃｈ，２０１３．
（参考文献５０）Ｙ．ＬｕｏａｎｄＮ．Ｍｅｓｇａｒａｎｉ．Ｃｏｎｖ－ｔａｓｎｅｔ：Ｓｕｒｐａｓｓｉｎｇｉｄｅａｌｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｍａｇｎｉｔｕｄｅｍａｓｋｉｎｇｆｏｒｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎ．ＩＥＥＥ／ＡＣＭＴｒａｎｓ．Ａｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇ．Ｐｒｏｃ．，２７（８）：１２５６－１２６６，Ａｕｇ．２０１９．ＩＳＳＮ２３２９－９２９０．ｄｏｉ：１０．１１０９／ｔａｓｌｐ．２０１９．２９１５１６７．ＵＲＬｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１１０９／ＴＡＳＬＰ．２０１９．２９１５１６７．
（参考文献５１）Ａ．Ｌ．Ｍａａｓ，Ｑ．Ｖ．Ｌｅ，Ｔ．Ｍ．Ｏ'Ｎｅｉｌ，Ｏ．Ｖｉｎｙａｌｓ，Ｐ．Ｎｇｕｙｅｎ，ａｎｄＡ．Ｙ．Ｎｇ．Ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｎｏｉｓｅｒｅｄｕｃｔｉｏｎｉｎｒｏｂｕｓｔａｓｒ．ＩｎＩｎｔｅｒｓｐｅｅｃｈ，２０１２．
（参考文献５２）Ｒ．Ｍａｒｔｉｎ．Ｎｏｉｓｅｐｏｗｅｒｓｐｅｃｔｒａｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎｂａｓｅｄｏｎｏｐｔｉｍａｌｓｍｏｏｔｈｉｎｇａｎｄｍｉｎｉｍｕｍｓｔａｔｉｓｔｉｃｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，９（５）：５０４－５１２，２００１．
（参考文献５３）Ｓ．Ｍｅｈｒｉ，Ｋ．Ｋｕｍａｒ，Ｉ．Ｇｕｌｒａｊａｎｉ，Ｒ．Ｋｕｍａｒ，Ｓ．Ｊａｉｎ，Ｊ．Ｓｏｔｅｌｏ，Ａ．Ｃｏｕｒｖｉｌｌｅ，ａｎｄＹ．Ｂｅｎｇｉｏ．Ｓａｍｐｌｅｒｎｎ：Ａｎｕｎｃｏｎｄｉｔｉｏｎａｌｅｎｄ－ｔｏ－ｅｎｄｎｅｕｒａｌａｕｄｉｏｇｅｎｅｒａｔｉｏｎｍｏｄｅｌ，２０１６．
（参考文献５４）Ｍ．ＭｉｃｈｅｌａｓｈｖｉｌｉａｎｄＬ．Ｗｏｌｆ．Ａｕｄｉｏｄｅｎｏｉｓｉｎｇｗｉｔｈｄｅｅｐｎｅｔｗｏｒｋｐｒｉｏｒｓ，２０１９．
（参考文献５５）Ｊ．Ａ．Ｍｏｏｒｅｒ．Ａｎｏｔｅｏｎｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆａｕｄｉｏｐｒｏｃｅｓｓｉｎｇｂｙｓｈｏｒｔ－ｔｅｒｍｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ．Ｉｎ２０１７ＩＥＥＥＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓ（ＷＡＳＰＡＡ），ｐａｇｅｓ１５６－１５９，２０１７．
（参考文献５６）Ａ．ＮａｒａｙａｎａｎａｎｄＤ．Ｗａｎｇ．Ｉｄｅａｌｒａｔｉｏｍａｓｋｅｓｔｉｍａｔｉｏｎｕｓｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．Ｉｎ２０１３ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｐａｇｅｓ７０９２－７０９６，２０１３．
（参考文献５７）Ｋ．Ｎｏｄａ，Ｙ．Ｙａｍａｇｕｃｈｉ，Ｋ．Ｎａｋａｄａｉ，Ｈ．Ｇ．Ｏｋｕｎｏ，ａｎｄＴ．Ｏｇａｔａ．Ａｕｄｉｏ－ｖｉｓｕａｌｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｄｅｅｐｌｅａｒｎｉｎｇ．ＡｐｐｌｉｅｄＩｎｔｅｌｌｉｇｅｎｃｅ，４２（４）：７２２－７３７，Ｊｕｎｅ２０１５．ＩＳＳＮ０９２４－６６９ｘ．ｄｏｉ：１０．１００７／ｓ１０４８９－０１４－０６２９－７．ＵＲＬｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１００７／ｓ１０４８９－０１４－０６２９－７．
（参考文献５８）Ａ．ＯｗｅｎｓａｎｄＡ．Ａ．Ｅｆｒｏｓ．Ａｕｄｉｏ－ｖｉｓｕａｌｓｃｅｎｅａｎａｌｙｓｉｓｗｉｔｈｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｍｕｌｔｉｓｅｎｓｏｒｙｆｅａｔｕｒｅｓ．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ｐａｇｅ６３９－６５８，２０１８．ＩＳＳＮ１６１１－３３４９．ｄｏｉ：１０．１００７／９７８－３－０３０－０１２３１－１￥＿３９．ＵＲＬｈｔｔｐ：／／ｄＸ．ｄｏｉ．ｏｒｇ／１０．１００７／９７８－３－０３０－０１２３１－１＿３９．
（参考文献５９）Ａ．Ｏｗｅｎｓ，Ｐ．Ｉｓｏｌａ，Ｊ．ＭｃＤｅｒｍｏｔｔ，Ａ．Ｔｏｒｒａｌｂａ，Ｅ．Ｈ．Ａｄｅｌｓｏｎ，ａｎｄＷ．Ｔ．Ｆｒｅｅｍａｎ．Ｖｉｓｕａｌｌｙｉｎｄｉｃａｔｅｄｓｏｕｎｄｓ．２０１６ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ），Ｊｕｎｅ２０１６．ｄｏｉ：１０．１１０９／ｃｖｐｒ．２０１６．２６４．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．１１０９／ＣＶＰＲ．２０１６．２６４．
（参考文献６０）Ａ．Ｏｗｅｎｓ，Ｊ．Ｗｕ，Ｊ．Ｈ．ＭｃＤｅｒｍｏｔｔ，Ｗ．Ｔ．Ｆｒｅｅｍａｎ，ａｎｄＡ．Ｔｏｒｒａｌｂａ．Ａｍｂｉｅｎｔｓｏｕｎｄｐｒｏｖｉｄｅｓｓｕｐｅｒｖｉｓｉｏｎｆｏｒｖｉｓｕａｌｌｅａｒｎｉｎｇ．ＩｎＥｕｒｏｐｅａｎｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ，ｐａｇｅｓ８０１－８１６．Ｓｐｒｉｎｇｅｒ，２０１６．
（参考文献６１）Ｋ．Ｐａｌｉｗａｌ，Ｋ．Ｗｏｊｃｉｃｋｉ，ａｎｄＢ．Ｓｈａｎｎｏｎ．Ｔｈｅｉｍｐｏｒｔａｎｃｅｏｆｐｈａｓｅｉｎｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．ＳｐｅｅｃｈＣｏｍｍｕｎ．，５３（４）：４６５－４９４，Ａｐｒ．２０１１．ＩＳＳＮ０１６７－６３９３．ｄｏｉ：１０．１０１６／ｊ．ｓｐｅｃｏｍ．２０１０．１２．００３．ＵＲＬｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１０１６／ｊ．ｓｐｅｃｏｍ．２０１０．１２．００３．
（参考文献６２）Ａ．ＰａｎｄｅｙａｎｄＤ．Ｗａｎｇ．Ａｎｅｗｆｒａｍｅｗｏｒｋｆｏｒｓｕｐｅｒｖｉｓｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｉｎｔｈｅｔｉｍｅｄｏｍａｉｎ．ＩｎＰｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１８，ｐａｇｅｓ１１３６－１１４０，２０１８．ｄｏｉ：１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１８－１２２３．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１８－１２２３．
（参考文献６３）Ｓ．ＰａｒｖｅｅｎａｎｄＰ．Ｇｒｅｅｎ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｗｉｔｈｍｉｓｓｉｎｇｄａｔａｔｅｃｈｎｉｑｕｅｓｕｓｉｎｇｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ．Ｉｎ２００４ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌｕｍｅ１，ｐａｇｅｓＩ－７３３，２００４．
（参考文献６４）Ｓ．Ｐａｓｃｕａｌ，Ａ．Ｂｏｎａｆｏｎｔｅ，ａｎｄＪ．Ｓｅｒｒａ．Ｓｅｇａｎ：Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ．ＩｎＰｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１７，ｐａｇｅｓ３６４２－３６４６，２０１７．ｄｏｉ：１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１７－１４２８．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１７－１４２８．
（参考文献６５）Ｓ．Ｐａｓｃｕａｌ，Ｊ．Ｓｅｒｒａ，ａｎｄＡ．Ｂｏｎａｆｏｎｔｅ．Ｔｏｗａｒｄｓｇｅｎｅｒａｌｉｚｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｗｉｔｈｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ．ＩｎＰｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１９，ｐａｇｅｓ１７９１－１７９５，２０１９．ｄｏｉ：１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１９－２６８８．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１９－２６８８．
（参考文献６６）Ｌ．ｐｉｎｇＹａｎｇａｎｄＱ．－Ｊ．Ｆｕ．Ｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｉｏｎ－ｂａｓｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｆｏｒｃｏｃｈｌｅａｒｉｍｐｌａｎｔｐａｔｉｅｎｔｓｉｎｂａｃｋｇｒｏｕｎｄｎｏｉｓｅ．ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，１１７３Ｐｔ１：１００１－４，２００５．
（参考文献６７）Ｈ．Ｐｕｒｗｉｎｓ，Ｂ．Ｌｉ，Ｔ．Ｖｉｒｔａｎｅｎ，Ｊ．Ｓｃｈｌｕｔｅｒ，Ｓ．－Ｙ．Ｃｈａｎｇ，ａｎｄＴ．Ｓａｉｎａｔｈ．Ｄｅｅｐｌｅａｒｎｉｎｇｆｏｒａｕｄｉｏｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ．ＩＥＥＥＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，１３（２）：２０６－２１９，Ｍａｙ２０１９．ＩＳＳＮ１９４１－０４８４．ｄｏｉ：１０．１１０９／ｊｓｔｓｐ．２０１９．２９０８７００．ＵＲＬｈｔｔｐ：／／ｄＸ．ｄｏｉ．ｏｒｇ／１０．１１０９／ＪＳＴＳＰ．２０１９．２９０８７００．
（参考文献６８）Ｋ．Ｑｉａｎ，Ｙ．Ｚｈａｎｇ，Ｓ．Ｃｈａｎｇ，Ｘ．Ｙａｎｇ，Ｄ．Ｆｌｏｒｅｎｃｉｏ，ａｎｄＭ．Ｈａｓｅｇａｗａ－Ｊｏｈｎｓｏｎ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｕｓｉｎｇｂａｙｅｓｉａｎｗａｖｅｎｅｔ．ＩｎＰｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２０１７，ｐａｇｅｓ２０１３－２０１７，２０１７．ｄｏｉ：１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１７－１６７２．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．２１４３７／Ｉｎｔｅｒｓｐｅｅｃｈ．２０１７－１６７２．
（参考文献６９）Ｓ．Ｒａｎｇａｃｈａｒｉ，Ｐ．Ｃ．Ｌｏｉｚｏｕ，ａｎｄＹｉＨｕ．Ａｎｏｉｓｅｅｓｔｉｍａｔｉｏｎａｌｇｏｒｉｔｈｍｗｉｔｈｒａｐｉｄａｄａｐｔａｔｉｏｎｆｏｒｈｉｇｈｌｙｎｏｎｓｔａｔｉｏｎａｒｙｅｎｖｉｒｏｎｍｅｎｔｓ．Ｉｎ２００４ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌｕｍｅ１，ｐａｇｅｓＩ－３０５，２００４．
（参考文献７０）Ｄ．Ｒｅｔｈａｇｅ，Ｊ．Ｐｏｎｓ，ａｎｄＸ．Ｓｅｒｒａ．Ａｗａｖｅｎｅｔｆｏｒｓｐｅｅｃｈｄｅｎｏｉｓｉｎｇ．Ｉｎ２０１８ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），ｐａｇｅｓ５０６９－５０７３，２０１８．
（参考文献７１）Ａ．Ｒｉｘ，Ｊ．Ｂｅｅｒｅｎｄｓ，Ｍ．Ｈｏｌｌｉｅｒ，ａｎｄＡ．Ｈｅｋｓｔｒａ．Ｐｅｒｃｅｐｔｕａｌｅｖａｌｕａｔｉｏｎｏｆｓｐｅｅｃｈｑｕａｌｉｔｙ（ｐｅｓｑ）：Ａｎｅｗｍｅｔｈｏｄｆｏｒｓｐｅｅｃｈｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｏｆｔｅｌｅｐｈｏｎｅｎｅｔｗｏｒｋｓａｎｄｃｏｄｅｃｓ．Ｉｎ２００１ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．Ｐｒｏｃｅｅｄｉｎｇｓ（Ｃａｔ．Ｎｏ．０１ＣＨ３７２２１），ｖｏｌｕｍｅ２，ｐａｇｅｓ７４９－７５２ｖｏｌ．２，０２２００１．ＩＳＢＮ０－７８０３－７０４１－４．ｄｏｉ：１０．１１０９／ｉｃａｓｓｐ．２００１．９４１０２３．
（参考文献７２）Ｓ．Ｒ．Ｒｏｃｈｅｓｔｅｒ．Ｔｈｅｓｉｇｎｉｆｉｃａｎｃｅｏｆｐａｕｓｅｓｉｎｓｐｏｎｔａｎｅｏｕｓｓｐｅｅｃｈ．ＪｏｕｒｎａｌｏｆＰｓｙｃｈｏｌｉｎｇｕｉｓｔｉｃＲｅｓｅａｒｃｈ，２（１）：５１－８１，１９７３．
（参考文献７３）Ｔ．Ｓａｉｎｂｕｒｇ．Ｎｏｉｓｅｒｅｄｕｃｔｉｏｎｉｎｐｙｔｈｏｎｕｓｉｎｇｓｐｅｃｔｒａｌｇａｔｉｎｇ．ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｔｉｍｓａｉｎｂ／ｎｏｉｓｅｒｅｄｕｃｅ，２０１９．
（参考文献７４）Ｐ．ＳｃａｌａｒｔａｎｄＪ．Ｖ．Ｆｉｌｈｏ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｂａｓｅｄｏｎａｐｒｉｏｒｉｓｉｇｎａｌｔｏｎｏｉｓｅｅｓｔｉｍａｔｉｏｎ．Ｉｎ１９９６ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅＰｒｏｃｅｅｄｉｎｇｓ，ｖｏｌｕｍｅ２，ｐａｇｅｓ６２９－６３２ｖｏｌ．２，１９９６．
（参考文献７５）Ｍ．ＳｃｈｕｓｔｅｒａｎｄＫ．Ｐａｌｉｗａｌ．Ｂｉｄｉｒｅｃｔｉｏｎａｌｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎ，４５３２６７３－２６８１，１２１９９７．ｄｏｉ：１０．１１０９／７８．６５００９３．
（参考文献７６）Ｍ．Ａ．Ｃ．ＳｃｈｕｙｌｅｒＲ．Ｑｕａｃｋｅｎｂｕｓｈ，ＴｈｏｍａｓＰ．Ｂａｒｎｗｅｌｌ．ＯｂｊｅｃｔｉｖｅＭｅａｓｕｒｅｓＯｆＳｐｅｅｃｈＱｕａｌｉｔｙ．ＰｒｅｎｔｉｃｅＨａｌｌ，ＥｎｇｌｅｗｏｏｄＣｌｉｆｆｓ，ＮＪ，１９８８．ＩＳＢＮ９７８０１３６２９０５６８．
（参考文献７７）Ｅ．Ｓｅｊｄｉｃ，Ｉ．Ｄｊｕｒｏｖｉｃ，ａｎｄＬ．Ｓｔａｎｋｏｖｉｃ．Ｑｕａｎｔｉｔａｔｉｖｅｐｅｒｆｏｒｍａｎｃｅａｎａｌｙｓｉｓｏｆｓｃａｌｏｇｒａｍａｓｉｎｓｔａｎｔａｎｅｏｕｓｆｒｅｑｕｅｎｃｙｅｓｔｉｍａｔｏｒ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，５６（８）：３８３７－３８４５，２００８．
（参考文献７８）Ｐ．Ｓｍａｒａｇｄｉｓ，Ｃ．Ｆｅｖｏｔｔｅ，Ｇ．Ｊ．Ｍｙｓｏｒｅ，Ｎ．Ｍｏｈａｍｍａｄｉｈａ，ａｎｄＭ．Ｈｏｆｆｍａｎ．Ｓｔａｔｉｃａｎｄｄｙｎａｍｉｃｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎｕｓｉｎｇｎｏｎｎｅｇａｔｉｖｅｆａｃｔｏｒｉｚａｔｉｏｎｓ：Ａｕｎｉｆｉｅｄｖｉｅｗ．ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＭａｇａｚｉｎｅ，３１（３）：６６－７５，２０１４．
（参考文献７９）Ｋ．Ｖ．ＳｏｒｅｎｓｅｎａｎｄＳ．Ｖ．Ａｎｄｅｒｓｅｎ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｗｉｔｈｎａｔｕｒａｌｓｏｕｎｄｉｎｇｒｅｓｉｄｕａｌｎｏｉｓｅｂａｓｅｄｏｎｃｏｎｎｅｃｔｅｄｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｓｐｅｅｃｈｐｒｅｓｅｎｃｅｒｅｇｉｏｎｓ．ＥＵＲＡＳＩＰＪ．Ａｄｖ．ＳｉｇｎａｌＰｒｏｃｅｓｓ，
（参考文献８０）Ｃ．Ｔａａｌ，Ｒ．Ｈｅｎｄｒｉｋｓ，Ｒ．Ｈｅｕｓｄｅｎｓ，ａｎｄＪ．Ｊｅｎｓｅｎ．Ａｓｈｏｒｔ－ｔｉｍｅｏｂｊｅｃｔｉｖｅｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙｍｅａｓｕｒｅｆｏｒｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｗｅｉｇｈｔｅｄｎｏｉｓｙｓｐｅｅｃｈ．Ｉｎ２０１０ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｐａｇｅｓ４２１４－４２１７，０４２０１０．ｄｏｉ：１０．１１０９／ｉｃａｓｓｐ．２０１０．５４９５７０１．
（参考文献８１）Ｓ．ＴａｍｕｒａａｎｄＡ．Ｗａｉｂｅｌ．Ｎｏｉｓｅｒｅｄｕｃｔｉｏｎｕｓｉｎｇｃｏｎｎｅｃｔｉｏｎｉｓｔｍｏｄｅｌｓ．ＩｎＩＣＡＳＳＰ－８８．，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｐａｇｅｓ５５３－５５６ｖｏｌ．１，１９８８．
（参考文献８２）Ｊ．Ｔｈｉｅｍａｎｎ，Ｎ．Ｉｔｏ，ａｎｄＥ．Ｖｉｎｃｅｎｔ．Ｔｈｅｄｉｖｅｒｓｅｅｎｖｉｒｏｎｍｅｎｔｓｍｕｌｔｉ－ｃｈａｎｎｅｌａｃｏｕｓｔｉｃｎｏｉｓｅｄａｔａｂａｓｅ（ｄｅｍａｎｄ）：Ａｄａｔａｂａｓｅｏｆｍｕｌｔｉｃｈａｎｎｅｌｅｎｖｉｒｏｎｍｅｎｔａｌｎｏｉｓｅｒｅｃｏｒｄｉｎｇｓ．Ｉｎ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｇｒｅｓｓｏｎＡｃｏｕｓｔｉｃｓ，Ｍｏｎｔｒｅａｌ，Ｃａｎａｄａ，Ｊｕｎｅ２０１３．ＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ．ｄｏｉ：１０．５２８１／ｚｅｎｏｄｏ．１２２７１２０．ＵＲＬｈｔｔｐｓ：／／ｈａｌ．ｉｎｒｉａ．ｆｒ／ｈａ１－００７９６７０７．ＴｈｅｄａｔａｓｅｔｉｔｓｅｌｆｉｓａｒｃｈｉｖｅｄｏｎＺｅｎｏｄｏ，ｗｉｔｈＤＯＩ１０．５２８１／ｚｅｎｏｄｏ．１２２７１２０．
（参考文献８３）Ｃ．Ｖａｌｅｎｔｉｎｉ－Ｂｏｔｉｎｈａｏ，Ｘ．Ｗａｎｇ，Ｓ．Ｔａｋａｋｉ，ａｎｄＪ．Ｙａｍａｇｉｓｈｉ．Ｉｎｖｅｓｔｉｇａｔｉｎｇｒｎｎ－ｂａｓｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｍｅｔｈｏｄｓｆｏｒｎｏｉｓｅ－ｒｏｂｕｓｔｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈ．Ｉｎ９ｔｈＩＳＣＡＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＷｏｒｋｓｈｏｐ，ｐａｇｅｓ１４６－１５２，２０１６．ｄｏｉ：１０．２１４３７／ｓｓｗ．２０１６－２４．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．２１４３７／ＳＳＷ．２０１６－２４．
（参考文献８４）Ａ．ｖａｎｄｅｎＯｏｒｄ，Ｓ．Ｄｉｅｌｅｍａｎ，Ｈ．Ｚｅｎ，Ｋ．Ｓｉｍｏｎｙａｎ，Ｏ．Ｖｉｎｙａｌｓ，Ａ．Ｇｒａｖｅｓ，Ｎ．Ｋａｌｃｈｂｒｅｎｎｅｒ，Ａ．Ｗ．Ｓｅｎｉｏｒ，ａｎｄＫ．Ｋａｖｕｋｃｕｏｇｌｕ．Ｗａｖｅｎｅｔ：Ａｇｅｎｅｒａｔｉｖｅｍｏｄｅｌｆｏｒｒａｗａｕｄｉｏ．ＡｒＸｉｖ，ａｂｓ／１６０９．０３４９９，２０１６．
（参考文献８５）Ｄ．ＷａｎｇａｎｄＪ．Ｃｈｅｎ．Ｓｕｐｅｒｖｉｓｅｄｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎｂａｓｅｄｏｎｄｅｅｐｌｅａｒｎｉｎｇ：Ａｎｏｖｅｒｖｉｅｗ．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２６（１０）：１７０２－１７２６，Ｏｃｔ２０１８．ＩＳＳＮ２３２９－９３０４．ｄｏｉ：１０．１１０９／ｔａｓｌｐ．２０１８．２８４２１５９．ＵＲＬｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．１１０９／ＴＡＳＬＰ．２０１８．２８４２１５９．
（参考文献８６）Ｄ．ＷａｎｇａｎｄＪａｅＬｉｍ．Ｔｈｅｕｎｉｍｐｏｒｔａｎｃｅｏｆｐｈａｓｅｉｎｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，３０（４）：６７９－６８１，１９８２．
（参考文献８７）Ｙ．ＷａｎｇａｎｄＤ．Ｗａｎｇ．Ｃｏｃｋｔａｉｌｐａｒｔｙｐｒｏｃｅｓｓｉｎｇｖｉａｓｔｒｕｃｔｕｒｅｄｐｒｅｄｉｃｔｉｏｎ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ－Ｖｏｌｕｍｅ１，Ｎｉｐｓ' １２，ｐａｇｅ２２４－２３２，ＲｅｄＨｏｏｋ，ＮＹ，ＵＳＡ，２０１２．ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓＩｎｃ．
（参考文献８８）Ｙ．ＷａｎｇａｎｄＤ．Ｗａｎｇ．Ａｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｔｉｍｅ－ｄｏｍａｉｎｓｉｇｎａｌｒｅｃｏｎｓｔｒｕｃｔｉｏｎ．Ｉｎ２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），ｐａｇｅｓ４３９０－４３９４，２０１５．
（参考文献８９）Ｙ．Ｗａｎｇ，Ａ．Ｎａｒａｙａｎａｎ，ａｎｄＤ．Ｗａｎｇ．Ｏｎｔｒａｉｎｉｎｇｔａｒｇｅｔｓｆｏｒｓｕｐｅｒｖｉｓｅｄｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎ．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２２（１２）：１８４９－１８５８，２０１４．
（参考文献９０）Ｗ．ＷｅｉａｎｄＥ．Ｈｕｅｒｔａ．Ｇｒａｖｉｔａｔｉｏｎａｌｗａｖｅｄｅｎｏｉｓｉｎｇｏｆｂｉｎａｒｙｂｌａｃｋｈｏｌｅｍｅｒｇｅｒｓｗｉｔｈｄｅｅｐｌｅａｒｎｉｎｇ．ＰｈｙｓｉｃｓＬｅｔｔｅｒｓＢ，８００：１３５０８１，２０２０．
（参考文献９１）Ｍ．Ｒ．Ｗｅｉｓｓ，Ｅ．Ａｓｃｈｋｅｎａｓｙ，ａｎｄＴ．Ｗ．Ｐａｒｓｏｎｓ．Ｓｔｕｄｙａｎｄｄｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅｉｎｔｅｌｔｅｃｈ－ｎｉｑｕｅｆｏｒｉｍｐｒｏｖｉｎｇｓｐｅｅｃｈｉｎｔｅｌｌｉｇｉｂｉｌｉｔｙ．Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔｎｓｃ－ｆｒ／４０２３，ＮｉｃｏｌｅｔＳｃｉｅｎｔｉｆｉｃＣｏｒｐｏｒａｔｉｏｎ，１９７４．
（参考文献９２）Ｆ．Ｗｅｎｉｎｇｅｒ，Ｊ．Ｒ．Ｈｅｒｓｈｅｙ，Ｊ．ＬｅＲｏｕｘ，ａｎｄＢ．Ｓｃｈｕｌｌｅｒ．Ｄｉｓｃｒｉｍｉｎａｔｉｖｅｌｙｔｒａｉｎｅｄｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｓｉｎｇｌｅ－ｃｈａｎｎｅｌｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎ．Ｉｎ２０１４ＩＥＥＥＧｌｏｂａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｉｇｎａｌａｎｄＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ（ＧｌｏｂａｌＳＩＰ），ｐａｇｅｓ５７７－５８１，２０１４．
（参考文献９３）Ｆ．Ｗｅｎｉｎｇｅｒ，Ｈ．Ｅｒｄｏｇａｎ，Ｓ．Ｗａｔａｎａｂｅ，Ｅ．Ｖｉｎｃｅｎｔ，Ｊ．Ｒｏｕｘ，Ｊ．Ｒ．Ｈｅｒｓｈｅｙ，ａｎｄＢ．Ｓｃｈｕｌｌｅｒ．Ｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｗｉｔｈｌｓｔｍｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｎｏｉｓｅ－ｒｏｂｕｓｔａｓｒ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬａｔｅｎｔＶａｒｉａｂｌｅＡｎａｌｙｓｉｓａｎｄＳｉｇｎａｌＳｅｐａｒａｔｉｏｎ－Ｖｏｌｕｍｅ９２３７，Ｌｖａ／ｉｃａ２０１５，ｐａｇｅ９１－９９，Ｂｅｒｌｉｎ，Ｈｅｉｄｅｌｂｅｒｇ，２０１５．Ｓｐｒｉｎｇｅｒ－Ｖｅｒｌａｇ．ＩＳＢＮ９７８３３１９２２４８１７．ｄｏｉ：１０．１００７／９７８－３－３１９－２２４８２－４￥＿１１．ＵＲＬｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１００７／９７８－３－３１９－２２４８２－４＿１１．
（参考文献９４）Ｄ．Ｓ．ＷｉｌｌｉａｍｓｏｎａｎｄＤ．Ｗａｎｇ．Ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｍａｓｋｉｎｇｉｎｔｈｅｃｏｍｐｌｅｘｄｏｍａｉｎｆｏｒｓｐｅｅｃｈｄｅｒｅｖｅｒｂｅｒａｔｉｏｎａｎｄｄｅｎｏｉｓｉｎｇ．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２５（７）：１４９２－１５０１，２０１７．
（参考文献９５）Ｊ．Ｗｉｓｅｍａｎ．Ｐｙ－ｗｅｂｒｔｃｖａｄ．ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｗｉｓｅｍａｎ／ｐｙ－ｗｅｂｒｔｃｖａｄ，２０１９．
（参考文献９６）Ｌ．Ｗｙｓｅ．Ａｕｄｉｏｓｐｅｃｔｒｏｇｒａｍｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒｐｒｏｃｅｓｓｉｎｇｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，２０１７．
（参考文献９７）Ｙ．Ｘｕ，Ｊ．Ｄｕ，Ｌ．Ｄａｉ，ａｎｄＣ．Ｌｅｅ．Ａｎｅｘｐｅｒｉｍｅｎｔａｌｓｔｕｄｙｏｎｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｂａｓｅｄｏｎｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ，２１（１）：６５－６８，２０１４．
（参考文献９８）Ｙ．Ｘｕ，Ｊ．Ｄｕ，Ｌ．Ｄａｉ，ａｎｄＣ．Ｌｅｅ．Ａｒｅｇｒｅｓｓｉｏｎａｐｐｒｏａｃｈｔｏｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔｂａｓｅｄｏｎｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２３（１）：７－１９，２０１５．
（参考文献９９）Ｙ．Ｘｕ，Ｊ．Ｄｕ，Ｚ．Ｈｕａｎｇ，Ｌ．－Ｒ．Ｄａｉ，ａｎｄＣ．－Ｈ．Ｌｅｅ．Ｍｕｌｔｉ－ｏｂｊｅｃｔｉｖｅｌｅａｒｎｉｎｇａｎｄｍａｓｋ－ｂａｓｅｄｐｏｓｔ－ｐｒｏｃｅｓｓｉｎｇｆｏｒｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｂａｓｅｄｓｐｅｅｃｈｅｎｈａｎｃｅｍｅｎｔ．ＩｎＩｎｔｅｒｓｐｅｅｃｈ，２０１５．
（参考文献１００）Ｘ．ＺｈａｎｇａｎｄＤ．Ｗａｎｇ．Ａｄｅｅｐｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇｍｅｔｈｏｄｆｏｒｍｏｎａｕｒａｌｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎ．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２４（５）：９６７－９７７，２０１６．
（参考文献１０１）Ｚ．Ｚｈａｎｇ，Ｙ．Ｗａｎｇ，Ｃ．Ｇａｎ，Ｊ．Ｗｕ，Ｊ．Ｂ．Ｔｅｎｅｎｂａｕｍ，Ａ．Ｔｏｒｒａｌｂａ，ａｎｄＷ．Ｔ．Ｆｒｅｅｍａｎ．Ｄｅｅｐａｕｄｉｏｐｒｉｏｒｓｅｍｅｒｇｅｆｒｏｍｈａｒｍｏｎｉｃｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ，２０２０．ＵＲＬｈｔｔｐｓ：／／ｏｐｅｎｒｅｖｉｅｗ．ｎｅｔ／ｆｏｒｕｍｉｄ＝ｒｙｇｊＨＸｒＹＤＢ．
（参考文献１０２）Ｈ．Ｚｈａｏ，Ｃ．Ｇａｎ，Ａ．Ｒｏｕｄｉｔｃｈｅｎｋｏ，Ｃ．Ｖｏｎｄｒｉｃｋ，Ｊ．ＭｃＤｅｒｍｏｔｔ，ａｎｄＡ．Ｔｏｒｒａｌｂａ．Ｔｈｅｓｏｕｎｄｏｆｐｉｘｅｌｓ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ），ｐａｇｅｓ５７０－５８６，２０１８．

【0083】

（補足的な説明、音声ノイズ除去のため無音の音を聞く）
（Ａ：ネットワーク構造及びトレーニングの詳細）
本発明者らは、ここで本発明者らのネットワーク構造及び訓練の構成の詳細を提示する。

【0084】

本発明者らのモデルの無音インターバル検出のコンポーネントは、２Dの畳み込みレイヤー、双方向性のＬＳＴＭ、及び２つのＦＣレイヤーから構成される。畳み込みレイヤーのパラメータは、表３に示す。各畳み込みレイヤーは、ＲｅＬＵ活性関数を有するバッチ正規化層が続く。双方向性のＬＳＴＭの非表示の大きさは１００である。ＲｅＬＵ活性関数と交互配置される２つのＦＣレイヤーは、それぞれ１００及び１の非表示の大きさを有する。

【0085】

［表３］

【表3】

【0086】

本発明者らのモデルのノイズ推定コンポーネントは、十分に畳み込まれ、２つのエンコーダ及び１つのデコーダからなる。２つのエンコーダは、それぞれノイズの多い信号及び不完全なノイズプロファイルを処理する；それらは同じ構成を有する（表４に示す）が、異なる重みを有する。２つのエンコーダの結果である２つの特徴マップは、デコーダにフィードする前にチャネルごとの方式で連結する。表４では、最後の１つを除く全部の層で、ＲｅＬＵ活性関数と共にバッチ正規化層が後続している。加えて、第２及び第１４層の間、及び第４及び第１２層の間のスキップ接続が存在する。

【0087】

［表４］

【表4】

表４：ノイズ推定コンポーネントの構成。
'Ｃ'は、畳み込みレイヤーを示し、'ＴＣ'は、置き換えられた畳み込みレイヤーを示す。

【0088】

本発明者らのモデルのノイズを除去するコンポーネントは、２つの２Ｄ畳み込みエンコーダ、双方向性のＬＳＴＭ、及び３つのＦＣレイヤーから構成される。２つの畳み込みエンコーダは、入力として、入力音声スペクトログラムＳ_ｘ及び推定されるフルノイズスペクトログラム

【数42】

をそれぞれ取得する。第１のエンコーダは、表５に挙げられたネットワーク構成を有し、第２のものは、同じ構成を有するが、各畳み込みレイヤーのフィルタの半数である。また、双方向性のＬＳＴＭの非表示の大きさは２００で、３つのＦＣレイヤーの非表示の大きさはそれぞれ６００、６００、２Ｆであり、Ｆはスペクトログラムの周波数ビンの数である。活性化関数に関しては、Ｓｉｇｍｏｉｄを利用する最後の層を除いて、各層の後にＲｅＬＵが利用される。

【0089】

［表５］

【表5】

表５：本発明者らのモデルのノイズを除去するコンポーネント用の畳み込みエンコーダ。
各畳み込みレイヤーは、活性化関数として、ＲｅＬＵ活性関数を有するバッチ正規化層が続く。

【0090】

図７：異なるＳＮＲレベルに基づいて構築されたノイズの多いオーディオ。第１の列は、グラウンドトゥルースのクリーンな入力の波形を示す。

【0091】

訓練の詳細。
本発明者らは、本発明者らの音声ノイズ除去モデルを実施するためにＰｙＴｏｒｃｈプラットフォームを利用し、それはその後Ａｄａｍオプティマイザで訓練される。無音インターバルの監視がない本発明者らのエンドツーエンドの訓練において（「本発明者らのＷ／ＯＳＩＤ損失」と、セクション．４で称され、またセクション．３．２を思い出されたい）で、本発明者らはバッチサイズ２０、学習速度０．００１で５０エポックのＡｄａｍオプティマイザを稼働する。無音インターバルの監視が組み込まれる（セクション．３．３を思い出されたい）とき、本発明者らは第１に、後続の設定を有する無音インターバル検出のコンポーネントを訓練し：バッチサイズ１５及び学習速度０．００１で１００エポックのＡｄａｍオプティマイザを稼働する。後に、本発明者らは、「本発明者らのｗ／ｏＳＩＤ損失」のエンドツーエンドの訓練と同じ設定を利用して、ノイズ推定と除去コンポーネントを訓練する。

【0092】

（Ｂ：データ処理の詳細）
本発明者らのモデルは、任意の長さのモノチャネルオーディオクリップを入力として取得するよう設計される。しかしながら、訓練データセットを構築するとき、本発明者らは、各々、同じ２つの秒の長さを有する訓練データセットのオーディオクリップを設定し、訓練時間でのバッチを可能にする。この目的に対し、本発明者らは、ＡＶＳＰＥＥＣＨ、ＤＥＭＡＮＤ、及びＡｕｄｉｏＳｅｔから２つの秒の長さのクリップに、元のオーディオクリップを各々分割する。全オーディオクリップは、その後ｌ６ｋＨｚでダウンサンプリングされて、ＳＴＦＴを利用してスペクトログラムに変換する。ＳＴＦＴを実行すべく、高速フーリエ変換（ＦＦＴ）の大きさが５１０に設定され、Ｈａｎｎウィンドウの大きさが２８ｍｓに設定され、ホップの長さは１１ｍｓに設定されている。結果として、各々の２つの秒のクリップは、解像度２５６×１７８の（複素数の値の）スペクトログラムが得られ、２５６は周波数ビンの数であり、１７８は時間解像度である。推定時間に、本発明者らのモデルは、依然として任意の長さのオーディオクリップを受け付けることができる。

【0093】

本発明者らのクリーンな音声のデータセット及びノイズのデータセット両方は、第１に、訓練及びテストのセットに分割され、その結果訓練及びテストのオーディオクリップのいずれも同じ元のオーディオソースに由来しない－それらは十分に分離している。

【0094】

本発明者らの無音インターバル検出を監視するために、本発明者らは、クリーンなオーディオ信号を以下の方法で分類する。本発明者らは第１に、各々のオーディオクリップを正規化し、その大きさは［－１，１］の範囲にある、すなわち、－１又は１で最大の波形の大きさを保証する。その後、クリーンなオーディオクリップが長さ１／３０秒のセグメントに分割される。本発明者らは、平均波形エネルギーがそのセグメントで０．０８を下回る場合、時間区分を「無音」のセグメント（すなわち、ラベル０）と分類する。さもなければ、それは「非無音」セグメント（すなわちラベル１）として分類される。

【0095】

（Ｃ：無音インターバル検出の評価）：
（Ｃ．１：メトリック）本発明者らは、ここで、本発明者らの無音インターバル検出を評価するために利用されるメトリックの詳細（すなわち表１の結果）を提供する。無音インターバルを検出することは、バイナリ分類タスクであり、全時間区分を無音（つまり、陽性の条件）かそうでない（すなわち、陰性の条件）かに分類するものである。バイナリ分類タスクでの混同行列が以下のようであることを思い出されたい：

【0096】

［表６］

【表6】

表６：混同行列

【0097】

本発明者らの場合、本発明者らは、後続の条件を有する：真陽性（ＴＰ）サンプルは、正しく予測される無音の区分である。真陰性（ＴＮ）サンプルが、正しく予測される非無音の区分である。偽陽性（ＦＰ）サンプルは、無音として予測される非無音の区分である。偽陰性（ＦＮ）サンプルは、非無音として予測される無音の区分である。表１で利用される４つのメトリックは、統計の標準的な定義に従っており、本発明者らはここでそれを概観する：

【0098】

［数１］

【数43】

【0099】

式中、Ｎ_ＴＰ、Ｎ_ＴＮ、Ｎ_ＦＰ、及びＮ_ＦＮは全テストの間での、真陽性、真陰性、偽陽性、及び偽陰性の予測の数を示す。直観的には、再現度は、全部の真の無音インターバルを正しく見出す能力を示し、精度は、分類された無音インターバルのどれだけの割合が真に無音であるかを測定する。Ｆ１スコアは、精度及び再現度を考慮し、それらの調和した平均を生成する。また、正確度は全予測の間の正確な予測の比率である。

【0100】

（Ｃ．２：無音インターバル検出の例）
図９において、本発明者らは２個の代替の方法の比較における無音インターバル検出の結果の一例を提示する。２個の代替は、セクション．４．３に記載され、それぞれベースライン閾値及びＶＡＤと称されている。図９は、表１の量的な結果の反復である：ＶＡＤは、軽いノイズの存在下であっても過度に保存的な傾向があり；多数の無音インターバルが無視されている。他方で、ベースライン閾値は、過度に積極的な傾向がある；それは多数の偽りのインターバルを生成する。対照的に、本発明者らの無音インターバル検出は、より良好なバランスを維持し、そのためより正確に予測する。

【0101】

図９：無音インターバル検出の結果の一例。
ＳＮＲが０ｄＢの入力信号（左上）が与えられ、本発明者らは、３つの手法：本発明者らの方法、ベースライン閾値、及びＶＡＤによって検出された無音インターバル（赤）を示す。本発明者らはまた、左上に、グラウンドトゥルースの無音インターバルを示す。

【0102】

（Ｄ：アブレーションスタディ及び分析）
（Ｄ．１：アブレーションスタディの詳細）
セクション．４．４及び表２において、アブレーションスタディが以下の方法で設定されている。「本発明者らのもの」は、無音インターバルの監視を組み込む、本発明者らが提案するネットワーク構造及び訓練法を参照する（セクション．３．３を思い出されたい）。詳細は、Ａ．に記載されている。「本発明者らのｗ／ｏＳＩＤ損失」は、本発明者らが提案するネットワーク構造を参照するが、セクション．３．２の訓練法によって最適化される（すなわち、無音インターバルの監視がないエンドツーエンドの訓練）。このアブレーションスタディは、無音インターバルの監視が実際に、ノイズ除去の質を改良するのに役立つことを確認するものである。「本発明者らのジョイント損失」は、追加項（２）を伴う損失関数（１）を最適化するエンドツーエンドの訓練手法により最適化される提案されたネットワーク構造を示す。このエンドツーエンドの訓練において、無音インターバル検出はまた、損失関数により監視される。このアブレーションスタディは、本発明者らの二段階の訓練（セクション．３．３）がより有効であることを確認するものである。「本発明者らのｗ／ｏＮＥ損失」は、本発明者らの二段階の訓練（セクション．３．３）を利用するが、ノイズ推定の損失項がない－つまり（１）の第１項がない。このアブレーションスタディは、より優れたノイズ除去の質のためのノイズ推定の損失項の必要性を吟味するためのものである。「本発明者らのｗ／ｏＳＩＤｃｏｍｐ」は、無音インターバル検出をオフにする：無音インターバル検出のコンポーネントは常に、全部がゼロのベクトルを出力する。結果として、ノイズ推定コンポーネントＮに対する入力されるノイズプロファイルは、正確に元のノイズの多い信号と同じものに作成される。このアブレーションスタディは、音声ノイズ除去用の無音インターバルの効果を検査するためのものである。「本発明者らのｗ／ｏＮＲｃｏｍｐ」は、本発明者らのノイズを除去するコンポーネントを置き換えるべく単純なスペクトル減算を利用する。他のコンポーネントは、「非変化」で居続ける。このアブレーションスタディは、本発明者らのノイズを除去するコンポーネントの有効性を検査するためのものである。

【0103】

（Ｄ．２：ノイズ除去の質への無音インターバル検出の影響）
本発明者らのニューラルネットワークが基盤のノイズ除去モデルの重要な洞察は、時間の経過を伴う無音インターバルの分布の活用である。上部の実験は、より優れた音声ノイズ除去のための本発明者らの無音インターバル検出の有効性を確認した。本発明者らは、ここで、付加的な実験を報告しており、無音インターバルの予測の質が音声ノイズ除去の質にいかに影響するかについて、ある程度の経験的理解を得ることに照準を当てている。

【0104】

第１に、グラウンドトゥルースの無音インターバルで開始し、本発明者らは１／３０、１／１０、１／６、及び１／２秒の時間軸でそれらを変化させる。変化させた時間の長さが増加すると、さらなる時間区分が不正確に分類されることになる：偽陽性ラベル（すなわち、無音と分類される非無音の時間区分）及び偽陰性のラベル（すなわち、非無音と分類される無音時間区分）の両方の数が、増加する。それぞれの変化の後、本発明者らは無音インターバルのラベルを本発明者らのノイズ推定及び除去コンポーネントにフィードし、ＰＥＳＱスコア下でのノイズ除去の質を測定している。

【0105】

第２の実験で、本発明者らは、再度グラウンドトゥルースの無音インターバルを開始する；しかし、それらを変化させるのに代えて、本発明者らは、２０％、４０％、６０％、及び８０％、無音インターバルを各々その中心に向かって縮小させる。無音インターバルがより縮小されたものになるにつれ、より少ない時間区分が無音として分類される。換言すると、偽陰性の予測数のみ増加する。以前の実験と同様に、各々が縮小した後、本発明者らは、本発明者らの音声ノイズ除去のパイプラインにおける無音インターバルのラベルを利用し、ＰＥＳＱスコアを測定する。

【0106】

両方の実験の結果が表Ｓ５にて報告される。本発明者らが無音インターバルを縮小させると、ノイズ除去の質が少し下がった。対照的に、少量の変化であっても、ノイズ除去の質の明白な低下が生じた。これらの結果は、偽陰性の予測と比較して、偽陽性の予測は、ノイズ除去の質に対しより否定的に影響することを提示している。他方で、合理的に保存的な予測は、特定の無音時間区分を未検出（すなわち、いくつかの偽陰性のラベルの取り入れ）のままにし得るが、検出された無音インターバルは、実際にノイズプロファイルを明示する。他方、少量の偽陽性の予測であっても、特定の非無音時間区分が無音の区分として扱われるようになり、そのため、検出された無音インターバルでの観察されたノイズプロファイルは、フォアグラウンド信号によりテインされる。

【図1】