IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ トラスティーズ オブ コロンビア ユニバーシティ イン ザ シティー オブ ニューヨークの特許一覧 ▶ ソフトバンクモバイル株式会社の特許一覧

特表2023-552090連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法
<>
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図1
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図2
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図3
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図4
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図5
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図6
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図7
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図8
  • 特表-連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-14
(54)【発明の名称】連邦政府が後援する研究に関する音声ノイズ除去の声明のためのニューラルネットワークベースの手法
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20231207BHJP
   G10L 21/0216 20130101ALI20231207BHJP
   G10L 21/0232 20130101ALI20231207BHJP
   G10L 25/30 20130101ALI20231207BHJP
【FI】
G10L21/0208 100Z
G10L21/0216
G10L21/0232
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023530195
(86)(22)【出願日】2021-07-20
(85)【翻訳文提出日】2023-05-18
(86)【国際出願番号】 JP2021027243
(87)【国際公開番号】W WO2022107393
(87)【国際公開日】2022-05-27
(31)【優先権主張番号】63/116,400
(32)【優先日】2020-11-20
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和2年10月22日に、「2020 Conference on Neural Information Processing Systems」にて、「A NEURAL-NETWORK-BASED APPROACH FOR SPEECH DENOISING STATEMENT REGARDING FEDERALLY SPONSORED RESEARCH」に関する研究(Listening to Sounds Listening of Silence for Speech Denoising)について公開した。 令和3年4月10日に、「NIKKEI Robotics」の第18頁~第23頁にて、「A NEURAL-NETWORK-BASED APPROACH FOR SPEECH DENOISING STATEMENT REGARDING FEDERALLY SPONSORED RESEARCH」に関する研究について公開した。
(71)【出願人】
【識別番号】507247232
【氏名又は名称】ザ トラスティーズ オブ コロンビア ユニバーシティ イン ザ シティー オブ ニューヨーク
(71)【出願人】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】チャンシ ゼン
(72)【発明者】
【氏名】ルイリン ズー
(72)【発明者】
【氏名】ルンディ ウー
(72)【発明者】
【氏名】カール ボンドリック
(72)【発明者】
【氏名】石若 裕子
(57)【要約】
方法、システム、デバイス、及び他の実装形態が開示され、オーディオ信号表現を受信し、第1の学習モデルを利用して、低減されたフォアグラウンドの音レベルの1つ又は複数の無音インターバルを、受信したオーディオ信号表現において検出し、検出された1つ又は複数の無音インターバルに基づいて、オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定し、第2の学習モデルを用いて、受信したオーディオ信号表現及び判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成することを含む方法を含む。
【特許請求の範囲】
【請求項1】
オーディオ信号表現を受信する段階;
第1の学習モデルを利用して、フォアグラウンドの音レベルが低減された1つ又は複数の無音インターバルを、前記受信したオーディオ信号表現において検出する段階;
前記検出された1つ又は複数の無音インターバルに基づいて、前記オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定する段階;及び
第2の学習モデルを用いて、前記受信したオーディオ信号表現及び前記判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成する段階
を備える方法。
【請求項2】
前記第1の学習モデルを利用して前記1つ又は複数の無音インターバルを検出する段階は:
前記オーディオ信号表現を複数のセグメントに分割する段階、各セグメントは、前記受信したオーディオ信号表現のインターバルの長さより短い;
前記複数のセグメントを時間周波数表現に変換する段階;及び
第1の学習機を利用して前記複数のセグメントの前記時間周波数表現を処理して、前記第1の学習モデルを実施して、前記複数のセグメントの各々に関して、前記複数のセグメントの各々1つが無音インターバルである尤度を表す信頼値を含むノイズベクトルを生成する段階を含む、請求項1に記載の方法。
【請求項3】
前記時間周波数表現を処理する段階は:
前記複数のセグメントの前記時間周波数表現を2D畳み込みエンコーダでエンコードして、2D特徴マップを生成する段階;
無音ベクトルを生成するために、少なくとも双方向性の長短期記憶(LSTM)構造を含む学習ネットワーク構造を前記2D特徴マップに適用する段階;
前記無音ベクトルからノイズマスクを判定する段階;及び
前記オーディオ信号表現及び前記ノイズマスクに基づいて、前記オーディオ信号表現の部分的なノイズプロファイルを生成する段階を含む、請求項2に記載の方法。
【請求項4】
前記推定されるフルノイズプロファイルを判定する段階は:
前記検出された1つ又は複数の無音インターバルの時間周波数の特徴を表す部分的なノイズプロファイルを生成する段階;
前記オーディオ信号表現と前記部分的なノイズプロファイルをそれぞれの時間周波数表現に変換する段階;
畳み込みエンコードを前記オーディオ信号表現及び前記部分的なノイズプロファイルの時間周波数表現に適用して、エンコードされたオーディオ信号表現及びエンコードされた部分的なノイズプロファイルを生成する段階;及び
前記エンコードされたオーディオ信号表現及び前記エンコードされた部分的なノイズプロファイルを組み合わせて、前記推定されるフルノイズプロファイルを生成する段階を含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記低減されたノイズレベルを有する、前記結果として得られるオーディオ信号表現を生成する段階は:
前記オーディオ信号表現及び前記推定されるフルノイズプロファイルの時間周波数表現を生成する段階;及び
前記第2の学習モデルを前記オーディオ信号表現及び前記推定されるフルノイズプロファイルの前記時間周波数表現に適用して、前記結果として得られるオーディオ信号表現を生成する段階を含む、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記第2の学習モデルは、双方向性の長短期記憶(LSTM)構造で実装される、請求項5に記載の方法。
【請求項7】
請求項1から6のいずれか一項に記載の方法をコンピュータに実行させるためのプログラム。
【請求項8】
オーディオ信号表現を受信する受信器ユニット;及び
プログラム可能命令を格納するために前記受信器ユニット及びメモリデバイスと通信して、1つ又は複数の学習エンジンを実装することで:
第1の学習モデルを利用して、フォアグラウンドの音レベルが低減された1つ又は複数の無音インターバルを、前記受信したオーディオ信号表現において検出すること;
前記検出された1つ又は複数の無音インターバルに基づいて、前記オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定すること;及び
第2の学習モデルを用いて、前記受信したオーディオ信号表現及び前記判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成すること
を行うコントローラ
を備えるシステム。
【請求項9】
オーディオ信号表現を受信し;
第1の学習モデルを利用して、低減されたフォアグラウンドの音レベルを有する1つ又は複数の無音インターバルを、前記受信したオーディオ信号表現において検出すること;
前記検出された1つ又は複数の無音インターバルに基づいて、前記オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定すること;及び
第2の学習モデルを用いて、前記受信したオーディオ信号表現及び前記判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成すること
を行うために、少なくとも1つのプログラム可能デバイス上で実行可能な命令のセットを格納する非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、米国国立科学財団(NFS)によって付与された助成金番号1910839、1453101、及び1850069、及び国防高等研究計画局(DARPA)が運営するKnowledge-directed Artificial Intelligence Reasoning Over Schemas(KAIROS)のプログラムによって付与された契約に基づく政府の支援により作成された。政府は、本発明に一定の権利を有する。
【背景技術】
【0002】
人間の音声の録音は、多くの場合様々なソースからのノイズで汚染されている。録音での一部のノイズは定常である場合があるが、他のノイズは録音している間周波数及び振幅において変動し得る。非定常ノイズと呼ばれるこの後者のノイズは、録音から除去するのが困難である。
【図面の簡単な説明】
【0003】
図中のコンポーネントは、必ずしも原寸に比例しているとは限らず、むしろ、発明の原理を示すことに重きを置いている。同様の参照番号は、異なる図を通じて対応する部分を指定する。添付図面の図において、実施形態は例として示されており、限定ではない。
図1】ネットワーク構成。
図2】時間の経過を伴う無音インターバル。
図3】中間及び最終的な結果の例
図4】ノイズギャラリー
図5】定量比較
図6】入力されたSNRに関するノイズ除去の質。
図7】異なるSNRレベルに基づいて構築されたノイズの多いオーディオ
図8】異なる入力されたSNRでのノイズ除去の質
図9】無音インターバル検出の例
【発明を実施するための形態】
【0004】
モノチャネルオーディオのみ与えられた自動音声ノイズ除去のためのモデルを学習するための音声における豊富な無音インターバルを活用する音声ノイズ除去の枠組みで対象とされる、システム、方法、及び他の実装形態(ハードウェア、ソフトウエア、及びハイブリッドのハードウェア/ソフトウエアの実装を含む)が開示される。本明細書に記載されている実装は、無音インターバルを緻密に統合し、それにより古典的な手法の限定の多数を克服する音声ノイズ除去手法用のディープニューラルネットワークに基づく。目標は、単一の無音インターバルを特定するのみでなく、時間の経過に伴い可能な無音インターバルを極力多数見出すことである。実際、音声における無音インターバルは、存在量であるように見える:心理言語学的研究は、各々の文の後、及びさらには発話における各単語の後、ほぼ常に中断があることを示す。各々の中断は、いかに短くても、時間においてローカルな無音インターバル明示ノイズ特徴を設ける。総じてこれらの無音インターバルは、背景のノイズの時変画像を組み入れ、非定常ノイズの存在下でさえあっても、ニューラルネットワークのより優れたノイズ除去の音声信号を可能にする。
【0005】
本明細書に記載されている技術は、確実に声の録音のノイズ除去をする長短期記憶(LSTM)構造に基づくニューラルネットワーク構成を利用する(他の学習機構成/構造もまた利用できる)。そうするために、LSTMは、無音インターバルと呼ばれる音声における断続的なギャップから取得されるノイズについて訓練され、これは自動的に録音において特定していく。無音インターバルは、定常及び非定常ノイズの組み合わせを含み、そのためこれらの無音インターバルの間のノイズのスペクトラム分布は、ノイズ除去の際に利用され得る。LSTMは、声のインターバルで定常及び非定常スペクトラムを除去し、ロバストにノイズ除去された高い質の音声の録音をもたらすことができる。この技術はまた、録音、フィルム作成、及び音声をテキスト化するアプリケーションで適用可能である。
【0006】
ニューラルネットワークを、確立されたノイズ除去のパイプラインと交互配置すべく、ネットワーク構成が提案され、それは3つの主なコンポーネント(図1に示される):i)無音インターバル検出専用のコンポーネント、ii)コンピュータビジョンのインペインティングプロセスに類似している、無音インターバルで明示されるものからフルノイズを推定する別のコンポーネント、及びiii)入力信号をクリーンアップさせる別のコンポーネントを含む。
【0007】
より詳細には無音インターバル検出のコンポーネントは、入力信号において無音インターバルを検出するように構成される。このコンポーネントへの入力は、入力される(ノイズの多い)信号xのスペクトログラムである。スペクトログラムSは、第1に、2D畳み込みエンコーダによって2D特徴マップにエンコードされ、さらに、双方向性のLSTMにより処理され、2つの全結合(FC)層が続く。双方向性のLSTMは、スペクトログラムの結果生じる時系列の特徴の処理に適したものであり、FC層は、可変の長さの入力に適応するよう各タイムサンプルの特徴を適用されるものである。このネットワーク構成要素からの出力は、ベクトルD(S)である。D(S)の各要素は、[0,1]のスカラ(Sigmoid関数の適用後)であり、無音である小さい時間区分の信頼度スコアを示す。いくつかの例において、各時間区分は、1/30秒の持続期間を有し、それは短い音声中断を捉えるには十分小さく、ロバスト予測を可能にするには十分大きい。出力されるベクトルD(S)はその後、m(x)と示されるより長いマスクに、拡大される。このマスクの各要素は、純然たるノイズとして入力信号xの各サンプルを分類する信頼度を示す。このマスクで、無音インターバルに晒される
【数1】
は、要素ごとの積により推定される、すなわち
【数2】
である。
【0008】
ノイズ推定コンポーネント/モジュールにおいて、無音インターバル検出から結果として得られる
【数3】
は、一連の時間枠を通してのみ晒されるノイズプロファイルであるが、ノイズの完全な画像ではない。しかしながら、入力信号がクリーンな音声信号及びノイズの重畳であるため、完全なノイズプロファイルを有することは、特に非定常ノイズの存在下で、ノイズ除去の処理を容易にする。したがって、時間の経過と共に全体のノイズプロファイルが推定され、それはいくつかの実装において、ニューラルネットワークを利用して実現される。このコンポーネントへの入力は、ノイズの多いオーディオ信号表現x及び
【数4】
の両方を含む。両者共、STFTによって、
【数5】
とそれぞれ示されるスペクトログラムに変換される。スペクトログラムは、2D画像とみなし得る。スペクトログラムの隣接する時間・周波数ピクセルは、多くの場合相関させて、ここでの目標はコンピュータビジョンにおける画像インペインティングタスクに概念的に類似している。この目的に対し、
【数6】
は2つの個々の2D畳み込みエンコーダにより2つの特徴マップにエンコードされる。特徴マップはその後、チャネルごとの方式で連結され、
【数7】
と示されるフルノイズスペクトログラムを推定すべく畳み込みデコーダによりさらにデコードされる。
【0009】
最後に、入力信号xからのノイズは、ノイズを除去するコンポーネント/モジュールを利用してクリーンアップされる。ニューラルネットワークRは、入力として、入力音声スペクトログラムS、及び推定されるフルノイズスペクトログラム
【数8】
の両方を受信する。2つの入力されたスペクトログラムは、個々に、それ自体の2D畳み込みエンコーダにより処理される。2つのエンコードされた特徴マップは、その後、双方向性のLSTMにパスする前に、共に連結され、3つの十分に接続された層が続く。このコンポーネントの出力は、2個のチャネルを有するベクトルで、それは周波数時間領域に複素比率マスク
【数9】
の実数部と虚数部を形成する。換言すると、マスクcは、Sと同じ(時間及び周波数)次元を有する。最終的な段階で、ノイズ除去スペクトログラム
【数10】
は、入力音声スペクトログラムS及びマスク
【数11】
の要素ごとの乗算を通して計算される。最終的に、クリーンアップされたオーディオ信号表現は、
【数12】
に対する逆のSTFT(ISTFT)を適用することによって取得される。
【0010】
全段階に劣勾配が存在しているので、いくつかの実施形態で、ネットワークは、確率的勾配降下手法でエンドツーエンドの様式にて訓練され得る。続く損失関数が最適化される:
【数13】
ここで、表記
【数14】
が上に定義されるものであり、
【数15】
はそれぞれグラウンドトゥルースフォアグラウンド信号及び背景のノイズのスペクトログラムを示す。第1項は、推定されるノイズ及びグラウンドトゥルースノイズの間の不一致にペナルティを課すが、第2項はフォアグラウンド信号の推定を担う。これら2つの項はスカラβ(いくつかの例でβ=1.0)により平衡にされる。
【0011】
尤もらしいノイズ除去の結果を生成するが、エンドツーエンドの訓練プロセスは、無音インターバル検出の監視がない:損失関数のみがノイズ及びクリーンな音声信号の回復を担う。しかしながら、幾分驚くべきことに、無音インターバルを検出する能力は、第1のネットワークコンポーネントの出力として自動的に生み出される。換言すると、ネットワークは、この監視なしで音声ノイズ除去の無音インターバルを検出するため自動的に学習する。
【0012】
モデルがそれ自体の無音インターバルを検出するべく学習しているとき、無音の検出が直接監視され得て、さらに、ノイズ除去の質を改良できる。その目的に対し、項は検出された無音インターバル及びそれらのグラウンドトゥルース間の不一致にペナルティを課す、上記の損失関数を追加し得る。実験は、この方法は有効ではないが、それに代えてモデルは2つの連続的な段階で訓練されるということを示した。第1に、無音インターバル検出のコンポーネントは、続く損失関数を通して計算される:
【数16】
式中lBCEはバイナリクロスエントロピー損失であり、m(x)は無音インターバル検出のコンポーネントの結果生じるマスクであり、
【数17】
は、無音又はそうではない個々の信号サンプルのグラウンドトゥルースのラベルである。
【0013】
次に、ノイズ推定及び除去コンポーネントが、損失関数Lにより訓練される。この訓練段階は、無音検出コンポーネントを無視することにより開始する。損失関数Lにおいて、推定される無音インターバルに晒されたノイズのスペクトログラムである
【数18】
の利用に代えて、グラウンドトゥルースの無音インターバル
【数19】
により晒されるノイズのスペクトログラムが利用される。このような損失関数を利用し訓練した後、ネットワーク構成要素は、訓練済みの無音インターバル検出コンポーネントを組み込むことにより微調整される。無音インターバル検出のコンポーネントが固定され、この微調整段階は、元の損失関数Lを最適化し、それによりノイズ推定の重み及び除去コンポーネントを更新する。
【0014】
そうして、いくつかの実施形態で、システムが提供され、オーディオ信号表現を受信する受信器ユニット(例えば、マイク、オーディオ/音の電子信号表現を受信する通信モジュールなど)、及び1つ又は複数の学習エンジンを実装し、受信器ユニット及びプログラム可能命令を格納するメモリデバイスと通信して、第1の学習モデルを利用して、フォアグラウンドの音レベルが低減された1つ又は複数の無音インターバルを、受信したオーディオ信号表現において検出し、検出された1つ又は複数の無音インターバルに基づいて、オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定し、第2の学習モデルを用いて、受信したオーディオ信号表現及び判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成するコントローラ(例えば、プログラム可能デバイス)を含む。いくつかの実装では、非一時的コンピュータ可読媒体が提供され、それはオーディオ信号表現を受信し、第1の学習モデルを利用して、低減されたフォアグラウンドの音レベルの1つ又は複数の無音インターバルを、受信したオーディオ信号表現において検出し、検出された1つ又は複数の無音インターバルに基づいて、オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定し、第2の学習モデルを用いて、受信したオーディオ信号表現及び判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成するための、少なくとも1つのプログラム可能デバイス上で実行可能な命令のセットを格納する。
【0015】
いくつかの実装では、方法が提供され、それはオーディオ信号表現を受信する段階、第1の学習モデルを利用して、低減されたフォアグラウンドの音レベルの1つ又は複数の無音インターバルを、受信したオーディオ信号表現において検出する段階、検出された1つ又は複数の無音インターバルに基づいて、オーディオ信号表現に対応する推定されるフルノイズプロファイルを判定する段階、及び第2の学習モデルを用いて、受信したオーディオ信号表現及び判定された推定されるフルノイズプロファイルに基づいて、低減されたノイズレベルを有する、結果として得られるオーディオ信号表現を生成する段階を含む。
【0016】
いくつかの例において、第1の学習モデルを利用して1つ又は複数の無音インターバルを検出することが、オーディオ信号表現を複数のセグメントに分割すること、各セグメントは、受信したオーディオ信号表現のインターバルの長さより短い、複数のセグメントを時間周波数表現に変換すること、及び第1の学習モデルを実施して、第1の学習機を利用して複数のセグメントの時間周波数表現を処理して、複数のセグメントの各々に関して、複数のセグメントの各々1つが無音インターバルである尤度の信頼値の表現を含むノイズベクトルを生成することを含むことができる。このような例で、時間周波数表現を処理することは、2D特徴マップを生成すべく2D畳み込みエンコーダで複数のセグメントの時間周波数表現をエンコードすること、少なくとも双方向性の長短期記憶(LSTM)構造を備える学習ネットワーク構造を2D特徴マップに適用して無音ベクトルを生成すること、無音ベクトルからのノイズマスクを判定すること、及びオーディオ信号表現及びノイズマスクに基づいてオーディオ信号表現用の部分的なノイズプロファイルを生成することを含むことができる。
【0017】
いくつかの実施形態で、推定されるフルノイズプロファイルを判定することは、検出された1つ又は複数の無音インターバルの時間周波数の特徴を表す部分的なノイズプロファイルを生成すること、オーディオ信号表現及び部分的なノイズプロファイルをそれぞれの時間周波数表現に変換すること、畳み込みエンコードをオーディオ信号表現の時間周波数表現及び部分的なノイズプロファイルに適用し、エンコードされたオーディオ信号表現及びエンコードされた部分的なノイズプロファイルを生成すること、及びエンコードされたオーディオ信号表現及びエンコードされた部分的なノイズプロファイルを組み合わせて、推定されるフルノイズプロファイルを生成することを含むことができる。いくつかの例において、結果として得られる低減されたノイズレベルを有するオーディオ信号表現を生成することは、オーディオ信号表現及び推定されるフルノイズプロファイルの時間周波数表現を生成すること、及び第2の学習モデルをオーディオ信号表現及び推定されるフルノイズプロファイルの時間周波数表現に適用して、結果として得られるオーディオ信号表現を生成することを含むことができる。第2の学習モデルは、双方向性の長短期記憶(LSTM)構造により実施され得る。
【0018】
記されているように、本明細書に記載されているノイズ除去処理の実装は、1又は複数の学習機(ニューラルネットワークなど)を利用して、実現され得る。ニューラルネットワークは一般に、線形変換の複数の層から構成され(「重み」のマトリックスによる乗算)、各々は非線形関数(例えば、修正された線形活性化関数、又はReLU、など)が続く。線形変換は、最終的な分類タスク(又はその他のタイプの所望の出力)により役立つ変換を徐々に行う重みマトリックスに小さな変更を加えることによって、訓練中に学習される。層状のネットワークは、畳み込み処理を含み得、層間の情報共有を向上させる層間の中間的な接続と共に、プール処理が続く。利用できる学習エンジン手法/構成のいくつかの例は、自動のエンコーダを生成すること、及びネットワークの高密度層を利用して、サポートベクターマシンを介して将来のイベントの確率と相関させるか、又は、入力データから特定の出力を予測する回帰又は分類ニューラルネットワークモデルを構築することを含む(同様の入力及び予測される出力の間の相関関係が反映する訓練に基づく)。
【0019】
ニューラルネットワークの例は、畳み込みニューラルネットワーク(CNN)、フィードフォワードニューラルネットワーク、リカレントニューラルネットワーク(RNN、例えば長短期記憶(LSTM)構造を利用して実装されたもの)などを含む。フィードフォワードネットワークは、入力データの1又は複数の部分に接続する学習ノード/要素の1又は複数の層を含む。フィードフォワードネットワークにおいて、入力及び学習要素の層の接続は、入力データ及び中間データがネットワークの出力に向かって順方向に伝播するようなものになる。典型的には、フィードフォワードネットワークの構成/構造においてフィードバックループ又はサイクルは存在しない。畳み込みレイヤーは、ネットワークが、同じ学習された変形をデータの細別に適用することによって、特徴を効率よく学習することを可能にする。いくつかの実施形態で、学習機の利用を通して実施される様々な学習プロセスは、keras(オープンソースのニューラルネットワークライブラリ)構築ブロック及び/又はNumPy(アレイを処理するモジュールを実現するのに有用なオープンソースのプログラミングライブラリ)構築ブロックを利用することを実現できる。
【0020】
いくつかの実施形態で、様々な学習エンジンの実装は、訓練された学習エンジン(例えば、ニューラルネットワーク)及び所望の出力を生成するであろう学習エンジンのパラメータ(例えばニューラルネットワークの重み)を判定及び/又は適合させるように構成された、対応する結合される学習エンジンのコントローラ/アダプタを含み得る。このような実装において、訓練データは、入力される訓練レコードのためのグラウンドトゥルースを定める対応するデータと共に入力レコードのセットを含む。本明細書に記載のシステムを含む様々な学習エンジンの初期の訓練の後に、後続の訓練が断続的に(定期的又は不定期に)実行される場合がある。特定の学習エンジンに結合されるアダプタ/コントローラによる訓練サイクルが完了すると、アダプタは更新/変更のデータ代表例(例えばニューラルネットワークベースの学習エンジンのリンクに割り当てられるパラメータの値/重みの形態で)を特定の学習エンジンに提供し、学習エンジンを、完了した訓練サイクルに応じて更新させる。
【0021】
本明細書に記載の様々な技術及び操作を実行することは、音声通信デバイス(補聴器デバイスなど)の一部として実現され得るコントローラデバイス(例えば、プロセッサベースのコンピューティングデバイス)によって促進され得る。このようなコントローラデバイスは、典型的には中央処理装置又は処理コアを含むコンピューティングデバイスなどのようなプロセッサベースデバイスを含み得る。デバイスはまた、CPU又は処理コアの一部であり得る1又は複数の専用の学習機(例えば、ニューラルネットワーク)を含み得る。CPUに加えて、システムは主要メモリ、キャッシュメモリ、及びバスインターフェース回路を含む。コントローラデバイスは、ハードドライブ(ソリッドステートハードドライブ、又は他のタイプのハードドライブ)、又はコンピュータシステムに関連付けられたフラッシュドライブなどのマスストレージ要素を含み得る。コントローラデバイスは、さらに、キーボード、又はキーパッド、又は何らかのその他のユーザ入力インターフェイス、及びモニタ、例えばユーザがそれらにアクセスできる場所に配置できるLCD(液晶ディスプレイ)モニタなどを含み得る。
【0022】
コントローラデバイスは、例えばノイズ除去処理の実施を促進するように構成される。ストレージデバイスは、そのため、コントローラデバイスにおいて実行されるときに(記されているように、プログラム可能又はプロセッサベースデバイスであってよい)、プロセッサベースデバイスに対して、本明細書に記載の手順及び操作の実施を促進する操作を実行させるコンピュータプログラム製品を含み得る。コントローラデバイスは、さらに、入力/出力の機能を可能にする周辺デバイスを含み得る。そのような周辺デバイスは、接続されているシステムへの関連する内容のダウンロードのために、例えば、フラッシュドライブ(例えば取り外し可能なフラッシュドライブ)、又はネットワーク接続(例えばUSBポート及び/又はワイヤレストランシーバーを利用して実装される)を含み得る。そのような周辺デバイスはまた、個々のシステム/デバイスの一般的な操作を可能にするコンピュータ命令を含むソフトウエアをダウンロードするために利用できる。あるいは、及び/又はさらに、いくつかの実施形態では、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)、ASIC(特定用途向け集積回路)、DSPプロセッサ、グラフィック処理ユニット(GPU)、加速処理ユニット(APU)、アプリケーション処理ユニットなどは、コントローラデバイスの実装で利用できる。コントローラデバイスと共に含まれ得る他のモジュールは、入力及び出力データを提供又は受信するためのユーザインターフェースを含み得る。さらに、いくつかの実施形態で、マイク、ライトキャプチャーデバイス(例えば、CMOSベース又はCCDベースのカメラデバイス)、他のタイプの光学式又は電磁式センサ、環境状況測定用センサなどのようなセンサデバイスが、コントローラデバイスに結合でき、処理される信号又はデータを観察又は測定するように構成され得る。コントローラデバイスは、操作システムを含み得る。
【0023】
コンピュータプログラム(プログラム、ソフトウエア、ソフトウエアアプリケーション又はコードとしても公知)は、プログラマブルプロセッサ用の機械命令を含み、高水準の手続き型及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語において実装され得る。本明細書で利用される場合、「機械可読媒体」という用語は、機械可読信号として機械命令を受信する非一時的機械可読媒体を含む、プログラマブルプロセッサへの機械命令及び/又はデータを提供するために利用される、いずれかの非一時的なコンピュータプログラム製品、装置及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能ロジックデバイス(PLD))を示す。
【0024】
いくつかの実施形態で、いずれかの適したコンピュータ可読媒体が、本明細書に記載の処理/操作/手順を実行するための命令を格納するために利用できる。例えば、いくつかの実施形態では、コンピュータ可読媒体は、一時的又は非一時的であり得る。例えば、非一時的コンピュータ可読媒体は、磁気媒体(ハードディスク、フロッピディスクなどのようなもの)、光学媒体(コンパクトディスク、デジタルビデオディスク、ブルーレイディスクなどのようなもの)、半導体媒体(フラッシュメモリ、電気的にプログラム可能な読み取り専用メモリ(EPROM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)などのようなもの)、瞬間的ではない、又は送信中のいずれかの永続性のセンブランスを欠いていないいずれかの適した媒体、及び/又はいずれかの適した有形の媒体などの媒体を含み得る。別の例として、一時的コンピュータ可読媒体は、ネットワーク、ワイヤ、コンダクタ、光ファイバー、回路、瞬間的及び送信中に永続性のいずれかのセンブランスのないいずれかの適した媒体、及び/又は適した有形ではない媒体の信号を含み得る。
【0025】
本開示の主題は、さらに、添付の資料にて記載されている。特定の実施形態が本明細書に詳細に開示されてきたが、このことは、例として例示の目的のみでなされ、続く添付の請求項の範囲に関して制限することを意図していない。開示の実施形態の特徴は、さらなる実施形態を生成すべく発明の範囲内で、組み合わせ、再構成などをすることができる。何らかの他の態様、利点、及び修正が、下部に設けられる特許請求の範囲内にあるものとみなされる。提示される請求項は、本明細書に開示の実施形態及び特徴の少なくとも一部を表す。他の特許請求されていない実施形態及び特徴がまた企図される。
【0026】
(音声ノイズ除去のため無音の音を聞く)この実施形態で、本発明者らは、多数の適用で生じるオーディオ分析での長期の挑戦である、音声ノイズ除去のディープラーニングモデルを取り入れる。本発明者らの手法は、人間の発話の重要な観察に基づく:多くの場合、各文又は単語の間に短い中断がある。録音される音声信号で、これらの中断は、ノイズのみが存在する一連の時間を取り入れる。本発明者らは、モノチャネルオーディオのみ与えられた自動音声ノイズ除去のモデルを学習するためこれらの付随的な無音インターバルを活用する。時間の経過を伴う検出された無音インターバルは、純然たるノイズのみではなく、時間で可変の特徴を晒し、モデルがノイズダイナミクスを学習し、それを音声信号から抑制するのを可能にする。複数のデータセットでの実験により、音声ノイズ除去のための無音インターバル検出の極めて重要な役割が確認され、本発明者らの方法は、(本発明者らの方法のような)オーディオ入力のみを受け付けるもの、及び視聴覚的入力に基づいてノイズ除去をする(したがって、より多くの情報を必要とする)ものを含む、いくつかの最先端のノイズ除去法よりも優れている。本発明者らはまた、本発明者らの方法が訓練の間に見られない話し言葉のノイズ除去などの優れた生成特性を享受することを示す。
【0027】
(1 緒言)
ノイズは至る所にある。誰かが話をするのを我々が聞くとき、我々が受け取るオーディオ信号は決して純粋でクリーンなものではなく、常に全種類のノイズ-通り過ぎる車、エアコンのファンの回転、犬の鳴き声、ラウドスピーカーからの音楽などによって汚染されている。かなりの程度、会話をしている個人は、努力せずにこれらのノイズをフィルタ処理できる(参考文献40)。同じ傾向で、セルラ通信から人間-ロボット相互作用に及ぶ多数の適用が、根本的な構築ブロックとして音声ノイズ除去アルゴリズムに頼っている。
【0028】
その極めて重大な重要性にもかかわらず、アルゴリズムの音声ノイズ除去は、大きな課題であり続けている。入力されたオーディオ信号を与えられると、音声ノイズ除去はフォアグラウンド(音声)信号をその付加的な背景のノイズから分離することを目的とする。この分離の問題は本質的に不適切である。スペクトル減算などの古典的手法(参考文献7、91、6、66、73)及びWienerフィルタ処理(参考文献74、38)は、スペクトル領域でのオーディオのノイズ除去を実行し、それらは典型的には定常又は準定常ノイズに制限される。近年、ディープニューラルネットワークの進化がまた、オーディオのノイズ除去での利用を鼓舞してきた。古典的なノイズ除去手法より優れているが、存在するニューラルネットワークベースの手法は、一般的なオーディオ処理タスク(参考文献51、83、93)用に展開されたか又はコンピュータビジョン(参考文献29、24、3、34、30)などの他の領域から借用したネットワーク構造及び敵対的生成ネットワーク(参考文献64、65)を利用する。それにもかかわらず、ブラックボックスのようなうまく展開させたネットワークモデルを再利用することを越えて、根本的な疑問が残る:音声のどのような自然構造を、音声ノイズ除去のより優れた性能のためのネットワークの構成をかたどるために我々が活用できるか、ということである。
【0029】
(1.1重要な洞察:無音インターバルの時間分布)この疑問に動機づけられて、本発明者らは、実施されている最も広く利用されているオーディオのノイズ除去の方法の1つ、すなわちスペクトル減算法を再検討する(参考文献7、91、6、66、73)。Adobe Audition(参考文献37)などの多数の商用ソフトウエアで実施されると、この古典的な方法は、ユーザが、フォアグラウンド信号がない間の時間間隔を特定する必要がある。本発明者らは、このようなインターバルを無音インターバルと呼ぶ。無音インターバルは純然たるノイズを晒す時間枠である。アルゴリズムはその後無音インターバルからノイズの特性を学習し、それは次に入力信号全体の付加的なノイズを抑制するのに利用されている(スペクトル領域の減算を通して)。
【0030】
図2:経時的な無音インターバル
(上)音声信号は多数の自然な中断を有する。いずれのノイズもなければ、これらの中断は無音インターバルとして提示される(赤で強調表示)。
(下)しかしながら、たいていの音声信号はノイズにより汚染されている。軽いノイズによっても、無音インターバルは圧倒され、検出するのが困難になる。ロバストに検出されるなら、無音インターバルは時間の経過と共にノイズプロファイルを明示するのを促せる。
【0031】
第34回ニューラル情報処理システム会議に提出(NeurIPS 2020)。配布しないこと。さらに、スペクトラル減算法は、2つの主要な欠点に苛まれている:i)それは無音インターバルのユーザの特定を必要とする、すなわち、完全に自動ではない;ii)ユーザに対し要求をしないが、単一の無音インターバルは、非定常ノイズ-例えば背景の音楽-の存在下で十分ではない。日常生活におけるユビキタスで、非定常ノイズは、時間で可変のスペクトラルの特徴を有する。単一の無音インターバルはその特定の時間のスパンにのみノイズのスペクトラルの特徴を明示し、そのため入力信号全体のノイズ除去に対し不適切である。スペクトラル減算の連続は無音インターバルの概念の中枢である;その欠点でもある。
【0032】
この実施形態で、本発明者らは、無音インターバルを緻密に統合し、それにより古典的な手法の限定の多数を克服する音声ノイズ除去用のディープネットワークを取り入れる。本発明者らの目標は、単一の無音インターバルを特定するのみでなく、時間の経過に伴い可能な無音インターバルを極力多数見出すことである。実際、音声における無音インターバルは、存在量であるように見える:心理言語学的研究は、各々の文の後、及びさらには発話における各単語の後、ほぼ常に中断があることを示す(参考文献72,21)。各々の中断は、いかに短くても、時間においてローカルな無音インターバル明示ノイズ特徴を設ける。全部を合わせると、これらの無音インターバルは、背景のノイズの時変画像を組み入れ、非定常ノイズの存在下でさえあっても、ニューラルネットワークのより優れたノイズ除去の音声信号を可能にする(図2参照)。
【0033】
手短には、ニューラルネットワークを、確立されたノイズ除去のパイプラインと交互配置すべく、本発明者らはネットワーク構成を提案し、それは3つの主なコンポーネント(図1を参照):i)無音インターバル検出専用のもの、ii)コンピュータビジョンのインペインティングプロセスに類似している、無音インターバルで明示されるものからフルノイズを推定することを照準とする別のもの(参考文献36)、及びiii)入力信号をクリーンアップさせるさらに別のものからなる。
【0034】
結果の概要。
本発明者らのニューラルネットワークが基盤のノイズ除去モデルは、オーディオ信号の単独のチャネルを受け付け、クリーンアップ信号を出力する。入力された視聴覚信号として、(すなわちオーディオ及び動画映像の両方として)取得する昨今のノイズ除去の方法の一部とは異なり、本発明者らの方法は、より広い範囲のシナリオ(例えば、セルラ通信)で適用できる。本発明者らは、本発明者らのネットワーク構成要素の有効性を示すアブレーションスタディ、及びいくつかの最先端のノイズ除去法との比較を含む広範な実験を実行した。本発明者らはまた、様々な信号対雑音比の下で-先行の方法に対してテストしていない強いノイズの水準の下でさえ-本発明者らの方法を評価する。本発明者らは様々なノイズ除去のメトリックで、本発明者らの方法がオーディオ入力のみを受け付けるもの(本発明者のもののように)、及び視聴覚的入力に基づくノイズ除去のものを含む、それらの方法よりも一貫して優れていることを示す。
【0035】
音声ノイズ除去の無音インターバルの極めて重要な役割は、さらに、重要なわずかな結果により確認される。無音インターバル検出の監視がないのであっても、無音インターバルを検出する能力は、当然本発明者らのネットワークにおいて生み出される。また、本発明者らのモデルは英語の音声のみ訓練されているが、付加的な訓練なしで、それは、他の言語(中国語、日本語、及び韓国語など)でのノイズ除去の音声に対して容易に利用できる。本発明者らのノイズ除去の結果を聞くべく、どうか補足の資料を参照されたい。
【0036】
(2 関連する研究)
音声ノイズ除去音声ノイズ除去(参考文献48)は、数十年研究された根本的な問題である。スペクトラル減算(参考文献7、91、6、66、73)は、ノイズの多い音声スペクトラムからのノイズスペクトラムの推定をサブストラクションすることによって、クリーンな信号のスペクトラムを推定する。この古典的な方法は、スペクトログラム因数分解方法(参考文献78)が後続する。Wienerフィルタ処理(参考文献74、38)は、平均自乗誤差を最適化することにより、向上した信号を導出する。他の方法は、音声における中断を利用し、低い音響エネルギーのセグメントを形成し、ノイズ統計はより正確に測定できる(参考文献13,52,79,15,69,10,11)。統計モデルベースの方法(参考文献14、32)及び部分空間アルゴリズム(参考文献12、16)がまた検討されている。
【0037】
ニューラルネットワークをオーディオのノイズ除去に適用することは、80年代に遡る(参考文献81、63)。計算力の向上により、ディープニューラルネットワークが多くの場合において利用されている(参考文献97、99、98、42)。長短期記憶ネットワーク(LSTM)(参考文献33)は、オーディオ信号の一時的なコンテキスト情報を保存することが可能(参考文献47)であり、強力な結果に至る(参考文献51、83、93)。敵対的生成ネットワーク(GAN)(参考文献31)を活用して、(参考文献64、65)などの方法がGANをオーディオの分野に採用し、また強力な性能を実現した。
【0038】
オーディオ信号処理方法は、生の波形又はスペクトログラムにおいて、短時間フーリエ変換(STFT)により動作する。一部は直接波形に作用し(参考文献22、62、54、50)、他のものは音声ノイズ除去のためにWavenet(参考文献84)を利用している(参考文献68、70、28)。(参考文献49,87,56,92,41,100,9)などの多数の他の方法は、オーディオ信号のスペクトログラムを研究し、それは、大きさ及び位相情報の両方を含む。スペクトログラムを最大のポテンシャルに対していかに利用するかを論じる研究がある(参考文献86、61)が、短所の1つが、逆のSTFTを適用する必要があるということである。これに対して、また、時間のエイリアシングからのアーティファクトをいかに克服するかを調査した研究が存在している(参考文献46,27,26,88,19,94,55)。
【0039】
音声ノイズ除去はまた、音声及び顔の特徴の間の関連に起因するコンピュータビジョンと共に検討されてきた(参考文献8)。(参考文献29、24、3、34、30)などの方法は、その能力の最大限までオーディオ信号を向上させる様々なネットワーク構造を利用している。Adeel et al.(参考文献1)は、音声の背景のノイズをフィルタ処理するために読唇術さえも利用している。
【0040】
他のオーディオ処理タスクでのディープラーニング。ディープラーニングは、コンピュータビジョンに促されて、読唇、音声認識、音声の分離、及び多数のオーディオ処理又はオーディオ関連タスクのために、広く利用されている(参考文献58、60、5、4)。(参考文献45、17、59)などの方法は、純粋な顔の特徴から音声を再構成することが可能である。(参考文献2、57)などの方法は、音声認識の正確度を改良するために顔の特徴を利用する。音声の分離は、コンピュータビジョンが最大限活用される領域の1つである。(参考文献23、58、18、102)などの方法は、印象的な結果を実現し、以前には不可能だった単一のオーディオ信号からの音声の分離を可能にした。最近、Zhang et al.(参考文献101)は、Harmonic Convolutionと呼ばれる新たな操作を提案し、ネットワークがオーディオの事前確率を引き出すのを促しており、それは音声の分離の質をさらに改良することさえも示す。
【0041】
(3音声ノイズ除去の学習)
本発明者らは、音声ノイズ除去の無音インターバルの時間分布を利用するニューラルネットワークを提示する。本発明者らのモデルへの入力は、ノイズの多い音声のスペクトログラム(参考文献96、20、77)であり、それは2個のチャネルでT×Fの大きさの2D画像として見ることができ、式中Tは信号の時間の長さを表し、Fは周波数ビンの数である。2個のチャネルはそれぞれ、STFTの実数部と虚数部を格納する。学習後、モデルは、抑制されたノイズと同じ大きさの別のスペクトログラムを生成する。
【0042】
本発明者らは第1に、エンドツーエンドの様式で本発明者らの提案されたネットワーク構造を、ノイズ除去の監視でのみ訓練し(セクション3.2);それは既に本発明者らが比較している最先端の方法より優れている。さらに、本発明者らは無音インターバル検出に対する監視を組み込み(セクション.3.3)、さらにより優れたノイズ除去の結果を取得している(セクション.4参照)。
【0043】
(3.1ネットワーク構造)
3つの一般的な段階分け:無音インターバルの特定、ノイズの特徴の推定、及びノイズの除去で、古典的なノイズ除去アルゴリズムは機能する。本発明者らは、このプロセス全体で学習を織り込むことを提案する:本発明者らはニューラルネットワークに促されて各段階分けを再考し、新規の音声ノイズ除去モデルを形成する。本発明者らは、これらのネットワークを共同でつなげてグラジエントを推定することができるので、本発明者らは効率よく、大きな規模のオーディオデータでモデルを訓練することができる。図1は、このモデルを示しており、それについて本発明者らが下部に記載する。
【0044】
無音インターバル検出。
第1のコンポーネントは、専ら入力信号における無音インターバルを検出する。このコンポーネントへの入力は、入力される(ノイズの多い)信号xのスペクトログラムである。スペクトログラムSは、第1に、2D畳み込みエンコーダによって2D特徴マップにエンコードされ、さらに、双方向性のLSTMにより処理され(参考文献33、75)、2つの全結合(FC)層が続く(後続のAのネットワークの詳細を参照)。双方向性のLSTMは、スペクトログラムの結果生じる時系列の特徴の処理に適したものであり(参考文献53、39、67、18)、FC層は、可変の長さの入力に適応するよう各タイムサンプルの特徴を適用されるものである。このネットワーク構成要素からの出力は、ベクトルD(S)である。D(S)の各要素は、[0,1]のスカラ(Sigmoid関数の適用後)であり、無音である小さい時間区分の信頼度スコアを示す。本発明者らは1/30秒を有する各時間区分を選択し、短い音声の中断を捉えるのに十分小さいもので、ロバスト予測を可能にするには十分大きいものである(セクション.3.3を参照)。
【0045】
図3:中間及び最終的な結果の例(a)ノイズの多い入力信号のスペクトログラム、クリーンな音声信号(b)及びノイズ(c)の重畳である。(b)における黒い領域は、グラウンドトゥルースの無音インターバルを示す。(d)自動的に出現する無音インターバルに晒されるノイズ、すなわち、ネットワーク全体が無音インターバルの監視なしで訓練されるときの無音インターバル検出のコンポーネントの出力(セクション.3.2を思い出されたい)。(e)検出された無音インターバルに晒されるノイズ、すなわち、ネットワークが無音インターバルの監視なしで訓練されるときの無音インターバル検出のコンポーネントの出力(セクション.3.3を思い出されたい)。(f)ノイズ推定コンポーネントに対する入力として副次的な図3の(a)及び(e)を利用する、推定されるノイズプロファイル。(g)最終的なノイズ除去スペクトログラムの出力。
【0046】
出力されるベクトルD(S)はその後、m(x)と本発明者らが示すより長いマスクに、拡大される。このマスクの各要素は、純然たるノイズとして入力信号xの各サンプルを分類する信頼度を示す(図3の(e)参照)。このマスクで、無音インターバルに晒される
【数20】
は、要素ごとの積により推定される、すなわち
【数21】
【0047】
ノイズ推定。
無音インターバル検出の結果として得られる
【数22】
は、一連の時間枠(図3の(e)参照)のみに晒されるが、ノイズの完全な画像には晒されないノイズプロファイルである。しかしながら、入力信号はクリーンな音声信号及びノイズの重畳であるため、完全なノイズプロファイルを有することは、特に非定常ノイズの存在時にノイズ除去の処理を容易にする。したがって、本発明者らはまた、時間の経過と共に全体のノイズプロファイルを推定し、本発明者らはニューラルネットワークでそれを行う。
【0048】
このコンポーネントへの入力は、ノイズの多いオーディオ信号及び
【数23】
の両方を含む。両方共STFTより、それぞれ
【数24】
として示されるスペクトログラムへ変換される。本発明者らは、2D画像としてスペクトログラムを見る。また、スペクトログラムの隣接する時間・周波数ピクセルが多くの場合相関するので、本発明者らの目標はここで、コンピュータビジョンの画像インペインティングタスクと概念的に類似している(参考文献36)。この目的に対して、本発明者らは、2つの特徴マップへの2つの個々の2D畳み込みエンコーダにより
【数25】
をエンコードする。特徴マップはその後、チャネルごとの方式で連結され、さらに畳み込みデコーダによりデコードされて、フルノイズスペクトログラムを推定し、それを本発明者らは、
【数26】
として示す。この段階の結果は図3の(f)に示す。
【0049】
ノイズの除去。
最後に、本発明者らは、入力信号xからノイズをクリーンアップする。本発明者らは、入力として、入力音声スペクトログラムS、及び推定されるフルノイズスペクトログラム
【数27】
の両方を取得するニューラルネットワークRを利用する。2つの入力されたスペクトログラムは、個々に、それ自体の2D畳み込みエンコーダにより処理される。2つのエンコードされた特徴マップは、その後、共に連結され、双方向性のLSTMにパスし、3つの十分に接続された層が続く(後続のAの詳細を参照)。他のオーディオ拡大モデル(参考文献18、85、89)と同様に、このコンポーネントの出力は、2個のチャネルを有するベクトルで、それは周波数時間領域に複素比率マスク
【数28】
の実数部と虚数部を形成する。換言すると、マスクcは、Sと同じ一時的及び周波数)の次元を有する。
【0050】
最終的な段階で、本発明者らは、入力音声スペクトログラムS及びマスク
【数29】
の要素ごとの乗算を通してノイズ除去スペクトログラム
【数30】
を計算する。最終的に、クリーンアップされたオーディオ信号は、
【数31】
に対する逆のSTFTを適用することによって取得される。
【0051】
(3.2損失関数及び訓練)
全段階に劣勾配が存在しているので、本発明者らは、確率的勾配降下でエンドツーエンドの様式にて、本発明者らのネットワークを訓練できる。続く損失関数を、本発明者らは最適化する:
【数32】
ここで、表記
【数33】
がセクション.3.1に定義されるものであり、
【数34】
はそれぞれグラウンドトゥルースフォアグラウンド信号及び背景のノイズのスペクトログラムを示す。第1項は、推定されるノイズ及びグラウンドトゥルースノイズの間の不一致にペナルティを課すが、第2項はフォアグラウンド信号の推定を担う。これら2つの項はスカラβ(いくつかの例でβ=1.0)により平衡にされる。
【0052】
無音インターバルの自然発生。
尤もらしいノイズ除去の結果(セクション.4.4参照)を生成するが、エンドツーエンドの訓練プロセスは、無音インターバル検出の監視がない:損失関数(1)のみがノイズ及びクリーンな音声信号の回復を担う。しかし、幾分驚くべきことに、無音インターバルを検出する能力は、第1のネットワークコンポーネントの出力として自動的に生み出される。
【数35】
換言すると、ネットワークは、この監視なしで音声ノイズ除去の無音インターバルを検出するため自動的に学習する。
【0053】
(3.3無音インターバルの監視)
モデルがそれ自体の無音インターバルを検出するべく学習しているとき、本発明者らは無音インターバル検出を直接監視し、さらに、ノイズ除去の質を改良できる。本発明者らの第1の試みは、検出された無音インターバル及びそのグラウンドトゥルースの間の不一致にペナルティを課す項を(1)において加えることであった。しかし、本発明者らの実験は、この方法が有効ではないことを示す(セクション.4.4を参照)。それに代えて、本発明者らは2つの連続的な段階で本発明者らのネットワークを訓練した。
【0054】
第1に、本発明者らは、無音インターバル検出のコンポーネントを以下の損失関数を通して訓練した:
【数36】
式中
【数37】
はバイナリクロスエントロピー損失であり、m(x)は無音インターバル検出のコンポーネントからの結果のマスクであり、
【数38】
は各信号サンプルが無音であるか否かのグラウンドトゥルースのラベル-構築方法であり、
【数39】
及び訓練データセットは、セクション.4.1に記載される。
【0055】
次に、本発明者らは、ノイズ推定及び除去コンポーネントを、損失関数(1)により訓練する。この訓練段階は、無音検出コンポーネントを無視することにより開始する。損失関数(1)において、推定される無音インターバルに晒されるノイズのスペクトログラムである
【数40】
の利用に代えて、本発明者らは、グラウンドトゥルースの無音インターバル
【数41】
により晒されるノイズのスペクトログラムを利用する。このような損失関数を利用して訓練した後、本発明者らは、訓練済みの無音インターバル検出コンポーネントを組み込むことにより、ネットワーク構成要素を微調整する。固定の無音インターバル検出のコンポーネントにより、この微調整段階は元の損失関数(1)を最適化し、それによりノイズ推定の重み及び除去コンポーネントを更新する。
【0056】
(4実験)
このセクションは、本発明者らの方法の主要な評価、いくつかのベースライン及び先行研究との比較、及びアブレーションスタディを提示する。本発明者らはまた、本発明者らのネットワーク構造、実装の詳細、付加的な評価、またオーディオの例の十分な記載のための補足の資料(補足的な文書及びオフラインでのウエブページで組織されたオーディオの効果を含む)を読み手に記載する。
【0057】
(4.1実験の設定)
データセットの構築。訓練及びテストデータを構築するために、本発明者らは一般的に使用可能なオーディオデータセットを活用した。本発明者らは、AVSPEECHを利用してクリーンな音声信号を取得し(参考文献18)、それから本発明者らはランダムに2448の映像を選択し(全体の長さは4.5時間)、その音声オーディオチャネルを抽出した。それらの間で、本発明者らは、2214の訓練用映像、及び234のテスト映像を利用し、そのため訓練及びテスト音声は十分に分離している。これらの全音声映像は英語で、意図的に選ばれた:本発明者らが補足の資料に示すように、このデータセットで訓練された本発明者らのモデルは、他の言語での容易な音声のノイズ除去を可能にする。
【0058】
本発明者らは背景のノイズとしてDEMAND(参考文献82)及びGoogleのAudioSet(参考文献25)という2つのデータセットを利用する。共に、環境的なノイズ、交通騒音、音楽及び多数の他のタイプのノイズからなる。DEMANDは先行のノイズ除去研究で利用されていた(例えば(参考文献64、28、83)。さらに、AudioSetはDEMANDよりもはるかに大きく、多様で、そのためノイズとして利用されるとき、より難題になる。図4は、いくつかのノイズの例を示す。本発明者らの評価は、別個に両方のデータセットについて実行される。
【0059】
図4:ノイズギャラリー。
本発明者らは、ノイズのデータセットからのノイズの4つの例を示す。
ノイズ1)は、定常(ホワイト)ノイズであり、他の3つはそうではない。
ノイズ2)は、会議でのモノローグである。
ノイズ3)は、背景のノイズを伴う、会話をする及び笑う個人からのパーティー時のノイズである。
ノイズ4)は、運転する及び警笛を鳴らす車両などの付加的な交通騒音を伴う、叫び声をあげて及ぶ個人からの通りでのノイズである。
【0060】
音響波の伝播の直線性に起因して、本発明者らは、クリーンな音声信号をノイズに重ね、ノイズの多い入力信号を同期させることができる(先行研究と同様(参考文献64、28、83))。ノイズの多い入力信号を同期するとき、本発明者らはランダムに、7つの別個の値:-10dB、-7dB、-3dB、0dB、3dB、7dB、及び10dBから信号対雑音比(SNR)を選択し;フォアグラウンドの音声を適切に測定されたノイズと混合することにより、本発明者らはノイズの多い信号を、選択したSNRにより生成した。例えば、-10dBのSNRは、ノイズの力が音声の10倍であることを意味する(図7を参照)。本発明者らの評価でのSNRの範囲(すなわち、[-10dB,10dB])は、先行研究でテストされたものより著しく大きい。
【0061】
本発明者らの無音インターバル検出を監視するために(セクション.3.3を思い出されたい)、本発明者らは無音インターバルのグラウンドトゥルースのラベルを必要とする。この目的に対し、本発明者らは各々のクリーンな音声信号を時間区分に分け、その各々は1/30秒続く。本発明者らは、当該のセグメントの全音響エネルギーが閾値を下回るとき、時間区分を無音と分類する。音声がクリーンなので、この自動分類処理は、ロバストである。
【0062】
方法の比較。
本発明者らは、本発明者らの方法を、音声ノイズ除去のためにまた設計されたいくつかの存在する方法と比較しており、古典的手法及び最近提案された学習ベースの方法の両方を含む。本発明者らは、この方法を以下のように参照する:i)本発明者らのもの、無音インターバルの監視で訓練された本発明者らのモデル(セクション.3.3を思い出されたい);ii)ベースライン閾値、無音インターバルを分類する音響エネルギーの閾値を利用して(セクション.4.1 の本発明者らの自動ラベリング手法と同じだが、ノイズの多い入力信号に適用される)、その後本発明者らの訓練されたノイズ推定及び音声ノイズ除去のための除去ネットワークを利用するベースライン方法。iii)本発明者らのGTSI、本発明者らの訓練されたノイズ推定及び除去ネットワークを利用するが、仮説的にグラウンドトゥルースの無音インターバルを利用する別の参照の方法;iv)スペクトルゲーティング、スペクトラル減算に基づく古典的な音声ノイズ除去アルゴリズム(参考文献73);v)Adobe Audition(参考文献37)、最も広く利用されている専門家用オーディオ処理ソフトウエアの1つで、本発明者らは、最新のAdobe Audition CC 2020に設けられ、本発明者らの全テストデータをバッチ処理するためのデフォルトのパラメータを備える、その機械学習ベースのノイズの低減特徴を利用する;vi)SEGAN(参考文献64)、敵対的生成ネットワークに基づく最新のオーディオのみの発話エンハンスメント方法の1つ。vii)DFL(参考文献28)、深層ネットワーク特徴に亘る損失関数に基づく最近提案された音声ノイズ除去方法;1 viii)VSE(参考文献24)、映像及びオーディオの両方を入力として取得し、音声ノイズ除去のためオーディオ信号及び口の動き(動画映像からの)両方を活用する学習ベースの方法。本発明者らは、別の視聴覚的方法(参考文献18)と比較することはできない、なぜならいずれのソースコード又は実行可能ファイルが一般的に使用可能にされてはいないからである。
【0063】
公平な比較のため、本発明者らは、同じデータセットを利用して、全方法を訓練する(学習ベース及びブラックボックスとして商業的に出荷されているAdobe Auditionではないスペクトルゲーティングは除く)。SEGAN、DFL、及びVSEに対し、本発明者らは、著者により公開されたそのソースコードを利用する。視聴覚的ノイズ除去方法VSEはまた、動画映像を必要とし、それはAVSPEECHで使用可能である。
【0064】
(4.2音声ノイズ除去の評価)
メトリック。
オーディオ処理タスクの知覚的性質に起因して、量的評価及び比較のための広く受け付けられている単一のメトリックは存在していない。本発明者らは、したがって、6つの異なるメトリックで本発明者らの方法を評価し、その全部がオーディオ処理の質を評価するために頻繁に利用されている。すなわち、そのメトリックは:i)音声の質の知覚評価(PESQ)(参考文献71)、ii)セグメントの信号対雑音比(SSNR)(参考文献76)、iii)短時間客観的明瞭度(STOI)(参考文献80)、iv)信号の歪みの平均意見スコア(MOS)予測子(CSIG)(参考文献35)、v)背景ノイズの侵入性のMOS予測子(CBAK)(参考文献35)、及びvi)全体的な信号の質のMOS予測子(COVL)(参考文献35)である。
【0065】
図5:定量比較。
本発明者らは、6つのメトリックでノイズ除去の質を測定している(カラムに対応)。比較は、DEMAND及びAudioSetからのノイズを別個に利用して実行している。本発明者らのGTSI(黒)は、グラウンドトゥルースの無音インターバルを利用している。実際的な手法ではないが、それは全方法の上限参照として役に立つ。
【0066】
図6:入力されたSNRに関するノイズ除去の質。
異なる入力されたSNRに関連する各方法についてのPESQで測定されたノイズ除去の結果。他のメトリックで測定された結果を図8に示す。
【0067】
結果。
本発明者らは、DEMAND及びAudioSetのノイズのデータセットをそれぞれ利用する2つの分離モデルを訓練し、それらを、同じデータセットで訓練した他のモデルと比較している。本発明者らは、平均のメトリックの値を評価し、それらを図5において報告している。全メトリックで、本発明者らの方法は一貫して他のものより優れている。
【0068】
本発明者らは、各方法の成績を、両方のノイズのデータセットに関する-10dBから10dBまでのSNRの水準に関して分解している。結果は、PESQ(図8参照)について、図6で報告されている。本発明者らが比較した先行研究で、それらの低SNR水準下(<0dBs)でのいずれの結果も報告されていない。それにもかかわらず、入力されたSNRの全水準に亘って、本発明者らの方法は、最良に実行され、本発明者らの手法が光及び極端なノイズ両方に対してかなりロバストであることを示す。
【0069】
図6から、本発明者らのGTSI方法がさらにより優れた実行を伴うことを記すのは価値のあることである。これは本発明者らのモデルであるが、グラウンドトゥルースの無音インターバルを設けられているということを思い出されたい。実際的ではない(グラウンドトゥルースの無音インターバルの必要性に起因)が、本発明者らのGTSIは、ノイズ除去のための無音インターバルの重要性を確認する:質の高い無音インターバル検出は、音声ノイズ除去の質を改良するのに役立つ。
【0070】
(4.3無音インターバル検出の評価)
音声ノイズ除去のための無音インターバルの重要性に起因して、本発明者らはまた、本発明者らの無音インターバル検出の質を評価し、2個の代替物、ベースラインのベースライン閾値及び発話検出器(VAD)(参考文献95)を比較している。 前者は上部に記載されているが、後者は、オーディオ信号の各時間枠を、人間の声を伴っているかいないかということで分類する(参考文献43、44)。本発明者らは、GoogleのWebRTCプロジェクトにより開発され、最も使用可能なものの1つとして報告された既成のVADを利用している。
【0071】
本発明者らは、4つの標準的な統計メトリック:精度、再現度、F1スコア、及び正確度を利用するこれらの方法を評価する。本発明者らは、C.1において要約されるこれらのメトリックの標準的な定義に従う。これらのメトリックは、陽性/陰性の条件の定義に基づく。ここで、陽性の条件は、無音の区分として分類されている時間区分を示し、陰性の条件は非無音の分類を示す。そうして、メトリックが高値であるほど、検出手法がより優れたものとなる。
【0072】
表1は、全メトリックの下で、本発明者らの方法が一貫して、代替のものより優れたものであることを示す。VAD及びベースライン閾値の間で、VADは高い精度及びより低い再現度を有し、このことは、VADが過度に保存的で、無音インターバルを検出するときベースライン閾値が過度に積極的であることを意味する(図9参照)。本発明者らの方法は、より良好なバランスに達し、そのため、より正確に無音インターバルを検出する。
【0073】
[表1]
【表1】
表1:無音インターバル検出の結果。
メトリックは、-10dBから10dBのSNRを有する本発明者らのテスト信号を利用して測定される。これらのメトリックの定義は、続くC.1において要約されている。
【0074】
[表2]
【表2】
表2:アブレーションスタディ。本発明者らは、ネットワーク構成要素及び訓練損失を変更し、様々なメトリックでのノイズ除去の質を評価する。本発明者らの提案された手法が最良に実行されている。
【0075】
(4.4アブレーションスタディ)
加えて、本発明者らは、個々のネットワーク構成要素及び損失項の有効性を理解するための一連のアブレーションスタディを実行する(さらなる詳細のため、続くD.1を参照されたい)。表2において、「本発明者らのW/O SID損失は、セクション.3.2に提示の訓練法を参照する(すなわち、無音インターバルの監視がない)。「本発明者らのジョイント損失」は、追加項(2)を伴う損失関数(1)を最適化するエンドツーエンドの訓練手法を参照する。また、「本発明者らのw/oNE損失」が、本発明者らの二段階の訓練(セクション.3.3)を利用するが、ノイズ推定の損失項がない-つまり(1)の第1項がない。これらの代替的な訓練手法を比較して、無音インターバルの監視を伴う本発明者らの二段階の訓練(「本発明者らのもの」と称される)は、最良に実行される。本発明者らはまた、「本発明者らのW/O SID損失」-すなわち監視がない-が既に本発明者らが図5で比較した方法より優れていること、及び「本発明者らのものが、さらにノイズ除去の質を改良することを記す。これは、本発明者らの提案する訓練手法の無音インターバル検出の有効性を示す。
【0076】
本発明者らはまた、本発明者らのネットワーク構造の2つの変形例を実験した。「本発明者らのw/o SID comp」と称される第1のものは、無音インターバル検出をオフにする:無音インターバル検出のコンポーネントは常に、全部がゼロのベクトルを出力する。
「本発明者らのw/o NR comp」と記載される第2のものは、本発明者らのノイズを除去するコンポーネントを置き換えるべく単純なスペクトル減算を利用する。表2は、全部のテストされたメトリックの下で、両方の変形例が本発明者らの方法より不良に実行され、本発明者らの提案のネットワーク構造が有効であることを示す。
【0077】
さらに、本発明者らは、無音インターバル検出の正確度がどの程度音声ノイズ除去の質に影響するかを検討した。本発明者らは、無音インターバル検出がより正確度を欠くようになると、ノイズ除去の質が低下することを示す。続くD.2に詳細に提示され、これらの実験は、無音インターバルが音声ノイズ除去タスクに教育的であるという本発明者らの直感を補強する。
【0078】
(5 結論)
音声ノイズ除去は、長期の挑戦であった。本発明者らは、音声での無音インターバルの存在量を活用する新たなネットワーク構造を提示する。無音インターバルの監視がなくても、本発明者らのネットワークは、音声信号のノイズ除去を尤もらしいものにすることが可能であり、またこれに対して、無音インターバルを検出する能力が、自動的に生み出される。本発明者らはこの能力を補強する。無音インターバルに対する本発明者らの明白な監視は、ネットワークが、それらをより正確に検出することを可能にし、それにより、音声ノイズ除去の性能をさらに改良する。結果として、様々なノイズ除去のメトリックの下で、本発明者らの方法は、一貫して、いくつかの最先端のオーディオのノイズ除去モデルより優れている。
【0079】
(より広範囲の影響)
良質の音声ノイズ除去は、多数の適用:人間-ロボット相互作用、セルラ通信、補聴器、遠隔会議、音楽の録音、フィルム作成、ニュースの報道、及び監視システムなどにおいて所望である。したがって、本発明者らは、本発明者らの提案のノイズ除去方法-それが実際に利用されているシステムであっても、未来の技術のための礎であっても-が、これらの適用への影響を見出すことを期待している。
【0080】
本発明者らの実験で、本発明者らは、英語の音声のみを利用する本発明者らのモデルを訓練し、その一般化した特性-英語を越えて話し言葉のノイズ除去をする能力-を証明する。日本語、中国語、及び韓国語の音声のノイズ除去を本発明者らが証明することが意図されている:それらは言語的にも音韻的にも英語から離れている(ドイツ語やオランダ語などの他の英語の「兄弟」と対照的である)。依然として、本発明者らのモデルは、英語により近いか、無音インターバルを明示する頻繁な中断を含む話し言葉及び文化が有利であるバイアスがあり得る。この潜在的なバイアスのより深淵な理解が、言語学的及び社会文化的洞察と並行した未来の検討を必要とする。
【0081】
最後に一般のオーディオ信号又はさらにはオーディオを越える信号をノイズ除去するための本発明者らのモデルを拡大させるのは当然のことである(重力波のノイズ除去など(参考文献90))。成功すれば、本発明者らのモデルは、さらに広い影響をもたらすことができる。しかしながら、この拡大を追求するには、「無音インターバル」の賢明な定義が必要である。結局、信号処理の一般的なコンテキストにおける「ノイズ」の概念は、特定の適用に依存する:1つの適用におけるノイズは、別の信号のものであることがある。無音インターバルの一般的な概念を利用するニューラルネットワークを訓練するために、特定の種類のノイズにバイアスがかからないように慎重に行う必要がある。
【0082】
(参考文献)
(参考文献1)A. Adeel, M. Gogate, A. Hussain, and W. M. Whitmer. Lip-reading driven deep learning approach for speech enhancement. IEEE Transactions on Emerging Topics in Computational Intelligence, page 1-10, 2019. ISSN 2471-285x. doi: 10.1109/tetci.2019.2917039. URL http://dX.doi.org/10.1109/tetci.2019.2917039.
(参考文献2)T. Afouras, J. S. Chung, A. Senior, O. Vinyals, and A. Zisserman. Deep audio-visual speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, pages 1-1, 2018.
(参考文献3)T. Afouras, J. S. Chung, and A. Zisserman. The conversation: Deep audio-visual speech enhancement. In Proc. Interspeech 2018, pages 3244-3248, 2018. doi: 10.21437/Interspeech. 2018- 1400. URL http://dx.doi.org/10.21437/Interspeech.2018-1400.
(参考文献4)R. Arandjelovic and A. Zisserman. Objects that sound. In Proceedings of the European Conference on Computer Vision (ECCV), pages 435-451, 2018.
(参考文献5)Y. Aytar, C. Vondrick, and A. Torralba. Soundnet: Learning sound representations from unlabeled video. In Advances in neural information processing systems, pages 892-900, 2016.
(参考文献6)M. Berouti, R. Schwartz, and J. Makhoul. Enhancement of speech corrupted by acoustic noise. In ICASSP 79. IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 4, pages 208-211, 1979.
(参考文献7)S. Boll. Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 27(2):113-120, 1979.
(参考文献8)C. Busso and S. S. Narayanan. Interrelation between speech and facial gestures in emotional utterances: A single subject study. IEEE Transactions on Audio, Speech, and Language Processing, 15(8):2331-2347, 2007.(参考文献9)JChen and D. Wang. Long short-term memory for speaker generalization in supervised speech separation. Acoustical Society ofAmerica Journal, 141(6):4705-4714, June 2017. doi: 10.1121/1.4986931.
(参考文献10)I. Cohen. Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging. IEEE Transactions on Speech and Audio Processing, 11(5):466-475, 2003.
(参考文献11)I. Cohen and B. Berdugo. Noise estimation by minima controlled recursive averaging for robust speech enhancement. IEEE Signal Processing Letters, 9(1): 12-15, 2002.
(参考文献12)M. Dendrinos, S. Bakamidis, and G. Carayannis. Speech enhancement from noise: A regener-ative approach. Speech Commun., 10(1):45-67, Feb. 1991. ISSN 0167-6393. doi: 10.1016/0167-6393(91)90027-q. URL https://doi.org/10.1016/0167-6393(91)90027-0.
(参考文献13)G. Doblinger. Computationally efficient speech enhancement by spectral minima tracking in subbands. In in Proc. Eurospeech, pages 1513-1516, 1995.
(参考文献14)Y. Ephraim. Statistical-model-based speech enhancement systems. Proceedings ofthe IEEE, 80(10):1526-1555, 1992.
(参考文献15)Y. Ephraim and D. Malah. Speech enhancement using a minimum mean-square error log-spectral amplitude estimator. IEEE Transactions on Acoustics, Speech, and Signal Processing, 33(2):443-445, 1985.
(参考文献16)Y. Ephraim and H. L. Van Trees. A signal subspace approach for speech enhancement. IEEE Transactions on Speech and Audio Processing, 3(4):251-266, 1995.
(参考文献17)A. Ephrat, T. Halperin, and S. Peleg. Improved speech reconstruction from silent video.In 2017 IEEE International Conference on Computer Vision Workshops (ICCVW), pages455-462, 2017.
(参考文献18)A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Ru-binstein. Looking to listen at the cocktail party: A speaker-independent audio-visual model for speech separation. ACM Transactions on Graphics, 37(4):1-11, July 2018. ISSN 0730-0301. doi: 10.1145/3197517.3201357. URL http://dx.doi.org/1O.1145/3197517.3201357.
(参考文献19)H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux. Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 708-712, 2015.
(参考文献20)J. L. Flanagan. Speech Analysis Synthesis and Perception. Springer-Verlag, 2nd edition, 1972. ISBN 9783662015629.
(参考文献21)K. L. Fors. Production and perception ofpauses in speech. PhD thesis, Department of Philosophy, Linguistics, and Theory of Science, University of Gothenburg, 2015.
(参考文献22)S.-W. Fu, Y. Tsao, X. Lu, and H. Kawai. Raw waveform-based speech enhancement by fully convolutional networks. 2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Dec. 2017. doi: 10.1109/apsipa.2017.8281993. URL http://dX.doi.org/10.1109/APSIPA.2017.8281993.
(参考文献23)A. Gabbay, A. Ephrat, T. Halperin, and S. Peleg. Seeing through noise: Visually driven speaker separation and enhancement, 2017.
(参考文献24)A. Gabbay, A. Shamir, and S. Peleg. Visual speech enhancement, 2017.
(参考文献25)J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter. Audio set: An ontology and human-labeled dataset for audio events. In Proc. IEEE ICASSP 2017, New Orleans, LA, 2017.
(参考文献26)T. Gerkmann, M. Krawczyk-Becker, and J. Le Roux. Phase processing for single-channel speech enhancement: History and recent advances. IEEE Signal Processing Magazine, 32(2): 55-66, 2015.
(参考文献27)F. G. Germain, G. J. Mysore, and T. Fujioka. Equalization matching of speech recordings in real-world environments. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 609-613, 2016.
(参考文献28)F. G. Germain, Q. Chen, and V. Koltun. Speech denoising with deep feature losses. In Proc. Interspeech 2019, pages 2723-2727, 2019. doi: 10.21437/Interspeech.2019-1924. URL http://dx.doi.org/10.21437/Interspeech.2019-1924.
(参考文献29)L. Girin, J.-L. Schwartz, and G. Feng. Audio-visual enhancement of speech in noise. The Journal of the Acoustical Society of America, 109(6):3007-3020, 2001. doi: 10.1121/1. 1358887. URL https://doi.org/10.1121/1.1358887.
(参考文献30)M. Gogate, A. Adeel, K. Dashtipour, P. Derleth, and A. Hussain. Av speech enhancement challenge using a real noisy corpus, 2019.
(参考文献31)I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In Proceedings ofthe 27th International Conference on Neural Information Processing Systems - Volume 2, Nips' 14, page 2672-2680, Cambridge, MA, USA, 2014. MIT Press.(参考文献32)H.-G. Hirsch and C. Ehrlicher. Noise estimation techniques for robust speech recognition. 1995 International Conference on Acoustics, Speech, and Signal Processing, 1:153-156 vol.1, 1995 .
(参考文献33)S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9:1735-80, 12 1997. doi: 10.1162/neco.1997.9.8.1735.
(参考文献34)J.-C. Hou, S.-S. Wang, Y.-H. Lai, Y. Tsao, H.-W. Chang, and H.-m. Wang. Audio-visual speech enhancement using multimodal deep convolutional neural networks. IEEE Transactions on Emerging Topics in Computational Intelligence, 2, 03 2018. doi: 10.1109/tetci.2017.2784878.
(参考文献35)Y. Hu and P. Loizou. Evaluation of objective quality measures for speech enhancement. Audio, Speech, and Language Processing, IEEE Transactions on, 16:229-238, 02 2008. doi: 10.1109/tasl.2007.911054.
(参考文献36)S. Iizuka, E. Simo-Serra, and H. Ishikawa. Globally and locally consistent image completion. ACM Trans. Graph., 36(4), July 2017. ISSN 0730-0301. doi: 10.1145/3072959.3073659. URL https://doi.org/10.1145/3072959.3073659.
(参考文献37)A. Inc. Adobe audition, 2020. URL https://www.adobe.com/products/audition.html.
(参考文献38)Jae Lim and A. Oppenheim. All-pole modeling of degraded speech. IEEE Transactions on Acoustics, Speech, and Signal Processing, 26(3):197-210, 1978.
(参考文献39)N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. van den Oord, S. Dieleman, and K. Kavukcuoglu. Efficient neural audio synthesis, 2018.
(参考文献40)A. J. E. Kell and J. H. McDermott. Invariance to background noise as a signature of non-primary auditory cortex. Nature Communications, 10(1):3958, Sept. 2019. ISSN 2041-1723. doi: 10.1038/s41467-019-11710-y. URL https://doi.org/10.1038/s41467-019-11710-y.
(参考文献41)A. Kumar and D. Florencio. Speech enhancement in multiple-noise conditions using deep neural networks. Interspeech 2016, Sept. 2016. doi: 10.21437/interspeech.2016-88. URL http://dx.doi.org/10.21437/Interspeech.2016-88.
(参考文献42)A. Kumar and D. A. F. Florencio. Speech enhancement in multiple-noise conditions using deep neural networks. In Interspeech, 2016.
(参考文献43)R. Le Bouquin Jeannes and G. Faucon. Proposal of a voice activity detector for noise reduction. Electronics Letters, 30(12):930-932, 1994.
(参考文献44)R. Le Bouquin Jeannes and G. Faucon. Study of a voice activity detector and its influence on a noise reduction system. Speech Communication, 16(3):245-254, 1995. ISSN 0167-6393. doi: https://doi.org/10.1016/0167-6393(94)00056-G. URL http://www.sciencedirect.com/science/article/pii/016763939400056G.
(参考文献45)T. Le Cornu and B. Milner. Generating intelligible audio speech from visual speech. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25(9): 1751-1761, 2017.
(参考文献46)J. Le Roux and E. Vincent. Consistent wiener filtering for audio source separation. IEEE Signal Processing Letters, 20(3):217-220, 2013.
(参考文献47)Z. C. Lipton, J. Berkowitz, and C. Elkan. A critical review of recurrent neural networks for sequence learning, 2015.
(参考文献48)P. C. Loizou. Speech Enhancement: Theory and Practice. CRC Press, Inc., Usa, 2nd edition, 2013. ISBN 1466504218.
(参考文献49)X. Lu, Y. Tsao, S. Matsuda, and C. Hori. Speech enhancement based on deep denoising autoencoder. In Interspeech, 2013.
(参考文献50)Y. Luo and N. Mesgarani. Conv-tasnet: Surpassing ideal time-frequency magnitude masking for speech separation. IEEE/ACM Trans. Audio, Speech and Lang. Proc., 27(8): 1256-1266, Aug. 2019. ISSN 2329-9290. doi: 10.1109/taslp.2019.2915167. URL https://doi.org/10.1109/TASLP.2019.2915167.
(参考文献51)A. L. Maas, Q. V. Le, T. M. O'Neil, O. Vinyals, P. Nguyen, and A. Y. Ng. Recurrent neural networks for noise reduction in robust asr. In Interspeech, 2012.
(参考文献52)R. Martin. Noise power spectral density estimation based on optimal smoothing and minimum statistics. IEEE Transactions on Speech and Audio Processing, 9(5):504-512, 2001.
(参考文献53)S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. Courville, and Y. Bengio. Samplernn: An unconditional end-to-end neural audio generation model, 2016.
(参考文献54)M. Michelashvili and L. Wolf. Audio denoising with deep network priors, 2019.
(参考文献55)J. A. Moorer. A note on the implementation of audio processing by short-term fourier transform. In 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pages 156-159, 2017.
(参考文献56)A. Narayanan and D. Wang. Ideal ratio mask estimation using deep neural networks for robust speech recognition. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 7092-7096, 2013.
(参考文献57)K. Noda, Y. Yamaguchi, K. Nakadai, H. G. Okuno, and T. Ogata. Audio-visual speech recognition using deep learning. Applied Intelligence, 42(4):722-737, June 2015. ISSN 0924-669x. doi: 10.1007/s10489-014-0629-7. URL https://doi.org/10. 1007/s10489-014-0629-7.
(参考文献58)A. Owens and A. A. Efros. Audio-visual scene analysis with self-supervised multisensory features. Lecture Notes in Computer Science, page 639-658, 2018. ISSN 1611-3349. doi: 10.1007/978-3-030-01231-1¥_39. URL http://dX.doi.org/10.1007/978-3-030-01231-1_39.
(参考文献59)A. Owens, P. Isola, J. McDermott, A. Torralba, E. H. Adelson, and W. T. Freeman. Visually indicated sounds. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. doi: 10.1109/cvpr.2016.264. URL http://dx.doi.org/10.1109/CVPR.2016. 264.
(参考文献60)A. Owens, J. Wu, J. H. McDermott, W. T. Freeman, and A. Torralba. Ambient sound provides supervision for visual learning. In European conference on computer vision, pages 801-816. Springer, 2016.
(参考文献61)K. Paliwal, K. Wojcicki, and B. Shannon. The importance of phase in speech enhancement. Speech Commun., 53(4):465-494, Apr. 2011. ISSN 0167-6393. doi: 10.1016/j.specom.2010. 12.003. URL https://doi.org/10.1016/j.specom.2010.12.003.
(参考文献62)A. Pandey and D. Wang. A new framework for supervised speech enhancement in the time domain. In Proc. Interspeech 2018, pages 1136-1140, 2018. doi: 10.21437/Interspeech. 2018-1223. URL http://dx.doi.org/10.21437/Interspeech .2018-1223.
(参考文献63)S. Parveen and P. Green. Speech enhancement with missing data techniques using recurrent neural networks. In 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages I-733, 2004.
(参考文献64)S. Pascual, A. Bonafonte, and J. Serra. Segan: Speech enhancement generative adversarial network. In Proc. Interspeech 2017, pages 3642-3646, 2017. doi: 10.21437/Interspeech. 2017- 1428. URL http://dx.doi.org/10.21437/Interspeech .2017-1428.
(参考文献65)S. Pascual, J. Serra, and A. Bonafonte. Towards generalized speech enhancement with generative adversarial networks. In Proc. Interspeech 2019, pages 1791-1795, 2019. doi: 10.21437/Interspeech.2019-2688. URL http://dx.doi.org/10. 21437/Interspeech. 2019-2688.
(参考文献66)L. ping Yang and Q.-J. Fu. Spectral subtraction-based speech enhancement for cochlear implant patients in background noise. The Journal ofthe Acoustical Society ofAmerica, 117 3 Pt 1:1001-4, 2005.
(参考文献67)H. Purwins, B. Li, T. Virtanen, J. Schluter, S.-Y. Chang, and T. Sainath. Deep learning for audio signal processing. IEEE Journal of Selected Topics in Signal Processing, 13(2): 206-219, May 2019. ISSN 1941-0484. doi: 10.1109/jstsp.2019.2908700. URL http: //dX.doi.org/10.1109/JSTSP.2019.2908700.
(参考文献68)K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florencio, and M. Hasegawa-Johnson. Speech enhancement using bayesian wavenet. In Proc. Interspeech 201 7, pages 2013-2017, 2017. doi: 10.21437/Interspeech.2017- 1672. URL http://dx.doi.org/10.21437/Interspeech.2017-1672.
(参考文献69)S. Rangachari, P. C. Loizou, and Yi Hu. A noise estimation algorithm with rapid adaptation for highly nonstationary environments. In 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, volume 1, pages I-305, 2004.
(参考文献70)D. Rethage, J. Pons, and X. Serra. A wavenet for speech denoising. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5069-5073, 2018.
(参考文献71)A. Rix, J. Beerends, M. Hollier, and A. Hekstra. Perceptual evaluation of speech quality (pesq): A new method for speech quality assessment of telephone networks and codecs. In 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.01 CH37221), volume 2, pages 749-752 vol.2, 02 2001. ISBN 0-7803-7041-4. doi: 10.1109/icassp.2001.941023.
(参考文献72)S. R. Rochester. The significance of pauses in spontaneous speech. Journal ofPsycholinguistic Research, 2(1):51-81, 1973.
(参考文献73)T. Sainburg. Noise reduction in python using spectral gating. https://github.com/timsainb/noisereduce, 2019.
(参考文献74)P. Scalart and J. V. Filho. Speech enhancement based on a priori signal to noise estimation. In 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, volume 2, pages 629-632 vol. 2, 1996.
(参考文献75)M. Schuster and K. Paliwal. Bidirectional recurrent neural networks. Signal Processing, IEEE Transactions on, 4532673-2681, 12 1997. doi: 10.1109/78.650093.
(参考文献76)M. A. C. Schuyler R. Quackenbush, Thomas P. Barnwell. Objective Measures Of Speech Quality. Prentice Hall, Englewood Cliffs, NJ, 1988. ISBN 9780136290568.
(参考文献77)E. Sejdic, I. Djurovic, and L. Stankovic. Quantitative performance analysis of scalogram as instantaneous frequency estimator. IEEE Transactions on Signal Processing, 56(8):3837-3845, 2008.
(参考文献78)P. Smaragdis, C. Fevotte, G. J. Mysore, N. Mohammadiha, and M. Hoffman. Static and dynamic source separation using nonnegative factorizations: A unified view. IEEE Signal Processing Magazine, 31(3):66-75, 2014.
(参考文献79)K. V. Sorensen and S. V. Andersen. Speech enhancement with natural sounding residual noise based on connected time-frequency speech presence regions. EURASIP J. Adv. Signal Process,
(参考文献80)C. Taal, R. Hendriks, R. Heusdens, and J. Jensen. A short-time objective intelligibility measure for time-frequency weighted noisy speech. In 2010 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 4214-4217, 04 2010. doi: 10.1109/icassp. 2010.5495701.
(参考文献81)S. Tamura and A. Waibel. Noise reduction using connectionist models. In ICASSP-88., International Conference on Acoustics, Speech, and Signal Processing, pages 553-556 vol.1, 1988.
(参考文献82)J. Thiemann, N. Ito, and E. Vincent. The diverse environments multi-channel acoustic noise database (demand): A database of multichannel environmental noise recordings. In 21st International Congress on Acoustics, Montreal, Canada, June 2013. Acoustical Society of America. doi: 10.5281/zenodo.1227120. URL https : //hal . inria . fr/ha1- 00796707. The dataset itself is archived on Zenodo, with DOI 10.5281/zenodo.1227120.
(参考文献83)C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi. Investigating rnn-based speech enhancement methods for noise-robust text-to-speech. In 9th ISCA Speech Synthesis Workshop, pages 146-152, 2016. doi: 10.21437/ssw.2016-24. URL http : //dx . doi . org/10 . 21437/SSW.2016-24.
(参考文献84)A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu. Wavenet: A generative model for raw audio. ArXiv, abs/1609.03499, 2016.
(参考文献85)D. Wang and J. Chen. Supervised speech separation based on deep learning: An overview. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(10): 1702-1726, Oct 2018. ISSN 2329-9304. doi: 10.1109/taslp.2018.2842159. URL http://dx.doi.org/10.1109/TASLP.2018.2842159.
(参考文献86)D. Wang and Jae Lim. The unimportance of phase in speech enhancement. IEEE Transactions on Acoustics, Speech, and Signal Processing, 30(4):679-681, 1982.
(参考文献87)Y. Wang and D. Wang. Cocktail party processing via structured prediction. In Proceedings ofthe 25th International Conference on Neural Information Processing Systems - Volume 1, Nips' 12, page 224-232, Red Hook, NY, USA, 2012. Curran Associates Inc.
(参考文献88)Y. Wang and D. Wang. A deep neural network for time-domain signal reconstruction. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 4390-4394, 2015.
(参考文献89)Y. Wang, A. Narayanan, and D. Wang. On training targets for supervised speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12):1849-1858, 2014.
(参考文献90)W. Wei and E. Huerta. Gravitational wave denoising of binary black hole mergers with deep learning. Physics Letters B, 800: 135081, 2020.
(参考文献91)M. R. Weiss, E. Aschkenasy, and T. W. Parsons. Study and development of the intel tech-nique for improving speech intelligibility. Technical report nsc-fr/4023, Nicolet Scientific Corporation, 1974.
(参考文献92)F. Weninger, J. R. Hershey, J. Le Roux, and B. Schuller. Discriminatively trained recurrent neural networks for single-channel speech separation. In 2014 IEEE Global Conference on Signal and Information Processing (GlobalSIP), pages 577-581, 2014.
(参考文献93)F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Roux, J. R. Hershey, and B. Schuller. Speech enhancement with lstm recurrent neural networks and its application to noise-robust asr. In Proceedings ofthe 12th International Conference on Latent Variable Analysis and Signal Separation - Volume 9237, Lva/ica 2015, page 91-99, Berlin, Heidelberg, 2015. Springer- Verlag. ISBN 9783319224817. doi: 10.1007/978-3-319-22482-4¥_11. URL https://doi.org/10.1007/978-3-319-22482-4_11.
(参考文献94)D. S. Williamson and D. Wang. Time-frequency masking in the complex domain for speech dereverberation and denoising. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25(7):1492-1501, 2017.
(参考文献95)J. Wiseman. Py-webrtcvad. https://github.com/wiseman/py-webrtcvad, 2019.
(参考文献96)L. Wyse. Audio spectrogram representations for processing with convolutional neural networks, 2017.
(参考文献97)Y. Xu, J. Du, L. Dai, and C. Lee. An experimental study on speech enhancement based on deep neural networks. IEEE Signal Processing Letters, 21(1):65-68, 2014.
(参考文献98)Y. Xu, J. Du, L. Dai, and C. Lee. A regression approach to speech enhancement based on deep neural networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(1): 7-19, 2015.
(参考文献99)Y. Xu, J. Du, Z. Huang, L.-R. Dai, and C.-H. Lee. Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement. In Interspeech, 2015.
(参考文献100)X. Zhang and D. Wang. A deep ensemble learning method for monaural speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(5):967-977, 2016.
(参考文献101)Z. Zhang, Y. Wang, C. Gan, J. Wu, J. B. Tenenbaum, A. Torralba, and W. T. Freeman. Deep audio priors emerge from harmonic convolutional networks. In International Conference on Learning Representations, 2020. URL https : //openreview . net/forum id=rygjHXrYDB.
(参考文献102)H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott, and A. Torralba. The sound of pixels. In Proceedings of the European Conference on Computer Vision (ECCV), pages 570-586, 2018.
【0083】
(補足的な説明、音声ノイズ除去のため無音の音を聞く)
(A:ネットワーク構造及びトレーニングの詳細)
本発明者らは、ここで本発明者らのネットワーク構造及び訓練の構成の詳細を提示する。
【0084】
本発明者らのモデルの無音インターバル検出のコンポーネントは、2Dの畳み込みレイヤー、双方向性のLSTM、及び2つのFCレイヤーから構成される。畳み込みレイヤーのパラメータは、表3に示す。各畳み込みレイヤーは、ReLU活性関数を有するバッチ正規化層が続く。双方向性のLSTMの非表示の大きさは100である。ReLU活性関数と交互配置される2つのFCレイヤーは、それぞれ100及び1の非表示の大きさを有する。
【0085】
[表3]
【表3】
【0086】
本発明者らのモデルのノイズ推定コンポーネントは、十分に畳み込まれ、2つのエンコーダ及び1つのデコーダからなる。2つのエンコーダは、それぞれノイズの多い信号及び不完全なノイズプロファイルを処理する;それらは同じ構成を有する(表4に示す)が、異なる重みを有する。2つのエンコーダの結果である2つの特徴マップは、デコーダにフィードする前にチャネルごとの方式で連結する。表4では、最後の1つを除く全部の層で、ReLU活性関数と共にバッチ正規化層が後続している。加えて、第2及び第14層の間、及び第4及び第12層の間のスキップ接続が存在する。
【0087】
[表4]
【表4】
表4:ノイズ推定コンポーネントの構成。
'C'は、畳み込みレイヤーを示し、'TC'は、置き換えられた畳み込みレイヤーを示す。
【0088】
本発明者らのモデルのノイズを除去するコンポーネントは、2つの2D畳み込みエンコーダ、双方向性のLSTM、及び3つのFCレイヤーから構成される。2つの畳み込みエンコーダは、入力として、入力音声スペクトログラムS及び推定されるフルノイズスペクトログラム
【数42】
をそれぞれ取得する。第1のエンコーダは、表5に挙げられたネットワーク構成を有し、第2のものは、同じ構成を有するが、各畳み込みレイヤーのフィルタの半数である。また、双方向性のLSTMの非表示の大きさは200で、3つのFCレイヤーの非表示の大きさはそれぞれ600、600、2Fであり、Fはスペクトログラムの周波数ビンの数である。活性化関数に関しては、Sigmoidを利用する最後の層を除いて、各層の後にReLUが利用される。
【0089】
[表5]
【表5】
表5:本発明者らのモデルのノイズを除去するコンポーネント用の畳み込みエンコーダ。
各畳み込みレイヤーは、活性化関数として、ReLU活性関数を有するバッチ正規化層が続く。
【0090】
図7:異なるSNRレベルに基づいて構築されたノイズの多いオーディオ。第1の列は、グラウンドトゥルースのクリーンな入力の波形を示す。
【0091】
訓練の詳細。
本発明者らは、本発明者らの音声ノイズ除去モデルを実施するためにPyTorchプラットフォームを利用し、それはその後Adamオプティマイザで訓練される。無音インターバルの監視がない本発明者らのエンドツーエンドの訓練において(「本発明者らのW/O SID損失」と、セクション.4で称され、またセクション.3.2を思い出されたい)で、本発明者らはバッチサイズ20、学習速度0.001で50エポックのAdamオプティマイザを稼働する。無音インターバルの監視が組み込まれる(セクション.3.3を思い出されたい)とき、本発明者らは第1に、後続の設定を有する無音インターバル検出のコンポーネントを訓練し:バッチサイズ15 及び学習速度0.001で100エポックのAdamオプティマイザを稼働する。後に、本発明者らは、「本発明者らのw/o SID損失」のエンドツーエンドの訓練と同じ設定を利用して、ノイズ推定と除去コンポーネントを訓練する。
【0092】
(B:データ処理の詳細)
本発明者らのモデルは、任意の長さのモノチャネルオーディオクリップを入力として取得するよう設計される。しかしながら、訓練データセットを構築するとき、本発明者らは、各々、同じ2つの秒の長さを有する訓練データセットのオーディオクリップを設定し、訓練時間でのバッチを可能にする。この目的に対し、本発明者らは、AVSPEECH、DEMAND、及びAudioSetから2つの秒の長さのクリップに、元のオーディオクリップを各々分割する。全オーディオクリップは、その後l6kHzでダウンサンプリングされて、STFTを利用してスペクトログラムに変換する。STFTを実行すべく、高速フーリエ変換(FFT)の大きさが510に設定され、Hannウィンドウの大きさが28msに設定され、ホップの長さは11msに設定されている。結果として、各々の2つの秒のクリップは、解像度256×178の(複素数の値の)スペクトログラムが得られ、256は周波数ビンの数であり、178は時間解像度である。推定時間に、本発明者らのモデルは、依然として任意の長さのオーディオクリップを受け付けることができる。
【0093】
本発明者らのクリーンな音声のデータセット及びノイズのデータセット両方は、第1に、訓練及びテストのセットに分割され、その結果訓練及びテストのオーディオクリップのいずれも同じ元のオーディオソースに由来しない-それらは十分に分離している。
【0094】
本発明者らの無音インターバル検出を監視するために、本発明者らは、クリーンなオーディオ信号を以下の方法で分類する。本発明者らは第1に、各々のオーディオクリップを正規化し、その大きさは[-1,1]の範囲にある、すなわち、-1又は1で最大の波形の大きさを保証する。その後、クリーンなオーディオクリップが長さ1/30秒のセグメントに分割される。本発明者らは、平均波形エネルギーがそのセグメントで0.08を下回る場合、時間区分を「無音」のセグメント(すなわち、ラベル0)と分類する。さもなければ、それは「非無音」セグメント(すなわちラベル1)として分類される。
【0095】
(C:無音インターバル検出の評価):
(C.1:メトリック)本発明者らは、ここで、本発明者らの無音インターバル検出を評価するために利用されるメトリックの詳細(すなわち表1の結果)を提供する。無音インターバルを検出することは、バイナリ分類タスクであり、全時間区分を無音(つまり、陽性の条件)かそうでない(すなわち、陰性の条件)かに分類するものである。バイナリ分類タスクでの混同行列が以下のようであることを思い出されたい:
【0096】
[表6]
【表6】
表6:混同行列
【0097】
本発明者らの場合、本発明者らは、後続の条件を有する:真陽性(TP)サンプルは、正しく予測される無音の区分である。真陰性(TN)サンプルが、正しく予測される非無音の区分である。偽陽性(FP)サンプルは、無音として予測される非無音の区分である。偽陰性(FN)サンプルは、非無音として予測される無音の区分である。表1で利用される4つのメトリックは、統計の標準的な定義に従っており、本発明者らはここでそれを概観する:
【0098】
[数1]
【数43】
【0099】
式中、NTP、NTN、NFP、及びNFNは全テストの間での、真陽性、真陰性、偽陽性、及び偽陰性の予測の数を示す。直観的には、再現度は、全部の真の無音インターバルを正しく見出す能力を示し、精度は、分類された無音インターバルのどれだけの割合が真に無音であるかを測定する。F1スコアは、精度及び再現度を考慮し、それらの調和した平均を生成する。また、正確度は全予測の間の正確な予測の比率である。
【0100】
(C.2:無音インターバル検出の例)
図9において、本発明者らは2個の代替の方法の比較における無音インターバル検出の結果の一例を提示する。2個の代替は、セクション.4.3に記載され、それぞれベースライン閾値及びVADと称されている。図9は、表1の量的な結果の反復である:VADは、軽いノイズの存在下であっても過度に保存的な傾向があり;多数の無音インターバルが無視されている。他方で、ベースライン閾値は、過度に積極的な傾向がある;それは多数の偽りのインターバルを生成する。対照的に、本発明者らの無音インターバル検出は、より良好なバランスを維持し、そのためより正確に予測する。
【0101】
図9:無音インターバル検出の結果の一例。
SNRが 0dB の入力信号(左上)が与えられ、本発明者らは、3つの手法:本発明者らの方法、ベースライン閾値、及びVADによって検出された無音インターバル(赤)を示す。本発明者らはまた、左上に、グラウンドトゥルースの無音インターバルを示す。
【0102】
(D:アブレーションスタディ及び分析)
(D.1:アブレーションスタディの詳細)
セクション.4.4及び表2において、アブレーションスタディが以下の方法で設定されている。「本発明者らのもの」は、無音インターバルの監視を組み込む、本発明者らが提案するネットワーク構造及び訓練法を参照する(セクション.3.3を思い出されたい)。詳細は、A.に記載されている。「本発明者らのw/o SID 損失」は、本発明者らが提案するネットワーク構造を参照するが、セクション.3.2の訓練法によって最適化される(すなわち、無音インターバルの監視がないエンドツーエンドの訓練)。このアブレーションスタディは、無音インターバルの監視が実際に、ノイズ除去の質を改良するのに役立つことを確認するものである。「本発明者らのジョイント損失」は、追加項(2)を伴う損失関数(1)を最適化するエンドツーエンドの訓練手法により最適化される提案されたネットワーク構造を示す。このエンドツーエンドの訓練において、無音インターバル検出はまた、損失関数により監視される。このアブレーションスタディは、本発明者らの二段階の訓練(セクション.3.3)がより有効であることを確認するものである。「本発明者らのw/o NE損失」は、本発明者らの二段階の訓練(セクション.3.3)を利用するが、ノイズ推定の損失項がない-つまり(1)の第1項がない。このアブレーションスタディは、より優れたノイズ除去の質のためのノイズ推定の損失項の必要性を吟味するためのものである。「本発明者らのw/o SID comp」は、無音インターバル検出をオフにする:無音インターバル検出のコンポーネントは常に、全部がゼロのベクトルを出力する。結果として、ノイズ推定コンポーネントNに対する入力されるノイズプロファイルは、正確に元のノイズの多い信号と同じものに作成される。このアブレーションスタディは、音声ノイズ除去用の無音インターバルの効果を検査するためのものである。「本発明者らのw/o NR comp」は、本発明者らのノイズを除去するコンポーネントを置き換えるべく単純なスペクトル減算を利用する。他のコンポーネントは、「非変化」で居続ける。このアブレーションスタディは、本発明者らのノイズを除去するコンポーネントの有効性を検査するためのものである。
【0103】
(D.2:ノイズ除去の質への無音インターバル検出の影響)
本発明者らのニューラルネットワークが基盤のノイズ除去モデルの重要な洞察は、時間の経過を伴う無音インターバルの分布の活用である。上部の実験は、より優れた音声ノイズ除去のための本発明者らの無音インターバル検出の有効性を確認した。本発明者らは、ここで、付加的な実験を報告しており、無音インターバルの予測の質が音声ノイズ除去の質にいかに影響するかについて、ある程度の経験的理解を得ることに照準を当てている。
【0104】
第1に、グラウンドトゥルースの無音インターバルで開始し、本発明者らは1/30、1/10、1/6、及び1/2秒の時間軸でそれらを変化させる。変化させた時間の長さが増加すると、さらなる時間区分が不正確に分類されることになる:偽陽性ラベル(すなわち、無音と分類される非無音の時間区分)及び偽陰性のラベル(すなわち、非無音と分類される無音時間区分)の両方の数が、増加する。それぞれの変化の後、本発明者らは無音インターバルのラベルを本発明者らのノイズ推定及び除去コンポーネントにフィードし、PESQスコア下でのノイズ除去の質を測定している。
【0105】
第2の実験で、本発明者らは、再度グラウンドトゥルースの無音インターバルを開始する;しかし、それらを変化させるのに代えて、本発明者らは、20%、40%、60%、及び80%、無音インターバルを各々その中心に向かって縮小させる。無音インターバルがより縮小されたものになるにつれ、より少ない時間区分が無音として分類される。換言すると、偽陰性の予測数のみ増加する。以前の実験と同様に、各々が縮小した後、本発明者らは、本発明者らの音声ノイズ除去のパイプラインにおける無音インターバルのラベルを利用し、PESQスコアを測定する。
【0106】
両方の実験の結果が表S5にて報告される。本発明者らが無音インターバルを縮小させると、ノイズ除去の質が少し下がった。対照的に、少量の変化であっても、ノイズ除去の質の明白な低下が生じた。これらの結果は、偽陰性の予測と比較して、偽陽性の予測は、ノイズ除去の質に対しより否定的に影響することを提示している。他方で、合理的に保存的な予測は、特定の無音時間区分を未検出(すなわち、いくつかの偽陰性のラベルの取り入れ)のままにし得るが、検出された無音インターバルは、実際にノイズプロファイルを明示する。他方、少量の偽陽性の予測であっても、特定の非無音時間区分が無音の区分として扱われるようになり、そのため、検出された無音インターバルでの観察されたノイズプロファイルは、フォアグラウンド信号によりテインされる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【国際調査報告】