(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023165667
(43)【公開日】2023-11-16
(54)【発明の名称】リアルタイムのノイズ除去ネットワークのためのダイナミックスライディングウィンドウ
(51)【国際特許分類】
G10L 21/0208 20130101AFI20231109BHJP
【FI】
G10L21/0208 100Z
【審査請求】有
【請求項の数】5
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023076242
(22)【出願日】2023-05-02
(31)【優先権主張番号】63/338,857
(32)【優先日】2022-05-05
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】507247232
【氏名又は名称】ザ トラスティーズ オブ コロンビア ユニバーシティ イン ザ シティー オブ ニューヨーク
(71)【出願人】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】チャンシ ゼン
(72)【発明者】
【氏名】ルイリン ズー
(72)【発明者】
【氏名】ルンディ ウー
(72)【発明者】
【氏名】石若 裕子
(72)【発明者】
【氏名】ジンシュ シアン
(72)【発明者】
【氏名】ユヤン ズ
(57)【要約】 (修正有)
【課題】ダイナミックスライディングウィンドウを使用する軽量のノイズ除去ネットワークを提供する。
【解決手段】ノイズ除去ネットワークは、ダイナミックスライディングウィンドウに基づいたSTFTを適用して取得されたスペクトログラムを入力とし、2Dの畳み込み層と一方向のLSTMと完全接続層とを介して入力スペクトログラムに対応する複素数値のマスクを出力する。入力スペクトログラムにマスクを適用してノイズ除去されたスペクトログラムを生成し、逆STFTを適用することによりノイズ除去されたオーディオ信号を得る。
【選択図】
図4
【特許請求の範囲】
【請求項1】
ストリーミング方式でオーディオ信号を取得するように構成された取得ユニット;及び
入力バッファの長さが固定されていないダイナミックスライディングウィンドウを使用することにより、前記オーディオ信号をノイズ除去するように構成されたノイズ除去ユニット
を備える、オーディオ信号処理装置。
【請求項2】
前記ノイズ除去ユニットが前記オーディオ信号の一部を、第1の大きさを有する前記ダイナミックスライディングウィンドウにバッファし、その後前記オーディオ信号の前記一部をノイズ除去する間に前記オーディオ信号の次の一部をバッファするように構成された、請求項1に記載のオーディオ信号処理装置。
【請求項3】
前記ノイズ除去ユニットが、前記オーディオ信号の一部を、第1の大きさを有する前記ダイナミックスライディングウィンドウにバッファし、その後前記オーディオ信号の前記一部のノイズ除去及び前記オーディオ信号の次の一部のバッファを開始して、その後前記ノイズ除去が終了したときに前記バッファを停止するように構成された、請求項1に記載のオーディオ信号処理装置。
【請求項4】
請求項1から3のいずれか一項に記載のオーディオ信号処理装置としてコンピュータを機能させるためのプログラム。
【請求項5】
ストリーミング方式でオーディオ信号を取得する段階;及び
入力バッファの長さが固定されていないダイナミックスライディングウィンドウを使用することにより、前記取得する段階で取得された前記オーディオ信号をノイズ除去する段階
を備える、オーディオ信号処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、リアルタイム、ノイズ除去、スライディングウィンドウ、ニューラルネットワーク、データストリームに関する。
【背景技術】
【0002】
後続の文献は、本発明に関する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Santiago Pascual, Antonio Bonafonte, and Joan Serra, "Segan: Speech enhancement generative adversarial network," arXiv preprint arXiv:1703.09452, 2017.
【非特許文献2】Francois G Germain, Qifeng Chen, and Vladlen Koltun, "Speech denoising with deep feature losses," arXiv preprint arXiv:1806.10522, 2018.
【非特許文献3】Craig Macartney and Tillman Weyde, "Improved speech enhancement with the wave-u-net," arXiv preprint arXiv:1811.11307, 2018.
【非特許文献4】Szu-Wei Fu, Chien-Feng Liao, Yu Tsao, and Shou-De Lin, "Metricgan: Generative adversarial networks based black-box metric scores optimization for speech enhancement," in International Conference on Machine Learning.PMLR, 2019, pp. 2031-2041.
【非特許文献5】Ruilin Xu, Rundi Wu, Yuko Ishiwaka, Carl Vondrick, and Changxi Zheng, "Listening to sounds of silence for speech denoising," in Advances in Neural Information Processing Systems, H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin, Eds. 2020, vol. 33, pp. 9633-9648, Curran Associates, Inc.
【非特許文献6】Alexandre Defossez, Gabriel Synnaeve, and Yossi Adi, "Real time speech enhancement in the waveform domain," arXiv preprint arXiv:2006.12847, 2020.
【非特許文献7】Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li, "Fullsubnet: A full-band and sub-band fusion model for real-time single-channel speech enhancement," in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2021, pp. 6633-6637.
【非特許文献8】Tyler Vuong, Yangyang Xia, and Richard M. Stern, "A modulation-domain loss for neural-network-based realtime speech enhancement," 2021.
【非特許文献9】Qiquan Zhang, Aaron Nicolson, Mingjiang Wang, Kuldip K Paliwal, and Chenxu Wang, "Deepmmse: A deep learning approach to mmse-based noise power spectral density estimation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1404-1415, 2020.
【非特許文献10】Hyeong-Seok Choi, Sungjin Park, Jie Hwan Lee, Hoon Heo, Dongsuk Jeon, and Kyogu Lee, "Real-time denoising and dereverberation with tiny recurrent u-net," arXiv preprint arXiv:2102.03207, 2021.
【非特許文献11】Sepp Hochreiter and Jurgen Schmidhuber, "Long shortterm memory," Neural computation, vol. 9, no. 8, pp. 1735-1780, 1997.
【非特許文献12】Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, and Michael Rubinstein, "Looking to listen at the cocktail party: A speaker-independent audio-visual model for speech separation," ACM Transactions on Graphics, vol. 37, no. 4, pp. 1-11, July 2018.
【非特許文献13】Y. Wang, A. Narayanan, and D. Wang, "On training targets for supervised speech separation," IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 12, pp. 1849-1858, 2014.
【非特許文献14】Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal, and Marvin Ritter, "Audio set: An ontology and human-labeled dataset for audio events," in Proc. IEEE ICASSP 2017, New Orleans, LA, 2017.
【非特許文献15】Joachim Thiemann, Nobutaka Ito, and Emmanuel Vincent, "The diverse environments multi-channel acoustic noise database(demand): A database of multichannel environmental noise recordings," in 21st International Congress on Acoustics, Montreal, Canada, June 2013, Acoustical Society of America, The dataset itself is archived on Zenodo, with DOI 10.5281/zenodo.1227120.
【非特許文献16】Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, "Investigating rnn-based speech enhancement methods for noise-robust text-to-speech," in 9th ISCA Speech Synthesis Workshop, 2016, pp. 146- 152.
【非特許文献17】Cees H Taal, Richard C Hendriks, Richard Heusdens, and Jesper Jensen, "An algorithm for intelligibility prediction of time-frequency weighted noisy speech," IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2125-2136, 2011.
【非特許文献18】ITU-T Recommendation, "Perceptual evaluation of speech quality(pesq): An objective method for end-toend speech quality assessment of narrow-band telephone networks and speech codecs," Rec. ITU-T P. 862, 2001.
【非特許文献19】Yi Hu and Philipos C. Loizou, "Evaluation of objective quality measures for speech enhancement," IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, no. 1, pp. 229-238, 2008.
【非特許文献20】Mark A. Clements Schuyler R. Quackenbush, Thomas P. Barnwell, Objective Measures Of Speech Quality, Prentice Hall, Englewood Cliffs, NJ, 1988.
【図面の簡単な説明】
【0004】
本発明のこれら及び他の態様は、以下に説明する実施形態を参照して明らかとなり、説明されるであろう。
【0005】
【
図1】ダイナミック対固定の大きさのスライディングウィンドウを概略的に示す。
【
図3】リアルタイムのパフォーマンスの比較を概略的に示す。
【
図6】データ処理装置100として機能するコンピュータ1200のハードウェア構成の例を概略的に示す。
【発明を実施するための形態】
【0006】
1.緒言
リアルタイムの音声ノイズ除去は、極めて需要がある-おそらくこれまでで最も需要がある-オーディオ処理タスクである。我々の世界が依然コロナウイルス感染症(COVID)のパンデミックにより闇に包まれ、オンライン会議が我々の日常的な社会生活の「新たな通常」となってきているからである。特に最近、従来技術のリアルタイムのノイズ除去技術はすべて、ニューラルネットワークに基づいている[1、2、3、4、5、6、7、8]。それらは処理時間を低減するためネットワークの簡素性を保持しながら、妥当なノイズ除去の質を達成する新規のネットワーク構造を模索するものである。
【0007】
オフラインでの音声ノイズ除去と異なり、リアルタイムの設定でのオーディオ信号は、ストリーミング方式で提供される。ネットワークは、信号サンプルが到着したとたん、それらを処理し、可能な限り短い遅延で出力サンプルを発生させなければならない。結果として、概ねすべてのリアルタイムの技術において、固定の長さのスライディングウィンドウバッファを使用するのが共通の戦略となっている。
【0008】
このことは、当然の選択であるように思われる。ネットワークは、スライディングウィンドウバッファが入来オーディオサンプルにより満たされ、次にそのバッファにおいてデータをノイズ除去するまで待機する。後に、結果として生じる信号データがリアルタイムオーディオプレイヤーに供給される。この方法では、ネットワークは固定の長さLの入力信号を予想する。ネットワークの処理時間が常にLより短いものである限り、信号サンプルの到着から対応するノイズ除去されたサンプルの再生時間までの遅れ全体は制限されており、Lよりも長く2L未満である(セクション2.1の分析を参照)。
【0009】
しかしながら、実践において、リアルタイムのパフォーマンスを確実にするバッファの長さLを選択するのは、不可能ではないが難しい。大きなLは、長い遅れを生起させる;小さなLは、Lより長いネットワークの処理時間をもたらす場合があり、結果として途切れ途切れのオーディオ再生になる。これは、実際の計算環境において、常に他のバックグラウンドプロセス(例えば、4Kビデオの再生及びゲーム)が存在するためである。Lが短いほど、ノイズ除去ネットワークは他のプロセスのCPU占有率に影響されやすい。手短に言うと、スライディングウィンドウ戦略は、リアルタイムのノイズ除去にとって基本的なものであるにもかかわらず、入念な調査ではとらえにくいままなのである。
【0010】
本発明者は、異なるスライディングウィンドウ戦略、すなわちダイナミックスライディングウィンドウを提案する。本発明者の手法では、入力バッファの長さが固定されていない。ネットワークは、現在バッファされているデータを、その長さと無関係に取り込み、待機がない状態でそれに対する処理を開始する。ネットワークが実行している間、新たに受信したデータは、バッファに蓄積され、ネットワークが現在のノイズ除去のラウンドを終えるときに処理される準備態勢にある。このスライディングウィンドウ戦略は、概念としては単純だが、他のプロセスのCPU占有率に対してよりロバストであり、それにより、より短くてより安定した遅れという結果になる。その利点を示すために、本発明者は、本発明者の手法が生じさせるオーディオ再生の遅延及び共通して使用されている固定の大きさのスライディングウィンドウを公的に分析する。知る限りにおいて、異なるスライディングウィンドウ戦略下でのネットワークの遅延が調査されるのは、今回が初めてである。
【0011】
多くの既存のリアルタイムのノイズ除去ネットワーク(例えば、[6、7、8])は、ダイナミックスライディングウィンドウを容易には統合できない(セクション2.2の論述を参照)。したがって、本発明者は、リアルタイムの設定のために適合される軽量のノイズ除去ネットワーク、すなわち:ストリーム信号を受け入れること、及びダイナミックスライディングウィンドウを使用してそれらを処理することを提案する。スライディングウィンドウに亘るデータを入念にパディング及び再使用することで、本発明者のネットワークは、オフラインのストリーミングのない事例と比較して、ノイズ除去の質の喪失を受けない。
【0012】
本発明者は、提案のモデルといくつかの従来技術のリアルタイムのノイズ除去方法を比較する広範の実験を実行している。本発明者の提案のモデルが、すべての質のメトリックに関して互角のノイズ除去の質を取得したが、すべての比較された方法の中で再生の遅れが最も少ないという結果が示された。最も重要なことには、先行のリアルタイムのノイズ除去方法[6]と比較して、本発明者のモデルは、Zoomでの会議、4Kビデオの編集、及びテレビゲームなどの他のバックグラウンドのタスクがCPUサイクルを先取りし得る現実世界のシナリオで、リアルタイムのパフォーマンスを維持するのによりロバストである。
【0013】
2.方法
本発明者は、固定の大きさのスライディングウィンドウが使用されるときのオーディオ再生の遅れを分析することから開始している。これは、本発明者の提案したダイナミックスライディングウィンドウを使用するときの遅れと比較されている(セクション2.1)。本発明者の分析に刺激されて、本発明者は、次に、より速くてよりロバストなノイズ除去のためのダイナミックスライディングウィンドウを活用する軽量のノイズ除去ネットワークを提案する(セクション2.2)。
【0014】
図1は、ダイナミック対固定の大きさのスライディングウィンドウを概略的に示す。異なるウィンドウが異なるハッチングにより示される。各ウィンドウは、個々にネットワークにより処理される。灰色の領域は、CPUサイクルが他のプロセスにより占有され、そのためネットワークの処理時間が増加する期間を示す。
【0015】
2.1データストリームのためのスライディングウィンドウ
固定の大きさのスライディングウィンドウ。概ねすべての既存のネットワークベースのノイズ除去モデルにおいて、入来オーディオ信号は、時間の連続する重複のないウィンドウ[X
1,X
2,…]として扱われる。各ウィンドウは、ストリーミング方式において充足される定常長さLのオーディオサンプル(すなわち、X
i∈R
L)をホストする。ネットワークFは最新の未処理のウィンドウX
iを取り込み、ノイズ除去された結果F(X
i)を出力し、その後、次のウィンドウX
i+1が満たされるまで待機する(
図1の(a)を参照)。t
kはウィンドウX
kのネットワークの処理時間を示す。ウィンドウの大きさが固定されているが、実践においてt
kは、他のバックグラウンドプロセスのCPU占有率に起因して、経時的に異なるということに留意されたい。本発明者の分析では、X
iを受け取った瞬間からネットワークがF(X
i)を出力する瞬間までの遅延(又は遅れ)d
iが、以下のように表されることが示されている。
【数1】
【0016】
式(1)の導出は些細なものではない。ここのスペースが限られているので、本発明者は導出の詳細を飛ばすが、本発明者はそれを一般的にオンラインで利用できるようにしている1。
【0017】
本発明者の分析(1)は、以下を明示している:t
i<Lが常に満たされる理想の場合には、ノイズ除去ネットワークが遅れの蓄積もなく、リアルタイムでスムーズに実行され;再生の遅延は上限が2Lとなる。しかしながら、実際には、ネットワークの実行は、よく、他のバックグラウンド計算プロセスに影響され、その処理時間t
iはLよりも長くなることがある。同時に、長さt
iのオーディオサンプルが到着し、バッファに蓄積する。この分量のデータを処理すべく、ネットワークは、
【数2】
の回数実行する必要がある。これは、ひいてはオーディオ再生の遅れを蓄積させ得る(そのため、(1)の合計の項)。
【0018】
ダイナミックスライディングウィンドウ。本発明者は、スライディングウィンドウの大きさをダイナミックに調節することを提案する。ネットワークがデータウィンドウX
iを処理し終えたあと即座に、バッファの新たに受信したデータは、長さt
iを有し、これはLよりも大きい場合も、そうでない場合もある。バッファの長さと無関係に、本発明者は待機せずに、利用可能なバッファされたデータをノイズ除去する。
図1の(b)はプロセスを図解している。この戦略では、ウィンドウX
iを再生するための遅延d
iは、以下である。
【数3】
【0019】
i=1のとき、第1のウィンドウの遅延はd1=L0+t1であり、式中L0は開始時にノイズ除去の処理を開始するための初期のウィンドウの大きさである。本発明者らは再度式(2)の導出のための本発明者のオンラインの文献について読者に言及する。
【0020】
この分析では、diが2つの連続するウィンドウXk-1及びXkのネットワークの処理時間のみに依拠することが示されている。固定の大きさのスライディングウィンドウ((1)に示す)と対照的に、蓄積する遅延がない。そのため、本発明者の手法は、計算能力の変動に対してよりロバストである。これは注目すべき利点である。なぜなら、実際の計算環境において、ノイズ除去の計算能力は絶えず変動するからである(セクション3.3を参照)。
【0021】
2.2ネットワーク構造及びデータパディング
ダイナミックスライディングウィンドウ戦略は、特定のネットワーク構造から独立しているが、多くの既存のリアルタイムのノイズ除去ネットワーク[6、7、8、9、10]はそれを利用するよう容易に適合できない。それらの一部は、ネットワークの実行の前に所定のスライディングウィンドウの大きさを必要とする[6]。他にも、ネットワークの推論コストの低減に注目しているものはあるが、それらが入来データストリームをいかに取り扱うかが依然不明瞭である[7、8、9、10]。
【0022】
提案されるネットワーク構造。本発明者は、ダイナミックスライディングウィンドウを使用する軽量のノイズ除去ネットワークを提案する。本発明者のネットワークは、[5]のノイズ除去の成分をもとに構築されている(そのため、その中のノイズ除去モデルよりかなり簡素である)。本発明者のネットワークへの入力は、データウィンドウX
iへSTFTを適用することにより取得されるスペクトログラムs
xである。スペクトログラムs
xは最初、時間-周波数領域でカーネルサイズ(5,5)及び膨張(1,1)を有する2Dの畳み込み層により処理される。結果生じる特徴マップは、非表示の大きさ400の一方向性のLSTM[11]に供給される。最終的に、3つの完全に接続された層の非表示の大きさ(400,600,512)が、各タイムビンに対して適用される。他の発話エンハンスメントモデル[5、12、13]と類似して、本発明者のネットワークは、s
xと同じ次元の複素数値のマスクcを出力する。最後に、ノイズ除去されたオーディオ信号が、は、逆STFTを
【数4】
に適用することによって取得され、式中
【数5】
はアダマール積を示す。
【0023】
トレーニング時に、本発明者は後続の喪失関数を最適化している:
【数6】
式中
【数7】
はクリーンなオーディオのグラウンドトゥルーススペクトログラムを示す。STFTを計算するとき、本発明者は、FFTビンの数を510に、ハニング窓のサイズを400に、ホップ長を128に設定している。
【0024】
図2は、データパディングの図解を概略的に示す。大きさ8及び6の連続する2つのウィンドウが、カーネルサイズ3の2つの1Dの畳み込みにより処理される。この事例において、本発明者は各ウィンドウに対する2つの未来の要素(ウィンドウX
iについて22、23)をパディングし、先行するウィンドウ(処理ウィンドウX
iから取得された15、16)からの第1の畳み込みの結果の2つの要素を再使用する。
【0025】
データパディング。本発明者のネットワーク(また多くのその他のもの)は、畳み込み層を有し、それは境界のデータを処理するためにパディングを必要とする。スライディングウィンドウの方法でストリーミングデータを取り扱うために、このことは、データウィンドウを処理するときに充分な「未来の」データ(例えば、
図2のウィンドウX
i-1についてはブロック16及び17)をバッファする必要があることを意味する。パディングデータの到着を待機することが、さらなる遅れ(本発明者の実施においては48ミリ秒)を導入する。しかし、本発明者は、次のスライディングウィンドウのパディングデータの畳み込みの結果を再使用することができる(
図2の図解を参照)。幾分かの計算のコストを節約することとは別に、パディングデータの再使用は、ネットワークのノイズ除去の質に対して重要である。それにより、本発明者のネットワークが、突如信号全体を取り込むかのように、同じノイズ除去の質を維持することが確実になる。おそらく意外に感じられるであろうが、そのような保証は、既存のリアルタイムのノイズ除去ネットワークに依然欠いている(セクション3.2の実験を参照)。
【0026】
3.実験
本発明者の実験には、2要素がある:本発明者は、本発明者のネットワークのノイズ除去の質を、従来技術のリアルタイムのノイズ除去モデルと比較することによって評価している(セクション3.2)。本発明者は、次に、従来型の固定の大きさのスライディングウィンドウの手法を凌ぐダイナミックスライディングウィンドウのパフォーマンスの利点を実証する(セクション3.3)。
【0027】
3.1.実験の設定
データセット。本発明者は、2つの一般的に利用可能なデータセットについての実験を実行している。Xuら[5]により提供された第1のものは、AVSPEECHから選択されたクリーンなオーディオ[12]、及びAudioSet[14]及びDEMAND[15]からのノイズを有する。本発明者は、このデータセットをADDデータセットと呼ぶ。加えて、本発明者はまた、Valentini[16]のベンチマークを検証し、これは28のスピーカーからのオーディオクリップを含む;各クリップは、対応するクリーン及びノイズ版を有する。
【0028】
評価のメトリック。ノイズ除去の質を評価すべく、本発明者は、後続の広く使用されている客観的なメトリックを使用する:(i)STOI:短時間客観的明瞭度(Short-Time Objective Intelligibility)[17];(ii)PESQ:客観的音声品質評価法(Perceptual evaluation of speech quality)(本発明者は狭帯域版を使用)[18];(iii)CSIG:符号歪のMOS予測因子[19];(iv)CBAK:バックグラウンドノイズの攻撃性のMOS予測因子[19];(v)COVL:全体的な質のMOS予測因子[19];(vi)SSNR:セグメント信号雑音比(Segmental Signal-to-Noise Ratio)[20]。
【0029】
本発明者は、ネットワークのリアルタイムのパフォーマンスを評価するために2つのメトリックを使用する:平均ネットワークの処理時間(D
N)及び最大のオーディオ再生の遅れ(D
A)である。
D
Nは
【数8】
と定義され、式中Mはスライディングウィンドウの全例数であり、t
iはウィンドウX
iの処理時間である。オーディオサンプルが来ると、D
Aはオーディオサンプルの到着時間及びその再生時間の間の最大の遅れを(クリーンアップ後に)測定する。他に明記しない限り、ノイズ除去ネットワークは、CPU(3.60GHz Inter 8-Core i7-9700K)で実行され、メトリックはミリ秒で測定される。
【0030】
[表1]
【表1】
オフライン(上)及びリアルタイム(下)両方の設定でのAADデータセットのノイズ除去の質。すべての得点は、SNR[-10、-7、-3、0、3、7、10]での入力オーディオの平均の結果である。第2位のものに下線が引かれている。
【0031】
3.2.リアルタイムの音声ノイズ除去の質
本発明者は、本発明者のノイズ除去モデルを、Demucs48[6]、FullSub[7]、及びRNN-Mod[8]を含むいくつかの最近提案されたリアルタイムのノイズ除去ネットワークと比較した。本発明者は、同じ前述のデータセットをこれらのモデルでトレーニングして、リアルタイム及びオフライン設定の両方でノイズ除去の質を評価している。オフライン設定において、オーディオ信号はすぐに提供され、そのためスライディングウィンドウは必要ない。同じネットワークからの2つの設定のノイズ除去の質を比較することにより、本発明者は、どの程度スライディングウィンドウ戦略がノイズ除去の質に影響を与えるのか理解することを望んでいる。
【0032】
Demucs48について、本発明者は、提供されたスライディングウィンドウの実装を使用する。FullSub及びRNN-Modは、ストリーミングの実装をもたらさず、本発明者は、ダイナミックスライディングウィンドウが追加されたときにこれらのノイズ除去の質が不安定になるということを見出した。したがって、本発明者は、過去及び未来の終わりに16ミリ秒のパディングを伴う大きさ80ミリ秒の固定の大きさのスライディングウィンドウをこれらのためにそれらを採用する。本発明者の実験が、許容し得る遅延を保持しながらも最善の可能なリアルタイムのノイズ除去の質をもたらすことを示したことから、本発明者はこのスライディングウィンドウの設定を選択している。
【0033】
表1に、ADDデータセットの評価の結果をまとめている。本発明者のモデルは、すべての質のメトリックに対する最高又は互角のリアルタイムのノイズ除去の質を備える。また、本発明者のモデルが、データパディング戦略のおかげで、対にされる相手であるオフラインと同じリアルタイムのノイズ除去の質を確実にする唯一のものであったことは、留意する価値がある。他のすべてのモデルでは、オフライン設定からリアルタイム設定に切り替えると質が低下する。さらに、Valentiniベンチマークのリアルタイムのノイズ除去の質の結果は、表2で報告されている。
【0034】
3.3.リアルタイムのパフォーマンス
制御実験。第1に、本発明者は、異なるネットワークモデルのDN及DAを測定した(表3を参照)。これらのモデルは、異なる長さの入力データを取り込み、本発明者はまた、多数のウィンドウにそれを分割することなく、すぐに、200ミリ秒の信号処理するためのネットワーク実行時間を測定している。すべての測定は、大掛かりなバックグラウンドプロセスなしですませられた。結果は、専用の計算環境では、本発明者のネットワークが、従来技術のモデルと同じ速さであることを示している。
【0035】
[表2]
【表2】
Valentiniのノイズ除去の質。
【0036】
[表3]
【表3】
タイミングの比較。D
N及びD
Aに加えて、本発明者はまた、200ミリ秒のオーディオ(S
N)でのネットワーク推論のコストを報告する。ここで、数字はタイミングの平均及び標準偏差を含む。
【0037】
次に、本発明者はダイナミックスライディングウィンドウのリアルタイムのパフォーマンス及びCPUリソースの変動が存在する中での固定の大きさのスライディングウィンドウを理解するための制御実験を行う。その目的で、本発明者は、2つのノイズ除去モデルを作成している:両者とも、AADデータセットでトレーニングされた同じノイズ除去ネットワークを使用している(セクション2.2)。第1のものは、ダイナミックスライディングウィンドウを使用している(Dモデルと称す)が、第2のものは、固定の大きさのスライディングウィンドウを使用している(Fモデルと称す)。公平に比較するために、Dモデルの初期のウィンドウの大きさL0は、Fモデルの固定のウィンドウの大きさと同じものに設定した(L0=16ミリ秒)。本発明者は、同じオーディオのセットをノイズ除去するために2つのモデルを使用しており、その各々は5秒の長さを有している。計算能力の変動を改善するべく、2秒後、本発明者は故意に、因子sによりネットワーク処理を遅延させており、それにおいてsはランダムに[1、7]から選択されている。これは、本発明者が同じ長さの遅延がDモデル及びFモデルの両方に追加されるのを確実にするとき、制御された方法でバックグラウンドプロセスによるCPU占有をシミュレートするものである。
【0038】
図3は、オーディオストリームが経時的に到着するときに測定されたD
N及びD
Aを示す。開始時、両者は、リアルタイムでスムーズに実行することができる(再生の遅れN
A<100ミリ秒で)。2秒後、計算能力が変動し始め、いくつかのスライディングウィンドウを時間内に処理させないようにする。結果として、Fモデルの再生の遅れD
Aが蓄積し、出力されるオーディオ再生が途切れ途切れになる。対照的に、DモデルのD
Aは安定し続けている、なぜならそれがダイナミックにウィンドウの大きさを増加させて遅延に追いつくことができるからである。この実験は、式(1)及び(2)における本発明者の理論的分析を確認するものである。
【0039】
図3は、ダイナミック及び固定のスライディングウィンドウの手法間におけるリアルタイムのパフォーマンスの比較を概略的に示す。本発明者は、人工的に、2秒後ネットワークの処理時間をランダムに1~7倍増加させて、CPU能力の変動をシミュレートしている。曲線は、固定の乱数のシードでの100回を超える試行の結果を平均化した。
【0040】
現実世界での実験。本発明者は、次に、現実のシナリオにおける本発明者のモデルのリアルタイムのパフォーマンスを調べており、バックグラウンドプロセスは、CPUサイクルを先取りし得る。ここで、本発明者は、4Kビデオの再生、Zoomでの会議、iMovieでのビデオ編集、及びテレビゲームApexを含む異なるソフトウエアがバックグラウンドで実行されている間、同じセットのオーディオをノイズ除去している。Apexのゲームを実行するために、本発明者は8コアのIntel CPU(3.60GHz i7-9700K)及びGPU(NVIDIA GeForce RTX 2070 SUPER)を搭載したWindow10 PCを使用している;他のソフトウエアのテストはMacbook Pro(2.3GHz Inter Quad-Core i5)で行う。本発明者は、これらがいっそう多くのCPUサイクルを要請することから、これらのソフトウエアを選択している。
【0041】
[表4]
【表4】
他のバックグラウンドソフトウエアを実行させたときのDemucs48及び本発明者のリアルタイムのノイズ除去の遅れ。各セルは、平均及び標準偏差両方でD
A(D
N)を示す。数字は20秒のオーディオを使用して測定されたものである。
【0042】
本発明者はこれらのソフトウエアを個々に実行しながら、本発明者のモデル及びDemucs48をそれぞれ使用してDN及びDAを測定している。本発明者は、固有のストリーミングの実装を有していて本発明者のものに匹敵するノイズ除去の質を提供することから、Demucs48と比較をしている。結果は表4に報告されている。バックグラウンドプロセスがかなり計算的に集中すると(例えば、iMovieやApex)、Demucs48の再生の遅れが劇的に増加するが、それに対して本発明者のモデルの遅れは軽度で安定し続ける。これは、本発明者のモデル及びダイナミックスライディングウィンドウ戦略のパフォーマンスの利点を示す明確な証拠である。
【0043】
4.結論
本発明者は、リアルタイムの音声ノイズ除去のためのダイナミックスライディングウィンドウ戦略を提案してきた。入念な分析及び実験を通して、本発明者は、広く使用されている固定の大きさのスライディングウィンドウ戦略を凌ぐその利点を実証した。本発明者のノイズ除去ネットワークは、SOTAに匹敵するリアルタイムのノイズ除去の質を達成しながらも、ダイナミックスライディングウィンドウを利用することにより、短い遅れを保持する。注目すべきことに、それは本発明者のモデルが他のバックグラウンドのタスクが存在する現実世界のシナリオにおいてロバストに実行することを可能にする。
【0044】
図6は、データ処理装置100、CEP装置200、バッチ処理装置300、又は選択装置400として機能するコンピュータ1200のハードウェア構成の例を概略的に示す。コンピュータ1200にインストールされるプログラムは、コンピュータ1200に、本実施形態に係る装置の1又は複数「ユニット」として機能させるか、又はコンピュータ1200に、装置に関連付けられる動作を実行させるか又は本実施形態に係るその1又は複数の「ユニット」を実行させ、及び/又はコンピュータ1200に、本実施形態に係るプロセスを実行させるか又はプロセスの段階を実行させることができる。そのようなプログラムは、CPU1212に対して、本明細書に記載されているフローチャート及びブロック図のブロックの一部又はすべてに関連付けられる特定の動作をコンピュータ1200に実行させることにより、実行され得る。
【0045】
本実施形態に係るコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、これらはホストコントローラ1210を介して互いに接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ]、及びICカードドライブなどの入出力ユニットを含み、これらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブは、DVD-ROMドライブ、DVD-RAMドライブなどであり得る。記憶装置1224は、ハードディスクドライブ、ソリッドステートドライブなどであり得る。コンピュータ1200はまた、ROM1230やキーボードなどのレガシー入出力ユニットを含み、これらは入出力チップ1240を介して入出力コントローラ1220に接続される。
【0046】
CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従って動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214又はそれ自体において提供されたフレームバッファなどにある、CPU1212により発せられたイメージデータを取得し、イメージデータがディスプレイデバイス1218に表示されるようにする。
【0047】
通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200においてCPU1212により使用されるプログラム及びデータを格納する。DVDドライブは、DVD-ROMなどからプログラム又はデータを読み取って記憶装置1224にプログラム又はデータを提供する。ICカードドライブは、ICカードからプログラム及びデータを読み取り、及び/又はICカードにプログラム及びデータを書き込む。
【0048】
ROM1230はその中に、作動時にコンピュータ1200によって実行されるブートプログラムなど、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、USBポート、並列ポート、シリアルポート、キーボードポート、マウスポートなどを介して、入出力コントローラ1220に様々な入出力ユニットを接続できる。
【0049】
プログラムは、DVD-ROM又はICカードなどのコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、同じくコンピュータ可読記憶媒体の例である記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。プログラムに書き込まれている情報処理は、コンピュータ1200により読み取られ、その結果、プログラム及び上記の様々なタイプのハードウェアリソースの間で協働する。装置又は方法は、コンピュータ1200の使用に応じて情報の演算又は処理を実装することによって構成され得る。
【0050】
例えば、通信がコンピュータ1200及び外部のデバイスの間で行われている場合、CPU1212は、RAM1214にロードされる通信プログラムを実行し、通信インタフェース1222に、通信プログラムに書き込まれている処理に基づいて通信処理を行うよう命令することができる。通信インタフェース1222は、CPU1212の制御下で、RAM1214、記憶装置1224、DVD-ROM、又はICカードなどの記録媒体に設けられた送信バッファ領域に格納されている伝送データを読み取って送信し、読み取った伝送データをネットワークに送信するか、又はネットワークから受信した受信データを記録媒体に設けられた受信バッファ領域などに書き込む。
【0051】
また、CPU1212は、記憶装置1224、DVDドライブ(DVD-ROM)、ICカードなどのような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。次に、CPU1212は、外部記録媒体に処理済みのデータを書き込んで戻すことができる。
【0052】
様々なタイプのプログラム、データ、表、データベースなどの様々なタイプの情報が、記録媒体に格納されて情報処理される。CPU1212は、RAM1214に結果を戻して書き込むために、RAM1214から読み取られたデータについて様々なタイプの処理を行うことができ、その処理は、本開示全体に記載され、プログラムの連続する命令により特定され、様々なタイプの動作、情報処理、条件の判断、条件的分岐、条件のない分岐、情報の検索/置換などを含む。また、CPU1212は、記録媒体内のファイル、データベースなどにおける情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられる第1の属性の属性値を有する複数のエントリが、記録媒体に格納されるとき、CPU1212は、複数のエントリから、第1の属性の属性値が指定された条件に適合するエントリを検索して、エントリに格納されている第2の属性の属性値を読み取り、それにより、所定の条件を満たした第1の属性と関連付けられる第2の属性の属性値を取得することができる。
【0053】
上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用の通信ネットワーク又はインターネットに接続されるサーバシステムに設けられるハードディスク又はRAMなどの記録媒体が、コンピュータ可読記憶媒体として使用でき、それにより、ネットワークを介してコンピュータ1200にプログラムを提供する。
【0054】
本実施形態のフローチャート及びブロック図のブロックは、動作が行われるか又は装置の「ユニット」が動作の実行を担うプロセスの段階を表し得る。特定の段階及び「ユニット」は、専用回路、コンピュータ可読記憶媒体に格納されたコンピュータ可読命令が供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体に格納されたコンピュータ可読命令が供給されるプロセッサによって実装され得る。専用回路は、デジタル及び/又はアナログのハードウェア回路を含むことができ、集積回路(IC)及び/又はディスクリート回路を含むことができる。例えば、プログラマブル回路は、再構成可能なハードウェア回路を含み得、例えば論理のAND、OR、XOR、NAND、NOR、及び他の論理動作、フリップフロップ、レジスタ、及びメモリ要素、例えばフィールドプログラマブルゲートアレイ(FPGA)、プログラマブルロジックアレイ(PLA)などが挙げられる。
【0055】
コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納できる任意の有形のデバイスを含むことができ、結果として、命令が格納されたコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定された操作を実行するための手段を作成するために実行することができる命令を含む製品が含まれる。コンピュータ可読記憶媒体の例は、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体などを含むことができる。コンピュータ可読記憶媒体のより具体的な例は、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的に消去可能プログラマブルリードオンリメモリ(EEPROM)、スタティックランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード、などを含み得る。
【0056】
コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk(登録商標)、JAVA(登録商標)、C++などのようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続き型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。
【0057】
コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定された演算を実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネットなどのようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラなどを含む。
【0058】
実施形態により本発明を説明してきたが、本発明の技術的範囲は上記の実施形態に限定されない。上記実施形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。そのような変更又は改良を加えた実施形態はまた、本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0059】
特許請求の範囲、実施形態、及び図面において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現し得ることに留意すべきである。特許請求の範囲、実施形態、及び図面の動作フローに関して、便宜上「第1に」又は「次に」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。
【外国語明細書】