IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディープヒアリング インコーポレイテッドの特許一覧 ▶ ザ インダストリー アンド アカデミック コオペレーション イン チュンナム ナショナル ユニバーシティー(アイエーシー)の特許一覧

特許7481696音声データの品質向上方法、及びこれを用いる装置
<>
  • 特許-音声データの品質向上方法、及びこれを用いる装置 図1
  • 特許-音声データの品質向上方法、及びこれを用いる装置 図2
  • 特許-音声データの品質向上方法、及びこれを用いる装置 図3
  • 特許-音声データの品質向上方法、及びこれを用いる装置 図4
  • 特許-音声データの品質向上方法、及びこれを用いる装置 図5
  • 特許-音声データの品質向上方法、及びこれを用いる装置 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-01
(45)【発行日】2024-05-13
(54)【発明の名称】音声データの品質向上方法、及びこれを用いる装置
(51)【国際特許分類】
   G10L 21/0232 20130101AFI20240502BHJP
   G10L 25/30 20130101ALI20240502BHJP
【FI】
G10L21/0232
G10L25/30
【請求項の数】 6
(21)【出願番号】P 2023523586
(86)(22)【出願日】2020-11-20
(65)【公表番号】
(43)【公表日】2023-10-03
(86)【国際出願番号】 KR2020016507
(87)【国際公開番号】W WO2022085846
(87)【国際公開日】2022-04-28
【審査請求日】2023-04-12
(31)【優先権主張番号】10-2020-0135454
(32)【優先日】2020-10-19
(33)【優先権主張国・地域又は機関】KR
【早期審査対象出願】
(73)【特許権者】
【識別番号】523137094
【氏名又は名称】ディープヒアリング インコーポレイテッド
【氏名又は名称原語表記】DEEPHEARING INC.
(73)【特許権者】
【識別番号】517142668
【氏名又は名称】ザ インダストリー アンド アカデミック コオペレーション イン チュンナム ナショナル ユニバーシティー(アイエーシー)
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アン,カングン
(72)【発明者】
【氏名】キム,ソンウォン
【審査官】中村 天真
(56)【参考文献】
【文献】米国特許出願公開第2019/0180142(US,A1)
【文献】米国特許出願公開第2019/0318755(US,A1)
【文献】周藤 唯 Yui SUDOU,Mask U-Netを用いた環境音セグメンテーションの提案 Environmental sound segmentation utilizing Mask U-Net,第52回人工知能学会 AIチャレンジ研究会 [online] ,日本,人工知能学会,2018年12月03日,p.21-26
【文献】Ashutosh Pandey et al.,DENSELY CONNECTED NEURAL NETWORK WITH DILATED CONVOLUTIONS FOR REAL-TIME SPEECH ENHANCEMENT IN THE TIME DOMAIN,ICASSP 2020,2020年04月09日,p.6629-6633
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/00-21/18
G10L 25/00ー25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声データの品質向上方法であって、
ノイズの含まれている混合音声データについてのスペクトルを獲得するステップと、
前記スペクトルに相応する2次元入力データを、ダウンサンプリング処理及びアップサンプリング処理を含む畳み込みネットワークに入力して、前記畳み込みネットワークの出力データを獲得するステップと、
獲得した前記出力データに基づいて、前記混合音声データに含まれているノイズを除去するためのマスクを生成するステップと、
生成された前記マスクを用いて、前記混合音声データからノイズを除去するステップと、
を含み、
前記畳み込みネットワークは、U-NET畳み込みネットワークであり、前記ダウンサンプリング処理及び前記アップサンプリング処理は、前記2次元入力データの周波数軸でのみ行い、前記ダウンサンプリング処理及び前記アップサンプリング処理以外の残りの処理過程は、前記周波数軸及び時間軸で行い、
前記音声データの品質向上方法は、
前記時間軸で前記2次元入力データについて因果的畳み込みを行うステップをさらに含み、
前記因果的畳み込みを行うステップは、
前記2次元入力データで、前記時間軸を基準として、相対的に過去に該当する既定のサイズのデータについてゼロパディング処理を行うことを特徴とする音声データの品質向上方法。
【請求項2】
前記因果的畳み込みを行うステップは、前記時間軸で行われることを特徴とする請求項1に記載の音声データの品質向上方法。
【請求項3】
前記ダウンサンプリング処理以前に、一括正規化処理を行うことを特徴とする請求項1に記載の音声データの品質向上方法。
【請求項4】
前記ノイズの含まれている混合音声データについてのスペクトルを獲得するステップは、
前記ノイズの含まれている混合音声データに短時間フーリエ変換(STFT)を適用して前記スペクトルを獲得することを特徴とする請求項1に記載の音声データの品質向上方法。
【請求項5】
リアルタイムで収集される前記音声データについて行われることを特徴とする請求項1に記載の音声データの品質向上方法。
【請求項6】
ノイズの含まれている混合音声データについてのスペクトルを獲得する音声データ前処理モジュールと、
前記スペクトルに相応する2次元入力データを、ダウンサンプリング処理及びアップサンプリング処理を含む畳み込みネットワークに入力して、前記畳み込みネットワークの出力データを獲得するエンコーダ及びデコーダと、
獲得した前記出力データに基づいて、前記混合音声データに含まれているノイズを除去するためのマスクを生成し、生成された前記マスクを用いて前記混合音声データからノイズを除去する音声データ後処理モジュールと、を備え、
前記畳み込みネットワークは、U-NET畳み込みネットワークであり、前記ダウンサンプリング処理及び前記アップサンプリング処理は、前記2次元入力データの周波数軸でのみ行い、前記ダウンサンプリング処理及び前記アップサンプリング処理以外の残りの処理過程は、前記周波数軸及び時間軸で行い、
前記エンコーダ及びデコーダは、
前記時間軸で前記2次元入力データについて因果的畳み込みを行い、
前記因果的畳み込みは、
前記2次元入力データで、時間軸を基準として、相対的に過去に該当する既定のサイズのデータについてゼロパディング処理を行うことを特徴とする音声データ処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声データの品質向上方法、及びこれを用いる装置に係り、さらに詳細には、ダウンサンプリング処理及びアップサンプリング処理は2次元入力データの第1軸で行い、残りの処理過程は前記第1軸及び第2軸で行う、畳み込みネットワークを用いる音声データの品質向上方法、及びこれを用いる装置に関する。
【背景技術】
【0002】
多様な録音環境で収集された音声データを互いに送受信する時、音声データには、様々な原因によってノイズが混じるようになる。音声データ基盤のサービスの品質は、音声データに混じっているノイズをいくら効果的に除去するかによって左右される。
【0003】
最近、リアルタイムで音声データを送受信するビデオ会議が活性化するにつれて、少ない演算量でも音声データに含まれているノイズを除去することができる技術への要求が増大しつつある。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする技術的課題は、ダウンサンプリング処理及びアップサンプリング処理は2次元入力データの第1軸で行い、残りの処理過程は前記第1軸及び第2軸で行う、畳み込みネットワークを用いる音声データの品質向上方法、及びこれを用いる装置を提供することである。
【課題を解決するための手段】
【0005】
本発明の一実施形態による音声データの品質向上方法は、ノイズの含まれている混合音声データについてのスペクトルを獲得するステップと、前記スペクトルに相応する2次元入力データを、ダウンサンプリング処理及びアップサンプリング処理を含む畳み込みネットワークに入力して、前記畳み込みネットワークの出力データを獲得するステップと、獲得した前記出力データに基づいて、前記音声データに含まれているノイズを除去するためのマスクを生成するステップと、生成された前記マスクを用いて前記混合音声データからノイズを除去するステップと、を含むが、前記畳み込みネットワークにおいて、前記ダウンサンプリング処理及び前記アップサンプリング処理は、前記2次元入力データの第1軸で行い、前記ダウンサンプリング処理及び前記アップサンプリング処理以外の残りの処理過程は、第2軸で行う。
【0006】
実施形態によって、前記畳み込みネットワークは、U-NET畳み込みネットワークである。
【0007】
実施形態によって、前記第1軸は、前記周波数軸であり、前記第2軸は、前記時間軸である。
【0008】
実施形態によって、前記音声データの品質向上方法は、前記第2軸で前記2次元入力データについて因果的畳み込み(causal
convolution)を行うステップをさらに含み、前記因果的畳み込みを行うステップは、前記2次元入力データで、時間軸を基準として、相対的に過去に該当する既定のサイズのデータについてゼロパディング(zero
padding)処理を行う。
【0009】
実施形態によって、前記因果的畳み込みを行うステップは、前記第2軸で行われる。
【0010】
実施形態によって、前記音声データの品質向上方法は、前記ダウンサンプリング処理以前に、一括正規化(batch
normalization)処理を行う。
【0011】
実施形態によって、前記ノイズの含まれている混合音声データについてのスペクトルを獲得するステップは、前記ノイズの含まれている混合音声データに短時間フーリエ変換(STFT)を適用して、前記スペクトルを獲得する。
【0012】
実施形態によって、前記音声データの品質向上方法は、リアルタイムで収集される前記音声データについて行われる。
【0013】
本発明の実施形態による音声データ処理装置は、ノイズの含まれている混合音声データについてのスペクトルを獲得する音声データ前処理モジュールと、前記スペクトルに相応する2次元入力データを、ダウンサンプリング処理及びアップサンプリング処理を含む畳み込みネットワークに入力して、前記畳み込みネットワークの出力データを獲得するエンコーダ及びデコーダと、獲得した前記出力データに基づいて、前記音声データに含まれているノイズを除去するためのマスクを生成し、生成された前記マスクを用いて前記混合音声データからノイズを除去する音声データ後処理モジュールと、を備えるが、前記畳み込みネットワークにおいて、前記ダウンサンプリング処理及び前記アップサンプリング処理は、前記2次元入力データの第1軸で行い、前記ダウンサンプリング処理及び前記アップサンプリング処理以外の残りの処理過程は、第2軸で行う。
【発明の効果】
【0014】
本発明の実施形態による方法及び装置によれば、ダウンサンプリング処理及びアップサンプリング処理は、2次元入力データの第1軸で行い、残りの処理過程は前記第1軸及び第2軸で行う畳み込みネットワークを用いることで、チェッカーボードアーチファクト(checkerboard
artifacts)を避けることができる。
【0015】
また、本発明の実施形態による方法及び装置は、時間軸で2次元入力データについて因果的畳み込み(causal
convolution)を行うことで、収集される音声データについてリアルタイム処理が可能である。
【図面の簡単な説明】
【0016】
本発明の詳細な説明で引用される図面をさらに十分に理解するために各図面の簡単な説明が提供される。
図1】本発明の一実施形態による音声データ処理装置のブロック図である。
図2図1の音声データ処理装置で音声データを処理する詳細過程を示す図面である。
図3】本発明の一実施形態による音声データの品質向上方法のフローチャートである。
図4】本発明の一実施形態による音声データの品質向上方法によるチェッカーボードアーチファクトと、比較例でのダウンサンプリング処理及びアップサンプリング処理によるチェッカーボードアーチファクトとを比べるための図面である。
図5】本発明の一実施形態による音声データの品質向上方法によって使われるデータブロックを、時間軸で表示した図面である。
図6】本発明の一実施形態による音声データの品質向上方法による性能を、色々な比較例と比べた表である。
【発明を実施するための形態】
【0017】
本発明の技術的思想は、多様な変更を加えられ、かつ多様な実施形態を持つことができるところ、特定の実施形態を図面に例示し、これを詳細に説明する。しかし、これは、本発明の技術的思想を特定の実施形態によって限定しようとするものではなく、本発明の技術的思想の範囲に含まれるすべての変更、均等物ないし代替物を含むと理解されねばならない。
【0018】
本発明の技術的思想を説明するに当って、係る公知技術についての具体的な説明が本発明の趣旨を不要に不明にすると判断される場合、その詳細な説明を省略する。また、本発明の説明過程で用いられる数字(例えば、第1、第2など)は一つの構成要素を他の構成要素から区分するための識別記号に過ぎない。
【0019】
また、本発明において、一構成要素が他の構成要素と「連結される」か、または「接続する」などと言及された時には、前記一構成要素が前記他の構成要素と直接連結されるか、または直接接続することもあるが、特に逆の記載が存在しない以上、中間にさらに他の構成要素を介して連結されるか、または接続することもあると理解されねばならない。
【0020】
また、本発明に記載の「~部」、「~器」、「~子」、「~モジュール」などの用語は、少なくとも一つの機能や動作を処理する単位を意味し、これは、プロセッサ、マイクロプロセッサ、マイクロコントローラ、CPU(Central
Processing Unit)、GPU(Graphics Processing Unit)、APU(Accelerate Processor Unit)、DSP(Drive
Signal Processor)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable
Gate Array)などのハードウェアやソフトウェアまたはハードウェア及びソフトウェアの結合で具現され、少なくとも一つの機能や動作の処理に必要なデータを保存するメモリと結合される形態で具現されてもよい。
【0021】
そして、本発明における構成部の区分は、各構成部が担当する主機能別に区分したことに過ぎないということを明らかにする。すなわち、以下で説明する二つ以上の構成部が一つの構成部に合わせられるか、または一つの構成部がさらに細分化した機能別に二つ以上に分化して備えられてもよい。そして、以下で説明する構成部それぞれは、自分の担当する主機能以外にも他の構成部が担当する機能のうち一部または全部の機能をさらに行ってもよく、構成部それぞれが担当する主機能のうち一部の機能が他の構成部によって専担されて行われてもよいということは言うまでもない。
【0022】
図1は、本発明の一実施形態による音声データ処理装置のブロック図である。
【0023】
図1を参照すれば、音声データ処理装置100は、音声データ獲得ユニット110、メモリ120、通信インターフェース130、及びプロセッサ140を備える。
【0024】
実施形態によって、音声データ処理装置100は、遠隔で音声データを送受信する装置(例えば、ビデオ会議のための装置)の一部として具現されて、音声以外のノイズを処理することができる多様な形態に具現されるが、適用分野がこれに限定されるものではない。
【0025】
音声データ獲得ユニット110は、人間の音声が含まれている音声データを獲得する。
【0026】
実施形態によって、音声データ獲得ユニット110は、音声を録音するための構成、例えば、レコーダなどを備える形態で具現される。
【0027】
実施形態によって、音声データ獲得ユニット110は、音声データ処理装置100とは別途に具現され、この場合、音声データ処理装置100は、別途に具現された音声データ獲得ユニット110から音声データを受信する。
【0028】
実施形態によって、音声データ獲得ユニット110によって獲得した音声データは、波形データである。
【0029】
本発明で「音声データ」は、人間の音声が含まれている音データを幅広く意味する。
【0030】
メモリ120は、音声データ処理装置100の動作全般に必要なデータまたはプログラムを保存する。
【0031】
メモリ120は、音声データ獲得ユニット110によって獲得した音声データ、またはプロセッサ140によって処理中または処理済みの音声データを保存する。
【0032】
通信インターフェース130は、音声データ処理装置100と外部の他の装置との通信をインターフェイスする。
【0033】
例えば、通信インターフェース130は、音声データ処理装置100によって品質が向上した音声データを、通信網を通じて他の装置に伝送する。
【0034】
プロセッサ140は、音声データ獲得ユニット110によって獲得した音声データを前処理し、前処理された音声データを畳み込みネットワークに入力し、畳み込みネットワークから出力された出力データを用いて、音声データに含まれているノイズを除去する後処理を行う。
【0035】
実施形態によって、プロセッサ140は、NPU(Neural
Processing Unit)、GPU(Graphic Processing Unit)、CPU(Central Processing Unit)などで具現され、多様な変形が可能である。
【0036】
プロセッサ140は、音声データ前処理モジュール142、エンコーダ144、デコーダ146、及び音声データ後処理モジュール148を備える。
【0037】
音声データ前処理モジュール142、エンコーダ144、デコーダ146、及び音声データ後処理モジュール148は、その機能によって論理的に区分されただけであり、それぞれまたは少なくとも2つ以上の組み合わせがプロセッサ140内の一機能として具現されてもよい。
【0038】
音声データ前処理モジュール142は、音声データ獲得ユニット110によって獲得された音声データを処理して、エンコーダ144及びデコーダ146で処理可能な形態の2次元入力データを生成する。
【0039】
音声データ獲得ユニット110によって獲得された音声データは、下記の数式1のように表現される。
【0040】
【数1】
(前記xは、ノイズの混じっている混合音声信号、前記sは、音声信号、nは、ノイズ信号、nは、信号の時間インデックスを意味する)
【0041】
実施形態によって、音声データ前処理モジュール142は、音声データxnについてSTFT(Short-Time
Fourier Transform)を適用して、ノイズの混じっている混合音声信号xnについてのスペクトル(X )を獲得する。スペクトル(X )は、下記の数式2のように表現される。
【0042】
【数2】
(前記x は、混合音声信号についてのスペクトル、S は、音声信号についてのスペクトル、N は、ノイズ信号についてのスペクトル、iは、time-step、kは、frequency
indexを意味する)
【0043】
実施形態によって、音声データ前処理モジュール142は、STFTを適用して獲得したスペクトルの実数部と虚数部とを分離し、分離された実数部及び虚数部をエンコーダ144に2チャネルで入力する。
【0044】
本発明において「2次元入力データ」は、その形態(例えば、実数部と虚数部とが別途のチャネルに区分される形態)とは関係なく、少なくとも2次元の成分(例えば、時間軸成分、周波数軸成分)で構成された入力データを幅広く意味する。実施形態によって、「2次元入力データ」は、スペックトログラムと呼ばれてもよい。
【0045】
エンコーダ144及びデコーダ146は、一つの畳み込みネットワークを構成する。
【0046】
実施形態によって、エンコーダ144は、2次元入力データについてのダウンサンプリング処理過程を含む縮小パス(contracting
path)を構成し、デコーダ146は、エンコーダ144によって出力された特徴マップをアップサンプリング処理する過程を含む拡張パス(expansive path)を構成する。
【0047】
エンコーダ144及びデコーダ146によって具現される畳み込みネットワークの詳細モデルは、図2を参照して後述する。
【0048】
音声データ後処理モジュール148は、デコーダ146の出力データに基づいて、音声データに含まれているノイズを除去するためのマスクを生成し、生成されたマスクを用いて混合音声データからノイズを除去する。
【0049】
実施形態によって、音声データ後処理モジュール148は、下記の数式3のように、マスキング方法(masking
method)で推正したマスク(M )を、混合音声信号についてのスペクトル(X )に掛けて、推定されたノイズの除去された音声信号についてのスペクトル
(外1)
を獲得する。
【0050】
【数3】
【0051】
図2は、図1の音声データ処理装置で音声データを処理する詳細過程を示す図面である。
【0052】
図1及び図2を参照すれば、音声データ前処理モジュール142によって前処理された音声データ(すなわち、2次元入力データ)が、エンコーダ144の入力データ(Model
Input)に入力される。
【0053】
エンコーダ144は、入力された2次元入力データについてダウンサンプリング処理を行う。
【0054】
実施形態によって、エンコーダ144は、ダウンサンプリング処理の前に、入力された2次元入力データについて畳み込み、正規化、活性化関数処理を行う。
【0055】
実施形態によって、エンコーダ144によって行われる畳み込みは、因果的畳み込み(causal
convolution)である。この場合、因果的畳み込み処理は、時間軸で行われ、2次元入力データのうち時間軸を基準として、相対的に過去に該当する既定のサイズのデータについてゼロパディング処理が行われる。
【0056】
実施形態によって、出力バッファ(output
buffer)を入力バッファ(input buffer)に比べて小さなサイズで具現してもよく、この場合、ゼロパディング処理なしに因果的畳み込み処理を行える。
【0057】
実施形態によって、エンコーダ144によって行われる正規化は、一括正規化である。
【0058】
実施形態によって、エンコーダ144の2次元入力データの処理過程で、一括正規化は省略されてもよい。
【0059】
実施形態によって、活性化関数は、PReLU(Parametric
ReLU)関数であるが、これに限定されるものではない。
【0060】
実施形態によって、エンコーダ144は、ダウンサンプリング処理以後に、2次元入力データについて正規化、活性化関数処理を行って、2次元入力データについての特徴マップを出力する。
【0061】
エンコーダ144の処理過程における縮小パスのうち、活性化関数処理の結果(特徴)の少なくとも一部はコピーされ(copy)、かつ切り捨てられて(crop)、デコーダ146の連結(Concat)処理に使われる。
【0062】
エンコーダ144から最終的に出力される特徴マップは、デコーダ146に入力されて、デコーダ146によってアップサンプリング処理される。
【0063】
実施形態によって、デコーダ146は、アップサンプリング処理以前に、入力された特徴マップについて畳み込み、正規化、活性化関数処理を行う。
【0064】
実施形態によって、デコーダ146によって行われる畳み込みは、因果的畳み込みである。
実施形態によって、デコーダ146によって行われる正規化は、一括正規化である。
【0065】
実施形態によって、デコーダ146の2次元入力データの処理過程で、一括正規化は省略されてもよい。
【0066】
実施形態によって、活性化関数は、PReLU(Parametric
ReLU)関数であるが、これに限定されるものではない。
【0067】
実施形態によって、デコーダ146は、アップサンプリング処理以後、特徴マップについて正規化、活性化関数処理を行った後で連結(Concat)処理を行う。
【0068】
連結(Concat)処理は、エンコーダ144から最終的に出力された特徴マップ以外に、エンコーダ144から伝達される多様なサイズの特徴マップを共に活用して、畳み込み過程でのエッジピクセルに関する情報の損失を避けるための処理である。
【0069】
実施形態によって、エンコーダ144のダウンサンプリング過程とデコーダ146のアップサンプリング過程とは対称的に構成され、ダウンサンプリング、アップサンプリング、畳み込み、正規化、または活性化関数処理過程の繰り返し回数は、多様な変更が可能である。
【0070】
実施形態によって、エンコーダ144及びデコーダ146によって具現される畳み込みネットワークは、U-NET畳み込みネットワークであるが、これに限定されるものではない。
【0071】
デコーダ146から出力される出力データは、音声データ後処理モジュール148の後処理過程、例えば、因果的畳み込みと点単位畳み込み(pointwise
convolution)処理を通じて、マスクを出力する(output mask)。
【0072】
実施形態によって、音声データ後処理モジュール148の後処理過程に含まれている因果的畳み込みは、深さ単位分離可能畳み込み(depthwise
saparable convolution)である。
【0073】
実施形態によって、デコーダ146の出力は、実数部と虚数部を持っている2チャネル出力値として得られ、音声データ後処理モジュール148は、下記の数式4及び数式5によってマスクを出力する。
【0074】
【数4】
【0075】
【数5】
(前記Mは、マスクを、前記Oは、2チャネル出力値を意味する)
【0076】
音声データ後処理モジュール148は、獲得したマスクを数式3に適用することで、ノイズの除去された音声信号についてのスペクトルを獲得する。
【0077】
実施形態によって、音声データ後処理モジュール148は、ノイズの除去された音声信号についてのスペクトルを最終的にISTFT(Inverse
STFT)処理して、ノイズの除去された音声信号の波形データを獲得する。
【0078】
実施形態によって、エンコーダ144及びデコーダ146によって具現される畳み込みネットワークにおいて、ダウンサンプリング処理及びアップサンプリング処理は、2次元入力データの第1軸(例えば、周波数軸)で行われ、ダウンサンプリング処理及びアップサンプリング処理以外の残りの処理過程(例えば、畳み込み、正規化、活性化関数処理)は、第1軸(例えば、周波数軸)及び第2軸(例えば、時間軸)で行われる。実施形態によって、ダウンサンプリング処理及びアップサンプリング処理以外の残りの処理過程のうち、因果的畳み込みは、第2軸(例えば、時間軸)のみで処理される。
【0079】
他の実施形態によって、エンコーダ144及びデコーダ146によって具現される畳み込みネットワークにおいて、ダウンサンプリング処理及びアップサンプリング処理は、2次元入力データの第2軸(例えば、時間軸)で行われ、ダウンサンプリング処理及びアップサンプリング処理以外の残りの処理過程は、第1軸(例えば、周波数軸)及び第2軸(例えば、時間軸)で行われる。
【0080】
さらに他の実施形態によって、入力データが、音声データではなく2次元イメージデータである場合に、第1軸及び第2軸は、前記2次元イメージデータの2次元イメージで互いに直交する二つの軸を意味することもある。
【0081】
図3は、本発明の一実施形態による音声データの品質向上方法のフローチャートである。
【0082】
図1ないし図3を参照すれば、本発明の実施形態による音声データ処理装置100は、ノイズの含まれている混合音声データについてのスペクトルを獲得する(S310ステップ)。
【0083】
実施形態によって、音声データ処理装置100は、STFTを通じて、ノイズの含まれている混合音声データについてのスペクトルを獲得する。
【0084】
音声データ処理装置100は、S310ステップで獲得されたスペクトルに相応する2次元入力データを、ダウンサンプリング処理及びアップサンプリング処理を含む畳み込みネットワークに入力する(S320ステップ)。
【0085】
実施形態によって、エンコーダ144及びデコーダ146の処理過程は、一つの畳み込みネットワークを形成する。
【0086】
実施形態によって、畳み込みネットワークは、U-NET畳み込みネットワークである。
【0087】
実施形態によって、畳み込みネットワークにおいて、ダウンサンプリング処理及びアップサンプリング処理は、2次元入力データの第1軸(例えば、周波数軸)で行われ、ダウンサンプリング処理及びアップサンプリング処理以外の残りの処理過程(例えば、畳み込み、正規化、活性化関数処理)は、第1軸(例えば、周波数軸)及び第2軸(例えば、時間軸)で行われる。実施形態によって、ダウンサンプリング処理及びアップサンプリング処理以外の残りの処理過程のうち、因果的畳み込みは、第2軸(例えば、時間軸)のみで処理される。
【0088】
音声データ処理装置100は、畳み込みネットワークの出力データを獲得し(S330ステップ)、獲得した出力データに基づいて、音声データに含まれているノイズを除去するためのマスクを生成する(S340ステップ)。
【0089】
音声データ処理装置100は、S340ステップで生成されたマスクを用いて、混合音声データからノイズを除去する(S350ステップ)。
【0090】
図4は、本発明の一実施形態による音声データの品質向上方法によるチェッカーボードアーチファクトと、比較例でのダウンサンプリング処理及びアップサンプリング処理によるチェッカーボードアーチファクトとを比べるための図面である。
【0091】
図4を参照すれば、図4(a)は、ダウンサンプリング処理及びアップサンプリング処理を時間軸で処理した比較例であり、図4(b)は、本発明の実施形態によって、ダウンサンプリング処理及びアップサンプリング処理を周波数軸で行い、残りの処理は、周波数軸及び時間軸で行った場合の、2次元入力データを示す図面である。
【0092】
図4から分かるように、図4(a)の比較例では、処理された音声データに縞模様のチェッカーボードアーチファクトが非常に多く現われ、図4(b)の本発明の実施形態によって処理された音声データの場合には、相対的にチェッカーボードアーチファクトがよほど減少したことが分かる。
【0093】
図5は、本発明の一実施形態による音声データの品質向上方法によって使われるデータブロックを、時間軸で表示した図面である。
【0094】
図5を参照すれば、音声データの時間軸に対するL1
lossが現われ、時間軸で右側に位置している、すなわち、最近データブロックの場合に、L1 lossが相対的に小さな値を持つということが分かる。
【0095】
本発明の実施形態による音声データ品質向上方法によれば、ダウンサンプリング処理及びアップサンプリング処理以外の残りの処理、特に畳み込み処理(例えば、因果的畳み込み)は時間軸で行い、ボックス表示された音声データのみ(すなわち、少量の最近データ)を用いるため、リアルタイム処理に有利である。
【0096】
図6は、本発明の一実施形態による音声データの品質向上方法による性能を、色々な比較例と比べた表である。
【0097】
図6を参照すれば、本発明の実施形態による音声データの品質向上方法によるOur
Modelの場合に、同じデータを使ったSEGAN、WAVENET、MMSE-GAN、Deep Feature Losses、Coarse-to-fine optimizationなどの他のモデルを適用した場合に比べて、CSIG、CBAK、COVL、PESQ、SSNR数値がいずれも高くて、最も優れた性能を示すということが分かる。
【0098】
以上、本発明を望ましい実施形態を挙げて詳細に説明したが、本発明は、前記実施形態に限定されず、本発明の技術的思想及び範囲内で当業者によって様々な変形及び変更ができる。
図1
図2
図3
図4
図5
図6