IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ オンザライブ カンパニー リミテッドの特許一覧

特表2024-502917多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法
<>
  • 特表-多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法 図1
  • 特表-多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法 図2
  • 特表-多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法 図3
  • 特表-多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法 図4
  • 特表-多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法 図5
  • 特表-多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法 図6
  • 特表-多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-24
(54)【発明の名称】多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20240117BHJP
   G10L 25/30 20130101ALI20240117BHJP
【FI】
G10L21/0208 100Z
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022579786
(86)(22)【出願日】2022-12-02
(85)【翻訳文提出日】2022-12-21
(86)【国際出願番号】 KR2022019468
(87)【国際公開番号】W WO2023113319
(87)【国際公開日】2023-06-22
(31)【優先権主張番号】10-2021-0179358
(32)【優先日】2021-12-15
(33)【優先権主張国・地域又は機関】KR
(81)【指定国・地域】
(71)【出願人】
【識別番号】522495913
【氏名又は名称】オンザライブ カンパニー リミテッド
【氏名又は名称原語表記】ONTHELIVE CO.,LTD.
(74)【代理人】
【識別番号】100121728
【弁理士】
【氏名又は名称】井関 勝守
(74)【代理人】
【識別番号】100165803
【弁理士】
【氏名又は名称】金子 修平
(72)【発明者】
【氏名】ヤン ソンウク
(57)【要約】
多者間画像会議または画像教育のためのノイズ及びエコー除去システムが開示される。前記ノイズ及びエコー除去システムは、マイクロホンを通じて受信したアナログ音響をディープラーニングモデルが学習及び推論することができるデジタル音響で前処理する音響受信モジュールと前記音響受信モジュールから前処理されたデジタル音響を複数のディープラーニングモデルを通じて学習し、前記複数のディープラーニングモデルのうちで特定ディープラーニングモデルを軽量化した実時間サービスモデルで使用者音声を推論するディープラーニングモジュール及び前記実時間サービスモデルから使用者音声で推論されたデジタル音響のみを外部スピーカーまたは仮想オーディオ装置に出力する音響出力モジュールを含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
マイクロホンを通じて受信したアナログ音響をディープラーニングモデルが学習及び推論することができるデジタル音響に前処理する音響受信モジュールと、
前記音響受信モジュールから前処理されたデジタル音響を複数のディープラーニングモデルを通じて学習し、前記複数のディープラーニングモデルのうちで特定ディープラーニングモデルを軽量化した実時間サービスモデルで使用者音声を推論するディープラーニングモジュールと、及び
前記実時間サービスモデルから使用者音声で推論されたデジタル音響のみを外部スピーカーまたは仮想オーディオ装置に出力する音響出力モジュールと、を含んで、
前記ディープラーニングモジュールは、
前記音響受信モジュールから前処理されたデジタル音響それぞれの時間領域データを短時間フーリエ変換(STFT)を通じて時間及び周波数領域データに変換する周波数ドメイン変換部と、
前記周波数ドメイン変換部から変換された時間及び周波数領域データを時間変化による周波数連関性によって分類して学習する第1ディープラーニング部と、
前記第1ディープラーニング部から分類された信号らそれぞれを時間領域データに逆変換する周波数逆変換部と、
前記周波数逆変換部から逆変換された時間領域データをイメージ認識モデルを通じて再分類して学習する第2ディープラーニング部と、及び
前記第1ディープラーニング部のディープラーニングモデルに量子化またはプルーニングを適用して前記実時間サービスモデルを生成するサービス最適化部と、を含み、
前記第1ディープラーニング部は、
前記ディープラーニングモデルで長短期メモリーモデル(LSTM)を利用して前記時間及び周波数領域データを時間変化による周波数連関性によって分類して学習し、
前記第2ディープラーニング部は、
前記イメージ認識モデルで1次元畳み込み(1D-Convolution)を利用して前記時間領域データを再分類して学習し、
前記サービス最適化部は、
前記第1ディープラーニング部のディープラーニングモデルの加重値をfloat16量子化して前記実時間サービスモデルを生成することを特徴とする多者間画像会議または画像教育のためのノイズ及びエコー除去システム。
【請求項2】
前記音響受信モジュールは、
前記受信したアナログ音響をデジタル音響に変換する音響受信部と、
前記変換したデジタル音響を所定のサンプリング比によってダウンサンプリングするダウンサンプリング部と、
前記ダウンサンプリングしたデジタル音響で所定時間以上の間にシグナルが存在しない無音領域を除去する無音除去部と、及び
前記無音領域が除去されたデジタル音響を所定時間の区間で分離する音響スライシング部と、を含んで前記前処理を遂行する請求項1に記載の多者間画像会議または画像教育のためのノイズ及びエコー除去システム。
【請求項3】
前記音響出力モジュールは、
前記実時間サービスモデルから推論されたデジタル音響らのうちでノイズ及びエコーで推定されたデジタル音響は除いて使用者音声で推論されたデジタル音響のみを時間領域データで再構成する音響再構成部と、
前記音響再構成部から再構成されたデジタル音響を所定のサンプリング比によってアップサンプリングするアップサンプリング部と、及び
前記アップサンプリング部からアップサンプリングされたデジタル音響をクリーンオーディオフリークエンシーとして前記仮想オーディオ装置に送るか、または、アナログ音響に変換して前記スピーカーに送る音響出力部と、を含む請求項1に記載の多者間画像会議または画像教育のためのノイズ及びエコー除去システム。
【請求項4】
音響受信モジュールがマイクロホンを通じて受信したアナログ音響をディープラーニングモジュールで学習及び推論することができるデジタル音響に前処理する段階と、
前記ディープラーニングモジュールが前記音響受信モジュールから前処理されたデジタル音響を複数のディープラーニングモデルを通じて学習する段階と、
前記ディープラーニングモジュールが前記学習後推論のために前記複数のディープラーニングモデルのうちで特定ディープラーニングモデルを軽量化した実時間サービスモデルを生成する段階と、
前記ディープラーニングモジュールが前記生成した実時間サービスモデルを通じて前記音響受信モジュールから前処理されたデジタル音響らで使用者音声を推論する段階と、及び
音響出力モジュールが前記ディープラーニングモジュールから使用者音声で推論されたデジタル音響を外部スピーカーまたは仮想オーディオ装置に出力する段階と、を含んで、
前記ディープラーニングモジュールが学習する段階は、
周波数ドメイン変換部が前記音響受信モジュールから前処理されたデジタル音響それぞれの時間領域データを短時間フーリエ変換(STFT)を通じて時間及び周波数領域データに変換する段階と、
第1ディープラーニング部が前記周波数ドメイン変換部から変換された時間及び周波数領域データを長短期メモリーモデル(LSTM)を利用して時間変化による周波数連関性によって分類して学習する段階と、
前記第1ディープラーニング部が前記時間変化による周波数連関性によって分類された信号らそれぞれの振幅値の絶対値である周波数絶対値を算定する段階と、
周波数逆変換部が前記第1ディープラーニング部から分類された信号らそれぞれを前記算定された周波数絶対値によって時間領域データに高速フーリエ逆変換(IFFT)する段階と、及び
第2ディープラーニング部が前記周波数逆変換部から逆変換された時間領域データの波形イメージに対して1次元畳み込み(1D-Convolution)を利用して再分類して学習する段階を含み、
前記ディープラーニングモジュールが実時間サービスモデルを生成する段階は、
サービス最適化部が前記第1ディープラーニング部の長短期メモリーモデルの加重値をfloat16量子化して前記実時間サービスモデルを生成することを特徴とする多者間画像会議または画像教育のためのノイズ及びエコー除去方法。
【請求項5】
前記音響受信モジュールが前処理する段階は、
音響受信部が前記マイクロホンを通じて使用者の音声と使用者環境で発生する各種ノイズ及びエコーを含む前記アナログ音響を受信する段階と、
前記音響受信部が前記受信したアナログ音響をアナログ-デジタルコンバータを通じてデジタル音響で変換する段階と、
ダウンサンプリング部が前記音響受信部から変換されたデジタル音響を所定のサンプリング比によってダウンサンプリングする段階と、
無音除去部が前記ダウンサンプリング部でダウンサンプリングされたデジタル音響に所定時間以上の間にシグナルが存在しない無音領域を除去する段階と、及び
音響スライシング部が前記無音除去部を通じて無音領域が除去されたデジタル音響を所定時間による区間で分離して保存する段階と、を含む請求項4に記載の多者間画像会議または画像教育のためのノイズ及びエコー除去方法。
【請求項6】
前記音響出力モジュールが出力する段階は、
音響再構成部が前記ディープラーニングモジュールが推論したデジタル音響らのうちでノイズ及びエコーで推論されたデジタル音響を除いた使用者音声で推論されたデジタル音響のみを時間領域データに再構成する段階と、
アップサンプリング部が前記音響再構成部から再構成されたデジタル音響を所定のサンプリング比によってアップサンプリングする段階と、及び
音響出力部が前記アップサンプリング部からアップサンプリングされたデジタル音響をクリーンオーディオフリークエンシーとして前記仮想オーディオ装置に送るか、または、アナログ音響に変換して前記外部スピーカーに送る段階と、を含む請求項4に記載の多者間画像会議または画像教育のためのノイズ及びエコー除去方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の概念による実施例は多者間画像会議や画像教育時の音質改善技術に関するものであり、より詳細には、多様な方法のディープラーニングモデルを通じて外部から入力される音響信号に含まれているノイズ及びエコーを学習し、実際画像会議または画像教育時にはこのような学習結果によって入力される音響からノイズ及びエコーを実時間除去する多者間画像会議または画像教育のためのノイズ及びエコー除去技術に関するものである。
【背景技術】
【0002】
コロナ19の全世界拡大と長期化によって大部分の産業界が深刻な打撃を受けているし、このようなコロナ19の予防のために力強い‘社会的距離確報'が実行されることで現代人は強制でアンタクト、非対面時代に迎えるようになった。しかし、世界的な景気沈滞化とは異なりUC&C(Unified Communication and Collaboration)、クラウドサービス、オンライン商取引、OTT(Over-The-Top)などの非対面産業はむしろ大きく成長している。特に、勤務形態、教育形態のデジタル転換によって画像会議ソリューションに対する関心が増加しているし、それによって世界画像会議市場規模は2019年140億ドルから2026年500億ドルに大きく成長することと予想されている。一般に、画像会議は他の場所に存在する二人以上の人々間の意思疎通のための実時間視覚的連結と言えるが、草創期二つの位置の間の静的イメージとテキスト伝送から始まって、現在は多くの位置間のフルモーション映像イメージとハイクオリティーオーディオが伝送されることができるシステムに発展している。しかし、システムのこのような発展にもかかわらず現在画像会議参加者らが画像会議で一番疲れ感を感じる部分は画像会議の音質、すなわち、会議時発生するノイズ及びエコー(ハウリング)に対するものである。現在のノイズ除去技術は周辺騷音を相殺する音波を伝達して音で音を遮断する相殺信号基盤方式が主であるだけで、エコー除去は発言をしない参加者のマイクを音消去する方法が適用されるだけで、自分や他人から惹起されるハウリング現象を根本的に解決することができない。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本発明が解決しようとする技術的な課題は、複数のディープラーニング学習法を利用して外部入力信号に含まれているノイズ及びエコーを学習し、実際画像会議または画像教育時には学習後最適化されたモデルによって外部入力信号からノイズ及びエコーを実時間除去することができるシステムを提供することである。
【0004】
本発明が解決しようとする他の技術的な課題は、複数のディープラーニング学習法を利用して外部入力信号に含まれているノイズ及びエコーを学習し、実際画像会議または画像教育時には学習後最適化されたモデルによって外部入力信号からノイズ及びエコーを実時間除去することができる方法を提供することである。
【課題を解決するための手段】
【0005】
本発明の一実施例による多者間画像会議または画像教育のためのノイズ及びエコー除去システムは、マイクロホンを通じて受信したアナログ音響をディープラーニングモデルが学習及び推論することができるデジタル音響に前処理する音響受信モジュールと、前記音響受信モジュールから前処理されたデジタル音響を複数のディープラーニングモデルを通じて学習し、前記複数のディープラーニングモデルのうちで特定ディープラーニングモデルを軽量化した実時間サービスモデルで使用者音声を推論するディープラーニングモジュールと、及び前記実時間サービスモデルから使用者音声で推論されたデジタル音響のみを外部スピーカーまたは仮想オーディオ装置に出力する音響出力モジュールとを含む。
【0006】
前記音響受信モジュールは、前記受信したアナログ音響をデジタル音響に変換する音響受信部と、前記変換したデジタル音響を所定のサンプリング比によってダウンサンプリングするダウンサンプリング部と、前記ダウンサンプリングしたデジタル音響で所定時間以上の間にシグナルが存在しない無音領域を除去する無音除去部と、及び前記無音領域が除去されたデジタル音響を所定時間の区間で分離する音響スライシング部とを含んで前記前処理を遂行する。
【0007】
前記ディープラーニングモジュールは、前記音響受信モジュールから前処理されたデジタル音響それぞれの時間領域データを短時間フーリエ変換(STFT)を通じて時間及び周波数領域データで変換する周波数ドメイン変換部と、前記周波数ドメイン変換部から変換された時間及び周波数領域データを時間変化による周波数連関性によって分類して学習する第1ディープラーニング部と、前記第1ディープラーニング部から分類された信号らそれぞれを時間領域データに逆変換する周波数逆変換部と、前記周波数逆変換部から逆変換された時間領域データをイメージ認識モデルを通じて再分類して学習する第2ディープラーニング部と、及び前記第1ディープラーニング部のディープラーニングモデルに量子化またはプルーニングを適用して前記実時間サービスモデルを生成するサービス最適化部とを含む。
【0008】
実施例によって、前記第1ディープラーニング部は、前記ディープラーニングモデルで長短期メモリーモデル(LSTM)を利用して前記時間及び周波数領域データを時間変化による周波数連関性によって分類して学習することを特徴とすることができる。
【0009】
実施例によって、前記第2ディープラーニング部は、前記イメージ認識モデルで1次元畳み込み(1D-Convolution)を利用して前記時間領域データを再分類して学習することを特徴とすることができる。
【0010】
実施例によって、前記サービス最適化部は、前記第1ディープラーニング部のディープラーニングモデルの加重値をfloat16量子化して前記実時間サービスモデルを生成することを特徴とすることができる。
【0011】
一方、前記音響出力モジュールは、前記実時間サービスモデルから推論されたデジタル音響らのうちでノイズ及びエコーで推定されたデジタル音響は除いて使用者音声で推論されたデジタル音響のみを時間領域データで再構成する音響再構成部と、前記音響再構成部から再構成されたデジタル音響を所定のサンプリング比によってアップサンプリングするアップサンプリング部と、及び前記アップサンプリング部からアップサンプリングされたデジタル音響をクリーンオーディオフリークエンシーとして前記仮想オーディオ装置に送るか、または、アナログ音響に変換して前記スピーカーに送る音響出力部とを含む。
【0012】
本発明の一実施例による多者間画像会議または画像教育のためのノイズ及びエコー除去方法は、音響受信モジュールがマイクロホンを通じて受信したアナログ音響をディープラーニングモジュールで学習及び推論することができるデジタル音響に前処理する段階と、前記ディープラーニングモジュールが前記音響受信モジュールから前処理されたデジタル音響を複数のディープラーニングモデルを通じて学習する段階と、前記ディープラーニングモジュールが学習後推論のために前記複数のディープラーニングモデルのうちで特定ディープラーニングモデルを軽量化した実時間サービスモデルを生成する段階と、前記ディープラーニングモジュールが前記生成した実時間サービスモデルを通じて前記音響受信モジュールから前処理されたデジタル音響らで使用者音声を推論する段階と、及び音響出力モジュールが前記ディープラーニングモジュールから使用者音声で推論されたデジタル音響を外部スピーカーまたは仮想オーディオ装置で出力する段階とを含む。
【0013】
実施例によって、前記音響受信モジュールが前処理する段階は、音響受信部が前記マイクロホンを通じて使用者の音声と使用者環境で発生する各種ノイズ及びエコーを含む前記アナログ音響を受信する段階と、前記音響受信部が前記受信したアナログ音響をアナログ-デジタルコンバータを通じてデジタル音響に変換する段階と、ダウンサンプリング部が前記音響受信部から変換されたデジタル音響を所定のサンプリング比によってダウンサンプリングする段階と、無音除去部が前記ダウンサンプリング部でダウンサンプリングされたデジタル音響に所定時間以上の間にシグナルが存在しない無音領域を除去する段階と、及び音響スライシング部が前記無音除去部を通じて無音領域が除去されたデジタル音響を所定時間による区間で分離して保存する段階とを含むことができる。
【0014】
実施例によって、前記ディープラーニングモジュールが学習する段階は、周波数ドメイン変換部が前記音響受信モジュールから前処理されたデジタル音響それぞれの時間領域データを短時間フーリエ変換(STFT)を通じて時間及び周波数領域データに変換する段階と、第1ディープラーニング部が前記周波数ドメイン変換部から変換された時間及び周波数領域データを長短期メモリーモデル(LSTM)を利用して時間変化による周波数連関性によって分類して学習する段階と、前記第1ディープラーニング部が前記時間変化による周波数連関性によって分類された信号らそれぞれの振幅値の絶対値である周波数絶対値を算定する段階と、周波数逆変換部が前記第1ディープラーニング部から分類された信号らそれぞれを前記算定された周波数絶対値によって時間領域データで高速フーリエ逆変換(IFFT)する段階と、及び第2ディープラーニング部が前記周波数逆変換部から逆変換された時間領域データの波形イメージに対して1次元畳み込み(1D-Convolution)を利用して再分類して学習する段階と、を含むことができる。
【0015】
この時、前記ディープラーニングモジュールが実時間サービスモデルを生成する段階は、サービス最適化部が前記第1ディープラーニング部の長短期メモリーモデルの加重値をfloat16量子化して前記実時間サービスモデルを生成することを特徴とする。
【0016】
実施例によって、前記音響出力モジュールが出力する段階は、音響再構成部が前記ディープラーニングモジュールが推論したデジタル音響らのうちでノイズ及びエコーで推論されたデジタル音響を除いた使用者音声で推論されたデジタル音響のみを時間領域データで再構成する段階と、アップサンプリング部が前記音響再構成部から再構成されたデジタル音響を所定のサンプリング比によってアップサンプリングする段階と、及び音響出力部が前記アップサンプリング部からアップサンプリングされたデジタル音響をクリーンオーディオフリークエンシーとして前記仮想オーディオ装置で送るか、または、アナログ音響に変換して前記外部スピーカーに送る段階と、を含むことができる。
【発明の効果】
【0017】
上記のように本発明の一実施例による多者間画像会議または画像教育のためのノイズ及びエコー除去システムとその方法は、多様なディープラーニングモデルを通じてノイズとエコーを学習することができるし、実際画像会議または教育時には学習後最適化されたディープラーニングサービスモデルによって多者間画像会議または教育時発生することがある多様なノイズとエコーを実時間で正確に除去することができる効果がある。
【図面の簡単な説明】
【0018】
図1図1は、本発明の一実施例による多者間画像会議または画像教育のためのノイズ及びエコー除去システムの内部構成を示すブロック図である。
図2図2は、図1に示されたディープラーニングモジュールの内部構成を示すブロック図である。
図3図3は、本発明の一実施例による多者間画像会議または画像教育のためのノイズ及びエコー除去方法を説明するためのフロー図である。
図4図4は、図3に示された音響受信モジュールの前処理段階を詳しく説明するためのフロー図である。
図5図5は、図3に示されたディープラーニングモデルの学習段階を詳細に説明するためのフロー図である。
図6図6は、図3に示されたディープラーニングモデルの推論段階を詳細に説明するためのフロー図である。
図7図7は、図3に示された音響出力モジュールの出力段階を詳細に説明するためのフロー図である。
【発明を実施するための形態】
【0019】
本明細書に開示されている本発明の概念による実施例らに対して特定の構造的または、機能的説明らは単に本発明の概念による実施例らを説明するための目的で例示されたものであり、本発明の概念による実施例らは多様な形態らで実施されることができるし、本明細書に説明された実施例らで限定されない。
【0020】
本発明の概念による実施例らは多様な変更らを加えることができるし、さまざまな形態らを有することができるので、実施例らを図面に例示して本明細書に詳細に説明しようとする。しかし、これは本発明の概念による実施例らを特定の開示形態らに対して限定しようとするものではなくて、本発明の思想及び技術範囲に含まれるすべての変更、均等物、または代替物を含む。
【0021】
以下、添付した図面を参照して本発明の望ましい実施例を説明することで、本発明を詳しく説明する。
【0022】
図1は、本発明の一実施例による多者間画像会議または画像教育のためのノイズ及びエコー除去システム10の内部構成を示すブロック図である。
【0023】
図1を参照すれば、多者間画像会議または画像教育のためのノイズ及びエコー除去システム(以下、‘ノイズ及びエコー除去システム10'と称する)は音響受信モジュール100、ディープラーニングモジュール300及び音響出力モジュール500を含んで構成される。
【0024】
まず、音響受信モジュール100は多者間画像会議または画像教育に参加した多くの使用者らの多様な環境から受信した音響を学習及び推論することができるように前処理する役割を遂行し、音響受信部130、ダウンサンプリング部150、無音除去部170及び音響スライシング部190を含む。
【0025】
音響受信モジュール100が含む音響受信部130はマイクロホン(microphone)を通じて使用者環境から多様な音響(mixed audio frequency)を同時に入力を受ける。
【0026】
前記使用者環境から入力される多様な音響とは、使用者自分の音声だけでなく使用者自分の周りで発生する各種ノイズ(noise)であることがあって、スピーカーを通じて入力される自分のフィードバック音響(エコーまたはハウリング)であることもあり、スピーカーを通じて入力される他の使用者の音声または他の使用者周りで発生する各種ノイズであることもある。
【0027】
また、前記ノイズは事物から発生する一般的な騷音だけでなく、白色雑音(white noise)のような静的な(stationary)ノイズ、チャープ(chirp)ノイズのような非静的(non-stationary)なノイズすべてを含むことができる。
【0028】
音響受信部130は前記マイクロホンを通じて入力されたアナログ音響をアナログ-デジタルコンバータ(ADC)を通じてデジタル音響に変換した後ダウンサンプリング部150に送る。
【0029】
ダウンサンプリング部150は伝送されたデジタル音響を所定のサンプリング比(sampling rate)によってダウンサンプリング(down-sampling)し、実施例によって前記所定のダウンサンプリング比は16kHzで設定されることができる。
【0030】
一方、ダウンサンプリングされた音響に何らのシグナルが存在しない部分はディープラーニングモジュール300の学習または推論に全然利用されないか、または利用する必要がない部分であらかじめ除去される必要がある。
【0031】
これに、無音除去部170はダウンサンプリング部150でダウンサンプリングされた音響に所定時間以上間何らのシグナルが存在しない領域(silence)を除去する。
【0032】
順次に、音響スライシング部190は無音除去部170を通じて無音領域が除去されたデジタル音響を所定時間による区間で分離する。
【0033】
実施例によって、前記所定時間は32msで設定されることができるし、音響スライシング部190は前記所定区間別に分離されたデジタル音響をそれぞれオーディオバッファー(S1乃至S4)に保存する。
【0034】
本明細書では前記オーディオバッファーは4個で図示されているが、これは説明の便宜のためのものであるだけで、前記オーディオバッファーの個数は設定によって4よりさらに少ない数またはさらに大きい数で設定されることができることは勿論である。
【0035】
図2は、図1に示されたディープラーニングモジュール300の内部構成を示すブロック図である。
【0036】
図1及び図2を参照すれば、ディープラーニングモジュール300は、音響受信モジュール100から前処理されたデジタル音響から使用者の音声、ノイズ及びエコー(ハウリング)を学習及び推論する役割を遂行し、周波数ドメイン変換部310、第1ディープラーニング部330、周波数逆変換部350、第2ディープラーニング部370及びサービス最適化部390を含んで構成される。
【0037】
この時、前記の学習とは、後述する第1ディープラーニング部330や第2ディープラーニング部370のようなディープラーニング学習モデルを通じてデジタル音響から使用者の音声、ノイズ及びエコーを正確に分類(Classification)して学習する過程を意味することができるし、前記推論は前記の学習結果及びサービス最適化部390から生成されたモデル最適化方法を通じて以後入力されるデジタル音響でノイズ及びエコーを実時間で分離、除去する過程を意味することができる。
【0038】
まず、周波数ドメイン変換部310は第1ディープラーニング部330での学習及び推論のために、オーディオバッファー(S1乃至S4)に保存されたデジタル音響それぞれの時間領域データ(例えば、audio frequency data)を時間及び周波数領域データ(例えば、vector data)に変換する。
【0039】
この時、周波数ドメイン変換部310はフーリエ変換(Fourier Transform)、より具体的には、離散フーリエ変換(Discrete Fourier Transform、DFT)時に発生する時間情報喪失の問題を解決できるように短時間フーリエ変換(Short-Time Fourier Transform、STFT)を遂行することで、該当デジタル音響に対する時間及び周波数領域データ(vector data)を生成する。
【0040】
実施例によって、周波数ドメイン変換部310は前記STFTのウィンドウ(window)サイズを256pointで設定することができるし、前記該当デジタル音響に対する時間及び周波数領域データ(vector data)をスペクトログラム(Spectrogram)で生成することができる。
【0041】
前記スペクトログラムは一般フーリエ変換での周波数、振幅情報だけでなく時間情報まで視覚化することができるし、これは今後の説明する非静的音響(non-stationary sound)の分析に非常に重要な情報になることができる。
【0042】
以後、周波数ドメイン変換部310は生成した該当デジタル音響それぞれに対する時間及び周波数領域データであるベクターデータを第1ディープラーニング部330に送る。
【0043】
一方、一般な畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)学習は、コンピュータービジョン(Computer Vision)においてのイメージ認識、分類に特化されていて時系列的なデータを含む音響の学習には適合ではない。
【0044】
また、一般な再帰型ニューラルネットワーク(Recurrent Neural Network、RNN)学習は、関連情報とその情報を使用する支点との間の距離が遠い場合に学習能力が大きく低下される問題がある。
【0045】
言い換えれば、一般な畳み込みニューラルネットワークは、時系列的データの学習には適合ではなく、一般な再帰型ニューラルネットワークは誤差逆伝播(Back Propagation Through Time、BPTT)時に勾配消失(gradient vanishing)問題及び勾配爆発(gradient exploding)問題を内包している。
【0046】
したがって、第1ディープラーニング部330は前記の問題を解決するために長短期メモリーモデル(Long Short-Term Memory model、LSTM)を利用して該当デジタル音響に対する時間及び周波数領域データを分類(Classification)して学習(supervised learning)する。
【0047】
この時、第1ディープラーニング部330は周波数ドメイン変換部310から32ms単位で該当デジタル音響に対する時間及び周波数領域データ(ベクターデータ)の伝達を受けて分類及び学習することができるし、LSTM全体セル(cell)の個数は1,024個で設定されることができるし、LSTMセルの間の過剰適合(overfitting)を防止するための正規化過程であるドロップアウト(Drop-Out)を活用することができる。
【0048】
すなわち、第1ディープラーニング部330は前記のLSTMを通じて時間変化による周波数連関性を把握することができるため、周波数ドメイン変換部310から伝達されたベクターデータに含まれた信号ら(S1乃至Sn)をそれぞれ分離することができる。
【0049】
以後、第1ディープラーニング部330は分離した信号ら(S1乃至Sn)それぞれがどのような信号(E1乃至En)に該当するかを分類し、分類された該当信号ら(E1乃至En)それぞれの振幅値の絶対値である周波数絶対値(Frequency magnitude)を算定する。
【0050】
例えば、第1ディープラーニング部350が伝達されたベクターデータに含まれた4個の信号(S1乃至S4)を分類すると仮定すれば、第1ディープラーニング部330は前記LSTMを通じて分離された4個の信号(S1乃至S4)のうちで第1信号(S1)は人の音声(E1)で分類及び学習し、第2信号(S2)と第3信号(S3)信号はノイズ(E2)で分類及び学習し、第4信号(S4)はエコー(E3)で分類及び学習することができる。
【0051】
この時、前記ノイズ(E2)はキーボードを打つことのように画像会議時に発生する一般なノイズ(例えば、S2)だけでなく、ホワイトノイズ(white noise)、非線形ノイズ(non-stationary noise)など多様なノイズ(例えば、S3)であることがある。
【0052】
すなわち、ノイズである第2分類信号(E2)には第2信号(S2)と第3信号(S3)が含まれることができる。
【0053】
また、第1ディープラーニング部330は前記それぞれ分類した信号(E1乃至E3)に対する周波数絶対値を算定し、例えば、人の音声に該当する第1分類信号(E1)の周波数絶対値は第1信号(S1)の絶対値(m1)に算定し、ノイズに該当する第2分類信号(E2)の周波数絶対値は第2信号(S2)と第3信号(S3)の絶対値(m2、m3)に算定し、エコーに該当する第3分類信号(E3)の周波数絶対値は第4信号(S4)の絶対値(m4)に算定する。
【0054】
以後、第1ディープラーニング部330は分類された信号ら(E1乃至E3)それぞれを算定した該当周波数絶対値(m1、m2、m3、m4)とともに周波数逆変換部350に送る。
【0055】
一方、周波数逆変換部350は第1ディープラーニング部330から伝送された分類信号ら(E1乃至E3)それぞれを再び時間領域に逆変換して第2ディープラーニング部370で提供する。
【0056】
この時、第1分類信号(E1)では第1信号(S1)を時間領域に逆変換(t1)し、第2分類信号(E2)では第2信号(S2)及び第3信号(S3)を時間領域でそれぞれ逆変換(t2及びt3)し、第3分類信号(E3)では第4信号(S4)を時間領域で逆変換(t4)する。
【0057】
すなわち、周波数逆変換部350は第1ディープラーニング部330が分類した信号ら(例えば、E1乃至En)それぞれを前記周波数絶対値(例えば、m1乃至mn)を考慮して時間領域データ(audio frequency data)で高速フーリエ逆変換(Inverse Fast Fourier Transform、IFFT)し、このように逆変換された信号ら(t1乃至tn)それぞれを第2ディープラーニング部370に送る。
【0058】
一方、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)は入力イメージから特徴を抽出して入力イメージがどのようなイメージであるかを分類することができる代表的なディープラーニング方法で知られている。
【0059】
第2ディープラーニング部370はこのようなCNNを利用して周波数逆変換部350から伝送された逆変換された信号ら(t1乃至tn)それぞれの波形イメージ(shape)からより精密に入力イメージを分類して学習する。
【0060】
実施例によって、第2ディープラーニング部370は前記のCNNのうちで1次元畳み込み(1D-Convolution)を利用して周波数逆変換部350から伝送された時間領域データら(t1乃至tn)それぞれを分類して学習する。
【0061】
このような1次元畳み込み(1D-Convolution)は同じCNNにもかかわらず、むしろ、時系列分析(time-series analysis)やテキスト分析(text analysis)に適合な面があり、ここで、前記‘1次元'は畳み込みのためのカーネル(Kernel)と適用するデータのシーケンス(sequence)が1次元の模様を有するということを意味する。
【0062】
すなわち、前で言及した周波数逆変換部350から伝送された時間領域データら(t1乃至tn)それぞれは、時間による振幅(amplitude)の変化や周波数(frequency)の変化を含んでいるため、本発明の一実施例による第2ディープラーニング部370は1次元畳み込みを通じて周波数逆変換部350から伝送された時間領域データら(t1乃至tn)それぞれを分類して学習する。
【0063】
特に、第2ディープラーニング部370は前記1次元畳み込みによる分類及び学習を遂行することで、一般な2D CNN(または、3D CNN)対比ノイズ及びエコー除去のための演算量の最小化及び演算の実時間(real-time)性を確保することができる。
【0064】
すなわち、第2ディープラーニング部370は前記の1次元畳み込みを利用して周波数逆変換部350から伝送された時間領域データら(t1乃至tn)それぞれに対してより精密で早く分類を遂行する。
【0065】
例えば、第2ディープラーニング部370は前記1次元畳み込みを通じて第1信号(S1)に対する第1逆変換信号(t1)は人の音声で分類(e1)することができて、第2信号(S2)に対する第2逆変換信号(t2)はノイズのうちで自動車の騷音で分類(e2)することができて、第3信号(S3)に対する第3逆変換信号(t3)はノイズのうちで工事音で分類(e3)することができて、第4信号(S4)に対する第4逆変換信号(t4)はスピーカーを通じたフィードバックエコー(e4)で分類することができる。
【0066】
すなわち、第2ディープラーニング部370は前記の1次元畳み込みを利用して第1ディープラーニング部330で分類した結果が適合であるかを再確認することができるし、また、第1ディープラーニング部330が分類した結果をより詳細に再分類することができる。
【0067】
以後、第2ディープラーニング部370は時間領域データら(t1乃至t4)とこれらそれぞれに対する分類情報(e1乃至e4)を音響出力モジュール500に送ることができる。
【0068】
一方、サービス最適化部390はディープラーニングモデルに量子化(quantization)または、プルーニング(pruning)のような最適化、軽量化方法を適用した実時間サービスモデルを生成する役割を遂行する。
【0069】
前記実時間サービスモデルとは、ディープラーニング推論(inference)モデルを意味し、入力される音響から使用者音声、ノイズ及びエコーを正確に分類して学習するディープラーニングモデルが実際多者間画像会議時に実時間で具現されることができるように最適化、軽量化されたモデルであると言える。
【0070】
サービス最適化部390は第1ディープラーニング部330及び第2ディープラーニング部370のディープラーニングモデルらに対する量子化を通じて前記実時間サービスモデルを生成することができる。
【0071】
実施例によって、第2ディープラーニング部370は既に一般なCNNに比べて演算量がよほど少なくて演算速度もやっぱり遥かに早い1次元畳み込みを利用しているので、サービス最適化部390は第1ディープラーニング部330のディープラーニングモデルであるLSTMに対する量子化を通じて前記実時間サービスモデルを生成することができる。
【0072】
この時、第1ディープラーニング部330のLSTMは加重値(weight)や活性化値(activation output)などのパラメーターを32ビット浮動小数点(32-bit floating point)で表示するので、サービス最適化部390は第1ディープラーニング部330のLSTMに訓練後量子化(Post-Training Quantization、PTQ)方法のうちでfloat16量子化を適用した実時間サービスモデルを生成することができる。
【0073】
このように生成した実時間サービスモデル(float16量子化されたLSTMモデル及び1D-Convolutionモデルで構成された複合推論モデルまたはfloat16量子化されたLSTMモデルだけで構成された単独推論モデル)を通じて、サービス最適化部390は前で説明した第1ディープラーニング部330及び第2ディープラーニング部370の学習以後に音響受信モジュール100から前処理されて入力されたデジタル音響に対して使用者音声を推論する。
【0074】
したがって、サービス最適化部390は第1ディープラーニング部330のディープラーニングモデル(LSTM)に比べてよほど早いが、正確度は大きく落ちない実時間サービスモデル(float16量子化されたLSTM)を通じて周波数ドメイン変換部310から伝達されたベクターデータに含まれた信号ら(S1乃至Sn)それぞれがどのような信号(E1乃至En)に該当するかを分類する。
【0075】
以後、分類された該当信号ら(E1乃至En)それぞれの振幅値の絶対値である周波数絶対値(Frequency magnitude)を算定し、分類された信号ら(E1乃至E3)それぞれを算定した該当周波数絶対値(m1、m2、m3、m4)とともに周波数逆変換部350に送る過程は以前の第1ディープラーニング部330で説明したものと同一である。
【0076】
そして、1次元畳み込みを利用して周波数逆変換部350から伝送された時間領域データら(t1乃至tn)それぞれを分類し、これらそれぞれに対する分類情報(e1乃至e4)を音響出力モジュール500に送る過程は、第2ディープラーニング部370で説明したものと同一である。
【0077】
再び図1を参照すれば、音響出力モジュール500はディープラーニングモジュール300の第2ディープラーニング部370またはサービス最適化部390から伝送された時間領域データら(t1乃至t4)とこれらそれぞれに対する分類情報(e1乃至e4)から使用者音声(例えば、t1)のみを選別して出力する役割を遂行し、音響再構成部530、アップサンプリング部550及び音響出力部570を含んで構成される。
【0078】
音響再構成部530は使用者音声に該当する信号(t1)以外のノイズ(t2、t3)やエコー(t4)に該当する信号らは除いて時間領域データ(audio frequency data)を再構成(reconstruction)する。
【0079】
以後、音響再構成部530は再構成した時間領域データに該当するデジタル音響(すなわち、t1)をアップサンプリング部550に送る。
【0080】
アップサンプリング部550は再構成されたデジタル音響(すなわち、t1)を所定のサンプリング比(Sampling Rate)によってアップサンプリング(up-sampling)して、実施例によって前記所定のアップサンプリング比は16kHzで設定されることができる。
【0081】
音響出力部570はアップサンプリング部530からアップサンプリングされた信号をノイズ及びエコーが除去されたクリーンオーディオフリークエンシー(Clean Audio Frequency)として出力することができるし、前記出力はデジタル-アナログコンバータ(DAC)を通じたスピーカー(speaker)への出力または仮想オーディオ装置への伝送(transfer)であることができる。
【0082】
実施例によって、音響再構成部530は前記のように再構成した時間領域データ(audio frequency data)をアップサンプリング部550ではない音響出力部570に直接送ることもできる。
【0083】
図3は、本発明の一実施例による多者間画像会議または画像教育のためのノイズ及びエコー除去方法を説明するためのフロー図である。
【0084】
図1乃至図3を参照すれば、多者間画像会議または画像教育のためのノイズ及びエコー除去方法(以下、‘ノイズ及びエコー除去方法'と称する)は音響受信モジュール100がマイクロホンを通じて受信したアナログ音響をディープラーニングモジュール300が学習及び推論することができるように前処理する段階(step1)とディープラーニングモジュール300が音響受信モジュール100で前処理されたデジタル音響を複数のディープラーニングモデル(例えば、330及び370)を通じて学習する段階(step2)を含む。
【0085】
また、ノイズ及びエコー除去方法は、前記学習段階(step2)が完了すれば、ディープラーニングモジュール300が前記複数のディープラーニングモデル330及び370のうちで特定ディープラーニングモデル330を軽量化した実時間サービスモデルを生成し、前記生成した実時間サービスモデルを通じて学習以後音響受信モジュール100から前処理されて入力されたデジタル音響で使用者音声を推論する段階(step3)及び音響出力モジュール500が前記ディープラーニングモジュール300から使用者音声で推論されたデジタル音響を外部スピーカーまたは仮想オーディオ装置に出力する段階(step4)を含む。
【0086】
図4は、図3に示された音響受信モジュール100の前処理段階(step1)をより詳しく説明するためのフロー図である。
【0087】
図1乃至図4を参照すれば、音響受信モジュール100の音響受信部130はマイクロホンを通じて使用者の音声と使用者環境で発生する各種ノイズ及びエコーを含む多様なアナログ音響の入力を受ける(S100)。
【0088】
以後、音響受信部130は前記マイクロホンを通じて入力されたアナログ音響をアナログ-デジタルコンバータ(ADC)を通じてデジタル音響に変換し(S130)、ダウンサンプリング部150は音響受信部130から変換されたデジタル音響を所定のサンプリング比によってダウンサンプリングする(S150)。
【0089】
無音除去部170はダウンサンプリング部150でダウンサンプリングされたデジタル音響に所定時間以上の間に何らのシグナルが存在しない無音領域を除去する(S170)。
【0090】
順次に、音響スライシング部190は無音除去部170を通じて無音領域が除去されたデジタル音響を所定時間による区間で分離し、前記所定区間別に分離したデジタル音響(S1乃至S4)をそれぞれオーディオバッファーに保存する(S190)。
【0091】
図5は、図3に示されたディープラーニングモジュール300の学習段階(step2)をより詳しく説明するためのフロー図である。
【0092】
図1乃至図5を参照すれば、ディープラーニングモジュール300の周波数ドメイン変換部310は、第1ディープラーニング部330での学習及び推論のために、オーディオバッファーに保存されたデジタル音響(S1乃至S4)それぞれの時間領域データを短時間フーリエ変換(STFT)して時間及び周波数領域データで生成する(S200)。
【0093】
以後、周波数ドメイン変換部310は生成した該当デジタル音響それぞれに対する時間及び周波数領域データであるベクターデータを第1ディープラーニング部330に送る(S210)。
【0094】
第1ディープラーニング部330は長短期メモリーモデル(LSTM)を利用して周波数ドメイン変換部310から伝達されたベクターデータに含まれた信号ら(S1乃至Sn)をそれぞれ分離し、分離された信号ら(S1乃至Sn)それぞれがどのような信号(E1乃至En)に該当するかを分類する(S220)。
【0095】
例えば、第1ディープラーニング部330が伝達されたベクターデータに含まれた4個の信号(S1乃至S4)を分類すると仮定すれば、第1ディープラーニング部330は前記LSTMを通じて分離された4個の信号(S1乃至S4)のうちで第1信号(S1)は人の音声(E1)で分類及び学習し、第2信号(S2)と第3信号(S3)信号はノイズ(E2)で分類及び学習し、第4信号(S4)はエコー(E3)で分類及び学習することができる。
【0096】
順次に第1ディープラーニング部330は分類された該当信号ら(E1乃至En)それぞれの振幅値の絶対値である周波数絶対値(Frequency magnitude)を算定する(S230)。
【0097】
例えば、人の音声に該当する第1分類信号(E1)の周波数絶対値は、第1信号(S1)の絶対値(m1)に算定し、ノイズに該当する第2分類信号(E2)の周波数絶対値は第2信号(S2)と第3信号(S3)の絶対値(m2、m3)に算定し、エコーに該当する第3分類信号(E3)の周波数絶対値は第4信号(S4)の絶対値(m4)に算定する。
【0098】
以後、第1ディープラーニング部330は分類された信号ら(E1乃至E3)それぞれを算定した該当周波数絶対値(m1、m2、m3、m4)とともに周波数逆変換部350に送る(S240)。
【0099】
周波数逆変換部350は第1ディープラーニング部330から伝送された分類信号ら(E1乃至E3)を周波数絶対値(例えば、m1乃至mn)を考慮して時間領域データ(audio frequency data)で高速フーリエ逆変換(IFFT)し、このように逆変換された信号ら(t1乃至tn)それぞれを第2ディープラーニング部370に送る(S250)。
【0100】
この時、第1分類信号(E1)では第1信号(S1)を時間領域で逆変換(t1)し、第2分類信号(E2)では第2信号(S2)及び第3信号(S3)を時間領域でそれぞれ逆変換(t2及びt3)し、第3分類信号(E3)では第4信号(S4)を時間領域で逆変換(t4)する。
【0101】
順次に、第2ディープラーニング部370は1次元畳み込み(1D-Convolution)を利用して周波数逆変換部350から伝送された時間領域データら(t1乃至tn)それぞれの波形イメージ(shape)からより精密に入力イメージを分類して学習する(S270)。
【0102】
特に、第2ディープラーニング部370は前記1次元畳み込みによる分類及び学習を遂行することで、一般な2D CNN(または3D CNN)対比ノイズ及びエコー除去のための演算量の最小化及び演算の実時間(real-time)性を確保することができる。
【0103】
例えば、第2ディープラーニング部370は前記1次元畳み込みを通じて第1信号(S1)に対する第1逆変換信号(t1)は人の音声で分類(E1)することができて、第2信号(S2)に対する第2逆変換信号(t2)はノイズのうちで自動車の騷音で分類(e2)することができて、第3信号(S3)に対する第3逆変換信号(t3)はノイズのうちで工事音で分類(E3)することができて、第4信号(S4)に対する第4逆変換信号(t4)はスピーカーを通じたフィードバックエコー(e4)で分類することができる。
【0104】
すなわち、第2ディープラーニング部370は前記の1次元畳み込みを利用して第1ディープラーニング部330で分類した結果が適合であるかを再確認することができるし、また第1ディープラーニング部330が分類した結果をより詳細に再分類することができる。
【0105】
実施例によって、第2ディープラーニング部370は時間領域データら(t1乃至t4)とこれらそれぞれに対する分類情報(e1乃至e4)を音響出力モジュール500に送ることができる(S290)。
【0106】
図6は、図3に示されたディープラーニングモジュール300の推論段階(step3)をより詳しく説明するためのフロー図である。
【0107】
図1乃至図6を参照すれば、サービス最適化部390はディープラーニングモジュール300の学習が完了された場合(例えば、第1ディープラーニング330部の学習と第2ディープラーニング部370の学習がすべて完了された場合)に第1ディープラーニング部330のディープラーニングモデルであるLSTMに訓練後量子化(PTQ)方法のうちでfloat16量子化を適用して実時間サービスモデルを生成する(S300)。
【0108】
もちろんサービス最適化部390は、第1ディープラーニング部330及び第2ディープラーニング部370のディープラーニングモデルらすべてに対する量子化を通じて前記実時間サービスモデルを生成することもできる。
【0109】
但し、第2ディープラーニング部370は既に一般なCNNに比べて演算量がよほど少なくて演算速度もやっぱり遥かに早い1次元畳み込みを利用しているので、サービス最適化部390は第1ディープラーニング部330のディープラーニングモデルであるLSTMのみに対してfloat16量子化を適用して前記実時間サービスモデルを生成することができる(S300)。
【0110】
このように生成した実時間サービスモデル(float16量子化されたLSTMモデル及び1D-Convolution)を通じて、サービス最適化部390は前で説明した第1ディープラーニング部330及び第2ディープラーニング部370の学習以後に音響受信モジュール100から前処理されて入力されたデジタル音響に対して使用者音声を推論する(S330)。
【0111】
実施例によって、サービス最適化部390は第1ディープラーニング部330のLSTMに対してfloat16量子化を適用したモデルのみを前記実時間サービスモデルで生成し、前記学習以後に音響受信モジュール100から前処理されて入力されたデジタル音響に対して使用者音声を推論することもできる。
【0112】
結果的に前記の実時間サービスモデル(float16量子化されたLSTMモデルが含まれた推論モデル)を通じて、サービス最適化部390は学習段階(step2)以後に音響受信モジュール100から前処理されて入力されたデジタル音響に対して使用者音声を推論する(S330)。
【0113】
そして、前で説明したところのように、サービス最適化部390の推論過程は、周波数ドメイン変換部310から伝達されたベクターデータに含まれた信号ら(S1乃至Sn)それぞれがどのような信号(E1乃至En)に該当するかを分類し、分類された該当信号ら(E1乃至En)それぞれの振幅値の絶対値である周波数絶対値(Frequency magnitude)を算定し、分類された信号ら(E1乃至E3)それぞれを算定した該当周波数絶対値(m1、m2、m3、m4)とともに周波数逆変換部350に送ることで、第1ディープラーニング部330で説明したことと同一である。
【0114】
また、サービス最適化部390の推論過程は、周波数逆変換部350から伝送された時間領域データら(t1乃至tn)それぞれを分類し、これらそれぞれに対する分類情報(e1乃至e4)を音響出力モジュール500に送ることで、第2ディープラーニング部370で説明したことと同一である。
【0115】
図7は、図3に示された音響出力モジュール500の出力段階(step4)を詳細に説明するためのフロー図である。
【0116】
図1乃至図7を参照すれば、音響出力モジュール500の音響再構成部530は第2ディープラーニング部370またはサービス最適化部390から伝送された時間領域データら(t1乃至t4)とこれらそれぞれに対する分類情報(e1乃至e4)から使用者音声に該当する信号(t1)以外のノイズ(t2、t3)やエコー(t4)に該当する信号らは除いて時間領域データを再構成してアップサンプリング部550に送る(S430)。
【0117】
アップサンプリング部550は再構成されたデジタル音響(すなわち、t1)を所定のサンプリング比(Sampling Rate)によってアップサンプリング(up-sampling)する(S450)。
【0118】
以後、音響出力部570はアップサンプリング部530からアップサンプリングされた信号をノイズ及びエコーが除去されたクリーンオーディオフリークエンシー(Clean Audio Frequency)としてスピーカー(speaker)または仮想オーディオ装置に送る(S470)。
【0119】
以上の説明は本発明の技術思想を例示的に説明したことに過ぎないものであり、本発明が属する技術分野で通常の知識を有した者なら本発明の本質的な特性から脱しない範囲で多様な修正及び変形が可能であろう。
【0120】
したがって、本発明に開示された実施例らは本発明の技術思想を限定するためではなく説明するためのものであり、このような実施例によって本発明の技術思想の範囲が限定されるものではない。本発明の保護範囲は以下の請求範囲によって解釈されなければならないし、それと同等な範囲内にあるすべての技術思想は本発明の権利範囲に含まれることで、解釈されなければならないであろう。
【産業上の利用可能性】
【0121】
本発明は、ディープラーニングモデルを通じて外部から入力される音響信号に含まれているノイズ及びエコーを学習し、実際画像会議または画像教育時にはこのような学習結果によって入力される音響からノイズ及びエコーを実時間除去する多者間画像会議または画像教育のためのノイズ及びエコー除去技術に関するもので産業上利用可能性がある。
図1
図2
図3
図4
図5
図6
図7
【手続補正書】
【提出日】2022-12-21
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図6
【補正方法】変更
【補正の内容】
図6
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図7
【補正方法】変更
【補正の内容】
図7
【国際調査報告】