IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー ラボラトリーズ ライセンシング コーポレイションの特許一覧

特許7562878アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良
<>
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図1
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図2
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図3
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図4
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図5
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図6
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図7
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図8
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図9
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図10
  • 特許-アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-27
(45)【発行日】2024-10-07
(54)【発明の名称】アーチファクトおよび歪みに対するディープラーニングベースの音声強調のためのロバスト性/性能改良
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20240930BHJP
   G10L 25/30 20130101ALI20240930BHJP
【FI】
G10L21/0208 100Z
G10L25/30
G10L21/0208 100B
【請求項の数】 16
(21)【出願番号】P 2023558124
(86)(22)【出願日】2022-03-17
(65)【公表番号】
(43)【公表日】2024-03-06
(86)【国際出願番号】 US2022020790
(87)【国際公開番号】W WO2022203939
(87)【国際公開日】2022-09-29
【審査請求日】2023-10-18
(31)【優先権主張番号】PCT/CN2021/082199
(32)【優先日】2021-03-22
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】63/180,705
(32)【優先日】2021-04-28
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】21178178.6
(32)【優先日】2021-06-08
(33)【優先権主張国・地域又は機関】EP
【早期審査対象出願】
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ソン,ジュンダイ
(72)【発明者】
【氏名】ルゥ,リエ
(72)【発明者】
【氏名】シュワーン,ジーウエイ
【審査官】土井 悠生
(56)【参考文献】
【文献】欧州特許出願公開第03716270(EP,A1)
【文献】米国特許出願公開第2020/0312343(US,A1)
【文献】国際公開第2021/044647(WO,A1)
【文献】国際公開第2020/110228(WO,A1)
【文献】KIM Minje, et al,Adaptive Denoising Autoencoders: A Fine-tuning Scheme to Learn from Test Mixtures,Latent Variable Analysis and Signal Separation: 12th International Conference,2015年01月01日,[0nline],<DOI: 10.1007/978-3-319-22482-4>
【文献】SONI Meet H, et al,Sub-band Autoencoder features for Automatic Speech Recognition,2017 NINTE INTERNATIONAL CONFERENCE ON ADVANCES IN PATTERN RECOGNITION,米国,IEEE,2017年12月27日,pp.1-5,[online],<DOI: 10.1109/ICAPR.2017.8593069>
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00
G10L 19/00-99/00
(57)【特許請求の範囲】
【請求項1】
オーディオ信号を処理する方法であって、
第1ステップであり、
前記オーディオ信号の第1成分に強調を適用し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の第2成分に抑制を適用する、
第1ステップと、
前記第1ステップの出力にディープラーニングベースのモデルを適用することによって、前記第1ステップの出力を修正する第2ステップであり、
前記第1ステップによって前記オーディオ信号に導入されたアーチファクト及び/又は歪みを除去することによって、前記オーディオ信号の前記第1成分を知覚的に改良し、
前記第1ステップの出力は、個々のビンまたは帯域について重み付け係数を示している変換ドメインのマスクであり、かつ、前記オーディオ信号に前記マスクを適用することは、前記第1成分の強調、及び/又は、前記第1成分に対して前記第2成分の抑制を結果として生じる、
第2ステップと、
を含む、方法。
【請求項2】
前記第1ステップは、前記オーディオ信号に音声強調を適用するステップである、
請求項1に記載の方法。
【請求項3】
第2ステップは、前記第1ステップの出力に係る複数のインスタンスを受信し、
前記インスタンスそれぞれは、前記オーディオ信号に係る複数のフレームのそれぞれ1つに対応し、かつ、
前記第2ステップは、前記出力に係る複数のインスタンスにディープラーニングベースのモデルを一緒に適用し、前記オーディオ信号に係る複数のフレームのうちの1つ以上において前記オーディオ信号の前記第1成分を知覚的に改良する、
請求項1または2に記載の方法。
【請求項4】
前記第2ステップは、前記オーディオ信号の所与のフレームについて、前記第1ステップの出力のインスタンスのシーケンスを受信し、
前記インスタンスそれぞれは、前記オーディオ信号のフレームのシーケンス内のそれぞれ1つに対応しており、
前記フレームのシーケンスは、前記所与のフレームを含み、かつ、
前記第2ステップは、前記所与のフレームにおける前記オーディオ信号の前記第1成分を知覚的に改良するために、前記出力のインスタンスのシーケンスに前記ディープラーニングベースのモデルを一緒に適用する、
請求項1乃至3いずれか一項に記載の方法。
【請求項5】
前記第2ステップの前記ディープラーニングベースのモデルは、エンコーダステージおよびデコーダステージを有する自動エンコーダアーキテクチャを実装し、
各ステージは、それぞれの複数の連続したフィルタ層を備え、
前記エンコーダステージは、前記エンコーダステージへの入力を、潜在空間表現にマッピングし、かつ、
前記デコーダステージは、前記エンコーダステージによって出力された前記潜在空間表現を、前記エンコーダステージへの前記入力と同じフォーマットを有する前記デコーダステージの出力にマッピングする、
請求項1乃至4いずれか一項に記載の方法。
【請求項6】
前記第2ステップの前記ディープラーニングベースのモデルは、複数の連続した層を有するリカレントニューラルネットワークアーキテクチャを実装し、
前記複数の層は、長短期記憶タイプ、または、ゲート付き再帰ユニットタイプの層である、
請求項1乃至4いずれか一項に記載の方法。
【請求項7】
前記ディープラーニングベースのモデルは、複数の連続した畳み込み層を有する生成モデルアーキテクチャを実装する、
請求項1乃至4いずれか一項に記載の方法。
【請求項8】
前記畳み込み層は、拡張畳み込み層であり、任意的に、スキップ接続を含んでいる、
請求項7に記載の方法。
【請求項9】
前記方法は、さらに、
前記オーディオ信号の前記第1成分に強調を適用し、かつ/あるいは、前記オーディオ信号の前記第2成分に抑制を適用するための、1つ以上の追加的な第1ステップを含み、
前記第1ステップ、および、前記1つ以上の追加的な第1ステップは、相互に異なる出力を生成し、
前記第2ステップは、前記第1ステップの前記出力に加えて、前記1つ以上の追加の第1ステップそれぞれの出力を受信し、かつ、
前記第2ステップは、前記オーディオ信号の前記第1成分を知覚的に改良するために、前記ディープラーニングベースのモデルを、前記第1ステップの前記出力、および、前記1つ以上の追加の第1ステップの前記出力に一緒に適用する、
請求項1乃至8いずれか一項に記載の方法。
【請求項10】
前記方法は、さらに、
前記第1ステップへの入力の以前に前記オーディオ信号をバンディングするために、ディープラーニングベースのモデルを、前記オーディオ信号に適用する第3ステップ、を含み、
前記第2ステップは、前記第1ステップの前記出力をデバンディングすることによって、前記第1ステップの前記出力を修正し、かつ、
前記第2ステップおよび前記第3ステップの前記ディープラーニングベースのモデルは、一緒にトレーニングされる、
請求項1乃至9いずれか一項に記載の方法。
【請求項11】
前記第2ステップおよび前記第3ステップは、それぞれに、連続的に増加および減少するノード数をそれぞれ有する複数の連続した層を実装する、
請求項10に記載の方法。
【請求項12】
前記第1ステップは、前記オーディオ信号の前記第1成分を強調し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の前記第2成分を抑制するために、ディープラーニングベースのモデルを適用する、
請求項1乃至11いずれか一項に記載の方法。
【請求項13】
前記第1ステップおよび前記第2ステップのディープラーニングモデルは、共通の損失関数を使用して同時にトレーニングされる、
請求項12に記載の方法。
【請求項14】
オーディオ信号を処理するための装置であって、
第1ステージであり、
前記オーディオ信号の第1成分に強調を適用し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の第2成分に抑制を適用する、
第1ステージと、
前記第1ステージの出力にディープラーニングベースのモデルを適用することによって、前記第1ステージの出力を修正する第2ステージであり、
前記第1ステージによって前記オーディオ信号に導入されたアーチファクト及び/又は歪みを除去することによって、前記オーディオ信号の前記第1成分を知覚的に改良し、
前記第1ステージの出力は、個々のビンまたは帯域について重み付け係数を示している変換ドメインのマスクであり、かつ、前記オーディオ信号に前記マスクを適用することは、前記第1成分の強調、及び/又は、前記第1成分に対して前記第2成分の抑制を結果として生じる、
第2ステージと、
を含む、装置。
【請求項15】
命令を含むコンピュータプログラムであって、
コンピューティングデバイスによって実行されると、コンピューティングデバイスに、請求項1乃至13いずれか一項に記載の方法に係るステップを実行させる、
コンピュータプログラム。
【請求項16】
請求項15に記載のコンピュータプログラムを保管している、
コンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、オーディオ処理の分野に関する。特に、本開示は、ディープラーニング(deep-learning)モデルまたはシステムを使用するオーディオ強調(例えば、音声強調(audio enhancement))のための技法に関し、そして、オーディオ強調についてディープラーニングモデルまたはシステムをトレーニングするためのフレームワークに関する。
【0002】
関連出願の相互参照
本出願は、2021年3月22日に出願された国際出願PCT/CN2021/082199、2021年6月8日に出願された欧州特許出願第21178178.6号、および、2021年4月28日に出願された米国仮特許出願第63/180,705号について優先権を主張するものであり、これらの出願それぞれは、参照により、その全体が本明細書に組み込まれている。
【背景技術】
【0003】
音声強調は、雑音の多い混合信号(noisy mixture signal)から音声信号(音声成分(speech component))を強調または分離することを目的とする。多数の音声強調手法が、過去数十年にわたり開発されてきた。近年、音声強調は、教師あり学習タスク(supervised learning task)として定式化されており、ここでは、クリーンな音声およびバックグラウンドノイズの識別パターンがトレーニングデータから学習される。しかしながら、これらのアルゴリズムは、異なる音響環境(acoustic environment)を取り扱うときに、全てが、異なる処理歪み(processing distortion)にわずらわされる。典型的な処理歪みは、ターゲット損失、干渉、および、アルゴリズムアーチファクトを含んでいる。
【0004】
従って、アーチファクト及び/又は歪みを低減することができる、音声強調を含む、オーディオ処理に係る改良されたディープラーニングベースの方法に対する必要性が存在している。
【発明の概要】
【0005】
上記に鑑みて、本開示は、オーディオ信号を処理する方法、並びに、対応する装置、コンピュータプログラム、および、コンピュータ可読記憶媒体を提供し、それぞれの請求項が特徴を有している。
【0006】
本開示の一態様に従って、オーディオ信号を処理する方法が提供される。本方法は、前記オーディオ信号の第1成分に強調を適用し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の第2成分に抑制を適用する、第1ステップを含み得る。第1ステップは、オーディオ信号の任意の残差成分から第1成分を少なくとも部分的に分離するか、または、そうするためのマスクを生成する、強調ステップまたは分離ステップであってよい。かくして、第1ステップは、また、ノイズ除去動作を実行すると言うこともできる。第1成分の強調は、第2成分に対するものであり得る。第1成分は、例えば、音声(音声成分)であり得る。第2成分は、例えば、ノイズ(雑音成分)であってよく、バックグラウンド(背景成分)であり得る。本方法は、さらに、前記第1ステップの出力にディープラーニングベースのモデルを適用することによって、前記第1ステップの出力を修正する第2ステップを含み得る。第2ステップは、前記第1ステップによって前記オーディオ信号に導入されたアーチファクト及び/又は歪みを除去し、かつ、前記オーディオ信号の前記第1成分を知覚的に改良する。第2ステップは、修正ステップであってよく、または、改良ステップであってもよい。それは、第1ステップによって導入される歪み及び/又はアーチファクトの除去をもたらし得る。第2ステップは、第1ステップの出力に応じて、強調された第1成分及び/又は抑制された第2成分を有する波形信号に対して動作してよく、または、マスクに対して動作し得る。
【0007】
上記で説明されるように構成されて、提案される方法は、音声強調ステップ(例えば、ディープラーニングベースの音声強調ステップ)といった、オーディオ処理ステップによって導入される、アーチファクトおよび歪みを除去することができる。これは、手近なオーディオ処理から生じるアーチファクトおよび歪みを除去するように、特定的にトレーニングすることができる、ディープラーニングベースのモデルによって達成される。
【0008】
いくつかの実施形態において、前記第1ステップは、前記オーディオ信号に音声強調を適用するステップであり得る。従って、第1成分は音声成分に対応することができ、そして、第2成分は、ノイズ、バックグラウンド、または残差成分に対応することができる。
【0009】
いくつかの実施形態において、第1ステップの出力は、波形ドメインのオーディオ信号(例えば、波形信号)であり、そこでは、前記第1成分が強調され、かつ/あるいは、前記第1成分に対して前記第2成分が抑制されている。かくして、第1ステップは、時間ドメイン(波形ドメイン)オーディオ信号を受信し、時間ドメインオーディオ信号を(直接)修正することによって、第1成分の強調及び/又は第2成分の抑制を適用することができる。
【0010】
いくつかの実施形態において、前記第1ステップの出力は、個々のビンまたは帯域について重み付け係数を示している変換ドメインのマスクであり得る。変換ドメイン(変換された領域)は、例えば、周波数ドメインまたはスペクトルドメインであり得る。(変換ドメイン)ビンは、時間-周波数ビンであってよい。マスクは、例えば、振幅マスク、位相感応マスク、複素マスク、バイナリマスク、等であってよい。さらに、(変換ドメイン)オーディオ信号に前記マスクを適用することは、前記第1成分の強調、及び/又は、前記第1成分に対して前記第2成分の抑制を結果として生じ得る。具体的には、第1成分の強調及び/又は第2成分の抑制は、ノイズまたはバックグラウンドに関連する時間周波数タイルを除去または抑制することによって、変換ドメインオーディオ信号にマスクを適用することにより達成され得る。本方法は、オーディオ信号を変換ドメインに変換する(初期)ステップ、及び/又は、逆変換を実施する(最終)ステップを任意的に含み得ることが理解される。
【0011】
いくつかの実施形態において、第2ステップは、前記第1ステップの出力に係る複数のインスタンスを受信し得る。ここで、前記インスタンスそれぞれは、前記オーディオ信号に係る複数のフレームのそれぞれ1つに対応し得る。さらに、前記第2ステップは、前記出力に係る複数のインスタンスに機械学習ベースのモデルを一緒に適用し、前記オーディオ信号に係る複数のフレームのうちの1つ以上において前記オーディオ信号の前記第1成分を知覚的に改良する。この場合、第2ステップのディープラーニングベースのモデルは、第1ステップの出力の複数のインスタンス、および、ーディオ信号に対する参照オーディオ信号の対応する複数のフレームに基づいて、トレーニングされていてよい。代替的に、第2ステップのトレーニングおよび動作の両方が、フレームごとに進行し得る。
【0012】
いくつかの実施形態において、前記第2ステップは、前記オーディオ信号の所与のフレームについて、前記第1ステップの出力のインスタンスのシーケンスを受信し得る。ここで、前記インスタンスそれぞれは、前記オーディオ信号のフレームのシーケンス内のそれぞれ1つに対応し得る。前記フレームのシーケンスは、前記所与のフレームを(例えば、その最後のフレームとして)含み得る。例えば、第2ステップの動作は、所与のフレームを含むフレームのシフトウィンドウに基づいてよい。かくして、本方法は、所与のフレームのための出力を生成するときに考慮されるべき以前のフレーム(すなわち、所与のフレームに関して前)の履歴を維持し得る。さらに、前記第2ステップは、前記所与のフレームにおける前記オーディオ信号の前記第1成分を知覚的に改良するために、前記出力のインスタンスのシーケンスに前記機械学習ベースのモデルを一緒に適用することができる。
【0013】
いくつかの実施形態において、前記第2ステップの前記ディープラーニングベースのモデルは、エンコーダステージおよびデコーダステージを有する自動エンコーダアーキテクチャを実装し得る。各ステージは、それぞれの複数の連続したフィルタ層を備え得る。前記エンコーダステージは、前記エンコーダステージへの入力を、潜在空間表現(例えば、コード)にマッピングし得る。エンコーダステージへの入力(すなわち、第1ステップの出力)は、例えば、前述のマスクであってよい。前記デコーダステージは、前記エンコーダステージによって出力された前記潜在空間表現を、前記エンコーダステージへの前記入力と同じフォーマットを有する前記デコーダステージの出力にマッピングすることができる。エンコーダステージは、エンコーダステージへの入力の次元を連続的に低減すると言うことができ、そして、デコーダステージは、デコーダステージへの入力の次元を元の次元に戻すように連続的に強調すると言うことができる。従って、入力/出力のフォーマットは、入力/出力の次元(dimensionality)に対応し得る。
【0014】
いくつかの実施形態において、前記第2ステップの前記ディープラーニングベースのモデルは、複数の連続した層を有するリカレントニューラルネットワークアーキテクチャを実装し得る。ここで、前記複数の層は、長短期記憶タイプ、または、ゲート付き再帰ユニットタイプの層であり得る。
【0015】
いくつかの実施形態において、前記ディープラーニングベースのモデルは、複数の連続した畳み込み層を有する生成モデルアーキテクチャを実装し得る。ここで、前記畳み込み層は、拡張畳み込み層であり得る。本アーキテクチャは、畳み込みレイヤ間の1つ以上のスキップ接続を任意的に含み得る。
【0016】
いくつかの実施形態において、前記方法は、さらに、前記オーディオ信号の前記第1成分に強調を適用し、かつ/あるいは、前記オーディオ信号の前記第2成分に抑制を適用するための、1つ以上の追加的な第1ステップを含む。ここで、前記第1ステップ、および、前記1つ以上の追加的な第1ステップは、相互に異なる出力を生成し得る(例えば、ペアごとに異なる)。そうでなければ、1つ以上の追加的な第1ステップは、第1ステップと同じ目的または意図を有し得る。この構成において、前記第2ステップは、前記第1ステップの前記出力に加えて、前記1つ以上の追加の第1ステップそれぞれの出力を受信し得る。さらに、前記第2ステップは、前記オーディオ信号の前記第1成分を知覚的に改良するために、前記ディープラーニングベースのモデルを、前記第1ステップの前記出力、および、前記1つ以上の追加の第1ステップの前記出力に一緒に適用する。第2ステップは、とりわけ、例えば、第1ステップおよび1つ以上の追加的な第1ステップの出力に対して重み付け及び/又は選択を適用し得る。
することができる。
【0017】
いくつかの実施形態において、前記方法は、さらに、前記第1ステップへの入力の以前に前記オーディオ信号をバンディングするために、ディープラーニングベースのモデルを、前記オーディオ信号に適用する第3ステップを含む。次いで、前記第2ステップは、前記第1ステップの前記出力をデバンディングすることによって、前記第1ステップの前記出力を修正し得る。前記第2ステップおよび前記第3ステップの前記ディープラーニングベースのモデルは、一緒にトレーニングされてきてよい。
【0018】
いくつかの実施形態において、前記第2ステップおよび前記第3ステップは、それぞれに、連続的に増加および減少するノード数をそれぞれ有する複数の連続した層を実装し得る。すなわち、第2ステップおよび第3ステップは、自動エンコーダキテクチャを実装することができ、第3ステップは、エンコーダ(エンコーダステージ)に対応し、かつ、第2ステップは、デコーダ(デコーダステージ)に対応している。第1ステップは、第3ステップによって生成されたコード(潜在空間表現)に対して作用し得る。
【0019】
いくつかの実施形態において、前記第1ステップは、前記オーディオ信号の前記第1成分を強調し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の前記第2成分を抑制するためのディープラーニングベースのモデルであり得る(第1ステップは、第2ステップとして、ディープラーニングベースのモデルを適用し得る)。例えば、第1ステップは、ディープラーニングベースの音声強調ステップであり得る。
【0020】
本開示の別の態様に従って、オーディオ信号を処理するための装置が提供される。前記装置は、第1ステージであり、前記オーディオ信号の第1成分に強調を適用し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の第2成分に抑制を適用する第1ステージを含み得る。前記装置は、さらに、前記第1ステージの出力にディープラーニングベースのモデルを適用することによって、前記第1ステージの出力を修正する第2ステージであり、前記第1ステージによって前記オーディオ信号に導入されたアーチファクト及び/又は歪みを除去し、かつ、前記オーディオ信号の前記第1成分を知覚的に改良する第2ステージを含み得る。
【0021】
別の態様に従って、コンピュータプログラムが提供される。本コンピュータプログラムは、プロセッサによって実行されると、本開示全体を通して説明される方法の全てのステップを、プロセッサに実行させる命令を含み得る。
【0022】
別の態様に従って、コンピュータ可読記憶媒体が提供される。本コンピュータ可読記憶媒体は、上述のコンピュータプログラムを保管し得る。
【0023】
さらに別の態様に従って、プロセッサ、および、プロセッサに結合されたメモリを含む、装置が提供される。本プロセッサは、本開示全体を通して説明される方法の全てのステップを実行するように適合され得る。
【0024】
装置の特徴および方法のステップは、多くの方法で交換され得ることが理解されるだろう。特に、開示された方法の詳細は、当業者が理解するように、対応する装置によって実現することができ、逆もまた同様である。さらに、本方法(および、例えば、それらのステップ)に関してなされた上記の記述のいずれも、対応する装置(および、例えば、それらのブロック、ステージ、ユニット)に対して同様に適用されるものと理解され、逆もまた同様である。
【図面の簡単な説明】
【0025】
本開示の例示的な実施形態は、添付の図面を参照して以下に説明される。
図1図1は、本開示の実施形態に従った、オーディオ処理(audio processing)の方法を実装する装置(例えば、システムまたはデバイス)の例を概略的に示している。
図2図2は、本開示の実施形態に従った、オーディオ処理(audio processing)の方法を実装する装置(例えば、システムまたはデバイス)の例を概略的に示している。
図3図3は、本開示の実施形態に従った、装置の処理ブロックの一例を概略的に示している。
図4図4は、本開示の実施形態に従った、オーディオ処理の方法を実装する装置のさらなる例を概略的に示している。
図5図5は、本開示の実施形態に従った、オーディオ処理の方法を実装する装置のさらなる例を概略的に示している。
図6図6は、本開示の実施形態に従った、オーディオ処理の方法を実装する装置のさらなる例を概略的に示している。
図7図7は、本開示の実施形態に従った、オーディオ処理の方法を実装する装置のさらなる例を概略的に示している。
図8図8は、本開示の実施形態に従った、オーディオ処理の方法を実装する装置を採用するためのフレームワークの一例を概略的に示している。
図9図9は、本開示の実施形態に従った、オーディオ処理の方法を実装する装置のさらに別の例を概略的に示している。
図10図10は、本開示の実施形態に従った、オーディオ処理の方法の一例を概略的に説明しているフローチャートである。
図11図11は、本開示の実施形態に従った、オーディオ処理の方法の別の例を概略的に説明しているフローチャートである。
【発明を実施するための形態】
【0026】
図面および及び以下の説明は、単なる例示としての好ましい実施形態に関する。以下の説明から、本明細書において開示される構造および方法に係る代替的な実施形態は、特許請求されるものの原理から逸脱することなく使用され得る、実行可能な代替物として容易に認識されることが、留意されるべきである。
【0027】
今から、いくつかの実施形態について詳細に参照し、その例は添付の図面に示されている。使用できる限り、同様または類似の参照番号が図において使用されてよく、そして、同様または類似する機能を示し得ることに留意すること。図面は、説明目的のためだけに、開示されるシステム(または、方法)の実施形態を描いている。当業者であれば、本明細書に説明される原理から逸脱することなく、本明細書において説明される構造および方法の代替的な実施形態が採用され得ることを、以下の説明から、容易に認識するだろう。
【0028】
上述のように、従来のディープラーニングベースの音声強調は、典型的に、歪み(distortion)およびアーチファクト(artifact)を導入する。この問題を軽減するために、本開示は、アーチファクトおよび歪みを低減することができる、多ステージ(multi-stage)ディープラーニングベースの音声強調フレームワークを提案した。フレームワークは、2つのブロック、すなわち、「分離器(separator)」および「改良器(improver)」を含んでいる。ここで、分離器は、第1ラウンドのノイズ除去(denoising)を実行するために使用され、そして、後続の改良器は、歪みを低減し、かつ、分離器によって導入されたアーチファクトを除去するのを助ける。加えて、改良器は、また、最終的に包括的な結果を出力するために、分離器のセットの出力をマージして、バランスをとる「マネージャ(“manager”)」としても働くことができる。
【0029】
特に、本開示は(例えば、第1ステージにおける)音声強調に言及することが多いが、本開示は、一般的に、従来型とディープラーニングベースの両方の、歪み及び/又はアーチファクトを導入し得る第1ステージにおける、任意のオーディオ処理またはオーディオ強調に関することが理解される。
【0030】
方法の概要
音声強調は、教師あり学習タスクとして、近年、定式化されており、ここでは、クリーン音声およびバックグラウンドノイズの識別パターンが、トレーニングデータから学習される。現在、教師あり音声強調アルゴリズムは、基本的に、2つのグループへと分類することができる。一方のグループは、波形ドメイン(wave domain)ベースのモデルを含み、そして、他方のグループは、変換ドメイン(transform domain)ベースのモデルを含んでいる。波形ドメインベースのモデルのターゲットは、本質的にクリーン波であるが、一方で、変換ドメインベースのモデルについて、ターゲットは、それぞれの使用事例に応じて、ビンベース(bin based)のマスク(例えば、大きさマスク(magnitude mask)、位相感応(phase-sensitive)マスク、複素(complex)マスク、バイナリ(binary)マスク、等)、または、帯域ベースのマスクであり得る。本開示のいくつかの実装形態は、スペクトルドメインの処理に基づき、または、それに関し得る一方で、本開示は、そのように限定されるものではなく、そして、同様に、波形ドメインの処理に関することが理解される。
【0031】
モノラル、ステレオ、また、さらにはマルチチャネル信号(multi-channel signal)であり得る、混合(mixture)y(例えば、入力オーディオ信号)が与えられると、音声強調の目標は、ターゲット音声s(例えば、音声成分)を、バックグラウンドn(例えば、バックグラウンド、ノイズ、または、残差成分)から分離することである。ノイズ信号yは、以下のようにモデル化することができる。
【数1】
ここで、kは時間サンプルインデックスである。上記のモデルをスペクトルドメイン(変換ドメインの非限定的な例として)に変換することは、以下を生じる。
【数2】
ここで、Y、S、およびNは、それぞれに、y、s、およびnの時間-周波数(T-F)表現を表しており、一方で、mおよびfは、それぞれに、時間フレームおよび周波数ビンを表している。強調された音声のT-F表現であるS^m,fは、次のように書くことができる。
【数3】
ここで、Etargetは、音声強調アルゴリズムによって引き起こされるターゲット歪みを示し、EinterfおよびEartifは、それぞれに、干渉(例えば、ノイズからの残留T-F成分)およびアーチファクト(例えば、「ブルブル(“burbling”)」アーチファクトまたはミュージカルノイズ)の誤差項である。
【0032】
異なる音声強調アルゴリズムは、異なる種類の歪みを有しており、それは、また、ノイズタイプおよび信号対ノイズ状態とも相関し得る。処理アーチファクトに対してロバスト(robust)な音声強調器(speech enhancer)を導出するために、本開示は、2つのブロック、すなわち、1つの「分離器」ブロックおよび1つの「改良器」ブロック、を備える新しいモデルフレームワークを提案する。
【0033】
図1は、このモデルフレームワークに従った、装置(例えば、システムまたはデバイス)を概略的に示しているブロック図である。音声強調(または、一般的に、オーディオ強調/処理)のためのシステム100は、分離器ブロック(分離器)10および改良器ブロック(改良器)20を有している。オーディオ信号5(例えば、前述の混合yを含んでいるもの)が、システム100に入力される。分離器10は、提案されたモデルフレームワークの第1ステージまたは第1ステップを実施する。これは、入力オーディオ信号5に係る第1ラウンドのノイズ除去(denoising)を実行するために使用される。分離器10の出力15は、後でより詳細に説明するように、入力オーディオ信号5に係る修正バージョン(すなわち、波形ドメインのオーディオ信号)、または、変換ドメインにおいてオーディオ信号に適用することができるマスクに関連し得る。
【0034】
ダウンストリーム改良器20は、モデルフレームワークの第2ステージまたは第2ステップを実施する。それは、分離器10の出力15を受信して、それに作用する。改良器20は、分離器10の出力15を処理して、目標歪みを低減し、アーチファクトを除去または抑制し、かつ/あるいは、オーディオ信号内の残留ノイズを除去または抑制する。改良器20は、最終的に出力25を生成し、それは、以下でより詳細に説明されるように、(さらなる)修正された波形信号、または、修正されたマスクに関連し得る。提案されたフレームワークは、2つの別個のモデルの連結(concatenation)に関連するのではないが、実際に単一の統合モデルに関連することが、留意されるべきである。分離器10および改良器20は、モデルにおける単なる2つの(概念的な)ブロックに過ぎない。
【0035】
特に、分離器10は、ディープニューラルネットワーク(DNN)として、または、従来のオーディオ処理コンポーネントによって実装され得る一方で、本開示に従った改良器20は、ディープニューラルネットワークによって実装される、すなわち、ディープラーニングベースである。
【0036】
学界および産業において提案された多くの分離器10が存在している一方で、本開示は、主に、潜在的な構造および実装、分離器10との協働、および、トレーニング戦略を含む、改良器20に焦点を当てる。
【0037】
上記に沿って、オーディオ処理(例えば、音声強調といった、オーディオ強調)の方法1000に係る一つの例が、図10のフローチャートに概略的に示されている。方法1000は、例えば、音声強調に係る方法であり得る。それは、ステップS1010およびS1020を含んでいる。
【0038】
ステップS1010は、オーディオ信号5の第1成分(例えば、音声(speech))に強調(enhancement)を適用し、かつ/あるいは、オーディオ信号5の第2成分(例えば、ノイズまたはバックグラウンド)に抑制(suppression)を適用するための第1ステップである(例えば、強調ステップまたは分離ステップ)。第1成分の強調は、第2成分に関するものであってよく、かつ/あるいは、第2成分の抑制は、第1成分に関するものであってよいことが理解される。それによって、第1ステップは、オーディオ信号5の任意の残差成分から第1成分を少なくとも部分的に分離する。かくして、第1ステップは、また、オーディオ信号5に対してノイズ除去動作を実行すると言うこともできる。
【0039】
上述のように、第1ステップは、オーディオ信号5に音声強調を適用するステップであってよい。この場合、第1成分は、音声成分であり、第2成分は、ノイズ、バックグラウンド、または、残差成分、などである。
【0040】
さらに、第1ステップは、従来のオーディオ処理手段、並びに、ディープニューラルネットワークの両方によって実装され得ることが理解される。すなわち、第1ステップは、いくつかの実装形態において、オーディオ信号の第1成分を強調し、かつ/あるいは、第1成分に対して(relative to)オーディオ信号の第2成分を抑制するための、ディープラーニングベースのステップであり得る。
【0041】
ステップS1020は、オーディオ信号の第1成分を知覚的に改良するために、第1ステップの出力に対してディープラーニングベースのモデルを適用することによって、第1ステップの出力を修正する第2ステップである(例えば、修正ステップまたは改良ステップ)。ここで、知覚的な改良は、第1ステップによって導入された歪み及び/又はアーチファクト、並びに、第1ステップによって除去されない、あるいは、任意の残りの望ましくない成分(例えば、ノイズまたはバックグラウンド)の除去に関連し得る(もしくは、含み得る)。
【0042】
ステップS1010は、前述の分離器10によって実施されてよく、そして、ステップS1020は、前述の改良器20によって実施されてよいことが理解される。
【0043】
第1ステップおよび第2ステップ(同様に、分離器10および改良器20)は、波形ドメイン(すなわち、波形信号において直接的に作用する)、または、変換ドメインのいずれかで動作し得る。変換ドメインに係る一つの非限定的な例は、スペクトルドメインである。一般的に、波形ドメインから変換ドメインに変換する変換は、時間-周波数変換を伴い得る。かくして、変換ドメインは、または、周波数ドメインとも称され得る。
【0044】
波形ドメインで動作するとき、第1ステップ(同様に、分離器10)は、時間ドメイン(波形ドメイン)のオーディオ信号を受信し、そして、時間ドメインのオーディオ信号を(直接的に)修正することによって、第1成分の強調、及び/又は、第1成分に対して第2成分の抑制を適用する。この場合に、第1ステップ(同様に、分離器10)の出力は、第1成分が強調され、かつ/あるいは、第2成分が抑制された波形ドメインのオーディオ信号である。
【0045】
変換ドメインで動作するとき、第1ステップ(同様に、分離器10)の出力は、オーディオ信号の個々のビン(bin)または帯域(band)に対する重み付け係数を示す変換ドメインマスク(例えば、ビンベースのマスク、または、帯域ベースのマスク)である。このマスクを(変換ドメインの)オーディオ信号に適用することは、次いで、第1成分の強調、及び/又は、第1成分に対して第2成分の抑制を結果として生じる。(変換ドメインの)ビンは、例えば、時間周波数ビンであってよい。さらに、マスクは、例えば、大きさマスク、位相感応マスク、複素マスク、バイナリマスク、等であり得る。方法1000は、任意的に、オーディオ信号を変換ドメインに変換する(初期)ステップ、及び/又は、逆変換を実施するための(最終)ステップを含み得ることが理解される。同様に、本開示で説明される装置は、変換ステージおよび逆変換ステージを含み得る。
【0046】
図1に戻ると、改良器20は、入力として分離器10の出力15を受信する。それは、分離器10から単一フレームの出力、または、複数フレームの出力のいずれかを取ることができる。
【0047】
第1オプションについて、改良器20(同様に、第2ステップ)は、図1に示されるように、分離器10の単一の出力に作用することができる。例えば、分離器10の出力15が1つのフレームに対するマスクである場合、改良器20は、この単一フレームマスクに基づいてトレーニングされるだろう。ここで、分離器10(ディープニューラルネットワークによって実装される場合)、および、改良器20は、同時に(すなわち、一斉に)トレーニングすることができ、または、最初に分離器10をトレーニングし、そして、次いで、改良器20のトレーニングが後に続き得る、以下で説明される2ステージ(two-stage)トレーニング戦略でトレーニングすることができる。一般的に、第1オプションについて、第2ステップ(および、同様に改良器)のトレーニングおよび動作の両方が、フレームごとに進行し得ると言うことができる。
【0048】
第2オプションについて、改良器220(および、同様に第2ステップ)は、分離器210の複数の出力215に作用することができる。この状況が、図2に概略的に示されている。例えば、分離器210の出力215は、1つのフレームのマスクであってよく、そして、改良器220は、分離器210のいくつかの出力215に基づいてトレーニングされてよい。別の言葉で言えば、分離器210の出力215は、十分に大きな数のフレームが利用可能になるまで、順序付けられ/累積され得る。次いで、分離器210のこれらの複数の出力215は、トレーニングのために改良器220へと供給され得る。このオプションで動作するとき、分離器210が(ディープニューラルネットワークによって実装される場合に)最初にトレーニングされ得る。
【0049】
上記に沿って、第2オプションについて、第2ステップ(および、同様に改良器)は、第1ステップ(および、同様に分離器)の出力の複数のインスタンスを受け取ると言うことができる。インスタンスそれぞれは、例えば、オーディオ信号の複数のフレームに係るそれぞれ1つに対応している。さらに、各インスタンスは、1つのフレームに対するマスク、または、オーディオの1つのフレームに対応し得る。次いで、第2ステップは、オーディオ信号の複数のフレームのうち1つ以上におけるオーディオ信号の第1成分を知覚的に改良するために、機械学習ベースのモデルを、出力の複数のインスタンスに対して一緒に適用する。上述のように、第2ステップのディープラーニングベースのモデルは、第1ステップの出力の複数のインスタンス、および、オーディオ信号に対する基準オーディオ信号の対応する複数のフレームに基づいて、トレーニングされてきてよい。
【0050】
第2ステップの別の実装において、第2ステップの動作およびトレーニングは、所与のフレームを含むフレームのウィンドウをシフトすること(shifting window)に基づいてよい。かくして、本方法は、所与のフレームについて出力を生成するときに考慮されるべき以前のフレームの履歴を維持することができる。具体的に、この実装において、第2ステップは、オーディオ信号の所与のフレームを処理するために、第1ステップの出力に係るインスタンスのシーケンスを受信する。ここで、インスタンスそれぞれは、オーディオ信号のフレームのシーケンス内のそれぞれの1つに対応する。フレームのシーケンスは、所与のフレームを含むことが理解される。次いで、第2ステップは、所与のフレームにおけるオーディオ信号の第1成分を知覚的に改良するために、機械学習ベースのモデルを、出力のインスタンスのシーケンスに対して一緒に適用する。所与のフレームは、例えば、フレームのシーケンスにおける直近(the most recent)のフレームであり得る。
【0051】
改良器ネットワーク構造
改良器ネットワークは、分離器の設計に依存すべきであり、そして、特に、分離器の出力が改良器の入力に一致することを保証すべきである。さらに、改良器は、また、対処される必要がある分離器の特定の問題(例えば、歪み、アーチファクト、等)にも基づいて、設計されるべきである。広範囲の実装が、改良器について利用可能である。以下の実装は、手元にある目的のために有利であることが見い出されてきた。1)周波数ドメインにおいて平滑な(smooth)ソフトマスクを生成するためのボトルネック層を伴う自動エンコーダ(auto-encoder、AE)構造、2)時間的に平滑な結果の出力を可能にするリカレントニューラルネットワーク(RNN)/長期短期記憶(LSTM)モデル、および、3)分離器コンポーネントにおいて失われた高調波(harmonics)を回復するための生成モデル。
【0052】
自動エンコーダ(Auto-Encoder)ベースの改良器
大部分のスペクトルドメインベースの音声強調アルゴリズムは、不連続マスク、低SNR条件下での強い/不安定な残留ノイズ、および、非ダイアログ(non-dialog)セグメント内の残留ノイズによって引き起こされるアーチファクトにわずらわされている。これらの問題に対処するために、本開示は、図3に概略的に示されるAEベースの改良器を提案する。従って、改良器(または、さらに言えば、第2ステップ)を実装しているディープラーニングベースのモデルは、自動エンコーダアーキテクチャを備えている。自動エンコーダ構造は、エンコーダステージ(または、エンコーダ)340およびデコーダステージ(またはデコーダ)360を有する。エンコーダ340およびデコーダ360それぞれは、それぞれの複数の連続するフィルタ層345、365を含んでいる。エンコーダ340は、それに対する入力315を潜在空間(latent space)表現350にマッピング(map)する。エンコーダ340の最後の層(layer)は、ボトルネック層と称され得る。ボトルネック層の出力は、前述の潜在空間表現350である。デコーダ360は、エンコーダ340によって出力された潜在空間表現350をマッピングして、初期フォーマットに、すなわち、エンコーダ340への入力315と同じフォーマットを有するデコーダの出力325に戻す。従って、エンコーダ340は、その入力315の次元を連続的に(すなわち、1つのレイヤから次のレイヤに)低減すると言われてよく、そして、デコーダ360は、その入力(すなわち、潜在空間表現350)の次元を元の次元に戻すように連続的に拡張すると言われてよい。従って、入力/出力のフォーマットは、入力/出力の次元(dimensionality)に対応し得る。エンコーダ340への入力315(すなわち、第1ステップの出力)は、前述のマスクであってよく、そして、デコーダ360の出力325は、例えば、改良されたマスクであってよい。
【0053】
一つの例において、エンコーダ340は、連続的に減少するノード数を有する複数の連続した層345(例えば、DNN層)を備え、そして、デコーダ360も、また、連続的に増加するノード数を有する複数の連続した層365(例えば、DNN層)を備えている。例えば、エンコーダ340およびデコーダ360は、同じ数のレイヤを有してよく、エンコーダ340の最も外側の層は、デコーダ360の最も外側の層と同じ数のノードを有してよく、エンコーダ340の最も外側の次の層は、デコーダ360の最も外側の次の層と同じ数のノードを有してよく、そして、それぞれの最も内側の層まで同様である。
【0054】
そうした自動エンコーダ構造において、エンコーダは、「マスクノイズ(“mask noise”)」を除去するために、(分離器の出力の非限定的な例として)分離器によって推定されたマスクの効率的なデータ表現(すなわち、潜在空間表現)を学習し、そして、デコーダは、初期空間にマッピングして戻すことによって、潜在表現空間から改良されたマスクを生成する。改良されたマスクは、エンコーダによって行われるマスク圧縮に起因して、より滑らかであり、かつ、より少ないアーチファクトを有することができる。さらに、AEベースの改良器によるそうしたマスク再構成は、また、音声歪みを修正(fix)し、そして、音声とノイズとの間のより良好な区別を有することに役立つ。ここで、より良好な区別は、非音声セグメント内の残留ノイズの大部分を除去することに役立つだろう。
【0055】
改良器420のAEベースの実装に係る特定の非限定的な例が、図4に概略的に示されている。この例における分離器410は、T-Fドメインにわたり動作するマルチスケール畳み込みニューラルネットワークによって実装される。48kHzのオーディオ信号405について、入力は、50%のオーバーラップを伴う4096個の短時間フーリエ変換(STFT)を使用することによって、T-Fドメインに変換される。次いで、2049点の大きさ(magnitude)が1025個の帯域へとグループ化される。8個のフレームが分離器410に供給され(すなわち、入力次元は8×1025である)、そして、ターゲットは1個のフレームの大きさマスク(すなわち、次元1×1025)である。AEベースの改良器420は、一連のDNN層を使用して(例えば、それぞれに、512、256、512、および1025ノードを用いて)実装される。AE構造のエンコーダは、マスクの256次元表現を学習し、そして、デコーダは、これらの256次元の表現を使用することによって、改良された1025次元のマスクを再構成する。そうした改良器は、ターゲット歪みの少なくとも一部を修正することができ、さらに、残留ノイズの少なくとも一部を除去することができ、そして、可聴(audible)アーチファクトの少なくとも一部を軽減することができることが見い出されてきた。一般的に、知覚品質は、AEベースの改良器によって著しく改良されている。
【0056】
リカレントニューラルネットワークベースの改良器
いくつかのフレームベースの音声強調アルゴリズムの時間的な不連続性を考慮して、改良器は、分離器の複数の出力を使用する、RNNベースのアーキテクチャを使用して実装され得る。
【0057】
そうした実装に係る一つの例が図5に概略的に示されている。分離器は、例えば、AEベースの実装と同じであってよい。改良器520は、複数の連続した層を備えている。この例において、これらの層は、ゲート付き再帰ユニット(gated recurrent unit、GRU)/LSTM層である。分離器520は、例えば、入力として8個のフレームを用いて、最初にトレーニングされていてよい。実行時には、32個のブロックが分離器に供給され、各ブロックは、8個のフレームおよび1個のフレームのフレームシフトを含んでいる(その結果、合計39個のフレームが分離器510に供給される)。分離器510は、32個のブロックを処理し、そして、それに応じて32個のフレームの結果を出力する。これらの32個のフレーム結果は、次いで、入力として改良器520へと供給される。GRU/LSTMベースの改良器520は、分離器の出力515において動作し、そして、音声品質および一貫性を改良するのに役立つ。GRU/LSTM出力層のノードは、最終結果を生成するように選択することができる。例えば、32個の履歴フレーム(history frames)に基づいて1個のフレーム出力を選択することができ、または、一度に32個のフレーム出力を生成するように選択することができる。
【0058】
一般的に、改良器のディープラーニングベースのモデル(および、同様に、第2ステップ)は、複数の連続した層を伴うリカレントニューラルネットワーク(recurrent neural network)アーキテクチャを実装することができる。ここにおいて、複数の層は、長期短期記憶(long short-term memory)タイプ、または、ゲート付き再帰ユニットタイプの層であってよい。
【0059】
生成モデル(generative model)ベースの改良器
マスクベースの方法は、しばしば、ノイズが多い音声において支配的な高調波成分を分離するために上手く機能するが、ノイズによってマスクされた/劣化した、音声成分においては上手く機能しない場合があることが見い出されてきた。例えば、waveNetまたはSampleRNNといった、生成モデルを使用することにより、これらの失われた音声成分を再構築することができるだろう。
【0060】
生成モデルを使用する改良器の実装に係る一つの例が、図6に概略的に示されている。この例では、分離器の出力615を波形ドメインに変換するために、必要に応じて、変換器630(または、ISTFT)が任意的に追加される。改良器620は、次いで、1-D畳み込み層660が後に続く、スキップ接続645を伴う一連の1-D拡張畳み込み層(1-D dilated convolutionally layers)640を使用して、修正されたオーディオ信号625(例えば、修正されたダイアログ信号)を生成する。それは、分離器によって引き起こされた劣化した音声成分を回復することができ、そして、また、分離器によって除去することができない残留ノイズを除去するのを助けることもできる。
【0061】
一般的に、改良器のディープラーニングベースのモデル(および、同様に、第2ステップ)は、複数の連続した畳み込み層を有する生成モデルアーキテクチャを実装することができる。ここにおいて、畳み込み層は、任意的に1つ以上のスキップ接続を含んでいる、拡張畳み込み層であってよい。
【0062】
トレーニング戦略(Training Strategy)
本開示は、本明細書で説明されている分離器-改良器フレームワークのための2つの代替的なトレーニング戦略を提案する。ここにおいて、分離器および改良器は、それぞれ、ディープラーニングベースのモデルを備えるか、または、実装していること、および、分離器/改良器をトレーニングすることは、それぞれのディープラーニングベースのモデルをトレーニングすることに対応することが、仮定されている。
【0063】
第1トレーニング戦略は、2ステージトレーニング戦略である。第1トレーニングステージでは、分離器がトレーニングされ、そして、その対応する損失が、バックプロパゲーション(back propagation)を介して最適化される。一旦、分離器がトレーニングされると、その全てのパラメータが固定され(すなわち、トレーニング不可能であり)、そして、トレーニングされた分離器の出力が改良器へと供給される。第2トレーニングステージでは、改良器のパラメータのみがトレーニングされ、そして、改良器の損失関数(loss function)がバックプロパゲーションを介して最適化される。かくして、フレームワーク全体を、モデル全体として使用することができ、一方で、分離器および改良器は、2つのトレーニングステージで別々にトレーニングされる。別の言葉で言えば、改良器は、分離器のためのディープラーニングベースのカスタマイズされた後処理(post-processing)ブロックとみなすことができ、それは、一般的に、分離器の性能を改善することができる。
【0064】
第2トレーニング戦略に従って、分離器および改良器を同時に(すなわち、一斉に)トレーニングすることができる。そうする際の課題および重要な問題は、分離器および改良器それぞれが、それぞれ自分自身の機能を実行すること、すなわち、分離器は音声信号を抽出することが期待され、かつ、改良器は分離器の性能を改良することが期待されていること、を保証することであり得る。この目標を達成するために、「制約付き(“constrained”)」トレーニング戦略が提案されており、そこでは、トレーニングのために使用される損失関数が、改良器の最終出力だけでなく、分離器の中間出力も、また、考慮する。トレーニングのために使用される損失関数は、(対応する処理方法の第1ステップおよび第2ステップにおいてそれぞれに適用される)分離器のディープラーニングベースのモデルおよび改良器のディープラーニングモデルの両方について、共通の損失関数であり得る。すなわち、損失関数は、適切な基準データに加えて、分離器の出力および改良器の出力の両方に基づいている。分離器損失および改良器損失の両方を考慮することによって、分離器は、ダイアログ分離(または、任意の所望の、一般的なオーディオ処理機能)に向けてトレーニングすることができ、そして、分離器の出力も、また、最終目標に向けて収束するので、改良器の収束が改善される。
【0065】
方法の拡張
次に、前述の装置および方法の一般化、拡張、および修正について説明する。
【0066】
複数の分離器
多数の教師あり音声強調アルゴリズムが過去に開発されてきており、それぞれが、それ自体の利点および欠点を有している。例えば、いくつかの方法は、定常ノイズに対して良好に機能することができ、一方で、他の方法は、非定常ノイズに対して良好に機能することができる。音声強調の1つのモデルのみを用いて全ての使用事例について理想的な性能を達成することは困難である。従って、本開示は、図7に概略的に示されるように、手近なフレームワークにおいて複数のエンハンサ(すなわち、分離器)を組み合わせることを提案する。この実装におけるシステム700は、複数の分離器710-1、…、710-Mを備え、出力output_s1,715-1からoutput_sM,715-Mまでをそれぞれ生成する。改良器720は、これらの出力を受信し、そして、「マネージャ(“manager”)」として働き、そして、分離器710-1、…、710-Mの出力715-1、715-2、…、715-Mを比較し、かつ、統合することによって、その性能を微調整することができる。最終的に、改良器720は、トレーニングの最中に学習された多対一マッピングに基づいて、全ての分離器710-1、…、710-Mの出力715-1、715-2、…、715-Mを再構築し、そして、重み付けすることによって、集約出力725を獲得することができる。
【0067】
一般的に、オーディオ処理に係る上記の方法は、さらに、オーディオ信号の第1成分に強調を適用し、かつ/あるいは、第1成分に対してオーディオ信号の第2成分に抑制を適用するための1つ以上の追加の第1ステップ、を含むことができる。ここで、上述した第1ステップ、および、1つ以上の追加の第1ステップは、相互に(例えば、ペアごとに)異なる出力を生成する。例えば、これらのステップは、オーディオ処理(例えば、音声強調)の異なるモデル、及び/又は、異なるモデルパラメータを使用することができる。次いで、第2ステップは、第1ステップの出力に加えて、1つ以上の追加的な第1ステップそれぞれに係るそれぞれの出力を受信し、そして、オーディオ信号の第1成分を知覚的に改善するために、そのディープラーニングベースのモデルを、第1ステップの出力および1つ以上の追加的な第1ステップの出力に対して緒に適用する。第2ステップは、とりわけ、例えば、重み付け及び/又は選択を、第1ステップおよび1つ以上の追加的な第1ステップの出力に対して適用することができる。これらの考察は、分離器および改良器に加えて、1つ以上の追加的な分離器を含む、装置(例えば、システムまたはデバイス)に対して同様に適用されることが理解される。
【0068】
ディープラーニングベースの改良器を用いた従来の音声強調
分離器および改良器を備えるディープラーニングモデル構造が、上記で提案されてきている。従来の(例えば、ディープラーニングベースではない)音声強調アルゴリズムは、ディープラーニングモデルの中へ直接的に埋め込むことはできない。従来の方法によって導入されるアーチファクトに対してロバストである、音声エンハンサ(speech enhancer)を導出するために、本開示は、図8に示されるように、修正されたフレームワークを提案する。このフレームワークは、ディープラーニングベースの改良器と一緒に従来の音声強調アルゴリズムを含んでいる。
【0069】
図 8から分かるように、提案されたフレームワークにおける分離器として従来の方法の使用を可能にするために、新しいトレーニング戦略が修復され得る。具体的には、異なる従来の音声強調アルゴリズムの1つまたはセットを使用することができ、そして、トレーニングセット850における複数の雑音信号それぞれを、これらのアルゴリズムそれぞれによる処理(例えば、分離器810)のための入力805として使用することができる。その後で、新しい包括的なトレーニングセット855を形成するために、強調された音声信号815、並びに、元の未処理の雑音の多い音声信号が収集され、次いで、ディープラーニングベースの改良器820をトレーニングするために使用されて、出力825を生成する。ここで、未処理の雑音信号およびその複数の強調バージョンは、同じターゲット音声信号に対応する。別の言葉で言えば、改良器820は、多対一マッピングを学習する傾向がある。一つの実装として、従来の方法は、例えば、スペクトル減算、または、事前SNR推定(priori SNR estimation)、等に基づくウィーナフィルタ(Wiener filter)であり得る。
【0070】
インテリジェントバンディングに使用される改良器
別の観点から、上述した自動エンコーダベースの改良は、また、バンディング(banding)およびデバンディング(de-banding)処理に関連するものと考えることもできる。典型的な信号処理アルゴリズムでは、より多くのT-F特性が、より高いバンド数(band number)に対して保持されるが、処理の複雑性を低減するために、依然としてバンディングが必要とされ得る。しかしながら、従来のバンディングアルゴリズム(例えば、オクターブバンド、1/3オクターブバンド、等)を使用するときに、限られたバンドを使用することによって許容可能な性能を達成することができない多くの場合が存在している。さらには、複雑性と精度との間の良好なトレードオフを達成するために、どのバンド数が使用されるべきかを事前に評価することは困難である。
【0071】
第1問題に関して、自動バンディング方式を実装するために、前述の自動エンコーダベースの改良が使用され得る。対応するフレームワークが、図9に概略的に示されている。かくして、改良器は、2つの部分へと分割される。入力905(例えば、入力オーディオ信号)を受信して、それを自動的にバンディングするための第1部分(前方)920-1、および、自動的にデバンディングするための第2部分(後方)920-2である。分割以外に、自動エンコーダベースの改良器について上述したのと同じ考察が、また、ここでも適用される。すなわち、前方改良器920-1は、最終的に潜在空間表現935(コード)にマッピングする、連続的に減少しているノード数を伴う複数の連続した層930(例えば、DNN層)を含んでよく、そして、後方改良器920-2も、また、連続的に増加しているノード数を伴う複数の連続した層940(例えば、DNN層)を含み得る。例えば、前方改良器および後方改良器920-1、920-2は、同じ数の層を有してよく、前方改良器920-1の最外層は、後方改良器920-2の最外層と同じ数のノードを有してよく、前方改良器920-1の最外層の次の層は、後方改良器920-2の最外層の次の層と同じ数のノードを有してよく、そして、それぞれの最内層まで、同様である。分離器910は、ノイズ除去された帯域特徴を獲得するために、前方改良器によって学習されたインテリジェント帯域特徴に基づいてトレーニングされ得る。次いで、ノイズ除去された帯域特徴(すなわち、潜在空間表現945)は、デバンディング処理のためにバック改良器へと供給され、それは、最終的にビンベース(bin-based)の出力925をもたらす。
【0072】
第2問題に関して、フロント改良器におけるコード(例えば、潜在表現)の次元(すなわち、フロント改良器による出力)は、最も適切なバンド数を決定するために修正され得る。潜在表現の次元を修正することによって、異なるバンド数に対する性能を評価することができる。従って、最も適切なバンド数は、複雑性と精度との間の良好なトレードオフを提供するように選択され得る。
【0073】
一つの例示的な実装として、一連のDNN層(例えば、それぞれに、512ノードおよび256ノードを有する)は、前方改良器920-1が、1025ポイントのスペクトル振幅(50%オーバーラップで2048ポイントSTFTによって獲得されたもの)をグループ化し、そして、256次元のバンド特徴を獲得するために使用することができる。後方改良器920-2については、前方改良器920-1と比較して、逆のノード番号割り当てを有するDNN層(例えば、それぞれに、256ノードおよび512ノード)を使用することができる。後方改良器920-2は、最終的に、分離器の出力(例えば、ノイズ除去されたバンド特徴)に基づいて、ビンベースの出力(例えば、ビンベースのマスク)を再構成する。
【0074】
一般的に、例えば、図10における方法1000から開始して、オーディオ処理に係る前述の方法は、さらに、オーディオ信号をバンディングするために、ディープラーニングベースのモデルを、オーディオ信号に適用する第3ステップを含み得る。第3ステップは、第1ステップの前に実行されるべきであり、その結果、ステップの順序は、第3ステップ-第1ステップ-第2ステップである。第2ステップは、第1ステップの出力をデバンディングすることによって第1ステップの出力を修正する。この構成において、第3ステップおよび第2ステップは、バンディングおよびデバンディングのための自動エンコーダ構造を実装している。それらは、単一のディープラーニングベースのモデルに基づいていると言うことができ、または、代替的に、それらのディープラーニングベースのモデルが共同でトレーニングされていると言うことができる。上述のように、第2ステップおよび第3ステップは、それぞれに、連続的に増加し、そして、減少しているノード数を有する複数の連続した層を、それぞれ実装することができる。
【0075】
上記に沿って、インテリジェントバンディングを使用する、オーディオ処理(例えば、音声強調といった、オーディオ強調)の方法1100に係る一つの例が、図11のフローチャートに概略的に示されている。方法1100は、例えば、音声強調の方法であってよい。それは、ステップS1110からS1130までを含んでいる。
【0076】
ステップS1110においては、ディープラーニングベースのモデルが、オーディオ信号をバンディングするために、オーディオ信号に適用される。
【0077】
ステップS1120においては、強調(enhancement)が、バンド化(banded)されたオーディオ信号の第1成分に適用され、かつ/あるいは、第1成分に対する抑制が、第1成分に対するバンド化されたオーディオ信号の第2成分に適用される。
【0078】
ステップS1130においては、強調ステップの出力をデバンディングするため、および、オーディオ信号の第1成分を知覚的に改良するために、ディープラーニングベースのモデルを、強調ステップの出力に適用することによって、強調ステップの出力が修正される。
【0079】
オーディオ処理の方法に対する上記の一般的な考慮は、オーディオ処理のための装置(例えば、システムまたはデバイス)に対して、同様に適用されることが理解される。
【0080】
一般的な2ステージニューラルネットワークへの一般化
上記で説明したように、オーディオ処理のための提案されたフレームワークにおける第2ステージは、アーチファクトを除去し、かつ、音声歪みを修正するための改良器であり得る。しかしながら、第2ステージは、また、例えば、音声アクティビティ検出器(voice activity detector、VAD)を実装するといった、他の機能を有することもできる。VADアルゴリズムを例にとると、全ての既知のVADアルゴリズムは、強いノズルが存在するときには、精度が劣化し得る。それは、様々な雑音タイプの存在下で、これらのアルゴリズムがロバストな性能を示すため、及び/又は、一般的に低いSNRのためには、非常にチャレンジ(challenging)である。提案されたフレームワークを用いて、分離器は、混合(すなわち、入力オーディオ信号)をノイズ除去するために使用することができ、そして、改良器は、VADを実行するために使用することができる。そうしたVADシステムは、ノイズ除去を内部的に実行することができ、そして、従って、複雑な(例えば、雑音の多い)シナリオに対してよりロバストになる。
【0081】
従って、前述の改良器は、歪み、及び/又は、アーチファクト、等を除去することに加えて、または、その代替として、分離器の出力に対してディープラーニングベースのVADを実行する改良器によって置き換えられ得る。
【0082】
さらに、提案される2ステップ(two-step)トレーニング方式は、例えば、イコライザまたは明瞭度(intelligibility)メータといった、いくつかの他の音声強調ベースのアプリケーションに一般化することができる。分離器は、上記で説明したように、音声強調を実行して、バックグラウンドを除去することができ、そして、改良器は、特定の要件に基づいて、トレーニングされ得る。このことは、分離器の元の雑音のある入力のみを使用するときの結果と比較して、よりロバストで、かつ、より良好な結果を達成することができる。従って、分離器および改良器が、例えば、イコライザまたは明瞭度メータといった、所望の用途/動作を共同して達成するように、改良器は、具体的に適合させることができる。
【0083】
オーディオ処理チェーンにおけるマルチステージニューラルネットワークへの一般化
成熟したオーディオ信号処理技術チェーンは、典型的に、いくつかのモジュール(例えば、オーディオ処理モジュール)を含んでおり、それらのいくつかは、従来の信号処理方法を使用することができ、そして、それらのいくつかは、ディープラーニングに基づいてよい。これらのモジュールは、典型的には、所望の最終出力を得るために、直列にカスケード接続(cascaded)されている。提案されるフレームワークに基づいて、そうした信号処理チェーンにおける各モジュールまたはモジュールの一部は、大規模なディープラーニングベースのモデルの中へ埋め込まれ得る。トレーニングのとき、各モジュールは、順番に(すなわち、別々に、かつ、順番に)トレーニングされ得る。そして、その出力は、最後のモジュールトレーニングの終了まで、所望の結果を満足するように監督(supervised)され得る。モデル全体は、ディープラーニングに基づくオーディオ処理技術のチェーンになり、そして、モジュールは、モデルにおいて予想されるように協働する。
【0084】
ということで、本開示は、また、信号処理モジュール(例えば、オーディオ処理、オーディオ強調、等を実行するように適合されたもの)と、それに続く、信号処理モジュールの出力を改良するようにトレーニングされた、ディープラーニングベースの改良器の任意のペアリングにも関する。信号処理モジュールの出力を改良することは、アーチファクトを除去すること、歪みを除去すること、及び/又は、ノイズを除去することのうち1つ以上を含み得る。
【0085】
例示的なコンピューティングデバイス
オーディオ処理(例えば、音声強調)の方法が、上記で説明されてきた。加えて、本開示は、また、この方法を実行するための装置(例えば、システムまたはデバイス)にも関する。そうした装置の一つの例が図1に示されている。さらに、図10に示される方法1000に沿って、本開示に従ってオーディオ信号を処理するための装置は、第1ステージおよび第2ステージを備えると言うことができる。第1ステージおよび第2ステージは、ハードウェア及び/又はソフトウェアで実装され得る。第1ステージは、オーディオ信号の第1成分に強調を適用し、かつ/あるいは、オーディオ信号の第2成分に抑制を適用するために適合されている。第2ステージは、オーディオ信号の第1成分を知覚的に改良するために、ディープラーニングベースのモデルを第1ステージの出力に適用することによって、第1ステージの出力を修正するために適合されている。それ以外に、上記で行った考察のいずれかを、第1ステージおよび第2ステージに適用することができる。
【0086】
一般的に、本開示は、プロセッサ、および、プロセッサに結合されたメモリを備える装置に関する。ここで、プロセッサは、本明細書で説明される方法のステップを実行するように適合されている。例えば、プロセッサは、前述の第1ステージおよび第2ステージを実装するように適合され得る。
【0087】
これらの前述の装置(および、それらのステージ)は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットPC、セットトップボックス(STB)、携帯情報端末(PDA)、携帯電話、スマートフォン、ウェブアプライアンス、ネットワークルータ、スイッチまたはブリッジ、もしくは、その装置によって行われるべき動作を指定する命令を(連続的、またはそれ以外で)実行することが可能な任意の機械、によって実装され得る。さらに、図には単一の装置1400のみが示されているが、本開示は、本明細書で説明される方法のうち任意の1つ以上を実行するための命令を個別または共同で実行する装置の任意のコレクションに関するものである。
【0088】
本開示は、さらに、プロセッサによって実行されると、プロセッサに、本明細書に記載の方法に係るステップの一部または全部を実行させる、命令を含む、プログラム(例えば、コンピュータプログラム)に関する。
【0089】
さらにまた、本開示は、前述のプログラムを保管しているコンピュータ読み取り可能(または、機械読み取り可能)な記憶媒体に関する。ここで、「コンピュータ可読記憶媒体(“computer-readable storage medium”)」という用語は、これらに限定されるわけではないが、例えば、ソリッドステートメモリ、光媒体、および、磁気媒体の形態のデータリポジトリを含んでいる。
【0090】
解釈および追加的な構成考慮事項
本開示は、オーディオ処理の方法およびオーディオ処理のための装置(例えば、システムまたはデバイス)に関する。方法およびそれらのステップに関してなされた任意の記述は、同様に、かつ、類似して、対応する装置およびそれらのステージ/ブロック/ユニットに対して適用され、逆もまた同様であること、が理解される。
【0091】
特に明記しない限り、以下の説明から明らかなように、本開示全体を通して、「処理(“processing”)」、「コンピューティング(“computing”)」、「計算(“calculating”)」、「決定(“determining”)」、「分析(“analyzing”)」といった用語を利用している説明は、電子量などの、物理量として表されるデータを、物理量として同様に表される他のデータにへと操作し、かつ/あるいは、変換するコンピュータまたはコンピューティングシステム、もしくは、同様の電子コンピューティングデバイスの動作及び/又はプロセスを指すことが正しく理解される。
【0092】
同様に、「プロセッサ(“processor”)」という用語は、例えば、レジスタ及び/又はメモリからの電子データを処理して、その電子データを、例えば、レジスタ及び/又はメモリに保管され得る他の電子データに変換する、任意のデバイスまたはデバイスの部分を指すことができる。「コンピュータ」または「コンピューティングマシン」または「コンピューティングプラットフォーム」は、1つ以上のプロセッサを含み得る。
【0093】
本明細書で説明される方法は、一つの例示的な実施形態において、プロセッサのうち1つ以上によって実行されると、本明細書で説明される方法のうち少なくとも1つを実行する命令のセットを含んでいるコンピュータ可読(機械可読とも呼ばれる)コードを受け入れる、1つ以上のプロセッサによって実行可能である。取られるべき動作を指定する命令のセット(連続的、またはそれ以外)を実行することができる任意のプロセッサが含まれる。従って、一つの例は、1つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、および、プログラマブルDSPユニットのうち1つ以上を含み得る。処理システムは、さらに、メインRAM、及び/又はスタティックRAM、及び/又はROMを含いでいるメモリサブシステムを含み得る。バスサブシステムが、コンポーネント間で通信するために含まれ得る。処理システムは、さらに、ネットワークによって結合されたプロセッサを有する分散処理システムであってよい。処理システムがディスプレイを必要とする場合に、そうしたディスプレイは、例えば、液晶ディスプレイ(LCD)またはブラウン管(CRT)ディスプレイを含み得る。手動データ入力が必要とされる場合に、処理システムは、また、キーボードといった英数字入力ユニット、マウスといったポインティング制御デバイスのうち1つ以上といったもの、などの入力デバイスも含む。処理システムは、また、ディスクドライブユニットといったストレージシステムも包含し得る。いくつかの構成における処理システムは、サウンド出力デバイス、およびネットワークインターフェースデバイスを含み得る。従って、メモリサブシステムは、1つ以上のプロセッサによって実行されたときに、本明細書で説明される方法のうち1つ以上を実行させる命令のセットを含んでいるコンピュータ可読コード(例えば、ソフトウェア)を搬送する、コンピュータ可読キャリア媒体を含む。方法が、いくつかの要素、例えば、いくつかのステップを含むときには、具体的に述べられない限り、そうした要素の順序付けは暗示されていないことに留意すること。ソフトウェアは、ハードディスク内に存在してよく、そして、また、コンピュータシステムによる実行の最中にRAM内及び/又はプロセッサ内に、完全に、または、少なくとも部分的に存在してもよい。従って、メモリおよびプロセッサは、また、コンピュータ可読コードを搬送するコンピュータ可読キャリア媒体(computer readable carrier medium)も構成している。さらに、コンピュータ可読キャリア媒体は、コンピュータプログラム製品を形成してよく、または、コンピュータプログラム製品に含まれてよい。
【0094】
代替の例示的な実施形態において、1つ以上のプロセッサは、スタンドアロンデバイスとして動作するか、または、ネットワーク化された展開において、他のプロセッサに接続、例えば、ネットワーク化されてよく、1つ以上のプロセッサは、サーバ-ユーザネットワーク環境におけるサーバまたはユーザマシンの能力において、もしくは、ピアツーピア(peer-to-peer)または分散ネットワーク環境におけるピアマシンとして動作し得る。1つ以上のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、携帯情報端末(PDA)、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチまたはブリッジ、もしくは、その機械によって行われる動作を指定する命令のセット(連続的、またはそれ以外)を実行することができる任意の機械を形成し得る。
【0095】
「マシン(“machine”)」という用語は、また、本明細書で説明される方法のうち任意の1つ以上を実行するための命令セット(または、複数のセット)を、個別に、または、共同で実行するマシンの任意のコレクションを含むものと解釈されることに留意すること。
【0096】
従って、本明細書で説明される方法それぞれに係る一つの例示的な実施形態は、命令セット、例えば、1つ以上のプロセッサ、例えば、ウェブサーバ構成の一部である、1つ以上のプロセッサ上で実行するためのコンピュータプログラムを搬送する、コンピュータ可読キャリア媒体の形態である。従って、当業者によって理解されるように、本開示の例示的な実施形態は、方法、専用装置といった装置、データ処理システムといった装置、または、コンピュータ可読キャリア媒体、例えば、コンピュータプログラム製品として、具現化され得る。コンピュータ可読キャリア媒体は、1つ以上のプロセッサ上で実行されるときに、方法をプロセッサに実施させる、命令のセットを含んでいるコンピュータ可読コードを搬送する。従って、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、または、ソフトウェア態様およびハードウェア態様の組み合わせた例示的な実施形態に係る方式をとることができる。さらに、本開示は、媒体に具現化されたコンピュータ可読プログラムコードを搬送するキャリア媒体(例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品)の方式をとり得る。
【0097】
ソフトウェアは、さらに、ネットワークインターフェースデバイスを介してネットワーク上で送信または受信され得る。キャリア媒体は、例示的な実施形態において単一の媒体であるが、「キャリア媒体(“carrier medium”)」という用語は、1つ以上の命令セットを保管する、単一の媒体または複数の媒体(例えば、集中型または分散型データベース、及び/又は、関連するキャッシュおよびサーバ)を含むものと解釈されるべきである。「キャリア媒体」という用語は、また、プロセッサのうち1つ以上による実行のための命令のセットを保管し、エンコーディングし、または、搬送することが可能であり、かつ、本開示の方法のうち任意の1つ以上を、1つ以上のプロセッサに実行させる、任意の媒体を含むものと解釈される。キャリア媒体は、これらに限定されるわけではないが、不揮発性媒体、揮発性媒体、および、伝送媒体を含む、多くの形態をとることができる。不揮発性媒体は、例えば、光ディスク、磁気ディスク、および光磁気ディスクを含んでいる。揮発性媒体は、メインメモリといった、ダイナミックメモリを含んでいる。伝送媒体は、バスサブシステムを備えるワイヤを含む、同軸ケーブル、銅線、および光ファイバを含んでいる。伝送媒体は、また、電波および赤外線データ通信の最中に生成されるような、音波または光波の形態をとることもできる。例えば、「キャリア媒体」という用語は、従って、これらに限定されるわけではないが、ソリッドステートメモリ、光媒体および磁気媒体に具現化されたコンピュータ製品、少なくとも1つのプロセッサまたは1つもしくは複数のプロセッサによって検出可能な伝搬信号を担持しており、かつ、実行されると、方法を実装する命令セットを表している媒体、および、1つ以上のプロセッサのうち少なくとも1つのプロセッサによって検出可能な伝搬信号を担持しており、かつ、命令セットを表しているネットワーク内の伝送媒体、を含む。
【0098】
説明される方法のステップが、一つの例示的な実施形態においては、ストレージに保管された命令(コンピュータ可読コード)を実行する処理(例えば、コンピュータ)システムの適切なプロセッサによって実行されることが理解されるだろう。また、本開示は、任意の特定の実装形態またはプログラミング技法に限定されないこと、および、本開示は、本明細書で説明される機能を実装するための任意の適切な技法を使用して実装され得ることも理解されるだろう。本開示は、任意の特定のプログラミング言語またはオペレーティングシステムに限定されるものではない。
【0099】
本開示全体を通して、「一つの例示的な実施形態(“one example embodiment”)」、「いくつかの例示的な実施形態(“some example embodiment”)」、または「例示的な実施形態(“an example embodiment”)」への言及は、例示的な実施形態に関連して説明される特定の特徴、構造、または特性が、本開示の少なくとも1つの例示的な実施形態に含まれることを意味する。従って、本開示全体を通して様々な場所で「1つの例示的な実施形態において」、「いくつかの例示的な実施形態において」、または「ある例示的な実施形態において」という句が出現しても、必ずしも全てが同じ例示的な実施形態を指しているわけではない。さらに、特定の特徴、構造、または特性は、1つ以上の例示的な実施形態において、本開示から当業者にとって明らかであるように、任意の適切な方法で組み合わされてよい。
【0100】
本明細書で使用される場合、別段の指定がない限り、共通のオブジェクトを説明するための序数の形容詞「第1(“first”)」、「第2(“second”)」、「第3(“third”)」、等の使用は、同様のオブジェクトの異なるインスタンスが参照されていることを単に示しているだけであり、そのように説明されたオブジェクトが、時間的、空間的、ランク付けで、または、任意の他の方法において、所与の順序でなければならないことを暗示するように意図されたものではない。
【0101】
以下の特許請求の範囲(claims)、および、本明細書の説明において、含んでいる(comprising)、からなる(comprised of)、また、含む(which comprises)という用語のいずれか1つは、少なくとも後に続く要素/特徴を含むが、他のものを除外しないことを意味する、オープンタームである。従って、含んでいるという用語は、特許請求の範囲において使用される場合、その後に列挙される手段または要素またはステップに限定するものとして解釈されるべきではない。例えば、AおよびB(A and B)を含んでいるデバイスという表現の範囲は、要素AおよびBのみからなるデバイスに限定されるべきではない。本明細書で使用されるように、含んでいる(including)、または、含む(which includes)、もしくは、含む(that includes)という用語のいずれか1つは、少なくともその用語の後に続く要素/特徴を含むが、他のものを除外しないことも意味する、オープンタームでもある。従って、含む(including)は、含む(comprising)と同義であり、含む(comprising)を意味する。
【0102】
本開示の例示的な実施形態に係る上記の説明においては、本開示の様々な特徴が、本開示を合理化し、様々な発明の態様のうちの1つ以上の理解を助ける目的で、単一の例示的な実施形態、図、または、その説明において一緒にグループ化され得ることが理解されるべきである。開示に係るこの方法は、しかしながら、特許請求の範囲が、各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映しているものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、発明の態様は、単一の前述の開示された例示的な実施形態に係る全ての特徴よりも少ない特徴にある。従って、明細書の後に続く特許請求の範囲は、本明細書の中に明示的に組み込まれており、各請求項は、本開示の別個の例示的な実施形態として独立している。
【0103】
さらに、本明細書で説明されるいくつかの例示的な実施形態は、いくつかの、他の例示的な実施形態に含まれる他の特徴ではない特徴を含むが、当業者によって理解されるように、異なる例示的な実施形態の特徴の組合せは、本開示の範囲内にあることが意図されており、かつ、異なる例示的な実施形態を形成する。例えば、以下の特許請求の範囲において、請求される例示的な実施形態のいずれも、任意の組み合わせで使用することができる。
【0104】
本明細書で提供される説明においては、多数の具体的な詳細が説明されている。しかしながら、本開示の例示的な実施形態は、これらの具体的な詳細なしに実施され得ることが理解される。他のインスタンスでは、この説明の理解を不明瞭にしないために、周知の方法、構造、および技法は、詳細に示されてきていない。
【0105】
従って、本開示のベストモードであると考えられるものについて説明してきたが、当業者であれば、本開示の趣旨から逸脱することなく、それに対して他の、および、さらなる修正を行うことができること、および、本開示の範囲内に入る全てのそうした変更および修正を特許請求することが意図されていることを認識するだろう。例えば、上記で与えられた任意の式は、使用され得るプロシージャの単なる代表に過ぎない。機能は、ブロック図に追加され、または、削除されてよく、そして、動作は、機能ブロック間で交換されてもよい。ステップは、本開示の範囲内で説明される方法に追加され、または、削除されてもよい。
【0106】
本発明の様々な態様は、以下に列挙される例示的な実施形態(EEE)から理解され得る。
【0107】
EEE1. オーディオ信号を処理する方法であって、
第1ステップであり、
前記オーディオ信号の第1成分に強調を適用し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の第2成分に抑制を適用する、
第1ステップと、
前記第1ステップの出力にディープラーニングベースのモデルを適用することによって、前記第1ステップの出力を修正する第2ステップであり、
前記第1ステップによって前記オーディオ信号に導入されたアーチファクト及び/又は歪みを除去し、かつ、前記オーディオ信号の前記第1成分を知覚的に改良する、
第2ステップと、を含む、方法。
【0108】
EEE2. 前記第1ステップは、前記オーディオ信号に音声強調を適用するステップである、EEE1に記載の方法。
【0109】
EEE3. 第1ステップの出力は、波形ドメインのオーディオ信号であり、
前記第1成分が強調され、かつ/あるいは、前記第1成分に対して前記第2成分が抑制されている、EEE1または2に記載の方法。
【0110】
EEE4. 前記第1ステップの出力は、個々のビンまたは帯域について重み付け係数を示している変換ドメインのマスクであり、かつ、
前記オーディオ信号に前記マスクを適用することは、前記第1成分の強調、及び/又は、前記第1成分に対して前記第2成分の抑制を結果として生じる、 EEE1または2に記載の方法。
【0111】
EEE5. 第2ステップは、前記第1ステップの出力に係る複数のインスタンスを受信し、
前記インスタンスそれぞれは、前記オーディオ信号に係る複数のフレームのそれぞれ1つに対応し、かつ、
前記第2ステップは、前記出力に係る複数のインスタンスに機械学習ベースのモデルを一緒に適用し、前記オーディオ信号に係る複数のフレームのうちの1つ以上において前記オーディオ信号の前記第1成分を知覚的に改良する、EEE1乃至4いずれか1つに記載の方法。
【0112】
EEE6. 前記第2ステップは、前記オーディオ信号の所与のフレームについて、前記第1ステップの出力のインスタンスのシーケンスを受信し、
前記インスタンスそれぞれは、前記オーディオ信号のフレームのシーケンス内のそれぞれ1つに対応しており、
前記フレームのシーケンスは、前記所与のフレームを含み、かつ、
前記第2ステップは、前記所与のフレームにおける前記オーディオ信号の前記第1成分を知覚的に改良するために、前記出力のインスタンスのシーケンスに前記機械学習ベースのモデルを一緒に適用する、EEE1乃至5いずれか1つに記載の方法。
【0113】
EEE7. 前記第2ステップの前記ディープラーニングベースのモデルは、エンコーダステージおよびデコーダステージを有する自動エンコーダアーキテクチャを実装し、
各ステージは、それぞれの複数の連続したフィルタ層を備え、
前記エンコーダステージは、前記エンコーダステージへの入力を、潜在空間表現にマッピングし、かつ、
前記デコーダステージは、前記エンコーダステージによって出力された前記潜在空間表現を、前記エンコーダステージへの前記入力と同じフォーマットを有する前記デコーダステージの出力にマッピングする、 EEE1乃至6いずれか1つに記載の方法。
【0114】
EEE8. 前記第2ステップの前記ディープラーニングベースのモデルは、複数の連続した層を有するリカレントニューラルネットワークアーキテクチャを実装し、
前記複数の層は、長短期記憶タイプ、または、ゲート付き再帰ユニットタイプの層である、EEE1乃至6いずれか1つに記載の方法。
【0115】
EEE9. 前記ディープラーニングベースのモデルは、複数の連続した畳み込み層を有する生成モデルアーキテクチャを実装する、EEE1乃至6いずれか1つに記載の方法。
【0116】
EEE10. 前記畳み込み層は、拡張畳み込み層であり、任意的に、スキップ接続を含んでいる、EEE9に記載の方法。
【0117】
EEE11. 前記方法は、さらに、
前記オーディオ信号の前記第1成分に強調を適用し、かつ/あるいは、前記オーディオ信号の前記第2成分に抑制を適用するための、1つ以上の追加的な第1ステップを含み、
前記第1ステップ、および、前記1つ以上の追加的な第1ステップは、相互に異なる出力を生成し、
前記第2ステップは、前記第1ステップの前記出力に加えて、前記1つ以上の追加の第1ステップそれぞれの出力を受信し、かつ、
前記第2ステップは、前記オーディオ信号の前記第1成分を知覚的に改良するために、前記ディープラーニングベースのモデルを、前記第1ステップの前記出力、および、前記1つ以上の追加の第1ステップの前記出力に一緒に適用する、EEE1乃至10いずれか1つに記載の方法。
【0118】
EEE12. 前記方法は、さらに、
前記第1ステップへの入力の以前に前記オーディオ信号をバンディングするために、ディープラーニングベースのモデルを、前記オーディオ信号に適用する第3ステップ、を含み、
前記第2ステップは、前記第1ステップの前記出力をデバンディングすることによって、前記第1ステップの前記出力を修正し、かつ、
前記第2ステップおよび前記第3ステップの前記ディープラーニングベースのモデルは、一緒にトレーニングされる、EEE1乃至11いずれか1つに記載の方法。
【0119】
EEE13. 前記第2ステップおよび前記第3ステップは、それぞれに、連続的に増加および減少するノード数をそれぞれ有する複数の連続した層を実装する、EEE12に記載の方法。
【0120】
EEE14. 前記第1ステップは、前記オーディオ信号の前記第1成分を強調し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の前記第2成分を抑制するために、ディープラーニングベースのモデルを適用する、
EEE1乃至13いずれか1つに記載の方法。
【0121】
EEE15. オーディオ信号を処理するための装置であって、
第1ステージであり、
前記オーディオ信号の第1成分に強調を適用し、かつ/あるいは、前記第1成分に対して前記オーディオ信号の第2成分に抑制を適用する、
第1ステージと、
前記第1ステージの出力にディープラーニングベースのモデルを適用することによって、前記第1ステージの出力を修正する第2ステージであり、
前記第1ステージによって前記オーディオ信号に導入されたアーチファクト及び/又は歪みを除去し、かつ、前記オーディオ信号の前記第1成分を知覚的に改良する、
第2ステージと、を含む、装置。
【0122】
EEE16. プロセッサ、および、前記プロセッサに接続されたメモリを含む装置であって、
前記プロセッサは、EEE1乃至14いずれか1つに記載の方法に係るステップを実行するように適合されている、装置。
【0123】
EEE17. 命令を含むコンピュータプログラムであって、
コンピューティングデバイスによって実行されると、コンピューティングデバイスに、EEE1乃至14いずれか1つに記載の方法に係るステップを実行させる、コンピュータプログラム。
【0124】
EEE18. EEE17に記載のコンピュータプログラムを保管している、コンピュータ読み取り可能な記憶媒体。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11