IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ウィングナット フィルムズ プロダクションズ リミテッドの特許一覧

特表2024-540239オーディオ源分離処理ワークフローシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-31
(54)【発明の名称】オーディオ源分離処理ワークフローシステムおよび方法
(51)【国際特許分類】
   G10L 21/0272 20130101AFI20241024BHJP
   G10L 25/30 20130101ALI20241024BHJP
【FI】
G10L21/0272 100Z
G10L25/30
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024525928
(86)(22)【出願日】2022-10-27
(85)【翻訳文提出日】2024-06-18
(86)【国際出願番号】 IB2022060320
(87)【国際公開番号】W WO2023073596
(87)【国際公開日】2023-05-04
(31)【優先権主張番号】63/272,650
(32)【優先日】2021-10-27
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/848,341
(32)【優先日】2022-06-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524161531
【氏名又は名称】ウィングナット フィルムズ プロダクションズ リミテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】ド ラ レイ, エミール
(72)【発明者】
【氏名】スマラグディス, パリス
(57)【要約】
システムおよび方法は、複数の源から発生されたオーディオ信号の混合物を有する、単一トラックオーディオ入力ストリームを受信するステップと、少なくとも部分的に、受信された単一トラックオーディオ入力ストリームを使用して、オーディオ源分離モデルを訓練するステップと、1つまたはそれを上回る処理レシピに従って、オーディオ入力ストリームから、オーディオ源分離モデルを使用して、オーディオ源を分離し、複数の源分離出力ステムを発生させるステップとを含む。オーディオ分離モデルは、単一トラックオーディオ入力ストリームを受信し、複数の源の1つまたはそれを上回るオーディオ源に対応する複数のオーディオステムを発生させるように訓練される。
【特許請求の範囲】
【請求項1】
方法であって、
複数の源から発生されたオーディオ信号の混合物を備える単一トラックオーディオ入力ストリームを受信することと、
少なくとも部分的に、前記受信された単一トラックオーディオ入力ストリームを使用して、オーディオ源分離モデルを訓練することであって、オーディオ分離モデルは、前記単一トラックオーディオ入力ストリームを受信し、前記複数の源の1つまたはそれを上回るオーディオ源に対応する複数のオーディオステムを発生させるように訓練される、ことと、
1つまたはそれを上回る処理レシピに従って、前記オーディオ入力ストリームから、前記オーディオ源分離モデルを使用して、オーディオ源を分離し、複数の源分離出力ステムを発生させることと
を含む、方法。
【請求項2】
前記1つまたはそれを上回る処理レシピは、複数の処理ブランチを備え、各処理ブランチは、1つまたはそれを上回るオーディオステムを出力するように訓練される、請求項1に記載の方法。
【請求項3】
前記処理ブランチのそれぞれはさらに、第1の処理ブランチ上に前記1つまたはそれを上回るオーディオステムを、第2の処理ブランチ上に残りの補完信号混合物を出力するように構成される、請求項2に記載の方法。
【請求項4】
前記オーディオ源分離モデルは、複数のニューラルネットワークを備え、各ニューラルネットワークは、前記単一トラックオーディオ入力ストリーム内の前記オーディオ信号の混合物から少なくとも1つの源に対応するオーディオ信号を分離するように訓練され、
前記複数のニューラルネットワークは、窓関数を適用するように構成され、
前記複数の訓練されたニューラルネットワークは、重複加算プロセスを実施し、バンディングアーチファクトを平滑化するように構成され、および/または、
前記複数のニューラルネットワークは、マスクを適用することなく、源分離を実施するように構成される、
請求項1-3のいずれか1項に記載の方法。
【請求項5】
前記オーディオ源分離モデルを訓練することはさらに、
複数の標識化された発話サンプルおよび/または複数の標識化された音楽および/または雑音データサンプルを備える訓練データセットを使用して、前記オーディオ源分離モデルを訓練することと、
前記訓練されたオーディオ源分離モデルを通して前記単一トラックオーディオ入力ストリームを処理し、前記複数の源分離出力ステムを発生させることと、
前記源分離出力ステムのうちの1つまたはそれを上回るものを含むように前記訓練データセットを更新することと、
前記更新された訓練データセットを使用して、前記オーディオ源分離モデルを再訓練することと
を含む、請求項1-4のいずれか1項に記載の方法。
【請求項6】
前記オーディオ源分離モデルを訓練することは、前記訓練データセットを繰り返し更新し、前記訓練されたオーディオ源分離モデルから発生された前記源分離出力ステムのうちの1つまたはそれを上回るものを使用して、前記オーディオ源分離モデルを再訓練する自己反復訓練プロセスを含む、請求項5に記載の方法。
【請求項7】
前記源分離出力ステムを後処理し、クリック音、高調波歪み、ゴースト発生、および/または広帯域雑音を含む源分離の間に導入されたアーチファクトを除去することをさらに含む、請求項1-6のいずれか1項に記載の方法。
【請求項8】
1つまたはそれを上回る処理レシピに従って、前記単一トラックオーディオ入力ストリームから、前記オーディオ源分離モデルを使用して、オーディオ源を分離し、複数の源分離出力ステムを発生させることは、
前記処理ブランチのうちの1つまたはそれを上回るものを使用して、分離されたオーディオ源を出力し、残りの補完信号混合物を出力するように構成される訓練されたニューラルネットワークを通して、前記単一トラックオーディオ入力ストリーム、分離されたオーディオ源、および/または補完信号混合物を処理すること
を含む、請求項2に記載の方法。
【請求項9】
前記オーディオ源分離モデルを訓練することは、
訓練プロセスを通して、源信号および残りの補完信号の1つまたはそれを上回るクラスを出力するようにニューラルネットワークを訓練すること
を含み、前記訓練プロセスは、
第1のオーディオサンプルレートにおいて第1のニューラルネットワークを訓練することと、
前記第1のサンプルレートよりも高い第2のオーディオサンプルレートにおいて第2のニューラルネットワークを訓練することであって、前記第2のニューラルネットワークは、前記第1のニューラルネットワークから継承された層および関連付けられるパラメータと、少なくとも1つの未訓練層とを含み、前記第2のニューラルネットワークを訓練することは、
前記第1のニューラルネットワークから継承された前記パラメータが固定されたままである間、前記少なくとも1つの未訓練層からのパラメータを訓練することと、
前記第1のニューラルネットワークから継承されたパラメータおよび前記少なくとも1つの未訓練層からの前記パラメータを微調整するように前記第2のニューラルネットワークを再訓練することと
を含む、ことと
を含む、請求項1-8のいずれか1項に記載の方法。
【請求項10】
前記オーディオ源分離モデルを訓練することは、第1のオーディオサンプルレートにおいて前記オーディオ源分離モデルを訓練することと、前記オーディオ源分離モデルを前記第1のオーディオサンプルレートよりも高い第2のオーディオサンプルレートにアップスケーリングすることとを含む、請求項1-8のいずれか1項に記載の方法。
【請求項11】
前記オーディオ源分離モデルを訓練することは、ユーザが、前記複数のオーディオステムのうちの1つまたはそれを上回るものを評価し、前記オーディオ源分離モデルを再訓練するために前記複数のオーディオステムのうちの1つまたはそれを上回るものを訓練データセットに追加し、前記オーディオ源分離モデルを再訓練するために1つまたはそれを上回るオーディオサンプルを前記訓練データセットに追加し、および/または源分離結果を微調整するために1つまたはそれを上回るハイパーパラメータを追加調節することによって、前記オーディオ源分離モデルを微調整する、ユーザ誘導微調整プロセスを含む、請求項1-4のいずれか1項に記載の方法。
【請求項12】
システムであって、
機械可読命令を記憶するメモリコンポーネントと、
論理デバイスであって、前記論理デバイスは、前記機械可読命令を実行すると、
複数の源から発生されたオーディオ信号の混合物を備える単一トラックオーディオ入力ストリームを受信することと、
少なくとも部分的に、前記受信された単一トラックオーディオ入力ストリームを使用して、オーディオ源分離モデルを訓練することであって、前記オーディオ分離モデルは、前記単一トラックオーディオ入力ストリームを受信し、前記複数の源の1つまたはそれを上回るオーディオ源に対応する複数のオーディオステムを発生させるように訓練される、ことと、
1つまたはそれを上回る処理レシピに従って、前記単一トラックオーディオ入力ストリームから、前記オーディオ源分離モデルを使用して、オーディオ源を分離し、複数の源分離出力ステムを発生させることと
を行うように構成される、論理デバイスと
を備える、システム。
【請求項13】
前記1つまたはそれを上回る処理レシピは、第1の処理ブランチ上に前記1つまたはそれを上回るオーディオステムを、第2のブランチ上に残りの補完信号混合物を出力するように構成される複数の処理ブランチを備える、請求項12に記載のシステム。
【請求項14】
前記オーディオ源分離モデルは、複数のニューラルネットワークを備え、各ニューラルネットワークは、前記単一トラックオーディオ入力ストリーム内の前記オーディオ信号の混合物から少なくとも1つの源に対応するオーディオ信号を分離するように訓練され、
前記複数のニューラルネットワークは、窓関数を適用するように構成され、
前記複数の訓練されたニューラルネットワークは、重複加算プロセスを実施し、バンディングアーチファクトを平滑化するように構成され、および/または、
前記複数のニューラルネットワークは、マスクを適用することなく、源分離を実施するように構成される、
請求項12または請求項13に記載のシステム。
【請求項15】
前記論理デバイスはさらに、
複数の標識化された発話サンプルおよび/または複数の標識化された音楽および/または雑音データサンプルを備える訓練データセットを使用して、前記オーディオ源分離モデルを訓練することと、
前記訓練されたオーディオ源分離モデルを通して前記単一トラックオーディオ入力ストリームを処理し、前記複数の源分離出力ステムを発生させることと、
前記源分離出力ステムのうちの1つまたはそれを上回るものを含むように前記訓練データセットを更新することと、
前記更新された訓練データセットを使用して、前記オーディオ源分離モデルを再訓練することと
によって、前記オーディオ源分離モデルを訓練するように構成される、請求項12-14のいずれか1項に記載のシステム。
【請求項16】
前記論理デバイスはさらに、前記訓練データセットを繰り返し更新し、前記訓練されたオーディオ源分離モデルから発生された前記源分離出力ステムのうちの1つまたはそれを上回るものを使用して、前記オーディオ源分離モデルを再訓練する自己反復訓練プロセスを実装することによって、前記オーディオ源分離モデルを訓練するように構成される、請求項15に記載のシステム。
【請求項17】
前記論理デバイスはさらに、前記源分離出力ステムを後処理し、クリック音、高調波歪み、ゴースト発生、および/または広帯域雑音を含む源分離の間に導入されたアーチファクトを除去するように構成される、請求項12-16のいずれか1項に記載のシステム。
【請求項18】
前記処理ブランチはそれぞれ、分離されたオーディオ源および残りの補完信号混合物を出力するように構成される訓練されたニューラルネットワークを通して、前記単一トラックオーディオ入力ストリーム、分離されたオーディオ源、および/または補完信号混合物を処理するように構成される、請求項13に記載のシステム。
【請求項19】
前記論理デバイスはさらに、
訓練プロセスを通して、源信号および残りの補完信号の1つまたはそれを上回るクラスを出力するようにニューラルネットワークを訓練すること
によって、前記オーディオ源分離モデルを訓練するように構成され、前記訓練プロセスは、
第1のオーディオサンプルレートにおいて第1のニューラルネットワークを訓練することと、
前記第1のサンプルレートよりも高い第2のオーディオサンプルレートにおいて第2のニューラルネットワークを訓練することであって、前記第2のニューラルネットワークは、前記第1のニューラルネットワークから継承された層および関連付けられるパラメータと、少なくとも1つの未訓練層とを含み、前記第2のニューラルネットワークを訓練することは、
前記第1のニューラルネットワークから継承された前記パラメータが固定されたままである間、前記少なくとも1つの未訓練層からのパラメータを訓練することと、
前記第1のニューラルネットワークから継承されたパラメータおよび前記少なくとも1つの未訓練層からの前記パラメータを微調整するように前記第2のニューラルネットワークを再訓練することと
を含む、ことと
を含む、請求項12-18のいずれか1項に記載のシステム。
【請求項20】
前記論理デバイスはさらに、ユーザが、前記複数のオーディオステムのうちの1つまたはそれを上回るものを評価し、前記オーディオ源分離モデルを再訓練するために前記複数のオーディオステムのうちの1つまたはそれを上回るものを訓練データセットに追加し、前記オーディオ源分離モデルを再訓練するために1つまたはそれを上回るオーディオサンプルを前記訓練データセットに追加し、および/または源分離結果を微調整するために1つまたはそれを上回るハイパーパラメータを追加調節することによって、前記オーディオ源分離モデルを微調整する、ユーザ誘導微調整プロセスを実行することによって、前記オーディオ源分離モデルを訓練するように構成される、請求項12-14のいずれか1項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、その両方が、参照することによってそれらの全体として本明細書に組み込まれる、2022年6月23日に出願された、米国特許出願第17/848,341号の優先権を主張し、2021年10月27日に出願された、米国仮特許出願第63/272,650号の利益および優先権を主張する。
【0002】
本開示は、概して、オーディオ源分離のためのシステムおよび方法に関し、より具体的には、単一トラックオーディオ混合物等のオーディオ混合物からオーディオ源信号を分離および向上させるためのシステムおよび方法に関する。
【背景技術】
【0003】
オーディオ混合は、複数のオーディオ録音を組み合わせ、モノラル、ステレオ、またはサラウンド音等の1つまたはそれを上回る所望の音フォーマットでの再生のための最適化された混合物を生成するプロセスである。音楽および映画のための音生成等の高品質の音生成を要求する用途では、オーディオ混合物は、一般的に、別個の高品質の録音を混合することによって生成される。これらの別個の録音は、多くの場合、最適化された音響効果および高品質の録音機器を伴う録音スタジオ等の制御された環境において発生される。
【0004】
多くの場合、源オーディオの一部は、低品質であり、および/または所望のオーディオ源および不要な雑音の混合物を含み得る。現代のオーディオポストプロダクションでは、元の録音が所望の品質を欠くとき、オーディオを再録音することが、一般的である。例えば、音楽録音では、ボーカルまたは楽器トラックが、録音され、以前の録音と混合され得る。映画のための音ポストプロダクションでは、俳優をスタジオに招き、彼らの台詞を再録音し、他のオーディオ(例えば、効果音、音楽)をミックスに追加することが、一般的である。
【0005】
しかしながら、いくつかの用途では、元のオーディオ源を高品質のオーディオミックスに忠実に変換することが、望ましい。例えば、映画、音楽、テレビ放送、および他のオーディオ録音は、100年以上前に遡ることができる。源オーディオは、より古い低品質の機器で録音されており、所望のオーディオおよび雑音の低品質の混合物を含み得る。多くの録音では、単一トラック/モノラルオーディオミックスが、現代の音響システムでの再生のための最適化された混合物を生成するために利用可能な唯一のオーディオ源である。
【0006】
オーディオ混合物を処理するための1つのアプローチは、オーディオ混合物を別個のオーディオ源成分のセットに分離し、オーディオ混合物の成分毎に別個のオーディオステムを生成することである。例えば、音楽録音は、ボーカル成分、ギター成分、ベース成分、およびドラム成分に分離され得る。別個の成分はそれぞれ、次いで、再生を最適化するために向上および混合され得る。
【0007】
しかしながら、既存のオーディオ源分離技法は、音楽および映画産業のための高忠実度の出力を生成するために必要とされる高品質のオーディオステムを発生させるように最適化されていない。オーディオ源分離は、オーディオ源が、より古い音の録音からの低品質であり、単一トラックの雑音が多い音混合物を含むとき、特に困難である。
【0008】
前述を考慮して、特に、低品質のオーディオ源からの高忠実度のオーディオの発生のための改良されたオーディオ源分離システムおよび方法に関する継続的な必要性が、存在する。
【0009】
前述の不利点のうちの少なくともいくつかに対処することが、少なくとも好ましい実施形態の目的である。付加的または代替目的は、少なくとも、従来の技法に対する有用な代替策を公衆に提供することである。
【発明の概要】
【課題を解決するための手段】
【0010】
改良されたオーディオ源分離システムおよび方法が、本明細書に開示される。種々の実装では、単一トラックオーディオ録音が、発話および個々の楽器等の種々のオーディオ成分を高忠実度のステム(例えば、ともに混合されたオーディオ源の離散的または群化された集合)に分離して分けるように構成される、オーディオ源分離システムに提供される。
【0011】
いくつかの実装では、オーディオ源分離システムは、単一トラックオーディオ録音を、発話、補完音、および「クリック音」等のアーチファクトを含む、ステムに分離するように訓練される、第1の機械学習モデルを含む。付加的機械学習モデルが、次いで、発話から処理アーチファクトを除去し、および/または第1の機械学習モデルを微調整することによって、発話ステムを精緻化するために使用されてもよい。
【0012】
本明細書に使用されるような用語「~を備える(comprising)」は、「少なくとも部分的に、~から成る(consisting at least in part of)」を意味する。用語「~を備える(comprising)」を含む本明細書の各文言を解釈するとき、その用語によって前置きされるものまたは複数のもの以外の特徴もまた、存在し得る。「~を備える(comprise)」および「~を備える(comprises)」等の関連用語も、同一の様式において解釈されるものである。
【0013】
種々の実装では、方法は、複数の源から発生されたオーディオ信号の混合物を備える、単一トラックオーディオ入力ストリームを受信するステップと、少なくとも部分的に、受信された単一トラックオーディオ入力ストリームを使用して、オーディオ源分離モデルを訓練するステップであって、オーディオ分離モデルは、単一トラックオーディオ入力ストリームを受信し、複数の源の1つまたはそれを上回るオーディオ源に対応する複数のオーディオステムを発生させるように訓練される、ステップと、1つまたはそれを上回る処理レシピに従って、オーディオ入力ストリームから、オーディオ源分離モデルを使用して、オーディオ源を分離し、複数の源分離出力ステムを発生させるステップとを含む。
【0014】
1つまたはそれを上回る処理レシピはさらに、複数の処理ブランチを含み、各処理ブランチは、1つまたはそれを上回るオーディオステムを出力するように訓練されてもよい。処理ブランチはそれぞれさらに、第1の処理ブランチ上に1つまたはそれを上回るオーディオステムを、第2の処理ブランチ上に残りの補完信号混合物を出力するように構成されてもよい。処理ブランチはそれぞれ、分離されたオーディオ源および残りの補完信号混合物を出力するように構成される、訓練されたニューラルネットワークを通して、入力ストリームおよび/または補完信号混合物を処理するように構成されてもよい。
【0015】
オーディオ源分離モデルは、複数のニューラルネットワークを含み、各ニューラルネットワークは、単一トラックオーディオ混合物内のオーディオ信号の混合物から少なくとも1つの源に対応するオーディオ信号を分離するように訓練されてもよく、複数のニューラルネットワークは、窓関数を適用するように構成され、複数の訓練されたニューラルネットワークは、重複加算プロセスを実施し、バンディングアーチファクトを平滑化するように構成され、および/または複数のニューラルネットワークは、マスクを適用することなく、源分離を実施するように構成される。
【0016】
オーディオ源分離モデルを訓練するステップはさらに、複数の標識化された発話サンプルおよび/または複数の標識化された音楽および/または雑音データサンプルを備える、訓練データセットを使用して、オーディオ源分離モデルを訓練するステップと、訓練されたオーディオ源分離モデルを通して単一トラックオーディオ入力ストリームを処理し、複数の源分離出力ステムを発生させるステップと、源分離出力ステムのうちの1つまたはそれを上回るものを含むように訓練データセットを更新するステップと、更新された訓練データセットを使用して、オーディオ源分離モデルを再訓練するステップとを含んでもよい。
【0017】
オーディオ源分離モデルを訓練するステップはさらに、訓練データセットを繰り返し更新し、訓練されたオーディオ源分離モデルから発生された源分離出力ステムのうちの1つまたはそれを上回るものを使用して、オーディオ源分離モデルを再訓練する、自己反復訓練プロセスを含んでもよい。
【0018】
本方法はさらに、分離されたオーディオステムを後処理し、クリック音、高調波歪み、ゴースト発生、および/または広帯域雑音を含む、源分離プロセスによって導入されたアーチファクトを除去するステップを含んでもよい。
【0019】
オーディオ源分離モデルを訓練するステップはさらに、第1のオーディオサンプルレートにおいて第1のニューラルネットワークを訓練するステップと、第1のサンプルレートよりも高い第2のオーディオサンプルレートにおいて第2のニューラルネットワークを訓練するステップであって、第2のニューラルネットワークは、第1のニューラルネットワークから継承された層および関連付けられるパラメータと、少なくとも1つの未訓練層とを含む、ステップとによる、訓練プロセスを通して、源信号および残りの補完信号の1つまたはそれを上回るクラスを出力するようにニューラルネットワークを訓練するステップを含んでもよい。
【0020】
第2のニューラルネットワークを訓練するステップは、第1のニューラルネットワークから継承されたパラメータが固定されたままである間、少なくとも1つの未訓練層からのパラメータを訓練するステップと、第1のニューラルネットワークから継承されたパラメータおよび少なくとも1つの未訓練層からのパラメータを微調整するように第2のニューラルネットワークを再訓練するステップとを含んでもよい。
【0021】
オーディオ源分離モデルを訓練するステップはさらに、第1のオーディオサンプルレートにおいてオーディオ源分離モデルを訓練するステップと、オーディオ源分離モデルを第1のオーディオサンプルレートよりも高い第2のオーディオサンプルレートにアップスケーリングするステップとを含んでもよい。
【0022】
オーディオ源分離モデルを訓練するステップはさらに、ユーザが、複数のオーディオステムのうちの1つまたはそれを上回るものを評価し、オーディオ源分離モデルを再訓練するために複数のオーディオステムのうちの1つまたはそれを上回るものを訓練データセットに追加し、オーディオ源分離モデルを再訓練するために1つまたはそれを上回るオーディオサンプルを訓練データセットに追加し、および/または源分離結果を微調整するために1つまたはそれを上回るハイパーパラメータを追加調節することによって、オーディオ源分離モデルを微調整する、ユーザ誘導微調整プロセスを含んでもよい。
【0023】
種々の実装では、システムは、機械可読命令を記憶する、メモリコンポーネントと、複数の源から発生されたオーディオ信号の混合物を備える、単一トラックオーディオ入力ストリームを受信し、少なくとも部分的に、受信された単一トラックオーディオ入力ストリームを使用して、オーディオ源分離モデルを訓練し、オーディオ分離モデルは、単一トラックオーディオ入力ストリームを受信し、複数の源の1つまたはそれを上回るオーディオ源に対応する複数のオーディオステムを発生させるように訓練され、1つまたはそれを上回る処理レシピに従って、オーディオ入力ストリームから、オーディオ源分離モデルを使用して、オーディオ源を分離し、複数の源分離出力ステムを発生させるために、機械実行可能命令を実行するように構成される、論理デバイスおよび/またはプロセッサとを含む。
【0024】
本システムの1つまたはそれを上回る処理レシピはさらに、第1の処理ブランチ上に1つまたはそれを上回るオーディオステムを、第2のブランチ上に残りの補完信号混合物を出力するように構成される、複数の処理ブランチを含んでもよい。処理ブランチはそれぞれ、分離されたオーディオ源および残りの補完信号混合物を出力するように構成される、訓練されたニューラルネットワークを通して、入力ストリームおよび/または補完信号混合物を処理するように構成されてもよい。
【0025】
本システムはさらに、複数のニューラルネットワークを有する、オーディオ源分離モデルを含み、各ニューラルネットワークは、単一トラックオーディオ混合物内のオーディオ信号の混合物から少なくとも1つの源に対応するオーディオ信号を分離するように訓練されてもよい。複数のニューラルネットワークは、窓関数を適用し、重複加算プロセスを実施し、バンディングアーチファクトを平滑化し、および/またはマスクを適用することなく、源分離を実施するように構成されてもよい。
【0026】
論理デバイスはさらに、複数の標識化された発話サンプルおよび/または複数の標識化された音楽および/または雑音データサンプルを備える、訓練データセットを使用して、オーディオ源分離モデルを訓練するステップと、訓練されたオーディオ源分離モデルを通して単一トラックオーディオ入力ストリームを処理し、複数の源分離出力ステムを発生させるステップと、源分離出力ステムのうちの1つまたはそれを上回るものを含むように訓練データセットを更新するステップと、更新された訓練データセットを使用して、オーディオ源分離モデルを再訓練するステップとによって、オーディオ源分離モデルを訓練するように構成されてもよい。
【0027】
論理デバイスはさらに、訓練データセットを繰り返し更新し、訓練されたオーディオ源分離モデルから発生された源分離出力ステムのうちの1つまたはそれを上回るものを使用して、オーディオ源分離モデルを再訓練する、自己反復訓練プロセスを実装することによって、オーディオ源分離モデルを訓練するように構成されてもよい。
【0028】
本システムの論理デバイスはさらに、分離されたオーディオステムを後処理し、クリック音、高調波歪み、ゴースト発生、および/または広帯域雑音を含む、源分離プロセスによって導入されたアーチファクトを除去するように構成されてもよい。
【0029】
論理デバイスはさらに、第1のオーディオサンプルレートにおいて第1のニューラルネットワークを訓練するステップと、第1のサンプルレートよりも高い第2のオーディオサンプルレートにおいて第2のニューラルネットワークを訓練するステップであって、第2のニューラルネットワークは、第1のニューラルネットワークから継承された層および関連付けられるパラメータと、少なくとも1つの未訓練層とを含む、ステップとを含む、訓練プロセスを通して、源信号および残りの補完信号の1つまたはそれを上回るクラスを出力するようにニューラルネットワークを訓練することによって、オーディオ源分離モデルを訓練するように構成されてもよい。第2のニューラルネットワークを訓練するステップはさらに、第1のニューラルネットワークから継承されたパラメータが固定されたままである間、少なくとも1つの未訓練層からのパラメータを訓練するステップと、第1のニューラルネットワークから継承されたパラメータおよび少なくとも1つの未訓練層からのパラメータを微調整するように第2のニューラルネットワークを再訓練するステップとを含んでもよい。
【0030】
本システムの論理デバイスはさらに、ユーザが、複数のオーディオステムのうちの1つまたはそれを上回るものを評価し、オーディオ源分離モデルを再訓練するために複数のオーディオステムのうちの1つまたはそれを上回るものを訓練データセットに追加し、オーディオ源分離モデルを再訓練するために1つまたはそれを上回るオーディオサンプルを訓練データセットに追加し、および/または源分離結果を微調整するために1つまたはそれを上回るハイパーパラメータを追加調節することによって、オーディオ源分離モデルを微調整する、ユーザ誘導微調整プロセスを実行することによって、オーディオ源分離モデルを訓練するように構成されてもよい。
【0031】
本概要は、詳細な説明において下記にさらに説明される一連の概念を簡略化形態において導入するために提供される。本概要は、請求される主題の重要な特徴または不可欠な特徴を識別することを意図していない、または請求される主題の範囲を限定することを意図してない。請求項に定義されるような本方法の特徴、詳細、有用性、および利点のより広範な提示が、本開示の種々の実装の以下の記載される説明に提供され、付随の図面に図示される。
【0032】
特許明細書、他の外部文書、または他の情報源が参照されている、本明細書では、これは、概して、例示的実施形態および実装の特徴を議論するための文脈を提供することを目的とする。別様に具体的に記載されない限り、そのような外部文書またはそのような情報源への言及は、そのような文書またはそのような情報源が、いかなる管轄区域においても、従来技術である、または当技術分野における共通の一般的知識の一部を形成することを認めるものとして解釈されるものではない。
【図面の簡単な説明】
【0033】
本開示の側面およびそれらの利点は、以下の図面および続く詳細な説明を参照することによってより深く理解されることができる。同様の参照番号が、図のうちの1つまたはそれを上回るものに図示される同様の要素を識別するために使用され、その中の図示が、本開示の実装を図示することを目的とし、それを限定することを目的としないことを理解されたい。図面におけるコンポーネントは、必ずしも縮尺通りではなく、代わりに、本開示の原理を明確に図示することに重点が置かれている。
【0034】
図1図1は、1つまたはそれを上回る実装による、オーディオ源分離システムおよびプロセスを図示する。
【0035】
図2図2は、1つまたはそれを上回る実装による、図1のシステムおよびプロセスに関連する要素を図示する。
【0036】
図3図3は、1つまたはそれを上回る実装による、機械学習データセットおよび訓練データローダを図示する、略図である。
【0037】
図4図4は、1つまたはそれを上回る実装による、自己反復データセット発生ループを含む、例示的機械学習訓練システムを図示する。
【0038】
図5図5は、1つまたはそれを上回る実装による、機械学習システムを訓練する際の使用のためのデータローダの例示的動作を図示する。
【0039】
図6図6は、1つまたはそれを上回る実装による、例示的機械学習訓練方法を図示する。
【0040】
図7図7は、1つまたはそれを上回る実装による、訓練混合物実施例を含む、例示的機械学習訓練方法を図示する。
【0041】
図8図8は、1つまたはそれを上回る実装による、例示的機械学習処理を図示する。
【0042】
図9図9は、1つまたはそれを上回る実装による、機械学習処理によって導入されたアーチファクトを一掃するように構成される、例示的後処理モデルを図示する。
【0043】
図10図10は、1つまたはそれを上回る実装による、例示的ユーザ誘導自己反復処理訓練ループを図示する。
【0044】
図11A図11は、1つまたはそれを上回る実装による、例示的機械学習アプリケーションを図示する、図11Aおよび11Bを備える。
図11B図11は、1つまたはそれを上回る実装による、例示的機械学習アプリケーションを図示する、図11Aおよび11Bを備える。
【0045】
図12図12は、1つまたはそれを上回る実装による、例示的機械学習処理アプリケーションを図示する。
【0046】
図13A図13は、1つまたはそれを上回る実装による、マルチモデルレシピ処理システムの1つまたはそれを上回る実施例を図示する、図13A、13B、13C、13D、および13Eを備える。
図13B図13は、1つまたはそれを上回る実装による、マルチモデルレシピ処理システムの1つまたはそれを上回る実施例を図示する、図13A、13B、13C、13D、および13Eを備える。
図13C図13は、1つまたはそれを上回る実装による、マルチモデルレシピ処理システムの1つまたはそれを上回る実施例を図示する、図13A、13B、13C、13D、および13Eを備える。
図13D図13は、1つまたはそれを上回る実装による、マルチモデルレシピ処理システムの1つまたはそれを上回る実施例を図示する、図13A、13B、13C、13D、および13Eを備える。
図13E図13は、1つまたはそれを上回る実装による、マルチモデルレシピ処理システムの1つまたはそれを上回る実施例を図示する、図13A、13B、13C、13D、および13Eを備える。
【0047】
図14図14は、1つまたはそれを上回る実装による、例示的オーディオ処理システムを図示する。
【0048】
図15図15は、1つまたはそれを上回る実装による、図1-14の実装のうちの1つまたはそれを上回るものにおいて使用され得る、例示的ニューラルネットワークを図示する。
【発明を実施するための形態】
【0049】
詳細な説明
以下の説明では、種々の実装が、説明されるであろう。解説の目的のために、具体的構成および詳細が、実装の徹底的な理解を提供するために記載される。しかしながら、また、実装が、具体的詳細を伴わずに実践され得ることが、当業者に明白となるであろう。さらに、周知の特徴は、説明されている実装を不明瞭にすることを回避するために、省略または簡略化され得る。
【0050】
改良されたオーディオ源分離システムおよび方法が、本明細書に開示される。種々の実装では、単一トラック(例えば、区別されていない)オーディオ録音が、発話および楽器等の種々のオーディオ成分を高忠実度のステム、すなわち、ともに混合されたオーディオ源の離散的または群化された集合に分離して分けるように構成される、オーディオ源分離システムに提供される。種々の実装では、単一トラックオーディオ録音は、未確認オーディオ混合物を含有し(例えば、オーディオ源、録音環境、および/またはオーディオ混合物の他の側面は、オーディオ源分離システムにとって未知である)、オーディオ源分離システムおよび方法は、自己反復訓練および微調整プロセスにおいて、未確認オーディオ混合物からオーディオ源を識別および/または分離するように適合する。
【0051】
本明細書に開示されるシステムおよび方法は、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、本明細書に開示される方法ステップのうちのいずれかを実施させる、命令を搬送する、少なくとも1つのコンピュータ可読媒体上で実装されてもよい。いくつかの実装は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサによって実行されると、少なくとも1つのプロセッサに、本明細書に開示される任意の方法ステップを実施させる、命令を記憶する、メモリとを含む、コンピュータシステムに関連する。種々の実装では、本明細書に説明されるモデルは、記憶されたデータおよびソフトウェアモジュールおよび/または記憶されたデータに対して作用するコードとして実装されてもよい。
【0052】
いくつかの事例では、モデルを訓練するステップは、コンピュータシステムのコンポーネントがアクセスし、モデルとして使用し得る新しいデータ構造を形成するために、あるデータ構造または複数の構造を処理するステップを伴う。例えば、人工知能システムは、1つまたはそれを上回るプロセッサと、プログラムコードメモリと、書込可能データメモリと、いくつかの入/出力とを備える、コンピュータを備えてもよい。書込可能データメモリは、訓練または未訓練モデルに対応する、いくつかのデータ構造を保持してもよい。そのようなデータ構造は、ニューラルネットワークのノードの1つまたはそれを上回る層および異なる層のノードの間のリンク、およびノードの間のリンクのうちの少なくともいくつかに関する加重を表し得る。他の事例では、異なるタイプのデータ構造が、モデルを表し得る。
【0053】
ある場合には、モデルを訓練するステップ、モデルをフィードするステップ、および/またはモデルに入力を取り込ませ、出力を提供させるステップに言及するとき、これは、モデルを含有し、モデルと協働するためのプログラムコードを実行する、書込可能データメモリを読み取ることが可能であるコンピュータのアクションを指し得る。例えば、モデルは、訓練実施例自体および/または訓練実施例および対応するグラウンドトゥルースであり得る、訓練データの集合で訓練されてもよい。いったん訓練されると、モデルは、モデルに提供される実施例についての決定を行うために使用可能であり得る。これは、コンピュータが、入力において、実施例を表す入力データを受信し、実施例およびモデルを用いてプロセスを実施し、出力において、モデルによって、またはそれに基づいて行われる決定を表し、および/または示す、出力データを出力することによって行われてもよい。
【0054】
非常に具体的な実施例では、人工知能システムは、自動車の多数の写真を読み込み、「これらは自動車である」ことを示すグラウンドトゥルースデータを読み込む、プロセッサを有してもよい。プロセッサは、街灯および同等物の多数の写真を読み込み、「これらは自動車ではない」ことを示すグラウンドトゥルースデータを読み込んでもよい。いくつかの事例では、モデルは、グラウンドトゥルースデータを提供されることなく、入力データ自体で訓練される。そのような処理の結果は、訓練されたモデルであり得る。人工知能システムは、次いで、モデルが訓練されている状態で、これが自動車の画像であるかどうかのいかなるインジケーションも伴わない画像を提供されることができ、これが自動車の画像であるかどうかの決定のインジケーションを出力することができる。
【0055】
オーディオ信号、データ、録音等を処理するために、入力は、オーディオデータ自体、およびオーディオデータについてのいくつかのグラウンドトゥルースデータである場合とそうではない場合がある。次いで、いったん訓練されると、人工知能システムは、いくつかの未知のオーディオデータを受信し、その未知のオーディオデータについての決定データを出力してもよい。例えば、出力決定データは、抽出された音、ステム、周波数等、または入力オーディオデータの他の決定またはAI決定観察に関連してもよい。
【0056】
訓練されたモデルに対応する結果として生じるデータ構造は、次いで、他のコンピュータシステムに移植または分配され得、これは、次いで、訓練されたモデルを使用することができる。いったん訓練されると、プログラムメモリ内のコンピュータコードは、プロセッサによって実行されると、入力において画像を受信することができ、データ構造が訓練されている訓練されたAIモデルを表すという事実に基づいて、プログラムコードは、入力を処理し、入力の性質に関する決定を出力することができる。いくつかの実装では、AIモデルは、絡み合い、容易に分離されない、データ構造と、プログラムコードとを備えてもよい。
【0057】
モデルは、ニューラルネットワークグラフ内のエッジに割り当てられた加重のセット、ニューラルネットワークグラフおよびグラフと相互作用する方法に関する命令を含む、プログラムコードおよびデータ、回帰モデルまたは分類モデル等の数学的表現、および/または当技術分野で公知であり得るような他のデータ構造によって表されてもよい。ニューラルモデル(またはニューラルネットワーク、またはニューラルネットワークモデル)は、多くの場合、ニューロンと称される、接続されたノードのセットを示す、または表すデータ構造として具現化されることができ、そのうちの多くは、生物学的ニューロンによって実施される信号処理を真似る、またはシミュレートする、データ構造であり得る。訓練は、これが接続される他のニューロンおよびニューロンの入力および出力の加重および/または関数等の各ニューロンと関連付けられるパラメータを更新するステップを含み得る。実際には、ニューラルモデルは、ある目的を達成するために、例えば、入力画像または入力データセットがあるカテゴリに適合するかどうかの二値分類を発生させるために、出力変数を発生させるためのある方法において入力データ変数を渡し、処理することができる。訓練プロセスは、複雑な算出(例えば、勾配更新を算出し、次いで、勾配を使用し、層毎にパラメータを更新すること)を伴い得る。訓練は、ある並列処理を用いて行われてもよい。
【0058】
本明細書に説明されるオーディオ源分離のためのモデルのうちのいずれかはまた、少なくとも部分的に、例えば、「オーディオ源分離モデル」、「リカレントニューラルネットワーク」、「RNN」、「深層ニューラルネットワーク」、「DNN」、「推論モデル」、または「ニューラルネットワーク」を含む、いくつかの用語によって言及され得る。
【0059】
図1および2は、本開示の1つまたはそれを上回る実装による、オーディオ源分離システムおよびプロセスを図示する。オーディオ処理システム100は、コア機械学習システム110と、コアモデル操作130と、修正されたリカレントニューラルネットワーク(RNN)クラスモデル160とを含む。図示される実装では、コア機械学習システム110は、図1に簡略化表現において描写される、RNNクラスオーディオ源分離モデル(RNN-CASSM)112を実装する。図示されるように、RNN-CASSM112は、信号入力114を受信し、これは、時間ドメインエンコーダ116に入力される。信号入力114は、RNN-CASSMネットワークによってアクセスされる記憶されたオーディオファイル、別個のシステムコンポーネントから受信されるオーディオ入力ストリーム、または他のオーディオデータ源から受信され得る、単一チャネルオーディオ混合物を含む。時間ドメインエンコーダ116は、時間ドメイン内で入力オーディオ信号をモデル化し、オーディオ混合物加重を推定する。いくつかの実装では、時間ドメインエンコーダ116は、オーディオ信号入力を、1D畳み込みコーダへの入力のために正規化される別個の波形セグメントにセグメント化する。RNNクラスマスクネットワーク118は、オーディオ入力ミックスからオーディオ源を分離するための源マスクを推定するように構成される。マスクは、源分離コンポーネント120によってオーディオセグメントに適用される。時間ドメインデコーダ122は、オーディオ源を再構築するように構成され、これは、次いで、信号出力124を通した出力のために利用可能である。
【0060】
例示的実装では、RNN-CASSM112は、ここで説明されるであろう、コアモデル操作130による動作のために修正される。ブロック1.1を参照すると、オーディオ源データは、種々の実装では、48kHzサンプルレートを使用してサンプリングされる。したがって、RNN-CASSM112は、より低い周波数範囲内でオーディオの別個のステムを認識するために、可聴周波数よりも高いものにおいて訓練されてもよい。48kHzよりも低いサンプルレートにおいて訓練された発話分離モデルの実装が、より古い機器(例えば、1960年代のNagra(商標)機器)を用いて録音されたオーディオサンプルにおいてより低い品質のオーディオ分離を生成することが観察される。源分離モデルを訓練するステップ、そのサンプルレートのための適切なハイパーパラメータを設定するステップ、および48kHzサンプルレートにおいて信号処理パイプラインを動作させるステップ等の本明細書に開示される種々のステップは、48kHzサンプルレートにおいて実施される。オーバーサンプリングを含む、他のサンプリングレートも、本開示の教示と一貫して、他の実装において使用されてもよい。ブロック1.2では、エンコーダ/デコーダフレームワーク(例えば、時間ドメインエンコーダ116および時間ドメインデコーダ122)は、1つのサンプル(例えば、入力信号サンプルレート)のステップサイズに設定される。
【0061】
ブロック1.3を参照すると、従来的な実装の源分離および雑音低減を超えて拡大する、修正されたRNN-CASSM160が、発生される。訓練されたRNN-CASSMを伴う処理オーディオ混合物が、時として、望ましくないクリック音アーチファクト、高調波アーチファクト、および広帯域雑音アーチファクトをもたらし得ることが観察される。これを解決するために、オーディオ処理システム100は、アーチファクトを低減および/または回避し、他の利点を提供するために、ブロック1.3a、1.3b、および/または1.3cに言及されるように、RNN-CASSMネットワーク112に修正を適用する。同一の修正はまた、より変換的なタイプの学習された処理のためにも同様に使用されてもよい。
【0062】
修正されたRNN-CASSM160と関連付けられるモデル操作が、ここで、ブロック1.3a-cを参照してさらに詳細に説明されるであろう。ブロック1.3aでは、エンコーダおよびデコーダ層のうちの少なくともいくつかは、除去され、修正されたRNN-CASSMにおいて使用されない。これらの除去された層が、ステップサイズが1つのサンプルであるとき、学習されたフィルタにおいて冗長であり得ることが観察される。ブロック1.3bでは、マスクを適用するステップ(例えば、コンポーネント120)もまた、オーディオ処理の少なくともある部分に関して除去される。したがって、修正されたRNN-CASSM160は、マスクを適用することなく、オーディオ源分離を実施してもよい。マスキングステップは、潜在的に、多くの場合、発生されたオーディオステム内に存在する、クリック音アーチファクトに寄与する。これに対処するために、オーディオ処理システムは、マスキングの一部または全てを省略し、代わりに、より直接的な様式においてRNNクラスマスクネットワーク118の出力を使用してもよい(例えば、1つまたはそれを上回る分離されたオーディオ源を出力するようにRNNを訓練する)。ブロック1.3cでは、窓関数が、RNNクラスマスクネットワーク(例えば、RNNネットワーク162)の重複加算ステップに適用される。モデル出力が、重複加算関数セグメント長に関連する周波数において線形高調波系列「バンディング」アーチファクトを有するとき、オーディオ処理システムは、各重複するセグメントを横断して窓関数を展開し、オーディオ信号を再構築するときにハードエッジを平滑化することができる。
【0063】
ブロック1.4を参照すると、別のコアモデル操作130は、分離強さパラメータの使用であり、これは、分離された源を生成するために入力信号に適用される分離マスクの強度に対する制御を可能にする。分離された源を生成するために入力信号に適用される分離マスクの強度に対する直接制御を提供するために、分離マスクが適用される強さの程度を決定するパラメータが、モデルのフォワードパスの間に導入される。一実施例では、分離強さパラメータは、f(M)=M等のマスクタイプ源分離モデルにおける分離マスクに適用される関数として表されてもよく、マスクMは、値[0, l]を有し、sは、分離強さパラメータである。本実施例では、s>1.0である値は、マスクが入力混合物に適用されるとき、より低いマスク値およびより少ない標的源をもたらし、s<1.0である値は、より高いマスク値と、標的源および信号内の補完および雑音成分の組み合わせとをもたらす。
【0064】
分離強さパラメータは、下記にさらに詳細に説明されるであろう、自己反復処理訓練(SIPT)アルゴリズムの自動化バージョンのヘルパ機能として実装されてもよい。RNN-CASSM112が、本明細書に開示されるコアモデル操作130のうちの1つまたはそれを上回るものを実装し得、本開示の教示と一貫する付加的操作を含み得ることを理解されたい。
【0065】
図3-5を参照すると、オーディオ源分離のためのRNN-CASSMネットワークを訓練するための例示的プロセスが、ここで説明されるであろう。訓練プロセスは、本明細書に説明されるようなオーディオ源分離のためのネットワークを訓練するように構成される、複数の標識化された機械学習訓練データセット310を含む。例えば、いくつかの実装では、訓練データセットは、オーディオミックスと、オーディオミックスから分離されるべき源クラスを識別する、グラウンドトゥルース標識とを含んでもよい。他の実装では、訓練データセットは、源分離プロセスおよび/または1つまたはそれを上回るオーディオ拡張(例えば、リバーブ、フィルタ)によって発生されたオーディオアーチファクト(例えば、クリック音)を有する、分離されたオーディオステムと、識別されたオーディオアーチファクトおよび/または拡張が除去された、向上されたオーディオステムを識別する、グラウンドトゥルース標識とを含んでもよい。
【0066】
動作時、ネットワークは、標識化されたオーディオサンプルをネットワークにフィードすることによって訓練される。種々の実装では、ネットワークは、特定の源分離タスク(例えば、発話を分離する、前景発話を分離する、ドラムを分離する、アーチファクトを除去する等)のために別個に訓練され得る、複数のニューラルネットワークモデルを含む。訓練は、オーディオ源分離データを生成するためのネットワークを通したフォワードパスを含む。各オーディオサンプルは、予期される出力を定義する「グラウンドトゥルース」で標識化され、これは、発生されたオーディオ源分離データと比較される。ネットワークが、入力オーディオサンプルを誤って標識化する場合、ネットワークを通したバックワードパスが、誤分類を補正するためにネットワークのパラメータを調節するために使用されてもよい。種々の実装では、
【化1】
と表される出力推定値は、L1損失関数(例えば、最小絶対偏差)、L2損失関数(例えば、最小二乗)、スケール不変信号対歪み比(SISDR)、スケール依存性信号対歪み比(SDSDR)、および/または当技術分野で公知であるような他の損失関数等の回帰損失を使用して、Yと表されるグラウンドトゥルースと比較される。ネットワークが訓練された後、検証データセット(例えば、訓練プロセスにおいて使用されない標識化されたオーディオサンプルのセット)が、次いで、訓練されたネットワークの正確度を測定するために使用されてもよい。訓練されたRNN-CASSMネットワークは、次いで、オーディオ入力ストリームから別個のオーディオ源信号を発生させるために、ランタイム環境において実装されてもよい。発生された別個のオーディオ源信号はまた、発生された複数のオーディオステムと称され得る。発生された複数のオーディオステムは、オーディオ入力ストリームの複数のオーディオ源の1つまたはそれを上回るオーディオ源に対応し得る。
【0067】
種々の実装では、修正されたRNN-CASSMネットワーク160は、(例えば、種々の雑音の多い条件およびオーディオミックスを含む)様々な条件下の複数の話者、楽器、および他のオーディオ源情報を表すオーディオサンプルを含む、複数(例えば、数千)のオーディオサンプルに基づいて訓練される。分離されたオーディオ源信号と訓練データセットからのオーディオサンプルと関連付けられる標識化されたグラウンドトゥルースとの間の誤差から、深層学習モデルは、モデルがオーディオ源信号を分離することを可能にするパラメータを学習する。RNN-CASM120および修正されたRNN-CASM160はまた、推論モデル120および修正された推論モデル160および/または訓練されたオーディオ分離モデル120および更新されたオーディオ分離モデル160と称され得る。
【0068】
図3は、出力信号品質源分離において改良および/または有用な機能性を提供し得る、オーディオプロセッサによる訓練の間のデータセットおよびデータセット操作に関連し得るような機械学習データセット310および訓練データローダ350の略図である。図示される実装では、RNN-CASSMネットワークは、歌っている/話している人々、演奏されている楽器、および種々の環境雑音の混合物を含む、音楽録音セッションの単一トラック録音からオーディオ源を分離するように訓練される。
【0069】
ブロック2.1を参照すると、図示される実装において使用される訓練データセットは、48kHz発話データセットを含む。例えば、48kHz発話データセットは、種々のマイクロホン距離(例えば、近接するマイクロホンおよびより遠方のマイクロホン)において同時に録音された同一の発話を含んでもよい。1つの試験実装では、85人の異なる話者が、話者毎に20分を超える発話を伴って、48kHz発話データセット内に含まれていた。種々の実装では、例示的発話データセットは、10分、20分、またはそれを上回るもの等の延長された発話周期および48kHzまたはより高いサンプリングレートにおける録音に関して、成人男性および女性話者からの10人、50人、85人、またはそれを上回るもの等の多数の話者を使用して作成されてもよい。他のデータセットパラメータも、本開示の教示に従って訓練データセットを発生させるために使用され得ることを理解されたい。
【0070】
ブロック2.2を参照すると、訓練データセットはさらに、元々はアナログ媒体上に録音されたデジタル化モノラルオーディオ録音等の入力オーディオの区分を含む、非発話音楽および雑音データセットを含む。いくつかの実装では、本データセットは、録音された音楽、非ボーカル音、背景雑音、デジタル化オーディオ録音からのオーディオ媒体アーチファクト、および他のオーディオデータの区分を含んでもよい。本データセットを使用して、オーディオ処理システムは、デジタル化録音における他の音声、音楽、および背景雑音から着目される話者の音声をより容易に分離することができる。いくつかの実装では、これは、発話または別のオーディオ源クラスを欠くものとして手動で注記される録音の手動で収集されたセグメントを使用し、それに応じてそれらのセグメントを標識化するステップを含んでもよい。
【0071】
ブロック2.3を参照すると、データセットは、標的未確認混合物(例えば、オーディオ処理システムにとって未知の混合物)を使用して、漸進的自己反復データセット発生プロセスを使用して発生および修正される。発生されたデータセットは、初期分類を発生させるために、1つまたはそれを上回るニューラルネットワークモデルを通して標識化されていないデータセット(例えば、源分離されるべき標的未確認混合物)を処理することによって発生された標識化されたデータセットを含んでもよい。本「粗く分離されたデータ」は、次いで、有用性メトリックに基づいて最も有用な「粗く分離されたデータ」を保つために、「粗く分離されたデータ」の中から選択するように構成される、一掃ステップを通して処理される。例えば、訓練データセットの性能は、検証データセットを「粗く分離されたデータ」を含む種々の訓練データセットを使用して訓練されたモデルに適用し、計算された検証誤差に基づいて、より良好な性能に寄与するデータサンプルおよび不良な性能に寄与するデータサンプルを決定することによって測定されてもよい。有用性メトリックは、次の微調整反復の前に破棄されるべき「低品質」の微調整データを識別するために、粗く分離されたデータにおける品質メトリックを推定する関数として実装されてもよい。例えば、移動二乗平均平方根(RMS)窓関数が、RMSメトリックがサンプルのある(または最小)持続時間にわたって較正された閾値を上回って位置する出力の区分を識別するために、ネットワークの出力に対して計算されてもよい。本メトリックは、例えば、アーチファクトが生じる可能性がより高い、粗く分離された源出力の低振幅区分を識別するために使用されることができる。閾値および最小持続時間は、破棄されるべきデータの調整を可能にする、ユーザ調節可能パラメータであってもよい。
【0072】
標的未確認混合物を使用して発生される漸進的自己反復データセットは、図4に図示されるような自己反復データセット発生ループ420を使用して発生されてもよい。種々の実装では、訓練された源分離モデルによってまだ未確認である、分離されるべき源を含有する以前の録音は、モデルによって正常に分離される可能性がより低い。既存のデータセットは、標的化された源のためのロバストな分離モデルを訓練するために十分に実質的ではない場合があり、源の新しい録音を捕捉する機会は、存在しない場合がある。源の新しい録音を捕捉する代わりに、付加的訓練データが、以前の録音における源の隔離されたインスタンスから手動で標識化されてもよい。例えば、識別された話者からの隔離された発話、類似する環境において類似する機器で録音された識別された楽器の隔離されたオーディオ、および/または分離されている源に近似する他の利用可能なオーディオセグメントが、手動で、および/または自動的に(例えば、源の識別、源クラス、および/または環境等のオーディオ源のメタデータ標識化に基づいて)訓練データに追加されてもよい。本付加的訓練データは、以前の録音に対する処理性能を改良するために、モデルを微調整訓練することに役立つために使用されてもよい。しかしながら、本標識化プロセスは、相当な量の時間および手動作業を伴い得、十分な量の付加的訓練データをもたらすために以前の録音において源の十分な隔離されたインスタンスが、存在しない場合がある。
【0073】
図示される発生精緻化ツールは、これらの困難を克服することができる。一方法では、粗い一般的モデル410が、一般的訓練データセットで訓練される。一般的訓練データセットは、標識化された源オーディオデータと、標識化された雑音オーディオデータとを備えてもよい。一般的モデル410は、一般的源分離モデル410または訓練されたオーディオ源分離モデル410と称され得る。訓練データセットは、複数のデータセットを備え、複数のデータセットはそれぞれ、源分離問題に対処するように本システムを訓練するように構成される、標識化されたオーディオサンプルを備えてもよい。複数のデータセットは、複数の標識化された発話サンプルを備える、発話訓練データセットおよび/または複数の標識化された音楽および/または雑音データサンプルを備える、非発話訓練データセットを備えてもよい。分離されるべき未確認オーディオ混合物を含む、利用可能な以前の録音は、次いで、プロセス422において、一般的モデルを用いて処理され、隔離されたオーディオ(例えば、オーディオステム)の2つの標識化されたデータセット、すなわち、粗い分離された以前の録音源データセット424および粗い分離された以前の録音雑音データセット426をもたらす。
【0074】
種々の実装では、特定の問題(例えば、発話対非発話)を解決するように本システムを訓練するために選定される、標識化されたオーディオサンプルの集合を提供する、他の訓練データセットも、使用されてもよい。いくつかの実装では、例えば、訓練されたデータセットは、(i)音楽対効果音対フォーリ、(ii)バンドの種々の楽器に関するデータセット、(iii)相互から分離された複数の人間話者、(iv)室内残響からの源、および/または(v)他の訓練データセットを含んでもよい。次に、結果は、閾値メトリックを使用してカリングされ(プロセス428)、ユーザ選択可能であり得る、選定された二乗平均平方根(RMS)レベルを下回るオーディオ窓を取り除く。いくつかの実装では、移動RMSが、オーディオデータを等しい持続時間の重複する窓にセグメント化し、窓毎にRMSを計算することによって計算されてもよい。RMSレベルは、有用性メトリックまたは品質メトリックと称され得、RMSレベルは、代替有用性メトリックまたは品質メトリックの1つの選択肢であり得る。品質メトリックは、関連付けられる複数のオーディオステムに基づいて計算されてもよい。
【0075】
次に、新しいモデルが、プロセス430において、カリングされた自己反復データセット(例えば、オーディオ訓練データセットに追加されたカリングされた結果、カリングされた自己反復データセットはまた、カリングされた動的に発展するデータセットと称される)を使用して訓練され、改良されたモデル432を訓練し、発生させ、録音を処理するときのその性能を改良する。改良されたモデル432は、オーディオ入力ストリームを再処理し、複数の向上されたオーディオステムを発生させるように構成されてもよい。本改良されたモデルは、訓練されたオーディオ源分離モデルの更新である。本改良されたモデルは、更新されたオーディオ源分離モデル432と称され得る。
【0076】
いくつかの実装では、オーディオ訓練データセットは、標的入力混合物に関連しないデータを除去するために、反復微調整プロセスの間にキュレートされてもよい。例えば、入力混合物は、入力混合物内の種々の源を識別/分類し、識別/分類されておらず、および/または別様に源分離タスクに関連しないある他の源カテゴリを残してもよい。これらの「関連しない」源カテゴリ(例えば、標的混合物内に見出されないカテゴリ、ユーザによって源分離タスクに関連しないものとして識別されたカテゴリ、および/または他の基準によって定義されるような他の関連しない源カテゴリ)と関連付けられる訓練データは、オーディオ訓練データセットからカリングされ、訓練データセットが、標的入力混合物のコンテンツに対してますます特有になることを可能にし得る。
【0077】
本プロセス420は、反復的に繰り返され、それぞれは、モデルの分離品質を改良することができる(例えば、源分離の正確度および/または品質を改良するように微調整する)。後続再反復に応じて、プロセス420は、さらなるRMSレベルを使用してもよく、それによって、さらなるRMSレベルは、以前のRMSレベルを上回る。本プロセスは、初期一般的源隔離または分離モデルのより自動化された精緻化を可能にする。種々の段階におけるループ化が、より大きい関連する混合物に優る改良を示すことが観察されている。一般的モデル410および改良されたモデル432はまた、推論モデル410および修正された推論モデル432および/または訓練されたオーディオ分離モデル410および更新されたオーディオ分離モデル432と称され得る。
【0078】
分離品質(例えば、オーディオ忠実度)の改良は、本システムによって測定され、および/またはユーザインターフェースを通して本システムにフィードバックを提供し、および/またはプロセス420におけるステップのうちの1つまたはそれを上回るものを監督するユーザによって評価されることができる。いくつかの実装では、プロセス420は、分離品質を推定するために、平均オピニオンスコア(MOS)を計算するためのアルゴリズムおよび/またはユーザ評価の組み合わせを使用してもよい。例えば、アルゴリズムが、源分離動作の間に発生されたアーチファクト化の量を推定することができ、これは、ひいては、ネットワークの出力の全体的品質に関連する。いくつかの実装では、源分離動作の間に発生されたアーチファクト化の量の推定は、信号からオーディオアーチファクトを分離するように訓練されたニューラルネットワーク化モデルを通して分離された源をフィードし、そのようなオーディオアーチファクトの存在および/または強度の測定を可能にするステップを含む。オーディオアーチファクトの強度は、各反復において決定され、モデルを微調整するために反復の間で追跡されることができる。いくつかの実装では、反復プロセスは、反復を横断する推定された分離品質が改良されなくなり、および/または推定された分離品質が1つまたはそれを上回る所定の品質閾値を満たすまで、継続する。
【0079】
ブロック2.4および2.4aを参照すると、機械学習訓練データローダ350は、訓練の間の標的未確認混合物の音品質(例えば、マイクロホンからの知覚距離、フィルタリング、残響、エコー、非線形歪み、スペクトル分布、および/または他の測定可能なオーディオ品質)に合致するように構成される。効果的な教師あり源分離モデルを訓練することに関する課題は、データセット実施例が、理想的には、標的混合物内の源の品質に可能な限り密接に合致するようにキュレートされる必要があることである。例えば、話者が、彼らが残響のあるホール内でマイクロホンに話している混合物から隔離されるべきであり、録音が、聴衆内の録音デバイスである程度の距離から捕捉された場合、高品質の話者データセットが録音されている可能性がある場所等の中立の残響のない空間内で、同一の話者がマイクロホンに直接話すことを録音したときに聞こえ得る様子との比較が、行われてもよい。目標は、次いで、概して、標的入力混合物からのより低い逸脱をもたらす、訓練の間に高品質の発話データセットサンプルに拡張を追加することになる。本実施例では、「残響」拡張が、ホールのものをシミュレートするために、「非線形歪み」拡張が、音響システムによって増幅された話者の音声をシミュレートするために、「フィルタ」拡張が、録音デバイスからの音響システムの距離をシミュレートするために追加されてもよい。
【0080】
種々の実装では、解決策は、事前および事後混合物拡張モジュールを含む、階層的ミックスバススキーマを含む。理想的な標的混合物を作成することは、新しい型式の混合物が訓練のために要求される度に手動で作ることが面倒または非実践的であろう。階層的ミックスバススキーマは、教師あり源分離訓練の間に恣意的に複雑なランダム化された「源」および「雑音」の容易な定義を可能にする。データローダは、改良された源分離向上結果のために、フィルタリング、残響、相対的信号レベル訓練、および他のオーディオ品質等の品質におおよそで合致する。機械学習データローダは、モデルを訓練しながら、源データから動的に発生される「源」および「雑音」混合物の容易な定義を可能にする、階層的スキーマを使用する。ミックスバスは、付随のランダム化パラメータを伴うリバーブまたはフィルタ等の随意の拡張を可能にする。適切に分類されたデータセット媒体を未加工材料として用いることで、これは、所望の源分離標的混合物を模倣する訓練データセットの容易な設定を可能にする。
【0081】
例示的簡略化スキーマ表現550が、図5に図示される。訓練混合物スキーマは、源および雑音に関する別個の選択肢を含み、dB範囲、源決定と関連付けられる確率、室内インパルス応答、フィルタ、および他の基準等の基準を含む。
【0082】
ブロック2.4bを参照すると、データローダはさらに、訓練の間に標的混合物に適用される、フィルタ、非線形関数、畳み込みを含む、事前/事後混合物拡張を提供する。種々の実装では、関連する拡張が、識別され、訓練データセットに追加され、分離されたオーディオステムは、(例えば、本明細書に説明されるパイプラインを使用して)後処理される。源分離モデルは、拡張を使用して分離された源を変換する付加的目標を用いて訓練されることができる。いくつかの実装では、本システムは、これが入力混合物において聞こえ得る際に厳密に源を隔離するように訓練されることができる。いくつかの実装では、本システムはさらに、適切な拡張、例えば、利用可能な訓練データセットを使用するときに標的混合物からの最小の逸脱をもたらす拡張を適用することによって、分離された源のいくつかの品質を改良するように訓練されてもよい。逸脱および適切な拡張は、アルゴリズム的に、および/またはユーザによる評価によって推定されてもよい。例えば、入力混合物内の音声は、閉鎖された扉の後方で録音されることに起因して、フィルタリングされ、理解することが困難であり得る。本実施例では、分離された源は、拡張されてもよい(例えば、入力音声データセットを劣化させ、概して、閉鎖された扉の後方の音声の音に合致する)。しかしながら、訓練の間の標的の分離された源出力は、本実施例(例えば、訓練の間の拡張された音声入力対対応する高品質の音声標的出力データセット)において拡張されず、したがって、ネットワークは、後処理拡張によって本同一の変換に近似するように訓練される。
【0083】
いくつかの実装では、標的源は、混合物内のその現在の表現の変換されたバージョンであり得る。例えば、帯域幅限定録音をより完全な周波数スペクトルに復元する、または不明瞭にされた背景話者の近接忠実度を隔離および増加させる必要性が、存在し得る。これらの必要性は、ユーザ決定される、または標的出力訓練セットからの入力逸脱に基づいて自動的に解決するために、変換的モデル自体に委ねられてもよい。例えば、モデルが、訓練の間にランダムに拡張された発話データセットを使用するとき、多くの残響を伴わない高品質の近接近発話を出力するように訓練されている場合、多くの残響を伴わないそのような高品質の近接近発話を含有する混合物を入力することは、それらの入力への最小の変化をもたらす傾向があり得る。しかしながら、これらの品質から逸脱する発話を含有する混合物を入力することは、多くの残響を伴わない高品質の近接近発話に類似するようにそれらの入力発話混合物を変換する傾向があり得る。
【0084】
拡張モジュールが、標的出力としての同一の源の代替的に拡張されたバージョンとともに、入力としての拡張された源から成る、訓練実施例を発生させるために、データローダによって使用されることができる。これは、標的源が、訓練混合物の一部であるとき、代替的に拡張されたコンテキストにおいて表され得る、変換的実施例を可能にする。修正されたRNN-CASSMを訓練しながら使用されると、これは、オーディオ処理システムが、非常に不明瞭にされた標的源の「フィルタリング除去」、「残響除去」、およびより深い回復等の動作を学習することを可能にする。
【0085】
図示される実装における適用実施例500は、(i)フィルタを用いて混合物を拡張するステップを含む、フィルタリング除去、(ii)リバーブを用いて混合物を拡張するステップを含む、残響除去、(iii)フィルタおよびリバーブを用いて源を拡張するステップを含む、背景話者の回復、(iv)歪みを用いて混合物を拡張するステップを含む、歪みの修復、および(v)ギャップを用いて混合物を拡張するステップを含む、ギャップの修復を含む。
【0086】
図6および7を参照すると、機械学習訓練方法600の例示的実装が、ここで説明されるであろう。これらの実施例では、機械学習訓練方法は、出力信号品質および源分離における改良および/または有用な機能性のための訓練の方法に関連して説明される。ブロック3.1を参照すると、第1の機械学習訓練方法は、訓練されたネットワークサンプルレートを(例えば、24kHzから48kHzに)アップスケーリングするステップを含む。時間、算出リソース等の限定に起因して、モデルは、24kHzデータセットを用いて24kHzにおいて訓練されるが、出力品質に対する限定を伴い得る。24kHzにおいて訓練されたモデルに対して着手されるアップスケーリングプロセスは、48kHzにおいて機能することを提供することができる。一例示的プロセスは、エンコーダ/デコーダ層およびそれらに直に接続されるものが破棄されながら、マスキングネットワークの学習されたパラメータの内側ブロックを保つステップを含む。言い換えると、内側分離層のみが、48kHzエンコーダ/デコーダを伴う新たに初期化されたモデルの中に移植される。次に、未訓練の48kHzエンコーダ/デコーダおよび直に接続されるそれらの層は、継承されたネットワークがフリーズされたままである間、48Khzデータセットを使用して微調整される。これは、許容可能な検証/損失値(例えば、L1、L2、SISDR、SDSDR、または他の損失計算)が、ここでは適合された継承された層を示す訓練/検証の間に再び確認されるまで、行われる。例えば、許容可能な検証/損失値は、モデル性能と比較した以前の訓練セッションにおいて確認された値に向かう傾向を観察することによって、所定の閾値損失値と比較することによって、または他のアプローチによって決定されてもよい。訓練の間、損失値は、理想的には、最小化に向かう傾向があるが、しかしながら、実践では、損失値はまた、損失値が最小化から離れるような傾向を開始するとき等、訓練の間の有意な問題点を信号伝達する際に有用であり得る。損失値が、訓練の間に改良されていない場合があるが、源分離の品質によって測定されるようなモデルの性能が、依然として、訓練を継続することによって改良され得ることもまた、観察されている。
【0087】
最後に、微調整訓練は、全ての層を横断して継続し、モデルが48Khzにおいてさらに発展することを可能にし、最終結果は、良好に機能する48Khzモデルとなる。いくつかの実装では、本システムは、より低いサンプルレートにおいて訓練し、適切な層をより高いサンプルレートのモデルアーキテクチャに継承し、第1に、継承された層のパラメータがフリーズされる間、未訓練層が、訓練され、第2に、モデル全体が、次いで、性能がより低いサンプルレートのモデルのものに合致する、またはそれを超えるまで微調整される、2ステップ訓練プロセスを実施することによって、高い信号処理サンプルレートにおいてより迅速に動作するように訓練される。本プロセスは、限定ではないが、以下を含む、多くの反復にわたって実施され得る。
【0088】
a)6kHzにおいて訓練する
【0089】
b)12kHzにアップスケーリングする
【0090】
c)24kHzにアップスケーリングする
【0091】
d)48kHzにアップスケーリングする
【0092】
ブロック3.2を参照すると、多重音声源混合物が、発話隔離モデルの性能を改良するために使用される(例えば、源=前景、背景、および遠方音声、雑音、および音楽混合物)。単一の音声対雑音/音楽混合物で最初に訓練された発話は、良好に機能しない場合があり、処理された結果は、元の源媒体から一貫して抽出することに問題点を有し、実質的なアーチファクト化に悩まされ得る。単一の音声対雑音混合物を用いて訓練する代わりに、オーディオ処理システムは、前景および背景音声等の近接度の変動をシミュレートするために層化された複数音声源を使用することによって、実質的に改良された結果を提供し得る。本アプローチはまた、楽器、例えば、1度に1つのみサンプルの代わりに、混合物内の複数のオーバーレイされたギターサンプルに適用されることができる。種々の実装では、種々の層シナリオを備える訓練サンプルが、未確認オーディオ混合物に合致および/または近似するように(例えば、ユーザ入力、識別された源クラス、および/または反復訓練の間の未確認オーディオ混合物の分析に基づいて)選択されてもよい。
【0093】
訓練混合物実施例700は、源および雑音704の混合物を含む、発話隔離訓練混合物702を含む。源混合物706は、拡張されたランダム化された組み合わせにおける前景発話708、背景発話710、および遠方発話712の混合物を含んでもよい。雑音混合物714は、拡張されたランダム化された組み合わせにおける楽器716、ルームトーン718、およびヒス720の混合物を含む。
【0094】
図8-10を参照すると、機械学習処理800の実装は、ここで、(例えば、本明細書に前述で議論されるような)出力信号品質および源分離における改良および/または有用な機能性に寄与している機械学習モデルを用いた処理の方法に関連して説明されるであろう。ブロック4.1を参照すると、機械学習処理は、付加的出力として分離された源の和の補完を含んでもよい。他の実装では、モデルは、発話および破棄された音楽/雑音を出力する。補完出力は、続けて、補完出力に残る源をさらに処理/分離するために、種々のプロセスにおいて使用されてもよい。
【0095】
ブロック4.2を参照すると、機械学習後処理モデルは、クリック音、高調波歪み、ゴースト発生、および広帯域雑音等の機械学習処理によって導入されたアーチファクトを一掃する(アーチファクトは、例えば、図4を参照して前述で議論されるように決定されてもよい)。訓練される源分離モデルは、クリック音、高調波歪み、広帯域雑音、および音が標的補完出力の間で部分的に分離される「ゴースト発生」等のアーチファクト化を呈し得る。これらの出力が高品質のサウンドトラックのコンテキストにおいて使用されるために、手間のかかる一掃が、通常、従来のオーディオ修復ソフトウェアを使用して試行される必要があるであろう。そのように試行することは、依然として、修復されたオーディオにおいて望ましくない品質をもたらし得る。これは、処理アーチファクトから成るデータセットで訓練されているモデルを用いて処理されたオーディオを後処理することによって対処され得る。処理アーチファクトデータセットは、問題のあるモデル自体によって発生され得る。
【0096】
後プロセスモデル910は、いったん訓練されると、全ての類似するモデルのために再使用されることができる。図示される実装では、入力混合物950は、一般的モデル952を用いて処理され、これは、機械学習アーチファクトを伴う源分離出力を発生させる(ステップ954)。後処理ステップ956は、アーチファクトを除去し、向上された出力960を発生させる。後処理モデル910は、隔離された機械学習アーチファクトのデータセット914を発生させるステップを含む(ステップ912)。機械アーチファクトは、クリック音、ゴースト発生、広帯域雑音、高調波歪み、および他のアーチファクトを含んでもよい。隔離された機械学習アーチファクト912は、ステップ916において、アーチファクトを除去するモデルを訓練するために使用される。
【0097】
ブロック4.3を参照すると、いくつかの実装では、ユーザ誘導自己反復処理/訓練アプローチが、使用されてもよい。ユーザは、処理/編集/訓練ループの過程にわたって事前訓練されたモデルの微調整を誘導し、それに寄与し、これは、次いで、一般的モデルから可能であったであろうものよりも良好な源分離結果をもたらすために使用されることができる。モデル微調整能力は、事前訓練されたモデルが解決することが可能ではない場合がある源分離を解決するために、ユーザの手に委ねられることができる。未確認混合物に対する源分離モデルを用いた処理は、通常、十分な訓練データの欠如に起因して、常に成功するわけではない。1つの解決策では、オーディオ処理システムは、それによってユーザが事前訓練された入力を微調整することを誘導し、それに寄与し得、これが、次いで、より良好な結果をもたらすために使用され得る方法を使用する。例示的方法では、i)ユーザは、入力媒体を処理し、ii)出力を査定する機会を与えられ、または本査定を、いくつかのメトリック(例えば、前述で議論されるような移動RMS窓および/または他の測定値を使用して測定される)に対する閾値パラメータを測定するアルゴリズムによって実施させる選択肢を有し、iii)出力が、許容可能と見なされる場合、処理は、ここで終了し、そうでなければ、iv)時間的および/またはスペクトル編集、および/またはカリング/拡張アルゴリズムを使用して、不完全な出力を操作する機会を与えられる。本質的に、差し迫ったステップの間に最良に役立つであろう出力の区分を選択する。ステップv)では、媒体は、ここでは、訓練データセット内への包含に関して考慮され、ステップvi)では、ユーザは、自身の独自の補助データセットもまた追加する機会を与えられ、ステップvii)では、モデルは、ユーザのハイパーパラメータ選好に従って微調整訓練され、ステップviii)では、モデルの性能は、以前の反復からの改良された結果を確認するために検証され、次いで、ステップix)では、プロセスは、繰り返される。種々の実装では、微調整訓練に関連するハイパーパラメータは、訓練セグメント長、エポック持続時間、訓練スケジューラタイプおよびパラメータ、オプティマイザタイプおよびパラメータ、および/または他のハイパーパラメータ等のパラメータを含んでもよい。ハイパーパラメータは、最初に、所定の値のセットに基づき、次いで、微調整訓練のためにユーザによって修正されてもよい。
【0098】
例示的ユーザ誘導自己反復プロセス1000が、図10に図示される。プロセス1000は、前述で議論されるような事前訓練されたモデルとして実装され得る、一般的モデル1002から開始する。未確認源混合物を伴う単一トラックオーディオ信号または複数の単一トラックオーディオ信号等の入力混合物1004が、ステップ1006において、一般的モデル1002を通して処理され、機械学習で分離された源信号1008と、機械学習で分離された雑音信号1010とを含む、分離されたオーディオ信号を混合物から発生させる。ステップ1012では、結果は、(例えば、前述で説明されるような推定されたMOSおよび閾値および/または他の品質測定値を比較して)分離されたオーディオ源が十分な品質を有することを確認するために評価される。結果が、良好であることが決定される場合、分離された源は、ステップ1014において、出力される。
【0099】
分離されたオーディオ源信号が、さらなる向上を必要とすることが決定される場合、出力のうちの1つまたはそれを上回るものは、ステップ1016において、微調整のために訓練データセット内への包含のために準備される。自動化微調整システム1018では、機械学習で分離された源1008および雑音1010は、微調整データセット1034として直接使用される(ステップ1022)。微調整データセットは、随意に、ステップ1036において、源分離メトリックのユーザ選択閾値に基づいて(例えば、移動RMS窓を前述で説明されるような閾値および/または他の分離メトリックと比較して)カリングされる。訓練は、次いで、モデルを微調整するために、ステップ1038において行われる。微調整されたモデル1032は、次いで、ステップ1006において、入力混合物に適用される。
【0100】
ユーザ誘導微調整システム1020では、ユーザは、微調整データセットに含む、またはそこから省略するべきオーディオクリップの部分を選定してもよい(ステップ1024-時間的編集)。ユーザはまた、微調整データセット内に含む/そこから省略するべきクリップの部分および周波数/時間窓選択を選定してもよい(ステップ1026-スペクトル編集)。いくつかの実装では、ユーザは、微調整データセットを拡張するためにさらなるオーディオクリップを提供してもよい(ステップ1028-データセットへの追加)。いくつかの実装では、ユーザは、データセットを微調整するために、均等化、リバーブ、歪み、および/または他の拡張設定を提供する(ステップ1030-拡張)。微調整データセット1034が更新された後、訓練プロセスは、ステップ1036-1038を継続し、微調整されたモデル1032を発生させる。
【0101】
ブロック4.4を参照すると、モデル微調整進行のアニメーション化された視覚的表現が、実装されてもよい。ユーザが、特定の媒体クリップに対する源分離を解決するために、モデルを微調整訓練する間、モデルの進行出力が、ユーザの意思決定を誘導することに役立つために、モデルの性能を示すことに役立つように表示される。いくつかの実装では、例えば、インターフェースは、これが微調整訓練されている間に周期的に試験される微調整されたモデルによって計算されるような推定された出力の周期的に更新されるスペクトログラムアニメーション表現を表示する、関連付けられるツールアイコンを伴う窓内に表示されてもよい。本インターフェースは、ユーザが、モデルが入力混合物の種々の領域内で現在良好に機能している程度を視覚的に査定することを可能にすることができる。インターフェースはまた、ユーザが、スペクトログラム窓との相互作用に基づいて、これらの推定出力の時間/周波数選択を用いて実験することを可能にすること等のユーザ相互作用を促進してもよい。
【0102】
ブロック4.5を参照すると、微調整訓練のためのユーザ誘導拡張が、実装されてもよい。残響、フィルタリング、非線形歪み等の具体的特性を伴う標的化された録音を向上させる/分離するときの結果を改良するために、オーディオ処理システムは、ブロック4.3に説明されるループのステップ1020の間、残響、フィルタリング、非線形歪み、および/または雑音等の拡張の選択を誘導し、それに寄与するための基礎となるアルゴリズムを制御するツールをユーザに提示してもよい。ユーザは、処理/編集/訓練ループの過程にわたる事前訓練されたモデルの微調整の間に使用される、拡張および/または拡張パラメータの選択を誘導し、それに寄与することができる。拡張は、微調整後に標的化された挙動を一般化する、または狭めることに役立つために、パラメータ(例えば、残響拡張の強度、密度、変調、および/または減衰等の拡張の種々の側面に影響を及ぼす値)毎にユーザ制御可能ランダム化設定を含む。これは、ユーザが微調整訓練にわたって有する制御の拡大を可能にし、これは、それらが、例えば、標的化された録音内のフィルタリングされた音/残響に具体的に合致することを可能にする。ランダムプロセスまたはランダム化に言及するとき、擬似ランダムプロセスまたは恣意的選択プロセスを有することが、十分であり得る。いくつかの実装では、拡張パラメータは、1つまたはそれを上回るアルゴリズムを使用して、入力源混合物に自動的に合致される。いくつかの実装では、自動的合致は、出発点として粗い合致を達成するために使用される。例えば、標的入力混合物のスペクトル分析が、周波数帯逸脱スコアの値に基づいて、データセット拡張フィルタの種々のパラメータを調節することによって、ランダム拡張データセットサンプルと標的入力混合物との間の逸脱を最小限にするために使用され得る、周波数帯逸脱スコアのセットをもたらすために、ランダムデータセットサンプルの分析と組み合わせられてもよい。
【0103】
図11Aおよび11Bを参照すると、機械学習アプリケーション1100の例示的実装が、ここで、1つまたはそれを上回る実装に従って説明されるであろう。本明細書に開示されるオーディオ処理システムおよび方法は、音ポストプロダクション編集ワークフローに対する改良および/または有用な機能性に寄与している他のオーディオ処理アプリケーションと併せて使用されてもよい。
【0104】
ブロック5.1を参照すると、デジタルオーディオワークステーション(DAW)(例えば、商標名PRO TOOLSとして販売されるデジタルオーディオワークステーションが、1つまたはそれを上回る実装において使用されてもよい)においてホストされるAvid Audio Extension(AAX)プラグイン等のプラグインが、提供され、ユーザが、オーディオクリップをスタンドアロンアプリケーションから送信することを可能にし、そこで、それらは、続けて、機械学習モデルを用いて処理されてもよい。本プラグインは、恣意的な数のステム分割をDAW環境に戻るように返すことができる。
【0105】
ブロック5.2を参照すると、本開示の実装はまた、媒体をロード/受信し、これは、次いで、ユーザ選択機械学習レシピによって処理される、アプリケーション(例えば、JAM CONNECTを伴う商標名JAM LABとして販売されるアプリケーションまたは類似するアプリケーション)において使用されている。いくつかの実装では、クライアントソフトウェア(例えば、JAM CONNECTを伴うJAM LAB)へのアクセスを有する、複数のクライアント機械1 102A-Cおよび処理ノード1 106A-Dは、本明細書に開示されるようなクライアントソフトウェアおよび機械学習(ML)アプリケーション1100の両方へのアクセスのためのタスクマネージャ/データベース1104にアクセスするように構成される。
【0106】
図12を参照すると、例示的処理フローが、ここで説明されるであろう。デジタルオーディオワークステーション1202(例えば、JAM CONNECTを伴うPRO TOOLS)を実行するシステムは、オーディオクリップをクライアントアプリケーション1208(例えば、JAM LABを含む)に送信するように構成される。クライアントアプリケーションを通して、単一のモデルが、オーディオクリップからオーディオ源を処理/分離するためにカテゴリ1210のリストから選定されてもよい。ステムのタイプもまた、マルチモデルレシピを成すために、ステップ1212において選定される。オーディオクリップおよびレシピは、(ステップ1214において)タスクマネージャ/データベース1216に送信され、これは、ステップ1218において、ユーザの利用可能な処理ノードを横断してレシピ処理を管理および分配する。クライアントアプリケーションは、ステップ1206において、ステムおよび/またはモデル名で標識化された処理されたオーディオクリップを受信し、返す。いくつかの実装では、クライアントアプリケーション1208はまた、本明細書に開示されるようなマルチモデルレシピ1212を成すために、ステムを選定することを促進してもよい。
【0107】
機械学習マルチモデルレシピ処理システムの実装が、ここで、図13A-Eを参照して説明されるであろう。いくつかの実装では、ユーザは、特定の順序および階層的組み合わせにおいて、源分離モデルの選択を使用して、1つのステップにおいて標的化された媒体を源クラス/ステムのセットに分離することを所望し得る。順次的/分岐的源分離レシピスキーマが、順次的/分岐的構造化順序において1つまたはそれを上回る源分離モデルを使用して標的化された媒体を処理し、標的化された媒体をユーザ選択源クラスまたはステムのセットに分離するために実装される。
【0108】
図13Aの実装1300では、レシピの各ステップは、特定の源クラスを標的化する、源分離モデルまたはモデルの組み合わせを表す。レシピは、ユーザの所望のステム出力をもたらすステップを実施するためのレシピスキーマに従って定義され、適切に訓練されたモデルを含む。例示的実装に図示されるように、ユーザは、最初にヒス、続けて、音声(続けて、ボーカルおよび他の発話に分離される)、ドラム(続けて、キック、スネア、および他のパーカッションに分離される)、オルガン、ピアノ、ベース、および他の処理を分離するように選定してもよい。したがって、レシピによって定義されたパイプラインを通して標的化された媒体を処理することによって、種々のステップにおける出力は、収集され、最終的に、標的化された媒体をユーザ選択源クラスまたはステムのセットに分離してもよい。
【0109】
図13Bを参照すると、音声/ドラム、その他の順次的処理パイプライン実施例1320が、図示される。本モデルでは、入力混合物は、最初に、音声を抽出するように処理され、補完は、ドラムと、混合物内の他の音とを含む。ドラムモデルは、ドラムを抽出し、補完は、他の音を含む。本実装では、出力は、音声と、ドラムと、他のステムとを含む。順次的/分岐的分離システムを用いて源クラスを分離するときにモデルが適用される順序は、最適な処理順序を査定するアルゴリズムを使用することによって、より高い品質のために最適化されてもよい。最適化された処理方法1340の例示的実装が、図13Cに図示される。例えば、AおよびB成分を備える、入力混合物モデルが、クラスA、次いで、残りBを隔離するように構成され得る。これは、処理順序が逆転された(例えば、B、次いで、Aを隔離する)場合、異なる結果をもたらし得る。最適化された処理方法1340は、AおよびBを両方の順序において分離し、結果を比較し、最良の結果(例えば、分離されたステムにおいてより少ない誤差を伴う結果)を伴う順序を選択することによって、A+Bの入力混合物に対して動作してもよい。種々の実装では、最適化された処理方法1340は、手動で、自動的に、および/またはハイブリッドアプローチにおいて動作してもよい。例えば、推定された最適な順序が、グラウンドトゥルース試験サンプルのセットを使用し、次いで、ステム順序の種々の並べ替えを使用して分離され得る試験混合物を作成することによって事前確立されてもよく、したがって、推定された最良に機能するモデル処理順序が、グラウンドトゥルース試験サンプルに対してこれらの試験の出力を比較する、誤差関数を使用することによって確立されてもよい。
【0110】
順次的/分岐的源分離システムの(例えば、本明細書に前述で説明されるような)出力忠実度を改良するための例示的パイプライン1360が、ここで、図13Dを参照して説明されるであろう。例えば、出力忠実度は、個人からの発話サンプルの集合等の特定の標識化されたデータセットからのステムの出力の逸脱を測定することが可能である、MOSアルゴリズムを使用して測定されてもよい。いくつかの実装では、そのようなアルゴリズムは、源を分類するか、または所与のデータセットからの源の逸脱を測定するかのいずれかのために事前訓練されているニューラルネットワークとして実装されてもよい。
【0111】
処理レシピ(5.2.1参照)はまた、パイプラインにおける1つまたはそれを上回る出力の後に後処理ステップを含んでもよい。後処理ステップは、事前のステップによって導入されている可能性がある信号アーチファクト/雑音を一掃する、任意のタイプのデジタル信号処理フィルタ/アルゴリズムを含み得る。パイプライン1360は、(例えば、本明細書のステップ4.2に説明されるような)アーチファクトを一掃するように具体的に訓練されたモデルを使用し、特に、レシピ処理パイプラインの順次的性質に起因して、非常に改良された全体的結果をもたらす。
【0112】
図13Eを参照すると、例示的実装1380は、モデルを組み合わせ、特定の源クラスを分離する。順次的/分岐的分離処理レシピ(5.2.1参照)は、1つまたはそれを上回るモデルが組み合わせて使用され、そうでなければその源クラスを標的化するように訓練されている1つのモデルのみによって完全には抽出されることができない源クラスを混合物から抽出するステップを含んでもよい。図示される実施例では、ドラムは、2回分離され、続けて、合計され、単一の「ドラム」出力ステムとして提示され、補完的な「その他」ステムが付随する。
【0113】
本明細書に開示されるシステムおよび方法を実装するための例示的オーディオ処理システム1400が、ここで、図14を参照して説明されるであろう。オーディオ処理システム1400は、論理デバイス1402と、メモリ1404と、通信コンポーネント1422と、ディスプレイ1418と、ユーザインターフェース1420と、データ記憶装置1430とを含む。
【0114】
論理デバイス1402は、例えば、マイクロプロセッサ、シングルコアプロセッサ、マルチコアプロセッサ、マイクロコントローラ、処理動作を実施するように構成されるプログラマブル論理デバイス、DSPデバイス、実行可能命令(例えば、ソフトウェア、ファームウェア、または他の命令)を記憶するための1つまたはそれを上回るメモリ、グラフィック処理ユニット、および/または本明細書に説明される種々の動作のうちのいずれかを実施するための命令を実行するように構成される処理デバイスおよび/またはメモリの任意の他の適切な組み合わせを含んでもよい。論理デバイス1402は、メモリ1404と、通信コンポーネント1422と、ディスプレイ1418と、ユーザインターフェース1420と、データ記憶装置1430とを含む、オーディオ処理システム1400の種々のコンポーネントとインターフェースをとり、通信するように適合される。
【0115】
通信コンポーネント1422は、ネットワークまたは遠隔システムとの通信を促進する、有線および無線通信インターフェースを含んでもよい。有線通信インターフェースは、ケーブルまたは他の有線通信インターフェース等の1つまたはそれを上回る物理的ネットワークまたはデバイス接続インターフェースとして実装されてもよい。無線通信インターフェースは、1つまたはそれを上回るWi-Fi、Bluetooth(登録商標)、セルラー、赤外線、電波、および/または無線通信のための他のタイプのネットワークインターフェースとして実装されてもよい。通信コンポーネント1422は、動作の間の無線通信のためのアンテナを含んでもよい。
【0116】
ディスプレイ1418は、画像ディスプレイデバイス(例えば、液晶ディスプレイ(LCD))または種々の他のタイプの一般的に公知のビデオディスプレイまたはモニタを含んでもよい。ユーザインターフェース1420は、種々の実装では、キーボード、制御パネルユニット、グラフィカルユーザインターフェース、または他のユーザ入/出力等のユーザ入力および/またはインターフェースデバイスを含んでもよい。ディスプレイ1418は、例えば、ユーザがディスプレイ画面の異なる部分に触れることから入力信号を受信するように適合されるタッチスクリーンデバイス等、ユーザ入力デバイスおよびディスプレイデバイスの両方として動作してもよい。
【0117】
メモリ1404は、限定ではないが、オーディオ源分離ツール1406、コアモデル操作1408、機械学習訓練1410、訓練されたオーディオ分離モデル1412、オーディオ処理アプリケーション1414、および自己反復処理/訓練論理1416を含む、本明細書に開示されるシステムおよび方法を実装するためのプログラム論理を含む、論理デバイス1402による実行のためのプログラム命令を記憶する。オーディオ処理システム1400によって使用されるデータは、メモリ1404内に記憶され、および/またはデータ記憶装置1430内に記憶されてもよく、機械学習発話データセット1432、機械学習音楽/雑音データセット1434、オーディオステム1436、オーディオ混合物1438、および/または他のデータを含んでもよい。
【0118】
いくつかの実装では、1つまたはそれを上回るプロセスが、本明細書に説明されるようなオーディオ処理システム1400として実装され得るクラウドプラットフォーム等の遠隔処理システムを通して実装されてもよい。
【0119】
図15は、本明細書に説明されるような種々のRNNおよびモデルを含む、図1-14の実装のうちの1つまたはそれを上回るものにおいて使用され得る、例示的ニューラルネットワークを図示する。ニューラルネットワーク1500は、リカレントニューラルネットワーク、深層ニューラルネットワーク、畳み込みニューラルネットワーク、または入力オーディオサンプル毎にオーディオ出力1512(例えば、1つまたはそれを上回るオーディオステム)を生成するために標識化された訓練データセット1510を受信する、他の好適なニューラルネットワークとして実装される。種々の実装では、標識化された訓練データセット1510は、訓練データセット(図3)、自己反復訓練データセットまたはカリングされたデータセット(図4)、本明細書に説明される訓練方法に従って説明される訓練混合物およびデータセット(図5-13E)、または適宜、他の訓練データセット等の本明細書に説明されるような種々のオーディオサンプルおよび訓練混合物を含んでもよい。
【0120】
訓練されたニューラルネットワークモデルを発生させるための訓練プロセスは、オーディオステムまたは他の所望のオーディオ出力1512を生成するためのニューラルネットワーク1500を通したフォワードパスを含む。各データサンプルは、ニューラルネットワーク1500の所望の出力で標識化され、これは、オーディオ出力1512と比較される。いくつかの実装では、費用関数が、オーディオ出力1512における誤差を定量化するために適用され、ニューラルネットワーク1500を通したバックワードパスが、次いで、出力誤差を最小限にするためにニューラルネットワーク係数を調節するために使用されてもよい。
【0121】
訓練されたニューラルネットワーク1500は、次いで、検証のために確保された標識化された訓練データ1510のサブセットを使用して、正確度に関して試験されてもよい。訓練されたニューラルネットワーク1500は、次いで、本明細書に説明されるようなオーディオ源分離を実施するために、ランタイム環境においてモデルとして実装されてもよい。
【0122】
種々の実装では、ニューラルネットワーク1500は、入力層1520を使用して、入力データ(例えば、オーディオサンプル)を処理する。いくつかの実施例では、入力データは、本明細書に前述で説明されるようなオーディオサンプルおよび/またはオーディオ入力に対応し得る。
【0123】
入力層1520は、特徴抽出、スケーリング、サンプリングレート変換、および/または同等物を含み得る、ニューラルネットワーク1500への入力のための入力オーディオデータを調整するために使用される、複数のニューロンを含む。入力層1520内のニューロンはそれぞれ、1つまたはそれを上回る隠れ層1530の入力にフィードされる、出力を発生させる。隠れ層1530は、入力層1520からの出力を処理する、複数のニューロンを含む。いくつかの実施例では、隠れ層1530内のニューロンはそれぞれ、出力を発生させ、これは、集合的に、次いで、事前の隠れ層からの出力を処理する複数のニューロンを含む、付加的隠れ層を通して伝搬される。隠れ層1530の出力は、出力層1540にフィードされる。出力層1540は、隠れ層1530からの出力を調整し、所望の出力を発生させるために使用される、1つまたはそれを上回るニューロンを含む。ニューラルネットワーク1500のアーキテクチャが、代表的にすぎず、1つのみの隠れ層を伴うニューラルネットワーク、入力層および/または出力層を伴わないニューラルネットワーク、リカレント層を伴うニューラルネットワーク、および/または同等物を含む、他のアーキテクチャも、可能性として考えられることを理解されたい。
【0124】
いくつかの実施例では、入力層1520、隠れ層1530、および/または出力層1540はそれぞれ、1つまたはそれを上回るニューロンを含む。いくつかの実施例では、入力層1520、隠れ層1530、および/または出力層1540はそれぞれ、同一の数または異なる数のニューロンを含んでもよい。いくつかの実施例では、ニューロンはそれぞれ、その入力xの組み合わせ(例えば、訓練可能な加重行列Wを使用する加重和)をとり、随意の訓練可能なバイアスbを加算し、活性化関数fを適用し、方程式α=f(Wx+b)に示されるような出力αを発生させる。いくつかの実施例では、活性化関数fは、線形活性化関数、上限および/または下限を伴う活性化関数、対数-シグモイド関数、双曲線正接関数、整流化線形ユニット関数、および/または同等物であってもよい。いくつかの実施例では、ニューロンはそれぞれ、同一または異なる活性化関数を有してもよい。
【0125】
いくつかの実施例では、ニューラルネットワーク1500は、訓練データの組み合わせが、入力データおよびグラウンドトゥルース(例えば、予期される)出力データの組み合わせを含む、教師あり学習を使用して訓練されてもよい。発生されたオーディオ出力1512とグラウンドトゥルース出力データ(例えば、標識)との間の差異は、ニューラルネットワーク1500の中にフィードバックされ、種々の訓練可能な加重およびバイアスの補正を行う。いくつかの実施例では、差異は、確率的勾配降下アルゴリズムを使用する逆伝搬技法および/または同等物を使用してフィードバックされてもよい。いくつかの実施例では、訓練データ組み合わせの大きいセットが、全体的費用関数(例えば、各訓練組み合わせの差異に基づく平均平方誤差)が許容可能なレベルに収束するまで、ニューラルネットワーク1500に複数回提示されてもよい。
【0126】
例示的実装が、下記に記載される。
【0127】
1.オーディオ処理システムであって、単一トラックオーディオ混合物から1つまたはそれを上回るオーディオ源信号を分離するように訓練される、深層ニューラルネットワーク(DNN)を備える、オーディオ処理システム。
【0128】
2.DNNは、時間ドメインエンコーディングおよび/または時間ドメインデコーディングを伴わずに、信号入力を受信し、信号出力を発生させるように構成される、実施例1に記載のオーディオ処理システム。
【0129】
3.DNNは、窓関数を適用するように構成される、実施例1-2に記載のオーディオ処理システム。
【0130】
4.DNNは、重複加算プロセスを実施し、バンディングアーチファクトを平滑化する、実施例1-3に記載のオーディオ処理システム。
【0131】
5.オーディオ源分離は、マスクを適用することなく、実施される、実施例1-4に記載のオーディオ処理システム。
【0132】
6.DNNモデルは、48kHzサンプルレートを使用して訓練される、実施例1-5に記載のオーディオ処理システム。
【0133】
7.信号処理パイプラインは、48kHzにおいて動作する、実施例1-6に記載のオーディオ処理システム。
【0134】
8.入力オーディオ信号に適用される分離プロセスの強度を制御する、分離強さパラメータをさらに備える、実施例1-7に記載のオーディオ処理システム。
【0135】
9.複数の標識化された発話サンプルを備える、発話訓練データセットをさらに備える、実施例1-8に記載のオーディオ処理システム。
【0136】
10.複数の標識化された音楽および/または雑音データサンプルを備える、非発話訓練データセットをさらに備える、実施例1-9に記載のオーディオ処理システム。
【0137】
11.DNNモデルを訓練する際の使用のための標識化されたオーディオサンプルを発生させるように構成される、データセット発生モジュールをさらに備える、実施例1-10に記載のオーディオ処理システム。
【0138】
12.データセット発生モジュールは、自己反復データセット発生器である、実施例1-11に記載のオーディオ処理システム。
【0139】
13.データセット発生モジュールは、入力オーディオ混合物および/またはDNNから出力されるオーディオ源ステムから標識化されたオーディオサンプルを発生させるように構成される、実施例1-12に記載のオーディオ処理システム。
【0140】
14.事前/事後混合物拡張を適用するように構成される、データローダをさらに備える、実施例1-13に記載のオーディオ処理システム。
【0141】
15.DNNは、より低い可聴周波数範囲内でオーディオの別個のステムを認識するために、可聴周波数よりも高いものにおいて訓練される、実施例1-14に記載のオーディオ処理システム。
【0142】
16.データローダは、リバーブ、フィルタ、確率パラメータ等の拡張を適用するように構成される、実施例1-15に記載のオーディオ処理システム。
【0143】
17.相対的信号レベルに基づいて、訓練の間に標的未確認混合物の音品質に合致するようにさらに構成される、実施例1-16に記載のオーディオ処理システム。
【0144】
18.例示的方法であって、
【0145】
源分離のために訓練される訓練された推論モデルを使用して、オーディオ入力データを処理し、源分離ステムを発生させるステップと、
【0146】
源分離ステムから発話データセットを発生させるステップと、
【0147】
源分離ステムから雑音データセットを発生させるステップと、
【0148】
発話データセットおよび雑音データセットを使用して、更新された推論モデルを発生させるように推論モデルを訓練するステップと、
を含む、方法。
【0149】
19.更新された推論モデルを使用して、オーディオ入力データを処理するステップをさらに含む、実施例18に記載の方法。
【0150】
20.更新された推論モデルを再反復的に更新するステップをさらに含む、実施例18-19に記載の方法。
【0151】
21.訓練データセットは、オーディオ源に近似するサンプルを含むようにキュレートされる、実施例19-20に記載の方法。
【0152】
22.階層的ミックスバススキーマをさらに備える、実施例19-21に記載の方法。
【0153】
23.推論モデルは、多重音声源混合物を使用して訓練される、実施例19-22に記載の方法。
【0154】
24.推論モデルは、前景音声、背景音声、および/または遠方音声を使用して訓練される、実施例19-23に記載の方法。
【0155】
25.推論モデルは、第1のサンプルレートにおいて訓練され、より高いサンプルレートにアップスケーリングされる、実施例19-24に記載の方法。
【0156】
26.分離されたオーディオ源ステムを後処理し、源分離プロセスによって導入されたアーチファクトを除去するステップをさらに含む、実施例19-25に記載の方法。
【0157】
27.源分離ステムは、分離された源信号と、残りの補完信号とを含む、実施例19-26に記載の方法。
【0158】
28.源分離プロセスの間に導入されるアーチファクトは、クリック音、高調波歪み、ゴースト発生、および/または広帯域雑音を含む、実施例19-27に記載の方法。
【0159】
29.微調整プロセスは、ユーザ誘導自己反復処理を含む、実施例19-28に記載の方法。
【0160】
30.訓練の微調整のためにユーザ誘導拡張を促進するステップをさらに含む、実施例19-29に記載の方法。
【0161】
31.システムであって、複数のオーディオ源から発生されたオーディオ信号の混合物を備える、オーディオ入力ストリームを受信するように構成される、オーディオ入力と、オーディオ入力ストリームを受信し、発生される複数のオーディオステムを発生させるように構成される、訓練されたオーディオ源分離モデルであって、発生された複数のオーディオステムは、複数のオーディオ源の1つまたはそれを上回るオーディオ源に対応する、訓練されたオーディオ源分離モデルと、少なくとも部分的に、発生された複数のオーディオステムに基づいて、訓練されたオーディオ源分離モデルを更新されたオーディオ源分離モデルに更新するように構成される、自己反復訓練システムであって、更新されたオーディオ源分離モデルは、オーディオ入力ストリームを再処理し、複数の向上されたオーディオステムを発生させるように構成される、自己反復訓練システムとを備える、システム。
【0162】
32.オーディオ入力ストリームは、1つまたはそれを上回る単一トラックオーディオ混合物を備え、訓練されたオーディオ源分離モデルは、1つまたはそれを上回る単一トラックオーディオ混合物から1つまたはそれを上回るオーディオ源信号を分離するように訓練される、ニューラルネットワークを備える、実施例31に記載のシステム。
【0163】
33.ニューラルネットワークは、マスクを適用することなく、オーディオ源分離を実施するように構成される、実施例31-32に記載のシステム。
【0164】
34.標識化された源オーディオデータと、標識化された雑音オーディオデータとを備える、訓練データセットをさらに備え、訓練されたオーディオ源分離モデルは、訓練データセットを使用して、一般的源分離モデルを発生させるように訓練される、実施例31-33に記載のシステム。
【0165】
35.発生された複数のオーディオステムの少なくともサブセットは、閾値メトリックに基づいてカリングされ、訓練データセットに追加され、カリングされた動的に発展するデータセットを形成し、カリングされた動的に発展するデータセットは、更新されたオーディオ源分離モデルを訓練するために使用される、実施例31-34に記載のシステム。
【0166】
36.自己反復訓練システムはさらに、発生された複数のオーディオステムと関連付けられる第1の品質メトリックを計算するように構成され、第1の品質メトリックは、訓練されたオーディオ源分離モデルの第1の性能測度を提供し、自己反復訓練システムはさらに、向上されたオーディオステムと関連付けられる第2の品質メトリックを計算するように構成され、第2の品質メトリックは、更新されたオーディオ源分離モデルの第2の性能測度を提供し、第2の品質メトリックは、第1の品質メトリックを上回る、実施例31-35に記載のシステム。
【0167】
37.訓練されたオーディオ源分離モデルは、複数のデータセットを備える、訓練データセットを使用して訓練され、複数のデータセットはそれぞれ、源分離問題に対処するように本システムを訓練するように構成される、標識化されたオーディオサンプルを備える、実施例31-36に記載のシステム。
【0168】
38.複数のデータセットは、複数の標識化された発話サンプルを備える、発話訓練データセットおよび/または複数の標識化された音楽および/または雑音データサンプルを備える、非発話訓練データセットを備える、実施例31-37に記載のシステム。
【0169】
39.自己反復訓練システムはさらに、発生された複数のオーディオステムから標識化されたオーディオサンプルを発生させるように構成される、自己反復データセット発生モジュールを備える、実施例31-38に記載のシステム。
【0170】
40.複数の向上されたオーディオステムは、源信号および残りの補完信号を分離するステップを含む、階層的分岐的シーケンスを使用して発生される、実施例31-39に記載のシステム。
【0171】
41.方法であって、複数のオーディオ源から発生されたオーディオ信号の混合物を備える、オーディオ入力ストリームを受信するステップと、オーディオ入力ストリームを受信するように構成される、訓練されたオーディオ源分離モデルを使用して、複数のオーディオ源の1つまたはそれを上回るオーディオ源に対応する、発生される複数のオーディオステムを発生させるステップと、自己反復訓練プロセスを使用して、少なくとも部分的に、発生された複数のオーディオステムに基づいて、訓練されたオーディオ源分離モデルを更新されたオーディオ源分離モデルに更新するステップと、更新されたオーディオ源分離モデルを使用して、オーディオ入力ストリームを再処理し、複数の向上されたオーディオステムを発生させるステップとを含む、方法。
【0172】
42.オーディオ入力ストリームは、1つまたはそれを上回る単一トラックオーディオ混合物を備え、訓練されたオーディオ源分離モデルは、1つまたはそれを上回る単一トラックオーディオ混合物から1つまたはそれを上回るオーディオ源信号を分離するように訓練される、ニューラルネットワークを備える、実施例41に記載の方法。
【0173】
43.ニューラルネットワークは、マスクを適用することなく、オーディオ源分離を実施するように構成される、実施例41-42に記載の方法。
【0174】
44.標識化された源オーディオデータと、標識化された雑音オーディオデータとを備える、訓練データセットを提供するステップと、訓練データセットを使用して、一般的源分離モデルを発生させるように訓練されたオーディオ源分離モデルを訓練するステップとをさらに含む、実施例41-43に記載の方法。
【0175】
45.発生された複数のオーディオステムの少なくともサブセットを訓練データセットに追加し、動的に発展するデータセットを生成するステップと、閾値メトリックに基づいて、動的に発展するデータセットをカリングするステップと、カリングされた動的に発展するデータセットを使用して、更新されたオーディオ源分離モデルを訓練するステップとをさらに含む、実施例41-44に記載の方法。
【0176】
46.自己反復訓練プロセスはさらに、発生された複数のオーディオステムと関連付けられる第1の品質メトリックを計算するステップであって、第1の品質メトリックは、訓練されたオーディオ源分離モデルの第1の性能測度を提供する、ステップと、向上されたオーディオステムと関連付けられる第2の品質メトリックを計算するステップであって、第2の品質メトリックは、更新されたオーディオ源分離モデルの性能測度を提供する、ステップと、第2の品質メトリックを第1の品質メトリックと比較し、第2の品質メトリックが第1の品質メトリックを上回ることを確認するステップとを含む、実施例41-45に記載の方法。
【0177】
47.訓練されたオーディオ源分離モデルは、複数のデータセットを備える、訓練データセットを使用して訓練され、複数のデータセットはそれぞれ、異なる源分離問題に対処するようにオーディオ源分離モデルを訓練するように構成される、標識化されたオーディオサンプルを備える、実施例41-46に記載の方法。
【0178】
48.複数のデータセットは、複数の標識化された発話サンプルを備える、発話訓練データセットおよび/または複数の標識化された音楽および/または雑音データサンプルを備える、非発話訓練データセットを備える、実施例41-47に記載の方法。
【0179】
49.自己反復訓練プロセスはさらに、自己反復データセットのために発生された複数のオーディオステムから標識化されたオーディオサンプルを発生させるステップを含む、実施例41-48に記載の方法。
【0180】
50.源信号および残りの補完信号を分離するステップを含む、階層的分岐的シーケンスを使用して、複数の向上されたオーディオステムを発生させるステップをさらに含む、実施例41-49に記載の方法。
【0181】
適用可能な場合、本開示によって提供される種々の実装は、ハードウェア、ソフトウェア、またはハードウェアおよびソフトウェアの組み合わせを使用して実装されることができる。また、適用可能な場合、本明細書に記載される種々のハードウェアコンポーネントおよび/またはソフトウェアコンポーネントは、本開示の精神から逸脱することなく、ソフトウェア、ハードウェア、および/または両方を備える、複合コンポーネントに組み合わせられることができる。適用可能な場合、本明細書に記載される種々のハードウェアコンポーネントおよび/またはソフトウェアコンポーネントは、本開示の精神から逸脱することなく、ソフトウェア、ハードウェア、または両方を備える、サブコンポーネントに分離されることができる。
【0182】
非一過性命令、プログラムコード、および/またはデータ等の本開示によるソフトウェアは、1つまたはそれを上回る非一過性機械可読媒体上に記憶されることができる。また、本明細書に識別されるソフトウェアが、ネットワーク化され、および/または別様である、1つまたはそれを上回る汎用または専用コンピュータおよび/またはコンピュータシステムを使用して実装され得ることが想定される。適用可能な場合、本明細書に説明される種々のステップの順序付けは、本明細書に説明される特徴を提供するために、変更され、複合ステップに組み合わせられ、および/またはサブステップに分離されることができる。上記に説明される実装は、本発明を例証するが、それを限定しない。また、多数の修正および変形例が、本発明の原理に従って可能性として考えられることを理解されたい。故に、本発明の範囲は、以下の請求項によってのみ定義される。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図12
図13A
図13B
図13C
図13D
図13E
図14
図15
【国際調査報告】