(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-02-04
(45)【発行日】2025-02-13
(54)【発明の名称】ディープニューラルネットワークを使用した時変および非線形オーディオ信号処理
(51)【国際特許分類】
G10H 1/02 20060101AFI20250205BHJP
【FI】
G10H1/02
(21)【出願番号】P 2022568979
(86)(22)【出願日】2020-05-12
(86)【国際出願番号】 GB2020051150
(87)【国際公開番号】W WO2021229197
(87)【国際公開日】2021-11-18
【審査請求日】2023-05-12
【新規性喪失の例外の表示】特許法第30条第2項適用 (1)2019年(令和1年)5月15日 https://arxiv.org/pdf/1905.06148v1.pdfを通じて発表 (2)2019年(令和1年)10月22日 https://arxiv.org/pdf/1910.10105v1.pdfを通じて発表 (3)2020年(令和2年)1月16日 https://doi.org/10.3390/app10020638を通じて発表
(73)【特許権者】
【識別番号】524476424
【氏名又は名称】ウェイヴシェイパー テクノロジーズ インコーポレイテッド
(74)【代理人】
【識別番号】100136629
【氏名又は名称】鎌田 光宜
(74)【代理人】
【識別番号】100080791
【氏名又は名称】高島 一
(74)【代理人】
【識別番号】100125070
【氏名又は名称】土井 京子
(74)【代理人】
【識別番号】100121212
【氏名又は名称】田村 弥栄子
(74)【代理人】
【識別番号】100174296
【氏名又は名称】當麻 博文
(74)【代理人】
【識別番号】100137729
【氏名又は名称】赤井 厚子
(74)【代理人】
【識別番号】100152308
【氏名又は名称】中 正道
(74)【代理人】
【識別番号】100201558
【氏名又は名称】亀井 恵二郎
(74)【代理人】
【識別番号】100170184
【氏名又は名称】北脇 大
(72)【発明者】
【氏名】マルティネス ラミレス、マルコ アントニオ
(72)【発明者】
【氏名】レイス、ジョシュア ダニエル
(72)【発明者】
【氏名】ベネトス、エマヌエル
【審査官】大野 弘
(56)【参考文献】
【文献】特開2020-027245(JP,A)
【文献】Marco A. Martinez Ramirez et al.,Modeling Nonlinear Audio Effects with End-to-end Deep Neural Networks,ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP),2019年05月12日,pp171-175,DOI:10.1109/ICASSP.2019.8683529
【文献】Eero-Pekka Damskagg et al.,Deep Learning for Tube Amplifier Emulation,INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP),2019年05月12日,pp. 471-475,,DOI:10.1109/ICASSP.2019.8682805
(58)【調査した分野】(Int.Cl.,DB名)
G10H 1/00-1/46
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
オーディオ信号データを処理するコンピュータ実装方法であって、
振幅値の時系列を含む入力オーディオ信号データ(x)を受信するステップと、
前記入力オーディオ信号データ(x)を、前記入力オーディオ信号データ(x)の入力周波数帯域分解(X1)に変換するステップと、
前記入力周波数帯域分解(X1)を第1の潜在表現(Z)に変換するステップと、
第2の潜在表現(Z^、Z1^)を取得するために第1のディープニューラルネットワークによって前記第1の潜在表現(Z)を処理するステップと、
離散近似(X3^)を取得するために前記第2の潜在表現(Z^,Z1^)を変換するステップと、
変更された特徴マップを取得するために、前記離散近似(X3^)と残差特徴マップ(R,X5^)を要素ごとに乗算するステップであって、前記残差特徴マップ(R,X5^)は、前記入力周波数帯域分解(X1^)から導出される、ステップと、
波形整形された周波数帯域分解(X1^、X1.2^)を取得するために波形整形ユニットによって事前整形された周波数帯域分解を処理するステップであって、前記事前整形された周波数帯域分解は、前記入力周波数帯域分解(X1)から導出され、前記波形整形ユニットは、第2のディープニューラルネットワークを含む、ステップと、
合計出力(X0^)を取得するために前記波形整形された周波数帯域分解(X1^,X1.2^)と変更された周波数帯域分解(X2^,X1.1^)を合計するステップであって、前記変更された周波数帯域分解(X2^,X1.1^)は、前記変更された特徴マップから導出される、ステップと、
ターゲットオーディオ信号データ(y^)を取得するために前記合計出力(X0^)を変換するステップとを含む、
オーディオ信号データを処理するコンピュータ実装方法。
【請求項2】
前記入力オーディオ信号データ(x)を前記入力周波数帯域分解(X1)に変換するステップは、前記入力オーディオ信号データ(x)をカーネル行列(W1)で畳み込むステップを含む、請求項1に記載の方法。
【請求項3】
前記ターゲットオーディオ信号データ(y^)を取得するために前記合計出力(X0^)を変換するステップは、前記合計出力(X0^)を前記カーネル行列の転置(W1T)で畳み込むステップを含む、請求項2に記載の方法。
【請求項4】
前記入力周波数帯域分解(X1)を前記第1の潜在表現(Z)に変換するステップは、特徴マップ(X2)を取得するために前記入力周波数帯域分解(X1)の絶対値(|X1|)を重み行列(W2)で局所結合畳み込みするステップと、前記第1の潜在表現(Z)を取得するために前記特徴マップ(X2)を最大プーリングするステップとを含む、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記波形整形ユニットは、前記第2のディープニューラルネットワークに続く局所結合されたSmooth Adaptive活性化関数層をさらに含む、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記波形整形ユニットは、前記局所結合されたSmooth Adaptive活性化関数層に続く第1のSqueeze-and-Excitation層をさらに含む、請求項5に記載の方法。
【請求項7】
前記波形整形された周波数帯域分解(X1^、X1.2^)および前記変更された周波数帯域分解(X2^、X1.1^)のうちの少なくとも1つは、前記合計出力(X0^)
を生成するために合計する前にゲイン係数(se、se1、se2)によってスケーリングされる、請求項1~6のいずれか一項に記載の方法。
【請求項8】
カーネル行列(W1)および前記重み行列(W2)の各々は、128未満のフィルタ、任意選択で32未満のフィルタ、任意選択で8未満のフィルタを含む、請求項
4に記載の方法。
【請求項9】
前記第2のディープニューラルネットワークは、任意にそれぞれ32、16、16、および32の隠れユニットを含む第1~第4のDense層を含み、任意選択で、前記第2のディープニューラルネットワークの前記第1~第3のDense層の各々の後にはtanh関数が続く、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記波形整形ユニットにおいて、前記第1のSqueeze-and-Excitation層は、グローバル平均プーリング演算に先行する絶対値層を含む、請求項
6に記載の方法。
【請求項11】
前記入力周波数帯域分解(X1)を前記残差特徴マップ(R)として渡すステップと、
前記変更された特徴マップを前記事前整形された周波数帯域分解として渡すステップと、
前記変更された特徴マップを前記変更された周波数帯域分解(X2^、X1.1^)として渡すステップとをさらに含む、
請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記第1のディープニューラルネットワークは、複数の双方向長短期記憶層を含み、任意選択でSmooth Adaptive活性化関数層が続く、請求項11に記載の方法。
【請求項13】
前記複数の双方向長短期記憶層は、第1、第2、および第3の双方向長短期記憶層を含み、任意選択でそれぞれ64、32、および16ユニットを含む、請求項12に記載の方法。
【請求項14】
前記複数の双方向長短期記憶層の後に複数のSmooth Adaptive活性化関数層が続き、それぞれ任意選択で-1~+1の間の25個の間隔で構成される、請求項12または13に記載の方法。
【請求項15】
前記第1のディープニューラルネットワークは、複数の層を含むフィードフォワードWaveNetを含み、任意選択で前記
フィードフォワードWaveNetの最終層は全結合層である、請求項12に記載の方法。
【請求項16】
前記第1のディープニューラルネットワークは、複数の共有双方向長短期記憶層と、その後に並列に第1および第2の独立した双方向長短期記憶層を含み、
前記第2の潜在表現(Z1^)は、前記第1の独立した双方向長短期記憶層の出力から導出され、
前記波形整形ユニットにおいて、前記第1のSqueeze-and-Excitation層は、長短期記憶層をさらに含み、
前記方法は、
前記入力周波数帯域分解(X1)を前記事前整形された周波数帯域分解として渡すステップと、
第3の潜在表現(Z2^)を取得するために、前記第2の独立した双方向長短期記憶層を使用して前記第1の潜在表現(Z)を処理するステップと、
第4の潜在表現(Z3^)を取得するために、スパース有限インパルス応答層を使用して前記第3の潜在表現(Z2^)を処理するステップと、
前記残差特徴マップ(X5^)を取得するために、前記
入力周波数帯域
分解(X1)を前記第4の潜在表現(Z3^)で畳み込むステップと、
前記変更された周波数帯域分解(X2^、X1.1^)を取得するために、長短期記憶層を含む第2のSqueeze-and-Excitation層によって前記変更された特徴マップを処理するステップとをさらに含む、
請求項
6または1
0に記載の方法。
【請求項17】
前記複数の共有双方向長短期記憶層は、任意選択でそれぞれ64ユニットおよび32ユニットを含む、第1および第2の共有双方向長短期記憶層を含み、任意選択で前記第1および第2共有双方向長短期記憶層の各々は、tanh活性化関数を有する、請求項16に記載の方法。
【請求項18】
前記第1および第2の独立した双方向長短期記憶層の各々は、16ユニットを含み、任意選択で前記第1および第2の独立した双方向長短期記憶層の各々は、局所結合Smooth Adaptive活性化関数を含む、請求項16または17に記載の方法。
【請求項19】
前記スパース有限インパルス応答層は、
前記第3の潜在表現(Z2^)を入力として取る第1および第2の独立したDense層と、
前記第1および第2の独立したDense層のそれぞれの出力を入力として取るスパーステンソルであって、前記スパーステンソルの出力は、前記第4の潜在表現(Z3^)である、スパーステンソルとを含み、
任意選択で、前記第1および第2の独立したDense層は、それぞれtanh関数およびシグモイド関数を含む、
請求項16~18のいずれか一項に記載の方法。
【請求項20】
すべての前記畳み込みが時間次元に沿っており、ユニット値のストライドを有する、請求項
2~4および16のいずれか一項に記載の方法。
【請求項21】
前記ディープニューラルネットワークのうちの少なくとも1つが、チューブアンプ、歪み、スピーカーアンプ、ラダーフィルタ、パワーアンプ、イコライゼーション、イコライゼーションおよび歪み、コンプレッサー、リングモジュレータ、フェイザー、オペレーショナルトランスコンダクタンスアンプに基づくモジュレーション、バケットブリゲードディレイを使用したフランジャー、バケットブリゲードディレイを使用したモジュレーション、レスリースピーカーホーン、レスリースピーカーホーンおよびウーファー、フランジャーおよびコーラス、モジュレーションベース、モジュレーションベースおよびコンプレッサー、プレートおよびスプリングリバーブ、エコー、フィードバックディレイ、スラップバックディレイ、テープベースのディレイ、ノイズ主導の確率的効果、入力信号レベルに基づくダイナミックイコライゼーション、オーディオモーフィング、音色変換、位相ボコーダー、時間伸縮、ピッチシフト、タイムシャッフル、グラニュレーション、3Dラウドスピーカーセットアップモデリング、ならびに室内音響を含む群から選択された1つまたは複数のオーディオエフェクトを表すデータに応じて訓練される、請求項1~14および16~20のいずれか一項に記載の方法。
【請求項22】
コンピュータプログラムであって、前記プログラムがコンピュータによって実行されると、前記コンピュータに請求項1~21に記載の方法を実行させる命令を含む、コンピュータプログラム。
【請求項23】
請求項22に記載のコンピュータプログラムを含むコンピュータ可読記憶媒体。
【請求項24】
請求項1~21に記載の方法を実行するように構成されたプロセッサを含むオーディオ信号データ処理装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号処理、特にディープニューラルネットワークを使用するオーディオ信号処理に関する。
【背景技術】
【0002】
オーディオエフェクト(効果)は、音楽、ライブパフォーマンス、テレビ、映画、ビデオゲームなど、様々なメディアで広く使用されている。音楽制作のコンテキストでは、オーディオエフェクトは主に美的な理由で使用され、通常、ボーカルまたは楽器の録音のダイナミクス、空間化、音色、またはピッチを操作するために適用される。この操作は、線形または非線形、時不変または時変であり、短期記憶または長期記憶を備えることができるエフェクトユニットまたはオーディオプロセッサによって実現される。
【0003】
これらの効果のほとんどは、デジタルフィルタと遅延線を使用してデジタルドメインに直接実装できる。それにもかかわらず、特定のエフェクトユニットまたはアナログ回路、およびそれらの顕著な知覚特性のモデリングは、かなり研究されており、活発な分野であり続けている。これは、多くの場合、機械要素と共にアナログ回路が非線形で時変システムを生成し、デジタルで完全にエミュレートすることが難しいためである。
【0004】
オーディオエフェクトをモデリングする方法には、主に回路のモデリングと、真空管、オペアンプ、またはトランジスタなどの特定のアナログコンポーネントの最適化が含まれる。このようなオーディオプロセッサは、複雑でカスタマイズされたデジタル信号処理(DSP)アルゴリズムを必要とするため、簡単にはモデリングできない。これには、特定の回路に固有すぎるモデル、または特定の非線形性またはコンポーネントをモデリングする際に特定の仮定を行うことが必要になることがよくある。したがって、このようなモデルは、モデリングされる回路のタイプに関する専門知識が常に必要とされるため、異なるエフェクトユニットに簡単に移行することはできない。また、ミュージシャンは、デジタル実装がアナログリファレンスデバイスの広範な動作を欠いている可能性があるため、アナログの対応物を好む傾向がある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
オーディオエフェクトをモデリングするための既知の技術を改善する一般的な必要性がある。
【課題を解決するための手段】
【0006】
オーディオ信号データを処理するコンピュータ実装方法であって、振幅値の時系列を含む入力オーディオ信号データ(x)を受信するステップと、入力オーディオ信号データ(x)を、入力オーディオ信号データ(x)の入力周波数帯域分解(X1)に変換するステップと、入力周波数帯域分解(X1)を第1の潜在表現(Z)に変換するステップと、第2の潜在表現(Z^、Z1^)を取得するために第1のディープニューラルネットワークによって第1の潜在表現(Z)を処理するステップと、離散近似(X3^)を取得するために第2の潜在表現(Z^,Z1^)を変換するステップと、変更された特徴マップを取得するために、離散近似(X3^)と残差特徴マップ(R,X5^)を要素ごとに乗算するステップであって、残差特徴マップ(R,X5^)は、入力周波数帯域分解(X1^)から導出される、ステップと、波形整形された周波数帯域分解(X1^、X1.2^)を取得するために波形整形ユニットによって事前整形された周波数帯域分解を処理するステップであって、事前整形された周波数帯域分解は、入力周波数帯域分解(X1)から導出され、波形整形ユニットは、第2のディープニューラルネットワークを含む、ステップと、合計出力(X0^)を取得するために波形整形された周波数帯域分解(X1^,X1.2^)と変更された周波数帯域分解(X2^,X1.1^)を合計するステップであって、変更された周波数帯域分解(X2^,X1.1^)は、変更された特徴マップから導出される、ステップと、ターゲットオーディオ信号データ(y^)を取得するために合計出力(X0^)を変換するステップとを含む、コンピュータ実装方法が開示される。
【0007】
任意選択で、入力オーディオ信号データ(x)を入力周波数帯域分解(X1)に変換するステップは、入力オーディオ信号データ(x)をカーネル行列(W1)で畳み込むステップを含む。
【0008】
任意選択で、ターゲットオーディオ信号データ(y^)を取得するために合計出力(X0^)を変換するステップは、合計出力(X0^)をカーネル行列の転置(W1T)で畳み込むステップを含む。
【0009】
入力周波数帯域分解(X1)を第1の潜在表現(Z)に変換するステップは、任意選択で、特徴マップ(X2)を取得するために、入力周波数帯域分解(X1)の絶対値(|X1|)を重み行列(W2)で局所結合畳み込みするステップと、任意選択で、第1の潜在表現(Z)を取得するために、特徴マップ(X2)を最大プーリングするステップとを含む。
【0010】
任意選択で、波形整形ユニットは、第2のディープニューラルネットワークに続く局所結合されたSmooth Adaptive活性化関数層をさらに含む。
【0011】
任意選択で、波形整形ユニットは、局所結合されたSmooth Adaptive活性化関数層に続く第1のSqueeze-and-Excitation層をさらに含む。
【0012】
波形整形された周波数帯域分解(X1^、X1.2^)および変更された周波数帯域分解(X2^、X1.1^)のうちの少なくとも1つは、任意選択で、合計出力(X0^)を生成するために合計する前にゲイン係数(se、se1、se2)によってスケーリングされる。
【0013】
任意選択で、カーネル行列(W1)および重み行列(W2)の各々は、128未満のフィルタ、任意選択で32未満のフィルタ、任意選択で8未満のフィルタを含む。
【0014】
任意選択で、第2のディープニューラルネットワークは、任意にそれぞれ32、16、16、および32の隠れユニットを含む第1~第4のDense層を含み、任意選択で、第2のディープニューラルネットワークの第1~第3のDense層の各々の後にはtanh関数が続く。
【0015】
任意選択で、波形整形ユニットにおいて、第1のSqueeze-and-Excitation層は、グローバル平均プーリング演算に先行する絶対値層を含む。
【0016】
この方法は、入力周波数帯域分解(X1)を残差特徴マップ(R)として渡すステップをさらに含むことができる。この方法は、事前整形された周波数帯域分解として変更された特徴マップを渡すステップをさらに含むことができる。この方法は、変更された特徴マップを変更された周波数帯域分解(X2^、X1.1^)として渡すステップをさらに含むことができる。
【0017】
任意選択で、第1のディープニューラルネットワークは、複数の双方向長短期記憶層を含み、任意選択でSmooth Adaptive活性化関数層が続く。
【0018】
任意選択で、複数の双方向長短期記憶層は、第1、第2、および第3の双方向長短期記憶層を含み、任意選択でそれぞれ64、32、および16ユニットを含む。
【0019】
任意選択で、複数の双方向長短期記憶層の後に複数のSmooth Adaptive活性化関数層が続き、それぞれ任意選択で-1~+1の間の25個の間隔で構成される。
【0020】
任意選択で、第1のディープニューラルネットワークは、複数の層を含むフィードフォワードWaveNetを含み、任意選択でWaveNetの最終層は全結合層である。
【0021】
任意選択で、第1のディープニューラルネットワークは、複数の共有双方向長短期記憶層と、その後に並列に第1および第2の独立した双方向長短期記憶層を含む。任意選択で、第2の潜在表現(Z1^)は、第1の独立した双方向長短期記憶層の出力から導出される。任意選択で、波形整形ユニットにおいて、第1のSqueeze-and-Excitation層は、長短期記憶層をさらに含む。任意選択で、この方法は、入力周波数帯域分解(X1)を事前整形された周波数帯域分解として渡すステップをさらに含む。この方法は、第3の潜在表現(Z2^)を取得するために、第2の独立した双方向長短期記憶層を使用して第1の潜在表現(Z)を処理するステップをさらに含むことができる。この方法は、第4の潜在表現(Z3^)を取得するために、スパース有限インパルス応答層を使用して第3の潜在表現(Z2^)を処理するステップをさらに含むことができる。この方法は、前記残差特徴マップ(X5^)を取得するために、周波数帯域表現(X1)を第4の潜在表現(Z3^)で畳み込むステップをさらに含むことができる。この方法は、前記変更された周波数帯域分解(X2^、X1.1^)を取得するために、長短期記憶層を含む第2のSqueeze-and-Excitation層によって変更された特徴マップを処理するステップをさらに含むことができる。
【0022】
任意選択で、複数の共有双方向長短期記憶層は、任意選択でそれぞれ64ユニットおよび32ユニットを含む、第1および第2の共有双方向長短期記憶層を含み、任意選択で第1および第2共有双方向長短期記憶層の各々は、tanh活性化関数を有する。
【0023】
任意選択で、第1および第2の独立した双方向長短期記憶層の各々は、16ユニットを含み、任意選択で第1および第2の独立した双方向長短期記憶層の各々は、局所結合Smooth Adaptive活性化関数を含む。
【0024】
任意選択で、スパース有限インパルス応答層は、第3の潜在表現(Z2^)を入力として取る第1および第2の独立したDense層を含む。スパース有限インパルス応答層は、第1および第2の独立したDense層のそれぞれの出力を入力として取るスパーステンソルであって、スパーステンソルの出力は、第4の潜在表現(Z3^)である、スパーステンソルをさらに含むことができる。任意選択で、第1および第2の独立したDense層は、それぞれtanh関数およびシグモイド関数を含む。
【0025】
任意選択で、すべての畳み込みが時間次元に沿っており、ユニット値のストライドを有する。
【0026】
任意選択で、ディープニューラルネットワークのうちの少なくとも1つが、チューブアンプ、歪み、スピーカーアンプ、ラダーフィルタ、パワーアンプ、イコライゼーション、イコライゼーションおよび歪み、コンプレッサー、リングモジュレータ、フェイザー、オペレーショナルトランスコンダクタンスアンプに基づくモジュレーション、バケットブリゲードディレイを使用したフランジャー、バケットブリゲードディレイを使用したモジュレーション、レスリースピーカーホーン、レスリースピーカーホーンおよびウーファー、フランジャーおよびコーラス、モジュレーションベース、モジュレーションベースおよびコンプレッサー、プレートおよびスプリングリバーブ、エコー、フィードバックディレイ、スラップバックディレイ、テープベースのディレイ、ノイズ主導の確率的効果、入力信号レベルに基づくダイナミックイコライゼーション、オーディオモーフィング、音色変換、位相ボコーダー、時間伸縮、ピッチシフト、タイムシャッフル、グラニュレーション、3Dラウドスピーカーセットアップモデリング、ならびに室内音響を含む群から選択された1つまたは複数のオーディオエフェクトを表すデータに応じて訓練される。
【0027】
プログラムがコンピュータによって実行されると、コンピュータに本明細書の上記に開示された方法を実行させる命令を含むコンピュータプログラムが開示される。
【0028】
上記のコンピュータプログラムを含むコンピュータ可読記憶媒体が開示される。
【0029】
本明細書の上記に開示された方法を実行するように構成されたプロセッサを含むオーディオ信号データ処理装置も開示される。
【図面の簡単な説明】
【0030】
【
図1.1】CAFxのブロック図。適応型フロントエンド、合成バックエンド、および潜在空間DNN。
【
図1.2】フィードフォワードWaveNetのブロック図。膨張畳み込み層のスタックと後処理ブロック。
【
図2.0】CAFxとWaveNetに基づいて構築されたオーディオ信号処理アーキテクチャのブロック図。時変および非線形のオーディオエフェクトをモデリングできる。
【
図2.1】CRAFxのブロック図。適応型フロントエンド、潜在空間Bi-LSTM、および合成バックエンド。
【
図2.3】CWAFxのブロック図。適応型フロントエンド、潜在空間WaveNet、および合成バックエンド。
【
図2.4】レスリースピーカータスク(右チャネル)のテストデータセットから選択されたサンプルの結果。
図2.9aと
図2.9bは、波形とそれらのそれぞれのモジュレーションスペクトルを示している。縦軸は、振幅とガンマトーンの中心周波数(Hz)をそれぞれ表す。
【
図3.1】リスニングテストの評点結果を示すボックスプロット。
図3.2a プリアンプ、
図3.2b リミッター、
図3.2c レスリースピーカーのホーントレモロ、
図3.2d レスリースピーカーのウーファートレモロ、
図3.2e レスリースピーカーのホーンコラール、
図3.2f レスリースピーカーのウーファーコラール。
【
図4.1】CSAFxのブロック図。適応型フロントエンド、潜在空間、および合成バックエンド。
【
図4.3】CSAFxの合成バックエンドのブロック図。
【
図4.4】リスニングテストの評点結果を示すボックスプロット。上から順に、プレートリバーブタスクとスプリングリバーブタスク。
【発明を実施するための形態】
【0031】
実施形態は、オーディオエフェクトをモデリングするための改善された技術を提供する。
【0032】
近年、音楽用のディープニューラルネットワーク(DNN)が大幅に成長している。ほとんどの音楽アプリケーションは、音楽情報検索、音楽レコメンデーション、および音楽生成の分野にある。生のオーディオ信号がシステムの入力と出力の両方であるエンドツーエンドのディープラーニングアーキテクチャは、入力から出力まで学習する必要がある単一の分割不可能なタスクとして問題全体を処理できるブラックボックスモデリングアプローチに従う。したがって、所望の出力は、入力された生のオーディオ信号を直接学習および処理することによって取得され、これにより、必要な事前知識の量が削減され、エンジニアリングの労力が最小限に抑えられる。
【0033】
本発明以前には、この原理を使用する、すなわち生のオーディオ信号を直接処理するディープラーニングアーキテクチャは、オーディオエフェクトモデリングなどのオーディオ信号処理タスクについて検討されていなかった。
【0034】
それにもかかわらず、オーディオエフェクトモデリング用のDNNは、最近新興分野となり、エンドツーエンドの方法として、またはオーディオプロセッサのパラメータ推定器として研究されている。エンドツーエンドの研究のほとんどは、歪み効果などの短期記憶を備えた非線形オーディオプロセッサのモデリングに焦点を当てている。さらに、パラメータ推定に基づく方法は、固定のオーディオ信号処理アーキテクチャに基づいている。その結果、様々なタイプのオーディオエフェクトユニット間で一般化することは通常困難である。様々なタイプのオーディオエフェクトの幅広い特性を考慮に入れると、この一般化の欠如は強調され、その中には、非常に複雑な非線形および時変システムに基づいているものもあり、そのモデリング方法は依然として活発な分野である。
【0035】
オーディオエフェクトモデリングのコンテキストにおけるオーディオ信号処理のための汎用ディープラーニングアーキテクチャが開示される。したがって、動機は、すべてのタイプのオーディオエフェクトの一般的なブラックボックスモデリングのオーディオ信号処理ブロックとしてのDNNの実現可能性を実証することである。このようにして、任意のオーディオプロセッサを仮定すると、ニューラルネットワークは、この変換の固有の特性を学習して適用することができる。このアーキテクチャは、様々なタイプのオーディオエフェクトのサウンド、動作、および主な知覚機能を再現できる。デジタルオーディオエフェクトからのドメイン知識と共にDNNのモデリング機能に基づいて、様々なディープラーニングアーキテクチャを提案する。これらのモデルは、リファレンスのオーディオエフェクトの音響および知覚品質に一致するオーディオ信号を処理および出力できる。この開示を通じて、客観的な知覚ベースの測定基準と主観的なリスニングテストを介してモデルのパフォーマンスを測定する。
【0036】
出版物I:“End-to-end equalization with convolutional neural networks(畳み込みニューラルネットワークによるエンドツーエンドのイコライゼーション)”,Martinez Ramirez,M.A.;Reiss,J.D. In Proceedings of the 21st International Conference on Digital Audio Effects (DAFx-18),アヴェイロ,ポルトガル,4-8 2018年9月. http://dafx2018.web.ua.pt/papers/DAFx2018_paper_27.pdf 出版物I,これは、参照により本明細書に組み込まれ、線形オーディオエフェクトのエンドツーエンドのブラックボックスモデリング用のDNNである畳み込みEQモデリングネットワーク(CEQ)の派生物を含む。
【0037】
出版物II:“Modeling nonlinear audio effects with end-to-end deep neural networks(エンドツーエンドのディープニューラルネットワークを使用した非線形オーディオエフェクトのモデリング)”,Martinez Ramirez,M.A.;Reiss,J.D. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP),ブライトン,イギリス,12-17 2019月5月.https://ieeexplore.ieee.org/document/8683529 出版物II,これは、参照により本明細書に組み込まれ、非線形および線形オーディオエフェクトのブラックボックスモデリング用の畳み込みオーディオエフェクトモデリングネットワーク(CAFx)の派生物を含む。
【0038】
実施形態は、本明細書の以下の章で詳細に説明される。
【0039】
1-非線形オーディオエフェクトのモデリング
この章では、出版物IのCEQモデリングネットワークに基づいて、歪み効果などのはるかにより複雑な変換をエミュレートする。したがって、短期記憶を使用して非線形および線形のオーディオエフェクトをモデリングするための新しいディープラーニングアーキテクチャであるCAFxを導入する。また、wavenetアーキテクチャのフィードフォワードバリアントに基づく非線形モデリングネットワークも提供する。
【0040】
歪み効果は主に美的な理由で使用され、通常は電子楽器に適用される。非線形モデリングの既存の方法のほとんどは、単純化されているか、非常に特定の回路に最適化されていることがよくある。したがって、この章では、非線形オーディオエフェクトのブラックボックスモデリング用の汎用エンドツーエンドDNNを研究する。
【0041】
線形および非線形のオーディオエフェクトと短期記憶の任意の組み合わせについて、モデルはターゲットのオーディオ信号に一致させるためにオーディオ信号を直接処理する方法を学習する。非線形性を仮定すると、xとyをそれぞれ生のオーディオ信号と歪んだオーディオ信号と考える。ターゲットyに一致するy^を取得するために、非線形タスクに基づいてxを変更するようにDNNを訓練する。
【0042】
非線形システムの解を明示的に取得することなく、コンテンツベースの変換として非線形エミュレーションを提供する。畳み込み層とDense層に基づくモデルであるCAFxは、SAAFなどの適応型活性化関数を組み込むことができることを報告する。これは、非線形モデリングなどのオーディオ信号処理タスクでウェーブシェイパー(waveshaper;波形整形器)として機能するようにSAAFを明示的に訓練するためである。したがって、歪み効果は波形整形の非線形性によって特徴付けられるため、DNNモデリングフレームワーク内で訓練可能なウェーブシェイパーとして機能するように、任意の連続関数を近似できるSAAFの滑らかな属性を頼りにする。
【0043】
このようにして、DNNの機能を、非線形オーディオエフェクトのモデリングのコンテキストでのオーディオ信号処理ブロックとして提供する。波形整形の非線形性などの特定のドメイン知識を使用することで、短期記憶で非線形オーディオ信号処理タスクを実行する際のDNNの関数近似機能を向上させる。
【0044】
同じ非線形モデリングタスクを通じて、時間膨張畳み込みのみに基づくモデルであるWaveNetを分析する。知覚ベースの客観的測定基準を介してモデルのパフォーマンスを測定し、歪み、オーバードライブ、アンプエミュレーション、ならびに、線形および非線形のデジタルオーディオエフェクトの組み合わせをモデリングする場合、両方のモデルが同様に機能することを報告する。
【0045】
次のセクションでは、様々なモデリングネットワークのアーキテクチャを示す。すべてのモデルは、完全に時間領域とエンドツーエンドに基づいており、生のオーディオ信号を入力として、処理されたオーディオ信号を出力として使用する。コードは、オンラインで入手できる(https://github.com/mchijmma/DL-AFx/tree/master/src)。
【0046】
1.1-畳み込みオーディオエフェクトモデリングネットワーク-CAFX
【0047】
このモデルは、適応型フロントエンド、合成バックエンド、潜在空間DNNの3つの部分に分かれている。このアーキテクチャは、短期記憶を使用して非線形オーディオエフェクトをモデリングするように設計されており、カスケード入力フィルタ、訓練可能な波形整形の非線形性、および出力フィルタの並列組み合わせに基づいている。
【0048】
すべての畳み込みは時間次元に沿っており、すべてのストライドはユニット値である。これは、畳み込み中にフィルタを一度に1サンプルずつ移動させることを意味する。また、出力が入力の分解能を維持するように、入力特徴マップの両側でパディングが行われる。膨張は導入されない。
【0049】
モデルを
図1.1に示し、その構造を表1.1で詳しく説明する。サイズ1024の入力フレームを使用し、ホップサイズ256サンプルでサンプリングする。
【0050】
適応型フロントエンドと潜在空間DNNは、CEQとまったく同じである(出版物Iを参照)。主な違いは、Dense層とSAAFがバックエンドに組み込まれていることである。これは、モデルが歪み効果を特徴付ける波形整形の非線形性を学習できるようにするためである。
【0051】
【0052】
適応型フロントエンド
【0053】
適応型フロントエンドは、畳み込みエンコーダを含む。これには、2つの畳み込み層(1つのプーリング層と1つの残差接続)が含まれる。フロントエンドは、その畳み込み層が各々のモデリングタスクのフィルタバンクをオーディオ信号から直接学習するため、適応性があると見なされる。
【0054】
第1の畳み込み層の後に非線形活性化関数として絶対値が続き、第2の畳み込み層は局所結合(LC)される。これは、各々のフィルタが入力特徴マップのその対応する行にのみ適用されるため、フィルタバンクアーキテクチャに従うことを意味する。後の層の後には、ソフトプラスの非線形性が続く。最大プーリング層は、サイズ16の移動窓であり、各々の窓内の最大値が出力に対応し、最大値の位置が保存され、バックエンドによって使用される。第1の層によって実行される演算は、次のように記述することができる。
【0055】
【0056】
式中、W1は第1の層からのカーネル行列であり、X1は入力オーディオ信号xがW1で畳み込まれた後の特徴マップである。重みW1は、サイズ64の128個の1次元フィルタを含む。残差接続RはX1に等しく、これは入力xの周波数帯域分解に対応する。これは、畳み込み1Dの各々のフィルタの出力が周波数帯域として見られ得るためである。
【0057】
第2の層で実行される演算は、次の式によって記述される。
【0058】
【0059】
式中、X2(i)とW2(i)は、それぞれ特徴マップX2とカーネル行列W2のi番目の行である。したがって、X2は、サイズ128の128個のフィルタをもつ畳み込み1D-局所の重み行列であるW2とのLC畳み込みの後に取得される。f2()は、ソフトプラス関数である。
【0060】
適応型フロントエンドは、生のオーディオ信号で時間領域の畳み込みを実行し、各々のオーディオエフェクトモデリングタスクの潜在表現を学習するように設計されている。また、特定のオーディオエフェクト変換に基づいて波形の合成を容易にするためにバックエンドで使用される残差接続も生成する。
【0061】
これは、完全な入力データが潜在空間にエンコードされ、デコーダー内の各々の層に完全な目的の出力のみを生成させる、従来のエンコード方法(Heら,2016)とは異なる。さらに、Engelら(2017)、Oordら(2016)のような完全なエンコーディングアプローチは、非常に深いモデル、大規模なデータセット、および困難な訓練手順を必要とする。
【0062】
第1の層の活性化関数として絶対値を使用し、より大きなフィルタW2を有することにより、フロントエンドがエンベロープなどの着信オーディオ信号のよりスムーズな表現を学習することが期待される(Venkataramaniら(2017)。
【0063】
潜在空間DNN
【0064】
潜在空間DNNには、2つのDense層が含まれている。フィルタバンクアーキテクチャに従って、第1の層はLC Dense層に基づいており、第2の層はFC層を含む。DNNは、潜在表現Zを新しい潜在表現Z^に変更し、これは合成バックエンドに供給される。第1の層は、行列Zの各々の行に異なるDense層を適用し、第2の層は、第1の層からの出力行列の各々の行に適用される。両方の層において、すべてのDense層には、64個の隠れユニットがあり、その後にソフトプラス関数(fh)が続き、チャネル次元ではなく完全な潜在表現に適用される。
【0065】
潜在空間DNNによって実行される演算は、次の通りである。
【0066】
【0067】
式中、Zh^(i)は、LC層の出力特徴マップZh^のi行目である。同様に、V1(i)は、LC層の重み行列V1に対応するi番目のDense層である。V2は、FC層の重みに対応する。
【0068】
最大プーリング演算Zの出力は、エンベロープなどのEQタスクが与えられた入力オーディオ信号の最適な潜在表現に対応する。DNNは、これらのエンベロープを変更するように訓練されているため、ターゲットタスクに一致するオーディオ信号を再構築するために、新しい潜在表現または一連のエンベロープZ^が合成バックエンドに供給される。
【0069】
合成バックエンド
【0070】
合成バックエンドは、次のステップによって非線形タスクを遂行する。最初に、X2の離散近似であるX2^を、変更されたエンベロープZ^を逆プーリングすることによって取得する。そして、特徴マップX1^は、残差接続RとX2^の要素ごとの乗算の結果である。これは、フロントエンドで取得された周波数帯域分解の各々に異なるエンベロープゲインが適用されるため、入力フィルタリング演算と見なすことができる。
【0071】
第2のステップは、X1^に様々な波形整形の非線形性を適用することである。これは、Dense層とSmooth Adaptive活性化関数(DNN-SAAF)を含む処理ブロックで実現される。DNN-SAAFは、4つのFC Dense層を含む。最後の層を除いて、すべてのDense層の後にはソフトプラス関数が続く。局所結合SAAFは、最後の層の非線形性として使用される。全体として、各々の関数は局所結合されており、-1~+1の間の25の間隔で構成されている。
【0072】
パラメトリックおよびノンパラメトリックReLU、双曲線正接、シグモイド、5次多項式など、様々な標準および適応型活性化関数をテストした。それにもかかわらず、非線形効果をモデリングするときに、安定性の問題と最適でない結果が見つかった。各々のSAAFは明示的にウェーブシェイパーとして機能するため、DNN-SAAFは、フィルタバンクアーキテクチャに従い、変更された周波数分解X1^のチャネル次元に適用される、一連の訓練可能な波形整形の非線形性のセットとして振る舞うように制約される。
【0073】
最後に、最後の層はデコンボリューション演算に対応し、第1の層の変換を転置することで実装できる。CEQと同様に、この層は、そのカーネルがW1の転置バージョンであるため、訓練できない。このようにして、バックエンドは、フロントエンドがオーディオ信号波形を分解したのと同じ方法でオーディオ信号波形を再構築する。完全な波形は、ハン窓と一定のオーバーラップ加算ゲインを使用して合成される。
【0074】
【0075】
1.2 フィードフォワードwavenetオーディオエフェクトモデリングネットワーク-WaveNet
【0076】
WaveNetアーキテクチャは、元の自己回帰モデルのフィードフォワードバリエーションに対応している。非線形モデリングなどの回帰タスクの場合、予測されたサンプルはモデルにフィードバックされないが、モデルが単一の順方向伝播で一連のサンプルを予測するスライディング入力窓を介してフィードバックされる。フィードフォワードwavenetの実装は、Damskaggら(2019)およびRethageら(2018)によって提案されたアーキテクチャに基づいている。このモデルは、2つの部分:膨張畳み込みのスタックと後処理ブロックに分かれている。モデルを
図1.2に示し、その構造を表1.2に示す。
【0077】
【0078】
膨張係数が1,2,...,32の6つの膨張畳み込み層の2つのスタックと、サイズが3の16個のフィルタを使用する。
図1.1から、膨張畳み込みのスタックの前に、入力xは、3×1の畳み込みを介して16チャネルに射影される。これは、膨張畳み込みの特徴マップ内のチャネル数を一致させるためである。膨張畳み込みのスタックは、入力特徴マップRinを3×1のゲート畳み込みと指数関数的に増加する膨張係数で処理する。この演算は次のように記述できる。
【0079】
【0080】
式中、WfとWgはフィルタとゲート畳み込みカーネル、tanhとσは双曲線正接とシグモイド関数、*と×は畳み込みと要素ごとの乗算の演算子である。残差出力接続Routとスキップ接続Sは、zに適用される1×1の畳み込みを介して取得される。したがって、Sは後処理ブロックに送信され、Routが現在の入力行列Rinに加算され、こうして次の膨張畳み込み層の残差入力特徴マップが得られる。
【0081】
後処理ブロックは、ReLUが後に続くすべてのスキップ接続Sを合計することで構成される。最終的な2つの3×1の畳み込みが結果の特徴マップに適用され、これには2048と256のフィルタが含まれ、ReLUによって区切られている。最後のステップとして、単一チャネル出力オーディオ信号y^を取得するために、1×1の畳み込みが導入される。
【0082】
wavenetアーキテクチャのリセプティブフィールドrfは、次の式で計算できる(Oordら,2016)。
【0083】
【0084】
式中、nはスタックの数であり、fkはフィルタのサイズであり、Dは膨張層の数であり、diは各々の膨張係数に対応する。このアーキテクチャでは、モデルのリセプティブフィールドは253サンプルであり、ターゲットフィールドtfは1024サンプルである。したがって、モデルに提示される入力フレームifは、1276サンプルのスライディングウィンドウを含み、次のように計算される(Rethageら,2018)。
【0085】
【0086】
次の章では、これらのアーキテクチャに基づき、RNNと潜在空間の一時的な膨張畳み込みを提供して、ダイナミックレンジ圧縮または様々なモジュレーション効果などの長期記憶を含む変換をモデリングする。
【0087】
2-時変オーディオエフェクトのモデリング
パラメータが時間の経過と共に定期的に変更されるオーディオエフェクトは、多くの場合、時変またはモジュレーションベースのオーディオエフェクトと呼ばれる。さらに、時不変のオーディオエフェクトの幅広いファミリー(例えば、コンプレッサー)は、長期的な依存関係に基づいている。線形挙動を仮定するか、特定の非線形回路コンポーネントを省略することにより、これらの効果のほとんどは、デジタルフィルタと遅延線を使用してデジタルドメインに直接実装できる。
【0088】
それにもかかわらず、ミュージシャンはアナログの対応物を好む傾向があり、現在の方法は非常に特定の回路に最適化されていることが多いため、このタイプのエフェクトのモデリングは依然として活発な分野である。したがって、このようなモデルは、モデリングされている回路のタイプに関する専門知識が常に必要であり、長期記憶を備えた他の時変または時不変のオーディオエフェクトに効率的に一般化できないため、様々なエフェクトユニットに簡単に移すことはできない。
【0089】
前の章のアーキテクチャは、長い時間依存関係をもつ変換に一般化されていないため、この章では、これらのエフェクトユニットを特徴付ける長期記憶を学習するためのエンドツーエンドのDNNの機能を提供する。CAFxとWaveNetのアーキテクチャに基づき、CRAFxとCWAFxという2つの新しい汎用モデリングネットワークを提案する。以前のモデルの適応型フロントエンドおよびバックエンド構造に基づいて、双方向長短期記憶(Bi-LSTM)層または時間膨張畳み込みに基づく潜在空間は、時変変換を学習できる。コードは、オンラインで入手でき:https://github.com/mchijmma/DL-AFx/tree/master/src、パラメータの数と計算の複雑さは、付録Aに示されている。
【0090】
したがって、長期記憶を備えたオーディオプロセッサの一般的なブラックボックスモデリングのためのディープラーニングアーキテクチャを導入する。コーラス、フランジャー、フェイザー、トレモロ、ビブラート、LFOベースのオートワウ、リングモジュレータ、レスリースピーカーなどのモジュレーションベースのオーディオエフェクトのデジタル実装に対応するモデルを示す。さらに、エンベロープフォロワー、コンプレッサー、およびマルチバンドコンプレッサーを使用したオートワウなど、時間依存性が長い非線形時不変オーディオエフェクトを含めることで、モデルのアプリケーションを拡張する。また、非線形時変オーディオ変換をモデリングする際のネットワークの機能をテストするために、オーバードライブなどの非線形性を線形時変エフェクトユニットに導入する。
【0091】
時変システムの解を明示的に取得することなく、コンテンツベースの変換として線形および非線形の時変エミュレーションを提供する。モデルのパフォーマンスを測定するために、モジュレーション周波数知覚の心理音響学に基づいた客観的な測定基準を提案する。また、モデルが実際に学習しているものと、与えられたタスクがどのように達成されるかを分析する。
【0092】
図2.0を参照すると、全体の構造は、適応型フロントエンド、潜在空間DNN、および合成バックエンドの3つの部分に基づいている。
【0093】
まず、入力オーディオ信号xが、潜在表現Zにサブサンプリングされる特徴マップX2に変換される。これは、例えば、畳み込みカーネルW1およびW2のフィルタバンクアーキテクチャを介して、2つの連続する畳み込みを介して行うことができる。
【0094】
また、第1の畳み込みによって、周波数帯域分解X1が得られ、そこから残差特徴マップRを導出することができる。残差特徴マップRは、さらなる入力からさらに導出することができる。
【0095】
潜在表現Zは、新しい潜在表現Z^、Z^1に変更される。これは、DNNを介して行うことができる。
【0096】
新しい潜在表現は、逆プーリングまたはアップサンプリング演算などによって、特徴マップX3^にアップサンプリングされる。
【0097】
X3^を使用して、X3^とRを要素ごとに乗算するなどして、残差特徴マップR(または事前に変更されたバージョンX5^)を変更し、こうして時変効果のあるオーディオストリームに対応する特徴マップX2^、X^1.1を取得することができる。
【0098】
R、X5^は、波形整形DNNを介してさらに変更され、こうして短期記憶変換(つまり、ウェーブシェイパー)を備えたオーディオストリームに対応する特徴マップX1^、X1.2^を取得する。
【0099】
X2^、X^1.1と、X1^、X1.2^は、周波数帯域分解X0^に合計され、そこからターゲットオーディオ信号y^が再構築される。再構築は、デコンボリューションによって行うことができる。任意選択で、W1の転置カーネル(W1T)を使用してデコンボリューションを実装できる。
【0100】
この合計により、時変効果を備えた(つまり、長期記憶を伴うモジュレーションベースまたはエンベロープベースの)オーディオストリームを、時変効果のないオーディオストリーム(つまり、波形整形変換を伴う、または伴わない入力オーディオ信号ストリーム)と混合できる。
【0101】
2.1 畳み込み再帰型オーディオエフェクトモデリングネットワーク-CRAFx
【0102】
CRAFxモデルは、CAFXアーキテクチャに基づき、これもまた、適応型フロントエンド、潜在空間、合成バックエンドの3つの部分に分かれている。ブロック図を
図2.1に見ることができ、その構造を表2.1に詳しく示す。主な違いは、潜在空間へのBi-LSTMの組み込みと、合成バックエンド構造の変更である。これは、モデルが長い時間依存関係を伴う非線形変換を学習できるようにするためである。また、128チャネルの代わりに、Recurrent層の訓練時間のために、このモデルは、32チャネルまたはフィルタのフィルタバンク構造を使用する。
【0103】
モデルが長期記憶依存関係を学習できるようにするために、入力は、現在の時間ステップtでのオーディオフレームxを含み、k個の前のフレームとk個の後続のフレームと連結される。これらのフレームのサイズはNで、ホップサイズτでサンプリングされる。連結された入力xは、次のように記述される。
【0104】
【0105】
適応型フロントエンドは、CAFxのものとまったく同じであるが、その層は時間分散される、つまり、同じ畳み込みまたはプーリング演算が、2k+1個の入力フレームの各々に適用される。最大プーリング演算は、サイズN/64の移動窓である。このモデルでは、Rは、現在の入力フレームx(0)の周波数帯域分解に対して対応するX1内の行である。したがって、バックエンドは、過去および後続のコンテキストフレームから情報を直接受け取らない。
【0106】
【0107】
潜在空間Bi-LSTM
【0108】
潜在空間は、それぞれ64、32、および16ユニットの3つのBi-LSTM層を含む。Bi-LSTMは、フロントエンドによって学習され、2k+1個の入力フレームに関する情報を含む潜在空間表現Zを処理する。これらのRecurrent層は、一連の非線形モジュレータZ^も学習しながら、Zの次元を低減するように訓練される。この新しい潜在表現またはモジュレータは、時変モデリングタスクに一致するオーディオ信号を再構築するために、合成バックエンドに供給される。各々のBi-LSTMのDropout率とRecurrent Dropout率は0.1であり、最初の2つの層は、活性化関数としてtanhを有する。また、最後のRecurrent層の非線形性は、局所結合SAAFである。
【0109】
セクション1.1に示すように、局所結合SAAFが最後の層の非線形性として使用される。これは、SAAFの滑らかな特性を利用するためであり、SAAFは、それぞれの時変エフェクトユニットのモジュレータなどの任意の連続関数を近似できる。各々のSAAFは、-1~+1の間の25の間隔で構成される。
【0110】
合成バックエンド
【0111】
合成バックエンドは、周波数帯域分解Rと非線形モジュレータZ^を処理することにより、ターゲットオーディオ信号の再構成を実現する。CAFxと同様に、バックエンドは逆プーリング層、DNN-SAAFブロック、および最終的な畳み込み層を含む。DNN-SAAFブロックは、それぞれ32、16、16、および32の隠れユニットの4つのDense層を含む。SAAF層が続く最後のものを除いて、各々のDense層の後にはtanh関数が続く。CRAFxのバックエンドの新しい構造には、DNN-SAAFブロック(DNN-SAAF-SE)の後にSqueeze-and-Excitation(SE)(Huら、2018)層が組み込まれている。
【0112】
SEブロックは、特徴マップのチャネル単位の情報を適応的にスケーリングすることにより、チャネル間の相互依存性を明示的にモデリングする(Huら、2018)。したがって、DNN-SAAFの出力であるX1^’の特徴マップチャネルの各々に動的ゲインを適用するSEブロックを提案する。Kimら(2018)の構造に基づいて、SEは、グローバル平均プーリング演算と、それに続く2つのFC層を含む。FC層の後には、ReLUとシグモイド活性化関数がそれに応じて続く。
【0113】
バックエンド内の特徴マップは時間領域の波形に基づいているため、グローバル平均プーリング演算の前に絶対値層を組み込む。
図2.2は、入力と出力が、それぞれ特徴マップX2^とX1^であるDNN-SAAF-SEのブロック図を示している。
【0114】
フィルタバンクアーキテクチャに従って、バックエンドは次のステップによって時変タスクを照合する。最初に、学習したモジュレータZ^にアップサンプリング演算が適用され、その後に残差接続Rを使用した要素ごとの乗算が続く。これは、Rのチャネルまたは周波数帯域の各々に対する周波数依存の振幅モジュレーションと見なすことができる。
【0115】
【0116】
この後、DNN-SAAF-SEブロックからの非線形波形整形とチャネルごとにスケーリングされたフィルタが続く。したがって、モジュレーションされた周波数帯域分解X2^は、DNN-SAAF層から学習したウェーブシェイパーによって処理され、特徴マップX1^’が得られる。これは、SE層からの周波数依存ゲインであるseによってさらにスケーリングされる。結果として得られる特徴マップX1^は、オーディオエフェクトモデリングタスク内の非線形短期記憶変換をモデリングしたものと見なすことができる。
【0117】
【0118】
その後、X1^がX2^に足し戻され、非線形フィードフォワード遅延線として機能する。
【0119】
【0120】
したがって、バックエンドの構造は、LFO、デジタルフィルタ、および遅延線を使用して、モジュレーションベースのエフェクトがデジタルドメインで実装される一般的なアーキテクチャによって通知される。
【0121】
最後に、完全な波形が、CAFxと同じ方法で合成され、最後の層は、転置された訓練不可能なデコンボリューション演算に対応する。セクション2.1で述べたように、ユニット値のストライドを使用し、膨張は組み込まれず、CAFxと同じパディングに従う。
【0122】
2.2 畳み込みおよびWavenetオーディオエフェクトモデリングネットワーク-CWAFx
【0123】
CRAFxからの畳み込みおよびDenseアーキテクチャと、WaveNetの膨張畳み込みとの組み合わせに基づく新しいモデルを提案する。前者のBi-LSTM層は、入力およびコンテキストオーディオフレームからの長い時間依存関係の学習を担当していたため、これらのRecurrent層をフィードフォワードWavenetに置き換える。Bi-LSTMがこのタイプの時間的畳み込みにうまく置き換えられているMatthewDavies and Bоck(2019)のように、逐次的な問題を学習する場合、膨張畳み込みは再帰的アプローチよりも優れていることが示されている(Baiら、2018)。
【0124】
したがって、積み重ねられた膨張畳み込みに基づく潜在空間は、周波数依存の振幅モジュレーション信号を学習できることが分かる。モデルを
図2.3に示す。適応型フロントエンドと合成バックエンドは、CRAFxで提示されたものと同じである。
【0125】
潜在空間Wavenet
【0126】
潜在空間Wavenetの構造は、表2.2で詳しく説明されている。
【0127】
入力フレームサイズが4096サンプルで±4のコンテキストフレームのCWAFxでは、フロントエンドからの潜在表現Zは、64サンプルの9行と32チャネルに対応し、576サンプルと32チャネルの特徴マップに展開できる。したがって、これらの入力次元を、リセプティブフィールドとターゲットフィールドがそれぞれ510サンプルと64サンプルの潜在空間Wavenetで近似する。したがって、式(1.2)に基づいて、1,2,...,64の膨張係数とサイズ3の32のフィルタをもつ7つの膨張畳み込み層の2つのスタックを使用する。また、スキップ接続Sの次元を維持し、最終的な1×1の畳み込みをFC層に置き換えることで、より良好なフィッティングを実現した。後者には、64個の隠れユニットがあり、その後にtanh活性化関数が続き、潜在次元に沿って適用される。
【0128】
【0129】
2.3 実験
【0130】
2.3.1 訓練
【0131】
同様に、CRAFxとCWAFxの訓練には、CEQとCAFxと同じ初期化ステップが含まれる。フロントエンドとバックエンドの畳み込み層が事前に訓練されると、DNN-SAAF-SEブロックと潜在空間Bi-LSTMおよびWavenet層がそれぞれのモデルに組み込まれ、すべての重みがエンドツーエンドの教師あり学習タスクに従って訓練される。
【0132】
最小化される損失関数は、ターゲット波形と出力波形の間の平均絶対誤差である。1024~8192サンプルの入力サイズフレームを提供し、ホップサイズが50%の長方形窓を常に使用する。バッチサイズは、オーディオサンプルあたりの合計フレーム数で構成されていた。
【0133】
Adam(Kingma and Ba、2015)をオプティマイザーとして使用し、200エポックの事前訓練と500エポックの教師あり訓練を実行する。収束を早めるために、第2の訓練ステップの間、5・10-5の学習率から始めて、150エポックごとに50%ずつ減らす。検証サブセットの誤差が最小のモデルを選択する。
【0134】
2.3.2 データセット
【0135】
コーラス、フランジャー、フェイザー、トレモロ、ビブラートなどのモジュレーションベースのオーディオエフェクトは、IDMT-SMT-Audio-Effectsデータセット(Steinら、2010)から取得された。録音は、エレクトリックギターとベースギターの生の音と、それぞれのエフェクト後のバージョンを含む個々の2秒の音に対応している。これらのエフェクトは、VSTオーディオプラグインなどのエフェクトユニットのデジタル実装に対応している。実験では、上記のエフェクトの各々に対して、ベースギターの未処理および処理済みオーディオ信号を取得した設定#2のみを使用した。また、ベースギターの生のオーディオ信号を処理して、中心周波数が500Hz~3kHzの範囲で、5Hzの正弦波でモジュレーションされるピークフィルタを備えたLFOベースのオートワウを実装した。
【0136】
前のオーディオエフェクトは線形時変であるため、これらのエフェクトの各々に非線形性を追加して、モデルの機能をさらにテストする。したがって、ベースギターのウェットなオーディオ信号を使用して、SoXを使用して、各々のモジュレーションベースのエフェクトの後にオーバードライブ(ゲイン=+10dB)を適用する。
【0137】
また、リングモジュレータとレスリースピーカーの仮想アナログ実装を使用して、エレクトリックギターの生のオーディオ信号を処理する。リングモジュレータの実装は、Parker(2011b)に基づいており、5Hzのモジュレータ信号を使用する。レスリースピーカーの実装は、Smithら(2002)に基づいており、ステレオチャネルの各々をモデリングする。
【0138】
最後に、エンベロープフォロワーに基づくコンプレッサーおよびオートワウなど、長い時間依存性を伴う非線形時不変オーディオエフェクトを備えたモデルの機能も提供する。SoXからのコンプレッサーおよびマルチバンドコンプレッサーを使用して、エレクトリックギターの生のオーディオ信号を処理する。
【0139】
同様に、エンベロープフォロワーと、中心周波数が500Hz~3kHzの間でモジュレーションするピークフィルタとを備えたオートワウの実装を使用する。
【0140】
時変タスクごとに、624の生の音とエフェクト後の音を使用し、テストサンプルと検証サンプルの両方が、それぞれこのサブセットの5%に対応する。録音は、16kHzにダウンサンプリングされ、時不変のオーディオエフェクトを除いて振幅の正規化が適用された。表4.3に、各々のオーディオエフェクトの設定の詳細を示す。
【0141】
【0142】
2.3.3 評価
【0143】
様々なモデリングタスクでモデルをテストするときに、3つの測定基準が使用される。第1章で示したように、エネルギーで正規化された平均絶対誤差(mae)を使用する。時変タスクの客観的評価として、振幅と周波数モジュレーションの人間の知覚を模倣する客観的な測定基準を提案する。モジュレーションスペクトルは、モジュレーション周波数知覚の心理音響学と統合された時間-周波数理論を使用して、時間変動パターンの長期的な知識を提供する(Sukittanonら、2004)。モジュレーションスペクトル平均二乗誤差(ms_mse)は、Mc-Dermott and Simoncelli(2011)およびMcKinney and Breebaart(2003)からのオーディオ機能に基づいており、次のように定義される。
【0144】
ガンマトーンフィルタバンクがターゲットに適用され、波形全体を出力する。合計で12個のフィルタを使用し、中心周波数は26Hzから6950Hzまで対数的に間隔を空けている。
【0145】
各々のフィルタ出力のエンベロープは、ヒルベルト変換(Hahn、1996)の大きさを介して計算され、400Hzにダウンサンプリングされる。
【0146】
各々のエンベロープにはモジュレーションフィルタバンクが適用される。合計で12個のフィルタを使用し、中心周波数は0.5Hzから100Hzまで対数的に間隔を空けている。
【0147】
FFTは、各々のガンマトーンフィルタのモジュレーションフィルタ出力ごとに計算される。エネルギーは、ガンマトーンおよびモジュレーションフィルタバンク全体で合計され、ms_mseの測定基準は、FFT周波数ビンの対数値の平均二乗誤差である。
【0148】
非線形時不変タスク(コンプレッサーおよびマルチバンドコンプレッサー)の評価は、mfcc_cosine:MFCCの平均コサイン距離に対応する(セクション1.3.3を参照)。
【0149】
2.4 結果と分析
【0150】
長期的な時間依存関係を学習するBi-LSTMの機能については、以下で説明する。CRAFxの場合、4096のサンプルの入力サイズと、過去と後続のフレームの数にk=4を使用する。
【0151】
訓練手順は、時変および時不変のオーディオエフェクトの各々のタイプに対して実行された。次に、テストデータセットからのサンプルを使用してモデルをテストした。CRAFxのオーディオ信号例は、オンラインで入手できる(https://mchijmma.github.io/modeling-time-varying/)。参考までに、maeとms_mseの平均値、および入力波形とターゲット波形との間の値は、それぞれ0.13、0.83である。コンプレッサーとマルチバンドコンプレッサーの平均mfcc_cosine値は0.15である。
【0152】
図2.4は、レスリースピーカーをモデリングするための入力、ターゲット、および出力波形と、それらのそれぞれのモジュレーションスペクトルとを示している。時間領域では、モデルが同様にターゲット波形と一致していることは明らかである。入力には存在せず、それぞれのターゲットのモジュレーションエネルギーと厳密に一致する様々なモジュレーションエネルギーをモデルはモジュレーションスペクトルから出力に等しく導入することが注目に値する。
【0153】
発明者によって発見されたように、リングモジュレータの仮想アナログ実装などの他の複雑な時変タスクもうまくモデリングされた。これらの実装には、リングモジュレータの場合のように非線形回路によって導入されたモジュレーションのエミュレーションが含まれるか、レスリースピーカーの実装のように人工的な残響(リバーブ)とドップラー効果のシミュレーションと共に遅延線を変更することが含まれるため、これは重要な結果を表している。
【0154】
モデルは、線形および非線形の時不変モデリングも実行できる。エンベロープ駆動のオートワウ、コンプレッサー、およびマルチバンドコンプレッサーの長い時間依存関係がうまくモデリングされている。
【0155】
全体として、トレモロまたはリングモジュレータなどの振幅モジュレーションに基づくエフェクトユニット、およびフェイザーなどの時変フィルタをモデリングすると、モデルのパフォーマンスが向上した。周波数モジュレーションに基づく遅延線効果は、フランジャーまたはレスリースピーカーのステレオチャネルの場合と同様に十分にモデリングされている。それにもかかわらず、ビブラートとビブラートオーバーライドは、最も誤差の多いモデリングタスクを表している。これは、ビブラートが2Hz前後のレートの周波数モジュレーションのみに基づく効果であるためと考えられる。これは、レスリースピーカーの回転ホーンよりも高いモジュレーションレートを表すため、レスリースピーカーの低速回転設定などの低周波モジュレーションに基づく効果を一致させると、これはモデルのパフォーマンスが低下することを示す(第3章を参照)。これは、より多くのフィルタまたはチャネル(例えば、128個のフィルタのフィルタバンクアーキテクチャ)を導入して周波数分解能を上げるか、または最大プーリングをより小さくして潜在空間のサイズを大きくすることで改善できる。
【0156】
2.5 結論
【0157】
この章では、長い時間依存性をもつオーディオエフェクトをモデリングするための2つの汎用ディープラーニングアーキテクチャであるCRAFxとCWAFxを紹介した。これら2つのアーキテクチャを通じて、Bi-LSTM層と時間膨張畳み込みを備えたエンドツーエンドのDNNの機能を提供し、低周波モジュレーションなどの長い時間依存性を学習し、それに応じてオーディオ信号を処理した。両方のモデルが同様のパフォーマンスを達成し、線形および非線形の時変オーディオエフェクト、時変および時不変オーディオエフェクトのデジタル実装を長期記憶とうまくマッチングさせることができたと結論付けることができる。
【0158】
maeに基づいて、CRAFxはターゲット波形のより近い一致を達成した。それにもかかわらず、mfcc_cosineおよびms_mseなどの知覚ベースの測定基準でテストした場合、両方のモデルが同等にうまく機能した。特筆すべきは、GPUでの計算処理時間は、CWAFxの方が大幅に短いことである(付録Aを参照)。これは、畳み込み層用に高度に最適化されたcuDNN(Chetlurら、2014)などのGPU高速化ライブラリによるものである。
【0159】
両方のアーキテクチャにおいて、動的ゲインを学習し、特徴マップチャネルまたは周波数帯域分解の各々に動的ゲインを適用するために、SE層を組み込んだ。これにより、モデルはそれぞれのモジュレータ信号を各々のチャネルに適用し、その後、SE層を介してさらにスケーリングすることができた。この動的ゲインの導入により、様々な時変タスクをモデリングする際により良好なフィッティングが提供された。
【0160】
これらの時変タスクに適した他のホワイトボックスまたはグレーボックスモデリング手法には、特定の回路解析および離散化手法などの専門知識が必要である。さらに、これらの方法は、他の時変タスクに簡単に拡張することはできず、特定のコンポーネントの非線形動作に関して仮定が行われることがよくある。私たちの知る限り、この作業は、線形および非線形の時変および時不変のオーディオエフェクトのブラックボックスモデリングの最初のアーキテクチャを表している。これは、オーディオプロセッサのターゲットに関する仮定を減らし、オーディオエフェクトモデリングの最先端技術を改善したものである。
【0161】
少量の訓練例を使用して、コーラス、フランジャー、フェイザー、トレモロ、ビブラート、LFOベースおよびエンベロープフォロワーベースのオートワウ、リングモジュレータ、レスリースピーカー、およびコンプレッサーを一致させるモデルを示した。モデルのパフォーマンスを測定するための客観的な知覚測定基準であるms_mseを提案した。この測定基準は、ガンマトーンフィルタバンクのモジュレーションスペクトルに基づいているため、振幅および周波数モジュレーションに対する人間の知覚を測定する。
【0162】
時変ターゲットのモジュレーションと厳密に一致する様々なモジュレーションを適用することにより、モデルが入力オーディオ信号を処理することを実証した。知覚的には、ほとんどの出力波形は、ターゲットの対応する波形と見分けがつかないが、最高の周波数とノイズレベルでわずかな相違がある。これは、CAFxのように、より多くの畳み込みフィルタを使用することで改善でき、これはフィルタバンク構造のより高い解像度を意味する。さらに、出版物Iに示されているように、時間と周波数に基づく損失関数を使用して、この周波数関連の問題を改善できるが、リスニングテストが必要になる場合がある(第3章を参照)。
【0163】
モデルは、エレクトリックギターまたはベースギターなどの特定の楽器のオーディオ信号に特定の変換を適用することを学習するので、一般化をより徹底的に調べることもできる。また、モデルはより短い入力サイズフレームで長い時間依存関係を学習しようとし、過去のフレームと後続のフレームも必要とするため、これらのアーキテクチャはリアルタイムの実装に適応できる。
【0164】
リアルタイムアプリケーションは、大きな入力フレームサイズと、過去および将来のコンテキストフレームの必要性に頼ることなく、長期記憶を含むモデル変換へのRNNまたは時間膨張畳み込みの実装から大きな恩恵を受けるであろう。モデルはレスリースピーカー実装の人工的な残響と一致させることができたが、プレート、スプリング、または畳み込み残響などの残響モデリングの完全な実装が必要である(第4章を参照)。また、モデルはオーディオエフェクトの静的表現を学習しているため、パラメトリックモデルを考案する方法も提供できる。最後に、例えば、ミキシングの実践から一般化を学習するようにモデルを訓練できる自動ミキシングの分野において、仮想アナログを超えたアプリケーションを研究できる。
【0165】
3 仮想アナログ実験
【0166】
前の章では、エフェクトユニットのいくつかの線形および非線形の時変および時不変のデジタル実装のモデリングに焦点を当ててきた。さらに、これまでは客観的な測定基準をもつモデルのみを評価してきた。したがって、この章と次の章では、知覚リスニングテストを含め、様々なアナログオーディオエフェクトをモデリングすることによって、以前のアーキテクチャの評価を拡張する。オーディオエフェクトの仮想アナログモデリングは、アナログオーディオプロセッサのリファレンスデバイスのサウンドをエミュレートすることを含むことを考慮に入れる。Universal Audioの真空管プリアンプ610-Bなどの非線形効果、Universal Audioのトランジスタベースのリミッターアンプ1176LNなどの長期記憶を伴う非線形効果、および145レスリースピーカーキャビネットの回転ホーンおよび回転ウーファーなどの電気機械式非線形時変プロセッサの仮想アナログモデルを示す。
【0167】
客観的な知覚ベースの測定基準と主観的なリスニングテストを通じて、第1章と第2章からのアーキテクチャの各々(CAFx、WaveNet、CRAFx、およびCWAFx)のパフォーマンスを、これらのアナログプロセッサをモデリングする際に実証する。これらのアーキテクチャ間で体系的な比較を実行し、CAFxとWaveNetは、記憶なしで、長い時間依存関係を伴う非線形オーディオエフェクトをモデリングする場合に同様に機能するが、レスリースピーカーなどの時変タスクをモデリングすることはできないことを報告する。一方、すべてのタスクにわたって、CRAFxおよびCWAFxなどの長い時間依存関係を明示的に学習するために潜在空間RNNまたは潜在空間時間膨張畳み込みを組み込んだモデルは、残りのモデルよりも客観的および主観的に優れている傾向がある。
【0168】
3.1 実験
【0169】
3.1.1 モデル
【0170】
この章の実験では、CAFx、WaveNet、CRAFx、およびCWAFxアーキテクチャを使用する。より公正な比較を提供するために、CAFxとWaveNetは、サイズ4096の入力フレームを処理するように適合され、2048サンプルのホップサイズでサンプリングされる。CRAFxとCWAFxは、まさにそれぞれセクション2.1と2.2で説明した通りに使用される。
【0171】
CAFxの主な変更点は、最大プーリング層をサイズ64の移動窓に増やした適応型フロントエンドにある。モデルの残りの部分は、セクション1.1で示した通りである。WaveNetに関しては、膨張係数1,2,...,128を有する8つの膨張畳み込み層の2つのスタックにモデルを拡張する。式(1.2)に基づいて、このアーキテクチャのリセプティブフィールドは、1021サンプルのものである。ターゲットフィールドは、4096サンプルであるため、モデルに提示される入力フレームは、5116サンプルのスライディングウィンドウを含む(式(1.3)を参照)。アーキテクチャの残りの部分は、セクション1.2で示した通りである。
【0172】
コードは、オンラインで入手できる(https://github.com/mchijmma/DL-AFx/tree/master/src)。また、付録Aには、すべてのモデルのパラメータの数と処理時間が示されている。
【0173】
3.1.2 訓練
【0174】
前の章で述べたように、CAFX、CRAFx、およびCWAFxアーキテクチャの訓練には初期化ステップが含まれる。フロントエンドとバックエンドが事前訓練されると、残りの畳み込み層、Recurrent層、Dense層、活性化層がそれぞれのモデルに組み込まれ、エンドツーエンドの教師あり学習タスクに従ってすべての重みが訓練される。WaveNetモデルは、この第2のステップの直後に訓練される。
【0175】
最小化される損失関数は平均絶対誤差であり、Adam(Kingma and Ba、2015)は、オプティマイザーとして使用される。これらの実験と各々のモデルに対して、同じ教師あり学習訓練手順を実行した。
【0176】
25エポックの早期停止patienceを使用する、つまり、検証損失に改善がない場合、訓練は停止する。モデルは、学習率を4分の1に減らし、25エポックのpatienceでさらに微調整される。初期学習率は1e-4であり、バッチサイズはオーディオ信号サンプルあたりの総フレーム数を含む。平均して、エポックの総数は約750である。検証サブセットの誤差が最小のモデルを選択する(セクション3.1.3を参照)。レスリースピーカーのモデリングタスクでは、早期停止とモデル選択の手順は、訓練損失に基づいていた。これについては、セクション3.3で詳しく説明する。
【0177】
3.1.3 データセット
【0178】
IDMT-SMT-Audio-Effectsデータセット(Steinら、2010)から、様々な6弦エレクトリックギターと4弦ベースギターの個々の2秒音の生の録音が取得される。エレクトリックギターとベースの1250の未処理の録音を使用して、それぞれのオーディオエフェクトモデリングタスクのウェットサンプルを取得する。生の録音は、正規化された振幅であり、各々のタスクに対して、テストサンプルと検証サンプルは、それぞれこのデータセットの5%に対応する。アナログオーディオプロセッサが生の音をサンプリングした後、すべての録音は16kHzにダウンサンプリングされた。データセットは、オンラインで入手できる(https://zenodo.org/record/3562442)。
【0179】
Universal Audioの真空管プリアンプ610-B
【0180】
このマイクチューブプリアンプは、6176 Vintage Channel Stripユニットからサンプリングされる。高調波歪みの大きい出力信号を得るために、プリアンプは、表3.1の設定でオーバードライブされる。
【0181】
Universal Audioのトランジスタベースのリミッターアンプ1176LN
【0182】
同様に、広く使用されている電界効果トランジスタリミッター1176LNは、同じ6176 Vintage Channel Stripユニットからサンプリングされる。リミッターのサンプルは、表3.1の設定で記録される。モデルの長期記憶をさらにテストするために、最も遅いアタックとリリースの設定を使用する。ALLの圧縮率の値は、オリジナルの1176のすべての比率ボタンを同時に押すことに相当する。したがって、この設定では、アタック時間とリリース時間の変動による歪みも導入される。
【0183】
145レスリースピーカーキャビネット
【0184】
145レスリースピーカーキャビネットの回転ホーンとウーファーからの出力サンプルは、AKG-C451-Bマイクで録音される。各々の録音は、コンデンサーマイクをホーンまたはウーファーに垂直に1メートル離して配置することにより、モノラルで行われる。回転スピーカーごとに2つの速度(高速回転のトレモロと低速回転のコラール)が記録される。ホーンの回転周波数は、トレモロとコラールの設定でそれぞれ約7Hzと0.8Hzであるが、ウーファーの回転速度はそれよりも遅い(Herreraら、(2009))。
【0185】
ホーンスピーカーとウーファースピーカーの前に800Hzのクロスオーバーフィルタがあるため、同じカットオフ周波数のハイパスFIRフィルタをエレクトリックギターの生の音に適用し、これらのサンプルのみをホーンスピーカーの入力として使用する。同様に、ウーファースピーカーについては、ローパスFIRフィルタを使用して生のベースの音を前処理する。両方のスピーカーのオーディオ信号出力は、それぞれのFIRフィルタでフィルタ処理される。これは、機械的および電気的ノイズを低減し、またモデリングタスクを振幅および周波数モジュレーションに集中させるためである。また、録音は、振幅を正規化したものである。
【0186】
【0187】
3.1.4 客観的測定基準
【0188】
様々なモデリングタスクでモデルをテストするときに、3つの測定基準:mae(エネルギーで正規化された平均絶対誤差)、mfcc_cosine、MFCCの平均コサイン距離(セクション1.3.3を参照)、およびms_mse(モジュレーションスペクトル平均二乗誤差(セクション2.3.3を参照))が使用される。
【0189】
3.1.5 リスニングテスト
【0190】
23歳~46歳の30人の参加者が、ロンドンのクイーンメアリー大学の専門リスニングルームで行われた実験に参加した。クイーンメアリー研究倫理委員会は、参照番号QMREC2165のリスニングテストを承認した。Web Audio Evaluation Tool(Jillingsら、2015)を使用してテストをセットアップし、参加者は、Beyerdynamic DT-770 PROスタジオヘッドフォンを使用した。
【0191】
被験者は、ミュージシャン、サウンドエンジニア、またはクリティカルリスニングの経験者であった。リスニングサンプルはテストサブセットから取得され、テストの各々のページにはリファレンス音、つまり元のアナログデバイスからの録音が含まれていた。このテストの目的は、どの音が基準音に近いかを特定することであり、参加者はリファレンス音との類似性に応じて6つの異なるサンプルを評価した。
【0192】
したがって、参加者は、どのモデリングタスクを聴いているかについて知らされ、サンプルを「最も類似していない」から「最も類似している」まで評価するよう求められた。これは0~100のスケール内にあり、その後、0~1のスケールにマッピングされた。サンプルは、アンカーとしてのドライサンプル、4つの異なるモデルからの出力、リファレンスの隠れコピーで構成されていた。このテストは、MUSHRA(Union、2003)に基づいている。
【0193】
3.2 結果
【0194】
訓練手順は、各々のアーキテクチャと各々のモデリングタスクに対して実行された。つまり、プリアンプは、真空管プリアンプに対応し、リミッターは、トランジスタベースのリミッターアンプに対応し、ホーントレモロとホーンコラールは、レスリースピーカーの高速および低速での回転ホーンにそれぞれ対応し、ウーファートレモロとウーファーコラールは、対応する速度で回転するウーファーに対応する。次に、モデルは、テストサブセットからのサンプルでテストされ、オーディオ信号結果はオンラインで入手できる(https://mchijmma.github.io/DL-AFx/)。
【0195】
すべてのモデリングタスクのリスニングテストの結果は、
図3.1にノッチ付きボックスプロットとして見ることができる。ノッチの端部は95%信頼区間を表し、ボックスの端部は第1四分位数および第3四分位数を表す。また、緑色の線は評点の中央値を示し、紫色の円は外れ値を表している。一般的に、アンカーと隠れリファレンスの両方の中央値がそれぞれ最低と最高になる。CRAFxおよびCWAFxなどの長期的な依存関係を明示的に学習するアーキテクチャは、残りのモデルよりも優れているため、知覚的な調査結果は、
図3.1の客観的な測定基準とほぼ一致している。さらに、ウーファーのコラールタスクでは、後者の失敗したパフォーマンスも知覚的評点で証明される。これは、潜在空間Wavenetが、ウーファーのコラール回転速度などの低周波モジュレーションを学習できないことを示している。
【0196】
プリアンプとリミッタータスクの選択されたテストサンプルと、すべての異なるモデルについて、
図3.3と
図3.4は、入力、リファレンス、および出力波形を、それぞれのスペクトログラムと共に示している。時間領域と周波数領域の両方で、波形とスペクトログラムが客観的および主観的な調査結果と一致していることが観察できる。これらの非線形タスクのパフォーマンスをより詳細に表示するために、
図3.5にそれぞれの波形の一部を示す。テストサンプルの開始を処理する際に、オーバードライブされたプリアンプからの波形整形とリミッターのアタック波形整形が異なるモデルでどのように一致するかを見ることができる。
【0197】
レスリースピーカーのモデリングタスクに関して、
図3.6~
図3.9は、異なる波形をそれぞれのモジュレーションスペクトルとスペクトログラムと共に示している(
図3.6はホーントレモロ、
図3.7はウーファートレモロ、
図3.8はホーンコラール、
図3.9はウーファーコラール)。スペクトルから、CRAFxとCWAFxが、リファレンスの振幅と周波数モジュレーションを導入して一致させるのに対し、CAFXとWaveNetは、時変タスクを達成できないことが分かる。
【0198】
3.3 考察
【0199】
短期記憶を伴う非線形タスク-プリアンプ
【0200】
CAFxおよびWaveNetなど、短期記憶を使用して非線形効果をモデリングするように設計されたアーキテクチャは、時間依存関係を組み込んだモデルを下回った。CRAFxとCWAFxは、客観的にも知覚的にも最高得点のモデルである。このタスクは長期記憶を必要としないが、それぞれCRAFxとCWAFxからのコンテキスト入力フレームと潜在空間RecurrentおよびWavenet層は、プリアンプのモデリングに役立った。このパフォーマンスの向上は、ヒステリシスまたはアタックタイミングおよびリリースタイミングなど、真空管アンプに存在する時間的動作が原因である可能性があるが、プリアンプの追加テストが必要になる場合がある。
【0201】
最先端の非線形オーディオエフェクトモデリングを表している、第1章とDamskaggら(2019)で報告された成功した結果を考えると、これらのアーキテクチャ(CAFxおよびWaveNet)のパフォーマンスがCRAFxおよびCWAFxによって上回られていることは注目に値する。特筆すべきは、第1章のCAFxとWaveNetは、1024サンプルの入力フレームサイズで訓練されており、これは、4096サンプルなどのより大きな入力フレームサイズを処理する場合、モデリング機能が低下する可能性があることを示している可能性がある。同様に、Damskaggら(2019)からのモデルは、膨張畳み込みの1スタックが含まれていたのに対し、WaveNetアーキテクチャは2を使用していた。
【0202】
それにもかかわらず、
図3.2aから、すべてのモデルがプリアンプのモデリングの実現に成功したと結論付けることができる。ほとんどの出力オーディオ信号は、ターゲットの対応するオーディオ信号とわずかにしか識別できず、CRAFxとCWAFxは実際のアナログデバイスと事実上区別できない。
【0203】
時間依存の非線形タスク-リミッター
【0204】
リミッタータスクには1100ミリ秒のリリースゲートなどの長い時間依存関係が含まれているため、予想通り、記憶を含むアーキテクチャは、客観的にも主観的にも高いパフォーマンスを達成した。
図3.4bから、CAFxとWaveNetがリファレンスのスペクトログラムには存在しない高周波数情報を導入することが分かる。これは、1つの入力フレームを超える情報をモデリングするときに、モデルがその制限を補償することを示している可能性があり、例えば、リミッターの可変比率と共に長いリリース時間による歪みのトーン特性などである。さらに、
図3.5bから、各々のアーキテクチャがリミッターのアタック動作をどのようにモデリングしているかが分かる。
【0205】
すべてのネットワークがリファレンスターゲットとほぼ一致したが、オーディオプロセッサの正確な飽和波形整形特性を達成したのはCRAFxとCWAFxであると結論付けることができる。後者は、
図3.2bの知覚結果で強調され、ここでも、CRAFxとCWAFxはリファレンスターゲットと事実上区別できない。CAFxとWaveNetは、長期記憶機能がないために下位にランク付けされているが、これらのモデルが目的の波形を厳密に達成したことは注目に値する。
【0206】
時変タスク-レスリースピーカー
【0207】
ホーントレモロとウーファートレモロのモデリングタスクに関しては、両方の回転スピーカーに対して、CRAFxとCWAFxが高く評価されているのに対し、CAFxとWaveNetはこれらのタスクを達成できていないことが分かる。したがって、
図3.2cと
図3.2dからの知覚的な調査結果は、ms_mse測定基準で得られた結果を確認しており、全体として、ウーファータスクはホーンタスクよりも良く一致している。それにもかかわらず、CRAFxとCWAFxの場合、ホーントレモロタスクの客観的評点と主観的評点はパフォーマンスの大幅な低下を表しておらず、両方の時変タスクがこれらのアーキテクチャによってうまくモデリングされたと結論付けることができる。
【0208】
CRAFxは、知覚的にCWAFxよりもわずかに高くランク付けされている。これは、
図3.6と
図3.7からのそれぞれのモジュレーションスペクトルとスペクトログラムに見られるように、リファレンスの振幅と周波数モジュレーションがより厳密に一致していることを示している。
【0209】
ホーンコラールとウーファーコラールのモデリングタスクでは、CRAFxとCWAFxは、前者のモデリングに成功したが、ウーファーコラールタスクを達成したのはCRAFxだけであった。ウーファーのコラールタスクは、0.8Hzよりも低いモジュレーションに対応するため、このような低周波モジュレーションをモデリングする場合、潜在空間WaveNetよりもBi-LSTMの方が適切であると結論付けることができる。さらに、これは、CWAFxが、ビブラートなどの低周波モジュレーションに基づくエフェクトをモデリングするときに最高のmae値を取得した、セクション2.4で報告された客観的な測定基準と密接に関連している。
【0210】
一般的に、
図3.6~
図3.9では、出力波形がリファレンスの波形と一致していないことが分かる。これは、モデルが訓練データの波形に過適合していないこと、および成功したモデルがそれぞれの振幅モジュレーションと周波数モジュレーションを導入することを学習していることを示している。
【0211】
回転スピーカーの位相はデータセット全体で異なるため、モデルは正確なリファレンスの波形を再現できない。このため、これらのタスクの早期停止とモデル選択の手順は、検証の損失ではなく訓練の損失に基づいていた。これは、レスリースピーカーのモデリングタスク全体でmaeスコアが高い理由でもあり、これは、これらのモデルがモジュレーションを適用しても、ターゲットデータの位相と正確に一致しないためである。位相不変のコスト関数をさらに実装すると、様々なアーキテクチャのパフォーマンスが向上する可能性がある。
【0212】
CAFxとWaveNetは、これらの時変タスクを達成できなかった。特筆すべきは、両方のアーキテクチャが、異なる戦略で長期記憶の制限を補償しようとすることである。CAFxがいくつかの振幅モジュレーションを誤って導入するのに対し、WaveNetはリファレンスの波形エンベロープを平均化しようとすることが示唆されている。これにより、レファレンスとは大幅に異なる出力オーディオ信号が得られ、WaveNetはホーントレモロおよびホーンコラールタスクで知覚的に最低と評価される。これは、
図3.1からのウーファーコラールタスクのms_mseの結果も説明しており、WaveNetが最高のスコアを達成するのは、ターゲット波形の平均化がリファレンスのオーディオ信号に存在する低周波振幅モジュレーションを導入している可能性があるためである。
【0213】
3.4 結論
【0214】
この章では、第1章および第2章とは異なるディープラーニングアーキテクチャを提供している。真空管プリアンプおよびトランジスタベースのリミッターなどの短期および長期記憶、ならびにレスリースピーカーキャビネットの回転ホーンおよびウーファーなどの非線形時変プロセッサを使用して非線形効果をモデリングする際に、モデルをテストした。
【0215】
客観的な知覚ベースの測定基準と主観的なリスニングテストを通じて、すべてのモデリングタスクにわたって、長い時間依存関係を明示的に学習するために、Bi-LSTMを組み込んだアーキテクチャ、または、より少ない程度に潜在空間膨張畳み込みを組み込んだアーキテクチャは、残りのモデルよりも優れていることが分かった。これらのアーキテクチャにより、アナログのリファレンスのプロセッサとほとんど見分けがつかない結果が得られる。また、短期記憶を使用して非線形効果をモデリングするための最先端のDNNアーキテクチャは、プリアンプタスクを一致させる場合と同様に機能し、リミッタータスクをかなり近似するが、時変レスリースピーカータスクをモデリングする場合は失敗する。
【0216】
レスリースピーカーの非線形アンプ、回転スピーカー、および木製キャビネットのモデリングに成功した。それにもかかわらず、クロスオーバーフィルタは、モデリングタスクでバイパスされ、それに応じてドライとウェットのオーディオ信号がフィルタ処理された。これは、ベースとギターのサンプルの周波数帯域幅が限られているためであり、したがって、このモデリングタスクには、ハモンドオルガンの録音などのより適切なデータセットをさらに提供できた。
【0217】
時間と周波数の両方に基づくコスト関数を使用して、モデルのモデリング機能をさらに向上させることができる。また、最高ランクのアーキテクチャは過去および後続のコンテキスト入力フレームを使用するため、これらのアーキテクチャを適応させてこのレイテンシを克服することができる。したがって、リアルタイムアプリケーションは、大きな入力フレームサイズと過去および将来のコンテキストフレームの必要性に頼ることなく、長期記憶を含むエンドツーエンドのDNNから大いに利益を得るであろう。また、時変モデリングタスクには、CRAFxおよびCWAFxからのコンテキスト入力フレームと同じ大きさのリセプティブフィールドをもつエンドツーエンドのWavenetアーキテクチャも提供できる。
【0218】
さらに、Damskaggら(2019)に示されているように、モデルは現在オーディオエフェクトの静的表現を学習しているため、ネットワークへの調整入力としてのコントロールの導入を研究できる。最後に、例えば、モデルを訓練して、ミキシングの実践から一般化を学習することができる自動ミキシングの分野では、仮想アナログを超えたアプリケーションを実装できる。
【0219】
4 人工的な残響のモデリング
この章では、プレートおよびスプリングなどの人工リバーブレーターをモデリングするためのディープラーニングアーキテクチャを紹介する。プレートおよびスプリングリバーブレーターは、主に美的な理由で使用される電気機械式のオーディオプロセッサであり、その特殊な音質を特徴とする。これらのリバーブレーターのモデリングは、非線形で時変の空間応答のために活発な研究分野であり続けている。
【0220】
このような高度に非線形な電気機械応答を学習するDNNの機能を提供する。したがって、スパースFIR(SFIR)フィルタを使用するデジタルリバーブレーターに基づいて、信号処理システムからのドメイン知識を使用し、畳み込み再帰型・スパースフィルタリングオーディオエフェクトモデリングネットワーク(CSAFx)を提案する。
【0221】
したがって、プレートおよびスプリングデバイスに存在するようなノイズのような分散応答をモデリングするために、まばらに配置された係数をもつ訓練可能なFIRフィルタを組み込むことにより、以前のアーキテクチャを拡張する。また、直接音と反射音との間の時変ミキシングゲインとして機能させるために、CRAFXからのSqueeze-and-Excitation(SE)ブロック(セクション2.1を参照)を変更する。したがって、CSAFxは人工リバーブレーターをモデリングするためのDSPにより情報を得たDNNを表す。
【0222】
第3章の仮想アナログ実験の結果に基づいて、CRAFxをベースラインモデルとして使用し、人工的な残響をモデリングする際のその機能もテストする。パフォーマンスを測定するために、知覚リスニングテストを実施し、また、所与のタスクがどのように達成され、モデルが実際に何を学習しているかを分析する。
【0223】
この研究の前には、人工リバーブレーターをモデリングするためのエンドツーエンドのDNNはまだ実装されていなかった、つまり、入出力データから学習し、残響効果をドライの入力オーディオ信号に直接適用していた。残響除去のためのディープラーニングは非常に研究されている分野になっている(Fengら、2014;Hanら、2015)が、DNNを使用した、人工的な残響の適用またはプレートおよびスプリングリバーブのモデリングはまだ検討されていない。
【0224】
CSAFxがCRAFxよりも優れていることを報告する。知覚的評価と客観的評価の両方で、提案されたモデルが電気機械デバイスをうまくシミュレートし、オーディオエフェクトをモデリングするための他のDNNよりも良好なパフォーマンスを発揮することが示されている。
【0225】
4.1 畳み込み再帰型およびスパースフィルタリングネットワーク-CSAFx
【0226】
このモデルは、CRAFxに基づいており、時間領域の入力にも完全に基づいており、生のオーディオ信号と処理されたオーディオ信号をそれぞれ入力と出力として使用する。それは、適応型フロントエンド、潜在空間、および合成バックエンドの3つの部分に分かれている。ブロック図を
図4.1に示し、コードは、オンラインで入手でき(https://github.com/mchijmma/modeling-plate-spring-reverb/tree/master/src)、表A.1は、パラメータの数と計算処理時間を示す。
【0227】
適応型フロントエンドは、CRAFxからのものとまったく同じである(表2.1を参照)。それは、同時に分散された畳み込み層とプーリング層に従い、潜在表現Zを学習する32チャネルのフィルタバンクアーキテクチャを生成する。同様に、モデルは、±4前後のフレームと連結された現在のオーディオフレームxを含む入力xを有することにより、長期記憶依存関係を学習する。入力は式(2.1)で表される。これらのフレームのサイズは4096(256ミリ秒)であり、50%のホップサイズでサンプリングされる。
【0228】
潜在空間
【0229】
潜在空間のブロック図を
図4.2に見ることができ、その構造を表4.1で詳しく説明する。潜在空間の主な目的は、Zを2つの潜在表現Z1^とZ2^に処理することである。前者は一連のエンベロープ信号に対応し、後者は一連のスパースFIRフィルタZ3^を生成するために使用される。
【0230】
フロントエンドからの潜在表現Zは、64サンプルと32チャネルの9行に対応し、これは、64サンプルと288チャネルの特徴マップに展開できる。潜在空間は、活性化関数としてtanhを有する64および32ユニットの2つの共有Bi-LSTM層を含む。これらのBi-LSTM層からの出力特徴マップは、16ユニットの2つの独立したBi-LSTM層に供給される。これらの層の各々の後には、局所結合SAAFが非線形性として続き、このようにしてZ1^とZ2^が得られる。前の章で示したように、SAAFは、オーディオ信号処理タスクの非線形性またはウェーブシェイパーとして使用できる。
【0231】
スパース疑似ランダム残響アルゴリズム(Valimakiら、2012)の制約に従うSFIR層を提案する。残響反射は、まばらに配置された係数をもつFIRフィルタによってモデリングされる。これらの係数は、通常、-1および+1などの離散的な係数値に基づく疑似乱数シーケンス(例えば、ベルベットノイズ)を介して取得され、係数のうちのそれぞれ1つは、Tsサンプルの間隔に従うが、他のすべてのサンプルはゼロである。
【0232】
それにもかかわらず、SFIRでは、離散的な係数値を使用する代わりに、各々の係数は-1~+1の任意の連続値を取ることができる。したがって、係数のうちのそれぞれ1つは、Tsサンプルの各々の間隔内の特定のインデックス位置に配置されるが、残りのサンプルはゼロである。
【0233】
したがって、SFIR層は、それぞれ1024ユニットの2つの独立したDense層によってZ2^を処理する。Dense層の後には、tanhおよびシグモイド関数が続き、それらの出力はそれぞれ係数値(coeff)とそれらのインデックス位置(idx)である。特定のidx値を取得するには、シグモイド関数の出力をTsで乗算し、最も近い整数への切り捨てが適用される。この演算は微分可能ではないため、後方通過近似として恒等勾配を使用する(Athalyeら、2018)。高品質の残響を得るために、1秒あたり2000の係数を使用するため、16kHzのサンプリングレートに対してTs=8サンプルになる。
【0234】
【0235】
【0236】
合成バックエンド
【0237】
合成バックエンドの詳細は、
図4.3と表4.2で見ることができる。バックエンドは、SFIR出力Z3^、エンベロープZ1^、残差接続Rを使用して波形を合成し、残響タスクを実行する。これは、逆プーリング層、畳み込みと乗算演算、SAAFを使用したDNN(DNN-SAAF)、LSTM層を組み込んだ2つの変更されたSqueeze-and-Excitationブロック(SE-LSTM)(Huら、2018)、および最終畳み込み層を含む。
【0238】
フィルタバンクアーキテクチャに従って、X3^はZ1^をアップサンプリングして得られ、特徴マップX5^はRとZ3^の間の局所結合畳み込みによって達成される。CRAFxと同様に、RはX1から取得され、現在の入力フレームx(0)の周波数帯域分解に対応する。X5^は、次式で求められる。
【0239】
【0240】
式中、iは、特徴マップのi番目の行を示し、これは32チャネルのフィルタバンクアーキテクチャに従う。この畳み込みの結果は、周波数に依存する残響応答を入力オーディオ信号で明示的にモデリングしていると見ることができる。さらに、Bi-LSTMによって学習された時間依存性により、X5^は、開始応答から残響タスクのレイトリフレクションを表すことができる。
【0241】
次に、特徴マップX2^は、残響応答X5^と学習済みエンベロープX3^の要素ごとの乗算の結果である。エンベロープは、入力フレーム間の可聴アーティファクトを回避するために適用される(Jarvelainen and Karjalainen、2007)。
【0242】
【0243】
次に、DNN-SAAFブロックからの波形整形の非線形性がRに適用されると、特徴マップX4^が得られる。この演算の結果は、直接音の学習された非線形変換または波形整形を含む(セクション1.1を参照)。CRAFxで使用されているように、DNN-SAAFブロックは、それぞれ32、16、16、および32の隠れユニットの4つのDense層を含む。SAAF層を使用する最後の層を除いて、各々のDense層は非線形性としてtanhを使用する。
【0244】
X4^とX2^の時変ゲインとして機能するSE-LSTMブロックを提案する。SEブロックは特徴マップのチャネル単位の情報を明示的かつ適応的にスケーリングする(Huら、2018)ため、入力からの長期的なコンテキストを含めるために、SEアーキテクチャにLSTM層を組み込む。各々のSE-LSTMは、(Kimら、2018)からのアーキテクチャに基づくセクション2.1からのSEブロックに基づく。
【0245】
SE-LSTMブロックは、絶対値演算とグローバル平均プーリング演算を含み、その後にそれぞれ32、512、および32の隠れユニットの1つのLSTMと2つのDense層が続く。LSTMと最初のDense層の後にはReLuが続き、最後のDense層はシグモイド活性化関数を使用する。
図4.3に示されるように、各々のSE-LSTMブロックは、各々の特徴マップX4^とX2^を処理し、こうして周波数依存の時変混合ゲインse1とse2を適用する。結果として得られる特徴マップX1.1^とX1.2^は、X0^を取得するために共に加算される。
【0246】
【0247】
以前のディープラーニングアーキテクチャと同様に、最後の層はデコンボリューション演算に対応し、これは、そのフィルタが最初の畳み込み層の転置された重みであるため、訓練できない。完全な波形は、ハン窓と一定のオーバーラップ加算ゲインを使用して合成される。以前のCEQ、CAFx、CRAFx、およびCWAFxアーキテクチャで示したように、すべての畳み込みは時間次元に沿っており、すべてのストライドはユニット値のものである。畳み込み層ごとに同じパディングを使用し、膨張は組み込まれていない。
【0248】
全体として、各々のSAAFは局所結合され、各々の関数は-1~+1の間の25間隔を含み、各々のBi-LSTMおよびLSTMのDropout率とRecurrent Dropout率は0.1である。
【0249】
4.2 実験
【0250】
4.2.1 訓練
【0251】
CRAFxと同じ事前訓練初期化ステップに従う。フロントエンドとバックエンドの畳み込み層が初期化されるとすぐに、潜在空間Bi-LSTM、SFIR、DNN-SAAF、およびSE-LSTMブロックがモデルに組み込まれ、すべての重みが、残響タスクに基づいて共同で訓練される。
【0252】
最小化される損失関数は、時間と周波数に基づいており、次の式で表される。
【0253】
【0254】
式中、MAEは平均絶対誤差、MSEは平均二乗誤差である。YとY^は、それぞれターゲットと出力の対数パワーマグニチュードスペクトルであり、yとy^は、それらのそれぞれの波形である。MAEを計算する前に、次のプリエンファシスフィルタがyおよびy^に適用される。
【0255】
【0256】
Damskaggら(2019)に示されているように、H(z)は、高周波数により多くの重みを追加するために適用するハイパスフィルタである。4096点のFFTを使用してYとY^を取得する。時間損失と周波数損失をスケーリングするために、損失の重みα1とα2としてそれぞれ1.0と1e-4を使用する。このような複雑な残響応答をモデリングする場合、周波数領域と時間領域での明示的な最小化が非常に重要になった。プリエンファシスフィルタと対数パワースペクトルをそれぞれ時間および周波数領域に組み込むことで、高い周波数への注意がさらに強調される。
【0257】
両方の訓練ステップに対して、Adam(Kingma and Ba、2015)がオプティマイザーとして使用され、セクション4.2.1と同じ早期停止手順が使用される。検証損失に改善がない場合、25エポックのpatienceを使用する。同様に、その後、学習率が25%低減され、patienceの値も25エポックにして、モデルはさらに微調整される。初期学習率は1e-4で、バッチサイズはオーディオサンプルあたりの総フレーム数を含む。検証サブセットの誤差が最小のモデルを選択する。
【0258】
4.2.2 データセット
【0259】
プレートリバーブは、IDMT-SMT-Audio-Effectsデータセットから得られ(Steinら、(2010))、これは個々の2秒音に対応し、様々なエレクトリックギターとベースギターの一般的なピッチ範囲をカバーしている。ベースギターの録音からの生の音およびプレートリバーブ音を使用している。スプリングリバーブサンプルは、スプリングリバーブタンクAccutronics 4EB2C1Bでエレクトリックギターの生のオーディオ信号サンプルを処理することによって得られる。特筆すべきは、プレートリバーブサンプルは、VSTオーディオプラグインに対応し、一方、スプリングリバーブサンプルは並列に配置された2つのスプリングに基づくアナログリバーブタンクを使用して録音される。
【0260】
リバーブタスクごとに、624の生の音とエフェクト後の音を使用し、テストサンプルと検証サンプルの両方が、それぞれこのサブセットの5%に相当する。録音は、16kHzにダウンサンプリングされ、振幅の正規化が適用される。また、プレートリバーブのサンプルには録音の最後の0.5秒間にフェードアウトが適用されているため、それに応じてスプリングリバーブサンプルを処理する。データセットは、オンラインで入手できる(https://zenodo.org/record/3746119)。
【0261】
【0262】
4.2.3 評価
【0263】
様々なモデリングタスクでモデルをテストするときは、2つの客観的測定基準(mae(エネルギーで正規化された平均絶対誤差)、mfcc_cosine(MFCCの平均コサイン距離)(セクション1.3.3を参照))が使用される。
【0264】
セクション3.1.5で説明したように、モデルのパフォーマンスを測定するために知覚リスニングテストも実施した。30人の参加者が、ロンドンのクイーンメアリー大学の専門リスニングルームで行われたテストを完了する。被験者は、ミュージシャン、サウンドエンジニア、またはクリティカルリスニングの経験者であった。オーディオ信号は、Beyerdynamic DT-770 PROスタジオヘッドフォンを介して再生され、Webオーディオ評価ツール(Jillingsら、2015)を使用してテストをセットアップした。
【0265】
参加者には、テストサブセットからのサンプルが提示された。各々のページには、リファレンス音、すなわちオリジナルのプレートまたはスプリングリバーブからの音が含まれていた。参加者は、4つの異なるサンプルをリファレンス音との類似性に応じて評価するよう求められた。テストの目的は、どの音がリファレンスに近いかを特定することであった。したがって、このテストは、MUSHRA法(Union、2003)に基づいている。サンプルは、CSAFx、CRAFx、リファレンスの隠れコピー、および隠れアンカーとしてのドライサンプルからの出力で構成されていた。
【0266】
4.3 結果と分析
【0267】
CSAFxの残響モデリング機能を比較するために、CRAFxをベースラインとして使用し、CRAFxは、レスリースピーカーなどの長期記憶と低周波モジュレーションを備えた複雑な電気機械デバイスをモデリングできることが証明されている(第3章を参照)。後者は、CSAFxに似たアーキテクチャを提示するが、その潜在空間とバックエンドは、時変オーディオエフェクトに一致させるために、振幅と周波数のモジュレーションを明示的に学習して適用するように設計されている。両方のモデルは、同じ手順で訓練され、テストデータセットからのサンプルでテストされ、オーディオ信号結果は、オンラインで入手できる(https://mchijmma.github.io/modeling-plate-spring-reverb/)。
【0268】
表4.4は、式(4.6)からの対応する損失値を示している。提案されたモデルは、両方のタスクでCRAFxよりも優れている。特筆すべきは、プレートリバーブの場合、入力波形とターゲット波形との間の平均mae値とmfcc_cosine値は、それぞれ0.16と0.15である。両方のモデルがmaeに関して同様にうまく機能し、CSAFxがより良好な結果を達成していることが分かった。それにもかかわらず、mfcc_cosineに関しては、CRAFxによって得られた値は、知覚的には、ドライ音が、このモデルからの出力よりもターゲットに近いことを示している。
【0269】
スプリングリバーブタスクの場合、入力波形とターゲット波形との間の平均mae値とmfcc_cosine値は、それぞれ0.22と0.34である。同様に、波形に同様の一致が見られ、これは、mae値の改善に基づいている。さらに、mfcc_cosineの結果に基づいて、CSAFxのみがドライ録音の値を改善できることが分かる。プレートリバーブタスクとスプリングリバーブタスクの両方に対して、入力波形とターゲット波形との間の平均MSE値が、それぞれ9.64と41.29であるため、後者がさらに支持される。
【0270】
リスニングテストの結果は、
図4.5のノッチ付きボックスプロットに見ることができる。ボックスの端部は第1四分位数および第3四分位数を表し、ノッチの端部は95%の信頼区間を表し、緑色の線は評点の中央値を表し、円は外れ値を表す。予想通り、アンカーとリファレンスの両方に、それぞれ最低の中央値と最高の中央値がある。プレートリバーブとスプリングリバーブの両方のタスクで、CSAFxは高く評価されているが、CRAFxはリバーブタスクを達成できていないことが分かる。
【0271】
したがって、知覚的な調査結果は、損失、mae、およびmfcc_cosineの測定基準で得られた結果を確認し、同様に、プレートモデルはスプリングリバーブレーターよりも一致している。これらの結果は、プレートリバーブのサンプルがプレートリバーブレーターのデジタルエミュレーションに対応しているのに対し、スプリングリバーブのサンプルはアナログリバーブタンクに対応しているという事実によるものである。したがって、予想通り、スプリングリバーブのサンプルは、モデリングするのにはるかに難しいタスクを表す。さらに、スプリングに対する知覚的評点と客観的な測定基準値は、パフォーマンスの大幅な低下を表していないにもかかわらず、より多くのフィルタ、異なる損失の重み、または入力フレームサイズを介して、スプリングのレイトリフレクションのモデリングをさらに提供できる。
【0272】
全体として、最初の開始応答はより正確にモデリングされているが、前述のように、すべてのモデルでより高い損失を示すスプリングの場合、レイトリフレクションはより顕著に異なる。モデルは、それぞれのターゲットの反射と厳密に一致する、入力波形には存在しない特定の反射を導入している。また、CRAFxは、ターゲットの高い周波数と一致させることはできず、これは、報告された客観的および知覚的スコアと一致している。CSAFxの場合、ターゲットに関連する時間領域と周波数領域の差も、得られた損失値に対応する。
【0273】
4.4 結論
【0274】
この章では、人工リバーブレーターをモデリングするための信号処理により情報を得たディープラーニングアーキテクチャであるCSAFxを紹介した。
【0275】
このアーキテクチャでは、SFIR層を提案したため、スパースFIRフィルタの係数を学習するDNNの機能を調査した。同様に、直接音とそれぞれの反射音を動的にミキシングするためにCSAFxによって使用される時変ミキシングゲインをDNNが学習できるようにするために、SE-LSTMブロックを導入した。したがって、以前のRNNベースのモデルよりも優れた、より説明可能なネットワークを導入する。
【0276】
ディープラーニングアーキテクチャは、プレートリバーブレーターとスプリングリバーブレーターをエミュレートできる可能性があり、リスニングテストを通じてモデルのパフォーマンスを測定する。CSAFxが、これらの非線形および時変オーディオプロセッサの特徴的なノイズのような分散応答にうまく一致することを示す。
【0277】
リスニングテストの結果と知覚ベースの測定基準は、モデルが電気機械式リバーブレーターを厳密にエミュレートし、またCRAFxよりも高い評点を達成することを示している。後者は、前の章で、オーディオエフェクトのブラックボックスモデリングのいくつかのDNNよりも優れていることが証明されているオーディオエフェクトモデリングネットワークに対応する。したがって、CSAFxによって得られた結果は注目に値するものであり、提案されたアーキテクチャは、人工リバーブレーターのブラックボックスモデリングのための最先端のディープラーニングを表していると結論付けることができる。表A.1から、GPUとCPUの両方での計算処理時間は、CSAFxの方が大幅に長くなる。これらの時間は、リアルタイムで最適化されていないPython実装を使用して計算されたため、このより高い計算コストは、テンソルフローなどの微分可能なプログラミングライブラリ内で最適化されていないカスタム層(例えば、SFIR)がCSAFxに含まれていることが原因である可能性がある。
【0278】
提案されたDNNと、プレートおよびスプリングリバーブをモデリングするための現在の解析手法(例えば、数値シミュレーションまたはモーダル手法)との間の追加の体系的な比較も提供されている。また、実際の電気機械式プレートリバーブをモデリングすると、プレートおよびスプリングリバーブレーターをモデリングするときにCSAFxのパフォーマンスが向上する場合がある。
【0279】
プレートリバーブとスプリングリバーブのサンプルには、録音の最後の0.5秒間にフェードアウトが適用されているため、より長い減衰時間とレイトリフレクションのモデリングも実装できる。それぞれのコントロールを新しい入力訓練データとして含めることにより、パラメトリックモデルを提供できる。
【0280】
同様に、ビンテージのデジタルリバーブレーターをモデリングすることによって、または畳み込みベースのリバーブアプリケーションを介して、アーキテクチャをさらにテストすることができる。後者は、音の空間化と室内音響モデリングの分野でのアプリケーションをもたらす。
【0281】
モデルは各々のオーディオエフェクトモデリングタスクの静的表現を学習しているので、本明細書に開示されているモデルおよびアーキテクチャの各々によるパラメトリックモデルも達成することができる。したがって、エフェクトユニットのパラメータの挙動は、それぞれのコントロールを新しい入力訓練データとして含めることによってモデリングできる。また、これはコントロールの「プリセット」またはセットに拡張できる。
【0282】
提案されたモデルは、オフラインまたはリアルタイムの実装を介して動作できる。処理時間はすでにリアルタイムの時間的制約に近いため、リアルタイムモデルは、例えばC++最適化を介して取得できる。因果モデル、つまり後続のコンテキストフレームを使用しないモデルも実装できる。これは、過去と後続の両方のコンテキスト入力フレームを使用する提案されたアーキテクチャによるものである。より短い入力フレームサイズを使用する因果モデルを実装すると、低レイテンシでリアルタイムの実装への道が開かれる可能性がある。
【0283】
潜在空間DNNによって学習された重みは、フロントエンドの畳み込み層によって学習されたフィルタの分析を使用して最適化できる。
【0284】
フロントエンドの畳み込み層による潜在空間DNNによって学習された重みは、入力オーディオ信号の変換方法を変えるために推論中に変更できる。したがって、一般的なアナログまたはデジタルオーディオプロセッサを用いることによっては不可能な新しい変換を実現できる。これは、ディープラーニングベースの効果のための一連の新しいコントロールとして使用できる。
【0285】
提案されたアーキテクチャは、他のタイプのオーディオプロセッサをモデリングするために使用できる。例えば、フィードバック遅延、スラップバック遅延、またはテープベースの遅延など、エコーに基づく長い時間依存関係をもつオーディオエフェクト。提案されたアーキテクチャは、低周波モジュレータ信号またはエンベロープによって駆動される時変オーディオエフェクトをモデリングするように設計されているが、モデリング確率的効果、つまりノイズによって駆動されるオーディオプロセッサも得られる。例えば、SEまたはSE-LSTM層を介してスケーリングできるこれらのネットワークの合成バックエンドにノイズジェネレーターを含めることができる。また、入力信号レベルに基づいて異なるEQカーブを適用するダイナミックイコライザーは、CRAFxまたはCWAFxアーキテクチャでモデリングできる。
【0286】
全く異なる種類のエフェクトも提供できる。これには、オーディオモーフィング、音色変換、時間周波数プロセッサ(例えば、位相ボコーダーエフェクト)、タイムセグメントプロセッサ(例えば、時間伸縮、ピッチシフト、タイムシャッフル、およびグラニュレーション)、空間オーディオエフェクト(例えば、3Dラウドスピーカー設定または室内音響のモデリング)、因果関係のないエフェクト(例えば、「先読み」設定を含むオーディオプロセッサ)が含まれる。
【0287】
低レベルの知覚的特徴が抽出され、チャネル間相互適応システムの実装のためにマッピングされる、適応型デジタルオーディオエフェクトも実装できる。適応型オーディオエフェクトタスクを仮定すると、他のプロセッサのパラメータを制御するためのサウンド機能のこのマッピングは、提案された様々なアーキテクチャを共同で訓練することによって提供できる。これらのアーキテクチャは、一連のオーディオエフェクトで影響を受けたターゲットサウンドに基づいて、モデルが同じ変換を別の入力オーディオ信号に複製することを学習する、スタイル学習タスクに使用できる。
【0288】
これらのアーキテクチャの可能なアプリケーションは、自動ミキシング・マスタリングの分野である。自動EQ、圧縮、リバーブなどの自動ミキシングタスクのために、自動線形および非線形処理を実装できる。さらに、ネットワークが、サウンドエンジニアによってミキシングされたいくつかのトラックで訓練され、エンジニアのミキシングプラクティスから一般化を見出す、特定のサウンドエンジニアのスタイル学習を実装することもできる。また、1つまたはいくつかのジャンルにわたる特定の楽器の自動ポストプロダクションを学習し、モデルによって実装することもできる。
【0289】
実施形態は、上記のような技術の多数の変更および変形を含む。
【0290】
オーディオエフェクトモデリングおよびインテリジェントな音楽制作以外のアプリケーション(例えば、歪みの除去、ノイズ除去、残響除去などの信号復元方法)も実装できる。
【0291】
本明細書におけるフローチャートおよびその説明は、そこに記載された方法ステップを実行する固定された順序を規定するものと理解されるべきではない。むしろ、方法ステップは、実行可能な任意の順序で実行することができる。本発明は、特定の例示的な実施形態に関連して説明されてきたが、添付の特許請求の範囲に記載されている通り、本発明の趣旨および範囲から逸脱することなく、当業者に明らかな様々な変更、置換、および改変が、開示された実施形態に対してなされ得ることを理解すべきである。
【0292】
本明細書に記載の方法およびプロセスは、コード(例えば、ソフトウェアコード)および/またはデータとして具現化することができる。そのようなコードおよびデータは、コンピュータシステムによって使用されるコードおよび/またはデータを格納できる任意のデバイスまたは媒体を含むことができる、1つまたは複数のコンピュータ可読媒体に格納することができる。コンピュータシステムがコンピュータ可読媒体に格納されたコードおよび/またはデータを読み取って実行するとき、コンピュータシステムは、コンピュータ可読記憶媒体内に格納されたデータ構造およびコードとして具現化された方法およびプロセスを実行する。特定の実施形態では、本明細書に記載の方法およびプロセスのステップのうちの1つまたは複数は、プロセッサ(例えば、コンピュータシステムまたはデータストレージシステムのプロセッサ)によって実行することができる。コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピューティングシステム/環境によって使用される他のデータなどの情報の格納に使用できる取り外し可能および取り外し不可能な構造/デバイスを含むことを当業者は理解すべきである。コンピュータ可読媒体には、揮発性メモリ(例えば、ランダムアクセスメモリ(RAM、DRAM、SRAM))、不揮発性メモリ(例えば、フラッシュメモリ、様々な読み取り専用メモリ(ROM、PROM、EPROM、EEPROM)、磁気および強磁性/強誘電体メモリ(MRAM、FeRAM)、相変化メモリ、磁気および光学記憶装置(ハードドライブ、磁気テープ、CD、DVD))、ネットワークデバイス、またはコンピュータで読み取り可能な情報/データを格納できる、現在知られている、または今後開発されるその他の媒体が含まれるが、これらに限定されない。コンピュータ可読媒体は、任意の伝搬信号を含むと解釈または説明されるべきではない。
【0293】
参考文献
以下の参考文献は、本明細書全体を通して参照され、すべて参照により本明細書に組み込まれる。
【0294】
Jonathan S Abel and David P Berners. A technique for nonlinear system measurement(非線形システム測定の手法). In 121st Audio Engineering Society Convention, 2006.
【0295】
Jonathan S Abel, David P Berners, Sean Costello, and Julius O Smith. Spring reverb emulation using dispersive allpass filters in a waveguide structure(ウェーブガイド構造の分散型オールパスフィルタを使用したスプリングリバーブエミュレーション). In 121st Audio Engineering Society Convention, 2006.
【0296】
Jonathan S Abel, David P Berners, and Aaron Greenblatt. An emulation of the emt 140 plate reverberator using a hybrid reverberator structure(ハイブリッドリバーブレーター構造を使用したemt140プレートリバーブレーターのエミュレーション). In 127th Audio Engineering Society Convention, 2009.
【0297】
Jerome Antoni and Johan Schoukens. A comprehensive study of the bias and variance of frequency-response-function measurements: Optimal window selection and overlapping strategies(周波数応答関数測定値の偏りと分散の包括的な研究:最適なウィンドウの選択と重複戦略). Automatica, 43(10):1723-1736, 2007.
【0298】
Kevin Arcas and Antoine Chaigne. On the quality of plate reverberation(プレートリバーブの質について). Applied Acoustics, 71(2):147-156, 2010.
【0299】
Anish Athalye, Nicholas Carlini, and David Wagner. Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples(曖昧な勾配は、敵対的な例への防御を回避するという誤った安心感を与える). In International Conference on Machine Learning, 2018.
【0300】
Shaojie Bai, J Zico Kolter, and Vladlen Koltun. Convolutional sequence modeling revisited(畳み込みシーケンスモデリングの再検討). In 6th International Conference on Learning Representations (ICLR), 2018.
【0301】
Daniele Barchiesi and Joshua D. Reiss. Reverse engineering of a mix(ミックスのリバースエンジニアリング). Journal of the Audio Engineering Society, 58(7/8):563-576, 2010.
【0302】
Stefan Bilbao. A digital plate reverberation algorithm(デジタルプレートリバーブアルゴリズム). Journal of the Audio Engineering Society, 55(3):135-144, 2007.
【0303】
Stefan Bilbao. Numerical sound synthesis(数値音合成). Wiley Online Library, 2009.
【0304】
Stefan Bilbao. Numerical simulation of spring reverberation(スプリングリバーブの数値シミュレーション). In 16th International Conference on Digital Audio Effects (DAFx-13), 2013.
【0305】
Stefan Bilbao and Julian Parker. A virtual model of spring reverberation(スプリングリバーブの仮想モデル). IEEE Transactions on Audio, Speech and Language Processing, 18(4):799-808, 2009.
【0306】
Stefan Bilbao, Kevin Arcas, and Antoine Chaigne. A physical model for plate reverberation(プレートリバーブの物理モデル). In IEEE International Conference on Acoustics, Speech, and Signal Processing, 2006.
【0307】
Christopher M Bishop. Pattern recognition and machine learning(パターン認識と機械学習). springer, 2006.
【0308】
Merlijn Blaauw and Jordi Bonada. A neural parametric singing synthesizer(ニューラルパラメトリックシンセサイザー). In Interspeech, 2017.
【0309】
Оlafur Bogason and Kurt James Werner. Modeling circuits with operational transconductance amplifiers using wave digital filters(ウェーブデジタルフィルタを使用したオペレーショナルトランスコンダクタンスアンプを備えた回路のモデリング). In 20th International Conference on Digital Audio Effects (DAFx-17), 2017.
【0310】
Chi-Tsong Chen. Linear system theory and design(線形システムの理論と設計). Oxford University Press, Inc.,1998.
【0311】
Sharan Chetlur, Cliff Woolley, Philippe Vandermersch, Jonathan Cohen, John Tran, Bryan Catanzaro, and Evan Shelhamer. cuDNN: Efficient primitives for deep learning(ディープラーニングのための効率的なプリミティブ). CoRR, abs / 1410.0759, 2014.
【0312】
Kyunghyun Cho, Bart Van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase repre- sentations using RNN encoder-decoder for statistical machine translation(統計的機械翻訳にRNNエンコーダ/デコーダーを使用したフレーズ表現の学習). arXiv preprint arXiv:1406.1078, 2014.
【0313】
Francois Chollet. Deep Learning with Python(Pythonによるディープラーニング). Manning Publications Co., 2018.
【0314】
Eero-Pekka Damskagg, Lauri Juvela, Etienne Thuillier, and Vesa Valimaki. Deep learning for tube amplifier emulation(真空管アンプエミュレーションのディープラーニング). In IEEE International Conference on Acous- tics, Speech, and Signal Processing (ICASSP), 2019.
【0315】
Brecht De Man, Joshua D Reiss, and Ryan Stables. Ten years of automatic mixing(自動ミキシングの10年). In Proceedings of the 3rd Workshop on Intelligent Music Production, 2017.
【0316】
Giovanni De Sanctis and Augusto Sarti. Virtual analog modeling in the wave- digital domain(ウェーブデジタル領域における仮想アナログモデリング). IEEE Transactions on Audio, Speech, and Language Processing, 2009.
【0317】
Junqi Deng and Yu-Kwong Kwok. Automatic chord estimation on seventhsbass chord vocabulary using deep neural network(ディープニューラルネットワークを使用したセブンスバスコード語彙の自動コード推定). In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016.
【0318】
Sander Dieleman and Benjamin Schrauwen. End-to-end learning for music audio(音楽オーディオのエンドツーエンド学習). In International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.
【0319】
Michele Ducceschi and Craig J Webb. Plate reverberation: Towards the develop- ment of a real-time physical model for the working musician(プレートリバーブ:働くミュージシャンのためのリアルタイム物理モデルの開発に向けて). In International Congress on Acoustics (ICA), 2016.
【0320】
John Duchi, Elad Hazan, and Yoram Singer. Adaptive subgradient methods for online learning and stochastic optimization(オンライン学習と確率的最適化のための適応劣勾配法). Journal of machine learning research, 12(Jul):2121-2159, 2011.
【0321】
Simon Durand, Juan P Bello, Bertrand David, and Gael Richard. Downbeat track- ing with multiple features and deep neural networks(多数の機能とディープニューラルネットワークを備えたダウンビートトラッキング). In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015.
【0322】
Douglas Eck and Juergen Schmidhuber. A first look at music composition using lstm recurrent neural networks(lstm再帰型ニューラルネットワークを使用した作曲の初見). Istituto Dalle Molle Di Studi Sull Intelligenza Artificiale, 103, 2002.
【0323】
Felix Eichas and Udo Zоlzer. Black-box modeling of distortion circuits with block- oriented models(ブロック指向モデルによる歪み回路のブラックボックスモデリング). In 19th International Conference on Digital Audio Effects (DAFx- 16), 2016.
【0324】
Felix Eichas and Udo Zоlzer. Virtual analog modeling of guitar amplifiers with wiener-hammerstein models(ウィーナー・ハンマースタインモデルによるギターアンプの仮想アナログモデリング). In 44th Annual Convention on Acoustics, 2018.
【0325】
Felix Eichas, Marco Fink, Martin Holters, and Udo Zоlzer. Physical modeling of the mxr phase 90 guitar effect pedal(mxr phase 90ギターエフェクトペダルの物理モデリング). In 17th International Conference on Digital Audio Effects (DAFx-14), 2014.
【0326】
Felix Eichas, Etienne Gerat, and Udo Zоlzer. Virtual analog modeling of dynamic range compression systems(ダイナミックレンジ圧縮システムの仮想アナログモデリング). In 142nd Audio Engineering Society Convention, 2017.
【0327】
Jesse Engel, Cinjon Resnick, Adam Roberts, Sander Dieleman, Mohammad Norouzi, Douglas Eck, and Karen Simonyan. Neural audio synthesis of musical notes with wavenet autoencoders(Wavenetオートエンコーダによる音符のニューラルオーディオ合成). 34th International Conference on Machine Learning, 2017.
【0328】
Jesse Engel, Lamtharn Hantrakul, Chenjie Gu, and Adam Roberts. DDSP: Dif- ferentiable digital signal processing(DDSP:微分可能なデジタル信号処理). In 8th International Conference on Learning Representations (ICLR), 2020.
【0329】
Dumitru Erhan, Yoshua Bengio, Aaron Courville, and Pascal Vincent. Visualizing higher-layer features of a deep network(ディープネットワークの上位層の特徴の視覚化). University of Montreal, 1341(3):1, 2009.
【0330】
Angelo Farina. Simultaneous measurement of impulse response and distortion with a swept-sine technique(スイープサイン法によるインパルス応答と歪みの同時測定). In 108th Audio Engineering Society Convention, 2000.
【0331】
Xue Feng, Yaodong Zhang, and James Glass. Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition(ノイズの多い残響のある音声認識のためのディープオートエンコーダによる音声特徴のノイズ除去と残響除去). In IEEE International Conference on Acoustics, Speech, and Signal Processing, 2014.
【0332】
Benjamin Friedlander and Boaz Porat. The modified Yule-Walker method of ARMA spectral estimation(ARMAスペクトル推定の修正ユール・ウォーカー法). IEEE Transactions on Aerospace and Electronic Systems, (2):158-173, 1984.
【0333】
Todor Ganchev, Nikos Fakotakis, and George Kokkinakis. Comparative evaluation of various mfcc implementations on the speaker verification task(スピーカー検証タスクでの様々なmfcc実装の比較評価). In International Conference on Speech and Computer, 2005.
【0334】
Patrick Gaydecki. Foundations of digital signal processing: theory, algorithms and hardware design(デジタル信号処理の基礎:理論、アルゴリズム、およびハードウェア設計), volume 15. Iet, 2004.
【0335】
Etienne Gerat, Felix Eichas, and Udo Zоlzer. Virtual analog modeling of a urei 1176ln dynamic range control system(urei 1176lnダイナミックレンジ制御システムの仮想アナログモデリング). In 143rd Audio Engineering Society Conven- tion, 2017.
【0336】
Felix A Gers, Jurgen Schmidhuber, and Fred Cummins. Learning to forget: Continual prediction with LSTM(忘れることを学ぶ:LSTMによる継続的な予測). IET, 1999.
【0337】
Dimitrios Giannoulis, Michael Massberg, and Joshua D Reiss. Parameter automation in a dynamic range compressor(ダイナミックレンジコンプレッサのパラメータオートメーション). Journal of the Audio Engineering Society, 61 (10):716-726, 2013.
【0338】
Pere Lluis Gilabert Pinal, Gabriel Montoro Lopez, and Eduardo Bertran Alberti. On the wiener and hammerstein models for power amplifier predistortion(パワーアンプのプリディストーション用のウィーナー・ハンマースタインモデルについて). In IEEE Asia-Pacific Microwave Conference, 2005.
【0339】
Xavier Glorot and Yoshua Bengio. Understanding the difficulty of training deep feedforward neural networks(ディープフィードフォワードニューラルネットワークのトレーニングの難しさの理解). In the 13th International Conference on Artificial Intelligence and Statistics, 2010.
【0340】
Luke B Godfrey and Michael S Gashler. A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neural networks(対数関数、線形関数、指数関数の間の連続体、およびニューラルネットワークの一般化を改善するその可能性). In 7th IEEE International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, 2015.
【0341】
Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning(ディープラーニング). MIT press, 2016.
【0342】
Alex Graves and Jurgen Schmidhuber. Framewise phoneme classification with bidirectional lstm and other neural network architectures(双方向lstmおよびその他のニューラルネットワークアーキテクチャを使用したフレームごとの音素分類). Neural Networks, 18 (5-6):602-610, 2005.
【0343】
Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton. Speech recognition with deep recurrent neural networks. In IEEE International Conference on Acoustics(深層再帰型ニューラルネットワークによる音声認識), Speech, and Signal Processing (ICASSP), 2013.
【0344】
Aaron B Greenblatt, Jonathan S Abel, and David P Berners. A hybrid reverberation crossfading technique(ハイブリッドリバーブクロスフェードテクニック). In IEEE International Conference on Acoustics, Speech, and Signal Processing, 2010.
【0345】
Sina Hafezi and Joshua D. Reiss. Autonomous multitrack equalization based on masking reduction(マスキング削減に基づく自律型マルチトラックイコライゼーション). Journal of the Audio Engineering Society, 63(5):312-323, 2015.
【0346】
Anna Hagenblad. Aspects of the identification of Wiener models(ウィーナーモデルの識別の側面). 博士論文 Linkоpings Universitet, 1999.
【0347】
Stefan L Hahn. Hilbert transforms in signal processing(信号処理におけるヒルベルト変換), volume 2. Artech House Boston, 1996.
【0348】
Philippe Hamel, Matthew EP Davies, Kazuyoshi Yoshii, and Masataka Goto. Transfer learning in MIR: Sharing learned latent representations for music audio classification and similarity(MIRでの転移学習:音楽オーディオの分類と類似性のために学習した潜在表現の共有). In 14th International Society for Music Information Retrieval Conference (ISMIR), 2013.
【0349】
Jiawei Han, Jian Pei, and Micheline Kamber. Data mining: concepts and techniques(データマイニング:概念と技法).
【0350】
Elsevier, 2011.
【0351】
Kun Han, Yuxuan Wang, DeLiang Wang, William S Woods, Ivo Merks, and Tao Zhang. Learning spectral mapping for speech dereverberation and denoising(音声の残響除去とノイズ除去のためのスペクトルマッピングの学習). IEEE Transactions on Audio, Speech and Language Processing, 23(6):982-992, 2015.
【0352】
Yoonchang Han, Jaehun Kim, and Kyogu Lee. Deep convolutional neural networks for predominant instrument recognition in polyphonic music(ポリフォニック音楽における優勢な楽器認識のための深層畳み込みニューラルネットワーク). IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25(1):208-221, 2016.
【0353】
Aki Harma, Matti Karjalainen, Lauri Savioja, Vesa Valimaki, Unto K Laine, and Jyri Huopaniemi. Frequency-warped signal processing for audio applications(オーディオアプリケーション向けの周波数ワープ信号処理). Journal of the Audio Engineering Society, 48(11):1011-1031, 2000.
【0354】
Scott H Hawley, Benjamin Colburn, and Stylianos I Mimilakis. SignalTrain: Profiling audio compressors with deep neural networks(ディープニューラルネットワークを使用したプロファイリングオーディオコンプレッサー). In 147th Audio Engineering Society Convention, 2019.
【0355】
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition(画像認識のための深層残差学習). In IEEE Conference on Computer Vision and Pattern Recognition, 2016.
【0356】
Thomas Helie. On the use of volterra series for real-time simulations of weakly nonlinear analog audio devices: Application to the moog ladder filter(弱非線形アナログオーディオデバイスのリアルタイムシミュレーションのためのvolterraシリーズの使用について:moogラダーフィルタへの適用). In 9th International Conference on Digital Audio Effects (DAFx-06), 2006.
【0357】
Clifford A Henricksen. Unearthing the mysteries of the leslie cabinet(レスリーキャビネットの謎を解き明かす). Recording Engineer/Producer Magazine, 1981.
【0358】
Jorge Herrera, Craig Hanson, and Jonathan S Abel. Discrete time emulation of the leslie speaker(レスリースピーカーの離散時間エミュレーション). In 127th Audio Engineering Society Convention, 2009.
【0359】
Marcel Hilsamer and Stephan Herzog. A statistical approach to automated offline dynamic processing in the audio mastering process(オーディオマスタリングプロセスにおける自動化されたオフラインダイナミックプロセッシングへの統計的アプローチ). In 17th International Conference on Digital Audio Effects (DAFx-14), 2014.
【0360】
Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory(長短期記憶). Neural computation, 9(8):1735-1780, 1997.
【0361】
Martin Holters and Julian D Parker. A combined model for a bucket brigade device and its input and output filters(バケットブリゲードデバイスとその入出力フィルタを組み合わせたモデル). In 21st International Conference on Digital Audio Effects (DAFx-17), 2018.
【0362】
Martin Holters and Udo Zоlzer. Physical modelling of a wah-wah effect pedal as a case study for application of the nodal dk method to circuits with variable parts(可変部分をもつ回路へのノードdkメソッドの適用のケーススタディとしてのワウ-ワウエフェクトペダルの物理モデリング). In 14th International Conference on Digital Audio Effects (DAFx-11), 2011.
【0363】
Le Hou, Dimitris Samaras, Tahsin M Kurc, Yi Gao, and Joel H Saltz. Neural networks with smooth adaptive activation functions for regression(回帰用smooth adaptive活性化関数を備えたニューラルネットワーク). arXiv preprint arXiv:1608.06557, 2016.
【0364】
Le Hou, Dimitris Samaras, Tahsin M Kurc, Yi Gao, and Joel H Saltz. Convnets with smooth adaptive activation functions for regression(回帰用smooth adaptive活性化関数を備えたConvnets). In 20th International Conference on Artificial Intelligence and Statistics (AISTATS), 2017.
【0365】
Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks(Squeeze-and-excitationネットワーク). In IEEE Conference on Computer Vision and Pattern Recognition, 2018.
【0366】
Allen Huang and Raymond Wu. Deep learning for music(音楽のためのディープラーニング). CoRR, abs / 1606.04930, 2016.
【0367】
Eric J Humphrey and Juan P Bello. Rethinking automatic chord recognition with convolutional neural networks(畳み込みニューラルネットワークによる自動コード認識の再考). In 11th International Conference on Machine Learning and Applications, 2012.
【0368】
Eric J Humphrey and Juan P Bello. From music audio to chord tablature: Teaching deep convolutional networks to play guitar(音楽オーディオからコードタブ譜まで:深層畳み込みネットワークを教えてギターを弾く). In IEEE international conference on acoustics, speech and signal processing (ICASSP), 2014.
【0369】
Antti Huovilainen. Enhanced digital models for analog modulation effects(アナログモジュレーションエフェクト用の強化されたデジタルモデル). In 8th International Conference on Digital Audio Effects (DAFx-05), 2005.
【0370】
Leland B Jackson. Frequency-domain Steiglitz-McBride method for least-squares IIR filter design, ARMA modeling, and periodogram smoothing(最小二乗IIRフィルタ設計、ARMAモデリング、およびピリオドグラム平滑化のための周波数領域Steiglitz-McBride法). IEEE Signal Processing Letters, 15:49-52, 2008.
【0371】
Hanna Jarvelainen and Matti Karjalainen. Reverberation modeling using velvet noise(ベルベットノイズを使用した残響モデリング). In 30th Audio Engineering Society International Conference, 2007.
【0372】
Nicholas Jillings, Brecht De Man, David Moffat, and Joshua D Reiss. Web Audio Evaluation Tool: A browser-based listening test environment(Webオーディオ評価ツール:ブラウザベースのリスニングテスト環境). In 12th Sound and Music Computing Conference, 2015.
【0373】
Jean-Marc Jot and Antoine Chaigne. Digital delay networks for designing artificial reverberators(人工リバーブレーターを設計するためのデジタル遅延ネットワーク). In 90th Audio Engineering Society Convention, 1991.
【0374】
Matti Karjalainen, Teemu Maki-Patola, Aki Kanerva, and Antti Huovilainen. Virtual air guitar(バーチャルエアギター). Journal of the Audio Engineering Society, 54(10):964-980, 2006.
【0375】
Roope Kiiski, Fabian Esqueda, and Vesa Valimaki. Time-variant gray-box mod- eling of a phaser pedal(フェイザーペダルの時変グレーボックスモデリング). In 19th International Conference on Digital Audio Effects (DAFx-16), 2016.
【0376】
Taejun Kim, Jongpil Lee, and Juhan Nam. Sample-level CNN architectures for music auto-tagging using raw waveforms(生の波形を使用した音楽の自動タグ付けのためのサンプルレベルのCNNアーキテクチャ). In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018.
【0377】
Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization(確率的最適化の手法). In 3rd International Conference on Learning Representations (ICLR), 2015.
【0378】
David M Koenig. Spectral analysis of musical sounds with emphasis on the piano(ピアノに重点を置いた楽音のスペクトル分析). OUP Oxford, 2014.
【0379】
Filip Korzeniowski and Gerhard Widmer. Feature learning for chord recognition: The deep chroma extractor(コード認識のための特徴学習:ディープクロマエクストラクタ). In 17th International Society for Music Information Retrieval Conference (ISMIR), 2016.
【0380】
Oliver Krоning, Kristjan Dempwolf, and Udo Zоlzer. Analysis and simulation of an analog guitar compressor(アナログギターコンプレッサーの解析とシミュレーション). In 14th International Conference on Digital Audio Effects (DAFx-11), 2011.
【0381】
Walter Kuhl. The acoustical and technological properties of the reverberation plate(残響板の音響的および技術的特性). E. B. U. Review, 49, 1958.
【0382】
Yann A LeCun, Leon Bottou, Genevieve B Orr, and Klaus-Robert Muller. Efficient backprop(効率的なバックプロップ). Neural networks: Tricks of the trade, pages 9-48, 2012.
【0383】
Honglak Lee, Peter Pham, Yan Largman, and Andrew Y Ng. Unsupervised feature learning for audio classification using convolutional deep belief networks(畳み込みディープビリーフネットワークを使用したオーディオ分類のための教師なし特徴学習). In Advances in neural information processing systems, pages 1096-1104, 2009.
【0384】
Jongpil Lee, Jiyoung Park, Keunhyoung Luke Kim, and Juhan Nam. SampleCNN: End-to-end deep convolutional neural networks using very small filters for music classification(SampleCNN:音楽分類に非常に小さなフィルタを使用するエンドツーエンドの深層畳み込みニューラルネットワーク). Applied Sciences, 8(1):150, 2018.
【0385】
Keun Sup Lee, Nicholas J Bryan, and Jonathan S Abel. Approximating measured reverberation using a hybrid fixed/switched convolution structure(ハイブリッド固定/切り替え畳み込み構造の使用による測定された残響の近似)In 13th In- ternational Conference on Digital Audio Effects (DAFx-10), 2010.
【0386】
Teck Yian Lim, Raymond A Yeh, Yijia Xu, Minh N Do, and Mark Hasegawa- Johnson. Time-frequency networks for audio super-resolution(オーディオ超解像のための時間-周波数ネットワーク). In IEEE Inter- national Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.
【0387】
Zheng Ma, Joshua D Reiss, and Dawn AA Black. Implementation of an intelligent equalization tool using yule-walker for music mixing and mastering(音楽のミキシングとマスタリングにyule-walkerを使用したインテリジェントなイコライゼーションツールの実装). In 134th Audio Engineering Society Convention, 2013.
【0388】
Zheng Ma, Brecht De Man, Pedro DL Pestana, Dawn AA Black, and Joshua D Reiss. Intelligent multitrack dynamic range compression(インテリジェントなマルチトラックダイナミックレンジ圧縮). Journal of the Audio Engineering Society, 63(6):412-426, 2015.
【0389】
Jaromir Macak. Simulation of analog flanger effect using BBD circuit(BBD回路を使用したアナログフランジャーエフェクトのシミュレーション). In 19th International Conference on Digital Audio Effects (DAFx-16), 2016.
【0390】
Jacob A Maddams, Saoirse Finn, and Joshua D Reiss. An autonomous method for multi-track dynamic range compression(マルチトラックダイナミックレンジ圧縮の自律的な方法). In 15th International Conference on Digital Audio Effects (DAFx-12), 2012.
【0391】
EP MatthewDavies and Sebastian Bоck. Temporal convolutional networks for musical audio beat tracking(音楽オーディオビートトラッキング用の時間畳み込みネットワーク). In 27th IEEE European Signal Processing Conference (EUSIPCO), 2019.
【0392】
Daniel Matz, Estefania Cano, and Jakob Abesser. New sonorities for early jazz recordings using sound source separation and automatic mixing tools(音源分離と自動ミキシングツールを使用した、初期のジャズ録音の新しいソノリティー). In 16th International Society for Music Information Retrieval Conference (ISMIR), 2015.
【0393】
Josh H McDermott and Eero P Simoncelli. Sound texture perception via statistics of the auditory periphery: evidence from sound synthesis(聴覚周辺の統計による音の質感の知覚:音の合成からの証拠). Neuron, 71, 2011.
【0394】
Martin McKinney and Jeroen Breebaart. Features for audio and music classification(オーディオと音楽の分類のための特徴). In 4th International Society for Music Information Retrieval Conference (ISMIR), 2003.
【0395】
Soroush Mehri, Kundan Kumar, Ishaan Gulrajani, Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron Courville, and Yoshua Bengio. SampleRNN: An uncondi- tional end-to-end neural audio generation model(SampleRNN:無条件のエンドツーエンドのニューラルオーディオ生成モデル). In 5th International Conference on Learning Representations. ICLR, 2017.
【0396】
Stylianos I Mimilakis, Konstantinos Drossos, Andreas Floros, and Dionysios Katerelos. Automated tonal balance enhancement for audio mastering applications(オーディオマスタリングアプリケーション向けの自動トーンバランス強化). In 134th Audio Engineering Society Convention, 2013.
【0397】
Stylianos I Mimilakis, Konstantinos Drossos, Tuomas Virtanen, and Gerald Schuller. Deep neural networks for dynamic range compression in mastering applications(マスタリングアプリケーションでのダイナミックレンジ圧縮のためのディープニューラルネットワーク). In 140th Audio Engineering Society Convention, 2016.
【0398】
Stephan Mоller, Martin Gromowski, and Udo Zоlzer. A measurement technique for highly nonlinear transfer functions(非線形性の高い伝達関数の測定手法). In 5th International Conference on Digital Audio Effects (DAFx-02), 2002.
【0399】
Brian CJ Moore. An introduction to the psychology of hearing(聴覚の心理学の紹介). Brill, 2012
【0400】
James A Moorer. About this reverberation business(この残響事業について). Computer music journal, pages 13-28, 1979.
【0401】
M Narasimha and A Peterson. On the computation of the discrete cosine transform(離散コサイン変換の計算について). IEEE Transactions on Communications, 26(6):934-936, 1978.
【0402】
Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative model for raw audio(Wavenet:生のオーディオ信号の生成モデル). In CoRR abs/1609.03499, 2016.
【0403】
Jyri Pakarinen and David T Yeh. A review of digital techniques for modeling vacuum-tube guitar amplifiers(真空管ギターアンプをモデリングするためのデジタル技術のレビュー). Computer Music Journal, 33(2):85-100, 2009.
【0404】
Bryan Pardo, David Little, and Darren Gergle. Building a personalized audio equalizer interface with transfer learning and active learning(転移学習と能動学習を用いた、パーソナライズされたオーディオイコライザーインターフェイスの構築). In 2nd International ACM Workshop on Music Information Retrieval with User-Centered and Multimodal Strategies, 2012.
【0405】
Julian Parker. Efficient dispersion generation structures for spring reverb emulation(スプリングリバーブエミュレーション用の効率的な分散生成構造). EURASIP Journal on Advances in Signal Processing, 2011a.
【0406】
Julian Parker. A simple digital model of the diode-based ring-modulator(ダイオードベースのリングモジュレータの単純なデジタルモデル). In 14th International Conference on Digital Audio Effects (DAFx-11), 2011b.
【0407】
Julian Parker and Stefan Bilbao. Spring reverberation: A physical perspective(スプリングリバーブ:物理的な視点). In 12th International Conference on Digital Audio Effects (DAFx-09), 2009.
【0408】
Julian Parker and Fabian Esqueda. Modelling of nonlinear state-space systems using a deep neural network(ディープニューラルネットワークを使用した非線形状態空間システムのモデリング). In 22nd International Conference on Digital Audio Effects (DAFx-19), 2019.
【0409】
Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. On the difficulty of training recurrent neural networks(再帰型ニューラルネットワークの訓練の難しさについて). In International Conference on Machine Learning, 2013.
【0410】
Roy D Patterson. Auditory filters and excitation patterns as representations of frequency resolution(周波数分解能の表現としての聴覚フィルタと興奮パターン). Frequency selectivity in hearing, 1986.
【0411】
Jussi Pekonen, Tapani Pihlajamaki, and Vesa Valimaki. Computationally efficient hammond organ synthesis(計算効率の高いハモンドオルガン合成). In 14th International Conference on Digital Audio Effects (DAFx-11), 2011.
【0412】
Enrique Perez-Gonzalez and Joshua D. Reiss. Automatic equalization of multi-channel audio using cross-adaptive methods(クロスアダプティブ方式を使用したマルチチャネルオーディオの自動イコライゼーション). In 127th Audio Engineering Society Convention, 2009.
【0413】
Enrique Perez-Gonzalez and Joshua D Reiss. Automatic mixing. DAFX: Digital Audio Effects(自動ミキシング。DAFX:デジタルオーディオエフェクト), Second Edition, pages 523-549, 2011.
【0414】
Pedro Duarte Leal Gomes Pestana. Automatic mixing systems using adaptive digital audio effects(適応型デジタルオーディオエフェクトを使用した自動ミキシングシステム). 博士論文 Universidade Catоlica Portuguesa, 2013.
【0415】
George M Phillips and Peter J Taylor. Theory and applications of numerical analysis(数値解析の理論と応用). Elsevier, 1996.
【0416】
Jordi Pons, Oriol Nieto, Matthew Prockup, Erik Schmidt, Andreas Ehmann, and Xavier Serra. End-to-end learning for music audio tagging at scale(大規模な音楽オーディオのタグ付けのためのエンドツーエンドの学習). In 31st Conference on Neural Information Processing Systems, 2017.
【0417】
Miller Puckette. The theory and technique of electronic music(電子音楽の理論とテクニック). World Scientific Pub- lishing Company, 2007.
【0418】
Colin Raffel and Julius O Smith. Practical modeling of bucket-brigade device circuits(バケットブリゲードデバイス回路の実用的なモデリング). In 13th International Conference on Digital Audio Effects (DAFx-10), 2010.
【0419】
Jussi Ramо and Vesa Valimaki. Neural third-octave graphic equalizer(ニューラル3オクターブグラフィックイコライザー). In 22nd International Conference on Digital Audio Effects (DAFx-19), 2019.
【0420】
Dale Reed. A perceptual assistant to do sound equalization(サウンドイコライゼーションを行うための知覚アシスタント). In 5th International Conference on Intelligent User Interfaces, pages 212-218. ACM, 2000.
【0421】
Joshua D Reiss and Andrew McPherson. Audio effects: theory, implementation and application(オーディオエフェクト:理論、実装、および応用). CRC Press, 2014.
【0422】
Dario Rethage, Jordi Pons, and Xavier Serra. A wavenet for speech denoising(音声ノイズ除去用のwavenet). In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.
【0423】
David Ronan, Zheng Ma, Paul Mc Namara, Hatice Gunes, and Joshua D Reiss. Automatic minimisation of masking in multitrack audio using subgroups(サブグループを使用したマルチトラックオーディオのマスキングの自動最小化). IEEE Transactions on Audio, Speech, and Language processing, 2018.
【0424】
Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional net- works for biomedical image segmentation(U-net:生物医学画像セグメンテーションのための畳み込みネットワーク). In International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015.
【0425】
Per Rubak and Lars G Johansen. Artificial reverberation based on a pseudo-random impulse response II(疑似ランダムインパルス応答に基づく人工的な残響II). In 106th Audio Engineering Society Convention, 1999.
【0426】
Andrew T Sabin and Bryan Pardo. A method for rapid personalization of audio equalization parameters(オーディオイコライゼーションパラメータを迅速にパーソナライズする方法). In 17th ACM International Conference on Multimedia, 2009.
【0427】
Jan Schluter and Sebastian Bоck. Musical onset detection with convolutional neural networks(畳み込みニューラルネットワークによる音楽開始検出). In 6th International Workshop on Machine Learning and Music, 2013.
【0428】
Jan Schluter and Sebastian Bоck. Improved musical onset detection with convolutional neural networks(畳み込みニューラルネットワークによる音楽開始検出の改善). In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014.
【0429】
Thomas Schmitz and Jean-Jacques Embrechts. Nonlinear real-time emulation of a tube amplifier with a long short time memory neural-network(長短期記憶ニューラルネットワークを使用した真空管アンプの非線形リアルタイムエミュレーション). In 144th Audio Engineering Society Convention, 2018.
【0430】
Manfred R Schroeder and Benjamin F Logan. “Colorless” artificial reverberation(「無色」の人工的な残響). IRE Transactions on Audio, (6):209-214, 1961.
【0431】
Mike Schuster and Kuldip K Paliwal. Bidirectional recurrent neural networks(双方向再帰型ニューラルネットワーク). IEEE transactions on Signal Processing, 45(11):2673-2681, 1997.
【0432】
Di Sheng and Gyоrgy Fazekas. Automatic control of the dynamic range com- pressor using a regression model and a reference sound(回帰モデルと参照音を使用したダイナミックレンジコンプレッサの自動制御). In 20th International Conference on Digital Audio Effects (DAFx-17), 2017.
【0433】
Di Sheng and Gyоrgy Fazekas. A feature learning siamese model for intelligent control of the dynamic range compressor(ダイナミックレンジコンプレッサをインテリジェントに制御するための特徴学習シャムモデル). In International Joint Conference on Neural Networks (IJCNN), 2019.
【0434】
Siddharth Sigtia and Simon Dixon. Improved music feature learning with deep neural networks(ディープニューラルネットワークによる音楽特徴学習の改善). In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014.
【0435】
Siddharth Sigtia, Emmanouil Benetos, Nicolas Boulanger-Lewandowski, Tillman Weyde, Artur S d’Avila Garcez, and Simon Dixon. A hybrid recurrent neural network for music transcription(音楽の編曲のためのハイブリッド再帰型ニューラルネットワーク). In IEEE international conference on acoustics, speech and signal processing (ICASSP), 2015.
【0436】
Siddharth Sigtia, Emmanouil Benetos, and Simon Dixon. An end-to-end neural network for polyphonic piano music transcription(ポリフォニックピアノ音楽の編曲用のエンドツーエンドのニューラルネットワーク). IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(5):927-939, 2016.
【0437】
Julius O Smith. Introduction to digital filters: with audio applications(デジタルフィルタの紹介:オーディオアプリケーションにおいて), volume 2. W3K Publishing, 2007.
【0438】
Julius O Smith. Physical audio signal processing: For virtual musical instruments and audio effects(物理オーディオ信号処理:仮想楽器およびオーディオエフェクト用). W3K Publishing, 2010.
【0439】
Julius O Smith and Jonathan S Abel. Bark and ERB bilinear transforms(Bark and ERB双一次変換). IEEE Transactions on Speech and Audio Processing, 7(6):697-708, 1999.
【0440】
Julius O Smith, Stefania Serafin, Jonathan Abel, and David Berners. Doppler simu lation and the leslie(ドップラーシミュレーションとレスリー). In 5th International Conference on Digital Audio Effects (DAFx- 02), 2002.
【0441】
Mirko Solazzi and Aurelio Uncini. Artificial neural networks with adaptive multi- dimensional spline activation functions(適応型多次元スプライン活性化関数を備えた人工ニューラルネットワーク). In IEEE International Joint Conference on Neural Networks (IJCNN), 2000.
【0442】
Michael Stein, Jakob Abesser, Christian Dittmar, and Gerald Schuller. Automatic detection of audio effects in guitar and bass recordings(ギターとベースの録音におけるオーディオエフェクトの自動検出). In 128th Audio Engineer- ing Society Convention, 2010.
【0443】
Karl Steinberg. Steinberg virtual studio technology (VST) plug-in specification 2.0 software development kit(Steinberg virtual studio technology(VST)プラグイン仕様2.0 ソフトウェア開発キット). Hamburg: Steinberg Soft-und Hardware GMBH, 1999.
【0444】
Dan Stowell and Mark D Plumbley. Automatic large-scale classification of bird sounds is strongly improved by unsupervised feature learning(鳥の鳴き声の自動大規模分類は、教師なし特徴学習によって大幅に改善される). PeerJ, 2:e488, 2014.
【0445】
Bob L Sturm, Joao Felipe Santos, Oded Ben-Tal, and Iryna Korshunova. Music transcription modelling and composition using deep learning(ディープラーニングを使用した音楽の編曲モデリングと作曲). In 1st Conference on Computer Simulation of Musical Creativity, 2016.
【0446】
Somsak Sukittanon, Les E Atlas, and James W Pitton. Modulation-scale analysis for content identification(コンテンツ識別のためのモジュレーションスケール分析). IEEE Transactions on Signal Processing, 52, 2004.
【0447】
Tijmen Tieleman and Geoffrey Hinton. RMSprop: Divide the gradient by a running average of its recent magnitude(RMSprop:勾配をその最近の大きさの移動平均で割る). COURSERA: Neural networks for machine learning, 4(2):26-31, 2012.
【0448】
Aurelio Uncini. Audio signal processing by neural networks(ニューラルネットワークによるオーディオ信号処理). Neurocomputing, 55 (3-4):593-625, 2003.
【0449】
International Telecommunication Union. Recommendation ITU-R BS.1534-1: Method for the subjective assessment of intermediate quality level of coding systems(符号化システムの中間品質レベルの主観的評価方法). 2003.
【0450】
Vesa Valimaki and Joshua D. Reiss. All about audio equalization: Solutions and frontiers(オーディオイコライゼーションのすべて:ソリューションとフロンティア). Applied Sciences, 6(5):129, 2016.
【0451】
Vesa Valimaki, Julian Parker, and Jonathan S Abel. Parametric spring reverberation effect(パラメトリックスプリングリバーブエフェクト). Journal of the Audio Engineering Society, 58(7/8):547-562, 2010.
【0452】
Vesa Valimaki, Julian D Parker, Lauri Savioja, Julius O Smith, and Jonathan S Abel. Fifty years of artificial reverberation(人工的な残響の50年). IEEE Transactions on Audio, Speech, and Language Processing, 20(5):1421-1448, 2012.
【0453】
Aaron Van den Oord, Sander Dieleman, and Benjamin Schrauwen. Deep content- based music recommendation(深いコンテンツベースの音楽レコメンデーション). In Advances in Neural Information Processing Sys- tems, pages 2643-2651, 2013.
【0454】
Shrikant Venkataramani, Jonah Casebeer, and Paris Smaragdis. Adaptive front- ends for end-to-end source separation(エンドツーエンドのソース分離のための適応型フロントエンド). In 31st Conference on Neural Information Processing Systems, 2017.
【0455】
Vincent Verfaille, U. Zоlzer, and Daniel Arfib. Adaptive digital audio effects (A-DAFx): A new class of sound transformations(適応型デジタルオーディオエフェクト(A-DAFx):新しいクラスのサウンド変換). IEEE Transactions on Audio, Speech and Language Processing, 14(5):1817-1831, 2006.
【0456】
Xinxi Wang and Ye Wang. Improving content-based and hybrid music recommendation using deep learning(ディープラーニングを使用した、コンテンツベースおよびハイブリッドの音楽レコメンデーションの改善). In 22nd International Conference on Multimedia, pages 627-636. ACM, 2014.
【0457】
Kurt J Werner, W Ross Dunkel, and Francois G Germain. A computational model of the hammond organ vibrato/chorus using wave digital filters(ウェーブデジタルフィルタを使用したハモンドオルガンのビブラート/コーラスの計算モデル). In 19th Inter- national Conference on Digital Audio Effects (DAFx-16), 2016.
【0458】
Silvin Willemsen, Stefania Serafin, and Jesper R Jensen. Virtual analog simulation and extensions of plate reverberation(仮想アナログシミュレーションとプレートリバーブの拡張). In 14th Sound and Music Computing Conference, 2017.
【0459】
Alec Wright, Eero-Pekka Damskagg, and Vesa Valimaki. Real-time black-box modelling with recurrent neural networks(再帰型ニューラルネットワークを使用したリアルタイムのブラックボックスモデリング). In 22nd International Conference on Digital Audio Effects (DAFx-19), 2019.
【0460】
David T Yeh. Automated physical modeling of nonlinear audio circuits for real-time audio effects part II: BJT and vacuum tube examples(リアルタイムオーディオエフェクトのための非線形オーディオ回路の自動物理モデリング パートII:BJTと真空管の例). IEEE Transactions on Audio, Speech, and Language Processing, 20, 2012.
【0461】
David T Yeh and Julius O Smith. Simulating guitar distortion circuits using wave digital and nonlinear state-space formulations(ウェーブデジタルおよび非線形状態空間定式化を使用したギター歪み回路のシミュレーション). In 11th International Conference on Digital Audio Effects (DAFx-08), 2008.
【0462】
David T Yeh, Jonathan S Abel, Andrei Vladimirescu, and Julius O Smith. Numerical methods for simulation of guitar distortion circuits(ギター歪み回路のシミュレーションのための数値的方法). Computer Music Journal, 32(2):23-42, 2008.
【0463】
David T Yeh, Jonathan S Abel, and Julius O Smith. Automated physical modeling of nonlinear audio circuits for real-time audio effects part I: Theoretical development(リアルタイムオーディオエフェクトのための非線形オーディオ回路の自動化された物理モデリング パートI:理論的開発). IEEE Transactions on Audio, Speech, and Language Processing, 18(4):728-737, 2010.
【0464】
Matthew D Zeiler and Rob Fergus. Visualizing and understanding convolutional networks(畳み込みネットワークの視覚化と理解). In European conference on computer vision. Springer, 2014.
【0465】
Zhichen Zhang, Edward Olbrych, Joseph Bruchalski, Thomas J McCormick, and David L Livingston. A vacuum-tube guitar amplifier model using long/short-term memory networks(長期/短期記憶ネットワークを使用した真空管ギターアンプモデル). In IEEE SoutheastCon, 2018.
【0466】
Udo Zоlzer. DAFX: digital audio effects(デジタルオーディオエフェクト). John Wiley & Sons, 2011.
【0467】
頭字語
AI: Artificial Intelligence(人工知能)
BBD: Bucket Brigade Delay(バケットブリゲードディレイ)
Bi-LSTM: Bidirectional Long Short-Term Memory(双方向長短期記憶)
CNN: Convolutional Neural Network(畳み込みニューラルネットワーク)
CAFx: Convolutional audio effects modeling network(畳み込みオーディオエフェクトモデリングネットワーク)
CEQ: Convolutional EQ modeling network(畳み込みEQモデリングネットワーク)
CRAFx: Convolutional Recurrent audio effects modeling network(畳み込み再帰型オーディオエフェクトモデリングネットワーク
CWAFx: Convolutional and WaveNet audio effects modeling network(畳み込み・WaveNetオーディオエフェクトモデリングネットワーク)
CSAFx: Convolutional Recurrent Sparse filtering audio effects modeling network(畳み込み再帰型スパースフィルタリングオーディオエフェクトモデリングネットワーク)
CPU: Central Processing Unit(中央処理装置)
dBFS: Decibels Relative to Full Scale DCT Discrete Cosine Transform DNN Deep Neural Network(DNNディープニューラルネットワークのDCT離散コサイン変換のフルスケールを基準としたデシベル)
DRC; Dynamic Range Compression(ダイナミックレンジ圧縮)
DSP: Digital Signal Processing(デジタル信号処理)
EQ: Equalization(イコライゼーション)
ERB: Equivalent Rectangular Bandwidth(等価矩形帯域幅)
FIR: Finite Impulse Response(有限インパルス応答)
FC: Fully Connected(全結合)
FFT: Fast Fourier Transform(高速フーリエ変換)
FX: Effects(エフェクト)
GPU: Graphics Processing Unit(画像処理装置)
IIR: Infinite Impulse Response(無限インパルス応答)
JFET: Junction Field Effect Transistor(接合型電界効果トランジスタ)
KL: Kullback-Leibler divergence(カルバック・ライブラー情報量)
LC: Locally Connected(局所結合)
TI: Linear Time Invariant(線形時不変)
LSTM: Long Short-Term Memory(長短期記憶)
MAE: Mean Absolute Error(平均絶対誤差)
MFCC: Mel-Frequency Cepstral Coefficients(メル周波数ケプストラム係数)
MSE: Mean Squared Error(平均二乗誤差)
OTA: Operational Transconductance Amplifier(オペレーショナルトランスコンダクタンスアンプ)
ReLU: Rectifier Linear Unit(整流線形ユニット)
RNN: Recurrent Neural Network(再帰型ニューラルネットワーク)
SAAF: Smooth Adaptive Activation Function(Smooth Adaptive活性化関数)
SFIR: Sparse FIR(スパースFIR)
SGD: Stochastic Gradient Descent(確率的勾配降下法)
STFT: Short-Time Fourier Transform(短時間フーリエ変換)
VST: Virtual Studio Technology(バーチャルスタジオテクノロジー)
WaveNet: Feedforward Wavenet audio effects modeling network(フィードフォワードWavenetオーディオエフェクトモデリングネットワーク)
WDF: Wave Digital Filter(ウェーブデジタルフィルタ)
【0468】
付録A-計算の複雑さ
計算処理時間は、Titan XPのGPUと、Intel Xeon E5-2620のCPUで計算された。サイズ4096の入力フレームを使用し、ホップサイズ2048サンプルでサンプリングされ、これは、モデルが1つのバッチを処理するのにかかる時間(つまり、2秒間のオーディオサンプル内のフレームの総数)に対応する。GPU時間とCPU時間は、非リアルタイム最適化Python実装を使用して報告される。表A.1は、すべてのモデルにわたる訓練可能なパラメータの数と処理時間を示している。
【0469】