特許7629152 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ウェイヴシェイパーテクノロジーズインコーポレイテッドの特許一覧

特許7629152ディープニューラルネットワークを使用した時変および非線形オーディオ信号処理

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1.1
1.2
2.0
2.1
2.2
2.3
2.4
3.1
4.1
4.2
4.3
4.4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-02-04

(45)【発行日】2025-02-13

(54)【発明の名称】ディープニューラルネットワークを使用した時変および非線形オーディオ信号処理

(51)【国際特許分類】

G10H 1/02 20060101AFI20250205BHJP

【ＦＩ】

G10H1/02

【請求項の数】 24

(21)【出願番号】P 2022568979

(86)(22)【出願日】2020-05-12

(65)【公表番号】

(43)【公表日】2023-08-09

(86)【国際出願番号】 GB2020051150

(87)【国際公開番号】W WO2021229197

(87)【国際公開日】2021-11-18

【審査請求日】2023-05-12

【新規性喪失の例外の表示】特許法第３０条第２項適用（１）２０１９年（令和１年）５月１５日ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１９０５．０６１４８ｖ１．ｐｄｆを通じて発表（２）２０１９年（令和１年）１０月２２日ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／１９１０．１０１０５ｖ１．ｐｄｆを通じて発表（３）２０２０年（令和２年）１月１６日ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．３３９０／ａｐｐ１００２０６３８を通じて発表

(73)【特許権者】

【識別番号】524476424

【氏名又は名称】ウェイヴシェイパーテクノロジーズインコーポレイテッド

(74)【代理人】

【識別番号】100136629

【弁理士】

【氏名又は名称】鎌田光宜

(74)【代理人】

【識別番号】100080791

【弁理士】

【氏名又は名称】高島一

(74)【代理人】

【識別番号】100125070

【弁理士】

【氏名又は名称】土井京子

(74)【代理人】

【識別番号】100121212

【弁理士】

【氏名又は名称】田村弥栄子

(74)【代理人】

【識別番号】100174296

【弁理士】

【氏名又は名称】當麻博文

(74)【代理人】

【識別番号】100137729

【弁理士】

【氏名又は名称】赤井厚子

(74)【代理人】

【識別番号】100152308

【弁理士】

【氏名又は名称】中正道

(74)【代理人】

【識別番号】100201558

【弁理士】

【氏名又は名称】亀井恵二郎

(74)【代理人】

【識別番号】100170184

【弁理士】

【氏名又は名称】北脇大

(72)【発明者】

【氏名】マルティネスラミレス、マルコアントニオ

(72)【発明者】

【氏名】レイス、ジョシュアダニエル

(72)【発明者】

【氏名】ベネトス、エマヌエル

【審査官】大野弘

(56)【参考文献】

【文献】特開２０２０－０２７２４５（ＪＰ，Ａ）

【文献】Marco A. Martinez Ramirez et al.，Modeling Nonlinear Audio Effects with End-to-end Deep Neural Networks，ICASSP 2019 - 2019 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)，2019年05月12日，pp171-175，DOI:10.1109/ICASSP.2019.8683529

【文献】Eero-Pekka Damskagg et al.，Deep Learning for Tube Amplifier Emulation，INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)，2019年05月12日，pp. 471-475,，DOI:10.1109/ICASSP.2019.8682805

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｈ１／００－１／４６

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

オーディオ信号データを処理するコンピュータ実装方法であって、
振幅値の時系列を含む入力オーディオ信号データ（ｘ）を受信するステップと、
前記入力オーディオ信号データ（ｘ）を、前記入力オーディオ信号データ（ｘ）の入力周波数帯域分解（Ｘ１）に変換するステップと、
前記入力周波数帯域分解（Ｘ１）を第１の潜在表現（Ｚ）に変換するステップと、
第２の潜在表現（Ｚ＾、Ｚ１＾）を取得するために第１のディープニューラルネットワークによって前記第１の潜在表現（Ｚ）を処理するステップと、
離散近似（Ｘ３＾）を取得するために前記第２の潜在表現（Ｚ＾，Ｚ１＾）を変換するステップと、
変更された特徴マップを取得するために、前記離散近似（Ｘ３＾）と残差特徴マップ（Ｒ，Ｘ５＾）を要素ごとに乗算するステップであって、前記残差特徴マップ（Ｒ，Ｘ５＾）は、前記入力周波数帯域分解（Ｘ１＾）から導出される、ステップと、
波形整形された周波数帯域分解（Ｘ１＾、Ｘ１．２＾）を取得するために波形整形ユニットによって事前整形された周波数帯域分解を処理するステップであって、前記事前整形された周波数帯域分解は、前記入力周波数帯域分解（Ｘ１）から導出され、前記波形整形ユニットは、第２のディープニューラルネットワークを含む、ステップと、
合計出力（Ｘ０＾）を取得するために前記波形整形された周波数帯域分解（Ｘ１＾，Ｘ１．２＾）と変更された周波数帯域分解（Ｘ２＾，Ｘ１．１＾）を合計するステップであって、前記変更された周波数帯域分解（Ｘ２＾，Ｘ１．１＾）は、前記変更された特徴マップから導出される、ステップと、
ターゲットオーディオ信号データ（ｙ＾）を取得するために前記合計出力（Ｘ０＾）を変換するステップとを含む、
オーディオ信号データを処理するコンピュータ実装方法。

【請求項2】

前記入力オーディオ信号データ（ｘ）を前記入力周波数帯域分解（Ｘ１）に変換するステップは、前記入力オーディオ信号データ（ｘ）をカーネル行列（Ｗ１）で畳み込むステップを含む、請求項１に記載の方法。

【請求項3】

前記ターゲットオーディオ信号データ（ｙ＾）を取得するために前記合計出力（Ｘ０＾）を変換するステップは、前記合計出力（Ｘ０＾）を前記カーネル行列の転置（Ｗ１Ｔ）で畳み込むステップを含む、請求項２に記載の方法。

【請求項4】

前記入力周波数帯域分解（Ｘ１）を前記第１の潜在表現（Ｚ）に変換するステップは、特徴マップ（Ｘ２）を取得するために前記入力周波数帯域分解（Ｘ１）の絶対値（｜Ｘ１｜）を重み行列（Ｗ２）で局所結合畳み込みするステップと、前記第１の潜在表現（Ｚ）を取得するために前記特徴マップ（Ｘ２）を最大プーリングするステップとを含む、請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記波形整形ユニットは、前記第２のディープニューラルネットワークに続く局所結合されたＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数層をさらに含む、請求項１～４のいずれか一項に記載の方法。

【請求項6】

前記波形整形ユニットは、前記局所結合されたＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数層に続く第１のＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ層をさらに含む、請求項５に記載の方法。

【請求項7】

前記波形整形された周波数帯域分解（Ｘ１＾、Ｘ１．２＾）および前記変更された周波数帯域分解（Ｘ２＾、Ｘ１．１＾）のうちの少なくとも１つは、前記合計出力（Ｘ０＾）
を生成するために合計する前にゲイン係数（ｓｅ、ｓｅ１、ｓｅ２）によってスケーリングされる、請求項１～６のいずれか一項に記載の方法。

【請求項8】

カーネル行列（Ｗ１）および前記重み行列（Ｗ２）の各々は、１２８未満のフィルタ、任意選択で３２未満のフィルタ、任意選択で８未満のフィルタを含む、請求項４に記載の方法。

【請求項9】

前記第２のディープニューラルネットワークは、任意にそれぞれ３２、１６、１６、および３２の隠れユニットを含む第１～第４のＤｅｎｓｅ層を含み、任意選択で、前記第２のディープニューラルネットワークの前記第１～第３のＤｅｎｓｅ層の各々の後にはｔａｎｈ関数が続く、請求項１～８のいずれか一項に記載の方法。

【請求項10】

前記波形整形ユニットにおいて、前記第１のＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ層は、グローバル平均プーリング演算に先行する絶対値層を含む、請求項６に記載の方法。

【請求項11】

前記入力周波数帯域分解（Ｘ１）を前記残差特徴マップ（Ｒ）として渡すステップと、
前記変更された特徴マップを前記事前整形された周波数帯域分解として渡すステップと、
前記変更された特徴マップを前記変更された周波数帯域分解（Ｘ２＾、Ｘ１．１＾）として渡すステップとをさらに含む、
請求項１～１０のいずれか一項に記載の方法。

【請求項12】

前記第１のディープニューラルネットワークは、複数の双方向長短期記憶層を含み、任意選択でＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数層が続く、請求項１１に記載の方法。

【請求項13】

前記複数の双方向長短期記憶層は、第１、第２、および第３の双方向長短期記憶層を含み、任意選択でそれぞれ６４、３２、および１６ユニットを含む、請求項１２に記載の方法。

【請求項14】

前記複数の双方向長短期記憶層の後に複数のＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数層が続き、それぞれ任意選択で－１～＋１の間の２５個の間隔で構成される、請求項１２または１３に記載の方法。

【請求項15】

前記第１のディープニューラルネットワークは、複数の層を含むフィードフォワードＷａｖｅＮｅｔを含み、任意選択で前記フィードフォワードＷａｖｅＮｅｔの最終層は全結合層である、請求項１２に記載の方法。

【請求項16】

前記第１のディープニューラルネットワークは、複数の共有双方向長短期記憶層と、その後に並列に第１および第２の独立した双方向長短期記憶層を含み、
前記第２の潜在表現（Ｚ１＾）は、前記第１の独立した双方向長短期記憶層の出力から導出され、
前記波形整形ユニットにおいて、前記第１のＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ層は、長短期記憶層をさらに含み、
前記方法は、
前記入力周波数帯域分解（Ｘ１）を前記事前整形された周波数帯域分解として渡すステップと、
第３の潜在表現（Ｚ２＾）を取得するために、前記第２の独立した双方向長短期記憶層を使用して前記第１の潜在表現（Ｚ）を処理するステップと、
第４の潜在表現（Ｚ３＾）を取得するために、スパース有限インパルス応答層を使用して前記第３の潜在表現（Ｚ２＾）を処理するステップと、
前記残差特徴マップ（Ｘ５＾）を取得するために、前記入力周波数帯域分解（Ｘ１）を前記第４の潜在表現（Ｚ３＾）で畳み込むステップと、
前記変更された周波数帯域分解（Ｘ２＾、Ｘ１．１＾）を取得するために、長短期記憶層を含む第２のＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ層によって前記変更された特徴マップを処理するステップとをさらに含む、
請求項６または１０に記載の方法。

【請求項17】

前記複数の共有双方向長短期記憶層は、任意選択でそれぞれ６４ユニットおよび３２ユニットを含む、第１および第２の共有双方向長短期記憶層を含み、任意選択で前記第１および第２共有双方向長短期記憶層の各々は、ｔａｎｈ活性化関数を有する、請求項１６に記載の方法。

【請求項18】

前記第１および第２の独立した双方向長短期記憶層の各々は、１６ユニットを含み、任意選択で前記第１および第２の独立した双方向長短期記憶層の各々は、局所結合ＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数を含む、請求項１６または１７に記載の方法。

【請求項19】

前記スパース有限インパルス応答層は、
前記第３の潜在表現（Ｚ２＾）を入力として取る第１および第２の独立したＤｅｎｓｅ層と、
前記第１および第２の独立したＤｅｎｓｅ層のそれぞれの出力を入力として取るスパーステンソルであって、前記スパーステンソルの出力は、前記第４の潜在表現（Ｚ３＾）である、スパーステンソルとを含み、
任意選択で、前記第１および第２の独立したＤｅｎｓｅ層は、それぞれｔａｎｈ関数およびシグモイド関数を含む、
請求項１６～１８のいずれか一項に記載の方法。

【請求項20】

すべての前記畳み込みが時間次元に沿っており、ユニット値のストライドを有する、請求項２～４および１６のいずれか一項に記載の方法。

【請求項21】

前記ディープニューラルネットワークのうちの少なくとも１つが、チューブアンプ、歪み、スピーカーアンプ、ラダーフィルタ、パワーアンプ、イコライゼーション、イコライゼーションおよび歪み、コンプレッサー、リングモジュレータ、フェイザー、オペレーショナルトランスコンダクタンスアンプに基づくモジュレーション、バケットブリゲードディレイを使用したフランジャー、バケットブリゲードディレイを使用したモジュレーション、レスリースピーカーホーン、レスリースピーカーホーンおよびウーファー、フランジャーおよびコーラス、モジュレーションベース、モジュレーションベースおよびコンプレッサー、プレートおよびスプリングリバーブ、エコー、フィードバックディレイ、スラップバックディレイ、テープベースのディレイ、ノイズ主導の確率的効果、入力信号レベルに基づくダイナミックイコライゼーション、オーディオモーフィング、音色変換、位相ボコーダー、時間伸縮、ピッチシフト、タイムシャッフル、グラニュレーション、３Ｄラウドスピーカーセットアップモデリング、ならびに室内音響を含む群から選択された１つまたは複数のオーディオエフェクトを表すデータに応じて訓練される、請求項１～１４および１６～２０のいずれか一項に記載の方法。

【請求項22】

コンピュータプログラムであって、前記プログラムがコンピュータによって実行されると、前記コンピュータに請求項１～２１に記載の方法を実行させる命令を含む、コンピュータプログラム。

【請求項23】

請求項２２に記載のコンピュータプログラムを含むコンピュータ可読記憶媒体。

【請求項24】

請求項１～２１に記載の方法を実行するように構成されたプロセッサを含むオーディオ信号データ処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オーディオ信号処理、特にディープニューラルネットワークを使用するオーディオ信号処理に関する。

【背景技術】

【0002】

オーディオエフェクト（効果）は、音楽、ライブパフォーマンス、テレビ、映画、ビデオゲームなど、様々なメディアで広く使用されている。音楽制作のコンテキストでは、オーディオエフェクトは主に美的な理由で使用され、通常、ボーカルまたは楽器の録音のダイナミクス、空間化、音色、またはピッチを操作するために適用される。この操作は、線形または非線形、時不変または時変であり、短期記憶または長期記憶を備えることができるエフェクトユニットまたはオーディオプロセッサによって実現される。

【0003】

これらの効果のほとんどは、デジタルフィルタと遅延線を使用してデジタルドメインに直接実装できる。それにもかかわらず、特定のエフェクトユニットまたはアナログ回路、およびそれらの顕著な知覚特性のモデリングは、かなり研究されており、活発な分野であり続けている。これは、多くの場合、機械要素と共にアナログ回路が非線形で時変システムを生成し、デジタルで完全にエミュレートすることが難しいためである。

【0004】

オーディオエフェクトをモデリングする方法には、主に回路のモデリングと、真空管、オペアンプ、またはトランジスタなどの特定のアナログコンポーネントの最適化が含まれる。このようなオーディオプロセッサは、複雑でカスタマイズされたデジタル信号処理（ＤＳＰ）アルゴリズムを必要とするため、簡単にはモデリングできない。これには、特定の回路に固有すぎるモデル、または特定の非線形性またはコンポーネントをモデリングする際に特定の仮定を行うことが必要になることがよくある。したがって、このようなモデルは、モデリングされる回路のタイプに関する専門知識が常に必要とされるため、異なるエフェクトユニットに簡単に移行することはできない。また、ミュージシャンは、デジタル実装がアナログリファレンスデバイスの広範な動作を欠いている可能性があるため、アナログの対応物を好む傾向がある。

【発明の概要】

【発明が解決しようとする課題】

【0005】

オーディオエフェクトをモデリングするための既知の技術を改善する一般的な必要性がある。

【課題を解決するための手段】

【0006】

オーディオ信号データを処理するコンピュータ実装方法であって、振幅値の時系列を含む入力オーディオ信号データ（ｘ）を受信するステップと、入力オーディオ信号データ（ｘ）を、入力オーディオ信号データ（ｘ）の入力周波数帯域分解（Ｘ１）に変換するステップと、入力周波数帯域分解（Ｘ１）を第１の潜在表現（Ｚ）に変換するステップと、第２の潜在表現（Ｚ＾、Ｚ１＾）を取得するために第１のディープニューラルネットワークによって第１の潜在表現（Ｚ）を処理するステップと、離散近似（Ｘ３＾）を取得するために第２の潜在表現（Ｚ＾，Ｚ１＾）を変換するステップと、変更された特徴マップを取得するために、離散近似（Ｘ３＾）と残差特徴マップ（Ｒ，Ｘ５＾）を要素ごとに乗算するステップであって、残差特徴マップ（Ｒ，Ｘ５＾）は、入力周波数帯域分解（Ｘ１＾）から導出される、ステップと、波形整形された周波数帯域分解（Ｘ１＾、Ｘ１．２＾）を取得するために波形整形ユニットによって事前整形された周波数帯域分解を処理するステップであって、事前整形された周波数帯域分解は、入力周波数帯域分解（Ｘ１）から導出され、波形整形ユニットは、第２のディープニューラルネットワークを含む、ステップと、合計出力（Ｘ０＾）を取得するために波形整形された周波数帯域分解（Ｘ１＾，Ｘ１．２＾）と変更された周波数帯域分解（Ｘ２＾，Ｘ１．１＾）を合計するステップであって、変更された周波数帯域分解（Ｘ２＾，Ｘ１．１＾）は、変更された特徴マップから導出される、ステップと、ターゲットオーディオ信号データ（ｙ＾）を取得するために合計出力（Ｘ０＾）を変換するステップとを含む、コンピュータ実装方法が開示される。

【0007】

任意選択で、入力オーディオ信号データ（ｘ）を入力周波数帯域分解（Ｘ１）に変換するステップは、入力オーディオ信号データ（ｘ）をカーネル行列（Ｗ１）で畳み込むステップを含む。

【0008】

任意選択で、ターゲットオーディオ信号データ（ｙ＾）を取得するために合計出力（Ｘ０＾）を変換するステップは、合計出力（Ｘ０＾）をカーネル行列の転置（Ｗ１Ｔ）で畳み込むステップを含む。

【0009】

入力周波数帯域分解（Ｘ１）を第１の潜在表現（Ｚ）に変換するステップは、任意選択で、特徴マップ（Ｘ２）を取得するために、入力周波数帯域分解（Ｘ１）の絶対値（｜Ｘ１｜）を重み行列（Ｗ２）で局所結合畳み込みするステップと、任意選択で、第１の潜在表現（Ｚ）を取得するために、特徴マップ（Ｘ２）を最大プーリングするステップとを含む。

【0010】

任意選択で、波形整形ユニットは、第２のディープニューラルネットワークに続く局所結合されたＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数層をさらに含む。

【0011】

任意選択で、波形整形ユニットは、局所結合されたＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数層に続く第１のＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ層をさらに含む。

【0012】

波形整形された周波数帯域分解（Ｘ１＾、Ｘ１．２＾）および変更された周波数帯域分解（Ｘ２＾、Ｘ１．１＾）のうちの少なくとも１つは、任意選択で、合計出力（Ｘ０＾）を生成するために合計する前にゲイン係数（ｓｅ、ｓｅ１、ｓｅ２）によってスケーリングされる。

【0013】

任意選択で、カーネル行列（Ｗ１）および重み行列（Ｗ２）の各々は、１２８未満のフィルタ、任意選択で３２未満のフィルタ、任意選択で８未満のフィルタを含む。

【0014】

任意選択で、第２のディープニューラルネットワークは、任意にそれぞれ３２、１６、１６、および３２の隠れユニットを含む第１～第４のＤｅｎｓｅ層を含み、任意選択で、第２のディープニューラルネットワークの第１～第３のＤｅｎｓｅ層の各々の後にはｔａｎｈ関数が続く。

【0015】

任意選択で、波形整形ユニットにおいて、第１のＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ層は、グローバル平均プーリング演算に先行する絶対値層を含む。

【0016】

この方法は、入力周波数帯域分解（Ｘ１）を残差特徴マップ（Ｒ）として渡すステップをさらに含むことができる。この方法は、事前整形された周波数帯域分解として変更された特徴マップを渡すステップをさらに含むことができる。この方法は、変更された特徴マップを変更された周波数帯域分解（Ｘ２＾、Ｘ１．１＾）として渡すステップをさらに含むことができる。

【0017】

任意選択で、第１のディープニューラルネットワークは、複数の双方向長短期記憶層を含み、任意選択でＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数層が続く。

【0018】

任意選択で、複数の双方向長短期記憶層は、第１、第２、および第３の双方向長短期記憶層を含み、任意選択でそれぞれ６４、３２、および１６ユニットを含む。

【0019】

任意選択で、複数の双方向長短期記憶層の後に複数のＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数層が続き、それぞれ任意選択で－１～＋１の間の２５個の間隔で構成される。

【0020】

任意選択で、第１のディープニューラルネットワークは、複数の層を含むフィードフォワードＷａｖｅＮｅｔを含み、任意選択でＷａｖｅＮｅｔの最終層は全結合層である。

【0021】

任意選択で、第１のディープニューラルネットワークは、複数の共有双方向長短期記憶層と、その後に並列に第１および第２の独立した双方向長短期記憶層を含む。任意選択で、第２の潜在表現（Ｚ１＾）は、第１の独立した双方向長短期記憶層の出力から導出される。任意選択で、波形整形ユニットにおいて、第１のＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ層は、長短期記憶層をさらに含む。任意選択で、この方法は、入力周波数帯域分解（Ｘ１）を事前整形された周波数帯域分解として渡すステップをさらに含む。この方法は、第３の潜在表現（Ｚ２＾）を取得するために、第２の独立した双方向長短期記憶層を使用して第１の潜在表現（Ｚ）を処理するステップをさらに含むことができる。この方法は、第４の潜在表現（Ｚ３＾）を取得するために、スパース有限インパルス応答層を使用して第３の潜在表現（Ｚ２＾）を処理するステップをさらに含むことができる。この方法は、前記残差特徴マップ（Ｘ５＾）を取得するために、周波数帯域表現（Ｘ１）を第４の潜在表現（Ｚ３＾）で畳み込むステップをさらに含むことができる。この方法は、前記変更された周波数帯域分解（Ｘ２＾、Ｘ１．１＾）を取得するために、長短期記憶層を含む第２のＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ層によって変更された特徴マップを処理するステップをさらに含むことができる。

【0022】

任意選択で、複数の共有双方向長短期記憶層は、任意選択でそれぞれ６４ユニットおよび３２ユニットを含む、第１および第２の共有双方向長短期記憶層を含み、任意選択で第１および第２共有双方向長短期記憶層の各々は、ｔａｎｈ活性化関数を有する。

【0023】

任意選択で、第１および第２の独立した双方向長短期記憶層の各々は、１６ユニットを含み、任意選択で第１および第２の独立した双方向長短期記憶層の各々は、局所結合ＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数を含む。

【0024】

任意選択で、スパース有限インパルス応答層は、第３の潜在表現（Ｚ２＾）を入力として取る第１および第２の独立したＤｅｎｓｅ層を含む。スパース有限インパルス応答層は、第１および第２の独立したＤｅｎｓｅ層のそれぞれの出力を入力として取るスパーステンソルであって、スパーステンソルの出力は、第４の潜在表現（Ｚ３＾）である、スパーステンソルをさらに含むことができる。任意選択で、第１および第２の独立したＤｅｎｓｅ層は、それぞれｔａｎｈ関数およびシグモイド関数を含む。

【0025】

任意選択で、すべての畳み込みが時間次元に沿っており、ユニット値のストライドを有する。

【0026】

任意選択で、ディープニューラルネットワークのうちの少なくとも１つが、チューブアンプ、歪み、スピーカーアンプ、ラダーフィルタ、パワーアンプ、イコライゼーション、イコライゼーションおよび歪み、コンプレッサー、リングモジュレータ、フェイザー、オペレーショナルトランスコンダクタンスアンプに基づくモジュレーション、バケットブリゲードディレイを使用したフランジャー、バケットブリゲードディレイを使用したモジュレーション、レスリースピーカーホーン、レスリースピーカーホーンおよびウーファー、フランジャーおよびコーラス、モジュレーションベース、モジュレーションベースおよびコンプレッサー、プレートおよびスプリングリバーブ、エコー、フィードバックディレイ、スラップバックディレイ、テープベースのディレイ、ノイズ主導の確率的効果、入力信号レベルに基づくダイナミックイコライゼーション、オーディオモーフィング、音色変換、位相ボコーダー、時間伸縮、ピッチシフト、タイムシャッフル、グラニュレーション、３Ｄラウドスピーカーセットアップモデリング、ならびに室内音響を含む群から選択された１つまたは複数のオーディオエフェクトを表すデータに応じて訓練される。

【0027】

プログラムがコンピュータによって実行されると、コンピュータに本明細書の上記に開示された方法を実行させる命令を含むコンピュータプログラムが開示される。

【0028】

上記のコンピュータプログラムを含むコンピュータ可読記憶媒体が開示される。

【0029】

本明細書の上記に開示された方法を実行するように構成されたプロセッサを含むオーディオ信号データ処理装置も開示される。

【図面の簡単な説明】

【0030】

【図1.1】ＣＡＦｘのブロック図。適応型フロントエンド、合成バックエンド、および潜在空間ＤＮＮ。

【図1.2】フィードフォワードＷａｖｅＮｅｔのブロック図。膨張畳み込み層のスタックと後処理ブロック。

【図2.0】ＣＡＦｘとＷａｖｅＮｅｔに基づいて構築されたオーディオ信号処理アーキテクチャのブロック図。時変および非線形のオーディオエフェクトをモデリングできる。

【図2.1】ＣＲＡＦｘのブロック図。適応型フロントエンド、潜在空間Ｂｉ－ＬＳＴＭ、および合成バックエンド。

【図2.2】ＤＮＮ－ＳＡＡＦ－ＳＥのブロック図。

【図2.3】ＣＷＡＦｘのブロック図。適応型フロントエンド、潜在空間ＷａｖｅＮｅｔ、および合成バックエンド。

【図2.4】レスリースピーカータスク（右チャネル）のテストデータセットから選択されたサンプルの結果。図２．９ａと図２．９ｂは、波形とそれらのそれぞれのモジュレーションスペクトルを示している。縦軸は、振幅とガンマトーンの中心周波数（Ｈｚ）をそれぞれ表す。

【図3.1】リスニングテストの評点結果を示すボックスプロット。図３．２ａプリアンプ、図３．２ｂリミッター、図３．２ｃレスリースピーカーのホーントレモロ、図３．２ｄレスリースピーカーのウーファートレモロ、図３．２ｅレスリースピーカーのホーンコラール、図３．２ｆレスリースピーカーのウーファーコラール。

【図4.1】ＣＳＡＦｘのブロック図。適応型フロントエンド、潜在空間、および合成バックエンド。

【図4.2】ＣＳＡＦｘの潜在空間のブロック図。

【図4.3】ＣＳＡＦｘの合成バックエンドのブロック図。

【図4.4】リスニングテストの評点結果を示すボックスプロット。上から順に、プレートリバーブタスクとスプリングリバーブタスク。

【発明を実施するための形態】

【0031】

実施形態は、オーディオエフェクトをモデリングするための改善された技術を提供する。

【0032】

近年、音楽用のディープニューラルネットワーク（ＤＮＮ）が大幅に成長している。ほとんどの音楽アプリケーションは、音楽情報検索、音楽レコメンデーション、および音楽生成の分野にある。生のオーディオ信号がシステムの入力と出力の両方であるエンドツーエンドのディープラーニングアーキテクチャは、入力から出力まで学習する必要がある単一の分割不可能なタスクとして問題全体を処理できるブラックボックスモデリングアプローチに従う。したがって、所望の出力は、入力された生のオーディオ信号を直接学習および処理することによって取得され、これにより、必要な事前知識の量が削減され、エンジニアリングの労力が最小限に抑えられる。

【0033】

本発明以前には、この原理を使用する、すなわち生のオーディオ信号を直接処理するディープラーニングアーキテクチャは、オーディオエフェクトモデリングなどのオーディオ信号処理タスクについて検討されていなかった。

【0034】

それにもかかわらず、オーディオエフェクトモデリング用のＤＮＮは、最近新興分野となり、エンドツーエンドの方法として、またはオーディオプロセッサのパラメータ推定器として研究されている。エンドツーエンドの研究のほとんどは、歪み効果などの短期記憶を備えた非線形オーディオプロセッサのモデリングに焦点を当てている。さらに、パラメータ推定に基づく方法は、固定のオーディオ信号処理アーキテクチャに基づいている。その結果、様々なタイプのオーディオエフェクトユニット間で一般化することは通常困難である。様々なタイプのオーディオエフェクトの幅広い特性を考慮に入れると、この一般化の欠如は強調され、その中には、非常に複雑な非線形および時変システムに基づいているものもあり、そのモデリング方法は依然として活発な分野である。

【0035】

オーディオエフェクトモデリングのコンテキストにおけるオーディオ信号処理のための汎用ディープラーニングアーキテクチャが開示される。したがって、動機は、すべてのタイプのオーディオエフェクトの一般的なブラックボックスモデリングのオーディオ信号処理ブロックとしてのＤＮＮの実現可能性を実証することである。このようにして、任意のオーディオプロセッサを仮定すると、ニューラルネットワークは、この変換の固有の特性を学習して適用することができる。このアーキテクチャは、様々なタイプのオーディオエフェクトのサウンド、動作、および主な知覚機能を再現できる。デジタルオーディオエフェクトからのドメイン知識と共にＤＮＮのモデリング機能に基づいて、様々なディープラーニングアーキテクチャを提案する。これらのモデルは、リファレンスのオーディオエフェクトの音響および知覚品質に一致するオーディオ信号を処理および出力できる。この開示を通じて、客観的な知覚ベースの測定基準と主観的なリスニングテストを介してモデルのパフォーマンスを測定する。

【0036】

出版物Ｉ：“Ｅｎｄ－ｔｏ－ｅｎｄｅｑｕａｌｉｚａｔｉｏｎｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ（畳み込みニューラルネットワークによるエンドツーエンドのイコライゼーション）”，ＭａｒｔiｎｅｚＲａｍiｒｅｚ，Ｍ．Ａ．；Ｒｅｉｓｓ，Ｊ．Ｄ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１８），アヴェイロ，ポルトガル，４－８２０１８年９月．ｈｔｔｐ：／／ｄａｆｘ２０１８．ｗｅｂ．ｕａ．ｐｔ／ｐａｐｅｒｓ／ＤＡＦｘ２０１８＿ｐａｐｅｒ＿２７．ｐｄｆ出版物Ｉ，これは、参照により本明細書に組み込まれ、線形オーディオエフェクトのエンドツーエンドのブラックボックスモデリング用のＤＮＮである畳み込みＥＱモデリングネットワーク（ＣＥＱ）の派生物を含む。

【0037】

出版物ＩＩ：“Ｍｏｄｅｌｉｎｇｎｏｎｌｉｎｅａｒａｕｄｉｏｅｆｆｅｃｔｓｗｉｔｈｅｎｄ－ｔｏ－ｅｎｄｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ（エンドツーエンドのディープニューラルネットワークを使用した非線形オーディオエフェクトのモデリング）”，ＭａｒｔiｎｅｚＲａｍiｒｅｚ，Ｍ．Ａ．；Ｒｅｉｓｓ，Ｊ．Ｄ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），ブライトン，イギリス，１２－１７２０１９月５月．ｈｔｔｐｓ：／／ｉｅｅｅｘｐｌｏｒｅ．ｉｅｅｅ．ｏｒｇ／ｄｏｃｕｍｅｎｔ／８６８３５２９出版物ＩＩ，これは、参照により本明細書に組み込まれ、非線形および線形オーディオエフェクトのブラックボックスモデリング用の畳み込みオーディオエフェクトモデリングネットワーク（ＣＡＦｘ）の派生物を含む。

【0038】

実施形態は、本明細書の以下の章で詳細に説明される。

【0039】

１－非線形オーディオエフェクトのモデリング
この章では、出版物ＩのＣＥＱモデリングネットワークに基づいて、歪み効果などのはるかにより複雑な変換をエミュレートする。したがって、短期記憶を使用して非線形および線形のオーディオエフェクトをモデリングするための新しいディープラーニングアーキテクチャであるＣＡＦｘを導入する。また、ｗａｖｅｎｅｔアーキテクチャのフィードフォワードバリアントに基づく非線形モデリングネットワークも提供する。

【0040】

歪み効果は主に美的な理由で使用され、通常は電子楽器に適用される。非線形モデリングの既存の方法のほとんどは、単純化されているか、非常に特定の回路に最適化されていることがよくある。したがって、この章では、非線形オーディオエフェクトのブラックボックスモデリング用の汎用エンドツーエンドＤＮＮを研究する。

【0041】

線形および非線形のオーディオエフェクトと短期記憶の任意の組み合わせについて、モデルはターゲットのオーディオ信号に一致させるためにオーディオ信号を直接処理する方法を学習する。非線形性を仮定すると、ｘとｙをそれぞれ生のオーディオ信号と歪んだオーディオ信号と考える。ターゲットｙに一致するｙ＾を取得するために、非線形タスクに基づいてｘを変更するようにＤＮＮを訓練する。

【0042】

非線形システムの解を明示的に取得することなく、コンテンツベースの変換として非線形エミュレーションを提供する。畳み込み層とＤｅｎｓｅ層に基づくモデルであるＣＡＦｘは、ＳＡＡＦなどの適応型活性化関数を組み込むことができることを報告する。これは、非線形モデリングなどのオーディオ信号処理タスクでウェーブシェイパー（ｗａｖｅｓｈａｐｅｒ；波形整形器）として機能するようにＳＡＡＦを明示的に訓練するためである。したがって、歪み効果は波形整形の非線形性によって特徴付けられるため、ＤＮＮモデリングフレームワーク内で訓練可能なウェーブシェイパーとして機能するように、任意の連続関数を近似できるＳＡＡＦの滑らかな属性を頼りにする。

【0043】

このようにして、ＤＮＮの機能を、非線形オーディオエフェクトのモデリングのコンテキストでのオーディオ信号処理ブロックとして提供する。波形整形の非線形性などの特定のドメイン知識を使用することで、短期記憶で非線形オーディオ信号処理タスクを実行する際のＤＮＮの関数近似機能を向上させる。

【0044】

同じ非線形モデリングタスクを通じて、時間膨張畳み込みのみに基づくモデルであるＷａｖｅＮｅｔを分析する。知覚ベースの客観的測定基準を介してモデルのパフォーマンスを測定し、歪み、オーバードライブ、アンプエミュレーション、ならびに、線形および非線形のデジタルオーディオエフェクトの組み合わせをモデリングする場合、両方のモデルが同様に機能することを報告する。

【0045】

次のセクションでは、様々なモデリングネットワークのアーキテクチャを示す。すべてのモデルは、完全に時間領域とエンドツーエンドに基づいており、生のオーディオ信号を入力として、処理されたオーディオ信号を出力として使用する。コードは、オンラインで入手できる（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍｃｈｉｊｍｍａ／ＤＬ－ＡＦｘ／ｔｒｅｅ／ｍａｓｔｅｒ／ｓｒｃ）。

【0046】

１．１－畳み込みオーディオエフェクトモデリングネットワーク－ＣＡＦＸ

【0047】

このモデルは、適応型フロントエンド、合成バックエンド、潜在空間ＤＮＮの３つの部分に分かれている。このアーキテクチャは、短期記憶を使用して非線形オーディオエフェクトをモデリングするように設計されており、カスケード入力フィルタ、訓練可能な波形整形の非線形性、および出力フィルタの並列組み合わせに基づいている。

【0048】

すべての畳み込みは時間次元に沿っており、すべてのストライドはユニット値である。これは、畳み込み中にフィルタを一度に１サンプルずつ移動させることを意味する。また、出力が入力の分解能を維持するように、入力特徴マップの両側でパディングが行われる。膨張は導入されない。

【0049】

モデルを図１．１に示し、その構造を表１．１で詳しく説明する。サイズ１０２４の入力フレームを使用し、ホップサイズ２５６サンプルでサンプリングする。

【0050】

適応型フロントエンドと潜在空間ＤＮＮは、ＣＥＱとまったく同じである（出版物Ｉを参照）。主な違いは、Ｄｅｎｓｅ層とＳＡＡＦがバックエンドに組み込まれていることである。これは、モデルが歪み効果を特徴付ける波形整形の非線形性を学習できるようにするためである。

【0051】

【表1.1】

【0052】

適応型フロントエンド

【0053】

適応型フロントエンドは、畳み込みエンコーダを含む。これには、２つの畳み込み層（１つのプーリング層と１つの残差接続）が含まれる。フロントエンドは、その畳み込み層が各々のモデリングタスクのフィルタバンクをオーディオ信号から直接学習するため、適応性があると見なされる。

【0054】

第１の畳み込み層の後に非線形活性化関数として絶対値が続き、第２の畳み込み層は局所結合（ＬＣ）される。これは、各々のフィルタが入力特徴マップのその対応する行にのみ適用されるため、フィルタバンクアーキテクチャに従うことを意味する。後の層の後には、ソフトプラスの非線形性が続く。最大プーリング層は、サイズ１６の移動窓であり、各々の窓内の最大値が出力に対応し、最大値の位置が保存され、バックエンドによって使用される。第１の層によって実行される演算は、次のように記述することができる。

【0055】

【数1】

【0056】

式中、Ｗ１は第１の層からのカーネル行列であり、Ｘ１は入力オーディオ信号ｘがＷ１で畳み込まれた後の特徴マップである。重みＷ１は、サイズ６４の１２８個の１次元フィルタを含む。残差接続ＲはＸ１に等しく、これは入力ｘの周波数帯域分解に対応する。これは、畳み込み１Ｄの各々のフィルタの出力が周波数帯域として見られ得るためである。

【0057】

第２の層で実行される演算は、次の式によって記述される。

【0058】

【数2】

【0059】

式中、Ｘ２^（ｉ）とＷ２^（ｉ）は、それぞれ特徴マップＸ２とカーネル行列Ｗ２のｉ番目の行である。したがって、Ｘ２は、サイズ１２８の１２８個のフィルタをもつ畳み込み１Ｄ－局所の重み行列であるＷ２とのＬＣ畳み込みの後に取得される。ｆ２（）は、ソフトプラス関数である。

【0060】

適応型フロントエンドは、生のオーディオ信号で時間領域の畳み込みを実行し、各々のオーディオエフェクトモデリングタスクの潜在表現を学習するように設計されている。また、特定のオーディオエフェクト変換に基づいて波形の合成を容易にするためにバックエンドで使用される残差接続も生成する。

【0061】

これは、完全な入力データが潜在空間にエンコードされ、デコーダー内の各々の層に完全な目的の出力のみを生成させる、従来のエンコード方法（Ｈｅら，２０１６）とは異なる。さらに、Ｅｎｇｅｌら（２０１７）、Ｏｏｒｄら（２０１６）のような完全なエンコーディングアプローチは、非常に深いモデル、大規模なデータセット、および困難な訓練手順を必要とする。

【0062】

第１の層の活性化関数として絶対値を使用し、より大きなフィルタＷ２を有することにより、フロントエンドがエンベロープなどの着信オーディオ信号のよりスムーズな表現を学習することが期待される（Ｖｅｎｋａｔａｒａｍａｎｉら（２０１７）。

【0063】

潜在空間ＤＮＮ

【0064】

潜在空間ＤＮＮには、２つのＤｅｎｓｅ層が含まれている。フィルタバンクアーキテクチャに従って、第１の層はＬＣＤｅｎｓｅ層に基づいており、第２の層はＦＣ層を含む。ＤＮＮは、潜在表現Ｚを新しい潜在表現Ｚ＾に変更し、これは合成バックエンドに供給される。第１の層は、行列Ｚの各々の行に異なるＤｅｎｓｅ層を適用し、第２の層は、第１の層からの出力行列の各々の行に適用される。両方の層において、すべてのＤｅｎｓｅ層には、６４個の隠れユニットがあり、その後にソフトプラス関数（ｆ_ｈ）が続き、チャネル次元ではなく完全な潜在表現に適用される。

【0065】

潜在空間ＤＮＮによって実行される演算は、次の通りである。

【0066】

【数3】

【0067】

式中、Ｚｈ＾^（ｉ）は、ＬＣ層の出力特徴マップＺｈ＾のｉ行目である。同様に、Ｖ１^（ｉ）は、ＬＣ層の重み行列Ｖ１に対応するｉ番目のＤｅｎｓｅ層である。Ｖ２は、ＦＣ層の重みに対応する。

【0068】

最大プーリング演算Ｚの出力は、エンベロープなどのＥＱタスクが与えられた入力オーディオ信号の最適な潜在表現に対応する。ＤＮＮは、これらのエンベロープを変更するように訓練されているため、ターゲットタスクに一致するオーディオ信号を再構築するために、新しい潜在表現または一連のエンベロープＺ＾が合成バックエンドに供給される。

【0069】

合成バックエンド

【0070】

合成バックエンドは、次のステップによって非線形タスクを遂行する。最初に、Ｘ２の離散近似であるＸ２＾を、変更されたエンベロープＺ＾を逆プーリングすることによって取得する。そして、特徴マップＸ１＾は、残差接続ＲとＸ２＾の要素ごとの乗算の結果である。これは、フロントエンドで取得された周波数帯域分解の各々に異なるエンベロープゲインが適用されるため、入力フィルタリング演算と見なすことができる。

【0071】

第２のステップは、Ｘ１＾に様々な波形整形の非線形性を適用することである。これは、Ｄｅｎｓｅ層とＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数（ＤＮＮ－ＳＡＡＦ）を含む処理ブロックで実現される。ＤＮＮ－ＳＡＡＦは、４つのＦＣＤｅｎｓｅ層を含む。最後の層を除いて、すべてのＤｅｎｓｅ層の後にはソフトプラス関数が続く。局所結合ＳＡＡＦは、最後の層の非線形性として使用される。全体として、各々の関数は局所結合されており、－１～＋１の間の２５の間隔で構成されている。

【0072】

パラメトリックおよびノンパラメトリックＲｅＬＵ、双曲線正接、シグモイド、５次多項式など、様々な標準および適応型活性化関数をテストした。それにもかかわらず、非線形効果をモデリングするときに、安定性の問題と最適でない結果が見つかった。各々のＳＡＡＦは明示的にウェーブシェイパーとして機能するため、ＤＮＮ－ＳＡＡＦは、フィルタバンクアーキテクチャに従い、変更された周波数分解Ｘ１＾のチャネル次元に適用される、一連の訓練可能な波形整形の非線形性のセットとして振る舞うように制約される。

【0073】

最後に、最後の層はデコンボリューション演算に対応し、第１の層の変換を転置することで実装できる。ＣＥＱと同様に、この層は、そのカーネルがＷ１の転置バージョンであるため、訓練できない。このようにして、バックエンドは、フロントエンドがオーディオ信号波形を分解したのと同じ方法でオーディオ信号波形を再構築する。完全な波形は、ハン窓と一定のオーバーラップ加算ゲインを使用して合成される。

【0074】

【数4】

【0075】

１．２フィードフォワードｗａｖｅｎｅｔオーディオエフェクトモデリングネットワーク－ＷａｖｅＮｅｔ

【0076】

ＷａｖｅＮｅｔアーキテクチャは、元の自己回帰モデルのフィードフォワードバリエーションに対応している。非線形モデリングなどの回帰タスクの場合、予測されたサンプルはモデルにフィードバックされないが、モデルが単一の順方向伝播で一連のサンプルを予測するスライディング入力窓を介してフィードバックされる。フィードフォワードｗａｖｅｎｅｔの実装は、Ｄａｍｓｋａｇｇら（２０１９）およびＲｅｔｈａｇｅら（２０１８）によって提案されたアーキテクチャに基づいている。このモデルは、２つの部分：膨張畳み込みのスタックと後処理ブロックに分かれている。モデルを図１．２に示し、その構造を表１．２に示す。

【0077】

【表1.2】

【0078】

膨張係数が１，２，．．．，３２の６つの膨張畳み込み層の２つのスタックと、サイズが３の１６個のフィルタを使用する。図１．１から、膨張畳み込みのスタックの前に、入力ｘは、３×１の畳み込みを介して１６チャネルに射影される。これは、膨張畳み込みの特徴マップ内のチャネル数を一致させるためである。膨張畳み込みのスタックは、入力特徴マップＲｉｎを３×１のゲート畳み込みと指数関数的に増加する膨張係数で処理する。この演算は次のように記述できる。

【0079】

【数5】

【0080】

式中、ＷｆとＷｇはフィルタとゲート畳み込みカーネル、ｔａｎｈとσは双曲線正接とシグモイド関数、＊と×は畳み込みと要素ごとの乗算の演算子である。残差出力接続Ｒｏｕｔとスキップ接続Ｓは、ｚに適用される１×１の畳み込みを介して取得される。したがって、Ｓは後処理ブロックに送信され、Ｒｏｕｔが現在の入力行列Ｒｉｎに加算され、こうして次の膨張畳み込み層の残差入力特徴マップが得られる。

【0081】

後処理ブロックは、ＲｅＬＵが後に続くすべてのスキップ接続Ｓを合計することで構成される。最終的な２つの３×１の畳み込みが結果の特徴マップに適用され、これには２０４８と２５６のフィルタが含まれ、ＲｅＬＵによって区切られている。最後のステップとして、単一チャネル出力オーディオ信号ｙ＾を取得するために、１×１の畳み込みが導入される。

【0082】

ｗａｖｅｎｅｔアーキテクチャのリセプティブフィールドｒｆは、次の式で計算できる（Ｏｏｒｄら，２０１６）。

【0083】

【数6】

【0084】

式中、ｎはスタックの数であり、ｆ_ｋはフィルタのサイズであり、Ｄは膨張層の数であり、ｄｉは各々の膨張係数に対応する。このアーキテクチャでは、モデルのリセプティブフィールドは２５３サンプルであり、ターゲットフィールドｔｆは１０２４サンプルである。したがって、モデルに提示される入力フレームｉｆは、１２７６サンプルのスライディングウィンドウを含み、次のように計算される（Ｒｅｔｈａｇｅら，２０１８）。

【0085】

【数7】

【0086】

次の章では、これらのアーキテクチャに基づき、ＲＮＮと潜在空間の一時的な膨張畳み込みを提供して、ダイナミックレンジ圧縮または様々なモジュレーション効果などの長期記憶を含む変換をモデリングする。

【0087】

２－時変オーディオエフェクトのモデリング
パラメータが時間の経過と共に定期的に変更されるオーディオエフェクトは、多くの場合、時変またはモジュレーションベースのオーディオエフェクトと呼ばれる。さらに、時不変のオーディオエフェクトの幅広いファミリー（例えば、コンプレッサー）は、長期的な依存関係に基づいている。線形挙動を仮定するか、特定の非線形回路コンポーネントを省略することにより、これらの効果のほとんどは、デジタルフィルタと遅延線を使用してデジタルドメインに直接実装できる。

【0088】

それにもかかわらず、ミュージシャンはアナログの対応物を好む傾向があり、現在の方法は非常に特定の回路に最適化されていることが多いため、このタイプのエフェクトのモデリングは依然として活発な分野である。したがって、このようなモデルは、モデリングされている回路のタイプに関する専門知識が常に必要であり、長期記憶を備えた他の時変または時不変のオーディオエフェクトに効率的に一般化できないため、様々なエフェクトユニットに簡単に移すことはできない。

【0089】

前の章のアーキテクチャは、長い時間依存関係をもつ変換に一般化されていないため、この章では、これらのエフェクトユニットを特徴付ける長期記憶を学習するためのエンドツーエンドのＤＮＮの機能を提供する。ＣＡＦｘとＷａｖｅＮｅｔのアーキテクチャに基づき、ＣＲＡＦｘとＣＷＡＦｘという２つの新しい汎用モデリングネットワークを提案する。以前のモデルの適応型フロントエンドおよびバックエンド構造に基づいて、双方向長短期記憶（Ｂｉ－ＬＳＴＭ）層または時間膨張畳み込みに基づく潜在空間は、時変変換を学習できる。コードは、オンラインで入手でき：ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍｃｈｉｊｍｍａ／ＤＬ－ＡＦｘ／ｔｒｅｅ／ｍａｓｔｅｒ／ｓｒｃ、パラメータの数と計算の複雑さは、付録Ａに示されている。

【0090】

したがって、長期記憶を備えたオーディオプロセッサの一般的なブラックボックスモデリングのためのディープラーニングアーキテクチャを導入する。コーラス、フランジャー、フェイザー、トレモロ、ビブラート、ＬＦＯベースのオートワウ、リングモジュレータ、レスリースピーカーなどのモジュレーションベースのオーディオエフェクトのデジタル実装に対応するモデルを示す。さらに、エンベロープフォロワー、コンプレッサー、およびマルチバンドコンプレッサーを使用したオートワウなど、時間依存性が長い非線形時不変オーディオエフェクトを含めることで、モデルのアプリケーションを拡張する。また、非線形時変オーディオ変換をモデリングする際のネットワークの機能をテストするために、オーバードライブなどの非線形性を線形時変エフェクトユニットに導入する。

【0091】

時変システムの解を明示的に取得することなく、コンテンツベースの変換として線形および非線形の時変エミュレーションを提供する。モデルのパフォーマンスを測定するために、モジュレーション周波数知覚の心理音響学に基づいた客観的な測定基準を提案する。また、モデルが実際に学習しているものと、与えられたタスクがどのように達成されるかを分析する。

【0092】

図２．０を参照すると、全体の構造は、適応型フロントエンド、潜在空間ＤＮＮ、および合成バックエンドの３つの部分に基づいている。

【0093】

まず、入力オーディオ信号ｘが、潜在表現Ｚにサブサンプリングされる特徴マップＸ２に変換される。これは、例えば、畳み込みカーネルＷ１およびＷ２のフィルタバンクアーキテクチャを介して、２つの連続する畳み込みを介して行うことができる。

【0094】

また、第１の畳み込みによって、周波数帯域分解Ｘ１が得られ、そこから残差特徴マップＲを導出することができる。残差特徴マップＲは、さらなる入力からさらに導出することができる。

【0095】

潜在表現Ｚは、新しい潜在表現Ｚ＾、Ｚ＾１に変更される。これは、ＤＮＮを介して行うことができる。

【0096】

新しい潜在表現は、逆プーリングまたはアップサンプリング演算などによって、特徴マップＸ３＾にアップサンプリングされる。

【0097】

Ｘ３＾を使用して、Ｘ３＾とＲを要素ごとに乗算するなどして、残差特徴マップＲ（または事前に変更されたバージョンＸ５＾）を変更し、こうして時変効果のあるオーディオストリームに対応する特徴マップＸ２＾、Ｘ＾１．１を取得することができる。

【0098】

Ｒ、Ｘ５＾は、波形整形ＤＮＮを介してさらに変更され、こうして短期記憶変換（つまり、ウェーブシェイパー）を備えたオーディオストリームに対応する特徴マップＸ１＾、Ｘ１．２＾を取得する。

【0099】

Ｘ２＾、Ｘ＾１．１と、Ｘ１＾、Ｘ１．２＾は、周波数帯域分解Ｘ０＾に合計され、そこからターゲットオーディオ信号ｙ＾が再構築される。再構築は、デコンボリューションによって行うことができる。任意選択で、Ｗ１の転置カーネル（Ｗ１Ｔ）を使用してデコンボリューションを実装できる。

【0100】

この合計により、時変効果を備えた（つまり、長期記憶を伴うモジュレーションベースまたはエンベロープベースの）オーディオストリームを、時変効果のないオーディオストリーム（つまり、波形整形変換を伴う、または伴わない入力オーディオ信号ストリーム）と混合できる。

【0101】

２．１畳み込み再帰型オーディオエフェクトモデリングネットワーク－ＣＲＡＦｘ

【0102】

ＣＲＡＦｘモデルは、ＣＡＦＸアーキテクチャに基づき、これもまた、適応型フロントエンド、潜在空間、合成バックエンドの３つの部分に分かれている。ブロック図を図２．１に見ることができ、その構造を表２．１に詳しく示す。主な違いは、潜在空間へのＢｉ－ＬＳＴＭの組み込みと、合成バックエンド構造の変更である。これは、モデルが長い時間依存関係を伴う非線形変換を学習できるようにするためである。また、１２８チャネルの代わりに、Ｒｅｃｕｒｒｅｎｔ層の訓練時間のために、このモデルは、３２チャネルまたはフィルタのフィルタバンク構造を使用する。

【0103】

モデルが長期記憶依存関係を学習できるようにするために、入力は、現在の時間ステップｔでのオーディオフレームｘを含み、ｋ個の前のフレームとｋ個の後続のフレームと連結される。これらのフレームのサイズはＮで、ホップサイズτでサンプリングされる。連結された入力ｘは、次のように記述される。

【0104】

【数8】

【0105】

適応型フロントエンドは、ＣＡＦｘのものとまったく同じであるが、その層は時間分散される、つまり、同じ畳み込みまたはプーリング演算が、２ｋ＋１個の入力フレームの各々に適用される。最大プーリング演算は、サイズＮ／６４の移動窓である。このモデルでは、Ｒは、現在の入力フレームｘ^（０）の周波数帯域分解に対して対応するＸ１内の行である。したがって、バックエンドは、過去および後続のコンテキストフレームから情報を直接受け取らない。

【0106】

【表2.1】

【0107】

潜在空間Ｂｉ－ＬＳＴＭ

【0108】

潜在空間は、それぞれ６４、３２、および１６ユニットの３つのＢｉ－ＬＳＴＭ層を含む。Ｂｉ－ＬＳＴＭは、フロントエンドによって学習され、２ｋ＋１個の入力フレームに関する情報を含む潜在空間表現Ｚを処理する。これらのＲｅｃｕｒｒｅｎｔ層は、一連の非線形モジュレータＺ＾も学習しながら、Ｚの次元を低減するように訓練される。この新しい潜在表現またはモジュレータは、時変モデリングタスクに一致するオーディオ信号を再構築するために、合成バックエンドに供給される。各々のＢｉ－ＬＳＴＭのＤｒｏｐｏｕｔ率とＲｅｃｕｒｒｅｎｔＤｒｏｐｏｕｔ率は０．１であり、最初の２つの層は、活性化関数としてｔａｎｈを有する。また、最後のＲｅｃｕｒｒｅｎｔ層の非線形性は、局所結合ＳＡＡＦである。

【0109】

セクション１．１に示すように、局所結合ＳＡＡＦが最後の層の非線形性として使用される。これは、ＳＡＡＦの滑らかな特性を利用するためであり、ＳＡＡＦは、それぞれの時変エフェクトユニットのモジュレータなどの任意の連続関数を近似できる。各々のＳＡＡＦは、－１～＋１の間の２５の間隔で構成される。

【0110】

合成バックエンド

【0111】

合成バックエンドは、周波数帯域分解Ｒと非線形モジュレータＺ＾を処理することにより、ターゲットオーディオ信号の再構成を実現する。ＣＡＦｘと同様に、バックエンドは逆プーリング層、ＤＮＮ－ＳＡＡＦブロック、および最終的な畳み込み層を含む。ＤＮＮ－ＳＡＡＦブロックは、それぞれ３２、１６、１６、および３２の隠れユニットの４つのＤｅｎｓｅ層を含む。ＳＡＡＦ層が続く最後のものを除いて、各々のＤｅｎｓｅ層の後にはｔａｎｈ関数が続く。ＣＲＡＦｘのバックエンドの新しい構造には、ＤＮＮ－ＳＡＡＦブロック（ＤＮＮ－ＳＡＡＦ－ＳＥ）の後にＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ（ＳＥ）（Ｈｕら、２０１８）層が組み込まれている。

【0112】

ＳＥブロックは、特徴マップのチャネル単位の情報を適応的にスケーリングすることにより、チャネル間の相互依存性を明示的にモデリングする（Ｈｕら、２０１８）。したがって、ＤＮＮ－ＳＡＡＦの出力であるＸ１＾’の特徴マップチャネルの各々に動的ゲインを適用するＳＥブロックを提案する。Ｋｉｍら（２０１８）の構造に基づいて、ＳＥは、グローバル平均プーリング演算と、それに続く２つのＦＣ層を含む。ＦＣ層の後には、ＲｅＬＵとシグモイド活性化関数がそれに応じて続く。

【0113】

バックエンド内の特徴マップは時間領域の波形に基づいているため、グローバル平均プーリング演算の前に絶対値層を組み込む。図２．２は、入力と出力が、それぞれ特徴マップＸ２＾とＸ１＾であるＤＮＮ－ＳＡＡＦ－ＳＥのブロック図を示している。

【0114】

フィルタバンクアーキテクチャに従って、バックエンドは次のステップによって時変タスクを照合する。最初に、学習したモジュレータＺ＾にアップサンプリング演算が適用され、その後に残差接続Ｒを使用した要素ごとの乗算が続く。これは、Ｒのチャネルまたは周波数帯域の各々に対する周波数依存の振幅モジュレーションと見なすことができる。

【0115】

【数9】

【0116】

この後、ＤＮＮ－ＳＡＡＦ－ＳＥブロックからの非線形波形整形とチャネルごとにスケーリングされたフィルタが続く。したがって、モジュレーションされた周波数帯域分解Ｘ２＾は、ＤＮＮ－ＳＡＡＦ層から学習したウェーブシェイパーによって処理され、特徴マップＸ１＾’が得られる。これは、ＳＥ層からの周波数依存ゲインであるｓｅによってさらにスケーリングされる。結果として得られる特徴マップＸ１＾は、オーディオエフェクトモデリングタスク内の非線形短期記憶変換をモデリングしたものと見なすことができる。

【0117】

【数10】

【0118】

その後、Ｘ１＾がＸ２＾に足し戻され、非線形フィードフォワード遅延線として機能する。

【0119】

【数11】

【0120】

したがって、バックエンドの構造は、ＬＦＯ、デジタルフィルタ、および遅延線を使用して、モジュレーションベースのエフェクトがデジタルドメインで実装される一般的なアーキテクチャによって通知される。

【0121】

最後に、完全な波形が、ＣＡＦｘと同じ方法で合成され、最後の層は、転置された訓練不可能なデコンボリューション演算に対応する。セクション２．１で述べたように、ユニット値のストライドを使用し、膨張は組み込まれず、ＣＡＦｘと同じパディングに従う。

【0122】

２．２畳み込みおよびＷａｖｅｎｅｔオーディオエフェクトモデリングネットワーク－ＣＷＡＦｘ

【0123】

ＣＲＡＦｘからの畳み込みおよびＤｅｎｓｅアーキテクチャと、ＷａｖｅＮｅｔの膨張畳み込みとの組み合わせに基づく新しいモデルを提案する。前者のＢｉ－ＬＳＴＭ層は、入力およびコンテキストオーディオフレームからの長い時間依存関係の学習を担当していたため、これらのＲｅｃｕｒｒｅｎｔ層をフィードフォワードＷａｖｅｎｅｔに置き換える。Ｂｉ－ＬＳＴＭがこのタイプの時間的畳み込みにうまく置き換えられているＭａｔｔｈｅｗＤａｖｉｅｓａｎｄＢоｃｋ（２０１９）のように、逐次的な問題を学習する場合、膨張畳み込みは再帰的アプローチよりも優れていることが示されている（Ｂａｉら、２０１８）。

【0124】

したがって、積み重ねられた膨張畳み込みに基づく潜在空間は、周波数依存の振幅モジュレーション信号を学習できることが分かる。モデルを図２．３に示す。適応型フロントエンドと合成バックエンドは、ＣＲＡＦｘで提示されたものと同じである。

【0125】

潜在空間Ｗａｖｅｎｅｔ

【0126】

潜在空間Ｗａｖｅｎｅｔの構造は、表２．２で詳しく説明されている。

【0127】

入力フレームサイズが４０９６サンプルで±４のコンテキストフレームのＣＷＡＦｘでは、フロントエンドからの潜在表現Ｚは、６４サンプルの９行と３２チャネルに対応し、５７６サンプルと３２チャネルの特徴マップに展開できる。したがって、これらの入力次元を、リセプティブフィールドとターゲットフィールドがそれぞれ５１０サンプルと６４サンプルの潜在空間Ｗａｖｅｎｅｔで近似する。したがって、式（１．２）に基づいて、１，２，．．．，６４の膨張係数とサイズ３の３２のフィルタをもつ７つの膨張畳み込み層の２つのスタックを使用する。また、スキップ接続Ｓの次元を維持し、最終的な１×１の畳み込みをＦＣ層に置き換えることで、より良好なフィッティングを実現した。後者には、６４個の隠れユニットがあり、その後にｔａｎｈ活性化関数が続き、潜在次元に沿って適用される。

【0128】

【表2.2】

【0129】

２．３実験

【0130】

２．３．１訓練

【0131】

同様に、ＣＲＡＦｘとＣＷＡＦｘの訓練には、ＣＥＱとＣＡＦｘと同じ初期化ステップが含まれる。フロントエンドとバックエンドの畳み込み層が事前に訓練されると、ＤＮＮ－ＳＡＡＦ－ＳＥブロックと潜在空間Ｂｉ－ＬＳＴＭおよびＷａｖｅｎｅｔ層がそれぞれのモデルに組み込まれ、すべての重みがエンドツーエンドの教師あり学習タスクに従って訓練される。

【0132】

最小化される損失関数は、ターゲット波形と出力波形の間の平均絶対誤差である。１０２４～８１９２サンプルの入力サイズフレームを提供し、ホップサイズが５０％の長方形窓を常に使用する。バッチサイズは、オーディオサンプルあたりの合計フレーム数で構成されていた。

【0133】

Ａｄａｍ（ＫｉｎｇｍａａｎｄＢａ、２０１５）をオプティマイザーとして使用し、２００エポックの事前訓練と５００エポックの教師あり訓練を実行する。収束を早めるために、第２の訓練ステップの間、５・１０－５の学習率から始めて、１５０エポックごとに５０％ずつ減らす。検証サブセットの誤差が最小のモデルを選択する。

【0134】

２．３．２データセット

【0135】

コーラス、フランジャー、フェイザー、トレモロ、ビブラートなどのモジュレーションベースのオーディオエフェクトは、ＩＤＭＴ－ＳＭＴ－Ａｕｄｉｏ－Ｅｆｆｅｃｔｓデータセット（Ｓｔｅｉｎら、２０１０）から取得された。録音は、エレクトリックギターとベースギターの生の音と、それぞれのエフェクト後のバージョンを含む個々の２秒の音に対応している。これらのエフェクトは、ＶＳＴオーディオプラグインなどのエフェクトユニットのデジタル実装に対応している。実験では、上記のエフェクトの各々に対して、ベースギターの未処理および処理済みオーディオ信号を取得した設定＃２のみを使用した。また、ベースギターの生のオーディオ信号を処理して、中心周波数が５００Ｈｚ～３ｋＨｚの範囲で、５Ｈｚの正弦波でモジュレーションされるピークフィルタを備えたＬＦＯベースのオートワウを実装した。

【0136】

前のオーディオエフェクトは線形時変であるため、これらのエフェクトの各々に非線形性を追加して、モデルの機能をさらにテストする。したがって、ベースギターのウェットなオーディオ信号を使用して、ＳｏＸを使用して、各々のモジュレーションベースのエフェクトの後にオーバードライブ（ゲイン＝＋１０ｄＢ）を適用する。

【0137】

また、リングモジュレータとレスリースピーカーの仮想アナログ実装を使用して、エレクトリックギターの生のオーディオ信号を処理する。リングモジュレータの実装は、Ｐａｒｋｅｒ（２０１１ｂ）に基づいており、５Ｈｚのモジュレータ信号を使用する。レスリースピーカーの実装は、Ｓｍｉｔｈら（２００２）に基づいており、ステレオチャネルの各々をモデリングする。

【0138】

最後に、エンベロープフォロワーに基づくコンプレッサーおよびオートワウなど、長い時間依存性を伴う非線形時不変オーディオエフェクトを備えたモデルの機能も提供する。ＳｏＸからのコンプレッサーおよびマルチバンドコンプレッサーを使用して、エレクトリックギターの生のオーディオ信号を処理する。

【0139】

同様に、エンベロープフォロワーと、中心周波数が５００Ｈｚ～３ｋＨｚの間でモジュレーションするピークフィルタとを備えたオートワウの実装を使用する。

【0140】

時変タスクごとに、６２４の生の音とエフェクト後の音を使用し、テストサンプルと検証サンプルの両方が、それぞれこのサブセットの５％に対応する。録音は、１６ｋＨｚにダウンサンプリングされ、時不変のオーディオエフェクトを除いて振幅の正規化が適用された。表４．３に、各々のオーディオエフェクトの設定の詳細を示す。

【0141】

【表2.3】

【0142】

２．３．３評価

【0143】

様々なモデリングタスクでモデルをテストするときに、３つの測定基準が使用される。第１章で示したように、エネルギーで正規化された平均絶対誤差（ｍａｅ）を使用する。時変タスクの客観的評価として、振幅と周波数モジュレーションの人間の知覚を模倣する客観的な測定基準を提案する。モジュレーションスペクトルは、モジュレーション周波数知覚の心理音響学と統合された時間－周波数理論を使用して、時間変動パターンの長期的な知識を提供する（Ｓｕｋｉｔｔａｎｏｎら、２００４）。モジュレーションスペクトル平均二乗誤差（ｍｓ＿ｍｓｅ）は、Ｍｃ－ＤｅｒｍｏｔｔａｎｄＳｉｍｏｎｃｅｌｌｉ（２０１１）およびＭｃＫｉｎｎｅｙａｎｄＢｒｅｅｂａａｒｔ（２００３）からのオーディオ機能に基づいており、次のように定義される。

【0144】

ガンマトーンフィルタバンクがターゲットに適用され、波形全体を出力する。合計で１２個のフィルタを使用し、中心周波数は２６Ｈｚから６９５０Ｈｚまで対数的に間隔を空けている。

【0145】

各々のフィルタ出力のエンベロープは、ヒルベルト変換（Ｈａｈｎ、１９９６）の大きさを介して計算され、４００Ｈｚにダウンサンプリングされる。

【0146】

各々のエンベロープにはモジュレーションフィルタバンクが適用される。合計で１２個のフィルタを使用し、中心周波数は０．５Ｈｚから１００Ｈｚまで対数的に間隔を空けている。

【0147】

ＦＦＴは、各々のガンマトーンフィルタのモジュレーションフィルタ出力ごとに計算される。エネルギーは、ガンマトーンおよびモジュレーションフィルタバンク全体で合計され、ｍｓ＿ｍｓｅの測定基準は、ＦＦＴ周波数ビンの対数値の平均二乗誤差である。

【0148】

非線形時不変タスク（コンプレッサーおよびマルチバンドコンプレッサー）の評価は、ｍｆｃｃ＿ｃｏｓｉｎｅ：ＭＦＣＣの平均コサイン距離に対応する（セクション１．３．３を参照）。

【0149】

２．４結果と分析

【0150】

長期的な時間依存関係を学習するＢｉ－ＬＳＴＭの機能については、以下で説明する。ＣＲＡＦｘの場合、４０９６のサンプルの入力サイズと、過去と後続のフレームの数にｋ＝４を使用する。

【0151】

訓練手順は、時変および時不変のオーディオエフェクトの各々のタイプに対して実行された。次に、テストデータセットからのサンプルを使用してモデルをテストした。ＣＲＡＦｘのオーディオ信号例は、オンラインで入手できる（ｈｔｔｐｓ：／／ｍｃｈｉｊｍｍａ．ｇｉｔｈｕｂ．ｉｏ／ｍｏｄｅｌｉｎｇ－ｔｉｍｅ－ｖａｒｙｉｎｇ／）。参考までに、ｍａｅとｍｓ＿ｍｓｅの平均値、および入力波形とターゲット波形との間の値は、それぞれ０．１３、０．８３である。コンプレッサーとマルチバンドコンプレッサーの平均ｍｆｃｃ＿ｃｏｓｉｎｅ値は０．１５である。

【0152】

図２．４は、レスリースピーカーをモデリングするための入力、ターゲット、および出力波形と、それらのそれぞれのモジュレーションスペクトルとを示している。時間領域では、モデルが同様にターゲット波形と一致していることは明らかである。入力には存在せず、それぞれのターゲットのモジュレーションエネルギーと厳密に一致する様々なモジュレーションエネルギーをモデルはモジュレーションスペクトルから出力に等しく導入することが注目に値する。

【0153】

発明者によって発見されたように、リングモジュレータの仮想アナログ実装などの他の複雑な時変タスクもうまくモデリングされた。これらの実装には、リングモジュレータの場合のように非線形回路によって導入されたモジュレーションのエミュレーションが含まれるか、レスリースピーカーの実装のように人工的な残響（リバーブ）とドップラー効果のシミュレーションと共に遅延線を変更することが含まれるため、これは重要な結果を表している。

【0154】

モデルは、線形および非線形の時不変モデリングも実行できる。エンベロープ駆動のオートワウ、コンプレッサー、およびマルチバンドコンプレッサーの長い時間依存関係がうまくモデリングされている。

【0155】

全体として、トレモロまたはリングモジュレータなどの振幅モジュレーションに基づくエフェクトユニット、およびフェイザーなどの時変フィルタをモデリングすると、モデルのパフォーマンスが向上した。周波数モジュレーションに基づく遅延線効果は、フランジャーまたはレスリースピーカーのステレオチャネルの場合と同様に十分にモデリングされている。それにもかかわらず、ビブラートとビブラートオーバーライドは、最も誤差の多いモデリングタスクを表している。これは、ビブラートが２Ｈｚ前後のレートの周波数モジュレーションのみに基づく効果であるためと考えられる。これは、レスリースピーカーの回転ホーンよりも高いモジュレーションレートを表すため、レスリースピーカーの低速回転設定などの低周波モジュレーションに基づく効果を一致させると、これはモデルのパフォーマンスが低下することを示す（第３章を参照）。これは、より多くのフィルタまたはチャネル（例えば、１２８個のフィルタのフィルタバンクアーキテクチャ）を導入して周波数分解能を上げるか、または最大プーリングをより小さくして潜在空間のサイズを大きくすることで改善できる。

【0156】

２．５結論

【0157】

この章では、長い時間依存性をもつオーディオエフェクトをモデリングするための２つの汎用ディープラーニングアーキテクチャであるＣＲＡＦｘとＣＷＡＦｘを紹介した。これら２つのアーキテクチャを通じて、Ｂｉ－ＬＳＴＭ層と時間膨張畳み込みを備えたエンドツーエンドのＤＮＮの機能を提供し、低周波モジュレーションなどの長い時間依存性を学習し、それに応じてオーディオ信号を処理した。両方のモデルが同様のパフォーマンスを達成し、線形および非線形の時変オーディオエフェクト、時変および時不変オーディオエフェクトのデジタル実装を長期記憶とうまくマッチングさせることができたと結論付けることができる。

【0158】

ｍａｅに基づいて、ＣＲＡＦｘはターゲット波形のより近い一致を達成した。それにもかかわらず、ｍｆｃｃ＿ｃｏｓｉｎｅおよびｍｓ＿ｍｓｅなどの知覚ベースの測定基準でテストした場合、両方のモデルが同等にうまく機能した。特筆すべきは、ＧＰＵでの計算処理時間は、ＣＷＡＦｘの方が大幅に短いことである（付録Ａを参照）。これは、畳み込み層用に高度に最適化されたｃｕＤＮＮ（Ｃｈｅｔｌｕｒら、２０１４）などのＧＰＵ高速化ライブラリによるものである。

【0159】

両方のアーキテクチャにおいて、動的ゲインを学習し、特徴マップチャネルまたは周波数帯域分解の各々に動的ゲインを適用するために、ＳＥ層を組み込んだ。これにより、モデルはそれぞれのモジュレータ信号を各々のチャネルに適用し、その後、ＳＥ層を介してさらにスケーリングすることができた。この動的ゲインの導入により、様々な時変タスクをモデリングする際により良好なフィッティングが提供された。

【0160】

これらの時変タスクに適した他のホワイトボックスまたはグレーボックスモデリング手法には、特定の回路解析および離散化手法などの専門知識が必要である。さらに、これらの方法は、他の時変タスクに簡単に拡張することはできず、特定のコンポーネントの非線形動作に関して仮定が行われることがよくある。私たちの知る限り、この作業は、線形および非線形の時変および時不変のオーディオエフェクトのブラックボックスモデリングの最初のアーキテクチャを表している。これは、オーディオプロセッサのターゲットに関する仮定を減らし、オーディオエフェクトモデリングの最先端技術を改善したものである。

【0161】

少量の訓練例を使用して、コーラス、フランジャー、フェイザー、トレモロ、ビブラート、ＬＦＯベースおよびエンベロープフォロワーベースのオートワウ、リングモジュレータ、レスリースピーカー、およびコンプレッサーを一致させるモデルを示した。モデルのパフォーマンスを測定するための客観的な知覚測定基準であるｍｓ＿ｍｓｅを提案した。この測定基準は、ガンマトーンフィルタバンクのモジュレーションスペクトルに基づいているため、振幅および周波数モジュレーションに対する人間の知覚を測定する。

【0162】

時変ターゲットのモジュレーションと厳密に一致する様々なモジュレーションを適用することにより、モデルが入力オーディオ信号を処理することを実証した。知覚的には、ほとんどの出力波形は、ターゲットの対応する波形と見分けがつかないが、最高の周波数とノイズレベルでわずかな相違がある。これは、ＣＡＦｘのように、より多くの畳み込みフィルタを使用することで改善でき、これはフィルタバンク構造のより高い解像度を意味する。さらに、出版物Ｉに示されているように、時間と周波数に基づく損失関数を使用して、この周波数関連の問題を改善できるが、リスニングテストが必要になる場合がある（第３章を参照）。

【0163】

モデルは、エレクトリックギターまたはベースギターなどの特定の楽器のオーディオ信号に特定の変換を適用することを学習するので、一般化をより徹底的に調べることもできる。また、モデルはより短い入力サイズフレームで長い時間依存関係を学習しようとし、過去のフレームと後続のフレームも必要とするため、これらのアーキテクチャはリアルタイムの実装に適応できる。

【0164】

リアルタイムアプリケーションは、大きな入力フレームサイズと、過去および将来のコンテキストフレームの必要性に頼ることなく、長期記憶を含むモデル変換へのＲＮＮまたは時間膨張畳み込みの実装から大きな恩恵を受けるであろう。モデルはレスリースピーカー実装の人工的な残響と一致させることができたが、プレート、スプリング、または畳み込み残響などの残響モデリングの完全な実装が必要である（第４章を参照）。また、モデルはオーディオエフェクトの静的表現を学習しているため、パラメトリックモデルを考案する方法も提供できる。最後に、例えば、ミキシングの実践から一般化を学習するようにモデルを訓練できる自動ミキシングの分野において、仮想アナログを超えたアプリケーションを研究できる。

【0165】

３仮想アナログ実験

【0166】

前の章では、エフェクトユニットのいくつかの線形および非線形の時変および時不変のデジタル実装のモデリングに焦点を当ててきた。さらに、これまでは客観的な測定基準をもつモデルのみを評価してきた。したがって、この章と次の章では、知覚リスニングテストを含め、様々なアナログオーディオエフェクトをモデリングすることによって、以前のアーキテクチャの評価を拡張する。オーディオエフェクトの仮想アナログモデリングは、アナログオーディオプロセッサのリファレンスデバイスのサウンドをエミュレートすることを含むことを考慮に入れる。ＵｎｉｖｅｒｓａｌＡｕｄｉｏの真空管プリアンプ６１０－Ｂなどの非線形効果、ＵｎｉｖｅｒｓａｌＡｕｄｉｏのトランジスタベースのリミッターアンプ１１７６ＬＮなどの長期記憶を伴う非線形効果、および１４５レスリースピーカーキャビネットの回転ホーンおよび回転ウーファーなどの電気機械式非線形時変プロセッサの仮想アナログモデルを示す。

【0167】

客観的な知覚ベースの測定基準と主観的なリスニングテストを通じて、第１章と第２章からのアーキテクチャの各々（ＣＡＦｘ、ＷａｖｅＮｅｔ、ＣＲＡＦｘ、およびＣＷＡＦｘ）のパフォーマンスを、これらのアナログプロセッサをモデリングする際に実証する。これらのアーキテクチャ間で体系的な比較を実行し、ＣＡＦｘとＷａｖｅＮｅｔは、記憶なしで、長い時間依存関係を伴う非線形オーディオエフェクトをモデリングする場合に同様に機能するが、レスリースピーカーなどの時変タスクをモデリングすることはできないことを報告する。一方、すべてのタスクにわたって、ＣＲＡＦｘおよびＣＷＡＦｘなどの長い時間依存関係を明示的に学習するために潜在空間ＲＮＮまたは潜在空間時間膨張畳み込みを組み込んだモデルは、残りのモデルよりも客観的および主観的に優れている傾向がある。

【0168】

３．１実験

【0169】

３．１．１モデル

【0170】

この章の実験では、ＣＡＦｘ、ＷａｖｅＮｅｔ、ＣＲＡＦｘ、およびＣＷＡＦｘアーキテクチャを使用する。より公正な比較を提供するために、ＣＡＦｘとＷａｖｅＮｅｔは、サイズ４０９６の入力フレームを処理するように適合され、２０４８サンプルのホップサイズでサンプリングされる。ＣＲＡＦｘとＣＷＡＦｘは、まさにそれぞれセクション２．１と２．２で説明した通りに使用される。

【0171】

ＣＡＦｘの主な変更点は、最大プーリング層をサイズ６４の移動窓に増やした適応型フロントエンドにある。モデルの残りの部分は、セクション１．１で示した通りである。ＷａｖｅＮｅｔに関しては、膨張係数１，２，．．．，１２８を有する８つの膨張畳み込み層の２つのスタックにモデルを拡張する。式（１．２）に基づいて、このアーキテクチャのリセプティブフィールドは、１０２１サンプルのものである。ターゲットフィールドは、４０９６サンプルであるため、モデルに提示される入力フレームは、５１１６サンプルのスライディングウィンドウを含む（式（１．３）を参照）。アーキテクチャの残りの部分は、セクション１．２で示した通りである。

【0172】

コードは、オンラインで入手できる（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍｃｈｉｊｍｍａ／ＤＬ－ＡＦｘ／ｔｒｅｅ／ｍａｓｔｅｒ／ｓｒｃ）。また、付録Ａには、すべてのモデルのパラメータの数と処理時間が示されている。

【0173】

３．１．２訓練

【0174】

前の章で述べたように、ＣＡＦＸ、ＣＲＡＦｘ、およびＣＷＡＦｘアーキテクチャの訓練には初期化ステップが含まれる。フロントエンドとバックエンドが事前訓練されると、残りの畳み込み層、Ｒｅｃｕｒｒｅｎｔ層、Ｄｅｎｓｅ層、活性化層がそれぞれのモデルに組み込まれ、エンドツーエンドの教師あり学習タスクに従ってすべての重みが訓練される。ＷａｖｅＮｅｔモデルは、この第２のステップの直後に訓練される。

【0175】

最小化される損失関数は平均絶対誤差であり、Ａｄａｍ（ＫｉｎｇｍａａｎｄＢａ、２０１５）は、オプティマイザーとして使用される。これらの実験と各々のモデルに対して、同じ教師あり学習訓練手順を実行した。

【0176】

２５エポックの早期停止ｐａｔｉｅｎｃｅを使用する、つまり、検証損失に改善がない場合、訓練は停止する。モデルは、学習率を４分の１に減らし、２５エポックのｐａｔｉｅｎｃｅでさらに微調整される。初期学習率は１ｅ－４であり、バッチサイズはオーディオ信号サンプルあたりの総フレーム数を含む。平均して、エポックの総数は約７５０である。検証サブセットの誤差が最小のモデルを選択する（セクション３．１．３を参照）。レスリースピーカーのモデリングタスクでは、早期停止とモデル選択の手順は、訓練損失に基づいていた。これについては、セクション３．３で詳しく説明する。

【0177】

３．１．３データセット

【0178】

ＩＤＭＴ－ＳＭＴ－Ａｕｄｉｏ－Ｅｆｆｅｃｔｓデータセット（Ｓｔｅｉｎら、２０１０）から、様々な６弦エレクトリックギターと４弦ベースギターの個々の２秒音の生の録音が取得される。エレクトリックギターとベースの１２５０の未処理の録音を使用して、それぞれのオーディオエフェクトモデリングタスクのウェットサンプルを取得する。生の録音は、正規化された振幅であり、各々のタスクに対して、テストサンプルと検証サンプルは、それぞれこのデータセットの５％に対応する。アナログオーディオプロセッサが生の音をサンプリングした後、すべての録音は１６ｋＨｚにダウンサンプリングされた。データセットは、オンラインで入手できる（ｈｔｔｐｓ：／／ｚｅｎｏｄｏ．ｏｒｇ／ｒｅｃｏｒｄ／３５６２４４２）。

【0179】

ＵｎｉｖｅｒｓａｌＡｕｄｉｏの真空管プリアンプ６１０－Ｂ

【0180】

このマイクチューブプリアンプは、６１７６ＶｉｎｔａｇｅＣｈａｎｎｅｌＳｔｒｉｐユニットからサンプリングされる。高調波歪みの大きい出力信号を得るために、プリアンプは、表３．１の設定でオーバードライブされる。

【0181】

ＵｎｉｖｅｒｓａｌＡｕｄｉｏのトランジスタベースのリミッターアンプ１１７６ＬＮ

【0182】

同様に、広く使用されている電界効果トランジスタリミッター１１７６ＬＮは、同じ６１７６ＶｉｎｔａｇｅＣｈａｎｎｅｌＳｔｒｉｐユニットからサンプリングされる。リミッターのサンプルは、表３．１の設定で記録される。モデルの長期記憶をさらにテストするために、最も遅いアタックとリリースの設定を使用する。ＡＬＬの圧縮率の値は、オリジナルの１１７６のすべての比率ボタンを同時に押すことに相当する。したがって、この設定では、アタック時間とリリース時間の変動による歪みも導入される。

【0183】

１４５レスリースピーカーキャビネット

【0184】

１４５レスリースピーカーキャビネットの回転ホーンとウーファーからの出力サンプルは、ＡＫＧ－Ｃ４５１－Ｂマイクで録音される。各々の録音は、コンデンサーマイクをホーンまたはウーファーに垂直に１メートル離して配置することにより、モノラルで行われる。回転スピーカーごとに２つの速度（高速回転のトレモロと低速回転のコラール）が記録される。ホーンの回転周波数は、トレモロとコラールの設定でそれぞれ約７Ｈｚと０．８Ｈｚであるが、ウーファーの回転速度はそれよりも遅い（Ｈｅｒｒｅｒａら、（２００９））。

【0185】

ホーンスピーカーとウーファースピーカーの前に８００Ｈｚのクロスオーバーフィルタがあるため、同じカットオフ周波数のハイパスＦＩＲフィルタをエレクトリックギターの生の音に適用し、これらのサンプルのみをホーンスピーカーの入力として使用する。同様に、ウーファースピーカーについては、ローパスＦＩＲフィルタを使用して生のベースの音を前処理する。両方のスピーカーのオーディオ信号出力は、それぞれのＦＩＲフィルタでフィルタ処理される。これは、機械的および電気的ノイズを低減し、またモデリングタスクを振幅および周波数モジュレーションに集中させるためである。また、録音は、振幅を正規化したものである。

【0186】

【表3.1】

【0187】

３．１．４客観的測定基準

【0188】

様々なモデリングタスクでモデルをテストするときに、３つの測定基準：ｍａｅ（エネルギーで正規化された平均絶対誤差）、ｍｆｃｃ＿ｃｏｓｉｎｅ、ＭＦＣＣの平均コサイン距離（セクション１．３．３を参照）、およびｍｓ＿ｍｓｅ（モジュレーションスペクトル平均二乗誤差（セクション２．３．３を参照））が使用される。

【0189】

３．１．５リスニングテスト

【0190】

２３歳～４６歳の３０人の参加者が、ロンドンのクイーンメアリー大学の専門リスニングルームで行われた実験に参加した。クイーンメアリー研究倫理委員会は、参照番号ＱＭＲＥＣ２１６５のリスニングテストを承認した。ＷｅｂＡｕｄｉｏＥｖａｌｕａｔｉｏｎＴｏｏｌ（Ｊｉｌｌｉｎｇｓら、２０１５）を使用してテストをセットアップし、参加者は、ＢｅｙｅｒｄｙｎａｍｉｃＤＴ－７７０ＰＲＯスタジオヘッドフォンを使用した。

【0191】

被験者は、ミュージシャン、サウンドエンジニア、またはクリティカルリスニングの経験者であった。リスニングサンプルはテストサブセットから取得され、テストの各々のページにはリファレンス音、つまり元のアナログデバイスからの録音が含まれていた。このテストの目的は、どの音が基準音に近いかを特定することであり、参加者はリファレンス音との類似性に応じて６つの異なるサンプルを評価した。

【0192】

したがって、参加者は、どのモデリングタスクを聴いているかについて知らされ、サンプルを「最も類似していない」から「最も類似している」まで評価するよう求められた。これは０～１００のスケール内にあり、その後、０～１のスケールにマッピングされた。サンプルは、アンカーとしてのドライサンプル、４つの異なるモデルからの出力、リファレンスの隠れコピーで構成されていた。このテストは、ＭＵＳＨＲＡ（Ｕｎｉｏｎ、２００３）に基づいている。

【0193】

３．２結果

【0194】

訓練手順は、各々のアーキテクチャと各々のモデリングタスクに対して実行された。つまり、プリアンプは、真空管プリアンプに対応し、リミッターは、トランジスタベースのリミッターアンプに対応し、ホーントレモロとホーンコラールは、レスリースピーカーの高速および低速での回転ホーンにそれぞれ対応し、ウーファートレモロとウーファーコラールは、対応する速度で回転するウーファーに対応する。次に、モデルは、テストサブセットからのサンプルでテストされ、オーディオ信号結果はオンラインで入手できる（ｈｔｔｐｓ：／／ｍｃｈｉｊｍｍａ．ｇｉｔｈｕｂ．ｉｏ／ＤＬ－ＡＦｘ／）。

【0195】

すべてのモデリングタスクのリスニングテストの結果は、図３．１にノッチ付きボックスプロットとして見ることができる。ノッチの端部は９５％信頼区間を表し、ボックスの端部は第１四分位数および第３四分位数を表す。また、緑色の線は評点の中央値を示し、紫色の円は外れ値を表している。一般的に、アンカーと隠れリファレンスの両方の中央値がそれぞれ最低と最高になる。ＣＲＡＦｘおよびＣＷＡＦｘなどの長期的な依存関係を明示的に学習するアーキテクチャは、残りのモデルよりも優れているため、知覚的な調査結果は、図３．１の客観的な測定基準とほぼ一致している。さらに、ウーファーのコラールタスクでは、後者の失敗したパフォーマンスも知覚的評点で証明される。これは、潜在空間Ｗａｖｅｎｅｔが、ウーファーのコラール回転速度などの低周波モジュレーションを学習できないことを示している。

【0196】

プリアンプとリミッタータスクの選択されたテストサンプルと、すべての異なるモデルについて、図３．３と図３．４は、入力、リファレンス、および出力波形を、それぞれのスペクトログラムと共に示している。時間領域と周波数領域の両方で、波形とスペクトログラムが客観的および主観的な調査結果と一致していることが観察できる。これらの非線形タスクのパフォーマンスをより詳細に表示するために、図３．５にそれぞれの波形の一部を示す。テストサンプルの開始を処理する際に、オーバードライブされたプリアンプからの波形整形とリミッターのアタック波形整形が異なるモデルでどのように一致するかを見ることができる。

【0197】

レスリースピーカーのモデリングタスクに関して、図３．６～図３．９は、異なる波形をそれぞれのモジュレーションスペクトルとスペクトログラムと共に示している（図３．６はホーントレモロ、図３．７はウーファートレモロ、図３．８はホーンコラール、図３．９はウーファーコラール）。スペクトルから、ＣＲＡＦｘとＣＷＡＦｘが、リファレンスの振幅と周波数モジュレーションを導入して一致させるのに対し、ＣＡＦＸとＷａｖｅＮｅｔは、時変タスクを達成できないことが分かる。

【0198】

３．３考察

【0199】

短期記憶を伴う非線形タスク－プリアンプ

【0200】

ＣＡＦｘおよびＷａｖｅＮｅｔなど、短期記憶を使用して非線形効果をモデリングするように設計されたアーキテクチャは、時間依存関係を組み込んだモデルを下回った。ＣＲＡＦｘとＣＷＡＦｘは、客観的にも知覚的にも最高得点のモデルである。このタスクは長期記憶を必要としないが、それぞれＣＲＡＦｘとＣＷＡＦｘからのコンテキスト入力フレームと潜在空間ＲｅｃｕｒｒｅｎｔおよびＷａｖｅｎｅｔ層は、プリアンプのモデリングに役立った。このパフォーマンスの向上は、ヒステリシスまたはアタックタイミングおよびリリースタイミングなど、真空管アンプに存在する時間的動作が原因である可能性があるが、プリアンプの追加テストが必要になる場合がある。

【0201】

最先端の非線形オーディオエフェクトモデリングを表している、第１章とＤａｍｓｋａｇｇら（２０１９）で報告された成功した結果を考えると、これらのアーキテクチャ（ＣＡＦｘおよびＷａｖｅＮｅｔ）のパフォーマンスがＣＲＡＦｘおよびＣＷＡＦｘによって上回られていることは注目に値する。特筆すべきは、第１章のＣＡＦｘとＷａｖｅＮｅｔは、１０２４サンプルの入力フレームサイズで訓練されており、これは、４０９６サンプルなどのより大きな入力フレームサイズを処理する場合、モデリング機能が低下する可能性があることを示している可能性がある。同様に、Ｄａｍｓｋａｇｇら（２０１９）からのモデルは、膨張畳み込みの１スタックが含まれていたのに対し、ＷａｖｅＮｅｔアーキテクチャは２を使用していた。

【0202】

それにもかかわらず、図３．２ａから、すべてのモデルがプリアンプのモデリングの実現に成功したと結論付けることができる。ほとんどの出力オーディオ信号は、ターゲットの対応するオーディオ信号とわずかにしか識別できず、ＣＲＡＦｘとＣＷＡＦｘは実際のアナログデバイスと事実上区別できない。

【0203】

時間依存の非線形タスク－リミッター

【0204】

リミッタータスクには１１００ミリ秒のリリースゲートなどの長い時間依存関係が含まれているため、予想通り、記憶を含むアーキテクチャは、客観的にも主観的にも高いパフォーマンスを達成した。図３．４ｂから、ＣＡＦｘとＷａｖｅＮｅｔがリファレンスのスペクトログラムには存在しない高周波数情報を導入することが分かる。これは、１つの入力フレームを超える情報をモデリングするときに、モデルがその制限を補償することを示している可能性があり、例えば、リミッターの可変比率と共に長いリリース時間による歪みのトーン特性などである。さらに、図３．５ｂから、各々のアーキテクチャがリミッターのアタック動作をどのようにモデリングしているかが分かる。

【0205】

すべてのネットワークがリファレンスターゲットとほぼ一致したが、オーディオプロセッサの正確な飽和波形整形特性を達成したのはＣＲＡＦｘとＣＷＡＦｘであると結論付けることができる。後者は、図３．２ｂの知覚結果で強調され、ここでも、ＣＲＡＦｘとＣＷＡＦｘはリファレンスターゲットと事実上区別できない。ＣＡＦｘとＷａｖｅＮｅｔは、長期記憶機能がないために下位にランク付けされているが、これらのモデルが目的の波形を厳密に達成したことは注目に値する。

【0206】

時変タスク－レスリースピーカー

【0207】

ホーントレモロとウーファートレモロのモデリングタスクに関しては、両方の回転スピーカーに対して、ＣＲＡＦｘとＣＷＡＦｘが高く評価されているのに対し、ＣＡＦｘとＷａｖｅＮｅｔはこれらのタスクを達成できていないことが分かる。したがって、図３．２ｃと図３．２ｄからの知覚的な調査結果は、ｍｓ＿ｍｓｅ測定基準で得られた結果を確認しており、全体として、ウーファータスクはホーンタスクよりも良く一致している。それにもかかわらず、ＣＲＡＦｘとＣＷＡＦｘの場合、ホーントレモロタスクの客観的評点と主観的評点はパフォーマンスの大幅な低下を表しておらず、両方の時変タスクがこれらのアーキテクチャによってうまくモデリングされたと結論付けることができる。

【0208】

ＣＲＡＦｘは、知覚的にＣＷＡＦｘよりもわずかに高くランク付けされている。これは、図３．６と図３．７からのそれぞれのモジュレーションスペクトルとスペクトログラムに見られるように、リファレンスの振幅と周波数モジュレーションがより厳密に一致していることを示している。

【0209】

ホーンコラールとウーファーコラールのモデリングタスクでは、ＣＲＡＦｘとＣＷＡＦｘは、前者のモデリングに成功したが、ウーファーコラールタスクを達成したのはＣＲＡＦｘだけであった。ウーファーのコラールタスクは、０．８Ｈｚよりも低いモジュレーションに対応するため、このような低周波モジュレーションをモデリングする場合、潜在空間ＷａｖｅＮｅｔよりもＢｉ－ＬＳＴＭの方が適切であると結論付けることができる。さらに、これは、ＣＷＡＦｘが、ビブラートなどの低周波モジュレーションに基づくエフェクトをモデリングするときに最高のｍａｅ値を取得した、セクション２．４で報告された客観的な測定基準と密接に関連している。

【0210】

一般的に、図３．６～図３．９では、出力波形がリファレンスの波形と一致していないことが分かる。これは、モデルが訓練データの波形に過適合していないこと、および成功したモデルがそれぞれの振幅モジュレーションと周波数モジュレーションを導入することを学習していることを示している。

【0211】

回転スピーカーの位相はデータセット全体で異なるため、モデルは正確なリファレンスの波形を再現できない。このため、これらのタスクの早期停止とモデル選択の手順は、検証の損失ではなく訓練の損失に基づいていた。これは、レスリースピーカーのモデリングタスク全体でｍａｅスコアが高い理由でもあり、これは、これらのモデルがモジュレーションを適用しても、ターゲットデータの位相と正確に一致しないためである。位相不変のコスト関数をさらに実装すると、様々なアーキテクチャのパフォーマンスが向上する可能性がある。

【0212】

ＣＡＦｘとＷａｖｅＮｅｔは、これらの時変タスクを達成できなかった。特筆すべきは、両方のアーキテクチャが、異なる戦略で長期記憶の制限を補償しようとすることである。ＣＡＦｘがいくつかの振幅モジュレーションを誤って導入するのに対し、ＷａｖｅＮｅｔはリファレンスの波形エンベロープを平均化しようとすることが示唆されている。これにより、レファレンスとは大幅に異なる出力オーディオ信号が得られ、ＷａｖｅＮｅｔはホーントレモロおよびホーンコラールタスクで知覚的に最低と評価される。これは、図３．１からのウーファーコラールタスクのｍｓ＿ｍｓｅの結果も説明しており、ＷａｖｅＮｅｔが最高のスコアを達成するのは、ターゲット波形の平均化がリファレンスのオーディオ信号に存在する低周波振幅モジュレーションを導入している可能性があるためである。

【0213】

３．４結論

【0214】

この章では、第１章および第２章とは異なるディープラーニングアーキテクチャを提供している。真空管プリアンプおよびトランジスタベースのリミッターなどの短期および長期記憶、ならびにレスリースピーカーキャビネットの回転ホーンおよびウーファーなどの非線形時変プロセッサを使用して非線形効果をモデリングする際に、モデルをテストした。

【0215】

客観的な知覚ベースの測定基準と主観的なリスニングテストを通じて、すべてのモデリングタスクにわたって、長い時間依存関係を明示的に学習するために、Ｂｉ－ＬＳＴＭを組み込んだアーキテクチャ、または、より少ない程度に潜在空間膨張畳み込みを組み込んだアーキテクチャは、残りのモデルよりも優れていることが分かった。これらのアーキテクチャにより、アナログのリファレンスのプロセッサとほとんど見分けがつかない結果が得られる。また、短期記憶を使用して非線形効果をモデリングするための最先端のＤＮＮアーキテクチャは、プリアンプタスクを一致させる場合と同様に機能し、リミッタータスクをかなり近似するが、時変レスリースピーカータスクをモデリングする場合は失敗する。

【0216】

レスリースピーカーの非線形アンプ、回転スピーカー、および木製キャビネットのモデリングに成功した。それにもかかわらず、クロスオーバーフィルタは、モデリングタスクでバイパスされ、それに応じてドライとウェットのオーディオ信号がフィルタ処理された。これは、ベースとギターのサンプルの周波数帯域幅が限られているためであり、したがって、このモデリングタスクには、ハモンドオルガンの録音などのより適切なデータセットをさらに提供できた。

【0217】

時間と周波数の両方に基づくコスト関数を使用して、モデルのモデリング機能をさらに向上させることができる。また、最高ランクのアーキテクチャは過去および後続のコンテキスト入力フレームを使用するため、これらのアーキテクチャを適応させてこのレイテンシを克服することができる。したがって、リアルタイムアプリケーションは、大きな入力フレームサイズと過去および将来のコンテキストフレームの必要性に頼ることなく、長期記憶を含むエンドツーエンドのＤＮＮから大いに利益を得るであろう。また、時変モデリングタスクには、ＣＲＡＦｘおよびＣＷＡＦｘからのコンテキスト入力フレームと同じ大きさのリセプティブフィールドをもつエンドツーエンドのＷａｖｅｎｅｔアーキテクチャも提供できる。

【0218】

さらに、Ｄａｍｓｋａｇｇら（２０１９）に示されているように、モデルは現在オーディオエフェクトの静的表現を学習しているため、ネットワークへの調整入力としてのコントロールの導入を研究できる。最後に、例えば、モデルを訓練して、ミキシングの実践から一般化を学習することができる自動ミキシングの分野では、仮想アナログを超えたアプリケーションを実装できる。

【0219】

４人工的な残響のモデリング
この章では、プレートおよびスプリングなどの人工リバーブレーターをモデリングするためのディープラーニングアーキテクチャを紹介する。プレートおよびスプリングリバーブレーターは、主に美的な理由で使用される電気機械式のオーディオプロセッサであり、その特殊な音質を特徴とする。これらのリバーブレーターのモデリングは、非線形で時変の空間応答のために活発な研究分野であり続けている。

【0220】

このような高度に非線形な電気機械応答を学習するＤＮＮの機能を提供する。したがって、スパースＦＩＲ（ＳＦＩＲ）フィルタを使用するデジタルリバーブレーターに基づいて、信号処理システムからのドメイン知識を使用し、畳み込み再帰型・スパースフィルタリングオーディオエフェクトモデリングネットワーク（ＣＳＡＦｘ）を提案する。

【0221】

したがって、プレートおよびスプリングデバイスに存在するようなノイズのような分散応答をモデリングするために、まばらに配置された係数をもつ訓練可能なＦＩＲフィルタを組み込むことにより、以前のアーキテクチャを拡張する。また、直接音と反射音との間の時変ミキシングゲインとして機能させるために、ＣＲＡＦＸからのＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎ（ＳＥ）ブロック（セクション２．１を参照）を変更する。したがって、ＣＳＡＦｘは人工リバーブレーターをモデリングするためのＤＳＰにより情報を得たＤＮＮを表す。

【0222】

第３章の仮想アナログ実験の結果に基づいて、ＣＲＡＦｘをベースラインモデルとして使用し、人工的な残響をモデリングする際のその機能もテストする。パフォーマンスを測定するために、知覚リスニングテストを実施し、また、所与のタスクがどのように達成され、モデルが実際に何を学習しているかを分析する。

【0223】

この研究の前には、人工リバーブレーターをモデリングするためのエンドツーエンドのＤＮＮはまだ実装されていなかった、つまり、入出力データから学習し、残響効果をドライの入力オーディオ信号に直接適用していた。残響除去のためのディープラーニングは非常に研究されている分野になっている（Ｆｅｎｇら、２０１４；Ｈａｎら、２０１５）が、ＤＮＮを使用した、人工的な残響の適用またはプレートおよびスプリングリバーブのモデリングはまだ検討されていない。

【0224】

ＣＳＡＦｘがＣＲＡＦｘよりも優れていることを報告する。知覚的評価と客観的評価の両方で、提案されたモデルが電気機械デバイスをうまくシミュレートし、オーディオエフェクトをモデリングするための他のＤＮＮよりも良好なパフォーマンスを発揮することが示されている。

【0225】

４．１畳み込み再帰型およびスパースフィルタリングネットワーク－ＣＳＡＦｘ

【0226】

このモデルは、ＣＲＡＦｘに基づいており、時間領域の入力にも完全に基づいており、生のオーディオ信号と処理されたオーディオ信号をそれぞれ入力と出力として使用する。それは、適応型フロントエンド、潜在空間、および合成バックエンドの３つの部分に分かれている。ブロック図を図４．１に示し、コードは、オンラインで入手でき（ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍｃｈｉｊｍｍａ／ｍｏｄｅｌｉｎｇ－ｐｌａｔｅ－ｓｐｒｉｎｇ－ｒｅｖｅｒｂ／ｔｒｅｅ／ｍａｓｔｅｒ／ｓｒｃ）、表Ａ．１は、パラメータの数と計算処理時間を示す。

【0227】

適応型フロントエンドは、ＣＲＡＦｘからのものとまったく同じである（表２．１を参照）。それは、同時に分散された畳み込み層とプーリング層に従い、潜在表現Ｚを学習する３２チャネルのフィルタバンクアーキテクチャを生成する。同様に、モデルは、±４前後のフレームと連結された現在のオーディオフレームｘを含む入力ｘを有することにより、長期記憶依存関係を学習する。入力は式（２．１）で表される。これらのフレームのサイズは４０９６（２５６ミリ秒）であり、５０％のホップサイズでサンプリングされる。

【0228】

潜在空間

【0229】

潜在空間のブロック図を図４．２に見ることができ、その構造を表４．１で詳しく説明する。潜在空間の主な目的は、Ｚを２つの潜在表現Ｚ１＾とＺ２＾に処理することである。前者は一連のエンベロープ信号に対応し、後者は一連のスパースＦＩＲフィルタＺ３＾を生成するために使用される。

【0230】

フロントエンドからの潜在表現Ｚは、６４サンプルと３２チャネルの９行に対応し、これは、６４サンプルと２８８チャネルの特徴マップに展開できる。潜在空間は、活性化関数としてｔａｎｈを有する６４および３２ユニットの２つの共有Ｂｉ－ＬＳＴＭ層を含む。これらのＢｉ－ＬＳＴＭ層からの出力特徴マップは、１６ユニットの２つの独立したＢｉ－ＬＳＴＭ層に供給される。これらの層の各々の後には、局所結合ＳＡＡＦが非線形性として続き、このようにしてＺ１＾とＺ２＾が得られる。前の章で示したように、ＳＡＡＦは、オーディオ信号処理タスクの非線形性またはウェーブシェイパーとして使用できる。

【0231】

スパース疑似ランダム残響アルゴリズム（Ｖａｌｉｍａｋｉら、２０１２）の制約に従うＳＦＩＲ層を提案する。残響反射は、まばらに配置された係数をもつＦＩＲフィルタによってモデリングされる。これらの係数は、通常、－１および＋１などの離散的な係数値に基づく疑似乱数シーケンス（例えば、ベルベットノイズ）を介して取得され、係数のうちのそれぞれ１つは、Ｔｓサンプルの間隔に従うが、他のすべてのサンプルはゼロである。

【0232】

それにもかかわらず、ＳＦＩＲでは、離散的な係数値を使用する代わりに、各々の係数は－１～＋１の任意の連続値を取ることができる。したがって、係数のうちのそれぞれ１つは、Ｔｓサンプルの各々の間隔内の特定のインデックス位置に配置されるが、残りのサンプルはゼロである。

【0233】

したがって、ＳＦＩＲ層は、それぞれ１０２４ユニットの２つの独立したＤｅｎｓｅ層によってＺ２＾を処理する。Ｄｅｎｓｅ層の後には、ｔａｎｈおよびシグモイド関数が続き、それらの出力はそれぞれ係数値（ｃｏｅｆｆ）とそれらのインデックス位置（ｉｄｘ）である。特定のｉｄｘ値を取得するには、シグモイド関数の出力をＴｓで乗算し、最も近い整数への切り捨てが適用される。この演算は微分可能ではないため、後方通過近似として恒等勾配を使用する（Ａｔｈａｌｙｅら、２０１８）。高品質の残響を得るために、１秒あたり２０００の係数を使用するため、１６ｋＨｚのサンプリングレートに対してＴｓ＝８サンプルになる。

【0234】

【表4.1】

【0235】

【表4.2】

【0236】

合成バックエンド

【0237】

合成バックエンドの詳細は、図４．３と表４．２で見ることができる。バックエンドは、ＳＦＩＲ出力Ｚ３＾、エンベロープＺ１＾、残差接続Ｒを使用して波形を合成し、残響タスクを実行する。これは、逆プーリング層、畳み込みと乗算演算、ＳＡＡＦを使用したＤＮＮ（ＤＮＮ－ＳＡＡＦ）、ＬＳＴＭ層を組み込んだ２つの変更されたＳｑｕｅｅｚｅ－ａｎｄ－Ｅｘｃｉｔａｔｉｏｎブロック（ＳＥ－ＬＳＴＭ）（Ｈｕら、２０１８）、および最終畳み込み層を含む。

【0238】

フィルタバンクアーキテクチャに従って、Ｘ３＾はＺ１＾をアップサンプリングして得られ、特徴マップＸ５＾はＲとＺ３＾の間の局所結合畳み込みによって達成される。ＣＲＡＦｘと同様に、ＲはＸ１から取得され、現在の入力フレームｘ^（０）の周波数帯域分解に対応する。Ｘ５＾は、次式で求められる。

【0239】

【数12】

【0240】

式中、ｉは、特徴マップのｉ番目の行を示し、これは３２チャネルのフィルタバンクアーキテクチャに従う。この畳み込みの結果は、周波数に依存する残響応答を入力オーディオ信号で明示的にモデリングしていると見ることができる。さらに、Ｂｉ－ＬＳＴＭによって学習された時間依存性により、Ｘ５＾は、開始応答から残響タスクのレイトリフレクションを表すことができる。

【0241】

次に、特徴マップＸ２＾は、残響応答Ｘ５＾と学習済みエンベロープＸ３＾の要素ごとの乗算の結果である。エンベロープは、入力フレーム間の可聴アーティファクトを回避するために適用される（ＪａｒｖｅｌａｉｎｅｎａｎｄＫａｒｊａｌａｉｎｅｎ、２００７）。

【0242】

【数13】

【0243】

次に、ＤＮＮ－ＳＡＡＦブロックからの波形整形の非線形性がＲに適用されると、特徴マップＸ４＾が得られる。この演算の結果は、直接音の学習された非線形変換または波形整形を含む（セクション１．１を参照）。ＣＲＡＦｘで使用されているように、ＤＮＮ－ＳＡＡＦブロックは、それぞれ３２、１６、１６、および３２の隠れユニットの４つのＤｅｎｓｅ層を含む。ＳＡＡＦ層を使用する最後の層を除いて、各々のＤｅｎｓｅ層は非線形性としてｔａｎｈを使用する。

【0244】

Ｘ４＾とＸ２＾の時変ゲインとして機能するＳＥ－ＬＳＴＭブロックを提案する。ＳＥブロックは特徴マップのチャネル単位の情報を明示的かつ適応的にスケーリングする（Ｈｕら、２０１８）ため、入力からの長期的なコンテキストを含めるために、ＳＥアーキテクチャにＬＳＴＭ層を組み込む。各々のＳＥ－ＬＳＴＭは、（Ｋｉｍら、２０１８）からのアーキテクチャに基づくセクション２．１からのＳＥブロックに基づく。

【0245】

ＳＥ－ＬＳＴＭブロックは、絶対値演算とグローバル平均プーリング演算を含み、その後にそれぞれ３２、５１２、および３２の隠れユニットの１つのＬＳＴＭと２つのＤｅｎｓｅ層が続く。ＬＳＴＭと最初のＤｅｎｓｅ層の後にはＲｅＬｕが続き、最後のＤｅｎｓｅ層はシグモイド活性化関数を使用する。図４．３に示されるように、各々のＳＥ－ＬＳＴＭブロックは、各々の特徴マップＸ４＾とＸ２＾を処理し、こうして周波数依存の時変混合ゲインｓｅ１とｓｅ２を適用する。結果として得られる特徴マップＸ１．１＾とＸ１．２＾は、Ｘ０＾を取得するために共に加算される。

【0246】

【数14】

【0247】

以前のディープラーニングアーキテクチャと同様に、最後の層はデコンボリューション演算に対応し、これは、そのフィルタが最初の畳み込み層の転置された重みであるため、訓練できない。完全な波形は、ハン窓と一定のオーバーラップ加算ゲインを使用して合成される。以前のＣＥＱ、ＣＡＦｘ、ＣＲＡＦｘ、およびＣＷＡＦｘアーキテクチャで示したように、すべての畳み込みは時間次元に沿っており、すべてのストライドはユニット値のものである。畳み込み層ごとに同じパディングを使用し、膨張は組み込まれていない。

【0248】

全体として、各々のＳＡＡＦは局所結合され、各々の関数は－１～＋１の間の２５間隔を含み、各々のＢｉ－ＬＳＴＭおよびＬＳＴＭのＤｒｏｐｏｕｔ率とＲｅｃｕｒｒｅｎｔＤｒｏｐｏｕｔ率は０．１である。

【0249】

４．２実験

【0250】

４．２．１訓練

【0251】

ＣＲＡＦｘと同じ事前訓練初期化ステップに従う。フロントエンドとバックエンドの畳み込み層が初期化されるとすぐに、潜在空間Ｂｉ－ＬＳＴＭ、ＳＦＩＲ、ＤＮＮ－ＳＡＡＦ、およびＳＥ－ＬＳＴＭブロックがモデルに組み込まれ、すべての重みが、残響タスクに基づいて共同で訓練される。

【0252】

最小化される損失関数は、時間と周波数に基づいており、次の式で表される。

【0253】

【数15】

【0254】

式中、ＭＡＥは平均絶対誤差、ＭＳＥは平均二乗誤差である。ＹとＹ＾は、それぞれターゲットと出力の対数パワーマグニチュードスペクトルであり、ｙとｙ＾は、それらのそれぞれの波形である。ＭＡＥを計算する前に、次のプリエンファシスフィルタがｙおよびｙ＾に適用される。

【0255】

【数16】

【0256】

Ｄａｍｓｋａｇｇら（２０１９）に示されているように、Ｈ（ｚ）は、高周波数により多くの重みを追加するために適用するハイパスフィルタである。４０９６点のＦＦＴを使用してＹとＹ＾を取得する。時間損失と周波数損失をスケーリングするために、損失の重みα１とα２としてそれぞれ１．０と１ｅ－４を使用する。このような複雑な残響応答をモデリングする場合、周波数領域と時間領域での明示的な最小化が非常に重要になった。プリエンファシスフィルタと対数パワースペクトルをそれぞれ時間および周波数領域に組み込むことで、高い周波数への注意がさらに強調される。

【0257】

両方の訓練ステップに対して、Ａｄａｍ（ＫｉｎｇｍａａｎｄＢａ、２０１５）がオプティマイザーとして使用され、セクション４．２．１と同じ早期停止手順が使用される。検証損失に改善がない場合、２５エポックのｐａｔｉｅｎｃｅを使用する。同様に、その後、学習率が２５％低減され、ｐａｔｉｅｎｃｅの値も２５エポックにして、モデルはさらに微調整される。初期学習率は１ｅ－４で、バッチサイズはオーディオサンプルあたりの総フレーム数を含む。検証サブセットの誤差が最小のモデルを選択する。

【0258】

４．２．２データセット

【0259】

プレートリバーブは、ＩＤＭＴ－ＳＭＴ－Ａｕｄｉｏ－Ｅｆｆｅｃｔｓデータセットから得られ（Ｓｔｅｉｎら、（２０１０））、これは個々の２秒音に対応し、様々なエレクトリックギターとベースギターの一般的なピッチ範囲をカバーしている。ベースギターの録音からの生の音およびプレートリバーブ音を使用している。スプリングリバーブサンプルは、スプリングリバーブタンクＡｃｃｕｔｒｏｎｉｃｓ４ＥＢ２Ｃ１Ｂでエレクトリックギターの生のオーディオ信号サンプルを処理することによって得られる。特筆すべきは、プレートリバーブサンプルは、ＶＳＴオーディオプラグインに対応し、一方、スプリングリバーブサンプルは並列に配置された２つのスプリングに基づくアナログリバーブタンクを使用して録音される。

【0260】

リバーブタスクごとに、６２４の生の音とエフェクト後の音を使用し、テストサンプルと検証サンプルの両方が、それぞれこのサブセットの５％に相当する。録音は、１６ｋＨｚにダウンサンプリングされ、振幅の正規化が適用される。また、プレートリバーブのサンプルには録音の最後の０．５秒間にフェードアウトが適用されているため、それに応じてスプリングリバーブサンプルを処理する。データセットは、オンラインで入手できる（ｈｔｔｐｓ：／／ｚｅｎｏｄｏ．ｏｒｇ／ｒｅｃｏｒｄ／３７４６１１９）。

【0261】

【表4.3】

【0262】

４．２．３評価

【0263】

様々なモデリングタスクでモデルをテストするときは、２つの客観的測定基準（ｍａｅ（エネルギーで正規化された平均絶対誤差）、ｍｆｃｃ＿ｃｏｓｉｎｅ（ＭＦＣＣの平均コサイン距離）（セクション１．３．３を参照））が使用される。

【0264】

セクション３．１．５で説明したように、モデルのパフォーマンスを測定するために知覚リスニングテストも実施した。３０人の参加者が、ロンドンのクイーンメアリー大学の専門リスニングルームで行われたテストを完了する。被験者は、ミュージシャン、サウンドエンジニア、またはクリティカルリスニングの経験者であった。オーディオ信号は、ＢｅｙｅｒｄｙｎａｍｉｃＤＴ－７７０ＰＲＯスタジオヘッドフォンを介して再生され、Ｗｅｂオーディオ評価ツール（Ｊｉｌｌｉｎｇｓら、２０１５）を使用してテストをセットアップした。

【0265】

参加者には、テストサブセットからのサンプルが提示された。各々のページには、リファレンス音、すなわちオリジナルのプレートまたはスプリングリバーブからの音が含まれていた。参加者は、４つの異なるサンプルをリファレンス音との類似性に応じて評価するよう求められた。テストの目的は、どの音がリファレンスに近いかを特定することであった。したがって、このテストは、ＭＵＳＨＲＡ法（Ｕｎｉｏｎ、２００３）に基づいている。サンプルは、ＣＳＡＦｘ、ＣＲＡＦｘ、リファレンスの隠れコピー、および隠れアンカーとしてのドライサンプルからの出力で構成されていた。

【0266】

４．３結果と分析

【0267】

ＣＳＡＦｘの残響モデリング機能を比較するために、ＣＲＡＦｘをベースラインとして使用し、ＣＲＡＦｘは、レスリースピーカーなどの長期記憶と低周波モジュレーションを備えた複雑な電気機械デバイスをモデリングできることが証明されている（第３章を参照）。後者は、ＣＳＡＦｘに似たアーキテクチャを提示するが、その潜在空間とバックエンドは、時変オーディオエフェクトに一致させるために、振幅と周波数のモジュレーションを明示的に学習して適用するように設計されている。両方のモデルは、同じ手順で訓練され、テストデータセットからのサンプルでテストされ、オーディオ信号結果は、オンラインで入手できる（ｈｔｔｐｓ：／／ｍｃｈｉｊｍｍａ．ｇｉｔｈｕｂ．ｉｏ／ｍｏｄｅｌｉｎｇ－ｐｌａｔｅ－ｓｐｒｉｎｇ－ｒｅｖｅｒｂ／）。

【0268】

表４．４は、式（４．６）からの対応する損失値を示している。提案されたモデルは、両方のタスクでＣＲＡＦｘよりも優れている。特筆すべきは、プレートリバーブの場合、入力波形とターゲット波形との間の平均ｍａｅ値とｍｆｃｃ＿ｃｏｓｉｎｅ値は、それぞれ０．１６と０．１５である。両方のモデルがｍａｅに関して同様にうまく機能し、ＣＳＡＦｘがより良好な結果を達成していることが分かった。それにもかかわらず、ｍｆｃｃ＿ｃｏｓｉｎｅに関しては、ＣＲＡＦｘによって得られた値は、知覚的には、ドライ音が、このモデルからの出力よりもターゲットに近いことを示している。

【0269】

スプリングリバーブタスクの場合、入力波形とターゲット波形との間の平均ｍａｅ値とｍｆｃｃ＿ｃｏｓｉｎｅ値は、それぞれ０．２２と０．３４である。同様に、波形に同様の一致が見られ、これは、ｍａｅ値の改善に基づいている。さらに、ｍｆｃｃ＿ｃｏｓｉｎｅの結果に基づいて、ＣＳＡＦｘのみがドライ録音の値を改善できることが分かる。プレートリバーブタスクとスプリングリバーブタスクの両方に対して、入力波形とターゲット波形との間の平均ＭＳＥ値が、それぞれ９．６４と４１．２９であるため、後者がさらに支持される。

【0270】

リスニングテストの結果は、図４．５のノッチ付きボックスプロットに見ることができる。ボックスの端部は第１四分位数および第３四分位数を表し、ノッチの端部は９５％の信頼区間を表し、緑色の線は評点の中央値を表し、円は外れ値を表す。予想通り、アンカーとリファレンスの両方に、それぞれ最低の中央値と最高の中央値がある。プレートリバーブとスプリングリバーブの両方のタスクで、ＣＳＡＦｘは高く評価されているが、ＣＲＡＦｘはリバーブタスクを達成できていないことが分かる。

【0271】

したがって、知覚的な調査結果は、損失、ｍａｅ、およびｍｆｃｃ＿ｃｏｓｉｎｅの測定基準で得られた結果を確認し、同様に、プレートモデルはスプリングリバーブレーターよりも一致している。これらの結果は、プレートリバーブのサンプルがプレートリバーブレーターのデジタルエミュレーションに対応しているのに対し、スプリングリバーブのサンプルはアナログリバーブタンクに対応しているという事実によるものである。したがって、予想通り、スプリングリバーブのサンプルは、モデリングするのにはるかに難しいタスクを表す。さらに、スプリングに対する知覚的評点と客観的な測定基準値は、パフォーマンスの大幅な低下を表していないにもかかわらず、より多くのフィルタ、異なる損失の重み、または入力フレームサイズを介して、スプリングのレイトリフレクションのモデリングをさらに提供できる。

【0272】

全体として、最初の開始応答はより正確にモデリングされているが、前述のように、すべてのモデルでより高い損失を示すスプリングの場合、レイトリフレクションはより顕著に異なる。モデルは、それぞれのターゲットの反射と厳密に一致する、入力波形には存在しない特定の反射を導入している。また、ＣＲＡＦｘは、ターゲットの高い周波数と一致させることはできず、これは、報告された客観的および知覚的スコアと一致している。ＣＳＡＦｘの場合、ターゲットに関連する時間領域と周波数領域の差も、得られた損失値に対応する。

【0273】

４．４結論

【0274】

この章では、人工リバーブレーターをモデリングするための信号処理により情報を得たディープラーニングアーキテクチャであるＣＳＡＦｘを紹介した。

【0275】

このアーキテクチャでは、ＳＦＩＲ層を提案したため、スパースＦＩＲフィルタの係数を学習するＤＮＮの機能を調査した。同様に、直接音とそれぞれの反射音を動的にミキシングするためにＣＳＡＦｘによって使用される時変ミキシングゲインをＤＮＮが学習できるようにするために、ＳＥ－ＬＳＴＭブロックを導入した。したがって、以前のＲＮＮベースのモデルよりも優れた、より説明可能なネットワークを導入する。

【0276】

ディープラーニングアーキテクチャは、プレートリバーブレーターとスプリングリバーブレーターをエミュレートできる可能性があり、リスニングテストを通じてモデルのパフォーマンスを測定する。ＣＳＡＦｘが、これらの非線形および時変オーディオプロセッサの特徴的なノイズのような分散応答にうまく一致することを示す。

【0277】

リスニングテストの結果と知覚ベースの測定基準は、モデルが電気機械式リバーブレーターを厳密にエミュレートし、またＣＲＡＦｘよりも高い評点を達成することを示している。後者は、前の章で、オーディオエフェクトのブラックボックスモデリングのいくつかのＤＮＮよりも優れていることが証明されているオーディオエフェクトモデリングネットワークに対応する。したがって、ＣＳＡＦｘによって得られた結果は注目に値するものであり、提案されたアーキテクチャは、人工リバーブレーターのブラックボックスモデリングのための最先端のディープラーニングを表していると結論付けることができる。表Ａ．１から、ＧＰＵとＣＰＵの両方での計算処理時間は、ＣＳＡＦｘの方が大幅に長くなる。これらの時間は、リアルタイムで最適化されていないＰｙｔｈｏｎ実装を使用して計算されたため、このより高い計算コストは、テンソルフローなどの微分可能なプログラミングライブラリ内で最適化されていないカスタム層（例えば、ＳＦＩＲ）がＣＳＡＦｘに含まれていることが原因である可能性がある。

【0278】

提案されたＤＮＮと、プレートおよびスプリングリバーブをモデリングするための現在の解析手法（例えば、数値シミュレーションまたはモーダル手法）との間の追加の体系的な比較も提供されている。また、実際の電気機械式プレートリバーブをモデリングすると、プレートおよびスプリングリバーブレーターをモデリングするときにＣＳＡＦｘのパフォーマンスが向上する場合がある。

【0279】

プレートリバーブとスプリングリバーブのサンプルには、録音の最後の０．５秒間にフェードアウトが適用されているため、より長い減衰時間とレイトリフレクションのモデリングも実装できる。それぞれのコントロールを新しい入力訓練データとして含めることにより、パラメトリックモデルを提供できる。

【0280】

同様に、ビンテージのデジタルリバーブレーターをモデリングすることによって、または畳み込みベースのリバーブアプリケーションを介して、アーキテクチャをさらにテストすることができる。後者は、音の空間化と室内音響モデリングの分野でのアプリケーションをもたらす。

【0281】

モデルは各々のオーディオエフェクトモデリングタスクの静的表現を学習しているので、本明細書に開示されているモデルおよびアーキテクチャの各々によるパラメトリックモデルも達成することができる。したがって、エフェクトユニットのパラメータの挙動は、それぞれのコントロールを新しい入力訓練データとして含めることによってモデリングできる。また、これはコントロールの「プリセット」またはセットに拡張できる。

【0282】

提案されたモデルは、オフラインまたはリアルタイムの実装を介して動作できる。処理時間はすでにリアルタイムの時間的制約に近いため、リアルタイムモデルは、例えばＣ＋＋最適化を介して取得できる。因果モデル、つまり後続のコンテキストフレームを使用しないモデルも実装できる。これは、過去と後続の両方のコンテキスト入力フレームを使用する提案されたアーキテクチャによるものである。より短い入力フレームサイズを使用する因果モデルを実装すると、低レイテンシでリアルタイムの実装への道が開かれる可能性がある。

【0283】

潜在空間ＤＮＮによって学習された重みは、フロントエンドの畳み込み層によって学習されたフィルタの分析を使用して最適化できる。

【0284】

フロントエンドの畳み込み層による潜在空間ＤＮＮによって学習された重みは、入力オーディオ信号の変換方法を変えるために推論中に変更できる。したがって、一般的なアナログまたはデジタルオーディオプロセッサを用いることによっては不可能な新しい変換を実現できる。これは、ディープラーニングベースの効果のための一連の新しいコントロールとして使用できる。

【0285】

提案されたアーキテクチャは、他のタイプのオーディオプロセッサをモデリングするために使用できる。例えば、フィードバック遅延、スラップバック遅延、またはテープベースの遅延など、エコーに基づく長い時間依存関係をもつオーディオエフェクト。提案されたアーキテクチャは、低周波モジュレータ信号またはエンベロープによって駆動される時変オーディオエフェクトをモデリングするように設計されているが、モデリング確率的効果、つまりノイズによって駆動されるオーディオプロセッサも得られる。例えば、ＳＥまたはＳＥ－ＬＳＴＭ層を介してスケーリングできるこれらのネットワークの合成バックエンドにノイズジェネレーターを含めることができる。また、入力信号レベルに基づいて異なるＥＱカーブを適用するダイナミックイコライザーは、ＣＲＡＦｘまたはＣＷＡＦｘアーキテクチャでモデリングできる。

【0286】

全く異なる種類のエフェクトも提供できる。これには、オーディオモーフィング、音色変換、時間周波数プロセッサ（例えば、位相ボコーダーエフェクト）、タイムセグメントプロセッサ（例えば、時間伸縮、ピッチシフト、タイムシャッフル、およびグラニュレーション）、空間オーディオエフェクト（例えば、３Ｄラウドスピーカー設定または室内音響のモデリング）、因果関係のないエフェクト（例えば、「先読み」設定を含むオーディオプロセッサ）が含まれる。

【0287】

低レベルの知覚的特徴が抽出され、チャネル間相互適応システムの実装のためにマッピングされる、適応型デジタルオーディオエフェクトも実装できる。適応型オーディオエフェクトタスクを仮定すると、他のプロセッサのパラメータを制御するためのサウンド機能のこのマッピングは、提案された様々なアーキテクチャを共同で訓練することによって提供できる。これらのアーキテクチャは、一連のオーディオエフェクトで影響を受けたターゲットサウンドに基づいて、モデルが同じ変換を別の入力オーディオ信号に複製することを学習する、スタイル学習タスクに使用できる。

【0288】

これらのアーキテクチャの可能なアプリケーションは、自動ミキシング・マスタリングの分野である。自動ＥＱ、圧縮、リバーブなどの自動ミキシングタスクのために、自動線形および非線形処理を実装できる。さらに、ネットワークが、サウンドエンジニアによってミキシングされたいくつかのトラックで訓練され、エンジニアのミキシングプラクティスから一般化を見出す、特定のサウンドエンジニアのスタイル学習を実装することもできる。また、１つまたはいくつかのジャンルにわたる特定の楽器の自動ポストプロダクションを学習し、モデルによって実装することもできる。

【0289】

実施形態は、上記のような技術の多数の変更および変形を含む。

【0290】

オーディオエフェクトモデリングおよびインテリジェントな音楽制作以外のアプリケーション（例えば、歪みの除去、ノイズ除去、残響除去などの信号復元方法）も実装できる。

【0291】

本明細書におけるフローチャートおよびその説明は、そこに記載された方法ステップを実行する固定された順序を規定するものと理解されるべきではない。むしろ、方法ステップは、実行可能な任意の順序で実行することができる。本発明は、特定の例示的な実施形態に関連して説明されてきたが、添付の特許請求の範囲に記載されている通り、本発明の趣旨および範囲から逸脱することなく、当業者に明らかな様々な変更、置換、および改変が、開示された実施形態に対してなされ得ることを理解すべきである。

【0292】

本明細書に記載の方法およびプロセスは、コード（例えば、ソフトウェアコード）および／またはデータとして具現化することができる。そのようなコードおよびデータは、コンピュータシステムによって使用されるコードおよび／またはデータを格納できる任意のデバイスまたは媒体を含むことができる、１つまたは複数のコンピュータ可読媒体に格納することができる。コンピュータシステムがコンピュータ可読媒体に格納されたコードおよび／またはデータを読み取って実行するとき、コンピュータシステムは、コンピュータ可読記憶媒体内に格納されたデータ構造およびコードとして具現化された方法およびプロセスを実行する。特定の実施形態では、本明細書に記載の方法およびプロセスのステップのうちの１つまたは複数は、プロセッサ（例えば、コンピュータシステムまたはデータストレージシステムのプロセッサ）によって実行することができる。コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピューティングシステム／環境によって使用される他のデータなどの情報の格納に使用できる取り外し可能および取り外し不可能な構造／デバイスを含むことを当業者は理解すべきである。コンピュータ可読媒体には、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ、ＤＲＡＭ、ＳＲＡＭ））、不揮発性メモリ（例えば、フラッシュメモリ、様々な読み取り専用メモリ（ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ）、磁気および強磁性／強誘電体メモリ（ＭＲＡＭ、ＦｅＲＡＭ）、相変化メモリ、磁気および光学記憶装置（ハードドライブ、磁気テープ、ＣＤ、ＤＶＤ））、ネットワークデバイス、またはコンピュータで読み取り可能な情報／データを格納できる、現在知られている、または今後開発されるその他の媒体が含まれるが、これらに限定されない。コンピュータ可読媒体は、任意の伝搬信号を含むと解釈または説明されるべきではない。

【0293】

参考文献
以下の参考文献は、本明細書全体を通して参照され、すべて参照により本明細書に組み込まれる。

【0294】

ＪｏｎａｔｈａｎＳＡｂｅｌａｎｄＤａｖｉｄＰＢｅｒｎｅｒｓ．Ａｔｅｃｈｎｉｑｕｅｆｏｒｎｏｎｌｉｎｅａｒｓｙｓｔｅｍｍｅａｓｕｒｅｍｅｎｔ（非線形システム測定の手法）．Ｉｎ１２１ｓｔＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２００６．

【0295】

ＪｏｎａｔｈａｎＳＡｂｅｌ，ＤａｖｉｄＰＢｅｒｎｅｒｓ，ＳｅａｎＣｏｓｔｅｌｌｏ，ａｎｄＪｕｌｉｕｓＯＳｍｉｔｈ．Ｓｐｒｉｎｇｒｅｖｅｒｂｅｍｕｌａｔｉｏｎｕｓｉｎｇｄｉｓｐｅｒｓｉｖｅａｌｌｐａｓｓｆｉｌｔｅｒｓｉｎａｗａｖｅｇｕｉｄｅｓｔｒｕｃｔｕｒｅ（ウェーブガイド構造の分散型オールパスフィルタを使用したスプリングリバーブエミュレーション）．Ｉｎ１２１ｓｔＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２００６．

【0296】

ＪｏｎａｔｈａｎＳＡｂｅｌ，ＤａｖｉｄＰＢｅｒｎｅｒｓ，ａｎｄＡａｒｏｎＧｒｅｅｎｂｌａｔｔ．Ａｎｅｍｕｌａｔｉｏｎｏｆｔｈｅｅｍｔ１４０ｐｌａｔｅｒｅｖｅｒｂｅｒａｔｏｒｕｓｉｎｇａｈｙｂｒｉｄｒｅｖｅｒｂｅｒａｔｏｒｓｔｒｕｃｔｕｒｅ（ハイブリッドリバーブレーター構造を使用したｅｍｔ１４０プレートリバーブレーターのエミュレーション）．Ｉｎ１２７ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２００９．

【0297】

ＪeｒoｍｅＡｎｔｏｎｉａｎｄＪｏｈａｎＳｃｈｏｕｋｅｎｓ．Ａｃｏｍｐｒｅｈｅｎｓｉｖｅｓｔｕｄｙｏｆｔｈｅｂｉａｓａｎｄｖａｒｉａｎｃｅｏｆｆｒｅｑｕｅｎｃｙ－ｒｅｓｐｏｎｓｅ－ｆｕｎｃｔｉｏｎｍｅａｓｕｒｅｍｅｎｔｓ：Ｏｐｔｉｍａｌｗｉｎｄｏｗｓｅｌｅｃｔｉｏｎａｎｄｏｖｅｒｌａｐｐｉｎｇｓｔｒａｔｅｇｉｅｓ（周波数応答関数測定値の偏りと分散の包括的な研究：最適なウィンドウの選択と重複戦略）．Ａｕｔｏｍａｔｉｃａ，４３（１０）：１７２３－１７３６，２００７．

【0298】

ＫｅｖｉｎＡｒｃａｓａｎｄＡｎｔｏｉｎｅＣｈａｉｇｎｅ．Ｏｎｔｈｅｑｕａｌｉｔｙｏｆｐｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ（プレートリバーブの質について）．ＡｐｐｌｉｅｄＡｃｏｕｓｔｉｃｓ，７１（２）：１４７－１５６，２０１０．

【0299】

ＡｎｉｓｈＡｔｈａｌｙｅ，ＮｉｃｈｏｌａｓＣａｒｌｉｎｉ，ａｎｄＤａｖｉｄＷａｇｎｅｒ．Ｏｂｆｕｓｃａｔｅｄｇｒａｄｉｅｎｔｓｇｉｖｅａｆａｌｓｅｓｅｎｓｅｏｆｓｅｃｕｒｉｔｙ：ｃｉｒｃｕｍｖｅｎｔｉｎｇｄｅｆｅｎｓｅｓｔｏａｄｖｅｒｓａｒｉａｌｅｘａｍｐｌｅｓ（曖昧な勾配は、敵対的な例への防御を回避するという誤った安心感を与える）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０１８．

【0300】

ＳｈａｏｊｉｅＢａｉ，ＪＺｉｃｏＫｏｌｔｅｒ，ａｎｄＶｌａｄｌｅｎＫｏｌｔｕｎ．Ｃｏｎｖｏｌｕｔｉｏｎａｌｓｅｑｕｅｎｃｅｍｏｄｅｌｉｎｇｒｅｖｉｓｉｔｅｄ（畳み込みシーケンスモデリングの再検討）．Ｉｎ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ），２０１８．

【0301】

ＤａｎｉｅｌｅＢａｒｃｈｉｅｓｉａｎｄＪｏｓｈｕａＤ．Ｒｅｉｓｓ．Ｒｅｖｅｒｓｅｅｎｇｉｎｅｅｒｉｎｇｏｆａｍｉｘ（ミックスのリバースエンジニアリング）．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，５８（７／８）：５６３－５７６，２０１０．

【0302】

ＳｔｅｆａｎＢｉｌｂａｏ．Ａｄｉｇｉｔａｌｐｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎａｌｇｏｒｉｔｈｍ（デジタルプレートリバーブアルゴリズム）．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，５５（３）：１３５－１４４，２００７．

【0303】

ＳｔｅｆａｎＢｉｌｂａｏ．Ｎｕｍｅｒｉｃａｌｓｏｕｎｄｓｙｎｔｈｅｓｉｓ（数値音合成）．ＷｉｌｅｙＯｎｌｉｎｅＬｉｂｒａｒｙ，２００９．

【0304】

ＳｔｅｆａｎＢｉｌｂａｏ．Ｎｕｍｅｒｉｃａｌｓｉｍｕｌａｔｉｏｎｏｆｓｐｒｉｎｇｒｅｖｅｒｂｅｒａｔｉｏｎ（スプリングリバーブの数値シミュレーション）．Ｉｎ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１３），２０１３．

【0305】

ＳｔｅｆａｎＢｉｌｂａｏａｎｄＪｕｌｉａｎＰａｒｋｅｒ．Ａｖｉｒｔｕａｌｍｏｄｅｌｏｆｓｐｒｉｎｇｒｅｖｅｒｂｅｒａｔｉｏｎ（スプリングリバーブの仮想モデル）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，１８（４）：７９９－８０８，２００９．

【0306】

ＳｔｅｆａｎＢｉｌｂａｏ，ＫｅｖｉｎＡｒｃａｓ，ａｎｄＡｎｔｏｉｎｅＣｈａｉｇｎｅ．Ａｐｈｙｓｉｃａｌｍｏｄｅｌｆｏｒｐｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ（プレートリバーブの物理モデル）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２００６．

【0307】

ＣｈｒｉｓｔｏｐｈｅｒＭＢｉｓｈｏｐ．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎａｎｄｍａｃｈｉｎｅｌｅａｒｎｉｎｇ（パターン認識と機械学習）．ｓｐｒｉｎｇｅｒ，２００６．

【0308】

ＭｅｒｌｉｊｎＢｌａａｕｗａｎｄＪｏｒｄｉＢｏｎａｄａ．Ａｎｅｕｒａｌｐａｒａｍｅｔｒｉｃｓｉｎｇｉｎｇｓｙｎｔｈｅｓｉｚｅｒ（ニューラルパラメトリックシンセサイザー）．ＩｎＩｎｔｅｒｓｐｅｅｃｈ，２０１７．

【0309】

ОｌａｆｕｒＢｏｇａｓｏｎａｎｄＫｕｒｔＪａｍｅｓＷｅｒｎｅｒ．Ｍｏｄｅｌｉｎｇｃｉｒｃｕｉｔｓｗｉｔｈｏｐｅｒａｔｉｏｎａｌｔｒａｎｓｃｏｎｄｕｃｔａｎｃｅａｍｐｌｉｆｉｅｒｓｕｓｉｎｇｗａｖｅｄｉｇｉｔａｌｆｉｌｔｅｒｓ（ウェーブデジタルフィルタを使用したオペレーショナルトランスコンダクタンスアンプを備えた回路のモデリング）．Ｉｎ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１７），２０１７．

【0310】

Ｃｈｉ－ＴｓｏｎｇＣｈｅｎ．Ｌｉｎｅａｒｓｙｓｔｅｍｔｈｅｏｒｙａｎｄｄｅｓｉｇｎ（線形システムの理論と設計）．ＯｘｆｏｒｄＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，Ｉｎｃ．，１９９８．

【0311】

ＳｈａｒａｎＣｈｅｔｌｕｒ，ＣｌｉｆｆＷｏｏｌｌｅｙ，ＰｈｉｌｉｐｐｅＶａｎｄｅｒｍｅｒｓｃｈ，ＪｏｎａｔｈａｎＣｏｈｅｎ，ＪｏｈｎＴｒａｎ，ＢｒｙａｎＣａｔａｎｚａｒｏ，ａｎｄＥｖａｎＳｈｅｌｈａｍｅｒ．ｃｕＤＮＮ：Ｅｆｆｉｃｉｅｎｔｐｒｉｍｉｔｉｖｅｓｆｏｒｄｅｅｐｌｅａｒｎｉｎｇ（ディープラーニングのための効率的なプリミティブ）．ＣｏＲＲ，ａｂｓ／１４１０．０７５９，２０１４．

【0312】

ＫｙｕｎｇｈｙｕｎＣｈｏ，ＢａｒｔＶａｎＭｅｒｒｉｅｎｂｏｅｒ，ＣａｇｌａｒＧｕｌｃｅｈｒｅ，ＤｚｍｉｔｒｙＢａｈｄａｎａｕ，ＦｅｔｈｉＢｏｕｇａｒｅｓ，ＨｏｌｇｅｒＳｃｈｗｅｎｋ，ａｎｄＹｏｓｈｕａＢｅｎｇｉｏ．Ｌｅａｒｎｉｎｇｐｈｒａｓｅｒｅｐｒｅ－ｓｅｎｔａｔｉｏｎｓｕｓｉｎｇＲＮＮｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒｆｏｒｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ（統計的機械翻訳にＲＮＮエンコーダ／デコーダーを使用したフレーズ表現の学習）．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４０６．１０７８，２０１４．

【0313】

ＦｒａｎｃｏｉｓＣｈｏｌｌｅｔ．ＤｅｅｐＬｅａｒｎｉｎｇｗｉｔｈＰｙｔｈｏｎ（Ｐｙｔｈｏｎによるディープラーニング）．ＭａｎｎｉｎｇＰｕｂｌｉｃａｔｉｏｎｓＣｏ．，２０１８．

【0314】

Ｅｅｒｏ－ＰｅｋｋａＤａｍｓｋａｇｇ，ＬａｕｒｉＪｕｖｅｌａ，ＥｔｉｅｎｎｅＴｈｕｉｌｌｉｅｒ，ａｎｄＶｅｓａＶａｌｉｍａｋｉ．Ｄｅｅｐｌｅａｒｎｉｎｇｆｏｒｔｕｂｅａｍｐｌｉｆｉｅｒｅｍｕｌａｔｉｏｎ（真空管アンプエミュレーションのディープラーニング）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓ－ｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１９．

【0315】

ＢｒｅｃｈｔＤｅＭａｎ，ＪｏｓｈｕａＤＲｅｉｓｓ，ａｎｄＲｙａｎＳｔａｂｌｅｓ．Ｔｅｎｙｅａｒｓｏｆａｕｔｏｍａｔｉｃｍｉｘｉｎｇ（自動ミキシングの１０年）．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３ｒｄＷｏｒｋｓｈｏｐｏｎＩｎｔｅｌｌｉｇｅｎｔＭｕｓｉｃＰｒｏｄｕｃｔｉｏｎ，２０１７．

【0316】

ＧｉｏｖａｎｎｉＤｅＳａｎｃｔｉｓａｎｄＡｕｇｕｓｔｏＳａｒｔｉ．Ｖｉｒｔｕａｌａｎａｌｏｇｍｏｄｅｌｉｎｇｉｎｔｈｅｗａｖｅ－ｄｉｇｉｔａｌｄｏｍａｉｎ（ウェーブデジタル領域における仮想アナログモデリング）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２００９．

【0317】

ＪｕｎｑｉＤｅｎｇａｎｄＹｕ－ＫｗｏｎｇＫｗｏｋ．Ａｕｔｏｍａｔｉｃｃｈｏｒｄｅｓｔｉｍａｔｉｏｎｏｎｓｅｖｅｎｔｈｓｂａｓｓｃｈｏｒｄｖｏｃａｂｕｌａｒｙｕｓｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ（ディープニューラルネットワークを使用したセブンスバスコード語彙の自動コード推定）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１６．

【0318】

ＳａｎｄｅｒＤｉｅｌｅｍａｎａｎｄＢｅｎｊａｍｉｎＳｃｈｒａｕｗｅｎ．Ｅｎｄ－ｔｏ－ｅｎｄｌｅａｒｎｉｎｇｆｏｒｍｕｓｉｃａｕｄｉｏ（音楽オーディオのエンドツーエンド学習）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．ＩＥＥＥ，２０１４．

【0319】

ＭｉｃｈｅｌｅＤｕｃｃｅｓｃｈｉａｎｄＣｒａｉｇＪＷｅｂｂ．Ｐｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ：Ｔｏｗａｒｄｓｔｈｅｄｅｖｅｌｏｐ－ｍｅｎｔｏｆａｒｅａｌ－ｔｉｍｅｐｈｙｓｉｃａｌｍｏｄｅｌｆｏｒｔｈｅｗｏｒｋｉｎｇｍｕｓｉｃｉａｎ（プレートリバーブ：働くミュージシャンのためのリアルタイム物理モデルの開発に向けて）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｇｒｅｓｓｏｎＡｃｏｕｓｔｉｃｓ（ＩＣＡ），２０１６．

【0320】

ＪｏｈｎＤｕｃｈｉ，ＥｌａｄＨａｚａｎ，ａｎｄＹｏｒａｍＳｉｎｇｅｒ．Ａｄａｐｔｉｖｅｓｕｂｇｒａｄｉｅｎｔｍｅｔｈｏｄｓｆｏｒｏｎｌｉｎｅｌｅａｒｎｉｎｇａｎｄｓｔｏｃｈａｓｔｉｃｏｐｔｉｍｉｚａｔｉｏｎ（オンライン学習と確率的最適化のための適応劣勾配法）．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，１２（Ｊｕｌ）：２１２１－２１５９，２０１１．

【0321】

ＳｉｍｏｎＤｕｒａｎｄ，ＪｕａｎＰＢｅｌｌｏ，ＢｅｒｔｒａｎｄＤａｖｉｄ，ａｎｄＧａｅｌＲｉｃｈａｒｄ．Ｄｏｗｎｂｅａｔｔｒａｃｋ－ｉｎｇｗｉｔｈｍｕｌｔｉｐｌｅｆｅａｔｕｒｅｓａｎｄｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ（多数の機能とディープニューラルネットワークを備えたダウンビートトラッキング）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１５．

【0322】

ＤｏｕｇｌａｓＥｃｋａｎｄＪｕｅｒｇｅｎＳｃｈｍｉｄｈｕｂｅｒ．Ａｆｉｒｓｔｌｏｏｋａｔｍｕｓｉｃｃｏｍｐｏｓｉｔｉｏｎｕｓｉｎｇｌｓｔｍｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ（ｌｓｔｍ再帰型ニューラルネットワークを使用した作曲の初見）．ＩｓｔｉｔｕｔｏＤａｌｌｅＭｏｌｌｅＤｉＳｔｕｄｉＳｕｌｌＩｎｔｅｌｌｉｇｅｎｚａＡｒｔｉｆｉｃｉａｌｅ，１０３，２００２．

【0323】

ＦｅｌｉｘＥｉｃｈａｓａｎｄＵｄｏＺоｌｚｅｒ．Ｂｌａｃｋ－ｂｏｘｍｏｄｅｌｉｎｇｏｆｄｉｓｔｏｒｔｉｏｎｃｉｒｃｕｉｔｓｗｉｔｈｂｌｏｃｋ－ｏｒｉｅｎｔｅｄｍｏｄｅｌｓ（ブロック指向モデルによる歪み回路のブラックボックスモデリング）．Ｉｎ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１６），２０１６．

【0324】

ＦｅｌｉｘＥｉｃｈａｓａｎｄＵｄｏＺоｌｚｅｒ．Ｖｉｒｔｕａｌａｎａｌｏｇｍｏｄｅｌｉｎｇｏｆｇｕｉｔａｒａｍｐｌｉｆｉｅｒｓｗｉｔｈｗｉｅｎｅｒ－ｈａｍｍｅｒｓｔｅｉｎｍｏｄｅｌｓ（ウィーナー・ハンマースタインモデルによるギターアンプの仮想アナログモデリング）．Ｉｎ４４ｔｈＡｎｎｕａｌＣｏｎｖｅｎｔｉｏｎｏｎＡｃｏｕｓｔｉｃｓ，２０１８．

【0325】

ＦｅｌｉｘＥｉｃｈａｓ，ＭａｒｃｏＦｉｎｋ，ＭａｒｔｉｎＨｏｌｔｅｒｓ，ａｎｄＵｄｏＺоｌｚｅｒ．Ｐｈｙｓｉｃａｌｍｏｄｅｌｉｎｇｏｆｔｈｅｍｘｒｐｈａｓｅ９０ｇｕｉｔａｒｅｆｆｅｃｔｐｅｄａｌ（ｍｘｒｐｈａｓｅ９０ギターエフェクトペダルの物理モデリング）．Ｉｎ１７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１４），２０１４．

【0326】

ＦｅｌｉｘＥｉｃｈａｓ，ＥｔｉｅｎｎｅＧｅｒａｔ，ａｎｄＵｄｏＺоｌｚｅｒ．Ｖｉｒｔｕａｌａｎａｌｏｇｍｏｄｅｌｉｎｇｏｆｄｙｎａｍｉｃｒａｎｇｅｃｏｍｐｒｅｓｓｉｏｎｓｙｓｔｅｍｓ（ダイナミックレンジ圧縮システムの仮想アナログモデリング）．Ｉｎ１４２ｎｄＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２０１７．

【0327】

ＪｅｓｓｅＥｎｇｅｌ，ＣｉｎｊｏｎＲｅｓｎｉｃｋ，ＡｄａｍＲｏｂｅｒｔｓ，ＳａｎｄｅｒＤｉｅｌｅｍａｎ，ＭｏｈａｍｍａｄＮｏｒｏｕｚｉ，ＤｏｕｇｌａｓＥｃｋ，ａｎｄＫａｒｅｎＳｉｍｏｎｙａｎ．Ｎｅｕｒａｌａｕｄｉｏｓｙｎｔｈｅｓｉｓｏｆｍｕｓｉｃａｌｎｏｔｅｓｗｉｔｈｗａｖｅｎｅｔａｕｔｏｅｎｃｏｄｅｒｓ（Ｗａｖｅｎｅｔオートエンコーダによる音符のニューラルオーディオ合成）．３４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０１７．

【0328】

ＪｅｓｓｅＥｎｇｅｌ，ＬａｍｔｈａｒｎＨａｎｔｒａｋｕｌ，ＣｈｅｎｊｉｅＧｕ，ａｎｄＡｄａｍＲｏｂｅｒｔｓ．ＤＤＳＰ：Ｄｉｆ－ｆｅｒｅｎｔｉａｂｌｅｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ（ＤＤＳＰ：微分可能なデジタル信号処理）．Ｉｎ８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ），２０２０．

【0329】

ＤｕｍｉｔｒｕＥｒｈａｎ，ＹｏｓｈｕａＢｅｎｇｉｏ，ＡａｒｏｎＣｏｕｒｖｉｌｌｅ，ａｎｄＰａｓｃａｌＶｉｎｃｅｎｔ．Ｖｉｓｕａｌｉｚｉｎｇｈｉｇｈｅｒ－ｌａｙｅｒｆｅａｔｕｒｅｓｏｆａｄｅｅｐｎｅｔｗｏｒｋ（ディープネットワークの上位層の特徴の視覚化）．ＵｎｉｖｅｒｓｉｔｙｏｆＭｏｎｔｒｅａｌ，１３４１（３）：１，２００９．

【0330】

ＡｎｇｅｌｏＦａｒｉｎａ．Ｓｉｍｕｌｔａｎｅｏｕｓｍｅａｓｕｒｅｍｅｎｔｏｆｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅａｎｄｄｉｓｔｏｒｔｉｏｎｗｉｔｈａｓｗｅｐｔ－ｓｉｎｅｔｅｃｈｎｉｑｕｅ（スイープサイン法によるインパルス応答と歪みの同時測定）．Ｉｎ１０８ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２０００．

【0331】

ＸｕｅＦｅｎｇ，ＹａｏｄｏｎｇＺｈａｎｇ，ａｎｄＪａｍｅｓＧｌａｓｓ．Ｓｐｅｅｃｈｆｅａｔｕｒｅｄｅｎｏｉｓｉｎｇａｎｄｄｅｒｅｖｅｒｂｅｒａｔｉｏｎｖｉａｄｅｅｐａｕｔｏｅｎｃｏｄｅｒｓｆｏｒｎｏｉｓｙｒｅｖｅｒｂｅｒａｎｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ（ノイズの多い残響のある音声認識のためのディープオートエンコーダによる音声特徴のノイズ除去と残響除去）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２０１４．

【0332】

ＢｅｎｊａｍｉｎＦｒｉｅｄｌａｎｄｅｒａｎｄＢｏａｚＰｏｒａｔ．ＴｈｅｍｏｄｉｆｉｅｄＹｕｌｅ－ＷａｌｋｅｒｍｅｔｈｏｄｏｆＡＲＭＡｓｐｅｃｔｒａｌｅｓｔｉｍａｔｉｏｎ（ＡＲＭＡスペクトル推定の修正ユール・ウォーカー法）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｅｒｏｓｐａｃｅａｎｄＥｌｅｃｔｒｏｎｉｃＳｙｓｔｅｍｓ，（２）：１５８－１７３，１９８４．

【0333】

ＴｏｄｏｒＧａｎｃｈｅｖ，ＮｉｋｏｓＦａｋｏｔａｋｉｓ，ａｎｄＧｅｏｒｇｅＫｏｋｋｉｎａｋｉｓ．Ｃｏｍｐａｒａｔｉｖｅｅｖａｌｕａｔｉｏｎｏｆｖａｒｉｏｕｓｍｆｃｃｉｍｐｌｅｍｅｎｔａｔｉｏｎｓｏｎｔｈｅｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎｔａｓｋ（スピーカー検証タスクでの様々なｍｆｃｃ実装の比較評価）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐｅｅｃｈａｎｄＣｏｍｐｕｔｅｒ，２００５．

【0334】

ＰａｔｒｉｃｋＧａｙｄｅｃｋｉ．Ｆｏｕｎｄａｔｉｏｎｓｏｆｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ：ｔｈｅｏｒｙ，ａｌｇｏｒｉｔｈｍｓａｎｄｈａｒｄｗａｒｅｄｅｓｉｇｎ（デジタル信号処理の基礎：理論、アルゴリズム、およびハードウェア設計），ｖｏｌｕｍｅ１５．Ｉｅｔ，２００４．

【0335】

ＥｔｉｅｎｎｅＧｅｒａｔ，ＦｅｌｉｘＥｉｃｈａｓ，ａｎｄＵｄｏＺоｌｚｅｒ．Ｖｉｒｔｕａｌａｎａｌｏｇｍｏｄｅｌｉｎｇｏｆａｕｒｅｉ１１７６ｌｎｄｙｎａｍｉｃｒａｎｇｅｃｏｎｔｒｏｌｓｙｓｔｅｍ（ｕｒｅｉ１１７６ｌｎダイナミックレンジ制御システムの仮想アナログモデリング）．Ｉｎ１４３ｒｄＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎ－ｔｉｏｎ，２０１７．

【0336】

ＦｅｌｉｘＡＧｅｒｓ，ＪuｒｇｅｎＳｃｈｍｉｄｈｕｂｅｒ，ａｎｄＦｒｅｄＣｕｍｍｉｎｓ．Ｌｅａｒｎｉｎｇｔｏｆｏｒｇｅｔ：ＣｏｎｔｉｎｕａｌｐｒｅｄｉｃｔｉｏｎｗｉｔｈＬＳＴＭ（忘れることを学ぶ：ＬＳＴＭによる継続的な予測）．ＩＥＴ，１９９９．

【0337】

ＤｉｍｉｔｒｉｏｓＧｉａｎｎｏｕｌｉｓ，ＭｉｃｈａｅｌＭａｓｓｂｅｒｇ，ａｎｄＪｏｓｈｕａＤＲｅｉｓｓ．Ｐａｒａｍｅｔｅｒａｕｔｏｍａｔｉｏｎｉｎａｄｙｎａｍｉｃｒａｎｇｅｃｏｍｐｒｅｓｓｏｒ（ダイナミックレンジコンプレッサのパラメータオートメーション）．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，６１（１０）：７１６－７２６，２０１３．

【0338】

ＰｅｒｅＬｌｕiｓＧｉｌａｂｅｒｔＰｉｎａｌ，ＧａｂｒｉｅｌＭｏｎｔｏｒｏＬoｐｅｚ，ａｎｄＥｄｕａｒｄｏＢｅｒｔｒａｎＡｌｂｅｒｔi．Ｏｎｔｈｅｗｉｅｎｅｒａｎｄｈａｍｍｅｒｓｔｅｉｎｍｏｄｅｌｓｆｏｒｐｏｗｅｒａｍｐｌｉｆｉｅｒｐｒｅｄｉｓｔｏｒｔｉｏｎ（パワーアンプのプリディストーション用のウィーナー・ハンマースタインモデルについて）．ＩｎＩＥＥＥＡｓｉａ－ＰａｃｉｆｉｃＭｉｃｒｏｗａｖｅＣｏｎｆｅｒｅｎｃｅ，２００５．

【0339】

ＸａｖｉｅｒＧｌｏｒｏｔａｎｄＹｏｓｈｕａＢｅｎｇｉｏ．Ｕｎｄｅｒｓｔａｎｄｉｎｇｔｈｅｄｉｆｆｉｃｕｌｔｙｏｆｔｒａｉｎｉｎｇｄｅｅｐｆｅｅｄｆｏｒｗａｒｄｎｅｕｒａｌｎｅｔｗｏｒｋｓ（ディープフィードフォワードニューラルネットワークのトレーニングの難しさの理解）．Ｉｎｔｈｅ１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ，２０１０．

【0340】

ＬｕｋｅＢＧｏｄｆｒｅｙａｎｄＭｉｃｈａｅｌＳＧａｓｈｌｅｒ．Ａｃｏｎｔｉｎｕｕｍａｍｏｎｇｌｏｇａｒｉｔｈｍｉｃ，ｌｉｎｅａｒ，ａｎｄｅｘｐｏｎｅｎｔｉａｌｆｕｎｃｔｉｏｎｓ，ａｎｄｉｔｓｐｏｔｅｎｔｉａｌｔｏｉｍｐｒｏｖｅｇｅｎｅｒａｌｉｚａｔｉｏｎｉｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ（対数関数、線形関数、指数関数の間の連続体、およびニューラルネットワークの一般化を改善するその可能性）．Ｉｎ７ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，ＫｎｏｗｌｅｄｇｅＥｎｇｉｎｅｅｒｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ，２０１５．

【0341】

ＩａｎＧｏｏｄｆｅｌｌｏｗ，ＹｏｓｈｕａＢｅｎｇｉｏ，ａｎｄＡａｒｏｎＣｏｕｒｖｉｌｌｅ．Ｄｅｅｐｌｅａｒｎｉｎｇ（ディープラーニング）．ＭＩＴｐｒｅｓｓ，２０１６．

【0342】

ＡｌｅｘＧｒａｖｅｓａｎｄＪuｒｇｅｎＳｃｈｍｉｄｈｕｂｅｒ．Ｆｒａｍｅｗｉｓｅｐｈｏｎｅｍｅｃｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈｂｉｄｉｒｅｃｔｉｏｎａｌｌｓｔｍａｎｄｏｔｈｅｒｎｅｕｒａｌｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅｓ（双方向ｌｓｔｍおよびその他のニューラルネットワークアーキテクチャを使用したフレームごとの音素分類）．ＮｅｕｒａｌＮｅｔｗｏｒｋｓ，１８（５－６）：６０２－６１０，２００５．

【0343】

ＡｌｅｘＧｒａｖｅｓ，Ａｂｄｅｌ－ｒａｈｍａｎＭｏｈａｍｅｄ，ａｎｄＧｅｏｆｆｒｅｙＨｉｎｔｏｎ．Ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｄｅｅｐｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ（深層再帰型ニューラルネットワークによる音声認識），Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１３．

【0344】

ＡａｒｏｎＢＧｒｅｅｎｂｌａｔｔ，ＪｏｎａｔｈａｎＳＡｂｅｌ，ａｎｄＤａｖｉｄＰＢｅｒｎｅｒｓ．Ａｈｙｂｒｉｄｒｅｖｅｒｂｅｒａｔｉｏｎｃｒｏｓｓｆａｄｉｎｇｔｅｃｈｎｉｑｕｅ（ハイブリッドリバーブクロスフェードテクニック）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２０１０．

【0345】

ＳｉｎａＨａｆｅｚｉａｎｄＪｏｓｈｕａＤ．Ｒｅｉｓｓ．Ａｕｔｏｎｏｍｏｕｓｍｕｌｔｉｔｒａｃｋｅｑｕａｌｉｚａｔｉｏｎｂａｓｅｄｏｎｍａｓｋｉｎｇｒｅｄｕｃｔｉｏｎ（マスキング削減に基づく自律型マルチトラックイコライゼーション）．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，６３（５）：３１２－３２３，２０１５．

【0346】

ＡｎｎａＨａｇｅｎｂｌａｄ．ＡｓｐｅｃｔｓｏｆｔｈｅｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＷｉｅｎｅｒｍｏｄｅｌｓ（ウィーナーモデルの識別の側面）．博士論文ＬｉｎｋоｐｉｎｇｓＵｎｉｖｅｒｓｉｔｅｔ，１９９９．

【0347】

ＳｔｅｆａｎＬＨａｈｎ．Ｈｉｌｂｅｒｔｔｒａｎｓｆｏｒｍｓｉｎｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ（信号処理におけるヒルベルト変換），ｖｏｌｕｍｅ２．ＡｒｔｅｃｈＨｏｕｓｅＢｏｓｔｏｎ，１９９６．

【0348】

ＰｈｉｌｉｐｐｅＨａｍｅｌ，ＭａｔｔｈｅｗＥＰＤａｖｉｅｓ，ＫａｚｕｙｏｓｈｉＹｏｓｈｉｉ，ａｎｄＭａｓａｔａｋａＧｏｔｏ．ＴｒａｎｓｆｅｒｌｅａｒｎｉｎｇｉｎＭＩＲ：Ｓｈａｒｉｎｇｌｅａｒｎｅｄｌａｔｅｎｔｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｏｒｍｕｓｉｃａｕｄｉｏｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｓｉｍｉｌａｒｉｔｙ（ＭＩＲでの転移学習：音楽オーディオの分類と類似性のために学習した潜在表現の共有）．Ｉｎ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ（ＩＳＭＩＲ），２０１３．

【0349】

ＪｉａｗｅｉＨａｎ，ＪｉａｎＰｅｉ，ａｎｄＭｉｃｈｅｌｉｎｅＫａｍｂｅｒ．Ｄａｔａｍｉｎｉｎｇ：ｃｏｎｃｅｐｔｓａｎｄｔｅｃｈｎｉｑｕｅｓ（データマイニング：概念と技法）．

【0350】

Ｅｌｓｅｖｉｅｒ，２０１１．

【0351】

ＫｕｎＨａｎ，ＹｕｘｕａｎＷａｎｇ，ＤｅＬｉａｎｇＷａｎｇ，ＷｉｌｌｉａｍＳＷｏｏｄｓ，ＩｖｏＭｅｒｋｓ，ａｎｄＴａｏＺｈａｎｇ．Ｌｅａｒｎｉｎｇｓｐｅｃｔｒａｌｍａｐｐｉｎｇｆｏｒｓｐｅｅｃｈｄｅｒｅｖｅｒｂｅｒａｔｉｏｎａｎｄｄｅｎｏｉｓｉｎｇ（音声の残響除去とノイズ除去のためのスペクトルマッピングの学習）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２３（６）：９８２－９９２，２０１５．

【0352】

ＹｏｏｎｃｈａｎｇＨａｎ，ＪａｅｈｕｎＫｉｍ，ａｎｄＫｙｏｇｕＬｅｅ．Ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｐｒｅｄｏｍｉｎａｎｔｉｎｓｔｒｕｍｅｎｔｒｅｃｏｇｎｉｔｉｏｎｉｎｐｏｌｙｐｈｏｎｉｃｍｕｓｉｃ（ポリフォニック音楽における優勢な楽器認識のための深層畳み込みニューラルネットワーク）．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２５（１）：２０８－２２１，２０１６．

【0353】

ＡｋｉＨａｒｍａ，ＭａｔｔｉＫａｒｊａｌａｉｎｅｎ，ＬａｕｒｉＳａｖｉｏｊａ，ＶｅｓａＶａｌｉｍａｋｉ，ＵｎｔｏＫＬａｉｎｅ，ａｎｄＪｙｒｉＨｕｏｐａｎｉｅｍｉ．Ｆｒｅｑｕｅｎｃｙ－ｗａｒｐｅｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｆｏｒａｕｄｉｏａｐｐｌｉｃａｔｉｏｎｓ（オーディオアプリケーション向けの周波数ワープ信号処理）．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，４８（１１）：１０１１－１０３１，２０００．

【0354】

ＳｃｏｔｔＨＨａｗｌｅｙ，ＢｅｎｊａｍｉｎＣｏｌｂｕｒｎ，ａｎｄＳｔｙｌｉａｎｏｓＩＭｉｍｉｌａｋｉｓ．ＳｉｇｎａｌＴｒａｉｎ：Ｐｒｏｆｉｌｉｎｇａｕｄｉｏｃｏｍｐｒｅｓｓｏｒｓｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ（ディープニューラルネットワークを使用したプロファイリングオーディオコンプレッサー）．Ｉｎ１４７ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２０１９．

【0355】

ＫａｉｍｉｎｇＨｅ，ＸｉａｎｇｙｕＺｈａｎｇ，ＳｈａｏｑｉｎｇＲｅｎ，ａｎｄＪｉａｎＳｕｎ．Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ（画像認識のための深層残差学習）．ＩｎＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１６．

【0356】

ＴｈｏｍａｓＨｅｌｉｅ．Ｏｎｔｈｅｕｓｅｏｆｖｏｌｔｅｒｒａｓｅｒｉｅｓｆｏｒｒｅａｌ－ｔｉｍｅｓｉｍｕｌａｔｉｏｎｓｏｆｗｅａｋｌｙｎｏｎｌｉｎｅａｒａｎａｌｏｇａｕｄｉｏｄｅｖｉｃｅｓ：Ａｐｐｌｉｃａｔｉｏｎｔｏｔｈｅｍｏｏｇｌａｄｄｅｒｆｉｌｔｅｒ（弱非線形アナログオーディオデバイスのリアルタイムシミュレーションのためのｖｏｌｔｅｒｒａシリーズの使用について：ｍｏｏｇラダーフィルタへの適用）．Ｉｎ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－０６），２００６．

【0357】

ＣｌｉｆｆｏｒｄＡＨｅｎｒｉｃｋｓｅｎ．Ｕｎｅａｒｔｈｉｎｇｔｈｅｍｙｓｔｅｒｉｅｓｏｆｔｈｅｌｅｓｌｉｅｃａｂｉｎｅｔ（レスリーキャビネットの謎を解き明かす）．ＲｅｃｏｒｄｉｎｇＥｎｇｉｎｅｅｒ／ＰｒｏｄｕｃｅｒＭａｇａｚｉｎｅ，１９８１．

【0358】

ＪｏｒｇｅＨｅｒｒｅｒａ，ＣｒａｉｇＨａｎｓｏｎ，ａｎｄＪｏｎａｔｈａｎＳＡｂｅｌ．Ｄｉｓｃｒｅｔｅｔｉｍｅｅｍｕｌａｔｉｏｎｏｆｔｈｅｌｅｓｌｉｅｓｐｅａｋｅｒ（レスリースピーカーの離散時間エミュレーション）．Ｉｎ１２７ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２００９．

【0359】

ＭａｒｃｅｌＨｉｌｓａｍｅｒａｎｄＳｔｅｐｈａｎＨｅｒｚｏｇ．Ａｓｔａｔｉｓｔｉｃａｌａｐｐｒｏａｃｈｔｏａｕｔｏｍａｔｅｄｏｆｆｌｉｎｅｄｙｎａｍｉｃｐｒｏｃｅｓｓｉｎｇｉｎｔｈｅａｕｄｉｏｍａｓｔｅｒｉｎｇｐｒｏｃｅｓｓ（オーディオマスタリングプロセスにおける自動化されたオフラインダイナミックプロセッシングへの統計的アプローチ）．Ｉｎ１７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１４），２０１４．

【0360】

ＳｅｐｐＨｏｃｈｒｅｉｔｅｒａｎｄＪｕｒｇｅｎＳｃｈｍｉｄｈｕｂｅｒ．Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ（長短期記憶）．Ｎｅｕｒａｌｃｏｍｐｕｔａｔｉｏｎ，９（８）：１７３５－１７８０，１９９７．

【0361】

ＭａｒｔｉｎＨｏｌｔｅｒｓａｎｄＪｕｌｉａｎＤＰａｒｋｅｒ．Ａｃｏｍｂｉｎｅｄｍｏｄｅｌｆｏｒａｂｕｃｋｅｔｂｒｉｇａｄｅｄｅｖｉｃｅａｎｄｉｔｓｉｎｐｕｔａｎｄｏｕｔｐｕｔｆｉｌｔｅｒｓ（バケットブリゲードデバイスとその入出力フィルタを組み合わせたモデル）．Ｉｎ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１７），２０１８．

【0362】

ＭａｒｔｉｎＨｏｌｔｅｒｓａｎｄＵｄｏＺоｌｚｅｒ．Ｐｈｙｓｉｃａｌｍｏｄｅｌｌｉｎｇｏｆａｗａｈ－ｗａｈｅｆｆｅｃｔｐｅｄａｌａｓａｃａｓｅｓｔｕｄｙｆｏｒａｐｐｌｉｃａｔｉｏｎｏｆｔｈｅｎｏｄａｌｄｋｍｅｔｈｏｄｔｏｃｉｒｃｕｉｔｓｗｉｔｈｖａｒｉａｂｌｅｐａｒｔｓ（可変部分をもつ回路へのノードｄｋメソッドの適用のケーススタディとしてのワウ－ワウエフェクトペダルの物理モデリング）．Ｉｎ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１１），２０１１．

【0363】

ＬｅＨｏｕ，ＤｉｍｉｔｒｉｓＳａｍａｒａｓ，ＴａｈｓｉｎＭＫｕｒｃ，ＹｉＧａｏ，ａｎｄＪｏｅｌＨＳａｌｔｚ．Ｎｅｕｒａｌｎｅｔｗｏｒｋｓｗｉｔｈｓｍｏｏｔｈａｄａｐｔｉｖｅａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎｓｆｏｒｒｅｇｒｅｓｓｉｏｎ（回帰用ｓｍｏｏｔｈａｄａｐｔｉｖｅ活性化関数を備えたニューラルネットワーク）．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０８．０６５５７，２０１６．

【0364】

ＬｅＨｏｕ，ＤｉｍｉｔｒｉｓＳａｍａｒａｓ，ＴａｈｓｉｎＭＫｕｒｃ，ＹｉＧａｏ，ａｎｄＪｏｅｌＨＳａｌｔｚ．Ｃｏｎｖｎｅｔｓｗｉｔｈｓｍｏｏｔｈａｄａｐｔｉｖｅａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎｓｆｏｒｒｅｇｒｅｓｓｉｏｎ（回帰用ｓｍｏｏｔｈａｄａｐｔｉｖｅ活性化関数を備えたＣｏｎｖｎｅｔｓ）．Ｉｎ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ（ＡＩＳＴＡＴＳ），２０１７．

【0365】

ＪｉｅＨｕ，ＬｉＳｈｅｎ，ａｎｄＧａｎｇＳｕｎ．Ｓｑｕｅｅｚｅ－ａｎｄ－ｅｘｃｉｔａｔｉｏｎｎｅｔｗｏｒｋｓ（Ｓｑｕｅｅｚｅ－ａｎｄ－ｅｘｃｉｔａｔｉｏｎネットワーク）．ＩｎＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１８．

【0366】

ＡｌｌｅｎＨｕａｎｇａｎｄＲａｙｍｏｎｄＷｕ．Ｄｅｅｐｌｅａｒｎｉｎｇｆｏｒｍｕｓｉｃ（音楽のためのディープラーニング）．ＣｏＲＲ，ａｂｓ／１６０６．０４９３０，２０１６．

【0367】

ＥｒｉｃＪＨｕｍｐｈｒｅｙａｎｄＪｕａｎＰＢｅｌｌｏ．Ｒｅｔｈｉｎｋｉｎｇａｕｔｏｍａｔｉｃｃｈｏｒｄｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ（畳み込みニューラルネットワークによる自動コード認識の再考）．Ｉｎ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０１２．

【0368】

ＥｒｉｃＪＨｕｍｐｈｒｅｙａｎｄＪｕａｎＰＢｅｌｌｏ．Ｆｒｏｍｍｕｓｉｃａｕｄｉｏｔｏｃｈｏｒｄｔａｂｌａｔｕｒｅ：Ｔｅａｃｈｉｎｇｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｔｏｐｌａｙｇｕｉｔａｒ（音楽オーディオからコードタブ譜まで：深層畳み込みネットワークを教えてギターを弾く）．ＩｎＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎａｃｏｕｓｔｉｃｓ，ｓｐｅｅｃｈａｎｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１４．

【0369】

ＡｎｔｔｉＨｕｏｖｉｌａｉｎｅｎ．Ｅｎｈａｎｃｅｄｄｉｇｉｔａｌｍｏｄｅｌｓｆｏｒａｎａｌｏｇｍｏｄｕｌａｔｉｏｎｅｆｆｅｃｔｓ（アナログモジュレーションエフェクト用の強化されたデジタルモデル）．Ｉｎ８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－０５），２００５．

【0370】

ＬｅｌａｎｄＢＪａｃｋｓｏｎ．Ｆｒｅｑｕｅｎｃｙ－ｄｏｍａｉｎＳｔｅｉｇｌｉｔｚ－ＭｃＢｒｉｄｅｍｅｔｈｏｄｆｏｒｌｅａｓｔ－ｓｑｕａｒｅｓＩＩＲｆｉｌｔｅｒｄｅｓｉｇｎ，ＡＲＭＡｍｏｄｅｌｉｎｇ，ａｎｄｐｅｒｉｏｄｏｇｒａｍｓｍｏｏｔｈｉｎｇ（最小二乗ＩＩＲフィルタ設計、ＡＲＭＡモデリング、およびピリオドグラム平滑化のための周波数領域Ｓｔｅｉｇｌｉｔｚ－ＭｃＢｒｉｄｅ法）．ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ，１５：４９－５２，２００８．

【0371】

ＨａｎｎａＪａｒｖｅｌａｉｎｅｎａｎｄＭａｔｔｉＫａｒｊａｌａｉｎｅｎ．Ｒｅｖｅｒｂｅｒａｔｉｏｎｍｏｄｅｌｉｎｇｕｓｉｎｇｖｅｌｖｅｔｎｏｉｓｅ（ベルベットノイズを使用した残響モデリング）．Ｉｎ３０ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ，２００７．

【0372】

ＮｉｃｈｏｌａｓＪｉｌｌｉｎｇｓ，ＢｒｅｃｈｔＤｅＭａｎ，ＤａｖｉｄＭｏｆｆａｔ，ａｎｄＪｏｓｈｕａＤＲｅｉｓｓ．ＷｅｂＡｕｄｉｏＥｖａｌｕａｔｉｏｎＴｏｏｌ：Ａｂｒｏｗｓｅｒ－ｂａｓｅｄｌｉｓｔｅｎｉｎｇｔｅｓｔｅｎｖｉｒｏｎｍｅｎｔ（Ｗｅｂオーディオ評価ツール：ブラウザベースのリスニングテスト環境）．Ｉｎ１２ｔｈＳｏｕｎｄａｎｄＭｕｓｉｃＣｏｍｐｕｔｉｎｇＣｏｎｆｅｒｅｎｃｅ，２０１５．

【0373】

Ｊｅａｎ－ＭａｒｃＪｏｔａｎｄＡｎｔｏｉｎｅＣｈａｉｇｎｅ．Ｄｉｇｉｔａｌｄｅｌａｙｎｅｔｗｏｒｋｓｆｏｒｄｅｓｉｇｎｉｎｇａｒｔｉｆｉｃｉａｌｒｅｖｅｒｂｅｒａｔｏｒｓ（人工リバーブレーターを設計するためのデジタル遅延ネットワーク）．Ｉｎ９０ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，１９９１．

【0374】

ＭａｔｔｉＫａｒｊａｌａｉｎｅｎ，ＴｅｅｍｕＭａｋｉ－Ｐａｔｏｌａ，ＡｋｉＫａｎｅｒｖａ，ａｎｄＡｎｔｔｉＨｕｏｖｉｌａｉｎｅｎ．Ｖｉｒｔｕａｌａｉｒｇｕｉｔａｒ（バーチャルエアギター）．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，５４（１０）：９６４－９８０，２００６．

【0375】

ＲｏｏｐｅＫｉｉｓｋｉ，ＦａｂｉaｎＥｓｑｕｅｄａ，ａｎｄＶｅｓａＶａｌｉｍａｋｉ．Ｔｉｍｅ－ｖａｒｉａｎｔｇｒａｙ－ｂｏｘｍｏｄ－ｅｌｉｎｇｏｆａｐｈａｓｅｒｐｅｄａｌ（フェイザーペダルの時変グレーボックスモデリング）．Ｉｎ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１６），２０１６．

【0376】

ＴａｅｊｕｎＫｉｍ，ＪｏｎｇｐｉｌＬｅｅ，ａｎｄＪｕｈａｎＮａｍ．Ｓａｍｐｌｅ－ｌｅｖｅｌＣＮＮａｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒｍｕｓｉｃａｕｔｏ－ｔａｇｇｉｎｇｕｓｉｎｇｒａｗｗａｖｅｆｏｒｍｓ（生の波形を使用した音楽の自動タグ付けのためのサンプルレベルのＣＮＮアーキテクチャ）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，Ｓｐｅｅｃｈ，ａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１８．

【0377】

ＤｉｅｄｅｒｉｋＫｉｎｇｍａａｎｄＪｉｍｍｙＢａ．Ａｄａｍ：Ａｍｅｔｈｏｄｆｏｒｓｔｏｃｈａｓｔｉｃｏｐｔｉｍｉｚａｔｉｏｎ（確率的最適化の手法）．Ｉｎ３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ（ＩＣＬＲ），２０１５．

【0378】

ＤａｖｉｄＭＫｏｅｎｉｇ．Ｓｐｅｃｔｒａｌａｎａｌｙｓｉｓｏｆｍｕｓｉｃａｌｓｏｕｎｄｓｗｉｔｈｅｍｐｈａｓｉｓｏｎｔｈｅｐｉａｎｏ（ピアノに重点を置いた楽音のスペクトル分析）．ＯＵＰＯｘｆｏｒｄ，２０１４．

【0379】

ＦｉｌｉｐＫｏｒｚｅｎｉｏｗｓｋｉａｎｄＧｅｒｈａｒｄＷｉｄｍｅｒ．Ｆｅａｔｕｒｅｌｅａｒｎｉｎｇｆｏｒｃｈｏｒｄｒｅｃｏｇｎｉｔｉｏｎ：Ｔｈｅｄｅｅｐｃｈｒｏｍａｅｘｔｒａｃｔｏｒ（コード認識のための特徴学習：ディープクロマエクストラクタ）．Ｉｎ１７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ（ＩＳＭＩＲ），２０１６．

【0380】

ＯｌｉｖｅｒＫｒоｎｉｎｇ，ＫｒｉｓｔｊａｎＤｅｍｐｗｏｌｆ，ａｎｄＵｄｏＺоｌｚｅｒ．Ａｎａｌｙｓｉｓａｎｄｓｉｍｕｌａｔｉｏｎｏｆａｎａｎａｌｏｇｇｕｉｔａｒｃｏｍｐｒｅｓｓｏｒ（アナログギターコンプレッサーの解析とシミュレーション）．Ｉｎ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１１），２０１１．

【0381】

ＷａｌｔｅｒＫｕｈｌ．Ｔｈｅａｃｏｕｓｔｉｃａｌａｎｄｔｅｃｈｎｏｌｏｇｉｃａｌｐｒｏｐｅｒｔｉｅｓｏｆｔｈｅｒｅｖｅｒｂｅｒａｔｉｏｎｐｌａｔｅ（残響板の音響的および技術的特性）．Ｅ．Ｂ．Ｕ．Ｒｅｖｉｅｗ，４９，１９５８．

【0382】

ＹａｎｎＡＬｅＣｕｎ，ＬｅｏｎＢｏｔｔｏｕ，ＧｅｎｅｖｉｅｖｅＢＯｒｒ，ａｎｄＫｌａｕｓ－ＲｏｂｅｒｔＭｕｌｌｅｒ．Ｅｆｆｉｃｉｅｎｔｂａｃｋｐｒｏｐ（効率的なバックプロップ）．Ｎｅｕｒａｌｎｅｔｗｏｒｋｓ：Ｔｒｉｃｋｓｏｆｔｈｅｔｒａｄｅ，ｐａｇｅｓ９－４８，２０１２．

【0383】

ＨｏｎｇｌａｋＬｅｅ，ＰｅｔｅｒＰｈａｍ，ＹａｎＬａｒｇｍａｎ，ａｎｄＡｎｄｒｅｗＹＮｇ．Ｕｎｓｕｐｅｒｖｉｓｅｄｆｅａｔｕｒｅｌｅａｒｎｉｎｇｆｏｒａｕｄｉｏｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋｓ（畳み込みディープビリーフネットワークを使用したオーディオ分類のための教師なし特徴学習）．ＩｎＡｄｖａｎｃｅｓｉｎｎｅｕｒａｌｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓ，ｐａｇｅｓ１０９６－１１０４，２００９．

【0384】

ＪｏｎｇｐｉｌＬｅｅ，ＪｉｙｏｕｎｇＰａｒｋ，ＫｅｕｎｈｙｏｕｎｇＬｕｋｅＫｉｍ，ａｎｄＪｕｈａｎＮａｍ．ＳａｍｐｌｅＣＮＮ：Ｅｎｄ－ｔｏ－ｅｎｄｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｕｓｉｎｇｖｅｒｙｓｍａｌｌｆｉｌｔｅｒｓｆｏｒｍｕｓｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎ（ＳａｍｐｌｅＣＮＮ：音楽分類に非常に小さなフィルタを使用するエンドツーエンドの深層畳み込みニューラルネットワーク）．ＡｐｐｌｉｅｄＳｃｉｅｎｃｅｓ，８（１）：１５０，２０１８．

【0385】

ＫｅｕｎＳｕｐＬｅｅ，ＮｉｃｈｏｌａｓＪＢｒｙａｎ，ａｎｄＪｏｎａｔｈａｎＳＡｂｅｌ．Ａｐｐｒｏｘｉｍａｔｉｎｇｍｅａｓｕｒｅｄｒｅｖｅｒｂｅｒａｔｉｏｎｕｓｉｎｇａｈｙｂｒｉｄｆｉｘｅｄ／ｓｗｉｔｃｈｅｄｃｏｎｖｏｌｕｔｉｏｎｓｔｒｕｃｔｕｒｅ（ハイブリッド固定／切り替え畳み込み構造の使用による測定された残響の近似）Ｉｎ１３ｔｈＩｎ－ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１０），２０１０．

【0386】

ＴｅｃｋＹｉａｎＬｉｍ，ＲａｙｍｏｎｄＡＹｅｈ，ＹｉｊｉａＸｕ，ＭｉｎｈＮＤｏ，ａｎｄＭａｒｋＨａｓｅｇａｗａ－Ｊｏｈｎｓｏｎ．Ｔｉｍｅ－ｆｒｅｑｕｅｎｃｙｎｅｔｗｏｒｋｓｆｏｒａｕｄｉｏｓｕｐｅｒ－ｒｅｓｏｌｕｔｉｏｎ（オーディオ超解像のための時間－周波数ネットワーク）．ＩｎＩＥＥＥＩｎｔｅｒ－ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１８．

【0387】

ＺｈｅｎｇＭａ，ＪｏｓｈｕａＤＲｅｉｓｓ，ａｎｄＤａｗｎＡＡＢｌａｃｋ．Ｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆａｎｉｎｔｅｌｌｉｇｅｎｔｅｑｕａｌｉｚａｔｉｏｎｔｏｏｌｕｓｉｎｇｙｕｌｅ－ｗａｌｋｅｒｆｏｒｍｕｓｉｃｍｉｘｉｎｇａｎｄｍａｓｔｅｒｉｎｇ（音楽のミキシングとマスタリングにｙｕｌｅ－ｗａｌｋｅｒを使用したインテリジェントなイコライゼーションツールの実装）．Ｉｎ１３４ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２０１３．

【0388】

ＺｈｅｎｇＭａ，ＢｒｅｃｈｔＤｅＭａｎ，ＰｅｄｒｏＤＬＰｅｓｔａｎａ，ＤａｗｎＡＡＢｌａｃｋ，ａｎｄＪｏｓｈｕａＤＲｅｉｓｓ．Ｉｎｔｅｌｌｉｇｅｎｔｍｕｌｔｉｔｒａｃｋｄｙｎａｍｉｃｒａｎｇｅｃｏｍｐｒｅｓｓｉｏｎ（インテリジェントなマルチトラックダイナミックレンジ圧縮）．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，６３（６）：４１２－４２６，２０１５．

【0389】

ＪａｒｏｍiｒＭａｃａｋ．ＳｉｍｕｌａｔｉｏｎｏｆａｎａｌｏｇｆｌａｎｇｅｒｅｆｆｅｃｔｕｓｉｎｇＢＢＤｃｉｒｃｕｉｔ（ＢＢＤ回路を使用したアナログフランジャーエフェクトのシミュレーション）．Ｉｎ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１６），２０１６．

【0390】

ＪａｃｏｂＡＭａｄｄａｍｓ，ＳａｏｉｒｓｅＦｉｎｎ，ａｎｄＪｏｓｈｕａＤＲｅｉｓｓ．Ａｎａｕｔｏｎｏｍｏｕｓｍｅｔｈｏｄｆｏｒｍｕｌｔｉ－ｔｒａｃｋｄｙｎａｍｉｃｒａｎｇｅｃｏｍｐｒｅｓｓｉｏｎ（マルチトラックダイナミックレンジ圧縮の自律的な方法）．Ｉｎ１５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１２），２０１２．

【0391】

ＥＰＭａｔｔｈｅｗＤａｖｉｅｓａｎｄＳｅｂａｓｔｉａｎＢоｃｋ．Ｔｅｍｐｏｒａｌｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｍｕｓｉｃａｌａｕｄｉｏｂｅａｔｔｒａｃｋｉｎｇ（音楽オーディオビートトラッキング用の時間畳み込みネットワーク）．Ｉｎ２７ｔｈＩＥＥＥＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＥＵＳＩＰＣＯ），２０１９．

【0392】

ＤａｎｉｅｌＭａｔｚ，ＥｓｔｅｆａｎｉａＣａｎｏ，ａｎｄＪａｋｏｂＡｂｅｓｓｅｒ．Ｎｅｗｓｏｎｏｒｉｔｉｅｓｆｏｒｅａｒｌｙｊａｚｚｒｅｃｏｒｄｉｎｇｓｕｓｉｎｇｓｏｕｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎａｎｄａｕｔｏｍａｔｉｃｍｉｘｉｎｇｔｏｏｌｓ（音源分離と自動ミキシングツールを使用した、初期のジャズ録音の新しいソノリティー）．Ｉｎ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ（ＩＳＭＩＲ），２０１５．

【0393】

ＪｏｓｈＨＭｃＤｅｒｍｏｔｔａｎｄＥｅｒｏＰＳｉｍｏｎｃｅｌｌｉ．Ｓｏｕｎｄｔｅｘｔｕｒｅｐｅｒｃｅｐｔｉｏｎｖｉａｓｔａｔｉｓｔｉｃｓｏｆｔｈｅａｕｄｉｔｏｒｙｐｅｒｉｐｈｅｒｙ：ｅｖｉｄｅｎｃｅｆｒｏｍｓｏｕｎｄｓｙｎｔｈｅｓｉｓ（聴覚周辺の統計による音の質感の知覚：音の合成からの証拠）．Ｎｅｕｒｏｎ，７１，２０１１．

【0394】

ＭａｒｔｉｎＭｃＫｉｎｎｅｙａｎｄＪｅｒｏｅｎＢｒｅｅｂａａｒｔ．Ｆｅａｔｕｒｅｓｆｏｒａｕｄｉｏａｎｄｍｕｓｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎ（オーディオと音楽の分類のための特徴）．Ｉｎ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＣｏｎｆｅｒｅｎｃｅ（ＩＳＭＩＲ），２００３．

【0395】

ＳｏｒｏｕｓｈＭｅｈｒｉ，ＫｕｎｄａｎＫｕｍａｒ，ＩｓｈａａｎＧｕｌｒａｊａｎｉ，ＲｉｔｈｅｓｈＫｕｍａｒ，ＳｈｕｂｈａｍＪａｉｎ，ＪｏｓｅＳｏｔｅｌｏ，ＡａｒｏｎＣｏｕｒｖｉｌｌｅ，ａｎｄＹｏｓｈｕａＢｅｎｇｉｏ．ＳａｍｐｌｅＲＮＮ：Ａｎｕｎｃｏｎｄｉ－ｔｉｏｎａｌｅｎｄ－ｔｏ－ｅｎｄｎｅｕｒａｌａｕｄｉｏｇｅｎｅｒａｔｉｏｎｍｏｄｅｌ（ＳａｍｐｌｅＲＮＮ：無条件のエンドツーエンドのニューラルオーディオ生成モデル）．Ｉｎ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＬｅａｒｎｉｎｇＲｅｐｒｅｓｅｎｔａｔｉｏｎｓ．ＩＣＬＲ，２０１７．

【0396】

ＳｔｙｌｉａｎｏｓＩＭｉｍｉｌａｋｉｓ，ＫｏｎｓｔａｎｔｉｎｏｓＤｒｏｓｓｏｓ，ＡｎｄｒｅａｓＦｌｏｒｏｓ，ａｎｄＤｉｏｎｙｓｉｏｓＫａｔｅｒｅｌｏｓ．Ａｕｔｏｍａｔｅｄｔｏｎａｌｂａｌａｎｃｅｅｎｈａｎｃｅｍｅｎｔｆｏｒａｕｄｉｏｍａｓｔｅｒｉｎｇａｐｐｌｉｃａｔｉｏｎｓ（オーディオマスタリングアプリケーション向けの自動トーンバランス強化）．Ｉｎ１３４ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２０１３．

【0397】

ＳｔｙｌｉａｎｏｓＩＭｉｍｉｌａｋｉｓ，ＫｏｎｓｔａｎｔｉｎｏｓＤｒｏｓｓｏｓ，ＴｕｏｍａｓＶｉｒｔａｎｅｎ，ａｎｄＧｅｒａｌｄＳｃｈｕｌｌｅｒ．Ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｄｙｎａｍｉｃｒａｎｇｅｃｏｍｐｒｅｓｓｉｏｎｉｎｍａｓｔｅｒｉｎｇａｐｐｌｉｃａｔｉｏｎｓ（マスタリングアプリケーションでのダイナミックレンジ圧縮のためのディープニューラルネットワーク）．Ｉｎ１４０ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２０１６．

【0398】

ＳｔｅｐｈａｎＭоｌｌｅｒ，ＭａｒｔｉｎＧｒｏｍｏｗｓｋｉ，ａｎｄＵｄｏＺоｌｚｅｒ．Ａｍｅａｓｕｒｅｍｅｎｔｔｅｃｈｎｉｑｕｅｆｏｒｈｉｇｈｌｙｎｏｎｌｉｎｅａｒｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｓ（非線形性の高い伝達関数の測定手法）．Ｉｎ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－０２），２００２．

【0399】

ＢｒｉａｎＣＪＭｏｏｒｅ．Ａｎｉｎｔｒｏｄｕｃｔｉｏｎｔｏｔｈｅｐｓｙｃｈｏｌｏｇｙｏｆｈｅａｒｉｎｇ（聴覚の心理学の紹介）．Ｂｒｉｌｌ，２０１２

【0400】

ＪａｍｅｓＡＭｏｏｒｅｒ．Ａｂｏｕｔｔｈｉｓｒｅｖｅｒｂｅｒａｔｉｏｎｂｕｓｉｎｅｓｓ（この残響事業について）．Ｃｏｍｐｕｔｅｒｍｕｓｉｃｊｏｕｒｎａｌ，ｐａｇｅｓ１３－２８，１９７９．

【0401】

ＭＮａｒａｓｉｍｈａａｎｄＡＰｅｔｅｒｓｏｎ．Ｏｎｔｈｅｃｏｍｐｕｔａｔｉｏｎｏｆｔｈｅｄｉｓｃｒｅｔｅｃｏｓｉｎｅｔｒａｎｓｆｏｒｍ（離散コサイン変換の計算について）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２６（６）：９３４-９３６，１９７８．

【0402】

ＡａｒｏｎｖａｎｄｅｎＯｏｒｄ，ＳａｎｄｅｒＤｉｅｌｅｍａｎ，ＨｅｉｇａＺｅｎ，ＫａｒｅｎＳｉｍｏｎｙａｎ，ＯｒｉｏｌＶｉｎｙａｌｓ，ＡｌｅｘＧｒａｖｅｓ，ＮａｌＫａｌｃｈｂｒｅｎｎｅｒ，ＡｎｄｒｅｗＳｅｎｉｏｒ，ａｎｄＫｏｒａｙＫａｖｕｋｃｕｏｇｌｕ．Ｗａｖｅｎｅｔ：Ａｇｅｎｅｒａｔｉｖｅｍｏｄｅｌｆｏｒｒａｗａｕｄｉｏ（Ｗａｖｅｎｅｔ：生のオーディオ信号の生成モデル）．ＩｎＣｏＲＲａｂｓ／１６０９．０３４９９，２０１６．

【0403】

ＪｙｒｉＰａｋａｒｉｎｅｎａｎｄＤａｖｉｄＴＹｅｈ．Ａｒｅｖｉｅｗｏｆｄｉｇｉｔａｌｔｅｃｈｎｉｑｕｅｓｆｏｒｍｏｄｅｌｉｎｇｖａｃｕｕｍ－ｔｕｂｅｇｕｉｔａｒａｍｐｌｉｆｉｅｒｓ（真空管ギターアンプをモデリングするためのデジタル技術のレビュー）．ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ，３３（２）：８５－１００，２００９．

【0404】

ＢｒｙａｎＰａｒｄｏ，ＤａｖｉｄＬｉｔｔｌｅ，ａｎｄＤａｒｒｅｎＧｅｒｇｌｅ．Ｂｕｉｌｄｉｎｇａｐｅｒｓｏｎａｌｉｚｅｄａｕｄｉｏｅｑｕａｌｉｚｅｒｉｎｔｅｒｆａｃｅｗｉｔｈｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇａｎｄａｃｔｉｖｅｌｅａｒｎｉｎｇ（転移学習と能動学習を用いた、パーソナライズされたオーディオイコライザーインターフェイスの構築）．Ｉｎ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＷｏｒｋｓｈｏｐｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌｗｉｔｈＵｓｅｒ－ＣｅｎｔｅｒｅｄａｎｄＭｕｌｔｉｍｏｄａｌＳｔｒａｔｅｇｉｅｓ，２０１２．

【0405】

ＪｕｌｉａｎＰａｒｋｅｒ．Ｅｆｆｉｃｉｅｎｔｄｉｓｐｅｒｓｉｏｎｇｅｎｅｒａｔｉｏｎｓｔｒｕｃｔｕｒｅｓｆｏｒｓｐｒｉｎｇｒｅｖｅｒｂｅｍｕｌａｔｉｏｎ（スプリングリバーブエミュレーション用の効率的な分散生成構造）．ＥＵＲＡＳＩＰＪｏｕｒｎａｌｏｎＡｄｖａｎｃｅｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，２０１１ａ．

【0406】

ＪｕｌｉａｎＰａｒｋｅｒ．Ａｓｉｍｐｌｅｄｉｇｉｔａｌｍｏｄｅｌｏｆｔｈｅｄｉｏｄｅ－ｂａｓｅｄｒｉｎｇ－ｍｏｄｕｌａｔｏｒ（ダイオードベースのリングモジュレータの単純なデジタルモデル）．Ｉｎ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１１），２０１１ｂ．

【0407】

ＪｕｌｉａｎＰａｒｋｅｒａｎｄＳｔｅｆａｎＢｉｌｂａｏ．Ｓｐｒｉｎｇｒｅｖｅｒｂｅｒａｔｉｏｎ：Ａｐｈｙｓｉｃａｌｐｅｒｓｐｅｃｔｉｖｅ（スプリングリバーブ：物理的な視点）．Ｉｎ１２ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－０９），２００９．

【0408】

ＪｕｌｉａｎＰａｒｋｅｒａｎｄＦａｂｉａｎＥｓｑｕｅｄａ．Ｍｏｄｅｌｌｉｎｇｏｆｎｏｎｌｉｎｅａｒｓｔａｔｅ－ｓｐａｃｅｓｙｓｔｅｍｓｕｓｉｎｇａｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ（ディープニューラルネットワークを使用した非線形状態空間システムのモデリング）．Ｉｎ２２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１９），２０１９．

【0409】

ＲａｚｖａｎＰａｓｃａｎｕ，ＴｏｍａｓＭｉｋｏｌｏｖ，ａｎｄＹｏｓｈｕａＢｅｎｇｉｏ．Ｏｎｔｈｅｄｉｆｆｉｃｕｌｔｙｏｆｔｒａｉｎｉｎｇｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ（再帰型ニューラルネットワークの訓練の難しさについて）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０１３．

【0410】

ＲｏｙＤＰａｔｔｅｒｓｏｎ．Ａｕｄｉｔｏｒｙｆｉｌｔｅｒｓａｎｄｅｘｃｉｔａｔｉｏｎｐａｔｔｅｒｎｓａｓｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｏｆｆｒｅｑｕｅｎｃｙｒｅｓｏｌｕｔｉｏｎ（周波数分解能の表現としての聴覚フィルタと興奮パターン）．Ｆｒｅｑｕｅｎｃｙｓｅｌｅｃｔｉｖｉｔｙｉｎｈｅａｒｉｎｇ，１９８６．

【0411】

ＪｕｓｓｉＰｅｋｏｎｅｎ，ＴａｐａｎｉＰｉｈｌａｊａｍａｋｉ，ａｎｄＶｅｓａＶａｌｉｍａｋｉ．Ｃｏｍｐｕｔａｔｉｏｎａｌｌｙｅｆｆｉｃｉｅｎｔｈａｍｍｏｎｄｏｒｇａｎｓｙｎｔｈｅｓｉｓ（計算効率の高いハモンドオルガン合成）．Ｉｎ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１１），２０１１．

【0412】

ＥｎｒｉｑｕｅＰｅｒｅｚ－ＧｏｎｚａｌｅｚａｎｄＪｏｓｈｕａＤ．Ｒｅｉｓｓ．Ａｕｔｏｍａｔｉｃｅｑｕａｌｉｚａｔｉｏｎｏｆｍｕｌｔｉ－ｃｈａｎｎｅｌａｕｄｉｏｕｓｉｎｇｃｒｏｓｓ－ａｄａｐｔｉｖｅｍｅｔｈｏｄｓ（クロスアダプティブ方式を使用したマルチチャネルオーディオの自動イコライゼーション）．Ｉｎ１２７ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２００９．

【0413】

ＥｎｒｉｑｕｅＰｅｒｅｚ－ＧｏｎｚａｌｅｚａｎｄＪｏｓｈｕａＤＲｅｉｓｓ．Ａｕｔｏｍａｔｉｃｍｉｘｉｎｇ．ＤＡＦＸ：ＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（自動ミキシング。ＤＡＦＸ：デジタルオーディオエフェクト），ＳｅｃｏｎｄＥｄｉｔｉｏｎ，ｐａｇｅｓ５２３－５４９，２０１１．

【0414】

ＰｅｄｒｏＤｕａｒｔｅＬｅａｌＧｏｍｅｓＰｅｓｔａｎａ．Ａｕｔｏｍａｔｉｃｍｉｘｉｎｇｓｙｓｔｅｍｓｕｓｉｎｇａｄａｐｔｉｖｅｄｉｇｉｔａｌａｕｄｉｏｅｆｆｅｃｔｓ（適応型デジタルオーディオエフェクトを使用した自動ミキシングシステム）．博士論文ＵｎｉｖｅｒｓｉｄａｄｅＣａｔоｌｉｃａＰｏｒｔｕｇｕｅｓａ，２０１３．

【0415】

ＧｅｏｒｇｅＭＰｈｉｌｌｉｐｓａｎｄＰｅｔｅｒＪＴａｙｌｏｒ．Ｔｈｅｏｒｙａｎｄａｐｐｌｉｃａｔｉｏｎｓｏｆｎｕｍｅｒｉｃａｌａｎａｌｙｓｉｓ（数値解析の理論と応用）．Ｅｌｓｅｖｉｅｒ，１９９６．

【0416】

ＪｏｒｄｉＰｏｎｓ，ＯｒｉｏｌＮｉｅｔｏ，ＭａｔｔｈｅｗＰｒｏｃｋｕｐ，ＥｒｉｋＳｃｈｍｉｄｔ，ＡｎｄｒｅａｓＥｈｍａｎｎ，ａｎｄＸａｖｉｅｒＳｅｒｒａ．Ｅｎｄ－ｔｏ－ｅｎｄｌｅａｒｎｉｎｇｆｏｒｍｕｓｉｃａｕｄｉｏｔａｇｇｉｎｇａｔｓｃａｌｅ（大規模な音楽オーディオのタグ付けのためのエンドツーエンドの学習）．Ｉｎ３１ｓｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，２０１７．

【0417】

ＭｉｌｌｅｒＰｕｃｋｅｔｔｅ．Ｔｈｅｔｈｅｏｒｙａｎｄｔｅｃｈｎｉｑｕｅｏｆｅｌｅｃｔｒｏｎｉｃｍｕｓｉｃ（電子音楽の理論とテクニック）．ＷｏｒｌｄＳｃｉｅｎｔｉｆｉｃＰｕｂ－ｌｉｓｈｉｎｇＣｏｍｐａｎｙ，２００７．

【0418】

ＣｏｌｉｎＲａｆｆｅｌａｎｄＪｕｌｉｕｓＯＳｍｉｔｈ．Ｐｒａｃｔｉｃａｌｍｏｄｅｌｉｎｇｏｆｂｕｃｋｅｔ－ｂｒｉｇａｄｅｄｅｖｉｃｅｃｉｒｃｕｉｔｓ（バケットブリゲードデバイス回路の実用的なモデリング）．Ｉｎ１３ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１０），２０１０．

【0419】

ＪｕｓｓｉＲａｍо ａｎｄＶｅｓａＶａｌｉｍａｋｉ．Ｎｅｕｒａｌｔｈｉｒｄ－ｏｃｔａｖｅｇｒａｐｈｉｃｅｑｕａｌｉｚｅｒ（ニューラル３オクターブグラフィックイコライザー）．Ｉｎ２２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１９），２０１９．

【0420】

ＤａｌｅＲｅｅｄ．Ａｐｅｒｃｅｐｔｕａｌａｓｓｉｓｔａｎｔｔｏｄｏｓｏｕｎｄｅｑｕａｌｉｚａｔｉｏｎ（サウンドイコライゼーションを行うための知覚アシスタント）．Ｉｎ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＵｓｅｒＩｎｔｅｒｆａｃｅｓ，ｐａｇｅｓ２１２－２１８．ＡＣＭ，２０００．

【0421】

ＪｏｓｈｕａＤＲｅｉｓｓａｎｄＡｎｄｒｅｗＭｃＰｈｅｒｓｏｎ．Ａｕｄｉｏｅｆｆｅｃｔｓ：ｔｈｅｏｒｙ，ｉｍｐｌｅｍｅｎｔａｔｉｏｎａｎｄａｐｐｌｉｃａｔｉｏｎ（オーディオエフェクト：理論、実装、および応用）．ＣＲＣＰｒｅｓｓ，２０１４．

【0422】

ＤａｒｉｏＲｅｔｈａｇｅ，ＪｏｒｄｉＰｏｎｓ，ａｎｄＸａｖｉｅｒＳｅｒｒａ．Ａｗａｖｅｎｅｔｆｏｒｓｐｅｅｃｈｄｅｎｏｉｓｉｎｇ（音声ノイズ除去用のｗａｖｅｎｅｔ）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１８．

【0423】

ＤａｖｉｄＲｏｎａｎ，ＺｈｅｎｇＭａ，ＰａｕｌＭｃＮａｍａｒａ，ＨａｔｉｃｅＧｕｎｅｓ，ａｎｄＪｏｓｈｕａＤＲｅｉｓｓ．Ａｕｔｏｍａｔｉｃｍｉｎｉｍｉｓａｔｉｏｎｏｆｍａｓｋｉｎｇｉｎｍｕｌｔｉｔｒａｃｋａｕｄｉｏｕｓｉｎｇｓｕｂｇｒｏｕｐｓ（サブグループを使用したマルチトラックオーディオのマスキングの自動最小化）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，２０１８．

【0424】

ＯｌａｆＲｏｎｎｅｂｅｒｇｅｒ，ＰｈｉｌｉｐｐＦｉｓｃｈｅｒ，ａｎｄＴｈｏｍａｓＢｒｏｘ．Ｕ－ｎｅｔ：Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔ－ｗｏｒｋｓｆｏｒｂｉｏｍｅｄｉｃａｌｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ（Ｕ－ｎｅｔ：生物医学画像セグメンテーションのための畳み込みネットワーク）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｅｄｉｃａｌＩｍａｇｅＣｏｍｐｕｔｉｎｇａｎｄＣｏｍｐｕｔｅｒ－ＡｓｓｉｓｔｅｄＩｎｔｅｒｖｅｎｔｉｏｎ，２０１５．

【0425】

ＰｅｒＲｕｂａｋａｎｄＬａｒｓＧＪｏｈａｎｓｅｎ．Ａｒｔｉｆｉｃｉａｌｒｅｖｅｒｂｅｒａｔｉｏｎｂａｓｅｄｏｎａｐｓｅｕｄｏ－ｒａｎｄｏｍｉｍｐｕｌｓｅｒｅｓｐｏｎｓｅＩＩ（疑似ランダムインパルス応答に基づく人工的な残響ＩＩ）．Ｉｎ１０６ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，１９９９．

【0426】

ＡｎｄｒｅｗＴＳａｂｉｎａｎｄＢｒｙａｎＰａｒｄｏ．Ａｍｅｔｈｏｄｆｏｒｒａｐｉｄｐｅｒｓｏｎａｌｉｚａｔｉｏｎｏｆａｕｄｉｏｅｑｕａｌｉｚａｔｉｏｎｐａｒａｍｅｔｅｒｓ（オーディオイコライゼーションパラメータを迅速にパーソナライズする方法）．Ｉｎ１７ｔｈＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ，２００９．

【0427】

ＪａｎＳｃｈｌuｔｅｒａｎｄＳｅｂａｓｔｉａｎＢоｃｋ．Ｍｕｓｉｃａｌｏｎｓｅｔｄｅｔｅｃｔｉｏｎｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ（畳み込みニューラルネットワークによる音楽開始検出）．Ｉｎ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＭｕｓｉｃ，２０１３．

【0428】

ＪａｎＳｃｈｌｕｔｅｒａｎｄＳｅｂａｓｔｉａｎＢоｃｋ．Ｉｍｐｒｏｖｅｄｍｕｓｉｃａｌｏｎｓｅｔｄｅｔｅｃｔｉｏｎｗｉｔｈｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ（畳み込みニューラルネットワークによる音楽開始検出の改善）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１４．

【0429】

ＴｈｏｍａｓＳｃｈｍｉｔｚａｎｄＪｅａｎ－ＪａｃｑｕｅｓＥｍｂｒｅｃｈｔｓ．Ｎｏｎｌｉｎｅａｒｒｅａｌ－ｔｉｍｅｅｍｕｌａｔｉｏｎｏｆａｔｕｂｅａｍｐｌｉｆｉｅｒｗｉｔｈａｌｏｎｇｓｈｏｒｔｔｉｍｅｍｅｍｏｒｙｎｅｕｒａｌ－ｎｅｔｗｏｒｋ（長短期記憶ニューラルネットワークを使用した真空管アンプの非線形リアルタイムエミュレーション）．Ｉｎ１４４ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２０１８．

【0430】

ＭａｎｆｒｅｄＲＳｃｈｒｏｅｄｅｒａｎｄＢｅｎｊａｍｉｎＦＬｏｇａｎ． “Ｃｏｌｏｒｌｅｓｓ” ａｒｔｉｆｉｃｉａｌｒｅｖｅｒｂｅｒａｔｉｏｎ（「無色」の人工的な残響）．ＩＲＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，（６）：２０９－２１４，１９６１．

【0431】

ＭｉｋｅＳｃｈｕｓｔｅｒａｎｄＫｕｌｄｉｐＫＰａｌｉｗａｌ．Ｂｉｄｉｒｅｃｔｉｏｎａｌｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ（双方向再帰型ニューラルネットワーク）．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，４５（１１）：２６７３－２６８１，１９９７．

【0432】

ＤｉＳｈｅｎｇａｎｄＧｙоｒｇｙＦａｚｅｋａｓ．Ａｕｔｏｍａｔｉｃｃｏｎｔｒｏｌｏｆｔｈｅｄｙｎａｍｉｃｒａｎｇｅｃｏｍ－ｐｒｅｓｓｏｒｕｓｉｎｇａｒｅｇｒｅｓｓｉｏｎｍｏｄｅｌａｎｄａｒｅｆｅｒｅｎｃｅｓｏｕｎｄ（回帰モデルと参照音を使用したダイナミックレンジコンプレッサの自動制御）．Ｉｎ２０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１７），２０１７．

【0433】

ＤｉＳｈｅｎｇａｎｄＧｙоｒｇｙＦａｚｅｋａｓ．Ａｆｅａｔｕｒｅｌｅａｒｎｉｎｇｓｉａｍｅｓｅｍｏｄｅｌｆｏｒｉｎｔｅｌｌｉｇｅｎｔｃｏｎｔｒｏｌｏｆｔｈｅｄｙｎａｍｉｃｒａｎｇｅｃｏｍｐｒｅｓｓｏｒ（ダイナミックレンジコンプレッサをインテリジェントに制御するための特徴学習シャムモデル）．ＩｎＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＩＪＣＮＮ），２０１９．

【0434】

ＳｉｄｄｈａｒｔｈＳｉｇｔｉａａｎｄＳｉｍｏｎＤｉｘｏｎ．Ｉｍｐｒｏｖｅｄｍｕｓｉｃｆｅａｔｕｒｅｌｅａｒｎｉｎｇｗｉｔｈｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ（ディープニューラルネットワークによる音楽特徴学習の改善）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１４．

【0435】

ＳｉｄｄｈａｒｔｈＳｉｇｔｉａ，ＥｍｍａｎｏｕｉｌＢｅｎｅｔｏｓ，ＮｉｃｏｌａｓＢｏｕｌａｎｇｅｒ－Ｌｅｗａｎｄｏｗｓｋｉ，ＴｉｌｌｍａｎＷｅｙｄｅ，ＡｒｔｕｒＳｄ’ＡｖｉｌａＧａｒｃｅｚ，ａｎｄＳｉｍｏｎＤｉｘｏｎ．Ａｈｙｂｒｉｄｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｍｕｓｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ（音楽の編曲のためのハイブリッド再帰型ニューラルネットワーク）．ＩｎＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎａｃｏｕｓｔｉｃｓ，ｓｐｅｅｃｈａｎｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１５．

【0436】

ＳｉｄｄｈａｒｔｈＳｉｇｔｉａ，ＥｍｍａｎｏｕｉｌＢｅｎｅｔｏｓ，ａｎｄＳｉｍｏｎＤｉｘｏｎ．Ａｎｅｎｄ－ｔｏ－ｅｎｄｎｅｕｒａｌｎｅｔｗｏｒｋｆｏｒｐｏｌｙｐｈｏｎｉｃｐｉａｎｏｍｕｓｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ（ポリフォニックピアノ音楽の編曲用のエンドツーエンドのニューラルネットワーク）．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２４（５）：９２７－９３９，２０１６．

【0437】

ＪｕｌｉｕｓＯＳｍｉｔｈ．Ｉｎｔｒｏｄｕｃｔｉｏｎｔｏｄｉｇｉｔａｌｆｉｌｔｅｒｓ：ｗｉｔｈａｕｄｉｏａｐｐｌｉｃａｔｉｏｎｓ（デジタルフィルタの紹介：オーディオアプリケーションにおいて），ｖｏｌｕｍｅ２．Ｗ３ＫＰｕｂｌｉｓｈｉｎｇ，２００７．

【0438】

ＪｕｌｉｕｓＯＳｍｉｔｈ．Ｐｈｙｓｉｃａｌａｕｄｉｏｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ：Ｆｏｒｖｉｒｔｕａｌｍｕｓｉｃａｌｉｎｓｔｒｕｍｅｎｔｓａｎｄａｕｄｉｏｅｆｆｅｃｔｓ（物理オーディオ信号処理：仮想楽器およびオーディオエフェクト用）．Ｗ３ＫＰｕｂｌｉｓｈｉｎｇ，２０１０．

【0439】

ＪｕｌｉｕｓＯＳｍｉｔｈａｎｄＪｏｎａｔｈａｎＳＡｂｅｌ．ＢａｒｋａｎｄＥＲＢｂｉｌｉｎｅａｒｔｒａｎｓｆｏｒｍｓ（ＢａｒｋａｎｄＥＲＢ双一次変換）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓｉｎｇ，７（６）：６９７－７０８，１９９９．

【0440】

ＪｕｌｉｕｓＯＳｍｉｔｈ，ＳｔｅｆａｎｉａＳｅｒａｆｉｎ，ＪｏｎａｔｈａｎＡｂｅｌ，ａｎｄＤａｖｉｄＢｅｒｎｅｒｓ．Ｄｏｐｐｌｅｒｓｉｍｕｌａｔｉｏｎａｎｄｔｈｅｌｅｓｌｉｅ（ドップラーシミュレーションとレスリー）．Ｉｎ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－０２），２００２．

【0441】

ＭｉｒｋｏＳｏｌａｚｚｉａｎｄＡｕｒｅｌｉｏＵｎｃｉｎｉ．Ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｗｉｔｈａｄａｐｔｉｖｅｍｕｌｔｉ－ｄｉｍｅｎｓｉｏｎａｌｓｐｌｉｎｅａｃｔｉｖａｔｉｏｎｆｕｎｃｔｉｏｎｓ（適応型多次元スプライン活性化関数を備えた人工ニューラルネットワーク）．ＩｎＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＩＪＣＮＮ），２０００．

【0442】

ＭｉｃｈａｅｌＳｔｅｉｎ，ＪａｋｏｂＡｂｅｓｓｅｒ，ＣｈｒｉｓｔｉａｎＤｉｔｔｍａｒ，ａｎｄＧｅｒａｌｄＳｃｈｕｌｌｅｒ．Ａｕｔｏｍａｔｉｃｄｅｔｅｃｔｉｏｎｏｆａｕｄｉｏｅｆｆｅｃｔｓｉｎｇｕｉｔａｒａｎｄｂａｓｓｒｅｃｏｒｄｉｎｇｓ（ギターとベースの録音におけるオーディオエフェクトの自動検出）．Ｉｎ１２８ｔｈＡｕｄｉｏＥｎｇｉｎｅｅｒ－ｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ，２０１０．

【0443】

ＫａｒｌＳｔｅｉｎｂｅｒｇ．Ｓｔｅｉｎｂｅｒｇｖｉｒｔｕａｌｓｔｕｄｉｏｔｅｃｈｎｏｌｏｇｙ（ＶＳＴ）ｐｌｕｇ－ｉｎｓｐｅｃｉｆｉｃａｔｉｏｎ２．０ｓｏｆｔｗａｒｅｄｅｖｅｌｏｐｍｅｎｔｋｉｔ（Ｓｔｅｉｎｂｅｒｇｖｉｒｔｕａｌｓｔｕｄｉｏｔｅｃｈｎｏｌｏｇｙ（ＶＳＴ）プラグイン仕様２．０ソフトウェア開発キット）．Ｈａｍｂｕｒｇ：ＳｔｅｉｎｂｅｒｇＳｏｆｔ－ｕｎｄＨａｒｄｗａｒｅＧＭＢＨ，１９９９．

【0444】

ＤａｎＳｔｏｗｅｌｌａｎｄＭａｒｋＤＰｌｕｍｂｌｅｙ．Ａｕｔｏｍａｔｉｃｌａｒｇｅ－ｓｃａｌｅｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｂｉｒｄｓｏｕｎｄｓｉｓｓｔｒｏｎｇｌｙｉｍｐｒｏｖｅｄｂｙｕｎｓｕｐｅｒｖｉｓｅｄｆｅａｔｕｒｅｌｅａｒｎｉｎｇ（鳥の鳴き声の自動大規模分類は、教師なし特徴学習によって大幅に改善される）．ＰｅｅｒＪ，２：ｅ４８８，２０１４．

【0445】

ＢｏｂＬＳｔｕｒｍ，ＪｏａｏＦｅｌｉｐｅＳａｎｔｏｓ，ＯｄｅｄＢｅｎ－Ｔａｌ，ａｎｄＩｒｙｎａＫｏｒｓｈｕｎｏｖａ．Ｍｕｓｉｃｔｒａｎｓｃｒｉｐｔｉｏｎｍｏｄｅｌｌｉｎｇａｎｄｃｏｍｐｏｓｉｔｉｏｎｕｓｉｎｇｄｅｅｐｌｅａｒｎｉｎｇ（ディープラーニングを使用した音楽の編曲モデリングと作曲）．Ｉｎ１ｓｔＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＳｉｍｕｌａｔｉｏｎｏｆＭｕｓｉｃａｌＣｒｅａｔｉｖｉｔｙ，２０１６．

【0446】

ＳｏｍｓａｋＳｕｋｉｔｔａｎｏｎ，ＬｅｓＥＡｔｌａｓ，ａｎｄＪａｍｅｓＷＰｉｔｔｏｎ．Ｍｏｄｕｌａｔｉｏｎ－ｓｃａｌｅａｎａｌｙｓｉｓｆｏｒｃｏｎｔｅｎｔｉｄｅｎｔｉｆｉｃａｔｉｏｎ（コンテンツ識別のためのモジュレーションスケール分析）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，５２，２００４．

【0447】

ＴｉｊｍｅｎＴｉｅｌｅｍａｎａｎｄＧｅｏｆｆｒｅｙＨｉｎｔｏｎ．ＲＭＳｐｒｏｐ：Ｄｉｖｉｄｅｔｈｅｇｒａｄｉｅｎｔｂｙａｒｕｎｎｉｎｇａｖｅｒａｇｅｏｆｉｔｓｒｅｃｅｎｔｍａｇｎｉｔｕｄｅ（ＲＭＳｐｒｏｐ：勾配をその最近の大きさの移動平均で割る）．ＣＯＵＲＳＥＲＡ：Ｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，４（２）：２６－３１，２０１２．

【0448】

ＡｕｒｅｌｉｏＵｎｃｉｎｉ．Ａｕｄｉｏｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｂｙｎｅｕｒａｌｎｅｔｗｏｒｋｓ（ニューラルネットワークによるオーディオ信号処理）．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，５５（３－４）：５９３－６２５，２００３．

【0449】

ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ．ＲｅｃｏｍｍｅｎｄａｔｉｏｎＩＴＵ－ＲＢＳ．１５３４－１：Ｍｅｔｈｏｄｆｏｒｔｈｅｓｕｂｊｅｃｔｉｖｅａｓｓｅｓｓｍｅｎｔｏｆｉｎｔｅｒｍｅｄｉａｔｅｑｕａｌｉｔｙｌｅｖｅｌｏｆｃｏｄｉｎｇｓｙｓｔｅｍｓ（符号化システムの中間品質レベルの主観的評価方法）．２００３．

【0450】

ＶｅｓａＶａｌｉｍａｋｉａｎｄＪｏｓｈｕａＤ．Ｒｅｉｓｓ．Ａｌｌａｂｏｕｔａｕｄｉｏｅｑｕａｌｉｚａｔｉｏｎ：Ｓｏｌｕｔｉｏｎｓａｎｄｆｒｏｎｔｉｅｒｓ（オーディオイコライゼーションのすべて：ソリューションとフロンティア）．ＡｐｐｌｉｅｄＳｃｉｅｎｃｅｓ，６（５）：１２９，２０１６．

【0451】

ＶｅｓａＶａｌｉｍａｋｉ，ＪｕｌｉａｎＰａｒｋｅｒ，ａｎｄＪｏｎａｔｈａｎＳＡｂｅｌ．Ｐａｒａｍｅｔｒｉｃｓｐｒｉｎｇｒｅｖｅｒｂｅｒａｔｉｏｎｅｆｆｅｃｔ（パラメトリックスプリングリバーブエフェクト）．ＪｏｕｒｎａｌｏｆｔｈｅＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙ，５８（７／８）：５４７－５６２，２０１０．

【0452】

ＶｅｓａＶａｌｉｍａｋｉ，ＪｕｌｉａｎＤＰａｒｋｅｒ，ＬａｕｒｉＳａｖｉｏｊａ，ＪｕｌｉｕｓＯＳｍｉｔｈ，ａｎｄＪｏｎａｔｈａｎＳＡｂｅｌ．Ｆｉｆｔｙｙｅａｒｓｏｆａｒｔｉｆｉｃｉａｌｒｅｖｅｒｂｅｒａｔｉｏｎ（人工的な残響の５０年）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２０（５）：１４２１-１４４８，２０１２．

【0453】

ＡａｒｏｎＶａｎｄｅｎＯｏｒｄ，ＳａｎｄｅｒＤｉｅｌｅｍａｎ，ａｎｄＢｅｎｊａｍｉｎＳｃｈｒａｕｗｅｎ．Ｄｅｅｐｃｏｎｔｅｎｔ－ｂａｓｅｄｍｕｓｉｃｒｅｃｏｍｍｅｎｄａｔｉｏｎ（深いコンテンツベースの音楽レコメンデーション）．ＩｎＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓ－ｔｅｍｓ，ｐａｇｅｓ２６４３-２６５１，２０１３．

【0454】

ＳｈｒｉｋａｎｔＶｅｎｋａｔａｒａｍａｎｉ，ＪｏｎａｈＣａｓｅｂｅｅｒ，ａｎｄＰａｒｉｓＳｍａｒａｇｄｉｓ．Ａｄａｐｔｉｖｅｆｒｏｎｔ－ｅｎｄｓｆｏｒｅｎｄ－ｔｏ－ｅｎｄｓｏｕｒｃｅｓｅｐａｒａｔｉｏｎ（エンドツーエンドのソース分離のための適応型フロントエンド）．Ｉｎ３１ｓｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ，２０１７．

【0455】

ＶｉｎｃｅｎｔＶｅｒｆａｉｌｌｅ，Ｕ．Ｚоｌｚｅｒ，ａｎｄＤａｎｉｅｌＡｒｆｉｂ．Ａｄａｐｔｉｖｅｄｉｇｉｔａｌａｕｄｉｏｅｆｆｅｃｔｓ（Ａ－ＤＡＦｘ）：Ａｎｅｗｃｌａｓｓｏｆｓｏｕｎｄｔｒａｎｓｆｏｒｍａｔｉｏｎｓ（適応型デジタルオーディオエフェクト（Ａ－ＤＡＦｘ）：新しいクラスのサウンド変換）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，ＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，１４（５）：１８１７－１８３１，２００６．

【0456】

ＸｉｎｘｉＷａｎｇａｎｄＹｅＷａｎｇ．Ｉｍｐｒｏｖｉｎｇｃｏｎｔｅｎｔ－ｂａｓｅｄａｎｄｈｙｂｒｉｄｍｕｓｉｃｒｅｃｏｍｍｅｎｄａｔｉｏｎｕｓｉｎｇｄｅｅｐｌｅａｒｎｉｎｇ（ディープラーニングを使用した、コンテンツベースおよびハイブリッドの音楽レコメンデーションの改善）．Ｉｎ２２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａ，ｐａｇｅｓ６２７－６３６．ＡＣＭ，２０１４．

【0457】

ＫｕｒｔＪＷｅｒｎｅｒ，ＷＲｏｓｓＤｕｎｋｅｌ，ａｎｄＦｒａｎcｏｉｓＧＧｅｒｍａｉｎ．Ａｃｏｍｐｕｔａｔｉｏｎａｌｍｏｄｅｌｏｆｔｈｅｈａｍｍｏｎｄｏｒｇａｎｖｉｂｒａｔｏ／ｃｈｏｒｕｓｕｓｉｎｇｗａｖｅｄｉｇｉｔａｌｆｉｌｔｅｒｓ（ウェーブデジタルフィルタを使用したハモンドオルガンのビブラート／コーラスの計算モデル）．Ｉｎ１９ｔｈＩｎｔｅｒ－ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１６），２０１６．

【0458】

ＳｉｌｖｉｎＷｉｌｌｅｍｓｅｎ，ＳｔｅｆａｎｉａＳｅｒａｆｉｎ，ａｎｄＪｅｓｐｅｒＲＪｅｎｓｅｎ．Ｖｉｒｔｕａｌａｎａｌｏｇｓｉｍｕｌａｔｉｏｎａｎｄｅｘｔｅｎｓｉｏｎｓｏｆｐｌａｔｅｒｅｖｅｒｂｅｒａｔｉｏｎ（仮想アナログシミュレーションとプレートリバーブの拡張）．Ｉｎ１４ｔｈＳｏｕｎｄａｎｄＭｕｓｉｃＣｏｍｐｕｔｉｎｇＣｏｎｆｅｒｅｎｃｅ，２０１７．

【0459】

ＡｌｅｃＷｒｉｇｈｔ，Ｅｅｒｏ－ＰｅｋｋａＤａｍｓｋａｇｇ，ａｎｄＶｅｓａＶａｌｉｍａｋｉ．Ｒｅａｌ－ｔｉｍｅｂｌａｃｋ－ｂｏｘｍｏｄｅｌｌｉｎｇｗｉｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ（再帰型ニューラルネットワークを使用したリアルタイムのブラックボックスモデリング）．Ｉｎ２２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－１９），２０１９．

【0460】

ＤａｖｉｄＴＹｅｈ．Ａｕｔｏｍａｔｅｄｐｈｙｓｉｃａｌｍｏｄｅｌｉｎｇｏｆｎｏｎｌｉｎｅａｒａｕｄｉｏｃｉｒｃｕｉｔｓｆｏｒｒｅａｌ－ｔｉｍｅａｕｄｉｏｅｆｆｅｃｔｓｐａｒｔＩＩ：ＢＪＴａｎｄｖａｃｕｕｍｔｕｂｅｅｘａｍｐｌｅｓ（リアルタイムオーディオエフェクトのための非線形オーディオ回路の自動物理モデリングパートＩＩ：ＢＪＴと真空管の例）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，２０，２０１２．

【0461】

ＤａｖｉｄＴＹｅｈａｎｄＪｕｌｉｕｓＯＳｍｉｔｈ．Ｓｉｍｕｌａｔｉｎｇｇｕｉｔａｒｄｉｓｔｏｒｔｉｏｎｃｉｒｃｕｉｔｓｕｓｉｎｇｗａｖｅｄｉｇｉｔａｌａｎｄｎｏｎｌｉｎｅａｒｓｔａｔｅ－ｓｐａｃｅｆｏｒｍｕｌａｔｉｏｎｓ（ウェーブデジタルおよび非線形状態空間定式化を使用したギター歪み回路のシミュレーション）．Ｉｎ１１ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＡｕｄｉｏＥｆｆｅｃｔｓ（ＤＡＦｘ－０８），２００８．

【0462】

ＤａｖｉｄＴＹｅｈ，ＪｏｎａｔｈａｎＳＡｂｅｌ，ＡｎｄｒｅｉＶｌａｄｉｍｉｒｅｓｃｕ，ａｎｄＪｕｌｉｕｓＯＳｍｉｔｈ．Ｎｕｍｅｒｉｃａｌｍｅｔｈｏｄｓｆｏｒｓｉｍｕｌａｔｉｏｎｏｆｇｕｉｔａｒｄｉｓｔｏｒｔｉｏｎｃｉｒｃｕｉｔｓ（ギター歪み回路のシミュレーションのための数値的方法）．ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ，３２（２）：２３－４２，２００８．

【0463】

ＤａｖｉｄＴＹｅｈ，ＪｏｎａｔｈａｎＳＡｂｅｌ，ａｎｄＪｕｌｉｕｓＯＳｍｉｔｈ．Ａｕｔｏｍａｔｅｄｐｈｙｓｉｃａｌｍｏｄｅｌｉｎｇｏｆｎｏｎｌｉｎｅａｒａｕｄｉｏｃｉｒｃｕｉｔｓｆｏｒｒｅａｌ－ｔｉｍｅａｕｄｉｏｅｆｆｅｃｔｓｐａｒｔＩ：Ｔｈｅｏｒｅｔｉｃａｌｄｅｖｅｌｏｐｍｅｎｔ（リアルタイムオーディオエフェクトのための非線形オーディオ回路の自動化された物理モデリングパートＩ：理論的開発）．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，１８（４）：７２８－７３７，２０１０．

【0464】

ＭａｔｔｈｅｗＤＺｅｉｌｅｒａｎｄＲｏｂＦｅｒｇｕｓ．Ｖｉｓｕａｌｉｚｉｎｇａｎｄｕｎｄｅｒｓｔａｎｄｉｎｇｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓ（畳み込みネットワークの視覚化と理解）．ＩｎＥｕｒｏｐｅａｎｃｏｎｆｅｒｅｎｃｅｏｎｃｏｍｐｕｔｅｒｖｉｓｉｏｎ．Ｓｐｒｉｎｇｅｒ，２０１４．

【0465】

ＺｈｉｃｈｅｎＺｈａｎｇ，ＥｄｗａｒｄＯｌｂｒｙｃｈ，ＪｏｓｅｐｈＢｒｕｃｈａｌｓｋｉ，ＴｈｏｍａｓＪＭｃＣｏｒｍｉｃｋ，ａｎｄＤａｖｉｄＬＬｉｖｉｎｇｓｔｏｎ．Ａｖａｃｕｕｍ－ｔｕｂｅｇｕｉｔａｒａｍｐｌｉｆｉｅｒｍｏｄｅｌｕｓｉｎｇｌｏｎｇ／ｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙｎｅｔｗｏｒｋｓ（長期／短期記憶ネットワークを使用した真空管ギターアンプモデル）．ＩｎＩＥＥＥＳｏｕｔｈｅａｓｔＣｏｎ，２０１８．

【0466】

ＵｄｏＺоｌｚｅｒ．ＤＡＦＸ：ｄｉｇｉｔａｌａｕｄｉｏｅｆｆｅｃｔｓ（デジタルオーディオエフェクト）．ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，２０１１．

【0467】

頭字語
ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（人工知能）
ＢＢＤ：ＢｕｃｋｅｔＢｒｉｇａｄｅＤｅｌａｙ（バケットブリゲードディレイ）
Ｂｉ－ＬＳＴＭ：ＢｉｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ（双方向長短期記憶）
ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ（畳み込みニューラルネットワーク）
ＣＡＦｘ：Ｃｏｎｖｏｌｕｔｉｏｎａｌａｕｄｉｏｅｆｆｅｃｔｓｍｏｄｅｌｉｎｇｎｅｔｗｏｒｋ（畳み込みオーディオエフェクトモデリングネットワーク）
ＣＥＱ：ＣｏｎｖｏｌｕｔｉｏｎａｌＥＱｍｏｄｅｌｉｎｇｎｅｔｗｏｒｋ（畳み込みＥＱモデリングネットワーク）
ＣＲＡＦｘ：ＣｏｎｖｏｌｕｔｉｏｎａｌＲｅｃｕｒｒｅｎｔａｕｄｉｏｅｆｆｅｃｔｓｍｏｄｅｌｉｎｇｎｅｔｗｏｒｋ（畳み込み再帰型オーディオエフェクトモデリングネットワーク
ＣＷＡＦｘ：ＣｏｎｖｏｌｕｔｉｏｎａｌａｎｄＷａｖｅＮｅｔａｕｄｉｏｅｆｆｅｃｔｓｍｏｄｅｌｉｎｇｎｅｔｗｏｒｋ（畳み込み・ＷａｖｅＮｅｔオーディオエフェクトモデリングネットワーク）
ＣＳＡＦｘ：ＣｏｎｖｏｌｕｔｉｏｎａｌＲｅｃｕｒｒｅｎｔＳｐａｒｓｅｆｉｌｔｅｒｉｎｇａｕｄｉｏｅｆｆｅｃｔｓｍｏｄｅｌｉｎｇｎｅｔｗｏｒｋ（畳み込み再帰型スパースフィルタリングオーディオエフェクトモデリングネットワーク）
ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（中央処理装置）
ｄＢＦＳ：ＤｅｃｉｂｅｌｓＲｅｌａｔｉｖｅｔｏＦｕｌｌＳｃａｌｅＤＣＴＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍＤＮＮＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ（ＤＮＮディープニューラルネットワークのＤＣＴ離散コサイン変換のフルスケールを基準としたデシベル）
ＤＲＣ；ＤｙｎａｍｉｃＲａｎｇｅＣｏｍｐｒｅｓｓｉｏｎ（ダイナミックレンジ圧縮）
ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（デジタル信号処理）
ＥＱ：Ｅｑｕａｌｉｚａｔｉｏｎ（イコライゼーション）
ＥＲＢ：ＥｑｕｉｖａｌｅｎｔＲｅｃｔａｎｇｕｌａｒＢａｎｄｗｉｄｔｈ（等価矩形帯域幅）
ＦＩＲ：ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ（有限インパルス応答）
ＦＣ：ＦｕｌｌｙＣｏｎｎｅｃｔｅｄ（全結合）
ＦＦＴ：ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ（高速フーリエ変換）
ＦＸ：Ｅｆｆｅｃｔｓ（エフェクト）
ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ（画像処理装置）
ＩＩＲ：ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ（無限インパルス応答）
ＪＦＥＴ：ＪｕｎｃｔｉｏｎＦｉｅｌｄＥｆｆｅｃｔＴｒａｎｓｉｓｔｏｒ（接合型電界効果トランジスタ）
ＫＬ：Ｋｕｌｌｂａｃｋ-Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ（カルバック・ライブラー情報量）
ＬＣ：ＬｏｃａｌｌｙＣｏｎｎｅｃｔｅｄ（局所結合）
ＴＩ：ＬｉｎｅａｒＴｉｍｅＩｎｖａｒｉａｎｔ（線形時不変）
ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ（長短期記憶）
ＭＡＥ：ＭｅａｎＡｂｓｏｌｕｔｅＥｒｒｏｒ（平均絶対誤差）
ＭＦＣＣ：Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ（メル周波数ケプストラム係数）
ＭＳＥ：ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ（平均二乗誤差）
ＯＴＡ：ＯｐｅｒａｔｉｏｎａｌＴｒａｎｓｃｏｎｄｕｃｔａｎｃｅＡｍｐｌｉｆｉｅｒ（オペレーショナルトランスコンダクタンスアンプ）
ＲｅＬＵ：ＲｅｃｔｉｆｉｅｒＬｉｎｅａｒＵｎｉｔ（整流線形ユニット）
ＲＮＮ：ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ（再帰型ニューラルネットワーク）
ＳＡＡＦ：ＳｍｏｏｔｈＡｄａｐｔｉｖｅＡｃｔｉｖａｔｉｏｎＦｕｎｃｔｉｏｎ（ＳｍｏｏｔｈＡｄａｐｔｉｖｅ活性化関数）
ＳＦＩＲ：ＳｐａｒｓｅＦＩＲ（スパースＦＩＲ）
ＳＧＤ：ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ（確率的勾配降下法）
ＳＴＦＴ：Ｓｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ（短時間フーリエ変換）
ＶＳＴ：ＶｉｒｔｕａｌＳｔｕｄｉｏＴｅｃｈｎｏｌｏｇｙ（バーチャルスタジオテクノロジー）
ＷａｖｅＮｅｔ：ＦｅｅｄｆｏｒｗａｒｄＷａｖｅｎｅｔａｕｄｉｏｅｆｆｅｃｔｓｍｏｄｅｌｉｎｇｎｅｔｗｏｒｋ（フィードフォワードＷａｖｅｎｅｔオーディオエフェクトモデリングネットワーク）
ＷＤＦ：ＷａｖｅＤｉｇｉｔａｌＦｉｌｔｅｒ（ウェーブデジタルフィルタ）

【0468】

付録Ａ－計算の複雑さ
計算処理時間は、ＴｉｔａｎＸＰのＧＰＵと、ＩｎｔｅｌＸｅｏｎＥ５－２６２０のＣＰＵで計算された。サイズ４０９６の入力フレームを使用し、ホップサイズ２０４８サンプルでサンプリングされ、これは、モデルが１つのバッチを処理するのにかかる時間（つまり、２秒間のオーディオサンプル内のフレームの総数）に対応する。ＧＰＵ時間とＣＰＵ時間は、非リアルタイム最適化Ｐｙｔｈｏｎ実装を使用して報告される。表Ａ．１は、すべてのモデルにわたる訓練可能なパラメータの数と処理時間を示している。

【0469】

【表A.1】