特表2023-547369 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2023-547369処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12-1
12-2

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-11-10

(54)【発明の名称】処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法

(51)【国際特許分類】

G10L 21/0208 20130101AFI20231102BHJP

G10L 25/30 20130101ALI20231102BHJP

【ＦＩ】

G10L21/0208 100Z

G10L25/30

【審査請求】有

【予備審査請求】有

(21)【出願番号】P 2023524273

(86)(22)【出願日】2021-05-06

(85)【翻訳文提出日】2023-06-16

(86)【国際出願番号】 EP2021062076

(87)【国際公開番号】W WO2022083900

(87)【国際公開日】2022-04-28

(31)【優先権主張番号】20202890.8

(32)【優先日】2020-10-20

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】500341779

【氏名又は名称】フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100134119

【弁理士】

【氏名又は名称】奥町哲行

(72)【発明者】

【氏名】シュトラウス・マルティン

(72)【発明者】

【氏名】エドラー・ベルント

(57)【要約】

本発明は、入力オーディオ信号に基づいて処理されたオーディオ信号を提供するための装置であって、処理されたオーディオ信号を取得するために、１つまたは複数のフローブロックを使用して、雑音信号、または雑音信号から導出された信号を処理するように構成され、入力オーディオ信号に応じて、且つニューラルネットワークを使用して、１つまたは複数のフローブロックを使用して実行される処理を適合させるように構成されている、装置を記載する。本発明は、さらに、オーディオ処理のためのニューラルネットワークパラメータを提供するための装置であって、訓練結果信号を取得するために１つまたは複数のフローブロックを使用して訓練オーディオ信号またはその処理済バージョンを処理するように構成され、装置が、訓練オーディオ信号の歪んだバージョンに応じて、且つニューラルネットワークを使用して、１つまたは複数のフローブロックを使用して実行される処理を適合させるように構成され、装置が、訓練結果オーディオ信号の特性が所定の特性に近似するかまたはそれを含むように、ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている、装置を記載する。処理されたオーディオ信号を提供するための方法およびオーディオ処理のためのニューラルネットワークパラメータを提供するための方法も提供される。本発明は、ニューラルネットワークを使用するフローベースのオーディオ信号処理の効果的なモデリングとオーディオ信号強調機能との間のトレードオフを提供する。

【特許請求の範囲】

【請求項1】

入力オーディオ信号（ｙ、１３０、２３０、４３０）に基づいて処理されたオーディオ信号（

、１６０、２６０、４６０）を提供するための装置（１００、２００、４００）であって、
前記装置（１００、２００、４００）が、前記処理されたオーディオ信号（

、１６０、２６０、４６０）を取得するために、１つまたは複数のフローブロック（１１０_{１．．．Ｎ}、２１０_{１．．．Ｎ}、４１０_{１．．．Ｎ}）を使用して、雑音信号（ｚ、１２０、２２０、４２０）、または前記雑音信号（ｚ、１２０、２２０、４２０）から導出された信号を処理するように構成され、
前記装置（１００、２００、４００）が、前記入力オーディオ信号（ｙ、１３０、２３０、４３０）に応じて、且つニューラルネットワークを使用して、前記１つまたは複数のフローブロック（１１０_{１．．．Ｎ}、２１０_{１．．．Ｎ}、４１０_{１．．．Ｎ}）を使用して実行される処理を適合させるように構成されている、装置。

【請求項2】

前記入力オーディオ信号（ｙ、１３０、２３０、４３０）が、時間領域オーディオサンプルのセットによって表される、請求項１に記載の装置（１００、２００、４００）。

【請求項3】

前記１つまたは複数のフローブロック（１１０_{１．．．Ｎ}、２１０_{１．．．Ｎ}、４１０_{１．．．Ｎ}）のうちの所与のフローブロックに関連付けられたニューラルネットワークが、前記雑音信号（ｚ、１２０、２２０、４２０）、または前記雑音信号（ｚ、１２０、２２０、４２０）から導出された信号に応じて、且つ前記入力オーディオ信号（ｙ、１３０、２３０、４３０）に応じて、前記所与のフローブロックの１つまたは複数の処理パラメータを決定するように構成されている、請求項１または２に記載の装置（１００、２００、４００）。

【請求項4】

所与のフローブロックに関連付けられたニューラルネットワークが、アフィン処理の１つまたは複数のパラメータを提供するように構成され、前記パラメータが、前記処理中に前記雑音信号（ｚ、１２０、２２０、４２０）、または前記雑音信号の処理済バージョン、または前記雑音信号の一部（ｚ、１２０、２２０、４２０）、または前記雑音信号の処理済バージョンの一部に適用される、請求項１から３のいずれか一項に記載の装置（１００、２００、４００）。

【請求項5】

前記所与のフローブロックに関連付けられたニューラルネットワークが、フローブロック入力信号（ｚ）の第１の部分（ｚ_１）および前記入力オーディオ信号（ｙ、１３０、２３０、４３０）に応じて、前記アフィン処理の１つまたは複数のパラメータを決定するように構成され、
前記所与のフローブロックに関連付けられたアフィン処理が、アフィン処理された信号（

）を取得するために、前記決定されたパラメータを前記フローブロック入力信号（ｚ）の第２の部分（ｚ_２）に適用するように構成され、
前記フローブロック入力信号（ｚ）の前記第１の部分（ｚ_１）および前記アフィン処理された信号（

）が、前記所与のフローブロックのフローブロック出力信号（ｚ_ｎｅｗ）を形成する、請求項４に記載の装置（１００、２００、４００）。

【請求項6】

前記所与のフローブロックに関連付けられた前記ニューラルネットワークが、前記所与のフローブロックに関連付けられた前記アフィン処理における深さ方向に分離可能な畳み込みを含む、請求項５に記載の装置（１００、２００、４００）。

【請求項7】

前記装置（１００、２００、４００）が、処理されたフローブロック出力信号（ｚ’_ｎｅｗ）を取得するために、前記所与のフローブロックの前記フローブロック出力信号（ｚ_ｎｅｗ）に可逆畳み込みを適用するように構成されている、請求項５または６に記載の装置（１００、２００、４００）。

【請求項8】

前記装置（１００、２００、４００）が、前記入力オーディオ信号（ｙ、１３０、２３０、４３０）に応じて前記雑音信号（ｚ、１２０、２２０、４２０）を処理する前に、前記入力オーディオ信号（ｙ、１３０、２３０、４３０）に非線形圧縮（４９０）を適用するように構成されている、請求項１から７のいずれか一項に記載の装置（１００、２００、４００）。

【請求項9】

前記装置（１００、２００、４００）が、前記非線形圧縮（４９０）としてμ則変換を前記入力オーディオ信号（ｙ、１３０、２３０、４３０）に適用するように構成されている、請求項８に記載の装置（１００、２００、４００）。

【請求項10】

前記装置（１００、２００、４００）が、

にしたがって、前記入力オーディオ信号（ｙ、１３０、２３０、４３０）に対して変換を適用するように構成され、
ｓｇｎ（）が、符号関数であり、
μが、圧縮レベルを定義するパラメータである、請求項８または９に記載の装置（１００、２００、４００）。

【請求項11】

前記装置（１００、２００、４００）が、前記処理されたオーディオ信号（

、１６０、２６０、４６０）に非線形拡張（４１５）を適用するように構成されている、請求項１から１０のいずれか一項に記載の装置（１００、２００、４００）。

【請求項12】

前記装置（１００、２００、４００）が、前記非線形拡張（４１５）として逆μ則変換を前記処理されたオーディオ信号（

、１６０、２６０、４６０）に適用するように構成されている、請求項１１に記載の装置（１００、２００、４００）。

【請求項13】

前記装置（１００、２００、４００）が、

にしたがって、前記処理されたオーディオ信号（

、１６０、２６０、４６０）に対して変換を適用するように構成され、
ｓｇｎ（）が、符号関数であり、
μが、拡張レベルを定義するパラメータである、請求項１１または１２に記載の装置（１００、２００、４００）。

【請求項14】

前記雑音信号（ｚ、１２０、２２０、４２０）、または前記雑音信号から導出された前記信号を処理するための前記ニューラルネットワークのニューラルネットワークパラメータが、
訓練結果信号を取得するために、１つまたは複数の訓練フローブロックにおいて、訓練オーディオ信号またはその処理済バージョンの処理を使用して取得され、前記１つまたは複数の訓練フローブロックを使用した前記訓練オーディオ信号またはその処理済バージョンの処理が、前記訓練オーディオ信号の歪んだバージョンに応じて、且つ前記ニューラルネットワークを使用して適合され、
前記ニューラルネットワークの前記ニューラルネットワークパラメータが、前記訓練結果オーディオ信号の特性が所定の特性に近似するか、または所定の特性を含むように決定される、請求項１から１３のいずれか一項に記載の装置（１００、２００、４００）。

【請求項15】

前記装置（１００、２００、４００）が、前記雑音信号、または前記雑音信号から導出された前記信号を処理するために前記ニューラルネットワークのニューラルネットワークパラメータを提供するように構成され、
前記装置（１００、２００、４００）が、訓練結果信号を取得するために、前記１つまたは複数のフローブロックを使用して、訓練オーディオ信号またはその処理済バージョンを処理するように構成され、
前記装置（１００、２００、４００）が、前記訓練オーディオ信号の歪んだバージョンに応じて、且つ前記ニューラルネットワークを使用して、前記１つまたは複数のフローブロックを使用して実行される前記訓練オーディオ信号またはその処理済バージョンの処理を適合させるように構成され、
前記装置（１００、２００、４００）が、前記訓練結果のオーディオ信号の特性が所定の特性に近似するか、または所定の特性を含むように、前記ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている、請求項１から１４のいずれか一項に記載の装置（１００、２００、４００）。

【請求項16】

前記装置が、ニューラルネットワークパラメータを提供するための装置を備え、
前記ニューラルネットワークパラメータを提供するための前記装置（１００、２００、４００）が、前記雑音信号、または前記雑音信号から導出された前記信号を処理するための前記ニューラルネットワークのニューラルネットワークパラメータを提供するように構成され、
前記ニューラルネットワークパラメータを提供するための前記装置（１００、２００、４００）が、訓練結果信号を取得するために１つまたは複数の訓練フローブロックを使用して、訓練オーディオ信号またはその処理済バージョンを処理するように構成され、
前記ニューラルネットワークパラメータを提供するための前記装置（１００、２００、４００）が、前記訓練オーディオ信号の歪んだバージョンに応じて前記１つまたは複数のフローブロックを使用して実行される前記訓練オーディオ信号またはその処理済バージョンの処理を、前記ニューラルネットワークを使用して適合させるように構成され、
前記装置（１００、２００、４００）が、前記訓練結果のオーディオ信号の特性が所定の特性に近似するか、または所定の特性を含むように、前記ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている、請求項１から１５のいずれか一項に記載の装置（１００、２００、４００）。

【請求項17】

前記１つまたは複数のフローブロック（１１０_{１．．．Ｎ}、２１０_{１．．．Ｎ}、４１０_{１．．．Ｎ}）が、前記入力オーディオ信号（ｙ、１３０、２３０、４３０）の前記案内下で前記雑音信号（ｚ、１２０、２２０、４２０）に基づいて前記処理されたオーディオ信号（

、１６０、２６０、４６０）を合成するように構成されている、請求項１から１６のいずれか一項に記載の装置（１００、２００、４００）。

【請求項18】

前記１つまたは複数のフローブロック（１１０_{１．．．Ｎ}、２１０_{１．．．Ｎ}、４１０_{１．．．Ｎ}）が、前記雑音信号（ｚ、１２０、２２０、４２０）のサンプル値、または前記雑音信号から導出された信号のアフィン処理を使用して、前記入力オーディオ信号（ｙ、１３０、２３０、４３０）の案内下で前記雑音信号（ｚ、１２０、２２０、４２０）に基づいて前記処理されたオーディオ信号（

、１６０、２６０、４６０）を合成するように構成され、
前記アフィン処理の処理パラメータが、前記ニューラルネットワークを使用して、前記入力オーディオ信号（ｙ、１３０、２３０、４３０）のサンプル値に基づいて決定される、請求項１から１７のいずれか一項に記載の装置（１００、２００、４００）。

【請求項19】

前記装置（１００、２００、４００）が、前記処理されたオーディオ信号を前記雑音信号（ｚ、１２０、２２０、４２０）から導出するために、正規化フロー処理を実行するように構成されている、請求項１から１８のいずれか一項に記載の装置（１００、２００、４００）。

【請求項20】

入力オーディオ信号（ｙ、１３０、２３０、４３０）に基づいて処理されたオーディオ信号を提供するための方法であって、
前記方法が、前記処理されたオーディオ信号（

、１６０、２６０、４６０）を取得するために、１つまたは複数のフローブロック（１１０_{１．．．Ｎ}、２１０_{１．．．Ｎ}、４１０_{１．．．Ｎ}）を使用して、雑音信号（ｚ、１２０、２２０、４２０）、または前記雑音信号から導出された信号を処理することを含み、
前記方法が、前記入力オーディオ信号（ｙ、１３０、２３０、４３０）に応じて且つニューラルネットワークを使用して前記１つまたは複数のフローブロック（

、１６０、２６０、４６０）を使用して実行される前記処理を適合させることを含む、方法。

【請求項21】

オーディオ処理のためのニューラルネットワークパラメータを提供するための装置（５００、６００、８００）であって、
前記装置（５００、６００、８００）が、訓練結果信号（ｚ、５２０、６２０、８２０）を取得するために、１つまたは複数のフローブロック（５１０_{１．．．Ｎ}、６１０_{１．．．Ｎ}、８１０_{１．．．Ｎ}）を使用して、訓練オーディオ信号（ｘ、５０５、６０５、８０５）またはその処理済バージョンを処理するように構成され、
前記装置（５００、６００、８００）が、前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）に応じて、且つニューラルネットワークを使用して、前記１つまたは複数のフローブロック（５１０_{１．．．Ｎ}、６１０_{１．．．Ｎ}、８１０_{１．．．Ｎ}）を使用して実行される処理を適合させるように構成され、
前記装置（５００、６００、８００）が、前記訓練結果オーディオ信号（ｚ、５２０、６２０、８２０）の特性が所定の特性に近似するか、または所定の特性を含むように、前記ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている、装置。

【請求項22】

前記装置（５００、６００、８００）が、前記取得された訓練結果信号（ｚ、５２０、６２０、８２０）の特性に応じてコスト関数を評価するように構成され、
前記装置（５００、６００、８００）が、前記コスト関数によって定義されるコストを低減または最小化するためにニューラルネットワークパラメータを決定するように構成されている、
請求項２１に記載の装置（５００、６００、８００）。

【請求項23】

前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）および／または前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）が、時間領域オーディオサンプルのセットによって表される、請求項２１または２２に記載の装置（５００、６００、８００）。

【請求項24】

前記１つまたは複数のフローブロック（５１０_{１．．．Ｎ}、６１０_{１．．．Ｎ}、８１０_{１．．．Ｎ}）のうちの所与のフローブロックに関連付けられたニューラルネットワークが、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）、または前記訓練オーディオ信号から導出された信号に応じて、且つ前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）に応じて、前記所与のフローブロックに対する１つまたは複数の処理パラメータを決定するように構成されている、請求項２１から２３のいずれか一項に記載の装置（５００、６００、８００）。

【請求項25】

所与のフローブロックに関連付けられたニューラルネットワークが、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）、または前記訓練オーディオ信号の処理済バージョン、または前記訓練オーディオ信号の一部（ｘ、５０５、６０５、８０５）、または前記処理中の前記訓練オーディオ信号の処理済バージョンの一部に適用されるアフィン処理の１つまたは複数のパラメータを提供するように構成されている、請求項２１から２４のいずれか一項に記載の装置（５００、６００、８００）。

【請求項26】

前記所与のフローブロックに関連付けられたニューラルネットワークが、フローブロック入力信号（ｘ）の第１の部分（ｘ_１）に応じて、または前処理されたフローブロック入力信号（ｘ’）の第１の部分に応じて、且つ前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）に応じて、前記アフィン処理の１つまたは複数のパラメータを決定するように構成され、
前記所与のフローブロックに関連付けられたアフィン処理が、アフィン処理された信号（

）を取得するために、前記決定されたパラメータを前記フローブロック入力信号（ｘ）の第２の部分（ｘ_２）または前記前処理されたフローブロック入力信号（ｘ’）の第２の部分に適用するように構成され、
前記フローブロック入力信号（ｘ）または前記前処理されたフローブロック入力信号（ｘ’）の前記第１の部分（ｘ_１）および前記アフィン処理された信号（

）が、前記所与のフローブロックのフローブロック出力信号ｘ_ｎｅｗを形成する、請求項２５に記載の装置（５００、６００、８００）。

【請求項27】

前記所与のフローブロックに関連付けられた前記ニューラルネットワークが、前記所与のフローブロックに関連付けられた前記アフィン処理における深さ方向に分離可能な畳み込みを含む、請求項２６に記載の装置（１００、２００、４００）。

【請求項28】

前記装置（５００、６００、８００）が、前記前処理されたフローブロック入力信号（ｘ’）を取得するために、前記所与のフローブロックの前記フローブロック入力信号（ｘ）に可逆畳み込みを適用するように構成されている、請求項２６または２７に記載の装置（５００、６００、８００）。

【請求項29】

前記装置（５００、６００、８００）が、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）を処理する前に、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）に非線形入力圧縮（８１５）を適用するように構成されている、請求項２１から２８のいずれか一項に記載の装置（５００、６００、８００）。

【請求項30】

前記装置（５００、６００、８００）が、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）に前記非線形入力圧縮（８１５）としてμ則変換を適用するように構成されている、請求項２９に記載の装置（５００、６００、８００）。

【請求項31】

前記装置（５００、６００、８００）が、

にしたがって、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）に対して変換を適用するように構成され、
ｓｇｎ（）が、符号関数であり、
μが、圧縮レベルを定義するパラメータである、請求項２９または３０に記載の（５００、６００、８００）。

【請求項32】

前記装置（５００、６００、８００）が、前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）に応じて前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）を処理する前に、前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）に非線形入力圧縮（８１５）を適用するように構成されている、請求項２１から３１のいずれか一項に記載の装置（５００、６００、８００）。

【請求項33】

前記装置（５００、６００、８００）が、前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）に前記非線形入力圧縮（８１５）としてμ則変換を適用するように構成されている、請求項３２に記載の装置（５００、６００、８００）。

【請求項34】

前記装置（５００、６００、８００）が、

にしたがって、前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）に対して変換を適用するように構成され、
ｓｇｎ（）が、符号関数であり、
μが、圧縮レベルを定義するパラメータである、請求項３２または３３に記載の装置（５００、６００、８００）。

【請求項35】

前記１つまたは複数のフローブロック（５１０_{１．．．Ｎ}、６１０_{１．．．Ｎ}、８１０_{１．．．Ｎ}）が、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）を前記訓練結果信号（ｚ、５２０、６２０、８２０）に変換するように構成されている、請求項２１から３４のいずれか一項に記載の装置（５００、６００、８００）。

【請求項36】

前記１つまたは複数のフローブロック（５１０_{１．．．Ｎ}、６１０_{１．．．Ｎ}、８１０_{１．．．Ｎ}）が、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）のサンプル値、または前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）から導出された信号のアフィン処理を使用して、前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）の案内下で、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）を前記訓練結果信号（ｚ、５２０、６２０、８２０）に変換するように調整され、
前記アフィン処理の処理パラメータが、前記ニューラルネットワークを使用して、前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）のサンプル値に基づいて決定される、請求項２１から３５のいずれか一項に記載の装置（５００、６００、８００）。

【請求項37】

前記装置（５００、６００、８００）が、前記訓練オーディオ信号（ｘ、５０５、６０５、８０５）から前記訓練結果信号（ｚ、５２０、６２０、８２０）を導出するために、正規化フロー処理を実行するように構成されている、請求項２１から３６のいずれか一項に記載の装置（５００、６００、８００）。

【請求項38】

オーディオ処理のためのニューラルネットワークパラメータを提供するための方法であって、
前記方法が、訓練結果信号（ｚ、５２０、６２０、８２０）を取得するために、１つまたは複数のフローブロック（５１０_{１．．．Ｎ}、６１０_{１．．．Ｎ}、８１０_{１．．．Ｎ}）を使用して、訓練オーディオ信号（ｘ、５０５、６０５、８０５）またはその処理済バージョンを処理することを含み、
前記方法が、前記訓練オーディオ信号の歪んだバージョン（ｙ、５３０、６３０、８３０）に応じて、且つニューラルネットワークを使用して、前記１つまたは複数のフローブロック（５１０_{１．．．Ｎ}、６１０_{１．．．Ｎ}、８１０_{１．．．Ｎ}）を使用して実行される前記処理を適合させることを含み、
前記方法が、前記訓練結果オーディオ信号（ｚ、５２０、６２０、８２０）の特性が所定の特性に近似するかまたはそれを含むように、前記ニューラルネットワークの前記ニューラルネットワークパラメータを決定することを含む、方法。

【請求項39】

コンピュータ上で実行されると、請求項２０または３８のいずれか一項に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明にかかる実施形態は、処理されたオーディオ信号を提供するための装置に関する。

【0002】

本発明にかかるさらなる実施形態は、処理されたオーディオ信号を提供するための方法に関する。

【0003】

本発明にかかるさらなる実施形態は、ニューラルネットワークパラメータを提供するための装置に関する。

【0004】

本発明にかかるさらなる実施形態は、ニューラルネットワークパラメータを提供するための方法に関する。

【0005】

本出願にかかる実施形態は、ニューラルネットワークを使用するオーディオ信号処理、特にオーディオ信号強調、特に発話強調に関する。

【0006】

一態様によれば、本発明にかかる実施形態は、ニューラルネットワークによる雑音の多い発声の直接的な強調を提供するために適用されることができる。

【背景技術】

【0007】

現在、目的発話信号を侵入的背景から区別することを含むオーディオ強調、特に発話強調に対する多数のアプローチが知られている。発話強調の目的は、発話内容のより良好な了解度を保証するために、干渉する背景から目標発話信号を強調することである。発話強調は、例えば補聴器または自動発話認識を含む広範囲の用途にとって重要である。

【0008】

近年、変分自己符号化器、敵対的生成ネットワーク（ＧＡＮ）、自己回帰モデルなど、発話強調のための異なる生成的アプローチがますます使用されている。

【0009】

上記を考慮して、計算の複雑さと達成可能なオーディオ品質との間の改善されたトレードオフを提供するオーディオ信号強調のための概念を作り出すことが望まれている。

【0010】

この目的は、係属中の独立請求項の主題によって達成される。
さらなる有利な態様は、従属請求項の主題である。

【発明の概要】

【0011】

本発明にかかる実施形態は、例えば発話信号、例えば歪んだオーディオ信号、例えば雑音の多い発話信号ｙ、例えば雑音の多い発話信号ｙから抽出されたクリーンな信号ｘなど、入力オーディオ信号に基づいて、例えば処理された発話信号、例えば強調されたオーディオ信号、例えば強調された発話信号、または例えば強調された一般的なオーディオ信号、例えば

など、処理されたオーディオ信号を提供するための装置を形成し、ここで、例えば、ｙ＝ｘ＋ｎであり、ｎは雑音であり、例えば雑音の多い背景である。装置は、例えば、アフィンスケーリングを使用して、または一連のアフィンスケーリング演算を使用して、処理されたオーディオ信号、例えば強調されたオーディオ信号、例えば

を取得するために、例えばアフィン結合層を含む、例えば可逆畳み込みを含む、例えばフローブロックを使用して、例えば８つのフローブロックなどの１つまたは複数のフローブロックを使用して、例えばｚなどの雑音信号、または雑音信号から導出された信号を処理するように構成されている。装置は、入力オーディオ信号、例えば歪んだオーディオ信号に応じて、例えば雑音の多い発話信号ｙに応じて、例えば雑音の多い時間領域発話サンプルに応じて、１つまたは複数のフローブロックを使用し、ニューラルネットワークを使用して実行される処理を適合させるように構成されている。ニューラルネットワークは、例えば、歪んだオーディオ信号に基づいて、好ましくは雑音信号の少なくとも一部またはその処理済バージョンにも応じて、フローブロックについての１つまたは複数の処理パラメータ、例えばスケーリング係数およびシフト値などのアフィン処理のパラメータを提供する。

【0012】

この実施形態は、例えば発話強調目的のためのオーディオ信号の処理が、例えば生成的プロセスをモデル化し得るフローブロック処理を使用して直接実行されることができるという知見に基づいている。フローブロック処理は、入力オーディオ信号、例えば雑音の多いオーディオ信号ｙに調整された方法で、例えば装置によって生成された、または例えば装置に記憶された雑音信号、例えば雑音信号ｚを処理することを可能にすることが分かっている。雑音信号ｚは、所与の（例えば、単純または複雑）確率分布、好ましくはガウス確率分布を表す（または含む）。歪んだオーディオ信号に条件付けされた雑音信号の処理時に、入力オーディオ信号の強調されたクリーンな部分が、処理の結果として、このクリーンな部分、例えば雑音の多い背景のないクリーンな部分を装置への入力として導入することなく提供されることが分かった。

【0013】

提案された装置は、効果的で容易に実装されるオーディオ信号処理、特に直接オーディオ信号処理、例えば発話サンプルの直接強調を提供する。同時に、例えば改善された発話強調、または例えば処理されたオーディオ信号の改善された品質などの高性能が、提案された装置において提供される。

【0014】

結論として、本明細書に記載された概念は、計算の複雑さと達成可能なオーディオ品質との間の改善された妥協点を提供する。

【0015】

実施形態によれば、入力オーディオ信号は、時間領域オーディオサンプルのセット、例えば雑音の多い時間領域オーディオ、例えば発話、サンプル、例えば時間領域発話発声によって表される。例えば、入力オーディオ信号の時間領域オーディオサンプル、またはそれから導出された時間領域オーディオサンプルは、ニューラルネットワークに入力され、例えば、入力オーディオ信号の時間領域オーディオサンプル、またはそれから導出された時間領域オーディオサンプルは、領域表現、例えばスペクトル領域表現を変換するために変換を適用することなく、時間領域表現の形態でニューラルネットワークにおいて処理される。

【0016】

発話領域（または時間領域）において直接フローブロック処理を実行することは、任意の所定の特徴または時間－周波数、Ｔ－Ｆ変換を必要とせずにオーディオ信号処理を可能にする。雑音信号と入力オーディオ信号の双方が同じ次元であるため、生成的プロセスにおけるアップサンプリング層は必要とされない。さらに、時間領域サンプルの処理は、可逆アフィン処理を実行する一連のフローブロックにおける信号統計の効率的な修正を可能にし、そのような一連のフローブロックにおける雑音信号からオーディオ信号を導出することも可能にすることが認識されている。一連のフローブロックにおける時間領域サンプルの処理は、再構築されたオーディオ信号が良好な聴覚印象を含むように信号特性を適合させることを可能にすることが分かっている。さらに、時間領域において処理を実行することにより、異なる信号表現領域間でリソースを消費する変換動作が回避されることができることが認識されている。さらに、発話領域（または時間領域）において直接フローブロック処理を実行することは、ニューラルネットワークを使用したフローブロック処理のパラメータ量を低減することが認識されている。したがって、計算負荷の低いオーディオ信号処理が提供される。

【0017】

実施形態によれば、１つまたは複数のフローブロックの所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、雑音信号、例えばｚ、または雑音信号から導出された信号に応じて、且つ入力オーディオ信号、例えばｙに応じて、所与のフローブロックの１つまたは複数の処理パラメータ、例えばスケーリング係数、例えばＳ、および例えばシフト値、例えばＴを決定するように構成されている。

【0018】

入力オーディオ信号の時間領域サンプルも受信して処理するニューラルネットワークを使用してアフィン処理の１つまたは複数の処理パラメータを決定することは、入力オーディオ信号に応じて雑音信号に基づいて処理されたオーディオ信号の合成を制御することを可能にする。したがって、ニューラルネットワークは、入力オーディオ信号に基づいて（典型的には、雑音信号の一部、または処理された雑音信号の一部にも応じて）アフィン処理のための適切な処理パラメータを提供するように訓練されることができる。また、ニューラルネットワークの訓練は、処理されたオーディオ信号の導出に使用されるアフィン処理とは逆のアフィン処理を含む訓練構造を使用して合理的な努力で可能であることが認識されている。

【0019】

実施形態によれば、所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、例えばアフィン結合層内のアフィン処理の１つまたは複数のパラメータ、例えばスケーリング係数、例えばＳ、および例えばシフト値、例えばＴを提供するように構成され、これは処理中に雑音信号、または雑音信号の処理済バージョン、または雑音信号の一部、または雑音信号の処理済バージョンの一部、例えばｚに適用される。

【0020】

ニューラルネットワークを使用してアフィン処理の１つまたは複数のパラメータを提供することにより、およびアフィン処理を、例えば雑音信号または雑音信号の処理済バージョンに適用することにより、雑音信号に適用される処理は反転可能である。したがって、ニューラルネットを介して完全な雑音信号を供給することが回避されることができ、これは、通常、非可逆動作をもたらす。しかしながら、ニューラルネットを使用して可逆（アフィン）処理を制御することにより、ニューラルネットの訓練が大幅に容易にされることができ、これは、取り扱われることができる処理の複雑さをもたらす。

【0021】

実施形態によれば、所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、フローブロック入力信号、例えばｚの第１の部分、例えばｚ_１に応じて、または前処理されたフローブロック入力信号、例えばｚ’の第１の部分に応じて、および入力オーディオ信号、例えばｙに応じて、アフィン処理の１つまたは複数のパラメータ、例えばスケーリング係数、例えばＳ、および例えばシフト値、例えばＴを決定するように構成されている。所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたアフィン処理は、決定されたパラメータ、例えばスケーリング係数、例えばＳ、および例えばシフト値、例えばＴを、フローブロック入力信号の第２の部分、例えばｚ_２、または前処理されたフローブロック入力信号の第２の部分、例えばｚ’に適用してアフィン処理された信号

を取得するように構成されている。アフィン処理によって修正されていないフローブロック入力信号、例えばｚ、または前処理されたフローブロック入力信号、例えばｚ’の第１の部分、例えばｚ_１、およびアフィン処理された信号、例えば

は、例えばアフィン処理の所与のステージなどの所与のフローブロックのフローブロック出力信号、例えばｚ_ｎｅｗ、例えばステージ出力信号を形成、例えば構成する。所与のフローブロックのアフィン処理、例えばアフィン結合層は、使用されるニューラルネットワークを訓練する際に使用されるフローブロック処理を反転することによって処理されたオーディオ信号を生成することを保証する。

【0022】

実施形態によれば、所与のフローブロックに関連付けられたニューラルネットワークは、所与のフローブロックに関連付けられたアフィン処理における深さ方向の分離可能な畳み込みを含む。ニューラルネットワークは、例えば、ニューラルネットワークにおいて従来使用されている任意の標準的な畳み込みの代わりに、深さ方向に分離可能な畳み込みを含んでもよい。例えば、任意の他の標準的な畳み込みの代わりに、深さ方向に分離可能な畳み込みを適用することは、ニューラルネットワークを使用するフローブロック処理のパラメータの量を低減し得る。例えば、発話領域（または時間領域）において直接フローブロック処理を実行することと組み合わせて、ニューラルネットワークの深さ方向に分離可能な畳み込みを適用することは、ニューラルネットワークパラメータの数を、例えば８０百万から２０～５０百万、例えば２５百万に低減し得る。したがって、計算負荷の低いオーディオ信号処理が提供される。

【0023】

実施形態によれば、装置は、処理されたフローブロック出力信号ｚ’_ｎｅｗ、例えばフローブロック出力信号の処理済バージョン、例えばフローブロック出力信号の畳み込みバージョンを取得するために、所与のフローブロック、例えば、後続のステージ、または第１のステージに続く他の後続のステージの入力信号であり得るアフィン処理の所与のステージのフローブロック出力信号、例えばｚ_ｎｅｗ、例えばステージ出力信号に対して、可逆畳み込み、例えば１×１の可逆畳み込みを適用するように構成されている。可逆畳み込みは、異なるフローブロック（または処理ステージ）において異なるサンプルがアフィン処理によって処理されることを保証するのに役立ち得る。また、可逆畳み込みは、異なるサンプルが異なる（後続の）フローブロックのニューラルネットに供給されることを保証するのに役立ち得る。したがって、一連の時間領域サンプルの統計的特性を効率的に変更することによって、雑音信号に基づく処理されたオーディオ信号の合成が改善されることができる。

【0024】

実施形態によれば、装置は、入力オーディオ信号、例えばｙに応じて雑音信号、例えばｚを処理する前に、入力オーディオ信号、例えばｙに非線形圧縮、例えばμ則変換を適用するように構成されている。この機能の利点に関して、ニューラルネットワークパラメータを提供するための装置の以下の説明、特に、ニューラルネットワークパラメータを提供するための装置において使用される非線形圧縮アルゴリズムの説明を参照する。

【0025】

実施形態によれば、装置は、非線形圧縮として、μ則変換、例えばμ則関数を入力オーディオ信号、例えばｙに適用するように構成されている。この機能の利点に関して、ニューラルネットワークパラメータを提供するための装置の以下の説明、特に、ニューラルネットワークパラメータを提供するための装置において使用される非線形圧縮アルゴリズムとしてμ則変換を適用することの説明を参照する。

【0026】

実施形態によれば、装置は、入力オーディオ信号に対して、

にしたがって変換を適用するように構成され、例えば、ｓｇｎ（）は、符号関数であり、μは、圧縮レベルを定義するパラメータである。この機能の利点に関して、ニューラルネットワークパラメータを提供するための装置の以下の説明、特に、ニューラルネットワークパラメータを提供するための装置において使用される非線形圧縮アルゴリズムと同じ変換を適用することの説明を参照する。

【0027】

実施形態によれば、装置は、非線形拡張、例えば、逆μ則変換、例えば、μ則変換の反転を、処理された、例えば強調されたオーディオ信号に適用するように構成されている。これは、効果的な後処理ツール、例えば、密度推定のための効果的な後処理技術を提供し、オーディオ信号処理の強調結果および改善された性能を向上させる。結果として、高周波付加が最小限に抑えられた強調された信号が装置の出力として提供される。

【0028】

実施形態によれば、装置は、例えば、処理された、例えば強調されたオーディオ信号（

）への非線形拡張として、μ則変換を反転することによって、逆μ則変換、例えば逆μ則関数を適用するように構成されている。逆μ則変換を使用することは、雑音の多い入力信号から強調された出力信号への生成的プロセスのモデリングの改善された結果を提供し、したがって改善された強調性能を提供する。これは、効果的な後処理ツール、例えば、密度推定のための効果的な後処理技術を提供し、オーディオ信号処理の強調結果および改善された性能を向上させる。

【0029】

実施形態によれば、装置は、処理された、例えば強調されたオーディオ信号、例えば

に対して、

にしたがって変換を適用するように構成され、例えば、ｓｇｎ（）は、符号関数であり、μは、拡張レベルを定義するパラメータである。オーディオ信号処理の向上した強調結果および改善された性能が提供される。これは、効果的な後処理ツール、例えば、密度推定のための効果的な後処理技術を提供し、オーディオ信号処理の強調結果および改善された性能を向上させる。

【0030】

実施形態によれば、雑音信号、または雑音信号から導出された信号を処理するためのニューラルネットワークのニューラルネットワークパラメータは、訓練結果信号を取得するために、１つまたは複数の訓練フローブロックにおいて、訓練オーディオ信号またはその処理済バージョンの処理を使用して、例えば装置に保存される、例えばリモートサーバに保存されるなど、予め取得されており、１つまたは複数の訓練フローブロックを使用した訓練オーディオ信号またはその処理済バージョンの処理は、訓練オーディオ信号の歪んだバージョンおよびニューラルネットワークの使用に応じて適合される。ニューラルネットワークのニューラルネットワークパラメータは、訓練結果オーディオ信号の特性、例えば確率分布が所定の特性、例えば雑音様特性、例えばガウス分布に近似するかまたはそれを含むように決定される。処理されたオーディオ信号の提供に使用される１つまたは複数のニューラルネットワークは、訓練結果信号の提供に使用される１つまたは複数のニューラルネットワークと同一であり、訓練フローブロックは、処理されたオーディオ信号の提供において実行されるアフィン処理とは逆のアフィン処理を実行する。

【0031】

したがって、フローブロックに関連付けられたニューラルネットワークの効果的な訓練ツールが提供され、これは、装置におけるフローブロック処理において使用されるニューラルネットワークのパラメータを提供する。これは、改善されたオーディオ信号処理、特に装置における改善された信号強調をもたらす。例えば、このようにしてニューラルネットワークパラメータを取得することは、効率的な訓練を可能にする。ニューラルネットワークパラメータの訓練および推論（処理されたオーディオ信号の導出）において逆処理アプローチ（例えば、逆アフィン変換によって定義される）を使用することが可能であり、これは高効率および十分に予測可能な信号変換をもたらす。したがって、実行可能な複雑さで良好な聴覚印象が達成されることができる。

【0032】

実施形態によれば、装置は、雑音信号、または雑音信号から導出された信号を処理するためのニューラルネットワークのニューラルネットワークパラメータを提供するように構成され、装置は、訓練結果信号を取得するために１つまたは複数のフローブロックを使用して、訓練オーディオ信号またはその処理済バージョンを処理するように構成されている。装置は、訓練オーディオ信号の歪んだバージョンに応じて、且つニューラルネットワークを使用して、１つまたは複数のフローブロックを使用して実行される訓練オーディオ信号またはその処理済バージョンの処理を適合させるように構成されている。装置は、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている。パラメータ最適化手順を使用することは、例えば、ニューラルネットワークパラメータの数を、例えば８０百万から２０～５０百万、例えば２５百万に低減し得る。装置は、装置内のオーディオ信号の処理に使用されるフローブロックに関連付けられたニューラルネットワークのためのニューラルネットワークパラメータを提供するように構成されている。したがって、装置は、外部訓練ツールを必要とせずに、フローブロックに関連付けられたニューラルネットワークのための効果的な訓練ツールを提供する。

【0033】

実施形態によれば、装置は、ニューラルネットワークパラメータを提供するための装置を備え、ニューラルネットワークパラメータを提供するための装置は、雑音信号、または雑音信号から導出された信号を処理するためのニューラルネットワークのニューラルネットワークパラメータを提供するように構成されている。ニューラルネットワークパラメータを提供するための装置は、訓練結果信号を取得するために、１つまたは複数の訓練フローブロックを使用して、訓練オーディオ信号またはその処理済バージョンを処理するように構成されている。ニューラルネットワークパラメータを提供するための装置は、訓練オーディオ信号の歪んだバージョンに応じて、およびニューラルネットワークを使用して、１つまたは複数のフローブロックを使用して実行される訓練オーディオ信号またはその処理済バージョンの処理を適合させるように構成されている。装置は、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている。したがって、装置は、外部訓練ツールを必要とせずに、フローブロックに関連付けられたニューラルネットワークのための効果的な訓練ツールを備える。

【0034】

実施形態によれば、１つまたは複数のフローブロックは、入力オーディオ、例えば発話信号の案内下で雑音信号に基づいて処理されたオーディオ、例えば発話信号を合成するように構成されている。したがって、入力オーディオ信号は、ニューラルネットワークの入力量として機能し、それによって雑音信号に基づいて処理されたオーディオ信号の合成を制御し得る。例えば、ニューラルネットワークは、アフィン処理を効果的に制御して、雑音信号（またはその処理済バージョン）の信号特性を入力オーディオ信号の（統計的な）信号特性に近似させてもよく、入力オーディオ信号の雑音寄与は、少なくとも部分的に低減される。したがって、入力オーディオ信号と比較した場合の処理されたオーディオ信号の信号品質の改善が達成され得る。

【0035】

実施形態によれば、１つまたは複数のフローブロックは、入力オーディオ、例えば発話、雑音信号のサンプル値、または雑音信号から導出された信号のアフィン処理を使用した信号の案内下で雑音信号に基づいて、処理されたオーディオ、例えば発話、信号を合成するように構成されている。アフィン処理の処理パラメータ、例えばスケーリング係数、例えばＳ、および例えばシフト値、例えばＴは、ニューラルネットワークを使用して、例えば時間領域の入力オーディオ信号のサンプル値に基づいて決定される。そのような処理は、妥当な処理負荷において良好な結果として得られる処理されたオーディオ信号品質をもたらすことが分かっている。

【0036】

実施形態によれば、装置は、例えば入力オーディオ信号の案内下で雑音信号から処理されたオーディオ信号を導出するために、正規化フロー処理を実行するように構成されている。フロー処理の正規化は、オーディオ強調アプリケーションにおいて処理されたオーディオ信号の高品質サンプルを首尾よく生成する能力を提供することが認識されている。

【0037】

本発明にかかる実施形態は、入力オーディオ信号に基づいて処理されたオーディオ信号を提供するための方法を形成する。本方法は、処理されたオーディオ信号を取得するために、１つまたは複数のフローブロックを使用して、雑音信号、または雑音信号から導出された信号を処理することを含む。本方法は、入力オーディオ信号、例えば歪んだオーディオ信号に応じて、１つまたは複数のフローブロックを使用して実行される処理を適合させることと、ニューラルネットワークを使用することとを含む。

【0038】

この実施形態にかかる方法は、上述した処理されたオーディオ信号を提供するための装置と同じ考慮事項に基づいている。さらに、この開示された実施形態は、個々におよび組み合わせて処理されたオーディオ信号を提供するための装置に関連して本明細書に開示された任意の他の特徴、機能および詳細によって任意に補足されてもよい。

【0039】

本発明にかかる実施形態は、オーディオ処理、例えば発話処理のために、推論モードにおいて、雑音信号の一部、例えばｚ、またはその処理済バージョンに基づいて、および入力オーディオ信号、例えばｙに基づいて、スケーリング係数、例えばｓ、およびシフト値、例えばｔを提供するニューラルネットワークのエッジ重みに対応し得る、訓練モードにおいて、クリーンなオーディオ信号の一部、例えばｘ_１、またはその処理済バージョンに基づいて、および歪んだオーディオ信号、例えばｙに基づいて、スケーリング係数、例えばｓ、およびシフト値、例えばｔを提供するニューラルネットワークの、例えばエッジ重み、例えばθなどのニューラルネットワークパラメータを提供するための装置を形成する。装置は、例えば、複数の反復において、例えば、雑音信号に等しいはずの訓練結果信号を取得するために、例えばアフィン結合層を含む、例えば可逆畳み込みを含む、例えばフローブロックシステムを使用して、例えば８個のフローブロックなどの１つまたは複数のフローブロックを使用して、例えばｘなどの発話信号、またはその処理済バージョンなどの訓練オーディオ信号を処理するように構成されている。装置は、訓練オーディオ信号の歪んだバージョン、例えばｙ、例えば歪んだオーディオ信号、例えば雑音の多い発話信号ｙに応じて、およびニューラルネットワークを使用して、１つまたは複数のフローブロックを使用して実行される処理を適合させるように構成されている。ニューラルネットワークは、例えば、訓練オーディオ信号の歪んだバージョンに基づいて、好ましくは訓練オーディオ信号の少なくとも一部またはその処理済バージョンにも応じて、フローブロックの１つまたは複数の処理パラメータ、例えばスケーリング係数およびシフト値などのアフィン処理のパラメータを提供する。装置は、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えばガウス分布などの雑音様特性に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えばニューラルネットワークによって実行されるパラメータ最適化手順を使用して、ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている。

【0040】

この実施形態は、フローブロック処理がオーディオ信号処理に適用されることができ、特に、雑音の多い相手、例えばｙを条件とする、例えばｘなどのクリーンな発話サンプルに基づいて簡単な確率分布からより複雑な確率分布へのマッピングを学習することによって、例えばクリーンな発話の確率分布を学習することによって、オーディオ信号処理に使用されるニューラルネットワークのニューラルネットワークパラメータを決定することができるという知見に基づいている。例えば、フローブロックのシーケンスに関連付けられたニューラルネットワークのパラメータは、推論において、すなわち雑音信号に基づいて処理されたオーディオ信号を取得するときに良好に使用可能であることが分かっている。また、訓練フローブロックに対応し、訓練されたニューラルネットワークパラメータを使用するニューラルネットワークを使用して制御されることができる推論フローブロックを容易に設計することが可能であることが分かった。

【0041】

提案された装置は、オーディオ信号処理において使用されるニューラルネットワークのパラメータを提供する、フローブロックに関連付けられたニューラルネットワークの効果的な訓練ツールを提供する。これは、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用して、改善されたオーディオ信号処理、特に改善されたオーディオ信号強調をもたらし、これは、高い性能、例えば改善された発話強調、または例えば処理されたオーディオ信号の改善された品質を提供する。

【0042】

実施形態によれば、装置は、取得された訓練結果信号の特性に応じて、例えば取得された雑音信号の分布、例えばガウス関数分布、および取得された雑音信号の分散δ２に応じて、例えば損失関数などのコスト関数、および、例えば、それぞれのフローブロックの入力信号に依存し得るフローブロックのスケーリング係数などの処理パラメータを評価するように構成されている。装置は、コスト関数によって定義されるコストを低減または最小化するためにニューラルネットワークパラメータを決定するように構成されている。モデル化された生成的プロセスとモデル化によって表される生成的プロセスとの間の相関が最適化される。さらに、コスト関数は、ニューラルネットワークによって制御されるフローブロックのシーケンスにおける処理が、訓練オーディオ信号を所望の統計的特性を有する信号に（例えば、雑音様信号に）変換するように、ニューラルネットワークパラメータを調整するのに役立つ。所望の統計的特性と訓練フローブロックによって提供される信号との間の偏差は、コスト関数によって効率的に表され得る。したがって、ニューラルネットワークパラメータは、訓練フローブロックにおける処理が、その統計的特性が所望の（例えば雑音様）特性に近似する信号を提供するように、訓練または最適化されることができる。この訓練では、コスト関数は、単純な（効率的に計算可能な）訓練目標関数であってもよく、したがって、ニューラルネットワークパラメータの適応を容易にし得る。このように訓練された訓練されたニューラルネットワークパラメータは、次いで、雑音信号に基づいて処理されたオーディオ信号を合成するための推論処理に使用されることができる。

【0043】

実施形態によれば、訓練オーディオ信号、例えばｘ、および／または訓練オーディオ信号の歪んだバージョン、例えばｙは、時間領域オーディオサンプルのセット、例えば雑音の多い時間領域オーディオ、例えば発話、サンプル、例えば時間領域発話発声によって表される。入力オーディオ信号の時間領域オーディオサンプル、またはそこから導出された時間領域オーディオサンプルは、例えば、ニューラルネットワークに入力される。訓練オーディオ信号の時間領域オーディオサンプル、またはそれから導出された時間領域オーディオサンプルは、例えば、領域表現、例えばスペクトル領域表現を変換するために変換を適用することなく、時間領域表現の形態でニューラルネットワークにおいて処理される。発話領域（または時間領域）において直接フローブロック処理を実行することは、任意の所定の特徴または時間－周波数、Ｔ－Ｆ変換を必要とせずにオーディオ信号処理を可能にする。訓練オーディオ信号と訓練オーディオ信号の歪んだバージョンの双方が同じ次元のものである場合、処理においてアップサンプリング層は必要とされない。さらに、時間領域処理の上述した利点も参照される。

【0044】

実施形態によれば、１つまたは複数のフローブロックの所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、訓練オーディオ信号、例えばｘ、または訓練オーディオ信号から導出された信号に応じて、且つ訓練オーディオ信号の歪んだバージョン、例えばｙに応じて、所与のフローブロックについての１つまたは複数の処理パラメータ、例えばスケーリング係数、例えばｓ、および例えばシフト値、例えばｔを決定するように構成されている。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。

【0045】

実施形態によれば、所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、例えばアフィン結合層におけるアフィン処理の１つまたは複数のパラメータ、例えばスケーリング係数、例えばｓ、および例えばシフト値、例えばｔを提供するように構成され、これは、訓練オーディオ信号、例えばｘ、または訓練オーディオ信号の処理済バージョン、または訓練オーディオ信号の一部、または処理中の訓練オーディオ信号の処理済バージョンの一部に適用される。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。

【0046】

実施形態によれば、所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、アフィン処理の１つまたは複数のパラメータ、例えばスケーリング係数、例えばｓ、および例えばシフト値、例えばｔを、フローブロック入力信号、例えばｘの第１の部分、例えばｘ_１に応じて、または前処理されたフローブロック入力信号、例えばｘ’の第１の部分に応じて、および訓練オーディオ信号の歪んだバージョン、例えばｙに応じて決定するように構成されている。所与のフローブロックに関連付けられたアフィン処理、例えばアフィン処理の所与のステージは、決定されたパラメータをフローブロック入力信号ｘの第２の部分、例えばｘ_２、または前処理されたフローブロック入力信号ｘ’の第２の部分に適用して、アフィン処理された信号、例えば

を取得するように構成されている。例えばアフィン処理によって変更されないフローブロック入力信号、例えばｘ、または前処理されたフローブロック入力信号、例えばｘ’の第１の部分、例えばｘ_１、およびアフィン処理された信号、例えば

は、例えばアフィン処理の所与のステージなどの所与のフローブロックのフローブロック出力信号、例えばステージ出力信号ｘ_ｎｅｗ、例えばステージ出力信号を形成、例えば構成する。所与のフローブロックのアフィン処理、例えばアフィン結合層は、フローブロック処理の可逆性および訓練結果オーディオ信号の特性、例えば確率密度関数を決定する際に使用されるヤコビ行列式の効率的な計算を保証する。さらに、フローブロック入力信号の他の部分をアフィン処理によって変更せずに、フローブロック入力信号の一部のみをアフィン処理することによって、フローブロック入力信号の一部をニューラルネットワークに入力する機会を依然として有しながら、処理の可逆性が達成される。ニューラルネットワークの入力として使用されるフローブロック入力信号のその部分はアフィン処理の影響を受けないため、アフィン処理が可逆的であれば（通常はそうである）、アフィン処理の前後の双方で利用可能であり、ひいては処理方向の反転を可能にする（訓練ステージから推論ステージに進むとき）。したがって、訓練中に学習された学習済みのニューラルネットワーク係数は、推論ステージにおいて非常に有意である。

【0047】

実施形態によれば、所与のフローブロックに関連付けられたニューラルネットワークは、所与のフローブロックに関連付けられたアフィン処理における深さ方向の分離可能な畳み込みを含む。ニューラルネットワークは、例えば、ニューラルネットワークにおいて従来使用されている任意の標準的な畳み込みの代わりに、深さ方向に分離可能な畳み込みを含んでもよい。例えば、任意の他の標準的な畳み込みの代わりに、深さ方向に分離可能な畳み込みを適用することは、ニューラルネットワークを使用したフローブロック処理のパラメータの量を低減し得る。例えば、発話領域（または時間領域）において直接フローブロック処理を実行することと組み合わせて、ニューラルネットワークの深さ方向に分離可能な畳み込みを適用することは、ニューラルネットワークパラメータの数を、例えば８０百万から２０～５０百万、例えば２５百万に低減し得る。したがって、計算負荷の低いオーディオ信号処理が提供される。

【0048】

実施形態によれば、装置は、前処理されたフローブロック入力信号、例えばｘ’、フローブロック入力信号の前処理済バージョン、例えばフローブロック入力信号の畳み込みバージョンを取得するために、例えば第１のステージの訓練オーディオ信号または訓練オーディオ信号から導出された信号であってもよく、例えば第１のステージに続く他の後続のステージの前のステージの出力信号であってもよい、アフィン処理の所与のステージのフローブロック入力信号、例えばｘ、例えばステージ入力信号に、例えば１×１の反転可能な畳み込みを適用するように構成されている。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明が参照される。

【0049】

実施形態によれば、装置は、訓練オーディオ信号、例えばｘを処理する前に、訓練オーディオ信号、例えばｘに非線形入力圧縮、例えば非線形圧縮、例えばμ則変換を適用するように構成されている。非線形圧縮アルゴリズムが適用されて、オーディオデータサンプルの小さい振幅をより広い振幅にマッピングし、より大きい振幅をより小さい間隔にマッピングする。これは、クリーンなデータサンプルではより高い絶対振幅が十分に表されないという問題を解決する。これは、効果的な前処理ツール、例えば密度推定のための効果的な前処理技術を提供し、これにより、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理の強調結果および改善された性能を向上させる。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。非線形入力圧縮は、例えば、上述した非線形拡張と逆であってもよい。

【0050】

実施形態によれば、装置は、訓練オーディオ信号、例えばｘへの非線形入力圧縮として、μ則変換、例えばμ則関数を適用するように構成されている。クリーンな信号の分布を学習するのではなく、圧縮信号の分布を学習する。μ則変換を使用したフロー処理は、背景漏れの少ない、より細かい粒度の発話部分を捉えることができる。したがって、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理時に改善された強調性能が提供される。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。μ則変換は、例えば、処理されたオーディオ信号を提供するための装置に関して上述した変換と（少なくともほぼ）逆であってもよい。これは、効果的な前処理ツール、例えば密度推定のための効果的な前処理技術を提供し、これにより、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理の強調結果および改善された性能を向上させる。

【0051】

実施形態によれば、装置は、訓練オーディオ信号（ｘ）に対して、

にしたがって変換を適用するように構成され、ｓｇｎ（）は、符号関数であり、μは、圧縮レベルを定義するパラメータである。決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理の向上した強調結果および改善された性能が提供される。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。変換は、例えば、処理されたオーディオ信号を提供するための装置に関して上述した変換と（少なくともほぼ）逆であってもよい。これは、効果的な前処理ツール、例えば密度推定のための効果的な前処理技術を提供し、これにより、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理の強調結果および改善された性能を向上させる。

【0052】

実施形態によれば、装置は、例えばｙなどの訓練オーディオ信号の歪んだバージョンに応じて、例えばｘなどの訓練オーディオ信号を処理する前に、例えばｙなどの訓練オーディオ信号の歪んだバージョンに非線形入力圧縮、例えばμ則変換を適用するように構成されている。この機能の利点に関して、例えばｘなどの訓練オーディオ信号を処理するために使用される非線形圧縮アルゴリズムの上記の説明を参照する。

【0053】

実施形態によれば、装置は、訓練オーディオ信号の歪んだバージョン、例えばｙに対する非線形入力圧縮として、μ則変換、例えばμ則関数を適用するように構成されている。この機能の利点に関して、訓練オーディオ信号、例えばｘを処理するために使用される非線形圧縮アルゴリズムとしてμ則変換を適用する上記の説明を参照する。

【0054】

実施形態によれば、装置は、訓練オーディオ信号の歪んだバージョンに対して、

にしたがって変換を適用するように構成され、ｓｇｎ（）は、符号関数であり、μは、圧縮レベルを定義するパラメータである。この機能の利点に関して、訓練オーディオ信号、例えばｘを処理するために使用される非線形圧縮アルゴリズムと同じ変換を適用する上記の説明が参照される。

【0055】

実施形態によれば、１つまたは複数のフローブロックは、訓練オーディオ信号を、雑音信号に近似するか、または雑音様の特性を含む訓練結果信号に変換するように構成されている。フローブロックに関連付けられ、訓練オーディオ信号を雑音信号に（または少なくとも雑音様信号に）変換するように訓練されたニューラルネットワークは、発話強調によく使用可能であることが分かっている（例えば、「逆」推論フローブロックを使用して、訓練フローブロックの機能と比較した場合に実質的に逆の機能を実行する）。

【0056】

実施形態によれば、１つまたは複数のフローブロックは、例えば、ニューラルネットワークパラメータの適切な決定によって調整されて、訓練オーディオ信号のサンプル値、または訓練オーディオ信号から導出された信号のアフィン処理を使用して、訓練オーディオ信号を、例えば発話信号などの訓練オーディオ信号の歪んだバージョンの案内下で訓練結果信号に変換する。アフィン処理の処理パラメータ、例えばスケーリング係数、例えばｓ、および例えばシフト値、例えばｔは、ニューラルネットワークを使用して訓練オーディオ信号の歪んだバージョンの例えば時間領域サンプル値に基づいて決定される。（例えば、スケーリング値および／またはシフト値を提供することによって）１つまたは複数のフローブロックを調整するために使用されるニューラルネットワークは、推論装置（例えば、本明細書に記載される処理されたオーディオ信号を提供するための装置）におけるオーディオ強調のために良好に使用可能であることが分かっている。

【0057】

実施形態によれば、装置は、例えば訓練オーディオ信号の歪んだバージョンの案内下で、訓練オーディオ信号から訓練結果信号を導出するために、正規化フロー処理を実行するように構成されている。フロー処理を正規化することは、訓練結果信号の高品質サンプルを首尾よく生成する能力を提供する。また、正規化フロー処理は、訓練によって取得されたニューラルネットワークパラメータを使用して、発話強調のための良好な結果を提供することが分かった。

【0058】

本発明にかかる実施形態は、オーディオ処理、例えば発話処理のために、推論モードにおいて、雑音信号の一部、例えばｚ、またはその処理済バージョンに基づいて、および入力オーディオ信号、例えばｙに基づいて、スケーリング係数、例えばｓ、およびシフト値、例えばｔを提供するニューラルネットワークのエッジ重みに対応し得る、訓練モードにおいて、クリーンなオーディオ信号の一部、例えばｘ_１、またはその処理済バージョンに基づいて、および歪んだオーディオ信号、例えばｙに基づいて、スケーリング係数、例えばｓ、およびシフト値、例えばｔを提供するニューラルネットワークの、例えばエッジ重み、例えばθなどのニューラルネットワークパラメータを提供するための方法を形成する。本方法は、例えば、複数の反復において、例えば雑音信号、例えばｚに等しくなければならない訓練結果信号を取得するために、例えばアフィン結合層を含む、例えば可逆畳み込みを含む、例えばフローブロックシステムを使用して、１つまたは複数のフローブロックを使用して、例えば発話、例えばｘなどの訓練オーディオ信号、またはその処理済バージョンを、処理することを含む。本方法は、訓練オーディオ信号の歪んだバージョン、例えばｙ、例えば歪んだオーディオ信号、例えば雑音の多い発話信号ｙに応じて、１つまたは複数のフローブロックを使用して実行される処理を適合させることと、ニューラルネットワークを使用することとを含む。ニューラルネットワークは、例えば、訓練オーディオ信号の歪んだバージョンに基づいて、好ましくは訓練オーディオ信号の少なくとも一部またはその処理済バージョンにも応じて、フローブロックの１つまたは複数の処理パラメータ、例えばスケーリング係数およびシフト値などのアフィン処理のパラメータを提供する。本方法は、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数の評価を使用して、例えば、パラメータ最適化手順を使用して、ニューラルネットワークのニューラルネットワークパラメータを決定することを含む。

【0059】

この実施形態にかかる方法は、上述したニューラルネットワークパラメータを提供するための装置と同じ考慮事項に基づいている。さらに、この開示された実施形態は、個々におよび組み合わせて、ニューラルネットワークパラメータを提供するための装置に関連して本明細書に開示された任意の他の特徴、機能および詳細によって任意に補足されてもよい。

【0060】

本発明にかかる実施形態は、コンピュータ上で実行されると、上述した実施形態のいずれかにかかる方法を実行するためのプログラムコードを有するコンピュータプログラムを形成する。

【0061】

処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、ニューラルネットワークパラメータを提供するための方法、およびこれらの方法を実装するためのコンピュータプログラムは、個々におよび組み合わせて、本明細書（文書全体）に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよい。

【0062】

本出願の好ましい実施形態は、図面に基づいて以下に記載される。

【図面の簡単な説明】

【0063】

【図1】実施形態にかかる処理された信号を提供するための装置の概略図を示している。

【図2】実施形態にかかる処理された信号を提供するための装置の概略図を示している。

【図3】実施形態にかかる処理された信号を提供するための装置の推論フローブロックの概略図を示している。

【図4】実施形態にかかる処理された信号を提供するための装置の概略図を示している。

【図5】実施形態にかかるニューラルネットワークパラメータを提供するための装置の概略図を示している。

【図6】実施形態にかかるニューラルネットワークパラメータを提供するための装置の概略図を示している。

【図7】実施形態にかかるニューラルネットワークパラメータを提供するための装置の訓練フローブロックの概略図を示している。

【図8】実施形態にかかるニューラルネットワークパラメータを提供するための装置の概略図を示している。

【図9】実施形態にかかる処理された信号を提供するための装置または実施形態にかかるニューラルネットワークパラメータを提供するための装置における非線形入力圧縮（圧縮および伸張）の提供の図を示している。

【図10】実施形態にかかるオーディオ信号処理のためのフローブロックシステムを示している。

【図11】実施形態にかかる装置および方法と従来の技術との比較を示す表を示している。

【図12】実施形態にかかる装置および方法の性能を表すグラフィック表現を示している。

【発明を実施するための形態】

【0064】

図１は、実施形態にかかる処理されたオーディオ信号を提供するための装置１００の概略図を示している。

【0065】

装置１００は、入力オーディオ信号ｙ、１３０に基づいて処理された、例えば強調されたオーディオ信号１６０を提供するように構成されている。処理は、例えば、ニューラルネットワーク（図示せず）に関連付けられたＮ個のフローブロック、例えば推論フローブロック１１０_{１．．．Ｎ}において実行される。フローブロック１１０_{１．．．Ｎ}は、到来するオーディオ信号、例えば発話信号を処理するように構成されている。

【0066】

入力オーディオ信号ｙ、１３０は、処理されるべき装置１００に導入される。入力オーディオ信号ｙは、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号ｙ、１３０は、例えば、ｙ＝ｘ＋ｎとして定義されてもよく、ｘは入力信号のクリーンな部分であり、ｎは雑音の多い背景である。入力オーディオ信号ｙ、１３０は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。

【0067】

入力オーディオ信号ｙ、１３０は、任意に、例えば図４に示すように、例えば図９を参照して説明した非線形圧縮などの非線形圧縮によって、例えば圧縮されて前処理されてもよい。

【0068】

入力オーディオ信号ｙおよびそれに対応してそのクリーンな部分ｘは、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0069】

雑音信号ｚ、１２０（またはその前処理済バージョンｚ（ｉ＝１））は、入力オーディオ信号ｙ、１３０とともに装置１００の第１のフローブロック１１０_１に導入される。

【0070】

雑音信号ｚ、１２０は、例えば、装置１００において生成されるか、または例えば、外部で生成され、装置１００に提供される。雑音信号ｚ、１２０は、装置１００に記憶されてもよく、または外部記憶装置、例えばリモートサーバから装置に提供されてもよい。雑音信号ｚ、１２０は、例えば、平均および単位分散がゼロの正規分布、例えば、ｚ～Ｎ（ｚ；０；Ｉ）からサンプリングされるものとして定義される。雑音信号ｚ、１２０は、例えば、雑音サンプル、例えば、時間領域雑音サンプルとして表される。

【0071】

信号ｚは、装置１００に入る前に、または装置１００内で雑音信号ｚ（ｉ＝１）に前処理されてもよい。

【0072】

例えば、雑音信号ｚの雑音サンプルｚ、または前処理された雑音信号ｚ（ｉ＝１）の雑音サンプルは、任意に、サンプルのグループ、例えば８サンプルのグループ、例えばベクトル表現（または行列表現）にグループ化されてもよい。

【0073】

任意の前処理ステップは、図１には示されていない。

【0074】

雑音信号ｚ（ｉ＝１）、１４０_１（あるいは、雑音信号ｚ）は、入力オーディオ信号ｙ、１３０とともに、装置１００の第１のフローブロック１１０_１、例えば推論フローブロックに導入される。図２および図３を参照して、第１のフローブロック１１０_１およびフローブロック１１０_{１．．．Ｎ}の後続のフローブロックにおける雑音信号ｚ（ｉ＝１）、１４０_１および入力オーディオ信号ｙの処理についてさらに説明する。入力信号ｚ（ｉ）は、例えば入力オーディオ信号ｙ、１３０によって調整されることに基づいて、フローブロック１１０_{１．．．Ｎ}（または、一般に、１１０_ｉ）において処理される。入力オーディオ信号ｙ、１３０は、例えば、フローブロック１１０_{１．．．Ｎ}の各フローブロックに導入される。

【0075】

雑音信号ｚ（ｉ＝１）、１４０_１の第１のフローブロック１１０_１における処理の後、出力信号ｚ_ｎｅｗ（ｉ＝１）、１５０_１が出力される。信号ｚ_ｎｅｗ（ｉ＝１）、１５０_１は、入力オーディオ信号ｙ、１３０とともに、装置１００の第２のフローブロック１１０_２についての入力信号ｚ（ｉ＝２）、１４０_２である。第２のフローブロック１１０_２の出力信号ｚ_ｎｅｗ（ｉ＝２）、１５０_２は、第３のブロックの入力信号ｚ（ｉ＝３）などである。最後のＮ個のフローブロック１１０_Ｎは、入力信号として信号ｚ（ｉ＝Ｎ）、１４０_Ｎを有し、装置１００の出力信号１６０を形成する信号ｚ_ｎｅｗ（ｉ＝Ｎ）、１５０_Ｎを出力する。信号ｚ_ｎｅｗ（ｉ＝Ｎ）、１５０_Ｎは、例えば入力オーディオ信号ｙ、１３０の強調されたクリーンな部分を表す、例えば強調されたオーディオ信号などの処理されたオーディオ信号

、１６０を形成する。

【0076】

入力オーディオ信号ｙ、１３０のクリーンな部分ｘは、装置１００に別々に導入されない。装置１００は、入力オーディオ信号ｙ、１３０に基づいて、例えば生成された雑音信号ｚ、１２０を処理して、例えば入力オーディオ信号ｙ、１３０のクリーンな部分の強調である強調されたオーディオ信号を受信、例えば生成、例えば出力する。

【0077】

一般的に言えば、装置は、処理された（例えば、強調された）オーディオ信号１６０を取得するために、１つまたは複数のフローブロック１１０_１から１１０_Ｎを使用して、雑音信号（例えば、雑音信号ｚ）、または雑音信号から導出された信号（例えば、前処理された雑音信号ｚ（ｉ＝１））を処理するように構成されると言うことができる。一般的に言えば、装置１００は、入力オーディオ信号（例えば、歪んだオーディオ信号ｙ）に応じておよび（例えば、歪んだオーディオ信号に基づいて、好ましくは雑音信号の少なくとも一部にも応じて、フローブロックの１つまたは複数の処理パラメータ、例えば、スケーリング係数およびシフト値などのアフィン処理のパラメータ、またはその処理済バージョンを提供することができる）ニューラルネットワークを使用して、１つまたは複数のフローブロック１１０_１から１１０_Ｎを使用して実行される処理を適合させるように構成されている。

【0078】

しかしながら、装置１００は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0079】

図２は、実施形態にかかる処理された信号を提供するための装置２００の概略図を示している。

【0080】

実施形態では、図１に示す装置１００の特徴、機能、および詳細は、任意に（個々におよび組み合わせて）装置２００に導入されてもよく、またはその逆であってもよい。

【0081】

装置２００は、入力オーディオ信号ｙ、２３０に基づいて、処理された、例えば強調されたオーディオ信号

、２６０を提供するように構成されている。処理は、ニューラルネットワーク（図示せず）に関連付けられたＮ個のフローブロック、例えば推論フローブロック２１０_{１．．．Ｎ}において実行される。フローブロック２１０_{１．．．Ｎ}は、到来するオーディオ信号、例えば発話信号を処理するように構成されている。

【0082】

入力オーディオ信号ｙ、２３０は、処理されるべき装置２００に導入される。入力オーディオ信号ｙは、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号ｙ、２３０は、例えば、ｙ＝ｘ＋ｎとして定義され、ｘは入力信号のクリーンな部分であり、ｎは雑音の多い背景である。入力オーディオ信号ｙ、２３０は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。

【0083】

入力オーディオ信号ｙ、２３０は、任意に、例えば図４に示すように、例えば図９を参照して説明した非線形圧縮などの非線形圧縮によって、例えば圧縮されて前処理されてもよい。

【0084】

入力オーディオ信号ｙおよびそれに対応してそのクリーンな部分ｘは、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0085】

雑音信号ｚ、２２０（またはその前処理済バージョンｚ（ｉ＝１））は、入力オーディオ信号ｙ、２３０とともに装置２００の第１のフローブロック２１０_１に導入される。雑音信号ｚ、２２０は、例えば、装置２００において生成されてもよく、または、例えば、外部で生成されて装置２００に提供されてもよい。雑音信号ｚは、装置２００に記憶されてもよく、または外部記憶装置、例えばリモートサーバから装置に提供されてもよい。雑音信号ｚ、２２０は、例えば、平均および単位分散がゼロの正規分布、例えば、ｚ～Ｎ（ｚ；０；Ｉ）からサンプリングされるものとして定義され得る。雑音信号ｚ、２２０は、例えば、雑音サンプル、例えば、時間領域雑音サンプルとして表され得る。

【0086】

信号ｚ、２２０は、装置２００に導入される前に前処理されてもよい。例えば、雑音信号ｚ、２２０の雑音サンプルは、任意に、サンプルのグループに、例えば８サンプルのグループに、例えばベクトル表現（または行列表現）にグループ化されてもよい。任意の前処理ステップは、図２には示されていない。

【0087】

雑音信号ｚ（ｉ＝１）、２４０_１は、入力オーディオ信号ｙ、２３０とともに、装置２００の第１のフローブロック２１０_１、例えば推論フローブロックに導入される。雑音信号ｚ（ｉ）、２４０_１は、例えば入力オーディオ信号ｙ、２３０によって調整されることに基づいて、フローブロック１１０_{１．．．Ｎ}において処理される。入力オーディオ信号ｙ、２３０は、フローブロック１１０_{１．．．Ｎ}の各フローブロックに導入される。

【0088】

第１のフローブロック２１０_１における処理は、例えば２つのステップにおいて、例えば２つのブロックにおいて（または２つの機能ブロックを使用して）、例えば２つの動作：アフィン結合層２１１_１および任意に１×１可逆畳み込み２１２_１において実行される。

【0089】

アフィン結合層ブロック２１１_１において、雑音信号ｚ（ｉ＝１）、２４０_１は、例えば、第１のフローブロック２１０_１のアフィン結合層ブロック２１１_１に導入される入力オーディオ信号ｙ、２３０によって調整されることに基づいて処理される。第１のフローブロック２１０_１のアフィン結合層ブロック２１１_１、ならびにフローブロック２１０_{１．．．Ｎ}の後続のフローブロックのアフィン結合層ブロック２１１_{１．．．Ｎ}における雑音信号ｚ（ｉ＝１）、２４０_１および入力オーディオ信号ｙ、２３０の処理の例を、図３を参照してさらに説明する。第１のフローブロック２１０_１のアフィン結合層ブロック２１１_１における処理の後、出力信号ｚ_ｎｅｗ（ｉ＝１）、２５０_１が出力される。

【0090】

可逆畳み込みブロック２１２_１では、出力信号ｚ_ｎｅｗ（ｉ＝１）のサンプル２５０_１が混合されて、処理されたフローブロック出力信号ｚ’_ｎｅｗ（ｉ＝１）が受信される。可逆畳み込みブロック２１２_１は、例えば、アフィン結合層ブロック２１１_１の出力におけるチャネルの順序を逆にする（または、一般に、変更する）。可逆畳み込みブロック２１２_１は、例えば、重み行列Ｗを使用して、例えばランダム回転行列として、または例えば擬似ランダムだが決定論的回転行列もしくは置換行列として実行されてもよい。第１のフローブロック２１０_１は、出力信号ｚ_ｎｅｗ（ｉ＝１）または処理されたフローブロック出力信号ｚ’_ｎｅｗ（ｉ＝１）を出力フローブロック信号２５１_１として提供し、これは、対応して、入力オーディオ信号ｙ、２３０とともに装置２００の第２のフローブロック２１０_２についての入力信号ｚ（ｉ＝２）、２４０_２である。第２のフローブロック２１０_２の出力信号ｚ_ｎｅｗ（ｉ＝２）、２５０_２は、第３のブロックの入力信号ｚ（ｉ＝３）などである。最後のＮ個のフローブロック２１０_Ｎは、入力信号として信号ｚ（ｉ＝Ｎ）、２４０_Ｎを有し、装置２００の出力信号２６０を形成する信号ｚ_ｎｅｗ（ｉ＝Ｎ）、２５０_Ｎを出力する。信号ｚ_ｎｅｗ（ｉ＝Ｎ）、２５０_Ｎは、例えば入力オーディオ信号ｙ、２３０の強調されたクリーンな部分を表す、例えば強調されたオーディオ信号などの処理されたオーディオ信号

、２６０を形成する。

【0091】

フローブロック２１０_{１．．．Ｎ}の全ての後続のフローブロックにおける処理は、２つのステップにおいて、例えば２つのブロックにおいて、例えば２つの動作：アフィン結合層および１×１可逆畳み込みにおいて実行され得る。これらの２つのステップは、例えば、第１のフローブロック２１０_１に関連して説明したものと同じであってもよい（例えば、異なるフローブロックにおいて異なるニューラルネットパラメータが使用されてもよい）。

【0092】

フローブロック２１０_{１．．．Ｎ}のアフィン結合層ブロック２１１_{１．．．Ｎ}は、対応するニューラルネットワーク（図示せず）に関連付けられ（または含み）、ネットワークは、上述したように、フローブロック２１０_{１．．．Ｎ}に関連付けられる。ネットワークのパラメータは、例えば、図５～図８を参照して説明した装置（または機能）によるネットワークの訓練中に予め決定される。

【0093】

入力オーディオ信号ｙ、２３０のクリーンな部分ｘは、装置２００に別々に導入されない。装置２００は、入力オーディオ信号ｙ、２３０に基づいて、例えば生成された雑音信号ｚ、２２０を処理して、例えば入力オーディオ信号ｙ、２３０のクリーンな部分の強調である強調されたオーディオ信号を受信、例えば生成、例えば出力する。

【0094】

しかしながら、装置２００は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0095】

図３は、実施形態にかかる、フローブロック３１１、例えば推論フローブロックの概略図を示している。

【0096】

フローブロック３１１は、例えば、図１に示す装置１００または図２に示す装置２００による処理の一部であってもよい。図１に示す装置１００のフローブロックは、図３に示すフローブロック３１１と同じ構造を有してもよく、またはフローブロック３１１（例えば、追加の機能とともに）の機能（および／または構造）を含んでもよい。図２に示す装置２００のフローブロックのアフィン結合層ブロックは、図３に示すフローブロック３１１と同じ構造を有してもよく、またはフローブロック３１１（例えば、追加の機能とともに）の機能（および／または構造）を含んでもよい。

【0097】

図３および以下の説明では、簡略化のためにフローブロックインデックスｉが部分的に省略される。

【0098】

入力信号３４０がフローブロックに導入される。入力信号３４０は、例えば図１に示す実施形態に示すように、雑音信号（またはその処理済バージョン）ｚ（ｉ）を表し得る。例えば、入力信号３４０は、時間領域サンプルの形態で表されてもよい。入力信号３４０は、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0099】

入力信号３４０は、２つの部分ｚ_１（ｉ）およびｚ_２（ｉ）に、例えばランダムに、または擬似ランダムであるが決定論的に、または所定の方法で（例えば、２つの後続部分に）分割される（３７０）。

【0100】

第１の部分ｚ_１（ｉ）（例えば、入力信号３４０の時間領域サンプルのサブセットを含み得る）は、（フローブロックインデックスｉを有する）フローブロック３１１に関連付けられたニューラルネットワーク３８０（ＮＮ（ｉ）とも呼ばれる）に導入される。ニューラルネットワーク３８０は、例えば、図１に示す装置１００のフローブロック１１０_{１．．．Ｎ}のいずれかに関連付けられたニューラルネットワークとすることができる。ニューラルネットワーク３８０は、例えば、図２に示す装置２００のフローブロック２１０_{１．．．Ｎ}のアフィン結合層ブロックのいずれかに関連付けられたニューラルネットワークとすることができる。ニューラルネットワーク３８０のパラメータは、例えば、図５～図８を参照して説明した装置によって、例えばネットワークの訓練において予め決定されることができる。

【0101】

第１の部分ｚ_１（ｉ）は、入力オーディオ信号ｙ、３３０とともにニューラルネットワーク３８０に導入される。入力オーディオ信号ｙ、３３０は、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号ｙ、３３０は、例えば、ｙ＝ｘ＋ｎとして定義され、ｘは入力オーディオ信号ｙ、３３０のクリーンな部分であり、ｎは雑音の多い背景である。

【0102】

入力オーディオ信号ｙ、３３０は、任意に、例えば図４に示すように、例えば図９を参照して説明した非線形圧縮などの非線形圧縮によって、例えば圧縮されて前処理されてもよい。

【0103】

入力オーディオ信号ｙおよびそれに対応してそのクリーンな部分ｘは、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0104】

ニューラルネットワーク３８０は、第１の部分ｚ_１（ｉ）および入力オーディオ信号ｙ、３３０を処理し、例えば、入力オーディオ信号ｙ、３３０によって調整されるなどに応じて、第１の部分ｚ_１（ｉ）を処理する。ニューラルネットワーク３８０は、ニューラルネットワーク３８０の出力（３７１）である処理パラメータ、例えばスケーリング係数、例えばＳ、およびシフト値、例えばＴを決定する。決定されたパラメータＳ、Ｔは、例えばベクトル表現を有する。例えば、異なるスケーリング値および／またはシフト値は、第２の部分ｚ_２（ｉ）の異なるサンプルに関連付けられてもよい。（例えば、入力信号３４０の時間領域サンプルのサブセットを含み得る）雑音信号ｚの第２の部分ｚ_２（ｉ）は、決定されたパラメータＳ、Ｔを使用して処理される（３７２）。処理された（アフィン処理された）第２の部分第２の部分

（ｉ）は、次式によって定義される：

（１）
この式では、ｓはＳに等しくてもよく（例えば、単一のスケール係数値のみがニューラルネットによって提供される場合）、またはｓはスケール係数値のベクトルＳの要素であってもよい（例えば、スケール係数値のベクトルがニューラルネットによって提供される場合）。同様に、ｔはＴに等しくてもよく（例えば、単一のシフト値のみがニューラルネットによって提供される場合）、またはｔはシフト値のベクトルＴの要素であってもよい（例えば、スケール係数値のベクトルがニューラルネットによって提供される場合、そのエントリはｚ_２（ｉ）の異なるサンプル値に関連付けられる）。

【0105】

例えば、

についての上記の式は、第２の部分ｚ_２の個々の要素または要素のグループに要素ごとに適用されてもよい。しかしながら、ニューラルネットによって単一の値ｓおよび単一の値ｔのみが提供される場合、この単一の値ｓおよびこの単一の値ｔは、同じように第２の部分ｚ_２の全ての要素に適用されてもよい。

【0106】

信号ｚの未処理の第１の部分ｚ_１（ｉ）および信号ｚの処理済部分

は組み合わされ（３７３）、フローブロック３１１において処理された信号ｚ_ｎｅｗ、３５０を形成する。この出力信号ｚ_ｎｅｗは、次の、例えば結果または後続のフローブロック、例えば第２のフローブロック、例えばフローブロックｉ＋１に導入される。ｉ＝Ｎの場合、信号ｚ_ｎｅｗ、３５０は、例えば、対応する装置の出力信号

である。

【0107】

しかしながら、フローブロック３１１は、個々にまたは組み合わせて、本明細書に開示された特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0108】

また、フローブロック３１１は、任意に、本明細書に開示される実施形態のいずれかにおいて使用されてもよい。

【0109】

図４は、実施形態にかかる処理された信号を提供するための装置４００の概略図を示している。

【0110】

実施形態では、図１に示す装置１００または図２に示す装置２００の特徴、機能および詳細は、任意に装置４００に（個々におよび組み合わせて）導入されてもよく、またはその逆であってもよい。

【0111】

図３に示すフローブロック３１１は、例えば、実施形態における装置４００において使用されることができる。

【0112】

装置４００は、入力オーディオ信号ｙ、４３０に基づいて処理された、例えば強調されたオーディオ信号を提供するように構成されている。処理は、ニューラルネットワーク（図示せず）に関連付けられたＮ個のフローブロック、例えば推論フローブロック４１０_{１．．．Ｎ}において実行される。フローブロック４１０_{１．．．Ｎ}は、到来するオーディオ信号、例えば発話信号を処理するように構成されている。

【0113】

入力オーディオ信号ｙ、４３０は、処理されるべき装置４００に導入される。入力オーディオ信号ｙ、４３０は、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号ｙは、例えば、ｙ＝ｘ＋ｎとして定義され、ｘは入力信号のクリーンな部分であり、ｎは雑音の多い背景である。入力オーディオ信号ｙ、４３０は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。

【0114】

入力オーディオ信号ｙ、４３０は、任意に、例えば非線形圧縮４９０によって圧縮されるなど、前処理されてもよい。

【0115】

非線形圧縮ステップ４９０は、任意に、入力オーディオ信号ｙ、４３０に適用される。ステップ４９０は、図４に示すように任意である。非線形圧縮ステップ４９０は、例えば、入力オーディオ信号ｙ、４３０を圧縮するために適用されることができる。実施形態では、非線形入力圧縮ステップ４９０は、図９を参照して説明した通りである。

【0116】

実施形態では、非線形圧縮４９０は、例えば、入力オーディオ信号ｙ、４３０のμ則圧縮、または例えばμ則変換によって表されることができる。例えば、以下である：

（２）
ここで、ｓｇｎ（）は、符号関数であり、
μは、圧縮レベルを定義するパラメータである。

【0117】

パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である２５５に設定され得る。入力オーディオ信号ｙおよびそれに対応してそのクリーンな部分ｘは、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0118】

雑音信号ｚ、４２０は、例えば、装置４００への入力信号であるか、あるいは装置４００によって生成されてもよい。雑音信号ｚ、４２０を装置４００の第１のフローブロック４１０_１に導入する前に、雑音信号ｚのオーディオサンプルは、サンプルのグループ、例えば８サンプルのグループ、例えばベクトル表現（または行列表現）にグループ化される（例えば、グループ化ブロック４０５において）。グループ化ステップ４０５は、図４に示すように、任意のステップである。

【0119】

（任意にグループ化された）雑音信号ｚ（ｉ）、４４０_１は、入力オーディオ信号ｙ、４３０とともに、または前処理された、例えば圧縮された入力オーディオ信号ｙ’とともに、装置４００の第１のフローブロック４１０_１に導入される。雑音信号ｚ、４２０は、例えば、装置４００において（または装置４００によって）生成されるか、または、例えば、外部で生成され、装置４００に提供される。雑音信号ｚは、装置４００に記憶されてもよく、または外部記憶装置、例えばリモートサーバから装置に提供されてもよい。雑音信号ｚ、４２０は、例えば、平均および単位分散がゼロの正規分布（またはガウス分布）、例えば、ｚ～Ｎ（ｚ；０；Ｉ）からサンプリングされるものとして定義される。雑音信号ｚ、４２０は、例えば、雑音サンプル、例えば、時間領域雑音サンプルとして表される。

【0120】

（任意にグループ化された）雑音信号ｚ（ｉ）、４４０_１は、入力オーディオ信号ｙ、４３０とともに装置４００の第１のフローブロック４１０_１に導入される。雑音信号ｚ（ｉ）は、例えば入力オーディオ信号ｙ、４３０によって調整されることに基づいて、フローブロック４１０_{１．．．Ｎ}において（例えば、連続的にまたは段階的に）処理される。入力オーディオ信号ｙ、４３０は、例えば、フローブロック４１０_{１．．．Ｎ}の各フローブロックに導入される。

【0121】

第１のフローブロック２４１０_１における処理は、２つのステップにおいて、例えば２つのブロックにおいて、例えば２つの動作：アフィン結合層４１１_１および任意に１×１可逆畳み込み４１２_１において実行される。

【0122】

アフィン結合層ブロック４１１_１において、雑音信号ｚ（ｉ＝１）、４４０_１は、例えば、第１のフローブロック４１０_１のアフィン結合層ブロック４１１_１に導入される入力オーディオ信号ｙ、４３０によって調整されることに基づいて処理される。アフィン結合層ブロックは、例えば、単一のアフィン結合層または複数のアフィン結合層を含み得ることに留意されたい。第１のフローブロック４１０_１のアフィン結合層ブロック４１１_１における、ならびにフローブロック４１０_{１．．．Ｎ}の後続のフローブロック４１０_{２．．．Ｎ}のアフィン結合層ブロック４１１_{２．．．Ｎ}における雑音信号ｚ（ｉ＝１）、４４０_１および入力オーディオ信号ｙ、４３０の処理は、図３を参照して説明したように実行され得る。第１のフローブロック４１０_１のアフィン結合層ブロック４１１_１における処理の後、出力信号ｚ_ｎｅｗ（ｉ＝１）、４５０_１が出力される。

【0123】

可逆畳み込みブロック４１２_１では、出力信号ｚ_ｎｅｗ（ｉ＝１）、４５０_１のサンプルが混合され（例えば、並べ替えられるか、または回転行列のような可逆行列演算を受ける）、処理されたフローブロック出力信号ｚ’_ｎｅｗ（ｉ＝１）を受信する。可逆畳み込みブロック４１２_１は、例えば、アフィン結合層ブロック４１１_１の出力におけるチャネル（またはサンプル）の順序を逆にする。可逆畳み込みブロック４１２_１は、例えば、重み行列Ｗを使用して、例えば、ランダム（または擬似ランダムだが決定論的）回転行列として、またはランダム（または擬似ランダムだが決定論的）置換行列として実行されてもよい。

【0124】

第１のフローブロック４１０_１は、出力信号ｚ_ｎｅｗ（ｉ＝１）または処理されたフローブロック出力信号ｚ’_ｎｅｗ（ｉ＝１）を出力フローブロック信号４５１_１として提供し、これは、対応して、入力オーディオ信号ｙ、４３０とともに装置４００の第２のフローブロック４１０_２の入力信号ｚ（ｉ＝２）、４４０_２である。第２のフローブロック４１０_２の出力信号ｚ_ｎｅｗ（ｉ＝２）またはｚ’_ｎｅｗ（ｉ＝２）、４５０_２は、第３のブロックの入力信号ｚ（ｉ＝３）などである。最後のＮ個のフローブロック４１０_Ｎは、入力信号として信号ｚ（ｉ＝Ｎ）、４４０_Ｎを有し、装置４００の出力信号４６０を形成する信号ｚ_ｎｅｗ（ｉ＝Ｎ）またはｚ’_ｎｅｗ（ｉ＝Ｎ）、４５０_Ｎを出力する。信号ｚ_ｎｅｗ（ｉ＝Ｎ）またはｚ’_ｎｅｗ（ｉ＝Ｎ）、４５０_Ｎは、処理されたオーディオ信号

、４６０、例えば、入力オーディオ信号ｙ、４３０の強調されたクリーンな部分を表す強調されたオーディオ信号を形成する。実施形態では、処理されたオーディオ信号

、４６０は、例えば、装置４００の出力信号である。

【0125】

フローブロック４１０_{１．．．Ｎ}の全ての後続のフローブロックにおける処理は、例えば、２つのステップにおいて、例えば２つのブロックにおいて、例えば２つの動作：アフィン結合層および１×１可逆畳み込みにおいて実行される。これらの２つのステップは、例えば、第１のフローブロック４１０_１に関して説明したのと（例えば定性的に）同じである。しかしながら、スケーリング値およびシフト値を決定するためのニューラルネットワークの異なるニューラルネットワーク係数は、異なる処理ステージにおいて使用されてもよい。さらに、可逆畳み込みはまた、異なるステージにおいて異なっていてもよい（しかしながら、異なるステージにおいて等しくてもよい）。

【0126】

フローブロック４１０_{１．．．Ｎ}のアフィン結合層ブロックは、対応するニューラルネットワーク（図示せず）に関連付けられ、ニューラルネットワークは、示されるように、フローブロック４１０_{１．．．Ｎ}に関連付けられる。

【0127】

非線形拡張ステップ４１５は、任意に、処理されたオーディオ信号

、４６０に適用される。ステップ４１５は、図４に示すように任意である。非線形拡張ステップ４１５は、例えば、処理されたオーディオ信号

、４６０を通常の信号に拡張するために適用されることができる。実施形態では、非線形拡張は、例えば、処理されたオーディオ信号

、４６０の逆μ則変換によって表され得る。例えば、以下である：

（３）
ここで、ｓｇｎ（）は、符号関数であり、
μは、拡張レベルを定義するパラメータである。

【0128】

パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である２５５に設定され得る。非線形拡張ステップ４１５は、例えば、フローブロック４１０_{１．．．Ｎ}に関連付けられたニューラルネットワークの訓練中に非線形圧縮が前処理ステップとして使用された場合に適用されることができる。

【0129】

入力オーディオ信号ｙ、４３０のクリーンな部分ｘは、装置４００に別々に導入されないことに留意されたい。装置４００は、入力オーディオ信号ｙ、４３０に基づいて、例えば生成された雑音信号ｚ、４２０を処理して、例えば入力オーディオ信号ｙ、４３０のクリーンな部分の強調である強調されたオーディオ信号を受信、例えば生成、例えば出力する。

【0130】

しかしながら、装置４００は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0131】

図５は、実施形態にかかるニューラルネットワークパラメータを提供するための装置５００の概略図を示している。

【0132】

装置５００は、訓練オーディオ信号ｘ、５０５、例えばクリーンなオーディオ信号、および訓練オーディオ信号ｙ、５３０の歪んだバージョン、例えば歪んだオーディオ信号に基づいて、ニューラルネットワークパラメータ（例えば、ニューラルネットワーク３８０による使用のために、フローブロック１１０_{１．．．Ｎ}、２１０_{１．．．Ｎ}、４１０_{１．．．Ｎ}に関連付けられたＮＮ（ｉ））を提供するように構成されている。処理は、例えば、ニューラルネットワーク５８０_{１．．．Ｎ}に関連付けられたＮ個のフローブロック、例えば、訓練フローブロック５１０_{１．．．Ｎ}において実行される。訓練フローブロック５１０_{１．．．Ｎ}は、例えば、到来するオーディオ信号、例えば発話信号を処理するように構成されている。

【0133】

訓練オーディオ信号ｙ、５３０の歪んだバージョンは、処理される（または装置５００によって生成される）ように装置５００に導入される。歪んだオーディオ信号ｙは、例えば、雑音の多い入力信号である。歪んだ訓練オーディオ信号ｙ、５３０は、例えば、ｙ＝ｘ＋ｎとして定義され、ｘは入力信号のクリーンな部分であり、例えば、訓練入力信号ｘ、５０５であり、ｎは雑音の多い背景である。歪んだ訓練オーディオ信号ｙ、５３０は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。

【0134】

訓練オーディオ信号ｘおよびそれに対応して訓練オーディオ信号ｙの歪んだバージョンは、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0135】

装置５００は、例えば雑音信号などの訓練結果オーディオ信号５２０の分布、例えばガウス分布にマッピングされるべき、訓練フローブロック５１０_{１．．．Ｎ}にしたがうクリーン－雑音（ｘ－ｙ）対に基づいてニューラルネットワーク５８０_{１．．．Ｎ}（例えば、ニューラルネットワーク３８０、ＮＮ（ｉ）に対応してもよく、またはニューラルネットワーク３８０ｍＮＮ（ｉ）のそれぞれに等しくてもよい）についてのニューラルネットワークパラメータを提供するように構成されている。

【0136】

訓練オーディオ信号ｘ、５０５は、歪んだ訓練オーディオ信号ｙ、５３０とともに装置５００の第１のフローブロック５１０_１に導入される。訓練オーディオ信号ｘ、５０５は、例えば、オーディオサンプルとして、例えば、時間領域サンプルとして表される。

【0137】

訓練オーディオ信号ｘは、装置５００に入る前に（任意に）訓練オーディオ信号ｘ（ｉ＝１）に前処理されてもよい。例えば、雑音信号ｘのオーディオサンプルｘは、サンプルのグループ、例えば８サンプルのグループ、例えばベクトル表現（または行列表現）にグループ化されてもよい。任意の前処理ステップは、図１には示されていない。

【0138】

訓練オーディオ信号ｘ（ｉ＝１）、５４０_１は、歪んだ訓練オーディオ信号ｙ、５３０とともに、装置５００の第１のフローブロック５１０_１、例えば訓練フローブロックに導入される。図６および図７を参照して、フローブロック５１０_{１．．．Ｎ}の最初のフローブロック５１０_１および後続のフローブロックにおける訓練オーディオ信号ｘ（ｉ＝１）、５４０_１および歪んだ訓練オーディオ信号ｙ、５３０の処理についてさらに説明する。訓練オーディオ信号ｘ（ｉ＝１）、５４０_１は、例えば、歪んだ訓練オーディオ信号ｙ、５３０によって調整されることに基づいて、フローブロック５１０_{１．．．Ｎ}において（例えば、連続的または段階的に）処理される。歪んだ訓練オーディオ信号ｙ、５３０は、例えば、フローブロック５１０_{１．．．Ｎ}の各フローブロックに導入される。

【0139】

訓練オーディオ信号ｘ（ｉ＝１）、５４０_１の第１のフローブロック５１０_１における処理の後、出力信号ｘ_ｎｅｗ（ｉ＝１）、５５０_１が出力される。信号ｘ_ｎｅｗ（ｉ＝１）、５５０_１は、歪んだ訓練オーディオ信号ｙ、５３０とともに、装置５００の第２のフローブロック５１０_２に対する入力信号ｘ（ｉ＝２）、５４０_２である。第２のフローブロック５１０_２の出力信号ｘ_ｎｅｗ（ｉ＝２）、５５０_２は、第３のフローブロックの入力信号ｘ（ｉ＝３）などである。最後のＮ個のフローブロック５１０_Ｎは、入力信号として信号ｘ（ｉ＝Ｎ）、５４０_Ｎを有し、信号ｘ_ｎｅｗ（ｉ＝Ｎ）、５５０_Ｎを出力し、これは、装置５００の出力信号５２０または例えば雑音信号（または少なくとも雑音様信号であって、雑音信号と類似の統計的特性を有する雑音様信号）である訓練結果オーディオ信号ｚ、５２０を形成する。訓練結果オーディオ信号ｚ、５２０は、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0140】

フローブロック５１０_{１．．．Ｎ}における歪んだ訓練オーディオ信号ｙ、５３０に応じた訓練オーディオ信号ｘの処理は、例えば反復的に実行される。

【0141】

訓練結果オーディオ信号ｚ、５２０の特性、例えば分布（例えば、信号値の分布）が所定の特性、例えばガウス分布に近似しているかどうかを決定または推定するために、例えば各反復の後に、訓練結果オーディオ信号ｚ、５２０の推定（または評価または査定）が実行され得る。訓練結果オーディオ信号ｚ、５２０の特性が所定の特性に（例えば、所望の許容範囲内で）接近しない場合、ニューラルネットワークパラメータは、後続の反復の前に変更されてもよい。

【0142】

したがって、ニューラルネットワーク５８０_{１．．．Ｎ}のニューラルネットワークパラメータは、ニューラルネットワーク５８０_{１．．．Ｎ}の制御下で一連のフローブロック５１０_{１．．．Ｎ}における訓練オーディオ信号の処理に基づいて得られる訓練結果オーディオ信号が、（例えば、所定の）許容公差内の所望の統計的特性（例えば、値の所望の分布）を含む（または近似する）ように決定され得る（例えば、反復的に）。

【0143】

ニューラルネットワーク５８０_{１．．．Ｎ}のニューラルネットワークパラメータは、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、決定され得る。

【0144】

装置５００において、クリーンな信号ｘは、訓練フローブロック５１０_{１．．．Ｎ}に関連付けられたニューラルネットワーク５８０_{１．．．Ｎ}を訓練するために、対応する歪んだ、例えば雑音の多いオーディオ信号ｙとともに導入される。訓練結果オーディオ信号５２０を考慮して、装置５００は、訓練の結果として、ニューラルネットワーク５８０_{１．．．Ｎ}のニューラルネットワークパラメータ、例えばエッジ重み（θ）を決定する（５９０）。

【0145】

装置５００によって決定されたニューラルネットワークパラメータは、例えば、図１、図２および図４に示す装置のフローブロックに関連付けられたニューラルネットワークによって使用されることができる（ここで、図１、図２および図４の装置のフローブロックは、例えば、フローブロック５１０_{１．．．Ｎ}によって実行されるアフィン変換と実質的に逆のアフィン変換を実行するように構成され得ることに留意されたい）。

【0146】

しかしながら、装置５００は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0147】

図６は、実施形態にかかるニューラルネットワークパラメータを提供するための装置６００の概略図を示している。

【0148】

実施形態では、装置６００の特徴、機能および詳細は、任意に、図５に示す装置５００に（個々におよび組み合わせて）導入されてもよく、またはその逆であってもよい。

【0149】

装置６００は、訓練オーディオ信号ｘ、６０５、例えば、クリーンなオーディオ信号、および訓練オーディオ信号ｙ、ｙ_{ｉｎｐｕｔ}、６３０の歪んだバージョン、例えば、歪んだオーディオ信号に基づいて、ニューラルネットワークパラメータを提供するように構成されている。処理は、図５のニューラルネットワーク５８０_{１．．．Ｎ}のようなニューラルネットワーク（図示せず）、例えばニューラルネットワークに関連付けられたＮ個のフローブロック、例えば訓練フローブロック６１０_{１．．．Ｎ}において実行される。フローブロック６１０_{１．．．Ｎ}は、到来するオーディオ信号、例えば発話信号を処理するように構成されている。

【0150】

訓練オーディオ信号ｙ、６３０の歪んだバージョンは、処理されるべき装置６００に導入される。歪んだオーディオ信号ｙ、６３０は、例えば、雑音の多い入力信号である。歪んだ訓練オーディオ信号ｙ、６３０は、例えば、ｙ＝ｘ＋ｎとして定義され、ｘは入力信号のクリーンな部分であり、例えば、訓練入力信号ｘ、６０５であり、ｎは雑音の多い背景である。歪んだ訓練オーディオ信号ｙ、６３０は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表される。

【0151】

【0152】

装置６００は、例えば雑音信号などの訓練結果オーディオ信号６２０の分布、例えばガウス分布にマッピングされるべき訓練フローブロック６１０_{１．．．Ｎ}にしたがうクリーン－雑音（ｘ－ｙ）対に基づいてニューラルネットワーク（図示せず）についてのニューラルネットワークパラメータを提供するように構成されている。

【0153】

訓練オーディオ信号ｘ、６０５は、歪んだ訓練オーディオ信号ｙ、６３０とともに装置６００の第１のフローブロック６１０_１に導入される。訓練オーディオ信号ｘ、６０５は、例えば、オーディオサンプルとして、例えば、時間領域サンプルとして表され得る。

【0154】

訓練オーディオ信号ｘは、任意に、装置６００にまたは装置６００内に入る前に、入力オーディオ信号ｘ_{ｉｎｐｕｔ}（ｉ＝１）、６０６に前処理される。図６に示すように、訓練オーディオ信号ｘの、例えば１６０００個のサンプルを有するオーディオサンプルｘは、例えばサンプルのグループに、例えば８サンプルの２０００個のグループに、例えばベクトル表現（または行列表現）にグループ化される。

【0155】

入力オーディオ信号ｘ_{ｉｎｐｕｔ}（ｉ＝１）、６４０は、歪んだ訓練オーディオ信号ｙ、ｙ_{ｉｎｐｕｔ}、６３０とともに、装置６００の第１のフローブロック６１０_１、例えば、訓練フローブロックに導入される。入力オーディオ信号ｘ_{ｉｎｐｕｔ}（ｉ＝１）、６４０は、例えば、歪んだ訓練オーディオ信号ｙ、ｙ_{ｉｎｐｕｔ}、６３０によって調整されることに基づいて、フローブロック６１０_{１．．．Ｎ}において（例えば、連続的にまたは少しずつ）処理される。歪んだ訓練オーディオ信号ｙ、ｙ_{ｉｎｐｕｔ}、６３０は、フローブロック６１０_{１．．．Ｎ}の各フローブロックに導入される。

【0156】

第１のフローブロック６１０_１における処理は、２つのステップにおいてで、例えば２つのブロックにおいて、例えば２つの動作：１×１可逆畳み込み６１２_１およびアフィン結合層６１１_１において実行される。

【0157】

可逆畳み込みブロック６１２_１において、入力オーディオ信号ｘ_{ｉｎｐｕｔ}（ｉ＝１）のサンプル６４０は、アフィン結合層ブロック６１１_１に導入される前に混合される（例えば、並べ替えられるか、または回転行列のような可逆行列演算を受ける）。可逆畳み込みブロック６１２_１は、例えば、アフィン結合層ブロック６１１_１の入力におけるチャネルの順序を逆にする。可逆畳み込みブロック６１２_１は、例えば、重み行列Ｗを使用して、例えば、ランダム回転行列として、擬似ランダムであるが決定論的な回転行列または置換行列として実行されてもよい。入力オーディオ信号ｘ_{ｉｎｐｕｔ}（ｉ＝１）、６４０は、可逆畳み込みブロック６１２_１において処理されて、前処理された、例えば畳み込まれた入力オーディオ信号ｘ’_{ｉｎｐｕｔ}（ｉ＝１）、６４１を出力する。例えば、歪んだ訓練オーディオ信号ｙ、ｙ_{ｉｎｐｕｔ}、６３０は、可逆畳み込みブロック６１２_１に導入されず、アフィン結合層ブロック６１１_１への入力としてのみ機能する。可逆畳み込みブロックは、任意に、実施形態では存在しなくてもよい。

【0158】

アフィン結合層ブロック６１１_１において、前処理された入力オーディオ信号ｘ’_{ｉｎｐｕｔ}（ｉ＝１）、６４１は、例えば、第１のフローブロック６１０_１のアフィン結合層ブロック６１１_１に導入される歪んだ訓練オーディオ信号ｙ、ｙ_{ｉｎｐｕｔ}、６３０によって調整されることに基づいて処理される。第１のフローブロック６１０_１のアフィン結合層ブロック６１１_１における、ならびにフローブロック６１０_{１．．．Ｎ}の後続のフローブロックのアフィン結合層ブロックにおける、前処理された入力オーディオ信号ｘ’_{ｉｎｐｕｔ}（ｉ＝１）、６４１および歪んだ訓練オーディオ信号ｙ、ｙ_{ｉｎｐｕｔ}、６３０の処理を、図７を参照してさらに説明する。

【0159】

フローブロック６１０_{１．．．Ｎ}の全ての後続のフローブロックにおける処理は、例えば、２つのステップにおいて、例えば、２つのブロックにおいて、例えば２つの動作：１×１反転可能畳み込みおよびアフィン結合層において実行される。これらの２つのステップは、例えば、第１のフローブロック６１０_１に関して説明したのと（例えば定性的に）同じである（異なる処理ステージまたはフローブロックのニューラルネットワークは異なるパラメータを含んでもよく、可逆畳み込みは異なるフローブロックまたはステージにおいて異なってもよい）。

【0160】

フローブロック６１０_{１．．．Ｎ}のアフィン結合層ブロックは、対応するニューラルネットワーク（図示せず）に関連付けられる。

【0161】

第１のフローブロック６１０_１のアフィン結合層ブロック６１１_１における処理の後、出力信号ｘ_ｎｅｗ（ｉ＝１）、６５０_１が出力される。信号ｘ_ｎｅｗ（ｉ＝１）、６５０_１は、歪んだ訓練オーディオ信号ｙ、ｙ_{ｉｎｐｕｔ}、６３０とともに、装置６００の第２のフローブロック６１０_２についての入力信号ｘ_{ｉｎｐｕｔ}（ｉ＝２）、６４０_２である。第２のフローブロック６１０_２の出力信号ｘ_ｎｅｗ（ｉ＝２）、６５０_２は、第３のブロックの入力信号ｘ（ｉ＝３）などである。最後のＮ個のフローブロック６１０_Ｎは、入力信号として信号ｘ_{ｉｎｐｕｔ}（ｉ＝Ｎ）、６４０_Ｎを有し、装置６００の出力信号６２０を形成する信号ｘ_ｎｅｗ（ｉ＝Ｎ）、６５０_Ｎを出力する。信号ｘ_ｎｅｗ（ｉ＝Ｎ）、６５０_Ｎは、訓練結果オーディオ信号ｚ、６２０、例えば雑音信号を形成する。訓練結果オーディオ信号ｚ、６２０は、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0162】

フローブロック６１０_{１．．．Ｎ}における歪んだ訓練オーディオ信号ｙ、６３０に応じた訓練オーディオ信号ｘの処理は、例えば反復的に実行される。訓練結果オーディオ信号ｚ、６２０の特性、例えば分布（例えば、信号値の分布）が所定の特性、例えばガウス分布（例えば、所望の許容範囲内で）に近似しているかどうかを推定するために、例えば各反復の後に、訓練結果オーディオ信号ｚ、６２０の推定（または評価もしくは査定）が実行され得る。訓練結果信号ｚ、６２０の特性が所定の特性に接近しない場合、ニューラルネットワークパラメータは、後続の反復の前に変更されてもよい。

【0163】

したがって、ニューラルネットワーク（例えば、ニューラルネットワーク５８０_{１．．．Ｎ}に対応することができる）のニューラルネットワークパラメータは、ニューラルネットワーク５８０_{１．．．Ｎ}の制御下で一連のフローブロック６１０_{１．．．Ｎ}における訓練オーディオ信号の処理に基づいて得られる訓練結果オーディオ信号６２０、６５０_Ｎが（例えば、所定の）許容公差内の所望の統計的特性（例えば、値の所望の分布）を備える（または近似する）ように決定されてもよい（例えば反復的に）。

【0164】

ニューラルネットワークのニューラルネットワークパラメータは、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、決定され得る。

【0165】

装置６００において、クリーンな信号ｘは、訓練フローブロック６１０_{１．．．Ｎ}に関連付けられたニューラルネットワーク（図示せず）を訓練するために、対応する歪んだ、例えば雑音の多いオーディオ信号ｙとともに導入される。訓練結果オーディオ信号６２０を考慮（または評価）すると、装置６００は、訓練の結果として、ニューラルネットワークのニューラルネットワークパラメータ、例えばエッジ重み（θ）を決定する。

【0166】

装置６００によって決定されたニューラルネットワークパラメータは、例えば、図１、図２、および図４に示す装置のフローブロックに関連付けられたニューラルネットワークによって、例えば訓練に続く推論処理において使用され得る。

【0167】

しかしながら、装置６００は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0168】

図７は、実施形態にかかる、例えば訓練フローブロックなどのフローブロック７１１の概略図を示している。

【0169】

フローブロックは、例えば、図５に示される装置５００または図５に示される装置６００による処理の一部であってもよい。図５に示す装置５００のフローブロックは、例えば、図７に示すフローブロック７１１と同じ構造または機能を有することができる。図６に示す装置６００のフローブロックのアフィン結合層ブロックは、例えば、図７に示すフローブロック７１１と同じ構造または機能を有することができる。

【0170】

フローブロック７１１は、例えば、図３に示す対応するフローブロック３１１の逆バージョンであり、または例えば、フローブロック３１１によって実行されるアフィン処理と（少なくとも実質的に）逆であるアフィン処理を実行し得る。例として、訓練フローブロック７１１におけるシフト値ｔの加算は、推論フローブロック３１１におけるシフト値の減算と逆であってもよい。同様に、訓練フローブロック７１１におけるスケーリング値ｓとの乗算は、推論フローブロック３１１におけるスケーリング値ｓによる除算と逆であってもよい。しかしながら、訓練フローブロック７１１内のニューラルネットワークは、例えば、対応する推論フローブロック３１１内のニューラルネットワークと同一であってもよい。

【0171】

図７および以下の説明では、簡略化のためにフローブロックインデックスｉが部分的に省略される。

【0172】

入力信号７４０がフローブロック７１１に導入される。入力信号７４０は、訓練オーディオ信号ｘ（ｉ）、または例えば先行するフローブロックによって出力された訓練オーディオ信号の処理済バージョン、または例えば前処理された、例えば畳み込みされた入力オーディオ信号ｘ’_{ｉｎｐｕｔ}（ｉ＝１）を表し得る。

【0173】

入力信号７４０は、２つの部分ｘ_１（ｉ）およびｘ_２（ｉ）に、例えばランダムまたは擬似ランダム（しかしながら決定論的）に分割される（７７０）。

【0174】

第１の部分ｘ_１（ｉ）は、フローブロック７１１に関連付けられたニューラルネットワーク７８０に導入される。ニューラルネットワーク７８０は、例えば、図５に示す装置５００のフローブロック５１０_{１．．．Ｎ}のいずれか（または所与のもの）に関連付けられたニューラルネットワークとすることができる。ニューラルネットワーク７８０は、例えば、図６に示す装置６００のフローブロック６１０_{１．．．Ｎ}のアフィン結合層ブロックのいずれか（または所与のもの）に関連付けられたニューラルネットワークとすることができる。

【0175】

第１の部分ｘ_１（ｉ）は、歪んだ訓練オーディオ信号ｙ、７３０とともにニューラルネットワーク７８０に導入される。歪んだ訓練オーディオ信号ｙ、７３０は、例えば、雑音の多い信号、または例えば歪んだオーディオ信号である。歪んだ訓練オーディオ信号ｙ、７３０は、例えば、ｙ＝ｘ＋ｎとして定義され、ｘは、クリーンな訓練オーディオ信号、例えば、入力信号７４０、例えば、歪んだ訓練オーディオ信号ｙ、７３０のクリーンな部分であり、ｎは雑音の多い背景である。

【0176】

【0177】

ニューラルネットワーク７８０は、入力信号７４０の第１の部分ｘ_１（ｉ）および歪んだ訓練オーディオ信号ｙ、７３０を処理し、例えば、歪んだ訓練オーディオ信号ｙ、７３０に応じて、例えば調整された第１の部分ｘ_１（ｉ）を処理する。ニューラルネットワーク７８０は、ニューラルネットワーク７８０の出力（７７１）である処理パラメータ、例えばスケーリング係数、例えばＳ、およびシフト値、例えばＴを決定する。決定されたパラメータＳ、Ｔは、例えばベクトル表現を有する。入力信号７４０の第２の部分ｘ_２（ｉ）は、決定されたパラメータＳ、Ｔを使用して処理される（７７２）。

【0178】

処理された第２の部分第２の部分

_２（ｉ）は、以下の式によって定義される：

（４）
この式では、ｓはＳに等しくてもよく（例えば、単一のスケール係数値のみがニューラルネットによって提供される場合）、またはｓはスケール係数値のベクトルＳの要素であってもよい（例えば、スケール係数値のベクトルがニューラルネットによって提供される場合）。同様に、ｔはＴに等しくてもよく（例えば、単一のシフト値のみがニューラルネットによって提供される場合）、またはｔはシフト値のベクトルＴの要素であってもよい（例えば、スケール係数値のベクトルがニューラルネットによって提供される場合、そのエントリはｘ_２（ｉ）の異なるサンプル値に関連付けられる）。

【0179】

例えば、

についての上記の式は、第２の部分ｘ_２の個々の要素または要素のグループに要素ごとに適用されてもよい。しかしながら、ニューラルネットによって単一の値ｓおよび単一の値ｔのみが提供される場合、この単一の値ｓおよびこの単一の値ｔは、同じように第２の部分ｘ_２の全ての要素に適用されてもよい。

【0180】

信号ｘの未処理の第１の部分ｘ_１（ｉ）および信号ｘの処理済部分

は組み合わされ（７７３）、フローブロック７１１において処理された信号ｘ_ｎｅｗ、７５０を形成する。この出力信号ｘ_ｎｅｗは、次の、例えば後続のフローブロック、例えば第２のフローブロック、例えばフローブロック（ｉ＋１）に導入される。ｉ＝Ｎの場合、信号ｘ_ｎｅｗ、７５０は、対応する装置の出力信号、例えばｚである。出力信号ｚは、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0181】

前処理された雑音信号ｘ’（ｉ）が入力信号７４０として使用される場合、入力信号７４０は、例えば、フローブロック７１１における同ｘ（ｉ）の処理を回避するために事前混合される。例えば、前処理（例えば、可逆畳み込みを使用する）は、（訓練オーディオ信号の）異なるサンプル（例えば、異なる元のサンプル位置に由来する）が（すなわち、サンプルの同じサブセットが各フローブロックにおいてアフィン的に処理されることを回避するために）異なるフローブロックにおいてアフィン的に処理され、（訓練オーディオ信号の）異なるサンプル（例えば、異なる元のサンプル位置に由来する）が異なるフローブロックまたは処理ステージに関連付けられたニューラルネットワークの入力信号として機能する（すなわち、サンプルの同じサブセットが各フローブロック内のニューラルネットワークに入力されることを回避するために）という効果を有することができる。しかしながら、フローブロック７１１は、個々にまたは組み合わせて、本明細書に開示された特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0182】

図８は、実施形態にかかるニューラルネットワークパラメータを提供するための装置８００の概略図を示している。

【0183】

実施形態では、装置８００は、例えば、図５に示す装置５００と組み合わされてもよく、または例えば、図８に示す装置６００と組み合わされてもよい。また、装置８００の特徴、機能、および詳細は、任意に、装置５００または装置６００（個々におよび組み合わせて）に導入されてもよく、またはその逆であってもよい。

【0184】

図７に示すフローブロック７１１は、例えば、実施形態における装置８００において使用されることができる。

【0185】

装置８００は、訓練オーディオ信号ｘ、８０５、例えば、クリーンなオーディオ信号、および訓練オーディオ信号の歪んだバージョンｙ、８３０、例えば、歪んだオーディオ信号に基づいて、ニューラルネットワークパラメータを提供するように構成されている。処理は、例えば、ニューラルネットワークに関連付けられたＮ個のフローブロック、例えば、訓練フローブロック８１０_{１．．．Ｎ}において実行される（第１のフローブロック８１０_１のニューラルネットワーク８８０_１のみが示されている）。フローブロック８１０_{１．．．Ｎ}は、到来するオーディオ信号、例えば発話信号を処理するように構成されている。

【0186】

訓練オーディオ信号ｙ、８３０の歪んだバージョンは、処理されるべき装置８００に導入される。歪んだオーディオ信号ｙ、８３０は、例えば、雑音の多い入力信号である。歪んだ訓練オーディオ信号ｙ、８３０は、例えば、ｙ＝ｘ＋ｎとして定義され、ｘは入力信号のクリーンな部分、例えば訓練オーディオ信号ｘ、８０５であり、ｎは雑音の多い背景である。歪んだ訓練オーディオ信号ｙ、８３０は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表される。

【0187】

【0188】

訓練オーディオ信号ｘ、８０５は、歪んだ訓練オーディオ信号ｙ、８３０とともに装置８００のフローブロック８１０_１に導入される。訓練オーディオ信号ｘ、８０５は、例えば、オーディオサンプルとして、例えば、時間領域サンプルとして表される。

【0189】

装置８００は、例えば雑音信号などの訓練結果信号８２０の分布、例えばガウス分布にマッピングされるべき訓練フローブロック８１０_{１．．．Ｎ}にしたがうクリーン－雑音（ｘ－ｙ）対に基づいてニューラルネットワーク（図示せず）のためのニューラルネットワークパラメータを提供するように構成されている。

【0190】

非線形入力圧縮ステップ８１５は、任意に、訓練オーディオ信号ｘ、８０５に適用される。ステップ８１５は、図８に示されているように任意である。非線形入力圧縮ステップ８１５は、例えば、訓練オーディオ信号ｘ、８０５を圧縮するために適用されることができる。フローブロック８１０_{１．．．Ｎ}に関連付けられたニューラルネットワークを訓練する際に、例えばクリアなオーディオ信号ｘなどの明確な発声の分布を学習するのではなく、任意の非線形入力圧縮ステップ８１５が存在する場合に圧縮信号の分布が学習される。実施形態では、非線形入力圧縮ステップ８１５は、図９を参照して説明した通りである。

【0191】

実施形態では、非線形入力圧縮８１５は、例えば、訓練オーディオ信号ｘ、８０５のμ則圧縮、または例えばμ則変換によって表され得る。例えば、以下である：

（５）
ここで、ｓｇｎ（）は、符号関数であり、
μは、圧縮レベルを定義するパラメータである。

【0192】

パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である２５５に設定され得る。非線形入力圧縮ステップ８１５は、例えば、雑音信号ｚの分布を学習すべき全ての値が均一に分散されていることを確認したい場合に適用されることができる。

【0193】

訓練オーディオ信号ｘ、８０５を装置８００の第１のフローブロック８１０_１に導入する前に、訓練オーディオ信号ｘ、８０５のオーディオサンプルまたは訓練入力信号ｘ’の圧縮オーディオサンプルは、任意に、サンプルのグループ、例えば８サンプルのグループ、例えばベクトル表現（または行列表現）にグループ化される（８１６）。グループ化ステップ８１６は、図８に示すように、任意のステップである。

【0194】

（任意にグループ化された）訓練オーディオ信号ｘ（ｉ＝１）８４０_１が、歪んだ訓練オーディオ信号ｙ、８３０とともに装置８００のフローブロック８１０_１に導入される。

【0195】

非線形入力圧縮ステップ８１５は、任意に、歪んだ訓練オーディオ信号ｙ、８３０にも適用される。ステップ８１５は、図８に示されているように任意である。非線形入力圧縮ステップ８１５は、例えば、歪んだ訓練オーディオ信号ｙ、８３０を圧縮するために適用されることができる。実施形態では、非線形入力圧縮ステップ８１５は、図９を参照して説明した通りである。

【0196】

実施形態では、非線形入力圧縮８１５は、例えば、歪んだ訓練オーディオ信号ｙ、８３０の例えばμ則圧縮、またはμ則変換によって表され得る。例えば、以下である：

（６）
ここで、ｓｇｎ（）は、符号関数であり、
μは、圧縮レベルを定義するパラメータである。

【0197】

パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である２５５に設定され得る。

【0198】

訓練オーディオ信号ｘ（ｉ＝１）８４０_１は、歪んだ訓練オーディオ信号ｙ、８３０とともに、または前処理された、例えば圧縮された、歪んだ訓練オーディオ信号ｙ’とともに、装置８００の第１のフローブロック８１０_１、例えば訓練フローブロックに導入される。訓練オーディオ信号ｘ（ｉ＝１）８４０_１は、例えば、歪んだ訓練オーディオ信号ｙ、８３０によって調整されることに基づいて、フローブロック８１０_{１．．．Ｎ}において処理される。歪んだ訓練オーディオ信号ｙ、８３０は、フローブロック８１０_{１．．．Ｎ}の各フローブロックに導入される。

【0199】

第１のフローブロック８１０_１における処理は、例えば２つのステップにおいて、例えば２つのブロックにおいて、例えば２つの動作：１×１可逆畳み込み８１２_１およびアフィン結合層８１１_１において実行される。

【0200】

可逆畳み込みブロック８１２_１において、訓練オーディオ信号のサンプルｘ（ｉ＝１）８４０_１は、アフィン結合層ブロック８１１_１に導入される前に混合される（例えば、並べ替えられるか、または回転行列のような可逆行列演算を受ける）。可逆畳み込みブロック８１２_１は、例えば、アフィン結合層ブロック８１１_１の入力におけるチャネルの順序を逆にする（または変更する）。可逆畳み込みブロック８１２_１は、例えば、重み行列Ｗを使用して、例えばランダム回転行列またはランダムだが決定論的な回転行列または置換行列として実行されてもよい。例えば、訓練オーディオ信号ｘ（ｉ＝１）８４０_１は、可逆畳み込みブロック８１２_１において処理されて、前処理された、例えば畳み込まれた訓練オーディオ信号ｘ’（ｉ＝１）８４１_１を出力する。例えば、歪んだ訓練オーディオ信号ｙ、８３０は、可逆畳み込みブロック８１２_１に導入されず、アフィン結合層ブロック８１１_１への入力としてのみ機能する。可逆畳み込みブロックは、任意に、実施形態では存在しなくてもよい。

【0201】

アフィン結合層ブロック８１１_１において、前処理された訓練オーディオ信号ｘ’（ｉ＝１）８４１_１は、第１のフローブロック８１０_１のアフィン結合層ブロック８１１_１に導入される、例えば歪んだ訓練オーディオ信号ｙ、８３０によって調整されることに基づいて処理される。第１のフローブロック８１０_１のアフィン結合層ブロック８１１_１における、ならびにフローブロック８１０_{１．．．Ｎ}の後続のフローブロックのアフィン結合層ブロックにおける、前処理された訓練オーディオ信号ｘ’（ｉ＝１）８４１_１および歪んだ訓練オーディオ信号ｙ、８３０の処理を、例えば図７を参照して説明する。

【0202】

フローブロック８１０_{１．．．Ｎ}の全ての後続のフローブロックにおける処理は、例えば、２つのステップにおいて、例えば、２つのブロックにおいて、例えば２つの動作：１×１反転可能畳み込みおよびアフィン結合層において実行される。これらの２つのステップは、例えば、第１のフローブロック８１０_１に関して説明したのと（例えば定性的に）同じである（異なる処理ステージまたはフローブロックのニューラルネットワークは異なるパラメータを含んでもよく、可逆畳み込みは異なるフローブロックまたはステージにおいて異なってもよい）。

【0203】

フローブロック８１０_{１．．．Ｎ}のアフィン結合層ブロックは、対応するネットワークに関連付けられる（第１のフローブロック８１０_１のニューラルネットワーク８８０_１のみが示されている）。

【0204】

第１のフローブロック８１０_１のアフィン結合層ブロック８１１_１における処理の後、出力信号ｘ_ｎｅｗ（ｉ＝１）、８５０_１が出力される。信号８_ｎｅｗ（ｉ＝１）、８５０_１は、歪んだ訓練オーディオ信号ｙ、８３０とともに、装置８００の第２のフローブロック８１０_２に対する入力信号ｘ（ｉ＝２）、８４０_２である。第２のフローブロック８１０_２の出力信号ｘ_ｎｅｗ（ｉ＝２）、８５０_２は、第３のブロックの入力信号ｘ（ｉ＝３）などである。最後のＮ個のフローブロック８１０_Ｎは、入力信号として信号ｘ（ｉ＝Ｎ）、８４０_Ｎを有し、装置８００の出力信号８２０、例えば訓練結果オーディオ信号を形成する信号ｘ_ｎｅｗ（ｉ＝Ｎ）、８５０_Ｎを出力する。信号ｘ_ｎｅｗ（ｉ＝Ｎ）、８５０_Ｎは、訓練結果オーディオ信号ｚ、８２０、例えば雑音信号を形成する。訓練結果オーディオ信号ｚ、８２０は、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0205】

フローブロック８１０_{１．．．Ｎ}における歪んだ訓練オーディオ信号ｙ、８３０に応じた訓練オーディオ信号ｘの処理は、例えば反復的に実行される。訓練結果信号ｚ、８２０の特性、例えば分布（例えば、信号値の分布）が所定の特性、例えばガウス分布（例えば、所望の許容範囲内で）に近似しているかどうかを推定するために、例えば各反復の後に、訓練結果信号ｚ、８２０の推定（または評価もしくは査定）が実行され得る。訓練結果オーディオ信号ｚ、８２０の特性が所定の特性に接近しない場合、ニューラルネットワークパラメータは、後続の反復の前に変更されてもよい。

【0206】

したがって、ニューラルネットワーク（例えば、ニューラルネットワーク５８０_{１．．．Ｎ}、７８０_{１．．．Ｎ}に対応することができる）のニューラルネットワークパラメータは、ニューラルネットワーク８８０_{１．．．Ｎ}の制御下で一連のフローブロック８１０_{１．．．Ｎ}における訓練オーディオ信号の処理に基づいて得られる訓練結果オーディオ信号８２０、８５０_Ｎが（例えば、所定の）許容公差内の所望の統計的特性（例えば、値の所望の分布）を備える（または近似する）ように決定されてもよい（例えば反復的に）。

【0207】

【0208】

装置８００において、クリーンな信号ｘは、訓練フローブロック８１０_{１．．．Ｎ}に関連付けられたニューラルネットワークを訓練するために、対応する歪んだ、例えば雑音の多いオーディオ信号ｙとともに導入される。訓練結果信号８２０を考慮（または評価）すると、ニューラルネットワークのニューラルネットワークパラメータ、例えばエッジ重み（θ）が訓練の結果として決定される。

【0209】

装置８００によって決定されたニューラルネットワークパラメータは、例えば、図１、図２、および図４に示す装置のフローブロックに関連付けられたニューラルネットワークによって、例えば訓練に続く推論処理において使用され得る。

【0210】

しかしながら、装置８００は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0211】

以下では、本発明にかかる実施形態の基礎となるいくつかの考慮事項について説明する。例えば、問題の系統的論述が提供され、正規化フローの基本が記載され、発話強調フローが説明される。以下に記載される概念は、個々に、また本明細書に記載される実施形態と組み合わせて使用されることができる。

【0212】

図１、図２および図４に示す装置１００、２００、４００において使用されるフローブロック処理、ならびに図５、図６および図８に示す装置５００、６００および８００において使用されるフローブロック処理は、例えば、以下のように形式的に表される、可逆的且つ微分可能なマッピングを使用した単純な確率分布からより複雑な確率分布への変換として説明されることができる。

【0213】

ｘ＝ｆ（ｚ）（７）
ここで、

および

は、Ｄ次元ランダム変数であり、

は、ｚからｘへの関数マッピングである。

【0214】

（５）は、微分可能な逆関数による微分可能且つ可逆的な変換を表す。

の可逆性は、このステップがｘからｚに戻るように反転されることができることを保証する：

（８）
さらに、関数

が可逆的且つ微分可能である場合、１からＴ個の変換のシーケンスの構成も可逆的であり、ニューラルネットワークによって記述されることができることが保証される：

．．．

（９）
これに続いて、対数確率密度関数、例えば対数尤度、

は、例えば、変数の変化によって直接計算されることができる：

（１０）
ここで、

は、全ての一次偏微分からなるヤコビアンを定義する。

【0215】

例えば、各装置５００、６００、８００において関数

（例えば、訓練フローブロック５１０_{１．．．Ｎ}によって実行される部分関数から構成される）が実行され、各装置１００、２００、４００において関数

（例えば、推論フローブロック１１０_{１．．．Ｎ}によって実行される部分関数から構成される）が実行されてもよい。

の関数定義は、例えば、訓練フローブロックによって実行される部分関数が可逆であるため、

の関数定義から導出されてもよい。したがって、訓練装置５００、６００、８００によって実行される関数

を定義する（例えば、ニューラルネットワークパラメータ）規則を決定することによって、関数

の定義も暗黙的に取得される。

【0216】

換言すれば、

の関数定義は、（例えば、訓練オーディオ信号ｘが信号ｚのような雑音に変換されるようにニューラルネットワークパラメータを決定することによって）訓練において決定されてもよく、

の関数定義は、

の関数定義から導出されてもよい。

【0217】

以下では、（例えば、装置１００、２００、４００、５００、６００、８００またはフローブロック３１１、７１１において）本発明の実施形態にかかる装置および方法において任意に使用され得る、発話強調フローに関するいくつかのさらなる（任意の）詳細について説明する。

【0218】

発話強調の場合（または、一般に、オーディオ強調の場合）、長さＮの時間領域混合信号

は、クリーンな発話発声

および何らかの付加的な妨害背景

から構成されてもよく、例えば、雑音の多い混合は、クリーンな発話と干渉背景との合計として示され、その結果、
ｙ＝ｘ＋ｎ（１１）である。

【0219】

さらに、

は、ゼロ平均および単位分散の正規分布から、例えばガウシアンサンプルとしてサンプリングされるものとして定義され、すなわち、
ｚ～Ｎ（ｚ；０，Ｉ）（１２）である。

【0220】

図５、図６、および図８に示す装置５００、６００および８００において提案されたフローブロックベースのモデルは、ＤＮＮとして定義され、雑音の多い混合物ｙを条件とするクリーンな発話発声ｘによって形成される確率分布ｐ_ｘ（ｘ｜ｙ）を概説すること、例えば、ｙを条件とするｘの確率分布関数を学習することを目的とする。事前に定義された確率分布の負の対数尤度を最小化することは、例えば、訓練目的と見なされる（例えば、ニューラルネットワークパラメータの最適化により、以下の式の値が最小化されてもよい）：

（１３）
ここで、θはニューラルネットワークパラメータを表す。

【0221】

強調ステップ（例えば、図１、図２、および図４に示す装置１００、２００および４００において）では、サンプルがｐ_ｚ（ｚ）から取得され、雑音の多いサンプルとともにニューラルネットワークへの入力として渡され、例えば、サンプルｚは、雑音の多い入力ｙとともに反転したフローをたどる。例えば、所定の分布、例えばガウス分布を有する雑音様信号の時間領域サンプル値は、（第１の）フローブロックに（したがって、例えば、前処理された形態で、例えば、オーディオ信号ｙのサンプルとともに、ニューラルネットに）入力されてもよい。反転フロー、例えば、訓練フローブロックにおいて実行される処理に反転された反転フローブロック処理に続いて、ニューラルネットワーク（例えばアフィン処理３７２と組み合わせて）は、ランダムサンプル（または複数のサンプル）をクリーンな発声の分布にマッピングして戻し、強調されたオーディオ信号、例えば、理想的には基礎となる

、例えば

に近い

を有する、強調された発話信号

を生成する。

【0222】

これらの対応関係７～１３は、図１０に示すシステム１０００についても正しい。

【0223】

以下では、本発明にかかる実施形態において任意に使用され得る非線形入力圧縮、例えば圧縮および／または拡張について説明する。

【0224】

図９は、本明細書に記載された装置において使用される非線形入力圧縮ステップの図を示している。

【0225】

非線形入力圧縮ステップは、これに対応して、例えば、図５、図６または図８に示す装置５００、６００または８００のいずれかにおける前処理ブロックとして使用されることができる。

【0226】

非線形圧縮アルゴリズムは、音声データサンプルの小さい振幅をより広い間隔に、大きい振幅をより小さい間隔にマッピングするために適用され得る。

【0227】

図９は、参照符号９１０において、時間の関数として、例えば時間領域表現において示される、あるオーディオ信号、例えばクリーンな信号ｘを示している。発話信号は、図５、図６または図８に示す装置５００、６００または８００に関連付けられたニューラルネットワークが学習する発話信号、例えばｘの例を示している。ニューラルネットワークは、時間領域オーディオ、例えば発話、発声の確率分布をモデル化するため、分布が学習される値の範囲を検査することが重要である。オーディオデータは、通常、例えば、［－１，１］の範囲の正規化３２ビットフローとして記憶される。時間領域オーディオ、例えば発話、サンプルは、ラプラシアン分布にほぼしたがう。

【0228】

このオーディオ、例えば発話信号は、圧縮、アルゴリズム、例えば非線形入力圧縮、例えば８１５を適用する前（ａ）および後（ｂ）の値のヒストグラムとともに示される。圧縮は、例えば、一種のヒストグラム等化として、または比較的低い信号値のヒストグラム拡散として、および／または比較的大きい信号値のヒストグラム圧縮として理解される。例えば、圧縮アルゴリズムの適用前の第１のヒストグラム９２０と圧縮アルゴリズムの適用後の第２のヒストグラム９２０との比較から分かるように、ヒストグラムが広くなることが分かる。例えば、ヒストグラム９２０の横軸９２２は圧縮前の信号値を示し、縦軸９２４は各信号値の確率分布を示す。例えば、ヒストグラム９２０の横軸９３２は圧縮後の信号値を示し、縦軸９３４は各信号値の確率分布を示す。圧縮された信号値は、フローブロックにおける処理に有利であることが分かっているより広い（より均一に分布し、ピークのようなものが少ない）確率分布を含むことが明らかになる。

【0229】

図９（ａ）に示すように、（例えば、参照符号９２０）近似ラプラシアン分布のほとんどの値は、０付近の小さな範囲にある。図９（ａ）に見られるように、例えばｘなどのクリーンな発話サンプル（またはクリーンな発話信号）において、より高い絶対振幅を有するデータサンプル（または信号値）は、有意な情報を搬送し、通常は低表現であることが認識されている。圧縮を適用すると、アルゴリズムは、時間領域発話サンプルの値がより均一に拡散されることを提供する。

【0230】

実施形態では、非線形入力圧縮は、量子化なしの入力データの、例えばμ則圧縮によって表され得る：

（１４）
ここで、ｓｇｎ（）は、符号関数であり、
μは、圧縮レベルを定義するパラメータである。

【0231】

パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である２５５に設定され得る。

【0232】

学習、例えば訓練目標に関して、図５、図６または図８に示す装置５００、６００または８００のフローブロック処理において、クリーンな発声、例えば未処理のクリーンな信号ｘの分布を学習する代わりに、圧縮された信号、例えば前処理された信号ｘの分布が学習される。

【0233】

この記載された非線形入力圧縮アルゴリズムと逆のアルゴリズムは、例えば、図１、図２および図４に示される装置１００、２００または４００において、最終処理ステップ、例えば、図４に示される非線形拡張４１５として使用される。図１、図２および図４の強調されたサンプル

は、例えば、μ則変換を反転することを使用することによって、規則的な信号に拡張されることができ、例えば、以下である：

（１５）
ここで、ｓｇｎ（）は、符号関数であり、
μは、拡張レベルを定義するパラメータである。

【0234】

しかしながら、図９に示される非線形入力圧縮は、個々にまたは組み合わせて、本明細書に開示される特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0235】

図１０は、実施形態にかかるオーディオ信号処理のためのフローブロックシステム１０００の概略図を示している。

【0236】

フローブロックシステム１０００は、ニューラルネットワークパラメータを提供するための装置１１００と（個々に使用されることもできる）処理済信号を提供するための装置１２００との組み合わせを表す。装置１１００は、例えば、図５、図６または図８に示された装置５００、６００または８００のいずれかとして実装され得る。装置１２００は、例えば、図１、図２または図４に示された装置１００、２００または４００のいずれかとして実装され得る。

【0237】

装置１１００では、クリーン－雑音対（ｘ－ｙ）は、ガウス分布Ｎ（ｚ；０；Ｉ）（またはガウス分布に近似する分布）にマッピングされるべきフローブロック処理にしたがう（またはそれへの入力である）。推論（装置１２００）では、サンプルｚ（例えば、サンプル値のブロック）がこの分布から（または、信号値の所望の、例えばガウス分布を有する信号から）引き出され、別の雑音の多い発声ｙとともに反転フローブロック処理に続き、強調された信号

を生成する。

【0238】

装置１１００は、訓練オーディオ信号１１０５、例えばクリーンなｘ、例えばｘ_１、および訓練オーディオ信号１１３０の歪んだバージョン、例えば雑音の多いｙ、例えばｙ_１＝ｘ_１＋ｎ_１に基づいて、ニューラルネットワークパラメータを提供するように構成されている。処理は、ニューラルネットワーク（図示せず）に関連付けられたＮ個のフローブロック、例えば訓練フローブロック１０１０_{１．．．Ｎ}において実行される。フローブロック１０１０_{１．．．Ｎ}は、到来するオーディオ信号、例えば発話信号を処理するように構成されている。

【0239】

訓練オーディオ信号１１０５を装置１１００の第１のフローブロック１１１０_１に導入する前に、訓練オーディオ信号ｘのオーディオサンプルは、サンプルのグループ、例えば８サンプルのグループ、例えばベクトルにグループ化される（１１１６）。

【0240】

任意にグループ化された訓練オーディオ信号ｘ（ｉ＝１）、例えばｘ_１（ｉ＝１）は、歪んだ訓練オーディオ信号ｙ、１１３０、例えばｙ_１とともに装置１１００の第１のフローブロック１１１０_１に導入される。

【0241】

歪んだオーディオ信号ｙ、１１３０は、例えば、雑音の多い入力信号である。歪んだ訓練オーディオ信号ｙ、１１３０は、例えば、ｙ＝ｘ＋ｎとして定義され、ｘは入力信号のクリーンな部分、例えば訓練入力信号ｘ、１１０５であり、ｎは雑音の多い背景であり、例えばｙ_１＝ｘ_１＋ｎ_１であり、ｘ_１は入力信号のクリーンな部分、例えば訓練入力信号ｘ_１、１１０５であり、ｎ_１は雑音の多い背景である。歪んだ訓練オーディオ信号ｙ、１１３０は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。

【0242】

【0243】

装置１１００は、訓練結果オーディオ信号１１２０の分布、例えばガウス分布、例えば、雑音信号、例えば、ｚにマッピングされるべき訓練フローブロック１１１０_{１．．．Ｎ}の後に続く（またはそれによって処理される）クリーン－雑音（ｘ－ｙ）対に基づいて（または複数のクリーン－雑音対に基づいて）ニューラルネットワーク（例えば、ニューラルネットワーク５８０_{１．．．Ｎ}）についてのニューラルネットワークパラメータを提供するように構成されている。訓練結果オーディオ信号１１２０は、任意に、ベクトル表現（または行列表現）にグループ化されてもよい。

【0244】

訓練オーディオ信号ｘ、１１０５は、歪んだ訓練オーディオ信号ｙ、１１３０とともに装置１１００の第１のフローブロック１１１０_１に導入される。訓練オーディオ信号ｘ、１１０５は、例えば、オーディオサンプルとして、例えば、時間領域サンプルとして表される。

【0245】

フローブロック１１１０_{１．．．Ｎ}は、例えば、対応して図５、図６および図８に示す装置５００、６００または８００のフローブロック５１０_{１．．．Ｎ}、６１０_{１．．．Ｎ}、または８１０_{１．．．Ｎ}として実装されてもよい。

【0246】

フローブロック１１１０_{１．．．Ｎ}は、例えば、図６、図７および図８に示すように、例えばフローブロック６１１_１、または７１１_１、または８１１_１のようなアフィン結合層ブロックを含み得る。

【0247】

フローブロック１１１０_{１．．．Ｎ}の出力として、例えば雑音信号（または雑音信号に近似する）である訓練結果オーディオ信号ｚ、１１２０が提供される。雑音信号ｚ、１１２０は、例えば、ｚ～Ｎ（ｚ；０；Ｉ）として定義される。

【0248】

装置１１００において、クリーンな信号ｘ、１１０５は、訓練フローブロック１１１０_{１．．．Ｎ}に関連付けられたニューラルネットワークを訓練し、訓練の結果としてニューラルネットワークのニューラルネットワークパラメータ、例えばエッジ重み（θ）を決定するために、対応する歪んだ、例えば雑音の多いオーディオ信号ｙ、１１３０とともに導入される。

【0249】

装置１１００によって決定されたニューラルネットワークパラメータは、例えば、装置１２００によって提供される推論においてさらに使用されてもよい。

【0250】

装置１２００は、入力オーディオ信号ｙ、１２３０に基づいて処理された、例えば強調されたオーディオ信号を提供するように構成されている。処理は、ニューラルネットワーク（図示せず）に関連付けられたＮ個のフローブロック、例えば推論フローブロック１２１０_{１．．．Ｎ}において実行される。フローブロック１２１０_{１．．．Ｎ}は、到来するオーディオ信号、例えば発話信号を処理するように構成されている。

【0251】

入力オーディオ信号ｙ、１２３０、例えば、新たな雑音の多い信号ｙ_２は、処理されるべき装置１２００に導入される。入力オーディオ信号ｙは、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号ｙ、１２３０は、ｙ＝ｘ＋ｎとして定義され、ｘは入力オーディオ信号のクリーンな部分であり、ｎは雑音の多い背景であり、例えば、ｙ_２＝ｘ_２＋ｎ_２である。入力オーディオ信号ｙ、１２３０は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。

【0252】

入力オーディオ信号ｙおよびそれに対応してそのクリーンな部分ｘは、任意にベクトル表現（または行列表現）にグループ化されてもよい。

【0253】

雑音信号ｚ，１２２０が取得され（例えば、生成され）、入力オーディオ信号ｙ、１２３０とともに装置１００の第１のフローブロック１２１０_１に導入される。雑音信号ｚ、１２２０は、例えば、平均および単位分散がゼロの正規分布、例えば、ｚ～Ｎ（ｚ；０；Ｉ）からサンプリングされるものとして定義される。雑音信号ｚ、１２２０は、例えば、雑音サンプル、例えば、時間領域雑音サンプルとして表される。

【0254】

雑音信号１２２０を装置１２００の第１のフローブロック１２１０_１に導入する前に、雑音信号ｚのオーディオサンプルは、任意に、サンプルのグループ、例えば８サンプルのグループ、例えばベクトルにグループ化される（または行列にグループ化される）（１２１６）。このグループ化ステップは、例えば、任意であってもよい。

【0255】

任意にグループ化された雑音信号ｚ（ｉ＝１）、例えばｘ_１（ｉ＝１）は、入力オーディオ信号ｙ、１２３０、例えばｙ_２とともに装置１２００の第１のフローブロック１２１０_１に導入される。フローブロック１２１０_{１．．．Ｎ}は、装置１１００のフローブロック１１１０_{１．．．Ｎ}の反転を表す（例えば、装置１１００の対応するフローブロックと比較して、逆アフィン処理を実行し、任意に逆畳み込み処理も実行する）。

【0256】

フローブロック１２１０_{１．．．Ｎ}は、例えば、対応して図１、図２、および図４に示す装置１００、２００または４００のフローブロック１１０_{１．．．Ｎ}、２１０_{１．．．Ｎ}、または４１０_{１．．．Ｎ}として実装されてもよい。

【0257】

フローブロック１２１０_{１．．．Ｎ}は、例えば、図１、図２、および図４に示すように、例えばフローブロック２１１_１、または３１１_１、または４１１_１のようなアフィン結合層ブロックを含み得る。

【0258】

フローブロック１２１０_{１．．．Ｎ}の出力として、処理された、例えば強調されたオーディオ信号

、１２６０が提供される。強調されたオーディオ信号

、１２６０は、例えば、入力オーディオ信号ｙ、１２３０の強調されたクリーンな部分を表す。

【0259】

入力オーディオ信号ｙ、１２３０のクリーンな部分ｘは、装置１２００に別々に導入されない。装置１２００は、入力オーディオ信号ｙ、１２３０に基づいて、例えば生成された雑音信号ｚ、１２２０を処理して、例えば入力オーディオ信号ｙ、１２３０のクリーンな部分の強調である強調されたオーディオ信号を受信、例えば生成、例えば出力する。

【0260】

しかしながら、システム１０００は、個々にまたは組み合わせて、本明細書に開示された特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0261】

図１１は、実施形態にかかる装置および方法と従来技術との比較を示す表１を示している。

【0262】

表１は、客観的な評価指標を用いた評価結果を示している。ＳＥ－フローは、図１～図３、図５～図７および図１０を参照して上述したように、実施形態にかかる提案されたフローベースのアプローチを表し、ＳＥ－フロー－μは、例えば非線形圧縮、例えば図９を参照して説明した圧縮として、例えば非線形入力圧縮または非線形拡張として、対応する前処理または後処理ステップとして、対応して図８および図４を参照して上述した実施形態において使用されるものとして、μ則変換を含むアプローチを表す。

【0263】

表に示すように、２つの提案されたフローベースの実験の間に、μ圧縮を使用するモデルは、全ての指標においてより良好な結果を示している。これは、時間領域信号の分布をモデル化するためのこの容易な前処理および後処理技術、例えば非線形圧縮の有効性を実証する。

【0264】

強調能力の例示は、図１２にも見ることができる。

【0265】

図１２は、実施形態にかかる装置および方法の性能を表すグラフィック表現を示している。

【0266】

図１２は、提案する実施形態の性能を示すための例示的なスペクトログラムを示している。（ａ）では、２．５ｄＢ（信号対雑音比、ＳＮＲ）の大きな発話発声が表示されている。（ｂ）は、対応するクリーンな発話を示している。（ｃ）および（ｄ）には、本発明にかかる実施形態にかかる、例えば図１０に示す提案されたフローベースのシステムの結果が示されている。

【0267】

さらなる実施形態および態様
以下では、本発明にかかるさらなる態様および実施形態が説明され、これらは、個々に、または本明細書に開示される任意の他の実施形態と組み合わせて使用されることができる。

【0268】

さらに、このセクションに開示された実施形態は、個々におよび組み合わせて、本明細書に開示された任意の他の特徴、機能、および詳細によって任意に補足されてもよい。

【0269】

以下では、時間領域発話強調のためのフローベースのニューラルネットワークの概念を説明する。

【0270】

以下では、本発明の基礎となる実施形態の概念を説明する。

【0271】

以下では、実施形態の一部または全部において（少なくとも部分的に）達成され得る本発明のいくつかの目標および目的が記載され、本発明のいくつかの態様が簡単に要約される。

【0272】

発話強調は、侵入的背景から目標発話信号を区別することを含む。変分自己符号化器または敵対的生成ネットワーク（ＧＡＮ）を使用する従来の生成的アプローチが近年ますます使用されているが、正規化フロー（ＮＦ）ベースのシステムは、関連分野において成功しているにもかかわらず、依然として少ない。したがって、以下では、雑音の多い相手を条件とするクリーンな発話発声の密度推定によって強調プロセスを直接モデル化するためのＮＦフレームワークが実施形態にしたがって提案される。発話合成から着想を得た従来のモデルは、実施形態において、時間領域における雑音の多い発声の直接的な強調を可能にするように適合される。実施形態にかかる公的に利用可能なデータセットに対する実験的評価は、客観的評価指標を使用して選択されたベースラインを超えながら、現在の最先端のＧＡＮベースのアプローチと同等の性能を示す。

【0273】

本発明にかかる実施形態は、発話強調に使用されることができる。本発明にかかる実施形態は、フローの正規化および／または深層学習および／または生成モデリングを利用する。

【0274】

以下、簡単な紹介が提供される。

【0275】

従来、発話強調（ＳＥ）の目的は、発話コンテンツのより良好な了解度を保証するために、干渉する背景からの目標発話信号を強調することである［１］。例えば補聴器［２］または自動発話認識［３］を含む広範囲の用途に対するその重要性のために、これは過去に広範に研究されてきた。そうすることで、深層ニューラルネットワーク（ＤＮＮ）は、ウィーナーフィルタリング［４］、スペクトル減算［５］、減算法［６］または最小平均二乗誤差（ＭＭＳＥ）［７］のような従来の技術に大きく取って代わった。最も一般的には、ＤＮＮは、混合信号から発話および背景を分離することができる時間周波数（Ｔ－Ｆ）マスクを推定するために従来使用されている［８］。それにもかかわらず、高価なＴ－Ｆ変換を回避するという利点を有する、時間領域入力に基づくシステムが近年提案されている［９、１０、１１］。最近では、敵対的生成ネットワーク（ＧＡＮ）［１１、１２、１３］、変分自己符号化器（ＶＡＥ）［１４］、および自己回帰モデル［１０］などの生成的アプローチに対するＳＥ研究においても注目が高まっている。特に、生成器と識別器とが敵対的に同時に訓練されるＧＡＮの使用が、過去数年間に広く調査された。例えば、Ｐａｓｃｕａｌら［１１］は、生成器が雑音の多い発話サンプルを波形レベルで直接強調する、ＧＡＮベースのエンドツーエンドシステムを提案した。以下では、このアプローチは、例えば、ワッサースタイン距離を使用することによって［１５］、または性能を向上させるために複数の生成器を組み合わせることによって［１６］、複数回拡張されている。他の研究者は、平均二乗誤差正則化のような追加の技術を実装することによって［１２］、または発話固有の評価指標に関してネットワークを直接最適化することによって［１３］、クリーンなＴ－Ｆスペクトログラムを推定するためにＧＡＮと協働する印象的なＳＥ結果を報告した。前述の従来のアプローチは最近ますます人気が高まっているが、正規化フロー（ＮＦ）ベースのシステムは、ＳＥではまだ稀である。ごく最近、Ｎｕｇｒａｈａら［１７］の研究は、深層発話の前に使用されることができる、深層潜在表現を学習するためにＶＡＥと組み合わせたフローベースのモデルを提案した。しかしながら、それらのアプローチは、強調プロセス自体をモデル化せず、したがって、それが組み合わされるＳＥアルゴリズムに依存する。しかしながら、ＮＦがそれぞれのタスクにおいて高品質のサンプルを首尾よく生成する能力を有することが、コンピュータビジョン［１８］または発話合成［１９］のような領域において示された。したがって、これは、生成的プロセスをモデル化することによってフローベースのシステムを使用して発話サンプルの強調が直接実行されることができるという、本発明の基礎となる実施形態の仮定につながる。

【0276】

本発明にかかる実施形態の概念は、ＮＦが、雑音の多い相手を条件とするクリーンな発話サンプルに基づく容易な確率分布からより複雑な確率分布への学習されたマッピングによってＳＥに首尾よく適用され得るということである。したがって、本発明にかかる実施形態では、従来のフローベースのＤＮＮアーキテクチャは、事前定義された特徴またはＴ－Ｆ変換を必要とせずに時間領域において直接ＳＥを実行するように発話合成から修正される。さらに、本発明にかかる実施形態では、圧縮プロセスの一部として例えば非線形圧縮などの圧縮を使用する入力信号の容易な前処理技術が、密度推定に基づいてＳＥモデルの性能を高めるために適用される。本発明にかかる実施形態の提案された方法および装置の実験的評価は、これらの仮定を確認し、現在の最先端のシステムと比較して、他の時間領域ＧＡＮベースラインの結果を上回る、または改善された性能を示す。

【0277】

図１０は、実施形態にかかる提案されたシステムの概要を示している。クリーン－雑音（ｘ－ｙ）対は、ガウス分布Ｎ（ｚ；０，Ｉ）にマッピングされるフローステップ（青実線）にしたがう。推論では、サンプルｚはこの分布から引き出され、別の雑音の多い発声ｙとともに反転フロー（赤破線）をたどって強調された信号

を生成する（色で見られるか、ブロックの輪郭の異なるハッチングを考慮する）。

【0278】

問題の系統的論述および実施形態の態様
以下では、本発明にかかる実施形態の態様に関する問題の系統的論述およびいくつかの説明が提供される。

【0279】

正規化フローの基本
正規化フローは、以下のように形式的に表現される、可逆的且つ微分可能なマッピングを使用した単純な確率分布からより複雑な確率分布への変換として説明されることができる［２０］。

【0280】

ｘ＝ｆ（ｚ）（１６）
ここで、

および

は、Ｄ次元ランダム変数であり、

は、ｚからｘへの関数マッピングである。

の可逆性は、このステップがｘからｚに戻すように反転されることができることを保証し、すなわち、

（１７）。

【0281】

さらに、関数

が可逆的且つ微分可能である場合、１からＴ変換のシーケンスの構成も可逆的であることが保証される。

．．．

（１８）
これに続いて、対数確率密度関数

は、変数の変化によって計算されることができる［２１］：

（１９）
ここで、

は、全ての一次偏微分からなるヤコビアンを定義する。

【0282】

発話強調フロー
本発明にかかる実施形態にかかる発話強調の場合、長さＮの時間領域混合信号

は、クリーンな発話発声

と、いくつかの付加的な妨害背景

とから構成され、その結果、
ｙ＝ｘ＋ｎ（２０）である。

【0283】

さらに、ゼロ平均および単位分散の正規分布からサンプリングされる

と定義され、すなわち、
ｚ～Ｎ（ｚ；０，Ｉ）（２１）である。

【0284】

本発明にかかる実施形態にかかる提案されたＮＦモデルは、ここでＤＮＮとして定義され、雑音の多い混合物ｙを条件とするクリーンな発話発声ｘによって形成される確率分布ｐ_ｘ（ｘ｜ｙ）を概説することを目的とする。本発明にかかる実施形態にかかる訓練目的として、例えば発話サンプルの、以前に定義された確率分布の負の対数尤度が、ここで簡単に最小化されることができる：

（２２）
ここで、θはネットワークパラメータを表す。

は、例えば、定義されるべき発話サンプルの確率分布であり、

は、例えば、ガウス関数の尤度であり、

は、発話サンプルを作成、例えば生成するためにガウス関数を変化させるレベル（例えば、どれだけ変化するか）を示す。

【0285】

強調ステップでは、本発明にかかる実施形態によれば、これはｐ_ｚ（ｚ）からのサンプルとすることができ、雑音の多いサンプルとともにネットワークへの入力として渡されることができる。反転フローに続いて、ニューラルネットワークは、ランダムサンプルをクリーンな発声の分布にマッピングして戻し、理想的には基礎となるｘ、例えば

に近い

を有する、

を形成する。このプロセスはまた、図１０にも示されている。

【0286】

実際には、例えば、モデリングにおいて、またはニューラルネットワークにおいて、例えば、ニューラルネットワークパラメータの全体量が、例えば、

２５百万である場合、本発明にかかる実施形態によれば、ニューラルネットワークの訓練中に、信号ｘ、ｙが訓練されるべきニューラルネットワークに導入される。ニューラルネットワークの出力は、ｚ（全てのフローブロックの後の処理された信号）、

（各アフィン結合層からの）および

（各１×１可逆畳み込みからの）を含む。

【0287】

最適化されるべき損失関数は、

＋

＝数／スカラー（２３）であり、

は、ガウス関数の尤度であり（上記参照）、（

＋

）－（

(上記参照）。

【0288】

本発明にかかる実施形態にしたがって提案される方法
モデルアーキテクチャ
本発明にかかる実施形態によれば、Ｗａｖｅｇｌｏｗアーキテクチャ［１９］は、発話強調を実行するために発話合成用に修正された。本来、このモデルは、発話発声を対応するメルスペクトログラムとともにフローのいくつかのステップの入力として取得し、入力された条件付きスペクトログラムに基づいて現実的な発話サンプルを生成するように学習する。１つのフローブロックは、チャネル次元に沿った情報の交換を保証する１×１の可逆畳み込み［２２］と、ヤコビ行列式の可逆性および効率的な計算を保証するために使用されるいわゆるアフィン結合層［２３］とからなる。したがって、入力信号は、チャネル次元に沿って分割され、半分は、Ｗａｖｅｎｅｔ様のＮＮブロック、例えば、Ｗａｖｅｎｅｔラインアフィン結合層に供給され、後半のスケーリングおよび並進係数を定義する。このマルチチャネル入力を作成するために、複数のオーディオサンプルが１つのグループに一緒に積み重ねられ、マルチチャネル信号を模倣する。アフィン結合層はまた、条件情報が含まれる場所でもある。この手順のさらなる詳細については、［１９］を参照されたい。元のＷａｖｅｇｌｏｗは計算的に重い（＞８７Ｍｉｏ．パラメータ）ため、単一のＧＰＵで訓練し、強調発話を可能にすることを実現可能にするために、いくつかのアーキテクチャ上の修正が行われた。ＭｅｌスペクトログラムではなくＷａｖｅｇｌｏｗとは対照的に、本発明にかかる実施形態によれば、条件付き入力として使用されたが、雑音の多い時間領域発話サンプルであった。したがって、双方の信号が同じ次元であるため、アップサンプリング層は必要とされなかった。さらに、Ｗａｖｅｎｅｔ様ブロックの標準的な畳み込みは、本発明にかかる実施形態によれば、［２５］において推奨されたように、パラメータの量を減らすために深さ方向の分離可能な畳み込み［２４］に置き換えられた。

【0289】

非線形入力圧縮
図９は、本発明にかかる実施形態にかかる、非線形入力圧縮、例えば圧縮の効果の例を示している。上部には、クリーンな発話発声が示されている。（ａ）は、クリーンな発声のヒストグラム（ｎ_ｂｉｎｓ＝１００）を示している。（ｂ）では、圧縮などの圧縮アルゴリズムによる値への影響を見ることができる。

【0290】

ネットワークは、時間領域発話発声の確率分布をモデル化するため、分布を学習する値の範囲を検査することが重要である。オーディオデータは、［－１，１］の範囲の正規化３２ビットフロートとして記憶された。時間領域発話サンプルはラプラシアン分布にほぼしたがうため［２７］、ほとんどの値はゼロ付近の小さな範囲にあることが容易に分かる（図９（ａ）を参照）。しかしながら、特にクリーンな発話発声では、より高い絶対振幅を有するデータサンプルは重要な情報を搬送し、この場合には十分に表されない。値、例えば学習可能な振幅値がより均一に拡散されることを確実にするために、本発明にかかる実施形態にかかる非線形圧縮、例えば圧縮アルゴリズムが適用されて、小さい振幅をより広い振幅にマッピングし、大きい振幅をより小さい間隔にマッピングすることができる。これは、図９に示されており、１つの発話サンプルが、圧縮、例えば圧縮アルゴリズムを適用する前後の値のヒストグラムとともに表示される。この意味で、圧縮、例えば圧縮は、一種のヒストグラム等化として理解されることができる。これに続いて、正式に以下のように定義される、量子化なしの入力データのμ則圧縮、例えば圧縮（ＩＴＵ－Ｔ勧告Ｇ．７１１）を使用して追加の実験を行った。

（２４）
ここで、ｓｇｎ（）は、符号関数であり、μは、圧縮レベルを定義するパラメータである。ここで、本発明にかかる実施形態によれば、μは実験全体を通して２５５に設定され、これはテレコミュニケーションにおいても使用される一般的な値である。学習目的に関して、クリーンな発声の分布を学習するのではなく、圧縮された信号の分布が学習される。強調されたサンプルは、μ則変換を反転した後に通常の信号に拡張されることができる。

【0291】

実験
データ
実験において使用されたデータセットは、Ｖａｌｅｎｔｉｎｉら［２８］の研究とともに公開され、ＳＥアルゴリズムの開発に一般的に使用されるデータベースである。それは、それぞれ２８人および２人の話者による訓練および試験セットに分離されたＶｏｉｃｅＢａｎｋコーパス［２９］からの３０人の個々の話者を含む。双方のセットは、男性および女性の参加者に応じてバランスがとれている。訓練サンプルは、ＤＥＭＡＮＤデータベース［３０］からの８つの実際の雑音サンプル、ならびに０、５、１０、および１５ｄＢの信号対雑音比（ＳＮＲ）による２つの人工（バブルおよびスピーチシェーピングされた）サンプルと混合された。試験セットでは、２．５、７．５、１２．５、および１７．５ｄＢのＳＮＲ値にしたがって異なる雑音サンプルを選択して混合し、試験セットが見えない条件のみを含むようにした。さらに、訓練セットから男性と女性の話者をそれぞれ１名ずつ取り出し、モデル開発の検証セットを作成した。

【0292】

訓練戦略
バッチサイズ

［４，８，１２］、フローブロックの数

［８，１２，１６］、および入力として一緒にグループ化されたサンプルの量

［８，１２，２４］の値は、例えば、小さい超パラメータ検索において選択された。各個々のモデルを１５０エポックで訓練して、最も低い検証損失に基づいてパラメータを選択した。より高いバッチサイズを使用したいくつかの初期実験を行ったが、モデルは十分に一般化されていないことが分かった。選択されたモデルは、２０エポックの根気の早期停止メカニズムに基づく収束までさらに訓練された。学習率の低下および同じ早期停止基準を使用して、微調整ステップを続けた。

【0293】

モデル設定
パラメータ探索の結果として、１６個のフローブロック、１２個のサンプルのグループを入力として、バッチサイズを４としてモデルを構築した。学習率は、Ａｄａｍ［３１］オプティマイザおよび重み正規化［３２］を使用して初期訓練ステップにおいて３×１０^－４に設定された。微調整のために、学習率を３×１０^－５に下げた。訓練入力として、１ｓ長のチャンク（サンプリングレート

＝１６ｋＨｚ）を各音声ファイルからランダムに抽出した。ガウス分布の標準偏差はσ＝１．０とした。他のＮＦモデル［３３］と同様に、推論においてσのより低い値を使用すると、より高い品質の出力が得られるという効果が経験され、これが推論においてσ＝０．９に設定された理由である。８層の拡張畳み込みを有する元のＷａｖｅｇｌｏｗアーキテクチャのＷａｖｅｎｅｔ様ブロックによれば、アフィン結合層には、残余接続部として５１２チャネルおよびスキップ接続部内の２５６チャネルが使用された。さらに、４つの結合層ごとに、２つのチャネルを損失関数に渡して、マルチスケールアーキテクチャを形成した。

【0294】

評価
本発明にかかる実施形態にかかるアプローチを当該分野における最近の研究と比較するために、以下の評価測定基準を使用した：
・（ｉ）ＩＴＵ－ＴＰ．８６２．２（－０．５から４．５）の推奨広帯域バージョンにおける声質の知覚評価（ＰＥＳＱ）。
・３つの平均意見スコア（１から５）指標［３４］：（ｉｉ）信号歪み（ＣＳＩＧ）の予測、（ｉｉｉ）背景の貫入性（ＣＢＡＫ）の予測、および（ｉｖ）全体的な発話品質（ＣＯＶＬ）の予測。
・部分ＳＮＲ（ｓｅｇＳＮＲ）［３５］の改善（０から

）。

【0295】

本発明にかかる実施形態にかかる提案された方法のベースラインとして、それらが同じデータベースおよび指標によって評価されたため、２つの生成的時間領域アプローチ、すなわちＳＥＧＡＮ［１１］および改善された深層ＳＥＧＡＮ（ＤＳＥＧＡＮ）［１６］モデルが定義された。さらに、これを、Ｔ－Ｆマスクに作用している他の２つの最先端のＧＡＮベースのシステム、すなわちＭＭＳＥ－ＧＡＮ［２６］およびＭｅｔｒｉｃ－ＧＡＮ［１３］と比較した。このデータセットに対してより高い性能を報告するいくつかの識別的アプローチ、例えば［９，３６，３７］があることに留意されたい。しかしながら、この研究の焦点は生成モデルにあったため、それらは比較に含まれていない。

【0296】

実験結果
実験結果が図１１に示す表１に表示される。表１は、客観的な評価指標を用いた評価結果を示している。ＳＥ－フローは、提案されたフローベースのアプローチを表し、ＳＥ－フロー－μは、入力データの、例えば圧縮および拡張を含むμ則圧縮と一緒のアプローチを表す。全ての比較方法の値は、対応する論文から得られる。

【0297】

表に示すように、２つの提案されたフローベースの実験の間に、例えば圧縮および拡張を含むμ圧縮を使用するモデルは、全ての指標においてより良好な結果を示す。これは、時間領域信号の分布をモデル化するためのこの容易な前処理および対応する後処理技術の有効性を実証する。強調機能の説明は、図１２にも見ることができる。

【0298】

図１２は、提案されたシステムの性能を示すための例示的なスペクトログラムを示している。（ａ）では、２．５ｄＢ（信号対雑音比、ＳＮＲ）の大きな発話発声が表示されている。（ｂ）は、対応するクリーンな発話を示している。（ｃ）および（ｄ）では、本発明にかかる実施形態にかかる提案されたフローに基づくシステムの結果が示されている。

【0299】

本発明にかかる実施形態にかかる２つの提案されたシステムのスペクトログラムを比較すると、ＳＥ－フロー－μは、背景漏れの少ないより細かい発話部分を捉えることができるように思われる。また、表示された例の終わりの呼吸音は、本発明にかかる実施形態にかかるモデルによって回復されず、これは、本発明にかかる実施形態にかかる提案されたモデルが実際の発話サンプルに焦点を合わせていることを強調することに留意されたい。さらに、フローベースの例では、発話がアクティブであるとき、クリーンな信号と比較してより高い周波数でより多くの雑音様の周波数コンテンツが存在することが分かる。これは、推論中に完全に排除されないガウシアンサンプリングによって説明されることができる。

【0300】

ＳＥＧＡＮベースラインと比較して、本発明にかかる実施形態にかかる提案された方法および装置は、全ての指標にわたって大きな差で優れた性能を示す。ＳＥＧＡＮについてのみ、他の方法では評価されなかったため、ｓｅｇＳＮＲ性能を見ることができることに留意されたい。ＤＳＥＧＡＮを見ると、提案されたＳＥ－フローは、ＣＳＩＧにおいて比較された性能に到達し、一方で、他の指標において僅かに低い値を示すことが分かる。しかしながら、本発明にかかる実施形態にかかるＳＥ－フロー－μベースのシステムまたは方法または装置は、ＣＯＶＬ以外の全ての指標において依然としてより良好に機能する。したがって、時間領域アプローチ内で、本発明にかかる実施形態にかかる提案されたフローベースのモデルは、雑音の多い信号から強調された信号への生成的プロセスをより良好にモデル化するようである。ＭＭＳＥ－ＧＡＮに関して、このアプローチは、追加の正則化技術はここでは実装されていないが、ＭＭＳＥ－ＧＡＮに対して僅かなエッジを有する同様の性能を有することが観察される。しかしながら、Ｍｅｔｒｉｃ－ＧＡＮは、表示された全ての指標に関して、提案されたアプローチと比較して優れた結果を示している。しかしながら、本発明にかかる実施形態にかかるこのモデルがＰＥＳＱ指標にしたがって直接最適化されたため、本発明にかかる実施形態における良好な性能が期待されることに留意することが重要である。その結果、訓練を評価指標の直接最適化と接続することは、本発明にかかる実施形態にかかるシステムまたは方法または装置を改善するための効果的な方法でもあり得る。

【0301】

結論
本開示では、本発明にかかる実施形態にかかる正規化フローベースの発話強調方法を導入した。本発明にかかる実施形態にかかるモデルは、雑音の多い相手が与えられたクリーンな発話サンプルの密度推定および生成推論による信号強調を可能にする。本発明にかかる実施形態にかかる単純な非線形圧縮、例えば圧縮または拡張技術は、強調結果を増大させるための効果的な（任意の）前処理または例えば後処理ツールであることが実証された。本発明にかかる実施形態にかかる提案されたシステムおよび方法および装置は、最先端のＴ－Ｆ技術に近付きつつ、他の時間領域ＧＡＮベースのベースラインの性能を凌ぐ。本発明にかかる実施形態によれば、結合層における異なる技術、ならびに時間領域信号と周波数領域信号との組み合わせの探求がさらに実装されることができる。

【0302】

さらに、実施形態および手順は、このセクションに（また、「問題の系統的論述」、「正規化フローの基礎」、「発話強調フロー」、「提案方法」、「モデルアーキテクチャ」、「非線形入力圧縮」、「実験」、「データ」、「訓練戦略」、「モデル設定」、「評価」および「実験結果」のセクションにも）記載されているように使用されてもよく、個々におよび組み合わせて、本明細書に開示されている特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。

【0303】

しかしながら、任意の他の章に記載されている特徴、機能および詳細は、任意に、本発明にかかる実施形態に導入されることもできる。

【0304】

また、上記の章に記載された実施形態は、個々に使用されることができ、別の章の特徴、機能および詳細のいずれかによって補足されることもできる。

【0305】

また、本明細書に記載された個々の態様は、個々にまたは組み合わせて使用されることができることに留意されたい。したがって、詳細は、前記態様の別の１つに詳細を追加することなく、前記個々の態様のそれぞれに追加されることができる。

【0306】

特に、実施形態は、特許請求の範囲にも記載されている。特許請求の範囲に記載された実施形態は、個々におよび組み合わせて、本明細書に記載された特徴、機能および詳細のいずれかによって任意に補足されることができる。

【0307】

さらに、方法に関連して本明細書に開示される特徴および機能は、（そのような機能を実行するように構成された）装置において使用されることもできる。さらに、装置に関して本明細書に開示された任意の特徴および機能は、対応する方法において使用されることもできる。換言すれば、本明細書に開示された方法は、装置に関して説明された特徴および機能のいずれかによって補足されることができる。

【0308】

また、本明細書に記載された特徴および機能のいずれも、「実装の代替手段」のセクションにおいて説明されるように、ハードウェアもしくはソフトウェアで、またはハードウェアとソフトウェアの組み合わせを使用して実装されることができる。

【0309】

さらに結論として、本発明にかかる実施形態は、発話強調分野（例えば、強調プロセスを直接モデル化する正規化フローを使用して発話強調フレームワークを構築し、これは例えば、クリーンな発話の学習確率分布を含む）において使用するための正規化フロー（ＮＦ）ベースのシステムを形成する。

【0310】

さらに結論として、本発明にかかる実施形態は、特に、フローベースのシステムを使用して、他のアルゴリズムとは独立してオーディオ信号強調を直接実行し、結果として得られる信号のオーディオ信号強調性能および品質を低下させることなく組み合わせることによって、フローベースのシステムが発話強調に適用される概念を形成する。

【0311】

さらに、本発明にかかる実施形態は、ニューラルネットワークを使用するフローベースのオーディオ信号処理の効果的なモデリングとオーディオ信号強調機能との間のトレードオフを提供する。

【0312】

実装の代替手段
いくつかの態様が装置の文脈で説明されるが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。方法ステップの一部または全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（または使用して）実行されることができる。いくつかの実施形態では、最も重要な方法ステップのうちの１つまたは複数が、そのような装置によって実行されることができる。

【0313】

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。したがって、デジタル記憶媒体は、コンピュータ可読とすることができる。

【0314】

本発明にかかるいくつかの実施形態は、本明細書に記載された方法の１つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを備える。

【0315】

一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するために動作する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。

【0316】

他の実施形態は、機械可読キャリアに記憶された、本明細書に記載された方法の１つを実行するためのコンピュータプログラムを備える。

【0317】

換言すれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載された方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

【0318】

したがって、本発明の方法のさらなる実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムをその上に記録して含むデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および／または非一時的である。

【0319】

したがって、本発明の方法のさらなる実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

【0320】

さらなる実施形態は、本明細書に記載された方法の１つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを備える。

【0321】

さらなる実施形態は、本明細書に記載された方法のうちの１つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。

【0322】

本発明にかかるさらなる実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送するように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイル装置、メモリ装置などとすることができる。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。

【0323】

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載された方法の機能のいくつかまたは全てを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載された方法の１つを実行するためにマイクロプロセッサと協調することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。

【0324】

本明細書に記載された装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実装されることができる。

【0325】

本明細書に記載された装置、または本明細書に記載された装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装されることができる。

【0326】

本明細書に記載された方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されることができる。

【0327】

本明細書に記載された方法、または本明細書に記載された装置の任意の構成要素は、ハードウェアおよび／またはソフトウェアによって少なくとも部分的に実行されることができる。

【0328】

本明細書に記載された実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、当業者にとって明らかであろうことが理解される。したがって、本明細書の実施形態の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。

【0329】

参考文献：
[1] P Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2 edition, 2013.

【0330】

[2] K. Borisagar, D. Thanki, and B. Sedani, Speech Enhancement Techniques for Digital Hearing Aids, Springer International Publishing, 2018.

【0331】

[3] A.H. Moore, P. Peso Parada, and P.A. Naylor, “Speech enhancement for robust automatic speech recognition: Evaluation using a baseline system and instrumental measures,” Computer Speech & Language, vol. 46, pp. 574 - 584, 2017.

【0332】

[4] J. Lim and A. Oppenheim, “All-pole modeling of degraded speech,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 26, no. 3, pp. 197-210, 1978.

【0333】

[5] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp. 113-120, 1979.

【0334】

[6] Y. Ephraim and H.L. Van Trees, “A signal subspace approach for speech enhancement,” IEEE Transactions on Speech and Audio Processing, vol. 3, no. 4, pp. 251-266, 1995.

【0335】

[7] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,” IEEE Transactions Acoustics, Speech and Signal Processing, vol. 33, pp. 443 - 445, 05 1985.

【0336】

[8] Y. Xu, J. Du, L. Dai, and C. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 1, pp. 7-19, 2015.

【0337】

[9] F. Germain, Q. Chen, and V. Koltun, “Speech denoising with deep feature losses,” in Proc. Interspeech Conf., 2019, pp. 2723-2727.

【0338】

[10] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florencio, and
M. Hasegawa-Johnson, “Speech enhancement using bayesian wavenet,” in Proc. Interspeech Conf., 2017, pp. 2013-2017.

【0339】

[11] S. Pascual, A. Bonafonte, and J. Serra`, “Segan: Speech enhancement generative adversarial network,” in Proc. Inter-speech Conf., 2017, pp. 3642-3646.

【0340】

[12] M. H. Soni, N. Shah, and H. A. Patil, “Time-frequency masking-based speech enhancement using generative adversarial network,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 5039-5043.

【0341】

[13] S.-W. Fu, C.-F. Liao, Y. Tsao, and S.-D. Lin, “Metricgan: Generative adversarial networks based black-box metric scores optimization for speech enhancement,” in Proc. Intl. Conf. Ma-chine Learning (ICML), 2019, pp. 2031-2041.

【0342】

[14] S. Leglaive, X. Alameda-Pineda, L. Girin, and R. Horaud, “A Recurrent Variational Autoencoder for Speech Enhancement,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 371-375.

【0343】

[15] N. Adiga, Y. Pantazis, V. Tsiaras, and Y. Stylianou, “Speech enhancement for noise-robust speech synthesis using wasserstein gan,” in Proc. Interspeech Conf., 2019, pp. 1821-1825.

【0344】

[16] H. Phan, I. V. McLoughlin, L. Pham, O. Y. Chen, P. Koch, M. De Vos, and A. Mertins, “Improving gans for speech enhancement,” IEEE Signal Processing Letters, vol. 27, pp. 1700-1704, 2020.

【0345】

[17] A. A. Nugraha, K. Sekiguchi, and K. Yoshii, “A flow-based deep latent variable model for speech spectrogram modeling and enhancement,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1104-1117, 2020.

【0346】

[18] J. Ho, X. Chen, A. Srinivas, Y. Duan, and P. Abbeel, “Flow++: Improving flow-based generative models with variational dequantization and architecture design,” in Proc. of Machine Learning Research, 2019, vol. 97, pp. 2722-2730.

【0347】

[19] R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A Flow-based Generative Network for Speech Synthesis,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 3617-3621.

【0348】

[20] I. Kobyzev, S. Prince, and M. Brubaker, “Normalizing flows: An introduction and review of current methods,” IEEE Trans-actions on Pattern Analysis and Machine Intelligence, pp. 1-1, 2020.

【0349】

[21] G. Papamakarios, E.T. Nalisnick, D.J. Rezende, S. Mohamed, and B Lakshminarayanan, “Normalizing flows for probabilistic modeling and inference,” in arXiv:1912.02762, 2019.

【0350】

[22] D.P. Kingma and P. Dhariwal, “Glow: Generative flow with invertible 1x1 convolutions,” in Advances in Neural Information Processing Systems 31, 2018, pp. 10215-10224.

【0351】

[23] L Dinh, J. Sohl-Dickstein, and S. Bengio, “Density estimation using real NVP,” in 5th Int. Conf. on Learning Representations, ICLR, 2017.

【0352】

[24] F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 1800-1807.

【0353】

[25] B. Zhai, T. Gao, F. Xue, D. Rothchild, B. Wu, J. Gonzalez, and K. Keutzer, “Squeezewave: Extremely lightweight vocoders for on-device speech synthesis,” in arXiv:2001.05685, 2020.

【0354】

[26] D. Rethage, J. Pons, and X. Serra, “A wavenet for speech de-noising,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 5069-5073.

【0355】

[27] J. Jensen, I. Batina, R. C Hendriks, and R. Heusdens, “A study of the distribution of time-domain speech samples and discrete fourier coefficients,” in Proc. SPS-DARTS, 2005, vol. 1, pp. 155-158.

【0356】

[28] C. Valentini Botinhao, X. Wang, S. Takaki, and J. Yamagishi, “Speech enhancement for a noise-robust text-to-speech synthesis system using deep recurrent neural networks,” in Proc. In-terspeech Conf., 2016, pp. 352-356.

【0357】

[29] C. Veaux, J. Yamagishi, and S. King, “The voice bank corpus: Design, collection and data analysis of a large regional accent speech database,” in Int. Conf. Oriental COCOSDA heldjointly with the Conf. on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), 2013, pp. 1-4.

【0358】

[30] J. Thiemann, N. Ito, and E. Vincent, “The diverse environments multi-channel acoustic noise database (demand): A database of multichannel environmental noise recordings,” Proc. of Meetings on Acoustics, vol. 19, no. 1, pp. 035081, 2013.

【0359】

[31] D.P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” in 3rd Int. Conf. on Learning Representations, ICLR, 2015.

【0360】

[32] T. Salimans and D. P. Kingma, “Weight normalization: A simple reparameterization to accelerate training of deep neural net-works,” in Advances in Neural Information Processing Systems 29, 2016, pp. 901-909.

【0361】

[33] M. Pariente, A. Deleforge, and E. Vincent, “A statistically principled and computationally efficient approach to speech enhancement using variational autoencoders,” in Proc. Inter-speech Conf., 2019, pp. 3158-3162.

【0362】

[34] Y. Hu and P. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, pp. 229 - 238, 02 2008.

【0363】

[35] J. Hansen and B. Pellom, “An effective quality evaluation protocol for speech enhancement algorithms,” in ICSLP, 1998.

【0364】

[36] R. Giri, U. Isik, and A. A. Krishnaswamy, “Attention wave-u-net for speech enhancement,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2019, pp. 249-253.

【0365】

[37] Y. Koizumi, K. Yatabe, M. Delcroix, Y. Masuyama, and D. Takeuchi, “Speech enhancement using self-adaptation and multi-head self-attention,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 181- 185.

【図1】