IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2023-547369処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法
<>
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図1
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図2
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図3
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図4
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図5
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図6
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図7
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図8
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図9
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図10
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図11
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図12-1
  • 特表-処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法 図12-2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-11-10
(54)【発明の名称】処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法
(51)【国際特許分類】
   G10L 21/0208 20130101AFI20231102BHJP
   G10L 25/30 20130101ALI20231102BHJP
【FI】
G10L21/0208 100Z
G10L25/30
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023524273
(86)(22)【出願日】2021-05-06
(85)【翻訳文提出日】2023-06-16
(86)【国際出願番号】 EP2021062076
(87)【国際公開番号】W WO2022083900
(87)【国際公開日】2022-04-28
(31)【優先権主張番号】20202890.8
(32)【優先日】2020-10-20
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】シュトラウス・マルティン
(72)【発明者】
【氏名】エドラー・ベルント
(57)【要約】
本発明は、入力オーディオ信号に基づいて処理されたオーディオ信号を提供するための装置であって、処理されたオーディオ信号を取得するために、1つまたは複数のフローブロックを使用して、雑音信号、または雑音信号から導出された信号を処理するように構成され、入力オーディオ信号に応じて、且つニューラルネットワークを使用して、1つまたは複数のフローブロックを使用して実行される処理を適合させるように構成されている、装置を記載する。本発明は、さらに、オーディオ処理のためのニューラルネットワークパラメータを提供するための装置であって、訓練結果信号を取得するために1つまたは複数のフローブロックを使用して訓練オーディオ信号またはその処理済バージョンを処理するように構成され、装置が、訓練オーディオ信号の歪んだバージョンに応じて、且つニューラルネットワークを使用して、1つまたは複数のフローブロックを使用して実行される処理を適合させるように構成され、装置が、訓練結果オーディオ信号の特性が所定の特性に近似するかまたはそれを含むように、ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている、装置を記載する。処理されたオーディオ信号を提供するための方法およびオーディオ処理のためのニューラルネットワークパラメータを提供するための方法も提供される。本発明は、ニューラルネットワークを使用するフローベースのオーディオ信号処理の効果的なモデリングとオーディオ信号強調機能との間のトレードオフを提供する。

【特許請求の範囲】
【請求項1】
入力オーディオ信号(y、130、230、430)に基づいて処理されたオーディオ信号(
、160、260、460)を提供するための装置(100、200、400)であって、
前記装置(100、200、400)が、前記処理されたオーディオ信号(
、160、260、460)を取得するために、1つまたは複数のフローブロック(1101...N、2101...N、4101...N)を使用して、雑音信号(z、120、220、420)、または前記雑音信号(z、120、220、420)から導出された信号を処理するように構成され、
前記装置(100、200、400)が、前記入力オーディオ信号(y、130、230、430)に応じて、且つニューラルネットワークを使用して、前記1つまたは複数のフローブロック(1101...N、2101...N、4101...N)を使用して実行される処理を適合させるように構成されている、装置。
【請求項2】
前記入力オーディオ信号(y、130、230、430)が、時間領域オーディオサンプルのセットによって表される、請求項1に記載の装置(100、200、400)。
【請求項3】
前記1つまたは複数のフローブロック(1101...N、2101...N、4101...N)のうちの所与のフローブロックに関連付けられたニューラルネットワークが、前記雑音信号(z、120、220、420)、または前記雑音信号(z、120、220、420)から導出された信号に応じて、且つ前記入力オーディオ信号(y、130、230、430)に応じて、前記所与のフローブロックの1つまたは複数の処理パラメータを決定するように構成されている、請求項1または2に記載の装置(100、200、400)。
【請求項4】
所与のフローブロックに関連付けられたニューラルネットワークが、アフィン処理の1つまたは複数のパラメータを提供するように構成され、前記パラメータが、前記処理中に前記雑音信号(z、120、220、420)、または前記雑音信号の処理済バージョン、または前記雑音信号の一部(z、120、220、420)、または前記雑音信号の処理済バージョンの一部に適用される、請求項1から3のいずれか一項に記載の装置(100、200、400)。
【請求項5】
前記所与のフローブロックに関連付けられたニューラルネットワークが、フローブロック入力信号(z)の第1の部分(z)および前記入力オーディオ信号(y、130、230、430)に応じて、前記アフィン処理の1つまたは複数のパラメータを決定するように構成され、
前記所与のフローブロックに関連付けられたアフィン処理が、アフィン処理された信号(
)を取得するために、前記決定されたパラメータを前記フローブロック入力信号(z)の第2の部分(z)に適用するように構成され、
前記フローブロック入力信号(z)の前記第1の部分(z)および前記アフィン処理された信号(
)が、前記所与のフローブロックのフローブロック出力信号(znew)を形成する、請求項4に記載の装置(100、200、400)。
【請求項6】
前記所与のフローブロックに関連付けられた前記ニューラルネットワークが、前記所与のフローブロックに関連付けられた前記アフィン処理における深さ方向に分離可能な畳み込みを含む、請求項5に記載の装置(100、200、400)。
【請求項7】
前記装置(100、200、400)が、処理されたフローブロック出力信号(z’new)を取得するために、前記所与のフローブロックの前記フローブロック出力信号(znew)に可逆畳み込みを適用するように構成されている、請求項5または6に記載の装置(100、200、400)。
【請求項8】
前記装置(100、200、400)が、前記入力オーディオ信号(y、130、230、430)に応じて前記雑音信号(z、120、220、420)を処理する前に、前記入力オーディオ信号(y、130、230、430)に非線形圧縮(490)を適用するように構成されている、請求項1から7のいずれか一項に記載の装置(100、200、400)。
【請求項9】
前記装置(100、200、400)が、前記非線形圧縮(490)としてμ則変換を前記入力オーディオ信号(y、130、230、430)に適用するように構成されている、請求項8に記載の装置(100、200、400)。
【請求項10】
前記装置(100、200、400)が、
にしたがって、前記入力オーディオ信号(y、130、230、430)に対して変換を適用するように構成され、
sgn()が、符号関数であり、
μが、圧縮レベルを定義するパラメータである、請求項8または9に記載の装置(100、200、400)。
【請求項11】
前記装置(100、200、400)が、前記処理されたオーディオ信号(
、160、260、460)に非線形拡張(415)を適用するように構成されている、請求項1から10のいずれか一項に記載の装置(100、200、400)。
【請求項12】
前記装置(100、200、400)が、前記非線形拡張(415)として逆μ則変換を前記処理されたオーディオ信号(
、160、260、460)に適用するように構成されている、請求項11に記載の装置(100、200、400)。
【請求項13】
前記装置(100、200、400)が、
にしたがって、前記処理されたオーディオ信号(
、160、260、460)に対して変換を適用するように構成され、
sgn()が、符号関数であり、
μが、拡張レベルを定義するパラメータである、請求項11または12に記載の装置(100、200、400)。
【請求項14】
前記雑音信号(z、120、220、420)、または前記雑音信号から導出された前記信号を処理するための前記ニューラルネットワークのニューラルネットワークパラメータが、
訓練結果信号を取得するために、1つまたは複数の訓練フローブロックにおいて、訓練オーディオ信号またはその処理済バージョンの処理を使用して取得され、前記1つまたは複数の訓練フローブロックを使用した前記訓練オーディオ信号またはその処理済バージョンの処理が、前記訓練オーディオ信号の歪んだバージョンに応じて、且つ前記ニューラルネットワークを使用して適合され、
前記ニューラルネットワークの前記ニューラルネットワークパラメータが、前記訓練結果オーディオ信号の特性が所定の特性に近似するか、または所定の特性を含むように決定される、請求項1から13のいずれか一項に記載の装置(100、200、400)。
【請求項15】
前記装置(100、200、400)が、前記雑音信号、または前記雑音信号から導出された前記信号を処理するために前記ニューラルネットワークのニューラルネットワークパラメータを提供するように構成され、
前記装置(100、200、400)が、訓練結果信号を取得するために、前記1つまたは複数のフローブロックを使用して、訓練オーディオ信号またはその処理済バージョンを処理するように構成され、
前記装置(100、200、400)が、前記訓練オーディオ信号の歪んだバージョンに応じて、且つ前記ニューラルネットワークを使用して、前記1つまたは複数のフローブロックを使用して実行される前記訓練オーディオ信号またはその処理済バージョンの処理を適合させるように構成され、
前記装置(100、200、400)が、前記訓練結果のオーディオ信号の特性が所定の特性に近似するか、または所定の特性を含むように、前記ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている、請求項1から14のいずれか一項に記載の装置(100、200、400)。
【請求項16】
前記装置が、ニューラルネットワークパラメータを提供するための装置を備え、
前記ニューラルネットワークパラメータを提供するための前記装置(100、200、400)が、前記雑音信号、または前記雑音信号から導出された前記信号を処理するための前記ニューラルネットワークのニューラルネットワークパラメータを提供するように構成され、
前記ニューラルネットワークパラメータを提供するための前記装置(100、200、400)が、訓練結果信号を取得するために1つまたは複数の訓練フローブロックを使用して、訓練オーディオ信号またはその処理済バージョンを処理するように構成され、
前記ニューラルネットワークパラメータを提供するための前記装置(100、200、400)が、前記訓練オーディオ信号の歪んだバージョンに応じて前記1つまたは複数のフローブロックを使用して実行される前記訓練オーディオ信号またはその処理済バージョンの処理を、前記ニューラルネットワークを使用して適合させるように構成され、
前記装置(100、200、400)が、前記訓練結果のオーディオ信号の特性が所定の特性に近似するか、または所定の特性を含むように、前記ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている、請求項1から15のいずれか一項に記載の装置(100、200、400)。
【請求項17】
前記1つまたは複数のフローブロック(1101...N、2101...N、4101...N)が、前記入力オーディオ信号(y、130、230、430)の前記案内下で前記雑音信号(z、120、220、420)に基づいて前記処理されたオーディオ信号(
、160、260、460)を合成するように構成されている、請求項1から16のいずれか一項に記載の装置(100、200、400)。
【請求項18】
前記1つまたは複数のフローブロック(1101...N、2101...N、4101...N)が、前記雑音信号(z、120、220、420)のサンプル値、または前記雑音信号から導出された信号のアフィン処理を使用して、前記入力オーディオ信号(y、130、230、430)の案内下で前記雑音信号(z、120、220、420)に基づいて前記処理されたオーディオ信号(
、160、260、460)を合成するように構成され、
前記アフィン処理の処理パラメータが、前記ニューラルネットワークを使用して、前記入力オーディオ信号(y、130、230、430)のサンプル値に基づいて決定される、請求項1から17のいずれか一項に記載の装置(100、200、400)。
【請求項19】
前記装置(100、200、400)が、前記処理されたオーディオ信号を前記雑音信号(z、120、220、420)から導出するために、正規化フロー処理を実行するように構成されている、請求項1から18のいずれか一項に記載の装置(100、200、400)。
【請求項20】
入力オーディオ信号(y、130、230、430)に基づいて処理されたオーディオ信号を提供するための方法であって、
前記方法が、前記処理されたオーディオ信号(
、160、260、460)を取得するために、1つまたは複数のフローブロック(1101...N、2101...N、4101...N)を使用して、雑音信号(z、120、220、420)、または前記雑音信号から導出された信号を処理することを含み、
前記方法が、前記入力オーディオ信号(y、130、230、430)に応じて且つニューラルネットワークを使用して前記1つまたは複数のフローブロック(
、160、260、460)を使用して実行される前記処理を適合させることを含む、方法。
【請求項21】
オーディオ処理のためのニューラルネットワークパラメータを提供するための装置(500、600、800)であって、
前記装置(500、600、800)が、訓練結果信号(z、520、620、820)を取得するために、1つまたは複数のフローブロック(5101...N、6101...N、8101...N)を使用して、訓練オーディオ信号(x、505、605、805)またはその処理済バージョンを処理するように構成され、
前記装置(500、600、800)が、前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)に応じて、且つニューラルネットワークを使用して、前記1つまたは複数のフローブロック(5101...N、6101...N、8101...N)を使用して実行される処理を適合させるように構成され、
前記装置(500、600、800)が、前記訓練結果オーディオ信号(z、520、620、820)の特性が所定の特性に近似するか、または所定の特性を含むように、前記ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている、装置。
【請求項22】
前記装置(500、600、800)が、前記取得された訓練結果信号(z、520、620、820)の特性に応じてコスト関数を評価するように構成され、
前記装置(500、600、800)が、前記コスト関数によって定義されるコストを低減または最小化するためにニューラルネットワークパラメータを決定するように構成されている、
請求項21に記載の装置(500、600、800)。
【請求項23】
前記訓練オーディオ信号(x、505、605、805)および/または前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)が、時間領域オーディオサンプルのセットによって表される、請求項21または22に記載の装置(500、600、800)。
【請求項24】
前記1つまたは複数のフローブロック(5101...N、6101...N、8101...N)のうちの所与のフローブロックに関連付けられたニューラルネットワークが、前記訓練オーディオ信号(x、505、605、805)、または前記訓練オーディオ信号から導出された信号に応じて、且つ前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)に応じて、前記所与のフローブロックに対する1つまたは複数の処理パラメータを決定するように構成されている、請求項21から23のいずれか一項に記載の装置(500、600、800)。
【請求項25】
所与のフローブロックに関連付けられたニューラルネットワークが、前記訓練オーディオ信号(x、505、605、805)、または前記訓練オーディオ信号の処理済バージョン、または前記訓練オーディオ信号の一部(x、505、605、805)、または前記処理中の前記訓練オーディオ信号の処理済バージョンの一部に適用されるアフィン処理の1つまたは複数のパラメータを提供するように構成されている、請求項21から24のいずれか一項に記載の装置(500、600、800)。
【請求項26】
前記所与のフローブロックに関連付けられたニューラルネットワークが、フローブロック入力信号(x)の第1の部分(x)に応じて、または前処理されたフローブロック入力信号(x’)の第1の部分に応じて、且つ前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)に応じて、前記アフィン処理の1つまたは複数のパラメータを決定するように構成され、
前記所与のフローブロックに関連付けられたアフィン処理が、アフィン処理された信号(
)を取得するために、前記決定されたパラメータを前記フローブロック入力信号(x)の第2の部分(x)または前記前処理されたフローブロック入力信号(x’)の第2の部分に適用するように構成され、
前記フローブロック入力信号(x)または前記前処理されたフローブロック入力信号(x’)の前記第1の部分(x)および前記アフィン処理された信号(
)が、前記所与のフローブロックのフローブロック出力信号xnewを形成する、請求項25に記載の装置(500、600、800)。
【請求項27】
前記所与のフローブロックに関連付けられた前記ニューラルネットワークが、前記所与のフローブロックに関連付けられた前記アフィン処理における深さ方向に分離可能な畳み込みを含む、請求項26に記載の装置(100、200、400)。
【請求項28】
前記装置(500、600、800)が、前記前処理されたフローブロック入力信号(x’)を取得するために、前記所与のフローブロックの前記フローブロック入力信号(x)に可逆畳み込みを適用するように構成されている、請求項26または27に記載の装置(500、600、800)。
【請求項29】
前記装置(500、600、800)が、前記訓練オーディオ信号(x、505、605、805)を処理する前に、前記訓練オーディオ信号(x、505、605、805)に非線形入力圧縮(815)を適用するように構成されている、請求項21から28のいずれか一項に記載の装置(500、600、800)。
【請求項30】
前記装置(500、600、800)が、前記訓練オーディオ信号(x、505、605、805)に前記非線形入力圧縮(815)としてμ則変換を適用するように構成されている、請求項29に記載の装置(500、600、800)。
【請求項31】
前記装置(500、600、800)が、
にしたがって、前記訓練オーディオ信号(x、505、605、805)に対して変換を適用するように構成され、
sgn()が、符号関数であり、
μが、圧縮レベルを定義するパラメータである、請求項29または30に記載の(500、600、800)。
【請求項32】
前記装置(500、600、800)が、前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)に応じて前記訓練オーディオ信号(x、505、605、805)を処理する前に、前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)に非線形入力圧縮(815)を適用するように構成されている、請求項21から31のいずれか一項に記載の装置(500、600、800)。
【請求項33】
前記装置(500、600、800)が、前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)に前記非線形入力圧縮(815)としてμ則変換を適用するように構成されている、請求項32に記載の装置(500、600、800)。
【請求項34】
前記装置(500、600、800)が、
にしたがって、前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)に対して変換を適用するように構成され、
sgn()が、符号関数であり、
μが、圧縮レベルを定義するパラメータである、請求項32または33に記載の装置(500、600、800)。
【請求項35】
前記1つまたは複数のフローブロック(5101...N、6101...N、8101...N)が、前記訓練オーディオ信号(x、505、605、805)を前記訓練結果信号(z、520、620、820)に変換するように構成されている、請求項21から34のいずれか一項に記載の装置(500、600、800)。
【請求項36】
前記1つまたは複数のフローブロック(5101...N、6101...N、8101...N)が、前記訓練オーディオ信号(x、505、605、805)のサンプル値、または前記訓練オーディオ信号(x、505、605、805)から導出された信号のアフィン処理を使用して、前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)の案内下で、前記訓練オーディオ信号(x、505、605、805)を前記訓練結果信号(z、520、620、820)に変換するように調整され、
前記アフィン処理の処理パラメータが、前記ニューラルネットワークを使用して、前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)のサンプル値に基づいて決定される、請求項21から35のいずれか一項に記載の装置(500、600、800)。
【請求項37】
前記装置(500、600、800)が、前記訓練オーディオ信号(x、505、605、805)から前記訓練結果信号(z、520、620、820)を導出するために、正規化フロー処理を実行するように構成されている、請求項21から36のいずれか一項に記載の装置(500、600、800)。
【請求項38】
オーディオ処理のためのニューラルネットワークパラメータを提供するための方法であって、
前記方法が、訓練結果信号(z、520、620、820)を取得するために、1つまたは複数のフローブロック(5101...N、6101...N、8101...N)を使用して、訓練オーディオ信号(x、505、605、805)またはその処理済バージョンを処理することを含み、
前記方法が、前記訓練オーディオ信号の歪んだバージョン(y、530、630、830)に応じて、且つニューラルネットワークを使用して、前記1つまたは複数のフローブロック(5101...N、6101...N、8101...N)を使用して実行される前記処理を適合させることを含み、
前記方法が、前記訓練結果オーディオ信号(z、520、620、820)の特性が所定の特性に近似するかまたはそれを含むように、前記ニューラルネットワークの前記ニューラルネットワークパラメータを決定することを含む、方法。
【請求項39】
コンピュータ上で実行されると、請求項20または38のいずれか一項に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。

【発明の詳細な説明】
【技術分野】
【0001】
本発明にかかる実施形態は、処理されたオーディオ信号を提供するための装置に関する。
【0002】
本発明にかかるさらなる実施形態は、処理されたオーディオ信号を提供するための方法に関する。
【0003】
本発明にかかるさらなる実施形態は、ニューラルネットワークパラメータを提供するための装置に関する。
【0004】
本発明にかかるさらなる実施形態は、ニューラルネットワークパラメータを提供するための方法に関する。
【0005】
本出願にかかる実施形態は、ニューラルネットワークを使用するオーディオ信号処理、特にオーディオ信号強調、特に発話強調に関する。
【0006】
一態様によれば、本発明にかかる実施形態は、ニューラルネットワークによる雑音の多い発声の直接的な強調を提供するために適用されることができる。
【背景技術】
【0007】
現在、目的発話信号を侵入的背景から区別することを含むオーディオ強調、特に発話強調に対する多数のアプローチが知られている。発話強調の目的は、発話内容のより良好な了解度を保証するために、干渉する背景から目標発話信号を強調することである。発話強調は、例えば補聴器または自動発話認識を含む広範囲の用途にとって重要である。
【0008】
近年、変分自己符号化器、敵対的生成ネットワーク(GAN)、自己回帰モデルなど、発話強調のための異なる生成的アプローチがますます使用されている。
【0009】
上記を考慮して、計算の複雑さと達成可能なオーディオ品質との間の改善されたトレードオフを提供するオーディオ信号強調のための概念を作り出すことが望まれている。
【0010】
この目的は、係属中の独立請求項の主題によって達成される。
さらなる有利な態様は、従属請求項の主題である。
【発明の概要】
【0011】
本発明にかかる実施形態は、例えば発話信号、例えば歪んだオーディオ信号、例えば雑音の多い発話信号y、例えば雑音の多い発話信号yから抽出されたクリーンな信号xなど、入力オーディオ信号に基づいて、例えば処理された発話信号、例えば強調されたオーディオ信号、例えば強調された発話信号、または例えば強調された一般的なオーディオ信号、例えば
など、処理されたオーディオ信号を提供するための装置を形成し、ここで、例えば、y=x+nであり、nは雑音であり、例えば雑音の多い背景である。装置は、例えば、アフィンスケーリングを使用して、または一連のアフィンスケーリング演算を使用して、処理されたオーディオ信号、例えば強調されたオーディオ信号、例えば
を取得するために、例えばアフィン結合層を含む、例えば可逆畳み込みを含む、例えばフローブロックを使用して、例えば8つのフローブロックなどの1つまたは複数のフローブロックを使用して、例えばzなどの雑音信号、または雑音信号から導出された信号を処理するように構成されている。装置は、入力オーディオ信号、例えば歪んだオーディオ信号に応じて、例えば雑音の多い発話信号yに応じて、例えば雑音の多い時間領域発話サンプルに応じて、1つまたは複数のフローブロックを使用し、ニューラルネットワークを使用して実行される処理を適合させるように構成されている。ニューラルネットワークは、例えば、歪んだオーディオ信号に基づいて、好ましくは雑音信号の少なくとも一部またはその処理済バージョンにも応じて、フローブロックについての1つまたは複数の処理パラメータ、例えばスケーリング係数およびシフト値などのアフィン処理のパラメータを提供する。
【0012】
この実施形態は、例えば発話強調目的のためのオーディオ信号の処理が、例えば生成的プロセスをモデル化し得るフローブロック処理を使用して直接実行されることができるという知見に基づいている。フローブロック処理は、入力オーディオ信号、例えば雑音の多いオーディオ信号yに調整された方法で、例えば装置によって生成された、または例えば装置に記憶された雑音信号、例えば雑音信号zを処理することを可能にすることが分かっている。雑音信号zは、所与の(例えば、単純または複雑)確率分布、好ましくはガウス確率分布を表す(または含む)。歪んだオーディオ信号に条件付けされた雑音信号の処理時に、入力オーディオ信号の強調されたクリーンな部分が、処理の結果として、このクリーンな部分、例えば雑音の多い背景のないクリーンな部分を装置への入力として導入することなく提供されることが分かった。
【0013】
提案された装置は、効果的で容易に実装されるオーディオ信号処理、特に直接オーディオ信号処理、例えば発話サンプルの直接強調を提供する。同時に、例えば改善された発話強調、または例えば処理されたオーディオ信号の改善された品質などの高性能が、提案された装置において提供される。
【0014】
結論として、本明細書に記載された概念は、計算の複雑さと達成可能なオーディオ品質との間の改善された妥協点を提供する。
【0015】
実施形態によれば、入力オーディオ信号は、時間領域オーディオサンプルのセット、例えば雑音の多い時間領域オーディオ、例えば発話、サンプル、例えば時間領域発話発声によって表される。例えば、入力オーディオ信号の時間領域オーディオサンプル、またはそれから導出された時間領域オーディオサンプルは、ニューラルネットワークに入力され、例えば、入力オーディオ信号の時間領域オーディオサンプル、またはそれから導出された時間領域オーディオサンプルは、領域表現、例えばスペクトル領域表現を変換するために変換を適用することなく、時間領域表現の形態でニューラルネットワークにおいて処理される。
【0016】
発話領域(または時間領域)において直接フローブロック処理を実行することは、任意の所定の特徴または時間-周波数、T-F変換を必要とせずにオーディオ信号処理を可能にする。雑音信号と入力オーディオ信号の双方が同じ次元であるため、生成的プロセスにおけるアップサンプリング層は必要とされない。さらに、時間領域サンプルの処理は、可逆アフィン処理を実行する一連のフローブロックにおける信号統計の効率的な修正を可能にし、そのような一連のフローブロックにおける雑音信号からオーディオ信号を導出することも可能にすることが認識されている。一連のフローブロックにおける時間領域サンプルの処理は、再構築されたオーディオ信号が良好な聴覚印象を含むように信号特性を適合させることを可能にすることが分かっている。さらに、時間領域において処理を実行することにより、異なる信号表現領域間でリソースを消費する変換動作が回避されることができることが認識されている。さらに、発話領域(または時間領域)において直接フローブロック処理を実行することは、ニューラルネットワークを使用したフローブロック処理のパラメータ量を低減することが認識されている。したがって、計算負荷の低いオーディオ信号処理が提供される。
【0017】
実施形態によれば、1つまたは複数のフローブロックの所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、雑音信号、例えばz、または雑音信号から導出された信号に応じて、且つ入力オーディオ信号、例えばyに応じて、所与のフローブロックの1つまたは複数の処理パラメータ、例えばスケーリング係数、例えばS、および例えばシフト値、例えばTを決定するように構成されている。
【0018】
入力オーディオ信号の時間領域サンプルも受信して処理するニューラルネットワークを使用してアフィン処理の1つまたは複数の処理パラメータを決定することは、入力オーディオ信号に応じて雑音信号に基づいて処理されたオーディオ信号の合成を制御することを可能にする。したがって、ニューラルネットワークは、入力オーディオ信号に基づいて(典型的には、雑音信号の一部、または処理された雑音信号の一部にも応じて)アフィン処理のための適切な処理パラメータを提供するように訓練されることができる。また、ニューラルネットワークの訓練は、処理されたオーディオ信号の導出に使用されるアフィン処理とは逆のアフィン処理を含む訓練構造を使用して合理的な努力で可能であることが認識されている。
【0019】
実施形態によれば、所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、例えばアフィン結合層内のアフィン処理の1つまたは複数のパラメータ、例えばスケーリング係数、例えばS、および例えばシフト値、例えばTを提供するように構成され、これは処理中に雑音信号、または雑音信号の処理済バージョン、または雑音信号の一部、または雑音信号の処理済バージョンの一部、例えばzに適用される。
【0020】
ニューラルネットワークを使用してアフィン処理の1つまたは複数のパラメータを提供することにより、およびアフィン処理を、例えば雑音信号または雑音信号の処理済バージョンに適用することにより、雑音信号に適用される処理は反転可能である。したがって、ニューラルネットを介して完全な雑音信号を供給することが回避されることができ、これは、通常、非可逆動作をもたらす。しかしながら、ニューラルネットを使用して可逆(アフィン)処理を制御することにより、ニューラルネットの訓練が大幅に容易にされることができ、これは、取り扱われることができる処理の複雑さをもたらす。
【0021】
実施形態によれば、所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、フローブロック入力信号、例えばzの第1の部分、例えばzに応じて、または前処理されたフローブロック入力信号、例えばz’の第1の部分に応じて、および入力オーディオ信号、例えばyに応じて、アフィン処理の1つまたは複数のパラメータ、例えばスケーリング係数、例えばS、および例えばシフト値、例えばTを決定するように構成されている。所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたアフィン処理は、決定されたパラメータ、例えばスケーリング係数、例えばS、および例えばシフト値、例えばTを、フローブロック入力信号の第2の部分、例えばz、または前処理されたフローブロック入力信号の第2の部分、例えばz’に適用してアフィン処理された信号
を取得するように構成されている。アフィン処理によって修正されていないフローブロック入力信号、例えばz、または前処理されたフローブロック入力信号、例えばz’の第1の部分、例えばz、およびアフィン処理された信号、例えば
は、例えばアフィン処理の所与のステージなどの所与のフローブロックのフローブロック出力信号、例えばznew、例えばステージ出力信号を形成、例えば構成する。所与のフローブロックのアフィン処理、例えばアフィン結合層は、使用されるニューラルネットワークを訓練する際に使用されるフローブロック処理を反転することによって処理されたオーディオ信号を生成することを保証する。
【0022】
実施形態によれば、所与のフローブロックに関連付けられたニューラルネットワークは、所与のフローブロックに関連付けられたアフィン処理における深さ方向の分離可能な畳み込みを含む。ニューラルネットワークは、例えば、ニューラルネットワークにおいて従来使用されている任意の標準的な畳み込みの代わりに、深さ方向に分離可能な畳み込みを含んでもよい。例えば、任意の他の標準的な畳み込みの代わりに、深さ方向に分離可能な畳み込みを適用することは、ニューラルネットワークを使用するフローブロック処理のパラメータの量を低減し得る。例えば、発話領域(または時間領域)において直接フローブロック処理を実行することと組み合わせて、ニューラルネットワークの深さ方向に分離可能な畳み込みを適用することは、ニューラルネットワークパラメータの数を、例えば80百万から20~50百万、例えば25百万に低減し得る。したがって、計算負荷の低いオーディオ信号処理が提供される。
【0023】
実施形態によれば、装置は、処理されたフローブロック出力信号z’new、例えばフローブロック出力信号の処理済バージョン、例えばフローブロック出力信号の畳み込みバージョンを取得するために、所与のフローブロック、例えば、後続のステージ、または第1のステージに続く他の後続のステージの入力信号であり得るアフィン処理の所与のステージのフローブロック出力信号、例えばznew、例えばステージ出力信号に対して、可逆畳み込み、例えば1×1の可逆畳み込みを適用するように構成されている。可逆畳み込みは、異なるフローブロック(または処理ステージ)において異なるサンプルがアフィン処理によって処理されることを保証するのに役立ち得る。また、可逆畳み込みは、異なるサンプルが異なる(後続の)フローブロックのニューラルネットに供給されることを保証するのに役立ち得る。したがって、一連の時間領域サンプルの統計的特性を効率的に変更することによって、雑音信号に基づく処理されたオーディオ信号の合成が改善されることができる。
【0024】
実施形態によれば、装置は、入力オーディオ信号、例えばyに応じて雑音信号、例えばzを処理する前に、入力オーディオ信号、例えばyに非線形圧縮、例えばμ則変換を適用するように構成されている。この機能の利点に関して、ニューラルネットワークパラメータを提供するための装置の以下の説明、特に、ニューラルネットワークパラメータを提供するための装置において使用される非線形圧縮アルゴリズムの説明を参照する。
【0025】
実施形態によれば、装置は、非線形圧縮として、μ則変換、例えばμ則関数を入力オーディオ信号、例えばyに適用するように構成されている。この機能の利点に関して、ニューラルネットワークパラメータを提供するための装置の以下の説明、特に、ニューラルネットワークパラメータを提供するための装置において使用される非線形圧縮アルゴリズムとしてμ則変換を適用することの説明を参照する。
【0026】
実施形態によれば、装置は、入力オーディオ信号に対して、
にしたがって変換を適用するように構成され、例えば、sgn()は、符号関数であり、μは、圧縮レベルを定義するパラメータである。この機能の利点に関して、ニューラルネットワークパラメータを提供するための装置の以下の説明、特に、ニューラルネットワークパラメータを提供するための装置において使用される非線形圧縮アルゴリズムと同じ変換を適用することの説明を参照する。
【0027】
実施形態によれば、装置は、非線形拡張、例えば、逆μ則変換、例えば、μ則変換の反転を、処理された、例えば強調されたオーディオ信号に適用するように構成されている。これは、効果的な後処理ツール、例えば、密度推定のための効果的な後処理技術を提供し、オーディオ信号処理の強調結果および改善された性能を向上させる。結果として、高周波付加が最小限に抑えられた強調された信号が装置の出力として提供される。
【0028】
実施形態によれば、装置は、例えば、処理された、例えば強調されたオーディオ信号(
)への非線形拡張として、μ則変換を反転することによって、逆μ則変換、例えば逆μ則関数を適用するように構成されている。逆μ則変換を使用することは、雑音の多い入力信号から強調された出力信号への生成的プロセスのモデリングの改善された結果を提供し、したがって改善された強調性能を提供する。これは、効果的な後処理ツール、例えば、密度推定のための効果的な後処理技術を提供し、オーディオ信号処理の強調結果および改善された性能を向上させる。
【0029】
実施形態によれば、装置は、処理された、例えば強調されたオーディオ信号、例えば
に対して、
にしたがって変換を適用するように構成され、例えば、sgn()は、符号関数であり、μは、拡張レベルを定義するパラメータである。オーディオ信号処理の向上した強調結果および改善された性能が提供される。これは、効果的な後処理ツール、例えば、密度推定のための効果的な後処理技術を提供し、オーディオ信号処理の強調結果および改善された性能を向上させる。
【0030】
実施形態によれば、雑音信号、または雑音信号から導出された信号を処理するためのニューラルネットワークのニューラルネットワークパラメータは、訓練結果信号を取得するために、1つまたは複数の訓練フローブロックにおいて、訓練オーディオ信号またはその処理済バージョンの処理を使用して、例えば装置に保存される、例えばリモートサーバに保存されるなど、予め取得されており、1つまたは複数の訓練フローブロックを使用した訓練オーディオ信号またはその処理済バージョンの処理は、訓練オーディオ信号の歪んだバージョンおよびニューラルネットワークの使用に応じて適合される。ニューラルネットワークのニューラルネットワークパラメータは、訓練結果オーディオ信号の特性、例えば確率分布が所定の特性、例えば雑音様特性、例えばガウス分布に近似するかまたはそれを含むように決定される。処理されたオーディオ信号の提供に使用される1つまたは複数のニューラルネットワークは、訓練結果信号の提供に使用される1つまたは複数のニューラルネットワークと同一であり、訓練フローブロックは、処理されたオーディオ信号の提供において実行されるアフィン処理とは逆のアフィン処理を実行する。
【0031】
したがって、フローブロックに関連付けられたニューラルネットワークの効果的な訓練ツールが提供され、これは、装置におけるフローブロック処理において使用されるニューラルネットワークのパラメータを提供する。これは、改善されたオーディオ信号処理、特に装置における改善された信号強調をもたらす。例えば、このようにしてニューラルネットワークパラメータを取得することは、効率的な訓練を可能にする。ニューラルネットワークパラメータの訓練および推論(処理されたオーディオ信号の導出)において逆処理アプローチ(例えば、逆アフィン変換によって定義される)を使用することが可能であり、これは高効率および十分に予測可能な信号変換をもたらす。したがって、実行可能な複雑さで良好な聴覚印象が達成されることができる。
【0032】
実施形態によれば、装置は、雑音信号、または雑音信号から導出された信号を処理するためのニューラルネットワークのニューラルネットワークパラメータを提供するように構成され、装置は、訓練結果信号を取得するために1つまたは複数のフローブロックを使用して、訓練オーディオ信号またはその処理済バージョンを処理するように構成されている。装置は、訓練オーディオ信号の歪んだバージョンに応じて、且つニューラルネットワークを使用して、1つまたは複数のフローブロックを使用して実行される訓練オーディオ信号またはその処理済バージョンの処理を適合させるように構成されている。装置は、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている。パラメータ最適化手順を使用することは、例えば、ニューラルネットワークパラメータの数を、例えば80百万から20~50百万、例えば25百万に低減し得る。装置は、装置内のオーディオ信号の処理に使用されるフローブロックに関連付けられたニューラルネットワークのためのニューラルネットワークパラメータを提供するように構成されている。したがって、装置は、外部訓練ツールを必要とせずに、フローブロックに関連付けられたニューラルネットワークのための効果的な訓練ツールを提供する。
【0033】
実施形態によれば、装置は、ニューラルネットワークパラメータを提供するための装置を備え、ニューラルネットワークパラメータを提供するための装置は、雑音信号、または雑音信号から導出された信号を処理するためのニューラルネットワークのニューラルネットワークパラメータを提供するように構成されている。ニューラルネットワークパラメータを提供するための装置は、訓練結果信号を取得するために、1つまたは複数の訓練フローブロックを使用して、訓練オーディオ信号またはその処理済バージョンを処理するように構成されている。ニューラルネットワークパラメータを提供するための装置は、訓練オーディオ信号の歪んだバージョンに応じて、およびニューラルネットワークを使用して、1つまたは複数のフローブロックを使用して実行される訓練オーディオ信号またはその処理済バージョンの処理を適合させるように構成されている。装置は、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている。したがって、装置は、外部訓練ツールを必要とせずに、フローブロックに関連付けられたニューラルネットワークのための効果的な訓練ツールを備える。
【0034】
実施形態によれば、1つまたは複数のフローブロックは、入力オーディオ、例えば発話信号の案内下で雑音信号に基づいて処理されたオーディオ、例えば発話信号を合成するように構成されている。したがって、入力オーディオ信号は、ニューラルネットワークの入力量として機能し、それによって雑音信号に基づいて処理されたオーディオ信号の合成を制御し得る。例えば、ニューラルネットワークは、アフィン処理を効果的に制御して、雑音信号(またはその処理済バージョン)の信号特性を入力オーディオ信号の(統計的な)信号特性に近似させてもよく、入力オーディオ信号の雑音寄与は、少なくとも部分的に低減される。したがって、入力オーディオ信号と比較した場合の処理されたオーディオ信号の信号品質の改善が達成され得る。
【0035】
実施形態によれば、1つまたは複数のフローブロックは、入力オーディオ、例えば発話、雑音信号のサンプル値、または雑音信号から導出された信号のアフィン処理を使用した信号の案内下で雑音信号に基づいて、処理されたオーディオ、例えば発話、信号を合成するように構成されている。アフィン処理の処理パラメータ、例えばスケーリング係数、例えばS、および例えばシフト値、例えばTは、ニューラルネットワークを使用して、例えば時間領域の入力オーディオ信号のサンプル値に基づいて決定される。そのような処理は、妥当な処理負荷において良好な結果として得られる処理されたオーディオ信号品質をもたらすことが分かっている。
【0036】
実施形態によれば、装置は、例えば入力オーディオ信号の案内下で雑音信号から処理されたオーディオ信号を導出するために、正規化フロー処理を実行するように構成されている。フロー処理の正規化は、オーディオ強調アプリケーションにおいて処理されたオーディオ信号の高品質サンプルを首尾よく生成する能力を提供することが認識されている。
【0037】
本発明にかかる実施形態は、入力オーディオ信号に基づいて処理されたオーディオ信号を提供するための方法を形成する。本方法は、処理されたオーディオ信号を取得するために、1つまたは複数のフローブロックを使用して、雑音信号、または雑音信号から導出された信号を処理することを含む。本方法は、入力オーディオ信号、例えば歪んだオーディオ信号に応じて、1つまたは複数のフローブロックを使用して実行される処理を適合させることと、ニューラルネットワークを使用することとを含む。
【0038】
この実施形態にかかる方法は、上述した処理されたオーディオ信号を提供するための装置と同じ考慮事項に基づいている。さらに、この開示された実施形態は、個々におよび組み合わせて処理されたオーディオ信号を提供するための装置に関連して本明細書に開示された任意の他の特徴、機能および詳細によって任意に補足されてもよい。
【0039】
本発明にかかる実施形態は、オーディオ処理、例えば発話処理のために、推論モードにおいて、雑音信号の一部、例えばz、またはその処理済バージョンに基づいて、および入力オーディオ信号、例えばyに基づいて、スケーリング係数、例えばs、およびシフト値、例えばtを提供するニューラルネットワークのエッジ重みに対応し得る、訓練モードにおいて、クリーンなオーディオ信号の一部、例えばx、またはその処理済バージョンに基づいて、および歪んだオーディオ信号、例えばyに基づいて、スケーリング係数、例えばs、およびシフト値、例えばtを提供するニューラルネットワークの、例えばエッジ重み、例えばθなどのニューラルネットワークパラメータを提供するための装置を形成する。装置は、例えば、複数の反復において、例えば、雑音信号に等しいはずの訓練結果信号を取得するために、例えばアフィン結合層を含む、例えば可逆畳み込みを含む、例えばフローブロックシステムを使用して、例えば8個のフローブロックなどの1つまたは複数のフローブロックを使用して、例えばxなどの発話信号、またはその処理済バージョンなどの訓練オーディオ信号を処理するように構成されている。装置は、訓練オーディオ信号の歪んだバージョン、例えばy、例えば歪んだオーディオ信号、例えば雑音の多い発話信号yに応じて、およびニューラルネットワークを使用して、1つまたは複数のフローブロックを使用して実行される処理を適合させるように構成されている。ニューラルネットワークは、例えば、訓練オーディオ信号の歪んだバージョンに基づいて、好ましくは訓練オーディオ信号の少なくとも一部またはその処理済バージョンにも応じて、フローブロックの1つまたは複数の処理パラメータ、例えばスケーリング係数およびシフト値などのアフィン処理のパラメータを提供する。装置は、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えばガウス分布などの雑音様特性に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えばニューラルネットワークによって実行されるパラメータ最適化手順を使用して、ニューラルネットワークのニューラルネットワークパラメータを決定するように構成されている。
【0040】
この実施形態は、フローブロック処理がオーディオ信号処理に適用されることができ、特に、雑音の多い相手、例えばyを条件とする、例えばxなどのクリーンな発話サンプルに基づいて簡単な確率分布からより複雑な確率分布へのマッピングを学習することによって、例えばクリーンな発話の確率分布を学習することによって、オーディオ信号処理に使用されるニューラルネットワークのニューラルネットワークパラメータを決定することができるという知見に基づいている。例えば、フローブロックのシーケンスに関連付けられたニューラルネットワークのパラメータは、推論において、すなわち雑音信号に基づいて処理されたオーディオ信号を取得するときに良好に使用可能であることが分かっている。また、訓練フローブロックに対応し、訓練されたニューラルネットワークパラメータを使用するニューラルネットワークを使用して制御されることができる推論フローブロックを容易に設計することが可能であることが分かった。
【0041】
提案された装置は、オーディオ信号処理において使用されるニューラルネットワークのパラメータを提供する、フローブロックに関連付けられたニューラルネットワークの効果的な訓練ツールを提供する。これは、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用して、改善されたオーディオ信号処理、特に改善されたオーディオ信号強調をもたらし、これは、高い性能、例えば改善された発話強調、または例えば処理されたオーディオ信号の改善された品質を提供する。
【0042】
実施形態によれば、装置は、取得された訓練結果信号の特性に応じて、例えば取得された雑音信号の分布、例えばガウス関数分布、および取得された雑音信号の分散δ2に応じて、例えば損失関数などのコスト関数、および、例えば、それぞれのフローブロックの入力信号に依存し得るフローブロックのスケーリング係数などの処理パラメータを評価するように構成されている。装置は、コスト関数によって定義されるコストを低減または最小化するためにニューラルネットワークパラメータを決定するように構成されている。モデル化された生成的プロセスとモデル化によって表される生成的プロセスとの間の相関が最適化される。さらに、コスト関数は、ニューラルネットワークによって制御されるフローブロックのシーケンスにおける処理が、訓練オーディオ信号を所望の統計的特性を有する信号に(例えば、雑音様信号に)変換するように、ニューラルネットワークパラメータを調整するのに役立つ。所望の統計的特性と訓練フローブロックによって提供される信号との間の偏差は、コスト関数によって効率的に表され得る。したがって、ニューラルネットワークパラメータは、訓練フローブロックにおける処理が、その統計的特性が所望の(例えば雑音様)特性に近似する信号を提供するように、訓練または最適化されることができる。この訓練では、コスト関数は、単純な(効率的に計算可能な)訓練目標関数であってもよく、したがって、ニューラルネットワークパラメータの適応を容易にし得る。このように訓練された訓練されたニューラルネットワークパラメータは、次いで、雑音信号に基づいて処理されたオーディオ信号を合成するための推論処理に使用されることができる。
【0043】
実施形態によれば、訓練オーディオ信号、例えばx、および/または訓練オーディオ信号の歪んだバージョン、例えばyは、時間領域オーディオサンプルのセット、例えば雑音の多い時間領域オーディオ、例えば発話、サンプル、例えば時間領域発話発声によって表される。入力オーディオ信号の時間領域オーディオサンプル、またはそこから導出された時間領域オーディオサンプルは、例えば、ニューラルネットワークに入力される。訓練オーディオ信号の時間領域オーディオサンプル、またはそれから導出された時間領域オーディオサンプルは、例えば、領域表現、例えばスペクトル領域表現を変換するために変換を適用することなく、時間領域表現の形態でニューラルネットワークにおいて処理される。発話領域(または時間領域)において直接フローブロック処理を実行することは、任意の所定の特徴または時間-周波数、T-F変換を必要とせずにオーディオ信号処理を可能にする。訓練オーディオ信号と訓練オーディオ信号の歪んだバージョンの双方が同じ次元のものである場合、処理においてアップサンプリング層は必要とされない。さらに、時間領域処理の上述した利点も参照される。
【0044】
実施形態によれば、1つまたは複数のフローブロックの所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、訓練オーディオ信号、例えばx、または訓練オーディオ信号から導出された信号に応じて、且つ訓練オーディオ信号の歪んだバージョン、例えばyに応じて、所与のフローブロックについての1つまたは複数の処理パラメータ、例えばスケーリング係数、例えばs、および例えばシフト値、例えばtを決定するように構成されている。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。
【0045】
実施形態によれば、所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、例えばアフィン結合層におけるアフィン処理の1つまたは複数のパラメータ、例えばスケーリング係数、例えばs、および例えばシフト値、例えばtを提供するように構成され、これは、訓練オーディオ信号、例えばx、または訓練オーディオ信号の処理済バージョン、または訓練オーディオ信号の一部、または処理中の訓練オーディオ信号の処理済バージョンの一部に適用される。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。
【0046】
実施形態によれば、所与のフローブロック、例えばアフィン処理の所与のステージに関連付けられたニューラルネットワークは、アフィン処理の1つまたは複数のパラメータ、例えばスケーリング係数、例えばs、および例えばシフト値、例えばtを、フローブロック入力信号、例えばxの第1の部分、例えばxに応じて、または前処理されたフローブロック入力信号、例えばx’の第1の部分に応じて、および訓練オーディオ信号の歪んだバージョン、例えばyに応じて決定するように構成されている。所与のフローブロックに関連付けられたアフィン処理、例えばアフィン処理の所与のステージは、決定されたパラメータをフローブロック入力信号xの第2の部分、例えばx、または前処理されたフローブロック入力信号x’の第2の部分に適用して、アフィン処理された信号、例えば
を取得するように構成されている。例えばアフィン処理によって変更されないフローブロック入力信号、例えばx、または前処理されたフローブロック入力信号、例えばx’の第1の部分、例えばx、およびアフィン処理された信号、例えば
は、例えばアフィン処理の所与のステージなどの所与のフローブロックのフローブロック出力信号、例えばステージ出力信号xnew、例えばステージ出力信号を形成、例えば構成する。所与のフローブロックのアフィン処理、例えばアフィン結合層は、フローブロック処理の可逆性および訓練結果オーディオ信号の特性、例えば確率密度関数を決定する際に使用されるヤコビ行列式の効率的な計算を保証する。さらに、フローブロック入力信号の他の部分をアフィン処理によって変更せずに、フローブロック入力信号の一部のみをアフィン処理することによって、フローブロック入力信号の一部をニューラルネットワークに入力する機会を依然として有しながら、処理の可逆性が達成される。ニューラルネットワークの入力として使用されるフローブロック入力信号のその部分はアフィン処理の影響を受けないため、アフィン処理が可逆的であれば(通常はそうである)、アフィン処理の前後の双方で利用可能であり、ひいては処理方向の反転を可能にする(訓練ステージから推論ステージに進むとき)。したがって、訓練中に学習された学習済みのニューラルネットワーク係数は、推論ステージにおいて非常に有意である。
【0047】
実施形態によれば、所与のフローブロックに関連付けられたニューラルネットワークは、所与のフローブロックに関連付けられたアフィン処理における深さ方向の分離可能な畳み込みを含む。ニューラルネットワークは、例えば、ニューラルネットワークにおいて従来使用されている任意の標準的な畳み込みの代わりに、深さ方向に分離可能な畳み込みを含んでもよい。例えば、任意の他の標準的な畳み込みの代わりに、深さ方向に分離可能な畳み込みを適用することは、ニューラルネットワークを使用したフローブロック処理のパラメータの量を低減し得る。例えば、発話領域(または時間領域)において直接フローブロック処理を実行することと組み合わせて、ニューラルネットワークの深さ方向に分離可能な畳み込みを適用することは、ニューラルネットワークパラメータの数を、例えば80百万から20~50百万、例えば25百万に低減し得る。したがって、計算負荷の低いオーディオ信号処理が提供される。
【0048】
実施形態によれば、装置は、前処理されたフローブロック入力信号、例えばx’、フローブロック入力信号の前処理済バージョン、例えばフローブロック入力信号の畳み込みバージョンを取得するために、例えば第1のステージの訓練オーディオ信号または訓練オーディオ信号から導出された信号であってもよく、例えば第1のステージに続く他の後続のステージの前のステージの出力信号であってもよい、アフィン処理の所与のステージのフローブロック入力信号、例えばx、例えばステージ入力信号に、例えば1×1の反転可能な畳み込みを適用するように構成されている。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明が参照される。
【0049】
実施形態によれば、装置は、訓練オーディオ信号、例えばxを処理する前に、訓練オーディオ信号、例えばxに非線形入力圧縮、例えば非線形圧縮、例えばμ則変換を適用するように構成されている。非線形圧縮アルゴリズムが適用されて、オーディオデータサンプルの小さい振幅をより広い振幅にマッピングし、より大きい振幅をより小さい間隔にマッピングする。これは、クリーンなデータサンプルではより高い絶対振幅が十分に表されないという問題を解決する。これは、効果的な前処理ツール、例えば密度推定のための効果的な前処理技術を提供し、これにより、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理の強調結果および改善された性能を向上させる。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。非線形入力圧縮は、例えば、上述した非線形拡張と逆であってもよい。
【0050】
実施形態によれば、装置は、訓練オーディオ信号、例えばxへの非線形入力圧縮として、μ則変換、例えばμ則関数を適用するように構成されている。クリーンな信号の分布を学習するのではなく、圧縮信号の分布を学習する。μ則変換を使用したフロー処理は、背景漏れの少ない、より細かい粒度の発話部分を捉えることができる。したがって、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理時に改善された強調性能が提供される。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。μ則変換は、例えば、処理されたオーディオ信号を提供するための装置に関して上述した変換と(少なくともほぼ)逆であってもよい。これは、効果的な前処理ツール、例えば密度推定のための効果的な前処理技術を提供し、これにより、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理の強調結果および改善された性能を向上させる。
【0051】
実施形態によれば、装置は、訓練オーディオ信号(x)に対して、
にしたがって変換を適用するように構成され、sgn()は、符号関数であり、μは、圧縮レベルを定義するパラメータである。決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理の向上した強調結果および改善された性能が提供される。この機能の利点に関して、処理されたオーディオ信号を提供するための装置の上記の説明も参照される。変換は、例えば、処理されたオーディオ信号を提供するための装置に関して上述した変換と(少なくともほぼ)逆であってもよい。これは、効果的な前処理ツール、例えば密度推定のための効果的な前処理技術を提供し、これにより、決定されたニューラルネットワークパラメータを有するニューラルネットワークを使用したオーディオ信号処理の強調結果および改善された性能を向上させる。
【0052】
実施形態によれば、装置は、例えばyなどの訓練オーディオ信号の歪んだバージョンに応じて、例えばxなどの訓練オーディオ信号を処理する前に、例えばyなどの訓練オーディオ信号の歪んだバージョンに非線形入力圧縮、例えばμ則変換を適用するように構成されている。この機能の利点に関して、例えばxなどの訓練オーディオ信号を処理するために使用される非線形圧縮アルゴリズムの上記の説明を参照する。
【0053】
実施形態によれば、装置は、訓練オーディオ信号の歪んだバージョン、例えばyに対する非線形入力圧縮として、μ則変換、例えばμ則関数を適用するように構成されている。この機能の利点に関して、訓練オーディオ信号、例えばxを処理するために使用される非線形圧縮アルゴリズムとしてμ則変換を適用する上記の説明を参照する。
【0054】
実施形態によれば、装置は、訓練オーディオ信号の歪んだバージョンに対して、
にしたがって変換を適用するように構成され、sgn()は、符号関数であり、μは、圧縮レベルを定義するパラメータである。この機能の利点に関して、訓練オーディオ信号、例えばxを処理するために使用される非線形圧縮アルゴリズムと同じ変換を適用する上記の説明が参照される。
【0055】
実施形態によれば、1つまたは複数のフローブロックは、訓練オーディオ信号を、雑音信号に近似するか、または雑音様の特性を含む訓練結果信号に変換するように構成されている。フローブロックに関連付けられ、訓練オーディオ信号を雑音信号に(または少なくとも雑音様信号に)変換するように訓練されたニューラルネットワークは、発話強調によく使用可能であることが分かっている(例えば、「逆」推論フローブロックを使用して、訓練フローブロックの機能と比較した場合に実質的に逆の機能を実行する)。
【0056】
実施形態によれば、1つまたは複数のフローブロックは、例えば、ニューラルネットワークパラメータの適切な決定によって調整されて、訓練オーディオ信号のサンプル値、または訓練オーディオ信号から導出された信号のアフィン処理を使用して、訓練オーディオ信号を、例えば発話信号などの訓練オーディオ信号の歪んだバージョンの案内下で訓練結果信号に変換する。アフィン処理の処理パラメータ、例えばスケーリング係数、例えばs、および例えばシフト値、例えばtは、ニューラルネットワークを使用して訓練オーディオ信号の歪んだバージョンの例えば時間領域サンプル値に基づいて決定される。(例えば、スケーリング値および/またはシフト値を提供することによって)1つまたは複数のフローブロックを調整するために使用されるニューラルネットワークは、推論装置(例えば、本明細書に記載される処理されたオーディオ信号を提供するための装置)におけるオーディオ強調のために良好に使用可能であることが分かっている。
【0057】
実施形態によれば、装置は、例えば訓練オーディオ信号の歪んだバージョンの案内下で、訓練オーディオ信号から訓練結果信号を導出するために、正規化フロー処理を実行するように構成されている。フロー処理を正規化することは、訓練結果信号の高品質サンプルを首尾よく生成する能力を提供する。また、正規化フロー処理は、訓練によって取得されたニューラルネットワークパラメータを使用して、発話強調のための良好な結果を提供することが分かった。
【0058】
本発明にかかる実施形態は、オーディオ処理、例えば発話処理のために、推論モードにおいて、雑音信号の一部、例えばz、またはその処理済バージョンに基づいて、および入力オーディオ信号、例えばyに基づいて、スケーリング係数、例えばs、およびシフト値、例えばtを提供するニューラルネットワークのエッジ重みに対応し得る、訓練モードにおいて、クリーンなオーディオ信号の一部、例えばx、またはその処理済バージョンに基づいて、および歪んだオーディオ信号、例えばyに基づいて、スケーリング係数、例えばs、およびシフト値、例えばtを提供するニューラルネットワークの、例えばエッジ重み、例えばθなどのニューラルネットワークパラメータを提供するための方法を形成する。本方法は、例えば、複数の反復において、例えば雑音信号、例えばzに等しくなければならない訓練結果信号を取得するために、例えばアフィン結合層を含む、例えば可逆畳み込みを含む、例えばフローブロックシステムを使用して、1つまたは複数のフローブロックを使用して、例えば発話、例えばxなどの訓練オーディオ信号、またはその処理済バージョンを、処理することを含む。本方法は、訓練オーディオ信号の歪んだバージョン、例えばy、例えば歪んだオーディオ信号、例えば雑音の多い発話信号yに応じて、1つまたは複数のフローブロックを使用して実行される処理を適合させることと、ニューラルネットワークを使用することとを含む。ニューラルネットワークは、例えば、訓練オーディオ信号の歪んだバージョンに基づいて、好ましくは訓練オーディオ信号の少なくとも一部またはその処理済バージョンにも応じて、フローブロックの1つまたは複数の処理パラメータ、例えばスケーリング係数およびシフト値などのアフィン処理のパラメータを提供する。本方法は、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数の評価を使用して、例えば、パラメータ最適化手順を使用して、ニューラルネットワークのニューラルネットワークパラメータを決定することを含む。
【0059】
この実施形態にかかる方法は、上述したニューラルネットワークパラメータを提供するための装置と同じ考慮事項に基づいている。さらに、この開示された実施形態は、個々におよび組み合わせて、ニューラルネットワークパラメータを提供するための装置に関連して本明細書に開示された任意の他の特徴、機能および詳細によって任意に補足されてもよい。
【0060】
本発明にかかる実施形態は、コンピュータ上で実行されると、上述した実施形態のいずれかにかかる方法を実行するためのプログラムコードを有するコンピュータプログラムを形成する。
【0061】
処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、ニューラルネットワークパラメータを提供するための方法、およびこれらの方法を実装するためのコンピュータプログラムは、個々におよび組み合わせて、本明細書(文書全体)に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよい。
【0062】
本出願の好ましい実施形態は、図面に基づいて以下に記載される。
【図面の簡単な説明】
【0063】
図1】実施形態にかかる処理された信号を提供するための装置の概略図を示している。
図2】実施形態にかかる処理された信号を提供するための装置の概略図を示している。
図3】実施形態にかかる処理された信号を提供するための装置の推論フローブロックの概略図を示している。
図4】実施形態にかかる処理された信号を提供するための装置の概略図を示している。
図5】実施形態にかかるニューラルネットワークパラメータを提供するための装置の概略図を示している。
図6】実施形態にかかるニューラルネットワークパラメータを提供するための装置の概略図を示している。
図7】実施形態にかかるニューラルネットワークパラメータを提供するための装置の訓練フローブロックの概略図を示している。
図8】実施形態にかかるニューラルネットワークパラメータを提供するための装置の概略図を示している。
図9】実施形態にかかる処理された信号を提供するための装置または実施形態にかかるニューラルネットワークパラメータを提供するための装置における非線形入力圧縮(圧縮および伸張)の提供の図を示している。
図10】実施形態にかかるオーディオ信号処理のためのフローブロックシステムを示している。
図11】実施形態にかかる装置および方法と従来の技術との比較を示す表を示している。
図12】実施形態にかかる装置および方法の性能を表すグラフィック表現を示している。
【発明を実施するための形態】
【0064】
図1は、実施形態にかかる処理されたオーディオ信号を提供するための装置100の概略図を示している。
【0065】
装置100は、入力オーディオ信号y、130に基づいて処理された、例えば強調されたオーディオ信号160を提供するように構成されている。処理は、例えば、ニューラルネットワーク(図示せず)に関連付けられたN個のフローブロック、例えば推論フローブロック1101...Nにおいて実行される。フローブロック1101...Nは、到来するオーディオ信号、例えば発話信号を処理するように構成されている。
【0066】
入力オーディオ信号y、130は、処理されるべき装置100に導入される。入力オーディオ信号yは、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号y、130は、例えば、y=x+nとして定義されてもよく、xは入力信号のクリーンな部分であり、nは雑音の多い背景である。入力オーディオ信号y、130は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。
【0067】
入力オーディオ信号y、130は、任意に、例えば図4に示すように、例えば図9を参照して説明した非線形圧縮などの非線形圧縮によって、例えば圧縮されて前処理されてもよい。
【0068】
入力オーディオ信号yおよびそれに対応してそのクリーンな部分xは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0069】
雑音信号z、120(またはその前処理済バージョンz(i=1))は、入力オーディオ信号y、130とともに装置100の第1のフローブロック110に導入される。
【0070】
雑音信号z、120は、例えば、装置100において生成されるか、または例えば、外部で生成され、装置100に提供される。雑音信号z、120は、装置100に記憶されてもよく、または外部記憶装置、例えばリモートサーバから装置に提供されてもよい。雑音信号z、120は、例えば、平均および単位分散がゼロの正規分布、例えば、z~N(z;0;I)からサンプリングされるものとして定義される。雑音信号z、120は、例えば、雑音サンプル、例えば、時間領域雑音サンプルとして表される。
【0071】
信号zは、装置100に入る前に、または装置100内で雑音信号z(i=1)に前処理されてもよい。
【0072】
例えば、雑音信号zの雑音サンプルz、または前処理された雑音信号z(i=1)の雑音サンプルは、任意に、サンプルのグループ、例えば8サンプルのグループ、例えばベクトル表現(または行列表現)にグループ化されてもよい。
【0073】
任意の前処理ステップは、図1には示されていない。
【0074】
雑音信号z(i=1)、140(あるいは、雑音信号z)は、入力オーディオ信号y、130とともに、装置100の第1のフローブロック110、例えば推論フローブロックに導入される。図2および図3を参照して、第1のフローブロック110およびフローブロック1101...Nの後続のフローブロックにおける雑音信号z(i=1)、140および入力オーディオ信号yの処理についてさらに説明する。入力信号z(i)は、例えば入力オーディオ信号y、130によって調整されることに基づいて、フローブロック1101...N(または、一般に、110)において処理される。入力オーディオ信号y、130は、例えば、フローブロック1101...Nの各フローブロックに導入される。
【0075】
雑音信号z(i=1)、140の第1のフローブロック110における処理の後、出力信号znew(i=1)、150が出力される。信号znew(i=1)、150は、入力オーディオ信号y、130とともに、装置100の第2のフローブロック110についての入力信号z(i=2)、140である。第2のフローブロック110の出力信号znew(i=2)、150は、第3のブロックの入力信号z(i=3)などである。最後のN個のフローブロック110は、入力信号として信号z(i=N)、140を有し、装置100の出力信号160を形成する信号znew(i=N)、150を出力する。信号znew(i=N)、150は、例えば入力オーディオ信号y、130の強調されたクリーンな部分を表す、例えば強調されたオーディオ信号などの処理されたオーディオ信号
、160を形成する。
【0076】
入力オーディオ信号y、130のクリーンな部分xは、装置100に別々に導入されない。装置100は、入力オーディオ信号y、130に基づいて、例えば生成された雑音信号z、120を処理して、例えば入力オーディオ信号y、130のクリーンな部分の強調である強調されたオーディオ信号を受信、例えば生成、例えば出力する。
【0077】
一般的に言えば、装置は、処理された(例えば、強調された)オーディオ信号160を取得するために、1つまたは複数のフローブロック110から110を使用して、雑音信号(例えば、雑音信号z)、または雑音信号から導出された信号(例えば、前処理された雑音信号z(i=1))を処理するように構成されると言うことができる。一般的に言えば、装置100は、入力オーディオ信号(例えば、歪んだオーディオ信号y)に応じておよび(例えば、歪んだオーディオ信号に基づいて、好ましくは雑音信号の少なくとも一部にも応じて、フローブロックの1つまたは複数の処理パラメータ、例えば、スケーリング係数およびシフト値などのアフィン処理のパラメータ、またはその処理済バージョンを提供することができる)ニューラルネットワークを使用して、1つまたは複数のフローブロック110から110を使用して実行される処理を適合させるように構成されている。
【0078】
しかしながら、装置100は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0079】
図2は、実施形態にかかる処理された信号を提供するための装置200の概略図を示している。
【0080】
実施形態では、図1に示す装置100の特徴、機能、および詳細は、任意に(個々におよび組み合わせて)装置200に導入されてもよく、またはその逆であってもよい。
【0081】
装置200は、入力オーディオ信号y、230に基づいて、処理された、例えば強調されたオーディオ信号
、260を提供するように構成されている。処理は、ニューラルネットワーク(図示せず)に関連付けられたN個のフローブロック、例えば推論フローブロック2101...Nにおいて実行される。フローブロック2101...Nは、到来するオーディオ信号、例えば発話信号を処理するように構成されている。
【0082】
入力オーディオ信号y、230は、処理されるべき装置200に導入される。入力オーディオ信号yは、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号y、230は、例えば、y=x+nとして定義され、xは入力信号のクリーンな部分であり、nは雑音の多い背景である。入力オーディオ信号y、230は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。
【0083】
入力オーディオ信号y、230は、任意に、例えば図4に示すように、例えば図9を参照して説明した非線形圧縮などの非線形圧縮によって、例えば圧縮されて前処理されてもよい。
【0084】
入力オーディオ信号yおよびそれに対応してそのクリーンな部分xは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0085】
雑音信号z、220(またはその前処理済バージョンz(i=1))は、入力オーディオ信号y、230とともに装置200の第1のフローブロック210に導入される。雑音信号z、220は、例えば、装置200において生成されてもよく、または、例えば、外部で生成されて装置200に提供されてもよい。雑音信号zは、装置200に記憶されてもよく、または外部記憶装置、例えばリモートサーバから装置に提供されてもよい。雑音信号z、220は、例えば、平均および単位分散がゼロの正規分布、例えば、z~N(z;0;I)からサンプリングされるものとして定義され得る。雑音信号z、220は、例えば、雑音サンプル、例えば、時間領域雑音サンプルとして表され得る。
【0086】
信号z、220は、装置200に導入される前に前処理されてもよい。例えば、雑音信号z、220の雑音サンプルは、任意に、サンプルのグループに、例えば8サンプルのグループに、例えばベクトル表現(または行列表現)にグループ化されてもよい。任意の前処理ステップは、図2には示されていない。
【0087】
雑音信号z(i=1)、240は、入力オーディオ信号y、230とともに、装置200の第1のフローブロック210、例えば推論フローブロックに導入される。雑音信号z(i)、240は、例えば入力オーディオ信号y、230によって調整されることに基づいて、フローブロック1101...Nにおいて処理される。入力オーディオ信号y、230は、フローブロック1101...Nの各フローブロックに導入される。
【0088】
第1のフローブロック210における処理は、例えば2つのステップにおいて、例えば2つのブロックにおいて(または2つの機能ブロックを使用して)、例えば2つの動作:アフィン結合層211および任意に1×1可逆畳み込み212において実行される。
【0089】
アフィン結合層ブロック211において、雑音信号z(i=1)、240は、例えば、第1のフローブロック210のアフィン結合層ブロック211に導入される入力オーディオ信号y、230によって調整されることに基づいて処理される。第1のフローブロック210のアフィン結合層ブロック211、ならびにフローブロック2101...Nの後続のフローブロックのアフィン結合層ブロック2111...Nにおける雑音信号z(i=1)、240および入力オーディオ信号y、230の処理の例を、図3を参照してさらに説明する。第1のフローブロック210のアフィン結合層ブロック211における処理の後、出力信号znew(i=1)、250が出力される。
【0090】
可逆畳み込みブロック212では、出力信号znew(i=1)のサンプル250が混合されて、処理されたフローブロック出力信号z’new(i=1)が受信される。可逆畳み込みブロック212は、例えば、アフィン結合層ブロック211の出力におけるチャネルの順序を逆にする(または、一般に、変更する)。可逆畳み込みブロック212は、例えば、重み行列Wを使用して、例えばランダム回転行列として、または例えば擬似ランダムだが決定論的回転行列もしくは置換行列として実行されてもよい。第1のフローブロック210は、出力信号znew(i=1)または処理されたフローブロック出力信号z’new(i=1)を出力フローブロック信号251として提供し、これは、対応して、入力オーディオ信号y、230とともに装置200の第2のフローブロック210についての入力信号z(i=2)、240である。第2のフローブロック210の出力信号znew(i=2)、250は、第3のブロックの入力信号z(i=3)などである。最後のN個のフローブロック210は、入力信号として信号z(i=N)、240を有し、装置200の出力信号260を形成する信号znew(i=N)、250を出力する。信号znew(i=N)、250は、例えば入力オーディオ信号y、230の強調されたクリーンな部分を表す、例えば強調されたオーディオ信号などの処理されたオーディオ信号
、260を形成する。
【0091】
フローブロック2101...Nの全ての後続のフローブロックにおける処理は、2つのステップにおいて、例えば2つのブロックにおいて、例えば2つの動作:アフィン結合層および1×1可逆畳み込みにおいて実行され得る。これらの2つのステップは、例えば、第1のフローブロック210に関連して説明したものと同じであってもよい(例えば、異なるフローブロックにおいて異なるニューラルネットパラメータが使用されてもよい)。
【0092】
フローブロック2101...Nのアフィン結合層ブロック2111...Nは、対応するニューラルネットワーク(図示せず)に関連付けられ(または含み)、ネットワークは、上述したように、フローブロック2101...Nに関連付けられる。ネットワークのパラメータは、例えば、図5図8を参照して説明した装置(または機能)によるネットワークの訓練中に予め決定される。
【0093】
入力オーディオ信号y、230のクリーンな部分xは、装置200に別々に導入されない。装置200は、入力オーディオ信号y、230に基づいて、例えば生成された雑音信号z、220を処理して、例えば入力オーディオ信号y、230のクリーンな部分の強調である強調されたオーディオ信号を受信、例えば生成、例えば出力する。
【0094】
しかしながら、装置200は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0095】
図3は、実施形態にかかる、フローブロック311、例えば推論フローブロックの概略図を示している。
【0096】
フローブロック311は、例えば、図1に示す装置100または図2に示す装置200による処理の一部であってもよい。図1に示す装置100のフローブロックは、図3に示すフローブロック311と同じ構造を有してもよく、またはフローブロック311(例えば、追加の機能とともに)の機能(および/または構造)を含んでもよい。図2に示す装置200のフローブロックのアフィン結合層ブロックは、図3に示すフローブロック311と同じ構造を有してもよく、またはフローブロック311(例えば、追加の機能とともに)の機能(および/または構造)を含んでもよい。
【0097】
図3および以下の説明では、簡略化のためにフローブロックインデックスiが部分的に省略される。
【0098】
入力信号340がフローブロックに導入される。入力信号340は、例えば図1に示す実施形態に示すように、雑音信号(またはその処理済バージョン)z(i)を表し得る。例えば、入力信号340は、時間領域サンプルの形態で表されてもよい。入力信号340は、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0099】
入力信号340は、2つの部分z(i)およびz(i)に、例えばランダムに、または擬似ランダムであるが決定論的に、または所定の方法で(例えば、2つの後続部分に)分割される(370)。
【0100】
第1の部分z(i)(例えば、入力信号340の時間領域サンプルのサブセットを含み得る)は、(フローブロックインデックスiを有する)フローブロック311に関連付けられたニューラルネットワーク380(NN(i)とも呼ばれる)に導入される。ニューラルネットワーク380は、例えば、図1に示す装置100のフローブロック1101...Nのいずれかに関連付けられたニューラルネットワークとすることができる。ニューラルネットワーク380は、例えば、図2に示す装置200のフローブロック2101...Nのアフィン結合層ブロックのいずれかに関連付けられたニューラルネットワークとすることができる。ニューラルネットワーク380のパラメータは、例えば、図5図8を参照して説明した装置によって、例えばネットワークの訓練において予め決定されることができる。
【0101】
第1の部分z(i)は、入力オーディオ信号y、330とともにニューラルネットワーク380に導入される。入力オーディオ信号y、330は、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号y、330は、例えば、y=x+nとして定義され、xは入力オーディオ信号y、330のクリーンな部分であり、nは雑音の多い背景である。
【0102】
入力オーディオ信号y、330は、任意に、例えば図4に示すように、例えば図9を参照して説明した非線形圧縮などの非線形圧縮によって、例えば圧縮されて前処理されてもよい。
【0103】
入力オーディオ信号yおよびそれに対応してそのクリーンな部分xは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0104】
ニューラルネットワーク380は、第1の部分z(i)および入力オーディオ信号y、330を処理し、例えば、入力オーディオ信号y、330によって調整されるなどに応じて、第1の部分z(i)を処理する。ニューラルネットワーク380は、ニューラルネットワーク380の出力(371)である処理パラメータ、例えばスケーリング係数、例えばS、およびシフト値、例えばTを決定する。決定されたパラメータS、Tは、例えばベクトル表現を有する。例えば、異なるスケーリング値および/またはシフト値は、第2の部分z(i)の異なるサンプルに関連付けられてもよい。(例えば、入力信号340の時間領域サンプルのサブセットを含み得る)雑音信号zの第2の部分z(i)は、決定されたパラメータS、Tを使用して処理される(372)。処理された(アフィン処理された)第2の部分第2の部分
(i)は、次式によって定義される:
(1)
この式では、sはSに等しくてもよく(例えば、単一のスケール係数値のみがニューラルネットによって提供される場合)、またはsはスケール係数値のベクトルSの要素であってもよい(例えば、スケール係数値のベクトルがニューラルネットによって提供される場合)。同様に、tはTに等しくてもよく(例えば、単一のシフト値のみがニューラルネットによって提供される場合)、またはtはシフト値のベクトルTの要素であってもよい(例えば、スケール係数値のベクトルがニューラルネットによって提供される場合、そのエントリはz(i)の異なるサンプル値に関連付けられる)。
【0105】
例えば、
についての上記の式は、第2の部分zの個々の要素または要素のグループに要素ごとに適用されてもよい。しかしながら、ニューラルネットによって単一の値sおよび単一の値tのみが提供される場合、この単一の値sおよびこの単一の値tは、同じように第2の部分zの全ての要素に適用されてもよい。
【0106】
信号zの未処理の第1の部分z(i)および信号zの処理済部分
は組み合わされ(373)、フローブロック311において処理された信号znew、350を形成する。この出力信号znewは、次の、例えば結果または後続のフローブロック、例えば第2のフローブロック、例えばフローブロックi+1に導入される。i=Nの場合、信号znew、350は、例えば、対応する装置の出力信号
である。
【0107】
しかしながら、フローブロック311は、個々にまたは組み合わせて、本明細書に開示された特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0108】
また、フローブロック311は、任意に、本明細書に開示される実施形態のいずれかにおいて使用されてもよい。
【0109】
図4は、実施形態にかかる処理された信号を提供するための装置400の概略図を示している。
【0110】
実施形態では、図1に示す装置100または図2に示す装置200の特徴、機能および詳細は、任意に装置400に(個々におよび組み合わせて)導入されてもよく、またはその逆であってもよい。
【0111】
図3に示すフローブロック311は、例えば、実施形態における装置400において使用されることができる。
【0112】
装置400は、入力オーディオ信号y、430に基づいて処理された、例えば強調されたオーディオ信号を提供するように構成されている。処理は、ニューラルネットワーク(図示せず)に関連付けられたN個のフローブロック、例えば推論フローブロック4101...Nにおいて実行される。フローブロック4101...Nは、到来するオーディオ信号、例えば発話信号を処理するように構成されている。
【0113】
入力オーディオ信号y、430は、処理されるべき装置400に導入される。入力オーディオ信号y、430は、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号yは、例えば、y=x+nとして定義され、xは入力信号のクリーンな部分であり、nは雑音の多い背景である。入力オーディオ信号y、430は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。
【0114】
入力オーディオ信号y、430は、任意に、例えば非線形圧縮490によって圧縮されるなど、前処理されてもよい。
【0115】
非線形圧縮ステップ490は、任意に、入力オーディオ信号y、430に適用される。ステップ490は、図4に示すように任意である。非線形圧縮ステップ490は、例えば、入力オーディオ信号y、430を圧縮するために適用されることができる。実施形態では、非線形入力圧縮ステップ490は、図9を参照して説明した通りである。
【0116】
実施形態では、非線形圧縮490は、例えば、入力オーディオ信号y、430のμ則圧縮、または例えばμ則変換によって表されることができる。例えば、以下である:
(2)
ここで、sgn()は、符号関数であり、
μは、圧縮レベルを定義するパラメータである。
【0117】
パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である255に設定され得る。入力オーディオ信号yおよびそれに対応してそのクリーンな部分xは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0118】
雑音信号z、420は、例えば、装置400への入力信号であるか、あるいは装置400によって生成されてもよい。雑音信号z、420を装置400の第1のフローブロック410に導入する前に、雑音信号zのオーディオサンプルは、サンプルのグループ、例えば8サンプルのグループ、例えばベクトル表現(または行列表現)にグループ化される(例えば、グループ化ブロック405において)。グループ化ステップ405は、図4に示すように、任意のステップである。
【0119】
(任意にグループ化された)雑音信号z(i)、440は、入力オーディオ信号y、430とともに、または前処理された、例えば圧縮された入力オーディオ信号y’とともに、装置400の第1のフローブロック410に導入される。雑音信号z、420は、例えば、装置400において(または装置400によって)生成されるか、または、例えば、外部で生成され、装置400に提供される。雑音信号zは、装置400に記憶されてもよく、または外部記憶装置、例えばリモートサーバから装置に提供されてもよい。雑音信号z、420は、例えば、平均および単位分散がゼロの正規分布(またはガウス分布)、例えば、z~N(z;0;I)からサンプリングされるものとして定義される。雑音信号z、420は、例えば、雑音サンプル、例えば、時間領域雑音サンプルとして表される。
【0120】
(任意にグループ化された)雑音信号z(i)、440は、入力オーディオ信号y、430とともに装置400の第1のフローブロック410に導入される。雑音信号z(i)は、例えば入力オーディオ信号y、430によって調整されることに基づいて、フローブロック4101...Nにおいて(例えば、連続的にまたは段階的に)処理される。入力オーディオ信号y、430は、例えば、フローブロック4101...Nの各フローブロックに導入される。
【0121】
第1のフローブロック2410における処理は、2つのステップにおいて、例えば2つのブロックにおいて、例えば2つの動作:アフィン結合層411および任意に1×1可逆畳み込み412において実行される。
【0122】
アフィン結合層ブロック411において、雑音信号z(i=1)、440は、例えば、第1のフローブロック410のアフィン結合層ブロック411に導入される入力オーディオ信号y、430によって調整されることに基づいて処理される。アフィン結合層ブロックは、例えば、単一のアフィン結合層または複数のアフィン結合層を含み得ることに留意されたい。第1のフローブロック410のアフィン結合層ブロック411における、ならびにフローブロック4101...Nの後続のフローブロック4102...Nのアフィン結合層ブロック4112...Nにおける雑音信号z(i=1)、440および入力オーディオ信号y、430の処理は、図3を参照して説明したように実行され得る。第1のフローブロック410のアフィン結合層ブロック411における処理の後、出力信号znew(i=1)、450が出力される。
【0123】
可逆畳み込みブロック412では、出力信号znew(i=1)、450のサンプルが混合され(例えば、並べ替えられるか、または回転行列のような可逆行列演算を受ける)、処理されたフローブロック出力信号z’new(i=1)を受信する。可逆畳み込みブロック412は、例えば、アフィン結合層ブロック411の出力におけるチャネル(またはサンプル)の順序を逆にする。可逆畳み込みブロック412は、例えば、重み行列Wを使用して、例えば、ランダム(または擬似ランダムだが決定論的)回転行列として、またはランダム(または擬似ランダムだが決定論的)置換行列として実行されてもよい。
【0124】
第1のフローブロック410は、出力信号znew(i=1)または処理されたフローブロック出力信号z’new(i=1)を出力フローブロック信号451として提供し、これは、対応して、入力オーディオ信号y、430とともに装置400の第2のフローブロック410の入力信号z(i=2)、440である。第2のフローブロック410の出力信号znew(i=2)またはz’new(i=2)、450は、第3のブロックの入力信号z(i=3)などである。最後のN個のフローブロック410は、入力信号として信号z(i=N)、440を有し、装置400の出力信号460を形成する信号znew(i=N)またはz’new(i=N)、450を出力する。信号znew(i=N)またはz’new(i=N)、450は、処理されたオーディオ信号
、460、例えば、入力オーディオ信号y、430の強調されたクリーンな部分を表す強調されたオーディオ信号を形成する。実施形態では、処理されたオーディオ信号
、460は、例えば、装置400の出力信号である。
【0125】
フローブロック4101...Nの全ての後続のフローブロックにおける処理は、例えば、2つのステップにおいて、例えば2つのブロックにおいて、例えば2つの動作:アフィン結合層および1×1可逆畳み込みにおいて実行される。これらの2つのステップは、例えば、第1のフローブロック410に関して説明したのと(例えば定性的に)同じである。しかしながら、スケーリング値およびシフト値を決定するためのニューラルネットワークの異なるニューラルネットワーク係数は、異なる処理ステージにおいて使用されてもよい。さらに、可逆畳み込みはまた、異なるステージにおいて異なっていてもよい(しかしながら、異なるステージにおいて等しくてもよい)。
【0126】
フローブロック4101...Nのアフィン結合層ブロックは、対応するニューラルネットワーク(図示せず)に関連付けられ、ニューラルネットワークは、示されるように、フローブロック4101...Nに関連付けられる。
【0127】
非線形拡張ステップ415は、任意に、処理されたオーディオ信号
、460に適用される。ステップ415は、図4に示すように任意である。非線形拡張ステップ415は、例えば、処理されたオーディオ信号
、460を通常の信号に拡張するために適用されることができる。実施形態では、非線形拡張は、例えば、処理されたオーディオ信号
、460の逆μ則変換によって表され得る。例えば、以下である:
(3)
ここで、sgn()は、符号関数であり、
μは、拡張レベルを定義するパラメータである。
【0128】
パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である255に設定され得る。非線形拡張ステップ415は、例えば、フローブロック4101...Nに関連付けられたニューラルネットワークの訓練中に非線形圧縮が前処理ステップとして使用された場合に適用されることができる。
【0129】
入力オーディオ信号y、430のクリーンな部分xは、装置400に別々に導入されないことに留意されたい。装置400は、入力オーディオ信号y、430に基づいて、例えば生成された雑音信号z、420を処理して、例えば入力オーディオ信号y、430のクリーンな部分の強調である強調されたオーディオ信号を受信、例えば生成、例えば出力する。
【0130】
しかしながら、装置400は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0131】
図5は、実施形態にかかるニューラルネットワークパラメータを提供するための装置500の概略図を示している。
【0132】
装置500は、訓練オーディオ信号x、505、例えばクリーンなオーディオ信号、および訓練オーディオ信号y、530の歪んだバージョン、例えば歪んだオーディオ信号に基づいて、ニューラルネットワークパラメータ(例えば、ニューラルネットワーク380による使用のために、フローブロック1101...N、2101...N、4101...Nに関連付けられたNN(i))を提供するように構成されている。処理は、例えば、ニューラルネットワーク5801...Nに関連付けられたN個のフローブロック、例えば、訓練フローブロック5101...Nにおいて実行される。訓練フローブロック5101...Nは、例えば、到来するオーディオ信号、例えば発話信号を処理するように構成されている。
【0133】
訓練オーディオ信号y、530の歪んだバージョンは、処理される(または装置500によって生成される)ように装置500に導入される。歪んだオーディオ信号yは、例えば、雑音の多い入力信号である。歪んだ訓練オーディオ信号y、530は、例えば、y=x+nとして定義され、xは入力信号のクリーンな部分であり、例えば、訓練入力信号x、505であり、nは雑音の多い背景である。歪んだ訓練オーディオ信号y、530は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。
【0134】
訓練オーディオ信号xおよびそれに対応して訓練オーディオ信号yの歪んだバージョンは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0135】
装置500は、例えば雑音信号などの訓練結果オーディオ信号520の分布、例えばガウス分布にマッピングされるべき、訓練フローブロック5101...Nにしたがうクリーン-雑音(x-y)対に基づいてニューラルネットワーク5801...N(例えば、ニューラルネットワーク380、NN(i)に対応してもよく、またはニューラルネットワーク380m NN(i)のそれぞれに等しくてもよい)についてのニューラルネットワークパラメータを提供するように構成されている。
【0136】
訓練オーディオ信号x、505は、歪んだ訓練オーディオ信号y、530とともに装置500の第1のフローブロック510に導入される。訓練オーディオ信号x、505は、例えば、オーディオサンプルとして、例えば、時間領域サンプルとして表される。
【0137】
訓練オーディオ信号xは、装置500に入る前に(任意に)訓練オーディオ信号x(i=1)に前処理されてもよい。例えば、雑音信号xのオーディオサンプルxは、サンプルのグループ、例えば8サンプルのグループ、例えばベクトル表現(または行列表現)にグループ化されてもよい。任意の前処理ステップは、図1には示されていない。
【0138】
訓練オーディオ信号x(i=1)、540は、歪んだ訓練オーディオ信号y、530とともに、装置500の第1のフローブロック510、例えば訓練フローブロックに導入される。図6および図7を参照して、フローブロック5101...Nの最初のフローブロック510および後続のフローブロックにおける訓練オーディオ信号x(i=1)、540および歪んだ訓練オーディオ信号y、530の処理についてさらに説明する。訓練オーディオ信号x(i=1)、540は、例えば、歪んだ訓練オーディオ信号y、530によって調整されることに基づいて、フローブロック5101...Nにおいて(例えば、連続的または段階的に)処理される。歪んだ訓練オーディオ信号y、530は、例えば、フローブロック5101...Nの各フローブロックに導入される。
【0139】
訓練オーディオ信号x(i=1)、540の第1のフローブロック510における処理の後、出力信号xnew(i=1)、550が出力される。信号xnew(i=1)、550は、歪んだ訓練オーディオ信号y、530とともに、装置500の第2のフローブロック510に対する入力信号x(i=2)、540である。第2のフローブロック510の出力信号xnew(i=2)、550は、第3のフローブロックの入力信号x(i=3)などである。最後のN個のフローブロック510は、入力信号として信号x(i=N)、540を有し、信号xnew(i=N)、550を出力し、これは、装置500の出力信号520または例えば雑音信号(または少なくとも雑音様信号であって、雑音信号と類似の統計的特性を有する雑音様信号)である訓練結果オーディオ信号z、520を形成する。訓練結果オーディオ信号z、520は、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0140】
フローブロック5101...Nにおける歪んだ訓練オーディオ信号y、530に応じた訓練オーディオ信号xの処理は、例えば反復的に実行される。
【0141】
訓練結果オーディオ信号z、520の特性、例えば分布(例えば、信号値の分布)が所定の特性、例えばガウス分布に近似しているかどうかを決定または推定するために、例えば各反復の後に、訓練結果オーディオ信号z、520の推定(または評価または査定)が実行され得る。訓練結果オーディオ信号z、520の特性が所定の特性に(例えば、所望の許容範囲内で)接近しない場合、ニューラルネットワークパラメータは、後続の反復の前に変更されてもよい。
【0142】
したがって、ニューラルネットワーク5801...Nのニューラルネットワークパラメータは、ニューラルネットワーク5801...Nの制御下で一連のフローブロック5101...Nにおける訓練オーディオ信号の処理に基づいて得られる訓練結果オーディオ信号が、(例えば、所定の)許容公差内の所望の統計的特性(例えば、値の所望の分布)を含む(または近似する)ように決定され得る(例えば、反復的に)。
【0143】
ニューラルネットワーク5801...Nのニューラルネットワークパラメータは、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、決定され得る。
【0144】
装置500において、クリーンな信号xは、訓練フローブロック5101...Nに関連付けられたニューラルネットワーク5801...Nを訓練するために、対応する歪んだ、例えば雑音の多いオーディオ信号yとともに導入される。訓練結果オーディオ信号520を考慮して、装置500は、訓練の結果として、ニューラルネットワーク5801...Nのニューラルネットワークパラメータ、例えばエッジ重み(θ)を決定する(590)。
【0145】
装置500によって決定されたニューラルネットワークパラメータは、例えば、図1図2および図4に示す装置のフローブロックに関連付けられたニューラルネットワークによって使用されることができる(ここで、図1図2および図4の装置のフローブロックは、例えば、フローブロック5101...Nによって実行されるアフィン変換と実質的に逆のアフィン変換を実行するように構成され得ることに留意されたい)。
【0146】
しかしながら、装置500は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0147】
図6は、実施形態にかかるニューラルネットワークパラメータを提供するための装置600の概略図を示している。
【0148】
実施形態では、装置600の特徴、機能および詳細は、任意に、図5に示す装置500に(個々におよび組み合わせて)導入されてもよく、またはその逆であってもよい。
【0149】
装置600は、訓練オーディオ信号x、605、例えば、クリーンなオーディオ信号、および訓練オーディオ信号y、yinput、630の歪んだバージョン、例えば、歪んだオーディオ信号に基づいて、ニューラルネットワークパラメータを提供するように構成されている。処理は、図5のニューラルネットワーク5801...Nのようなニューラルネットワーク(図示せず)、例えばニューラルネットワークに関連付けられたN個のフローブロック、例えば訓練フローブロック6101...Nにおいて実行される。フローブロック6101...Nは、到来するオーディオ信号、例えば発話信号を処理するように構成されている。
【0150】
訓練オーディオ信号y、630の歪んだバージョンは、処理されるべき装置600に導入される。歪んだオーディオ信号y、630は、例えば、雑音の多い入力信号である。歪んだ訓練オーディオ信号y、630は、例えば、y=x+nとして定義され、xは入力信号のクリーンな部分であり、例えば、訓練入力信号x、605であり、nは雑音の多い背景である。歪んだ訓練オーディオ信号y、630は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表される。
【0151】
訓練オーディオ信号xおよびそれに対応して訓練オーディオ信号yの歪んだバージョンは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0152】
装置600は、例えば雑音信号などの訓練結果オーディオ信号620の分布、例えばガウス分布にマッピングされるべき訓練フローブロック6101...Nにしたがうクリーン-雑音(x-y)対に基づいてニューラルネットワーク(図示せず)についてのニューラルネットワークパラメータを提供するように構成されている。
【0153】
訓練オーディオ信号x、605は、歪んだ訓練オーディオ信号y、630とともに装置600の第1のフローブロック610に導入される。訓練オーディオ信号x、605は、例えば、オーディオサンプルとして、例えば、時間領域サンプルとして表され得る。
【0154】
訓練オーディオ信号xは、任意に、装置600にまたは装置600内に入る前に、入力オーディオ信号xinput(i=1)、606に前処理される。図6に示すように、訓練オーディオ信号xの、例えば16000個のサンプルを有するオーディオサンプルxは、例えばサンプルのグループに、例えば8サンプルの2000個のグループに、例えばベクトル表現(または行列表現)にグループ化される。
【0155】
入力オーディオ信号xinput(i=1)、640は、歪んだ訓練オーディオ信号y、yinput、630とともに、装置600の第1のフローブロック610、例えば、訓練フローブロックに導入される。入力オーディオ信号xinput(i=1)、640は、例えば、歪んだ訓練オーディオ信号y、yinput、630によって調整されることに基づいて、フローブロック6101...Nにおいて(例えば、連続的にまたは少しずつ)処理される。歪んだ訓練オーディオ信号y、yinput、630は、フローブロック6101...Nの各フローブロックに導入される。
【0156】
第1のフローブロック610における処理は、2つのステップにおいてで、例えば2つのブロックにおいて、例えば2つの動作:1×1可逆畳み込み612およびアフィン結合層611において実行される。
【0157】
可逆畳み込みブロック612において、入力オーディオ信号xinput(i=1)のサンプル640は、アフィン結合層ブロック611に導入される前に混合される(例えば、並べ替えられるか、または回転行列のような可逆行列演算を受ける)。可逆畳み込みブロック612は、例えば、アフィン結合層ブロック611の入力におけるチャネルの順序を逆にする。可逆畳み込みブロック612は、例えば、重み行列Wを使用して、例えば、ランダム回転行列として、擬似ランダムであるが決定論的な回転行列または置換行列として実行されてもよい。入力オーディオ信号xinput(i=1)、640は、可逆畳み込みブロック612において処理されて、前処理された、例えば畳み込まれた入力オーディオ信号x’input(i=1)、641を出力する。例えば、歪んだ訓練オーディオ信号y、yinput、630は、可逆畳み込みブロック612に導入されず、アフィン結合層ブロック611への入力としてのみ機能する。可逆畳み込みブロックは、任意に、実施形態では存在しなくてもよい。
【0158】
アフィン結合層ブロック611において、前処理された入力オーディオ信号x’input(i=1)、641は、例えば、第1のフローブロック610のアフィン結合層ブロック611に導入される歪んだ訓練オーディオ信号y、yinput、630によって調整されることに基づいて処理される。第1のフローブロック610のアフィン結合層ブロック611における、ならびにフローブロック6101...Nの後続のフローブロックのアフィン結合層ブロックにおける、前処理された入力オーディオ信号x’input(i=1)、641および歪んだ訓練オーディオ信号y、yinput、630の処理を、図7を参照してさらに説明する。
【0159】
フローブロック6101...Nの全ての後続のフローブロックにおける処理は、例えば、2つのステップにおいて、例えば、2つのブロックにおいて、例えば2つの動作:1×1反転可能畳み込みおよびアフィン結合層において実行される。これらの2つのステップは、例えば、第1のフローブロック610に関して説明したのと(例えば定性的に)同じである(異なる処理ステージまたはフローブロックのニューラルネットワークは異なるパラメータを含んでもよく、可逆畳み込みは異なるフローブロックまたはステージにおいて異なってもよい)。
【0160】
フローブロック6101...Nのアフィン結合層ブロックは、対応するニューラルネットワーク(図示せず)に関連付けられる。
【0161】
第1のフローブロック610のアフィン結合層ブロック611における処理の後、出力信号xnew(i=1)、650が出力される。信号xnew(i=1)、650は、歪んだ訓練オーディオ信号y、yinput、630とともに、装置600の第2のフローブロック610についての入力信号xinput(i=2)、640である。第2のフローブロック610の出力信号xnew(i=2)、650は、第3のブロックの入力信号x(i=3)などである。最後のN個のフローブロック610は、入力信号として信号xinput(i=N)、640を有し、装置600の出力信号620を形成する信号xnew(i=N)、650を出力する。信号xnew(i=N)、650は、訓練結果オーディオ信号z、620、例えば雑音信号を形成する。訓練結果オーディオ信号z、620は、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0162】
フローブロック6101...Nにおける歪んだ訓練オーディオ信号y、630に応じた訓練オーディオ信号xの処理は、例えば反復的に実行される。訓練結果オーディオ信号z、620の特性、例えば分布(例えば、信号値の分布)が所定の特性、例えばガウス分布(例えば、所望の許容範囲内で)に近似しているかどうかを推定するために、例えば各反復の後に、訓練結果オーディオ信号z、620の推定(または評価もしくは査定)が実行され得る。訓練結果信号z、620の特性が所定の特性に接近しない場合、ニューラルネットワークパラメータは、後続の反復の前に変更されてもよい。
【0163】
したがって、ニューラルネットワーク(例えば、ニューラルネットワーク5801...Nに対応することができる)のニューラルネットワークパラメータは、ニューラルネットワーク5801...Nの制御下で一連のフローブロック6101...Nにおける訓練オーディオ信号の処理に基づいて得られる訓練結果オーディオ信号620、650が(例えば、所定の)許容公差内の所望の統計的特性(例えば、値の所望の分布)を備える(または近似する)ように決定されてもよい(例えば反復的に)。
【0164】
ニューラルネットワークのニューラルネットワークパラメータは、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、決定され得る。
【0165】
装置600において、クリーンな信号xは、訓練フローブロック6101...Nに関連付けられたニューラルネットワーク(図示せず)を訓練するために、対応する歪んだ、例えば雑音の多いオーディオ信号yとともに導入される。訓練結果オーディオ信号620を考慮(または評価)すると、装置600は、訓練の結果として、ニューラルネットワークのニューラルネットワークパラメータ、例えばエッジ重み(θ)を決定する。
【0166】
装置600によって決定されたニューラルネットワークパラメータは、例えば、図1図2、および図4に示す装置のフローブロックに関連付けられたニューラルネットワークによって、例えば訓練に続く推論処理において使用され得る。
【0167】
しかしながら、装置600は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0168】
図7は、実施形態にかかる、例えば訓練フローブロックなどのフローブロック711の概略図を示している。
【0169】
フローブロックは、例えば、図5に示される装置500または図5に示される装置600による処理の一部であってもよい。図5に示す装置500のフローブロックは、例えば、図7に示すフローブロック711と同じ構造または機能を有することができる。図6に示す装置600のフローブロックのアフィン結合層ブロックは、例えば、図7に示すフローブロック711と同じ構造または機能を有することができる。
【0170】
フローブロック711は、例えば、図3に示す対応するフローブロック311の逆バージョンであり、または例えば、フローブロック311によって実行されるアフィン処理と(少なくとも実質的に)逆であるアフィン処理を実行し得る。例として、訓練フローブロック711におけるシフト値tの加算は、推論フローブロック311におけるシフト値の減算と逆であってもよい。同様に、訓練フローブロック711におけるスケーリング値sとの乗算は、推論フローブロック311におけるスケーリング値sによる除算と逆であってもよい。しかしながら、訓練フローブロック711内のニューラルネットワークは、例えば、対応する推論フローブロック311内のニューラルネットワークと同一であってもよい。
【0171】
図7および以下の説明では、簡略化のためにフローブロックインデックスiが部分的に省略される。
【0172】
入力信号740がフローブロック711に導入される。入力信号740は、訓練オーディオ信号x(i)、または例えば先行するフローブロックによって出力された訓練オーディオ信号の処理済バージョン、または例えば前処理された、例えば畳み込みされた入力オーディオ信号x’input(i=1)を表し得る。
【0173】
入力信号740は、2つの部分x(i)およびx(i)に、例えばランダムまたは擬似ランダム(しかしながら決定論的)に分割される(770)。
【0174】
第1の部分x(i)は、フローブロック711に関連付けられたニューラルネットワーク780に導入される。ニューラルネットワーク780は、例えば、図5に示す装置500のフローブロック5101...Nのいずれか(または所与のもの)に関連付けられたニューラルネットワークとすることができる。ニューラルネットワーク780は、例えば、図6に示す装置600のフローブロック6101...Nのアフィン結合層ブロックのいずれか(または所与のもの)に関連付けられたニューラルネットワークとすることができる。
【0175】
第1の部分x(i)は、歪んだ訓練オーディオ信号y、730とともにニューラルネットワーク780に導入される。歪んだ訓練オーディオ信号y、730は、例えば、雑音の多い信号、または例えば歪んだオーディオ信号である。歪んだ訓練オーディオ信号y、730は、例えば、y=x+nとして定義され、xは、クリーンな訓練オーディオ信号、例えば、入力信号740、例えば、歪んだ訓練オーディオ信号y、730のクリーンな部分であり、nは雑音の多い背景である。
【0176】
訓練オーディオ信号xおよびそれに対応して訓練オーディオ信号yの歪んだバージョンは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0177】
ニューラルネットワーク780は、入力信号740の第1の部分x(i)および歪んだ訓練オーディオ信号y、730を処理し、例えば、歪んだ訓練オーディオ信号y、730に応じて、例えば調整された第1の部分x(i)を処理する。ニューラルネットワーク780は、ニューラルネットワーク780の出力(771)である処理パラメータ、例えばスケーリング係数、例えばS、およびシフト値、例えばTを決定する。決定されたパラメータS、Tは、例えばベクトル表現を有する。入力信号740の第2の部分x(i)は、決定されたパラメータS、Tを使用して処理される(772)。
【0178】
処理された第2の部分第2の部分
(i)は、以下の式によって定義される:
(4)
この式では、sはSに等しくてもよく(例えば、単一のスケール係数値のみがニューラルネットによって提供される場合)、またはsはスケール係数値のベクトルSの要素であってもよい(例えば、スケール係数値のベクトルがニューラルネットによって提供される場合)。同様に、tはTに等しくてもよく(例えば、単一のシフト値のみがニューラルネットによって提供される場合)、またはtはシフト値のベクトルTの要素であってもよい(例えば、スケール係数値のベクトルがニューラルネットによって提供される場合、そのエントリはx(i)の異なるサンプル値に関連付けられる)。
【0179】
例えば、
についての上記の式は、第2の部分xの個々の要素または要素のグループに要素ごとに適用されてもよい。しかしながら、ニューラルネットによって単一の値sおよび単一の値tのみが提供される場合、この単一の値sおよびこの単一の値tは、同じように第2の部分xの全ての要素に適用されてもよい。
【0180】
信号xの未処理の第1の部分x(i)および信号xの処理済部分
は組み合わされ(773)、フローブロック711において処理された信号xnew、750を形成する。この出力信号xnewは、次の、例えば後続のフローブロック、例えば第2のフローブロック、例えばフローブロック(i+1)に導入される。i=Nの場合、信号xnew、750は、対応する装置の出力信号、例えばzである。出力信号zは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0181】
前処理された雑音信号x’(i)が入力信号740として使用される場合、入力信号740は、例えば、フローブロック711における同x(i)の処理を回避するために事前混合される。例えば、前処理(例えば、可逆畳み込みを使用する)は、(訓練オーディオ信号の)異なるサンプル(例えば、異なる元のサンプル位置に由来する)が(すなわち、サンプルの同じサブセットが各フローブロックにおいてアフィン的に処理されることを回避するために)異なるフローブロックにおいてアフィン的に処理され、(訓練オーディオ信号の)異なるサンプル(例えば、異なる元のサンプル位置に由来する)が異なるフローブロックまたは処理ステージに関連付けられたニューラルネットワークの入力信号として機能する(すなわち、サンプルの同じサブセットが各フローブロック内のニューラルネットワークに入力されることを回避するために)という効果を有することができる。しかしながら、フローブロック711は、個々にまたは組み合わせて、本明細書に開示された特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0182】
図8は、実施形態にかかるニューラルネットワークパラメータを提供するための装置800の概略図を示している。
【0183】
実施形態では、装置800は、例えば、図5に示す装置500と組み合わされてもよく、または例えば、図8に示す装置600と組み合わされてもよい。また、装置800の特徴、機能、および詳細は、任意に、装置500または装置600(個々におよび組み合わせて)に導入されてもよく、またはその逆であってもよい。
【0184】
図7に示すフローブロック711は、例えば、実施形態における装置800において使用されることができる。
【0185】
装置800は、訓練オーディオ信号x、805、例えば、クリーンなオーディオ信号、および訓練オーディオ信号の歪んだバージョンy、830、例えば、歪んだオーディオ信号に基づいて、ニューラルネットワークパラメータを提供するように構成されている。処理は、例えば、ニューラルネットワークに関連付けられたN個のフローブロック、例えば、訓練フローブロック8101...Nにおいて実行される(第1のフローブロック810のニューラルネットワーク880のみが示されている)。フローブロック8101...Nは、到来するオーディオ信号、例えば発話信号を処理するように構成されている。
【0186】
訓練オーディオ信号y、830の歪んだバージョンは、処理されるべき装置800に導入される。歪んだオーディオ信号y、830は、例えば、雑音の多い入力信号である。歪んだ訓練オーディオ信号y、830は、例えば、y=x+nとして定義され、xは入力信号のクリーンな部分、例えば訓練オーディオ信号x、805であり、nは雑音の多い背景である。歪んだ訓練オーディオ信号y、830は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表される。
【0187】
訓練オーディオ信号xおよびそれに対応して訓練オーディオ信号yの歪んだバージョンは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0188】
訓練オーディオ信号x、805は、歪んだ訓練オーディオ信号y、830とともに装置800のフローブロック810に導入される。訓練オーディオ信号x、805は、例えば、オーディオサンプルとして、例えば、時間領域サンプルとして表される。
【0189】
装置800は、例えば雑音信号などの訓練結果信号820の分布、例えばガウス分布にマッピングされるべき訓練フローブロック8101...Nにしたがうクリーン-雑音(x-y)対に基づいてニューラルネットワーク(図示せず)のためのニューラルネットワークパラメータを提供するように構成されている。
【0190】
非線形入力圧縮ステップ815は、任意に、訓練オーディオ信号x、805に適用される。ステップ815は、図8に示されているように任意である。非線形入力圧縮ステップ815は、例えば、訓練オーディオ信号x、805を圧縮するために適用されることができる。フローブロック8101...Nに関連付けられたニューラルネットワークを訓練する際に、例えばクリアなオーディオ信号xなどの明確な発声の分布を学習するのではなく、任意の非線形入力圧縮ステップ815が存在する場合に圧縮信号の分布が学習される。実施形態では、非線形入力圧縮ステップ815は、図9を参照して説明した通りである。
【0191】
実施形態では、非線形入力圧縮815は、例えば、訓練オーディオ信号x、805のμ則圧縮、または例えばμ則変換によって表され得る。例えば、以下である:
(5)
ここで、sgn()は、符号関数であり、
μは、圧縮レベルを定義するパラメータである。
【0192】
パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である255に設定され得る。非線形入力圧縮ステップ815は、例えば、雑音信号zの分布を学習すべき全ての値が均一に分散されていることを確認したい場合に適用されることができる。
【0193】
訓練オーディオ信号x、805を装置800の第1のフローブロック810に導入する前に、訓練オーディオ信号x、805のオーディオサンプルまたは訓練入力信号x’の圧縮オーディオサンプルは、任意に、サンプルのグループ、例えば8サンプルのグループ、例えばベクトル表現(または行列表現)にグループ化される(816)。グループ化ステップ816は、図8に示すように、任意のステップである。
【0194】
(任意にグループ化された)訓練オーディオ信号x(i=1)840が、歪んだ訓練オーディオ信号y、830とともに装置800のフローブロック810に導入される。
【0195】
非線形入力圧縮ステップ815は、任意に、歪んだ訓練オーディオ信号y、830にも適用される。ステップ815は、図8に示されているように任意である。非線形入力圧縮ステップ815は、例えば、歪んだ訓練オーディオ信号y、830を圧縮するために適用されることができる。実施形態では、非線形入力圧縮ステップ815は、図9を参照して説明した通りである。
【0196】
実施形態では、非線形入力圧縮815は、例えば、歪んだ訓練オーディオ信号y、830の例えばμ則圧縮、またはμ則変換によって表され得る。例えば、以下である:
(6)
ここで、sgn()は、符号関数であり、
μは、圧縮レベルを定義するパラメータである。
【0197】
パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である255に設定され得る。
【0198】
訓練オーディオ信号x(i=1)840は、歪んだ訓練オーディオ信号y、830とともに、または前処理された、例えば圧縮された、歪んだ訓練オーディオ信号y’とともに、装置800の第1のフローブロック810、例えば訓練フローブロックに導入される。訓練オーディオ信号x(i=1)840は、例えば、歪んだ訓練オーディオ信号y、830によって調整されることに基づいて、フローブロック8101...Nにおいて処理される。歪んだ訓練オーディオ信号y、830は、フローブロック8101...Nの各フローブロックに導入される。
【0199】
第1のフローブロック810における処理は、例えば2つのステップにおいて、例えば2つのブロックにおいて、例えば2つの動作:1×1可逆畳み込み812およびアフィン結合層811において実行される。
【0200】
可逆畳み込みブロック812において、訓練オーディオ信号のサンプルx(i=1)840は、アフィン結合層ブロック811に導入される前に混合される(例えば、並べ替えられるか、または回転行列のような可逆行列演算を受ける)。可逆畳み込みブロック812は、例えば、アフィン結合層ブロック811の入力におけるチャネルの順序を逆にする(または変更する)。可逆畳み込みブロック812は、例えば、重み行列Wを使用して、例えばランダム回転行列またはランダムだが決定論的な回転行列または置換行列として実行されてもよい。例えば、訓練オーディオ信号x(i=1)840は、可逆畳み込みブロック812において処理されて、前処理された、例えば畳み込まれた訓練オーディオ信号x’(i=1)841を出力する。例えば、歪んだ訓練オーディオ信号y、830は、可逆畳み込みブロック812に導入されず、アフィン結合層ブロック811への入力としてのみ機能する。可逆畳み込みブロックは、任意に、実施形態では存在しなくてもよい。
【0201】
アフィン結合層ブロック811において、前処理された訓練オーディオ信号x’(i=1)841は、第1のフローブロック810のアフィン結合層ブロック811に導入される、例えば歪んだ訓練オーディオ信号y、830によって調整されることに基づいて処理される。第1のフローブロック810のアフィン結合層ブロック811における、ならびにフローブロック8101...Nの後続のフローブロックのアフィン結合層ブロックにおける、前処理された訓練オーディオ信号x’(i=1)841および歪んだ訓練オーディオ信号y、830の処理を、例えば図7を参照して説明する。
【0202】
フローブロック8101...Nの全ての後続のフローブロックにおける処理は、例えば、2つのステップにおいて、例えば、2つのブロックにおいて、例えば2つの動作:1×1反転可能畳み込みおよびアフィン結合層において実行される。これらの2つのステップは、例えば、第1のフローブロック810に関して説明したのと(例えば定性的に)同じである(異なる処理ステージまたはフローブロックのニューラルネットワークは異なるパラメータを含んでもよく、可逆畳み込みは異なるフローブロックまたはステージにおいて異なってもよい)。
【0203】
フローブロック8101...Nのアフィン結合層ブロックは、対応するネットワークに関連付けられる(第1のフローブロック810のニューラルネットワーク880のみが示されている)。
【0204】
第1のフローブロック810のアフィン結合層ブロック811における処理の後、出力信号xnew(i=1)、850が出力される。信号8new(i=1)、850は、歪んだ訓練オーディオ信号y、830とともに、装置800の第2のフローブロック810に対する入力信号x(i=2)、840である。第2のフローブロック810の出力信号xnew(i=2)、850は、第3のブロックの入力信号x(i=3)などである。最後のN個のフローブロック810は、入力信号として信号x(i=N)、840を有し、装置800の出力信号820、例えば訓練結果オーディオ信号を形成する信号xnew(i=N)、850を出力する。信号xnew(i=N)、850は、訓練結果オーディオ信号z、820、例えば雑音信号を形成する。訓練結果オーディオ信号z、820は、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0205】
フローブロック8101...Nにおける歪んだ訓練オーディオ信号y、830に応じた訓練オーディオ信号xの処理は、例えば反復的に実行される。訓練結果信号z、820の特性、例えば分布(例えば、信号値の分布)が所定の特性、例えばガウス分布(例えば、所望の許容範囲内で)に近似しているかどうかを推定するために、例えば各反復の後に、訓練結果信号z、820の推定(または評価もしくは査定)が実行され得る。訓練結果オーディオ信号z、820の特性が所定の特性に接近しない場合、ニューラルネットワークパラメータは、後続の反復の前に変更されてもよい。
【0206】
したがって、ニューラルネットワーク(例えば、ニューラルネットワーク5801...N、7801...Nに対応することができる)のニューラルネットワークパラメータは、ニューラルネットワーク8801...Nの制御下で一連のフローブロック8101...Nにおける訓練オーディオ信号の処理に基づいて得られる訓練結果オーディオ信号820、850が(例えば、所定の)許容公差内の所望の統計的特性(例えば、値の所望の分布)を備える(または近似する)ように決定されてもよい(例えば反復的に)。
【0207】
ニューラルネットワークのニューラルネットワークパラメータは、訓練結果オーディオ信号の特性、例えば確率分布が、所定の特性、例えば雑音様特性、例えばガウス分布に近似するか、またはそれを含むように、例えばコスト関数、例えば最適化関数の評価を使用して、例えば、パラメータ最適化手順を使用して、決定され得る。
【0208】
装置800において、クリーンな信号xは、訓練フローブロック8101...Nに関連付けられたニューラルネットワークを訓練するために、対応する歪んだ、例えば雑音の多いオーディオ信号yとともに導入される。訓練結果信号820を考慮(または評価)すると、ニューラルネットワークのニューラルネットワークパラメータ、例えばエッジ重み(θ)が訓練の結果として決定される。
【0209】
装置800によって決定されたニューラルネットワークパラメータは、例えば、図1図2、および図4に示す装置のフローブロックに関連付けられたニューラルネットワークによって、例えば訓練に続く推論処理において使用され得る。
【0210】
しかしながら、装置800は、個々にまたは組み合わせて、本明細書に開示された特徴、機能、および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0211】
以下では、本発明にかかる実施形態の基礎となるいくつかの考慮事項について説明する。例えば、問題の系統的論述が提供され、正規化フローの基本が記載され、発話強調フローが説明される。以下に記載される概念は、個々に、また本明細書に記載される実施形態と組み合わせて使用されることができる。
【0212】
図1図2および図4に示す装置100、200、400において使用されるフローブロック処理、ならびに図5図6および図8に示す装置500、600および800において使用されるフローブロック処理は、例えば、以下のように形式的に表される、可逆的且つ微分可能なマッピングを使用した単純な確率分布からより複雑な確率分布への変換として説明されることができる。
【0213】
x=f(z)(7)
ここで、
および
は、D次元ランダム変数であり、
は、zからxへの関数マッピングである。
【0214】
(5)は、微分可能な逆関数による微分可能且つ可逆的な変換を表す。
の可逆性は、このステップがxからzに戻るように反転されることができることを保証する:
(8)
さらに、関数
が可逆的且つ微分可能である場合、1からT個の変換のシーケンスの構成も可逆的であり、ニューラルネットワークによって記述されることができることが保証される:
...
(9)
これに続いて、対数確率密度関数、例えば対数尤度、
は、例えば、変数の変化によって直接計算されることができる:
(10)
ここで、
は、全ての一次偏微分からなるヤコビアンを定義する。
【0215】
例えば、各装置500、600、800において関数
(例えば、訓練フローブロック5101...Nによって実行される部分関数から構成される)が実行され、各装置100、200、400において関数
(例えば、推論フローブロック1101...Nによって実行される部分関数から構成される)が実行されてもよい。
の関数定義は、例えば、訓練フローブロックによって実行される部分関数が可逆であるため、
の関数定義から導出されてもよい。したがって、訓練装置500、600、800によって実行される関数
を定義する(例えば、ニューラルネットワークパラメータ)規則を決定することによって、関数
の定義も暗黙的に取得される。
【0216】
換言すれば、
の関数定義は、(例えば、訓練オーディオ信号xが信号zのような雑音に変換されるようにニューラルネットワークパラメータを決定することによって)訓練において決定されてもよく、
の関数定義は、
の関数定義から導出されてもよい。
【0217】
以下では、(例えば、装置100、200、400、500、600、800またはフローブロック311、711において)本発明の実施形態にかかる装置および方法において任意に使用され得る、発話強調フローに関するいくつかのさらなる(任意の)詳細について説明する。
【0218】
発話強調の場合(または、一般に、オーディオ強調の場合)、長さNの時間領域混合信号
は、クリーンな発話発声
および何らかの付加的な妨害背景
から構成されてもよく、例えば、雑音の多い混合は、クリーンな発話と干渉背景との合計として示され、その結果、
y=x+n(11)である。
【0219】
さらに、
は、ゼロ平均および単位分散の正規分布から、例えばガウシアンサンプルとしてサンプリングされるものとして定義され、すなわち、
z~N(z;0,I)(12)である。
【0220】
図5図6、および図8に示す装置500、600および800において提案されたフローブロックベースのモデルは、DNNとして定義され、雑音の多い混合物yを条件とするクリーンな発話発声xによって形成される確率分布p(x|y)を概説すること、例えば、yを条件とするxの確率分布関数を学習することを目的とする。事前に定義された確率分布の負の対数尤度を最小化することは、例えば、訓練目的と見なされる(例えば、ニューラルネットワークパラメータの最適化により、以下の式の値が最小化されてもよい):
(13)
ここで、θはニューラルネットワークパラメータを表す。
【0221】
強調ステップ(例えば、図1図2、および図4に示す装置100、200および400において)では、サンプルがp(z)から取得され、雑音の多いサンプルとともにニューラルネットワークへの入力として渡され、例えば、サンプルzは、雑音の多い入力yとともに反転したフローをたどる。例えば、所定の分布、例えばガウス分布を有する雑音様信号の時間領域サンプル値は、(第1の)フローブロックに(したがって、例えば、前処理された形態で、例えば、オーディオ信号yのサンプルとともに、ニューラルネットに)入力されてもよい。反転フロー、例えば、訓練フローブロックにおいて実行される処理に反転された反転フローブロック処理に続いて、ニューラルネットワーク(例えばアフィン処理372と組み合わせて)は、ランダムサンプル(または複数のサンプル)をクリーンな発声の分布にマッピングして戻し、強調されたオーディオ信号、例えば、理想的には基礎となる
、例えば
に近い
を有する、強調された発話信号
を生成する。
【0222】
これらの対応関係7~13は、図10に示すシステム1000についても正しい。
【0223】
以下では、本発明にかかる実施形態において任意に使用され得る非線形入力圧縮、例えば圧縮および/または拡張について説明する。
【0224】
図9は、本明細書に記載された装置において使用される非線形入力圧縮ステップの図を示している。
【0225】
非線形入力圧縮ステップは、これに対応して、例えば、図5図6または図8に示す装置500、600または800のいずれかにおける前処理ブロックとして使用されることができる。
【0226】
非線形圧縮アルゴリズムは、音声データサンプルの小さい振幅をより広い間隔に、大きい振幅をより小さい間隔にマッピングするために適用され得る。
【0227】
図9は、参照符号910において、時間の関数として、例えば時間領域表現において示される、あるオーディオ信号、例えばクリーンな信号xを示している。発話信号は、図5図6または図8に示す装置500、600または800に関連付けられたニューラルネットワークが学習する発話信号、例えばxの例を示している。ニューラルネットワークは、時間領域オーディオ、例えば発話、発声の確率分布をモデル化するため、分布が学習される値の範囲を検査することが重要である。オーディオデータは、通常、例えば、[-1,1]の範囲の正規化32ビットフローとして記憶される。時間領域オーディオ、例えば発話、サンプルは、ラプラシアン分布にほぼしたがう。
【0228】
このオーディオ、例えば発話信号は、圧縮、アルゴリズム、例えば非線形入力圧縮、例えば815を適用する前(a)および後(b)の値のヒストグラムとともに示される。圧縮は、例えば、一種のヒストグラム等化として、または比較的低い信号値のヒストグラム拡散として、および/または比較的大きい信号値のヒストグラム圧縮として理解される。例えば、圧縮アルゴリズムの適用前の第1のヒストグラム920と圧縮アルゴリズムの適用後の第2のヒストグラム920との比較から分かるように、ヒストグラムが広くなることが分かる。例えば、ヒストグラム920の横軸922は圧縮前の信号値を示し、縦軸924は各信号値の確率分布を示す。例えば、ヒストグラム920の横軸932は圧縮後の信号値を示し、縦軸934は各信号値の確率分布を示す。圧縮された信号値は、フローブロックにおける処理に有利であることが分かっているより広い(より均一に分布し、ピークのようなものが少ない)確率分布を含むことが明らかになる。
【0229】
図9(a)に示すように、(例えば、参照符号920)近似ラプラシアン分布のほとんどの値は、0付近の小さな範囲にある。図9(a)に見られるように、例えばxなどのクリーンな発話サンプル(またはクリーンな発話信号)において、より高い絶対振幅を有するデータサンプル(または信号値)は、有意な情報を搬送し、通常は低表現であることが認識されている。圧縮を適用すると、アルゴリズムは、時間領域発話サンプルの値がより均一に拡散されることを提供する。
【0230】
実施形態では、非線形入力圧縮は、量子化なしの入力データの、例えばμ則圧縮によって表され得る:
(14)
ここで、sgn()は、符号関数であり、
μは、圧縮レベルを定義するパラメータである。
【0231】
パラメータμは、例えば、テレコミュニケーションにおいて使用される一般的な値である255に設定され得る。
【0232】
学習、例えば訓練目標に関して、図5図6または図8に示す装置500、600または800のフローブロック処理において、クリーンな発声、例えば未処理のクリーンな信号xの分布を学習する代わりに、圧縮された信号、例えば前処理された信号xの分布が学習される。
【0233】
この記載された非線形入力圧縮アルゴリズムと逆のアルゴリズムは、例えば、図1図2および図4に示される装置100、200または400において、最終処理ステップ、例えば、図4に示される非線形拡張415として使用される。図1図2および図4の強調されたサンプル
は、例えば、μ則変換を反転することを使用することによって、規則的な信号に拡張されることができ、例えば、以下である:
(15)
ここで、sgn()は、符号関数であり、
μは、拡張レベルを定義するパラメータである。
【0234】
しかしながら、図9に示される非線形入力圧縮は、個々にまたは組み合わせて、本明細書に開示される特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0235】
図10は、実施形態にかかるオーディオ信号処理のためのフローブロックシステム1000の概略図を示している。
【0236】
フローブロックシステム1000は、ニューラルネットワークパラメータを提供するための装置1100と(個々に使用されることもできる)処理済信号を提供するための装置1200との組み合わせを表す。装置1100は、例えば、図5図6または図8に示された装置500、600または800のいずれかとして実装され得る。装置1200は、例えば、図1図2または図4に示された装置100、200または400のいずれかとして実装され得る。
【0237】
装置1100では、クリーン-雑音対(x-y)は、ガウス分布N(z;0;I)(またはガウス分布に近似する分布)にマッピングされるべきフローブロック処理にしたがう(またはそれへの入力である)。推論(装置1200)では、サンプルz(例えば、サンプル値のブロック)がこの分布から(または、信号値の所望の、例えばガウス分布を有する信号から)引き出され、別の雑音の多い発声yとともに反転フローブロック処理に続き、強調された信号
を生成する。
【0238】
装置1100は、訓練オーディオ信号1105、例えばクリーンなx、例えばx、および訓練オーディオ信号1130の歪んだバージョン、例えば雑音の多いy、例えばy=x+nに基づいて、ニューラルネットワークパラメータを提供するように構成されている。処理は、ニューラルネットワーク(図示せず)に関連付けられたN個のフローブロック、例えば訓練フローブロック10101...Nにおいて実行される。フローブロック10101...Nは、到来するオーディオ信号、例えば発話信号を処理するように構成されている。
【0239】
訓練オーディオ信号1105を装置1100の第1のフローブロック1110に導入する前に、訓練オーディオ信号xのオーディオサンプルは、サンプルのグループ、例えば8サンプルのグループ、例えばベクトルにグループ化される(1116)。
【0240】
任意にグループ化された訓練オーディオ信号x(i=1)、例えばx(i=1)は、歪んだ訓練オーディオ信号y、1130、例えばyとともに装置1100の第1のフローブロック1110に導入される。
【0241】
歪んだオーディオ信号y、1130は、例えば、雑音の多い入力信号である。歪んだ訓練オーディオ信号y、1130は、例えば、y=x+nとして定義され、xは入力信号のクリーンな部分、例えば訓練入力信号x、1105であり、nは雑音の多い背景であり、例えばy=x+nであり、xは入力信号のクリーンな部分、例えば訓練入力信号x、1105であり、nは雑音の多い背景である。歪んだ訓練オーディオ信号y、1130は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。
【0242】
訓練オーディオ信号xおよびそれに対応して訓練オーディオ信号yの歪んだバージョンは、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0243】
装置1100は、訓練結果オーディオ信号1120の分布、例えばガウス分布、例えば、雑音信号、例えば、zにマッピングされるべき訓練フローブロック11101...Nの後に続く(またはそれによって処理される)クリーン-雑音(x-y)対に基づいて(または複数のクリーン-雑音対に基づいて)ニューラルネットワーク(例えば、ニューラルネットワーク5801...N)についてのニューラルネットワークパラメータを提供するように構成されている。訓練結果オーディオ信号1120は、任意に、ベクトル表現(または行列表現)にグループ化されてもよい。
【0244】
訓練オーディオ信号x、1105は、歪んだ訓練オーディオ信号y、1130とともに装置1100の第1のフローブロック1110に導入される。訓練オーディオ信号x、1105は、例えば、オーディオサンプルとして、例えば、時間領域サンプルとして表される。
【0245】
フローブロック11101...Nは、例えば、対応して図5図6および図8に示す装置500、600または800のフローブロック5101...N、6101...N、または8101...Nとして実装されてもよい。
【0246】
フローブロック11101...Nは、例えば、図6図7および図8に示すように、例えばフローブロック611、または711、または811のようなアフィン結合層ブロックを含み得る。
【0247】
フローブロック11101...Nの出力として、例えば雑音信号(または雑音信号に近似する)である訓練結果オーディオ信号z、1120が提供される。雑音信号z、1120は、例えば、z~N(z;0;I)として定義される。
【0248】
装置1100において、クリーンな信号x、1105は、訓練フローブロック11101...Nに関連付けられたニューラルネットワークを訓練し、訓練の結果としてニューラルネットワークのニューラルネットワークパラメータ、例えばエッジ重み(θ)を決定するために、対応する歪んだ、例えば雑音の多いオーディオ信号y、1130とともに導入される。
【0249】
装置1100によって決定されたニューラルネットワークパラメータは、例えば、装置1200によって提供される推論においてさらに使用されてもよい。
【0250】
装置1200は、入力オーディオ信号y、1230に基づいて処理された、例えば強調されたオーディオ信号を提供するように構成されている。処理は、ニューラルネットワーク(図示せず)に関連付けられたN個のフローブロック、例えば推論フローブロック12101...Nにおいて実行される。フローブロック12101...Nは、到来するオーディオ信号、例えば発話信号を処理するように構成されている。
【0251】
入力オーディオ信号y、1230、例えば、新たな雑音の多い信号yは、処理されるべき装置1200に導入される。入力オーディオ信号yは、例えば、雑音の多い入力信号、または例えば歪んだオーディオ信号である。入力オーディオ信号y、1230は、y=x+nとして定義され、xは入力オーディオ信号のクリーンな部分であり、nは雑音の多い背景であり、例えば、y=x+nである。入力オーディオ信号y、1230は、例えば、時間領域オーディオサンプル、例えば雑音の多い時間領域発話サンプルとして表され得る。
【0252】
入力オーディオ信号yおよびそれに対応してそのクリーンな部分xは、任意にベクトル表現(または行列表現)にグループ化されてもよい。
【0253】
雑音信号z,1220が取得され(例えば、生成され)、入力オーディオ信号y、1230とともに装置100の第1のフローブロック1210に導入される。雑音信号z、1220は、例えば、平均および単位分散がゼロの正規分布、例えば、z~N(z;0;I)からサンプリングされるものとして定義される。雑音信号z、1220は、例えば、雑音サンプル、例えば、時間領域雑音サンプルとして表される。
【0254】
雑音信号1220を装置1200の第1のフローブロック1210に導入する前に、雑音信号zのオーディオサンプルは、任意に、サンプルのグループ、例えば8サンプルのグループ、例えばベクトルにグループ化される(または行列にグループ化される)(1216)。このグループ化ステップは、例えば、任意であってもよい。
【0255】
任意にグループ化された雑音信号z(i=1)、例えばx(i=1)は、入力オーディオ信号y、1230、例えばyとともに装置1200の第1のフローブロック1210に導入される。フローブロック12101...Nは、装置1100のフローブロック11101...Nの反転を表す(例えば、装置1100の対応するフローブロックと比較して、逆アフィン処理を実行し、任意に逆畳み込み処理も実行する)。
【0256】
フローブロック12101...Nは、例えば、対応して図1図2、および図4に示す装置100、200または400のフローブロック1101...N、2101...N、または4101...Nとして実装されてもよい。
【0257】
フローブロック12101...Nは、例えば、図1図2、および図4に示すように、例えばフローブロック211、または311、または411のようなアフィン結合層ブロックを含み得る。
【0258】
フローブロック12101...Nの出力として、処理された、例えば強調されたオーディオ信号
、1260が提供される。強調されたオーディオ信号
、1260は、例えば、入力オーディオ信号y、1230の強調されたクリーンな部分を表す。
【0259】
入力オーディオ信号y、1230のクリーンな部分xは、装置1200に別々に導入されない。装置1200は、入力オーディオ信号y、1230に基づいて、例えば生成された雑音信号z、1220を処理して、例えば入力オーディオ信号y、1230のクリーンな部分の強調である強調されたオーディオ信号を受信、例えば生成、例えば出力する。
【0260】
しかしながら、システム1000は、個々にまたは組み合わせて、本明細書に開示された特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0261】
図11は、実施形態にかかる装置および方法と従来技術との比較を示す表1を示している。
【0262】
表1は、客観的な評価指標を用いた評価結果を示している。SE-フローは、図1図3図5図7および図10を参照して上述したように、実施形態にかかる提案されたフローベースのアプローチを表し、SE-フロー-μは、例えば非線形圧縮、例えば図9を参照して説明した圧縮として、例えば非線形入力圧縮または非線形拡張として、対応する前処理または後処理ステップとして、対応して図8および図4を参照して上述した実施形態において使用されるものとして、μ則変換を含むアプローチを表す。
【0263】
表に示すように、2つの提案されたフローベースの実験の間に、μ圧縮を使用するモデルは、全ての指標においてより良好な結果を示している。これは、時間領域信号の分布をモデル化するためのこの容易な前処理および後処理技術、例えば非線形圧縮の有効性を実証する。
【0264】
強調能力の例示は、図12にも見ることができる。
【0265】
図12は、実施形態にかかる装置および方法の性能を表すグラフィック表現を示している。
【0266】
図12は、提案する実施形態の性能を示すための例示的なスペクトログラムを示している。(a)では、2.5dB(信号対雑音比、SNR)の大きな発話発声が表示されている。(b)は、対応するクリーンな発話を示している。(c)および(d)には、本発明にかかる実施形態にかかる、例えば図10に示す提案されたフローベースのシステムの結果が示されている。
【0267】
さらなる実施形態および態様
以下では、本発明にかかるさらなる態様および実施形態が説明され、これらは、個々に、または本明細書に開示される任意の他の実施形態と組み合わせて使用されることができる。
【0268】
さらに、このセクションに開示された実施形態は、個々におよび組み合わせて、本明細書に開示された任意の他の特徴、機能、および詳細によって任意に補足されてもよい。
【0269】
以下では、時間領域発話強調のためのフローベースのニューラルネットワークの概念を説明する。
【0270】
以下では、本発明の基礎となる実施形態の概念を説明する。
【0271】
以下では、実施形態の一部または全部において(少なくとも部分的に)達成され得る本発明のいくつかの目標および目的が記載され、本発明のいくつかの態様が簡単に要約される。
【0272】
発話強調は、侵入的背景から目標発話信号を区別することを含む。変分自己符号化器または敵対的生成ネットワーク(GAN)を使用する従来の生成的アプローチが近年ますます使用されているが、正規化フロー(NF)ベースのシステムは、関連分野において成功しているにもかかわらず、依然として少ない。したがって、以下では、雑音の多い相手を条件とするクリーンな発話発声の密度推定によって強調プロセスを直接モデル化するためのNFフレームワークが実施形態にしたがって提案される。発話合成から着想を得た従来のモデルは、実施形態において、時間領域における雑音の多い発声の直接的な強調を可能にするように適合される。実施形態にかかる公的に利用可能なデータセットに対する実験的評価は、客観的評価指標を使用して選択されたベースラインを超えながら、現在の最先端のGANベースのアプローチと同等の性能を示す。
【0273】
本発明にかかる実施形態は、発話強調に使用されることができる。本発明にかかる実施形態は、フローの正規化および/または深層学習および/または生成モデリングを利用する。
【0274】
以下、簡単な紹介が提供される。
【0275】
従来、発話強調(SE)の目的は、発話コンテンツのより良好な了解度を保証するために、干渉する背景からの目標発話信号を強調することである[1]。例えば補聴器[2]または自動発話認識[3]を含む広範囲の用途に対するその重要性のために、これは過去に広範に研究されてきた。そうすることで、深層ニューラルネットワーク(DNN)は、ウィーナーフィルタリング[4]、スペクトル減算[5]、減算法[6]または最小平均二乗誤差(MMSE)[7]のような従来の技術に大きく取って代わった。最も一般的には、DNNは、混合信号から発話および背景を分離することができる時間周波数(T-F)マスクを推定するために従来使用されている[8]。それにもかかわらず、高価なT-F変換を回避するという利点を有する、時間領域入力に基づくシステムが近年提案されている[9、10、11]。最近では、敵対的生成ネットワーク(GAN)[11、12、13]、変分自己符号化器(VAE)[14]、および自己回帰モデル[10]などの生成的アプローチに対するSE研究においても注目が高まっている。特に、生成器と識別器とが敵対的に同時に訓練されるGANの使用が、過去数年間に広く調査された。例えば、Pascualら[11]は、生成器が雑音の多い発話サンプルを波形レベルで直接強調する、GANベースのエンドツーエンドシステムを提案した。以下では、このアプローチは、例えば、ワッサースタイン距離を使用することによって[15]、または性能を向上させるために複数の生成器を組み合わせることによって[16]、複数回拡張されている。他の研究者は、平均二乗誤差正則化のような追加の技術を実装することによって[12]、または発話固有の評価指標に関してネットワークを直接最適化することによって[13]、クリーンなT-Fスペクトログラムを推定するためにGANと協働する印象的なSE結果を報告した。前述の従来のアプローチは最近ますます人気が高まっているが、正規化フロー(NF)ベースのシステムは、SEではまだ稀である。ごく最近、Nugrahaら[17]の研究は、深層発話の前に使用されることができる、深層潜在表現を学習するためにVAEと組み合わせたフローベースのモデルを提案した。しかしながら、それらのアプローチは、強調プロセス自体をモデル化せず、したがって、それが組み合わされるSEアルゴリズムに依存する。しかしながら、NFがそれぞれのタスクにおいて高品質のサンプルを首尾よく生成する能力を有することが、コンピュータビジョン[18]または発話合成[19]のような領域において示された。したがって、これは、生成的プロセスをモデル化することによってフローベースのシステムを使用して発話サンプルの強調が直接実行されることができるという、本発明の基礎となる実施形態の仮定につながる。
【0276】
本発明にかかる実施形態の概念は、NFが、雑音の多い相手を条件とするクリーンな発話サンプルに基づく容易な確率分布からより複雑な確率分布への学習されたマッピングによってSEに首尾よく適用され得るということである。したがって、本発明にかかる実施形態では、従来のフローベースのDNNアーキテクチャは、事前定義された特徴またはT-F変換を必要とせずに時間領域において直接SEを実行するように発話合成から修正される。さらに、本発明にかかる実施形態では、圧縮プロセスの一部として例えば非線形圧縮などの圧縮を使用する入力信号の容易な前処理技術が、密度推定に基づいてSEモデルの性能を高めるために適用される。本発明にかかる実施形態の提案された方法および装置の実験的評価は、これらの仮定を確認し、現在の最先端のシステムと比較して、他の時間領域GANベースラインの結果を上回る、または改善された性能を示す。
【0277】
図10は、実施形態にかかる提案されたシステムの概要を示している。クリーン-雑音(x-y)対は、ガウス分布N(z;0,I)にマッピングされるフローステップ(青実線)にしたがう。推論では、サンプルzはこの分布から引き出され、別の雑音の多い発声yとともに反転フロー(赤破線)をたどって強調された信号
を生成する(色で見られるか、ブロックの輪郭の異なるハッチングを考慮する)。
【0278】
問題の系統的論述および実施形態の態様
以下では、本発明にかかる実施形態の態様に関する問題の系統的論述およびいくつかの説明が提供される。
【0279】
正規化フローの基本
正規化フローは、以下のように形式的に表現される、可逆的且つ微分可能なマッピングを使用した単純な確率分布からより複雑な確率分布への変換として説明されることができる[20]。
【0280】
x=f(z)(16)
ここで、
および
は、D次元ランダム変数であり、
は、zからxへの関数マッピングである。
の可逆性は、このステップがxからzに戻すように反転されることができることを保証し、すなわち、
(17)。
【0281】
さらに、関数
が可逆的且つ微分可能である場合、1からT変換のシーケンスの構成も可逆的であることが保証される。
...
(18)
これに続いて、対数確率密度関数
は、変数の変化によって計算されることができる[21]:
(19)
ここで、
は、全ての一次偏微分からなるヤコビアンを定義する。
【0282】
発話強調フロー
本発明にかかる実施形態にかかる発話強調の場合、長さNの時間領域混合信号
は、クリーンな発話発声
と、いくつかの付加的な妨害背景
とから構成され、その結果、
y=x+n(20)である。
【0283】
さらに、ゼロ平均および単位分散の正規分布からサンプリングされる
と定義され、すなわち、
z~N(z;0,I)(21)である。
【0284】
本発明にかかる実施形態にかかる提案されたNFモデルは、ここでDNNとして定義され、雑音の多い混合物yを条件とするクリーンな発話発声xによって形成される確率分布p(x|y)を概説することを目的とする。本発明にかかる実施形態にかかる訓練目的として、例えば発話サンプルの、以前に定義された確率分布の負の対数尤度が、ここで簡単に最小化されることができる:
(22)
ここで、θはネットワークパラメータを表す。
は、例えば、定義されるべき発話サンプルの確率分布であり、
は、例えば、ガウス関数の尤度であり、
は、発話サンプルを作成、例えば生成するためにガウス関数を変化させるレベル(例えば、どれだけ変化するか)を示す。
【0285】
強調ステップでは、本発明にかかる実施形態によれば、これはp(z)からのサンプルとすることができ、雑音の多いサンプルとともにネットワークへの入力として渡されることができる。反転フローに続いて、ニューラルネットワークは、ランダムサンプルをクリーンな発声の分布にマッピングして戻し、理想的には基礎となるx、例えば
に近い
を有する、
を形成する。このプロセスはまた、図10にも示されている。
【0286】
実際には、例えば、モデリングにおいて、またはニューラルネットワークにおいて、例えば、ニューラルネットワークパラメータの全体量が、例えば、
25百万である場合、本発明にかかる実施形態によれば、ニューラルネットワークの訓練中に、信号x、yが訓練されるべきニューラルネットワークに導入される。ニューラルネットワークの出力は、z(全てのフローブロックの後の処理された信号)、
(各アフィン結合層からの)および
(各1×1可逆畳み込みからの)を含む。
【0287】
最適化されるべき損失関数は、


=数/スカラー(23)であり、
は、ガウス関数の尤度であり(上記参照)、(

)-(
(上記参照)。
【0288】
本発明にかかる実施形態にしたがって提案される方法
モデルアーキテクチャ
本発明にかかる実施形態によれば、Waveglowアーキテクチャ[19]は、発話強調を実行するために発話合成用に修正された。本来、このモデルは、発話発声を対応するメルスペクトログラムとともにフローのいくつかのステップの入力として取得し、入力された条件付きスペクトログラムに基づいて現実的な発話サンプルを生成するように学習する。1つのフローブロックは、チャネル次元に沿った情報の交換を保証する1×1の可逆畳み込み[22]と、ヤコビ行列式の可逆性および効率的な計算を保証するために使用されるいわゆるアフィン結合層[23]とからなる。したがって、入力信号は、チャネル次元に沿って分割され、半分は、Wavenet様のNNブロック、例えば、Wavenetラインアフィン結合層に供給され、後半のスケーリングおよび並進係数を定義する。このマルチチャネル入力を作成するために、複数のオーディオサンプルが1つのグループに一緒に積み重ねられ、マルチチャネル信号を模倣する。アフィン結合層はまた、条件情報が含まれる場所でもある。この手順のさらなる詳細については、[19]を参照されたい。元のWaveglowは計算的に重い(>87Mio.パラメータ)ため、単一のGPUで訓練し、強調発話を可能にすることを実現可能にするために、いくつかのアーキテクチャ上の修正が行われた。MelスペクトログラムではなくWaveglowとは対照的に、本発明にかかる実施形態によれば、条件付き入力として使用されたが、雑音の多い時間領域発話サンプルであった。したがって、双方の信号が同じ次元であるため、アップサンプリング層は必要とされなかった。さらに、Wavenet様ブロックの標準的な畳み込みは、本発明にかかる実施形態によれば、[25]において推奨されたように、パラメータの量を減らすために深さ方向の分離可能な畳み込み[24]に置き換えられた。
【0289】
非線形入力圧縮
図9は、本発明にかかる実施形態にかかる、非線形入力圧縮、例えば圧縮の効果の例を示している。上部には、クリーンな発話発声が示されている。(a)は、クリーンな発声のヒストグラム(nbins=100)を示している。(b)では、圧縮などの圧縮アルゴリズムによる値への影響を見ることができる。
【0290】
ネットワークは、時間領域発話発声の確率分布をモデル化するため、分布を学習する値の範囲を検査することが重要である。オーディオデータは、[-1,1]の範囲の正規化32ビットフロートとして記憶された。時間領域発話サンプルはラプラシアン分布にほぼしたがうため[27]、ほとんどの値はゼロ付近の小さな範囲にあることが容易に分かる(図9(a)を参照)。しかしながら、特にクリーンな発話発声では、より高い絶対振幅を有するデータサンプルは重要な情報を搬送し、この場合には十分に表されない。値、例えば学習可能な振幅値がより均一に拡散されることを確実にするために、本発明にかかる実施形態にかかる非線形圧縮、例えば圧縮アルゴリズムが適用されて、小さい振幅をより広い振幅にマッピングし、大きい振幅をより小さい間隔にマッピングすることができる。これは、図9に示されており、1つの発話サンプルが、圧縮、例えば圧縮アルゴリズムを適用する前後の値のヒストグラムとともに表示される。この意味で、圧縮、例えば圧縮は、一種のヒストグラム等化として理解されることができる。これに続いて、正式に以下のように定義される、量子化なしの入力データのμ則圧縮、例えば圧縮(ITU-T勧告G.711)を使用して追加の実験を行った。
(24)
ここで、sgn()は、符号関数であり、μは、圧縮レベルを定義するパラメータである。ここで、本発明にかかる実施形態によれば、μは実験全体を通して255に設定され、これはテレコミュニケーションにおいても使用される一般的な値である。学習目的に関して、クリーンな発声の分布を学習するのではなく、圧縮された信号の分布が学習される。強調されたサンプルは、μ則変換を反転した後に通常の信号に拡張されることができる。
【0291】
実験
データ
実験において使用されたデータセットは、Valentiniら[28]の研究とともに公開され、SEアルゴリズムの開発に一般的に使用されるデータベースである。それは、それぞれ28人および2人の話者による訓練および試験セットに分離されたVoice Bankコーパス[29]からの30人の個々の話者を含む。双方のセットは、男性および女性の参加者に応じてバランスがとれている。訓練サンプルは、DEMANDデータベース[30]からの8つの実際の雑音サンプル、ならびに0、5、10、および15dBの信号対雑音比(SNR)による2つの人工(バブルおよびスピーチシェーピングされた)サンプルと混合された。試験セットでは、2.5、7.5、12.5、および17.5dBのSNR値にしたがって異なる雑音サンプルを選択して混合し、試験セットが見えない条件のみを含むようにした。さらに、訓練セットから男性と女性の話者をそれぞれ1名ずつ取り出し、モデル開発の検証セットを作成した。
【0292】
訓練戦略
バッチサイズ
[4,8,12]、フローブロックの数
[8,12,16]、および入力として一緒にグループ化されたサンプルの量
[8,12,24]の値は、例えば、小さい超パラメータ検索において選択された。各個々のモデルを150エポックで訓練して、最も低い検証損失に基づいてパラメータを選択した。より高いバッチサイズを使用したいくつかの初期実験を行ったが、モデルは十分に一般化されていないことが分かった。選択されたモデルは、20エポックの根気の早期停止メカニズムに基づく収束までさらに訓練された。学習率の低下および同じ早期停止基準を使用して、微調整ステップを続けた。
【0293】
モデル設定
パラメータ探索の結果として、16個のフローブロック、12個のサンプルのグループを入力として、バッチサイズを4としてモデルを構築した。学習率は、Adam[31]オプティマイザおよび重み正規化[32]を使用して初期訓練ステップにおいて3×10-4に設定された。微調整のために、学習率を3×10-5に下げた。訓練入力として、1s長のチャンク(サンプリングレート
=16kHz)を各音声ファイルからランダムに抽出した。ガウス分布の標準偏差はσ=1.0とした。他のNFモデル[33]と同様に、推論においてσのより低い値を使用すると、より高い品質の出力が得られるという効果が経験され、これが推論においてσ=0.9に設定された理由である。8層の拡張畳み込みを有する元のWaveglowアーキテクチャのWavenet様ブロックによれば、アフィン結合層には、残余接続部として512チャネルおよびスキップ接続部内の256チャネルが使用された。さらに、4つの結合層ごとに、2つのチャネルを損失関数に渡して、マルチスケールアーキテクチャを形成した。
【0294】
評価
本発明にかかる実施形態にかかるアプローチを当該分野における最近の研究と比較するために、以下の評価測定基準を使用した:
・(i)ITU-T P.862.2(-0.5から4.5)の推奨広帯域バージョンにおける声質の知覚評価(PESQ)。
・3つの平均意見スコア(1から5)指標[34]:(ii)信号歪み(CSIG)の予測、(iii)背景の貫入性(CBAK)の予測、および(iv)全体的な発話品質(COVL)の予測。
・部分SNR(segSNR)[35]の改善(0から
)。
【0295】
本発明にかかる実施形態にかかる提案された方法のベースラインとして、それらが同じデータベースおよび指標によって評価されたため、2つの生成的時間領域アプローチ、すなわちSEGAN[11]および改善された深層SEGAN(DSEGAN)[16]モデルが定義された。さらに、これを、T-Fマスクに作用している他の2つの最先端のGANベースのシステム、すなわちMMSE-GAN[26]およびMetric-GAN[13]と比較した。このデータセットに対してより高い性能を報告するいくつかの識別的アプローチ、例えば[9,36,37]があることに留意されたい。しかしながら、この研究の焦点は生成モデルにあったため、それらは比較に含まれていない。
【0296】
実験結果
実験結果が図11に示す表1に表示される。表1は、客観的な評価指標を用いた評価結果を示している。SE-フローは、提案されたフローベースのアプローチを表し、SE-フロー-μは、入力データの、例えば圧縮および拡張を含むμ則圧縮と一緒のアプローチを表す。全ての比較方法の値は、対応する論文から得られる。
【0297】
表に示すように、2つの提案されたフローベースの実験の間に、例えば圧縮および拡張を含むμ圧縮を使用するモデルは、全ての指標においてより良好な結果を示す。これは、時間領域信号の分布をモデル化するためのこの容易な前処理および対応する後処理技術の有効性を実証する。強調機能の説明は、図12にも見ることができる。
【0298】
図12は、提案されたシステムの性能を示すための例示的なスペクトログラムを示している。(a)では、2.5dB(信号対雑音比、SNR)の大きな発話発声が表示されている。(b)は、対応するクリーンな発話を示している。(c)および(d)では、本発明にかかる実施形態にかかる提案されたフローに基づくシステムの結果が示されている。
【0299】
本発明にかかる実施形態にかかる2つの提案されたシステムのスペクトログラムを比較すると、SE-フロー-μは、背景漏れの少ないより細かい発話部分を捉えることができるように思われる。また、表示された例の終わりの呼吸音は、本発明にかかる実施形態にかかるモデルによって回復されず、これは、本発明にかかる実施形態にかかる提案されたモデルが実際の発話サンプルに焦点を合わせていることを強調することに留意されたい。さらに、フローベースの例では、発話がアクティブであるとき、クリーンな信号と比較してより高い周波数でより多くの雑音様の周波数コンテンツが存在することが分かる。これは、推論中に完全に排除されないガウシアンサンプリングによって説明されることができる。
【0300】
SEGANベースラインと比較して、本発明にかかる実施形態にかかる提案された方法および装置は、全ての指標にわたって大きな差で優れた性能を示す。SEGANについてのみ、他の方法では評価されなかったため、segSNR性能を見ることができることに留意されたい。DSEGANを見ると、提案されたSE-フローは、CSIGにおいて比較された性能に到達し、一方で、他の指標において僅かに低い値を示すことが分かる。しかしながら、本発明にかかる実施形態にかかるSE-フロー-μベースのシステムまたは方法または装置は、COVL以外の全ての指標において依然としてより良好に機能する。したがって、時間領域アプローチ内で、本発明にかかる実施形態にかかる提案されたフローベースのモデルは、雑音の多い信号から強調された信号への生成的プロセスをより良好にモデル化するようである。MMSE-GANに関して、このアプローチは、追加の正則化技術はここでは実装されていないが、MMSE-GANに対して僅かなエッジを有する同様の性能を有することが観察される。しかしながら、Metric-GANは、表示された全ての指標に関して、提案されたアプローチと比較して優れた結果を示している。しかしながら、本発明にかかる実施形態にかかるこのモデルがPESQ指標にしたがって直接最適化されたため、本発明にかかる実施形態における良好な性能が期待されることに留意することが重要である。その結果、訓練を評価指標の直接最適化と接続することは、本発明にかかる実施形態にかかるシステムまたは方法または装置を改善するための効果的な方法でもあり得る。
【0301】
結論
本開示では、本発明にかかる実施形態にかかる正規化フローベースの発話強調方法を導入した。本発明にかかる実施形態にかかるモデルは、雑音の多い相手が与えられたクリーンな発話サンプルの密度推定および生成推論による信号強調を可能にする。本発明にかかる実施形態にかかる単純な非線形圧縮、例えば圧縮または拡張技術は、強調結果を増大させるための効果的な(任意の)前処理または例えば後処理ツールであることが実証された。本発明にかかる実施形態にかかる提案されたシステムおよび方法および装置は、最先端のT-F技術に近付きつつ、他の時間領域GANベースのベースラインの性能を凌ぐ。本発明にかかる実施形態によれば、結合層における異なる技術、ならびに時間領域信号と周波数領域信号との組み合わせの探求がさらに実装されることができる。
【0302】
さらに、実施形態および手順は、このセクションに(また、「問題の系統的論述」、「正規化フローの基礎」、「発話強調フロー」、「提案方法」、「モデルアーキテクチャ」、「非線形入力圧縮」、「実験」、「データ」、「訓練戦略」、「モデル設定」、「評価」および「実験結果」のセクションにも)記載されているように使用されてもよく、個々におよび組み合わせて、本明細書に開示されている特徴、機能および詳細のいずれかによって任意に補足されてもよいことに留意されたい。
【0303】
しかしながら、任意の他の章に記載されている特徴、機能および詳細は、任意に、本発明にかかる実施形態に導入されることもできる。
【0304】
また、上記の章に記載された実施形態は、個々に使用されることができ、別の章の特徴、機能および詳細のいずれかによって補足されることもできる。
【0305】
また、本明細書に記載された個々の態様は、個々にまたは組み合わせて使用されることができることに留意されたい。したがって、詳細は、前記態様の別の1つに詳細を追加することなく、前記個々の態様のそれぞれに追加されることができる。
【0306】
特に、実施形態は、特許請求の範囲にも記載されている。特許請求の範囲に記載された実施形態は、個々におよび組み合わせて、本明細書に記載された特徴、機能および詳細のいずれかによって任意に補足されることができる。
【0307】
さらに、方法に関連して本明細書に開示される特徴および機能は、(そのような機能を実行するように構成された)装置において使用されることもできる。さらに、装置に関して本明細書に開示された任意の特徴および機能は、対応する方法において使用されることもできる。換言すれば、本明細書に開示された方法は、装置に関して説明された特徴および機能のいずれかによって補足されることができる。
【0308】
また、本明細書に記載された特徴および機能のいずれも、「実装の代替手段」のセクションにおいて説明されるように、ハードウェアもしくはソフトウェアで、またはハードウェアとソフトウェアの組み合わせを使用して実装されることができる。
【0309】
さらに結論として、本発明にかかる実施形態は、発話強調分野(例えば、強調プロセスを直接モデル化する正規化フローを使用して発話強調フレームワークを構築し、これは例えば、クリーンな発話の学習確率分布を含む)において使用するための正規化フロー(NF)ベースのシステムを形成する。
【0310】
さらに結論として、本発明にかかる実施形態は、特に、フローベースのシステムを使用して、他のアルゴリズムとは独立してオーディオ信号強調を直接実行し、結果として得られる信号のオーディオ信号強調性能および品質を低下させることなく組み合わせることによって、フローベースのシステムが発話強調に適用される概念を形成する。
【0311】
さらに、本発明にかかる実施形態は、ニューラルネットワークを使用するフローベースのオーディオ信号処理の効果的なモデリングとオーディオ信号強調機能との間のトレードオフを提供する。
【0312】
実装の代替手段
いくつかの態様が装置の文脈で説明されるが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。方法ステップの一部または全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって(または使用して)実行されることができる。いくつかの実施形態では、最も重要な方法ステップのうちの1つまたは複数が、そのような装置によって実行されることができる。
【0313】
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、フラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。したがって、デジタル記憶媒体は、コンピュータ可読とすることができる。
【0314】
本発明にかかるいくつかの実施形態は、本明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを備える。
【0315】
一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するために動作する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。
【0316】
他の実施形態は、機械可読キャリアに記憶された、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを備える。
【0317】
換言すれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0318】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上に記録して含むデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および/または非一時的である。
【0319】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
【0320】
さらなる実施形態は、本明細書に記載された方法の1つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを備える。
【0321】
さらなる実施形態は、本明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。
【0322】
本発明にかかるさらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送するように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイル装置、メモリ装置などとすることができる。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。
【0323】
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載された方法の機能のいくつかまたは全てを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載された方法の1つを実行するためにマイクロプロセッサと協調することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
【0324】
本明細書に記載された装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実装されることができる。
【0325】
本明細書に記載された装置、または本明細書に記載された装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装されることができる。
【0326】
本明細書に記載された方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されることができる。
【0327】
本明細書に記載された方法、または本明細書に記載された装置の任意の構成要素は、ハードウェアおよび/またはソフトウェアによって少なくとも部分的に実行されることができる。
【0328】
本明細書に記載された実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、当業者にとって明らかであろうことが理解される。したがって、本明細書の実施形態の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。
【0329】
参考文献:
[1] P Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2 edition, 2013.
【0330】
[2] K. Borisagar, D. Thanki, and B. Sedani, Speech Enhancement Techniques for Digital Hearing Aids, Springer International Publishing, 2018.
【0331】
[3] A.H. Moore, P. Peso Parada, and P.A. Naylor, “Speech enhancement for robust automatic speech recognition: Evaluation using a baseline system and instrumental measures,” Computer Speech & Language, vol. 46, pp. 574 - 584, 2017.
【0332】
[4] J. Lim and A. Oppenheim, “All-pole modeling of degraded speech,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 26, no. 3, pp. 197-210, 1978.
【0333】
[5] S. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 27, no. 2, pp. 113-120, 1979.
【0334】
[6] Y. Ephraim and H.L. Van Trees, “A signal subspace approach for speech enhancement,” IEEE Transactions on Speech and Audio Processing, vol. 3, no. 4, pp. 251-266, 1995.
【0335】
[7] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator,” IEEE Transactions Acoustics, Speech and Signal Processing, vol. 33, pp. 443 - 445, 05 1985.
【0336】
[8] Y. Xu, J. Du, L. Dai, and C. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 23, no. 1, pp. 7-19, 2015.
【0337】
[9] F. Germain, Q. Chen, and V. Koltun, “Speech denoising with deep feature losses,” in Proc. Interspeech Conf., 2019, pp. 2723-2727.
【0338】
[10] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florencio, and
M. Hasegawa-Johnson, “Speech enhancement using bayesian wavenet,” in Proc. Interspeech Conf., 2017, pp. 2013-2017.
【0339】
[11] S. Pascual, A. Bonafonte, and J. Serra`, “Segan: Speech enhancement generative adversarial network,” in Proc. Inter-speech Conf., 2017, pp. 3642-3646.
【0340】
[12] M. H. Soni, N. Shah, and H. A. Patil, “Time-frequency masking-based speech enhancement using generative adversarial network,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 5039-5043.
【0341】
[13] S.-W. Fu, C.-F. Liao, Y. Tsao, and S.-D. Lin, “Metricgan: Generative adversarial networks based black-box metric scores optimization for speech enhancement,” in Proc. Intl. Conf. Ma-chine Learning (ICML), 2019, pp. 2031-2041.
【0342】
[14] S. Leglaive, X. Alameda-Pineda, L. Girin, and R. Horaud, “A Recurrent Variational Autoencoder for Speech Enhancement,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 371-375.
【0343】
[15] N. Adiga, Y. Pantazis, V. Tsiaras, and Y. Stylianou, “Speech enhancement for noise-robust speech synthesis using wasserstein gan,” in Proc. Interspeech Conf., 2019, pp. 1821-1825.
【0344】
[16] H. Phan, I. V. McLoughlin, L. Pham, O. Y. Chen, P. Koch, M. De Vos, and A. Mertins, “Improving gans for speech enhancement,” IEEE Signal Processing Letters, vol. 27, pp. 1700-1704, 2020.
【0345】
[17] A. A. Nugraha, K. Sekiguchi, and K. Yoshii, “A flow-based deep latent variable model for speech spectrogram modeling and enhancement,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1104-1117, 2020.
【0346】
[18] J. Ho, X. Chen, A. Srinivas, Y. Duan, and P. Abbeel, “Flow++: Improving flow-based generative models with variational dequantization and architecture design,” in Proc. of Machine Learning Research, 2019, vol. 97, pp. 2722-2730.
【0347】
[19] R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A Flow-based Generative Network for Speech Synthesis,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 3617-3621.
【0348】
[20] I. Kobyzev, S. Prince, and M. Brubaker, “Normalizing flows: An introduction and review of current methods,” IEEE Trans-actions on Pattern Analysis and Machine Intelligence, pp. 1-1, 2020.
【0349】
[21] G. Papamakarios, E.T. Nalisnick, D.J. Rezende, S. Mohamed, and B Lakshminarayanan, “Normalizing flows for probabilistic modeling and inference,” in arXiv:1912.02762, 2019.
【0350】
[22] D.P. Kingma and P. Dhariwal, “Glow: Generative flow with invertible 1x1 convolutions,” in Advances in Neural Information Processing Systems 31, 2018, pp. 10215-10224.
【0351】
[23] L Dinh, J. Sohl-Dickstein, and S. Bengio, “Density estimation using real NVP,” in 5th Int. Conf. on Learning Representations, ICLR, 2017.
【0352】
[24] F. Chollet, “Xception: Deep learning with depthwise separable convolutions,” in IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 1800-1807.
【0353】
[25] B. Zhai, T. Gao, F. Xue, D. Rothchild, B. Wu, J. Gonzalez, and K. Keutzer, “Squeezewave: Extremely lightweight vocoders for on-device speech synthesis,” in arXiv:2001.05685, 2020.
【0354】
[26] D. Rethage, J. Pons, and X. Serra, “A wavenet for speech de-noising,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 5069-5073.
【0355】
[27] J. Jensen, I. Batina, R. C Hendriks, and R. Heusdens, “A study of the distribution of time-domain speech samples and discrete fourier coefficients,” in Proc. SPS-DARTS, 2005, vol. 1, pp. 155-158.
【0356】
[28] C. Valentini Botinhao, X. Wang, S. Takaki, and J. Yamagishi, “Speech enhancement for a noise-robust text-to-speech synthesis system using deep recurrent neural networks,” in Proc. In-terspeech Conf., 2016, pp. 352-356.
【0357】
[29] C. Veaux, J. Yamagishi, and S. King, “The voice bank corpus: Design, collection and data analysis of a large regional accent speech database,” in Int. Conf. Oriental COCOSDA heldjointly with the Conf. on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), 2013, pp. 1-4.
【0358】
[30] J. Thiemann, N. Ito, and E. Vincent, “The diverse environments multi-channel acoustic noise database (demand): A database of multichannel environmental noise recordings,” Proc. of Meetings on Acoustics, vol. 19, no. 1, pp. 035081, 2013.
【0359】
[31] D.P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” in 3rd Int. Conf. on Learning Representations, ICLR, 2015.
【0360】
[32] T. Salimans and D. P. Kingma, “Weight normalization: A simple reparameterization to accelerate training of deep neural net-works,” in Advances in Neural Information Processing Systems 29, 2016, pp. 901-909.
【0361】
[33] M. Pariente, A. Deleforge, and E. Vincent, “A statistically principled and computationally efficient approach to speech enhancement using variational autoencoders,” in Proc. Inter-speech Conf., 2019, pp. 3158-3162.
【0362】
[34] Y. Hu and P. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, pp. 229 - 238, 02 2008.
【0363】
[35] J. Hansen and B. Pellom, “An effective quality evaluation protocol for speech enhancement algorithms,” in ICSLP, 1998.
【0364】
[36] R. Giri, U. Isik, and A. A. Krishnaswamy, “Attention wave-u-net for speech enhancement,” in Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2019, pp. 249-253.
【0365】
[37] Y. Koizumi, K. Yatabe, M. Delcroix, Y. Masuyama, and D. Takeuchi, “Speech enhancement using self-adaptation and multi-head self-attention,” in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 181- 185.

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12-1】
図12-2】
【国際調査報告】