特許7713113 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特許7713113統合音響エコー除去、音声強調、及び声分離のための一般化自動音声認識

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-07-15

(45)【発行日】2025-07-24

(54)【発明の名称】統合音響エコー除去、音声強調、及び声分離のための一般化自動音声認識

(51)【国際特許分類】

G10L 15/20 20060101AFI20250716BHJP

G10L 15/16 20060101ALI20250716BHJP

G10L 15/06 20130101ALI20250716BHJP

【ＦＩ】

G10L15/20 370D

G10L15/16

G10L15/06 300Z

【請求項の数】 28

(21)【出願番号】P 2024555991

(86)(22)【出願日】2023-02-19

(65)【公表番号】

(43)【公表日】2025-04-15

(86)【国際出願番号】 US2023062886

(87)【国際公開番号】W WO2023183683

(87)【国際公開日】2023-09-28

【審査請求日】2024-10-29

(31)【優先権主張番号】63/269,629

(32)【優先日】2022-03-20

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100188558

【弁理士】

【氏名又は名称】飯田雅人

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(72)【発明者】

【氏名】トム・オマリー

(72)【発明者】

【氏名】チュアン・ワン

(72)【発明者】

【氏名】アルン・ナラヤナン

【審査官】大野弘

(56)【参考文献】

【文献】Tom O'Malley et al，A CONFORMER-BASED ASR FRONTEND FOR JOINT ACOUSTIC ECHO CANCELLATION,SPEECH ENHANCEMENT AND SPEECH SEPARATION，2021 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP(ASRU)，2021年12月13日，PP.304-311

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／０６

Ｇ１０Ｌ１５／１６

Ｇ１０Ｌ１５／２０

(57)【特許請求の範囲】

【請求項1】

データ処理ハードウェア（１３４）で実行されたとき、前記データ処理ハードウェア（１３４）に動作を行わせるコンピュータ実装方法（７００）であって、前記動作が、
対応するトレーニングコンテキスト信号（５３４、５３４ａ～ｃ）と対にされた複数のトレーニング発話（５３２）を受信することであって、前記トレーニングコンテキスト信号（５３４ａ～ｃ）は、
前記対応するトレーニング発話（５３２）の前のノイズを含むトレーニングコンテキストノイズ信号（５３４ａ）と、
トレーニング参照オーディオ信号（５４３ｂ）と、
前記対応するトレーニング発話（５３２）を話したターゲット話者の声特性を含むトレーニング話者ベクトル（５３４ｃ）と、を含む、前記受信することと、
コンテキスト信号ドロップアウトストラテジーを使用して、強化音声特徴（２５０）を予測する方法を学習するために、前記トレーニング発話（５３２）でコンテキストフロントエンド処理モデル（２００）をトレーニングすることであって、前記コンテキスト信号ドロップアウトストラテジーは、前記コンテキストフロントエンド処理モデル（２００）のトレーニング中に、所定の確率を使用して、前記トレーニングコンテキスト信号（５３４）の各々をドロップアウトする、前記トレーニングすることと、
を含む、コンピュータ実装方法（７００）。

【請求項2】

前記信号ドロップアウトストラテジーは、前記対応するトレーニングコンテキスト信号（５３４）をオールゼロに置き換えることによって、各トレーニングコンテキスト信号（５３４）をドロップアウトする、請求項１に記載のコンピュータ実装方法（７００）。

【請求項3】

前記トレーニング参照オーディオ信号（５４３ｂ）をオールゼロに置き換えることは、前記トレーニング参照オーディオ信号（５４３ｂ）を、前記対応するトレーニング発話（５３２）と同じ長さ及び特徴次元のオールゼロ特徴に置き換えることを含む、請求項２に記載のコンピュータ実装方法（７００）。

【請求項4】

前記トレーニングコンテキストノイズ信号（５３４ａ）を置き換えることは、前記トレーニングコンテキストノイズ信号（５３４ａ）を、所定の長さ及び前記対応するトレーニング発話（５３２）と同じ特徴次元を有するオールゼロ特徴に置き換えることを含む、請求項２に記載のコンピュータ実装方法（７００）。

【請求項5】

前記トレーニング話者ベクトル（５３４ｃ）を置き換えることは、前記トレーニング話者ベクトル（５３４ｃ）を、オールゼロベクトルを有するオールゼロ特徴に置き換えることを含む、請求項２に記載のコンピュータ実装方法（７００）。

【請求項6】

前記信号ドロップアウトストラテジーは、前記対応するトレーニングコンテキスト信号（５３４）をフレームレベルの学習済み表現に置き換えることによって、各トレーニングコンテキスト信号（５３４）をドロップアウトする、請求項１に記載のコンピュータ実装方法（７００）。

【請求項7】

前記トレーニングされたコンテキストフロントエンド処理モデル（２００）は、
一次エンコーダ（２１０）であって、
入力として、ターゲット発話（１２）に対応する入力音声特徴（２１２）を受信し、
出力として、主要入力符号化（２１８）を生成するように構成された、一次エンコーダ（２１０）と、
ノイズコンテキストエンコーダ（２２０）であって、
入力として、前記ターゲット発話（１２）の前のノイズを含むコンテキストノイズ信号（２１３）を受信し、
出力として、コンテキストノイズ符号化（２２２）を生成するように構成された、ノイズコンテキストエンコーダ（２２０）と、
クロスアテンションエンコーダ（４００）であって、
入力として、前記一次エンコーダ（２１０）からの出力として生成された前記主要入力符号化（２１８）、及び前記ノイズコンテキストエンコーダ（２２０）からの出力として生成された前記コンテキストノイズ符号化（２２２）を受信し、
出力として、クロスアテンション埋め込み（４８０）を生成するように構成された、クロスアテンションエンコーダ（４００）と、
デコーダ（２４０）であって、前記クロスアテンション埋め込み（４８０）を、前記ターゲット発話（１２）に対応する強化音声特徴（２５０）に復号するように構成されたデコーダ（２４０）と、
を含む、請求項１に記載のコンピュータ実装方法（７００）。

【請求項8】

前記一次エンコーダ（２１０）が、さらに、
入力として、参照オーディオ信号（１５４）に対応する参照特徴（２１４）を受信し、
出力として、前記参照特徴（２１４）と積層された前記入力音声特徴（２１２）を処理することによって、前記主要入力符号化（２１８）を生成する
ように構成された、請求項７に記載のコンピュータ実装方法（７００）。

【請求項9】

前記一次エンコーダ（２１０）が、さらに、
入力として、前記ターゲット発話（１２）を話したターゲット話者（１０）の声特性を含む話者埋め込み（２１５）を受信し、
出力として、特徴量的線形変調（ＦｉＬＭ）を使用して、前記入力音声特徴（２１２）を前記話者埋め込み（２１５）と組み合わせることによって、前記主要入力符号化（２１８）を生成する
ように構成された、請求項７に記載のコンピュータ実装方法（７００）。

【請求項10】

前記クロスアテンションエンコーダ（４００）が、さらに、
入力として、特徴量的線形変調（ＦｉＬＭ）を使用して話者埋め込み（２１５）によって変調された前記主要入力符号化（２１８）を受信することであって、前記話者埋め込み（２１５）が、前記ターゲット発話（１２）を話したターゲット話者（１０）の声特性を含む、前記受信することと、
前記話者埋め込み（２１５）によって変調された前記主要入力符号化（２１８）及び前記コンテキストノイズ符号化（２２２）を処理して、出力として、前記クロスアテンション埋め込み（４８０）を生成することと、
を行うように構成されている、請求項７に記載のコンピュータ実装方法（７００）。

【請求項11】

前記一次エンコーダ（２１０）は、Ｎ個の変調コンフォーマブロック（３２０）を含み、
前記ノイズコンテキストエンコーダ（２２０）は、Ｎ個のコンフォーマブロックを含み、前記一次エンコーダ（２１０）と並行して実行し、
前記クロスアテンションエンコーダ（４００）は、Ｍ個の変調クロスアテンションコンフォーマブロックを含む、
請求項７のコンピュータ実装方法（７００）。

【請求項12】

前記コンテキストフロントエンド処理モデル（２００）が、スペクトル損失及びＡＳＲ損失（６４０）を使用して、バックエンド自動音声認識（ＡＳＲ）モデル（１９２）と統合してトレーニングされる、請求項１に記載のコンピュータ実装方法（７００）。

【請求項13】

前記スペクトル損失が、推定比率マスク及び理想的比率マスクとの間のＬ１損失関数及びＬ２損失関数の距離に基づき、前記理想的比率マスクは残響音声及び残響ノイズを使用して計算された、請求項１２に記載のコンピュータ実装方法（７００）。

【請求項14】

前記ＡＳＲ損失（６４０）が、各トレーニング発話（５３２）について、
前記コンテキスト信号ドロップアウトストラテジーを使用して、前記トレーニング発話（５３２）の前記コンテキストフロントエンド処理モデル（２００）によって予測される強化音声特徴（２５０）を入力として受信するように構成された前記ＡＳＲモデル（１９２）のＡＳＲエンコーダ（６２０）を使用して、前記強化音声特徴（２５０）についての前記ＡＳＲエンコーダ（６２０）の予測出力（６２２）を生成することと、
前記トレーニング発話（５３２）のターゲット音声特徴（５４０）を入力として受信するように構成された前記ＡＳＲエンコーダ（６２０）を使用して、前記ターゲット音声特徴（５４０）についての前記ＡＳＲエンコーダ（６２０）のターゲット出力（６２４）を生成することと、
前記強化音声特徴（２５０）についての前記ＡＳＲエンコーダ（６２０）の前記予測出力（６２２）と、前記ターゲット音声特徴（５４０）についての前記ＡＳＲエンコーダ（６２０）の前記ターゲット出力（６２４）とに基づいて、前記ＡＳＲ損失（６４０）を計算することと、
によって計算される、請求項１２に記載のコンピュータ実装方法（７００）。

【請求項15】

システム（１００）であって、
データ処理ハードウェア（１３４）と、
前記データ処理ハードウェア（１３４）と通信し、命令を格納するメモリハードウェア（１３６）とを備え、前記命令は前記データ処理ハードウェア（１３４）上で実行されたとき、前記データ処理ハードウェア（１３４）に、
対応するトレーニングコンテキスト信号（５３４、５３４ａ～ｃ）と対にされた複数のトレーニング発話（５３２）を受信することであって、前記トレーニングコンテキスト信号（５３４ａ～ｃ）は、
前記対応するトレーニング発話（５３２）の前のノイズを含むトレーニングコンテキストノイズ信号（５３４ａ）と、
トレーニング参照オーディオ信号（５４３ｂ）と、
前記対応するトレーニング発話（５３２）を話したターゲット話者の声特性を含むトレーニング話者ベクトル（５３４ｃ）と、を含む、前記受信することと、
コンテキスト信号ドロップアウトストラテジーを使用して、強化音声特徴（２５０）を予測する方法を学習するために、前記トレーニング発話（５３２）でコンテキストフロントエンド処理モデル（２００）をトレーニングすることであって、前記コンテキスト信号ドロップアウトストラテジーは、前記コンテキストフロントエンド処理モデル（２００）のトレーニング中に、所定の確率を使用して、前記トレーニングコンテキスト信号（５３４）の各々をドロップアウトする、前記トレーニングすることと、を含む動作を実行させる、
システム（１００）。

【請求項16】

前記信号ドロップアウトストラテジーは、前記対応するトレーニングコンテキスト信号（５３４）をオールゼロに置き換えることによって、各トレーニングコンテキスト信号（５３４）をドロップアウトする、請求項１５に記載のシステム（１００）。

【請求項17】

前記トレーニング参照オーディオ信号（５４３ｂ）をオールゼロに置き換えることは、前記トレーニング参照オーディオ信号（５４３ｂ）を、前記対応するトレーニング発話（５３２）と同じ長さ及び特徴次元のオールゼロ特徴に置き換えることを含む、請求項１６に記載のシステム（１００）。

【請求項18】

前記トレーニングコンテキストノイズ信号を置き換えることは、前記トレーニングコンテキストノイズ信号（５３４ａ）を、所定の長さ及び前記対応するトレーニング発話（５３２）と同じ特徴次元を有するオールゼロ特徴に置き換えることを含む、請求項１６に記載のシステム（１００）。

【請求項19】

前記トレーニング話者ベクトル（５３４ｃ）を置き換えることは、前記トレーニング話者ベクトル（５３４ｃ）を、オールゼロベクトルを有するオールゼロ特徴に置き換えることを含む、請求項１６に記載のシステム（１００）。

【請求項20】

前記信号ドロップアウトストラテジーは、前記対応するトレーニングコンテキスト信号（５３４）をフレームレベルの学習済み表現に置き換えることによって、各トレーニングコンテキスト信号（５３４）をドロップアウトする、請求項１５に記載のシステム（１００）。

【請求項21】

【請求項22】

前記一次エンコーダ（２１０）が、さらに、
入力として、参照オーディオ信号（１５４）に対応する参照特徴（２１４）を受信し、
出力として、前記参照特徴（２１４）と積層された前記入力音声特徴（２１２）を処理することによって、前記主要入力符号化（２１８）を生成するように構成された、請求項２１に記載のシステム（１００）。

【請求項23】

前記一次エンコーダ（２１０）が、さらに、
入力として、前記ターゲット発話（１２）を話したターゲット話者（１０）の声特性を含む話者埋め込み（２１５）を受信し、
出力として、特徴量的線形変調（ＦｉＬＭ）を使用して、前記入力音声特徴（２１２）を前記話者埋め込み（２１５）と組み合わせることによって、前記主要入力符号化（２１８）を生成するように構成された、請求項２１に記載のシステム（１００）。

【請求項24】

【請求項25】

前記一次エンコーダ（２１０）は、Ｎ個の変調コンフォーマブロック（３２０）を含み、
前記ノイズコンテキストエンコーダ（２２０）は、Ｎ個のコンフォーマブロックを含み、前記一次エンコーダ（２１０）と並行して実行し、
前記クロスアテンションエンコーダ（４００）は、Ｍ個の変調クロスアテンションコンフォーマブロックを含む、請求項２１に記載のシステム（１００）。

【請求項26】

前記コンテキストフロントエンド処理モデル（２００）が、スペクトル損失及びＡＳＲ損失を使用して、バックエンド自動音声認識（ＡＳＲ）モデル（１９２）と統合してトレーニングされる、請求項１５に記載のシステム（１００）。

【請求項27】

前記スペクトル損失が、推定比率マスク及び理想的比率マスクとの間のＬ１損失関数及びＬ２損失関数の距離に基づき、前記理想的比率マスクは残響音声及び残響ノイズを使用して計算された、請求項２６に記載のシステム（１００）。

【請求項28】

前記ＡＳＲ損失が、各トレーニング発話（５３２）について、
前記コンテキスト信号ドロップアウトストラテジーを使用して、前記トレーニング発話（５３２）の前記コンテキストフロントエンド処理モデル（２００）によって予測される強化音声特徴（２５０）を入力として受信するように構成された前記ＡＳＲモデル（１９２）のＡＳＲエンコーダ（６２０）を使用して、前記強化音声特徴（２５０）についての前記ＡＳＲエンコーダ（６２０）の予測出力（６２２）を生成することと、
前記トレーニング発話（５３２）のターゲット音声特徴（５４０）を入力として受信するように構成された前記ＡＳＲエンコーダ（６２０）を使用して、前記ターゲット音声特徴（５４０）についての前記ＡＳＲエンコーダ（６２０）のターゲット出力（６２４）を生成することと、
前記強化音声特徴（２５０）についての前記ＡＳＲエンコーダ（６２０）の前記予測出力（６２２）と、前記ターゲット音声特徴（５４０）についての前記ＡＳＲエンコーダ（６２０）の前記ターゲット出力（６２４）とに基づいて、前記ＡＳＲ損失（６４０）を計算することと、
によって計算される、請求項２６に記載のシステム（１００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、統合音響エコー除去、音声強調、及び声分離のための一般化自動音声認識に関するものである。

【背景技術】

【0002】

自動音声認識（ＡＳＲ）システムのロバスト性は、ニューラルネットワークベースのエンドツーエンドモデルの登場、大規模トレーニングデータ、及びトレーニングデータを拡張するための戦略の改善により、数年にわたって大幅に向上している。しかし、エコー、より強い暗騒音及び競合音声などの様々な条件は、ＡＳＲシステムの性能を大幅に低下させる。統合ＡＳＲモデルは、これらの条件を処理するように訓練され得る。しかしながら、使用中、統合ＡＳＲモデルは、同時に発生する全ての条件に遭遇するわけではない。したがって、存在する全ての条件で統合ＡＳＲモデルをトレーニングすることは実用的ではない。

【発明の概要】

【0003】

本開示の一態様は、結合エコー除去、音声強調、及び声分離のために一般化自動音声認識モデルをトレーニングするためのコンピュータ実装方法を提供し、本方法は、データ処理ハードウェア上で実行されたとき、データ処理ハードウェアに動作を実行させる。この動作は、対応するトレーニングコンテキスト信号と対にされた複数のトレーニング発話を受信することを含む。トレーニングコンテキスト信号は、対応するトレーニング発話の前のノイズを含むトレーニングコンテキストノイズ信号と、トレーニング参照オーディオ信号と、対応するトレーニング発話を話したターゲット話者の声特性を含むトレーニング話者ベクトルとを含む。この動作はまた、コンテキスト信号ドロップアウトストラテジーを使用して、強化音声特徴を予測する方法を学習するためにトレーニング発話に関するコンテキストフロントエンド処理モデルをトレーニングすることを含む。ここで、コンテキスト信号ドロップアウトストラテジーは、コンテキストフロントエンド処理モデルのトレーニング中に、所定の確率を使用して、トレーニングコンテキスト信号の各々をドロップアウトする。

【0004】

本開示の実施態様は、以下の任意選択の特徴の１つ以上を含み得る。いくつかの実施態様では、信号ドロップアウトストラテジーは、対応するコンテキスト信号をオールゼロに置き換えることによって、各トレーニングコンテキスト信号をドロップアウトする。これらの実施態様では、トレーニング参照オーディオ信号をすべてゼロに置き換えることは、トレーニング参照オーディオ信号を、対応するトレーニング発話と同じ長さ及び特徴次元のオールゼロ特徴に置き換えることを含む。追加的または代替的に、トレーニングコンテキストノイズ信号を置き換えることは、トレーニングコンテキストノイズ信号を、所定の長さ及び対応するトレーニング発話と同じ特徴次元を有するオールゼロ特徴に置き換えることを含む。さらに、これらの実施態様では、トレーニング話者ベクトルを置き換えることは、トレーニング話者ベクトルを、オールゼロベクトルを有するオールゼロ特徴と置き換えることを含む。いくつかの例では、信号ドロップアウトストラテジーは、対応するコンテキスト信号をフレームレベルの学習済み表現に置き換えることによって、各トレーニングコンテキスト信号をドロップアウトする。

【0005】

いくつかの実施態様では、トレーニングされたコンテキストフロントエンド処理モデルは、一次エンコーダ、ノイズコンテキストエンコーダ、クロスアテンションエンコーダ、及びデコーダを含む。一次エンコーダは、ターゲット発話に対応する入力音声特徴を入力として受信し、出力として主要入力符号化を生成する。ノイズコンテキストエンコーダは、ターゲット発話の前のノイズを含むコンテキストノイズ信号を入力として受信し、出力として、コンテキストノイズ符号化を生成する。クロスアテンションエンコーダは、一次エンコーダからの出力として生成された主要入力符号化、及びノイズコンテキストエンコーダからの出力として生成されたコンテキストノイズ符号化を入力として受信し、出力としてクロスアテンション埋め込みを生成する。デコーダは、クロスアテンション埋め込みを、ターゲット発話に対応する強化された入力音声特徴に復号する。これらの実施態様では、一次エンコーダはさらに、入力として、参照オーディオ信号に対応する参照特徴を受信し、出力として、参照特徴と積層された入力音声特徴を処理することによって、主要入力符号化を生成するように構成される。あるいは、一次エンコーダは、さらに、ターゲット発話を話したターゲット話者の声特性を含む話者埋め込みを入力として受信し、出力として、特徴量的線形変調（ＦｉＬＭ）を使用して、入力音声特徴を話者埋め込みと組み合わせることによって主要入力符号化を生成するように構成される。追加的または代替的に、クロスアテンションエンコーダは、さらに、特徴量的線形変調（ＦｉＬＭ）を使用して話者埋め込みによって変調された主要入力符号化を入力として受信するように構成される。ここで、話者埋め込みは、ターゲット発話を話したターゲット話者の声特性を含み、話者埋め込みによって変調された主要入力符号化とコンテキストノイズ符号化とを処理して、出力としてクロスアテンション埋め込みを生成する。いくつかの実施態様では、一次エンコーダは、Ｎ個の変調コンフォーマブロックを含み、コンテキストノイズエンコーダは、Ｎ個のコンフォーマブロックを含み、一次エンコーダと並行して実行し、クロスアテンションエンコーダは、Ｍ個の変調クロスアテンションコンフォーマブロックを含む。

【0006】

いくつかの例では、コンテキストフロントエンド処理モデルは、スペクトル損失及びＡＳＲ損失を使用して、バックエンド自動音声認識（ＡＳＲ）モデルと統合してトレーニングされる。これらの例では、スペクトル損失が、推定比率マスクと理想的比率マスクとの間のＬ１損失関数及びＬ２損失関数の距離に基づいてよい。ここで、理想的比率マスクは、残響音声及び残響ノイズを使用して計算される。さらに、これらの例では、ＡＳＲ損失は、トレーニング発話のコンテキストフロントエンド処理モデルによって予測された強化音声特徴を入力として、強化音声特徴のＡＳＲエンコーダの予測出力を受け取ることと、トレーニング発話のターゲット音声特徴を入力として受け取るように構成されたＡＳＲエンコーダを使用して、ターゲット音声特徴のＡＳＲエンコーダのターゲット出力を生成することと、強化音声特徴のＡＳＲエンコーダの予測出力及びターゲット音声特徴のＡＳＲエンコーダのターゲット出力に基づくＡＳＲ損失を計算することと、により計算される。

【0007】

本開示の別の態様は、統合エコー除去、音声強調、及び声分離のための一般化自動音声認識モデルのトレーニングのためシステムを提供する。本システムは、データ処理ハードウェア、及びデータ処理ハードウェアと通信するメモリハードウェアを含む。メモリハードウェアは、データ処理ハードウェアで実行されたとき、データ処理ハードウェアに、対応するトレーニングコンテキスト信号と対にされた複数のトレーニング発話を受信することを含む動作を実行させる命令を格納する。トレーニングコンテキスト信号は、対応するトレーニング発話の前のノイズを含むトレーニングコンテキストノイズ信号と、トレーニング参照オーディオ信号と、対応するトレーニング発話を話したターゲット話者の声特性を含むトレーニング話者ベクトルとを含む。動作はまた、コンテキスト信号ドロップアウトストラテジーを使用して、強化音声特徴を予測する方法を学習するためのトレーニング発話に対してコンテキストフロントエンド処理モデルをトレーニングすることを含む。ここで、コンテキスト信号ドロップアウトストラテジーは、コンテキストフロントエンド処理モデルのトレーニング中に、所定の確率を使用して、トレーニングコンテキスト信号の各々をドロップアウトする。

【0008】

この態様は、以下の任意選択の特徴のうちの１つ以上を含んでもよい。いくつかの実施態様では、信号ドロップアウトストラテジーは、対応するコンテキスト信号をオールゼロに置き換えることによって、各トレーニングコンテキスト信号をドロップアウトする。これらの実施態様では、トレーニング参照オーディオ信号をオールゼロに置き換えることは、トレーニング参照オーディオ信号を、対応するトレーニング発話と同じ長さ及び特徴次元のオールゼロ特徴に置き換えることを含む。追加的または代替的に、トレーニングコンテキストノイズ信号を置き換えることは、トレーニングコンテキストノイズ信号を、所定の長さ及び対応するトレーニング発話と同じ特徴次元を有するオールゼロ特徴に置き換えることを含む。追加的に、これらの実施態様では、トレーニング話者ベクトルを置き換えることは、トレーニング話者ベクトルをオールゼロ特徴と置き換えることを含む。いくつかの例では、信号ドロップアウトストラテジーは、対応するコンテキスト信号をフレームレベルの学習済み表現に置き換えることによって、各トレーニングコンテキスト信号をドロップアウトする。

【0009】

いくつかの実施態様では、訓練されたコンテキストフロントエンド処理モデルは、一次エンコーダ、ノイズコンテキストエンコーダ、クロスアテンションエンコーダ、及びデコーダを含む。一次エンコーダは、ターゲット発話に対応する入力音声特徴を入力として受け取り、出力として主要入力符号化を生成する。ノイズコンテキストエンコーダは、ターゲット発話の前のノイズを含むコンテキストノイズ信号を入力として受け取り、出力として、コンテキストノイズ符号化を生成する。クロスアテンションエンコーダは、一次エンコーダからの出力として生成された主要入力符号化、及びノイズコンテキストエンコーダからの出力として生成されたコンテキストノイズ符号化を入力として受け取り、出力としてクロスアテンション埋め込みを生成する。デコーダは、クロスアテンション埋め込みを、ターゲット発話に対応する強化された入力音声特徴に復号する。これらの実施態様では、一次エンコーダはさらに、入力として、参照オーディオ信号に対応する参照特徴を受け取り、出力として、参照特徴と積層された入力音声特徴を処理することによって、主要入力符号化を生成するように構成される。あるいは、一次エンコーダは、さらに、ターゲット発話を話したターゲット話者の声特性を含む話者埋め込みを入力として受け取り、出力として、特徴量的線形変調（ＦｉＬＭ）を使用して、入力音声特徴を話者埋め込みと組み合わせることによって主要入力符号化を生成するように構成される。追加的または代替的に、クロスアテンションエンコーダは、さらに、特徴量的線形変調（ＦｉＬＭ）を使用して話者埋め込みによって変調された主要入力符号化を入力として受け取るように構成される。ここで、話者埋め込みは、ターゲット発話を話したターゲット話者の声特性を含み、話者埋め込みによって変調された主要入力符号化とコンテキストノイズ符号化とを処理して、出力としてクロスアテンション埋め込みを生成する。いくつかの実施態様では、一次エンコーダは、Ｎ個の変調コンフォーマブロックを含み、コンテキストノイズエンコーダは、Ｎ個のコンフォーマブロックを含み、一次エンコーダと並行して実行し、クロスアテンションエンコーダは、Ｍ個の変調クロスアテンションコンフォーマブロックを含む。

【0010】

いくつかの例では、コンテキストフロントエンド処理モデルは、スペクトル損失及びＡＳＲ損失を使用して、バックエンド自動音声認識（ＡＳＲ）モデルと統合してトレーニングされる。これらの例では、スペクトル損失が、推定比率マスクと理想的比率マスクとの間のＬ１損失関数及びＬ２損失関数の距離に基づいてよい。ここで、理想的比率マスクは、残響音声及び残響ノイズを使用して計算される。追加的に、これらの例では、ＡＳＲ損失は、トレーニング発話のコンテキストフロントエンド処理モデルによって予測された強化音声特徴を入力として、強化音声特徴のＡＳＲエンコーダの予測出力を受け取ることと、トレーニング発話のターゲット音声特徴を入力として受け取るように構成されたＡＳＲエンコーダを使用して、ターゲット音声特徴のＡＳＲエンコーダのターゲット出力を生成することと、強化音声特徴のＡＳＲエンコーダの予測出力及びターゲット音声特徴のＡＳＲエンコーダのターゲット出力に基づくＡＳＲ損失を計算することと、により計算される。

【0011】

本開示の１つ以上の実施態様の詳細は、添付の図面及び以下の説明において述べられる。他の態様、特徴、及び利点は、説明及び図面、ならびに特許請求の範囲から明らかになる。

【図面の簡単な説明】

【0012】

【図1】話されたターゲット発話を音声対応ユーザデバイスに通信するユーザを含むシステムの概略図である。

【図2】図１のコンテキストフロントエンド処理モデルの概略図である。

【図3】変調コンフォーマブロックの概略図である。

【図4】コンテキストフロントエンド処理モデルのクロスアテンションエンコーダによって実装される変調コンフォーマブロックアーキテクチャの概略図である。

【図5】コンテキストフロントエンド処理モデルをトレーニングするための例示的なトレーニングプロセスの概略図である。

【図6】コンテキストフロントエンド処理モデル及び自動音声認識モデルを統合してトレーニングするための例示的なトレーニングプロセスの概略図である。

【図7】コンテキストフロントエンド処理モデルを使用した自動音声認識の方法のための動作の例示的な配置の例示的なフローチャートである。

【図8】本明細書に記載のシステム及び方法を実装するために使用できる例示的なコンピューティングデバイスの概略図である。

【発明を実施するための形態】

【0013】

種々の図面における同様の参照記号は、同様の要素を指す。

【0014】

自動音声認識（ＡＳＲ）システムのロバスト性は、ニューラルネットワークベースのエンドツーエンドモデルの登場、大規模トレーニングデータ、及びトレーニングデータを拡張するための戦略の改善により、数年にわたって大幅に向上している。それにもかかわらず、バックグラウンド干渉は、ＡＳＲシステムに向けられた発話を正確に認識するＡＳＲシステムの機能を大幅に低下させ得る。バックグラウンド干渉は、デバイスエコー、暗騒音及び競合音声の３つのグループに大まかに分類できる。これらのバックグラウンド干渉グループのそれぞれを分離して扱うために、別々のＡＳＲモデルをトレーニングし得るが、複数のタスク／条件に特有のＡＳＲモデルを維持し、使用中にその場でモデルを切り替えることは困難であり、実用的ではない。

【0015】

デバイスエコーは、スマートホーム話者などのデバイスからの再生オーディオ出力に対応し得、それにより、再生オーディオは、エコーとして記録され、ＡＳＲシステムなどのバックエンド音声システムの性能に影響を与える可能性がある。特に、バックエンド音声システムの性能の低下は、再生オーディオが可聴音声、例えばデジタルアシスタントからのテキスト読み上げ（ＴＴＳ）応答を含む場合、特に深刻である。この問題は通常、音響エコー除去（ＡＥＣ）手法を介して対処される。ＡＥＣの独自の特性は、再生オーディオに対応する参照信号が通常利用可能であり、抑制に使用できることである。

【0016】

非声特性を持つ暗騒音は、通常、ＡＳＲモデルのマルチスタイルトレーニング（ＭＴＲ）などのデータ拡張戦略を使用して適切に処理される。ここでは、室内シミュレータを使用してトレーニングデータにノイズが加えられ、次いでトレーニング中にそれらがクリーンなデータで慎重に重み付けされることで、クリーンな状態とノイズの多い状態との間での性能のバランスがとられる。その結果、大規模ＡＳＲモデルは、中程度のレベルの非音声ノイズに対してロバストである。しかし、低信号対ノイズ比（ＳＮＲ）条件の存在下では、暗騒音は、依然として、バックエンド音声システムの性能に影響を与え得る。

【0017】

非音声暗騒音とは異なり、競合音声は、単一の話者を認識するように訓練されたＡＳＲモデルにとっては非常に困難である。ＡＳＲモデルを複数の送話者の音声で訓練することは、推論中にどの話者に焦点を当てるべきかの曖昧さをなくすことが難しいため、それ自体が問題になる場合がある。サポートするユーザ数を事前に知ることは困難であるため、複数の話者を認識するモデルを使用することも最適ではない。さらに、そのような複数話者モデルは、通常、単一話者設定では性能が低下し、望ましくない。

【0018】

前述した３つのバックグラウンド干渉のクラスは、通常、互いに分離して対処されており、それぞれが別々のモデリング戦略を使用している。最近の文献では、深層クラスタリング、順列不変学習などの技術を使用するとともに、話者埋め込みを使用する音声分離が多くの注目を集めている。話者埋め込みを使用するとき、対象のターゲット話者は先験的に既知であると想定される。話者分離のために開発された技術は、トレーニングデータを修正して、非音声ノイズの除去にも応用される。ＡＥＣもまた、暗騒音の存在下で、単独でまたは共に研究されている。非線形処理によって発生する歪みはＡＳＲ性能に悪影響を与え得るため、発話品質を改善してもＡＳＲ性能が必ずしも向上するわけではないことは周知である。着信オーディオを最初に処理する拡張フロントエンドと結果として得られるＡＳＲ性能との不一致を軽減する１つの方法は、拡張フロントエンドをバックエンドＡＳＲモデルと一緒に統合してトレーニングすることである。

【0019】

さらに、大規模な多領域及び多言語ＡＳＲモデルのアプリケーションが関心を集め続けているため、これらのＡＳＲモデルのトレーニングデータは通常、様々な音響及び言語のユースケース（例えば、声による検索及びビデオキャプション）をカバーすることで、より困難なノイズ条件に同時に対処することは困難である。その結果、バックエンドＡＳＲモデルと組み合わせることなく、不利な条件に対処できる別々のフロントエンド特徴処理モデルをトレーニングし維持することが好都合であることが多い。さらに、ＡＳＲモデルの様々なタイプのデータがトレーニングに利用可能であるが、ＡＳＲモデルは、前述のバックグラウンド干渉グループ（例えば、デバイスエコー、暗騒音、及び競合音声）のうちの１つ以上がトレーニング例から欠落しているときにも、良好に機能する必要がある。

【0020】

本明細書の実施態様は、音響エコー除去（ＡＥＣ）、音声強調、及び音声分離のモジュールを単一のモデルに統合して実装することによって、ＡＳＲのロバスト性を改善するためにコンテキストフロントエンド処理モデルをトレーニングすることを対象とする。単一統合モデルは、特にストリーミングＡＳＲ設定において、事前にどのクラスのバックグラウンド干渉に対処すべきかを知ることが不可能ではないにしても困難であるという観点から実用的である。具体的には、コンテキストフロントエンド処理モデルは、再生オーディオに関連付けられた基準信号、ノイズコンテキスト、及び対象のターゲット話者の声特性を表す話者埋め込みの３つの異なるタイプのサイドコンテキスト入力を任意選択で利用できるコンテキスト強化ニューラルネットワーク（ＣＥＮＮ）を含む。本明細書の実施態様は、より具体的には、１つ以上のコンテキスト入力が欠落しているときの推測中のモデルの性能を改善するために、コンテキストフロントエンド処理モデルをトレーニングするためのコンテキスト信号ドロップアウトストラテジーを使用することを対象とする。明らかになるように、再生オーディオに関連する参照信号は、エコー除去の提供に必要であり、一方、ノイズコンテキストは音声強調に有用である。追加的に、ターゲット話者の声特性を表す話者埋め込み（利用可能な場合）は、音声分離に重要であるだけでなく、エコー除去及び音声強調にも役立つ。音声強調及び分離の場合、ノイズコンテキスト、すなわち、認識すべきターゲット発話の前の数秒間の音声は、音響コンテキストに関する有用な情報を伝達する。ＣＥＮＮは、対応するコンテキストサイドの入力をそれぞれ取り込むように構成されたそれぞれのニューラルネットワークアーキテクチャを使用して、強化入力音声特徴を処理して音声を生成し得るＡＳＲモデルなどのバックエンド音声システムに渡され得る強化入力音声特徴を生成し、ターゲット発話の音声認識結果を生成する。特に、ノイズコンテキスト及び参照特徴は任意選択のコンテキストサイドの入力であるため、ノイズコンテキスト及び参照特徴は、利用不可能時、ＣＥＮＮによってそれぞれの非通知的な静音信号であると想定される。

【0021】

図１を参照すると、いくつかの実施態様において、システム１００は、音声環境において、ユーザ１０が、話されたターゲット発話１２を音声対応ユーザデバイス１１０（デバイス１１０またはユーザデバイス１１０とも呼ばれる）に伝えることを含む。ユーザ１０（すなわち、発語１２の話者）は、デバイス１１０からの応答を求めるクエリまたはコマンドとして、ターゲット発話１２を話し得る。デバイス１１０は、音声環境内部の１人以上のユーザ１０、１１からの音をキャプチャするように構成される。ここで、オーディオ音は、可聴クエリ、デバイス１１０に対するコマンド、またはデバイス１１０によってキャプチャされる可聴通信として機能する、ユーザ１０によって話された発話１２を指し得る。デバイス１１０またはデバイス１１０に関連する音声対応システムは、クエリ及び／またはコマンドを実行させることによって、コマンドのクエリに対処し得る。

【0022】

様々なタイプのバックグラウンド干渉が、デバイス１１０へのクエリまたはコマンドを指定するターゲット発話１２を処理するバックエンド音声システム１８０の能力に干渉する可能性がある。前述のように、バックグラウンド干渉は、ユーザデバイス（例えば、スマートスピーカ）１１０からの再生オーディオ１５４（参照オーディオ信号１５４とも言う）出力に対応するデバイスエコー、ユーザデバイス１１０に向けられていない１人以上の他のユーザ１１１によって話されたターゲット発話１２以外の発話などの競合音声１３、及び非声特性を有する暗騒音の１つ以上を含み得る。本明細書の実施態様では、デバイス１１０上で実行され、ターゲット発話１２及び１つ以上のコンテキスト入力特徴２１３、２１４、２１５に対応する入力音声特徴を入力として受信するように構成されたコンテキストフロントエンド処理モデル２００（モデル２００とも言う）を用い、入力音声特徴２１２及び１つ以上のコンテキスト入力特徴２１３、２１４、２１５を処理することによって、ターゲット発話１２に対応する強化入力音声特徴２５０を出力として生成する。以下でより詳細に説明されるように（例えば、図５）、モデル２００は、コンテキスト信号ドロップアウトストラテジーを使用して、コンテキスト入力特徴２１３、２１４、２１５のうちの１つ以上が欠落しているときの推測中にモデル２００の性能を改善するようトレーニングされ得る。次に、バックエンド音声システム１８０は、強化入力音声特徴２５０を処理して、出力１８２を生成することができる。特に、コンテキストフロントエンド処理モデル２００は、ユーザ１０がターゲット発話１２を話したときに、デバイス１１０によって記録されたバックグラウンド干渉の存在を効果的に除去し、バックエンド音声システム１８０によって生成された出力１８２がバックグラウンド干渉によって劣化されないように、バックエンド音声システム１８０に提供される強化入力音声特徴２５０がデバイス１１０用に意図された音声（すなわちターゲット発話１２）を伝達する。

【0023】

図示の例では、バックエンド音声システム１８０は、強化音声特徴２５０を処理し、ターゲット発話１２に対する音声認識結果（例えば、トランスクリプション）を生成するＡＳＲモデル１９２を使用するＡＳＲシステム１９０を含む。ＡＳＲシステム１９０は、ターゲット発話１２のトランスクリプションに対して意味解釈を実行して、デバイス１１０に向けられたクエリ／コマンドを識別する自然言語理解（ＮＬＵ）モジュール（図示せず）をさらに含み得る。したがって、バックエンド音声システム１８０からの出力１８２は、ＮＬＵモジュールによって識別されたクエリ／コマンドを満たすためのトランスクリプション及び／または命令を含み得る。

【0024】

バックエンド音声システム１８０は、追加的または代替的に、強化入力音声特徴２５０が、ホットワード検出モデルが検出するように訓練された１つ以上のホットワード／ウォームワードの存在を含むか否かを検出するように構成されたホットワード検出モデル（図示せず）を含み得る。例えば、ホットワード検出モデルは、ターゲット発話１２に対応する強化入力音声特徴２５０が特定のホットワード／ウォームワードを含む尤度を示すホットワード検出スコアを出力し得る。ホットワードの検出は、ウェイクアッププロセスをトリガし、このウェイクアッププロセスにより、デバイス１１０はスリープ状態からウェイクアップし得る。例えば、デバイス１１０は、ホットワード、及び／またはホットワードに先行／後続する１つ以上の用語をウェイクアップして処理し得る。

【0025】

追加の例では、バックグラウンド音声システム１８０は、オーディオまたはオーディオ－ビデオ呼び出しアプリケーション（例えば、ビデオ会議アプリケーション）を含む。ここで、ターゲット発話１２に対応する強化入力音声特徴２５０は、オーディオまたはオーディオビデオ通信セッション中に、受信者への通信のためにターゲット話者１０の声をフィルタリングするために、オーディオまたはオーディオビデオ呼び出しアプリケーションによって使用される。バックグラウンド音声システム１８０は、追加的または代替的に、強化入力音声特徴２５０を使用して話者識別を実行して、ターゲット発話１２を話したユーザ１０を識別するように構成された話者識別モデルを含み得る。

【0026】

図示の例では、デバイス１１０は、ユーザ１０以外の１つ以上のソースから発するバックグラウンド干渉の存在下で、ユーザ１０によって話されたターゲット発話１２のノイジーオーディオ信号２０２（オーディオデータとも言う）をキャプチャする。デバイス１１０は、ユーザ１０に関連付けられ、ノイジーオーディオ信号２０２を受信することができる任意のコンピューティングデバイスに対応し得る。ユーザデバイス１１０のいくつかの例は、モバイルデバイス（例えば、携帯電話、タブレット、ラップトップなど）、コンピュータ、ウェアラブルデバイス（例えば、スマートウォッチ）、スマートアプライアンス、モノのインターネット（ＩｏＴ）デバイス、及びスマートスピーカなどを含むが、これらに限定されない。デバイス１１０は、データ処理ハードウェア１１２及びデータ処理ハードウェア１１２と通信するメモリハードウェア１１４を含み、メモリハードウェア１１４は、データ処理ハードウェア１１２によって実行されたとき、データ処理ハードウェア１１２に１つ以上の動作を実行させる命令を格納する。コンテキストフロントエンド処理モデル２００は、データ処理ハードウェア１１２上で実行され得る。いくつかの例では、バックエンド音声システム１８０が、データ処理ハードウェア１１２上で実行される。

【0027】

いくつかの例では、デバイス１１０は、１つ以上のアプリケーション（すなわち、ソフトウェアアプリケーション）を含み、各アプリケーションは、コンテキストフロントエンド処理モデル２００によって生成された強化入力音声特徴２５０を利用して、アプリケーション内で様々な機能を実行し得る。例えば、デバイス１１０は、合成された再生オーディオ１５４をユーザ１０に通信して、ユーザ１０の様々なタスクを支援するように構成されるアシスタントアプリケーションを含む。

【0028】

デバイス１１０はさらに、音声環境内部で、話された発話１２をキャプチャし電気信号に変換するためのオーディオキャプチャデバイス（例えば、マイクロフォン）１１６と、可聴オーディオ信号（例えば、デバイス１１０からの合成再生信号１５４）を通信するための音声出力デバイス（例えば、スピーカ）１１８とを備えたオーディオサブシステムを含む。図示の例では、デバイス１１０は単一のオーディオキャプチャデバイス１１６を実装しているが、デバイス１１０は、本開示の範囲から逸脱することなく、オーディオキャプチャデバイス１１６のアレイを実装し得、この場合、アレイの１つ以上のオーディオキャプチャデバイス１１６は、デバイス１１０に物理的に常駐せずに、オーディオサブシステム（例えば、デバイス１１０の周辺機器）と通信し得る。例えば、デバイス１１０は、車両全体に配置されたマイクロフォンのアレイを活用する車両インフォテインメントシステムに対応し得る。

【0029】

いくつかの例では、デバイス１１０は、ネットワーク（図示せず）を介してリモートシステム１３０と通信するように構成される。リモートシステム１３０は、リモートデータ処理ハードウェア１３４（例えば、リモートサーバまたはＣＰＵ）及び／またはリモートメモリハードウェア１３６（例えば、リモートデータベースまたは他のストレージハードウェア）などのリモートリソース１３２を含み得る。ユーザデバイス１１０は、リモートリソース１３２を利用して、音声処理及び／または合成再生通信に関連する様々な機能を実行し得る。コンテキストフロントエンド処理モデル２００及びバックエンド音声システム１８０は、デバイス１１０（オンデバイスシステムと呼ばれる）に常駐する場合があり、またはデバイス１１０と通信しながらリモートで常駐する場合がある（例えば、リモートシステム１３０に常駐する場合がある）。いくつかの例では、１つ以上のバックエンド音声システム１８０は、ローカルに、またはデバイス上に常駐するが、１つ以上の他のバックエンド音声システム１８０は、リモートで常駐する。言い換えれば、コンテキストフロントエンド処理モデル２００から出力される強化入力音声特徴２５０を活用する１つ以上のバックエンド音声システム１８０は、任意の組み合わせでローカルまたはリモートであり得る。例えば、システム１８０のサイズあるいは処理要件がかなり大きい場合、そのシステム１８０はリモートシステム１３０に常駐させてもよい。さらに、デバイス１１０が１つ以上のシステム１８０の大きさまたは処理要件をサポートし得る場合、１つ以上のシステム１８０は、データ処理ハードウェア１１２及び／またはメモリハードウェア１１４を使用してデバイス１１０に常駐させてもよい。任意選択で、１つ以上のシステム１８０を、ローカル／オンデバイス、及びリモートの両方に常駐させてもよい。例えば、バックエンド音声システム１８０は、デバイス１１０とリモートシステム１３０との間の接続が利用可能であるとき、デフォルトでリモートシステム１３０上で実行することができるが、接続が失われるか利用できないとき、システム１８０は、代わりにデバイス１１０上でローカルに実行される。

【0030】

いくつかの実施態様では、デバイス１１０またはデバイス１１０に関連付けられたシステムは、ユーザ１０によって話されたクエリへの応答として、デバイス１１０がユーザ１０に通信するテキストを識別する。次に、デバイス１１０は、テキスト読み上げ（ＴＴＳ）システムを使用して、デバイス１１０がクエリへの応答としてユーザ１０と通信する（例えば、ユーザ１０と可聴通信する）よう、テキストを対応する合成再生オーディオ１５４に変換し得る。生成されると、ＴＴＳシステムは、合成再生オーディオ１５４をデバイス１１０に通信し、デバイス１１０が合成再生オーディオ１５４を出力することを可能にする。例えば、デバイス１１０は、ユーザ１０が今日の天気予報に関する口頭のクエリを提供したことに応答して、デバイス１１０のスピーカ１１８で「今日は晴天です」の合成再生オーディオ１５４を出力する。

【0031】

図１を引き続き参照して、デバイス１１０が合成再生オーディオ１５４を出力するとき、合成再生オーディオ１５４は、オーディオキャプチャデバイス１１６によってキャプチャされたエコー１５６を生成する。合成再生オーディオ１５４は、参照オーディオ信号に対応する。一方、合成再生オーディオ１５４は、図１の例では参照オーディオ信号を示しており、参照オーディオ信号は、スピーカ１１８からのメディアコンテンツ出力、またはユーザ１０がデバイス１１０を介して会話しているリモートユーザ１０からの通信（例えば、ボイスオーバーＩＰ通話またはビデオ会議通話）を含む他のタイプの再生オーディオ１５４を含み得る。残念ながら、エコー１５６に加えて、オーディオキャプチャデバイス１１６はまた、「明日はどうですか？」ということにより、天気についてさらに質問する補足クエリを含む、ユーザ１０によって話されたターゲット発話１２を同時にキャプチャし得る。例えば、図１は、デバイス１１０が合成再生オーディオ１５４を出力するため、ユーザ１０が、デバイス１１０に、「明日はどうですか？」と言うことによって、話された発話１２で、天気についてさらに質問する。ここで、話された発話１２及びエコー１５６は両方とも、オーディオキャプチャデバイス１１６で同時にキャプチャされ、ノイジーオーディオ信号２０２を形成する。換言すれば、オーディオ信号２０２は、ユーザ１０によって話されたターゲット発話１２の一部が、デバイス１１０のスピーカ１１８から出力される参照オーディオ信号（例えば、合成再生オーディオ）１５４の一部と重複する重複オーディオ信号を含む。合成再生オーディオ１５４に加え、環境内の別のユーザ１１によって話された競合音声１３もまた、オーディオキャプチャデバイス１１６によってキャプチャされ得、ターゲット発話１２と重複するバックグラウンド干渉に寄与し得る。

【0032】

図１において、バックエンド音声システム１８０は、ノイジーオーディオ信号２０２においては、再生オーディオ１５４、競合音声１３、またはターゲット発話１２と干渉する非音声暗騒音のうちの少なくとも１つに起因するバックグラウンド干渉の存在により、補足の天気に関するクエリ、「明日はどうですか？」に対応するターゲット発話１２を処理する問題を有する場合がある。コンテキストフロントエンド処理モデル２００は、音響エコー除去（ＡＥＣ）、音声強調、及び音声分離モデル／モジュールを単一のモデルに統合して実装することによって、バックエンド音声システム１８０のロバスト性を改善するために使用される。

【0033】

音響エコー除去（ＡＥＣ）を実行するために、単一のモデル２００は、デバイスにより再生されている参照信号１５４を、モデル２００への入力として使用する。参照信号１５４は、ターゲット発話１２と時間的に整列されており、同じ長さであることが想定される。いくつかの例では、特徴抽出器（図示せず）は、参照オーディオ信号１５４に対応する参照特徴２１４を抽出する。参照特徴２１４は、参照オーディオ信号１５４のログメルフィルタバンクエネルギー（ＬＦＢＥ）特徴を含み得る。同様に、特徴抽出器は、ターゲット発話１２に対応する入力音声特徴２１２を抽出し得る。入力音声特徴２１２は、ＬＦＢＥ特徴を含み得る。以下でより詳細に説明されるように、入力音声特徴２１２は、参照特徴２１４と積層され得、ＡＥＣを実行するために、単一モデル２００の一次エンコーダ２１０（図２）への入力として提供され得る。デバイスによって再生される参照オーディオ信号１５４がないとき、オールゼロ参照信号が使用され得、それにより、入力音声特徴２１２のみが、一次エンコーダ２１０への入力として受信される。

【0034】

単一のモデル２００が、ユーザ１０によって話されるターゲット発話１２の前にオーディオキャプチャデバイス１１６によってキャプチャされたノイズセグメントの所定の期間に関連するコンテキストノイズ信号２１３を処理する場合に、単一モデル２００は、さらに、ノイズコンテキストモデリングを適用することによって、ＡＥＣと並行して音声強調を実行し得る。いくつかの例では、所定の期間は、六（６）秒のノイズセグメントを含む。したがって、コンテキストノイズ信号２１３は、ノイズコンテキストを提供する。いくつかの例では、コンテキストノイズ信号２１３は、コンテキスト情報として使用するためのノイズコンテキスト信号のＬＦＢＥ特徴を含む。

【0035】

任意選択で、単一モデル２００は、ＡＥＣ及び音声強調と統合して、音声分離のためのターゲット話者モデリングをさらに実行し得る。ここで、話者埋め込み２１５が、単一モデル２００による入力として受信される。話者埋め込み２１５は、ターゲット発話１２を話したターゲット話者１０の音声特徴を含み得る。話者埋め込み２１５は、ｄベクトルを含み得る。いくつかの例では、話者埋め込み２１５は、一般化されたエンドツーエンド拡張セットソフトマックス損失でトレーニングされたテキスト独立話者識別（ＴＩ－ＳＩＤ）モデルを使用して計算される。ＴＩ－ＳＩＤは、７６８個のノード及び２５６の投影サイズを有する３つの長短期記憶（ＬＳＴＭ）層を含み得る。次に、最後のＬＳＴＭ層の最終フレームの出力は、最終的な２５６次元のｄベクトルに線形変換される。

【0036】

トレーニング及び評価のために、各ターゲット発話は、同じ話者からの個別の「登録」発話と対にされ得る。登録発話は、ターゲット話者の利用可能な発話のプールからランダムに選択され得る。次に、ｄベクトルは登録発話に対して計算される。ほとんどの実際のアプリケーションでは、登録発話は通常、個別のオフラインプロセスを介して取得される。

【0037】

図２は、図１のコンテキストフロントエンド処理モデル２００を示す。コンテキストフロントエンド処理モデル２００は、短距離及び長距離の相互作用をモデル化するために、畳み込み及びセルフアテンションを組み合わせたコンフォーマニューラルネットワークアーキテクチャの修正バージョンを使用する。モデル２００は、一次エンコーダ２１０、ノイズコンテキストエンコーダ２２０、クロスアテンションエンコーダ４００、及びデコーダ２４０を含む。一次エンコーダ２１０は、Ｎ個の変調コンフォーマブロックを含み得る。ノイズコンテキストエンコーダ２２０は、Ｎ個のコンフォーマブロックを含み得る。クロスアテンションエンコーダ２３０は、Ｍ個の変調クロスアテンションコンフォーマブロックを含み得る。一次コンテキストエンコーダ２１０及びノイズコンテキストエンコーダ２２０は並行して実行してよい。本明細書で使用される場合、各コンフォーマブロックは、ストリーミング能力を可能にするために、局所的で因果関係のあるセルフアテンションを使用し得る。

【0038】

一次エンコーダ２１０は、ターゲット発話に対応する入力音声特徴２１２を入力として受信し、出力として主要入力符号化２１８を生成するように構成され得る。参照オーディオ信号１５４が利用可能な場合、一次エンコーダ２１０は、入力として、参照オーディオ信号に対応する参照特徴２１４が積層される入力音声特徴２１２を受信し、参照特徴２１４と積層された入力音声特徴２１２を処理することによって、主要入力符号化を生成するように構成される。入力音声特徴及び参照特徴はそれぞれ、ＬＦＢＥ特徴のそれぞれのシーケンスを含み得る。

【0039】

一次エンコーダ２１０は、さらに、ターゲット発話１２を話したターゲット話者（すなわち、ユーザ）１０の声特性を含む話者埋め込み２１５（すなわち、利用可能な場合）を入力として受信し、出力として、特徴量的線形変調（ＦｉＬＭ）層３１０（図３）を使用して、入力音声特徴２１２（または参照特徴２１４と積層された入力音声特徴）を組み合わせることによって主要入力符号化２１８を生成するように構成され得る。図３は、一次エンコーダ２１０によって使用される例示的な変調コンフォーマブロック３２０を提供する。ここで、一次エンコーダ２１０で各コンフォーマブロック３２０の前に、話者埋め込み２１５（例えば、ｄベクトル）は、ＦｉＬＭ層３１０を使用して入力音声特徴２１２（または入力音声及び参照特徴２１４の積層）と組み合わされ、出力３１２を生成する。ＦｉＬＭは、一次エンコーダ２１０が、その符号化をターゲット話者１０の話者埋め込み２１５に基づいて調整することを可能にする。ＦｉＬＭ層３１０の後に残差接続３１４が追加され、入力音声特徴２１２（または参照特徴２１４と積層された入力音声特徴２１２）がＦｉＬＭ層３１０の出力３１２と組み合わされ、話者埋め込み２１５が存在しないときに、アーキテクチャが良好に機能することができることを保証するために、コンフォーマブロック３２０の変調入力特徴３１６を入力として生成する。数学的には、変調コンフォーマブロック３２０は、次のように、変調特徴ｍを使用して入力特徴ｘを変換して、出力特徴ｙを生成する。

【数1】

【0040】

ここで、ｈ（・）とｒ（・）はアフィン変換である。ＦＦＮ、Ｃｏｎｖ、及びＭＨＳＡは、それぞれ、フィードフォワードモジュール、畳み込みモジュール、及びマルチヘッドセルフアテンションモジュールを表す。式１は、残留接続を有する特徴量的線形変調（ＦｉＬＭ）層３１０を示す。

【0041】

再び図２を参照して、ノイズコンテキストエンコーダ２２０は、ターゲット発話の前のノイズを含むコンテキストノイズ信号２１３を入力として受信し、出力として、コンテキストノイズ符号化２２２を生成するように構成される。コンテキストノイズ信号２１３は、コンテキストノイズ信号のＬＦＢＥ特徴を含み得る。ノイズコンテキストエンコーダ２２０は、一次及びクロスアテンションエンコーダ２１０、４００とは異なり、話者埋め込み２１５による変調のない標準コンフォーマブロックを含む。コンテキストノイズ信号２１３は、ターゲット発話１２が話される前の音響ノイズコンテキストに関連付けられているため、ノイズコンテキストエンコーダ２２０は、話者埋め込み２１５を用いてコンテキストノイズ信号２１３を変調せず、したがって、ノイズ抑制を助けるためにクロスアテンションエンコーダ４００に転送されるべき情報を含むことが想定される。

【0042】

引き続き図２を参照して、クロスアテンションエンコーダ４００は、一次エンコーダ２１０からの出力として生成された主要入力符号化２１８、及びノイズコンテキストエンコーダ２２０からの出力として生成されたコンテキストノイズ符号化２２２を入力として受信し、出力としてクロスアテンション埋め込み４８０を生成するように構成され得る。その後、デコーダ２４０は、クロスアテンション埋め込み４８０を、ターゲット発話１２に対応する強化入力音声特徴２５０に復号するように構成される。コンテキストノイズ符号化２２２は、補助入力に対応し得る。デコーダ２４０は、シグモイド活性化を備えた単一層のフレーム単位の完全に接続されたネットワークを有する単純な投影デコーダを含み得る。

【0043】

図４に示すように、クロスアテンションエンコーダ４００は、図３で説明したＦｉＬＭを使用して話者埋め込み２１５によって変調された主要入力符号化２１８、及びノイズコンテキストエンコーダ２２０から出力されたコンテキストノイズ符号化２２２を入力としてそれぞれが受信するＭ個の変調コンフォーマブロックのそれぞれのセットを用い得る。クロスアテンションエンコーダ４００は、最初に、ハーフフィードフォワードネット４０２、第１の残差接続４０４、畳み込みブロック４０６、及び第２の残差接続４０８を使用して、変調入力２１８及び補助入力２２２を独立して処理する。具体的には、変調入力２１８は、出力４０３ａを生成するハーフフィードフォワードネット４０２ａによって処理される。次に、第１の残差接続４０４ａは、変調入力２１８をハーフフィードフォワードネット４０２ａの出力４０３ａと組み合わせて、変調入力特徴４０５ａを生成する。変調入力特徴４０５ａは、畳み込み出力４０７ａを生成する畳み込みブロック４０６ａに入力される。第２の残差接続４０８ａは、畳み込みブロック４０６ａの畳み込み出力４０７ａを変調入力特徴４０５ａと組み合わせて、クエリベクトル４０９ａを含む出力を生成する。

【0044】

同様に、補助入力２２２は、出力４０３ａを生成するハーフフィードフォワードネット４０２ｂによって処理される。次に、第１の残差接続４０４ｂは、補助入力２２２をハーフフィードフォワードネット４０２ｂの出力４０３ｂと組み合わせて、変調入力特徴４０５ｂを生成する。変調入力特徴４０５ｂは、畳み込み出力４０７ｂを生成する畳み込みブロック４０６ｂに入力される。第２の残差接続４０８ｂは、畳み込みブロック４０６ｂの畳み込み出力４０７ｂを変調入力特徴４０５ｂと組み合わせて、第１のキーベクトル４０９ｂと第１の値ベクトル４０９ｃを含む出力を生成する。

【0045】

続いて、マルチヘッドクロスアテンション（ＭＨＣＡ）モジュール４１０は、入力として、クエリベクトル４０９ａ、第１のキーベクトル４０９ｂ、及び第１の値ベクトル４０９ｃを受信し、これらのベクトル４０９ａ～ｃを要約して、ノイズサマリー４１２を生成する。直感的には、ＭＨＣＡモジュール４１０の役割は、強化すべき各入力フレームに対して別々にノイズコンテキストをサマライズすることである。ＭＨＣＡモジュール４１０によって出力されたノイズサマリー４１２は、次に、ＦｉＬＭ出力４２２を生成するＦｉＬＭ層４２０を使用してクエリベクトル４０９ａとマージされる。

【0046】

マルチヘッドセルフアテンション（ＭＨＳＡ）層４３０は、ＦｉＬＭ出力４２２を入力として受信し、ＦｉＬＭ出力４２２をクエリベクトル４０９ａとマージして、アテンション出力４３２を生成する。第３の残差接続４３４は、クエリベクトル４０９ａ及びアテンション出力４３２を受信し、クエリベクトル４０９ａ及びアテンション出力４３２を組み合わせて、残差出力４３６を生成する。次に、フィードフォワードモジュール４４０は、第３の残差接続４３４の残差出力４３６を入力として受信し、特徴出力４４２を生成する。次に、第４の残差接続４４４は、特徴出力４２２を、第３の残差出力４３４の残差出力４３６と組み合わせて、マージ入力特徴４４６を生成する。次に、マージ入力特徴４４６は、ＬａｙｅｒＮｏｒｍ４５０によって入力として処理され、これは、畳み込みブロック４０６ｂに送られ、クロスアテンション埋め込み４８０が生成される。

【0047】

数学的には、ｘ、ｍ、及びｎが、符号化された入力、ｄベクトル、及び前の層からの符号化されたノイズコンテキストである場合、クロスアテンションエンコーダ４００は、以下を実行する。

【数2】

【0048】

クロスアテンションエンコーダ４００は、出力として、クロスアテンション埋め込み４８０を生成し、これは、ｄベクトルｍ、及び符号化されたノイズコンテキストｎとともに、Ｍ個の変調コンフォーマブロックの次の層に渡される。したがって、入力は、ターゲット話者に関連する話者埋め込み２１５と、ノイズコンテキスト符号化２２２との両方によって、Ｍ個のコンフォーマブロックの各々によって変調される。

【0049】

図５は、コンテキスト入力特徴２１３、２１４、２１５のうちの１つ以上が存在しないときに、コンテキストフロントエンド処理モデル２００をトレーニングして、強化入力音声特徴２５０を生成するための例示的なトレーニングプロセス５００を示す。トレーニングプロセス５００は、図１のリモートシステム１３０上で実行され得る。示されるように、トレーニングプロセスは、データストア５１０に格納された１つ以上のトレーニングデータセット５２０を取得し、トレーニングデータセット５２０上でコンテキストフロントエンド処理モデル２００をトレーニングする。データストア５１０は、リモートシステム１３０のメモリハードウェア１３６上に常駐し得る。各トレーニングデータセット５２０は、複数のトレーニング例５３０、５３０ａ～ｎを含み、各トレーニング例５３０は、対応するトレーニングコンテキスト信号５３４、５３４ａ～ｃと対にされたトレーニング発話５３２を含み得る。具体的には、トレーニングコンテキスト信号５３４は、対応するトレーニング発話５３２の前のノイズを含むトレーニングコンテキストノイズ信号５３４ａと、トレーニング参照オーディオ信号５３４ｂと、対応するトレーニング発話５３２を話したターゲット話者の声特性を含むトレーニング話者ベクトル５３４ｃとを含む。

【0050】

図１に関して前述したように、推測中に、コンテキストフロントエンド処理モデル２００は、コンテキスト入力特徴２１３、２１４、２１５のすべてを同時に受信しない場合がある。コンテキストフロントエンド処理モデル２００を１つ以上の欠落しているトレーニングコンテキスト信号５３４でトレーニングすることにより、コンテキストフロントエンド処理モデル２００は、最も関連のあるコンテキスト入力特徴２１３、２１４、２１５に過剰に依存するのではなく、コンテキスト入力特徴２１３、２１４、２１５の代替を利用しやすくなる。その結果、コンテキストフロントエンド処理モデル２００は、コンテキスト入力特徴２１３、２１４、２１５のうちの１つ以上が存在しないときに、強化入力音声特徴２５０を正確に予測することができる。コンテキストフロントエンド処理モデル２００を静的に保つために、任意の欠落しているトレーニングコンテキスト信号５３４が、何らかの方法でコンテキストフロントエンド処理モデル２００に入力される必要がある。

【0051】

トレーニングプロセス５００はまた、信号ドロップアウトモデル５５０を利用し得る。信号ドロップアウトモデル５５０は、データストア５１０からの入力としてトレーニングコンテキスト信号５３４を受信し、コンテキスト信号ドロップアウトストラテジーを使用して、コンテキストフロントエンド処理モデル２００をトレーニングする前に、トレーニングコンテキスト信号５３４のうちの１つ以上をドロップアウトする。信号ドロップアウトモデル５５０のコンテキスト信号ドロップアウトストラテジーは、トレーニングコンテキスト信号５３４の各々をドロップアウトする所定の確率（例えば、５０％、２０％など）を含み得、同じ所定の確率がトレーニングコンテキスト信号５３４の各々に対して使用される。換言すれば、所与のトレーニング例５３０では、信号ドロップアウトモデル５５０は、コンテキスト信号ドロップアウトストラテジーを使用して、５０％の所定の確率でトレーニングコンテキストノイズ信号５３４ａをドロップアウトし、５０％の所定の確率でトレーニング参照オーディオ信号５３４ｂを、及び５０％の所定の確率でトレーニング話者ベクトル５３４ｃをドロップアウトしてよい。同様に、所与のトレーニング例では、信号ドロップアウトモデル５５０は、コンテキスト信号ドロップアウトストラテジーを使用して、２０％の所定の確率でトレーニングコンテキストノイズ信号５３４ａをドロップアウトし、２０％の所定の確率でトレーニング参照オーディオ信号５３４ｂを、及び２０％の所定の確率でトレーニング話者ベクトル５３４ｃをドロップアウトしてよい。

【0052】

信号ドロップアウトストラテジーに加えて、信号ドロップアウトモデル５５０は、零から六（０～６）秒の均一な分布の長さで、対応するトレーニング発話５３２の前のノイズを含むように、トレーニングコンテキストノイズ信号５３４ａの長さをトリミングし得る。換言すれば、信号ドロップアウトモデル５５０は、信号ドロップアウトストラテジーを実装すると同時に、トレーニングコンテキストノイズ信号５３４ａをトリミングする。例えば、所与のトレーニング例５３０では、信号ドロップアウトモデル５５０がトレーニングコンテキストノイズ信号５３４ａをドロップアウトしない場合でも、信号ドロップアウトモデル５５０は、依然としてトレーニングコンテキストノイズ信号５３４ａの長さをトリミングし得る。

【0053】

いくつかの実施態様では、信号ドロップアウトモデル５５０は、信号ドロップアウトストラテジーを使用して、所定の確率に基づき、対応するトレーニングコンテキスト信号５３４をオールゼロに置き換えることによって、各トレーニングコンテキスト信号５３４をドロップアウトする。これらの実施態様では、信号ドロップアウトモデル５５０は、トレーニングコンテキストノイズ信号５３４ａを所定の長さと対応するトレーニング発話５３２と同じ特徴次元を有するオールゼロ特徴に置き換え得る。例えば、信号ドロップアウトストラテジーは、長さが六（６）秒で、ＬＦＢＥ特徴と同じ次元であるオールゼロ特徴を作成することを含む。同様に、信号ドロップアウトモデル５５０は、信号ドロップアウトストラテジーを使用して、トレーニング参照オーディオ信号５３４ｂを対応するトレーニング発話５３２と同じ長さ及び特徴次元を有するオールゼロ特徴に置き換え得る。ここで、オールゼロのトレーニング参照オーディオ信号５３４ｂの特徴次元は、信号ドロップアウトストラテジーがトレーニング参照オーディオ信号５３４ｂをドロップアウトしなかった場合、トレーニング参照オーディオ信号５３４ｂのＬＦＢＥ特徴に対応する。同様に、信号ドロップアウトモデル５５０は、信号ドロップアウトストラテジーを使用して、トレーニング話者ベクトル５３４ｃを、オールゼロベクトルを有するオールゼロ特徴に置き換え得る。ここで、トレーニング話者ベクトル５３４ｃは、２５６次元のオールゼロベクトルに置き換えられる。その他の実施態様では、信号ドロップアウトモデル５５０は、信号ドロップアウトストラテジーを使用して、所定の確率に基づき、対応するトレーニングコンテキスト信号５３４をフレームレベルの学習済み表現に置き換えることによって、各トレーニングコンテキスト信号５３４をドロップアウトする。

【0054】

図５に示す例では、信号ドロップアウトモデル５５０は、トレーニングコンテキスト信号５３４ａ～ｃを入力として受信し、コンテキスト信号ドロップアウトストラテジーの所定の確率を使用して、トレーニング参照オーディオ信号５３４ｂを対応するトレーニング発話５３２と同じ長さ及び特徴次元のオールゼロ特徴に置き換えることによりトレーニング参照オーディオ信号５３４ｂをドロップアウトする。換言すれば、この時間ステップでは、コンテキストフロントエンド処理モデル２００は、トレーニングコンテキスト信号５３４ａ、５３４ｃのみでトレーニングされ、これは、コンテキスト入力特徴２１３、２１４、２１５がコンテキストノイズ信号２１３及び話者埋め込み２１５を含むのみである場合の推測中にモデル２００が遭遇する可能性のある条件に近似する。

【0055】

信号ドロップアウトモデル５５０がトレーニング参照オーディオ信号５３４ｂをドロップアウトした後、トレーニング発話５３２、及びトレーニング参照オーディオ信号５３４ｂを含むトレーニングコンテキスト信号５３４は、オールゼロ特徴及び次元に置き換えられ、コンテキストフロントエンド処理モデル２００をトレーニングするために欠落が提供されるようにトレーニング参照オーディオ信号５３４ｂをシミュレートする。コンテキストフロントエンド処理モデル２００は、入力として、トレーニング発話５３２と、トレーニング参照オーディオ信号５３４ｂを欠落としてシミュレートするトレーニングコンテキスト信号５３４とを受信し、出力予測ｙ_ｒを生成する。出力予測ｙ_ｒは、その精度についてテストされている強化された入力音声特徴２５０を含む。トレーニングプロセス５００中の各時間ステップにおいて、コンテキストフロントエンド処理モデル２００は、前の時間ステップｙ_ｒ－１の出力予測を使用して追加でトレーニングされる。

【0056】

図６は、コンテキストフロントエンド処理モデル２００がＡＳＲモデル１９２と統合してトレーニングされるときのＡＳＲ損失６４０を計算するための例示的なトレーニングプロセス６００を示す。ここで、ＡＳＲモデル１９２のエンコーダ６２０のみが、損失を計算するために使用される。ＡＳＲ損失６４０は、トレーニング発話５３２のターゲット特徴５４０についてのＡＳＲエンコーダ６２０の出力と強化入力音声特徴２５０との間のｌ２距離として計算される。ＡＳＲエンコーダ６２０は、トレーニングプロセス６００中は更新されない。詳細には、トレーニングプロセス６００は、入力として、トレーニング発話５３２のコンテキストフロントエンド処理モデル２００によって予測される強化入力音声特徴２５０を受信するように構成されたＡＳＲモデル１９２のＡＳＲエンコーダ６２０を使用して、強化入力音声特徴２５０のＡＳＲエンコーダ６２０の予測出力６２２を生成することと、入力としてトレーニング発話５３２のターゲット音声特徴５４０を受信するように構成されたＡＳＲエンコーダ６２０を使用して、ターゲット音声特徴５４０のＡＳＲエンコーダ６２０のターゲット出力６２４を生成することと、によりＡＳＲ損失６４０を計算する。強化入力音声特徴２５０の予測出力６２２、及びターゲット音声特徴５４０のターゲット出力６２４は、それぞれ、ＬＦＢＥ特徴のそれぞれのシーケンスを含み得る。その後、トレーニングプロセス６００は、損失モジュール６３０を介して、強化入力音声特徴２５０についてのＡＳＲエンコーダ６２０の予測出力６２２と、ターゲット音声特徴５４０のためのＡＳＲエンコーダ６２０のターゲット出力６２４とに基づいて、ＡＳＲ損失６４０を計算する。ＡＳＲ損失６４０を使用する目標は、コンテキストフロントエンド処理モデル２００をＡＳＲモデル１９２にさらに適合するように強化することであり、これは、コンテキストフロントエンド処理モデル２００から最良の性能を引き出すために重要である。ＡＳＲモデル１９２のパラメータを固定したままにすることによって、ＡＳＲモデル１９２は、コンテキストフロントエンド処理モデル２００からデカップリングされ、それにより、それぞれを互いに独立してトレーニング及びデプロイすることを可能にする。

【0057】

いくつかの実施態様では、コンテキストフロントエンド処理モデル２００は、スペクトル損失及びＡＳＲ損失６４０を使用して、バックエンド自動音声認識システム１８０のＡＳＲモデル１９２と統合してトレーニングされる。コンテキストフロントエンド処理モデル２００をトレーニングするためのトレーニングターゲット５４０は、理想的比率マスク（ＩＲＭ）を使用する。ＩＲＭは、以下のように、音声及びノイズがＭｅｌスペクトル空間において相関しないという仮定に基づいて、残響音声及び残響ノイズを使用して計算される。

【数3】

ここで、Ｘ及びＮは、それぞれ残響発話及び残居ノイズＭｅｌスペクトログラムである。ｔ及びｃは、時間及びＭｅｌの頻度結合指数を表す。ＩＲＭを推定するための選択は、［０，１］の間に制限されるターゲットに基づいており、推定プロセスを簡素化する。さらに、評価に使用されるＡＳＲモデルは、実際の及びシミュレートされた残響データでトレーニングすることができ、その結果、残響音声に対して比較的ロバストであるトレーニングされたＡＳＲモデルが得られる。したがって、残響音声をターゲットとして使用して導出されたＩＲＭは、依然として、性能において大幅な向上をもたらす。トレーニング中のスペクトル損失は、ＩＲＭと、推定されたＩＲＭ

【数4】

との間のＬ１及びＬ２損失に基づいて、次のように計算される。

【数5】

ここで、

【数6】

および

【数7】

である。

【0058】

予測中に、推定されたＩＲＭは、ノイズ抑制の低減を犠牲にして音声歪みを低減するためにスケーリング及びフロア化される。ＡＳＲモデル１９２は、強化フロントエンドを使用してロバストなＡＳＲモデルの性能を改善する際の主な課題の１つである音声歪み及び非線形フロントエンド処理の影響を受けやすいので、これは特に重要である。強化特徴は、次のように導出される。

【数8】

ここで、Ｙはノイズの多いＭｅｌスペクトログラム、

【数9】

はクリーンなＭｅｌスペクトログラムの推定値、α及びβは指数マスクスカラ、及びマスクフロアである。いくつかの例では、αは０．５に設定され、βは０．０１に設定される。強化特徴は、ログ圧縮され（すなわち

【数10】

）、評価のためにＡＳＲモデル１９２に渡され得る。

【0059】

図７は、コンテキストフロントエンド処理モデル２００を使用して、一般化した自動音声認識モデルをトレーニングする方法７００のための動作の例示的な配置の例示的なフローチャートを含む。動作７０２では、方法７００は、対応するトレーニングコンテキスト信号５３４、５３４ａ～ｃと対にされた複数のトレーニング発話５３２を受信することを含む。トレーニングコンテキスト信号５３４は、対応するトレーニング発話５３２の前のノイズを含むトレーニングコンテキストノイズ信号５３４ａと、トレーニング参照オーディオ信号５３４ｂと、対応するトレーニング発話５３２を話したターゲット話者の声特性を含むトレーニング話者ベクトル５３４ｃとを含む。方法７００はまた、動作７０４で、コンテキスト信号ドロップアウトストラテジーを使用して、強化音声特徴２５０を予測する方法を学習するためにトレーニング発話５３２でコンテキストフロントエンド処理モデル２００をトレーニングすることを含む。ここで、コンテキスト信号ドロップアウトストラテジーは、コンテキストフロントエンド処理モデル２００のトレーニング中に、トレーニングコンテキスト信号５３４の各々をドロップアウトする所定の確率を使用して、トレーニングコンテキスト信号５３４のうちの１つ以上を、モデル２００を教育するために欠落しているものとしてシミュレートし、対応するコンテキスト入力特徴のいずれかが予測中に欠落しているときに、強化音声特徴２５０をロバストに生成する方法を学習する。

【0060】

図８は、本文書に記載のシステム及び方法を実装するために使用できる例示的なコンピューティングデバイス８００の概略図である。コンピューティングデバイス８００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。ここで示されている構成要素、それらの接続と関係、及びそれらの機能は、例示のみを目的としており、この文書で説明及び／または特許請求される本開示の実施態様を制限することを意図してはいない。

【0061】

コンピューティングデバイス８００には、プロセッサ８１０、メモリ８２０、ストレージデバイス８３０、メモリ８２０及び高速拡張ポート８５０に接続する高速インタフェース／コントローラ８４０、ならびに低速バス８７０及びストレージデバイス８３０に接続する低速インタフェース／コントローラ８６０が含まれる。コンポーネント８１０、８２０、８３０、８４０、８５０、及び８６０の各々は、様々なバスを使用して相互接続されており、共通のマザーボードに据え付けられるか、または必要に応じて他の方法で存在してもよい。プロセッサ８１０（例えば、図１のデータ処理ハードウェア１１２，１３４）は、メモリ８２０またはストレージデバイス８３０に記憶された命令を含む、コンピューティングデバイス８００内で実行するための命令を処理して、高速インタフェース８４０に接続されたディスプレイ８８０などの外部入出力デバイスにグラフィカルユーザインタフェース（ＧＵＩ）のグラフィカル情報を表示することができる。他の実施態様では、複数のメモリ及び複数の種類のメモリと共に、必要に応じて複数のプロセッサ及び／または複数のバスが使用されてもよい。また、複数のコンピューティングデバイス８００を接続して、（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）各デバイスが必要な複数の動作の複数の部分を提供してもよい。

【0062】

メモリ８２０（例えば、図１のメモリハードウェア１１４、１３６）は、コンピューティングデバイス８００内に非一時的に情報を記憶する。メモリ８２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってもよい。非一時的なメモリ８２０は、コンピューティングデバイス８００による使用のために一時的または永続的にプログラム（例えば、命令シーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリ及び読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常はブートプログラムなどのファームウェアに使用される）を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、及びディスクまたはテープを含むが、これらに限定されない。

【0063】

ストレージデバイス８３０は、コンピューティングデバイス８００に大容量ストレージを設けることができる。いくつかの実施態様において、ストレージデバイス８３０はコンピュータ読み取り可能な媒体である。様々な異なる実施態様では、ストレージデバイス８３０は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくはその他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくはその他のコンフィグレーションのデバイスを含む、デバイスアレイであってもよい。追加の実施態様では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行時に上述したような１つ以上の方法を実行する命令を含む。情報キャリアは、メモリ８２０、ストレージデバイス８３０、またはプロセッサ８１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

【0064】

高速コントローラ８４０は、コンピューティングデバイス８００の帯域幅集約動作を管理し、低速コントローラ８６０は、より低い帯域幅集約動作を管理する。このような役割の割り振りは単なる例である。いくつかの実施態様では、高速コントローラ８４０は、メモリ８２０、ディスプレイ８８０（例えば、グラフィックプロセッサまたはアクセラレータを介して）、及び様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート８５０に結合される。いくつかの実施態様では、低速コントローラ８６０は、ストレージデバイス８３０及び低速拡張ポート８９０に結合される。低速拡張ポート８９０には、様々な通信ポート（ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット、ワイヤレスイーサネットなど）が含まれる場合があり、ネットワークアダプタなどを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチやルータなどのネットワークデバイスなどの１つ以上の入力／出力デバイスに接続できる。

【0065】

コンピューティングデバイス８００は、図に示すように、多くの様々な形式で実装し得る。例えば、それは、標準サーバ８００ａとして、またはそれらのようなサーバ８００ａのグループ内の複数回、ラップトップコンピュータ８００ｂとして、またはラックサーバシステム８００ｃの一部として実装されてよい。

【0066】

本明細書で説明するシステム及び技術の様々な実施態様は、デジタル電子及び／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはそれらの組み合わせで実現できる。これらの様々な実施態様は、特殊または汎用であり得、ストレージシステムからデータ及び命令を受信し、ストレージシステムにデータ及び命令を送信するように結合された、少なくとも１つのプログラマブルプロセッサ、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスを含むプログラム可能なシステムで実行可能及び／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施態様を含むことができる。

【0067】

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指してもよい。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、及びゲームアプリケーションを含むが、これらに限定されない。

【0068】

非一時的なメモリは、コンピューティングデバイスによる使用のために一時的または永続的にプログラム（例えば、命令シーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理デバイスであってよい。非一時的なメモリは、揮発性及び／または不揮発性のアドレス指定可能な半導体メモリであり得る。不揮発性メモリの例は、フラッシュメモリ及び読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常はブートプログラムなどのファームウェアに使用される）を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、及びディスクまたはテープを含むが、これらに限定されない。

【0069】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を含み、かつ高水準手続型及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械言語で実装されることができる。本明細書で使用する場合、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／またはデータを提供するために用いられる、あらゆるコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置及び／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令及び／またはデータをプログラマブルプロセッサに提供するために用いられるあらゆる信号を指す。

【0070】

本明細書に説明するプロセス及び論理フローは、データ処理ハードウェアとも呼ばれる、１つ以上のプログラマブルプロセッサが１つ以上のコンピュータプログラムを実行して、入力データに作用し、出力を生成することにより機能を実行することによって実行できる。プロセス及び論理フローはまた、特殊用途論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）により実行され得る。コンピュータプログラムの実行に適切なプロセッサは、例として、汎用及び特殊目的のプロセッサの両方、並びにいずれかの種類のデジタルコンピュータのいずれか１つまたは複数のプロセッサを含む。概して、プロセッサは、読み出し専用メモリ、ランダムアクセスメモリ、またはその両方から命令及びデータを受信する。コンピュータの基本的な要素は、命令を実行するためのプロセッサ、ならびに命令及びデータを格納するための１つ以上のメモリデバイスである。概して、コンピュータはまた、データを格納するための１つまたは複数の大容量記憶デバイス、例えば磁気ディスク、光磁気ディスク、または光ディスクを含む、またはそれらからデータを受信するもしくはそれらにデータを送信する、あるいはその両方を行うよう動作可能に接続される。しかし、コンピュータがそのようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ読み取り可能なメディアには、あらゆる形式の不揮発性メモリ、メディア、およびメモリデバイスが含まれ、例として、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス、例えば、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、及びＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクが含まれる。プロセッサ及びメモリは、専用論理回路によって補完されるか、または専用論理回路に組み込まれ得る。

【0071】

ユーザとのインタラクションを行うために、本開示の１つ以上の態様は、ユーザに情報を表示するためのディスプレイ装置（例えばＣＲＴ（ブラウン管）、ＬＣＤ（液晶画面）モニタ）またはタッチスクリーン、及び任意選択でユーザがそれによってコンピュータへの入力を行うことができるキーボード及びポインティングデバイス（例えばマウスまたはトラックボール）を有するコンピュータに実装することができる。他の種類のデバイスもまた、ユーザとのインタラクションを提供するために用いられ得る。例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声言語、または触覚入力を含む、任意の形式で受け取られ得る。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送受信することで、例えば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することで、ユーザとインタラクトできる。

【0072】

いくつかの実施態様が説明されてきた。それにも関わらず、本開示の趣旨及び範囲から逸脱することなく、様々な修正を行い得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。

【図1】