(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-05-30
(45)【発行日】2025-06-09
(54)【発明の名称】自動音声認識のためのマイクロフォンアレイ構成でインバリアントな、ストリーミングな、マルチチャネルな、ニューラル強調フロントエンド
(51)【国際特許分類】
G10L 15/20 20060101AFI20250602BHJP
G10L 15/16 20060101ALI20250602BHJP
【FI】
G10L15/20 380
G10L15/16
(21)【出願番号】P 2024555936
(86)(22)【出願日】2023-02-20
(86)【国際出願番号】 US2023062887
(87)【国際公開番号】W WO2023183684
(87)【国際公開日】2023-09-28
【審査請求日】2024-10-07
(32)【優先日】2022-03-20
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100142907
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】カロゼッリ、ジョセフ
(72)【発明者】
【氏名】ナラヤナン、アルン
(72)【発明者】
【氏名】オマリー、トム
【審査官】山下 剛史
(56)【参考文献】
【文献】国際公開第2021/013345(WO,A1)
【文献】米国特許出願公開第2021/0005182(US,A1)
【文献】米国特許出願公開第2021/0375289(US,A1)
【文献】米国特許出願公開第2020/0312346(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34,21/00-25/93
(57)【特許請求の範囲】
【請求項1】
音声認識のためのマルチチャネルニューラルフロントエンド音声強調モデル(200)としての音声強調モデル(200)であって、前記音声強調モデル(200)は
コンピュータを、
音声クリーナ(300)であって、
入力として、マルチチャネルノイジー入力信号(202)およびマルチチャネルコンテキストノイズ信号(204)を受信しており、かつ、
出力として、単一チャネルのクリーニング済入力信号(340)を生成するように構成されている、前記音声クリーナ(300)と、
各々がマルチヘッド自己注意機構を有している自己注意ブロック(400)のスタックであって、前記自己注意ブロック(400)のスタックは、
入力として、前記自己注意ブロック(400)のスタックの最初のブロック(400)で、前記音声クリーナ(300)から出力済の単一チャネルのクリーニング済入力信号(340)と、単一チャネルノイジー入力信号(206)と、を備えているスタック入力(232)を受信する一方で、
前記自己注意ブロック(400)のスタックの最終的なブロック(400)からの出力として、アンマスクド出力(480)を生成するように構成されている、前記自己注意ブロック(400)のスタックと、および
マスキング層(240)であって、
入力として、前記単一チャネルノイジー入力信号(206)と、前記自己注意ブロック(400)のスタックの前記最終的なブロック(400)からの出力として生成済の前記アンマスクド出力(480)と、を受信する一方で、
出力として、ターゲット発話(12)に対応する強調済入力音声特徴(250)を生成するように構成されている、前記マスキング層(240)と、
して機能させるための、
音声強調モデル(200)。
【請求項2】
前記自己注意ブロック(400)のスタックは、コンフォーマブロック(400)のスタックを備えている、
請求項1に記載の音声強調モデル(200)。
【請求項3】
前記コンフォーマブロック(400)のスタックは、4つの前記コンフォーマブロック(400)を備えている、
請求項2に記載の音声強調モデル(200)。
【請求項4】
前記音声強調モデル(200)は、ユーザデバイス(110)に存在する
前記コンピュータとしてのデータ処理ハードウェア(112)で実行されており、
前記ユーザデバイス(110)は、前記ターゲット発話(12)と、前記ユーザデバイス(110)のマイクロフォン(116)のアレイを介して前記マルチチャネルコンテキストノイズ信号(204)と、をキャプチャするように構成されている、
請求項1~3のいずれか1項に記載の音声強調モデル(200)。
【請求項5】
前記音声強調モデル(200)は、前記マイクロフォン(116)のアレイの前記マイクロフォン(116)の数に関して不可知である、
請求項4に記載の音声強調モデル(200)。
【請求項6】
前記音声クリーナ(300)は、
前記マルチチャネルノイジー入力信号(202)の第1チャネル(206)を除く前記マルチチャネルノイジー入力信号(202)のすべてのチャネル(206)に、有限インパルス応答(FIR)フィルタを適用することで、合計出力(312)を生成する工程と、
前記マルチチャネルノイジー入力信号(202)の前記第1チャネル(206)から前記合計出力(312)を減算する工程と、
によって、単一チャネルのクリーニング済入力信号(340)を生成するべく、アダプティブノイズキャンセレーションアルゴリズムを実行する、
請求項1~3のいずれか1項に記載の音声強調モデル(200)。
【請求項7】
バックエンド音声システム(180)は、前記ターゲット発話(12)に対応する前記強調済入力音声特徴(250)を処理するように構成されている、
請求項1~3のいずれか1項に記載の音声強調モデル(200)。
【請求項8】
前記バックエンド音声システム(180)は、自動音声認識(ASR)モデル(192)、オーディオ呼出アプリケーション、もしくはオーディオ-ビデオ呼出アプリケーション、のうちの少なくとも1つを備えている、
請求項7に記載の音声強調モデル(200)。
【請求項9】
前記音声強調モデル(200)は、スペクトル損失および自動音声認識ASR損失(560)を使用することで、
前記コンピュータにバックエンド自動音声認識(ASR)を実行させるためのバックエンド自動音声認
識AS
Rモデル(192)としての自動音声認識ASRモデル(192)とで共同でトレーニングされる、
請求項1~3のいずれか1項に記載の音声強調モデル(200)。
【請求項10】
前記スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数の距離に基づいており、
前記理想的比率マスクは、残響音声および残響ノイズを使用することで計算される、
請求項9に記載の音声強調モデル(200)。
【請求項11】
前記自動音声認識ASR損失(560)は
前記コンピュータに、
トレーニング発話(532)に対して前記音声強調モデル(200)によって予測された強調済音声特徴(250)を入力として受信するように構成された前記自動音声認識ASRモデル(192)の自動音声認識ASRエンコーダ(540)を使用することで、前記強調済音声特徴(250)の前記自動音声認識ASRエンコーダ(540)の予測出力(522)を生成する工程と、
入力として前記トレーニング発話(532)のターゲット音声特徴(536)を受信するように構成された前記自動音声認識ASRエンコーダ(540)を使用することで、前記ターゲット音声特徴(536)の前記自動音声認識ASRエンコーダ(540)のターゲット出力(524)を生成する工程と、および
前記強調済音声特徴(250)の前記自動音声認識ASRエンコーダ(540)の前記予測出力(522)と、前記ターゲット音声特徴(526)の前記自動音声認識ASRエンコーダ(540)の前記ターゲット出力(524)と、に基づき前記自動音声認識ASR損失(560)を計算する工程と、
を実行させることによって計算される、
請求項9に記載の音声強調モデル(200)。
【請求項12】
データ処理ハードウェア(112、134)で実行されたとき、前記データ処理ハードウェア(112、134)に動作を実行させるコンピュータ実装方法(600)であって、前記動作は、
マルチチャネルノイジー入力信号(202)とマルチチャネルコンテキストノイズ信号(204)と、を受信する工程と、
音声強調モデル(200)の音声クリーナ(300)を使用することで、単一チャネルのクリーニング済入力信号(340)を生成する工程と、
スタック入力(232)を受信するように構成された前記音声強調モデル(200)の自己注意ブロック(400)のスタックからの出力として、アンマスクド出力(480)を生成する工程であって、前記スタック入力(232)は、前記音声クリーナ(300)から出力済の単一チャネルのクリーニング済入力信号(340)と、単一チャネルノイジー入力信号(206)と、を備えており、前記自己注意ブロック(400)のスタックの前記各自己注意ブロック(400)は、マルチヘッド自己注意機構を備えている、前記アンマスクド出力(480)を生成する工程と、および、
前記単一チャネルノイジー入力信号(206)と、前記自己注意ブロック(400)のスタックからの出力として生成済の前記アンマスクド出力(480)と、を受信するように構成された前記音声強調モデル(200)のマスキング層(240)を使用することで、ターゲット発話(12)に対応する強調済入力音声特徴(250)を生成する工程と、
を備えている、コンピュータ実装方法(600)。
【請求項13】
前記自己注意ブロック(400)のスタックは、コンフォーマブロック(400)のスタックを備えている、
請求項12に記載のコンピュータ実装方法(600)。
【請求項14】
前記コンフォーマブロック(400)のスタックは、4つの前記コンフォーマブロック(400)を備えている、
請求項13に記載のコンピュータ実装方法(600)。
【請求項15】
前記音声クリーナ(300)、前記自己注意ブロック(400)のスタック、および前記マスキング層(240)、は前記データ処理ハードウェア(112)で実行されており、
前記データ処理ハードウェア(112)はユーザデバイス(110)に存在しており、
前記ユーザデバイス(110)は、前記ターゲット発話(12)および前記マルチチャネルコンテキストノイズ信号(204)を、前記ユーザデバイス(110)のマイクロフォン(116)のアレイを介してキャプチャするよう構成されている、
請求項12~14のいずれか1項に記載のコンピュータ実装方法(600)。
【請求項16】
前記音声強調モデル(200)は、前記マイクロフォン(116)のアレイの前記マイクロフォン(116)の数に関して不可知である、
請求項15に記載のコンピュータ実装方法(600)。
【請求項17】
前記動作はさらに、前記音声クリーナ(300)を使用することで、
前記マルチチャネルノイジー入力信号(202)の第1チャネル(206)を除く前記マルチチャネルノイジー入力信号(202)のすべてのチャネル(206)に有限インパルス応答(FIR)フィルタを適用することで、合計出力(312)を生成する工程と、および
前記マルチチャネルノイジー入力信号(202)の前記第1チャネル(206)から前記合計出力(312)を減算することによって、単一チャネルのクリーニング済入力信号(340)を生成するべくアダプティブノイズキャンセレーションアルゴリズムを実行する工程と、
を備えている、
請求項12~14のいずれか1項に記載のコンピュータ実装方法(600)。
【請求項18】
バックエンド音声システム(180)は、前記ターゲット発話(12)に対応する前記強調済入力音声特徴(250)を処理するように構成されている、
請求項12~14のいずれか1項に記載のコンピュータ実装方法(600)。
【請求項19】
前記バックエンド音声システム(180)は、自動音声認識(ASR)モデル(192)、オーディオ呼出アプリケーション、もしくはオーディオ-ビデオ呼出アプリケーション、のうちの少なくとも1つを備えている、
請求項18に記載のコンピュータ実装方法(600)。
【請求項20】
前記音声強調モデル(200)は、スペクトル損失および自動音声認識ASR損失(560)を使用することで、バックエンド自動音声認識(ASR)モデル(192)としての自動音声認識ASRモデル(192)とで共同でトレーニングされる、
請求項12~14のいずれか1項に記載のコンピュータ実装方法(600)。
【請求項21】
前記スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数の距離に基づいており、
前記理想的比率マスクは、残響音声および残響ノイズを使用することで計算される、
請求項20に記載のコンピュータ実装方法(600)。
【請求項22】
前記自動音声認識ASR損失(560)は、
トレーニング発話(532)に対して前記音声強調モデル(200)によって予測された強調済音声特徴(250)を入力として受信するように構成された前記自動音声認識ASRモデル(192)の自動音声認識ASRエンコーダ(540)を使用することで、前記強調済音声特徴(250)の前記自動音声認識ASRエンコーダ(540)の予測出力(522)を生成する工程と、
入力として前記トレーニング発話(532)のターゲット音声特徴(536)を受信するように構成された前記自動音声認識ASRエンコーダ(540)を使用することで、前記ターゲット音声特徴(536)の前記自動音声認識ASRエンコーダ(540)のターゲット出力(524)を生成する工程と、および
前記強調済音声特徴(250)の前記自動音声認識ASRエンコーダ(540)の前記予測出力(522)と、前記ターゲット音声特徴(536)の前記自動音声認識ASRエンコーダ(540)の前記ターゲット出力(524)と、に基づき前記自動音声認識ASR損失(560)を計算する工程と、
によって計算される、
請求項20に記載のコンピュータ実装方法(600)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、自動音声認識のためのマイクロフォンアレイ構成でインバリアントな、ストリーミングな、マルチチャネルな、ニューラル強調フロントエンドに関する。
【背景技術】
【0002】
自動音声認識(ASR)システムのロバスト性は、ニューラルネットワークベースのエンドツーエンドモデルの登場、大規模なトレーニングデータ、およびトレーニングデータを拡張するための戦略の改善、によって長年にわたって大幅に向上している。しかし、残響(リバベレーション)、著しい暗騒音(バックグラウンドノイズ、背景ノイズ)、および競合音声(コンピーティングスピーチ)、などの様々な条件は、自動音声認識ASRシステムのパフォーマンスを大幅に低下させる。共同(ジョイント)の自動音声認識ASRモデルは、これらの条件を処理するようにトレーニングされ得る。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、音声ベースのノイズと、非音声ベースのノイズと、を備えているバックグラウンド条件で音声を分離することは、特に困難である。
【課題を解決するための手段】
【0005】
本開示の一態様は、音声認識のためのマルチチャネルニューラルフロントエンド音声強調(スピーチエンハンスメント)モデルを提供する。マルチチャネルニューラルフロントエンド音声強調モデルは、音声(スピーチ)クリーナと、マルチヘッド自己注意機構(セルフアテンションメカニズム)を各々有している自己注意ブロックのスタックと、およびマスキング層と、を備えている。音声クリーナは、入力として、マルチチャネルノイジー入力信号およびマルチチャネルコンテキストノイズ信号を受信する一方で、出力として、単一チャネルのクリーニング済入力信号を生成する。自己注意ブロックのスタックは、入力として、自己注意ブロックのスタックの最初のブロックで、音声クリーナから出力済の単一チャネルのクリーニング済入力信号と、単一チャネルノイジー入力信号と、を備えているスタック入力を受信する一方で、自己注意ブロックのスタックの最終的なブロックからの出力として、アンマスクド出力(マスクされていない出力)を生成する。マスキング層は、入力として、単一チャネルノイジー入力信号と、自己注意ブロックのスタックの最終的なブロックからの出力として生成済のアンマスクド出力と、を受信する一方で、出力として、ターゲット発話に対応する強調済入力音声特徴(エンハンスドインプットスピーチフィーチャー)を生成する。
【0006】
本開示の実施態様は、以下の任意選択の特徴の1つまたは複数を含み得る。いくつかの実施態様では、自己注意ブロックのスタックは、コンフォーマブロックのスタックを備えている。これらの実施態様では、コンフォーマブロックのスタックは、4つのコンフォーマブロックを含み得る。いくつかの例では、音声強調モデルは、ユーザデバイスに存在するデータ処理ハードウェアで実行される。ここでユーザデバイスは、ユーザデバイスのマイクロフォンのアレイを介して、ターゲット発話とマルチチャネルコンテキストノイズ信号とをキャプチャするように構成されている。これらの例では、音声強調モデルは、マイクロフォンのアレイのマイクロフォンの数に関して不可知(アグノスティック)であり得る。
【0007】
いくつかの実施態様では、音声クリーナは、アダプティブノイズキャンセレーションアルゴリズムを実行することで、単一チャネルのクリーニング済入力信号を生成するべく、マルチチャネルノイジー入力信号の第1チャネルを除くマルチチャネルノイジー入力信号のすべてのチャネルに有限インパルス応答(FIR)フィルタを適用することで合計出力を生成する工程と、マルチチャネルノイジー入力信号の第1チャネルから合計出力を減算する工程と、を実行する。いくつかの例では、バックエンド音声システムは、ターゲット発話に対応する強調済入力音声特徴を処理するように構成されている。これらの例では、バックエンド音声システムは、自動音声認識(ASR)モデル、またはオーディオ呼び出し(コール)アプリケーション、もしくはオーディオ-ビデオ呼出アプリケーション、のうちの少なくとも1つを備えている。
【0008】
いくつかの実施態様では、音声強調モデルは、スペクトル損失および自動音声認識ASR損失を使用することで、バックエンド自動音声認識(ASR)モデルとで共同でトレーニングされる。これらの実施態様では、スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数の距離に基づき得る。ここで理想的比率マスクは、残響音声および残響ノイズを使用することで計算される。追加的または代替的に、自動音声認識ASR損失は、トレーニング発話に対して音声強調モデルによって予測された強調済音声特徴を入力として受信するように構成された自動音声認識ASRモデルの自動音声認識ASRエンコーダを使用することで、強調済音声特徴の自動音声認識ASRエンコーダの予測出力を生成する工程と、入力としてトレーニング発話のターゲット音声特徴を受信するように構成された自動音声認識ASRエンコーダを使用することでターゲット音声特徴の自動音声認識ASRエンコーダのターゲット出力を生成する工程と、によって計算される。ここで自動音声認識ASR損失を計算する工程は、強調済音声特徴の自動音声認識ASRエンコーダの予測出力と、ターゲット音声特徴の自動音声認識ASRエンコーダのターゲット出力と、に基づく。
【0009】
本開示の別の態様は、データ処理ハードウェアで実行されたとき、データ処理ハードウェアに動作を実行させるコンピュータ実装方法を提供する。動作は、マルチチャネルノイジー入力信号およびマルチチャネルコンテキストノイズ信号を受信する工程と、音声強調モデルの音声クリーナを使用することで、単一チャネルのクリーニング済入力信号を生成する工程と、を備えている。動作はまた、音声クリーナから出力済の単一チャネルのクリーニング済入力信号と、単一チャネルノイジー入力信号と、を備えているスタック入力を受信するように構成された音声強調モデルの自己注意ブロックのスタックからの出力として、アンマスクド出力を生成する工程を備えている。ここで自己注意ブロックのスタックの各自己注意ブロックは、マルチヘッド自己注意機構を備えている。動作は、単一チャネルノイジー入力信号と、自己注意ブロックのスタックからの出力として生成済のアンマスクド出力と、を受信するように構成された音声強調モデルのマスキング層を使用することで、ターゲット発話に対応する強調済入力音声特徴を生成する工程をさらに備えている。
【0010】
この態様は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実施態様では、自己注意ブロックのスタックは、コンフォーマブロックのスタックを備えている。これらの実施態様では、コンフォーマブロックのスタックは、4つのコンフォーマブロックを含み得る。いくつかの例では、音声クリーナ、自己注意ブロックのスタック、およびマスキング層、はユーザデバイスに存在するデータ処理ハードウェアで実行される。ここでユーザデバイスは、ユーザデバイスのマイクロフォンのアレイを介して、ターゲット発話とマルチチャネルコンテキストノイズ信号とをキャプチャするように構成されている。これらの例では、音声強調モデルは、マイクロフォンのアレイのマイクロフォンの数に関して不可知(アグノスティック)であり得る。
【0011】
いくつかの実施態様では、動作は、音声クリーナを使用することで、マルチチャネルノイジー入力信号の第1チャネルを除くマルチチャネルノイジー入力信号のすべてのチャネルに有限インパルス応答(FIR)フィルタを適用することで、合計出力を生成する工程と、およびマルチチャネルノイジー入力信号の第1チャネルから合計出力を減算することによって、単一チャネルのクリーニング済入力信号を生成するべくアダプティブノイズキャンセレーションアルゴリズムを実行する工程と、をさらに備えている。いくつかの例では、バックエンド音声システムは、ターゲット発話に対応する強調済入力音声特徴を処理するように構成されている。これらの例では、バックエンド音声システムは、自動音声認識(ASR)モデル、またはオーディオもしくはオーディオ-ビデオ呼出アプリケーションのうちの少なくとも1つを備えている。
【0012】
いくつかの実施態様では、音声強調モデルは、スペクトル損失および自動音声認識ASR損失を使用することで、バックエンド自動音声認識(ASR)モデルとで共同でトレーニングされる。これらの実施態様では、スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数の距離に基づき得る。ここで理想的比率マスクは、残響音声および残響ノイズを使用することで計算される。追加的または代替的に、自動音声認識ASR損失は、トレーニング発話に対して音声強調モデルによって予測された強調済音声特徴を入力として受信するように構成された自動音声認識ASRモデルの自動音声認識ASRエンコーダを使用することで、強調済音声特徴の自動音声認識ASRエンコーダの予測出力を生成する工程と、入力としてトレーニング発話のターゲット音声特徴を受信するように構成された自動音声認識ASRエンコーダを使用することで、ターゲット音声特徴の自動音声認識ASRエンコーダのターゲット出力を生成する工程と、によって計算される。ここで自動音声認識ASR損失を計算する工程は、強調済音声特徴の自動音声認識ASRエンコーダの予測出力と、ターゲット音声特徴の自動音声認識ASRエンコーダのターゲット出力と、に基づく。
【0013】
本開示の1つまたは複数の実施態様の詳細は、添付の図面および以下の説明において述べられる。他の態様、特徴、および利点、は説明および図面ならびに特許請求の範囲から明らかになる。
【図面の簡単な説明】
【0014】
【
図1】話されたターゲット発話を音声対応ユーザデバイスに通信するユーザを備えている、システムの概略図である。
【
図2】
図1のマルチチャネルニューラルフロントエンド音声強調モデルの概略図である。
【
図3】マルチチャネルニューラルフロントエンド音声強調モデルの音声クリーナの概略図である。
【
図4】マルチチャネルニューラルフロントエンド音声強調モデルの自己注意コンフォーマブロックの概略図である。
【
図5】コンテキストフロントエンド処理モデルと自動音声認識モデルとを、共同でトレーニングするための例示的なトレーニング処理の概略図である。
【
図6】マルチチャネルニューラルフロントエンド音声強調モデルを使用した自動音声認識の方法についての動作の例示的な構成の例示的なフローチャートである。
【
図7】本明細書に記載のシステムおよび方法を実装するべく使用できる例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0015】
種々の図面における同様の参照記号は、同様の要素を指す。
自動音声認識(ASR)システムのロバスト性は、ニューラルネットワークベースのエンドツーエンドモデルの登場、大規模トレーニングデータ、およびトレーニングデータを拡張するための戦略の改善、によって数年にわたって大幅に向上している。にもかかわらず、バックグラウンド干渉は、自動音声認識ASRシステムに向けられた音声を正確に認識する自動音声認識ASRシステムの機能を大幅に低下させ得る。バックグラウンド干渉は、3つのグループ、つまりデバイスエコー、暗騒音、および競合音声、に大まかに分類できる。これらのバックグラウンド干渉グループの各々を分離して扱うべく、別々の自動音声認識ASRモデルをトレーニングすることが可能にされている。しかし、複数のタスク/条件に特有の自動音声認識ASRモデルを維持するとともに、使用中にその場でモデルを切り替えることは、困難であるだけでなく、実用的ではない。
【0016】
デバイスエコーは、スマートホームスピーカなどのデバイスからの再生オーディオ出力に対応することができる。よって、再生オーディオは、エコーとして記録されることで、自動音声認識ASRシステムなどのバックエンド音声システムのパフォーマンスに影響を与え得る。特に、バックエンド音声システムのパフォーマンスの低下は、再生オーディオが可聴音声を備えている場合、例えばデジタルアシスタントからのテキスト読み上げ(TTS)応答を備えている場合、特に深刻である。
【0017】
非音声特性を有している暗騒音(バックグラウンドノイズ、背景ノイズ)は、通常、自動音声認識ASRモデルのマルチスタイルトレーニング(MTR)などのデータ拡張戦略を使用することで、適切に処理される。ここでは、室内シミュレータを使用することでトレーニングデータにノイズが加えられる。次いでトレーニング中に、それらがクリーンなデータで慎重に重み付けされることで、クリーン状態とノイジー状態との間におけるパフォーマンスのバランスがとられる。結果、大規模な自動音声認識ASRモデルは、中程度レベルの非音声ノイズに対してロバストである。しかし、低い信号対ノイズ比(SNR)条件の存在下では、暗騒音は、依然として、バックエンド音声システムのパフォーマンスに影響を与え得る。
【0018】
非音声の暗騒音とは異なり、競合音声は、単一の話者を認識するようにトレーニングされる自動音声認識ASRモデルにとっての大きな難題である。自動音声認識ASRモデルを複数の送話者の音声でトレーニングすることは、推論中にどの話者に焦点を当てるべきかの曖昧さをなくすことが難しいので、それ自体が問題になる場合がある。サポートするユーザ数を事前に知ることは困難であるので、複数の話者を認識するモデルを使用することも最適ではない。さらに、そのような複数話者モデルは、通常、単一話者設定ではパフォーマンスが低下しており、望ましくない。
【0019】
前述した3つのバックグラウンド干渉のクラスは、通常、互いに分離して対処されており、各々が別々のモデリング戦略を使用している。最近の文献では、深層クラスタリング、順列不変トレーニングの技術を使用するとともに、話者埋め込みを使用する音声分離が多くの注目を集めている。話者埋め込みを使用する場合、対象のターゲット話者は先験的に既知であると想定される。話者分離のために開発された技術は、トレーニングデータを修正するとともに、非音声ノイズを除去することにも応用される。音響エコーキャンセレーション(AEC)もまた、暗騒音の存在下で、単独でまたは一緒に研究されてきた。非線形処理によってもたらされる歪みは自動音声認識ASRパフォーマンスに悪影響を与え得るので、音声の質を改善しても自動音声認識ASRパフォーマンスが必ずしも向上するわけではないことは周知である。着信オーディオを最初に処理する強調フロントエンドと、得られる自動音声認識ASRパフォーマンスと、の不一致を軽減する1つの方法は、強調フロントエンドを、バックエンド自動音声認識ASRモデルとで一緒に共同でトレーニングすることである。
【0020】
さらに、大規模な多領域および多言語自動音声認識ASRモデルのアプリケーションが関心を集め続けている。これらの自動音声認識ASRモデルのトレーニングデータが通常、様々な音響および言語のユースケース(例えば、音声検索およびビデオキャプション)をカバーしているので、より困難なノイズの条件に同時に対処することが難しくなっている。その結果、バックエンド自動音声認識ASRモデルとで組合せることなく、不利な条件に対処できる別々のフロントエンド特徴処理モデルを、トレーニングおよび維持することが好都合であることが多い。
【0021】
本明細書の実施態様は、自動音声認識ASRのロバスト性を向上させるべくフロントエンド音声強調モデルをトレーニングすることを対象とする。このモデルは、特にストリーミング自動音声認識ASR設定において、事前にどのクラスのバックグラウンド干渉に対処するかを知ることは、不可能ではないにしても困難であるという観点から、実用的である。具体的には、フロントエンド音声強調モデルは、マルチチャネルノイジー入力信号およびマルチチャネルコンテキストノイズ信号を利用することが可能にされているコンテキスト強調ニューラルネットワーク(CENN)を備えている。音声強調および分離の場合、ノイズコンテキスト、すなわち、認識すべきターゲット発話前の数秒のオーディオは、音響コンテキストに関する有用な情報を伝達する。コンテキスト強調(エンハンスド)ニューラルネットワークCENNは、ノイジー入力およびコンテキスト入力を取り込むように構成された各々のニューラルネットワークアーキテクチャを使用することで、強調済入力音声特徴を生成する。強調済入力音声特徴は、ターゲット発話に対する音声認識結果を発生させるように強調済入力音声特徴を処理し得る、自動音声認識ASRモデルなどのバックエンド音声システムに渡され得る。特に、フロントエンド音声強調モデルはマルチチャネルアレイで動作するように設計されているが、フロントエンド音声強調モデル自体は、アレイのチャネル数またはその構成に関して不可知(アグノスティック)である。
【0022】
図1を参照すると、いくつかの実施態様において、システム100は、音声環境において、発声ターゲット発話(スポークン目標アタランス12)を音声対応ユーザデバイス110(デバイス110またはユーザデバイス110とも呼ばれる)に伝えるユーザ10を備えている。ユーザ10(すなわち、発話12の話者)は、デバイス110からの応答を求めるクエリまたはコマンドとして、ターゲット発話12を話し得る。ユーザデバイス110は、音声環境内部の1人以上のユーザ10、11からの音をキャプチャするように構成されている。ここでオーディオ音は、可聴クエリ、デバイス110用のコマンド、またはデバイス110によってキャプチャされる可聴通信、として機能するユーザ10による語られた発話(スポークンアタランス12)を指し得る。デバイス110の音声対応システムは、またはデバイス110に関連付けられている音声対応システムは、クエリに応答したり、および/またはコマンドを実行したり、することによってコマンドのクエリを実行し得る。
【0023】
様々なタイプのバックグラウンド干渉は、デバイス110へのクエリまたはコマンドを指定するターゲット発話12を処理するバックエンド音声システム180の能力に干渉する虞がある。前述のように、バックグラウンド干渉は、ユーザデバイス(例えば、スマートスピーカ)110から出力済の再生オーディオ154に対応するデバイスエコーの1つまたは複数と、ユーザデバイス110に向けられていない1人以上の他のユーザ11によって話されたターゲット発話12以外の発話などの競合音声13と、および別のユーザデバイス111からの着信音15などの非音声特性を有している暗騒音(バックグラウンドノイズ)と、を含み得る。本明細書の実施態様は、デバイス110で実行されているマルチチャネルニューラルフロントエンド音声強調モデル200(モデル200またはフロントエンド音声強調モデル200とも呼ばれる)を使用する。マルチチャネルニューラルフロントエンド音声強調モデル200は、入力として、ターゲット発話12とバックグラウンド干渉とに対応する音声特徴を備えているマルチチャネルノイジー入力信号202と、マルチチャネルコンテキストノイズ信号204と、を受信するとともに、バックグラウンド干渉を除去するべくマルチチャネルノイジー入力信号202およびマルチチャネルコンテキストノイズ信号204を処理することによってターゲット発話12に対応する強調済入力音声特徴250を出力として生成するよう構成されている。マルチチャネルノイジー入力信号202は、オーディオの1つまたは複数のチャネル206、206a~206nを備えている。次に、バックエンド音声システム180は、強調済入力音声特徴250を処理することで、出力182を生成することが可能にされている。とりわけ、マルチチャネルニューラルフロントエンド音声強調モデル200は、バックエンド音声システム180に提供される強調済入力音声特徴250が、デバイス110用に意図された音声(すなわち、ターゲット発話12)を伝達してバックエンド音声システム180によって生成済の出力182がバックグラウンド干渉によって劣化されないように、ユーザ10がターゲット発話12を話したときにデバイス110によって記録されるバックグラウンド干渉の存在を効果的に除去する(すなわち、マスクする)。
【0024】
図示の例では、バックエンド音声システム180は自動音声認識ASRシステム190を備えている。自動音声認識ASRシステム190は、強調済入力音声特徴250を処理することで、ターゲット発話12に対する音声認識結果(例えば、トランスクリプション)を生成する自動音声認識ASRモデル192を使用する。自動音声認識ASRシステム190は、ターゲット発話12のトランスクリプションに対して意味解釈(セマンティックインタープリテ-ション)を実行することで、デバイス110に向けられたクエリ/コマンドを識別する自然言語理解(NLU)モジュール(図示せず)をさらに含み得る。したがって、バックエンド音声システム180からの出力182は、自然言語理解NLUモジュールによって識別されたクエリ/コマンドを達成するためのトランスクリプションおよび/または命令を含み得る。
【0025】
バックエンド音声システム180は、追加的または代替的に、強調済入力音声特徴250が、ホットワード検出モデルが検出するようにトレーニングされた1つまたは複数のホットワード/ウォームワードの存在を備えているか否かを検出するように構成されたホットワード検出モデル(図示せず)を含み得る。例えば、ホットワード検出モデルは、ターゲット発話12に対応する強調済入力音声特徴250が特定のホットワード/ウォームワードを備えている尤度を示すホットワード検出スコアを出力し得る。ホットワードの検出は、ウェイクアップ処理をトリガすることができ、この処理は、デバイス110をスリープ状態からウェイクアップする。例えば、デバイス110は、ホットワード、および/またはホットワードに先行/後続の1つまたは複数の用語をウェイクアップして処理することが可能にされている。
【0026】
追加の例では、バックグラウンド音声システム180は、オーディオまたはオーディオ-ビデオ呼出アプリケーション(例えば、ビデオ会議アプリケーション)を備えている。ここでターゲット発話12に対応する強調済入力音声特徴250は、オーディオまたはオーディオ-ビデオ通信セッション中に、受信者への通信のためにターゲット話者(10)の声をフィルタリングするべく、オーディオまたはオーディオ-ビデオ呼出アプリケーションによって使用される。バックグラウンド音声システム180は、追加的または代替的に、強調済入力音声特徴250を使用することで話者識別を実行することで、ターゲット発話12を話したユーザ10を識別するように構成された話者識別モデルを含み得る。
【0027】
図示の例では、デバイス110は、ユーザ10以外の1つまたは複数のソースから発するバックグラウンド干渉の存在下で、ユーザ10によって話されたターゲット発話12のマルチチャネルノイジー入力信号202(オーディオデータとも呼ばれる)をキャプチャする。マルチチャネルノイジー入力信号202は、オーディオの1つまたは複数の単一チャネルノイジー入力信号206、206a~206nを備えている。デバイス110は、ユーザ10に関連付けられており、マルチチャネルノイジー入力信号202を受信することが可能にされている任意のコンピューティングデバイスに対応し得る。ユーザデバイス110のいくつかの例は、モバイルデバイス(例えば、携帯電話、タブレット、ラップトップなど)、コンピュータ、ウェアラブルデバイス(例えば、スマートウォッチ、スマートヘッドホンなど)、スマートアプライアンス、モノのインターネット(IoT)デバイス、スマートスピーカなどを備えているが、これらに限定されない。デバイス110は、データ処理ハードウェア112と、データ処理ハードウェア112に通信するメモリハードウェア114と、を備えている。メモリハードウェア114は、データ処理ハードウェア112によって実行されたときデータ処理ハードウェア112に1つまたは複数の動作を実行させる命令を格納する。マルチチャネルニューラルフロントエンド音声強調モデル200は、データ処理ハードウェア112で実行され得る。いくつかの例では、バックエンド音声システム180が、データ処理ハードウェア112で実行される。
【0028】
いくつかの例では、デバイス110は、1つまたは複数のアプリケーション(すなわち、ソフトウェアアプリケーション)を備えており、各アプリケーションは、アプリケーション内の様々な機能を実行するべく、マルチチャネルニューラルフロントエンド音声強調モデル200によって生成済の強調済入力音声特徴250を利用し得る。例えば、デバイス110は、合成再生オーディオ154をユーザ10に通信することで、ユーザ10の様々なタスクを支援するように構成されるアシスタントアプリケーションを備えている。
【0029】
ユーザデバイス110はさらに、音声環境の内部で、語られた発話(12)をキャプチャし電気信号に変換するためのオーディオキャプチャデバイス(例えば、マイクロフォン)116、116a~116nのアレイと、可聴オーディオ信号(例えば、デバイス110からの合成再生オーディオ154)を通信するための音声出力デバイス(例えば、スピーカ118)と、を備えたオーディオサブシステムを備えている(または通信する)。ユーザデバイス110のマイクロフォン116のアレイの各マイクロフォン116は、マルチチャネルノイジー入力信号202の別個の専用チャネル206に発話(12)を別々に記録することが可能にされている。例えば、ユーザデバイス110は、各々発話(12)を記録する2つのマイクロフォン116を含み得、2つのマイクロフォン116からの記録は、結合されて2チャネルのノイジー入力信号202(すなわち、立体音響オーディオまたはステレオ)になり得る。すなわち、2つのマイクロフォンは、ユーザデバイス110に存在する。いくつかの例では、ユーザデバイス110は、3つ以上のマイクロフォン116を備えている。追加的または代替的に、ユーザデバイス102は、ユーザデバイス110とは別個の/リモートな2つ以上のマイクロフォン116に通信し得る。例えば、ユーザデバイス110は、車両内に配置されており、車両の2つ以上のマイクロフォン116との有線通信または無線通信(例えば、Bluetooth(登録商標))を行なうモバイルデバイスであってもよい。いくつかの構成では、ユーザデバイス110は、別個のデバイス111に存在する少なくとも1つのマイクロフォン116に通信しており、それは、限定するものではないが、車載オーディオシステム、コンピューティングデバイス、スピーカ、または別のユーザデバイスを含み得る。これらの構成では、別個のデバイス111はまた、ユーザデバイス110に存在する1つまたは複数のマイクロフォン116に通信してよい。
【0030】
いくつかの例では、デバイス110は、ネットワーク(図示せず)を介してリモートシステム130に通信するように構成されている。リモートシステム130は、リモートデータ処理ハードウェア134(例えば、リモートサーバまたはCPU)および/またはリモートメモリハードウェア136(例えば、リモートデータベースまたは他のストレージハードウェア)などの、リモートリソース132を含み得る。ユーザデバイス110は、リモートリソース132を利用することで、音声処理および/または合成再生通信に関連する様々な機能を実行し得る。マルチチャネルニューラルフロントエンド音声強調モデル200およびバックエンド音声システム180は、デバイス110に存在する場合があり(オンデバイスシステムと呼ばれる)、またはデバイス110に通信しながらもリモートに存在する場合がある(例えば、リモートシステム130に存在する場合がある)。いくつかの例では、1つまたは複数のバックエンド音声システム180は、ローカルに、またはオンデバイスに存在するが、1つまたは複数の他のバックエンド音声システム180は、リモートに存在する。換言すれば、マルチチャネルニューラルフロントエンド音声強調モデル200から出力済の強調済入力音声特徴250を活用する1つまたは複数のバックエンド音声システム180は、任意の組合せでローカルまたはリモートであり得る。例えば、システム180のサイズがかなり大きい場合、あるいは処理要件である場合は、システム180がリモートシステム130に存在してもよい。しかし、デバイス110が1つまたは複数のシステム180のサイズまたは処理要件をサポートし得る場合、1つまたは複数のシステム180は、データ処理ハードウェア112および/またはメモリハードウェア114を使用することでデバイス110に存在してもよい。任意選択で、システム180の1つまたは複数は、ローカル/オンデバイス、およびリモートの両方に存在してもよい。例えば、バックエンド音声システム180は、デバイス110とリモートシステム130との間の接続が利用可能にされているとき、デフォルトでリモートシステム130で実行することが可能にされているが、接続が失われる、または利用できないとき、システム180は、代わりにデバイス110でローカルに実行する。
【0031】
いくつかの実施態様では、デバイス110は、またはデバイス110に関連付けられているシステムは、ユーザ10によって話されたクエリへの応答として、デバイス110がユーザ10に通信するテキストを識別する。次に、デバイス110は、テキスト読み上げ(TTS)システムを使用することで、テキストを、デバイス110が対応する合成再生オーディオ154に変換するとともに、クエリへの応答としてユーザ10に通信する(例えば、ユーザ10とは可聴で通信する)ことができる。生成されると、TTSシステムは、合成再生オーディオ154をデバイス110に通信することで、デバイス110が合成再生オーディオ154を出力することを可能にする。例えば、デバイス110は、ユーザ10が今日の天気予測に対する口頭におけるクエリをしたことに応答して、デバイス110のスピーカ118で「今日は晴れです」という合成再生オーディオ154を出力する。
【0032】
図1を引き続き参照すると、デバイス110が合成再生オーディオ154を出力するとき、合成再生オーディオ154は、オーディオキャプチャデバイス116によってキャプチャ済のエコー156を生成する。合成再生オーディオ154は、参照オーディオ信号に対応する。合成再生オーディオ154は、
図1の例では参照オーディオ信号を示しているが、参照オーディオ信号は、スピーカ118からのメディアコンテンツ出力、またはユーザ10がデバイス110を介して会話しているリモートユーザからの通信(例えば、ボイスオーバーIPコールまたはビデオ会議コール)、を備えている他のタイプの再生オーディオ154を含み得る。残念ながら、エコー156に加えて、オーディオキャプチャデバイス116はまた、「明日はどうですか」で始まる、天気についてさらに問うフォローアップクエリを備えている、ユーザ10によって話されたターゲット発話12を同時にキャプチャすることがある。例えば、
図1は、デバイス110が合成再生オーディオ154を出力するときに、ユーザ10が、デバイス110に、「明日はどうですか」で始めることによって、語られた発話(12)で、天気についてさらに問うことを描写している。ここで語られた発話(12)およびエコー156は、両方とも同時にオーディオキャプチャデバイス116でキャプチャされるので、マルチチャネルノイジー入力信号202を形成する。換言すれば、マルチチャネルノイジー入力信号202は、ユーザ10によって話されたターゲット発話12の一部が、デバイス110のスピーカ118から出力済の参照オーディオ信号(例えば、合成再生オーディオ154)の一部に重複する、重複したオーディオ信号を備えている。合成再生オーディオ154に加えて、環境内の別のユーザ11によって話された競合音声13と、別個のユーザデバイス111からの着信音(リングトーン)15などの非音声特性と、もオーディオキャプチャデバイス116によってキャプチャされ得るので、ターゲット発話12とで重複するバックグラウンド干渉に寄与し得る。
【0033】
図1では、バックエンド音声システム180は、ターゲット発話12に干渉するバックグラウンド干渉の存在に起因する、マルチチャネルノイジー入力信号202におけるフォローアップの天気のクエリ「明日はどうですか」に対応するターゲット発話12を処理する問題を有し得る。ここでバックグラウンド干渉は、再生オーディオ154、競合音声13、または非音声の暗騒音(ノンスピーチバックグラウンドノイズ15)、のうちの少なくとも1つに帰属される。ユーザ10がターゲット発話12を話したときにデバイス110によって記録されるバックグラウンド干渉の存在を効果的に除去(すなわち、マスキング)することによって、バックエンド音声システム180のロバスト性を改善するべく、マルチチャネルニューラルフロントエンド音声強調モデル200が使用される。
【0034】
モデル200は、ノイズコンテキストモデリングを適用することによって音声強調を実行してもよい。モデル200の音声クリーナ300は、ターゲット発話12がユーザ10によって話される前に、オーディオキャプチャデバイス116によってキャプチャ済のノイズセグメントの所定期間に関連するマルチチャネルコンテキストノイズ信号204を処理する。いくつかの例では、所定期間は、6秒のノイズセグメントを備えている。したがって、マルチチャネルコンテキストノイズ信号204は、ノイズコンテキストをもたらす。いくつかの例では、マルチチャネルコンテキストノイズ信号204は、コンテキスト情報として使用するためのノイズコンテキスト信号のLFBE(ログ-メルフィルタバンクエネルギー)特徴を備えている。
【0035】
図2は、
図1のマルチチャネルニューラルフロントエンド音声強調モデル200を示す。マルチチャネルニューラルフロントエンド音声強調モデル200は、短距離および遠距離の相互作用をモデル化するべく、畳込と自己注意を組合せたコンフォーマニューラルネットワークアーキテクチャの修正バージョンを使用する。マルチチャネルニューラルフロントエンド音声強調モデル200は、音声クリーナ300、特徴スタック220、エンコーダ230、およびマスキング層240、を備えている。音声クリーナ300は、アダプティブノイズキャンセレーションアルゴリズムを実行し得る(
図3)。エンコーダ230は、自己注意ブロック400のスタックを含み得る。
【0036】
音声クリーナ300は、入力として、マルチチャネルノイジー入力信号202およびマルチチャネルコンテキストノイズ信号204を受信する一方で、出力として、単一チャネルのクリーニング済入力信号340を生成するように構成され得る。ここで音声クリーナ300は、マルチチャネルノイジー入力信号202を処理するための有限インパルス応答(FIR)フィルタを備えている。
【0037】
図3は、音声クリーナ300によって実行される例示的なアダプティブノイズキャンセレーションアルゴリズムを提示している。ここで音声クリーナ300は、FIRフィルタを備えているFIRモジュール310と、最小化モジュール320と、キャンセルモジュール330と、を備えている。
【0038】
図示の例では、簡単にするべく、マルチチャネルノイジー入力信号202は、3つのチャネル206a~206cを備えており、各々が、3つのマイクロフォン116のアレイの別個の専用マイクロフォン116a~116cによってキャプチャされる各々のオーディオ特徴を備えている。ただし、上記のように、フロントエンド音声強調モデル200は、マイクロフォン116のアレイのマイクロフォン116の数に関して不可知である。換言すれば、マルチチャネルノイジー入力信号202は、本開示の範囲から逸脱することなく、1つのマイクロフォン116によってキャプチャ済の1つのチャネル206、2つのマイクロフォン116によってキャプチャ済の2つのチャネル206、または4つ以上のマイクロフォン116によってキャプチャ済の4つ以上のチャネル206、を備えていることができる。
【0039】
ここでFIRモジュール310は、第1チャネル206aを除くマルチチャネルノイジー入力信号202のすべてのチャネル206にFIRフィルタを適用することで、合計出力312を生成する。換言すれば、FIRモジュール310は、マルチチャネルノイジー入力信号202の第1チャネル206aを処理しない一方で、マルチチャネルノイジー入力信号202の第2チャネル206bおよび第3チャネル206cにFIRフィルタを適用することで、合計出力312を生成する。最小化モジュール320は、合計出力312および第1チャネル206aを受信するとともに、マルチチャネルノイジー入力信号202の第1チャネル206aから合計出力312を減算することによって、「最小化された出力」(ミニマイズドアウトプット)322を生成する。数学的には、FIRフィルタは、チャネル206b、206cに適用される一方でチャネル206aには適用されない長さLの3つのタップ付き遅延ラインを備えている。最小化された出力322の決定は、次のように表され得る。
【0040】
【0041】
式中、
【0042】
【0043】
は、チャネル206b、206cの時間遅延短時間フーリエ変換(STFT)の処理が為された入力のベクトルである。Um(k)は、チャネル206b、206cに適用されるフィルタ係数のベクトルである。
【0044】
【0045】
およびUm(k)は、次のように表され得る。
【0046】
【0047】
Um(k)=[Um(k,0),Um(k,1),…Um(k,N-1)]T(3)
式中、フィルタ係数は、次のように、出力のパワーを最小化することが可能にされている。
【0048】
【0049】
音声クリーナ300はデバイス110において実装されるので、キャンセルモジュール330は、マルチチャネルノイジー入力信号202内の発話(12)の直前に発生するマルチチャネルコンテキストノイズ信号204を使用することが可能にされている。言い換えれば、最小化モジュール320は、発話(12)がマルチチャネルノイジー入力信号202に存在しないときに、マルチチャネルコンテキストノイズ信号204の最中に、適応を通じて、最小化された出力322を生成する。適応は、再帰的最小二乗法(RLS)アルゴリズムを含んでもよい。音声クリーナ300が発話(12)を検出すると、フィルタ係数は固定されているとともに、キャンセルモジュール330は発話(12)の前の最後の係数をマルチチャネルノイジー入力信号202に適用することでバックグラウンド干渉をキャンセルすることで、次のように単一チャネルのクリーニング済入力信号340を生成する。
【0050】
【0051】
図2に戻り参照すると、特徴スタック220は、単一チャネルのクリーニング済入力信号340と、マルチチャネルノイジー入力信号202の単一チャネル206aと、を入力として受信する。そして特徴スタック220はスタック入力232を生成するように構成されている。スタック入力232は、単一チャネルのクリーニング済入力信号340と、単一チャネル206aと、を備えている。特徴スタック220は、単一チャネルのクリーニング済入力信号340と、マルチチャネルノイジー入力信号202の単一チャネル206aと、の各々を、ステップサイズ10msを伴う32ミリ秒(ms)のウィンドウサイズを使用することで、128次元のlog-mel(ログ-メル)ドメインに変換し得る。ここで4つのフレームは、特徴スタック220への入力時に30msのステップでスタックされ得る。
【0052】
エンコーダ230は、単一チャネルのクリーニング済入力信号340と、マルチチャネルノイジー入力信号202の単一チャネル206aと、を備えているスタック入力232を受信するとともに、アンマスクド出力(マスクされていないアウトプット)480を出力として生成する。エンコーダ230は、自己注意ブロック400(ブロック400とも呼ばれる)のスタックを備えている。ここで自己注意ブロック400のスタックの最初のブロック(400)は、スタック入力232を受信する。スタック入力232は、音声クリーナ300から出力済の単一チャネルのクリーニング済入力信号340と、マルチチャネルノイジー入力信号202の単一チャネル206と、を備えている。自己注意ブロック400のスタックの最終的なブロック(400)は、アンマスクド出力480を生成する。
【0053】
各コンフォーマブロック(400)は、(第1半分)フィードフォワード層、自己注意層、畳込層(畳み込み層)、および第2(半分)フィードフォワード層、を含み得る。いくつかの実施態様では、自己注意ブロック400のスタックは、コンフォーマブロック(400)のスタックを備えている。これらの実施態様では、コンフォーマブロック(400)のスタックは、コンフォーマブロック(400)の4つの層を備えており、各々、1024個のユニット、8個のアテンションヘッド、15×1の畳込カーネルサイズ、およびストリーミングモデルを可能にする64フレームの自己注意、を有している。コンフォーマブロック(400)の例は、
図4を参照しながら下記においてさらに詳細に説明される。
【0054】
マスキング層240は、エンコーダ230の自己注意ブロック400によって出力済のアンマスクド出力480と、マルチチャネルノイジー入力信号202の単一チャネル206aと、を入力として受信するとともに、出力として、ターゲット発話12に対応する、強調済(エンハンスド)入力音声特徴250を生成するように構成されている。いくつかの実施態様では、モデル200のマスキング層240は、アンマスクド出力480を、ターゲット発話12に対応する強調済入力音声特徴250にデコードするように構成されたデコーダ(図示せず)を備えている。ここでデコーダは、シグモイド活性化を伴う単一層のフレーム単位の完全に接続済のネットワークを有している、単純な投影デコーダを含み得る。
【0055】
図4は、エンコーダ230の自己注意ブロック400のスタックからのブロック(400)の例を提示する。自己注意ブロック400では、マルチヘッド自己注意ブロック420および畳込層(畳み込み層)430は、第1半分フィードフォワード層410と第2半分フィードフォワード層440との間に配置されている、第1半分フィードフォワード層410、第2半分フィードフォワード層440、および連結演算子405、405a~405d、を備えている。第1半分フィードフォワード層410は、音声クリーナ300から出力済の単一チャネルのクリーニング済入力信号340と、単一チャネルノイジー入力信号206aと、を備えているスタック入力232を処理することで、出力412を生成する。次に、第1連結演算子405aは、出力412をスタック入力232に連結することで、第1連結入力414を生成する。続いて、マルチヘッド自己注意ブロック420は、第1連結入力414を受信することで、ノイズサマリー422を生成する。直感的には、マルチヘッド自己注意ブロック420の役割は、強調すべき各入力フレームについて、ノイズコンテキストを別々に要約することである。
【0056】
次に、第2連結演算子405bは、出力済のノイズサマリー422を第1連結入力414に連結することで、第2連結入力424を生成する。続いて、畳込層(畳み込み層)430は、マルチヘッド自己注意ブロック420のノイズサマリー422を備えている第2連結入力424と、第1連結入力414と、をサブサンプリングすることで畳込出力432を生成する。その後、第3連結演算子405cは、畳込出力432を第2連結入力424に連結することで、第3連結入力434を生成する。第3連結入力434は、第2半分フィードフォワード層440への入力としてもたらされており、第2半分フィードフォワード層440は出力442を生成する。第2半分フィードフォワード層440の出力442は、第4連結演算子405dによって第3連結入力434に連結されることで、第4連結入力444を生成する。最後に、layernorm(レイヤーノルム、層正規化)モジュール450は、第2半分フィードフォワード層440からの第4連結入力444を処理する。数学的には、自己注意ブロック400は、次のように、変調特徴(モデュレーションフィーチャーズ)mを使用することで入力特徴(インプットフィーチャーズ)xを変換することによって、出力特徴yを生成する。
【0057】
【0058】
自己注意ブロック400は、出力として、アンマスクド出力(マスクされていないアウトプット)480を生成する。このアンマスクド出力480は、自己注意ブロック400の次の層に渡される。このようにして入力(204、206)は、自己注意ブロック400の各々によって変調される。
【0059】
図5は、フロントエンド音声強調モデル200が自動音声認識ASRモデル192とで共同でトレーニングされるときの自動音声認識ASR損失560を計算するための例示的なトレーニング処理500を示す。トレーニング処理500は、
図1のリモートシステム130で実行されてよい。示されるように、トレーニング処理500は、データストア510に格納済の1つまたは複数のトレーニングデータセット520を取得することで、トレーニングデータセット520によってマルチチャネルニューラルフロントエンド音声強調モデル200をトレーニングする。データストア510は、リモートシステム130のメモリハードウェア136に存在し得る。各トレーニングデータセット520は、複数のトレーニング例(訓練サンプル)530、530a~530nを備えている。各トレーニング例530は、トレーニング発話532を含み得る。ここで自動音声認識ASRモデル192のエンコーダ(540)のみが、損失を計算するべく使用される。自動音声認識ASR損失560は、トレーニング発話532のターゲット特徴(536)についての自動音声認識ASRエンコーダ540の出力と、強調済入力音声特徴250と、の間のl2(エルツー)距離として計算される。自動音声認識ASRエンコーダ540は、トレーニング処理500中では更新されない。詳細には、トレーニング処理500は、以下の2つの工程によって、自動音声認識ASR損失560を計算する。1つ目の工程は、自動音声認識ASRモデル192の自動音声認識ASRエンコーダ540を使用することで、強調済入力音声特徴250についての自動音声認識ASRエンコーダ540の予測出力522を生成する工程である。ここで自動音声認識ASRエンコーダ540は、トレーニング発話532についてのフロントエンド音声強調モデル200によって予測された強調済入力音声特徴250を、入力として受信するように構成されている。2つ目の工程は、入力としてトレーニング発話532のターゲット音声特徴536を受信するように構成された自動音声認識ASRエンコーダ540を使用することで、ターゲット音声特徴536の自動音声認識ASRエンコーダ540のターゲット出力524を生成する工程である。強調済入力音声特徴250の予測出力522と、ターゲット音声特徴536のターゲット出力524と、は各々、LFBE(ログ-メルフィルタバンクエネルギー)特徴の各々のシーケンスを含み得る。その後、トレーニング処理500は、損失モジュール550を介して、強調済入力音声特徴250の自動音声認識ASRエンコーダ540の予測出力522と、ターゲット音声特徴536の自動音声認識ASRエンコーダ540のターゲット出力524と、に基づき自動音声認識ASR損失560を計算する。自動音声認識ASR損失560を使用する目標(ゴール)は、フロントエンド音声強調モデル200の強調を、自動音声認識ASRモデル192に更に近づける(アチューンされる)ことである。これは、フロントエンド音声強調モデル200から、最良のパフォーマンスを得るべく重要である。自動音声認識ASRモデル192のパラメータを固定したままにすることによって、自動音声認識ASRモデル192は、フロントエンド音声強調モデル200からデカップリングされる。よって各々を互いに独立してトレーニングおよび展開(デプロイ)することが可能になる。
【0060】
いくつかの実施態様では、フロントエンド音声強調モデル200は、スペクトル損失および自動音声認識ASR損失560を使用することで、バックエンド自動音声認識ASRシステム180の自動音声認識ASRモデル192とで共同でトレーニングされる。マルチチャネルニューラルフロントエンド音声強調モデル200をトレーニングするためのトレーニングターゲット(536)は、理想的比率マスク(IRM:アイデアルレシオマスク)を使用する。理想的比率マスクIRMは、次のように、Melスペクトル空間では音声とノイズとの相関が無いという仮定に基づき、残響音声(レバルベラントスピーチ)および残響ノイズ(レバルベラントノイズ)を使用することで計算され得る。
【0061】
【0062】
ここでXおよびNは各々、残響音声および残響ノイズのMelスペクトログラムである。tおよびfは、時間およびMel周波数ビンインデックスを表す。理想的比率マスクIRMを推定するための選択は、[0,1]の間に制限されるターゲットに基づいているので、推定処理を簡素化する。さらに、評価に使用される自動音声認識ASRモデル192は、実際のおよびシミュレートされた残響データでトレーニングすることができる。結果、残響音声に対して比較的ロバストになっているトレーニング済み自動音声認識ASRモデル192が得られる。したがって、残響音声をターゲットとして使用することで導出された理想的比率マスクIRMは、依然として、パフォーマンスにおいて大幅な向上をもたらす。トレーニング中のスペクトル損失Lは、次のように、理想的比率マスクIRMと、推定された理想的比率マスクIRMとしての
【0063】
【0064】
と、の間のL1損失およびL2損失に基づき計算され得る。
【0065】
【0066】
推論(インフェランス)中に、推定された理想的比率マスクIRMは、ノイズ抑制の低減を犠牲にすることで音声歪み(スピーチディストーション)を低減するべく、スケーリングおよび床(フロアー)化される。自動音声認識ASRモデル192は、強調フロントエンドを使用することでロバストな自動音声認識ASRモデルのパフォーマンスを改善する際の主な課題の1つである、音声歪みおよび非線形フロントエンド処理の影響を受けやすい。よって、これは特に重要である。強調した特徴(エンハンスドフィーチャー)は、次のように導出され得る。
【0067】
【0068】
ここでYはノイジーMelスペクトログラムである。
【0069】
【0070】
はクリーンなMelスペクトログラムの推定値である。αとβは、指数マスクスカラおよびマスク床である。いくつかの例では、αは0.5に設定されている。βは0.01に設定されている。強調した特徴は、ログ圧縮されるとともに(すなわち
【0071】
【0072】
評価のために自動音声認識ASRモデル192に渡され得る。
図6は、方法600についての動作の例示的な構成のフローチャートを備えている。方法600は、マルチチャネルニューラルフロントエンド音声強調モデル(200)を使用した、自動音声認識を実行する。動作602において、方法600は、マルチチャネルノイジー入力信号202と、マルチチャネルコンテキストノイズ信号204と、を受信する工程を備えている。方法600はまた、動作604において、音声強調モデル200の音声クリーナ300を使用することで、単一チャネルのクリーニング済入力信号340を生成する工程を備えている。
【0073】
動作606で、方法600はまた、スタック入力232を受信するように構成されている音声強調モデル200の自己注意ブロック400のスタックからの出力として、アンマスクド出力480を生成する工程を備えている。ここでスタック入力232は、音声クリーナ300から出力済の単一チャネルのクリーニング済入力信号340と、単一チャネルノイジー入力信号206と、を備えている。ここで自己注意ブロック400のスタックの各自己注意ブロック400は、マルチヘッド自己注意機構(セルフアテンションメカニズム)を備えている。動作608において、方法600は、音声強調モデル200のマスキング層240を使用することで、ターゲット発話12に対応する強調済入力音声特徴250を生成する工程をさらに備えている。ここでマスキング層240は、単一チャネルノイジー入力信号206と、自己注意ブロック400のスタックからの出力として生成済のアンマスクド出力480と、を受信するように構成されている。
【0074】
図7は、本明細書に記載のシステムおよび方法を実装するべく使用できる例示的なコンピューティングデバイス700の概略図である。コンピューティングデバイス700は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータ、など様々な形式のデジタルコンピュータを表すことを意図している。ここで示されている構成要素、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、この文書で説明および/または特許請求される本開示の実施態様を制限することを意図してはいない。
【0075】
コンピューティングデバイス700には、プロセッサ710、メモリ720、ストレージデバイス730、メモリ720および高速拡張ポート750に接続する高速インタフェース/コントローラ(740)、ならびに低速バス770およびストレージデバイス730に接続する低速インタフェース/コントローラ(760)が含まれる。構成要素(710、720、730、740、750、および760)の各々は、様々なバスを使用することで相互接続されており、共通のマザーボードに据え付けられるか、または必要に応じて他の方法で存在してもよい。プロセッサ710(例えば、
図1のデータ処理ハードウェア112、134)は、メモリ720またはストレージデバイス730に記憶された命令を備えている、コンピューティングデバイス700内で実行するための命令を処理することで、高速インタフェース(740)に接続済のディスプレイ780などの外部入出力デバイスにグラフィカルユーザインタフェース(GUI)のグラフィカル情報を表示することが可能にされている。他の実施態様では、複数のメモリおよび複数の種類のメモリとでともに、必要に応じて複数のプロセッサおよび/または複数のバスが使用され得る。また、複数のコンピューティングデバイス700を接続されて、(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)各デバイスが必要な動作の部分を提供してもよい。
【0076】
メモリ720(例えば、
図1のメモリハードウェア114、136)は、コンピューティングデバイス700内部に非一時的に情報を記憶する。メモリ720は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)であってもよい。非一時的なメモリ720は、コンピューティングデバイス700による使用のために一時的または永続的にプログラム(例えば、命令シーケンス)またはデータ(例えば、プログラム状態情報)を格納するべく使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読み出し専用メモリ(ROM)/プログラマブル読み出し専用メモリ(PROM)/消去可能なプログラマブル読み出し専用メモリ(EPROM)/電子的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)(例えば、通常はブートプログラムなどのファームウェアに使用される)を備えているが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクまたはテープを備えているが、これらに限定されない。
【0077】
ストレージデバイス730は、コンピューティングデバイス700に大容量ストレージを提供することが可能にされている。いくつかの実施態様において、ストレージデバイス730はコンピュータ読み取り可能な媒体である。様々な異なる実施態様では、ストレージデバイス730は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくはその他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくはその他のコンフィグレーションのデバイスを備えている、デバイスアレイであってもよい。追加の実施態様では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行時に上述したような1つまたは複数の方法を実行する命令を備えている。情報キャリアは、メモリ720、ストレージデバイス730、またはプロセッサ710のメモリなどのコンピュータ可読媒体または機械可読媒体である。
【0078】
高速コントローラ740は、コンピューティングデバイス700の帯域幅集約動作を管理しており、低速コントローラ760は、より低い帯域幅集約動作を管理する。このような役割の割り振りは単なる例である。いくつかの実施態様では、高速コントローラ740は、メモリ720、ディスプレイ780(例えば、グラフィックプロセッサまたはアクセラレータを介して)、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート750に結合される。いくつかの実施態様では、低速コントローラ760は、ストレージデバイス730および低速拡張ポート790に結合される。低速拡張ポート790には、様々な通信ポート(USB、Bluetooth(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット(登録商標)など)が含まれる場合があり、キーボード、ポインティングデバイス、スキャナ、または、例えばネットワークアダプタなどを介して、スイッチやルータなどのネットワークデバイスなどの1つまたは複数の入力/出力デバイスに接続されてもよい。
【0079】
コンピューティングデバイス700を、図に示すように、複数の種々の形態で実装してもよい。例えば、それは、標準サーバ700aとして、またはそれらのようなサーバ(700a)のグループ内の複数倍、ラップトップコンピュータ700bとして、またはラックサーバシステム700cの一部として実装されてよい。
【0080】
本明細書で説明するシステムおよび技術の様々な実施態様は、デジタル電子および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現できる。これらの様々な実施態様は、特殊または汎用であり得、ストレージシステムからデータおよび命令を受信しており、ストレージシステムにデータおよび命令を送信するように結合された、少なくとも1つのプログラマブルプロセッサ、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスを備えているプログラム可能なシステムで実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実施態様を備えていることができる。
【0081】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指してもよい。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを備えているが、これらに限定されない。
【0082】
非一時的なメモリは、コンピューティングデバイスによる使用のために一時的または永続的にプログラム(例えば、命令シーケンス)またはデータ(例えば、プログラム状態情報)を格納するべく使用される物理デバイスであってよい。非一時的メモリは、揮発性および/または不揮発性のアドレス指定可能な半導体メモリであり得る。不揮発性メモリの例は、フラッシュメモリおよび読み出し専用メモリ(ROM)/プログラマブル読み出し専用メモリ(PROM)/消去可能なプログラマブル読み出し専用メモリ(EPROM)/電子的に消去可能なプログラマブル読み出し専用メモリ(EEPROM)(例えば、通常はブートプログラムなどのファームウェアに使用される)を備えているが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、およびディスクまたはテープを備えているが、これらに限定されない。
【0083】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサのための機械命令を備えており、かつ高水準手続型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語で実装されることができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を備えているプログラマブルプロセッサに機械命令および/またはデータを提供するべく用いられる、あらゆるコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するべく用いられるあらゆる信号を指す。
【0084】
本明細書に説明する処理および論理フローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサが1つまたは複数のコンピュータプログラムを実行することで、入力データに作用しており、出力を生成することによって機能を実行することによって実行できる。処理および論理フローはまた、特殊用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行され得る。コンピュータプログラムの実行に適切なプロセッサは、例として、汎用および特殊目的のプロセッサの両方、ならびにいずれかの種類のデジタルコンピュータのいずれか1つまたは複数のプロセッサを備えている。概して、プロセッサは、読み出し専用メモリ、ランダムアクセスメモリ、またはその両方から命令およびデータを受信する。コンピュータの基本的な要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを格納するための1つまたは複数のメモリデバイスである。概して、コンピュータはまた、データを格納するための1つまたは複数の大容量記憶デバイス、例えば磁気ディスク、光磁気ディスク、または光ディスクを備えている、またはそれらからデータを受信するもしくはそれらにデータを送信する、あるいはその両方を行なうよう動作可能に接続される。しかし、コンピュータがそのようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、あらゆる形式の不揮発性メモリ、メディア、およびメモリデバイスが含まれ、例として、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、例えば、内蔵ハードディスクまたはリムーバブルディスクの磁気ディスク、光磁気ディスク、およびCD ROMおよびDVD-ROMディスクが含まれる。プロセッサおよびメモリは、専用論理回路によって補完されるか、または専用論理回路に組み込まれ得る。
【0085】
ユーザとのインタラクションを行なうために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイ装置、例えばCRT(ブラウン管)、LCD(液晶画面モニタ)、またはタッチスクリーン、およびユーザがそれによってコンピュータへの入力を行なうことができる任意選択のキーボードおよびポインティングデバイス、例えばマウスまたはトラックボールを有しているコンピュータに実装することが可能にされている。他の種類のデバイスもまた、ユーザとのインタラクションを行なうために使用できる。例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックである場合があり、ユーザからの入力は、音響入力、音声入力、または触覚入力、などあらゆる形式で受信できる。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送受信することで、例えば、ウェブブラウザから受信済の要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することで、ユーザとインタラクトできる。
【0086】
いくつかの実施態様が説明されてきた。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な修正を行ない得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。