(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-10
(54)【発明の名称】自動音声認識のための結合音響エコー消去、音声強調、およびボイス分離
(51)【国際特許分類】
G10L 21/0208 20130101AFI20240903BHJP
G10L 25/30 20130101ALI20240903BHJP
G10L 15/20 20060101ALI20240903BHJP
【FI】
G10L21/0208 100Z
G10L25/30
G10L15/20 380
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024508062
(86)(22)【出願日】2021-12-14
(85)【翻訳文提出日】2024-03-25
(86)【国際出願番号】 US2021063196
(87)【国際公開番号】W WO2023018434
(87)【国際公開日】2023-02-16
(32)【優先日】2021-08-09
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アルン・ナラヤナン
(72)【発明者】
【氏名】トム・オマリー
(72)【発明者】
【氏名】チュアン・ワン
(72)【発明者】
【氏名】アレックス・パーク
(72)【発明者】
【氏名】ジェームズ・ウォーカー
(72)【発明者】
【氏名】ネイサン・デイヴィッド・ハワード
(72)【発明者】
【氏名】ヤンジャン・ヘ
(72)【発明者】
【氏名】チュン-チェン・チウ
(57)【要約】
結合音響エコー消去、音声強調、およびボイス分離を使う自動音声認識のための方法(600)は、コンテキストフロントエンド処理モデル(200)において、ターゲット発声(12)に対応する入力音声特徴(212)を受信するステップを含む。方法は、コンテキストフロントエンド処理モデルにおいて、参照オーディオ信号(154)、ターゲット発声に先立つノイズを含むコンテキストノイズ信号(213)、またはターゲット発声を発話したターゲット話者(10)のボイス特性を含む話者埋込み(215)のうちの少なくとも1つを受信するステップも含む。方法は、コンテキストフロントエンド処理モデルを使って、入力音声特徴と、参照オーディオ信号、コンテキストノイズ信号、または話者埋込みベクトルのうちの少なくとも1つとを処理して、強調音声特徴(250)を生成するステップをさらに含む。
【特許請求の範囲】
【請求項1】
データ処理ハードウェア(710)上で実行されると、前記データ処理ハードウェア(710)に動作を実施させるコンピュータ実装方法(600)であって、前記動作は、
コンテキストフロントエンド処理モデル(200)において、ターゲット発声(12)に対応する入力音声特徴(212)、および
参照オーディオ信号(154)、
前記ターゲット発声(12)に先立つノイズを含むコンテキストノイズ信号(213)、または
前記ターゲット発声(12)を発話したターゲット話者(10)のボイス特性を含む話者埋込みベクトル(215)のうちの少なくとも1つを受信するステップと、
前記コンテキストフロントエンド処理モデル(200)を使って、前記入力音声特徴(212)、および前記参照オーディオ信号(154)、前記コンテキストノイズ信号(213)、または前記話者埋込みベクトル(215)のうちの前記少なくとも1つを処理して、強調音声特徴(250)を生成するステップとを含む、コンピュータ実装方法(600)。
【請求項2】
前記コンテキストフロントエンド処理モデル(200)は、畳み込みと自己注意を組み合わせて、短距離および長距離対話をモデリングするコンフォーマニューラルネットワークアーキテクチャを備える、請求項1に記載のコンピュータ実装方法(600)。
【請求項3】
前記入力音声特徴(212)、および前記参照オーディオ信号(154)、前記コンテキストノイズ信号(213)、または前記話者埋込みベクトル(215)のうちの前記少なくとも1つを処理するステップは、
1次エンコーダ(210)を使って、前記入力音声特徴(212)を処理して、主入力符号化(218)を生成するステップと、
ノイズコンテキストエンコーダ(220)を使って、前記コンテキストノイズ信号(213)を処理して、コンテキストノイズ符号化(222)を生成するステップと、
クロスアテンションエンコーダ(400)を使って、前記主入力符号化(218)および前記コンテキストノイズ符号化(222)を処理して、クロスアテンション埋込み(480)を生成するステップと、
前記クロスアテンション埋込み(480)を、前記ターゲット発声(12)に対応する前記強調音声特徴(250)に復号するステップとを含む、請求項1または2に記載のコンピュータ実装方法(600)。
【請求項4】
前記入力音声特徴(212)を処理して、前記主入力符号化(218)を生成するステップは、前記参照オーディオ信号(154)に対応する参照特徴(214)をスタックされた前記入力音声特徴(212)を処理して、前記主入力符号化(218)を生成するステップをさらに含む、請求項3に記載のコンピュータ実装方法(600)。
【請求項5】
前記入力音声特徴(212)および前記参照特徴(214)は各々、ログメルフィルタバンクエネルギー(LFBE)特徴のそれぞれのシーケンスを含む、請求項3または4に記載のコンピュータ実装方法(600)。
【請求項6】
前記入力音声特徴(212)を処理して、前記主入力符号化(218)を生成するステップは、特徴単位線形変調(FiLM)を使って、前記入力音声特徴(212)を前記話者埋込みベクトル(215)と組み合わせて、前記主入力符号化(218)を生成するステップを含み、
前記主入力符号化(218)および前記コンテキストノイズ符号化(222)を処理して、前記クロスアテンション埋込み(480)を生成するステップは、
FiLMを使って、前記主入力符号化(218)を前記話者埋込みベクトル(215)と組み合わせて、被変調主入力符号化(218)を生成するステップと、
前記被変調主入力符号化(218)および前記コンテキストノイズ符号化(222)を処理して、前記クロスアテンション埋込み(480)を生成するステップとを含む、請求項3に記載のコンピュータ実装方法(600)。
【請求項7】
前記1次エンコーダ(210)はN個の被変調コンフォーマブロックを備え、
前記ノイズコンテキストエンコーダ(220)は、N個のコンフォーマブロックを備え、前記1次エンコーダ(210)と並列に実行し、
前記クロスアテンションエンコーダ(400)はM個の被変調クロスアテンションコンフォーマブロックを備える、請求項3から6のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項8】
前記データ処理ハードウェア(710)は、前記コンテキストフロントエンド処理モデル(200)を実行し、ユーザデバイス(110)上に存在し、前記ユーザデバイス(110)は、
前記参照オーディオ信号(154)を、前記ユーザデバイス(110)のオーディオスピーカ(118)を介して、プレイバックオーディオとして出力することと、
前記ユーザデバイス(110)の1つまたは複数のマイクロフォン(116)を介して、前記ターゲット発声(12)、前記参照オーディオ信号(154)、および前記コンテキストノイズ信号(213)を取り込むこととを行うように構成される、請求項1から7のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項9】
前記コンテキストフロントエンド処理モデル(200)は、スペクトル損失およびASR損失を使って、バックエンド自動音声認識(ASR)モデルと共同でトレーニングされる、請求項1から8のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項10】
前記スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数距離に基づき、前記理想的比率マスクは、残響音声および残響ノイズを使って計算される、請求項9に記載のコンピュータ実装方法(600)。
【請求項11】
前記ASR損失は、
トレーニング用発声のための、前記コンテキストフロントエンド処理モデル(200)によって予測された強調音声特徴(250)を入力として受信するように構成された前記ASRモデルのASRエンコーダ(510)を使って、前記強調音声特徴(250)のための、前記ASRエンコーダ(510)の予測出力を生成することと、
前記トレーニング用発声のためのターゲット音声特徴を入力として受信するように構成された前記ASRエンコーダ(510)を使って、前記ターゲット音声特徴のための、前記ASRエンコーダ(510)のターゲット出力を生成することと、
前記強調音声特徴(250)のための、前記ASRエンコーダ(510)の前記予測出力、および前記ターゲット音声特徴のための、前記ASRエンコーダ(510)の前記ターゲット出力に基づいて、前記ASR損失を計算することとによって計算される、請求項9または10に記載のコンピュータ実装方法(600)。
【請求項12】
前記動作は、バックエンド音声システム(180)を使って、前記ターゲット発声(12)に対応する前記強調音声特徴(250)を処理することをさらに含む、請求項1から11のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項13】
前記バックエンド音声システム(180)は、
自動音声認識(ASR)モデル、
ホットワード検出モデル、または
オーディオもしくはオーディオビデオ通話アプリケーションのうちの少なくとも1つを備える、請求項12に記載のコンピュータ実装方法(600)。
【請求項14】
コンテキストフロントエンド処理モデル(200)であって、
入力として、ターゲット発声(12)に対応する入力音声特徴(212)を受信することと、
出力として、主入力符号化(218)を生成することとを行うように構成された1次エンコーダ(210)と、
入力として、前記ターゲット発声(12)に先立つノイズを含むコンテキストノイズ信号(213)を受信することと、
出力として、コンテキストノイズ符号化(222)を生成することとを行うように構成されたノイズコンテキストエンコーダ(220)と、
前記1次エンコーダ(210)から出力として生成された前記主入力符号化(218)、および前記ノイズコンテキストエンコーダ(220)から出力として生成された前記コンテキストノイズ符号化(222)を、入力として受信することと、
出力として、クロスアテンション埋込み(480)を生成することとを行うように構成されたクロスアテンションエンコーダ(400)と、
前記クロスアテンション埋込み(480)を、前記ターゲット発声(12)に対応する強調音声特徴(250)に復号するように構成されたデコーダ(240)とを備えるコンテキストフロントエンド処理モデル(200)。
【請求項15】
前記1次エンコーダ(210)は、
参照オーディオ信号(154)に対応する参照特徴(214)を、入力として受信することと、
前記参照特徴(214)をスタックされた前記入力音声特徴(212)を処理することによって、前記主入力符号化(218)を出力として生成することとを行うようにさらに構成される、請求項14に記載のコンテキストフロントエンド処理モデル(200)。
【請求項16】
前記入力音声特徴(212)および前記参照特徴(214)は各々、ログメルフィルタバンクエネルギー(LFBE)特徴のそれぞれのシーケンスを含む、請求項14または15に記載のコンテキストフロントエンド処理モデル(200)。
【請求項17】
前記1次エンコーダ(210)は、
前記ターゲット発声(12)を発話したターゲット話者(10)のボイス特性を含む話者埋込みベクトル(215)を入力として受信することと、
特徴単位線形変調(FiLM)を使って、前記入力音声特徴(212)を前記話者埋込みベクトル(215)と組み合わせることによって、前記主入力符号化(218)を出力として生成することとを行うようにさらに構成される、請求項14から16のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項18】
前記クロスアテンションエンコーダ(400)は、
特徴単位線形変調(FiLM)を使って、話者埋込みベクトル(215)によって変調された前記主入力符号化(218)を入力として受信することであって、前記話者埋込みベクトル(215)は、前記ターゲット発声(12)を発話したターゲット話者(10)のボイス特性を含む、ことと、
前記話者埋込みベクトル(215)によって変調された前記主入力符号化(218)、および前記コンテキストノイズ符号化(222)を処理して、前記クロスアテンション埋込み(480)を出力として生成することとを行うようにさらに構成される、請求項14から17のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項19】
前記1次エンコーダ(210)はN個の被変調コンフォーマブロックを備え、
前記ノイズコンテキストエンコーダ(220)は、N個のコンフォーマブロックを備え、前記1次エンコーダ(210)と並列に実行し、
前記クロスアテンションエンコーダ(400)はM個の被変調クロスアテンションコンフォーマブロックを備える、請求項14から18のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項20】
前記コンテキストフロントエンド処理モデル(200)は、ユーザデバイス(110)上に存在するデータ処理ハードウェア(710)上で実行し、前記ユーザデバイス(110)は、
参照オーディオ信号(154)を、前記ユーザデバイス(110)のオーディオスピーカ(118)を介して、プレイバックオーディオとして出力することと、
前記ユーザデバイス(110)の1つまたは複数のマイクロフォン(116)を介して、前記ターゲット発声(12)、前記参照オーディオ信号(154)、および前記コンテキストノイズ信号(213)を取り込むこととを行うように構成される、請求項14から19のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項21】
前記コンテキストフロントエンド処理モデル(200)は、スペクトル損失およびASR損失を使って、バックエンド自動音声認識(ASR)モデルと共同でトレーニングされる、請求項14から20のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項22】
前記スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数距離に基づき、前記理想的比率マスクは、残響音声および残響ノイズを使って計算される、請求項21に記載のコンテキストフロントエンド処理モデル(200)。
【請求項23】
前記ASR損失は、
トレーニング用発声のための、前記コンテキストフロントエンド処理モデル(200)によって予測された強調音声特徴(250)を入力として受信するように構成された前記ASRモデルのASRエンコーダ(510)を使って、前記強調音声特徴(250)のための、前記ASRエンコーダ(510)の予測出力を生成することと、
前記トレーニング用発声のためのターゲット音声特徴を入力として受信するように構成された前記ASRエンコーダ(510)を使って、前記ターゲット音声特徴のための、前記ASRエンコーダ(510)のターゲット出力を生成することと、
前記強調音声特徴(250)のための、前記ASRエンコーダ(510)の前記予測出力、および前記ターゲット音声特徴のための、前記ASRエンコーダ(510)の前記ターゲット出力に基づいて、前記ASR損失を計算することとによって計算される、請求項21または22に記載のコンテキストフロントエンド処理モデル(200)。
【請求項24】
バックエンド音声システム(180)は、前記ターゲット発声(12)に対応する前記強調音声特徴(250)を処理するように構成される、請求項14から23のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項25】
前記バックエンド音声システム(180)は、
自動音声認識(ASR)モデル、
ホットワード検出モデル、または
オーディオもしくはオーディオビデオ通話アプリケーションのうちの少なくとも1つを備える、請求項24に記載のコンテキストフロントエンド処理モデル(200)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、自動音声認識のための結合音響エコー消去(joint acoustic echo cancelation)、音声強調、およびボイス分離に関する。
【発明の概要】
【課題を解決するための手段】
【0002】
本開示の一態様は、結合音響エコー消去、音声強調、およびボイス分離を使う自動音声認識のためのコンピュータ実装方法を提供する。コンピュータ実装方法は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、コンテキストフロントエンド処理モデルにおいて、ターゲット発声に対応する入力音声特徴を受信するステップを含む動作を実施させる。動作は、コンテキストフロントエンド処理モデルにおいて、参照オーディオ信号、ターゲット発声に先立つノイズを含むコンテキストノイズ信号、またはターゲット発声を発話したターゲット話者のボイス特性を含む話者埋込みのうちの少なくとも1つを受信するステップも含む。動作は、コンテキストフロントエンド処理モデルを使って、入力音声特徴と、参照オーディオ信号、コンテキストノイズ信号、または話者埋込みベクトルのうちの少なくとも1つとを処理して、強調音声特徴を生成するステップをさらに含む。
【0003】
本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、コンテキストフロントエンド処理モデルは、畳み込みと自己注意を組み合わせて、短距離および長距離対話をモデリングするコンフォーマニューラルネットワークアーキテクチャを含む。いくつかの例では、入力音声特徴と、参照オーディオ信号、コンテキストノイズ信号、または埋込みベクトルのうちの少なくとも1つとを処理するステップは、1次エンコーダを使って、入力音声特徴を処理して主入力符号化を生成するステップと、ノイズコンテキストエンコーダを使って、コンテキストノイズ信号を処理してコンテキストノイズ符号化を生成するステップとを含む。これらの例は、クロスアテンションエンコーダを使って、主入力符号化およびコンテキストノイズ符号化を処理してクロスアテンション埋込みを生成するステップと、クロスアテンション埋込みを、ターゲット発声に対応する強調入力音声特徴に復号するステップとをさらに含む。これらの例では、入力音声特徴を処理して主符号化を生成するステップは、参照オーディオ信号に対応する参照特徴をスタックされた入力音声特徴を処理して、主入力符号化を生成するステップをさらに含み得る。入力音声特徴および参照特徴は各々、ログメルフィルタバンクエネルギー(LFBE:log Mel-filterbank energy)特徴のそれぞれのシーケンスを含み得る。
【0004】
これらの例では、入力特徴を処理して主入力符号化を生成するステップは、特徴単位線形変調(FiLM:feature-wise linear modulation)を使って、入力音声特徴を話者埋込みベクトルと組み合わせて、主入力符号化を生成するステップを含み得る。ここで、主入力符号化およびコンテキストノイズ符号化を処理して、クロスアテンション埋込みを生成するステップは、FiLMを使って、主入力符号化を話者埋込みベクトルと組み合わせて、被変調主入力符号化を生成するステップと、被変調主入力符号化およびコンテキストノイズ符号化を処理して、クロスアテンション埋込みを生成するステップとを含む。追加または代替として、1次エンコーダはN個の被変調コンフォーマブロックを含んでよく、コンテキストノイズエンコーダは、N個のコンフォーマブロックを含み、1次エンコーダと並列に実行してよく、クロスアテンションエンコーダは、M個の被変調クロスアテンションコンフォーマブロックを含んでよい。
【0005】
いくつかの実装形態では、データ処理ハードウェアは、コンテキストフロントエンド処理モデルを実行し、ユーザデバイス上に存在する。ユーザデバイスは、ユーザデバイスのオーディオスピーカを介して、参照オーディオ信号をプレイバックオーディオとして出力し、ユーザデバイスの1つまたは複数のマイクロフォンを介して、ターゲット発声、参照オーディオ信号、およびコンテキストノイズ信号を取り込むように構成される。いくつかの例では、コンテキストフロントエンド処理モデルは、バックエンド自動音声認識(ASR)モデルと共同で、スペクトル損失およびASR損失を使ってトレーニングされる。これらの例では、スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数距離に基づき得る。ここで、理想的比率マスクは、残響音声および残響ノイズを使って計算される。
【0006】
さらに、これらの例では、ASR損失は、トレーニング用発声のためにコンテキストフロントエンド処理モデルによって予測される強調音声特徴を入力として受信するように構成された、ASRモデルのASRエンコーダを使って、強調音声特徴のための、ASRエンコーダの予測出力を生成することと、トレーニング用発声のためのターゲット音声特徴を入力として受信するように構成されたASRエンコーダを使って、ターゲット音声特徴のための、ASRエンコーダのターゲット出力を生成することと、強調音声特徴のための、ASRエンコーダの予測出力、およびターゲット音声特徴のための、ASRエンコーダのターゲット出力に基づいて、ASR損失を計算することとによって計算され得る。いくつかの実装形態では、動作は、バックエンド音声システムを使って、ターゲット発声に対応する強調入力音声特徴を処理することをさらに含む。これらの実装形態では、バックエンド音声システムは、自動音声認識(ASR)モデル、ホットワード検出モデル、またはオーディオもしくはオーディオビデオ通話アプリケーションのうちの少なくとも1つを含み得る。
【0007】
本開示の別の態様は、1次エンコーダ、ノイズコンテキストエンコーダ、クロスアテンションエンコーダ、およびデコーダを含む、結合音響エコー消去、音声強調、およびボイス分離を使う自動音声認識のためのコンテキストフロントエンド処理モデルを提供する。1次エンコーダは、入力として、ターゲット発声に対応する入力音声特徴を受信し、出力として、主入力符号化を生成する。ノイズコンテキストエンコーダは、入力として、ターゲット発声に先立つノイズを含むコンテキストノイズ信号を受信し、出力として、コンテキストノイズ符号化を生成する。クロスアテンションエンコーダは、入力として、1次エンコーダから出力として生成された主入力符号化、ノイズコンテキストエンコーダから出力として生成されたコンテキストノイズ符号化を受信し、出力として、クロスアテンション埋込みを生成する。デコーダは、クロスアテンション埋込みを、ターゲット発声に対応する強調入力音声特徴に復号する。
【0008】
本態様は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの例では、1次エンコーダは、入力として、参照オーディオ信号に対応する参照特徴を受信し、参照特徴をスタックされた入力音声特徴を処理することによって、主入力符号化を出力として生成するようにさらに構成される。入力音声特徴および参照特徴は各々、ログメルフィルタバンクエネルギー(LFBE)特徴のそれぞれのシーケンスを含み得る。いくつかの実装形態では、1次エンコーダは、入力として、ターゲット発声を発話したターゲット話者のボイス特性を含む話者埋込みを受信し、特徴単位線形変調(FiLM)を使って、入力音声特徴を話者埋込みと組み合わせることによって、出力として主入力符号化を生成するようにさらに構成される。
【0009】
いくつかの例では、クロスアテンションエンコーダは、特徴単位線形変調(FiLM)を使って、話者埋込みによって変調された主入力符号化を入力として受信することであって、話者埋込みは、ターゲット発生を発話したターゲット話者のボイス特性を含む、ことと、話者埋込みによって変調された主入力符号化、およびコンテキストノイズ符号化を処理して、クロスアテンション埋込みを出力として生成することとを行うようにさらに構成される。いくつかの実装形態では、1次エンコーダはN個の被変調コンフォーマブロックを含み、コンテキストノイズエンコーダは、N個のコンフォーマブロックを含み、1次エンコーダと並列に実行し、クロスアテンションエンコーダは、M個の被変調クロスアテンションコンフォーマブロックを含む。いくつかの例では、コンテキストフロントエンド処理モデルは、ユーザデバイス上に存在するデータ処理ハードウェア上で実行する。ここで、ユーザデバイスは、ユーザデバイスのオーディオスピーカを介して、参照オーディオ信号をプレイバックオーディオとして出力し、ユーザデバイスの1つまたは複数のマイクロフォンを介して、ターゲット発声、参照オーディオ信号、およびコンテキストノイズ信号を取り込むように構成される。
【0010】
いくつかの実装形態では、コンテキストフロントエンド処理モデルは、バックエンド自動音声認識(ASR)モデルと共同で、スペクトル損失およびASR損失を使ってトレーニングされる。これらの実装形態では、スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数距離に基づき得る。ここで、理想的比率マスクは、残響音声および残響ノイズを使って計算される。さらに、これらの実装形態では、ASR損失は、トレーニング用発声のためにコンテキストフロントエンド処理モデルによって予測される強調音声特徴を入力として受信することと、強調音声特徴のための、ASRエンコーダの予測出力を生成することと、トレーニング用発声のためのターゲット音声特徴を入力として受信するように構成されたASRエンコーダを使って、ターゲット音声特徴のための、ASRエンコーダのターゲット出力を生成することと、強調音声特徴のための、ASRエンコーダの予測出力、およびターゲット音声特徴のための、ASRエンコーダのターゲット出力に基づいて、ASR損失を計算することとによって計算される。いくつかの例では、バックエンド音声システムは、ターゲット発声に対応する強調入力音声特徴を処理するように構成される。これらの実装形態では、バックエンド音声システムは、自動音声認識(ASR)モデル、ホットワード検出モデル、またはオーディオもしくはオーディオビデオ通話アプリケーションのうちの少なくとも1つを含み得る。
【0011】
本開示の1つまたは複数の実装形態の詳細が、添付図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。
【背景技術】
【0012】
自動音声認識(ASR)システムの堅牢性が、ニューラルネットワークベースのエンドツーエンドのモデル、大規模トレーニングデータ、およびトレーニングデータを増強するための向上した戦略の出現とともに、長年にわたって大幅に向上している。それにもかかわらず、エコー、より耳障りなバックグラウンドノイズ、および競合音声など、様々な条件が、ASRシステムの性能を大幅に低下させる。別々のASRモデルが、これらの条件を単独で扱うようにトレーニングされてよいが、複数のタスク/条件固有ASRモデルを維持し、使用中にモデルをオンザフライで切り替えることの難しさは現実的でない。
【図面の簡単な説明】
【0013】
【
図1】ユーザが、発話されたターゲット発声を音声対応ユーザデバイスに通信することを含む例示的音声環境の概略図である。
【
図2】
図1のコンテキストフロントエンド処理モデルの概略図である。
【
図3】被変調コンフォーマブロックの概略図である。
【
図4】コンテキストフロントエンド処理モデルのクロスアテンションエンコーダによって実装される被変調コンフォーマブロックアーキテクチャの概略図である。
【
図5】コンテキストフロントエンド処理モデルおよび自動音声認識モデルを共同トレーニングするための例示的トレーニングプロセスの概略図である。
【
図6】コンテキストフロントエンド処理モデルを使う自動音声認識の方法のための動作の例示的並びの例示的フローチャートである。
【
図7】本明細書で説明するシステムおよび方法を実装するのに使用され得る例示的コンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0014】
様々な図面における同様の符号は、同様の要素を示す。
【0015】
自動音声認識(ASR)システムの堅牢性が、ニューラルネットワークベースのエンドツーエンドのモデル、大規模トレーニングデータ、およびトレーニングデータを増強するための向上した戦略の出現とともに、長年にわたって大幅に向上している。それにもかかわらず、バックグラウンド干渉が、ASRシステムに向けられた音声を正確に認識するための、ASRシステムの能力を大幅に低下させる場合がある。バックグラウンド干渉は、3つのグループ、すなわち、デバイスエコー、バックグラウンドノイズ、および競合音声に大まかに分類することができる。別々のASRモデルが、これらのバックグラウンド干渉グループの各々を独立して扱うようにトレーニングされてよいが、複数のタスク/条件固有ASRモデルを維持し、使用中にモデルをオンザフライで切り替えることの難しさは現実的でない。
【0016】
デバイスエコーは、スマートホームスピーカなどのデバイスからのプレイバックオーディオ出力に対応してよく、そうであることにより、プレイバックオーディオは、エコーとして記録され、ASRシステムなどのバックエンド音声システムの性能に影響し得る。具体的には、バックエンド音声システムの性能の低下は、プレイバックオーディオが可聴音声、たとえば、デジタルアシスタントからのテキスト-音声(TTS)応答を含む場合は特に厳しい。この問題は通常、音響エコー消去(AEC)技法により対処される。AECの一意の特性は、プレイバックオーディオに対応する参照信号が通常、入手可能であり、抑制のために使われ得ることである。
【0017】
非音声特性をもつバックグラウンドノイズは一般に、ASRモデルのマルチスタイルトレーニング(MTR)のようなデータ増強戦略を使ってうまく扱われる。ここで、室内シミュレータが、トレーニングデータにノイズを加えるのに使われ、このデータは次いで、クリーンな条件とノイズのある条件との間で性能のバランスがとられるように、トレーニング中にクリーンデータで注意深く重み付けされる。その結果、大規模ASRモデルは、中程度のレベルの非音声ノイズに対して堅牢である。ただし、バックグラウンドノイズは依然として、低信号対ノイズ比(SNR)条件が存在する場合、バックエンド音声システムの性能に影響し得る。
【0018】
非音声バックグラウンドノイズとは異なり、競合音声は、1人の話者を認識するようにトレーニングされているASRモデルにとってはかなり難易度が高い。複数話し手(multi-talker)音声でASRモデルをトレーニングすること自体が、問題を提起する場合があり、というのは、推論中に、どの話者に焦点を当てるべきかを明確にしにくいからである。複数の話者を認識するモデルを使うことも準最適であり、というのは、何人のユーザをサポートするべきかを前もって知ることは難しいからである。さらに、そのような多話者モデルは通常、単一話者設定における性能が低下してしまい、これは望ましくない。
【0019】
バックグラウンド干渉の3つの上述したクラスは通常、互いから独立して対処されており、各々が別々のモデリング戦略を使う。音声分離は、深層クラスタ化、順列不変トレーニング、および話者埋込みの使用のような技法を使う最近の文献において注目を浴びている。話者埋込みを使うとき、対象となっているターゲット話者は、事前にわかっていると仮定される。話者分離のために開発された技法も、非音声ノイズを取り除くために適用されており、トレーニングデータに対して修正が行われる。AECも、バックグラウンドノイズが存在する場合、独立して、または併せて研究されている。音声品質を向上させても、常にASR性能を向上させるわけではないことがよく知られているが、それは、非線形処理によってもち込まれた歪みが、ASR性能に悪影響を与え得るからである。これを軽減する1つのやり方は、強調フロントエンドを、バックエンドASRモデルと一緒に共同トレーニングすることである。
【0020】
その上、大規模マルチドメインおよび多言語ASRモデルの適用が関心を集め続けているが、これらのASRモデル向けのトレーニングデータは通常、様々な音響および言語使用ケース(たとえば、ボイスサーチおよびビデオキャプショニング)をカバーし、そうすることによって、より耳障りなノイズ条件に同時に対処することを困難にする。その結果、悪条件を扱うことが可能な別々のフロントエンド特徴処理モデルを、バックエンドASRモデルと組み合わせることなくトレーニングし、維持することが、しばしば好都合である。
【0021】
本明細書における実装形態は、音響エコー消去(AEC)、音声強調、および音声分離モジュールを単一モデルの中に共同で実装することによって、ASRの堅牢性を向上するためのコンテキストフロントエンド処理モデルを対象とする。特にストリーミングASR設定において、どのようなクラスのバックグラウンド干渉に対処するべきかを、前もって知ることが不可能でないとしても難しいという立場から、単一の結合モデルが現実的である。具体的には、コンテキストフロントエンド処理モデルは、3つの異なるタイプのサイドコンテキスト入力、すなわち、プレイバックオーディオに関連付けられた参照信号と、ノイズコンテキストと、対象のターゲット話者のボイス特性を表す話者埋込みとを任意選択で利用することが可能なコンテキスト強調ニューラルネットワーク(CENN)を含む。明らかになるように、プレイバックオーディオに関連付けられた参照信号は、エコー消去を提供するために必要であり、ノイズコンテキストは音声強調に有用である。さらに、ターゲット話者のボイス特性を表す話者埋込み(入手可能なとき)は、音声分離にとって重要なだけでなく、エコー消去および音声強調にも有用である。音声強調および分離のために、ノイズコンテキスト、すなわち、認識されるべきターゲット発声の前の数秒間のオーディオが、音響コンテキストについての有用な情報を保有する。CENNは、各対応するコンテキストサイド入力を取り入れるように構成されたそれぞれのニューラルネットワークアーキテクチャを利用して、ターゲット発声についての音声認識結果を生成するように強調入力音声特徴を処理し得るASRモデルなどのバックエンド音声システムに渡され得る強調入力音声特徴を生じる。特に、ノイズコンテキストおよび参照特徴が任意選択のコンテキストサイド入力であるので、ノイズコンテキストおよび参照特徴は、CENNによって、入手可能でないときにそれぞれの情報をもたない無音信号であると仮定される。
【0022】
図1を参照すると、いくつかの実装形態では、音声環境100は、ユーザ10が、発話されたターゲット発声12を音声対応ユーザデバイス110(デバイス110またはユーザデバイス110とも呼ばれる)に通信することを含む。ユーザ10(すなわち、発声12の話者)は、ターゲット発声12を、デバイス110からの応答を求めるための照会またはコマンドとして話してよい。デバイス110は、音声環境100内の1人または複数のユーザ10、11から音を取り込むように構成される。ここで、可聴音は、可聴照会、デバイス110向けのコマンド、またはデバイス110によって取り込まれた可聴通信として機能する、ユーザ10による発話された発声12を指し得る。デバイス110の、またはデバイス110に関連付けられた音声対応システムは、照会に応答すること、および/またはコマンドを実施させることによって、コマンドのための照会をさばき得る。
【0023】
様々なタイプのバックグラウンド干渉が、デバイス110向けの照会またはコマンドを指定するターゲット発声12を処理するための、バックエンド音声システム180の能力と干渉し得る。上述したように、バックグラウンド干渉は、ユーザデバイス(たとえば、スマートスピーカ)110から出力されたプレイバックオーディオ154に対応するデバイスエコーと、ユーザデバイス110に向けられていない、1人または複数の他のユーザ11によって発話された、ターゲット発声12以外の発声13などの競合音声13と、非音声特性をもつバックグラウンドノイズとを含み得る。本明細書における実装形態は、ユーザデバイス110上で実行するとともに、ターゲット発声12に対応する入力音声特徴と、1つまたは複数のコンテキスト信号213、214、215とを、入力として受信し、入力音声特徴212および1つまたは複数のコンテキスト213、214、215を処理することによって、ターゲット発声12に対応する強調入力音声特徴250を、出力として生成するように構成されるコンテキストフロントエンド処理モデル200を利用する。バックエンド音声システム180が、強調音声特徴250を処理して、出力182を生成し得る。特に、コンテキストフロントエンド処理モデル200は、バックエンド音声システム180に与えられる強調音声特徴250が、デバイス110に向けられた音声(すなわち、ターゲット発声12)を伝えるように、ユーザ10がターゲット発声12を発話したときにデバイス110によって記録されたバックグラウンド干渉の存在を効果的に取り除き、そうすることによって、バックエンド音声システム180は、バックグラウンド干渉によって劣化されない。
【0024】
図示した例において、バックエンド音声システム180は、強調入力音声特徴250を処理して、ターゲット発声12についての音声認識結果(たとえば、転写)を生成するのにASRモデルを利用するASRシステムを含む。ASRシステムは、ターゲット発声12の転写に対して意味解釈を実施して、ユーザデバイス110に向けられた照会/コマンドを識別する自然言語理解(NLU)モジュールをさらに含み得る。したがって、バックエンド音声システム180からの出力180は、NLUモジュールによって識別された照会/コマンドを満足するための転写および/または命令を含み得る。
【0025】
バックエンド音声システム180は、追加または代替として、ホットワード検出モデルが検出するようにトレーニングされている1つまたは複数のホットワード/ウォームワードの存在を強調入力音声特徴250が含むかどうかを検出するように構成されたホットワード検出モデルを含み得る。たとえば、ホットワード検出モデルは、ターゲット発声12に対応する強調入力音声特徴250が特定のホットワード/ウォームワードを含む見込みを示すホットワード検出スコアを出力し得る。ホットワードの検出は、デバイス110をスリープ状態から起動させる起動プロセスをトリガし得る。たとえば、デバイス110は起動し、ホットワードおよび/またはホットワードに先行/後続する1つもしくは複数の用語を処理し得る。
【0026】
追加の例では、バックグラウンド音声システム180は、オーディオまたはオーディオビデオ通話アプリケーション(たとえば、テレビ会議アプリケーション)を含む。ここで、ターゲット発声12に対応する強調入力音声特徴250は、オーディオまたはオーディオビデオ通話アプリケーションによって、オーディオまたはオーディオビデオ通信セッション中に、ターゲット話者10の声を、受信者への通信用にフィルタリングするのに使われる。バックグラウンド音声システム180は、追加または代替として、強調入力音声特徴250を使って話者識別を実施して、ターゲット発声12を発話したユーザ10を識別するように構成された話者識別モデルを含んでよい。
【0027】
図示した例において、ユーザデバイス110は、ユーザ10以外の1つまたは複数のソースから発生したバックグラウンド干渉が存在する中でユーザ10によって発話されたターゲット発声12の、ノイズのあるオーディオ信号202(オーディオデータとも呼ばれる)を取り込む。デバイス110は、ユーザ10に関連付けられるとともに、ノイズのあるオーディオ信号202を受信することが可能である、どのコンピューティングデバイスに対応してもよい。ユーザデバイス110のいくつかの例は、モバイルデバイス(たとえば、モバイルフォン、タブレット、ラップトップなど)、コンピュータ、装着可能デバイス(たとえば、スマートウォッチ)、スマートアプライアンス、およびモノのインターネット(IoT)デバイス、スマートスピーカなどを含むが、それらに限定されない。デバイス110は、データ処理ハードウェア112と、データ処理ハードウェア112と通信し、命令を記憶するメモリハードウェア114とを含み、命令は、データ処理ハードウェア112によって実行されると、データ処理ハードウェア112に1つまたは複数の動作を実施させる。コンテキストフロントエンド処理モデル200は、データ処理ハードウェア112上で実行し得る。いくつかの例では、バックエンド音声システム180はデータ処理ハードウェア112上で実行する。
【0028】
いくつかの例では、デバイス110は、1つまたは複数のアプリケーション(すなわち、ソフトウェアアプリケーション)を含み、各アプリケーションは、コンテキストフロントエンド処理モデル200によって生成された強調入力音声特徴250を、アプリケーション内の様々な機能を実施するのに使用してよい。たとえば、デバイス110は、ユーザ10の様々なタスクを支援するために、合成プレイバックオーディオ154をユーザ10に通信するように構成されたアシスタントアプリケーションを含む。
【0029】
デバイス110は、音声環境100内の発話された発声12を取り込み、コンバートして電気信号にするためのオーディオ取込みデバイス(たとえば、マイクロフォン)116と、可聴オーディオ信号(たとえば、デバイス110からの合成プレイバック信号154)を伝えるための音声出力デバイス(たとえば、オーディオスピーカ)118とを備えたオーディオサブシステムをさらに含む。デバイス110は、図示の例では単一のオーディオ取込みデバイス116を実装するが、デバイス110は、本開示の範囲から逸脱することなく、オーディオ取込みデバイス116のアレイを実装してもよく、それによってアレイの1つまたは複数のオーディオ取込みデバイス116が、物理的にデバイス110上にないが、オーディオサブシステム(たとえば、デバイス110の周辺機器)と通信してよい。たとえば、デバイス110は、車両全体に位置づけられたマイクロフォンのアレイを活用する車両インフォテインメントシステムに対応し得る。
【0030】
いくつかの例では、デバイス110は、ネットワーク(図示せず)を介してリモートシステム130と通信するように構成される。リモートシステム130は、リモートデータ処理ハードウェア134(たとえば、リモートサーバもしくはCPU)および/またはリモートメモリハードウェア136(たとえば、リモートデータベースもしくは他の記憶ハードウェア)などのリモートリソース132を含み得る。デバイス110は、リモートリソース132を、音声処理および/または合成されたプレイバック通信に関連した様々な機能性を実施するのに使用し得る。コンテキストフロントエンド処理モデル200およびバックエンド音声システム180は、デバイス110(オンデバイスシステムと呼ばれる)上に存在してもよく、離れて存在し(たとえば、リモートシステム130上に存在し)てもよいが、デバイス110と通信する。いくつかの例では、1つまたは複数のバックエンド音声システム180は、ローカルにまたはオンデバイスで存在し、1つまたは複数の他のバックエンド音声システム180はリモートに存在する。言い換えると、コンテキストフロントエンド処理モデル200から出力された強調入力音声特徴250を活用する1つまたは複数のバックエンド音声システム180は、任意の組合せで、ローカルまたはリモートであってよい。たとえば、システム180がサイズまたは処理要件においてかなり大きいとき、システム180はリモートシステム130中に存在してよい。ただし、デバイス110が1つまたは複数のシステム180のサイズまたは処理要件をサポートし得るとき、1つまたは複数のシステム180は、データ処理ハードウェア112および/またはメモリハードウェア114を使うデバイス110上に存在してよい。任意選択で、システム180のうちの1つまたは複数は、ローカル/オンデバイスとリモートの両方で存在してよい。たとえば、バックエンド音声システム180は、デバイス110とリモートシステム130との間の接続が利用可能なとき、デフォルトでリモートシステム130上で実行してよいが、接続が失われるかまたは利用不可能なとき、システム180は代わりに、デバイス110上でローカルに実行する。
【0031】
いくつかの実装形態では、デバイス110またはデバイス110に関連付けられたシステムは、ユーザ10によって発話された照会への応答として、デバイス110がユーザ10に対して通信するテキストを識別する。デバイス110は次いで、テキスト-音声(TTS)システムを使って、テキストを、照会への応答としてデバイス110がユーザ10に通信する(たとえば、ユーザ10に可聴通信する)ための対応する合成プレイバックオーディオ154にコンバートすればよい。生成されると、TTSシステムは、合成プレイバックオーディオ154をデバイス110に通信して、デバイス110が合成プレイバックオーディオ154を出力できるようにする。たとえば、デバイス110は、今日の天気予報についての発話照会をユーザ10が与えたことに応答して、デバイス110のスピーカ118の所で、「今日は晴れています」という合成プレイバックオーディオ154を出力する。
【0032】
引き続き
図1を参照すると、デバイス110が合成プレイバックオーディオ154を出力すると、合成プレイバックオーディオ154は、オーディオ取込みデバイス116によって取り込まれたエコー156を生成する。合成プレイバックオーディオ154は、参照オーディオ信号に対応する。合成プレイバックオーディオ154は、
図1の例では参照オーディオ信号を示すが、参照オーディオ信号は、スピーカ118から出力されたメディアコンテンツまたはデバイス110を通してユーザ10と会話しているリモートユーザからの通信(たとえば、ボイスオーバーIPコールもしくはテレビ会議コール)を含む他のタイプのプレイバックオーディオ154を含んでよい。残念ながら、エコー156に加え、オーディオ取込みデバイス116は、「明日はどう?」と言うことによって、天気についてさらに尋ねる追跡照会を含む、ユーザ10によって発話されたターゲット発声12を同時に取り込んでいる場合もある。たとえば、
図1は、デバイス110が合成プレイバックオーディオ154を出力するとき、ユーザ10が、「明日はどう?」と言うことによって、デバイス110に対する発話された発声12において、天気についてさらに尋ねることを示す。ここで、発話された発声12とエコー156は両方とも、オーディオ取込みデバイス116において同時に取り込まれて、ノイズのあるオーディオ信号202を形成する。言い換えると、オーディオ信号202は、重複オーディオ信号を含み、ここで、ユーザ10によって発話されたターゲット発声12の一部が、デバイス110のスピーカ118から出力された参照オーディオ信号(たとえば、合成プレイバックオーディオ)154の一部と重複する。合成プレイバックオーディオ154に加え、環境中の別のユーザ11によって発話された競合音声13も、オーディオ取込みデバイス116によって取り込まれ、ターゲット発声12と重複するバックグラウンド干渉に寄与し得る。
【0033】
図1において、バックエンド音声システム180は、プレイバックオーディオ154、競合音声13、またはターゲット発声12と干渉する非音声バックグラウンドノイズのうちの少なくとも1つに起因したバックグラウンド干渉が存在するせいで、ノイズのあるオーディオ信号202の中の、「明日はどう?」という追跡天気照会に対応するターゲット発声12を処理することに問題があり得る。コンテキストフロントエンド処理モデル200は、音響エコー消去(AEC)、音声強調、および音声分離モデル/モジュールを単一モデルの中に共同実装することによって、バックエンド音声システム180の堅牢性を向上するのに利用される。
【0034】
音響エコー消去(AEC)を実施するために、単一モデル200は、デバイスによってプレイバックされている参照信号154を、モデル200への入力として使う。参照信号154は、ターゲット発声12と時間整合され、同じ長さであると仮定される。いくつかの例では、特徴抽出器(図示せず)が、参照オーディオ信号154に対応する参照特徴214を抽出する。参照特徴214は、参照オーディオ信号154のログメルフィルタバンクエネルギー(LFBE)特徴を含み得る。同様に、特徴抽出器は、ターゲット発声12に対応する音声入力特徴212を抽出し得る。音声入力特徴212はLFBE特徴を含み得る。以下でより詳細に記載するように、音声入力特徴212は、参照特徴214をスタックされ、AECを実施するために、入力として単一モデル200の1次エンコーダ210(
図2)に与えられてよい。デバイスによって再生されている参照オーディオ信号154がない場合、音声入力特徴212のみが1次エンコーダ210への入力として受信されるような全ゼロ参照信号が使われてよい。
【0035】
単一モデル200は、ノイズコンテキストモデリングを適用することによって、AECと並行して、音声強調をさらに実施することができ、ここで単一モデル200は、ユーザ10によって発話されたターゲット発声12に先立ってオーディオ取込みデバイス116によって取り込まれた、所定の持続時間のノイズセグメントに関連付けられたコンテキストノイズ信号213を処理する。いくつかの例では、所定の持続時間は6秒間のノイズセグメントを含む。したがって、コンテキストノイズ信号213はノイズコンテキストを提供する。いくつかの例では、コンテキストノイズ信号213は、ノイズコンテキスト信号のLFBE特徴を、コンテキスト情報として使うために含む。
【0036】
任意選択で、単一モデル200は、AECおよび音声強調と共同で、音声分離のためのターゲット話者モデリングをさらに実施し得る。ここで、話者埋込み215が、単一モデル200による入力として受信される。話者埋込み215は、ターゲット発声12を発話したターゲット話者10のボイス特性を含み得る。話者埋込み215はdベクトルを含み得る。いくつかの例では、話者埋込み215は、一般化エンドツーエンド拡張セットソフトマックス損失でトレーニングされたテキスト非依存話者識別(TI-SID)モデルを使って計算される。TI-SIDは、768個のノードおよび256の投射サイズをもつ3つの長短期メモリ(LSTM)レイヤを含み得る。最後のLSTMレイヤの最終フレームの出力が次いで、最終256次元dベクトルに線形変換される。
【0037】
トレーニングおよび評価のために、各ターゲット発声が、同じ話者からの別個の「登録」発声とペアにされ得る。登録発声は、ターゲット話者の入手可能発声のプールからランダムに選択されてよい。dベクトルは次いで、登録発声について計算される。大部分の実際のアプリケーション用に、登録発声は一般に、別個のオフラインプロセスにより取得される。
【0038】
図2は、
図1のコンテキストフロントエンド処理モデル200を示す。コンテキストフロントエンド処理モデル200は、短距離および長距離対話をモデリングするために、畳み込みと自己注意を組み合わせる、コンフォーマニューラルネットワークアーキテクチャの修正バージョンを使う。モデル200は、1次エンコーダ210、ノイズコンテキストエンコーダ220、クロスアテンションエンコーダ400、およびデコーダ240を含む。1次エンコーダ210は、N個の被変調コンフォーマブロックを含み得る。ノイズコンテキストエンコーダ220は、N個のコンフォーマブロックを含み得る。クロスアテンションエンコーダ400は、M個の被変調クロスアテンションコンフォーマブロックを含み得る。1次およびノイズコンテキストエンコーダ210、220は、並列に実行し得る。本明細書で使用する限り、各コンフォーマブロックは、ストリーミング能力を可能にするために、ローカルな、因果的自己注意を使ってよい。
【0039】
1次エンコーダ210は、ターゲット発声に対応する入力音声特徴212を入力として受信し、主入力符号化218を出力として生成するように構成され得る。参照オーディオ信号154が入手可能なとき、1次エンコーダ210は、参照オーディオ信号に対応する参照特徴214をスタックされた入力音声特徴212を入力として受信し、参照特徴214をスタックされた入力音声特徴212を処理することによって主入力符号化を生成するように構成される。入力音声特徴および参照特徴は各々、LFBE特徴のそれぞれのシーケンスを含み得る。
【0040】
1次エンコーダ210は、ターゲット発声12を発話したターゲット話者10のボイス特性を含む話者埋込み215(すなわち、入手可能なとき)を、入力として受信し、特徴単位線形変調(FiLM)レイヤを使って入力音声特徴212(または参照特徴214をスタックされた入力音声特徴)を組み合わせることによって、主入力符号化を出力として生成するようにさらに構成されてよい。
図3は、1次エンコーダ210によって利用される例示的被変調コンフォーマブロック300を提供する。ここで、1次エンコーダ210における各コンフォーマブロックの前で、話者埋込み215(たとえば、dベクトル)は、FiLMレイヤを使って、入力音声特徴212(または入力音声および参照特徴214のスタック)と組み合わされる。FiLMは、1次エンコーダ210が、その符号化を、ターゲット話者10の話者埋込み215に基づいて調節することを許可する。話者埋込みがないときにアーキテクチャがうまく実施できることを保証するために、FiLMレイヤの後に残差接続が加えられる。数学的に、被変調コンフォーマブロック300は、次のように、変調特徴mを使って入力特徴xを変換して、出力特徴yを生じる。
【0041】
【0042】
ここで、h(・)およびr(・)はアフィン変換である。FFN、Conv、およびMHSAは、それぞれ、フィードフォワードモジュール、畳み込みモジュール、および多ヘッド自己注意モジュールを表す。式1は、残差接続のある特徴単位線形変調(FiLM)レイヤを示す。
【0043】
図2を再び参照すると、ノイズコンテキストエンコーダ220は、ターゲット発声に先立つノイズを含むコンテキストノイズ信号213を、入力として受信し、コンテキストノイズ符号化222を出力として生成するように構成される。コンテキストノイズ信号213は、コンテキストノイズ信号のLFBE特徴を含み得る。ノイズコンテキストエンコーダ220は、1次およびクロスアテンションエンコーダ210、400とは異なり、話者埋込み215での変調なしの標準コンフォーマブロックを含む。ノイズコンテキストエンコーダ220は、コンテキストノイズ信号213を話者埋込み215では変調せず、というのは、コンテキストノイズ信号213は、ターゲット発声12が発話されるのに先立って、音響ノイズコンテキストに関連付けられ、したがって、ノイズ抑制を助けるために、クロスアテンションエンコーダ400に順に渡されるべき情報を含むと仮定されるからである。
【0044】
引き続き
図2を参照すると、クロスアテンションエンコーダ400は、1次エンコーダ210から出力として生成された主入力符号化218と、ノイズコンテキストエンコーダ220から出力として生成されたコンテキストノイズ符号化222とを、入力として受信し、クロスアテンション埋込み480を出力として生成するように構成されてよい。その後、デコーダ240は、クロスアテンション埋込み480を、ターゲット発声12に対応する強調入力音声特徴250に復号するように構成される。コンテキストノイズ符号化222は補助入力に対応し得る。デコーダは、シグモイド活性化のある単一レイヤ、フレーム単位完全接続ネットワークを有する簡素な投射デコーダを含み得る。
【0045】
図4に示すように、クロスアテンションエンコーダ400は、
図3に記載したようにFiLMを使って話者埋込み215によって変調された主入力符号化218と、ノイズコンテキストエンコーダ220から出力されたコンテキストノイズ符号化222とを入力として各々が受信する、M個の被変調コンフォーマブロックのそれぞれのセットを利用し得る。クロスアテンションコンフォーマエンコーダは最初に、半フィードフォワードネットおよび畳み込みブロックを使って、変調入力218および補助入力222を独自に処理する。続いて、クロスアテンションブロックが、処理された入力を照会ベクトルとして使って補助入力を要約するのに使われる。直観的に、クロスアテンションブロックの役割は、強調されるべきである各入力フレーム用に、ノイズコンテキストを別々に要約することである。要約された補助特徴は次いで、FiLMレイヤを使って入力とマージされ、FiLMレイヤの後には第2のクロスアテンションレイヤが続いて、マージされた特徴をさらに処理する。数学的には、x、m、およびnが、直前のレイヤからの符号化入力、dベクトルおよび符号化ノイズコンテキストである場合、クロスアテンションエンコーダは以下のことを行う。
【0046】
【0047】
したがって、入力は、ターゲット話者に関連付けられた話者埋込み215とノイズコンテキスト符号化222の両方によって、M個のコンフォーマブロックの各々によって変調される。
【0048】
いくつかの実装形態では、コンテキストフロントエンド処理モデルは、スペクトル損失およびASR損失を使って、バックエンド自動音声認識(ASR)モデルと共同でトレーニングされる。コンテキストフロントエンド処理モデル200をトレーニングするためのトレーニングターゲットは、理想的比率マスクを使う。IRMは、音声とノイズがメルスペクトル空間において相関されないという仮定に基づいて、残響音声および残響ノイズを使って次のように計算される。
【0049】
【0050】
ここで、XおよびNは、それぞれ、残響音声および残響ノイズメルスペクトログラムである。tおよびcは、時間およびメル周波数ビンインデックスを表す。ターゲットが[0,1]の間に境界されるので、我々は、IRMを推定し、推定プロセスを簡単にすることを選ぶ。その上、ASRモデルは、評価のために使われ、実際の、シミュレートされた残響データでトレーニングされ、残響音声に対して比較的堅牢にする。したがって、ターゲットとして残響音声を使って導出されたIRMは依然として、性能における大幅な利得を提供する。トレーニング中のスペクトル損失は、IRMと推定IRM、すなわち
【0051】
【0052】
との間のL1およびL2損失に基づいて、次のように計算される。
【0053】
【0054】
推論中、推定IRMは、ノイズ抑制の削減を犠牲にして、音声歪みを削減するようにスケーリングされ、フロアリングされる。これは特に重要であり、というのは、ASRモデルは音声歪みおよび非線形フロントエンド処理に対して敏感であり、このことが、強調フロントエンドを使う堅牢なASRモデルの性能を向上する上での主たる困難のうちの1つだからである。強調特徴は、次のように導出される。
【0055】
【0056】
ここで、Yは、ノイズのあるメルスペクトログラムであり、
【0057】
【0058】
は、クリーンなメルスペクトログラムの推定値であり、αおよびβは指数マスクスカラーおよびマスクフロアであり、
【0059】
【0060】
は点ごとの乗算である。我々の評価では、αが0.5と設定され、βが0.01に設定される。強調特徴はログ圧縮され、すなわち、
【0061】
【0062】
であり、評価のためにASRモデルに渡される。
【0063】
図5は、コンテキストフロントエンド処理モデル200がASRモデルと共同でトレーニングされるとき、ASR損失を計算するための例示的トレーニングプロセス500を示す。ここで、ASRモデルのエンコーダのみが、損失を計算するために使われる。損失は、ターゲット特徴および強調特徴のための、ASRエンコーダ510の出力の間のl2距離として計算される。ASRエンコーダ510は、トレーニング中は更新されない。詳しくは、トレーニングプロセス500は、トレーニング用発声のためにコンテキストフロントエンド処理モデル200によって予測された強調音声特徴を入力として受信するように構成されたASRモデルのASRエンコーダ510を使って、強調音声特徴のための、ASRエンコーダ510の予測出力を生成すること、およびトレーニング用発声のためのターゲット音声特徴を入力として受信するように構成されたASRエンコーダ510を使って、ターゲット音声特徴のための、ASRエンコーダ510のターゲット出力を生成することによって、ASR損失を計算する。予測強調音声特徴およびターゲット音声特徴は各々、LFBE特徴のそれぞれのシーケンスを含み得る。その後、トレーニングプロセス500は、損失モジュール520を介して、強調音声特徴のための、ASRエンコーダ510の予測出力と、ターゲット音声特徴のための、ASRエンコーダ510のターゲット出力とに基づいてASR損失を計算する。ASR損失を使うことの目標は、強調をASRモデルとより調和させることであり、これは、強調フロントエンドから最高性能を引き出すために重要である。ASRモデルのパラメータを固定したままにすることによって、ASRモデルは、コンテキストフロントエンド処理モデル200から切り離され、そうすることによって、各々が互いに依存せずにトレーニングされ、展開される。
【0064】
図6は、コンテキストフロントエンド処理モデル200を使う自動音声認識を実施する方法600のための動作の例示的並びのフローチャートを含む。動作602において、方法600は、コンテキストフロントエンド処理モデル200において、ターゲット発声12に対応する入力音声特徴212を受信するステップを含む。方法600は、動作604において、コンテキストフロントエンド処理モデル200において、参照オーディオ信号154、ターゲット発声12に先立つノイズを含むコンテキストノイズ信号213、またはターゲット発声12を発話したターゲット話者10のボイス特性を含む話者埋込みベクトル215のうちの少なくとも1つを受信するステップも含む。動作606において、方法600は、コンテキストフロントエンド処理モデル200を使って、入力音声特徴212と、参照オーディオ信号154、コンテキストノイズ信号213、または話者埋込みベクトル215のうちの少なくとも1つとを処理して、強調音声特徴250を生成するステップをさらに含む。
【0065】
図7は、本文書に記載するシステムおよび方法を実装するのに使うことができる例示的コンピューティングデバイス700の概略図である。コンピューティングデバイス700は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形のデジタルコンピュータを表すことを意図している。ここに示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示であることのみを目的としており、本文書において記載および/または請求される本開示の実装形態を限定することは目的としていない。
【0066】
コンピューティングデバイス700は、プロセッサ710と、メモリ720と、記憶デバイス730と、メモリ720および高速拡張ポート750に接続する高速インターフェース/コントローラ740と、低速バス770および記憶デバイス730に接続する低速インターフェース/コントローラ760とを含む。構成要素710、720、730、740、750、および760の各々は、様々なバスを使用して相互接続され、共通マザーボード上に、または適宜に他の方法で搭載され得る。プロセッサ710(すなわち、データ処理ハードウェア112、134のいずれかを含み得るデータ処理ハードウェア710)は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を、高速インターフェース740に結合されたディスプレイ780などの外部入力/出力デバイス上に表示するための、メモリ720中または記憶デバイス730上に記憶された命令を含む、コンピューティングデバイス700内での実行のための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに使われてよい。また、複数のコンピューティングデバイス700が接続されてよく、各デバイスは、必要な動作の部分を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。
【0067】
メモリ720(すなわち、メモリハードウェア114、136のいずれかを含み得るメモリハードウェア720)は、コンピューティングデバイス700内に情報を非一時的に記憶する。メモリ720は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ720は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス700による使用のために、一時的または永続的に記憶するのに使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使用される)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。
【0068】
記憶デバイス730は、コンピューティングデバイス700に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス730は、コンピュータ可読媒体である。様々な異なる実装形態では、記憶デバイス730は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、あるいは、ストレージエリアネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実装形態では、コンピュータプログラム製品が、情報キャリア中で有形に実施される。コンピュータプログラム製品は、実行されると、上記で説明した方法などの1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ720、記憶デバイス730、またはプロセッサ710上のメモリなどのコンピュータまたは機械可読媒体である。
【0069】
高速コントローラ740は、コンピューティングデバイス700向けの帯域消費型動作を管理し、低速コントローラ760は、より帯域低消費型の動作を管理する。そのような役割の割振りは、例示的なものにすぎない。いくつかの実装形態において、高速コントローラ740は、メモリ720、ディスプレイ780に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)、および様々な拡張カード(図示せず)を受ける場合がある高速拡張ポート750に結合される。いくつかの実装形態において、低速コントローラ760は、記憶デバイス730および低速拡張ポート790に結合される。低速拡張ポート790は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得るが、キーボード、ポインティングデバイス、スキャナなど、1つもしくは複数の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえば、ネットワークアダプタを通して結合され得る。
【0070】
コンピューティングデバイス700は、図に示すように、いくつかの異なる形で実装されてよい。たとえば、標準サーバ700aとして、もしくはそのようなサーバ700aのグループで何度も、ラップトップコンピュータ700bとして、またはラックサーバシステム700cの一部として実装されてよい。
【0071】
本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光学回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現され得る。これらの様々な実装形態は、少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能および/または翻訳可能な1つまたは複数のコンピュータプログラムでの実装を含んでよく、プログラム可能プロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するように、ならびにそれらにデータおよび命令を送信するように結合された、特殊または一般的目的であってよい。
【0072】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実施させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的アプリケーションは、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーム用アプリケーションを含む。
【0073】
非一時的メモリは、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイスによる使用のために、一時的または永続的に記憶するのに使われる物理デバイスであってよい。非一時的メモリは、揮発性および/または不揮発性アドレス可能半導体メモリであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェアのために使用される)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。
【0074】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能プロセッサ用の機械命令を含み、高度手続型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ/機械言語で実装され得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに、機械命令および/またはデータを提供するために使用される、任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。
【0075】
本明細書に記載したプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実施するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能プロセッサによって実施することができる。プロセスおよび論理フローは、特殊目的論理回路構成、たとえば、FPGA(フィールドプログラム可能ゲートアレイ)やASIC(特定用途向け集積回路)によって実施することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から、命令およびデータを受信することになる。コンピュータの本質的要素は、命令を実施するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受信し、もしくはデータを転送し、または両方を行うように大容量記憶デバイスに動作可能に結合される。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内部ハードディスクまたは取外し可能ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、あらゆる形の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完され得るか、専用論理回路に組み込まれ得る。
【0076】
ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)やLCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、任意選択で、ユーザがコンピュータに入力を与えることができるためのキーボードおよびポインティングデバイス、たとえば、マウスやトラックボールとを有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザとの対話を提供するのに使われることが可能であり、たとえば、ユーザに与えられるフィードバックは、どの形の感覚フィードバックでも、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声、または触覚入力を含む、どの形でも受信されることが可能である。さらに、コンピュータは、ユーザによって使われるデバイスへドキュメントを送信し、デバイスからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザへウェブページを送信することによって、ユーザと対話することができる。
【0077】
いくつかの実装形態について説明した。それにもかかわらず、本開示の趣旨および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、他の実装形態が、以下の特許請求の範囲内にある。
【符号の説明】
【0078】
110 音声対応ユーザデバイス、デバイス、ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 オーディオ取込みデバイス
118 音声出力デバイス、スピーカ
130 リモートシステム
132 リモートリソース
134 リモートデータ処理ハードウェア、データ処理ハードウェア
136 リモートメモリハードウェア、メモリハードウェア
180 バックエンド音声システム、システム
200 コンテキストフロントエンド処理モデル、モデル
210 1次エンコーダ
220 ノイズコンテキストエンコーダ
240 デコーダ
300 被変調コンフォーマブロック
400 クロスアテンションエンコーダ
510 ASRエンコーダ
520 損失モジュール
700 コンピューティングデバイス
700a サーバ
700b ラップトップコンピュータ
700c ラックサーバシステム
710 プロセッサ、構成要素
720 メモリ、構成要素、メモリハードウェア
730 記憶デバイス、構成要素
740 高速インターフェース/コントローラ、構成要素
750 高速拡張ポート、構成要素
760 低速インターフェース/コントローラ、構成要素
770 低速バス
780 ディスプレイ
790 低速拡張ポート
【手続補正書】
【提出日】2024-03-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データ処理ハードウェア(710)上で実行されると、前記データ処理ハードウェア(710)に動作を実施させるコンピュータ実装方法(600)であって、前記動作は、
コンテキストフロントエンド処理モデル(200)において、ターゲット発声(12)に対応する入力音声特徴(212)、および
参照オーディオ信号(154)、
前記ターゲット発声(12)に先立つノイズを含むコンテキストノイズ信号(213)、または
前記ターゲット発声(12)を発話したターゲット話者(10)のボイス特性を含む話者埋込みベクトル(215)のうちの少なくとも1つを受信するステップと、
前記コンテキストフロントエンド処理モデル(200)を使って、前記入力音声特徴(212)、および前記参照オーディオ信号(154)、前記コンテキストノイズ信号(213)、または前記話者埋込みベクトル(215)のうちの前記少なくとも1つを処理して、強調音声特徴(250)を生成するステップとを含む、コンピュータ実装方法(600)。
【請求項2】
前記コンテキストフロントエンド処理モデル(200)は、畳み込みと自己注意を組み合わせて、短距離および長距離対話をモデリングするコンフォーマニューラルネットワークアーキテクチャを備える、請求項1に記載のコンピュータ実装方法(600)。
【請求項3】
前記入力音声特徴(212)、および前記参照オーディオ信号(154)、前記コンテキストノイズ信号(213)、または前記話者埋込みベクトル(215)のうちの前記少なくとも1つを処理するステップは、
1次エンコーダ(210)を使って、前記入力音声特徴(212)を処理して、主入力符号化(218)を生成するステップと、
ノイズコンテキストエンコーダ(220)を使って、前記コンテキストノイズ信号(213)を処理して、コンテキストノイズ符号化(222)を生成するステップと、
クロスアテンションエンコーダ(400)を使って、前記主入力符号化(218)および前記コンテキストノイズ符号化(222)を処理して、クロスアテンション埋込み(480)を生成するステップと、
前記クロスアテンション埋込み(480)を、前記ターゲット発声(12)に対応する前記強調音声特徴(250)に復号するステップとを含む、請求項1または2に記載のコンピュータ実装方法(600)。
【請求項4】
前記入力音声特徴(212)を処理して、前記主入力符号化(218)を生成するステップは、前記参照オーディオ信号(154)に対応する参照特徴(214)をスタックされた前記入力音声特徴(212)を処理して、前記主入力符号化(218)を生成するステップをさらに含む、請求項3に記載のコンピュータ実装方法(600)。
【請求項5】
前記入力音声特徴(212)および前記参照特徴(214)は各々、ログメルフィルタバンクエネルギー(LFBE)特徴のそれぞれのシーケンスを含む、請求項
4に記載のコンピュータ実装方法(600)。
【請求項6】
前記入力音声特徴(212)を処理して、前記主入力符号化(218)を生成するステップは、特徴単位線形変調(FiLM)を使って、前記入力音声特徴(212)を前記話者埋込みベクトル(215)と組み合わせて、前記主入力符号化(218)を生成するステップを含み、
前記主入力符号化(218)および前記コンテキストノイズ符号化(222)を処理して、前記クロスアテンション埋込み(480)を生成するステップは、
FiLMを使って、前記主入力符号化(218)を前記話者埋込みベクトル(215)と組み合わせて、被変調主入力符号化(218)を生成するステップと、
前記被変調主入力符号化(218)および前記コンテキストノイズ符号化(222)を処理して、前記クロスアテンション埋込み(480)を生成するステップとを含む、請求項3に記載のコンピュータ実装方法(600)。
【請求項7】
前記1次エンコーダ(210)はN個の被変調コンフォーマブロックを備え、
前記ノイズコンテキストエンコーダ(220)は、N個のコンフォーマブロックを備え、前記1次エンコーダ(210)と並列に実行し、
前記クロスアテンションエンコーダ(400)はM個の被変調クロスアテンションコンフォーマブロックを備える、請求項3から6のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項8】
前記データ処理ハードウェア(710)は、前記コンテキストフロントエンド処理モデル(200)を実行し、ユーザデバイス(110)上に存在し、前記ユーザデバイス(110)は、
前記参照オーディオ信号(154)を、前記ユーザデバイス(110)のオーディオスピーカ(118)を介して、プレイバックオーディオとして出力することと、
前記ユーザデバイス(110)の1つまたは複数のマイクロフォン(116)を介して、前記ターゲット発声(12)、前記参照オーディオ信号(154)、および前記コンテキストノイズ信号(213)を取り込むこととを行うように構成される、請求項1から7のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項9】
前記コンテキストフロントエンド処理モデル(200)は、スペクトル損失およびASR損失を使って、バックエンド自動音声認識(ASR)モデルと共同でトレーニングされる、請求項1から8のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項10】
前記スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数距離に基づき、前記理想的比率マスクは、残響音声および残響ノイズを使って計算される、請求項9に記載のコンピュータ実装方法(600)。
【請求項11】
前記ASR損失は、
トレーニング用発声のための、前記コンテキストフロントエンド処理モデル(200)によって予測された強調音声特徴(250)を入力として受信するように構成された前記ASRモデルのASRエンコーダ(510)を使って、前記強調音声特徴(250)のための、前記ASRエンコーダ(510)の予測出力を生成することと、
前記トレーニング用発声のためのターゲット音声特徴を入力として受信するように構成された前記ASRエンコーダ(510)を使って、前記ターゲット音声特徴のための、前記ASRエンコーダ(510)のターゲット出力を生成することと、
前記強調音声特徴(250)のための、前記ASRエンコーダ(510)の前記予測出力、および前記ターゲット音声特徴のための、前記ASRエンコーダ(510)の前記ターゲット出力に基づいて、前記ASR損失を計算することとによって計算される、請求項9または10に記載のコンピュータ実装方法(600)。
【請求項12】
前記動作は、バックエンド音声システム(180)を使って、前記ターゲット発声(12)に対応する前記強調音声特徴(250)を処理することをさらに含む、請求項1から11のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項13】
前記バックエンド音声システム(180)は、
自動音声認識(ASR)モデル、
ホットワード検出モデル、または
オーディオもしくはオーディオビデオ通話アプリケーションのうちの少なくとも1つを備える、請求項12に記載のコンピュータ実装方法(600)。
【請求項14】
コンテキストフロントエンド処理モデル(200)であって、
入力として、ターゲット発声(12)に対応する入力音声特徴(212)を受信することと、
出力として、主入力符号化(218)を生成することとを行うように構成された1次エンコーダ(210)と、
入力として、前記ターゲット発声(12)に先立つノイズを含むコンテキストノイズ信号(213)を受信することと、
出力として、コンテキストノイズ符号化(222)を生成することとを行うように構成されたノイズコンテキストエンコーダ(220)と、
前記1次エンコーダ(210)から出力として生成された前記主入力符号化(218)、および前記ノイズコンテキストエンコーダ(220)から出力として生成された前記コンテキストノイズ符号化(222)を、入力として受信することと、
出力として、クロスアテンション埋込み(480)を生成することとを行うように構成されたクロスアテンションエンコーダ(400)と、
前記クロスアテンション埋込み(480)を、前記ターゲット発声(12)に対応する強調音声特徴(250)に復号するように構成されたデコーダ(240)とを備えるコンテキストフロントエンド処理モデル(200)。
【請求項15】
前記1次エンコーダ(210)は、
参照オーディオ信号(154)に対応する参照特徴(214)を、入力として受信することと、
前記参照特徴(214)をスタックされた前記入力音声特徴(212)を処理することによって、前記主入力符号化(218)を出力として生成することとを行うようにさらに構成される、請求項14に記載のコンテキストフロントエンド処理モデル(200)。
【請求項16】
前記入力音声特徴(212)および前記参照特徴(214)は各々、ログメルフィルタバンクエネルギー(LFBE)特徴のそれぞれのシーケンスを含む、請求項
15に記載のコンテキストフロントエンド処理モデル(200)。
【請求項17】
前記1次エンコーダ(210)は、
前記ターゲット発声(12)を発話したターゲット話者(10)のボイス特性を含む話者埋込みベクトル(215)を入力として受信することと、
特徴単位線形変調(FiLM)を使って、前記入力音声特徴(212)を前記話者埋込みベクトル(215)と組み合わせることによって、前記主入力符号化(218)を出力として生成することとを行うようにさらに構成される、請求項14から16のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項18】
前記クロスアテンションエンコーダ(400)は、
特徴単位線形変調(FiLM)を使って、話者埋込みベクトル(215)によって変調された前記主入力符号化(218)を入力として受信することであって、前記話者埋込みベクトル(215)は、前記ターゲット発声(12)を発話したターゲット話者(10)のボイス特性を含む、ことと、
前記話者埋込みベクトル(215)によって変調された前記主入力符号化(218)、および前記コンテキストノイズ符号化(222)を処理して、前記クロスアテンション埋込み(480)を出力として生成することとを行うようにさらに構成される、請求項14から17のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項19】
前記1次エンコーダ(210)はN個の被変調コンフォーマブロックを備え、
前記ノイズコンテキストエンコーダ(220)は、N個のコンフォーマブロックを備え、前記1次エンコーダ(210)と並列に実行し、
前記クロスアテンションエンコーダ(400)はM個の被変調クロスアテンションコンフォーマブロックを備える、請求項14から18のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項20】
前記コンテキストフロントエンド処理モデル(200)は、ユーザデバイス(110)上に存在するデータ処理ハードウェア(710)上で実行し、前記ユーザデバイス(110)は、
参照オーディオ信号(154)を、前記ユーザデバイス(110)のオーディオスピーカ(118)を介して、プレイバックオーディオとして出力することと、
前記ユーザデバイス(110)の1つまたは複数のマイクロフォン(116)を介して、前記ターゲット発声(12)、前記参照オーディオ信号(154)、および前記コンテキストノイズ信号(213)を取り込むこととを行うように構成される、請求項14から19のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項21】
前記コンテキストフロントエンド処理モデル(200)は、スペクトル損失およびASR損失を使って、バックエンド自動音声認識(ASR)モデルと共同でトレーニングされる、請求項14から20のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項22】
前記スペクトル損失は、推定比率マスクと理想的比率マスクとの間のL1損失関数およびL2損失関数距離に基づき、前記理想的比率マスクは、残響音声および残響ノイズを使って計算される、請求項21に記載のコンテキストフロントエンド処理モデル(200)。
【請求項23】
前記ASR損失は、
トレーニング用発声のための、前記コンテキストフロントエンド処理モデル(200)によって予測された強調音声特徴(250)を入力として受信するように構成された前記ASRモデルのASRエンコーダ(510)を使って、前記強調音声特徴(250)のための、前記ASRエンコーダ(510)の予測出力を生成することと、
前記トレーニング用発声のためのターゲット音声特徴を入力として受信するように構成された前記ASRエンコーダ(510)を使って、前記ターゲット音声特徴のための、前記ASRエンコーダ(510)のターゲット出力を生成することと、
前記強調音声特徴(250)のための、前記ASRエンコーダ(510)の前記予測出力、および前記ターゲット音声特徴のための、前記ASRエンコーダ(510)の前記ターゲット出力に基づいて、前記ASR損失を計算することとによって計算される、請求項21または22に記載のコンテキストフロントエンド処理モデル(200)。
【請求項24】
バックエンド音声システム(180)は、前記ターゲット発声(12)に対応する前記強調音声特徴(250)を処理するように構成される、請求項14から23のいずれか一項に記載のコンテキストフロントエンド処理モデル(200)。
【請求項25】
前記バックエンド音声システム(180)は、
自動音声認識(ASR)モデル、
ホットワード検出モデル、または
オーディオもしくはオーディオビデオ通話アプリケーションのうちの少なくとも1つを備える、請求項24に記載のコンテキストフロントエンド処理モデル(200)。
【国際調査報告】