IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2024-538680カスケードエンコーダのためのトランスデューサベースのストリーミングの審議
<>
  • 特表-カスケードエンコーダのためのトランスデューサベースのストリーミングの審議 図1
  • 特表-カスケードエンコーダのためのトランスデューサベースのストリーミングの審議 図2
  • 特表-カスケードエンコーダのためのトランスデューサベースのストリーミングの審議 図3
  • 特表-カスケードエンコーダのためのトランスデューサベースのストリーミングの審議 図4
  • 特表-カスケードエンコーダのためのトランスデューサベースのストリーミングの審議 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】カスケードエンコーダのためのトランスデューサベースのストリーミングの審議
(51)【国際特許分類】
   G10L 15/08 20060101AFI20241016BHJP
   G10L 15/16 20060101ALI20241016BHJP
   G06N 3/0455 20230101ALI20241016BHJP
【FI】
G10L15/08 200Z
G10L15/16
G06N3/0455
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024520609
(86)(22)【出願日】2022-09-19
(11)【特許番号】
(45)【特許公報発行日】2024-10-01
(85)【翻訳文提出日】2024-05-22
(86)【国際出願番号】 US2022076659
(87)【国際公開番号】W WO2023059980
(87)【国際公開日】2023-04-13
(31)【優先権主張番号】63/262,089
(32)【優先日】2021-10-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
2.イーサネット
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アルン・ナラヤナン
(72)【発明者】
【氏名】ケ・フ
(72)【発明者】
【氏名】タラ・エヌ・サイナス
(72)【発明者】
【氏名】ルオミン・パン
(72)【発明者】
【氏名】トレヴァー・ストローマン
(57)【要約】
方法(400)は、音響フレーム(110)のシーケンスを受信するステップと、第1のエンコーダ(210)によって、音響フレームのシーケンス内の対応する音響フレームについて第1の高次特徴表現(212)を生成するステップとを含む。方法はまた、第1のパストランスデューサデコーダ(201)によって、対応する第1の高次特徴表現について第1のパス音声認識仮説(120a)を生成するステップと、テキストエンコーダ(240)によって、対応する第1のパス音声認識仮説についてテキスト符号化(242)を生成するステップとを含む。方法は、第2のエンコーダ(220)によって、対応する第1の高次特徴表現について第2の高次特徴表現(222)を生成するステップも含む。方法は、第2のパストランスデューサデコーダ(202)によって、対応する第2の高次特徴表現と対応するテキスト符号化とを使用して、第2のパス音声認識仮説(120b)を生成するステップも含む。
【特許請求の範囲】
【請求項1】
カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)であって、
第1のエンコーダ(210)であって、
音響フレーム(110)のシーケンスを入力として受信し、
複数の出力ステップの各々において、前記音響フレーム(110)のシーケンス内の対応する音響フレーム(110)について第1の高次特徴表現(212)を生成する
ように構成された第1のエンコーダ(210)と、
第1のパストランスデューサデコーダ(201)であって、
前記複数の出力ステップの各々において前記第1のエンコーダ(210)によって生成された前記第1の高次特徴表現(212)を入力として受信し、
前記複数の出力ステップの各々において、対応する第1の高次特徴表現(212)について第1のパス音声認識仮説(120a)を生成する
ように構成された第1のパストランスデューサデコーダ(201)と、
テキストエンコーダ(240)であって、
前記複数の出力ステップの各々において生成された前記第1のパス音声認識仮説(120a)を入力として受信し、
前記複数の出力ステップの各々において、対応する第1のパス音声認識仮説(120a)についてテキスト符号化(242)を生成する
ように構成されたテキストエンコーダ(240)と、
第2のエンコーダ(220)であって、
前記複数の出力ステップの各々において前記第1のエンコーダ(210)によって生成された前記第1の高次特徴表現(212)を入力として受信し、
前記複数の出力ステップの各々において、対応する第1の高次特徴表現(212)について第2の高次特徴表現(222)を生成する
ように構成された第2のエンコーダ(220)と、
第2のパストランスデューサデコーダ(202)であって、
前記複数の出力ステップの各々において前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現(222)と、前記複数の出力ステップの各々において前記テキストエンコーダ(240)によって生成された前記テキスト符号化(242)とを入力として受信し、
前記複数の出力ステップの各々において、第2のパス音声認識仮説(120b)を生成する
ように構成された第2のパストランスデューサデコーダ(202)と
を含む、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項2】
前記第1のパストランスデューサデコーダ(201)と前記第2のパストランスデューサデコーダ(202)とによって共有される予測ネットワーク(300)をさらに備え、前記予測ネットワーク(300)が、
最終ソフトマックス層によって出力された非空白記号(120b)のシーケンスを入力として受信し、
前記複数の出力ステップの各々において、高密度表現(350)を生成する
ように構成された、
請求項1に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項3】
前記第2のパストランスデューサデコーダ(202)が、
結合ネットワーク(250)であって、
前記複数の出力ステップの各々において前記予測ネットワーク(300)によって生成された前記高密度表現(350)と、前記複数の出力ステップの各々において前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現(222)と、前記複数の出力ステップの各々において前記テキストエンコーダ(240)によって生成された前記テキスト符号化(242)とを入力として受信し、
前記複数の出力ステップの各々において、前記第2のパス音声認識仮説(120b)を生成する
ように構成された結合ネットワーク(250)をさらに含む、
請求項2に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項4】
前記第2のエンコーダ(220)が、前記音響フレームのいずれも入力として受信することなく、前記第2の高次特徴表現(222)を生成する、請求項1から3のいずれか一項に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項5】
前記第1のエンコーダ(210)が、マルチヘッドアテンション層のスタックを含む因果エンコーダを含む、請求項1から4のいずれか一項に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項6】
前記マルチヘッドアテンション層のスタックが、コンフォーマ層のスタックを含む、請求項5に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項7】
前記第2のエンコーダ(220)が、マルチヘッドアテンション層のスタックを含む非因果エンコーダを含む、請求項1から6のいずれか一項に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項8】
前記マルチヘッドアテンション層のスタックが、コンフォーマ層のスタックを含む、請求項7に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項9】
前記第2のパストランスデューサデコーダ(202)が、テキストのみのデータを使用することなくトレーニングする、請求項1から8のいずれか一項に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項10】
前記複数の出力ステップの各々において前記テキストエンコーダ(240)によって生成された前記テキスト符号化(242)を受信することが、ストリーミング方式において前記テキスト符号化(242)の部分シーケンスを受信することを含む、請求項1から9のいずれか一項に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項11】
前記第2のパストランスデューサデコーダ(202)が、前記テキスト符号化(242)の前記部分シーケンスと前記第2の高次特徴表現(222)の対応する部分との間のアテンションコンテキストベクトルを決定するように構成された結合ネットワーク(250)をさらに備える、請求項10に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項12】
前記第1および第2のパス音声認識仮説(120a、120b)が、各々、部分的な音声認識結果に対応する、請求項1から11のいずれか一項に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項13】
コンピュータ実装方法(400)であって、
データ処理ハードウェア(510)上で実行されると、前記データ処理ハードウェア(510)に、
音響フレーム(110)のシーケンスを受信するステップと、
第1のエンコーダ(210)によって、複数の出力ステップの各々において前記音響フレーム(110)のシーケンス内の対応する音響フレーム(110)について第1の高次特徴表現(212)を生成するステップと、
第1のパストランスデューサデコーダ(201)によって、前記複数の出力ステップの各々において、対応する第1の高次特徴表現(212)について第1のパス音声認識仮説(120a)を生成するステップと、
テキストエンコーダ(240)によって、前記複数の出力ステップの各々において、対応する第1のパス音声認識仮説(120a)についてテキスト符号化(242)を生成するステップと、
第2のエンコーダ(220)によって、前記複数の出力ステップの各々において、対応する第1の高次特徴表現(212)について第2の高次特徴表現(222)を生成するステップと、
第2のパストランスデューサデコーダ(202)によって、前記複数の出力ステップの各々において、対応する第2の高次特徴表現(222)と、対応するテキスト符号化(242)とを使用して、第2のパス音声認識仮説(120b)を生成するステップと
を含む動作を実行させるコンピュータ実装方法(400)。
【請求項14】
前記動作がさらに、
予測ネットワーク(300)によって、最終ソフトマックス層によって出力された非空白記号(120b)のシーケンスに基づいて、前記複数の出力ステップの各々において高密度表現(350)を生成するステップを含み、
前記第1のパストランスデューサデコーダ(201)および前記第2のパストランスデューサデコーダ(202)が、前記予測ネットワーク(300)を共有する、
請求項13に記載のコンピュータ実装方法(400)。
【請求項15】
前記動作がさらに、前記複数の出力ステップの各々において、結合ネットワーク(250)によって、前記複数の出力ステップの各々において前記予測ネットワーク(300)によって生成された前記高密度表現(350)と、前記複数の出力ステップの各々において前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現(222)と、前記複数の出力ステップの各々において前記テキストエンコーダ(240)によって生成された前記テキスト符号化(242)とに基づいて、前記第2のパス音声認識仮説(120b)を生成するステップを含む、請求項14に記載のコンピュータ実装方法(400)。
【請求項16】
前記第2のエンコーダ(220)が、前記音響フレーム(110)のいずれも入力として受信することなく、前記第2の高次特徴表現(222)を生成する、請求項13から15のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項17】
前記第1のエンコーダ(210)が、マルチヘッドアテンション層のスタックを含む因果エンコーダを含む、請求項13から16のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項18】
前記マルチヘッドアテンション層のスタックが、コンフォーマ層のスタックを含む、請求項17に記載のコンピュータ実装方法(400)。
【請求項19】
前記第2のエンコーダ(220)が、マルチヘッドアテンション層のスタックを含む非因果エンコーダを含む、請求項13から18のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項20】
前記マルチヘッドアテンション層のスタックが、コンフォーマ層のスタックを含む、請求項19に記載のコンピュータ実装方法(400)。
【請求項21】
前記第2のパストランスデューサデコーダ(202)が、テキストのみのデータを使用することなくトレーニングする、請求項13から20のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項22】
前記テキスト符号化(242)を受信するステップが、ストリーミング方式において前記テキスト符号化(242)の部分シーケンスを受信するステップを含む、請求項13から21のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項23】
前記動作が、結合ネットワーク(250)によって、前記テキスト符号化(242)の前記部分シーケンスと前記第2の高次特徴表現(222)の対応する部分との間のアテンションコンテキストベクトルを決定するステップをさらに含む、請求項22に記載のコンピュータ実装方法。
【請求項24】
前記第1および第2のパス音声認識仮説(120a、120b)が、各々、部分的な音声認識結果に対応する、請求項13から23のいずれか一項に記載のコンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、カスケードエンコーダのためのトランスデューサベースのストリーミングの審議(deliberation)に関する。
【背景技術】
【0002】
自動音声認識(ASR)システムは、各モデルが専用の目的を有する複数のモデルから、単一のニューラルネットワークがオーディオ波形(すなわち、入力シーケンス)を出力文(すなわち、出力シーケンス)に直接マッピングするために使用される統合モデルへ進化してきた。この統合は、オーディオ特徴のシーケンスが与えられると単語(または書記素)のシーケンスを生成するシーケンスツーシーケンス手法をもたらした。統合構造により、モデルのすべての構成要素は、単一のエンドツーエンド(E2E)ニューラルネットワークとして共同でトレーニングされ得る。ここで、E2Eモデルは、アーキテクチャ全体がニューラルネットワークで構成されたモデルを指す。すなわち、完全なニューラルネットワークは、外部構成要素および/または手動で設計された構成要素(例えば、有限状態トランスデューサ、レキシコン、またはテキスト正規化モジュール)なしで機能する。それに加えて、E2Eモデルをトレーニングする場合、これらのモデルは、一般に、決定木からのブートストラップまたは別個のシステムからのタイムアライメントを必要としない。これらのE2E ASRシステムは、すさまじい進歩を遂げ、単語誤り率(WER)を含むいくつかの一般的なベンチマークにおいて従来のASRシステムを上回っている。例えば、音声検索またはデバイス上のディクテーションなどの、ユーザとの対話を伴ういくつかのアプリケーションは、モデルがストリーミング方式で認識を実行することを必要とする。オフラインビデオキャプションのような他のアプリケーションは、モデルがストリーミングされることを必要とせず、性能を改善するための将来のコンテキストを利用することができる。しばしば、モデルが、将来のコンテキストを利用する非ストリーミングモデルと同様の改善された性能も有しながら、ストリーミング方式における認識を実行することが有益である。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の一態様は、音響フレームのシーケンスを入力として受信し、複数の出力ステップの各々において、音響フレームのシーケンス内の対応する音響フレームについて第1の高次特徴表現を生成するように構成された第1のエンコーダを含むカスケードエンコーダのためのトランスデューサベースの審議モデル(deliberation model)を提供する。トランスデューサベースの審議モデルは、複数の出力ステップの各々において第1のエンコーダによって生成された第1の高次特徴表現を入力として受信し、複数の出力ステップの各々において、対応する第1の高次特徴表現について第1のパス音声認識仮説を生成するように構成された第1のパストランスデューサデコーダも含む。トランスデューサベースの審議モデルは、複数の出力ステップの各々において生成された第1のパス音声認識仮説を入力として受信し、複数の出力ステップの各々において、対応する第1のパス音声認識仮説についてテキスト符号化を生成するように構成されたテキストエンコーダも含む。トランスデューサベースの審議モデルは、複数の出力ステップの各々において第1のエンコーダによって生成された第1の高次特徴表現を入力として受信し、複数の出力ステップの各々において、対応する第1の高次特徴表現について第2の高次特徴表現を生成するように構成された第2のエンコーダも含む。トランスデューサベースの審議モデルは、複数の出力ステップの各々において第2のエンコーダによって生成された第2の高次特徴表現と、複数の出力ステップの各々においてテキストエンコーダによって生成されたテキスト符号化とを入力として受信し、複数の出力ステップの各々において、第2のパス音声認識仮説を生成するように構成された第2のパストランスデューサデコーダも含む。
【0004】
本開示の実装形態は、以下のオプションの特徴のうちの1つまたは複数を含み得る。いくつかの実装形態において、トランスデューサベースの審議モデルは、第1のパストランスデューサデコーダと第2のパストランスデューサデコーダとによって共有される予測ネットワークをさらに含む。ここで、予測ネットワークは、最終ソフトマックス層によって出力された非空白記号のシーケンスを入力として受信し、複数の出力ステップの各々において、高密度表現を生成するように構成される。これらの実装形態において、第2のパストランスデューサデコーダは、複数の出力ステップの各々において予測ネットワークによって生成された高密度表現と、複数の出力ステップの各々において第2のエンコーダによって生成された第2の高次特徴表現と、複数の出力ステップの各々においてテキストエンコーダによって生成されたテキスト符号化とを入力として受信し、複数の出力ステップの各々において、第2のパス音声認識仮説を生成するように構成された結合ネットワークをさらに含む。
【0005】
いくつかの例において、第2のエンコーダは、音響フレームのいずれも入力として受信することなく、第2の高次特徴表現を生成する。第1のエンコーダは、マルチヘッドアテンション層のスタックを含む因果エンコーダを含み得る。マルチヘッドアテンション層のスタックは、コンフォーマ層のスタックを含み得る。いくつかの実装形態において、第2のエンコーダは、マルチヘッドアテンション層のスタックを含む非因果エンコーダを含む。これらの実装形態において、マルチヘッドアテンション層のスタックは、コンフォーマ層のスタックを含み得る。第2のパストランスデューサデコーダは、テキストのみのデータを使用することなくトレーニングし得る。
【0006】
いくつかの例において、複数の出力ステップの各々においてテキストエンコーダによって生成されたテキスト符号化を受信することは、ストリーミング方式においてテキスト符号化の部分シーケンスを受信することを含む。これらの例において、第2のパストランスデューサデコーダは、テキスト符号化の部分シーケンスと第2の高次特徴表現の対応する部分との間のアテンションコンテキストベクトルを決定するように構成された結合ネットワークをさらに含み得る。第1および第2のパス音声認識仮説は、各々、部分的な音声認識結果に対応し得る。
【0007】
本開示の別の態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、カスケードエンコーダに対するトランスデューサベースのストリーミング審議のための動作を実行させるコンピュータ実装方法を提供する。動作は、音響フレームのシーケンスを受信するステップと、第1のエンコーダによって、複数の出力ステップの各々において音響フレームのシーケンス内の対応する音響フレームについて第1の高次特徴表現を生成するステップとを含む。動作は、第1のパストランスデューサデコーダによって、複数の出力ステップの各々において、対応する第1の高次特徴表現について第1のパス音声認識仮説を生成するステップも含む。動作はまた、テキストエンコーダによって、複数の出力ステップの各々において、対応する第1のパス音声認識仮説についてテキスト符号化を生成するステップと、第2のエンコーダによって、複数の出力ステップの各々において、対応する第1の高次特徴表現について第2の高次特徴表現を生成するステップとを含む。動作は、第2のパストランスデューサデコーダによって、複数の出力ステップの各々において、対応する第2の高次特徴表現と対応するテキスト符号化とを使用して、第2のパス音声認識仮説を生成するステップも含む。
【0008】
本開示の実装形態は、以下のオプションの特徴のうちの1つまたは複数を含み得る。いくつかの実装形態において、動作は、予測ネットワークによって、最終ソフトマックス層によって出力された非空白記号のシーケンスに基づいて、複数の出力ステップの各々において高密度表現を生成するステップをさらに含む。ここで、第1のパストランスデューサデコーダおよび第2のトランスデューサデコーダは、予測ネットワークを共有する。いくつかの例において、動作は、結合ネットワークによって、複数の出力ステップの各々において、複数の出力ステップの各々において予測ネットワークによって生成された高密度表現と、複数の出力ステップの各々において第2のエンコーダによって生成された第2の高次特徴表現と、複数の出力ステップの各々においてテキストエンコーダによって生成されたテキスト符号化とに基づいて、第2のパス音声認識仮説を生成するステップをさらに含む。第2のエンコーダは、音響フレームのいずれも入力として受信することなく、第2の高次特徴表現を生成し得る。
【0009】
いくつかの実装形態において、第1のエンコーダは、マルチヘッドアテンション層のスタックを含む因果エンコーダを含む。これらの実装形態において、マルチヘッドアテンション層のスタックは、コンフォーマ層のスタックを含む。いくつかの例において、第2のエンコーダは、マルチヘッドアテンション層のスタックを含む非因果エンコーダを含む。これらの例において、マルチヘッドアテンション層のスタックは、コンフォーマ層のスタックを含む。第2のパストランスデューサデコーダは、テキストのみのデータを使用することなくトレーニングし得る。いくつかの実装形態において、テキスト符号化を受信するステップは、ストリーミング方式においてテキスト符号化の部分シーケンスを受信するステップを含む。これらの実装形態において、動作は、結合ネットワークによって、テキスト符号化の部分シーケンスと第2の高次特徴表現の対応する部分との間のアテンションコンテキストベクトルを決定するステップをさらに含み得る。第1および第2のパス音声認識仮説は、各々、部分的な音声認識結果に対応し得る。
【0010】
本開示の1つまたは複数の実装形態の詳細は、添付図面および以下の説明において記載される。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0011】
図1】例示的な音声認識システムの概略図である。
図2】トランスデューサベースのストリーミング審議を使用する例示的な音声認識モデルの概略図である。
図3図2の音声認識モデルの例示的な予測ネットワークの概略図である。
図4】カスケードエンコーダのためのトランスデューサベースのストリーミング審議のコンピュータ実装方法のための動作の例示的な配置のフローチャートである。
図5】本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0012】
様々な図面における同様の参照符号は、同様の要素を示す。
【0013】
エンドツーエンド(E2E)自動音声認識(ASR)モデルは、従来、ストリーミングモードまたは非ストリーミングモードのいずれかで動作するように構造化される。従来、E2E ASRモデルは、主な構成要素としてエンコーダとデコーダとを含む。音声検索またはデバイス上のディクテーションなどの、エンドユーザとの対話を伴うアプリケーションは、モデルがストリーミング方式で認識を実行することを必要とする場合がある。ここで、ストリーミング方式において認識を実行することは、ASRモデルが、可能な限り短い待ち時間で話されるように発話の各単語を出力することを指す。オフラインビデオキャプションなどの他のアプリケーションは、モデルがストリーミングされることを必要とせず、性能を改善するために将来のコンテキストを利用することができる。例えば、審議モデルは、長短期メモリ(LSTM)モデルまたはトランスフォーマリスコアリングモデルと比較した場合、希少単語および語彙外(OOV)単語認識において大幅な改善を示す。特に、審議モデルは、アテンションメカニズムを使用し、完全なオーディオコンテキストを調査することによって、初期音声認識結果を修正することに優れている。しかしながら、これらの審議モデルは、ASRモデルの待ち時間を長くし、審議モデルをストリーミングアプリケーションにはあまり適さないようにするアテンションデコーダを使用する。
【0014】
本明細書における実装形態は、カスケードエンコーダのためのトランスデューサベースの審議ASRモデルに対象としている。特に、ASRモデルは、対応する音響フレームについて第1の高次特徴表現を生成する第1のエンコーダと、対応する第1の高次特徴表現について第1のパス音声認識仮説を生成する第1のパストランスデューサデコーダとを含む。ASRモデルは、対応する第1のパス音声認識仮説についてテキスト符号化を生成するテキストエンコーダも含む。さらに、第2のエンコーダは、対応する第1の高次特徴表現について第2の高次特徴表現を生成し、第2のパストランスデューサデコーダは、第2のパス音声認識仮説を生成する。特に、トランスデューサベースの審議ASRモデルは、トランスデューサデコーダが、第2のパス音声認識仮説を生成するために部分的な第1のパス音声認識仮説のみを必要とするので、ストリーミング方式において動作する審議モデルである。対照的に、現在の審議モデルは、第2のパス音声認識仮説を生成する前に完全な第1のパス音声認識仮説を必要とする第2のパス中にアテンションデコーダを使用する。さらに、トランスデューサベースの審議ASRモデルは、トレーニング中にテキストのみのトレーニング日(text-only training day)を必要としない。
【0015】
図1は、音声環境100の例である。音声環境100において、ユーザ104がユーザデバイス10などのコンピューティングデバイスと対話する方式は、音声入力を介するものであり得る。ユーザデバイス10(一般にデバイス10とも呼ばれる)は、音声環境100内の1人または複数のユーザ104から音(例えば、ストリーミングオーディオデータ)をキャプチャするように構成される。ここで、ストリーミングオーディオデータは、可聴クエリ、ユーザデバイス10に対するコマンド、またはデバイス10によってキャプチャされる可聴通信として機能する、ユーザ104による口頭発話106を指し得る。ユーザデバイス10の音声対応システムは、クエリに応答すること、および/またはコマンドを1つもしくは複数の下流アプリケーションによって実行/履行させることによって、クエリまたはコマンドに対処し得る。
【0016】
ユーザデバイス10は、ユーザ104に関連付けられ、オーディオデータを受信することができる任意のコンピューティングデバイスに対応し得る。ユーザデバイス10のいくつかの例は、限定はしないが、モバイルデバイス(例えば、携帯電話、タブレット、ラップトップなど)、コンピュータ、ウェアラブルデバイス(例えば、スマートウォッチ)、スマート家電、インターネットオブシングス(IoT)デバイス、車載インフォテインメントシステム、スマートディスプレイ、スマートスピーカなどを含む。ユーザデバイス10は、データ処理ハードウェア12と、データ処理ハードウェア12と通信し、データ処理ハードウェア12によって実行されると、データ処理ハードウェア12に1つまたは複数の動作を実行させる命令を記憶するメモリハードウェア14とを含む。ユーザデバイス10は、音声環境100内の口頭発話106をキャプチャして電気信号に変換するためのオーディオキャプチャデバイス(例えば、マイクロフォン)16、16aと、可聴オーディオ信号を(例えば、ユーザデバイス10からの出力オーディオデータとして)伝達するための音声出力デバイス(例えば、スピーカ)16、16bとを有するオーディオシステム16をさらに含む。ユーザデバイス10は、図示の例において単一のオーディオキャプチャデバイス16aを実装しているが、ユーザデバイス10は、本開示の範囲から逸脱することなくオーディオキャプチャデバイス16aのアレイを実装し得、それによって、アレイ内の1つまたは複数のキャプチャデバイス16aは、ユーザデバイス10上に物理的に存在しなくてもよいが、オーディオシステム16と通信する。
【0017】
音声環境100において、自動音声認識(ASR)システム118は、ASRモデル200を実装し、ユーザ104のユーザデバイス10上、および/またはネットワーク40を介してユーザデバイス10と通信するリモートコンピューティングデバイス60(例えば、クラウドコンピューティング環境内で実行する分散システムの1つまたは複数のリモートサーバ)上に存在する。いくつかの例において、ASRモデル200は、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルであり得る。ユーザデバイス10および/またはリモートコンピューティングデバイス60は、ユーザ104によって話され、オーディオキャプチャデバイス16aによってキャプチャされた発話106を受信し、発話106を、ASRシステム118によって処理されることが可能な入力音響フレーム110に関連する対応するデジタルフォーマットに変換するように構成されたオーディオサブシステム108も含む。図示の例において、ユーザは、それぞれの発話106を話し、オーディオサブシステム108は、発話106を、ASRシステム118への入力のために対応するオーディオデータ(例えば、音響フレームのシーケンス)110に変換する。その後、ASRモデル200は、発話106に対応する音響フレーム110のシーケンスを入力として受信し、ASRモデルが音響フレーム110のシーケンス内の各音響フレーム110を受信(例えば、処理)するにつれて、各出力ステップにおいて、発話106の対応する書き写し120(例えば、音声認識結果/仮説)を生成/予測する。
【0018】
図示の例において、ASRモデル200は、第1のパス音声認識仮説(例えば、初期音声認識結果)120、120aを生成し、第1のパス音声認識仮説120aを改善することによって第2のパス音声認識仮説(例えば、最終音声認識結果)120、120bを生成するために、ストリーミング音声認識を実行し得る。第1および第2のパス音声認識仮説120a、120bは、部分的な音声認識結果または完全な音声認識結果のいずれかに対応し得る。言い換えれば、第1および第2のパス音声認識仮説120a、120bは、発話106の一部または発話106全体のいずれかに対応し得る。例えば、部分的な音声認識結果は、口頭発話の一部、または話された用語の一部にさえ対応し得る。しかしながら、明らかになるように、ASRモデル200は、第2のパス音声認識仮説120bに対して追加の処理を実行し、それによって、第2のパス音声認識仮説120bは、第1のパス音声認識仮説120aから遅延される場合がある。
【0019】
ユーザデバイス10および/またはリモートコンピューティングデバイス60は、発話106の書き写し120の表現をユーザデバイス10のユーザ104に提示するように構成されたユーザインターフェース生成器107も実行する。以下でより詳細に説明するように、ユーザインターフェース生成器107は、時間1の間にストリーミング方式において第1のパス音声認識仮説120aを表示し、その後、時間2の間にストリーミング方式において第2のパス音声認識仮説120bを表示し得る。特に、ASRモデル200は、第2のパス音声認識仮説120bが第1のパス音声認識仮説120aを改善したとしても、ストリーミング方式において第2のパス音声認識仮説120bを出力する。いくつかの構成において、ASRシステム118から出力された書き写し120は、例えば、発話106によって指定されたユーザコマンド/クエリを実行するために、ユーザデバイス10またはリモートコンピューティングデバイス60上で実行する、例えば自然言語理解(NLU)モジュールによって処理される。追加的または代替的に、テキスト読み上げシステム(図示せず)(例えば、ユーザデバイス10またはリモートコンピューティングデバイス60の任意の組合せにおいて実行する)は、書き写し120を、ユーザデバイス10および/または別のデバイスによる可聴出力のための合成音声に変換し得る。
【0020】
図示の例において、ユーザ104は、ASRシステム118を使用するユーザデバイス10のプログラムまたはアプリケーション50(例えば、デジタルアシスタントアプリケーション50)と対話する。例えば、図1は、デジタルアシスタントアプリケーション50と通信するユーザ104と、ユーザ104とデジタルアシスタントアプリケーション50との間の会話を示すために、ユーザデバイス10のスクリーン上にデジタルアシスタントインターフェース18を表示するデジタルアシスタントアプリケーション50とを示す。この例において、ユーザ104は、デジタルアシスタントアプリケーション50に「今夜のコンサートは何時ですか(What time is the concert tonight?)」と尋ねる。ユーザ104からのこの質問は、オーディオキャプチャデバイス16aによってキャプチャされ、ユーザデバイス10のオーディオシステム16によって処理される口頭発話106である。この例において、オーディオシステム16は、口頭発話106を受信し、それを、ASRシステム118への入力のための音響フレーム110のシーケンスに変換する。
【0021】
例を続けると、ASRモデル200は、ユーザ104が話すときの発話106に対応する音響フレーム110のシーケンスを受信しながら、音響フレーム110のシーケンスを符号化し、次いで、符号化された音響フレーム110のシーケンスを第1のパス音声認識仮説120aに復号する。時間1の間、ユーザインターフェース生成器107は、デジタルアシスタントインターフェース18を介して、発話106の第1のパス音声認識仮説120aの表現を、単語、単語片、および/または個々の文字が話されるとすぐに画面上に出現するように、ストリーミング方式でユーザデバイス10のユーザ104に提示する。いくつかの例において、第1の先読み(look ahead)オーディオコンテキストは、ゼロに等しい。
【0022】
時間2の間、ユーザインターフェース生成器107は、デジタルアシスタントインターフェース18を介して、単語、単語片、および/または個々の文字が、ASRモデル200によって生成されるとすぐに画面上に出現するように、発話106の第2のパス音声認識仮説120bの表現をストリーミング方式でユーザデバイス10のユーザ104に提示する。いくつかの実装形態において、ユーザインターフェース生成器107は、時間1において提示された第1のパス音声認識仮説120aの表現を、時間2において提示された第2のパス音声認識仮説120bの表現で置き換える。ここで、時間1および時間2は、ユーザインターフェース生成器107がそれぞれの音声認識結果120を提示したときに対応するタイムスタンプを含み得る。この例において、時間1のタイムスタンプは、ユーザインターフェース生成器107が、第2のパス音声認識仮説120bよりも早い時間おいて第1のパス音声認識仮説120aを提示したことを示す。例えば、第2のパス音声認識仮説120bは、第1のパス音声認識仮説120aよりも正確であると推定されるので、書き写し120として最終的に表示される第2のパス音声認識仮説120bは、第1のパス音声認識仮説120aにおいて誤認識された可能性がある任意の用語を修正し得る。この例において、時間1においてASRモデル200によって出力され、ユーザデバイス10の画面上に表示されるストリーミング第1のパス音声認識仮説120aは、短い待ち時間に関連し、ユーザ104のクエリが処理されているという応答性をユーザ104に提供し、一方、時間2においてASRモデル200によって出力され、画面上に表示される第2のパス音声認識仮説120bは、精度の点で音声認識品質を改善するために追加の音声認識モデルおよび/または言語モデルを活用するが、待ち時間が増加する。しかしながら、第1のパス音声認識仮説120aは、ユーザが発話106を話すにつれて表示されるので、第2のパス音声認識仮説120bを生成し、最終的に表示することに関連する、より長い待ち時間は、ユーザ104には気付かれない。
【0023】
図1に示す例において、デジタルアシスタントアプリケーション50は、自然言語処理を使用して、ユーザ104によって提起された質問に応答し得る。自然言語処理は、一般に、書き言葉(例えば、第1のパス音声認識仮説120aおよび/または第2のパス音声認識仮説120b)を解釈し、書き言葉が何らかのアクションを促すかどうかを判定するプロセスを指す。この例において、デジタルアシスタントアプリケーション50は、ユーザ104からの質問がユーザのスケジュール、より具体的にはユーザのスケジュール上のコンサートに関するものであることを認識するために、自然言語処理を使用する。自然言語処理を用いてこれらの詳細を認識することによって、自動アシスタントは、ユーザのクエリに対して応答19を返し、応答19は、「会場のドアは午後6時30分に開き、コンサートは午後8時に開始します(Venue doors open at 6:30 PM and concert starts at 8pm)」と述べる。いくつかの構成において、自然言語処理は、ユーザデバイス10のデータ処理ハードウェア12と通信するリモートサーバ60上で行われる。
【0024】
ここで図2を参照すると、いくつかの例において、ASRモデル(例えば、トランスデューサベースの審議モデル)200は、カスケードエンコーダのためのトランスデューサベースのストリーミング審議のために構成される。図2に示すように、ASRモデル200は、第1のパストランスデューサデコーダ(すなわち、第1のパス)201からの第1のパス音声認識仮説120a(すなわち、初期出力)を改善する第2のパストランスデューサデコーダ(すなわち、第2のパス)202を含む。図示の例において、第1のパストランスデューサデコーダ201と第2のパストランスデューサデコーダ202の両方は、入力が受信されるにつれて各出力ステップにおいて出力を生成するストリーミング方式において動作する。言い換えれば、第1のパストランスデューサデコーダ201および第2のパストランスデューサデコーダ202は、出力を生成するために入力シーケンス全体を受信または処理する必要がなく、それによってフレームレベルにおいて動作する。さらに、ASRモデル200は、両方とも同様のストリーミング方式において動作得るカスケードエンコーダ204とテキストエンコーダ240とを含む。
【0025】
特に、ASRモデル200は、カスケードエンコーダ204と、第1のパストランスデューサデコーダ201と、テキストエンコーダ240と、第2のパストランスデューサデコーダ202とを含む。有利には、第2のパストランスデューサデコーダ202に(例えば、アテンションデコーダの代わりに)第2のパストランスデューサデコーダを使用することは、第2のパス音声認識仮説120bを生成することによって第1のパストランスデューサデコーダ201から出力された第1のパス音声認識仮説120aを改善するためのストリーミング審議プロセスを提供する。ここで、第1および第2のパス音声認識仮説120a、120bは、口頭発話106(図1)からの単語、単語片、書記素、または音素の一部を含む部分的な音声認識結果を表し得る。
【0026】
カスケードエンコーダ204は、符号化経路が、第1のエンコーダ210の出力が復号の前に第2のエンコーダ220の入力を供給するようにカスケード接続する2つのエンコーダ210、220を含むモデル構造を指す。ここで、第1のエンコーダ210および第2のエンコーダ220は、各エンコーダの基礎となるアーキテクチャに関係なくカスケード接続され得る。エンコーダ210、220は、各々、マルチヘッドアテンション層のスタックを含み得る。いくつかの例において、エンコーダ210、220のマルチヘッドアテンション層のスタックは、512次元のコンフォーマ層のスタックを含む。他の例において、マルチヘッドアテンション層は、トランスフォーマ層を含む。オプションで、コンフォーマ層の代わりにトランスフォーマ層が使用され得る。
【0027】
第1のエンコーダ210は、自己アテンション層として使用されるマルチヘッド(例えば、8ヘッド)アテンションメカニズムを各々が有する17のコンフォーマ層を含む因果エンコーダであり得る。さらに、第1のエンコーダ210の各コンフォーマ層は、第1のエンコーダ210が任意の将来の入力を使用することを制限するために、因果畳み込み層と左コンテキストアテンション層とを使用し得る。一方、第2のエンコーダ220は、自己アテンション層として使用されるマルチヘッド(例えば、8ヘッド)アテンション層を各々が有する4つのコンフォーマ層を含む非因果エンコーダであり得る。第2のエンコーダ220の各コンフォーマ層は、非因果畳み込み層と右コンテキストアテンション層とを使用し得、それによって、第2のエンコーダ220が将来の入力を使用することを可能にする。すなわち、第2のエンコーダ220は、追加の右コンテキスト(例えば、2.88秒)を受信し得る。
【0028】
引き続き図2を参照すると、第1のエンコーダ210は、d次元特徴ベクトルのシーケンス(例えば、音響フレーム110のシーケンス)x=(x1,x2,...,xT)を受信し、ここで、
【数1】
であり、第1のエンコーダ210は、各出力ステップにおいて、音響フレーム110のシーケンス内の対応する音響フレーム110について第1の高次特徴表現212を生成する。同様に、第2のエンコーダ220は、第1のエンコーダ210にカスケード接続され、第1の高次特徴表現212を入力として受信し、各出力ステップにおいて、対応する第1の高次特徴表現212について第2の高次特徴表現222を生成する。しかしながら、場合によっては、第2のエンコーダ220は、音響フレーム110のいずれも入力として受信することなく、第2の高次特徴表現222を生成する。これらの場合、第2のエンコーダ220は、第1の高次特徴表現212のみを入力として使用して、第2の高次特徴表現222を生成する。図2に示すように、第1のエンコーダ210から出力された第1の高次特徴表現212は、第1のパストランスデューサデコーダ201に供給され、一方、第2のエンコーダ220から出力された第2の高次特徴表現222は、第2のパストランスデューサデコーダ202に供給される。
【0029】
いくつかの実装形態において、第1のパストランスデューサデコーダ201は、トランスデューサデコーダ230を含む。いくつかの構成において、カスケードエンコーダ204の第1のエンコーダ210は、第1のパストランスデューサデコーダ201から外部に存在する。他の構成において、カスケードエンコーダ204の第1のエンコーダ210はまた、第1のパストランスデューサデコーダ201(図示せず)において存在する。第1のパストランスデューサデコーダ201のトランスデューサデコーダ230は、第1のエンコーダ210によって生成された第1の高次特徴表現212を入力として受信し、各出力ステップにおいて、対応する第1の高次特徴表現212について第1のパス音声認識仮説120a(y)を生成するように構成される。
【0030】
いくつかの実装形態において、第1のパス音声認識仮説120aは、可能な音声認識仮説にわたる第1の確率分布を含む。言い換えれば、トランスデューサデコーダ230は、各出力ステップ(例えば、時間ステップ)において、可能な音声認識仮説にわたる第1の確率分布を生成する。ここで、「可能な音声認識仮説」は、各々が指定された自然言語における書記素(例えば、記号/文字)または単語片を表す出力ラベル/記号(「音声単位」とも呼ばれる)のセットに対応する。例えば、自然言語が英語である場合、出力ラベルのセットは、27個の記号、例えば、英語のアルファベットにおける26文字の各々について1つのラベル、およびスペースを指定する1つのラベルを含み得る。したがって、トランスデューサデコーダ230は、出力ラベルの所定のセットの各々の発生の尤度を示す値のセットを出力し得る。値のセットは、ベクトル(例えば、ワンホットベクトル)とすることができ、出力ラベルのセットにわたる第1の確率分布を示すことができる。いくつかのシナリオにおいて、出力ラベルは、書記素(例えば、個々の文字、ならびに潜在的には句読点および他の記号)であるが、出力ラベルのセットは、それに限定されない。例えば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、単語片および/または単語全体を含むことができる。出力ラベルは、音素またはサブ音素などの他のタイプの音声単位とすることもできる。トランスデューサデコーダ230の第1の確率分布は、異なる出力ラベルの各々についての事後確率値を含むことができる。したがって、異なる書記素または他の記号を表す100個の異なる出力ラベルが存在する場合、トランスデューサデコーダの出力は、各出力ラベルについて1つ、100個の異なる確率値を含むことができる。次いで、第1の確率分布は、第1のパス音声認識仮説120aを決定するための(例えば、ソフトマックス層による)ビームサーチプロセスにおいて、候補正書法要素(例えば、書記素、単語片、および/または単語)を選択し、スコアを割り当てるために使用されることが可能である。例えば、トランスデューサデコーダ230は、第1のパス音声認識仮説120aのための出力として、最も高い確率を有するN個の最良の可能な音声認識仮説を選択し得る。
【0031】
テキストエンコーダ240は、複数の出力ステップの各々において生成された第1のパス音声認識仮説120aを入力として受信し、各出力ステップにおいて、対応する第1のパス音声認識仮説120aについてテキスト符号化242(ey)を生成するように構成される。テキストエンコーダ240は、複数の右コンテキストコンフォーマ層を含むコンフォーマエンコーダであり得る。特に、テキストエンコーダは、R個のトークン(すなわち、フレーム)の右コンテキスト全体を含み得る。テキストエンコーダ240の右コンテキスト全体は、第2のエンコーダ220の待ち時間に等しい場合がある。例えば、第2のエンコーダ220は、第1の高次特徴表現212を処理するときに、2.88秒の待ち時間を含む場合がある。この例において、右コンテキスト全体は、第2のエンコーダ220の待ち時間と一致するように2.88秒に設定され得る。場合によっては、テキストエンコーダ240は、第1のパス音声認識仮説120aからの非空白トークンのみを符号化し、それによって、コンフォーマ層は、将来からのコンテキストモデリングを提供する。したがって、テキストエンコーダ240が符号化する必要がある右端の時間フレームは、
【数2】
によって表され得る。
【0032】
式1において、
【数3】
は、対応する出力ステップ(例えば、時間フレーム)を表し、Rは、テキストエンコーダ240の右コンテキスト全体を表し、T'は、第1のパス音声認識仮説120aの最大時間フレームを表す。特に、テキストエンコーダ240のコンフォーマ層は、因果畳み込みを使用し、テキストエンコーダ240の前に実行される畳み込みサブサンプリングは、存在しない。いくつかの実装形態において、テキストエンコーダ240は、部分的な音声認識仮説に対応する第1のパス音声認識仮説120aを受信する。すなわち、カスケードエンコーダ204および第1のパストランスデューサデコーダ201の両方は、ストリーミング方式において動作するので、結果として生じる第1のパス音声認識仮説120aは、発話106(図1)の一部のみに対応し得る。したがって、テキストエンコーダ240は、部分的な音声認識仮説に対応する第1のパス音声認識仮説120aを、
【数4】
によって符号化する。
【0033】
式2において、ey(t)は、各出力ステップ(例えば、時間ステップ)におけるテキスト符号化を表し、ey,kは、eyにおけるk番目の符号化されたトークンを表し、rkは、k番目のトークンを符号化するために必要な最新の出力ステップ(例えば、時間ステップ)であり、Lは、第1のパス音声認識仮説120a(y)におけるトークンの総数を表し、Aは、先読み出力ステップ(例えば、時間ステップ)の数を表し、tは、カスケードエンコーダ204の出力ステップを表す。より具体的には、テキストエンコーダ240は、第1のパス音声認識仮説120aの現在の出力ステップから先読み出力ステップの数Aだけ先読みする。したがって、Aを増加することは、テキストエンコーダ240がA個の先読み出力ステップを満たすのに十分な第1のパス音声認識仮説120aの出力ステップを受信することを必要とすることによって、テキストエンコーダ240の待ち時間を増加させる。一方、Aを減少させることは、テキストエンコーダ240の待ち時間を減少させ、待ち時間のボトルネックは、カスケードエンコーダ204にある。したがって、Aは、テキストエンコーダ240が、持ち時間を最小化すると同時に、審議中に第1のパス音声認識仮説から使用される出力ステップも最大化するように、カスケードエンコーダ204の右コンテキストに等しくてもよい。
【0034】
第2のパストランスデューサデコーダ202は、結合ネットワーク250と予測ネットワーク300とを含み得る。結合ネットワーク250は、予測ネットワーク300によって生成された高密度表現350と、第2のエンコーダ220によって生成された第2の高次特徴表現222と、テキストエンコーダ240によって生成されたテキスト符号化242とを入力として受信するように構成される。第2のパストランスデューサデコーダの結合ネットワーク250はまた、各出力ステップにおいて、高密度表現350と、第2の高次特徴表現222と、テキスト符号化242とを使用して、第2のパス音声認識仮説120bを生成するように構成される。
【0035】
いくつかの実装形態において、第2のパス音声認識仮説120bは、可能な音声認識仮説にわたる第2の確率分布を含む。言い換えれば、結合ネットワーク250は、各出力ステップ(例えば、時間ステップ)において、可能な音声認識仮説にわたる第2の確率分布を生成する。ここで、「可能な音声認識仮説」は、各々が指定された自然言語における書記素(記号/文字)または単語片を表す出力ラベル/記号(「音声単位」とも呼ばれる)のセットに対応する。例えば、自然言語が英語である場合、出力ラベルのセットは、27個の記号、例えば、英語のアルファベットにおける26文字の各々について1つのラベル、およびスペースを指定する1つのラベルを含み得る。したがって、結合ネットワーク250は、出力ラベルの所定のセットの各々の発生の尤度を示す値のセットを出力し得る。値のセットは、ベクトル(例えば、ワンホットベクトル)とすることができ、出力ラベルのセットにわたる第2の確率分布を示すことができる。いくつかのシナリオにおいて、出力ラベルは、書記素(例えば、個々の文字、ならびに潜在的には句読点および他の記号)であるが、出力ラベルのセットは、それに限定されない。例えば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、単語片および/または単語全体を含むことができる。出力ラベルは、音素またはサブ音素などの他のタイプの音声単位とすることもできる。結合ネットワーク250の第2の確率分布は、異なる出力ラベルの各々についての事後確率値を含むことができる。したがって、異なる書記素または他の記号を表す100個の異なる出力ラベルが存在する場合、結合ネットワーク250の出力は、各出力ラベルについて1つ、100個の異なる確率値を含むことができる。次いで、第2の確率分布は、第2のパス音声認識仮説120bを決定するための(例えば、結合ネットワーク250の最終ソフトマックス層(図示せず)による)ビームサーチプロセスにおいて、候補正書法要素(例えば、書記素、単語片、および/または単語)を選択し、スコアを割り当てるために使用されることが可能である。例えば、結合ネットワーク250は、例えば、結合ネットワーク250は、第2のパス音声認識仮説120bのための出力として、最も高い確率を有するN個の最良の可能な音声認識仮説を選択し得る。
【0036】
いくつかの実装形態において、予測ネットワーク300は、結合ネットワーク250の最終ソフトマックス層によって出力された非空白記号のシーケンスを入力として受信し、各出力ステップにおいて、高密度表現350を生成する。結合ネットワーク250は、前の第2のパス音声認識仮説120bについての高密度表現350を受信し、高密度表現350を使用して後続の第2のパス音声認識仮説120bを生成する。
【0037】
図3は、結合ネットワーク250の最終ソフトマックス層によって出力されたN個の前の非空白記号に限定された非空白記号のシーケンスを入力として受信するASRモデル200の予測ネットワーク300を示す。すなわち、結合ネットワーク250の最終ソフトマックス層によって出力された一連の非空白記号120b、120ba~bnは、第2のパス音声認識仮説120bの非空白記号に対応し得る。したがって、一連の非空白記号120bおよび第2のパス音声認識仮説120bは、本明細書では交換可能に使用され得る。第1のパストランスデューサデコーダ201および第2のパストランスデューサデコーダ202は、予測ネットワーク300を共有し得る。いくつかの例において、Nは、2に等しい。他の例において、Nは、5に等しいが、本開示は、非限定的であり、Nは、任意の整数に等しくてもよい。いくつかの実装形態において、予測ネットワーク300は、マルチヘッドアテンションメカニズムの各ヘッド302A~302Hにわたって共有埋め込みマトリックス304を共有するマルチヘッドアテンションメカニズム302を含む。一例において、マルチヘッドアテンションメカニズム302は、4つのヘッドを含む。しかしながら、任意の数のヘッドがマルチヘッドアテンションメカニズム302によって用いられ得る。特に、マルチヘッドアテンションメカニズムは、モデルサイズの増加を最小限に抑えながら、性能を大幅に改善する。以下でより詳細に説明するように、各ヘッド302A~Hは、位置ベクトル308のそれ自体の行を含み、すべてのヘッドからの出力318A~Hを連結することによってモデルサイズの増加を招くのではなく、出力318A~Hは、代わりに、ヘッド平均モジュール322によって平均化される。
【0038】
マルチヘッドアテンションメカニズム302の第1のヘッド302Aを参照すると、ヘッド302Aは、共有埋め込みマトリックス304を使用して、複数の時間ステップからの対応する時間ステップにおいて入力として受信された非空白記号120bのシーケンスの中の各非空白記号120bについて、対応する埋め込み306、306a~n(例えば、
【数5】
)を生成する。特に、共有埋め込みマトリックス304は、マルチヘッドアテンションメカニズム302のすべてのヘッドにわたって共有されるので、他のヘッド302B~Hのすべては、各非空白記号について同じ対応する埋め込み306を生成する。ヘッド302Aは、また、それぞれの位置ベクトルPVAa-An308、308Aa~An(例えば、
【数6】
)を、非空白記号120bのシーケンス内の各々の対応する非空白記号に割り当てる。各非空白記号に割り当てられたそれぞれの位置ベクトルPV308は、非空白記号のシーケンス(例えば、結合ネットワーク250の最後のソフトマックス層によって出力されたN個の前の非空白記号)の履歴における位置を示す。例えば、第1の位置ベクトルPVAaは、履歴における最新の位置に割り当てられ、一方、最後の位置ベクトルPVAnは、結合ネットワーク250の最後のソフトマックス層によって出力されたN個の前の非空白記号の履歴における最後の位置に割り当てられる。特に、埋め込み306の各々は、位置ベクトルPV308の各々と同じ次元性(すなわち、次元サイズ)を含み得る。
【0039】
非空白記号120bのシーケンスのうちの各非空白記号120bについて共有埋め込みマトリックス304によって生成された対応する埋め込みは、マルチヘッドアテンションメカニズム302のヘッド302A~Hのすべてにおいて同じであるが、各ヘッド302A~Hは、位置ベクトル308の異なるセット/行を定義する。例えば、第1のヘッド302Aは、位置ベクトルPVAa-An 308Aa-Anの行を定義し、第2のヘッド302Bは、位置ベクトルPVBa-Bn 308Ba-Bnの異なる行を定義し、...、第Hのヘッド302Hは、位置ベクトルPVHa-Hn 308Ha-Hnの別の異なる行を定義する。
【0040】
受信された非空白記号120bのシーケンス内の各非空白記号について、第1のヘッド302Aは、また、重み層310を介して、対応する埋め込みとそれに関連付けられたそれぞれの位置ベクトルPV308との間の類似度に比例して、対応する埋め込み306に重み付けする。いくつかの例において、類似度は、コサイン類似度(例えば、コサイン距離)を含み得る。図示の例において、重み層310は、重み付けされた埋め込み312、312Aa~Anのシーケンスを出力し、重み付けされた埋め込み312、312Aa~Anの各々は、それに割り当てられたそれぞれの位置ベクトルPV308に比例して重み付けされた対応する埋め込み306に関連付けられている。言い換えれば、各埋め込み306について重み層310によって出力された重み付けされた埋め込み312は、埋め込み306とそれぞれの位置ベクトルPV308との間のドット積に対応し得る。重み付けされた埋め込み312は、それらがそれらのそれぞれの位置ベクトルPV308に関連付けられた位置とどれだけ類似しているかに比例して埋め込みに伴うと解釈され得る。計算速度を高めるために、予測ネットワーク300は、非リカレント層を含み、したがって、重み付けされた埋め込み312Aa~Anのシーケンスは、連結されず、代わりに、第1のヘッド302Aからの出力として、
【数7】
によって表される重み付けされた埋め込み312Aa~Anの加重平均318Aを生成するために、加重平均モジュール316によって平均化される。
【0041】
式3において、hは、ヘッド302のインデックスを表し、nは、コンテキストにおける位置を表し、eは、埋め込み次元を表す。それに加えて、式1において、H、N、およびdeは、対応する次元のサイズを含む。位置ベクトルPV308は、トレーニング可能である必要はなく、ランダム値を含み得る。特に、重み付けされた埋め込み312が平均化されていても、位置ベクトルPV308は、位置履歴情報を潜在的に保存することができ、予測ネットワーク300の各層においてリカレント接続を設ける必要性を軽減する。
【0042】
第1のヘッド302Aに関して上記で説明した動作は、マルチヘッドアテンションメカニズム302の各々の他のヘッド302B~Hによって同様に実行される。各ヘッド302によって定義される位置ベクトルPV308の異なるセットにより、重み層310は、各々の他のヘッド302B~Hにおいて、第1のヘッド302Aにおける重み付けされた埋め込み312Aa~Aaのシーケンスとは異なる重み付けされた埋め込み312Ba~Bn、312Ha~Hnのシーケンスを出力する。その後、加重平均モジュール316は、各々の他の対応するヘッド302B~Hからの出力として、非空白記号のシーケンスの対応する重み付けされた埋め込み312のそれぞれの加重平均318B~Hを生成する。
【0043】
図示の例において、予測ネットワーク300は、対応するヘッド302A~Hから出力された加重平均318A~Hを平均するヘッド平均モジュール322を含む。SWISHを有する投影層326は、加重平均318A~Hの平均に対応するヘッド平均モジュール322からの出力324を入力として受信し、投影出力328を出力として生成し得る。最終層正規化330は、複数の時間ステップからの対応する時間ステップにおいて単一の埋め込みベクトル350を提供するために、投影出力328を正規化し得る。予測ネットワーク300は、初期タイムステップに続く複数の時間ステップの各々において、単一の埋め込みベクトル350のみを生成する。
【0044】
いくつかの構成において、予測ネットワーク300は、マルチヘッドアテンションメカニズム302を実装せず、第1のヘッド302Aに関して上記で説明した動作のみを実行する。これらの構成において、重み付けされた埋め込み312Aa~Anの加重平均318Aは、単一の埋め込みベクトル350を提供するために、単に投影層326および層正規化330を通過させられる。
【0045】
図2に戻って参照すると、すべての出力ステップにおいて、結合ネットワーク250は、テキスト符号化242(例えば、部分的な第1のパス音声認識仮説を表す)と第2の高次特徴表現222の対応するフレームとの間のアテンションコンテキストベクトルatも決定する。特に、結合ネットワーク250は、テキスト符号化242をキーおよび値として使用し、第2の高次特徴表現222をクエリとして使用することによって、アテンションコンテキストベクトルatを決定する。したがって、アテンションコンテキストベクトルatは、現在の時間フレームを使用してクエリすることによって、第1のパス音声認識仮説120aを要約する。その後、結合ネットワーク250は、
【数8】
によって、アテンションコンテキストベクトルatを第2の高次特徴表現222とマージする。
【0046】
式4において、ex(t)は、第2の高次特徴表現222を表し、atは、アテンションコンテキストベクトルを表し、ctは、マージ演算からの出力値を表す。その後、結合ネットワーク250は、
【数9】
によって、出力値ctを高密度表現350と結合することによって、第2のパス音声認識仮説120bを生成する。
【0047】
式5において、ht,uは、第2のパス音声認識仮説120bを表し、luは、高密度表現350を表す。オプションで、結合ネットワークの最終ソフトマックス層は、第2のパス音声認識仮説120b(ht,u)を受信し、第2のパストランスデューサデコーダ202から出力される第2のパス音声認識仮説120bとして正書法要素を選択するために、ビームサーチプロセスを実行する。最終ソフトマックス層は、第2のパストランスデューサデコーダ202と統合され得、または第2のパストランスデューサデコーダ202とは別個であり得る。
【0048】
特に、結合ネットワーク250は、各出力ステップにおいて第2のパス音声認識仮説120bを生成し、したがって、第2のパス音声認識仮説120bは、部分的な音声認識結果または完全な音声認識結果に対応し得る。例えば、音響フレーム110のシーケンスは、「ニューヨーク市の天気はどうですか(What is the weather in New York City)」(図1)という発話106に対応し得、結合ネットワーク250は、結合ネットワーク250がその出力ステップにおいて音響フレーム110のシーケンスの一部に対応する入力のみを処理したので、「天気はどうですか(What is the weather)」の部分的な第2のパス音声認識仮説120bを生成する。有利には、ASRモデル200は、審議のために第2のパストランスデューサデコーダ202を使用することによって、ストリーミング方式において動作しながら(例えば、それによって、待ち時間性能を低下させながら)、音響フレーム110のシーケンスの将来のコンテキストに注意を払い得る(例えば、それによって、WER性能を向上させる)。したがって、ASRモデル200は、ストリーミング方式における音声認識を必要とするアプリケーションに適した短い待ち時間も有しながら、認識性能を改善するために審議を使用し得る。
【0049】
図4は、カスケードエンコーダのためのトランスデューサベースのストリーミング審議の方法400の動作の例示的な配置のフローチャートである。方法400は、メモリハードウェア520(図5)上に記憶された命令を使用して、データ処理ハードウェア510(図5)上で実行され得る。データ処理ハードウェア510およびメモリハードウェア520は、コンピューティングデバイス500(図5)に対応する図1のユーザデバイス10および/またはリモートコンピューティングデバイス60上に存在し得る。
【0050】
動作402において、方法400は、発話106に対応する音響フレーム110のシーケンスを受信するステップを含む。動作404において、方法400は、第1のエンコーダ210によって、音響フレーム110のシーケンス内の対応する音響フレーム110について第1の高次特徴表現212を生成するステップを含む。ここで、第1のエンコーダ210は、第2のエンコーダ220にカスケード接続される。第1および第2のエンコーダ210、220は、まとめてカスケードエンコーダ204と呼ばれる。動作406において、方法400は、第1のパストランスデューサデコーダ201によって、対応する第1の高次特徴表現212について第1のパス音声認識仮説120aを生成するステップを含む。動作408において、方法400は、テキストエンコーダ240によって、対応する第1のパス音声認識仮説120aについてテキスト符号化を生成するステップを含む。動作410において、方法400は、第2のエンコーダ220によって、対応する第1の高次特徴表現212について第2の高次特徴表現222を生成するステップを含む。動作412において、方法400は、第2のパストランスデューサデコーダ220によって、対応する第2の高次特徴表現222と対応するテキスト符号化242とを使用して、第2のパス音声認識仮説120bを生成するステップを含む。特に、第2のパストランスデューサデコーダ202は、ASRモデル200が第2のパス音声認識仮説120bの各部分を生成するとすぐに、ASRモデル200が各部分を出力するように、ストリーミング方式において第2のパス音声認識仮説120bを生成する。ここで、第2のパス音声認識仮説120bは、口頭発話106からの単語、単語片、書記素、または音素の一部を含み得る。
【0051】
図5は、本文書において説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの、様々な形態のデジタルコンピュータを表すことを意図している。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示的であることのみを意図しており、本文書で説明および/または特許請求する発明の実装を限定することを意図していない。
【0052】
コンピューティングデバイス500は、プロセッサ510と、メモリ520と、記憶デバイス530と、メモリ520および高速拡張ポート550に接続する高速インターフェース/コントローラ540と、低速バス570および記憶デバイス530に接続する低速インターフェース/コントローラ560とを含む。構成要素510、520、530、540、550、および560の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に取り付けられ得、または必要に応じて他の方法において取り付けられ得る。プロセッサ510は、高速インターフェース540に結合されたディスプレイ580などの外部入力/出力デバイス上にグラフィカルユーザインターフェース(GUI)のためのグラフィカル情報を表示するための、メモリ520内または記憶デバイス530上に記憶された命令を含む、コンピューティングデバイス500内で実行するための命令を処理することができる。他の実装形態において、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリのタイプとともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス500が接続され得、各デバイスが(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の一部を提供する。
【0053】
メモリ520は、コンピューティングデバイス500内に情報を非一時的に記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであり得る。非一時的メモリ520は、プログラム(例えば、命令のシーケンス)またはデータ(プログラム状態情報)を、コンピューティングデバイス500によって使用するために一時的または永続的に記憶するために使用される物理デバイスであり得る。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読み取り専用メモリ(ROM)/プログラム可能読み取り専用メモリ(PROM)/消去可能プログラム可能読み取り専用メモリ(EPROM)/電気的消去可能プログラム可能読み取り専用メモリ(EEPROM)(例えば、典型的には、ブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。
【0054】
記憶デバイス530は、コンピューティングデバイス500のための大容量ストレージを提供することができる。いくつかの実装形態において、記憶デバイス530は、コンピュータ可読媒体である。様々な異なる実装形態において、記憶デバイス530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実装形態において、コンピュータプログラム製品は、情報キャリア内に明白に具体化される。コンピュータプログラム製品は、実行されると、上記で説明した方法などの、1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ520、記憶デバイス530、またはプロセッサ510上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。
【0055】
高速コントローラ540は、コンピューティングデバイス500のための帯域幅集約的動作を管理し、一方、低速コントローラ560は、より帯域幅集約的でない動作を管理する。そのような役割の割り当ては、単なる例示である。いくつかの実装形態において、高速コントローラ540は、メモリ520、(例えば、グラフィックスプロセッサまたはアクセラレータを介して)ディスプレイ580、および様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート550に結合される。いくつかの実装形態において、低速コントローラ560は、記憶デバイス530および低速拡張ポート590に結合される。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポート590は、キーボード、ポインティングデバイス、スキャナ、または、例えば、ネットワークアダプタを介するスイッチもしくはルータなどのネットワーキングデバイスなどの、1つまたは複数の入力/出力デバイスに結合され得る。
【0056】
コンピューティングデバイス500は、図に示すように、いくつかの異なる形態において実装され得る。例えば、コンピューティングデバイス500は、標準的なサーバ500aとして、もしくはサーバ500aのグループ内で複数回、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実装され得る。
【0057】
本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子回路および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せにおいて実現されることが可能である。これらの様々な実装形態は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスにデータおよび命令を送信するように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装を含むことができる。
【0058】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサのための機械命令を含み、高級手続き型および/もしくはオブジェクト指向プログラミング言語、ならびに/またはアセンブリ/機械語において実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置、および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0059】
本明細書で説明するプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実行されることが可能である。プロセスおよび論理フローは、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されることも可能である。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用の両方のマイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読み取り専用メモリ、またはランダムアクセスメモリ、またはその両方から命令とデータとを受信する。コンピュータの本質的な要素は、命令を実行するためのプロセッサ、および命令とデータとを記憶するための1つまたは複数のメモリである。一般に、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば、磁気ディスク、光磁気ディスク、または光ディスクも含むか、またはそれらからデータを受信、もしくはそれらにデータを送信、もしくはその両方を行うように動作可能に結合される。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令とデータとを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完されるか、または専用論理回路の中に組み込まれることが可能である。
【0060】
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するための表示デバイス、例えば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、オプションで、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールとを有するコンピュータ上に実装されることが可能である。他の種類のデバイスも同様にユーザとの対話を提供するために使用され得、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚的フィードバック、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックであることが可能であり、ユーザからの入力は、音響的入力、音声入力、または触覚的入力を含む任意の形態で受信されることが可能である。それに加えて、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送信し、そのデバイスからドキュメントを受信することによって、例えば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答して、ウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
【0061】
いくつかの実装形態について説明してきた。それにもかかわらず、本開示の要旨および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内にある。
【符号の説明】
【0062】
10 ユーザデバイス、デバイス
12 データ処理ハードウェア
14 メモリハードウェア
16 オーディオシステム
16、16a オーディオキャプチャデバイス、キャプチャデバイス
16、16b 音声出力デバイス
18 デジタルアシスタントインターフェース
19 応答
40 ネットワーク
50 デジタルアシスタントアプリケーション、プログラムまたはアプリケーション
60 リモートコンピューティングデバイス
100 音声環境
104 ユーザ
106 口頭発話、発話
107 ユーザインターフェース生成器
108 オーディオサブシステム
110 入力音響フレーム、オーディオデータ、音響フレーム
118 自動音声認識(ASR)システム、ASRシステム
120 書き写し、音声認識結果
120、120a 第1のパス音声認識仮説
120、120b 第2のパス音声認識仮説
120b、120ba~bn 非空白記号
200 ASRモデル
201 第1のパストランスデューサデコーダ
202 第2のパストランスデューサデコーダ
204 カスケードエンコーダ
210 第1のエンコーダ、エンコーダ
212 第1の高次特徴表現
220 第2のエンコーダ、エンコーダ
222 第2の高次特徴表現
230 トランスデューサデコーダ
240 テキストエンコーダ
242 テキスト符号化
250 結合ネットワーク
300 予測ネットワーク
302 マルチヘッドアテンションメカニズム
302A~302H ヘッド
304 共有埋め込みマトリックス
306、306a~n 埋め込み
308、308Aa~An 位置ベクトル、位置ベクトルPV
310 重み層
312、312Aa~An 重み付けされた埋め込み
316 加重平均モジュール
318A~H 出力
322 ヘッド平均モジュール
324 出力
326 投影層
328 投影出力
330 最終層正規化
350 埋め込みベクトル、高密度表現
500 コンピューティングデバイス
500a サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ、データ処理ハードウェア、構成要素
520 メモリ、メモリハードウェア、構成要素
530 記憶デバイス、構成要素
540 高速インターフェース/コントローラ、構成要素、高速コントローラ
550 高速拡張ポート、構成要素
560 低速インターフェース/コントローラ、構成要素、低速コントローラ
570 低速バス
580 ディスプレイ
590 低速拡張ポート
図1
図2
図3
図4
図5
【手続補正書】
【提出日】2024-05-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)であって、
第1のエンコーダ(210)であって、
音響フレーム(110)のシーケンスを入力として受信し、
複数の出力ステップの各々において、前記音響フレーム(110)のシーケンス内の対応する音響フレーム(110)について第1の高次特徴表現(212)を生成する
ように構成された第1のエンコーダ(210)と、
第1のパストランスデューサデコーダ(201)であって、
前記複数の出力ステップの各々において前記第1のエンコーダ(210)によって生成された前記第1の高次特徴表現(212)を入力として受信し、
前記複数の出力ステップの各々において、対応する第1の高次特徴表現(212)について第1のパス音声認識仮説(120a)を生成する
ように構成された第1のパストランスデューサデコーダ(201)と、
テキストエンコーダ(240)であって、
前記複数の出力ステップの各々において生成された前記第1のパス音声認識仮説(120a)を入力として受信し、
前記複数の出力ステップの各々において、対応する第1のパス音声認識仮説(120a)についてテキスト符号化(242)を生成する
ように構成されたテキストエンコーダ(240)と、
第2のエンコーダ(220)であって、
前記複数の出力ステップの各々において前記第1のエンコーダ(210)によって生成された前記第1の高次特徴表現(212)を入力として受信し、
前記複数の出力ステップの各々において、対応する第1の高次特徴表現(212)について第2の高次特徴表現(222)を生成する
ように構成された第2のエンコーダ(220)と、
第2のパストランスデューサデコーダ(202)であって、
前記複数の出力ステップの各々において前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現(222)と、前記複数の出力ステップの各々において前記テキストエンコーダ(240)によって生成された前記テキスト符号化(242)とを入力として受信し、
前記複数の出力ステップの各々において、第2のパス音声認識仮説(120b)を生成する
ように構成された第2のパストランスデューサデコーダ(202)と
を含む、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項2】
前記第1のパストランスデューサデコーダ(201)と前記第2のパストランスデューサデコーダ(202)とによって共有される予測ネットワーク(300)をさらに備え、前記予測ネットワーク(300)が、
最終ソフトマックス層によって出力された非空白記号(120b)のシーケンスを入力として受信し、
前記複数の出力ステップの各々において、高密度表現(350)を生成する
ように構成された、
請求項1に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項3】
前記第2のパストランスデューサデコーダ(202)が、
結合ネットワーク(250)であって、
前記複数の出力ステップの各々において前記予測ネットワーク(300)によって生成された前記高密度表現(350)と、前記複数の出力ステップの各々において前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現(222)と、前記複数の出力ステップの各々において前記テキストエンコーダ(240)によって生成された前記テキスト符号化(242)とを入力として受信し、
前記複数の出力ステップの各々において、前記第2のパス音声認識仮説(120b)を生成する
ように構成された結合ネットワーク(250)をさらに含む、
請求項2に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項4】
前記第2のエンコーダ(220)が、前記音響フレームのいずれも入力として受信することなく、前記第2の高次特徴表現(222)を生成する、請求項1から3のいずれか一項に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項5】
前記第1のエンコーダ(210)が、マルチヘッドアテンション層のスタックを含む因果エンコーダを含む、請求項1に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項6】
前記マルチヘッドアテンション層のスタックが、コンフォーマ層のスタックを含む、請求項5に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項7】
前記第2のエンコーダ(220)が、マルチヘッドアテンション層のスタックを含む非因果エンコーダを含む、請求項1に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項8】
前記マルチヘッドアテンション層のスタックが、コンフォーマ層のスタックを含む、請求項7に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項9】
前記第2のパストランスデューサデコーダ(202)が、テキストのみのデータを使用することなくトレーニングする、請求項1に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項10】
前記複数の出力ステップの各々において前記テキストエンコーダ(240)によって生成された前記テキスト符号化(242)を受信することが、ストリーミング方式において前記テキスト符号化(242)の部分シーケンスを受信することを含む、請求項1に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項11】
前記第2のパストランスデューサデコーダ(202)が、前記テキスト符号化(242)の前記部分シーケンスと前記第2の高次特徴表現(222)の対応する部分との間のアテンションコンテキストベクトルを決定するように構成された結合ネットワーク(250)をさらに備える、請求項10に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項12】
前記第1および第2のパス音声認識仮説(120a、120b)が、各々、部分的な音声認識結果に対応する、請求項1に記載の、カスケードエンコーダ(204)のためのトランスデューサベースの審議モデル(200)。
【請求項13】
コンピュータ実装方法(400)であって、
データ処理ハードウェア(510)上で実行されると、前記データ処理ハードウェア(510)に、
音響フレーム(110)のシーケンスを受信するステップと、
第1のエンコーダ(210)によって、複数の出力ステップの各々において前記音響フレーム(110)のシーケンス内の対応する音響フレーム(110)について第1の高次特徴表現(212)を生成するステップと、
第1のパストランスデューサデコーダ(201)によって、前記複数の出力ステップの各々において、対応する第1の高次特徴表現(212)について第1のパス音声認識仮説(120a)を生成するステップと、
テキストエンコーダ(240)によって、前記複数の出力ステップの各々において、対応する第1のパス音声認識仮説(120a)についてテキスト符号化(242)を生成するステップと、
第2のエンコーダ(220)によって、前記複数の出力ステップの各々において、対応する第1の高次特徴表現(212)について第2の高次特徴表現(222)を生成するステップと、
第2のパストランスデューサデコーダ(202)によって、前記複数の出力ステップの各々において、対応する第2の高次特徴表現(222)と、対応するテキスト符号化(242)とを使用して、第2のパス音声認識仮説(120b)を生成するステップと
を含む動作を実行させるコンピュータ実装方法(400)。
【請求項14】
前記動作がさらに、
予測ネットワーク(300)によって、最終ソフトマックス層によって出力された非空白記号(120b)のシーケンスに基づいて、前記複数の出力ステップの各々において高密度表現(350)を生成するステップを含み、
前記第1のパストランスデューサデコーダ(201)および前記第2のパストランスデューサデコーダ(202)が、前記予測ネットワーク(300)を共有する、
請求項13に記載のコンピュータ実装方法(400)。
【請求項15】
前記動作がさらに、前記複数の出力ステップの各々において、結合ネットワーク(250)によって、前記複数の出力ステップの各々において前記予測ネットワーク(300)によって生成された前記高密度表現(350)と、前記複数の出力ステップの各々において前記第2のエンコーダ(220)によって生成された前記第2の高次特徴表現(222)と、前記複数の出力ステップの各々において前記テキストエンコーダ(240)によって生成された前記テキスト符号化(242)とに基づいて、前記第2のパス音声認識仮説(120b)を生成するステップを含む、請求項14に記載のコンピュータ実装方法(400)。
【請求項16】
前記第2のエンコーダ(220)が、前記音響フレーム(110)のいずれも入力として受信することなく、前記第2の高次特徴表現(222)を生成する、請求項13から15のいずれか一項に記載のコンピュータ実装方法(400)。
【請求項17】
前記第1のエンコーダ(210)が、マルチヘッドアテンション層のスタックを含む因果エンコーダを含む、請求項13に記載のコンピュータ実装方法(400)。
【請求項18】
前記マルチヘッドアテンション層のスタックが、コンフォーマ層のスタックを含む、請求項17に記載のコンピュータ実装方法(400)。
【請求項19】
前記第2のエンコーダ(220)が、マルチヘッドアテンション層のスタックを含む非因果エンコーダを含む、請求項13に記載のコンピュータ実装方法(400)。
【請求項20】
前記マルチヘッドアテンション層のスタックが、コンフォーマ層のスタックを含む、請求項19に記載のコンピュータ実装方法(400)。
【請求項21】
前記第2のパストランスデューサデコーダ(202)が、テキストのみのデータを使用することなくトレーニングする、請求項13に記載のコンピュータ実装方法(400)。
【請求項22】
前記テキスト符号化(242)を受信するステップが、ストリーミング方式において前記テキスト符号化(242)の部分シーケンスを受信するステップを含む、請求項13に記載のコンピュータ実装方法(400)。
【請求項23】
前記動作が、結合ネットワーク(250)によって、前記テキスト符号化(242)の前記部分シーケンスと前記第2の高次特徴表現(222)の対応する部分との間のアテンションコンテキストベクトルを決定するステップをさらに含む、請求項22に記載のコンピュータ実装方法。
【請求項24】
前記第1および第2のパス音声認識仮説(120a、120b)が、各々、部分的な音声認識結果に対応する、請求項13に記載のコンピュータ実装方法。
【国際調査報告】