IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2024-536387言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステム
<>
  • 特表-言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステム 図1
  • 特表-言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステム 図2
  • 特表-言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステム 図3
  • 特表-言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステム 図4
  • 特表-言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステム 図5
  • 特表-言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-04
(54)【発明の名称】言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステム
(51)【国際特許分類】
   G10L 15/16 20060101AFI20240927BHJP
   G10L 15/06 20130101ALI20240927BHJP
【FI】
G10L15/16
G10L15/06 300Y
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024520915
(86)(22)【出願日】2022-09-22
(85)【翻訳文提出日】2024-05-24
(86)【国際出願番号】 US2022076893
(87)【国際公開番号】W WO2023059992
(87)【国際公開日】2023-04-13
(31)【優先権主張番号】63/262,161
(32)【優先日】2021-10-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100142907
【弁理士】
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】リー、ボー
(72)【発明者】
【氏名】サイナス、ターラ エヌ
(72)【発明者】
【氏名】パン、ルオミン
(72)【発明者】
【氏名】チャン、シュオ-イーン
(72)【発明者】
【氏名】シュー、チューミン
(72)【発明者】
【氏名】ストローマン、トレバー
(72)【発明者】
【氏名】チェン、ヴィンス
(72)【発明者】
【氏名】リャン、チャオ
(72)【発明者】
【氏名】リュー、フーグァン
(72)【発明者】
【氏名】ホー、ヤンチャン
(72)【発明者】
【氏名】ハガニ、パリサ
(72)【発明者】
【氏名】ビディチャンダニ、サミール
(57)【要約】
方法(500)は、多言語自動音声認識(ASR)モデル(200)への入力として、1つまたは複数の発話(106)を特徴付ける音響フレーム(110)のシーケンスを受信する工程を備えている。方法はまた、対応する音響フレームの高次特徴表現(204)を生成する工程も備えている。方法はまた、最終ソフトマックス層(240)によって出力される非空白記号のシーケンス(222)に基づき、隠れ表現(355)を生成する工程も備えている。方法はまた、隠れ表現および高次特徴表現に基づき、可能な音声認識仮説にわたる確率分布を生成する工程も備えている。方法はまた、各発話の終わりに発話終了(EOU)トークン(232)を予測する工程も備えている。方法はまた、各音響フレームを音声、初期無音、中間無音、または最終無音、のいずれかに分類する工程も備えている。
【特許請求の範囲】
【請求項1】
多言語自動音声認識(ASR)システム(100)であって、多言語自動音声認識(ASR)システム(100)は多言語自動音声認識ASRモデル(200)と多言語エンドポインタモデル(210)とを備えており、
前記多言語自動音声認識ASRモデル(200)は、
マルチヘッドアテンション層のスタックを備えているエンコーダ(202)であって、前記エンコーダ(202)が、
1つまたは複数の発話(106)を特徴付ける音響フレーム(110)のシーケンスを入力として受信するとともに、
複数の出力ステップの各々において、前記音響フレーム(110)のシーケンスの中の対応する音響フレーム(110)の高次特徴表現(204)を生成するよう構成されている、前記エンコーダ(202)と、
予測ネットワーク(300)であって、
最終ソフトマックス層によって出力される非空白記号のシーケンス(222)を入力として受信することで、
複数の前記出力ステップの各々において、隠れ表現(355)を生成するよう構成されている、前記予測ネットワーク(300)と、
第1ジョイントネットワーク(220)であって、
複数の前記出力ステップの各々において前記予測ネットワーク(300)によって生成済みの前記隠れ表現(355)と、複数の前記出力ステップの各々において前記エンコーダ(202)によって生成済みの前記高次特徴表現(204)と、を入力として受信することで、
複数の前記出力ステップの各々において、可能な音声認識仮説にわたる確率分布(222)を生成するよう構成されている、前記第1ジョイントネットワーク(220)と、および
第2ジョイントネットワーク(230)であって、
複数の前記出力ステップの各々において前記予測ネットワーク(300)によって生成済みの前記隠れ表現(355)と、複数の前記出力ステップの各々において前記エンコーダ(202)によって生成済みの前記高次特徴表現(204)と、を入力として受信することで、各発話(106)の終わりに発話終了(EOU)トークン(232)を出力として予測するよう構成されている、前記第2ジョイントネットワーク(230)と、
を備えている、前記多言語自動音声認識ASRモデル(200)であり、および
前記多言語エンドポインタモデル(210)は、前記音響フレーム(110)のシーケンス内の前記各音響フレーム(110)を音声、初期無音、中間無音、または最終無音、のいずれかに分類するように構成された前記多言語エンドポインタモデル(210)である、
多言語自動音声認識ASRシステム(100)。
【請求項2】
前記第2ジョイントネットワーク(230)からの出力として予測される各発話終了EOUトークン(232)に応じてマイク閉じイベント(255)をトリガーするように構成されたマイククローザ(250)をさらに備えている、
請求項1に記載の多言語自動音声認識ASRシステム(100)。
【請求項3】
前記多言語エンドポインタモデル(210)が前記音響フレーム(110)を前記最終無音として分類したことに応じて、マイク閉じイベント(255)をトリガーするように構成されたマイククローザ(250)をさらに備えている、
請求項1または2に記載の多言語自動音声認識ASRシステム(100)。
【請求項4】
前記多言語エンドポインタモデル(210)は前記エンコーダ(202)から分岐しているとともに、前記マルチヘッドアテンション層のスタックからの前記マルチヘッドアテンション層の1つの計算を共有している、
請求項3に記載の多言語自動音声認識ASRシステム(100)。
【請求項5】
前記多言語自動音声認識ASRモデル(200)は、2段階のトレーニング処理を使用することでトレーニングされており、
前記2段階のトレーニング処理のうちの第1段階では、前記エンコーダ(202)、前記予測ネットワーク(300)、および前記第1ジョイントネットワーク(220)、は音声認識品質について最適化されており、
前記2段階のトレーニング処理のうちの第2段階では、前記第2ジョイントネットワーク(230)は前記第1ジョイントネットワーク(220)で初期化されており、前記エンコーダ(202)、前記予測ネットワーク(300)、および前記第1ジョイントネットワーク(220)、のパラメータは固定される、
請求項1~4のいずれか1項に記載の多言語自動音声認識ASRシステム(100)。
【請求項6】
前記多言語自動音声認識ASRモデル(220)は、複数の異なる言語からサンプリングされた多言語トレーニング発話でトレーニングされる、
請求項1~5のいずれか1項に記載の多言語自動音声認識ASRシステム(100)。
【請求項7】
前記各多言語トレーニング発話は、対応するドメイン識別子(ID)(112)に連結されている、
請求項6に記載の多言語自動音声認識ASRシステム(100)。
【請求項8】
音声検索ドメインを表す対応するドメインID(112)に連結された前記多言語トレーニング発話は発話終了EOUトレーニングトークン(232)を備えており、
前記音声検索ドメイン以外のドメインを表す対応するドメインID(112)に連結された前記多言語トレーニング発話は、いずれの前記発話終了EOUトレーニングトークン(232)も含まない、
請求項7に記載の多言語自動音声認識ASRシステム(100)。
【請求項9】
前記音響フレーム(110)の前記シーケンスは、第1言語で話された第1発話と、続いて前記第1言語とは異なる第2言語で話された第2発話と、を特徴付ける、
請求項1~8のいずれか1項に記載の多言語自動音声認識ASRシステム(100)。
【請求項10】
前記マルチヘッドアテンション層の前記スタックは、コンフォーマ層のスタックを備えている、
請求項1~9のいずれか1項に記載の多言語自動音声認識ASRシステム(100)。
【請求項11】
コンピュータ実装方法(500)であって、データ処理ハードウェア(610)によって実行されるとき、前記データ処理ハードウェア(610)に、
多言語自動音声認識(ASR)モデル(200)への入力として、1つまたは複数の発話(106)を特徴付ける音響フレーム(110)のシーケンスを受信する工程と、
多言語自動音声認識ASRモデル(200)のエンコーダ(202)によって、複数の出力ステップの各々において、前記音響フレーム(110)の前記シーケンス内の対応する音響フレーム(110)の高次特徴表現(204)を生成する工程とであって、前記エンコーダ(202)は、マルチヘッドアテンション層のスタックを備えている、前記高次特徴表現(204)を生成する工程と、
前記多言語自動音声認識ASRモデル(200)の予測ネットワーク(300)によって、複数の前記出力ステップの各々において、最終ソフトマックス層による非空白記号のシーケンスの出力(222)に基づき隠れ表現(355)を生成する工程と、
前記多言語自動音声認識ASRモデル(200)の第1ジョイントネットワーク(220)によって、複数の前記出力ステップの各々において、複数の前記出力ステップの各々において前記予測ネットワーク(300)によって生成済みの前記隠れ表現(255)と、複数の前記出力ステップの各々で前記エンコーダ(204)によって生成済みの前記高次特徴表現(204)と、に基づき可能な音声認識仮説にわたる確率分布(222)を生成する工程と、
前記多言語自動音声認識ASRモデル(200)の第2ジョイントネットワーク(230)によって、複数の前記出力ステップの各々において前記予測ネットワーク(300)によって生成済みの前記隠れ表現(355)と、複数の前記出力ステップの各々において前記エンコーダ(202)によって生成済みの前記高次特徴表現(204)と、に基づき各発話(106)の終わりに発話終了(EOU)トークン(232)を予測する工程と、および
多言語エンドポインタモデル(210)によって、前記音響フレーム(110)のシーケンス内の各音響フレーム(110)を音声、初期無音、中間無音、または最終無音、のいずれかに分類する工程と、
を備えている動作を実行させる、
コンピュータ実装方法(500)。
【請求項12】
前記動作は、前記第2ジョイントネットワーク(230)からの出力として予測される各発話終了EOUトークン(232)に応じて、マイククローザ(250)によってマイク閉じイベント(255)をトリガーする工程、をさらに備えている、
請求項11に記載のコンピュータ実装方法(500)。
【請求項13】
前記動作は、前記多言語エンドポインタモデル(210)が音響フレーム(110)を前記最終無音として分類したことに応じて、マイククローザ(250)によってマイク閉じイベント(255)をトリガーする工程、をさらに備えている、
請求項11または12に記載のコンピュータ実装方法(500)。
【請求項14】
前記多言語エンドポインタモデル(210)は前記エンコーダ(202)から分岐しており、前記マルチヘッドアテンション層のスタックからの前記マルチヘッドアテンション層の1つの計算を共有している、
請求項13に記載のコンピュータ実装方法(500)。
【請求項15】
前記多言語自動音声認識ASRモデル(200)は、2段階のトレーニング処理を使用することでトレーニングされており、
前記2段階のトレーニング処理のうちの第1段階では、前記エンコーダ(202)、前記予測ネットワーク(300)、および前記第1ジョイントネットワーク(220)、が音声認識品質について最適化されており、
前記2段階のトレーニング処理のうちの第2段階では、前記第2ジョイントネットワーク(230)が前記第1ジョイントネットワーク(220)で初期化されており、前記エンコーダ(202)、前記予測ネットワーク(300)、および前記第1ジョイントネットワーク(220)、のパラメータが固定される、
請求項11~14のいずれか1項に記載のコンピュータ実装方法(500)。
【請求項16】
前記多言語自動音声認識ASRモデル(200)は、複数の異なる言語からサンプリングされた多言語トレーニング発話でトレーニングされる、
請求項11~15のいずれか1項に記載のコンピュータ実装方法(500)。
【請求項17】
各多言語トレーニング発話は、対応するドメイン識別子(ID)(112)に連結される、
請求項16に記載のコンピュータ実装方法(500)。
【請求項18】
音声検索ドメインを表す対応するドメインID(112)に連結された多言語トレーニング発話は発話終了EOUトレーニングトークン(232)を備えており、
前記音声検索ドメイン以外のドメインを表す対応するドメインID(112)に連結された多言語トレーニング発話は、いずれの発話終了EOUトレーニングトークン(232)も含まない、
請求項17に記載のコンピュータ実装方法(500)。
【請求項19】
前記音響フレーム(110)のシーケンスは、第1言語で話された第1発話と、続いて前記第1言語とは異なる第2言語で話された第2発話と、を特徴付ける、
請求項11~18のいずれか1項に記載のコンピュータ実装方法(500)。
【請求項20】
前記マルチヘッドアテンション層のスタックがコンフォーマ層のスタックを備えている、
請求項11~19のいずれか1項に記載のコンピュータ実装方法(500)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイス自動音声認識ASRシステムに関する。
【背景技術】
【0002】
オンデバイスのエンドツーエンド(E2E)音声認識モデルは、単一言語の従来の音声認識モデルに関して質の向上を呈している。より具体的には、質の向上は、単語誤り率(WER)と、ユーザが話すのをやめてから音声認識モデルが認識結果を生成するまでの遅延であるレイテンシと、によって測定される。E2E音声認識モデルはまた、多言語音声(複数の異なる言語など)を認識できる従来の音声認識モデルに関して同様の質の向上を示している。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかし、これらのE2E音声認識モデルは、複数の異なる言語を認識するべく必要なモデルサイズが大きくなるので、オンデバイスのストリーミングアプリケーションには適していない。さらに、複数の異なる言語を認識できる音声認識モデルの発展および更新は、管理が厄介なものになる可能性がある。
【課題を解決するための手段】
【0004】
本開示の一態様は、マルチヘッドアテンション層のスタックを備えたエンコーダを備えている多言語自動音声認識ASRモデルを備えている多言語自動音声認識(ASR)システムを提供する。エンコーダは、1つまたは複数の発話を特徴付ける音響フレームのシーケンスを入力として受信することで、複数の出力ステップの各々において、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現を生成するように構成されている。多言語自動音声認識ASRモデルはまた、最終ソフトマックス層によって出力される非空白記号のシーケンスを入力として受信することで、複数の出力ステップの各々で隠れ表現(ヒドゥンレプリゼンテーション、隠し表現)を生成するように構成された予測ネットワークを備えている。多言語自動音声認識ASRモデルはまた、予測ネットワークによって複数の出力ステップの各々で生成済みの隠れ表現と、エンコーダによって複数の出力ステップの各々で生成済みの高次特徴表現と、を入力として受信することで、複数の出力ステップの各々で、可能な音声認識仮説(ポッシブルスピーチレコグニションヒポセシス)にわたる確率分布を生成するように構成された第1ジョイントネットワーク(第1のジョイントネットワーク)を備えている。多言語自動音声認識ASRモデルはまた、予測ネットワークによって複数の出力ステップの各々で生成済みの隠れ表現と、エンコーダによって複数の出力ステップの各々で生成済みの高次特徴表現と、を入力として受信することで、各発話の終了時に発話終了(EOU)トークンを出力として予測するように構成された第2ジョイントネットワーク(第2のジョイントネットワーク)も備えている。多言語自動音声認識ASRシステムはまた、音響フレームのシーケンス内の各音響フレームを音声、初期無音、中間無音、または最終無音、のいずれかに分類するように構成された多言語エンドポインタモデルも備えている。
【0005】
本開示の実施態様は、以下の任意選択の特徴の1つまたは複数を含み得る。いくつかの実施態様では、多言語自動音声認識ASRシステムは、第2ジョイントネットワークからの出力として予測される各発話終了EOUトークンに応じて、マイク閉じ(クローズ)イベントをトリガーするように構成されたマイククローザ(マイククローザー)をさらに備えている。いくつかの例では、多言語自動音声認識ASRシステムは、多言語エンドポインタモデルが音響フレームを最終無音として分類したことに応じて、マイク閉じイベントをトリガーするように構成されたマイククローザをさらに備えている。これらの例では、多言語エンドポインタモデルはエンコーダから分岐しているとともに、マルチヘッドアテンション層のスタックからのマルチヘッドアテンション層の1つの計算を共有できる。いくつかの実施態様では、多言語自動音声認識ASRモデルは2段階のトレーニング処理を使用することでトレーニングされる。これらの実施態様では、2段階のトレーニング処理のうちの第1段階では、エンコーダ、予測ネットワーク、および第1ジョイントネットワーク、が音声認識品質について最適化されており、2段階のトレーニング処理のうちの第2段階では、第2ジョイントネットワークが第1ジョイントネットワークで初期化されているとともに、エンコーダ、予測ネットワーク、および第1ジョイントネットワーク、のパラメータが固定される。
【0006】
多言語自動音声認識ASRモデルは、複数の異なる言語からサンプリングされた多言語トレーニング発話でトレーニングされ得る。ここで、各多言語トレーニング発話は、対応するドメイン識別子(ID)に連結される場合がある。音声検索ドメインを表す対応するドメインIDに連結された多言語トレーニング発話は、発話終了EOUトレーニングトークンを含み得、音声検索ドメイン以外のドメインを表す対応するドメインIDに連結された多言語トレーニング発話はいずれの発話終了EOUトレーニングトークンも含まない。いくつかの実施態様では、音響フレームのシーケンスは、第1言語で話された第1発話と、続いて第1言語とは異なる第2言語で話された第2発話と、を特徴付ける。いくつかの例では、マルチヘッドアテンション層のスタックは、コンフォーマ層のスタックを備えている。
【0007】
本開示の別の態様は、データ処理ハードウェアで実行されるとき、データ処理ハードウェアが言語アグノスティック多言語エンドツーエンドストリーミングオンデバイスを実行するための動作を実行するコンピュータ実装方法を提供する。動作は、多言語自動音声認識(ASR)モデルへの入力として、1つまたは複数の発話を特徴付ける音響フレームのシーケンスを受信する工程を備えている。動作は、複数の出力ステップの各々において多言語自動音声認識ASRモデルのエンコーダによって、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現を生成する工程も備えている。ここで、エンコーダはマルチヘッドアテンション層のスタックを備えている。動作はまた、複数の出力ステップの各々において、多言語自動音声認識ASRモデルの予測ネットワークによって、最終ソフトマックス層によって出力される非空白記号のシーケンスに基づき隠れ表現を生成する工程も備えている。動作はまた、複数の出力ステップの各々で予測ネットワークによって生成済みの隠れ表現と、複数の出力ステップの各々でエンコーダによって生成済みの高次特徴表現と、に基づき可能な音声認識仮説にわたる確率分布を、複数の出力ステップの各々で、多言語自動音声認識ASRモデルの第1ジョイントネットワークによって生成する工程を備えている。動作はまた、多言語自動音声認識ASRモデルの第2ジョイントネットワークによって、複数の出力ステップの各々において予測ネットワークによって生成済みの隠れ表現と、複数の出力ステップの各々においてエンコーダによって生成済みの高次特徴表現と、に基づき各発話の終わりに発話終了(EOU)トークンを予測する工程を備えている。この動作はまた、ただし多言語エンドポインタモデルが、音響フレームのシーケンス内の各音響フレームを、音声、初期無音、中間無音、または最終無音、のいずれかに分類する工程も備えている。
【0008】
本開示の実施態様は、以下の任意選択の特徴の1つまたは複数を含み得る。いくつかの実施態様では、動作は、第2ジョイントネットワークからの出力として予測される各発話終了EOUトークンに応じて、マイククローザによってマイク閉じイベントをトリガーする工程、をさらに備えている。いくつかの例では、動作は、多言語エンドポインタが音響フレームを最終無音として分類したことに応じて、マイククローザによってマイク閉じイベントをトリガーする工程、をさらに備えている。これらの例では、多言語エンドポインタはエンコーダから分岐しているとともに、マルチヘッドアテンション層のスタックからのマルチヘッドアテンション層の1つの計算を共有してもよい。いくつかの実施態様では、多言語自動音声認識ASRモデルは、2段階のトレーニング処理を使用することでトレーニングされる。これらの実施態様では、2段階のトレーニング処理のうちの第1段階では、エンコーダ、予測ネットワーク、および第1ジョイントネットワーク、が音声認識品質について最適化されており、2段階のトレーニング処理のうちの第2段階では、第2ジョイントネットワークが第1ジョイントネットワークで初期化されており、エンコーダ、予測ネットワーク、および第1ジョイントネットワーク、のパラメータが固定される。
【0009】
多言語自動音声認識ASRモデルは、複数の異なる言語からサンプリングされた多言語トレーニング発話でトレーニングされ得る。ここで、各多言語トレーニング発話は、対応するドメイン識別子(ID)に連結される場合がある。音声検索ドメインを表す対応するドメインIDに連結された多言語トレーニング発話は、発話終了EOUトレーニングトークンを含み得て、音声検索ドメイン以外のドメインを表す対応するドメインIDに連結された多言語トレーニング発話はいずれの発話終了EOUトレーニングトークンも含まない。いくつかの実施態様では、音響フレームのシーケンスは、第1言語で話された第1発話と、続いて第1言語とは異なる第2言語で話された第2発話と、を特徴付ける。いくつかの例では、マルチヘッドアテンション層のスタックは、コンフォーマ層のスタックを備えている。
【0010】
本開示の1つまたは複数の実施態様の詳細は、添付の図面および以下の説明において述べられる。他の態様、特徴、および利点、が説明および図面ならびに請求項から明らかになる。
【図面の簡単な説明】
【0011】
図1】例示的な多言語音声認識システムの概略図である。
図2】例示的な多言語音声認識モデルの概略図である。
図3図2の多言語音声認識モデルの例示的な予測ネットワークの概略図である。
図4】多言語エンドポインタモデルによって予測されたシーケンス分類ラベルのプロットを示している。
図5】言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイスを実行するコンピュータ実装方法の例示的な動作の配置を示すフローチャートである。
図6】本明細書に記載のシステムおよび方法を実装するべく使用できる例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0012】
種々の図面における同様の参照記号は、同様の要素を指す。
自動音声認識(ASR)システムは、フレーズ、文、クエリ、コマンド、の終わりなどの、発話の終わりを認識するように構成できる。発話が終了したことを迅速かつ正確に判断することは、低レイテンシで正確な結果を提供するべく多くの場合に重要である。例えば、自動音声認識ASRシステムが音声のキャプチャと処理とを途中で終了した場合、ユーザの発話の終わりがカットオフされていることで、結果として得られるトランスクリプション(転写、文字起こし)が不完全または不正確になる可能性がある。一方、自動音声認識ASRシステムは発話が終了した後も追加の音声を待機し続けると、システムはユーザへの応答を不必要に遅らせる可能性がある。したがって、ユーザが話し終えたらすぐにユーザデバイスのマイクを閉じる(クローズする)ことが望ましいが、発話を途中で中断しないようにする必要がある。さらに、多言語音声認識が可能な自動音声認識ASRシステムの場合、対応すべき言語同士が互いに異なるので、この処理はさらに一層複雑になる。よって、多言語自動音声認識ASRシステムは非常に大きくなることが多いので、デバイス上のストリーミングアプリケーションには適していない。
【0013】
したがって、本明細書に記載の実施態様は、言語アグノスティックおよびデバイス上のストリーミング自動音声認識ASRアプリケーションに適した多言語自動音声認識ASRシステムに向けられている。より具体的には、多言語自動音声認識ASRシステムは、音響フレームのシーケンス内の対応する音響フレームに対して高次特徴表現を生成するエンコーダを備えている。音響フレームのシーケンスは、異なる言語の発話に対応する場合がある。場合によっては、音響フレームのシーケンスは、第1部分が第1言語で、第2部分が第2言語である単一の発話に対応する(つまり、コードスイッチング)。多言語自動音声認識ASRシステムはまた、高次特徴表現と、予測ネットワークによって生成済みの隠れ表現と、に基づき可能な音声認識仮説(例えば、音声認識結果)にわたる確率分布を生成する第1ジョイントネットワークも備えている。第2ジョイントネットワークは、高次特徴表現と隠れ表現とに基づき、各発話の終わりの発話終了(EOU)トークンを予測する。マイククローザは発話終了EOUトークンを受信することで、発話終了EOUトークンの存在に基づきマイク閉じ(クロージング、終了)イベントを生成し得る。
【0014】
図1は、ユーザ104のユーザデバイス102、および/またはユーザデバイス102に通信するリモートコンピューティングデバイス201(例えば、クラウドコンピューティング環境で実行される分散システムの1つまたは複数のサーバ)に常駐する多言語自動音声認識ASRモデル200を実装する自動音声認識ASRシステム100を示している。ユーザデバイス102はモバイルコンピューティングデバイス(例えば、スマートフォン)として示されているが、ユーザデバイス102は、限定することなく、タブレットデバイス、ラップトップ/デスクトップコンピュータ、ウェアラブルデバイス、デジタルアシスタントデバイス、スマートスピーカー/ディスプレイ、スマートアプライアンス、自動車インフォテインメントシステム、またはモノのインターネット(IoT)デバイス、などあらゆるタイプのコンピューティングデバイスに対応しており、データ処理ハードウェア111とメモリハードウェア113を備えている。
【0015】
ユーザデバイス102は、ユーザ104が発した発話106を受信することで、話されていた発話の発話106を自動音声認識ASRシステム100で処理可能な入力音響フレーム110に関連付けられた対応するデジタル形式に変換するように構成されたオーディオキャプチャデバイス(例えば、マイク)108、108aを備えたオーディオサブシステム108を備えている。オーディオサブシステム108はまた、ユーザデバイス102からの出力オーディオデータとして可聴オーディオ信号を通信するための音声出力デバイス(例えば、スピーカー)108、108bも含み得る。図示の例では、ユーザデバイス102は単一のオーディオキャプチャデバイス108aを実装しているが、ユーザデバイス102は、本開示の範囲から逸脱することなく、オーディオキャプチャデバイス108aのアレイを実装してよい。この場合、アレイ内の1つまたは複数のキャプチャデバイス108aは、ユーザデバイス10に物理的に常駐せず、オーディオサブシステム108に通信してもよい。
【0016】
示されている例では、ユーザは「ニューヨーク市の天気はどうですか」(どうであるか、ワットイズザウェザーインニューヨークシティ)というフレーズについて、英語の自然言語で各々の発話106を話しており、オーディオサブシステム108は発話106を、対応する音響フレーム110に変換して自動音声認識ASRシステム100に入力する。その後、多言語自動音声認識ASRモデル(例えば、自動音声認識ASRモデル)200は、発話106に対応する音響フレーム(すなわち、入力音声フレームのシーケンス)110を入力として受信することで、発話106の対応するトランスクリプション120(例えば、認識結果/仮説)を出力として生成/予測する。示されている例では、ユーザデバイス102および/またはリモートコンピューティングデバイス201は、発話106のトランスクリプション120の表現をユーザデバイス102のユーザ104に提示するように構成されたユーザインタフェース(インターフェース)ジェネレータ107も実行している。いくつかの構成では、自動音声認識ASRシステム100から出力されたトランスクリプション120は、例えば、ユーザデバイス102またはリモートコンピューティングデバイス201で実行される自然言語理解(NLU)モジュールによって処理されており、ユーザコマンドが実行される。さらに、または代わりに、テキスト読み上げシステム(例えば、ユーザデバイス102またはリモートコンピューティングデバイス201の任意の組合せで実行される)は、トランスクリプションを合成音声に変換するとともに、別のデバイスで聞こえるように出力することができる。例えば、元の発話106は、ユーザ104が友人に送信するメッセージに対応しており、そのメッセージでは、トランスクリプション120が合成音声に変換されているので、元の発話106で伝えられたメッセージを友人が聞くことができるように可聴出力される。
【0017】
明らかになるように、ユーザデバイス102は、自動音声認識ASRモデル200からマイク閉じイベント255(図2)を受信することができる。マイク閉じイベント255を受信することに応じて、ユーザデバイス102は、マイク閉じイベント255の後にユーザデバイス102がそれ以上のオーディオデータをキャプチャするのを防ぐことができる。例えば、ユーザデバイス102は、1つまたは複数のマイク108aを非アクティブ化するかまたは閉じることができる。さらに、ユーザデバイス102は、自動音声認識ASRモデル200に指示することで、音響フレーム110のシーケンスに対するいずれかのアクティブな処理を停止しており、マイク閉じイベント255に応じて、ユーザデバイス102にトランスクリプションの機能を履行するように指示することができる。その結果、マイク閉じイベント255の後にマイク108aによって後続の音声または背景ノイズがキャプチャされないので、音声認識の精度が向上する。
【0018】
図2を参照すると、自動音声認識ASRモデル200には、エンコーダ202、デコーダ206、多言語エンドポインタモデル210、およびマイククローザ250、が含まれている。エンコーダ202は、1つまたは複数の発話106(図1)を特徴付ける音響フレーム110のシーケンスを入力として受信するように構成されている。自動音声認識ASRモデル200は、複数の異なる言語からの発話を認識するように構成された多言語自動音声認識ASRモデルである。特に、自動音声認識ASRモデル200は、複数の異なる言語からサンプリングされた多言語トレーニング発話でトレーニングすることができる。例えば、第1多言語トレーニング発話は英語で話されており、第2多言語トレーニング発話はオランダ語で話される場合がある。場合によっては、多言語トレーニング発話の音響フレーム110のシーケンスは、第1言語の第1部分に続いて、第1言語とは異なる第2言語で話された第2部分を特徴付ける。例えば、「de jager legt de roos on the chair」(猟師が椅子の上の的を射る)という多言語トレーニング発話には、オランダ語の第1部分「de jager legt de roos」(猟師が的を射る)と英語の第2部分「on the chair」(椅子の上の)が含まれる。1つまたは複数の異なる言語の用語を備えている単一の多言語トレーニング発話は、コードスイッチングと呼ばれる。
【0019】
いくつかの例では、各多言語トレーニング発話に対応する音響フレーム110のシーケンスが、対応するドメイン識別子(ID)112に連結される。ドメインID112は、多言語トレーニング発話に関連付けられたスピーキングドメインを示す。例えば、ドメインID112は、音声検索/コマンドドメイン、ビデオ会議ドメイン、またはダイアライゼーションドメイン、を表してもよい。明らかになるように、マイククローザ250は、発話終了トークン232、分類212、またはそれらの何らかの組合せ、に基づきマイク閉じイベント255を生成するかどうかを判定してもよい。例えば、マイククローザ250は、音声検索/コマンドドメインを示すドメインID112に連結された音響フレーム110のシーケンスの発話終了トークン232に基づき、マイク閉じイベント255を生成してもよい。他の例では、マイククローザ250は、音声検索/コマンドドメイン以外の任意のドメインID112に連結された音響フレーム110のシーケンスの分類212に基づき、マイク閉じイベント255を生成してもよい。したがって、音声検索/コマンドドメインを表す対応するドメインID112に連結された多言語トレーニング発話には、自動音声認識ASRモデル200をトレーニングするための発話終了トレーニングトークンが含まれる可能性があるが、音声検索/コマンドドメイン以外のドメインを表す対応するドメインID112に連結された多言語トレーニング発話には、自動音声認識ASRモデル200をトレーニングするためのいずれかの発話終了トレーニングトークン232は含まれない。
【0020】
音響フレーム110のシーケンスは、オーディオサブシステム108(図1)によって、パラメータ化された音響フレーム(例えば、メルフレームおよび/またはスペクトルフレーム)に事前に処理される場合がある。いくつかの実施態様では、パラメータ化された音響フレーム110は、log-mel特徴を持つlog-melフィルタバンクエネルギーに対応する。例えば、エンコーダ202に入力される発話106(図1)を表すパラメータ化された入力音響フレーム110は、x=(x,・・・,x)と表すことができ、式中
【0021】
【数1】
【0022】
はlog-Melフィルタバンクのエネルギー、Tはx内のフレーム数、dはlog-Mel特徴の数を表す。いくつかの例では、各パラメータ化された音響フレームは、短いシフトウィンドウ(例えば、32ミリ秒で10ミリ秒ごとにシフト)内で計算された128次元のlog-mel特徴を備えている。各特徴は、前のフレーム(例えば、前の3つのフレーム)とで積み重ねられることで、より高次元のベクトル(例えば、前の3つのフレームを使用した512次元のベクトル)を形成する場合がある。次に、ベクトルを形成する特徴をダウンサンプリングする(例えば、30ミリ秒のフレームレートに)ことができる。エンコーダ202に入力される音響フレーム110のシーケンス内の各音響フレーム110(x1:T)について、エンコーダ202は、各出力ステップで、音響フレーム110のシーケンス内の対応する音響フレーム110の第2高次特徴表現204を生成するように構成されている。
【0023】
いくつかの実施態様では、エンコーダ202は、各々がマルチヘッド(例えば、8ヘッド)のセルフアテンションメカニズムを備えているマルチヘッドアテンション層のスタックを備えている。例えば、セルフアテンション層のスタックは、コンフォーマ層または変換層のスタックを備えている場合がある。示されている例では、エンコーダ202は、コンフォーマエンコーダを備えており、コンフォーマエンコーダは、各々が一連のマルチヘッドセルフアテンション、深さ方向の畳み込み、およびフィードフォワード層を備えているコンフォーマ層のスタック(例えば、12個のコンフォーマ層)を備えている。各コンフォーマ層は因果畳み込みを実行しており、左(レフト)コンテキストアテンションを備えており、エンコーダ202が音響フレーム110のシーケンス内の将来の音響フレーム110を使用することで第2高次特徴表現204を生成することを制限する。
【0024】
図2に示すように、エンコーダ202は、第1サブエンコーダ(第1のサブエンコーダ)202、202aと第2サブエンコーダ(第2のサブエンコーダ)202、202bと、を備えている。第1サブエンコーダ202aは、入力投影層と、各出力ステップで音響フレーム110のシーケンス内の対応する音響フレーム110の第1高次特徴表現203を生成するように構成された三(3)つのコンフォーマ層と、を有している。第2サブエンコーダ202bは、第1サブエンコーダ202aからの二(2)つの隣接する出力を連結することで60ミリ秒のフレームを形成する時間スタッキング層を有している。第2サブエンコーダ202bはまた、1024次元のコンフォーマ層、投影層、および八(8)つのコンフォーマ層とそれに続く層正規化、も備えている。第2サブエンコーダ202bは、第1高次特徴表現203を入力として受信することで、各出力ステップで第2高次特徴表現204を生成するように構成されている。
【0025】
多言語エンドポインタモデル210(単に「エンドポインタ210」とも呼ばれる)は、各音響フレーム110が発話の終わりであるかどうかを示す分類212を各音響フレーム110に対して生成するように構成されている。エンドポインタ210はエンコーダ202から分岐しており、マルチヘッドアテンション層のスタックからのマルチヘッドアテンション層の1つの計算を共有している。より具体的には、エンドポインタ210は、第1サブエンコーダ202aの後、第2サブエンコーダ202bのスタッキング層の前にエンコーダ202から分岐する。いくつかの例では、エンドポインタ210は、図2に示すように、エンコーダ202の外部に常駐しながらも、依然第1サブエンコーダ202aの計算を共有している。他の例では、エンドポインタはエンコーダ202に常駐しており、第1サブエンコーダ202a(図示せず)の計算を共有している。したがって、エンドポインタ210はエンコーダ202とで計算を共有しているので、エンドポインタ210とエンコーダ202との両方を同期的に発展および更新できる。
【0026】
エンドポインタ210は、音響フレーム110のシーケンスに対応する複数の出力ステップの各々において第1サブエンコーダ202aによって生成済みの第1高次特徴表現203を入力として受信することで、各出力ステップにおいて、対応する第1高次特徴表現203の分類212を生成するように構成されている。エンドポインタ210は、各音響フレーム110の分類212をマイククローザ250に送信する。図4は、音響フレーム110のシーケンスによって表される発話106(図1)に対してエンドポインタ210によって出力される分類212の例示的なシーケンスのプロット400を示す。プロット400はまた、対応する出力ステップで第1ジョイントネットワーク220によって出力される対応する音声認識結果222も示している。特に、プロット400に示される音声認識結果222は、「ボストンまでの距離」(ディスタンストゥーボストン)という発話に対応している。分類212のシーケンス内の各分類212は、音声(「0」)、初期無音(「1」)、中間無音(「2」)、または最終無音(「3」)、のいずれかを表す。エンドポインタ210が、各々の音響フレーム110の最終無音を示す分類212をマイククローザ250に出力するとき、マイククローザ250は、マイク閉じイベント255をトリガーするように構成されている。代替的に、エンドポインタ210が最終無音以外のいずれかの分類212をマイククローザ250に出力するとき、マイククローザ250はマイク閉じイベント255をトリガーしない。
【0027】
エンドポインタ210は、音響フレーム110に対応する第1高次特徴表現203の音響情報のみに基づき分類212を生成する。つまり、エンドポインタ210は、言語情報(例えば、隠れ表現355)からのいかなる情報に基づいても分類212を生成しない。さらに、エンドポインタ210は、最終無音を表す分類212の確率が発話全体にわたって時間の経過とともに増加すると判定し得る。
【0028】
デコーダ206は、第1ジョイントネットワーク220、第2ジョイントネットワーク230、および予測ネットワーク300を備えたリカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャを含んでもよい。デコーダ206は、ジョイントネットワーク220、230を使用することで、エンコーダ202によって出力された第2高次特徴表現204と、予測ネットワーク300によって出力された隠れ表現355と、を組合せることでデコーダ出力を生成する。より具体的には、第1ジョイントネットワーク220は、複数の出力ステップの各々において予測ネットワーク300によって生成済みの隠れ表現355と、複数の出力ステップの各々においてエンコーダ202によって生成済みの高次特徴表現204と、を入力として受信することで、各出力ステップにおいて、可能な音声認識仮説(例えば、出力ラベル)にわたる確率分布222(y)を生成するように構成されている。
【0029】
確率分布222に関連付けられた可能な音声認識仮説は、指定された自然言語の記号/文字を各々表す出力ラベルのセットに対応する。例えば、自然言語が英語のとき、出力ラベルのセットには27個の記号が含まれ得る。例えば、英語のアルファベットの26文字各々に1つのラベルと、スペースを表す1つのラベル(<SP>がある)と、である。したがって、第1ジョイントネットワーク220は、所定の出力ラベルセットの各々の発生尤度を示す値のセット(例えば、確率分布222)を出力し得る。この値のセットはベクトルであり得、出力ラベルのセット上の確率分布222を示すことができる。場合によっては、出力ラベルは書記素(個々の文字、潜在的な句読点やその他の記号など)であるが、出力ラベルのセットはそれに制限されない。例えば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、単語の一部および/または単語全体を備えていることができる。第1ジョイントネットワーク220によって出力される確率分布222は、異なる出力ラベル同士の各々に対する事後確率値を含み得る。したがって、互いに異なるグラフィムまたは他の記号を表す百(100)個の互いに異なる出力ラベルが存在する場合、出力(y)は、出力ラベルごとに1つずつ、計百(100)個の互いに異なる確率値を備えていることができる。次に、確率分布222を使用することで、ビーム検索処理(例えば、第1ジョイントネットワーク220の最終ソフトマックス層による)で候補となる綴り要素(例えば、書記素、単語片、および/または単語)を選択することで、スコアを割り当てるとともに、トランスクリプション120(図1)を決定できる。つまり、第1ジョイントネットワーク220は、可能な音声認識仮説全体にわたって、対応する確率分布222から最も高い確率を有しているN個の最良の音声認識結果を出力することができる。したがって、可能な音声認識仮説にわたる確率分布222と音声認識結果222と、は本明細書では互換的に使用できる。
【0030】
図示されていないが、第1ジョイントネットワークは、可能な音声認識仮説にわたる確率分布222を受信するとともに、ビーム検索処理を実行することで、可能な音声認識仮説にわたる確率分布222から綴り要素を選択する最終ソフトマックス層を含んでもよい。いくつかの実施態様では、最終ソフトマックス層は第1ジョイントネットワーク220とは別個である。他の実施態様では、最終ソフトマックス層は第1ジョイントネットワーク220に統合されているので、第1ジョイントネットワーク220の出力が最終ソフトマックス層の出力を表す。
【0031】
図3は、自動音声認識ASRモデル200の予測ネットワーク300が、入力として、第1ジョイントネットワーク220の最終ソフトマックス層によって出力されたN個の以前の非空白記号に限定された非空白記号のシーケンスを受信することで、各出力ステップで、隠れ表現355を生成する様子を示している。つまり、第1ジョイントネットワーク220の最終ソフトマックス層によって出力される非空白記号シーケンス222、222a~nは、音声認識結果の非空白記号222に対応する可能性がある。したがって、非空白記号222のシーケンスと第2パス音声認識仮説222と、はここでは互換的に使用できる。いくつかの例では、Nは2に等しくなる。他の例では、Nは5に等しいが、開示は非限定的であり、Nは任意の整数に等しくなる可能性がある。いくつかの実施態様では、予測ネットワーク300は、マルチヘッドアテンションメカニズム302を備えており、これは、マルチヘッドアテンションメカニズムの各ヘッド302A~302Hにわたって共有埋込行列(共有埋め込みマトリックス)304を共有している。一例では、マルチヘッドアテンションメカニズム302は4つのヘッドを備えている。ただし、マルチヘッドアテンションメカニズム302では任意の数のヘッドを使用できる。特に、マルチヘッドアテンションメカニズムによって、モデルサイズの増加を最小限に抑えながらパフォーマンスが大幅に向上する。以下に詳しく説明するように、各ヘッド302A~Hは独自の位置ベクトル308の行を備えているので、すべてのヘッドからの出力318A~Hを連結することでモデルサイズが増加するのではなく、代わりにヘッド平均モジュール322によって出力318A~Hが平均化される。
【0032】
マルチヘッドアテンションメカニズム302の第1ヘッド302Aを参照すると、ヘッド302Aは、共有埋込行列304を使用することで、複数の時間ステップからの対応する時間ステップで入力として受信された非空白記号のシーケンス222内の各非空白記号222に対して、対応する埋込306、306a~n(例えば
【0033】
【数2】
【0034】
)を生成する。特に、共有埋込行列304は、マルチヘッドアテンションメカニズム302のすべてのヘッド間で共有されるので、他のヘッド302B~Hはすべて、各非空白記号に対して同じ対応する埋込306を生成する。ヘッド302Aはまた、非空白記号のシーケンス222内の対応する各非空白記号に、各々の位置ベクトルPVAa~An308、308Aa~An(例えば
【0035】
【数3】
【0036】
)を割り当てる。各非空白記号に割り当てられた各々の位置ベクトルPV308は、非空白記号のシーケンスの履歴内の位置(例えば、第1ジョイントネットワーク220の最終ソフトマックス層によって出力されたN個の以前の非空白記号)を示す。例えば、最初の位置ベクトルPVAaは履歴の最新の位置に割り当てられ、一方で最後の位置ベクトルPVAnは、第1ジョイントネットワーク220の最終ソフトマックス層によって出力されたN個の以前の非空白記号の履歴の最後の位置に割り当てられる。特に、埋込306の各々は、位置ベクトルPV308の各々とで同じ次元(すなわち、次元サイズ)を含んでもよい。
【0037】
非空白記号のシーケンス222内の各非空白記号120bごとに共有埋込行列304によって生成される対応する埋込は、マルチヘッドアテンションメカニズム302のすべてのヘッド302A~Hで同じであるが、各ヘッド302A~Hは、位置ベクトル308の異なるセット/行を定義する。例えば、第1ヘッド302Aは位置ベクトルの行PVAa~An308Aa~Anを定義しており、第2ヘッド302Bは位置ベクトルの異なる行PVBa~Bn308Ba~Bn、・・・を定義しており、第Hヘッド302Hは位置ベクトルの別の異なる行PVHa~Hn308Ha~Hnを定義する。
【0038】
受信した非空白記号のシーケンス222内の各非空白記号222について、第1ヘッド302Aは、重み付け層310を介して、対応する埋込とそれに割り当てられた各々の位置ベクトルPV308との間の類似度に比例して、対応する埋込306に重み付ける。いくつかの例では、類似度にはコサイン類似度(例えば、コサイン距離)が含まれる場合がある。示されている例では、重み付け層310は、割り当てられた各々の位置ベクトルPV308に比例して重み付けされた対応する埋込306が各々関連付けられた重み付けされた埋込312、312Aa~Anのシーケンスを出力する。言い換えれば、重み付け層310によって各埋込306に対して出力される重み付けされた埋込312は、埋込306と各々の位置ベクトルPV308との間のドット積に対応する可能性がある。重み付けされた埋込312は、各々の位置ベクトルPV308に関連付けられた位置とどの程度類似しているかに比例して、埋込に注目していると解釈できる。計算速度を上げるべく、予測ネットワーク300には非再帰層が含まれており、したがって、重み付けされた埋込312Aa~Anのシーケンスは連結されず、代わりに加重平均モジュール316によって平均化されており、第1ヘッド302Aからの出力として、次式で表される重み付けされた埋込312Aa~Anの加重平均318Aが生成される。
【0039】
【数4】
【0040】
式(1)において、hはヘッド302のインデックスを表しており、nはコンテキスト内の位置を表しており、eは埋込次元を表す。さらに、式(1)では、H、N、およびd、は対応する次元のサイズを備えている。位置ベクトルPV308はトレーニング可能にされている必要はなく、ランダムな値を含んでもよい。特に、重み付けされた埋込312が平均化されても、位置ベクトルPV308は位置履歴情報を潜在的に保存できるので、予測ネットワーク300の各層で再帰接続を提供する必要性が軽減される。
【0041】
第1ヘッド302Aに関して上で説明した動作は、マルチヘッドアテンションメカニズム302の他の各ヘッド302B~Hでも同様に実行される。各ヘッド302によって定義された位置ベクトルPV308の異なるセットによって、重み付け層310は、第1ヘッド302Aの重み付けされた埋込312Aa~Aaのシーケンスとは異なる、他の各ヘッド302B~Hの重み付けされた埋込312Ba~Bn、312Ha~Hnのシーケンスを出力する。その後、加重平均モジュール316は、他の各対応するヘッド302B~Hからの出力として、非空白記号のシーケンスの対応する重み付けされた埋込312の各々の加重平均318B~Hを生成する。
【0042】
示されている例では、予測ネットワーク300は、対応するヘッド302A~Hから出力される加重平均318A~Hを平均化するヘッド平均モジュール322を備えている。SWISH(スウィッシュ)を備えた投影層326は、加重平均318A~Hの平均に対応するヘッド平均モジュール322からの出力324を入力として受信することで、投影出力328を出力として生成してもよい。最終層正規化330は、投影出力328を正規化することで、複数の時間ステップから対応する時間ステップにおける単一の埋込ベクトル(例えば、隠れ表現)355を提供することができる。予測ネットワーク300は、初期時間ステップに続く複数の時間ステップの各々において、単一の埋込ベクトル355のみを生成する。
【0043】
いくつかの構成では、予測ネットワーク300は、マルチヘッドアテンションメカニズム302を実装せず、第1ヘッド302Aに関して上記の動作のみを実行する。これらの構成では、重み付けされた埋込312Aa~Anの加重平均318Aが、投影層326と層正規化330とを通過するだけで、単一の埋込ベクトル350が提供される。
【0044】
図2に戻って参照すると、第2ジョイントネットワーク230は、発話の終了を示す発話終了(EOU)トークン232を予測するように構成されている。有利なことに、第2ジョイントネットワーク230は、追加の言語コンテキスト、すなわち、隠れ表現355に基づき発話終了EOUトークン232を生成する。言い換えれば、第2ジョイントネットワーク230は追加の言語コンテキストを処理しているので、それによってエンドポインタ210の音響ベースの分類212とで比較してより正確な発話終了EOU予測を提供する。
【0045】
第2ジョイントネットワーク230は、複数の出力ステップの各々において予測ネットワーク300によって生成済みの隠れ表現355と、複数の出力ステップの各々においてエンコーダ202によって生成済みの高次特徴表現204と、を入力として受信することで、各発話106の終わりの発話終了EOUトークン232を予測するように構成されている(図1)。第2ジョイントネットワーク230は、第2高次特徴表現204が各々の出力ステップで発話106(図1)の終わりを表していると第2ジョイントネットワーク230が判定したとき、発話終了EOUトークン232をマイククローザ250に出力し得る。つまり、第2ジョイントネットワーク230は、各出力ステップにおいて、隠れ表現355と第2高次特徴表現204とに基づき、各々の第2高次特徴表現204が発話106(図1)の終わりに対応する尤度を示すスコアを決定し得る。スコアがスコア閾値を満たすとき、第2ジョイントネットワーク230は、発話終了EOUトークン232をマイククローザ250に出力する。スコアがスコア閾値を満たさないとき、第2ジョイントネットワーク230は、発話終了EOUトークン232をマイククローザ250に出力するのを控える。したがって、マイククローザ250は、第2ジョイントネットワーク230からの出力として予測される各発話終了EOUトークン232に応じてマイク閉じイベント255をトリガーしているので、マイク閉じイベント255をユーザデバイス102(図1)に送信することで、1つまたは複数のマイク108a(図1)をクローズする。
【0046】
マイククローザ250は、音響フレームのシーケンス内の各音響フレーム110に対応する分類212および発話終了EOUトークン232を受信する(または、第2ジョイントネットワーク230が発話終了EOUトークン232を生成しないときは発話終了EOUトークン232を受信しない)場合がある。その後、マイククローザ250は、音響フレーム110の分類212または発話終了EOU232に基づき、マイク閉じイベント255を生成するかどうかを判定(決定)し得る。特に、マイククローザ250は、音響フレーム110のシーケンスに関連付けられたドメインID112に基づき判定を行ない得る。例えば、マイククローザ250は、ドメインID112が音声検索/コマンドドメインを示しているときに、発話終了EOUトークン232の存在に基づきマイク閉じイベント255を生成し得る。特に、マイククローザ250の音声検索/コマンドドメイン発話が発話終了EOUトークン232次第であり、それは、これらの発話には、ビデオ会議やダイアライゼーションなどの他のドメインに関連付けられた発話によく含まれる長い休止が含まれていないからである。このように、マイククローザ250は、他のドメインの発話の質の低下(例えば、マイク閉じイベント255の早すぎる生成)を招くことなく、発話終了EOUトークン232を使用することで音声検索/コマンドドメイン発話のマイク閉じイベント255を生成する際のレイテンシを短縮し得る。
【0047】
自動音声認識ASRモデル200は、2段階のトレーニング処理を使用することでトレーニングしてもよい。2段階のトレーニング処理のうちの第1段階では、エンコーダ202、予測ネットワーク300、および第1ジョイントネットワーク220、が音声認識品質について最適化される。つまり、第1段階では、これらの構成要素は、最小の単語誤り率(WER)および/または最小のレイテンシになるように最適化される。2段階のトレーニング処理のうちの第2段階では、第2ジョイントネットワーク230が第1ジョイントネットワーク220で初期化されており、エンコーダ202、予測ネットワーク300、および第1ジョイントネットワーク220のパラメータ、が第1段階で学習されたパラメータに基づき固定される。特に、第2ジョイントネットワーク230は、第1段階で学習された第1ジョイントネットワーク220のパラメータを使用することで初期化される。その後、第2段階では、第2ジョイントネットワーク230がパラメータをさらに改良する。
【0048】
図5は、言語アグノスティックの多言語エンドツーエンドストリーミングオンデバイスを実行する方法500の動作の例示的な構成を示すフローチャートである。方法500は、メモリハードウェア620(図6)に記憶された命令を使用することで、データ処理ハードウェア610(図6)で実行することができる。データ処理ハードウェア610およびメモリハードウェア620は、コンピューティングデバイス600(図6)に対応する図1のユーザデバイス102および/またはリモートコンピューティングデバイス60に存在し得る。
【0049】
動作502では、方法500は、多言語自動音声認識ASRモデル200のエンコーダ202への入力として、1つまたは複数の発話106を特徴付ける音響フレーム110のシーケンスを受信する工程を備えている。動作504において、方法500は、エンコーダ202によって、複数の出力ステップの各々において、音響フレーム110のシーケンス内の対応する音響フレーム110の高次特徴表現(例えば、第2高次特徴表現)204を生成する工程を備えている。ここで、エンコーダ202はマルチヘッドアテンション層のスタックを備えている。動作506において、方法500は、複数の出力ステップの各々において予測ネットワーク300によって、第1ジョイントネットワーク220の最終ソフトマックス層によって出力される非空白記号のシーケンス222に基づき、隠れ表現355を生成する工程を備えている。動作508で、方法500は、複数の出力ステップの各々で予測ネットワーク300によって生成済みの隠れ表現355と、複数の出力ステップの各々でエンコーダ202によって生成済みの高次特徴表現204と、に基づき可能な音声認識仮説にわたる確率分布222を、複数の出力ステップの各々で、第1ジョイントネットワーク220によって生成する工程を備えている。動作510で、方法500は、第2ジョイントネットワーク230によって、複数の出力ステップの各々において予測ネットワーク300によって生成済みの隠れ表現355と、複数の出力ステップの各々においてエンコーダ202によって生成済みの高次特徴表現204と、に基づき各発話の終わりに発話終了(EOU)トークン232を予測する工程を備えている。動作512において、方法500は、多言語エンドポインタモデル210によって、音響フレーム110のシーケンス内の各音響フレーム100を、音声、初期無音、中間無音、または最終無音、のいずれかに分類する工程を備えている。
【0050】
図6は、本文書に記載のシステムおよび方法を実装するべく使用できる例示的なコンピューティングデバイス600の概略図である。コンピューティングデバイス600は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータ、など様々な形式のデジタルコンピュータを表すことを意図している。ここで示されている構成要素、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、この文書で説明および/または特許請求されている本発明の実施態様を制限することを意図してはいない。
【0051】
コンピューティングデバイス600には、プロセッサ610、メモリ620、ストレージデバイス630、メモリ620および高速拡張ポート650に接続する高速インタフェース/コントローラ640、および低速バス670およびストレージデバイス630に接続する低速インタフェース/コントローラ660が含まれる。各構成要素610、620、630、640、650、および660は、様々なバスを使用することで相互接続されており、共通のマザーボードに据え付けられるか、または必要に応じて他の方法で存在することもできる。プロセッサ610は、メモリ620またはストレージデバイス630に記憶された命令を備えている、コンピューティングデバイス600内で実行するための命令を処理して、高速インタフェース640に接続されたディスプレイ680などの外部入出力デバイスにグラフィカルユーザインタフェース(GUI)のグラフィカル情報を表示することができる。他の実施態様では、複数のメモリおよびメモリの種類とともに、必要に応じて複数のプロセッサおよび/または複数のバスが使用される場合がある。また、複数のコンピューティングデバイス600が接続されており、各デバイスが必要な動作の一部を行なう場合もある(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
【0052】
メモリ620は、コンピューティングデバイス600内に情報を非一時的に記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)であってもよい。非一時的メモリ620は、コンピューティングデバイス600で使用するべく一時的または永続的にプログラム(例えば、命令のシーケンス)またはデータ(例えば、プログラム状態情報)を記憶するべく使用される物理デバイスであり得る。不揮発性メモリの例は、フラッシュメモリ、読み取り専用メモリ(ROM)/プログラム可能な読み取り専用メモリ(PROM)/消去可能なプログラム可能な読み取り専用メモリ(EPROM)/電子的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)(例えば、通常はブートプログラムなどのファームウェアに使用される)を備えているが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスク、またはテープを含んでいるがこれらに限定されない。
【0053】
ストレージデバイス630は、コンピューティングデバイス600に大容量ストレージを設けることができる。いくつかの実施態様では、ストレージデバイス630はコンピュータ可読媒体である。様々な異なる実施態様において、ストレージデバイス630は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたはその他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたはその他の構成のデバイスを備えている、デバイスのアレイである場合がある。追加の実施態様では、コンピュータプログラム製品は情報キャリアにおいて有形に具体化される。コンピュータプログラム製品は、実行されるとき、上記のような1つまたは複数の方法を実行する命令を備えている。情報キャリアは、メモリ620、ストレージデバイス630、またはプロセッサ610上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
【0054】
高速コントローラ640は、コンピューティングデバイス600の帯域幅集約動作を一層管理しており、低速コントローラ660は、帯域幅集約動作を一層少なく管理する。このような職務の割り当ては単なる例である。いくつかの実施態様では、高速コントローラ640は、メモリ620、ディスプレイ680(例えば、グラフィックプロセッサまたはアクセラレータを介して)、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート650に結合される。いくつかの実施態様では、低速コントローラ660は、ストレージデバイス630および低速拡張ポート690に結合される。低速拡張ポート690には、様々な通信ポート(USB、Bluetooth(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット(登録商標)など)が含まれる場合があり、ネットワークアダプタなどを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチやルータなどのネットワークデバイスなどの1つまたは複数の入出力デバイスに接続できる。
【0055】
コンピューティングデバイス600は、図に示すように、多くの異なる形式で実装できる。例えば、標準サーバ600aとして、またはそのようなサーバ600aのグループで複数回、ラップトップコンピュータ600bとして、またはラックサーバシステム600cの一部として実装される場合がある。
【0056】
本明細書で説明するシステムおよび技術の様々な実施態様は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現できる。これらの様々な実施態様は、ストレージシステムからのデータおよび命令を受信することで、ストレージシステムにデータおよび命令を送信するように結合された、特殊または汎用であり得る、少なくとも1つのプログラマブルプロセッサ、少なくとも1つの入力装置、および少なくとも1つの出力装置を含んだプログラム可能なシステムで実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装を含み得る。
【0057】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサのための機械命令を備えており、かつ高水準手続型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語で実装されることができる。本願で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」とは、機械命令および/またはデータを、機械可読の信号として機械命令を受信する機械可読の媒体を備えているプログラマブルプロセッサに提供するべく用いられる、あらゆるコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理回路(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するべく用いられるあらゆる信号を指す。
【0058】
本明細書で説明されている処理およびロジックフローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実行されており、1つまたは複数のコンピュータプログラムを実行することで、入力データに対して動作を行ない、出力を生成することによって機能を実行する。処理およびロジックフローはまた、特殊用途論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって行なわれ得る。コンピュータプログラムの実行に適切なプロセッサは、例示として、汎用プロセッサおよび特殊目的マイクロプロセッサの両方、並びいずれかの種類のデジタルコンピュータのいずれか1つまたは複数のプロセッサを備えている。概して、プロセッサは、リードオンリメモリ、ランダムアクセスメモリ、またはその両方から命令およびデータを受信してもよい。コンピュータの必須要素は、命令を実行するプロセッサと、命令とデータを記憶する1つまたは複数のメモリデバイスである。一般に、コンピュータには、磁気ディスク、光磁気ディスク、または光ディスクなどのデータを記憶するための1つまたは複数の大容量記憶装置も含まれるか、または、それらの記憶装置からデータを受信したり、それらの記憶装置にデータを転送したり、あるいはその両方を行なうように動作可能に結合されている。ただし、コンピュータにはそのようなデバイスは必須ではない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体には、あらゆる形態の不揮発性メモリ、媒体およびメモリデバイスが含まれ、例として半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば内部ハードディスクまたは着脱可能ディスクなディスク、磁気光ディスク、ならびにCD-ROMおよびDVD-ROMディスクが含まれる。プロセッサとメモリは、専用ロジック回路によって補完されるか、または専用ロジック回路に組み込まれ得る。
【0059】
ユーザとのやりとりを提供するべく、本開示の1つまたは複数の態様は、ユーザに情報を表示するための表示デバイス、例えばCRT(ブラウン管)、LCD(液晶画面)モニタ、またはタッチスクリーンを有しているコンピュータ、および任意選択でユーザがそれによってコンピュータへの入力を提供することができるキーボードならびにポインティングデバイス、例えば、マウスやトラックボールに実装され得る。他の種類のデバイスもまた、ユーザとのやりとりを提供するべく用いられることができる。例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、およびユーザからの入力は、音響、音声言語、または触覚入力であることができる。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送受信することで、例えば、ウェブブラウザから受信した要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによってユーザとインタラクトすることができる。
【0060】
数多くの実施態様が説明されている。言うまでもなく、本発明の趣旨および範囲から逸脱することなく、多様な修正が成され得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2024-05-24
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
多言語自動音声認識(ASR)システム(100)であって、多言語自動音声認識(ASR)システム(100)は多言語自動音声認識ASRモデル(200)と多言語エンドポインタモデル(210)とを備えており、
前記多言語自動音声認識ASRモデル(200)は、
マルチヘッドアテンション層のスタックを備えているエンコーダ(202)であって、前記エンコーダ(202)が、
1つまたは複数の発話(106)を特徴付ける音響フレーム(110)のシーケンスを入力として受信するとともに、
複数の出力ステップの各々において、前記音響フレーム(110)のシーケンスの中の対応する音響フレーム(110)の高次特徴表現(204)を生成するよう構成されている、前記エンコーダ(202)と、
予測ネットワーク(300)であって、
最終ソフトマックス層によって出力される非空白記号のシーケンス(222)を入力として受信することで、
複数の前記出力ステップの各々において、隠れ表現(355)を生成するよう構成されている、前記予測ネットワーク(300)と、
第1ジョイントネットワーク(220)であって、
複数の前記出力ステップの各々において前記予測ネットワーク(300)によって生成済みの前記隠れ表現(355)と、複数の前記出力ステップの各々において前記エンコーダ(202)によって生成済みの前記高次特徴表現(204)と、を入力として受信することで、
複数の前記出力ステップの各々において、可能な音声認識仮説にわたる確率分布(222)を生成するよう構成されている、前記第1ジョイントネットワーク(220)と、および
第2ジョイントネットワーク(230)であって、
複数の前記出力ステップの各々において前記予測ネットワーク(300)によって生成済みの前記隠れ表現(355)と、複数の前記出力ステップの各々において前記エンコーダ(202)によって生成済みの前記高次特徴表現(204)と、を入力として受信することで、各発話(106)の終わりに発話終了(EOU)トークン(232)を出力として予測するよう構成されている、前記第2ジョイントネットワーク(230)と、
を備えている、前記多言語自動音声認識ASRモデル(200)であり、および
前記多言語エンドポインタモデル(210)は、前記音響フレーム(110)のシーケンス内の前記各音響フレーム(110)を音声、初期無音、中間無音、または最終無音、のいずれかに分類するように構成された前記多言語エンドポインタモデル(210)である、
多言語自動音声認識ASRシステム(100)。
【請求項2】
前記第2ジョイントネットワーク(230)からの出力として予測される各発話終了EOUトークン(232)に応じてマイク閉じイベント(255)をトリガーするように構成されたマイククローザ(250)をさらに備えている、
請求項1に記載の多言語自動音声認識ASRシステム(100)。
【請求項3】
前記多言語エンドポインタモデル(210)が前記音響フレーム(110)を前記最終無音として分類したことに応じて、マイク閉じイベント(255)をトリガーするように構成されたマイククローザ(250)をさらに備えている、
請求項1に記載の多言語自動音声認識ASRシステム(100)。
【請求項4】
前記多言語エンドポインタモデル(210)は前記エンコーダ(202)から分岐しているとともに、前記マルチヘッドアテンション層のスタックからの前記マルチヘッドアテンション層の1つの計算を共有している、
請求項3に記載の多言語自動音声認識ASRシステム(100)。
【請求項5】
前記多言語自動音声認識ASRモデル(200)は、2段階のトレーニング処理を使用することでトレーニングされており、
前記2段階のトレーニング処理のうちの第1段階では、前記エンコーダ(202)、前記予測ネットワーク(300)、および前記第1ジョイントネットワーク(220)、は音声認識品質について最適化されており、
前記2段階のトレーニング処理のうちの第2段階では、前記第2ジョイントネットワーク(230)は前記第1ジョイントネットワーク(220)で初期化されており、前記エンコーダ(202)、前記予測ネットワーク(300)、および前記第1ジョイントネットワーク(220)、のパラメータは固定される、
請求項1~4のいずれか1項に記載の多言語自動音声認識ASRシステム(100)。
【請求項6】
前記多言語自動音声認識ASRモデル(220)は、複数の異なる言語からサンプリングされた多言語トレーニング発話でトレーニングされる、
請求項1~のいずれか1項に記載の多言語自動音声認識ASRシステム(100)。
【請求項7】
前記各多言語トレーニング発話は、対応するドメイン識別子(ID)(112)に連結されている、
請求項6に記載の多言語自動音声認識ASRシステム(100)。
【請求項8】
音声検索ドメインを表す対応するドメインID(112)に連結された前記多言語トレーニング発話は発話終了EOUトレーニングトークン(232)を備えており、
前記音声検索ドメイン以外のドメインを表す対応するドメインID(112)に連結された前記多言語トレーニング発話は、いずれの前記発話終了EOUトレーニングトークン(232)も含まない、
請求項7に記載の多言語自動音声認識ASRシステム(100)。
【請求項9】
前記音響フレーム(110)の前記シーケンスは、第1言語で話された第1発話と、続いて前記第1言語とは異なる第2言語で話された第2発話と、を特徴付ける、
請求項1~のいずれか1項に記載の多言語自動音声認識ASRシステム(100)。
【請求項10】
前記マルチヘッドアテンション層の前記スタックは、コンフォーマ層のスタックを備えている、
請求項1~のいずれか1項に記載の多言語自動音声認識ASRシステム(100)。
【請求項11】
コンピュータ実装方法(500)であって、データ処理ハードウェア(610)によって実行されるとき、前記データ処理ハードウェア(610)に、
多言語自動音声認識(ASR)モデル(200)への入力として、1つまたは複数の発話(106)を特徴付ける音響フレーム(110)のシーケンスを受信する工程と、
多言語自動音声認識ASRモデル(200)のエンコーダ(202)によって、複数の出力ステップの各々において、前記音響フレーム(110)の前記シーケンス内の対応する音響フレーム(110)の高次特徴表現(204)を生成する工程とであって、前記エンコーダ(202)は、マルチヘッドアテンション層のスタックを備えている、前記高次特徴表現(204)を生成する工程と、
前記多言語自動音声認識ASRモデル(200)の予測ネットワーク(300)によって、複数の前記出力ステップの各々において、最終ソフトマックス層による非空白記号のシーケンスの出力(222)に基づき隠れ表現(355)を生成する工程と、
前記多言語自動音声認識ASRモデル(200)の第1ジョイントネットワーク(220)によって、複数の前記出力ステップの各々において、複数の前記出力ステップの各々において前記予測ネットワーク(300)によって生成済みの前記隠れ表現(255)と、複数の前記出力ステップの各々で前記エンコーダ(204)によって生成済みの前記高次特徴表現(204)と、に基づき可能な音声認識仮説にわたる確率分布(222)を生成する工程と、
前記多言語自動音声認識ASRモデル(200)の第2ジョイントネットワーク(230)によって、複数の前記出力ステップの各々において前記予測ネットワーク(300)によって生成済みの前記隠れ表現(355)と、複数の前記出力ステップの各々において前記エンコーダ(202)によって生成済みの前記高次特徴表現(204)と、に基づき各発話(106)の終わりに発話終了(EOU)トークン(232)を予測する工程と、および
多言語エンドポインタモデル(210)によって、前記音響フレーム(110)のシーケンス内の各音響フレーム(110)を音声、初期無音、中間無音、または最終無音、のいずれかに分類する工程と、
を備えている動作を実行させる、
コンピュータ実装方法(500)。
【請求項12】
前記動作は、前記第2ジョイントネットワーク(230)からの出力として予測される各発話終了EOUトークン(232)に応じて、マイククローザ(250)によってマイク閉じイベント(255)をトリガーする工程、をさらに備えている、
請求項11に記載のコンピュータ実装方法(500)。
【請求項13】
前記動作は、前記多言語エンドポインタモデル(210)が音響フレーム(110)を前記最終無音として分類したことに応じて、マイククローザ(250)によってマイク閉じイベント(255)をトリガーする工程、をさらに備えている、
請求項11に記載のコンピュータ実装方法(500)。
【請求項14】
前記多言語エンドポインタモデル(210)は前記エンコーダ(202)から分岐しており、前記マルチヘッドアテンション層のスタックからの前記マルチヘッドアテンション層の1つの計算を共有している、
請求項13に記載のコンピュータ実装方法(500)。
【請求項15】
前記多言語自動音声認識ASRモデル(200)は、2段階のトレーニング処理を使用することでトレーニングされており、
前記2段階のトレーニング処理のうちの第1段階では、前記エンコーダ(202)、前記予測ネットワーク(300)、および前記第1ジョイントネットワーク(220)、が音声認識品質について最適化されており、
前記2段階のトレーニング処理のうちの第2段階では、前記第2ジョイントネットワーク(230)が前記第1ジョイントネットワーク(220)で初期化されており、前記エンコーダ(202)、前記予測ネットワーク(300)、および前記第1ジョイントネットワーク(220)、のパラメータが固定される、
請求項11~14のいずれか1項に記載のコンピュータ実装方法(500)。
【請求項16】
前記多言語自動音声認識ASRモデル(200)は、複数の異なる言語からサンプリングされた多言語トレーニング発話でトレーニングされる、
請求項11~14のいずれか1項に記載のコンピュータ実装方法(500)。
【請求項17】
各多言語トレーニング発話は、対応するドメイン識別子(ID)(112)に連結される、
請求項16に記載のコンピュータ実装方法(500)。
【請求項18】
音声検索ドメインを表す対応するドメインID(112)に連結された多言語トレーニング発話は発話終了EOUトレーニングトークン(232)を備えており、
前記音声検索ドメイン以外のドメインを表す対応するドメインID(112)に連結された多言語トレーニング発話は、いずれの発話終了EOUトレーニングトークン(232)も含まない、
請求項17に記載のコンピュータ実装方法(500)。
【請求項19】
前記音響フレーム(110)のシーケンスは、第1言語で話された第1発話と、続いて前記第1言語とは異なる第2言語で話された第2発話と、を特徴付ける、
請求項11~14のいずれか1項に記載のコンピュータ実装方法(500)。
【請求項20】
前記マルチヘッドアテンション層のスタックがコンフォーマ層のスタックを備えている、
請求項11~14のいずれか1項に記載のコンピュータ実装方法(500)。
【国際調査報告】