(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-18
(54)【発明の名称】多言語自動音声認識のための教師無しおよび教師有り共同トレーニング(JUST)
(51)【国際特許分類】
G10L 15/06 20130101AFI20241010BHJP
G10L 15/16 20060101ALI20241010BHJP
【FI】
G10L15/06 300C
G10L15/16
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024520856
(86)(22)【出願日】2022-09-06
(85)【翻訳文提出日】2024-05-24
(86)【国際出願番号】 US2022075998
(87)【国際公開番号】W WO2023059969
(87)【国際公開日】2023-04-13
(32)【優先日】2021-10-06
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100142907
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】リー、ボー
(72)【発明者】
【氏名】バイ、ジュンウェン
(72)【発明者】
【氏名】チャン、ユー
(72)【発明者】
【氏名】バプナ、アンクル
(72)【発明者】
【氏名】シッダールタ、ニキル
(72)【発明者】
【氏名】シム、ケ チャイ
(72)【発明者】
【氏名】サイナス、ターラ エヌ
(57)【要約】
対応する潜在音声表現のターゲット(標的)量子化ベクトルトークン(312)および標的トークンインデックス(314)を生成する。対応するマスクされていない、またはマスク済み潜在音声表現(212u、212m)の対照コンテキストベクトル(322)を生成する。対応する対照コンテキストベクトルに対応する標的量子化ベクトルトークンに基づき、対照的な自己教師有り損失(355a)を導出する。対照コンテキストベクトルに基づき、高レベルコンテキストベクトル(334)を生成する。標的トークンインデックスに基づくクロスエントロピー損失(355b)を使用することで標的トークンインデックスを予測するように学習する。音声認識仮説(342)を予測する。教師無し損失(355)および教師有り損失(365)を使用することで多言語自動音声認識ASRモデル(200)をトレーニングする。
【特許請求の範囲】
【請求項1】
多言語自動音声認識(ASR)モデル(200)をトレーニングするための、教師無しおよび教師有り共同トレーニング(JUST)フレームワーク(300)であって、JUSTフレームワーク(300)は、
特徴エンコーダ(311)であって、
音声の発話(302、304)に対応するオーディオ特徴(110)を入力として受け取るように、かつ
複数の時間ステップの各々において、潜在音声表現(212)を生成するように、
構成されている、前記特徴エンコーダ(311)と、
量子化器(310)であって、
複数の前記時間ステップの各々において前記特徴エンコーダ(311)によって生成済みの前記潜在音声表現(212)を入力として受け取るように、かつ
複数の前記時間ステップの各々において、前記特徴エンコーダ(311)によって生成済みの対応する前記潜在音声表現(212)に対するターゲット量子化ベクトルトークン(312)およびターゲットトークンインデックス(314)を生成するとともに、前記ターゲットトークンインデックス(314)が、対応する前記潜在音声表現(212)を、コードブック(315)に記憶された前記ターゲット量子化ベクトルトークン(312)にマッピングするように、
構成されている、前記量子化器(310)と、
対照ネット(320)であって、
前記潜在音声表現(212)のサブセットをマスクした後、複数の前記時間ステップの各々において前記特徴エンコーダ(311)によって生成済みの前記潜在音声表現(212)を入力として受け取るように、
複数の前記時間ステップの各々において、対応するマスクされていない、またはマスク済み前記潜在音声表現(212u、212m)の対照コンテキストベクトル(322)を生成するように、かつ
複数の前記時間ステップの各々において、対応する前記対照コンテキストベクトル(322)と、対応する前記潜在音声表現(212)についての前記量子化器(310)によって生成済みの対応する前記ターゲット量子化ベクトルトークン(312)と、に基づき対照的な自己教師有り損失(355a)を導出するように、
構成されている、前記対照ネット(320)と、
マスク言語モデリング(MLM)モジュール(330)であって、
複数の前記時間ステップの各々において、前記対照ネット(320)によって生成済みの、前記対照コンテキストベクトル(322)を入力として受け取るように、
複数の前記時間ステップの各々において、高レベルコンテキストベクトル(334)を生成するように、かつ
前記高レベルコンテキストベクトル(334)ごとに、対応する前記時間ステップにおいて、前記量子化器(310)によって生成済みの前記ターゲットトークンインデックス(314)に基づくクロスエントロピー損失(355b)を使用することで、対応する前記時間ステップにおいて、前記ターゲットトークンインデックス(314)を予測するように学習するように、
構成されている、マスク言語モデリングMLMモジュール(330)と、
デコーダ(340)であって、
複数の前記時間ステップの各々において、前記マスク言語モデリングMLMモジュール(330)によって生成済みの前記高レベルコンテキストベクトル(334)を入力として受け取るように、かつ
前記発話(302、304)に対する音声認識仮説(342)を予測するように、
構成されている、前記デコーダ(340)と、を備えており、
多言語自動音声認識ASRモデル(200)は、
前記対照的な自己教師有り損失(355a)および前記クロスエントロピー損失(355b)に基づく教師無し損失(355)と、
予測済みの前記音声認識仮説(342)と、前記発話(302、304)のグラウンドトゥルース転写(306)と、に基づく教師有り損失(365)と、
に基づきトレーニングされる、JUSTフレームワーク(300)。
【請求項2】
前記特徴エンコーダ(311)は、2つの畳み込みニューラルネットワーク(CNN)ブロックを備えている、
請求項1に記載のJUSTフレームワーク(300)。
【請求項3】
前記潜在音声表現(211)の前記サブセットをマスクする工程は、前記潜在音声表現(212)の前記サブセットにおける各々の前記潜在音声表現(212)を、対応するランダムベクトルにランダムに置き換える工程を備えている、
請求項1または2に記載のJUSTフレームワーク(300)。
【請求項4】
前記対照ネット(320)によって導出済みの前記対照的な自己教師有り損失(355a)は、前記潜在音声表現(212m)のマスク済みサブセットからのマスク済み前記潜在音声表現(212m)に対応する、前記コードブック(315)に記憶された前記ターゲット量子化ベクトルトークン(312)から均一にサンプリングされたK個の負のサンプル/ディストラクタにさらに基づく、
請求項1~3のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項5】
前記教師無し損失(355)は、前記コードブック(315)に関連付けられたエントロピーベースの多様性損失にさらに基づく、
請求項1~4のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項6】
前記多言語自動音声認識ASRモデル(200)は、複数の異なる言語で話された前記発話(302、304)をトレーニングすることでトレーニングされる、
請求項1~5のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項7】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、先の事前トレーニングを行なわずに前記多言語自動音声認識ASRモデル(200)をトレーニングする工程を備えている、
請求項1~6のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項8】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、事前トレーニング済みのチェックポイントから前記多言語自動音声認識ASRモデル(200)を微調整する工程を備えている、
請求項1~6のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項9】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、前記多言語自動音声認識ASRモデル(200)を前記教師無し損失(355)および前記教師有り損失(365)で共同してトレーニングする工程を備えている、
請求項1~8のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項10】
前記教師有り損失(365)は、リカレントニューラルネットワークトランスデューサ(RNN-T)損失を備えている、
請求項1~9のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項11】
コンピュータ実装方法(400)であって、データ処理ハードウェア(510)によって実行されると、前記データ処理ハードウェア(510)に、
音声の発話(302、304)に対応するオーディオ特徴(110)を受け取る工程と、
複数の時間ステップの各々において、前記オーディオ特徴(110)に基づき潜在音声表現(212)を生成する工程と、
複数の前記時間ステップの各々において、対応する前記潜在音声表現(212)に対するターゲット量子化ベクトルトークン(312)およびターゲットトークンインデックス(314)を生成するとともに、前記ターゲットトークンインデックス(314)が、対応する前記潜在音声表現(212)を、コードブック(315)に記憶された前記ターゲット量子化ベクトルトークン(312)にマッピングする工程と、
複数の前記時間ステップの各々において、対応するマスクされていない、またはマスク済み潜在音声表現(212u、212m)の対照コンテキストベクトル(322)を生成する工程と、
複数の前記時間ステップの各々において、対応する前記対照コンテキストベクトル(322)および対応する前記ターゲット量子化ベクトルトークン(312)に基づき対照的な自己教師有り損失(355a)を導出する工程と、
複数の前記時間ステップの各々において、前記対照コンテキストベクトル(322)に基づき高レベルコンテキストベクトル(334)を生成する工程と、
前記高レベルコンテキストベクトル(334)ごとに、対応する前記時間ステップにおいて、前記ターゲットトークンインデックス(314)に基づくクロスエントロピー損失(355b)を使用することで、前記ターゲットトークンインデックス(314)を予測するように学習する工程と、
前記高レベルコンテキストベクトル(334)に基づき前記発話(302、304)に対する音声認識仮説(342)を予測する工程と、
前記対照的な自己教師有り損失(355a)と前記クロスエントロピー損失(355b)とに基づく教師無し損失(355)と、予測済みの前記音声認識仮説(342)と前記発話(302、304)のグラウンドトゥルース転写(306)とに基づく教師有り損失(365)と、を使用することで多言語自動音声認識ASRモデル(200)をトレーニングする工程と、を備えている、動作を実行させる、
コンピュータ実装方法(400)。
【請求項12】
前記潜在音声表現(212)を生成する工程は、特徴エンコーダ(311)によって、複数の前記時間ステップの各々において、前記潜在音声表現(212)を生成する工程を備えており、前記特徴エンコーダ(311)は、2つの畳み込みニューラルネットワーク(CNN)ブロックを備えている、
請求項11に記載のコンピュータ実装方法(400)。
【請求項13】
前記動作は、前記潜在音声表現(212)のサブセットにおける各々の前記潜在音声表現(212)を、対応するランダムベクトルとでランダムに置き換えることによって前記潜在音声表現(212)の前記サブセットをマスクする工程、をさらに備えている、
請求項11または12に記載のコンピュータ実装方法(400)。
【請求項14】
前記対照的な自己教師有り損失(355a)は、前記潜在音声表現(211m)のマスク済みサブセットからのマスク済み前記潜在音声表現(211m)に対応する、前記コードブック(315)に記憶された前記ターゲット量子化ベクトルトークン(312)から均一にサンプリングされたK個の負のサンプル/ディストラクタにさらに基づく、
請求項11~13のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項15】
前記教師無し損失(355)は、前記コードブック(315)に関連付けられたエントロピーベースの多様性損失にさらに基づく、
請求項11~14のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項16】
前記多言語自動音声認識ASRモデル(200)は、複数の異なる言語で話された前記発話(302、304)をトレーニングすることでトレーニングされる、
請求項11~15のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項17】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、先の事前トレーニングを行なわずに前記多言語自動音声認識ASRモデル(200)をトレーニングする工程を備えている、
請求項11~16のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項18】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、事前トレーニング済みのチェックポイントから前記多言語自動音声認識ASRモデル(200)を微調整する工程を備えている、
請求項11~16のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項19】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、前記多言語自動音声認識ASRモデル(200)を前記教師無し損失(355)および前記教師有り損失(365)で共同してトレーニングする工程を備えている、
請求項11~18のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項20】
前記教師有り損失(365)は、リカレントニューラルネットワークトランスデューサ(RNN-T)損失を備えている、
請求項11~19のいずれか1項に記載のコンピュータ実装方法(400)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、多言語自動音声認識(ASR)の教師無しおよび教師有り共同(ジョイント_アンスーパーバイズド_アンド_スーパーバイズド)トレーニングに関する。
【背景技術】
【0002】
自動音声認識(ASR:オートマティックスピーチレコグニション)は、オーディオ入力を取得することでテキストに転写(トランスクライブ、書き起こし)する処理であり、モバイルデバイスおよびその他のデバイスで使用される重要な技術である。一般に、自動音声認識ASRは、オーディオ入力(たとえば、音声発話)を取得するとともに、そのオーディオ入力をテキストに転写することで、人が言った内容の正確な転写(トランスクリプション、書き起こし)を提供しようとする。最新の自動音声認識ASRモデルは、ディープ(深層)ニューラルネットワークの継続的な開発に基づき、精度(たとえば、低い単語誤り率(WER))および遅延(たとえば、ユーザの発話と転写との間の遅延)の両方の性能を継続的に改善させている。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、ディープラーニングベースの自動音声認識ASRモデルを開発する際の課題の1つは、自動音声認識ASRモデルのパラメータがトレーニングデータに過剰適合する傾向があることで、その結果、トレーニングデータが十分に広範囲ではない場合、自動音声認識ASRモデルが見ていないデータを一般化することが困難になることである。その結果、一層大きなトレーニングデータセットで自動音声認識ASRモデルをトレーニングすると、自動音声認識ASRモデルの精度が改善する。ラベル無しトレーニングデータとラベル付きトレーニングデータとを組み込むことで、自動音声認識ASRモデルをトレーニングするべく使用されるトレーニングデータの量を増やすことができる。
【課題を解決するための手段】
【0004】
本開示の1つの態様は、多言語自動音声認識(ASR)モデルをトレーニングするための、教師無しおよび教師有りの共同トレーニング(JUST)フレームワークを提供する。教師無しおよび教師有り共同トレーニングJUSTフレームワークには、音声の発話に対応するオーディオ特徴(フィーチャ)を入力として受け取ることで、かつ複数の時間ステップの各々で潜在音声表現(ラテントスピーチレプリゼンテーション)を生成するように構成されている特徴(フィーチャ)エンコーダが含まれる。教師無しおよび教師有り共同トレーニングJUSTフレームワークには、複数の時間ステップの各々において特徴エンコーダによって生成済みの潜在音声表現を入力として受け取るとともに、複数の時間ステップの各々において、特徴エンコーダによって生成済みの対応する潜在音声表現のターゲット量子化ベクトルトークンおよびターゲットトークンインデックスを生成するように構成されている量子化器(クオンタイザー)も含まれる。ここで、ターゲットトークンインデックスは、対応する潜在音声表現を、コードブックに記憶されたターゲット量子化ベクトルトークンにマッピングする。教師無しおよび教師有り共同トレーニングJUSTフレームワークは、潜在音声表現のサブセットをマスクした後、複数の時間ステップの各々において特徴エンコーダによって生成済みの潜在音声表現を入力として受け取ることで、複数の時間ステップの各々において、対応するマスクされていない、またはマスク済み潜在音声表現の対照(コントラスティブ)コンテキストベクトルを生成するとともに、複数の時間ステップの各々において、対応する対照コンテキストベクトルと、対応する潜在音声表現についての量子化器によって生成済みの対応するターゲット量子化ベクトルトークンと、に基づき対照的な自己教師有り損失(セルフスーパーバイズドロス)を導出するように構成されている対照(コントラスティブ)ネットも備えている。教師無しおよび教師有り共同トレーニングJUSTフレームワークは、複数の時間ステップの各々において対照ネットによって生成済みの対照コンテキストベクトルを入力として受け取ることで、複数の時間ステップの各々において高レベルコンテキストベクトルを生成するとともに、高レベルコンテキストベクトルごとに、対応する時間ステップにおいて量子化器によって生成済みのターゲットトークンインデックスに基づくクロスエントロピー損失を使用することで、対応する時間ステップにおけるターゲットトークンインデックスを予測するように学習するように構成されているマスク言語モデリング(MLM)モジュールも備えている。教師無しおよび教師有り共同トレーニングJUSTフレームワークは、マスク言語(マスクドランゲージ)モデリングMLMモジュールによって複数の時間ステップの各々で生成済みの高レベルコンテキストベクトルを入力として受け取ることで、発話に対する音声認識仮説を予測するように構成されているデコーダも備えている。ここで、教師無しおよび教師有り共同トレーニングJUSTフレームワークでは、クロスエントロピー損失と対照的な自己教師有り損失とに基づく教師無し損失と、予測済みの音声認識仮説と発話のグラウンドトゥルース転写とに基づく教師有り損失と、において多言語自動音声認識ASRモデルをトレーニングする。
【0005】
本開示の実施態様には、以下の任意選択の特徴の1つまたは複数が含まれる場合がある。いくつかの実施態様では、特徴エンコーダは2つの畳み込みニューラルネットワーク(CNN)ブロックを備えている。いくつかの例では、潜在音声表現のサブセットをマスクする工程は、潜在音声表現のサブセットにおける各々の潜在音声表現を、対応するランダムベクトルにランダムに置き換える工程を備えている。対照ネットによって導出済みの対照的な自己教師有り損失は、潜在表現(潜在音声表現)のマスク済みサブセットからのマスク済み潜在音声表現に対応する、コードブックに記憶されたターゲット量子化ベクトルトークンから均一にサンプリングされたK個の負のサンプル/ディストラクタにさらに基づくものであってよい。
【0006】
いくつかの実施態様では、教師有り損失は、コードブックに関連付けられたエントロピーベースの多様性損失(ダイバーシティロス)にさらに基づく。多言語自動音声認識ASRモデルは、複数の異なる言語で話された発話をトレーニングすることでトレーニングされる。いくつかの例では、多言語自動音声認識ASRモデルのトレーニングは、先(プライアー)の事前トレーニング(プレ訓練)を行なわずに多言語自動音声認識ASRモデルのトレーニングを行なう工程を備えている。他の例では、多言語自動音声認識ASRモデルのトレーニングは、事前トレーニング済みのチェックポイントから多言語自動音声認識ASRモデルを微調整(ファインチューニング)する工程を備えている。いくつかの実施態様では、多言語自動音声認識ASRモデルのトレーニングは、多言語自動音声認識ASRモデルを教師無し損失および教師有り損失で共同して(ジョイントして)トレーニングする工程を備えている。教師有り損失は、リカレントニューラルネットワークトランスデューサ(RNN-T)損失を含み得る。
【0007】
本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実行させる命令を記憶するメモリハードウェアと、を備えているシステムを提供する。動作は、音声の発話に対応するオーディオ特徴を受け取ることで、かつ複数の時間ステップの各々において、オーディオ特徴に基づき潜在音声表現を生成する工程を備えている。動作は、複数の時間ステップの各々において、対応する潜在音声表現のターゲット量子化ベクトルトークンおよびターゲットトークンインデックスを生成する工程も備えている。ターゲットトークンインデックスは、対応する潜在音声表現をコードブックに記憶されたターゲット量子化ベクトルトークンにマッピング(写像)する。動作は、複数の時間ステップの各々において、対応するマスクされていない、またはマスク済み潜在音声表現の対照コンテキストベクトルを生成する工程も備えている。動作は、複数の時間ステップの各々において、対応する対照ベクトルおよび対応するターゲット量子化ベクトルトークンに基づき対照的な自己教師有り損失を導出する工程も備えている。動作はまた、複数の時間ステップの各々において、対照コンテキストベクトルに基づき高レベルコンテキストベクトルを生成する工程と、各々の高レベルコンテキストベクトルについて、ターゲットトークンインデックスに基づくクロスエントロピー損失を使用することで対応する時間ステップでターゲットトークンインデックスを予測するように学習する工程と、を備えている。動作はまた、高レベルコンテキストベクトルに基づき発話の音声認識仮説を予測する工程と、かつ、対照的な自己教師有り損失とクロスエントロピー損失とに基づく教師無し損失と、予測済みの音声認識仮説と発話のグラウンドトゥルース転写とに基づく教師有り損失と、を使用することで多言語自動音声認識(ASR)モデルをトレーニングする工程と、も備えている。
【0008】
本開示の実施態様には、以下の任意選択の特徴の1つまたは複数が含まれる場合がある。いくつかの実施態様では、潜在音声表現を生成する工程は、特徴エンコーダによって、複数の時間ステップの各々において潜在音声表現を生成する工程を備えている。特徴エンコーダは、2つの畳み込みニューラルネットワーク(CNN)ブロックを備えている。動作は、潜在音声表現のサブセットにおける各々の潜在音声表現を、対応するランダムベクトルにランダムに置き換えることによって潜在音声表現のサブセットをマスクする工程、をさらに備えている。いくつかの例では、対照的な自己教師有り損失は、潜在音声表現のマスク済みサブセットからのマスク済み潜在音声表現に対応する、コードブックに記憶されたターゲット量子化ベクトルトークンから均一にサンプリングされたK個の負のサンプル/ディストラクタにさらに基づく。
【0009】
いくつかの実施態様では、教師無し損失は、コードブックに関連付けられたエントロピーベースの多様性損失にさらに基づく。多言語自動音声認識ASRモデルは、複数の異なる言語で話された発話をトレーニングすることでトレーニングされ得る。いくつかの例では、多言語自動音声認識ASRモデルのトレーニングは、先の事前トレーニングを行なわずに多言語自動音声認識ASRモデルのトレーニングを行なう工程を備えている。多言語自動音声認識ASRモデルをトレーニングする工程は、事前トレーニング済みのチェックポイントから多言語自動音声認識ASRモデルを微調整する工程を含み得る。いくつかの実施態様では、多言語自動音声認識ASRモデルをトレーニングする工程は、多言語自動音声認識ASRモデルを教師無し損失および教師有り損失で共同してトレーニングする工程を備えている。いくつかの例では、教師有り損失は、リカレントニューラルネットワークトランスデューサ(RNN-T)損失を備えている。
【0010】
本開示の1つまたは複数の実施態様の詳細は、添付の図面および以下の説明において述べられる。他の態様、特徴、および利点、は説明および図面ならびに請求項から明らかになるであろう。
【図面の簡単な説明】
【0011】
【
図2】リカレントニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャの概略図である。
【
図3A】音声認識モデルをトレーニングするためのトレーニング処理の一例の概略図である。
【
図3B】音声認識モデルをトレーニングするためのトレーニング処理の一例の概略図である。
【
図4】教師無しトレーニングおよび教師有りトレーニングを使用することで自動音声認識モデルを共同トレーニングする方法の動作の配列例を示すフローチャートである。
【
図5】本明細書に記載のシステムおよび方法を実装するべく使用され得るコンピューティングデバイスの一例の概略図である。
【発明を実施するための形態】
【0012】
様々な図面における同様の参照記号は、同様の要素を指す。
事前トレーニング(プレ訓練)済みの自動音声認識(ASR)モデルの使用は、大規模なラベル無しトレーニングデータから一般的な潜在表現(潜在音声表現)を学習するための効果的な方法であることが実証されている。自動音声認識ASRモデルを事前トレーニングすると、下流の微調整におけるトレーニングの複雑さが大幅に軽減される。ここで、微調整(ファインチューニング)とは、自動音声認識ASRモデルが既にラベル無しトレーニングデータを使用することで事前トレーニングされているので、事前トレーニング済みの自動音声認識ASRモデルに対して小さなラベル付きトレーニングデータセットを使用することで教師有りトレーニングを実行することを指す。よって、自動音声認識ASRモデルが事前トレーニングされた後、事前トレーニング済みの自動音声認識ASRモデルは、より小さいおよび/またはより多様性の低いラベル付きトレーニングデータセットのみを使用することでトレーニング(すなわち、微調整トレーニング)され得る。特に、事前トレーニング済みの自動音声認識ASRモデルを、より小さなラベル付きトレーニングデータセットを使用することで微調整すると、事前トレーニングを受けずに一層大規模なおよび/または一層多様なラベル付きトレーニングデータセットを使用することでトレーニングする自動音声認識ASRモデルとで同等(またはそれ以上)の性能(パフォーマンス)が得られる。
【0013】
自動音声認識ASRモデルの事前トレーニングは通常、2段階のアプローチを備えている。第1段階では、自動音声認識ASRモデルは、ラベル無しトレーニングデータから導出済みの自己教師有り損失を使用することでトレーニングすることで一般的な潜在音声表現を学習する。その後、第2段階では、自動音声認識ASRモデルは教師有り損失に基づき、トレーニングを微調整する。ここで、自動音声認識ASRモデルはラベル無しトレーニングデータを使用することで既に事前トレーニングされているので、トレーニングの第2段階では、ラベル付きトレーニングデータ(すなわち、対応するラベル付きの転写を有しているオーディオデータ)の小さなセットのみが必要になる。この2段階のトレーニングアプローチはシーケンスモデリングでは成功していることが証明されているが、このアプローチにはいくつかの問題がある。たとえば、事前トレーニング済みモデルは壊滅的忘却(カタストロフィックフォーゲッティング)の影響を受けやすくなる。つまり、事前トレーニング済みモデルは、ラベル無しトレーニングデータを使用するトレーニングの第1段階で以前に学習済みの潜在音声表現を、忘れてしまう場合がある。言い換えれば、第2段階で教師有り損失を使用することで自動音声認識ASRモデルをトレーニングすると、第1段階のトレーニングで学習済みの潜在音声表現が上書きされるので、それによって、第1段階で自動音声認識ASRモデルを事前トレーニングすることで受けられるいずれの利益も減少する場合がある。以前に学習済みの潜在音声表現を忘れることは、ラベル付きトレーニングデータセットが大きいときに特によく起こる。
【0014】
2段階のトレーニングアプローチに関するもう1つの問題は、事前トレーニング済みのチェックポイントの選択である。事前トレーニング済みのチェックポイントは、自動音声認識ASRモデルの事前トレーニング(すなわち、第1段階)が終了しているとともに、微調整トレーニング(すなわち、第2段階)が開始されるポイントである。よって、事前トレーニング済みのチェックポイントは、自動音声認識ASRモデルが受ける事前トレーニングの量に基づき変化する。とりわけ、事前トレーニングをいつ停止するとともに微調整トレーニングを開始するかを決定することが問題である。特に、事前トレーニングを行ない過ぎると、実際に自動音声認識ASRモデルの性能が低下する虞がある。他方では、事前トレーニングが少な過ぎると、自動音声認識ASRモデルの性能が低下する虞もある。さらに、多言語自動音声認識ASRモデルでは、多言語トレーニングデータセットの互いに異なる言語同士のバランスが崩れていることが多いので、事前トレーニング済みのチェックポイントの選択の問題はより一層重大である。
【0015】
それ故に、本明細書における実施態様は、教師無しおよび教師有り共同トレーニング(JUST)処理を使用することで、自動音声認識(ASR)モデルをトレーニングすることに向けられている。教師無しおよび教師有り共同トレーニングJUST処理では、自動音声認識ASRモデルを最初からトレーニングする(つまり、いずれの事前トレーニングも受けていない自動音声認識ASRモデル)ことも、事前トレーニング済みの自動音声認識ASRモデルを事前トレーニング済みのチェックポイントからトレーニングすることも、行なってよい。さらに、教師無しおよび教師有り共同トレーニングJUST処理は、単一言語または多言語の自動音声認識ASRモデルをトレーニングしてもよい。明らかになるように、教師無しおよび教師有り共同トレーニングJUST処理は、クロスエントロピー損失および自己教師有り損失から導出済みの教師無し損失と、予測済みの音声認識仮説およびグラウンドトゥルース転写から導出済みの教師有り損失と、を使用することで自動音声認識ASRモデルをトレーニングする。
【0016】
図1は、ユーザ104のユーザデバイス102上、および/またはユーザデバイス102に通信するリモートコンピューティングデバイス201(たとえば、クラウドコンピューティング環境で実行される分散システムの1つまたは複数のサーバ)上に存在する自動音声認識ASRモデル200を実装する自動音声認識(ASR)システム100を示す。ユーザデバイス102はモバイルコンピューティングデバイス(たとえば、スマートフォン)として示されているが、ユーザデバイス102は、タブレットデバイス、ラップトップ/デスクトップコンピュータ、ウェアラブルデバイス、デジタルアシスタントデバイス、スマートスピーカー/ディスプレイ、スマート器具、車載インフォテインメントシステム、またはモノのインターネット(IoT)デバイス、などこれらに限定されないいずれのタイプのコンピューティングデバイスにも対応し得、データ処理ハードウェア111およびメモリハードウェア113を備えている。
【0017】
ユーザデバイス102は、ユーザ104が話した発話106を受け取るとともに(たとえば、ユーザデバイス102は、発した発話106を記録するための1つまたは複数のマイクロフォンを含み得る)、かつ、発話106を、自動音声認識ASRシステム100によって処理可能な入力音響フレーム(すなわち、オーディオ特徴)110に関連付けられた対応するデジタルフォーマットに変換するように構成されているオーディオサブシステム108を備えている。示されている例では、ユーザは「ニューヨーク市の天気はどうですか?」(ワットイズザウェザーインニューヨークシティ)というフレーズについて、英語の自然言語で各々の発話106を話しているので、オーディオサブシステム108は、発話106を対応する音響フレーム110に変換することで自動音声認識ASRシステム100に入力する。その後、自動音声認識ASRモデル200は、発話106に対応する音響フレーム110を入力として受け取ることで、発話106の対応する転写120(たとえば、認識結果/仮説)を出力として生成/予測する。示されている例では、ユーザデバイス102および/またはリモートコンピューティングデバイス201は、発話106の転写120の表現をユーザデバイス102のユーザ104に提示するように構成されているユーザインタフェース生成器107も実行する。いくつかの構成では、自動音声認識ASRシステム100から出力済みの転写120は、たとえば、ユーザデバイス102またはリモートコンピューティングデバイス201上で実行される自然言語理解(NLU)モジュールによって処理されることで、ユーザコマンドが実行される。さらにまたは代替的には、テキスト読み上げシステム(たとえば、ユーザデバイス102またはリモートコンピューティングデバイス201の任意の組合せで実行される)は、転写を合成音声に変換することで別のデバイスで聞こえるように出力し得る。たとえば、元の発話106は、ユーザ104が友人に送るメッセージに対応し得、そのメッセージでは、転写120が合成音声に変換されることで、元の発話106で伝えられたメッセージを友人が聞くために聞こえるように出力される。
【0018】
図2を参照すると、例示の自動音声認識ASRモデル200は、対話型アプリケーションに関連付けられた遅延制約に準拠したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルアーキテクチャを備えているフレームアライメントベースのトランスデューサモデル200であってよい。RNN-Tモデルアーキテクチャの使用は例示的なものであり、フレームアライメントベースのトランスデューサモデル200は、とりわけトランスフォーマトランスデューサ、コンフォーマトランスデューサ、およびコンフォーマエンコーダモデルアーキテクチャ、などの他のアーキテクチャを含み得る。RNN-Tモデル200は、計算フットプリントが小さいとともに、従来の自動音声認識ASRアーキテクチャよりも利用するメモリ要件も少ないので、RNN-Tモデルアーキテクチャは、ユーザデバイス102上で完全に音声認識を実行するのに適している(たとえば、リモートサーバとの通信は不要である)。RNN-Tモデル200は、エンコーダネットワーク210、予測ネットワーク220、および共同ネットワーク230、を備えている。従来の自動音声認識ASRシステムの音響モデル(AM)にほぼ類似したエンコーダネットワーク210は、積み重なったセルフアテンション層(たとえば、コンフォーマ層またはトランスフォーマ層)、または積み重ねられた長短期記憶(LSTM)層、の回帰ネットワークを備えている。たとえば、エンコーダネットワーク210は、d次元特徴ベクトルのシーケンス(たとえば、音響フレーム110(
図1))x=(x
1,x
2,…,x
T)、式中x
t∈R
d(Rは白抜き文字)を読み取ることで、各々の出力ステップで高次特徴表現を生成する。この高次特徴表現は、
【0019】
【0020】
と記載される。
同様に、予測ネットワーク220もLSTMネットワークであり、言語モデル(LM)とで同様に、最終ソフトマックス層240によってこれまでに出力済みの非空白記号のシーケンスy0,…,yui-1,を密な表現
【0021】
【0022】
に変換する。最後に、RNN-Tモデルアーキテクチャでは、エンコーダネットワーク210および予測/デコーダネットワーク220によって生成済みの表現が、共同ネットワーク230によって結合される。予測ネットワーク220は、埋め込みルックアップテーブルに置き換えられて、高密度表現を処理する代わりにルックアップされた疎埋め込みを出力することによって遅延を改善し得る。次いで、共同ネットワーク230は、次の出力記号上の分布である
【0023】
【0024】
を予測する。言い換えれば、共同ネットワーク230は、各々の出力ステップ(たとえば、時間ステップ)で、考えられる音声認識仮説の確率分布を生成する。ここで、「考えられる音声認識仮説」(ポッシブルスピーチレコグニションヒポセシス)は、指定された自然言語の記号/文字を各々表現する出力ラベルのセットに対応する。たとえば、自然言語が英語の場合、出力ラベルのセットには、英語のアルファベットの26文字の各々に1つのラベルと、スペースを明示する1つのラベルと、などの27個の記号が含まれる場合がある。それ故に、共同ネットワーク230は、所定の出力ラベルのセットの各々の発生確率を示す値のセットを出力し得る。この値のセットはベクトルであり得、出力ラベルのセットにわたる確率分布を示すことができる。場合によっては、出力ラベルは書記素(たとえば、個々の文字、ならびに潜在的に句読点およびその他の記号)であるが、出力ラベルのセットはそのように制限されない。たとえば、出力ラベルのセットは、書記素(グラフェム)に加えてまたは書記素の代わりに、単語片(ワードピース)および/または単語(ワード)全体を備えていることができる。共同ネットワーク230の出力分布は、異なる出力ラベルの各々に対する事後確率値を備えていることができる。よって、異なる書記素または他の記号を表す100個の異なる出力ラベルがある場合、共同ネットワーク230の出力yiは、出力ラベルごとに1つずつ、100個の異なる確率値を備えていることができる。次いで、確率分布を使用することで、ビームサーチ処理(たとえば、ソフトマックス層240によって)で候補正字法(オルソグラフィック)要素(たとえば、書記素(グラフェム)、単語片(ワードピース)、および/または単語(ワード))を選択するとともにこれにスコアを割り当てることで、転写(トランスクリプションん、書き起こし)120を決定することができる。
【0025】
ソフトマックス層240は、分布内で最も高い確率を持つ出力ラベル/記号を、対応する出力ステップでRNN-Tモデル200によって予測される次の出力記号として選択するべく、任意の手法を採用することができる。このように、RNN-Tモデル200は条件付き独立性の仮定を行なわず、各記号の予測は音響だけでなく、これまでに出力済みのラベルのシーケンスにも条件付けられる。RNN-Tモデル200は、出力記号が将来の音響フレーム110から独立していると想定しており、これによって、RNN-Tモデルをストリーミング方式で採用することができる。
【0026】
いくつかの例では、RNN-Tモデル200のエンコーダネットワーク210には、コンフォーマブロックなどのセルフアテンション(自己注意)層/ブロックのスタックが含まれる。ここで、各コンフォーマブロックは、一連のマルチヘッドセルフアテンション、深さ方向の畳み込み、およびフィードフォワード層を備えている。エンコーダネットワーク210には、セルフアテンション層/セルフアテンションブロックの代わりにLSTM層が含まれる場合がある。
【0027】
予測ネットワーク220には、2048次元のLSTM層が2つあり、各層の後には640次元の投影層が続く。あるいは、予測ネットワーク220には、LSTM層の代わりに、トランスフォーマブロックまたはコンフォーマブロックのスタック、または埋め込みルックアップテーブル、が含まれる場合がある。最後に、共同ネットワーク230には640個の隠れユニットが存在する場合もある。ソフトマックス層240は、複数のトレーニングデータセット内のすべての一意の単語片または書記素を使用することで生成される統合された単語片または書記素セットで構成され得る。
【0028】
図3Aおよび
図3Bは、自動音声認識ASRモデル200(
図2)をトレーニングするための教師無しおよび教師有り共同トレーニングJUSTのトレーニング処理300の一例を示す。自動音声認識ASRモデル200は、多言語自動音声認識ASRモデルであってもよいし、単一言語自動音声認識ASRモデルであってもよい。いくつかの実施形態では、例示の教師無しおよび教師有り共同トレーニングJUSTのトレーニング処理300(単に「トレーニング処理300」とも呼ばれる)は、トレーニングされていない自動音声認識ASRモデル200をトレーニングする。つまり、トレーニング処理300は、まだ事前トレーニングされていない自動音声認識ASRモデル200をトレーニングする。他の例では、トレーニング処理300は、事前トレーニング済みのチェックポイントから、事前トレーニング済みの自動音声認識ASRモデル200をトレーニングする。ここでは、自動音声認識ASRモデル200はすでに事前トレーニングされているので、トレーニング処理300は事前トレーニング済みのチェックポイントから、事前トレーニング済みの自動音声認識ASRモデルを微調整する。
【0029】
トレーニング処理300は、未転写音声発話(つまり、ラベル無しのトレーニングデータ)302のセットと、転写済み音声発話(つまり、ラベル付きトレーニングデータ)304のセットと、を備えている利用可能なトレーニングデータを使用することで、自動音声認識ASRモデル200をトレーニングし得る。各未転写音声発話302には、オーディオのみのデータ(つまり、ペアになっていないデータ)が含まれているので、未転写音声発話302は、いずれの対応する転写ともペアになっていない。一方、各転写済み音声発話304には、各々転写済み音声発話304の対応する音声表現とでペアになった対応するグラウンドトゥルース転写306(すなわち、ペアになったデータ)が含まれる。さらに、未転写音声発話302のセットおよび転写済み音声発話304のセットには、各々、非合成音声表現か、テキスト発話(図示せず)を使用することでテキスト読み上げ(TTS:テキストツースピーチ)システムによって生成済みの合成音声表現か、またはそれらの組合せか、のいずれかが含まれる場合がある。いくつかの例では、未転写音声発話302のセットおよび転写済み音声発話304のセットには各々、多言語自動音声認識ASRモデルをトレーニングするための複数の異なる言語で話された発話が含まれている。
【0030】
明瞭化するべく、トレーニング処理300には、教師無し損失部分300a(
図3A)と教師有り損失部分300b(
図3B)とが含まれる。トレーニング処理300は、教師無し損失部分300aからの教師無し損失355(
図3A)と、教師有り損失部分300bからの教師有り損失365(
図3B)と、に基づき自動音声認識ASRモデル200をトレーニングする。いくつかの例では、トレーニング処理300は、教師無し損失355および教師有り損失365を共同で使用することで自動音声認識ASRモデル200をトレーニングする。
【0031】
図3Aおよび
図3Bを引き続き参照すると、教師無し損失部分300aおよび教師有り損失部分300bは両方とも、特徴エンコーダ311、マスキングモジュール215、対照ネット320、およびマスク言語モデリング(MLM)モジュール330、を備えている。ここで、トレーニング処理300(つまり、教師無し損失部分300aおよび教師有り損失部分300b)は、未転写音声発話302のセット、転写済み音声発話304のセット、および/またはそれらの組合せ(図示せず)、を備えているトレーニングデータを使用することができる。他の例では、教師無し損失部分300aは、未転写音声発話302を使用することで自動音声認識ASRモデル200をトレーニングしており、教師有り損失部分300bは、転写済み音声発話304を使用することで自動音声認識ASRモデル200をトレーニングする。
【0032】
特徴エンコーダ311は、入力として、未転写音声発話302の1つまたは転写済み音声発話304の1つに対応する入力オーディオ特徴/ベクトル
【0033】
【0034】
のシーケンス(たとえば、
図1の音響フレーム110のようなメル周波数スペクトログラム)を受け取るように構成されており、式中のLはトレーニング音声発話の元の長さを表す。入力オーディオ特徴/ベクトルのシーケンスは、未転写音声発話302の1つまたは転写済み音声発話304の1つに関連付けられる。入力オーディオ特徴/ベクトルのシーケンスを受け取った後、特徴エンコーダ311は、複数の時間ステップTの各々において、出力として潜在音声表現
【0035】
【0036】
212を生成する。ここで、潜在音声表現212は、未転写音声発話302の1つ、または転写済み音声発話304の1つ、のうちの各々1つに対応する。いくつかの実施態様では、特徴エンコーダ311は、各々が3×3のフィルタサイズと、(2、2)のストライドと、を有している2つの畳み込みニューラルネットワーク(CNN)ブロック(たとえば、2つの畳み込み層)を備えている。これらの実施態様では、2つのCNNブロックのうちの第1CNNブロックには128個のチャネルが含まれ、2つのCNNブロックのうちの第2CNNブロックには32個のチャネルが含まれる。他の実施態様では、特徴エンコーダ311には、特徴の次元とシーケンス長とを4倍に縮小したサブサンプリングブロックが含まれる。
【0037】
特徴エンコーダ311から出力済みの潜在音声表現212は、マスキングモジュール215に送られてから、ここで潜在音声表現212の一部がランダムに選択されるとともに、すべてのマスキング済み時間ステップ同士間で共有されるトレーニング済みの特徴ベクトルに置き換えられることで、対応するマスキング済み潜在音声表現212、212mが提供される。代替的に、ランダムに選択済みの潜在音声表現212をランダム特徴ベクトルに置き換えることで、対応するマスク済み潜在音声表現212mが生成され得る。いくつかの例では、マスキングモジュール215は、開始インデックスとなるすべての時間ステップTの一定の割合pを置換なしでランダムにサンプリングすることによって、ランダムに選択済みの潜在音声表現212をマスクしており、その後、すべてのサンプルインデックスから後続のM個の連続する時間ステップをマスクする。これによって、一部のスパン同士が重複する可能性がある。したがって、マスキングモジュール215は、潜在音声表現212の全体のセットのサブセットのみをマスクしており、その結果、マスク済み潜在音声表現212mのサブセットと、マスクされていない潜在音声表現212、212uのサブセットと、が生成される。
【0038】
対照(コントラスティブ)ネット320は、潜在音声表現212mのサブセットをマスクした後、複数の時間ステップの各々において特徴エンコーダ311によって生成済みの潜在音声表現212を入力として受け取るように構成されている。言い換えれば、対照ネット320は、マスク済み潜在音声表現212mのサブセットと、マスクされていない潜在音声表現212uのサブセットと、の両方を受け取る。その後、対照ネット320は、複数の時間ステップの各々において、対応するマスクされていない潜在音声表現212uまたは対応するマスク済み潜在音声表現212mの対照コンテキストベクトル
【0039】
【0040】
322を生成する。対照ネット320には、各々がマルチヘッドセルフアテンションと、深さ方向畳み込みと、およびフィードフォワード層と、を備えたコンフォーマブロックのスタックが含まれる場合がある。たとえば、対照ネット320には8つのコンフォーマブロックが含まれ、各コンフォーマブロックには隠れ次元1024、8つのアテンションヘッド、およびサイズが5である畳み込みカーネル、が含まれる。
【0041】
ここで
図3Aを参照すると、いくつかの実施態様では、教師無し損失部分300aには、潜在音声表現212も受け取る量子化器310が含まれる。特に、量子化器310は、複数の時間ステップの各々において特徴エンコーダ311によって生成済みの潜在音声表現212を入力として受け取ることで、複数の時間ステップの各々において、出力として特徴エンコーダ311によって生成済みの対応する潜在音声表現212についてのターゲット量子化ベクトルトークン312およびターゲットトークンインデックス314を生成するように構成されている。このように、量子化器310は、マスキングを含まない潜在音声表現212を使用することで、ターゲット量子化ベクトルトークン(q
i)312およびターゲットトークンインデックス(y
i)314を生成する。ここで、量子化器310は
【0042】
【0043】
に従ってターゲット量子化ベクトルトークン312を生成する。量子化器310は、すべての潜在音声表現212を、代表的なターゲット量子化ベクトルトークン(つまり、識別音声トークン)312に要約する。量子化器310によって生成済みの代表的なターゲット量子化ベクトルトークン312は、コードブック315と呼ばれる代表的なターゲット量子化ベクトルトークンの有限セットを表す。コードブック315は量子化器310に記憶されており、Vはコードブック315のサイズを表す。ターゲットトークンインデックス314は、対応する潜在音声表現212を、コードブック315に記憶されたターゲット量子化ベクトルトークン312の各々1つずつにマッピング(写像)する。さらに、コードブック315内の代表的なターゲット量子化ベクトルトークン312はすべて、トレーニング処理300中に学習可能にされている。
【0044】
教師無し損失部分300aは、正と負の両方のトレーニング例を表現するべくコードブック315に依存する。したがって、トレーニング処理300は、コードブック315に関連付けられたエントロピーベースの多様性損失(ダイバーシティロス)Ldを使用することで、コードブック315内の代表的なターゲット量子化ベクトルトークン312の使用を増加させる。つまり、トレーニング処理300は、各コードブック(G)315のV個のエントリを均等に使用することを促進しており、それによって、次式で表されるトレーニング用発話のバッチ全体にわたって、各コードブック
【0045】
【0046】
のコードブックエントリにわたって平均化されたソフトマックス分布のエントロピーを最大化する。
【0047】
【0048】
いくつかの例では、トレーニング処理300は、複数のコードブック315ではなく、単一のコードブック315を使用する。
マスク言語モデリングMLMモジュール330は、複数の時間ステップの各々において対照ネット320によって生成済みの対照コンテキストベクトル322を入力として受け取ることで、複数の時間ステップの各々において高レベルコンテキストベクトル
【0049】
【0050】
334を出力として生成するように構成されている。つまり、マスク言語モデリングMLMモジュール330は、対照コンテキストベクトル322から高レベルのコンテキスト化された音声表現を抽出することによって、高レベルコンテキストベクトル334を生成する。各高レベルコンテキストベクトル334は、線形層によって生成済みのターゲットトークンインデックス予測を表す。マスク言語モデリングMLMモジュール330には、各々が1024の隠れ次元、8つのアテンションヘッド、およびサイズが5である畳み込みカーネル、を持つ16個のコンフォーマブロックのスタックが含まれる場合がある。
【0051】
いくつかの実施形態では、教師無し損失部分300aには、教師無し損失355を導出する教師無し損失モジュール350が含まれる。教師無し損失モジュール350は、対照ネット320(図示せず)上に存在してもよいし、マスク言語モデリングMLMモジュール330上に存在してもよいし、独立したモジュール(たとえば、対照ネット320にもマスク言語モデリングMLMモジュール330にも存在しない)であってもよい。教師無し損失モジュール350は、対照コンテキストベクトル322とターゲット量子化ベクトルトークン312とを受け取る。潜在音声表現212ごとに、教師無し損失モジュール350は、対照ネット320からの対応する対照コンテキストベクトル322と、量子化器310によって生成済みの対応するターゲット量子化ベクトルトークン312と、に基づき対照的な自己教師有り損失(355、355a)を導出する。教師無し損失モジュール350は、対照的な自己教師有り損失355a(Lc)を次のように導出し得る。
【0052】
【0053】
式(2)において、Lcは対照的な自己教師有り損失355aを表しており、qiは正のサンプルとしてのターゲット量子化ベクトルトークン312を表しており、
【0054】
【0055】
は、同じ発話内の他のマスク済み潜在音声表現212mのターゲット量子化ベクトルトークン(qj)から均一にサンプリングされたK個の負のサンプル/ディストラクタを表す。さらに、式(2)において、sim(a,b)はaとbの間のコサイン類似度の指数を表す。したがって、教師無し損失モジュール350によって導出済みの対照的な自己教師有り損失355aは、潜在音声表現212mのマスク済みサブセットからのマスク済み潜在音声表現212mに対応している、コードブック315に記憶されたターゲット量子化ベクトルトークン312から均一にサンプリングされたK個の負のサンプル/ディストラクタにさらに基づく。
【0056】
教師無し損失モジュール350はまた、ターゲットトークンインデックス324および高レベルコンテキストベクトル334を受け取る。ここで、潜在音声表現212ごとに、教師無し損失モジュール350は、対応するターゲットトークンインデックス324を、対応する高レベルコンテキストベクトル(つまり、ターゲットトークンインデックス予測)334とで比較することによって、クロスエントロピー損失(Lm)(355、355b)を判定する。したがって、高レベルコンテキストベクトル334ごとに、マスク言語モデリングMLMモジュール330は、対応する時間ステップにおいて量子化器310によって生成済みのターゲットトークンインデックス314に基づき、クロスエントロピー損失355bを使用することで、対応する時間ステップにおいてターゲットトークンインデックス314を予測するように学習する。
【0057】
教師無し損失モジュール350は、対照的な自己教師有り損失355aとクロスエントロピー損失355bとを備えている教師無し損失355を、自動音声認識ASRモデル200へのフィードバックとして提供する。教師無し損失355(Lu)は、次式で表されるように、対照的な自己教師有り損失355a(Lc)とクロスエントロピー損失355b(Lm)とに基づく。
【0058】
【0059】
式(3)において、Luは教師無し損失355を表しており、αは重み付けパラメータを表す。トレーニング処理300の教師無し損失部分300aは、教師無し損失355に基づき、自動音声認識ASRモデル200のパラメータを更新し得る。
【0060】
ここで
図3Bを参照すると、いくつかの実施態様では、教師有り損失部分300bは、さらにデコーダ340および教師有り損失モジュール360を備えている。マスク言語モデリングMLMモジュール330は、複数の時間ステップの各々において、対照ネット320によって生成済みの対照コンテキストベクトル322を入力として受け取ることで、複数の時間ステップの各々において、高レベルコンテキストベクトル
【0061】
【0062】
334を出力として生成するように構成されている。つまり、マスク言語モデリングMLMモジュール330は、対照コンテキストベクトル322から高レベルのコンテキスト化された音声表現を抽出することによって、高レベルコンテキストベクトル334を生成する。各高レベルコンテキストベクトル334は、線形層によって生成済みのターゲットトークンインデックス予測を表す。
【0063】
デコーダ340は、マスク言語モデリングMLMモジュール330によって複数の時間ステップの各々において生成済みの高レベルコンテキストベクトル334を入力として受け取ることで、発話に対する音声認識仮説342を予測するように構成されている。デコーダ340には、3072個の隠れユニットを備えた2層768次元の長短期記憶(LSTM)ベースのリカレントニューラルネットワークトランスデューサ(RNN-T)が含まれる場合がある。ここで、デコーダ340は、対応する高レベルコンテキストベクトル334に対して考えられる音声認識仮説342にわたって確率分布を生成することができる。教師有り損失モジュール360は、考えられる音声認識仮説342の確率分布とグラウンドトゥルース転写306とを比較することによって、教師有り損失(Ls)365を生成する。つまり、教師有り損失モジュール360は、各々転写済み音声発話304に対する考えられる音声認識仮説342の確率分布を、各々転写済み音声発話304に対応するグラウンドトゥルース転写とで比較する。いくつかの例では、教師有り損失365にはRNN-T損失が含まれる。トレーニング処理300の教師有り損失部分300bは、教師有り損失365を自動音声認識ASRモデル200へのフィードバックとして提供することができる。したがって、トレーニング処理300の教師有り損失部分300bは、教師有り損失365に基づき自動音声認識ASRモデル200のパラメータを更新することができる。
【0064】
図3Aおよび
図3Bを再度参照すると、いくつかの実施態様では、トレーニング処理300は、次式で表される教師無し損失355(L
u)および教師有り損失365(L
s)に基づく合計損失を判定する。
【0065】
【0066】
式(4)において、Lは合計損失を表しており、βはトレードオフの重みを表現する。したがって、トレーニング処理300は、合計損失Lを使用することで自動音声認識ASRモデル200をトレーニングしているので、トレーニング処理300が、教師無し損失355および教師有り損失365を使用することで自動音声認識ASRモデル200を共同でトレーニングするようにしてもよい。特に、合計損失Lを使用することで自動音声認識ASRモデル200を共同でトレーニングすると、トレーニング処理300が、教師無し損失355および教師有り損失365の両方を使用することで自動音声認識ASRモデル200を共同(ジョイントリー)で(つまり、同時(コンカレントリー)に)トレーニングする。したがって、自動音声認識ASRモデル200が事前トレーニング中に以前に学習済みの潜在音声表現を忘れるリスクを排除する。さらに、トレーニング処理300は、共同トレーニングアプローチであるので、事前トレーニング済みのチェックポイントの選択を排除する。つまり、トレーニング処理300は、1段階のアプローチで教師無し損失355と教師有り損失365とを使用することで自動音声認識ASRモデル200を共同でトレーニングしているので、それによって、2段階のアプローチを使用することで自動音声認識ASRモデル200を事前トレーニングする際の問題を排除する。
【0067】
図4は、教師無しトレーニングおよび教師有りトレーニングを使用することで自動音声認識ASRモデル200を共同トレーニングする方法400の動作の配列例を示すフローチャートである。方法400は、メモリハードウェア520(
図5)に記憶された命令を使用することで、データ処理ハードウェア510(
図5)上で実行することができる。データ処理ハードウェア510およびメモリハードウェア520は、コンピューティングデバイス500(
図5)に対応する
図1のリモートコンピュータ/サーバ201上に存在してもよい。
【0068】
動作402では、方法400は、未転写音声発話302の1つまたは転写済み音声発話304の1つに対応するオーディオ特徴110を受け取る工程を備えている。動作404では、方法400は、複数の時間ステップの各々において、オーディオ特徴110に基づき潜在音声表現212を生成する工程を備えている。動作406では、方法400は、複数の時間ステップの各々において、対応する潜在音声表現212のターゲット量子化ベクトルトークン312およびターゲットトークンインデックス314を生成する工程を備えている。ここで、ターゲットトークンインデックス314は、対応する潜在音声表現212をコードブック315に記憶されたターゲット量子化ベクトルトークン312にマッピングする。動作408では、方法400は、複数の時間ステップの各々において、対応するマスクされていない、またはマスク済み潜在音声表現212u、212mの対照(コントラスティブ)コンテキストベクトル322を生成する工程を備えている。動作410では、方法400は、複数の時間ステップの各々において、対応する対照コンテキストベクトル322および対応するターゲット量子化ベクトルトークン312に基づき、対照的な自己教師有り損失355aを導出する工程を備えている。
【0069】
動作412では、方法400は、複数の時間ステップの各々において、対照コンテキストベクトル322に基づき高レベルコンテキストベクトル334を生成する工程を備えている。動作414では、高レベルコンテキストベクトル334ごとに、方法400は、ターゲットトークンインデックス314に基づき、クロスエントロピー損失355bを使用することで、対応する時間ステップでターゲットトークンインデックス314を予測するように学習する工程を備えている。動作416では、方法400は、高レベルコンテキストベクトル334に基づき発話に対する音声認識仮説342を予測する工程を備えている。動作416では、方法400は、対照的な自己教師有り損失355aとクロスエントロピー損失355bとに基づく教師無し損失355と、予測済みの音声認識仮説342と発話302、304のグラウンドトゥルース転写306とに基づく教師有り損失365と、を使用することで多言語自動音声認識ASRモデル200をトレーニングする工程を備えている。
【0070】
図5は、本明細書に記載のシステムおよび方法を実装するべく使用され得るコンピューティングデバイス500の一例の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータ、などさまざまな形式のデジタルコンピュータを表すことを意図する。ここに示された構成要素、それらの接続および関係、およびそれらの機能は例示的なものに過ぎず、本明細書に記載および/または特許請求される本発明の実施を限定するものではない。
【0071】
コンピューティングデバイス500は、プロセッサ510、メモリ520、記憶デバイス530、メモリ520および高速拡張ポート550に接続する高速インタフェース/コントローラ540、および低速バス570および記憶デバイス530に接続する低速インタフェース/コントローラ560を備えている。各構成要素510、520、530、540、550、および560は、さまざまなバスを使用することで相互接続されており、共通のマザーボード上に、または適宜他の方法で実装され得る。プロセッサ510は、メモリ520または記憶デバイス530に記憶されている命令を備えている、コンピューティングデバイス500内で実行するための命令を処理して、高速インタフェース540に結合されたディスプレイ580などの外部入出力デバイスにグラフィカルユーザインタフェース(GUI)のグラフィカル情報を表示することができる。他の実施態様では、複数のメモリおよびメモリの種類とで共に、必要に応じて複数のプロセッサおよび/または複数のバスが使用され得る。また、複数のコンピューティングデバイス500が接続されて各デバイスは必要な動作の一部を提供する(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
【0072】
メモリ520は、コンピューティングデバイス500内に情報を非一時的に記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)であってもよい。非一時的メモリ520は、コンピューティングデバイス500で使用するべく、一時的または永続的にプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を記憶するべく使用される物理デバイスであってもよい。不揮発性メモリの例には、フラッシュメモリおよび読み取り専用メモリ(ROM)/プログラム可能な読み取り専用メモリ(PROM)/消去可能なプログラム可能な読み取り専用メモリ(EPROM)/電子的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)(たとえば、通常はブートプログラムなどのファームウェアに使用される)が含まれるが、これらに限定されない。揮発性メモリの例には、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープなどが含まれるが、これらに限定されない。
【0073】
記憶デバイス530は、コンピューティングデバイス500に大容量ストレージを提供することができる。いくつかの実施態様では、記憶デバイス530はコンピュータ可読媒体である。さまざまに異なる実施態様において、記憶デバイス530は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたはその他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたはその他の構成内のデバイスを備えているデバイスのアレイであり得る。追加の実施態様では、コンピュータプログラム製品は、情報キャリア内に有形に具体化される。コンピュータプログラム製品は、実行されると、上記で説明されている方法などの、1つまたは複数の方法を実行する命令を備えている。情報キャリアは、メモリ520、記憶デバイス530、またはプロセッサ510上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
【0074】
高速コントローラ540は、コンピューティングデバイス500のための帯域幅を消費する動作を管理しており、低速コントローラ560は、より帯域幅を消費しない動作を管理する。このような機能の割当ては、例示に過ぎない。いくつかの実施態様では、高速コントローラ540は、メモリ520、(たとえば、グラフィックプロセッサまたはアクセラレータを介して)ディスプレイ580、およびさまざまな拡張カード(図示せず)を受け入れ得る高速拡張ポート550に結合される。いくつかの実施態様では、低速コントローラ560は、記憶デバイス530および低速拡張ポート590に結合される。様々な通信ポート(たとえば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標))を備えていることができる低速拡張ポート590は、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入出力デバイスに、またはたとえばネットワークアダプタを介して、スイッチまたはルータなどのネットワークデバイスに結合されてもよい。
【0075】
コンピューティングデバイス500は、図に示すように、いくつかの異なる形態で実装することができる。たとえば、標準サーバ500aとして、またはそのようなサーバ500aのグループ内で複数回、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実装されてもよい。
【0076】
ここに記載するシステムおよび技術の様々な実施態様は、デジタル電気および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現することができる。これらの様々な実施態様は、少なくとも1つのプログラム可能なプロセッサを備えているプログラム可能なシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実施態様を備えていることができ、プログラム可能なプロセッサは、専用または汎用であり得、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスに結合されており、データおよび命令を送受信する。
【0077】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能なプロセッサ用の機械命令を備えており、高度な手順および/またはオブジェクト指向プログラミング言語で、および/またはアセンブリ/機械言語で実装することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を備えているプログラム可能なプロセッサに機械命令および/またはデータを提供するのに使用される、(たとえば、磁気ディスク、光ディスク、メモリ、プログラム可能な論理装置(PLD)などの)任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および/またはデバイスを指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラム可能なプロセッサに提供するべく使用される任意の信号を指す。
【0078】
本明細書で説明されている処理および論理フローは、入力データに対して動作しており、出力を生成することによって機能を実行するべく1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能なプロセッサによって実行することができる。処理および論理フローは、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用の両方のマイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを備えている。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリまたはその両方から指示およびデータを受け取る。コンピュータの本質的な要素は、命令を実行するためのプロセッサと、命令とデータとを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気ディスク、光磁気ディスク、または光ディスクも備えているか、あるいはそれらからデータを受信、もしくはそれらにデータを送信、またはその両方を行なうように動作可能に結合される。しかしながら、コンピュータは、そのようなデバイスを有している必要はない。コンピュータプログラム命令とデータとを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを備えている、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを備えている。プロセッサおよびメモリは、専用論理回路によって補完することができ、または専用論理回路の中に組み込むことができる。
【0079】
ユーザとの対話を提供するべく、本開示の1つまたは複数の態様は、ユーザに情報を表示するための表示デバイス、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、任意選択で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールとを有しているコンピュータ上に実装することができる。他の種類のデバイスも同様にユーザとの対話を提供するべく使用することができ、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚的フィードバック、たとえば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックとすることができ、ユーザからの入力は、音響的入力、音声入力、または触覚的入力を備えている任意の形態で受信することができる。それに加えて、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送信しており、そのデバイスからドキュメントを受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応じて、ウェブブラウザにウェブページを送信することによって、ユーザとで対話することができる。
【0080】
いくつかの実施態様について説明してきた。それにもかかわらず、本開示の要旨および範囲から逸脱することなく、様々な変更が行なわれ得ることが理解されよう。したがって、他の実施態様は、以下の特許請求の範囲内に存在する。
【手続補正書】
【提出日】2024-05-24
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
多言語自動音声認識(ASR)モデル(200)をトレーニングするための、教師無しおよび教師有り共同トレーニング(JUST)フレームワーク(300)であって、JUSTフレームワーク(300)は、
特徴エンコーダ(311)であって、
音声の発話(302、304)に対応するオーディオ特徴(110)を入力として受け取るように、かつ
複数の時間ステップの各々において、潜在音声表現(212)を生成するように、
構成されている、前記特徴エンコーダ(311)と、
量子化器(310)であって、
複数の前記時間ステップの各々において前記特徴エンコーダ(311)によって生成済みの前記潜在音声表現(212)を入力として受け取るように、かつ
複数の前記時間ステップの各々において、前記特徴エンコーダ(311)によって生成済みの対応する前記潜在音声表現(212)に対するターゲット量子化ベクトルトークン(312)およびターゲットトークンインデックス(314)を生成するとともに、前記ターゲットトークンインデックス(314)が、対応する前記潜在音声表現(212)を、コードブック(315)に記憶された前記ターゲット量子化ベクトルトークン(312)にマッピングするように、
構成されている、前記量子化器(310)と、
対照ネット(320)であって、
前記潜在音声表現(212)のサブセットをマスクした後、複数の前記時間ステップの各々において前記特徴エンコーダ(311)によって生成済みの前記潜在音声表現(212)を入力として受け取るように、
複数の前記時間ステップの各々において、対応するマスクされていない、またはマスク済み前記潜在音声表現(212u、212m)の対照コンテキストベクトル(322)を生成するように、かつ
複数の前記時間ステップの各々において、対応する前記対照コンテキストベクトル(322)と、対応する前記潜在音声表現(212)についての前記量子化器(310)によって生成済みの対応する前記ターゲット量子化ベクトルトークン(312)と、に基づき対照的な自己教師有り損失(355a)を導出するように、
構成されている、前記対照ネット(320)と、
マスク言語モデリング(MLM)モジュール(330)であって、
複数の前記時間ステップの各々において、前記対照ネット(320)によって生成済みの、前記対照コンテキストベクトル(322)を入力として受け取るように、
複数の前記時間ステップの各々において、高レベルコンテキストベクトル(334)を生成するように、かつ
前記高レベルコンテキストベクトル(334)ごとに、対応する前記時間ステップにおいて、前記量子化器(310)によって生成済みの前記ターゲットトークンインデックス(314)に基づくクロスエントロピー損失(355b)を使用することで、対応する前記時間ステップにおいて、前記ターゲットトークンインデックス(314)を予測するように学習するように、
構成されている、マスク言語モデリングMLMモジュール(330)と、
デコーダ(340)であって、
複数の前記時間ステップの各々において、前記マスク言語モデリングMLMモジュール(330)によって生成済みの前記高レベルコンテキストベクトル(334)を入力として受け取るように、かつ
前記発話(302、304)に対する音声認識仮説(342)を予測するように、
構成されている、前記デコーダ(340)と、を備えており、
多言語自動音声認識ASRモデル(200)は、
前記対照的な自己教師有り損失(355a)および前記クロスエントロピー損失(355b)に基づく教師無し損失(355)と、
予測済みの前記音声認識仮説(342)と、前記発話(302、304)のグラウンドトゥルース転写(306)と、に基づく教師有り損失(365)と、
に基づきトレーニングされる、JUSTフレームワーク(300)。
【請求項2】
前記特徴エンコーダ(311)は、2つの畳み込みニューラルネットワーク(CNN)ブロックを備えている、
請求項1に記載のJUSTフレームワーク(300)。
【請求項3】
前記潜在音声表現(211)の前記サブセットをマスクする工程は、前記潜在音声表現(212)の前記サブセットにおける各々の前記潜在音声表現(212)を、対応するランダムベクトルにランダムに置き換える工程を備えている、
請求項
1に記載のJUSTフレームワーク(300)。
【請求項4】
前記対照ネット(320)によって導出済みの前記対照的な自己教師有り損失(355a)は、前記潜在音声表現(212m)のマスク済みサブセットからのマスク済み前記潜在音声表現(212m)に対応する、前記コードブック(315)に記憶された前記ターゲット量子化ベクトルトークン(312)から均一にサンプリングされたK個の負のサンプル/ディストラクタにさらに基づく、
請求項1~3のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項5】
前記教師無し損失(355)は、前記コードブック(315)に関連付けられたエントロピーベースの多様性損失にさらに基づく、
請求項1~
3のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項6】
前記多言語自動音声認識ASRモデル(200)は、複数の異なる言語で話された前記発話(302、304)をトレーニングすることでトレーニングされる、
請求項1~
3のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項7】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、先の事前トレーニングを行なわずに前記多言語自動音声認識ASRモデル(200)をトレーニングする工程を備えている、
請求項1~
3のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項8】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、事前トレーニング済みのチェックポイントから前記多言語自動音声認識ASRモデル(200)を微調整する工程を備えている、
請求項1~
3のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項9】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、前記多言語自動音声認識ASRモデル(200)を前記教師無し損失(355)および前記教師有り損失(365)で共同してトレーニングする工程を備えている、
請求項1~
3のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項10】
前記教師有り損失(365)は、リカレントニューラルネットワークトランスデューサ(RNN-T)損失を備えている、
請求項1~
3のいずれか1項に記載のJUSTフレームワーク(300)。
【請求項11】
コンピュータ実装方法(400)であって、データ処理ハードウェア(510)によって実行されると、前記データ処理ハードウェア(510)に、
音声の発話(302、304)に対応するオーディオ特徴(110)を受け取る工程と、
複数の時間ステップの各々において、前記オーディオ特徴(110)に基づき潜在音声表現(212)を生成する工程と、
複数の前記時間ステップの各々において、対応する前記潜在音声表現(212)に対するターゲット量子化ベクトルトークン(312)およびターゲットトークンインデックス(314)を生成するとともに、前記ターゲットトークンインデックス(314)が、対応する前記潜在音声表現(212)を、コードブック(315)に記憶された前記ターゲット量子化ベクトルトークン(312)にマッピングする工程と、
複数の前記時間ステップの各々において、対応するマスクされていない、またはマスク済み潜在音声表現(212u、212m)の対照コンテキストベクトル(322)を生成する工程と、
複数の前記時間ステップの各々において、対応する前記対照コンテキストベクトル(322)および対応する前記ターゲット量子化ベクトルトークン(312)に基づき対照的な自己教師有り損失(355a)を導出する工程と、
複数の前記時間ステップの各々において、前記対照コンテキストベクトル(322)に基づき高レベルコンテキストベクトル(334)を生成する工程と、
前記高レベルコンテキストベクトル(334)ごとに、対応する前記時間ステップにおいて、前記ターゲットトークンインデックス(314)に基づくクロスエントロピー損失(355b)を使用することで、前記ターゲットトークンインデックス(314)を予測するように学習する工程と、
前記高レベルコンテキストベクトル(334)に基づき前記発話(302、304)に対する音声認識仮説(342)を予測する工程と、
前記対照的な自己教師有り損失(355a)と前記クロスエントロピー損失(355b)とに基づく教師無し損失(355)と、予測済みの前記音声認識仮説(342)と前記発話(302、304)のグラウンドトゥルース転写(306)とに基づく教師有り損失(365)と、を使用することで多言語自動音声認識ASRモデル(200)をトレーニングする工程と、を備えている、動作を実行させる、
コンピュータ実装方法(400)。
【請求項12】
前記潜在音声表現(212)を生成する工程は、特徴エンコーダ(311)によって、複数の前記時間ステップの各々において、前記潜在音声表現(212)を生成する工程を備えており、前記特徴エンコーダ(311)は、2つの畳み込みニューラルネットワーク(CNN)ブロックを備えている、
請求項11に記載のコンピュータ実装方法(400)。
【請求項13】
前記動作は、前記潜在音声表現(212)のサブセットにおける各々の前記潜在音声表現(212)を、対応するランダムベクトルとでランダムに置き換えることによって前記潜在音声表現(212)の前記サブセットをマスクする工程、をさらに備えている、
請求項1
1に記載のコンピュータ実装方法(400)。
【請求項14】
前記対照的な自己教師有り損失(355a)は、前記潜在音声表現(211m)のマスク済みサブセットからのマスク済み前記潜在音声表現(211m)に対応する、前記コードブック(315)に記憶された前記ターゲット量子化ベクトルトークン(312)から均一にサンプリングされたK個の負のサンプル/ディストラクタにさらに基づく、
請求項11~13のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項15】
前記教師無し損失(355)は、前記コードブック(315)に関連付けられたエントロピーベースの多様性損失にさらに基づく、
請求項11~
13のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項16】
前記多言語自動音声認識ASRモデル(200)は、複数の異なる言語で話された前記発話(302、304)をトレーニングすることでトレーニングされる、
請求項11~
13のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項17】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、先の事前トレーニングを行なわずに前記多言語自動音声認識ASRモデル(200)をトレーニングする工程を備えている、
請求項11~
13のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項18】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、事前トレーニング済みのチェックポイントから前記多言語自動音声認識ASRモデル(200)を微調整する工程を備えている、
請求項11~
13のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項19】
前記多言語自動音声認識ASRモデル(200)をトレーニングする工程は、前記多言語自動音声認識ASRモデル(200)を前記教師無し損失(355)および前記教師有り損失(365)で共同してトレーニングする工程を備えている、
請求項11~
13のいずれか1項に記載のコンピュータ実装方法(400)。
【請求項20】
前記教師有り損失(365)は、リカレントニューラルネットワークトランスデューサ(RNN-T)損失を備えている、
請求項11~
13のいずれか1項に記載のコンピュータ実装方法(400)。
【国際調査報告】