(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-06
(54)【発明の名称】エンドツーエンドの自己教師あり事前トレーニングのための対照学習およびマスクモデリング
(51)【国際特許分類】
G06N 3/0895 20230101AFI20240730BHJP
G06N 3/0455 20230101ALI20240730BHJP
【FI】
G06N3/0895
G06N3/0455
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024505150
(86)(22)【出願日】2022-07-28
(85)【翻訳文提出日】2024-03-25
(86)【国際出願番号】 US2022038699
(87)【国際公開番号】W WO2023009740
(87)【国際公開日】2023-02-02
(32)【優先日】2021-07-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ユ・ジャン
(72)【発明者】
【氏名】ユ-アン・チュン
(72)【発明者】
【氏名】ウェイ・ハン
(72)【発明者】
【氏名】チュン-チェン・チウ
(72)【発明者】
【氏名】ウェイケン・チン
(72)【発明者】
【氏名】ルオミン・パン
(72)【発明者】
【氏名】ヨンフイ・ウ
(57)【要約】
対照損失項とマスクモデリング損失項の組合せを活用する、改良型エンドツーエンドの自己教師あり事前トレーニングフレームワークが提供される。特に、本開示は、対照学習およびマスクモデリングを組み合わせるフレームワークを提供し、前者は、入力データ(たとえば、連続音声信号などの連続信号)を差別化可能トークンの有限セットに離散化するようにモデルをトレーニングし、後者は、離散化トークンを消費するマスクされた予測タスクを解消することにより、コンテキスト化表現を学習するようにモデルをトレーニングする。反復の再クラスタ化および再トレーニングプロセスに依拠する、いくつかの既存マスクモデリングベースの事前トレーニングフレームワークまたは2つの別々のトレーニング済みモジュールを連結する他の既存フレームワークとは対照的に、提案されるフレームワークは、モデルが、2つの自己教師ありタスク(対照タスクおよびマスクモデリング)を同時に解消することによって、エンドツーエンド方式で最適化されることを可能にすることができる。
【特許請求の範囲】
【請求項1】
自己教師あり事前トレーニングを実施するためのコンピュータ実装方法であって、
1つまたは複数のコンピューティングデバイスを備えるコンピューティングシステムによって、一連の入力データを取得するステップと、
前記コンピューティングシステムによって、前記一連の入力データを、機械学習モデルの第1のエンコーダ部分を用いて処理して、複数の符号化特徴を生成するステップと、
前記コンピューティングシステムによって、前記複数の符号化特徴を量子化して、複数のターゲット量子化ベクトル、および前記複数のターゲット量子化ベクトルに関連付けられた複数の離散化識別子を生成するステップと、
前記コンピューティングシステムによって、前記複数の符号化特徴のうちの1つまたは複数をマスクするステップと、
前記マスクするステップの後、前記コンピューティングシステムによって、前記複数の符号化特徴を、前記機械学習モデルの第2のエンコーダ部分を用いて処理して、コンテキストベクトルの第1のセットを生成するステップと、
前記コンピューティングシステムによって、前記コンテキストベクトルの第1のセットを、前記機械学習モデルの第3のエンコーダ部分を用いて処理して、コンテキストベクトルの第2のセットを生成するステップと、
前記コンピューティングシステムによって、対照損失項およびマスクモデリング損失項を含む損失関数を評価するステップであって、前記対照損失項は、前記コンテキストベクトルの第1のセットおよび前記複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、前記マスクモデリング損失項は、前記コンテキストベクトルの第2のセットおよび前記複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価する、ステップと、
前記コンピューティングシステムによって、前記損失関数に基づいて前記機械学習モデルをトレーニングするステップとを含む、コンピュータ実装方法。
【請求項2】
1つまたは複数のマスクされた位置の各々について、
前記対照事前トレーニング出力は、候補ベクトルのセットからの予測選択を含み、前記予測選択は、前記マスクされた位置に対応する、前記コンテキストベクトルの第1のセットのうちの1つに基づいて生成され、
前記候補ベクトルのセットは、真のターゲット量子化ベクトルおよび1つまたは複数の混乱ベクトルを含み、
前記対照損失項は、前記予測選択が前記真のターゲット量子化ベクトルに対応するかどうかを評価する、請求項1に記載のコンピュータ実装方法。
【請求項3】
1つまたは複数のマスクされた位置の各々について、
前記マスクモデリング事前トレーニング出力は、前記マスクされた位置に対応する、前記コンテキストベクトルの第2のセットのうちの1つに基づいて生成された予測識別子を含み、
前記マスクモデリング損失項は、前記予測識別子が、前記マスクされた位置に対応する、前記複数の離散化識別子のうちの真の離散化識別子に対応するかどうかを評価する、請求項1または2に記載のコンピュータ実装方法。
【請求項4】
前記機械学習モデルの前記第2のエンコーダ部分および/または前記第3のエンコーダ部分は、1つまたは複数のコンフォーマブロックを含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
【請求項5】
前記機械学習モデルの前記第3のエンコーダ部分は1つまたは複数のコンフォーマブロックを含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記コンピューティングシステムによって、前記損失関数に基づいて前記機械学習モデルをトレーニングするステップは、
前記コンピューティングシステムによって、前記機械学習モデルの前記第3のエンコーダ部分、前記第2のエンコーダ部分、および前記第1のエンコーダ部分の1つまたは複数のパラメータの1つまたは複数の値を、前記マスクモデリング損失項に基づいて修正するステップと、
前記コンピューティングシステムによって、前記機械学習モデルの前記第2のエンコーダ部分および前記第1のエンコーダ部分の1つまたは複数のパラメータの1つまたは複数の値を、前記マスクモデリング損失項と前記対照損失項の組合せに基づいて修正するステップとを含む、請求項1から5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
前記コンピューティングシステムによって、前記損失関数に基づいて前記量子化を実施するのに使われるコードブックを修正するステップをさらに含む、請求項1から6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
前記一連の入力データは、オーディオデータまたは前記オーディオデータの分光表現を含む、請求項1から7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
前記オーディオデータは音声データを含む、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記一連の入力データはテキストデータを含む、請求項1から9のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
前記一連の入力データはセンサーデータまたは画像データを含む、請求項1から10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体であって、前記命令は、コンピューティングシステムの1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させ、前記動作は、
タスク固有トレーニング入力を取得することと、
機械学習モデルを用いて前記タスク固有トレーニング入力を処理して、タスク固有トレーニング出力を生成することであって、前記機械学習モデルの少なくともエンコーダ部分は、対照損失項およびマスクモデリング損失項を含む損失関数を使ってトレーニングされており、前記対照損失項は、コンテキストベクトルの第1のセットおよび複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、前記コンテキストベクトルの第1のセットは、前記機械学習モデルの前記エンコーダ部分の入力または中間出力のマスキングの後、前記機械学習モデルの前記エンコーダ部分によって生成され、前記複数のターゲット量子化ベクトルは、前記機械学習モデルの前記エンコーダ部分の前記入力または中間出力の量子化によって生成され、前記マスクモデリング損失項は、コンテキストベクトルの第2のセットおよび複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価し、前記コンテキストベクトルの第2のセットは、前記機械学習モデルの前記エンコーダ部分によって、前記コンテキストベクトルの第1のセットから生成され、前記複数の離散化識別子は、前記機械学習モデルの前記エンコーダ部分の前記入力または中間出力の量子化によって生成される、生成することと、
前記タスク固有トレーニング出力に基づいて、タスク固有損失関数を評価することと、
前記タスク固有損失関数に基づいて前記機械学習モデルをトレーニングすることとを含む、1つまたは複数の非一時的コンピュータ可読媒体。
【請求項13】
1つまたは複数のマスクされた位置の各々について、
前記対照事前トレーニング出力は、候補ベクトルのセットからの予測選択を含み、前記予測選択は、前記マスクされた位置に対応する、前記コンテキストベクトルの第1のセットのうちの1つに基づいて生成され、
前記候補ベクトルのセットは、真のターゲット量子化ベクトルおよび1つまたは複数の混乱ベクトルを含み、
前記対照損失項は、前記予測選択が前記真のターゲット量子化ベクトルに対応するかどうかを評価する、請求項12に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項14】
1つまたは複数のマスクされた位置の各々について、
前記マスクモデリング事前トレーニング出力は、前記マスクされた位置に対応する、前記コンテキストベクトルの第2のセットのうちの1つに基づいて生成された予測識別子を含み、
前記マスクモデリング損失項は、前記予測識別子が、前記マスクされた位置に対応する、前記複数の離散化識別子のうちの真の離散化識別子に対応するかどうかを評価する、請求項12または13に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項15】
前記機械学習モデルの前記エンコーダ部分は1つまたは複数のコンフォーマブロックを含む、請求項12、13、または14に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項16】
前記機械学習モデルは、前記エンコーダ部分の出力を処理して、前記タスク固有トレーニング出力を生成するように構成されたデコーダ部分を含む、請求項12から15のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項17】
前記タスク固有トレーニング入力は音声データを含み、
前記タスク固有トレーニング出力は、前記音声データまたは前記音声データについての音声認識の翻訳を含む、請求項12から16のいずれか一項に記載の1つまたは複数の非一時的コンピュータ可読媒体。
【請求項18】
1つまたは複数のプロセッサと、
命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備えるコンピューティングシステムであって、前記命令が、コンピューティングシステムの前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させ、前記動作は、
タスク固有推論入力を取得することと、
機械学習型モデルを用いて前記タスク固有推論入力を処理して、タスク固有推論出力を生成することであって、前記機械学習型モデルの少なくともエンコーダ部分は、対照損失項およびマスクモデリング損失項を含む損失関数を使ってトレーニングされており、前記対照損失項は、コンテキストベクトルの第1のセットおよび複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、前記コンテキストベクトルの第1のセットは、前記機械学習型モデルの前記エンコーダ部分の入力または中間出力のマスキングの後、前記機械学習型モデルの前記エンコーダ部分によって生成され、前記複数のターゲット量子化ベクトルは、前記機械学習型モデルの前記エンコーダ部分の前記入力または中間出力の量子化によって生成され、前記マスクモデリング損失項は、コンテキストベクトルの第2のセットおよび複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価し、前記コンテキストベクトルの第2のセットは、前記機械学習型モデルの前記エンコーダ部分によって前記コンテキストベクトルの第1のセットから生成され、前記複数の離散化識別子は、前記機械学習型モデルの前記エンコーダ部分の前記入力または中間出力の量子化によって生成される、生成することと、
前記タスク固有推論出力を出力として提供することとを含む、コンピューティングシステム。
【請求項19】
1つまたは複数のマスクされた位置の各々について、
前記対照事前トレーニング出力は、候補ベクトルのセットからの予測選択を含み、前記予測選択は、前記マスクされた位置に対応する、前記コンテキストベクトルの第1のセットのうちの1つに基づいて生成され、
前記候補ベクトルセットは、真のターゲット量子化ベクトルおよび1つまたは複数の混乱ベクトルを含み、
前記対照損失項は、前記予測選択が前記真のターゲット量子化ベクトルに対応するかどうかを評価する、請求項18に記載のコンピューティングシステム。
【請求項20】
1つまたは複数のマスクされた位置の各々について、
前記マスクモデリング事前トレーニング出力は、前記マスクされた位置に対応する、前記コンテキストベクトルの第2のセットのうちの1つに基づいて生成された予測識別子を含み、
前記マスクモデリング損失項は、前記予測識別子が、前記マスクされた位置に対応する、前記複数の離散化識別子のうちの真の離散化識別子に対応するかどうかを評価する、請求項18または19に記載のコンピューティングシステム。
【請求項21】
前記機械学習型モデルの前記エンコーダ部分は1つまたは複数のコンフォーマブロックを含む、請求項18から20のいずれか一項に記載のコンピューティングシステム。
【請求項22】
前記機械学習型モデルは、前記エンコーダ部分の出力を処理して、前記タスク固有推論出力を生成するように構成されたデコーダ部分を含む、請求項18から21のいずれか一項に記載のコンピューティングシステム。
【請求項23】
前記タスク固有推論入力は音声データを含み、
前記タスク固有推論出力は、前記音声データまたは前記音声データに対する音声認識の翻訳を含む、請求項18から22のいずれか一項に記載のコンピューティングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は概して、機械学習に関する。より詳細には、本開示は、対照損失項とマスクモデリング損失項の組合せを活用する、改良型エンドツーエンドの自己教師あり事前トレーニングフレームワークに関する。
【背景技術】
【0002】
様々なタスクにおける機械学習モデルの性能を向上するために、大規模無注釈データを活用する技法の発展が、積年の研究課題である。今まで、そのような半教師ありタスクに取り組むためにラベルなしデータを使用するための、2つの主要な手法があった。
【0003】
第一線の作業が、擬似ラベル付けとしても知られる自己トレーニングであり、ここで、システムは、最初に利用可能なラベル付けされたデータを使って、教師モデルをトレーニングし始める。次に、教師モデルは、ラベルなしデータをラベル付けするのに使われる。ラベル付きデータと擬似ラベル付きデータの組合せが次いで、生徒モデルをトレーニングするのに使われる。擬似ラベル付けプロセスは、教師モデルの品質を向上するために、複数回繰り返されてよい。自己トレーニングは、いくつかの異なるタスクおよびドメイン向けの、実際に有用な、広範囲に検討された技法であった。
【0004】
ラベルなしデータを利用する第2の方向性は、教師なし事前トレーニング、または自己教師あり事前トレーニングである。教師なし事前トレーニングでは、ラベルなしデータのみを消費するように設計されているプロキシタスクを完了するように、モデルが最初にトレーニングされる(したがって、「教師なし」と呼ばれる)。そのようなプロキシタスクは一般に、教師ありデータでトレーニングされる前の有効な開始点においてモデルのパラメータを初期化することが可能であると思われている。重要な最近の研究努力は、いくつかのダウンストリームタスクにおいてモデルが微調整されると、モデルをうまく実施させるプロキシタスクを発展させるように行われている。自己トレーニングおよび教師なし事前トレーニングによってもたらされる利得は、いくつかのダウンストリームタスクに対して付加的であることを示す検討も行われている。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】Gulatiら、Conformer: Convolution-augmented transformer for speech recognition、Interspeech、2020年
【非特許文献2】Vaswaniら、Attention is all you need、NIPS、2017年
【発明の概要】
【課題を解決するための手段】
【0006】
本開示の実施形態の態様および利点は、以下の説明において部分的に記載されるか、または説明から知ることができるか、または実施形態の実施を通して知ることができる。
【0007】
本開示に記載する一例は、エンドツーエンドの自己教師あり事前トレーニングを実施するためのコンピュータ実装方法を対象とする。方法は、1つまたは複数のコンピューティングデバイスを備えるコンピューティングシステムによって、一連の入力データを取得するステップを含む。方法は、コンピューティングシステムによって、一連の入力データを、機械学習モデルの第1のエンコーダ部分を用いて処理して、複数の符号化特徴を生成するステップを含む。方法は、コンピューティングシステムによって、複数の符号化特徴を量子化して、複数のターゲット量子化ベクトル、および複数のターゲット量子化ベクトルに関連付けられた複数の離散化識別子を生成するステップを含む。方法は、コンピューティングシステムによって、複数の符号化特徴のうちの1つまたは複数をマスクするステップを含む。方法は、前記マスクするステップの後、コンピューティングシステムによって、複数の符号化特徴を、機械学習モデルの第2のエンコーダ部分を用いて処理して、コンテキストベクトルの第1のセットを生成するステップを含む。方法は、コンピューティングシステムによって、コンテキストベクトルの第1のセットを、機械学習モデルの第3のエンコーダ部分を用いて処理して、コンテキストベクトルの第2のセットを生成するステップを含む。方法は、コンピューティングシステムによって、対照損失項およびマスクモデリング損失項を含む損失関数を評価するステップを含み、対照損失項は、コンテキストベクトルの第1のセットおよび複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、マスクモデリング損失項は、コンテキストベクトルの第2のセットおよび複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価する。方法は、コンピューティングシステムによって、機械学習モデルを、損失関数に基づいてエンドツーエンドにトレーニングするステップを含む。
【0008】
1つまたは複数のマスクされた位置の各々について、対照事前トレーニング出力は、候補ベクトルのセットからの予測選択を含んでよく、予測選択は、マスクされた位置に対応する、コンテキストベクトルの第1のセットのうちの1つに基づいて生成される。候補ベクトルのセットは、真のターゲット量子化ベクトルおよび1つまたは複数の混乱ベクトルを含み得る。対照損失項は、予測選択が真のターゲット量子化ベクトルに対応するかどうかを評価し得る。
【0009】
1つまたは複数のマスクされた位置の各々について、マスクモデリング事前トレーニング出力は、マスクされた位置に対応する、コンテキストベクトルの第2のセットのうちの1つに基づいて生成された予測識別子を含んでよく、マスクモデリング損失項は、予測識別子が、マスクされた位置に対応する、複数の離散化識別子のうちの真の離散化識別子に対応するかどうかを評価し得る。
【0010】
機械学習モデルの第2のエンコーダ部分は、1つまたは複数のコンフォーマ(conformer)ブロックを含み得る。同様に、エンコーダ部分は、1つまたは複数のコンフォーマブロックを含み得る。
【0011】
コンピューティングシステムによって、損失関数に基づいて機械学習モデルをトレーニングするステップは、コンピューティングシステムによって、機械学習モデルの第3のエンコーダ部分、第2のエンコーダ部分、および第1のエンコーダ部分の1つまたは複数のパラメータの1つまたは複数の値を、マスクモデリング損失項に基づいて修正するステップを含み得る。機械学習モデルをトレーニングするステップは、コンピューティングシステムによって、機械学習モデルの第2のエンコーダ部分および第1のエンコーダ部分の1つまたは複数のパラメータの1つまたは複数の値を、マスクモデリング損失項と対照損失項の組合せに基づいて修正するステップをさらに含み得る。
【0012】
方法は、損失関数に基づく量子化を実施するのに使われるコードブックを修正するステップを含み得る。
【0013】
一連の入力データは、オーディオデータまたはオーディオデータの分光表現を含み得る。たとえば、オーディオデータは音声データを含み得る。たとえば、機械学習モデルは、音声認識および/または音声変換などの音声関連タスクを実施するためのモデルであってよい。一連の入力データは、追加または代替として、テキストデータ、センサーデータおよび/または画像データを含み得る。
【0014】
本開示に記載される別の例は、命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体を対象とし、これらの命令は、コンピューティングシステムの1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実行させる。たとえば、動作は、本明細書に記載する方法のいずれかを実施するための動作を含み得る。たとえば、動作は、タスク固有トレーニング入力を取得することを含み得る。動作は、機械学習モデルを用いてタスク固有トレーニング入力を処理して、タスク固有トレーニング出力を生成することを含み、機械学習モデルの少なくともエンコーダ部分は、対照損失項およびマスクモデリング損失項を含む損失関数を使ってエンドツーエンドにトレーニングされており、対照損失項は、コンテキストベクトルの第1のセットおよび複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、コンテキストベクトルの第1のセットは、機械学習モデルのエンコーダ部分の入力または中間出力のマスキングの後、機械学習モデルのエンコーダ部分によって生成され、複数のターゲット量子化ベクトルは、機械学習モデルのエンコーダ部分の入力または中間出力の量子化によって生成され、マスクモデリング損失項は、コンテキストベクトルの第2のセットおよび複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価し、コンテキストベクトルの第2のセットは、機械学習モデルのエンコーダ部分によって、コンテキストベクトルの第1のセットから生成され、複数の離散化識別子は、機械学習モデルのエンコーダ部分の入力または中間出力の量子化によって生成される。動作は、タスク固有トレーニング出力に基づいて、タスク固有損失関数を評価することを含む。動作は、タスク固有損失関数に基づいて機械学習モデルをトレーニングすることを含む。
【0015】
本開示の別の例示的態様は、コンピューティングシステムを対象とする。このコンピューティングシステムは、1つまたは複数のプロセッサと、命令をまとめて記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含み、これらの命令は、コンピューティングシステムの1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実施させる。動作は、本明細書に記載する方法のいずれかを含み得る。たとえば、動作は、タスク固有推論入力を取得することを含み得る。動作は、機械学習型モデルを用いてタスク固有推論入力を処理して、タスク固有推論出力を生成することを含み、機械学習型モデルの少なくともエンコーダ部分が、対照損失項およびマスクモデリング損失項を含む損失関数を使ってエンドツーエンドにトレーニングされており、対照損失項は、コンテキストベクトルの第1のセットおよび複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、コンテキストベクトルの第1のセットは、機械学習型モデルのエンコーダ部分の入力または中間出力のマスキングの後、機械学習型モデルのエンコーダ部分によって生成され、複数のターゲット量子化ベクトルは、機械学習型モデルのエンコーダ部分の入力または中間出力の量子化によって生成され、マスクモデリング損失項は、コンテキストベクトルの第2のセットおよび複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価し、コンテキストベクトルの第2のセットは、機械学習型モデルのエンコーダ部分によってコンテキストベクトルの第1のセットから生成され、複数の離散化識別子は、機械学習型モデルのエンコーダ部分の入力または中間出力の量子化によって生成される。動作は、タスク固有推論出力を出力として提供することを含む。
【0016】
本開示に記載する他の例は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
【0017】
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照すると、よりよく理解されよう。本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、本開示の例示的な実施形態を示し、この説明とともに、関連する原理について説明するために役立つ。
【0018】
当業者を対象とする実施形態の詳細な説明が本明細書に記載され、本明細書は添付の図を参照する。
【図面の簡単な説明】
【0019】
【
図1】本開示に記載する例による例示的事前トレーニングフレームワークのブロック図である。
【
図2】本開示に記載する例による例示的トレーニングフレームワークのブロック図である。
【
図3】本開示に記載する例による例示的推論フレームワークのブロック図である。
【
図4A】本開示において記載する例による例示的コンピューティングシステムのブロック図である。
【
図4B】本開示において記載する例による例示的コンピューティングデバイスのブロック図である。
【
図4C】本開示において記載する例による例示的コンピューティングデバイスのブロック図である。
【発明を実施するための形態】
【0020】
複数の図にわたって繰り返される参照番号は、様々な実装形態において同じ特徴を識別するものである。
【0021】
概要
概して、本開示は、対照損失項とマスクモデリング損失項の組合せを活用する、改良型エンドツーエンドの自己教師あり事前トレーニングフレームワークを対象とする。特に、本開示は、対照学習およびマスクモデリングを組み合わせるフレームワークを提供し、前者は、入力データ(たとえば、連続音声信号などの連続信号)を差別化可能トークンの有限セットに離散化するようにモデルをトレーニングし、後者は、離散化トークンを消費するマスクされた予測タスクを解消することにより、コンテキスト化表現を学習するようにモデルをトレーニングする。反復の再クラスタ化および再トレーニングプロセスに依拠する、いくつかの既存マスクモデリングベースの事前トレーニングフレームワークまたは2つの別々のトレーニング済みモジュールを連結する他の既存フレームワークとは対照的に、提案されるフレームワークは、モデルが、2つの自己教師ありタスク(対照タスクおよびマスクモデリング)を同時に解消することによって、エンドツーエンド方式で最適化されることを可能にすることができる。
【0022】
より具体的には、本開示の例示的態様は、新規性のある事前トレーニングフレームワークを提案することによって、教師なし事前トレーニングを実施する能力を向上することに重点を置く。提案されるフレームワークの例示的実装形態は、差別化可能な、離散化音声単位の有限セットの目録を取得するのに、対照事前トレーニングタスクを使い、次いで、それらの音声単位を、マスクされた予測タスクにおいてターゲットとして使う。マスクされた予測タスクは、対照タスクを最初に解消することによって学習されることになるトークンをモデルが消費することを要するが、本開示は、実際に2つの目的が同時に最適化され得ることを論証する。
【0023】
本明細書に記載する事前トレーニングフレームワークは、多くの異なるタスク、ドメイン、および/またはデータモダリティに適用することができる。1つの具体的な例示的タスクが、自動音声認識である。別の例示的タスクが音声変換である。したがって、入力データは、音声データ(たとえば、未加工の形で、またはスペクトログラフを使って表される)などのオーディオデータを含み得る。他の例では、入力データは、テキストデータ(たとえば、自然言語データ)、センサーデータ、画像データ、生体もしくは化学データ、および/または他の形のデータを含む他の形のデータを含み得る。事前トレーニングされると、モデルは、任意の数の異なるタスクを実施するために微調整され得る。
【0024】
本開示のシステムおよび方法は、いくつかの技術的効果および利益を提供する。1つの例示的な技術的進歩として、本開示は、対照損失およびマスクされた予測損失を、エンドツーエンドの自己教師あり表現学習のために同時に直接最適化する事前トレーニングフレームワークを提供する。事前トレーニングフレームワークは、様々なタスクの最先端の性能を引き出し得る。たとえば、フレームワークは、十分にベンチマークされたLibriSpeechタスクの最先端の性能を引き出すこと、および実世界認識タスク(ボイスサーチ)の性能を、既存の最先端の手法よりも大きく向上することが示される。したがって、本明細書に記載する事前トレーニングフレームワークは、いくつかの異なるタスクの向上したモデル性能を可能にすることができ、これは、コンピューティングシステム自体の向上に相当する。
【0025】
別の例示的技術効果として、本明細書に記載する改良型事前トレーニングフレームワークは、様々なダウンストリームタスク向けにより素早く、または容易に微調整することができる、より良好な事前トレーニング済みモデルにつながり得る。つまり、所与のタスクのためにそこから始めるべき潜在チェックポイントとして、改良型事前トレーニング済みモデルを提供することによって、より少ない微調整が、匹敵する性能を達成するために実施されることが必要とされる。この結果、プロセッサ使用、メモリ使用、ネットワーク帯域幅などのような、計算リソースの節約に対応する、より少ない微調整トレーニングが、実施される必要があり得る。同様に、改良型事前トレーニング済みモデルが、限られた量の微調整トレーニングデータのみが利用可能であるタスク用のモデルの微調整を可能にし得る。したがって、提案されるフレームワークは、以前は利用可能でなかった様々なドメインまたはタスクへの、機械学習技術の適用を可能にすることができる。
【0026】
ここで図面を参照して、本開示の例示的実施形態についてさらに詳しく論じる。
【0027】
例示的事前トレーニングフレームワーク
図1は、機械学習モデル14を事前トレーニングするのに使うことができる例示的事前トレーニングフレームワークのブロック図を示す。機械学習モデル14は、第1のエンコーダ部分16、第2のエンコーダ部分18、および第3のエンコーダ部分20を含み得る。
図1に示す例示的アーキテクチャは、例としてのみ与えられる。モデル14ならびにその部分16、18、および20は、
図1に示すものと同様か、または異なる、様々なアーキテクチャを有する可能性がある。
【0028】
事前トレーニングプロセスは、一連の入力データ22に対して実施することができる。一例として、入力データ22は、連続信号からのサンプルであってよい。例として、入力データ22は、オーディオデータ(たとえば、未加工オーディオデータもしくはスペクトログラムを使って表されるオーディオデータ)(たとえば、オーディオデータは音声データであってよい)、テキストデータ、画像データ、センサーデータ、生体もしくは化学データ、および/またはそれらの組合せであってよい。入力データ22は、いくつかの位置(たとえば、位置1、2、3、...、j)をもつシーケンスとしてフォーマットすることができる。
【0029】
機械学習モデル14の第1のエンコーダ部分16は、入力データ22を処理して、複数の符号化特徴24を生成することができる。一例では、
図1に示すように、第1のエンコーダ部分16は、たとえば、両方ともストライドが(2,2)である2つの2D畳み込みレイヤを含む畳み込みサブサンプリングブロックであってよく、結果として、入力のシーケンス長が4倍削減される。たとえば、log-melスペクトログラムが入力として与えられると、第1のエンコーダ部分16は、第2のエンコーダ部分18によって入力としてとられる潜在性表現を抽出することができる。
【0030】
量子化技法26は、複数の符号化特徴24に対して実施されて、複数のターゲット量子化ベクトル28と、複数のターゲット量子化ベクトル28に関連付けられた複数の離散化識別子30とを生成することができる。
【0031】
一例として、いくつかの実装形態では、量子化技法26は、直積量子化を実施することを含み得る。直積量子化は、複数のコードブックから量子化表現を選ぶことと、それらを連結することとを含み得る。いくつかのエントリを各々が有する、いくつかのコードブック、またはグループが与えられると、量子化技法26は、各コードブックから1つのエントリを選ぶことと、得られたベクトルを連結することと、次いで、線形変換を適用して、量子化ベクトル28を取得することとを含み得る。いくつかの実装形態では、ガンベルソフトマックスの使用により、完全に差別化可能なやり方で、個別コードブックエントリを選ぶことが可能になり得る。いくつかの実装形態では、直進(straight-through)推定器を使うことができ、G個のハードガンベルソフトマックス演算をセットアップすることができる。特徴エンコーダ出力は、異なるコードブックエントリに対応する、いくつかのロジットにマップすることができる。バックワードパスでは、ガンベルソフトマックス出力の真の勾配を使うことができる。
【0032】
図1を再度参照すると、複数の符号化特徴24のうちの1つまたは複数を、32においてマスクすることができる。たとえば、マスキング32は、入力データ22に関連付けられたいくつかの位置のうちの1つまたは複数において実施することができ、マスキング32が実施される位置はその後、「マスクされた位置」と呼ぶことができる。一例では、マスキング32は、特徴値をゼロに等しくセットすることを含み得る。別の例では、マスキング32は、特徴値を、何らかの他の値(たとえば、ランダムノイズ値)に等しく変えることを含み得る。
【0033】
前記マスキング32の後、機械学習モデル14の第2のエンコーダ部分18は、複数の符号化特徴24を処理して、コンテキストベクトル34の第1のセットを生成することができる。一例では、第2のエンコーダ部分18は、線形投射レイヤと、その後に続くコンフォーマブロックのスタックを含み得る。Gulatiら、Conformer: Convolution-augmented transformer for speech recognition、Interspeech、2020年を参照されたい。コンフォーマブロックの各々は、一連の多頭自己注意(Vaswaniら、Attention is all you need、NIPS、2017年)、深さ方向畳み込みおよびフィードフォワードレイヤを含み得る。
【0034】
図に示すフレームワークにおいて、第2のエンコーダ部分18の1つの目標は、(マスクされた)符号化特徴24を、代表的単位の有限セットに離散化することである。この目的のために、第2のエンコーダ部分18は、量子化機構26と相互動作することができる。具体的には、第1のエンコーダ部分16によって出力された符号化特徴24は、一方では、マスキングの後、コンフォーマブロックのスタックが後に続く線形投射レイヤに供給されて、コンテキストベクトル34の第1のセットを生じることができる。他方、符号化特徴24は、量子化ベクトル28およびそれらに割り当てられたトークンID30を生じるためのマスキングなしで、量子化器26に渡されてよい。量子化ベクトル28は、対照タスクを解消するために、マスクされた位置に対応するコンテキストベクトル34の第1のセットと共に使うことができる。割り当てられたトークンID30は、予測ターゲットとして、後続のマスクされた予測局面によって後で使うことができる。
【0035】
特に、依然として
図1を参照すると、機械学習モデル14の第3のエンコーダ部分20は、コンテキストベクトル34の第1のセットを処理して、コンテキストベクトル36の第2のセットを生成することができる。一例として、
図1に示すように、第3のエンコーダ部分20は、コンフォーマブロックのスタックを含むことができ、各ブロックは、第2のエンコーダ部分18からのものと同一の構成を有する。第3のエンコーダ部分20は、コンテキストベクトル34の第1のセットを直接取り込み、高度なコンテキスト化表現を抽出することができる。
【0036】
事前トレーニングプロセスは、対照損失項38とマスクモデリング損失項40の両方を含む損失関数を評価することを含み得る。具体的には、対照損失項38は、コンテキストベクトル34の第1のセットおよび複数のターゲット量子化ベクトル28に基づいて生成された対照事前トレーニング出力を評価することができる。
【0037】
特に、一例では、マスクされた時間ステップ(位置)tに対応するコンテキストベクトルctについて、モデル14(補助的な事前トレーニング予測構成要素を含む)は、その真の量子化ベクトルqtを、K個の混乱要素のセット
【0038】
【0039】
から識別するように頼まれる。たとえば、混乱要素は、一般入力セット(たとえば、音声入力のための発声)の他のマスクされた位置から均一にサンプリングされた量子化ベクトルであってよい。損失のこの部分は、Lwと記すことができる。
【0040】
一例では、Lwは、
【0041】
【0042】
のようになり、上式で、
sim(a,b)=aTb/||a|| ||b||
は、コンテキストベクトルと量子化ベクトルとの間のコサイン類似度である。
【0043】
上述した損失Lwは、コードの均一使用を奨励するように、コードブック多様性損失Ldでさらに増補することができる。したがって、1つの例示的最終対照損失は、以下のように定義することができる。
Lc=Lw+α・Ld
【0044】
一例では、α=0.1である。ただし、他の値が使われてもよい。
【0045】
したがって、いくつかの実装形態では、1つまたは複数のマスクされた位置の各々について、対照事前トレーニング出力は、候補ベクトルのセットからの予測選択を含むことができ、予測選択は、マスクされた位置に対応する、コンテキストベクトル34の第1のセットのうちの1つに基づいて生成される。さらに、候補ベクトルのセットは、真のターゲット量子化ベクトル28および1つまたは複数の混乱ベクトルを含んでよく、対照損失項38は、予測選択が、真のターゲット量子化ベクトル28に対応するかどうかを評価することができる。
【0046】
対照損失38は、量子化器26と共に、第1および第2のエンコーダ部分16および18をトレーニングするのに使うことができ、そうすることによって、第1および第2のエンコーダ部分16、18は、第3のエンコーダ部分20によって入力としてとられる、妥当なコンテキストベクトル34を生じ、量子化器26は、第3のエンコーダ部分20によってターゲットとして使われる差別化可能離散化トークンを生じる。
【0047】
特に、マスクモデリング損失項40は、コンテキストベクトル36の第2のセットおよび複数の離散化識別子30に基づいて生成されたマスクモデリング事前トレーニング出力を評価することができる。
【0048】
特に、一例では、第3のエンコーダ部分20の上に、ソフトマックスレイヤが付加される。最終レイヤにおけるコンテキストベクトル36が、マスクされた位置に対応する場合、ソフトマックスレイヤは、コンテキストベクトル36を入力としてとり、それに対応するトークンID30を予測しようと試み、このIDは、量子化器26によって早期に割り当てられている。このマスクされた予測タスクについての例示的交差エントロピー損失は、Lmと記すことができる。
【0049】
したがって、いくつかの実装形態では、1つまたは複数のマスクされた位置の各々について、マスクモデリング事前トレーニング出力は、マスクされた位置に対応する、コンテキストベクトル36の第2のセットのうちの1つに基づいて生成された予測識別子を含み得る。マスクモデリング損失項40は、マスクされた位置に対応する、複数の離散化識別子30の真の離散化識別子に、予測識別子が対応するかどうかを評価することができる。
【0050】
機械学習モデル14は、対照損失項38とマスクモデリング損失項40の両方を含む損失関数に基づいて、エンドツーエンドにトレーニングすることができる。したがって、モデル14は、2つの自己教師ありタスクを同じときに解消するようにトレーニングされてよい。最小限にされるべき1つの例示的最終トレーニング損失は、以下のようになり得る。
Lp=β・Lc+γ・Lm
【0051】
いくつかの例では、βとγの両方が1に等しくセットされてよい。ただし、他の値が使われてもよい。
【0052】
例示的微調整手法
図2は、機械学習モデル200をトレーニングするのに使うことができる例示的微調整トレーニング手法のブロック図を示す。モデル200は、事前トレーニング済みエンコーダモデル14(たとえば、
図1に示すように事前トレーニングされている)を含み得る。たとえば、モデル14は、
図1に示すように、対照損失38とマスクモデリング損失40の両方を含む損失関数で事前トレーニングされているエンコーダ部分16、18、および20を含み得る。
【0053】
ここで
図2を参照すると、モデルは、デコーダ部分202も含み得る。
図2に示すトレーニング方式は、いくつかのトレーニング例にわたって動作することができる。
図2に示す1つのトレーニング例204は、タスク固有トレーニング入力206およびグランドトゥルース210(たとえば、ラベル)を含む。
【0054】
トレーニング例204は、任意の異なるタスク、ドメイン、および/またはデータモダリティに対する具体例であり得る。例示的データモダリティは、テキスト、オーディオ、イメージ、センサーデータ、および/または他の形のデータを含む。例示的タスクは、認識タスク、翻訳タスク、検出タスク、合成タスク、韻律分類、感情もしくは心情分類、および/または上に挙げたデータモダリティのいずれかにおいて実施することができる他の様々なタスクを含み得る。2つの特定の例示的タスクは、自動音声認識および音声変換を含む。
【0055】
事前トレーニング済みエンコーダ14は、入力206を処理して、コンテキスト表現を生成することができる。デコーダは、コンテキスト表現を処理して、タスク固有トレーニング出力208を生成することができる。
【0056】
目的関数212は、タスク固有トレーニング出力208をグランドトゥルース210と比較すればよい。モデル200は、目的関数212に基づいて(たとえば、デコーダ202および/または事前トレーニング済みエンコーダ14を通る目的関数の逆伝搬によって)トレーニングすることができる。
【0057】
例示的推論手法
図3は、機械学習モデル200をトレーニングした後で使うことができる例示的推論手法のブロック図を示す。特に、モデル200は、事前トレーニング済みエンコーダモデル14(たとえば、
図1に示すように事前トレーニングされ、
図2に示すように微調整されている)およびデコーダ部分202(たとえば、
図2に示すように微調整されている)を含み得る。
【0058】
ここで
図3を参照すると、
図3に示す推論方式は、いくつかの推論入力にわたって動作することができる。1つのタスク固有推論入力302が、
図3に示されている。推論入力302は、任意の異なるタスク、ドメイン、および/またはデータモダリティ向けの特定の入力であってよい。例示的データモダリティは、テキスト、オーディオ、イメージ、センサーデータ、および/または他の形のデータを含む。例示的タスクは、認識タスク、翻訳タスク、検出タスク、合成タスク、韻律分類、感情もしくは心情分類、および/または上に挙げたデータモダリティのいずれかにおいて実施することができる他の様々なタスクを含み得る。2つの特定の例示的タスクは、自動音声認識および音声変換を含む。
【0059】
事前トレーニング済みエンコーダ14は、推論入力302を処理して、コンテキスト表現を生成することができる。デコーダは、コンテキスト表現を処理して、タスク固有推論出力304を生成することができる。
【0060】
例示的デバイスおよびシステム
図4Aは、例示的コンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニング用コンピューティングシステム150を含む。
【0061】
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、ゲーム機もしくはコントローラ、装着可能コンピューティングデバイス、埋込み型コンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、どのタイプのコンピューティングデバイスであってもよい。
【0062】
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなどおよびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ114は、データ116と、ユーザコンピューティングデバイス102に動作を実施させるようにプロセッサ112によって実行される命令118とを記憶することができる。
【0063】
いくつかの実装形態では、ユーザコンピューティングデバイス102は、1つまたは複数の機械学習型モデル120を記憶するか、または含むことができる。たとえば、機械学習型モデル120は、ニューラルネットワーク(たとえば、深層ニューラルネットワーク)または非線形モデルおよび/もしくは線形モデルを含む他のタイプの機械学習型モデルなど、様々な機械学習型モデルであってよく、またはそうでなければ、それらの機械学習型モデルを含んでよい。ニューラルネットワークは、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク(たとえば、長短期メモリ回帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形のニューラルネットワークを含み得る。いくつかの例示的機械学習型モデルは、自己注意などの注意機構を活用することができる。たとえば、いくつかの例示的機械学習型モデルは、多頭自己注意モデル(たとえば、変圧器モデル)を含み得る。例示的機械学習型モデル120については、
図1~
図3を参照して論じる。
【0064】
いくつかの実装形態では、1つまたは複数の機械学習型モデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114内に記憶され、次いで、1つまたは複数のプロセッサ112によって使われ、またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングデバイス102は、単一の機械学習型モデル120の複数の並列インスタンスを(たとえば、入力の複数のインスタンスにわたる並列予測を実施するために)実装することができる。
【0065】
追加または代替として、1つまたは複数の機械学習型モデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれ、またはそうでなければ、サーバコンピューティングシステム130によって記憶され、実装され得る。たとえば、機械学習型モデル140は、ウェブサービスの一部分として、サーバコンピューティングシステム140によって実装され得る。したがって、1つまたは複数のモデル120が、ユーザコンピューティングデバイス102において記憶され、実装されてよく、かつ/または1つもしくは複数のモデル140が、サーバコンピューティングシステム130において記憶され、実装されてよい。
【0066】
ユーザコンピューティングデバイス102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122を含むこともできる。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感な、タッチ感応構成要素(たとえば、タッチ感応表示画面またはタッチパッド)であってよい。タッチ感応構成要素は、仮想キーボードを実装するのに役立つことができる。他の例示的なユーザ入力構成要素は、マイクロフォン、従来のキーボード、またはユーザがユーザ入力を提供することができる他の手段を含む。
【0067】
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなどおよびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実施させるようにプロセッサ132によって実行される命令138とを記憶することができる。
【0068】
いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装される。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、順次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
【0069】
上述したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習型モデル140を記憶することができ、またはそうでなければ、モデル140を含むことができる。たとえば、モデル140は、様々な機械学習型モデルであってよく、または、そうでなければそれらを含んでよい。例示的機械学習型モデルは、ニューラルネットワークまたは他のマルチレイヤ非線形モデルを含む。例示的ニューラルネットワークは、フィードフォワードニューラルネットワーク、深層ニューラルネットワーク、回帰型ニューラルネットワーク、および畳み込みニューラルネットワークを含む。いくつかの例示的機械学習型モデルは、自己注意などの注意機構を活用することができる。たとえば、いくつかの例示的機械学習型モデルは、多頭自己注意モデル(たとえば、変圧器モデル)を含み得る。例示的モデル140については、
図1~
図3を参照して論じる。
【0070】
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合されるトレーニング用コンピューティングシステム150との対話により、モデル120および/または140をトレーニングすることができる。トレーニング用コンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってよく、またはサーバコンピューティングシステム130の一部分であってよい。
【0071】
トレーニング用コンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなどおよびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ154は、データ156と、トレーニング用コンピューティングシステム150に動作を実施させるようにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態では、トレーニング用コンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、1つまたは複数のサーバコンピューティングデバイスによって実装される。
【0072】
トレーニング用コンピューティングシステム150は、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130において記憶された機械学習型モデル120および/または140を、たとえば、誤差逆伝搬など、様々なトレーニングまたは学習技法を使ってトレーニングするモデル訓練器160を含み得る。たとえば、損失関数は、(たとえば、損失関数の勾配に基づいて)モデルの1つまたは複数のパラメータを更新するために、モデルを通して逆伝搬され得る。平均2乗誤差、尤度損失、交差エントロピー損失、ヒンジ損失、および/または様々な他の損失関数など、様々な損失関数が使用され得る。勾配降下技法は、いくつかのトレーニング反復に対してパラメータを反復的に更新するために使用され得る。
【0073】
いくつかの実装形態では、誤差逆伝搬を実施することは、時間をかけて短縮逆伝搬を実施することを含み得る。モデル訓練器160は、トレーニングされるモデルの汎化能力を向上するために、いくつかの汎化技法(たとえば、重み減衰、ドロップアウトなど)を実施することができる。
【0074】
特に、モデル訓練器160は、トレーニングデータ162のセットに基づいて、機械学習型モデル120および/または140をトレーニングすることができる。いくつかの実装形態では、ユーザが同意を与えている場合、トレーニング例はユーザコンピューティングデバイス102によって与えられてよい。したがって、そのような実装形態では、ユーザコンピューティングデバイス102に提供されるモデル120は、ユーザコンピューティングデバイス102から受信されるユーザ固有データに対してトレーニング用コンピューティングシステム150によってトレーニングされ得る。いくつかの事例では、このプロセスは、モデルの個別化と呼ばれ得る。
【0075】
モデル訓練器160は、所望の機能性を提供するのに使用されるコンピュータ論理を含む。モデル訓練器160は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアで実装することができる。たとえば、いくつかの実装形態では、モデル訓練器160は、記憶デバイス上に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデル訓練器160は、RAM、ハードディスクまたは光学もしくは磁気媒体などの有形コンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。
【0076】
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、どのタイプの通信ネットワークであってもよく、任意の数のワイヤードまたはワイヤレスリンクを含み得る。概して、ネットワーク180を介した通信は、多種多様な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使って、どのタイプのワイヤードおよび/またはワイヤレス接続を介しても搬送することができる。
【0077】
本明細書に記載する機械学習型モデルは、様々なタスク、アプリケーション、および/または使用ケースにおいて使われてよい。
【0078】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、画像データであってよい。機械学習型モデルは、画像データを処理して、出力を生成し得る。例として、機械学習型モデルは、画像データを処理して、画像認識出力(たとえば、画像データの認識、画像データの潜在性埋込み、画像データの符号化表現、画像データのハッシュなど)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、画像セグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、画像分類出力を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、画像データ変更出力(たとえば、画像データの改変など)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、符号化画像データ出力(たとえば、画像データの符号化および/または圧縮された表現など)を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、アップスケールされた画像データ出力を生成し得る。別の例として、機械学習型モデルは、画像データを処理して、予測出力を生成し得る。
【0079】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、テキストまたは自然言語データであってよい。機械学習型モデルは、テキストまたは自然言語データを処理して、出力を生成し得る。例として、機械学習型モデルは、自然言語データを処理して、言語符号化出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、潜在性テキスト埋込み出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、変換出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、分類出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、テキストセグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、意味論的意図出力を生成し得る。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、アップスケールされたテキストまたは自然言語出力(たとえば、入力テキストまたは自然言語よりも高品質であるテキストまたは自然言語データ、など)を生成することができる。別の例として、機械学習型モデルは、テキストまたは自然言語データを処理して、予測出力を生成し得る。
【0080】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、音声データであってよい。機械学習型モデルは、音声データを処理して、出力を生成し得る。例として、機械学習型モデルは、音声データを処理して、音声認識出力を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、音声変換出力を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、潜在性埋込み出力を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、符号化音声出力(たとえば、音声データの符号化および/または圧縮された表現など)を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、アップスケーリングされた音声出力(たとえば、入力音声データよりも高品質の音声データなど)を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、テキスト表現出力(たとえば、入力音声データのテキスト表現など)を生成し得る。別の例として、機械学習型モデルは、音声データを処理して、予測出力を生成し得る。
【0081】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、潜在性符号化データ(たとえば、入力の潜在性空間表現など)であってよい。機械学習型モデルは、潜在性符号化データを処理して、出力を生成し得る。例として、機械学習型モデルは、潜在性符号化データを処理して、認識出力を生成し得る。別の例として、機械学習型モデルは、潜在性符号化データを処理して、再構築出力を生成し得る。別の例として、機械学習型モデルは、潜在性符号化データを処理して、探索出力を生成し得る。別の例として、機械学習型モデルは、潜在性符号化データを処理して、再クラスタ化出力を生成し得る。別の例として、機械学習型モデルは、潜在性符号化データを処理して、予測出力を生成し得る。
【0082】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、統計データであってよい。統計データは、何らかの他のデータソースから計算および/もしくは算出されたデータであるか、これを表すか、またはそうでなければこれを含むことができる。機械学習型モデルは、統計データを処理して、出力を生成し得る。例として、機械学習型モデルは、統計データを処理して、認識出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、予測出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、分類出力を生成し得る。別の例として、機械学習済みモデルは、統計データを処理して、セグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、視覚化出力を生成し得る。別の例として、機械学習型モデルは、統計データを処理して、診断出力を生成し得る。
【0083】
いくつかの実装形態では、本開示の機械学習型モデルへの入力は、センサーデータであってよい。機械学習型モデルは、センサーデータを処理して、出力を生成し得る。例として、機械学習型モデルは、センサーデータを処理して、認識出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、予測出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、分類出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、セグメンテーション出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、視覚化出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、診断出力を生成し得る。別の例として、機械学習型モデルは、センサーデータを処理して、検出出力を生成し得る。
【0084】
いくつかの場合には、機械学習型モデルは、信頼できる、および/または効率的な送信もしくは記憶(および/または対応する復号)のために入力データを符号化することを含むタスクを実施するように構成することができる。たとえば、タスクは、オーディオ圧縮タスクであってよい。入力はオーディオデータを含んでよく、出力は圧縮オーディオデータを含んでよい。別の例では、入力は視覚データ(たとえば、1つまたは複数の画像またはビデオ)を含み、出力は圧縮視覚データを含み、タスクは視覚データ圧縮タスクである。別の例では、タスクは、入力データ(たとえば、入力オーディオまたは視覚データ)用の埋込みを生成することを含んでよい。
【0085】
いくつかの場合には、入力は視覚データを含み、タスクはコンピュータビジョンタスクである。いくつかの場合には、入力は、1つまたは複数の画像用のピクセルデータを含み、タスクは画像処理タスクである。たとえば、画像処理タスクは画像分類であってよく、ここで、出力はスコアのセットであり、各スコアは、異なるオブジェクトクラスに対応し、オブジェクトクラスに属するオブジェクトを1つまたは複数の画像が示す見込みを表す。画像処理タスクはオブジェクト検出であってよく、ここで、画像処理出力は、1つまたは複数の画像の中の1つまたは複数の領域と、各領域について、対象のオブジェクトを領域が示す見込みとを識別する。別の例として、画像処理タスクは画像セグメンテーションであってよく、ここで、画像処理出力は、1つまたは複数の画像の中の各ピクセルについて、カテゴリの所定のセット中の各カテゴリについてのそれぞれの見込みを定義する。たとえば、カテゴリのセットは前景および背景であってよい。別の例として、カテゴリのセットはオブジェクトクラスであってよい。別の例として、画像処理タスクは深度推定であってよく、ここで、画像処理出力は、1つまたは複数の画像中の各ピクセルについて、それぞれの深度値を定義する。別の例として、画像処理タスクは動き推定であってよく、ここで、ネットワーク入力は複数の画像を含み、画像処理出力は、入力画像のうちの1つの、各ピクセルについて、ネットワーク入力における画像の間のピクセルにおいて示されるシーンの動きを定義する。
【0086】
いくつかの場合には、入力は、発話を表現するオーディオデータを含み、タスクは音声認識タスクである。出力は、発話にマップされるテキスト出力を含んでよい。いくつかの場合には、タスクは、入力データを暗号化または解読することを含む。いくつかの場合には、タスクは、分岐予測またはメモリアドレス変換などのマイクロプロセッサ実施タスクを含む。
【0087】
図4Aは、本開示を実装するのに使うことができる1つの例示的コンピューティングシステムを示す。他のコンピューティングシステムが使われてもよい。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデル訓練器160およびトレーニングデータセット162を含み得る。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニングされることと使われることの両方が可能である。そのような実装形態のうちのいくつかでは、ユーザコンピューティングデバイス102は、ユーザ固有データに基づいてモデル120を個別化するために、モデル訓練器160を実装することができる。
【0088】
図4Bは、本開示に記載する動作を実施させる例示的コンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。
【0089】
コンピューティングデバイス10は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、それ自体の機械学習ライブラリおよび機械学習型モデルを含む。たとえば、各アプリケーションは、機械学習型モデルを含み得る。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
【0090】
図4Bに示すように、各アプリケーションは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使って、各デバイス構成要素と通信することができる。いくつかの実装形態では、各アプリケーションによって使われるAPIは、そのアプリケーションに固有である。
【0091】
図4Cは、本開示に記載する動作を実施させる例示的コンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。
【0092】
コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、中央インテリジェンスレイヤと通信する。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使って、中央インテリジェンスレイヤ(およびその中に記憶されるモデル)と通信することができる。
【0093】
中央インテリジェンスレイヤは、いくつかの機械学習型モデルを含む。たとえば、
図4Cに示すように、それぞれの機械学習型モデルが、各アプリケーションに与えられ、中央インテリジェンスレイヤによって管理され得る。他の実装形態では、2つ以上のアプリケーションが、単一の機械学習型モデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンスレイヤは、アプリケーションすべてに単一モデルを提供することができる。いくつかの実装形態では、中央インテリジェンスレイヤは、コンピューティングデバイス50のオペレーティングシステムに含まれるか、またはそうでなければ、オペレーティングシステムによって実装される。
【0094】
中央インテリジェンスレイヤは、中央デバイスデータレイヤと通信することができる。中央デバイスデータレイヤは、コンピューティングデバイス50向けのデータの集中型リポジトリであってよい。
図4Cに示すように、中央デバイスデータレイヤは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、中央デバイスデータレイヤは、API(たとえば、プライベートAPI)を使って、各デバイス構成要素と通信することができる。
【0095】
追加の開示
本明細書で説明する技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに取られるアクション、およびそのようなシステムとの間で送られる情報を参照する。コンピュータベースのシステムの固有の柔軟性は、構成要素の間でのタスクおよび機能の多種多様な可能な構成、組合せ、および分割を可能にする。たとえば、本明細書で説明するプロセスは、単一のデバイスもしくは構成要素、または組合せにおいて働く複数のデバイスもしくは構成要素を使用して実装され得る。データベースおよびアプリケーションは、単一のシステム上で実装されるか、または複数のシステムにわたって分散され得る。分散構成要素は、順次または並行して動作することができる。
【0096】
本主題は、その様々な特定の例に関して詳細に説明されてきたが、各例は、本開示の限定ではなく、説明として与えられる。当業者は、上記を理解すると、そのような例の改変、変形、および均等物を容易に作り出すことができる。したがって、本開示は、当業者に容易に明らかになるように、本主題に対するそのような変更、変形、および/または追加の包含を排除しない。たとえば、ある例の一部として例示または説明する特徴は、またさらなる例を生じるために、別の例と共に使用され得る。したがって、本開示がそのような改変、変形、および均等物をカバーすることが意図されている。
【符号の説明】
【0097】
14 機械学習モデル、モデル、事前トレーニング済みエンコーダモデル、事前トレーニング済みエンコーダ
16 第1のエンコーダ部分、エンコーダ部分
18 第2のエンコーダ部分、エンコーダ部分
20 第3のエンコーダ部分、エンコーダ部分
22 入力データ
24 符号化特徴
26 量子化技法、量子化機構、量子化器
28 ターゲット量子化ベクトル、量子化ベクトル
30 離散化識別子、トークンID
32 マスキング
34 コンテキストベクトル
36 コンテキストベクトル
38 対照損失項
40 マスクモデリング損失項
100 コンピューティングシステム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ、コンピューティングデバイスメモリ
120 機械学習型モデル
122 ユーザ入力構成要素
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
140 機械学習型モデル
150 トレーニング用コンピューティングシステム
152 プロセッサ
154 メモリ
160 モデル訓練器
162 トレーニングデータ
180 ネットワーク
200 機械学習モデル、モデル
202 デコーダ部分、デコーダ
【手続補正書】
【提出日】2024-03-25
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
自己教師あり事前トレーニングを実施するためのコンピュータ実装方法であって、
1つまたは複数のコンピューティングデバイスを備えるコンピューティングシステムによって、一連の入力データを取得するステップと、
前記コンピューティングシステムによって、前記一連の入力データを、機械学習モデルの第1のエンコーダ部分を用いて処理して、複数の符号化特徴を生成するステップと、
前記コンピューティングシステムによって、前記複数の符号化特徴を量子化して、複数のターゲット量子化ベクトル、および前記複数のターゲット量子化ベクトルに関連付けられた複数の離散化識別子を生成するステップと、
前記コンピューティングシステムによって、前記複数の符号化特徴のうちの1つまたは複数をマスクするステップと、
前記マスクするステップの後、前記コンピューティングシステムによって、前記複数の符号化特徴を、前記機械学習モデルの第2のエンコーダ部分を用いて処理して、コンテキストベクトルの第1のセットを生成するステップと、
前記コンピューティングシステムによって、前記コンテキストベクトルの第1のセットを、前記機械学習モデルの第3のエンコーダ部分を用いて処理して、コンテキストベクトルの第2のセットを生成するステップと、
前記コンピューティングシステムによって、対照損失項およびマスクモデリング損失項を含む損失関数を評価するステップであって、前記対照損失項は、前記コンテキストベクトルの第1のセットおよび前記複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、前記マスクモデリング損失項は、前記コンテキストベクトルの第2のセットおよび前記複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価する、ステップと、
前記コンピューティングシステムによって、前記損失関数に基づいて前記機械学習モデルをトレーニングするステップとを含む、コンピュータ実装方法。
【請求項2】
1つまたは複数のマスクされた位置の各々について、
前記対照事前トレーニング出力は、候補ベクトルのセットからの予測選択を含み、前記予測選択は、前記マスクされた位置に対応する、前記コンテキストベクトルの第1のセットのうちの1つに基づいて生成され、
前記候補ベクトルのセットは、真のターゲット量子化ベクトルおよび1つまたは複数の混乱ベクトルを含み、
前記対照損失項は、前記予測選択が前記真のターゲット量子化ベクトルに対応するかどうかを評価する、請求項1に記載のコンピュータ実装方法。
【請求項3】
1つまたは複数のマスクされた位置の各々について、
前記マスクモデリング事前トレーニング出力は、前記マスクされた位置に対応する、前記コンテキストベクトルの第2のセットのうちの1つに基づいて生成された予測識別子を含み、
前記マスクモデリング損失項は、前記予測識別子が、前記マスクされた位置に対応する、前記複数の離散化識別子のうちの真の離散化識別子に対応するかどうかを評価する、請求項1または2に記載のコンピュータ実装方法。
【請求項4】
前記機械学習モデルの前記第2のエンコーダ部分および/または前記第3のエンコーダ部分は、1つまたは複数のコンフォーマブロックを含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
【請求項5】
前記機械学習モデルの前記第3のエンコーダ部分は1つまたは複数のコンフォーマブロックを含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記コンピューティングシステムによって、前記損失関数に基づいて前記機械学習モデルをトレーニングするステップは、
前記コンピューティングシステムによって、前記機械学習モデルの前記第3のエンコーダ部分、前記第2のエンコーダ部分、および前記第1のエンコーダ部分の1つまたは複数のパラメータの1つまたは複数の値を、前記マスクモデリング損失項に基づいて修正するステップと、
前記コンピューティングシステムによって、前記機械学習モデルの前記第2のエンコーダ部分および前記第1のエンコーダ部分の1つまたは複数のパラメータの1つまたは複数の値を、前記マスクモデリング損失項と前記対照損失項の組合せに基づいて修正するステップとを含む、請求項1から5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
前記コンピューティングシステムによって、前記損失関数に基づいて前記量子化を実施するのに使われるコードブックを修正するステップをさらに含む、請求項1から6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
前記一連の入力データは、オーディオデータまたは前記オーディオデータの分光表現を含む、請求項1から7のいずれか一項に記載のコンピュータ実装方法。
【請求項9】
前記オーディオデータは音声データを含む、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記一連の入力データはテキストデータを含む、請求項1から9のいずれか一項に記載のコンピュータ実装方法。
【請求項11】
前記一連の入力データはセンサーデータまたは画像データを含む、請求項1から10のいずれか一項に記載のコンピュータ実装方法。
【請求項12】
命令をまとめて記憶する1つまたは複数
のコンピュータ可読
記憶媒体であって、前記命令は、コンピューティングシステムの1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させ、前記動作は、
タスク固有トレーニング入力を取得することと、
機械学習モデルを用いて前記タスク固有トレーニング入力を処理して、タスク固有トレーニング出力を生成することであって、前記機械学習モデルの少なくともエンコーダ部分は、対照損失項およびマスクモデリング損失項を含む損失関数を使ってトレーニングされており、前記対照損失項は、コンテキストベクトルの第1のセットおよび複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、前記コンテキストベクトルの第1のセットは、前記機械学習モデルの前記エンコーダ部分の入力または中間出力のマスキングの後、前記機械学習モデルの前記エンコーダ部分によって生成され、前記複数のターゲット量子化ベクトルは、前記機械学習モデルの前記エンコーダ部分の前記入力または中間出力の量子化によって生成され、前記マスクモデリング損失項は、コンテキストベクトルの第2のセットおよび複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価し、前記コンテキストベクトルの第2のセットは、前記機械学習モデルの前記エンコーダ部分によって、前記コンテキストベクトルの第1のセットから生成され、前記複数の離散化識別子は、前記機械学習モデルの前記エンコーダ部分の前記入力または中間出力の量子化によって生成される、生成することと、
前記タスク固有トレーニング出力に基づいて、タスク固有損失関数を評価することと、
前記タスク固有損失関数に基づいて前記機械学習モデルをトレーニングすることとを含む、1つまたは複数
のコンピュータ可読
記憶媒体。
【請求項13】
1つまたは複数のマスクされた位置の各々について、
前記対照事前トレーニング出力は、候補ベクトルのセットからの予測選択を含み、前記予測選択は、前記マスクされた位置に対応する、前記コンテキストベクトルの第1のセットのうちの1つに基づいて生成され、
前記候補ベクトルのセットは、真のターゲット量子化ベクトルおよび1つまたは複数の混乱ベクトルを含み、
前記対照損失項は、前記予測選択が前記真のターゲット量子化ベクトルに対応するかどうかを評価する、請求項12に記載の1つまたは複数
のコンピュータ可読
記憶媒体。
【請求項14】
1つまたは複数のマスクされた位置の各々について、
前記マスクモデリング事前トレーニング出力は、前記マスクされた位置に対応する、前記コンテキストベクトルの第2のセットのうちの1つに基づいて生成された予測識別子を含み、
前記マスクモデリング損失項は、前記予測識別子が、前記マスクされた位置に対応する、前記複数の離散化識別子のうちの真の離散化識別子に対応するかどうかを評価する、請求項12または13に記載の1つまたは複数
のコンピュータ可読
記憶媒体。
【請求項15】
前記機械学習モデルの前記エンコーダ部分は1つまたは複数のコンフォーマブロックを含む、請求項12、13、または14に記載の1つまたは複数
のコンピュータ可読
記憶媒体。
【請求項16】
前記機械学習モデルは、前記エンコーダ部分の出力を処理して、前記タスク固有トレーニング出力を生成するように構成されたデコーダ部分を含む、請求項12から15のいずれか一項に記載の1つまたは複数
のコンピュータ可読
記憶媒体。
【請求項17】
前記タスク固有トレーニング入力は音声データを含み、
前記タスク固有トレーニング出力は、前記音声データまたは前記音声データについての音声認識の翻訳を含む、請求項12から16のいずれか一項に記載の1つまたは複数
のコンピュータ可読
記憶媒体。
【請求項18】
1つまたは複数のプロセッサと、
命令をまとめて記憶する1つまたは複数
のコンピュータ可読
記憶媒体とを備えるコンピューティングシステムであって、前記命令が、コンピューティングシステムの前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させ、前記動作は、
タスク固有推論入力を取得することと、
機械学習型モデルを用いて前記タスク固有推論入力を処理して、タスク固有推論出力を生成することであって、前記機械学習型モデルの少なくともエンコーダ部分は、対照損失項およびマスクモデリング損失項を含む損失関数を使ってトレーニングされており、前記対照損失項は、コンテキストベクトルの第1のセットおよび複数のターゲット量子化ベクトルに基づいて生成された対照事前トレーニング出力を評価し、前記コンテキストベクトルの第1のセットは、前記機械学習型モデルの前記エンコーダ部分の入力または中間出力のマスキングの後、前記機械学習型モデルの前記エンコーダ部分によって生成され、前記複数のターゲット量子化ベクトルは、前記機械学習型モデルの前記エンコーダ部分の前記入力または中間出力の量子化によって生成され、前記マスクモデリング損失項は、コンテキストベクトルの第2のセットおよび複数の離散化識別子に基づいて生成されたマスクモデリング事前トレーニング出力を評価し、前記コンテキストベクトルの第2のセットは、前記機械学習型モデルの前記エンコーダ部分によって前記コンテキストベクトルの第1のセットから生成され、前記複数の離散化識別子は、前記機械学習型モデルの前記エンコーダ部分の前記入力または中間出力の量子化によって生成される、生成することと、
前記タスク固有推論出力を出力として提供することとを含む、コンピューティングシステム。
【請求項19】
1つまたは複数のマスクされた位置の各々について、
前記対照事前トレーニング出力は、候補ベクトルのセットからの予測選択を含み、前記予測選択は、前記マスクされた位置に対応する、前記コンテキストベクトルの第1のセットのうちの1つに基づいて生成され、
前記候補ベクトル
のセットは、真のターゲット量子化ベクトルおよび1つまたは複数の混乱ベクトルを含み、
前記対照損失項は、前記予測選択が前記真のターゲット量子化ベクトルに対応するかどうかを評価する、請求項18に記載のコンピューティングシステム。
【請求項20】
1つまたは複数のマスクされた位置の各々について、
前記マスクモデリング事前トレーニング出力は、前記マスクされた位置に対応する、前記コンテキストベクトルの第2のセットのうちの1つに基づいて生成された予測識別子を含み、
前記マスクモデリング損失項は、前記予測識別子が、前記マスクされた位置に対応する、前記複数の離散化識別子のうちの真の離散化識別子に対応するかどうかを評価する、請求項18または19に記載のコンピューティングシステム。
【請求項21】
前記機械学習型モデルの前記エンコーダ部分は1つまたは複数のコンフォーマブロックを含む、請求項18から20のいずれか一項に記載のコンピューティングシステム。
【請求項22】
前記機械学習型モデルは、前記エンコーダ部分の出力を処理して、前記タスク固有推論出力を生成するように構成されたデコーダ部分を含む、請求項18から21のいずれか一項に記載のコンピューティングシステム。
【請求項23】
前記タスク固有推論入力は音声データを含み、
前記タスク固有推論出力は、前記音声データまたは前記音声データに対する音声認識の翻訳を含む、請求項18から22のいずれか一項に記載のコンピューティングシステム。
【国際調査報告】