(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-15
(54)【発明の名称】自然言語処理における言語間転移のためのシステムおよび方法
(51)【国際特許分類】
G06F 40/44 20200101AFI20241108BHJP
【FI】
G06F40/44
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024527807
(86)(22)【出願日】2022-11-14
(85)【翻訳文提出日】2024-05-13
(86)【国際出願番号】 US2022079792
(87)【国際公開番号】W WO2023086981
(87)【国際公開日】2023-05-19
(32)【優先日】2021-11-15
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-01-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】506332063
【氏名又は名称】セールスフォース インコーポレイテッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】ニウ,トン
(72)【発明者】
【氏名】橋本 和真
(72)【発明者】
【氏名】ヂォゥ,インボー
(72)【発明者】
【氏名】シィオン,カイミン
(57)【要約】
本明細書に記載される実施形態は、リッチリソース言語ペアに対してのみトレーニングされる言語間文アラインメントフレームワークを提供する。正確なアライナを得るために、事前トレーニング済み多言語モデルが使用され、分類器が、リッチリソース言語ペアからの並列データに対してトレーニングされる。次いで、このトレーニングされた分類器が、低リソース言語との言語間転移に使用され得る。
【特許請求の範囲】
【請求項1】
言語間文アラインメントの方法であって、
通信インターフェースを介して、ソース言語の第1の文と、前記第1の文の翻訳されたバージョンであるターゲット言語の第2の文とを少なくとも含むトレーニングデータセットを受信するステップと、
前記第1の文および前記第2の文を含むポジティブな入力ペアと、各々が前記第1の文および前記ターゲット言語のそれぞれの不一致文を含む複数のネガティブな入力ペアとを形成するステップと、
事前トレーニング済み多言語モデルを介して、各ポジティブな入力ペアまたはネガティブな入力ペア内の2つの文の間のペアワイズトークンレベル類似度を計算するステップと、
前記ポジティブな入力ペアおよび前記複数のネガティブな入力ペアに関連付けられた計算されたペアワイズトークンレベル類似度に基づいて損失目標を計算するステップと、
前記損失目標に基づいて前記事前トレーニング済み多言語モデルを更新するステップと、
前記更新された事前トレーニング済み多言語モデルを使用して、前記ソース言語と前記ターゲット言語とは異なる別の言語との間でアラインメントタスクを実行するステップと
を含む方法。
【請求項2】
コンテキスト埋め込みエンコーダを介して、前記2つの文の第1のコンテキスト埋め込みおよび第2のコンテキスト埋め込みをそれぞれの前記ポジティブな入力ペアまたはネガティブな入力ペア内に生成するステップ
をさらに含む、請求項1に記載の方法。
【請求項3】
前記2つの文の間の前記ペアワイズトークンレベル類似度は、
前記第1のコンテキスト埋め込み内のすべてのベクトルと前記第2のコンテキスト埋め込み内の第1のベクトルとの間のペアワイズコサイン類似度の第1のセットを計算するステップと、
前記ペアワイズコサイン類似度の第1のセットの中の第1の最大類似度を決定するステップと、
前記第1の最大類似度に基づいて第1のスコアを決定するステップと
によって計算される、請求項2に記載の方法。
【請求項4】
前記第2のコンテキスト埋め込み内のすべてのベクトルと前記第1のコンテキスト埋め込み内の第2のベクトルとの間のペアワイズコサイン類似度の第2のセットを計算するステップと、
前記ペアワイズコサイン類似度の第2のセットの中の第2の最大類似度を決定するステップと、
前記第2の最大類似度に基づいて第2のスコアを決定するステップと
をさらに含む、請求項3に記載の方法。
【請求項5】
前記第1のスコアおよび前記第2のスコアに基づいて類似度スコアを計算するステップ
をさらに含む、請求項4に記載の方法。
【請求項6】
前記ソース言語の各文と前記ターゲット言語のすべての文との間、および前記ターゲット言語の各文と前記ソース言語のすべての文との間の類似度スコアのスケーリングされた平均を前記計算された類似度スコアから減算することによって、前記計算された類似度スコアを正規化するステップ
をさらに含む、請求項5に記載の方法。
【請求項7】
前記損失目標は、前記事前トレーニング済み多言語モデルからの出力ロジットとして、各ポジティブな入力ペアまたはネガティブな入力ペアについての前記計算されたペアワイズトークンレベル類似度を使用して、対比損失として計算される、請求項1に記載の方法。
【請求項8】
前記ソース言語および前記ターゲット言語は、リッチソース言語のグループに属する、請求項1に記載の方法。
【請求項9】
前記別の言語は、希少ソース言語であり、前記事前トレーニング済み多言語モデルは、前記希少ソース言語のいかなる言語サンプルに対してもトレーニングされない、請求項1に記載の方法。
【請求項10】
前記ソース言語も前記ターゲット言語も英語ではない、請求項1に記載の方法。
【請求項11】
言語間文アラインメントのシステムであって、
ソース言語の第1の文と、前記第1の文の翻訳されたバージョンであるターゲット言語の第2の文とを少なくとも含むトレーニングデータセットを受信する通信インターフェースと、
事前トレーニング済み多言語モデルおよび複数のプロセッサ実行可能命令を記憶するメモリと、
動作を実行するために前記複数のプロセッサ実行可能命令を実行するプロセッサと
を備え、前記動作は、
前記第1の文および前記第2の文を含むポジティブな入力ペアと、各々が前記第1の文および前記ターゲット言語のそれぞれの不一致文を含む複数のネガティブな入力ペアとを形成することと、
前記事前トレーニング済み多言語モデルを介して、各ポジティブな入力ペアまたはネガティブな入力ペア内の2つの文の間のペアワイズトークンレベル類似度を計算することと、
前記ポジティブな入力ペアおよび前記複数のネガティブな入力ペアに関連付けられた計算されたペアワイズトークンレベル類似度に基づいて損失目標を計算することと、
前記損失目標に基づいて前記事前トレーニング済み多言語モデルを更新することと、
前記更新された事前トレーニング済み多言語モデルを使用して、前記ソース言語と前記ターゲット言語とは異なる別の言語との間でアラインメントタスクを実行することと、
を含む、システム。
【請求項12】
前記動作は、
コンテキスト埋め込みエンコーダを介して、前記2つの文の第1のコンテキスト埋め込みおよび第2のコンテキスト埋め込みをそれぞれの前記ポジティブな入力ペアまたはネガティブな入力ペア内に生成すること
をさらに含む、請求項11に記載のシステム。
【請求項13】
前記2つの文の間の前記ペアワイズトークンレベル類似度は、
前記第1のコンテキスト埋め込み内のすべてのベクトルと前記第2のコンテキスト埋め込み内の第1のベクトルとの間のペアワイズコサイン類似度の第1のセットを計算することと、
前記ペアワイズコサイン類似度の第1のセットの中の第1の最大類似度を決定することと、
前記第1の最大類似度に基づいて第1のスコアを決定することと、
前記第2のコンテキスト埋め込み内のすべてのベクトルと前記第1のコンテキスト埋め込み内の第2のベクトルとの間のペアワイズコサイン類似度の第2のセットを計算することと、
前記ペアワイズコサイン類似度の第2のセットの中の第2の最大類似度を決定することと、
前記第2の最大類似度に基づいて第2のスコアを決定することと、
前記第1のスコアおよび前記第2のスコアに基づいて類似度スコアを計算することと、
前記ソース言語の各文と前記ターゲット言語のすべての文との間、および前記ターゲット言語の各文と前記ソース言語のすべての文との間の類似度スコアのスケーリングされた平均を前記計算された類似度スコアから減算することによって、前記計算された類似度スコアを正規化することと
によって計算される、請求項12に記載のシステム。
【請求項14】
前記損失目標は、前記事前トレーニング済み多言語モデルからの出力ロジットとして、各ポジティブな入力ペアまたはネガティブな入力ペアについての前記計算されたペアワイズトークンレベル類似度を使用して、対比損失として計算される、請求項11に記載のシステム。
【請求項15】
言語間文アラインメントのための複数のプロセッサ実行可能命令を記憶する非一時的プロセッサ可読記憶媒体であって、前記命令は、
通信インターフェースを介して、ソース言語の第1の文と、前記第1の文の翻訳されたバージョンであるターゲット言語の第2の文とを少なくとも含むトレーニングデータセットを受信することと、
前記第1の文および前記第2の文を含むポジティブな入力ペアと、各々が前記第1の文および前記ターゲット言語のそれぞれの不一致文を含む複数のネガティブな入力ペアとを形成することと、
事前トレーニング済み多言語モデルを介して、各ポジティブな入力ペアまたはネガティブな入力ペア内の2つの文の間のペアワイズトークンレベル類似度を計算することと、
前記ポジティブな入力ペアおよび前記複数のネガティブな入力ペアに関連付けられた計算されたペアワイズトークンレベル類似度に基づいて損失目標を計算することと、
前記損失目標に基づいて前記事前トレーニング済み多言語モデルを更新することと、
前記更新された事前トレーニング済み多言語モデルを使用して、前記ソース言語と前記ターゲット言語とは異なる別の言語との間でアラインメントタスクを実行することと、
を含む動作を実行するためにプロセッサによって実行される、非一時的プロセッサ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[相互参照]
本出願は、2021年11月15日に出願された米国仮特許出願第63/279,476号の米国特許法に基づく優先権を主張する、2022年1月21日に出願された米国非仮特許出願第17/581,380号の優先権を主張するものであり、これらは、その全体が参照により本明細書に明示的に組み込まれる。
【0002】
[技術分野]
本開示は、一般に、自然言語処理(NLP)のための機械学習モデルおよびニューラルネットワークに関し、より具体的には、NLPにおける低リソース文取り出しのための1つのリッチリソース言語ペアによるゼロショット言語間転移に関する。
【背景技術】
【0003】
言語間文アラインメント(cross-lingual sentence alignment)は、ソース言語の原文をターゲット言語の翻訳文にアラインすることを指す。例えば、ソース言語およびターゲット言語の文法規則が異なるため、原文の単語と翻訳文の単語は順序が異なる場合があり、したがって、異なる言語で同じ意味を有する単語をアラインする必要がある。言語間文アラインメントは、(1)機械翻訳システムのための並列コーパスをマイニングすること、(2)既存の並列コーパスをフィルタリングしてそれらの品質を高めること、(3)例えば、すでに生成された翻訳を評価するためのシナリオまたは潜在的な候補の中から決定するためのシナリオにおいて翻訳品質を推定すること(Quality Estimationタスク)を含む、様々なアプリケーションにおいて使用され得る。しかしながら、言語間文アラインメントモデルをトレーニングするために、異なる言語ソースのトレーニングデータは、極めて異なる可能性がある。例えば、英語、スペイン語、フランス語などの一般的な言語では、より豊富なトレーニングデータセットがあることが多いが、モンゴル語、マレー語などのあまり一般的でない言語では、リソースは不足している。
【図面の簡単な説明】
【0004】
【
図1】本明細書に記載される1つまたは複数の実施形態による、アラインメントモデルのためのトレーニングフレームワークを示す簡略化されたブロック図である。
【
図2】本明細書に記載される1つまたは複数の実施形態による、
図1のモジュール106に示されたBERTスコア計算の態様を示す簡略化されたブロック図である。
【
図3】本明細書に記載される一実施形態による、言語間文アラインメントのためのアライナモデルをトレーニングする方法を示す簡略化された論理フロー図である。
【
図4】いくつかの実施形態による、言語間文アラインメントを実装するためのコンピューティングデバイスの簡略化された図である。
【
図5】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【
図6】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【
図7】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【
図8】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【
図9】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【
図10】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【
図11】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【
図12】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【
図13】本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【0005】
図および付録において、同じ名称を有する要素は、同じまたは同様の機能を有する。
【発明を実施するための形態】
【0006】
本明細書で使用される場合、「ネットワーク」という用語は、任意の人工知能ネットワークもしくはシステム、ニューラルネットワークもしくはシステム、および/またはその上にもしくはそれとともに実装される任意のトレーニングもしくは学習モデルを含む、任意のハードウェアまたはソフトウェアベースのフレームワークを含み得る。
【0007】
本明細書で使用される場合、「モジュール」という用語は、1つまたは複数の機能を実行するハードウェアまたはソフトウェアベースのフレームワークを含み得る。いくつかの実施形態では、モジュールは、1つまたは複数のニューラルネットワーク上に実装され得る。
【0008】
本明細書で使用される場合、「リッチソース」または「低リソース」という用語は、利用可能なデータのサイズを指す。例えば、言語ペアの並列データサイズが特定のしきい値(例えば、2万、3万など)を超える場合、そのような言語ペアはリッチソースとみなされる。同様に、言語ペアの並列データサイズが特定のしきい値(例えば、1万(10K)、2万(20K)など)よりも小さい場合、そのような言語ペアは低ソースとみなされる。
【0009】
言語間文アラインメントは、機械翻訳関連のタスクにおいて重要な側面を提供する。既存のシステムには、2つの主な作業の流れが含まれている。一方は完全に教師なしであり、他方は、多くの言語ペアにまたがるデータを用いた教師ありである。教師なし手法は、いかなる並列データも収集しないという利点があるが、複数の低リソース言語ペアを含む36個の言語ペアで評価されるTatoeba(Artetxe et al., Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond, Transactions of the Association for Computational Linguistics, 7:597-610, 2019)などのベンチマークデータセットでは比較的低い精度しか達成することができない。その一方で、教師あり手法は、大量の低リソース言語ペアへのデータアクセスを前提としており、これは、その定義からして、取得することもその品質を保証することも困難である。教師なし手法と教師あり手法との間のこのオール・オア・ナッシングのデータ選択は、ゼロショット言語間転移がそのようなタスクに対して有効かどうかに関して大きなギャップを残す。したがって、言語間の並列データ収集のための努力を効率的に分散させることは依然として困難である。
【0010】
言語間文アラインメントの効率および精度を向上させる必要性に鑑みて、本明細書に記載される実施形態は、(1つの言語ペアが機能する限り)リソースが極めて豊富なリッチリソース言語ペアに対してのみトレーニングされる言語間文アラインメントフレームワークを提供する。正確なアライナを得るために、事前トレーニング済み多言語モデルが、リッチリソース言語ペアからの並列データに対してトレーニングされるべき分類器として使用される。次いで、このトレーニングされた分類器は、低リソース言語との言語間転移のために使用され得る。
【0011】
例えば、XLM-RoBERTa(XLM-R)ネットワーク(Conneau et al., Unsupervised cross-lingual representation learning at scale, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440-8451, Association for Computational Linguistics, 2020に記載)が、アラインメントタスクのための事前トレーニング済み多言語モデルとして採用され得る。BERTスコアの教師ありバージョンは、文と文との間の意味類似性として計算され得、正規化層は、例えば、ソース言語のいくつかの文がターゲット言語の任意の文で高いスコアをもたらす傾向がある場合に、一般的な文の効果(popular sentence effect)を打ち消すために、XLM-Rのアーキテクチャに組み込まれる。このようにして、任意の単一のリッチリソース言語ペアに対してトレーニングされるとき、このモデルは、同じデータバジェットの下ですべての言語ペアに対してトレーニングされたモデルの性能と(例えば、精度の差は2.0以内で)一致する。
【0012】
一実施形態では、リッチリソースのみという制約を順守しながら、トレーニングに1つの言語ペアを使用することとすべてのペアを使用することとの間の狭い差をさらに縮めるために、言語ペアの数は、上位k個のリッチリソース言語ペアでスケールアップされる。このアップグレードにより、モデルの精度がさらに向上し、同じデータバジェットの下ですべての言語ペアに対してトレーニングする場合と比較してわずかに0.4足りない(shy)だけである。
【0013】
一実施形態では、モデルは、英語中心ではない言語ペア、例えば、言語ペアのいずれの文も英語ではない言語ペアでトレーニングされる。英語をアンカー言語としない場合でも、モデルのトレーニング性能はほとんど影響を受けない。モデルは、並列データの量が特定のしきい値を超える限り、同様の性能を発揮する。
【0014】
図1は、本明細書に記載される1つまたは複数の実施形態による、アラインメントモデルのためのトレーニングフレームワークを示す簡略化されたブロック図である。
図1は、ソース言語の文の第1のバッチ102、例えばS={S
1,S
2,…,S
M}と、ターゲット言語の文の第2のバッチ104、例えばT={T
1,T
2,…,T
N}とが、アラインメントのためにアラインメントモデル110に入力されることを示す。
【0015】
具体的には、アラインメントモデル110は、バッチ102および104中の各文が一致するかどうか、例えば、すべてのi=1,…,Mおよびj=1,…,Nについて、Si 102aがTj 104aとアラインされているかどうかを決定し得る。アラインメントモデル110は、XLM-Rの上に、100個の言語をカバーする単一言語CC-100データセットに対して事前トレーニングされたTransformerベースのモデルを構築し得る。
【0016】
アラインメントモデル110は、埋め込みモデル105、BERTスコア計算モジュールf()106、および正規化層118を含み得る。2つの入力文Si 102aおよびTj 104aが与えられると、コンテキスト埋め込みモデル105は、ソース文およびターゲット文中のトークンをそれぞれ2つのベクトル表現に符号化する。具体的には、埋め込みモデル105は、BERT(Devlin et al., BERT: Pre-training of deep bidirectional transformers for language under-standing, in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171-4186, 201)またはELMo(Peters et al., Deep contextualized word representations, in proceedings of NAACL-HLT, 2018)を採用し得、これは、ターゲット単語のコンテキストを形成する周囲の単語に応じて、異なる文中の同じ単語に対して異なるベクトル表現を生成する。例えば、埋め込みモデル105は、入力テキストを一連の単語片にトークン化するBERTエンコーダを採用し得、未知の単語は、よく観察されるいくつかの文字列に分割される。各単語片の表現は、自己注意変換および非線形変換を交互に繰り返し適用することによって、Transformerエンコーダを用いて計算される。
【0017】
次に、
図2にさらに示すように、BERTスコア計算モジュール106が、埋め込みモデル105からのコンテキスト埋め込み表現間のコサイン類似度を使用して、入力文102aおよび104aのBERTスコアを計算し、任意選択で、逆文頻度スコアで重み付けされる。
【0018】
図2は、本明細書に記載される1つまたは複数の実施形態による、
図1のモジュール106に示されたBERTスコア計算の態様を示す簡略化されたブロック図である。例えば、入力文S
i 102aが与えられると、ベクトルのシーケンスs=<s
1,s
2,…,sk>は、入力文S
i 102aのコンテキスト埋め込み105aを示す。同様に、ベクトルのシーケンスt=<t
1,t
2,…,t
l>は、入力文T
j 102bのコンテキスト埋め込み105bを示す。
【0019】
最初に、コンテキスト埋め込みt=<t
1,t
2,…,t
l>内のベクトルに一致するようにコンテキスト埋め込みs=<s
1,s
2,…,s
k>内の各ベクトルをマッチングすることによって、リコールスコアが計算される。具体的には、<s
1,s
2,…,s
k>内の各ベクトルとコンテキスト埋め込み<t
1,t
2,…,t
l>内のベクトルとの間のペアワイズコサイン類似度205aを計算し、最大類似度208aをとる:
【数1】
【0020】
同様に、コンテキスト埋め込みs=<s
1,s
2,…,s
k>内のベクトルに一致するようにコンテキスト埋め込みt=<t
1,t
2,…,t
l>内の各ベクトルをマッチングすることによって、精度スコアが計算される。具体的には、<t
1,t
2,…,t
l>内の各ベクトルとコンテキスト埋め込み<s
1,s
2,…,s
k>内のベクトルとの間のペアワイズコサイン類似度205bを計算し、最大類似度208aをとる:
【数2】
【0021】
次いで、BERTスコアを次のように計算する:
【数3】
【0022】
したがって、BERTスコアは、完全なクロスアテンションよりもはるかに高速でありながら、浅いクロスアテンション層として機能する。結果として得られるモデルもまた、2つの文の順序に依存しない。
【0023】
図1に参照を戻すと、入力文102aおよび104aの計算されたBERTスコアが正規化層118に供給される。バイテキストアラインメントでは、一方の言語のいくつかの文が、他方の言語の任意の文と高い類似度スコアを有する傾向があることがよく観察される。この現象は、ランキングを不正確なものにする。この偏りを相殺するために、一方の言語の各文と他方の言語のすべての文との間の類似度スコアのスケーリングされた平均がBERTスコアから減算される。言い換えると、ソース文S
i 102aとターゲット文T
j 104aとの間の正規化された類似度115は、以下のように計算される:
【数4】
ここで、f()は、意味類似性を計算する関数を表す。この正規化ステップは、推論中のポストホック操作としてのみ機能するのではなく、モデルアーキテクチャに組み込まれることに留意されたい。実際には、文の数MおよびNは、推論中にかなり大きくなり、正規化ステップを遅くする可能性があり、言うまでもなく、評価データがオフライン方式で供給されることは保証されない。したがって、MおよびNが推論中にバッチサイズのみに依存するように、各類似度スコアに対してバッチ内正規化が実行される。
【0024】
推論段階では、2つの文Si、Tjがアラインされているかどうかの決定が、例えば、しきい値処理(thresholding operation)によって行われ得る。例えば、Similiary(i,j)が予め定義されたしきい値よりも大きい場合、ソース文Siとターゲット文Tjとは一致と考えられる。
【0025】
トレーニング中、ポジティブな並列データのみを用いてアライナモデル110をトレーニングすることに対する課題は、慎重に設計されたネガティブな例がないことである。この課題に対処するために、対比学習手法を採用することができ、アライナモデル110は、バッチ内ネガティブを有する分類タスクに対してトレーニングされる。例えば、ソース言語の文のバッチS={S1,S2,…,SN}、およびターゲット言語の文のバッチT={T1,T2,…,TN}について、Siが各iについてTiとアラインされている場合、SとTとの間のペアワイズ意味類似性が計算されて、ポジティブなアラインメントについてN個の類似度が取得され、ネガティブなアラインメントについてN2-N個の類似度が取得される(合計でN2個の類似度が計算される)。トレーニング中、これらの類似度スコアはロジットとして使用され、各ポジティブなロジットをすべてのネガティブなロジットとペアにする。次に、これらのロジットを使用して対比損失120を計算し、次にこれを使用して、逆伝搬経路125を介してアライナモデル110を更新する。
【0026】
図3は、本明細書に記載される一実施形態による、言語間文アラインメントのためのアライナモデルをトレーニングする方法を示す簡略化された論理フロー図である。方法300のプロセス302~312のうちの1つまたは複数は、少なくとも部分的に、1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサに、プロセス302~312のうちの1つまたは複数を実行させ得る、非一時的有形機械可読媒体に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態では、方法300は、モジュール430によって使用される方法に対応し得る。
【0027】
ステップ302において、トレーニングデータセットが受信される。トレーニングデータセットは、少なくとも、ソース言語の第1の文(例えば、
図1の文102a)と、第1の文の翻訳されたバージョンであるターゲット言語の第2の文(例えば、
図1の文104a)とを含む。例えば、ソース言語およびターゲット言語は、英語-スペイン語、英語-フランス語などのリッチソース言語のグループに属する。
【0028】
一実施形態では、トレーニングデータセットは、(1)OPUS-100などの英語中心のデータセット、(2)非英語中心の言語データセット、例えば、v2021-08-07 Tatoeba Challengeであり得る。OPUS-100は英語中心であり、すべてのトレーニングペアがソース側またはターゲット側のいずれかに英語を含むことを意味する。コーパスは、100個の言語(英語を含む)をカバーする。トレーニングのための言語は、OPUSで利用可能な並列データの量に基づいて選択される。OPUSコレクションは、映画の字幕からGNOMEドキュメンテーション、聖書に至るまでの複数のコーパスから構成される。OPUS-100には、約5500万個の文のペアが含まれている。例えば、アライナモデルをトレーニングするために99個の言語ペアが選択され、そのうちの44個がトレーニングデータの100万個(1M)の文のペアから選択され、73個が少なくとも10万個(100k)から選択され、95個が少なくとも1万個(10k)から選択される。OPUS-100の選択に続いて、New-Tatoebaにおける各言語ペアについてのトレーニングデータは、OPUSでトレーニングされたモデルとの比較をより容易にするために100万(1M)を上限としている。
【0029】
ステップ304において、第1の文および第2の文を含むポジティブな入力ペアと、複数のネガティブな入力ペアとが形成される。各ネガティブなペアは、第1の文と、ターゲット言語のそれぞれの不一致文とを含む。例えば、ソース言語の文のバッチS={S1,S2,…,SN}、およびターゲット言語の文のバッチT={T1,T2,…,TN}について、Siが各iについてTiとアラインされている場合、SとTとの間のペアワイズ意味類似性が計算されて、ポジティブなアラインメントについてN個の類似度が取得され、ネガティブなアラインメントについてN2-N個の類似度が取得される(合計でN2個の類似度が計算される)。
【0030】
ステップ306において、事前トレーニング済み多言語モデルを使用して、各ポジティブな入力ペアまたはネガティブな入力ペア内の2つの文の間のペアワイズトークンレベル類似度を計算し得る。例えば、2つの文の間のペアワイズトークンレベル類似度は、
図2に関連して説明したBERTスコアとして計算され得る。
【0031】
ステップ308において、ポジティブな入力ペアおよび複数のネガティブな入力ペアに関連付けられた計算されたペアワイズトークンレベル類似度に基づいて損失目標が計算される。例えば、類似度スコアはロジットとして使用され、各ポジティブなロジットをすべてのネガティブなロジットとペアにする。次に、これらのロジットを使用して、ポジティブなペアとネガティブなペアとの間の対比損失を計算する。
【0032】
ステップ310において、損失目標に基づいて事前トレーニング済み多言語モデルが更新される。
【0033】
ステップ312において、更新された事前トレーニング済み多言語モデルを使用して、ソース言語とターゲット言語とは異なる別の言語との間でアラインメントタスクが実行され得る。例えば、リッチ言語ペア(例えば、英語-スペイン語、英語-フランス語など)のみを使用してトレーニングされた事前トレーニング済み多言語モデルは、次いで、希少ソース言語ペア(例えば、英語-モンゴル語、英語-マレー語など)をアラインするために使用され得る。いくつかの実装形態では、推論段階中に、アライナモデル(方法300によってトレーニングされた事前トレーニング済み多言語モデル)を使用して、英語をアンカー言語として使用せずに、例えば、希少言語ペア内の言語がいずれも英語ではない状態で、希少ソース言語ペアをアラインすることができる。
【0034】
一実施形態では、アライナモデルのためのトレーニング方法300は、単一のA100グラフィックスプロセッサ(GPU)上で実行され得る。例えば、トレーニングバッチサイズは64であり、評価バッチサイズは256である。これらは、1つのGPUでバッチに適合することができる最大数の例である。トレーニングバッチサイズを小さくすると、性能が低下する可能性があり、バッチサイズを大きくすると、ポジティブな例の各々に対してより多くのバッチ内ネガティブを提供することができる。
【0035】
図4は、いくつかの実施形態による、言語間文アラインメントを実装するためのコンピューティングデバイスの簡略化された図である。
図4に示すように、コンピューティングデバイス400は、メモリ420に結合されたプロセッサ410を含む。コンピューティングデバイス400の動作は、プロセッサ410によって制御される。コンピューティングデバイス400は、1つのみのプロセッサ410とともに示されているが、プロセッサ410は、コンピューティングデバイス400内の1つまたは複数の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、グラフィックス処理ユニット(GPU)および/または同様のものを表し得ることが理解される。コンピューティングデバイス400は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加されたボードとして、および/または仮想マシンとして実装され得る。
【0036】
メモリ420は、コンピューティングデバイス400によって実行されるソフトウェアおよび/またはコンピューティングデバイス400の動作中に使用される1つまたは複数のデータ構造を記憶するために使用され得る。メモリ420は、1つまたは複数のタイプの機械可読媒体を含み得る。機械可読媒体のいくつかの一般的な形態は、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、および/またはプロセッサもしくはコンピュータがそこから読み取るように適合された任意の他の媒体を含み得る。
【0037】
プロセッサ410および/またはメモリ420は、任意の適切な物理的配置で配置され得る。いくつかの実施形態では、プロセッサ410および/またはメモリ420は、同じ基板上、同じパッケージ(例えば、システムインパッケージ)内、同じチップ(例えば、システムオンチップ)上および/または同様のものに実装され得る。いくつかの実施形態では、プロセッサ410および/またはメモリ420は、分散、仮想化、および/またはコンテナ化されたコンピューティングリソースを含み得る。そのような実施形態と一致して、プロセッサ410および/またはメモリ420は、1つまたは複数のデータセンターおよび/またはクラウドコンピューティング施設に位置し得る。
【0038】
いくつかの例では、メモリ420は、1つまたは複数のプロセッサ(例えば、プロセッサ410)によって実行されたとき、1つまたは複数のプロセッサに、本明細書でさらに詳細に説明される方法を実行させ得る実行可能コードを含む非一時的有形機械可読媒体を含み得る。例えば、示されるように、メモリ420は、システムおよびモデルを実装および/もしくはエミュレートするために、ならびに/または本明細書でさらに説明される方法のいずれかを実装するために使用され得る、パラフレーズ生成モジュール430のための命令を含む。いくつかの例では、言語間転移モジュール430は、例えば、ソース言語および/またはターゲット言語の入力テキストなどの入力440を、データインターフェース415を介して受信し得る。データインターフェース415は、明瞭な(articulated)オーディオ入力を受信するユーザインターフェース、または以前に記憶されたトレーニングテキストをデータベースから受信または取り出し得る通信インターフェースのいずれかであり得る。言語間転移モジュール430は、入力440に対応するターゲット言語の文とのアラインメントなどの出力450を生成し得る。
【0039】
いくつかの実施形態では、言語間転移モジュール430は、埋め込みモジュール431(例えば、
図1の105と同様)、BERTスコアモジュール232(例えば、
図1の106と同様)、正規化モジュール233(例えば、
図1の118と同様)、および対比損失モジュール434(例えば、
図1の120)を実装し得る。いくつかの例では、言語間転移モジュール430およびサブモジュール431~434は、ハードウェア、ソフトウェア、および/またはハードウェアとソフトウェアの組合せを使用して実装され得る。
【0040】
コンピューティングデバイス400などのコンピューティングデバイスのいくつかの例は、1つまたは複数のプロセッサ(例えば、プロセッサ410)によって実行されたとき、1つまたは複数のプロセッサに、方法300のプロセスを実行させ得る実行可能コードを含む非一時的有形機械可読媒体を含み得る。方法300のプロセスを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、および/またはプロセッサもしくはコンピュータがそこから読み取るように適合された任意の他の媒体である。
【0041】
例示的な性能
上記で説明したように、アライナモデルは、OPUS-100および/またはv2021-08-07 Tatoeba Challengeから選択された言語ペアのトレーニングデータセットによってトレーニングされ得る。一実施形態では、トレーニング目的のために、テストされるべき言語ペアのセットを仮定することなく、CC-100およびOPUS-100の両方のすべての言語が選択される。OPUS-100は、TatoebaおよびBUCC評価データを考慮せずにサンプリングされたので、ソースまたはターゲットのいずれかがテストセット内にあるOPUSからの任意の例は削除される可能性がある。
【0042】
図5~
図13は、本明細書に記載される1つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。
【0043】
いくつかの実施形態では、アライナモデルは、文の集合からターゲット言語の一致文を取り出す言語間文取り出しタスクを介してテストされ得る。3つの評価データセットが使用される。第1のデータセットは、XTREMEベンチマーク(Hu et al., Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization, in International Conference on Machine Learning, pages 4411-4421, 2020)からのTatoebaデータセットであり、36個の言語ペアを含むことからTatoeba-36と呼ばれる。第2のデータセットは、v2021-08-07 Tatoeba Challenge,4であり、New-Tatoebaと呼ばれる。評価目的のために、devおよびテストセット内に合わせて1000個(1K)の以上の例を有する言語ペアのみが保持される。ほとんどの言語ペアが1000個(1K)のテスト例を有するTatoeba-36に続いて、New Tatoebaの各言語ペアについて1000個(1K)のサンプルがランダムにサンプリングされる。結果として得られる評価セットは、英語中心である49個のペアと英語中心でない174個のペアとを含む223個の言語ペアを含む。第3のデータセットは、BUCC 2018(Zweigenbaum et al., Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora, in Proceedings of 11th Workshop on Building and Using Comparable Corpora, pages 39-42, 20188)である。これは、言語間バイテキストマイニングタスクである。このタスクが含まれるのは、2つのTatoebaデータセットが両方ともランキングタスクであるためであり、一方で、BUCCは、ウェブマイニング中にソース言語の各文が必ずしもターゲット言語の翻訳を有するとは限らないので、普遍的なしきい値を必要とする。したがって、これらのデータセットは、多くの散漫な文(distraction sentence)を含む。BUCCの欠点は、4つの言語ペアしか含んでおらず、そのすべてがかなりのリッチリソースであることである。したがって、BUCCは、アライナモデルの健全性チェックとしてのみ機能する。
【0044】
アライナモデルと比較するための例示的なベースラインモデルには、VECO(Luo et al., VECO: Variable and flexible cross-lingual pre-training for language understanding and generation, in Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 3980-3994, 2021)およびERNIE-M(Ouyang et al., ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora, in Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 27-38, 2021)が含まれる。本明細書に記載されるアライナモデル(「OneAligner」と呼ばれる)と同様に、ERNIE-Mは、XLM-Rの上に構築される。それは、単一言語コーパスおよび96個の言語を含む並列コーパスでトレーニングされる。VECOは、アライナモデルと同じモデルサイズを共有し、単一言語コーパスおよび(おそらくは容量の希釈を回避するために)50個の言語を含む並列コーパスを用いてトレーニングされる。単一言語データはCC-100から抽出され、一方、二言語データはOPUSウェブサイトから収集される。879個の言語ペアをカバーする64億個(6.4G)の並列例がある。
図6は、各モデルの基本統計値を示す。
【0045】
アライナモデル(「OneAligner」)は、100万(1M)バジェットの有無にかかわらず、OPUS-100データセット全体でトレーニングされる。
図5は、両方のモデルがTatoeba-36データセットに関して最先端の結果を達成することを示す。
図5および
図6はまた、アライナモデルが他の2つのモデルと比較してよりデータ効率的であることを示す。
【0046】
図7は、OPUS-100およびCC-100言語の共通部分にある各言語ペアについてOPUS-100データセットでトレーニングされたモデルに対するTatoeba-36の性能を示す。性能は、言語ペアにわたって完全に一貫しており、これは、手元にあるほとんどすべての言語ペアでOneAlignerを微調整し、同様に実行されるモデルに到達することができることを示唆している。
【0047】
図8は、各言語ペアのデータ利用可能性に対する
図7の散布図を示す。特定のデータサイズしきい値(1万(10k)から2万(20k)の間のどこか)に到達した後、すべての言語ペアが同様の性能を示す(perform)。これは、アライナモデル設計が、XLM-Rに新しいパラメータを導入せず、ランダムに初期化されたパラメータをトレーニングする必要性を排除するため、部分的に予期される。
【0048】
図7と同様に、
図9は、New-Tatoebaデータセットからの上位16個のリッチリソース非英語中心ペアの各々に対してトレーニングされたアライナモデルの精度を示す。この場合も、性能は言語ペアにわたって一貫しており、これは、モデルが非英語言語ペアに対してトレーニングされても、依然として英語中心の評価セットに対して同様の性能を得ることができることを示す。
【0049】
図10は、英語中心のデータに対してトレーニングされたモデルが非英語の評価データに対しても同様の性能を示すかどうかという逆の問題に対処する。
図10において、列方向に比較すると、OneAlignerは、英語中心の言語ペアでトレーニングされているかどうか、または微調整言語と評価言語との間に重複があるかどうかにかかわらず、同様の性能を示す。英語中心の言語ペアまたは非英語中心の言語ペアに対して評価された各モデルを比較すると、どちらのモデルも、英語中心の言語ペアに対してより優れた性能を示す。これは、英語がXLM-Rの事前トレーニング中にトレーニングデータを支配するためである。
【0050】
例えば、「英語中心」と「非英語中心」との間でバイポーラ様式で分割するのではなく、スペクトルを用いて設定を記述し、X中心を探索することができ、Xが任意の言語とすることができる。言語Xの精度は、Xを含むすべての言語ペアの精度の平均として定義される。
【0051】
図11は、CC-100データセットにおける各言語の単一言語データサイズに対するTop-1-Eng New-Tatoebaの性能の散布図を示す。
図8と同様に、New-Tatoebaの性能は、特定のデータしきい値(10.0GBまでのどこか)まで単一言語データサイズと正に相関する。
【0052】
単一ペアのTatoebaの結果はすでに満足のいくものである。しかしながら、リッチリソースのみのという仮定に違反することなくさらに優れた性能を目指したとしたらどうなるだろうか?他のリッチリソースペアを追加することが役立ち得ることが分かった。残念ながら、OPUS-100は、どの言語ペアが最もリッチリソースであるかについてのランキングを提供していない(このデータセットでは各言語ペアのサイズは100万(1M)を上限とし、元の論文にはサンプリング前のデータ統計を含んでいなかったことを想起されたい)ので、New-Tatoebaデータセットを使用し、各英語中心のペアの利用可能性に基づいてランク付けを行う。
【0053】
図12は、Tatoebaデータセット上の上位1から上位32のリッチリソース言語ペアの組合せの性能を示す。
図12では、94.0の精度に達するまで、より多くの言語ペアが追加されるにつれて性能は単調に増加し、これは、固定の100万(1M)バジェットの下ですべての言語ペアを用いてトレーニングするときに達成される最良の性能から、わずか0.4ポイント下回っているだけである。上位32リスト内で最もリソースが少ない(the least)リッチリソース言語UKでも、依然として、Tatoeba Challengeで定義された「最も高い」リソース範囲内にあり、約3400万個のトレーニング例を含むので、このトレーニングは、トレーニングデータに対するリッチリソース制限に決して違反しないことに留意されたい。したがって、少なくとも文取り出しタスクの場合、その0.4ポイントの精度を改善する限界コストは、より多くの言語ペアを有するより多くの低リソース並列データを広範囲に収集する努力を正当化するようには見えない。
【0054】
図13は、以前の研究と比較した、2つのTop1モデルのBUCC F1スコアを示す。どちらのモデルも、VECOを1.2ポイント上回る。英語中心のTop1モデルがen-esでトレーニングされることを想起されたい。言い換えると、モデルは、enとBUCCターゲット言語{de,fr,ru,zh}の各々との間の単一の並列例を見ていないが、VECOは、言語ペアの各々に対して広範囲にトレーニングされる。この結果は、アライナモデルが、微調整言語ペアが英語中心であるかどうかにかかわらず、言語内モデルと同等の性能で言語間転移を行うことができるという観察と一致する。
【0055】
本発明の態様、実施形態、実装形態、または適用例を示すこの説明および添付の図面は、限定するものと解釈されるべきではない。本明細書および特許請求の範囲の趣旨および範囲から逸脱することなく、様々な機械的、組成的、構造的、電気的、および動作上の変更が行われ得る。いくつかの事例では、周知の回路、構造、または技法は、本開示の実施形態を不明瞭にしないために、詳細に示されていないかまたは説明されていない。2つ以上の図における同様の番号は、同じまたは類似の要素を表す。
【0056】
この説明では、本開示と一致するいくつかの実施形態を説明する具体的な詳細が記載される。実施形態の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、いくつかの実施形態は、これらの具体的な詳細の一部または全部がなくても実施され得ることが当業者には明らかであろう。本明細書に開示される具体定期な実施形態は、限定ではなく、例示的であることを意味するものである。当業者は、本明細書で具体的に説明されていないが、本開示の範囲および趣旨内にある他の要素を認識し得る。加えて、不必要な繰り返しを回避するために、一実施形態に関連して示され、説明される1つまたは複数の特徴は、特に別様に説明されない限り、または1つまたは複数の特徴が実施形態を非機能的にする場合、他の実施形態に組み込まれてもよい。
【0057】
例示的な実施形態が示され、説明されてきたが、広範囲の修正、変更、および置換が、前述の開示において企図され、いくつかの事例では、実施形態のいくつかの特徴は、他の特徴の対応する使用なしに採用され得る。当業者であれば、多くの変形、代替、および修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、広く、本明細書に開示される実施形態の範囲と一致するように解釈されることが適切である。
【国際調査報告】