特表2024-542440 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セールスフォース　ドット　コム　インコーポレイティッドの特許一覧

特表2024-542440自然言語処理における言語間転移のためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-15

(54)【発明の名称】自然言語処理における言語間転移のためのシステムおよび方法

(51)【国際特許分類】

G06F 40/44 20200101AFI20241108BHJP

【ＦＩ】

G06F40/44

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024527807

(86)(22)【出願日】2022-11-14

(85)【翻訳文提出日】2024-05-13

(86)【国際出願番号】 US2022079792

(87)【国際公開番号】W WO2023086981

(87)【国際公開日】2023-05-19

(31)【優先権主張番号】63/279,476

(32)【優先日】2021-11-15

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/581,380

(32)【優先日】2022-01-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】506332063

【氏名又は名称】セールスフォースインコーポレイテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】ニウ，トン

(72)【発明者】

【氏名】橋本和真

(72)【発明者】

【氏名】ヂォゥ，インボー

(72)【発明者】

【氏名】シィオン，カイミン

(57)【要約】

本明細書に記載される実施形態は、リッチリソース言語ペアに対してのみトレーニングされる言語間文アラインメントフレームワークを提供する。正確なアライナを得るために、事前トレーニング済み多言語モデルが使用され、分類器が、リッチリソース言語ペアからの並列データに対してトレーニングされる。次いで、このトレーニングされた分類器が、低リソース言語との言語間転移に使用され得る。

【特許請求の範囲】

【請求項1】

言語間文アラインメントの方法であって、
通信インターフェースを介して、ソース言語の第１の文と、前記第１の文の翻訳されたバージョンであるターゲット言語の第２の文とを少なくとも含むトレーニングデータセットを受信するステップと、
前記第１の文および前記第２の文を含むポジティブな入力ペアと、各々が前記第１の文および前記ターゲット言語のそれぞれの不一致文を含む複数のネガティブな入力ペアとを形成するステップと、
事前トレーニング済み多言語モデルを介して、各ポジティブな入力ペアまたはネガティブな入力ペア内の２つの文の間のペアワイズトークンレベル類似度を計算するステップと、
前記ポジティブな入力ペアおよび前記複数のネガティブな入力ペアに関連付けられた計算されたペアワイズトークンレベル類似度に基づいて損失目標を計算するステップと、
前記損失目標に基づいて前記事前トレーニング済み多言語モデルを更新するステップと、
前記更新された事前トレーニング済み多言語モデルを使用して、前記ソース言語と前記ターゲット言語とは異なる別の言語との間でアラインメントタスクを実行するステップと
を含む方法。

【請求項2】

コンテキスト埋め込みエンコーダを介して、前記２つの文の第１のコンテキスト埋め込みおよび第２のコンテキスト埋め込みをそれぞれの前記ポジティブな入力ペアまたはネガティブな入力ペア内に生成するステップ
をさらに含む、請求項１に記載の方法。

【請求項3】

前記２つの文の間の前記ペアワイズトークンレベル類似度は、
前記第１のコンテキスト埋め込み内のすべてのベクトルと前記第２のコンテキスト埋め込み内の第１のベクトルとの間のペアワイズコサイン類似度の第１のセットを計算するステップと、
前記ペアワイズコサイン類似度の第１のセットの中の第１の最大類似度を決定するステップと、
前記第１の最大類似度に基づいて第１のスコアを決定するステップと
によって計算される、請求項２に記載の方法。

【請求項4】

前記第２のコンテキスト埋め込み内のすべてのベクトルと前記第１のコンテキスト埋め込み内の第２のベクトルとの間のペアワイズコサイン類似度の第２のセットを計算するステップと、
前記ペアワイズコサイン類似度の第２のセットの中の第２の最大類似度を決定するステップと、
前記第２の最大類似度に基づいて第２のスコアを決定するステップと
をさらに含む、請求項３に記載の方法。

【請求項5】

前記第１のスコアおよび前記第２のスコアに基づいて類似度スコアを計算するステップ
をさらに含む、請求項４に記載の方法。

【請求項6】

前記ソース言語の各文と前記ターゲット言語のすべての文との間、および前記ターゲット言語の各文と前記ソース言語のすべての文との間の類似度スコアのスケーリングされた平均を前記計算された類似度スコアから減算することによって、前記計算された類似度スコアを正規化するステップ
をさらに含む、請求項５に記載の方法。

【請求項7】

前記損失目標は、前記事前トレーニング済み多言語モデルからの出力ロジットとして、各ポジティブな入力ペアまたはネガティブな入力ペアについての前記計算されたペアワイズトークンレベル類似度を使用して、対比損失として計算される、請求項１に記載の方法。

【請求項8】

前記ソース言語および前記ターゲット言語は、リッチソース言語のグループに属する、請求項１に記載の方法。

【請求項9】

前記別の言語は、希少ソース言語であり、前記事前トレーニング済み多言語モデルは、前記希少ソース言語のいかなる言語サンプルに対してもトレーニングされない、請求項１に記載の方法。

【請求項10】

前記ソース言語も前記ターゲット言語も英語ではない、請求項１に記載の方法。

【請求項11】

言語間文アラインメントのシステムであって、
ソース言語の第１の文と、前記第１の文の翻訳されたバージョンであるターゲット言語の第２の文とを少なくとも含むトレーニングデータセットを受信する通信インターフェースと、
事前トレーニング済み多言語モデルおよび複数のプロセッサ実行可能命令を記憶するメモリと、
動作を実行するために前記複数のプロセッサ実行可能命令を実行するプロセッサと
を備え、前記動作は、
前記第１の文および前記第２の文を含むポジティブな入力ペアと、各々が前記第１の文および前記ターゲット言語のそれぞれの不一致文を含む複数のネガティブな入力ペアとを形成することと、
前記事前トレーニング済み多言語モデルを介して、各ポジティブな入力ペアまたはネガティブな入力ペア内の２つの文の間のペアワイズトークンレベル類似度を計算することと、
前記ポジティブな入力ペアおよび前記複数のネガティブな入力ペアに関連付けられた計算されたペアワイズトークンレベル類似度に基づいて損失目標を計算することと、
前記損失目標に基づいて前記事前トレーニング済み多言語モデルを更新することと、
前記更新された事前トレーニング済み多言語モデルを使用して、前記ソース言語と前記ターゲット言語とは異なる別の言語との間でアラインメントタスクを実行することと、
を含む、システム。

【請求項12】

前記動作は、
コンテキスト埋め込みエンコーダを介して、前記２つの文の第１のコンテキスト埋め込みおよび第２のコンテキスト埋め込みをそれぞれの前記ポジティブな入力ペアまたはネガティブな入力ペア内に生成すること
をさらに含む、請求項１１に記載のシステム。

【請求項13】

前記２つの文の間の前記ペアワイズトークンレベル類似度は、
前記第１のコンテキスト埋め込み内のすべてのベクトルと前記第２のコンテキスト埋め込み内の第１のベクトルとの間のペアワイズコサイン類似度の第１のセットを計算することと、
前記ペアワイズコサイン類似度の第１のセットの中の第１の最大類似度を決定することと、
前記第１の最大類似度に基づいて第１のスコアを決定することと、
前記第２のコンテキスト埋め込み内のすべてのベクトルと前記第１のコンテキスト埋め込み内の第２のベクトルとの間のペアワイズコサイン類似度の第２のセットを計算することと、
前記ペアワイズコサイン類似度の第２のセットの中の第２の最大類似度を決定することと、
前記第２の最大類似度に基づいて第２のスコアを決定することと、
前記第１のスコアおよび前記第２のスコアに基づいて類似度スコアを計算することと、
前記ソース言語の各文と前記ターゲット言語のすべての文との間、および前記ターゲット言語の各文と前記ソース言語のすべての文との間の類似度スコアのスケーリングされた平均を前記計算された類似度スコアから減算することによって、前記計算された類似度スコアを正規化することと
によって計算される、請求項１２に記載のシステム。

【請求項14】

前記損失目標は、前記事前トレーニング済み多言語モデルからの出力ロジットとして、各ポジティブな入力ペアまたはネガティブな入力ペアについての前記計算されたペアワイズトークンレベル類似度を使用して、対比損失として計算される、請求項１１に記載のシステム。

【請求項15】

言語間文アラインメントのための複数のプロセッサ実行可能命令を記憶する非一時的プロセッサ可読記憶媒体であって、前記命令は、
通信インターフェースを介して、ソース言語の第１の文と、前記第１の文の翻訳されたバージョンであるターゲット言語の第２の文とを少なくとも含むトレーニングデータセットを受信することと、
前記第１の文および前記第２の文を含むポジティブな入力ペアと、各々が前記第１の文および前記ターゲット言語のそれぞれの不一致文を含む複数のネガティブな入力ペアとを形成することと、
事前トレーニング済み多言語モデルを介して、各ポジティブな入力ペアまたはネガティブな入力ペア内の２つの文の間のペアワイズトークンレベル類似度を計算することと、
前記ポジティブな入力ペアおよび前記複数のネガティブな入力ペアに関連付けられた計算されたペアワイズトークンレベル類似度に基づいて損失目標を計算することと、
前記損失目標に基づいて前記事前トレーニング済み多言語モデルを更新することと、
前記更新された事前トレーニング済み多言語モデルを使用して、前記ソース言語と前記ターゲット言語とは異なる別の言語との間でアラインメントタスクを実行することと、
を含む動作を実行するためにプロセッサによって実行される、非一時的プロセッサ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

［相互参照］
本出願は、２０２１年１１月１５日に出願された米国仮特許出願第６３／２７９，４７６号の米国特許法に基づく優先権を主張する、２０２２年１月２１日に出願された米国非仮特許出願第１７／５８１，３８０号の優先権を主張するものであり、これらは、その全体が参照により本明細書に明示的に組み込まれる。

【0002】

［技術分野］
本開示は、一般に、自然言語処理（ＮＬＰ）のための機械学習モデルおよびニューラルネットワークに関し、より具体的には、ＮＬＰにおける低リソース文取り出しのための１つのリッチリソース言語ペアによるゼロショット言語間転移に関する。

【背景技術】

【0003】

言語間文アラインメント（cross-lingual sentence alignment）は、ソース言語の原文をターゲット言語の翻訳文にアラインすることを指す。例えば、ソース言語およびターゲット言語の文法規則が異なるため、原文の単語と翻訳文の単語は順序が異なる場合があり、したがって、異なる言語で同じ意味を有する単語をアラインする必要がある。言語間文アラインメントは、（１）機械翻訳システムのための並列コーパスをマイニングすること、（２）既存の並列コーパスをフィルタリングしてそれらの品質を高めること、（３）例えば、すでに生成された翻訳を評価するためのシナリオまたは潜在的な候補の中から決定するためのシナリオにおいて翻訳品質を推定すること（Quality Estimationタスク）を含む、様々なアプリケーションにおいて使用され得る。しかしながら、言語間文アラインメントモデルをトレーニングするために、異なる言語ソースのトレーニングデータは、極めて異なる可能性がある。例えば、英語、スペイン語、フランス語などの一般的な言語では、より豊富なトレーニングデータセットがあることが多いが、モンゴル語、マレー語などのあまり一般的でない言語では、リソースは不足している。

【図面の簡単な説明】

【0004】

【図1】本明細書に記載される１つまたは複数の実施形態による、アラインメントモデルのためのトレーニングフレームワークを示す簡略化されたブロック図である。

【図2】本明細書に記載される１つまたは複数の実施形態による、図１のモジュール１０６に示されたＢＥＲＴスコア計算の態様を示す簡略化されたブロック図である。

【図3】本明細書に記載される一実施形態による、言語間文アラインメントのためのアライナモデルをトレーニングする方法を示す簡略化された論理フロー図である。

【図4】いくつかの実施形態による、言語間文アラインメントを実装するためのコンピューティングデバイスの簡略化された図である。

【図5】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【図6】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【図7】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【図8】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【図9】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【図10】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【図11】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【図12】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【図13】本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【0005】

図および付録において、同じ名称を有する要素は、同じまたは同様の機能を有する。

【発明を実施するための形態】

【0006】

本明細書で使用される場合、「ネットワーク」という用語は、任意の人工知能ネットワークもしくはシステム、ニューラルネットワークもしくはシステム、および／またはその上にもしくはそれとともに実装される任意のトレーニングもしくは学習モデルを含む、任意のハードウェアまたはソフトウェアベースのフレームワークを含み得る。

【0007】

本明細書で使用される場合、「モジュール」という用語は、１つまたは複数の機能を実行するハードウェアまたはソフトウェアベースのフレームワークを含み得る。いくつかの実施形態では、モジュールは、１つまたは複数のニューラルネットワーク上に実装され得る。

【0008】

本明細書で使用される場合、「リッチソース」または「低リソース」という用語は、利用可能なデータのサイズを指す。例えば、言語ペアの並列データサイズが特定のしきい値（例えば、２万、３万など）を超える場合、そのような言語ペアはリッチソースとみなされる。同様に、言語ペアの並列データサイズが特定のしきい値（例えば、１万（１０Ｋ）、２万（２０Ｋ）など）よりも小さい場合、そのような言語ペアは低ソースとみなされる。

【0009】

言語間文アラインメントは、機械翻訳関連のタスクにおいて重要な側面を提供する。既存のシステムには、２つの主な作業の流れが含まれている。一方は完全に教師なしであり、他方は、多くの言語ペアにまたがるデータを用いた教師ありである。教師なし手法は、いかなる並列データも収集しないという利点があるが、複数の低リソース言語ペアを含む３６個の言語ペアで評価されるＴａｔｏｅｂａ（Artetxe et al., Massively multilingual sentence embeddings for zero-shot cross-lingual transfer and beyond, Transactions of the Association for Computational Linguistics, 7:597-610, 2019）などのベンチマークデータセットでは比較的低い精度しか達成することができない。その一方で、教師あり手法は、大量の低リソース言語ペアへのデータアクセスを前提としており、これは、その定義からして、取得することもその品質を保証することも困難である。教師なし手法と教師あり手法との間のこのオール・オア・ナッシングのデータ選択は、ゼロショット言語間転移がそのようなタスクに対して有効かどうかに関して大きなギャップを残す。したがって、言語間の並列データ収集のための努力を効率的に分散させることは依然として困難である。

【0010】

言語間文アラインメントの効率および精度を向上させる必要性に鑑みて、本明細書に記載される実施形態は、（１つの言語ペアが機能する限り）リソースが極めて豊富なリッチリソース言語ペアに対してのみトレーニングされる言語間文アラインメントフレームワークを提供する。正確なアライナを得るために、事前トレーニング済み多言語モデルが、リッチリソース言語ペアからの並列データに対してトレーニングされるべき分類器として使用される。次いで、このトレーニングされた分類器は、低リソース言語との言語間転移のために使用され得る。

【0011】

例えば、XLM-RoBERTa（ＸＬＭ－Ｒ）ネットワーク（Conneau et al., Unsupervised cross-lingual representation learning at scale, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440-8451, Association for Computational Linguistics, 2020に記載）が、アラインメントタスクのための事前トレーニング済み多言語モデルとして採用され得る。ＢＥＲＴスコアの教師ありバージョンは、文と文との間の意味類似性として計算され得、正規化層は、例えば、ソース言語のいくつかの文がターゲット言語の任意の文で高いスコアをもたらす傾向がある場合に、一般的な文の効果（popular sentence effect）を打ち消すために、ＸＬＭ－Ｒのアーキテクチャに組み込まれる。このようにして、任意の単一のリッチリソース言語ペアに対してトレーニングされるとき、このモデルは、同じデータバジェットの下ですべての言語ペアに対してトレーニングされたモデルの性能と（例えば、精度の差は２．０以内で）一致する。

【0012】

一実施形態では、リッチリソースのみという制約を順守しながら、トレーニングに１つの言語ペアを使用することとすべてのペアを使用することとの間の狭い差をさらに縮めるために、言語ペアの数は、上位ｋ個のリッチリソース言語ペアでスケールアップされる。このアップグレードにより、モデルの精度がさらに向上し、同じデータバジェットの下ですべての言語ペアに対してトレーニングする場合と比較してわずかに０．４足りない（shy）だけである。

【0013】

一実施形態では、モデルは、英語中心ではない言語ペア、例えば、言語ペアのいずれの文も英語ではない言語ペアでトレーニングされる。英語をアンカー言語としない場合でも、モデルのトレーニング性能はほとんど影響を受けない。モデルは、並列データの量が特定のしきい値を超える限り、同様の性能を発揮する。

【0014】

図１は、本明細書に記載される１つまたは複数の実施形態による、アラインメントモデルのためのトレーニングフレームワークを示す簡略化されたブロック図である。図１は、ソース言語の文の第１のバッチ１０２、例えばＳ＝｛Ｓ_１，Ｓ_２，…，Ｓ_Ｍ｝と、ターゲット言語の文の第２のバッチ１０４、例えばＴ＝｛Ｔ_１，Ｔ_２，…，Ｔ_Ｎ｝とが、アラインメントのためにアラインメントモデル１１０に入力されることを示す。

【0015】

具体的には、アラインメントモデル１１０は、バッチ１０２および１０４中の各文が一致するかどうか、例えば、すべてのｉ＝１，…，Ｍおよびｊ＝１，…，Ｎについて、Ｓ_ｉ１０２ａがＴ_ｊ１０４ａとアラインされているかどうかを決定し得る。アラインメントモデル１１０は、ＸＬＭ－Ｒの上に、１００個の言語をカバーする単一言語ＣＣ－１００データセットに対して事前トレーニングされたTransformerベースのモデルを構築し得る。

【0016】

アラインメントモデル１１０は、埋め込みモデル１０５、ＢＥＲＴスコア計算モジュールｆ（）１０６、および正規化層１１８を含み得る。２つの入力文Ｓ_ｉ１０２ａおよびＴ_ｊ１０４ａが与えられると、コンテキスト埋め込みモデル１０５は、ソース文およびターゲット文中のトークンをそれぞれ２つのベクトル表現に符号化する。具体的には、埋め込みモデル１０５は、ＢＥＲＴ（Devlin et al., BERT: Pre-training of deep bidirectional transformers for language under-standing, in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171-4186, 201）またはＥＬＭｏ（Peters et al., Deep contextualized word representations, in proceedings of NAACL-HLT, 2018）を採用し得、これは、ターゲット単語のコンテキストを形成する周囲の単語に応じて、異なる文中の同じ単語に対して異なるベクトル表現を生成する。例えば、埋め込みモデル１０５は、入力テキストを一連の単語片にトークン化するＢＥＲＴエンコーダを採用し得、未知の単語は、よく観察されるいくつかの文字列に分割される。各単語片の表現は、自己注意変換および非線形変換を交互に繰り返し適用することによって、Transformerエンコーダを用いて計算される。

【0017】

次に、図２にさらに示すように、ＢＥＲＴスコア計算モジュール１０６が、埋め込みモデル１０５からのコンテキスト埋め込み表現間のコサイン類似度を使用して、入力文１０２ａおよび１０４ａのＢＥＲＴスコアを計算し、任意選択で、逆文頻度スコアで重み付けされる。

【0018】

図２は、本明細書に記載される１つまたは複数の実施形態による、図１のモジュール１０６に示されたＢＥＲＴスコア計算の態様を示す簡略化されたブロック図である。例えば、入力文Ｓ_ｉ１０２ａが与えられると、ベクトルのシーケンスｓ＝＜ｓ_１，ｓ_２，…，ｓｋ＞は、入力文Ｓ_ｉ１０２ａのコンテキスト埋め込み１０５ａを示す。同様に、ベクトルのシーケンスｔ＝＜ｔ_１，ｔ_２，…，ｔ_ｌ＞は、入力文Ｔ_ｊ１０２ｂのコンテキスト埋め込み１０５ｂを示す。

【0019】

最初に、コンテキスト埋め込みｔ＝＜ｔ_１，ｔ_２，…，ｔ_ｌ＞内のベクトルに一致するようにコンテキスト埋め込みｓ＝＜ｓ_１，ｓ_２，…，ｓ_ｋ＞内の各ベクトルをマッチングすることによって、リコールスコアが計算される。具体的には、＜ｓ_１，ｓ_２，…，ｓ_ｋ＞内の各ベクトルとコンテキスト埋め込み＜ｔ_１，ｔ_２，…，ｔ_ｌ＞内のベクトルとの間のペアワイズコサイン類似度２０５ａを計算し、最大類似度２０８ａをとる：

【数1】

【0020】

同様に、コンテキスト埋め込みｓ＝＜ｓ_１，ｓ_２，…，ｓ_ｋ＞内のベクトルに一致するようにコンテキスト埋め込みｔ＝＜ｔ_１，ｔ_２，…，ｔ_ｌ＞内の各ベクトルをマッチングすることによって、精度スコアが計算される。具体的には、＜ｔ_１，ｔ_２，…，ｔ_ｌ＞内の各ベクトルとコンテキスト埋め込み＜ｓ_１，ｓ_２，…，ｓ_ｋ＞内のベクトルとの間のペアワイズコサイン類似度２０５ｂを計算し、最大類似度２０８ａをとる：

【数2】

【0021】

次いで、ＢＥＲＴスコアを次のように計算する：

【数3】

【0022】

したがって、ＢＥＲＴスコアは、完全なクロスアテンションよりもはるかに高速でありながら、浅いクロスアテンション層として機能する。結果として得られるモデルもまた、２つの文の順序に依存しない。

【0023】

図１に参照を戻すと、入力文１０２ａおよび１０４ａの計算されたＢＥＲＴスコアが正規化層１１８に供給される。バイテキストアラインメントでは、一方の言語のいくつかの文が、他方の言語の任意の文と高い類似度スコアを有する傾向があることがよく観察される。この現象は、ランキングを不正確なものにする。この偏りを相殺するために、一方の言語の各文と他方の言語のすべての文との間の類似度スコアのスケーリングされた平均がＢＥＲＴスコアから減算される。言い換えると、ソース文Ｓ_ｉ１０２ａとターゲット文Ｔ_ｊ１０４ａとの間の正規化された類似度１１５は、以下のように計算される：

【数4】

ここで、ｆ（）は、意味類似性を計算する関数を表す。この正規化ステップは、推論中のポストホック操作としてのみ機能するのではなく、モデルアーキテクチャに組み込まれることに留意されたい。実際には、文の数ＭおよびＮは、推論中にかなり大きくなり、正規化ステップを遅くする可能性があり、言うまでもなく、評価データがオフライン方式で供給されることは保証されない。したがって、ＭおよびＮが推論中にバッチサイズのみに依存するように、各類似度スコアに対してバッチ内正規化が実行される。

【0024】

推論段階では、２つの文Ｓ_ｉ、Ｔ_ｊがアラインされているかどうかの決定が、例えば、しきい値処理（thresholding operation）によって行われ得る。例えば、Ｓｉｍｉｌｉａｒｙ（ｉ，ｊ）が予め定義されたしきい値よりも大きい場合、ソース文Ｓ_ｉとターゲット文Ｔ_ｊとは一致と考えられる。

【0025】

トレーニング中、ポジティブな並列データのみを用いてアライナモデル１１０をトレーニングすることに対する課題は、慎重に設計されたネガティブな例がないことである。この課題に対処するために、対比学習手法を採用することができ、アライナモデル１１０は、バッチ内ネガティブを有する分類タスクに対してトレーニングされる。例えば、ソース言語の文のバッチＳ＝｛Ｓ_１，Ｓ_２，…，Ｓ_Ｎ｝、およびターゲット言語の文のバッチＴ＝｛Ｔ_１，Ｔ_２，…，Ｔ_Ｎ｝について、Ｓ_ｉが各ｉについてＴ_ｉとアラインされている場合、ＳとＴとの間のペアワイズ意味類似性が計算されて、ポジティブなアラインメントについてＮ個の類似度が取得され、ネガティブなアラインメントについてＮ^２－Ｎ個の類似度が取得される（合計でＮ^２個の類似度が計算される）。トレーニング中、これらの類似度スコアはロジットとして使用され、各ポジティブなロジットをすべてのネガティブなロジットとペアにする。次に、これらのロジットを使用して対比損失１２０を計算し、次にこれを使用して、逆伝搬経路１２５を介してアライナモデル１１０を更新する。

【0026】

図３は、本明細書に記載される一実施形態による、言語間文アラインメントのためのアライナモデルをトレーニングする方法を示す簡略化された論理フロー図である。方法３００のプロセス３０２～３１２のうちの１つまたは複数は、少なくとも部分的に、１つまたは複数のプロセッサによって実行されたとき、１つまたは複数のプロセッサに、プロセス３０２～３１２のうちの１つまたは複数を実行させ得る、非一時的有形機械可読媒体に記憶された実行可能コードの形態で実装され得る。いくつかの実施形態では、方法３００は、モジュール４３０によって使用される方法に対応し得る。

【0027】

ステップ３０２において、トレーニングデータセットが受信される。トレーニングデータセットは、少なくとも、ソース言語の第１の文（例えば、図１の文１０２ａ）と、第１の文の翻訳されたバージョンであるターゲット言語の第２の文（例えば、図１の文１０４ａ）とを含む。例えば、ソース言語およびターゲット言語は、英語－スペイン語、英語－フランス語などのリッチソース言語のグループに属する。

【0028】

一実施形態では、トレーニングデータセットは、（１）ＯＰＵＳ－１００などの英語中心のデータセット、（２）非英語中心の言語データセット、例えば、ｖ２０２１－０８－０７ＴａｔｏｅｂａＣｈａｌｌｅｎｇｅであり得る。ＯＰＵＳ－１００は英語中心であり、すべてのトレーニングペアがソース側またはターゲット側のいずれかに英語を含むことを意味する。コーパスは、１００個の言語（英語を含む）をカバーする。トレーニングのための言語は、ＯＰＵＳで利用可能な並列データの量に基づいて選択される。ＯＰＵＳコレクションは、映画の字幕からＧＮＯＭＥドキュメンテーション、聖書に至るまでの複数のコーパスから構成される。ＯＰＵＳ－１００には、約５５００万個の文のペアが含まれている。例えば、アライナモデルをトレーニングするために９９個の言語ペアが選択され、そのうちの４４個がトレーニングデータの１００万個（１Ｍ）の文のペアから選択され、７３個が少なくとも１０万個（１００ｋ）から選択され、９５個が少なくとも１万個（１０ｋ）から選択される。ＯＰＵＳ－１００の選択に続いて、Ｎｅｗ－Ｔａｔｏｅｂａにおける各言語ペアについてのトレーニングデータは、ＯＰＵＳでトレーニングされたモデルとの比較をより容易にするために１００万（１Ｍ）を上限としている。

【0029】

ステップ３０４において、第１の文および第２の文を含むポジティブな入力ペアと、複数のネガティブな入力ペアとが形成される。各ネガティブなペアは、第１の文と、ターゲット言語のそれぞれの不一致文とを含む。例えば、ソース言語の文のバッチＳ＝｛Ｓ_１，Ｓ_２，…，Ｓ_Ｎ｝、およびターゲット言語の文のバッチＴ＝｛Ｔ_１，Ｔ_２，…，Ｔ_Ｎ｝について、Ｓ_ｉが各ｉについてＴ_ｉとアラインされている場合、ＳとＴとの間のペアワイズ意味類似性が計算されて、ポジティブなアラインメントについてＮ個の類似度が取得され、ネガティブなアラインメントについてＮ^２－Ｎ個の類似度が取得される（合計でＮ^２個の類似度が計算される）。

【0030】

ステップ３０６において、事前トレーニング済み多言語モデルを使用して、各ポジティブな入力ペアまたはネガティブな入力ペア内の２つの文の間のペアワイズトークンレベル類似度を計算し得る。例えば、２つの文の間のペアワイズトークンレベル類似度は、図２に関連して説明したＢＥＲＴスコアとして計算され得る。

【0031】

ステップ３０８において、ポジティブな入力ペアおよび複数のネガティブな入力ペアに関連付けられた計算されたペアワイズトークンレベル類似度に基づいて損失目標が計算される。例えば、類似度スコアはロジットとして使用され、各ポジティブなロジットをすべてのネガティブなロジットとペアにする。次に、これらのロジットを使用して、ポジティブなペアとネガティブなペアとの間の対比損失を計算する。

【0032】

ステップ３１０において、損失目標に基づいて事前トレーニング済み多言語モデルが更新される。

【0033】

ステップ３１２において、更新された事前トレーニング済み多言語モデルを使用して、ソース言語とターゲット言語とは異なる別の言語との間でアラインメントタスクが実行され得る。例えば、リッチ言語ペア（例えば、英語－スペイン語、英語－フランス語など）のみを使用してトレーニングされた事前トレーニング済み多言語モデルは、次いで、希少ソース言語ペア（例えば、英語－モンゴル語、英語－マレー語など）をアラインするために使用され得る。いくつかの実装形態では、推論段階中に、アライナモデル（方法３００によってトレーニングされた事前トレーニング済み多言語モデル）を使用して、英語をアンカー言語として使用せずに、例えば、希少言語ペア内の言語がいずれも英語ではない状態で、希少ソース言語ペアをアラインすることができる。

【0034】

一実施形態では、アライナモデルのためのトレーニング方法３００は、単一のＡ１００グラフィックスプロセッサ（ＧＰＵ）上で実行され得る。例えば、トレーニングバッチサイズは６４であり、評価バッチサイズは２５６である。これらは、１つのＧＰＵでバッチに適合することができる最大数の例である。トレーニングバッチサイズを小さくすると、性能が低下する可能性があり、バッチサイズを大きくすると、ポジティブな例の各々に対してより多くのバッチ内ネガティブを提供することができる。

【0035】

図４は、いくつかの実施形態による、言語間文アラインメントを実装するためのコンピューティングデバイスの簡略化された図である。図４に示すように、コンピューティングデバイス４００は、メモリ４２０に結合されたプロセッサ４１０を含む。コンピューティングデバイス４００の動作は、プロセッサ４１０によって制御される。コンピューティングデバイス４００は、１つのみのプロセッサ４１０とともに示されているが、プロセッサ４１０は、コンピューティングデバイス４００内の１つまたは複数の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、グラフィックス処理ユニット（ＧＰＵ）および／または同様のものを表し得ることが理解される。コンピューティングデバイス４００は、スタンドアロンサブシステムとして、コンピューティングデバイスに追加されたボードとして、および／または仮想マシンとして実装され得る。

【0036】

メモリ４２０は、コンピューティングデバイス４００によって実行されるソフトウェアおよび／またはコンピューティングデバイス４００の動作中に使用される１つまたは複数のデータ構造を記憶するために使用され得る。メモリ４２０は、１つまたは複数のタイプの機械可読媒体を含み得る。機械可読媒体のいくつかの一般的な形態は、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、および／またはプロセッサもしくはコンピュータがそこから読み取るように適合された任意の他の媒体を含み得る。

【0037】

プロセッサ４１０および／またはメモリ４２０は、任意の適切な物理的配置で配置され得る。いくつかの実施形態では、プロセッサ４１０および／またはメモリ４２０は、同じ基板上、同じパッケージ（例えば、システムインパッケージ）内、同じチップ（例えば、システムオンチップ）上および／または同様のものに実装され得る。いくつかの実施形態では、プロセッサ４１０および／またはメモリ４２０は、分散、仮想化、および／またはコンテナ化されたコンピューティングリソースを含み得る。そのような実施形態と一致して、プロセッサ４１０および／またはメモリ４２０は、１つまたは複数のデータセンターおよび／またはクラウドコンピューティング施設に位置し得る。

【0038】

いくつかの例では、メモリ４２０は、１つまたは複数のプロセッサ（例えば、プロセッサ４１０）によって実行されたとき、１つまたは複数のプロセッサに、本明細書でさらに詳細に説明される方法を実行させ得る実行可能コードを含む非一時的有形機械可読媒体を含み得る。例えば、示されるように、メモリ４２０は、システムおよびモデルを実装および／もしくはエミュレートするために、ならびに／または本明細書でさらに説明される方法のいずれかを実装するために使用され得る、パラフレーズ生成モジュール４３０のための命令を含む。いくつかの例では、言語間転移モジュール４３０は、例えば、ソース言語および／またはターゲット言語の入力テキストなどの入力４４０を、データインターフェース４１５を介して受信し得る。データインターフェース４１５は、明瞭な（articulated）オーディオ入力を受信するユーザインターフェース、または以前に記憶されたトレーニングテキストをデータベースから受信または取り出し得る通信インターフェースのいずれかであり得る。言語間転移モジュール４３０は、入力４４０に対応するターゲット言語の文とのアラインメントなどの出力４５０を生成し得る。

【0039】

いくつかの実施形態では、言語間転移モジュール４３０は、埋め込みモジュール４３１（例えば、図１の１０５と同様）、ＢＥＲＴスコアモジュール２３２（例えば、図１の１０６と同様）、正規化モジュール２３３（例えば、図１の１１８と同様）、および対比損失モジュール４３４（例えば、図１の１２０）を実装し得る。いくつかの例では、言語間転移モジュール４３０およびサブモジュール４３１～４３４は、ハードウェア、ソフトウェア、および／またはハードウェアとソフトウェアの組合せを使用して実装され得る。

【0040】

コンピューティングデバイス４００などのコンピューティングデバイスのいくつかの例は、１つまたは複数のプロセッサ（例えば、プロセッサ４１０）によって実行されたとき、１つまたは複数のプロセッサに、方法３００のプロセスを実行させ得る実行可能コードを含む非一時的有形機械可読媒体を含み得る。方法３００のプロセスを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、および／またはプロセッサもしくはコンピュータがそこから読み取るように適合された任意の他の媒体である。

【0041】

例示的な性能
上記で説明したように、アライナモデルは、ＯＰＵＳ－１００および／またはｖ２０２１－０８－０７ＴａｔｏｅｂａＣｈａｌｌｅｎｇｅから選択された言語ペアのトレーニングデータセットによってトレーニングされ得る。一実施形態では、トレーニング目的のために、テストされるべき言語ペアのセットを仮定することなく、ＣＣ－１００およびＯＰＵＳ－１００の両方のすべての言語が選択される。ＯＰＵＳ－１００は、ＴａｔｏｅｂａおよびＢＵＣＣ評価データを考慮せずにサンプリングされたので、ソースまたはターゲットのいずれかがテストセット内にあるＯＰＵＳからの任意の例は削除される可能性がある。

【0042】

図５～図１３は、本明細書に記載される１つまたは複数の実施形態による、以前の研究におけるベースラインモデルと比較した、本明細書に記載されるアライナモデルの様々な性能結果を示す。

【0043】

いくつかの実施形態では、アライナモデルは、文の集合からターゲット言語の一致文を取り出す言語間文取り出しタスクを介してテストされ得る。３つの評価データセットが使用される。第１のデータセットは、ＸＴＲＥＭＥベンチマーク（Hu et al., Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization, in International Conference on Machine Learning, pages 4411-4421, 2020）からのＴａｔｏｅｂａデータセットであり、３６個の言語ペアを含むことからＴａｔｏｅｂａ－３６と呼ばれる。第２のデータセットは、ｖ２０２１－０８－０７ＴａｔｏｅｂａＣｈａｌｌｅｎｇｅ，４であり、Ｎｅｗ－Ｔａｔｏｅｂａと呼ばれる。評価目的のために、ｄｅｖおよびテストセット内に合わせて１０００個（１Ｋ）の以上の例を有する言語ペアのみが保持される。ほとんどの言語ペアが１０００個（１Ｋ）のテスト例を有するＴａｔｏｅｂａ－３６に続いて、ＮｅｗＴａｔｏｅｂａの各言語ペアについて１０００個（１Ｋ）のサンプルがランダムにサンプリングされる。結果として得られる評価セットは、英語中心である４９個のペアと英語中心でない１７４個のペアとを含む２２３個の言語ペアを含む。第３のデータセットは、ＢＵＣＣ２０１８（Zweigenbaum et al., Overview of the third BUCC shared task: Spotting parallel sentences in comparable corpora, in Proceedings of 11th Workshop on Building and Using Comparable Corpora, pages 39-42, 20188）である。これは、言語間バイテキストマイニングタスクである。このタスクが含まれるのは、２つのＴａｔｏｅｂａデータセットが両方ともランキングタスクであるためであり、一方で、ＢＵＣＣは、ウェブマイニング中にソース言語の各文が必ずしもターゲット言語の翻訳を有するとは限らないので、普遍的なしきい値を必要とする。したがって、これらのデータセットは、多くの散漫な文（distraction sentence）を含む。ＢＵＣＣの欠点は、４つの言語ペアしか含んでおらず、そのすべてがかなりのリッチリソースであることである。したがって、ＢＵＣＣは、アライナモデルの健全性チェックとしてのみ機能する。

【0044】

アライナモデルと比較するための例示的なベースラインモデルには、ＶＥＣＯ（Luo et al., VECO: Variable and flexible cross-lingual pre-training for language understanding and generation, in Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 3980-3994, 2021）およびＥＲＮＩＥ－Ｍ（Ouyang et al., ERNIE-M: Enhanced multilingual representation by aligning cross-lingual semantics with monolingual corpora, in Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 27-38, 2021）が含まれる。本明細書に記載されるアライナモデル（「ＯｎｅＡｌｉｇｎｅｒ」と呼ばれる）と同様に、ＥＲＮＩＥ－Ｍは、ＸＬＭ－Ｒの上に構築される。それは、単一言語コーパスおよび９６個の言語を含む並列コーパスでトレーニングされる。ＶＥＣＯは、アライナモデルと同じモデルサイズを共有し、単一言語コーパスおよび（おそらくは容量の希釈を回避するために）５０個の言語を含む並列コーパスを用いてトレーニングされる。単一言語データはＣＣ－１００から抽出され、一方、二言語データはＯＰＵＳウェブサイトから収集される。８７９個の言語ペアをカバーする６４億個（６．４Ｇ）の並列例がある。図６は、各モデルの基本統計値を示す。

【0045】

アライナモデル（「ＯｎｅＡｌｉｇｎｅｒ」）は、１００万（１Ｍ）バジェットの有無にかかわらず、ＯＰＵＳ－１００データセット全体でトレーニングされる。図５は、両方のモデルがＴａｔｏｅｂａ－３６データセットに関して最先端の結果を達成することを示す。図５および図６はまた、アライナモデルが他の２つのモデルと比較してよりデータ効率的であることを示す。

【0046】

図７は、ＯＰＵＳ－１００およびＣＣ－１００言語の共通部分にある各言語ペアについてＯＰＵＳ－１００データセットでトレーニングされたモデルに対するＴａｔｏｅｂａ－３６の性能を示す。性能は、言語ペアにわたって完全に一貫しており、これは、手元にあるほとんどすべての言語ペアでＯｎｅＡｌｉｇｎｅｒを微調整し、同様に実行されるモデルに到達することができることを示唆している。

【0047】

図８は、各言語ペアのデータ利用可能性に対する図７の散布図を示す。特定のデータサイズしきい値（１万（１０ｋ）から２万（２０ｋ）の間のどこか）に到達した後、すべての言語ペアが同様の性能を示す（perform）。これは、アライナモデル設計が、ＸＬＭ－Ｒに新しいパラメータを導入せず、ランダムに初期化されたパラメータをトレーニングする必要性を排除するため、部分的に予期される。

【0048】

図７と同様に、図９は、Ｎｅｗ－Ｔａｔｏｅｂａデータセットからの上位１６個のリッチリソース非英語中心ペアの各々に対してトレーニングされたアライナモデルの精度を示す。この場合も、性能は言語ペアにわたって一貫しており、これは、モデルが非英語言語ペアに対してトレーニングされても、依然として英語中心の評価セットに対して同様の性能を得ることができることを示す。

【0049】

図１０は、英語中心のデータに対してトレーニングされたモデルが非英語の評価データに対しても同様の性能を示すかどうかという逆の問題に対処する。図１０において、列方向に比較すると、ＯｎｅＡｌｉｇｎｅｒは、英語中心の言語ペアでトレーニングされているかどうか、または微調整言語と評価言語との間に重複があるかどうかにかかわらず、同様の性能を示す。英語中心の言語ペアまたは非英語中心の言語ペアに対して評価された各モデルを比較すると、どちらのモデルも、英語中心の言語ペアに対してより優れた性能を示す。これは、英語がＸＬＭ－Ｒの事前トレーニング中にトレーニングデータを支配するためである。

【0050】

例えば、「英語中心」と「非英語中心」との間でバイポーラ様式で分割するのではなく、スペクトルを用いて設定を記述し、Ｘ中心を探索することができ、Ｘが任意の言語とすることができる。言語Ｘの精度は、Ｘを含むすべての言語ペアの精度の平均として定義される。

【0051】

図１１は、ＣＣ－１００データセットにおける各言語の単一言語データサイズに対するＴｏｐ－１－ＥｎｇＮｅｗ－Ｔａｔｏｅｂａの性能の散布図を示す。図８と同様に、Ｎｅｗ－Ｔａｔｏｅｂａの性能は、特定のデータしきい値（１０．０ＧＢまでのどこか）まで単一言語データサイズと正に相関する。

【0052】

単一ペアのＴａｔｏｅｂａの結果はすでに満足のいくものである。しかしながら、リッチリソースのみのという仮定に違反することなくさらに優れた性能を目指したとしたらどうなるだろうか？他のリッチリソースペアを追加することが役立ち得ることが分かった。残念ながら、ＯＰＵＳ－１００は、どの言語ペアが最もリッチリソースであるかについてのランキングを提供していない（このデータセットでは各言語ペアのサイズは１００万（１Ｍ）を上限とし、元の論文にはサンプリング前のデータ統計を含んでいなかったことを想起されたい）ので、Ｎｅｗ－Ｔａｔｏｅｂａデータセットを使用し、各英語中心のペアの利用可能性に基づいてランク付けを行う。

【0053】

図１２は、Ｔａｔｏｅｂａデータセット上の上位１から上位３２のリッチリソース言語ペアの組合せの性能を示す。図１２では、９４．０の精度に達するまで、より多くの言語ペアが追加されるにつれて性能は単調に増加し、これは、固定の１００万（１Ｍ）バジェットの下ですべての言語ペアを用いてトレーニングするときに達成される最良の性能から、わずか０．４ポイント下回っているだけである。上位３２リスト内で最もリソースが少ない（the least）リッチリソース言語ＵＫでも、依然として、ＴａｔｏｅｂａＣｈａｌｌｅｎｇｅで定義された「最も高い」リソース範囲内にあり、約３４００万個のトレーニング例を含むので、このトレーニングは、トレーニングデータに対するリッチリソース制限に決して違反しないことに留意されたい。したがって、少なくとも文取り出しタスクの場合、その０．４ポイントの精度を改善する限界コストは、より多くの言語ペアを有するより多くの低リソース並列データを広範囲に収集する努力を正当化するようには見えない。

【0054】

図１３は、以前の研究と比較した、２つのＴｏｐ１モデルのＢＵＣＣＦ１スコアを示す。どちらのモデルも、ＶＥＣＯを１．２ポイント上回る。英語中心のＴｏｐ１モデルがｅｎ－ｅｓでトレーニングされることを想起されたい。言い換えると、モデルは、ｅｎとＢＵＣＣターゲット言語｛ｄｅ，ｆｒ，ｒｕ，ｚｈ｝の各々との間の単一の並列例を見ていないが、ＶＥＣＯは、言語ペアの各々に対して広範囲にトレーニングされる。この結果は、アライナモデルが、微調整言語ペアが英語中心であるかどうかにかかわらず、言語内モデルと同等の性能で言語間転移を行うことができるという観察と一致する。

【0055】

本発明の態様、実施形態、実装形態、または適用例を示すこの説明および添付の図面は、限定するものと解釈されるべきではない。本明細書および特許請求の範囲の趣旨および範囲から逸脱することなく、様々な機械的、組成的、構造的、電気的、および動作上の変更が行われ得る。いくつかの事例では、周知の回路、構造、または技法は、本開示の実施形態を不明瞭にしないために、詳細に示されていないかまたは説明されていない。２つ以上の図における同様の番号は、同じまたは類似の要素を表す。

【0056】

この説明では、本開示と一致するいくつかの実施形態を説明する具体的な詳細が記載される。実施形態の完全な理解を提供するために、多数の具体的な詳細が記載される。しかしながら、いくつかの実施形態は、これらの具体的な詳細の一部または全部がなくても実施され得ることが当業者には明らかであろう。本明細書に開示される具体定期な実施形態は、限定ではなく、例示的であることを意味するものである。当業者は、本明細書で具体的に説明されていないが、本開示の範囲および趣旨内にある他の要素を認識し得る。加えて、不必要な繰り返しを回避するために、一実施形態に関連して示され、説明される１つまたは複数の特徴は、特に別様に説明されない限り、または１つまたは複数の特徴が実施形態を非機能的にする場合、他の実施形態に組み込まれてもよい。

【0057】

例示的な実施形態が示され、説明されてきたが、広範囲の修正、変更、および置換が、前述の開示において企図され、いくつかの事例では、実施形態のいくつかの特徴は、他の特徴の対応する使用なしに採用され得る。当業者であれば、多くの変形、代替、および修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、広く、本明細書に開示される実施形態の範囲と一致するように解釈されることが適切である。

【図1】