2024-520023 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2024-520023視覚及び言語表現学習のためのシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-05-21

(54)【発明の名称】視覚及び言語表現学習のためのシステム及び方法

(51)【国際特許分類】

G06N 3/0455 20230101AFI20240514BHJP

G06N 3/0495 20230101ALI20240514BHJP

G06N 3/0895 20230101ALI20240514BHJP

【ＦＩ】

G06N3/0455

G06N3/0495

G06N3/0895

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023572887

(86)(22)【出願日】2022-01-26

(85)【翻訳文提出日】2024-01-23

(86)【国際出願番号】 US2022013889

(87)【国際公開番号】W WO2022250745

(87)【国際公開日】2022-12-01

(31)【優先権主張番号】63/193,286

(32)【優先日】2021-05-26

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/370,524

(32)【優先日】2021-07-08

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】506332063

【氏名又は名称】セールスフォースインコーポレイテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】リー，ジュインナン

(72)【発明者】

【氏名】ホイ，チュホン

(57)【要約】

本明細書に記載される実施形態は、視覚及び言語表現を学習するための視覚及び言語（Ｖ＋Ｌ）システム及び方法を提供する。具体的には、方法は、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットを受信することと、複数の画像サンプルを複数の符号化された画像サンプルに符号化し、複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化することと、複数の符号化された画像サンプル及び複数の符号化されたテキストサンプルに基づいて、第１の損失目標をコンピューティングすることと、複数の符号化された画像サンプルの第１のサブセット及び複数の符号化されたテキストサンプルの第２のサブセットを、複数の符号化された画像－テキストサンプルに符号化することと、複数の符号化された画像－テキストサンプルに基づいて、第２の損失目標をコンピューティングすることと、第１の損失目標及び第２の損失目標に少なくとも部分的に基づいてＶ＋Ｌモデルを更新することと、を含んでもよい。

【特許請求の範囲】

【請求項1】

画像エンコーダ、テキストエンコーダ、及びマルチモーダルエンコーダを含む視覚及び言語学習（Ｖ＋Ｌ）モデルを訓練するための方法であって、
データインターフェースを介して、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットを受信することであって、前記複数の画像サンプルのうちの少なくとも１つの画像サンプルは、前記複数のテキストサンプルのうちの少なくとも１つのテキストサンプルに対応する、ことと、
画像エンコーダによって、前記複数の画像サンプルを複数の符号化された画像サンプルに符号化し、テキストエンコーダによって、前記複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化することと、
前記複数の符号化された画像サンプル及び前記複数の符号化されたテキストサンプルに基づいて、第１の損失目標をコンピューティングすることと、
マルチモーダルエンコーダによって、前記複数の符号化された画像サンプルの第１のサブセット及び前記複数の符号化されたテキストサンプルの第２のサブセットを、複数の符号化された画像－テキストサンプルに符号化することと、
前記複数の符号化された画像－テキストサンプルに基づいて、第２の損失目標をコンピューティングすることと、
前記第１の損失目標及び前記第２の損失目標に少なくとも部分的に基づいて前記Ｖ＋Ｌモデルを更新することと、を含む、方法。

【請求項2】

前記第１の損失目標は、コンピューティングされソフトマックス正規化された画像からテキストへの類似度とラベル付きグラウンドトゥルースの画像からテキストへの類似度との間のクロスエントロピー、及びコンピューティングされソフトマックス正規化されたテキストから画像への類似度とラベル付きグラウンドトゥルースのテキストから画像への類似度との間のクロスエントロピーの平均期待和である画像－テキスト対照（ＩＴＣ）損失目標を含む、請求項１に記載の方法。

【請求項3】

前記第２の損失目標は、画像－テキストペアの予測された２クラス確率とグラウンドトゥルースの１ホット２クラス可能性との間のクロスエントロピーとしてコンピューティングされる画像－テキストマッチング（ＩＴＭ）損失目標と、前記符号化された画像－テキストサンプル内の１つ以上のマスクされたトークンの予測された可能性と、前記符号化された画像－テキストサンプル内の前記１つ以上のマスクされたトークンのグラウンドトゥルースのアイデンティティとの間のクロスエントロピーとしてコンピューティングされるＭＬＭ損失目標とを含む、請求項１に記載の方法。

【請求項4】

前記Ｖ＋Ｌモデルを更新することは、
前記第１の損失目標に少なくとも部分的に基づいて、前記画像エンコーダ及び前記テキストエンコーダを更新することと、
前記第２の損失目標に少なくとも部分的に基づいて、前記マルチモーダルエンコーダを更新することと、を含む、請求項１に記載の方法。

【請求項5】

モーメンタム蒸留（ＭｏＤ）を使用して、モーメンタムモデルを形成することと、
前記モーメンタムモデルを使用して、複数のモデル化された画像サンプル及び複数のモデル化されたテキストサンプルを生成することと、
前記複数のモデル化された画像サンプルを前記複数の画像サンプルに含めることと、
前記複数のモデル化されたテキストサンプルを前記複数のテキストサンプルに含めることと、をさらに含む、請求項１に記載の方法。

【請求項6】

前記画像エンコーダ、前記テキストエンコーダ、及び前記マルチモーダルエンコーダは、各々、トランスフォーマを含む、請求項１に記載の方法。

【請求項7】

前記符号化された画像－テキストサンプルの対照類似度を通じて陰性の画像－テキストペアをマイニングすることに少なくとも部分的に基づいて、前記第１のサブセット及び前記第２のサブセットを選択することをさらに含む、請求項１に記載の方法。

【請求項8】

画像－テキスト取り出しタスク、画像からテキストの取り出し（ＴＲ）タスク、テキストから画像の取り出し（ＩＲ）タスク、視覚的含意（ＶＥ）タスク、視覚的質問応答（ＶＱＡ）タスク、及び現実のための視覚的推論のための自然言語（ＮＬＶＲ）タスクからなる群から選択されるタスクに対して前記Ｖ＋Ｌモデルを微調整することをさらに含む、請求項１に記載の方法。

【請求項9】

Ｖ＋Ｌモデルを訓練するためのシステムであって、
非一時的なメモリと、
前記非一時的なメモリに結合され、かつ前記非一時的なメモリから命令を読み出して、前記システムに動作を実行させるように構成された１つ以上のプロセッサであって、前記動作は、
データインターフェースを介して、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットを受信することであって、前記複数の画像サンプルのうちの少なくとも１つの画像サンプルは、前記複数のテキストサンプルのうちの少なくとも１つのテキストサンプルに対応する、ことと、
画像エンコーダによって、前記複数の画像サンプルを複数の符号化された画像サンプルに符号化し、テキストエンコーダによって、前記複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化することと、
前記複数の符号化された画像サンプル及び前記複数の符号化されたテキストサンプルに基づいて、第１の損失目標をコンピューティングすることと、
マルチモーダルエンコーダによって、前記複数の符号化された画像サンプルの第１のサブセット及び前記複数の符号化されたテキストサンプルの第２のサブセットを、複数の符号化された画像－テキストサンプルに符号化することと、
前記複数の符号化された画像－テキストサンプルに基づいて、第２の損失目標をコンピューティングすることと、
前記第１の損失目標及び前記第２の損失目標に少なくとも部分的に基づいて、前記画像エンコーダ、前記テキストエンコーダ、及び前記マルチモーダルエンコーダの前記Ｖ＋Ｌモデルを更新することと、を含む、システム。

【請求項10】

前記Ｖ＋Ｌモデルを更新することは、前記第１の損失目標に少なくとも部分的に基づいて、前記画像エンコーダ及び前記テキストエンコーダを更新することと、前記第２の損失目標に少なくとも部分的に基づいて、前記マルチモーダルエンコーダを更新することと、を含む、請求項９に記載のシステム。

【請求項11】

前記動作は、
モーメンタム蒸留（ＭｏＤ）を使用して、モーメンタムモデルを形成することと、
前記モーメンタムモデルを使用して、複数のモデル化された画像サンプル及び複数のモデル化されたテキストサンプルを生成することと、
前記複数のモデル化された画像サンプルを前記複数の画像サンプルに含めることと、
前記複数のモデル化されたテキストサンプルを前記複数のテキストサンプルに含めることと、をさらに含む、請求項９に記載のシステム。

【請求項12】

前記画像エンコーダ、前記テキストエンコーダ、及び前記マルチモーダルエンコーダは、各々、トランスフォーマを含む、請求項９に記載のシステム。

【請求項13】

前記動作は、前記符号化された画像－テキストサンプルの対照類似度を通じて陰性の画像－テキストペアをマイニングすることに少なくとも部分的に基づいて、前記第１のサブセット及び前記第２のサブセットを選択することをさらに含む、請求項９に記載のシステム。

【請求項14】

前記動作は、画像－テキスト取り出しタスク、画像からテキストの取り出し（ＴＲ）タスク、テキストから画像の取り出し（ＩＲ）タスク、視覚的含意（ＶＥ）タスク、視覚的質問応答（ＶＱＡ）タスク、及び現実のための視覚的推論のための自然言語（ＮＬＶＲ）タスクからなる群から選択されるタスクに対して前記Ｖ＋Ｌモデルを微調整することをさらに含む、請求項９に記載のシステム。

【請求項15】

システムに動作を実行させるために実行可能な機械可読命令を記憶した非一時的な機械可読媒体であって、前記動作は、
データインターフェースを介して、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットを受信することであって、前記複数の画像サンプルのうちの少なくとも１つの画像サンプルは、前記複数のテキストサンプルのうちの少なくとも１つのテキストサンプルに対応する、ことと、
画像エンコーダによって、前記複数の画像サンプルを複数の符号化された画像サンプルに符号化し、テキストエンコーダによって、前記複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化することと、
前記複数の符号化された画像サンプル及び前記複数の符号化されたテキストサンプルに基づいて、第１の損失目標をコンピューティングすることと、
マルチモーダルエンコーダによって、前記複数の符号化された画像サンプルの第１のサブセット及び前記複数の符号化されたテキストサンプルの第２のサブセットを、複数の符号化された画像－テキストサンプルに符号化することと、
前記複数の符号化された画像－テキストサンプルに基づいて、第２の損失目標をコンピューティングすることと、
前記第１の損失目標及び前記第２の損失目標に少なくとも部分的に基づいて、前記画像エンコーダ、前記テキストエンコーダ、及び前記マルチモーダルエンコーダを更新することと、を含む、非一時的な機械可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

この出願は、２０２１年７月８日に出願された米国非仮出願第１７／３７０，５２４号及び２０２１年５月２６日に出願された米国仮出願第６３／１９３，２８６号に対する優先権を主張し、これらは、それらの全体が参照により本明細書に明示的に組み込まれる。

【0002】

本開示は、一般に、機械学習モデル及びニューラルネットワークに関し、より具体的には、視覚及び言語表現学習に関する。

【背景技術】

【0003】

視覚と学習の事前訓練（ＶＬＰ）は、画像－テキスト取り出し、画像－テキスト関係、視覚的な質問応答、又は視覚的な推論のための自然言語の予測など、下流の視覚と言語（Ｖ＋Ｌ）タスクを改善できる大規模な画像－テキストのペアからマルチモーダル表現を学習することを目的としている。
ＶＬＰアプローチは、視覚及び言語タスクに関してある程度の進歩を遂げてきたが、従来のＶＬＰフレームワークは、不十分なモデリング効率、高いアノテーション及び／又はコンピューティングオーバヘッド、及び／又はノイズへのオーバフィッティングを含むいくつかの制限に悩まされることがある。

【0004】

したがって、従来のＶＬＰ法に関連付けられた欠点を回避する改良されたＶＬＰシステム及び方法が必要である。

【図面の簡単な説明】

【0005】

【図1】本明細書に記載するいくつかの実施形態による、視覚と言語事前訓練（ＶＬＰ）法を実装するためのコンピューティングデバイスの簡略図である。

【0006】

【図2】本明細書に記載するいくつかの実施形態による、ＶＬＰシステムを訓練するためのプロセスフローの簡略図である。

【0007】

【図3】いくつかの実施形態による、図１のサブモジュールを実装する例示的な方法を例示する、簡略化された論理フロー図である。

【0008】

【図4A】本明細書に記載するいくつかの実施形態による、ＶＬＰシステムを使用するためのモデルアーキテクチャの簡略図である。

【図4B】本明細書に記載するいくつかの実施形態による、ＶＬＰシステムを使用するためのモデルアーキテクチャの簡略図である。

【0009】

図では、同一の呼称を有する要素は、同じ又は同様の機能を有する。

【発明を実施するための形態】

【0010】

機械学習法は、視覚と言語（Ｖ＋Ｌ）タスクに適用されてきた。このような機械学習法は、大規模な画像－テキストペアからマルチモーダル表現を学習することを目的とした、視覚と言語の事前学習（ＶＬＰ）を使用することが多い。この従来のＶＬＰフレームワークは、いくつかの制限に悩まされることがある。第１に、画像特徴と単語トークン埋め込みは非常に異なる空間に存在するため、マルチモーダルエンコーダが特徴と埋め込みの間の相互作用をモデル化することを学習することを困難にすることがある。第２に、従来のＶＬＰフレームワークは、事前訓練及び／又は高解像度画像のためのバウンディングボックスアノテーションを必要とし、その結果、高いアノテーション及び／又はコンピューティングオーバヘッドをもたらす。第３に、従来のＶＬＰ法を訓練するために使用される画像－テキストデータセットはノイズが多いことがあり、その結果、ノイズにオーバフィッティングし、それに付随して性能が低下する。

【0011】

従来のＶＬＰ方法に関連付けられた欠点を回避する改良されたＶＬＰシステム及び方法の必要性を考慮して、本明細書に記載される実施形態は、中間画像－テキスト対照（ＩＴＣ）損失を利用するＶ＋Ｌモデルを事前訓練するための方法などのＶＬＰシステム及び方法を提供する。例えば、訓練入力は、ユニモーダル画像及びテキストエンコーダに供給されてユニモーダル出力にトランスフォームされ、ＩＴＣ損失は、画像－テキストペアからのユニモーダル出力の予測された類似度とグラウンドトゥルースの類似度との間の損失を計算することによってコンピューティングされる。ＩＴＣ損失は、ユニモーダル画像及びテキストエンコーダによって出力された表現に少なくとも部分的に基づいてコンピューティングされ、これらのエンコーダは、ＩＴＣ損失に少なくとも部分的に基づいて更新することができる。このようにして、画像特徴及びテキスト特徴は、ＩＴＣ損失に基づく訓練プロセスを通じてアラインされ、マルチモーダルエンコーダがクロスモーダル学習を実行することを容易にする。追加的に、画像及びテキストのセマンティックな意味を理解するユニモーダルエンコーダの能力は、ＩＴＣ損失に基づく訓練を通して改善されてもよい。画像及びテキストのための共通の埋め込み空間もまた、ＩＴＣ損失に基づいて学習されてもよく、画像－テキストマッチングの目的がより有益なサンプルを見つけることを可能にする。

【0012】

一実施形態では、本明細書に記載されるＶＬＰシステム及び方法は、モーメンタム蒸留（ＭｏＤ）を使用して、グラウンドトゥルースのテキストによって記載されないことがある視覚的な概念を捕捉するための擬似ターゲットを生成する。ＭｏＤは、モーメンタムモデルを利用して、訓練中の追加の教師として擬似ターゲットを生成し、画像エンコーダ、テキストエンコーダ、及びマルチモーダルエンコーダを訓練するためにこれらの擬似ターゲットを供給し、ノイズの多い教師（ｓｕｐｅｒｖｉｓｉｏｎ）の下での学習の改善と、より大きな直っていない訓練データセットの使用を可能にする。

【0013】

本明細書で使用される場合、「ネットワーク」という用語は、任意の人工知能ネットワーク又はシステム、ニューラルネットワーク又はシステム、及び／又はそこで実装されるか、又はそれと共に実装される任意の訓練又は学習モデルを含む任意のハードウェア又はソフトウェアベースのフレームワークを含んでもよい。

【0014】

本明細書で使用される場合、「モジュール」という用語は、１つ以上の機能を実行するハードウェア又はソフトウェアベースのフレームワークを含んでもよい。いくつかの実施形態では、モジュールは、１つ以上のニューラルネットワーク上で実装されてもよい。ＶＬＰシステム及び方法

【0015】

図１は、いくつかの実施形態による、視覚及び学習（Ｖ＋Ｌ、ｖｉｓｉｏｎ－ａｎｄ－ｌｅａｒｎｉｎｇ）モデルを訓練するためのＶＬＰシステムを実装するためのコンピューティングデバイスの簡略図である。図１に示すように、コンピューティングデバイス１００は、メモリ１１０に結合されたプロセッサ１１０を含む。コンピューティングデバイス１００の動作は、プロセッサ１１０によって制御される。また、コンピューティングデバイス１００は、１つのプロセッサ１１０のみを有して示されているが、プロセッサ１１０は、コンピューティングデバイス１００内の１つ以上の中央処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路、グラフィック処理ユニット（ＧＰＵ）などを代表するものであってもよいことが理解される。コンピューティングデバイス１００は、スタンドアロンのサブシステムとして、コンピューティングデバイスに追加されたボードとして、及び／又は仮想マシンとして実装されてもよい。

【0016】

メモリ１２０は、コンピューティングデバイス１００によって実行されるソフトウェア及び／又はコンピューティングデバイス１００の動作中に使用される１つ以上のデータ構造を記憶するために使用されてもよい。メモリ１２０は、１つ以上のタイプの機械可読媒体を含んでもよい。機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップ又はカートリッジ、及び／又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体を含んでもよい。

【0017】

プロセッサ１１０及び／又はメモリ１２０は、任意の好適な物理的配置に配置されてもよい。いくつかの実施形態では、プロセッサ１１０及び／又はメモリ１２０は、同じボード、同じパッケージ（例えば、システムインパッケージ）、同じチップ（例えば、システムオンチップ）などに実装されてもよい。いくつかの実施形態では、プロセッサ１１０及び／又はメモリ１２０は、分散、仮想化、及び／又はコンテナ化されたコンピューティングリソースを含んでもよい。そのような実施形態とマッチングして、プロセッサ１１０及び／又はメモリ１２０は、１つ以上のデータセンター及び／又はクラウドコンピューティング施設に位置してもよい。

【0018】

いくつかの例では、メモリ１２０は、１つ以上のプロセッサ（例えば、プロセッサ１１０）によって動作するときに、１つ以上のプロセッサに本明細書にさらに詳細に記載される方法を実行させ得る実行可能コードを含む非一時的な有形機械可読媒体を含んでもよい。例えば、図示のように、メモリ１２０は、システム及びモデルを実装及び／又はエミュレートするため、及び／又は本明細書にさらに記載される方法のうちのいずれかを実装するために使用され得るＶＬＰモジュール１３０のための命令を含む。いくつかの例では、ＶＬＰモジュール１３０は、例えば、画像入力１４２及びテキスト入力１４４などのいくつかの入力を、データインターフェース１１５を介して、ユーザから受信してもよい。データインターフェース１１５は、ユーザからの画像入力及びテキスト入力を受信するユーザインターフェース、又はデータベースからの画像入力及びテキスト入力を受信するか、若しくは取り出す通信インターフェースのいずれかであってもよい。ＶＬＰモジュール１３０は、１つ以上の出力画像－テキストペアなどの出力１５０を生成してもよい。

【0019】

いくつかの実施形態では、ＶＬＰモジュール１３０は、画像エンコーダモジュール１３１及びテキストエンコーダモジュール１３２を含む。具体的には、画像エンコーダモジュールは、画像入力１４２の符号化を形成するように構成されている。テキストエンコーダモジュールは、テキスト入力１４４の符号化を形成するように構成されている。いくつかの実施形態では、ＶＬＰモジュール１３０は、マルチモーダルエンコーダ１３３を含む。マルチモーダルエンコーダは、画像入力の符号化とテキスト入力の符号化を受信するように構成されている。マルチモーダルエンコーダは、画像入力の符号化とテキスト入力の符号化とを融合するように構成されている。いくつかの実施形態では、ＶＬＰモジュール１３０は、モーメンタムモジュール１３４を含む。訓練中、モーメンタムモジュールは、マルチモーダルエンコーダからの出力を受信し、出力の指数移動平均バージョンなどの出力の擬似ターゲットを生成するモーメンタム蒸留（ＭｏＤ）を実行するように構成されている。

【0020】

コンピューティングデバイス１００などのコンピューティングデバイスのいくつかの例は、実行可能コードを含む非一時的な有形の機械読み取り可能媒体を含んでもよい。機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップ又はカートリッジ、及び／又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体である。

【0021】

図２は、いくつかの実施形態による、１つ以上の損失目標を使用してＶ＋Ｌモデルを訓練するためのプロセスフローの簡略図である。図２に示すように、画像入力２１０は、埋め込み２１４を生成するためにフィードフォワード画像エンコーダ２１２に渡される。入力画像Ｉは、｛ｖ_ｃｌｓ，ｖ_１，…ｖ_Ｎ｝のような埋め込み２１４のシーケンスに符号化され、ｖ_ｃｌｓは、［ＣＬＳ］トークンの埋め込みである。テキスト入力２２０は、埋め込み２２４を生成するためにフィードフォワードテキストエンコーダ２２２に渡される。例えば、テキストエンコーダは、入力テキストＴを、｛ｗ_ｃｌｓ、ｗ_１、…ｗ_Ｎ｝などの埋め込み２２４のシーケンスにトランスフォームする。

【0022】

Ｖ＋Ｌモデル２００は、画像エンコーダ２１２、テキストエンコーダ２２２、及びマルチモーダルエンコーダ２４０を含むことができる。画像－テキスト対照損失２３０は、マルチモーダルエンコーダ２４０での融合の前に、画像－テキストペアのユニモーダル表現をアラインするために生成され得る。画像－テキストマッチング損失２４２（対照類似度によってマイニングされたハード陰性２５０を使用）及びマスクされた言語モデリング損失２４４は、画像及びテキストとの間のマルチモーダル相互作用を学習するために適用される。ノイズの多いデータを用いた学習を改善するために、Ｖ＋Ｌモデル２００の訓練中の追加の監視としてモーメンタムモデル２６０（例えば、ベースモデルの移動平均バージョン）を使用して、擬似ターゲットを生成することができる。

【0023】

画像エンコーダ２１２及びテキストエンコーダ２２２は、１つ以上のフィードフォワード層及び１つ以上のセルフアテンション層を含むことができる。マルチモーダルエンコーダ２４０は、１つ以上のフィードフォワード層、１つ以上のクロスアテンション層、及び１つ以上のセルフアテンション層を含むことができる。例えば、１２層のトランスフォーマを画像エンコーダ２１２に使用することができ、６層のトランスフォーマをテキストエンコーダ２２２とマルチモーダルエンコーダ２４０の両方に使用することができる。テキストエンコーダ２２２は、ＢＥＲＴモデルの最初の６つの層を使用して初期化され、マルチモーダルエンコーダは、ＢＥＲＴモデルの最後の６つの層を使用して初期化される。画像特徴は、マルチモーダルエンコーダ２４０の各層におけるクロスアテンションを通じてテキスト特徴と融合され得る。

【0024】

画像エンコーダ２１２からの符号化２１４とテキストエンコーダ２２２からの符号化２２４は、画像－テキスト対照学習（ＩＴＣ）損失関数２３０を含む第１の損失目標を生成するために使用され、画像エンコーダ２１２からの符号化２１４とテキストエンコーダ２２２からの符号化２２４をアライン及び比較することができる。画像－テキスト対照学習（ＩＴＣ）は、画像エンコーダ２１２からの符号化２１４とテキストエンコーダ２２２からの符号化２２４との融合の前に、より良いユニモーダル表現を学習することを目的とする。

【0025】

各画像及びテキストの画像－テキスト対照学習（ＩＴＣ）損失を生成するために、複数の画像－テキストペアにおける各画像と各テキストとの間の類似度と、ペアになっていない画像及びテキストとの間の類似度とを生成することができる。例えば、類似度関数

【数1】

を使用して、各画像と各テキストの画像からテキストへの類似度、テキストから画像への類似度を計算することができ、そのため、ペアにされた画像－テキストがより高い類似度スコアを有する。ｇ_ｖ及びｇ_ｗは、画像エンコーダ２１２からの符号化２１４の［ＣＬＳ］埋め込み、及びテキストエンコーダ２２２からの符号化２２４の［ＣＬＳ］埋め込みを、正規化低次元（２５６－ｄ）表現にマッピングする線形トランスフォームである。

【0026】

画像－テキスト対照学習（ＩＴＣ）損失は、さらに、モーメンタムユニモーダルエンコーダ２６０からの符号化された画像サンプル及び符号化されたテキストサンプルの最新のＭ個の画像－テキスト表現を２つのキューに組み込むことができる。モーメンタムユニモーダルエンコーダ２６０からの符号化２１４及び符号化２２４の正規化特徴は、

【数2】

及び

【数3】

として示される。画像－テキスト類似度は、

【数4】

を使用して、計算されてもよい。テキスト－画像類似度は、

【数5】

を使用して計算することができる。特定の態様では、画像からテキストへの類似度及びテキストから画像類似度は、ソフトマックスによって、

【数6】

と正規化することができ、式中、τは、ハイパーパラメータである。

【0027】

グランドトゥルースの１ホット類似度は、

【数7】

及び

【数8】

として示すことができ、式中、陰性のペアは、０の確率を有し、陽性のペアは、１の確率を有する。

【0028】

画像－テキスト対照学習（ＩＴＣ）損失関数は、コンピューティングされソフトマックス正規化された画像からテキストへの類似度とラベル付きグラウンドトゥルースの画像からテキストへの類似度との間のクロスエントロピー、及びコンピューティングされソフトマックス正規化されたテキストから画像への類似度とラベル付きグラウンドトゥルースのテキストから画像への類似度との間のクロスエントロピーの平均期待和としてコンピューティングされる。

【0029】

例えば、画像－テキスト対照（ＩＴＣ）学習損失は、符号化された画像サンプルと符号化されたテキストサンプルとの間の予測された類似度ｐと、グラウンドトゥルースの１ホット類似度ｙとの間のクロスエントロピーＨとして定義することができ、例えば、

【数9】

である。

【0030】

一実施形態では、画像エンコーダ２１２及びテキストエンコーダ２２２からの符号化は、さらにフィードフォワードマルチモーダルエンコーダ２４０に渡され、符号化された画像－テキストサンプルを生成する。マルチモーダルエンコーダ２４０は、画像－テキストマッチング（ＩＴＭ）損失２４２とマスクされた言語モデリング（ＭＬＭ）損失２４４とを含む第２の損失目標を生成するように構成されている。ＩＴＭ損失２４２は、符号化された画像－テキストサンプルの予測された画像－テキストマッチングと、符号化された画像－テキストサンプルの対応するグラウンドトゥルース画像－テキストマッチングとの間の期待されるクロスエントロピーに基づいてコンピューティングされる。ＩＴＭ損失２４２は、符号化された画像－テキストサンプルの対照類似度を通じてマイニングされたハード陰性２５０を使用して生成することができる。

【0031】

画像－テキストマッチング（ＩＴＭ）２４２は、符号化された画像－テキストサンプルの２クラスの可能性、例えば、符号化された画像－テキストサンプル中の画像とテキストのペアが陽性（マッチングする）であるか陰性（マッチングしない）であるかを予測する。マルチモーダルエンコーダ２４０の［ＣＬＳ］トークンの出力埋め込みは、符号化された画像－テキストサンプル内の画像とテキストのペアの結合表現として使用することができ、全結合（ＦＣ）層が付加され、その後にソフトマックス関数によって、画像－テキストペアの２クラスの可能性ｐ^ｉｔｍ（すなわち、画像－テキストペアが陽性か陰性か）を予測することができる。ＩＴＭ損失は、画像－テキストペアの予測された２クラスの可能性と、グラウンドトゥルースの１ホット２クラスの可能性との間のクロスエントロピーＨとすることができ、例えば、

【数10】

であり、式中、ｙ^ｉｔｍは、グラウンドトゥルースラベルを表す２次元の１ホットベクトルである。

【0032】

マルチモーダルエンコーダ２４０はまた、マスク言語モデリング（ＭＬＭ）損失２４４を生成して、画像入力２１０とテキスト入力２２０との間のマルチモーダル相互作用を学習するように構成されている。ＭＬＭ損失２４４は、符号化された画像－テキストサンプルにおける１つ以上のマスクされたトークンの予測された可能性と、符号化された画像－テキストサンプルの１つ以上のマスクされたトークンのグランドトゥルースアイデンティティとの間の損失関数として定義することができる。

【0033】

マスク言語モデリング（ＭＬＭ）は、符号化された画像－テキストサンプル中のマスクされた単語を予測するために、符号化された画像－テキストサンプルからの画像とコンテキスト・テキストの両方を利用する。入力トークンは、１５％などの所定の確率でランダムにマスクされ、特別なトークン［ＭＡＳＫ］で置換される。例えば、置換は、１０％のランダムトークン、１０％の変更なし、及び８０％の［ＭＡＳＫ］である。

【0034】

ＭＬＭ学習損失２４４は、符号化された画像－テキストサンプル内のマスクされたトークンに対する予測された確率と、グラウンドトゥルースの１ホット語彙分布との間のクロスエントロピーＨとすることができ、例えば、

【数11】

であり、式中、

【数12】

は、マスクされたテキストを示すために使用することができ、

【数13】

は、マスクされたトークンに対するモデルの予測された確率を示すために使用することができ、ｙ^ｍｓｋは、グラウンドトゥルーストークンが１の確率１を有する。

【0035】

符号化された画像及びテキストサンプルのサブセットは、マルチモーダルエンコーダによって符号化された画像－テキストサンプルに符号化される前に、少なくとも部分的に陰性マイニングに基づいて選択することができる。ハード陰性（ｈａｒｄｎｅｇａｔｉｖｅｓ）は、ゼロのコンピューティングオーバヘッドでＩＴＭタスクのためにサンプリングできる。陰性の画像－テキストペアは、それらが、類似したセマンティクスを共有し、細かい粒度の詳細が異なる場合、ハードである。方程式（１）からの対照類似度は、ハード陰性を見つけるために使用することができる。ミニバッチ内の各画像に対して、対照類似度分布に従って、同じバッチから１つの陰性のテキストをサンプリングすることができ、画像により類似したテキストは、サンプリングされる可能性がより高い。同様に、各テキストに対して１つのハード陰性画像をサンプリングすることができる。

【0036】

いくつかの実施形態では、視覚言語学習（Ｖ＋Ｌ）モデルは、第１の損失目標及び第２の目標、例えば、ＩＴＣ損失、ＭＬＭ損失、及びＩＴＭ損失の組み合わせなどの第１の損失目標及び第２の損失目標の組み合わせに基づいて更新される。例えば、

【数14】

と表される。

【0037】

一実施形態では、最終的な損失目標は、ＩＴＣ損失、ＭＬＭ損失、及びＩＴＭ損失の重み付け和であってもよく、重み付け係数は、経験的にか、又は予め定義される。

【0038】

一実施形態では、モデルを訓練するためのノイズの多い入力データが存在する場合などに学習を改善するために、モデルを訓練するための元のノイズの多いデータの代替としてモーメンタム蒸留（ＭｏＤ）を使用して擬似ターゲットが生成される。エンコーダ（例えば、画像エンコーダ２１２、テキストエンコーダ２２２、及びマルチモーダルエンコーダ２４０）の全てについて、擬似ターゲットがモーメンタムモデル２６０によって生成される。モーメンタムモデルは、連続的に進化する教師モデルであり、ユニモーダル及びマルチモードエンコーダを含む全てのエンコーダの指数移動平均バージョンを含む。

【0039】

訓練中に、視覚及び言語ベースモデルは、その予測がモーメンタムモデルからの予測と一致するように訓練することができる。具体的には、ＩＴＣを修正するために、画像－テキスト類似度は、モーメンタムモデルによって生成された擬似ターゲットで調整することができ、例えば、

【数15】

であり、同様に、テキスト－画像類似度は、モーメンタムモデルによって生成された擬似ターゲットで調整することができ、例えば、

【数16】

である。ソフト擬似ターゲットｑ^ｉ２ｔ及び^ｑｔ２ｉは、式（１）においてｓをｓ′で置換することによって生成することができる。ＩＴＣは、ＭｏＤ擬似ターゲットによって修正され、ＩＴＣ－ＭｏＤ損失を生成することができ、例えば、

【数17】

と定義される。

【0040】

同様に、ＭＬＭを修正するために、マスクされたトークンに対するモーメンタムモデルの予測確率は、例えば、

【数18】

によって生成され得る。ＭＬＭは、ＭｏＤ擬似ターゲットによって修正され、ＭＬＭ－ＭｏＤ損失を生成することができ、例えば、

【数19】

【0041】

いくつかの実施形態では、視覚及び言語学習（Ｖ＋Ｌ）モデルは、第１の損失目標及び第２の目標、例えば、モーメンタムモデルによって生成された擬似ターゲットによって修正された第１の損失目標及び第２の損失目標の組み合わせで、少なくとも部分的に更新される。

【0042】

図３は、いくつかの実施形態による、図１のサブモジュール１３１～１３４を実装する視覚及び言語表現学習のための方法３００を例示する簡略化された論理フロー図である。方法３００のプロセス３１０～３６０のうちの１つ以上は、少なくとも部分的に、１つ以上のプロセッサによって実行されるときに、１つ以上のプロセッサにプロセス３１０～３６０のうちの１つ以上を実行させ得る非一時的な有形機械可読媒体に記憶された実行可能コードの形態で実装されてもよい。いくつかの実施形態において、方法３００は、モジュール１３０によって使用される方法に対応してもよい。

【0043】

プロセス３１０では、複数の画像サンプルと複数のテキストサンプルとを含む訓練データセットが、例えば、図１のデータインターフェース１１５を介して受信されてもよい。いくつかの実施形態では、複数の画像サンプルのうちの少なくとも１つの画像サンプルは、複数のテキストサンプルのうちの少なくとも１つのテキストサンプルに対応する。

【0044】

プロセス３２０では、画像エンコーダは、複数の画像サンプルを複数の符号化された画像サンプルに符号化してもよい。プロセス３２０では、テキストエンコーダは、複数のテキストサンプルを複数の符号化されたテキストサンプルに符号化してもよい。画像エンコーダ又はテキストエンコーダの符号化は、同時に又は異なる時間に行われてもよい。例えば、画像エンコーダの符号化は、テキストエンコーダの符号化の前に行われてもよい。例えば、画像エンコーダの符号化は、テキストエンコーダの符号化の後に行われてもよい。いくつかの実施形態では、画像エンコーダは、トランスフォーマである。さらなる実施形態では、テキストエンコーダは、トランスフォーマである。

【0045】

プロセス３３０では、第１の損失目標が、複数の符号化された画像サンプル及び複数の符号化されたテキストサンプルに基づいてコンピューティングされてもよい。第１の損失目標は、符号化された画像サンプルと符号化されたテキストサンプルとの間の予測された類似度と、対応するグランドトゥルース類似度との間の損失関数を参照する画像－テキスト対照損失（ＩＴＣ）損失目標を含んでもよい。

【0046】

追加的及び代替的な実施形態では、方法３００又はプロセス３３０は、モーメンタム蒸留（ＭｏＤ）を使用して、モーメンタムモデルを形成することと、モーメンタムモデルを使用して、複数のモデル化された画像サンプル及び複数のモデル化されたテキストサンプルを生成することと、複数のモデル化された画像サンプルを複数の画像サンプルに含めることと、複数のモデル化されたテキストサンプルを複数のテキストサンプルに含め、モデル化された画像サンプルとモデル化された画像サンプルとを使用して、ＩＴＣ損失目標などの第１の目標を生成することと、をさらに含んでもよい。

【0047】

プロセス３４０では、マルチモーダルエンコーダは、複数の符号化された画像サンプルの第１のサブセット及び複数の符号化されたテキストサンプルの第２のサブセットを、複数の符号化された画像－テキストサンプルに符号化してもよい。いくつかの実施形態では、マルチモーダルエンコーダは、トランスフォーマである。第１のサブセット及び第２のサブセットは、類似のセマンティクスを共有するが、細かい粒度の詳細において異なる陰性マイニング又は陰性の画像－テキストペアのマイニングに少なくとも部分的に基づいて選択されてもよい。陰性の画像－テキストペアは、少なくとも、式（１）からの対照類似度分布に基づいて選択することができる。

【0048】

プロセス３５０では、第２の損失目標は、複数の符号化された画像－テキストサンプルに基づいてコンピューティングされ、画像－テキストマッチング（ＩＴＭ）損失目標とマスク言語モデリング（ＭＬＭ）損失目標とを含む。ＩＴＭ損失は、符号化された画像－テキストサンプルの予測された画像－テキストマッチングと、符号化された画像－テキストサンプルの対応するグラウンドトゥルース画像－テキストマッチングとの間の損失関数とすることができる。ＭＬＭ損失は、符号化された画像－テキストサンプルにおけるマスクされたトークンについて予測されたものと、符号化された画像－テキストサンプルのグラウンドトゥルース語彙分布との間の損失関数とすることができる。

【0049】

追加の代替的な実施形態では、方法３００又はプロセス３５０は、モーメンタムモデルからのモデル化画像サンプル及びモデル化画像サンプルを使用して、ＭＬＭ損失目標などの第２の目標を生成することをさらに含んでもよい。

【0050】

プロセス３６０では、Ｖ＋Ｌモデルは、第１の損失目標及び第２の損失目標に少なくとも部分的に基づいて更新されてもよい。例えば、Ｖ＋Ｌモデルを更新することは、第１の損失目標と第２の損失目標との組み合わせに基づいて、画像エンコーダ、テキストエンコーダ、及びマルチモーダルエンコーダを更新することを含む。別の例では、Ｖ＋Ｌモデルを更新するステップは、第１の損失目標に少なくとも部分的に基づいて画像エンコーダ及びテキストエンコーダを更新することと、第２の損失目標に少なくとも部分的に基づいてマルチモーダルエンコーダを更新することと、を含む。

【0051】

さらなる実施形態では、方法３００は、画像－テキスト取り出しタスク、画像からテキストの取り出し（ＴＲ、ｉｍａｇｅ－ｔｏ－ｔｅｘｔｒｅｔｒｉｅｖａｌ）タスク、テキストから画像の取り出し（ＩＲ、ｔｅｘｔ－ｔｏ－ｉｍａｇｅｒｅｔｒｉｅｖａｌ）タスク、視覚的含意（ＶＥ、ｖｉｓｕａｌｅｎｔａｉｌｍｅｎｔ）タスク、視覚的質問応答（ＶＱＡ、ｖｉｓｕａｌｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ）タスク、及び現実のための視覚的推論のための自然言語（ＮＬＶＲ、ｎａｔｕｒａｌｌａｎｇｕａｇｅｆｏｒｖｉｓｕａｌｒｅａｓｏｎｉｎｇｆｏｒｒｅａｌ）タスクからなる群から選択されるタスクに対してＶ＋Ｌモデルを微調整することをさらに含んでもよい。

【0052】

一実施形態では、画像－テキストペアの異なる「ビュー」間の相互情報（ＭＩ）の下限を最大化することができる。

【0053】

形式的に言えば、２つの確率変数ａ及びｂが与えられると、相互情報（ＭＩ）は、それらの依存性を測定し、

【数20】

として定義される。

【0054】

相互情報の下限を最大化するために、ＩｎｆｏＮＣＥとして知られる自己教師あり学習法が提案されている。すなわち、

【数21】

であり、式中、ｓ（ａ，ｂ）はスコアリング機能（例えば、２つの表現間の内積）であり、

【数22】

は、陽性のサンプルｂと、提案分布から抽出された

【数23】

の陰性のサンプルを含む。ワンホットラベル（ｅｑｎ（２）の変形）を用いたＩＴＣ損失の代替的なバージョンは、

【数24】

とすることができる。

【0055】

【数25】

を最小化することは、ＩｎｆｏＮＣＥの対称バージョンを最大化することと見ることができる。したがって、ＩＴＣは、２つのモダリティ（すなわち、Ｉ及びＴ）を画像－テキストペアの異なるビューとみなし、各正のペアについて画像とテキストとの間のＭＩを最大化するようにユニモーダルエンコーダを訓練する。

【0056】

ＭＬＭは、マスクされた単語トークンとそのマスクされたコンテキスト（すなわち、画像＋マスクされたテキスト）との間のＭＩを最大化するものとして解釈することができる。具体的には、ワンホットラベル（ｅｑｎ（３）の変形）を用いたＭＬＭ損失の代替的なバージョンは、

【数26】

とすることができる。

【0057】

式中、

【数27】

は、単語トークンｙをベクトルにマッピングするルックアップ関数であり、

【数28】

は、全語彙セットであり、

【数29】

は、マスクされたトークンに対応するマルチモーダルエンコーダの最終的な隠れ状態を返す関数である。したがって、ＭＬＭは、画像－テキストペアの２つのビューを、（１）ランダムに選択された単語トークン、（２）画像＋その単語がマスクされたコンテキスト・テキスト、と考える。

【0058】

ＩＴＣとＭＬＭは両方とも、画像－テキストペアから部分的な情報を取ることによってビューを生成する。モーメンタム蒸留はＩＴＣとＭＬＭを向上させ、提案した分布全体から異なるビューを生成する。ＩＴＣでは、画像－テキストペアの代替的なビューを、訓練データセット内でセマンティックに類似した画像とテキストを見つけることによって生成することができる。ＭＬＭでは、マスクされた単語の代替的なビューを、語彙セット全体から生成することができる。したがって、ＭｏＤは、元のビューに対してデータ拡張を実行するものと考えることができる。ＭｏＤは、元の画像－テキストのペアには存在しない多様なビューのセットを生成し、これは、モデルの汎化性能を向上させることができる。

【0059】

例示的なシステムアーキテクチャ及び性能
例示的な実験を実施して、下流のタスクにおけるＶＬＰシステム（例えば、事前訓練された視覚及び学習モデル又はＶ＋Ｌモデル）の性能を評価した。いくつかの実施形態では、事前訓練されたＶ＋Ｌモデルは、微調整され、画像－テキスト取り出し、視覚的含意、視覚的質問応答、及び現実の視覚的推論のための自然言語を含む１つ以上の下流タスクに適用することができる。

【0060】

Ｖ＋Ｌモデルは、１２３．７Ｍのパラメータを有するＢＥＲＴと８５．８ＭパラメータのＶｉＴ－Ｂ／１６からなる。このモデルは、８つのＮＶＩＤＩＡＡ１００ＧＰＵで５１２のバッチサイズを使用して、３０エポックに対して事前訓練された。ＡｄａｍＷオプティマイザは、０．０２の重み減衰で使用された。ＡｄａｍＷオプティマイザのさらなる詳細は、その全体が参照により明示的に組み込まれているｏｓｈｃｈｉｌｏｖ，ＤｅｃｏｕｐｌｅｄＷｅｉｇｈｔＤｅｃａｙＲｅｇｕｌａｒｉｚａｔｉｏｎ，ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７１１．０５１０１，２０１７に提供されている。学習率は、最初の１，０００回の反復で１ｅ^－４までウォームアップされ、コサインスケジュールに従って１ｅ^－５まで減衰する。

【0061】

例えば、事前訓練データは、２つのウェブデータセット（ＣｏｎｃｅｐｔｕａｌＣａｐｔｉｏｎｓとＳＢＵＣａｐｔｉｏｎｓ）と２つのドメイン内データセット（ＣＯＣＯａｎｄＶｉｓｕａｌＧｅｎｏｍｅ）を使用して生成された。ユニークな画像の総数は４．０Ｍであり、画像－テキストのペアの数は５．１Ｍである。Ｖ＋Ｌモデルが大規模なウェブデータでスケーラブルであることを示すために、よりノイズの多いＣｏｎｃｅｐｔｕａｌ１２Ｍデータセットも含めることができ、画像の総数を１４．１Ｍ２に増やすことができる。

【0062】

事前訓練中に、解像度２５６×２５６のランダム画像クロップを入力として取り、ＲａｎｄＡｕｇｍｅｎｔも適用した。ＲａｎｄＡｕｇｍｅｎｔのさらなる詳細は、その全体が参照により本明細書に明示的に組み込まれるＣｕｂｕｋらのＲａｎｄＡｕｇｍｅｎｔ：Ｐｒａｃｔｉｃａｌａｕｔｏｍａｔｅｄｄａｔａａｕｇｍｅｎｔａｔｉｏｎｗｉｔｈａｒｅｄｕｃｅｄｓｅａｒｃｈｓｐａｃｅ，ＣＶＰＲＷｏｒｋｓｈｏｐｓ，ｐａｇｅｓ７０２－０３，２０２０に提供される。テキストは色情報を含むことが多いため、色の変更はＲａｎｄＡｕｇｍｅｎｔから除去された。

【0063】

微調整中に、画像解像度を３８４×３８４に増やし、画像パッチの位置符号化が補間された。モーメンタムモデルを更新するためのモーメンタムパラメータは０．９９５にセットされ、画像－テキスト対照学習に使用されるキューのサイズは６５５３６にセットされる。蒸留重みαは、最初のエポック内で直線的に強化された（ｒａｍｐｕｐ）。

【0064】

画像－テキスト取り出しは、２つのサブタスク、すなわち、画像からテキストの取り出し（ＴＲ）とテキストから画像の取り出し（ＩＲ）を含む。Ｖ＋Ｌモデルは、Ｆｌｉｃｋｒ３０ＫとＣＯＣＯの各データセットからの訓練サンプルを使用して微調整した後、Ｆｌｉｃｋｒ３０ＫとＣＯＣＯのベンチマークで評価された。Ｆｌｉｃｋｒ３０Ｋでのゼロショット取り出しのために、ＣＯＣＯで微調整したＶ＋Ｌモデルが評価された。

【0065】

微調整中、ＩＴＣ損失（式（２））とＩＴＭ損失（式（４））が共に最適化された。ＩＴＣは、ユニモーダル特徴の類似度に基づいて画像－テキストスコアリング関数を学習するが、ＩＴＭは、画像とテキスト間の細かい粒度の相互作用をモデル化してマッチングスコアを予測する。下流データセットは各画像に対して複数のテキストを含むため、ＩＴＣのグランドトゥルースラベルは、キュー内の複数の陽性を考慮するように変更され、各陽性は、１／＃陽性のグランドトゥルース確率を持つ。

【0066】

推論中、特徴類似度スコアｓ_ｉｔｃが、最初に全ての画像－テキスト対に対してコンピューティングされた。次いで、上位ｋ個の候補が選択され、ランキングのためのＩＴＭスコアｓ_ｉｔｍを計算するために使用された。Ｖ＋Ｌモデルの推論速度は、全ての画像－テキストのペアに対してＩＴＭスコアをコンピューティングする必要がある方法よりもはるかに高速である。

【0067】

視覚的含意（ＳＮＬＩ－ＶＥ）は、画像とテキストの間の関係が含意、中立、矛盾のいずれであるかを予測するための細かい粒度の視覚的推論タスクである。視覚的含意は、３方向の分類問題と考えることができる。クラス確率は、［ＣＬＳ］トークンのマルチモーダルエンコーダ表現上の多層パーセプトロン（ＭＬＰ）を使用して予測できる。

【0068】

視覚的質問応答（「ＶＱＡ」）は、画像と質問が与えられと、モデルが応答を予測することを必要とする。ＶＱＡを複数応答分類問題として定式化する既存の研究とは異なり、ＶＱＡは応答生成問題として組み立てることができる。具体的には、６層のトランスフォーマーデコーダを使用して応答を生成することができる。

【0069】

図４Ａ～図４Ｂは、本明細書に記載するいくつかの実施形態による、ＶＬＰシステムを使用するためのモデルアーキテクチャの簡略図である。図４Ａに示すように、画像質問埋め込みが与えられると、応答を生成するために自己回帰デコーダ４５０が追加されることを除いて、図２と実質的に同じモデルが視覚的質問応答に使用される。画像エンコーダ４２０は、画像入力４１０を画像埋め込みに符号化し、テキストエンコーダ４２２は、質問入力４１２を質問埋め込みに符号化する。画像埋め込みは、クロスアテンション入力４４０を介してマルチモーダルエンコーダ４３０に渡されて、テキストエンコーダ４２２からの質問埋め込みを使用してマルチモーダル画像－質問埋め込みを生成する。自己回帰応答デコーダ４５０は、クロスアテンション入力４４０を介してマルチモーダル画像質問埋め込みを受信し、シーケンス開始トークン（［ＣＬＳ］）４６０がデコーダの初期入力トークンとして使用される。同様に、シーケンス終了トークン（［ＳＥＰ］）がデコーダ出力の最後に付加され、生成の完了を示す。応答デコーダ４５０は、マルチモーダルエンコーダ４３０からの事前訓練された重みを使用して初期化され、言語モデリング損失で微調整される。既存の方法との公正な比較のために、応答デコーダ４５０は、推論中に３，１９２の候補応答からのみ生成するように制約された。

【0070】

図４Ｂに示すように、現実の視覚的推論のための自然言語は、テキストが画像のペアを正確に記載しているかどうかを予測するためにモデルを使用する。自然な拡張は、２つの画像４９０及び４９２に対する推論を可能にするマルチモーダルエンコーダ４７０に対して行うことができる。２つの画像４９０及び４９２は、全てのパラメータを共有する２つの画像エンコーダ４９４及び４９６に供給して、埋め込みを生成し、マルチモーダルエンコーダ４７０に供給することができる。テキスト入力４７５は、マルチモーダルエンコーダ４７０に入る埋め込みを生成するために、テキストエンコーダ４８５に供給することもできる。マルチモーダルエンコーダ４７０の各層は、２つの連続するトランスフォーマブロック４８０を有するように複製され、各ブロックは、セルフアテンション層、クロスアテンション層、及びフィードフォワード層を含む（図２を参照）。マルチモーダルブロック４８０は、クロスアテンション層を共有することもできる。各層内の２つのマルチモーダルブロック４８０は、同じ事前訓練された重みを使用して初期化され、２つのクロスアテンション層は、キー及び値に対して同じ線形投影重みを共有する。

【0071】

訓練中、２つのマルチモーダルブロック４８０は、画像ペア４９０及び４９２に対する画像埋め込みの２つの異なるセットを受信する。ＭＬＰ分類器は、「真」又は「偽」を予測するために、［ＣＬＳ］トークンのマルチモーダルエンコーダ表現で学習することができる。

【0072】

画像ペア入力のための新しいマルチモーダルエンコーダを準備するために、追加の事前訓練ステップを実行することができる。テキスト割り当て（ＴＡ）タスクは、画像とテキストのペアが与えられると、モデルが、テキストを第１の画像、第２の画像のいずれかに割り当てるか、又はいずれにも割り当てないようにする必要があるように設計され得る。これは３方向分類問題と考えることができ、ＦＣ層は、［ＣＬＳ］表現上で割り当てクラスを予測するために使用され得る。このモデルは、４Ｍの画像を用いて１エポックのみテキストアラインメント（ＴＡ）で事前訓練された。

【0073】

Ｖ＋Ｌモデルは、下流のタスク（画像－テキスト対照学習、対照ハード陰性マイニング、及びモーメンタム蒸留を含む）において、表１に示すように評価された。表１は、Ｖ＋Ｌモデルの様々なバリエーションを用いた下流タスクの性能を示している。ベースラインの事前訓練タスク（ＭＬＭ＋ＩＴＭ）と比較して、ＩＴＣを追加すると、全てのタスクにわたって事前訓練されたモデルの性能が大幅に改善された。提案したハード陰性マイニングは、より有益な訓練サンプルを見つけることによりＩＴＭを改善した。さらに、モーメンタム蒸留を追加すると、ＩＴＣ、ＭＬＭ、及び全ての下流タスク（画像からテキストの取り出し（又はＴＲ）、テキストから画像の取り出し（又はＩＲ）、視覚的含意（又はＶＥ）、視覚的質問応答（又はＶＱＡ）、及び現実のための視覚的推論のための自然言語（又はＮＬＶＲ））の両方の学習が改善された。Ｖ＋Ｌモデルは、よりノイズの多いウェブデータを効果的に活用して、１４Ｍの事前訓練された画像などの事前訓練の性能を向上させることができる。

【表1】

【0074】

表１では、Ｒ＠１、Ｒ＠５及びＲ＠１０の平均が、テキストの取り出し（ＴＲ）及び画像の取り出し（ＩＲ）について報告された。また、表１では、ＩＴＣは、画像－テキスト対照学習を指し、ＭＬＭは、マスクされた言語モデリングを指し、ＩＴＭｈａｒｄは、対照ハード陰性マイニングを用いた画像－テキストマッチングを指す。

【0075】

ＭｏＤ：モーメンタム蒸留表２と表３は、それぞれ微調整とゼロショットの画像－テキスト取り出しの結果を報告している。Ｖ＋Ｌモデルは、最先端の性能を達成し、桁違いに大きなデータセットで訓練された他の方法よりも優れている。訓練画像の数が４Ｍから１４Ｍに増加したときのＶ＋Ｌモデルのかなりの改善を考慮すると、Ｖ＋Ｌモデルは、より大規模なウェブ画像－テキストペアで訓練することができる。

【表2】

【表3】

【0076】

表４は、他のＶ＋Ｌ理解タスクに関する既存の方法との比較を報告している。４Ｍの事前訓練画像により、Ｖ＋Ｌモデルは最先端の性能を達成した。１４Ｍの事前訓練画像では、Ｖ＋Ｌモデルは、追加のオブジェクトタグや敵対的なデータ拡張を必要とする方法を含む既存の方法よりも大幅に優れていた。ＶＩＬＬＡと比較して、Ｖ＋Ｌモデルは、ＶＱＡテスト－ｓｔｄで２．４７％、ＮＬＶＲ２テスト－Ｐで３．８４％、ＳＮＬＩ－ＶＥテストで１．８８％の絶対的な改善を達成した。Ｖ＋Ｌモデルは検出器を必要とせず、低解像度の画像を必要とするため、既存の方法と比較してはるかに高速な推論速度（ＵＮＩＴＥＲ又はＶＩＬＬＡよりも１０倍以上高速）も享受する。

【表4】

【0077】

視覚的なグラウンディングは、特定のテキスト説明に対応する画像内の領域を特定することを目的とする。Ｖ＋Ｌモデルは、その注意を探ることによって、バウンディングボックスのアノテーションについて訓練されることなく、視覚的なグラウンディングを達成することが示された。実験は、広く使用されているＲｅｆＣＯＣＯ＋データセットで実行された。事前訓練されたモデルは、画像－テキスト監視のみを用いて、ＲｅｆＣＯＣＯ＋の訓練セットで微調整された。画像－テキスト取り出しに対して同様の微調整戦略に従った。表５が、この結果を報告する。

【表5】

【0078】

表６では、画像－テキスト取り出しに対する様々なデザイン選択の影響が研究された。対照類似度スコアｓ_ｉｔｃは、推論中に上位ｋ個の候補をフィルタリングするために使用されたため、ｋは、その効果を報告するために変化させることができる。一般に、ｓ_ｉｔｍによって獲得される最終的なランキング結果は、ｋの変化に敏感ではない。その理由は、ｓ_ｉｔｃだけを使用することで、すでに優れた再現率を達成できるため、上位ｋ個の候補には正しいものが含まれている可能性が高いからである。また、提案したハード陰性マイニングが取り出し性能を向上させることができることが検証された。

【表6】

【0079】

表７では、テキスト割り当て（ＴＡ）事前訓練とパラメータ共有の効果がＮＬＶＲ２に関して研究された。３つの共有戦略が検討された。すなわち、（１）２つの連続したマルチモーダルブロックは全てのパラメータを共有すること、（２）クロスアテンション（ＣＡ）層のみが共有されること、（３）共有されないことである。ＴＡなしでは、ブロック全体を共有することで性能が向上する。画像ペア入力に対してモデルを事前訓練するＴＡにより、クロスアテンション層を共有することで最高の性能がもたらされる。

【表7】

【0080】

発明の態様、実施形態、実装、又は用途を例示するこの説明及び添付の図面は、限定的なものと解釈されるべきではない。様々な機械的、組成的、構造的、電気的、及び動作上の変更は、この説明及び特許請求の範囲の精神及び範囲から逸脱することなく行われてもよい。いくつかの例では、本開示の実施形態を不明瞭にしないために、周知の回路、構造、又は技法が詳細に示されていないか、又は記載されていない。２つ以上の図の類似の数字は、同じ又は同様の要素を表す。

【0081】

この説明では、本開示と矛盾しないいくつかの実施形態を記載する特定の詳細が明記されている。実施形態の完全な理解を提供するために、多数の詳細が明記されている。いくつかの実施形態は、これらの特定の詳細の一部又は全部がなくても実施され得ると当業者に明らかであろう。本明細書に開示される特定の実施形態は、例示的であるが、限定的ではないことを意味する。当業者は、本明細書に具体的に記載されていないが、本開示の範囲及び精神内にある他の要素を認識してもよい。追加的に、不必要な繰り返しを回避するために、１つの実施形態に関連して示され、記載される１つ以上の特徴は、他の方法で具体的に記載されないか、又は１つ以上の特徴が一実施形態を非機能的にする場合を除いて、他の実施形態に組み込まれてもよい。

【0082】

例示的な実施形態が示され記載されたが、広範囲の修正、変更及び置換が、前述の開示において企図され、いくつかの例では、実施形態のいくつかの特徴を、他の特徴の対応する使用なしに採用してもよい。当業者であれば、多くの変形、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、本明細書に開示された実施形態の範囲と一致する方式で広く解釈されることが適切である。

【図1】

【図2】

【図3】

【図4A】

【図4B】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版