(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-28
(54)【発明の名称】画像認識システムにおける転移学習
(51)【国際特許分類】
G06N 3/096 20230101AFI20240521BHJP
G06N 3/0475 20230101ALI20240521BHJP
G06V 10/82 20220101ALI20240521BHJP
G06T 7/00 20170101ALI20240521BHJP
【FI】
G06N3/096
G06N3/0475
G06V10/82
G06T7/00 350C
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023571953
(86)(22)【出願日】2022-05-23
(85)【翻訳文提出日】2024-01-19
(86)【国際出願番号】 IB2022054803
(87)【国際公開番号】W WO2022243985
(87)【国際公開日】2022-11-24
(32)【優先日】2021-05-21
(33)【優先権主張国・地域又は機関】NZ
(81)【指定国・地域】
(71)【出願人】
【識別番号】519327490
【氏名又は名称】ソウル マシーンズ リミティド
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】ネジャティ,アリレザ
(72)【発明者】
【氏名】コンダー,ジョナサン
(72)【発明者】
【氏名】ページス,ネイサン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA02
5L096GA19
5L096HA11
5L096KA04
(57)【要約】
ビジュアルプロンプトチューニングでは、トランスフォーマベースのビジョンモデルをファインチューニングできる。プロンプトベクトルは、ビジョントランスフォーマモデルへの追加入力として、線形投影され、位置埋め込みと組み合わされた画像パッチとともに追加される。トランスフォーマアーキテクチャは、視覚トランスフォーマパラメータのいずれも変更または除去することなく、勾配降下を使用してプロンプトを最適化することを可能にする。視覚的プロンプトチューニングを伴う画像認識システムは、視覚的プロンプトを使用して事前訓練されたビジョンモデルをチューニングすることによって、事前訓練されたビジョンモデルを下流タスクに適応させることによって、事前訓練されたビジョンモデルを改善する。
【特許請求の範囲】
【請求項1】
コンピュータが実行する、訓練画像を用いて画像認識システムを訓練する方法であって、
1つまたは複数の訓練可能ベクトルを生成または受信するステップを含み、
各訓練画像について、
プロンプトネットワークを介して、前記訓練可能ベクトルを入力し、プロンプトベクトルを出力するステップ;および
前記訓練可能ベクトルと前記訓練画像の平坦化パッチの線形投影を、訓練されたビジョントランスフォーマに入力し、前記プロンプトネットワークと前記訓練可能ベクトルを訓練するステップ、
を含む方法。
【請求項2】
前記訓練されたビジョントランスフォーマの第1の層にプロンプトベクトルが追加される、請求項1に記載の方法。
【請求項3】
前記訓練されたビジョントランスフォーマの複数の層にプロンプトベクトルが追加される、請求項1に記載の方法。
【請求項4】
前記プロンプトネットワークが多層パーセプトロンである、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記プロンプトネットワークは完全に接続された層を含む、請求項1または4に記載の方法。
【請求項6】
訓練可能な位置埋め込みをプロンプトベクトルに追加するステップを含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記プロンプトネットワークの訓練は、確率的目的関数の一次勾配ベースの最適化を含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記トランスフォーマの分類スコアが各クラスについていくつかのラベルを使用し、対応する特徴ベクトルを平均化する、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記トランスフォーマの分類は、プレフィックスチューニングラベルを使用する、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記方法が、前記ビジョントランスフォーマからの出力を受信し、画像認識出力を生成する画像認識ヘッドをさらに備え、
前記画像認識ヘッドは、前記プロンプトネットワークおよび訓練可能ベクトルと同時に訓練される、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記請求項1~10のいずれか一項に記載の方法を実行する手段を有するデータ処理システム。
【請求項12】
請求項1~10のいずれか一項に記載の方法を使用して訓練された画像認識システムを使用して画像認識タスクを実行する方法。
【請求項13】
コンピュータによって実行されるときに、請求項1~10のいずれか一項に記載の方法をコンピュータに実行させる命令を含むコンピュータプログラム。
【請求項14】
コンピュータが実行する、事前訓練されたビジョントランスフォーマと訓練可能な入力パラメータとを備える画像認識システムを訓練する方法であって、
前記訓練可能な入力パラメータを、前記事前訓練されたビジョントランスフォーマに、ラベル付き訓練画像と共に、補助パラメータとして入力するステップ;および
前記訓練可能な入力パラメータを修正して、前記ラベル付き訓練画像に関するエラーを低減するステップ、
を含む方法。
【請求項15】
請求項14に記載の方法を使用して訓練された画像認識システムを使用して画像認識タスクを実行する方法。
【発明の詳細な説明】
【背景技術】
【0001】
〔技術分野〕
本発明の実施形態は、機械学習に関する。より詳細には、本発明の実施形態は、排他的ではないが、コンピュータによるビジョン/画像認識を改善し、転移学習の方法、すなわち、プロンプトの連続的な最適化を介して、視覚タスクのための効率的な転移学習を改善することに関する。
【0002】
〔背景技術〕
事前訓練された視覚モデルを下流のタスクに適応させるための従来の方法には、モデルのパラメータの一部または全部をファインチューニングすることを伴う。このアプローチには、いくつかのトレードオフが含まれる。あまりにも多くのパラメータを変更すると、モデルが事前訓練の利点(一般化する能力など)の一部を失う可能性があり、変更があまりにも少ないと、モデルが下流のタスクにあまりうまく適合しない可能性がある。
【0003】
転移学習は、異なる問題を解決するために学習されたパラメータから始めて、新しいタスクについてニューラルネットワークモデルを訓練するための有効な方法である。これは、ネットワークが元のタスクと新しいタスクの両方に共通の知識を活用することを可能にし、新規または特定の文脈において大規模な一般的モデルを適用するときに特に有用である。転移学習するためのいくつかのアプローチがある。豊富なデータ設定では、ネットワーク全体を新しいタスクで訓練できる。しかしながら、データが不足している場合、このアプローチは、ネットワークが最初に学習した知識の一部を「忘れる」ので、一般化エラーを増加させる可能性がある。そのような問題のために、ネットワークは追加の構成要素(コアネットワークの出力特徴を確率ベクトルに変換する分類器ネットワークなど)を有するより大きなモデルの「コア」として使用することができ、それらの他の構成要素は、コアネットワークを凍結したままで訓練することができる。自然言語処理(NLP)の領域では、大規模な事前訓練されたモデルが、推論時間中に、ある適切なテキストを用いて、モデルを促すことによって、追加の訓練なしに新しいタスクに適応させることができる。例えば、大規模なテキストコーパス上で事前訓練された言語モデルは、文「以下のテキストの要約を提供する」を先頭にするか、またはイディオム「TL;DR:」を付加することによって、テキストの本文を要約するようにすることができる。したがって、ネットワークを新しいタスクに適応させるという問題は、そのタスクのための良好なプロンプトを手動で設計するという問題になる。この概念をコンピュータビジョンに適用して、CLIPなどの方法は、テキストおよび画像からのマッピングを共通の特徴空間に符号化するために、共同対照訓練を使用してきた。
【0004】
〔発明の目的〕
本発明の目的は、コンピュータビジョン、画像認識及び/又は転移学習を改善すること、又は少なくとも公衆又は産業に有用な選択肢を提供することである。
[図面の簡単な説明]
[
図1]
図1は、ビジュアルプロンプトチューニングを伴う画像認識システムを訓練する方法を示す;
[
図2]
図2は、ビジュアルプロンプトチューニングを伴う画像認識システムを示す;
[
図3]
図3は、プローブ法を用いたビジュアルプロンプトチューニングを伴う画像認識システムを示す;
[
図4]
図4はゼロショット方法を用いたビジュアルプロンプトチューニングを伴う画像認識システムを示す;
[
図5]
図5は、ビジュアルプロンプトチューニングに使用されるハイパーパラメータを示す;
[
図6]
図6は、ビジュアルプロンプトチューニングを伴うビジョントランスフォーマを示している;
[
図7]
図7は、線形分類器併用方法によるビジュアルプロンプトチューニングのテストエラー率の比較を示す;
[
図8]
図8は、ゼロショットおよびビジュアルプロンプトチューニング方法のテストエラー率の比較を示す;
[
図9]
図9は、線形またはビジュアルプロンプトチューニング方法を使用した場合の、クラスごとのテスト精度とラベル実施例の数の関係を示している。
【発明の詳細な説明】
【0005】
〔概要〕
ビジュアルプロンプトチューニングは、トランスフォーマベースのビジョンモデルのファインチューニングと提供する。プロンプトベクトルは、ビジョントランスフォーマモデルへの追加入力として、線形投影され、位置埋め込みと組み合わされた画像パッチとともに追加される。トランスアーキテクチャにより、任意のビジョントランスフォーマパラメータを変更したり削除したりすることなく、プロンプトを最適化することができる(たとえば、勾配降下を使用)。言い換えれば、ビジュアルプロンプトチューニングを伴う画像認識システムは、視覚的プロンプトを使用して事前訓練されたビジョンモデルをチューニングすることによって、事前訓練されたビジョンモデルを下流タスクに適応させることによって、事前訓練されたビジョンモデルを改善する。
【0006】
画像認識システムは、画像分類、検出、位置特定、セグメンテーション、オブジェクトカウント、および画像上の自然言語推論などのタスクを含むが、これらに限定されない、任意の適切なコンピュータビジョンタスクのために使用され得る。
【0007】
図1は、ビジュアルプロンプトチューニングを用いて画像認識システムを訓練する方法を示す。ステップ102において、訓練画像がパッチに分割され、画像パッチを作成する。画像パッチはベクトルに平坦化される(ステップ103)。これに続いて、平坦化されたパッチの線形投影が作成される(ステップ104)。位置符号化/位置埋め込みは、平坦化されたパッチの線形投影に追加される(ステップ106)。
【0008】
訓練可能ベクトルが生成または受信される(114)。訓練可能ベクトル値は、ゼロに初期化されるか、ランダム化されるか、または任意の他の適切な方法で初期化され得る。訓練可能ベクトルは、画像(トークン/埋め込み)空間内のプロンプトベクトルを取得するためにプロンプトネットワークに入力される(ステップ116)。任意選択で、ステップ118において、訓練可能な位置埋め込みがプロンプトベクトルに追加される。順方向パスでは、ステップ108で、平坦化パッチの線形投影がプロンプトベクトル(位置埋め込みを含むことができる)と共にビジョントランスフォーマに入力される。
【0009】
ビジョントランスフォーマの出力は、訓練画像を分類するために、多層パーセプトロンなどの画像認識ヘッドに入力される(ステップ110)。逆方向パスでは、出力分類(112)のエラーが計算され(ステップ120)、プロンプトネットワークに伝播される(ステップ122)。プロンプトネットワークの重みおよび訓練可能ベクトルの重みは、(機械学習の技術分野で知られている任意の適切な技法を使用して)エラーを低減するように修正される。
【0010】
図2は、ビジュアルプロンプトチューニングを伴う画像認識システムを示す。ビジュアルプロンプトチューニング中、点線の枠線で示されるパラメータが更新/訓練される(プロンプトネットワークの重みと訓練可能ベクトル3の値)。
【0011】
〔ファインチューニング〕
ビジュアルプロンプトチューニングは、(事前訓練された)ビジョントランスフォーマモデルの重みを保持するが、補助プロンプト入力を追加することによってタスクをファインチューニングする転移学習の方法である。ファインチューニング中、訓練されたビジョントランスフォーマは、タスク固有のプロンプトが更新される間、固定されたままである。事前訓練されたモデル(事前訓練されたビジョントランスフォーマ)をファインチューニングする以下の方法が提供される。
【0012】
〔ビジュアルプロンプトチューニング〕
図6は、ビジュアルプロンプトチューニングを伴うビジョントランスフォーマを示している。ビジュアルプロンプトチューニング中、点線の枠線で示されるパラメータが訓練される。パラメータは、ラベル付き画像を含む訓練データセットを使用して訓練され得る。
【0013】
画像エンコーダの第1の層は、ストライド畳み込み(ストライドが畳み込みカーネルが適用される空間位置間の距離)であり、これは、入力画像をパッチのグリッドに効果的に分割し、得られたテンソルをベクトルに平坦化し、学習した線形変換を使用して、これらの各々を低次元空間に投影し、平坦化パッチ10の線形投影を生成する。その後、エンコーダは、学習された位置埋め込みを各ベクトルに追加する。通常、これらのベクトルは、学習された「クラス」埋め込みと共に、トランスフォーマプロパーへの唯一の入力である。
【0014】
ビジュアルプロンプトチューニングでは、畳み込みと位置埋め込みをバイパスして、追加の入力(「プロンプト」または「プロンプトベクトル」)がトランスフォーマに入力される。これは、トランスフォーマ自体のアーキテクチャ上の変更を必要としない。これは入力の数に依存しないためである。プロンプトは、勾配降下を使用して直接、または任意の他の適切な方法で訓練することができる。多層パーセプトロン(MLP)などの任意の他の適切なネットワークは、訓練可能な入力ベクトルからプロンプトを生成することができる。後者のアプローチは、プレフィックスチューニングの結果を改善することができる。MLPは、その出力に位置埋め込みを加えて訓練され得る。MLPおよび位置埋め込みは、訓練のためにのみ必要とされる;推論時に、生成されたプロンプトは固定され、したがって、同じ事前計算されたプロンプトがすべての入力画像のために使用され得る。
【0015】
この修正されたモデルを分類器として使用するために、トランスフォーマ出力は、ゼロショットアプローチからの符号化されたテキストラベルと比較される。テキストエンコーダを(ビジュアルプロンプトチューニングと同時に)プレフィックスチューニングすることができる。これにより、性能は向上するが、訓練時間は長くなる。
【0016】
ビジュアルプロンプトチューニングでは、事前訓練されたビジョントランスフォーマへの入力が下流の視覚タスクのためにビジョントランスフォーマを適応させるように修正される。事前訓練されたビジョントランスフォーマは、下流の訓練中に訓練/修正されない。追加の入力(タスク固有の訓練パラメータ)は、事前訓練されたビジョントランスフォーマの入力シーケンスに連結され、ファインチューニング中に画像認識ヘッドと共に学習される。
【0017】
一実施形態では、プロンプトベクトルがビジョントランスフォーマの第1の層にのみ挿入されるが、本発明はこの点に限定されない。ビジュアルプロンプトチューニングのプロンプトパラメータは、ビジョントランスフォーマの入力の第1の層にのみ挿入できる。プロンプトおよび線形ヘッドのパラメータのみが、ビジュアルプロンプトチューニング訓練中に更新され、トランスエンコーダ全体が固定される。代替的に、プロンプトパラメータは訓練されたビジョントランスフォーマの複数の層に導入されてもよく、訓練されたビジョントランスフォーマのすべての層にまで、導入されてもよい。一組のプロンプトは、ビジョントランスフォーマの各入力層に添付されてもよい(言い換えれば、学習可能なパラメータの組は、各トランスフォーマエンコーダ層の入力に連結される)。
【0018】
〔ゼロショット方法〕
ゼロショット方法は、いかなる既存のまたは追加のパラメータも訓練しない。ゼロショット方法を用いて、ビジョントランスフォーマは、画像をビジョントランスフォーマ(CNN)に供給し、クラスラベルをテキストトランスフォーマに供給することによって、ゼロショット分類器として(すなわち、いかなるファインチューニングもなしに)使用することができる。ゼロショット方法では、テキストと画像を整列させる特徴ベクトルを使用する。出力は自然言語埋め込み(例えば、画像を記述する自然言語文)に類似している。クラスラベルは、直ぐに生成することができる。ゼロショットモデルは、画像エンコーダおよびテキストエンコーダを共同で訓練して、(画像、テキスト)訓練例のバッチの正しいペアリングを予測する。テスト時に、学習テキストエンコーダは、標的データセットのクラスの名前または説明を埋め込むことによって、ゼロショット線形分類器を合成する。
【0019】
図4は、ゼロショット方法を用いたビジュアルプロンプトチューニングを伴う画像認識システムを示す。訓練画像に関連付けられるテキストは、テキストトランスフォーマに入力される。テキストトランスフォーマおよびビジョントランスフォーマからの特徴ベクトルは、類似性測定17(例えば、ドット積)を使用して比較される。A.Radford et al、“Learning transferable visual models from natural language supervision,”264 arXiv preprint、2021.https://arxiv.org/abs/2103.00020は、ジョイント言語および画像埋め込み空間において出力を生成するゼロショットモデルを記述する。
【0020】
〔線形分類器の訓練/プローブ法〕
プローブ法では、出力に対して線形回帰モデルが学習される(線形プローブ)。
図3は、プローブ法を用いたビジュアルプロンプトチューニングを伴う画像認識システムを示す。ビジョントランスフォーマ(線形投影)の最終層は、その出力次元が訓練データのクラスの数に一致するように置き換えられる。線形分類器は、訓練されるパラメータ(線形プローブ)の一部として含まれる。言い換えれば、画像認識ヘッドは、線形モデル(例えば、線形回帰15)を使用して、ビジョントランスフォーマによって出力される特徴ベクトル14を使用して訓練される。画像認識ヘッドを訓練すると、出力性能を改善することができ、またはビジョントランスフォーマのタスクとは異なる種類の画像認識タスクを実行することを可能にするかもしれない。
【0021】
〔ビジュアルプロンプトチューニングと線形分類器の組み合わせ〕
ビジュアルプロンプトチューニングとビジュアルプロンプトチューニング(プレフィックスチューニングとも呼ばれる)を組み合わせると、少数ショットのパフォーマンスが向上する。エンコードされたテキストラベルを使用する代わりに、画像エンコーダの最終層は、プロンプトと一緒に置き換えられ、訓練される。
【0022】
〔方法の詳細〕
画像トランスフォーマは、コンピュータビジョン/機械学習の当業者に知られている。ビジョントランスフォーマの例は、Dosovitskiy、Alexey、et al“An image is worth 16x16 words:Transformer for image recognition at scale.”arXiv preprint arXiv:2010.11929(2020)に詳述されており、これは参照により本明細書に組み込まれる。
【0023】
〔事前訓練〕
訓練されたビジョントランスフォーマ(訓練された/事前訓練されたモデル)は、任意の適切な方法で提供され得る。一実施形態では、ビジョントランスフォーマが画像エンコーダおよびテキストエンコーダを備えることができ、これらは両方とも(同じ形状を有する)実数値ベクトルを出力する。例えば、CLIP(contrastive language image pre-training)のビジョントランスフォーマ構成要素は、事前訓練されたモデルとして使用することができる(Radford、A.,et al.:Learning transferable visual models from natural language supervision.In:ICML(2021))。CLIPを使用して画像を分類するために、それを符号化し、コサイン類似性を使用して、結果として生じるベクトルをいくつかの符号化されたテキストラベルと比較することができる。同様に、一連の画像「ラベル」に関してテキストのストリングを分類することができる。CLIPは、追加のファインチューニングなしで、任意の数のテキストラベルを与えられた画像を分類することができる。
【0024】
〔画像パッチ埋め込み〕
各画像は、固定サイズの小さな「パッチ」に分割される。入力シーケンスはピクセル値の平坦化されたベクトル(例えば、2D画像ピクセルからID)から構成される。各平坦化された要素は、線形投影層に供給されて、「パッチ埋め込み」を生成する。次いで、画像がそれらの位置情報を保持することを可能にするために、画像パッチの配列に位置埋め込みが線形的に追加され、したがって、シーケンス内の画像パッチの相対的または絶対的位置についての情報が注入される。
【0025】
追加の学習可能な(クラス)埋め込みが、画像パッチの位置に従ってシーケンスに付加される。このクラス埋め込みは、自己注意(self attention)によって更新された後の入力画像のクラスを予測するために使用される。分類は、シーケンスに追加された追加学習可能埋め込みの位置において、MLPヘッドをトランスフォーマの上に積み重ねることによって実行される。
【0026】
〔ビジュアルプロンプトチューニングのためのハイパーパラメータ〕
図5は、ビジュアルプロンプトチューニングに使用されるハイパーパラメータを示している。各列は、個別のハイパーパラメータ選択を表す。ハイパーパラメータをチューニングするとき、完全に接続された層を挿入すると、プロンプトを直接チューニングしたり、ディーププロンプトネットワークを使用したりするよりもパフォーマンスが上がる場合がある。一実施形態では、数百の入力を有する完全に接続されたネットワークが使用される。本発明者らは、「位置埋め込み」が追加された後は、いくつかのデータセットについてはわずか4つの入力でうまく機能したことを見出した。
位置埋め込みなし:
プロンプトi=完全接続(重みi)
データセットに応じて、適切な数の入力が「位置埋め込み」を追加した後に機能する場合がある。具体的には、プロンプトベクトルは次のように計算される:
プロンプトi=完全接続(重みi)+位置i
ここで、位置は、プロンプトと同じ次元を持つ訓練可能なマトリックスである。
【0027】
プロンプトネットワークは、プロンプトに関与する概念を学習することをそれらの表現から切り離すのを助けることができる。例えば、ドイツ交通標識認識ベンチマークデータセット(GTSRB)のための有用なプロンプトベクトルは、何らかの方法で交通標識に関連する可能性が高く、その結果、入力特徴空間の低次元部分空間に属する。
【0028】
プロンプトネットワークの最終層は、この部分空間の出力要素を学習するので、利益はこの空間におけるいくつかの一般的な概念をどのように表現するかを学習することができたものだけでなく、すべてのプロンプトベクトルによって共有することができる。その入力(重みに類似)は、これらの概念を有用な方法で組み合わせるべきである。プロンプトネットワークがない場合、各プロンプトベクトルは、他のベクトルとは独立して学習するので、類似のベクトルの集まりに収まるのに時間がかかることがある。また、プロンプトネットワークは、「共有」パラメータの利用可能性を低減することを犠牲にして、1つのプロンプトベクトルに特有の特徴を学習することができる。その他のプロンプトベクトルは、訓練中に誤ってこれらの機能を取得する場合がある。各訓練ステップにおいて、位置埋め込みはプロンプトネットワークの現在の範囲外に移動することができ、これは各プロンプトベクトルが固有の特徴を符号化することを促すことができる。これにより、共有機能のみをエンコードするために、比較的小さなプロンプトネットワークを使用できる。
【0029】
〔プロンプトネットワークの損失関数〕
プロンプトネットワークおよび/またはイメージ認識ヘッドには、クロスエントロピー、平均二乗誤差、またはL0/L1を含むがこれらに限定されない、任意の好適な損失関数を使用することができる。単一クラス画像の場合、プロンプトネットワークの損失関数としてクロスエントロピーを使用することができる。画像バイナリクロスエントロピー毎に、複数のクラスを有するデータセットについては、適切であり得る(クラス毎に1つのバイナリ分類器を効果的に訓練する)。
【0030】
〔逆伝播(最適化)〕
プロンプトネットワーク、訓練可能ベクトル、および/または画像認識ヘッドを訓練するために、一次勾配降下に基づく方法の任意の適切な方法を使用することができる。一実施形態では、DPKingmaおよびJBa、“Adam:A method for stochastic optimization”、International 280 Conference on Learning Representations、2015に記載されているような確率的最適化の方法が使用されている。しかしながら、本発明は、この点に限定されず、L-BFGSアルゴリズムなどの任意の他の適切な方法を使用することができる。
【0031】
〔訓練詳細〕
0.01~0.001の間など、任意の適切な初期学習レートが、プロンプトネットワークのために使用され得る。検証ロスが平坦域に達すると、学習率を低下する可能性がある。例えば、学習率は、10倍に低減されてもよい。検証距離(通常は精度)が数エポックにわたって改善されなかった場合、訓練を中止することができる。検証セットは、最もよく知られているハイパーパラメータを再利用して、最終セッションのための訓練データに含まれ得る。
【0032】
モデルは、グラフィックスカードまたは任意の他の適切なハードウェア上で訓練され得る。ハードウェアは、自動混合精度を有することができる。
【0033】
ゼロショット方法に関して、分類タスクでは、分類スコアがクラスごとにいくつかのラベルを使用し、対応する特徴ベクトルを平均化するか、またはラベルをプレフィックスチューニングすることによって改善され得る(ARadfordおよびak、“Learning transferable visual models from natural language supervision、”264 arXiv preprint、2021、https://arXiv.org/abs/2103.00020.に記載されているように)
〔トランスフォーマの実装例〕
任意の適切なトランスフォーマアーキテクチャを使用することができる。このトランスフォーマは機械学習の当業者に知られているが、トランスフォーマの詳細は、例として、以下に詳述される。
【0034】
一実施形態では、エンコーダは、シンボル表現の入力シーケンスを連続表現のシーケンスにマッピングする。デコーダは、次に、一度に1つの要素のシンボルの出力シーケンスを生成する。トランスフォーマは、エンコーダおよびデコーダの両方のために、スタックされた自己注意(self-attention)およびポイントワイズの完全に接続された層を使用し得る。
【0035】
〔attentionサブ層〕
エンコーダは、適切な数の同一の層(例えば、6つの層)のスタックから構成される。各層は、2つのサブ層、マルチヘッド自己注意(self-attention)機構、および位置的に完全に接続されたフィードフォワードネットワークを有する。サブ層の各々の周りに残差接続が使用され、その後に層正規化が行われる。
【0036】
デコーダは適切な数の同一の層(例えば、6つの層)のスタックから構成される。各層は、マルチヘッド自己注意(self-attention)機構と、位置的に完全に接続されたフィードフォワードネットワークとを有する。第3のサブ層は、エンコーダスタックの出力上でマルチヘッド注意(attention)を実行し、サブ層各々の周りに残差接続が採用され、その後、層正規化が続く。デコーダスタック内の自己注意(self-attention)サブ層は、位置が後続の位置に注意を向けることを防止するように修正される。
【0037】
注意関数(attention function)は、クエリとキーと値のペアを出力にマッピングする。クエリ、キー、値、および出力はすべてベクトルである。出力は、値の加重和として計算される。各値に割り当てられた重み付けは、クエリの対応するキーとの互換性機能によって計算される。Scaled Dot-Product Attentionが、注意関数として使用され得る。
【0038】
〔フィードフォワードネットワーク〕
attentionサブ層に加えて、エンコーダおよびデコーダ内の各層は、完全に接続されたフィードフォワードネットワークを含み、これは、各位置に別個に同一に適用される。
【0039】
〔マルチヘッドattention〕
クエリ、キー、および値を、異なる、次元に応じて学習された投影を用いて、数回、線形に投影することが有益であり得る。クエリ、キー、および値の投影された各バージョンで、注意関数が並列に実行され、多次元出力値が生成され、それが連結され、再度投影され、最終値が得られる。モデルは、異なる位置で、異なるrepresentation subspaceからの情報に共同で注意する。
【0040】
「エンコーダ-デコーダ注意」層では、クエリは前のデコーダ層から来ており、メモリキーおよび値はエンコーダの出力から来ている。これにより、デコーダ内のすべての位置が、入力シーケンス内のすべての位置に注意することができる。
【0041】
エンコーダは、自己注意(self-attention)層を含む。自己注意(self-attention)層では、すべてのキー、値、およびクエリは同じ場所、この場合はエンコーダ内の前の層の出力から来る。エンコーダ内の各位置は、エンコーダの前の層内のすべての位置に注意することができる。
【0042】
デコーダ内の自己注意(self-attention)層は、デコーダ内の各位置を、その位置まで、およびそれを含むデコーダ内のすべての位置に注意することを可能にする。
【0043】
〔位置埋め込み〕
各入力画像は、固定サイズのパッチに分割される。各パッチは、位置符号化を用いて潜在空間に埋め込まれる。モデルは反復または畳み込みを含まないので、モデルが配列の順序を利用するためには、シーケンス内のトークンの相対的または絶対的な位置に関する情報が埋め込まれなければならない。位置埋め込みは、エンコーダスタックおよびデコーダスタックの底部の入力埋め込みに追加される。位置符号化は、埋め込みと同じ次元を有するので、2つを合計することができる。学習されたまたは固定された埋め込みが使用されてもよい。
【0044】
〔ビジョントランスフォーマ〕
任意の適切なトランスフォーマアーキテクチャを、ビジョントランスフォーマを作成するように適合させることができる。訓練画像は固定サイズの画像パッチに分割される。各画像パッチは線形に埋め込まれる。位置埋め込みが追加される。得られたベクトルのシーケンスは、標準トランスフォーマに入力される。
【0045】
標準トランスフォーマは、トークン埋め込みのID配列を入力として受信する。2次元画像を処理するために、画像は、平坦化された2次元パッチの配列に再形成される。パッチの数は、トランスフォーマの画像シーケンス長である。トランスフォーマは、その層を通して一定の潜在ベクトルサイズを使用する。画像パッチは、訓練可能な線形投影を用いて、フラット化され、潜在ベクトルサイズ次元にマッピングされ、パッチ埋め込みを生成する。
【0046】
学習可能な埋め込みは、トランスフォーマエンコーダの出力における状態が画像表現として機能するパッチ埋め込みのシーケンスの先頭に追加される。事前訓練およびファインチューニングの間、分類ヘッドは、トランスフォーマエンコーダの出力に取り付けられ得る。分類ヘッドは、事前訓練時に隠れ層を備え、ファインチューニング時に単一の線形層を備える多層パーセプトロンによって実装され得る。
【0047】
パッチ埋め込みに位置埋め込みを追加し、位置情報を保持する。標準学習可能な1次元位置埋め込み、2次元認識位置埋め込み、または任意の他の適切な位置埋め込みを使用することができる。結果として得られる埋め込みベクトルのシーケンスは、トランスフォーマエンコーダに入力される。
【0048】
ビジョントランスフォーマは、大きなデータセットで事前訓練され、その後、より小さな下流タスクにファインチューニングされる。ファインチューニングのために、トランスフォーマの事前訓練された予測ヘッドが除去され、ゼロ初期化フィードフォワード層が追加され、いくつかの下流クラスが追加される。任意選択的に、トランスフォーマは、事前訓練よりも高い分解能でファインチューニングされる。より高い解像度で画像を供給するとき、パッチサイズは同じに保たれ得る。事前訓練された位置埋め込みの2D補間は、元の画像におけるそれらの位置に従って実行され得る。解像度調整およびパッチ抽出は、画像の二次元構造についての誘導バイアスをビジョントランスフォーマに手動で注入する。
【0049】
〔ハイブリッドアーキテクチャ〕
生画像パッチの代替として、入力シーケンスは、畳み込みニューラルネットワークの特徴マップから形成することができる。畳み込みニューラルネットワーク特徴マップから抽出されたパッチにパッチ埋め込み投影が適用される。パッチは空間的な大きさl×1を有することができ、これは、特徴マップの空間的な大きさを平坦化し、トランスフォーマの次元に投影することによって、入力シーケンスが得られることを意味する。分類入力埋め込みおよび位置埋め込みは、上述のように追加される。
【0050】
〔代替の実施形態および用途〕
ビジュアルプロンプトチューニングは、より速く、はるかに少ないデータで学習するための効果的なアプローチである。ビジュアルプロンプトチューニングはコアモデルを変更しないため、同じモデルを複数の異なるタスクに(同じミニバッチ内でも)使用できる。これは、単なる分類以上の能力を有する人間の視覚系のより完全なモデルを開発するのに有用であり得る。
【0051】
事前訓練の手順は、複数のタスクを考慮に入れることができる(例えば、CLIPモデルは、意味セグメンテーションよりも分類においてはるかに良好である)。
【0052】
ビジュアルプロンプト、クラウドベースのプロバイダによって使用されて、いくつかの異なる組織の分類器を同時に、または同じ組織内の異なるユーザさえも効率的に実行することができる。いくつかの異なるレベルのチューニングさえ使用することができる。例えば、プロンプトの一部は交通標識分類を改善することができ、別の部分は、特定の国における交通標識に合わせてチューニングすることができる。ビジュアルプロンプトチューニングは、分類以外のタスクに使用することができる。
【0053】
ビジュアルプロンプト、画像パッチレベルで最適化することによって、またはオートエンコーダのエンコーダ部分をプロンプトチューニングすることによって視覚化することができる。
【0054】
アダプタチューニングなど、NLPにおける転移学習のための他の技法もまた、ビジョントランスフォーマを用いて機能し得る。
【0055】
〔利点〕
ビジョントランスの文脈では、ビジュアルプロンプトチューニングがより効率的であり、同じ位(それ以上でないにしても)効果的であり得るので、フル(エンドツーエンド)ファインチューニングと比較して有利であり得る。
【0056】
プロンプトは、視覚タスクに対するトランスフォーマのパフォーマンスを向上させる。これは、画像の一部分の色が別の部分の色の知覚を変えることができる、色を含む光学的錯覚を考慮するときに直感的に意味がある。トランスフォーマはそれらの入力を互いに乗算するので、それらはコンテキスト表現を学習することが上手であると仮定されており、言い換えれば、入力トークンの表現は他のトークンによって変調される。プロンプトは、モデルが学習したすべてのタスクの空間内の特定のタスクの位置を突き止める働きをすることができる。多様な視覚データについて訓練されたトランスフォーマは、特定の物体の写真およびスケッチの両方を認識するなど、様々なタスクを学習する。プロンプトを出すことにより、ネットワークを「プライミング」して、特定のドメインにより関連するタスクを解決することができる。
【0057】
事前訓練されたモデルに少数の追加パラメータを追加すると、ビジュアルプロンプトチューニングは、フルデータ設定でのファインチューニングと同様のパフォーマンスを得て、低データ設定でのパフォーマンスを上回る。さらに、ビジュアルプロンプトチューニングは、交通標識認識、衛星写真認識、および手書き分類などの特殊なタスクの精度を著しく向上させる。
【0058】
ビジュアルプロンプトチューニングは、下流ビジュアルタスクのファインチューニング性能を向上させることができる。ビジュアルプロンプトチューニング、または線形分類器のファインチューニングと組み合わせたビジュアルプロンプトチューニングは、多くの分類タスクについて、特にデータが乏しい場合、またはタスクが事前訓練に使用されるものと著しく異なる場合、単独でのファインチューニングより優れている。
【0059】
ビジュアルプロンプトチューニングは、特に、訓練画像が、自然画像および訓練セットに現れる可能性が高い他の画像と実質的に異なるタスクにおいて、領域外に見える特殊なデータセットおよびタスクの精度を向上させる。
【0060】
プリフィックスチューニングおよびアダプタチューニングでは、元のネットワークのパラメータは保持されるが、ファインチューニングでは変更される。言語モデルにおけるプレフィックスチューニングの特定の場合について、モデルは大規模な一般的なコーパス上で事前訓練され、したがって、一般化の目的のために、ネットワークパラメータを保存することが望ましい。アダプタチューニングでは、訓練可能なパラメータの数が入力と出力の両方の次元によって固定される(または少なくとも下に限定される)が、プリフィックスチューニングではトランスフォーマの入力次元のみが固定される。この柔軟性により、プリフィックスチューニングをアダプタチューニングのパフォーマンスに合わせることができるが、パラメータは少なくなる。
【0061】
トランスフォーマの利点は、入力間の乗法的相互作用の存在に起因して、コンテキスト表現のより良い学習ができる点である。コンテキスト表現は、入力内の他のトークンによって変調される表現である。プロンプトは、モデルが学習したすべての可能なタスクの空間内で、手元にある特定のタスクを見つける働きをする。言い換えれば、大規模汎用コーパス上でモデルを事前訓練することは、それを様々なタスクに「教える」ことを意味し、次いで、推論時間中に、プロンプトはネットワークを「プライミング」して、そのタスクのレパートリーの中の特定のタスクを解決する。このビューは、ビジュアルドメインにも同様の推論が適用されるため、ビジュアルプロンプトチューニングの有効性を説明するのに役立つ。例えば、オブジェクトの人間のスケッチを認識することは、例えば、オブジェクトの写真を認識することと比較して、異なる形態のパターンを認識することを必要とする。多様な視覚データ上で訓練されたネットワークは、その重み付けにおいて、様々なこれらの形態のタスクを符号化する。プロンプトは特定のタスクを見つけるのに役立つことができ、したがって、比較的少ないパラメータで成功することができる。
【0062】
ビジョントランスフォーマモデルは、画像パッチのグリッドをトランスフォーマに直接渡す(線形投影)ことで、CNNの使用を完全に回避する。ビジョントランスフォーマアプローチは、訓練データセットが十分に大きい場合、現代のCNNよりも良好な性能を実証しており、これは、トランスフォーマモデルがCNNの誘導バイアスを欠いているという事実と一致する。
〔実験データ〕
本発明の実施形態は、以下の文献に記載されているように、実験的に試験されている:Conder、T、Jefferson、J.、Pages、N.、Jawed、K.、Nejati、A.、Sagar、M(2022),“Efficient Transfer Learning for Visual Tasks via Continuous Optimization of Prompts”,Sclaroff、S.、Distante、C.、Leo、M.、Farinella、G.M.、Tombari、F(eds),“Image Analysis and Processing”-ICIAP 2022、ICIAP 2022。Computer Science、vol 13231における講演ノート。Springer、Cham https://doi.org/10.1007/978-3-031-06427-2_25。これらは,本明細書に参考として援用される。
【0063】
実験者は、自動混合精度、0.01から0.001の範囲の初期学習速度、および512のバッチサイズを用いて、2枚のQuadro RTX8000カード上で各モデルを訓練した。合計3週間(数回のショット分類では1回のラン当たり平均51分、通常の分類では1回のラン当たり88分)を要した。Caltech101、CIFAR-100、およびOxford Flowersについて、実験者は、多種多様なビジュアルプロンプトチューニングハイパーパラメーターを用いて実験した。実験者は、プロンプトベクトルを訓練することが、性能の低下を直接もたらすことを見出した。一方、プロンプトを生成するためにMLPを使用することは、単一の完全に接続された(FC)層よりも良くなかった。次いで、
図5に示されるように、最良のパフォーマンスの選択肢が、すべてのデータセットに渡るビジュアルプロンプトチューニングのために使用された。例えば、最も左の場合、各プロンプトベクトルは、8つのベクトルのうちの1つを線形マップR32-->R768を介して生成された。最も右端の場合、実験者は、代わりにR4で16個のベクトルを使用し、(R768で)16個の「位置埋め込み」ベクトルのうちの1つに結果を加えた。
【0064】
実験者は、損失関数としてクロスエントロピーを用いた。検証損失値が水平領域に達すると、学習率は10分の1に減少した。検証距離(通常は精度)が15エポックにわたって改善されなかった場合、訓練は中止された。実験者は最良の既知の超パラメータを再利用して、最終セッションのための訓練データに検証セットを含めることを考慮したが、実験において(試験セット上の)性能差が無視できる程度であることを見出した。数ショット分類の場合、実験者は10エポック毎に1回のみ検証し(検証セットが新しい訓練セットよりもはるかに大きいので)、実験者は各データセットについて最もよく知られているハイパーパラメータのみを使用した。
【0065】
CLIPのための元のゼロショットおよび線形分類器ベンチマークを再現しようとする実験者の試みは、いくつかの考えられる理由のために、わずかに異なる結果をもたらした。例えば、いくつかの実験者のデータセット(または訓練/検証/試験分割)は、原本と正確に一致しなかった。ゼロショットアプローチの場合、実験者は、いくつかのクラスを異なるようにラベル付けしてもよい。また、実験者の線形分類器は、(それらをビジュアルプロンプトチューニングと組み合わせることを容易にするために)異なるように訓練された。実験者は、データセットを定性的に3つのカテゴリー:汎用分類(ImageNet、CIFAR-10、CIFAR-100、SUN397、304J)に分けた。
【0066】
図8は、汎用分類データセット(左上)、特殊分類データセット(右)、および非分類データセット(左下)における、ゼロショットおよびビジュアルプロンプトチューニング方法のテストエラー率の比較を示す。UCF101、STL-10、カルテック101)、特殊分類(FGVCAircraft、GTSRB、Birdsnap、FER2013、DTD、EuroSAT、MNIST、ReSISC45、Stanford Cars、PatchCamelyon、Oxford Flowers、Oxford Pets、Food101)、および分類タスクではない特殊タスク(CLEVR Counts and Rendered SST2)
図7は、汎用分類データセット(左上)、特殊分類データセット(右)、および非分類データセット(左下)における、線形分類器併用方法を用いたビジュアルプロンプトチューニングのテストエラー率の比較を示す。
図7は、線形分類器併用方法を用いたビジュアルプロンプトチューニングのためのデータセットごとの最良のハイパーパラメータ選択を用いたテストエラー率を示す。汎用分類セットでは、ビジュアルプロンプトチューニングは、CIFAR-100とCIFAR-10に明確な利点を提供する。特殊な分類タスクでは、ビジュアルプロンプトチューニングにより、多くのデータセット、特にEuroSATおよびGTSRBの精度が向上する。実験者は、ビジュアルプロンプトチューニングの一般的なパターンを見て、ドメイン特有のタスク、特に、訓練画像が自然画像およびCLIP訓練セットに現れる可能性が高い他の画像と実質的に異なるタスクのパフォーマンスを向上させる。ビジュアルプロンプトチューニングの恩恵を受けるCIFAR-100およびCIFAR-10に関して、これらの2つのデータセットにおける画像は、インターネット上で典型的に見られるものよりもはるかに低い解像度を有する。ビジュアルプロンプトチューニングはCLEVRカウントにも性能の利点を提供するが、ベースライン性能はすでに悪く(~60%のエラー率)、ビジュアルプロンプトチューニングの精度はまだ比較的低くなる。
【0067】
図8は、ゼロショットおよびビジュアルプロンプトチューニング法のデータセットごとの最良のハイパーパラメータ選択のテストエラー率を示している。ここで、ゼロショット方法は訓練データを使用しないので、ビジュアルプロンプトチューニングの利点はより顕著である。VTPは、特に、ビジュアルプロンプトチューニングがほぼ50%からほぼ最新技術までのエラー率を取るEuroSATおよびMNISTデータセットに対して、特殊なデータセットに対してさらに大きな改善を提供する。
【0068】
図9に、線形またはビジュアルプロンプトチューニング方法を使用した場合の、テスト精度(縦軸)とクラスあたりのラベル実施例サンプル数(横軸)を示す。青色の線(実線)は、すべてのデータセット(薄い灰色の線(点線))に渡る精度の平均である。ゼロショットCLIPベースラインは星印で示される。
図9aは、クラス当たり1、2、4、8、または16の画像のみについて訓練された場合の線形分類法の試験精度を示す。0で報告された試験精度値は、ゼロショット方法についてのものである。実験者は、線形分類器のワンショット訓練が、いくつかのデータセットを除いて、ゼロショット方法を上回らないことを観察する。Oxford PetsとRenderedSST2では、16ショットの訓練でも性能は下回った。これらの結果は元のベンチマークと一貫しており、ゼロショット性能にマッチするために、数ショットの線形分類器には、クラス当たり(平均して)4つの画像が必要であることが分かった。
図9bは、数ショット学習の文脈におけるビジュアルプロンプトチューニング方法のテスト精度を示す。ここで、ワンショット学習は、ほとんどの場合、ゼロショットベースラインよりも優れている。これは、ビジュアルプロンプトチューニングが線形分類器法よりも、少数ショット転移学習に対するよりロバストなアプローチであることを実証する。
図9cは、ビジュアルプロンプトチューニングおよび線形分類法の数ショット性能を直接比較したものである。1つを除くすべてのタスクについて、ビジュアルプロンプトチューニングは、ワンショット設定において線形分類法よりも性能が高く、平均で約20%性能が優れている。より多くのデータが利用可能になると、ギャップは小さくなる(
図7および
図8から予想されるように)。全体的なビジュアルプロンプトチューニングは、データが不足している場合、線形方法よりも優れている。
【0069】
〔解釈〕
説明される方法およびシステムは、任意の適切な電子コンピューティングシステム上で利用され得る。以下に説明する実施形態によれば、電子コンピューティングシステムは、様々なモジュールおよびエンジンを使用して本発明の方法論を利用する。電子コンピューティングシステムは、少なくとも1つのプロセッサと、1つまたは複数のメモリーデバイスまたは1つまたは複数のメモリーデバイスへの接続のためのインターフェースと、システムが1つまたは複数のユーザまたは外部システムからの命令を受信し、それに基づいて動作することを可能にするための外部デバイスへの接続のための入力および出力インターフェースと、様々な構成要素間の内部および外部通信のためのデータバスと、適切な電源とを含み得る。さらに、電子コンピューティングシステムは、外部および内部デバイスと通信するための1つまたは複数の通信装置(有線または無線)と、ディスプレイ、ポインティングデバイス、キーボードまたは印刷デバイスなどの1つまたは複数の入力/出力デバイスとを含み得る。プロセッサは、メモリーデバイス内のプログラム命令として記憶されたプログラムのステップを実行するように構成される。プログラム命令は、本明細書に記載される本発明を実行する様々な方法が実行されることを可能にする。プログラム命令は例えば、Cベースの言語およびコンパイラなど、任意の適切なソフトウェアプログラミング言語およびツールキットを使用して開発または実行され得る。さらに、プログラム命令は、例えば、コンピュータ読み取り可能な媒体に記憶されるなど、メモリーデバイスに転送されるか、またはプロセッサによって読み取られることができるように、任意の適切な方法で記憶され得る。コンピュータ読み取り可能な媒体は、たとえば、ソリッドステートメモリ、磁気テープ、コンパクトディスク(CD-ROMまたはCD-R/W)、メモリカード、フラッシュメモリ、光ディスク、磁気ディスク、または任意の他の適切なコンピュータ読み取り可能な媒体など、プログラム命令を有形に記憶するための任意の適切な媒体であり得る。電子コンピューティングシステムは、関連するデータを検索するために、データ記憶システムまたはデバイス(例えば、外部データ記憶システムまたはデバイス)と通信するように構成される。本明細書に記載のシステムは、本明細書に記載の様々な機能および方法を実行するように構成された1つまたは複数の要素を含むことが理解されよう。本明細書で説明される実施形態は、システムの要素を構成する様々なモジュールおよび/またはエンジンが、機能が実行されることを可能にするためにどのように相互接続され得るかの例を読者に提供することを目的とする。さらに、説明の実施形態は、システム関連の詳細において、本明細書に記載の方法のステップがどのように実行され得るかを説明する。概念図は、様々なデータ要素が様々な異なるモジュールおよび/またはエンジンによって様々な段階でどのように処理されるかを読者に示すために提供される。モジュールまたはエンジンの配置および構成は、様々な機能が本明細書に記載されるものとは異なるモジュールまたはエンジンによって実行され得るように、システムおよびユーザ要件に応じて適宜適合され得ること、および特定のモジュールまたはエンジンが単一のモジュールまたはエンジンに組み合わされ得ることが理解されよう。説明されるモジュールおよび/またはエンジンは、任意の適切な形態の技術を使用して、実行され、命令が提供され得ることが理解されるのであろう。たとえば、モジュールまたはエンジンは任意の適切な言語で書かれた任意の適切なソフトウェアコードを使用して実行または作成され得、コードは次いで、任意の適切なコンピューティングシステム上で実行され得る実行可能プログラムを生成するためにコンパイルされる。代替的に、または実行可能プログラムと併せて、モジュールまたはエンジンは、ハードウェア、ファームウェア、およびソフトウェアの任意の適切な混合を使用して実行され得る。たとえば、モジュールの一部は、特定用途向け集積回路(ASIC)、システムオンチップ(SoC)、フィールドプログラマブルゲートアレイ(FPGA)、または任意の他の適切な適応可能またはプログラマブル処理装置を使用して実行され得る。本明細書で説明する方法は、説明するステップを実行するように具体的にプログラムされた汎用コンピューティングシステムを使用して実行され得る。あるいは、本明細書に記載される方法が、データソーティングおよび視覚化コンピュータ、データベースクエリコンピュータ、グラフィカル分析コンピュータ、データ分析コンピュータ、製造データ分析コンピュータ、ビジネスインテリジェンスコンピュータ、人工知能コンピュータシステムなどの特定の電子コンピュータシステムを使用して実行されてもよく、コンピュータは特定のフィールドに関連付けられた環境からキャプチャされた特定のデータに対して説明されたステップを実行するように特に適合されている。
【発明の概要】
【0070】
訓練画像を用いて画像認識システムを訓練するコンピュータが実行する方法であって、1つまたは複数の訓練可能ベクトルを生成することと、各訓練画像について、プロンプトベクトルを出力するために、プロンプトネットワークを介して、訓練可能ベクトルを入力することと、プロンプトネットワークおよび訓練可能ベクトルを訓練するために、訓練可能ベクトルおよび訓練画像の平坦化パッチの線形投影を、訓練された/事前訓練されたビジョントランスフォーマに入力することとを含む、方法が提供される。
【0071】
任意選択で、プロンプトネットワークは多層パーセプトロンである。
【0072】
任意選択で、プロンプトネットワークは、完全に接続された層を備える。
【0073】
任意選択的に、上記方法は、訓練可能な位置埋め込みをプロンプトベクトルに追加することを含む。
【0074】
任意選択で、プロンプトネットワーク訓練は、確率的目的関数の一次勾配ベースの最適化を含む。
【0075】
任意選択で、トランスフォーマの分類スコアは各クラスについていくつかのラベルを使用し、対応する特徴ベクトルを平均化する。
【0076】
任意選択で、トランスフォーマの分類は、プレフィックスチューニングラベルを使用する。
【0077】
任意選択的に、上記方法は、ビジョントランスフォーマからの出力を受信し、画像認識出力を生成する画像認識ヘッドをさらに備え、画像認識ヘッドは、プロンプトネットワークおよび訓練可能ベクトルと同時に訓練される。
【0078】
画像認識システムを訓練するコンピュータが実行する方法であって、事前訓練されたビジョントランスフォーマと訓練可能な入力パラメータとを含み、前記方法は、前記訓練可能な入力パラメータを、前記事前訓練されたビジョントランスフォーマに、ラベル付き訓練画像と共に、補助パラメータとして入力するステップと、前記ラベル付き訓練画像に関するエラーを低減するために、前記訓練可能な入力パラメータを修正するステップと、を含む、コンピュータが実施する方法も提供される。
【0079】
上述の方法を使用して訓練された画像認識システムを使用して、画像認識タスクを実行する方法も提供される。画像認識タスクは、上述の方法を使用して訓練可能な入力パラメータとともに、訓練されたビジョントランスフォーマに分類されるべき画像を入力することによって実行され得る。
【図面の簡単な説明】
【0080】
【
図1】
図1は、ビジュアルプロンプトチューニングを伴う画像認識システムを訓練する方法を示す;
【
図2】
図2は、ビジュアルプロンプトチューニングを伴う画像認識システムを示す;
【
図3】
図3は、プローブ法を用いたビジュアルプロンプトチューニングを伴う画像認識システムを示す;
【
図4】
図4はゼロショット方法を用いたビジュアルプロンプトチューニングを伴う画像認識システムを示す;
【
図5】
図5は、ビジュアルプロンプトチューニングに使用されるハイパーパラメータを示す;
【
図6】
図6は、ビジュアルプロンプトチューニングを伴うビジョントランスフォーマを示している;
【
図7】
図7は、線形分類器結合方法によるビジュアルプロンプトチューニングのテストエラー率の比較を示す;
【
図8】
図8は、ゼロショットおよびビジュアルプロンプトチューニング方法のテストエラー率の比較を示す;
【
図9】
図9は、線形またはビジュアルプロンプトチューニング方法を使用した場合の、クラスごとのテスト精度とラベル実施例の数の関係を示している。
【国際調査報告】