IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧

特許7195365画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
<>
  • 特許-画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 図1
  • 特許-画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 図2
  • 特許-画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 図3
  • 特許-画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 図4
  • 特許-画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 図5
  • 特許-画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 図6
  • 特許-画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-12-15
(45)【発行日】2022-12-23
(54)【発明の名称】画像条件付きマスク言語モデリングを用いて画像認識のための畳み込みニューラルネットワークを訓練するための方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221216BHJP
【FI】
G06T7/00 350C
【請求項の数】 5
(21)【出願番号】P 2021064797
(22)【出願日】2021-04-06
(65)【公開番号】P2021166046
(43)【公開日】2021-10-14
【審査請求日】2021-04-06
(31)【優先権主張番号】16/842,311
(32)【優先日】2020-04-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ダイアン ラルス-ラロンド
(72)【発明者】
【氏名】ジュリエン パレス
(72)【発明者】
【氏名】メー ブロン サリイルデイズ
【審査官】新井 則和
(56)【参考文献】
【文献】米国特許出願公開第2018/0268548(US,A1)
【文献】Jiasen Lu et al.,ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks, [online] Computer Vision and Pattern Recognition arXiv:1908.02265v1 [cs.CV],2019年08月06日,[2022.04.15検索], internet <URL: https://arxiv.org/pdf/1908.02265.pdf>,https://arxiv.org/pdf/1908.02265.pdf
【文献】Nils Reimers, Iryna Gurevych,Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks,[online] Computation and Language (cs.CL) arXiv:1908.10084v1 [cs.CL],2019年08月27日,[2022.04.15検索], internet <URL: https://arxiv.org/pdf/1908.10084.pdf>,https://arxiv.org/pdf/1908.10084.pdf
【文献】築山 将央 外3名,Visual Question Answeringのための多種質問回答生成とTransformerを用いたデータ拡張,電子情報通信学会技術研究報告 Vol.118 No.450 IE2018-89,日本,一般社団法人電子情報通信学会,2019年02月12日,pp. 91-96
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06V 10/00-10/98
(57)【特許請求の範囲】
【請求項1】
マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、
(a)前記畳み込みニューラルネットワークに画像を入力するステップ;
(b)前記畳み込みニューラルネットワークからH×W×C次元画像埋め込みテンソルを出力するステップ、ここで、H及びWはC次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す;
(c)トークンのリストを生成するためにキャプションをトークン化するステップであって、少なくとも一つの前記トークンは、前記畳み込みニューラルネットワークにより受信された前記画像に対する視覚的対応を持つ、ステップ;
(d)前記トークンのリスト内の前記トークンのうちの一つをマスクするステップ;
(e)前記H×W×C次元画像埋め込みテンソルの視覚的特徴ベクトルを用いて、前記マスクされたトークンを予測するステップ;
(f)前記マスクされたトークンと関連した予測損失を決定するステップ;及び、
(g)前記予測損失を前記畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップ、を含む、方法。
【請求項2】
マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、
(a)前記畳み込みニューラルネットワークに画像を入力するステップ;
(b)前記畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ;
(c)トークンのリストを生成するためにキャプションをトークン化するステップであって、少なくとも一つの前記トークンは、前記畳み込みニューラルネットワークにより受信された前記画像に対する視覚的対応を持つ、ステップ;
(d)マスクされる前記トークンのリスト内の前記トークンのうちの一つをランダムに選択するステップであって、選択された前記トークンは正解として見なされる、ステップ;
(e)言語モデルニューラルネットワークを用いて、前記トークンの潜在表現を計算するステップ;
(f)前記マスクされたトークンの潜在表現を質疑ベクトルとして使用して、前記視覚的埋め込みテンソルで前記視覚的埋め込みベクトルを注意深くプーリングするステップ;
(g)前記プーリングした視覚的埋め込みベクトルを前記トークンにマッピングすることにより、前記マスクされたトークンを予測するステップ;
(h)前記マスクされたトークンと関連した予測損失を決定するステップ;及び、
(i)前記予測損失を前記畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップ、を含む、方法。
【請求項3】
視覚的特徴ベクトルの前記視覚的埋め込みテンソルは、H×W×C次元画像埋め込みテンソルであり、H及びWはC次元視覚的埋め込みベクトルの空間グリッドの高さ及び幅を示す、請求項に記載の方法。
【請求項4】
前記プーリングされた視覚的特徴ベクトルは、コンテキストフィルタを用いてトークン語彙空間にマッピングされる、請求項又はに記載の方法。
【請求項5】
前記マスクされたトークンを予測するステップは、前記視覚的埋め込みベクトルのグリッドにわたって空間注意メカニズムを使用し、注意点数は前記マスクされたトークンの前記潜在表現によって条件付けされる、請求項乃至の何れか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像条件付きマスク言語モデリング(Image-conditioned Masked Language Modeling、IMLM)を用いて、画像認識のための畳み込みニューラルネットワーク(Convolutional Neural Network)を訓練するための方法に関し、具体的には、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法に関する。
【背景技術】
【0002】
コンピュータビジョン(computer vision)のディープラーニング(deep learning)アプローチでは、大規模な手動で注釈付けされたデータセットが活用される。これらのデータソースは、関心のある特定タスク等、例えば、画像分類、物体検出(object detection)又は場面細分化(scene segmentation)に関する最新モデルを訓練することができるようにする。また、大規模な手動で注釈付けされたデータセットは、大容量のニューラルネットワークが多数のタスクを通じて伝達可能な表現などを学習できるようにする。
【0003】
機械学習パイプライン等、例えば、自動運転車や自動パーソナルアシスタントには、重要な作業などを命令することになるので、より正確且つ強力なモデルを構築する必要がある。
【0004】
このような重要な作業などへの転換は、ニューラルネットワークベースのアーキテクチャの計算の複雑さを増加させると同時に、より有能なモデルの訓練を必要とする。しかしながら、入力画像に関して細分化した分析を遂行すべきタスクに対し、構造化した注釈付けされたデータを収集することは困難になり、費用の増加も招くことになる。
【0005】
より具体的には、そのようなデータが不十分なドメインに対して注釈付けされたデータを収集したり、視覚的な場面等の構造に関する詳細な理解、又は、オブジェクトタイプ及び属性に関する細分化した分析が必要なタスクに対して注釈付けされたデータを収集したりすることは困難になり、費用の増加も招くことになる。
【0006】
一つの特定の例は、感知器が認識すべき全ての個別オブジェクト及び概念の境界ボックス(bounding box)を必要とする物体検出タスクに関する注釈等である。
【0007】
注釈付けされる複雑な場面を図2に例示する。図2に示すように、画像300は家又は大邸宅330を含む。家又は大邸宅330は、庭園領域(図示せず)を囲む複数の壁又は垣根340を有する。画像300は、複数の常緑樹320及び落葉樹321をさらに含む。図2に示すように、画像300は複数の雲310を含む。
【0008】
図2の画像300に関する適切な注釈を生成するために、図3に示す複数の境界ボックス410が検知される多様なオブジェクトの周囲に具現される。図3は、微細でないスケールの境界ボックス410の使用を例示する。窓やドアや煙突などのように精密な検知が要求されるものである場合、図3に示すように、より多くの数の境界ボックス410を使用するべきである。これらの境界ボックスの使用は、精密なモデルを訓練するための強い教師(strong supervision)を要求する。
【0009】
また、個別視覚的タスクに関する注釈を収集する費用を低減するために、より弱い教師信号(weak supervision signal)に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。
【0010】
さらに、個別視覚的タスクに関する注釈を収集する費用を低減するために、ソーシャルメディアプラットフォーム(social media platform)のように、豊富であるが過度のノイズのある公開されている知識ベースを使用し、弱い教師信号に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。
【先行技術文献】
【特許文献】
【0011】
【文献】韓国登録特許第10-1882743号公報
【発明の概要】
【発明が解決しようとする課題】
【0012】
本開示は、画像条件付きマスク言語モデリングを用いて、画像認識のための畳み込みニューラルネットワークを訓練するための方法を提供する。
【課題を解決するための手段】
【0013】
本開示の一実施例によれば、シャム(Siamese)アーキテクチャを用いて、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、シャムアーキテクチャの第1のブランチ(branch)は視覚的表現を生成する畳み込みニューラルネットワークであり、シャムアーキテクチャの第2のブランチはテキスト表現を生成する言語モデルニューラルネットワークであり、前記方法は、(a)言語モデルニューラルネットワークのマスクされたトークンを使用し、畳み込みニューラルネットワークにより生成された画像の視覚的表現を使用して、画像条件付きマスク言語モデリングタスクを解決するステップを含み、前記画像条件付きマスク言語モデリングタスクを解決するステップは、(a1)画像条件付きマスク言語モデリングタスクの予測損失を計算するステップ、及び、(a2)予測損失を畳み込みニューラルネットワークに逆伝播(back propagate)して、畳み込みニューラルネットワークを訓練するステップを含む。
【0014】
本開示の他の一実施例によれば、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、(a)畳み込みニューラルネットワークに画像を入力するステップ、(b)畳み込みニューラルネットワークからH×W×C次元画像埋め込みテンソルを出力するステップ、ここで、H及びWはC次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す、(c)トークンのリストを生成するためにキャプション(caption)をトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ、(d)トークンのリスト内のトークンのうちの一つをマスクするステップ、(e)H×W×C次元画像埋め込みテンソルの視覚的特徴ベクトルを用いてマスクされたトークンを予測するステップ、(f)マスクされたトークンと関連した予測損失を決定するステップ、及び、(g)予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
【0015】
本開示のまた他の一実施例によれば、マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、(a)畳み込みニューラルネットワークに画像を入力するステップ、(b)畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ、(c)トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ、(d)マスクされるトークンのリスト内のトークンのうちの一つをランダムに選択するステップ、ここで、選択されたトークンは正解(ground truth)として見なされる、(e)言語モデルニューラルネットワークを用いてトークンの潜在表現を計算するステップ、(f)マスクされたトークンの潜在表現を質疑ベクトルとして使用し、視覚的埋め込みテンソルで視覚的埋め込みベクトルを注意深くプーリング(pooling)するステップ、(g)プーリングした視覚的埋め込みベクトルをトークンにマッピングすることにより、マスクされたトークンを予測するステップ、(h)マスクされたトークンと関連した予測損失を決定するステップ、及び、(i)予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
【図面の簡単な説明】
【0016】
添付の図面は、ただ多様な実施例を例示するためのもので、限定するものと解釈されるものではない。
図1】訓練方法及び再識別方法に関するアーキテクチャの例を示す。
図2】注釈付けされる複雑な場面の例を示す。
図3図2に対して生成された境界ボックスの注釈の例を示す。
図4】BERT(Bidirectional Encoder Representations from Transformers)モデルにおいて解決済みマスク言語モデリングタスクの完全なチェーンのブロックダイアグラムを示す。
図5】画像認識のための畳み込みニューラルネットワークを訓練するのに用いられる画像条件付きマスク言語モデリングの完全なチェーンのブロックダイアグラムを示す。
図6】線形階層を用いたImageNet Top-1分類の正確度を示す表である。
図7】RotNeによって学習された画像表現、及び、画像検索タスクに関する画像条件付きマスク言語モデリングの比較を示す表である。
【発明を実施するための形態】
【0017】
後術する方法及び/又はプロセスは、サーバ100により、図1に示すようなアーキテクチャ内で具現できる。
【0018】
以下の説明において、視覚的埋め込み(visual embedding)及び視覚的表現は、これらの公式が同一であるので、相互交換的に用いられる。
【0019】
一般に、サーバ100は、データ交換のために、インターネットのような拡張されたネットワーク200に連結される。サーバ100は、データプロセッサ110及びハードディスクのようなメモリ120を含む。
【0020】
前述したように、ソーシャルメディアプラットフォームのように、豊富であるが過度のノイズのある公開された利用可能な知識ベースを使用して、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。
【0021】
このようなプラットフォームに毎日アップロードされるデータの量を考慮するとき、使用者らにより直接注釈付けされたデータから利益を得ることは、モデルの性能を非常に高めることができる。より具体的には、数十億個のソーシャルメディア画像のハッシュタグ(hashtag)を予測することが、ImageNetのオブジェクト分類タスクにおける大きい向上につながることが分かる。また、インターネット上の料理ビデオから大規模な映像データセットを収集し、自動にパース(parsing)した注釈を含むことにより、VideoBERTモデルを訓練できることが分かる。
【0022】
また、前述したように、個別視覚的タスクに関する注釈を収集する費用を低減するために、より弱い教師信号に依存するモデルを用いて、画像認識のための畳み込みニューラルネットワークを訓練することが望ましい。
【0023】
より具体的には、無料で利用可能な画像の大規模なセットに対するプロキシタスク(proxy task)を解決することで、画像埋め込みモデルを学習するために、コンピュータビジョンにおいて教師なし学習(unsupervised learning)が活用された。埋め込みモデルが学習される場合、これはターゲットタスクのリストを最小限の努力で解決するのに使用され得る。
【0024】
例えば、教師なしプロキシタスクは、オートエンコーダ(auto-encoder)を用いてデータの潜在空間を学習できるのに対し、ターゲットタスクは、教師(supervised)オブジェクト(画像)分類、検知又は細分化を含むことができる。大容量のオートエンコーダが学習される場合、そのエンコーダネットワークは、(i)各々のターゲットタスクに関する別途のモデルを微細調整する初期状態、或いは、(ii)表現学習の負担なしにターゲットタスクを効率的に解決できる特徴抽出器として使用され得る。
【0025】
しかしながら、どのような場合でも、エンコーダネットワークにより学習された表現の性能は、プロキシタスクの目的に厳しく依存する。よって、入力ドメインの主要表現をキャプチャーするプロキシタスクを公式化することが要求される。
【0026】
自己教師あり学習(self-supervised learning)を活用する他のドメイン-特定プロキシタスクでは、入力空間の構造に関する暗示的事前知識を学習するために、“プリテキスト(pretext)”タスクが解決される。前述したように、事前知識(prior knowledge)はターゲットタスクに活用できる。コンピュータビジョンアプリケーション等の場合、グレースケール画像の色相化、画像回転の予測、若しくは画像埋め込みのクラスタリング(clustering)は、ダウンストリームビジョン問題に関して有用な事前知識を提供する。同様に、次の文章の予測及びマスク言語モデリングタスクを解決することは、言語モデルが自然言語処理ターゲットタスクの多様なセットに対して実質的によく遂行できるようにする。
【0027】
教師なし表現学習が有益であり得るが、転移学習では教師あり学習が依然として数段よく遂行される。また、教師なし表現学習は、注釈の不足を補完するためにもっと大規模なデータセットを必要とする。
【0028】
したがって、例えば、半教師あり学習(semi-supervised learning)下において、両方のパラダイムで利益を得る代替公式を探すことが望ましい。
【0029】
画像/テキスト記述ペア(image/textual description pair)は、ソーシャルメディアプラットフォームにおいて豊富で盛んであることに留意する。
【0030】
詳細に後述するように、これらの画像/テキスト記述ペアは、適切な視覚的埋め込みを訓練するのに活用できる。より具体的には、後述するように、画像条件付きマスク言語モデリングタスクと称するプロキシタスクは、言語モデルにより把握されたテキスト付加情報を用いて、画像に現れる視覚的埋め込みモデルオブジェクト及び概念を学習させるのに活用される。
【0031】
例えば、視覚的埋め込みモデルの訓練は、図3に示す境界注釈を、“It is cloudy”、“The house is old”、“There is a beautiful chateau among the trees”、“The trees on the left are evergreen”、“The lone maple tree is panted to the East of the house”、又は、“The chateau has a walled garden”のような不完全なテキスト記述に代替することにより実現される。
【0032】
画像条件付きマスク言語モデリングを活用する際に、互いに異なるモダリティ(modalities)で作動する2種類のモジュール、すなわち、事前訓練された言語モデル及び視覚的認識モデルが使用される。これらのモジュールを使用すれば、視覚的場面の理解のために自然言語の意味論的構造が活用される。
【0033】
例えば、画像キャプションペアからなるデータセットが付与される場合、画像条件付きマスク言語モデリングは、データセットのキャプションに関するマスク言語モデリングタスクを解決する。しかしながら、言語事前知識及びデータセット偏向に基づいてマスクされた単語を予測する代わりに、画像条件付きマスク言語モデリングは、キャプションと関連した画像を見ることにより予測する。
【0034】
より具体的には、画像キャプションペアが付与される場合、キャプションの単語がマスクされ、画像条件付きマスク言語モデリングは、画像の表現を用いてマスクされたラベル(label)を予測しようと試みる。
【0035】
前述したように、多様なビジョンタスクを通じて用いられる効率的且つ伝達可能な表現を学習するように視覚的埋め込みモデルを訓練するために、画像条件付きマスク言語モデリングベースプロキシタスクが活用される。画像条件付きマスク言語モデリングにおいて、マスク言語モデリングタスクは視覚的情報を用いて解決され、これに関する詳細は後述する。
【0036】
画像条件付きマスク言語モデリングをもっとよく理解するために、マスク言語モデリングが自然言語表現にどのように適用されるか簡略に説明する。
【0037】
マスク言語モデリングは、大規模なテキストコーパス(text corpora)に対して言語モデルを事前訓練するための自己教師ありプロキシタスクである。このような類型の事前訓練方式は、言語モデルが効率的な言語事前知識を学習できるようにするので、言語モデルを単純に微細調整するだけでも、広範囲な自然言語処理ターゲットタスクで最新技術に比べて大福な改善を達成できる。
【0038】
このような事前訓練タスクにおいて、(i)単語のシーケンスがトークン化し、(ii)トークンのランダムサブセットがマスクされたり、他のトークンに代替されたり、そのまま維持されたりするように選択され、(iii)全てのトークンは言語モデル(双方向トランスフォーマエンコーダモデル)に対する入力として付与され、(iv)言語モデルは(トークンが変更された場合、トークンがマスク又は代替される前)選択されたトークンの正解ラベルを正しく予測するように訓練される。図4は、このような事前訓練タスクを遂行するためのアーキテクチャを示す。
【0039】
図4に示すように、“THERE IS A BEAUTIFUL CHATEAU AMONG THE TREES”を示すトークンのセットが(ここで、CHATEAUに対するトークンがマスクされる)、トランスフォーマエンコーダ510に入力されて、マスクされたトークン520のコンテキスト化(contextualized)した表現を生成する。マスクされたトークン520のコンテキスト化した表現は、BERT(Delvin et al. “Bert: Pre-training of deep bidirectional transformers for language understanding”に記載される)のようなコンテキストフィルタ(context filter)530に入力されて単語予測540を生成する。
【0040】
図4を参照して自然言語表現に適用されるマスク言語モデリングを説明し、画像条件付きマスク言語モデリングについて詳細に記述する。
【0041】
事前訓練タスクは、画像キャプションペアが含まれたデータセットを活用する:
【数1】
ここで、Iは画像であり、

は場面Iのmキャプションのセットである。
【0042】
事前訓練プロセスは、二つのニューラルネットワークモジュール、すなわち、F-CNN(fully-convolutional neural network)(図5の660)ベース画像埋め込みモデルΦθCNN( )、及び、事前訓練された言語モデル(LM)ΨθLM( )であり、ここで、θCNN及びθLMは各々F-CNN及びLMのパラメーターである。
【0043】
画像埋め込みモデルΦθCNN( )は、RGB画像(I)(図5の300)を入力とし、H×W×C次元画像埋め込みテンソル(図5の670)を出力し、すなわち、ΦθCNN(I)∈RH×W×Cであり、ここで、H及びWはC次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す。
【0044】
一方、事前訓練された言語モデル(LM)ΨθLM( )(図5の610)は、キャプションCi,j(図5のTHERE IS A BEAUTIFUL [MASK] AMONG THE TREES、ここで、マスクされたトークンは“CHATEAU”である)をトークン化することにより獲得されたトークンのリスト[t,... ,t]i,jを入力として受信し、トークン[ΨθLM(t) ,... ,ΨθLM(t)]i,j(図5の620)のD次元コンテキスト化した表現を出力し、ここで、ΨθLM(t)∈Rである。
【0045】
画像条件付きマスク言語モデリングにおいて、画像Iに対して注釈付けされる各々のキャプション
は、画像Iに示す少なくとも一つの特定動作又はオブジェクトを記述する。換言すれば、キャプションCi,jには、画像Iで視覚的対応を持つ少なくとも一つのトークンがあると仮定し得る。続いて、トークンのうちの一つがマスクされ、Iから抽出された視覚的特徴ΦθCNN(I)を使用して、トークンのラベルを予測しようと試みることができる。このような方式により、トークン予測損失を視覚的埋め込みモデルΦθCNN( )に逆伝播することにより、パラメーターθCNNが調整できる。
【0046】
より具体的には、画像キャプションペア(I,Ci,j)が付与される場合、画像条件付きマスク言語モデリングの学習問題は、次の通り定義される。最初は2つのモダリティの入力表現が抽出される。キャプションCi,jは[t,...,t]i,jにトークン化する。トークンのうちの一つはランダムに選択されるt∈[t,...,t]i,j
【0047】
選択されたトークンytmの識別(すなわち、トークン語彙から選択されたトークンの索引)は、正解として見なされる。続いて、tは“[マスク]”に代替される。トークンの潜在表現[ΨθLM(t),...,ΨθLM(t)]i,jは言語モデルにより計算され、ここで、ΨθLM(t)∈Rである。
【0048】
並列的に、画像の視覚的埋め込みテンソルΦθCNN(I)∈RH×W×Cは、F-CNN(図5の660)により計算される。
【0049】
一実施例において、マスクされたトークンの潜在表現ΨθLM(t)は、視覚的埋め込みテンソルΦθCNN(I)を注意深くプーリングするための質疑ベクトルとして使用できる。
【0050】
このようなプロセスは、視覚的埋め込みベクトルΦθCNN(I)のグリッドに対する空間注意(アテンション)メカニズム(spatial attention mechanism)であり、ここで、注意点数はマスクされたトークンΨθLM(t)の潜在表現によって条件付きされ、その詳細は後述する。最後に、注意モジュール(図5の650)によりプーリングされた視覚的埋め込みベクトルがトークン語彙にマッピングされ、マスクされたトークンのラベルを予測する
【0051】
前記プロセスは、テキストデータから抽出された信頼し得る付加情報をF-CNN(図5の660)に提供することで、F-CNN(図5の660)を訓練するように遂行される。訓練を遂行するために、BERTのような事前訓練された双方向トランスフォーマエンコーダモデルを言語モデルとして使用することができる。異なる言語モデルを使用することもできる。F-CNNを訓練する間、BERTにより学習された言語事前知識の利益を得るために、(i)BERT(θLM)のパラメーターが凍結され(frozen)、(ii)プーリングされた視覚的埋め込みベクトルが、コンテキストフィルタ(図5の630)及び事前訓練されたBERTモデルの部分であるトークン埋め込みを使用して、トークン語彙空間にマッピングされる。
【0052】
BERTモデルは、2つの自己教師ありプロテキストタスク(マスク言語モデリングタスク及び次の文章予測タスク)を解決して訓練され、これにより訓練には追加的な手動の注釈付けが不要であることに留意する。
【0053】
画像条件付きマスク言語モデリングにおいて、何をΦθCNN(I)に学習させるかは、訓練中にマスクされるトークンの制限により選択的に決定され得る。マスクできるトークンのリストを予め決定することによる学習手順に対するこのような類型の柔軟な制御は、多数の利点を持つことができる。
【0054】
第一に、画像から感知するのに曖昧なトークン;例えば、“概略(about)”、“美しい(beautiful)”若しくは“サポート(support)”が除去され得る。このようなトークンを除去することで、曖昧な概念の予測から発生し得るノイズのある学習信号がフィルターリングされ、これにより訓練を安定化させることができる。
【0055】
第二に、トークン選択のためのカリキュラム学習ベースアプローチを採択することができ、ここで、マスクできるトークンが訓練過程中に動的にアップデートされる。
【0056】
つまり、最小化する目標は、次のような対数尤度(log-likelihood)である:
【数2】
【0057】
ここで、θATTは注意モジュール(図5の650)で用いられる訓練可能なパラメーターであり、Mはマスクできるトークンのセットである。
【0058】
要約すれば、画像と関連したキャプションのマスクされたトークンは、画像を直接“目視”により予測される。すなわち、マスクされたトークンは、F-CNNから来る視覚的情報だけ使用して予測される。F-CNNから抽出されたW×Hサイズの空間グリッド上に置かれたC次元視覚的特徴ベクトルは、BERTから抽出されたマスクされたトークンのコンテキスト化した潜在表現に対する条件付きにより参考される。最後に、参考された(プーリングされた)視覚的特徴ベクトルは、BERTにより学習されたトークン埋め込み空間に投影される。
【0059】
次は、視覚的埋め込みベクトルに対する注意を計算することについて説明する。
【0060】
自然言語処理アプリケーションのためのテキストシーケンスをモデリングするために、スケーリングされた内積注意(scaled dot product attention)として称する一つの特定自己注意方式が使用された。異なる注意メカニズムが使用され得ることに留意する。
【0061】
スケーリングされた内積注意方式において、トランスフォーマアーキテクチャの各々の階層において、D次元キーk、質疑q及び値vベクトルが入力シーケンスの各々のトークンに対して計算される。続いて、トークンtに対するトークンtの注意点数は、次の通り計算される:
【数3】
【0062】
ここで、q及びkは、各々ネットワークの所定階層におけるトークンt及びtに対して計算されたRの質疑及びキーベクトルである。入力シーケンスにおいて各々のトークン間のペアワイズ(pairwise)注意点数に基づき、トークンのコンテキスト化した表現が次の通り計算される:
【数4】
【0063】
ここで、Q、K、Vは、ネットワークの所定階層における全てのトークンに対して計算されるRTXDの質疑、キー及び値である。
【0064】
これは、視覚的質問応答の目的のために誘導された注意単位を構築するように拡張された。誘導された注意単位において、注意点数は、長短期記憶モデルから来るトークンの潜在表現、及び、ResNet101-バックボーン型Fast R-CNNモデルの凍結された視覚的埋め込みベクトル間で計算される。このために、キー及び値ベクトルはトークン表現により計算され、質疑ベクトルは画像表現により計算される。このような方式により視覚的情報を質疑することで、トークン表現がコンテキスト化する。
【0065】
視覚的質問応答及び画像条件付きマスク言語モデリングタスクは、データモダリティ及び解決されるタスクに対して類似しているが、前述した訓練は異なるアプローチに従う。
【0066】
事前訓練された視覚的埋め込みモデルを使用し、言語モデルを訓練させて視覚的質問応答タスクのための多重モード表現を学習する代わりに、事前訓練された言語モデルを使用して視覚的埋め込みモデルが訓練されて、画像条件付きマスク言語モデリングタスクのための視覚的表現を学習する。したがって、プール(pool)視覚的表現は、マスクされたトークンのコンテキスト化した表現を質疑することによりプーリングされる。
【0067】
より具体的に、質疑ベクトルqは、事前訓練されたBERTモデルにより計算されたキャプションCi,jのマスクされたトークンの潜在表現である。キー及び値ベクトルは、2つの互いに異なる畳み込み神経ブロックρθK及びρθVを用いて、F-CNNの出力をBERTモデルのトークン表現空間にマッピングすることにより計算され、ここで、θ及びθはこれらのブロックの訓練可能なパラメーターであり、すなわち、θATT={θ∪θ}。これらのブロックは、(i)視覚的埋め込みベクトル及びマスクされたトークンの表現間のスケーリングされた内積注意点数を計算するために(これらの次元が一致すること)、(ii)画像埋め込みモデルΦθCNN(I)により学習された表現を視覚的埋め込み空間からトークン表現空間へのマッピングを分離するために、そして、(iii)F-CNNが畳み込み変換を使用して視覚的埋め込みべクトルの空間グリッドを出力する時、次を得るためのベクトルの配列を獲得するために使用される:
【数5】
【0068】
ここで、q∈Rは質疑ベクトルとして使用される、マスクされたトークンの潜在表現であり、KとVは畳み込みブロックにより計算されたRMXDのキー及び値であり(表記法をより簡単に作るために、畳み込みブロックがW×H次元空間グリッドをM=W×Hサイズの配列に平坦化すると仮定する)、なお、γ(q,K,V)はマスクされたトークン表現を質疑することにより獲得したRからコンテキスト化した視覚的埋め込みを生成する。
【0069】
最終的に、γ(q,K,V)は、前述したように、トークン語彙空間にマッピングされる。訓練中に、θCNN及びθは、次の通り数式(1)に定義されたトークン予測損失を最適化することにより調整される:
【数6】
【0070】
モデルを、効率的な画像表現を学習するための能力と関連して評価する一般の慣行には、3つの考慮事項がある。
【0071】
第1の考慮事項は、ターゲットタスクのスペクトラムと関連がある:広範囲なターゲットタスクから表現を一般化できるか。例えば、自動エンコーダにより学習された表現がオブジェクト分類から表面推定又は視覚的探索に至る多様なタスクに有用であるか。
【0072】
第2及び第3の考慮事項は、所望の性能を達成するのに必要なパラメーター及び注釈付けされた訓練サンプルの数と関連がある:モデルが計算的により低廉なアーキテクチャ又は非常に少ない注釈付けされたデータを用いて、特定ターゲットタスクにおいて同一の性能水準を達成できるか。
【0073】
これらの基本様態に基づいてモデルをベンチマークするために、オブジェクト分類、検知及び細分化、画像検索又はFSL(few-shot learning)を含んでいくつかのターゲットタスクが提案された。
【0074】
視覚的な世界に関する事前知識を収集して効率的な画像表現を学習する方法としては、教師なし学習の一形態として自己教師ありプロキシタスクが提案された。
【0075】
次のテストにおいて、画像条件付きマスク言語モデリングは、次のような理由により教師なし学習に基づいたアプローチと比較された。
【0076】
第一に、視覚的埋め込みモデルを訓練させて評価するために解決されるプロキシ及びターゲットタスクは、互いに分離されている。画像条件付きマスク言語モデリングにおいて、視覚的埋め込みモデルは、事前訓練された言語モデルにより案内される、マスクされた単語予測タスクを解決することにより訓練される。続いて、視覚的埋め込みモデルにより学習された表現は、他の本質的に異なるビジョンタスク等、例えば、オブジェクト分類又は画像検索として評価される。
【0077】
そのような意味から、追加テキスト入力(ノイズがあって不完全であるが)が使用されても、画像条件付きマスク言語モデリングは、ターゲットタスクと関連して教師なし方式により訓練される。
【0078】
第二に、インターネットで発見される豊富な画像キャプションペアは、データ注釈付けのボルトネット(bottleneck)を克服するための弱い教師(weak supervision)の潜在的なソースになり得る。よって、画像条件付きマスク言語モデリングは、ビジョンタスクに対する豊富な弱い教師が活用できる、視覚的埋め込みモデルを訓練するための代替的な方法である。
【0079】
第三に、教師なし学習アプローチは、ビジョンタスクのリストから画像表現を評価するためのベンチマークプロトコルを自然に確立した。これらのプロトコルを直接実験することで、画像条件付きマスク言語モデリングから得た利得が測定できる。
【0080】
テストにおいて、ΦθCNNθK及びρθVモジュールは、Visual Genomeデータセットに提供された(画像、領域記述(region description))チュープル(tuple)に関するものである。Visual Genomeには108,077個の画像及び540万個の領域記述が含まれる。各々の領域記述は画像にあるオブジェクト間の特定相互作用に関するものであり、境界ボックス及びキャプション注釈と共に提供される。目標は、F-CNNを訓練するために不完全な弱い教師を活用するものであるため、実験で境界ボックス注釈は削除される。
【0081】
これらの実験において、画像領域の10%未満又は90%超過を占有する領域記述は除去される。続いて、WordPieceトークン化が適用され、長さが3未満又は15超過のシーケンスは除去される。マスクできるトークンのリストは、キャプションにある最も一般的な2,000個の名詞及び形容詞からなる。そうする間に、マスクされたトークンのラベルを予測するのが目的であるため、単一ピースにトークン化する名詞及び形容詞が選択される。
【0082】
名詞及び形容詞は記述にパッシングされる。領域記述及びマスクできる単語の両方を前処理した後、データセットは約1百万個の領域記述及び1,246個のマスクできる単語を有する。したがって、前記数式(1)は、(画像、領域記述)ペアに関する1246方式(way)分類問題に変換される。残りの記述のうち、50k領域記述の2個のセットをランダムに選択して検証及びテストセットを構成する。
【0083】
一貫性を維持するために、AlexNet-類似畳み込みニューラルネットワークである画像埋め込みモデルΦθCNNが使用され、各々の畳み込み階層にはBatchNorm2D階層がある。テスト等において、ImageNetで事前訓練されたAlexNetチェックポイントは回転予測タスクと共にローディングされる。しかしながら、前述したように、注意メカニズムを用いて視覚的特徴がプーリングされるため、AlexNetの最後の最大プーリング及び完全に連結した階層が除去される。
【0084】
ρθK及びρθVブロックは、後で2個のConv2D-BatchNorm2D-ReLU階層及び線形Conv2D階層を用いて構築される。BERTモデルのトークン表現の次元である768個のチャンネルを有する最後の線形Conv2Dを除いた各々のConv2D階層は、3×3のカーネル(kernel)及び512個のチャンネルを有する。また、ρθK及びρθVが視覚的特徴ベクトルの空間構成を理解するために、ワン-ハット(one-hat)位置埋め込みは、 ρθK及びρθVブロックに供給される前に視覚的特徴ベクトルΦθCNN(I)に結合される。モデルの全ての訓練可能なパラメーターは、各々ΦθCNN及び[ρθK,ρθV]ネットワークのパラメーターに対し、学習率が5×10-5及び5×10-4であるADAMオプティマイザを用いて、256サイズのバッチ(batch)で100k SGDアップデートを遂行することにより調整される。線形学習率減衰(linear learning rate decay)は訓練中に適用される。
【0085】
画像条件付きマスク言語モデリングは、ILSVRC-2012チャレンジデータセットに対するオブジェクト分類タスクに関するいくつかの最新自己教師あり学習アプローチと比較された。このタスクに関する標準評価手順は、事前訓練されたモデルから画像表現を抽出し、凍結された表現の上部にロジスティック回帰分類器(logistic regression classifier)を訓練することを伴う。AlexNetには5個の畳み込み階層があるので、凍結された表現は各々の畳み込み階層の出力から計算され、次いで空間的にサイズが調整されることにより、各々の階層の表現が概略9k次元になる。その後、各ブランチで平坦化、BatchNorm2D及び完全連結階層が付加にされ、新しく付加されたこれらのパラメーターは、ILSVRC-2012データセットの訓練セットに対し、35エポック(epoch)の間にSGDアップデートを遂行することにより訓練される。
【0086】
このタスクでの性能を計算するために、公開的に共有された保存所が使用される。比較される全てのアプローチは、画像条件付きマスク言語モデリングのようなAlexNet-類似アーキテクチャを使用する。
【0087】
画像条件付きマスク言語モデリングにより訓練されたAlexNetアーキテクチャから抽出された画像表現は、自己教師あり学習アプローチに比べて大幅な改善が実現される。RotNetと画像条件付きマスク言語モデリングとを比較することで、伝達可能な表現を学習するために言語事前知識を活用する明らかな利点が実現される。また、畳み込み階層パラメーターの個数が、Deep ClusterよりAlexNetの方で実質的により大きいことができるが、画像条件付きマスク言語モデリングは、特にAlexNetに対するより一般的な表現の学習を可能にする。これと関連して、画像条件付きマスク言語モデリングにおいてF-CNNを訓練することがDeep Clusterより効率的である。
【0088】
図6は、線形階層を用いたImageNet Top-1分類の正確度を示す表1である。表1の全てのアプローチは、モデル等でAlexNet-類似アーキテクチャを使用する。表1の第1の部分及び第2の部分は、そのベンチマークの上限及び下限である。
【0089】
画像条件付きマスク言語モデリング及びRotNetを画像検索タスクに対してテストした。クラス水準分類タスクとは異なり、このタスクは画像の細分化した細部事項をキャプチャーする側面でモデルをベンチマークすることで、クラス内分散(intra-class variation)を選好する。
【0090】
この両方のモデルにより学習された表現を評価するために、AlexNetの畳み込み階層を取り、一般化した平均プーリング、L2正規化、及び、完全連結階層が付加される。完全連結階層のパラメーターは、Landmarksデータセットのクリーン(clean)バージョンに対するAP損失を最小化することで、300エポックの間に訓練される。完全なモデルは、mAP(mean-average-precision)点数を計算することで、再訪問したOxford Buildings及びParisデータセットでテストされる。画像条件付きマスク言語モデリングタスクを解決することにより生成された画像表現は、このタスクでRotNetモデルにより獲得された相手より非常に優れている。結果は図7の表2に提示される。
【0091】
不正解(distractor)は、不正解セットから不正解をランダムに選択し、選択した不正解をギャラリーセット(gallery set)に追加して選択した。
【0092】
その拡張されたデータセットに対して報告された以前の最新結果と訓練されたモデルとを比較すれば、訓練されたモデルの両バージョン(r及びb)が、図4に提示された通り、最新記述(y)より非常に優れている。
【0093】
要約すれば、シャムアーキテクチャを用いて、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、シャムアーキテクチャの第1のブランチは視覚的表現を生成する畳み込みニューラルネットワークであり、シャムアーキテクチャの第2のブランチはテキスト表現を生成する言語モデルニューラルネットワークであり、その方法は、(a)言語モデルニューラルネットワークのマスクされたトークンを使用し、畳み込みニューラルネットワークにより生成された画像の視覚的表現を使用して、画像条件付きマスク言語モデリングタスクを解決するステップを含み、画像条件付きマスク言語モデリングタスクを解決するステップは、(a1)画像条件付きマスク言語モデリングタスクの予測損失を計算するステップ、及び、(a2)予測損失を畳み込みニューラルネットワークに逆伝播して、畳み込みニューラルネットワークを訓練するステップを含む。
【0094】
マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、(a)畳み込みニューラルネットワークに画像を入力するステップ;(b)畳み込みニューラルネットワークからH×W×C次元画像埋め込みテンソルを出力するステップ、ここで、H及びWはC次元視覚的特徴ベクトルの空間グリッドの高さ及び幅を示す;(c)トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ;(d)トークンのリスト内のトークンのうちの一つをマスクするステップ;(e)H×W×C次元画像埋め込みテンソルの視覚的特徴ベクトルを用いてマスクされたトークンを予測するステップ;(f)マスクされたトークンと関連した予測損失を決定するステップ;及び、(g)予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
【0095】
マスク言語モデリングに基づき、画像認識のための畳み込みニューラルネットワークを事前訓練する方法であって、(a)畳み込みニューラルネットワークに画像を入力するステップ;(b)畳み込みニューラルネットワークから視覚的埋め込みベクトルの視覚的埋め込みテンソルを出力するステップ;(c)トークンのリストを生成するためにキャプションをトークン化するステップ、ここで、少なくとも一つのトークンは畳み込みニューラルネットワークにより受信された画像に対する視覚的対応を持つ;(d)マスクされるトークンのリスト内のトークンのうちの一つをランダムに選択するステップ、ここで、選択されたトークンは正解として見なされる;(e)言語モデルニューラルネットワークを使用して、トークンの潜在表現を計算するステップ;(f)マスクされたトークンの潜在表現を質疑ベクトルとして使用して、視覚的埋め込みテンソルで視覚的埋め込みベクトルを注意深くプーリングするステップ;(g)プーリングした視覚的埋め込みベクトルをトークンにマッピングすることにより、マスクされたトークンを予測するステップ;(h)マスクされたトークンと関連した予測損失を決定するステップ;及び、(i)予測損失を畳み込みニューラルネットワークに逆伝播して、そのパラメーターを調整するステップを含む。
【0096】
視覚的特徴ベクトルの視覚的埋め込みテンソルは、H×W×C次元画像埋め込みテンソルであり得、ここで、H及びWはC次元視覚的埋め込みベクトルの空間グリッドの高さ及び幅を示す。
【0097】
プーリングされた視覚的特徴ベクトルは、コンテキストフィルタを用いてトークン語彙空間にマッピングされ得る。
【0098】
マスクされたトークンを予測することは、視覚的埋め込みベクトルのグリッドにわたって空間注意メカニズムを使用でき、ここで、注意点数はマスクされたトークンの潜在表現によって条件付けされる。
【0099】
上述の実施例の変形例、他の特徴及び機能、若しくはその対案が、望ましくは多くの異なるシステム又は応用により組み合わせできることが分かる。また、多様な突然又は意外の代案、修正、変形又はその範囲内の改善が当業者により後続的になされることができ、これは前記説明及び後述の特許請求の範囲により含まれるように意図される。
図1
図2
図3
図4
図5
図6
図7