(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-06
(45)【発行日】2023-09-14
(54)【発明の名称】画像における自然言語句の文脈接地
(51)【国際特許分類】
G06T 7/00 20170101AFI20230907BHJP
G06V 10/82 20220101ALI20230907BHJP
G06N 3/02 20060101ALI20230907BHJP
G06F 16/583 20190101ALI20230907BHJP
【FI】
G06T7/00 350C
G06V10/82
G06N3/02
G06F16/583
(21)【出願番号】P 2022506821
(86)(22)【出願日】2020-09-10
(86)【国際出願番号】 US2020050258
(87)【国際公開番号】W WO2021050776
(87)【国際公開日】2021-03-18
【審査請求日】2022-02-02
(32)【優先日】2019-09-12
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-09-08
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】レイ、 ファーレイ
(72)【発明者】
【氏名】カダヴ、 アシム
(72)【発明者】
【氏名】シエ、 ニン
【審査官】小池 正彦
(56)【参考文献】
【文献】米国特許出願公開第2019/0130206(US,A1)
【文献】米国特許出願公開第2019/0266236(US,A1)
【文献】米国特許出願公開第2017/0262475(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06V 10/82
G06N 3/02
G06F 16/583
(57)【特許請求の範囲】
【請求項1】
テキスト分岐および画像分岐を含むテキスト画像検索のための方法であって、該方法は、
テキスト質問と画像とを入力として受信し、
前記入力したテキスト質問をトークンに構文解析し、それらをエンティティ埋め込みベクトルに変換し、
前記入力した画像内の視覚オブジェクト候補を特定し、
前記エンティティ埋め込みと視覚オブジェクト候補との間の対応をスコア付けし、
境界ボックスで視覚化された、最も高い確率のスコアを持つ質問テキストエンティティに対応するオブジェクトを、システムのユーザに提供
し、
前記画像分岐によって、物体検出器から入力対象として関心領域(RoI)特徴を受信し、
2層の多層パーセプトロン(MLP)を訓練して、画像全体に正規化された前記RoIの位置およびサイズの絶対的空間情報を与えられた空間埋め込みを生成することを含み、
特定の埋め込みまたはオブジェクト特徴抽出が前記方法で使用されない、方法。
【請求項2】
BERT(Bidirectional Encoder Representations from Transformers)ベースのモデルを使用して前記テキスト分岐を事前訓練することをさらに含む、請求項1に記載のシステムの方法。
【請求項3】
分岐の両方によって、前記MLPの第1の交互作用層への入力として、トークンおよびRoIにそれぞれ位置および空間埋め込みを追加することを、さらに含む、請求項
1に記載の方法。
【請求項4】
前記MLPの各層において、各隠れ表現による自己注意を互いに実行して、層出力として新規の隠れ表現を生成することを、さらに含む、請求項
3に記載の方法。
【請求項5】
各分岐の終わりで、最終的な隠れ状態を接地ヘッドに提供して、質問としてテキストエンティティの隠れ状態を、キーとして画像オブジェクトの隠れ表現を有するクロスモーダルな注意応答を提供することを、さらに含む、請求項
4に記載の方法。
【請求項6】
一致する対応が前記注意応答から決定される、請求項
5に記載の方法。
【請求項7】
前記対応がグラウンドトゥルースと一致しない場合に、エンティティごとに平均二値クロスエントロピー損失を逆伝搬することを、さらに含む、請求項
6に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に言語テキストおよび画像に関する。より詳細には、言語テキストを画像に含まれる視覚オブジェクトと対応付ける技術を記載する。
【背景技術】
【0002】
言語接地(grounding)は、テキストエンティティと画像内のオブジェクトとの間の対応を理解することを必要とする視覚的推論の課題に対処するための基本的なタスクである。言語接地の1つの単純な実世界適用は、テキスト質問を入力として取り込み、その質問の言語エンティティによって参照される所与の画像内の視覚オブジェクトを出力として返す自然言語検索システムである。かかる大きな必要性および有用性にもかかわらず、言語接地を実行する自動化されたシステム、方法、および構造は、当該技術分野ではまだ解決されていない重要な技術的課題を提示する。
【発明の概要】
【0003】
当該技術分野の進歩は、画像における自然言語エンティティの文脈接地を提供するシステム、方法、および構造に関する本開示の態様に従ってなされる。
【0004】
従来技術とは対照的に、本開示の態様によるシステム、方法、および構造は、対応するテキストエンティティと画像領域との文脈を有利に捕捉し、それによって接地精度を改善する新規なアーキテクチャを導入する。
【0005】
さらに、従来技術とは対照的に、本開示の態様によるシステム、方法、および構造は、特定の埋め込みまたは物体特徴抽出なしに、それぞれ対応するテキストおよび画像における文脈を捕捉する文脈接地アプローチを導入する。
【0006】
動作上、本明細書で開示される本発明のアーキテクチャは、事前訓練されたテキストトークン埋め込みと物体検出器からの画像オブジェクト特徴とを入力として受け付ける。方法d。位置および空間情報を捕捉する追加の符号化は、特徴品質を向上させることができる。別々のテキストおよび画像の分岐は、異なるモダリティのためのそれぞれのアーキテクチャの改善を容易にする。テキスト分岐は、大規模なマスク言語モデリングタスク上で事前訓練され、一方、画像分岐はスクラッチから訓練される。
【0007】
発明者らのモデルは、それぞれ高次の交互作用の層を通してテキストトークンと画像オブジェクトの文脈表現を学習する。最終的な接地ヘッドは、クロスモーダルな交互作用を通して、テキスト表現と視覚表現の間の対応をランク付けする。
【0008】
最後に、発明者らの評価において、発明者らのモデルがFlickr30Kエンティティデータセット上で71.36%の最高の接地精度を達成する事を示した。クロスモーダルデータセットに対するタスクに依存しない、タスク固有の事前訓練を必要とすることが多い関連作業と比較して、競合結果を提供するための追加の事前訓練は不要である。
【図面の簡単な説明】
【0009】
本開示のより完全な理解は、添付の図面を参照することによって実現され得る。
【0010】
【
図1】キャプション内のエンティティに対応する境界ボックスで注釈付けされたFlickr30Kエンティティからの実例画像を示す概略図である。
【0011】
【
図2】本開示の態様による自然言語オブジェクト検索システム図を示す概略図である。
【0012】
【
図3】本開示の態様による、文脈接地アーキテクチャおよびワークフローを示す概略図である。
【発明を実施するための形態】
【0013】
例示的な実施形態は、図面および詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で具現化されてもよく、図面および詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。
説明
【0014】
以下は、単に本開示の原理を例示するものである。したがって、当業者は、本明細書では明示的に説明または図示されていないが、本開示の原理を具体化し、その精神および範囲内に含まれる様々な構成を考案することができることが理解されよう。
【0015】
また、本明細書に列挙されたすべての実施例および条件付き言語は、読者が本開示の原理および本技術を促進するために本発明者によって寄与された概念を理解するのを助けるための教育目的のためだけのものであることが意図され、そのような具体的に列挙された実施例および条件に限定されないものとして解釈されるべきである。
【0016】
さらに、本開示の原理、態様、および実施形態、ならびにその特定の例を列挙する本明細書のすべての記述は、その構造的および機能的な均等物の両方を包含することが意図される。さらに、そのような均等物は、現在知られている均等物と、将来開発される均等物、すなわち、構造にかかわらず、同じ機能を実行する開発された任意の要素との両方を含むことが意図される。
【0017】
したがって、たとえば、本明細書の任意のブロック図が、本開示の原理を実施する例示的な回路の概念図を表すことが、当業者には理解されよう。
【0018】
本明細書で特に明記しない限り、図面を構成する図は、一定の縮尺で描かれていない。
【0019】
いくつかの追加の背景として、クロスモデル推論は、テキストおよび画像のような異なるモダリティにおいてエンティティおよびオブジェクトを接地するのが困難であることに留意されたい。代表的なタスクは、視覚的質問応答(VQA)と、テキストと画像との間の接地された特徴を活用して予測を行う画像キャプショニングとを含む。
【0020】
これらのタスクにおける最近の進歩は印象的な結果を達成するが、両方のモダリティにおけるテキストエンティティと視覚オブジェクトとの間の対応の質は、説得力がなく、解釈可能でもない。これは、1つのモダリティから他のモダリティへの接地が暗黙的に訓練され、中間結果が物体検出ほど明示的に評価されないことが多いためである可能性が高い。
【0021】
この問題に対処するために、視覚的接地の評価を容易にするために、言語句と画像領域との間の対応の正確な注釈を有するFlickr30Kエンティティデータセットが作成された。
【0022】
図1は、キャプション内のエンティティに対応する境界ボックスで注釈付けされたFlickr30Kエンティティからの実例画像を示す概略図である。この図では、2人の男性を別々のエンティティと呼ぶ。画像内の2人の男性を一意に接地するために、接地アルゴリズムは、対応を学習するために、それぞれのコンテキストおよび属性を考慮に入れなければならない。
【0023】
歴史的に長年にわたり、この局所化の課題に取り組むために、多くの深層学習に基づくアプローチが提案されてきた。そのようなアプローチの背後にある基本的なアイデアは、各エンティティおよびオブジェクトについて代表的な特徴を導出し、次いでそれらの対応をスコア付けすることである。キャプション入力のモダリティでは、個々のトークン表現は、通常、単語埋め込みから始まり、その後に、文中のテキストエンティティの文脈上の意味を捕捉するために、再帰型ニューラルネットワーク(RNN)(通常、Long Short-Term Memories(LSTM)またはGated Recurrent Units(GRU))が続く。一方、画像関心領域(RoI)内の視覚オブジェクトは、物体検出によって抽出される。
【0024】
検出された各オブジェクトは、典型的には2D畳み込みの受信フィールドを介して制限されたコンテキストを捕捉する。feature pyramid network(FPN)のような高度な技術は、オブジェクトサイズに対して異なる意味レベルで特徴を組み合わせることによって表現を強化する。そうであっても、これらの従来のアプローチは、テキストおよび画像の両方において、関連する長距離文脈を効果的に抽出することに制限される。この制限を考慮して、自然言語処理(NLP)およびコンピュータビジョン(CV)タスクにおける長距離依存性に対処するために、非局所的注意技術が提案されている。
【0025】
この進歩により、発明者らはテキストエンティティと視覚オブジェクトとの間の文脈的対応を推論するために、広範なモーダル内およびモーダル間の交互作用を通して表現を改善するための文脈接地アプローチを導入した。
【0026】
関連作業。特徴交互作用の方法論では、機械翻訳のためのTransformer(トランスフォーマー)アーキテクチャは、言語要素間の交互作用を効率的に計算するための系統的アプローチを実証する。同時に、非ローカルネットワークは、トランスフォーマーをCVドメインに一般化し、特徴マップからプールされたオブジェクトまでの異なるレベルの粒度で特徴交互作用をサポートする。
【0027】
最近、画像トランスフォーマーは、接地のためのRoIレベルでの画像入力を扱いながら、画素位置における空間情報を符号化することにより、画像生成ドメインにオリジナルのトランスフォーマーアーキテクチャを適応させる。加えて、他は、大規模のマスク言語モデリングに関する事前訓練されたトランスフォーマーエンコーダとしてBERT(Bidirectional Encoder Representations from Transformer)を提案し、最高精度(SOTA)の結果を達成するための訓練下流タスクを容易にした。
【0028】
以下に示すように、本発明の作業は、言語エンティティおよび視覚オブジェクトの文脈表現を共同で学習することによって、BERTをクロスモーダル接地タスクに拡張する。同時に、VisualBERTと名付けられた別の作業ラインも、単一のトランスフォーマーアーキテクチャにおける接地を取り扱うためにBERTを統合する。しかしながら、それらのモデルは、競合結果を達成するために、クロスモーダルデータセットに対するタスクに依存しない事前訓練およびタスク固有の事前訓練の両方を必要とする。逆に、本発明者らは、追加の事前訓練なしにSOTA結果を達成し、異なるモダリティに対するそれぞれのアーキテクチャ上の懸念を可能にする。
【0029】
文脈接地
【0030】
従来技術の主なアプローチは、RNN/LSTMを使用して、高レベルの句表現を抽出し、次いで、異なる注意機構を適用して、視覚領域への対応をランク付けする。エンティティフレーズの隠された表現は、言語文脈を考慮に入れるが、視覚オブジェクトの周りの画像文脈は対照的に、2D受信フィールドを介した物体検出に限定される。それにもかかわらず、RNNを通って遠く離れた文脈依存性を捕捉するために、画像におけるオブジェクトについてテキストのような位置順序はない。
【0031】
NLPにおける最近の進歩に鑑みて、トランスフォーマーアーキテクチャは、純粋な注意技術を介して長距離依存性に対処する。RNNが組み込まれていない場合、トランスフォーマーは、範囲にかかわらず、テキストトークンが効率的に互いに交互作用することを可能にする。順序情報は、追加の位置符号化によって挿入される。このブレークスルーによって明確にされるように、画像RoIの対応する文脈表現は、符号化された空間情報とのモーダル内交互作用を介して導出され得る。
【0032】
図2は、本開示の態様による自然言語オブジェクト検索システム図を示す概略図である。この図を参照すると、文脈接地モジュールが機能ブロックとして示されていることが分かる。
【0033】
このようなシステムへのアクセスは、例えば、ユーザが画像に関する質問を入力し、画像での検索結果を表示するための入力フィールドを示すコンピュータブラウザを介して達成される。したがって、システムへの入力は、テキスト質問と画像のペアである。
【0034】
質問は、トークンに構文解析され、物体検出器に適用(供給)されて、後続の接地のための視覚オブジェクト候補として顕著な領域を特定する。文脈接地モジュールは、エンティティ埋め込みおよび視覚オブジェクト表現の両方を入力として受け付け、それらの対応を確率でスコア付けする。最後に、最も確率スコアが高い質問言語エンティティに対応するオブジェクトが検索され、ユーザに対して境界ボックスで視覚化される。
【0035】
図3は、本開示の態様による文脈接地アーキテクチャおよびワークフローを示す概略図である。
【0036】
本開示の態様によれば、接地オブジェクトは、テキストおよび画像の両方における対応する文脈に、改良された精度で注意を誘導する。したがって、
図3に示すような文脈接地アーキテクチャを説明する。
【0037】
より詳細に説明するように、上記の文脈接地モジュールの内部では、ベクトルおよび視覚オブジェクトを埋め込む各入力エンティティが、結果として生じる表現が文脈からの特徴を伴うように、同じモダリティで互いに注意を払うように、複数の文脈交互作用層を通過する。性能をさらに改善するために、質問における文脈エンティティに順序情報を追加するための位置符号化、および画像における視覚オブジェクトの位置情報を追加するための空間符号化などの追加のエンコード機能を追加することができる。最後に、文脈接地層は、文脈エンティティおよび視覚オブジェクト表現を二つ一組でランク付けし、結果として得られるスコアを出力する。
【0038】
その図に示されるように、モデルは、テキスト入力と画像入力の両方に対する2つのトランスフォーマーエンコーダ分岐から構成され、接地ヘッドに対するそれぞれの文脈表現を生成してその対応を決定する。テキスト分岐は、オリジナルのトランスフォーマーからの異なる位置埋め込みを訓練するBERTベースのモデルから事前訓練される。一方、画像分岐は、物体検出器からの入力オブジェクトとしてRoI特徴を取り込む。
【0039】
これに対応して、画像全体に正規化されたRoIの位置およびサイズの絶対的空間情報が与えられると、空間埋め込みを生成するように2層の多層パーセプトロン(MLP)を訓練する。両方の分岐は、第1の交互作用層への入力として、トークンおよびRoIにそれぞれ位置および空間埋め込みを追加する。各層において、各隠れ表現は、層出力として新規の隠れ表現を生成するために、互いに自己注意(self-attention)を実行する。自己注意は、代表性を強化するために、マルチヘッドであってもよい。各分岐の終わりに、最終的な隠れ状態が接地ヘッドに供給され、質問としてテキストエンティティの隠れ状態を、キーとして画像オブジェクトの隠れ表現を用いて、クロスモーダルな注意を実行する。注意応答は、マッチング対応として機能する。対応がグラウンドトゥルースと一致しない場合、エンティティ当たりの平均二値クロスエントロピー損失は、分岐にわたって交互作用を導くように逆伝播される。Flickr30Kエンティティデータセット上の接地リコールを評価し、その結果を次節のSOTA作業と比較する。
【0040】
評価
【0041】
本発明の文脈接地アプローチは、テキストエンティティおよび画像オブジェクトの両方における文脈を捕捉するために、トランスフォーマーエンコーダを使用する。テキスト分岐がBERTから事前訓練されている間、画像分岐はスクラッチから訓練される。トランスフォーマーの複雑さの観点から、以前の作業は、異なる数の交互作用層と注意ヘッドとにより性能が変化することを示した。また、モーダル内オブジェクト交互作用は、何らかの位置符号化または空間符号化が適用されない限り、空間における関係を必ずしも考慮しない。本発明者らの評価では、表1に要約された性能変動を探索するために空間符号化を追加することに加えて、層およびヘッドの数の両方を変化させる。
【0042】
我々は、以前のSOTA BANによって使用されたのと同じ物体検出器に基づいて、全てのトップ1、5及び10リコール(recalls)においてSOTA結果を達成する。エンティティタイプごとのリコールの内訳を表2に示す。そこに見られるように、8つのエンティティタイプのうちの6つは、本発明の文脈接地から利益を得る。興味深いことに、機器(Instrument)の種類のリコールは損なわれる。これは、データセット内の機器インスタンスの数が比較的少ないことに起因し、モデルが文脈をうまく学習することを妨げる。
【0043】
一方、768次元の隠れサイズを備えた、12層と12ヘッドとから成るテキスト分岐と比較して、1層と、2注意ヘッドと2048次元の隠れサイズとを持つ画像分岐で最良の性能を達成した。さらに、空間埋め込みを加えると、精度が一貫して0.5%程度改善される。これは、画像オブジェクトが、その意味のための代表的な隠れ状態を生成するために文脈を必要とする単語埋め込みとは異なり、受信フィールドを介していくつかの近傍情報を既に捕捉している可能性があるためである。
【0044】
最後に、表3で、結果を、進行中の最近の研究、すなわちVisualBERTと比較した。これは、また、最初にテキストと画像入力を融合することにより表現を学習する単一のトランスフォーマーアーキテクチャに基づいて、改善された接地結果を達成した。わずかに、上位1位のリコールでは、本発明の性能が上がっている。
【0045】
本開示の態様による本発明のアプローチは、COCOキャプショニングおよびターゲットデータセットに関するタスクに依存しない事前訓練およびタスク固有の事前訓練を必要とするVisualBERTとは異なり、競合結果をもたらすための同様の事前訓練を必要としないことに有利に留意されたい。さらに、本発明のアーキテクチャは、それぞれ異なる入力モダリティに適応するように適応性もある。
【表1】
【表2】
【表3】
【0046】
本開示の態様による本発明のアプローチは、COCOキャプショニングおよびターゲットデータセットに関するタスクに依存しない事前訓練およびタスク固有の事前訓練を必要とするVisualBERTとは異なり、競合結果をもたらすための同様の事前訓練を必要としないことに有利に留意されたい。さらに、本発明のアーキテクチャは、それぞれ異なる入力モダリティに適応するように適応性もある。
【0047】
要約すると、当業者は、本開示の態様によるシステム、方法、および構造が、関連するテキストエンティティを対応する視覚オブジェクトとマッチングさせることによって、接地モジュールの性能を有利に改善することを理解する。さらに理解され、認識されるように、本開示に関して、テキストエンティティ埋め込みと、以下のステップに続く対応によって後にランク付けされる視覚オブジェクト表現とを、それぞれ受け付ける2つの分岐がある。
【0048】
最初に、2つの分岐は、テキスト質問と画像の入力が前処理され、幾つかの埋め込みとオブジェクト表現に変換されると想定する。特に、入力質問は、テキスト分岐入力として言語エンティティ埋め込みを抽出するために、単語またはより小さなトークンでトークン化される。有利には、位置符号化のような追加情報を使用して、トークンのシーケンスの順序情報を充実させることができる。符号化は、互いの絶対的1D位置または相対的位置から導出し、訓練することができ、また、符号化は、後続の文脈交互作用層にわたって入力要素および/または注意に適用することができる。入力視覚オブジェクトは、画像分岐入力としてオブジェクト特徴を提供する何らかの物体検出器によって抽出される。この点において、空間符号化などの追加情報を使用して、異なる視覚オブジェクト間の空間関係を区別することができ、符号化は、互いに対する絶対的2D相対的位置から導出し、訓練することができ、符号化を、後続の文脈交互作用層にわたって入力要素および/または注意に適用することができる。
【0049】
第2に、次に、各ブランチの後に、1つまたは複数の文脈交互作用層が続き、同じモダリティからの入力要素は、層出力表現として関連する文脈を捕捉するために互いに注意を払う。
【0050】
第3に、最後の層の言語エンティティ埋め込みと視覚オブジェクト表現とのすべてのペアがスコア付けされ、それらの対応が確率における接地出力としてランク付けされる。
【0051】
ここまで、いくつかの特定の実施例を使用して本開示を提示したが、当業者は本教示がそのように限定されないことを認識するのであろう。したがって、本開示は、本明細書に添付される特許請求の範囲によってのみ限定されるべきである。