IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー ラボラトリーズ アメリカ インクの特許一覧

特表2024-514813深層強化学習に基づくオブジェクト位置特定のための順序表現の学習
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-04-03
(54)【発明の名称】深層強化学習に基づくオブジェクト位置特定のための順序表現の学習
(51)【国際特許分類】
   G06T 7/70 20170101AFI20240327BHJP
   G06T 7/00 20170101ALI20240327BHJP
   G06V 10/774 20220101ALI20240327BHJP
   G06N 3/092 20230101ALI20240327BHJP
【FI】
G06T7/70 A
G06T7/00 350C
G06V10/774
G06N3/092
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023561700
(86)(22)【出願日】2022-04-08
(85)【翻訳文提出日】2023-11-21
(86)【国際出願番号】 US2022024118
(87)【国際公開番号】W WO2022217122
(87)【国際公開日】2022-10-13
(31)【優先権主張番号】63/172,171
(32)【優先日】2021-04-08
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/193,916
(32)【優先日】2021-07-28
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/715,901
(32)【優先日】2022-04-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【弁理士】
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【弁理士】
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ハン、 シャオボ
(72)【発明者】
【氏名】ミン、 レンチャン
(72)【発明者】
【氏名】リ、 ティンフェン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
クエリオブジェクト位置特定の問題に対する強化学習に基づく手法が提供される。エージェントは、少ない例示的なセットで指定された関心のあるオブジェクトの位置を特定するように訓練される。順序メトリック学習によって例示的なセットを用いて定式化された転送可能な報酬信号を学習する。これにより、報酬信号が直ぐに利用できない新しい環境にテストタイムのポリシー適応を可能にするため、アノテーションが付与された画像に限定される微調整手法よりも優れた性能を発揮する。さらに、転送可能な報酬により、訓練されたエージェントを、アノテーションの改良や一連の画像にわたる複数の共通オブジェクトからの選択的な位置特定などの新しいタスクに再利用できる。破損したMNISTデータセットとCU-Birdsデータセットの実験により、本発明の手法の有効性が実証された。
【選択図】図2
【特許請求の範囲】
【請求項1】
オブジェクト位置特定のための深層強化学習(RL)方法であって、
グラウンドトゥルースバウンディングボックスのアノテーションをそれぞれ備えたシード画像のセットを含むシードデータセットを取得し、
パラメータpで示される異なるレベルの前記グラウンドトゥルースバウンディングボックスをランダムに摂動させることで、同じ画像から拡張された摂動データの各ペアに対して局所的に順序制約を満たす、順序埋め込みを事前訓練し、
前記事前訓練は、バックボーンネットワーク、関心領域(RoI)ヘッド及びトリプレット損失の効果を通じて実行され、
埋め込み関数を用いて、画像全体から開始し、報酬が生成されるように離散行動空間から行動を回帰的にサンプリングしてRLエージェントを構成し、
サンプル行動の報酬は埋め込み距離から決定され、決定された報酬に基づいてポリシーネットワークを更新し、
アノテーションポリシー及び埋め込み関数を出力する、方法。
【請求項2】
前記シード画像バウンディングボックスのアノテーションは、最初に人の行動によって提供される、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、画像処理及び画像認識に関する。より具体的には、深層強化学習に基づくオブジェクト位置特定のための順序表現の学習に関するシステム及び方法について記載する。
【背景技術】
【0002】
当業者であれば容易に理解できるように、多くの分野において、画像または画像のセット内で1つまたは複数のタイプの共通のオブジェクトを自動で発見することが重要である場合が多い。特に、全教師あり(fully supervised)オブジェクト検出または位置特定では、訓練において人による大量のアノテーション(つまり、ターゲットオブジェクト周囲のバウンディングボックス)が必要であるが、これは高いコストを要し、コスト重視のアプリケーションでは非現実的である。例えば、分散型光ファイバセンシングやデジタルパソロジーでは、経験豊富な専門家からの高品質なアノテーションはかなり限定されるが、弱教師ありオブジェクト検出または位置特定(WSOD(weakly supervised object detection)またはWSOL(weaklysupervised object localization))手法では画像レベルのアノテーション(クラス)のみを必要とする。但し、そのような学習されたアノテーションは部分的なものであることが多く、全体の領域ではなく、最もターゲットオブジェクトの識別が可能な領域を参照する。最終的に、共位置特定(co-localization)のための既存の手法は教師なしであるため、画像データセットに複数のタイプの共通オブジェクトが含まれている場合、不要な共通オブジェクトが出力として提供される可能性がある。
【発明の概要】
【0003】
上記の問題に対処するためのシステム及び方法を対象とする本開示の態様により当該技術分野における進歩がもたらされる。有利なことに、本発明の手法は、正確なバウンディングボックスのアノテーションを備えた「シードデータセット」のみを必要とする。
【0004】
従来の全教師ありオブジェクト検出/位置特定手法とは明らかに対照的に、本発明者らのアルゴリズムは、シードデータセット用として、はるかに小さいサイズを必要とする。シードデータセットから開始し、画像環境を探索する強化学習エージェントとして大量の摂動(perturbed)ボックスがサンプリングされる。これらの摂動ボックスの優先度は、画像のグラウンドトゥルースのバウンディングボックスに対するIoU(Intersection over Union)に基づいて必然的に決定される。この情報を、強化学習アノテーションエージェントと一緒に訓練された順序表現にエンコードする。既存の深層強化学習に基づくオブジェクト位置特定手法は、この情報をエンコードできないため、サンプリング効率がはるかに悪くなる。
【0005】
さらにWSOD/WSOL法とは対照的に、本発明者らの手法は、異なるクラス間の識別ではなく、同じ画像クラス内の異なる画像間の共通オブジェクト間の類似性に明確に焦点を当てる。画像レベルのクラスラベルを組み込むことはできるが、必須ではない。
【0006】
より具体的には、共位置特定におけるターゲットオブジェクトのクラスに関する曖昧さは、シードデータセット内でターゲットオブジェクトを明確に指定することで回避される。このアルゴリズムはヒューマン・イン・ザ・ループの方法で機能する。特に、画像データセットが与えられると、人は幾つかのデータにアノテーションを付け始め、強化学習エージェントは人のガイダンスに従って残りのデータに自動的にラベルを付与する。
【0007】
本発明のフレームワークは、時間と労力を非常に要するファイバセンシングタスクにおける画像データのアノテーションという一般的な課題から動機付けられている。但し、本発明者らの手法は、デジタルパソロジーの画像、ビデオのオブジェクト追跡、サウンドイベント検出のための時間的限定等、他のデータモダリティ/アプリケーションにも適用できる。
【0008】
運用上、各画像は、アノテーションエージェントがバウンディングボックスを移動することで、相互作用できる環境として見なされる。学習された位置特定の戦略は、新しい環境(画像)に一般化できるものとする。複数の学習段階及び異なる画像間での情報共有を促進するために、報酬はIoUを介して直接与えられるのではなく、学習された潜在表現の距離を介して間接的に与えられる。
【0009】
本発明者らの手法により、順序表現学習と深層強化学習(RL)は互いに利益をもたらしながら一緒に訓練される。表現学習モデルは、正確にアノテーションが付与されたデータだけでなく、摂動を伴う拡張データでも訓練される。既存の表現学習法では、正しくアノテーションが付与されたデータからよりコンパクトなクラスタを直接生成することができない。したがって、報酬はオリジナルのデータに対してのみ定義でき、潜在的な埋め込みに対しては定義できない。本発明者らの手法では、同じ画像の不完全なアノテーションのペア間の順序関係を維持するように潜在的な埋め込み関数が訓練される。すなわち、より高いIoUのバウンディングボックスの埋め込みは、より低いIoUのボックスの埋め込みよりもグラウンドトゥルースバウンディングボックスの埋め込みに近くなる。その結果、RL報酬は埋め込み距離に基づいて定義できる。
【0010】
順序埋め込みが深層RLエージェントで個別に訓練される場合、摂動サンプルはランダムに生成され、サンプルの大部分はRLエージェントの検索パスにないため、冗長で非効率的である。提案する共同訓練スキームでは、RLエージェントが埋め込み空間を探索しているときにボックスペアがサンプリングされるため、順序埋め込みをより効率的に訓練できる。学習の様々な段階で、教師(supervision)はカスタマイズされる。モデルは、訓練後の段階にて、より適切にアノテーションが付与されたボックスのペアに優先度を割り当てることを学習する。
【0011】
副産物として、埋め込み距離は、アノテーションの品質を評価するためのメトリックも提供する。高品質と低品質の両方のアノテーションが付与された一連の画像が与えられると、適切にアノテーションが付与されたデータは、通常の埋め込み空間におけるコンパクトなクラスタに分類される。したがって、それらを選択することができる。アノテーションの品質は、フィルタリングされたデータのクラスタ重心までの距離に応じてランク付けできる。
【0012】
最後に、本発明者らの回帰型ニューラルネットワーク(RNN)に基づく方法は、画像全体から開始する探索が可能になる。これにより、ターゲットとなるオブジェクトのサイズが異なり、画像が高解像度である場合でも、同じクラスの複数の共通オブジェクトを含む大規模な単一画像の共位置特定の問題に本発明者らの手法を適用できるようになる。人とRLアノテータとの間の相互作用プロセスは次のように機能する。人は、1つまたは2つの関心のあるターゲットオブジェクトにラベルを付与することで、アノテーションプロセスを開始する。アノテーションエージェントは、粗い解像度で画像全体を調べることから開始し、トップダウンスキームにしたがって、一連の反復的な行動(action)を取得し、残りの画像におけるオブジェクトの位置を特定する。人は、新規のオブジェクトが見つからなくなるまで、選択したオブジェクトを受け取る、または拒否する及び/またはアノテータを再度実行できる。
【0013】
本開示のより完全な理解は、添付の図面を参照することで実現され得る。
【図面の簡単な説明】
【0014】
図1図1は、本開示の態様による、アノテーションエージェントとデータ表現の共同訓練フレームワークを示す概略図である。
【0015】
図2図2は、本開示の一態様による、モデル訓練プロセスを示す概略フロー図である。
【0016】
図3図3は、アプリケーション1、すなわち、本開示の態様による、適切にアノテーションが付与されたデータがイベント分類器の下流の訓練に利益をもたらすことができる、ファイバセンシングデータセットの人のガイドによる自動アノテーションを示す概略図である。
【0017】
図4図4は、アプリケーション2、すなわち、本開示の態様による、訓練を受けたエージェントによって高品質のアノテーションが識別可能であり、低品質のデータを修正できる、クラウドソーシングに基づく画像アノテーションプラットフォームのためのワーカーの品質評価及び改善を示す概略図である。
【0018】
図5図5は、本開示の態様による、埋め込みネット及びトリプレット損失の順序表現学習を示す概略図である。
【0019】
図6図6は、本開示の態様による、順序埋め込みに基づく報酬及び行動空間を示す概略図である。
【0020】
図7図7は、本開示の態様による、RLエージェント及び順序表現学習の回帰型ニューラルネットワーク(RNN)一式に基づくアーキテクチャを示す概略図である。
【0021】
図8(A)】図8(A)は、本開示の態様による、RLエージェントの行動シーケンス及び学習の収束、並びにクラッタ背景からの数字4の共位置特定及びグラウンドトゥルースまでの埋め込み距離の収束のプロットを示す図である。
図8(B)】図8(B)は、本開示の態様による、RLエージェントの行動シーケンス及び学習の収束、並びにクラッタ背景からの数字4の共位置特定及びグラウンドトゥルースまでの埋め込み距離の収束のプロットを示す図である。
図8(C)】図8(C)は、本開示の態様による、RLエージェントの行動シーケンス及び学習の収束、並びにクラッタ背景からの数字4の共位置特定及びグラウンドトゥルースまでの埋め込み距離の収束のプロットを示す図である。
【0022】
図9図9は、本開示の態様による、RL更新中の固定埋め込みと訓練埋め込みとを比較したデータセットを示す図である。
【0023】
図10図10は、本開示の態様による、数字4及び他の新しい数字0~9に関して訓練及びテストされたエージェントを示すデータセットを示す図である。
【0024】
図11図11は、本開示の態様による、バウンディングボックスではなく例示的なセットで定義された報酬信号を有するRLに基づくクエリオブジェクト位置特定を示す概略図である。
【0025】
図12図12は、本開示の態様による、例示的なRoIエンコーダ及び投影ヘッドを示す概略図である。
【0026】
図13(A)】図13(A)は、本開示の態様による、OrdAccにおけるランダムサンプリング及びアンカーサンプリング(%)を示すデータセットである。
図13(B)】図13(B)は、本開示の態様による、CorLocにおけるIoU報酬(%)の符号ありと符号なしの比較を示すデータセットである。
【0027】
図14(A)】図14(A)は、本開示の態様による、異なる訓練セットサイズ下での比較表を示すプロットである。
図14(B)】図14(B)は、本開示の態様による、異なる訓練セットサイズ下での比較表を示すプロットである。
【0028】
図15(A)】図15(A)は、本開示の態様による、CorLoc(%)のデータセットを示す図である。
図15(B)】図15(B)は、本開示の態様による、使用されるアンカーに応じた4つの訓練戦略の比較のデータセットを示す図である。
【0029】
図16図16は、本開示の態様による、使用されるアンカーに応じた異なる数字における性能のデータセットを示す図である。
【0030】
図17図17は、本開示の態様による、使用されるアンカーに応じた適応前、適応後及び適応の微調整を示すプロットを示す図である。
【0031】
図18(A)】図18(A)は、本開示の態様による、不正確なアノテーションから厳格なアノテーションが付与されたバウンディングボックスの性能を示す図である。
図18(B)】図18(B)は、本開示の態様による、他の背景に転送するときの性能を示す図である。
【0032】
図19図19は、本開示の態様による、使用されるアンカーに応じた訓練及び報酬の位置特定エージェントのためのアルゴリズムIのリストを示す図である。
【発明を実施するための形態】
【0033】
以下は、単に本開示の原理を例示するものである。したがって、当業者であれば、本明細書で明示的に説明または図示されていなくても、本開示の主旨及び範囲に含まれる、本開示の原理を具体化する様々な構成を考え出すことができることを理解されたい。
【0034】
さらに、本明細書で挙げる全ての実施例及び条件付き用語は、本開示の原理及び本技術を促進するために本発明者らが提示する概念の理解を助ける教育目的のためだけであることを意味し、具体的に挙げられた実施例及び条件に限定されないと解釈されるべきである。
【0035】
さらに、本開示の原理、態様及び実施形態、並びにその特定の実施例で挙げる本明細書の全てのステートメントは、その構成及び機能の均等物の両方を含むことを意味する。さらに、そのような均等物には、現在知られている均等物と、将来開発される均等物、すなわち構成に関係なく同じ機能を実現する、開発された要素の両方を含むことを意味する。
【0036】
したがって、例えば、本明細書の任意のブロック図は、本開示の原理を実施する回路の実例を示す概念図であることが当業者に理解されよう。
【0037】
図1は、本開示の態様による、アノテーションエージェント及びデータ表現の共同訓練フレームワークを示す概略図である。
【0038】
図2は、本開示の態様による、モデル訓練プロセスを示す概略フロー図である。
【0039】
図3は、アプリケーション1、すなわち、本開示の態様による、適切にアノテーションが付与されたデータがイベント分類器の下流の訓練に利益をもたらすことができる、ファイバセンシングデータセットの人のガイドによる自動アノテーションを示す概略図である。
【0040】
図4は、アプリケーション2、すなわち、本開示の態様による、訓練を受けたエージェントによって高品質のアノテーションが識別可能であり、低品質のデータを修正できる、クラウドソーシングに基づく画像アノテーションプラットフォームのためのワーカーの品質評価及び改善を示す概略図である。
【0041】
これから説明するように、本発明の方法/アルゴリズムは、訓練に3つのステップを含む。
【0042】
ステップ1:シード画像のセットを識別する。これは、人の専門家、予め選択した経験則または第3者のデータセットから取得できる。
【0043】
ステップ2:順序埋め込みを事前訓練する。シードデータセットが与えられると、様々なレベルでグラウンドトゥルースバウンディングボックスをランダムに摂動させて事前学習する。摂動のレベルはパラメータpで示される。順序埋め込みは、同じ画像から拡張された摂動データの各ペアに対して局所的に順序制約を満たす必要がある。図5は、本開示の態様による、埋め込みネット及びトリプレット損失の順序表現学習を示す概略図である。
【0044】
ステップ3:強化学習。埋め込み関数が与えられると、RLエージェントは、画像全体から開始し、離散行動空間から回帰的に行動をサンプリングする。図6は、本開示の態様による、順序埋め込みに基づく報酬及び行動空間を示す概略図である。行動の報酬は埋め込み距離から計算される。ポリシーネットワーク(行動ヘッド)は、埋め込みネットワークと一緒に更新される。ニューラルネットワークアーキテクチャは、本開示の態様による、RLエージェント及び順序表現学習の回帰型ニューラルネットワーク(RNN)一式に基づくアーキテクチャを示す概略図である、図7に詳細に示されている。
【0045】
提案する手法の有効性は、Clutter MNISTベンチマークのデータセットで評価する。図8(A)、図8(B)及び図8(C)は、本開示の態様による、RLエージェントの行動シーケンス及び学習の収束、並びにクラッタ背景からの数字4の共位置特定及び及びグラウンドトゥルースまでの埋め込み距離の収束のプロットを示している。この図は、最終的な位置特定性能の観点から共同訓練の利点を示しており、エージェントが共位置特定タスクで1桁訓練され、訓練段階では見えない共通オブジェクト(0~3、5~9)の新しいクラスを見つけるために適応することを示している。
【0046】
本発明のシステム及び方法は、高品質のアノテーションが付与されたデータの不足を克服するために、順序表現学習と深層強化学習とを一緒に実行する。本発明のシステム及び方法は、全教師ありタスク、弱教師ありタスク及び共位置特定タスクに幅広く適用できる。
【0047】
本発明のシステム及び方法は、限られた量の高品質で信頼性の高い人によるアノテーションが付与されたデータを効果的に利用して、低品質のアノテーションが付与されたデータの品質を特定し、改善するヒューマン・イン・ザ・ループのパラダイムを採用する。
【0048】
当業者であれば容易に理解及び認識できるように、本発明のシステム及び方法は、多くのアプリケーション、すなわち、(1)ファイバセンシングを含むがこれに限定されないコスト重視のアプリケーションにおいて、ラベルのないデータセットに自動でアノテーションを付与するツールとして、(2)クラスアクティベーションマップ(CAM)法等の深層ニューラルネットワークの解釈可能性を高めるツールとして、(3)アノテーションの品質を評価し、クラウドソーシングプラットフォームの低品質なアノテーションを改善するツールとして、並びに(4)インテリジェント農場における衛星画像からの作物やデジタルパソロジーにおけるスライド全体画像からの細胞のような、同じ画像内における複数の共通のターゲットオブジェクトの位置を特定するツールとして、利益をもたらす可能性がある。
【0049】
例示的な実施形態は、図面及び詳細な説明によってより完全に説明される。しかしながら、本開示による実施形態は、様々な形態で具現化することが可能であり、図面及び詳細な説明に記載された特定のまたは例示的な実施形態に限定されない。
【0050】
図9は、本開示の態様による、RL更新中の固定埋め込みと訓練埋め込みとを比較したデータセットである。
【0051】
図10は、本開示の態様による、数字4及び他の新しい数字0~9に関して訓練及びテストされたエージェントを示すデータセットである。
【0052】
ここで、クエリオブジェクト位置特定の問題に対する強化学習に基づく手法について説明する。この手法では、エージェントは、少ない例示的なセットによって指定される関心のあるオブジェクトの位置を特定するように訓練される。順序メトリック学習によって、例示的なセットを用いて定式化された転送可能な報酬信号を学習する。これにより、報酬信号が直ぐに利用できない新しい環境にテストタイムのポリシー適応を可能にするため、アノテーションが付与された画像に限定される微調整手法よりも優れた性能を発揮する。さらに、転送可能な報酬により、訓練されたエージェントを、アノテーションの改良または画像のセットにわたる複数の共通オブジェクトからの選択的な位置特定等の新しいタスクで再利用できる。破損したMNISTデータセット及びCU-Birdsデータセットにおける実験により、本発明の手法の有効性が実証された。
【0053】
本開示では、クエリオブジェクト位置特定の問題に対する強化学習(RL)の定式化に焦点を当て、エージェントは、サンプル画像の少ないセットで指定されたターゲットオブジェクトの位置を特定するように訓練される。視覚に基づくエージェントは、クラス固有の位置特定ポリシーに従って、画像環境と能動的に情報を交換する積極的な情報収集器と見なすことができるため、ロボットの操作や具現化されたAIタスクにより適している。
【0054】
テストタイム中、位置特定のためのクエリされたオブジェクトは、固定ポリシーを備えたクラスに依存しないエージェントの適用性を妨げる、新規であるか、または背景の環境が大幅に変化する可能性がある。報酬信号が利用可能な場合、微調整法によりエージェントを新しい環境に効果的に適応させ、性能を向上させることができる。標準のRL設定とは異なり、バウンディングボックスのアノテーションは、テスト画像の位置特定エージェントによって検出されるため、テスト中に報酬信号はアプリケーションで利用できない。
【0055】
この問題に対処するため、少ない例示的なセットで定義された非明示的に転送可能な報酬信号を学習するための順序メトリック学習に基づくフレームワークについて説明する。順序埋め込みネットワークは、RLタスクに関連するように設計された損失関数の下で、データ拡張を用いて事前訓練される。報酬信号により、テストタイム中の継続的な訓練によるポリシーネットワークにおけるコントローラの明確な更新が可能になる。微調整手法と比べて、エージェントはテスト画像を無制限に利用できるため、より広範囲の新しい環境にさらされる。エージェントは、例示的なセットから正確に情報を得ることで、位置特定ターゲットの変化に柔軟に対応できる。
【0056】
図11は、本開示の態様による、バウンディングボックスではなく例示的なセットで定義された報酬信号を有するRLに基づくクエリオブジェクト位置特定を示す概略図である。
【0057】
バウンディングボックス回帰型手法と比較して、オフポリシーRLに基づくオブジェクト位置特定手法は、各画像環境に対してカスタマイズされた検索パスを備え、領域提案(region-proposal)が不要であるという利点を有する。エージェントの特殊性は、報酬で使用されるバウンディングボックスのクラスに純粋に依存する。エージェントは、クラス固有にすることもできるが、各クラスのエージェントを個別に訓練する必要がある。
【0058】
クラウドソーシングプラットフォームの増大にもかかわらず、十分な量のバウンディングボックスのアノテーションを取得するのは依然としてコストを要し、エラーが発生しやすい。さらに、アノテーションの品質は異なることが多く、特定のオブジェクトクラスに対する正確なアノテーションには、アノテータに特別な専門知識が必要になる場合がある。弱教師ありオブジェクト位置特定(WSOL)法の出現は、バウンディングボックスのアノテーションを得る際に画像クラスのラベルを利用する、この状況を軽減する。WSOL法は、クラス間の識別機能に過度に依存し、訓練段階では見えないクラスを一般化できないという欠点があることが知られている。
【0059】
クラス内の類似度は、ターゲットクラスに属するオブジェクト位置特定の問題にとってより自然な目的であることに留意する。同様の問題は画像の共位置特定であり、そのタスクは画像のセット内における共通のオブジェクトを特定することである。共位置特定手法は、画像全体にわたる共通の特性を利用してオブジェクトの位置を特定する。共位置特定手法は、教師なしであるため、複数の共通オブジェクトまたは共通部位(鳥の頭及び胴体等)が存在する場合に曖昧さが発生し、不要な共通オブジェクトが出力として提供される可能性がある。
【0060】
タスクの高い特殊性を備えたエージェントを訓練するという目標と、同時に新しい状況に対するより優れた一般化性能を備えたエージェントを訓練するという目標との間には、明らかな矛盾が存在する。これら2つの目標を調和させる鍵は、少ない例示的なセットを使用することにある。パラメータで定義された静的モデルの訓練から、サポートセットと一緒に定義されたモデルへのパラダイムシフトがあり、フューショット(few-shot)訓練で非常に効果的であることが証明されている。
【0061】
非明示的に調整可能なモデルをメタ学習する取り組みに加えて、事前訓練されたモデルの微調整も、データが豊富なタスクからデータが少ないタスクに知識を転送する際に利用されてきた。報酬信号が利用できない場合、コントローラを固定したまま自己教師あり補助損失を最適化することで中間表現を微調整するポリシー適応手法を採用できる。本発明者らの開示は、テストタイムの訓練と同じ動機を共有しているが、コントローラを適応させたり、新しいタスクに再利用したりする必要がある設定に焦点を当てている。
【0062】
クエリオブジェクト位置特定において、画像Iのセットと、例示的な画像Eの少ないセットが与えられる。画像のアノテーションは、バウンディングボックスgの形式で利用可能である。本発明者らの目標は、候補ボックスを用いずに各画像内でクエリされたオブジェクトを含むバウンディングボックスの位置を見つけることである。
【0063】
各画像Iiを環境として考慮すると、オブジェクト位置特定のための既存のRL手法は、そのグラウンドトゥルースオブジェクトバウンディングボックスgiを報酬信号として使用する。
【数1】
【0064】
ここで、IoU(bt,gi)は、現在のウィンドウbtと対応するグラウンドトゥルースボックスgiとの間のIoU(Intersection-over-Union)を示し、
【数2】

である。マッピング
【数3】


を学習するバウンディングボックス回帰型手法と同様に、画像とボックスをペアにする必要がある。但し、アノテーションが付与された画像とボックスのペア(I,g)は、訓練段階とテスト段階の両方で不足している可能性がある。(??)における報酬信号は、潜在的なドメインシフトを伴うテスト画像はもちろん訓練画像間でも転送できない。
【0065】
この問題に対処するには、現在のウィンドウbtによって切り取られた画像とグラウンドトゥルースウィンドウgとの間の距離に基づいて報酬信号を定義するのが自然な考え方である。D次元の画像特徴ベクトルから埋め込み関数
【数4】

で生成されたM次元表現bt及びgが与えられると、距離関数
【数5】

は埋め込み距離d(bt,g)を返す。但し、エージェントがグラウンドトゥルースボックスgに近づくにつれて、単調に減少しない可能性がある。結果として、埋め込み距離に基づく報酬信号は(??)よりも効果が低い可能性がある。
【0066】
さらに、本発明者らは、順序埋め込みに基づく報酬信号を用いることを提案する。制約セットCにおけるgからの任意の2つの摂動ボックスbj,bkについて、埋め込みbj,bk,gが学習され、任意のボックスのペア間の相対的な優先度がユークリッド空間で保存される。
【数6】
【0067】
ここで、pj及びpkは、優先度(グラウンドトゥルースボックスまたはユーザからの順序フィードバックに対するIoUから導出される)を表す。この問題は、当初は非計量多次元尺度構成法(Non-metric multidimensional scaling)として提起された。ここでは非常にシンプルなペアワイズに基づく手法を適用するが、リストワイズに基づく手法、クアドラプレット(quadruplet)に基づく手法、ランドマークに基づく手法等の他の拡張機能も存在する。
【0068】
式(2)におけるアンカーgは、同じ画像からの埋め込みに限定されない。例えば、これは例示的なセットEのプロトタイプ埋め込み、
【数7】

で置き換えることができる。ここで、biは、グラウンドトゥルースボックスgiで切り取られた画像Iiの埋め込みである。複数のクラスの画像が利用可能な場合、プロトタイプをさらにクラス依存またはクラスタベースにすることができる。幾つかの実験において、アンカーとしてプロトタイプに基づく埋め込みがgよりも一般化性能が優れている可能性があることを見出した。この選択により、クラス毎の訓練画像が少ないサブセットのみにアノテーションが付与される場合、本発明者らの手法はフューショット訓練にも適している。順序報酬はメタ情報として見ることができる。さらに、テストタイム中の例示的なセットが切り取られたオブジェクトのみを含む場合でも、テストタイムのポリシー適応は、画像ボックスのペアなしで依然として実現可能である。
【0069】
訓練タイム中、例示的なセットEは画像Iとボックスgの両方を含むと仮定する。カスタマイズされたデータ拡張スキームであるボックス摂動を採用する。このスキームでは、gの周囲のボックスペアをサンプリングすることでCが構築される。IoUに基づくパーティションスキームを用いる方がランダムにサンプリングよりも効果的であることを見出した。これは、ボックス摂動に対するニューラルネットワークのロバスト性を強化し、報酬の増加または減少を区別するという、その使用の特別な目的を保護するための手順とみなすことができる。データ拡張を伴う事前訓練により、ポリシーネットワークの訓練の下流タスクをより効率的に行うこともできる。
【0070】
本開示では、pを、グラウンドトゥルースボックスgに対するボックスbのIoU、すなわち、p=IoU(b,g)として定義する。データ拡張によって取得された画像ペアに指定された局所的な順序制約と一致する埋め込み空間を学習する。
【0071】
本発明者らは、所望の埋め込みを学習するためにトリプレット損失を最適化することを選択する。
【数8】

ここで、faは「アンカー」埋め込みである。fpは、グラウンドトゥルースボックスgを備えたより大きいIoUとより小さいIoUを有する「正」の埋め込みであり、fnは、グラウンドトゥルースボックスgを備えたより大きいIoUとより小さいIoUを有する「負」の埋め込みである。報酬を定義するための適切な表現は、必ずしも同時に適切な状態表現であるとは限らないことに注意されたい。エージェントが正しい行動を取得するための十分な情報が含まれていない可能性がある。表現と対照的な損失との間に投影ヘッドを追加すると、学習された表現の品質が大幅に向上することを示唆している。
【0072】
本発明者らは、投影ヘッドを用いることが、本発明者らのタスクにおける2つの目的のバランスを取る上で極めて重要であることを見出した。ネットワークアーキテクチャを図12に示す。図12では、MLP投影ヘッドがRoI(Region of Interest:関心領域)エンコーダの後に取り付けられている。与えられた画像とRoIに従って、RoIエンコーダは位置特定のための状態表現で使用されるRoI特徴sを抽出する。投影ヘッドは、報酬を計算するために順序埋め込みbを学習する。ROIアライメントモジュールは、様々なサイズのボックスを処理する。結合損失関数
【数9】

の下では、状態表現sはbに対する順序教師ありから間接的に恩恵を受けることができるが、それでも満足のいく画像再構成結果をレンダリングする必要がある。オートエンコーダスキームの他に、RoIエンコーダは事前訓練されたネットワークも使用できる。
【0073】
位置特定は、各画像におけるロウ(raw)画素を環境として用いるマルコフ決定プロセス(MDP:Markov Decision Process)として定式化される。ここで説明するように、バウンディングボックスの座標ではなく順序埋め込みを用いてエージェントが行う改善箇所を計算する。状態s0からsに移動するエージェントに対する報酬は次の形式になる。
【数10】

ここで、aはプロトタイプ埋め込みである。順序埋め込みは、事前訓練されたRoIエンコーダ及び投影ヘッドによってEにおけるグラウンドトゥルースボックスで囲まれた画像領域から抽出され、プロトタイプが平均ベクトルとして計算される。さらに、本発明では、履歴行動及び状態のベクトルを含むDeepQNetworkではなく、回帰型ニューラルネットワーク(RNN)(Mnih et al., 2014)を備えたポリシー勾配を使用する。画像ピクセル全体を入力として開始し、エージェントは、割引報酬和を最大化することで、各ステップで現在のバウンディングボックスを変換する行動を選択するように訓練される。エージェントは、現在のボックスからプールされた特徴を状態として取得すると同時に、履歴観察からの情報をエンコードするRNNの内部状態も維持する。行動セットは、トップダウン検索を容易にする個別の行動で定義される。行動セットには、5つのスケーリング、8つの変換変換及び1つの停止行動が含まれる。
【0074】
テストタイム中のテストタイム適応において、エージェントは、テスト例のセットEtestのプロトタイプとして、aを含む(4)から受け取った報酬を用いてポリシーネットワークをさらに更新するオプションを有する。テスト条件に一致させるため、訓練バッチは2つのグループに分割され、位置を特定する訓練画像と重ならない少ないサブセットでaが計算される。テスト適応中、aは例示的なセットのプロトタイプになる。完全なアルゴリズムは、図19で例示的に示されたアルゴリズム1に概説されている。
【0075】
訓練からテストへの報酬信号の転送可能性は、学習された順序表現の一般化能力に決定的に依存する。順序の優先度がテストドメインで保持されない場合、提案するテストタイムのポリシー適応スキームは機能しない。自己教師あり目的を用いて表現を適応させることにより、この問題が解決される可能性がある。本発明者らの手法は、画像環境内で複数のクエリ対象オブジェクトまたはクエリ対象オブジェクトが無いという特殊なケースを直接的に処理しないが、これらのタスクを達成するために簡単に変更できる。
【0076】
MNIST及びCUBの鳥類データセットに対するいくつかのタスクを用いて本発明者らの手法を評価する。MNISTの場合、画像エンコーダとして各層の後にReLUを活性化する3つの畳み込み層を使用し、オートエンコーダを学習するためのデコーダとして同じであるがミラー構造を使用する。次に、2つの全結合層に続いて、順序報酬学習のための投影ヘッドとしてRoIアライン層を接続する。CUBデータセットには、ImageNetエンコーダで事前学習されたVGG16のconv5_3よりも前の層を採用する。投影ヘッドは前と同じ構造であるが、各全結合層用にさらに多くのユニットがある。学習された順序構造を評価するために、本発明は、摂動ボックスのペアの順序が正しく予測される画像のパーセンテージで定義されるOrdAccを使用する。本発明は、CorLoc(Correct Localization)メトリックを使用する。これは、基準(criterion)
【数11】

にしたがって正しく位置が特定された画像のパーセンテージとして定義される。ここで、bpは予測ボックスであり、gはグラウンドトゥルースボックスである。
【0077】
本発明者らは、Cluttered MNISTにおける表現及び報酬の観点から、順序埋め込みを使用することの有効性を分析する。84×84のクラッタ(cluttered)背景に、28×28の数字がランダムに配置される。ここでは、オートエンコーダのみで訓練された埋め込みと、通常の射影ヘッドと一緒に訓練された埋め込みを比較する。さらに、使用されたIoUに基づく報酬と埋め込みに基づく報酬とを比較する。エージェントは、特定の数の数字4の画像で訓練される。テストセットにおける全ての画像でテストされる。異なる訓練セットのサイズの下での結果を図13(A)及び図13(B)に示す。図13(A)は、本開示の態様による、OrdAcc(%)のランダムサンプリングアンカーサンプリングを示すデータセットであり、図13(B)は、本開示の態様による、CorLoc(%)におけるIoU報酬の符号ありと符号なしの比較結果を示すデータセットである。順序埋め込みが表現と報酬の両方に存在する(「AE+Ord+Embed」)と、特に訓練セットのサイズが小さい場合、モデルの性能はその他の設定よりも一貫して優れている。
【0078】
図14(A)及び図14(B)は、本開示の態様による、異なる訓練セットのサイズの下での比較結果を示すプロットである。
【0079】
順序報酬を効率的に学習するため、拡張バウンディングボックスのペアを生成するサンプリング戦略を比較する実験を行う。最初の戦略は、ボックスのペアが完全にランダムに生成される、ランダムサンプリングである。もう1つの戦略は、最初に様々なスケールで高密度のアンカーを生成し、次にグラウンドトゥルースボックスを用いてIoUに従ってそれらを10のグループに分割するアンカー毎のサンプリングである。各グループの間隔は0.1である。サンプリングは、最初にグループレベル、すなわち2つのグループがサンプリングされる。次に、各グループに対応する2つのボックスをサンプリングする。したがって、サンプリングされたボックスは、ランダムサンプリングと比較して、より多くのケースをカバーできる。2つの戦略の結果として得られるOrdAccを図13(A)に示す。アンカーサンプリングを使用すると、より適切な順序埋め込みを学習できる。
【0080】
報酬{+1、-1}、符号の有無はエージェントを訓練する報酬として式1を使用する。しかしながら、図14(A)及び図14(B)から、特に訓練セットのサイズが小さい場合、このIoU報酬と埋め込み報酬との間に大きなギャップがあることが分かる。順序報酬は埋め込み空間におけるIoUの特性に近似するため、報酬としてのIoUよりも精度が低くなるはずであり、これは少々常識に反している。この問題を分析するため、数字4の画像でモデルを訓練するために、式1における符号演算を取り除く。図13(B)で示すように、符号演算により、位置特定の精度は、数字4で3.4%、他の数字のテストセットで6.2%高くなる。
【0081】
図15(A)は、本開示の態様による、CorLoc(%)のデータセットを示し、図15(B)は、本開示の態様による、使用されるアンカーに応じた4つの訓練戦略の比較結果を示すデータセットである。
【0082】
Deep Q-Networkを用いてエージェントを訓練するのとは対照的に、ポリシーの勾配を適用してエージェントを最適化する。さらに、RNNによるトップダウン検索戦略を採用するが、これらの動作ではメモリをエンコードするために履歴行動のベクトルが使用される。図15(A)で示すように、数字4で訓練及びテストされたモデルまたは他の数字でテストされたモデルを用いて設計の選択を評価する。見ての通り、エージェントは「PG+RNN」で最高の性能を達成する。履歴行動ベクトルを用いる場合、エージェントがDQNで訓練されると精度が低下する。
【0083】
本発明者らは、CUBデータセットのサブセットで、順序報酬学習及び異なる訓練戦略の位置特定に対する効果を評価するための実験を行った。ここで、訓練セット及びテストセットには、15及び5つの異なるファイングレインのクラスが含まれており、結果として訓練用の896枚の画像及びテスト用の294毎の画像が得られる。図15(B)は、4つの設定「Self」、「Proto」、「Shuffle self」及び「Shuffle proto」のOrdAcc及びCorLocを示している。「Self」は、埋め込み事前訓練及びエージェント訓練の両方とも、このインスタンスからのグラウンドトゥルースをアンカーとして使用する。「Proto」は、埋め込み事前訓練及びエージェント訓練の両方とも、バッチ内のインスタンスを含むサブグループのプロトタイプを使用する。「Shuffle self」は、埋め込み事前訓練及びエージェント訓練の両方とも、別のインスタンスからのグラウンドトゥルースを使用する。「Shuffle proto」は、埋め込み事前訓練及びエージェント訓練の両方とも、バッチ内にこのインスタンスを持たないサブグループのプロトタイプを使用する。RoIエンコーダは、losstripのみで訓練される。したがって、訓練セット全体を1つのクラスとして見ることができる。結果から、「Shuffle proto」はOrdAccが他と比べて低いものの、CorLocが大きなマージンを有して最も優れていることが分かる。この現象は、この訓練戦略が訓練セットにコンパクトさをもたらし、クラスタの周囲に順序構造を構築していることを示唆している。OrdAccはインスタンスをアンカーとして用いて計算されることに注意されたい。
【0084】
当業者には理解されるように、潜在的に新しい環境において関心のあるクエリされたオブジェクトを検索するために位置特定エージェントを訓練するための、順序表現学習に基づく報酬を開示する。特に、学習目標を達成するためのガイダンス信号として小さな模範的なセットを使用する。これにより、学習の曖昧さを回避できる。一方、テスト画像環境を用いて、テスト中に画像ボックスのペアを必要とせずにドメインシフトについてエージェントに通知する。本発明者らのアルゴリズムは、候補ボックスを提案する必要なく、ロウ(raw)画像の画素を入力として受け取る。
【0085】
本発明者らの手法は、例示的なセットとの特徴類似度に基づいているが、バウンディングボックス回帰型手法及びバウンディングボックスRL手法とは根本的に異なる。様々なオブジェクトクラスと背景のシナリオに一般化するために、これまでの手法は最前面と背景のバリエーションをカバーする大規模なデータセットに対してクラス認識として訓練する必要がある。対照的に、本発明者らは、テストタイム中のポリシー適応能力を備えた専門のエージェントを訓練できるようになる。
【0086】
位置特定モデルを分類モデルと一緒に訓練する代わりに、弱教師あり学習と同様の主旨で、画像クラスラベルからの学習ボックスのアノテーションを探索する。分類モデルから画像ラベルが与えられると、本発明者らの位置特定モデルは強化された解釈可能性を伴ってボックス領域を識別できる。経験的に、本発明者らの手法は、データが豊富な単一のソースタスクからデータが少ないテストタスクまでの転送学習設定で機能することを示している。さらに、本発明者らの手法は、訓練中に多数のタスクにわたる限られたアノテーションが利用できるフューショット学習設定にも適用される。今後の研究には、属性に基づくクロスモダリティクエリまたはゼロショットクエリ及び例示的なセットにおける設計された一連のターゲットを使用したカリキュラム学習が含まれる。
【0087】
アノテーションの収集は、機械学習システムを構築する際に重要な役割を果たす。これは、特にコスト重視のアプリケーションにおいて、自動化から大きな恩恵を受ける可能性があるタスクの1つである。本発明者らは、クラス毎のアノテーションサンプル数、アノテーションクラス数及び必要な精度レベルの観点から、人によるラベル付けの労力を軽減することを目指している。本発明者らの手法は、データ品質の客観的な評価と反復的な改善を可能にする。
【0088】
図16は、本開示の態様による、使用されるアンカーに応じた異なる数字における性能を示すデータセットである。
【0089】
図17は、本開示の態様による、使用されるアンカーに応じた適応前、適応後及び適応の微調整を示すプロットである。
【0090】
図18(A)は、本開示の態様による、不正確なアノテーションから厳格なアノテーションが付与されたバウンディングボックスの性能を示すデータセットであり、図18(B)は、本開示の態様による、他の背景に転送するときの性能を示すデータセットである。
【0091】
図19は、本開示の態様による、使用されるアンカーに応じた訓練及び報酬の位置特定エージェントのためのアルゴリズムIのリストである。
【0092】
ここでは、いくつかの具体的な例を用いて本開示を示したが、当業者であれば本教示がそれらに限定されないことを認識するであろう。したがって、本開示は本明細書に添付される特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3
図4
図5
図6
図7
図8(A)】
図8(B)】
図8(C)】
図9
図10
図11
図12
図13(A)】
図13(B)】
図14(A)】
図14(B)】
図15(A)】
図15(B)】
図16
図17
図18(A)】
図18(B)】
図19
【国際調査報告】