IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ダッソー システムズの特許一覧

特許7128022完全教師あり学習用のデータセットの形成
<>
  • 特許-完全教師あり学習用のデータセットの形成 図1
  • 特許-完全教師あり学習用のデータセットの形成 図2
  • 特許-完全教師あり学習用のデータセットの形成 図3
  • 特許-完全教師あり学習用のデータセットの形成 図4
  • 特許-完全教師あり学習用のデータセットの形成 図5
  • 特許-完全教師あり学習用のデータセットの形成 図6
  • 特許-完全教師あり学習用のデータセットの形成 図7
  • 特許-完全教師あり学習用のデータセットの形成 図8
  • 特許-完全教師あり学習用のデータセットの形成 図9
  • 特許-完全教師あり学習用のデータセットの形成 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-08-22
(45)【発行日】2022-08-30
(54)【発明の名称】完全教師あり学習用のデータセットの形成
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220823BHJP
【FI】
G06T7/00 350C
【請求項の数】 13
【外国語出願】
(21)【出願番号】P 2018088031
(22)【出願日】2018-05-01
(65)【公開番号】P2018200685
(43)【公開日】2018-12-20
【審査請求日】2021-04-02
(31)【優先権主張番号】17305519.5
(32)【優先日】2017-05-05
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】500102435
【氏名又は名称】ダッソー システムズ
【氏名又は名称原語表記】DASSAULT SYSTEMES
(74)【代理人】
【識別番号】110000752
【氏名又は名称】弁理士法人朝日特許事務所
(72)【発明者】
【氏名】ルイ デュポン・ド・ディネシャン
(72)【発明者】
【氏名】アスマ レジェブ・スファールスファール
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2008-234627(JP,A)
【文献】特表2017-510792(JP,A)
【文献】Bolei Zhou et. al.,Learning Deep Features for Discriminative Localization,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,IEEE,2016年06月30日,P.2921 - 2929,https://ieeexplore.ieee.org/document/7780688
【文献】下田 和,完全教師あり学習手法を用いた弱教師あり領域分割におけるシード領域生成方法の改良,電子情報通信学会技術研究報告 Vol.117 No.211 IEICE Technical Report,Vol.2017-CVIM-208 No.23,日本,一般社団法人電子情報通信学会 The Institute of Electronics,Information and Communication Engineers,2017年09月08日,P.143~149
【文献】Yunchao Wei et. al.,STC: A Simple to Complex Framework for Weakly-Supervised Semantic Segmentation,arXiv,米国,IEEE,2016年12月07日,P.1-8,https://arxiv.org/abs/1509.03150
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
複数の画像を提供するステップ(S10)と、
前記複数の画像のうちの少なくとも1つの部分集合のうちのそれぞれ1つについて、
弱教師ありで学習された関数を適用するステップであって、前記弱教師ありで学習された関数は、各々が局所化および1つまたは複数の信頼スコアを含む、複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ(S20)と、
前記弱教師ありで学習された関数の前記出力に基づき1つまたは複数のアノテーションを決定するステップであって、各アノテーションは、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、ステップ(S30~S80)と、
複数のデータを含み、関数の完全教師ありの学習用に構成された訓練用データセットを完全に自動的に形成するステップであって、各データは、前記部分集合におけるそれぞれの画像と、各画像について決定された前記1つまたは複数のアノテーションのうちの少なくとも一部とを含み、前記完全教師ありで学習された関数は、複数の画像に適用され、各々が局所化および1つまたは複数の信頼スコアを含む複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ(S90)と
を有することを特徴とする、コンピュータにより実施される信号処理方法。
【請求項2】
各アノテーションの局所化は、前記弱教師ありで学習された関数によって出力された1つまたは複数の局所化に対応する
ことを特徴とする、請求項1に記載の方法。
【請求項3】
各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、厳密にゼロより大きい信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
ことを特徴とする請求項2に記載の方法。
【請求項4】
各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、最も高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
ことを特徴とする請求項3に記載の方法。
【請求項5】
各アノテーションについての物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、厳密に正の閾値より高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである
ことを特徴とする請求項3または4に記載の方法。
【請求項6】
前記閾値は、前記複数の画像内の物体の平均数に依存する値を有する
ことを特徴とする請求項5に記載の方法。
【請求項7】
前記部分集合の少なくとも一部の画像のそれぞれについて、
当該画像に初期ラベルが与えられており、各初期ラベルは、それぞれの画像内の各物体カテゴリのインスタンス化を表し、
当該画像のアノテーションのラベルは、その画像の初期ラベルに対応する各物体カテゴリのインスタンス化を表す、
ことを特徴とする請求項3~6のいずれか1つに記載の方法。
【請求項8】
各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化は、クラスタ化アルゴリズムにより識別される
ことを特徴とする請求項2~7のいずれか1つに記載の方法。
【請求項9】
前記弱教師ありで学習された関数は初期データセットに基づき学習され、前記初期データセットは複数の初期データを含み、各初期データは、それぞれの画像と、それぞれのアノテーションとを含み、前記アノテーションはラベルの集合からなり、各ラベルは、その画像内における物体カテゴリのインスタンス化を表す
ことを特徴とする請求項1~8のいずれか1つに記載の方法。
【請求項10】
前記局所化はバウンディングボックスであり、
前記方法は、同一のオブジェクトカテゴリを表す1つまたは複数の近接するバウンディングボックスをグループ化するステップを更に含む
請求項1~9のいずれか1つに記載の方法。
【請求項11】
コンピュータに、
複数の画像を提供するステップ(S10)と、
前記複数の画像のうちの少なくとも1つの部分集合のうちのそれぞれ1つについて、
弱教師ありで学習された関数を適用するステップであって、前記弱教師ありで学習された関数は、各々が局所化および1つまたは複数の信頼スコアを含む、複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ(S20)と、
前記弱教師ありで学習された関数の前記出力に基づき1つまたは複数のアノテーションを決定するステップであって、各アノテーションは、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、ステップ(S30~S80)と、
複数のデータを含み、関数の完全教師ありの学習用に構成された訓練用データセットを完全に自動的に形成するステップであって、各データは、前記部分集合におけるそれぞれの画像と、各画像について決定された前記1つまたは複数のアノテーションのうちの少なくとも一部とを含み、前記完全教師ありで学習された関数は、複数の画像に適用され、各々が局所化および1つまたは複数の信頼スコアを含む複数の組を出力し、各信頼スコアは当該局所化における物体カテゴリのインスタンス化の確率を表す、ステップ(S90)と
を実行させるためのプログラム。
【請求項12】
請求項11に記載のプログラムをコンピュータ読み取り可能に記憶した記憶媒体。
【請求項13】
前記記憶媒体に接続されたプロセッサをさらに備える
ことを特徴とする請求項12に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータプログラムおよびシステムの分野に関し、より具体的には、信号処理に関連する方法、装置、データ構造、およびプログラムに関する。
【背景技術】
【0002】
オブジェクトの設計、エンジニアリング、製造のため、多数のシステムおよびプログラムが市場に提供されている。CADは、コンピュータ支援設計(Computer-Aided Design)の略語であり、例えば、オブジェクトを設計するためのソフトウェア・ソリューションに関する。CAEは、コンピュータ支援エンジニアリング(Computer-Aided Engineering)の略語であり、例えば、将来の製品の物理的挙動をシミュレーションするためのソフトウェア・ソリューションに関する。CAMは、コンピュータ支援製造(Computer-Aided Manufacturing)の略語であり、例えば、製造工程および動作を定義するためのソフトウェア・ソリューションに関する。このようなコンピュータ支援設計システムにおいて、グラフィカル・ユーザ・インターフェースは、技術の効率に関して、重要な役割を果たす。これらの技術は、製品ライフサイクル管理(Product Lifecycle Management: PLM)システムに組み込むことができる。PLMとは、企業が、拡張エンタープライズの概念全体にわたって、製品データを共有し、共通の工程を適用し、構想に始まり製品寿命の終わりに至る製品開発のための企業知識を活用するのを支援するビジネス戦略を指す。ダッソー・システムズが提供するPLMソリューション(製品名CATIA、ENOVIA、DELMIA)は、製品エンジニアリング知識を体系化するエンジニアリング・ハブ、製造エンジニアリング知識を管理する製造ハブ、およびエンジニアリング・ハブと製造ハブの両方に対するエンタープライズ統合と接続を可能にするエンタープライズ・ハブを提供する。全てのシステムは、製品、工程、リソースを結ぶオープンなオブジェクトモデルを提供し、最適化された製品定義、製造準備、生産およびサービスを推進する、動的な知識ベースの製品作成および意思決定支援を可能にする。
【0003】
こうした背景において、シーン理解がより重要視されるようになってきている。シーン理解は、特に、複数物体検出アルゴリズムのような物体検出ソリューションに関する。例えば、画像が与えられた場合、複数物体検出アルゴリズムは、複数の物体のすべてのインスタンスの位置の特定と認識を同時に行うことを含んでいてもよい。物体検出は、自動走行車または盲目または弱視の人のための身体装着型カメラなど、多くの用途において有用であり得る。
以下の論文がこの分野に関連しており、以降で言及している。
【先行技術文献】
【非特許文献】
【0004】
【文献】[1]Y.Lecun et al.“Backpropagation applied to handwritten zip code recognition”,Neural Comput,1989
【文献】[2]S.Ren,et al.,“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”,NIPS 2015
【文献】[3]J.Dai et al.,“R-FCN: Object Detection via Region-based Fully Convolutional Networks”,NIPS 2016
【文献】[4]K.Kim et al.,“PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection”,NIPS 2016
【文献】[5]O.Russakovy et al.,“ImageNet Large Scale Visual Recognition Challenge”,IJCV 2015
【文献】[6]The paper published at the following URL at the priority date of the present application: http://host.robots.ox.ac.uk/pascal/VOC/voc2012/
【文献】[7]V.Kantorov et al.“ContextLocNet: Context-Aware Deep Network Models for Weakly Supervised Localization”,ECCV 2016
【文献】[8]H.Bilen and A.Vedaldi “Weakly Supervised Deep Detection Networks”,CVPR 2016
【文献】[9]D.Li et al,“Weakly Supervised Object Localization with Progressive Domain Adaptation”,CVPR 2016
【文献】[10]Dim P.Papadopoulos et al,“We don’t need no bounding-boxes: Training object class detectors using only human verification”,CVPR 2016
【文献】[11]J.Hoffman et al.“LSDA: Large Scale Detection trough Adaptation”,NIPS 2014
【文献】[12]H.Bilen et al.“Weakly supervised object detection with convex clustering”,CVPR 2015
【文献】[13]P.M; Long et al.“Pac learning axis-aligned rectangles with respect to product distributions from multiple-instance examples”,Machine Learning 30(1) 1998
【文献】[14]B.Babenko “Multiple Instance Learning: Algorithms and Applications” Technical Report,University of California,San Diego 2004
【文献】[15]R.G.Cinbis,et al.“Weakly supervised object localization with multi-fold multiple instance learning”,arXiv 2015
【文献】[16]T.Deselaers et al.“Localizing objects while learning their appearance” ECCV 2010
【文献】[17]R.Girshick,“Fast R-CNN”,ICCV 2015
【文献】[18]R.Girshick et al.“Rich feature hierarchies for accurate object detection and semantic segmentation” CVPR 2014
【文献】[19]Koen E.A.van de Sande et al.“Segmentation as Selective Search for Object Recognition”,ICCV 2011
【文献】[20]Rumelhart et al.“Learning internal representations by error backpropagation”,1986
【文献】[21]Everingham et al.“The PASCAL Visual Object Classes (VOC) Challenge”
【発明の概要】
【発明が解決しようとする課題】
【0005】
近年、シーン理解のための複数物体検出に関して、多くの研究が行われている。このような方法は、典型的には、物体を認識し、すべてのインスタンスを画像内の境界ボックスの形で局所化することを試みる。そこでは、視点および構成の異なる複数の物体が、雑然とした背景に現れる。現在の最先端の方法は、畳み込みニューラルネットワーク(CNN)[1]に基づいて、ディープラーニングを採用している。そのようなモデルを訓練するために、異なるレベルの教師(supervision)が考えられる。複数物体検出処理において最も一般的なものは、完全教師と、弱教師とも呼ばれる画像レベル教師である。
【0006】
完全教師あり学習法[2,3,4]は、標準ベンチマーク[5,6]で最高の精度を達成するが、コストが非常に高い訓練用データセットを必要とする。実際、この場合、各訓練画像は、異なる物体位置(例えば、境界ボックス)およびカテゴリ(例えば、「人」、「自動車」、「建物」など)によりラベル付けされる。
【0007】
物体検出器を学習するための事前のアノテーションにかかる時間/コストの削減のため、近年の研究では、画像レベルのラベルを用いる弱教師ありの設定でモデルを訓練することに焦点を当てている[7,8,9,10,11]。この場合、訓練中に利用できる唯一の情報は、画像内に存在する物体カテゴリの集合であり、局所化や発生回数についての情報はない。
【0008】
ディープラーニングのパラダイムによる進歩にもかかわらず、物体検出のための画像レベルの教師は、依然として非常に困難な課題である。弱教師ありの設定の最先端のものでも、その性能は、完全教師ありのものと比較すると、かなり低い(半減する)。
【0009】
いくつかの既存の弱教師あり学習法[10,11,12]は、複数インスタンス学習(Multiple Instance Learning:MIL)として定式化されているか、あるいはそれに密接に関連している[13,14]。この定式化では、画像は領域のバッグ(bag of regions)として解釈される。画像がポジティブとラベル付けされている場合、領域の1つが注目物体を密に含むものとみなされる。画像がネガティブとラベル付けされている場合、物体を含む領域は存在しない。学習は、物体の外観のモデルを推定することと、ポジティブであるバッグのどの領域が物体に対応するかを外観モデルを用いて選択することとを、交互に行う。MILの手法は、非凸最適化問題に帰結する。実際には、ソルバは、解の品質が初期化に強く依存し、局所的な最適値に嵌まり込む傾向がある[15,16]。
【0010】
また、CNNが分類や検出を含む多くの視覚処理において驚くほど効果的であることが判明したため、最近の最先端の弱教師ありのアプローチもまた、CNNアーキテクチャ、あるいはCNN機能に基づいている。例えば、[8]において、著者は領域ベースのCNNアーキテクチャ[17]を修正し、2つのストリーム、すなわち、認識に焦点を当てたストリームと、領域の選択と、画像レベルのラベルからのエンドツーエンドの訓練による分類とを同時に行う局所化に焦点を当てたストリームを有するCNNを提案している。これらのアプローチは有望な結果を示しているが、依然としていくつかの欠点がある。典型的には、これらは外部アルゴリズムから抽出された領域候補の品質に依存する[19]。そのような候補には通常、ノイズが多く含まれ過ぎているため、正しい物体の提案を選択するのが困難になる。一般に、数千件の提案のうち、実際の物体のインスタンスは、ほんのわずかに過ぎない。
【0011】
こうした背景において、物体検出の分野における改善された解決策が依然として必要とされている。
【課題を解決するための手段】
【0012】
したがって、コンピュータによって実施される信号処理の方法が提供される。本方法は、複数の画像を提供することを含む。本方法はまた、前記複数の画像のうちの少なくとも1つの部分集合のうちのそれぞれ1つについて、弱教師ありで学習された関数を適用し、弱教師ありで学習された関数の出力に基づいて、1つまたは複数のアノテーションを決定する。弱教師ありで学習された関数は、複数の組を出力する。各組は、それぞれ局所化、および1つまたは複数の信頼スコアを含む。各信頼スコアは、各局所化における物体カテゴリのインスタンス化の確率を表す。各アノテーションは、局所化とラベルを含む。ラベルは、当該局所化における物体カテゴリのインスタンス化を表す。本方法はまた、データセットを形成することを含む。データセットは複数のデータを含む。各データは、前記部分集合における画像と、各画像について決定された1つまたは複数のアノテーションのうちの少なくとも一部とを含む。
【0013】
本方法は、関数の完全教師あり学習用に構成されたデータセットを形成することを可能にする。データセットが、画像内でインスタンス化された物体カテゴリに関する情報だけでなく、インスタンス化の局所化についての情報も含むことにより、完全教師あり学習が達成可能である。本方法によって決定されたアノテーションは、これらのアノテーションが従来技術の強アノテーション(strong annotations)、すなわち、ユーザが画像内の物体を手動で局所化することによるアノテーションと同じくらい多くの情報を提供するという意味で、「擬似強アノテーション(pseudo strong annotation)」と呼ばれる。このように、本方法はさらに、そのような完全教師あり学習を含んでいてもよい。
【0014】
弱教師ありで学習された関数同様、完全教師ありで学習された関数は、画像に適用され、複数の組を出力する。出力された各組は、それぞれ局所化、および1つまたは複数の信頼スコアを含む。各信頼スコアは、当該局所化における物体カテゴリのインスタンス化の確率を表す。弱教師ありで学習された関数同様、完全教師ありで学習された関数は、それにより画像内の物体カテゴリのインスタンスを検出するように構成され、よって、シーンの理解を可能にする。このように、本方法は、完全教師ありで学習された関数を提供することと、1つまたは複数の画像、例えば、少なくともその一部が最初に提供された画像に含まれていない画像に、完全教師ありで学習された関数を適用することとを含み得る検出工程に対する供給を行ってもよい。
【0015】
ここで、本方法は、ユーザが手動で物体の局所化に関する情報を識別する必要がある従来技術よりも簡単な方法でデータセットを形成する。実際、本方法は、弱教師ありで学習された関数を適用することを含み、これは、前段階で、複数の初期データを含む初期データセットが利用可能であることを意味する。各初期データは、それぞれの画像と、それぞれのアノテーションとを含む。この場合、アノテーションは、それぞれラベルの集合から成り、各ラベルは、それぞれの画像内における物体カテゴリのインスタンス化を表す。初期データセットの各画像と共に提供され、弱教師あり学習を実行するために必要なこのような情報は、従来技術では「弱アノテーション」と呼ばれている。初期データセットの弱アノテーションは、任意の局所化情報を除外することができ、したがって、完全教師あり学習、すなわち強アノテーションに必要な情報よりも軽く、よって、より簡単に手動で作成できる。
【0016】
本方法は、完全教師あり学習用に構成されたデータセットを手動で提供するのと比較して、手動で実施されたとしても比較的簡単な、このような初期データセットを提供することを含む工程に含まれていてもよい。当該工程は、また、初期データセットに基づいて弱教師ありで学習された関数を学習することを含んでいてもよい。次いで、当該工程は、初期データセットの画像の一部または全体からなるか、あるいはそれを含み得る、かつ/あるいは、初期データセットには含まれていない画像からなるか、あるいはそれを含み得る、提供された画像に基づき、完全教師あり学習用に構成されたデータセットを形成することを含んでいてもよい。
【0017】
そのようなフレームワークは、あらゆるユーザについて、少なくとも一から画像内の物体を手動で局所化する作業を排除できる。実際、本方法は、弱教師ありで学習された関数を単純に適用することと、次いで、弱教師ありで学習された関数の出力に基づいてアノテーションを決定することとを含み、ここで、局所化情報は既に利用可能であり、それに基づくことができる。したがって、局所化情報は、一から手動で示す必要がない。例において、弱教師ありで学習された関数を適用することと、アノテーションを決定することと、データセットを形成することとは、場合によりユーザが本方法を起動した後に、完全に自動的に実行されてもよい。
【0018】
本方法は、以下のうちの1つまたは複数を含んでいてもよい。
・各アノテーションの局所化は、前記弱教師ありで学習された関数によって出力された1つまたは複数の局所化に対応する。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、厳密にゼロより大きい信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、最も高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・各アノテーションについての前記物体カテゴリは、各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化における、厳密に正の閾値より高い信頼スコアによって表されるインスタンス化の確率を有する物体カテゴリである。
・前記閾値は、前記複数の画像内の物体の平均数に依存する値を有する。
・前記部分集合の少なくとも一部の画像のそれぞれについて、当該画像に初期ラベルが与えられており、各初期ラベルは、それぞれの画像内の各物体カテゴリのインスタンス化を表し、当該画像のアノテーションのラベルは、その画像の初期ラベルに対応する各物体カテゴリのインスタンス化を表す。かつ/あるいは、
・各アノテーションの局所化に対応する、前記弱教師ありで学習された関数によって出力された前記1つまたは複数の局所化は、クラスタ化アルゴリズムにより識別される。
【0019】
さらに、本方法によって形成可能なデータセットが提供される。言い換えれば、データセットは複数のデータを含み、各データは、画像と、前記複数の画像の少なくとも一部について、局所化、および当該局所化における物体カテゴリのインスタンス化を表すラベルを含む、1つまたは複数のアノテーションとを含む。
【0020】
さらには、上記の例における本方法によって学習可能な関数がさらに提供され、それは、前記形成されたデータセットに基づく完全教師あり学習を含む。言い換えれば、前記関数は、入力を出力に変換するスキームを構成し、当該スキームは、本方法によって取得可能である。前記関数は、画像内の物体を検出するための、コンピュータによって実施される工程において用いられてもよい。
【0021】
さらには、前記方法、および/または、前記工程を実行するための命令を含むコンピュータプログラムが提供される。
【0022】
さらには、前記データセット、前記関数、および/または、前記プログラムを含むデータ構造が提供される。
【0023】
さらには、前記データ構造を記録したコンピュータ読み取り可能な記憶媒体が提供される。
【0024】
さらには、前記データ構造を記録したデータ記憶媒体を備える装置が提供される。前記装置は、非一時的コンピュータ読み取り可能媒体を構成してもよい。あるいは、前記装置は、前記データ記憶媒体に接続されたプロセッサを備えていてもよい。前記装置は、そのようにシステムを構成してもよい。前記システムはさらに、前記プロセッサに接続されたグラフィカル・ユーザ・インターフェースを備えていてもよい。
【0025】
以下、非限定的な例として、本発明の実施の形態を添付の図面を参照しつつ説明する。
【図面の簡単な説明】
【0026】
図1】本システムの一例を示す。
図2】本方法の例を示す。
図3】本方法の例を示す。
図4】本方法の例を示す。
図5】本方法の例を示す。
図6】本方法の例を示す。
図7】本方法の例を示す。
図8】本方法の例を示す。
図9】本方法の例を示す。
図10】本方法の例を示す。
【発明を実施するための形態】
【0027】
「コンピュータにより実施される」とは、すなわち、ステップ(あるいは略全てのステップ)が少なくとも1つのコンピュータ、または類似の任意のシステムによって実行されることを意味する。よってステップは、コンピュータにより、完全に自動的に、あるいは半自動的に実行される可能性がある。例えば、少なくともいくつかのステップは、ユーザとコンピュータの対話を通じて始動されてもよい。求められるユーザとコンピュータの対話レベルは、想定される自動性のレベルに応じたものであって、ユーザの要望を実装する必要性との間でバランスをとるものとしてもよい。例えば、このレベルは、ユーザが設定し、かつ/あるいは、予め定義されていてもよい。
【0028】
方法のコンピュータによる実施の典型的な例は、この目的に適したシステムを用いて本方法を実行することである。当該システムは、本方法を実行するための命令を含むコンピュータプログラムを記録したメモリに接続されたプロセッサ、および、グラフィカル・ユーザ・インターフェース(GUI)を備えていてもよい。メモリは、データベースを記憶していてもよい。メモリは、そのような記憶に適した任意のハードウェアであり、場合により、物理的に区別可能ないくつかの部分(例えば、プログラム用に1つ、場合によりデータベース用に1つ)を含む。
【0029】
図1は、本システムの一例を示すものであって、当該システムは、クライアントコンピュータシステム、例えばユーザのワークステーションである。
【0030】
本例のクライアントコンピュータは、内部通信バス1000に接続された中央演算処理装置(CPU)1010、および同じくバスに接続されたランダムアクセスメモリ(RAM)1070とを備える。クライアントコンピュータは、さらに、バスに接続されたビデオランダムアクセスメモリ1100と関連付けられたグラフィックス処理装置(GPU)1110を備える。ビデオRAM1100は、当該技術分野において、フレームバッファとしても知られる。大容量記憶装置コントローラ1020は、ハードドライブ1030などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを具体的に実現するのに適した大容量メモリ装置は、例として、EPROM、EEPROM及びフラッシュメモリ装置のような半導体メモリ装置、内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク、光磁気ディスク、およびCD-ROMディスク1040を含む、全ての形式の不揮発性メモリを含む。前述のいずれも、特別に設計されたASIC(特定用途向け集積回路)によって補完されてもよいし、組み入れられてもよい。ネットワークアダプタ1050は、ネットワーク1060へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御装置、キーボードなどの触覚装置1090を含んでいてもよい。カーソル制御装置は、ユーザがディスプレイ1080上の任意の所望の位置にカーソルを選択的に位置させることを可能にするために、クライアントコンピュータ内で使用される。さらに、カーソル制御装置は、ユーザが様々なコマンドを選択し、制御信号を入力することを可能にする。カーソル制御装置は、システムに制御信号を入力するための多数の信号生成装置を含む。典型的には、カーソル制御装置はマウスであってもよく、マウスのボタンは信号を生成するために使用される。あるいは、または追加的に、クライアントコンピュータシステムは、感知パッドおよび/または感知スクリーンを備えてもよい。
【0031】
コンピュータプログラムは、コンピュータによって実行可能な命令を含んでいてもよく、命令は、上記システムに本方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってもよい。プログラムは、例えば、デジタル電子回路、またはコンピュータハードウェア、ファームウェア、ソフトウェア、またはそれらの組み合わせで実装されてもよい。プログラムは、例えばプログラマブルプロセッサによる実行のための機械読み取り可能な記憶装置に具体的に実現された製品のような装置として実装されてもよい。方法ステップは、プログラム可能なプロセッサが命令のプログラムを実行し、入力データを操作して出力を生成することによって方法の機能を実行することによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、また、それらにデータおよび命令を送信するようにプログラム可能であってもよく、またそのように接続されていてもよい。アプリケーションプログラムは、高水準の手続き型またはオブジェクト指向のプログラミング言語で、または必要に応じてアセンブリ言語または機械語で実装されていてもよい。いずれの場合も、言語はコンパイラ型言語またはインタープリタ型言語であってもよい。プログラムは、フルインストールプログラムまたは更新プログラムであってもよい。いずれの場合も、プログラムをシステムに適用すると、本方法を実行するための命令が得られる。
【0032】
ここで、画像における物体検出の分野においてそれ自体知られている異なる概念について議論する。
画像は、例えばシーン上の、物理的信号の空間分布を表すデータ構造である。空間分布は、任意の次元のものであってよく、例えば2Dあるいは3Dである。空間分布は、例えばグリッドを形成し、それによってピクセルを定義するなど、任意の形状であってもよく、グリッドは場合により非規則的または規則的である。物理的信号は、画像がRGB画像またはグレースケール画像または深度画像となるような、例えば色やグレーレベルや深度など、任意の信号であってもよい。画像は合成画像であってもよいし、あるいは写真のような自然画像であってもよい。提供され、かつ/あるいは、完全教師ありで学習された関数が適用される画像は、例えばすべてが矩形の2DのRGB画像、あるいはグレースケール画像、あるいは深度画像であるなど、すべて同じタイプであってもよい。あるいは、異なる画像タイプの集合を考えてもよい。
【0033】
「物体カテゴリ」という表現は、画像内でインスタンス化および局所化が可能なエンティティ(すなわち物体)の任意のクラスを指定し、当該エンティティは、弱教師ありで学習された関数のような物体検出器により、少なくともある程度まで、同じクラスに属していると認識できる。物体カテゴリの、あるバージョン、言い換えれば、当該カテゴリの物体が、各局所化において表される場合、物体カテゴリは、画像の当該局所化でインスタンス化されていると言う。
【0034】
同じ物体カテゴリの異なるインスタンス、つまり同じカテゴリの異なる物体は、異なる特性を示してもよい。例えば、同じ画像内に表される自動車の異なるモデルは、すべて同じ物体カテゴリ、例えば「自動車」のカテゴリのインスタンスとみなされてもよい。
【0035】
弱教師ありで学習された関数は、画像内の物体カテゴリのインスタンスを検出するように構成されており、本方法によって企図された物体カテゴリは、例えば、弱教師ありで学習された関数によって検出可能な全てのカテゴリに対応する、物体カテゴリの所定の集合を構成してもよい。したがって、当該所定の物体の集合は、弱教師ありで学習された関数の構成または能力によって定義されていてもよい。
【0036】
カテゴリ間の差別化の度合いは、当該所定の集合によって表される詳細の度合いに依存していてもよい。言い換えれば、弱教師ありで学習された関数の差別化能力に応じて、自動車とトラックは、同じ物体カテゴリ(例えば「車両」)、または異なるカテゴリ(「自動車」と「トラック」)に属するものとみなされてもよい。
【0037】
「局所化」という用語は、画像に関する任意の位置情報を指す。局所化は、例えば、画像の下位部分を定義してもよい。当該下位部分は、コネックス(connex)状、かつ/あるいは、凸状であってもよい。本方法によって企図される局所化は、例えば、内部に画像の下位部分を定義する矩形である境界ボックスに限定されていてもよい。別の例において、弱教師ありで学習された関数、および/または完全教師ありで学習された関数は、入力画像の区画化によって定義される局所化、言い換えれば、各画素が区画に関連付けられ、それにより各区画が局所化されたフォーマットを出力してもよい。
【0038】
画像、あるいは画像内の各局所化は、ラベル付けによって提供されてもよい。各ラベルは、各物体カテゴリのインスタンス化を表す。言い換えると、各ラベルは、画像内にそれぞれの物体カテゴリの少なくとも1つのインスタンス(すなわち、それぞれのカテゴリの物体)が存在するという事実、あるいは、その局所化において、その物体カテゴリのインスタンスが1つだけ存在するという事実を表すデータである。ラベルは画像レベルで存在してもよく、その場合、ラベルは、画像の弱アノテーションを形成し、すなわち弱教師あり学習のみを可能にするラベルであり、または局所化レベルで存在してもよく、その場合、ラベルは、さらに完全教師あり学習を可能にする。
【0039】
「画像内の物体の検出」という表現は、画像内における物体カテゴリのインスタンス化の自動認識に関する任意の工程を指す。弱教師ありで学習された関数、および完全教師ありで学習された関数は、そのような検出を実行するように構成される。特に、「弱教師ありで学習された関数」と「完全教師ありで学習された関数」は、それぞれ画像を入力とし、入力画像に対して、複数の組を出力するように構成されている。出力された各組は、局所化、および1つまたは複数の信頼スコアを含むデータを構成する。各信頼スコアは、各局所化における物体カテゴリのインスタンス化の確率を表す。このような出力情報は、任意の具体的なシーン理解アプリケーション用に、任意の方法で後処理してもよい。
【0040】
弱教師ありで学習された関数と完全教師ありで学習された関数とは、学習のされ方が互いに異なる。しかし、完全教師あり学習用に構成された同じデータセットに対しては(よって弱教師あり学習用に対してはなおさら)、一般に、完全教師ありで学習された関数のほうが、弱教師ありで学習された関数よりも、より高い精度で物体検出を行うという意味で、優れている。実際、弱教師あり学習には、データセットのラベルに対応する物体の位置をどのように特定するかについての学習が含まれていなければならない。なぜなら、そのような情報はアノテーション内には提供されていないからである。一方、完全教師あり学習の場合は、局所化情報が既にアノテーションによって提供され、設定されているため、物体カテゴリ自体の認識に集中することができる。本方法で企図される、弱教師ありで学習された関数、および完全教師ありで学習された関数は、それらのフォーマットの任意の関数であってもよい。例については後述する。
【0041】
本方法のフレームワークは、[18]のような従来技術の物体検出器同様、ディープラーニングのモデルに基づいていてもよい。ここで、物体検出に適用され、本方法によって実施可能な、ディープラーニングの分野で知られている異なる概念について論じる。
【0042】
ディープラーニングのモデルは、手作業では値を設定することができない何百万という数のパラメータによって特徴付けられる。したがって、これらのパラメータは、学習アルゴリズムのおかげで設定されるものである。学習アルゴリズムがモデルパラメータを更新するとき、モデルは「訓練モード」にあると言われる。これは、各入力に関連付けられたアノテーションにより、各入力に対するモデルの出力に応じてモデルを連続的に「修正」することからなる。アノテーションは、モデルの出力が真か偽かを評価することを可能にする特定の入力と関連付けられたデータの集合である。例えば、猫と犬の画像を区別するように訓練された物体分類器は、猫と犬のアノテーション付き画像のデータセットに基づいて実行することができ、各アノテーションは「猫」または「犬」である。このように、その訓練モードにおいて、入力された猫の画像について物体分類器が「犬」を出力する場合、学習アルゴリズムは、そのパラメータを更新することによってモデルを修正する。このような、アノテーション付きデータセットによりモデルの訓練を監督する方法を「教師あり学習」と呼ぶ。
【0043】
モデルが訓練されると、そのパラメータの更新を停止する。次いで、モデルは、新しい入力(すなわち、訓練モード中には見えない入力)を処理して検出結果を返すためにのみ用いられ、このようなモデルは「テストモード」にあると言われる。
【0044】
「検出」処理は、認識(または分類)処理と局所化処理とを一緒に実行することを意味し得るため、物体検出器は、2つの異なる出力を返してもよい。
【0045】
1.局所化出力:境界ボックスのおかげで物体の局所化を行うことができる。境界ボックスは、軸が画像の辺に平行な矩形のボックスである。それは4つの座標によって特徴づけられる。理想的には、物体検出器は、各物体に対して、物体を中心とする境界ボックスを適切な比率および縮尺で返すことができる。
【0046】
2.分類出力:各境界ボックスの信頼スコアに関連付けられたカテゴリラベルのおかげで、物体分類を行うことができる。信頼スコアは、0と1との間の実数であってもよい。スコアが1に近ければ近いほど、物体検出器は、対応する境界ボックスに関連付けられたカテゴリラベルについて、より信頼性が高い。
【0047】
そのようなモデルに対して、2つのパラダイムを区別することができる。
【0048】
・完全教師あり物体検出:このパラダイムでは、アノテーションはラベル付けされた境界ボックスであってもよい。それらを「強アノテーション」と呼ぶ。このパラダイムでは、アノテーションによって前述の2つの異なる出力を個別に修正することができる。
【0049】
・弱教師あり物体検出:このパラダイムでは、アノテーションは画像レベルラベルのみであってもよい。すなわち、各画像には、画像に現れた物体カテゴリのリストによってアノテーションが付される。それらを「弱アノテーション」と呼ぶ。物体の局所化に関する情報は提供されず、また場合により、物体カテゴリごとの発生数について情報も提供されない。したがって、画像レベルのラベルによって局所化出力を直接修正することはできない。しかしながら、弱教師あり物体検出器は、この種の教師によって訓練され、完全教師あり物体検出器と同じ種類の出力を返すように設計されている。
【0050】
本方法は、弱教師あり物体検出のパラダイムを実施する。このパラダイムにおいて、モデルは、弱アノテーションを付された画像のデータセットで訓練される。
【0051】
従来技術では、弱教師あり物体検出器は、弱アノテーション(すなわち、画像レベルのラベルのみ)で直接訓練され、各物体カテゴリの信頼スコアに関連付けられた境界ボックスの形で検出結果を返す。
【0052】
本方法では、局所化情報なしの画像レベルのカテゴリラベルのみで物体検出器を訓練する可能性を提供する。このように、本方法は、完全教師あり物体検出器の高性能と弱教師あり物体検出器の安いアノテーションコストとを活用することができる、新規な弱教師あり物体検出フレームワークからなっていてもよい。
【0053】
図2は本方法の一例のフローチャートを示す。
図2の本方法は、画像を提供すること(S10)を含む。S10で提供された各画像には、それぞれ初期ラベルが与えられている。したがって、S10で提供されたデータは、弱教師ありで学習された任意の関数の学習のために構成されたデータセット、例えば、S20に含まれるものを形成する。したがって、図2の方法は、S10の後かつS20の前に、そのような弱教師あり学習を含んでいてもよい。
【0054】
初期ラベルはまた、S50で、形成されたデータセットを改善する特定のフィルタリングの実行を可能にする。これは、部分集合の画像にのみそれぞれの初期ラベルが与えられている場合にも当てはまる。ここで、以下の説明は、S50が破棄された場合(言い換えれば、S40の出力がS60に直接入力された場合)に、S10で初期ラベルが全く与えられない場合にも当てはまり、その場合、S50に関する説明は破棄される。
【0055】
この例の方法は、S10で提供された画像のうちの少なくとも1つの部分集合における各画像に対して、特定のスキームS20~S80を実行することを含む。処理全体における任意の時点で、S10で提供される画像を任意の理由で破棄してもよい(例えば、画像が壊れていたり、他の画像と重複していたりして、役に立たないことが判明した場合など)。また、与えられた画像に対して、S20~S80のいずれかの出力が無効となってもよい。そのような場合、与えられた画像について本スキームを終了させることができる。無効な結果が後の学習(S100)に有益な情報を構成することがあり得るため、与えられた画像はそのとき廃棄されてもよいし、S90にそのまま提供されてもよい。このような状況は、明瞭化のために図には示されていない。上述の「部分集合」は、あらゆる場合において、S10で提供される画像の集合の一部であり、それよりS20~S80が正常に実行される。
【0056】
本スキームは、弱教師ありで学習された関数を適用すること(S20)を含む。弱教師あり関数は、S20に入力された各画像について同じ所定のものであってもよい。他の例では、S20において、弱教師ありで学習された異なる関数が入力された画像に応じて適用されてもよい。
【0057】
弱教師ありで学習された関数は、各画像境界ボックス、および出力された各境界ボックスについて、信頼スコアの集合を出力する。各信頼スコアは、弱教師ありで学習された関数によって検出可能なそれぞれの物体カテゴリに関連付けられ、境界ボックス内における物体カテゴリのインスタンス化の確率を(弱教師ありで学習された関数に従って)表す。言い換えれば、弱教師あり関数は、(例えば、前回の弱教師あり学習により)所定の物体カテゴリの集合を知っており、S20で入力された各画像について、弱教師あり関数は、物体を含むと想定される境界ボックスと、物体が所定のカテゴリのそれぞれに属する確率を出力する。以下の説明は、S60~S70を除いて、境界ボックス以外のタイプの局所化にも当てはまる。
【0058】
この時点で、図2の方法は、最終的に形成されるデータセットに関して、S20の出力を処理するためのオプションを実施する。これらのオプションは、後の完全教師あり学習(S100)のためにS20に入力された画像について、S80において、関連するアノテーションを形成することに関与する。S80で形成されるアノテーションは、インスタンス(すなわち、カテゴリの物体)が境界ボックス内の画像によって表されると想定される物体カテゴリを示すラベルにそれぞれ関連付けられた境界ボックスを含む。ここで、オプションは、S80でアノテーションに含める各境界ボックスと、S20で出力される1つまたは複数の境界ボックスとの、対応関係を決定することを目的とする。これについてここで説明する。
【0059】
本方法は、まず、S20によって出力されたすべての境界ボックスについてループすることと、最も高い信頼スコアではない信頼スコアをすべて除外すること(S30)とを含む。言い換えれば、本方法は、各境界ボックスについて、最も高い信頼スコアを選択し、その他すべての信頼スコアに関する情報(関連付けられた物体カテゴリを含む)を破棄する。この時点で、残りの情報は複数のデータからなり、各データは、S20によって出力された境界ボックスのうちのそれぞれの境界ボックス、境界ボックスごとに1つのカテゴリ、および各境界ボックスにおけるそれぞれの物体カテゴリのインスタンス化の信頼スコアを含む。
【0060】
本方法の残りの部分は、S80でアノテーションに含まれるべき境界ボックスと、同一物体カテゴリに関連付けられた残りの情報内の1つまたは複数の境界ボックスとの対応関係を決定することである。したがって、上記の同一物体カテゴリは、厳密にゼロより大きいだけでなく、(対応する境界ボックスのそれぞれの)最も高い信頼スコアである信頼スコアによって表されるインスタンス化の確率を有するものである。これにより、関連するデータセットがS90で最終的に形成されることを確実にするフィルタリングが可能となる。
【0061】
ここで、図2の方法は、フィルタリングを改善するために他のオプションを実施する。
【0062】
この例の方法は特に、厳密に正である所定の閾値より(例えば、厳密に、または厳密にではなく)低い信頼スコアに関連付けられた、S30によって出力されたすべての境界ボックスを除外すること(S40)を含む。これにより、(低すぎる確率により)無関係な情報の量を減らすことが可能になる。
【0063】
例えば、閾値は、S20が実行される画像内の物体の平均数に依存する値を有していてもよい(すなわち、画像ごとに任意の物体カテゴリのインスタンスの平均。そのような場合、同じカテゴリの2つのインスタンスが2回カウントされる)。そのような平均数は、任意の方法で、かつ/あるいは、事前の任意の時点で、(例えば、S20またはS30の出力に基づいて)あらかじめ提供されてもよいし、計算されてもよいし、近似されてもよい。
【0064】
閾値の値は、S60に入力される画像ごとの境界ボックスの平均数が、S20に入力される画像ごとの物体の平均数よりも、例えば厳密に、大きくなるような値であってもよい。本方法は、例えば、後の任意のフィルタリング(この例ではS50など)を考慮して、S60に入力される画像ごとの境界ボックスの最小平均数を考えてもよく、当該最小平均数は、S20に入力される画像ごとの物体の平均数よりも(例えば、厳密に)大きく、上記閾値は、この最小平均数に達することを確実にする、任意の値である。本方法は、そのような閾値を任意の方法で明示的に決定してもよいし、あるいは、S60に入力された境界ボックスの数が最小平均数に達するまで、信頼スコアの、より高い値から始めて低い値まで境界ボックスのフィルタリングを繰り返し行ってもよい。
【0065】
この例の本方法は、与えられた画像について、S10で当該与えられた画像に対して提供された初期ラベル中ではなく、物体カテゴリに対応する信頼スコアに関連付けられた、S40によって出力されたすべての境界ボックス(すなわち、前の2つのフィルタS30およびS40の後に残っているすべての境界ボックス)を除外すること(S50)をさらに含む。このように除外すること(S50)は、初期ラベルが、S10で提供された画像内でどの物体カテゴリがインスタンス化されたかを略完全に示していると想定し、それによりS50でこの想定と矛盾する結果が取り除かれる。これは、初期ラベルが、初期データセットを作成するためにユーザが画像に弱アノテーションを追加したことに由来するものである場合に特に当てはまる。
【0066】
次いで、この例の本方法は、各入力画像に対して、カテゴリごとに実行されるクラスタ化アルゴリズムを実行する。各物体カテゴリについて、クラスタ化アルゴリズムは、互いに近接して局所化され、同じ物体を表すと想定される境界ボックスのグループ(またはクラスタ)を見つける。弱教師ありで学習された関数の適用(S20)は、実際、1とは異なる信頼スコア値によって表される物体カテゴリだけでなく、単一の物体インスタンスに対応するこれら複数の境界ボックスによって表される正確な局所化そのものについても、ある程度の不確実性を含む。
【0067】
任意の局所化距離に基づく任意のクラスタ化アルゴリズムを実施することができる。例において、本方法は、対応する数のクラスタを生成するために、階層的クラスタ化、すなわち、任意の所与の深さで切断することができる樹状図を出力するクラスタ化を実施する。当該所与の深さは、S20が実行される画像内の物体の平均数に等しい数のクラスタに対応するように選択されてもよい。
【0068】
次いで、この例の本方法は、各クラスタについて、当該クラスタを表す、対応する単一の境界ボックスを決定すること(S70)を含む。これは、例えばクラスタのすべての境界ボックス座標を平均化するなど、任意の方法で実行できる。あるいは、クラスタ化(S60)は、それ自体、本ケースにおいてはS70で決定された境界ボックスでありうる境界ボックスに対応する、各クラスタの重心の座標を出力してもよい。S70で決定されたこの境界ボックスは、クラスタに対応する物体カテゴリに関連付けられ、このような情報は、S80で、現在の入力画像のアノテーションとなる。
【0069】
最終的に、本方法は、S90において、部分集合の画像および前記アノテーションを有するデータセットを形成し、この例の本方法はまた、当該データセットに基づいて、物体検出関数を学習すること(S100)(または訓練すること)を含む。あるいは、データセットは、学習のために、第三者に送られる可能性がある。
【0070】
本方法は、これにより、以下を含む利点を有する弱教師あり物体検出フレームワークを提供してもよい。
・現在の最先端の弱教師あり物体検出器よりも高い精度。精度は、「mAP」([21]に記載)と呼ばれる指標によるテストで評価した。この指標が大きいほど、モデルの精度が高い。精度はパーセンテージで表される。本方法のテストでは、mAPが約35%から約40%へと改善を示した。
・本方法で提案される物体検出器は、時間がかかり正確ではない外部領域提案アルゴリズムに依存しない統合モデルを形成する。
・また、本方法のアプローチは、最先端の弱教師ありアプローチよりも高速であってもよい。
【0071】
ここで、本方法の実施例について説明する。これらの実施例では、本方法は以下のコンポーネントの入力に基づいて実行される。
・モデル1:訓練されていない弱教師あり物体検出器。このような検出器は、画像レベルのラベルのみで訓練され、画像/シーンを入力とし、完全教師あり物体検出器と同じ出力、すなわち、ラベルおよび信頼スコアにそれぞれ関連付けられた境界ボックスの集合を返す。
・モデル2:訓練されていない完全教師あり物体検出器。このタイプの物体検出器は、強アノテーションを必要とし、弱教師あり物体検出器よりもはるかに効果的である。
・弱アノテーション付きの画像のデータセット。したがって、データセットの各画像は、当該画像内に現れる物体カテゴリのリストに関連付けられる。
【0072】
これらの実施例では、本方法は、2つの連続した段階からなるフレームワークを提供する。
1.オフライン段階:この段階は、4つのステップでモデル2を訓練することを目的とする。この段階は、ユーザに対し透過的である。
【0073】
1)まず、本方法は、図3に示すように、弱アノテーションを用いて画像のデータセットに基づきモデル1を訓練することを含んでいてもよい。訓練が行われると、本方法はこのモデルをテストモードで渡す。
【0074】
2)次いで、本方法は、図4に示すように、データセットの全ての画像を処理するためにモデル1を用いることを含んでいてもよい。このとき、各画像は、弱アノテーションと、モデル1によって提供される検出結果に関連付けられている。モデル1によって提供される検出結果は、カテゴリラベルおよび信頼スコアを有する境界ボックスのリストから構成される。
【0075】
3)本方法は、図5に示すように、「疑似強アノテーション」を形成するために、これらの結果をフィルタリングすることを含んでいてもよい。このフィルタリングは、2つのステップからなっていてもよい。
i.第1に、本方法は、閾値を超える信頼スコアの境界ボックスを維持するために、信頼スコア閾値を固定してもよい。
ii.第2に、本方法は、各画像について、ラベルが初期弱アノテーションに現れた境界ボックスのみを維持してもよい。
このとき、データセットの画像は、擬似強アノテーションに関連付けられている。
【0076】
4)本方法は、図6に示すように、ステップ3で提供されたアノテーション、すなわち、擬似強アノテーションを用いて、データセットに基づきモデル2を訓練することを含んでいてもよい。
【0077】
2.オンライン段階:モデル2は、図7に示すように、任意の見えない入力画像上で物体検出を実行するために、テストモードで渡してもよい。
この弱教師ありフレームワークにより、モデル1とモデル2の間のパフォーマンスが向上する。
【0078】
図8は、オフラインおよびオンライン段階のそのような技術的ワークフローを示す。
ここで、モデル1の検出結果に適用されるフィルタリングの実施の詳細の例を説明する。
モデル1が訓練されると、本方法は、データセット2の各画像について、テストモードのモデル1によって提供される検出結果を得る。このように、本方法は、各カテゴリについて境界ボックス内の画像が当該カテゴリに属する確率を示す確率ベクトルと関連付けられた、境界ボックスのリストを、各画像について得る。
【0079】
境界ボックスのフィルタリングの工程は、図9に示すように、S30~S40、S50、およびS60~S70の例にそれぞれ対応する3つの連続するステップに分解することができる。
【0080】
第1のステップは、ラベル関連付けおよび信頼閾値に基づくフィルタリングを含む。ここで例について説明する。
本方法は、まず、各境界ボックスを単一のラベルおよび確率ベクトルにおける対応する値に関連付けてもよい。選択されたラベルは、確率ベクトルの中で最も大きい値を有するものに対応していてもよい。この値は、境界ボックスの信頼スコアと呼ばれる。次いで、信頼閾値により第1のフィルタリングを実行してもよい:信頼閾値より低い信頼スコアを有するすべての境界ボックスが除去される。この信頼閾値の値は、0と1の間の数値であり、データセット2の特性に依存してもよい。例えば、本方法は、データセット2の画像ごとの物体の平均数に基づいていてもよい。この平均数が予め知られていない場合、平均の近似値を決定してもよい。この情報が与えられると、信頼閾値の値を、クラスタ化ステップの入力における境界ボックスの画像ごとの平均数が画像ごとの物体の平均数よりも大きくなるように設定してもよい。したがって、信頼閾値は区間[0,b[に属し、ここでbは2つの平均値が等しくなるような限界値である。
【0081】
第2のステップは、ラベルフィルタリングを含む。ここで例について説明する。
第1のステップの後に、データセット2に弱アノテーションが付与されている場合、すなわち、各画像が、当該画像内に現れる(および現れない)物体カテゴリのリストを示すアノテーションに関連付けられている場合、第2のフィルタリングを実行してもよい。このフィルタリングは、単に、ラベルがアノテーションに現れる境界ボックスを保持することだけからなっていてもよい。
【0082】
第3のステップはクラスタ化を含む。ここで例について説明する。
直前のフィルタリングステップによって返された境界ボックスは、クラスタ化アルゴリズムによってフィルタリングされてもよい。このアルゴリズムの目的は、境界ボックスの局所化ノイズを低減することである。このアルゴリズムは、各画像について、検出された各カテゴリの境界ボックスの集合に、独立して適用される。1つの画像および少なくとも1つの検出された境界ボックスを有するカテゴリが与えられると、本方法は、4Dベクトルである境界ボックス座標の集合にクラスタ化アルゴリズムを適用してもよい。クラスタの数は未知であってもよい。Xmeansや階層的クラスタ化(Xu R、Wunsch Dによる論文「Survey of Clustering Algorithms」の特に650~651頁に記載)のような、個数が未知であるクラスタについてのクラスタ化問題を解決する任意のアルゴリズムが実施されてもよい。テストで成功し検出精度が改善した実施例において、本方法は、階層的クラスタ化アルゴリズムを実施してもよい。本方法は、適切な指標とリンク基準に基づいてクラスタの階層を構築することからなっていてもよい。このアルゴリズムは、ユークリッド距離と「単一リンククラスタ化」を用いてテストしてもよい。他の指標およびリンク基準を用いてもよい。このアルゴリズムは樹状図を構築する。ある高さが与えられると、本方法は樹状図を切断し、この高さに定義されたクラスタを得ることができる。この高さは入念に選択することができる。フィルタリングの例では、この高さは、クラスタ化の出力におけるフィルタリングされた境界ボックスの平均数がデータセット2内の画像ごとの平均物体数に等しくなるように設定してもよい。
【0083】
ここで、2つのモデルの実施の詳細の例について説明する。
本方法の主な目的は、局所化情報なしの画像レベルのカテゴリラベルのみで物体検出器を訓練することであってもよい。本方法は、完全教師あり物体検出器の高性能と弱教師あり物体検出器の安いアノテーションコストとを活用することができる、新規な弱教師あり物体検出フレームワークからなっていてもよい。
【0084】
本方法は、ディープニューラルネットワーク(DNN)、具体的には領域ベースのディープニューラルネットワーク(領域ベースDNN)の能力を利用することによって、この課題に対処してもよい。
【0085】
ディープニューラルネットワークは、コンピュータが観測データから学習することを可能にする、生物学に着想を得たプログラミングパラダイムであるニューラルネットワーク([20]に記載)における学習のための強力な技術の集合である。
【0086】
物体の分類において、DNNの成功は、他の画像分類法(SVM、Boosting、Random Forestなど)で用いられる手作業による低レベルの特徴(HOG、Bag-of-Words、SIFTなど)とは対照的に、豊かな中間レベルの2D画像表現を学習する能力を有するおかげである。より具体的には、DNNは、未処理のデータに基づくエンドツーエンドの学習に焦点を当てている。言い換えれば、図10に示すように、未処理の特徴から始まりラベルで終わるエンドツーエンドの最適化を達成することによって、特徴量エンジニアリングから可能な限り遠く離れる。
【0087】
物体の分類とは異なり、検出は、分類(すなわち認識)に加えて、画像内で(多くの場合たくさんの)物体を局所化する必要がある。領域ベースのディープニューラルネットワークは、「領域を用いた認識」のパラダイム([18]に記載)の範囲内で、局所化の課題を解決してもよい。大まかに言って、ネットワークはオフライン段階において領域の提案を認識することを学習してもよい。領域の提案は、外部アルゴリズムによって提供されてもよいし(例えば、[17])、ネットワークを訓練する間に学習されてもよい(例えば、[2])。
【0088】
本方法は、オフライン段階の間に、完全教師ありの方法または弱教師ありの方法のいずれかの任意の方法で領域ベースのディープニューラルネットワークの訓練を行ってもよい。
【0089】
本方法は、2つの段階に分解される。オフライン段階として表すことができる第1の段階は、領域ベースのディープニューラルネットワークに大きく依存し、本方法が2つのモデルを訓練する可能性のある段階に対応する:
I.モデル1:弱教師ありニューラルネットワーク検出器に対応する。本方法は、例えば、最先端の領域ベースの弱教師ありニューラルネットワークであるWSDDN([8]に記載)を用いてもよい。
II.モデル2:完全教師あり物体検出器に対応する。本方法は、例えば、最先端の領域ベースの完全教師ありニューラルネットワークであるFaster R-CNN([2]に記載)を用いてもよい。
【0090】
以下の表Iは、本方法の実施の代替案を示す。
【表1】
表I-本方法で実施可能なニューラルネットワークの例
R-CNNは[18]に記載されている。
Fast R-CNNは[17]に記載されている。
PVANETは[4]に記載されている。
ContextLocNetは[7、8]に記載されている。
【0091】
表Iに示すように、本方法は、真ん中の列に示される構成でテストした。ここで、得られた結果について説明する。
結果として、モデル1からモデル2へ、相対的に48%の性能向上が観察された。物体検出器の性能は、「mean average precision」と呼ばれる指標([21])により評価した。この指標はパーセンテージに対応し、この値が大きいほど検出器の精度が高い。モデル1の実施例のスコアは27%mAP、モデル2の実施例のスコアは40%mAPであった。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10