(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-01-20
(45)【発行日】2023-01-30
(54)【発明の名称】CAM基盤の弱教師あり学習物体探知装置及び方法
(51)【国際特許分類】
G06V 10/82 20220101AFI20230123BHJP
G06T 7/00 20170101ALI20230123BHJP
【FI】
G06V10/82
G06T7/00 350C
(21)【出願番号】P 2021196551
(22)【出願日】2021-12-02
【審査請求日】2021-12-03
(31)【優先権主張番号】10-2021-0125952
(32)【優先日】2021-09-23
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】514274672
【氏名又は名称】延世大学校 産学協力団
【氏名又は名称原語表記】YONSEI UNIVERSITY,UNIVERSITY-INDUSTRY FOUNDATION(UIF)
【住所又は居所原語表記】50,YONSEI-RO, SEODAEMUN-GU, SEOUL 03722, REPUBLIC OF KOREA
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】ビュン,ヘ ラン
(72)【発明者】
【氏名】イ,サンヒョク
(72)【発明者】
【氏名】ムン,チョルヒュン
(72)【発明者】
【氏名】イ,ピルヒョン
(72)【発明者】
【氏名】イ,ジェウク
【審査官】大塚 俊範
(56)【参考文献】
【文献】特開2021-22368(JP,A)
【文献】特開2020-8896(JP,A)
【文献】中国特許出願公開第112489081(CN,A)
【文献】米国特許第10970645(US,B1)
【文献】韓国公開特許第10-2021-0001890(KR,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00- 7/90
G06V 10/00-10/98
(57)【特許請求の範囲】
【請求項1】
イメージをCNN(Convolutional Neural Network)に適用する過程で前記CNNにある最後のコンボリューションレイヤのフィーチャマップを抽出するフィーチャマップ抽出部と、
前記フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル(label)を生成するリニアレイヤとに順次適用する過程で前記リニアレイヤの加重値ベクトルを第1二値化する加重値ベクトル二値化部と、
前記第1二値化された加重値ベクトルを基に前記フィーチャマップを第2二値化するフィーチャマップ二値化部と、
前記第2二値化されたフィーチャマップを基に物体探知(object localization)のためのクラス活性化マップ(Class Activation Map)を生成するクラス活性化マップ生成部と、
を備えることを特徴とするCAM基盤の弱教師あり学習物体探知(WSOL、Weakly Supervised Object Localization)装置。
【請求項2】
前記プーリングレイヤは、
前記フィーチャマップに対して全域平均プーリング(global average pooling)を行って前記フィーチャベクトルを生成するように実現されることを特徴とする請求項1に記載のCAM基盤の弱教師あり学習物体探知装置。
【請求項3】
前記加重値ベクトル二値化部は、
閾値を基準に前記加重値ベクトルに対する前記第1二値化を行うことを特徴とする請求項1に記載のCAM基盤の弱教師あり学習物体探知装置。
【請求項4】
前記加重値ベクトル二値化部は、
前記閾値を最適化するために、複数の相対閾値を基にグリッド探索(grid search)を行うことを特徴とする請求項3に記載のCAM基盤の弱教師あり学習物体探知装置。
【請求項5】
前記加重値ベクトル二値化部は、
次の[数1]を利用して前記グリッド探索を行うことを特徴とする請求項4に記載のCAM基盤の弱教師あり学習物体探知装置。
【数1】
ここで、
は、c番目の対象クラスの加重値に対する最適閾値であり、c∈C(Cは、対象クラスの個数)であり、w∈W(Wは、加重値ベクトル)であり、θ
wは、相対閾値である。
【請求項6】
前記フィーチャマップ二値化部は、
前記第1二値化された加重値ベクトルを前記フィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも1つの一部チャネルを選択することを特徴とする請求項1に記載のCAM基盤の弱教師あり学習物体探知装置。
【請求項7】
前記フィーチャマップ二値化部は、
フィーチャ二値化閾値(feature binarize threshold)を基準に前記少なくとも1つの一部チャネルに対する前記第2二値化を行うことを特徴とする請求項6に記載のCAM基盤の弱教師あり学習物体探知装置。
【請求項8】
前記フィーチャマップ二値化部は、
次の[数2]を利用して前記第2二値化を行うことを特徴とする請求項7に記載のCAM基盤の弱教師あり学習物体探知装置。
【数2】
ここで、F
k(x、y)は、y番目の行とx番目の列とに対してフィーチャマップF
kのk番目のチャネルの要素(element)であり、T
fは、フィーチャ二値化閾値である。
【請求項9】
前記クラス活性化マップ生成部は、
前記第2二値化された前記少なくとも1つの一部チャネルを集計して前記クラス活性化マップを生成することを特徴とする請求項7に記載のCAM基盤の弱教師あり学習物体探知装置。
【請求項10】
イメージをCNN(Convolutional Neural Network)に適用する過程で前記CNNにある最後のコンボリューションレイヤのフィーチャマップを抽出するステップと、
前記フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル(label)を生成するリニアレイヤとに順次適用する過程で前記リニアレイヤの加重値ベクトルを第1二値化するステップと、
前記第1二値化された加重値ベクトルを基に前記フィーチャマップを第2二値化するステップと、
前記第2二値化されたフィーチャマップを基に物体探知(object localization)のためのクラス活性化マップ(Class Activation Map)を生成するステップと、
を含むことを特徴とするCAM基盤の弱教師あり学習物体探知(WSOL、Weakly Supervised Object Localization)方法。
【請求項11】
前記第1二値化するステップは、
閾値を基準に前記加重値ベクトルに対する前記第1二値化を行うステップを含むことを特徴とする請求項10に記載のCAM基盤の弱教師あり学習物体探知方法。
【請求項12】
前記第2二値化するステップは、
前記第1二値化された加重値ベクトルを前記フィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも1つの一部チャネルを選択するステップを含むことを特徴とする請求項10に記載のCAM基盤の弱教師あり学習物体探知方法。
【請求項13】
前記第2二値化するステップは、
フィーチャ二値化閾値(feature binarize threshold)を基準に前記少なくとも1つの一部チャネルに対する前記第2二値化を行うステップを含むことを特徴とする請求項12に記載のCAM基盤の弱教師あり学習物体探知方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、CAM生成技術に係り、より詳細には、弱教師あり学習物体探知の性能を開設するように分類タスクに対する依存度が低いCAMを生成できるCAM基盤の弱教師あり学習物体探知装置及び方法に関する。
【背景技術】
【0002】
物体探知(object localization)の目標は、場面で対象物体の位置をキャプチャすることである。過去10年間、ディープラーニングアクセス方式は、物体探知を含む様々なコンピュータビジョン作業で印象的な改善をなした。このような技術は、バウンディングボックス(bounding box)のような探知のために、高価な注釈が必要な完全教師あり学習に依存することができる。それに対し、弱教師あり学習物体探知(WSOL、Weakly Supervised Object Localization)は、イメージ水準クラスラベルのような弱教師ありで同じ作業を処理することができる。その経済性は、この数年間、多くの注目を集めてきた。
【0003】
最近の弱教師あり学習物体探知研究は、イメージを分類ネットワークに入力して、イメージのクラス活性化マップに基づいてバウンディングボックスを生成する方法が主流をなしている。ここで、クラス活性化マップ(Class Activation Map)は、ネットワークがイメージのクラスを判断するとき、イメージのどの領域をみて当該イメージのクラスを判断したか、ヒートマップを使用して直観的に視覚化する方法に該当することができる。
【0004】
既存のCAM生成方法は、分類ネットワークの最後の層フィーチャマップと分類器のウェイトとをチャネル別にかけて加える方式にて行われることができる。これにより、分類ネットワークは、イメージをよく分類し出すために、物体の小さい特異領域に集中しようとする性向があり、このような特徴は、物体全体を探知し出すべき物体探知任務と矛盾する関係を形成する。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の一実施形態は、追加的な学習なしにも二値化を基盤とするCAM開発を介して、既存のCAMが探すことができなかった物体の領域まで探すことにより、弱教師あり学習の物体探知性能を向上させるCAM基盤の弱教師あり学習物体探知装置及び方法を提供する。
【0007】
本発明の一実施形態は、分類器の加重値を二値化してCAMを生成するのに役立つフィーチャマップを選択的に活用できるCAM基盤の弱教師あり学習物体探知装置及び方法を提供する。
【課題を解決するための手段】
【0008】
実施形態の中で、CAM基盤の弱教師あり学習物体探知(WSOL、Weakly Supervised Object Localization)装置は、イメージをCNN(Convolutional Neural Network)に適用する過程で前記CNNにある最後のコンボリューションレイヤのフィーチャマップを抽出するフィーチャマップ抽出部と、前記フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル(label)を生成するリニアレイヤとに順次適用する過程で前記リニアレイヤの加重値ベクトルを第1二値化する加重値ベクトル二値化部と、前記第1二値化された加重値ベクトルを基に前記フィーチャマップを第2二値化するフィーチャマップ二値化部と、前記第2二値化されたフィーチャマップを基に物体探知(object localization)のためのクラス活性化マップ(Class Activation Map)を生成するクラス活性化マップ生成部とを備える。
【0009】
前記プーリングレイヤは、前記フィーチャマップに対して全域平均プーリング(global average pooling)を行って前記フィーチャベクトルを生成するように実現されることができる。
【0010】
前記加重値ベクトル二値化部は、閾値を基準に前記加重値ベクトルに対する前記第1二値化を行うことができる。
【0011】
前記加重値ベクトル二値化部は、前記閾値を最適化するために、複数の相対閾値を基にグリッド探索(grid search)を行うことができる。
【0012】
前記加重値ベクトル二値化部は、次の[数1]を利用して前記グリッド探索を行うことができる。
【0013】
【数1】
(ここで、
は、c番目の対象クラスの加重値に対する最適閾値であり、c∈C(Cは、対象クラスの個数)であり、w∈W(Wは、加重値ベクトル)であり、θ
wは、相対閾値である。)
【0014】
前記フィーチャマップ二値化部は、前記第1二値化された加重値ベクトルを前記フィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも1つの一部チャネルを選択できる。
【0015】
前記フィーチャマップ二値化部は、フィーチャ二値化閾値(feature binarize threshold)を基準に前記少なくとも1つの一部チャネルに対する前記第2二値化を行うことができる。
【0016】
前記フィーチャマップ二値化部は、次の[数2]を利用して前記第2二値化を行うことができる。
【0017】
【数2】
(ここで、F
k(x、y)は、y番目の行とx番目の列とに対してフィーチャマップF
kのk番目のチャネルの要素(element)であり、T
fは、フィーチャ二値化閾値である。)
【0018】
前記クラス活性化マップ生成部は、前記第2二値化された前記少なくとも1つの一部チャネルを集計して前記クラス活性化マップを生成できる。
【0019】
施形態の中で、CAM基盤の弱教師あり学習物体探知(WSOL、Weakly Supervised Object Localization)方法は、イメージをCNN(Convolutional Neural Network)に適用する過程で前記CNNにある最後のコンボリューションレイヤのフィーチャマップを抽出するステップと、前記フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル(label)を生成するリニアレイヤとに順次適用する過程で前記リニアレイヤの加重値ベクトルを第1二値化するステップと、前記第1二値化された加重値ベクトルを基に前記フィーチャマップを第2二値化するステップと、前記第2二値化されたフィーチャマップを基に物体探知(object localization)のためのクラス活性化マップ(Class Activation Map)を生成するステップとを含む。
【0020】
前記第1二値化するステップは、閾値を基準に前記加重値ベクトルに対する前記第1二値化を行うステップを含むことができる。
【0021】
前記第2二値化するステップは、前記第1二値化された加重値ベクトルを前記フィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも1つの一部チャネルを選択するステップを含むことができる。
【0022】
前記第2二値化するステップは、フィーチャ二値化閾値(feature binarize threshold)を基準に前記少なくとも1つの一部チャネルに対する前記第2二値化を行うステップを含むことができる。
【発明の効果】
【0023】
開本発明は、次の効果を有することができる。ただし、特定実施形態が次の効果を全て含むべきであるとか、次の効果だけを含むべきであるという意味ではないので、本発明の権利範囲は、これによって制限されると理解されてはならない。
【0024】
現在、ほとんどの弱教師あり学習物体探知方法は、学習過程でイメージの一部分を消す方式や、または同じクラスのフィーチャ分布を調節する方式でCAMの部分化問題を解決している。
【0025】
しかし、このような方式は、ネットワーク構造に変化を与える方式であるという点で追加的な学習が必要であり、より多くのコンピューティング資源を必要とするという問題点が存在しうる。
【0026】
しかし、本発明に係る方法は、既に取得した情報を追加的な学習なしに物体探知に適するように変換させて使用しようとし、既に存在するネットワークのモデルに直ちに応用できる方法である点において、追加的な学習とコンピューティングパワーとが必要でないという長所を有している。
【図面の簡単な説明】
【0027】
【
図1】本発明に係る弱教師あり学習物体探知装置の機能的構成を説明する図である。
【
図2】本発明に係るCAM基盤の弱教師あり学習物体探知方法の一実施形態を説明する順序図である。
【
図3】本発明に係るCAM基盤の弱教師あり学習物体探知方法の全体概念図である。
【
図4】本発明に係るCAM基盤の弱教師あり学習物体探知方法の全体構造を説明する図である。
【
図5】CUBに対する探知性能を比較した結果を説明する図である。
【
図6】ImageNetに対するCAMとCAAMとの失敗事例を説明する図である。
【
図7】相対閾値に対するハイパーパラメータスイープを説明する図である。
【
図8】NWCと本発明の失敗事例を説明する図である。
【
図9】本発明に係るフィーチャマップ二値化の効果を説明する図である。
【
図10】個別チャネルで本発明に係るフィーチャマップ二値化の効果を説明する図である。
【発明を実施するための形態】
【0028】
本発明は、下記の研究課題もって支援を受けて出願されました。
[この発明を支援した国家研究開発事業]
[課題固有番号] 1711126082
[課題番号] 2020-0-01361-002
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] 情報通信企画評価院
[研究事業名] 情報通信放送研究開発事業
[研究課題名] 人工知能大学院支援(延世大学校)
[寄与率] 1/2
[課題実行機関名] 延世大学校産学協力団
[研究期間] 2021.01.01~2021.12.31
[この発明を支援した国家研究開発事業]
[課題固有番号] 1711134177
[課題番号] 2019R1A2C2003760
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] 韓国研究財団
[研究事業名] 中堅研究者支援事業
[研究課題名] 特性情報自動生成を介しての初めて見る複合カテゴリーのイメージとビデオ生成及び認識のためのゼロショット学習技術研究
[寄与率] 1/2
[課題実行機関名] 延世大学校
[研究期間] 2021.03.01~2022.02.28
本発明に関する説明は、構造的ないし機能的説明のための実施形態に過ぎないので、本発明の権利範囲は、本文に説明する実施形態によって制限されると解釈されてはならない。すなわち、実施形態は、様々な変更が可能であり、種々の形態を有することができるので、本発明の権利範囲は、技術的思想を実現できる均等物等を含むと理解されなければならない。また、本発明において提示した目的または効果は、特定実施形態がこれを全部含むべきであるとか、そのような効果だけを含むべきであるという意味ではないので、本発明の権利範囲は、これによって制限されると理解されてはならないであろう。
【0029】
一方、本出願において述べられる用語の意味は、次のように理解されるべきであろう。
【0030】
「第1」、「第2」などの用語は、1つの構成要素を他の構成要素から区別するためのものであって、これらの用語によって権利範囲が限定されてはならない。例えば、第1構成要素は第2構成要素と命名されることができ、同様に、第2構成要素も第1構成要素と命名されることができる。
【0031】
ある構成要素が他の構成要素に「連結されて」いると言及したときには、その他の構成要素に直接連結されることができるが、中間に他の構成要素が存在することもできると理解されるべきであろう。それに対し、ある構成要素が他の構成要素に「直接連結されて」いると言及したときには、中間に他の構成要素が存在しないと理解されるべきであろう。一方、構成要素等間の関係を説明する他の表現、すなわち、「~間に」と「すぐ~間に」、または「~に隣り合う」と「~に直接隣り合う」なども同様に解釈されなければならない。
【0032】
単数の表現は、文脈上明白に異なるように意味しない限り、複数の表現を含むと理解されなければならず、「含む」または「有する」などの用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものが存在することを指定しようとするものであり、1つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものなどの存在または付加可能性を予め排除しないと理解されなければならない。
【0033】
各ステップにおいて識別符号(例えば、a、b、cなど)は、説明の便宜のために使用するものであって、識別符号は、各ステップの順序を説明するものでなく、各ステップは、文脈上明白に特定順序を記載しない限り、明記した順序と異なるように実施することができる。すなわち、各ステップは、明記した順序と同様に実施でき、実質的に同時に行われることもでき、反対の順序で行われることもできる。
【0034】
本発明は、コンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードとして実現されることができ、コンピュータ読み取り可能な記録媒体は、コンピューティングシステムによって読み取られることができるデータが格納される全ての種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例では、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ格納装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークで連結されたコンピューティングシステムに分散されて、分散方式にてコンピュータ読み取り可能なコードが格納され、実行されることができる。
【0035】
ここで使用するあらゆる用語は、特に定義しない限り、本発明の属する分野における通常の知識を有する者により一般的に理解されるのと同じ意味を有する。一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致すると解釈されなければならず、本出願において明白に定義しない限り、理想的であるか、過度に形式的な意味を有すると解釈されることができない。
【0036】
クラス活性化マッピング(CAM)は、WSOL問題を解決するために最も広く使用される方法であることができる。CAMは、イメージ水準クラスラベルを予測するために、畳み込みニューラルネットワークを学習できる。推論段階でCAMは、最後のコンボリューションフィーチャマップのチャネル次元に加重平均プーリング(weighted average pooling)を適用してアテンションマップ(attention map)を抽出できる。加重平均プーリングの場合、最後の完全連結レイヤ(fully connected layer)の加重値ベクトルが使用され得る。CNNが物体感知器(object detector)として動作し、加重値ベクトルが応答を集計するので、合理的なアクセス方式であることができる。したがって、結果アテンションマップ(result attention map)は、対象物体の位置を強調して表示することができる。
【0037】
しかし、分類器(classifier)は、固有タスクに必要な情報のみ学習するので、対象物体の範囲と必ず一致しないことがある。例えば、黄色で頭の黒い鳥と他の黒い鳥とを区別するためには、髪の色のみあれば十分であることができる。したがって、分類器は、物体または対象物体とともに頻繁に現れる背景物体の最も区別される部分を探知する傾向を見せることができる。このような限界を緩和するために、既存のほとんどのWSOL技術は、分類器が物体の全体範囲にわたって活性化されるように導く特別な学習プロセスを導入してきた。
【0038】
このような専門的な学習技法の他にも、近年、PsyNetとR-CAMとは、推論段階で加重平均に対する疑問を提起した。PsyNetは、完全連結レイヤの加重値ベクトルを使用しないCAAM(Class-Agnostic Activation Mapping)を導入し、その代わりに、チャネル次元で最後のコンボリューションフィーチャマップを平均化した。すなわち、各チャネルは、アテンションマップに同様に寄与することができる。結果的に、より良い探知性能が表れて、加重値ベクトルを使用しないことがより良いことができるということを見せている。しかし、CAAMは、他のデータ集合に対して一般化されないことができる。
【0039】
これに対し、R-CAMは、CAMに対する加重値ベクトルの負数値を0に作る負の加重値クランピング(negative weight clamping)を提案した。R-CAMは、アテンションマップが物体領域のみ強調させることができ、フィーチャマップでチャネルの下位集合を使用することがより良いということを見せている。しかし、負の加重値クランピングが常に最上の性能を提供できないこともある。重要なことは、情報チャネル(informative channels)の分布がバックボーン選択(backbone choices)とデータ集合(datasets)とによって変わることができるということである。
【0040】
図1は、本発明に係る弱教師あり学習物体探知装置の機能的構成を説明する図である。
【0041】
図1に示すように、弱教師あり学習物体探知装置100は、本発明に係るCAM基盤の弱教師あり学習物体探知方法を実行する複数の機能的構成を含んで実現されることができる。すなわち、弱教師あり学習物体探知装置100は、フィーチャマップ抽出部110、加重値ベクトル二値化部120、フィーチャマップ二値化部130、クラス活性化マップ生成部140、及び制御部(
図1に図示せず)を備えることができる。
【0042】
フィーチャマップ抽出部110は、イメージをCNN(Convolutional Neural Network)に適用する過程でCNNにある最後のコンボリューションレイヤのフィーチャマップを抽出できる。このとき、CNNは、予め構築されたCNNモデルに該当することができる。フィーチャマップ抽出部110は、データベースに格納されたイメージを読み出した後、CNNの入力として提供することができ、必要に応じてイメージに対する所定の前処理(pre-processing)動作を行うこともできる。例えば、フィーチャマップ抽出部110は、イメージを所定の大きさを有するように切り取ることができ、解像度を調整することができ、所定のフィルタを適用することができる。フィーチャマップ抽出部110は、CNNの最後のコンボリューションレイヤで生成されるフィーチャマップを抽出して、次の動作ステップのために伝達することができる。
【0043】
加重値ベクトル二値化部120は、フィーチャマップをプーリングレイヤとリニアレイヤとに順次適用する過程でリニアレイヤの加重値ベクトルを第1二値化することができる。すなわち、CNNを通過して生成されたフィーチャマップは、プーリングレイヤとリニアレイヤとを順次通過することにより、CNNの入力として使用されたイメージに対する分類動作を行う過程に使用されることができる。ここで、プーリングレイヤ(pooling layer)は、フィーチャマップを入力として受信して、フィーチャベクトルを出力として生成するネットワークレイヤに該当することができ、フィーチャマップに対するプーリング演算を行うことができる。一実施形態において、プーリングレイヤは、フィーチャマップに対して全域平均プーリング(global average pooling)を行ってフィーチャベクトルを生成するように実現されることができる。
【0044】
また、リニアレイヤ(linear layer)は、プーリングレイヤを介して生成されたフィーチャベクトルを入力として受信して、イメージ上で識別される物体のクラスラベル(label)を出力として生成するネットワークレイヤに該当することができる。リニアレイヤは、加重値ベクトルを調整する動作が繰り返し的に行われた結果であって、予め構築されることができる。一方、CNNとプーリングレイヤ及びリニアレイヤは、相互連結された状態で事前学習を介して構築されることができ、全体が1つの分類ネットワークを形成できる。加重値ベクトル二値化部120により二値化された加重値ベクトルは、以後のステップでフィーチャマップを選択する過程に活用されることができる。
【0045】
一実施形態において、加重値ベクトル二値化部120は、閾値を基準に加重値ベクトルに対する第1二値化を行うことができる。ここで、第1二値化(binarization)は、リニアレイヤの加重値ベクトルを二値化する動作に該当することができる。このために、加重値ベクトル二値化部120は、予め設定された所定の閾値を用いることができる。すなわち、加重値ベクトル二値化部120は、閾値と加重値ベクトルとの間の比較結果に応じて加重値ベクトルの値を0または1に変更することができる。
【0046】
一実施形態において、加重値ベクトル二値化部120は、閾値を最適化するために、複数の相対閾値を基にグリッド探索(grid search)を行うことができる。加重値ベクトル二値化部120は、加重値二値化のための最適な閾値を探すためにグリッド探索を行うことができる。ここで、グリッド探索は、探索する値をハイパーパラメータ集合と予め定義し、全ての組み合わせに対してモデル結果を算出して最適の組み合わせを探す方法に該当することができる。すなわち、加重値ベクトル二値化部120は、グリッド探索のために複数の相対閾値を定義することができる。例えば、複数の相対閾値は、0、0.2、0.4、0.6、0.8の集合と定義されることができ、加重値ベクトル二値化部120は、グリッド探索を介して最善の結果を導出する閾値を最適な閾値として決定することができる。
【0047】
一実施形態において、加重値ベクトル二値化部120は、次の[数1]を利用してグリッド探索を行うことができる。
【0048】
【数1】
ここで、
は、c番目のターゲットクラス(target class)の加重値に対する最適閾値であり、c∈C(Cは、対象クラスの個数)であり、w∈W(Wは、加重値ベクトル)であり、θ
wは、相対閾値である。すなわち、加重値ベクトル二値化部120は、上記の[数1]を利用して分類のためのターゲットクラス別に加重値二値化のための最適閾値を決定できる。
【0049】
フィーチャマップ二値化部130は、第1二値化された加重値ベクトルを基にフィーチャマップを第2二値化することができる。ここで、第2二値化は、最後のコンボリューションレイヤから抽出されたフィーチャマップを二値化する動作に該当することができる。このために、フィーチャマップ二値化部130は、予め設定された所定の閾値を用いることができる。すなわち、フィーチャマップ二値化部130は、閾値とフィーチャとの間の比較結果に応じてフィーチャマップの各ピクセル値を0または1に変更することができる。一方、第1二値化された加重値ベクトルは、最後のコンボリューションレイヤから抽出されたフィーチャマップのうち、第2二値化過程に使用されるフィーチャマップを選択する過程で使用されることができる。
【0050】
一実施形態において、フィーチャマップ二値化部130は、第1二値化された加重値ベクトルをフィーチャマップに適用して、当該フィーチャマップのチャネルのうち、少なくとも1つの一部チャネルを選択できる。第1二値化された加重値ベクトルは、ターゲットクラス及びチャネル別に二値化されたベクトル値を有することができ、フィーチャマップ二値化部130は、二値化されたベクトル値が1に該当するフィーチャマップを選別して、当該フィーチャマップに対して第2二値化動作を行うことができる。
【0051】
実施形態において、フィーチャマップ二値化部130は、フィーチャ二値化閾値(feature binarize threshold)を基準に少なくとも1つの一部チャネルに対する第2二値化を行うことができる。フィーチャマップ二値化部130は、選別された一部チャネルのフィーチャマップに対して二値化動作を行ってチャネル内の不均衡ピクセル値を除去することにより、以後動作ステップで各チャネルが均等に集計されるようにすることができる。すなわち、フィーチャ二値化閾値は、フィーチャマップに対する二値化動作を行うのに使用される閾値に該当することができ、これを介してフィーチャマップの各領域に対する活性化可否が導出され得る。
【0052】
一実施形態において、フィーチャマップ二値化部130は、次の
[数2]を利用して第2二値化を行うことができる。
【0053】
【数2】
ここで、F
k(x、y)は、y番目の行とx番目の列とに対してフィーチャマップF
kのk番目のチャネルの要素(element)であり、T
fは、フィーチャ二値化閾値である。すなわち、フィーチャマップ二値化部130は、特定チャネルのピクセル値がフィーチャ二値化閾値よりさらに大きい場合、当該ピクセル値を1に変更することができ、そうでない場合、当該ピクセル値を0に変更することができる。
【0054】
クラス活性化マップ生成部140は、第2二値化されたフィーチャマップを基に物体探知(object localization)のためのクラス活性化マップ(Class Activation Map)を生成できる。クラス活性化マップ生成部140は、二値化されたフィーチャマップを基にクラス活性化マップを生成して、チャネル内で活性化された領域をクラス活性化マップに均一に寄与させることができる。
【0055】
一実施形態において、クラス活性化マップ生成部140は、第2二値化された少なくとも1つの一部チャネルを集計してクラス活性化マップを生成できる。クラス活性化マップ生成部140は、二値化されたフィーチャマップに対してチャネルを集計してクラス活性化マップを生成できる。これにより、チャネル内の個別ピクセル値が最終結果に影響を与える既存の方式とは異なり、全体で活性化された領域がどれくらい頻繁に現れるかがクラス活性化マップの結果に影響を与えることができる。
【0056】
制御部(
図1に図示せず)は、弱教師あり学習物体探知装置100の全体的な動作を制御し、フィーチャマップ抽出部110、加重値ベクトル二値化部120、フィーチャマップ二値化部130、及びクラス活性化マップ生成部140の間の制御流れまたはデータ流れを管理できる。
【0057】
図2は、本発明に係るCAM基盤の弱教師あり学習物体探知方法の一実施形態を説明する順序図である。
【0058】
図2に示すように、弱教師あり学習物体探知装置100は、フィーチャマップ抽出部110を介してイメージをCNN(Convolutional Neural Network)に適用する過程でCNNにある最後のコンボリューションレイヤのフィーチャマップを抽出できる(ステップS210)。
【0059】
弱教師あり学習物体探知装置100は、加重値ベクトル二値化部120を介してフィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベル(label)を生成するリニアレイヤとに順次適用する過程でリニアレイヤの加重値ベクトルを第1二値化することができる(ステップS220)。
【0060】
弱教師あり学習物体探知装置100は、フィーチャマップ二値化部130を介して第1二値化された加重値ベクトルを基にフィーチャマップを第2二値化することができる(ステップS230)。また、弱教師あり学習物体探知装置100は、クラス活性化マップ生成部140を介して第2二値化されたフィーチャマップを基に物体探知(object localization)のためのクラス活性化マップ(Class Activation Map)を生成できる(ステップS240)。
【0061】
以下、
図3~
図16を参照して本発明に係るCAM基盤の弱教師あり学習物体探知方法をより詳細に説明する。
【0062】
本発明に係るCAM基盤の弱教師あり学習物体探知方法は、
図3に簡略に図示しており、基本CAMと比較してクラス活性化マップを生成するプロセスが相違することができる。本発明に係るCAM基盤の弱教師あり学習物体探知方法は、加重値二値化及びフィーチャマップ二値化があるフィーチャマップを選択して適用することにより、モデルにターゲット物体の全体範囲をキャプチャさせることができる。
【0063】
本発明に係るCAM基盤の弱教師あり学習物体探知方法は、加重値が柔軟な閾値より高いチャネルを選択し、選択したチャネルが同じ重要度を有すると処理することができる。これとは異なり、NWC(Negative Weight Clamping)は、正の加重値を変更せずに、固定された閾値(0)を使用することができ、CAAM(Class-Agnostic Activation Mapping)は、チャネル選択なしに全ての加重値を1に変更して使用することができる。特に、CAAMは、閾値が加重値ベクトルの最小値に設定された場合、加重値二値化の特殊な場合と見なされることができる。
【0064】
また、本発明に係るCAM基盤の弱教師あり学習物体探知方法は、柔軟な閾値を使用して各チャネル内で活性化を二値化できる。このような方法は、実際にアテンションマップ(attention map)が物体の全体範囲を探知するのに効果的であることができる。
【0065】
本発明に係るCAM基盤の弱教師あり学習物体探知方法は、様々なバックボーン選択及びデータ集合によって既存のWSOL方法を改善させることができる。本発明に係るCAM基盤の弱教師あり学習物体探知方法は、追加的な学習が必要でないという点で、より容易に使用されることができる。
【0066】
一方、CAMがアテンションマップを抽出するのに一番多く使用される方法であることができ、傾き(gradient)を使用してクラス活性化マップを生成する方法も紹介されている。例えば、Grad-CAMは、活性化マップを生成するとき、完全連結レイヤの加重値より傾き情報を使用できる。Grad-CAMは、全てのコンボリューションレイヤで活性化マップを抽出できるようにネットワークをより一般化することができる。また、Grad-CAMは、全域平均プーリングレイヤから活性化マップを自由にすることができる。しかし、Grad-CAMは、イメージ内で種々の物体を探知できないという短所がある。この問題を解決するために、Grad-CAM++は、ネットワークの進行過程でフィーチャマップの各ピクセルの重要性を測定するために、ピクセル別の傾きの加重平均を利用できる。
【0067】
また、DGLは、傾き基盤方法を提案するが、空間情報を維持するために、各チャネルの傾きを合算しないことがある。このような技術の他にも、CCAM、PsyNet、及びR-CAMも推論段階でフィーチャマップを抽出する方法に該当することができる。CCAMは、低い確率クラスのクラス活性化マップが背景領域に焦点を合わせることに対し、高い確率クラスのクラス活性化マップは、前景をよく捕捉するということを発見した。したがって、CCAMは、より良い活性化マップを取得するために、最も高い確率クラスラベルから最も低い確率クラスラベルまで他のクラス活性化マップを結合することができる。
【0068】
また、PsyNetは、チャネル次元で最後のコンボリューションフィーチャマップを直接平均化して活性化マップを抽出するCAAM(class-agnostic activation mapping)を提案した。CAAMは、加重値を得るためにイメージ水準ラベルが必要でないため、教師なし物体探知にも使用されることができる。R-CAMは、正の加重値のみ使用するか、負の加重値のみ使用するとき、フィーチャマップで活性化された領域の分布を観察した結果、2つの分布が極めて類似しているということを発見した。R-CAMは、このような分析に基づいて、より良いアテンションマップを得るために、負の加重値を0に固定することができる。
【0069】
図4において、クラス活性化マッピング(CAM)は、探知マップ(localization map)を生成する技術に該当することができる。CAMは、最後のコンボリューションレイヤ(convolutional layer)410のフィーチャマップに対して全域平均プーリング(GAP、Global Average Pooling)を行い、クラスラベル(class label)を生成するリニアレイヤ(linear layer)に対してプーリングを介して生成されたフィーチャベクトル(pooled feature vector)420を使用できる。その後、活性化マップ(activation map)450は、ターゲットクラス(target class)に対するリニアレイヤの加重値430を使用してフィーチャマップのチャネル(channel)440に対する加重値合計に計算されることができる。最近のCAAM(class-agnostic activation mapping)は、加重値なしに全てのチャネルを平均化し、NWC(negative weight clamping)は、負の加重値を0に設定することができる。
【0070】
図5において、(1)正の加重値のみあるCAM(Positive)、(2)負数であるが、絶対加重値を有したCAM(Negative)、(3)CUBデータセットでバニラ(Vanilla)CAMの性能を比較した結果を図示している。負の加重値チャネルを使用した結果(Negative)は、正の加重値と負の加重値とを共に使用するバニラ(Vanilla)の場合より高く表れることができる。負の加重値を有したチャネルが依然として前景領域(foreground region)をカバーしていることを表すことができる。ネガティブチャネルは、他のクラスを意味できるが、依然としてCUBで鳥(bird)と仮定することができ、これは、CUBに対するCAAMの効果と一致することができる。それに対し、CAAMは、様々なクラスを含むImageNetで困難を経験しており、NWCは、負の加重値を捨てることにおいて利点を有することができる。
【0071】
図6において、CAMとCAAMとが同時発生するクラス(例:靴及びかばん、ボール及び犬)で誤検出(false positive)を生成する例を図示している。
【0072】
本発明に係るCAM基盤の弱教師あり学習物体探知方法は、柔軟な閾値(flexible threshold)で加重値を二値化(binarize)できる。すなわち、本発明は、閾値より高い加重値を有したチャネルを選択し、均等に集計(aggregate)することができる。このために、0より大きい閾値が(探知において偽陽性(false positive)に該当する)分類において陽性を除去すると仮定することができる。加重値ベクトルの加重値が高いほど、クラスと関連したフィーチャマップである確率が高く、仮りに、役に立つフィーチャマップに分類されるならば、分類された全てのフィーチャマップが同じ重要度を有するべきであるという点で、全てのフィーチャマップに同じ値が付与され得る。
【0073】
本発明は、公式的に閾値τwに基づいて加重値ベクトルWを二値化でき、次の[数0]のように表現されることができる。
【0074】
【数0】
ここで、Cは、ターゲットクラスの個数であり、Kは、最後のコンボリューションレイヤでチャネルの個数である。最適の閾値τ
wを探すために、検証セット(validation set)でグリッド探索(grid search)が行われ得る。このとき、5個の相対閾値θ
w∈{0、0.2、0.4、0.6、0.8}に対して探索が行われ得るし、次の数式1のように表現されることができる。
【0075】
【数1】
ここで、
は、c番目の対象クラスの加重値に対する最適閾値であり、c∈C(Cは、対象クラスの個数)であり、w∈W(Wは、加重値ベクトル)であり、θ
wは、相対閾値である。一方、θ
w=0であるとき、本発明は、PsyNetのCAAMと同一であることができる。
【0076】
最適閾値τwを使用して当該加重値が閾値より高くて、探知に有用なフィーチャマップが選択され得る。本発明のうち、加重値ベクトル二値化とPsyNetとのCAAM性能は、CUBで同様に表れることができる。なぜなら、CAAMは、本発明の特殊な場合、すなわち、最適θw=0である場合に該当するためである。
【0077】
図7において、θ
wに対するハイパーパラメータスイープ(hyperparameter sweep)の結果を図示している。実際に、本発明(
図7のOursに該当する)は、最適のθ
wで最高の探知性能を達成できる。また、CUBでNWCの欠陥(deficiency)が表れ得る。すなわち、負の加重値を有したチャネルが有用なので、閾値が低いほど、より良い性能を表すことができる。この他にも、ImageNet及びOpenImagesで本発明がNWCよりさらによい性能を表すことができる。
【0078】
図8において、各列は、NWC、NWCと本発明(Ours)との間の中間(intermediate)、そして、本発明(Ours)のそれぞれの活性化マップを図示している。2番目の列は、本発明には含まれず、NWCには、含まれるチャネルの合計(sum)に該当することができる。すなわち、これは、正の加重値の小さい値に該当するフィーチャマップが依然として異なるクラスのインスタンス(instance)に焦点を合わせていることを意味できる。結果的に、本発明の場合、当該フィーチャマップをフィルタリングできることに対し、NWCの当該フィーチャマップのフィルタリングが不可能であることができる。また、
図7の場合、Vanilla CAM、NWC、CAAMと本発明とを相互比較したものであり、本発明がNWCとCAAMとの限界を成功的に克服したことを意味できる。
【0079】
図9及び
図10に示すように、類似した方式でチャネル内の不均衡ピクセル値はさらに他の問題であることができる。WSOLでモデルは、分類タスクのために学習されるので、他のクラスと区別するために物体の特異部分(discriminative part)を探すことができる。例えば、
図9において鳥の頭は、バニラ(Vanilla)CAMの場合、強く活性化されることができる。これは、鳥の頭部分が、モデルがより容易に分類するのに役に立つためである。
図10の1番目の行に図示したように、チャネル内で上記の状況が依然として発生するため、チャネルを均等に集計するために加重値を二値化する方法では、この問題を解決することができない。
【0080】
この問題を緩和するために、本発明は、各チャネルに対して活性化を二値化する新しい方法を提示できる。すなわち、フィーチャ二値化閾値(feature binarize threshold)τfを用いて領域が活性化されたか否かを決定できる。特に、次の[数2]を介して各チャネルが二値化され得る。
【0081】
【数2】
ここで、F
k(x、y)は、y番目の行とx番目の列とに対してフィーチャマップF
kのk番目のチャネルの要素(element)であり、T
fは、フィーチャ二値化閾値である。)
【0082】
チャネルが二値化された結果、
図10の2番目の行のように、活性化領域が同一に形成されることができる。二値化しなかった以前のものと比較すると、鳥の体と頭とは同じ値を有することができる。したがって、本発明は、チャネル内で強調表示された部分を強制にクラス活性化マップに均一に寄与させることができる。すなわち、以前の場合には、チャネル内のピクセル値が最終結果に影響を及ぼしたが、今は、活性化された領域が全体でどれくらい頻繁に表れるかが重要でありうる。
【0083】
図9において、本発明に係る方法は、フィーチャマップを二値化しない方法と比較して物体の範囲をキャプチャできる。これは、比較実験(ablation study)を介しての定量的結果でも検証されることができる。
【0084】
本発明に係る方法によって、既存の方法の本質的な問題を解決するために、チャネル間及びチャネル内で均衡を維持できる。すなわち、本発明の場合、特異部分のみ探知されることを防止するために、チャネルと活性化との平等な関係を保障できる。本発明に係る方法は、いかなる追加的な学習なしにも、与えられた情報を十分に活用するので、効果的であることができる。
【0085】
以下、次の実験を介して本発明に係る方法が効果的であるか検証する過程を説明する。
【0086】
データセット(Dataset):ImageNet、Caltech-UCSD Birds200-2011(CUB)、及びOpenImages30kで本発明に係る方法の効率性と拡張性とを評価できる。ImageNetは、1000個クラスに対する120万個の訓練イメージと10K検証イメージとで構成された非常に大きいデータセットである。CUBは、200個のクラスに対して5994個の訓練イメージと5784個の検証イメージとで構成されることができる。CUBデータセットは、細分化されたデータセットである。したがって、分類器(classifier)は、物体が何であるか判別するために、特異部分により焦点を合わせる傾向があるので、全体物体を捕捉することがより難しい場合がある。2つの場合、全てバウンディングボックス(bounding box)で注釈処理されている。OpenImagesには、29819個の訓練イメージと5000個の検証イメージとが含まれている。当該データセットは、インスタンス分割データセット(instance segmentation dataset)であり、ピクセル単位マスクにより注釈処理されているので、他のデータセットと若干異なることができる。
【0087】
実現細部事項(Implementation detail):VGG16、Inception V3、及びResNet50をバックボーンネットワークとして使用する。VGG16の場合、最上位プーリングレイヤと2つの完全連結レイヤを、完全連結レイヤで連結される全域平均プーリングレイヤに交替する。Inception V3は、所定の方法によって調整されることができる。所定の学習設定によってベースライン方法を学習する。広範囲な比較研究(ablation study)に基づいて各方法に対する最適のハイパーパラメータ値を探すことができる。
【0088】
評価指標(Evaluation Metric):ground-truthクラス探知正確度(GT-known Loc)、Top1探知正確度(Top1 Loc)、最大ボックス正確度(MaxboxAcc)、及びピクセル平均精密度(PxAP)のような種々の評価メトリックを使用する。GT-known Locは、予めground truthラベルを付与され、当該クラス活性化マップを直接取得することができる。分類結果と関係なく、ground truthバウンディングボックスと推定されたboxの積集合(IoU、Intersection over Union)がτより大きければ、正しいと判断する。Top1 Locは、正確に予測するために、分類(classification)と探知(localization)とが共に必要であるが、GT-know Locは、ただ探知予測のみ正確であれば十分である。当該実験においてτは、Top1 Locに対して50%に固定される。PxAPは、全ての閾値でピクセル精密度再現率曲線(pixel precision recall curve)の曲線の下の領域に該当する。PxAPが最も理想的なメトリックであるが、多くのデータセットは、ボックス注釈のみ提供する。PxAPをある程度代替するために、MaxboxAccは、τが30%、50%、70%であるとき、GT-known Locの結果を各々取得し、その平均を利用する。
【0089】
ここで、本発明に係る方法を種々のベースラインモデルに適用して適用可能性を検証できる。
図11は、CUB、ImageNet、OpenImagesに対する実験結果を図示する。
図11のCUB及びImageNetには、MaxboxAccメトリックを使用し、OpenImagesには、PxAPを使用する。
図12は、Top1 Loc及びGT LocによるCAMと方法を比較した結果を図示する。このように、本発明に係る方法は、ほとんど全てのベースラインモデルをより一層向上させることができる。特に、データ拡張基盤方法に本発明に係る方法を適用した場合、性能が大きく向上することができる。
【0090】
このような古典的なベースラインモデルの他にも、本発明に係る方法は、最近に提案された他の方法にも適用されることができる。
図12~
図14の場合、これに対する結果を図示する。本発明に係る方法は、新しい方法でも有効であることができ、その結果は、本発明に係る方法の拡張性を表すことができる。
【0091】
本発明に係る方法の有効性を立証するために、追加比較研究を行う。
【0092】
探知性能のための各モジュールの寄与(Contributions ofeach module for localization performance):本発明に係る方法の主な構成等の様々な組み合わせに対する比較研究を行う。
図15は、比較研究結果を図示している。実験は、CAMがあるResNet50に基づいて実行されることができる。CAAMと同じ効果を有する加重値二値化モジュール(weight binarization module)を使用してベースラインのMaxBoxAcc点数をCUBの63.62%から72.92%に上げることができる。しかし、ImageNetの正確度は、63.64%から61.66%に下がることがある。チャネル選択(channel selection)と加重値二値化(weight binarization)とを結合することは、CUBで性能を維持しながら65.09%を達成する点において、ImageNetで加重値二値化の短所を克服できる。最後に、フィーチャマップ二値化モジュール(feature map binarization module)は、当該データセットの全てに対して探知正確度(localization accuracy)をさらに向上させることができる。フィーチャマップ二値化モジュールは、ImageNetに対して66.75% MaxBoxAcc点数を得ることができるのに対し、CUBに対しては、73.43%であることができる。
【0093】
最適のθ
w
のためのハイパーパラメータ探索(Hyperparameter searching for optimal):最適のハイパーパラメータを探すのには追加費用が必要でありうる。テストセットを使用すれば、より良い性能を得ることができるが、比較に不公正な問題が生じ得る。また、テストセットを使用する場合、テストセットイメージの個数を考慮するとき、高い費用が発生しうる。したがって、検証とテスト分割との間のハイパーパラメータθ
wの転移可能性を調べる。
図16に示したように、集合(0、0.2、0.4、0.6、及び0.8)をθ
wの候補と設定し、検証及びテストセットで各値の性能を比較できる。Inception v3に対するCAMは、ベースラインモデルであり、ImageNet、CUB、及びOpenImagesデータセットが使用され得る。
図16において、検証及びテストセットに対する性能分散が極めて類似した傾向を見せることが確認できる。
【0094】
本発明に係るCAM基盤の弱教師あり学習物体探知方法は、より良い物体探知性能のためにフィーチャマップを生成する新しい方法に関するものであることができる。本発明は、分類加重値が物体探知に対する最適の値でないことを確認することで、加重値を二値化し、対象タスクに有用なチャネルを選択できる。また、本発明は、ターゲット物体の全体領域が同じ寄与度を有するようにするために、チャネルで活性化(activation)を二値化できる。本発明に係る方法は、簡単でありながらも、既存の方法等に一般化することができ、追加的な学習なしにも、CUB、ImageNet、及びOpenImagesに対して類似した性能を達成できる。
【0095】
上記では、本発明の望ましい実施形態を参照して説明したが、当該技術分野の熟練した当業者は、下記の特許請求の範囲に記載された本発明の思想及び領域から逸脱しない範囲内で本発明を様々に修正及び変更させ得ることが理解できるであろう。
【符号の説明】
【0096】
100 弱教師あり学習物体探知装置
110 フィーチャマップ抽出部
120 加重値ベクトル二値化部
130 フィーチャマップ二値化部
140 クラス活性化マップ生成部
410 最後のコンボリューションレイヤ
420 フィーチャベクトル
430 リニアレイヤの加重値
440 フィーチャマップのチャネル
450 活性化マップ
【要約】
【課題】弱教師あり学習の物体探知性能を向上させるCAM基盤の弱教師あり学習物体探知装置及び方法を提供する。
【解決手段】本発明は、CAM基盤の弱教師あり学習物体探知装置及び方法に関し、前記装置は、イメージをCNNに適用する過程でCNNにある最後のコンボリューションレイヤのフィーチャマップを抽出するフィーチャマップ抽出部と、フィーチャマップを、フィーチャベクトルを生成するプーリングレイヤとクラスラベルを生成するリニアレイヤとに順次適用する過程でリニアレイヤの加重値ベクトルを第1二値化する加重値ベクトル二値化部と、第1二値化された加重値ベクトルを基にフィーチャマップを第2二値化するフィーチャマップ二値化部と、第2二値化されたフィーチャマップを基に物体探知のためのクラス活性化マップを生成するクラス活性化マップ生成部と、を備える。
【選択図】
図2