特許7389787 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 延世大学校　産学協力団の特許一覧

特許7389787マルチ－レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-21

(45)【発行日】2023-11-30

(54)【発明の名称】マルチ－レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法

(51)【国際特許分類】

G06T 7/00 20170101AFI20231122BHJP

G06N 3/04 20230101ALI20231122BHJP

G06N 3/045 20230101ALI20231122BHJP

G06N 3/08 20230101ALI20231122BHJP

G06N 3/096 20230101ALI20231122BHJP

【ＦＩ】

G06T7/00 350C

G06N3/04

G06N3/045

G06N3/08

G06N3/096

【請求項の数】 6

(21)【出願番号】P 2021207600

(22)【出願日】2021-12-21

(65)【公開番号】P2023063200

(43)【公開日】2023-05-09

【審査請求日】2021-12-21

(31)【優先権主張番号】10-2021-0141635

(32)【優先日】2021-10-22

(33)【優先権主張国・地域又は機関】KR

(73)【特許権者】

【識別番号】514274672

【氏名又は名称】延世大学校産学協力団

【氏名又は名称原語表記】ＵＩＦ（ＵｎｉｖｅｒｓｉｔｙＩｎｄｕｓｔｒｙＦｏｕｎｄａｔｉｏｎ），ＹｏｎｓｅｉＵｎｉｖｅｒｓｉｔｙ

【住所又は居所原語表記】５０，ＹＯＮＳＥＩ－ＲＯ，ＳＥＯＤＡＥＭＵＮ－ＧＵ，ＳＥＯＵＬ０３７２２，ＲＥＰＵＢＬＩＣＯＦＫＯＲＥＡ

(74)【代理人】

【識別番号】110000051

【氏名又は名称】弁理士法人共生国際特許事務所

(72)【発明者】

【氏名】ビュン，ヘラン

(72)【発明者】

【氏名】ド，ミレ

(72)【発明者】

【氏名】ジョン，ソクキュ

(72)【発明者】

【氏名】ホン，キボム

【審査官】笠田和宏

(56)【参考文献】

【文献】特表２０２１－５１９９８４（ＪＰ，Ａ）

【文献】中国特許出願公開第１１１５５３３９７（ＣＮ，Ａ）

【文献】Dang-Khoa Nguyen，外２名，Domain-Adaptive Object Detection via Uncertainty-Aware Distribution Alignment，MM '20: Proceedings of the 28th ACM International Conference on Multimedia，2020年10月12日，pp. 2499-2507

【文献】Minyue Jiang，外２名，Self-attention Learning for Person Re-identification，[online]，2018年，[2023年5月18日検索]，<URL：http://bmvc2018.org/contents/papers/0613.pdf>

【文献】Ganlong Zhao，外３名，Collaborative Training between Region Proposal Localization and Classification for Domain Adaptive Object Detection，[online]，2020年09月18日，[2022年11月15日検索]，インターネット＜URL：https://arxiv.org/pdf/2009.08119.pdf＞

【文献】Jifeng Dai，外６名，Deformable Convolutional Networks，2017 IEEE International Conference on Computer Vision (ICCV)，2017年10月22日，pp. 764-773

【文献】Zifeng Wang，外５名，Finding Influential Instances for Distantly Supervised Relation Extraction，[online]，2020年09月17日，[2022年11月15日検索]，インターネット＜URL：https://arxiv.org/pdf/2009.09841v1.pdf＞

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００

Ｇ０６Ｎ３／０４

Ｇ０６Ｎ３／０４５

Ｇ０６Ｎ３／０８

Ｇ０６Ｎ３／０９６

(57)【特許請求の範囲】

【請求項1】

アンラベルターゲットデータ（ｕｎｌａｂｅｌｅｄｔａｒｇｅｔｄａｔａ）を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出するイメージレベルフィーチャ部と、
前記イメージレベルフィーチャをＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）に提供してＲＰＮ－レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定するＲＰＮレベルフィーチャ部と、
前記領域候補に対する動的インスタンスサンプリング（ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）を行ってＲｏＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）プーリングフィーチャを抽出するインスタンスレベルフィーチャ部と、
を備え、
前記イメージレベルフィーチャ部は、
前記複数のコンボリューションレイヤの各々から前記アンラベルターゲットデータの多重スケールフィーチャを収集し、前記多重スケールフィーチャを併合して転移可能アテンションマップを生成し、
前記転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介して前記イメージレベルフィーチャを生成し、
前記インスタンスレベルフィーチャ部は、
前景確率及びドメインの区別のし難さを表すイメージ硬度点数間の不一致を基に前記領域候補の個数を調節することを特徴とするマルチ－レベル転移領域（Ｍｕｌｔｉ－ｌｅｖｅｌＴｒａｎｓｆｅｒａｂｌｅＲｅｇｉｏｎ）に基づくドメイン適応型オブジェクト検出装置。

【請求項2】

前記ＲＰＮレベルフィーチャ部は、
前記ＲＰＮ－レベルドメイン適応の過程で前記ＲＰＮから出力された前景フィーチャ及びＧＲＬ（ＧｒａｄｉｅｎｔＲｅｖｅｒｓａｌＬａｙｅｒ）に基づくドメイン分類器（Ｄｂｏｘ）を経由したドメイン分類フィーチャを併合してＲＰＮ－レベルドメインフィーチャを生成することを特徴とする請求項１に記載のマルチ－レベル転移領域に基づくドメイン適応型オブジェクト検出装置。

【請求項3】

前記ＲＰＮレベルフィーチャ部は、
前記転移領域フィルタリングの過程で前記ＲＰＮ－レベルドメインフィーチャを受信し、背景領域を取り除いて前記領域候補を決定することを特徴とする請求項２に記載のマルチ－レベル転移領域に基づくドメイン適応型オブジェクト検出装置。

【請求項4】

前記ＲｏＩプーリングフィーチャをＤＣＮ（ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）に提供して、前記アンラベルターゲットデータにあるオブジェクトを検出するオブジェクト検出部をさらに備えることを特徴とする請求項１に記載のマルチ－レベル転移領域に基づくドメイン適応型オブジェクト検出装置。

【請求項5】

アンラベルターゲットデータ（ｕｎｌａｂｅｌｅｄｔａｒｇｅｔｄａｔａ）を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出するステップと、
前記イメージレベルフィーチャをＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）に提供してＲＰＮ－レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定するステップと、
前記領域候補に対する動的インスタンスサンプリング（ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）を行ってＲｏＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）プーリングフィーチャを抽出するステップと、
を含み、
前記イメージレベルフィーチャを抽出するステップは、
前記複数のコンボリューションレイヤの各々から前記アンラベルターゲットデータの多重スケールフィーチャを収集し、前記多重スケールフィーチャを併合して転移可能アテンションマップを生成するステップと、
前記転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介して前記イメージレベルフィーチャを生成するステップを含み、
前記ＲｏＩプーリングフィーチャを抽出するステップは、
前景確率及びドメインの区別のし難さを表すイメージ硬度点数間の不一致を基に前記領域候補の個数を調節するステップを含むマルチ－レベル転移領域（Ｍｕｌｔｉ－ｌｅｖｅｌＴｒａｎｓｆｅｒａｂｌｅＲｅｇｉｏｎ）に基づくドメイン適応型オブジェクト検出方法。

【請求項6】

前記ＲｏＩプーリングフィーチャをＤＣＮ（ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）に提供して、前記アンラベルターゲットデータにあるオブジェクトを検出するステップをさらに含むことを特徴とする請求項５に記載のマルチ－レベル転移領域に基づくドメイン適応型オブジェクト検出方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ドメイン適応学習技術に関し、より詳細には、ドメイン適応オブジェクト検出器の構造の全てを使用して、各段階別情報に適したドメイン適応を適用できるオブジェクト検出器の相互関係及び転移可能地域を考慮したオブジェクト検出器ドメイン適応学習技術に関する。

【背景技術】

【0002】

近年、ディープラーニングの発展につれて、多くのＣＮＮ基盤のオブジェクト検出器が多量の注釈付き学習データセットを利用して目覚ましい性能向上を導き出した。また、既存のオブジェクト検出器は、このような大規模学習データと実験データとが理想的に同じ環境を有しているということを仮定して実験を進めた。しかし、現実世界のオブジェクト検出作業は、学習データと実際環境とが異なる場合が多い。すなわち、このようなドメイン差のため、大規模データで学習されたオブジェクト検出器の性能低下が発生する恐れがある。

【0003】

自律走行分野を例に挙げると、自律走行モデルを学習するために、シミュレータを利用してデータを収集する場合、様々なシナリオに対して量的なデータを収集できるという長所がある。しかしながら、実走行環境に適用の際、ドメイン差によるモデルの精度が劣る可能性があるという問題がある。また、全世界の自動車ユーザを介してのデータ収集及び学習は、費用的、現実的限界がある。したがって、このような問題を解決するために、様々なドメインに強硬なオブジェクト検出器研究の必要性が台頭している。

【0004】

既存の研究等は、オブジェクト検出器のドメイン適応のために、特徴抽出ステップ、地域提案抽出ステップ、及び地域提案範疇分類ステップの３つのステップに区分しており、特に、特徴抽出ステップで転移可能地域に集中してドメイン適応を行っている。

【0005】

すなわち、既存の方式は、３つのステップのうちの一部情報のみを活用しており、各ステップが互いに密接に相互連関しているオブジェクト検出器の本質を見過ごしている。したがって、既存のように、各ステップの一部のみを選択し、相互関係を見過ごしたドメイン適応方法は、否定的なドメイン転移（ｎｅｇａｔｉｖｅｔｒａｎｓｆｅｒ）を引き起こすことがある。

【先行技術文献】

【特許文献】

【0006】

【文献】韓国公開特許第１０－２０２０－００３８８４６号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、ドメイン適応オブジェクト検出器の構造の全てを使用して、各段階別情報に適したドメイン適応を適用するオブジェクト検出器の相互関係及び転移可能地域を考慮したオブジェクト検出器ドメイン適応学習技術を提供することにある。

【課題を解決するための手段】

【0008】

上記目的を達成するためになされた本発明の一態様によるマルチ－レベル転移領域（Ｍｕｌｔｉ－ｌｅｖｅｌＴｒａｎｓｆｅｒａｂｌｅＲｅｇｉｏｎ）に基づくドメイン適応型オブジェクト検出装置は、アンラベルターゲットデータ（ｕｎｌａｂｅｌｅｄｔａｒｇｅｔｄａｔａ）を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出するイメージレベルフィーチャ部と、前記イメージレベルフィーチャをＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）に提供してＲＰＮ－レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定するＲＰＮレベルフィーチャ部と、前記領域候補に対する動的インスタンスサンプリング（ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）を行ってＲｏＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）プーリングフィーチャを抽出するインスタンスレベルフィーチャ部とを備えることを特徴とする。

【0009】

前記イメージレベルフィーチャ部は、前記複数のコンボリューションレイヤの各々から前記アンラベルターゲットデータの多重スケールフィーチャを収集し、前記多重スケールフィーチャを併合して転移可能アテンションマップを生成し得る。

【0010】

前記イメージレベルフィーチャ部は、前記転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介して前記イメージレベルフィーチャを生成し得る。

【0011】

前記ＲＰＮレベルフィーチャ部は、前記ＲＰＮ－レベルドメイン適応の過程で前記ＲＰＮから出力された前景フィーチャ及びＧＲＬ（ＧｒａｄｉｅｎｔＲｅｖｅｒｓａｌＬａｙｅｒ）に基づくドメイン分類器（Ｄｂｏｘ）を経由したドメイン分類フィーチャを併合してＲＰＮ－レベルドメインフィーチャを生成し得る。

【0012】

前記ＲＰＮレベルフィーチャ部は、前記転移領域フィルタリングの過程で前記ＲＰＮ－レベルドメインフィーチャを受信し、背景領域を取り除いて前記領域候補を決定し得る。

【0013】

前記インスタンスレベルフィーチャ部は、前景確率及びイメージ硬度点数間の不一致を基に前記領域候補の個数を調節し得る。

【0014】

前記装置は、前記ＲｏＩプーリングフィーチャをＤＣＮ（ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）に提供して、前記アンラベルターゲットデータにあるオブジェクトを検出するオブジェクト検出部をさらに備え得る。

【0015】

上記目的を達成するためになされた本発明の一態様によるマルチ－レベル転移領域（Ｍｕｌｔｉ－ｌｅｖｅｌＴｒａｎｓｆｅｒａｂｌｅＲｅｇｉｏｎ）に基づくドメイン適応型オブジェクト検出方法は、アンラベルターゲットデータ（ｕｎｌａｂｅｌｅｄｔａｒｇｅｔｄａｔａ）を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出するステップと、前記イメージレベルフィーチャをＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）に提供してＲＰＮ－レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定するステップと、前記領域候補に対する動的インスタンスサンプリング（ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）を行ってＲｏＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）プーリングフィーチャを抽出するステップとを含むことを特徴とする。

【0016】

前記イメージレベルフィーチャを抽出するステップは、前記複数のコンボリューションレイヤの各々から前記アンラベルターゲットデータの多重スケールフィーチャを収集し、前記多重スケールフィーチャを併合して転移可能アテンションマップを生成するステップを含み得る。

【0017】

前記イメージレベルフィーチャを抽出するステップは、前記転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介して前記イメージレベルフィーチャを生成するステップを含み得る。

【0018】

前記ＲｏＩプーリングフィーチャを抽出するステップは、前景確率及びイメージ硬度点数間の不一致を基に前記領域候補の個数を調節するステップを含み得る。

【0019】

前記方法は、前記ＲｏＩプーリングフィーチャをＤＣＮ（ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）に提供して、前記アンラベルターゲットデータにあるオブジェクトを検出するステップをさらに含み得る。

【発明の効果】

【0020】

本発明は、次の効果を奏する。ただし、特定の実施形態が次の効果を全て含むとか、次の効果のみを含むという意味ではなく、本発明の技術範囲は、これによって限定されない。

【0021】

本発明によるマルチ－レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法は、様々な環境でもオブジェクトを検出できるオブジェクト検出器を製作できるので、データ収集の時間的、経済的費用の減少により、付加的な業務を減少させることができる。

【0022】

本発明によるマルチ－レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法は、画像データの収集だけでもオブジェクト検出が可能であるので、昼／夜間、気象状況、地形、国家等、様々な環境にこだわらないという点においてオブジェクト検出器を適用したプラットホームの供給を加速化することができる。

【図面の簡単な説明】

【0023】

【図1】本発明によるドメイン適応型オブジェクト検出装置の機能的構成を説明する図である。

【図2】本発明によるドメイン適応型オブジェクト検出方法を説明する順序図である。

【図3】本発明によるドメイン適応型オブジェクト検出方法のフレームワークを説明する図である。

【図4】本発明による転移領域フィルタリング過程を説明する図である。

【図5】本発明に関する実験結果を説明する図である。

【図6】本発明に関する実験結果を説明する図である。

【図7】本発明に関する実験結果を説明する図である。

【図8】本発明に関する実験結果を説明する図である。

【図9】本発明に関する実験結果を説明する図である。

【図10】本発明に関する実験結果を説明する図である。

【図11】本発明によるドメイン適応型オブジェクト検出装置のシステム構成を説明する図である。

【図12】本発明によるドメイン適応型オブジェクト検出システムを説明する図である。

【発明を実施するための形態】

【0024】

本発明は、下記の研究課題をもって支援を受けて出願された。
〔この発明を支援した国家研究開発事業〕
［課題固有番号］１７１１１２６０８２
［課題番号］２０２０－０－０１３６１－００２
［省庁名］科学技術情報通信部
［課題管理（専門）機関名］情報通信企画評価院
［研究事業名］情報通信放送革新人材養成（Ｒ＆Ｄ）
［研究課題名］人工知能大学院支援（延世大学校）
［寄与率］１／２
［課題実行機関名］延世大学校産学協力団
［研究期間］２０２１．０１．０１～２０２１．１２．３１
〔この発明を支援した国家研究開発事業〕
［課題固有番号］１７１１１３４１７７
［課題番号］２０１９Ｒ１Ａ２Ｃ２００３７６０
［省庁名］科学技術情報通信部
［課題管理（専門）機関名］韓国研究財団
［研究事業名］個人基礎研究（科技情通部）（Ｒ＆Ｄ）
［研究課題名］特性情報自動生成を介しての初めて見る複合カテゴリー
のイメージとビデオ生成及び認識のためのゼロショット
学習技術研究
［寄与率］１／２
［課題実行機関名］延世大学校
［研究期間］２０２１．０３．０１～２０２２．０２．２８
本発明に関する説明は、構造的ないし機能的説明のための実施形態に過ぎないので、本発明は、本明細書で説明された実施形態によって限定されない。すなわち、実施形態は、様々な変更が可能であり、種々の形態を有し得るので、本発明の技術範囲は、技術的思想を実現できる均等物等を含む。また、本発明において提示された目的または効果は、特定の実施形態がこれを全部含むとか、そのような効果だけを含むという意味ではないので、本発明の技術範囲は、これによって限定されない。

【0025】

一方、本明細書に記載される用語の意味は、次のように理解される。

【0026】

「第１」、「第２」などの用語は、１つの構成要素を他の構成要素から区別するためのものであって、これらの用語によって技術範囲は限定されない。例えば、第１構成要素は第２構成要素と命名され得る、同様に、第２構成要素も第１構成要素と命名され得る。

【0027】

ある構成要素が他の構成要素に「連結されて」いると記載された場合には、他の構成要素に直接連結され得るが、中間に他の構成要素が存在することもできる。これに対し、ある構成要素が他の構成要素に「直接連結されて」いると記載された場合には、中間に他の構成要素は存在しない。一方、構成要素等の間の関係を説明する他の表現、すなわち、「～間に」と「すぐ～間に」、または「～に隣り合う」と「～に直接隣り合う」なども同様に解釈される。

【0028】

単数の表現は、文脈上明白に異なるように定義しない限り、複数の表現を含む。「含む」または「有する」などの用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものが存在することを指定するものであり、１つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものなどの存在または付加の可能性を予め排除しない。

【0029】

各ステップにおいて、識別符号（例えば、ａ、ｂ、ｃなど）は、説明の便宜のために使用されるものであって、識別符号は、各ステップの順序を説明するものではなく、各ステップは、文脈上明白に特定の順序を記載しない限り、明記された順序とは異なるように行われる。すなわち、各ステップは、明記された順序と同様に行われるか、実質的に同時に行われるか、反対の順序通りに行われ得る。

【0030】

本発明は、コンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードとして実現され、コンピュータ読み取り可能な記録媒体は、コンピュータシステムによって読み取られるデータが格納されるあらゆる種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク（登録商標）、光データ格納装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータ読み取り可能なコードが格納されて、実行され得る。

【0031】

本明細書で使用されるあらゆる用語は、特に定義されない限り、本発明の属する技術分野における通常の知識を有する者により一般的に理解されるものと同じ意味を有する。一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致すると解釈され、本明細書において明白に定義しない限り、理想的であるか、過度に形式的な意味を有するとは解釈されない。

【0032】

教師なし学習基盤のドメイン適応オブジェクト検出器は、注釈が不十分であるか、存在しない目標ドメインで効果的にオブジェクトを検出するモデルを学習するために、注釈が十分であり、目標ドメインと関連のあるソースドメインを利用する方法論に該当する。既存の研究は、主に、地域提案ネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を利用した２つのステップ基盤のオブジェクト検出モデルを利用する。特に、当該検出器を、１）特徴（ｆｅａｔｕｒｅ）抽出ステップ（ｉｍａｇｅ－ｌｅｖｅｌ）、２）地域提案抽出ステップ（ＲＰＮ－ｌｅｖｅｌ）、３）地域提案範疇分類ステップ（ｉｎｓｔａｎｃｅ－ｌｅｖｅｌ）に分け、３つのステップのうちの一部を選択してステップ特性に合う敵対的学習を介してソースドメインとターゲットドメインとの間の特徴差を最小化する。

【0033】

また、既存の研究は、敵対的学習法（ａｄｖｅｒｓａｒｉａｌｔｒａｉｎｉｎｇ）を利用して分類器の損失関数を最小化しつつ、同時にドメイン分類器の損失関数を最大化するように学習する。これを通じてドメイン間の特徴差が最小化され得る。最近の研究は、オブジェクト検出器の特性を考慮して、特徴抽出ステップで関心のあるオブジェクトが含まれ得る領域に重点をおいて、２つのドメインの敵対的学習を進行する方法を活用する。すなわち、転移可能地域に集中した敵対的学習方法が活用され得る。

【0034】

図１は、本発明によるドメイン適応型オブジェクト検出装置の機能的構成を説明する図である。

【0035】

図１に示すように、ドメイン適応型オブジェクト検出装置１００は、イメージレベルフィーチャ部１１０、ＲＰＮレベルフィーチャ部１３０、インスタンスレベルフィーチャ部１５０、オブジェクト検出部１７０、及び制御部１９０を備える。

【0036】

イメージレベルフィーチャ部１１０は、アンラベルターゲットデータ（ｕｎｌａｂｅｌｅｄｔａｒｇｅｔｄａｔａ）を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出する。イメージレベルフィーチャ部１１０は、オブジェクト検出器の特徴抽出ステップにおける動作を行う。すなわち、イメージレベルフィーチャ部１１０は、特徴抽出ステップの全ての特徴を融合した情報と、これを受信したドメイン分類器のエントロピー情報（ｕｎｃｅｒｔａｉｎｔｙ）とを最後のグローバル特徴に乗ずる動作を行う。結果的に、イメージレベルフィーチャ部１１０は、以後のステップで活用されるグローバル特徴（ｇｌｏｂａｌｆｅａｔｕｒｅ）に対してドメイン不変の特徴を強調すると同時に、各ドメインの特化された特徴（例えば、背景情報）は弱化させて、より剛健な適応型オブジェクト検出器を学習させる。

【0037】

一実施形態において、イメージレベルフィーチャ部１１０は、複数のコンボリューションレイヤの各々からアンラベルターゲットデータの多重スケールフィーチャを収集し、多重スケールフィーチャを併合して転移可能アテンションマップを生成する。理論的に、特徴抽出ステップ内の各レイヤを介して全て転移可能領域を取得できる。低レベルの特徴（または、フィーチャ）で転移可能領域を導出すれば、輪郭線のような構造的に詳しい情報を取得できるが、同時に背景領域も転移可能なものと見なされて、探知性能は低下する。それとは逆に、高レベルの特徴で転移可能領域を導出すれば、オブジェクト検出のための脈絡情報を取得できる。すなわち、この場合、低レベルの転移可能領域とは異なり、背景情報がオブジェクト検出に活用されないため、情報が弱化され得る。しかし、受信フィールド（ｒｅｃｅｐｔｉｖｅｆｉｅｌｄ）が大きいので、転移可能性を評価しながら小さいオブジェクトの情報を容易に抜かすことができる。

【0038】

したがって、イメージレベルフィーチャ部１１０は、多重スケールの特徴を融合した後、転移可能領域を予測したマップ（すなわち、転移可能アテンションマップ）をグローバル特徴に乗ずる動作によって既存のレイヤの特徴情報の短所を最小化し、全ての利点を活用する。一実施形態において、イメージレベルフィーチャ部１１０は、転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介してイメージレベルフィーチャを生成する。

【0039】

ＲＰＮレベルフィーチャ部１３０は、イメージレベルフィーチャをＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）に提供してＲＰＮ－レベルドメイン適応及び転移領域フィルタリング（転移可能領域フィルタリングともいう）を行うことにより領域候補を決定する。すなわち、ＲＰＮレベルフィーチャ部１３０は、転移可能領域を活用した地域抽出ステップにおける動作を行う。より具体的に、ＲＰＮレベルフィーチャ部１３０は、一般的な地域抽出ステップで生成された地域サンプル（ｒｅｇｉｏｎｐｒｏｐｏｓａｌ）の中でオブジェクト性（ｏｂｊｅｃｔｎｅｓｓ）と転移可能性（ｔｒａｎｓｆｅｒａｂｉｌｉｔｙ）とを全て考慮して前景地域を抽出する。このために、ＲＰＮレベルフィーチャ部１３０は、ＲＰＮ－レベルドメイン適応過程と転移領域フィルタリング過程とを行う。

【0040】

一実施形態において、ＲＰＮレベルフィーチャ部１３０は、ＲＰＮ－レベルドメイン適応過程でＲＰＮから出力された前景フィーチャ及びＧＲＬ（ＧｒａｄｉｅｎｔＲｅｖｅｒｓａｌＬａｙｅｒ）に基づくドメイン分類器（Ｄｂｏｘ）を経由したドメイン分類フィーチャを併合してＲＰＮ－レベルドメインフィーチャを生成する。ＲＰＮレベルフィーチャ部１３０は、ＲＰＮ－レベルドメイン適応過程を介して地域抽出ステップで存在するドメイン差を減らす。

【0041】

一実施形態において、ＲＰＮレベルフィーチャ部１３０は、転移領域フィルタリング過程でＲＰＮ－レベルドメインフィーチャを受信し、背景領域を取り除いて領域候補を決定する。ＲＰＮレベルフィーチャ部１３０は、転移領域フィルタリング過程を介してドメイン不変の特徴を入れた前景地域サンプル（ｆｏｒｅｇｒｏｕｎｄｒｅｇｉｏｎｐｒｏｐｏｓａｌ）を抽出する。このために、ＲＰＮレベルフィーチャ部１３０は、転移可能性を考慮してオブジェクト点数を再加重（ｒｅ－ｗｅｉｇｈｔ）する。このとき、再加重方法は、ＲＰＮ－レベルドメイン適応過程で生成された地域別エントロピー（ｅｎｔｒｏｐｙ）値を転移可能性点数として使用してオブジェクト点数（ｏｂｊｅｃｔｎｅｓｓｓｃｏｒｅ）との乗算演算を介して進められる。再加重されたオブジェクト点数は、既存の地域抽出ステップのＮＭＳ（ｎｏｎ－ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ）ステップに活用されて、領域候補として最終核心地域インスタンス（ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔ）が生成され得る。結果的に、ＲＰＮレベルフィーチャ部１３０は、転移可能性を考慮してドメイン不変の領域候補を抽出する。

【0042】

インスタンスレベルフィーチャ部１５０は、領域候補に対する動的インスタンスサンプリング（ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）を行ってＲｏＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）プーリングフィーチャを抽出する。既存の地域提案範疇分類ステップ（ｉｎｓｔａｎｃｅ－ｌｅｖｅｌ）は、地域提案ステップで抽出された複数の地域提案（または、領域候補）でＲｏＩプーリング（ＲｏＩｐｏｏｌｉｎｇ）を介して核心地域提案を抽出する。まず、ソースドメインの場合、抽出ステップで正解ボックスラベルを用いて正解ボックスに近い核心地域提案を抽出する。それとは逆に、ターゲットドメインの場合、正解ボックスがないので、複数の地域提案の中でオブジェクト点数（ｏｂｊｅｃｔｎｅｓｓｓｃｏｒｅ）が高い上位Ｎ個の地域提案を抽出する。しかし、ターゲットドメインの場合、初期学習ステップで不正確な地域提案を生成するため、このような設定は、全体的なモデル学習ステップに否定的な影響を及ぼす。したがって、インスタンスレベルフィーチャ部１５０は、２個の要素の値をＮ個乗じた後、２つの値の平均を利用してターゲットドメインの地域提案の個数を動的に決定する。

【0043】

１番目の要素として、上位Ｎ個のソースドメインの地域サンプルとターゲットドメインの地域サンプルとのオブジェクト点数のカルバックライブラー発散（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ）を利用する。学習が進行して、ドメインの差が減ると、２つのドメインの上位Ｎ個の地域提案のオブジェクト点数の様態が類似するようになるので、当該要素値をＮに乗じた値は、学習が進行するほど、増加する。

【0044】

２番目の要素として、オブジェクト検出器の特徴抽出ステップ（ｉｍａｇｅ－ｌｅｖｅｌ）と地域提案範疇分類ステップ（ｉｎｓｔａｎｃｅ－ｌｅｖｅｌ）との関係が考慮され得る。直観的に、ターゲットドメインの特徴がソースドメインに属する確率が高い場合、すなわち、ソースドメインと特徴が類似した場合、地域提案範疇分類の結果の性能が高く出る。この点を考慮して、多重スケールフィーチャを用いた転移可能領域を生成するために使用したドメイン分類器のドメイン確率値を２番目の要素として使用する。これも学習が進行して、ドメインの差が減ると、２つのドメインの特徴が類似するようになるので、当該要素値をＮに乗じた値は、学習が進行するほど、増加する。最終的に、当該２つの値の平均を利用して地域提案の個数を動的に設定する。

【0045】

一実施形態において、インスタンスレベルフィーチャ部１５０は、前景確率及びイメージ硬度点数間の不一致を基に領域候補の個数を調節する。インスタンスレベルフィーチャ部１５０は、動的インスタンスサンプリング（ＤＩＳ）を介して初期学習ステップで不正確な結果のために発生する否定的な影響を除去する。

【0046】

オブジェクト検出部１７０は、ＲｏＩプーリングフィーチャをＤＣＮ（ＤｅｆｏｒｍａｂｌｅＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ）に提供してアンラベルターゲットデータ（ｕｎｌａｂｅｌｅｄｔａｒｇｅｔｄａｔａ）にあるオブジェクトを検出する。オブジェクト検出部１７０は、インスタンスレベルフィーチャ部１５０を介して抽出されたＲｏＩプーリングフィーチャを予め構築されたＤＣＮに入力して、ラベルが指定されなかったターゲットイメージからオブジェクト情報を抽出する。イメージレベルフィーチャ部１１０、ＲＰＮレベルフィーチャ部１３０、及びインスタンスレベルフィーチャ部１５０は、オブジェクト検出のための各ステップ別情報に適したドメイン適応が適用され得るし、これにより、インスタンスレベルフィーチャ部１５０を介して抽出される最終的なＲｏＩプーリングフィーチャは、より正確度の高いオブジェクト検出のための特徴情報を含む。

【0047】

制御部１９０は、ドメイン適応型オブジェクト検出装置１００の全体的な動作を制御し、イメージレベルフィーチャ部１１０、ＲＰＮレベルフィーチャ部１３０、インスタンスレベルフィーチャ部１５０、及びオブジェクト検出部１７０の間の制御の流れまたはデータの流れを管理する。

【0048】

図２は、本発明によるドメイン適応型オブジェクト検出方法を説明する順序図である。

【0049】

図２に示すように、ドメイン適応型オブジェクト検出装置１００は、イメージレベルフィーチャ部１１０を介してアンラベルターゲットデータ（ｕｎｌａｂｅｌｅｄｔａｒｇｅｔｄａｔａ）を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出する（ステップＳ２１０）。

【0050】

ドメイン適応型オブジェクト検出装置１００は、ＲＰＮレベルフィーチャ部１３０を介してイメージレベルフィーチャをＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）に提供して、ＲＰＮ－レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定する（ステップＳ２３０）。

【0051】

ドメイン適応型オブジェクト検出装置１００は、インスタンスレベルフィーチャ部１５０を介して領域候補に対する動的インスタンスサンプリング（ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）を行ってＲｏＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ）プーリングフィーチャを抽出する（ステップＳ２５０）。

【0052】

以下、図３～図９を参照して本発明によるドメイン適応型オブジェクト検出方法についてより詳細に説明する。

【0053】

教師なしドメイン適応（ＵＤＡ、ＵｎｓｕｐｅｒｖｉｓｅｄＤｏｍａｉｎＡｄａｐｔａｔｉｏｎ）は、ラベルが指定されたソースドメイン（ｌａｂｅｌｅｄｓｏｕｒｃｅｄｏｍａｉｎ）で訓練されたモデルの知識を、ラベルが指定されなかったターゲットドメイン（ｕｎｌａｂｅｌｅｄｔａｒｇｅｔｄｏｍａｉｎ）に転移する一種の転移学習（ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）と見なされる。ここで、２つのドメインは、同じ作業（ｔａｓｋ）を共有する。ＵＤＡにおいてほとんどの接近方式は、ソースドメインとターゲットドメインとの間の周辺特徴分布（ｍａｒｇｉｎａｌｆｅａｔｕｒｅｄｉｓｔｒｉｂｕｔｉｏｎ）、生成的接近（ｇｅｎｅｒａｔｉｖｅａｐｐｒｏａｃｈｅｓ）、及び疑似ラベル（ｐｓｅｕｄｏ－ｌａｂｅｌ）を使用した自己学習（ｓｅｌｆ－ｔｒａｉｎｉｎｇ）などを含む。特に、ドメイン敵対的学習方法（ｄｏｍａｉｎ－ａｄｖｅｒｓａｒｉａｌｌｅａｒｎｉｎｇｍｅｔｈｏｄ）は、勾配反転レイヤ（ＧＲＬ、ＧｒａｄｉｅｎｔＲｅｖｅｒｓａｌＬａｙｅｒ）を介してドメイン分類器（ｄｏｍａｉｎｄｉｓｃｒｉｍｉｎａｔｏｒ）を混同するように特徴生成器（ｆｅａｔｕｒｅｇｅｎｅｒａｔｏｒ）を学習するドメイン適応性能（ｄｏｍａｉｎａｄａｐｔａｔｉｏｎｐｅｒｆｏｒｍａｎｃｅ）を画期的に改善する。

【0054】

ＵＤＡは、ドメイン移動が頻繁に発生し、注釈（ａｎｎｏｔａｔｉｏｎ）に費用が多くかかるため、オブジェクト検出作業（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｔａｓｋ）で多い関心を受けている。先駆的な作業（ｐｉｏｎｅｅｒｉｎｇｗｏｒｋ）であるドメイン適応型（ｄｏｍａｉｎａｄａｐｔｉｖｅ）ＦａｓｔｅｒＲ－ＣＮＮ（ＤＡ－Ｆａｓｔｅｒ）は、２－ステップ検出器（ｔｗｏ－ｓｔａｇｅｄｅｔｅｃｔｏｒ）でドメイン差（ｄｏｍａｉｎｇａｐ）を減らす。ＤＡ－ｆａｓｔｅｒは、バックボーン（ｂａｃｋｂｏｎｅ）におけるイメージレベル特徴（ｉｍａｇｅ－ｌｅｖｅｌｆｅａｔｕｒｅ）とＲｏＩプーリング（ｐｏｏｌｉｎｇ）以後、インスタンスレベル特徴（ｉｎｓｔａｎｃｅ－ｌｅｖｅｌｆｅａｔｕｒｅ）に関する２個のレベルで適応を行う。当該作業でインスピレーションを得た種々の作業は、階層的ドメイン特徴分類器（ｈｉｅｒａｒｃｈｉｃａｌｄｏｍａｉｎｆｅａｔｕｒｅｄｉｓｃｒｉｍｉｎａｔｏｒ）を介してイメージレベルでドメイン差を減らすことを目標とする。一方、ＣＴ－ＤＡは、地域提案ネットワーク（ＲＰＮ、ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）とインスタンス分類器（ｉｎｓｔａｎｃｅｃｌａｓｓｉｆｉｅｒ）との間の協業自己学習（ｃｏｌｌａｂｏｒａｔｉｖｅｓｅｌｆ－ｔｒａｉｎｉｎｇ）を行う。ＨＴＣＮ及びＭＥＡＡは、ピクセル単位ドメインエントロピー（ｅｎｔｒｏｐｙ）、すなわち、不確実性マスク（ｕｎｃｅｒｔａｉｎｔｙｍａｓｋ）を測定することによりイメージの転移可能な領域を推定する。それにもかかわらず、一部構成要素に対してのみドメイン整列（ｄｏｍａｉｎａｌｉｇｎｍｅｎｔ）を行う以前作業では、オブジェクト検出パイプライン（ｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｐｉｐｅｌｉｎｅ）の全ての構成要素が必須不可欠であり、密接に相互連関する点が見過ごされ得る。これとは逆に、本発明は、全ての構成要素の転移可能性を考慮する。

【0055】

本発明のベースライン（ｂａｓｅｌｉｎｅ）として、特徴抽出器（ｆｅａｔｕｒｅｅｘｔｒａｃｔｏｒ）、地域提案ネットワーク（ＲＰＮ）、及び最終予測のための完全連結レイヤ（ｆｕｌｌｙ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）で構成されたＦａｓｔｅｒＲ－ＣＮＮが適用され得る。まず、完全にラベルが指定されたソースデータセット（Ｄ_ｓ＝｛Ｘ_ｓ、Ｙ_ｓ｝）を基にベースライン検出器（ｂａｓｅｌｉｎｅｄｅｔｅｃｔｏｒ）を学習する。ここで、Ｘ_ｓは、イメージセット｛ｘ_ｓ｝であり、Ｙ_ｓは、正解（ｇｒｏｕｎｄ－ｔｒｕｔｈ）ラベルセット｛ｙ_ｓ｝である。各ラベルｙ_ｓは、ｘ_ｓで当該カテゴリーと連関したバウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ）で構成される。全体学習損失は、次の数式０のように定義される。

【0056】

【数0】

【0057】

各々ＲＰＮレベル損失（ＲＰＮ－ｌｅｖｅｌｌｏｓｓ）、インスタンスレベル回帰損失（ｉｎｓｔａｎｃｅ－ｌｅｖｅｌｒｅｇｒｅｓｓｉｏｎｌｏｓｓ）、分類損失（ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓ）である。

【0058】

ここで、本発明による方法の目標は、ラベルが指定されなかったデータセット（ｕｎｌａｂｅｌｅｄｄａｔａｓｅｔ）等（Ｄ_ｔ＝｛Ｘ_ｔ｝）を含むターゲットドメインに対するモデル性能を向上させることである。目標達成のために、全てのレベルでソースドメインとターゲットドメインとの間のドメイン差を減らす必要がある。すなわち、（１）バックボーンネットワークにより抽出されるイメージレベルフィーチャ、（２）領域提案を生成する完全なコンボリューションネットワーク（すなわち、ＲＰＮ）で抽出されるＲＰＮレベルフィーチャ、（３）最終分類及び回帰（ｒｅｇｒｅｓｓｉｏｎ）前のステップでＲｏＩプーリングフィーチャに該当するインスタンスレベルフィーチャ。図３に示すように、このような方式にて全体レベルで２つのドメインのフィーチャ分布を整列し、３個のモジュール（すなわち、Ｍｕｌｔｉ－ｓｃａｌｅ－ａｗａｒｅＵｎｃｅｒｔａｉｎｔｙＡｔｔｅｎｔｉｏｎ（ＭＵＡ）、ＴｒａｎｓｆｅｒａｂｌｅＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ（ＴＲＰＮ）、及びＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ（ＤＩＳ））を介して転移可能地域を導出する。

【0059】

適応型オブジェクト検出（ａｄａｐｔｉｖｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎ）の原理は、ドメインに関係なく、同じオブジェクト範疇のドメイン－不変意味情報（ｄｏｍａｉｎ－ｖａｒｉａｎｔｓｅｍａｎｔｉｃｉｎｆｏｒｍａｔｉｏｎ）を抽出することである。アテンションメカニズム（ａｔｔｅｎｔｉｏｎｍｅｃｈａｎｉｓｍ）を参照してドメイン観点で区別不可能な転移可能領域のガイダンス（ｇｕｉｄａｎｃｅ）を提供するために、空間アテンションマップ（ｓｐａｔｉａｌａｔｔｅｎｔｉｏｎｍａｐ）をモデリングする。空間不確実性（ｓｐａｔｉａｌｕｎｃｅｒｔａｉｎｔｙ）を推定することにより、各空間位置のドメイン差を測定できる。空間不確実性は、次の数式１のように、分類器の出力エントロピーにより計算される。

【0060】

【数1】

【0061】

ここで、

は、１番目のレイヤ以後、ｉ番目のイメージのフィーチャであり、Ｄ_ｆは、ピクセル単位ドメイン分類器である。出力ドメイン確率（ｏｕｔｐｕｔｄｏｍａｉｎｐｒｏｂａｂｉｌｉｔｙ）

からピクセル単位エントロピー

を推定する。

【0062】

理論的に、エントロピーマップ

は、レイヤインデックスｌに関係なく取得される。低レベルフィーチャ（ｌｏｗ－ｌｅｖｅｌｆｅａｔｕｒｅ）で

を抽出する場合、小さく、遠い前景を検出するのに寄与するドメイン－不変の構造的に詳しい情報を取得できる。しかし、エントロピーマップは、背景領域（例えば、木、空等）も転移可能なものと見なされるため、検出性能が低下する。これとは異なり、高レベルフィーチャ（ｈｉｇｈ－ｌｅｖｅｌｆｅａｔｕｒｅ）でエントロピーマップを抽出する場合、コンテクスト情報を反映できるので、背景をより良く区別することができる。しかし、大きい受信フィールド（ｒｅｃｅｐｔｉｖｅｆｉｅｌｄ）のため、転移可能性を評価する間、小さい物体を見過ごすことがある。したがって、本発明の場合、短所を最小化し、全ての利点を活用するために、多重スケールフィーチャを融合した後、不確実性アテンション（ｕｎｃｅｒｔａｉｎｔｙａｔｔｅｎｔｉｏｎ）を推定する。

【0063】

まず、最終フィーチャと同じ空間解像度を有するように互いに異なるレイヤから取得したフィーチャのスケールを調整する。その後、フィーチャを連結し、統合されたフィーチャをマニホールド（ｍａｎｉｆｏｌｄ）に挿入する。また、多重スケールフィーチャ融合（ｍｕｌｔｉ－ｓｃａｌｅｆｅａｔｕｒｅｆｕｓｉｏｎ）は、次の数式２のように表現される。

【0064】

【数2】

【0065】

ここで、

は、二重線形補間関数（ｂｉ－ｌｉｎｅａｒｉｎｔｅｒｐｏｌａｔｉｏｎｆｕｎｃｔｉｏｎ）であり、［・」は、チャネル単位連結演算子（ｃｈａｎｎｅｌ－ｗｉｓｅｃｏｎｃａｔｅｎａｔｉｏｎｏｐｅｒａｔｏｒ）であり、

は、エンベディングのための１×１コンボリューションレイヤである。Ｌは、フィーチャ抽出器の合計レイヤ個数である。多重スケール表現Ｐ_ｆを用いると、多重スケール認知不確実性アテンション（ＭＵＡ、ｍｕｌｔｉ－ｓｃａｌｅ－ａｗａｒｅｕｎｃｅｒｔａｉｎｔｙａｔｔｅｎｔｉｏｎ）は次の数式３のように表現される。

【0066】

【数3】

【0067】

ここで、

は、融合されたフィーチャＰ_ｉのドメイン分類器であり、Ｅ_ｉは、推定された不確実性アテンション（ＭＵＡ）である。

【0068】

最後のステップとして、グローバル特徴（ｇｌｏｂａｌｆｅａｔｕｒｅ）に空間不確実性アテンション（ｓｐａｔｉａｌｕｎｃｅｒｔａｉｎｔｙａｔｔｅｎｔｉｏｎ）を乗ずる。すなわち、

である。結果的に、不確実性アテンションは、ローカル及びグローバル特徴から転移可能な領域を導出することにより、様々な大きさのオブジェクトに対する表現能力を大きく向上させる。

【0069】

本発明の場合、ＲＰＮ－レベルでドメイン差を緩和し、オブジェクト性（ｏｂｊｅｃｔｎｅｓｓ）と転移可能性（ｔｒａｎｓｆｅｒａｂｉｌｉｔｙ）とを全て考慮して前景領域を生成する新しい転移可能領域提案ネットワーク（ＴＲＰＮ、ＴｒａｎｓｆｅｒａｂｌｅＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）を含む。

【0070】

以前の研究等を参照すると、イメージ－レベル及びインスタンス－レベルでドメイン分布を整列する場合、ＲＰＮがターゲットドメインで正しく動作するのに十分なものと予想される。しかし、前景予測に関する学習がソースドメインデータに偏向されるので、アンカー（ａｎｃｈｏｒ）の前景フィーチャにはドメイン差が依然として存在しうる。当該ドメイン差を解決するために、補助ドメイン分類器（ａｕｘｉｌｉａｒｙｄｏｍａｉｎｃｌａｓｓｉｆｉｅｒ）Ｄ_ｂｏｘを活用し、勾配反転レイヤ（Ｇｒａｄｉｅｎｔｒｅｖｅｒｓａｌｌａｙｅｒ）を介してＲＰＮ－レベルでドメイン差を最小化する。ボックスドメイン分類損失（ｂｏｘｄｏｍａｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎｌｏｓｓ）は、次の数式４のように定義される。

【0071】

【数4】

【0072】

ここで、ドメイン分類器の出力確率は、

であり、Ｒは、領域提案等の個数であり、ｒは、ｉ番目のイメージで各領域提案のインデックスである。ソースドメインのイメージである場合、ドメインラベルｄ_ｉは、０であり、そうでない場合、１である。

【0073】

ＲＰＮは、まず、互いに異なるアンカーを有する様々な領域提案を抽出した後、前景確率（ｆｏｒｅｇｒｏｕｎｄｐｒｏｂａｂｉｌｉｔｙ）、すなわち、オブジェクト性（ｏｂｊｅｃｔｎｅｓｓ）によって背景領域をフィルタリングする。しかし、ドメイン適応シナリオ（ｄｏｍａｉｎａｄａｐｔａｔｉｏｎｓｃｅｎａｒｉｏ）では、前景分類器がソースドメインに偏向されるため、ターゲットドメインで予測されたオブジェクト性は信頼することができない。結果的に、情報領域提案（ｉｎｆｏｒｍａｔｉｖｅｒｅｇｉｏｎｐｒｏｐｏｓａｌ）は、低いオブジェクト点数（ｏｂｊｅｃｔｎｅｓｓｓｃｏｒｅ）を有し、提案選択プロセス（ｐｒｏｐｏｓａｌｓｅｌｅｃｔｉｏｎｐｒｏｃｅｓｓ）（例えば、ｎｏｎ－ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ）から除去される。当該問題を緩和するために、出力ドメイン確率のエントロピーを活用して、各領域提案の転移可能性を推定する。具体的に、本発明の場合、各領域提案のエントロピーを

で計算する。ここで、高いエントロピーは、ボックスがドメイン観点で区別され得ないことを表す。次に、取得したドメイン転移可能性

にオブジェクト性分類器の点数

を乗じ、ＲＰＮのコンボリューション階層を参照して再加重された（ｒｅ－ｗｅｉｇｈｔｅｄ）オブジェクト点数

が導出される。その後、再加重されたオブジェクト点数を考慮して重複領域（ｏｖｅｒｌａｐｐｉｎｇｒｅｇｉｏｎ）を除去するために、ＮＭＳ（Ｎｏｎ－ｍａｘｉｍｕｍｓｕｐｐｒｅｓｓｉｏｎ）が行われる。図４において、本発明によるフィルタリング戦略は、転移可能性を考慮することによって情報領域を格納する。

【0074】

インスタンスレベル適応のために、以前の方法等は、２つのドメインでＲｏＩプーリングのために選択された領域提案を適用する。このとき、２つのドメインは、（１）正解（ｇｒｏｕｎｄ－ｔｒｕｔｈ）として生成された領域提案を使用するソースドメインと、（２）固定された上位Ｎ個の地域提案をサンプリングするターゲットドメインとを含む（例えば、Ｎ＝３００）。しかし、当該設定は、初期学習ステップで不正確なターゲットインスタンス（提案）のため、否定的な影響を及ぼす恐れがある。したがって、本発明の場合、前景確率の差とイメージ硬度点数（ｉｍａｇｅｈａｒｄｎｅｓｓｓｃｏｒｅ）によってＮを調整する動的インスタンスサンプリング（ＤＩＳ、ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）を含む。まず、ソースとターゲットドメインで領域の前景確率間のＫＬ発散（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ）を測定する。ＫＬ発散を活用して、ソースと比較されるターゲットドメインでモデルの相対的な混乱度（ｒｅｌａｔｉｖｅｐｅｒｐｌｅｘｉｔｙ）を推定する。

【0075】

発散の補修（ｃｏｍｐｌｅｍｅｎｔ）は、

に推定され、ここで、ＫＬ（・）は、ＫＬ発散であり、

は、各々ソースドメインイメージ及びターゲットドメインイメージで選択されたｒ番目の領域提案の前景確率である。

【0076】

また、ターゲットフィーチャがソースドメインに近いほど、モデルがより高い再現率（ｒｅｃａｌｌｒａｔｅ）を有するべきであると推測される。このような直観から、イメージのドメイン確率は、Ｎに対する追加的な制御パラメータ（ｃｏｎｔｒｏｌｐａｒａｍｅｔｅｒ）と考慮される。ドメイン確率、すなわち、硬度点数（ｈａｒｄｎｅｓｓｓｃｏｒｅ）は、多重スケール融合フィーチャＰ_ｆのドメインを区別するように学習された補助ドメイン分類器Ｄ_ｄｉｓと測定される。ターゲットイメージ

に対するサンプルの最終個数Ｎ_{ｆｉｎａｌ}は、次のように計算される。

【0077】

総損失は、各レイヤの探知損失（ｄｅｔｅｃｔｉｏｎｌｏｓｓ）と敵対的損失（ａｄｖｅｒｓａｒｉａｌｌｏｓｓ）とで構成され、次のように定義される。

全体目的関数（ｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎ）は、次の数式５のように定義される。

【0078】

【数5】

【0079】

ここで、｛Ｄ｝は、全体ネットワークでＤ_ｄｉｓを除いたドメイン分類器等の集合、すなわち、

であり、Ｆは、特徴抽出器等である。推論（ｉｎｆｅｒｅｎｃｅ）の間、ＤＩＳ及び敵対的学習は行われず、ＭＵＡ及び転移可能領域は、推定される。

【0080】

以下、図５～図１０を参照して本発明によるドメイン適応型オブジェクト検出方法に関する実験結果を具体的に説明する。

【0081】

ここでは、本発明によるモデル性能評価のために、５個のデータセットであるＣｉｔｙｓｃａｐｅ、Ｆｏｇｇｙ－Ｃｉｔｙｓｃａｐｅ、ＫＩＴＴＩ、Ｓｉｍ１０ｋ、及びＢＤＤ１００ｋが使用され、次の表１のように表現される。

【0082】

【表1】

【0083】

また、公正な比較のために、ＲｏＩＡｌｉｇｎとともに、ＶＧＧ－１６基盤のＦａｓｔｅｒＲ－ＣＮＮが適用される。初期学習率は、１ｅ－３に設定され、初めの５０，０００回繰り返す間に固定された後、２０，０００回繰り返しする度に１ｅ－４に減少する。また、最適化のために、モーメンタムが０．９であるＳＧＤ（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）オプティマイザ（ｏｐｔｉｍｉｚｅｒ）が適用される。また、縦横割合を維持しながら、縦長さが６００ピクセルになるように各イメージの大きさを調整する。単一バッチ（ｓｉｎｇｌｅｂａｔｃｈ）には、各ドメインに対して１個、合計２個のイメージが含まれる。Ｓｉｍ１０Ｋ－ｔｏ－Ｃｉｔｙｓｃａｐｅｓの場合、λは、他のドメイン適応シナリオで１に設定されるのに対し、ここでは、０．１に設定される。また、ＰｙＴｏｒｃｈで実現され、単一ＧＴＸ２０８０Ｔｉでモデルを学習し、テストする。

【0084】

様々な教師なしドメイン適応オブジェクト検出ベンチマーク（ｕｎｓｕｐｅｒｖｉｓｅｄｄｏｍａｉｎａｄａｐｔｉｖｅｏｂｊｅｃｔｄｅｔｅｃｔｉｏｎｂｅｎｃｈｍａｒｋｓ）で本発明による方法の効率性を検証する。図５の上段部分を参照すると、本発明による方法は、Ｃｉｔｙｓｃａｐｅｓ→ＦｏｇｇｙＣｉｔｙｓｃａｐｅｓで４１．３％の性能を見せることにより、以前の方法等よりさらに高い性能を達成する。特に、本発明による方法は、大きいインスタンス（例えば、トラック、バス、及び汽車）で驚くべき性能向上を提供する。これは、多重スケールフィーチャ融合戦略（ｍｕｌｔｉ－ｓｃａｌｅｆｅａｔｕｒｅｆｕｓｉｏｎｓｔｒａｔｅｇｙ）とグローバルイメージ表現能力（ｇｌｏｂａｌｉｍａｇｅｒｅｐｒｅｓｅｎｔａｔｉｏｎａｂｉｌｉｔｙ）とオブジェクト正確度（ｏｂｊｅｃｔｎｅｓｓａｃｃｕｒａｃｙ）とを向上させるＴＲＰＮのためである。また、本発明による方法は、Ｃｉｔｙｓｃａｐｅｓｔｏ－ＢＤＤ１００Ｋベンチマークで以前の方法等を３．１％の大きい差で乗り越える。特に、ＢＤＤ１００Ｋの難しい特性にもかかわらず、小さいインスタンス（例えば、人及び自転車）に対する感知性能が大きく向上する。図６の自動車専用適応シナリオ（ｃａｒ－ｏｎｌｙａｄａｐｔａｔｉｏｎｓｃｅｎａｒｉｏ）、すなわち、ＫＩＴＴＩ－ｔｏ－Ｃｉｔｙｓｃａｐｅｓ及びＳｉｍ１０ｋ－ｔｏ－Ｃｉｔｙｓｃａｐｅｓでも本発明による方法は、それぞれ４４．２％及び４７．１％のｍＡＰを達成して、以前の最先端技術を乗り越える。

【0085】

図７において、より良い比較のために、Ｃｉｔｙｓｃａｐｅｓ－ｔｏ－ＦｏｇｇｙＣｉｔｙｓｃａｐｅｓ及びＣｉｔｙｓｃａｐｅｓ－ｔｏ－ＢＤＤ１００Ｋの定性的結果が図示されている。ターゲットドメインの濃い霧は、特に、図７の（ａ）のように、遠くにあるオブジェクトに対する正確な認識を妨害する。ＭＥＡＡは、ローカルレベルアテンションマップ（ｌｏｃａｌ－ｌｅｖｅｌａｔｔｅｎｔｉｏｎｍａｐ）の助けで基準線よりもオブジェクトをより良く感知できるが、依然としてノイズ活性化（ｎｏｉｓｙａｃｔｉｖａｔｉｏｎ）のため、一部オブジェクトをキャプチャできないことがある（図７の２行及び４行参照）。例えば、１番目のサンプルの大きいバスは、低い信頼度で部分的に感知され、２番目のイメージでは、遠くにある自動車が無視される。これとは異なり、本発明による方法は、ほとんど全てのオブジェクトをよく捕捉することができる。具体的に、ＴＲＰＮ（ＴｒａｎｓｆｅｒａｂｌｅＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）は、様々な形態のアンカー（ａｎｃｈｏｒ）からオブジェクト性分布（ｏｂｊｅｃｔｎｅｓｓｄｉｓｔｒｉｂｕｔｉｏｎ）のドメイン差を効果的に最小化するので、大型バスを正確に検出することができる。また、多重スケール認知不確実性アテンション（ＭＵＡ）は、ローカル及びグローバルイメージ情報を提供して、モデルが誤検知ボックス（ｆａｌｓｅｐｏｓｉｔｉｖｅｂｏｘ）なしに２番目のサンプルで小型自動車をキャプチャすることができる。

【0086】

本発明による構成要素であるＭＵＡ、ＴＲＰＮ、及びＤＩＳの有効性を検証するために、比較研究（ａｂｌａｔｉｏｎｓｔｕｄｙ）を行う。図８のように、各構成要素は、性能向上に寄与する。また、ＭＵＡの転移可能領域ガイダンスが全ての範疇でｍＡＰを０．８％向上させて、性能に利点を提供する。ＴＲＰＮに対する深層分析のために、ＲＰＮ－レベルドメイン適応（ＲＤＡ、ＲＰＮ－ｌｅｖｅｌＤｏｍａｉｎＡｄａｐｔａｔｉｏｎ）と再加重オブジェクト性（ＲＷＯ、Ｒｅ－ＷｅｉｇｈｔｅｄＯｂｊｅｃｔｎｅｓｓ）との２つの部分に区分する。３行と４行に表示された結果は、性能を１．３％向上させることによってＲＤＡの重要性を表す。また、ＲＷＯは、領域提案のエントロピーでオブジェクト性を補完して、より正確な探知に寄与する。また、ＤＩＳ（ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）は、領域サンプリングプロセスにドメイン差の範囲を統合してモデルを効果的に向上させる。まとめると、全ての構成要素は、オブジェクト検出パイプラインの各水準でドメイン差を考慮して設計されたので、全ての構成要素が有益であり、互いに補完するように結合される。

【0087】

また、ターゲットフィーチャがソースドメインに近づくにつれて、再現率（ｒｅｃａｌｌｒａｔｅ）が増加すべきであるというＤＩＳの動機（ｍｏｔｉｖａｔｉｏｎ）を実験的に検証することができる。図９において、Ｘ軸とＹ軸とが各々ドメイン確率（ｄｏｍａｉｎｐｒｏｂａｂｉｌｉｔｙ）と再現率（ｒｅｃａｌｌｒａｔｅ）であるターゲットドメインで５００個のイメージに対する散布図（ｓｃａｔｔｅｒｅｄｐｌｏｔ）が図示されている。再現率とドメイン確率との間の関係を調査するために、ピアソンの相関係数（Ｐｅａｒｓｏｎｃｏｒｒｅｌａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔ）を測定する。結果的に、測定された相関係数は、０．５８であって、強い正の相関があることを表す。本発明によるＤＩＳ（ＤｙｎａｍｉｃＩｎｓｔａｎｃｅＳａｍｐｌｉｎｇ）は、ターゲットドメインイメージの出力ドメイン確率を考慮して、Ｎ、すなわち、選択しようとする領域提案の個数を補正する。図１０を参照して、ＤＩＳの効果を定性的に分析する。図１０の（ｂ）において、共通ｔｏｐ－Ｎサンプリング戦略（ｃｏｍｍｏｎｔｏｐ－Ｎｓａｍｐｌｉｎｇｓｔｒａｔｅｇｙ）は、大きいドメイン差により、背景を含んで不適当な領域提案（ｕｎｐｒｏｐｉｔｉｏｕｓｒｅｇｉｏｎｐｒｏｐｏｓａｌ）を選択する。これとは異なり、ＤＩＳは、Ｎ_{ｆｉｎａｌ}を自動に調整するので、背景領域は除外しながら前景領域を選択する。

【0088】

本発明によるドメイン適応型オブジェクト検出方法は、各レベルに対する多重スケール認知不確実性アテンション（ＭＵＡ）、転移可能領域提案ネットワーク（ＴＲＰＮ）、及び動的インスタンスサンプリング（ＤＩＳ）の３つの構成要素で構成された新しいフレームワークを含む。本発明によるドメイン適応型オブジェクト検出方法は、オブジェクト検出器のパイプラインに対して全体レベルでドメイン差を効果的に整列し、転移可能領域を伝達してＤＡＯＤに対する転移可能性（ｔｒａｎｓｆｅｒａｂｉｌｉｔｙ）と判別可能性（ｄｉｓｃｒｉｍｉｎａｂｉｌｉｔｙ）とを極大化する。本発明によるドメイン適応型オブジェクト検出方法は、広範な実験を介して効率性が検証され得るし、様々なドメイン適応シナリオで最先端性能を達成できる。

【0089】

図１１は、本発明によるドメイン適応型オブジェクト検出装置のシステム構成を説明する図である。

【0090】

図１１に示すように、ドメイン適応型オブジェクト検出装置１００は、プロセッサ１１１０、メモリ１１３０、ユーザ入出力部１１５０、及びネットワーク入出力部１１７０を備える。

【0091】

プロセッサ１１１０は、本発明の実施形態によるドメイン適応型オブジェクト検出プロシージャを実行し、このような過程で読み取られるか、又は書き込まれるメモリ１１３０を管理し、メモリ１１３０にある揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールする。プロセッサ１１１０は、ドメイン適応型オブジェクト検出装置１００の動作伝搬を制御し、メモリ１１３０、ユーザ入出力部１１５０、及びネットワーク入出力部１１７０に電気的に連結されて、これらの間のデータの流れを制御する。プロセッサ１１１０は、ドメイン適応型オブジェクト検出装置１００のＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）で具現される。

【0092】

メモリ１１３０は、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）またはＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のような不揮発性メモリで具現されて、ドメイン適応型オブジェクト検出装置１００に必要なデータ伝搬を格納するのに使用される補助記憶装置を含み、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような揮発性メモリで具現された主記憶装置を含む。また、メモリ１１３０は、電気的に連結されたプロセッサ１１１０により実行されることで、本発明によるドメイン適応型オブジェクト検出方法を実行する命令等の集合を格納する。

【0093】

ユーザ入出力部１１５０は、ユーザ入力を受信するための環境及びユーザに特定情報を出力するための環境を含み、例えば、タッチパッド、タッチスクリーン、画像キーボード、またはポインティング装置のようなアダプタを含む入力装置及びモニターまたはタッチスクリーンのようなアダプタを含む出力装置を含む。一実施形態において、ユーザ入出力部１１５０は、遠隔接続を介して接続されるコンピューティング装置に該当し、そのような場合、ドメイン適応型オブジェクト検出装置１００は、独立的なサーバーとして行われる。

【0094】

ネットワーク入出力部１１７０は、ネットワークを介してユーザ端末１２１０に連結されるための通信環境を提供し、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、及びＶＡＮ（ＶａｌｕｅＡｄｄｅｄＮｅｔｗｏｒｋ）などの通信のためのアダプタを含む。また、ネットワーク入出力部１１７０は、データの無線送信のために、ＷｉＦｉ（登録商標）、ブルートゥース（登録商標）などの近距離通信機能や４Ｇ以上の無線通信機能を提供するように具現される。

【0095】

図１２は、本発明によるドメイン適応型オブジェクト検出システムを説明する図である。

【0096】

図１２に示すように、ドメイン適応型オブジェクト検出システム１２００は、ユーザ端末１２１０、ドメイン適応型オブジェクト検出装置１００、及びデータベース１２３０を備える。

【0097】

ユーザ端末１２１０は、ユーザにより運用される端末装置に該当する。本発明の実施形態においてユーザは、１つ以上のユーザと理解され、複数のユーザは、１つ以上のユーザグループに区分される。また、ユーザ端末１２１０は、ドメイン適応型オブジェクト検出システム１２００を構成する１つの装置であって、ドメイン適応型オブジェクト検出装置１００と連動して動作するコンピューティング装置に該当する。例えば、ユーザ端末１２１０は、ドメイン適応型オブジェクト検出装置１００に連結されて動作可能なスマートフォン、ノートブック、またはコンピュータで具現され、必ずしもこれに限定されず、タブレットＰＣなどを含んで様々なデバイスとしても具現される。また、ユーザ端末１２１０は、ドメイン適応型オブジェクト検出装置１００と連動するための専用プログラムまたはアプリケーション（または、アプリ、ａｐｐ）を設けて実行する。

【0098】

ドメイン適応型オブジェクト検出装置１００は、本発明においてドメイン適応型オブジェクト検出方法を行うコンピュータまたはプログラムに該当するサーバーで具現される。また、ドメイン適応型オブジェクト検出装置１００は、ユーザ端末１２１０と有線ネットワークまたはブルートゥース（登録商標）、ＷｉＦｉ（登録商標）、ＬＴＥ（登録商標）などのような無線ネットワークで連結され、ネットワークを介してユーザ端末１２１０とデータを送受信する。

【0099】

また、ドメイン適応型オブジェクト検出装置１００は、関連動作を行うために、独立された外部システム（図１に図示せず）に連結されて動作するように具現される。例えば、ドメイン適応型オブジェクト検出装置１００は、ポータルシステム、ＳＮＳシステム、クラウドシステムなどと連動して様々なサービスを提供するように具現される。

【0100】

データベース１２３０は、ドメイン適応型オブジェクト検出装置１００の動作過程で必要な様々な情報を格納する格納装置に該当する。例えば、データベース１２３０は、イメージに関する情報を格納し、学習データとモデルに関する情報を格納し、必ずしもこれに限定されず、ドメイン適応型オブジェクト検出装置１００が本発明によるドメイン適応型オブジェクト検出方法を行う過程で様々な形態で収集または加工された情報を格納する。

【0101】

また、図１２において、データベース１２３０は、ドメイン適応型オブジェクト検出装置１００とは独立的な装置として図示されているが、必ずしもこれに限定されず、論理的な格納装置としてドメイン適応型オブジェクト検出装置１００に含まれて具現され得る。

【0102】

以上、本発明の望ましい実施形態を参照して説明したが、当該技術分野の熟練した当業者は、本発明の思想及び技術領域から逸脱しない範囲内で本発明を様々に修正及び変更させ得る。

【符号の説明】

【0103】

１００ドメイン適応型オブジェクト検出装置
１１０イメージレベルフィーチャ部
１３０ＲＰＮレベルフィーチャ部
１５０インスタンスレベルフィーチャ部
１７０オブジェクト検出部
１９０制御部
１１１０プロセッサ
１１３０メモリ
１１５０ユーザ入出力部
１１７０ネットワーク入出力部
１２００ドメイン適応型オブジェクト検出システム
１２１０ユーザ端末
１２３０データベース

【図1】