IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 延世大学校 産学協力団の特許一覧

特許7389787マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法
<>
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図1
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図2
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図3
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図4
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図5
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図6
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図7
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図8
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図9
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図10
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図11
  • 特許-マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-21
(45)【発行日】2023-11-30
(54)【発明の名称】マルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231122BHJP
   G06N 3/04 20230101ALI20231122BHJP
   G06N 3/045 20230101ALI20231122BHJP
   G06N 3/08 20230101ALI20231122BHJP
   G06N 3/096 20230101ALI20231122BHJP
【FI】
G06T7/00 350C
G06N3/04
G06N3/045
G06N3/08
G06N3/096
【請求項の数】 6
(21)【出願番号】P 2021207600
(22)【出願日】2021-12-21
(65)【公開番号】P2023063200
(43)【公開日】2023-05-09
【審査請求日】2021-12-21
(31)【優先権主張番号】10-2021-0141635
(32)【優先日】2021-10-22
(33)【優先権主張国・地域又は機関】KR
(73)【特許権者】
【識別番号】514274672
【氏名又は名称】延世大学校 産学協力団
【氏名又は名称原語表記】UIF (University Industry Foundation), Yonsei University
【住所又は居所原語表記】50,YONSEI-RO, SEODAEMUN-GU, SEOUL 03722, REPUBLIC OF KOREA
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】ビュン,ヘ ラン
(72)【発明者】
【氏名】ド,ミ レ
(72)【発明者】
【氏名】ジョン,ソク キュ
(72)【発明者】
【氏名】ホン,キ ボム
【審査官】笠田 和宏
(56)【参考文献】
【文献】特表2021-519984(JP,A)
【文献】中国特許出願公開第111553397(CN,A)
【文献】Dang-Khoa Nguyen,外2名,Domain-Adaptive Object Detection via Uncertainty-Aware Distribution Alignment,MM '20: Proceedings of the 28th ACM International Conference on Multimedia,2020年10月12日,pp. 2499-2507
【文献】Minyue Jiang,外2名,Self-attention Learning for Person Re-identification,[online],2018年,[2023年5月18日検索],<URL:http://bmvc2018.org/contents/papers/0613.pdf>
【文献】Ganlong Zhao,外3名,Collaborative Training between Region Proposal Localization and Classification for Domain Adaptive Object Detection,[online],2020年09月18日,[2022年11月15日検索],インターネット<URL:https://arxiv.org/pdf/2009.08119.pdf>
【文献】Jifeng Dai,外6名,Deformable Convolutional Networks,2017 IEEE International Conference on Computer Vision (ICCV),2017年10月22日,pp. 764-773
【文献】Zifeng Wang,外5名,Finding Influential Instances for Distantly Supervised Relation Extraction,[online],2020年09月17日,[2022年11月15日検索],インターネット<URL:https://arxiv.org/pdf/2009.09841v1.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/04
G06N 3/045
G06N 3/08
G06N 3/096
(57)【特許請求の範囲】
【請求項1】
アンラベルターゲットデータ(unlabeled target data)を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出するイメージレベルフィーチャ部と、
前記イメージレベルフィーチャをRPN(Region Proposal Network)に提供してRPN-レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定するRPNレベルフィーチャ部と、
前記領域候補に対する動的インスタンスサンプリング(Dynamic Instance Sampling)を行ってRoI(Region of Interest)プーリングフィーチャを抽出するインスタンスレベルフィーチャ部と、
を備え、
前記イメージレベルフィーチャ部は、
前記複数のコンボリューションレイヤの各々から前記アンラベルターゲットデータの多重スケールフィーチャを収集し、前記多重スケールフィーチャを併合して転移可能アテンションマップを生成し、
前記転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介して前記イメージレベルフィーチャを生成し、
前記インスタンスレベルフィーチャ部は、
前景確率及びドメインの区別のし難さを表すイメージ硬度点数間の不一致を基に前記領域候補の個数を調節することを特徴とするマルチ-レベル転移領域(Multi-level Transferable Region)に基づくドメイン適応型オブジェクト検出装置。
【請求項2】
前記RPNレベルフィーチャ部は、
前記RPN-レベルドメイン適応の過程で前記RPNから出力された前景フィーチャ及びGRL(Gradient Reversal Layer)に基づくドメイン分類器(Dbox)を経由したドメイン分類フィーチャを併合してRPN-レベルドメインフィーチャを生成することを特徴とする請求項1に記載のマルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置。
【請求項3】
前記RPNレベルフィーチャ部は、
前記転移領域フィルタリングの過程で前記RPN-レベルドメインフィーチャを受信し、背景領域を取り除いて前記領域候補を決定することを特徴とする請求項2に記載のマルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置。
【請求項4】
前記RoIプーリングフィーチャをDCN(Deformable Convolutional Networks)に提供して、前記アンラベルターゲットデータにあるオブジェクトを検出するオブジェクト検出部をさらに備えることを特徴とする請求項1に記載のマルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置。
【請求項5】
アンラベルターゲットデータ(unlabeled target data)を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出するステップと、
前記イメージレベルフィーチャをRPN(Region Proposal Network)に提供してRPN-レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定するステップと、
前記領域候補に対する動的インスタンスサンプリング(Dynamic Instance Sampling)を行ってRoI(Region of Interest)プーリングフィーチャを抽出するステップと、
を含み、
前記イメージレベルフィーチャを抽出するステップは、
前記複数のコンボリューションレイヤの各々から前記アンラベルターゲットデータの多重スケールフィーチャを収集し、前記多重スケールフィーチャを併合して転移可能アテンションマップを生成するステップと、
前記転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介して前記イメージレベルフィーチャを生成するステップを含み、
前記RoIプーリングフィーチャを抽出するステップは、
前景確率及びドメインの区別のし難さを表すイメージ硬度点数間の不一致を基に前記領域候補の個数を調節するステップを含むマルチ-レベル転移領域(Multi-level Transferable Region)に基づくドメイン適応型オブジェクト検出方法。
【請求項6】
前記RoIプーリングフィーチャをDCN(Deformable Convolutional Networks)に提供して、前記アンラベルターゲットデータにあるオブジェクトを検出するステップをさらに含むことを特徴とする請求項に記載のマルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ドメイン適応学習技術に関し、より詳細には、ドメイン適応オブジェクト検出器の構造の全てを使用して、各段階別情報に適したドメイン適応を適用できるオブジェクト検出器の相互関係及び転移可能地域を考慮したオブジェクト検出器ドメイン適応学習技術に関する。
【背景技術】
【0002】
近年、ディープラーニングの発展につれて、多くのCNN基盤のオブジェクト検出器が多量の注釈付き学習データセットを利用して目覚ましい性能向上を導き出した。また、既存のオブジェクト検出器は、このような大規模学習データと実験データとが理想的に同じ環境を有しているということを仮定して実験を進めた。しかし、現実世界のオブジェクト検出作業は、学習データと実際環境とが異なる場合が多い。すなわち、このようなドメイン差のため、大規模データで学習されたオブジェクト検出器の性能低下が発生する恐れがある。
【0003】
自律走行分野を例に挙げると、自律走行モデルを学習するために、シミュレータを利用してデータを収集する場合、様々なシナリオに対して量的なデータを収集できるという長所がある。しかしながら、実走行環境に適用の際、ドメイン差によるモデルの精度が劣る可能性があるという問題がある。また、全世界の自動車ユーザを介してのデータ収集及び学習は、費用的、現実的限界がある。したがって、このような問題を解決するために、様々なドメインに強硬なオブジェクト検出器研究の必要性が台頭している。
【0004】
既存の研究等は、オブジェクト検出器のドメイン適応のために、特徴抽出ステップ、地域提案抽出ステップ、及び地域提案範疇分類ステップの3つのステップに区分しており、特に、特徴抽出ステップで転移可能地域に集中してドメイン適応を行っている。
【0005】
すなわち、既存の方式は、3つのステップのうちの一部情報のみを活用しており、各ステップが互いに密接に相互連関しているオブジェクト検出器の本質を見過ごしている。したがって、既存のように、各ステップの一部のみを選択し、相互関係を見過ごしたドメイン適応方法は、否定的なドメイン転移(negative transfer)を引き起こすことがある。
【先行技術文献】
【特許文献】
【0006】
【文献】韓国公開特許第10-2020-0038846号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、上記従来の問題点に鑑みてなされたものであって、本発明の目的は、ドメイン適応オブジェクト検出器の構造の全てを使用して、各段階別情報に適したドメイン適応を適用するオブジェクト検出器の相互関係及び転移可能地域を考慮したオブジェクト検出器ドメイン適応学習技術を提供することにある。
【課題を解決するための手段】
【0008】
上記目的を達成するためになされた本発明の一態様によるマルチ-レベル転移領域(Multi-level Transferable Region)に基づくドメイン適応型オブジェクト検出装置は、アンラベルターゲットデータ(unlabeled target data)を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出するイメージレベルフィーチャ部と、前記イメージレベルフィーチャをRPN(Region Proposal Network)に提供してRPN-レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定するRPNレベルフィーチャ部と、前記領域候補に対する動的インスタンスサンプリング(Dynamic Instance Sampling)を行ってRoI(Region of Interest)プーリングフィーチャを抽出するインスタンスレベルフィーチャ部とを備えることを特徴とする。
【0009】
前記イメージレベルフィーチャ部は、前記複数のコンボリューションレイヤの各々から前記アンラベルターゲットデータの多重スケールフィーチャを収集し、前記多重スケールフィーチャを併合して転移可能アテンションマップを生成し得る。
【0010】
前記イメージレベルフィーチャ部は、前記転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介して前記イメージレベルフィーチャを生成し得る。
【0011】
前記RPNレベルフィーチャ部は、前記RPN-レベルドメイン適応の過程で前記RPNから出力された前景フィーチャ及びGRL(Gradient Reversal Layer)に基づくドメイン分類器(Dbox)を経由したドメイン分類フィーチャを併合してRPN-レベルドメインフィーチャを生成し得る。
【0012】
前記RPNレベルフィーチャ部は、前記転移領域フィルタリングの過程で前記RPN-レベルドメインフィーチャを受信し、背景領域を取り除いて前記領域候補を決定し得る。
【0013】
前記インスタンスレベルフィーチャ部は、前景確率及びイメージ硬度点数間の不一致を基に前記領域候補の個数を調節し得る。
【0014】
前記装置は、前記RoIプーリングフィーチャをDCN(Deformable Convolutional Networks)に提供して、前記アンラベルターゲットデータにあるオブジェクトを検出するオブジェクト検出部をさらに備え得る。
【0015】
上記目的を達成するためになされた本発明の一態様によるマルチ-レベル転移領域(Multi-level Transferable Region)に基づくドメイン適応型オブジェクト検出方法は、アンラベルターゲットデータ(unlabeled target data)を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出するステップと、前記イメージレベルフィーチャをRPN(Region Proposal Network)に提供してRPN-レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定するステップと、前記領域候補に対する動的インスタンスサンプリング(Dynamic Instance Sampling)を行ってRoI(Region of Interest)プーリングフィーチャを抽出するステップとを含むことを特徴とする。
【0016】
前記イメージレベルフィーチャを抽出するステップは、前記複数のコンボリューションレイヤの各々から前記アンラベルターゲットデータの多重スケールフィーチャを収集し、前記多重スケールフィーチャを併合して転移可能アテンションマップを生成するステップを含み得る。
【0017】
前記イメージレベルフィーチャを抽出するステップは、前記転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介して前記イメージレベルフィーチャを生成するステップを含み得る。
【0018】
前記RoIプーリングフィーチャを抽出するステップは、前景確率及びイメージ硬度点数間の不一致を基に前記領域候補の個数を調節するステップを含み得る。
【0019】
前記方法は、前記RoIプーリングフィーチャをDCN(Deformable Convolutional Networks)に提供して、前記アンラベルターゲットデータにあるオブジェクトを検出するステップをさらに含み得る。
【発明の効果】
【0020】
本発明は、次の効果を奏する。ただし、特定の実施形態が次の効果を全て含むとか、次の効果のみを含むという意味ではなく、本発明の技術範囲は、これによって限定されない。
【0021】
本発明によるマルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法は、様々な環境でもオブジェクトを検出できるオブジェクト検出器を製作できるので、データ収集の時間的、経済的費用の減少により、付加的な業務を減少させることができる。
【0022】
本発明によるマルチ-レベル転移領域に基づくドメイン適応型オブジェクト検出装置及び方法は、画像データの収集だけでもオブジェクト検出が可能であるので、昼/夜間、気象状況、地形、国家等、様々な環境にこだわらないという点においてオブジェクト検出器を適用したプラットホームの供給を加速化することができる。
【図面の簡単な説明】
【0023】
図1】本発明によるドメイン適応型オブジェクト検出装置の機能的構成を説明する図である。
図2】本発明によるドメイン適応型オブジェクト検出方法を説明する順序図である。
図3】本発明によるドメイン適応型オブジェクト検出方法のフレームワークを説明する図である。
図4】本発明による転移領域フィルタリング過程を説明する図である。
図5】本発明に関する実験結果を説明する図である。
図6】本発明に関する実験結果を説明する図である。
図7】本発明に関する実験結果を説明する図である。
図8】本発明に関する実験結果を説明する図である。
図9】本発明に関する実験結果を説明する図である。
図10】本発明に関する実験結果を説明する図である。
図11】本発明によるドメイン適応型オブジェクト検出装置のシステム構成を説明する図である。
図12】本発明によるドメイン適応型オブジェクト検出システムを説明する図である。
【発明を実施するための形態】
【0024】
本発明は、下記の研究課題をもって支援を受けて出願された。
〔この発明を支援した国家研究開発事業〕
[課題固有番号] 1711126082
[課題番号] 2020-0-01361-002
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] 情報通信企画評価院
[研究事業名] 情報通信放送革新人材養成(R&D)
[研究課題名] 人工知能大学院支援(延世大学校)
[寄与率] 1/2
[課題実行機関名] 延世大学校産学協力団
[研究期間] 2021.01.01~2021.12.31
〔この発明を支援した国家研究開発事業〕
[課題固有番号] 1711134177
[課題番号] 2019R1A2C2003760
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] 韓国研究財団
[研究事業名] 個人基礎研究(科技情通部)(R&D)
[研究課題名] 特性情報自動生成を介しての初めて見る複合カテゴリー
のイメージとビデオ生成及び認識のためのゼロショット
学習技術研究
[寄与率] 1/2
[課題実行機関名] 延世大学校
[研究期間] 202.03.01~202.02.28
本発明に関する説明は、構造的ないし機能的説明のための実施形態に過ぎないので、本発明は、本明細書で説明された実施形態によって限定されない。すなわち、実施形態は、様々な変更が可能であり、種々の形態を有し得るので、本発明の技術範囲は、技術的思想を実現できる均等物等を含む。また、本発明において提示された目的または効果は、特定の実施形態がこれを全部含むとか、そのような効果だけを含むという意味ではないので、本発明の技術範囲は、これによって限定されない。
【0025】
一方、本明細書に記載される用語の意味は、次のように理解される。
【0026】
「第1」、「第2」などの用語は、1つの構成要素を他の構成要素から区別するためのものであって、これらの用語によって技術範囲は限定されない。例えば、第1構成要素は第2構成要素と命名され得る、同様に、第2構成要素も第1構成要素と命名され得る。
【0027】
ある構成要素が他の構成要素に「連結されて」いると記載された場合には、他の構成要素に直接連結され得るが、中間に他の構成要素が存在することもできる。これに対し、ある構成要素が他の構成要素に「直接連結されて」いると記載された場合には、中間に他の構成要素は存在しない。一方、構成要素等の間の関係を説明する他の表現、すなわち、「~間に」と「すぐ~間に」、または「~に隣り合う」と「~に直接隣り合う」なども同様に解釈される。
【0028】
単数の表現は、文脈上明白に異なるように定義しない限り、複数の表現を含む。「含む」または「有する」などの用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものが存在することを指定するものであり、1つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものなどの存在または付加の可能性を予め排除しない。
【0029】
各ステップにおいて、識別符号(例えば、a、b、cなど)は、説明の便宜のために使用されるものであって、識別符号は、各ステップの順序を説明するものではなく、各ステップは、文脈上明白に特定の順序を記載しない限り、明記された順序とは異なるように行われる。すなわち、各ステップは、明記された順序と同様に行われるか、実質的に同時に行われるか、反対の順序通りに行われ得る。
【0030】
本発明は、コンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードとして実現され、コンピュータ読み取り可能な記録媒体は、コンピュータシステムによって読み取られるデータが格納されるあらゆる種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例には、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク(登録商標)、光データ格納装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータ読み取り可能なコードが格納されて、実行され得る。
【0031】
本明細書で使用されるあらゆる用語は、特に定義されない限り、本発明の属する技術分野における通常の知識を有する者により一般的に理解されるものと同じ意味を有する。一般的に使用される辞書に定義されている用語は、関連技術の文脈上有する意味と一致すると解釈され、本明細書において明白に定義しない限り、理想的であるか、過度に形式的な意味を有するとは解釈されない。
【0032】
教師なし学習基盤のドメイン適応オブジェクト検出器は、注釈が不十分であるか、存在しない目標ドメインで効果的にオブジェクトを検出するモデルを学習するために、注釈が十分であり、目標ドメインと関連のあるソースドメインを利用する方法論に該当する。既存の研究は、主に、地域提案ネットワーク(Region Proposal Network)を利用した2つのステップ基盤のオブジェクト検出モデルを利用する。特に、当該検出器を、1)特徴(feature)抽出ステップ(image-level)、2)地域提案抽出ステップ(RPN-level)、3)地域提案範疇分類ステップ(instance-level)に分け、3つのステップのうちの一部を選択してステップ特性に合う敵対的学習を介してソースドメインとターゲットドメインとの間の特徴差を最小化する。
【0033】
また、既存の研究は、敵対的学習法(adversarial training)を利用して分類器の損失関数を最小化しつつ、同時にドメイン分類器の損失関数を最大化するように学習する。これを通じてドメイン間の特徴差が最小化され得る。最近の研究は、オブジェクト検出器の特性を考慮して、特徴抽出ステップで関心のあるオブジェクトが含まれ得る領域に重点をおいて、2つのドメインの敵対的学習を進行する方法を活用する。すなわち、転移可能地域に集中した敵対的学習方法が活用され得る。
【0034】
図1は、本発明によるドメイン適応型オブジェクト検出装置の機能的構成を説明する図である。
【0035】
図1に示すように、ドメイン適応型オブジェクト検出装置100は、イメージレベルフィーチャ部110、RPNレベルフィーチャ部130、インスタンスレベルフィーチャ部150、オブジェクト検出部170、及び制御部190を備える。
【0036】
イメージレベルフィーチャ部110は、アンラベルターゲットデータ(unlabeled target data)を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出する。イメージレベルフィーチャ部110は、オブジェクト検出器の特徴抽出ステップにおける動作を行う。すなわち、イメージレベルフィーチャ部110は、特徴抽出ステップの全ての特徴を融合した情報と、これを受信したドメイン分類器のエントロピー情報(uncertainty)とを最後のグローバル特徴に乗ずる動作を行う。結果的に、イメージレベルフィーチャ部110は、以後のステップで活用されるグローバル特徴(global feature)に対してドメイン不変の特徴を強調すると同時に、各ドメインの特化された特徴(例えば、背景情報)は弱化させて、より剛健な適応型オブジェクト検出器を学習させる。
【0037】
一実施形態において、イメージレベルフィーチャ部110は、複数のコンボリューションレイヤの各々からアンラベルターゲットデータの多重スケールフィーチャを収集し、多重スケールフィーチャを併合して転移可能アテンションマップを生成する。理論的に、特徴抽出ステップ内の各レイヤを介して全て転移可能領域を取得できる。低レベルの特徴(または、フィーチャ)で転移可能領域を導出すれば、輪郭線のような構造的に詳しい情報を取得できるが、同時に背景領域も転移可能なものと見なされて、探知性能は低下する。それとは逆に、高レベルの特徴で転移可能領域を導出すれば、オブジェクト検出のための脈絡情報を取得できる。すなわち、この場合、低レベルの転移可能領域とは異なり、背景情報がオブジェクト検出に活用されないため、情報が弱化され得る。しかし、受信フィールド(receptive field)が大きいので、転移可能性を評価しながら小さいオブジェクトの情報を容易に抜かすことができる。
【0038】
したがって、イメージレベルフィーチャ部110は、多重スケールの特徴を融合した後、転移可能領域を予測したマップ(すなわち、転移可能アテンションマップ)をグローバル特徴に乗ずる動作によって既存のレイヤの特徴情報の短所を最小化し、全ての利点を活用する。一実施形態において、イメージレベルフィーチャ部110は、転移可能アテンションマップとグローバルフィーチャとの間の乗算演算を介してイメージレベルフィーチャを生成する。
【0039】
RPNレベルフィーチャ部130は、イメージレベルフィーチャをRPN(Region Proposal Network)に提供してRPN-レベルドメイン適応及び転移領域フィルタリング(転移可能領域フィルタリングともいう)を行うことにより領域候補を決定する。すなわち、RPNレベルフィーチャ部130は、転移可能領域を活用した地域抽出ステップにおける動作を行う。より具体的に、RPNレベルフィーチャ部130は、一般的な地域抽出ステップで生成された地域サンプル(region proposal)の中でオブジェクト性(objectness)と転移可能性(transferability)とを全て考慮して前景地域を抽出する。このために、RPNレベルフィーチャ部130は、RPN-レベルドメイン適応過程と転移領域フィルタリング過程とを行う。
【0040】
一実施形態において、RPNレベルフィーチャ部130は、RPN-レベルドメイン適応過程でRPNから出力された前景フィーチャ及びGRL(Gradient Reversal Layer)に基づくドメイン分類器(Dbox)を経由したドメイン分類フィーチャを併合してRPN-レベルドメインフィーチャを生成する。RPNレベルフィーチャ部130は、RPN-レベルドメイン適応過程を介して地域抽出ステップで存在するドメイン差を減らす。
【0041】
一実施形態において、RPNレベルフィーチャ部130は、転移領域フィルタリング過程でRPN-レベルドメインフィーチャを受信し、背景領域を取り除いて領域候補を決定する。RPNレベルフィーチャ部130は、転移領域フィルタリング過程を介してドメイン不変の特徴を入れた前景地域サンプル(foreground region proposal)を抽出する。このために、RPNレベルフィーチャ部130は、転移可能性を考慮してオブジェクト点数を再加重(re-weight)する。このとき、再加重方法は、RPN-レベルドメイン適応過程で生成された地域別エントロピー(entropy)値を転移可能性点数として使用してオブジェクト点数(objectness score)との乗算演算を介して進められる。再加重されたオブジェクト点数は、既存の地域抽出ステップのNMS(non-maximum suppression)ステップに活用されて、領域候補として最終核心地域インスタンス(region of interest)が生成され得る。結果的に、RPNレベルフィーチャ部130は、転移可能性を考慮してドメイン不変の領域候補を抽出する。
【0042】
インスタンスレベルフィーチャ部150は、領域候補に対する動的インスタンスサンプリング(Dynamic Instance Sampling)を行ってRoI(Region of Interest)プーリングフィーチャを抽出する。既存の地域提案範疇分類ステップ(instance-level)は、地域提案ステップで抽出された複数の地域提案(または、領域候補)でRoIプーリング(RoI pooling)を介して核心地域提案を抽出する。まず、ソースドメインの場合、抽出ステップで正解ボックスラベルを用いて正解ボックスに近い核心地域提案を抽出する。それとは逆に、ターゲットドメインの場合、正解ボックスがないので、複数の地域提案の中でオブジェクト点数(objectness score)が高い上位N個の地域提案を抽出する。しかし、ターゲットドメインの場合、初期学習ステップで不正確な地域提案を生成するため、このような設定は、全体的なモデル学習ステップに否定的な影響を及ぼす。したがって、インスタンスレベルフィーチャ部150は、2個の要素の値をN個乗じた後、2つの値の平均を利用してターゲットドメインの地域提案の個数を動的に決定する。
【0043】
1番目の要素として、上位N個のソースドメインの地域サンプルとターゲットドメインの地域サンプルとのオブジェクト点数のカルバックライブラー発散(Kullback-Leibler divergence)を利用する。学習が進行して、ドメインの差が減ると、2つのドメインの上位N個の地域提案のオブジェクト点数の様態が類似するようになるので、当該要素値をNに乗じた値は、学習が進行するほど、増加する。
【0044】
2番目の要素として、オブジェクト検出器の特徴抽出ステップ(image-level)と地域提案範疇分類ステップ(instance-level)との関係が考慮され得る。直観的に、ターゲットドメインの特徴がソースドメインに属する確率が高い場合、すなわち、ソースドメインと特徴が類似した場合、地域提案範疇分類の結果の性能が高く出る。この点を考慮して、多重スケールフィーチャを用いた転移可能領域を生成するために使用したドメイン分類器のドメイン確率値を2番目の要素として使用する。これも学習が進行して、ドメインの差が減ると、2つのドメインの特徴が類似するようになるので、当該要素値をNに乗じた値は、学習が進行するほど、増加する。最終的に、当該2つの値の平均を利用して地域提案の個数を動的に設定する。
【0045】
一実施形態において、インスタンスレベルフィーチャ部150は、前景確率及びイメージ硬度点数間の不一致を基に領域候補の個数を調節する。インスタンスレベルフィーチャ部150は、動的インスタンスサンプリング(DIS)を介して初期学習ステップで不正確な結果のために発生する否定的な影響を除去する。
【0046】
オブジェクト検出部170は、RoIプーリングフィーチャをDCN(Deformable Convolutional Networks)に提供してアンラベルターゲットデータ(unlabeled target data)にあるオブジェクトを検出する。オブジェクト検出部170は、インスタンスレベルフィーチャ部150を介して抽出されたRoIプーリングフィーチャを予め構築されたDCNに入力して、ラベルが指定されなかったターゲットイメージからオブジェクト情報を抽出する。イメージレベルフィーチャ部110、RPNレベルフィーチャ部130、及びインスタンスレベルフィーチャ部150は、オブジェクト検出のための各ステップ別情報に適したドメイン適応が適用され得るし、これにより、インスタンスレベルフィーチャ部150を介して抽出される最終的なRoIプーリングフィーチャは、より正確度の高いオブジェクト検出のための特徴情報を含む。
【0047】
制御部190は、ドメイン適応型オブジェクト検出装置100の全体的な動作を制御し、イメージレベルフィーチャ部110、RPNレベルフィーチャ部130、インスタンスレベルフィーチャ部150、及びオブジェクト検出部170の間の制御の流れまたはデータの流れを管理する。
【0048】
図2は、本発明によるドメイン適応型オブジェクト検出方法を説明する順序図である。
【0049】
図2に示すように、ドメイン適応型オブジェクト検出装置100は、イメージレベルフィーチャ部110を介してアンラベルターゲットデータ(unlabeled target data)を複数のコンボリューションレイヤに提供してイメージレベルフィーチャを抽出する(ステップS210)。
【0050】
ドメイン適応型オブジェクト検出装置100は、RPNレベルフィーチャ部130を介してイメージレベルフィーチャをRPN(Region Proposal Network)に提供して、RPN-レベルドメイン適応及び転移領域フィルタリングを行うことによって領域候補を決定する(ステップS230)。
【0051】
ドメイン適応型オブジェクト検出装置100は、インスタンスレベルフィーチャ部150を介して領域候補に対する動的インスタンスサンプリング(Dynamic Instance Sampling)を行ってRoI(Region of Interest)プーリングフィーチャを抽出する(ステップS250)。
【0052】
以下、図3図9を参照して本発明によるドメイン適応型オブジェクト検出方法についてより詳細に説明する。
【0053】
教師なしドメイン適応(UDA、Unsupervised Domain Adaptation)は、ラベルが指定されたソースドメイン(labeled source domain)で訓練されたモデルの知識を、ラベルが指定されなかったターゲットドメイン(unlabeled target domain)に転移する一種の転移学習(transfer learning)と見なされる。ここで、2つのドメインは、同じ作業(task)を共有する。UDAにおいてほとんどの接近方式は、ソースドメインとターゲットドメインとの間の周辺特徴分布(marginal feature distribution)、生成的接近(generative approaches)、及び疑似ラベル(pseudo-label)を使用した自己学習(self-training)などを含む。特に、ドメイン敵対的学習方法(domain-adversarial learning method)は、勾配反転レイヤ(GRL、Gradient Reversal Layer)を介してドメイン分類器(domain discriminator)を混同するように特徴生成器(feature generator)を学習するドメイン適応性能(domain adaptation performance)を画期的に改善する。
【0054】
UDAは、ドメイン移動が頻繁に発生し、注釈(annotation)に費用が多くかかるため、オブジェクト検出作業(object detection task)で多い関心を受けている。先駆的な作業(pioneering work)であるドメイン適応型(domain adaptive) Faster R-CNN(DA-Faster)は、2-ステップ検出器(two-stage detector)でドメイン差(domain gap)を減らす。DA-fasterは、バックボーン(backbone)におけるイメージレベル特徴(image-level feature)とRoIプーリング(pooling)以後、インスタンスレベル特徴(instance-level feature)に関する2個のレベルで適応を行う。当該作業でインスピレーションを得た種々の作業は、階層的ドメイン特徴分類器(hierarchical domain feature discriminator)を介してイメージレベルでドメイン差を減らすことを目標とする。一方、CT-DAは、地域提案ネットワーク(RPN、Region Proposal Network)とインスタンス分類器(instance classifier)との間の協業自己学習(collaborative self-training)を行う。HTCN及びMEAAは、ピクセル単位ドメインエントロピー(entropy)、すなわち、不確実性マスク(uncertainty mask)を測定することによりイメージの転移可能な領域を推定する。それにもかかわらず、一部構成要素に対してのみドメイン整列(domain alignment)を行う以前作業では、オブジェクト検出パイプライン(object detection pipeline)の全ての構成要素が必須不可欠であり、密接に相互連関する点が見過ごされ得る。これとは逆に、本発明は、全ての構成要素の転移可能性を考慮する。
【0055】
本発明のベースライン(baseline)として、特徴抽出器(feature extractor)、地域提案ネットワーク(RPN)、及び最終予測のための完全連結レイヤ(fully-connected layer)で構成されたFaster R-CNNが適用され得る。まず、完全にラベルが指定されたソースデータセット(D={X、Y})を基にベースライン検出器(baseline detector)を学習する。ここで、Xは、イメージセット{x}であり、Yは、正解(ground-truth)ラベルセット{y}である。各ラベルyは、xで当該カテゴリーと連関したバウンディングボックス(bounding box)で構成される。全体学習損失は、次の数式0のように定義される。
【0056】
【数0】
【0057】
各々RPNレベル損失(RPN-level loss)、インスタンスレベル回帰損失(instance-level regression loss)、分類損失(classification loss)である。
【0058】
ここで、本発明による方法の目標は、ラベルが指定されなかったデータセット(unlabeled dataset)等(D={X})を含むターゲットドメインに対するモデル性能を向上させることである。目標達成のために、全てのレベルでソースドメインとターゲットドメインとの間のドメイン差を減らす必要がある。すなわち、(1)バックボーンネットワークにより抽出されるイメージレベルフィーチャ、(2)領域提案を生成する完全なコンボリューションネットワーク(すなわち、RPN)で抽出されるRPNレベルフィーチャ、(3)最終分類及び回帰(regression)前のステップでRoIプーリングフィーチャに該当するインスタンスレベルフィーチャ。図3に示すように、このような方式にて全体レベルで2つのドメインのフィーチャ分布を整列し、3個のモジュール(すなわち、Multi-scale-aware Uncertainty Attention(MUA)、Transferable Region Proposal Network(TRPN)、及びDynamic Instance Sampling(DIS))を介して転移可能地域を導出する。
【0059】
適応型オブジェクト検出(adaptive object detection)の原理は、ドメインに関係なく、同じオブジェクト範疇のドメイン-不変意味情報(domain-variant semantic information)を抽出することである。アテンションメカニズム(attention mechanism)を参照してドメイン観点で区別不可能な転移可能領域のガイダンス(guidance)を提供するために、空間アテンションマップ(spatial attention map)をモデリングする。空間不確実性(spatial uncertainty)を推定することにより、各空間位置のドメイン差を測定できる。空間不確実性は、次の数式1のように、分類器の出力エントロピーにより計算される。
【0060】
【数1】
【0061】
ここで、
は、1番目のレイヤ以後、i番目のイメージのフィーチャであり、Dは、ピクセル単位ドメイン分類器である。出力ドメイン確率(output domain probability)
からピクセル単位エントロピー
を推定する。
【0062】
理論的に、エントロピーマップ
は、レイヤインデックスlに関係なく取得される。低レベルフィーチャ(low-level feature)で
を抽出する場合、小さく、遠い前景を検出するのに寄与するドメイン-不変の構造的に詳しい情報を取得できる。しかし、エントロピーマップは、背景領域(例えば、木、空等)も転移可能なものと見なされるため、検出性能が低下する。これとは異なり、高レベルフィーチャ(high-level feature)でエントロピーマップを抽出する場合、コンテクスト情報を反映できるので、背景をより良く区別することができる。しかし、大きい受信フィールド(receptive field)のため、転移可能性を評価する間、小さい物体を見過ごすことがある。したがって、本発明の場合、短所を最小化し、全ての利点を活用するために、多重スケールフィーチャを融合した後、不確実性アテンション(uncertainty attention)を推定する。
【0063】
まず、最終フィーチャと同じ空間解像度を有するように互いに異なるレイヤから取得したフィーチャのスケールを調整する。その後、フィーチャを連結し、統合されたフィーチャをマニホールド(manifold)に挿入する。また、多重スケールフィーチャ融合(multi-scale feature fusion)は、次の数式2のように表現される。
【0064】
【数2】
【0065】
ここで、
は、二重線形補間関数(bi-linear interpolation function)であり、[・」は、チャネル単位連結演算子(channel-wise concatenation operator)であり、
は、エンベディングのための1×1コンボリューションレイヤである。Lは、フィーチャ抽出器の合計レイヤ個数である。多重スケール表現Pを用いると、多重スケール認知不確実性アテンション(MUA、multi-scale-aware uncertainty attention)は次の数式3のように表現される。
【0066】
【数3】
【0067】
ここで、
は、融合されたフィーチャPのドメイン分類器であり、Eは、推定された不確実性アテンション(MUA)である。
【0068】
最後のステップとして、グローバル特徴(global feature)に空間不確実性アテンション(spatial uncertainty attention)を乗ずる。すなわち、
である。結果的に、不確実性アテンションは、ローカル及びグローバル特徴から転移可能な領域を導出することにより、様々な大きさのオブジェクトに対する表現能力を大きく向上させる。
【0069】
本発明の場合、RPN-レベルでドメイン差を緩和し、オブジェクト性(objectness)と転移可能性(transferability)とを全て考慮して前景領域を生成する新しい転移可能領域提案ネットワーク(TRPN、Transferable Region Proposal Network)を含む。
【0070】
以前の研究等を参照すると、イメージ-レベル及びインスタンス-レベルでドメイン分布を整列する場合、RPNがターゲットドメインで正しく動作するのに十分なものと予想される。しかし、前景予測に関する学習がソースドメインデータに偏向されるので、アンカー(anchor)の前景フィーチャにはドメイン差が依然として存在しうる。当該ドメイン差を解決するために、補助ドメイン分類器(auxiliary domain classifier)Dboxを活用し、勾配反転レイヤ(Gradient reversal layer)を介してRPN-レベルでドメイン差を最小化する。ボックスドメイン分類損失(box domain classification loss)は、次の数式4のように定義される。
【0071】
【数4】
【0072】
ここで、ドメイン分類器の出力確率は、
であり、Rは、領域提案等の個数であり、rは、i番目のイメージで各領域提案のインデックスである。ソースドメインのイメージである場合、ドメインラベルdは、0であり、そうでない場合、1である。
【0073】
RPNは、まず、互いに異なるアンカーを有する様々な領域提案を抽出した後、前景確率(foreground probability)、すなわち、オブジェクト性(objectness)によって背景領域をフィルタリングする。しかし、ドメイン適応シナリオ(domain adaptation scenario)では、前景分類器がソースドメインに偏向されるため、ターゲットドメインで予測されたオブジェクト性は信頼することができない。結果的に、情報領域提案(informative region proposal)は、低いオブジェクト点数(objectness score)を有し、提案選択プロセス(proposal selection process)(例えば、non-maximum suppression)から除去される。当該問題を緩和するために、出力ドメイン確率のエントロピーを活用して、各領域提案の転移可能性を推定する。具体的に、本発明の場合、各領域提案のエントロピーを
で計算する。ここで、高いエントロピーは、ボックスがドメイン観点で区別され得ないことを表す。次に、取得したドメイン転移可能性
にオブジェクト性分類器の点数
を乗じ、RPNのコンボリューション階層を参照して再加重された(re-weighted)オブジェクト点数
が導出される。その後、再加重されたオブジェクト点数を考慮して重複領域(overlapping region)を除去するために、NMS(Non-maximum suppression)が行われる。図4において、本発明によるフィルタリング戦略は、転移可能性を考慮することによって情報領域を格納する。
【0074】
インスタンスレベル適応のために、以前の方法等は、2つのドメインでRoIプーリングのために選択された領域提案を適用する。このとき、2つのドメインは、(1)正解(ground-truth)として生成された領域提案を使用するソースドメインと、(2)固定された上位N個の地域提案をサンプリングするターゲットドメインとを含む(例えば、N=300)。しかし、当該設定は、初期学習ステップで不正確なターゲットインスタンス(提案)のため、否定的な影響を及ぼす恐れがある。したがって、本発明の場合、前景確率の差とイメージ硬度点数(image hardness score)によってNを調整する動的インスタンスサンプリング(DIS、Dynamic Instance Sampling)を含む。まず、ソースとターゲットドメインで領域の前景確率間のKL発散(Kullback-Leibler divergence)を測定する。KL発散を活用して、ソースと比較されるターゲットドメインでモデルの相対的な混乱度(relative perplexity)を推定する。
【0075】
発散の補修(complement)は、
に推定され、ここで、KL(・)は、KL発散であり、
は、各々ソースドメインイメージ及びターゲットドメインイメージで選択されたr番目の領域提案の前景確率である。
【0076】
また、ターゲットフィーチャがソースドメインに近いほど、モデルがより高い再現率(recall rate)を有するべきであると推測される。このような直観から、イメージのドメイン確率は、Nに対する追加的な制御パラメータ(control parameter)と考慮される。ドメイン確率、すなわち、硬度点数(hardness score)は、多重スケール融合フィーチャPのドメインを区別するように学習された補助ドメイン分類器Ddisと測定される。ターゲットイメージ
に対するサンプルの最終個数Nfinalは、次のように計算される。
【0077】
総損失は、各レイヤの探知損失(detection loss)と敵対的損失(adversarial loss)とで構成され、次のように定義される。
全体目的関数(objective function)は、次の数式5のように定義される。
【0078】
【数5】
【0079】
ここで、{D}は、全体ネットワークでDdisを除いたドメイン分類器等の集合、すなわち、
であり、Fは、特徴抽出器等である。推論(inference)の間、DIS及び敵対的学習は行われず、MUA及び転移可能領域は、推定される。
【0080】
以下、図5図10を参照して本発明によるドメイン適応型オブジェクト検出方法に関する実験結果を具体的に説明する。
【0081】
ここでは、本発明によるモデル性能評価のために、5個のデータセットであるCityscape、Foggy-Cityscape、KITTI、Sim10k、及びBDD100kが使用され、次の表1のように表現される。
【0082】
【表1】
【0083】
また、公正な比較のために、RoIAlignとともに、VGG-16基盤のFaster R-CNNが適用される。初期学習率は、1e-3に設定され、初めの50,000回繰り返す間に固定された後、20,000回繰り返しする度に1e-4に減少する。また、最適化のために、モーメンタムが0.9であるSGD(Stochastic Gradient Descent)オプティマイザ(optimizer)が適用される。また、縦横割合を維持しながら、縦長さが600ピクセルになるように各イメージの大きさを調整する。単一バッチ(single batch)には、各ドメインに対して1個、合計2個のイメージが含まれる。Sim10K-to-Cityscapesの場合、λは、他のドメイン適応シナリオで1に設定されるのに対し、ここでは、0.1に設定される。また、PyTorchで実現され、単一GTX2080Tiでモデルを学習し、テストする。
【0084】
様々な教師なしドメイン適応オブジェクト検出ベンチマーク(unsupervised domain adaptive object detection benchmarks)で本発明による方法の効率性を検証する。図5の上段部分を参照すると、本発明による方法は、Cityscapes→FoggyCityscapesで41.3%の性能を見せることにより、以前の方法等よりさらに高い性能を達成する。特に、本発明による方法は、大きいインスタンス(例えば、トラック、バス、及び汽車)で驚くべき性能向上を提供する。これは、多重スケールフィーチャ融合戦略(multi-scale feature fusion strategy)とグローバルイメージ表現能力(global image representation ability)とオブジェクト正確度(objectness accuracy)とを向上させるTRPNのためである。また、本発明による方法は、Cityscapes to-BDD100Kベンチマークで以前の方法等を3.1%の大きい差で乗り越える。特に、BDD100Kの難しい特性にもかかわらず、小さいインスタンス(例えば、人及び自転車)に対する感知性能が大きく向上する。図6の自動車専用適応シナリオ(car-only adaptation scenario)、すなわち、KITTI-to-Cityscapes及びSim10k-to-Cityscapesでも本発明による方法は、それぞれ44.2%及び47.1%のmAPを達成して、以前の最先端技術を乗り越える。
【0085】
図7において、より良い比較のために、Cityscapes-to-FoggyCityscapes及びCityscapes-to-BDD100Kの定性的結果が図示されている。ターゲットドメインの濃い霧は、特に、図7の(a)のように、遠くにあるオブジェクトに対する正確な認識を妨害する。MEAAは、ローカルレベルアテンションマップ(local-level attention map)の助けで基準線よりもオブジェクトをより良く感知できるが、依然としてノイズ活性化(noisy activation)のため、一部オブジェクトをキャプチャできないことがある(図7の2行及び4行参照)。例えば、1番目のサンプルの大きいバスは、低い信頼度で部分的に感知され、2番目のイメージでは、遠くにある自動車が無視される。これとは異なり、本発明による方法は、ほとんど全てのオブジェクトをよく捕捉することができる。具体的に、TRPN(Transferable Region Proposal Network)は、様々な形態のアンカー(anchor)からオブジェクト性分布(objectness distribution)のドメイン差を効果的に最小化するので、大型バスを正確に検出することができる。また、多重スケール認知不確実性アテンション(MUA)は、ローカル及びグローバルイメージ情報を提供して、モデルが誤検知ボックス(false positive box)なしに2番目のサンプルで小型自動車をキャプチャすることができる。
【0086】
本発明による構成要素であるMUA、TRPN、及びDISの有効性を検証するために、比較研究(ablation study)を行う。図8のように、各構成要素は、性能向上に寄与する。また、MUAの転移可能領域ガイダンスが全ての範疇でmAPを0.8%向上させて、性能に利点を提供する。TRPNに対する深層分析のために、RPN-レベルドメイン適応(RDA、RPN-level Domain Adaptation)と再加重オブジェクト性(RWO、Re-Weighted Objectness)との2つの部分に区分する。3行と4行に表示された結果は、性能を1.3%向上させることによってRDAの重要性を表す。また、RWOは、領域提案のエントロピーでオブジェクト性を補完して、より正確な探知に寄与する。また、DIS(Dynamic Instance Sampling)は、領域サンプリングプロセスにドメイン差の範囲を統合してモデルを効果的に向上させる。まとめると、全ての構成要素は、オブジェクト検出パイプラインの各水準でドメイン差を考慮して設計されたので、全ての構成要素が有益であり、互いに補完するように結合される。
【0087】
また、ターゲットフィーチャがソースドメインに近づくにつれて、再現率(recall rate)が増加すべきであるというDISの動機(motivation)を実験的に検証することができる。図9において、X軸とY軸とが各々ドメイン確率(domain probability)と再現率(recall rate)であるターゲットドメインで500個のイメージに対する散布図(scattered plot)が図示されている。再現率とドメイン確率との間の関係を調査するために、ピアソンの相関係数(Pearson correlation coefficient)を測定する。結果的に、測定された相関係数は、0.58であって、強い正の相関があることを表す。本発明によるDIS(Dynamic Instance Sampling)は、ターゲットドメインイメージの出力ドメイン確率を考慮して、N、すなわち、選択しようとする領域提案の個数を補正する。図10を参照して、DISの効果を定性的に分析する。図10の(b)において、共通top-Nサンプリング戦略(common top-N sampling strategy)は、大きいドメイン差により、背景を含んで不適当な領域提案(unpropitious region proposal)を選択する。これとは異なり、DISは、Nfinalを自動に調整するので、背景領域は除外しながら前景領域を選択する。
【0088】
本発明によるドメイン適応型オブジェクト検出方法は、各レベルに対する多重スケール認知不確実性アテンション(MUA)、転移可能領域提案ネットワーク(TRPN)、及び動的インスタンスサンプリング(DIS)の3つの構成要素で構成された新しいフレームワークを含む。本発明によるドメイン適応型オブジェクト検出方法は、オブジェクト検出器のパイプラインに対して全体レベルでドメイン差を効果的に整列し、転移可能領域を伝達してDAODに対する転移可能性(transferability)と判別可能性(discriminability)とを極大化する。本発明によるドメイン適応型オブジェクト検出方法は、広範な実験を介して効率性が検証され得るし、様々なドメイン適応シナリオで最先端性能を達成できる。
【0089】
図11は、本発明によるドメイン適応型オブジェクト検出装置のシステム構成を説明する図である。
【0090】
図11に示すように、ドメイン適応型オブジェクト検出装置100は、プロセッサ1110、メモリ1130、ユーザ入出力部1150、及びネットワーク入出力部1170を備える。
【0091】
プロセッサ1110は、本発明の実施形態によるドメイン適応型オブジェクト検出プロシージャを実行し、このような過程で読み取られるか、又は書き込まれるメモリ1130を管理し、メモリ1130にある揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールする。プロセッサ1110は、ドメイン適応型オブジェクト検出装置100の動作伝搬を制御し、メモリ1130、ユーザ入出力部1150、及びネットワーク入出力部1170に電気的に連結されて、これらの間のデータの流れを制御する。プロセッサ1110は、ドメイン適応型オブジェクト検出装置100のCPU(Central Processing Unit)で具現される。
【0092】
メモリ1130は、SSD(Solid State Disk)またはHDD(Hard Disk Drive)のような不揮発性メモリで具現されて、ドメイン適応型オブジェクト検出装置100に必要なデータ伝搬を格納するのに使用される補助記憶装置を含み、RAM(Random Access Memory)のような揮発性メモリで具現された主記憶装置を含む。また、メモリ1130は、電気的に連結されたプロセッサ1110により実行されることで、本発明によるドメイン適応型オブジェクト検出方法を実行する命令等の集合を格納する。
【0093】
ユーザ入出力部1150は、ユーザ入力を受信するための環境及びユーザに特定情報を出力するための環境を含み、例えば、タッチパッド、タッチスクリーン、画像キーボード、またはポインティング装置のようなアダプタを含む入力装置及びモニターまたはタッチスクリーンのようなアダプタを含む出力装置を含む。一実施形態において、ユーザ入出力部1150は、遠隔接続を介して接続されるコンピューティング装置に該当し、そのような場合、ドメイン適応型オブジェクト検出装置100は、独立的なサーバーとして行われる。
【0094】
ネットワーク入出力部1170は、ネットワークを介してユーザ端末1210に連結されるための通信環境を提供し、例えば、LAN(Local Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、及びVAN(Value Added Network)などの通信のためのアダプタを含む。また、ネットワーク入出力部1170は、データの無線送信のために、WiFi(登録商標)、ブルートゥース(登録商標)などの近距離通信機能や4G以上の無線通信機能を提供するように具現される。
【0095】
図12は、本発明によるドメイン適応型オブジェクト検出システムを説明する図である。
【0096】
図12に示すように、ドメイン適応型オブジェクト検出システム1200は、ユーザ端末1210、ドメイン適応型オブジェクト検出装置100、及びデータベース1230を備える。
【0097】
ユーザ端末1210は、ユーザにより運用される端末装置に該当する。本発明の実施形態においてユーザは、1つ以上のユーザと理解され、複数のユーザは、1つ以上のユーザグループに区分される。また、ユーザ端末1210は、ドメイン適応型オブジェクト検出システム1200を構成する1つの装置であって、ドメイン適応型オブジェクト検出装置100と連動して動作するコンピューティング装置に該当する。例えば、ユーザ端末1210は、ドメイン適応型オブジェクト検出装置100に連結されて動作可能なスマートフォン、ノートブック、またはコンピュータで具現され、必ずしもこれに限定されず、タブレットPCなどを含んで様々なデバイスとしても具現される。また、ユーザ端末1210は、ドメイン適応型オブジェクト検出装置100と連動するための専用プログラムまたはアプリケーション(または、アプリ、app)を設けて実行する。
【0098】
ドメイン適応型オブジェクト検出装置100は、本発明においてドメイン適応型オブジェクト検出方法を行うコンピュータまたはプログラムに該当するサーバーで具現される。また、ドメイン適応型オブジェクト検出装置100は、ユーザ端末1210と有線ネットワークまたはブルートゥース(登録商標)、WiFi(登録商標)、LTE(登録商標)などのような無線ネットワークで連結され、ネットワークを介してユーザ端末1210とデータを送受信する。
【0099】
また、ドメイン適応型オブジェクト検出装置100は、関連動作を行うために、独立された外部システム(図1に図示せず)に連結されて動作するように具現される。例えば、ドメイン適応型オブジェクト検出装置100は、ポータルシステム、SNSシステム、クラウドシステムなどと連動して様々なサービスを提供するように具現される。
【0100】
データベース1230は、ドメイン適応型オブジェクト検出装置100の動作過程で必要な様々な情報を格納する格納装置に該当する。例えば、データベース1230は、イメージに関する情報を格納し、学習データとモデルに関する情報を格納し、必ずしもこれに限定されず、ドメイン適応型オブジェクト検出装置100が本発明によるドメイン適応型オブジェクト検出方法を行う過程で様々な形態で収集または加工された情報を格納する。
【0101】
また、図12において、データベース1230は、ドメイン適応型オブジェクト検出装置100とは独立的な装置として図示されているが、必ずしもこれに限定されず、論理的な格納装置としてドメイン適応型オブジェクト検出装置100に含まれて具現され得る。
【0102】
以上、本発明の望ましい実施形態を参照して説明したが、当該技術分野の熟練した当業者は、本発明の思想及び技術領域から逸脱しない範囲内で本発明を様々に修正及び変更させ得る。
【符号の説明】
【0103】
100 ドメイン適応型オブジェクト検出装置
110 イメージレベルフィーチャ部
130 RPNレベルフィーチャ部
150 インスタンスレベルフィーチャ部
170 オブジェクト検出部
190 制御部
1110 プロセッサ
1130 メモリ
1150 ユーザ入出力部
1170 ネットワーク入出力部
1200 ドメイン適応型オブジェクト検出システム
1210 ユーザ端末
1230 データベース

図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12