特許第6853592号(P6853592)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特許6853592ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1×1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
<>
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000002
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000003
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000004
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000005
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000006
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000007
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000008
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000009
  • 特許6853592-ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING  METHOD  AND  LEARNING  DEVICE  FOR  OBJECT  DETECTOR  BASED  ON  CNN  USING  1×1  CONVOLUTION  TO  BE  USED  FOR  HARDWARE  OPTIMIZATION,  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6853592
(24)【登録日】2021年3月16日
(45)【発行日】2021年3月31日
(54)【発明の名称】ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1×1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
(51)【国際特許分類】
   G06T 7/00 20170101AFI20210322BHJP
   G06T 7/11 20170101ALI20210322BHJP
   G06N 3/04 20060101ALI20210322BHJP
   G06N 3/08 20060101ALI20210322BHJP
【FI】
   G06T7/00 350C
   G06T7/11
   G06N3/04
   G06N3/08
【請求項の数】28
【全頁数】31
(21)【出願番号】特願2020-2334(P2020-2334)
(22)【出願日】2020年1月9日
(65)【公開番号】特開2020-119541(P2020-119541A)
(43)【公開日】2020年8月6日
【審査請求日】2020年1月10日
(31)【優先権主張番号】16/254887
(32)【優先日】2019年1月23日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】110000039
【氏名又は名称】特許業務法人アイ・ピー・ウィン
(74)【復代理人】
【識別番号】100120628
【弁理士】
【氏名又は名称】岩田 慎一
(72)【発明者】
【氏名】金桂賢
(72)【発明者】
【氏名】金鎔重
(72)【発明者】
【氏名】金寅洙
(72)【発明者】
【氏名】金鶴京
(72)【発明者】
【氏名】南雲鉉
(72)【発明者】
【氏名】夫碩▲くん▼
(72)【発明者】
【氏名】成明哲
(72)【発明者】
【氏名】呂東勳
(72)【発明者】
【氏名】柳宇宙
(72)【発明者】
【氏名】張泰雄
(72)【発明者】
【氏名】鄭景中
(72)【発明者】
【氏名】諸泓模
(72)【発明者】
【氏名】趙浩辰
【審査官】 ▲広▼島 明芳
(56)【参考文献】
【文献】 米国特許第10007865(US,B1)
【文献】 特開2018−022484(JP,A)
【文献】 特開2019−008460(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 − 7/90
G06N 3/04 − 3/08
(57)【特許請求の範囲】
【請求項1】
CNN基盤の物体検出器のパラメータを学習する方法において、
(a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)して統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させる段階;
(b)前記学習装置が、第1の1x1コンボリューションレイヤをもって、前記統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させる段階;及び
(c)前記学習装置が、(c1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、(c2)検出レイヤ(Detecting Layer)をもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(c3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階;
を含むことを特徴とする学習方法。
【請求項2】
前記(a)段階以後、
前記学習装置は、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることにより、前記RPNロスをバックプロパゲーションして前記RPNのパラメータの少なくとも一部を学習することを特徴とする請求項1に記載の学習方法。
【請求項3】
前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、
前記(a)段階で、
前記学習装置は、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする請求項1に記載の学習方法。
【請求項4】
前記第1の1x1コンボリューションレイヤ内のフィルタの個数をKとし、前記第2の1x1コンボリューションレイヤ内のフィルタの個数をLとする場合、
前記(b)段階で、
前記学習装置は、
前記第1の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がKであるNx1xKのボリュームを有する前記第1調整特徴マップ(Adjusted Feature Map)を生成させ、前記第2の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする請求項3に記載の学習方法。
【請求項5】
前記(c)段階で、
前記学習装置は、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個のプロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、前記N個のプロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項4に記載の学習方法。
【請求項6】
前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項1に記載の学習方法。
【請求項7】
前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項1に記載の学習方法。
【請求項8】
CNN基盤の物体検出器をテストする方法において、
(a)学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体に対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート(Concatenating)して学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートして前記学習用統合特徴マップを生成させ、(2)第1の1x1コンボリューションレイヤをもって、前記学習用統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記学習用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップをピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤ(Detecting Layer)をもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが入力されると、テスト装置が、(i)前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップを生成させ、(ii)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるか、(iii−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートして前記テスト用統合特徴マップを生成させる段階;
(b)前記テスト装置が、前記第1の1x1コンボリューションレイヤをもって、前記テスト用統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップを生成させ、前記第2の1x1コンボリューションレイヤをもって、前記テスト用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させる段階;及び
(c)前記テスト装置が、(c1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップをピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに対する前記テスト用物体クラス情報を生成させた後、(c2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階;
を含むことを特徴とするテスト方法。
【請求項9】
前記(1)プロセス以後、
前記学習装置は、RPNロスレイヤをもって、前記学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNのパラメータの少なくとも一部を学習することを特徴とする請求項8に記載のテスト方法。
【請求項10】
前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、
前記(a)段階で、
前記テスト装置は、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項8に記載のテスト方法。
【請求項11】
前記第1の1x1コンボリューションレイヤ内のフィルタの個数をKとし、前記第2の1x1コンボリューションレイヤ内のフィルタの個数をLとする場合、
前記(b)段階で、
前記テスト装置は、
前記第1の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がKであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、前記第2の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がLであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする請求項8に記載のテスト方法。
【請求項12】
前記(c)段階で、
前記テスト装置は、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個のテスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、前記N個のテスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項11に記載のテスト方法。
【請求項13】
前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項8に記載のテスト方法。
【請求項14】
前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項8に記載のテスト方法。
【請求項15】
CNN基盤の物体検出器のパラメータを学習する学習装置において、
インストラクションを格納する少なくとも一つのメモリと、
(I)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)して統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させるプロセス、(II)第1の1x1コンボリューションレイヤをもって、前記統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、(III−2)検出レイヤ(Detecting Layer)をもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(III−3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。
【請求項16】
前記(I)プロセス以後、
前記プロセッサは、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることにより、前記RPNロスをバックプロパゲーションして前記RPNのパラメータの少なくとも一部を学習することを特徴とする請求項15に記載の学習装置。
【請求項17】
前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、
前記(I)プロセスで、
前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする請求項15に記載の学習装置。
【請求項18】
前記第1の1x1コンボリューションレイヤ内のフィルタの個数をKとし、前記第2の1x1コンボリューションレイヤ内のフィルタの個数をLとする場合、
前記(II)プロセスにおいて、
前記プロセッサは、前記第1の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がKであるNx1xKのボリュームを有する前記第1調整特徴マップ(Adjusted Feature Map)を生成させ、前記第2の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする請求項17に記載の学習装置。
【請求項19】
前記(III)プロセスにおいて、
前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個のプロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、前記N個のプロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする請求項18に記載の学習装置。
【請求項20】
前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項15に記載の学習装置。
【請求項21】
前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項15に記載の学習装置。
【請求項22】
CNN基盤の物体検出器をテストするテスト装置において、
インストラクションを格納する少なくとも一つのメモリと、
学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体に対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルを前記学習用プロポーザルごとにコンカチネート(Concatenating)して学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルを前記学習用プロポーザルごとにコンカチネートして前記学習用統合特徴マップを生成させ、(2)第1の1x1コンボリューションレイヤをもって、前記学習用統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記学習用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップをピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤ(Detecting Layer)をもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、(I)(i)前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップを生成させ、(ii)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるか、(iii−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートして前記テスト用統合特徴マップを生成させるプロセス、(II)前記第1の1x1コンボリューションレイヤをもって、前記テスト用統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップを生成させ、前記第2の1x1コンボリューションレイヤをもって、前記テスト用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップをピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに対する前記テスト用物体クラス情報を生成させた後、(III−2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするテスト装置。
【請求項23】
前記(1)プロセス以後、
前記学習装置は、RPNロスレイヤをもって、前記学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNのパラメータの少なくとも一部を学習することを特徴とする請求項22に記載のテスト装置。
【請求項24】
前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、
前記(I)プロセスで、
前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする請求項22に記載のテスト装置。
【請求項25】
前記第1の1x1コンボリューションレイヤ内のフィルタの個数をKとし、前記第2の1x1コンボリューションレイヤ内のフィルタの個数をLとする場合、
前記(II)プロセスにおいて、
前記プロセッサは、前記第1の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がKであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、前記第2の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がLであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする請求項22に記載のテスト装置。
【請求項26】
前記(III)プロセスにおいて、
前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個のテスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、前記N個のテスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする請求項25に記載のテスト装置。
【請求項27】
前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする請求項22に記載のテスト装置。
【請求項28】
前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする請求項22に記載のテスト装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器のパラメータを学習する方法及び学習装置、これを利用したテスト方法及びテスト装置に関し、より詳細には、前記CNN基盤の前記物体検出器の前記パラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)して統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させる段階:(b)前記学習装置が、第1の1x1コンボリューションレイヤをもって、前記統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させる段階;及び(c)前記学習装置が、(c1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、(c2)検出レイヤ(Detecting Layer)をもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(c3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階;を含む学習方法、これを利用してテストする方法と、これを利用した学習装置及びテスト装置に関する。
【背景技術】
【0002】
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;Deep CNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解決するために90年代にすでに使用されていたが、現在のように広く使われるようになったのは最近の研究結果の賜物である。このようなディープCNNは、2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習(Machine Learning)分野で非常に有用なツールとなった。
このようなCNNは、イメージから特徴を抽出する特徴抽出器と、特徴抽出器から抽出された特徴を参照してイメージを認識するか、イメージ内の物体を検出する特徴分類器とで構成される。
【0003】
そして、CNNは、イメージで特徴を抽出する特徴抽出器(Feature Extractor)及びイメージ内の物体を検出したり特徴抽出器が抽出した特徴を参照してイメージを認識する特徴分類器(Feature Classifier)で構成される。
【0004】
そして、CNNの特徴抽出器はコンボリューションレイヤで構成され、特徴分類器は、特徴抽出器が抽出した特徴に対してFC演算(Fully Connected Operation)を適用することができるFCレイヤで構成される。
【0005】
しかしながら、このようなFCレイヤは入力された全ての特徴に対して重み付け値を生成しなければならない不便さがあり、入力されたすべての特徴に対してFC演算を遂行しなければならないため、コンピューティング演算量が多くなる短所がある。
【0006】
また、FCレイヤではFCレイヤに入力されるイメージのサイズがFCレイヤモデルの所定サイズと一致しなければならない。そのため、このようなFCレイヤを含むCNNに予め設定されたサイズと異なるトレーニングイメージまたはテストイメージが入力される場合、コンボリューションレイヤがトレーニングイメージやテストイメージに対して当該演算を適用することができるが、FCレイヤでは前記所定サイズと異なるサイズの入力イメージが入力されるため、トレーニングイメージやテストイメージに該当演算を適用することができない。
【0007】
したがって、本発明の発明者は、前記のようなFCレイヤの問題点を克服することができるようにするCNN基盤の物体検出器を提案することにする。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、上述した問題点を全て解決することをその目的とする。
【0009】
本発明は、入力イメージのサイズと関係なしに少なくとも一つの入力イメージ内に位置する物体を検出することができるようにするCNN基盤の物体検出器を提供することを他の目的とする。
【0010】
本発明は、特徴分類のための重み付け値の個数を最小化することができるようにするCNN基盤の物体検出器を提供することをまた他の目的とする。
【0011】
本発明は、特徴分類のためのコンピューティング演算量を減少させることができるようにするCNN基盤の物体検出器を提供することをまた他の目的とする。
【課題を解決するための手段】
【0012】
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。
【0013】
本発明の一態様によると、CNN基盤の物体検出器のパラメータを学習する方法において、(a)少なくとも一つのトレーニングイメージが入力されると、学習装置が、(i)少なくとも一つのコンボリューションレイヤをもって、前記トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)して統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させる段階;(b)前記学習装置が、第1の1x1コンボリューションレイヤをもって、前記統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させる段階;及び(c)前記学習装置が、(c1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、(c2)検出レイヤ(Detecting Layer)をもって、前記物体クラス情報と前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(c3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習する段階;を含むことを特徴とする。
【0014】
一実施例において、前記(a)段階以後、前記学習装置は、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることにより、前記RPNロスをバックプロパゲーションして前記RPNのパラメータの少なくとも一部を学習することを特徴とする。
【0015】
一実施例において、前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、前記(a)段階で、前記学習装置は、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする。
【0016】
一実施例において、前記第1の1x1コンボリューションレイヤ内のフィルタの個数をKとし、前記第2の1x1コンボリューションレイヤ内のフィルタの個数をLとする場合、前記(b)段階で、前記学習装置は、前記第1の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がKであるNx1xKのボリュームを有する前記第1調整特徴マップ(Adjusted Feature Map)を生成させ、前記第2の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする。
【0017】
一実施例において、前記(c)段階で、前記学習装置は、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個のプロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、前記N個のプロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする。
【0018】
一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする。
【0019】
一実施例において、前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする。
【0020】
本発明の一態様によると、CNN基盤の物体検出器をテストする方法において、(a)学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体に対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネート(Concatenating)して学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記学習用プロポーザルごとにコンカチネートして前記学習用統合特徴マップを生成させ、(2)第1の1x1コンボリューションレイヤをもって、前記学習用統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記学習用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップをピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤ(Detecting Layer)をもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、少なくとも一つのテストイメージが入力されると、テスト装置が、(i)前記コンボリューションレイヤをもって、前記テストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップを生成させ、(ii)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるか、(iii−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートして前記テスト用統合特徴マップを生成させる段階;(b)前記テスト装置が、前記第1の1x1コンボリューションレイヤをもって、前記テスト用統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップを生成させ、前記第2の1x1コンボリューションレイヤをもって、前記テスト用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させる段階;及び(c)前記テスト装置が、(c1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップをピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに対する前記テスト用物体クラス情報を生成させた後、(c2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させる段階;を含むことを特徴とする。
【0021】
一実施例において、前記(1)プロセス以後、前記学習装置は、RPNロスレイヤをもって、前記学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNのパラメータの少なくとも一部を学習することを特徴とする。
【0022】
一実施例において、前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、前記(a)段階で、前記テスト装置は、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする。
【0023】
一実施例において、前記第1の1x1コンボリューションレイヤ内のフィルタの個数をKとし、前記第2の1x1コンボリューションレイヤ内のフィルタの個数をLとする場合、前記(b)段階で、前記テスト装置は、前記第1の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がKであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、前記第2の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がLであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする。
【0024】
一実施例において、前記(c)段階で、前記テスト装置は、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個のテスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、前記N個のテスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする。
【0025】
一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする。
【0026】
一実施例において、前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする。
【0027】
本発明のまた他の態様によると、CNN基盤の物体検出器のパラメータを学習する学習装置において、インストラクションを格納する少なくとも一つのメモリと、(I)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの物体に対応する少なくとも一つのプロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を少なくとも一回適用させて前記プロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネート(Concatenating)して統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記初期特徴マップ上で前記プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記プロポーザルごとの前記プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記プロポーザルごとにコンカチネートして前記統合特徴マップを生成させるプロセス、(II)第1の1x1コンボリューションレイヤをもって、前記統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)第2トランスポーズレイヤをもって、前記第2調整特徴マップをピクセルごとに分離して前記プロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを前記ピクセルごとに分離して前記プロポーザルごとの前記ピクセル別特徴マップを生成し、前記プロポーザルごとの前記ピクセル別特徴マップを利用して前記プロポーザルそれぞれに対する前記物体クラス情報を生成させた後、(III−2)検出レイヤ(Detecting Layer)をもって、前記物体クラス情報と、前記プロポーザルごとの前記ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記物体に対応する物体検出情報を生成させ、(III−3)検出ロスレイヤをもって、前記物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスを利用したバックプロパゲーションを通じて前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。
【0028】
一実施例において、前記(I)プロセス以後、前記プロセッサは、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることにより、前記RPNロスをバックプロパゲーションして前記RPNのパラメータの少なくとも一部を学習することを特徴とする。
【0029】
一実施例において、前記プロポーザルの個数をNとし、前記プロポーザルごとの前記プーリング済み特徴マップの幅をM1、高さをM2とし、前記プロポーザルごとの前記プーリング済み特徴マップのチャンネル個数をJとする場合、前記(I)プロセスで、前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記プロポーザルごとの前記プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記統合特徴マップに変換させるようにすることを特徴とする。
【0030】
一実施例において、前記第1の1x1コンボリューションレイヤ内のフィルタの個数をKとし、前記第2の1x1コンボリューションレイヤ内のフィルタの個数をLとする場合、前記(II)プロセスにおいて、前記プロセッサは、前記第1の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がKであるNx1xKのボリュームを有する前記第1調整特徴マップ(Adjusted Feature Map)を生成させ、前記第2の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がLであるNx1xLのボリュームを有する前記第2調整特徴マップを生成させることを特徴とする。
【0031】
一実施例において、前記(III)プロセスにおいて、前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記第2調整特徴マップを、N個のプロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記第2調整特徴マップを、前記N個のプロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記プロポーザルごとの前記ピクセル別特徴マップに変換させることを特徴とする。
【0032】
一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする。
【0033】
一実施例において、前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする。
【0034】
本発明のまた他の態様によると、CNN基盤の物体検出器をテストするテスト装置において、インストラクションを格納する少なくとも一つのメモリと、学習装置は、(1)(i)少なくとも一つのコンボリューションレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、前記学習用初期特徴マップを利用して前記トレーニングイメージ内に位置する少なくとも一つの学習用物体に対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルを前記学習用プロポーザルごとにコンカチネート(Concatenating)して学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)前記プーリングレイヤをもって、前記学習用初期特徴マップ上で前記学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記学習用プロポーザルごとの前記学習用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルを前記学習用プロポーザルごとにコンカチネートして前記学習用統合特徴マップを生成させ、(2)第1の1x1コンボリューションレイヤをもって、前記学習用統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された学習用第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、前記学習用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させ、(3)(3−1)(i)第2トランスポーズレイヤをもって、前記学習用第2調整特徴マップをピクセルごとに分離して前記学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記学習用第2調整特徴マップを前記ピクセルごとに分離して前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップを利用して前記学習用プロポーザルそれぞれに対する前記学習用物体クラス情報を生成させた後、(3−2)検出レイヤ(Detecting Layer)をもって、前記学習用物体クラス情報と、前記学習用プロポーザルごとの前記学習用ピクセル別特徴マップとを参照して前記トレーニングイメージ内に位置する前記学習用物体に対応する学習用物体検出情報を生成させ、(3−3)検出ロスレイヤをもって、前記学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることで、前記物体検出ロスをバックプロパゲーションして前記第2の1x1コンボリューションレイヤ、前記第1の1x1コンボリューションレイヤ、及び前記コンボリューションレイヤのうち少なくとも一部のパラメータを学習した状態で、(I)(i)前記コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップを生成させ、(ii)前記RPNをもって、前記テスト用初期特徴マップを利用して前記テストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて前記テスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるか、(iii−2)前記プーリングレイヤをもって、前記テスト用初期特徴マップ上で前記テスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを生成し、前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを前記テスト用プロポーザルごとにコンカチネートして前記テスト用統合特徴マップを生成させるプロセス、(II)前記第1の1x1コンボリューションレイヤをもって、前記テスト用統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整されたテスト用第1調整特徴マップを生成させ、前記第2の1x1コンボリューションレイヤをもって、前記テスト用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させるプロセス、及び(III)(III−1)(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップをピクセルごとに分離して前記テスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを前記ピクセルごとに分離して前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを生成し、前記分類レイヤをもって、前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップを利用して前記テスト用プロポーザルそれぞれに対する前記テスト用物体クラス情報を生成させた後、(III−2)前記検出レイヤをもって、前記テスト用物体クラス情報と前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップとを参照して前記テストイメージ内に位置する前記テスト用物体に対応するテスト用物体検出情報を生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。
【0035】
一実施例において、前記(1)プロセス以後、前記学習装置は、RPNロスレイヤをもって、前記学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることで、前記RPNロスをバックプロパゲーションして前記RPNのパラメータの少なくとも一部を学習することを特徴とする。
【0036】
一実施例において、前記テスト用プロポーザルの個数をNとし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップの幅をM1、高さをM2とし、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップのチャンネル個数をJとする場合、前記(I)プロセスで、前記プロセッサは、(i)前記第1トランスポーズレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記テスト用統合特徴マップに変換させるようにするか、(ii)前記プーリングレイヤをもって、前記テスト用プロポーザルごとの前記テスト用プーリング済み特徴マップを幅がN、高さが1、チャンネル個数がM1xM2xJである前記テスト用統合特徴マップに変換させるようにすることを特徴とする。
【0037】
一実施例において、前記第1の1x1コンボリューションレイヤ内のフィルタの個数をKとし、前記第2の1x1コンボリューションレイヤ内のフィルタの個数をLとする場合、前記(II)プロセスにおいて、前記プロセッサは、前記第1の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がKであるNx1xKのボリュームを有する前記テスト用第1調整特徴マップ(Adjusted Feature Map)を生成させ、前記第2の1x1コンボリューションレイヤをもって、幅がN、高さが1であり、チャンネル個数がLであるNx1xLのボリュームを有する前記テスト用第2調整特徴マップを生成させることを特徴とする。
【0038】
一実施例において、前記(III)プロセスにおいて、前記プロセッサは、(i)前記第2トランスポーズレイヤをもって、前記テスト用第2調整特徴マップを、N個のテスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させるか、(ii)前記分類レイヤをもって、前記テスト用第2調整特徴マップを、前記N個のテスト用プロポーザルそれぞれに対応する幅1、高さ1、チャンネル個数がLである1x1xLのボリュームを有する前記テスト用プロポーザルごとの前記テスト用ピクセル別特徴マップに変換させることを特徴とする。
【0039】
一実施例において、前記分類レイヤは、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することを特徴とする。
【0040】
一実施例において、前記検出レイヤは、少なくとも一つのNMS(Non−Maximum Suppression)アルゴリズムを使用することを特徴とする。
【0041】
その他にも、本発明の方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読取り可能な記録媒体がさらに提供される。
【発明の効果】
【0042】
本発明は、コンボリューションレイヤのみでCNN基盤の物体検出器を具現することにより、入力イメージのサイズに関係なく入力イメージ内に位置する物体を検出することができる効果がある。
【0043】
また、本発明は、コンボリューションレイヤのみでCNN基盤の物体検出器を具現することにより、FCレイヤを利用する場合に比べて特徴分類のための重み付け値の個数を最小化することができる他の効果がある。
【0044】
また、本発明は、コンボリューションレイヤのみでCNN基盤の物体検出器を具現することにより、FCレイヤを利用する場合に比べて特徴分類のためのコンピューティング演算量を減少させ得るまた他の効果がある。
【図面の簡単な説明】
【0045】
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
【0046】
図1】本発明の一実施例によるCNN基盤の物体検出器を学習する学習装置を簡略に示したものである。
図2】本発明の一実施例によるCNN基盤の物体検出器を学習する方法を簡略に示したものである。
図3】本発明の一実施例によるCNN基盤の物体検出器を学習する方法においてプーリングレイヤによって生成されたプロポーザルごとのプーリング済み特徴マップを簡略に示したものである。
図4】本発明の一実施例によるCNN基盤の物体検出器を学習する方法において、プロポーザルごとのプーリング済み特徴マップを利用して生成された統合特徴マップを簡略に示したものである。
図5a】本発明の一実施例による、第1の1x1コンボリューションレイヤをもって、統合特徴マップに対してコンボリューション演算を少なくとも一回適用させて生成された第1調整特徴マップを簡略に示したものである。
図5b】本発明の一実施例による、第2の1x1コンボリューションレイヤをもって、第1調整特徴マップに対してコンボリューション演算を適用させて生成された第2調整特徴マップを簡略に示したものである。
図6】本発明の一実施例によるCNN基盤の物体検出器を学習する方法において、第2調整特徴マップを利用して生成されたプロポーザルごとのピクセル別特徴マップを簡略に示したものである。
図7】本発明の一実施例によるCNN基盤の物体検出器をテストするテスト装置を簡略に示したものである。
図8】本発明の一実施例によるCNN基盤の物体検出器をテストする方法を簡略に示したものである。
【発明を実施するための形態】
【0047】
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。
【0048】
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
【0049】
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
【0050】
さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
【0051】
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施するようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することとする。
【0052】
図1は、本発明の一実施例によるCNN基盤の物体検出器を学習する学習装置100を簡略に示したものであって、図1を参照すると、学習装置100は通信部110とプロセッサ120とを含むことができる。
【0053】
先ず、通信部110は、少なくとも一つのトレーニングイメージを受信することができる。
【0054】
この際、トレーニングイメージはデータベース130に格納されていてもよく、データベース130にはトレーニングイメージにそれぞれ対応する少なくとも一つの物体それぞれに対するクラス情報の少なくとも一つの原本正解(Ground Truth)及び前記物体に対する位置情報の少なくとも一つの原本正解が 格納されていてもよい。
【0055】
また、学習装置は、次のプロセスを遂行するためのコンピュータ読取り可能ななインストラクション(Instruction)を格納することができるメモリ115をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は統合プロセッサ(Integrated Processor)として統合され得る。
【0056】
次に、プロセッサ120は、(i)少なくとも一つのコンボリューションレイヤをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの初期特徴マップ(Initial Feature Map)を生成させるプロセス、(ii)RPNをもって、初期特徴マップを利用してトレーニングイメージ内に位置する物体それぞれに対応する少なくとも一つのプロポーザルを生成させるプロセス、及び(iii)(iii−1)プーリングレイヤをもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてプロポーザルごとのプーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをプロポーザルごとにコンカチネート(Concatenating)して統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)プーリングレイヤをもって、初期特徴マップ上でプロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させてプロポーザルごとのプーリング済み特徴マップを生成し、プーリングレイヤをもって、プロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをプロポーザルごとにコンカチネートして統合特徴マップを生成させるプロセスを遂行することができる。
【0057】
また、プロセッサ120は、第1の1x1コンボリューションレイヤをもって、統合特徴マップに対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップ500Bを生成させるプロセスを遂行することができる。その後、プロセッサ120は(i)第2トランスポーズレイヤをもって、第2調整特徴マップ500Bをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、プロポーザルごとのピクセル別特徴マップを利用してプロポーザルそれぞれに関する物体クラス情報を生成させるか、(ii)分類レイヤをもって、第2調整特徴マップ500Bをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップを生成し、プロポーザルごとのピクセル別特徴マップを利用してプロポーザルそれぞれに関する物体クラス情報を生成させるプロセスを遂行することができる。
【0058】
そして、プロセッサ120は、検出レイヤ(Detecting Layer)をもって、物体クラス情報とプロポーザルごとのピクセル別特徴マップとを参照してトレーニングイメージ内に位置する物体に対応する物体検出情報を生成させ、検出ロスレイヤをもって、物体検出情報とこれに対応する原本正解とを参照して少なくとも一つの物体検出ロスを算出させることにより、物体検出ロスをバックプロパゲーションして第2の1x1コンボリューションレイヤ、第1の1x1コンボリューションレイヤ、及びコンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行することができる。
【0059】
また、プロセッサ120は、RPNロスレイヤをもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることにより、RPNロスをバックプロパゲーションしてRPNのパラメータの少なくとも一部を学習することができる。
【0060】
ここで、物体検出ロス及びRPNロスによるバックプロパゲーションの時間的順序には制限がないであろう。
【0061】
この際、本発明の一実施例による学習装置100は、コンピューティング装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明に係る学習装置100として採択され得る。また、図1では一つの学習装置100のみを示したが、これに限定されず、学習装置は複数個に分けて役割を遂行することもできる。
【0062】
このように構成された本発明の一実施例による学習装置100を利用してCNN基盤の物体検出器のパラメータを学習する方法を、図2を参照して説明すると以下のとおりである。
【0063】
まず、トレーニングイメージが入力されると、学習装置100が、コンボリューションレイヤ121をもって、トレーニングイメージをコンボリューションに対してコンボリューション演算を適用させて初期特徴マップを出力させる。この際、コンボリューションレイヤ121は、トレーニングイメージ上に順次コンボリューション演算を適用するために単一コンボリューションレイヤ又は複数個のコンボリューションレイヤを含むことができる。
【0064】
そして、学習装置100は、RPN122をもって、初期特徴マップを利用してトレーニングイメージ内に位置する物体に対応する少なくとも一つのプロポーザルを生成させることができる。この際、RPN122は、トレーニングイメージ内に物体が位置するものと推定される候補領域に対応するROI候補を生成することができ、ROI候補のうち物体が位置するものと判断される確率が高い特定のROI候補をプロポーザルとして出力することができる。
【0065】
次に、学習装置100は、プーリングレイヤ123をもって、初期特徴マップ上でプロポーザルそれぞれに対応するそれぞれの領域をプーリングしてプロポーザルごとのプーリング済み特徴マップを生成させることができる。
【0066】
一実施例として、図3を参照すると、プロポーザルの個数をNとし、プロポーザルごとのプーリング済み特徴マップの幅をM1、高さをM2とし、プロポーザルごとのプーリング済み特徴マップのチャンネル個数をJとする場合、プロポーザルごとのプーリング済み特徴マップP1、P2、…、PNはそれぞれM1xM2xJのボリュームサイズを有することができる。
【0067】
次に、学習装置100は、第1トランスポーズレイヤ124をもって、プーリングレイヤ123から出力されたプロポーザルごとのプーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをプロポーザルごとにコンカチネートしてピクセル別特徴マップを生成させることができる。
【0068】
一例として、図3図4を参照すると、図3におけるプロポーザルごとのそれぞれのプーリング済み特徴マップP1、P2、…、PN上における最も左側上端のピクセルをそれぞれP1F11、P2F11、…、PNF11とする場合、P1F11、P2F11、…、PNF11をコンカチネートして、図4ですべてのチャンネルのうち最初のチャンネルに対応する最も前面にあるラインのように幅N、高さ1である統合特徴マップ400の第1部分が生成されるようにし、この過程をピクセルの残りの部分にも繰り返し実行する。そして、プロポーザルごとのプーリング済み特徴マップP1、P2、…、PNそれぞれにおけるピクセル個数と同一にチャンネル個数がM1xM2xJである統合特徴マップ400を生成することができる。
【0069】
先に説明したように、学習装置100が、第1トランスポーズレイヤ124をもって、プーリングレイヤ123から出力されたプロポーザルごとのプーリング済み特徴マップP1、P2、…、PNを利用して統合特徴マップ400を生成させることができる。他の例として、学習装置100が第1トランスポーズレイヤ124を使用せずに、プーリングレイヤ123をもって統合特徴マップを生成させることができる。つまり、学習装置100は、プーリングレイヤ123をもって、初期特徴マップ上でプロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてプロポーザルごとのプーリング済み特徴マップP1、P2、…、PNを生成させ、プロポーザルごとのプーリング済み特徴マップP1、P2、…、PN上の対応する同一の各位置それぞれのピクセルをプロポーザルごとにコンカチネートさせて統合特徴マップ400を生成させることができる。
【0070】
次に、学習装置100は、第1の1x1コンボリューションレイヤ125をもって、統合特徴マップ400に対して1x1コンボリューション演算を適用させてボリューム(Volume)が調整された第1調整特徴マップ500Aを生成させ、第2の1x1コンボリューションレイヤ126をもって、第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された第2調整特徴マップ500Bを生成させるプロセスを遂行することができる。
【0071】
一例として、図5aと図5bを参照すると、第1の1x1コンボリューションレイヤ125のフィルタの個数をKとし、第2の1x1コンボリューションレイヤ126のフィルタの個数をLとする場合、学習装置100は第1の1x1コンボリューションレイヤ125をもって、図4の統合特徴マップ400に対して1x1コンボリューション演算を適用させて図5aのように幅N、高さ1、チャンネル個数KであるNx1xKのボリューム(Volume)を有する第1調整特徴マップ500Aを生成させ、第2の1x1コンボリューションレイヤ126をもって、第1調整特徴マップ500Aに対して1x1コンボリューション演算を適用させて図5bのように幅N、高さ1、チャンネル個数LであるNx1xLのボリュームを有する第2調整特徴マップ500Bを生成させることができる。
【0072】
次に、学習装置100は、第2トランスポーズレイヤ127をもって、第2調整特徴マップ500Bをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップPW1、PW2、…及びPWNを生成させることができる。
【0073】
一例として、図6を参照すると、学習装置100は第2トランスポーズレイヤ127をもって、図5bのように幅N、高さ1、チャンネル個数Lであるボリュームを有する第2調整特徴マップ500Bをピクセルごとに分離してプロポーザルごとに幅1、高さ1、チャンネル個数Lであるピクセル別特徴マップPW1、PW2、…及びPWNを生成する。
【0074】
次に、学習装置100は、分類レイヤ128をもって、プロポーザルごとのピクセル別特徴マップPW1、PW2、…、及びPWNを利用してプロポーザルそれぞれに関する物体クラス情報を生成させることができる。この際、分類レイヤ128は、少なくとも一つのソフトマックス(Softmax)アルゴリズムを使用することができ、それぞれのプロポーザルが検出しようとするそれぞれの物体と一致するものと判断される確率情報を生成させることができる。
【0075】
先に説明したように、第2トランスポーズレイヤ127は、第2調整特徴マップ500Bを利用してプロポーザルごとのピクセル別特徴マップPW1、PW2、…、及びPWNを生成することができる。他の例として、分類レイヤ128は第2トランスポーズレイヤ127を使用せずに、第2調整特徴マップ500Bを利用してプロポーザルごとのピクセル別特徴マップを生成することができる。つまり、学習装置100は、分類レイヤ128をもって、第2調整特徴マップ500Bをピクセルごとに分離してプロポーザルごとのピクセル別特徴マップPW1、PW2、…、及びPWNを生成させ、分類レイヤ128をもって、プロポーザルごとのピクセル別特徴マップPW1、PW2、…及びPWNを利用してプロポーザルそれぞれに関する物体クラス情報を生成させることができる。
【0076】
次に、学習装置100は、検出レイヤ129をもって、物体クラス情報とプロポーザルごとのピクセル別特徴マップPW1、PW2、…及びPWNを参照してトレーニングイメージ内に位置する物体に対応する物体検出情報を生成させることができる。この際、検出レイヤ129は、NMS(Non−Maximum Suppression)アルゴリズムを使用することができ、単一の物体に複数のプロポーザルがタグ付けされた場合、そのうち確率の高い少なくとも一つの特定プロポーザルを選択して単一の物体に対応する物体検出情報として出力することができる。
【0077】
次に、学習装置100は、検出ロスレイヤ132をもって、物体検出情報とこれに対応する原本正解とを参照して少なくとも一つの物体検出ロスを生成させることにより、物体検出ロスをバックプロパゲーションして第2の1x1コンボリューションレイヤ126、第1の1x1コンボリューションレイヤ125、及びコンボリューションレイヤ121のうち少なくとも一部のパラメータを調整することができる。
【0078】
また、学習装置100は、RPN122に対応する少なくとも一つのRPNロスレイヤ131をもって、前記プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることにより、RPNロスをバックプロパゲーションしてRPN122の少なくとも一部のパラメータを調整することができる。
【0079】
前記のように、本発明の一実施例によるCNN基盤の物体検出器は、コンボリューションレイヤのみで構成されているので、従来のFCレイヤ(Fully Connected Layer)を利用したものとは異なって、FCレイヤに入力されるイメージのサイズに関係なしに入力イメージ内の物体を検出することができる。また、本発明の一実施例によるCNN基盤の物体検出器は、1x1コンボリューションのLC演算(Locally Connected Operation)を適用することにより、従来のFCレイヤのFC演算に比べてコンピューティング演算量を減少させ得るようになる。
【0080】
図7は、本発明の一実施例によるCNN基盤の物体検出器をテストするテスト装置200を簡略に示したものであって、図7を参照すると、テスト装置200は通信部210とプロセッサ220とを含むことができる。
【0081】
また、テスト装置は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション(Instruction)を格納することができるメモリ215をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は、統合プロセッサ(Integrated Processor)として統合され得る。
【0082】
参考までに、以下の説明で混同を避けるために、「学習用」という文句は前述の学習プロセスに関する用語について追加され、「テスト用」という文句はテストプロセスに関する用語について追加される。
【0083】
先ず、通信部210は、少なくとも一つのテストイメージを取得することができる。
【0084】
この際、本発明の一実施例によるCNN基盤の物体検出器は、図1ないし図6を参照して説明した学習方法によって学習された状態であり得る。
【0085】
つまり、少なくとも一つのトレーニングイメージが取得されると、学習装置は(a)(1)(i)少なくとも一つのコンボリューションレイヤをもって、トレーニングイメージに対してコンボリューション演算を少なくとも一回適用して少なくとも一つの学習用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、学習用初期特徴マップを利用してトレーニングイメージ内に位置する少なくとも一つの学習用物体それぞれに対応する少なくとも一つの学習用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、学習用初期特徴マップ上で学習用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させて学習用プロポーザルごとの学習用プーリング済み特徴マップを生成させ、第1トランスポーズレイヤ(Transposing Layer)をもって、学習用プロポーザルごとの学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを学習用プロポーザルごとにコンカチネート(Concatenating)して学習用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)プーリングレイヤをもって、学習用初期特徴マップ上で学習用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させて学習用プロポーザルごとの学習用プーリング済み特徴マップを生成し、プーリングレイヤをもって、学習用プロポーザルごとの学習用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれを学習用プロポーザルごとにコンカチネートして学習用統合特徴マップを生成させるプロセス;(b)第1の1x1コンボリューションレイヤをもって、学習用統合特徴マップに対して1x1コンボリューション演算を適用してボリューム(Volume)が調整された学習用第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、学習用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整された学習用第2調整特徴マップを生成させるプロセス;(c)(c1)(i)第2トランスポーズレイヤをもって、学習用第2調整特徴マップをピクセルごとに分離して学習用プロポーザルごとの学習用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、学習用プロポーザルごとの学習用ピクセル別特徴マップを利用して学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させるか、(ii)分類レイヤをもって、学習用第2調整特徴マップをピクセルごとに分離して学習用プロポーザルごとの学習用ピクセル別特徴マップを生成し、分類レイヤをもって、学習用プロポーザルごとの学習用ピクセル別特徴マップを利用して学習用プロポーザルそれぞれに対する学習用物体クラス情報を生成させ、(c2)検出レイヤ(Detecting Layer)をもって、学習用物体クラス情報と学習用プロポーザルごとの学習用ピクセル別特徴マップとを参照してトレーニングイメージ内に位置する学習用物体に対応する学習用物体検出情報を生成させ、(c3)検出ロスレイヤをもって、学習用物体検出情報とこれに対応する原本正解(Ground Truth)とを参照して少なくとも一つの物体検出ロスを算出させることにより、物体検出ロスをバックプロパゲーションして第2の1x1コンボリューションレイヤ、第1の1x1コンボリューションレイヤ、及びコンボリューションレイヤのうち少なくとも一部のパラメータを学習するプロセスを遂行した状態であり得る。
【0086】
また、学習装置は、RPNロスレイヤをもって、学習用プロポーザルとこれに対応する原本正解とを参照して少なくとも一つのRPNロスを算出させることにより、RPNロスをバックプロパゲーションしてRPNのパラメータの少なくとも一部を学習した状態であり得る。
【0087】
次に、プロセッサ220は、(i)コンボリューションレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を適用させて少なくとも一つのテスト用初期特徴マップ(Initial Feature Map)を生成させ、(ii)RPNをもって、テスト用初期特徴マップを利用してテストイメージ内に位置する少なくとも一つのテスト用物体に対応する少なくとも一つのテスト用プロポーザルを生成させ、(iii)(iii−1)プーリングレイヤをもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれに対してプーリング演算を適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成するようにし、第1トランスポーズレイヤ(Transposing Layer)をもって、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをテスト用プロポーザルごとにコンカチネート(Concatenating)してテスト用統合特徴マップ(Integrated Feature Map)を生成させるか、(iii−2)プーリングレイヤをもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応するそれぞれの領域に対してプーリング演算を適用させてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成し、プーリングレイヤをもって、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置のピクセルそれぞれをテスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させるプロセスを遂行することができる。そして、プロセッサ220は、第1の1x1コンボリューションレイヤをもって、テスト用統合特徴マップに対して1x1コンボリューション演算を適用してボリューム(Volume)が調整されたテスト用第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤをもって、テスト用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させるプロセスを遂行することができる。以後、プロセッサ220は、(i)第2トランスポーズレイヤをもって、テスト用第2調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップ(Pixel−Wise Feature Map)を生成させ、分類レイヤをもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるか、(ii)分類レイヤをもって、テスト用第2調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成し、分類レイヤをもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに関するテスト用物体クラス情報を生成させるプロセスを遂行することができる。そして、プロセッサ220は、検出レイヤ(Detecting Layer)をもって、テスト用物体クラス情報とテスト用プロポーザルごとのテスト用ピクセル別特徴マップとを参照してテストイメージ内に位置するテスト用物体に対応するテスト用物体検出情報を生成させることができる。
【0088】
この際、本発明の一実施例によるテスト装置200は、コンピューティング装置であって、プロセッサを搭載して演算能力を備えた装置であればいくらでも本発明によるテスト装置200として採択され得る。また、図7では一つのテスト装置200のみを示したが、これに限定されず、テスト装置は複数個に分けて役割を遂行することもできる。
【0089】
このように構成された本発明の一実施例によるテスト装置200を利用してCNN基盤の物体検出器のパラメータをテストする方法を、図8を参照して説明すると以下のとおりである。以下の説明において、図1ないし図6を参照して説明した学習方法から容易に理解可能な部分については詳細な説明を省略することとする。
【0090】
まず、図1ないし図6を参照して説明した学習方法によってコンボリューションレイヤ221、RPN222、第1の1x1コンボリューションレイヤ225、及び第2の1x1コンボリューションレイヤ226の少なくとも一部のパラメータが学習された状態で、テストイメージが入力されると、テスト装置200がコンボリューションレイヤ221をもって、テストイメージに対してコンボリューション演算を適用させてテスト用初期特徴マップを生成させる。この際、コンボリューションレイヤ221は、テストイメージに対して順次にコンボリューション演算を適用するために単一のコンボリューションレイヤまたは複数個のコンボリューションレイヤであり得る。
【0091】
そして、テスト装置200は、RPN222をもって、テスト用初期特徴マップを利用してテストイメージ内に位置するテスト用物体それぞれに対応する少なくとも一つのテスト用プロポーザルを生成させることができる。この際、RPN222は、テストイメージ内にテスト用物体が位置するものと推定されるテスト用候補領域に対応するテスト用ROI候補を生成させ、テスト用ROI候補のうちテスト用物体が位置するものと判断される確率が高い特定のテスト用ROI候補をテスト用プロポーザルとして出力することができる。
【0092】
次に、テスト装置200は、プーリングレイヤ223をもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれをプーリングさせてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させることができる。
【0093】
次に、テスト装置200は、第1トランスポーズレイヤ224をもって、プーリングレイヤ223から出力されたテスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをテスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを出力させることができる。
【0094】
一方、前記では、テスト装置200が第1トランスポーズレイヤ224をもって、プーリングレイヤ223から出力されたテスト用プロポーザルごとのテスト用プーリング済み特徴マップを利用してテスト用統合特徴マップを生成させた。その他の例として、テスト装置200は、第1トランスポーズレイヤ224を使用せずに、プーリングレイヤ223をもってテスト用統合特徴マップを生成させることができる。つまり、テスト装置200は、プーリングレイヤ223をもって、テスト用初期特徴マップ上でテスト用プロポーザルそれぞれに対応する領域それぞれをプーリングしてテスト用プロポーザルごとのテスト用プーリング済み特徴マップを生成させ、テスト用プロポーザルごとのテスト用プーリング済み特徴マップ上の対応する同一の各位置それぞれのピクセルをテスト用プロポーザルごとにコンカチネートしてテスト用統合特徴マップを生成させることができる。
【0095】
次に、テスト装置200は、第1の1x1コンボリューションレイヤ225をもって、テスト用統合特徴マップに対して1x1コンボリューション演算を適用してボリューム(Volume)が調整されたテスト用第1調整特徴マップを生成させ、第2の1x1コンボリューションレイヤ226をもって、テスト用第1調整特徴マップに対して1x1コンボリューション演算を適用させてボリュームが調整されたテスト用第2調整特徴マップを生成させるプロセスを遂行することができる。
【0096】
次に、テスト装置200は、第2トランスポーズレイヤ227をもって、テスト用第2調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させることができる。
【0097】
次に、テスト装置200は、分類レイヤ228をもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに対するテスト用物体クラス情報を生成させることができる。この際、分類レイヤ228は、ソフトマックスアルゴリズムを使用することができ、それぞれのテスト用プロポーザルが検出しようとするテスト用物体に対応するのかに関する確率情報を生成させることができる。
【0098】
一方、前記においては、第2トランスポーズレイヤ227はテスト用第2調整特徴マップを利用してテスト用プロポーザルごとのピクセル別特徴マップを生成することができる。その他の例として、第2トランスポーズレイヤ227を使用せずに、分類レイヤ228がテスト用第2調整特徴マップを利用してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させることができる。つまり、テスト装置200は、分類レイヤ228をもって、テスト用第2調整特徴マップをピクセルごとに分離してテスト用プロポーザルごとのテスト用ピクセル別特徴マップを生成させ、分類レイヤをもって、テスト用プロポーザルごとのテスト用ピクセル別特徴マップを利用してテスト用プロポーザルそれぞれに対するテスト用物体クラス情報を生成させることができる。
次に、テスト装置200は、検出レイヤ229をもって、テスト用物体クラス情報とテスト用プロポーザルごとのテスト用ピクセル別特徴マップとを参照してテストイメージ内に位置するテスト用物体に対応するテスト用物体検出情報を生成させることができる。この際、検出レイヤ229は、NMS(Non−Maximum Suppression)アルゴリズムを使用することができ、単一のテスト用物体に複数のテスト用プロポーザルがタグ付けされた場合、そのうち確率が高い特定のテスト用プロポーザルを単一のテスト用物体に対応するテスト用物体検出情報として選択することができる。
【0099】
本方法において、同一のプロセッサがコンボリューション演算及びFC演算を遂行するため、チップ(Chip)のサイズを小さくしてハードウェアを最適化してKPI(Key Performance Index、重要業績評価指標)を満たすことができる。したがって、半導体製作の過程において追加のラインを設置する必要がなく、電力節減、半導体ダイ(Die)内でFCモジュールの代わりに他のモジュールを設置するスペースが広くなるなどの長所がある。
【0100】
また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカル・ディスク(Floptical Disk)のような磁気−光メディア(Magneto−Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
【0101】
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
【0102】
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
【符号の説明】
【0103】
100:学習装置
200:テスト装置
110、210:通信部
120、220:プロセッサ
130:データベース
図1
図2
図3
図4
図5a
図5b
図6
図7
図8