特許第6720268号(P6720268)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特許6720268マルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置
<>
  • 特許6720268-マルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置 図000002
  • 特許6720268-マルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置 図000003
  • 特許6720268-マルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置 図000004
  • 特許6720268-マルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置 図000005
  • 特許6720268-マルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置 図000006
  • 特許6720268-マルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6720268
(24)【登録日】2020年6月19日
(45)【発行日】2020年7月8日
(54)【発明の名称】マルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20200629BHJP
   G06N 3/08 20060101ALI20200629BHJP
   G06N 3/04 20060101ALI20200629BHJP
【FI】
   G06T7/00 350C
   G06N3/08 140
   G06N3/04
【請求項の数】26
【外国語出願】
【全頁数】29
(21)【出願番号】特願2018-194078(P2018-194078)
(22)【出願日】2018年10月15日
(65)【公開番号】特開2019-75121(P2019-75121A)
(43)【公開日】2019年5月16日
【審査請求日】2018年11月14日
(31)【優先権主張番号】15/784,272
(32)【優先日】2017年10月16日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】110001737
【氏名又は名称】特許業務法人スズエ国際特許事務所
(72)【発明者】
【氏名】キム、ヨンジョン
(72)【発明者】
【氏名】ナム、ウンユン
(72)【発明者】
【氏名】ボ、シュクフン
(72)【発明者】
【氏名】シュン、ミュンチュル
(72)【発明者】
【氏名】エオ、ドンフン
(72)【発明者】
【氏名】リュウ、ウージュ
(72)【発明者】
【氏名】ジャン、タエウォン
(72)【発明者】
【氏名】ジョン、キュンジョン
(72)【発明者】
【氏名】ジェ、ホンモ
(72)【発明者】
【氏名】チョ、ホジン
【審査官】 ▲広▼島 明芳
(56)【参考文献】
【文献】 Tao Kong, et al.,HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,2016年 6月27日,pp.845-853,URL,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7780467
【文献】 Henry Wing Fung Yeun, et al,Improved performance of face recognition using CNN with constrained triplet loss layer,2017 International Joint Conference on Neural Networks (IJCNN),米国,2017年 5月14日,pp.1948-1955,URL,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7966089
【文献】 Sean Bell, et al.,Inside-Outside Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks,2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),米国,2016年 6月27日,pp.2874-2883,URL,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7780683
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00 − 7/90
G06N 3/04 − 3/08
(57)【特許請求の範囲】
【請求項1】
CNN(Convolutional Neural Network)を用いて、マルチスケールされた複数の特徴マップから学習イメージ上の客体に対応するバウンディングボックスの獲得を支援するための学習方法において、
(a)前記学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されると、学習装置が、N−way RPN(Region Proposal Network)をもって、マルチスケールされた前記複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するか獲得するように支援する段階;
(b)前記学習装置が、N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックスに対応る領域各々をプーリングして複数個のプーリング済み特徴マップを生成するか生成するように支援する段階;及び
(c)前記学習装置が、(i)FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス及び(ii)ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得し、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援する段階;
を含み、
前記複数のコンボリューションレイヤが少なくとも第kレイヤ、第k+1レイヤ(1≦k≦n。但し、nは2以上の自然数)を含み、前記第k+1レイヤは前記第kレイヤの演算以後に後行するレイヤとする時、
第k+1プーリング済み特徴マップに演算を遂行して前記FCレイヤから獲得した第k+1バウンディングボックスの領域に含まれたピクセルデータの個数は、第kプーリング済み特徴マップに同一の演算を遂行して前記FCレイヤから獲得した第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも多いか同じであり、
(i)前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第1臨界値よりも小さい場合、第1既設定コンボリューションフィルタの演算よりも先行する少なくとも一部のコンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力され、(ii)前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が前記所定の第1臨界値よりも大きいか同じ場合、前記第1既設定コンボリューションフィルタの演算よりも後行する少なくとも一部のコンボリューションフィルタの演算または前記第1既設定コンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力されることを特徴とする学習方法。
【請求項2】
前記(c)段階で、
前記学習装置が、(i)前記N−wayプーリングレイヤをもって、前記複数個のプーリング済み特徴マップをコンカチネートして所定の特徴ベクタを獲得するようにするプロセス、(ii)前記FCレイヤをもって、前記特徴ベクタに前記リグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス、及び(iii)前記ロスレイヤをもって、前記バウンディングボックスのピクセルデータに対する情報を前記原本正解バウンディングボックスのピクセルデータに対する情報と比較して前記第1比較データを獲得し、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節するプロセス;
を遂行するか遂行するように支援することを特徴とする請求項1に記載の学習方法。
【請求項3】
前記(a)段階で、
マルチスケールされた前記複数の特徴マップのうち前記少なくとも2個の特定特徴マップから生成された全体アンカーボックスのうち前記所定個数のプロポーザルボックスを獲得することにおいて、
前記学習装置が、前記原本正解バウンディングボックスを参照して前記全体アンカーボックス各々が少なくとも一つの客体を含むか否かを示す確率値であるスコアを求め、前記N−way RPNをもって、前記スコアを参照して前記所定個数のプロポーザルボックスを生成するようにすることを特徴とする請求項1に記載の学習方法。
【請求項4】
前記各々のスコアは、(i)前記全体アンカーボックス各々の領域と前記原本正解バウンディングボックスの領域の和集合(union)に該当する領域対比、(ii)前記全体アンカーボックス各々の領域と前記原本正解バウンディングボックスの領域の交差集合(intersection)に該当る領域の面積の比率を参照して決定された値であることを特徴とする請求項3に記載の学習方法。
【請求項5】
前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、マルチスケールされた前記複数の特徴マップのうち前記少なくとも2個の特定特徴マップが前記少なくとも2個の特定特徴マップ各々に対応る各々のRPN用コンボリューションフィルタに入力して前記RPN用コンボリューションフィルタの所定演算を通じて前記全体アンカーボックスの前記スコアまたは前記全体アンカーボックスの座標情報を獲得することを特徴とする請求項3に記載の学習方法。
【請求項6】
前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−MaximumSuppression)ユニットを含み、前記N−way RPNは、前記NMSユニットをもって、前記全体アンカーボックスのスコアのうちそのスコアの大きさが上位K個のスコアに該当するスコアを有する前記所定個数のプロポーザルボックスを選定するようにすることを特徴とする請求項3に記載の学習方法。
【請求項7】
前記学習イメージ上の客体と対応る前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第2臨界値よりも小さい場合、前記コンボリューション演算は前記複数のコンボリューションフィルタのうち第2既設定コンボリューションフィルタの演算よりも先行するコンボリューションフィルタの演算まで遂行され、前記演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されることを特徴とする請求項に記載の学習方法。
【請求項8】
前記(c)段階で、
前記学習装置は、(i)前記FCレイヤをもって、クラシフィケーション演算を通じて前記学習イメージの前記客体の種類に対する情報を獲得するようにするプロセス、及び(ii)前記ロスレイヤをもって、前記学習イメージの前記客体の種類に対する情報と前記原本正解(Ground Truth)の客体の種類に対する情報と比較して第2比較データを獲得するようにするプロセスを遂行し、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援することを特徴とする請求項1に記載の学習方法。
【請求項9】
CNN(Convolutional Neural Network)を含むテスティング装置を用いて、マルチスケールされた複数のテスト用特徴マップからテストイメージ上のテスト用客体に対応するテスト用バウンディングボックスの獲得を支援するための方法において、
(a)(1)学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた複数の特徴マップが獲得されると、学習装置が、N−way RPN(Region Proposal Network)をもって、マルチスケールされた前記複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するプロセス、(2)前記学習装置が、N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックスに対応る領域各々をプーリングして複数個のプーリング済み特徴マップを生成するプロセス、(3)前記学習装置が、FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにし、ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得して、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを完了した状態で、前記テストイメージに対するコンボリューション演算の結果としてマルチスケールされた前記複数のテスト用特徴マップが生成されると、前記テスト装置が、前記N−way RPNもって、マルチスケールされた前記複数のテスト用特徴マップのうち少なくとも2個のテスト用特定特徴マップを入力として獲得するようにし、前記N−way RPNをもって前記少なくとも2個のテスト用特定特徴マップに所定の演算を遂行して所定個数のテスト用プロポーザルボックスを獲得するようにするか獲得するように支援する段階;
(b)前記テスティング装置が、前記N−wayプーリングレイヤをもって、前記少なくとも2個のテスト用特定特徴マップ上で前記所定個数のテスト用プロポーザルボックスに対応る領域各々をプーリングして複数個のテスト用プーリング済み特徴マップを生成するようにするか生成するように支援する段階;及び
(c)前記テスティング装置が、前記FCレイヤをもって、前記複数個のテスト用プーリング済み特徴マップにリグレッション演算を通じて前記テスト用バウンディングボックスのピクセルデータに対する情報を獲得するようにするか獲得するように支援するようにする段階;
を含み、
前記複数のコンボリューションレイヤが少なくとも第kレイヤ、第k+1レイヤ(1≦k≦n。但し、nは2以上の自然数)を含み、前記第k+1レイヤは前記第kレイヤの演算以後に後行するレイヤとする時、
第k+1プーリング済み特徴マップに演算を遂行して前記FCレイヤから獲得した第k+1バウンディングボックスの領域に含まれたピクセルデータの個数は、第kプーリング済み特徴マップに同一の演算を遂行して前記FCレイヤから獲得した第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも多いか同じであり、
(i)前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第1臨界値よりも小さい場合、第1既設定コンボリューションフィルタの演算よりも先行する少なくとも一部のコンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力され、(ii)前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が前記所定の第1臨界値よりも大きいか同じ場合、前記第1既設定コンボリューションフィルタの演算よりも後行する少なくとも一部のコンボリューションフィルタの演算または前記第1既設定コンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力されることを特徴とする方法。
【請求項10】
前記(c)段階で、
前記テスティング装置が、(i)前記N−wayプーリングレイヤをもって、前記複数個のテスト用プーリング済み特徴マップをコンカチネートして所定のテスト用特徴ベクタを獲得するようにするプロセス、及び(ii)前記FCレイヤをもって、前記テスト用特徴ベクタに前記リグレッション演算を通じて前記テスト用バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセスを遂行するか遂行するように支援することを特徴とする請求項に記載のテスト方法。
【請求項11】
前記(a)段階で、
前記テスティング装置が、マルチスケールされた前記複数のテスト用特徴マップのうち前記少なくとも2個のテスト用特定特徴マップから生成された全体テスト用アンカーボックスのうち前記所定個数のテスト用プロポーザルボックスを獲得することにおいて、
前記原本正解バウンディングボックスを参照して前記全体テスト用アンカーボックス各々が少なくとも一つの客体を含むか否かを示す確率値であるスコアを求め、前記N−way RPNをもって、前記スコアを参照して前記所定個数のテスト用プロポーザルボックスを生成するようにすることを特徴とする請求項に記載の方法。
【請求項12】
前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、マルチスケールされた前記複数のテスト用特徴マップのうち前記少なくとも2個のテスト用特定特徴マップが前記少なくとも2個のテスト用特定特徴マップ各々に対応る各々のRPN用コンボリューションフィルタに入力して前記RPN用コンボリューションフィルタの所定演算を通じて前記全体テスト用アンカーボックスの前記スコアまたは前記全体テスト用アンカーボックスの座標情報を獲得することを特徴とする請求項1に記載の方法。
【請求項13】
前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記NMSユニットをもって、前記全体テスト用アンカーボックスのスコアのうちそのスコアの大きさが上位K個のスコアに該当するスコアを有する前記所定個数のテスト用プロポーザルボックスを選定するようにすることを特徴とする請求項1に記載の方法。
【請求項14】
CNN(Convolutional Neural Network)を用いて、マルチスケールされた複数の特徴マップから学習イメージ上の客体に対応するバウンディングボックスの獲得を支援するための学習装置において、
前記学習イメージを獲得するための通信部;及び
(1)前記学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されると、N−way RPN(Region Proposal Network)をもって、マルチスケールされた前記複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するか獲得するように支援するプロセス;(2)N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックスに対応る領域各々をプーリングして複数個のプーリング済み特徴マップを生成するか生成するように支援するプロセス;及び(3)(i)FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス及び(ii)ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得し、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援するプロセッサ;を含み、
前記複数のコンボリューションレイヤが少なくとも第kレイヤ、第k+1レイヤ(1≦k≦n。但し、nは2以上の自然数)を含み、前記第k+1レイヤは前記第kレイヤの演算以後に後行するレイヤとする時、
第k+1プーリング済み特徴マップに演算を遂行して前記FCレイヤから獲得した第k+1バウンディングボックスの領域に含まれたピクセルデータの個数は、第kプーリング済み特徴マップに同一の演算を遂行して前記FCレイヤから獲得した第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも多いか同じであり、
(i)前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第1臨界値よりも小さい場合、第1既設定コンボリューションフィルタの演算よりも先行する少なくとも一部のコンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力され、(ii)前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が前記所定の第1臨界値よりも大きいか同じ場合、前記第1既設定コンボリューションフィルタの演算よりも後行する少なくとも一部のコンボリューションフィルタの演算または前記第1既設定コンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力されることを特徴とする学習装置。
【請求項15】
前記(3)プロセスで、
前記プロセッサが、(i)前記N−wayプーリングレイヤをもって、前記複数個のプーリング済み特徴マップをコンカチネートして所定の特徴ベクタを獲得するようにするプロセス、(ii)前記FCレイヤをもって、前記特徴ベクタに前記リグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス、及び(iii)前記ロスレイヤをもって、前記バウンディングボックスのピクセルデータに対する情報を前記原本正解バウンディングボックスのピクセルデータに対する情報と比較して前記第1比較データを獲得し、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節するプロセス;
を遂行するか遂行するように支援することを特徴とする請求項1に記載の学習装置。
【請求項16】
前記(1)プロセスで、
マルチスケールされた前記複数の特徴マップのうち前記少なくとも2個の特定特徴マップから生成された全体アンカーボックスのうち前記所定個数のプロポーザルボックスを獲得することにおいて、
前記プロセッサが、前記原本正解バウンディングボックスを参照して前記全体アンカーボックス各々が少なくとも一つの客体を含むか否かを示す確率値であるスコアを求め、前記N−way RPNをもって、前記スコアを参照して前記所定個数のプロポーザルボックスを生成するようにすることを特徴とする請求項1に記載の学習装置。
【請求項17】
前記各々のスコアは、(i)前記全体アンカーボックス各々の領域と前記原本正解バウンディングボックスの領域の和集合(union)に該当する領域対比、(ii)前記全体アンカーボックス各々の領域と前記原本正解バウンディングボックスの領域の交差集合(intersection)に該当る領域の面積の比率を参照して決定された値であることを特徴とする請求項1に記載の学習装置。
【請求項18】
前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、マルチスケールされた前記複数の特徴マップのうち前記少なくとも2個の特定特徴マップが前記少なくとも2個の特定特徴マップ各々に対応る各々のRPN用コンボリューションフィルタに入力して前記RPN用コンボリューションフィルタの所定演算を通じて前記全体アンカーボックスの前記スコアまたは前記全体アンカーボックスの座標情報を獲得することを特徴とする請求項1に記載の学習装置。
【請求項19】
前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記NMSユニットをもって、前記全体アンカーボックスのスコアのうちそのスコアの大きさが上位K個のスコアに該当するスコアを有する前記所定個数のプロポーザルボックスを選定するようにすることを特徴とする請求項1に記載の学習装置。
【請求項20】
前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第2臨界値よりも小さい場合、前記コンボリューション演算は前記複数のコンボリューションフィルタのうち第2既設定コンボリューションフィルタの演算よりも先行するコンボリューションフィルタの演算まで遂行され、前記演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されることを特徴とする請求項14に記載の学習装置。
【請求項21】
前記(3)プロセスで、
前記プロセッサは、(i)前記FCレイヤをもって、クラシフィケーション演算を通じて前記学習イメージの前記客体の種類に対する情報を獲得するようにするプロセス、及び(ii)前記ロスレイヤをもって、前記学習イメージの前記客体の種類に対する情報と前記原本正解(Ground Truth)の客体の種類に対する情報と比較して第2比較データを獲得するようにするプロセスを遂行し、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援することを特徴とする請求項1に記載の学習装置。
【請求項22】
CNN(ConvolutionalNeuralNetwork)を含むテスティング装置を用いて、マルチスケールされた複数のテスト用特徴マップからテストイメージ上のテスト用客体に対応するテスト用バウンディングボックスの獲得を支援するためのテスティング装置において、
(i)学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた複数の特徴マップが獲得されると、学習装置が、N−way RPN(Region Proposal Network)をもって、マルチスケールされた前記複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するプロセス、(ii)前記学習装置が、N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックスに対応る領域各々をプーリングして複数個のプーリング済み特徴マップを生成するプロセス、(iii)前記学習装置が、FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにし、ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得して、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを完了した状態で、前記テストイメージを獲得するための通信部;及び
(1)前記N−way RPNもって、マルチスケールされた前記複数のテスト用特徴マップのうち少なくとも2個のテスト用特定特徴マップを入力として獲得するようにし、前記N−way RPNをもって前記少なくとも2個のテスト用特定特徴マップに所定の演算を遂行して所定個数のテスト用プロポーザルボックスを獲得するようにするか獲得するように支援するプロセス;(2)前記N−wayプーリングレイヤをもって、前記少なくとも2個のテスト用特定特徴マップ上で前記所定個数のテスト用プロポーザルボックスに対応る領域各々をプーリングして複数個のテスト用プーリング済み特徴マップを生成するようにするか生成するように支援するプロセス;及び(3)前記FCレイヤをもって、前記複数個のテスト用プーリング済み特徴マップにリグレッション演算を通じて前記テスト用バウンディングボックスのピクセルデータに対する情報を獲得するようにするか獲得するように支援するようにするプロセス;を遂行するプロセッサ;
を含み、
前記複数のコンボリューションレイヤが少なくとも第kレイヤ、第k+1レイヤ(1≦k≦n。但し、nは2以上の自然数)を含み、前記第k+1レイヤは前記第kレイヤの演算以後に後行するレイヤとする時、
第k+1プーリング済み特徴マップに演算を遂行して前記FCレイヤから獲得した第k+1バウンディングボックスの領域に含まれたピクセルデータの個数は、第kプーリング済み特徴マップに同一の演算を遂行して前記FCレイヤから獲得した第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも多いか同じであり、
(i)前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第1臨界値よりも小さい場合、第1既設定コンボリューションフィルタの演算よりも先行する少なくとも一部のコンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力され、(ii)前記学習イメージ上の客体と対応する前記原本正解の客体に該当する領域のピクセルデータの個数が前記所定の第1臨界値よりも大きいか同じ場合、前記第1既設定コンボリューションフィルタの演算よりも後行する少なくとも一部のコンボリューションフィルタの演算または前記第1既設定コンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力されることを特徴とするテスティング装置。
【請求項23】
前記(3)プロセスで、
前記プロセッサが、(i)前記N−wayプーリングレイヤをもって、前記複数個のテスト用プーリング済み特徴マップをコンカチネートして所定のテスト用特徴ベクタを獲得するようにするプロセス、及び(ii)前記FCレイヤをもって、前記テスト用特徴ベクタに前記リグレッション演算を通じて前記テスト用バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセスを遂行するか遂行するように支援することを特徴とする請求項2に記載のテスティング装置。
【請求項24】
前記(1)プロセスで、
前記テスティング装置が、マルチスケールされた前記複数のテスト用特徴マップのうち前記少なくとも2個のテスト用特定特徴マップから生成された全体テスト用アンカーボックスのうち前記所定個数のテスト用プロポーザルボックスを獲得することにおいて、
前記原本正解バウンディングボックスを参照して前記全体テスト用アンカーボックス各々が少なくとも一つの客体を含むか否かを示す確率値であるスコアを求め、前記N−way RPNをもって、前記スコアを参照して前記所定個数のテスト用プロポーザルボックスを生成するようにすることを特徴とする請求項2に記載のテスティング装置。
【請求項25】
前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、マルチスケールされた前記複数のテスト用特徴マップのうち前記少なくとも2個のテスト用特定特徴マップが前記少なくとも2個のテスト用特定特徴マップ各々に対応る各々のRPN用コンボリューションフィルタに入力して前記RPN用コンボリューションフィルタの所定演算を通じて前記全体テスト用アンカーボックスの前記スコアまたは前記全体テスト用アンカーボックスの座標情報を獲得することを特徴とする請求項2に記載のテスティング装置。
【請求項26】
前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記NMSユニットをもって、前記全体テスト用アンカーボックスのスコアのうちそのスコアの大きさが上位K個のスコアに該当するスコアを有する前記所定個数のテスト用プロポーザルボックスを選定するようにすることを特徴とする請求項2に記載のテスティング装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はマルチスケール特徴マップを利用してCNNのパラメータを調節するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置に関し、より詳細には、(a)前記学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されると、学習装置が、N−way RPN(Region Proposal Network)をもって、前記マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するか獲得するように支援する段階;(b)前記学習装置が、N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックス領域に対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成するか生成するように支援する段階;及び(c)前記学習装置が、(i)FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス及び(ii)ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得し、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援する段階;を含むCNN(Convolutional Neural Network)を用いて、マルチスケールされた複数の特徴マップから学習イメージ上の客体に対応するバウンディングボックスの獲得を支援するための学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置に関する。
【背景技術】
【0002】
マシンラーニングで、コンボリューションニューラルネットワーク(CNN、ConvNet)は視覚的イメージ分析に成功的に適用されたdeep、feed−forward人工ニューラルネットワークの一つのクラスである。
【0003】
図1は既存のCNNを用いた学習過程を示したものであって、学習装置によって予測されたバウンディングボックスを原本正解のバウンディングボックスと比較する過程を示した図面である。
【0004】
図1を参照すれば、既存の学習装置がバウンディングボックスを獲得してこれを原本正解のバウンディングボックスと比較してロス値を獲得する過程が示されている。ここで、ロスはバウンディングボックスと原本正解のバウンディングボックスの差値を意味して、図1ではdxc,dy,dw,dhと示されている。
【0005】
まず、図1に示されたような学習装置は入力としてRGBイメージを獲得してコンボリューションブロックに含まれる多数のコンボリューションレイヤ、多数のコンボリューションフィルタに入力させる。RGBイメージは多数個のコンボリューションレイヤを通過するにつれ大きさ、即ち、幅、高さが減少するが、チャネル数は増加する。
【0006】
図1の学習装置はRPN(REGION PROPOSAL NETWORK)をもって、前記コンボリューションブロックによって出力された最終的な特徴マップからプロポーザルボックスを獲得するようにし、プーリングレイヤ、即ちROIプーリングレイヤをもって、前記プロポーザルボックスに対応される前記特徴マップ上の領域に含まれたピクセルデータに対してマックスプーリングまたは平均プーリングのうちいずれか一つを適用して、プロポーザルボックスに対応される特徴マップ上の領域を、所定の大きさ(例えば、2×2サイズ)にリサイズさせる。その結果プーリングされた特徴マップが獲得される。ここで、マックスプーリング演算は、図1に示されたように、プーリング対象領域の各細部区域毎に該当細部区域で最大の値を代表値に各々選定する方法である。一方、平均プーリングは各細部区域毎に該当細部区域の平均値を代表値に各々選定する方法である。
【0007】
次に、マックスプーリングまたは平均プーリングによってプーリングされた特徴マップ(以下では”プーリング済み特徴マップ”とする)はFC(fully connected layer)レイヤに入力される。また、学習装置は、FCレイヤをもってクラシフィケーションなどの演算を通じて入力されたRGBイメージ上の客体の種類が何であるかを確認し得る。参考までに、前記プーリング済み特徴マップは特徴ベクタと称することもある。
【0008】
また、前記入力されたRGBイメージ上でのバウンディングボックスをFCレイヤによって獲得し得て、前記獲得されたバウンディングボックスを原本正解(ground truth)のバウンディングボックスと比較して差値であるロス値が求められ得る。ここで、原本正解のバウンディングボックスはRGBイメージ上の客体を正確に含むバウンディングボックスであって、一般的には人によって直接生成され得る。
【0009】
最後に、図1の学習装置はバックプロパゲーションを遂行しながら前記ロス値を減少させるためにFCレイヤのパラメータ、RPNのパラメータ、多数個のコンボリューションレイヤのパラメータのうち少なくともいずれか一つを調節し得る。前記パラメータを調節した後、テスト装置を通じてテストイメージ上の客体に対応されるバウンディングボックスを獲得するようにし得る。
【0010】
但し、前記調節されたパラメータを有するCNNを含むテスティング装置はいまだ客体を正確に含むバウンディングボックスを獲得できないという短所があった。これはコンボリューション演算がテストイメージに複数回遂行された結果獲得されたサイズが小さい特徴マップが利用されるため、特徴マップ上の一つのピクセルに対応される実際イメージ上のピクセルデータの個数が多いため、小さいピクセルデータの個数を含む客体を表現するには足りなかったためである。
【0011】
従って、本発明者はマルチスケールされた複数の特徴マップから正確度が高いバウンディングボックスを獲得する学習方法、学習装置及びこれを利用したテスティング方法、テスティング装置を提案しようとする。
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明は上述した問題点をすべて解決することを目的とする。
【0013】
また、本発明はプーリングレイヤを通じて、マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップ上で、N−way RPNから獲得された所定個数のプロポーザルボックス領域に対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成するようにすることを目的とする。
【0014】
また、本発明は前記複数個のプーリング済み特徴マップをコンカチネートし、これをFCレイヤに入力させてリグレッション演算を通じてバウンディングボックスを獲得して、前記獲得したバウンディングボックスを原本正解のバウンディングボックスと比較して獲得したロスを利用してバックプロパゲーションを遂行しながらパラメータを調節し得るようにすることを目的とする。
【0015】
また、本発明は前記調節されたパラメータで後にテストイメージ上でより正確な客体を含むバウンディングボックスが獲得され得るように支援することを他の目的とする。
【課題を解決するための手段】
【0016】
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記のとおりである。
【0017】
本発明の一態様によれば、CNN(Convolutional Neural Network)を用いて、マルチスケールされた複数の特徴マップから学習イメージ上の客体に対応するバウンディングボックスの獲得を支援するための学習方法は、(a)前記学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されると、学習装置が、N−way RPN(Region Proposal Network)をもって、前記マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するか獲得するように支援する段階;(b)前記学習装置が、N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックス領域に対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成するか生成するように支援する段階;及び(c)前記学習装置が、(i)FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス及び(ii)ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得し、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援する段階;を含む学習方法が提供される。
【0018】
一例として、前記(c)段階で、前記学習装置が、(i)前記N−wayプーリングレイヤをもって、前記複数個のプーリング済み特徴マップをコンカチネートして所定の特徴ベクタを獲得するようにするプロセス、(ii)前記FCレイヤをもって、前記特徴ベクタに前記リグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス、及び(iii)前記ロスレイヤをもって、前記バウンディングボックスのピクセルデータに対する情報を前記原本正解バウンディングボックスのピクセルデータに対する情報と比較して前記第1比較データを獲得し、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節するプロセス;を遂行するか遂行するように支援することを特徴とする学習方法が提供される。
【0019】
一例として、前記(a)段階で、前記マルチスケールされた特徴マップのうち前記少なくとも2個の特定特徴マップから生成された全体アンカーボックスのうち前記所定個数のプロポーザルボックスを獲得することにおいて、前記学習装置が、前記原本正解バウンディングボックスを参照して前記全体アンカーボックス各々が少なくとも一つの客体を含むか否かを示す確率値であるスコアを求め、前記N−way RPNをもって、前記スコアを参照して前記所定個数のプロポーザルボックスを生成するようにすることを特徴とする学習方法が提供される。
【0020】
一例として、前記各々のスコアは、(i)前記全体アンカーボックス各々の領域と前記原本正解バウンディングボックスの領域の和集合(union)に該当する領域対比、(ii)前記全体アンカーボックス各々の領域と前記原本正解バウンディングボックスの領域の交差集合(intersection)に該当される領域の面積の比率を参照して決定された値であることを特徴とする学習方法が提供される。
【0021】
一例として、前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記マルチスケールされた特徴マップのうち前記少なくとも2個の特定特徴マップが前記少なくとも2個の特定特徴マップ各々に対応される各々のRPN用コンボリューションフィルタに入力して前記RPN用コンボリューションフィルタの所定演算を通じて前記全体アンカーボックスの前記スコアまたは前記全体アンカーボックスの座標情報を獲得することを特徴とする学習方法が提供される。
【0022】
一例として、前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−MaximumSuppression)ユニットを含み、前記N−way RPNは、前記NMSユニットをもって、前記全体アンカーボックスのスコアのうちそのスコアの大きさが上位K個のスコアに該当するスコアを有する前記所定個数のプロポーザルボックスを選定するようにすることを特徴とする学習方法が提供される。
【0023】
一例として、前記複数のコンボリューションレイヤが少なくとも第kレイヤ、第k+1レイヤ(1<=k<=n但し、nは2以上の自然数)を含み、前記第k+1レイヤは前記第kレイヤの演算以後に後行するレイヤとする時、前記第k+1プーリング済み特徴マップに演算を遂行して前記FCレイヤから獲得した前記第k+1バウンディングボックスの領域に含まれたピクセルデータの個数は、前記第kプーリング済み特徴マップに同一の演算を遂行して前記FCレイヤから獲得した前記第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも多いか同じであることを特徴とする学習方法が提供される。
【0024】
一例として、(i)前記学習イメージ上の客体と対応される前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第1臨界値よりも小さい場合、第1既設定コンボリューションフィルタの演算よりも先行する少なくとも一部のコンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力され、(ii)前記学習イメージ上の客体と対応される前記原本正解の客体に該当する領域のピクセルデータの個数が前記所定の第1臨界値よりも大きいか同じ場合、前記第1既設定コンボリューションフィルタの演算よりも後行する少なくとも一部のコンボリューションフィルタの演算または前記第1既設定コンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力されることを特徴とする学習方法が提供される。
【0025】
一例として、前記学習イメージ上の客体と対応される前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第2臨界値よりも小さい場合、前記コンボリューション演算は前記複数のコンボリューションフィルタのうち第2既設定コンボリューションフィルタの演算よりも先行するコンボリューションフィルタの演算まで遂行され、前記演算が遂行された結果前記マルチスケールされた前記複数の特徴マップが獲得されることを特徴とする学習方法が提供される。
【0026】
一例として、前記(c)段階で、前記学習装置は、(i)前記FCレイヤをもって、クラシフィケーション演算を通じて前記学習イメージの前記客体の種類に対する情報を獲得するようにするプロセス、及び(ii)前記ロスレイヤをもって、前記学習イメージの前記客体の種類に対する情報と前記原本正解(Ground Truth)の客体の種類に対する情報と比較して第2比較データを獲得するようにするプロセスを遂行し、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援することを特徴とする学習方法が提供される。
【0027】
本発明の他の態様によれば、CNN(Convolutional Neural Network)を含むテスティング装置を用いて、マルチスケールされた複数のテスト用特徴マップからテストイメージ上のテスト用客体に対応するテスト用バウンディングボックスの獲得を支援するための方法は、(a)(1)前記学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されると、学習装置が、N−way RPN(Region Proposal Network)をもって、前記マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するプロセス、(2)前記学習装置が、N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックス領域に対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成するプロセス、(3)前記学習装置が、FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにし、ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得して、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを完了した状態で、前記テストイメージに対するコンボリューション演算の結果として複数のマルチスケールされた複数のテスト用特徴マップが生成されると、前記テスト装置が、N−way RPN(Region Proposal Network)をもって、前記マルチスケールされた複数のテスト用特徴マップのうち少なくとも2個のテスト用特定特徴マップを入力として獲得するようにし、前記N−way RPNをもって前記少なくとも2個のテスト用特定特徴マップに所定の演算を遂行して所定個数のテスト用プロポーザルボックスを獲得するようにするか獲得するように支援する段階;(b)前記テスティング装置が、N−wayプーリングレイヤをもって、前記少なくとも2個のテスト用特定特徴マップ上で前記所定個数のテスト用プロポーザルボックス領域に対応される領域各々をプーリングして複数個のテスト用プーリング済み特徴マップを生成するようにするか生成するように支援する段階;及び(c)前記テスティング装置が、FCレイヤをもって、前記複数個のテスト用プーリング済み特徴マップにリグレッション演算を通じて前記テスト用バウンディングボックスのピクセルデータに対する情報を獲得するようにするか獲得するように支援するようにする段階;を含む方法が提供される。
【0028】
一例として、前記(c)段階で、前記テスティング装置が、(i)前記N−wayプーリングレイヤをもって、前記複数個のテスト用プーリング済み特徴マップをコンカチネートして所定のテスト用特徴ベクタを獲得するようにするプロセス、及び(ii)前記FCレイヤをもって、前記テスト用特徴ベクタに前記リグレッション演算を通じて前記テスト用バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセスを遂行するか遂行するように支援することを特徴とするテスト方法が提供される。
【0029】
一例として、前記(a)段階で、前記テスティング装置が、前記マルチスケールされたテスト用特徴マップのうち前記少なくとも2個のテスト用特定特徴マップから生成された全体テスト用アンカーボックスのうち前記所定個数のテスト用プロポーザルボックスを獲得することにおいて、前記原本正解バウンディングボックスを参照して前記全体テスト用アンカーボックス各々が少なくとも一つの客体を含むか否かを示す確率値であるスコアを求め、前記N−way RPNをもって、前記スコアを参照して前記所定個数のテスト用プロポーザルボックスを生成するようにすることを特徴とする方法が提供される。
【0030】
一例として、前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記マルチスケールされたテスト用特徴マップのうち前記少なくとも2個のテスト用特定特徴マップが前記少なくとも2個のテスト用特定特徴マップ各々に対応される各々のRPN用コンボリューションフィルタに入力して前記RPN用コンボリューションフィルタの所定演算を通じて前記全体テスト用アンカーボックスの前記スコアまたは前記全体テスト用アンカーボックスの座標情報を獲得することを特徴とする方法が提供される。
【0031】
一例として、前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記NMSユニットをもって、前記全体テスト用アンカーボックスのスコアのうちそのスコアの大きさが上位K個のスコアに該当するスコアを有する前記所定個数のテスト用プロポーザルボックスを選定するようにすることを特徴とする方法が提供される。
【0032】
本発明のまた他の態様によれば、CNN(Convolutional Neural Network)を用いて、マルチスケールされた複数の特徴マップから学習イメージ上の客体に対応するバウンディングボックスの獲得を支援するための学習装置は、前記学習イメージを獲得するための通信部;及び(1)前記学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されると、N−way RPN(Region Proposal Network)をもって、前記マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するか獲得するように支援するプロセス;(2)N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックス領域に対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成するか生成するように支援するプロセス;及び(3)(i)FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス及び(ii)ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得し、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援するプロセッサ;を含む学習装置が提供される。
【0033】
一例として、前記(3)プロセスで、前記プロセッサが、(i)前記N−wayプーリングレイヤをもって、前記複数個のプーリング済み特徴マップをコンカチネートして所定の特徴ベクタを獲得するようにするプロセス、(ii)前記FCレイヤをもって、前記特徴ベクタに前記リグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス、及び(iii)前記ロスレイヤをもって、前記バウンディングボックスのピクセルデータに対する情報を前記原本正解バウンディングボックスのピクセルデータに対する情報と比較して前記第1比較データを獲得し、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節するプロセス;を遂行するか遂行するように支援することを特徴とする学習装置が提供される。
【0034】
一例として、前記(1)プロセスで、前記マルチスケールされた特徴マップのうち前記少なくとも2個の特定特徴マップから生成された全体アンカーボックスのうち前記所定個数のプロポーザルボックスを獲得することにおいて、前記プロセッサが、前記原本正解バウンディングボックスを参照して前記全体アンカーボックス各々が少なくとも一つの客体を含むか否かを示す確率値であるスコアを求め、前記N−way RPNをもって、前記スコアを参照して前記所定個数のプロポーザルボックスを生成するようにすることを特徴とする学習装置が提供される。
【0035】
一例として、前記各々のスコアは、(i)前記全体アンカーボックス各々の領域と前記原本正解バウンディングボックスの領域の和集合(union)に該当する領域対比、(ii)前記全体アンカーボックス各々の領域と前記原本正解バウンディングボックスの領域の交差集合(intersection)に該当される領域の面積の比率を参照して決定された値であることを特徴とする学習装置が提供される。
【0036】
一例として、前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記マルチスケールされた特徴マップのうち前記少なくとも2個の特定特徴マップが前記少なくとも2個の特定特徴マップ各々に対応される各々のRPN用コンボリューションフィルタに入力して前記RPN用コンボリューションフィルタの所定演算を通じて前記全体アンカーボックスの前記スコアまたは前記全体アンカーボックスの座標情報を獲得することを特徴とする学習装置が提供される。
【0037】
一例として、前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記NMSユニットをもって、前記全体アンカーボックスのスコアのうちそのスコアの大きさが上位K個のスコアに該当するスコアを有する前記所定個数のプロポーザルボックスを選定するようにすることを特徴とする学習装置が提供される。
【0038】
一例として、前記複数のコンボリューションレイヤが少なくとも第kレイヤ、第k+1レイヤ(1<=k<=n但し、nは2以上の自然数)を含み、前記第k+1レイヤは前記第kレイヤの演算以後に後行するレイヤとする時、前記第k+1プーリング済み特徴マップに演算を遂行して前記FCレイヤから獲得した前記第k+1バウンディングボックスの領域に含まれたピクセルデータの個数は、前記第kプーリング済み特徴マップに同一の演算を遂行して前記FCレイヤから獲得した前記第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも多いか同じであることを特徴とする学習装置が提供される。
【0039】
一例として、(i)前記学習イメージ上の客体と対応される前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第1臨界値よりも小さい場合、第1既設定コンボリューションフィルタの演算よりも先行する少なくとも一部のコンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力され、(ii)前記学習イメージ上の客体と対応される前記原本正解の客体に該当する領域のピクセルデータの個数が前記所定の第1臨界値よりも大きいか同じ場合、前記第1既設定コンボリューションフィルタの演算よりも後行する少なくとも一部のコンボリューションフィルタの演算または前記第1既設定コンボリューションフィルタの演算が遂行された結果から獲得された前記少なくとも2個の特定特徴マップが前記N−way RPNに入力されることを特徴とする学習装置が提供される。
【0040】
一例として、前記学習イメージ上の客体と対応される前記原本正解の客体に該当する領域のピクセルデータの個数が所定の第2臨界値よりも小さい場合、前記コンボリューション演算は前記複数のコンボリューションフィルタのうち第2既設定コンボリューションフィルタの演算よりも先行するコンボリューションフィルタの演算まで遂行され、前記演算が遂行された結果前記マルチスケールされた前記複数の特徴マップが獲得されることを特徴とする学習装置が提供される。
【0041】
一例として、前記(3)プロセスで、前記プロセッサは、(i)前記FCレイヤをもって、クラシフィケーション演算を通じて前記学習イメージの前記客体の種類に対する情報を獲得するようにするプロセス、及び(ii)前記ロスレイヤをもって、前記学習イメージの前記客体の種類に対する情報と前記原本正解(Ground Truth)の客体の種類に対する情報と比較して第2比較データを獲得するようにするプロセスを遂行し、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを遂行するか遂行するように支援することを特徴とする学習装置が提供される。
【0042】
本発明のまた他の態様によれば、CNN(ConvolutionalNeuralNetwork)を含むテスティング装置を用いて、マルチスケールされた複数のテスト用特徴マップからテストイメージ上のテスト用客体に対応するテスト用バウンディングボックスの獲得を支援するためのテスティング装置は、(i)前記学習イメージが複数のコンボリューションレイヤを経ながら所定の演算が遂行された結果マルチスケールされた前記複数の特徴マップが獲得されると、学習装置が、N−way RPN(Region Proposal Network)をもって、前記マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップを獲得するようにし、前記N−way RPNをもって前記少なくとも2個の特定特徴マップに所定の演算を遂行して所定個数のプロポーザルボックスを獲得するプロセス、(ii)前記学習装置が、N−wayプーリングレイヤをもって、前記少なくとも2個の特定特徴マップ上で前記所定個数のプロポーザルボックス領域に対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成するプロセス、(iii)前記学習装置が、FCレイヤをもって、前記複数個のプーリング済み特徴マップにリグレッション演算を通じて前記バウンディングボックスのピクセルデータに対する情報を獲得するようにし、ロスレイヤをもって、前記学習イメージの前記バウンディングボックスのピクセルデータの情報と原本正解イメージの原本正解バウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得して、バックプロパゲーションを遂行する間前記第1比較データを利用して前記CNNの少なくとも一つのパラメータに対して調節するプロセスを完了した状態で、前記テストイメージを獲得するための通信部;及び(1)N−way RPN(Region Proposal Network)をもって、前記マルチスケールされた複数のテスト用特徴マップのうち少なくとも2個のテスト用特定特徴マップを入力として獲得するようにし、前記N−way RPNをもって前記少なくとも2個のテスト用特定特徴マップに所定の演算を遂行して所定個数のテスト用プロポーザルボックスを獲得するようにするか獲得するように支援するプロセス;(2)N−wayプーリングレイヤをもって、前記少なくとも2個のテスト用特定特徴マップ上で前記所定個数のテスト用プロポーザルボックス領域に対応される領域各々をプーリングして複数個のテスト用プーリング済み特徴マップを生成するようにするか生成するように支援するプロセス;及び(3)FCレイヤをもって、前記複数個のテスト用プーリング済み特徴マップにリグレッション演算を通じて前記テスト用バウンディングボックスのピクセルデータに対する情報を獲得するようにするか獲得するように支援するようにするプロセス;を遂行するプロセッサ;を含むテスティング装置が提供される。
【0043】
一例として、前記(3)プロセスで、前記プロセッサが、(i)前記N−wayプーリングレイヤをもって、前記複数個のテスト用プーリング済み特徴マップをコンカチネートして所定のテスト用特徴ベクタを獲得するようにするプロセス、及び(ii)前記FCレイヤをもって、前記テスト用特徴ベクタに前記リグレッション演算を通じて前記テスト用バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセスを遂行するか遂行するように支援することを特徴とするテスティング装置が提供される。
【0044】
一例として、前記(1)プロセスで、前記テスティング装置が、前記マルチスケールされたテスト用特徴マップのうち前記少なくとも2個のテスト用特定特徴マップから生成された全体テスト用アンカーボックスのうち前記所定個数のテスト用プロポーザルボックスを獲得することにおいて、前記原本正解バウンディングボックスを参照して前記全体テスト用アンカーボックス各々が少なくとも一つの客体を含むか否かを示す確率値であるスコアを求め、前記N−way RPNをもって、前記スコアを参照して前記所定個数のテスト用プロポーザルボックスを生成するようにすることを特徴とするテスティング装置が提供される。
【0045】
一例として、前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記マルチスケールされたテスト用特徴マップのうち前記少なくとも2個のテスト用特定特徴マップが前記少なくとも2個のテスト用特定特徴マップ各々に対応される各々のRPN用コンボリューションフィルタに入力して前記RPN用コンボリューションフィルタの所定演算を通じて前記全体テスト用アンカーボックスの前記スコアまたは前記全体テスト用アンカーボックスの座標情報を獲得することを特徴とするテスティング装置が提供される。
【0046】
一例として、前記N−way RPNはRPN用コンボリューションフィルタとNMS(Non−Maximum Suppression)ユニットを含み、前記N−way RPNは、前記NMSユニットをもって、前記全体テスト用アンカーボックスのスコアのうちそのスコアの大きさが上位K個のスコアに該当するスコアを有する前記所定個数のテスト用プロポーザルボックスを選定するようにすることを特徴とするテスティング装置が提供される。
【発明の効果】
【0047】
本発明によれば、マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップ上で、RPNから獲得された所定個数のプロポーザルボックス領域に対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成し、前記複数個のプーリング済み特徴マップをコンカチネートしてこれをFCレイヤに入力させてリグレッション演算を通じてバウンディングボックスを獲得して、前記獲得したバウンディングボックスを原本正解のバウンディングボックスと比較して獲得したロスを利用してバックプロパゲーションを遂行しながらパラメータを調節し、前記調節されたパラメータで後にテストイメージ上でより正確な客体を含むバウンディングボックスが獲得され得るように支援する効果がある。
【図面の簡単な説明】
【0048】
図1図1は、既存のCNNの学習過程を示す。
図2図2は、本発明の一実施例にかかる学習装置のブロック図である。
図3図3は、本発明の一実施例にかかるマルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップに対して一連の演算を適用して所定の特徴ベクタを獲得する過程を示す図面である。
図4図4は、本発明の一実施例にかかる少なくとも2個の特徴マップに対してN−way RPNによる演算を適用して所定個数のプロポーザルボックスを獲得する過程を示す図面である。
図5図5は、本発明の一実施例によって少なくとも2個の特徴マップに対してN−wayプーリングレイヤによるプーリング演算を適用して所定の特徴ベクタを獲得する過程を示す図面である。
図6図6は、本発明の一実施例にかかるテスティング装置のブロック図である。
【発明を実施するための形態】
【0049】
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
【0050】
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
【0051】
図2は本発明の一実施例にかかる学習装置のブロック図である。
【0052】
図2に示されたように、本発明の学習装置200は通信部210とプロセッサ220を含み、場合によって図2とは異なり後述するデータベース230も含まれ得る。
【0053】
ここで、本発明の学習装置200はデジタル機器であって、プロセッサを搭載して演算能力を備えたデジタル機器であればいくらでも本発明にかかる学習装置200として採択され得る。
【0054】
通信部210は学習イメージまたは学習イメージから得られた特徴マップを獲得する構成である。
【0055】
プロセッサ220は多数の互いに異なる大きさを有する特徴マップのうち少なくとも2個の特定特徴マップ上で、N−way RPNから獲得された所定個数のプロポーザルボックス領域に対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成する。
【0056】
また、プロセッサ220はコンカチネーション演算を通じて所定の特徴ベクタを獲得し、獲得された特徴ベクタをFCレイヤに通過させた結果得られた学習イメージのバウンディングボックスを原本正解のバウンディングボックスと比較して比較データを獲得して、獲得した比較データを利用してバックプロパゲーションを遂行しながらパラメータを調節するプロセスを遂行し得る。これについては後で詳細な説明を通じて詳細に説明することとする。
【0057】
一方、データベース230は学習装置200の通信部210によってアクセスが可能になり得て、獲得したバウンディングボックスと原本正解のバウンディングボックスの比較値である比較データ情報、クラシフィケーション結果(即ち、クラス情報)、プロポーザルボックス領域に対する情報、パラメータのデータなどが記録され得る。参考までに、クラシフィケーション結果はFCレイヤを通じて獲得された物体がどのような形態に属するのか、即ち自動車か、歩行者か、信号かなどを示す情報を含む。
【0058】
図3は本発明の一実施例にかかるマルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップに対して一連の演算を適用して所定の特徴ベクタを獲得する過程を示す図面である。
【0059】
特徴ベクタ308を獲得する過程及び一連の演算が遂行される過程を下に具体的に説明する。
【0060】
参考までに、前記図面では一つの学習装置200だけを示したが、学習装置は複数個に分けて役割を遂行する場合もある。但し、説明の便宜上、本発明の明細書では学習装置が一つから具現されると想定して説明することとする。
【0061】
また、本発明にかかる学習装置200は多数個のコンボリューションレイヤ311〜315を備えたコンボリューションブロック310、N−way RPN(Region Proposal Network)320、N−wayプーリングレイヤ330及びFCレイヤ(未図示)などを含む。
【0062】
図3に示されたように、入力イメージとして学習イメージ301がコンボリューションブロック310に入力されると、学習装置200は多数のコンボリューションレイヤ311〜315を通じたコンボリューション演算を多数回遂行してマルチスケールされた複数個の特徴マップ302〜306、即ちマルチスケールされた特徴マップを獲得し得る。例えば、前記コンボリューションブロック310には5個のレイヤ11、12、13、14、15が存在する。前記入力された学習イメージに対して前記各レイヤの演算が遂行されるたびに獲得される特徴マップ302〜306の幅、高さは減少し、チャネルは増加し得る。
【0063】
例えば、幅が1280、高さが720、チャネルが3である入力イメージ301が第1コンボリューションレイヤ311に入力された結果、幅が640、高さが360、チャネルが16である特徴マップ302が獲得され得る。同様に、学習装置200は第2コンボリューションレイヤ312をもって入力イメージとして特徴マップ302を受信して320×180ピクセルサイズでチャネル数が32である特徴マップ303を生成するようにし得る。残りのコンボリューションレイヤもこれと同一の過程に従い、これに伴い、学習装置200はすべての特徴マップ302〜306のうち最小、例えば40×23ピクセルサイズと、最大チャネル数、例えば256チャネル数を有する最終特徴マップ306を生成し得る。
【0064】
ここで、特徴マップの幅、高さが増える程度及びチャネルが減る程度は各コンボリューションレイヤのパラメータによって異なり得る。
【0065】
前記複数の特徴マップが獲得された後、前記複数の特徴マップのうち少なくとも2個の特定特徴マップがN−way RPN(Region Proposal Network)320に入力されると、学習装置200は前記N−way RPN320をもって所定個数のプロポーザルボックス307を獲得するようにし得る。
【0066】
図3を参照すれば、本発明の好ましい一実施例によって、学習装置200はコンボリューションブロック310に含まれた5個のコンボリューションレイヤ311、312、313、314、315からマルチスケールされた特徴マップ302〜306が各々生成されるようにする。各々の5個のコンボリューションレイヤ311〜315を通じて一つずつ生成された前記複数個の特徴マップのうち、少なくとも2個の特定特徴マップがN−way RPN320に入力されて、所定個数のプロポーザルボックス307を獲得するための所定の演算が遂行され得る。
【0067】
特に、学習装置200は3個の特定特徴マップ304、305及び306がN−way RPN320に伝送されるようにし、前記3個の特定特徴マップ304〜306上にRPN演算を遂行するようにする。
【0068】
場合によって、学習装置200は、多数の互いに異なる大きさを有する特徴マップのうち任意の2個以上の特定特徴マップが任意で選択されるようにし、選択される特定特徴マップの所定個数を何に決定するか基準なしで選択された特定特徴マップをN−way RPN320に伝達し得る。しかし、本発明の内容はこれに限定されない。図3に示されたところでは、学習装置200は所定個数、例えば3個の特定特徴マップが選択されるようにし、これをN−way RPN320に伝達する。
【0069】
これに伴い、学習装置200はN−way RPN320をもって入力イメージとして2個以上の特定特徴マップと共に所定個数のプロポーザルボックス307が受信されて、入力にプーリング演算及びコンカチネーション演算を遂行して、出力として特徴ベクタ(feature vector)308を生成する。例えば、N−wayプーリングレイヤ330はプロポーザルボックス307と3個の特定特徴マップ304〜306を伝達される。
【0070】
具体的に、学習装置200はN−wayプーリングレイヤ330をもって、前記2個以上の特定特徴マップ上で、各プロポーザルボックスに対応する、領域各々をプーリング演算を遂行して多数個のプーリング済み特徴マップを生成し得る。好ましい実施例で、各プーリング演算は前記3個の特定特徴マップ上の、プロポーザルボックスに対応する、各領域に適用される。
【0071】
図3を再び参照すれば、第3レイヤ313、第4レイヤ314、第5レイヤ315から生成された各特定特徴マップ304、305及び306がN−wayプーリングレイヤ330に入力され、併せて、N−way RPN320から獲得された所定個数のプロポーザルボックス307に対する情報もN−wayプーリングレイヤ330に提供されて特徴ベクタ(feature vector)308が生成される。
【0072】
即ち、所定個数のプロポーザルボックスに対応される3個の特定特徴マップ上の領域情報がN−wayプーリングレイヤ330に提供される。但し、場合によって、N−wayプーリングレイヤ330で前記N−wayプーリングレイヤ330の入力である3個の特徴マップ上の情報と所定個数のプロポーザルボックスに対する情報を利用して上述した所定個数のプロポーザルボックスに対応される特徴マップ上の領域に対する情報を獲得する。
【0073】
N−way RPN320及びN−wayプーリングレイヤ330に対する具体的な内容は下に説明する。図3には示されていなかったが、特徴ベクタ308がFCレイヤに伝送されると、リグレッション(regression)及びクラシフィケーション(classification)演算が前記特徴ベクタ308に遂行されて推定されたバウンディングボックスと物体のカテゴリが何かを知らせるクラシフィケーション結果が図1に示されたように生成される。
【0074】
参考までに、学習装置200はここに説明された機能またはプロセス各々を遂行するためのいくつかの他のデジタルコンピューティング装置が含まれ得る。それにもかかわらず、説明及び図示の便宜上、本発明では学習装置200が一つの単一デジタルコンピューティング装置で具現されると仮定して説明した。
【0075】
図4は本発明の一実施例にかかる少なくとも2個の互いに異なる大きさの特徴マップに対してN−way RPN20による演算を適用して所定個数のプロポーザルボックスを獲得する過程を示す図面である。
【0076】
一般的に、学習装置200はN−way RPN320から2個以上の特定特徴マップから生成され得る全体アンカーボックスの中から選択された所定個数のプロポーザルボックス307を獲得し得る。ピクセル一つから任意の個数(例えば9個)のアンカーボックスが生成され得るので、前記全体アンカーボックスは少なくとも2個の特定特徴マップに含まれた各々のピクセルから生成可能である。全体アンカーボックスのうち一部がN−way RPN320で明確な基準によってプロポーザルボックス307に選択され得る。
【0077】
ここで、前記明確な基準はRGBイメージまたはテストイメージ内の客体を含む可能性を示す確率値であるスコアであり得る。N−way RPN320では原本正解(Ground Truth)のバウンディングボックスを参照して全体アンカーボックス各々が客体を含むか否かを示す確率値であるスコアを求めるようになる。
【0078】
ここで、前記スコアは前記全体アンカーボックス各々毎に前記各々のアンカーボックスの領域と原本正解のバウンディングボックスの領域の交差集合に該当される第1領域の面積が前記各々のアンカーボックスの領域と原本正解のバウンディングボックスの領域の和集合に該当する第2領域の面積に占める比率が演算された値であり得る。即ち、前記スコアは上述した第2領域の面積に対する前記第1領域の面積として計算された比率であり得る。例えば、比率、即ち第2領域に対して第1領域の比率が1/3で他の比率が1/3の場合、3/4のスコア値は1/3のスコア値よりもさらに大きいため、3/4のスコア値を有するアンカーボックスがプロポーザルボックスに選択され得る。これに伴い、学習装置200はN−way RPN320から上位K個のスコアを有するアンカーボックスを選択することで所定個数、例えば300個のプロポーザルボックス307を獲得し得る。
【0079】
参考までに、前記スコア値は各生成されたアンカーボックスの中心座標と原本正解のバウンディングボックスの中心座標間の距離値で定義され得る。または、スコア値は生成されたアンカーボックスの高さまたは幅に対する原本正解のバウンディングボックスの高さまたは幅の比率で定義され得る。また、前記スコアは、生成されたアンカーボックスと原本正解のバウンディングボックスの所定の地点の座標間の距離を利用して定義されることもある。
【0080】
図4を参照すれば、学習装置200はN−way RPN320内のRPN用コンボリューションレイヤ421、422、423各々に各々の特定特徴マップ304〜306を一つずつ受信するようにして、前記3個の特定特徴マップ304〜306内に各々含まれた各ピクセルから全体アンカーボックスを生成するようにし得る。
【0081】
ここで、例えば、各ピクセルは9個のアンカーボックスを生成し得て、各アンカーボックスは0から32ピクセル範囲の幅と高さを有し得る。その後、上述したように、全体アンカーボックスの各スコアは特定演算を通じて計算され得る。また、前記スコアは原本正解バウンディングボックスを参照して対応するアンカーボックスが客体を含むか否かを示す確率値で示され得て、スコアはアンカーボックスの幅、高さ、座標情報を参照して計算され得る。全体アンカーボックス各々の幅、高さ、座標情報は学習イメージまたはテストイメージ上での対応するアンカーボックスの幅、高さ、座標情報を示しえる。
【0082】
参考までに、全体アンカーボックスは少なくとも2個(図4では3個)の特定特徴マップから生成可能な互いに異なるサイズのアンカーボックスを意味する。例えば、図4に示されたように、前記各RPN用コンボリューションレイヤ421、422、423各々はマルチスケールされた3個の特定特徴マップを受信し、これに対応するマルチスケールされたアンカーボックスを各々生成し得る。
【0083】
即ち、第1RPN用コンボリューションレイヤ421は8×8、16×16、32×32、6×11、11×23、23×45、11×6、23×11、及び45×23サイズのうち一つのサイズを有するアンカーボックスを生成するように設計され得る。同様に、第2RPN用コンボリューションレイヤ422は32×32、64×64、128×128、23×45、45×91、91×181、45×23、91×45、及び181×91サイズのうち一つのサイズを有するアンカーボックスを生成し得る。最終的に、第3RPN用コンボリューションレイヤ423は128×128、256×256、512×512、91×181、181×362、362×725、181×91、362×181、及び725×362サイズのうち一つのサイズを有するアンカーボックスを生成し得る。各特徴マップで各ピクセルが生成し得るアンカーボックスの数と各ピクセルによって生成されたアンカーボックスの各サイズはこれに限定されないことは当業者に自明である。
【0084】
特に、各RPN用コンボリューションレイヤ421〜423は多数の多様なサイズのアンカーボックスを生成するように設計されるため、互いに異なる大きさの特徴マップに演算を遂行するための特有のパラメータ、即ちウェイト(weight)を有し得る。場合によって、他のユニット、例えば、ボックス生成器が各々のRPN用コンボリューションレイヤの代わりに多数の互いに異なるサイズのアンカーボックスを生成するのに利用され得る。
【0085】
ここで、RPN用コンボリューションレイヤ各々によって遂行されるコンボリューション演算はコンボリューションブロック310内の5個のコンボリューションレイヤ各々によって遂行されるコンボリューション演算とは異なる。コンボリューションブロック310内の5個のコンボリューションレイヤ各々によって遂行されるコンボリューション演算が互いに異なる大きさを有する複数個の特徴マップ各々の情報を対応するアンカーボックスを生成するための情報にエンコーディングするものである反面、RPN用コンボリューションレイヤ各々によって遂行されるコンボリューション演算は学習イメージまたはテストイメージ上の情報をhigh−level特徴にエンコーディングするためのものである。
【0086】
例えば、全体アンカーボックス各々にある情報はRPN用コンボリューションレイヤを通じて獲得された各々の特徴マップのチャネル数を示し得る。上述した例示で、各ピクセルは9個のアンカーボックスを生成し、これら各々はスコア1、スコア2、x座標、y座標、幅、高さに対する情報を含む。ここで、スコア1及びスコア2は各々アンカーボックスが前景(foreground)客体または背景(background)情報を含む確率を示す。アンカーボックスの[x、y、幅、高さ]の情報は入力イメージ、即ち学習イメージまたはテストイメージ上のアンカーボックスの位置情報を示し得る。従って、各RPN用コンボリューションレイヤによって遂行されるコンボリューション演算は多数の特定特徴マップ各々のチャネル数を固定された数、例えば、6*9または54個に変化させて、全体アンカーボックスの情報を示し得る。
【0087】
また、上述したN−way RPNによって遂行される特定演算は、各RPN用コンボリューションレイヤによって全体アンカーボックスをその対応する情報、例えばスコアを有するように生成する演算に加えて、NMSユニット424によって全体アンカーボックスに適用されるNMS演算がさらに含まれ得る。
【0088】
NMSユニット424は2個以上の特定特徴マップから生成された全体アンカーボックスをその対応するスコアによって整列し、全体アンカーボックスのうち最大のスコアから整列された所定個数、例えば、6000個のアンカーボックスを選択し得る。例えば、図4に示されたNMSユニット424は3個の特定特徴マップ304〜306により生成された全体アンカーボックスに整列(sorting)演算を適用し得る。その後、NMSユニット424はプロポーザルボックス307に利用されるための、所定個数、例えば、300個のアンカーボックスをキャスティング(cast)するNMS(Non−Maximum Suppression)演算を適用する。
【0089】
図5は本発明の一実施例によって少なくとも2個の互いに異なる大きさを有する特徴マップに対してN−wayプーリングレイヤ30によるプーリング演算を適用して所定の特徴ベクタを獲得する過程を示す図面である。
【0090】
一般的にN−wayプーリングレイヤは2個以上の特定特徴マップと共に所定個数のプロポーザルボックスに対する情報を入力として伝達される。そして、N−wayプーリングレイヤでは、少なくとも2個の特定特徴マップ上で前記各々のプロポーザルボックスに対応される領域各々をプーリングして複数個のプーリング済み特徴マップを生成し得る。ここで、プーリング方法には一般的なマックスプーリングまたは平均プーリングがあり、プーリング済み特徴マップは特徴ベクタと称することもある。
【0091】
図5を参照すれば、3−wayプーリングレイヤ330が本発明の例示的な実施例として示される。学習装置200のプロセッサ220は、複数個のプーリング済み特徴マップ、即ち3個の特徴ベクタをコンカチネートして図5に示されたように、所定の単一特徴ベクタ308を獲得する。図5から分かるように、3個のプーリング済み特徴マップ各々のチャネルが64個、128個、256個の場合、チャネル軸でコンカチネートしてN(幅)×N(高さ)×448(チャネル)の単一特徴ベクタを獲得し得る。
【0092】
参考までに、少なくとも2個の特徴マップが互いに異なるプーリングレイヤに各々入力され得る。図5に示されたように、3個の特定特徴マップ304〜306は各々3個のプーリングレイヤ530に入力され得る。しかし、実際には2個以上の特定特徴マップは同一のプーリングレイヤ530に一つずつ入力される場合もある。
【0093】
以下では、複数の互いに異なる大きさを有する特徴マップのうち少なくとも2個の特定特徴マップを獲得する所定の基準を説明するためにコンボリューションブロック310で生成された複数の特徴マップについてさらに具体的に説明する。本発明の技術的特徴を説明するための添付された図面を通じては3個の特定特徴マップが用いられるものとして示されたが、各ユニットの入力に選択される特徴マップの数は多様化し得ることは当業者には当然の内容であり、かかる選択のための基準があることも明確な事実である。
【0094】
例えば、コンボリューションブロック310が少なくとも第kコンボリューションレイヤ、第k+1コンボリューションレイヤ(1≦k≦n但し、nは2以上の自然数)を含み、前記第k+1コンボリューションレイヤは前記第kコンボリューションレイヤの演算以後に後行するコンボリューションレイヤと仮定する。この時、FCレイヤから獲得された第k+1バウンディングボックスの領域に含まれたピクセルデータの個数は、同一のFCレイヤから獲得した第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも多いか同じであり得る。ここでFCレイヤは前記第k+1コンボリューションレイヤの演算結果獲得された第k+1特徴マップからプーリング済み第k+1プーリング済み特徴マップを入力され、前記第kコンボリューションレイヤの演算結果獲得された第k特徴マップからプーリング済み第kプーリング済み特徴マップを入力される。
【0095】
例えば、第k+1バウンディングボックスの領域に含まれたピクセルデータの個数は128〜512で、第kバウンディングボックスの領域に含まれたピクセルデータの個数は32〜128であって、第k+1バウンディングボックスの領域に含まれたピクセルデータの個数が第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも多いか同じであり得る。
【0096】
これは、第k+1特徴マップが第k特徴マップよりもコンボリューション演算がさらに遂行されてさらに小さい高さ、幅を有しているので、第k+1特徴マップ上での一つのピクセルが示す学習イメージ上の実際ピクセルデータの個数が、第k特徴マップ上での一つのピクセルが示す学習イメージ上の実際ピクセルデータの個数よりも大きいためである。
【0097】
第k+1バウンディングボックスの領域に含まれたピクセルデータの個数が第kバウンディングボックスの領域に含まれたピクセルデータの個数よりも大きいか同じであることを利用して、コンボリューションブロック301から獲得された複数の互いに異なる大きさを有する特徴マップのうち少なくとも2個の特定特徴マップを獲得する所定の基準に対するいくつかの例示が導き出され得る。
【0098】
一つの例示として、(i)学習イメージ上の客体と対応される原本正解イメージの客体に該当する領域のピクセルデータの個数が所定の第1臨界値よりも小さい場合、複数のコンボリューションレイヤのうち第1既設定コンボリューションレイヤの演算よりも先行するコンボリューションレイヤの演算が遂行された結果から少なくとも2個の特定特徴マップが獲得され、(ii)学習イメージ上の客体と対応される原本正解イメージの客体に該当する領域のピクセルデータの個数が所定の第1臨界値よりも大きいか同じ場合、複数のコンボリューションレイヤのうち第1既設定コンボリューションレイヤの演算よりも後行するコンボリューションレイヤの演算または前記第1既設定コンボリューションレイヤの演算が遂行された結果から少なくとも2個の特定特徴マップが獲得され得る。
【0099】
例えば、図3に示された例のように、コンボリューションブロック310に5個のコンボリューションレイヤ311、312、313、314及び315がある状態で、原本正解イメージの客体に該当する領域のピクセルデータの個数が128よりも小さい場合、第1、第2コンボリューションレイヤの演算結果から2個の特定特徴マップを獲得し、反対に原本正解イメージの客体に該当する領域のピクセルデータの個数が128よりも大きいか同じ場合、第4、第5コンボリューションレイヤの演算結果から2個の特定特徴マップを獲得し得る。
【0100】
他の例示として、学習イメージ上の客体と対応される原本正解イメージの客体に該当する領域のピクセルデータの個数が所定の第2臨界値よりも小さい場合、前記複数のコンボリューションレイヤのうち第2既設定コンボリューションレイヤの演算よりも先行するコンボリューションレイヤの演算まで遂行される。その結果、前記第2既設定コンボリューションレイヤより先行するコンボリューションレイヤからマルチスケールされた前記複数の特徴マップが獲得され得る。
【0101】
例えば、コンボリューションブロック310に5個のコンボリューションレイヤがある状態で、原本正解の客体に該当する領域のピクセルデータの個数が128よりも小さい場合、第3、第4、第5コンボリューションレイヤまでの演算をする必要はなく第1、第2コンボリューションレイヤの演算が遂行された結果生成された少なくとも2個の特徴マップを獲得し得る。
【0102】
上で二つの例示を挙げたが、5個のレイヤのうち単純に第3、第4、第5レイヤの演算が遂行された結果から複数の特徴マップを獲得し得て、第1、第3、第5レイヤの演算が遂行された結果から複数の特徴マップを獲得し得る。
【0103】
即ち、複数の互いに異なる大きさを有する特徴マップ、または2個以上の特定特徴マップは、上述した実施例を通じて獲得され得るが、本発明はこれに限定されない。添付された図面に示されたように、N−way RPN及びN−wayプーリングレイヤに入力される2個以上の特定特徴マップまたは複数の互いに異なる大きさを有する特徴マップが第3、第4及び第5コンボリューションレイヤから獲得され得て、または場合によって、これらが第1及び第3及び第5コンボリューションレイヤから獲得され得ることは当業者に自明な事実である。
【0104】
図6は本発明の一実施例にかかるテスティング装置のブロック図である。
【0105】
図6に示されたように、本発明のテスティング装置600は通信部610とプロセッサ620を含み、場合によって図6とは異なりデータベース630が含まれ得る。場合によって、テスティング装置600はデータベース630が含まれないこともある。ここで、通信部610はテストイメージ(またはテストイメージから変換された複数の互いに異なる大きさを有する特徴マップ)を入力イメージとして受信し、プロセス620はコンボリューションブロック310、N−way RPN320、N−wayプーリングレイヤ330及びFCレイヤ(未図示)の機能を実行するように構成される。
【0106】
図面ではテスティング装置600と学習装置200を区別して表現したが、テスティング装置600と図2の学習装置200は同一の装置である場合もある。
【0107】
コンボリューションブロック310、N−way RPN320、FCレイヤ(未図示)のうち少なくともいずれか一つのパラメータの調節が完了した状態で、テストイメージがコンボリューションブロック310を経ながら所定の演算が遂行された結果マルチスケールされた前記複数のテスト用特徴マップが獲得され、前記複数のテスト用特徴マップのうち少なくとも2個の特定テスト用特徴マップがN−way RPN320に入力され得る。
【0108】
次に、前記調節が完了したパラメータを有する前記CNNを含むテスティング装置600はN−way RPN320から所定個数のテスト用プロポーザルボックスを獲得し得る。
【0109】
学習方法で言及したように、学習過程ではN−way RPN320では原本正解の学習用バウンディングボックスを参照してスコアを演算し、前記スコアが上位K個スコアである所定個数の学習用プロポーザルボックスを獲得したが、テスト過程ではN−way RPN320では調節されたパラメータを利用してスコアを演算し、NMS演算を共に適用することで前記スコアが上位K個スコアである所定個数のテスト用プロポーザルボックスを獲得し得る。
【0110】
これはテストではこれ以上原本正解を通じたロスレイヤの演算は利用せず、既に学習過程を経て調節されたパラメータを利用することを前提とするからである。
【0111】
また、前記テスティング装置600は、少なくとも2個の特定テスト用特徴マップ上で所定個数のテスト用プロポーザルボックス領域に対応される領域各々をプーリングして複数個のテスト用プーリング済み特徴マップを生成し得る。
【0112】
また、テスティング装置600は前記複数個のテスト用プーリング済み特徴マップをコンカチネートして所定の特徴ベクタを獲得して、これをFCレイヤに入力させてリグレッション演算を通じてテスト用バウンディングボックスを獲得し得る。
【0113】
調節が完了する前のパラメータを利用して獲得したバウンディングボックスと比較すると、前記テスト用バウンディングボックスは客体がより正確に含まれ得る。
【0114】
また、テスティング装置600は本発明で説明されたいくつかの他のデジタルコンピューティング装置がさらに含まれ得るが、場合によって、前記テスティング装置600は単一コンピュータ装置で具現され得る。また、テスティング装置600はコンボリューションブロック、N−way RPN、N−wayプーリングレイヤ、FCレイヤのうち少なくとも一部が含まれ得る。
【0115】
本発明によれば、N−way RPNを通じて、マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップを利用して所定個数のプロポーザルボックスを生成し得る。
【0116】
また、本発明は、N−wayプーリングレイヤを通じて、マルチスケールされた複数の特徴マップのうち少なくとも2個の特定特徴マップ上で各領域をプーリングして複数個のプーリング済み特徴マップを生成し得る。そして、前記複数個のプーリング済み特徴マップをコンカチネートしてこれをFCレイヤに入力させる特徴ベクタを獲得し得る。
【0117】
また、本発明はテスト方法で調節されたパラメータを利用して、特徴ベクタにリグレッション演算を遂行するFCレイヤを通じてテストイメージ上でより正確な客体を含むバウンディングボックスが獲得されるように支援する効果がある。
【0118】
以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるものような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
【0119】
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
【0120】
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。
【符号の説明】
【0121】
200…学習装置、210…通信部、220…プロセッサ、230…データベース、310…コンボリューションブロック、320…RPN、330…プーリングレイヤ、600…テスティング装置、610…通信部、620…プロセッサ、630…データベース。
図1
図2
図3
図4
図5
図6