特許第6707608号(P6707608)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特許6707608プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置
<>
  • 特許6707608-プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 図000002
  • 特許6707608-プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 図000003
  • 特許6707608-プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 図000004
  • 特許6707608-プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 図000005
  • 特許6707608-プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 図000006
  • 特許6707608-プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6707608
(24)【登録日】2020年5月22日
(45)【発行日】2020年6月10日
(54)【発明の名称】プーリングタイプに対する情報を含むテーブルを作成するための方法、装置及びこれを利用したテスティング方法、テスティング装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20200601BHJP
【FI】
   G06T7/00 350C
【請求項の数】26
【外国語出願】
【全頁数】30
(21)【出願番号】特願2018-194937(P2018-194937)
(22)【出願日】2018年10月16日
(65)【公開番号】特開2019-75122(P2019-75122A)
(43)【公開日】2019年5月16日
【審査請求日】2018年11月14日
(31)【優先権主張番号】15/786,680
(32)【優先日】2017年10月18日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】110001737
【氏名又は名称】特許業務法人スズエ国際特許事務所
(72)【発明者】
【氏名】キム、ヨンジョン
(72)【発明者】
【氏名】ナム、ウンユン
(72)【発明者】
【氏名】ボ、シュクフン
(72)【発明者】
【氏名】シュン、ミュンチュル
(72)【発明者】
【氏名】エオ、ドンフン
(72)【発明者】
【氏名】リュウ、ウージュ
(72)【発明者】
【氏名】ジャン、タエウォン
(72)【発明者】
【氏名】ジョン、キュンジョン
(72)【発明者】
【氏名】ジェ、ホンモ
(72)【発明者】
【氏名】チョ、ホジン
【審査官】 稲垣 良一
(56)【参考文献】
【文献】 国際公開第2017/079522(WO,A1)
【文献】 国際公開第2016/155564(WO,A1)
【文献】 BOUREAU, YL. et al,Learning Mid-Level Features For Recognition,2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,IEEE,2010年 6月18日,pp.2559-2566
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 − 7/90
G06N 3/04
G06N 3/08
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法において、
(a)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記学習用特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記学習用特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の前記平均プーリング演算を適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行してCNN(Convolutional Neural Network)の少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と前記第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えた前記CNNの入力として、客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする段階;
(b)前記テーブル作成装置が、前記コンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;
(c)前記テーブル作成装置は、(c−1)前記テーブル作成用特徴マップで、テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用してテーブル作成用第1プーリング済み特徴マップを生成し、(c−2)前記テーブル作成用特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の前記平均プーリング演算を適用してテーブル作成用第2プーリング済み特徴マップを生成し、(c−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(c−4)前記第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び
(d)前記テーブル作成装置は、前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;
を含むことを特徴とする方法。
【請求項2】
前記(c)段階の(c−1)及び(c−2)プロセスで、
前記テーブル作成装置が、前記テーブル作成用特徴マップのうち一つの特定テーブル作成用特徴マップ内の、前記テーブル作成用ROIに対応する、ある特定領域に前記マックスプーリング演算のうち一つを適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記テーブル作成用特徴マップのうち前記一つの特定テーブル作成用特徴マップ内の、前記テーブル作成用ROIに対応する、前記ある特定領域に前記平均プーリング演算のうち一つを適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする請求項1に記載の方法。
【請求項3】
前記(c)段階の(c−1)及び(c−2)プロセスで、
前記テーブル作成装置が、前記テーブル作成用特徴マップのうち数の特定テーブル作成用特徴マップ内の、前記テーブル作成用ROIに対応する、数の特定領域に前記マックスプーリング演算を適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記テーブル作成用特徴マップのうち前記数の特定テーブル作成用特徴マップ内の、前記テーブル作成用ROIに対応する、前記数の特定領域に前記平均プーリング演算を適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする請求項1に記載の方法。
【請求項4】
前記(d)段階で、
前記各々の最適のプーリングタイプ、(i)前記数の特定テーブル作成用特徴マップに対応する数の特定サブ−プーリングタイプまたは(ii)前記数の特定サブ−プーリングタイプを参照して定義された一つの統合プーリングタイプを含むことを特徴とする請求項3に記載の方法。
【請求項5】
前記(d)段階で、
前記テーブル作成装置は、(i)前記テーブル作成用第1候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の前記第1類似度と(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の前記第2類似度を比較して、(i)前記第2原本正解イメージ内の前記客体または前記テーブル作成用イメージ内の前記客体の前記スケールの各範囲、及び(ii)前記客体の各カテゴリ別に、前記各々の最適のプーリングタイプに対する情報を含むように前記テーブルを作成することを特徴とする請求項1に記載の方法。
【請求項6】
前記(d)段階で、
前記テーブル作成装置は、前記客体の前記スケールの各範囲別に平均プーリングタイプのカテゴリの数に対するマックスプーリングタイプのカテゴリ数として決定された比率を参照して、前記客体の前記スケールの各範囲別に前記各々の最適のプーリングタイプに対する情報を含めるように前記テーブルを作成することを特徴とする請求項1に記載の方法。
【請求項7】
前記テーブル作成装置は、前記客体のカテゴリ別に前記客体の前記スケールの臨界範囲を指定して管理し、前記第1類似度が前記第2類似度よりも大きいか同じである前記客体の前記スケールの特定範囲を前記臨界範囲に指定して前記臨界範囲を管理することを特徴とする請求項1に記載の方法。
【請求項8】
前記第1類似度は、前記テーブル作成用第1候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する、前記テーブル作成用第1候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定され前記第2類似度は、前記テーブル作成用第2候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する、前記テーブル作成用第2候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定されることを特徴とする請求項1に記載の方法。
【請求項9】
前記客体の前記スケールは、前記テーブル作成用イメージ内の前記客体に対応する前記テーブル作成用第1候補バウンディングボックス及び前記テーブル作成用第2候補バウンディングボックス内に含まれたピクセルデータの個数及び前記第2原本正解イメージのバウンディングボックスに含まれたピクセルデータの個数のうち少なくとも一つを参照して決定されることを特徴とする請求項1に記載の方法
【請求項10】
CNN(Convolutional Neural Network)を含むテスティング装置を用いて一つ以上のテストイメージ上の一つ以上のテスト用客体に対するプーリングタイプの情報を含むテーブルを利用する方法において、
(a)(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記学習用特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記学習用特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の前記平均プーリング演算を適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と前記第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えた前記CNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記コンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(i)前記テーブル作成用特徴マップで、テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用してテーブル作成用第1プーリング済み特徴マップを生成し、(ii)前記テーブル作成用特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の前記平均プーリング演算を適用してテーブル作成用第2プーリング済み特徴マップを生成し、(iii)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(iv)前記第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、前記テスティング装置が前記テストイメージを獲得するか、他の装置をもって獲得するようにする段階;
(b)前記テスティング装置が、前記コンボリューションレイヤをもって前記テストイメージに前記コンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにする段階;
(c)前記テスティング装置が、マックスプーリングタイプ及び平均プーリングタイプのうち、テスト用ROIに対応する情報を含む前記テーブルを参照して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成する段階;及び
(d)前記テスティング装置が、前記第1FCレイヤ及び前記第2FCレイヤの中から選択された、前記特定最適プーリングタイプに対応する特定FCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得する段階;
を含む方法。
【請求項11】
前記テスティング装置は、前記テストイメージに前記コンボリューション演算を適用した結果互いに異なる大きさを有する前記テスト用特徴マップが獲得される場合、前記テスト用特徴マップに対応するサブ−プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記サブ−プーリングタイプは前記テスト用客体のスケールに対応する情報を含む前記テーブルを参照して決定されることを特徴とする請求項10に記載の方法。
【請求項12】
前記()段階で、
前記テスティング装置は、前記マックスプーリングタイプまたは前記平均プーリングタイプの中から選択された前記特定最適プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記特定最適プーリングタイプは前記テスト用ROIのスケール及び前記テスト用客体のカテゴリに対応する情報を含む前記テーブルを参照して決定されることを特徴とする請求項10に記載の方法。
【請求項13】
前記()段階で、
前記テスト用ROIのスケールは前記テスト用ROIの内部に含まれたピクセルデータ個数を参照して決定されることを特徴とする請求項10に記載の方法。
【請求項14】
少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するためのテーブル作成装置において、
(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記学習用特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記学習用特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の前記平均プーリング演算を適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行してCNN(Convolutional Neural Network)の少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と前記第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、前記調節されたパラメータを備えた前記CNNの入力として、客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする通信部;
(I)前記コンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにするプロセス;(II)(II−1)前記テーブル作成用特徴マップで、テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用してテーブル作成用第1プーリング済み特徴マップを生成し、(II−2)前記テーブル作成用特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の前記平均プーリング演算を適用してテーブル作成用第2プーリング済み特徴マップを生成し、(II−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(II−4)前記第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス;及び(III)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成するプロセス;を含むプロセッサ;
を含むことを特徴とする装置。
【請求項15】
前記(II−1)及び(II−2)プロセスで、
前記プロセッサが、前記テーブル作成用特徴マップのうち一つの特定テーブル作成用特徴マップ内の、前記テーブル作成用ROIに対応する、ある特定領域に前記マックスプーリング演算のうち一つを適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記テーブル作成用特徴マップのうち前記一つの特定テーブル作成用特徴マップ内の、前記テーブル作成用ROIに対応する、前記ある特定領域に前記平均プーリング演算のうち一つを適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする請求項14に記載の装置。
【請求項16】
前記(II−1)及び(II−2)プロセスで、
前記プロセッサが、前記テーブル作成用特徴マップのうち数の特定テーブル作成用特徴マップ内の、前記テーブル作成用ROIに対応する、数の特定領域に前記マックスプーリング演算を適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記テーブル作成用特徴マップのうち前記数の特定テーブル作成用特徴マップ内の、前記テーブル作成用ROIに対応する、前記数の特定領域に前記平均プーリング演算を適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする請求項14に記載の装置。
【請求項17】
前記(III)プロセスで、
前記各々の最適のプーリングタイプ、(i)前記数の特定テーブル作成用特徴マップに対応する数の特定サブ−プーリングタイプまたは(ii)前記数の特定サブ−プーリングタイプを参照して定義された一つの統合プーリングタイプを含むことを特徴とする請求項16に記載の装置。
【請求項18】
前記(III)プロセスで、
前記プロセッサは、(i)前記テーブル作成用第1候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の前記第1類似度と(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の前記第2類似度を比較して、(i)前記第2原本正解イメージ内の前記客体または前記テーブル作成用イメージ内の前記客体の前記スケールの各範囲、及び(ii)前記客体の各カテゴリ別に、前記各々の最適のプーリングタイプに対する情報を含むように前記テーブルを作成することを特徴とする請求項14に記載の装置。
【請求項19】
前記(III)プロセスで、
前記プロセッサは、前記客体の前記スケールの各範囲別に平均プーリングタイプのカテゴリの数に対するマックスプーリングタイプのカテゴリ数として決定された比率を参照して前記客体の前記スケールの各範囲別に前記各々の最適のプーリングタイプに対する情報を含めるように前記テーブルを作成することを特徴とする請求項14に記載の装置。
【請求項20】
前記プロセッサは、前記客体のカテゴリ別に前記客体の前記スケールの臨界範囲を指定して管理し、前記第1類似度が前記第2類似度よりも大きいか同じである前記客体の前記スケールの特定範囲を前記臨界範囲に指定して前記臨界範囲を管理することを特徴とする請求項14に記載の装置。
【請求項21】
前記第1類似度は、前記テーブル作成用第1候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する前記テーブル作成用第1候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定され前記第2類似度は、前記テーブル作成用第2候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する、前記テーブル作成用第2候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定されることを特徴とする請求項14に記載の装置。
【請求項22】
前記客体の前記スケールは、前記テーブル作成用イメージ内の前記客体に対応する前記テーブル作成用第1候補バウンディングボックス及び前記テーブル作成用第2候補バウンディングボックス内に含まれたピクセルデータの個数及び前記第2原本正解イメージのバウンディングボックスに含まれたピクセルデータの個数のうち少なくとも一つを参照して決定されることを特徴とする請求項14に記載の装置
【請求項23】
一つ以上のテストイメージ上の一つ以上のテスト用客体に対するプーリングタイプの情報を含むテーブルを利用するテスティング装置において、
(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記学習用特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記学習用特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の前記平均プーリング演算を適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行してCNN(Convolutional Neural Network)の少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と前記第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えた前記CNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記コンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(i)前記テーブル作成用特徴マップで、テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用してテーブル作成用第1プーリング済み特徴マップを生成し、(ii)前記テーブル作成用特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の前記平均プーリング演算を適用してテーブル作成用第2プーリング済み特徴マップを生成し、(iii)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(iv)前記第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、前記テストイメージを獲得するか、他の装置をもって獲得するようにする通信部;及び
(AA)前記コンボリューションレイヤをもって前記テストイメージに前記コンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにするプロセス;(BB)マックスプーリングタイプ及び平均プーリングタイプのうち、テスト用ROIに対応する情報を含む前記テーブルを参照して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成するプロセス;及び(CC)前記第1FCレイヤ及び前記第2FCレイヤの中から選択された、前記特定最適プーリングタイプに対応する特定FCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得するプロセス;を遂行するプロセッサ;
を含む装置。
【請求項24】
前記プロセッサは、前記テストイメージに前記コンボリューション演算を適用した結果互いに異なる大きさを有する前記テスト用特徴マップが獲得される場合、前記テスト用特徴マップに対応するサブ−プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記サブ−プーリングタイプは前記テスト用客体のスケールに対応する情報を含む前記テーブルを参照して決定されることを特徴とする請求項23に記載の装置。
【請求項25】
前記(BB)プロセスで、
前記プロセッサは、前記マックスプーリングタイプまたは前記平均プーリングタイプの中から選択された前記特定最適プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記特定最適プーリングタイプは前記テスト用ROIのスケール及び前記テスト用客体のカテゴリに対応する情報を含む前記テーブルを参照して決定されることを特徴とする請求項23に記載の装置。
【請求項26】
前記(BB)プロセスで、
前記テスト用ROIのスケールは前記テスト用ROIの内部に含まれたピクセルデータ個数を参照して決定されることを特徴とする請求項23に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はプーリングタイプに対する情報を含むテーブルを作成するための方法及び装置、そしてこれを利用したテスト方法及びテスティング装置に関する。具体的に本発明は少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法において、(a)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする段階;(b)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(c)前記テーブル作成装置は、(c−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(c−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(c−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(c−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(d)前記テーブル作成装置は、前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を含む少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法及び装置、そしてこれを利用したテスト方法及びテスティング装置に関する。
【背景技術】
【0002】
機械学習で、CNN(Convolutional Neural Network;or ConvNet)は視覚心像(visual imagery)を分析するのに成功的に適用されてきたディープ、フィードフォワード人工ニューラルネットワーク(deep,feed−forward artificial neural network)分野である。
【0003】
図1は既存のCNNを用いた学習過程を示したものであって、学習装置によって予測されたバウンディングボックスを原本正解のバウンディングボックスと比較する過程を示した図面である。図1を参照すれば、既存の学習装置がバウンディングボックスを獲得してこれを原本正解のバウンディングボックスと比較してロス値を獲得する過程が示されている。ここで、ロスはバウンディングボックスと原本正解のバウンディングボックスの差値を意味して図1ではdxc、dyc、dw、dhで示されている。
【0004】
まず、図1に示されたような学習装置は学習イメージ、例えば、RGBイメージを入力されてコンボリューションブロックに含まれた多数のコンボリューションレイヤ、即ちコンボリューションフィルタに伝達されて、特徴マップを生成し得る。RGBイメージがコンボリューションレイヤを経るほど特徴マップの幅、高さが減少するが、チャネル数は増加する。
【0005】
次に、学習装置はコンボリューションブロックから出力された最終特徴マップをRPN(Region Proposal Network)に通過させてプロポーザルボックス(proposal boxes)を生成するようにし、プーリングレイヤ、例えばROIプーリングレイヤをもって、プロポーザルボックスに対応する特徴マップのピクセルデータにマックスプーリング演算(または平均プーリング演算)を適用して、プロポーザルボックスに対応する特徴マップの領域を特定サイズ、例えば2×2の大きさにリサイズする。その結果、プーリング済み特徴マップが獲得される。参考までに、プーリング済み特徴マップは、特徴ベクタ(feature vector)と称することもある。ここで、マックスプーリング演算は図1に示されたように、特徴マップの対象領域で分割されたサブ−区域で最大の値を前記対象領域の代表値に各々選定する方法である。
【0006】
その次に、プーリング済み特徴マップはFCレイヤ(Fully connected layer)に入力され得る。
【0007】
すると、学習装置はFCレイヤをもってRGBイメージ内の客体の種類(カテゴリ)を識別し得るようにする。また、FCレイヤ(layer)を通じてRGBイメージ内の予測されたバウンディングボックスを獲得し得て、前記獲得されたバウンディングボックスを原本正解(ground truth)のバウンディングボックスと比較して差値であるロス値が求められ得る。ここで、原本正解のバウンディングボックスはイメージ上の客体を正確に含むバウンディングボックスであって、一般的には人が直接生成し得る。
【0008】
以後、図1の学習装置はバックプロパゲーションを遂行しながら前記ロス(loss)値を減少させるためにFCレイヤのパラメータ、RPNのパラメータ、多数のコンボリューションレイヤのパラメータのうち少なくともいずれか一つを調節し得る。
【0009】
前記パラメータを調節することで調節されたパラメータを有するCNNを備えたテスティング装置(未図示)は後でテストイメージで客体を囲むバウンディングボックスを獲得し得る。ところが、テスティング装置が調節されたパラメータを有するCNNを含むとしても、客体のカテゴリや客体のスケールが異なるにもかかわらず、所定のプーリング演算、例えばマックスプーリング演算または平均プーリング演算によって千編一律的な演算を遂行し得るに過ぎないので、テストイメージ内の客体を囲んだバウンディングボックスを正確に獲得することは相当困難である。
【0010】
これに伴い、本発明の出願人は上述した短所を克服するために最適のプーリングタイプに対する情報を含むテーブルを作成するための方法及び装置、そしてこれを利用したテスト方法及びテスティング装置を提案しようとする。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は上述した問題点をすべて解決することを目的とする。
【0012】
また、本発明は客体の種類及び客体のスケールの範囲別にマックスプーリング及び平均プーリングの性能情報を対応させて記録したテーブルを参照するようにすることで、客体の種類及び客体のスケールの範囲別にマックスプーリングまたは平均プーリングのうち最適プーリングタイプが自動で選択されるようにすることを他の目的とする。
【0013】
また、本発明は最適プーリングタイプの情報を含むテーブルを参照してテストイメージにプーリング演算を適用することを他の目的とする。
【課題を解決するための手段】
【0014】
本発明の一態様によれば、少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するための方法は、(a)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする段階;(b)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(c)前記テーブル作成装置は、(c−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(c−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(c−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(c−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(d)前記テーブル作成装置は、前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を含むことを特徴とする方法が提供される。
【0015】
一例として、前記(c)段階の(c−1)及び(c−2)プロセスで、前記テーブル作成装置が、前記一つ以上の特徴マップのうち一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、ある特定領域にマックスプーリング演算のうち一つを適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記ある特定領域に平均プーリング演算のうち一つを適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする方法が提供される。
【0016】
一例として、前記(c)段階の(c−1)及び(c−2)プロセスで、前記テーブル作成装置が、前記一つ以上の特徴マップのうち多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、多数の特定領域にマックスプーリング演算を適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記多数の特定領域に平均プーリング演算を適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする方法が提供される。
【0017】
一例として、前記(d)段階で、前記最適のプーリングタイプ各々は、(i)前記多数の特定特徴マップに対応する多数の特定サブ−プーリングタイプまたは(ii)前記多数の特定サブ−プーリングタイプを参照して定義された一つの統合プーリングタイプを含むことを特徴とする方法が提供される。
【0018】
一例として、前記(d)段階で、前記テーブル装置は、(i)前記テーブル作成用第1候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第1類似度と(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、(i)前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲、及び(ii)前記客体の各カテゴリ別に、各々の最適のプーリングタイプに対する情報を含むように前記テーブルを作成することを特徴とする方法が提供される。
【0019】
一例として、前記(d)段階で、前記テーブル作成装置は、前記客体の前記スケールの各範囲別に平均プーリングタイプのカテゴリの数に対するマックスプーリングタイプのカテゴリ数として決定された比率を参照して、前記客体の前記スケールの各範囲別に各々の最適のプーリングタイプに対する情報を含めるように前記テーブルを作成することを特徴とする方法が提供される。
【0020】
一例として、前記テーブル作成装置は、前記客体のカテゴリ別に前記客体のスケールの臨界範囲を指定して管理し、前記臨界範囲は前記第1類似度が前記第2類似度よりも大きいか同じになり始める時の前記客体のスケールの特定範囲を前記臨界範囲に指定してこれを管理することを特徴とする方法が提供される。
【0021】
一例として、前記類似度はテーブル作成用候補バウンディングボックスの領域と第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する、前記テーブル作成用候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定されて、前記類似度は前記第1類似度及び前記第2類似度を含み、前記テーブル作成用候補バウンディングボックスは、前記テーブル作成用第1候補バウンディングボックスと前記テーブル作成用第2候補バウンディングボックスを含むことを特徴とする方法が提供される。
【0022】
一例として、前記客体のスケールは、前記テーブル作成用イメージ内の客体に対応する前記第1及び第2候補バウンディングボックス内に含まれたピクセルデータの個数及び前記第2原本正解イメージのバウンディングボックスに含まれたピクセルデータの個数のうち少なくとも一つを参照して決定されることを特徴とする学習方法が提供される。
【0023】
本発明の他の態様によれば、CNN(Convolutional Neural Network)を含むテスティング装置を用いて一つ以上のテストイメージ上の一つ以上のテスト用客体に対するプーリングタイプの情報を含むテーブルを利用する方法は、(a)(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記複数個のコンボリューションをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(i)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(ii)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(iii)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし(iv)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、前記テスティング装置が前記テストイメージを獲得するか、他の装置をもって獲得するようにする段階;(b)前記テスティング装置が、前記複数個のコンボリューションレイヤをもって前記テストイメージにコンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにする段階;(c)前記テスティング装置が、前記マックスプーリングタイプ及び前記平均プーリングタイプのうち、前記テスト用ROIに対応する情報を含む前記テーブルを参照して決定して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成する段階;及び(d)前記テスティング装置が、前記FCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得する段階;を含む方法が提供される。
【0024】
一例として、前記テスティング装置は、前記テストイメージにコンボリューション演算を適用した結果互いに異なる大きさを有するテスト用特徴マップが獲得される場合、前記テスト用特徴マップに対応するサブ−プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記サブ−プーリングタイプはテスト用客体のスケールに対応する情報を含む前記テーブルを参照に決定されることを特徴とする方法が提供される。
【0025】
一例として、前記(b)段階で、前記テスティング装置は、前記マックスプーリングタイプまたは前記平均プーリングタイプの中から選択された前記特定最適プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記特定最適プーリングタイプは前記テスト用ROIのスケール及び前記テスト用客体のカテゴリに対応する情報を含む前記テーブルを参照に決定されることを特徴とする方法が提供される。
【0026】
一例として、前記(b)段階で、前記テスト用ROIの前記スケールは前記テスト用ROIの内部に含まれたピクセルデータ個数を参照にして決定されることを特徴とする方法が提供される。
【0027】
本発明のまた他の態様によれば、少なくとも一つのテーブル作成用イメージ内の少なくとも一つの客体のスケール範囲別にプーリングタイプに対する情報を含むテーブルを作成するためのテーブル作成装置は、(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得するか、他の装置をもって獲得するようにする通信部;(I)前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにするプロセス;(II)(II−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(II−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(II−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(II−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにするプロセス;及び(III)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成するプロセス;を含むプロセッサ;を含むことを特徴とする装置が提供される。
【0028】
一例として、前記(II−1)及び(II−2)プロセスで、前記プロセッサが、前記一つ以上の特徴マップのうち一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、ある特定領域にマックスプーリング演算のうち一つを適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記一つの特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記ある特定領域に平均プーリング演算のうち一つを適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする装置が提供される。
【0029】
一例として、前記(II−1)及び(II−2)プロセスで、前記プロセッサが、前記一つ以上の特徴マップのうち多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、多数の特定領域にマックスプーリング演算を適用して前記テーブル作成用第1プーリング済み特徴マップを生成し、前記一つ以上の特徴マップのうち前記多数の特定特徴マップ内の、前記テーブル作成用ROIに対応する、前記多数の特定領域に平均プーリング演算を適用して前記テーブル作成用第2プーリング済み特徴マップを生成することを特徴とする装置が提供される。
【0030】
一例として、前記(III)プロセスで、前記最適のプーリングタイプ各々は、(i)前記多数の特定特徴マップに対応する多数の特定サブ−プーリングタイプまたは(ii)前記多数の特定サブ−プーリングタイプを参照して定義された一つの統合プーリングタイプを含むことを特徴とする装置が提供される。
【0031】
一例として、前記(III)プロセスで、前記プロセッサは、(i)前記テーブル作成用第1候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第1類似度と(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、(i)前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体のスケールの各範囲、及び(ii)前記客体の各カテゴリ別に、各々の最適のプーリングタイプに対する情報を含むように前記テーブルを作成することを特徴とする装置が提供される。
【0032】
一例として、前記(III)プロセスで、前記プロセッサは、前記客体の前記スケールの各範囲別に平均プーリングタイプのカテゴリの数に対するマックスプーリングタイプのカテゴリ数として決定された比率を参照して前記客体の前記スケールの各範囲別に各々の最適のプーリングタイプに対する情報を含めるように前記テーブルを作成することを特徴とする装置が提供される。
【0033】
一例として、前記プロセッサは、前記客体のカテゴリ別に前記客体のスケールの臨界範囲を指定して管理し、前記臨界範囲は前記第1類似度が前記第2類似度よりも大きいか同じになり始める時の前記客体のスケールの特定範囲を前記臨界範囲に指定してこれを管理することを特徴とする装置が提供される。
【0034】
一例として、前記類似度はテーブル作成用候補バウンディングボックスの領域と第2原本正解イメージのバウンディングボックスの領域の和集合(union)に対する前記テーブル作成用候補バウンディングボックスの領域と前記第2原本正解イメージのバウンディングボックスの領域の交差集合(intersection)の比率として決定されて、前記類似度は前記第1類似度及び前記第2類似度を含み、前記テーブル作成用候補バウンディングボックスは、前記テーブル作成用第1候補バウンディングボックスと前記テーブル作成用第2候補バウンディングボックスを含むことを特徴とする装置が提供される。
【0035】
一例として、前記客体のスケールは、前記テーブル作成用イメージ内の客体に対応する前記第1及び第2候補バウンディングボックス内に含まれたピクセルデータの個数及び前記第2原本正解イメージのバウンディングボックスに含まれたピクセルデータの個数のうち少なくとも一つを参照して決定されることを特徴とする学習装置が提供される。
【0036】
本発明のまた他の態様によれば、一つ以上のテストイメージ上の一つ以上のテスト用客体に対するプーリングタイプの情報を含むテーブルを利用するテスティング装置は、(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(i)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(ii)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(iii)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(iv)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、前記テストイメージを獲得するか、他の装置をもって獲得するようにする通信部;及び(AA)前記複数個のコンボリューションレイヤをもって前記テストイメージにコンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにするプロセス;(BB)前記マックスプーリングタイプ及び前記平均プーリングタイプのうち、前記テスト用ROIに対応する情報を含む前記テーブルを参照して決定して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成するプロセス;及び(CC)前記FCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得するプロセス;を遂行するプロセッサ;を含む装置が提供される。
【0037】
一例として、前記プロセッサは、前記テストイメージにコンボリューション演算を適用した結果互いに異なる大きさを有するテスト用特徴マップが獲得される場合、前記テスト用特徴マップに対応するサブ−プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記サブ−プーリングタイプはテスト用客体のスケールに対応する情報を含む前記テーブルを参照に決定されることを特徴とする装置が提供される。
【0038】
一例として、前記(AA)プロセスで、前記プロセッサは、前記マックスプーリングタイプまたは前記平均プーリングタイプの中から選択された前記特定最適プーリングタイプを利用して前記テスト用プーリング済み特徴マップを生成し、ここで前記特定最適プーリングタイプは前記テスト用ROIのスケール及び前記テスト用客体のカテゴリに対応する情報を含む前記テーブルを参照に決定されることを特徴とする装置が提供される。
【0039】
一例として、前記(AA)プロセスで、前記テスト用ROIの前記スケールは前記テスト用ROIの内部に含まれたピクセルデータ個数を参照にして決定されることを特徴とする装置が提供される。
【発明の効果】
【0040】
本発明によれば、客体の種類及び客体のスケールの範囲別にマックスプーリング及び平均プーリングの性能情報を対応させて記録したテーブルを参照するようにすることで、客体の種類及び客体のスケールの範囲別にマックスプーリングまたは平均プーリングのうち最適プーリングタイプが自動で選択されるようにすることができる。
【図面の簡単な説明】
【0041】
図1図1は、既存の学習過程を示したものであって、学習装置がバウンディングボックスを獲得してこれを原本正解のバウンディングボックスと比較する過程を示した図面である。
図2図2は、本発明の一実施例にかかるテーブル作成装置200のブロック図である。
図3図3は、入力イメージ内のROI(Region on interest)に対応する特徴マップの領域にマックスプーリング及び平均プーリングで各々のバウンディングボックスを獲得する過程を示す図面である。
図4図4は、本発明の一実施例によりマックスプーリング及び平均プーリングのプロセスを例示的に示した図面である。
図5図5は、本発明の一実施例であって、入力イメージの客体のスケールの各範囲別に作成されたテーブルを示す。
図6図6は、本発明の一実施例にかかるテスティング装置のブロック図である。
【発明を実施するための形態】
【0042】
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。
【0043】
また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
【0044】
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
【0045】
図2は本発明の一実施例にかかるテーブル作成装置200のブロック図である。
【0046】
図2に示されたように、テーブル作成装置200は通信部210とプロセッサ220を含み、図2とは異なり後述するデータベース230も含まれ得る。場合によって、テーブル作成装置200は図2のようにデータベース230が含まれないことがある。
【0047】
ここで、本発明の学習装置(未図示)は(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置は、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置は、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置は、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された後、テーブル作成装置200の通信部210は、少なくとも一つのテーブル作成用入力イメージまたはテーブル作成用入力イメージ内の少なくとも一つのテーブル作成用ROI(region of interest)の情報を獲得する。即ち、テーブル作成装置200の通信部210はRGBフォーマットからなるテーブル作成用入力イメージまたは他の装置のRPN(Region Proposal Network)からテーブル作成用ROIの情報を獲得し得る。
【0048】
以下、図2ないし図5の説明の便宜上、“テーブル作成用”という表現は省略する。
【0049】
一方、テーブル作成装置200のプロセッサ220は入力イメージ内の客体の各スケール範囲別に及び/またはその各カテゴリ別にマックスプーリング及び平均プーリングのうちどちらが最適のプーリングタイプかに対する情報を利用してテーブルを作成するように構成される。最適プーリングタイプを決定することについては後でより詳細に説明することとする。
【0050】
一方、データベース230はテーブルを作成するのに利用される情報を保存するように構成され得て、テーブルに保存された情報、即ち、客体の各スケール及び/または各カテゴリ別に最適のプーリングタイプに対する情報はテーブル作成装置200の通信部210を通じてアクセスが可能である。
【0051】
参考までに、本発明に開示された演算またはコンピューティングを遂行するための少なくとも一つのプロセッサを備えた任意のデジタルコンピューティング装置がテーブル作成装置200に採択され得る。
【0052】
図3はテーブル作成装置200が入力イメージ内のROI(Region on interest)に対応する特徴マップの領域にマックスプーリング演算及び平均プーリング演算で各々のバウンディングボックスを獲得する過程を示す図面である。参考までに、図3に示されたCNNの構成はテーブル作成装置200だけに含まれるものではなく、学習装置にも含まれ得る。テーブル作成装置200と学習装置間のCNN構成の差異は、学習装置はバックプロパゲーションプロセスに利用される少なくとも一つのロスレイヤ(loss layer)をさらに含むということである。
【0053】
一方、図4はマックスプーリング及び平均プーリングのプロセスを例示的に示した図面である。
【0054】
図3に示された構成を有するCNNを含む学習装置(未図示)及びテーブル作成装置200はコンボリューションブロック、RPN(Region Proposal Network)、ROIプーリングレイヤ、一つ以上のFC(Fully Connected)レイヤなどが含まれ得る。
【0055】
特に、テーブル作成装置200の通信部210はS305段階で入力イメージ、即ちRGBイメージを受信するか、他の装置をもって受信するようにし、プロセッサ220はS310段階で多数のコンボリューションレイヤが前記イメージにコンボリューション演算を適用するようにし、S320段階でRPNが少なくとも一つの特徴マップに特定演算を遂行するようにし、S325段階でROIを獲得するようにする。
【0056】
その次に、テーブル作成装置200のプロセッサ220はS330段階で(i)前記少なくとも一つの特徴マップ内の、ROIに対応する、一つ以上の領域に一つ以上のマックスプーリング演算を適用して第1プーリング済み特徴マップを生成して(ii)前記少なくとも一つの特徴マップ内の、ROIに対応する、一つ以上の領域に一つ以上の平均プーリング演算を適用して第2プーリング済み特徴マップを生成するように構成され得る。
【0057】
図4に例示的に示されたように、ROIは領域410で4×4、即ち16ピクセルとして提示され得る。
【0058】
図4で、RPNから獲得されたテーブル作成用ROIに対応する領域410が示される。例えば、領域410内のピクセルデータは数値で提示されるが、これに限定されない。領域410は4個のサブ−区域(sub−region)に区分され、各サブ区域は2×2ピクセルサイズを有する。多数の区分されたサブ−区域の数と共に多数のサブ−区域に含まれたピクセルの個数は例示に過ぎず、これに限定されないことは当業者に自明である。
【0059】
図4を参照すれば、領域410にマックスプーリング演算を適用して第1プーリング済み特徴マップ420を獲得し、同一の領域410に平均プーリング演算を適用して第2プーリング特徴マップ430を獲得する。マックスプーリング演算によれば、多数のサブ−区域毎にその中にあるピクセルのうち各最大ピクセル値を有するピクセルが第1プーリング済み特徴マップに選択され、平均プーリング演算によれば、多数のサブ−区域毎にその中に含まれているピクセル値の平均値を獲得してその各平均値が第2プーリング済み特徴マップに決定される。
【0060】
図3を再び参照すれば、テーブル作成装置のプロセッサは、第1FCレイヤをもって、S335段階で第1プーリング済み特徴マップにリグレッション(regression)演算を適用してS340段階で第1候補バウンディングボックスのピクセルに対する情報を獲得するようにし、第2FCレイヤをもって、S345段階で第2プーリング済み特徴マップにリグレッション演算を適用してS350段階で第2候補バウンディングボックスのピクセルに対する情報を獲得するようにする。参考までに、ピクセルの情報はピクセル座標値の場合もあるが、これに限定されない。ここで、第1FCレイヤ及び第2FCレイヤは場合によって分離したレイヤでない場合がある。しかし、学習装置またはテーブル作成装置が多数のコンピューティング装置を含む場合、前記第1FCレイヤ及び第2FCレイヤは互いに異なるコンピューティング装置内に含まれるように分離されることもある。
【0061】
その次に、テーブル作成装置200のプロセッサ220は(i)第1候補バウンディングボックスと原本正解バウンディングボックス間の第1類似度及び(ii)第2候補バウンディングボックスと原本正解バウンディングボックス間の第2類似度を比較して、原本正解イメージ内の客体のスケールの各範囲別または入力イメージ内の客体のスケール各範囲別に各々最適のプーリングタイプに対する情報を含むようにテーブルを作成するように構成され得る。他の例として、前記テーブルは原本正解イメージまたは入力イメージ内での各客体のスケールの各範囲別だけでなく、各客体の各カテゴリ別に各々の最適プーリングタイプに対する情報を含むように構成され得る。
【0062】
図5は本発明の一実施例であって、入力イメージの客体のスケールの各範囲別に作成されたテーブルを示す。
【0063】
図5を参照すれば、前記テーブルは原本正解イメージ内の客体のスケールの各範囲別及び/または各カテゴリ別に各々の最適プーリングタイプに対する情報を保存するように構成されるが、これに限定されない。
【0064】
特に、テーブル作成装置200のプロセッサ220は第1候補バウンディングボックスを原本正解バウンディングボックスと比較することでその間の第1類似度を獲得するように構成される。同様にテーブル作成装置200のプロセッサ220は第2候補バウンディングボックスを原本正解バウンディングボックスと比較することでその間の第2類似度を獲得するように構成され得る。
【0065】
ここで、第1類似度(または第2類似度)は(i)第1候補バウンディングボックス内の領域(または第2候補バウンディングボックス内の領域)と原本正解バウンディングボックスの領域の和集合(union)に対応する領域に対する(ii)第1候補バウンディングボックス内の領域(または第2候補バウンディングボックス内の領域)と原本正解バウンディングボックスの領域の交差集合(intersection)に対応する領域の比率で計算される。
【0066】
例えば、第1類似度が3/4で、第2類似度が1/3の場合、マックスプーリング演算を適用した結果は平均プーリング演算を適用した結果よりも原本正解バウンディングボックスにさらに類似すると判断され得る。
【0067】
参考までに、第1候補バウンディングボックスと原本正解バウンディングボックス間を区別する任意の情報または第2候補バウンディングボックスと原本正解バウンディングボックス間を区別する任意の情報は各々の類似度を計算するのに利用され得る。かかる情報は、候補バウンディングボックス及び原本正解バウンディングボックスの中心座標(または他の所定の座標)、これらの幅及び高さ情報のうち少なくとも一つが含まれ得る。
【0068】
また、テーブル作成装置200のプロセッサ220はスケールの各範囲別及び/または各カテゴリ別に、図5に示されたテーブルで、各最適プーリングタイプに対する情報をさらに含むように構成され得る。
【0069】
ここで、各客体のスケールは原本正解バウンディングボックス内の領域(または第1候補バウンディングボックス内の領域または第2候補バウンディングボックス内の領域)のピクセル個数に平方根を適用して判断し得る。しかし、本発明はこれに限定されない。例えば、前記スケールを得るのに他の演算が前記領域に適用されることもある。前記平方根演算の結果は実数であり得る。その結果が14である場合、その結果は図5に示されたテーブルで0から15の間の範囲を含む“スケール1”の範囲内に属するようになる。
【0070】
具体的に、原本正解バウンディングボックス内の領域に平方根演算を遂行することはスケールの範囲のうち一つに属するある値を得るようにし得る。スケールの範囲は特定基準に基づいて定められ得て、本発明はこれに制限されないことは当業者に明確である。
【0071】
他の例として、テーブル作成装置200のプロセッサ220は第1類似度と第2類似度を多数回比較して各客体に対する最適プーリングタイプを決定することでテーブルを作成するように構成され得る。
【0072】
具体的に、各々の比較結果が獲得されるたびに、マックスプーリング演算に対する正確度回数(accuracy count)または平均プーリング演算に対する正確度回数が1ずつ増加する。そして、客体のスケールの各範囲別及び/またはこれらの各カテゴリ別にマックスプーリング演算に対する正確度回数を平均プーリング演算に対する正確度回数と比較することで、テーブル作成装置200のプロセッサ220は客体のスケールの各範囲別及び/またはこれの各カテゴリ別の最適プーリングタイプを決定し得る。
【0073】
例えば、1000個の入力イメージが特定スケール範囲、例えば、スケール2の範囲を有する客体を含む場合、マックスプーリング演算に対する正確度回数が500で、平均プーリング演算に対する正確度個数が800の場合、(即ち、マックスプーリングを適用した場合、有効と判断されるテーブル作成用イメージが500個、平均プーリングを適用した場合、有効と判断されるテーブル作成用イメージが800個の場合)、テーブル作成装置200のプロセッサ220はスケール2に対する最適プーリングタイプは平均プーリングと判断し得る。
【0074】
他の例として、最適プーリングタイプは、すべての種類の客体のスケールの特定範囲に対して、前記スケールの特定範囲内の各客体のカテゴリとは関係なく、同一の一つのプーリングタイプ、例えば、平均プーリングと決定され得る。
【0075】
例えば、万一10個のクラス、例えば、歩行者、車両、道、及びビルディングなどがある場合、大部分のクラス、即ち、歩行者を除く大部分のカテゴリでこれらに対応する最適プーリングタイプとしてマックスプーリングタイプと判断されると、歩行者に対する最適プーリングタイプが平均プーリングであっても、歩行者を含むすべての種類の客体に対する最適プーリングタイプはマックスプーリングと設定されることもある。
【0076】
他の実施例で、テーブル作成装置200のプロセッサ220は客体の各カテゴリ別にスケールの臨界範囲を保存及び管理することもできる。
【0077】
ここで、客体の各カテゴリ別スケールの臨界範囲は一つの類似度が他の類似度よりも大きいか同じになるスケールの範囲である。
【0078】
一般的にマックスプーリング演算はより大きいスケールを有する客体に適用される反面、平均プーリング演算はより小さいスケールを有する客体に適用される。
【0079】
従って、スケールが増加すると、客体の各カテゴリ別に、マックスプーリング演算にかかる類似度が平均プーリング演算にかかる類似度よりも大きくなるか同じになる対応する特定臨界範囲があるようになる。
【0080】
従って、テーブル作成装置200は各客体の種類によってスケールの臨界範囲を保存して管理し得る。
【0081】
一方、本発明の他の実施例によれば、コンボリューションレイヤによって各入力イメージから多数の特徴マップが生成されると、テーブル作成装置200は前記特定の複数の特徴マップ内の、前記ROIに対応する、特定の複数の領域にマックスプーリング演算を適用することで第1プーリング済み特徴マップを生成し、前記特定の複数の特徴マップ内の、前記ROIに対応する、特定の複数の領域に平均プーリング演算を適用することで第2プーリング済み特徴マップを生成する。
【0082】
ここで、最適プーリングタイプ各々は(i)前記特定複数の特徴マップに対応する特定の複数のサブ−プーリングタイプまたは(ii)前記複数のサブ−プーリングタイプを参照して決定された一つの統合プーリングタイプのうち一つが含まれ得る。
【0083】
例えば、互いに異なる大きさを有する3個の特徴マップが各入力イメージから生成された場合、最適プーリングタイプ各々が(i)特定の複数(=3個)の特徴マップに対応する特定の複数(=3個)のサブ−プーリングタイプを含む場合、テーブルの一つのセルに保存されるべき3個の各特徴マップに対する各々最適−サブプーリングタイプはa1、a2、a3として示され得る。ここで、最適のサブ−プーリングタイプは3個の特徴マップに対してマックスプーリング演算及び平均プーリング演算の互いに異なる組み合わせを比較することで、この組み合わせのうちどれが原本正解バウンディングボックスと最も高い正確度でオーバーラップされる候補バウンディングボックスを生成するかを把握することで決定され得る。場合によって、一連のマックスプーリング演算または一連の平均プーリング演算のうち一つが前記3個の特徴マップに適用され得る。
【0084】
これに反して、最適プーリングタイプ各々が(ii)特定の複数のサブ−プーリングタイプを参照して決定された一つの統合プーリングタイプを含む場合、テーブル作成装置200のプロセッサ220は複数の特徴マップに対する一つの単一最適プーリングタイプを獲得するために対応する特徴マップに対する最適のサブ−プーリングタイプを参照し得る。例えば、3個の特徴マップの最適サブ−プーリングタイプがa1max、a2avg、a3maxまたはa1max、a2max、a3avgの場合、amaxがCNNに対する一つの単一最適プーリングタイプに決定され得る。
【0085】
参考までに、テーブル作成装置200に対する入力イメージは学習のための入力イメージとは異なることもあり、場合によって、テーブル作成装置200に対する入力イメージが学習用入力イメージと同一なこともある。従って、テーブル作成用原本正解イメージは学習用原本正解イメージと異なる場合もあり、同じ場合もある。
【0086】
図6は本発明の一実施例にかかるテスティング装置600のブロック図である。
【0087】
図6に示されたように、本発明のテスティング装置600は通信部610とプロセッサ620を含む。場合によって、図6とは異なりテスティング装置600はデータベース630が含まれることもある。また、場合によって、テスティング装置600がデータベース630を含まないこともある。
【0088】
参考までに、テスティング装置600、テーブル作成装置200及び学習装置(未図示)は同一のコンピューティング装置であり得るが、これらの装置が分離したコンピューティング装置であり得ることは当業者に自明である。
【0089】
テスティング装置600は少なくとも一つのテストイメージ内の少なくとも一つのテスト用客体に対する最適プーリングタイプに対する情報を含むテーブルを利用し得る。
【0090】
(I)(i)学習イメージがコンボリューションレイヤに入力されて所定の演算結果少なくとも一つ以上の学習用特徴マップが獲得され、前記学習イメージ上で学習用ROI(region−of−interest)領域がRPN(Region Proposal Network)から獲得されると、前記学習装置が、前記学習用ROI領域に対応される前記学習用特徴マップ上の領域を複数のサブ−区域に区分するか区分するように支援するプロセス、(ii)前記学習装置が、(ii−1)前記複数のサブ−区域各々に含まれたすべてのピクセルのうち前記サブ−区域毎に最大値のピクセルを選択するマックスプーリング演算を適用する場合に、前記一つ以上の特徴マップ内の学習用ROIに対応する、一つ以上の領域に対して一つ以上の前記マックスプーリング演算を適用して、学習用第1プーリング済み特徴マップを生成するか生成するように支援し、(ii−2)前記複数のサブ−区域各々に含まれた前記すべてのピクセルのうち前記サブ−区域毎に平均値を獲得する平均プーリング演算を適用する場合に、前記一つ以上の特徴マップ内の前記学習用ROIに対応する、一つ以上の領域に一つ以上の平均プーリングを適用して、学習用第2プーリング済み特徴マップを生成するか生成するように支援するプロセス、(iii)前記学習装置が、(iii−1)第1FC(Fully Connected)レイヤをもって、前記学習用第1プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、第1ロスレイヤをもって、前記学習用第1候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータに対する情報を比較して第1比較データを獲得するようにして、前記第1比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス及び(iii−2)第2FCレイヤをもって、前記学習用第2プーリング済み特徴マップにリグレッション(regression)演算を適用して学習用第2候補バウンディングボックスのピクセルデータ情報を獲得するようにし、第2ロスレイヤをもって、前記学習用第2候補バウンディングボックスのピクセルデータに対する情報と第1原本正解イメージのバウンディングボックスのピクセルデータ情報と比較して第2比較データを獲得するようにして、前記第2比較データを利用してバックプロパゲーションを遂行して前記CNNの少なくとも一つのパラメータに対して調節をするプロセス;を遂行して、前記学習装置の調節されたパラメータが獲得された状態で、テーブル作成装置が、前記調節されたパラメータを備えたCNNの入力として客体を含むテーブル作成用イメージを獲得する段階;(II)前記テーブル作成装置が、前記複数個のコンボリューションレイヤをもって前記テーブル作成用イメージにコンボリューション演算を適用するようにして少なくとも一つのテーブル作成用特徴マップが獲得されるようにし、前記RPNをもって前記テーブル作成用特徴マップに所定の演算を適用してテーブル作成用ROI領域が獲得されるようにする段階;(III)前記テーブル作成装置が、(c−1)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上のマックスプーリングを適用してテーブル作成用第1プーリング済み特徴マップを生成し、(c−2)前記一つ以上の特徴マップで、前記テーブル作成用ROIに対応する、一つ以上の領域に対して一つ以上の平均プーリングを適用してテーブル作成用第2プーリング済み特徴マップを生成し、(c−3)前記第1FCレイヤをもって、前記テーブル作成用第1プーリング済み特徴マップにリグレッション(regression)演算を適用してテーブル作成用第1候補バウンディングボックスのピクセルデータに対する情報を獲得するようにし、(c−4)第2FCレイヤをもって、前記テーブル作成用第2プーリング済み特徴マップにリグレッション演算を適用してテーブル作成用第2候補バウンディングボックスのピクセルデータに対する情報を獲得するようにする段階;及び(IV)前記テーブル作成装置が、(i)前記テーブル作成用第1候補バウンディングボックスと第2原本正解イメージ内のバウンディングボックス間の第1類似度及び(ii)前記テーブル作成用第2候補バウンディングボックスと前記第2原本正解イメージ内のバウンディングボックス間の第2類似度を比較して、前記第2原本正解イメージ内の客体または前記テーブル作成用イメージ内の客体の前記スケールの各範囲別に各々の最適のプーリングタイプ(type)に対する情報を含むようにテーブルを作成する段階;を遂行した状態で、テスティング装置600の通信部610はテストイメージを獲得するか、他の装置をもって獲得ようにし得る。
【0091】
その次に、テスティング装置600は前記複数個のコンボリューションレイヤをもって前記テストイメージにコンボリューション演算を適用するようにして少なくとも一つのテスト用特徴マップが獲得されるようにし、前記RPNをもって前記テスト用特徴マップに所定の演算を適用してテスト用ROI領域が獲得されるようにする。
【0092】
その次に、テスティング装置600は前記マックスプーリングタイプ及び前記平均プーリングタイプのうち、前記テスト用客体のスケールの範囲及び/またはカテゴリに対応する情報を含む前記テーブルを参照して決定して選択された、特定最適プーリングタイプを利用してテスト用プーリング済み特徴マップを生成する。
【0093】
また、テスティング装置はFCレイヤを通じて前記テスト用プーリング済み特徴マップにリグレッション演算を適用してテスト用バウンディングボックスを獲得するようにする。
【0094】
本発明は入力イメージで各客体のスケール及び/またはカテゴリにより互いに異なるプーリング技法を適用することができる効果がある。
【0095】
また、本発明はマックスプーリング演算を平均プーリング演算と組み合わせてフィーチャー(feature)損失を減少させるためにプーリング演算の最適な組み合わせを獲得することができる他の効果を有する。
【0096】
また、本発明は客体のスケール及び/またはカテゴリに基づいて互いに異なるプーリング方式を適用することで客体検出及び特徴表現の正確性を向上させるまた他の効果を有する。
【0097】
以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるものような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
【0098】
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
【0099】
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。
【符号の説明】
【0100】
200…テーブル作成装置、210…通信部、220…プロセッサ、230…データベース、410…ROI領域に対応される特徴マップ上の領域、420…マックスプーリング済み第1プーリング済み特徴マップ、430…平均プーリング済み第2プーリング済み特徴マップ、600…テスティング装置、610…通信部、620…プロセッサ、630…データベース。
図1
図2
図3
図4
図5
図6