特許第6820030号(P6820030)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特許6820030異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING METHOD AND LEARNING DEVICE USING MULTIPLE LABELED DATABASES WITH DIFFERENT LABEL SETS AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
<>
  • 特許6820030-異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING  METHOD  AND  LEARNING  DEVICE  USING  MULTIPLE  LABELED  DATABASES  WITH  DIFFERENT  LABEL  SETS  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000002
  • 特許6820030-異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING  METHOD  AND  LEARNING  DEVICE  USING  MULTIPLE  LABELED  DATABASES  WITH  DIFFERENT  LABEL  SETS  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000003
  • 特許6820030-異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING  METHOD  AND  LEARNING  DEVICE  USING  MULTIPLE  LABELED  DATABASES  WITH  DIFFERENT  LABEL  SETS  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000004
  • 特許6820030-異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING  METHOD  AND  LEARNING  DEVICE  USING  MULTIPLE  LABELED  DATABASES  WITH  DIFFERENT  LABEL  SETS  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000005
  • 特許6820030-異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING  METHOD  AND  LEARNING  DEVICE  USING  MULTIPLE  LABELED  DATABASES  WITH  DIFFERENT  LABEL  SETS  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000006
  • 特許6820030-異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING  METHOD  AND  LEARNING  DEVICE  USING  MULTIPLE  LABELED  DATABASES  WITH  DIFFERENT  LABEL  SETS  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000007
  • 特許6820030-異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING  METHOD  AND  LEARNING  DEVICE  USING  MULTIPLE  LABELED  DATABASES  WITH  DIFFERENT  LABEL  SETS  AND  TESTING  METHOD  AND  TESTING  DEVICE  USING  THE  SAME} 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6820030
(24)【登録日】2021年1月6日
(45)【発行日】2021年1月27日
(54)【発明の名称】異なるラベルセットを有する複数のラベリングされたデータベースを用いて学習する方法及び装置、そしてこれを利用したテスト方法及び装置{LEARNING METHOD AND LEARNING DEVICE USING MULTIPLE LABELED DATABASES WITH DIFFERENT LABEL SETS AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
(51)【国際特許分類】
   G06N 3/08 20060101AFI20210114BHJP
   G06T 7/00 20170101ALI20210114BHJP
【FI】
   G06N3/08
   G06T7/00 350C
【請求項の数】30
【全頁数】26
(21)【出願番号】特願2019-193143(P2019-193143)
(22)【出願日】2019年10月24日
(65)【公開番号】特開2020-68035(P2020-68035A)
(43)【公開日】2020年4月30日
【審査請求日】2019年10月24日
(31)【優先権主張番号】16/171,811
(32)【優先日】2018年10月26日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】110000039
【氏名又は名称】特許業務法人アイ・ピー・ウィン
(74)【復代理人】
【識別番号】100120628
【弁理士】
【氏名又は名称】岩田 慎一
(72)【発明者】
【氏名】金桂賢
(72)【発明者】
【氏名】金鎔重
(72)【発明者】
【氏名】金寅洙
(72)【発明者】
【氏名】金鶴京
(72)【発明者】
【氏名】南雲鉉
(72)【発明者】
【氏名】夫碩▲くん▼
(72)【発明者】
【氏名】成明哲
(72)【発明者】
【氏名】呂東勳
(72)【発明者】
【氏名】柳宇宙
(72)【発明者】
【氏名】張泰雄
(72)【発明者】
【氏名】鄭景中
(72)【発明者】
【氏名】諸泓模
(72)【発明者】
【氏名】趙浩辰
【審査官】 久保 光宏
(56)【参考文献】
【文献】 特開2017−84320(JP,A)
【文献】 Wanli Ouyang, et al.,"Factors in Finetuning Deep Model for Object Detection with Long-tail Distribution",Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2016年 6月30日,Pages 864-873,ISBN: 978-1-4673-8851-1, <DOI: 10.1109/CVPR.2016.100>.
【文献】 Shaoqing Ren, et al.,"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks",IEEE Transactions on Pattern Analysis and Machine Intelligence,2016年 6月 6日,Vol.39, No.6,Pages 1137-1149,ISSN: 0162-8828, <DOI: 10.1109/TPAMI.2016.2577031>.
【文献】 Ross Girshick,"Fast R-CNN",Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV),2015年12月13日,Pages 1440-1448,ISBN: 978-1-4673-8391-2, <DOI: 10.1109/ICCV.2015.169>.
(58)【調査した分野】(Int.Cl.,DB名)
G06N3/00−99/00
G06T7/00
CSDB(日本国特許庁)
IEEEXplore(IEEE)
(57)【特許請求の範囲】
【請求項1】
異なるラベルセットを有する複数のラベリングされたデータベースを利用してCNNを学習する方法において、
(a)学習装置が、(i)カテゴリ別に、複数の物体の複数のクラス(class)に対するイメージを分類して獲得した前記カテゴリ別イメージデータセットと、(ii)前記イメージデータセット各々に対応される各々の原本正解(Ground Truth)ラベルセットとして、前記イメージデータセット各々に含まれた前記イメージ各々にある前記物体各々を確認して、前記物体各々がこれに対応するカテゴリに属したクラスに対応すれば前記物体各々に対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースを構築する段階;
(b)前記学習装置が、前記n個の学習用データベースの中から特定クラスに対応する特定イメージデータセットに属する少なくとも一つの特定イメージを少なくとも一つの入力イメージとして受信し、前記入力イメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの特徴マップを生成した後、前記特徴マップを基に、前記入力イメージに含まれた少なくとも一つの特定の物体に対応する分類(classification)結果を前記カテゴリ別に生成するものの、前記入力イメージが前記特定クラスに対応する前記特定の物体を含む段階;及び
(c)前記学習装置が、前記カテゴリ別の前記分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別のロスを利用して前記CNNの少なくとも一つのパラメータを学習する段階;
を含むことを特徴とする方法。
【請求項2】
前記(c)段階で、
前記学習装置が、前記カテゴリ別の前記分類結果とこれに対応する前記原本正解ラベルセットの前記原本正解値を参照として、前記カテゴリ別分類ロスを算出することにより、(i)前記学習装置が、前記特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応される特定分類結果を前記特定クラスに決定し、(ii)前記学習装置が、前記特定クラスに対するアノテーション情報が含まれない少なくとも一つの別の原本正解ラベルセットに対応する少なくとも一つの別の分類結果を背景に決定するように、バックプロパゲーションを遂行し、前記CNNの前記パラメータが学習されることを特徴とする請求項1に記載の方法。
【請求項3】
前記(b)段階で、
前記学習装置は、前記特定の物体の検出位置に対する情報を示すボックス結果をさらに獲得し、
前記(c)段階で、
前記学習装置は、前記ボックス結果とこれに対応する原本正解ボックスを参照にしてボックスロスをさらに算出し、これによりバックプロパゲーションを遂行することを特徴とする請求項2に記載の方法。
【請求項4】
前記(b)段階で、
前記学習装置は、前記特定の物体の検出位置に対する情報を示すボックス結果をさらに獲得し、
前記(c)段階で、
前記ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断される場合、前記学習装置が、前記ボックス結果とそれに対応する原本正解ボックスとを参照にしてボックスロスを算出し、前記分類結果とそれに対応する前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照として、前記分類ロスを算出することにより、(i)前記学習装置が前記特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定分類結果を前記特定クラスに決定し、(ii)前記学習装置が前記特定クラスに対するアノテーション情報が含まれない、少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの異なった分類結果を背景として決定するよう、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習され、
前記(c)段階で、
前記ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、前記学習装置が、(i)前記カテゴリ別の前記分類結果のうち、前記特定クラスに対する前記アノテーション情報を含む前記特定原本正解ラベルセットに対応される前記特定分類結果と、(ii)これに対応する、前記特定原本正解ラベルセット内の原本正解値を参照として得られた特定分類ロスを算出することにより、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されるようにし、前記特定分類結果が前記背景として分類されるようにすることを特徴とする請求項1に記載の方法。
【請求項5】
前記所定の閾値は、I.O.U(intersection over union)が0.5であることを特徴とする請求項4に記載の方法。
【請求項6】
前記(c)段階で、
前記ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、(i)前記学習装置が前記特定クラスに対する前記アノテーション情報が含まれない前記他の原本正解ラベルセットに対応する前記別の分類結果を利用した前記バックプロパゲーションを遂行せず、(ii)前記学習装置が前記特定クラスに対する前記アノテーション情報が含まれる前記特定原本正解ラベルセットに対応される前記特定分類結果が前記背景として分類されるように前記バックプロパゲーションを遂行することを特徴とする請求項4に記載の方法。
【請求項7】
前記原本正解ラベルセット各々の中で、前記カテゴリ各々に属する少なくとも一つのクラスにのみ、そのクラス自体であるとアノテーションされており、前記原本正解ラベルセット各々で、他のカテゴリの一つに属する少なくとも一つのクラスには前記背景であるとアノテーションされていることを特徴とする請求項1に記載の方法。
【請求項8】
前記(a)段階で、
前記第1ないし第n学習用データベースに含まれる前記クラスとは異なる新しいクラスを分類するための前記CNNに対する学習要請が受信される場合、前記学習装置は、(i)前記新しいクラスに対する物体が含まれた新しいイメージを含む新しい第n+1イメージデータセットと(ii)前記新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築することを特徴とする請求項1に記載の方法。
【請求項9】
テストイメージに対するCNNを利用したテスト方法において、
(a)学習装置が、(I)(i)カテゴリ別に、複数の学習用物体の複数のクラスに対するトレーニングイメージを分類して獲得した前記カテゴリ別学習用イメージデータセットと、(ii)前記学習用イメージデータセット各々に対応される各々の原本正解ラベルセットとして、前記学習用イメージデータセット各々に含まれた前記トレーニングイメージ各々にある前記学習用物体各々を確認して、前記学習用物体各々がこれに対応するカテゴリに属したクラスに対応すれば、前記学習用物体各々にこれに対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースを構築するプロセス;(II)前記n個の学習用データベースの中から特定クラスに対応する特定学習用イメージデータセットに属する少なくとも一つの特定トレーニングイメージを受信し、前記トレーニングイメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの学習用特徴マップを生成した後、前記獲得された学習用特徴マップを基に、前記トレーニングイメージに含まれた少なくとも一つの特定学習用物体に対応する前記カテゴリ別学習用分類結果を生成するものの、前記トレーニングイメージが前記特定学習用クラスに対応する前記特定学習用物体を含むプロセス;及び(III)前記カテゴリ別の学習用分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別ロスを利用して前記CNNの少なくとも一つのパラメータを学習するプロセス;を遂行した状態で、テスト装置が少なくとも一つのテストイメージを獲得する段階及び
(b)前記テスト装置が、前記CNNを用いて前記テストイメージ内に含まれる少なくとも一つのテスト用物体の少なくとも一つのクラスに対応されるテスト用分類結果を生成する段階;
を含むことを特徴とする方法。
【請求項10】
前記(III)プロセスで、
前記学習装置が、前記学習用分類結果とこれに対応する前記カテゴリ別原本正解ラベルセットの前記原本正解値を参照として、前記カテゴリ別分類ロスを算出することにより、(III−1)前記学習装置が、前記学習用特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応される特定学習用分類結果を前記特定学習用クラスに決定し、(III−2)前記学習装置が、前記特定学習用クラスに対するアノテーション情報が含まれない少なくとも一つの別の原本正解ラベルセットに対応される少なくとも一つの学習用分類結果を背景に決定するように、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されることを特徴とする請求項9に記載の方法。
【請求項11】
前記(II)プロセスで、
前記学習装置が、前記特定学習用物体の検出位置に対する情報である学習用ボックス結果をさらに獲得し、
前記(III)プロセスで、
前記学習装置が、前記学習用ボックス結果とこれに対応する原本正解ボックスを参照にしてボックスロスをさらに算出し、これによりバックプロパゲーションを遂行することを特徴とする請求項10に記載の方法。
【請求項12】
前記(II)プロセスで、
前記学習装置は、前記特定学習用物体の検出位置に対する情報である学習用ボックス結果をさらに獲得し、
前記(III)プロセスで、
前記学習用ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断される場合、前記学習装置が、前記学習用ボックス結果とそれに対応する原本正解ボックスとを参照にしてボックスロスを算出し、前記学習用分類結果とそれに対応する前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照として、前記分類ロスを算出することにより、(III−1)前記学習装置が前記特定学習用クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定学習用分類結果を前記特定学習用クラスに決定し、(III−2)前記学習装置が、前記特定学習用クラスに対するアノテーション情報が含まれない少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの学習用分類結果を背景として決定するよう、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習され、
前記(III)プロセスで、
前記学習用ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、前記学習装置が(i)前記カテゴリ別の前記学習用分類結果のうち、前記特定学習用クラスに対する前記アノテーション情報を含む前記特定原本正解ラベルセットに対応される前記特定学習用分類結果と(ii)前記特定原本正解ラベルセット内のこれに対応する原本正解値を参照として得られた特定分類ロスを算出することにより、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されるようにし、前記特定学習用分類結果が前記背景として分類されるようにすることを特徴とする請求項9に記載の方法。
【請求項13】
前記(III)プロセスで、
前記学習用ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、(III−1)前記学習装置が前記特定クラスに対する前記アノテーション情報が含まれない前記他の原本正解ラベルセットに対応する前記他の学習用分類結果を利用した前記バックプロパゲーションを遂行せず、(III−2)前記学習装置が前記特定学習用クラスに対する前記アノテーション情報が含まれる前記特定原本正解ラベルセットに対応される前記特定学習用分類結果が前記背景として分類されるように前記バックプロパゲーションを行うことを特徴とする請求項12に記載の方法。
【請求項14】
前記原本正解ラベルセット各々の中で、前記カテゴリ各々に属する少なくとも一つのクラスにのみ、そのクラス自体であるとアノテーションされており、前記原本正解ラベルセット各々で、他のカテゴリの一つに属する少なくとも一つのクラスには前記背景であるとアノテーションされていることを特徴とする請求項9に記載の方法。
【請求項15】
前記(I)プロセスで、
前記第1ないし第n学習用データベースに含まれる前記クラスとは異なる新しいクラスを分類するための前記CNNに対する学習要請が受信される場合、前記学習装置は、(i)前記新しいクラスに対する学習用物体が含まれた新しいイメージを含む新しい第n+1学習用イメージデータセットと(ii)前記新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築することを特徴とする請求項9に記載の方法。
【請求項16】
異なるラベルセットを有する複数のラベリングされたデータベースを利用してCNNを学習する学習装置において、
(i)カテゴリ別に、複数の物体の複数のクラス(class)に対するイメージを分類して獲得した前記カテゴリ別イメージデータセットと、(ii)前記イメージデータセット各々に対応される各々の原本正解ラベルセットとして、前記イメージデータセット各々に含まれた前記イメージ各々にある前記物体各々を確認して、前記物体各々がこれに対応するカテゴリに属したクラスに対応すれば前記物体各々に対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースをである、前記学習用第nデータベースの中から特定クラスに対応される特定イメージセットに属する、少なくとも一つの特定イメージを少なくとも一つの入力イメージで受信する通信部;及び
(I)前記入力イメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの特徴マップを生成した後、前記特徴マップを基に、前記入力イメージに含まれた少なくとも一つの特定の物体に対応する分類(classification)結果を前記カテゴリ別に生成するものの、前記入力イメージが前記特定クラスに対応する前記特定の物体に対応される前記特定の物体を含むプロセス;及び(II)前記カテゴリ別の前記分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別のロスを利用して前記CNNの少なくとも一つのパラメータを学習するプロセス;を遂行するプロセッサを含むことを特徴とする学習装置。
【請求項17】
前記(II)プロセスで、
前記プロセッサが、前記カテゴリ別の前記分類結果とこれに対応する前記原本正解ラベルセットの前記原本正解値を参照として、前記カテゴリ別の分類ロスを算出することにより、(i)前記プロセッサが、前記特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定分類結果を前記特定クラスに決定し、(ii)前記プロセッサが、前記特定クラスに対するアノテーション情報が含まれない少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの別の分類結果を背景に決定するように、バックプロパゲーションを遂行し、前記CNNの前記パラメータが学習されることを特徴とする請求項16に記載の学習装置。
【請求項18】
前記(I)プロセスで、
前記プロセッサは、前記特定の物体の検出位置に対する情報を示すボックス結果をさらに獲得し、
前記(II)プロセスで、
前記プロセッサは、前記ボックス結果とこれに対応する原本正解ボックスを参照にしてボックスロスをさらに算出し、これによりバックプロパゲーションを遂行することを特徴とする請求項17に記載の学習装置。
【請求項19】
前記(I)プロセスで、
前記プロセッサは、前記特定の物体の検出位置に対する情報を示すボックス結果をさらに獲得し、
前記(II)プロセスで、
前記ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断される場合、前記プロセッサが、前記ボックス結果とそれに対応する原本正解ボックスとを参照にしてボックスロスを算出し、前記分類結果とそれに対応する前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照として、前記分類ロスを算出することにより、(i)前記プロセッサが前記特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応される特定分類結果を前記特定クラスに決定し、(ii)前記プロセッサが前記特定クラスに対するアノテーション情報が含まれない、少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの異なる分類結果を背景として決定するよう、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習され、
前記(II)プロセスで、
前記ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、前記プロセッサが、(i)前記カテゴリ別の前記分類結果のうち、前記特定クラスに対する前記アノテーション情報を含む前記特定原本正解ラベルセットに対応される前記特定分類結果と、(ii)これに対応する、前記特定原本正解ラベルセット内の原本正解値を参照として得られた特定分類ロスを算出することにより、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されるようにし、前記特定分類結果が前記背景として分類されるようにすることを特徴とする請求項16に記載の学習装置。
【請求項20】
前記所定の閾値は、I.O.U(intersection over union)が0.5であることを特徴とする請求項19に記載の学習装置。
【請求項21】
前記(II)プロセスで、
前記ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、(i)前記プロセッサが前記特定クラスに対する前記アノテーション情報が含まれない前記他の原本正解ラベルセットに対応する前記別の分類結果を利用した前記バックプロパゲーションを遂行せず、(ii)前記プロセッサが前記特定クラスに対する前記アノテーション情報が含まれる前記特定原本正解ラベルセットに対応される前記特定分類結果が前記背景として分類されるように前記バックプロパゲーションを行うことを特徴とする請求項19に記載の学習装置。
【請求項22】
前記原本正解ラベルセット各々の中で、前記カテゴリ各々に属する少なくとも一つのクラスにのみ、そのクラス自体であるとアノテーションされており、前記原本正解ラベルセット各々で、他のカテゴリの一つに属する少なくとも一つのクラスには前記背景であるとアノテーションされていることを特徴とする請求項16に記載の学習装置。
【請求項23】
前記第1ないし第n学習用データベースに含まれる前記クラスとは異なる新しいクラスを分類するための前記CNNに対する学習要請が受信される場合、前記プロセッサが、(i)前記新しいクラスに対する物体が含まれた新しいイメージを含む新しい第n+1イメージデータセットと(ii)前記新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築することを特徴とする請求項16に記載の学習装置。
【請求項24】
テストイメージに対するCNNを利用したテスト(test)装置において、
学習装置が、(I)(i)カテゴリ別に、複数の学習用物体の複数のクラスに対するトレーニングイメージを分類して獲得した前記カテゴリ別学習用イメージデータセットと、(ii)前記学習用イメージデータセット各々に対応される各々の原本正解ラベルセットとして、前記学習用イメージデータセット各々に含まれた前記トレーニングイメージ各々にある前記学習用物体各々を確認して、前記学習用物体各々がこれに対応するカテゴリに属したクラスに対応すれば、前記学習用物体各々にこれ対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースを構築するプロセス;(II)前記n個の学習用データベースの中から特定クラスに対応する特定学習用イメージデータセットに属する少なくとも一つの特定トレーニングイメージを受信し、前記トレーニングイメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの学習用特徴マップを生成した後、前記獲得された学習用特徴マップを基に、前記トレーニングイメージに含まれた少なくとも一つの特定学習用物体に対応する前記カテゴリ別学習用分類結果を生成するものの、前記トレーニングイメージが前記特定学習用クラスに対応する前記特定学習用物体を含むプロセス;及び(III)前記カテゴリ別の学習用分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別ロスを利用して前記CNNの少なくとも一つのパラメータを学習するプロセス;を遂行した状態で、少なくとも一つのテストイメージを獲得する通信部;及び、
前記CNNを用いて前記テストイメージ内に含まれる少なくとも一つのテスト用物体の少なくとも一つのクラスに対応されるテスト用分類結果を生成するプロセスを生成するプロセスを遂行するプロセッサ;
を含むことを特徴とするテスト装置。
【請求項25】
前記(III)プロセスで、
前記学習装置が、前記学習用分類結果とこれに対応する前記カテゴリ別原本正解ラベルセットの前記原本正解値を参照として、前記カテゴリ別分類ロスを算出することにより、(III−1)前記学習装置が、前記学習用特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定学習用分類結果を前記特定学習用クラスに決定し、(III−2)前記学習装置が、前記特定学習用クラスに対するアノテーション情報が含まれない少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの学習用分類結果を背景に決定するように、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されることを特徴とする請求項24に記載のテスト装置。
【請求項26】
前記(II)プロセスで、
前記学習装置が、前記特定学習用物体の検出位置に対する情報である学習用ボックス結果をさらに獲得し、
前記(III)プロセスで、
前記学習装置が、前記学習用ボックス結果とこれに対応する原本正解ボックスを参照にしてボックスロスをさらに算出し、これによりバックプロパゲーションを遂行することを特徴とする請求項25に記載のテスト装置。
【請求項27】
前記(II)プロセスで、
前記学習装置は、前記特定学習用物体の検出位置に対する情報である学習用ボックス結果をさらに獲得し、
前記(III)プロセスで、
前記学習用ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断される場合、前記学習装置が、前記学習用ボックス結果とそれに対応する原本正解ボックスとを参照にしてボックスロスを算出し、前記学習用分類結果とそれに対応する前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照として、前記分類ロスを算出することにより、(III−1)前記学習装置が前記特定学習用クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定学習用分類結果を前記学習用特定クラスに決定し、(III−2)前記学習装置が前記特定学習用クラスに対するアノテーション情報が含まれない、少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの学習用分類結果を背景として決定するよう、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習され、
前記(III)プロセスで、
前記学習用ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、前記学習装置が(i)前記カテゴリ別の前記学習用分類結果のうち、前記特定学習用クラスに対する前記アノテーション情報を含む前記特定原本正解ラベルセットに対応される前記特定学習用分類結果と(ii)前記特定原本正解ラベルセット内のこれに対応する原本正解値を参照として得られた特定分類ロスを算出することにより、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されるようにし、前記特定学習用分類結果が前記背景として分類されるようにすることを特徴とする請求項24に記載のテスト装置。
【請求項28】
前記(III)プロセスで、
前記学習用ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、(III−1)前記学習装置が前記特定クラスに対する前記アノテーション情報が含まれない前記他の原本正解ラベルセットに対応する前記他の学習用分類結果を利用した前記バックプロパゲーションを遂行せず、(III−2)前記学習装置が前記特定学習用クラスに対する前記アノテーション情報が含まれる前記特定原本正解ラベルセットに対応される前記特定学習用分類結果が前記背景として分類されるように前記バックプロパゲーションを行うことを特徴とする請求項27に記載のテスト装置。
【請求項29】
前記原本正解ラベルセット各々の中で、前記カテゴリ各々に属する少なくとも一つのクラスにのみ、そのクラス自体であるとアノテーションされており、前記原本正解ラベルセット各々で、他のカテゴリの一つに属する少なくとも一つのクラスには前記背景であるとアノテーションされていることを特徴とする請求項24に記載のテスト装置。
【請求項30】
前記(I)プロセスで、
前記第1ないし第n学習用データベースに含まれる前記クラスとは異なる新しいクラスを分類するための前記CNNに対する学習要請が受信される場合、前記学習装置は、(i)前記新しいクラスに対する学習用物体が含まれた新しいイメージを含む新しい第n+1学習用イメージデータセットと(ii)前記新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築することを特徴とする請求項24に記載のテスト装置。
【発明の詳細な説明】
【技術分野】
【0001】
異なるラベルセットを有する複数のラベリングされたデータベースを利用してCNNを学習する方法に関し;より詳細には、前記異なるラベルセットを有する複数のラベリングされた前記データベースを利用して前記CNNを学習する方法において、(a)(i)カテゴリ別に、複数の物体の複数のクラス(class)に対するイメージを分類して獲得した前記カテゴリ別イメージデータセットと、(ii)前記イメージデータセット各々に対応される各々の原本正解(Ground Truth)ラベルセットとして、前記イメージデータセット各々に含まれた前記イメージ各々にある前記物体各々を確認して、前記物体各々がこれに対応するカテゴリに属したクラスに対応すれば前記物体各々に対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースを構築する段階;(b)前記n個の学習用データベースの中から特定クラスに対応する特定イメージデータセットに属する少なくとも一つの特定イメージを少なくとも一つの入力イメージとして受信し、前記入力イメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの特徴マップを生成した後、前記特徴マップを基に、前記入力イメージに含まれた少なくとも一つの特定の物体に対応する分類(classification)結果を前記カテゴリ別に生成するものの、前記入力イメージが前記特定クラスに対応する前記特定の物体を含む段階;及び(c)前記カテゴリ別の前記分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別のロスを利用して前記CNNの少なくとも一つのパラメータを学習する段階;を含むことを特徴とする方法及び学習装置、これを利用したテスト方法及びテスト装置に関する。
【背景技術】
【0002】
ディープラーニング(Deep Learning)は、モノやデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習(Machine Learning)」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。保存されている犬の写真と似たような写真が入力されれば、これを犬の写真だとコンピュータが分類するようにしたのである。
【0003】
データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的だ。このうち、ディープラーニングは人工神経網の後裔だ。
【0004】
ディープ・コンボリューション・ニューラル・ネットワーク(Deep Convolution Neural Networks;DeepCNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解くために90年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげだ。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。
【0005】
図1は従来技術でディープCNNを利用し、写真から検出しようとする多様な出力の例を示す。
【0006】
分類(Classification)は、写真から検出しようとするクラス(Class)の種類、例えば、図1に示されているように、検出された物体が人か、羊か、犬かを識別する検出方法であり、検出(Detection)はすべての物体を探し、探した物体をバウンディングボックス(Bounding Box)に囲まれた形態で表示する方法であり、セグメンテーション(Segmentation)は、写真で特定の物体の領域を他の物体と区分する方法だ。最近、ディープラーニング(Deep learning)技術が脚光を浴び、分類、検出、セグメンテーションもディープラーニングを多く利用する傾向にある。
【0007】
図2はCNNを利用した検出方法を簡略的に示した図面である。
【0008】
図2を参照すれば、学習装置は、入力イメージの入力を受けて、複数のコンボリューションフィルタ(またはコンボリューションレイヤ)によって入力イメージにコンボリューション演算を数回適用し、少なくとも一つの特徴マップを生成する。次に、学習装置は、特徴マップを検出レイヤ(detection layer)に通過させ、少なくとも一つのバウンディングボックスを生成させた後、バウンディングボックスをフィルタリングレイヤ(filtering layer)に通過させて最終検出結果を生成する。その後、検出結果とそれに対応する原本正解(Ground Truth)値を参照し、獲得されたロス値を利用してバックプロパゲーション(backpropagation)を遂行するものの、これに対応する原本正解値は、事前に人がアノテーションした値で、検出器(学習装置)をもって検出結果値が原本正解値にますます近付くようにした値である。
【0009】
この際、学習された検出器の性能は、学習用データベースの大きさにある程度比例し得る。
【0010】
従来の学習方法では、図3に図示されているように、学習プロセスに利用するイメージデータベースには、検出しようとするすべてのクラスに対してアノテーションのついた複数の原本正解イメージが保存される。
【0011】
しかし、このような従来の方式では、従来のクラスが学習された状態で「交通信号機」「交通標識」のように新しいクラスを追加で学習しなければならない場合、既存のデータベース内の既存のすべてのトレーニングイメージに対して新しいクラスに対応する物体をすべて探してアノテーションをつけなければならない。 また、既存のトレーニングイメージ以外に新たに追加されるトレーニングイメージに対しても、新しいクラスだけでなく、既存のすべてのクラスに対して再びアノテーションをつける作業をしなければならず、学習プロセスに非効率的になる不便さが存在した。
【発明の概要】
【発明が解決しようとする課題】
【0012】
本発明は、前述した問題点を全て解決することを目的とする。
【0013】
また、本発明は新たに学習するクラスが追加される場合、効率的な学習方法を提供することを他の目的とする。
【0014】
また、本発明は既に学習されたパラメータを損なわず、新しいクラスに対して分離されたデータベースを通じて学習費用と学習時間を減らしつつ、新しいクラスに対する学習を別途追加できる方法を提供することをまた他の目的とする。
【課題を解決するための手段】
【0015】
本発明の一態様によれば、異なるラベルセットを有する複数のラベリングされたデータベースを利用してCNNを学習する方法において、(a)学習装置が、(i)カテゴリ別に、複数の物体の複数のクラス(class)に対するイメージを分類して獲得した前記カテゴリ別イメージデータセットと、(ii)前記イメージデータセット各々に対応される各々の原本正解(Ground Truth)ラベルセットとして、前記イメージデータセット各々に含まれた前記イメージ各々にある前記物体各々を確認して、前記物体各々がこれに対応するカテゴリに属したクラスに対応すれば前記物体各々に対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースを構築する段階;(b)前記学習装置が、前記n個の学習用データベースの中から特定クラスに対応する特定イメージデータセットに属する少なくとも一つの特定イメージを少なくとも一つの入力イメージとして受信し、前記入力イメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの特徴マップを生成した後、前記特徴マップを基に、前記入力イメージに含まれた少なくとも一つの特定の物体に対応する分類(classification)結果を前記カテゴリ別に生成するものの、前記入力イメージが前記特定クラスに対応する前記特定の物体を含む段階;及び(c)前記学習装置が、前記カテゴリ別の前記分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別のロスを利用して前記CNNの少なくとも一つのパラメータを学習する段階;を含むことを特徴とする方法である。
【0016】
一例として、前記(c)段階で、前記学習装置が、前記カテゴリ別の前記分類結果とこれに対応する前記原本正解ラベルセットの前記原本正解値を参照として、前記カテゴリ別分類ロスを算出することにより、(i)前記学習装置が、前記特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応される特定分類結果を前記特定クラスに決定し、(ii)前記学習装置が、前記特定クラスに対するアノテーション情報が含まれない少なくとも一つの他の原本正解ラベルセットに対応する少なくとも一つの別の分類結果を背景に決定するように、バックプロパゲーションを遂行し、前記CNNの前記パラメータが学習されることを特徴とする方法である。
【0017】
一例として、前記(b)段階で、前記学習装置は、前記特定の物体の検出位置に対する情報を示すボックス結果をさらに獲得し、前記(c)段階で、前記学習装置は、前記ボックス結果とこれに対応する原本正解ボックスを参照にしてボックスロスをさらに算出し、これによりバックプロパゲーションを遂行することを特徴とする方法である。
【0018】
一例として、前記(b)段階で、前記学習装置は、前記特定の物体の検出位置に対する情報を示すボックス結果をさらに獲得し、前記(c)段階で、前記ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断される場合、前記学習装置が、前記ボックス結果とそれに対応する原本正解ボックスとを参照にしてボックスロスを算出し、前記分類結果とそれに対応する前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照として、前記分類ロスを算出することにより、(i)前記学習装置が前記特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定分類結果を前記特定クラスに決定し、(ii)前記学習装置が前記特定クラスに対するアノテーション情報が含まれない、少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの異なった分類結果を背景として決定するよう、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習され、前記(c)段階で、前記ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、前記学習装置が、(i)前記カテゴリ別の前記分類結果のうち、前記特定クラスに対する前記アノテーション情報を含む前記特定原本正解ラベルセットに対応される前記特定分類結果と、(ii)これに対応する、前記特定原本正解ラベルセット内の原本正解値を参照として得られた特定分類ロスを算出することにより、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されるようにし、前記特定分類結果が前記背景として分類されるようにすることを特徴とする方法である。
【0019】
一例として、前記所定の閾値は、I.O.U(intersection over union)が0.5であることを特徴とする方法である。
【0020】
一例として、前記(c)段階で、前記ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、(i)前記学習装置が前記特定クラスに対する前記アノテーション情報が含まれない前記他の原本正解ラベルセットに対応する前記別の分類結果を利用した前記バックプロパゲーションを遂行せず、(ii)前記学習装置が前記特定クラスに対する前記アノテーション情報が含まれる前記特定原本正解ラベルセットに対応される前記特定分類結果が前記背景として分類されるように前記バックプロパゲーションを遂行することを特徴とする方法である。
【0021】
一例として、前記原本正解ラベルセット各々の中で、前記カテゴリ各々に属する少なくとも一つのクラスにのみ、そのクラス自体であるとアノテーションされており、前記原本正解ラベルセット各々で、他のカテゴリの一つに属する少なくとも一つのクラスには前記背景であるとアノテーションされていることを特徴とする方法である。
【0022】
一例として、前記(a)段階で、前記第1ないし第n学習用データベースに含まれる前記クラスとは異なる新しいクラスを分類するための前記CNNに対する学習要請が受信される場合、前記学習装置は、(i)前記新しいクラスに対する物体が含まれた新しいイメージを含む新しい第n+1イメージデータセットと(ii)前記新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築することを特徴とする方法である。
【0023】
本発明のまたの態様によれば、テストイメージに対するCNNを利用したテスト方法において、(a)学習装置が、(I)(i)カテゴリ別に、複数の学習用物体の複数のクラスに対するトレーニングイメージを分類して獲得した前記カテゴリ別学習用イメージデータセットと、(ii)前記学習用イメージデータセット各々に対応される各々の原本正解ラベルセットとして、前記学習用イメージデータセット各々に含まれた前記トレーニングイメージ各々にある前記学習用物体各々を確認して、前記学習用物体各々がこれに対応するカテゴリに属したクラスに対応すれば、前記学習用物体各々にこれに対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースを構築するプロセス;(II)前記n個の学習用データベースの中から特定クラスに対応する特定学習用イメージデータセットに属する少なくとも一つの特定トレーニングイメージを受信し、前記トレーニングイメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの学習用特徴マップを生成した後、前記獲得された学習用特徴マップを基に、前記トレーニングイメージに含まれた少なくとも一つの特定学習用物体に対応する前記カテゴリ別学習用分類結果を生成するものの、前記トレーニングイメージが前記特定学習用クラスに対応する前記特定学習用物体を含むプロセス;及び(III)前記カテゴリ別の学習用分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別ロスを利用して前記CNNの少なくとも一つのパラメータを学習するプロセス;を遂行した状態で、テスト装置が少なくとも一つのテストイメージを獲得する段階及び(b)前記テスト装置が、前記CNNを用いて前記テストイメージ内に含まれる少なくとも一つのテスト用物体の少なくとも一つのクラスに対応されるテスト用分類結果を生成する段階;を含むことを特徴とする方法である。
【0024】
一例として、前記(III)プロセスで、前記学習装置が、前記学習用分類結果とこれに対応する前記カテゴリ別原本正解ラベルセットの前記原本正解値を参照として、前記カテゴリ別分類ロスを算出することにより、(III−1)前記学習装置が、前記学習用特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応される特定学習用分類結果を前記特定学習用クラスに決定し、(III−2)前記学習装置が、前記特定学習用クラスに対するアノテーション情報が含まれない少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの学習用分類結果を背景に決定するように、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されることを特徴とする方法である。
【0025】
一例として、前記(II)プロセスで、前記学習装置が、前記特定学習用物体の検出位置に対する情報である学習用ボックス結果をさらに獲得し、前記(III)プロセスで、前記学習装置が、前記学習用ボックス結果とこれに対応する原本正解ボックスを参照にしてボックスロスをさらに算出し、これによりバックプロパゲーションを遂行することを特徴とする方法である。
【0026】
一例として、前記(II)プロセスで、前記学習装置は、前記特定学習用物体の検出位置に対する情報である学習用ボックス結果をさらに獲得し、前記(III)プロセスで、前記学習用ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断される場合、前記学習装置が、前記学習用ボックス結果とそれに対応する原本正解ボックスとを参照にしてボックスロスを算出し、前記学習用分類結果とそれに対応する前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照として、前記分類ロスを算出することにより、(III−1)前記学習装置が前記特定学習用クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定学習用分類結果を前記特定学習用クラスに決定し、(III−2)前記学習装置が、前記特定学習用クラスに対するアノテーション情報が含まれない少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの学習用分類結果を背景として決定するよう、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習され、前記(III)プロセスで、前記学習用ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、前記学習装置が(i)前記カテゴリ別の前記学習用分類結果のうち、前記特定学習用クラスに対する前記アノテーション情報を含む前記特定原本正解ラベルセットに対応される前記特定学習用分類結果と(ii)前記特定原本正解ラベルセット内のこれに対応する原本正解値を参照として得られた特定分類ロスを算出することにより、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されるようにし、前記特定学習用分類結果が前記背景として分類されるようにすることを特徴とする方法である。
【0027】
一例として、前記(III)プロセスで、前記学習用ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、(III−1)前記学習装置が前記特定クラスに対する前記アノテーション情報が含まれない前記他の原本正解ラベルセットに対応する前記他の学習用分類結果を利用した前記バックプロパゲーションを遂行せず、(III−2)前記学習装置が前記特定学習用クラスに対する前記アノテーション情報が含まれる前記特定原本正解ラベルセットに対応される前記特定学習用分類結果が前記背景として分類されるように前記バックプロパゲーションを行うことを特徴とする方法である。
【0028】
一例として、前記原本正解ラベルセット各々の中で、前記カテゴリ各々に属する少なくとも一つのクラスにのみ、そのクラス自体であるとアノテーションされており、前記原本正解ラベルセット各々で、他のカテゴリの一つに属する少なくとも一つのクラスには前記背景であるとアノテーションされていることを特徴とする方法である。
【0029】
一例として、前記(I)プロセスで、前記第1ないし第n学習用データベースに含まれる前記クラスとは異なる新しいクラスを分類するための前記CNNに対する学習要請が受信される場合、前記学習装置は、(i)前記新しいクラスに対する学習用物体が含まれた新しいイメージを含む新しい第n+1学習用イメージデータセットと(ii)前記新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築することを特徴とする方法である。
【0030】
本発明のまた他の態様によれば、異なるラベルセットを有する複数のラベリングされたデータベースを利用してCNNを学習する学習装置において、(i)カテゴリ別に、複数の物体の複数のクラス(class)に対するイメージを分類して獲得した前記カテゴリ別イメージデータセットと、(ii)前記イメージデータセット各々に対応される各々の原本正解ラベルセットとして、前記イメージデータセット各々に含まれた前記イメージ各々にある前記物体各々を確認して、前記物体各々がこれに対応するカテゴリに属したクラスに対応すれば前記物体各々に対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースをである、前記学習用第nデータベースの中から特定クラスに対応される特定イメージセットに属する、少なくとも一つの特定イメージを少なくとも一つの入力イメージで受信する通信部;及び(I)前記入力イメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの特徴マップを生成した後、前記特徴マップを基に、前記入力イメージに含まれた少なくとも一つの特定の物体に対応する分類(classification)結果を前記カテゴリ別に生成するものの、前記入力イメージが前記特定クラスに対応する前記特定の物体に対応される前記特定の物体を含むプロセス;及び(II)前記カテゴリ別の前記分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別のロスを利用して前記CNNの少なくとも一つのパラメータを学習するプロセス;を遂行するプロセッサを含むことを特徴とする学習装置である。
【0031】
一例として、前記(II)プロセスで、前記プロセッサが、前記カテゴリ別の前記分類結果とこれに対応する前記原本正解ラベルセットの前記原本正解値を参照として、前記カテゴリ別の分類ロスを算出することにより、(i)前記プロセッサが、前記特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定分類結果を前記特定クラスに決定し、(ii)前記プロセッサが、前記特定クラスに対するアノテーション情報が含まれない少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの別の分類結果を背景に決定するように、バックプロパゲーションを遂行し、前記CNNの前記パラメータが学習されることを特徴とする学習装置である。
【0032】
一例として、前記(I)プロセスで、前記プロセッサは、前記特定の物体の検出位置に対する情報を示すボックス結果をさらに獲得し、前記(II)プロセスで、前記プロセッサは、前記ボックス結果とこれに対応する原本正解ボックスを参照にしてボックスロスをさらに算出し、これによりバックプロパゲーションを遂行することを特徴とする学習装置である。
【0033】
一例として、前記(I)プロセスで、前記プロセッサは、前記特定の物体の検出位置に対する情報を示すボックス結果をさらに獲得し、前記(II)プロセスで、前記ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断される場合、前記プロセッサが、前記ボックス結果とそれに対応する原本正解ボックスとを参照にしてボックスロスを算出し、前記分類結果とそれに対応する前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照として、前記分類ロスを算出することにより、(i)前記プロセッサが前記特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応される特定分類結果を前記特定クラスに決定し、(ii)前記プロセッサが前記特定クラスに対するアノテーション情報が含まれない、少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの異なる分類結果を背景として決定するよう、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習され、前記(II)プロセスで、前記ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、前記プロセッサが、(i)前記カテゴリ別の前記分類結果のうち、前記特定クラスに対する前記アノテーション情報を含む前記特定原本正解ラベルセットに対応される前記特定分類結果と、(ii)これに対応する、前記特定原本正解ラベルセット内の原本正解値を参照として得られた特定分類ロスを算出することにより、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されるようにし、前記特定分類結果が前記背景として分類されるようにすることを特徴とする学習装置である。
【0034】
一例として、前記所定の閾値は、I.O.U(intersection over union)が0.5であることを特徴とする学習装置である。
【0035】
一例として、前記(II)プロセスで、前記ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、(i)前記プロセッサが前記特定クラスに対する前記アノテーション情報が含まれない前記他の原本正解ラベルセットに対応する前記別の分類結果を利用した前記バックプロパゲーションを遂行せず、(ii)前記プロセッサが前記特定クラスに対する前記アノテーション情報が含まれる前記特定原本正解ラベルセットに対応される前記特定分類結果が前記背景として分類されるように前記バックプロパゲーションを行うことを特徴とする学習装置である。
【0036】
一例として、前記原本正解ラベルセット各々の中で、前記カテゴリ各々に属する少なくとも一つのクラスにのみ、そのクラス自体であるとアノテーションされており、前記原本正解ラベルセット各々で、他のカテゴリの一つに属する少なくとも一つのクラスには前記背景であるとアノテーションされていることを特徴とする学習装置である。
【0037】
一例として、前記第1ないし第n学習用データベースに含まれる前記クラスとは異なる新しいクラスを分類するための前記CNNに対する学習要請が受信される場合、前記プロセッサが、(i)前記新しいクラスに対する物体が含まれた新しいイメージを含む新しい第n+1イメージデータセットと(ii)前記新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築することを特徴とする学習装置である。
【0038】
本発明のまた他の態様によれば、テストイメージに対するCNNを利用したテスト(test)装置において、学習装置が、(I)(i)カテゴリ別に、複数の学習用物体の複数のクラスに対するトレーニングイメージを分類して獲得した前記カテゴリ別学習用イメージデータセットと、(ii)前記学習用イメージデータセット各々に対応される各々の原本正解ラベルセットとして、前記学習用イメージデータセット各々に含まれた前記トレーニングイメージ各々にある前記学習用物体各々を確認して、前記学習用物体各々がこれに対応するカテゴリに属したクラスに対応すれば、前記学習用物体各々にこれ対応するクラスであるとアノテーションされた情報を付与して生成された前記カテゴリ別の前記原本正解ラベルセットを各々含む、第1ないし第n学習用データベースを構築するプロセス;
【0039】
(II)前記n個の学習用データベースの中から特定クラスに対応する特定学習用イメージデータセットに属する少なくとも一つの特定トレーニングイメージを受信し、前記トレーニングイメージに対してコンボリューション演算を少なくとも一度適用して少なくとも一つの学習用特徴マップを生成した後、前記獲得された学習用特徴マップを基に、前記トレーニングイメージに含まれた少なくとも一つの特定学習用物体に対応する前記カテゴリ別学習用分類結果を生成するものの、前記トレーニングイメージが前記特定学習用クラスに対応する前記特定学習用物体を含むプロセス;及び(III)前記カテゴリ別の学習用分類結果とこれに対応される、前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照して獲得される前記カテゴリ別ロスを利用して前記CNNの少なくとも一つのパラメータを学習するプロセス;を遂行した状態で、少なくとも一つのテストイメージを獲得する通信部;及び、前記CNNを用いて前記テストイメージ内に含まれる少なくとも一つのテスト用物体の少なくとも一つのクラスに対応されるテスト用分類結果を生成するプロセスを生成するプロセスを遂行するプロセッサ;を含むことを特徴とするテスト装置である。
【0040】
一例として、前記(III)プロセスで、前記学習装置が、前記学習用分類結果とこれに対応する前記カテゴリ別原本正解ラベルセットの前記原本正解値を参照として、前記カテゴリ別分類ロスを算出することにより、(III−1)前記学習装置が、前記学習用特定クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定学習用分類結果を前記特定学習用クラスに決定し、(III−2)前記学習装置が、前記特定学習用クラスに対するアノテーション情報が含まれない少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの学習用分類結果を背景に決定するように、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されることを特徴とするテスト装置である。
【0041】
一例として、前記(II)プロセスで、前記学習装置が、前記特定学習用物体の検出位置に対する情報である学習用ボックス結果をさらに獲得し、前記(III)プロセスで、前記学習装置が、前記学習用ボックス結果とこれに対応する原本正解ボックスを参照にしてボックスロスをさらに算出し、これによりバックプロパゲーションを遂行することを特徴とするテスト装置である。
【0042】
一例として、前記(II)プロセスで、前記学習装置は、前記特定学習用物体の検出位置に対する情報である学習用ボックス結果をさらに獲得し、前記(III)プロセスで、前記学習用ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断される場合、前記学習装置が、前記学習用ボックス結果とそれに対応する原本正解ボックスとを参照にしてボックスロスを算出し、前記学習用分類結果とそれに対応する前記カテゴリ別の前記原本正解ラベルセットの原本正解値を参照として、前記分類ロスを算出することにより、(III−1)前記学習装置が前記特定学習用クラスに対するアノテーション情報が含まれた特定原本正解ラベルセットに対応する特定学習用分類結果を前記学習用特定クラスに決定し、(III−2)前記学習装置が前記特定学習用クラスに対するアノテーション情報が含まれない、少なくとも一つの他の原本正解ラベルセットに対応される少なくとも一つの学習用分類結果を背景として決定するよう、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習され、前記(III)プロセスで、前記学習用ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、前記学習装置が(i)前記カテゴリ別の前記学習用分類結果のうち、前記特定学習用クラスに対する前記アノテーション情報を含む前記特定原本正解ラベルセットに対応される前記特定学習用分類結果と(ii)前記特定原本正解ラベルセット内のこれに対応する原本正解値を参照として得られた特定分類ロスを算出することにより、バックプロパゲーションを遂行して前記CNNの前記パラメータが学習されるようにし、前記特定学習用分類結果が前記背景として分類されるようにすることを特徴とするテスト装置である。
【0043】
一例として、前記(III)プロセスで、前記学習用ボックス結果が前記原本正解ボックスと前記所定の閾値未満に重なると判断される場合、(III−1)前記学習装置が前記特定クラスに対する前記アノテーション情報が含まれない前記他の原本正解ラベルセットに対応する前記他の学習用分類結果を利用した前記バックプロパゲーションを遂行せず、(III−2)前記学習装置が前記特定学習用クラスに対する前記アノテーション情報が含まれる前記特定原本正解ラベルセットに対応される前記特定学習用分類結果が前記背景として分類されるように前記バックプロパゲーションを行うことを特徴とするテスト装置である。
【0044】
一例として、前記原本正解ラベルセット各々の中で、前記カテゴリ各々に属する少なくとも一つのクラスにのみ、そのクラス自体であるとアノテーションされており、前記原本正解ラベルセット各々で、他のカテゴリの一つに属する少なくとも一つのクラスには前記背景であるとアノテーションされていることを特徴とするテスト装置である。
【0045】
一例として、前記(I)プロセスで、前記第1ないし第n学習用データベースに含まれる前記クラスとは異なる新しいクラスを分類するための前記CNNに対する学習要請が受信される場合、前記学習装置は、(i)前記新しいクラスに対する学習用物体が含まれた新しいイメージを含む新しい第n+1学習用イメージデータセットと(ii)前記新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築することを特徴とするテスト装置である。
【発明の効果】
【0046】
本発明によれば、学習装置が、提供されるカテゴリごとに分離された学習データベースを利用するため、新たに追加されるクラスに対するイメージだけを学習し、クラスに対してのみアノテーション作業をしたデータベースを追加で学習すれば充分であるため、効率的な学習プロセスを遂行し得る効果がある。
【0047】
また、本発明によれば、新たに追加された学習データだけを学習しても、既に学習されたCNNのパラメータを損なわず、新しいクラスを検出し得る学習能力を効率的に得られ得る他の効果がある。
【図面の簡単な説明】
【0048】
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例の中の一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業がなされることなくこれらの図面に基づいて他の図面が得られ得る。
【0049】
図1】従来の技術による、CNNによってイメージから獲得された多様な出力の例を示す図面である。
図2】従来の技術によってCNNを利用した検出方法を簡略的に示す図面である。
図3】従来の技術によってすべてのクラス(class)に対してアノテーション作業をして作った学習データの例を示す図面である。
図4】本発明によってカテゴリ別にクラスを分類して、イメージ内の物体のクラスに対してアノテーション作業をして形成されたカテゴリ別に分離されたデータベースを示す図面である。
図5】本発明に係る分離されたデータベースを利用した学習プロセスを示す図面である。
図6】本発明に係る学習プロセスにおける分類結果を生成する一例を示す図面である。
図7】本発明に係る学習プロセスにおける分類結果を生成する他の例を示す図面である。
【発明を実施するための形態】
【0050】
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。
【0051】
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者に本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。
【0052】
さらに、本発明は本明細書に表示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例に係る本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
【0053】
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得り、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得り、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
【0054】
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
【0055】
図4は、本発明によってカテゴリ別にイメージを分類してカテゴリ別イメージ内の物体クラスに対してアノテーション作業をして形成された、分離されたデータベースを表し、図5は、本発明に係る分離されたデータベースを利用した学習プロセスを示す。
【0056】
図4を参照すれば、本発明に係る複数の学習用データベースは、カテゴリ別に複数の物体の複数のクラスに対するイメージを分類して獲得したカテゴリ別イメージデータセットを含む。このカテゴリ別イメージデータセットは、(i)自動車、人、二輪車などのクラスを含むカテゴリのイメージが含まれた第1イメージデータセット、(ii)交通標識、交通信号などのクラスを含むカテゴリのイメージを含む第2イメージデータセット、及び(iii)犬、猫、鹿などのクラスを含むカテゴリのイメージを含む第3イメージデータセットに分類される。もちろん、学習用データベースの個数がこれに限定されるものではない。
【0057】
また、図4のカテゴリ別原本正解ラベルセットは、人が直接各々のクラスごとにアノテーション作業を遂行したラベルイメージを含み、カテゴリ別イメージデータセットに対応されるように原本正解ラベルセットが分類される。つまり、カテゴリ別原本正解ラベルセットは、各々のイメージデータセットに含まれた各々のイメージ内の各々の物体を確認し、これに対応するカテゴリに属するクラスに物体各々が対応されると、物体各々に対応するクラスでアノテーションが付けられた情報を付与して生成される。この際、原本正解ラベルセット各々はイメージデートセット各々に対応される。たとえば、(i)第1イメージデータセットに属するイメージの場合、自動車、人、二輪車のようなクラスを含むカテゴリに属するクラスにのみアノテーション作業がされており、残りのカテゴリのクラス(例えば、交通標識、交通信号、犬、猫、鹿など)に対してはアノテーション作業がされておらず、(ii)第2イメージデータセットに属するイメージの場合、交通標識、交通信号のようなクラスを含むカテゴリに属するクラスにのみアノテーション作業がされていて、残りのカテゴリのクラス(例えば、自動車、人、二輪車、犬、猫、鹿など)に対してはアノテーション作業がされておらず、(iii)第3イメージデータセットに属するイメージの場合、犬、猫、鹿のようなクラスを含むカテゴリに属するクラスにのみアノテーション作業がされていて、残りのカテゴリのクラス(例えば、自動車、人、二輪車、交通標識、交通信号など)に対してはアノテーション作業がされていない。つまり、このようにカテゴリがn個あるなら、第1ないし第n原本正解ラベルセットが必要である。こうしてカテゴリ別イメージデータセット及びこれに対応するカテゴリ別原本正解ラベルセットは、カテゴリ別に第1ないし第n学習用のデータベースが構築されることを許容する。
【0058】
他の実施例として、特定イメージに対して、特定カテゴリに属するクラスがそれに対応するクラスそのものでアノテーションされ、残りのカテゴリに対しては背景でアノテーション作業をし得るであろう。また、一つのイメージに対してn個の原本正解ラベルセットを生成し、カテゴリ別にn個の原本正解ラベルセットを分類し得るであろう。この場合、特定カテゴリの特定原本正解ラベルセットでは、特定の物体の特定クラスだけがアノテーションされ、残りのカテゴリの原本正解ラベルセットでは、前記特定の物体に対して背景としてアノテーションされ、カテゴリ別原本正解ラベルセットが形成されるであろう。
【0059】
このようなカテゴリ別原本正解ラベルセットは、図4右側に見られるように、カテゴリ別クラスアノテーショングループに対応されるであろう。つまり、(i)自動車・人・二輪車のデータベース410内の第1イメージデータセットに対しては、前記アノテーション411が付与され、(ii)交通標識・交通信号データベース420内の第2イメージデータセットに対しては、前記アノテーション421が付与され、(iii)動物データベース430内の第3イメージデータセットに対しては、前記アノテーション431が付与されるであろう。
【0060】
自動車・人・二輪車カテゴリ、交通標識・交通信号カテゴリ及び犬・猫・鹿カテゴリの既存のクラスが学習された状態で、第1ないし第n学習用データベースに含まれる既存のクラスとは異なる新しいクラスに対する学習の要請が受信されれば、学習装置が、(i)新しいクラスに対する物体が含まれた新しいイメージを含む新しい第n+1イメージデータセットと(ii)新しいクラスに対するアノテーション情報が付与された新しい第n+1原本正解ラベルセットとを追加的に獲得し、新しい第n+1学習用データベースを構築する。
【0061】
以下、図4に示された学習用データベースを利用して学習プロセスを遂行する検出器のプロセスを、図5を参照して説明する。
【0062】
図5を参照すれば、本発明に係る学習方法は、カテゴリ別に分離されたイメージデータセットを含む学習用データベースを構築する段階S01、特定カテゴリに対応する特定データベースから選択された入力イメージにコンボリューション演算を適用して特徴マップを生成する段階S02、特徴マップを基に、入力イメージに含まれる少なくとも一つの特定の物体に対応する分類結果をカテゴリ別に生成する段階S03、特徴マップを基に特定の物体の検出位置に対する情報を示すボックス結果を生成する段階S04及びボックス結果とカテゴリ別の分類結果を利用してカテゴリ別の独立した学習プロセスによってCNNの少なくとも一つのパラメータを最適化する段階S05を含む。
【0063】
具体的には、S01段階で図4に示されたように、カテゴリ別に第1ないし第n学習用データベースが構築される。その後、S02段階で図2に示されたように入力イメージがCNNに入力されて特徴マップを生成し得る。例えば、特定クラスに対応する図4の交通標識・交通信号のデータベース420内の特定イメージデータセットに属する特定イメージが入力イメージとして選択される場合がある。その際、入力イメージは、特定クラスに対応する特定の物体(例えば交通信号など)を含むイメージである。そして、学習装置はこの入力イメージを受け、複数のコンボリューションフィルタ(またはコンボリューションレイヤ)によって、複数回のコンボリューション演算を遂行して特徴マップを生成する。
【0064】
S03段階で、入力イメージに含まれる特定の物体に対応する分類結果は、図6に示されているように、カテゴリ別に生成される。具体的には、図6に示しているように、交通標識・交通信号データベースから選択した入力イメージであっても、物体検出器は、自動車・人・二輪車のデータベースに対応する特定原本正解ラベルセット620と比較のために利用される特定分類結果だけでなく、(i)動物データベース及び交通標識・交通信号データベースに各々対応する他の原本正解ラベルセット610、630と比較するための分類結果も一緒に算出する。つまり、学習用データベースがn個あるなら、結果もn個の原本正解ラベルセットとの比較のためにn個が出力される。
【0065】
S04段階で特徴マップを検出レイヤ(Detection Layer)に通過させて複数のバウンディンボックスを得て、このバウンディンボックスに対する情報をフィルタリングレイヤ(Filtering Layer)に通過させてボックス結果を得る。
【0066】
S05段階は、図6及び図7を参照して具体的に説明される。図6は本発明に係る学習プロセスにおけるカテゴリ別の分類結果を生成する一例を示し、図7は本発明に係るCNN学習プロセスにおけるカテゴリ別の分類結果を生成する他の例を示す。
【0067】
まず、図6は、ボックス結果が原本正解ボックスと所定の閾値以上に重なるものと判断された場合であり、図7はボックスの結果が原本正解ボックスと所定の閾値未満に重なると判断された場合であり、各々異なる学習プロセスを経る。
この際、前記所定の閾値は、I.O.U(Intersection over Union)が0.5であると設定され得る。例えば、ボックスの結果が原本正解ボックスと70%程度重なるとすれば、I.O.U値は70/(30+70+30)=0.53になるであろう。
【0068】
図6は、交通信号を学習するために入力イメージが入力された際にボックス結果が正しく交通信号を検出した場合を示し、図7は、交通信号を学習するために入力イメージが入力された際、ボックス結果が交通信号ではない間違った物体(例えば、自動車)を検出した場合を示す。
【0069】
ボックス結果が原本正解ボックスと所定の閾値以上に重なると判断された場合、学習装置がボックス結果とそれに対応する原本正解ボックスとを参照してボックスロスを算出し、分類結果とそれに対応するカテゴリ別原本正解ラベルセット各々の原本正解値を参照して分類ロスを算出することにより、バックプロパゲーションを行ってCNNのパラメータ学習を遂行した結果、(i)学習装置が、特定クラスに対するアノテーション情報を含む特定原本正解ラベルセットに対応する特定分類結果を特定クラスとして判断し、(ii)学習装置が特定クラスに対するアノテーション情報が含まれていない少なくとも一つの残りの原本正解ラベルセットに対応する少なくとも一つの残りの分類結果を背景であると判断することになる。
【0070】
例えば、図6に示されているように、交通信号を学習するために入力イメージを入力した際に、自動車・人・二輪車データベースに対応する原本正解ラベルセット610と比較するための分類結果で「人」と判断されたなら、自動車・人・二輪車データベースに対応する原本正解ラベルセット610と比較するための分類結果では交通信号が背景として認識されるべきなので、これは学習装置が誤った分類結果を出したと考えられる。よって、誤った分類結果が生成されたとして分類ロスが算出され、バックプロパゲーションを遂行して自動車・人・二輪車のデータベースに対応する原本正解ラベルセット610と比較するための分類結果が背景として認識される確率が高まるようにする。
【0071】
そして、交通標識・交通信号データベースに対応する原本正解ラベルセット620と比較するための分類結果が「交通信号」と判断されれば、これは学習装置が正しい分類結果を出したと考えられる。よって、正しい分類結果が生成されたものとして、分類ロスは算出されない。もし、誤った分類結果が生成されたなら、分類ロスを算出してバックプロパゲーションを遂行して交通標識・交通信号データベースに対応する原本正解ラベルセット620と比較するための分類結果が交通信号として認識される確率が高まるようにする。
【0072】
また、動物データベースに対応する原本正解ラベルセット630と比較するための分類結果が「猫」と判断されたなら、動物データベースに対応する原本正解ラベルセット630と比較するための分類結果では背景として認識されるべきなので、これは学習装置が誤った分類結果を出したと考えられる。よって、誤った分類結果が生成されたとして分類ロスが算出され、バックプロパゲーションを遂行して動物データベースに対応する原本正解ラベルセット630と比較するための分類結果が背景として認識される確率が高くなるようにする。
【0073】
一方、図7のように、ボックス結果が原本正解ボックスと所定の閾値未満に重なるものと判断される場合には、検出器が特定の物体を全く別の位置で探そうと試みていると見ることができ、前記特定の物体ではない他の物体を検出したと見ることができる。例えば、図7は、交通信号の代わりに自動車が間違って検出された。このような場合、CNNによって検出されたボックス結果内の誤った物体のクラスは注目の対象ではない。この場合、CNNが背景領域を特定の物体の領域であると誤って予測したために学習装置がクラスを間違えたのだ。従って、CNNのパラメータを学習するためにバックプロパゲーションを遂行し、分類結果が背景として分類されるようにする。
【0074】
例えば、図7に示されているように、交通信号を学習するために信号・交通標識データベースから選択された入力イメージを入力した時、学習装置がリグレッションによって交通信号の位置を検出しなければならなかった。しかし、学習装置が自動車の位置を交通信号の位置として間違って検出したなら、自動車の位置を交通信号として間違って検出したことに対するペナルティは与えない方向で学習プロセスが進められる。従って、本発明の一例によれば、図7のように、ボックス結果が原本正解ボックスと所定の閾値未満に重なるものと判断された場合には、ボックス結果と原本正解ボックスを参照してボックスロスを算出して前記ボックスロスを基にバックプロパゲーションを遂行し得る。他の例によれば、ボックス結果が原本正解ボックスと所定の閾値未満に重なると判断された場合には、ボックスロスを算出しないこともあり得る。そして、CNNが検出した領域は正しいクラスと関連はないが、背景と関連する方向に学習プロセスが進められる。
【0075】
ボックス結果が原本正解ボックスと所定の閾値未満に重なる場合、入力イメージが交通標識・交通信号データベース内のイメージなら、CNNが検出した物体(例えば、自動車)が交通標識・信号データベースの原本正解ラベルセット720では背景として扱われるべきなので、交通標識・交通信号データベースの原本正解ラベルセット720を参照して分類結果を分類原本正解と比較して学習プロセスを遂行する。つまり、リグレッションボックスが交通信号を検出するべきなのに、リグレッションボックスが間違えて自動車を検出したなら、交通標識・交通信号データベースの原本正解ラベルセット720と比較するための分類結果は背景として分類されるであろう。 しかしながら、他の原本正解ラベルセット710及び730を参照する場合、学習装置が(物体が自動車だが)イメージ内にある物体が何であるかわからず、これに対応される原本正解イメージも探すことができない。そのため、分類ロスが算出されず、学習プロセスが遂行されない。これは、原本正解ラベルセット710及び730によって交通標識・交通信号データベースから選択されたイメージ内で、学習装置が自動車を検出したとしても、この物体が何であるか不明なので、自動車・人・二輪車データベースから選択された他のイメージを利用して完了された自動車などを認識するための既存の学習プロセスが結果に影響を与えないように、交通標識・交通信号データベースの原本正解ラベルセット710及び730を利用して学習プロセスが遂行されない代わり、交通標識・好通信号データベースの原本正解ラベルセット720のみを利用して学習プロセスが遂行される。つまり、交通標識・交通信号データベースの原本正解ラベルセット720を参照して検出されたクラスが背景として認識される確率が高まるように学習プロセスが遂行される。
【0076】
図7の例を基にボックス結果が原本正解ボックスと所定の閾値未満で重なる場合の学習プロセスを説明する。交通標識・交通信号データベースから選択された特定イメージ内の領域を検出した結果が交通信号領域として検出されず、自動車領域として検出された。その後、(i)自動車・人・二輪車データベースに対応する原本正解ラベルセット710と比較するための分類結果は自動車である確率が最も高く、(ii)交通標識・交通信号データベースに対応する原本正解ラベルセット720と比較するための分類結果が交通標識である確率が最も高く、(iii)動物データベースに対応する原本正解ラベルセット730と比較するための分類結果が背景である確率が最も高いということを学習装置が発見した。
【0077】
まず、自動車・人・二輪車のデータベースに対応する原本正解ラベルセット710と比較するための分類結果が自動車である確率が最も高いと検出したことは正しい結果である。しかし、交通標識・交通信号データベースで選択された特定イメージ内の自動車に対する原本正解アノテーションはない。従って、学習装置の分類結果が自動車である確率が最も高いと正しく検出されても、前記特定イメージには自動車に対する原本正解アノテーションがないため、検出されたクラスが自動車であるか否かわからず、自動車・人・二輪車データベース原本正解セットに対応する分類結果は学習プロセスに反映できない。
【0078】
同様に、前記特定イメージが交通表示板・交通信号データベースから選択されたイメージだとすれば、特定イメージ内の犬・猫・鹿に対する原本正解アノテーションがないため、動物データベースに対応する原本正解ラベルセット730に対しても、CNN学習装置は、検出されたクラスが犬・猫・鹿であるか否かがわからないので、動物データベース原本正解セットに対応する分類結果も学習プロセスに反映できない。
【0079】
交通標識・交通信号データベースで選択された特定イメージ内の交通標識、交通信号に対する原本正解アノテーションだけがあり、交通標識及び交通信号ではない残りは背景として扱うため、ボックス結果が交通標識・交通信号ではないことは確実である。従って、この情報は学習プロセスに反映される。つまり、交通標識・交通信号データベースに対応する原本正解ラベルセット720と比較するための分類結果として交通標識が検出されたことは間違いであり、分類結果は背景として認識されるべきだ。このような理由で、分類ロスが算出される。
【0080】
これによって、本発明に係る学習装置は、カテゴリごとに分離された学習用データベースを利用することにより、新たに学習するクラスが追加されても新たに追加されるクラスに対するイメージのみ追加的に学習すれば充分であるため、効率的な学習プロセスが遂行され得る。そして、新たに追加された学習データのみ学習しても、既に学習されたパラメータを損なわず、新しいクラスを検出し得る学習能力を得られ得る。
【0081】
学習プロセスによって学習装置のパラメータが最適化されると、最適化されたパラメータを有するCNNを含むテスト装置を用いて実際に入力されるテストイメージから物体が検出される。つまり、自律走行自動車等から獲得された道路走行イメージから、少なくとも一つの物体に対する分類と検出が行われ得る。
【0082】
本発明技術分野の通常の技術者に理解され、前記で説明されたイメージ、例えばトレーニングイメージ、テストイメージといったイメージデータの送受信が学習装置及びテスト装置の各通信部によって行われ得り、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/またはメモリ)によって保有/維持され得り、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主に学習装置及びテスト装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。
【0083】
以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。 前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(flopticaldisk)のような磁気−光媒体(magneto−opticalmedia)、およびROM、RAM、フラッシュメモリなどといったプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記のハードウェア装置は本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されことがあり、その逆も同様である。
【0084】
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。
【0085】
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。
図1
図2
図3
図4
図5
図6
図7