(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6856851
(24)【登録日】2021年3月23日
(45)【発行日】2021年4月14日
(54)【発明の名称】イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置
(51)【国際特許分類】
G06N 3/04 20060101AFI20210405BHJP
【FI】
G06N3/04
【請求項の数】28
【全頁数】23
(21)【出願番号】特願2019-163898(P2019-163898)
(22)【出願日】2019年9月9日
(65)【公開番号】特開2020-47271(P2020-47271A)
(43)【公開日】2020年3月26日
【審査請求日】2019年9月9日
(31)【優先権主張番号】16/132,475
(32)【優先日】2018年9月17日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】金 桂賢
(72)【発明者】
【氏名】金 鎔重
(72)【発明者】
【氏名】金 寅洙
(72)【発明者】
【氏名】金 鶴京
(72)【発明者】
【氏名】南 雲鉉
(72)【発明者】
【氏名】夫 碩▲ふん▼
(72)【発明者】
【氏名】成 明哲
(72)【発明者】
【氏名】呂 東勳
(72)【発明者】
【氏名】柳 宇宙
(72)【発明者】
【氏名】張 泰雄
(72)【発明者】
【氏名】鄭 景中
(72)【発明者】
【氏名】諸 泓模
(72)【発明者】
【氏名】趙 浩辰
【審査官】
金田 孝之
(56)【参考文献】
【文献】
中国特許出願公開第108509978(CN,A)
【文献】
特開2018−084982(JP,A)
【文献】
特開2018−005520(JP,A)
【文献】
米国特許出願公開第2006/0109286(US,A1)
【文献】
米国特許出願公開第2017/0169400(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00−99/00
(57)【特許請求の範囲】
【請求項1】
CNN基盤イメージエンコーディング方法において、
(a)第1ないし第nコンボリューションレイヤを含む学習装置が、少なくとも一つの入力イメージを獲得する段階;
(b)前記学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも二度適用して各々異なるサイズを有する少なくとも二つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用して、少なくとも二つのインセプション特徴マップを第1グループとして生成する段階;及び
(c)前記学習装置が、前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成する段階;
を含むことを特徴とする方法。
【請求項2】
前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項1に記載の方法。
【請求項3】
少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(b)段階は、
(b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;
(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;
を含むことを特徴とする請求項1に記載の方法。
【請求項4】
前記(b)段階で、
前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、
前記(c)段階で、
前記学習装置は、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項1に記載の方法。
【請求項5】
少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(b)段階は、
(b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;
(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対し、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;及び
(b−3)前記学習装置が、前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成する段階;
を含むことを特徴とする請求項4に記載の方法。
【請求項6】
前記(b)段階で、
前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成し、
前記(c)段階で、
前記学習装置は、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項4に記載の方法。
【請求項7】
前記(b)段階で、
前記学習装置は、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも二度適用し、各々異なるサイズを有する少なくとも二つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用し、少なくとも二つのインセプション特徴マップを前記第1グループとして生成することを特徴とする請求項1に記載の方法。
【請求項8】
前記方法は、
(d)前記学習装置が、前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行する段階;
をさらに含むことを特徴とする請求項1に記載の方法。
【請求項9】
CNN基盤イメージエンコーディング方法において、
(a)(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも二度適用して各々異なるサイズを有する少なくとも二つの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、前記学習用転置特徴マップに対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも二つの学習用インセプション特徴マップを学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセスを遂行した状態で、テスト装置が、少なくとも一つのテストイメージを獲得する段階;
(b)前記テスト装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得されたテスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも二度適用して各々異なるサイズを有する少なくとも二つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの二つのテスト用インセプション特徴マップをテスト用第1グループとして生成する段階;及び
(c)前記テスト装置が、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成する段階;
を含むことを特徴とする方法。
【請求項10】
前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項9に記載の方法。
【請求項11】
少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(b)段階は、
(b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成する段階;
(b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;
を含むことを特徴とする請求項9に記載の方法。
【請求項12】
前記(b)段階で、
前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップをテスト用第2グループとして生成し、
前記(c)段階で、
前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項9に記載の方法。
【請求項13】
少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(b)段階は、
(b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成する段階;
(b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;及び
(b−3)前記テスト装置が、前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成する段階;
を含むことを特徴とする請求項12に記載の方法。
【請求項14】
前記(b)段階で、
前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成し、
前記(c)段階で、
前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項12に記載の方法。
【請求項15】
第1ないし第nコンボリューションレイヤを含む、CNN基盤イメージエンコーディングのための学習装置において、
少なくとも一つのトレーニングイメージを入力イメージとして獲得するための通信部;及び
(I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも二度適用して各々異なるサイズを有する少なくとも二つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する各々の転置特徴マップに少なくとも一度適用して、少なくとも二つのインセプション特徴マップを第1グループとして生成するプロセス、及び、(II)前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成するプロセスを遂行するプロセッサ;
を含むことを特徴とする装置。
【請求項16】
前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項15に記載の装置。
【請求項17】
少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(I)プロセスは、
(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;
(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;
を含むことを特徴とする請求項15に記載の装置。
【請求項18】
前記(I)プロセスで、
前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、
前記(II)プロセスで、
前記プロセッサは、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項15に記載の装置。
【請求項19】
少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(I)プロセスは、
(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;
(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;及び
(I−3)前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成するプロセス;
を含むことを特徴とする請求項18に記載の装置。
【請求項20】
前記(I)プロセスで、
前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成して、
前記(II)プロセスで、
前記プロセッサは、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項18に記載の装置。
【請求項21】
前記(I)プロセスで、
前記プロセッサは、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも二度適用し、各々異なるサイズを有する少なくとも二つの転置特徴マップを生成し、(ii)前記転置特徴マップに対し、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも二つのインセプション特徴マップを前記第1グループとして生成することを特徴とする請求項15に記載の装置。
【請求項22】
前記プロセッサは、
(III)前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセス;
をさらに遂行することを特徴とする請求項15に記載の装置。
【請求項23】
CNN基盤イメージエンコーディングのためのテスト装置において、
(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも二度適用して各々異なるサイズを有する少なくとも二つの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する前記学習用転置特徴マップに対して少なくとも一度適用して、少なくとも二つの学習用インセプション特徴マップ(Inception Feature Maps For Training)を学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセスを遂行した状態で、少なくとも一つのテストイメージを獲得する通信部;及び
(I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得された前記テスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも二度適用して各々異なるサイズを有する少なくとも二つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも二つのテスト用インセプション特徴マップ(Inception Feature Maps)をテスト用第1グループとして生成するプロセス;及び(II)前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成するプロセス;を遂行するプロセッサ;
を含むことを特徴とする装置。
【請求項24】
前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項23に記載の装置。
【請求項25】
少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(I)プロセスは、
(I−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成するプロセス;
(I−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;
を含むことを特徴とする請求項23に記載の装置。
【請求項26】
前記(I)プロセスで、
前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのテスト用インセプション特徴マップを第2グループとして生成し、
前記(II)プロセスで、
前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項23に記載の装置。
【請求項27】
少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(II)プロセスは、
(II−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成するプロセス;
(II−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;及び
(II−3)前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成するプロセス;
を含むことを特徴とする請求項26に記載の装置。
【請求項28】
前記(I)プロセスで、
前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成して、
前記(II)プロセスで、
前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項26に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、CNN基盤イメージエンコーディング方法に関し、具体的には;前記CNN基盤イメージエンコーディング方法において、(a)第1ないし第nコンボリューションレイヤを含む学習装置が、少なくとも一つの入力イメージを獲得する段階;(b)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算(Transposed Convolution Operation)を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライド(Stride)と異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用して、少なくとも一つのインセプション(Inception)特徴マップを第1グループとして生成する段階;及び(c)前記学習装置が、前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算(Element−Wise Adding)をして、これに対応する出力特徴マップを生成する段階;を含むことを特徴とする学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置に関する。
【背景技術】
【0002】
ディープラーニング(Deep Learning)は、モノやデータを群集化・分類するのに用いられる技術である。例えば、コンピュータは写真だけで犬と猫を区別することができない。しかし、人はとても簡単に区別できる。このため「機械学習(Machine Learning)」という方法が考案された。多くのデータをコンピュータに入力し、類似したものを分類するようにする技術である。保存されている犬の写真と似たような写真が入力されると、これを犬の写真だとコンピュータが分類するようにしたのである。
【0003】
データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的だ。このうち、ディープラーニングは人工神経網の後裔だ。
【0004】
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解くために90年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげだ。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。
【0005】
図1は、一般的なCNNセグメンテーションプロセスを簡略的に示した図面である。
【0006】
図1を参照すれば、従来の車線検出方法では、学習装置が、入力イメージの入力を受けて、複数のコンボリューションレイヤでコンボリューション演算やReLUなどの非線形演算を複数回遂行してエンコード済み特徴マップを獲得し、最後の特徴マップに対して、複数のデコンボリューションレイヤでデコンボリューション演算とソフトマックス演算を複数回遂行してセグメンテーション結果を得る。
【0007】
図2a及び
図2bは、従来のインセプション方法でイメージをエンコーディングするためのコンボリューションレイヤの多様な構成を各々示す。
【0008】
図2aに示した従来のインセプション方法は、多様なカーネルサイズ、例えば、1×1、3×3、5×5又はこれらの組合のカーネルサイズを有するコンボリューションユニットを通じて以前レイヤから送られた入力特徴マップに対してコンボリューション演算を遂行した上で、コンボリューション演算がされた様々な特徴マップをコンカチネートする。このような方法で、一つのスケール(Scale)から様々なレセプティブフィールド(Receptive Field)を考慮する中間(Intermediate)特徴マップ、すなわちインセプション特徴マップを得ることができた。
【0009】
図2bに示した従来のインセプション方法は、演算量を減らすために1×1コンボリューションフィルタを利用してチャネル数を減らすプロセスを追加した。
【0010】
前記のようなインセプション概念を利用した従来のイメージエンコーディング方法は、特徴マップをコンボリューション演算する際、様々なカーネルサイズで様々なレセプティブフィールドを考慮し得るが、従来の方法では、1×1以上のカーネルサイズのみを考慮し得るという問題があったため、イメージの多様な特徴をすべて考慮することができなかった。従って、より多様なカーネルサイズを考慮して、より多様な特性を有する特徴を抽出し得る新しい方法の提示が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明は、前述した問題点を全て解決することを目的とする。
【0012】
本発明は、入力特徴マップに対して適用される1×1より小さなカーネルサイズを考慮できる新しいイメージのエンコーディング方法を提供することを他の目的とする。
【0013】
本発明は、入力特徴マップにおいて従来の方法よりも多様な特性が得られる新しいイメージエンコーディング方法を提供することをまた他の目的とする。
【課題を解決するための手段】
【0014】
本発明の一態様によれば、CNN基盤イメージエンコーディング方法において、(a)第1ないし第nコンボリューションレイヤを含む学習装置が、少なくとも一つの入力イメージを獲得する段階;(b)前記学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用して、少なくとも一つのインセプション特徴マップを第1グループとして生成する段階;及び(c)前記学習装置が、前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成する段階;を含むことを特徴とする。
【0015】
一例として、前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする。
【0016】
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(b)段階は、(b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;を含むことを特徴とする。
【0017】
一例として、前記(b)段階で、前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、前記(c)段階で、前記学習装置は、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする。
【0018】
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(b)段階は、(b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対し、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;及び(b−3)前記学習装置が、前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成する段階;を含むことを特徴とする。
【0019】
一例として、前記(b)段階で、前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成し、前記(c)段階で、前記学習装置は、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする。
【0020】
一例として、前記(b)段階で、前記学習装置は、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも一度適用し、各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用し、少なくとも一つのインセプション特徴マップを前記第1グループとして生成することを特徴とする。
【0021】
一例として、前記方法は、(d)前記学習装置が、前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解(Ground truth)を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行する段階;をさらに含むことを特徴とする。
【0022】
本発明の他の態様によれば、CNN基盤イメージエンコーディング方法において、(a)(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、前記学習用転置特徴マップに対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも一つの学習用インセプション特徴マップを学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーション(Backpropagation)を遂行するプロセスを遂行した状態で、テスト装置が、少なくとも一つのテストイメージを獲得する段階;(b)前記テスト装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得されたテスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの一つのテスト用インセプション特徴マップをテスト用第1グループとして生成する段階;及び(c)前記テスト装置が、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成する段階;を含むことを特徴とする。
【0023】
一例として、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする。
【0024】
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(b)段階は、(b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成する段階;(b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;を含むことを特徴とする。
【0025】
一例として、前記(b)段階で、前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップをテスト用第2グループとして生成し、前記(c)段階で、前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする。
【0026】
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(b)段階は、(b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成する段階;(b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;及び(b−3)前記テスト装置が、前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成する段階;を含むことを特徴とする。
【0027】
一例として、前記(b)段階で、前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成し、前記(c)段階で、前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする。
【0028】
本発明のまた他の態様によれば、第1ないし第nコンボリューションレイヤを含む、CNN基盤イメージエンコーディングのための学習装置において、少なくとも一つのトレーニングイメージを入力イメージとして獲得するための通信部;及び(I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する各々の転置特徴マップに少なくとも一度適用して、少なくとも一つのインセプション特徴マップを第1グループとして生成するプロセス、及び、(II)前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成するプロセスを遂行するプロセッサ;を含むことを特徴とする。
【0029】
一例として、前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする。
【0030】
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(I)プロセスは、(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;を含むことを特徴とする。
【0031】
一例として、前記(I)プロセスで、前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、前記(II)プロセスで、前記プロセッサは、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする。
【0032】
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(I)プロセスは、(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;及び(I−3)前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成するプロセス;を含むことを特徴とする。
【0033】
一例として、前記(I)プロセスで、前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成して、前記(II)プロセスで、前記プロセッサは、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする。
【0034】
一例として、前記(I)プロセスで、前記プロセッサは、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも一度適用し、各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)前記転置特徴マップに対し、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも一つのインセプション特徴マップを前記第1グループとして生成することを特徴とする。
【0035】
一例として、前記プロセッサは、(III)前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセス;をさらに遂行することを特徴とする。
【0036】
本発明のまた他の態様によれば、CNN基盤イメージエンコーディングのためのテスト装置において、(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する前記学習用転置特徴マップに対して少なくとも一度適用して、少なくとも一つの学習用インセプション特徴マップ(Inception Feature Maps For Training)を学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセスを遂行した状態で、少なくとも一つのテストイメージを獲得する通信部;及び(I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得された前記テスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの一つのテスト用インセプション特徴マップ(Inception Feature Maps)をテスト用第1グループとして生成するプロセス;及び(II)前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成するプロセス;を遂行するプロセッサ;を含むことを特徴とする。
【0037】
一例として、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする。
【0038】
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(I)プロセスは、(I−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成するプロセス;(I−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;を含むことを特徴とする。
【0039】
一例として、前記(I)プロセスで、前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのテスト用インセプション特徴マップを第2グループとして生成し、前記(II)プロセスで、前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする。
【0040】
一例として、少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、前記(II)プロセスは、(II−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成するプロセス;(II−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;及び(II−3)前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成するプロセス;を含むことを特徴とする。
【0041】
一例として、前記(I)プロセスで、前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成して、前記(II)プロセスで、前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする。
【発明の効果】
【0042】
本発明によれば、入力イメージまたは以前コンボリューションレイヤで獲得した入力特徴マップに対して、多様なサイズの転置コンボリューションを適用して特徴マップのサイズを拡大し、これに対応するストライドを有するコンボリューション演算を適用してカーネルサイズを整数から実数範囲に広げ得る効果がある。
【0043】
本発明によれば、以前コンボリューションレイヤで獲得された入力特徴マップから考慮し得るレセプティブフィールド(Receptive Field)が多様になり、多様な特徴を有する特徴を得られるまたの特徴がある。
【図面の簡単な説明】
【0044】
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者(以下「通常の技術者」)は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
【
図1】一般的なCNNセグメンテーションプロセスを簡略的に示した図面である。
【
図2a】従来のインセプション方法を利用してイメージをエンコーディングするためのコンボリューションレイヤの多様な構成を各々示した図面である。
【
図2b】従来のインセプション方法を利用してイメージをエンコーディングするためのコンボリューションレイヤの多様な構成を各々示した図面である。
【
図3】本発明の一例に係るイメージエンコーディング方法を示した図面である。
【
図4】本発明の他の一例に係るイメージエンコーディング方法を示した図面である。
【
図5】本発明のまた他の一例に係るイメージエンコーディング方法を示した図面である。
【発明を実施するための形態】
【0045】
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。
【0046】
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。
【0047】
さらに、本発明は本明細書に表示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は、本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面において類似する参照符号は、いくつかの側面にわたって同一であるか、類似する機能を指す。
【0048】
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
【0049】
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。
【0050】
図3は、本発明の一例に係るイメージエンコーディング方法を示した図面である。
【0051】
CNN(Convolutional Neural Network)基盤学習装置またはテスト装置において、第1ないし第nコンボリューションレイヤ各々は、入力イメージまたは以前コンボリューションレイヤで獲得した入力特徴マップに対してコンボリューション演算を少なくとも一度適用して第1ないし第n特徴マップを生成する。
【0052】
この際、
図3に示した第1ないし第nコンボリューションレイヤの中から少なくとも一つのコンボリューションレイヤ各々は、以前コンボリューションレイヤから獲得された入力特徴マップ301(または入力イメージ)に対して一つ以上の転置コンボリューション演算310、320を適用して各々サイズが異なるように拡大された一つ以上の転置特徴マップを生成する。ここで、前記転置コンボリューション演算310、320は、デコンボリューションレイヤを利用して特徴マップのサイズを拡張するコンボリューション演算を意味し得るが、補間法(Interpolation)やリサイズ(例えば、最近隣法(Nearest Neighbor)、直線補間(Linear Interpolation)なども含み得る。入力特徴マップ301(または入力イメージ)に対して、前記一つ以上の転置コンボリューション演算310、320を適用すれば、一つ以上の転置特徴マップ311、321が生成される。
図3の例で、第1転置コンボリューション演算310は、入力特徴マップ301のサイズを2倍に拡大し、第1転置特徴マップ311のサイズは入力特徴マップ301サイズの2倍になり、第2転置コンボリューション演算320は、入力特徴マップ301のサイズを4倍拡大し、第2転置特徴マップ321のサイズは、入力特徴マップ301サイズの4倍になる。もちろん、このようなサイズの拡大程度は例示的なものであり、本発明の範囲はこれに限られない。
【0053】
その後、前記一つ以上の転置特徴マップ311、321に対してそれに対応して一つ以上のコンボリューション演算330、340を随行する。より詳細には、コンボリューション演算330、340は、前記転置特徴マップに対して、それに対応して各々異なるストライド及び異なるカーネルサイズが適用されるもので、これに対応する一つ以上のインセプション特徴マップを第1グループ302として生成する。例えば、第1コンボリューション演算330のストライドの値が2であり、第2コンボリューション演算340のストライドの値が4である状況で、(i)第1転置特徴マップ311のサイズが入力特徴マップ301に比べて2倍になったので、ストライドが2である第1コンボリューション演算330を適用して、第1転置特徴マップ311のサイズを入力特徴マップ301のサイズと同様に変形させて、(ii)同様に、第2転置特徴マップ321のサイズが入力特徴マップ301に比べて4倍になったので、ストライドが4である第2コンボリューション演算340を通じて、第2転置特徴マップ321のサイズを入力特徴マップ301のサイズと同様に変形させる。これによって、第1グループ302内のインセプション特徴マップ331、341のサイズは同一に形成される。
【0054】
併せて、第1コンボリューション演算330及び第2コンボリューション演算340に適用されるカーネルサイズは、各々e×fとg×hのように互いに異なるように決定できる。これによって、入力特徴マップ301対して多様なレセプティブフィールド(Receptive Field)を考慮し得る。特に、入力特徴マップ301のサイズを多様に変形させた後も様々なレセプティブフィールドを適用するため、各々の特定倍数に縮小されたカーネルサイズが適用される効果が得られるが、前記各々の特定倍数は、転置コンボリューション演算によって、これに対応してサイズが増加した倍数である。例えば、
図3で入力特徴マップ301に対して、第1転置コンボリューション演算310を適用して生成された第1転置コンボリューション特徴マップ311にe×fのカーネルサイズを適用すれば、第1転置コンボリューション特徴マップ311に対してはe×fサイズのレセプティブフィールドが提供されるが、入力特徴マップ301に対してはe/2×f/2のレセプティブフィールドが提供され得る。
【0055】
図3の例で、第1コンボリューション演算330のストライドが2で3×3のカーネルサイズを有すれば、第1グループ302の第1インセプション特徴マップ331は、入力特徴マップ301に対して3/2×3/2サイズのレセプティブフィールドを考慮して生成されたと見ることができ、第2コンボリューション演算340のストライドが4で5×5のカーネルサイズを有すれば、第1グループ302の第2インセプション特徴マップ341は、入力特徴マップ301に対して5/4×5/4サイズのレセプティブフィールドを考慮して生成されたと見ることができる。
【0056】
この際、第1グループ302のインセプション特徴マップ331、341は、同一サイズを有するが、多様なレセプティブフィールドを考慮して生成された様々な特性を有する。
【0057】
そしてこのように生成された第1グループ302に含まれたインセプション特徴マップ331、341をコンカチネート(Concatenate)するか、要素ごとの加算をして、一つの出力特徴マップ303に統合される。そして出力特徴マップ303は、これに対応するコンボリューションレイヤの出力でもあり得、出力特徴マップ303から生成された修正済み特徴マップは、これに対応するコンボリューションレイヤの出力でもあり得る。例えば、第kコンボリューションレイヤに入力される入力特徴マップ301がn個のコンボリューションレイヤのうち第(k−1)コンボリューションレイヤから出力された第(k−1)特徴マップなら、
図3に示した演算は、第kコンボリューションレイヤで遂行されるもので、出力特徴マップ303は、前記第kコンボリューションレイヤから出力された第k特徴マップでもあり得る。他の例として、チャネルとサイズを変更するために前記出力特徴マップ303に対して追加コンボリューション演算及びReLUのような非線形演算を適用して生成された修正済み特徴マップが、前記第kコンボリューションレイヤから出力された第k特徴マップでもあり得る。
【0058】
一方、本発明のエンコーディング方法で、第1コンボリューションレイヤは、以前コンボリューションレイヤがないため入力特徴マップではない入力イメージを利用して
図3に示した出力特徴マップを生成するプロセスを遂行する。つまり、学習装置は、第1コンボリューションレイヤをもって(i)入力イメージに対して転置コンボリューションを少なくとも一度適用し、各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)前記少なくとも一つの転置特徴マップ各々にコンボリューション演算を遂行にあたって、前記転置特徴マップに対して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を適用して、少なくとも一つのインセプション特徴マップを第1グループとして生成する。
【0059】
図4は、本発明の他の一例に係るイメージエンコーディング方法を示した図面である。
【0060】
図4に示した本発明の他の実施例によれば、
図3に示された方法に加えて第1グループ302の他に、第2グループ402のインセプション特徴マップを追加的に生成し、第1グループ302のインセプション特徴マップ及び第2グループ402のインセプション特徴マップをコンカチネートするか、要素ごとの加算をして出力特徴マップ303に統合する。
【0061】
具体的に、入力特徴マップ301に対して少なくとも一つ以上のカーネルでコンボリューション演算410、420を適用して、少なくとも一つのインセプション特徴マップ411、421を第2グループ402として生成する。
【0062】
例えば、入力特徴マップ301につ対してa×bサイズのカーネルを有する第3コンボリューション演算410を適用して第2グループ402内の第3インセプション特徴マップ411を生成し、入力特徴マップ301に対してc×dサイズのカーネルを有する第4コンボリューション演算420を適用して第2グループ402内の第4インセプション特徴マップ421を生成する。第3インセプション特徴マップ411は、入力特徴マップ301に対してa×bのサイズのレセプティブフィールドを考慮して生成され、第4インセプション特徴マップ421は、入力特徴マップ301に対してc×dサイズのレセプティブフィールドを考慮して生成された。
【0063】
その後、学習装置は、第1グループ302のインセプション特徴マップ331、341及び第2グループ402のインセプション特徴マップ411、421をコンカチネートするか、要素ごとの加算をして出力特徴マップ303に統合する。
【0064】
図5は、本発明のまた他の一例に係るイメージエンコーディング方法を示した図面である。
【0065】
図5に示した本発明のもう一つの実施例によれば、
図3または
図4に示した方法に加えて、第3グループ502内のインセプション特徴マップを追加的に生成する。例えば、学習装置は、第3グループ502内のインセプション特徴マップ及び第1グループ302内のインセプション特徴マップをコンカチネートまたは要素ごとの加算するか、第1グループ302内のインセプション特徴マップ、第2グループ402のインセプション特徴マップ及び第3グループ502のインセプション特徴マップをコンカチネートまたは要素ごとの加算をして出力特徴マップ303に統合する方法を利用する。
【0066】
具体的に、入力特徴マップ301に対して互いに異なるサイズのマックスプーリング(Max Pooling)演算(例えば、
図5に示した3×3マックスプーリング)を適用してマックスプーリング特徴マップ511を第3グループ502として生成する。このマックスプーリング演算は、入力特徴マップ301からコンボリューション演算なしに最大値だけを抽出して、マックスプーリング特徴マップ511を生成する役割を果たす。
【0067】
その後、学習装置は、第1グループ302のインセプション特徴マップ331、341、第3グループ502のインセプション特徴マップ511をコンカチネートまたは要素ごとの加算するか、第1グループ302のインセプション特徴マップ331、341、第2グループ402のインセプション特徴マップ411、421、第3グループ502のインセプション特徴マップ511をコンカチネートまたは要素ごとの加算をして出力特徴マップ303として統合する。
【0068】
一方、本発明によれば、演算量を減らすために、チャネル数を減らすための1×1コンボリューション演算も、第1グループないし第3グループの特徴マップを生成する中間に利用され得る。
【0069】
学習装置は、獲得された特徴マップを基にCNN出力を獲得し、CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスをバックプロパゲーションする。
【0070】
そして、
図3ないし
図5に図示されたイメージエンコーディング方法は、テスト装置にも適用され得る。
【0071】
つまり、(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの学習用転置特徴マップを生成し、(ii)学習装置が、学習用転置特徴マップに対してこれに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも一つの学習用インセプション特徴マップを学習用第1グループとして生成し、(iii)学習装置が、学習用第1グループに含まれた学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成し、(iv)学習装置が、学習用出力特徴マップを基に学習用CNN出力を獲得し、学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行した状態で、テスト装置がテストイメージを獲得し得る。
【0072】
そして、テスト装置がコンボリューションレイヤの少なくとも一部各々をもって、(i)テストイメージまたは以前コンボリューションレイヤから獲得されたテスト用入力特徴マップに対して転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの一つのテスト用インセプション特徴マップをテスト用第1グループとして生成し得る。
【0073】
その後、テスト装置が、テスト用第1グループに含まれたテスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成し得る。
【0074】
本発明の技術分野における通常の技術者に理解され得るところであって、前記で説明されたイメージ、例えばトレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によって行われ得るのであり、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサー(及び/又はメモリー)によって保有/維持され得、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されはしないであろう。
【0075】
以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を介して遂行することができるプログラム命令語の形態で具現されて、コンピュータ判読可能な記録媒体に記録され得る。前記コンピュータ判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ判読可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカル・ディスク(floptical disk)のような磁気−光メディア(magneto−optical media)、及びROM、RAM、フラッシュメモリーなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
【0076】
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
【0077】
従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。