(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6865364
(24)【登録日】2021年4月8日
(45)【発行日】2021年4月28日
(54)【発明の名称】エッジロスを利用して歩行者イベント、自動車イベント、フォーリングイベント、フォールンイベントを含むイベントを検出するにおいて利用されるセグメンテーション性能向上のための学習方法及び学習装置、並びにそれを利用したテスト方法及びテスト装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20210419BHJP
G06T 7/12 20170101ALI20210419BHJP
【FI】
G06T7/00 350C
G06T7/12
【請求項の数】30
【全頁数】32
(21)【出願番号】特願2019-202412(P2019-202412)
(22)【出願日】2019年11月7日
(65)【公開番号】特開2020-119501(P2020-119501A)
(43)【公開日】2020年8月6日
【審査請求日】2019年11月7日
(31)【優先権主張番号】16/257,832
(32)【優先日】2019年1月25日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】金 桂賢
(72)【発明者】
【氏名】金 鎔重
(72)【発明者】
【氏名】金 寅洙
(72)【発明者】
【氏名】金 鶴京
(72)【発明者】
【氏名】南 雲鉉
(72)【発明者】
【氏名】夫 碩▲ふん▼
(72)【発明者】
【氏名】成 明哲
(72)【発明者】
【氏名】呂 東勳
(72)【発明者】
【氏名】柳 宇宙
(72)【発明者】
【氏名】張 泰雄
(72)【発明者】
【氏名】鄭 景中
(72)【発明者】
【氏名】諸 泓模
(72)【発明者】
【氏名】趙 浩辰
【審査官】
千葉 久博
(56)【参考文献】
【文献】
特開2010−54356(JP,A)
【文献】
特開2002−8004(JP,A)
【文献】
米国特許出願公開第2012/0082396(US,A1)
【文献】
三輪卓矢, 外4名,“骨格画像に基づく適応的フィルタを組み込んだブラインドデコンボリューションによる量子化ノイズ低減手法”,映像情報メディア学会技術報告,日本,(一社)映像情報メディア学会,2015年 2月16日,第39巻, 第7号,p.125-130
【文献】
Saining Xie, 外1名,"Holistically-Nested Edge Detection",2015 IEEE International Conference on Computer Vision (ICCV),米国,2015年12月 7日,p.1395-1403
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/12
(57)【特許請求の範囲】
【請求項1】
(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップに一つ以上のコンボリューション演算を適用して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ;(ii)前記第kエンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ;(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ;及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤ;を含む学習装置を利用してセグメンテーション性能を向上させるための学習方法において、
(a)前記トレーニングイメージが入力されると、前記学習装置は、前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを生成させる段階;
(b)前記学習装置は、前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成させるものの、前記学習装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の基本デコード済み特徴マップからエッジ部分を抽出して第hないし第1エッジ特徴マップを生成するようにし、(ii)前記h個の基本デコード済み特徴マップ及び前記第hないし前記第1エッジ特徴マップを参照して前記第(k−1)ないし前記第1デコード済み特徴マップのうち少なくとも一部として機能するh個のエッジ強化デコード済み特徴マップを生成させる段階;
(c)前記学習装置は、前記第1ないし前記第hエッジロスレイヤをもって前記エッジ部分及びこれに対応するGTを参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整する段階;
を含むことを特徴とする学習方法。
【請求項2】
前記第1ないし前記第hエッジロスレイヤは、前記エッジ部分と、これに対応するGTとの差を計算して前記第1ないし前記第hエッジロスを生成するものの、前記GTは前記第1ないし前記第hエッジ特徴マップの大きさにそれぞれ対応する大きさを有した第1ないし第hGTイメージからそれぞれ抽出されることを特徴とする請求項1に記載の学習方法。
【請求項3】
前記(b)段階で、
前記第(k−1)ないし前記第1デコンボリューションレイヤは、(i)それぞれの前記第hないし前記第1エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個の基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力された特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のデコード済み特徴マップの少なくとも一部として機能する(k−h)個の基本デコード済み特徴マップを生成して、順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成することを特徴とする請求項1に記載の学習方法。
【請求項4】
前記学習装置は、(v)前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して配置される第1ないし第rロスレイヤをさらに含み、
前記(c)段階は、
(c1)前記学習装置が前記第1ないし前記第rロスレイヤをもって前記第1ないし前記第rロスレイヤに対応する前記r個のデコンボリューションレイヤから出力された各r個のデコード済み特徴マップ及びこれに対応するGTイメージを参照して第1ないし第rロスをそれぞれ生成するようにして、前記第1ないし前記第rロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の前記パラメータを調整する段階;を含むことを特徴とする請求項3に記載の学習方法。
【請求項5】
前記第1ないし前記第rロスレイヤは、それぞれの前記r個のデコード済み特徴マップにそれぞれ補助コンボリューション演算を適用して出力されたそれぞれのr個の変換済み特徴マップと、これに対応するGTイメージとを参照して前記第1ないし前記第rロスをそれぞれ算出することを特徴とする請求項4に記載の学習方法。
【請求項6】
前記学習装置は、(vi)前記第1ないし前記第hマスクレイヤそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するコンボリューションレイヤそれぞれの出力端との間にそれぞれ位置する第1ないし第h中間レイヤをさらに含み、
前記(b)段階は、
(b1)前記学習装置は、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のエンコード済み特徴マップが入力されて第1ないし第h中間特徴マップを生成させる段階;(b2)前記学習装置は、前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記h個の基本デコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hエッジ特徴マップを生成させる段階;及び(b3)前記学習装置は、(i)第1ないし第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第h中間特徴マップと、これに対応するエッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第h要素ごとのプロダクトを生成するようにし、(ii)第1ないし第h要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第h要素ごとのプロダクトと、前記h個の基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第h要素ごとのプロダクトに対応する基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)デコード済み特徴マップのうちでh個のデコード済み特徴マップを生成する段階;を含むことを特徴とする請求項3に記載の学習方法。
【請求項7】
前記学習装置が、前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)中間特徴マップを生成し、前記第(h+1)中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達することを特徴とする請求項6に記載の学習方法。
【請求項8】
前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行することを特徴とする請求項6に記載の学習方法。
【請求項9】
前記(b2)段階で、
前記学習装置は、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって前記(k−1)個のデコンボリューションレイヤのうちで前記第mマスクレイヤに対応する第nデコンボリューションレイヤから出力された第n基本デコード済み特徴マップからエッジ部分を抽出して第mエッジ特徴マップを生成するようにし、
前記(b3)段階で、
前記学習装置は、(i)第m要素ごとのプロダクトレイヤをもって前記第mエッジ特徴マップと前記第mマスクレイヤに対応する第m中間レイヤから出力された第m中間特徴マップとを要素ごとに掛け合わせて第m要素ごとのプロダクトを生成するようにし、(ii)第m要素ごとの合算レイヤをもって前記第m要素ごとのプロダクトと、前記第n基本デコード済み特徴マップとを要素ごとに合算するようにして、第nデコード済み特徴マップを生成することを特徴とする請求項6に記載の学習方法。
【請求項10】
前記学習装置は、(v)前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して配置される第1ないし第rロスレイヤをさらに含み、
前記学習装置は、前記第1デコード済み特徴マップを受けて前記第1ロスレイヤに入力される調整された第1デコード済み特徴マップを出力することができるさらなるデコンボリューションレイヤをさらに含み、
前記(c)段階は、(c1)前記学習装置が前記第1ないし前記第rロスレイヤをもって前記第1ないし前記第rロスレイヤに対応する前記r個のデコンボリューションレイヤから出力された各r個のデコード済み特徴マップ及びこれに対応するGTイメージを参照して第1ないし第rロスをそれぞれ生成するようにして、前記第1ないし前記第rロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の前記パラメータを調整するようにする段階;を含むことを特徴とする請求項9に記載の学習方法。
【請求項11】
少なくとも一つのテストイメージに対するセグメンテーションのテスト方法において、
(a)学習装置が、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップに一つ以上のコンボリューション演算を適用して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1学習用デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ、(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤを含むとするとき、前記学習装置が(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを生成するようにし、(2)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1学習用デコード済み特徴マップを生成させるものの、前記学習装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の学習用基本デコード済み特徴マップから学習用エッジ部分を抽出して第hないし第1学習用エッジ特徴マップを生成するようにし、(ii)前記h個の学習用基本デコード済み特徴マップ及び前記第hないし前記第1学習用エッジ特徴マップを参照して前記第(k−1)ないし前記第1学習用デコード済み特徴マップのうち少なくとも一部として機能するh個の学習用エッジ強化デコード済み特徴マップを生成するようにし、(3)前記第1ないし前記第hエッジロスレイヤをもって前記学習用エッジ部分及びこれに対応するGTを参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整した状態で、テスト装置が、前記テストイメージが入力されると、前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するようにする段階;及び
(b)前記テスト装置は、前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に第(k−1)ないし第1テスト用デコード済み特徴マップを生成させるものの、前記テスト装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個のテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第hないし第1テスト用エッジ特徴マップを生成するようにし、(ii)前記h個のテスト用基本デコード済み特徴マップ及び前記第hないし前記第1テスト用エッジ特徴マップを参照して前記第(k−1)ないし前記第1テスト用デコード済み特徴マップのうち少なくとも一部として機能するh個のテスト用エッジ強化デコード済み特徴マップを生成させる段階;
を含むことを特徴とするテスト方法。
【請求項12】
前記(b)段階で、
前記第(k−1)ないし前記第1デコンボリューションレイヤは、(i)それぞれの前記第hないし前記第1テスト用エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個のテスト用基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用して、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力されたテスト用特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のテスト用デコード済み特徴マップの少なくとも一部として機能する(k−h)個のテスト用基本デコード済み特徴マップを生成し、順次に前記第(k−1)ないし前記第1テスト用デコード済み特徴マップを生成することを特徴とする請求項11に記載のテスト方法。
【請求項13】
前記テスト装置は(v)前記第1ないし前記第hマスクレイヤそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するコンボリューションレイヤそれぞれの出力端との間にそれぞれ位置する第1ないし第h中間レイヤをさらに含み、
前記(b)段階は、
(b1)前記テスト装置は前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のテスト用エンコード済み特徴マップが入力されて第1ないし第hテスト用中間特徴マップを生成させる段階;(b2)前記テスト装置は、前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記第h個のテスト用基本デコード済み特徴マップから前記テスト用エッジ部分を抽出して前記第1ないし前記第hテスト用エッジ特徴マップを生成させる段階;及び(b3)前記テスト装置は、(i)第1ないし第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第hテスト用中間特徴マップと、これに対応するテスト用エッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第hテスト用要素ごとのプロダクトを生成するようにし、(ii)第1ないし第hテスト要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第hテスト用要素ごとのプロダクトと、前記h個のテスト用基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第hテスト用要素ごとのプロダクトに対応するテスト用基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)テスト用デコード済み特徴マップのうちでh個のテスト用デコード済み特徴マップを生成する段階;を含むことを特徴とする請求項12に記載のテスト方法。
【請求項14】
前記テスト装置が前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kテスト用エンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)テスト用中間特徴マップを生成し、前記第(h+1)テスト用中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達することを特徴とする請求項13に記載のテスト方法。
【請求項15】
前記(b2)段階で、
前記テスト装置は、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって前記(k−1)個のデコンボリューションレイヤのうちで前記第mマスクレイヤに対応する第nデコンボリューションレイヤから出力された第nテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第mテスト用エッジ特徴マップを生成するようにし、
前記(b3)段階で、
前記テスト装置は、(i)第m要素別プロダクトレイヤをもって前記第mテスト用エッジ特徴マップと、前記第mマスクレイヤに対応する第m中間レイヤから出力された第mテスト用中間特徴マップとを要素ごとに掛け合わせて、第mテスト用要素別プロダクトを生成するようにし、(ii)第m要素別合算レイヤをもって前記第mテスト用要素ごとのプロダクトと前記第nテスト用基本デコード済み特徴マップとを要素ごとに合算するようにして、第nテスト用デコード済み特徴マップを生成することを特徴とする請求項13に記載のテスト方法。
【請求項16】
(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップに一つ以上のコンボリューション演算を適用して、第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ;(ii)前記第kエンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ;(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ;及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤ;を含む、セグメンテーションの性能向上のための学習装置において、
インストラクションを格納する少なくとも一つのメモリ;及び
(I)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを生成させるプロセス、(II)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成させるものの、前記学習装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の基本デコード済み特徴マップからエッジ部分を抽出して第hないし第1エッジ特徴マップを生成するようにし、(ii)前記h個の基本デコード済み特徴マップ及び前記第hないし前記第1エッジ特徴マップを参照して前記第(k−1)ないし前記第1デコード済み特徴マップのうち少なくとも一部として機能するh個のエッジ強化デコード済み特徴マップを生成させるプロセス、及び(III)前記第1ないし前記第hエッジロスレイヤをもって前記エッジ部分及びこれに対応するGTを参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とする学習装置。
【請求項17】
前記第1ないし前記第hエッジロスレイヤは、前記エッジ部分と、これに対応するGTの差を計算して前記第1ないし前記第hエッジロスを生成するものの、前記GTは前記第1ないし前記第hエッジ特徴マップの大きさにそれぞれ対応する大きさを有した第1ないし第hGTイメージからそれぞれ抽出されることを特徴とする請求項16に記載の学習装置。
【請求項18】
前記(II)プロセスで、
前記第(k−1)ないし前記第1デコンボリューションレイヤは、(i)それぞれの前記第hないし前記第1エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個の基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用して、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力された特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のデコード済み特徴マップの少なくとも一部として機能する(k−h)個の基本デコード済み特徴マップを生成して、順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成することを特徴とする請求項16に記載の学習装置。
【請求項19】
前記学習装置は、(v)前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して配置される第1ないし第rロスレイヤをさらに含み、
前記(III)プロセスは、
(III−1)前記プロセッサが前記第1ないし前記第rロスレイヤをもって前記第1ないし前記第rロスレイヤに対応する前記r個のデコンボリューションレイヤから出力された各r個のデコード済み特徴マップ及びこれに対応するGTイメージを参照して第1ないし第rロスをそれぞれ生成するようにして、前記第1ないし前記第rロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の前記パラメータを調整するプロセス;を含むことを特徴とする請求項18に記載の学習装置。
【請求項20】
前記第1ないし前記第rロスレイヤは、それぞれの前記r個のデコード済み特徴マップにそれぞれ補助コンボリューション演算を適用して出力されたそれぞれのr個の変換済み特徴マップと、これに対応するGTイメージとを参照して前記第1ないし前記第rロスをそれぞれ算出することを特徴とする請求項19に記載の学習装置。
【請求項21】
前記学習装置は、(vi)前記第1ないし前記第hマスクレイヤそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するコンボリューションレイヤそれぞれの出力端との間にそれぞれ位置する第1ないし第h中間レイヤをさらに含み、
前記(II)プロセスは、
(II−1)前記プロセッサが、前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のエンコード済み特徴マップが入力されて第1ないし第h中間特徴マップを生成させるプロセス;(II−2)前記プロセッサは前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記h個の基本デコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hエッジ特徴マップを生成させるプロセス;及び(III−3)前記プロセッサは(i)第1ないし第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第h中間特徴マップと、これに対応するエッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第h要素ごとのプロダクトを生成するようにし、(ii)第1ないし第h要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第h要素ごとのプロダクトと、前記h個の基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第h要素ごとのプロダクトに対応する基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)デコード済み特徴マップのうちでh個のデコード済み特徴マップを生成するプロセス;を含むことをを特徴とする請求項18に記載の学習装置。
【請求項22】
前記学習装置が前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)中間特徴マップを生成し、前記第(h+1)中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達することを特徴とする請求項21に記載の学習装置。
【請求項23】
前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行することを特徴とする請求項21に記載の学習装置。
【請求項24】
前記(II−2)プロセスで、
前記プロセッサは前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって前記(k−1)個のデコンボリューションレイヤのうちで前記第mマスクレイヤに対応する第nデコンボリューションレイヤから出力された第n基本デコード済み特徴マップからエッジ部分を抽出して第mエッジ特徴マップを生成するようにし、
前記(II−3)プロセスで、
前記プロセッサは、(i)第m要素別プロダクトレイヤをもって前記第mエッジ特徴マップと前記第mマスクレイヤに対応する第m中間レイヤから出力された第m中間特徴マップを要素別に掛け合わせて、第m要素別プロダクトを生成するようにし、(ii)第m要素別合算レイヤをもって前記第m要素別プロダクトと前記第n基本デコード特徴マップとを要素ごとに合算するようにして、第nデコード特徴マップを生成することを特徴とする請求項21に記載の学習装置。
【請求項25】
前記学習装置は、(v)前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して配置される第1ないし第rロスレイヤをさらに含み、
前記学習装置は、前記第1デコード済み特徴マップを受けて前記第1ロスレイヤに入力される調整された第1デコード済み特徴マップを出力することができるさらなるデコンボリューションレイヤをさらに含み、
前記(III)プロセスは、(III−1)前記プロセッサが前記第1ないし前記第rロスレイヤをもって前記第1ないし前記第rロスレイヤに対応する前記r個のデコンボリューションレイヤから出力された各r個のデコード済み特徴マップ及びこれに対応するGTイメージを参照して第1ないし第rロスをそれぞれ生成するようにして、前記第1ないし前記第rロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の前記パラメータを調整するようにするプロセス;を含むことを特徴とする請求項24に記載の学習装置。
【請求項26】
少なくとも一つのテストイメージに対するセグメンテーションをするためのテスト装置において、
インストラクションを格納する少なくとも一つのメモリ;及び
学習装置が、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップに一つ以上のコンボリューション演算を適用して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1学習用デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ、(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤを含むとするとき、前記学習装置が(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを生成するようにし、(2)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1学習用デコード済み特徴マップを生成させるものの、前記学習装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の学習用基本デコード済み特徴マップから学習用エッジ部分を抽出して第hないし第1学習用エッジ特徴マップを生成するようにし、(ii)前記h個の学習用基本デコード済み特徴マップ及び前記第hないし前記第1学習用エッジ特徴マップを参照して前記第(k−1)ないし前記第1学習用デコード済み特徴マップのうち少なくとも一部として機能するh個の学習用エッジ強化デコード済み特徴マップを生成するようにし、(3)前記第1ないし前記第hエッジロスレイヤをもって前記学習用エッジ部分及びこれに対応するGTを参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1乃至前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整した状態で、(I)前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するようにするプロセス;及び(II)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に第(k−1)ないし第1テスト用デコード済み特徴マップを生成させるものの、前記テスト装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個のテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第hないし第1テスト用エッジ特徴マップを生成するようにし、(ii)前記h個のテスト用基本デコード済み特徴マップ及び前記第hないし前記第1テスト用エッジ特徴マップを参照して前記第(k−1)ないし前記第1テスト用デコード済み特徴マップのうち少なくとも一部として機能するh個のテスト用エッジ強化デコード済み特徴マップを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;
を含むことを特徴とするテスト装置。
【請求項27】
前記(II)プロセスで、
前記第(k−1)ないし前記第1デコンボリューションレイヤは、(i)それぞれの前記第hないし前記第1テスト用エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個のテスト用基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力されたテスト用特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のテスト用デコード済み特徴マップの少なくとも一部として機能する(k−h)個のテスト用基本デコード済み特徴マップを生成して、順次に前記第(k−1)ないし前記第1テスト用デコード済み特徴マップを生成することを特徴とする請求項26に記載のテスト装置。
【請求項28】
前記テスト装置は、(v)前記第1ないし前記第hマスクレイヤそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するコンボリューションレイヤそれぞれの出力端との間にそれぞれ位置する第1ないし第h中間レイヤをさらに含み、
前記(II)プロセスは、
(II−1)前記プロセッサは前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のテスト用エンコード済み特徴マップが入力されて第1ないし第hテスト用中間特徴マップを生成させるプロセス;(II−2)前記プロセッサは前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記第hテスト用基本デコード済み特徴マップから前記テスト用エッジ部分を抽出して前記第1ないし前記第hテスト用エッジ特徴マップを生成させるプロセス;及び(II−3)前記プロセッサは、(i)第1ないし第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第hテスト用中間特徴マップと、これに対応するテスト用エッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第hテスト用要素ごとのプロダクトを生成するようにし、(ii)第1ないし第h要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第hテスト用要素ごとのプロダクトと、前記h個のテスト用基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第hテスト用要素ごとのプロダクトに対応するテスト用基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)テスト用デコード済み特徴マップのうちでh個のテスト用デコード済み特徴マップを生成するプロセス;を含むことを特徴とする請求項27に記載のテスト装置。
【請求項29】
前記テスト装置が前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kテスト用エンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)テスト用中間特徴マップを生成し、前記第(h+1)テスト用中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達することを特徴とする請求項28に記載のテスト装置。
【請求項30】
前記(II−2)プロセスで、
前記プロセッサは、前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって前記(k−1)個のデコンボリューションレイヤのうちで前記第mマスクレイヤに対応する第nデコンボリューションレイヤから出力された第nテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第mテスト用エッジ特徴マップを生成するようにし、
前記(II−3)プロセスで、
前記プロセッサは(i)第m要素ごとのプロダクトレイヤをもって前記第mテスト用エッジ特徴マップと前記第mマスクレイヤに対応する第m中間レイヤから出力された第mテスト用中間特徴マップとを要素ごとに掛け合わせて第mテスト用要素ごとのプロダクトを生成するようにし、(ii)第m要素ごとの合算レイヤをもって前記第mテスト用要素ごとのプロダクトと、前記第nテスト用基本デコード済み特徴マップとを要素ごとに合算するようにして、第nテスト用デコード済み特徴マップを生成することを特徴とする請求項28に記載のテスト装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、歩行者イベント、自動車イベント、フォーリングイベント、フォールンイベントなどのイベントを検出するにおいて利用されるセグメンテーション性能向上のための学習方法に関し;より詳細には、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップに、一つ以上のコンボリューション演算を適用して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ;(ii)前記第kエンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ;(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ;及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤ;を含む学習装置を利用して前記セグメンテーション性能向上のための前記学習方法において、(a)前記トレーニングイメージが入力されると、前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを生成させる段階;(b)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成させるものの、前記学習装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の基本デコード済み特徴マップからエッジ部分を抽出して第hないし第1エッジ特徴マップを生成するようにし、(ii)前記h個の基本デコード済み特徴マップ及び前記第hないし前記第1エッジ特徴マップを参照して前記第(k−1)ないし前記第1デコード済み特徴マップのうち少なくとも一部として機能するh個のエッジ強化デコード済み特徴マップを生成させる段階;(c)前記第1ないし前記第hエッジロスレイヤをもって前記エッジ部分及びこれに対応するGT(Ground Truth)を参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整する段階;を含むことを特徴とする学習方法及び前記学習装置、並びにこれを利用したテスト方法及びテスト装置に関するものである。
【背景技術】
【0002】
ディープラーニングは、事物やデータを群集化したり分類するのに使用する技術である。例えば、コンピュータは写真だけで犬と猫を区分することができない。しかし、人はとても容易にこの二つを区分することができる。このため、「機械学習(Machine Learning)」という方法が考案された。これはコンピュータをもって入力された多くのデータのうちで類似したもの同士分類するようにする技術である。犬の写真と類似した動物の写真が入力されると、前記コンピュータはこれを犬の写真であると分類するのである。
【0003】
データをどのように分類するかをめぐり、すでに多くの機械学習アルゴリズムが登場した。「意思決定木」や「ベイジアンネットワーク」「サポートベクターマシン(SVM)」「人工神経網」などが代表的である。このうち、ディープラーニングは人工神経網の後裔である。
【0004】
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解決するために90年代にすでに使われていたが、現在のように広く使われるようになったのは最近の研究結果の賜物である。このようなディープCNNは、2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習分野で非常に有用なツールとなった。
【0005】
イメージセグメンテーション(Image Segmentation)は、少なくとも一つの入力イメージを利用して、少なくとも一つのラベルイメージを生成する方法である。最近、ディープラーニング(Deep learning)技術が脚光を浴びるにつれ、セグメンテーションにおいてもディープラーニングを数多く使用する傾向にある。前記セグメンテーションは、一つ以上のコンボリューション演算を利用して、前記ラベルイメージを生成する方法などの初期にはエンコーダ(Encoder)のみを利用した方法で遂行された。以後、前記エンコーダにより前記イメージの特徴を抽出し、デコーダ(Decoder)によってこのような特徴を前記ラベルイメージに復元するエンコーダ・デコーダ(Encoder−Decoder)構造を利用した方法で前記セグメンテーションが実行された。
【0006】
図1は、CNNを利用した従来のセグメンテーションのプロセスを簡略に示した図である。
【0007】
図1を参照すると、既存の車線の検出方法では、学習装置が入力イメージが入力されて、一つ以上のコンボリューションレイヤをもって前記入力イメージに前記コンボリューション演算及びReLUのような一つ以上の非線形演算を適用して、少なくとも一つの特徴マップを生成するようにし、一つ以上のデコンボリューションレイヤをもって前記特徴マップに一つ以上のデコンボリューション演算及びソフトマックス(SoftMax)演算を適用するようにしてセグメンテーション結果を生成する。
【0008】
ところが、
図1に示されているように、前記イメージをエンコードしてデコードするプロセスで、エッジ部分が数多く消失する問題点が存在する。最近、デコードのプロセスにおいて、前記エンコーダのコンボリューションレイヤそれぞれから出力されるそれぞれの情報を利用したユーネット(U−Net)という構造のネットワークが現れた。しかし、前記エッジ部分を検出するための学習が効率的に遂行されず、前記エッジ部分を復元するのに多くのエネルギーが必要になるという短所がある。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明では、まず、上述のすべての問題点を解決することを目的とする。
【0010】
本発明ではセグメンテーションプロセスで入力イメージの一つ以上のエッジ部分をより正確に検出するために、前記エッジ部分のエラーを減らすことによって前記エッジ部分を強化するようにする方法を提供することを他の目的とする。
【0011】
また、本発明では鮮明なラベルイメージを出力するためのセグメンテーション方法を提供することをまた他の目的とする。
【課題を解決するための手段】
【0012】
本発明の一態様によると、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップに、一つ以上のコンボリューション演算を適用して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ;(ii)前記第kエンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ;(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ;及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤ;を含む学習装置を利用してセグメンテーション性能を向上させるための学習方法において、(a)前記トレーニングイメージが入力されると、前記学習装置は、前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを生成させる段階;(b)前記学習装置は、前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成させるものの、前記学習装置は前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の基本デコード済み特徴マップからエッジ部分を抽出して第hないし第1エッジ特徴マップを生成するようにし、(ii)前記h個の基本デコード済み特徴マップ及び前記第hないし前記第1エッジ特徴マップを参照して前記第(k−1)ないし前記第1デコード済み特徴マップのうち少なくとも一部として機能するh個のエッジ強化デコード済み特徴マップを生成させる段階;(c)前記学習装置は前記第1ないし前記第hエッジロスレイヤをもって前記エッジ部分及びこれに対応するGTを参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整する段階;を含むことを特徴とする学習方法が提供される。
【0013】
一実施例で、前記第1ないし前記第hエッジロスレイヤは、前記エッジ部分と、これに対応するGTの差を計算して前記第1ないし前記第hエッジロスを生成するものの、前記GTは前記第1ないし前記第hエッジ特徴マップの大きさにそれぞれ対応する大きさを有した第1ないし第hGTイメージからそれぞれ抽出される。
【0014】
一実施例で、前記(b)段階において、前記第(k−1)ないし前記第1デコンボリューションレイヤは、(i)それぞれの前記第hないし前記第1エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個の基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力された特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のデコード済み特徴マップの少なくとも一部として機能する(k−h)個の基本デコード済み特徴マップを生成して、順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成する。
【0015】
一実施例で、前記学習装置は、(v)前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して配置される第1ないし第r個のデコンボリューションレイヤに対応して配置される第1ないし第rロスレイヤをさらに含み、前記(c)段階は、(c1)前記学習装置が前記第1ないし前記第rロスレイヤをもって前記第1ないし前記第rロスレイヤに対応する前記r個のデコンボリューションレイヤから出力された各r個のデコード済み特徴マップ及びこれに対応するGTイメージを参照して第1ないし第rロスをそれぞれ生成するようにして、前記第1ないし前記第rロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の前記パラメータを調整する段階;を含む。
【0016】
一実施例で、前記第1ないし前記第rロスレイヤは、それぞれの前記r個のデコード済み特徴マップにそれぞれ補助コンボリューション演算を適用して出力されたそれぞれのr個の変換済み特徴マップと、これに対応するGTイメージとを参照して前記第1ないし前記第rロスをそれぞれ算出する。
【0017】
一実施例で、前記学習装置は、(vi)前記第1ないし前記第hマスクレイヤそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するコンボリューションレイヤそれぞれの出力端との間にそれぞれ位置する第1ないし第h中間レイヤをさらに含み、前記(b)段階は、(b1)前記学習装置は前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のエンコード済み特徴マップが入力されて第1ないし第h中間特徴マップを生成させる段階;(b2)前記学習装置は、前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記h個の基本デコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hエッジ特徴マップを生成させる段階;及び(b3)前記学習装置は、(i)第1ないし第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第h中間特徴マップと、これに対応するエッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第h要素ごとのプロダクトを生成するようにし、(ii)第1ないし第h要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第h要素ごとのプロダクトと、前記h個の基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第h要素ごとのプロダクトに対応する基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)デコード済み特徴マップのうちでh個のデコード済み特徴マップを生成する段階;を含む。
【0018】
一実施例で、前記学習装置が前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)中間特徴マップを生成し、前記第(h+1)中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達する。
【0019】
一実施例で、前記第1ないし前記第h中間レイヤのうち少なくとも一つは一つ以上の膨張コンボリューション演算を遂行する。
【0020】
一実施例で、前記(b2)段階において、前記学習装置は前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって前記(k−1)個のデコンボリューションレイヤのうちで前記第mマスクレイヤに対応する第nデコンボリューションレイヤから出力された第n基本デコード済み特徴マップからエッジ部分を抽出して第mエッジ特徴マップを生成するようにし、前記(b3)段階において、前記学習装置は、(i)第m要素ごとのプロダクトレイヤをもって前記第mエッジ特徴マップと前記第mマスクレイヤに対応する第m中間レイヤから出力された第m中間特徴マップとを要素ごとに掛け合わせて第m要素ごとのプロダクトを生成するようにし、(ii)第m要素ごとの合算レイヤをもって前記第m要素ごとのプロダクトと、前記第n基本デコード済み特徴マップとを要素ごとに合算するようにして、第nデコード済み特徴マップを生成する。
【0021】
一実施例で、前記学習装置は、(v)前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して配置される第1ないし第rロスレイヤをさらに含み、前記学習装置は前記第1デコード済み特徴マップを受けて前記第1ロスレイヤに入力される調整された第1デコード済み特徴マップを出力することができるさらなるデコンボリューションレイヤをさらに含み、前記(c)段階は、(c1)前記学習装置が前記第1ないし前記第rロスレイヤをもって前記第1ないし前記第rロスレイヤに対応する前記r個のデコンボリューションレイヤから出力された各r個のデコード済み特徴マップ及びこれに対応するGTイメージを参照して、第1ないし第rロスをそれぞれ生成するようにし、前記第1ないし前記第rロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の前記パラメータを調整するようにする段階;を含む。
【0022】
本発明の他の態様によると、少なくとも一つのテストイメージに対するセグメンテーションのテスト方法において、(a)学習装置が(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップに一つ以上のコンボリューション演算を適用して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1学習用デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ、(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤを含むとするとき、前記学習装置が(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを生成するようにし、(2)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1学習用デコード済み特徴マップを生成させるものの、前記学習装置は前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の学習用の基本デコード済み特徴マップから学習用エッジ部分を抽出して第hないし第1学習用エッジ特徴マップを生成するようにし、(ii)前記h個の学習用の基本デコード済み特徴マップ及び前記第hないし前記第1学習用エッジ特徴マップを参照して前記第(k−1)ないし前記第1学習用デコード済み特徴マップのうち少なくとも一部として機能するh個の学習用エッジ強化デコード済み特徴マップを生成するようにし、(3)前記第1ないし前記第hエッジロスレイヤをもって前記学習用エッジ部分及びこれに対応するGTを参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整した状態で、テスト装置が、前記テストイメージが入力されると、前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するようにする段階;及び(b)前記テスト装置は、前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に第(k−1)ないし第1テスト用デコード済み特徴マップを生成させるものの、前記テスト装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個のテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第hないし第1テスト用エッジ特徴マップを生成するようにし、(ii)前記h個のテスト用基本デコード済み特徴マップ及び前記第hないし前記第1テスト用エッジ特徴マップを参照して、前記第(k−1)ないし前記第1テスト用デコード済み特徴マップのうち少なくとも一部として機能するh個のテスト用エッジ強化デコード済み特徴マップを生成させる段階;を含むことを特徴とするテスト方法が提供される。
【0023】
一実施例で、前記(b)段階において、前記第(k−1)ないし前記第1デコンボリューションレイヤは、(i)それぞれの前記第hないし前記第1テスト用エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個のテスト用基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力されたテスト用特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のテスト用デコード済み特徴マップの少なくとも一部として機能する(k−h)個のテスト用基本デコード済み特徴マップを生成して、順次に前記第(k−1)ないし前記第1テスト用デコード済み特徴マップを生成する。
【0024】
一実施例で、前記テスト装置は、(v)前記第1ないし前記第hマスクレイヤそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するコンボリューションレイヤそれぞれの出力端との間にそれぞれ位置する第1ないし第h中間レイヤをさらに含み、前記(b)段階は、(b1)前記テスト装置は前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のテスト用エンコード済み特徴マップが入力されて第1ないし第hテスト用中間特徴マップを生成させる段階;(b2)前記テスト装置は前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記第hテスト用基本デコード済み特徴マップから前記テスト用エッジ部分を抽出して前記第1ないし前記第hテスト用エッジ特徴マップを生成させる段階;及び(b3)前記テスト装置は、(i)第1ないし第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第hテスト用中間特徴マップと、これに対応するテスト用エッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第hテスト用要素ごとのプロダクトを生成するようにし、(ii)第1ないし第h要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第hテスト用要素ごとのプロダクトと、前記h個のテスト用基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第hテスト用要素ごとのプロダクトに対応するテスト用基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)テスト用デコード済み特徴マップのうちでh個のテスト用デコード済み特徴マップを生成する段階;を含む。
【0025】
一実施例で、前記テスト装置が前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kテスト用エンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)テスト用中間特徴マップを生成し、前記第(h+1)テスト用中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達する。
【0026】
一実施例で、前記(b2)段階において、前記テスト装置は前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって前記(k−1)個のデコンボリューションレイヤのうちで前記第mマスクレイヤに対応する第nデコンボリューションレイヤから出力された第nテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第mテスト用エッジ特徴マップを生成するようにし、前記(b3)段階において、前記テスト装置は(i)第m要素ごとのプロダクトレイヤをもって前記第mテスト用エッジ特徴マップと前記第mマスクレイヤに対応する第m中間レイヤから出力された第mテスト用中間特徴マップとを要素ごとに掛け合わせて第mテスト用要素ごとのプロダクトを生成するようにし、(ii)第m要素ごとの合算レイヤをもって前記第mテスト用要素ごとのプロダクトと、前記第nテスト用基本デコード済み特徴マップとを要素ごとに合算するようにして、第nテスト用デコード済み特徴マップを生成する。
【0027】
本発明のまた他の態様によると、(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの特徴マップに一つ以上のコンボリューション演算を適用して第1ないし第kエンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ;(ii)前記第kエンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ;(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ;及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤ;を含む、セグメンテーション性能向上のための学習装置において、インストラクションを格納する少なくとも一つのメモリ;及び(I)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第kエンコード済み特徴マップを生成させるプロセス、(II)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成させるものの、前記学習装置は前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の基本デコード済み特徴マップからエッジ部分を抽出して第hないし第1エッジ特徴マップを生成するようにし、(ii)前記h個の基本デコード済み特徴マップ及び前記第hないし前記第1エッジ特徴マップを参照して前記第(k−1)ないし前記第1デコード済み特徴マップのうち少なくとも一部として機能するh個のエッジ強化デコード済み特徴マップを生成させるプロセス、及び(III)前記第1ないし前記第hエッジロスレイヤをもって前記エッジ部分及びこれに対応するGTを参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整するプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とする学習装置が提供される。
【0028】
一実施例で、前記第1ないし前記第hエッジロスレイヤは、前記エッジ部分と、これに対応するGTの差を計算して前記第1ないし前記第hエッジロスを生成するものの、前記GTは前記第1ないし前記第hエッジ特徴マップの大きさにそれぞれ対応する大きさを有した第1ないし第hGTイメージからそれぞれ抽出される。
【0029】
一実施例で、前記(II)プロセスにおいて、前記第(k−1)ないし前記第1デコンボリューションレイヤは、(i)それぞれの前記第hないし前記第1エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個の基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力された特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のデコード済み特徴マップの少なくとも一部として機能する(k−h)個の基本デコード済み特徴マップを生成し、順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成する。
【0030】
一実施例で、前記学習装置は、(v)前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して配置される第1ないし第rロスレイヤをさらに含み、前記(III)プロセスは、(III−1)前記プロセッサが前記第1ないし前記第rロスレイヤをもって前記第1ないし前記第rロスレイヤに対応する前記r個のデコンボリューションレイヤから出力された各r個のデコード済み特徴マップ及びこれに対応するGTイメージを参照して第1ないし第rロスをそれぞれ生成するようにして、前記第1ないし前記第rロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の前記パラメータを調整するプロセス;を含む。
【0031】
一実施例で、前記第1ないし前記第rロスレイヤは、それぞれの前記r個のデコード済み特徴マップにそれぞれ補助コンボリューション演算を適用して出力されたそれぞれのr個の変換済み特徴マップと、これに対応するGTイメージとを参照して前記第1ないし前記第rロスをそれぞれ算出する。
【0032】
一実施例で、前記学習装置は、(vi)前記第1ないし前記第hマスクレイヤそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するコンボリューションレイヤそれぞれの出力端との間にそれぞれ位置する第1ないし第h中間レイヤをさらに含み、前記(II)プロセスは、(II−1)前記プロセッサが前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のエンコード済み特徴マップが入力されて第1ないし第h中間特徴マップを生成させるプロセス;(II−2)前記プロセッサは前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記h個の基本デコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hエッジ特徴マップを生成させるプロセス;及び(III−3)前記プロセッサは(i)第1ないし第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第h中間特徴マップと、これに対応するエッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第h要素ごとのプロダクトを生成するようにし、(ii)第1ないし第h要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第h要素ごとのプロダクトと、前記h個の基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第h要素ごとのプロダクトに対応する基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)デコード済み特徴マップのうちでh個のデコード済み特徴マップを生成するプロセス;を含む。
【0033】
一実施例で、前記学習装置が前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)中間特徴マップを生成し、前記第(h+1)中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達する。
【0034】
一実施例で、前記第1ないし前記第h中間レイヤのうち少なくとも一つは、一つ以上の膨張コンボリューション)演算を遂行する。
【0035】
一実施例で、前記(II−2)プロセスにおいて、前記プロセッサは前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって前記(k−1)個のデコンボリューションレイヤのうちで前記第mマスクレイヤに対応する第nデコンボリューションレイヤから出力された第n基本デコード済み特徴マップからエッジ部分を抽出して第mエッジ特徴マップを生成するようにし、前記(II−3)プロセスにおいて、前記プロセッサは(i)第m要素ごとのプロダクトレイヤをもって前記第mエッジ特徴マップと前記第mマスクレイヤに対応する第m中間レイヤから出力された第m中間特徴マップとを要素ごとに掛け合わせて第m要素ごとのプロダクトを生成するようにし、(ii)第m要素ごとの合算レイヤをもって前記第m要素ごとのプロダクトと、前記第n基本デコード済み特徴マップとを要素ごとに合算するようにして、第nデコード済み特徴マップを生成する。
【0036】
一実施例で、前記学習装置は、(v)前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して配置される第1ないし第rロスレイヤをさらに含み、前記学習装置は前記第1デコード済み特徴マップを受けて前記第1ロスレイヤに入力される調整された第1デコード済み特徴マップを出力することができるさらなるデコンボリューションレイヤをさらに含み、前記(III)プロセスは、(III−1)前記プロセッサが前記第1ないし前記第rロスレイヤをもって前記第1ないし前記第rロスレイヤに対応する前記r個のデコンボリューションレイヤから出力された各r個のデコード済み特徴マップ及びこれに対応するGTイメージを参照して第1ないし第rロスをそれぞれ生成するようにして、前記第1ないし前記第rロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の前記パラメータを調整するようにするプロセス;を含む。
【0037】
本発明のまた他の態様によると、少なくとも一つのテストイメージに対してセグメンテーションするためのテスト装置において、インストラクションを格納する少なくとも一つのメモリ;及び学習装置が(i)少なくとも一つのトレーニングイメージに対応する少なくとも一つの学習用特徴マップに一つ以上のコンボリューション演算を適用して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する第1ないし第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1学習用デコード済み特徴マップをそれぞれ出力する第(k−1)ないし第1デコンボリューションレイヤ、(iii)前記(k−1)個のデコンボリューションレイヤのうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1ないし第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ないし第hエッジロスレイヤを含むとするとき、前記学習装置が(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを生成するようにし、(2)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1学習用デコード済み特徴マップを生成させるものの、前記学習装置は前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の学習用の基本デコード済み特徴マップから学習用エッジ部分を抽出して第hないし第1学習用エッジ特徴マップを生成するようにし、(ii)前記h個の学習用の基本デコード済み特徴マップ及び前記第hないし前記第1学習用エッジ特徴マップを参照して前記第(k−1)ないし前記第1学習用デコード済み特徴マップのうち少なくとも一部として機能するh個の学習用エッジ強化デコード済み特徴マップを生成するようにし、(3)前記第1ないし前記第hエッジロスレイヤをもって前記学習用エッジ部分及びこれに対応するGTを参照して第1ないし第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整した状態で、(I)前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するようにするプロセス;及び(II)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に第(k−1)ないし第1テスト用デコード済み特徴マップを生成させるものの、前記テスト装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個のテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第hないし第1テスト用エッジ特徴マップを生成するようにし、(ii)前記h個のテスト用基本デコード済み特徴マップ及び前記第hないし前記第1テスト用エッジ特徴マップを参照して前記第(k−1)ないし前記第1テスト用デコード済み特徴マップのうち少なくとも一部として機能するh個のテスト用エッジ強化デコード済み特徴マップを生成させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサ;を含むことを特徴とするテスト装置が提供される。
【0038】
一実施例で、前記(II)プロセスにおいて、前記第(k−1)ないし前記第1デコンボリューションレイヤは、(i)それぞれの前記第hないし前記第1テスト用エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個のテスト用基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用し、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力されたテスト用特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のテスト用デコード済み特徴マップの少なくとも一部として機能する(k−h)個のテスト用基本デコード済み特徴マップを生成し、順次に前記第(k−1)ないし前記第1テスト用デコード済み特徴マップを生成する。
【0039】
一実施例で、前記テスト装置は(v)前記第1ないし前記第hマスクレイヤそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するコンボリューションレイヤそれぞれの出力端との間にそれぞれ位置する第1ないし第h中間レイヤをさらに含み、前記(II)プロセスは、(II−1)前記プロセッサは前記第1ないし前記第h中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のテスト用エンコード済み特徴マップが入力されて第1ないし第hテスト用中間特徴マップを生成させるプロセス;(II−2)前記プロセッサは前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記第hテスト用基本デコード済み特徴マップから前記テスト用エッジ部分を抽出して前記第1ないし前記第hテスト用エッジ特徴マップを生成させるプロセス;及び(II−3)前記プロセッサは(i)第1ないし第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第hテスト用中間特徴マップと、これに対応するテスト用エッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第hテスト用要素ごとのプロダクトを生成するようにし、(ii)第1ないし第h要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第hテスト用要素ごとのプロダクトと、前記h個のテスト用基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第hテスト用要素ごとのプロダクトに対応するテスト用基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)テスト用デコード済み特徴マップのうちでh個のテスト用デコード済み特徴マップを生成するプロセス;を含む。
【0040】
一実施例で、前記テスト装置が前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kテスト用エンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)テスト用中間特徴マップを生成し、前記第(h+1)テスト用中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達する。
【0041】
一実施例で、前記(II−2)プロセスにおいて、前記プロセッサは前記第1ないし前記第hマスクレイヤのうちで少なくとも第mマスクレイヤをもって前記(k−1)個のデコンボリューションレイヤのうちで前記第mマスクレイヤに対応する第nデコンボリューションレイヤから出力された第nテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第mテスト用エッジ特徴マップを生成するようにし、前記(II−3)プロセスにおいて、前記プロセッサは(i)第m要素ごとのプロダクトレイヤをもって前記第mテスト用エッジ特徴マップと前記第mマスクレイヤに対応する第m中間レイヤから出力された第mテスト用中間特徴マップとを要素ごとに掛け合わせて第mテスト用要素ごとのプロダクトを生成するようにし、(ii)第m要素ごとの合算レイヤをもって前記第mテスト用要素ごとのプロダクトと、前記第nテスト用基本デコード済み特徴マップとを要素ごとに合算するようにして、第nテスト用デコード済み特徴マップを生成する。
【発明の効果】
【0042】
本発明によると、エッジロスレイヤを通じてエッジ部分を強化して、セグメンテーションプロセスで正確なエッジ部分を有したラベルイメージを生成することができる効果がある。
【0043】
また、本発明によると、エッジ情報を抽出するのに多くの演算が要求されないため、鮮明なラベルイメージを出力することができる効果がある。
【図面の簡単な説明】
【0044】
本発明の実施例の説明に利用されるために添付された下記の図面は、本発明の実施例のうち単に一部に過ぎず、本発明が属する技術分野おける通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。
【
図1】
図1は、CNNを利用して従来のセグメンテーションを遂行するプロセスを簡略に示したものである。
【
図2】
図2は、本発明の一実施例によるイメージセグメンテーションのプロセスを簡略に示したものである。
【
図3】
図3は、本発明の他の実施例によるイメージセグメンテーションのプロセスを簡略に示したものである。
【
図4】
図4は、
図2及び
図3で示されたプロセスにおいて、エッジ情報を抽出して一つ以上のエッジロスを生成する詳細なプロセスを示したものである。
【
図5】
図5は、本発明のまた他の実施例によるイメージセグメンテーションのプロセスを簡略に示したものである。
【
図6】
図6は、本発明のまた他の実施例によるイメージセグメンテーションのプロセスを簡略に示したものである。
【
図7】
図7は、
図6で示されたプロセスにおいて、一つ以上のエッジロス及び一つ以上のロスを生成する詳細なプロセスを示したものである。
【発明を実施するための形態】
【0045】
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、その実施例に関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現される得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
【0046】
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は、実例として提供され、本発明を限定することを意図したものではない。
【0047】
本発明で言及している各種イメージは、舗装または非舗装道路の関連イメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
【0048】
以下、本発明の属する技術分野において、通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することとする。
【0049】
図2は、本発明の一実施例によるイメージセグメンテーションのプロセスを簡略に示したものである。
【0050】
本発明による学習装置は、
図2で示されているように第1コンボリューションレイヤ(100_1)ないし第kコンボリューションレイヤ(100_k)及び第(k−1)デコンボリューションレイヤ(200_(k−1))ないし第1デコンボリューションレイヤ(200_1)を含む。そして、それぞれの第1マスクレイヤ(300_1)ないし第(k−1)マスクレイヤ(300_(k−1))は、それぞれの前記第1デコンボリューションレイヤ(200_1)ないし前記第(k−1)デコンボリューションレイヤ(200_(k−1))に連結される。そして、それぞれの第1エッジロスレイヤ(400_1)ないし第(k−1)エッジロスレイヤ(400_(k−1))は、それぞれの前記第1マスクレイヤ(300_1)ないし前記第(k−1)マスクレイヤ(300_(k−1))に連結される。また、それぞれの第1要素別(Element−Wise)合算レイヤ(310_1)ないし第(k−1)要素ごとの合算レイヤ(310_(k−1)は、それぞれの前記第1マスクレイヤ(300_1)ないし前記第(k−1)マスクレイヤ(300_(k−1))及びそれぞれの前記第1デコンボリューションレイヤ(200_1)ないし前記第(k−1)デコンボリューションレイヤ(200_(k−1))に連結される。この際、前記第1要素ごとの合算レイヤ(310_1)ないし前記第(k−1)要素ごとの合算レイヤ(310_(k−1)は、前記第1デコンボリューションレイヤ(200_1)ないし前記第(k−1)デコンボリューションレイヤ(200_(k−1))からデコード済み(Decoded)特徴マップを取得し、前記第1マスクレイヤ(300_1)ないし前記第(k−1)マスクレイヤ(300_(k−1))からエッジ特徴マップを取得し、前記デコード済み特徴マップと前記エッジ特徴マップの要素ごとの和(Element−wise Sum)を次のデコンボリューションレイヤに伝達する。
【0051】
まず、少なくとも一つのトレーニングイメージ(10)が入力されると、前記第1コンボリューションレイヤ(100_1)ないし前記第kコンボリューションレイヤ(100_k)は第1ないし第kエンコード済み(Encoded)特徴マップを生成し、前記第(k−1)デコンボリューションレイヤ(200_(k−1))ないし前記第1デコンボリューションレイヤ(200_1)は、前記第kエンコード済み特徴マップに一つ以上のデコンボリューション演算を適用して第(k−1)ないし第1デコード済み特徴マップを生成する。そして、セグメンテーションラベルイメージ(20)は、前記第1デコード済み特徴マップに少なくとも一つ所定の演算を適用して生成される。
【0052】
図2を参照すると、前記第(k−1)ないし前記第1デコード済み特徴マップを生成するプロセスにおいて、前記学習装置は、前記第(k−1)マスクレイヤ(300_(k−1))ないし前記第1マスクレイヤ(300_1)をもってそれぞれの前記第(k−1)ないし前記第1デコンボリューションレイヤから出力されるそれぞれの第(k−1)ないし第1基本デコード済み特徴マップからエッジ部分を抽出して第(k−1)ないし第1エッジ特徴マップを生成し、前記第(k−1)要素ごとの合算レイヤ(310_(k−1))ないし前記第1要素ごとの合算レイヤ(310_1)をもってそれぞれの前記第(k−1)ないし前記第1エッジ特徴マップとそれぞれの前記第(k−1)ないし前記第1基本特徴マップとを要素ごとに加える(Element−Wise Add)ことによって、前記第(k−1)ないし前記第1デコード済み特徴マップを生成し、前記第(k−1)ないし第2デコード済み特徴マップはこれに対応する次のデコンボリューションレイヤに伝達される。
【0053】
そして、前記学習装置は、第(k−1)エッジロスレイヤ(400_(k−1))ないし第1エッジロスレイヤ(400_1)をもって前記第(k−1)マスクレイヤ(300_(k−1))ないし前記第1マスクレイヤ(300_1)から出力された前記第(k−1)ないし前記第1エッジ特徴マップ及びこれに対応するGTを参考にして第(k−1)ないし第1エッジロスを生成させる。前記第1ないし前記第(k−1)エッジロスは、バックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうちで少なくとも一部の一つ以上のパラメータを調整するために利用される。
【0054】
この際、それぞれの前記第(k−1)エッジロスレイヤ(400_(k−1))ないし前記第1エッジロスレイヤ(400_1)は、少なくとも一つのGTラベルからエッジ情報を抽出し、前記抽出されたエッジ情報及び前記第(k−1)マスクレイヤ(300_(k−1))ないし前記第1マスクレイヤ(300_1)から出力された前記第(k−1)ないし前記第1エッジ特徴マップを参考にして、前記第(k−1)ないし前記第1エッジロスを計算する。このため、前記学習は前記エッジ部分のエラーを利用して前記エッジ部分を強化するために遂行される。前記エッジ部分を復元する場合において、前記エッジ部分は広い帯域の周波数を含むため、小さいサイズの特徴マップから前記エッジ部分を復元するのに多くのエネルギーが必要とされる。したがって、従来の方法において、前記学習プロセスは前記エッジ部分において非効率的であり、これにより前記テストプロセスにおいて正確な結果を出力するのが難しい。しかし、前記エッジ部分が前記エッジレイヤを通じて前記エッジ部分の前記エラーを利用して強化されるため、
図2で示されているように前記方法は、前記エッジ部分を検出するCNNの性能を向上させることができる。
【0055】
この際、前記学習装置は、(i)前記第1コンボリューションレイヤ(100_1)ないし前記第kコンボリューションレイヤ(100_k)をもって順次に前記トレーニングイメージ及び前記第1ないし前記第(k−1)エンコード済み特徴マップの大きさを減少させ、チャンネル数を増加させて前記第1ないし前記第kエンコード済み特徴マップをそれぞれ出力するようにし、(ii)前記第(k−1)デコンボリューションレイヤ(200_(k−1))ないし前記第1デコンボリューションレイヤ(200_1)をもって順次に前記第kエンコード済み特徴マップ及び前記第(k−1)ないし前記第2デコード済み特徴マップの大きさを増加させてチャンネル数を減少させ、前記第(k−1)ないし前記第1デコード済み特徴マップをそれぞれ出力するようにする。そして、前記学習装置は、前記第(k−1)エッジロスレイヤ(400_(k−1))ないし前記第1エッジロスレイヤ(400_1)をもって前記第(k−1)マスクレイヤ(300_(k−1))ないし前記第1マスクレイヤ(300_1)から抽出された(k−1)個のエッジ部分と、これに対応するGTエッジとの差を計算して前記第(k−1)ないし前記第1エッジロスを生成するものの、前記GTエッジは、前記(k−1)個のエッジ部分のイメージ大きさとそれぞれに対応する大きさを有した第(k−1)ないし第1 GTイメージから抽出される。
【0056】
そして、前記学習装置は、第1ロスレイヤ(500_1)をもって前記第1デコード済み特徴マップ又は前記セグメンテーションラベルイメージ(20)及びこれに対応するGTラベルイメージを参考にして一つ以上の第1のロスを生成するようにし、前記第1のロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整する。
【0057】
そして、本発明による前記学習装置は、前記第1デコード済み特徴マップを受けて、前記第1ロスレイヤに入力される前記セグメンテーションラベルイメージ(20)と共に調整された第1デコード済み特徴マップを出力することができるさらなるデコンボリューションレイヤをさらに含む。
【0058】
一方、前記学習装置は前記第1デコンボリューションレイヤ(200_1)からの出力を利用するだけでなく、多数の前記デコンボリューションレイヤから出力された多数の前記デコード済み特徴マップを利用して計算された前記ロスを利用したバックプロパゲーションを遂行する。たとえば、前記学習装置は、前記第(k−1)デコンボリューションレイヤ(200_(k−1))ないし前記第1デコンボリューションレイヤ(200_1)のうち少なくとも一つに対応する
図6の第(k−1)ロスレイヤ(500_(k−1))ないし第1ロスレイヤ(500_1)をもって前記第(k−1)ないし前記第1デコンボリューションレイヤの前記少なくとも一つから出力された少なくとも一つのデコード済み特徴マップ及びこれに対応するGTラベルイメージを参考にして一つ以上のロスを生成させることで、前記ロスを利用したバックプロパゲーションを遂行する。
【0059】
図3は、本発明の他の実施例によるイメージセグメンテーションのプロセスを簡単に示したものである。
【0060】
図3に示された本発明の他の実施例による前記セグメンテーション性能向上のための前記学習装置は、
図2に示された本発明の一実施例による前記学習装置と基本的に類似した構成を有するが、前記第(k−1)デコンボリューションレイヤ(200_(k−1))ないし前記第1デコンボリューションレイヤ(200_1)のうちでh個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する第1マスクレイヤ(300_1)ないし第hマスクレイヤ(300_h)及び前記第1ないし前記第hマスクレイヤにそれぞれ対応する第1ディファレンシャルレイヤ(400_1)ないし第hディファレンシャルレイヤ(400_h)を含む。
【0061】
この場合、
図3に示された前記学習装置は、前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1デコード済み特徴マップを生成させるものの、前記学習装置は前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の基本デコード済み特徴マップからエッジ部分を抽出して第hないし第1エッジ特徴マップを生成するようにし、(ii)前記h個の基本デコード済み特徴マップ及び前記第hないし前記第1エッジ特徴マップを参照して前記第(k−1)ないし前記第1デコード済み特徴マップのうち少なくとも一部として機能するh個のエッジ強化デコード済み特徴マップを生成させる。特に、前記第(k−1)ないし前記第1デコンボリューションレイヤを通じて(i)それぞれの前記第hないし前記第1エッジ特徴マップと前記第hないし前記第1マスクレイヤに対応する前記h個のデコンボリューションレイヤから出力されたそれぞれの前記h個の基本デコード済み特徴マップの要素ごとの和(Element−wise Sum)を利用して、(ii)前記第hないし前記第1マスクレイヤに対応しない(k−h)個のデコンボリューションレイヤそれぞれの以前のレイヤそれぞれから出力された特徴マップに前記デコンボリューション演算を適用して前記(k−1)個のデコード済み特徴マップの少なくとも一部として機能する(k−h)個の基本デコード済み特徴マップを生成して、前記第(k−1)ないし前記第1デコード済み特徴マップが生成される。
【0062】
そして、
図3で示された前記学習装置は、前記第1ないし前記第hエッジロスレイヤをもって前記エッジ部分及びこれに対応するGTを参考にして第1ないし第hエッジロスを生成させることで、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤの少なくとも一部分の前記パラメータを調整する。
【0063】
図4は、
図2及び
図3で示された前記プロセスにおいて、前記エッジ情報を抽出して前記エッジロスを生成するプロセスを詳細に示したものである。
【0064】
図4を参照すると、前記学習装置は、前記第(k−1)デコンボリューションレイヤ(200_(k−1))ないし前記第1デコンボリューションレイヤ(200_1)のうちで第nデコンボリューションレイヤ(200_n)をもって以前のデコンボリューションレイヤから伝達された前記第(n+1)デコード済み特徴マップに前記デコンボリューション演算を適用して、第n基本デコード済み特徴マップを生成するようにし、前記第n基本デコード済み特徴マップ及びこれから抽出された第mエッジ特徴マップを利用して第nデコード済み特徴マップを出力するようにする。
図4は、
図3の前記実施例を基盤として前記エッジ情報を抽出し、前記エッジロスを計算する詳細なプロセスを示すようにするために、前記第1ないし前記第hマスクレイヤのうちで第mマスクレイヤ(300_m)及びこれに対応する第mエッジロスレイヤ(400_m)が前記第nデコンボリューションレイヤ(200_n)に対応して配置される例を示したものである。
【0065】
まず、前記第nデコンボリューションレイヤ(200_n)は、以前のデコンボリューションレイヤ(200_(n+1))又は以前の要素別合算レイヤ(300_(m+1))から前記第(n+1)デコード済み特徴マップを取得する。そして、前記第nデコンボリューションレイヤ(200_n)は、前記第(n+1)デコード済み特徴マップに前記デコンボリューション演算を適用して前記第n基本デコード済み特徴マップを生成し、これを前記第mマスクレイヤ(300_m)及び第m要素ごとの合算レイヤ(310_m)に伝達する。前記第mマスクレイヤ(300_m)は、第nデコンボリューションレイヤ(200_n)から出力された前記第n基本デコード済み特徴マップからエッジ部分を抽出して前記第mエッジ特徴マップを生成する。前記第m要素ごとの合算レイヤ(310_m)を通じて前記第mエッジ特徴マップが前記第n基本デコード済み特徴マップと要素ごとに合算されて、前記第nデコード済み特徴マップが生成される。前記第nデコード済み特徴マップは、次のデコンボリューションレイヤ(200_(n−1))に伝達される。
【0066】
また、第mエッジロスレイヤ(400_m)は、前記第mマスクレイヤ(300_m)から出力された前記第mエッジ特徴マップ及びこれに対応するGTエッジあるいはGTイメージから抽出されたエッジ部分を利用して一つ以上の第mエッジロスを生成する。前記エッジロスはバックプロパゲーションされて、前記CNNの前記パラメータを調整するのに利用される。よって、前記CNNの前記パラメータは、前記エッジ部分を強化するのに学習され、鮮明なエッジ部分を有するセグメンテーション結果が生成される。
【0067】
図5は、本発明のまた他の実施例によるイメージセグメンテーションのプロセスを簡略に示したものである。
【0068】
図5に示された本発明のまた他の実施例による前記セグメンテーション性能向上のための前記学習装置は、
図2または3に示された前記学習装置と基本的に類似した構成を有するが、前記コンボリューションレイヤの少なくとも一つと、それに対応するデコンボリューションレイヤとの間に位置する中間レイヤをさらに含む。たとえば、前記中間レイヤは、前記第1コンボリューションレイヤ(100_1)ないし前記第(k−1)コンボリューションレイヤ(100_(k−1))それぞれの出力端と前記第1マスクレイヤ(300_1)ないし前記第(k−1)マスクレイヤ(300_(k−1))それぞれの出力端との間にそれぞれ位置する第1中間レイヤ(600_1)ないし第(k−1)の中間レイヤ(600_(k−1))を含み、前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置する第kの中間レイヤ(600_k)をさらに含む。前記第1ないし前記第kの中間レイヤの少なくとも一つは、一つ以上の膨張コンボリューション(Dilated convolution)演算を遂行する。この際、それぞれの前記中間レイヤのレセプティブフィールド(Receptive Field)は、0の値を有するフィルター加重値によって決定される。そして、
図5を参照すると、前記学習装置は、前記第1ないし前記第(k−1)の中間レイヤからのそれぞれの出力と前記第1ないし前記第(k−1)マスクレイヤロータのそれぞれの出力を要素ごとに掛け合わせて第1ないし第(k−1)要素ごとのプロダクト(Element−Wise Product)を生成することができる(k−1)個の要素ごとのプロダクトレイヤ(320_1ないし320_(k−1))をさらに含む。前記第1ないし前記第(k−1)要素ごとのプロダクトは、前記第1要素ごとの合算レイヤ(310_1)ないし前記第(k−1)要素ごとの合算レイヤ(310_(k−1))にそれぞれ伝達され、また前記第1要素ごとの合算レイヤ(310_1)ないし前記第(k−1)要素ごとの合算レイヤ(310_(k−1)が(i)それぞれの前記第1ないし前記第(k−1)要素ごとのプロダクトと(ii)前記(k−1)個の基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第(k−1)要素ごとのプロダクトに対応する基本デコード済み特徴マップとを要素ごとに合算することにより、前記第1ないし前記第(k−1)デコード済み特徴マップを生成する。
【0069】
図面には示されていないが、他の実施例として、前記学習装置は前記第1ないし前記第hマスクレイヤのそれぞれの出力端と前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤのそれぞれの出力端との間にそれぞれ位置したh個の中間レイヤを含む。また、前記学習装置は、前記h個のマスクレイヤに対応する第1要素ごとのプロダクトレイヤ(320_1)ないし第h要素ごとのプロダクトレイヤ(320_h)を含む。前記第1ないし前記第h要素ごとのプロダクトレイヤは、前記h個の中間レイヤから出力された第1ないし第h中間特徴マップと前記第1マスクレイヤ(300_1)ないし前記第hマスクレイヤ(300_h)から出力された前記第1ないし前記第hエッジ特徴マップとを要素ごとに掛け合わせて第1ないし第h要素ごとのプロダクトを生成する。前記第1ないし前記第h要素ごとのプロダクトは、第1要素ごとの合算レイヤ(310_1)ないし第h要素ごとの合算レイヤ(310_h)にそれぞれ伝達される。そして、前記第1要素ごとの合算レイヤ(310_1)ないし前記第h要素ごとの合算レイヤ(310_h)がそれぞれの前記第1ないし前記第h要素ごとのプロダクトと、前記h個の基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第h要素ごとのプロダクトに対応する基本デコード済み特徴マップとを要素ごとに加えることにより、前記第1ないし前記第(k−1)デコード済み特徴マップのうちでh個のデコード済み特徴マップを生成する。
【0070】
つまり、前記学習装置は、(i)前記h個の中間レイヤをもって前記第1ないし前記第hマスクレイヤに対応するh個のコンボリューションレイヤから出力されたh個のエンコード済み特徴マップが入力されて前記第1ないし前記第h中間特徴マップを生成するようにし、(ii)前記第1ないし前記第hマスクレイヤをもってそれぞれの前記第1ないし前記第hマスクレイヤに対応するそれぞれの前記h個のデコンボリューションレイヤからそれぞれ出力された前記h個の基本デコード済み特徴マップから前記エッジ部分を抽出して前記第1ないし前記第hエッジ特徴マップを生成するようにし、(iii−1)前記第1ないし前記第h要素ごとのプロダクトレイヤをもってそれぞれの前記第1ないし前記第h中間特徴マップと、これに対応するエッジ特徴マップとを要素ごとに掛け合わせて(Element−wise Product)、それぞれの第1ないし第h要素ごとのプロダクトを生成するようにし、(iii−2)第1ないし第h要素ごとの合算レイヤをもってそれぞれの前記第1ないし前記第h要素ごとのプロダクトと、前記h個の基本デコード済み特徴マップのうちでそれぞれの前記第1ないし前記第h要素ごとのプロダクトに対応する基本デコード済み特徴マップとを要素ごとに合算するようにすることで、前記第1ないし前記第(k−1)デコード済み特徴マップのうちで前記h個のデコード済み特徴マップを生成する。そして、前記学習装置が前記第kコンボリューションレイヤの出力端と前記第(k−1)デコンボリューションレイヤの入力端との間に位置したさらなる第(h+1)中間レイヤをさらに含むものの、前記さらなる第(h+1)中間レイヤは、前記第kエンコード済み特徴マップに一つ以上の中間演算を適用して第(h+1)中間特徴マップを生成し、前記第(h+1)中間特徴マップを前記第(k−1)デコンボリューションレイヤに伝達する。この際、前記中間演算は前記膨張コンボリューション演算であり得る。
【0071】
図6は、本発明のまた他の実施例によるイメージセグメンテーションのプロセスを簡略に示したものである。
【0072】
図6に示された本発明のまた他の実施例による前記セグメンテーション性能向上のための前記学習装置は、
図5に示された前記学習装置と基本的に類似した構成を有するが、前記第1デコンボリューションレイヤ(200_1)ないし前記第(k−1)デコンボリューションレイヤ(200_(k−1))に対応して位置する前記第1ロスレイヤ(500_1)ないし前記第(k−1)ロスレイヤ(500_(k−1))を含む。
図6で示された前記学習装置は、前記第1ロスレイヤ(500_1)ないし前記第(k−1)ロスレイヤ(500_(k−1))をもってそれぞれの前記第1ないし前記第(k−1)デコード済み特徴マップ及びこれに対応するGTイメージを参考にして、前記第1ないし第(k−1)ロスをそれぞれ生成するようにし、前記第1ないし前記第(k−1)ロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤの少なくとも一部のパラメータを調整する。
【0073】
前記ロスレイヤの場合において、前記第1ロスレイヤは、前記第1デコンボリューションレイヤに対応して位置するが、残りのロスレイヤは第2デコンボリューションレイヤ(200_2)ないし前記第(k−1)デコンボリューションレイヤ(200_(k−1))全てに対応するように位置しないことがある。つまり、前記学習装置は、前記第1ないし前記第(k−1)デコンボリューションレイヤのうちでr個のデコンボリューションレイヤに対応して位置するr個のロスレイヤを含み、前記r個のロスレイヤのうちで前記第1デコンボリューションレイヤ(200_1)に対応して位置する前記第1ロスレイヤ(500_1)は、前記ラベルイメージ(20)及びこれに対応するGTを参照して前記第1のロスを生成する。
【0074】
前記学習装置は、前記r個のロスレイヤをもって前記r個のロスレイヤに対応する前記r個のデコンボリューションレイヤから出力されるr個のデコード済み特徴マップそれぞれ及びこれに対応するGTを参照してr個のロスをそれぞれ生成させる。そして、前記学習装置は、前記r個のロスのうち少なくとも一つを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤの少なくとも一部の前記パラメータを調整する。
【0075】
図7は、
図6で示された前記プロセスにおいて、前記エッジロス及び前記ロスを生成するプロセスを詳細に示したものである。
【0076】
図7を参考にして、前記学習装置は、前記第(k−1)デコンボリューションレイヤ(200_(k−1))ないし前記第1デコンボリューションレイヤ(200_1)のうちで前記第nデコンボリューションレイヤ(200_n)をもって以前のデコンボリューションレイヤから伝達された前記第(n+1)デコード済み特徴マップに前記デコンボリューション演算を適用して、前記第n基本デコード済み特徴マップを生成するようにし、前記第n基本デコード済み特徴マップとこれから抽出された前記第mエッジ特徴マップを利用して、前記第nデコード済み特徴マップを生成させる。
図7は、
図6の実施例を基盤として前記エッジ情報を抽出し、前記エッジロスを計算する詳細なプロセスを説明するために、(i)前記第1ないし前記第hマスクレイヤのうちで前記第mマスクレイヤ(300_m)、(ii)前記第1ないし前記第hエッジロスレイヤのうちで前記第mマスクレイヤに対応する前記第mエッジロスレイヤ(400_m)、(iii)第m中間レイヤ(600_m)、及び(iv)第mロスレイヤ(500_m)が前記第nデコンボリューションレイヤ(200_n)に対応して位置する例を含む。
【0077】
図7を参照すると、前記第nデコンボリューションレイヤ(200_n)は、以前のデコンボリューションレイヤ(200_(n+1))から、または以前の要素ごとの合算レイヤ(300_(m+1))から前記第(n+1)デコード済み特徴マップを取得する。そして、前記第nデコンボリューションレイヤ(200_n)は、前記第(n+1)デコード済み特徴マップに前記デコンボリューション演算を適用して、前記第n基本デコード済み特徴マップを生成し、これを前記第mマスクレイヤ(300_m)及び前記第m要素ごとの合算レイヤ(310_m)に伝達する。前記第mマスクレイヤ(300_m)は、前記第nデコンボリューションレイヤ(200_n)から出力された前記第n基本デコード済み特徴マップからエッジ部分を抽出して前記第mエッジ特徴マップを生成する。
【0078】
一方、前記第m中間レイヤ(600_m)は、これに対応するエンコード済み特徴マップに前記中間演算を適用して第m中間特徴マップを生成し、第m要素ごとのプロダクトレイヤ(320_m)は、前記第mエッジ特徴マップと前記第m中間特徴マップとの要素ごとの乗算を通じて第m要素ごとのプロダクトを生成する。前記第m要素ごとのプロダクトは、前記第m要素ごとの合算レイヤ(310_m)を通じて前記第n基本デコード済み特徴マップに要素ごとに合算されることにより、前記第nデコード済み特徴マップを生成する。前記第nデコード済み特徴マップは、次のデコンボリューションレイヤ(200_(n−1))に伝達される。
【0079】
そして、前記第mエッジロスレイヤ(400_m)は、前記第mマスクレイヤ(300_m)から出力される前記第mエッジ特徴マップ及びこれに対応するGTエッジまたはGTイメージから抽出されるエッジ部分を利用して、前記第mエッジロスを生成する。また、前記第mロスレイヤ(500_m)は、前記第nデコード済み特徴マップ及びこれに対応するGTを利用して一つ以上の第mロスを生成する。前記生成された第mエッジロス及び前記第mロスはバックプロパゲーションされて、前記CNNの前記パラメータを調整するのに利用される。
【0080】
そして、
図2ないし
図7に示された前記学習方法は、前記CNNのテスト方法に適用され得る。参考までに下記の説明において、混乱を避けるために前記学習プロセスに関連する用語に「学習用」という単語が追加されており、テストプロセスに関連する用語に「テスト用」という単語が追加された。
【0081】
つまり、少なくとも一つのテストイメージに対するセグメンテーションのテスト方法は、(a)前記学習装置が(i)前記トレーニングイメージに対応する少なくとも一つの学習用特徴マップに前記コンボリューション演算を適用して第1ないし第k学習用エンコード済み特徴マップをそれぞれ出力する前記第1ないし前記第kコンボリューションレイヤ、(ii)前記第k学習用エンコード済み特徴マップに前記デコンボリューション演算を適用して第(k−1)ないし第1学習用デコード済み特徴マップをそれぞれ出力する前記第(k−1)ないし前記第1デコンボリューションレイヤ、(iii)前記(k−1)個のデコンボリューションレイヤのうちで前記h個のデコンボリューションレイヤ(前記hは1から(k−1)までの整数である)にそれぞれ対応する前記第1ないし前記第hマスクレイヤ、及び(iv)前記第1ないし前記第hマスクレイヤにそれぞれ対応する前記第1ないし前記第hエッジロスレイヤを含むとするとき、前記学習装置が(1)前記第1ないし前記第kコンボリューションレイヤをもって前記第1ないし前記第k学習用エンコード済み特徴マップを生成するようにし、(2)前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に前記第(k−1)ないし前記第1学習用デコード済み特徴マップを生成させるものの、前記学習装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個の学習用の基本デコード済み特徴マップから学習用エッジ部分を抽出して第hないし第1学習用エッジ特徴マップを生成するようにし、(ii)前記h個の学習用基本デコード済み特徴マップ及び前記第hないし前記第1学習用エッジ特徴マップを参照して前記第(k−1)ないし前記第1学習用デコード済み特徴マップのうち少なくとも一部として機能するh個の学習用エッジ強化デコード済み特徴マップを生成するようにし、(3)前記第1ないし前記第hエッジロスレイヤをもって前記学習用エッジ部分及びこれに対応するGTを参照して前記第1ないし前記第hエッジロスを生成するようにして、前記第1ないし前記第hエッジロスを利用したバックプロパゲーションを通じて前記第1ないし前記第(k−1)デコンボリューションレイヤ及び前記第kないし前記第1コンボリューションレイヤのうち少なくとも一部の一つ以上のパラメータを調整した状態で、テスト装置が、前記テストイメージが入力されると、前記第1ないし前記第kコンボリューションレイヤをもって第1ないし第kテスト用エンコード済み特徴マップを出力するようにする段階;及び(b)前記テスト装置は、前記第(k−1)ないし前記第1デコンボリューションレイヤをもって順次に第(k−1)ないし第1テスト用デコード済み特徴マップを生成させるものの、前記テスト装置は、前記第hないし前記第1マスクレイヤをもって、(i)前記第hないし前記第1マスクレイヤそれぞれに対応する前記h個のデコンボリューションレイヤそれぞれから出力されたそれぞれのh個のテスト用基本デコード済み特徴マップからテスト用エッジ部分を抽出して第hないし第1テスト用エッジ特徴マップを生成するようにし、(ii)前記h個のテスト用基本デコード済み特徴マップ及び前記第hないし前記第1テスト用エッジ特徴マップを参照して前記第(k−1)ないし前記第1テスト用デコード済み特徴マップのうち少なくとも一部として機能するh個のテスト用エッジ強化デコード済み特徴マップを生成させる段階;を含む。
【0082】
前記エッジロスレイヤや前記レイヤは、学習時間に影響を与えるものの、テストには使用されないためテスト時間には影響を及ぼさない。そのため、プロセス時間に大きな影響を受けずに所望の結果を得ることができる。
【0083】
このように、マルチエッジロスレイヤを利用した本発明によると、エッジロスレイヤを通じてエッジ部分を強化することにより、セグメンテーションの際にエッジ部分が正確なラベルイメージを得ることができる効果があり、多くの演算量を必要としなくてもエッジ情報をうまく探し出して、精密なラベルイメージが得られる効果がある。
【0084】
前記セグメンテーション性能は、歩行者イベント、自動車イベント、フォーリングイベント、フォールンイベントなどのイベントを検出するのに利用されるために、交通標識、ランドマーク、及び道路標識などの検出度を増加させるために向上される。
【0085】
本発明の技術分野における通常の技術者に理解され得るところとして、上記で説明されたイメージ、例えば、トレーニングイメージ及びテストイメージのようなイメージデータの送受信が学習装置及びテスト装置の各通信部により行われ得、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/又はメモリー)によって保有/維持され得、コンボリューション演算、デコンボリューション演算、ロス値演算の過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されはしないであろう。
【0086】
また、以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカル・ディスク(floptical disk)のような磁気−光メディア(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
【0087】
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
【0088】
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。