特許第6682595号(P6682595)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特許6682595イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6682595
(24)【登録日】2020年3月27日
(45)【発行日】2020年4月15日
(54)【発明の名称】イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20200406BHJP
   G06T 7/12 20170101ALI20200406BHJP
【FI】
   G06T7/00 350C
   G06T7/12
【請求項の数】24
【外国語出願】
【全頁数】25
(21)【出願番号】特願2018-188347(P2018-188347)
(22)【出願日】2018年10月3日
(65)【公開番号】特開2019-67408(P2019-67408A)
(43)【公開日】2019年4月25日
【審査請求日】2018年11月2日
(31)【優先権主張番号】15/724,994
(32)【優先日】2017年10月4日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】110001737
【氏名又は名称】特許業務法人スズエ国際特許事務所
(72)【発明者】
【氏名】キム、ヨンジョン
(72)【発明者】
【氏名】ナム、ウンユン
(72)【発明者】
【氏名】ボ、シュクフン
(72)【発明者】
【氏名】シュン、ミュンチュル
(72)【発明者】
【氏名】エオ、ドンフン
(72)【発明者】
【氏名】リュウ、ウージュ
(72)【発明者】
【氏名】ジャン、タエウォン
(72)【発明者】
【氏名】ジョン、キュンジョン
(72)【発明者】
【氏名】ジェ、ホンモ
(72)【発明者】
【氏名】チョ、ホジン
【審査官】 山田 辰美
(56)【参考文献】
【文献】 Pedor O. Pinheiro et al.,Lerning to Refine Object Segmentation,arXiv:1603.08695v2,2016年 7月26日,p.1−p.18,URL,https://arxiv.org/abs/1603.08695
【文献】 山下 隆義,Multiple Dilated Convolutional Blocksによるセマンティクセグメンテーション,第23回 画像センシングシンポジウム SSII2017 [USB] The 23rd Symposium on Sensing via Image Information,日本,画像センシング技術研究会,2017年 6月 7日,SO2-IS2-31
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00−7/90
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法において、
(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセスを遂行する段階;
(b)前記学習装置は、前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセスを遂行する段階;
(c)前記学習装置は、(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する段階;及び
(d)前記学習装置は、前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整する段階;を含み、
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、ことを特徴とする学習方法。
【請求項2】
前記(a)段階で、前記学習装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、
前記(b)段階で、前記学習装置は、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、
前記(c)段階で、前記学習装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする請求項1に記載の学習方法。
【請求項3】
前記(b)段階で、前記学習装置は、H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする請求項2に記載の学習方法。
【請求項4】
前記HがK値である場合、前記学習装置は、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする請求項1に記載の学習方法。
【請求項5】
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする請求項に記載の学習方法。
【請求項6】
前記(c)段階で、前記学習装置は、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする請求項1に記載の学習方法。
【請求項7】
前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習方法。
【請求項8】
前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習方法。
【請求項9】
テストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、
(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;
(b)前記テスト装置が、前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセスを遂行する段階;
(c)前記テスト装置は、前記H個のエンコーディングフィルタの各々のテスト用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセスを遂行する段階;
(d)前記テスト装置は、(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセスを遂行する段階;
を含み、
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、セグメンテーション方法。
【請求項10】
前記(b)段階で、前記テスト装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、
前記(c)段階で、前記テスト装置は、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、
前記(d)段階で、前記テスト装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とする請求項に記載のセグメンテーション方法。
【請求項11】
前記(c)段階で、前記テスト装置は、H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とする請求項1に記載のセグメンテーション方法。
【請求項12】
前記(d)段階で、前記テスト装置は、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とする請求項に記載のセグメンテーション方法。
【請求項13】
(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含むイメージセグメンテーションの性能向上のための学習装置において、
前記入力イメージを受信する通信部;及び
(I)前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセス;(III)(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセス;及び(IV)前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサ;を含み、
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタは、ダイレーションコンボリューション演算を遂行し、
前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、ことを特徴とする学習装置。
【請求項14】
前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、
前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、
前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする請求項1に記載の学習装置。
【請求項15】
前記(II)プロセスで、前記H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする請求項1に記載の学習装置。
【請求項16】
前記HがK値である場合、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする請求項1に記載の学習装置。
【請求項17】
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする請求項13に記載の学習装置。
【請求項18】
前記(III)プロセスで、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする請求項1に記載の学習装置。
【請求項19】
前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
前記(III)プロセスで、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行することで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習装置。
【請求項20】
前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、
前記(III)プロセスで、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップを利用してデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする請求項1に記載の学習装置。
【請求項21】
テストイメージとしての入力イメージに対するイメージセグメンテーション装置において、
(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれているK個のフィルタから選択されたH個のエンコーディングフィルタ(1≦H<K)の各々と、前記デコーディングレイヤに含まれているK個のフィルタから選択され前記H個のエンコーディングフィルタの各々に対応するH個のデコーディングフィルタの各々と、の間に各々配置されている第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個の前記デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを受信する通信部;及び
(I)前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタ各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセス;(III)(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセス;を遂行するプロセッサ;
を含み、
前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行し、
前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューション演算を遂行する前記中間レイヤの各フィルタのReceptive fieldは、一部領域のフィルタweightを除いた残りの領域のフィルタweightが0で満たされる、セグメンテーション装置。
【請求項22】
前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、
前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、
前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とする請求項2に記載のセグメンテーション装置。
【請求項23】
前記(II)プロセスで、前記H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とする請求項2に記載のセグメンテーション装置。
【請求項24】
前記(III)プロセスで、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とする請求項2に記載のセグメンテーション装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はイメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置に関する。より詳細には、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法において、(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセスを遂行する段階;(b)前記学習装置は、前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセスを遂行する段階;(c)前記学習装置は、(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する段階;及び(d)前記学習装置は、前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整する段階;を含むことを特徴とする学習方法に関する。
【背景技術】
【0002】
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNN)はディープランニング分野で起きた驚くべき発展の核心である。CNNsは文字認識問題を解くために90年代に既に使用されていたが、現在のように広く使用されるようになったのは最近の研究結果のおかげである。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そうして、コンボリューションニューラルネットワークはMachine Learning分野で非常に有用なツールとなった。
【0003】
一方、イメージセグメンテーションは入力でイメージ(トレーニングイメージorテストイメージ)を受け、出力でラベル(label)イメージを作り出す方法である。最近ディープラーニング(Deep learning)技術が脚光を浴びながら、セグメンテーションもディープラーニングを多く使用する趨勢である。
【0004】
図1は従来技術にかかるイメージセグメンテーションを遂行することができるCNNの学習過程を示す図面である。
【0005】
図1を参照すれば、トレーニングイメージまたはテストイメージなどの入力イメージが入力されると複数個のフィルタ(即ち、コンボリューションフィルタ)で複数回のコンボリューション演算を遂行して特徴マップを獲得する。そうして最終的に生成された特徴マップを複数個のデコンボリューションフィルタで複数回のデコンボリューション演算を遂行してラベルイメージを獲得する。このようにコンボリューション演算でイメージをエンコーディングして特徴マップを獲得し、特徴マップをデコーディングして再びラベルイメージを獲得する構造をエンコーディング−デコーディングネットワーク、またはU−Netと言う。エンコーディング過程で各コンボリューション演算を遂行するたびに入力イメージのサイズが1/2に減るようになるが、これはイメージサイズを減らして演算量を減らそうとするためである。また、エンコーディング過程でコンボリューションフィルタを通じて入力されたイメージのチャネル数は増加するが、これは減った演算量の利得を活用しながらも増えたチャネルを通じて複雑なパターンを得るためである。一般的に、エンコーディング過程で各々のコンボリューションフィルタを経るたびにイメージサイズは1/2に減り、チャネル数は2倍に増える。このように減った特徴マップは高周波領域が多く除去されて低周波領域寄りの情報を有するようになるが、かかる低周波領域はイメージの意味のある(meaningful)部分、即ち、空、道路、建物、自動車など詳細な部分を意味する。かかる意味のあるパートをデコンボリューション演算、即ち、デコーディング演算を通じてラベルイメージとして類推するようになる。
【0006】
最近、前記のようなU−Net構造のネットワークを利用したイメージセグメンテーション過程で性能を増加させるための努力が行なわれてきた。これによって本出願人はイメージセグメンテーションの性能を増加させることができるようにデコーディング過程でエンコーダから出た特徴マップの情報を効率的に利用する新しい技術を提供しようとする。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明はイメージセグメンテーション時によりよいエッジ情報を表現することができる方法を提供することを目的とする。
【0008】
本発明は学習過程でエンコーダから出力された各特徴マップを利用して優れたエッジ情報をデコーダに提供することで最適のパラメータを見つけることができる学習環境を提供することを目的とする。
【0009】
また本発明は最適のパラメータを見つけて正確なイメージセグメンテーションを提供することができる装置と方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の一実施例によれば、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用してイメージセグメンテーションの性能向上のための学習方法が、(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセスを遂行する段階;(b)前記学習装置は、前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセスを遂行する段階;(c)前記学習装置は、(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する段階;及び(d)前記学習装置は、前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整する段階;を含むことを特徴とする学習方法が提供される。
【0011】
前記一実施例によれば、前記(a)段階で、前記学習装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、前記(b)段階で、前記学習装置は、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、前記(c)段階で、前記学習装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする学習方法が提供される。
【0012】
また、前記一実施例によれば、前記(b)段階で、前記学習装置は、H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする学習方法が提供される。
【0013】
また、前記一実施例によれば、前記HがK値である場合、前記学習装置は、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする学習方法が提供される。
【0014】
また、前記一実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とする学習方法が提供される。
【0015】
また、前記一実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする学習方法が提供される。
【0016】
また、前記一実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューションを遂行する前記中間レイヤの各フィルタのReceptive fieldは一部領域のフィルタweightを除いた残りの領域のフィルタweightは0で満たされることを特徴とする学習方法が提供される。
【0017】
また、前記一実施例によれば、前記(c)段階で、前記学習装置は、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする学習方法が提供される。
【0018】
また、前記一実施例によれば、前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする学習方法が提供される。
【0019】
また、前記一実施例によれば、前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、前記(c)段階で、前記学習装置は、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする学習方法が提供される。
【0020】
本発明の他の実施例によれば、テストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;(b)前記テスト装置が、前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセスを遂行する段階;(c)前記テスト装置は、前記H個のエンコーディングフィルタの各々のテスト用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセスを遂行する段階;(d)前記テスト装置は、(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセスを遂行する段階;を含むセグメンテーション方法が提供される。
【0021】
前記他の実施例によれば、前記(b)段階で、前記テスト装置は、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、前記(c)段階で、前記テスト装置は、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、前記(d)段階で、前記テスト装置は、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とするセグメンテーション方法が提供される。
【0022】
また、前記他の実施例によれば、前記(c)段階で、前記テスト装置は、H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とするセグメンテーション方法が提供される。
【0023】
また、前記他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とするセグメンテーション方法が提供される。
【0024】
また、前記他の実施例によれば、前記(d)段階で、前記テスト装置は、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とするセグメンテーション方法が提供される。
【0025】
本発明のまた他の実施例によれば、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含むイメージセグメンテーションの性能向上のための学習装置において、前記入力イメージを受信する通信部;及び(I)前記エンコーディングレイヤを経て前記第1−1、前記第1−2、…、前記第1−K特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタの各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H特徴マップを獲得するプロセス;(III)(i)前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個デコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセス;及び(IV)前記第2−1特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサ;を含むことを特徴とする学習装置が提供される。
【0026】
前記また他の実施例によれば、前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし前記第1−K特徴マップを生成して、前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタの出力からエッジ情報を抽出することで、前記第3−1ないし前記第3−H特徴マップを生成し、前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし前記第2−1特徴マップを生成することを特徴とする学習装置が提供される。
【0027】
また、前記また他の実施例によれば、前記(II)プロセスで、前記H個のエンコーディングフィルタの出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−H特徴マップを獲得することを特徴とする学習装置が提供される。
【0028】
また、前記また他の実施例によれば、前記HがK値である場合、(i)前記第1−1ないし第1−K特徴マップ各々を第3−1ないし第3−Kフィルタに入力することで、第3−1ないし第3−K特徴マップを生成した後、(ii)前記第3−1ないし第3−K特徴マップ各々を前記第2−1ないし前記第2−Kフィルタに伝達することを特徴とする学習装置が提供される。
【0029】
また、前記また他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とする学習装置が提供される。
【0030】
また、前記また他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはコンボリューション演算を遂行することを特徴とする学習装置が提供される。
【0031】
また、前記また他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち前記ダイレーションコンボリューションを遂行する前記中間レイヤの各フィルタのReceptive fieldは一部領域のフィルタweightを除いた残りの領域のフィルタweightは0で満たされることを特徴とする学習装置が提供される。
【0032】
また、前記また他の実施例によれば、前記(III)プロセスで、前記第3−1、前記第3−2、…、前記第3−H特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−K特徴マップのうちH個のデコーディングフィルタから特徴マップを獲得することを特徴とする学習装置が提供される。
【0033】
また、前記また他の実施例によれば、前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、前記(III)プロセスで、前記第2−Kフィルタをもって前記第3−Hフィルタから出力された第3−H特徴マップをデコンボリューション演算を遂行することで、前記第2−K特徴マップを獲得することを特徴とする学習装置が提供される。
【0034】
また、前記また他の実施例によれば、前記第3−Hフィルタが前記第1−Kフィルタと連動する場合、前記(III)プロセスで、前記第2−Kフィルタをもって前記第1−K特徴マップと前記第3−Hフィルタから出力された第3−H特徴マップを利用してデコンボリューション演算を遂行するようにすることで、前記第2−K特徴マップを獲得することを特徴とする学習装置が提供される。
【0035】
本発明のまた他の実施例によれば、テストイメージとしての入力イメージに対するイメージセグメンテーション装置において、(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記エンコーディングレイヤに含まれたK個のフィルタのうちH個のエンコーディングフィルタ及び前記デコーディングレイヤに含まれたK個のフィルタのうちH個のデコーディングフィルタ−前記エンコーディングレイヤに含まれた前記H個のエンコーディングフィルタと前記デコーディングレイヤに含まれた前記H個のデコーディングフィルタは対応される−の間に各々配置される第3−1ないし第3−Hフィルタを含む中間レイヤ;を含む学習装置を利用し、(II)前記学習装置は(i)前記エンコーディングレイヤを経て前記第1−1、ないし第1−K学習用特徴マップを獲得するプロセス;(ii)前記H個のエンコーディングフィルタの各々の学習用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1、第3−2、…、第3−H学習用特徴マップを獲得するプロセス;(iii)前記H個デコーディングフィルタをもって前記第3−1ないし第3−H学習用特徴マップ及び前記各々のH個の前記デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにするか、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された学習用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを順次獲得するプロセス;(iv)前記第2−1学習用特徴マップと正解ラベルイメージとを参照して獲得されたロスを用いてバックプロパゲーションプロセスを遂行して、前記第2−1ないし前記第2−Kフィルタ、前記第3−1ないし前記第3−Hフィルタ、及び前記第1−1ないし前記第1−Kフィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行した状態で、テスト装置が、前記テストイメージを受信する通信部;及び(I)前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタ各々の出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセス;(III)(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセス;を遂行するプロセッサ;を含むセグメンテーション装置が提供される。
【0036】
前記また他の実施例によれば、前記(I)プロセスで、前記第1−1ないし前記第1−Kフィルタを各々利用して順次サイズを減らしてチャネルを増加させながら前記第1−1ないし第1−Kテスト用特徴マップを生成して、前記(II)プロセスで、前記第3−1ないし前記第3−Hフィルタのテスト用出力からテスト用エッジ情報を抽出することで、前記第3−1ないし前記第3−Hテスト用特徴マップを生成し、前記(III)プロセスで、前記第2−Kないし前記第2−1フィルタを各々利用して順次サイズを増やしてチャネルを減らしながら前記第2−Kないし第2−1テスト用特徴マップを生成することを特徴とするセグメンテーション装置が提供される。
【0037】
また、前記また他の実施例によれば、前記(II)プロセスで、前記H個のエンコーディングフィルタのテスト用出力から周波数変化が所定の閾値以上である部分を抽出することで、前記第3−1ないし第3−Hテスト用特徴マップを獲得することを特徴とするセグメンテーション装置が提供される。
【0038】
また、前記また他の実施例によれば、前記第3−1ないし前記第3−Hフィルタのうち少なくとも一個のフィルタはダイレーションコンボリューション演算を遂行することを特徴とするセグメンテーション装置が提供される。
【0039】
また、前記また他の実施例によれば、前記(III)プロセスで、前記第3−1ないし第3−Hテスト用特徴マップの情報及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップの情報を利用してデコンボリューション演算を遂行し、前記第2−1ないし第2−Kテスト用特徴マップのうち前記H個のデコーディングフィルタからテスト用特徴マップを獲得することを特徴とするセグメンテーション装置が提供される。
【発明の効果】
【0040】
本発明によれば、ダイレーションコンボリューション演算をエンコーダのフィルタとデコーダフィルタ間に挿入してイメージセグメンテーションの全体ネットワーク学習過程及びテスト過程がより効果的に遂行されることができる。
【0041】
本発明によれば、CNNモデルの学習装置がイメージ内の物体のエッジとcontext情報などを補完して学習するようにできる。
【0042】
本発明によれば、イメージセグメンテーション時によりよいエッジ情報を表現するようにセグメンテーションを遂行することができる。
【図面の簡単な説明】
【0043】
図1図1は、従来技術にかかるイメージセグメンテーションを遂行し得るCNNの学習過程を示す図面である。
図2A図2Aは、本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。
図2B図2Bは、本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。
図3A図3Aは、本発明の一実施例による多様なFOVを有するダイレーションコンボリューションフィルタを示す図面である。
図3B図3Bは、本発明の一実施例による多様なFOVを有するダイレーションコンボリューションフィルタを示す図面である。
図3C図3Cは、本発明の一実施例による多様なFOVを有するダイレーションコンボリューションフィルタを示す図面である。
図3D図3Dは、コンボリューション演算とダイレーションコンボリューション演算の差を示す図面である。
図4図4は、本発明の一実施例による第2−K特徴マップを生成する過程を示す図面である。
図5図5は、本発明の他の実施例による第2−K特徴マップを生成する過程を示す図面である。
図6A図6Aは、本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。
図6B図6Bは、本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。
【発明を実施するための形態】
【0044】
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
【0045】
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
【0046】
図2A及び図2Bは本発明の一実施例によるダイレーションコンボリューションを利用したイメージセグメンテーションを遂行する学習方法を示す図面である。図2A及び図2Bに示したCNNモデルを利用したイメージセグメンテーションのための学習装置は通信部(未図示)とプロセッサ(未図示)が含まれ得る。
【0047】
具体的に、通信部は入力イメージとしてトレーニングイメージを受信し得て、プロセッサはエンコーディングレイヤにある複数個のフィルタ、即ちコンボリューションフィルタを通じて入力イメージに対してコンボリューション演算を複数回適用して特徴マップを獲得するプロセスを遂行し得る。その後、プロセッサは複数のフィルタを通じて特定特徴マップ(即ち、エンコーディングレイヤからの最終出力)に対してデコーディングレイヤで複数個のフィルタ(即ち、デコンボリューションフィルタ)を通じてデコンボリューション演算を複数回適用することで、入力イメージに対応するラベルイメージを獲得するプロセスを遂行し得る。また、プロセッサはCNNの各フィルタに対して原本正解ラベルイメージと推定されたラベルイメージ間のロスを利用してバックプロパゲーション過程を遂行することでCNNモデル内の各フィルタまたはレイヤのパラメータを最適化するプロセスを遂行し得る。
【0048】
図2A及び図2Bを参照すれば、本発明にかかる学習装置はK個フィルタ(第1−1フィルタないし第1−Kフィルタ)を含むエンコーディングレイヤとこれに対応されるK個のフィルタ(第2−Kないし第2−1フィルタ)を含むデコーディングレイヤを含む。また、学習装置は、前記エンコーディングレイヤの前記第1−1フィルタないし第1−Kフィルタ各々と前記デコーディングレイヤの前記第2−1ないし第2−Kフィルタのうち対応するフィルタ間に配置された第3−1フィルタないし第3−Kフィルタを含む中間レイヤを含む。また、学習装置は、追加で生成された最終出力結果物、例えばラベルイメージと原本正解ラベルイメージ間の差を計算してロスを生成する少なくとも一つのロスレイヤを含む。
【0049】
また、図2A及び図2Bを参照すれば、本発明にかかる学習方法は、学習装置の通信部が入力イメージとしてトレーニングイメージを入力されてエンコーディングレイヤの第1−1フィルタに入力して開始される。また、前記エンコーディングレイヤの第1−1ないし第1−Kフィルタは入力されたイメージに対応する特徴マップを求めるためにコンボリューション演算を遂行する。
【0050】
具体的に、図2A及び図2Bで第1−1フィルタは入力イメージを入力されてコンボリューション演算して第1−1特徴マップを生成して出力し、第1−2フィルタは前記第1−1特徴マップを入力されてコンボリューション演算して第1−2特徴マップを生成して出力して、第1−3フィルタは前記第1−2特徴マップを入力されてコンボリューション演算して第1−3特徴マップを生成して出力して、…、第1−(K−2)フィルタは第1−(K−3)特徴マップを入力されてコンボリューション演算して第1−(K−2)特徴マップを生成して出力して、第1−(K−1)フィルタは前記第1−(K−2)特徴マップを入力されてコンボリューション演算して第1−(K−1)特徴マップを生成して出力して、第1−Kフィルタは前記第1−(K−1)特徴マップを入力されてコンボリューション演算して第1−K特徴マップを生成して出力する。
【0051】
この時、第1−1ないし第1−Kフィルタでコンボリューション演算を遂行するたびに入力イメージのサイズは1/2に減る。また、コンボリューション演算が適用されるたびに第1−1ないし第1−Kフィルタの出力のチャネル数は入力の2倍に増加するが、サイズの増加比率または減少比率、チャネルの数は制限されない。
【0052】
例えば、トレーニングイメージのサイズが640×480、そのチャネル数が3なら、第1−1特徴マップはサイズが320×240であり、チャネル数は8であり、第1−2特徴マップはサイズが160×120、チャネル数は16、第1−3特徴マップはサイズが80×60、チャネル数は32であり得る。
【0053】
以後、第1−K特徴マップはデコーディングレイヤに入力されてラベルイメージを生成するのに利用される。前記デコーディングレイヤの第2−Kないし第2−1フィルタはラベルイメージを求めるために、即ち、イメージをセグメンテーションするためにデコンボリューション演算を遂行する。
【0054】
一方、図2A及び図2Bを参照すれば、本発明ではエンコーディングレイヤとデコーディングレイヤ間に中間レイヤをさらに含み、前記中間レイヤは第3−1ないし第3−Kフィルタを含む。前記第3−1ないし第3−Kフィルタのうち前記第3−1フィルタは前記第1−1フィルタと第2−1フィルタ間に、第3−2フィルタは前記第1−2フィルタと前記第2−2フィルタ間に、…、前記第3−Kフィルタは前記第1−Kフィルタと前記第2−Kフィルタ間に位置する。即ち、中間レイヤの各フィルタはエンコーディングレイヤのフィルタと対応するデコーディングレイヤのフィルタ間に配置され得る。
【0055】
一例として、前記第3−1フィルタないし前記第3−Kフィルタのうち少なくとも一つのフィルタはダイレーションコンボリューションフィルタであり得る。そして、前記第3−1フィルタないし前記第3−Kフィルタのうちダイレーションコンボリューションフィルタではない他のフィルタのうち少なくとも一つのフィルタはコンボリューションフィルタであり得る。また、前記第3−1フィルタないし前記第3−Kフィルタがすべてダイレーションコンボリューションフィルタである場合もある。
【0056】
また、前記第3−1フィルタないし前記第3−Kフィルタは各々前記第1−1特徴マップないし前記第1−K特徴マップからエッジ情報を抽出することで前記第3−1ないし前記第3−K特徴マップを生成し得る。ここで、前記第3−1フィルタないし前記第3−Kフィルタは各々前記第1−1特徴マップないし前記第1−K特徴マップから周波数変化が所定の閾値以上である部分を抽出して第3−1ないし第3−H特徴マップを獲得し得る。例えば、特定部分は入力イメージのエッジであり得る。
【0057】
各々の対応する以前のフィルタから提供された特徴マップにデコンボリューション演算が適用される時、デコーディングレイヤのフィルタは第3−1特徴マップないし第3−K特徴マップのうち対応する特徴マップに含まれたエッジに対する情報を活用し得る。
【0058】
一般的に、デコーディングされた特徴マップのサイズを増加させるデコーディングプロセス中にエッジに対する情報が復旧されなくなるという問題点がある。従って、本発明によれば、プロセッサはエッジ情報を復旧するのに支援するため、中間レイヤのフィルタからデコーディングレイヤのフィルタにエッジ情報を提供し得る。
【0059】
具体的に、中間レイヤはエンコーディングレイヤのフィルタ各々から得た各々のエンコーディングされた特徴マップからエッジ情報を抽出し、第3−1特徴マップないし第3−K特徴マップのエッジ情報を各々デコーディングレイヤの各々対応するフィルタに伝達し得る。従って、デコンボリューション演算を遂行する時、抽出されたエッジ情報が使用され得る。
【0060】
以下では、第3−1フィルタないし第3−Kフィルタのすべてがダイレーションコンボリューションフィルタである場合、本発明の一実施例によってイメージセグメンテーションを遂行し得るCNNの学習過程を説明する。
【0061】
前記第3−1フィルタは前記第1−1フィルタから第1−1特徴マップを受信した後、ダイレーションコンボリューション演算を遂行して第3−1特徴マップを生成し、第2−1フィルタに提供し得る。続いて、前記第3−2フィルタは前記第1−2フィルタから第1−2特徴マップを受信した後、ダイレーションコンボリューション演算を遂行して第3−2特徴マップを生成し、第2−2フィルタに提供し得る。即ち、中間レイヤの残りのフィルタは同一の手順によって同一のプロセスが遂行され得る。
【0062】
図3Aはコンボリューションフィルタの一例を示した図面である。そして、図3Bないし図3CはFOVを有するダイレーションコンボリューションの多様な例を示す図面である。
【0063】
図3Bないし図3Cのように、ダイレーションコンボリューション演算は図3Aで示したコンボリューションフィルタを図3Bないし図3Cのようなフィルタ構造に変更してコンボリューション演算することを言う。従って、ダイレーションコンボリューションフィルタのサイズはコンボリューションフィルタのサイズよりも大きくなり得る。フィルタのサイズを拡張させるため、ダイレーションコンボリューションフィルタの重み付け値(即ち、パラメータ)の一部はコンボリューションフィルタから得られた重み付け値を除いては0で満たされ得る。万一フィルタのサイズが拡張されても全体計算時間は重み付け値がないため、同一に維持され得る。従って、ゼロ重み付け値の計算時間が非常に短いため、全体計算時間を増加させずにFOVを増加させ得る。また、万一フィルタのサイズが拡張されてもFOVは解像度を損失させることなくサイズを確張し得る。
【0064】
図3B及び図3Cに示したように、コンボリューションフィルタから得た重み付け値の値は点で表示され、残りのFOV部分は0で満たされる。ここで、FOVは出力された特徴マップの1ピクセル生成に影響を及ぼす入力特徴マップのピクセル領域を意味する。
【0065】
図3Aないし図3Cは多様なFOVを示したものであり、図3AはFOVが3×3である3×3コンボリューションフィルタであり、図3BはFOVのサイズが7×7である2−dilatedコンボリューションフィルタを示し、図3CはFOVのサイズは15×15である4−dilatedコンボリューションフィルタを示したものである。
【0066】
また、図3Dはコンボリューションとダイレーションコンボリューションの演算の例を示すが、図3Dの左側図面は演算対象となるトレーニングイメージまたは特徴マップのピクセル値を示し、中央の上部図面はコンボリューションフィルタ、そして中央の下部図面は2−dilatedコンボリューションフィルタを示したものである。前記コンボリューションフィルタとダイレーションコンボリューションフィルタは演算量は同一だが、2−ダイレーションコンボリューションのFOVがコンボリューションフィルタのFOVよりもさらに大きい。図3Dの右側図面のような3×3結果を得るために、一般的なコンボリューションを使用すると、図3D左側イメージのうち陰影表示された領域のFOVだけ参照(即ち、出力される特徴マップの1ピクセル生成時に陰影表示された領域に対応されるサイズのピクセルだけ演算)し、2−ダイレーションコンボリューションフィルタは図3D左側イメージの陰影表示領域だけでなく全体領域を参照し得る。即ち、同じ結果を得るために参照する領域が2−ダイレーションコンボリューションがさらに大きいという意味である。このように、ダイレーションコンボリューションフィルタはコンボリューションフィルタと比較して演算は同一である反面、さらに大きい領域を参照するようにし得るという特性がある。
【0067】
図4は本発明の一実施例による第2−K特徴マップを生成する過程を示す図面である。
【0068】
図4を参照すれば、第2−Kフィルタは第1−K特徴マップと第3−K特徴マップにデコンボリューション演算を遂行し得る。例えば、第2−K特徴マップは第3−K特徴マップに第1−K特徴マップを追加した後、デコンボリューション演算を遂行して第2−K特徴マップを獲得し得る。即ち、第2−Kフィルタは、第1−K特徴マップ及び第3−K特徴マップの特徴を結合してデコンボリューション演算を遂行した後、第2−K特徴マップを生成し得る。ここで、第1−K特徴マップと第3−K特徴マップの特徴を結合する動作は第1−K特徴マップ及び第3−K特徴マップの各々のピクセル値を合算する動作であり得るが、これに限定されるものではない。一方、場合によって第2−Kフィルタは第1−K特徴マップに対してデコンボリューション演算を遂行して中間特徴マップを生成した後、第3−K特徴マップと中間特徴マップを合算して第2−K特徴マップを生成し得る。
【0069】
図5は本発明の他の実施例による第2−K特徴マップを生成する過程を示す図面である。
【0070】
図5を参照すれば、第3−Kフィルタが第1−K特徴マップにダイレーションコンボリューション演算を遂行して第3−K特徴マップを生成し、第2−Kフィルタが第3−Kフィルタから出力された第3−K特徴マップにデコンボリューション演算を遂行して前記第2−K特徴マップを生成する。
【0071】
その後、第2−(K−1)フィルタは第2−Kフィルタから第2−K特徴マップを獲得し、第3−(K−1)フィルタから第3−(K−1)特徴マップを獲得し得る。そして、所定の演算を遂行して第2−(K−1)特徴マップを獲得し得る。参考までに、デコーディングレイヤにあるすべてのフィルタは前記手順によって第2−Kフィルタが第2−K特徴マップを生成し得る。
【0072】
ここで、第2−Kフィルタないし第2−1フィルタ各々の出力サイズは第2−Kフィルタないし第2−1フィルタ各々の入力サイズの2倍に増加される。また、第2−Kフィルタないし第2−1フィルタ各々の出力のチャネル数はデコンボリューション演算が適用されるたびに入力の1/2に減少される。
【0073】
例えば、第2−K特徴マップのサイズが20×15でチャネル数が128の場合、第2−(K−1)特徴マップのサイズは40×30であり、そのチャネル数は64である。同様に、第2−(K−2)特徴マップのサイズは80×60でそのチャネル数は32、第2−(K−3)特徴マップのサイズは160×120、チャネル数は16であり得る。
【0074】
そして、再び図2A及び図2Bを参照すれば、前記学習装置は第2−1特徴マップ(即ち、推定されたラベルイメージ)と原本正解ラベルイメージ値を比較してロスを算出するロスレイヤをさらに含む。前記推定されたラベルイメージは前記第2−1特徴マップを追加で処理することで獲得され得る。前記ロスレイヤはロスを算出し、算出されたロスはバックプロパゲーション過程を通じて伝達されて第2−1フィルタないし第2−Kフィルタ、第3−1フィルタないし第3−Kフィルタ及び第1−Kフィルタないし第1−1フィルタのうち少なくとも一つ以上のパラメータを調整し得る。
【0075】
図6A及び図6Bは本発明のまた他の実施例によるダイレーションコンボリューションを利用してイメージセグメンテーションを遂行する学習方法を示す図面である。
【0076】
図6A及び図6Bに示した学習方法では図2A及び図2Bに示した学習過程と同一の過程を経るが、中間レイヤのフィルタがすべてのエンコーディングレイヤ及びデコーディングレイヤの各フィルタ間に配置されて前記フィルタと連動されず、前記エンコーディングレイヤフィルタとデコーディングレイヤのフィルタのうち一部のフィルタとだけ連動される実施例による学習方法を示したものである。即ち、エンコーディングレイヤ及びデコーディングレイヤにあるフィルタと関連した中間レイヤのフィルタの数はKよりも小さくなり得る。
【0077】
図6A及び図6Bを参照すれば、中間レイヤはH個のフィルタ−Hは1よりも大きいか同じでKよりも小さな自然数−を含んで、前記第3−1ないし第3−Hフィルタのうち前記H個のフィルタは前記エンコーディングレイヤの前記第1−1ないし1−Kフィルタのうち一部であるH個のフィルタ及び前記デコーディングレイヤの前記第2−1ないし2−Kフィルタのうち一部であるH個のフィルタと連動する。ここで、エンコーディングレイヤの第1−1フィルタないし第1−Kフィルタのうち選択されたH個のフィルタは第1−1フィルタないし第1−Hフィルタとみなされ、デコーディングレイヤの第2−1フィルタないし第2−Kフィルタのうち選択されたH個のフィルタは第2−1フィルタないし第2−Hフィルタとみなされ得る。
【0078】
具体的に、前記第1−1フィルタないし前記第1−Hフィルタはエンコーディングレイヤの左側から右側に順次ナンバリングされる。また、第2−1フィルタないし第2−Hフィルタはデコーディングレイヤの左側から右側に順次ナンバリングされる。但し、K個のフィルタ各々のセットと比較して同一のナンバリングが同一のフィルタを指称しない場合もある。例えば、H個のフィルタのうち第2−2フィルタはK個のフィルタのうち第2−2フィルタと異なる場合もある。
【0079】
図6A及び図6Bでは学習装置が、前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを順次獲得するプロセスを遂行する場合、前記学習装置は、前記H個のデコーディングフィルタをもって前記第3−1ないし第3−H特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップにデコンボリューション演算を適用するようにし得る。また、前記学習装置は、前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタをもって前記(K−H)個デコーディングフィルタの各々の以前のデコーディングフィルタから獲得された特徴マップ各々にデコンボリューション演算を適用し得る。
【0080】
即ち、前記第1−1、前記第1−2、…、前記第1−K特徴マップのうち前記第3−1ないし前記第3−Hフィルタ各々と連動する特徴マップに対して前記第3−1ないし前記第3−Hフィルタを各々利用してエッジ情報を抽出することで前記第3−1ないし前記第3−H特徴マップを生成し得る。
【0081】
中間レイヤがすべてのエンコーディングレイヤフィルタとデコーディングレイヤフィルタ間に連結されずに一部にのみ連結される場合には、中間レイヤでの演算量が減りながらもエンコーディングレイヤの特徴マップのエッジ情報をデコーディング過程の中間で活用することができるため、学習効率やイメージテスト性能が維持されることができる効果がある。
【0082】
図2A及び図2Bないし図6A及び図6Bは本発明にかかるイメージセグメンテーションのための学習装置及び学習方法を説明した。かかる学習装置はバックプロパゲーション過程を通じて最適のパラメータ値を求めるようにされる。
【0083】
以下、イメージセグメンテーションを遂行するためのテスト装置(未図示)の構成を簡略に説明する。テスト装置は学習プロセスを通じて発見された前述した最適のパラメータを利用し、テストイメージに対するイメージセグメンテーションを遂行する。テスト装置は学習装置と同一の装置であり得るが、場合によって他の装置である場合がある。前で説明したことと同一または類似する構成要素または機能について重複説明は反復せず、そのような構成要素及び機能の詳細な説明は省略され得る。
【0084】
前記テスト装置はテストイメージとしての入力イメージに対するイメージセグメンテーションを遂行するテスト方法において、通信部(未図示)及びプロセッサ(未図示)を含んでおり、通信部は外部装置と通信するように構成され得る。
【0085】
特に、前で説明した学習装置が学習処理を完了し、エンコーディングレイヤ、中間レイヤ、デコーディングレイヤのうち少なくとも一つのフィルタの調整されたパラメータを獲得した状態で、通信部はテストイメージを獲得し得る。また、プロセッサは(I)前記エンコーディングレイヤを経て第1−1ないし第1−Kテスト用特徴マップを獲得するプロセス;(II)前記H個のエンコーディングフィルタの各々のテスト用出力を前記第3−1ないし前記第3−Hフィルタに入力することで、第3−1ないし第3−Hテスト用特徴マップを獲得するプロセス;(III)(i)前記H個デコーディングフィルタをもって前記第3−1ないし第3−Hテスト用特徴マップ及び前記各々のH個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにするか、(ii)前記第3−1ないし第3−Hフィルタに対応されない各々の(K−H)個のデコーディングフィルタの各々の以前のデコーディングフィルタから獲得されたテスト用特徴マップを使用するようにすることで、前記第2−K、前記第2−(K−1)、…、前記第2−1テスト用特徴マップを順次獲得するプロセスを遂行し得る。
【0086】
ここで、テスト用のすべての特徴マップはテスト装置のエンコーディングレイヤ、中間レイヤ、デコーディングレイヤの各フィルタによって遂行される一連の動作を通じてテストイメージから誘導された特徴マップを指称し得る。
【0087】
一方、イメージセグメンテーションを遂行するためのテスト装置を利用したテスト方法はバックプロパゲーション過程を遂行しない場合もある。また、イメージセグメンテーションを遂行するためのテスト方法は学習プロセスを通じて獲得された最適のパラメータを利用し得る。
【0088】
本発明の技術分野の通常の技術者に理解され得ることとして、上で説明されたイメージ、例えば、トレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によって構成され得て、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/またはメモリ)によって保有/維持され得て、コンボリューション演算、デコンボリューション演算、ロス値演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明はこれに限定されるものではない。
【0089】
以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
【0090】
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
【0091】
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。
図1
図2A
図2B
図3A
図3B
図3C
図3D
図4
図5
図6A
図6B