特許第6720264号(P6720264)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ストラッドビジョンの特許一覧

特許6720264イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
<>
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000014
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000015
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000016
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000017
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000018
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000019
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000020
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000021
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000022
  • 特許6720264-イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6720264
(24)【登録日】2020年6月19日
(45)【発行日】2020年7月8日
(54)【発明の名称】イメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20200629BHJP
   G06N 3/08 20060101ALI20200629BHJP
【FI】
   G06T7/00 350C
   G06N3/08 140
【請求項の数】26
【外国語出願】
【全頁数】30
(21)【出願番号】特願2018-188342(P2018-188342)
(22)【出願日】2018年10月3日
(65)【公開番号】特開2019-67403(P2019-67403A)
(43)【公開日】2019年4月25日
【審査請求日】2018年11月2日
(31)【優先権主張番号】15/723,597
(32)【優先日】2017年10月3日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】517038176
【氏名又は名称】株式会社ストラドビジョン
(74)【代理人】
【識別番号】110001737
【氏名又は名称】特許業務法人スズエ国際特許事務所
(72)【発明者】
【氏名】キム、ヨンジョン
(72)【発明者】
【氏名】ナム、ウンユン
(72)【発明者】
【氏名】ボ、シュクフン
(72)【発明者】
【氏名】シュン、ミュンチュル
(72)【発明者】
【氏名】エオ、ドンフン
(72)【発明者】
【氏名】リュウ、ウージュ
(72)【発明者】
【氏名】ジャン、タエウォン
(72)【発明者】
【氏名】ジョン、キュンジョン
(72)【発明者】
【氏名】ジェ、ホンモ
(72)【発明者】
【氏名】チョ、ホジン
【審査官】 松浦 功
(56)【参考文献】
【文献】 国際公開第2017/091833(WO,A1)
【文献】 特表2017−516197(JP,A)
【文献】 国際公開第2017/079529(WO,A1)
【文献】 薮崎隼人 外5名,畳み込みニューラルネットワークを用いた脂肪細胞セグメンテーションにおける分割精度改善手法の提案,情報処理学会研究報告,情報処理学会,2017年 2月28日,Vol. 2017-MPS-112, No. 27,pp. 1-6
【文献】 ISOLA, P. et al.,Image-to-Image Translation with Conditional Adversarial Networks,2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) [online],IEEE,2017年 7月,pp. 5967-5976,[検索日 2019.11.11],インターネット,URL,https://ieeexplore.ieee.org/document/8100115
【文献】 WANG, W. et al.,Self-Paced Cross-Modality Transfer Learning for Efficient Road Segmentation,2017 IEEE International Conference on Robotics and Automation (ICRA) [online],IEEE,2017年 6月,pp. 1394-1401,[検索日 2019.11.11],インターネット,URL,https://ieeexplore.ieee.org/document/7989166
【文献】 ZHU, Q. et al.,Deeply-Supervised CNN for Prostate Segmentation,2017 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN) [online],IEEE,2017年 5月,pp. 178-184,[検索日 2019.11.11],インターネット,URL,https://ieeexplore.ieee.org/document/7965852
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 − 7/90
G06N 3/02 − 3/08
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用してイメージのセグメンテーションの性能向上のための学習方法において、
(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし前記第Hロスレイヤから獲得するプロセスを遂行する段階;及び
(b)前記学習装置は、バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(2)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数である−を遂行する段階を含むが、
前記(b)段階の初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを特徴とする学習方法。
【請求項2】
前記第1ないし前記第Hロスレイヤは、
第3−1ないし第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする請求項1に記載の学習方法。
【請求項3】
前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、前記第2、…、前記第H正解ラベルイメージのチャネルの数と同一になるようにし、前記1ないし前記第H正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする請求項2に記載の学習方法。
【請求項4】
原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように前記原本正解ラベルイメージのサイズを変更することで、前記第1ないし前記第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項3に記載の学習方法。
【請求項5】
前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする請求項4に記載の学習方法。
【請求項6】
前記原本正解ラベルイメージを前記H個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし前記第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項4に記載の学習方法。
【請求項7】
tが1以上H以下の整数である場合、
前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないしtロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
前記学習装置は、前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち(t+1)ないし前記第Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
tがHと同一の整数である場合、
前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないし前記第Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする請求項4に記載の学習方法。
【請求項8】
前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする請求項7に記載の学習方法。
【請求項9】
前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、前記第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、
前記学習装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、前記第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、前記第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項1に記載の学習方法。
【請求項10】
4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
前記学習装置は、前記第1−1、前記第1−2、…、前記第1−K特徴マップ各々に前記第4−1、前記第4−2、…、前記第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、4−K特徴マップを獲得するプロセス、及び前記第4−1、前記第4−2、…、前記第4−K特徴マップ各々を前記第2−1、前記第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項9に記載の学習方法。
【請求項11】
入力イメージとしてのテストイメージに対するセグメンテーションを遂行するテスト方法において、(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし前記第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、前記(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;及び
(b)前記テスト装置は、前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行する段階
を含むテスト方法。
【請求項12】
前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、前記第1−2、…、前記第1−K学習用特徴マップのうち少なくとも一部が入力されるようにして、
前記テスト装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、前記第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、前記第2−2、…、前記第2−K学習用特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項11に記載のテスト方法。
【請求項13】
4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
前記テスト装置は、前記第1−1、前記第1−2、…、前記第1−K学習用特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、4−K学習用特徴マップを獲得するプロセス、及び前記第4−1、前記第4−2、…、前記第4−K学習用特徴マップ各々を前記第2−1、前記第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行する
ことを特徴とする請求項12に記載のテスト方法。
【請求項14】
(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用するが、イメージのセグメンテーションの性能向上のための学習装置において、
前記入力イメージを受信する通信部;及び
(I)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし前記第Hロスレイヤから獲得するプロセス;及び(II)バックプロパゲーション過程で(i)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(ii)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを2−(M+1)フィルタに伝達するプロセス、(iii)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサを含むが、
前記Mは2以上K−1以下の整数であり、前記(II)プロセスの初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを遂行するプロセッサ;
を含む学習装置。
【請求項15】
前記第1ないし前記第Hロスレイヤは、第3−1ないし3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする請求項14に記載の学習装置。
【請求項16】
前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、前記第2、…、前記H正解ラベルイメージのチャネルの数と同一になるようにし、
前記1ないし前記第H正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする請求項15に記載の学習装置。
【請求項17】
原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように前記原本正解ラベルイメージのサイズを変更することで、前記第1ないし前記第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項16に記載の学習装置。
【請求項18】
前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする請求項17に記載の学習装置。
【請求項19】
前記原本正解ラベルイメージを前記H個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし前記第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする請求項17に記載の学習装置。
【請求項20】
tが1以上H以下の整数である場合、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないしtロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち(t+1)ないし前記第Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、
tがHと同一の整数である場合、
前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないし前記Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする請求項17に記載の学習装置。
【請求項21】
前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする請求項20に記載の学習装置。
【請求項22】
前記プロセッサは、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、前記第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、
少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、前記第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、前記第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項14に記載の学習装置。
【請求項23】
4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
前記プロセッサは、前記第1−1、前記第1−2、…、前記第1−K特徴マップ各々に前記第4−1、前記第4−2、…、前記第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、4−K特徴マップを獲得するプロセス、及び前記第4−1、前記第4−2、…、前記第4−K特徴マップ各々を前記第2−1、前記第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項22に記載の学習装置。
【請求項24】
入力イメージとしてのテストイメージに対するセグメンテーションを遂行するテスト装置において、
(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし前記第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、前記(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第1学習用パラメータ調整用特徴マップを求めた後、前記第2−フィルタは前記第1学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、前記テストイメージを受信する通信部;及び
前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行するプロセッサ;
を含むテスト装置。
【請求項25】
中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、前記第1−2、…、前記第1−K学習用特徴マップのうち少なくとも一部が入力されるようにして、
少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、前記第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、前記第2−2、…、前記第2−K学習用特徴マップの少なくとも一部を獲得するようにすることを特徴とする請求項24に記載のテスト装置。
【請求項26】
4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、
前記第1−1、前記第1−2、…、前記第1−K学習用特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、4−K学習用特徴マップを獲得するプロセス、及び前記第4−1、前記第4−2、…、前記第4−K学習用特徴マップ各々を前記第2−1、前記第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする請求項25に記載のテスト装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はイメージセグメンテーションのための学習方法及び学習装置、そしてこれを利用したイメージセグメンテーション方法及びイメージセグメンテーション装置に関する。より詳細には、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用してイメージのセグメンテーションの性能向上のための学習方法において、(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセスを遂行する段階;及び(b)前記学習装置は、バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(2)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数である−を遂行する段階を含むが、前記(b)段階の初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを特徴とする段階;を含む学習方法及びこれを利用した学習装置、イメージセグメンテーション方法及びイメージセグメンテーション装置に関する。
【背景技術】
【0002】
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;Deep CNNs)はディープラーニング分野で起きた驚くべき発展の核心である。CNNsは文字認識問題を解くために90年代に既に使用されていたが、現在のように広く使用されるようになったのは最近の研究結果のおかげである。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そうして、コンボリューションニューラルネットワークはMachine Learning分野で非常に有用なツールとなった。
【0003】
一方、イメージセグメンテーションは入力でイメージ(トレーニングイメージorテストイメージ)を受け、出力でラベル(label)イメージを作り出す方法である。最近ディープラーニング(Deep learning)技術が脚光を浴びながら、セグメンテーションもディープラーニングを多く使用する趨勢である。
【0004】
図1は従来技術にかかるCNNを用いてイメージセグメンテーションのための学習過程を概略的に示す図面である。
【0005】
図1を参照すれば、トレーニングイメージなどの入力イメージが入力されると複数個のコンボリューションフィルタで複数回のコンボリューション演算を遂行して特徴マップを獲得する。そうして最終的に生成された特徴マップを再び複数個のデコンボリューションフィルタで複数回のデコンボリューション演算を遂行してラベルイメージを獲得する。このようにコンボリューション演算で入力イメージをエンコーディングして特徴マップを獲得し、特徴マップをデコーディングして再びラベルイメージを獲得する構造をエンコーディング−デコーディングネットワーク、またはU−Netと言う。エンコーディング過程で各コンボリューション演算を遂行するたびに入力イメージのサイズが1/2に減るようになるが、これはイメージサイズを減らして演算量を減らそうとするためである。また、エンコーディング過程でコンボリューションフィルタを通じて入力されたイメージのチャネル数は増加するが、これは減った演算量の利得を活用しながらも増えたチャネルを通じて複雑なパターンを得るためである。一般的に、エンコーディング過程で各々のコンボリューションフィルタを経るたびにイメージサイズは1/2に減り、チャネル数は2倍に増える。このように減った特徴マップは高周波領域が多く除去されて低周波領域寄りの情報を有するようになるが、かかる低周波領域はイメージの意味のある(meaningful)部分、即ち、空、道路、建物、自動車など詳細な部分を意味する。かかる意味のあるパートをデコンボリューション演算、即ち、デコーディング演算を通じてラベルイメージとして類推するようになる。
【0006】
一方、Deep learningを採択したCNNの学習する過程で、トレーニングイメージから算出されたラベルイメージとGround Truthイメージ(またはGround Truth label image)との差であるロスを計算し、ラベルイメージを求める過程と反対方向に伝搬するバックプロパゲーション過程を通じて前記計算されたロスを後ろに伝搬して学習をするようになる。しかし、かかる演算はロスが後ろに伝搬するほどロスが小さくなり、U−Netで各フィルタのパラメータを調整するには小さすぎるという問題点がある。
【0007】
従って、かかる問題を解決するためにU−netの最終段階で求めたロスがバックプロパゲーション過程で後ろに伝搬されても正確なロスを反映可能にするための新しい技術が要されるようになった。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明はイメージセグメンテーションのための学習過程でロスがバックプロパゲーション過程で小さくならないようにするための学習環境を提供することを目的とする。
【0009】
また、本発明はバックプロパゲーション過程で正確なロスを反映して最適のパラメータを見つけることができる学習環境を提供することを目的とする。
【0010】
また、本発明は最適のパラメータを見つけて正確なイメージセグメンテーションを遂行することができる方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明の一実施例によれば、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用してイメージのセグメンテーションの性能向上のための学習方法は、(a)前記入力イメージが入力されると、前記学習装置は、前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセスを遂行する段階;及び(b)前記学習装置は、バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(2)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数である−を遂行する段階を含むが、前記(b)段階の初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを特徴とする学習方法が提供される。
【0012】
前記一実施例によれば、前記第1ないし前記第Hロスレイヤは第3−1ないし第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする学習方法が提供される。
【0013】
また、前記一実施例によれば、前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、第2、…、前記Hの正解ラベルイメージのチャネルの数と同一になるようにし、前記1ないしH正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする学習方法が提供される。
【0014】
また、前記一実施例によれば、原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように原本正解ラベルイメージのサイズを変更することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする学習方法が提供される。
【0015】
また、前記一実施例によれば、前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする学習方法が提供される。
【0016】
また、前記一実施例によれば、前記原本正解ラベルイメージをH個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする学習方法が提供される。
【0017】
また、前記一実施例によれば、tが1以上H以下の整数である場合、前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないしtロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、前記学習装置は、前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち(t+1)ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、tがHと同一の整数である場合、前記学習装置は、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち第1ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする学習方法が提供される。
【0018】
また、前記一実施例によれば、前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする学習方法が提供される。
【0019】
また、前記一実施例によれば、前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、前記学習装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにする学習方法が提供される。
【0020】
また、前記一実施例によれば、前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、前記学習装置は、前記第1−1、第1−2、…、前記第1−K特徴マップ各々に第4−1、第4−2、…、第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする学習方法が提供される。
【0021】
本発明の他の実施例によれば、入力イメージとしてのテストイメージに対するセグメンテーション方法は、(a)(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−2フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、テスト装置が、前記テストイメージを獲得する段階;及び(b)前記テスト装置は、前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行する段階を含むセグメンテーション方法が提供される。
【0022】
前記他の実施例によれば、前記学習装置は、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、前記テスト装置は、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする学習方法が提供される。
【0023】
また、前記他の実施例によれば、前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、前記テスト装置は、前記第1−1、第1−2、…、前記第1−K特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする学習方法が提供される。
【0024】
本発明のまた他の実施例によれば、(i)トレーニングイメージとしての入力イメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用するが、イメージのセグメンテーションの性能向上のための学習装置において、前記入力イメージを受信する通信部;及び(I)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1特徴マップのうち前記H個のフィルタから獲得されたH個の特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(II)バックプロパゲーション過程で(i)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1パラメータ臨時特徴マップを求めるプロセス、(ii)前記第M1パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(iii)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのうち少なくとも一部のパラメータを調整するプロセスを遂行するプロセッサを含むが、前記Mは2以上K−1以下の整数であり、前記(II)プロセスの初期状態として、前記第1ロスレイヤは前記第2−1特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12パラメータ調整用特徴マップを求めた後、前記第2−1フィルタは前記第12パラメータ調整用特徴マップを第2−2フィルタに伝達することを遂行するプロセッサ;を含む学習装置が提供される。
【0025】
前記また他の実施例によれば、前記第1ないし前記第Hロスレイヤは、第3−1ないし前記第3−Hフィルタがコンボリューション演算を遂行して獲得された第3−1、第3−2、…、第3−H特徴マップと第1、第2、…、第H正解ラベルイメージを比較して前記第1ないし前記第Hロスを算出することを特徴とする学習装置が提供される。
【0026】
また、前記また他の実施例によれば、前記3−1ないし前記3−Hフィルタは前記フィルタのサイズが1×1であり、前記H個の特徴マップ各々に対してコンボリューション演算を遂行し、前記第3−1、前記第3−2、…、前記第3−H特徴マップの各チャネルの数が前記第1、第2、…、前記H正解ラベルイメージのチャネルの数と同一になるようにし、前記1ないしH正解ラベルイメージは前記第3−1、前記第3−2、…、前記第3−H特徴マップに対応されるサイズを有することを特徴とする学習装置が提供される。
【0027】
また、前記また他の実施例によれば、原本正解ラベルイメージ(Original Ground Truth label image)の各チャネルの数を調整して前記原本正解ラベルイメージのサイズにマッチされるように原本正解ラベルイメージのサイズを変更することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする学習装置が提供される。
【0028】
また、前記また他の実施例によれば、前記原本正解ラベルイメージのチャネルの数を増やし、前記原本正解ラベルイメージのサイズ−(i)前記原本正解ラベルイメージのサイズ及び(ii)前記H個の特徴マップのイメージのサイズ各々の比率−を減らすことで、前記原本正解ラベルイメージが調整されることを特徴とする学習装置が提供される。
【0029】
また、前記また他の実施例によれば、前記原本正解ラベルイメージをH個の特徴マップのサイズと一致させるために前記各々の原本正解ラベルイメージをリサイズ(resize)することで、前記第1ないし第H正解ラベルイメージのうち少なくとも一部が獲得されたことを特徴とする学習装置が提供される。
【0030】
また、前記また他の実施例によれば、tが1以上H以下の整数である場合、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち前記第1ないしtロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、前記各々の原本正解ラベルイメージをリサイズすることで、前記H個のロスレイヤのうち(t+1)ないしHロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにして、tがHと同一の整数である場合、前記原本正解ラベルイメージのチャネル数を各々調整することで、前記H個のロスレイヤのうち第1ないし前記Hロスレイヤをもって前記原本正解ラベルイメージのサイズを各々変更するようにすることを特徴とする学習装置が提供される。
【0031】
また、前記また他の実施例によれば、前記原本正解ラベルイメージをリサイズすることは、前記原本正解ラベルイメージのチャネル数を維持したまま前記原本正解ラベルイメージをリサイズすることを特徴とする学習装置が提供される。
【0032】
また、前記また他の実施例によれば、前記プロセッサは、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々と対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とする学習装置が提供される。
【0033】
また、前記また他の実施例によれば、前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、前記プロセッサは、前記第1−1、第1−2、…、前記第1−K特徴マップ各々に第4−1、第4−2、…、第4−Kフィルタを用いたダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とする学習装置が提供される。
【0034】
本発明のまた他の実施例によれば、入力イメージとしてのテストイメージに対するセグメンテーションを遂行するセグメンテーション装置は、(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−2フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、前記テストイメージを受信する通信部;及び前記獲得されたテストイメージに対して、前記学習された第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用してテスト用セグメンテーションを遂行するプロセッサ;を含むテスト装置が提供される。
【0035】
前記また他の実施例によれば、中間レイヤ−前記中間レイヤはエンコーディングレイヤとデコーディングレイヤとの間に位置する−に含まれる中間フィルタ各々に対応される前記第1−1、第1−2、…、前記第1−K特徴マップのうち少なくとも一部が入力されるようにして、少なくとも一つの中間フィルタから獲得された特定特徴マップを追加で使用することで、各々の前記第2−1、第2−2、…、前記第2−Kフィルタのうち少なくとも一部をもって前記第2−1、第2−2、…、前記第2−K特徴マップの少なくとも一部を獲得するようにすることを特徴とするテスト装置が提供される。
【0036】
また、前記また他の実施例によれば、前記第4−1、第4−2、…、第4−Kフィルタを含む中間フィルタが少なくとも一度のダイレーションコンボリューションを遂行する場合、前記第1−1、第1−2、…、前記第1−K特徴マップ各々にダイレーションコンボリューションを遂行して第4−1、第4−2、…、前記第4−K特徴マップを獲得するプロセス、及び前記第4−1、第4−2、…、前記第4−K特徴マップ各々を前記第2−1、第2−2、…、前記第2−Kフィルタに伝達するプロセスを遂行することを特徴とするテスト装置が提供される。
【発明の効果】
【0037】
本発明によれば、デコーディングレイヤの各フィルタ毎にロスを計算する別途のレイヤを連結して各フィルタでのロスを補正することができる効果がある。
【0038】
また本発明によれば、ロスがバックプロパゲーション過程で後ろに伝達されてもロスのサイズが小さくならないため、正確なロスを反映することができる効果がある。
【0039】
また本発明によれば、正確なロスを反映して最適のパラメータを見つけることができる学習環境を提供することができる効果がある。
【0040】
また本発明によれば、最適のパラメータを通じて正確なイメージセグメンテーションを遂行し得るイメージテスト環境を提供することができる。
【図面の簡単な説明】
【0041】
図1図1は、従来技術にかかるCNNを使用してイメージセグメンテーションを遂行する学習過程を概略的に示す図面である。
図2A図2Aは、本発明の一実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
図2B図2Bは、本発明の一実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
図3図3は、本発明の一実施例にかかる第1ロスを獲得する過程を示す図面である。
図4図4は、本発明の一実施例にかかる調整用特徴マップを獲得する過程を示す図面である。
図5図5は、正解ラベルイメージのチャネル数を調整して正解ラベルイメージのサイズを変更する方法を示す参考図である。
図6A図6Aは、本発明の他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
図6B図6Bは、本発明の他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
図7A図7Aは、本発明のまた他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
図7B図7Bは、本発明のまた他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
【発明を実施するための形態】
【0042】
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は当業者が本発明を実施することができるように充分詳細に説明される。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。
【0043】
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
【0044】
図2A及び図2Bは本発明の一実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
【0045】
本発明にかかるCNNモデルを利用したイメージセグメンテーションのための学習装置(未図示)は通信部(未図示)とプロセッサ(未図示)が含まれ得る。具体的に、通信部は入力イメージとしてトレーニングイメージを受信し得て、プロセッサは入力イメージから特徴ベクタを抽出し、これを再びデコーディングしてラベルイメージを獲得するイメージセグメンテーションプロセス及びロスを利用してバックプロパゲーション過程を遂行することでパラメータを最適化するプロセスを遂行し得る。
【0046】
また、本発明にかかる学習装置はK個フィルタ(第1−1フィルタないし第1−Kフィルタ)を含むエンコーディングレイヤとこれに対応されるK個のフィルタ(第2−1ないし第2−Kフィルタ)を含むデコーディングレイヤ、そしてデコーディングレイヤの第2−1フィルタないし第2−Kフィルタと連動する第1ないし第Kロスレイヤを含む。
【0047】
図2A及び図2Bを参照すれば、本発明にかかるロスレイヤを利用したイメージセグメンテーション学習方法は、学習装置の通信部が入力イメージとしてトレーニングイメージを入力されてエンコーディングレイヤの第1−1フィルタに入力してから始まる。前記エンコーディングレイヤの第1−1ないし第1−Kフィルタは入力されたイメージの特徴マップ(エンコーディングされた特徴マップ)を求めるためにコンボリューション演算を遂行する。
【0048】
前記第1−1ないし第1−Kフィルタは各フィルタのカーネルを入力イメージまたは特徴マップ上でスライドして通過させながら各位置毎のカーネルの元素とオーバーラップされる入力元素を掛け、かかる積を合せて現在位置の出力値で生成するコンボリューション演算を遂行し、ダウンサイズされた特徴マップを生成する。
【0049】
具体的に、図2A及び図2Bで第1−1フィルタは入力イメージを入力されてコンボリューション演算して第1−1特徴マップを生成して出力し、第1−2フィルタは前記第1−1特徴マップを入力されてコンボリューション演算して第1−2特徴マップを生成し、第1−3フィルタは前記第1−2特徴マップを入力されてコンボリューション演算して第1−3特徴マップを生成し、…、第1−(K−2)フィルタは第1−(K−3)特徴マップを入力されてコンボリューション演算して第1−(K−2)特徴マップを生成し、第1−(K−1)フィルタは前記第1−(K−2)特徴マップを入力されてコンボリューション演算して第1−(K−1)特徴マップを生成し、第1−Kフィルタは前記第1−(K−1)特徴マップを入力されてコンボリューション演算して第1−K特徴マップを生成する。
【0050】
この時、第1−1ないし1−Kフィルタでコンボリューション演算を遂行するたびに入力イメージのサイズは1/2に減る。これはイメージサイズを減らして演算量を減らすためである。一方、コンボリューション演算を通じて特徴マップのチャネル数は増加されるところ、例えば第1−2ないし1−Kフィルタでは入力される特徴マップのチャネルを2倍増加させて出力し得る。
【0051】
例えば、第1−1特徴マップがサイズが320×240であり、チャネル数が8なら、(i)第1−2特徴マップはサイズが160×120、チャネル数は16、(ii)第1−3特徴マップはサイズが80×60、チャネル数は32であり得る。
【0052】
以後、再び図2A及び図2Bを参照すれば、第1−K特徴マップ(即ち、特徴ベクタ)はデコーディングレイヤに入力されてラベルイメージを生成するのに利用される。前記デコーディングレイヤの第2−Kないし第2−1フィルタはラベルイメージを求めるためにデコンボリューション演算を遂行する。
【0053】
前記第2−Kないし第2−1フィルタは前記第1−1フィルタないし前記第1−Kフィルタのコンボリューション演算方向の反対方向に入力されたイメージに対してデコンボリューションを遂行して順次特徴マップのサイズを大きくしながらチャネルを減らすようにして、特徴チャネルを減らしていく演算をする。デコーディングレイヤはエンコーディングレイヤで求めたイメージのエッジを維持しながら残りは潰す機能を遂行して最終的にラベルイメージを生成する。
【0054】
図2A及び図2Bで、第2−Kフィルタは第1−K特徴マップを入力されてデコンボリューション演算して第2−K特徴マップを生成して出力し、第2−(K−1)フィルタは前記第2−K特徴マップを入力されてデコンボリューション演算して第2−(K−1)特徴マップを生成して出力し、第2−(K−2)フィルタは前記第2−(K−1)特徴マップを入力されてデコンボリューション演算して第2−(K−2)特徴マップを生成して出力し、…、第2−3フィルタは第2−4特徴マップを入力されてデコンボリューション演算して第2−3特徴マップを生成して出力し、第2−2フィルタは前記第2−3特徴マップを入力されてデコンボリューション演算して第2−2特徴マップを生成して出力し、第2−1フィルタは前記第2−2特徴マップを入力されてデコンボリューション演算して第2−1特徴マップを生成して出力する。
【0055】
この時、第2−1ないし第2−Kフィルタでデコンボリューション演算を遂行するたびに特徴マップのサイズは2倍増加させながら、チャネルは1/2に減少させて特徴マップを生成する。
【0056】
例えば、第2−K特徴マップのサイズが20×15、そのチャネル数が128なら、第2−(K−1)特徴マップはサイズが40×30であり、チャネル数は64であり、第2−(K−2)特徴マップはサイズが80×60、チャネル数は32、第2−(K−3)特徴マップはサイズが160×120、チャネル数は16であり得る。
【0057】
これによって、第1−(K−1)特徴マップと第2−K特徴マップのサイズとチャネル数は同一であり、(第1−K特徴マップは、第1−(K−1)特徴マップ及び第2−K特徴マップと比較してサイズは1/2、チャネルは2倍である)、第1−(K−2)特徴マップと第2−(K−1)特徴マップのサイズとチャネル数は同一であり、第1−(K−3)特徴マップと第2−(K−2)特徴マップのサイズとチャネル数は同一であり、…、第1−2特徴マップと第2−3特徴マップのサイズとチャネル数は同一であり、第1−1特徴マップと第2−2特徴マップのサイズとチャネル数は同一であり、入力イメージ(即ちトレーニングイメージ)と第2−1特徴マップ(またはラベルイメージ)のサイズは同一である。
【0058】
そして、再び図2A及び図2Bを参照すれば、デコーディングレイヤの第2−1ないし2−Kフィルタは対応される第1ないし第Kロスレイヤと連動する。前記第1ないし第KロスレイヤはGTラベルイメージとデコーディングレイヤで生成した第2−1ないし2−K特徴マップとを参照してロス(即ち、第1ロスないし第Kロス)を計算して対応する第2−1フィルタないし第2−Kフィルタに伝達する。一方、前記第1ないし第Kロスレイヤと前記第2−1フィルタないし第2−Kフィルタとの間にはチャネル変換のための1×1サイズのコンボリューションフィルタである第3−1ないし第3−Kフィルタ(未図示)が含まれ得る。
【0059】
第2−1フィルタないし第2−Kフィルタは、バックプロパゲーション過程で、第1ないし第Kロスレイヤで計算したロス値を利用して、臨時特徴マップを生成してロスイメージから調整用特徴マップを生成する。勿論、バックプロパゲーション過程中にU−Netを遡って複数の臨時特徴マップと複数の調整用特徴マップを生成することになり、これについては後で詳細に説明する。
【0060】
前記学習装置は、前記バックプロパゲーションを通じて第1−1ないし第1−Kフィルタ及び第2−Kないし第2−1フィルタのパラメータのうち少なくとも一つ以上のパラメータを調整して前記第1ロス値を最小化するようにする。即ち、かかるバックプロパゲーション過程を通じて最適のパラメータ値を算出することができるようになる。
【0061】
一方、図2A及び図2Bで、第1−Kフィルタを通じて形成された第1−K特徴マップは入力イメージ内で意味のあるセグメントユニットを示す意味情報を含むため、最も重要な特徴マップである。また、第1−K特徴マップはすべての特徴マップのうち最も小さいサイズの特徴マップである。従って、第1−K特徴マップはデコーディングレイヤを通じて獲得されるラベルイメージを推定するのに重要な影響を与える。万一、第1−K特徴マップに含まれた意味情報が正確でなく、意味のある基本単位を誤って表示すると、デコーディングを経たラベルイメージ推定に大きな影響を与えるようになる。
【0062】
従来の技術によれば、U−Netの最終フィルタである第2−1フィルタにのみ連結してロスを後ろに伝搬するバックプロパゲーション過程を遂行すれば、ロスが最も小さい特徴ベクタまできた時に前記ロスのサイズが小さくなりすぎて正確なロスを反映し難い場合がある。
【0063】
従って、本発明ではデコーディングレイヤの各フィルタ毎にロスレイヤを連結して各々の特徴マップに対するロスを計算して、パラメータを調整するのに使用される臨時特徴マップ及び調整された特徴マップを生成する。かかる方法を使用すればバックプロパゲーション過程時、最も小さい特徴ベクタまできた時にロスのサイズが小さくなりすぎる現象を防止することができる。
【0064】
また、図2A及び図2Bで、各ロスレイヤは各々のロス値を計算する。デコーディングレイヤにある各フィルタは伝達された前のフィルタから得た各々の調整用特徴マップをコンボリューション演算した後、各々の臨時特徴マップを生成し得る。そして、デコーディングレイヤにある各フィルタは各々のロスレイヤ及び各々の臨時特徴マップを利用して各々の調整された特徴マップを新しく出力し、これをこれに対応する各々の次のフィルタに伝達し得る。
【0065】
図3は本発明の一実施例による第1ロスを獲得する過程を示す図面である。
【0066】
参考までに、前記第2−1特徴マップは推定ラベルイメージの場合もあり、前記第2−1特徴マップに所定の演算(未図示)を適用して推定ラベルイメージを生成する場合もある。但し、図面では前記第2−1特徴マップが推定ラベルイメージと想定して、前記第2−1特徴マップが第1ロスレイヤに伝達されるものとして示し、前記第1ロスレイヤは前記第2−1特徴マップと正解ラベルイメージ(GTラベルイメージ)の差を参照して第1ロスを生成する。
【0067】
前記正解ラベルイメージと推定ラベルイメージの差からロスを計算する関数は多様に存在するが、一般的に下の数式のようなEuclidian loss layerを通じて2個の入力から入力の差の二乗を合算して計算する。
【0068】
【数1】
【0069】
このように計算された第1ロス(E_1)は前記第2−1フィルタに伝達され、第2−1フィルタは第1ロス(E_1)にコンボリューション演算を遂行して第12パラメータ調整用特徴マップ(D_1)を生成する。
【0070】
前記第12パラメータ調整用特徴マップ(D_1)を求める数式は下記のとおりである。
【0071】
【数2】

ここで、
【数2-1】

はコンボリューション演算であり、D_1は第12パラメータ調整用特徴マップであり、E_1は第1ロス、W(2-1)は第2−1フィルタのフィルタ重み付け値である。
【0072】
もし第12パラメータ調整用特徴マップ(D_1)を求める時に第2−1フィルタと第1ロスレイヤの間に第1ロスレイヤ対応コンボリューションフィルタの重み付け値まで含んで演算する場合には、下の数式で表現され得る。
【0073】
【数3】

ここで、W(3-1)は第1ロスレイヤ対応コンボリューションフィルタのフィルタ重み付け値であり、W(3-1)は第3−1フィルタのフィルタ重み付け値である。D_1を生成するのにどの数式を使用するかに関係なく、前記生成された第12パラメータ調整用特徴マップ(D_1)は第2−2フィルタに伝達される。
【0074】
ここで、プロセスの初期状態として、第12臨時特徴マップの非存在(存在しない)は、前のいずれのフィルタも調整された特徴マップを第2−1フィルタに伝達することができないという事実によって説明され得る。従って、前記第2−1フィルタは第1ロスレイヤで1次ロスのみを受信して、1次ロスにコンボリューション演算を適用して第12調整された特徴マップを獲得し得る。
【0075】
図4は本発明の一実施例による調整用特徴マップを獲得する過程を示す図面である。
【0076】
図4を参照すれば、バックプロパゲーション過程で第2−Mフィルタは第2−(M−1)フィルタから第(M−1)2パラメータ調整用特徴マップを伝達され得る。そして、MロスレイヤはGTラベルイメージと第2−M特徴マップの差を識別することで、第Mロスを計算する。前記計算された第Mロスは2−Mフィルタに伝達され得る。
【0077】
かかるロス計算は上述したようにEuclidian loss layerを利用して2個の入力から入力の差の二乗を合算して計算する場合もあり、多様な公知の計算法を利用する場合もある。そして、このように求めた第Mロスは再び第2−Mフィルタに伝達される。そして、この場合に前記ロスレイヤに対応されるコンボリューションフィルタのフィルタ重み付け値で前記ロスをコンボリューション演算して前記2−Mフィルタに伝達する場合もある。
【0078】
バックプロパゲーション過程で、第2−Mフィルタは第2−(M−1)フィルタから受信した第(M−1)2調整用特徴マップ(D_(M−1))に第2−Mフィルタのフィルタ重み付け値、即ちパラメータを利用してコンボリューション演算を遂行し、第M臨時特徴マップ
【数3-1】

を生成する。そして、第2−Mフィルタは前記第M1臨時特徴マップ
【数3-2】

に第Mロスを合せて第M2調整用特徴マップ(D_M)を生成する。そして、前記第M2調整用特徴マップ(D_M)は第2−(M+1)フィルタでバックプロパゲーションされる。
【0079】
このように第2−Mフィルタで第M2調整用特徴マップ(D_M)を求める演算過程は下記の数式で表現され得る。
【0080】
【数4】
【0081】
この時、
【数4-1】

はコンボリューション演算であり、
【数4-2】

は第M1臨時特徴マップであり、D_(M−1)、D_Mは各々第(M−1)2調整用特徴マップ及び第M2調整用特徴マップであり、WMは第2−Mフィルタのフィルタ重み付け値、即ちパラメータであり、E_Mは第Mロスである。
【0082】
一方、E_M値が第Mロスレイヤに対応されるコンボリューションフィルタのフィルタ重み付け値でコンボリューション演算した後、第2−Mフィルタに伝達される場合、前記第2−Mフィルタで第M2調整用特徴マップ(D_M)を求める演算過程は下記の数式で表現され得る。
【0083】
【数5】
【0084】
この時、
【数5-1】

はコンボリューション演算であり、
【数5-2】

は第M1臨時特徴マップであり、D_(M−1)、D_Mは各々第(M−1)2調整用特徴マップ及び第M2調整用特徴マップであり、WMは第2−Mフィルタのフィルタ重み付け値、即ちパラメータであり、E_Mは第Mロス、W(3-M)は第Mロスレイヤに対応するコンボリューションフィルタのフィルタ重み付け値、即ちパラメータである。
【0085】
具体的に、第2−M特徴マップから獲得した推定ラベルイメージ及び原本正解ラベルイメージとの間のロスを第Mロスレイヤで計算する時、原本正解ラベルイメージと第2−M特徴マップから獲得した推定ラベルイメージの間のチャネルの数及びサイズの差によってロスが直接計算されない場合がある。
【0086】
従って、第1ないし第Kロスレイヤは第2−1ないし第2−K特徴マップにコンボリューション演算を遂行してGTラベルイメージのチャネル数と同一の数に変更するための前記第1ないし前記第Kロスレイヤに対応するコンボリューションフィルタである第3−1ないし第3−Kフィルタ(未図示)が含まれ得る。また、第3−1ないし第3−Kフィルタは第2−1ないし第2−K特徴マップ各々のチャネルの数を調整して、第2−1ないし第2−K特徴マップ各々対してコンボリューション演算して原本正解ラベルイメージと同一のチャネル数に変換し得る。
【0087】
また、前記第1ないし第Kロスレイヤの第3−1ないし第3−Kフィルタは原本正解ラベルイメージのチャネル数を変更して第2−1ないし第2−K特徴マップ各々のチャネル数とマッチされるように変更する場合もある。この時、第3−1ないし第3−Kフィルタはフィルタのサイズが1×1であり、第2−1ないし第2−K特徴マップのチャネル数または原本正解ラベルイメージのチャネル数を変更し得るが、これに限定されるものではない。
【0088】
参考までに、デコーディングレイヤに含まれたフィルタ各々と相互作用するロスレイヤはロスを各々計算するため、原本正解ラベルイメージは特徴マップ各々のサイズに対応するように各々のサイズを減らさなければならない。即ち、各デコーディングレイヤのフィルタにロスレイヤがついている場合、第2−M特徴マップのサイズは第2−(M−1)特徴マップサイズから1/2に減るため、第2−Mロスレイヤで演算される原本正解ラベルイメージのサイズは第2−(M−1)ロスレイヤで演算されるGTラベルイメージのサイズから1/2に減らして演算しなければならない。
【0089】
図5は正解ラベルイメージのチャネル数を調整して正解ラベルイメージのサイズを変更する方法を示した参考図である。
【0090】
GTラベルイメージのサイズを減らす方法は、チャネル数をそのままにしてリサイズを通じてサイズを減らせる方法がある。しかし、GTラベルイメージの場合、物体と背景のピクセル値がすべて整数値からなっているため、GTラベルイメージをリサイズする場合にはnearest方法を使用するようになる。
【0091】
しかし、かかるnearest方法を用いてGTラベルイメージを減らす過程では誤差が発生するようになる。かかる誤差は特徴マップのサイズが大きい上位フィルタにいくほど大きくなり、特徴マップのサイズが小さい下位フィルタにいくほど小さくなる。
【0092】
かかる問題を解決するため、本発明では図5に示された例のとおり、第Mロスレイヤは原本正解ラベルイメージのチャネル数を変更することで原本正解ラベルイメージのサイズを第2−M特徴マップのサイズに合わせる方法を使用する。かかる方法は特徴マップのサイズが大きい上位フィルタと連動されるロスレイヤに適用され得るが、これに限定されるものではない。
【0093】
図5の例で、第2−M特徴マップのサイズが320×240であり、原本正解ラベルイメージのサイズが640×480と仮定すれば、320×240サイズの第2−M特徴マップから640×480サイズの原本正解ラベルイメージを直ちに引くことができない。従って、第Mロスレイヤは1×1サイズのコンボリューション演算を通じて原本正解ラベルイメージのチャネルを4倍に拡張する。これによって640×480サイズの原本正解ラベルイメージはチャネルが4倍になった320×240サイズのラベルイメージに変更され得る。即ち、サイズが640×480であるイメージのピクセルをチャネルにシフトして特徴マップのサイズを減らし、その結果、サイズは4ch×320×240に変わるようになる。
【0094】
即ち、第Mロスレイヤは640×480サイズ及びa個チャネルを有する原本正解ラベルイメージを320×240サイズ及び4×aチャネル数の原本正解ラベルイメージに変更する。そして、1×1サイズの第3−Mフィルタを通じて320×240サイズ及びb個チャネルを有する第2−M特徴マップを320×240サイズ及び4×a個チャネルを有する特徴マップに変更する。そして、第Mロスレイヤは同一の320×240サイズ及び4×a個チャネルを有する原本正解ラベルイメージと特徴マップの間でロスを計算する。これによって原本正解ラベルイメージのイメージを減らす時に発生するロスを防止することができるようになる。
【0095】
図6A及び図6Bは本発明の他の実施例による多重ロスレイヤを利用してイメージセグメンテーションを遂行し得るCNNを含む学習装置の学習過程を示す図面である。
【0096】
各特徴マップのチャネルの数は各特徴マップのサイズが減少することによって増加する。従って、デコーディングレイヤの下位レイヤにあるフィルタ、即ち、特徴マップのサイズが小さい下位レイヤ(または下位フィルタ)にいくほどチャネル数がさらに増えるようになる。万一、図5に示された1×1サイズフィルタのコンボリューション演算を通じて原本正解ラベルイメージのチャネルを増やす方法をすべてのレイヤに適用するようになれば、1×1サイズフィルタのコンボリューションで多くの数のチャネルを生成しなければならないため、コンボリューションフィルタのcapacityを超えてむしろロスが増える可能性もあるという問題がある。即ち、多くの3×3サイズのフィルタまたは多くの5×5サイズのフィルタを使用すれば学習を通じて処理し得る能力が大きくなり得るが、1×1サイズのコンボリューションフィルタはサイズが1であるため、学習を通じて処理し得る能力が小さい。従って、該フィルタが処理すべき演算量が増えるようになれば、むしろ性能が低下するようになる現象が発生し得る。かかる現象を防止するために、図6A及び図6Bの実施例のように、特徴マップのサイズが小さくてチャネルが多い下位レイヤでは1×1コンボリューション演算を通じてチャネルを変更する方法の代わりに、原本正解ラベルイメージをリサイズする方法を使用する場合もある。
【0097】
従って、第1ないし第Kロスレイヤのうち特徴マップのサイズが大きい上位レイヤであるT個のロスレイヤ、即ち、第1ないし第Tロスレイヤでは原本正解ラベルイメージのチャネル数変更を通じてイメージのサイズを減らし、特徴マップのサイズが小さい下位レイヤである残りのK−T個のロスレイヤ、即ち、第T+1ないし第Kロスレイヤでは原本正解ラベルイメージをリサイズしてイメージサイズを減らす。即ち、下位レイヤでは原本正解ラベルイメージのチャネル数を維持してnearest neighborhood方法(即ち、nearest方法)などで原本正解ラベルイメージのサイズをリサイズし、第2−(T+1)ないし第2−K特徴マップのチャネル数を1×1コンボリューションを利用して原本正解ラベルイメージのチャネル数と同一に減らし、特徴マップと原本正解ラベルイメージのサイズとチャネル数を同じくしてロスを求める。そして、上位レイヤでは原本正解ラベルイメージのチャネル数を増やしてイメージサイズを減らす方法を使用して、特徴マップと原本正解ラベルイメージのサイズを同じくし、第2−1ないし第2−T特徴マップのチャネル数を1×1コンボリューションを利用して変更された原本正解ラベルイメージのチャネル数と同一に変更した後、ロスを求める。しかし、必ずしも下位レイヤと上位レイヤでのロスを求める方法が差別化される必要はない。
【0098】
このように上位レイヤ領域と下位レイヤ領域での原本正解ラベルイメージ変更方法を異にすれば、すべてのロスレイヤで同一の変更方法を使用するものと比較してロスを大きく減らすことができる。
【0099】
再び図6A及び図6Bを参照すれば、本発明にかかる学習装置は、第4−1ないし第4−Kフィルタ、即ち、中間フィルタを有する中間レイヤがさらに含まれ得る。前記中間フィルタは第1−1ないし第1−K特徴マップ情報を利用して、第4−1ないし第4−K特徴マップを生成し得る。各々の第4−1ないし第4−Kフィルタは前記第1−1ないし第1−K特徴マップ各々にダイレーションコンボリューションを適用して前記第4−1ないし第4−K特徴マップを生成し、生成された前記第4−1ないし第4−K特徴マップを各々前記第2−1ないし第2−Kフィルタに伝達する。そうすると前記第2−1ないし第2−Kフィルタは伝達された前記第4−1ないし第4−K特徴マップを参照して前記第2−1ないし第2−K特徴マップを生成する。
【0100】
中間フィルタ、即ち、前記第4−1ないし第4−Kフィルタはreceptive fieldを増加させたダイレーションコンボリューション演算を通じて前記第1−1ないし第1−K特徴マップ各々でエッジ情報を強調して抽出する機能をする。これによって前記第2−1ないし第2−Kフィルタはエンコーダーレイヤ特徴マップに含まれたエッジ情報を強化させた情報を使用することができ、特徴マップをデコーディングする時にさらに多くの情報を伝搬することができるようになる。
【0101】
また、本発明にかかる学習装置は、第4−1ないし第4−K特徴マップの少なくとも一部を使用して、第2−1ないし第2−Kフィルタにとって特徴マップを生成するようにできる。即ち、前記第4−1ないし第4−K特徴マップに対応する第1−1ないし1−K特徴マップにダイレーションコンボリューションを選択的に適用し得る。
【0102】
ここで、中間フィルタはダイレーションコンボリューション演算を遂行するが、これに限定されるものではない。例えば、中間フィルタの少なくとも一部は場合によってコンボリューション演算を遂行し得る。一方、中間フィルタによって生成された特徴マップはデコーディングレイヤに含まれたフィルタによって直接的または間接的に参照され得る。
【0103】
図7A及び図7Bは本発明のまた他の実施例にかかる多重ロスレイヤを利用してイメージセグメンテーションを遂行することができるCNNを含む学習装置の学習過程を示す図面である。
【0104】
図7A及び図7Bに示された学習過程では図2A及び図2Bに示された学習過程と同一の過程を経るが、ロスレイヤがすべてのデコーディングレイヤのフィルタと連動されず、その一部のフィルタとのみ連動される実施例にかかる学習過程を示す。即ち、ロスレイヤはデコーディングレイヤに含まれたフィルタの一部と関連し得る。
【0105】
図7A及び図7Bを参照すれば、デコーディングレイヤの第2−1ないし2−Kフィルタのうち一部であるH個のフィルタ(以下、第2−1ないし2−Hフィルタとする)と連動する第1ないし第Hロスレイヤを含む。この時、第2−1ないし2−Hフィルタはデコーディングレイヤの上位レイヤのフィルタから下位レイヤまで順に指称したもので、全体K個のフィルタを上位レイヤのフィルタから順に指称した前記第2−1ないし前記第2−Kフィルタと比較して、同一の参照符号は同一の部分を指称しない場合もある。例えば、H個のフィルタのうち第2−2フィルタはK個のフィルタのうち第2−2フィルタと異なり得る。参考までに、Hは0よりも大きく、Kよりも小さい自然数である。前記H個のフィルタは図7A及び図7Bで括弧の中に示した。
【0106】
図7A及び図7Bでは学習装置がデコーディングレイヤに含まれた第2−1ないし第2−Hフィルタと各々連動する第1ないし第Hロスレイヤが含まれ得る。また、学習装置は、デコーディングレイヤのH個フィルタから獲得されたH個の特徴マップ各々に対応される第H個のロスを各々前記第1ないし第Hロスレイヤから獲得するプロセスを遂行する。
【0107】
すべてのデコーディングレイヤのフィルタにロスレイヤが連結されず、一部にのみロスレイヤが連結される場合には、ロスレイヤの数が減ってロス値を求める演算量が減りながらも、バックプロパゲーション過程で中間の特徴マップに対するロスを参照してパラメータ調整用特徴マップを形成することができ、学習効率を維持することができる効果がある。
【0108】
特に、(i)第2−Kフィルタは最も重要な情報を含む第1−K特徴マップと連動され、(ii)ラベルイメージを生成し得る第2−1フィルタはロスレイヤが連動されることが好ましい。
【0109】
従って、本発明にかかるマルチロスレイヤを利用すれば、特徴ベクタに縦縞やノイズが相当減少し、最終段階のデコーディングレイヤフィルタにのみロスレイヤがついたものと比較してイメージセグメンテーション性能が向上するようになる。
【0110】
図2A及び図2Bないし図7A及び7Bは本発明にかかる学習装置及びこれを利用した学習過程を説明した。参考までに、学習装置はバックプロパゲーション過程を遂行することで、最適のパラメータ値を求めることができるが、イメージセグメンテーションを遂行するテスト装置はかかるプロセスを実行しないことは当然である。
【0111】
ここで、イメージセグメンテーションを遂行するためのテスト装置(未図示)の構成及び機能について簡略に説明する。前記テスト装置は上で言及した学習プロセスを通じて発見された媒介変数を使用し、テストイメージでイメージセグメンテーションを遂行する。前記テスト装置は前で言及した学習装置と同一の装置でもよく、他の装置でもよい。
【0112】
入力イメージとしてのテストイメージに対するイメージセグメンテーションを遂行するための前記テスト装置は、通信部(未図示)及びプロセッサ(未図示)を含んでおり、前記通信部は外部装置と通信するように構成され得る。
【0113】
特に、(I)(i)トレーニングイメージに対してコンボリューション演算を複数回遂行して第1−1、第1−2、…、第1−K学習用特徴マップを獲得する、各々第1−1ないし第1−Kフィルタを含むエンコーディングレイヤ;(ii)前記第1−K学習用特徴マップに対してデコンボリューション演算を複数回遂行して第2−K、第2−(K−1)、…、第2−1学習用特徴マップを獲得する、各々第2−Kないし第2−1フィルタを含むデコーディングレイヤ;及び(iii)前記デコーディングレイヤに含まれたKフィルタのうちH個のフィルタと連動する第1ないし第Hロスレイヤを含む学習装置を利用して、(II)前記エンコーディングレイヤ及び前記デコーディングレイヤを経て前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップを獲得するプロセス及び前記第2−K、前記第2−(K−1)、…、前記第2−1学習用特徴マップのうち前記H個のフィルタから獲得されたH個の学習用特徴マップ各々に対応される第1ないし第Hロスを各々前記第1ないし第Hロスレイヤから獲得するプロセス;及び(III)バックプロパゲーション過程で(1)第2−Mフィルタをもって第2−(M−1)フィルタから伝達された第(M−1)2学習用パラメータ調整用特徴マップに対して前記第2−Mフィルタを用いたコンボリューション演算を遂行して第M1学習用パラメータ臨時特徴マップを求めるプロセス及び(2)前記第M1学習用パラメータ臨時特徴マップと第Mロスを演算して獲得された第M2学習用パラメータ調整用特徴マップを前記第2−(M+1)フィルタに伝達するプロセス、(3)前記第1−1ないし前記第1−Kフィルタ及び前記第2−1ないし前記第2−Kフィルタのうち少なくとも一部のパラメータを調整するプロセス−Mは2以上K−1以下の整数であり、(III)の初期状態として、前記第1ロスレイヤは前記第2−1学習用特徴マップに対応される第1ロスを演算し、前記第1ロスに前記第2−1フィルタを用いたコンボリューション演算を遂行して第12学習用パラメータ調整用特徴マップを求めた後、前記第2−2フィルタは前記第12学習用パラメータ調整用特徴マップを第2−2フィルタに伝達する−及び(IV)前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを獲得するプロセスを遂行した状態で、テスト装置の通信部は前記テストイメージを獲得し得る。
【0114】
また、プロセッサはデコーディングレイヤ及びエンコーディングレイヤのフィルタの少なくとも一部の調整されたパラメータ、即ち、前記第1−1ないし前記第1−Kフィルタ及び前記第2−Kないし前記第2−1フィルタのパラメータを利用して獲得されたテストイメージに対するイメージセグメンテーションを遂行するように構成され得る。
【0115】
本発明の技術分野の通常の技術者に理解され得ることとして、上で説明されたイメージ、例えば、トレーニングイメージ、テストイメージのようなイメージデータの送受信が学習装置及びテスト装置の通信部によって構成され得て、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ(及び/またはメモリ)によって保有/維持され得て、コンボリューション演算、デコンボリューション演算、ロス値演算過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明はこれに限定されるものではない。
【0116】
以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
【0117】
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
【0118】
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。
図1
図2A
図2B
図3
図4
図5
図6A
図6B
図7A
図7B