IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 延世大学校 産学協力団の特許一覧

特許7214825擬似マスク基盤の弱教師ありセマンティック分割装置及び方法
<>
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図1
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図2
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図3
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図4
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図5
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図6
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図7
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図8
  • 特許-擬似マスク基盤の弱教師ありセマンティック分割装置及び方法 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-01-20
(45)【発行日】2023-01-30
(54)【発明の名称】擬似マスク基盤の弱教師ありセマンティック分割装置及び方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230123BHJP
   G06T 7/10 20170101ALI20230123BHJP
【FI】
G06T7/00 350C
G06T7/10
【請求項の数】 13
(21)【出願番号】P 2021207591
(22)【出願日】2021-12-21
【審査請求日】2021-12-21
(31)【優先権主張番号】10-2021-0124495
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用 集会名 CVPRのWebサイトセミナー 開催日 令和 3年 6月22日
(73)【特許権者】
【識別番号】514274672
【氏名又は名称】延世大学校 産学協力団
【氏名又は名称原語表記】YONSEI UNIVERSITY,UNIVERSITY-INDUSTRY FOUNDATION(UIF)
【住所又は居所原語表記】50,YONSEI-RO, SEODAEMUN-GU, SEOUL 03722, REPUBLIC OF KOREA
(74)【代理人】
【識別番号】110000051
【氏名又は名称】弁理士法人共生国際特許事務所
(72)【発明者】
【氏名】シム,ヒョンジュン
(72)【発明者】
【氏名】イ,スンホ
(72)【発明者】
【氏名】イ,ミンヒョン
【審査官】小池 正彦
(56)【参考文献】
【文献】特開2019-061658(JP,A)
【文献】中国特許出願公開第113096138(CN,A)
【文献】韓国登録特許第10-2160224(KR,B1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06T 7/10
(57)【特許請求の範囲】
【請求項1】
イメージを第1の分類器に提供して複数の第1のローカルマップ(localization maps)を生成するローカルマップ生成部と、
前記複数の第1のローカルマップに基づいて、境界線及び同時発生ピクセル(co-occurring pixel)を識別するのに活用される顕著性マップ(saliency map)を介して重要領域損失を算出する顕著性マップ処理部と、
前記複数の第1のローカルマップに基づいて、多重-ラベル(multi-label)を予測して分類損失を算出する多重-ラベル処理部と、
前記重要領域損失及び前記分類損失に基づいて、前記第1の分類器を更新した第2の分類器を生成し、前記第2の分類器による複数の第2のローカルマップに基づいて擬似マスクを生成する擬似マスク生成部と、
を備えることを特徴とする擬似マスク基盤の弱教師ありセマンティック分割(Weakly Supervised Semantic Segmentation)装置。
【請求項2】
前記擬似マスクに基づいて、前記イメージのオブジェクト及び境界識別を行うオブジェクト認識部をさらに備えることを特徴とする請求項1に記載の擬似マスク基盤の弱教師ありセマンティック分割装置。
【請求項3】
前記ローカルマップ生成部は、
N個(前記Nは、自然数)のフォアグラウンドオブジェクトを含むフォアグラウンドローカルマップ及び単一のバックグラウンドオブジェクトを含むバックグラウンドローカルマップを前記複数の第1のローカルマップとして生成することを特徴とする請求項1に記載の擬似マスク基盤の弱教師ありセマンティック分割装置。
【請求項4】
前記顕著性マップ処理部は、
フォアグラウンドローカルマップ及びバックグラウンドローカルマップを加重演算して予測顕著性マップを生成し、前記予測顕著性マップ及び実際顕著性マップの間の差に該当する前記重要領域損失を決定することを特徴とする請求項1に記載の擬似マスク基盤の弱教師ありセマンティック分割装置。
【請求項5】
前記顕著性マップ処理部は、
前記予測顕著性マップを下記の数式1によって生成することを特徴とする請求項4に記載の擬似マスク基盤の弱教師ありセマンティック分割装置。
【数1】
前記
は、前記予測顕著性マップに該当し、前記Mfgは、前記フォアグラウンドローカルマップに該当し、前記Mbgは、前記バックグラウンドローカルマップに該当する。
前記λは、∈[0、1]であり、前記フォアグラウンドローカルマップ及び前記バックグラウンドローカルマップのインバージョン間の加重合算を調節するハイパーパラメータである。
【請求項6】
前記多重-ラベル処理部は、
前記複数の第1のローカルマップにあるフォアグラウンドローカルマップに関するイメージレベルラベル及び当該ラベルの予測間の多重-ラベルマージン損失を前記分類損失として算出することを特徴とする請求項1に記載の擬似マスク基盤の弱教師ありセマンティック分割装置。
【請求項7】
前記擬似マスク生成部は、
前記重要領域損失及び前記分類損失を合算した全体学習損失を算出して前記第1の分類器を更新することを特徴とする請求項1に記載の擬似マスク基盤の弱教師ありセマンティック分割装置。
【請求項8】
前記擬似マスク生成部は、
前記重要領域損失及び前記分類損失を介してのジョイント学習で前記擬似マスクを生成してオブジェクトの境界線を識別し、及び同時発生ピクセルを除去することを特徴とする請求項1に記載の擬似マスク基盤の弱教師ありセマンティック分割装置。
【請求項9】
イメージを第1の分類器に提供して複数の第1のローカルマップ(localization maps)を生成するローカルマップ生成ステップと、
前記複数の第1のローカルマップに基づいて、境界線及び同時発生ピクセル(co-occurring pixel)を識別するのに活用される顕著性マップ(saliency map)を介して重要領域損失を算出する顕著性マップ処理ステップと、
前記複数の第1のローカルマップに基づいて、多重-ラベル(multi-label)を予測して分類損失を算出する多重-ラベル処理ステップと、
前記重要領域損失及び前記分類損失に基づいて、前記第1の分類器を更新した第2の分類器を生成し、前記第2の分類器による複数の第2のローカルマップに基づいて擬似マスクを生成する擬似マスク生成ステップと、
を含むことを特徴とする擬似マスク基盤の弱教師ありセマンティック分割(Weakly Supervised Semantic Segmentation)方法。
【請求項10】
前記擬似マスクに基づいて前記イメージのオブジェクト及び境界識別を行うオブジェクト認識ステップをさらに含むことを特徴とする請求項9に記載の擬似マスク基盤の弱教師ありセマンティック分割方法。
【請求項11】
前記ローカルマップ生成ステップは、
N個(前記Nは、自然数)のフォアグラウンドオブジェクトを含むフォアグラウンドローカルマップ及び単一のバックグラウンドオブジェクトを含むバックグラウンドローカルマップを前記複数の第1のローカルマップとして生成することを特徴とする請求項9に記載の擬似マスク基盤の弱教師ありセマンティック分割方法。
【請求項12】
前記顕著性マップ処理ステップは、
フォアグラウンドローカルマップ及びバックグラウンドローカルマップを加重演算して予測顕著性マップを生成し、前記予測顕著性マップ及び実際顕著性マップの間の差に該当する前記重要領域損失を決定することを特徴とする請求項9に記載の擬似マスク基盤の弱教師ありセマンティック分割方法。
【請求項13】
前記多重-ラベル処理ステップは、
前記複数の第1のローカルマップにあるフォアグラウンドローカルマップに関するイメージレベルラベル及び当該ラベルの予測間の多重-ラベルマージン損失を前記分類損失として算出することを特徴とする請求項9に記載の擬似マスク基盤の弱教師ありセマンティック分割方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、弱教師ありセマンティック分割技術に関し、より詳しくは、ローカルマップ(localization map)と顕著性マップ(saliency map)とを活用して弱教師あり学習基盤のセマンティック分割の性能を向上させる擬似マスク基盤の弱教師ありセマンティック分割装置及び方法に関する。
【背景技術】
【0002】
セマンティック分割(Semantic Segmentation)とは、イメージをピクセル(pixel)別に分類することである。すなわち、それぞれのピクセルがどのクラスに属するか分類することである。
【0003】
図1は、セマンティック分割の例を示す図である。
【0004】
図1に示すように、完全教師ありセマンティック分割(Fully Supervised Semantic Segmentation;FSSS)の場合には、イメージの各ピクセルのクラス情報を全て学習して予測する。これに対し、弱教師ありセマンティック分割(Weakly Supervised Semantic Segmentation;WSSS)の場合には、イメージ水準ラベルのみを学習に活用し、イメージの各ピクセルのクラスを予測する。
【0005】
完全教師あり学習とは、ディープラーニングを介したオブジェクト認識方法のうち、既に作られたデータセットと、その中に含まれているオブジェクトの位置に対する実際情報とを共に学習する方法である。弱教師あり学習とは、学習過程でイメージと、それに対するクラスラベルのみを学習させてディープラーニング予測モデルを生成する方法である。弱教師あり学習におけるオブジェクト検出方法のうち、CAM(Class Activation mapping)は、オブジェクトの差別的な特徴をコンボリューション層で抽出し、視覚化してオブジェクトを探す方法である。
【0006】
完全教師ありセマンティック分割(FSSS)と比較して弱教師ありセマンティック分割(WSSS)は、ピクセル水準ラベルとイメージ水準ラベルとの教師あり情報差があるため、次のような問題が発生する。
【0007】
第1に、ローカルマップ(localization map)が目標オブジェクトの小さい部分のみを捕捉する稀少なオブジェクト範囲(Sparse object coverage)である。
【0008】
第2に、ローカルマップは、オブジェクトの境界線が不一致しているという問題を経験する。
【0009】
第3に、ローカルマップは、目標オブジェクトと同時発生するピクセルを正しく区分できない。例えば、汽車と鉄路を正しく区分できない。
【0010】
このような問題を解決するために、既存の研究は、3つの部類に分類される。
【0011】
1番目は、ピクセルを消して、点数マップ(score maps)をアンサンブルするか、自体教師あり信号を使用してオブジェクトの全体範囲を捕捉するようにオブジェクト範囲を拡張する接近方式である。しかし、オブジェクトの形状を案内する手掛かりがないため、目標オブジェクトの正確なオブジェクト境界を決定できない。
【0012】
2番目は、擬似マスク(pseudo-masks)のオブジェクト境界を改善するのに重点をおく接近方式であって、これは、オブジェクト境界を効果的に学習して境界まで擬似マスクを自然に拡張する。しかし、フォアグラウンドとバックグラウンドとの間の強い相関関係(すなわち、同時発生)は、帰納バイアス(すなわち、目標オブジェクトに一致するピクセルを観察する頻度)とほとんど区別できないため、依然として非-目標オブジェクトの一致するピクセルを目標オブジェクトと区別できない。
【0013】
最後に、3番目は、追加実測マスク(truth masks)または顕著性マップを使用して同時発生の問題を緩和することを目標とする接近方式である。しかし、弱教師あり学習パラダイムとはかけ離れた強力なピクセル水準ラベルが必要である。
【先行技術文献】
【特許文献】
【0014】
【文献】韓国登録特許第10-2160224号公報
【発明の概要】
【発明が解決しようとする課題】
【0015】
本発明は、上記従来技術に鑑みてなされたものであって、本発明の目的は、ローカルマップ(localization map)と顕著性マップ(saliency map)とを活用して弱教師あり学習基盤のセマンティック分割の性能を向上させる擬似マスク基盤の弱教師ありセマンティック分割装置及び方法を提供することにある。
【0016】
また、本発明の目的は、イメージ水準ラベルで学習された分類器から計算されたローカルマップと既製重要領域(saliency)探知モデルから取得した顕著性マップとの相互補完を介して互いに異なるオブジェクト及び境界線を正確に区分できる擬似マスク基盤の弱教師ありセマンティック分割装置及び方法を提供することにある。
【0017】
さらに、本発明は、擬似マスクの品質を向上させることができる新しい弱教師ありセマンティック分割(WSSS)フレームワークを提案する擬似マスク基盤の弱教師ありセマンティック分割装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0018】
上記目的を達成するためになされた本発明の一態様による擬似マスク基盤の弱教師ありセマンティック分割装置は、イメージを第1の分類器に提供して複数の第1のローカルマップ(localization maps)を生成するローカルマップ生成部と、前記複数の第1のローカルマップに基づいて、境界線及び同時発生ピクセル(co-occurring pixel)を識別するのに活用される顕著性マップ(saliency map)を介して重要領域損失を算出する顕著性マップ処理部と、前記複数の第1のローカルマップに基づいて、多重-ラベル(multi-label)を予測して分類損失を算出する多重-ラベル処理部と、前記重要領域損失及び前記分類損失に基づいて、前記第1の分類器を更新した第2の分類器を生成し、前記第2の分類器及び前記第2の分類器による複数の第2のローカルマップに基づいて擬似マスクを生成する擬似マスク生成部と、を備えることを特徴とする。
【0019】
前記擬似マスク基盤の弱教師ありセマンティック分割装置は、前記擬似マスクに基づいて、前記イメージのオブジェクト及び境界識別を行うオブジェクト認識部をさらに備え得る。
【0020】
前記ローカルマップ生成部は、N個(前記Nは、自然数)のフォアグラウンドオブジェクトを含むフォアグラウンドローカルマップ及び単一のバックグラウンドオブジェクトを含むバックグラウンドローカルマップを前記複数の第1のローカルマップとして生成し得る。
【0021】
前記顕著性マップ処理部は、フォアグラウンドローカルマップ及びバックグラウンドローカルマップを加重演算して予測顕著性マップを生成し、前記予測顕著性マップ及び実際顕著性マップの間の差に該当する前記重要領域損失を決定し得る。
【0022】
前記顕著性マップ処理部は、前記予測顕著性マップを下記の数式1によって生成し得る。
【0023】
【数1】
【0024】
前記
は、前記予測顕著性マップに該当し、前記Mfgは、前記フォアグラウンドローカルマップに該当し、前記Mbgは、前記バックグラウンドローカルマップに該当する。
【0025】
前記λは、∈[0、1]であり、前記フォアグラウンドローカルマップ及び前記バックグラウンドローカルマップのインバージョン間の加重合算を調節するハイパーパラメータである。
【0026】
前記多重-ラベル処理部は、前記複数の第1のローカルマップにあるフォアグラウンドローカルマップに関するイメージレベルラベル及び当該ラベルの予測間の多重-ラベルマージン損失を前記分類損失として算出し得る。
【0027】
前記擬似マスク生成部は、前記重要領域損失及び前記分類損失を合算した全体学習損失を算出して前記第1の分類器を更新し得る。
【0028】
前記擬似マスク生成部は、前記重要領域損失及び前記分類損失を介してのジョイント学習で前記擬似マスクを生成してオブジェクトの境界線を識別し、及び同時発生ピクセルを除去し得る。
【0029】
上記目的を達成するためになされた本発明の一態様による擬似マスク基盤の弱教師ありセマンティック分割方法は、イメージを第1の分類器に提供して複数の第1のローカルマップ(localization maps)を生成するローカルマップ生成ステップと、前記複数の第1のローカルマップに基づいて、境界線及び同時発生ピクセル(co-occurring pixel)を識別するのに活用される顕著性マップ(saliency map)を介して重要領域損失を算出する顕著性マップ処理ステップと、前記複数の第1のローカルマップに基づいて、多重-ラベル(multi-label)を予測して分類損失を算出する多重-ラベル処理ステップと、前記重要領域損失及び前記分類損失に基づいて、前記第1の分類器を更新した第2の分類器を生成し、前記第2の分類器及び前記第2の分類器による複数の第2のローカルマップに基づいて擬似マスクを生成する擬似マスク生成ステップと、を含むことを特徴とする。
【0030】
前記擬似マスク基盤の弱教師ありセマンティック分割方法は、前記擬似マスクに基づいて前記イメージのオブジェクト及び境界識別を行うオブジェクト認識ステップをさらに含み得る。
【0031】
前記ローカルマップ生成ステップは、N個(前記Nは、自然数)のフォアグラウンドオブジェクトを含むフォアグラウンドローカルマップ及び単一のバックグラウンドオブジェクトを含むバックグラウンドローカルマップを前記複数の第1のローカルマップとして生成し得る。
【0032】
前記顕著性マップ処理ステップは、フォアグラウンドローカルマップ及びバックグラウンドローカルマップを加重演算して予測顕著性マップを生成し、前記予測顕著性マップ及び実際顕著性マップの間の差に該当する前記重要領域損失を決定し得る。
【0033】
前記多重-ラベル処理ステップは、前記複数の第1のローカルマップにあるフォアグラウンドローカルマップに関するイメージレベルラベル及び当該ラベルの予測間の多重-ラベルマージン損失を前記分類損失として算出し得る。
【発明の効果】
【0034】
本発明は、次の効果を奏する。ただし、特定の実施形態が次の効果を全て含むとか、次の効果だけを含むという意味ではないので、本発明の技術範囲は、これによって限定されない。
【0035】
本発明による擬似マスク基盤の弱教師ありセマンティック分割装置及び方法は、ローカルマップ(localization map)と顕著性マップ(saliency map)とを活用して弱教師あり学習基盤のセマンティック分割の性能を向上させることができる。
【0036】
本発明による擬似マスク基盤の弱教師ありセマンティック分割装置及び方法は、イメージ水準ラベルで学習された分類器から計算されたローカルマップと既製重要領域(saliency)探知モデルから取得した顕著性マップとの相互補完を介して互いに異なるオブジェクト及び境界線を正確に区分することができる。
【0037】
本発明による擬似マスク基盤の弱教師ありセマンティック分割装置及び方法は、擬似マスクの品質を向上させる新しい弱教師ありセマンティック分割(WSSS)フレームワークを提案する。
【図面の簡単な説明】
【0038】
図1】セマンティック分割の例を示す図である。
図2】本発明による擬似マスク基盤の弱教師ありセマンティック分割装置のシステム構成を説明する図である。
図3図2の擬似マスク基盤の弱教師ありセマンティック分割装置に含まれるプロセッサの機能的構成を説明する図である。
図4図3の擬似マスク基盤の弱教師ありセマンティック分割装置で行われる擬似マスク基盤の弱教師ありセマンティック分割過程を説明するフローチャートである。
図5】本発明による擬似マスク基盤の弱教師ありセマンティック分割のための全体フレームワークを説明する図である。
図6】本発明によるローカルマップ及び顕著性マップを共に使用した場合を説明する図である。
図7】予測顕著性マップの例を示す図である。
図8】本発明による境界捕捉の定性的例を示す図である。
図9】本発明の一実施形態による擬似マスク基盤の弱教師ありセマンティック分割結果の定性的例を視覚化した図である。
【発明を実施するための形態】
【0039】
本発明は、下記の研究課題をもって支援を受けて出願されました。
〔この発明を支援した国家研究開発事業〕
[課題固有番号] 1711126082
[課題番号] 2020-0-01361-002
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] 情報通信企画評価院
[研究事業名] 情報通信放送研究開発事業
[研究課題名] 人工知能大学院支援(延世大学校)
[寄与率] 1/2
[課題実行機関名] 延世大学校産学協力団
[研究期間] 2021.01.01~2021.12.31
〔この発明を支援した国家研究開発事業〕
[課題固有番号] 1711138081
[課題番号] KMDF_PR_20200901_0069-01
[省庁名] 科学技術情報通信部
[課題管理(専門)機関名] (財団)汎省庁全周期医療機器研究開発事業団
[研究事業名] 汎省庁全周期医療機器研究開発事業(R&D)
[研究課題名] (主観)汎用的適用可能なCNN基盤の低線量CTノイズ
低減技術開発
[寄与率] 1/2
[課題実行機関名] 延世大学校産学協力団
[研究期間] 2021.03.01~2022.02.28
本発明に関する説明は、構造的ないし機能的説明のための実施形態に過ぎないので、本発明は、本明細書で説明された実施形態によって限定されない。すなわち、実施形態は、様々な変更が可能であり、種々の形態を有し得るので、本発明は、技術的思想を実現できる均等物等を含む。また、本発明において提示された目的または効果は、特定の実施形態がこれを全部含むとか、そのような効果だけを含むという意味ではないので、本発明の技術範囲は、これによって限定されない。
【0040】
一方、本明細書に記載される用語の意味は、次のように理解される。
【0041】
「第1」、「第2」などの用語は、1つの構成要素を他の構成要素から区別するためのものであって、これらの用語によって技術範囲は限定されない。例えば、第1構成要素は第2構成要素と命名され得る、同様に、第2構成要素も第1構成要素と命名され得る。
【0042】
ある構成要素が他の構成要素に「連結されて」いると記載された場合には、他の構成要素に直接連結され得るが、中間にその他の構成要素が存在することもできる。これに対し、ある構成要素が他の構成要素に「直接連結されて」いると記載された場合には、中間にその他の構成要素は存在しない。一方、構成要素等の間の関係を説明する他の表現、すなわち、「~間に」と「すぐ~間に」、または「~に隣り合う」と「~に直接隣り合う」なども同様に解釈される。
【0043】
単数の表現は、文脈上明白に異なるように定義しない限り、複数の表現を含む。「含む」または「有する」などの用語は、実施された特徴、数字、ステップ、動作、構成要素、部分品、またはこれらを組み合わせたものが存在することを指定するものであり、1つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部分品、またはこれらのを組み合わせたものなどの存在または付加の可能性を予め排除しない。
【0044】
各ステップにおいて、識別符号(例えば、a、b、cなど)は、説明の便宜のために使用されるものであって、識別符号は、各ステップの順序を説明するものではなく、各ステップは、文脈上明白に特定の順序を記載しない限り、明記された順序とは異なるように行われ得る。すなわち、各ステップは、明記された順序と同様に行われるか、実質的に同時に行われるか、反対の順序通りに行われ得る。
【0045】
本発明は、コンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードで実現され、コンピュータ読み取り可能な記録媒体は、コンピューティングシステムによって読み取られるデータが格納されるあらゆる種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例には、ROM、RAM、CD-ROM、磁気テープ、フロッピーディスク、光データ格納装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークで連結されたコンピューティングシステムに分散されて、分散方式でコンピュータ読み取り可能なコードが格納されて、実行され得る。
【0046】
本明細書で使用されるあらゆる用語は、特に定義されない限り、本発明の属する技術分野における通常の知識を有する者により一般的に理解されるものと同じ意味を有する。一般的に使用される事前に定義されている用語は、関連技術の文脈上有する意味と一致すると解釈され、本明細書において明白に定義しない限り、理想的であるか、過度に形式的な意味を有するとは解釈されない。
【0047】
図2は、本発明による擬似マスク基盤の弱教師ありセマンティック分割装置のシステム構成を説明する図である。
【0048】
図2に示すように、擬似マスク基盤の弱教師ありセマンティック分割装置100は、プロセッサ110、メモリ130、ユーザ入出力部150、及びネットワーク入出力部170を備えるコンピューティングシステムで構成される。
【0049】
プロセッサ110は、擬似マスク基盤の弱教師ありセマンティック分割装置100が動作する過程での各ステップを処理するプロシージャを実行し、その過程の全般で読み出し、または書き込みが行われるメモリ130を管理し、メモリ130に含まれる揮発性メモリと不揮発性メモリとの間の同期化時間をスケジュールする。プロセッサ110は、擬似マスク基盤の弱教師ありセマンティック分割装置100の動作全般を制御し、メモリ130、ユーザ入出力部150、及びネットワーク入出力部170に電気的に連結されて、これらの間のデータフローを制御する。プロセッサ110は、擬似マスク基盤の弱教師ありセマンティック分割装置100のCPU(Central Processing Unit)で具現される。
【0050】
メモリ130は、SSD(Solid State Drive)またはHDD(Hard Disk Drive)のような不揮発性メモリで具現され、擬似マスク基盤の弱教師ありセマンティック分割装置100に必要なデータ全般を格納するのに使用される補助記憶装置を含み、RAM(Random Access Memory)のような揮発性メモリで具現された主記憶装置を含む。
【0051】
ユーザ入出力部150は、ユーザ入力を受信するための環境及びユーザに特定情報を出力するための環境を含む。例えば、ユーザ入出力部150は、タッチパッド、タッチスクリーン、画像キーボード、またはポインティング装置のようなアダプタを含む入力装置及びモニタまたはタッチスクリーンのようなアダプタを含む出力装置を含む。一実施形態において、ユーザ入出力部150は、遠隔接続を介して接続されたコンピューティング装置に該当し、このような場合、擬似マスク基盤の弱教師ありセマンティック分割装置100は、独立的なサーバとして動作する。
【0052】
ネットワーク入出力部170は、ネットワークを介して外部装置またはシステムと連結するための環境を含み、例えば、LAN(Local Area Network)、MAN(Metropolitan Area Network)、WAN(Wide Area Network)、及びVAN(Value Added Network)などの通信のためのアダプタを含む。
【0053】
図3は、図2の擬似マスク基盤の弱教師ありセマンティック分割装置に含まれるプロセッサの機能的構成を説明する図である。
【0054】
図3に示すように、擬似マスク基盤の弱教師ありセマンティック分割装置100は、ローカルマップ生成部210、顕著性マップ処理部230、多重-ラベル処理部250、擬似マスク生成部270、及びオブジェクト認識部290を備える。
【0055】
ローカルマップ生成部210は、イメージを第1の分類器に提供して複数の第1のローカルマップ(localization maps)を生成する。ローカルマップ生成部210は、N個(Nは、自然数)のフォアグラウンドオブジェクトを含むフォアグラウンドローカルマップ及び単一のバックグラウンドオブジェクトを含むバックグラウンドローカルマップを複数の第1のローカルマップとして生成する。ここで、第1の分類器は、コンボリューション神経網(CNN)構造で実現され、イメージを通過させて各クラスによる第1のローカルマップを生成する。
【0056】
CNN構造は、各レイヤの入出力データの形状維持、複数のフィルタでイメージの特徴抽出及び学習、抽出したイメージの特徴を集め、強化するプーリング(pooling)レイヤであって、一般の人工神経網よりも少ない学習パラメータを有する。CNN構造は、イメージ特徴抽出のために入力データをフィルタが巡回してコンボリューションを計算し、その計算結果を利用して特徴マップ(feature map)を生成する。特徴マップは、原本イメージの位置情報を内包する。
【0057】
顕著性マップ処理部230は、複数の第1のローカルマップに基づいて、境界線及び同時発生ピクセル(co-occuring pixel)を識別するのに活用される顕著性マップ(saliency map)を介して重要領域損失を算出する。顕著性マップ処理部230は、フォアグラウンドローカルマップ及びバックグラウンドローカルマップを加重演算して予測顕著性マップを生成する。ここで、顕著性マップ処理部230は、ローカルマップ生成部210で生成された第1のローカルマップを使用してクラス(class)情報がない顕著性マップを予測する。顕著性マップは、オブジェクト境界をよりよく表すオブジェクトシルエットを提供する。
【0058】
一実施形態において、顕著性マップ処理部230は、予測顕著性マップを下記の数式1を介して生成する。
【0059】
【数1】
【0060】
ここで、
は、予測顕著性マップに該当し、Mfgは、フォアグラウンドローカルマップに該当し、Mbgは、バックグラウンドローカルマップに該当する。
【0061】
λは、∈[0、1]であり、フォアグラウンドローカルマップ及びバックグラウンドローカルマップのインバージョン間の加重合算を調節するハイパーパラメータである。
【0062】
顕著性マップ処理部230は、予測顕著性マップと実際顕著性マップとの間の差に該当する重要領域損失を決定する。一実施形態において、顕著性マップ処理部230は、重要領域損失を下記の数式2を介して算出する。
【0063】
【数2】
【0064】
ここで、
は、重要領域損失に該当し、Mは、実際顕著性マップに該当し、
は、予測顕著性マップに該当する。
【0065】
ここで、予測顕著性マップ及び既製重要領域ディテクタ(saliency detector)から得た実際顕著性マップで学習教師ありのための擬似マスクとして活用し、境界線と同時発生ピクセルのための手掛かりとして活用する。
【0066】
多重-ラベル処理部250は、複数の第1のローカルマップに基づいて、多重-ラベル(multi-label)を予測して分類損失を算出する。多重-ラベル処理部250は、既存分類器と同様に多重-ラベルを予測するために多重-ラベル分類技法を使用する。多重-ラベル処理部250は、複数の第1のローカルマップにあるフォアグラウンドローカルマップに関するイメージレベルラベル及び当該ラベルの予測間の多重-ラベルマージン損失を分類損失として算出する。
【0067】
一実施形態において、多重-ラベル処理部250は、分類損失(classification loss)を下記の数式3を介して算出する。
【0068】
【数3】
【0069】
σ(・)は、シグモイド関数(sigmoid function)である。
【0070】
擬似マスク生成部270は、重要領域損失及び分類損失に基づいて、第1の分類器を更新した第2の分類器を生成し、第2の分類器及び第2の分類器による複数の第2のローカルマップに基づいて擬似マスクを生成する。擬似マスク生成部270は、重要領域損失及び分類損失を合算した全体学習損失を算出して第1の分類器を更新する。ここで、擬似マスク生成部270は、重要領域損失及び分類損失を結合して第1の分類器を更新した最適化された第2の分類器を生成する。このとき、第2の分類器による複数の第2のローカルマップと顕著性マップとが相互補完情報で同伴上昇効果を奏する。
【0071】
擬似マスク生成部270は、重要領域損失及び分類損失を介してのジョイント学習で分割ネットワークを学習するための擬似マスクを生成してオブジェクトの境界線を識別し、同時発生ピクセルを除去する。
【0072】
オブジェクト認識部290は、擬似マスクに基づいてイメージのオブジェクト及び境界識別を行う。ここで、擬似マスクは、オブジェクトの全体領域を探知し、境界線が精巧になり、同時発生ピクセルの問題を解消する。
【0073】
図4は、図3の擬似マスク基盤の弱教師ありセマンティック分割装置で行われる擬似マスク基盤の弱教師ありセマンティック分割過程を説明するフローチャートである。
【0074】
図4に示すように、擬似マスク基盤の弱教師ありセマンティック分割装置100は、ローカルマップ生成部210により、イメージを第1の分類器に提供して複数の第1のローカルマップ(localization maps)を生成する(ステップS410)。擬似マスク基盤の弱教師ありセマンティック分割装置100は、顕著性マップ処理部230により、複数の第1のローカルマップに基づいて、境界線及び同時発生ピクセル(co-occurring pixel)を識別するのに活用される顕著性マップ(saliency map)を介して重要領域損失を算出する(ステップS430)。擬似マスク基盤の弱教師ありセマンティック分割装置100は、多重-ラベル処理部250により、複数の第1のローカルマップに基づいて、多重-ラベル(multi-label)を予測して分類損失を算出する(ステップS450)。擬似マスク基盤の弱教師ありセマンティック分割装置100は、擬似マスク生成部270により、重要領域損失及び分類損失に基づいて、第1の分類器を更新した第2の分類器を生成し、第2の分類器による複数の第2のローカルマップに基づいて擬似マスクを生成する(ステップS470)。擬似マスク基盤の弱教師ありセマンティック分割装置100は、オブジェクト認識部290により、擬似マスクに基づいてイメージのオブジェクト及び境界識別を行う(ステップS490)。
【0075】
図5は、本発明による擬似マスク基盤の弱教師ありセマンティック分割のための全体フレームワークを説明する図である。
【0076】
図5において、本発明は、既存の弱教師ありセマンティック分割(WSSS)が有する稀少なオブジェクト範囲(Sparse object coverage)、境界線不一致(Boundary mismatch)、及び同時発生問題(Co-occurrence problem)を克服するために、弱教師ありセマンティック分割で顕著性マップ(saliency map)を擬似ピクセルマップに統合し、境界及び同時発生ピクセルに対する手掛かりとして活用してピクセルレベルフィードバック学習する別名EPS(Explicit Pseudo-pixel Supervision)という新しいWSSSフレームワークを示している。
【0077】
ここで、顕著性マップを最大限活用するために、C対象クラスとバックグラウンドクラスとで構成されるC+1クラスを予測する分類器を設計してC+1ローカルマップ、すなわち、対象ラベルに対するCローカルマップ及びバックグラウンドローカルマップを学習する。C+1ローカルマップは、バックボーン(backbone)ネットワークで生成され、実際顕著性マップは、既製重要領域探知モデルで生成される。対象ラベルに対する一部ローカルマップは、予測顕著性マップを生成するために選択的に使用される。全体フレームワークは、重要領域損失及び分類損失とともに共同で訓練される。
【0078】
顕著性マップは、オブジェクト境界をよりよく表すことができるオブジェクトシルエットを提供するという属性を活用して境界不一致を管理する。すなわち、Cローカルマップでフォアグラウンドマップを推定し、顕著性マップのフォアグラウンドと一致させる方式にて対象ラベルに対するローカルマップにおいて擬似ピクセルフィードバックを受信してオブジェクトの境界を改善する。対象でないオブジェクトの同時発生ピクセルを緩和するために、バックグラウンドローカルマップも顕著性マップと一致させる。バックグラウンドローカルマップは、顕著性マップで擬似ピクセルフィードバックも受信するので、同時発生ピクセルをバックグラウンドに成功的に割り当てる。対象でないオブジェクトの同時発生ピクセルは、ほとんどバックグラウンドと重なる。これは、本発明において対象オブジェクトから同時発生ピクセルを分離する理由である。
【0079】
クラス別ローカルマップを顕著性マップと比較できるようにするために対象ラベルに対するローカルマップを併合し、フォアグラウンドローカルマップ
を生成する。また、バックグラウンドラベルに対するローカルマップであるバックグラウンドローカルマップ
のインバージョンを行ってフォアグラウンドを表す。
【0080】
顕著性マップは、フォアグラウンドローカルマップMfg及びバックグラウンドローカルマップMbgを使用して予測する。重要領域損失
は、予測顕著性マップと実際顕著性マップとの間のピクセル単位差の合算として定義される。
【0081】
以前には、フォアグラウンドマップが対象ラベルに対するローカルマップの和集合になると仮定して、バックグラウンドマップは、バックグラウンドラベルのローカルマップになる。しかし、そのようなナイーブ(naive)選択規則は、既製モデルにより計算された顕著性マップと互換されない。すなわち、顕著性マップは、度々一部オブジェクトを重要領域オブジェクトで無視する。例えば、汽車近くにいる小さい人を無視する。重要領域モデルは、互いに異なるデータセットの統計を学習するので、このようなシステム的エラーは不回避である。このエラーを考慮しなければ、同じエラーがモデルに伝播されて性能低下を招く。
【0082】
システム的エラーを解決するために、ローカルマップと顕著性マップとの間の重ね合わせ割合を使用する。具体的に、i番目のローカルマップMiは、Miがτ%以上顕著性マップに重なると、フォアグラウンドに割り当てられるか、それとも、バックグラウンドに割り当てられる。フォアグラウンド及びバックグラウンドローカルマップは、下記の数式4を介して生成される。
【0083】
【数4】
【0084】
ここで、
は、バイナリイメージレベルラベルに該当し、
は、M及びM間の重ね合わせ割合を計算する関数である。
【0085】
このために、まず、ローカルマップと顕著性マップとを2進化する。
【0086】
バックグラウンドラベルに対する単一ローカルマップの代わりに、バックグラウンドラベルに対するローカルマップをフォアグラウンドとして選択されなかったローカルマップと結合する。これを介して、顕著性マップのエラーを迂回し、顕著性マップで無視された一部オブジェクトを効果的に訓練する。
【0087】
次に、本発明のフレームワークで目的関数は、顕著性マップを介しての重要領域損失と多重-ラベル分類損失との2つの部分に公式化される。
【0088】
最後に、総訓練損失は、多重ラベル分類損失と重要領域損失との合計である。すなわち、
である。
【0089】
【0090】
図6は、本発明によるローカルマップ及び顕著性マップを共に使用した場合を説明する図である。
【0091】
図6に示すように、(a)は、人、汽車、車を含むイメージ実際(Groundtruth)であり、(b)は、PFANを介した顕著性マップ(Saliency map)であり、(c)は、CAMを介したローカルマップ(Localization map)であり、(d)は、顕著性マップ及びローカルマップを共に使用した本発明による弱教師ありセマンティック分割を各々示す。図6の(b)及び(c)の絵のように、顕著性マップは、人と車をキャプチャ(capture)することができず、ローカルマップは、2つのオブジェクトを過度にキャプチャする。すなわち、ローカルマップは、互いに異なるオブジェクトを区分できるが、境界を効果的に区分できない。顕著性マップは、豊富な境界情報を提供するが、オブジェクトの同一性を表すことができない。これに対し、図6の(d)の絵のように、ローカルマップ及び顕著性マップを共に使用する本発明は、図6の(a)の絵のように、人、汽車、車を正確に区分することができる。
【0092】
図7は、予測顕著性マップの例を示す図であって、PASCAL VOC 2012で予測された顕著性マップの定性的例である。
【0093】
図7において、(a)は、入力イメージ、(b)は、イメージ実際(groundtruth)、(c)は、顕著性マップ(saliency maps)、そして(d)は、本発明において予測された顕著性マップである。
【0094】
本発明では、2つのオブジェクトをジョイント訓練することにより、ローカルマップと顕著性マップとの相互補完情報にてシナジー効果を出すことができる。すなわち、図7の絵のように、互いの雑音と欠落した情報がジョイント訓練戦略を介して補完されることが分かる。既製モデルで得た顕著性マップ(c)には、欠落した情報と雑音がある情報とがあるのに対し、本発明において予測された顕著性マップ(d)には、欠落したオブジェクト(ボートまたは椅子)が成功的に復元され、雑音(水滴または飛行機雲)が除去された。結果的に、本発明では、より正確なオブジェクト境界をキャプチャし、対象オブジェクトから同時発生ピクセルを分離できるという長所がある。このような長所は、セマンティック分割の正確度の側面で既存モデルに対比して最大3.8~10.6%向上することを見せた。
【0095】
本発明では、新しく提案した弱教師ありセマンティック分割方式であるEPSに対する性能実験を行った。
【0096】
実験設定
データセット:PASCAL VOC 2012とMS COCO 2014との2つの人気のあるベンチマークデータセットに対する実証的研究を行った。PASCAL VOC 2012は、21個のクラス(すなわち、20個のオブジェクトと背景)で構成されており、訓練、検証、及びテストセットに対して各々1,464、1,449、1,456個のイメージがある。セマンティック分割の一般的な慣行によって10,582個のイメージがある拡張訓練セットを使用する。次に、COCO 2014は、学習及び検証のための82,081及び40,137イメージで背景を含んで81個のクラスで構成され、対象クラスがないイメージは除かれる。一部オブジェクトのイメージ実際(groundtruth)分割ラベルが互いに重なるので、COCO-Stuffのイメージ実際(groundtruth)細分化ラベルを採択して同じCOCOデータセットで重なるという問題を解決する。
【0097】
評価プロトコル:PASCAL VOC 2012の検証及びテストセットとCOCO 2014の検証セットとで方法を検証する。PASCAL VOC 2012のテストセットに対する評価結果は、公式PASCAL VOC評価サーバから持ってくる。また、分割モデルの正確度を測定するために、平均交差結合(mIoU)を採択した。
【0098】
実現細部情報:ResNet38を出力歩幅が8である方法のバックボーンネットワークで選択した。全てのバックボーンモデルは、ImageNetで事前訓練された。配置サイズが8であるSGDオプティマイザを使用する。この方法は、学習率0.01(最後のコンボリューション階層の場合、0.1)で20,000回繰り返されるまで訓練される。データ増大のために、448×448に任意サイズ調整、任意裏返し、及び任意切り取りを使用する。分割ネットワークには、DeepLab-LargeFOV(V1)及びDeepLab-ASPP(V2)、及びVGG16を採択する。そして、それらのバックボーンネットワークのためのResNet101、特に、VGG16基盤DeepLab-V1及びDeepLab-V2、ResNet101基盤DeepLab-V1及びDeepLab-V2の4つの分割ネットワークを使用する。
【0099】
実験結果
1)境界及び同時発生の処理
境界不一致の問題:擬似マスクの境界を検証するために、境界の品質を最先端方法と比較する。PASCAL VOC 2011で境界注釈(annotation)と境界ベンチマークを提供するSBD(Semantic Boundaries Dataset)を活用する。境界の品質は、ラプラシアン(Laplacian)境界感知器で擬似マスクの境界を計算することによってクラス-アグノスティック方式で評価される。その後、再現率、精密度、及びF1点数を測定して境界品質を評価し、予測境界と実際境界とを比較する。比較結果は、下記の表1のように、本発明が3つの評価指標の全てで他の方法を大きくしのぐことが分かる。
【0100】
【表1】
【0101】
図8は、本発明による境界捕捉の定性的例を示す図である。
【0102】
図8において、(a)は、入力イメージ、(b)は、イメージ実際(groundtruth)であり、(c)は、CAM、(d)は、SEAM、(e)は、ICD、(f)は、SGAN、そして(g)は、EPS方式別擬似マスクに対する定性的比較を示す。
【0103】
図8の比較結果において、絵から見て分かるように、本発明において提示したEPS方式が他の全ての方法よりもさらに正確な境界を捕捉できる。
【0104】
同時発生の問題:種々の研究で議論されたように、PASCAL VOC 2012で対象オブジェクトとともに一部バックグラウンドクラスが頻りに現れることを観察した。ここでは、PASCAL-CONTEXTデータセットを使用して同時発生オブジェクトの頻度を定量的に分析する。全体場面(例:水及び鉄道)に対するピクセル水準注釈を提供する。3個の同時発生対を選択する。水がある船、レールにある汽車、プラットホームにある汽車。対象クラスに対する認識モデル評価指標(IoU)と対象クラスに一致するクラスとの間の混同割合を比較する。混同割合は、一致するクラスが対象クラスと誤って予測された程度を測定する。
同時発生の問題を扱うそれぞれの既存方式との比較結果は、下記の表2のとおりである。
【0105】
【表2】
【0106】
表2の各項目は、混同割合
であって、低いほど良く、括弧内のIoUは、高いほど良い。
【0107】
本発明のEPSが既存の他の方法よりも一貫して低い混同率を見せていることが分かる。SGANは、本発明と相当類似した混同率を有しているが、本発明は、IoU側面で対象クラスを最も正確に捕捉する。SEAMは、CAMより混同率が高く、より一層悪い。SEAMは、対象オブジェクトの一致するピクセルに容易に騙される自己教師あり訓練(self-supervised training)を適用して対象オブジェクトの全体範囲をカバーする方法を学習するためである。一方、CAMは、対象オブジェクトの最も区別される領域のみ捕捉し、少し区別される部分(例:一致クラス)は扱わない。これは、先の図8の絵でもみることができる。
【0108】
2)マップ選択戦略の効果
顕著性マップのエラーを緩和するために、マップ選択戦略の効率性を評価する。マップ選択モジュールを使用しない基準線と3つの他のマップ選択戦略を比較する。基本戦略として、フォアグラウンドマップは、全てのオブジェクトローカルマップの統合である。バックグラウンドマップは、バックグラウンドクラスのローカルマップと同じである(すなわち、基本戦略)。次いで、次のような例外を除き、基本(naive)戦略に従う。予め定義された種々のクラス(例:ソファー、椅子、及び食卓)のローカルマップがバックグラウンドマップ(すなわち、事前定義されたクラス戦略)に割り当てられる。最後に提案する選択方法は、上述したように、ローカルマップと顕著性マップとの間の重ね合わせ割合を活用する(すなわち、適応戦略)。
【0109】
下記の表3は、適応戦略が、顕著性マップの体系的な偏向を効果的に処理できることを示す。
【0110】
【表3】
【0111】
表3に示すように、基本(navie)戦略は、ローカルマップで予測された顕著性マップを生成するとき、偏向考慮事項が無いことを意味する。この場合、特に、ソファー、椅子、または食卓のクラスで擬似マスクの性能が低下する。予め定義されたクラスを使用する性能は、顕著性マップで欠落したクラスを無視することによって偏向を緩和できることを示す。しかし、人の観察者が手動で選択しなければならないため、実用的でなく、イメージ別に最適の決定を下すことができない。一方、本発明の適応戦略は、偏向を自動に処理し、与えられた顕著性マップに対してより効果的な決定を下すことができる。
【0112】
3)最新技術との比較
擬似マスクの正確度:一般的な慣行である互いに異なるスケールのイメージで予測結果を集計して多重スケール推論を採択する。その後、EPSを基準CAM及び3つの最新方法であるSEAM、ICD、及びSGANと比較して、汽車セットで擬似マスクの正確度を評価する。ここで、汽車セットの擬似マスクが分割モデルを指導するのに使用されるので、汽車セットの擬似マスクの正確度を測定することは、WSSSの一般的なプロトコルである。
【0113】
表4は、擬似マスクの正確度を要約し、EPS方法が全ての既存の方法よりも大きい差(すなわち、7-21%ギャップ)で明確にしのぐことを示す。
【0114】
【表4】
【0115】
これは、先の図8の絵でもEPS方法がオブジェクト境界を顕著に改善し、擬似マスクの品質側面で3つの他の最新方法よりも性能が最も優れることを確認できる。本発明によるEPS方法は、オブジェクトの正確な境界を捕捉できるので、オブジェクトの全体範囲を自然に覆い、一致するピクセルも緩和することができる。
【0116】
分割マップの正確度:以前の方法は、擬似マスクを生成し、CRF後処理アルゴリズムまたは選好度ネットワークを使用して改善する。一方、先の表4で見ることができるように、生成された擬似マスクは十分に正確なので、擬似マスクに対する追加改善なしに分割ネットワークを訓練する。Pascal VOC 2012データセットの4個の分割ネットワークで本発明のEPS方法を広範に評価し、他の方法と正確に比較すると、EPS方法は、分割ネットワークに関係なく、他の方法をより一層よく行うことができる。
【0117】
表5は、EPS方法が同じVGG16バックボーンを使用する他の方法よりもさらに正確であることを示す。
【0118】
【表5】
【0119】
VGG16に対するEPSの結果は、より強力なバックボーン(例:ResNet101)を基盤とする他の既存の方法と似ているか、より優れている。これは、EPS方法が既存の方法よりも明らかな改善を示している。
【0120】
表6は、PASCAL VOC 2012データセットでEPS方法(顕著性マップがあるResNet101基盤DeepLabV1で)が新しい最先端性能(検証の場合、71.0、テストセットの場合、71.8)を達成することを示す。
【0121】
【表6】
【0122】
既存の最先端モデルにより達成された利得が約1%であることを強調したのに対し、本発明のEPS方法は、以前の最高記録よりも3%以上高い利得を達成する。
【0123】
図9は、本発明の一実施形態による擬似マスク基盤の弱教師ありセマンティック分割結果の定性的例を視覚化した図である。
【0124】
図9において、(a)は、入力イメージ、(b)は、イメージ実際(groundtruth)であり、(c)は、分割結果を示す。図9の(c)の分割結果から、本発明において提示したEPS方法が正確な境界を提供し、同時発生の問題を成功的に解決することが確認される。
【0125】
下記の表7は、MS COCO 2014で分割結果である。
【0126】
【表7】
【0127】
MS COCO 2014データセットの最新WSSSモデルであるSGANと比較するために、VGG16基盤DeepLab-V2を分割ネットワークとして使用する。EPS方法は、検証セットで35.7mIoUを達成し、SGANよりも1.9%さらに高かった。結果的に、COCO 2014データセットで新しい最先端正確度を達成した。2つのデータセットの既存の最先端技術に対するこのような優れた性能は、EPS方法の効率性を確認させる。ローカルマップと顕著性マップとを共に活用して、対象オブジェクトの全体領域を正しく捕捉し、既存モデルの短所を補完できる。
【0128】
重要領域探知モデルの効果:他の重要領域探知モデルの効果を調査するために、PFAN(基本値)、OAA、及びICDで使用されるDSS、USPS(すなわち、教師なし探知モデル)の3つの重要領域モデルを採択した。Resnet101基盤DeepLab-V1での分割結果(mIoU)は、各々PFANで71.0/71.8、DSSで70.0/70.1、USPS(検証セット及びテストセット)で68.8/69.9である。この点数は、3つの他の重要領域モデルのうちの1つを使用するEPSが先の表6の他の全ての方法よりも依然としてより正確であるということを支援する。特に、教師なし重要領域モデルを使用するEPSは、教師あり重要領域モデルを使用する全ての既存の方法よりも性能が優れている。
【0129】
本発明では、新しく擬似マスク基盤の弱教師ありセマンティック分割フレームワーク(EPS)を提案して、ローカルマップと顕著性マップとの間の相互補完を介して顕著性マップ及びローカルマップがジョイントされた擬似ピクセルフィードバック学習をすることにより、雑音や欠落した情報を補完できる。したがって、正確なオブジェクト境界を捕捉し、非対象オブジェクトの同時発生ピクセルを捨てることができ、擬似マスクの品質を大きく向上させることができる。
【0130】
以上、本発明の実施形態を参照して説明したが、当該技術分野の熟練した当業者は、本発明の思想及び技術領域から逸脱しない範囲内で本発明を多様に変更実施することが可能である。
【符号の説明】
【0131】
110 擬似マスク基盤の弱教師ありセマンティック分割装置
110 プロセッサ
130 メモリ
150 ユーザ入出力部
170 ネットワーク入出力部
210 ローカルマップ生成部
230 顕著性マップ処理部
250 多重-ラベル処理部
270 擬似マスク生成部
290 オブジェクト認識部

【要約】      (修正有)
【課題】弱教師あり学習基盤のセマンティック分割の性能を向上できる擬似マスク基盤の弱教師ありセマンティック分割装置及び方法を提供する。
【解決手段】本発明による擬似マスク基盤の弱教師ありセマンティック分割装置110は、イメージを第1の分類器に提供して複数の第1のローカルマップを生成するローカルマップ生成部、複数の第1のローカルマップに基づいて、境界線及び同時発生ピクセルを識別するのに活用される顕著性マップを介して重要領域損失を算出する顕著性マップ処理部、複数の第1のローカルマップに基づいて、多重-ラベルを予測して分類損失を算出する多重-ラベル処理部及び重要領域損失及び分類損失に基づいて、第1の分類器を更新した第2の分類器を生成し、第2の分類器による複数の第2のローカルマップに基づいて擬似マスクを生成する擬似マスク生成部を備える。
【選択図】図3
図1
図2
図3
図4
図5
図6
図7
図8
図9