IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧

特許7404474イメージセグメンテーションモデル学習方法およびシステム
<>
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図1
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図2
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図3
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図4
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図5
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図6
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図7
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図8
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図9
  • 特許-イメージセグメンテーションモデル学習方法およびシステム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-15
(45)【発行日】2023-12-25
(54)【発明の名称】イメージセグメンテーションモデル学習方法およびシステム
(51)【国際特許分類】
   G06V 10/82 20220101AFI20231218BHJP
   G06T 7/00 20170101ALI20231218BHJP
   G06T 7/11 20170101ALI20231218BHJP
   G06N 20/00 20190101ALI20231218BHJP
【FI】
G06V10/82
G06T7/00 350C
G06T7/11
G06N20/00 130
【請求項の数】 14
(21)【出願番号】P 2022146682
(22)【出願日】2022-09-15
(65)【公開番号】P2023165587
(43)【公開日】2023-11-16
【審査請求日】2022-09-15
(31)【優先権主張番号】10-2022-0055648
(32)【優先日】2022-05-04
(33)【優先権主張国・地域又は機関】KR
【新規性喪失の例外の表示】特許法第30条第2項適用 2021年9月20日 インターネットアドレス(https://arxiv.org/abs/2109.09477v1、https://arxiv.org/pdf/2109.09477v1.pdf)にて発表
(73)【特許権者】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】キム ボムヨン
(72)【発明者】
【氏名】ユ ヨンジュン
【審査官】伊知地 和之
(56)【参考文献】
【文献】Javed Iqbal et al.,Multi-Level Self-Supervised Learning for Domain Adaptation with Spatially Independent and Semantically Consistent Labeling,arXiv.org [online],2019年09月30日,https://arxiv.org/pdf/1909.13776.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06V 10/82
G06T 7/00
G06T 7/11
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
コンピューティング装置の少なくとも一つのプロセッサによって遂行されるイメージレベルラベルを利用したイメージセグメンテーションモデル学習方法において、
一つ以上の関心客体を含むイメージを受信する段階と、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成する段階と、
前記疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させる段階と、
自己教師あり学習方法により前記疑似インスタンスラベルを調整する段階と、
を含み、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成する段階は、
前記イメージを弱教師あり学習基盤セマンティックセグメンテーションモデルに入力して疑似セマンティックマップを生成する段階と、
前記イメージをピークアテンションモジュールに入力して前記イメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出する段階と、
前記疑似セマンティックマップおよび前記インスタンスキューに基づいて選択された疑似インスタンスマスクを利用して疑似インスタンスラベルを生成する段階と、
を含む、イメージセグメンテーションモデル学習方法。
【請求項2】
前記疑似セマンティックマップおよび前記インスタンスキューに基づいて選択された疑似インスタンスマスクを利用して疑似インスタンスラベルを生成する段階は、
前記疑似セマンティックマップおよび前記インスタンスキューを利用して前記関心客体に関連した一つ以上のインスタンスマスク候補を生成する段階と、
前記一つ以上のインスタンスマスク候補の中の一つのインスタンスキューに対応するインスタンスマスク候補を疑似インスタンスマスクで選択する段階と、
前記疑似インスタンスマスクに基づいて疑似インスタンスラベルを生成する段階と、
を含む、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項3】
記インスタンスマスク候補は、前記疑似セマンティックマップに基づいてCCLアルゴリズム(connected component labeling algorithm)を利用して生成される、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項4】
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した前記疑似インスタンスラベルを生成する段階は、
前記疑似インスタンスマスクを疑似センターマップに変換する段階と、
前記疑似インスタンスマスクを疑似オフセットマップに変換する段階と、
をさらに含む、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項5】
前記疑似インスタンスマスクを前記疑似センターマップに変換する段階は、
前記疑似インスタンスマスクのそれぞれの中心ポイントを2Dガウシアンカーネルを利用してエンコーディングすることによって前記疑似センターマップを生成する段階を含む、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項6】
前記疑似インスタンスマスクを前記疑似オフセットマップに変換する段階は、
前記疑似インスタンスマスクに含まれたすべてのピクセルが前記イメージに含まれた関心客体を示すインスタンスの中心ポイントに向かう2Dオフセットベクトルを含む前記疑似オフセットマップを生成する段階を含む、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項7】
コンピューティング装置の少なくとも一つのプロセッサによって遂行されるイメージレベルラベルを利用したイメージセグメンテーションモデル学習方法において、
一つ以上の関心客体を含むイメージを受信する段階と、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成する段階と、
前記疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させる段階と、
自己教師あり学習方法により前記疑似インスタンスラベルを調整する段階と、
を含み、
自己教師あり学習方法により前記疑似インスタンスラベルを調整する段階は、
前記イメージを前記イメージセグメンテーションモデルに入力して、前記イメージに関連した出力セマンティックマップ、前記イメージに含まれた関心客体の中心点を表示する出力センターマップ、および前記イメージに含まれた関心客体の中心点に対する出力オフセットマップを出力する段階と、
前記出力セマンティックマップ、前記出力センターマップおよび前記出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成する段階と、
前記インスタンスマスクに基づいて改善されたセンターマップおよび改善されたオフセットマップを生成する段階と、
前記出力セマンティックマップ、前記改善されたセンターマップおよび前記改善されたオフセットマップを利用して前記イメージセグメンテーションモデルを学習させる段階と、
を含む、イメージセグメンテーションモデル学習方法。
【請求項8】
前記インスタンスマスクに基づいて前記改善されたセンターマップおよび改善されたオフセットマップを生成する段階は、
前記改善されたオフセットマップに含まれた2Dオフセットベクトルをクラスタリングして中心点を抽出する段階と、
前記抽出された中心点を利用して前記改善されたオフセットマップを補完する段階と、
を含む、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項9】
前記出力セマンティックマップ、前記出力センターマップおよび前記出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成する段階は、
前記出力セマンティックマップに基づいて前記イメージに対する前景マスクを生成する段階と、
前記前景マスク、前記出力センターマップおよび前記出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成する段階と、
を含む、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項10】
前記イメージをピークアテンションモジュールに入力して前記イメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出する段階は、
前記イメージに含まれた一つ以上の関心客体に関連した中間フィーチャマップを獲得する段階と、
前記ピークアテンションモジュールを利用して、前記中間フィーチャマップに基づいて前記一つ以上の関心客体に関連した基準点および前記基準点に関連した臨界領域を決定する段階と、
前記ピークアテンションモジュールを利用して、前記基準点および前記臨界領域に基づいて前記中間フィーチャマップでの関心客体に関連したピーク領域およびノイズ領域を決定する段階と、
前記ピークアテンションモジュールを利用して、前記ノイズ領域を非活性化することによって前記イメージのピーク領域に対応するインスタンスキューを抽出する段階と、
を含む、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項11】
前記ピークアテンションモジュールは、自己教師あり学習方法によって学習可能なモデルである、請求項に記載のイメージセグメンテーションモデル学習方法。
【請求項12】
請求項1~請求項11のいずれか一項に記載された方法をコンピュータで実行するためのコンピュータ読み取り可能なコンピュータプログラム。
【請求項13】
情報処理システムであって、
通信モジュール;
メモリ;および
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサ
を含み、
前記少なくとも一つのプログラムは、
一つ以上の関心客体を含むイメージを受信し、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成し、
前記疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させ、
自己教師あり学習方法により前記疑似インスタンスラベルを調整するための命令語を含み、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成することは、
前記イメージを弱教師あり学習基盤セマンティックセグメンテーションモデルに入力して疑似セマンティックマップを生成し、
前記イメージをピークアテンションモジュールに入力して前記イメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出し、
前記疑似セマンティックマップおよび前記インスタンスキューに基づいて選択された疑似インスタンスマスクを利用して疑似インスタンスラベルを生成する
ことを含む、情報処理システム。
【請求項14】
情報処理システムであって、
通信モジュール;
メモリ;および
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサ
を含み、
前記少なくとも一つのプログラムは、
一つ以上の関心客体を含むイメージを受信し、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成し、
前記疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させ、
自己教師あり学習方法により前記疑似インスタンスラベルを調整するための命令語を含み、
自己教師あり学習方法により前記疑似インスタンスラベルを調整することは、
前記イメージを前記イメージセグメンテーションモデルに入力して、前記イメージに関連した出力セマンティックマップ、前記イメージに含まれた関心客体の中心点を表示する出力センターマップ、および前記イメージに含まれた関心客体の中心点に対する出力オフセットマップを出力し、
前記出力セマンティックマップ、前記出力センターマップおよび前記出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成し、
前記インスタンスマスクに基づいて改善されたセンターマップおよび改善されたオフセットマップを生成し、
前記出力セマンティックマップ、前記改善されたセンターマップおよび前記改善されたオフセットマップを利用して前記イメージセグメンテーションモデルを学習させる
ことを含む、情報処理システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示はイメージセグメンテーションモデル学習方法およびシステムに関し、具体的には、イメージレベルラベルを利用して抽出されたセマンティックセグメンテーション知識に基づいてインスタンスセグメンテーションを遂行するためのイメージセグメンテーションモデルを学習する方法およびシステムに関する。
【背景技術】
【0002】
一般的に、イメージセグメンテーション技術の中で弱教師あり学習基盤インスタンスセグメンテーション(Weakly-supervised instance segmentation、WSIS)は、弱教師あり学習基盤セマンティックセグメンテーション(Weakly-supervised semantic segmentation、WSSS)より難しい作業と見なされてきた。WSISはWSSSと比較する時、イメージレベルラベルから抽出し難いインスタンス別局所化(instance-wise localization)が要求されるためである。このような問題を解決するために、殆どのWSIS接近方式はインスタンスレベルラベルまたは客体レベルラベルを利用した事前学習が必要な既存のインスタンス情報提案技術(off-the-shelf proposal techniques)を活用するが、これは完全なイメージレベルの教師あり学習の基本設定から外れる方式である。
【0003】
また、このようなWSIS接近方式は、イメージレベルラベルの他に追加のデータをさらに要求するため、イメージレベルラベルのみを利用してインスタンスセグメンテーションを遂行し難い問題がある。一方、イメージセグメンテーションモデルを学習させる過程で一部のインスタンスが欠落している学習データを利用する場合、モデルのセグメンテーション性能が低下する問題がある。
【先行技術文献】
【特許文献】
【0004】
【文献】韓国公開特許公報第10-1999-0077203号
【発明の概要】
【発明が解決しようとする課題】
【0005】
本開示は前記のような問題点を解決するためのイメージセグメンテーションモデル学習方法、コンピュータプログラムおよび装置(システム)を提供する。
【課題を解決するための手段】
【0006】
本開示は方法、装置(システム)またはコンピュータプログラムを含んだ多様な方式で具現され得る。
【0007】
本開示の一実施例によると、少なくとも一つのプロセッサによって遂行されるイメージレベルラベルを利用したイメージセグメンテーションモデル学習方法は、一つ以上の関心客体を含むイメージを受信する段階、イメージに基づいてセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成する段階、疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させる段階および自己教師あり学習方法により疑似インスタンスラベルを調整する段階を含む。
【0008】
本開示の他の実施例によると、前述したイメージレベルラベルを利用したイメージセグメンテーションモデル学習方法をコンピュータで実行するためのコンピュータプログラムが提供される。
【0009】
本開示のさらに他の実施例によると、情報処理システムは、通信モジュール、メモリおよびメモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサを含み、少なくとも一つのプログラムは、一つ以上の関心客体を含むイメージを受信し、イメージに基づいてセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成し、疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させ、自己教師あり学習方法により疑似インスタンスラベルを調整するための命令語を含む。
【発明の効果】
【0010】
本開示の一部の実施例によると、弱教師あり学習基盤セマンティックセグメンテーションモデルによって抽出されたセマンティック知識とピークアテンションモデルから抽出したインスタンスキューを利用して、イメージレベルのラベリングを通じてインスタンスセグメンテーションモデルを学習させることができるため、イメージセグメンテーションでインスタンスラベリングに必要とされる費用と努力が節減され得る。
【0011】
本開示の一部の実施例によると、入力イメージから抽出されたセマンティック知識に基づいて生成された疑似インスタンスラベルを調整して改善されたインスタンスラベルを学習に共に利用するため、高品質のインスタンスセグメンテーションモデルを生成することができる。
【0012】
本開示の一部の実施例によると、入力イメージに含まれた関心客体と対応するオフセットマップおよびセンターマップを学習のためのガイダンスとして活用することによって、セマンティック知識で欠落しているインスタンスを探して高品質のインスタンスセグメンテーションモデルを生成することができる。
【0013】
本開示の効果は以上で言及した効果に制限されず、言及されていない他の効果は特許請求の範囲の記載から本開示が属する技術分野で通常の知識を有する者(「通常の技術者」という)に明確に理解され得るであろう。
【図面の簡単な説明】
【0014】
本開示の実施例は、以下で説明する添付図面を参照して説明され、ここで類似する参照番号は類似する要素を示すが、これに限定されはしない。
図1】本開示の一実施例に係る情報処理システムがイメージセグメンテーションモデルを学習する方法の例示を示す図面である。
図2】本開示の一実施例に係るイメージセグメンテーションモデルを学習するために使われる情報処理システムを示すブロック図である。
図3】本開示の一実施例に係る情報処理システムの内部構成を示すブロック図である。
図4】本開示の一実施例に係る関心客体を含むイメージに基づいて疑似インスタンスラベルを生成する方法の例示を示す図面である。
図5】本開示の一実施例に係る自己教師あり学習を通じて疑似インスタンスラベルを調整する方法の例示を示す図面である。
図6】本開示の一実施例によりイメージに基づいて生成されたオフセットマップを利用して中心クラスタリングを遂行する方法の例示を示す図面である。
図7】本開示の一実施例に係る疑似インスタンスラベルに基づいて、疑似インスタンスラベルの調整過程を繰り返して疑似インスタンスラベルが改善される過程の例示を示す。
図8】本開示の一実施例に係るピークアテンションモジュールを利用して、関心客体を含むイメージのフィーチャマップからインスタンスキューを抽出する方法の例示を示す図面である。
図9】本開示の一実施例に係る関心客体を含むイメージに基づいて、イメージセグメンテーションモデルが学習される過程で生成された結果の例示を示す。
図10】本開示の一実施例に係るイメージセグメンテーションモデルを学習する方法の例示を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、本開示の実施のための具体的な内容を添付された図面を参照して詳細に説明する。ただし、以下の説明では本開示の要旨を不要に曖昧にさせ得る恐れがある場合、広く知られている機能や構成に関する具体的な説明は省略することにする。
【0016】
添付された図面で、同一または対応する構成要素には同一の参照符号が付与されている。また、以下の実施例の説明において、同一または対応する構成要素を重複して記述することが省略され得る。しかし、構成要素に関する記述が省略されても、そのような構成要素がある実施例に含まれないものとは意図されない。
【0017】
開示された実施例の利点および特徴、そしてそれらを達成する方法は、添付される図面と共に後述されている実施例を参照すると明確になるであろう。しかし、本開示は以下で開示される実施例に限定されるものではなく互いに異なる多様な形態で具現され得、ただし本実施例は本開示を完全なものとし、本開示が通常の技術者に発明の範疇を完全に知らせるために提供されるものに過ぎない。
【0018】
本明細書で使われる用語について簡略に説明し、開示された実施例について具体的に説明することにする。本明細書で使われる用語は本開示での機能を考慮しつつ、できる限り現在広く使われる一般的な用語を選択したが、これは関連分野に従事する技術者の意図または判例、新しい技術の出現などにより変わり得る。また、特定の場合は出願人が任意に選定した用語もあり、この場合、該当する発明の説明の部分で詳細にその意味を記載するであろう。したがって、本開示で使われる用語は単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されなければならない。
【0019】
本明細書での単数の表現は文脈上明白に単数であると特定しない限り、複数の表現を含む。また、複数の表現は文脈上明白に複数であると特定しない限り、単数の表現を含む。明細書全体で或る部分が何らかの構成要素を含むとする時、これは特に反対の記載がない限り他の構成要素を除くものではなく他の構成要素をさらに含み得ることを意味する。
【0020】
また、明細書で使われる「モジュール」または「部」という用語はソフトウェアまたはハードウェア構成要素を意味し、「モジュール」または「部」は何らかの役割を遂行する。しかし、「モジュール」または「部」はソフトウェアまたはハードウェアに限定される意味ではない。「モジュール」または「部」はアドレッシングできる保存媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。したがって、一例として、「モジュール」または「部」はソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシーザー、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイまたは変数のうち少なくとも一つを含むことができる。構成要素と「モジュール」または「部」は、中で提供される機能はさらに小さい数の構成要素および「モジュール」または「部」で結合されるか追加的な構成要素と「モジュール」または「部」にさらに分離され得る。
【0021】
本開示の一実施例によると、「モジュール」または「部」はプロセッサおよびメモリで具現され得る。「プロセッサ」は汎用プロセッサ、中央処理装置(CPU)、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境において、「プロセッサ」は特定用途向け半導体(ASIC)、プログラム可能ロジックデバイス(PLD)、フィールドプログラム可能ゲートアレイ(FPGA)等を指称してもよい。「プロセッサ」は例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSPコアと結合した一つ以上のマイクロプロセッサの組み合わせ、または任意の他のそのような構成の組み合わせのような処理デバイスの組み合わせを指称してもよい。また、「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」はランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、プログラム可能読み取り専用メモリ(PROM)、消去-プログラム可能読み取り専用メモリ(EPROM)、電気的に消去可能PROM(EEPROM)、フラッシュメモリ、磁気または光学データ保存装置、レジスタなどのようなプロセッサ-読み取り可能媒体の多様な類型を指称してもよい。プロセッサがメモリから情報を読み取り/したりメモリに情報を記録できるのであれば、メモリはプロセッサと電子通信状態にあると呼ばれる。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。
【0022】
本開示で、「システム」はコンピューティング装置、サーバー装置およびクラウド装置のうち少なくとも一つの装置を含むことができるが、これに限定されるものではない。例えば、システムは一つ以上のコンピューティング装置またはサーバー装置で構成され得る。他の例として、システムは一つ以上のクラウド装置で構成され得る。さらに他の例として、システムはコンピューティング装置またはサーバー装置とクラウド装置が共に構成されて動作され得る。
【0023】
本開示で、「複数のAのそれぞれ」または「複数のAそれぞれ」は複数のAに含まれたすべての構成要素のそれぞれを指し示したり、複数のAに含まれた一部の構成要素のそれぞれを指称し得る。
【0024】
本開示で、「セマンティックセグメンテーション(semantic segmentation)」はイメージセグメンテーション技術の一つであって、イメージに含まれた客体を意味のある単位に分割または識別する機能または方法を指称し得る。例えば、セマンティックセグメンテーションによって、イメージに含まれたピクセルは、実際に認識できる物理的な意味単位(例えば、人、自動車、飛行機などの物理的単位)に分割または識別され得る。
【0025】
本開示で、「インスタンスセグメンテーション(instance segmentation)」はイメージセグメンテーション技術の一つであって、イメージに含まれた客体それぞれを抽出、分割または識別する機能または方法を指称し得る。例えば、インスタンスセグメンテーションによって、イメージに含まれたピクセルを実際に認識できる個別客体単位(例えば、複数の人と自動車が含まれた場合、各人および各自動車)に分割または識別され得る。
【0026】
図1は、本開示の一実施例に係る情報処理システム100がイメージセグメンテーションモデルを学習する方法の例示を示す図面である。情報処理システム100は、一つ以上の関心客体(例:イメージ110内に含まれた乳牛)を含むイメージ110に基づいてイメージセグメンテーションモデル160を学習させることができる。ここで、イメージセグメンテーションモデル160はイメージに含まれた一つ以上の関心客体のそれぞれ(例:イメージ110内に含まれた乳牛それぞれ)をピクセルレベルで区別するためのインスタンスセグメンテーションを遂行するモデルを示すことができる。例えば、イメージセグメンテーションモデル160はPanoptic-DeepLabネットワークのようなインスタンスセグメンテーションモデルを使用することができ、この場合、ネットワークのエンコーダの部分のバックボーンネットワークはHRNet48を使うことができる。
【0027】
イメージセグメンテーションモデル160を学習するために、情報処理システム100はイメージ110に基づいてセマンティック知識生成120を通じて抽出されたデータ、すなわち第1インスタンスセグメンテーション情報130を利用することができる。ここで、セマンティック知識生成120動作は、インスタンスセグメンテーションの遂行が可能なイメージセグメンテーションモデルの学習のために、セマンティックセグメンテーションモデルを利用して生成されたセマンティック知識またはデータ(例:第1インスタンスセグメンテーション情報として、疑似(pseudo)セマンティックマップ、疑似オフセットマップ、疑似センターマップ、インスタンスキューなど)を利用する戦略を具体化する方法を示すことができる。
【0028】
例えば、セマンティック知識生成120動作で、一つ以上の関心客体を含むイメージに対してセマンティックセグメンテーションを遂行する場合、イメージ内に重なっていない関心客体に対するセマンティックセグメンテーションの結果はインスタンスセグメンテーションの結果と同一であり得る。すなわち、重なっていない関心客体に対しては、セマンティックセグメンテーションの修行を通じても該当客体別にインスタンスラベリングが可能であり得る。したがって、セマンティック知識生成120は、イメージ110に基づいて弱教師あり学習基盤セマンティックセグメンテーション(WSSS:Weakly-Supervised Semantic Segmentation)モデルおよびピークアテンションモジュールを利用した疑似ラベリングを通じて第1インスタンスセグメンテーション情報130を生成する過程を意味し得る。このように生成された第1インスタンスセグメンテーション情報130はイメージセグメンテーションモデル160の学習に利用され得る。セマンティック知識生成120を通じて第1インスタンスセグメンテーション情報130が生成される過程は、図4を参照して詳細に後述される。
【0029】
また、情報処理システム100はイメージセグメンテーションモデル160を学習するために、自己教師あり学習方法により第1インスタンスセグメンテーション情報130に基づいて第2インスタンスセグメンテーション情報140の調整(refinement)を遂行できる。具体的には、情報処理システム100は第2インスタンスセグメンテーション情報140に基づいてインスタンスラベルの調整150を遂行して改善されたオフセットマップと改善されたセンターマップを生成し、これを学習データとして利用することによってイメージセグメンテーションモデル160を学習させることができる。ここで、第2インスタンスセグメンテーション情報140はイメージ110をイメージセグメンテーションモデル160に入力して出力されたイメージ110に関連したデータ(例:セマンティックマップ、センターマップ、オフセットマップ)を含むことができる。この場合、イメージセグメンテーションモデル160は第1インスタンスセグメンテーション情報130を利用して学習がなされたモデルであり得る。第2インスタンスセグメンテーション情報140の調整が遂行される過程は、図5図7を参照して詳細に後述される。
【0030】
このような構成を通じて学習されたイメージセグメンテーションモデル160は、別途の事前学習が必要なインスタント情報提案データを入力せず、イメージレベルラベルを利用してイメージに含まれた関心客体それぞれを区別または分割するインスタンスセグメンテーションを遂行できる。
【0031】
図2は、本開示の一実施例に係るイメージセグメンテーションモデルを学習するために使われる情報処理システム200を示すブロック図である。情報処理システム200はメモリ210、プロセッサ220、通信モジュール230および入出力インターフェース240を含むことができる。図2に図示された通り、情報処理システム200は通信モジュール230を利用して、ネットワークを通じて情報および/またはデータを通信できるように構成され得る。一実施例によると、情報処理システム200はメモリ210、プロセッサ220、通信モジュール230および入出力インターフェース240を含む少なくとも一つの装置で構成され得る。
【0032】
メモリ210は非一過性の任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によると、メモリ210はROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような非消滅性大容量保存装置(permanent mass storage device)を含むことができる。他の例として、ROM、SSD、フラッシュメモリ、ディスクドライブなどのような非消滅性大容量保存装置はメモリ210とは区分される別途の永久保存装置であって、情報処理システム200に含まれ得る。また、メモリ210には運営体制と少なくとも一つのプログラムコード(例えば、情報処理システム100に設置されて駆動されるインスタンスラベル生成などのためのコード)が保存され得る。
【0033】
このようなソフトウェア構成要素は、メモリ210とは別途のコンピュータで読み取り可能な記録媒体からローディングされ得る。このような別途のコンピュータで読み取り可能な記録媒体はこのような情報処理システム100に直接連結可能な記録媒体を含むことができるが、例えば、フロッピードライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのようにコンピュータで読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素はコンピュータで読み取り可能な記録媒体でない通信モジュール230を通じてメモリ210にローディングなり得る。例えば、少なくとも一つのプログラムは開発者またはアプリケーションの設置ファイルを配布するファイル配布システムが通信モジュール230を通じて提供するファイルによって設置されるコンピュータプログラム(例えば、インスタンスラベル生成などのためのプログラムなど)に基づいてメモリ210にローディングされ得る。
【0034】
プロセッサ220は基本的な算術、ロジックおよび入出力演算を遂行することによって、コンピュータプログラムの命令を処理するように構成され得る。命令はメモリ210または通信モジュール230により使用者端末(図示されず)または他の外部システムに提供され得る。例えば、プロセッサ220は一つ以上の関心客体を含むイメージを受信し、イメージに基づいてセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成し、疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させた後、自己教師あり学習方法により前記疑似インスタンスラベルを調整することができる。
【0035】
通信モジュール230はネットワークを通じて使用者端末(図示されず)と情報処理システム100が互いに通信するための構成または機能を提供することができ、情報処理システム100が外部システム(一例として、別途のクラウドシステムなど)と通信するための構成または機能を提供することができる。一例として、情報処理システム100のプロセッサ220の制御により提供される制御信号、命令、データなどが通信モジュール230とネットワークを経て使用者端末および/または外部システムの通信モジュールを通じて使用者端末および/または外部システムに伝送され得る。例えば、情報処理システム100により生成されたインスタンスセグメンテーション情報(例:オフセットマップ、センターマップ、セマンティックマップ)が通信モジュール230とネットワークを経て使用者端末および/または外部システムの通信モジュールを通じて、使用者端末および/または外部システムに伝送され得る。また、インスタンスセグメンテーション情報を受信した使用者端末および/または外部システムは、受信した情報をディスプレイ出力可能装置を通じて出力することができる。
【0036】
また、情報処理システム200の入出力インターフェース240は、情報処理システム100と連結されるか情報処理システム100が含むことができる入力または出力のための装置(図示されず)とのインターフェースのための手段であり得る。図2では入出力インターフェース240がプロセッサ220と別途に構成された要素として図示されたが、これに限定されず、入出力インターフェース240がプロセッサ220に含まれるように構成され得る。情報処理システム200は図2の構成要素よりもさらに多くの構成要素を含むことができる。しかし、殆どの従来技術的構成要素を明確に図示する必要性はない。
【0037】
情報処理システム200のプロセッサ220は複数の使用者端末および/または複数の外部システムから受信された情報および/またはデータを管理、処理および/または保存するように構成され得る。一実施例によると、プロセッサ220は使用者端末および/または外部システムから関心客体を含むイメージを受信することができる。プロセッサ220はイメージに基づいて抽出されたセマンティック知識を利用してイメージ内に含まれた関心客体に関連した疑似インスタンスラベルを生成し、疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させた後、自己教師あり学習方法により前記疑似インスタンスラベルを調整することができ、疑似インスタンスラベルに関連したデータであるセマンティックマップ、オフセットマップおよびセンターマップを情報処理システム100と連結されたディスプレイ出力可能装置を通じて出力することができる。
【0038】
図3は、本開示の一実施例に係る情報処理システムの内部構成を示すブロック図である。図示された通り、情報処理システムのプロセッサ220はセマンティック知識移転部310、インスタンスラベル調整部320およびセグメンテーションモデル学習部330を含むことができる。
【0039】
セマンティック知識移転部310は一つ以上の関心客体を含むイメージに基づいて抽出されたセマンティック知識を利用して、関心客体に関連した疑似インスタンスラベルを生成することができる。一実施例において、セマンティック知識移転部310はイメージを弱教師あり学習基盤セマンティックセグメンテーション(WSSS)モデルに入力して生成された疑似セマンティックマップ(pseudo semantic map)、およびイメージをピークアテンションモジュール(PAM:peak attention module)に入力して抽出したイメージに含まれた関心客体の少なくとも一部に関連したインスタンスキュー(instance que)に基づいて疑似インスタンスラベル(pseudo instance label)を生成することができる。例えば、セマンティック知識移転部310は疑似セマンティックマップおよびインスタンスキューを利用して関心客体に関連した一つ以上のインスタンスマスク候補(instance mask candidate)を生成することができる。それから、セマンティック知識移転部310は一つ以上のインスタンスマスク候補のうち一つのインスタンスキューに対応するインスタンスマスク候補を疑似インスタンスマスク(pseudo instance mask)として選択し、疑似インスタンスマスクに基づいて疑似インスタンスラベルを生成することができる。
【0040】
一実施例によると、セマンティック知識移転部310はイメージに含まれた一つ以上の関心客体の少なくとも一部に関連した疑似インスタンスマスクに基づいて疑似センターマップ(pseudo center map)および疑似オフセットマップ(pseudo offset map)を生成することができる。例えば、セマンティック知識移転部310は疑似インスタンスマスクのそれぞれの中心ポイントを2Dガウシアンカーネル(2-dimensional Gaussian kernel)を利用してエンコーディングすることによって、前記疑似センターマップを生成することができる。また、セマンティック知識移転部310は、疑似インスタンスマスクに含まれたすべてのピクセルがイメージに含まれた関心客体を示すインスタンスの中心ポイントに向かう2Dオフセットベクトル(2-dimensional offset vector)を含む疑似オフセットマップを生成することができる。ここで、疑似センターマップ、疑似オフセットマップはガイダンス(guidance)領域に割り当てられて、イメージに含まれた欠落しているインスタンスを探すためにイメージセグメンテーションモデル(またはインスタンスセグメンテーションモデル)の学習に利用され得る。
【0041】
一実施例によると、セマンティック知識移転部310はピークアテンションモジュール(PAM)を利用してイメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出することができる。例えば、セマンティック知識移転部310はイメージに含まれた一つ以上の関心客体に関連した中間フィーチャマップを獲得し、ピークアテンションモジュール(PAM)を利用して、中間フィーチャマップ(intermediate feature map)に基づいて一つ以上の関心客体に関連した基準点および基準点に関連した臨界領域を決定することができる。その後、セマンティック知識移転部310はピークアテンションモジュール(PAM)を利用して、基準点および臨界領域に基づいてフィーチャマップでの関心客体に関連したピーク領域およびノイズ領域を決定し、ノイズ領域を非活性化することによってイメージのピーク領域に対応するインスタンスキューを抽出することができる。
【0042】
インスタンスラベル調整部320は、自己教師あり学習方法(self-supervised manner)により疑似インスタンスラベルを調整することができる。例えば、インスタンスラベル調整部320はイメージをイメージセグメンテーションモデルに入力して出力セマンティックマップ、出力センターマップ、および出力オフセットマップを出力し、これを利用してインスタンスグルーピング(instance grouping)を遂行してインスタンスマスクを生成することができる。それから、インスタンスラベル調整部320はインスタンスマスクに基づいて改善されたセンターマップおよび改善されたオフセットマップを生成することができる。一実施例において、インスタンスラベル調整部320は改善されたオフセットマップに含まれた2Dオフセットベクトルをクラスタリング(clustering)して中心点を抽出し、抽出された中心点を利用して改善されたオフセットマップを補完することができる。
【0043】
セグメンテーションモデル学習部330は、疑似インスタンスラベル、疑似セマンティックマップ、疑似センターマップおよび疑似オフセットマップを利用してイメージセグメンテーションモデルを学習させることができる。また、セグメンテーションモデル学習部330はイメージセグメンテーションモデルから出力された出力セマンティックマップ、改善されたセンターマップおよび改善されたオフセットマップを利用してイメージセグメンテーションモデルを再学習させることができる。改善されたインスタンスラベルはイメージセグメンテーションモデルの学習過程でイメージセグメンテーションモデルから小規模のバッチ(mini-batch)ごとに生成され得、出力された出力セマンティックマップ、改善されたセンターマップおよび改善されたオフセットマップを利用した再学習は繰り返し遂行され得る。
【0044】
図4は、本開示の一実施例に係る関心客体を含むイメージに基づいて疑似インスタンスラベルを生成する方法の例示を示す図面である。一実施例によると、情報処理システムの少なくとも一つのプロセッサ(またはセマンティック知識移転部)は、一つ以上の関心客体を含むイメージ410に基づいてセマンティック知識を利用して関心客体に関連した疑似インスタンスラベル(pseudo instance label)440を獲得することができる。例えば、図示された通り、プロセッサは一つ以上の関心客体を含むイメージ410をセマンティックセグメンテーションモデル420に入力して疑似セマンティックマップ422を生成することができる。ここで、セマンティックセグメンテーションモデル420は弱教師あり学習基盤セマンティックセグメンテーション(WSSS)モデルであり得る。また、プロセッサは一つ以上の関心客体を含むイメージ410をピークアテンションモジュール(PAM)430に入力してインスタンスキュー432を抽出することができる。ここで、インスタンスキューはイメージ410に含まれた一つ以上の関心客体の少なくとも一部と対応することができる。ピークアテンションモジュール430を利用してインスタンスキューを抽出する具体的な方法は図8を参照して詳細に後述される。
【0045】
一実施例によると、プロセッサは疑似セマンティックマップ422とインスタンスキュー432に基づいて疑似インスタンスラベル440を生成することができる。具体的には、プロセッサはセマンティックセグメンテーションモデル420を利用して生成された疑似セマンティックマップ422から重ならない客体のインスタンスを探して疑似インスタンスラベル440として決定することができる。例えば、プロセッサはCCLアルゴリズム(connected component labeling algorithmまたはCCL algorithm)を利用して疑似セマンティックマップ422から一つ以上のインスタンスマスク候補を獲得し、一つ以上のインスタンスマスク候補のそれぞれに含まれたインスタンスキューの個数を算出した後、インスタンスキューの個数が一つのインスタンスマスク候補を疑似インスタンスマスクとして決定することができる。それから、プロセッサは疑似インスタンスマスクを利用して疑似インスタンスラベル440を生成することができる。この過程で生成された一つ以上の疑似インスタンスラベル440は、イメージ410内に含まれた一つ以上の関心客体のうち一部のそれぞれまたは全部のそれぞれに対応することができる。
【0046】
一実施例によると、プロセッサは一つ以上の疑似インスタンスマスクを疑似センターマップ442および疑似オフセットマップ434に変換することができる。例えば、プロセッサは疑似インスタンスマスクのそれぞれの中心ポイントを2Dガウシアンカーネルを利用してエンコーディングすることによって、疑似センターマップ442を生成することができる。この場合、プロセッサは6-ピクセル標準偏差の2Dガウシアンカーネルを利用することができる。また、プロセッサは疑似インスタンスマスクに含まれたすべてのピクセルがイメージに含まれた関心客体を示すインスタンスの中心ポイントに向かう2Dオフセットベクトルを保存することによって、疑似オフセットマップ434を生成することができる。
【0047】
プロセッサは生成された疑似インスタンスラベル440を利用してイメージセグメンテーションモデルを学習させることができる。この過程で、イメージ410に含まれた関心客体のうち疑似インスタンスラベル440で欠落しているインスタンス(すなわち、関心客体)が存在し得る。この場合、欠落しているインスタンスは背景クラスとして分類されるため、イメージセグメンテーションモデルの学習効果を低下させ得る問題が発生し得る。欠落しているインスタンスに対するオフセットマップおよびセンターマップは目的関数(objective function)に反映されないため、プロセッサはラベリングされたインスタンスの領域にオフセットマップおよびセンターマップに対するガイダンス領域(guidance region)を割り当てることができる。この過程は、インスタンス認知ガイダンス(instance-aware guidance)方法/戦略と指称され得る。これを通じて、プロセッサはイメージセグメンテーションモデルの学習が進行されるにつれて欠落したインスタンスに対するインスタンスレベル情報を安定的に獲得することができる。
【0048】
図5は、本開示の一実施例に係る自己教師あり学習を通じて疑似インスタンスラベルを調整する方法の例示を示す図面である。一実施例によると、情報処理システムの少なくとも一つのプロセッサ(またはインスタンスラベル調整部およびセグメンテーションモデル学習部)は、自己教師あり学習を通じてインスタンスセグメンテーション情報に含まれた偽陰性(false-negatives)を真陽性(true-positives)に変換することによってインスタンスラベルに対する調整(refinement)を遂行し、このような調整を通じて改善されたインスタンスラベルをイメージセグメンテーションモデルの学習に利用することができる。
【0049】
一実施例において、プロセッサは一つ以上の関心客体を含んだイメージ510をイメージセグメンテーションモデル520に入力してインスタンスセグメンテーション情報(例:出力セマンティックマップ522、出力センターマップ526、出力オフセットマップ528)を出力することができる。プロセッサは出力されたインスタンスセグメンテーション情報に基づいてインスタンスグルーピング540を遂行してインスタンスマスクを生成でき、これを利用して改善されたセンターマップ542および改善されたオフセットマップ544を生成することができる。プロセッサは改善されたセンターマップ542および改善されたオフセットマップ544をガイダンスとして利用して、イメージセグメンテーションモデル520を学習することができる。
【0050】
一実施例において、プロセッサは出力セマンティックマップ522を利用して前景マスク524を決定することができる。また、プロセッサは出力センターマップ526からそれぞれのインスタンスに対する中心点を抽出することができる。例えば、出力センターマップ526に対する最大値プーリング(max-pooling)の前後に同一の値を有するピクセルの位置が中心点として決定され得る。それから、プロセッサはピクセルレベルでそれぞれのインスタンスのIDを割り当てることができる。このような過程がインスタンスグルーピング540と指称され得る。例えば、抽出されたn番目の中心点は(x、y)で示すことができる。オフセットマップはピクセル位置が(i、j)である地点で
【数1】
で示すことができる。また、インスタンスIDはピクセル位置が(i、j)である地点でki、jで示すことができ、これは下記の数学式1のように定義することができる。
【0051】
【数2】
【0052】
一実施例によると、プロセッサは出力オフセットマップ528に基づいてセンタークラスタリング530を遂行して改善されたオフセットマップ544の品質を向上させることができる。出力オフセットマップ528に基づいてセンタークラスタリング530を遂行する方法は、図6を参照して詳細に後述する。
【0053】
一実施例によると、プロセッサは疑似ラベルと改善されたラベルをすべて使ってイメージセグメンテーションモデル520を学習させることができる。出力セマンティックマップ522、出力オフセットマップ528および出力センターマップ526を、それぞれS(・), O(・), C(・)で示すことができる。プロセッサは疑似ラベルおよび改善されたラベルからラベリングされたインスタンス領域に対するピクセルセットを収集することができる。ここで、疑似ラベルおよび改善されたラベルに対するピクセルセットは、それぞれPpseudoおよびPrefinedで示すことができる。プロセッサは、ソフトラベルとして改善されたラベルを活用することによって、加重値マスクW(i、j)を数学式2のように設定することができる。
【0054】
【数3】
【0055】
ここで、改善されたラベル内のn番目のインスタンスの中心点は(x、y)で表示され得、C(x、y)はn番目のインスタンスの信頼度スコア(confidence score)を意味し得る。また、Wは改善されたラベルに対する目的関数の加重値として使われ得る。センターマップに対する目的関数は下記の数学式3で定義され得る。
【0056】
【数4】
【0057】
ここで、疑似センターマップおよび改善されたセンターマップはそれぞれ
【数5】
および
【数6】
であり得る。また、オフセットマップに対する目的関数は下記の数学式4で定義され得る。
【0058】
【数7】
【0059】
ここで、疑似オフセットマップおよび改善されたオフセットマップはそれぞれ
【数8】
および
【数9】
であり得る。また、セマンティックマップに対する目的関数は下記の数学式5で定義され得る。
【0060】
【数10】
【0061】
ここで、Sは出力セマンティックマップを示し、Psem
【数11】
でのすべてのピクセルセットを示す。イメージセグメンテーションモデル520は前述した三種類の目的関数を有して学習され得、最終目的関数は下記の数学式6で定義され得る。
【0062】
【数12】
【0063】
ここで、λは加重値パラメータを示す。
【0064】
このような自己教師あり学習を通じてのインスタンスラベルの調整を通じて、疑似ラベルは高品質の改善されたラベルに変換され得る。また、改善されたラベルは学習過程でイメージセグメンテーションモデル520から小規模のバッチ(mini-batch)ごとに生成され得る。
【0065】
図6は、本開示の一実施例によりイメージに基づいて生成されたオフセットマップを利用して中心クラスタリングを遂行する方法の例示を示す図面である。一実施例によると、プロセッサ(またはインスタンスラベル調整部)はイメージに関連したオフセットマップに基づいてセンタークラスタリングを遂行して改善されたオフセットマップの品質を向上させることができる。例えば、図示された通り、第1状態610~第4状態640は一つ以上の関心客体を含むイメージからイメージに含まれた関心客体の中心点を抽出する過程の例示を示す。
【0066】
第1状態610は一つ以上の関心客体を含むイメージの例示を示す。ここで、一つ以上の関心客体を含むイメージは、イメージに含まれた関心客体、すなわちインスタンスを識別するためにイメージセグメンテーションモデルに入力される学習データを示し得る。
【0067】
第2状態620はイメージに関連したオフセットマップの例示を示す。イメージセグメンテーションモデルを利用して実行されるインスタンスセグメンテーションで、インスタンスはイメージに含まれた関心客体の中心点およびこれに対応する2Dオフセットベクトルで示すことができる。
【0068】
第3状態630はイメージに関連した出力オフセットマップに含まれた2Dオフセットベクトルをクラスタリングして生成されたマグニチュードマップ(magnitude map)の例示を示す。一実施例によると、プロセッサはインスタンスラベルを調整して改善されたラベルを生成する過程で、中心クラスタリングアルゴリズムを利用してオフセットマップから中心点を抽出することができる。例えば、プロセッサはオフセットマップに基づいて各ピクセルが2Dベクトルのマグニチュードを示すマグニチュードマップを生成することができる。マグニチュードマップで各インスタンスの中心近くにあるピクセルは、0に近い値を有することができる。それから、プロセッサはマグニチュードマップに臨界値(例えば、2.5)を適用することができる。
【0069】
第4状態640はイメージに含まれた関心客体に対応するマスク候補の中心点の例示を示す。例えば、プロセッサはCCLアルゴリズムを利用して獲得した各マスク候補の中心点を抽出することができる。ここで、マスク候補の最適領域は臨界値により決定され得る。例えば、臨界値が2.5である場合、マスク候補の予想領域は21に近くなり得るい。また、プロセッサは信頼性チェックのために、マスク候補の領域が21-εおよび21+εの間の値を有するかどうかを確認することができる。この時、εは3で設定され得る。このような構成を利用して、イメージセグメンテーションモデルの初期学習段階で不安定なオフセットマップから誤った中心点が抽出されることを防止することができる。
【0070】
このような方法を通じて、出力センターマップに欠落している中心点が存在しても、クラスタリングされた中心点を利用して改善されたセンターマップを補完することができる。
【0071】
図7は、本開示の一実施例に係る疑似インスタンスラベルに基づいて、疑似インスタンスラベルの調整過程を繰り返して疑似インスタンスラベルが改善される過程の例示を示す。一実施例によると、プロセッサは疑似インスタンスラベルおよび改善されたインスタンスラベルを利用してイメージセグメンテーションモデルを繰り返し学習させることができる。これを通じて、イメージセグメンテーションモデルは安定化された一般化能力(generalization ability)を備えることができ、イメージ内の欠落しているインスタンスに対してインスタンスレベル情報を次第に獲得することができる。
【0072】
具体的には、第1状態710~第4状態740は、疑似インスタンスラベルおよび改善されたインスタンスラベルを利用して繰り返しイメージセグメンテーションモデルを学習した結果を示す。第1状態710は一つ以上の関心客体を含むイメージに基づいて弱教師あり学習基盤のセマンティックセグメンテーション(WSSS)モデルを利用して生成された疑似インスタンスラベルの例示を示す。例えば、3匹の乳牛客体が含まれたイメージに基づいて生成された疑似インスタンスラベルは3匹の乳牛のうち一匹に対してインスタンスラベルを生成することができる。
【0073】
第2状態720~第4状態740は疑似インスタンスラベルに基づいて学習されたイメージセグメンテーションモデルから出力されたインスタンスセグメンテーション情報722、732、742およびこれに基づいて生成された改善されたインスタンスラベル724、734、744の例示を示す。一実施例において、改善されたラベルは学習過程でイメージセグメンテーションモデルから小規模のバッチ(mini-batch)ごとに生成され得る。例えば、第2状態720、第3状態730および第4状態740は、各小規模のバッチごとに生成されたインスタンスセグメンテーション情報および改善されたインスタンスラベルを示すことができ、各バッチ過程を遂行しながらイメージ内の欠落しているインスタンスは減少し得、インスタンスセグメンテーション品質は高くなり得る。
【0074】
図8は、本開示の一実施例に係るピークアテンションモジュール(PAM)を利用して関心客体を含むイメージのフィーチャマップからインスタンスキューを抽出する方法の例示を示す図面である。一実施例によると、プロセッサはピークアテンションモジュール(PAM)810を利用してインスタンスキューを抽出することができる。ここでピークアテンションモジュールは選択器(selector)812、コントローラ(controller)814およびピーク刺激器(peak stimulator)816を含むことができる。具体的には、プロセッサはイメージに関連した中間フィーチャマップ(intermediate feature map)820をピークアテンションモジュール(PAM)810に入力することができる。ここで、中間フィーチャマップ820は
【数13】
で表示でき、ここで、H、W、CはそれぞれXの高さ、幅およびチャネル数を示す。選択器812はXに対してグローバル最大値プーリング(global max pooling)を適用してピーク領域の基準点を選択することができる。また、コントローラ814はピーク領域に対するアテンションをどれほど強化するかを決定し、これは
【数14】
で表示することができる。
【0075】
以上の構成によるピークアテンションモジュール(PAM)810はイメージに関連した中間フィーチャマップをピーク領域とノイズ領域に区分し、ノイズ領域に対するアテンションを非活性化することによって、ピーク領域に対するアテンションを強化することができる。
【数15】
はピーク領域の境界を意味し得る。ここで、「・」は行列の各元素別に掛け算を遂行する演算子(element-wise multiplication)を示す。τより高い値を有するXの領域はピーク領域として決定され、残りの領域はノイズ領域として決定され得る。ノイズ領域はその値を0(zero)に設定することによってピーク領域に集中させることができる。ピークアテンションモジュール(PAM)810は分流器(classifier)に連結され、イメージに含まれた関心客体のそれぞれに対する地域別最大値(すなわち、インスタンスキュー)を抽出することによって、アクティベーションマップ(activation map)830を生成することができる。
【0076】
図9は、本開示の一実施例に係る関心客体を含むイメージに基づいて、イメージセグメンテーションモデルが学習される過程で生成された結果の例示を示す。一実施例によると、情報処理システムの少なくとも一つのプロセッサ(またはセグメンテーションモデル学習部)は少なくとも一つ以上の関心客体を含むイメージに基づいて抽出されたセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成し、疑似インスタンスラベルを利用して前記イメージセグメンテーションモデルを学習させることができる。また、プロセッサ(またはインスタンスラベル調整部)は自己教師あり学習方法により疑似インスタンスラベルを調整することができる。例えば、第1状態~第4状態910、920、930、940は少なくとも一つ以上の関心客体を含むイメージに基づいて抽出されたセマンティック知識を利用して疑似インスタンスラベル922、924、926を生成し、疑似インスタンスラベル922、924、926を利用して学習されたイメージセグメンテーションモデルから出力された結果932、934、936を利用して生成されたイメージに含まれた関心客体に対するインスタンスマスクの例示を示す。
【0077】
第1状態910は少なくとも一つ以上の関心客体を含む入力イメージの例示を示す。第2状態920は入力イメージに基づいて抽出されたセマンティック知識を利用して一つ以上の関心客体の少なくとも一部に対応する疑似インスタンスラベルの例示を示す。例えば、入力イメージ内に含まれた関心客体野原のうち一部に対応する疑似インスタンスラベルが生成されたことが確認できる。
【0078】
第3状態930は疑似インスタンスラベルに基づいて学習されたイメージセグメンテーションモデルを利用して入力イメージに対する出力データの例示を示す。ここで出力データは入力イメージに対応する出力オフセットマップ、出力センターマップおよび出力セマンティックマップを含むことができる。出力データの場合、疑似インスタンスラベルおよび調整によって改善された疑似インスタンスラベルを利用してイメージセグメンテーションモデルの繰り返しを遂行することによって、イメージに含まれた関心客体に対してさらに識別可能となったことが確認できる。第4状態940は出力データに基づいてインスタンスグルーピングを遂行して生成したインスタンスマスクの例示を示す。これを通じて、イメージレベルのラベルに基づいてイメージに含まれた関心客体それぞれを区別するインスタンスマスクが生成され得ることを確認することができる。
【0079】
本出願の発明者は、図4図8を参照して説明した本開示の多様な実施例に係るイメージセグメンテーションモデルの学習方法に対する評価を実行した。このために、VOC 2012データセットの場合、10,582個の学習および1,449個の検証イメージが含まれた20個の客体カテゴリーを含む増強データセットが使われた。COCOデータセットは115K学習で構成され、5K有効性検査および80個の客体カテゴリーがある20Kテストイメージが使われた。VOC 2012に対してintersection-over-union(IoU)臨界値が0.25、0.5、0.7、0.75であるmean average precision(MAP)を使って、イメージセグメンテーションモデルの学習方法の遂行能力が評価された。また、COCOに対しておよびIoU臨界値が0.5~0.95であるaverage APを使って、イメージセグメンテーションモデルの学習方法の遂行能力が評価された。
【0080】
本開示のイメージセグメンテーションモデルを学習するためのセマンティック知識移転のためにピークアテンションモジュール(PAM)からインスタンスキューを抽出し、疑似インスタンスマスクは弱教師あり学習基盤セマンティックセグメンテーション(WSSS)方法を使って抽出された。バックボーンネットワークとしてHRNet48が採択された。学習のための入力の大きさは416×416であり、評価のために解像度が維持された。5×10-5学習率を有するAdam optimizerを利用して32バッチサイズで70エポックの間イメージセグメンテーションモデルが学習された。
【0081】
【表1】
【0082】
【表2】
【0083】
前記の表1はCOCOデータセットに対し、表2はVOC 2012データセットに対して、本開示のイメージセグメンテーションモデル学習方法と既存の弱教師あり学習基盤インスタンスセグメンテーションモデル(WSIS、Weakly-supervised instance segmentation)とを比較する。本開示の方法はAP50指標で既存の方法より優秀なものと確認された。LIIDの場合、本開示の方法より優秀なAPを達成したが、事前学習が必要な追加提案データを必要とするので、イメージレベルの教師あり学習設定に符合しない。また、イメージレベルの教師あり学習方法を使ったIRNと比較した時、本開示の発明がさらに優秀であることが確認された(51.0%vs.46.7%)。
【0084】
図10は、本開示の一実施例に係るイメージセグメンテーションモデルを学習する方法の例示を示すフローチャートである。イメージセグメンテーションモデル学習方法は情報処理システムの少なくとも一つのプロセッサによって遂行され得る。このような方法は、一つ以上の関心客体を含むイメージを受信することによって開始され得る(S1010)。
【0085】
一実施例によると、プロセッサはイメージに基づいて抽出されたセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成することができる(S1020)。例えば、プロセッサはイメージを弱教師あり学習基盤セマンティックセグメンテーション(WSSS)モデルに入力して疑似セマンティックマップを生成することができる。また、プロセッサはイメージをピークアテンションモジュール(PAM)に入力してイメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出することができる。例えば、プロセッサはイメージに含まれた一つ以上の関心客体に関連した中間フィーチャマップを獲得することができる。また、プロセッサはピークアテンションモジュール(PAM)を利用して、中間フィーチャマップに基づいて一つ以上の関心客体に関連した基準点および基準点に関連した臨界領域を決定することができる。その後、プロセッサはピークアテンションモジュール(PAM)を利用して、基準点および前記臨界領域に基づいてフィーチャマップでの関心客体に関連したピーク領域およびノイズ領域を決定することができ、ノイズ領域を非活性化することによってイメージのピーク領域に対応するインスタンスキューを抽出することができる。ここで、ピークアテンションモジュール(PAM)は、自己教師あり学習方法によって学習可能なモデルであり得る。
【0086】
プロセッサは、疑似セマンティックマップおよびインスタンスキューに基づいて選択された疑似インスタンスマスクを利用して疑似インスタンスラベルを生成することができる。具体的には、プロセッサは疑似セマンティックマップおよびインスタンスキューを利用して関心客体に関連した一つ以上のインスタンスマスク候補を生成することができる。その後、プロセッサは一つ以上のインスタンスマスク候補のうち、一つのインスタンスキューに対応するインスタンスマスク候補を疑似インスタンスマスクとして選択することができ、疑似インスタンスマスクに基づいて疑似インスタンスラベルを生成することができる。ここで、インスタンスマスク候補は、疑似セマンティックマップに基づいてCCLアルゴリズムを利用して生成され得る。
【0087】
一実施例において、プロセッサは疑似インスタンスマスクを前記疑似センターマップに変換することができる。例えば、プロセッサは疑似インスタンスマスクのそれぞれの中心ポイントを、2Dガウシアンカーネルを利用してエンコーディングすることによって前記疑似センターマップを生成することができる。一実施例において、プロセッサは疑似インスタンスマスクを前記疑似オフセットマップに変換することができる。例えば、プロセッサは疑似インスタンスマスクに含まれたすべてのピクセルがイメージに含まれた関心客体を示すインスタンスの中心ポイントに向かう2Dオフセットベクトルを含む疑似オフセットマップを生成することができる。ここで、疑似センターマップおよび疑似オフセットマップは、一つ以上の関心客体を含むイメージに対して欠落しているインスタンスを探すためにイメージセグメンテーションモデルの学習に使われるガイダンスであり得る。
【0088】
プロセッサは疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させることができる(S1030)。それから、プロセッサは自己教師あり学習方法により疑似インスタンスラベルを調整することができる(S1040)。具体的には、プロセッサはイメージをイメージセグメンテーションモデルに入力して、イメージに関連した出力セマンティックマップ、イメージに含まれた関心客体の中心点を表示する出力センターマップ、およびイメージに含まれた関心客体の中心点に対する出力オフセットマップを出力することができる。また、プロセッサは出力セマンティックマップ、出力センターマップおよび出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成することができる。その後、プロセッサはインスタンスマスクに基づいて改善されたセンターマップおよび改善されたオフセットマップを生成することができる。それから、プロセッサは出力セマンティックマップ、改善されたセンターマップおよび改善されたオフセットマップを利用してイメージセグメンテーションモデルを学習させることができる。
【0089】
一実施例において、プロセッサは改善されたオフセットマップの品質を高めるために、センタークラスタリングを遂行できる。例えば、プロセッサは改善されたオフセットマップに含まれた2Dオフセットベクトルをクラスタリングして中心点を抽出することができる。その後、プロセッサは抽出された中心点を利用して改善されたオフセットマップを補完することができる。
【0090】
一実施例において、プロセッサはイメージに対するセマンティックマップに基づいて生成された前景マスクを利用してインスタンスマスクを生成することができる。例えば、プロセッサは出力セマンティックマップに基づいてイメージに対する前景マスクを生成することができる。その後、プロセッサは前景マスク、出力センターマップおよび出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成することができる。
【0091】
図10で図示したフローチャートおよび前述した説明は一例示に過ぎず、一部の実施例では異なって具現され得る。例えば、一部の実施例では各段階の順序が変わったり、一部の段階が繰り返し遂行されたり、一部の段階が省略されたり、一部の段階が追加され得る。
【0092】
前述した方法はコンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムで提供され得る。媒体はコンピュータで実行可能なプログラムを保存し続けたり、実行またはダウンロードのために臨時保存するものであってもよい。また、媒体は単一または複数個ハードウェアが結合された形態の多様な記録手段または保存手段であり得るが、或るコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD-ROMおよびDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto optical medium)、およびROM、RAM、フラッシュメモリなどを含んでプログラム命令語が保存されるように構成されたものがあり得る。また、他の媒体の例示として、アプリケーションを流通するアップストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバーなどで管理する記録媒体乃至保存媒体も挙げられる。
【0093】
本開示の方法、動作または技法は、多様な手段によって具現されてもよい。例えば、このような技法はハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせで具現されてもよい。本願の開示と連係して説明された多様な例示的な論理的ブロック、モジュール、回路、およびアルゴリズム段階は、電子ハードウェア、コンピュータソフトウェア、または両者の組み合わせで具現されてもよいことを通常の技術者は理解するであろう。ハードウェアおよびソフトウェアの、このような相互代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路、および段階がそれらの機能的観点から一般的に前述された。そのような機能がハードウェアで具現されるかまたはソフトウェアで具現されるかは、特定アプリケーションおよび全体システムに課される設計要求事項により変わる。通常の技術者はそれぞれの特定アプリケーションのために多様な方式で説明された機能を具現してもよいが、そのような具現は本開示の範囲から逸脱するものとして解釈されてはならない。
【0094】
ハードウェアの具現において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のASIC、DSP、デジタル信号プロセッシングデバイス(digital signal processing devices;DSPD)、プログラム可能論理デバイス(programmable logic devices;PLD)、フィールドプログラム可能ゲートアレイ(field programmable gate arrays;FPGA)、プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、またはこれらの組み合わせ内で具現されてもよい。
【0095】
したがって、本開示と連係して説明された多様な例示的な論理ブロック、モジュール、および回路は汎用プロセッサ、DSP、ASIC、FPGAや他のプログラム可能論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、または本願に説明された機能を遂行するように設計されたものなどの任意の組み合わせで具現されたり遂行されてもよい。汎用プロセッサはマイクロプロセッサであり得るが、代案として、プロセッサは任意の従来のプロセッサ、制御器、マイクロ制御器、または状態マシンであってもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、DSPとマイクロプロセッサ、複数のマイクロプロセッサ、DSPコアと連係した一つ以上のマイクロプロセッサ、または任意の他の構成の組み合わせで具現されてもよい。
【0096】
ファームウェアおよび/またはソフトウェアの具現において、技法はランダムアクセスメモリ(random access memory;RAM)、読み取り専用メモリ(read-only memory;ROM)、不揮発性RAM(non-volatile random access memory;NVRAM)、PROM(programmable read-only memory)、EPROM(erasable programmable read-only memory)、EEPROM(electrically erasable PROM)、フラッシュメモリ、コンパクトディスク(compact disc;CD)、磁気または光学データストレージデバイスなどのようなコンピュータ読み取り可能媒体上に保存された命令で具現されてもよい。命令は一つ以上のプロセッサによって実行可能であってもよく、プロセッサ(ら)が本開示に説明された機能の特定様態を遂行するようにしてもよい。
【0097】
ソフトウェアで具現される場合、前記技法は一つ以上の命令またはコードでコンピュータ読み取り可能な媒体上に保存されたりまたはコンピュータ読み取り可能な媒体を通じて伝送されてもよい。コンピュータ読み取り可能媒体は、一つの場所から他の場所にコンピュータプログラムの伝送を容易にする任意の媒体を含んでコンピュータ保存媒体および通信媒体の両者を含む。保存媒体はコンピュータによってアクセスされ得る任意の利用可能な媒体であってもよい。非制限的な例として、このようなコンピュータ読み取り可能媒体はRAM、ROM、EEPROM、CD-ROMまたは他の光学ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、または希望のプログラムコードを命令またはデータ構造の形態で移送または保存するために使われ得、コンピュータによってアクセスされ得る任意の他の媒体を含むことができる。また、任意の接続がコンピュータ読み取り可能媒体で適切に称される。
【0098】
例えば、ソフトウェアが同軸ケーブル、光ファイバーケーブル、撚線、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波のような無線技術を使ってウェブサイト、サーバー、または他の遠隔ソースから伝送されると、同軸ケーブル、光ファイバーケーブル、撚線、デジタル加入者回線、または赤外線、無線、およびマイクロ波のような無線技術は媒体の定義内に含まれる。本願で使われたディスク(disk)とディスク(disc)は、CD、レーザーディスク、光ディスク、DVD(digital versatile disc)、フロッピーディスク、およびブルーレイディスクを含み、ここでディスク(disks)は通常磁気的にデータを再生し、反面ディスク(discs)はレーザーを利用して光学的にデータを再生する。前記の組み合わせもコンピュータ読み取り可能媒体の範囲内に含まれるべきである。
【0099】
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、移動式ディスク、CD-ROM、または公知の任意の他の形態の保存媒体内に常駐してもよい。例示的な保存媒体は、プロセッサが保存媒体から情報を読み出しまたは保存媒体に情報を書き込みできるように、プロセッサに連結され得る。代案として、保存媒体はプロセッサに統合されてもよい。プロセッサと保存媒体はASIC内に存在してもよい。ASICはユーザー端末内に存在してもよい。代案として、プロセッサと保存媒体はユーザー端末で個別の構成要素として存在してもよい。
【0100】
以上で説明された実施例が一つ以上の独立型コンピュータシステムで現在開示された主題の様態を活用するものとして記述されたが、本開示はこれに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境と連係して具現されてもよい。ひいては、本開示で主題の様相は複数のプロセッシングチップや装置で具現されてもよく、ストレージは複数の装置に亘って同様に影響を受けることになることもある。このような装置はPC、ネットワークサーバー、および携帯用装置を含んでもよい。
【0101】
本明細書では本開示が一部の実施例と関連して説明されたが、本開示の発明が属する技術分野の通常の技術者が理解できる本開示の範囲を逸脱しない範囲で多様な変形および変更がなされ得る。また、そのような変形および変更は本明細書に添付された特許請求の範囲内に属するものと考えられるべきである。
【符号の説明】
【0102】
100:情報処理システム
110:イメージ
120:セマンティック知識生成
130:第1インスタンスセグメンテーション情報
140:第2インスタンスセグメンテーション情報
150:インスタンスラベルの調整
160:イメージセグメンテーションモデル
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10