特許7404474 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー　コーポレーションの特許一覧

特許7404474イメージセグメンテーションモデル学習方法およびシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-15

(45)【発行日】2023-12-25

(54)【発明の名称】イメージセグメンテーションモデル学習方法およびシステム

(51)【国際特許分類】

G06V 10/82 20220101AFI20231218BHJP

G06T 7/00 20170101ALI20231218BHJP

G06T 7/11 20170101ALI20231218BHJP

G06N 20/00 20190101ALI20231218BHJP

【ＦＩ】

G06V10/82

G06T7/00 350C

G06T7/11

G06N20/00 130

【請求項の数】 14

(21)【出願番号】P 2022146682

(22)【出願日】2022-09-15

(65)【公開番号】P2023165587

(43)【公開日】2023-11-16

【審査請求日】2022-09-15

(31)【優先権主張番号】10-2022-0055648

(32)【優先日】2022-05-04

(33)【優先権主張国・地域又は機関】KR

【新規性喪失の例外の表示】特許法第３０条第２項適用２０２１年９月２０日インターネットアドレス（ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２１０９．０９４７７ｖ１、ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ｐｄｆ／２１０９．０９４７７ｖ１．ｐｄｆ）にて発表

(73)【特許権者】

【識別番号】505205812

【氏名又は名称】ネイバーコーポレーション

【氏名又は名称原語表記】ＮＡＶＥＲＣｏｒｐｏｒａｔｉｏｎ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】キムボムヨン

(72)【発明者】

【氏名】ユヨンジュン

【審査官】伊知地和之

(56)【参考文献】

【文献】Javed Iqbal et al.，Multi-Level Self-Supervised Learning for Domain Adaptation with Spatially Independent and Semantically Consistent Labeling，arXiv.org [online]，2019年09月30日，https://arxiv.org/pdf/1909.13776.pdf

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｖ１０／８２

Ｇ０６Ｔ７／００

Ｇ０６Ｔ７／１１

Ｇ０６Ｎ２０／００

(57)【特許請求の範囲】

【請求項1】

コンピューティング装置の少なくとも一つのプロセッサによって遂行されるイメージレベルラベルを利用したイメージセグメンテーションモデル学習方法において、
一つ以上の関心客体を含むイメージを受信する段階と、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成する段階と、
前記疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させる段階と、
自己教師あり学習方法により前記疑似インスタンスラベルを調整する段階と、
を含み、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成する段階は、
前記イメージを弱教師あり学習基盤セマンティックセグメンテーションモデルに入力して疑似セマンティックマップを生成する段階と、
前記イメージをピークアテンションモジュールに入力して前記イメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出する段階と、
前記疑似セマンティックマップおよび前記インスタンスキューに基づいて選択された疑似インスタンスマスクを利用して疑似インスタンスラベルを生成する段階と、
を含む、イメージセグメンテーションモデル学習方法。

【請求項2】

前記疑似セマンティックマップおよび前記インスタンスキューに基づいて選択された疑似インスタンスマスクを利用して疑似インスタンスラベルを生成する段階は、
前記疑似セマンティックマップおよび前記インスタンスキューを利用して前記関心客体に関連した一つ以上のインスタンスマスク候補を生成する段階と、
前記一つ以上のインスタンスマスク候補の中の一つのインスタンスキューに対応するインスタンスマスク候補を疑似インスタンスマスクで選択する段階と、
前記疑似インスタンスマスクに基づいて疑似インスタンスラベルを生成する段階と、
を含む、請求項１に記載のイメージセグメンテーションモデル学習方法。

【請求項3】

前記インスタンスマスク候補は、前記疑似セマンティックマップに基づいてＣＣＬアルゴリズム（ｃｏｎｎｅｃｔｅｄｃｏｍｐｏｎｅｎｔｌａｂｅｌｉｎｇａｌｇｏｒｉｔｈｍ）を利用して生成される、請求項２に記載のイメージセグメンテーションモデル学習方法。

【請求項4】

前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した前記疑似インスタンスラベルを生成する段階は、
前記疑似インスタンスマスクを疑似センターマップに変換する段階と、
前記疑似インスタンスマスクを疑似オフセットマップに変換する段階と、
をさらに含む、請求項１に記載のイメージセグメンテーションモデル学習方法。

【請求項5】

前記疑似インスタンスマスクを前記疑似センターマップに変換する段階は、
前記疑似インスタンスマスクのそれぞれの中心ポイントを２Ｄガウシアンカーネルを利用してエンコーディングすることによって前記疑似センターマップを生成する段階を含む、請求項４に記載のイメージセグメンテーションモデル学習方法。

【請求項6】

前記疑似インスタンスマスクを前記疑似オフセットマップに変換する段階は、
前記疑似インスタンスマスクに含まれたすべてのピクセルが前記イメージに含まれた関心客体を示すインスタンスの中心ポイントに向かう２Ｄオフセットベクトルを含む前記疑似オフセットマップを生成する段階を含む、請求項４に記載のイメージセグメンテーションモデル学習方法。

【請求項7】

コンピューティング装置の少なくとも一つのプロセッサによって遂行されるイメージレベルラベルを利用したイメージセグメンテーションモデル学習方法において、
一つ以上の関心客体を含むイメージを受信する段階と、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成する段階と、
前記疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させる段階と、
自己教師あり学習方法により前記疑似インスタンスラベルを調整する段階と、
を含み、
自己教師あり学習方法により前記疑似インスタンスラベルを調整する段階は、
前記イメージを前記イメージセグメンテーションモデルに入力して、前記イメージに関連した出力セマンティックマップ、前記イメージに含まれた関心客体の中心点を表示する出力センターマップ、および前記イメージに含まれた関心客体の中心点に対する出力オフセットマップを出力する段階と、
前記出力セマンティックマップ、前記出力センターマップおよび前記出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成する段階と、
前記インスタンスマスクに基づいて改善されたセンターマップおよび改善されたオフセットマップを生成する段階と、
前記出力セマンティックマップ、前記改善されたセンターマップおよび前記改善されたオフセットマップを利用して前記イメージセグメンテーションモデルを学習させる段階と、
を含む、イメージセグメンテーションモデル学習方法。

【請求項8】

前記インスタンスマスクに基づいて前記改善されたセンターマップおよび改善されたオフセットマップを生成する段階は、
前記改善されたオフセットマップに含まれた２Ｄオフセットベクトルをクラスタリングして中心点を抽出する段階と、
前記抽出された中心点を利用して前記改善されたオフセットマップを補完する段階と、
を含む、請求項７に記載のイメージセグメンテーションモデル学習方法。

【請求項9】

前記出力セマンティックマップ、前記出力センターマップおよび前記出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成する段階は、
前記出力セマンティックマップに基づいて前記イメージに対する前景マスクを生成する段階と、
前記前景マスク、前記出力センターマップおよび前記出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成する段階と、
を含む、請求項７に記載のイメージセグメンテーションモデル学習方法。

【請求項10】

前記イメージをピークアテンションモジュールに入力して前記イメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出する段階は、
前記イメージに含まれた一つ以上の関心客体に関連した中間フィーチャマップを獲得する段階と、
前記ピークアテンションモジュールを利用して、前記中間フィーチャマップに基づいて前記一つ以上の関心客体に関連した基準点および前記基準点に関連した臨界領域を決定する段階と、
前記ピークアテンションモジュールを利用して、前記基準点および前記臨界領域に基づいて前記中間フィーチャマップでの関心客体に関連したピーク領域およびノイズ領域を決定する段階と、
前記ピークアテンションモジュールを利用して、前記ノイズ領域を非活性化することによって前記イメージのピーク領域に対応するインスタンスキューを抽出する段階と、
を含む、請求項１に記載のイメージセグメンテーションモデル学習方法。

【請求項11】

前記ピークアテンションモジュールは、自己教師あり学習方法によって学習可能なモデルである、請求項１に記載のイメージセグメンテーションモデル学習方法。

【請求項12】

請求項１～請求項１１のいずれか一項に記載された方法をコンピュータで実行するためのコンピュータ読み取り可能なコンピュータプログラム。

【請求項13】

情報処理システムであって、
通信モジュール；
メモリ；および
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサ
を含み、
前記少なくとも一つのプログラムは、
一つ以上の関心客体を含むイメージを受信し、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成し、
前記疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させ、
自己教師あり学習方法により前記疑似インスタンスラベルを調整するための命令語を含み、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成することは、
前記イメージを弱教師あり学習基盤セマンティックセグメンテーションモデルに入力して疑似セマンティックマップを生成し、
前記イメージをピークアテンションモジュールに入力して前記イメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出し、
前記疑似セマンティックマップおよび前記インスタンスキューに基づいて選択された疑似インスタンスマスクを利用して疑似インスタンスラベルを生成する
ことを含む、情報処理システム。

【請求項14】

情報処理システムであって、
通信モジュール；
メモリ；および
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサ
を含み、
前記少なくとも一つのプログラムは、
一つ以上の関心客体を含むイメージを受信し、
前記イメージに基づいてセマンティック知識を利用して前記関心客体に関連した疑似インスタンスラベルを生成し、
前記疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させ、
自己教師あり学習方法により前記疑似インスタンスラベルを調整するための命令語を含み、
自己教師あり学習方法により前記疑似インスタンスラベルを調整することは、
前記イメージを前記イメージセグメンテーションモデルに入力して、前記イメージに関連した出力セマンティックマップ、前記イメージに含まれた関心客体の中心点を表示する出力センターマップ、および前記イメージに含まれた関心客体の中心点に対する出力オフセットマップを出力し、
前記出力セマンティックマップ、前記出力センターマップおよび前記出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成し、
前記インスタンスマスクに基づいて改善されたセンターマップおよび改善されたオフセットマップを生成し、
前記出力セマンティックマップ、前記改善されたセンターマップおよび前記改善されたオフセットマップを利用して前記イメージセグメンテーションモデルを学習させる
ことを含む、情報処理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示はイメージセグメンテーションモデル学習方法およびシステムに関し、具体的には、イメージレベルラベルを利用して抽出されたセマンティックセグメンテーション知識に基づいてインスタンスセグメンテーションを遂行するためのイメージセグメンテーションモデルを学習する方法およびシステムに関する。

【背景技術】

【0002】

一般的に、イメージセグメンテーション技術の中で弱教師あり学習基盤インスタンスセグメンテーション（Ｗｅａｋｌｙ－ｓｕｐｅｒｖｉｓｅｄｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ、ＷＳＩＳ）は、弱教師あり学習基盤セマンティックセグメンテーション（Ｗｅａｋｌｙ－ｓｕｐｅｒｖｉｓｅｄｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ、ＷＳＳＳ）より難しい作業と見なされてきた。ＷＳＩＳはＷＳＳＳと比較する時、イメージレベルラベルから抽出し難いインスタンス別局所化（ｉｎｓｔａｎｃｅ－ｗｉｓｅｌｏｃａｌｉｚａｔｉｏｎ）が要求されるためである。このような問題を解決するために、殆どのＷＳＩＳ接近方式はインスタンスレベルラベルまたは客体レベルラベルを利用した事前学習が必要な既存のインスタンス情報提案技術（ｏｆｆ－ｔｈｅ－ｓｈｅｌｆｐｒｏｐｏｓａｌｔｅｃｈｎｉｑｕｅｓ）を活用するが、これは完全なイメージレベルの教師あり学習の基本設定から外れる方式である。

【0003】

また、このようなＷＳＩＳ接近方式は、イメージレベルラベルの他に追加のデータをさらに要求するため、イメージレベルラベルのみを利用してインスタンスセグメンテーションを遂行し難い問題がある。一方、イメージセグメンテーションモデルを学習させる過程で一部のインスタンスが欠落している学習データを利用する場合、モデルのセグメンテーション性能が低下する問題がある。

【先行技術文献】

【特許文献】

【0004】

【文献】韓国公開特許公報第１０－１９９９－００７７２０３号

【発明の概要】

【発明が解決しようとする課題】

【0005】

本開示は前記のような問題点を解決するためのイメージセグメンテーションモデル学習方法、コンピュータプログラムおよび装置（システム）を提供する。

【課題を解決するための手段】

【0006】

本開示は方法、装置（システム）またはコンピュータプログラムを含んだ多様な方式で具現され得る。

【0007】

本開示の一実施例によると、少なくとも一つのプロセッサによって遂行されるイメージレベルラベルを利用したイメージセグメンテーションモデル学習方法は、一つ以上の関心客体を含むイメージを受信する段階、イメージに基づいてセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成する段階、疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させる段階および自己教師あり学習方法により疑似インスタンスラベルを調整する段階を含む。

【0008】

本開示の他の実施例によると、前述したイメージレベルラベルを利用したイメージセグメンテーションモデル学習方法をコンピュータで実行するためのコンピュータプログラムが提供される。

【0009】

本開示のさらに他の実施例によると、情報処理システムは、通信モジュール、メモリおよびメモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサを含み、少なくとも一つのプログラムは、一つ以上の関心客体を含むイメージを受信し、イメージに基づいてセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成し、疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させ、自己教師あり学習方法により疑似インスタンスラベルを調整するための命令語を含む。

【発明の効果】

【0010】

本開示の一部の実施例によると、弱教師あり学習基盤セマンティックセグメンテーションモデルによって抽出されたセマンティック知識とピークアテンションモデルから抽出したインスタンスキューを利用して、イメージレベルのラベリングを通じてインスタンスセグメンテーションモデルを学習させることができるため、イメージセグメンテーションでインスタンスラベリングに必要とされる費用と努力が節減され得る。

【0011】

本開示の一部の実施例によると、入力イメージから抽出されたセマンティック知識に基づいて生成された疑似インスタンスラベルを調整して改善されたインスタンスラベルを学習に共に利用するため、高品質のインスタンスセグメンテーションモデルを生成することができる。

【0012】

本開示の一部の実施例によると、入力イメージに含まれた関心客体と対応するオフセットマップおよびセンターマップを学習のためのガイダンスとして活用することによって、セマンティック知識で欠落しているインスタンスを探して高品質のインスタンスセグメンテーションモデルを生成することができる。

【0013】

本開示の効果は以上で言及した効果に制限されず、言及されていない他の効果は特許請求の範囲の記載から本開示が属する技術分野で通常の知識を有する者（「通常の技術者」という）に明確に理解され得るであろう。

【図面の簡単な説明】

【0014】

本開示の実施例は、以下で説明する添付図面を参照して説明され、ここで類似する参照番号は類似する要素を示すが、これに限定されはしない。

【図1】本開示の一実施例に係る情報処理システムがイメージセグメンテーションモデルを学習する方法の例示を示す図面である。

【図2】本開示の一実施例に係るイメージセグメンテーションモデルを学習するために使われる情報処理システムを示すブロック図である。

【図3】本開示の一実施例に係る情報処理システムの内部構成を示すブロック図である。

【図4】本開示の一実施例に係る関心客体を含むイメージに基づいて疑似インスタンスラベルを生成する方法の例示を示す図面である。

【図5】本開示の一実施例に係る自己教師あり学習を通じて疑似インスタンスラベルを調整する方法の例示を示す図面である。

【図6】本開示の一実施例によりイメージに基づいて生成されたオフセットマップを利用して中心クラスタリングを遂行する方法の例示を示す図面である。

【図7】本開示の一実施例に係る疑似インスタンスラベルに基づいて、疑似インスタンスラベルの調整過程を繰り返して疑似インスタンスラベルが改善される過程の例示を示す。

【図8】本開示の一実施例に係るピークアテンションモジュールを利用して、関心客体を含むイメージのフィーチャマップからインスタンスキューを抽出する方法の例示を示す図面である。

【図9】本開示の一実施例に係る関心客体を含むイメージに基づいて、イメージセグメンテーションモデルが学習される過程で生成された結果の例示を示す。

【図10】本開示の一実施例に係るイメージセグメンテーションモデルを学習する方法の例示を示すフローチャートである。

【発明を実施するための形態】

【0015】

以下、本開示の実施のための具体的な内容を添付された図面を参照して詳細に説明する。ただし、以下の説明では本開示の要旨を不要に曖昧にさせ得る恐れがある場合、広く知られている機能や構成に関する具体的な説明は省略することにする。

【0016】

添付された図面で、同一または対応する構成要素には同一の参照符号が付与されている。また、以下の実施例の説明において、同一または対応する構成要素を重複して記述することが省略され得る。しかし、構成要素に関する記述が省略されても、そのような構成要素がある実施例に含まれないものとは意図されない。

【0017】

開示された実施例の利点および特徴、そしてそれらを達成する方法は、添付される図面と共に後述されている実施例を参照すると明確になるであろう。しかし、本開示は以下で開示される実施例に限定されるものではなく互いに異なる多様な形態で具現され得、ただし本実施例は本開示を完全なものとし、本開示が通常の技術者に発明の範疇を完全に知らせるために提供されるものに過ぎない。

【0018】

本明細書で使われる用語について簡略に説明し、開示された実施例について具体的に説明することにする。本明細書で使われる用語は本開示での機能を考慮しつつ、できる限り現在広く使われる一般的な用語を選択したが、これは関連分野に従事する技術者の意図または判例、新しい技術の出現などにより変わり得る。また、特定の場合は出願人が任意に選定した用語もあり、この場合、該当する発明の説明の部分で詳細にその意味を記載するであろう。したがって、本開示で使われる用語は単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたった内容に基づいて定義されなければならない。

【0019】

本明細書での単数の表現は文脈上明白に単数であると特定しない限り、複数の表現を含む。また、複数の表現は文脈上明白に複数であると特定しない限り、単数の表現を含む。明細書全体で或る部分が何らかの構成要素を含むとする時、これは特に反対の記載がない限り他の構成要素を除くものではなく他の構成要素をさらに含み得ることを意味する。

【0020】

また、明細書で使われる「モジュール」または「部」という用語はソフトウェアまたはハードウェア構成要素を意味し、「モジュール」または「部」は何らかの役割を遂行する。しかし、「モジュール」または「部」はソフトウェアまたはハードウェアに限定される意味ではない。「モジュール」または「部」はアドレッシングできる保存媒体にあるように構成されてもよく、一つまたはそれ以上のプロセッサを再生させるように構成されてもよい。したがって、一例として、「モジュール」または「部」はソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシーザー、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイまたは変数のうち少なくとも一つを含むことができる。構成要素と「モジュール」または「部」は、中で提供される機能はさらに小さい数の構成要素および「モジュール」または「部」で結合されるか追加的な構成要素と「モジュール」または「部」にさらに分離され得る。

【0021】

本開示の一実施例によると、「モジュール」または「部」はプロセッサおよびメモリで具現され得る。「プロセッサ」は汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境において、「プロセッサ」は特定用途向け半導体（ＡＳＩＣ）、プログラム可能ロジックデバイス（ＰＬＤ）、フィールドプログラム可能ゲートアレイ（ＦＰＧＡ）等を指称してもよい。「プロセッサ」は例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと結合した一つ以上のマイクロプロセッサの組み合わせ、または任意の他のそのような構成の組み合わせのような処理デバイスの組み合わせを指称してもよい。また、「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」はランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラム可能読み取り専用メモリ（ＰＲＯＭ）、消去－プログラム可能読み取り専用メモリ（ＥＰＲＯＭ）、電気的に消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光学データ保存装置、レジスタなどのようなプロセッサ－読み取り可能媒体の多様な類型を指称してもよい。プロセッサがメモリから情報を読み取り／したりメモリに情報を記録できるのであれば、メモリはプロセッサと電子通信状態にあると呼ばれる。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。

【0022】

本開示で、「システム」はコンピューティング装置、サーバー装置およびクラウド装置のうち少なくとも一つの装置を含むことができるが、これに限定されるものではない。例えば、システムは一つ以上のコンピューティング装置またはサーバー装置で構成され得る。他の例として、システムは一つ以上のクラウド装置で構成され得る。さらに他の例として、システムはコンピューティング装置またはサーバー装置とクラウド装置が共に構成されて動作され得る。

【0023】

本開示で、「複数のＡのそれぞれ」または「複数のＡそれぞれ」は複数のＡに含まれたすべての構成要素のそれぞれを指し示したり、複数のＡに含まれた一部の構成要素のそれぞれを指称し得る。

【0024】

本開示で、「セマンティックセグメンテーション（ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ）」はイメージセグメンテーション技術の一つであって、イメージに含まれた客体を意味のある単位に分割または識別する機能または方法を指称し得る。例えば、セマンティックセグメンテーションによって、イメージに含まれたピクセルは、実際に認識できる物理的な意味単位（例えば、人、自動車、飛行機などの物理的単位）に分割または識別され得る。

【0025】

本開示で、「インスタンスセグメンテーション（ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ）」はイメージセグメンテーション技術の一つであって、イメージに含まれた客体それぞれを抽出、分割または識別する機能または方法を指称し得る。例えば、インスタンスセグメンテーションによって、イメージに含まれたピクセルを実際に認識できる個別客体単位（例えば、複数の人と自動車が含まれた場合、各人および各自動車）に分割または識別され得る。

【0026】

図１は、本開示の一実施例に係る情報処理システム１００がイメージセグメンテーションモデルを学習する方法の例示を示す図面である。情報処理システム１００は、一つ以上の関心客体（例：イメージ１１０内に含まれた乳牛）を含むイメージ１１０に基づいてイメージセグメンテーションモデル１６０を学習させることができる。ここで、イメージセグメンテーションモデル１６０はイメージに含まれた一つ以上の関心客体のそれぞれ（例：イメージ１１０内に含まれた乳牛それぞれ）をピクセルレベルで区別するためのインスタンスセグメンテーションを遂行するモデルを示すことができる。例えば、イメージセグメンテーションモデル１６０はＰａｎｏｐｔｉｃ－ＤｅｅｐＬａｂネットワークのようなインスタンスセグメンテーションモデルを使用することができ、この場合、ネットワークのエンコーダの部分のバックボーンネットワークはＨＲＮｅｔ４８を使うことができる。

【0027】

イメージセグメンテーションモデル１６０を学習するために、情報処理システム１００はイメージ１１０に基づいてセマンティック知識生成１２０を通じて抽出されたデータ、すなわち第１インスタンスセグメンテーション情報１３０を利用することができる。ここで、セマンティック知識生成１２０動作は、インスタンスセグメンテーションの遂行が可能なイメージセグメンテーションモデルの学習のために、セマンティックセグメンテーションモデルを利用して生成されたセマンティック知識またはデータ（例：第１インスタンスセグメンテーション情報として、疑似（ｐｓｅｕｄｏ）セマンティックマップ、疑似オフセットマップ、疑似センターマップ、インスタンスキューなど）を利用する戦略を具体化する方法を示すことができる。

【0028】

例えば、セマンティック知識生成１２０動作で、一つ以上の関心客体を含むイメージに対してセマンティックセグメンテーションを遂行する場合、イメージ内に重なっていない関心客体に対するセマンティックセグメンテーションの結果はインスタンスセグメンテーションの結果と同一であり得る。すなわち、重なっていない関心客体に対しては、セマンティックセグメンテーションの修行を通じても該当客体別にインスタンスラベリングが可能であり得る。したがって、セマンティック知識生成１２０は、イメージ１１０に基づいて弱教師あり学習基盤セマンティックセグメンテーション（ＷＳＳＳ：Ｗｅａｋｌｙ－ＳｕｐｅｒｖｉｓｅｄＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）モデルおよびピークアテンションモジュールを利用した疑似ラベリングを通じて第１インスタンスセグメンテーション情報１３０を生成する過程を意味し得る。このように生成された第１インスタンスセグメンテーション情報１３０はイメージセグメンテーションモデル１６０の学習に利用され得る。セマンティック知識生成１２０を通じて第１インスタンスセグメンテーション情報１３０が生成される過程は、図４を参照して詳細に後述される。

【0029】

また、情報処理システム１００はイメージセグメンテーションモデル１６０を学習するために、自己教師あり学習方法により第１インスタンスセグメンテーション情報１３０に基づいて第２インスタンスセグメンテーション情報１４０の調整（ｒｅｆｉｎｅｍｅｎｔ）を遂行できる。具体的には、情報処理システム１００は第２インスタンスセグメンテーション情報１４０に基づいてインスタンスラベルの調整１５０を遂行して改善されたオフセットマップと改善されたセンターマップを生成し、これを学習データとして利用することによってイメージセグメンテーションモデル１６０を学習させることができる。ここで、第２インスタンスセグメンテーション情報１４０はイメージ１１０をイメージセグメンテーションモデル１６０に入力して出力されたイメージ１１０に関連したデータ（例：セマンティックマップ、センターマップ、オフセットマップ）を含むことができる。この場合、イメージセグメンテーションモデル１６０は第１インスタンスセグメンテーション情報１３０を利用して学習がなされたモデルであり得る。第２インスタンスセグメンテーション情報１４０の調整が遂行される過程は、図５～図７を参照して詳細に後述される。

【0030】

このような構成を通じて学習されたイメージセグメンテーションモデル１６０は、別途の事前学習が必要なインスタント情報提案データを入力せず、イメージレベルラベルを利用してイメージに含まれた関心客体それぞれを区別または分割するインスタンスセグメンテーションを遂行できる。

【0031】

図２は、本開示の一実施例に係るイメージセグメンテーションモデルを学習するために使われる情報処理システム２００を示すブロック図である。情報処理システム２００はメモリ２１０、プロセッサ２２０、通信モジュール２３０および入出力インターフェース２４０を含むことができる。図２に図示された通り、情報処理システム２００は通信モジュール２３０を利用して、ネットワークを通じて情報および／またはデータを通信できるように構成され得る。一実施例によると、情報処理システム２００はメモリ２１０、プロセッサ２２０、通信モジュール２３０および入出力インターフェース２４０を含む少なくとも一つの装置で構成され得る。

【0032】

メモリ２１０は非一過性の任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によると、メモリ２１０はＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ディスクドライブ、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などのような非消滅性大容量保存装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含むことができる。他の例として、ＲＯＭ、ＳＳＤ、フラッシュメモリ、ディスクドライブなどのような非消滅性大容量保存装置はメモリ２１０とは区分される別途の永久保存装置であって、情報処理システム２００に含まれ得る。また、メモリ２１０には運営体制と少なくとも一つのプログラムコード（例えば、情報処理システム１００に設置されて駆動されるインスタンスラベル生成などのためのコード）が保存され得る。

【0033】

このようなソフトウェア構成要素は、メモリ２１０とは別途のコンピュータで読み取り可能な記録媒体からローディングされ得る。このような別途のコンピュータで読み取り可能な記録媒体はこのような情報処理システム１００に直接連結可能な記録媒体を含むことができるが、例えば、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのようにコンピュータで読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素はコンピュータで読み取り可能な記録媒体でない通信モジュール２３０を通じてメモリ２１０にローディングなり得る。例えば、少なくとも一つのプログラムは開発者またはアプリケーションの設置ファイルを配布するファイル配布システムが通信モジュール２３０を通じて提供するファイルによって設置されるコンピュータプログラム（例えば、インスタンスラベル生成などのためのプログラムなど）に基づいてメモリ２１０にローディングされ得る。

【0034】

プロセッサ２２０は基本的な算術、ロジックおよび入出力演算を遂行することによって、コンピュータプログラムの命令を処理するように構成され得る。命令はメモリ２１０または通信モジュール２３０により使用者端末（図示されず）または他の外部システムに提供され得る。例えば、プロセッサ２２０は一つ以上の関心客体を含むイメージを受信し、イメージに基づいてセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成し、疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させた後、自己教師あり学習方法により前記疑似インスタンスラベルを調整することができる。

【0035】

通信モジュール２３０はネットワークを通じて使用者端末（図示されず）と情報処理システム１００が互いに通信するための構成または機能を提供することができ、情報処理システム１００が外部システム（一例として、別途のクラウドシステムなど）と通信するための構成または機能を提供することができる。一例として、情報処理システム１００のプロセッサ２２０の制御により提供される制御信号、命令、データなどが通信モジュール２３０とネットワークを経て使用者端末および／または外部システムの通信モジュールを通じて使用者端末および／または外部システムに伝送され得る。例えば、情報処理システム１００により生成されたインスタンスセグメンテーション情報（例：オフセットマップ、センターマップ、セマンティックマップ）が通信モジュール２３０とネットワークを経て使用者端末および／または外部システムの通信モジュールを通じて、使用者端末および／または外部システムに伝送され得る。また、インスタンスセグメンテーション情報を受信した使用者端末および／または外部システムは、受信した情報をディスプレイ出力可能装置を通じて出力することができる。

【0036】

また、情報処理システム２００の入出力インターフェース２４０は、情報処理システム１００と連結されるか情報処理システム１００が含むことができる入力または出力のための装置（図示されず）とのインターフェースのための手段であり得る。図２では入出力インターフェース２４０がプロセッサ２２０と別途に構成された要素として図示されたが、これに限定されず、入出力インターフェース２４０がプロセッサ２２０に含まれるように構成され得る。情報処理システム２００は図２の構成要素よりもさらに多くの構成要素を含むことができる。しかし、殆どの従来技術的構成要素を明確に図示する必要性はない。

【0037】

情報処理システム２００のプロセッサ２２０は複数の使用者端末および／または複数の外部システムから受信された情報および／またはデータを管理、処理および／または保存するように構成され得る。一実施例によると、プロセッサ２２０は使用者端末および／または外部システムから関心客体を含むイメージを受信することができる。プロセッサ２２０はイメージに基づいて抽出されたセマンティック知識を利用してイメージ内に含まれた関心客体に関連した疑似インスタンスラベルを生成し、疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させた後、自己教師あり学習方法により前記疑似インスタンスラベルを調整することができ、疑似インスタンスラベルに関連したデータであるセマンティックマップ、オフセットマップおよびセンターマップを情報処理システム１００と連結されたディスプレイ出力可能装置を通じて出力することができる。

【0038】

図３は、本開示の一実施例に係る情報処理システムの内部構成を示すブロック図である。図示された通り、情報処理システムのプロセッサ２２０はセマンティック知識移転部３１０、インスタンスラベル調整部３２０およびセグメンテーションモデル学習部３３０を含むことができる。

【0039】

セマンティック知識移転部３１０は一つ以上の関心客体を含むイメージに基づいて抽出されたセマンティック知識を利用して、関心客体に関連した疑似インスタンスラベルを生成することができる。一実施例において、セマンティック知識移転部３１０はイメージを弱教師あり学習基盤セマンティックセグメンテーション（ＷＳＳＳ）モデルに入力して生成された疑似セマンティックマップ（ｐｓｅｕｄｏｓｅｍａｎｔｉｃｍａｐ）、およびイメージをピークアテンションモジュール（ＰＡＭ：ｐｅａｋａｔｔｅｎｔｉｏｎｍｏｄｕｌｅ）に入力して抽出したイメージに含まれた関心客体の少なくとも一部に関連したインスタンスキュー（ｉｎｓｔａｎｃｅｑｕｅ）に基づいて疑似インスタンスラベル（ｐｓｅｕｄｏｉｎｓｔａｎｃｅｌａｂｅｌ）を生成することができる。例えば、セマンティック知識移転部３１０は疑似セマンティックマップおよびインスタンスキューを利用して関心客体に関連した一つ以上のインスタンスマスク候補（ｉｎｓｔａｎｃｅｍａｓｋｃａｎｄｉｄａｔｅ）を生成することができる。それから、セマンティック知識移転部３１０は一つ以上のインスタンスマスク候補のうち一つのインスタンスキューに対応するインスタンスマスク候補を疑似インスタンスマスク（ｐｓｅｕｄｏｉｎｓｔａｎｃｅｍａｓｋ）として選択し、疑似インスタンスマスクに基づいて疑似インスタンスラベルを生成することができる。

【0040】

一実施例によると、セマンティック知識移転部３１０はイメージに含まれた一つ以上の関心客体の少なくとも一部に関連した疑似インスタンスマスクに基づいて疑似センターマップ（ｐｓｅｕｄｏｃｅｎｔｅｒｍａｐ）および疑似オフセットマップ（ｐｓｅｕｄｏｏｆｆｓｅｔｍａｐ）を生成することができる。例えば、セマンティック知識移転部３１０は疑似インスタンスマスクのそれぞれの中心ポイントを２Ｄガウシアンカーネル（２－ｄｉｍｅｎｓｉｏｎａｌＧａｕｓｓｉａｎｋｅｒｎｅｌ）を利用してエンコーディングすることによって、前記疑似センターマップを生成することができる。また、セマンティック知識移転部３１０は、疑似インスタンスマスクに含まれたすべてのピクセルがイメージに含まれた関心客体を示すインスタンスの中心ポイントに向かう２Ｄオフセットベクトル（２－ｄｉｍｅｎｓｉｏｎａｌｏｆｆｓｅｔｖｅｃｔｏｒ）を含む疑似オフセットマップを生成することができる。ここで、疑似センターマップ、疑似オフセットマップはガイダンス（ｇｕｉｄａｎｃｅ）領域に割り当てられて、イメージに含まれた欠落しているインスタンスを探すためにイメージセグメンテーションモデル（またはインスタンスセグメンテーションモデル）の学習に利用され得る。

【0041】

一実施例によると、セマンティック知識移転部３１０はピークアテンションモジュール（ＰＡＭ）を利用してイメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出することができる。例えば、セマンティック知識移転部３１０はイメージに含まれた一つ以上の関心客体に関連した中間フィーチャマップを獲得し、ピークアテンションモジュール（ＰＡＭ）を利用して、中間フィーチャマップ（ｉｎｔｅｒｍｅｄｉａｔｅｆｅａｔｕｒｅｍａｐ）に基づいて一つ以上の関心客体に関連した基準点および基準点に関連した臨界領域を決定することができる。その後、セマンティック知識移転部３１０はピークアテンションモジュール（ＰＡＭ）を利用して、基準点および臨界領域に基づいてフィーチャマップでの関心客体に関連したピーク領域およびノイズ領域を決定し、ノイズ領域を非活性化することによってイメージのピーク領域に対応するインスタンスキューを抽出することができる。

【0042】

インスタンスラベル調整部３２０は、自己教師あり学習方法（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄｍａｎｎｅｒ）により疑似インスタンスラベルを調整することができる。例えば、インスタンスラベル調整部３２０はイメージをイメージセグメンテーションモデルに入力して出力セマンティックマップ、出力センターマップ、および出力オフセットマップを出力し、これを利用してインスタンスグルーピング（ｉｎｓｔａｎｃｅｇｒｏｕｐｉｎｇ）を遂行してインスタンスマスクを生成することができる。それから、インスタンスラベル調整部３２０はインスタンスマスクに基づいて改善されたセンターマップおよび改善されたオフセットマップを生成することができる。一実施例において、インスタンスラベル調整部３２０は改善されたオフセットマップに含まれた２Ｄオフセットベクトルをクラスタリング（ｃｌｕｓｔｅｒｉｎｇ）して中心点を抽出し、抽出された中心点を利用して改善されたオフセットマップを補完することができる。

【0043】

セグメンテーションモデル学習部３３０は、疑似インスタンスラベル、疑似セマンティックマップ、疑似センターマップおよび疑似オフセットマップを利用してイメージセグメンテーションモデルを学習させることができる。また、セグメンテーションモデル学習部３３０はイメージセグメンテーションモデルから出力された出力セマンティックマップ、改善されたセンターマップおよび改善されたオフセットマップを利用してイメージセグメンテーションモデルを再学習させることができる。改善されたインスタンスラベルはイメージセグメンテーションモデルの学習過程でイメージセグメンテーションモデルから小規模のバッチ（ｍｉｎｉ－ｂａｔｃｈ）ごとに生成され得、出力された出力セマンティックマップ、改善されたセンターマップおよび改善されたオフセットマップを利用した再学習は繰り返し遂行され得る。

【0044】

図４は、本開示の一実施例に係る関心客体を含むイメージに基づいて疑似インスタンスラベルを生成する方法の例示を示す図面である。一実施例によると、情報処理システムの少なくとも一つのプロセッサ（またはセマンティック知識移転部）は、一つ以上の関心客体を含むイメージ４１０に基づいてセマンティック知識を利用して関心客体に関連した疑似インスタンスラベル（ｐｓｅｕｄｏｉｎｓｔａｎｃｅｌａｂｅｌ）４４０を獲得することができる。例えば、図示された通り、プロセッサは一つ以上の関心客体を含むイメージ４１０をセマンティックセグメンテーションモデル４２０に入力して疑似セマンティックマップ４２２を生成することができる。ここで、セマンティックセグメンテーションモデル４２０は弱教師あり学習基盤セマンティックセグメンテーション（ＷＳＳＳ）モデルであり得る。また、プロセッサは一つ以上の関心客体を含むイメージ４１０をピークアテンションモジュール（ＰＡＭ）４３０に入力してインスタンスキュー４３２を抽出することができる。ここで、インスタンスキューはイメージ４１０に含まれた一つ以上の関心客体の少なくとも一部と対応することができる。ピークアテンションモジュール４３０を利用してインスタンスキューを抽出する具体的な方法は図８を参照して詳細に後述される。

【0045】

一実施例によると、プロセッサは疑似セマンティックマップ４２２とインスタンスキュー４３２に基づいて疑似インスタンスラベル４４０を生成することができる。具体的には、プロセッサはセマンティックセグメンテーションモデル４２０を利用して生成された疑似セマンティックマップ４２２から重ならない客体のインスタンスを探して疑似インスタンスラベル４４０として決定することができる。例えば、プロセッサはＣＣＬアルゴリズム（ｃｏｎｎｅｃｔｅｄｃｏｍｐｏｎｅｎｔｌａｂｅｌｉｎｇａｌｇｏｒｉｔｈｍまたはＣＣＬａｌｇｏｒｉｔｈｍ）を利用して疑似セマンティックマップ４２２から一つ以上のインスタンスマスク候補を獲得し、一つ以上のインスタンスマスク候補のそれぞれに含まれたインスタンスキューの個数を算出した後、インスタンスキューの個数が一つのインスタンスマスク候補を疑似インスタンスマスクとして決定することができる。それから、プロセッサは疑似インスタンスマスクを利用して疑似インスタンスラベル４４０を生成することができる。この過程で生成された一つ以上の疑似インスタンスラベル４４０は、イメージ４１０内に含まれた一つ以上の関心客体のうち一部のそれぞれまたは全部のそれぞれに対応することができる。

【0046】

一実施例によると、プロセッサは一つ以上の疑似インスタンスマスクを疑似センターマップ４４２および疑似オフセットマップ４３４に変換することができる。例えば、プロセッサは疑似インスタンスマスクのそれぞれの中心ポイントを２Ｄガウシアンカーネルを利用してエンコーディングすることによって、疑似センターマップ４４２を生成することができる。この場合、プロセッサは６－ピクセル標準偏差の２Ｄガウシアンカーネルを利用することができる。また、プロセッサは疑似インスタンスマスクに含まれたすべてのピクセルがイメージに含まれた関心客体を示すインスタンスの中心ポイントに向かう２Ｄオフセットベクトルを保存することによって、疑似オフセットマップ４３４を生成することができる。

【0047】

プロセッサは生成された疑似インスタンスラベル４４０を利用してイメージセグメンテーションモデルを学習させることができる。この過程で、イメージ４１０に含まれた関心客体のうち疑似インスタンスラベル４４０で欠落しているインスタンス（すなわち、関心客体）が存在し得る。この場合、欠落しているインスタンスは背景クラスとして分類されるため、イメージセグメンテーションモデルの学習効果を低下させ得る問題が発生し得る。欠落しているインスタンスに対するオフセットマップおよびセンターマップは目的関数（ｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎ）に反映されないため、プロセッサはラベリングされたインスタンスの領域にオフセットマップおよびセンターマップに対するガイダンス領域（ｇｕｉｄａｎｃｅｒｅｇｉｏｎ）を割り当てることができる。この過程は、インスタンス認知ガイダンス（ｉｎｓｔａｎｃｅ－ａｗａｒｅｇｕｉｄａｎｃｅ）方法／戦略と指称され得る。これを通じて、プロセッサはイメージセグメンテーションモデルの学習が進行されるにつれて欠落したインスタンスに対するインスタンスレベル情報を安定的に獲得することができる。

【0048】

図５は、本開示の一実施例に係る自己教師あり学習を通じて疑似インスタンスラベルを調整する方法の例示を示す図面である。一実施例によると、情報処理システムの少なくとも一つのプロセッサ（またはインスタンスラベル調整部およびセグメンテーションモデル学習部）は、自己教師あり学習を通じてインスタンスセグメンテーション情報に含まれた偽陰性（ｆａｌｓｅ－ｎｅｇａｔｉｖｅｓ）を真陽性（ｔｒｕｅ－ｐｏｓｉｔｉｖｅｓ）に変換することによってインスタンスラベルに対する調整（ｒｅｆｉｎｅｍｅｎｔ）を遂行し、このような調整を通じて改善されたインスタンスラベルをイメージセグメンテーションモデルの学習に利用することができる。

【0049】

一実施例において、プロセッサは一つ以上の関心客体を含んだイメージ５１０をイメージセグメンテーションモデル５２０に入力してインスタンスセグメンテーション情報（例：出力セマンティックマップ５２２、出力センターマップ５２６、出力オフセットマップ５２８）を出力することができる。プロセッサは出力されたインスタンスセグメンテーション情報に基づいてインスタンスグルーピング５４０を遂行してインスタンスマスクを生成でき、これを利用して改善されたセンターマップ５４２および改善されたオフセットマップ５４４を生成することができる。プロセッサは改善されたセンターマップ５４２および改善されたオフセットマップ５４４をガイダンスとして利用して、イメージセグメンテーションモデル５２０を学習することができる。

【0050】

一実施例において、プロセッサは出力セマンティックマップ５２２を利用して前景マスク５２４を決定することができる。また、プロセッサは出力センターマップ５２６からそれぞれのインスタンスに対する中心点を抽出することができる。例えば、出力センターマップ５２６に対する最大値プーリング（ｍａｘ－ｐｏｏｌｉｎｇ）の前後に同一の値を有するピクセルの位置が中心点として決定され得る。それから、プロセッサはピクセルレベルでそれぞれのインスタンスのＩＤを割り当てることができる。このような過程がインスタンスグルーピング５４０と指称され得る。例えば、抽出されたｎ番目の中心点は（ｘ_ｎ、ｙ_ｎ）で示すことができる。オフセットマップはピクセル位置が（ｉ、ｊ）である地点で

【数1】

で示すことができる。また、インスタンスＩＤはピクセル位置が（ｉ、ｊ）である地点でｋ_ｉ、ｊで示すことができ、これは下記の数学式１のように定義することができる。

【0051】

【数2】

【0052】

一実施例によると、プロセッサは出力オフセットマップ５２８に基づいてセンタークラスタリング５３０を遂行して改善されたオフセットマップ５４４の品質を向上させることができる。出力オフセットマップ５２８に基づいてセンタークラスタリング５３０を遂行する方法は、図６を参照して詳細に後述する。

【0053】

一実施例によると、プロセッサは疑似ラベルと改善されたラベルをすべて使ってイメージセグメンテーションモデル５２０を学習させることができる。出力セマンティックマップ５２２、出力オフセットマップ５２８および出力センターマップ５２６を、それぞれＳ（・），Ｏ（・），Ｃ（・）で示すことができる。プロセッサは疑似ラベルおよび改善されたラベルからラベリングされたインスタンス領域に対するピクセルセットを収集することができる。ここで、疑似ラベルおよび改善されたラベルに対するピクセルセットは、それぞれＰ_{ｐｓｅｕｄｏ}およびＰ_{ｒｅｆｉｎｅｄ}で示すことができる。プロセッサは、ソフトラベルとして改善されたラベルを活用することによって、加重値マスクＷ（ｉ、ｊ）を数学式２のように設定することができる。

【0054】

【数3】

【0055】

ここで、改善されたラベル内のｎ番目のインスタンスの中心点は（ｘ_ｎ、ｙ_ｎ）で表示され得、Ｃ（ｘ_ｎ、ｙ_ｎ）はｎ番目のインスタンスの信頼度スコア（ｃｏｎｆｉｄｅｎｃｅｓｃｏｒｅ）を意味し得る。また、Ｗは改善されたラベルに対する目的関数の加重値として使われ得る。センターマップに対する目的関数は下記の数学式３で定義され得る。

【0056】

【数4】

【0057】

ここで、疑似センターマップおよび改善されたセンターマップはそれぞれ

【数5】

および

【数6】

であり得る。また、オフセットマップに対する目的関数は下記の数学式４で定義され得る。

【0058】

【数7】

【0059】

ここで、疑似オフセットマップおよび改善されたオフセットマップはそれぞれ

【数8】

および

【数9】

であり得る。また、セマンティックマップに対する目的関数は下記の数学式５で定義され得る。

【0060】

【数10】

【0061】

ここで、Ｓは出力セマンティックマップを示し、Ｐ_ｓｅｍは

【数11】

でのすべてのピクセルセットを示す。イメージセグメンテーションモデル５２０は前述した三種類の目的関数を有して学習され得、最終目的関数は下記の数学式６で定義され得る。

【0062】

【数12】

【0063】

ここで、λは加重値パラメータを示す。

【0064】

このような自己教師あり学習を通じてのインスタンスラベルの調整を通じて、疑似ラベルは高品質の改善されたラベルに変換され得る。また、改善されたラベルは学習過程でイメージセグメンテーションモデル５２０から小規模のバッチ（ｍｉｎｉ－ｂａｔｃｈ）ごとに生成され得る。

【0065】

図６は、本開示の一実施例によりイメージに基づいて生成されたオフセットマップを利用して中心クラスタリングを遂行する方法の例示を示す図面である。一実施例によると、プロセッサ（またはインスタンスラベル調整部）はイメージに関連したオフセットマップに基づいてセンタークラスタリングを遂行して改善されたオフセットマップの品質を向上させることができる。例えば、図示された通り、第１状態６１０～第４状態６４０は一つ以上の関心客体を含むイメージからイメージに含まれた関心客体の中心点を抽出する過程の例示を示す。

【0066】

第１状態６１０は一つ以上の関心客体を含むイメージの例示を示す。ここで、一つ以上の関心客体を含むイメージは、イメージに含まれた関心客体、すなわちインスタンスを識別するためにイメージセグメンテーションモデルに入力される学習データを示し得る。

【0067】

第２状態６２０はイメージに関連したオフセットマップの例示を示す。イメージセグメンテーションモデルを利用して実行されるインスタンスセグメンテーションで、インスタンスはイメージに含まれた関心客体の中心点およびこれに対応する２Ｄオフセットベクトルで示すことができる。

【0068】

第３状態６３０はイメージに関連した出力オフセットマップに含まれた２Ｄオフセットベクトルをクラスタリングして生成されたマグニチュードマップ（ｍａｇｎｉｔｕｄｅｍａｐ）の例示を示す。一実施例によると、プロセッサはインスタンスラベルを調整して改善されたラベルを生成する過程で、中心クラスタリングアルゴリズムを利用してオフセットマップから中心点を抽出することができる。例えば、プロセッサはオフセットマップに基づいて各ピクセルが２Ｄベクトルのマグニチュードを示すマグニチュードマップを生成することができる。マグニチュードマップで各インスタンスの中心近くにあるピクセルは、０に近い値を有することができる。それから、プロセッサはマグニチュードマップに臨界値（例えば、２．５）を適用することができる。

【0069】

第４状態６４０はイメージに含まれた関心客体に対応するマスク候補の中心点の例示を示す。例えば、プロセッサはＣＣＬアルゴリズムを利用して獲得した各マスク候補の中心点を抽出することができる。ここで、マスク候補の最適領域は臨界値により決定され得る。例えば、臨界値が２．５である場合、マスク候補の予想領域は２１に近くなり得るい。また、プロセッサは信頼性チェックのために、マスク候補の領域が２１－εおよび２１＋εの間の値を有するかどうかを確認することができる。この時、εは３で設定され得る。このような構成を利用して、イメージセグメンテーションモデルの初期学習段階で不安定なオフセットマップから誤った中心点が抽出されることを防止することができる。

【0070】

このような方法を通じて、出力センターマップに欠落している中心点が存在しても、クラスタリングされた中心点を利用して改善されたセンターマップを補完することができる。

【0071】

図７は、本開示の一実施例に係る疑似インスタンスラベルに基づいて、疑似インスタンスラベルの調整過程を繰り返して疑似インスタンスラベルが改善される過程の例示を示す。一実施例によると、プロセッサは疑似インスタンスラベルおよび改善されたインスタンスラベルを利用してイメージセグメンテーションモデルを繰り返し学習させることができる。これを通じて、イメージセグメンテーションモデルは安定化された一般化能力（ｇｅｎｅｒａｌｉｚａｔｉｏｎａｂｉｌｉｔｙ）を備えることができ、イメージ内の欠落しているインスタンスに対してインスタンスレベル情報を次第に獲得することができる。

【0072】

具体的には、第１状態７１０～第４状態７４０は、疑似インスタンスラベルおよび改善されたインスタンスラベルを利用して繰り返しイメージセグメンテーションモデルを学習した結果を示す。第１状態７１０は一つ以上の関心客体を含むイメージに基づいて弱教師あり学習基盤のセマンティックセグメンテーション（ＷＳＳＳ）モデルを利用して生成された疑似インスタンスラベルの例示を示す。例えば、３匹の乳牛客体が含まれたイメージに基づいて生成された疑似インスタンスラベルは３匹の乳牛のうち一匹に対してインスタンスラベルを生成することができる。

【0073】

第２状態７２０～第４状態７４０は疑似インスタンスラベルに基づいて学習されたイメージセグメンテーションモデルから出力されたインスタンスセグメンテーション情報７２２、７３２、７４２およびこれに基づいて生成された改善されたインスタンスラベル７２４、７３４、７４４の例示を示す。一実施例において、改善されたラベルは学習過程でイメージセグメンテーションモデルから小規模のバッチ（ｍｉｎｉ－ｂａｔｃｈ）ごとに生成され得る。例えば、第２状態７２０、第３状態７３０および第４状態７４０は、各小規模のバッチごとに生成されたインスタンスセグメンテーション情報および改善されたインスタンスラベルを示すことができ、各バッチ過程を遂行しながらイメージ内の欠落しているインスタンスは減少し得、インスタンスセグメンテーション品質は高くなり得る。

【0074】

図８は、本開示の一実施例に係るピークアテンションモジュール（ＰＡＭ）を利用して関心客体を含むイメージのフィーチャマップからインスタンスキューを抽出する方法の例示を示す図面である。一実施例によると、プロセッサはピークアテンションモジュール（ＰＡＭ）８１０を利用してインスタンスキューを抽出することができる。ここでピークアテンションモジュールは選択器（ｓｅｌｅｃｔｏｒ）８１２、コントローラ（ｃｏｎｔｒｏｌｌｅｒ）８１４およびピーク刺激器（ｐｅａｋｓｔｉｍｕｌａｔｏｒ）８１６を含むことができる。具体的には、プロセッサはイメージに関連した中間フィーチャマップ（ｉｎｔｅｒｍｅｄｉａｔｅｆｅａｔｕｒｅｍａｐ）８２０をピークアテンションモジュール（ＰＡＭ）８１０に入力することができる。ここで、中間フィーチャマップ８２０は

【数13】

で表示でき、ここで、Ｈ、Ｗ、ＣはそれぞれＸの高さ、幅およびチャネル数を示す。選択器８１２はＸに対してグローバル最大値プーリング（ｇｌｏｂａｌｍａｘｐｏｏｌｉｎｇ）を適用してピーク領域の基準点を選択することができる。また、コントローラ８１４はピーク領域に対するアテンションをどれほど強化するかを決定し、これは

【数14】

で表示することができる。

【0075】

以上の構成によるピークアテンションモジュール（ＰＡＭ）８１０はイメージに関連した中間フィーチャマップをピーク領域とノイズ領域に区分し、ノイズ領域に対するアテンションを非活性化することによって、ピーク領域に対するアテンションを強化することができる。

【数15】

はピーク領域の境界を意味し得る。ここで、「・」は行列の各元素別に掛け算を遂行する演算子（ｅｌｅｍｅｎｔ－ｗｉｓｅｍｕｌｔｉｐｌｉｃａｔｉｏｎ）を示す。τ_ｐより高い値を有するＸの領域はピーク領域として決定され、残りの領域はノイズ領域として決定され得る。ノイズ領域はその値を０（ｚｅｒｏ）に設定することによってピーク領域に集中させることができる。ピークアテンションモジュール（ＰＡＭ）８１０は分流器（ｃｌａｓｓｉｆｉｅｒ）に連結され、イメージに含まれた関心客体のそれぞれに対する地域別最大値（すなわち、インスタンスキュー）を抽出することによって、アクティベーションマップ（ａｃｔｉｖａｔｉｏｎｍａｐ）８３０を生成することができる。

【0076】

図９は、本開示の一実施例に係る関心客体を含むイメージに基づいて、イメージセグメンテーションモデルが学習される過程で生成された結果の例示を示す。一実施例によると、情報処理システムの少なくとも一つのプロセッサ（またはセグメンテーションモデル学習部）は少なくとも一つ以上の関心客体を含むイメージに基づいて抽出されたセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成し、疑似インスタンスラベルを利用して前記イメージセグメンテーションモデルを学習させることができる。また、プロセッサ（またはインスタンスラベル調整部）は自己教師あり学習方法により疑似インスタンスラベルを調整することができる。例えば、第１状態～第４状態９１０、９２０、９３０、９４０は少なくとも一つ以上の関心客体を含むイメージに基づいて抽出されたセマンティック知識を利用して疑似インスタンスラベル９２２、９２４、９２６を生成し、疑似インスタンスラベル９２２、９２４、９２６を利用して学習されたイメージセグメンテーションモデルから出力された結果９３２、９３４、９３６を利用して生成されたイメージに含まれた関心客体に対するインスタンスマスクの例示を示す。

【0077】

第１状態９１０は少なくとも一つ以上の関心客体を含む入力イメージの例示を示す。第２状態９２０は入力イメージに基づいて抽出されたセマンティック知識を利用して一つ以上の関心客体の少なくとも一部に対応する疑似インスタンスラベルの例示を示す。例えば、入力イメージ内に含まれた関心客体野原のうち一部に対応する疑似インスタンスラベルが生成されたことが確認できる。

【0078】

第３状態９３０は疑似インスタンスラベルに基づいて学習されたイメージセグメンテーションモデルを利用して入力イメージに対する出力データの例示を示す。ここで出力データは入力イメージに対応する出力オフセットマップ、出力センターマップおよび出力セマンティックマップを含むことができる。出力データの場合、疑似インスタンスラベルおよび調整によって改善された疑似インスタンスラベルを利用してイメージセグメンテーションモデルの繰り返しを遂行することによって、イメージに含まれた関心客体に対してさらに識別可能となったことが確認できる。第４状態９４０は出力データに基づいてインスタンスグルーピングを遂行して生成したインスタンスマスクの例示を示す。これを通じて、イメージレベルのラベルに基づいてイメージに含まれた関心客体それぞれを区別するインスタンスマスクが生成され得ることを確認することができる。

【0079】

本出願の発明者は、図４～図８を参照して説明した本開示の多様な実施例に係るイメージセグメンテーションモデルの学習方法に対する評価を実行した。このために、ＶＯＣ２０１２データセットの場合、１０，５８２個の学習および１，４４９個の検証イメージが含まれた２０個の客体カテゴリーを含む増強データセットが使われた。ＣＯＣＯデータセットは１１５Ｋ学習で構成され、５Ｋ有効性検査および８０個の客体カテゴリーがある２０Ｋテストイメージが使われた。ＶＯＣ２０１２に対してｉｎｔｅｒｓｅｃｔｉｏｎ－ｏｖｅｒ－ｕｎｉｏｎ（ＩｏＵ）臨界値が０．２５、０．５、０．７、０．７５であるｍｅａｎａｖｅｒａｇｅｐｒｅｃｉｓｉｏｎ（ＭＡＰ）を使って、イメージセグメンテーションモデルの学習方法の遂行能力が評価された。また、ＣＯＣＯに対しておよびＩｏＵ臨界値が０．５～０．９５であるａｖｅｒａｇｅＡＰを使って、イメージセグメンテーションモデルの学習方法の遂行能力が評価された。

【0080】

本開示のイメージセグメンテーションモデルを学習するためのセマンティック知識移転のためにピークアテンションモジュール（ＰＡＭ）からインスタンスキューを抽出し、疑似インスタンスマスクは弱教師あり学習基盤セマンティックセグメンテーション（ＷＳＳＳ）方法を使って抽出された。バックボーンネットワークとしてＨＲＮｅｔ４８が採択された。学習のための入力の大きさは４１６×４１６であり、評価のために解像度が維持された。５×１０^－５学習率を有するＡｄａｍｏｐｔｉｍｉｚｅｒを利用して３２バッチサイズで７０エポックの間イメージセグメンテーションモデルが学習された。

【0081】

【表1】

【0082】

【表2】

【0083】

前記の表１はＣＯＣＯデータセットに対し、表２はＶＯＣ２０１２データセットに対して、本開示のイメージセグメンテーションモデル学習方法と既存の弱教師あり学習基盤インスタンスセグメンテーションモデル（ＷＳＩＳ、Ｗｅａｋｌｙ－ｓｕｐｅｒｖｉｓｅｄｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎ）とを比較する。本開示の方法はＡＰ_５０指標で既存の方法より優秀なものと確認された。ＬＩＩＤの場合、本開示の方法より優秀なＡＰを達成したが、事前学習が必要な追加提案データを必要とするので、イメージレベルの教師あり学習設定に符合しない。また、イメージレベルの教師あり学習方法を使ったＩＲＮと比較した時、本開示の発明がさらに優秀であることが確認された（５１．０％ｖｓ．４６．７％）。

【0084】

図１０は、本開示の一実施例に係るイメージセグメンテーションモデルを学習する方法の例示を示すフローチャートである。イメージセグメンテーションモデル学習方法は情報処理システムの少なくとも一つのプロセッサによって遂行され得る。このような方法は、一つ以上の関心客体を含むイメージを受信することによって開始され得る（Ｓ１０１０）。

【0085】

一実施例によると、プロセッサはイメージに基づいて抽出されたセマンティック知識を利用して関心客体に関連した疑似インスタンスラベルを生成することができる（Ｓ１０２０）。例えば、プロセッサはイメージを弱教師あり学習基盤セマンティックセグメンテーション（ＷＳＳＳ）モデルに入力して疑似セマンティックマップを生成することができる。また、プロセッサはイメージをピークアテンションモジュール（ＰＡＭ）に入力してイメージに含まれた関心客体の少なくとも一部に関連したインスタンスキューを抽出することができる。例えば、プロセッサはイメージに含まれた一つ以上の関心客体に関連した中間フィーチャマップを獲得することができる。また、プロセッサはピークアテンションモジュール（ＰＡＭ）を利用して、中間フィーチャマップに基づいて一つ以上の関心客体に関連した基準点および基準点に関連した臨界領域を決定することができる。その後、プロセッサはピークアテンションモジュール（ＰＡＭ）を利用して、基準点および前記臨界領域に基づいてフィーチャマップでの関心客体に関連したピーク領域およびノイズ領域を決定することができ、ノイズ領域を非活性化することによってイメージのピーク領域に対応するインスタンスキューを抽出することができる。ここで、ピークアテンションモジュール（ＰＡＭ）は、自己教師あり学習方法によって学習可能なモデルであり得る。

【0086】

プロセッサは、疑似セマンティックマップおよびインスタンスキューに基づいて選択された疑似インスタンスマスクを利用して疑似インスタンスラベルを生成することができる。具体的には、プロセッサは疑似セマンティックマップおよびインスタンスキューを利用して関心客体に関連した一つ以上のインスタンスマスク候補を生成することができる。その後、プロセッサは一つ以上のインスタンスマスク候補のうち、一つのインスタンスキューに対応するインスタンスマスク候補を疑似インスタンスマスクとして選択することができ、疑似インスタンスマスクに基づいて疑似インスタンスラベルを生成することができる。ここで、インスタンスマスク候補は、疑似セマンティックマップに基づいてＣＣＬアルゴリズムを利用して生成され得る。

【0087】

一実施例において、プロセッサは疑似インスタンスマスクを前記疑似センターマップに変換することができる。例えば、プロセッサは疑似インスタンスマスクのそれぞれの中心ポイントを、２Ｄガウシアンカーネルを利用してエンコーディングすることによって前記疑似センターマップを生成することができる。一実施例において、プロセッサは疑似インスタンスマスクを前記疑似オフセットマップに変換することができる。例えば、プロセッサは疑似インスタンスマスクに含まれたすべてのピクセルがイメージに含まれた関心客体を示すインスタンスの中心ポイントに向かう２Ｄオフセットベクトルを含む疑似オフセットマップを生成することができる。ここで、疑似センターマップおよび疑似オフセットマップは、一つ以上の関心客体を含むイメージに対して欠落しているインスタンスを探すためにイメージセグメンテーションモデルの学習に使われるガイダンスであり得る。

【0088】

プロセッサは疑似インスタンスラベルを利用してイメージセグメンテーションモデルを学習させることができる（Ｓ１０３０）。それから、プロセッサは自己教師あり学習方法により疑似インスタンスラベルを調整することができる（Ｓ１０４０）。具体的には、プロセッサはイメージをイメージセグメンテーションモデルに入力して、イメージに関連した出力セマンティックマップ、イメージに含まれた関心客体の中心点を表示する出力センターマップ、およびイメージに含まれた関心客体の中心点に対する出力オフセットマップを出力することができる。また、プロセッサは出力セマンティックマップ、出力センターマップおよび出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成することができる。その後、プロセッサはインスタンスマスクに基づいて改善されたセンターマップおよび改善されたオフセットマップを生成することができる。それから、プロセッサは出力セマンティックマップ、改善されたセンターマップおよび改善されたオフセットマップを利用してイメージセグメンテーションモデルを学習させることができる。

【0089】

一実施例において、プロセッサは改善されたオフセットマップの品質を高めるために、センタークラスタリングを遂行できる。例えば、プロセッサは改善されたオフセットマップに含まれた２Ｄオフセットベクトルをクラスタリングして中心点を抽出することができる。その後、プロセッサは抽出された中心点を利用して改善されたオフセットマップを補完することができる。

【0090】

一実施例において、プロセッサはイメージに対するセマンティックマップに基づいて生成された前景マスクを利用してインスタンスマスクを生成することができる。例えば、プロセッサは出力セマンティックマップに基づいてイメージに対する前景マスクを生成することができる。その後、プロセッサは前景マスク、出力センターマップおよび出力オフセットマップを利用してインスタンスグルーピングを遂行してインスタンスマスクを生成することができる。

【0091】

図１０で図示したフローチャートおよび前述した説明は一例示に過ぎず、一部の実施例では異なって具現され得る。例えば、一部の実施例では各段階の順序が変わったり、一部の段階が繰り返し遂行されたり、一部の段階が省略されたり、一部の段階が追加され得る。

【0092】

前述した方法はコンピュータで実行するために、コンピュータ読み取り可能な記録媒体に保存されたコンピュータプログラムで提供され得る。媒体はコンピュータで実行可能なプログラムを保存し続けたり、実行またはダウンロードのために臨時保存するものであってもよい。また、媒体は単一または複数個ハードウェアが結合された形態の多様な記録手段または保存手段であり得るが、或るコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散存在するものであってもよい。媒体の例示としては、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体（ｍａｇｎｅｔｏｏｐｔｉｃａｌｍｅｄｉｕｍ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含んでプログラム命令語が保存されるように構成されたものがあり得る。また、他の媒体の例示として、アプリケーションを流通するアップストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバーなどで管理する記録媒体乃至保存媒体も挙げられる。

【0093】

本開示の方法、動作または技法は、多様な手段によって具現されてもよい。例えば、このような技法はハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせで具現されてもよい。本願の開示と連係して説明された多様な例示的な論理的ブロック、モジュール、回路、およびアルゴリズム段階は、電子ハードウェア、コンピュータソフトウェア、または両者の組み合わせで具現されてもよいことを通常の技術者は理解するであろう。ハードウェアおよびソフトウェアの、このような相互代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路、および段階がそれらの機能的観点から一般的に前述された。そのような機能がハードウェアで具現されるかまたはソフトウェアで具現されるかは、特定アプリケーションおよび全体システムに課される設計要求事項により変わる。通常の技術者はそれぞれの特定アプリケーションのために多様な方式で説明された機能を具現してもよいが、そのような具現は本開示の範囲から逸脱するものとして解釈されてはならない。

【0094】

ハードウェアの具現において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号プロセッシングデバイス（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ；ＤＳＰＤ）、プログラム可能論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ；ＰＬＤ）、フィールドプログラム可能ゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ；ＦＰＧＡ）、プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、またはこれらの組み合わせ内で具現されてもよい。

【0095】

したがって、本開示と連係して説明された多様な例示的な論理ブロック、モジュール、および回路は汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡや他のプログラム可能論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、または本願に説明された機能を遂行するように設計されたものなどの任意の組み合わせで具現されたり遂行されてもよい。汎用プロセッサはマイクロプロセッサであり得るが、代案として、プロセッサは任意の従来のプロセッサ、制御器、マイクロ制御器、または状態マシンであってもよい。プロセッサはまた、コンピューティングデバイスの組み合わせ、例えば、ＤＳＰとマイクロプロセッサ、複数のマイクロプロセッサ、ＤＳＰコアと連係した一つ以上のマイクロプロセッサ、または任意の他の構成の組み合わせで具現されてもよい。

【0096】

ファームウェアおよび／またはソフトウェアの具現において、技法はランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ；ＲＡＭ）、読み取り専用メモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ；ＲＯＭ）、不揮発性ＲＡＭ（ｎｏｎ－ｖｏｌａｔｉｌｅｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ；ＮＶＲＡＭ）、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＥＰＲＯＭ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅＰＲＯＭ）、フラッシュメモリ、コンパクトディスク（ｃｏｍｐａｃｔｄｉｓｃ；ＣＤ）、磁気または光学データストレージデバイスなどのようなコンピュータ読み取り可能媒体上に保存された命令で具現されてもよい。命令は一つ以上のプロセッサによって実行可能であってもよく、プロセッサ（ら）が本開示に説明された機能の特定様態を遂行するようにしてもよい。

【0097】

ソフトウェアで具現される場合、前記技法は一つ以上の命令またはコードでコンピュータ読み取り可能な媒体上に保存されたりまたはコンピュータ読み取り可能な媒体を通じて伝送されてもよい。コンピュータ読み取り可能媒体は、一つの場所から他の場所にコンピュータプログラムの伝送を容易にする任意の媒体を含んでコンピュータ保存媒体および通信媒体の両者を含む。保存媒体はコンピュータによってアクセスされ得る任意の利用可能な媒体であってもよい。非制限的な例として、このようなコンピュータ読み取り可能媒体はＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭまたは他の光学ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、または希望のプログラムコードを命令またはデータ構造の形態で移送または保存するために使われ得、コンピュータによってアクセスされ得る任意の他の媒体を含むことができる。また、任意の接続がコンピュータ読み取り可能媒体で適切に称される。

【0098】

例えば、ソフトウェアが同軸ケーブル、光ファイバーケーブル、撚線、デジタル加入者回線（ＤＳＬ）、または赤外線、無線、およびマイクロ波のような無線技術を使ってウェブサイト、サーバー、または他の遠隔ソースから伝送されると、同軸ケーブル、光ファイバーケーブル、撚線、デジタル加入者回線、または赤外線、無線、およびマイクロ波のような無線技術は媒体の定義内に含まれる。本願で使われたディスク（ｄｉｓｋ）とディスク（ｄｉｓｃ）は、ＣＤ、レーザーディスク、光ディスク、ＤＶＤ（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ）、フロッピーディスク、およびブルーレイディスクを含み、ここでディスク（ｄｉｓｋｓ）は通常磁気的にデータを再生し、反面ディスク（ｄｉｓｃｓ）はレーザーを利用して光学的にデータを再生する。前記の組み合わせもコンピュータ読み取り可能媒体の範囲内に含まれるべきである。

【0099】

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、移動式ディスク、ＣＤ－ＲＯＭ、または公知の任意の他の形態の保存媒体内に常駐してもよい。例示的な保存媒体は、プロセッサが保存媒体から情報を読み出しまたは保存媒体に情報を書き込みできるように、プロセッサに連結され得る。代案として、保存媒体はプロセッサに統合されてもよい。プロセッサと保存媒体はＡＳＩＣ内に存在してもよい。ＡＳＩＣはユーザー端末内に存在してもよい。代案として、プロセッサと保存媒体はユーザー端末で個別の構成要素として存在してもよい。

【0100】

以上で説明された実施例が一つ以上の独立型コンピュータシステムで現在開示された主題の様態を活用するものとして記述されたが、本開示はこれに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境と連係して具現されてもよい。ひいては、本開示で主題の様相は複数のプロセッシングチップや装置で具現されてもよく、ストレージは複数の装置に亘って同様に影響を受けることになることもある。このような装置はＰＣ、ネットワークサーバー、および携帯用装置を含んでもよい。

【0101】

本明細書では本開示が一部の実施例と関連して説明されたが、本開示の発明が属する技術分野の通常の技術者が理解できる本開示の範囲を逸脱しない範囲で多様な変形および変更がなされ得る。また、そのような変形および変更は本明細書に添付された特許請求の範囲内に属するものと考えられるべきである。

【符号の説明】

【0102】

１００：情報処理システム
１１０：イメージ
１２０：セマンティック知識生成
１３０：第１インスタンスセグメンテーション情報
１４０：第２インスタンスセグメンテーション情報
１５０：インスタンスラベルの調整
１６０：イメージセグメンテーションモデル

【図1】