特表2022-534712 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 平安科技（深▲せん▼）有限公司の特許一覧

特表2022-534712画像サンプルの選択方法及び関連装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-08-03

(54)【発明の名称】画像サンプルの選択方法及び関連装置

(51)【国際特許分類】

G06F 16/535 20190101AFI20220727BHJP

G06F 16/56 20190101ALI20220727BHJP

G06F 16/55 20190101ALI20220727BHJP

G06V 10/82 20220101ALI20220727BHJP

G06T 7/00 20170101ALI20220727BHJP

【ＦＩ】

G06F16/535

G06F16/56

G06F16/55

G06V10/82

G06T7/00 350C

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021570005

(86)(22)【出願日】2020-08-28

(85)【翻訳文提出日】2021-11-24

(86)【国際出願番号】 CN2020112238

(87)【国際公開番号】W WO2021135330

(87)【国際公開日】2021-07-08

(31)【優先権主張番号】202010739700.8

(32)【優先日】2020-07-28

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】517406065

【氏名又は名称】平安科技（深▲せん▼）有限公司

【氏名又は名称原語表記】ＰＩＮＧＡＮＴＥＣＨＮＯＬＯＧＹ（ＳＨＥＮＺＨＥＮ）ＣＯ．，ＬＴＤ．

【住所又は居所原語表記】２３Ｆ，Ｐｉｎｇ’ａｎＦｉｎａｎｃｉａｌＣｅｎｔｅｒ，Ｎｏ．５０３３ＹｉｔｉａｎＲｏａｄ，Ｆｕ’ａｎＣｏｍｍｕｎｉｔｙｏｆＦｕｔｉａｎＳｔｒｅｅｔ，ＦｕｔｉａｎＤｉｓｔｒｉｃｔＳｈｅｎｚｈｅｎ，Ｇｕａｎｇｄｏｎｇ５１８０００Ｃｈｉｎａ

(74)【代理人】

【識別番号】110002262

【氏名又は名称】ＴＲＹ国際特許業務法人

(72)【発明者】

【氏名】王俊

(72)【発明者】

【氏名】高鵬

【テーマコード（参考）】

5B175

5L096

【Ｆターム（参考）】

5B175DA02

5B175HA01

5B175HB03

5L096BA06

5L096BA13

5L096DA02

5L096HA11

(57)【要約】

本願は、人工知能技術分野に関するものであり、画像サンプルの選択方法及び関連装置を提供する。前記画像サンプルの選択方法は、複数の第１の画像サンプルを用いてインスタンスセグメンテーションモデルをトレーニングし、複数の第３の画像サンプルを用いてスコア予測モデルをトレーニングし、スコア予測モデルに基づいて複数の第２の画像サンプルの情報量スコアを算出し、複数の第２の画像サンプルの特徴ベクトルを算出し、複数の第２の画像サンプルの特徴ベクトルに基づいて複数の第２の画像サンプルをクラスタリングして、複数の第２の画像サンプルの複数のサンプルクラスタを得る。複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、複数の第２の画像サンプルの中から複数の目標画像サンプルを選択する。本発明は、ラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。

【特許請求の範囲】

【請求項1】

インスタンスでラベルされた複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得するステップと、
第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップと、
前記複数の第２の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第２の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングするステップと、
前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を備えることを特徴とする画像サンプルの選択方法。

【請求項2】

前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップは、
前記複数の第１の画像サンプルの各々について、前記第１の画像サンプルを前記第１のＦＰＮバックボーンネットワークに入力して、前記第１のＦＰＮバックボーンネットワークによって前記第１の画像サンプルの特徴表現を算出することと、
前記第１の画像サンプルの特徴表現を前記第１の領域生成ネットワークに入力して、前記第１の領域生成ネットワークによって前記第１の画像サンプルの関心領域を生成することと、
前記第１の画像サンプルの関心領域を前記３つのブランチネットワークに入力して、前記３つのブランチネットワークで前記第１の画像サンプルの関心領域をインスタンス分割することによって、前記第１の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第１の画像サンプルのインスタンスタイプとラベルタイプ、前記第１の画像サンプルのインスタンスボックスとラベルボックス、前記第１の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項１に記載の画像サンプルの選択方法。

【請求項3】

前記第１のＦＰＮバックボーンネットワークによって前記第１の画像サンプルの特徴表現を算出するステップは、
前記第１のＦＰＮバックボーンネットワークのボトム－アップサブネットワークに基づいて前記第１の画像サンプルの中間特徴表現を算出して、前記第１の画像サンプルの中間特徴表現は、算出の先後順位に従って、第１のサブ中間特徴、第２のサブ中間特徴、第３のサブ中間特徴及び第４のサブ中間特徴を含むことと、
前記第１のＦＰＮバックボーンネットワークのトップ－ダウンサブネットワークに基づいて、前記第４のサブ中間特徴に対して次元削減算出を行なって、第４のサブ特徴を得ることと、
前記第３のサブ中間特徴のサイズに基づいて前記第４のサブ特徴に対してアップサンプリング算出を行なって、前記第３のサブ中間特徴及びアップサンプリングされた第４のサブ特徴に対して単位加算を行なって、第３のサブ特徴を得ることと、
前記第２のサブ中間特徴のサイズに基づいて前記第３のサブ特徴に対してアップサンプリング算出を行なって、前記第２のサブ中間特徴及びアップサンプリングされた第３のサブ特徴に対して単位加算を行なって、第２のサブ特徴を得ることと、
前記第１のサブ中間特徴のサイズに基づいて前記第２のサブ特徴に対してアップサンプリング算出を行なって、前記第１のサブ中間特徴とアップサンプリングされた第２のサブ特徴に対して単位加算を行なって、第１のサブ特徴を得ることと、
前記第４のサブ特徴、前記第３のサブ特徴、前記第２のサブ特徴及び前記第１のサブ特徴を組み合せて、前記第１の画像サンプルの特徴表現を得ることと、を含むことを特徴とする請求項２に記載の画像サンプルの選択方法。

【請求項4】

前記３つのブランチネットワークは、第１のＲＣＮＮブランチ、第２のＲＣＮＮブランチ及びマスクブランチを含み、
前記第１の画像サンプルの関心領域を、前記３つのブランチネットワークによってインスタンス分割することは、
前記第１のＲＣＮＮブランチで前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスタイプを得ることと、
前記第２のＲＣＮＮブランチで前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスボックスを得ることと、
前記マスクブランチによって前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスマスクを得ることと、を含み、
前記第１のＲＣＮＮブランチと前記第２のＲＣＮＮブランチとが同じＲＣＮＮ構造を有することを特徴とする請求項２に記載の画像サンプルの選択方法。

【請求項5】

前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップは、
前記複数の第３の画像サンプルの各々に対して、前記第３の画像サンプルを前記第２のＦＰＮバックボーンネットワークに入力して、前記第２のＦＰＮバックボーンネットワークを介して前記第３の画像サンプルの特徴表現を算出することと、
前記第３の画像サンプルの特徴表現を前記第２の領域生成ネットワークに入力して、前記第２の領域生成ネットワークを介して前記第３の画像サンプルの関心領域を生成することと、
前記第３の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第３の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第３の画像サンプルは、前記第３の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項１に記載の画像サンプルの選択方法。

【請求項6】

前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップは、
前記複数の第２の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第２の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出することと、
前記第２の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第２の画像サンプルの各インスタンスの情報量サブスコアを算出することと、
前記第２の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第２の画像サンプルの情報量スコアを得ることと、
を含むことを特徴とする請求項１に記載の画像サンプルの選択方法。

【請求項7】

前記複数の第２の画像サンプルの特徴ベクトルに従って、前記複数の第２の画像サンプルをクラスタリングするステップは、
混合ガウスモデルに基づいて、前記複数の第２の画像サンプルの特徴ベクトルに基づいて、前記複数の第２の画像サンプルをクラスタリングすること、またはＫ平均値モデルに基づいて、前記複数の第２の画像サンプルの特徴ベクトルに基づいて、前記複数の第２の画像サンプルをクラスタリングすることを含むことを特徴とする請求項１に記載の画像サンプルの選択方法。

【請求項8】

インスタンスでラベルされた複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得する取得モジュールと、
第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するための第１の構築モジュールと、
前記複数の第１の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングするための第１のトレーニングモジュールと、
前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するための第２の構築モジュールと、
前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングするための第２のトレーニングモジュールと、
前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出する第１の算出モジュールと、
前記複数の第２の画像サンプルの特徴ベクトルを算出するための第２の算出モジュールと、
前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングし、前記複数の第２の画像サンプルの複数のサンプルクラスタを得るためのクラスタモジュールと、
前記複数の第２の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するための選択モジュールと、を備えることを特徴とする画像サンプルの選択装置。

【請求項9】

プロセッサを含むコンピュータ装置であって、前記プロセッサは、メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、
インスタンスでラベルされた複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得するステップと、
第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップと、
前記複数の第２の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第２の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングするステップと、
前記複数の第２の画像サンプルの情報量スコアと前記複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するステップと、
を実現することを特徴とするコンピュータ装置。

【請求項10】

前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップを実現するときに、
前記複数の第１の画像サンプルの各々について、前記第１の画像サンプルを前記第１のＦＰＮバックボーンネットワークに入力して、前記第１のＦＰＮバックボーンネットワークによって前記第１の画像サンプルの特徴表現を算出することと、
前記第１の画像サンプルの特徴表現を前記第１の領域生成ネットワークに入力して、前記第１の領域生成ネットワークによって前記第１の画像サンプルの関心領域を生成することと、
前記第１の画像サンプルの関心領域を前記３つのブランチネットワークに入力して、前記３つのブランチネットワークで前記第１の画像サンプルの関心領域をインスタンス分割することによって、前記第１の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第１の画像サンプルのインスタンスタイプとラベルタイプ、前記第１の画像サンプルのインスタンスボックスとラベルボックス、前記第１の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項９に記載のコンピュータ装置。

【請求項11】

前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記第１のＦＰＮバックボーンネットワークによって前記第１の画像サンプルの特徴表現を算出することを実現するときに、
前記第１のＦＰＮバックボーンネットワークのボトム－アップサブネットワークに基づいて前記第１の画像サンプルの中間特徴表現を算出して、前記第１の画像サンプルの中間特徴表現は、算出の先後順位に従って、第１のサブ中間特徴、第２のサブ中間特徴、第３のサブ中間特徴及び第４のサブ中間特徴を含むことと、
前記第１のＦＰＮバックボーンネットワークのトップ－ダウンサブネットワークに基づいて、前記第４のサブ中間特徴に対して次元削減算出を行なって、第４のサブ特徴を得ることと、
前記第３のサブ中間特徴のサイズに基づいて前記第４のサブ特徴に対してアップサンプリング算出を行なって、前記第３のサブ中間特徴及びアップサンプリングされた第４のサブ特徴に対して単位加算を行なって、第３のサブ特徴を得ることと、
前記第２のサブ中間特徴のサイズに基づいて前記第３のサブ特徴に対してアップサンプリング算出を行なって、前記第２のサブ中間特徴及びアップサンプリングされた第３のサブ特徴に対して単位加算を行なって、第２のサブ特徴を得ることと、
前記第１のサブ中間特徴のサイズに基づいて前記第２のサブ特徴に対してアップサンプリング算出を行なって、前記第１のサブ中間特徴とアップサンプリングされた第２のサブ特徴に対して単位加算を行なって、第１のサブ特徴を得ることと、
前記第４のサブ特徴、前記第３のサブ特徴、前記第２のサブ特徴及び前記第１のサブ特徴を組み合せて、前記第１の画像サンプルの特徴表現を得ることと、を含むことを特徴とする請求項１０に記載のコンピュータ装置。

【請求項12】

前記３つのブランチネットワークは、第１のＲＣＮＮブランチ、第２のＲＣＮＮブランチ及びマスクブランチを含み、
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記第１の画像サンプルの関心領域を、前記３つのブランチネットワークによってインスタンス分割することを実現するときに、
前記第１のＲＣＮＮブランチで前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスタイプを得ることと、
前記第２のＲＣＮＮブランチで前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスボックスを得ることと、
前記マスクブランチによって前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスマスクを得ることと、を含み、
前記第１のＲＣＮＮブランチと前記第２のＲＣＮＮブランチとが同じＲＣＮＮ構造を有することを特徴とする請求項１０に記載のコンピュータ装置。

【請求項13】

前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップを実現するときに、
前記複数の第３の画像サンプルの各々に対して、前記第３の画像サンプルを前記第２のＦＰＮバックボーンネットワークに入力して、前記第２のＦＰＮバックボーンネットワークを介して前記第３の画像サンプルの特徴表現を算出することと、
前記第３の画像サンプルの特徴表現を前記第２の領域生成ネットワークに入力して、前記第２の領域生成ネットワークを介して前記第３の画像サンプルの関心領域を生成することと、
前記第３の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第３の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第３の画像サンプルは、前記第３の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項９に記載のコンピュータ装置。

【請求項14】

前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップを実現するときに、
前記複数の第２の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第２の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出することと、
前記第２の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第２の画像サンプルの各インスタンスの情報量サブスコアを算出することと、
前記第２の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第２の画像サンプルの情報量スコアを得ることと、を含む
ことを特徴とする請求項９に記載のコンピュータ装置。

【請求項15】

前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記複数の第２の画像サンプルの特徴ベクトルに従って、前記複数の第２の画像サンプルをクラスタリングするステップを実現するときに、
混合ガウスモデルに基づいて、前記複数の第２の画像サンプルの特徴ベクトルに基づいて、前記複数の第２の画像サンプルをクラスタリングすること、またはＫ平均値モデルに基づいて、前記複数の第２の画像サンプルの特徴ベクトルに基づいて、前記複数の第２の画像サンプルをクラスタリングすることを含むことを特徴とする請求項９に記載のコンピュータ装置。

【請求項16】

コンピュータ読み取り可能な命令が記憶されているコンピュータ読み取り可能な記録媒体であって、前記コンピュータ読み取り可能な命令は、プロセッサによって実行されるときに、
インスタンスでラベルされた複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル及びスコアでラベルされた複数の第３の画像サンプルを取得するステップと、
第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップと、
前記複数の第２の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第２の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングするステップと、
前記複数の第２の画像サンプルの情報量スコアと前記複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を実現することを特徴とするコンピュータ読み取り可能な記録媒体。

【請求項17】

前記コンピュータ読み取り可能な命令は、前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップを実現するために、前記プロセッサにより実行されるときに、
前記複数の第１の画像サンプルの各々について、前記第１の画像サンプルを前記第１のＦＰＮバックボーンネットワークに入力して、前記第１のＦＰＮバックボーンネットワークによって前記第１の画像サンプルの特徴表現を算出することと、
前記第１の画像サンプルの特徴表現を前記第１の領域生成ネットワークに入力して、前記第１の領域生成ネットワークによって前記第１の画像サンプルの関心領域を生成することと、
前記第１の画像サンプルの関心領域を前記３つのブランチネットワークに入力して、前記３つのブランチネットワークで前記第１の画像サンプルの関心領域をインスタンス分割することによって、前記第１の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第１の画像サンプルのインスタンスタイプとラベルタイプ、前記第１の画像サンプルのインスタンスボックスとラベルボックス、前記第１の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項１６に記載の記録媒体。

【請求項18】

前記コンピュータ読み取り可能な命令は、前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップを実現するために、前記プロセッサにより実行されるときに、
前記複数の第３の画像サンプルの各々に対して、前記第３の画像サンプルを前記第２のＦＰＮバックボーンネットワークに入力して、前記第２のＦＰＮバックボーンネットワークを介して前記第３の画像サンプルの特徴表現を算出することと、
前記第３の画像サンプルの特徴表現を前記第２の領域生成ネットワークに入力して、前記第２の領域生成ネットワークを介して前記第３の画像サンプルの関心領域を生成することと、
前記第３の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第３の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第３の画像サンプルは、前記第３の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項１６に記載の記録媒体。

【請求項19】

前記コンピュータ読み取り可能な命令は、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップを実現するために、前記プロセッサにより実行されるときに、
前記複数の第２の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第２の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出することと、
前記第２の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第２の画像サンプルの各インスタンスの情報量サブスコアを算出することと、
前記第２の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第２の画像サンプルの情報量スコアを得ることと、を含むことを特徴とする請求項１６に記載の記録媒体。

【請求項20】

前記コンピュータ読み取り可能な命令は、前記複数の第２の画像サンプルの特徴ベクトルに従って、前記複数の第２の画像サンプルをクラスタリングするステップを実現するために、前記プロセッサにより実行されるときに、
混合ガウスモデルに基づいて、前記複数の第２の画像サンプルの特徴ベクトルに基づいて、前記複数の第２の画像サンプルをクラスタリングすること、またはＫ平均値モデルに基づいて、前記複数の第２の画像サンプルの特徴ベクトルに基づいて、前記複数の第２の画像サンプルをクラスタリングすることを含むことを特徴とする請求項１６に記載の記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０２０年７月２８日に中国特許庁に提出した「画像サンプルの選択方法及び関連機器」という名称の中国特許出願の優先権を要求し、その全内容を引用により本願に組み込む。

【0002】

本明細書は、人工知能技術分野に関し、特に、画像サンプルの選択方法、装置、コンピュータデバイス、及びコンピュータ読み取り可能な記憶媒体に関する。

【背景技術】

【0003】

人工知能技術の分野では、画像からインスタンスを識別することがしばしば必要である。例えば、授業画像の中から教師、学生及び机などが認識される。また、医療画像から病巣（病変部位）を特定する。

【0004】

ラベルされた画像サンプルを使用して、インスタンスセグメンテーションモデルをトレーニングし、トレーニングされたインスタンスセグメンテーションモデルによって画像中のインスタンスを識別することができる。画像サンプルへのラベリングは専門家が行う必要がある。しかしながら、発明者は、選択された画像サンプルが適切でない場合、たとえラベラーが経験を積んだとしても、インスタンスセグメンテーションモデルのトレーニング効果は良くないことを見出した。

【0005】

トレーニング効果のよい画像サンプルをどのように正確に選び、専門家がラベルできるようにするかが課題となっている。

【発明の概要】

【0006】

以上のことを考慮して、ラベル対象の画像サンプルの中から目標画像サンプルを選択することができる画像サンプルの選択方法、装置、コンピュータ装置、及びコンピュータ読み取り可能な記憶媒体を提案する必要がある。

【0007】

本開示の第１の態様は、画像サンプルの選択方法を提供する。前記画像サンプルの選択方法は、
インスタンスでラベルされた複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得するステップと、
第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップと、
前記複数の第２の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第２の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングするステップと、
前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を備える。

【0008】

本願の第２の態様は、画像サンプルの選択装置を提供する。前記画像サンプルの選択装置は、
インスタンスでラベルされた複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得する取得モジュールと、
第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するための第１の構築モジュールと、
前記複数の第１の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングするための第１のトレーニングモジュールと、
前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するための第２の構築モジュールと、
前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングするための第２のトレーニングモジュールと、
前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出する第１の算出モジュールと、
前記複数の第２の画像サンプルの特徴ベクトルを算出するための第２の算出モジュールと、
前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングし、前記複数の第２の画像サンプルの複数のサンプルクラスタを得るためのクラスタモジュールと、
前記複数の第２の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するための選択モジュールと、を備える。

【0009】

本願の第３の態様は、プロセッサを含むコンピュータ装置を提供し、前記プロセッサは、メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、
インスタンスでラベルされた複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得するステップと、
第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップと、
前記複数の第２の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第２の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングするステップと、
前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を実現する。

【0010】

本開示の第４の態様は、コンピュータ読み取り可能な記録媒体を提供する。前記コンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が記憶されている。前記コンピュータ読み取り可能な命令は、プロセッサによって実行されるときに、
インスタンスでラベルされた複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得するステップと、
第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第１の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第３の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するステップと、
前記複数の第２の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第２の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングするステップと、
前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を実現する。

【0011】

本発明は、インスタンスでラベルされた後の複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル及びスコアでラベルされた後の複数の第３の画像サンプルを取得し、第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築し、前記複数の第１の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングし、前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築し、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングし、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出し、前記複数の第２の画像サンプルの特徴ベクトルを算出し、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングし、前記複数の第２の画像サンプルの複数のサンプルクラスタを取得し、前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択する。本発明は、ラベルラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。

【図面の簡単な説明】

【0012】

【図1】本発明の実施例に係る画像サンプルの選択方法のフローチャートである。

【図2】本発明の実施例によって提供される画像サンプルの選択装置の構成図である。

【図3】本発明の実施例によって提供されるコンピュータ装置の概略図である。

【発明を実施するための形態】

【0013】

以下、本発明の上記の目的、特徴及び利点を明確に理解するために、図面及び具体的な実施形態を結合して、本発明を詳細に説明する。本願の実施形態及び実施形態における特徴は、お互いに矛盾しない場合、組み合わせることができることに留意されたい。

【0014】

以下の説明では、本発明を十分に理解するために、多くの特定の詳細が述べられているが、説明した実施形態は、本発明の実施形態の一部に過ぎず、実施形態の全てではない。創造的な努力なしに本願の実施形態に基づいて当業者によって得られる他のすべての実施形態は、いずれも本願の保護を求めようとする範囲に属される。

【0015】

本明細書で使用されるすべての技術用語及び科学用語は、特に定義されない限り、本願が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本願の明細書で使用される用語は、具体的な実施形態を説明するためのものだけであり、本願を限定するものではない。

【0016】

好ましくは、本明細書に記載の画像サンプルの選択方法は、１つまたは複数のコンピュータ装置に適用される。前記コンピュータ装置は、事前に設定または記憶された命令に従って、数値の計算及び/または情報処理を自動的に行うことができる装置であり、そのハードウェアがマイクロプロセッサ、専用集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、プログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡ）、デジタルプロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ，ＤＳＰ）、組み込み機器などを含むが、これらに限定されない。

【0017】

本願は、多くの汎用または専用のコンピュータシステム環境または構成において使用することができる。例えば、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはポータブルデバイス、タブレットデバイス、マルチプロセッサシステム、マイクロプロセッサによるシステム、トップボックス、プログラマブルな消費電子機器、ネットワークＰＣ、小型コンピュータ、大型コンピュータ、上記のいずれかのシステムまたはデバイスを含む分散コンピューティング環境などである。本願は、プログラムモジュールのようなコンピュータによって実行されるコンピュータ実行可能な命令の一般的なコンテキストで記述することができる。一般的には、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データタイプを実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介して接続された遠隔処理装置によってタスクが実行される分散コンピューティング環境においても実施することができる。分散コンピューティング環境では、プログラムモジュールは、記憶装置を含むローカルコンピュータ記憶媒体及びリモートコンピュータ記憶媒体に存在することができる。

【0018】

前記コンピュータ装置は、デスクトップコンピュータ、ノートパソコン、パームトップコンピュータ、及びクラウドサーバなどのコンピューティングデバイスであり得る。前記コンピュータデバイスは、キーボード、マウス、リモートコントローラ、タッチパネル、または音声制御デバイスなどの方法でユーザと人機のインタラクションを行うことができる。

【0019】

[実施例１]
図１は、本発明の実施例に係る画像サンプルの選択方法のフローチャートである。この画像サンプルの選択方法は、コンピュータ装置に適用され、ラベル対象の画像サンプルの中から目標画像サンプルを選択することに用いられる。

【0020】

前記画像サンプルの選択方法は、具体的に以下のステップを備える。このフローチャートにおけるステップの順序は、必要に応じて変更可能であり、一部が省略可能である。

【0021】

ステップ１０１では、インスタンスでラベルされた後の複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル及びスコアでラベルされた後の複数の第３の画像サンプルを取得する。

【0022】

前記複数の第１の画像サンプル、前記複数の第２の画像サンプル及び前記第３の画像サンプルは、データベースから読み出されることができる。

【0023】

ユーザによってアップロードされた前記複数の第１の画像サンプル、前記複数の第２の画像サンプル及び前記第３の画像サンプルを受信することができる。

【0024】

前記複数の第１の画像サンプルの数は少なく、且つラベルされない複数の第１の画像サンプルは選択されない。前記複数の第１の画像サンプルをプレトレーニングのために使用する場合、所望のトレーニング効果を達成するために、より多くの第１の画像サンプルが必要とされる。

【0025】

インスタンスのラベリングは、ラベラーが第１の画像サンプルのラベルタイプ、ラベルボックス及びラベルマスクにラベルを付ける必要がある。

【0026】

スコアラベリングには、ラベラーが第３の画像サンプルの分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア、インスタンス数ラベリングスコアをラベルすることを必要とする。インスタンス数ラベリングスコアは、第３の画像サンプルにおけるインスタンスの数である。

【0027】

ステップ１０２では、第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築する。

【0028】

ＦＰＮ（特徴ピラミッドネットワーク，ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ）は、ボトム－アップサブネットワークボトム－アップサブネットワークまたはトップ－ダウンサブネットワークトップ－ダウンサブネットワークを含む。前記第１のＦＰＮバックボーンネットワークのボトム－アップサブネットワークボトム－アップサブネットワークは、複数の異なる特徴階層の画像特徴表現を得るために、画像に対して特徴抽出を行うために使用される。前記第１のＦＰＮバックボーンネットワークのボトム－アップサブネットワークボトム－アップサブネットワークは、前記複数の異なる特徴階層の画像特徴表現に関連して、画像の特徴表現を計算するために使用される。

【0029】

前記第１の領域生成ネットワークは、画像の関心領域を生成するためのＲＰＮネットワーク、ＲоＩＡｌｉｇｎネットワークなどを含む。

【0030】

ステップ１０３では、前記複数の第１の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングする。

【0031】

特定の実施形態では、前記複数の第１の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングすることは、以下のことを含む。

【0032】

前記複数の第１の画像サンプルの各々について、前記第１の画像サンプルを前記第１のＦＰＮバックボーンネットワークに入力して、前記第１のＦＰＮバックボーンネットワークによって前記第１の画像サンプルの特徴表現を算出する。

【0033】

前記第１の画像サンプルの特徴表現を前記第１の領域生成ネットワークに入力して、前記第１の領域生成ネットワークにより前記第１の画像サンプルの関心領域を生成する。

【0034】

前記第１の画像サンプルの関心領域を前記３つのブランチネットワークに入力して、前記３つのブランチネットワークを介して前記第１の画像サンプルの関心領域をインスタンス分割することによって、第１の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得る。

【0035】

逆伝播アルゴリズムに基づいて、前記第１の画像サンプルのインスタンスタイプとラベルタイプ、前記第１の画像サンプルのインスタンスボックスとラベルボックス、前記第１の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化する。

【0036】

特定の実施形態では、前記第１のＦＰＮバックボーンネットワークによって前記第１の画像サンプルの特徴表現を算出することは、以下のことを含む。

【0037】

前記第１のＦＰＮバックボーンネットワークのボトム－アップサブネットワークに基づいて前記第１の画像サンプルの中間特徴表現を算出して、前記第１の画像サンプルの中間特徴表現は、算出の先後順位に従って、第１のサブ中間特徴、第２のサブ中間特徴、第３のサブ中間特徴及び第４のサブ中間特徴を含む。

【0038】

前記第１のＦＰＮバックボーンネットワークのトップ－ダウンサブネットワークに基づいて、前記第４のサブ中間特徴に対して次元削減算出を行なって、第４のサブ特徴を得る。

【0039】

前記第３のサブ中間特徴のサイズに基づいて前記第４のサブ特徴に対してアップサンプリング算出を行なって、前記第３のサブ中間特徴及びアップサンプリングされた第４のサブ特徴に対して単位加算を行なって、第３のサブ特徴を得る。

【0040】

前記第２のサブ中間特徴のサイズに基づいて前記第３のサブ特徴に対してアップサンプリング算出を行なって、前記第２のサブ中間特徴及びアップサンプリングされた第３のサブ特徴に対して単位加算を行なって、第２のサブ特徴を得る。

【0041】

前記第１のサブ中間特徴のサイズに基づいて前記第２のサブ特徴に対してアップサンプリング算出を行なって、前記第１のサブ中間特徴とアップサンプリングされた第２のサブ特徴に対して単位加算を行なって、第１のサブ特徴を取得し、前記第４のサブ特徴、前記第３のサブ特徴、前記第２のサブ特徴及び前記第１のサブ特徴を組み合せて、前記第１の画像サンプルの特徴表現を得る。

【0042】

前記第１の領域生成ネットワークにより前記第１の画像サンプルの関心領域を生成することは、ＲＰＮネットワークに基づいて前記第１の画像サンプルの複数の中間関心領域を生成し、ＲоＩＡｌｉｇｎネットワークに基づいて、前記第１の画像サンプルの複数の中間関心領域のサイズを統一するように、前記第１の画像サンプルの各中間関心領域に対して双線形補間算出を行うことを含む。

【0043】

ＲＰＮネットワークは、一種の完全畳み込みニューラルネットワークであり、候補領域を推奨することに専用することができる。

【0044】

特定の実施形態において、前記第１の画像サンプルの関心領域を、前記３つのブランチネットワークによってインスタンス分割することは、以下のことを含む。

【0045】

前記３つのブランチネットワークにおける第１のＲＣＮＮブランチで前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスタイプを得る。

【0046】

前記３つのブランチネットワークにおける第２のＲＣＮＮブランチで前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスボックスを得る。前記第１のＲＣＮＮブランチと前記第２のＲＣＮＮブランチとが同じＲＣＮＮ構造を有する。

【0047】

前記３つのブランチネットワークにおけるマスクブランチによって前記第１の画像サンプルの関心領域を符号化計算することによって、前記インスタンスマスクを得る。

【0048】

前記同じＲＣＮＮ構造は、完全接続構造及び畳み込み構造を含むことができる。前記第１のＲＣＮＮブランチは、インスタンス分類のための第１の完全接続構造をさらに含む。前記第２のＲＣＮＮブランチは、インスタンスブロック分類のための第２の完全接続構造をさらに含む。

【0049】

ステップ１０４では、前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築する。

【0050】

前記スコア予測モデルは、前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、を含む。すなわち、前記第１のＦＰＮバックボーンネットワークと前記第１の領域生成ネットワークとのパラメータが変化した場合、変化後のパラメータは、前記第２のＦＰＮバックボーンネットワーク及び前記第２の領域生成ネットワークに更新される。

【0051】

ステップ１０５では、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングする。

【0052】

特定の実施形態では、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングすることは、以下のことを含む。

【0053】

前記複数の第３の画像サンプルの各々について、前記第３の画像サンプルを前記第２のＦＰＮバックボーンネットワークに入力して、前記第２のＦＰＮバックボーンネットワークを介して前記第３の画像サンプルの特徴表現を算出する。

【0054】

前記第３の画像サンプルの特徴表現を前記第２の領域生成ネットワークに入力して、前記第２の領域生成ネットワークを介して前記第３の画像サンプルの関心領域を生成する。

【0055】

前記第３の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークによって前記第３の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを得る。前記第３の画像サンプルは、前記第３の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア、インスタンス数ラベリングスコアを含む。

【0056】

逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化する。

【0057】

前記スコア予測ネットワークは、分類スコア予測サブネットワーク、ボックススコア予測サブネットワーク、マスクスコア予測サブネットワーク、インスタンス数スコア予測サブネットワークを含むことができる。前記分類スコア予測サブネットワーク、前記ボックススコア予測サブネットワーク及び前記マスクスコア予測サブネットワークは、それぞれ完全接続構造及び畳み込み構造を含む。前記インスタンス数スコア予測サブネットワークは、畳み込み構造を含む。具体的には、前記ボックススコア予測サブネットワークは、２つの完全接続層及び１つの畳み込み層を含む。前記マスクスコア予測サブネットワークは、２つの完全接続層及び１つの畳み込み層を含む。前記インスタンス数スコア予測サブネットワークは、１つの畳み込み層を含む。

【0058】

前記分類スコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第３の画像サンプルのインスタンスタイプの不確実性を決定するために使用される。前記ボックススコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第３の画像サンプルのインスタンスボックスの不確実性を決定するために使用される。前記マスクスコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第３の画像サンプルのインスタンスマスクの不確実性を決定するために使用される。前記インスタンス数スコア予測サブネットワークは、第３のイメージサンプルのインスタンスのナンバーを予測するために用いる。

【0059】

ステップ１０６では、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを計算する。

【0060】

特定の実施形態では、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出することは、以下のことを含む。

【0061】

前記複数の第２の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第２の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出する。

【0062】

前記第２の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第２の画像サンプルの各インスタンスの情報量サブスコアを算出する。

【0063】

前記第２の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第２の画像サンプルの情報量スコアを得る。

【0064】

前記インスタンスセグメンテーションモデルが前記第２の画像サンプルのインスタンスタイプの予測確率を出力するときに、信頼度が低いほど、前記第２の画像サンプルの分類スコアは高くなる。前記インスタンスセグメンテーションモデルが前記第２の画像サンプルのインスタンスブロックを出力するときに、前記第２の画像サンプルのインスタンスブロックのＩＯＵ値を算出する。前記第２の画像サンプルのインスタンスブロックのＩＯＵ値が小さいほど、前記第２の画像サンプルのボックススコアは高くなる。前記インスタンスセグメンテーションモデルが前記第２の画像サンプルのインスタンスマスクを出力するときに、前記第２の画像サンプルのインスタンスマスクのＪａｃｃａｒｄ値を算出する。前記第２の画像サンプルのインスタンスマスクのＪａｃｃａｒｄ値が大きいほど、前記第２の画像サンプルのマスクスコアは高くなる。前記スコア予測モデルが前記第２の画像サンプルのインスタンス数ラベリングスコアの予測確率を出力するときに、信頼度が低いほど、前記第２の画像サンプルのインスタンス数スコアは高くなる。

【0065】

ステップ１０７では、前記複数の第２の画像サンプルの特徴ベクトルを計算する。

【0066】

特定の実施形態において、前記複数の第２の画像サンプルの特徴ベクトルを算出することは、以下のことを含む。

【0067】

前記第２のＦＰＮバックボーンネットワークで複数のサブ特徴表現を含む前記第２の画像サンプルの特徴表現を算出する。

【0068】

前記第２の画像サンプルの複数のサブ特徴表現に対してグローバル平均プール化し、プール化された複数のサブ特徴表現を得る。

【0069】

前記プール化された複数のサブ特徴表現をスティッチングする。

【0070】

スティッチングされた複数のサブ特徴表現を前記特徴ベクトルに変換する。

【0071】

ステップ１０８では、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングし、前記複数の第２の画像サンプルの複数のサンプルクラスタを得る。

【0072】

特定の実施形態では、前記複数の第２の画像サンプルの特徴ベクトルに従って、前記複数の第２の画像サンプルをクラスタリングすることは、以下のことを含む。

【0073】

混合ガウスモデルに基づいて、複数の第２の画像サンプルの特徴ベクトルに基づいて、前記複数の第２の画像サンプルをクラスタリングする。または、Ｋ平均値モデルに基づいて、複数の第２の画像サンプルの特徴ベクトルに基づいて、前記複数の第２の画像サンプルをクラスタリングする。

【0074】

特定の実施形態では、混合ガウスモデルに基づいて、複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングすることは、以下のことを含む。

【0075】

複数の第２の画像サンプルの特徴ベクトルを正規化して、複数のターゲット特徴ベクトルを得る。

【0076】

平均ベクトル、共分散行列及び混合係数を含むガウスパラメータを初期化する。

【0077】

ＥＭアルゴリズムに基づいて前記ガウスパラメータを算出する。

【0078】

前記ガウスパラメータに基づいて、前記複数の第２の画像サンプルの複数のサンプルクラスタが決定される。

【0079】

ステップ１０９では、前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択する。

【0080】

特定の実施形態では、前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択することは、以下のことを含む。

【0081】

プリセット数量を取得する。

【0082】

前記複数のサンプルクラスタの各々に対して、前記サンプルクラスタ内の第２の画像サンプルを、情報量スコアに基づいて上位から下位にソートする。

【0083】

前記サンプルクラスタの中から、情報量スコアが高いから低いまでの順に従って予め設定された数の第２の画像サンプルを選択する。実施例１の画像サンプルの選択方法は、インスタンスでラベルされた後の複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル及びスコアでラベルされた後の複数の第３の画像サンプルを取得し、第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築し、前記複数の第１の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングし、前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築し、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングし、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出し、前記複数の第２の画像サンプルの特徴ベクトルを算出し、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングし、前記複数の第２の画像サンプルの複数のサンプルクラスタを取得し、前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択する。実施例１では、ラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。

【0084】

別の実施形態では、前記画像サンプルの選択方法は、さらに、
ユーザによる前記複数の目標画像サンプルへのラベルを受け付け、ラベル後の複数の目標画像サンプルを得るステップと、
前記ラベル後の複数の目標画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、を含む。

【0085】

[実施例２]
図２は、本願の実施例に係る画像サンプルの選択装置の構成図である。画像サンプルの選択装置２０は、コンピュータ装置に適用される。前記画像サンプルの選択装置２０は、ラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。

【0086】

図２に示すように、前記画像サンプルの選択装置２０は、取得モジュール２０１、第１の構築モジュール２０２、第１のトレーニングモジュール２０３、第２の構築モジュール２０４、第２のトレーニングモジュール２０５、第１の算出モジュール２０６、第２の算出モジュール２０７、クラスタモジュール２０８、選択モジュール２０９を含むことができる。

【0087】

取得モジュール２０１は、インスタンスでラベルされた後の複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得する。

【0088】

前記複数の第１の画像サンプル、前記複数の第２の画像サンプル及び前記第３の画像サンプルは、データベースから読み出されることができる。

【0089】

【0090】

【0091】

インスタンスのラベリングは、ラベラーが第１の画像サンプルのラベルタイプ、ラベルボックス、ラベルマスクにラベルを付ける必要がある。

【0092】

【0093】

第１の構築モジュール２０２は、第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築する。

【0094】

【0095】

前記第１の領域生成ネットワークは、画像の関心領域を生成するためのＲＰＮネットワーク、ＲоＩＡｌｉｇｎネットワークなどを含む。

【0096】

第１のトレーニングモジュール２０３は、複数の第１の画像サンプルを使用して、前記インスタンスセグメンテーションモデルをトレーニングするために用いられる。

【0097】

【0098】

【0099】

前記第１の画像サンプルの特徴表現を前記第１の領域生成ネットワークに入力して、前記第１の領域生成ネットワークによって前記第１の画像サンプルの関心領域を生成する。

【0100】

【0101】

【0102】

【0103】

前記第１のＦＰＮバックボーンネットワークのボトム－アップサブネットワークに基づいて前記第１の画像サンプルの中間特徴表現を算出し、前記第１の画像サンプルの中間特徴表現は、算出の先後順位に従って、第１のサブ中間特徴、第２のサブ中間特徴、第３のサブ中間特徴及び第４のサブ中間特徴を含む。

【0104】

【0105】

【0106】

【0107】

【0108】

前記第１の領域生成ネットワークを介して前記第１の画像サンプルの関心領域を生成することは、ＲＰＮネットワークに基づいて前記第１の画像サンプルの複数の中間関心領域を生成し、ＲоＩＡｌｉｇｎネットワークに基づいて、前記第１の画像サンプルの複数の中間関心領域のサイズを統一するように、前記第１の画像サンプルの各中間関心領域に対して双線形補間算出を行うことを含む。

【0109】

ＲＰＮネットワークは、一種の完全畳み込みニューラルネットワークであり、候補領域を推奨することに専用することができる。

【0110】

特定の実施形態において、前記３つのブランチネットワークによって前記第１の画像サンプルの関心領域をインスタンス分割することは、以下のことを含む。

【0111】

前記３つのブランチネットワークにおける第１のＲＣＮＮブランチで前記第１の画像サンプルの関心領域を符号化算出することによって、前記インスタンスタイプを得る。

【0112】

前記３つのブランチネットワークにおける第２のＲＣＮＮブランチで前記第１の画像サンプルの関心領域を符号化算出することによって、前記インスタンスボックスを得る。前記第１のＲＣＮＮブランチと前記第２のＲＣＮＮブランチとが同じＲＣＮＮ構造を有する。

【0113】

前記３つのブランチネットワークにおけるマスクブランチで前記第１の画像サンプルの関心領域を符号化算出することによって、前記インスタンスマスクを得る。

【0114】

【0115】

第２の構築モジュール２０４は、第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築する。

【0116】

【0117】

第２のトレーニングモジュール２０５は、前記複数の第３の画像サンプルで前記スコア予測モデルをトレーニングするために用いられる。

【0118】

特定の実施形態では、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングすることは、以下のことを含む。

【0119】

前記複数の第３の画像サンプルの各々に対して、前記第３の画像サンプルを前記第２のＦＰＮバックボーンネットワークに入力して、前記第２のＦＰＮバックボーンネットワークを介して前記第３の画像サンプルの特徴表現を算出する。

【0120】

【0121】

前記第３の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第３の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得る。前記第３の画像サンプルは、前記第３の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含む。

【0122】

【0123】

前記スコア予測ネットワークは、分類スコア予測サブネットワーク、ボックススコア予測サブネットワーク、マスクスコア予測サブネットワーク及びインスタンス数スコア予測サブネットワークを含むことができる。前記分類スコア予測サブネットワーク、前記ボックススコア予測サブネットワーク及び前記マスクスコア予測サブネットワークは、それぞれ完全接続構造及び畳み込み構造を含む。前記インスタンス数スコア予測サブネットワークは、畳み込み構造を含む。具体的には、前記ボックススコア予測サブネットワークは、２つの完全接続層及び１つの畳み込み層を含む。前記マスクスコア予測サブネットワークは、２つの完全接続層及び１つの畳み込み層を含む。前記インスタンス数スコア予測サブネットワークは、１つの畳み込み層を含む。

【0124】

【0125】

第１の算出モジュール２０６は、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するために用いられる。

【0126】

特定の実施形態では、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出することは、以下のことを含む。

【0127】

【0128】

前記第２の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアに基づいて、前記第２の画像サンプルの各インスタンスの情報量サブスコアを算出する。

【0129】

前記第２の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第２の画像サンプルの情報量スコアを得る。

【0130】

【0131】

第２の算出モジュール２０７は、前記複数の第２の画像サンプルの特徴ベクトルを算出するために用いられる。

【0132】

特定の実施形態において、前記複数の第２の画像サンプルの特徴ベクトルを算出することは、以下のことを含む。

【0133】

前記第２のＦＰＮバックボーンネットワークで複数のサブ特徴表現を含む前記第２の画像サンプルの特徴表現を算出する。

【0134】

前記第２の画像サンプルの複数のサブ特徴表現に対してグローバル平均プール化し、プール化された複数のサブ特徴表現を得る。

【0135】

前記プール化された複数のサブ特徴表現をスティッチングする。

【0136】

スティッチングされた複数のサブ特徴表現を前記特徴ベクトルに変換する。

【0137】

クラスタモジュール２０８は、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングし、複数の第２の画像サンプルの複数のサンプルクラスタを得る。

【0138】

【0139】

混合ガウスモデルに基づいて、複数の第２の画像サンプルの特徴ベクトルに基づいて、複数の第２の画像サンプルをクラスタリングする。または、Ｋ平均値モデルに基づいて、複数の第２の画像サンプルの特徴ベクトルに基づいて、複数の第２の画像サンプルをクラスタリングする。

【0140】

特定の実施形態では、混合ガウスモデルに基づいて、複数の第２の画像サンプルの特徴ベクトルに基づいて複数の第２の画像サンプルをクラスタリングすることは、以下のことを含む。

【0141】

複数の第２の画像サンプルの特徴ベクトルを正規化して、複数のターゲット特徴ベクトルを得る。

【0142】

平均ベクトル、共分散行列、混合係数を含むガウスパラメータを初期化する。

【0143】

ＥＭアルゴリズムに基づいて前記ガウスパラメータを算出する。

【0144】

前記ガウスパラメータに基づいて、複数の第２の画像サンプルの複数のサンプルクラスタが決定される。

【0145】

選択モジュール２０９は、前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択する。

【0146】

【0147】

プリセット数量を取得する。

【0148】

前記複数のサンプルクラスタの各々に対して、前記サンプルクラスタ内の第２の画像サンプルを情報量スコアに基づいて上位から下位にソートする。

【0149】

前記サンプルクラスタの中から、情報量スコアが高いから低いまでの順に従って予め設定された数の第２の画像サンプルを選択する。

【0150】

実施例２の画像サンプルの選択装置２０は、インスタンスでラベルされた後の複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル及びスコアでラベルされた後の複数の第３の画像サンプルを取得し、第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築し、前記複数の第１の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングし、前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築し、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングし、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出し、前記複数の第２の画像サンプルの特徴ベクトルを算出し、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングし、前記複数の第２の画像サンプルの複数のサンプルクラスタを取得し、前記複数の第２の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択する。実施例２では、ラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。

【0151】

また、他の実施形態では、前記第１のトレーニングモジュールは、さらに、ユーザによる前記複数の目標画像サンプルへのラベルを受け付け、複数のラベル後の目標画像サンプルを取得する。

【0152】

前記複数のラベル後の目標画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングする。

【0153】

[実施例３]
本実施形態は、不揮発性であってもよいし、揮発性であってもよいコンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が記憶されている。前記コンピュータ読み取り可能な命令は、プロセッサにより実行されるときに、上述した画像サンプルの選択方法の実施例におけるステップ、例えば、図１に示されるステップ１０１~１０９を実現する。

【0154】

ステップ１０１では、インスタンスでラベルされた後の複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得する。

【0155】

ステップ１０２では、第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築する。

【0156】

ステップ１０３では、前記複数の第１の画像サンプルを使用して、前記インスタンスセグメンテーションモデルをトレーニングする。

【0157】

ステップ１０４では、第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、前記第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築する。

【0158】

ステップ１０５では、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングする。

【0159】

ステップ１０６では、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出する。

【0160】

ステップ１０７では、前記複数の第２の画像サンプルの特徴ベクトルを算出する。

【0161】

ステップ１０８では、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングして、前記複数の第２の画像サンプルの複数のサンプルクラスタを得る。

【0162】

【0163】

または、前記コンピュータ読み取り可能な命令がプロセッサによって実行されるときに、上述した装置の実施例における各モジュールの機能、例えば図２におけるモジュール２０１~２０９の機能を実現する。

【0164】

取得モジュール２０１は、インスタンスでラベルされた後の複数の第１の画像サンプル、インスタンスでラベルされようとする複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得するために用いられる。

【0165】

第１の構築モジュール２０２は、第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するために用いられる。

【0166】

第１のトレーニングモジュール２０３は、前記複数の第１の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングするために用いられる。

【0167】

第２の構築モジュール２０４は、前記第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するために用いられる。

【0168】

第２のトレーニングモジュール２０５は、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングするために用いられる。

【0169】

第１の算出モジュール２０６は、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出する。

【0170】

第２の算出モジュール２０７は、前記複数の第２の画像サンプルの特徴ベクトルを算出するために用いられる。

【0171】

クラスタモジュール２０８は、前記複数の第２の画像サンプルの特徴ベクトルに基づいて前記複数の第２の画像サンプルをクラスタリングして、前記複数の第２の画像サンプルの複数のサンプルクラスタを得るために用いられる。

【0172】

選択モジュール２０９は、前記複数の第２の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択するために用いられる。

【0173】

[実施例４]
図３は、本発明の実施例４に係るコンピュータ装置の概略図である。前記コンピュータ装置３０は、メモリ３０１、プロセッサ３０２、及び前記メモリ３０１に格納され、且つ前記プロセッサ３０２において実行可能なコンピュータ読み取り可能な命令３０３、例えば、画像サンプル選択プログラムを含む。前記プロセッサ３０２は、前記コンピュータ読み取り可能な命令３０３を実行することで、上記の画像サンプルの選択方法の実施例におけるステップ、例えば、図１に示されるステップ１０１～１０９を実現する。

【0174】

ステップ１０１では、インスタンスでラベルされた後の複数の第１の画像サンプル、インスタンスでラベルされた後の複数の第２の画像サンプル、及びスコアでラベルされた複数の第３の画像サンプルを取得する。

【0175】

【0176】

ステップ１０３では、前記複数の第１の画像サンプルを使用して、前記インスタンスセグメンテーションモデルをトレーニングする。

【0177】

ステップ１０４では、第１のＦＰＮバックボーンネットワークとパラメータ及びネットワーク構造を共有する第２のＦＰＮバックボーンネットワークと、第１の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第２の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築する。

【0178】

ステップ１０５では、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングする。

【0179】

ステップ１０６では、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出する。

【0180】

ステップ１０７では、前記複数の第２の画像サンプルの特徴ベクトルを算出する。

【0181】

【0182】

【0183】

【0184】

【0185】

第１の構築モジュール２０２は、第１のＦＰＮバックボーンネットワーク、第１の領域生成ネットワーク、及び３つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するために用いられる。

【0186】

【0187】

【0188】

第２のトレーニングモジュール２０５は、前記複数の第３の画像サンプルを使用して前記スコア予測モデルをトレーニングするために用いられる。

【0189】

第１の算出モジュール２０６は、前記スコア予測モデルに基づいて、前記複数の第２の画像サンプルの情報量スコアを算出するために用いられる。

【0190】

第２の算出モジュール２０７は、前記複数の第２の画像サンプルの特徴ベクトルを算出するために用いられる。

【0191】

【0192】

選択モジュール２０９は、前記複数の第２の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第２の画像サンプルの中から複数の目標画像サンプルを選択する。

【0193】

例えば、前記コンピュータプログラム３０３は、１つまたは複数のモジュールに分割されることが可能である。前記１つまたは複数のモジュールは、前記メモリ３０１の中に記憶されて、前記プロセッサ３０２によって実行されることにより、本発明の方法を完成する。前記１つ又は複数のモジュールは、コンピュータ装置３０におけるコンピュータ読み取り可能な命令３０３の実行手順を説明するための、特定の機能を達成可能な一連のコンピュータプログラム命令セグメントであってもよい。例えば、前記コンピュータ読み取り可能な命令３０３は、図２における取得モジュール２０１、第１の構築モジュール２０２、第１のトレーニングモジュール２０３、第２の構築モジュール２０４、第２のトレーニングモジュール２０５、第１の算出モジュール２０６、第２の算出モジュール２０７、クラスタモジュール２０８及び選択モジュール２０９に分割されることが可能である。各モジュールの具体的な機能は、実施例２を参照する。

【0194】

前記コンピュータ装置３０は、デスクトップコンピュータ、ノートパソコン、パームトップコンピュータ、及びクラウドサーバなどのコンピューティングデバイスであり得る。上記の概略図３は、コンピュータ装置３０の構成を限定するものではなく、コンピュータ装置３０の単なる例であり、図示されたコンポーネントよりも多いまたは少ないコンポーネントを含んで構成されたり、またはいくつかのコンポーネントを組み合わせることにより構成されたり、または異なるコンポーネントにより構成されてもよいことを当業者が理解すべきである。例えば、コンピュータ装置３０は、入出力デバイス、ネットワークアクセスデバイス、バスラインなどをさらに含むことができる。

【0195】

前記プロセッサ３０２は、中央処理ユニット（ＣｅｎｔｒａｌＰｒoｃｅｓｓｉｎｇＵｎｉｔ，ＣＰＵ）であってもよく、または他の汎用プロセッサ、デジタル信号プロセッサ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒоｃｅｓｓоｒ，ＤＳＰ）、専用集積回路（ＡｐｐｌｉｃａｔｉоｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ－ＰｒоｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡ）またはその他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。汎用プロセッサは、マイクロプロセッサでもよい。前記プロセッサ３０２は、任意の従来のプロセッサなどでもよい。前記プロセッサ３０２は、前記コンピュータ装置３０の制御センターであり、様々なインターフェース及び回線を使用してコンピュータ装置３０全体の各部分を接続する。

【0196】

前記メモリ３０１は、前記コンピュータ読み取り可能な命令３０３を記憶するために用いられる。前記プロセッサ３０２は、前記メモリ３０１に格納されたコンピュータ読み取り可能な命令又はモジュールを実行又は運行し、且つメモリ３０１に格納されたデータを呼び出すことにより、前記コンピュータ装置３０の各種機能を実現する。前記メモリ３０１は、主にプログラム格納領域及びデータ格納領域を含む。プログラム格納領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラム（例えば、音声再生機能、画像再生機能など）などを格納することができる。データ格納領域は、コンピュータ装置３０の使用に応じて作成されたデータなどを格納する。さらに、メモリ３０１は、ハードディスク、メモリ、プラグインハードディスク、スマートメモリカード（ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ，ＳＭＣ）、セキュアデジタル（ＳｅｃｕｒｅＤｉｇｉｔａｌ，ＳＤ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ，ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ，ＲＡＭ）またはその他の不揮発性／揮発性メモリデバイスを含んでもよい。

【0197】

前記コンピュータ装置３０によって集積されたモジュールは、ソフトウェア機能モジュールの形態で実現され、且つ独立した製品として販売または使用される場合、1つのコンピュータ読み取り可能な記憶媒体に格納されることができる。前記コンピュータ読み取り可能な記憶媒体は、不揮発性であっても揮発性であってもよい。このような理解に基づいて、本発明は、前述の方法実施例におけるプロセスの全部または一部を実施し、コンピュータ読み取り可能な命令によって関連するハードウェアを指示しても良い。前記コンピュータ読み取り可能な命令は、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。前記コンピュータ読み取り可能な命令は、プロセッサによって実行されるときに、上述の様々な方法実施例のステップを実現することができる。ここで、前記コンピュータ読み取り可能な命令は、ソースコード形式、オブジェクトコード形式、実行可能ファイルまたは何らかの中間形式の形態であり得る。前記コンピュータ読み取り可能な記録媒体は、前記コンピュータ読み取り可能な命令を担持可能な任意の実体又はデバイス、記録媒体、Ｕディスク、モバイルハードディスク、磁気ディスク、光ディスク、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）を含んでもよい。

【0198】

本願が提供する幾つかの実施例では、開示されたシステム、装置及び方法は、他の態様で実現されていることが理解される。例えば、上述した装置の実施例は模式的なものであり、例えば、前記モジュールの分割は、論理的な機能分割のみであり、実際に実現する時に他の分割方式もあり得る。

【0199】

前記分離手段として説明したモジュールは、物理的に分かれていてもよいし、分かれていなくてもよく、モジュールとして表示する部品は、物理的なモジュールであってもよいし、物理的なモジュールでなくてもよく、一か所に位置していてもよく、複数のネットワークユニットに分布されていてもよい。本実施例の目的は、実際の必要に応じて、その中の一部または全部のモジュールを選択することにより実現される。

【0200】

さらに、本発明の各実施例における各機能モジュールは、同じ処理ユニットに集積されてもよく、各モジュールが物理的に別々に存在してもよく、または２つ以上のモジュールが同じユニットに集積されてもよい。上記の集積されたユニットは、ハードウェアの形式で実現されたり、またはハードウェアプラスソフトウェア機能モジュールという形で実現されてもよい。

【0201】

上述のソフトウェア機能モジュールとして実現される統合モジュールは、１つのコンピュータ読み取り可能な記録媒体に格納されてもよい。上記のソフトウェア機能モジュールは、１つの記憶媒体に記憶されており、本願の各実施形態に係る画像サンプルの選択方法の一部のステップを、１つのコンピュータ装置（パーソナルコンピュータ、サーバ、ネットワーク機器などであってもよい）又はプロセッサに実行させるための幾つかの命令を含んでいる。

【0202】

本発明は、上述の例示的な実施形態の詳細に限定されず、本発明の精神または本質的な特徴から逸脱することなく、他の特定の形態で実施できることは当業者には明らかである。したがって、本発明における上記の各実施形態は、本発明を制限するものではなく、例示と見なされるべきであり、本発明の範囲は、上記の説明により限定されることではなく、特許請求の範囲によって定義される。なお、特許請求の同等要素の意味及び範囲におけるすべての変更は、本発明に含まれる。特許請求内の参照符号は、特許請求範囲を限定するものとして解釈されることはない。また、「含む」という言葉は、他の要素またはステップを除外せず、単数は複数を除外しないことが明らかである。システム請求項に記載の複数のモジュールまたは装置は、１つのモジュールまたは装置がソフトウェアまたはハードウェアによって実現されてもよい。第１、第２などの単語は、名前を示すために使用され、特定の順序を示すものではない。

【0203】

上記の各実施形態は、ただ本発明の技術的解決策を説明するためのものであり、限定することを意図するものではなく、好ましい実施形態を参照して、本発明について詳細に説明しているが、当業者は、本発明の精神及び範囲から逸脱することなく、本発明の技術的解決策を修正または同等に置換できることを理解すべきである。

【図1】