(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-08-03
(54)【発明の名称】画像サンプルの選択方法及び関連装置
(51)【国際特許分類】
G06F 16/535 20190101AFI20220727BHJP
G06F 16/56 20190101ALI20220727BHJP
G06F 16/55 20190101ALI20220727BHJP
G06V 10/82 20220101ALI20220727BHJP
G06T 7/00 20170101ALI20220727BHJP
【FI】
G06F16/535
G06F16/56
G06F16/55
G06V10/82
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021570005
(86)(22)【出願日】2020-08-28
(85)【翻訳文提出日】2021-11-24
(86)【国際出願番号】 CN2020112238
(87)【国際公開番号】W WO2021135330
(87)【国際公開日】2021-07-08
(31)【優先権主張番号】202010739700.8
(32)【優先日】2020-07-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際特許業務法人
(72)【発明者】
【氏名】王 俊
(72)【発明者】
【氏名】高 鵬
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175HA01
5B175HB03
5L096BA06
5L096BA13
5L096DA02
5L096HA11
(57)【要約】
本願は、人工知能技術分野に関するものであり、画像サンプルの選択方法及び関連装置を提供する。前記画像サンプルの選択方法は、複数の第1の画像サンプルを用いてインスタンスセグメンテーションモデルをトレーニングし、複数の第3の画像サンプルを用いてスコア予測モデルをトレーニングし、スコア予測モデルに基づいて複数の第2の画像サンプルの情報量スコアを算出し、複数の第2の画像サンプルの特徴ベクトルを算出し、複数の第2の画像サンプルの特徴ベクトルに基づいて複数の第2の画像サンプルをクラスタリングして、複数の第2の画像サンプルの複数のサンプルクラスタを得る。複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。本発明は、ラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。
【特許請求の範囲】
【請求項1】
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を備えることを特徴とする画像サンプルの選択方法。
【請求項2】
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップは、
前記複数の第1の画像サンプルの各々について、前記第1の画像サンプルを前記第1のFPNバックボーンネットワークに入力して、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することと、
前記第1の画像サンプルの特徴表現を前記第1の領域生成ネットワークに入力して、前記第1の領域生成ネットワークによって前記第1の画像サンプルの関心領域を生成することと、
前記第1の画像サンプルの関心領域を前記3つのブランチネットワークに入力して、前記3つのブランチネットワークで前記第1の画像サンプルの関心領域をインスタンス分割することによって、前記第1の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第1の画像サンプルのインスタンスタイプとラベルタイプ、前記第1の画像サンプルのインスタンスボックスとラベルボックス、前記第1の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項1に記載の画像サンプルの選択方法。
【請求項3】
前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出するステップは、
前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークに基づいて前記第1の画像サンプルの中間特徴表現を算出して、前記第1の画像サンプルの中間特徴表現は、算出の先後順位に従って、第1のサブ中間特徴、第2のサブ中間特徴、第3のサブ中間特徴及び第4のサブ中間特徴を含むことと、
前記第1のFPNバックボーンネットワークのトップ-ダウンサブネットワークに基づいて、前記第4のサブ中間特徴に対して次元削減算出を行なって、第4のサブ特徴を得ることと、
前記第3のサブ中間特徴のサイズに基づいて前記第4のサブ特徴に対してアップサンプリング算出を行なって、前記第3のサブ中間特徴及びアップサンプリングされた第4のサブ特徴に対して単位加算を行なって、第3のサブ特徴を得ることと、
前記第2のサブ中間特徴のサイズに基づいて前記第3のサブ特徴に対してアップサンプリング算出を行なって、前記第2のサブ中間特徴及びアップサンプリングされた第3のサブ特徴に対して単位加算を行なって、第2のサブ特徴を得ることと、
前記第1のサブ中間特徴のサイズに基づいて前記第2のサブ特徴に対してアップサンプリング算出を行なって、前記第1のサブ中間特徴とアップサンプリングされた第2のサブ特徴に対して単位加算を行なって、第1のサブ特徴を得ることと、
前記第4のサブ特徴、前記第3のサブ特徴、前記第2のサブ特徴及び前記第1のサブ特徴を組み合せて、前記第1の画像サンプルの特徴表現を得ることと、を含むことを特徴とする請求項2に記載の画像サンプルの選択方法。
【請求項4】
前記3つのブランチネットワークは、第1のRCNNブランチ、第2のRCNNブランチ及びマスクブランチを含み、
前記第1の画像サンプルの関心領域を、前記3つのブランチネットワークによってインスタンス分割することは、
前記第1のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスタイプを得ることと、
前記第2のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスボックスを得ることと、
前記マスクブランチによって前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスマスクを得ることと、を含み、
前記第1のRCNNブランチと前記第2のRCNNブランチとが同じRCNN構造を有することを特徴とする請求項2に記載の画像サンプルの選択方法。
【請求項5】
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップは、
前記複数の第3の画像サンプルの各々に対して、前記第3の画像サンプルを前記第2のFPNバックボーンネットワークに入力して、前記第2のFPNバックボーンネットワークを介して前記第3の画像サンプルの特徴表現を算出することと、
前記第3の画像サンプルの特徴表現を前記第2の領域生成ネットワークに入力して、前記第2の領域生成ネットワークを介して前記第3の画像サンプルの関心領域を生成することと、
前記第3の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第3の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第3の画像サンプルは、前記第3の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項1に記載の画像サンプルの選択方法。
【請求項6】
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップは、
前記複数の第2の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第2の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出することと、
前記第2の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第2の画像サンプルの各インスタンスの情報量サブスコアを算出することと、
前記第2の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第2の画像サンプルの情報量スコアを得ることと、
を含むことを特徴とする請求項1に記載の画像サンプルの選択方法。
【請求項7】
前記複数の第2の画像サンプルの特徴ベクトルに従って、前記複数の第2の画像サンプルをクラスタリングするステップは、
混合ガウスモデルに基づいて、前記複数の第2の画像サンプルの特徴ベクトルに基づいて、前記複数の第2の画像サンプルをクラスタリングすること、またはK平均値モデルに基づいて、前記複数の第2の画像サンプルの特徴ベクトルに基づいて、前記複数の第2の画像サンプルをクラスタリングすることを含むことを特徴とする請求項1に記載の画像サンプルの選択方法。
【請求項8】
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得する取得モジュールと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するための第1の構築モジュールと、
前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングするための第1のトレーニングモジュールと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するための第2の構築モジュールと、
前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングするための第2のトレーニングモジュールと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出する第1の算出モジュールと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するための第2の算出モジュールと、
前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングし、前記複数の第2の画像サンプルの複数のサンプルクラスタを得るためのクラスタモジュールと、
前記複数の第2の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するための選択モジュールと、を備えることを特徴とする画像サンプルの選択装置。
【請求項9】
プロセッサを含むコンピュータ装置であって、前記プロセッサは、メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと前記複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、
を実現することを特徴とするコンピュータ装置。
【請求項10】
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップを実現するときに、
前記複数の第1の画像サンプルの各々について、前記第1の画像サンプルを前記第1のFPNバックボーンネットワークに入力して、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することと、
前記第1の画像サンプルの特徴表現を前記第1の領域生成ネットワークに入力して、前記第1の領域生成ネットワークによって前記第1の画像サンプルの関心領域を生成することと、
前記第1の画像サンプルの関心領域を前記3つのブランチネットワークに入力して、前記3つのブランチネットワークで前記第1の画像サンプルの関心領域をインスタンス分割することによって、前記第1の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第1の画像サンプルのインスタンスタイプとラベルタイプ、前記第1の画像サンプルのインスタンスボックスとラベルボックス、前記第1の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項9に記載のコンピュータ装置。
【請求項11】
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することを実現するときに、
前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークに基づいて前記第1の画像サンプルの中間特徴表現を算出して、前記第1の画像サンプルの中間特徴表現は、算出の先後順位に従って、第1のサブ中間特徴、第2のサブ中間特徴、第3のサブ中間特徴及び第4のサブ中間特徴を含むことと、
前記第1のFPNバックボーンネットワークのトップ-ダウンサブネットワークに基づいて、前記第4のサブ中間特徴に対して次元削減算出を行なって、第4のサブ特徴を得ることと、
前記第3のサブ中間特徴のサイズに基づいて前記第4のサブ特徴に対してアップサンプリング算出を行なって、前記第3のサブ中間特徴及びアップサンプリングされた第4のサブ特徴に対して単位加算を行なって、第3のサブ特徴を得ることと、
前記第2のサブ中間特徴のサイズに基づいて前記第3のサブ特徴に対してアップサンプリング算出を行なって、前記第2のサブ中間特徴及びアップサンプリングされた第3のサブ特徴に対して単位加算を行なって、第2のサブ特徴を得ることと、
前記第1のサブ中間特徴のサイズに基づいて前記第2のサブ特徴に対してアップサンプリング算出を行なって、前記第1のサブ中間特徴とアップサンプリングされた第2のサブ特徴に対して単位加算を行なって、第1のサブ特徴を得ることと、
前記第4のサブ特徴、前記第3のサブ特徴、前記第2のサブ特徴及び前記第1のサブ特徴を組み合せて、前記第1の画像サンプルの特徴表現を得ることと、を含むことを特徴とする請求項10に記載のコンピュータ装置。
【請求項12】
前記3つのブランチネットワークは、第1のRCNNブランチ、第2のRCNNブランチ及びマスクブランチを含み、
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記第1の画像サンプルの関心領域を、前記3つのブランチネットワークによってインスタンス分割することを実現するときに、
前記第1のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスタイプを得ることと、
前記第2のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスボックスを得ることと、
前記マスクブランチによって前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスマスクを得ることと、を含み、
前記第1のRCNNブランチと前記第2のRCNNブランチとが同じRCNN構造を有することを特徴とする請求項10に記載のコンピュータ装置。
【請求項13】
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップを実現するときに、
前記複数の第3の画像サンプルの各々に対して、前記第3の画像サンプルを前記第2のFPNバックボーンネットワークに入力して、前記第2のFPNバックボーンネットワークを介して前記第3の画像サンプルの特徴表現を算出することと、
前記第3の画像サンプルの特徴表現を前記第2の領域生成ネットワークに入力して、前記第2の領域生成ネットワークを介して前記第3の画像サンプルの関心領域を生成することと、
前記第3の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第3の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第3の画像サンプルは、前記第3の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項9に記載のコンピュータ装置。
【請求項14】
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップを実現するときに、
前記複数の第2の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第2の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出することと、
前記第2の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第2の画像サンプルの各インスタンスの情報量サブスコアを算出することと、
前記第2の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第2の画像サンプルの情報量スコアを得ることと、を含む
ことを特徴とする請求項9に記載のコンピュータ装置。
【請求項15】
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記複数の第2の画像サンプルの特徴ベクトルに従って、前記複数の第2の画像サンプルをクラスタリングするステップを実現するときに、
混合ガウスモデルに基づいて、前記複数の第2の画像サンプルの特徴ベクトルに基づいて、前記複数の第2の画像サンプルをクラスタリングすること、またはK平均値モデルに基づいて、前記複数の第2の画像サンプルの特徴ベクトルに基づいて、前記複数の第2の画像サンプルをクラスタリングすることを含むことを特徴とする請求項9に記載のコンピュータ装置。
【請求項16】
コンピュータ読み取り可能な命令が記憶されているコンピュータ読み取り可能な記録媒体であって、前記コンピュータ読み取り可能な命令は、プロセッサによって実行されるときに、
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと前記複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を実現することを特徴とするコンピュータ読み取り可能な記録媒体。
【請求項17】
前記コンピュータ読み取り可能な命令は、前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップを実現するために、前記プロセッサにより実行されるときに、
前記複数の第1の画像サンプルの各々について、前記第1の画像サンプルを前記第1のFPNバックボーンネットワークに入力して、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することと、
前記第1の画像サンプルの特徴表現を前記第1の領域生成ネットワークに入力して、前記第1の領域生成ネットワークによって前記第1の画像サンプルの関心領域を生成することと、
前記第1の画像サンプルの関心領域を前記3つのブランチネットワークに入力して、前記3つのブランチネットワークで前記第1の画像サンプルの関心領域をインスタンス分割することによって、前記第1の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第1の画像サンプルのインスタンスタイプとラベルタイプ、前記第1の画像サンプルのインスタンスボックスとラベルボックス、前記第1の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項16に記載の記録媒体。
【請求項18】
前記コンピュータ読み取り可能な命令は、前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップを実現するために、前記プロセッサにより実行されるときに、
前記複数の第3の画像サンプルの各々に対して、前記第3の画像サンプルを前記第2のFPNバックボーンネットワークに入力して、前記第2のFPNバックボーンネットワークを介して前記第3の画像サンプルの特徴表現を算出することと、
前記第3の画像サンプルの特徴表現を前記第2の領域生成ネットワークに入力して、前記第2の領域生成ネットワークを介して前記第3の画像サンプルの関心領域を生成することと、
前記第3の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第3の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第3の画像サンプルは、前記第3の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項16に記載の記録媒体。
【請求項19】
前記コンピュータ読み取り可能な命令は、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップを実現するために、前記プロセッサにより実行されるときに、
前記複数の第2の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第2の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出することと、
前記第2の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第2の画像サンプルの各インスタンスの情報量サブスコアを算出することと、
前記第2の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第2の画像サンプルの情報量スコアを得ることと、を含むことを特徴とする請求項16に記載の記録媒体。
【請求項20】
前記コンピュータ読み取り可能な命令は、前記複数の第2の画像サンプルの特徴ベクトルに従って、前記複数の第2の画像サンプルをクラスタリングするステップを実現するために、前記プロセッサにより実行されるときに、
混合ガウスモデルに基づいて、前記複数の第2の画像サンプルの特徴ベクトルに基づいて、前記複数の第2の画像サンプルをクラスタリングすること、またはK平均値モデルに基づいて、前記複数の第2の画像サンプルの特徴ベクトルに基づいて、前記複数の第2の画像サンプルをクラスタリングすることを含むことを特徴とする請求項16に記載の記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年7月28日に中国特許庁に提出した「画像サンプルの選択方法及び関連機器」という名称の中国特許出願の優先権を要求し、その全内容を引用により本願に組み込む。
【0002】
本明細書は、人工知能技術分野に関し、特に、画像サンプルの選択方法、装置、コンピュータデバイス、及びコンピュータ読み取り可能な記憶媒体に関する。
【背景技術】
【0003】
人工知能技術の分野では、画像からインスタンスを識別することがしばしば必要である。例えば、授業画像の中から教師、学生及び机などが認識される。また、医療画像から病巣(病変部位)を特定する。
【0004】
ラベルされた画像サンプルを使用して、インスタンスセグメンテーションモデルをトレーニングし、トレーニングされたインスタンスセグメンテーションモデルによって画像中のインスタンスを識別することができる。画像サンプルへのラベリングは専門家が行う必要がある。しかしながら、発明者は、選択された画像サンプルが適切でない場合、たとえラベラーが経験を積んだとしても、インスタンスセグメンテーションモデルのトレーニング効果は良くないことを見出した。
【0005】
トレーニング効果のよい画像サンプルをどのように正確に選び、専門家がラベルできるようにするかが課題となっている。
【発明の概要】
【0006】
以上のことを考慮して、ラベル対象の画像サンプルの中から目標画像サンプルを選択することができる画像サンプルの選択方法、装置、コンピュータ装置、及びコンピュータ読み取り可能な記憶媒体を提案する必要がある。
【0007】
本開示の第1の態様は、画像サンプルの選択方法を提供する。前記画像サンプルの選択方法は、
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を備える。
【0008】
本願の第2の態様は、画像サンプルの選択装置を提供する。前記画像サンプルの選択装置は、
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得する取得モジュールと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するための第1の構築モジュールと、
前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングするための第1のトレーニングモジュールと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するための第2の構築モジュールと、
前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングするための第2のトレーニングモジュールと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出する第1の算出モジュールと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するための第2の算出モジュールと、
前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングし、前記複数の第2の画像サンプルの複数のサンプルクラスタを得るためのクラスタモジュールと、
前記複数の第2の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するための選択モジュールと、を備える。
【0009】
本願の第3の態様は、プロセッサを含むコンピュータ装置を提供し、前記プロセッサは、メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を実現する。
【0010】
本開示の第4の態様は、コンピュータ読み取り可能な記録媒体を提供する。前記コンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が記憶されている。前記コンピュータ読み取り可能な命令は、プロセッサによって実行されるときに、
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を実現する。
【0011】
本発明は、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル及びスコアでラベルされた後の複数の第3の画像サンプルを取得し、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築し、前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングし、前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築し、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングし、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出し、前記複数の第2の画像サンプルの特徴ベクトルを算出し、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングし、前記複数の第2の画像サンプルの複数のサンプルクラスタを取得し、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。本発明は、ラベルラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施例に係る画像サンプルの選択方法のフローチャートである。
【
図2】本発明の実施例によって提供される画像サンプルの選択装置の構成図である。
【
図3】本発明の実施例によって提供されるコンピュータ装置の概略図である。
【発明を実施するための形態】
【0013】
以下、本発明の上記の目的、特徴及び利点を明確に理解するために、図面及び具体的な実施形態を結合して、本発明を詳細に説明する。本願の実施形態及び実施形態における特徴は、お互いに矛盾しない場合、組み合わせることができることに留意されたい。
【0014】
以下の説明では、本発明を十分に理解するために、多くの特定の詳細が述べられているが、説明した実施形態は、本発明の実施形態の一部に過ぎず、実施形態の全てではない。創造的な努力なしに本願の実施形態に基づいて当業者によって得られる他のすべての実施形態は、いずれも本願の保護を求めようとする範囲に属される。
【0015】
本明細書で使用されるすべての技術用語及び科学用語は、特に定義されない限り、本願が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本願の明細書で使用される用語は、具体的な実施形態を説明するためのものだけであり、本願を限定するものではない。
【0016】
好ましくは、本明細書に記載の画像サンプルの選択方法は、1つまたは複数のコンピュータ装置に適用される。前記コンピュータ装置は、事前に設定または記憶された命令に従って、数値の計算及び/または情報処理を自動的に行うことができる装置であり、そのハードウェアがマイクロプロセッサ、専用集積回路(Application Specific Integrated Circuit,ASIC)、プログラマブルゲートアレイ(Field-Programmable Gate Array,FPGA)、デジタルプロセッサ(Digital Signal Processor,DSP)、組み込み機器などを含むが、これらに限定されない。
【0017】
本願は、多くの汎用または専用のコンピュータシステム環境または構成において使用することができる。例えば、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはポータブルデバイス、タブレットデバイス、マルチプロセッサシステム、マイクロプロセッサによるシステム、トップボックス、プログラマブルな消費電子機器、ネットワークPC、小型コンピュータ、大型コンピュータ、上記のいずれかのシステムまたはデバイスを含む分散コンピューティング環境などである。本願は、プログラムモジュールのようなコンピュータによって実行されるコンピュータ実行可能な命令の一般的なコンテキストで記述することができる。一般的には、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データタイプを実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介して接続された遠隔処理装置によってタスクが実行される分散コンピューティング環境においても実施することができる。分散コンピューティング環境では、プログラムモジュールは、記憶装置を含むローカルコンピュータ記憶媒体及びリモートコンピュータ記憶媒体に存在することができる。
【0018】
前記コンピュータ装置は、デスクトップコンピュータ、ノートパソコン、パームトップコンピュータ、及びクラウドサーバなどのコンピューティングデバイスであり得る。前記コンピュータデバイスは、キーボード、マウス、リモートコントローラ、タッチパネル、または音声制御デバイスなどの方法でユーザと人機のインタラクションを行うことができる。
【0019】
[実施例1]
図1は、本発明の実施例に係る画像サンプルの選択方法のフローチャートである。この画像サンプルの選択方法は、コンピュータ装置に適用され、ラベル対象の画像サンプルの中から目標画像サンプルを選択することに用いられる。
【0020】
前記画像サンプルの選択方法は、具体的に以下のステップを備える。このフローチャートにおけるステップの順序は、必要に応じて変更可能であり、一部が省略可能である。
【0021】
ステップ101では、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル及びスコアでラベルされた後の複数の第3の画像サンプルを取得する。
【0022】
前記複数の第1の画像サンプル、前記複数の第2の画像サンプル及び前記第3の画像サンプルは、データベースから読み出されることができる。
【0023】
ユーザによってアップロードされた前記複数の第1の画像サンプル、前記複数の第2の画像サンプル及び前記第3の画像サンプルを受信することができる。
【0024】
前記複数の第1の画像サンプルの数は少なく、且つラベルされない複数の第1の画像サンプルは選択されない。前記複数の第1の画像サンプルをプレトレーニングのために使用する場合、所望のトレーニング効果を達成するために、より多くの第1の画像サンプルが必要とされる。
【0025】
インスタンスのラベリングは、ラベラーが第1の画像サンプルのラベルタイプ、ラベルボックス及びラベルマスクにラベルを付ける必要がある。
【0026】
スコアラベリングには、ラベラーが第3の画像サンプルの分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア、インスタンス数ラベリングスコアをラベルすることを必要とする。インスタンス数ラベリングスコアは、第3の画像サンプルにおけるインスタンスの数である。
【0027】
ステップ102では、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築する。
【0028】
FPN(特徴ピラミッドネットワーク,feature pyramid networks)は、ボトム-アップサブネットワークボトム-アップサブネットワークまたはトップ-ダウンサブネットワークトップ-ダウンサブネットワークを含む。前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークボトム-アップサブネットワークは、複数の異なる特徴階層の画像特徴表現を得るために、画像に対して特徴抽出を行うために使用される。前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークボトム-アップサブネットワークは、前記複数の異なる特徴階層の画像特徴表現に関連して、画像の特徴表現を計算するために使用される。
【0029】
前記第1の領域生成ネットワークは、画像の関心領域を生成するためのRPNネットワーク、RоIAlignネットワークなどを含む。
【0030】
ステップ103では、前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングする。
【0031】
特定の実施形態では、前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングすることは、以下のことを含む。
【0032】
前記複数の第1の画像サンプルの各々について、前記第1の画像サンプルを前記第1のFPNバックボーンネットワークに入力して、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出する。
【0033】
前記第1の画像サンプルの特徴表現を前記第1の領域生成ネットワークに入力して、前記第1の領域生成ネットワークにより前記第1の画像サンプルの関心領域を生成する。
【0034】
前記第1の画像サンプルの関心領域を前記3つのブランチネットワークに入力して、前記3つのブランチネットワークを介して前記第1の画像サンプルの関心領域をインスタンス分割することによって、第1の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得る。
【0035】
逆伝播アルゴリズムに基づいて、前記第1の画像サンプルのインスタンスタイプとラベルタイプ、前記第1の画像サンプルのインスタンスボックスとラベルボックス、前記第1の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化する。
【0036】
特定の実施形態では、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することは、以下のことを含む。
【0037】
前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークに基づいて前記第1の画像サンプルの中間特徴表現を算出して、前記第1の画像サンプルの中間特徴表現は、算出の先後順位に従って、第1のサブ中間特徴、第2のサブ中間特徴、第3のサブ中間特徴及び第4のサブ中間特徴を含む。
【0038】
前記第1のFPNバックボーンネットワークのトップ-ダウンサブネットワークに基づいて、前記第4のサブ中間特徴に対して次元削減算出を行なって、第4のサブ特徴を得る。
【0039】
前記第3のサブ中間特徴のサイズに基づいて前記第4のサブ特徴に対してアップサンプリング算出を行なって、前記第3のサブ中間特徴及びアップサンプリングされた第4のサブ特徴に対して単位加算を行なって、第3のサブ特徴を得る。
【0040】
前記第2のサブ中間特徴のサイズに基づいて前記第3のサブ特徴に対してアップサンプリング算出を行なって、前記第2のサブ中間特徴及びアップサンプリングされた第3のサブ特徴に対して単位加算を行なって、第2のサブ特徴を得る。
【0041】
前記第1のサブ中間特徴のサイズに基づいて前記第2のサブ特徴に対してアップサンプリング算出を行なって、前記第1のサブ中間特徴とアップサンプリングされた第2のサブ特徴に対して単位加算を行なって、第1のサブ特徴を取得し、前記第4のサブ特徴、前記第3のサブ特徴、前記第2のサブ特徴及び前記第1のサブ特徴を組み合せて、前記第1の画像サンプルの特徴表現を得る。
【0042】
前記第1の領域生成ネットワークにより前記第1の画像サンプルの関心領域を生成することは、RPNネットワークに基づいて前記第1の画像サンプルの複数の中間関心領域を生成し、RоIAlignネットワークに基づいて、前記第1の画像サンプルの複数の中間関心領域のサイズを統一するように、前記第1の画像サンプルの各中間関心領域に対して双線形補間算出を行うことを含む。
【0043】
RPNネットワークは、一種の完全畳み込みニューラルネットワークであり、候補領域を推奨することに専用することができる。
【0044】
特定の実施形態において、前記第1の画像サンプルの関心領域を、前記3つのブランチネットワークによってインスタンス分割することは、以下のことを含む。
【0045】
前記3つのブランチネットワークにおける第1のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスタイプを得る。
【0046】
前記3つのブランチネットワークにおける第2のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスボックスを得る。前記第1のRCNNブランチと前記第2のRCNNブランチとが同じRCNN構造を有する。
【0047】
前記3つのブランチネットワークにおけるマスクブランチによって前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスマスクを得る。
【0048】
前記同じRCNN構造は、完全接続構造及び畳み込み構造を含むことができる。前記第1のRCNNブランチは、インスタンス分類のための第1の完全接続構造をさらに含む。前記第2のRCNNブランチは、インスタンスブロック分類のための第2の完全接続構造をさらに含む。
【0049】
ステップ104では、前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築する。
【0050】
前記スコア予測モデルは、前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、を含む。すなわち、前記第1のFPNバックボーンネットワークと前記第1の領域生成ネットワークとのパラメータが変化した場合、変化後のパラメータは、前記第2のFPNバックボーンネットワーク及び前記第2の領域生成ネットワークに更新される。
【0051】
ステップ105では、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングする。
【0052】
特定の実施形態では、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングすることは、以下のことを含む。
【0053】
前記複数の第3の画像サンプルの各々について、前記第3の画像サンプルを前記第2のFPNバックボーンネットワークに入力して、前記第2のFPNバックボーンネットワークを介して前記第3の画像サンプルの特徴表現を算出する。
【0054】
前記第3の画像サンプルの特徴表現を前記第2の領域生成ネットワークに入力して、前記第2の領域生成ネットワークを介して前記第3の画像サンプルの関心領域を生成する。
【0055】
前記第3の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークによって前記第3の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを得る。前記第3の画像サンプルは、前記第3の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア、インスタンス数ラベリングスコアを含む。
【0056】
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化する。
【0057】
前記スコア予測ネットワークは、分類スコア予測サブネットワーク、ボックススコア予測サブネットワーク、マスクスコア予測サブネットワーク、インスタンス数スコア予測サブネットワークを含むことができる。前記分類スコア予測サブネットワーク、前記ボックススコア予測サブネットワーク及び前記マスクスコア予測サブネットワークは、それぞれ完全接続構造及び畳み込み構造を含む。前記インスタンス数スコア予測サブネットワークは、畳み込み構造を含む。具体的には、前記ボックススコア予測サブネットワークは、2つの完全接続層及び1つの畳み込み層を含む。前記マスクスコア予測サブネットワークは、2つの完全接続層及び1つの畳み込み層を含む。前記インスタンス数スコア予測サブネットワークは、1つの畳み込み層を含む。
【0058】
前記分類スコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第3の画像サンプルのインスタンスタイプの不確実性を決定するために使用される。前記ボックススコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第3の画像サンプルのインスタンスボックスの不確実性を決定するために使用される。前記マスクスコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第3の画像サンプルのインスタンスマスクの不確実性を決定するために使用される。前記インスタンス数スコア予測サブネットワークは、第3のイメージサンプルのインスタンスのナンバーを予測するために用いる。
【0059】
ステップ106では、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを計算する。
【0060】
特定の実施形態では、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出することは、以下のことを含む。
【0061】
前記複数の第2の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第2の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出する。
【0062】
前記第2の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第2の画像サンプルの各インスタンスの情報量サブスコアを算出する。
【0063】
前記第2の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第2の画像サンプルの情報量スコアを得る。
【0064】
前記インスタンスセグメンテーションモデルが前記第2の画像サンプルのインスタンスタイプの予測確率を出力するときに、信頼度が低いほど、前記第2の画像サンプルの分類スコアは高くなる。前記インスタンスセグメンテーションモデルが前記第2の画像サンプルのインスタンスブロックを出力するときに、前記第2の画像サンプルのインスタンスブロックのIOU値を算出する。前記第2の画像サンプルのインスタンスブロックのIOU値が小さいほど、前記第2の画像サンプルのボックススコアは高くなる。前記インスタンスセグメンテーションモデルが前記第2の画像サンプルのインスタンスマスクを出力するときに、前記第2の画像サンプルのインスタンスマスクのJaccard値を算出する。前記第2の画像サンプルのインスタンスマスクのJaccard値が大きいほど、前記第2の画像サンプルのマスクスコアは高くなる。前記スコア予測モデルが前記第2の画像サンプルのインスタンス数ラベリングスコアの予測確率を出力するときに、信頼度が低いほど、前記第2の画像サンプルのインスタンス数スコアは高くなる。
【0065】
ステップ107では、前記複数の第2の画像サンプルの特徴ベクトルを計算する。
【0066】
特定の実施形態において、前記複数の第2の画像サンプルの特徴ベクトルを算出することは、以下のことを含む。
【0067】
前記第2のFPNバックボーンネットワークで複数のサブ特徴表現を含む前記第2の画像サンプルの特徴表現を算出する。
【0068】
前記第2の画像サンプルの複数のサブ特徴表現に対してグローバル平均プール化し、プール化された複数のサブ特徴表現を得る。
【0069】
前記プール化された複数のサブ特徴表現をスティッチングする。
【0070】
スティッチングされた複数のサブ特徴表現を前記特徴ベクトルに変換する。
【0071】
ステップ108では、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングし、前記複数の第2の画像サンプルの複数のサンプルクラスタを得る。
【0072】
特定の実施形態では、前記複数の第2の画像サンプルの特徴ベクトルに従って、前記複数の第2の画像サンプルをクラスタリングすることは、以下のことを含む。
【0073】
混合ガウスモデルに基づいて、複数の第2の画像サンプルの特徴ベクトルに基づいて、前記複数の第2の画像サンプルをクラスタリングする。または、K平均値モデルに基づいて、複数の第2の画像サンプルの特徴ベクトルに基づいて、前記複数の第2の画像サンプルをクラスタリングする。
【0074】
特定の実施形態では、混合ガウスモデルに基づいて、複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングすることは、以下のことを含む。
【0075】
複数の第2の画像サンプルの特徴ベクトルを正規化して、複数のターゲット特徴ベクトルを得る。
【0076】
平均ベクトル、共分散行列及び混合係数を含むガウスパラメータを初期化する。
【0077】
EMアルゴリズムに基づいて前記ガウスパラメータを算出する。
【0078】
前記ガウスパラメータに基づいて、前記複数の第2の画像サンプルの複数のサンプルクラスタが決定される。
【0079】
ステップ109では、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。
【0080】
特定の実施形態では、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択することは、以下のことを含む。
【0081】
プリセット数量を取得する。
【0082】
前記複数のサンプルクラスタの各々に対して、前記サンプルクラスタ内の第2の画像サンプルを、情報量スコアに基づいて上位から下位にソートする。
【0083】
前記サンプルクラスタの中から、情報量スコアが高いから低いまでの順に従って予め設定された数の第2の画像サンプルを選択する。実施例1の画像サンプルの選択方法は、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル及びスコアでラベルされた後の複数の第3の画像サンプルを取得し、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築し、前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングし、前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築し、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングし、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出し、前記複数の第2の画像サンプルの特徴ベクトルを算出し、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングし、前記複数の第2の画像サンプルの複数のサンプルクラスタを取得し、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。実施例1では、ラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。
【0084】
別の実施形態では、前記画像サンプルの選択方法は、さらに、
ユーザによる前記複数の目標画像サンプルへのラベルを受け付け、ラベル後の複数の目標画像サンプルを得るステップと、
前記ラベル後の複数の目標画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、を含む。
【0085】
[実施例2]
図2は、本願の実施例に係る画像サンプルの選択装置の構成図である。画像サンプルの選択装置20は、コンピュータ装置に適用される。前記画像サンプルの選択装置20は、ラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。
【0086】
図2に示すように、前記画像サンプルの選択装置20は、取得モジュール201、第1の構築モジュール202、第1のトレーニングモジュール203、第2の構築モジュール204、第2のトレーニングモジュール205、第1の算出モジュール206、第2の算出モジュール207、クラスタモジュール208、選択モジュール209を含むことができる。
【0087】
取得モジュール201は、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得する。
【0088】
前記複数の第1の画像サンプル、前記複数の第2の画像サンプル及び前記第3の画像サンプルは、データベースから読み出されることができる。
【0089】
ユーザによってアップロードされた前記複数の第1の画像サンプル、前記複数の第2の画像サンプル及び前記第3の画像サンプルを受信することができる。
【0090】
前記複数の第1の画像サンプルの数は少なく、且つラベルされない複数の第1の画像サンプルは選択されない。前記複数の第1の画像サンプルをプレトレーニングのために使用する場合、所望のトレーニング効果を達成するために、より多くの第1の画像サンプルが必要とされる。
【0091】
インスタンスのラベリングは、ラベラーが第1の画像サンプルのラベルタイプ、ラベルボックス、ラベルマスクにラベルを付ける必要がある。
【0092】
スコアラベリングには、ラベラーが第3の画像サンプルの分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア、インスタンス数ラベリングスコアをラベルすることを必要とする。インスタンス数ラベリングスコアは、第3の画像サンプルにおけるインスタンスの数である。
【0093】
第1の構築モジュール202は、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築する。
【0094】
FPN(特徴ピラミッドネットワーク,feature pyramidnetworks)は、ボトム-アップサブネットワークボトム-アップサブネットワークまたはトップ-ダウンサブネットワークトップ-ダウンサブネットワークを含む。前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークボトム-アップサブネットワークは、複数の異なる特徴階層の画像特徴表現を得るために、画像に対して特徴抽出を行うために使用される。前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークボトム-アップサブネットワークは、前記複数の異なる特徴階層の画像特徴表現に関連して、画像の特徴表現を計算するために使用される。
【0095】
前記第1の領域生成ネットワークは、画像の関心領域を生成するためのRPNネットワーク、RоIAlignネットワークなどを含む。
【0096】
第1のトレーニングモジュール203は、複数の第1の画像サンプルを使用して、前記インスタンスセグメンテーションモデルをトレーニングするために用いられる。
【0097】
特定の実施形態では、前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングすることは、以下のことを含む。
【0098】
前記複数の第1の画像サンプルの各々について、前記第1の画像サンプルを前記第1のFPNバックボーンネットワークに入力して、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出する。
【0099】
前記第1の画像サンプルの特徴表現を前記第1の領域生成ネットワークに入力して、前記第1の領域生成ネットワークによって前記第1の画像サンプルの関心領域を生成する。
【0100】
前記第1の画像サンプルの関心領域を前記3つのブランチネットワークに入力して、前記3つのブランチネットワークを介して前記第1の画像サンプルの関心領域をインスタンス分割することによって、第1の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得る。
【0101】
逆伝播アルゴリズムに基づいて、前記第1の画像サンプルのインスタンスタイプとラベルタイプ、前記第1の画像サンプルのインスタンスボックスとラベルボックス、前記第1の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化する。
【0102】
特定の実施形態では、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することは、以下のことを含む。
【0103】
前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークに基づいて前記第1の画像サンプルの中間特徴表現を算出し、前記第1の画像サンプルの中間特徴表現は、算出の先後順位に従って、第1のサブ中間特徴、第2のサブ中間特徴、第3のサブ中間特徴及び第4のサブ中間特徴を含む。
【0104】
前記第1のFPNバックボーンネットワークのトップ-ダウンサブネットワークに基づいて、前記第4のサブ中間特徴に対して次元削減算出を行なって、第4のサブ特徴を得る。
【0105】
前記第3のサブ中間特徴のサイズに基づいて前記第4のサブ特徴に対してアップサンプリング算出を行なって、前記第3のサブ中間特徴及びアップサンプリングされた第4のサブ特徴に対して単位加算を行なって、第3のサブ特徴を得る。
【0106】
前記第2のサブ中間特徴のサイズに基づいて前記第3のサブ特徴に対してアップサンプリング算出を行なって、前記第2のサブ中間特徴及びアップサンプリングされた第3のサブ特徴に対して単位加算を行なって、第2のサブ特徴を得る。
【0107】
前記第1のサブ中間特徴のサイズに基づいて前記第2のサブ特徴に対してアップサンプリング算出を行なって、前記第1のサブ中間特徴とアップサンプリングされた第2のサブ特徴に対して単位加算を行なって、第1のサブ特徴を取得し、前記第4のサブ特徴、前記第3のサブ特徴、前記第2のサブ特徴及び前記第1のサブ特徴を組み合せて、前記第1の画像サンプルの特徴表現を得る。
【0108】
前記第1の領域生成ネットワークを介して前記第1の画像サンプルの関心領域を生成することは、RPNネットワークに基づいて前記第1の画像サンプルの複数の中間関心領域を生成し、RоIAlignネットワークに基づいて、前記第1の画像サンプルの複数の中間関心領域のサイズを統一するように、前記第1の画像サンプルの各中間関心領域に対して双線形補間算出を行うことを含む。
【0109】
RPNネットワークは、一種の完全畳み込みニューラルネットワークであり、候補領域を推奨することに専用することができる。
【0110】
特定の実施形態において、前記3つのブランチネットワークによって前記第1の画像サンプルの関心領域をインスタンス分割することは、以下のことを含む。
【0111】
前記3つのブランチネットワークにおける第1のRCNNブランチで前記第1の画像サンプルの関心領域を符号化算出することによって、前記インスタンスタイプを得る。
【0112】
前記3つのブランチネットワークにおける第2のRCNNブランチで前記第1の画像サンプルの関心領域を符号化算出することによって、前記インスタンスボックスを得る。前記第1のRCNNブランチと前記第2のRCNNブランチとが同じRCNN構造を有する。
【0113】
前記3つのブランチネットワークにおけるマスクブランチで前記第1の画像サンプルの関心領域を符号化算出することによって、前記インスタンスマスクを得る。
【0114】
前記同じRCNN構造は、完全接続構造及び畳み込み構造を含むことができる。前記第1のRCNNブランチは、インスタンス分類のための第1の完全接続構造をさらに含む。前記第2のRCNNブランチは、インスタンスブロック分類のための第2の完全接続構造をさらに含む。
【0115】
第2の構築モジュール204は、第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築する。
【0116】
前記スコア予測モデルは、前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、を含む。すなわち、前記第1のFPNバックボーンネットワークと前記第1の領域生成ネットワークとのパラメータが変化した場合、変化後のパラメータは、前記第2のFPNバックボーンネットワーク及び前記第2の領域生成ネットワークに更新される。
【0117】
第2のトレーニングモジュール205は、前記複数の第3の画像サンプルで前記スコア予測モデルをトレーニングするために用いられる。
【0118】
特定の実施形態では、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングすることは、以下のことを含む。
【0119】
前記複数の第3の画像サンプルの各々に対して、前記第3の画像サンプルを前記第2のFPNバックボーンネットワークに入力して、前記第2のFPNバックボーンネットワークを介して前記第3の画像サンプルの特徴表現を算出する。
【0120】
前記第3の画像サンプルの特徴表現を前記第2の領域生成ネットワークに入力して、前記第2の領域生成ネットワークを介して前記第3の画像サンプルの関心領域を生成する。
【0121】
前記第3の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第3の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得る。前記第3の画像サンプルは、前記第3の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含む。
【0122】
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化する。
【0123】
前記スコア予測ネットワークは、分類スコア予測サブネットワーク、ボックススコア予測サブネットワーク、マスクスコア予測サブネットワーク及びインスタンス数スコア予測サブネットワークを含むことができる。前記分類スコア予測サブネットワーク、前記ボックススコア予測サブネットワーク及び前記マスクスコア予測サブネットワークは、それぞれ完全接続構造及び畳み込み構造を含む。前記インスタンス数スコア予測サブネットワークは、畳み込み構造を含む。具体的には、前記ボックススコア予測サブネットワークは、2つの完全接続層及び1つの畳み込み層を含む。前記マスクスコア予測サブネットワークは、2つの完全接続層及び1つの畳み込み層を含む。前記インスタンス数スコア予測サブネットワークは、1つの畳み込み層を含む。
【0124】
前記分類スコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第3の画像サンプルのインスタンスタイプの不確実性を決定するために使用される。前記ボックススコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第3の画像サンプルのインスタンスボックスの不確実性を決定するために使用される。前記マスクスコア予測サブネットワークは、インスタンスセグメンテーションモデルによって予測される第3の画像サンプルのインスタンスマスクの不確実性を決定するために使用される。前記インスタンス数スコア予測サブネットワークは、第3のイメージサンプルのインスタンスのナンバーを予測するために用いる。
【0125】
第1の算出モジュール206は、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するために用いられる。
【0126】
特定の実施形態では、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出することは、以下のことを含む。
【0127】
前記複数の第2の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第2の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出する。
【0128】
前記第2の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアに基づいて、前記第2の画像サンプルの各インスタンスの情報量サブスコアを算出する。
【0129】
前記第2の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第2の画像サンプルの情報量スコアを得る。
【0130】
前記インスタンスセグメンテーションモデルが前記第2の画像サンプルのインスタンスタイプの予測確率を出力するときに、信頼度が低いほど、前記第2の画像サンプルの分類スコアは高くなる。前記インスタンスセグメンテーションモデルが前記第2の画像サンプルのインスタンスブロックを出力するときに、前記第2の画像サンプルのインスタンスブロックのIOU値を算出する。前記第2の画像サンプルのインスタンスブロックのIOU値が小さいほど、前記第2の画像サンプルのボックススコアは高くなる。前記インスタンスセグメンテーションモデルが前記第2の画像サンプルのインスタンスマスクを出力するときに、前記第2の画像サンプルのインスタンスマスクのJaccard値を算出する。前記第2の画像サンプルのインスタンスマスクのJaccard値が大きいほど、前記第2の画像サンプルのマスクスコアは高くなる。前記スコア予測モデルが前記第2の画像サンプルのインスタンス数ラベリングスコアの予測確率を出力するときに、信頼度が低いほど、前記第2の画像サンプルのインスタンス数スコアは高くなる。
【0131】
第2の算出モジュール207は、前記複数の第2の画像サンプルの特徴ベクトルを算出するために用いられる。
【0132】
特定の実施形態において、前記複数の第2の画像サンプルの特徴ベクトルを算出することは、以下のことを含む。
【0133】
前記第2のFPNバックボーンネットワークで複数のサブ特徴表現を含む前記第2の画像サンプルの特徴表現を算出する。
【0134】
前記第2の画像サンプルの複数のサブ特徴表現に対してグローバル平均プール化し、プール化された複数のサブ特徴表現を得る。
【0135】
前記プール化された複数のサブ特徴表現をスティッチングする。
【0136】
スティッチングされた複数のサブ特徴表現を前記特徴ベクトルに変換する。
【0137】
クラスタモジュール208は、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングし、複数の第2の画像サンプルの複数のサンプルクラスタを得る。
【0138】
特定の実施形態では、前記複数の第2の画像サンプルの特徴ベクトルに従って、前記複数の第2の画像サンプルをクラスタリングすることは、以下のことを含む。
【0139】
混合ガウスモデルに基づいて、複数の第2の画像サンプルの特徴ベクトルに基づいて、複数の第2の画像サンプルをクラスタリングする。または、K平均値モデルに基づいて、複数の第2の画像サンプルの特徴ベクトルに基づいて、複数の第2の画像サンプルをクラスタリングする。
【0140】
特定の実施形態では、混合ガウスモデルに基づいて、複数の第2の画像サンプルの特徴ベクトルに基づいて複数の第2の画像サンプルをクラスタリングすることは、以下のことを含む。
【0141】
複数の第2の画像サンプルの特徴ベクトルを正規化して、複数のターゲット特徴ベクトルを得る。
【0142】
平均ベクトル、共分散行列、混合係数を含むガウスパラメータを初期化する。
【0143】
EMアルゴリズムに基づいて前記ガウスパラメータを算出する。
【0144】
前記ガウスパラメータに基づいて、複数の第2の画像サンプルの複数のサンプルクラスタが決定される。
【0145】
選択モジュール209は、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。
【0146】
特定の実施形態では、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択することは、以下のことを含む。
【0147】
プリセット数量を取得する。
【0148】
前記複数のサンプルクラスタの各々に対して、前記サンプルクラスタ内の第2の画像サンプルを情報量スコアに基づいて上位から下位にソートする。
【0149】
前記サンプルクラスタの中から、情報量スコアが高いから低いまでの順に従って予め設定された数の第2の画像サンプルを選択する。
【0150】
実施例2の画像サンプルの選択装置20は、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル及びスコアでラベルされた後の複数の第3の画像サンプルを取得し、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築し、前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングし、前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築し、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングし、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出し、前記複数の第2の画像サンプルの特徴ベクトルを算出し、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングし、前記複数の第2の画像サンプルの複数のサンプルクラスタを取得し、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。実施例2では、ラベル対象の画像サンプルの中から目標画像サンプルを選択することにより、サンプル選択の精度を向上させる。
【0151】
また、他の実施形態では、前記第1のトレーニングモジュールは、さらに、ユーザによる前記複数の目標画像サンプルへのラベルを受け付け、複数のラベル後の目標画像サンプルを取得する。
【0152】
前記複数のラベル後の目標画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングする。
【0153】
[実施例3]
本実施形態は、不揮発性であってもよいし、揮発性であってもよいコンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が記憶されている。前記コンピュータ読み取り可能な命令は、プロセッサにより実行されるときに、上述した画像サンプルの選択方法の実施例におけるステップ、例えば、
図1に示されるステップ101~109を実現する。
【0154】
ステップ101では、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得する。
【0155】
ステップ102では、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築する。
【0156】
ステップ103では、前記複数の第1の画像サンプルを使用して、前記インスタンスセグメンテーションモデルをトレーニングする。
【0157】
ステップ104では、第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築する。
【0158】
ステップ105では、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングする。
【0159】
ステップ106では、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出する。
【0160】
ステップ107では、前記複数の第2の画像サンプルの特徴ベクトルを算出する。
【0161】
ステップ108では、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングして、前記複数の第2の画像サンプルの複数のサンプルクラスタを得る。
【0162】
ステップ109では、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。
【0163】
または、前記コンピュータ読み取り可能な命令がプロセッサによって実行されるときに、上述した装置の実施例における各モジュールの機能、例えば
図2におけるモジュール201~209の機能を実現する。
【0164】
取得モジュール201は、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するために用いられる。
【0165】
第1の構築モジュール202は、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するために用いられる。
【0166】
第1のトレーニングモジュール203は、前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングするために用いられる。
【0167】
第2の構築モジュール204は、前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するために用いられる。
【0168】
第2のトレーニングモジュール205は、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングするために用いられる。
【0169】
第1の算出モジュール206は、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出する。
【0170】
第2の算出モジュール207は、前記複数の第2の画像サンプルの特徴ベクトルを算出するために用いられる。
【0171】
クラスタモジュール208は、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングして、前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために用いられる。
【0172】
選択モジュール209は、前記複数の第2の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するために用いられる。
【0173】
[実施例4]
図3は、本発明の実施例4に係るコンピュータ装置の概略図である。前記コンピュータ装置30は、メモリ301、プロセッサ302、及び前記メモリ301に格納され、且つ前記プロセッサ302において実行可能なコンピュータ読み取り可能な命令303、例えば、画像サンプル選択プログラムを含む。前記プロセッサ302は、前記コンピュータ読み取り可能な命令303を実行することで、上記の画像サンプルの選択方法の実施例におけるステップ、例えば、
図1に示されるステップ101~109を実現する。
【0174】
ステップ101では、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされた後の複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得する。
【0175】
ステップ102では、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築する。
【0176】
ステップ103では、前記複数の第1の画像サンプルを使用して、前記インスタンスセグメンテーションモデルをトレーニングする。
【0177】
ステップ104では、第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築する。
【0178】
ステップ105では、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングする。
【0179】
ステップ106では、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出する。
【0180】
ステップ107では、前記複数の第2の画像サンプルの特徴ベクトルを算出する。
【0181】
ステップ108では、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングして、前記複数の第2の画像サンプルの複数のサンプルクラスタを得る。
【0182】
ステップ109では、前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。
【0183】
または、前記コンピュータ読み取り可能な命令がプロセッサによって実行されるときに、上述した装置の実施例における各モジュールの機能、例えば
図2におけるモジュール201~209の機能を実現する。
【0184】
取得モジュール201は、インスタンスでラベルされた後の複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するために用いられる。
【0185】
第1の構築モジュール202は、第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するために用いられる。
【0186】
第1のトレーニングモジュール203は、前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングするために用いられる。
【0187】
第2の構築モジュール204は、第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するために用いられる。
【0188】
第2のトレーニングモジュール205は、前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングするために用いられる。
【0189】
第1の算出モジュール206は、前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するために用いられる。
【0190】
第2の算出モジュール207は、前記複数の第2の画像サンプルの特徴ベクトルを算出するために用いられる。
【0191】
クラスタモジュール208は、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングして、前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために用いられる。
【0192】
選択モジュール209は、前記複数の第2の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択する。
【0193】
例えば、前記コンピュータプログラム303は、1つまたは複数のモジュールに分割されることが可能である。前記1つまたは複数のモジュールは、前記メモリ301の中に記憶されて、前記プロセッサ302によって実行されることにより、本発明の方法を完成する。前記1つ又は複数のモジュールは、コンピュータ装置30におけるコンピュータ読み取り可能な命令303の実行手順を説明するための、特定の機能を達成可能な一連のコンピュータプログラム命令セグメントであってもよい。例えば、前記コンピュータ読み取り可能な命令303は、
図2における取得モジュール201、第1の構築モジュール202、第1のトレーニングモジュール203、第2の構築モジュール204、第2のトレーニングモジュール205、第1の算出モジュール206、第2の算出モジュール207、クラスタモジュール208及び選択モジュール209に分割されることが可能である。各モジュールの具体的な機能は、実施例2を参照する。
【0194】
前記コンピュータ装置30は、デスクトップコンピュータ、ノートパソコン、パームトップコンピュータ、及びクラウドサーバなどのコンピューティングデバイスであり得る。上記の概略
図3は、コンピュータ装置30の構成を限定するものではなく、コンピュータ装置30の単なる例であり、図示されたコンポーネントよりも多いまたは少ないコンポーネントを含んで構成されたり、またはいくつかのコンポーネントを組み合わせることにより構成されたり、または異なるコンポーネントにより構成されてもよいことを当業者が理解すべきである。例えば、コンピュータ装置30は、入出力デバイス、ネットワークアクセスデバイス、バスラインなどをさらに含むことができる。
【0195】
前記プロセッサ302は、中央処理ユニット(Central Processing Unit,CPU)であってもよく、または他の汎用プロセッサ、デジタル信号プロセッサ(Digital Signal Prоcessоr,DSP)、専用集積回路(Applicatiоn Specific Integrated Circuit,ASIC)、フィールドプログラマブルゲートアレイ(Field-Prоgrammable Gate Array,FPGA)またはその他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。汎用プロセッサは、マイクロプロセッサでもよい。前記プロセッサ302は、任意の従来のプロセッサなどでもよい。前記プロセッサ302は、前記コンピュータ装置30の制御センターであり、様々なインターフェース及び回線を使用してコンピュータ装置30全体の各部分を接続する。
【0196】
前記メモリ301は、前記コンピュータ読み取り可能な命令303を記憶するために用いられる。前記プロセッサ302は、前記メモリ301に格納されたコンピュータ読み取り可能な命令又はモジュールを実行又は運行し、且つメモリ301に格納されたデータを呼び出すことにより、前記コンピュータ装置30の各種機能を実現する。前記メモリ301は、主にプログラム格納領域及びデータ格納領域を含む。プログラム格納領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラム(例えば、音声再生機能、画像再生機能など)などを格納することができる。データ格納領域は、コンピュータ装置30の使用に応じて作成されたデータなどを格納する。さらに、メモリ301は、ハードディスク、メモリ、プラグインハードディスク、スマートメモリカード(Smart Media(登録商標) Card,SMC)、セキュアデジタル(Secure Digital,SD)カード、フラッシュカード(Flash Card)、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、読み取り専用メモリ(Read-Only Memory,ROM)、ランダムアクセスメモリ(Random Access Memory,RAM)またはその他の不揮発性/揮発性メモリデバイスを含んでもよい。
【0197】
前記コンピュータ装置30によって集積されたモジュールは、ソフトウェア機能モジュールの形態で実現され、且つ独立した製品として販売または使用される場合、1つのコンピュータ読み取り可能な記憶媒体に格納されることができる。前記コンピュータ読み取り可能な記憶媒体は、不揮発性であっても揮発性であってもよい。このような理解に基づいて、本発明は、前述の方法実施例におけるプロセスの全部または一部を実施し、コンピュータ読み取り可能な命令によって関連するハードウェアを指示しても良い。前記コンピュータ読み取り可能な命令は、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。前記コンピュータ読み取り可能な命令は、プロセッサによって実行されるときに、上述の様々な方法実施例のステップを実現することができる。ここで、前記コンピュータ読み取り可能な命令は、ソースコード形式、オブジェクトコード形式、実行可能ファイルまたは何らかの中間形式の形態であり得る。前記コンピュータ読み取り可能な記録媒体は、前記コンピュータ読み取り可能な命令を担持可能な任意の実体又はデバイス、記録媒体、Uディスク、モバイルハードディスク、磁気ディスク、光ディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)を含んでもよい。
【0198】
本願が提供する幾つかの実施例では、開示されたシステム、装置及び方法は、他の態様で実現されていることが理解される。例えば、上述した装置の実施例は模式的なものであり、例えば、前記モジュールの分割は、論理的な機能分割のみであり、実際に実現する時に他の分割方式もあり得る。
【0199】
前記分離手段として説明したモジュールは、物理的に分かれていてもよいし、分かれていなくてもよく、モジュールとして表示する部品は、物理的なモジュールであってもよいし、物理的なモジュールでなくてもよく、一か所に位置していてもよく、複数のネットワークユニットに分布されていてもよい。本実施例の目的は、実際の必要に応じて、その中の一部または全部のモジュールを選択することにより実現される。
【0200】
さらに、本発明の各実施例における各機能モジュールは、同じ処理ユニットに集積されてもよく、各モジュールが物理的に別々に存在してもよく、または2つ以上のモジュールが同じユニットに集積されてもよい。上記の集積されたユニットは、ハードウェアの形式で実現されたり、またはハードウェアプラスソフトウェア機能モジュールという形で実現されてもよい。
【0201】
上述のソフトウェア機能モジュールとして実現される統合モジュールは、1つのコンピュータ読み取り可能な記録媒体に格納されてもよい。上記のソフトウェア機能モジュールは、1つの記憶媒体に記憶されており、本願の各実施形態に係る画像サンプルの選択方法の一部のステップを、1つのコンピュータ装置(パーソナルコンピュータ、サーバ、ネットワーク機器などであってもよい)又はプロセッサに実行させるための幾つかの命令を含んでいる。
【0202】
本発明は、上述の例示的な実施形態の詳細に限定されず、本発明の精神または本質的な特徴から逸脱することなく、他の特定の形態で実施できることは当業者には明らかである。したがって、本発明における上記の各実施形態は、本発明を制限するものではなく、例示と見なされるべきであり、本発明の範囲は、上記の説明により限定されることではなく、特許請求の範囲によって定義される。なお、特許請求の同等要素の意味及び範囲におけるすべての変更は、本発明に含まれる。特許請求内の参照符号は、特許請求範囲を限定するものとして解釈されることはない。また、「含む」という言葉は、他の要素またはステップを除外せず、単数は複数を除外しないことが明らかである。システム請求項に記載の複数のモジュールまたは装置は、1つのモジュールまたは装置がソフトウェアまたはハードウェアによって実現されてもよい。第1、第2などの単語は、名前を示すために使用され、特定の順序を示すものではない。
【0203】
上記の各実施形態は、ただ本発明の技術的解決策を説明するためのものであり、限定することを意図するものではなく、好ましい実施形態を参照して、本発明について詳細に説明しているが、当業者は、本発明の精神及び範囲から逸脱することなく、本発明の技術的解決策を修正または同等に置換できることを理解すべきである。
【手続補正書】
【提出日】2021-11-24
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を備えることを特徴とする画像サンプルの選択方法。
【請求項2】
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップは、
前記複数の第1の画像サンプルの各々について、前記第1の画像サンプルを前記第1のFPNバックボーンネットワークに入力して、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することと、
前記第1の画像サンプルの特徴表現を前記第1の領域生成ネットワークに入力して、前記第1の領域生成ネットワークによって前記第1の画像サンプルの関心領域を生成することと、
前記第1の画像サンプルの関心領域を前記3つのブランチネットワークに入力して、前記3つのブランチネットワークで前記第1の画像サンプルの関心領域をインスタンス分割することによって、前記第1の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第1の画像サンプルのインスタンスタイプとラベルタイプ、前記第1の画像サンプルのインスタンスボックスとラベルボックス、前記第1の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項1に記載の画像サンプルの選択方法。
【請求項3】
前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出するステップは、
前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークに基づいて前記第1の画像サンプルの中間特徴表現を算出して、前記第1の画像サンプルの中間特徴表現は、算出の先後順位に従って、第1のサブ中間特徴、第2のサブ中間特徴、第3のサブ中間特徴及び第4のサブ中間特徴を含むことと、
前記第1のFPNバックボーンネットワークのトップ-ダウンサブネットワークに基づいて、前記第4のサブ中間特徴に対して次元削減算出を行なって、第4のサブ特徴を得ることと、
前記第3のサブ中間特徴のサイズに基づいて前記第4のサブ特徴に対してアップサンプリング算出を行なって、前記第3のサブ中間特徴及びアップサンプリングされた第4のサブ特徴に対して単位加算を行なって、第3のサブ特徴を得ることと、
前記第2のサブ中間特徴のサイズに基づいて前記第3のサブ特徴に対してアップサンプリング算出を行なって、前記第2のサブ中間特徴及びアップサンプリングされた第3のサブ特徴に対して単位加算を行なって、第2のサブ特徴を得ることと、
前記第1のサブ中間特徴のサイズに基づいて前記第2のサブ特徴に対してアップサンプリング算出を行なって、前記第1のサブ中間特徴とアップサンプリングされた第2のサブ特徴に対して単位加算を行なって、第1のサブ特徴を得ることと、
前記第4のサブ特徴、前記第3のサブ特徴、前記第2のサブ特徴及び前記第1のサブ特徴を組み合せて、前記第1の画像サンプルの特徴表現を得ることと、を含むことを特徴とする請求項2に記載の画像サンプルの選択方法。
【請求項4】
前記3つのブランチネットワークは、第1のRCNNブランチ、第2のRCNNブランチ及びマスクブランチを含み、
前記第1の画像サンプルの関心領域を、前記3つのブランチネットワークによってインスタンス分割することは、
前記第1のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスタイプを得ることと、
前記第2のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスボックスを得ることと、
前記マスクブランチによって前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスマスクを得ることと、を含み、
前記第1のRCNNブランチと前記第2のRCNNブランチとが同じRCNN構造を有することを特徴とする請求項2に記載の画像サンプルの選択方法。
【請求項5】
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップは、
前記複数の第3の画像サンプルの各々に対して、前記第3の画像サンプルを前記第2のFPNバックボーンネットワークに入力して、前記第2のFPNバックボーンネットワークを介して前記第3の画像サンプルの特徴表現を算出することと、
前記第3の画像サンプルの特徴表現を前記第2の領域生成ネットワークに入力して、前記第2の領域生成ネットワークを介して前記第3の画像サンプルの関心領域を生成することと、
前記第3の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第3の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第3の画像サンプルは、前記第3の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項1に記載の画像サンプルの選択方法。
【請求項6】
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップは、
前記複数の第2の画像サンプルの各々に対して、前記スコア予測モデルにより、前記第2の画像サンプルにおける複数のインスタンスの分類スコア、ボックススコア、マスクスコア及びインスタンス数スコアを算出することと、
前記第2の画像サンプルにおける各インスタンスの分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアに基づいて、前記第2の画像サンプルの各インスタンスの情報量サブスコアを算出することと、
前記第2の画像サンプルの全ての情報量サブスコアの平均値を算出して、前記第2の画像サンプルの情報量スコアを得ることと、
を含むことを特徴とする請求項1に記載の画像サンプルの選択方法。
【請求項7】
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得する取得モジュールと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するための第1の構築モジュールと、
前記複数の第1の画像サンプルを使用して前記インスタンスセグメンテーションモデルをトレーニングするための第1のトレーニングモジュールと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するための第2の構築モジュールと、
前記複数の第3の画像サンプルを使用して前記スコア予測モデルをトレーニングするための第2のトレーニングモジュールと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出する第1の算出モジュールと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するための第2の算出モジュールと、
前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングし、前記複数の第2の画像サンプルの複数のサンプルクラスタを得るためのクラスタモジュールと、
前記複数の第2の画像サンプルの情報量スコア及び複数のサンプルクラスタに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するための選択モジュールと、を備えることを特徴とする画像サンプルの選択装置。
【請求項8】
プロセッサを含むコンピュータ装置であって、前記プロセッサは、メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル、及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク、及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと前記複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、
を実現することを特徴とするコンピュータ装置。
【請求項9】
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップを実現するときに、
前記複数の第1の画像サンプルの各々について、前記第1の画像サンプルを前記第1のFPNバックボーンネットワークに入力して、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することと、
前記第1の画像サンプルの特徴表現を前記第1の領域生成ネットワークに入力して、前記第1の領域生成ネットワークによって前記第1の画像サンプルの関心領域を生成することと、
前記第1の画像サンプルの関心領域を前記3つのブランチネットワークに入力して、前記3つのブランチネットワークで前記第1の画像サンプルの関心領域をインスタンス分割することによって、前記第1の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第1の画像サンプルのインスタンスタイプとラベルタイプ、前記第1の画像サンプルのインスタンスボックスとラベルボックス、前記第1の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項8に記載のコンピュータ装置。
【請求項10】
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することを実現するときに、
前記第1のFPNバックボーンネットワークのボトム-アップサブネットワークに基づいて前記第1の画像サンプルの中間特徴表現を算出して、前記第1の画像サンプルの中間特徴表現は、算出の先後順位に従って、第1のサブ中間特徴、第2のサブ中間特徴、第3のサブ中間特徴及び第4のサブ中間特徴を含むことと、
前記第1のFPNバックボーンネットワークのトップ-ダウンサブネットワークに基づいて、前記第4のサブ中間特徴に対して次元削減算出を行なって、第4のサブ特徴を得ることと、
前記第3のサブ中間特徴のサイズに基づいて前記第4のサブ特徴に対してアップサンプリング算出を行なって、前記第3のサブ中間特徴及びアップサンプリングされた第4のサブ特徴に対して単位加算を行なって、第3のサブ特徴を得ることと、
前記第2のサブ中間特徴のサイズに基づいて前記第3のサブ特徴に対してアップサンプリング算出を行なって、前記第2のサブ中間特徴及びアップサンプリングされた第3のサブ特徴に対して単位加算を行なって、第2のサブ特徴を得ることと、
前記第1のサブ中間特徴のサイズに基づいて前記第2のサブ特徴に対してアップサンプリング算出を行なって、前記第1のサブ中間特徴とアップサンプリングされた第2のサブ特徴に対して単位加算を行なって、第1のサブ特徴を得ることと、
前記第4のサブ特徴、前記第3のサブ特徴、前記第2のサブ特徴及び前記第1のサブ特徴を組み合せて、前記第1の画像サンプルの特徴表現を得ることと、を含むことを特徴とする請求項9に記載のコンピュータ装置。
【請求項11】
前記3つのブランチネットワークは、第1のRCNNブランチ、第2のRCNNブランチ及びマスクブランチを含み、
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記第1の画像サンプルの関心領域を、前記3つのブランチネットワークによってインスタンス分割することを実現するときに、
前記第1のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスタイプを得ることと、
前記第2のRCNNブランチで前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスボックスを得ることと、
前記マスクブランチによって前記第1の画像サンプルの関心領域を符号化計算することによって、前記インスタンスマスクを得ることと、を含み、
前記第1のRCNNブランチと前記第2のRCNNブランチとが同じRCNN構造を有することを特徴とする請求項9に記載のコンピュータ装置。
【請求項12】
前記プロセッサは、前記メモリに記憶されたコンピュータ読み取り可能な命令を実行することにより、前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップを実現するときに、
前記複数の第3の画像サンプルの各々に対して、前記第3の画像サンプルを前記第2のFPNバックボーンネットワークに入力して、前記第2のFPNバックボーンネットワークを介して前記第3の画像サンプルの特徴表現を算出することと、
前記第3の画像サンプルの特徴表現を前記第2の領域生成ネットワークに入力して、前記第2の領域生成ネットワークを介して前記第3の画像サンプルの関心領域を生成することと、
前記第3の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第3の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第3の画像サンプルは、前記第3の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項8に記載のコンピュータ装置。
【請求項13】
コンピュータ読み取り可能な命令が記憶されているコンピュータ読み取り可能な記録媒体であって、前記コンピュータ読み取り可能な命令は、プロセッサによって実行されるときに、
インスタンスでラベルされた複数の第1の画像サンプル、インスタンスでラベルされようとする複数の第2の画像サンプル及びスコアでラベルされた複数の第3の画像サンプルを取得するステップと、
第1のFPNバックボーンネットワーク、第1の領域生成ネットワーク及び3つのブランチネットワークを含むインスタンスセグメンテーションモデルを構築するステップと、
前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップと、
前記第1のFPNバックボーンネットワークとパラメータ及びネットワーク構造を共有する第2のFPNバックボーンネットワークと、前記第1の領域生成ネットワークとパラメータ及びネットワーク構造を共有する第2の領域生成ネットワークと、スコア予測ネットワークとを含むスコア予測モデルを構築するステップと、
前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップと、
前記スコア予測モデルに基づいて、前記複数の第2の画像サンプルの情報量スコアを算出するステップと、
前記複数の第2の画像サンプルの特徴ベクトルを算出するステップと、
前記複数の第2の画像サンプルの複数のサンプルクラスタを得るために、前記複数の第2の画像サンプルの特徴ベクトルに基づいて前記複数の第2の画像サンプルをクラスタリングするステップと、
前記複数の第2の画像サンプルの情報量スコアと前記複数のサンプルクラスタとに基づいて、前記複数の第2の画像サンプルの中から複数の目標画像サンプルを選択するステップと、を実現することを特徴とするコンピュータ読み取り可能な記録媒体。
【請求項14】
前記コンピュータ読み取り可能な命令は、前記複数の第1の画像サンプルを用いて前記インスタンスセグメンテーションモデルをトレーニングするステップを実現するために、前記プロセッサにより実行されるときに、
前記複数の第1の画像サンプルの各々について、前記第1の画像サンプルを前記第1のFPNバックボーンネットワークに入力して、前記第1のFPNバックボーンネットワークによって前記第1の画像サンプルの特徴表現を算出することと、
前記第1の画像サンプルの特徴表現を前記第1の領域生成ネットワークに入力して、前記第1の領域生成ネットワークによって前記第1の画像サンプルの関心領域を生成することと、
前記第1の画像サンプルの関心領域を前記3つのブランチネットワークに入力して、前記3つのブランチネットワークで前記第1の画像サンプルの関心領域をインスタンス分割することによって、前記第1の画像サンプルのインスタンスタイプ、インスタンスブロック及びインスタンスマスクを得ることと、
逆伝播アルゴリズムに基づいて、前記第1の画像サンプルのインスタンスタイプとラベルタイプ、前記第1の画像サンプルのインスタンスボックスとラベルボックス、前記第1の画像サンプルのインスタンスマスクとラベルマスクの差分値に基づいて、前記インスタンスセグメンテーションモデルのパラメータを最適化することと、
を含むことを特徴とする請求項13に記載の記録媒体。
【請求項15】
前記コンピュータ読み取り可能な命令は、前記複数の第3の画像サンプルを用いて前記スコア予測モデルをトレーニングするステップを実現するために、前記プロセッサにより実行されるときに、
前記複数の第3の画像サンプルの各々に対して、前記第3の画像サンプルを前記第2のFPNバックボーンネットワークに入力して、前記第2のFPNバックボーンネットワークを介して前記第3の画像サンプルの特徴表現を算出することと、
前記第3の画像サンプルの特徴表現を前記第2の領域生成ネットワークに入力して、前記第2の領域生成ネットワークを介して前記第3の画像サンプルの関心領域を生成することと、
前記第3の画像サンプルの関心領域を前記スコア予測ネットワークに入力して、前記スコア予測ネットワークを介して前記第3の画像サンプルの関心領域に対してスコア予測を行なって、分類スコア、ボックススコア、マスクスコア、及びインスタンス数スコアを得ることと、
逆伝搬アルゴリズムに基づいて、前記分類スコアと前記分類ラベリングスコア、前記ボックススコアと前記ボックスラベリングスコア、前記マスクスコアと前記マスクラベリングスコア、前記インスタンス数スコアと前記インスタンス数ラベリングスコアの差分値から、前記スコア予測ネットワークのパラメータを最適化することと、を含み、
前記第3の画像サンプルは、前記第3の画像サンプルの関心領域の分類ラベリングスコア、ボックスラベリングスコア、マスクラベリングスコア及びインスタンス数ラベリングスコアを含むことを特徴とする請求項13に記載の記録媒体。
【国際調査報告】