(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-03-17
(54)【発明の名称】検出モデルのトレーニング方法、装置、コンピュータデバイス及びコンピュータプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20220310BHJP
【FI】
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021544225
(86)(22)【出願日】2020-06-12
(85)【翻訳文提出日】2021-07-28
(86)【国際出願番号】 CN2020095854
(87)【国際公開番号】W WO2020253629
(87)【国際公開日】2020-12-24
(31)【優先権主張番号】201910528002.0
(32)【優先日】2019-06-18
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲掲▼ ▲澤▼群
(72)【発明者】
【氏名】▲馮▼ 佳▲時▼
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA06
5L096BA13
5L096FA69
5L096FA77
5L096KA04
5L096KA15
(57)【要約】
本出願は、検出モデルのトレーニング方法、装置、コンピュータデバイス及び記憶媒体に関し、人工知能における機械学習に関連する。上記方法は、第1サンプル画像を分割して得られた候補画像領域集合を取得するステップと、候補画像領域にそれぞれ対応する第1関係度を取得するステップであって、第1関係度は、候補画像領域をそれぞれ第1検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度である、ステップと、候補画像領域にそれぞれ対応する第2関係度を取得するステップであって、第2関係度は、候補画像領域をそれぞれ第2検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度である、ステップと、第1関係度及び第2関係度に基づいて関係度変化値を得、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップと、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップとを含む。
【特許請求の範囲】
【請求項1】
コンピュータデバイスが実行する、検出モデルのトレーニング方法であって、
第1サンプル画像を分割して得られた候補画像領域集合を取得するステップであって、前記候補画像領域集合に複数の候補画像領域が含まれる、ステップと、
前記候補画像領域にそれぞれ対応する第1関係度を取得するステップであって、前記第1関係度は、前記候補画像領域をそれぞれ第1検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第1検出モデルは、前記第1サンプル画像に基づいてモデルトレーニングを行って得られるものである、ステップと、
前記候補画像領域にそれぞれ対応する第2関係度を取得するステップであって、前記第2関係度は、前記候補画像領域をそれぞれ第2検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第2検出モデルは、第2サンプル画像を使用して前記第1検出モデルに対してモデルトレーニングを行って得られるものである、ステップと、
前記第1関係度及び前記第2関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップと、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、ステップと、を含む方法。
【請求項2】
第1サンプル画像を分割して得られた候補画像領域集合を取得するステップの前に、
サンプル画像集合を取得し、前記サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップであって、前記サンプル画像集合は複数のサンプル画像を含む、ステップをさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記ターゲット画像領域に基づいて前記第2検出モデルに対してモデルトレーニングを行い、第1サンプル画像に対応する更新後の第1検出モデルを得るステップと、
前記サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップに戻り、更新後の第1検出モデルが収束し、ターゲット検出モデルを得るまで続くステップと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップは、
前記サンプル画像集合を複数のサンプル画像グループに分割するステップと、
サンプル画像グループをモデルパラメータ調整単位とし、前記サンプル画像集合から現在のサンプル画像グループを順次取得するステップであって、現在のサンプル画像グループのサンプル画像は第1サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第2サンプル画像である、ステップと、を含み、
前記サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップに戻るステップは、
サンプル画像グループをモデルパラメータ調整単位とし、前記サンプル画像集合から現在のサンプル画像グループを順次取得するステップに戻るステップであって、現在のサンプル画像グループのサンプル画像は第1サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第2サンプル画像である、ステップを含む
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記候補画像領域にそれぞれ対応する第1関係度を取得するステップは、
前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第1検出モデルとして使用し、更新された第1検出モデルによって前記候補画像領域にそれぞれ対応する第1関係度を取得するステップを含み、
前記候補画像領域にそれぞれ対応する第2関係度を取得するステップは、
現在のラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプルを使用してモデルトレーニングを行って得られたモデルを、更新された第2検出モデルとして使用し、更新された第2検出モデルによって前記候補画像領域にそれぞれ対応する第2関係度を取得するステップを含む
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記方法は、
ターゲット画像分類モデルを取得するステップと、
前記サンプル画像集合内の各サンプル画像が対応する候補画像領域をそれぞれ前記ターゲット画像分類モデルに入力し、各サンプル画像の候補画像領域がターゲットオブジェクトの所在する領域である第3関係度を出力するステップと、
前記第3関係度に基づいて前記候補画像領域集合からターゲットオブジェクトを含む第2画像領域をスクリーニングするステップと、
前記第2画像領域に基づいてモデルトレーニングを行い、第1ラウンドでモデルトレーニングして得られた検出モデルを得るステップと、をさらに含む
ことを特徴とする請求項4に記載の方法。
【請求項6】
前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップは、
前記候補画像領域集合から、前記関係度変化値が予め設定された変化条件を満たす候補画像領域を、ターゲットオブジェクトを含むターゲット画像領域としてスクリーニングするステップであって、前記予め設定された変化条件は、関係度変化値が予め設定された順位の前にソートされること、又は前記関係度変化値が予め設定された変化値より大きいことのうちの少なくとも1つを含み、前記関係度変化値は降順でソートされる、ステップを含む
ことを特徴とする請求項1に記載の方法。
【請求項7】
前記第1関係度及び前記第2関係度に基づいて関係度変化値を得るステップは、
前記第2関係度から前記第1関係度を引き算し又は前記第2関係度を前記第1関係度で割り算し、関係度変化値を得るステップを含む
ことを特徴とする請求項1又は6に記載の方法。
【請求項8】
前記方法は、
前記ターゲット画像領域と前記候補画像領域との画像重畳度を取得するステップと、
前記画像重畳度が第1の予め設定された重畳度より大きい候補画像領域を第3画像領域として取得するステップと、をさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記第3画像領域及び前記ターゲット画像領域を正例のサンプル画像領域とし、前記正例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップを含む
ことを特徴とする請求項1に記載の方法。
【請求項9】
前記方法は、
前記ターゲット画像領域と前記候補画像領域との画像重畳度を取得するステップと、
前記画像重畳度が第2の予め設定された重畳度よりも小さい候補画像領域を第4画像領域として取得するステップと、をさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記第4画像領域を負例のサンプル画像領域として使用し、前記ターゲット画像領域グループを正例のサンプル画像領域として使用するステップと、
前記正例のサンプル画像領域及び前記負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記方法は、
検出対象画像を取得し、前記検出対象画像を複数の第1画像領域に分割するステップと、
各前記第1画像領域をそれぞれ前記ターゲット検出モデルに入力し、各前記第1画像領域にターゲットオブジェクトが含まれるターゲット関係度を取得するステップと、
前記ターゲット関係度に基づき、前記複数の第1画像領域からターゲットオブジェクトを含む画像領域をスクリーニングして、前記検出対象画像内のターゲットオブジェクトの位置を得るステップと、をさらに含む
ことを特徴とする請求項1に記載の方法。
【請求項11】
検出モデルのトレーニング装置であって、
第1サンプル画像を分割して得られた候補画像領域集合を取得するように構成される候補画像領域集合取得モジュールであって、前記候補画像領域集合に複数の候補画像領域が含まれる、候補画像領域集合取得モジュールと、
前記候補画像領域にそれぞれ対応する第1関係度を取得するように構成される第1関係度取得モジュールであって、前記第1関係度は、前記候補画像領域をそれぞれ第1検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第1検出モデルは、前記第1サンプル画像に基づいてモデルトレーニングを行って得られるものである、第1関係度取得モジュールと、
前記候補画像領域にそれぞれ対応する第2関係度を取得するように構成される第2関係度取得モジュールであって、前記第2関係度は、前記候補画像領域をそれぞれ第2検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第2検出モデルは、第2サンプル画像を使用して前記第1検出モデルに対してモデルトレーニングを行って得られるものである、第2関係度取得モジュールと、
前記第1関係度及び前記第2関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成されるターゲット画像領域スクリーニングモジュールと、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される第1モデルトレーニングモジュールであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、第1モデルトレーニングモジュールと、を備える装置。
【請求項12】
コンピュータデバイスであって、メモリとプロセッサとを備え、前記メモリにコンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、前記プロセッサに請求項1から10のいずれか一項に記載の方法のステップを実行させる、コンピュータデバイス。
【請求項13】
コンピュータ読み取り可能な命令を記憶している1つ又は複数の不揮発性記憶媒体であって、前記コンピュータ読み取り可能な命令は、1つ又は複数のプロセッサによって実行されると、前記プロセッサに請求項1から10のいずれか一項に記載の方法のステップを実行させる、不揮発性記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本出願は、2019年6月18日に中国特許庁に提出された、出願番号が第201910528002.0号であり、出願名称が「検出モデルのトレーニング方法、装置、コンピュータデバイス及び記憶媒体」である中国特許出願に対する優先権を主張し、その全ての内容が参照により本明細書に組み込まれる。
【0002】
本出願の実施例は、画像認識分野に関し、特に検出モデルのトレーニング方法、装置、コンピュータデバイス及び記憶媒体に関する。
【背景技術】
【0003】
画像認識技術とは、画像に含まれる物体を認識する技術を指し、よく見られる画像処理方式である。関連技術では、機械学習モデルにより、認識しようとする物体が画像に含まれるか否かを検出することができる。機械学習モデルに対してモデルトレーニングを行う時に、ターゲット物体を含む画像を取得してモデルトレーニングを行うことができ、それによって、機械学習モデルは、ターゲット物体を含む画像を認識するためのモデルパラメータが学習できる。しかしながら、通常、ターゲット物体を含む画像が大きく、それに対してターゲット物体が小さいため、学習したモデルオブジェクトの検出精度が低い。
【発明の概要】
【課題を解決するための手段】
【0004】
本出願の様々な実施例によれば、検出モデルのトレーニング方法、装置、コンピュータデバイス及び記憶媒体が提供される。
【0005】
コンピュータデバイスによって実行される検出モデルのトレーニング方法は、第1サンプル画像を分割して得られた候補画像領域集合を取得するステップであって、前記候補画像領域集合に複数の候補画像領域が含まれる、ステップと、前記候補画像領域にそれぞれ対応する第1関係度を取得するステップであって、前記第1関係度は、前記候補画像領域をそれぞれ第1検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第1検出モデルは、前記第1サンプル画像に基づいてモデルトレーニングを行って得られるものである、ステップと、前記候補画像領域のそれぞれに対応する第2関係度を取得するステップであって、前記第2関係度は、前記候補画像領域をそれぞれ第2検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第2検出モデルは、前記第2サンプル画像を使用して前記第1検出モデルに対してモデルトレーニングを行って得られるものである、ステップと、前記第1関係度及び前記第2関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップと、前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、ステップとを含む。
【0006】
検出モデルのトレーニング装置は、第1サンプル画像を分割して得られた候補画像領域集合を取得するように構成される候補画像領域集合取得モジュールであって、前記候補画像領域集合に複数の候補画像領域が含まれる、候補画像領域集合取得モジュールと、前記候補画像領域にそれぞれ対応する第1関係度を取得するように構成される第1関係度取得モジュールであって、前記第1関係度は、前記候補画像領域をそれぞれ第1検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第1検出モデルは、前記第1サンプル画像に基づいてモデルトレーニングを行って得られるものである、第1関係度取得モジュールと、前記候補画像領域のそれぞれに対応する第2関係度を取得するように構成される第2関係度取得モジュールであって、前記第2関係度は、前記候補画像領域をそれぞれ第2検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第2検出モデルは、前記第2サンプル画像を使用して前記第1検出モデルに対してモデルトレーニングを行って得られるものである、第2関係度取得モジュールと、前記第1関係度及び前記第2関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成されるターゲット画像領域スクリーニングモジュールと、前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される第1モデルトレーニングモジュールであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、第1モデルトレーニングモジュールとを備える。
【0007】
コンピュータデバイスは、メモリとプロセッサとを備え、前記メモリにコンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、前記プロセッサに上記検出モデルのトレーニング方法のステップを実行させる。
【0008】
1つ又は複数の不揮発性記憶媒体は、コンピュータ読み取り可能な命令を記憶しており、前記コンピュータ読み取り可能な命令は、1つ又は複数のプロセッサによって実行されると、前記プロセッサに上記検出モデルのトレーニング方法のステップを実行させる。
【0009】
本出願の1つ又は複数の実施例の詳細は、以下の図面及び説明に記載される。本出願の他の特徴、目的及び利点は明細書、図面及び特許請求の範囲から明らかになる。
【図面の簡単な説明】
【0010】
【
図1】いくつかの実施例によって提供される検出モデルのトレーニング方法の適用環境図である。
【
図2】いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。
【
図3】いくつかの実施例におけるサンプル画像を分割して得られた候補画像領域の概略図である。
【
図4】いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。
【
図5A】いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。
【
図5B】いくつかの実施例におけるオブジェクト検出モデルに対してモデルトレーニングを行う概略図である。
【
図6】いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。
【
図7】いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。
【
図8】いくつかの実施例におけるサンプル画像内のターゲット画像領域及び候補画像領域の位置の概略図である。
【
図9】いくつかの実施例における検出モデルのトレーニング方法のフローチャートである。
【
図10】いくつかの実施例における検出対象画像をターゲット検出モデルに入力し、出力されたオブジェクト検出結果の概略図である。
【
図11】いくつかの実施例における検出モデルのトレーニング装置の構造ブロック図である。
【
図12】いくつかの実施例によるコンピュータデバイスの内部構造ブロック図である。
【発明を実施するための形態】
【0011】
本出願の実施例をより明確に説明するために、上記に実施例の説明に必要な図面を簡単に説明しているが、明らかに、上記に説明している図面は本出願の実施例にすぎず、当業者であれば、創造的な労力を払わなくても、これらの図面に基づいて他の図面を得ることができる。
【0012】
本出願の目的、実施例及び利点をより明確にするため、以下に図面及び実施例を組み合わせて、本出願をさらに詳しく説明する。ここで説明する具体的な実施例は、本出願を解釈するためのものにすぎず、本出願を限定するためのものではないと理解すべきである。
【0013】
本出願で使用される「第1」、「第2」などの用語は、本明細書で様々な要素を説明するためのものであるが、特に明記しない限り、これらの要素は、これらの用語によって限定されないことが理解できる。これらの用語は、要素と他の要素を区別するためのものにすぎない。例えば、本出願の範囲から逸脱しない前提で、第1画像領域を第2画像領域と称してもよく、同様に、第2画像領域を第1画像領域と称してもよい。
【0014】
本出願の実施例における検出モデルは、人工知能モデルであってもよく、機械学習アルゴリズムにより学習した後、画像に対するターゲット検出に使用されてもよい。人工知能(AI:Artificial Intelligence)は、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを使用して人間の知能をシミュレート、延長及び拡張し、環境をセンシングし、知識を獲得し、知識を使用して最適結果を得る理論、方法、技術及びアプリケーションシステムである。言い換えれば、人工知能は、コンピュータサイエンスの総合技術であり、知能の実質を理解し、人間の知能と同じように反応できる新しいインテリジェントマシンを生み出すことを図る。人工知能とは、様々なインテリジェントマシンの設計原理と実現方法を研究して、マシンに知覚、推論、意思決定の機能を持たせる。
【0015】
人工知能技術は、総合分野であり、関係する分野が広く、ハードウェアとソフトウェア両方にも関わる技術を含む。基本的な人工知能技術は、一般的に、センサー、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理技術、オペレーション/相互作用システム、メカトロニクスなどの技術を含む。人工知能のハードウェア技術は、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などのいくつかの主要な方向を含む。
【0016】
コンピュータビジョン技術(CV:Computer Vision)は、如何に機械に「見る」ようにさせるかを研究する科学であり、さらに、人間の目の代わりにカメラとコンピュータを使用してターゲットに対して認識、追跡、測定などの機械ビジョンを行い、さらにグラフィックス処理を行い、コンピュータに画像を処理させ、画像を、人間の目で観察し、又は機器に伝送して検出を行うのに適する画像にする。1つの科学学科として、コンピュータビジョンは、関連する理論と技術を研究し、画像や多次元データから情報を取得できる人工知能システムを構築しようとする。コンピュータビジョン技術は、通常、画像処理、画像認識、画像セマンティック理解、画像検索、OCR、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ/行動識別、3次元物体再構築、3D技術、仮想現実、拡張現実、同期測位とマップ構築などの技術を含み、また、よく見られる顔認識、指紋認識などの生体特徴認識技術をさらに含む。
【0017】
機械学習(ML:Machine Learning)は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの複数の学科に関わる複数の分野をわたる学科であり、コンピュータがどのように人間の学習行為をシミュレート又は実現し、新しい知識又は技能を習得し、既存の知識構造を再構築してそれ自体の性能を継続的に向上させるかを研究する。機械学習は、人工知能のコアであり、コンピュータに知能を持たせるための基本的な手段であり、その用途が人工知能の各々の分野に及ぶ。機械学習と深層学習は、通常、人工ニューラルネットワーク、信頼度ネットワーク、強化学習、転移学習、帰納学習、教示学習などの技術を含む。
【0018】
図1はいくつかの実施例によって提供される検出モデルのトレーニング方法の適用環境図である。
図1に示すように、当該適用環境に、端末110及びサーバー120が含まれている。端末110は、カメラで画像を撮影し、サーバー120に送信することができ、サーバー120に、本出願の実施例で提供される方法によってモデルのトレーニングを行うことで得られたターゲット検出モデルが記憶され、サーバー120は、ターゲット検出モデルを使用し、撮影された画像に対してオブジェクト検出を行い、画像に含まれるターゲットオブジェクトの具体的な位置を取得することができる。サーバー120は、ターゲットオブジェクトの位置をアノテーションした画像を端末110に返信し、端末110は、ターゲットオブジェクトの位置をアノテーションした画像を表示することができる。
【0019】
いくつかの実施例では、端末110にターゲット検出モデルを記憶してもよく、端末110は、ターゲット検出モデルを使用して画像内のターゲットオブジェクトの位置を検出するステップを実行する。
【0020】
サーバー120は、独立した物理サーバーであってもよいし、複数の物理サーバーで構成されるサーバークラスターであってもよく、クラウドサーバー、クラウドデータベース、クラウドストレージ及びCDNなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。端末110は、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、スマートスピーカー、スマートウォッチ、X線機器などの医療機器などであってもよいが、これらに限定されない。端末110とサーバー120は、ネットワークなどの通信接続方式で接続することができ、本出願で限定されない。
【0021】
図2に示すように、いくつかの実施形態では、検出モデルのトレーニング方法を提出し、本実施例では、この方法を上記
図1のサーバー120に適用することを例として説明する。具体的には以下のステップを含むことができる。
【0022】
ステップS202において、第1サンプル画像を分割して得られた候補画像領域集合を取得し、候補画像領域集合に複数の候補画像領域が含まれる。
【0023】
具体的には、サンプル画像は、モデルトレーニングに使用される画像である。サンプル画像にターゲットオブジェクトが含まれ、ターゲットオブジェクトとは、検出対象である物体を指し、ターゲットオブジェクトは、具体的な応用シーンによって異なってもよく、例えば、ターゲットオブジェクトは、動物、植物又は物品の少なくとも1つであってもよい。具体的には、腫れ物、自動車又は歩行者などであってもよい。「複数」は少なくとも2つを意味している。候補画像領域は、サンプル画像を分割して得られた画像領域であり、候補画像領域集合の数は、必要に応じて設定されてもよく、例えば、3000個であってもよく、即ち1枚の画像を分割して3000個の画像領域を取得することができる。候補画像領域は、第1サンプル画像のサイズよりも小さく、候補画像領域集合内の候補画像領域には、重複領域が存在してもよいし、重複領域が存在しなくてもよい。候補画像領域のサイズは、同じであっても異なっていてもよい。例えば、
図3に示すように、サンプル画像を分割して候補画像領域を取得することを示す概略図であり、サンプル画像は、A、B、Cの3つの候補領域を含むことができる。ここで、AとBの間に重複領域があり、AとBのサイズは同じであり、Cの画像サイズはAとBの画像サイズよりも小さい。
【0024】
いくつかの実施例では、候補画像領域の分割方法は、必要に応じて設定されてもよく、例えば、教師なしアルゴリズムに基づき、領域類似性によってサンプル画像を複数の画像領域に分割することができる。教師なしでの候補領域の取得方法では、アノテーションが必要ではなく、画像の下位層の視覚的特徴に基づいて、ターゲットオブジェクトを含む確率が高い領域を抽出することができ、確率は、予め設定された確率、例えば0.8よりも高いものであってもよい。例えば、異常組織の結節又は腫れ物などの病巣を含む領域を抽出する。教師なしでの候補領域生成方法により、ターゲットを含む可能性のある数千の候補領域を取得することができる。教師なしの分割アルゴリズムは、フラグメントグルーピング方法(grouping method)とウィンドウスコアリング方法(window scoring method)を含むことができる。ここで、フラグメントグルーピング方法は、画像をウルトラピクセルブロックに分割することができ、グルーピング法によりターゲットを含む可能性のある複数の候補領域を生成でき、例えば、MCG(multiscale combinatorial grouping:マルチスケールコンビナトリアルグループ化)又は選択的検索アルゴリズムにより複数の候補領域を取得することができる。ウィンドウスコアリング方法は、例えばEdgeBoxアルゴリズムであってもよく、EdgeBoxは、エッジ特徴抽出によりターゲット検出を行う方法であり、当該アルゴリズムは、境界ボックスに含まれる完全な輪郭の数によって、ターゲットオブジェクトを含む確率を表すことができ、これに基づいて当該境界ボックスをスコアリングし、スコアが一定の閾値を超える境界ボックスに対応する領域を候補領域として残す。
【0025】
いくつかの実施例では、サンプル画像はマンモグラフィ画像であり、マンモグラフィ画像は、医療機器(X線機器など)で撮影された白黒画像を指す。ターゲットオブジェクトは、腫れ物、例えば乳癌のしこりであってもよい。モデルトレーニングは、最終的に得られたターゲット検出モデルにより画像内のターゲットオブジェクトの位置を正確に検出することを目的としている。
【0026】
ステップS204において、候補画像領域にそれぞれ対応する第1関係度を取得し、第1関係度は、候補画像領域をそれぞれ第1検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度であり、第1検出モデルは第1サンプル画像に基づいてモデルトレーニングを行って得られるものである。
【0027】
具体的には、関係度は、候補画像領域がターゲットオブジェクトの所在する画像領域である可能性、即ち、候補画像領域にターゲットオブジェクトが含まれる可能性を示す。関係度は確率で表されてもよい。1つの画像領域に対応する関係度が大きいほど、当該画像領域がターゲットオブジェクトの所在する画像領域である可能性が高くなる。検出モデルは、候補画像領域がターゲットオブジェクトの所在する画像領域である関係度を計算するための人工知能モデルであり、画像内のターゲットオブジェクトの所在する位置又は画像にターゲットオブジェクトが含まれる確率の少なくとも1つを出力することができる。ターゲットオブジェクトの所在する位置は、ターゲットオブジェクトの中心座標、高さ及び幅で表されてもよく、中心座標、高さ及び幅によって1つの位置領域を決定することができ、当該位置領域はターゲットオブジェクトの所在する位置である。第1検出モデルは、第1サンプル画像に基づいてモデルトレーニングを行って得られるものであるものであり、第1サンプル画像は、1つ又は複数が含まれても良い。例えば、第1サンプル画像をaとすると、第1検出モデルは、aに基づいてモデルトレーニングを行って得られるものである。第1サンプル画像に基づいてモデルトレーニングを行う時に、サンプル画像全体を、ターゲットオブジェクトを含む画像として使用することができ、サンプル画像を複数の候補画像領域に分割して、ターゲットオブジェクトの所在する画像領域である可能性が高い領域を選択し、例えば、関係度が予め設定される関係度より大きい領域を選択して、モデルトレーニングを行い、第1検出モデルを取得することができる。
【0028】
モデルトレーニングを行う時に、教師ありトレーニング方法を使用することができ、画像をモデルに入力し、モデルにより画像内のターゲットオブジェクトの所在位置を予測することができる。画像内のターゲットオブジェクトの実際の位置と予測位置の差に基づいて損失値を取得し、差が大きいほど、損失値が大きくなり、勾配降下法を使用して、損失値が小さくなる方向に向かってモデルパラメータを調整することができる。損失値を計算する時に、予測されたターゲットオブジェクトの位置の中心座標と実際のターゲットオブジェクトの中心座標との差に基づいて第1損失値を得、予測された関係度と実際の関係度に基づいて第2損失値を得、第1損失値及び第2損失値に基づいて合計損失値を得ることができる。また、予測された幅と実際の幅の差に基づいて計算された損失値と、予測された高さと実際の高さの差に基づいて計算された損失値とを組み合わせて、合計損失値を得ることもできる。
【0029】
ステップS206において、候補画像領域にそれぞれ対応する第2関係度を取得し、第2関係度は、候補画像領域をそれぞれ第2検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度であり、第2検出モデルは、第2サンプル画像を使用して第1検出モデルに対してモデルトレーニングを行って得られるものである。
【0030】
具体的には、第1サンプル画像と第2サンプル画像は異なるサンプル画像である。第2検出モデルは、第1検出モデルに基づいてモデルトレーニングを行うことで得られるものであってもよく、即ち、モデルトレーニングを行って第1検出モデルを得てから、第2サンプル画像を使用して継続的にモデルトレーニングして得られるものであってもよい。第2サンプル画像は、複数含まれてもよい。第2サンプル画像に基づいてモデルトレーニングを行う時に、第2サンプル画像全体を、ターゲットオブジェクトを含む画像として使用することができ、サンプル画像を複数の候補画像領域に分割して、ターゲットオブジェクトの所在する画像領域である可能性が高い領域を選択し、例えば、関係度が予め設定された関係度より大きい領域を選択して第1検出モデルに対して継続的にモデルトレーニングし、第2検出モデルを得ることもできる。
【0031】
ステップS208において、第1関係度及び第2関係度に基づいて関係度変化値を得、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングする。
【0032】
具体的には、関係度変化値は、第1関係度から第2関係度への変化の大きさを示し、関係度変化値は、比の値又は差の値で表されてもよい。関係度変化値に基づき、候補画像領域集合から、予め設定された関係度変化条件を満たす候補画像領域をスクリーニングし、ターゲットオブジェクトを含むターゲット画像領域とすることができ、例えば、サンプル画像のうち、関係度変化値の最も大きい候補画像領域をターゲット画像領域として使用することができる。
【0033】
いくつかの実施例では、第2関係度から第1関係度を引き算し又は第2関係度を第1関係度で割り算し、関係度変化値を得ることができる。例えば、第1関係度が0.6で、第2関係度が0.92であるとすると、関係度変化値は0.92-0.6=0.32である。
【0034】
いくつかの実施例では、候補画像領域集合から、関係度変化値が予め設定された変化条件を満たす候補画像領域をスクリーニングし、ターゲットオブジェクトを含むターゲット画像領域とすることができ、予め設定された変化条件は、関係度変化値が予め設定された順位の前にソートされること、又は関係度変化値が予め設定された変化値より大きいことのうちの少なくとも1つを含み、関係度変化値は、降順でソートされる。
【0035】
具体的には、予め設定された順位は必要に応じて設定されてもよく、例えば2である。予め設定された変化値は、必要に応じて任意の正数に設定されてもよく、例えば0.4であってもよい。関係度変化値は、降順でソートされ、変化値が大きいほど、順位が前になる。例えば、候補画像領域が4つであり、対応する関係度変化値がそれぞれ0.43、0.32、0.41、0.02であるとすると、0.43に対応する候補画像領域は、第1位にソートされ、0.41に対応する候補画像領域は第2位にソートされ、0.32に対応する候補画像領域は第3位にソートされ、0.02に対応する候補画像領域は第4位にソートされる。
【0036】
いくつかの実施例では、関係度変化値に基づき、候補画像領域集合からターゲットオブジェクトが含まれない画像領域をスクリーニングすることができ、例えば、関係度変化値が第2の予め設定された順位の後にソートされた候補画像領域、又は関係度変化値が第2の予め設定された変化値よりも小さい候補画像領域をターゲットオブジェクトが含まれない画像領域とすることができ、第2の予め設定された値は負数であってもよく、このような画像領域を負例のサンプルに対応する画像領域としてモデルトレーニングを行う。
【0037】
ステップS210において、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得、ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる。
【0038】
具体的には、ターゲット画像領域を得た後、ターゲット画像領域を、ターゲットオブジェクトを含む領域、即ち正例のサンプルとしてターゲット画像領域を使用してモデルトレーニングを行い、ターゲット検出モデルを得る。ターゲット画像領域に基づいてトレーニングして得られた検出モデルをターゲットモデルとして使用することができ、ターゲット画像領域を使用してモデルトレーニングを行った後、他のサンプル画像を使用してトレーニングを継続し、ターゲット検出モデルを得ることもできる。ターゲット検出モデルは、トレーニング済みのモデルであり、検出待ち画像、即ち検出対象画像に対してオブジェクト検出を行うために用いられることが可能である。例えば、画像内のオブジェクトの位置を検出するために用いられてもよいし、画像にターゲットオブジェクトが含まれるか否かを検出するために用いられてもよい。
【0039】
いくつかの実施例では、ターゲット画像領域に基づいて第2検出モデルをトレーニングして、ターゲット検出モデルを得ることができ、即ち、第2検出モデルのモデルパラメータを基にして、モデルパラメータを継続的に調整し、ターゲット検出モデルを得ることができる。
【0040】
いくつかの実施例では、ターゲット画像領域との重畳度が高い画像領域、例えば、予め設定された重畳度より大きい画像領域を、ターゲットオブジェクトを含む画像領域として取得することができる。ターゲットオブジェクトの位置が複数の候補画像領域にわたっている可能性があるが、第1検出モデルと第2検出モデルの誤差により、検出が漏れる可能性があり、したがって、重畳度によりターゲット周辺の画像領域もターゲットオブジェクトを含む画像領域として使用されてもよい。
【0041】
上記の検出モデルのトレーニング方法では、第1検出モデルは、第1サンプル画像に基づいてモデルトレーニングを行って得られるものであるものであり、第1サンプル画像に対する認識能力が高く、第2サンプルに基づいて継続的にトレーニングして得られた第2検出モデルは、モデルの汎用性を強化し、即ちサンプルに対するモデルの適応性を強化している。したがって、候補画像領域の前後の関係度の変化は、画像領域にターゲットオブジェクトが含まれるか否かを表すことができ、その故、関係度変化値に基づいて得られたターゲットオブジェクトを含む領域の精度が高く、そのため、第1サンプル画像からターゲットオブジェクトを含む画像領域を見つけて、それをサンプルとしてモデルトレーニングを行い、トレーニングによって得られたターゲット検出モデルの精度が高い。
【0042】
検出モデルを使用して候補画像領域がターゲットオブジェクトを含む領域であるか否かを決定する時に、モデルによって出力される候補画像領域の関係度の決定要因は、主に2つの方面からのものであり、第1方面は、当該サンプル画像が検出モデルをトレーニングするために正例のサンプルとして使用されるか否かであり、検出モデルをトレーニングするために正例のサンプルとして使用される場合、オーバーフィットにより、モデルトレーニングによって得られた第1検出モデルを使用して当該候補画像領域を評価する場合、出力される関係度が高い。第2方面は、他のサンプル画像を使用して検出モデルを継続的にトレーニングした後、検出モデルの分類能力が強化され、したがって、他のサンプル画像を使用して第1検出モデルを継続的にトレーニングして得られた第2検出モデルの分類能力が強化され、ターゲットオブジェクトを含む候補画像領域のスコア値(即ち、出力される関係度)も向上することができる。したがって、他のサンプル画像(第2サンプル画像)でトレーニングして得られた第2検出モデルによって出力された候補画像領域の第2関係度が大きい場合、当該候補画像領域に対応する関係度変化値は、同一サンプル画像内の他の候補画像領域より大きく、これは、候補画像領域がターゲットオブジェクトを含む領域である可能性が高いことを示している。前回のトレーニング実施後のサンプルは、今回のトレーニングまでの時間内で、オブジェクト検出モデルをトレーニングするためにターゲットオブジェクトを含むサンプルとして再び使用されていないため、関係度変化値が高いことは第2方面の要因によるものであると裏付けられることができ、即ち、オブジェクト検出モデルは、他のサンプルをトレーニングすることによって分類能力が強化され、しかも当該サンプルは、ターゲットオブジェクトを含むものである。したがって、2回のトレーニング間の関係度変化値は、候補画像領域にターゲットオブジェクトが含まれるか否かを合理的に表すことができる。その故、第1サンプル画像のうち、関係度の変化が大きい候補画像領域を、ターゲットオブジェクトを含む画像領域として使用することができる。
【0043】
候補画像領域がターゲットオブジェクトを含まないものである場合、当該候補画像領域を、ターゲットオブジェクトを含む領域としてモデルトレーニングを行っても、他のサンプル画像を使用して継続的にトレーニングした後、第2検出モデルを使用して関係度の予測を行う時に、検出モデルの分類能力が高くなるため、この候補画像領域の関係度が低いことは、ターゲットオブジェクトを含む画像領域ではないことを示し、そのため、本出願の実施例の方法により、ターゲットオブジェクトを含む画像領域を取得する精度を向上させることができる。
【0044】
いくつかの実施例では、
図4に示すように、第1サンプル画像を分割して得られた候補画像領域集合を取得する前に、前記方法は、ステップS402をさらに含み、ステップS402において、サンプル画像集合を取得し、サンプル画像集合に基づいて分割し、更新された第1サンプル画像と更新された第2サンプル画像を取得し、サンプル画像集合は複数のサンプル画像を含む。
【0045】
具体的には、サンプル画像集合の画像の数は、必要に応じて設定されてもよく、例えば1000個である。モデルトレーニングを行う時に、サンプル画像集合を使用してモデルトレーニングを行い、ターゲット検出モデルを得ることができる。サンプル画像集合で、第1サンプル画像と第2サンプル画像は、モデルトレーニングの実行に伴って継続的に更新される。例えば、1つのサンプル画像は、ある時点で第1サンプル画像として使用され、別の時点で第2サンプル画像として使用される。例えば、順次に、サンプル画像集合内の1つ又は複数の画像を第1サンプル画像として使用し、第1サンプル画像以外のサンプル画像を第2サンプル画像として使用する。実際の例として、サンプル集合に1000個のサンプル画像があると仮定すると、1回目のモデルトレーニングの時に、1番目のサンプル画像を、第1サンプル画像として使用し、1番目のサンプル画像を使用してモデルトレーニングを行った後に、2番目のサンプル画像を第1サンプル画像として使用し、このように類推し、999番目のサンプル画像を使用してモデルトレーニングを行った後、1000番目のサンプル画像を、第1サンプル画像として使用する。
【0046】
また、
図4に示すように、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップS210は、以下のステップを含むことができる。
【0047】
ステップS404において、ターゲット画像領域に基づいて第2検出モデルに対してモデルトレーニングを行い、第1サンプル画像に対応する更新後の第1検出モデルを得る。
【0048】
具体的には、ターゲット画像領域に基づいて第2検出モデルに対してモデルトレーニングを行い、トレーニングして得られたモデルを、当該第1サンプル画像に基づいてトレーニングして得られたモデルとし、即ち、トレーニングして得られたモデルを使用して当該第1サンプル画像に対応する第1検出モデルを更新する。
【0049】
ステップS406において、更新後の第1検出モデルが収束するか否かを判断する。
【0050】
具体的には、モデルの収束は、モデルの損失値が第1閾値より小さいこと、モデルの損失値の変化値が第1変化値より小さいこと、又はモデルのパラメータの変化が第2変化値より小さいこと、のうちも少なくとも1つを含むことができる。第1検出モデルが収束する場合、ステップS408に入り、更新後の第1検出モデルをターゲット検出モデルとする。第1検出モデルが収束していない場合、ステップS402に戻り、即ち、サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップに戻り、サンプル集合の次のサンプル画像又は次のグループのサンプル画像を第1サンプル画像とする。更新後の第1検出モデルが収束し、ターゲット検出モデルを得るまで続く。
【0051】
ステップS404における、第1サンプル画像に対応する更新後の第1検出モデルは、同一第1サンプル画像でトレーニングして得られた第1検出モデルを更新することを指すことが理解できる。ステップS402に戻った後、第1サンプル画像が変更され、そのため、第1サンプル画像に基づいてトレーニングして得られた第1検出モデルも変わる。例えば、第1サンプル画像がaであると仮定すると、更新された第1検出モデルは、aに基づいてトレーニングして得られた検出モデルであり、ステップS402に戻った後、更新された第1サンプル画像がbであると仮定すると、取得した第1検出モデルは、bに基づいてトレーニングして得られた検出モデルである。次回、aを第1サンプル画像として使用する場合、取得したのはaに対応する更新後の第1検出モデルである。
【0052】
ステップS408において、更新後の第1検出モデルをターゲット検出モデルとする。
【0053】
本出願の実施例では、サンプル集合内の複数のサンプルに基づいてモデルトレーニングを行い、サンプル集合内の第1サンプル画像が更新されるものであるため、モデルに対して複数回のトレーニングを行い、モデルの精度を向上させることができる。
【0054】
いくつかの実施例では、
図5Aに示すように、ステップ402、即ち、サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップは、以下のステップを含む。
【0055】
ステップS502において、サンプル画像集合を複数のサンプル画像グループに分割する。
【0056】
具体的には、1つのサンプル画像グループには複数のサンプル画像が含まれても良い。サンプル画像グループの数は、必要に応じて設定されてもよく、例えば100個であってもよい。例えば、サンプル画像集合に1000個のサンプル画像があると仮定すると、10個毎に1グループにし、100個のグループに分割することができる。
【0057】
ステップS504において、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得し、現在のサンプル画像グループのサンプル画像は第1サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第2サンプル画像である。
【0058】
具体的には、サンプル画像グループをモデルパラメータ調整単位とすることは、1つのグループをトレーニング単位としてモデルパラメータを1回調整することを意味する。即ち、グループを単位として、グループごとにパラメータの勾配更新を1回行う。モデルの損失値を計算する時に、現在のサンプル画像グループのうち、第1サンプル画像の損失値の平均値を計算することができる。現在のサンプル画像グループ以外のサンプル画像グループとは現在のサンプル画像グループではないサンプル画像グループを指す。サンプル画像集合から現在のサンプル画像グループを順次取得することは、サンプル画像集合から現在のサンプル画像グループを順序で取得することを指す。例えば、サンプル画像グループが10個であるとすると、1回目のモデルトレーニングの時に、1番目のサンプル画像グループを現在のサンプル画像グループとして使用し、2回目のモデルトレーニングの時に、2番目のサンプル画像グループを現在のサンプル画像グループとして使用する。したがって、第1サンプル画像を取得する時に、グループを単位として取得し、グループごとにモデルパラメータを1回調整し、そのため、モデルパラメータの調整はより正確になる。
【0059】
いくつかの実施例では、
図5Aに示すように、第1モデルが収束していない場合、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得するステップに戻り、現在のサンプル画像グループのサンプル画像は第1サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第2サンプル画像である。
【0060】
いくつかの実施例では、複数ラウンドのモデルトレーニングを行うことができ、候補画像領域にそれぞれ対応する第1関係度を取得するステップは、前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第1検出モデルとして使用し、更新された第1検出モデルによって候補画像領域にそれぞれ対応する第1関係度を取得するステップを含み、候補画像領域にそれぞれ対応する第2関係度を取得するステップは、現在のラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第2検出モデルとして使用し、更新された第2検出モデルによって候補画像領域にそれぞれ対応する第2関係度を取得するステップを含む。
【0061】
具体的には、1ラウンドのトレーニングは、サンプル集合内のサンプル画像グループをすべてサンプルとして検出モデルをトレーニングしたことを指す。例えば、サンプル集合に1000個のサンプル画像があり、100個のグループに分割していると仮定すると、これらの100個のグループのサンプル画像グループを順次現在のサンプル画像グループとして、モデルトレーニングを行ったことは、1ラウンドのモデルトレーニングである。本ラウンドは、現在のモデルトレーニングを行うラウンドを指し、前のラウンドは、本ラウンドの前のラウンドを指す。本ラウンドで現在のサンプル画像グループを使用してモデルトレーニングを行う時に、前のラウンドでモデルトレーニングを行う時に同一サンプル画像グループを使用してトレーニングした後に更新されたモデルを取得し、それを当該現在のサンプル画像グループに対応する第1検出モデルとし、即ち現在のサンプル画像グループ内の各第1サンプル画像に対応する第1検出モデルとする。現在のサンプル画像グループ内の各第1サンプル画像に対して、対応する候補画像領域を取得し、第1検出モデルに入力し、第1検出モデルは、候補画像領域にターゲットオブジェクトが含まれる第1関係度を出力する。
【0062】
フォワードサンプル画像グループは、本ラウンドのモデルトレーニングの時に、当該現在のサンプル画像グループの前に検出モデルをトレーニングするために第1サンプル画像として既に使用されていたサンプル画像グループである。現在のサンプル画像グループにとって、第2検出モデルは、フォワードサンプル画像グループを使用してモデルトレーニングを行って得られたモデルである。現在のサンプル画像グループ内の各第1サンプル画像から、対応する候補画像領域を取得し、第2検出モデルに入力し、第2検出モデルは、候補画像領域にターゲットオブジェクトが含まれる第2関係度を出力する。したがって、同一候補画像領域に対して、第1関係度及び第2関係度に基づいて関係度変化値を得ることができ、各第1サンプル画像に対して、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングすることができる。
【0063】
いくつかの実施例では、現在のサンプル画像グループが本ラウンドでトレーニングするためのサンプル画像グループである場合、前のラウンドで最後にトレーニングして得られた検出モデルを、更新された第2検出モデルとして使用することができる。
【0064】
ターゲット画像領域を取得するための式は、式(1)で表してもよく、任意のサンプル画像について、第t+1ラウンドにおける正例のサンプル、即ちターゲット画像を含む画像領域は、第2関係度から第1関係度を減算して得られた関係度変化値が最も大きい候補画像領域を含み、第1関係度は、当該サンプル画像の所在するサンプル画像グループを使用して第tラウンドでトレーニングを行った後に得られた第1検出モデルにより、候補画像領域を処理して出力されるものである。第2関係度は、当該サンプル画像の前の一つのサンプル画像グループを使用して第t+1ラウンドでトレーニングを行った後に得られた第2検出モデルにより、候補画像領域を処理して出力されるものである。ここで、
【数1】
は、第t+1ラウンドの時に、第2検出モデルによって出力されたi番目の候補画像領域に対応する第2関係度である。
【数2】
は、第tラウンドの時に、第1検出モデルによって出力されたi番目の候補画像領域に対応する第1関係度であり、
【数3】
は、第t+1ラウンドで、当該サンプル画像からスクリーニングされたターゲット画像領域であり、argmaxは最大値を求めることを示す。
【0065】
【0066】
本出願の実施例によって提供されるオブジェクト検出モデルのトレーニング方法では、前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してトレーニングした後に更新されたモデルを取得して、それを第1検出モデルとして使用することにより、本ラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第2検出モデルとして使用する。これらの2つのモデルによって出力された関係度の変化に基づいて候補画像領域をターゲット画像領域としてスクリーニングする。したがって、異なるラウンドのモデルトレーニングでは、同一サンプル画像に対して、ターゲットオブジェクトを含む画像領域が動的に更新され、即ち、正例のサンプルは、モデルのトレーニングに伴って動的に更新され、モデルのトレーニングに伴い、モデルの精度が継続的に向上しているため、正例のサンプルの取得精度も継続的に向上し、その故、サンプルの品質とモデルの検出能力を同時に向上させることができる。
【0067】
例えば、取得したサンプル画像が乳がんを含む画像として例にすると、
図5Bに示すように、乳腺マンモグラフィのスキャノグラムを取得した後、教師なしの候補ボックス生成技術に基づいて複数の候補ボックスを生成することができ、候補ボックスで囲まれた領域が候補画像領域であり、各ラウンドのトレーニングにおいて、1つのサンプル画像のターゲット画像領域は、継続的に更新されているものであってもよく、更新されたターゲット画像領域を取得し、病巣検出器(即ちオブジェクト検出モデル)をトレーニングし、ターゲット検出モデルを得ることができる。例えば、サンプル画像aの場合、第1ラウンドでは、第2画像領域がターゲット画像領域であり得、第2ラウンドでは、第3画像領域がターゲット画像領域であり得る。
【0068】
いくつかの実施例では、
図6に示すように、オブジェクト検出方法は以下のステップをさらに含むことができる。
【0069】
ステップS602において、ターゲット画像分類モデルを取得する。
【0070】
具体的には、画像分類モデルは、画像にターゲットオブジェクトが含まれるか否かを区別するためのモデルであり、画像をターゲット分類モデルに入力すると、ターゲット分類モデルは、当該画像にターゲットオブジェクトが含まれるか否かの結果、例えば、ターゲットオブジェクトが含まれる関係度を出力し、ターゲット画像分類モデルは、2クラス分類のネットワークモデルであってもよい。オブジェクト検出モデルは、画像内のターゲットオブジェクトの位置を検出するために使用されてもよく、また、画像にターゲットオブジェクトが含まれるか否かを検出するためにも使用されてもよく、即ち、画像を分類することもできる。ターゲット分類画像モデルは、サンプル集合内の完全なサンプル画像に基づいてトレーニングして得られたモデルであってもよく、画像レベルのアノテーション(即ちサンプル画像にターゲットオブジェクトが含まれるか否かをアノテーションしている)をついている画像をトレーニングサンプルとして使用して、画像にターゲットオブジェクトが含まれるか否かを認識するための深層畳み込みニューラルネットワークをトレーニンすることができる。トレーニングして得られたのは分類モデルであるため、サンプル集合内のサンプル画像を分割しなくてもよく、完全なサンプル画像に基づいてトレーニングして分類モデルを得ることもできる。
【0071】
ターゲット分類モデルのネットワーク構造は、任意の画像分類ネットワーク構造であってもよく、例えばResNet(Residual Neural Network:残差ニューラルネットワーク)、AlexNet、又はGoogleNetなどであってもよい。GoogLeNetは、Google社が開発した深層ラーニングネットワークモデルである。ターゲット検出モデルは、任意のターゲット検出ネットワークであってもよく、例えばFaster RCNN(Regions with Convolutional Neural Network:領域畳み込みニューラルネットワーク)、YOLO(You Only Look Once)又はRFCN(Region-based Fully Convolutional Networks :領域に基づく完全畳み込みネットワーク)などであってもよい。YOLOは、ターゲット検出アルゴリズムであり、オブジェクト検出(object detection)問題を回帰問題として扱い、畳み込みニューラルネットワーク構造によって入力画像を予測し、ターゲットオブジェクトが存在する画像領域とカテゴリ確率を予測することができる。
【0072】
ステップS604において、サンプル集合内の各サンプル画像が対応する候補画像領域をそれぞれターゲット画像分類モデルに入力し、各サンプル画像の候補画像領域がターゲットオブジェクトの所在する領域である第3関係度を出力する。
【0073】
具体的には、ターゲット分類モデルのモデルパラメータによって候補画像領域を処理し、各候補画像領域がターゲットオブジェクトを含む関係度を第3関係度として出力する。
【0074】
ステップS606において、第3関係度に基づいて候補画像領域集合からターゲットオブジェクトを含む第2画像領域をスクリーニングする。
【0075】
具体的には、第3関係度に基づき、候補画像領域から、第3関係度が関係度閾値より大きい画像領域又は関係度が事前に設定された順位の前にソートされる画像領域を、ターゲットオブジェクトを含む第2画像領域として取得することができる。関係度閾値は必要に応じて設定され、予め設定された順位は例えば2であってもよい。関係度の順位は、降順でソートして得られる順位である。例えば、各サンプル画像に対して、第3関係度の最も大きい候補画像領域を第2画像領域として使用することができる。
【0076】
ステップS608において、第2画像領域に基づいてモデルトレーニングを行って、第1ラウンドでモデルトレーニングして得られた検出モデルを得る。
【0077】
具体的には、第1ラウンドでモデルトレーニングを行う時に、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得してモデルトレーニングを行うことができ、したがって、第1ラウンドでトレーニングを行うときの各サンプル画像グループに対応する第1検出モデルを得ることができ、第2ラウンドでモデルトレーニングを行う時に、第1ラウンドでトレーニングを行った時に同一サンプル画像グループを使用してトレーニングした後に得られたモデルを、第1検出モデルとすることができる。第1ラウンドでモデルトレーニングを行う時に、前のラウンドでトレーニングして得られたモデルが存在していないため、関係度変化値に基づいてターゲット画像領域を取得することができなく、その故、予めトレーニングして得られたターゲット分類モデルを使用して候補画像領域をスコアリングし(即ち関係度を出力し)、出力された関係度に基づいて関係度の高い画像領域を、ターゲットオブジェクトを含む画像領域としてスクリーニングし、第2画像領域が得られた後、第2画像領域を、ターゲットオブジェクトを含む領域とし、第2画像領域を使用してモデルトレーニングを行い、第1ラウンドでモデルトレーニングして得られた検出モデルを得ることができる。したがって、本出願の実施例によって提供されるオブジェクト検出モデルのトレーニング方法は、サンプル画像に、ターゲットオブジェクトを含むか否かのみをアノテーションし、ターゲットオブジェクトの具体的な位置をアノテーションしていない時に、モデルトレーニングを行い、第1ラウンドでモデルトレーニングして得られた検出モデルを得ることができ、これにより、後続のラウンドのモデルトレーニングを、第1ラウンドでトレーニングして得られたモデルで実行することができるようにする。即ち、本出願の実施例によって提供されるオブジェクト検出モデルのトレーニング方法は、弱教師ありモデルトレーニング方法であってもよい。モデルトレーニングを行う時に、サンプル画像に画像レベルのアノテーション(サンプル画像にターゲットオブジェクトがあるか否か)のみが含まれ、詳細な位置のアノテーションが含まれない(即ち、サンプル画像内のターゲットオブジェクトの具体的な位置がアノテーションされていない)場合でも、モデルトレーニングを行い、画像内のターゲットオブジェクトの具体的な位置を検出できるモデルを得ることができる。
【0078】
いくつかの実施例では、
図7に示すように、オブジェクト検出モデルのトレーニング方法は、以下のステップをさらに含むことができる。
【0079】
ステップS702において、ターゲット画像領域と候補画像領域との画像重畳度を取得する。
【0080】
具体的には、画像重畳度は、画像位置の重畳の度合いを示すために用いられ、画像重畳度が高いほど、位置重畳の度合いが高くなることを示す。ターゲット画像領域と候補画像領域集合のうち、各候補画像領域の画像重畳度を計算することができる。
【0081】
いくつかの実施例では、位置重畳度は、第1面積及び第2面積との比によって取得されてもよい。第1面積は、画像内のターゲット画像領域と候補画像領域の重畳面積、即ち位置における共通集合が対応する面積である。第2面積は、画像内のターゲット画像領域と候補画像領域の位置の和集合に占有された面積である。画像重畳度の計算方法は式(2)で表されてもよく、「I」は位置重畳度を表し、areaは面積を求めることを表し、Aは、画像内のターゲット画像領域の現在の位置を指し、Bは、画像内の候補画像領域の基準位置を指す。「∩」は共通集合を求めることを指し、「∪」は和集合を求めることを指す。
図8に示すように、いくつかの実施例におけるサンプル画像内のターゲット画像領域及び候補画像領域の位置の概略図である。ボックスAは、画像内のターゲット画像領域の位置を表す。ボックスBは、画像内の候補画像領域の位置を表す。
図8では1つの格子は1つのピクセル点を表し、
図8から、AとBが重なり合う部分、即ち共通集合は、合計6つのピクセル点(5行目、4列目から6行目、6列目までのピクセル点)を占有していることがわかる。AとBの和集合が合計18個のピクセル点を占有し、この場合、位置重畳度は、6/18=0.33である。
【0082】
I=area(A∩B)/area(A∪B) (2)
【0083】
ステップS704において、画像重畳度が第1の予め設定された重畳度より大きい候補画像領域を第3画像領域として取得する。
【0084】
具体的には、第1の予め設定された重畳度は、必要に応じて設定されてもよく、例えば0.5であってもよい。第3画像領域は、ターゲットオブジェクトを含む画像領域を指す。
【0085】
ステップS210、即ちターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、第3画像領域及びターゲット画像領域を正例のサンプル画像領域として使用し、正例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップを含む。
【0086】
具体的には、正例のサンプル画像領域とは、ターゲットオブジェクトを含む画像領域を指し、正例のサンプル画像領域は、それが対応する、ターゲットオブジェクトを含む関係度は、例えば確率は1であってもよく、即ちサンプルのアノテーション値は1である。関係度の変化に基づいてターゲットオブジェクトを含む画像領域をスクリーニングする時に、モデルに誤差がある可能性があり、ターゲットオブジェクトに占有された位置が複数の候補画像領域を含み得るため、重畳度に基づき、ターゲット画像領域との重畳度が高い候補画像領域を、ターゲットオブジェクトを含む画像領域として取得するため、より多い正確な正例のサンプルを取得してモデルトレーニングを行うことができ、これにより、トレーニングして得られたモデルの精度が向上する。
【0087】
いくつかの実施例では、画像重畳度が第2の予め設定された重畳度よりも小さい候補画像領域を第4画像領域として取得することができ、第2の予め設定された重畳度は第1の予め設定された重畳度以下である。ステップS210、即ち、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、第4画像領域を負例のサンプル画像領域として使用し、ターゲット画像領域グループを正例のサンプル画像領域として使用し、正例のサンプル画像領域及び負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップを含む。
【0088】
具体的には、第2の予め設定された重畳度は、第1の予め設定された重畳度以下であってもよく、例えば、第2の予め設定された重畳度は、0.5であってもよい。負例のサンプル画像領域とは、ターゲットオブジェクトを含まない画像領域を指し、負例のサンプル画像領域は、それが対応する、ターゲットオブジェクトが含まれる関係度は0であってもよく、即ちサンプルアノテーション値は0であってもよい。
【0089】
いくつかの実施例では、第3画像領域及び第4画像領域は同時に取得されてもよく、第3画像領域及びターゲット画像領域を、正例のサンプル画像領域として使用し、第4画像領域を、負例のサンプル画像領域として使用する。正例のサンプル画像領域及び負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得る。
【0090】
いくつかの実施例では、ターゲット検出モデルを得た後、ターゲット検出モデルを使用してオブジェクト検出を行うことができ、
図9に示すように、オブジェクト検出モデルのトレーニング方法は、以下のステップをさらに含むことができる。
【0091】
ステップS902において、検出対象画像を取得し、検出対象画像を複数の第1画像領域に分割する。
【0092】
具体的には、検出対象画像は、ターゲットオブジェクトの位置を検出しようとする画像である。ターゲット画像を複数の第1画像領域に分割する方法については、サンプル画像を複数の候補画像領域に分割する方法を参照することもでき、ここでは説明を省略する。ターゲット検出モデルによって画像分割を行ってもよい。
【0093】
ステップS904において、各第1画像領域をそれぞれターゲット検出モデルに入力して、各第1画像領域にターゲットオブジェクトが含まれるターゲット関係度を取得する。
【0094】
具体的には、ターゲット検出モデルは、トレーニングして得られたモデルパラメータに基づき、各第1画像領域をそれぞれ処理し、各第1画像領域にターゲットオブジェクトが含まれるターゲット関係度を予測して得ることができる。
【0095】
ステップS906において、ターゲット関係度に基づき、複数の第1画像領域からターゲットオブジェクトを含む画像領域をスクリーニングして、検出対象画像内のターゲットオブジェクトの位置を得る。
【0096】
具体的には、ターゲット検出モデルは、各第1画像領域がそれぞれ対応するターゲット関係度を取得した後、ターゲット関係度に基づき、複数の第1画像領域から、ターゲット関係度が予め設定された関係度より大きい画像領域又は関係度の順位が予め設定された順位より大きい画像領域を、ターゲットオブジェクトを含む画像領域としてスクリーニングし、検出対象画像内の、ターゲットオブジェクトを含む画像領域の位置を得ることができ、例えば、ターゲットオブジェクトを含む画像領域を、検出対象画像内にアノテーションボックスでアノテーションすることができ、関係度の順位は降順でソートされる。
【0097】
例えば、
図10に示すように、検出対象画像を得た後、検出対象画像をターゲット検出モデルに入力することができ、ターゲット検出モデルは、検出対象画像内のターゲットオブジェクトの位置を出力し、
図10のボックスに示されているように、検出対象画像内のターゲットオブジェクトの位置を示す。
【0098】
以下は、画像内の乳がんの位置を検出するためのモデルをトレーニングすることを例として、本出願の実施例によって提供される方法を説明する。前記方法は以下のステップを含むことができる。
【0099】
1.サンプル画像集合を取得する。
具体的には、例えば、X線医療機器を用いて人の乳腺を撮影して得られたマンモグラフィ画像を取得することができ、サンプル画像集合内のサンプル画像は1万枚であってもよい。
【0100】
2.サンプル画像集合を複数のサンプル画像グループに分割する。
例えば、10枚を1サンプル画像グループとして、サンプル画像集合を1000個のサンプル画像グループに分割する。
【0101】
3.サンプル画像集合内の各サンプル画像を分割して、各サンプル画像に対応する候補領域集合を取得する。
例えば、MCG法を使用し、各マンモグラフィ画像を分割し、各画像に対応する3000個の候補画像領域を取得することができ、即ち、1枚のマンモグラフィ画像に3000個の候補ボックスがあり得、1つの候補ボックスで囲まれる位置は1つの候補画像領域である。
【0102】
4.サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得する。
具体的には、現在のサンプル画像グループが継続的に更新され、例えば、まず1番目のサンプル画像グループを現在のサンプル画像グループとして使用して、1回のモデルトレーニングを完了させ、モデルのパラメータを更新することができる。次に2番目のサンプル画像グループを取得し、再び1回のモデルトレーニングを完了させ、モデルのパラメータを更新する。1000番目のサンプル画像グループを現在のサンプル画像グループとして使用して、1ラウンドのモデルトレーニングが完了するまで続く。
【0103】
5.第1サンプル画像を分割して得られた候補画像領域集合を取得する。
具体的には、第1サンプル画像は、現在のサンプル画像グループ内のサンプル画像であり、ステップ3でサンプル画像の分割が既に完了し、したがって、ステップ3で得られた候補画像領域から、第1サンプル画像を分割して得られた候補画像領域集合を直接取得することができる。
【0104】
7.前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してトレーニングした後に更新されたモデルを、第1検出モデルとして使用し、第1検出モデルによって候補画像領域にそれぞれ対応する第1関係度を取得する。
具体的には、複数のラウンドのモデルトレーニングを行うことができる。例えば、第2ラウンドのモデルトレーニングを行う時に、現在のサンプル画像グループが8番目のサンプル画像グループである場合、第1ラウンドのモデルトレーニングの時に8番目のサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第1検出モデルとして取得する。第3ラウンドでモデルトレーニングを行う時に、現在のサンプル画像グループが9番目のサンプル画像グループである場合、第2ラウンドトレーニングの時に9番目のサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第1検出モデルとして取得する。現在のサンプル画像グループ内の各サンプル画像が対応する候補画像領域を第1検出モデルに入力して、候補画像領域に対応する第1関係度を取得する。
第1ラウンドでモデルトレーニングを行う時に、前のラウンドのモデルトレーニングがないため、完全なサンプル画像に基づいてトレーニングしてターゲット分類モデルを取得し、ターゲット分類モデルを使用してサンプル画像の各候補画像領域をスコアリングする(即ち第3関係度を出力する)ことができる。各サンプル画像に対して、第3関係度が最も高い候補画像領域を第2画像領域として使用し、第2画像領域に基づいて第1ラウンドでモデルトレーニングを行う。
【0105】
8.現在ラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプルを使用してモデルトレーニングを行って得られたモデルを、更新された第2検出モデルとして使用し、更新された第2検出モデルによって候補画像領域にそれぞれ対応する第2関係度を取得する。
例えば、第2ラウンドでモデルトレーニングを行う時に、現在のサンプル画像グループが8番目のサンプル画像グループである場合、第2ラウンドのモデルトレーニングの時に7番目のサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第2検出モデルとして取得する。第3ラウンドでモデルトレーニングを行う時に、現在のサンプル画像グループが9番目のサンプル画像グループである場合、第3ラウンドのモデルトレーニングの時に8番目のサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、第2検出モデルとして取得する。現在のサンプル画像グループ内の各サンプル画像が対応する候補画像領域を第2検出モデルに入力して、候補画像領域に対応する第2関係度を取得する。
【0106】
9.第1関係度及び第2関係度に基づいて関係度変化値を得、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングする。
第2関係度から第1関係度を減算し、関係度変化値を得、各第1サンプル画像に対して、関係度変化値が最も大きい候補画像領域を、当該第1サンプル画像に乳がんが含まれる領域とすることができる。
【0107】
10.ターゲット画像領域に基づいて第2検出モデルに対してモデルトレーニングを行い、第1サンプル画像に対応する更新後の第1検出モデルを得る。
【0108】
11.第1検出モデルが収束するか否かを判断する。
第1検出モデルが収束する場合、更新後の第1検出モデルをターゲット検出モデルとして使用し、ステップ12に入る。第1検出モデルが収束していない場合、ステップ4に戻る。
【0109】
12.更新後の第1検出モデルをターゲット検出モデルとする。
オブジェクト検出モデルをトレーニングする時に、通常、サンプルを動的に更新しないため、オブジェクト検出モデルをトレーニングする時に、初期に得られたサンプルは、ずっと、トレーニングサンプルとして使用される。また、サンプル画像内にターゲットオブジェクトの位置を手動でアノテーションするコストが高く、例えば、サンプル画像にターゲットオブジェクトの具体的な位置をアノテーションする時に、プロフェッショナルのアノテーション操作者が正確にアノテーションするために数分かかる必要があり、しかもターゲットオブジェクトの位置に対するアノテーションは客観的ではなく、アノテーション操作者のレベル、状態などの主観的要因に大きく影響されるため、大規模なターゲットオブジェクトの位置をアノテーションすることは、現実には非常に困難である。そのため、モデルトレーニングを行う時に、サンプル画像上にターゲットオブジェクトの位置をアノテーションしないケースが多く、サンプル画像全体をターゲットオブジェクトを含む画像として使用するため、モデルの精度を保証することが困難である。
【0110】
本出願の実施例によってモデルトレーニング方法を採用する。画像レベルのアノテーションを実施するだけで、まず教師なしのターゲット候補ボックス技術により、乳がんの位置などのターゲットオブジェクトを含む可能性のある候補画像領域を得、第1ラウンドでトレーニングを行う時に、完全なサンプル画像でトレーニングして得られたターゲット分類モデルによって候補画像領域にターゲットオブジェクトが含まれる第3関係度を出力し、第3関係度に基づいてターゲットオブジェクトを含む可能性のある画像領域をスクリーニングし、初期のトレーニングサンプルとし、モデルトレーニングを行い、第1ラウンドでモデルトレーニングして得られた検出モデルを得ることができる。
【0111】
後続のモデルトレーニングでは、連続する2ラウンドのトレーニングの間の関係度の変化が高い候補画像領域を選択し、当該反復トレーニングステップにおける新しい正例のサンプルとし、そのため、オブジェクト検出モデルのトレーニングサンプルを動的に更新することができる。連続する2ラウンドのトレーニングの間の関係度の変化は、候補画像領域のオブジェクト検出モデルにおける汎用性が強化された後、候補画像領域の品質に対する評価を表すことができ、関係度が高くなる候補画像領域ほど、直近の2ラウンドの反復トレーニングの間で、品質が高いとオブジェクト検出モデルによって評価され、即ち、ターゲットオブジェクトを含む可能性が高く、したがって、より高い信頼度がある画像領域を、ターゲットオブジェクトを含む画像領域としてモデルのトレーニングを行う。したがって、1ラウンドずつのモデルトレーニングの繰り返しにおいて、より品質の高い正例のサンプルを継続的に選択することによって、サンプルの品質と検出器の機能を共に向上させることができ、オブジェクト検出モデルの精度を、完全な教師ありの場合に近づけ、即ち、ターゲットオブジェクトの位置を手動でアノテーションする場合でトレーニングして得られた検出モデルの精度に近づけ、モデルトレーニングでサンプル画像内のターゲットオブジェクトの位置をアノテーションするニーズを大幅に軽減することがきる。
【0112】
図11に示すように、いくつかの実施例では、検出モデルのトレーニング装置が提供される。当該検出モデルのトレーニング装置は、上記のサーバー120に統合されてもよく、具体的には、候補画像領域集合取得モジュール1102、第1関係度取得モジュール1104、第2関係度取得モジュール1106、ターゲット画像領域スクリーニングモジュール1108及び第1モデルトレーニングモジュール1110を備えることができる。
【0113】
候補画像領域集合取得モジュール1102は、第1サンプル画像を分割して得られた候補画像領域集合を取得するように構成され、候補画像領域集合に複数の候補画像領域が含まれる。
【0114】
第1関係度取得モジュール1104は、候補画像領域にそれぞれ対応する第1関係度を取得するように構成され、第1関係度は、候補画像領域をそれぞれ第1検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度であり、第1検出モデルは第1サンプル画像に基づいてモデルトレーニングを行って得られるものである。
【0115】
第2関係度取得モジュール1106は、候補画像領域にそれぞれ対応する第2関係度を取得するように構成され、第2関係度は、候補画像領域をそれぞれ第2検出モデルに入力し、出力される候補画像領域がターゲットオブジェクトを含む関係度であり、第2検出モデルは、第2サンプル画像を使用して第1検出モデルに対してモデルトレーニングを行って得られるものである。
【0116】
ターゲット画像領域スクリーニングモジュール1108は、第1関係度及び第2関係度に基づいて関係度変化値を得、関係度変化値に基づいて候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成される。
【0117】
第1モデルトレーニングモジュール1110は、ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される。
【0118】
いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、複数のサンプル画像を含むサンプル画像集合を取得し、サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するように構成されるサンプル画像集合取得モジュールをさらに備え、第1モデルトレーニングモジュール110は、ターゲット画像領域に基づいて第2検出モデルに対してモデルトレーニングを行い、第1サンプル画像に対応する更新後の第1検出モデルを得るように構成される更新モジュールと、サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップに戻り、更新後の第1検出モデルが収束し、ターゲット検出モデルを得るまで続くように構成される戻りモジュールとを含む。
【0119】
いくつかの実施例では、サンプル画像集合取得モジュールは、サンプル画像集合を複数のサンプル画像グループに分割し、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得し、現在のサンプル画像グループのサンプル画像は第1サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第2サンプル画像であり、戻りモジュールは、サンプル画像グループをモデルパラメータ調整単位とし、サンプル画像集合から現在のサンプル画像グループを順次取得するステップに戻るように構成され、現在のサンプル画像グループのサンプル画像は第1サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第2サンプル画像である。
【0120】
いくつかの実施例では、第1関係度取得モジュール1104は、前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してトレーニングすることで得られたモデルを、更新された第1検出モデルとして使用し、更新された第1検出モデルによって候補画像領域にそれぞれ対応する第1関係度を取得するように構成される。
【0121】
第2関係度取得モジュール1106は、現在のラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第2検出モデルとして使用し、更新された第2検出モデルによって候補画像領域にそれぞれ対応する第2関係度を取得するように構成される。
【0122】
いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、
ターゲット画像分類モデルを取得するように構成される分類モデル取得モジュールと、
サンプル集合内の各サンプル画像が対応する候補画像領域をそれぞれターゲット画像分類モデルに入力し、各サンプル画像の候補画像領域がターゲットオブジェクトの所在する領域である第3関係度を出力するように構成される第3関係度取得モジュールと、
第3関係度に基づいて候補画像領域集合からターゲットオブジェクトを含む第2画像領域をスクリーニングするように構成される第2画像領域スクリーニングモジュールと、
第2画像領域に基づいてモデルトレーニングを行って、第1ラウンドでモデルトレーニングして得られた検出モデルを得るように構成される第2モデルトレーニングモジュールと、をさらに備える。
【0123】
いくつかの実施例では、ターゲット画像領域スクリーニングモジュール1108は、候補画像領域集合から関係度変化値が予め設定された変化条件を満たす候補画像領域を、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成され、予め設定された変化条件は、関係度変化値が予め設定された順位の前にソートされること、又は関係度変化値が予め設定された変化値より大きいことのうちの少なくとも1つを含み、関係度変化値は、降順でソートされる。
【0124】
いくつかの実施例では、ターゲット画像領域スクリーニングモジュール1108は、第2関係度から第1関係度を引き算し又は第2関係度を第1関係度で割り算し、関係度変化値を得るように構成される。
【0125】
いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、
ターゲット画像領域と候補画像領域との画像重畳度を取得するように構成される画像重畳度取得モジュールと、
画像重畳度が第1の予め設定された重畳度より大きい候補画像領域を第3画像領域として取得するように構成される第3画像領域取得モジュールとをさらに備える。
【0126】
第1モデルトレーニングモジュール1110は、
第3画像領域及びターゲット画像領域を正例のサンプル画像領域として使用し、正例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される。
【0127】
いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、
ターゲット画像領域と候補画像領域との画像重畳度を取得するように構成される画像重畳度取得モジュールと、
画像重畳度が第2の予め設定された重畳度よりも小さい候補画像領域を第4画像領域として取得するように構成され、第2の予め設定された重畳度が第1の予め設定された重畳度以下である第4画像領域取得モジュールとをさらに備える。
【0128】
第1モデルトレーニングモジュール1110は、第4画像領域を負例のサンプル画像領域とし、ターゲット画像領域グループを正例のサンプル画像領域とし、正例のサンプル画像領域及び負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される。
【0129】
いくつかの実施例では、オブジェクト検出モデルのトレーニング装置は、
検出対象画像を取得し、検出対象画像を複数の第1画像領域に分割するように構成される検出対象画像取得モジュールと、
各第1画像領域をそれぞれターゲット検出モデルに入力して、各第1画像領域にターゲットオブジェクトが含まれるターゲット関係度を取得するように構成されるターゲット関係度取得モジュールと、
ターゲット関係度に基づき、複数の第1画像領域からターゲットオブジェクトを含む画像領域をスクリーニングして、検出対象画像内のターゲットオブジェクトの位置を得るように構成される位置検出モジュールと、をさらに備える。
【0130】
図12はいくつかの実施例におけるコンピュータデバイスの内部構造図である。当該コンピュータデバイスは、具体的には
図1のサーバー120であってもよい。
図12に示すように、当該コンピュータデバイスはシステムバスを介して接続されているプロセッサ、メモリ及びネットワークインタフェースを備える。ここで、メモリは、不揮発性記憶媒体と内部メモリを含む。当該コンピュータデバイスの不揮発性記憶媒体は、オペレーティングシステムを記憶しており、コンピュータ読み取り可能な命令を記憶することもでき、当該コンピュータ読み取り可能な命令がプロセッサによって実行されると、プロセッサに検出モデルのトレーニング方法を実現させることができる。当該内部メモリにもコンピュータ読み取り可能な命令が記憶されてもよく、当該コンピュータ読み取り可能な命令がプロセッサによって実行されると、プロセッサに検出モデルのトレーニング方法を実行させることができる。
【0131】
当業者であれば、
図12に示す構造が本出願の解決策と関連する一部の構造のブロック図にすぎず、本出願の解決策が応用されるコンピュータデバイスを限定するためのものではないことを理解でき、具体的なコンピュータデバイスは、図面に示すものよりも多い又は少ない部材を備え、又は異なる部材配置を有することができる。
【0132】
いくつかの実施例では、本出願で提供される検出モデルのトレーニング装置は、コンピュータ読み取り可能な命令の形態として実現されてもよく、コンピュータ読み取り可能な命令は、
図12に示すコンピュータデバイス上で実行され得る。コンピュータデバイスのメモリには、当該検出モデルのトレーニング装置を構成する各プログラムモジュール、例えば、
図11に示す候補画像領域集合取得モジュール1102、第1関係度取得モジュール1104、第2関係度取得モジュール1106、ターゲット画像領域スクリーニングモジュール1108及び第1モデルトレーニングモジュール1110が記憶されてもよい。各プログラムモジュールで構成されたコンピュータ読み取り可能な命令により、プロセッサは、本明細書に記載されている本出願の各実施例の検出モデルのトレーニング方法のステップを実行する。
【0133】
いくつかの実施例では、メモリとプロセッサとを備え、メモリにコンピュータ読み取り可能な命令が記憶され、コンピュータ読み取り可能な命令がプロセッサによって実行されると、プロセッサに上記検出モデルのトレーニング方法のステップを実行させる、コンピュータデバイスを提供する。ここで、検出モデルのトレーニング方法のステップは、上記の各実施例の検出モデルのトレーニング方法のステップであってもよい。
【0134】
いくつかの実施例では、コンピュータ読み取り可能な命令が記憶され、コンピュータ読み取り可能な命令がプロセッサによって実行されると、プロセッサに上記検出モデルのトレーニング方法のステップを実行させる、コンピュータ読み取り可能な記憶媒体を提供する。ここで、検出モデルのトレーニング方法のステップは、上記の各実施例の検出モデルのトレーニング方法のステップであってもよい。
【0135】
本出願の各実施例のフローチャートにおける各ステップは、矢印の指示に従って順次表示されるが、これらのステップは必ずしも矢印に示される順序に従って順次実行されるわけではない。本明細書で明確に説明しない限り、これらのステップの実行は厳しい順序制限がなく、これらのステップは他の順序で実行されてもよい。そして、各実施例の少なくとも一部のステップが複数のサブステップ又は複数の段階を含むことができ、これらのサブステップ又は段階は必ずしも同一の時点で実行されて完了されず、異なる時点で実行されてもよく、これらのサブステップ又は段階の実行順序も順次実行されず、他のステップ又は他のステップのサブステップ又は段階の少なくとも一部と順次又は交互に実行されてもよい。
【0136】
当業者は、上記実施例の方法の全て又は一部のフローを実現することが、コンピュータ読み取り可能な命令によって関連するハードウェアに命令して完了されてもよいことを理解することができ、コンピュータ読み取り可能な命令は不揮発性のコンピュータ読み取り可能な記録媒体に記憶されてもよく、当該コンピュータ読み取り可能な命令が実行されるとき、上記の各方法の実施例のフローを含むことができる。その中、本出願で提供される様々な実施例で用いられる、メモリ、ストレージ、データベース又は他の媒体へのいかなる参照はいずれも不揮発性及び/又は揮発性メモリを含むことができる。不揮発性メモリは、読み出し専用メモリ(ROM)、プログラマブルROM(PROM)、電気的プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)又はフラッシュメモリを含むことができる。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部高速キャッシュメモリを含むことができる。限定ではなく例として、RAMは、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、ダブルデータレートSDRAM(DDRSDRAM)、強化型SDRAM(ESDRAM)、同期リンク(Synch link)DRAM(SLDRAM)、メモリバス(Rambus)直接RAM(RDRAM)、直接メモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)などの様々な形態で得られてもよい。
【0137】
上記実施例の様々な技術的特徴が任意に組み合わせてもよく、説明を簡単にするために、上記実施例の各技術的特徴の全ての可能な組み合わせを説明しないが、これらの技術的特徴の組み合わせが矛盾しない限り、本明細書に記載される範囲と見なされるべきである。
【0138】
上記実施例は本出願のいくつかの実施形態だけを示し、その説明がより具体的かつ詳細であるが、本出願の特許範囲を限定するものとして理解されるべきではない。当業者にとって、本出願の考えを逸脱しない前提で、いくつかの修正と変更を行うことができ、これらの修正と変更が全て本出願の保護範囲に属することは指摘すべきである。したがって、本出願の特許の保護範囲は添付の特許請求の範囲に従うべきである。
【符号の説明】
【0139】
110 端末
120 サーバー
1102 候補画像領域集合取得モジュール
1104 第1関係度取得モジュール
1106 第2関係度取得モジュール
1108 ターゲット画像領域スクリーニングモジュール
1110 第1モデルトレーニングモジュール
【手続補正書】
【提出日】2021-07-28
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータデバイスが実行する、検出モデルのトレーニング方法であって、
第1サンプル画像を分割して得られた候補画像領域集合を取得するステップであって、前記候補画像領域集合に複数の候補画像領域が含まれる、ステップと、
前記候補画像領域にそれぞれ対応する第1関係度を取得するステップであって、前記第1関係度は、前記候補画像領域をそれぞれ第1検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第1検出モデルは、前記第1サンプル画像に基づいてモデルトレーニングを行って得られるものである、ステップと、
前記候補画像領域にそれぞれ対応する第2関係度を取得するステップであって、前記第2関係度は、前記候補画像領域をそれぞれ第2検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第2検出モデルは、第2サンプル画像を使用して前記第1検出モデルに対してモデルトレーニングを行って得られるものである、ステップと、
前記第1関係度及び前記第2関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップと、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、ステップと、を含む方法。
【請求項2】
第1サンプル画像を分割して得られた候補画像領域集合を取得するステップの前に、
サンプル画像集合を取得し、前記サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップであって、前記サンプル画像集合は複数のサンプル画像を含む、ステップをさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記ターゲット画像領域に基づいて前記第2検出モデルに対してモデルトレーニングを行い、第1サンプル画像に対応する更新後の第1検出モデルを得るステップと、
前記サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップに戻り、更新後の第1検出モデルが収束し、ターゲット検出モデルを得るまで続くステップと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項3】
前記サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップは、
前記サンプル画像集合を複数のサンプル画像グループに分割するステップと、
サンプル画像グループをモデルパラメータ調整単位とし、前記サンプル画像集合から現在のサンプル画像グループを順次取得するステップであって、現在のサンプル画像グループのサンプル画像は第1サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第2サンプル画像である、ステップと、を含み、
前記サンプル画像集合に基づいて分割して更新された第1サンプル画像と更新された第2サンプル画像を取得するステップに戻るステップは、
サンプル画像グループをモデルパラメータ調整単位とし、前記サンプル画像集合から現在のサンプル画像グループを順次取得するステップに戻るステップであって、現在のサンプル画像グループのサンプル画像は第1サンプル画像であり、現在のサンプル画像グループ以外のサンプル画像グループのサンプル画像は第2サンプル画像である、ステップを含む
ことを特徴とする請求項2に記載の方法。
【請求項4】
前記候補画像領域にそれぞれ対応する第1関係度を取得するステップは、
前のラウンドのモデルトレーニングの時に同一サンプル画像グループを使用してモデルトレーニングを行って得られたモデルを、更新された第1検出モデルとして使用し、更新された第1検出モデルによって前記候補画像領域にそれぞれ対応する第1関係度を取得するステップを含み、
前記候補画像領域にそれぞれ対応する第2関係度を取得するステップは、
現在のラウンドのモデルトレーニングの時に現在のサンプル画像グループのフォワードサンプルを使用してモデルトレーニングを行って得られたモデルを、更新された第2検出モデルとして使用し、更新された第2検出モデルによって前記候補画像領域にそれぞれ対応する第2関係度を取得するステップを含む
ことを特徴とする請求項3に記載の方法。
【請求項5】
前記方法は、
ターゲット画像分類モデルを取得するステップと、
前記サンプル画像集合内の各サンプル画像が対応する候補画像領域をそれぞれ前記ターゲット画像分類モデルに入力し、各サンプル画像の候補画像領域がターゲットオブジェクトの所在する領域である第3関係度を出力するステップと、
前記第3関係度に基づいて前記候補画像領域集合からターゲットオブジェクトを含む第2画像領域をスクリーニングするステップと、
前記第2画像領域に基づいてモデルトレーニングを行い、第1ラウンドでモデルトレーニングして得られた検出モデルを得るステップと、をさらに含む
ことを特徴とする請求項4に記載の方法。
【請求項6】
前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするステップは、
前記候補画像領域集合から、前記関係度変化値が予め設定された変化条件を満たす候補画像領域を、ターゲットオブジェクトを含むターゲット画像領域としてスクリーニングするステップであって、前記予め設定された変化条件は、関係度変化値が予め設定された順位の前にソートされること、又は前記関係度変化値が予め設定された変化値より大きいことのうちの少なくとも1つを含み、前記関係度変化値は降順でソートされる、ステップを含む
ことを特徴とする請求項1に記載の方法。
【請求項7】
前記第1関係度及び前記第2関係度に基づいて関係度変化値を得るステップは、
前記第2関係度から前記第1関係度を引き算し又は前記第2関係度を前記第1関係度で割り算し、関係度変化値を得るステップを含む
ことを特徴とする請求項1又は6に記載の方法。
【請求項8】
前記方法は、
前記ターゲット画像領域と前記候補画像領域との画像重畳度を取得するステップと、
前記画像重畳度が第1の予め設定された重畳度より大きい候補画像領域を第3画像領域として取得するステップと、をさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記第3画像領域及び前記ターゲット画像領域を正例のサンプル画像領域とし、前記正例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップを含む
ことを特徴とする請求項1に記載の方法。
【請求項9】
前記方法は、
前記ターゲット画像領域と前記候補画像領域との画像重畳度を取得するステップと、
前記画像重畳度が第2の予め設定された重畳度よりも小さい候補画像領域を第4画像領域として取得するステップと、をさらに含み、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップは、
前記第4画像領域を負例のサンプル画像領域として使用し、前記ターゲット画像領域グループを正例のサンプル画像領域として使用するステップと、
前記正例のサンプル画像領域及び前記負例のサンプル画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るステップと、を含む
ことを特徴とする請求項1に記載の方法。
【請求項10】
前記方法は、
検出対象画像を取得し、前記検出対象画像を複数の第1画像領域に分割するステップと、
各前記第1画像領域をそれぞれ前記ターゲット検出モデルに入力し、各前記第1画像領域にターゲットオブジェクトが含まれるターゲット関係度を取得するステップと、
前記ターゲット関係度に基づき、前記複数の第1画像領域からターゲットオブジェクトを含む画像領域をスクリーニングして、前記検出対象画像内のターゲットオブジェクトの位置を得るステップと、をさらに含む
ことを特徴とする請求項1に記載の方法。
【請求項11】
検出モデルのトレーニング装置であって、
第1サンプル画像を分割して得られた候補画像領域集合を取得するように構成される候補画像領域集合取得モジュールであって、前記候補画像領域集合に複数の候補画像領域が含まれる、候補画像領域集合取得モジュールと、
前記候補画像領域にそれぞれ対応する第1関係度を取得するように構成される第1関係度取得モジュールであって、前記第1関係度は、前記候補画像領域をそれぞれ第1検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第1検出モデルは、前記第1サンプル画像に基づいてモデルトレーニングを行って得られるものである、第1関係度取得モジュールと、
前記候補画像領域にそれぞれ対応する第2関係度を取得するように構成される第2関係度取得モジュールであって、前記第2関係度は、前記候補画像領域をそれぞれ第2検出モデルに入力し、出力される前記候補画像領域がターゲットオブジェクトを含む関係度であり、前記第2検出モデルは、第2サンプル画像を使用して前記第1検出モデルに対してモデルトレーニングを行って得られるものである、第2関係度取得モジュールと、
前記第1関係度及び前記第2関係度に基づいて関係度変化値を得、前記関係度変化値に基づいて前記候補画像領域集合から、ターゲットオブジェクトを含むターゲット画像領域をスクリーニングするように構成されるターゲット画像領域スクリーニングモジュールと、
前記ターゲット画像領域に基づいてモデルトレーニングを行い、ターゲット検出モデルを得るように構成される第1モデルトレーニングモジュールであって、前記ターゲット検出モデルは検出対象画像に対してオブジェクト検出を行うために用いられる、第1モデルトレーニングモジュールと、を備える装置。
【請求項12】
コンピュータデバイスであって、メモリとプロセッサとを備え、前記メモリにコンピュータ読み取り可能な命令が記憶され、前記コンピュータ読み取り可能な命令は、前記プロセッサによって実行されると、前記プロセッサに請求項1から10のいずれか一項に記載の方法のステップを実行させる、コンピュータデバイス。
【請求項13】
コンピュータに請求項1から10のいずれか一項に記載の方法のステップを実行させる、コンピュータプログラム。
【国際調査報告】