(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-13
(45)【発行日】2022-10-21
(54)【発明の名称】深層モデルの訓練方法及びその装置、電子機器並びに記憶媒体
(51)【国際特許分類】
G06N 20/00 20190101AFI20221014BHJP
G06N 3/08 20060101ALI20221014BHJP
【FI】
G06N20/00
G06N3/08
(21)【出願番号】P 2021507067
(86)(22)【出願日】2019-10-30
(86)【国際出願番号】 CN2019114493
(87)【国際公開番号】W WO2020134532
(87)【国際公開日】2020-07-02
【審査請求日】2021-02-09
(31)【優先権主張番号】201811646430.5
(32)【優先日】2018-12-29
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】321006888
【氏名又は名称】ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】リー ジアフイ
【審査官】北川 純次
(56)【参考文献】
【文献】国際公開第2018/213205(WO,A1)
【文献】特開2015-114172(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06N 3/02-3/08
G06T 7/60
(57)【特許請求の範囲】
【請求項1】
深層学習モデルの訓練方法であって、
n(nは1以上の整数である)回訓練された訓練対象のモデルから出力された第n+1注釈情報を取得するステップと、
訓練データ及び前記第n+1注釈情報に基づいて第n+1訓練サンプルを生成するステップと、
前記第n+1訓練サンプルによって前記訓練対象のモデルに対してn+1回目の訓練を行うステップと、を含
み、
前記訓練データ及び前記第n+1注釈情報に基づいて第n+1訓練サンプルを生成する前記ステップは、
前記訓練データ、前記第n+1注釈情報、及び第1訓練サンプルに基づいて第n+1訓練サンプルを生成するステップ、
又は、
前記訓練データ、前記第n+1注釈情報、及び第n訓練サンプルに基づいて第n+1訓練サンプルを生成するステップであって、前記第n訓練サンプルは、前記訓練データと第1注釈情報から構成される第1訓練サンプル、及び最初のn-1回の訓練で得られた注釈情報と前記訓練サンプルからそれぞれ構成される第2訓練サンプル~第n-1訓練サンプルを含む、ステップを含む、深層学習モデルの訓練方法。
【請求項2】
前記方法は更に、
nがN未満であるか否かを判定するステップを含み、Nは前記訓練対象のモデルの最大訓練回数であり、
前記訓練対象のモデルから出力された第n+1注釈情報を取得する前記ステップは、
nがN未満である場合、前記訓練対象のモデルから出力された第n+1注釈情報を取得するステップを含む、請求項
1に記載の方法。
【請求項3】
前記方法は更に、
前記訓練データ及び前記訓練データの初期注釈情報を取得するステップと、
前記初期注釈情報に基づいて、前記第1注釈情報を生成するステップと、を含む、請求項
1に記載の方法。
【請求項4】
前記訓練データ及び前記訓練データの初期注釈情報を取得する前記ステップは、
複数の分割ターゲットが含まれている訓練画像及び前記分割ターゲットの外接枠を取得するステップを含み、
前記初期注釈情報に基づいて、前記第1注釈情報を生成する前記ステップは、
前記外接枠に基づいて、前記外接枠内に前記分割ターゲットの形状と一致する注釈輪郭を描画するステップを含む、請求項
3に記載の方法。
【請求項5】
前記初期注釈情報に基づいて、前記第1注釈情報を生成する前記ステップは、
前記外接枠に基づいて、重なり部分を有する2つの前記分割ターゲットの分割境界を生成するステップをさらに含む、請求項
4に記載の方法。
【請求項6】
前記外接枠に基づいて、前記外接枠内に前記分割ターゲットの形状と一致する注釈輪郭を描画する前記ステップは、
前記外接枠に基づいて、前記外接枠内に細胞形状と一致する前記外接枠の内接楕円を描画するステップを含む、請求項
4に記載の方法。
【請求項7】
深層学習モデルの訓練装置であって、
n(nは1以上の整数である)回訓練された訓練対象のモデルから出力された第n+1注釈情報を取得するように構成される注釈モジュールと、
訓練データ及び前記第n+1注釈情報に基づいて第n+1訓練サンプルを生成するように構成される第1生成モジュールと、
前記第n+1訓練サンプルによって前記訓練対象のモデルに対してn+1回目の訓練を行うように構成される訓練モジュールと、を備え
、
前記第1生成モジュールは、前記訓練データ、前記第n+1注釈情報、及び第1訓練サンプルに基づいて第n+1訓練サンプルを生成し、又は、前記訓練データ、前記第n+1注釈情報、及び第n訓練サンプルに基づいて第n+1訓練サンプルを生成するように構成され、前記第n訓練サンプルは、前記訓練データと第1注釈情報から構成される第1訓練サンプル、及び最初のn-1回の訓練で得られた注釈情報と前記訓練サンプルからそれぞれ構成される第2訓練サンプル~第n-1訓練サンプルを含む、深層学習モデルの訓練装置。
【請求項8】
コンピュータに、請求項1~
6のいずれか1項に記載の方法を実行させるためのコンピュータ実行可能な命令を記憶した、コンピュータ可読記憶媒体。
【請求項9】
電子機器であって、
メモリと、
前記メモリに接続され、前記メモリに記憶されたコンピュータ実行可能命令を実行することによって前記請求項1~
6のいずれか1項に記載の方法を実施するように構成されるプロセッサと、を備える、電子機器。
【請求項10】
コンピュータに、前記請求項1~
6のいずれか1項に記載の方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本開示は、出願番号が201811646430.5であり、出願日が2018年12月29日である中国特許出願に基づき提出され、当該中国特許出願に基づき優先権を主張し、当該中国特許出願の全ての内容を参照としてここに援用する。
【0002】
本開示は、情報技術分野に関するが、情報技術分野に限定されず、特に、深層モデルの訓練方法及びその装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
深層学習モデルは、訓練セットの訓練によって、一定の分類又は認識能力を持つことができる。前記訓練セットは、通常、訓練データ及び訓練データの注釈データを含む。しかし、一般に、データの注釈は人間によって手動で注釈する必要がある。純粋に手動で全ての訓練データを注釈すると、作業負担が大きく、効率が低く、かつ注釈過程でヒューマンエラーが存在する一方、高精度な注釈を実現する必要がある場合、例えば、画像分野の注釈を例とすると、画素レベルの分割を実現する必要があり、純粋に人間によって注釈することで画素レベルの分割を達成することは非常に難しく、かつ注釈の精度を確保することも難しい。
【0004】
そのため、純粋に人間によって注釈された訓練データに基づく深層学習モデルの訓練は訓練効率が低く、訓練されたモデルは、訓練データ自身の精度が低いため、モデルの分類又は認識能力の期待される精度を達成することができない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
これを鑑みて、本開示の実施例は、深層モデルの訓練方法及びその装置、電子機器並びに記憶媒体を提供することを期待している。
【課題を解決するための手段】
【0006】
本開示の技術案は以下のとおり実現される。
【0007】
本開示の実施例の第1態様は、深層学習モデルの訓練方法を提供し、
n(nは1以上の整数である)回訓練された訓練対象のモデルから出力された第n+1注釈情報を取得するステップと、
前記訓練データ及び前記第n+1注釈情報に基づいて第n+1訓練サンプルを生成するステップと、
前記第n+1訓練サンプルによって前記訓練対象のモデルに対してn+1回目の訓練を行うステップと、を含む。
【0008】
上記技術案に基づいて、前記訓練データ及び前記第n+1注釈情報に基づいて第n+1訓練サンプルを生成する前記ステップは、
前記訓練データ、前記第n+1注釈情報、及び第1訓練サンプルに基づいて第n+1訓練サンプルを生成するステップ、
又は、
前記訓練データ、前記第n+1注釈情報、及び第n訓練サンプルに基づいて第n+1訓練サンプルを生成するステップを含み、前記第n訓練サンプルは、前記訓練データと第1注釈情報から構成される第1訓練サンプル、及び最初のn-1回の訓練で得られた注釈情報と前記訓練サンプルからそれぞれ構成される第2訓練サンプル~第n-1訓練サンプルを含む。
【0009】
上記技術案に基づいて、前記方法は更に、
nがN未満であるか否かを判定するステップを含み、Nは前記訓練対象のモデルの最大訓練回数であり、
訓練対象のモデルから出力された第n+1注釈情報を取得する前記ステップは、
nがN未満である場合、前記訓練対象のモデルから出力された第n+1注釈情報を取得するステップを含む。
【0010】
上記技術案に基づいて、前記方法は更に、
前記訓練データ及び前記訓練データの初期注釈情報を取得するステップと、
前記初期注釈情報に基づいて、前記第1注釈情報を生成するステップと、を含む。
【0011】
上記技術案に基づいて、前記訓練データ及び前記訓練データの初期注釈情報を取得する前記ステップは、
複数の分割ターゲットが含まれている訓練画像及び前記分割ターゲットの外接枠を取得するステップを含み、
前記初期注釈情報に基づいて、前記第1注釈情報を生成する前記ステップは、
前記外接枠に基づいて、前記外接枠内に前記分割ターゲットの形状と一致する注釈輪郭を描画するステップを含む。
【0012】
上記技術案に基づいて、前記初期注釈情報に基づいて、前記第1注釈情報を生成する前記ステップは、
前記外接枠に基づいて、重なり部分を有する2つの前記分割ターゲットの分割境界を生成するステップをさらに含む。
【0013】
上記技術案に基づいて、前記外接枠に基づいて、前記外接枠内に前記分割ターゲットの形状と一致する注釈輪郭を描画する前記ステップは、
前記外接枠に基づいて、前記外接枠内に細胞形状と一致する前記外接枠の内接楕円を描画するステップを含む。
【0014】
本開示の実施例の第2態様は深層学習モデルの訓練装置を提供し、
n(nは1以上の整数である)回訓練された訓練対象のモデルから出力された第n+1注釈情報を取得するように構成される注釈モジュールと、
前記訓練データ及び前記第n+1注釈情報に基づいて第n+1訓練サンプルを生成するように構成される第1生成モジュールと、
前記第n+1訓練サンプルによって前記訓練対象のモデルに対してn+1回目の訓練を行うように構成される訓練モジュールと、を備える。
【0015】
上記技術案に基づいて、前記第1生成モジュールは、前記訓練データ、前記第n+1注釈情報、及び第1訓練サンプルに基づいて第n+1訓練サンプルを生成する、又は、前記訓練データ、前記第n+1注釈情報、及び第n訓練サンプルに基づいて第n+1訓練サンプルを生成するように構成され、前記第n訓練サンプルは、前記訓練データと第1注釈情報から構成される第1訓練サンプル、及び最初のn-1回の訓練で得られた注釈情報と前記訓練サンプルからそれぞれ構成される第2訓練サンプル~第n-1訓練サンプルを含む。
【0016】
上記技術案に基づいて、前記装置は更に、
nがN未満であるか否かを判定するように構成される判定モジュールを備え、Nは前記訓練対象のモデルの最大訓練回数であり、
前記注釈モジュールは、nがN未満である場合、前記訓練対象のモデルから出力された第n+1注釈情報を取得するように構成される。
【0017】
上記技術案に基づいて、前記装置は更に、
前記訓練データ及び前記訓練データの初期注釈情報を取得するように構成される取得モジュールと、
前記初期注釈情報に基づいて、前記第1注釈情報を生成するように構成される第2生成モジュールと、を備える。
【0018】
上記技術案に基づいて、前記取得モジュールは、複数の分割ターゲットが含まれている訓練画像及び前記分割ターゲットの外接枠を取得するように構成され、
前記第2生成モジュールは、前記外接枠に基づいて、前記外接枠内に前記分割ターゲットの形状と一致する注釈輪郭を描画するように構成される。
【0019】
上記技術案に基づいて、前記第1生成モジュールは、前記外接枠に基づいて、重なり部分を有する2つの前記分割ターゲットの分割境界を生成するように構成される。
【0020】
上記技術案に基づいて、前記第2生成モジュールは、前記外接枠に基づいて、前記外接枠内に細胞形状と一致する前記外接枠の内接楕円を描画するように構成される。
【0021】
本開示の実施例の第3態様は、コンピュータ記憶媒体を提供し、前記コンピュータ記憶媒体にコンピュータ実行可能命令が記憶されており、前記コンピュータ実行可能命令が実行されるときに、前述した技術案のいずれかに係る深層学習モデルの訓練方法を実施できる。
【0022】
本開示の実施例の第5態様は電子機器を提供し、
メモリと、
前記メモリに接続され、前記メモリに記憶されたコンピュータ実行可能命令を実行することによって前述技術案のいずれかに係る深層学習モデルの訓練方法を実施できるように構成されるプロセッサと、を備える。
【0023】
本開示の実施例の第5態様はコンピュータプログラム製品を提供し、前記プログラム製品はコンピュータ実行可能命令を含み、前記コンピュータ実行可能命令が実行されるときに、前述技術案のいずれかに係る深層学習モデルの訓練方法を実施できる。
【発明の効果】
【0024】
本開示の実施例に係る技術案によれば、深層学習モデルを使用して、前回の訓練が完了した後に訓練データに注釈付けて注釈情報を取得し、次回の訓練の訓練サンプルとして当該注釈情報を使用して、初期に注釈された(例えば、初期の人間による注釈又は機器による注釈)非常に少ない訓練データを利用してモデル訓練を行うことができ、次に、徐々に収束する訓練対象のモデルの自身認識により出力された注釈データを、次回の訓練サンプルとして使用する。訓練対象のモデルの前回訓練過程では、モデルパラメータが正しく注釈された大部分のデータに基づいて生成され、注釈が正しくない又は注釈精度が低い少量のデータが訓練対象のモデルのモデルパラメータにほとんど影響を与えないので、このように複数回反復して、訓練対象のモデルの注釈情報はますます正確になり、訓練結果もますますよくなる。モデルが自身の注釈情報を利用して訓練サンプルを構築するため、人間によって手動で注釈する等の初期注釈のデータ量を減少させ、人間によって手動で注釈する等の初期注釈による低効率及びヒューマンエラーを減少させ、モデルの訓練速度が速くかつ訓練効果が高いという特徴を有し、この方式で訓練される深層学習モデルは、分類又は認識精度が高いという特徴を有する。
【図面の簡単な説明】
【0025】
【
図1】
図1は本開示の実施例に係る第1の深層学習モデルの訓練方法のフローチャートである。
【
図2】
図2は本開示の実施例に係る第2の深層学習モデルの訓練方法のフローチャートである。
【
図3】
図3は本開示の実施例に係る第3の深層学習モデルの訓練方法のフローチャートである。
【
図4】
図4は本開示の実施例に係る深層学習モデルの訓練装置の構造模式図である。
【
図5】
図5は本開示の実施例に係る訓練セットの変化模式図である。
【
図6】
図6は本開示の実施例に係る電子機器の構造模式図である。
【発明を実施するための形態】
【0026】
以下、明細書の図面及び具体的な実施例を参照しながら本開示の技術案をさらに詳しく説明する。
【0027】
図1に示すように、本実施例は深層学習モデルの訓練方法を提供する。当該方法は、
n回訓練された訓練対象のモデルから出力された第n+1注釈情報を取得するステップS110と、
前記訓練データ及び前記第n+1注釈情報に基づいて第n+1訓練サンプルを生成するステップS120と、
前記第n+1訓練サンプルによって前記訓練対象のモデルに対してn+1回目の訓練を行うステップS130と、を含む。
【0028】
本実施例に係る深層学習モデルの訓練方法は、様々な電子機器、例えば、様々なビッグデータモデル訓練サーバに用いることができる。
【0029】
1回目の訓練を行うとき、訓練対象のモデルのモデル構造を取得する。訓練対象のモデルがニューラルネットワークであることを例として説明する。まず、ニューラルネットワークのネットワーク構造を特定する必要があり、当該ネットワーク構造は、ネットワークの層数、各層に含まれるノード数、層間のノードの接続関係、及び初期のネットワークパラメータを含んでもよい。当該ネットワークパラメータは、ノードの重み及び/又は閾値を含む。
【0030】
第1訓練サンプルを取得し、前記第1訓練サンプルは、訓練データ及び訓練データの第1注釈データを含んでもよく、画像分割を例とすると、前記訓練データは画像であり、前記第1注釈データは画像分割ターゲット及び背景のマスク画像であってもよく、本開示の実施例では、全ての第1注釈情報及び第2注釈情報は、画像の注釈情報を含んでもよいが、それらに限定されない。当該画像は医療画像等を含んでもよい。当該医療画像は、平面(2D)医療画像、又は複数の2D画像によって形成された画像配列からなる立体(3D)医療画像であってもよい。各前記第1注釈情報及び前記第2注釈情報は、医療画像の器官及び/又は組織の注釈であってもよく、細胞内の異なる細胞構造の注釈、例えば、細胞核の注釈であってもよい。いくつかの実施例では、前記画像は医療画像に限定されず、交通道路分野の交通道路状況の画像にも適用できる。
【0031】
第1訓練サンプルを利用して訓練対象のモデルに対して1回目の訓練を行う。ニューラルネットワーク等の深層学習モデルが訓練されると、深層学習モデルのモデルパラメータ(例えば、ニューラルネットワークのネットワークパラメータ)が変更され、モデルパラメータが変更された訓練対象のモデルを利用して画像を処理して注釈情報を出力し、当該注釈情報と初期の第1注釈情報を比較し、比較の結果によって深層学習モデルの現在の損失値を計算し、現在の損失値が損失閾値未満である場合、今回の訓練を停止することができる。
【0032】
本実施例のステップS110では、まず、n回訓練された訓練対象のモデルを利用して訓練データを処理し、このとき、訓練対象のモデルは出力を取得し、当該出力は、前記第n+1注釈データであり、当該第n+1注釈データを訓練データに対応させて、訓練サンプルを形成する。
【0033】
いくつかの実施例では、訓練データ及び第n+1注釈情報を直接第n+1訓練サンプルとし、訓練対象のモデルのn+1回目の訓練サンプルとして使用してもよい。
【0034】
別のいくつかの実施例では、訓練データ、第n+1注釈データ、及び第1訓練サンプルをともに訓練対象のモデルのn+1回目の訓練サンプルとしてもよい。
【0035】
前記第1訓練サンプルは訓練対象のモデルに対して1回目の訓練を行う訓練サンプルであり、第M訓練サンプルは、訓練対象のモジュールに対してM回目の訓練を行う訓練サンプルであり、Mは正整数である。
【0036】
ここでの第1訓練サンプルは、初期に取得した訓練データ及び訓練データの第1注釈情報であってもよく、ここでの第1注釈情報は、人間によって手動で注釈した情報であってもよい。
【0037】
別のいくつかの実施例では、訓練データ及び第n+1注釈情報について、この訓練サンプルとn回目の訓練時に採用する第n訓練サンプルとの和集合が第n+1訓練サンプルを構成する。
【0038】
要するに、第n+1訓練サンプルを生成する上記3つの方式はいずれも、機器がサンプルを自動的に生成する方式である。このように、ユーザが手動で又は他の機器で注釈してn+1回目の訓練の訓練サンプルを取得する必要がなく、人間によって手動で注釈する等のサンプル初期注釈にかかる時間を減少させ、深層学習モデルの訓練速度を向上させ、かつ、手動注釈が正しくない又は正確ではないためモデル訓練後の深層学習モデルの分類又は認識結果が不正確になる現象を減少させ、訓練後の深層学習モデルの分類又は認識結果の精度を向上させる。
【0039】
本実施例では、1回の訓練を完了することは、訓練対象のモデルが訓練セット内の各訓練サンプルに対して少なくとも1回の学習を完了することを含む。
【0040】
ステップS130では、第n+1訓練サンプルを利用して訓練対象のモデルに対してn+1回目の訓練を行う。
【0041】
本実施例では、初期注釈に少量のエラーがある場合、モデル訓練過程で訓練サンプルの共通特徴に注意が払われるので、モデル訓練に対するこれらのエラーの影響はますます小さくなり、それにより、モデルの精度はますます高くなる。
【0042】
例えば、前記訓練データがS枚の画像であることを例とすると、第1訓練サンプルは、S枚の画像及びこのS枚の画像の人間による注釈結果であってもよく、S枚の画像のうち、1枚の画像の注釈画像精度が十分でない場合、訓練対象のモデルの1回目の訓練過程で、余剰S-1枚の画像の注釈構造精度が期待される閾値に達するので、このS-1枚の画像及びそれらに対応する注釈データは訓練対象のモデルのモデルパラメータにより大きな影響を与える。本実施例では、前記深層学習モデルは、ニューラルネットワークを含むが、それらに限定されず、前記モデルパラメータは、ニューラルネットワークのネットワークノードの重み及び/又は閾値を含むが、それらに限定されない。前記ニューラルネットワークは、様々なタイプのニューラルネットワーク、例えば、U-net 又はV-netであってもよい。前記ニューラルネットワークは、訓練データに対して特徴抽出を行う符号化部分、及び抽出された特徴に基づいて意味情報を取得する復号部分を含んでもよい。
【0043】
例えば、符号化部分は、画像の分割ターゲットが位置する領域等に対して特徴抽出を行って、分割ターゲットと背景を区別するマスク画像を得ることができ、デコーダはマスク画像に基づいていくつかの意味情報を得ることができ、例えば、画素統計等の方式でターゲットのオミックス特徴等を取得する。
【0044】
当該オミックス特徴は、ターゲットの面積、体積、形状等の形態的特徴、及び/又は、階調値に基づいて形成される階調値特徴等を含んでもよい。
【0045】
前記階調値特徴は、ヒストグラムの統計的特徴等を含んでもよい。
【0046】
要するに、本実施例では、1回目の訓練された訓練対象のモデルがS枚の画像を認識するとき、初期注釈精度が十分でないその画像による訓練対象のモデルのモデルパラメータに対する影響度は、別のS-1枚の画像よりも小さい。訓練対象のモデルは他のS-1枚の画像から学習したネットワークパラメータを利用して注釈し、このとき、初期注釈精度が十分でない画像の注釈精度は、他のS-1枚の画像の注釈精度と揃うようになり、したがって、この画像に対応する第2注釈情報は、元の第1注釈情報よりも精度が向上する。このように、構成される第2訓練セットは、S枚の画像と元の第1注釈情報から構成される訓練データ、及びS枚の画像と訓練対象のモデルが自動的に注釈する第2注釈情報から構成される訓練データを含む。したがって、本実施例では、訓練対象のモデルは訓練過程で正しい又は高精度な大部分の注釈情報に基づいて学習し、初期注釈精度が十分でない又は正しくない訓練サンプルの悪影響を徐々に抑制し、それにより、この方式で深層学習モデルの自動反復を行い、訓練サンプルの人間による注釈を大幅に減少させるだけでなく、自身反復の特性によって訓練精度を徐々に向上させることができ、訓練後の訓練対象のモデルの精度が期待される効果に達する。
【0047】
上記の例では、前記訓練データは画像を例とするが、いくつかの実施例では、前記訓練データは、画像以外の音声素片、前記画像以外のテキスト情報等であってもよく、要するに、前記訓練データは複数の形態を有し、上記のいずれかに限定されない。
【0048】
いくつかの実施例では、
図2に示すように、前記方法は、
nがN未満であるか否かを判定するステップS100を含み、Nは前記訓練対象のモデルの最大訓練回数である。
【0049】
前記ステップS110は、
nがN未満である場合、訓練対象のモデルが訓練対象のモデルから出力された第n+1注釈情報を取得するステップを含んでもよい。
【0050】
本実施例では、第n+1訓練セットを構築する前に、まず、訓練対象のモデルの現在訓練回数が所定の最大訓練回数Nに達するか否かを判定し、達しない場合のみ、第n+1注釈情報を生成して、第n+1訓練セットを構築し、そうでない場合、モデル訓練が完了し前記深層学習モデルの訓練を停止すると判定する。
【0051】
いくつかの実施例では、前記Nの値は、4、5、6、7又は8等の経験値又は統計値であってもよい。
【0052】
いくつかの実施例では、前記Nの値の範囲は、3~10であってもよく、前記Nの値は、訓練機器がヒューマンコンピュータインタラクティブインタフェースから受信したユーザ入力値であってもよい。
【0053】
別のいくつかの実施例では、訓練対象のモデルの訓練を停止するか否かを判定することは、
テストセットを利用して前記訓練対象のモデルのテストを行い、テスト結果により、前記訓練対象のモデルによるテストセットのテストデータに対する注釈結果の精度が特定の値に達すると表明する場合、前記訓練対象のモデルの訓練を停止し、そうでない場合、前記ステップS110に進んで次回の訓練に進むことを含んでもよい。このとき、前記テストセットは、正確に注釈されたデータセットであってもよい。したがって、訓練対象のモデルの各回の訓練結果を測定して、訓練対象のモデルの訓練を停止するか否かを判定することに用いることができる。
【0054】
いくつかの実施例では、
図3に示すように、前記方法は、
前記訓練データ及び前記訓練データの初期注釈情報を取得するステップS210と、
前記初期注釈情報に基づいて、前記第1注釈情報を生成するステップS220と、を含む。
【0055】
本実施例では、前記初期注釈情報は、前記訓練データの元の注釈情報であってもよく、当該元の注釈情報は、人間によって手動で注釈した情報であってもよく、他の機器で注釈した情報であってもよい。例えば、一定の注釈能力を持つ他の機器で注釈した情報であってもよい。
【0056】
本実施例では、訓練データ及び初期注釈情報を取得した後、初期注釈情報に基づいて第1注釈情報を生成する。ここでの第1注釈情報は、前記初期注釈情報及び/又は前記初期注釈情報に基づいて生成された精細化された第1注釈情報を直接含んでもよい。
【0057】
例えば、訓練データが画像であり、画像に細胞イメージが含まれている場合、前記初期注釈情報は前記細胞イメージがある位置を大体注釈する注釈情報であるが、前記第1注釈情報は前記細胞がある位置を正確に指示する注釈情報であり、要するに、本実施例では、前記第1注釈情報による分割対象に対する注釈精度は前記初期注釈情報の精度よりも高くなり得る。
【0058】
このように、人間によって前記初期注釈情報の注釈を行っても、人間による注釈の難しさを低減させ、人間による注釈を簡略化する。
【0059】
例えば、細胞イメージを例とし、細胞の楕円球体形状のため、2次元平面画像内の細胞の外輪郭は一般に楕円形になる。前記初期注釈情報は医師が手動で描画した細胞の外接枠であってもよい。前記第1注釈情報は、訓練機器が手動で注釈された外接枠に基づいて生成した内接楕円であってもよい。内接楕円が外接枠に比べて、細胞イメージで細胞イメージに属しない画素の個数を減らし、したがって、第1注釈情報の精度は前記初期注釈情報の精度よりも高い。
【0060】
さらに、前記ステップS210は、複数の分割ターゲットが含まれている訓練画像及び前記分割ターゲットの外接枠を取得するステップを含んでもよく、
前記ステップS220は、前記外接枠に基づいて、前記外接枠内に前記分割ターゲットの形状と一致する注釈輪郭を描画するステップを含んでもよい。
【0061】
いくつかの実施例では、分割ターゲットの形状と一致する前記注釈輪郭は前述楕円形であってもよく、円形、又は三角形、又は他の対辺形等の分割ターゲットの形状と一致する形状であってもよく、楕円形に限定されない。
【0062】
いくつかの実施例では、前記注釈輪郭は前記外接枠に内接する。前記外接枠は矩形枠であってもよい。
【0063】
いくつかの実施例では、前記ステップS220は、
前記外接枠に基づいて、重なり部分を有する2つの前記分割ターゲットの分割境界を生成するステップをさらに含む。
【0064】
いくつかの画像では、2つの分割ターゲットは重なる場合があり、本実施例では、前記第1注釈情報は、重なる2つの分割ターゲット間の分割境界をさらに含む。
【0065】
例えば、2つの細胞イメージについて、細胞イメージAが細胞イメージBに重なる場合、細胞イメージAの細胞境界が描画され、細胞イメージBの細胞境界が描画されると、2つの細胞境界が交差して2つの細胞イメージ間の共通集合を形成する。本実施例では、細胞イメージAと細胞イメージB間の位置関係に基づいて、細胞イメージA内に位置する細胞イメージBの細胞境界の部分を消去し、細胞イメージBに位置する細胞イメージAの部分を前記分割境界とすることができる。
【0066】
要するに、本実施例では、前記ステップS220は、2つの分割ターゲットの位置関係を利用して、両者の重なり部分に分割境界を描画するステップを含んでもよい。
【0067】
いくつかの実施例では、分割境界を描画するとき、重なり境界を有する2つの分割ターゲットの一方の境界を修正することによって実現することができる。境界を強調するために、画素膨張の方式で、境界を太くすることができる。例えば、前記重なり部分で細胞イメージBの方向に細胞イメージAの細胞境界を所定の画素数、例えば、1つ以上の画素だけ拡張し、重なり部分の細胞イメージAの境界を太くすることによって、太くされた当該境界は分割境界として認識される。
【0068】
いくつかの実施例では、前記外接枠に基づいて、前記外接枠内に前記分割ターゲットの形状と一致する注釈輪郭を描画する前記ステップは、前記外接枠に基づいて、前記外接枠内に細胞形状と一致する前記外接枠の内接楕円を描画するステップを含む。
【0069】
本実施例では、分割ターゲットは細胞イメージであり、前記注釈輪郭は前記細胞形状と一致する外接枠の内接楕円を含む。
【0070】
本実施例では、前記第1注釈情報は、
前記細胞イメージの細胞境界(前記内接楕円に対応する)、
重なる細胞イメージ間の分割境界の少なくとも1つを含む。
【0071】
いくつかの実施例では、前記分割ターゲットが細胞ではなく他のターゲットである場合、例えば、分割ターゲットが集合写真の顔である場合、顔の外接枠は依然として矩形枠であってもよいが、このとき、顔の注釈境界は卵型顔の境界、丸顔の境界等である可能性があり、このとき、前記形状は前記内接楕円に限定されない。
【0072】
勿論、以上は単なる例である。要するに、本実施例では、前記訓練対象のモデルは、自身の訓練過程で自身の前回の訓練結果を利用して訓練データの注釈情報を出力し、次回の訓練セットを構築し、複数回の反復によってモデル訓練を完了し、大量の訓練サンプルを手動で注釈する必要がなく、訓練速度が速く、反復によって訓練精度を向上させることができる。
【0073】
図5に示すように、本実施例は深層学習モデルの訓練装置を提供する。当該方法は、
n(nは1以上の整数である)回訓練された訓練対象のモデルから出力された第n+1注釈情報を取得するように構成される注釈モジュール110と、
前記訓練データ及び前記第n+1注釈情報に基づいて第n+1訓練サンプルを生成するように構成される第1生成モジュール120と、
前記第n+1訓練サンプルによって前記訓練対象のモデルに対してn+1回目の訓練を行うように構成される訓練モジュール130と、を備える。
【0074】
いくつかの実施例では、前記注釈モジュール110、第1生成モジュール120及び訓練モジュール130はプログラムモジュールであってもよく、前記プログラムモジュールがプロセッサによって実行されるときに、前述第n+1注釈情報の生成、第n+1訓練セットの構成及び訓練対象のモデルの訓練が実現され得る。
【0075】
別のいくつかの実施例では、前記注釈モジュール110、第1生成モジュール120及び訓練モジュール130は、ソフトウェア及びハードウェアを組み合わせたモデルであってもよく、前記ソフトウェア及びハードウェアを組み合わせたモジュールは、様々なプログラマブルアレイ、例えば、フィールドプログラマブルアレイ又は複雑なプログラマブルアレイであってもよい。
【0076】
別のいくつかの実施例では、前記注釈モジュール110、第1生成モジュール120及び訓練モジュール130は純粋なハードウェアモジュールであってもよく、前記純粋なハードウェアモジュールは特定用途向け集積回路であってもよい。
【0077】
いくつかの実施例では、前記第1生成モジュール120は、前記訓練データ、前記第n+1注釈情報、及び第1訓練サンプルに基づいて第n+1訓練サンプルを生成する、又は、前記訓練データ、前記第n+1注釈情報、及び第n訓練サンプルに基づいて第n+1訓練サンプルを生成するように構成され、前記第n訓練サンプルは、前記訓練データと第1注釈情報から構成される第1訓練サンプル、及び最初のn-1回の訓練で得られた注釈情報と前記訓練サンプルからそれぞれ構成される第2訓練サンプル~第n-1訓練サンプルを含む。
【0078】
いくつかの実施例では、前記装置は、
nがN未満であるか否かを判定するように構成される判定モジュールを備え、Nは前記訓練対象のモデルの最大訓練回数であり、
前記注釈モジュール110は、nがN未満である場合、訓練対象のモデルが前記訓練対象のモデルから出力された第n+1注釈情報を取得するように構成される。
【0079】
いくつかの実施例では、前記装置は、
前記訓練データ及び前記訓練データの初期注釈情報を取得するように構成される取得モジュールと、
前記初期注釈情報に基づいて、前記第1注釈情報を生成するように構成される第2生成モジュールと、を備える。
【0080】
いくつかの実施例では、前記取得モジュールは、複数の分割ターゲットが含まれている訓練画像及び前記分割ターゲットの外接枠を取得するように構成され、
前記初期注釈情報に基づいて、前記第1注釈情報を生成する前記ステップは、
前記外接枠に基づいて、前記外接枠内に前記分割ターゲットの形状と一致する注釈輪郭を描画するステップを含む。
【0081】
いくつかの実施例では、前記第1生成モジュール120は、前記外接枠に基づいて、重なり部分を有する2つの前記分割ターゲットの分割境界を生成するように構成される。
【0082】
いくつかの実施例では、前記第2生成モジュールは、前記外接枠に基づいて、前記外接枠内に細胞形状と一致する前記外接枠の内接楕円を描画するように構成される。
【0083】
以下、上記実施例を参照して1つの具体的な例を提供する。
【0084】
示例1
本例は深層学習モデルの自己学習型の弱教師学習方法を提供する。
【0085】
図5の各オブジェクトを囲む矩形枠を入力として、自己学習を行い、当該オブジェクト及び他の注釈なしオブジェクトの画素分割結果を出力することができる。
【0086】
細胞分割を例として、最初に、図には一部の細胞を囲む矩形注釈がある。観察により、ほとんどの細胞が楕円であると発見し、それで矩形に最大の内接楕円を描画し、異なる楕円の間に分割線を描画し、楕円のエッジにも分割線を描画して、初期教師信号とする。ここでの教師信号は、訓練セット内の訓練サンプルであり、
1つの分割モデルを訓練する。
【0087】
この分割モデルはこの図で予測し、得た予測図及び初期注釈図を和集合にして、新しい教師信号とし、当該分割モデルを繰り返し訓練する。
【0088】
観測により、図の分割結果がますますよくなっていると発見する。
【0089】
図5に示すように、元の画像を注釈して1つのマスク画像を得て第1訓練セットを構築し、第1訓練セットを利用して1回目の訓練を行い、訓練した後、深層学習モデルを利用して画像認識を行って第2注釈情報を得、第2注釈情報に基づいて第2訓練セットを構築する。第2訓練セットを利用して2回目の訓練を完了した後に第3注釈情報を出力し、第3注釈情報に基づいて第3訓練セットを得る。このように反復によって複数回訓練した後に訓練を停止する。
【0090】
関連技術では、1回目の分割結果の確率図を考慮し、ピークや平坦領域等を分析し、次に領域成長等を行うことは常に複雑であり、閲覧者にとって、再現作業負担が大きく、実現が困難である。本例に係る深層学習モデルの訓練方法は、出力された分割確率図に対していかなる計算を行わず、直接注釈図と和集合にし、次にモデルを訓練し続け、この過程は簡単に実現できる。
【0091】
図6に示すように、本開示の実施例は電子機器を提供する。当該電子機器は、
情報を記憶するように構成されるメモリと、
前記メモリに接続され、前記メモリに記憶されたコンピュータ実行可能命令を実行することによって、前述1つ又は複数の技術案に係る深層学習モデルの訓練方法、例えば、
図1~
図3に示された方法の1つ又は複数を実現できるように構成されるプロセッサと、を備える。
【0092】
当該メモリは様々なタイプのメモリであってもよく、ランダムメモリ、読み出し専用メモリ、フラッシュメモリ等であってもよい。前記メモリは、情報を記憶する、例えば、コンピュータ実行可能命令等を記憶するように構成される。前記コンピュータ実行可能命令は、様々なプログラム命令、例えば、ターゲットプログラム命令及び/又はソースプログラム命令等であってもよい。
【0093】
前記プロセッサは、様々なタイプのプロセッサ、例えば、中央処理装置、マイクロプロセッサ、デジタル信号プロセッサ、プログラマブルアレイ、デジタル信号プロセッサ、特定用途向け集積回路又は画像プロセッサ等であってもよい。
【0094】
前記プロセッサはバスを介して前記メモリに接続され得る。前記バスは集積回路バス等であってもよい。
【0095】
いくつかの実施例では、前記端末機器は通信インタフェースをさらに含んでもよい。当該通信インタフェースは、ネットワークインタフェース、例えば、ローカルエリアネットワークインタフェース、送受信アンテナ等を含んでもよい。前記通信インタフェースは同様に、前記プロセッサに接続され、情報を送受信できるように構成される。
【0096】
いくつかの実施例では、前記電子機器はカメラをさらに含み、当該カメラは様々な画像、例えば、医療映像等を収集することができる。
【0097】
いくつかの実施例では、前記端末機器はヒューマンコンピュータインタラクティブインタフェースをさらに含み、例えば、前記ヒューマンコンピュータインタラクティブインタフェースは、様々な入出力機器、例えば、キーボード、タッチパネル等を含んでもよい。
【0098】
本開示の実施例はコンピュータ記憶媒体を提供する。前記コンピュータ記憶媒体には、コンピュータ実行可能コードが記憶されており、前記コンピュータ実行可能コードが実行されるときに、前述1つ又は複数の技術案に係る深層学習モデルの訓練方法、例えば、
図1~
図3に示された方法の1つ又は複数を実施できる。
【0099】
前記記憶媒体は、モバイルストレージデバイス、読み出し専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる様々な媒体を含む。前記記憶媒体は非一時的な記憶媒体であってもよい。
【0100】
本開示の実施例はコンピュータプログラム製品を提供する。前記コンピュータプログラム製品は、コンピュータ実行可能命令を含み、前記コンピュータ実行可能命令が実行されるときに、前述任意の実施例に係る深層学習モデルの訓練方法、例えば、
図1~
図3に示された方法の1つ又は複数を実施できる。
【0101】
本開示のいくつかの実施例では、開示された機器及び方法は、他の方式で実現できることを理解されるべきである。上記説明された機器実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、ロジック機能の分割だけであり、実際の実現時に別の分割方式でもよく、例えば、複数のユニット又は構成要素を組み合わせてもよく、又は別のシステムに集積してもよく、又は一部の特徴を無視してもよく、又は実行しなくてもよい。また、図示又は検討される各構成部分の結合、又は直接結合、又は通信接続は、あるインタフェース、機器又はユニットを介した間接結合又は通信接続であってもよく、電気的、機械的又は他の形態のものであってもよい。
【0102】
上記別々の部材として説明されたユニットは、物理的に分離されてもよく、物理的に分離されなくてもよく、ユニットとして示される部材は、物理ユニットであってもよく、物理ユニットでなくてもよく、即ち、1つの場所に位置してもよく、複数のネットワークユニットに分布してもよく、実際の必要に応じてそのうちの一部又は全部ユニットを選択して本実施例の技術案の目的を実現することができる。
【0103】
また、本開示の各実施例の各機能ユニットは全て、1つの処理モジュールに集積されてもよく、各ユニットはそれぞれ単独で1つのユニットとしてもよく、2つ以上のユニットは1つのユニットに集積されてもよく、上記集積されたユニットは、ハードウェアの形態で実現されてもよく、ハードウェアにソフトウェア機能ユニットを付加した形態で実現されてもよい。
【0104】
本開示の実施例はコンピュータプログラム製品を提供する。当該コンピュータプログラム製品はコンピュータ実行可能命令を含み、当該コンピュータ実行可能命令が実行されるときに、上記実施例の深層モデルの訓練方法を実施できる。
【0105】
当業者は理解すべきであるように、上記方法実施例を実現する全部又は一部のステップは、プログラムによって関連するハードウェアに命令を実行して完了でき、前述プログラムはコンピュータ可読記憶媒体に記憶でき、当該プログラムを実行するとき、上記方法実施例のステップを実行する。前述記憶媒体は、モバイルストレージデバイス、読み出し専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる様々な媒体を含む。
【0106】
以上は、本開示の実施形態に過ぎず、本開示の保護範囲はそれらに限定されず、当業者であれば、本開示の技術範囲内に容易に想到し得る変化や置換は全て本開示の保護範囲内に含まれる。したがって、本開示の保護範囲は特許請求の範囲の保護範囲を基準にする。