(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-04-20
(45)【発行日】2023-04-28
(54)【発明の名称】画像分類モデルの訓練方法、画像処理方法及び装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20230421BHJP
G06N 20/00 20190101ALI20230421BHJP
G06N 3/02 20060101ALI20230421BHJP
【FI】
G06T7/00 350C
G06N20/00 130
G06N3/02
(21)【出願番号】P 2021522979
(86)(22)【出願日】2019-12-23
(86)【国際出願番号】 CN2019127394
(87)【国際公開番号】W WO2021093096
(87)【国際公開日】2021-05-20
【審査請求日】2021-04-26
(31)【優先権主張番号】201911097069.X
(32)【優先日】2019-11-11
(33)【優先権主張国・地域又は機関】CN
【前置審査】
(73)【特許権者】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】タン ジンルー
(72)【発明者】
【氏名】ワン チャンバオ
(72)【発明者】
【氏名】リー チュエンチュエン
【審査官】▲広▼島 明芳
(56)【参考文献】
【文献】特開2017-162456(JP,A)
【文献】中国特許出願公開第109829399(CN,A)
【文献】国際公開第2019/150813(WO,A1)
【文献】平松 侑樹,外1名,Attention moduleを用いた細胞画像のセグメンテーション,電子情報通信学会技術研究報告 Vol.118 No.412 [online],日本,一般社団法人電子情報通信学会,2019年01月15日,第118巻
【文献】Linhui Li, et al.,Traffic Scene Segmentation Based on RGB-D Image and Deep Learning,IEEE Transactions on Intelligent Transportation Systems,2017年08月10日,Volume: 19, Issue: 5,https://ieeexplore.ieee.org/document/8007227
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06N 20/00
G06N 3/02 - 3/10
(57)【特許請求の範囲】
【請求項1】
コンピュータ機器により実行される画像分類モデルの訓練方法であって、
ラベル付きサンプル画像集合を取得することであって、前記ラベル付きサンプル画像集合に複数のラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、ことと、
前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定することと、
各前記ラベル付きサンプル画像に対して、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することと、 所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得ることと、
前記損失情報に基づいて、前記画像分類モデルを訓練することであって、前記画像分類モデルは、認識されるべき画像のカテゴリを決定するためのものである、ことと、を含み、
前記該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、
該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することを含み、
ここで、前記ポジティブサンプルカテゴリ集合に、該元サンプル画像に含まれる少なくとも1つのターゲット対象のカテゴリが含まれ、前記ネガティブサンプルカテゴリ集合に、該元サンプル画像に含まれない少なくとも1つのターゲット対象のカテゴリが含ま
れ、
前記該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、
いずれか1つのカテゴリに対して、
該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合及び前記ネガティブサンプルカテゴリ集合に属せず、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定することを含む、
画像分類モデルの訓練方法。
【請求項2】
前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定することは、
各カテゴリに対して、該カテゴリに属するラベル付きサンプル画像及び各ラベル付きサンプル画像に対応する元サンプル画像に基づいて、該カテゴリに対応する元サンプル画像の数を決定することであって、各元サンプル画像は、1つ又は複数のラベル付きサンプル画像に対応する、ことと、
前記元サンプル画像の数に基づいて、該カテゴリに対応する頻度情報を決定することと、を含み、
又は
各カテゴリに対して、前記ラベル付きサンプル画像集合におけるラベル付きサンプル画像の総数及び該カテゴリに属するラベル付きサンプル画像の数に基づいて、該カテゴリに対応する頻度情報を決定すること、又は、該カテゴリに属するラベル付きサンプル画像の数を該カテゴリに対応する頻度情報とすること、を含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。
【請求項3】
前記該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、
いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、且つ該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定すること、及び/又は
いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定することをさらに含むことを特徴とする
請求項1又は2に記載の画像分類モデルの訓練方法。
【請求項4】
前記画像分類モデルの訓練方法は、
前記ラベル付きサンプル画像集合から、該ラベル付きサンプル画像と同一の元サンプル画像に対応するターゲットラベル付きサンプル画像を決定し、該ラベル付きサンプル画像及び前記ターゲットラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定する方式、又は、
該ラベル付きサンプル画像に対応する元サンプル画像の第1補助分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定する方式であって、前記第1補助分類ラベルは、前記元サンプル画像に含まれるターゲット対象のカテゴリを示すためのものである、方式を用いて、
該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を取得することを更に含み、
及び/又は
前記画像分類モデルの訓練方法は、
該ラベル付きサンプル画像に対応する元サンプル画像の第2補助分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のネガティブサンプルカテゴリ集合を決定する方式を用いて、該ラベル付きサンプル画像に対応する元サンプル画像のネガティブサンプルカテゴリ集合を取得することを更に含み、前記第2補助分類ラベルは、前記元サンプル画像に含まれないターゲット対象のカテゴリを示すためのものであることを特徴とする
請求項1~3のうちいずれか一項に記載の画像分類モデルの訓練方法。
【請求項5】
前記該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、
いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であることを示し、及び/又は、
該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合又は前記ネガティブサンプルカテゴリ集合に属し、及び/又は、
該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、
該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定することをさらに含むことを特徴とする
請求項
1に記載の画像分類モデルの訓練方法。
【請求項6】
コンピュータ機器により実行される画像処理方法であって、
事前訓練された画像分類モデルに基づいて、画像処理タスクを実行することを含み、
前記画像分類モデルは、請求項1~
5のうちいずれか一項に記載の画像分類モデルの訓練方法で訓練されたものであり、
前記画像処理タスクは、画像分類、対象検出、キーポイント検出、画像セグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含む、画像処理方法。
【請求項7】
コンピュータ機器により実行されるデータ分類モデルの訓練方法であって、
ラベル付きサンプルデータ集合を取得することであって、前記ラベル付きサンプルデータ集合に複数のラベル付きサンプルデータ及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、ことと、
前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定することと、
各ラベル付きサンプルデータに対して、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することと、
所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、前記
データ分類モデルを用いて該ラベル付きサンプルデータに対して分類を行う場合の損失情報を得ることと、
前記損失情報に基づいて、前記データ分類モデルを訓練することであって、前記データ分類モデルは、認識されるべきデータのカテゴリを決定するためのものである、ことと、
を含み、
前記該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、
該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することを含み、
ここで、前記ポジティブサンプルカテゴリ集合に、該元サンプルデータに含まれる少なくとも1つのターゲット対象のカテゴリが含まれ、前記ネガティブサンプルカテゴリ集合に、該元サンプルデータに含まれない少なくとも1つのターゲット対象のカテゴリが含まれ
、
前記該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、
いずれか1つのカテゴリに対して、
該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが非背景のラベル付きサンプルデータであることを示し、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合及び前記ネガティブサンプルカテゴリ集合に属せず、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定することを含む、データ分類モデルの訓練方法。
【請求項8】
コンピュータ機器により実行されるデータ処理方法であって、
事前訓練されたデータ分類モデルに基づいて、データ処理タスクを実行することを含み、
前記データ分類モデルは、請求項
7に記載のデータ分類モデルの訓練方法で訓練されたものであり、
前記データ処理タスクは、データ分類、データセグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含み、
前記データは、画像データ及びテキストデータのうちのいずれか1つを含む、データ処理方法。
【請求項9】
画像分類モデル訓練装置であって、
ラベル付きサンプル画像集合を取得するように構成される第1取得モジュールであって、前記ラベル付きサンプル画像集合に複数のラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、第1取得モジュールと、
前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定するように構成される第1頻度情報決定モジュールと、
各ラベル付きサンプル画像に対して、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定し、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、
画像分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得るように構成される第1損失情報決定モジュールと、
前記損失情報に基づいて、前記画像分類モデルを訓練するように構成される第1訓練モジュールであって、前記画像分類モデルは、認識されるべき画像のカテゴリを決定するためのものである、第1訓練モジュールと、を備え、
前記第1損失情報決定モジュールは、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、
該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定するように構成され、 ここで、前記ポジティブサンプルカテゴリ集合に、該元サンプル画像に含まれる少なくとも1つのターゲット対象のカテゴリが含まれ、前記ネガティブサンプルカテゴリ集合に、該元サンプル画像に含まれない少なくとも1つのターゲット対象のカテゴリが含まれ
、
前記第1損失情報決定モジュールは、該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、
いずれか1つのカテゴリに対して、
該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合及び前記ネガティブサンプルカテゴリ集合に属せず、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定するように構成される、画像分類モデル訓練装置。
【請求項10】
画像処理装置であって、
事前訓練された画像分類モデルに基づいて、画像処理タスクを実行するように構成される第1処理モジュールを備え、
前記画像分類モデルは、請求項1~
5のうちいずれか一項に記載の画像分類モデルの訓練方法で訓練されたものであり、
前記画像処理タスクは、画像分類、対象検出、キーポイント検出、画像セグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含む、画像処理装置。
【請求項11】
データ分類モデル訓練装置であって、
ラベル付きサンプルデータ集合を取得するように構成される第2取得モジュールであって、前記ラベル付きサンプルデータ集合に複数のラベル付きサンプルデータ及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、第2取得モジュールと、
前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定するように構成される第2頻度情報決定モジュールと、
各ラベル付きサンプルデータに対して、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定し、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、
データ分類モデルを用いて該ラベル付きサンプルデータに対して分類を行う場合の損失情報を得るように構成される第2損失情報決定モジュールと、
前記損失情報に基づいて、前記データ分類モデルを訓練するように構成される第2訓練モジュールであって、前記データ分類モデルは、認識されるべきデータのカテゴリを決定するためのものである、第2訓練モジュールと、を備え、
前記第2損失情報決定モジュールは、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、
該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定するように構成され、
ここで、前記ポジティブサンプルカテゴリ集合に、該元サンプルデータに含まれる少なくとも1つのターゲット対象のカテゴリが含まれ、前記ネガティブサンプルカテゴリ集合に、該元サンプルデータに含まれない少なくとも1つのターゲット対象のカテゴリが含まれ
、
前記第2損失情報決定モジュールは、該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、
いずれか1つのカテゴリに対して、
該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが非背景のラベル付きサンプルデータであることを示し、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合及び前記ネガティブサンプルカテゴリ集合に属せず、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定するように構成される、データ分類モデル訓練装置。
【請求項12】
データ処理装置であって、
事前訓練されたデータ分類モデルに基づいて、データ処理タスクを実行するように構成される第2処理モジュールを備え、
前記データ分類モデルは、請求項
7に記載のデータ分類モデルの訓練方法で訓練されたものであり、
前記データ処理タスクは、データ分類、データセグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含み、
前記データは、画像データ及びテキストデータのうちのいずれか1つを含む、データ処理装置。
【請求項13】
コンピュータ機器であって、前記コンピュータ機器は、プロセッサと、メモリと、バスと、を備え、前記メモリに、前記プロセッサによる実行可能な機器可読命令が記憶されており、コンピュータ機器が運転される場合、前記プロセッサと前記メモリとは、バスを介して通信し、前記プロセッサが前記機器可読命令を実行して、請求項1~
5のうちいずれか一項に記載の画像分類モデルの訓練方法のステップを実行し、又は、請求項
6に記載の画像処理方法のステップを実行し、又は、請求項
7に記載のデータ分類モデルの訓練方法のステップを実行し、又は、請求項
8に記載のデータ処理方法のステップを実行する、コンピュータ機器。
【請求項14】
コンピュータ可読記憶媒体であって、該コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、前記プロセッサに、請求項1~
5のうちいずれか一項に記載の画像分類モデルの訓練方法のステップを実行させ、又は、請求項
6に記載の画像処理方法のステップを実行させ、又は、請求項
7に記載のデータ分類モデルの訓練方法のステップを実行させ、又は、請求項
8に記載のデータ処理方法のステップを実行させる、コンピュータ可読記憶媒体。
【請求項15】
コンピュータプログラムであって、該コンピュータプログラムがプロセッサにより実行される場合、前記プロセッサに、請求項1~
5のうちいずれか一項に記載の画像分類モデルの訓練方法のステップを実行させ、又は、請求項
6に記載の画像処理方法のステップを実行させ、又は、請求項
7に記載のデータ分類モデルの訓練方法のステップを実行させ、又は、請求項
8に記載のデータ処理方法のステップを実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年11月11日に中国特許局に提出された、出願番号がCN201911097069.Xであり、発明名称が「画像分類モデルの訓練方法、画像処理方法及び装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願は、データ処理技術分野に関し、具体的には、画像分類モデルの訓練方法、画像処理方法及び装置に関する。
【背景技術】
【0003】
ニューラルネットワークモデルに基づいて分類タスクを実行する前に、まず、ニューラルネットワークモデルを訓練する必要がある。ニューラルネットワークモデルを訓練する時、ニューラルネットワークモデルの分類精度を向上させるために、一般的には、大量のラベル付きサンプルに依存する必要がある。
【0004】
サンプルにラベルを付ける過程において、異なるカテゴリに対応するポジティプサンプルの数が不均一であることがある。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本願の実施例は、画像分類モデルの訓練方法、画像処理方法及び装置を少なくとも提供する。
【課題を解決するための手段】
【0006】
第1態様によれば、本願の実施例は、画像分類モデルの訓練方法を提供する。該方法は、ラベル付きサンプル画像集合を取得することであって、前記ラベル付きサンプル画像集合に複数のラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、ことと、前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定することと、前記複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、画像分類モデルの損失情報を決定することと、前記損失情報に基づいて、前記画像分類モデルを訓練することであって、前記画像分類モデルは、認識されるべき画像のカテゴリを決定するためのものである、ことと、を含む。
【0007】
ここで、分類モデルを訓練する時、ラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定する。続いて、複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルの損失情報を決定し、該損失情報に基づいて分類モデルを訓練する。該過程において、各カテゴリにそれぞれ対応する頻度情報及び各サンプル画像にそれぞれ対応する分類ラベルに基づいて損失情報を決定するため、各カテゴリの頻度情報に基づいて、画像分類モデルの訓練過程において画像分類モデルに及ぼす特定のカテゴリのポジティブサンプル及びネガティブサンプルの影響の程度を調整でき、これにより、各カテゴリに及ぼすポジティブサンプル及びネガティブサンプルの影響のバランスを取り、更に、ポジティブサンプルが少ないカテゴリに対する、分類モデルの認識精度を向上させることができる。
【0008】
選択可能な実施形態において、前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定することは、各カテゴリに対して、該カテゴリに属するラベル付きサンプル画像及び各ラベル付きサンプル画像に対応する元サンプル画像に基づいて、該カテゴリに対応する元サンプル画像の数を決定することであって、各元サンプル画像は、1つ又は複数のラベル付きサンプル画像に対応する、ことと、前記元サンプル画像の数に基づいて、該カテゴリに対応する頻度情報を決定することと、を含む。ここで、このような方式で頻度情報を決定し、ポジティブサンプルが少ないカテゴリを背景カテゴリと判定することを避ける。
【0009】
選択可能な実施形態において、前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定することは、各カテゴリに対して、前記ラベル付きサンプル画像集合におけるラベル付きサンプル画像の総数及び該カテゴリに属するラベル付きサンプル画像の数に基づいて、該カテゴリに対応する頻度情報を決定すること、又は、該カテゴリに属するラベル付きサンプル画像の数を該カテゴリに対応する頻度情報とすること、を含む。ここで、ラベル付きサンプル画像の数に基づいて、カテゴリに対応する頻度情報を決定し、プロセスがより簡単で迅速である。
【0010】
選択可能な実施形態において、前記複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、分類モデルの損失情報を決定することは、各ラベル付きサンプル画像に対して、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得ることを含む。ここで、各ラベル付きサンプル画像に対して損失情報を決定する。各ラベル付きサンプル画像に基づいて画像分類モデルのパラメータを調整することを実現させ、最終的に画像分類モデルの訓練を実現させる。
【0011】
選択可能な実施形態において、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得ることは、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することと、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、前記分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得ることと、を含む。ここで、分類ラベル及び頻度情報に基づいて、損失情報を決定し、ポジティブサンプルが少ないカテゴリに対する、画像分類モデルの認識精度を向上させる。
【0012】
選択可能な実施形態において、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、且つ該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定することを含む。ここで、画像分類モデルの訓練過程において、画像分類モデルに及ぼす特定のカテゴリのポジティブサンプル及びネガティブサンプルの影響の程度を調整でき、これにより、ポジティブサンプルが少ないカテゴリに対する、分類モデルの検出精度を向上させる。
【0013】
選択可能な実施形態において、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定することを含む。ここで、画像分類モデルの訓練過程において、画像分類モデルに及ぼす特定のカテゴリのポジティブサンプル及びネガティブサンプルの影響の程度を調整でき、これにより、ポジティブサンプルが少ないカテゴリに対する、分類モデルの検出精度を向上させる。
【0014】
選択可能な実施形態において、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することを含む。
【0015】
ここで、前記ポジティブサンプルカテゴリ集合に、該元サンプル画像に含まれる少なくとも1つのターゲット対象のカテゴリが含まれ、前記ネガティブサンプルカテゴリ集合に、該元サンプル画像に含まれない少なくとも1つのターゲット対象のカテゴリが含まれる。ここで、いずれか1つのカテゴリが該ラベル付きサンプル画像に対応するポジティブサンプル集合及びネガティブサンプルカテゴリ集合に属するかどうかを決定する。属すれば、該カテゴリに及ぼすラベル付きサンプル画像の影響を低下させるか又は無視することがなく、更に、画像分類モデルに、該いずれか1つのカテゴリのより多くの特徴及び差動的特徴を学習させることができ、画像分類モデルの精度を向上させる。
【0016】
選択可能な実施形態において、前記ラベル付きサンプル画像集合から、該ラベル付きサンプル画像と同一の元サンプル画像に対応するターゲットラベル付きサンプル画像を決定し、該ラベル付きサンプル画像及び前記ターゲットラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定する方式、又は、該ラベル付きサンプル画像に対応する元サンプル画像の第1補助分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定する方式であって、前記第1補助分類ラベルは、前記元サンプル画像に含まれるターゲット対象のカテゴリを示すためのものである、方式を用いて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を取得する。ここで、各ラベル付きサンプル画像に対応するポジティブサンプルカテゴリ集合を容易かつ迅速に決定する。
【0017】
選択可能な実施形態において、該ラベル付きサンプル画像に対応する元サンプル画像の第2補助分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のネガティブサンプルカテゴリ集合を決定する方式を用いて、該ラベル付きサンプル画像に対応する元サンプル画像のネガティブサンプルカテゴリ集合を取得し、前記第2補助分類ラベルは、前記元サンプル画像に含まれないターゲット対象のカテゴリを示すためのものである。ここで、各ラベル付きサンプル画像に対応するネガティブサンプルカテゴリ集合を容易かつ迅速に決定する。
【0018】
選択可能な実施形態において、該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合及び前記ネガティブサンプルカテゴリ集合に属せず、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定することを含む。
【0019】
選択可能な実施形態において、該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合又は前記ネガティブサンプルカテゴリ集合に属し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定することを含む。ここで、いずれか1つのカテゴリが該ラベル付きサンプル画像に対応するポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に属するかどうかを決定する。属すれば、該カテゴリに及ぼすラベル付きサンプル画像の影響を低下させるか又は無視することがなく、更に、画像分類モデルに、該いずれか1つのカテゴリのより多くの特徴及び差動的特徴を学習させることができ、画像分類モデルの精度を向上させる。
【0020】
第2態様によれば、本願の実施例は、画像処理方法を提供する。該方法は、事前訓練された画像分類モデルに基づいて、画像処理タスクを実行することを含み、前記画像分類モデルは、上記第1態様のいずれか一項に記載の画像分類モデルの訓練方法で訓練されたものであり、前記画像処理タスクは、画像分類、対象検出、キーポイント検出、画像セグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含む。
【0021】
第3態様によれば、本願の実施例は、データ分類モデルの訓練方法を提供する。該方法は、ラベル付きサンプルデータ集合を取得することであって、前記ラベル付きサンプルデータ集合に複数のラベル付きサンプルデータ及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、ことと、前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定することと、前記複数のラベル付きサンプルデータにそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、データ分類モデルの損失情報を決定することと、前記損失情報に基づいて、前記データ分類モデルを訓練することであって、前記データ分類モデルは、認識されるべきデータのカテゴリを決定するためのものである、ことと、を含む。
【0022】
選択可能な実施形態において、前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定することは、各カテゴリに対して、該カテゴリに属するラベル付きサンプルデータ及び各ラベル付きサンプルデータに対応する元サンプルデータに基づいて、該カテゴリに対応する元サンプルデータの数を決定することであって、各元サンプルデータは、1つ又は複数のラベル付きサンプルデータに対応する、ことと、前記元サンプルデータの数に基づいて、該カテゴリに対応する頻度情報を決定することと、を含む。
【0023】
選択可能な実施形態において、前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定することは、各カテゴリに対して、前記ラベル付きサンプルデータ集合におけるラベル付きサンプルデータの総数及び該カテゴリに属するラベル付きサンプルデータの数に基づいて、該カテゴリに対応する頻度情報を決定すること、又は、該カテゴリに属するラベル付きサンプルデータの数を該カテゴリに対応する頻度情報とすること、を含む。
【0024】
選択可能な実施形態において、前記複数のラベル付きサンプルデータにそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、分類モデルの損失情報を決定することは、各ラベル付きサンプルデータに対して、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプルデータに対して分類を行う場合の損失情報を得ることを含む。
【0025】
選択可能な実施形態において、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプルデータに対して分類を行う場合の損失情報を得ることは、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することと、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、前記分類モデルを用いて該ラベル付きサンプルデータに対して分類を行う場合の損失情報を得ることと、を含む。
【0026】
選択可能な実施形態において、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、いずれか1つのカテゴリに対して、該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが非背景のラベル付きサンプルデータであることを示し、且つ該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定することを含む。
【0027】
選択可能な実施形態において、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、いずれか1つのカテゴリに対して、該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定することを含む。
【0028】
選択可能な実施形態において、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することを含む。
【0029】
ここで、前記ポジティブサンプルカテゴリ集合に、該元サンプルデータに含まれる少なくとも1つのターゲット対象のカテゴリが含まれ、前記ネガティブサンプルカテゴリ集合に、該元サンプルデータに含まれない少なくとも1つのターゲット対象のカテゴリが含まれる。
【0030】
選択可能な実施形態において、前記ラベル付きサンプルデータ集合から、該ラベル付きサンプルデータと同一の元サンプルデータに対応するターゲットラベル付きサンプルデータを決定し、該ラベル付きサンプルデータ及び前記ターゲットラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合を決定する方式、又は、該ラベル付きサンプルデータに対応する元サンプルデータの第1補助分類ラベルに基づいて、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合を決定する方式であって、前記第1補助分類ラベルは、前記元サンプルデータに含まれるターゲット対象のカテゴリを示すためのものである、方式を用いて、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合を取得する。
【0031】
選択可能な実施形態において、該ラベル付きサンプルデータに対応する元サンプルデータの第2補助分類ラベルに基づいて、該ラベル付きサンプルデータに対応する元サンプルデータのネガティブサンプルカテゴリ集合を決定する方式を用いて、該ラベル付きサンプルデータに対応する元サンプルデータのネガティブサンプルカテゴリ集合を取得し、前記第2補助分類ラベルは、前記元サンプルデータに含まれないターゲット対象のカテゴリを示すためのものである。
【0032】
選択可能な実施形態において、該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、いずれか1つのカテゴリに対して、該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが非背景のラベル付きサンプルデータであることを示し、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合及び前記ネガティブサンプルカテゴリ集合に属せず、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定することを含む。
【0033】
選択可能な実施形態において、該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することは、いずれか1つのカテゴリに対して、該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが背景のラベル付きサンプルデータであることを示し、及び/又は、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合又は前記ネガティブサンプルカテゴリ集合に属し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定することを含む。
【0034】
第4態様によれば、本願の実施例は、データ処理方法を提供する。該方法は、事前訓練されたデータ分類モデルに基づいて、データ処理タスクを実行することを含み、前記データ分類モデルは、上記第2態様のいずれか一項に記載のデータ分類モデルの訓練方法で訓練されたものであり、前記データ処理タスクは、データ分類、データセグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含み、前記データは、画像データ及びテキストデータのうちのいずれか1つを含む。
【0035】
第5態様によれば、本願の実施例は、画像分類モデル訓練装置を提供する。該装置は、ラベル付きサンプル画像集合を取得するように構成される第1取得モジュールであって、前記ラベル付きサンプル画像集合に複数のラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、第1取得モジュールと、前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定するように構成される第1頻度情報決定モジュールと、前記複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、画像分類モデルの損失情報を決定するように構成される第1損失情報決定モジュールと、前記損失情報に基づいて、前記画像分類モデルを訓練するように構成される第1訓練モジュールであって、前記画像分類モデルは、認識されるべき画像のカテゴリを決定するためのものである、第1訓練モジュールと、を備える。
【0036】
選択可能な実施形態において、前記第1頻度情報決定モジュールは、前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定する場合、各カテゴリに対して、該カテゴリに属するラベル付きサンプル画像及び各ラベル付きサンプル画像に対応する元サンプル画像に基づいて、該カテゴリに対応する元サンプル画像の数を決定することであって、各元サンプル画像は、1つ又は複数のラベル付きサンプル画像に対応する、ことと、前記元サンプル画像の数に基づいて、該カテゴリに対応する頻度情報を決定することと、を実行するように構成される。
【0037】
選択可能な実施形態において、前記第1頻度情報決定モジュールは、前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定する場合、各カテゴリに対して、前記ラベル付きサンプル画像集合におけるラベル付きサンプル画像の総数及び該カテゴリに属するラベル付きサンプル画像の数に基づいて、該カテゴリに対応する頻度情報を決定し、又は、該カテゴリに属するラベル付きサンプル画像の数を該カテゴリに対応する頻度情報とするように構成される。
【0038】
選択可能な実施形態において、前記第1損失情報決定モジュールは、前記複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、分類モデルの損失情報を決定する場合、各ラベル付きサンプル画像に対して、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得るように構成される。
【0039】
選択可能な実施形態において、前記第1損失情報決定モジュールは、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプル画像に対して分類を行うときの損失情報を得る場合、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定し、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、前記分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得るように構成される。
【0040】
選択可能な実施形態において、前記第1損失情報決定モジュールは、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、且つ該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定するように構成される。
【0041】
選択可能な実施形態において、前記第1損失情報決定モジュールは、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定するように構成される。
【0042】
選択可能な実施形態において、前記第1損失情報決定モジュールは、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定するように構成される。
【0043】
ここで、前記ポジティブサンプルカテゴリ集合に、該元サンプル画像に含まれる少なくとも1つのターゲット対象のカテゴリが含まれ、前記ネガティブサンプルカテゴリ集合に、該元サンプル画像に含まれない少なくとも1つのターゲット対象のカテゴリが含まれる。
【0044】
選択可能な実施形態において、前記第1損失情報決定モジュールは、前記ラベル付きサンプル画像集合から、該ラベル付きサンプル画像と同一の元サンプル画像に対応するターゲットラベル付きサンプル画像を決定し、該ラベル付きサンプル画像及び前記ターゲットラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定する方式、又は、該ラベル付きサンプル画像に対応する元サンプル画像の第1補助分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定する方式であって、前記第1補助分類ラベルは、前記元サンプル画像に含まれるターゲット対象のカテゴリを示すためのものである、方式を用いて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を取得するように構成される。
【0045】
選択可能な実施形態において、前記第1損失情報決定モジュールは、該ラベル付きサンプル画像に対応する元サンプル画像の第2補助分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のネガティブサンプルカテゴリ集合を決定する方式を用いて、該ラベル付きサンプル画像に対応する元サンプル画像のネガティブサンプルカテゴリ集合を取得するように構成され、前記第2補助分類ラベルは、前記元サンプル画像に含まれないターゲット対象のカテゴリを示すためのものである。
【0046】
選択可能な実施形態において、前記第1損失情報決定モジュールは、該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、
いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合及び前記ネガティブサンプルカテゴリ集合に属せず、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定するように構成される。
【0047】
選択可能な実施形態において、前記第1損失情報決定モジュールは、該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合又は前記ネガティブサンプルカテゴリ集合に属し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定するように構成される。
【0048】
第6態様によれば、本願は、画像処理装置を提供する。該装置は、事前訓練された画像分類モデルに基づいて、画像処理タスクを実行するように構成される第1処理モジュールを備え、前記画像分類モデルは、上記第1態様のいずれか一項に記載の画像分類モデルの訓練方法で訓練されたものであり、前記画像処理タスクは、画像分類、対象検出、キーポイント検出、画像セグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含む。
【0049】
第7態様によれば、本願の実施例は、データ分類モデル訓練装置を提供する。該装置は、ラベル付きサンプルデータ集合を取得するように構成される第2取得モジュールであって、前記ラベル付きサンプルデータ集合に複数のラベル付きサンプルデータ及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、第2取得モジュールと、前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定するように構成される第2頻度情報決定モジュールと、前記複数のラベル付きサンプルデータにそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、データ分類モデルの損失情報を決定するように構成される第2損失情報決定モジュールと、前記損失情報に基づいて、前記データ分類モデルを訓練するように構成される第2訓練モジュールであって、前記データ分類モデルは、認識されるべきデータのカテゴリを決定するためのものである、第2訓練モジュールと、を備える。
【0050】
選択可能な実施形態において、前記第2頻度情報決定モジュールは、前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定する場合、各カテゴリに対して、該カテゴリに属するラベル付きサンプルデータ及び各ラベル付きサンプルデータに対応する元サンプルデータに基づいて、該カテゴリに対応する元サンプルデータの数を決定することであって、各元サンプルデータは、1つ又は複数のラベル付きサンプルデータに対応する、ことと、前記元サンプルデータの数に基づいて、該カテゴリに対応する頻度情報を決定することと、を実行するように構成される。
【0051】
選択可能な実施形態において、前記第2頻度情報決定モジュールは、前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定する場合、各カテゴリに対して、前記ラベル付きサンプルデータ集合におけるラベル付きサンプルデータの総数及び該カテゴリに属するラベル付きサンプルデータの数に基づいて、該カテゴリに対応する頻度情報を決定し、又は、該カテゴリに属するラベル付きサンプルデータの数を該カテゴリに対応する頻度情報とするように構成される。
【0052】
選択可能な実施形態において、前記第2損失情報決定モジュールは、前記複数のラベル付きサンプルデータにそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、分類モデルの損失情報を決定する場合、各ラベル付きサンプルデータに対して、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプルデータに対して分類を行う場合の損失情報を得るように構成される。
【0053】
選択可能な実施形態において、前記第2損失情報決定モジュールは、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプルデータに対して分類を行うときの損失情報を得る場合、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定し、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、前記分類モデルを用いて該ラベル付きサンプルデータに対して分類を行う場合の損失情報を得るように構成される。
【0054】
選択可能な実施形態において、前記第2損失情報決定モジュールは、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、いずれか1つのカテゴリに対して、該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが非背景のラベル付きサンプルデータであることを示し、且つ該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定するように構成される。
【0055】
選択可能な実施形態において、前記第2損失情報決定モジュールは、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、いずれか1つのカテゴリに対して、該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定するように構成される。
【0056】
選択可能な実施形態において、前記第2損失情報決定モジュールは、該ラベル付きサンプルデータの分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定するように構成される。
【0057】
ここで、前記ポジティブサンプルカテゴリ集合に、該元サンプルデータに含まれる少なくとも1つのターゲット対象のカテゴリが含まれ、前記ネガティブサンプルカテゴリ集合に、該元サンプルデータに含まれない少なくとも1つのターゲット対象のカテゴリが含まれる。
【0058】
選択可能な実施形態において、前記第2損失情報決定モジュールは、前記ラベル付きサンプルデータ集合から、該ラベル付きサンプルデータと同一の元サンプルデータに対応するターゲットラベル付きサンプルデータを決定し、該ラベル付きサンプルデータ及び前記ターゲットラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合を決定する方式、又は、該ラベル付きサンプルデータに対応する元サンプルデータの第1補助分類ラベルに基づいて、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合を決定する方式であって、前記第1補助分類ラベルは、前記元サンプルデータに含まれるターゲット対象のカテゴリを示すためのものである、方式を用いて、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合を取得するように構成される。
【0059】
選択可能な実施形態において、前記第2損失情報決定モジュールは、該ラベル付きサンプルデータに対応する元サンプルデータの第2補助分類ラベルに基づいて、該ラベル付きサンプルデータに対応する元サンプルデータのネガティブサンプルカテゴリ集合を決定する方式を用いて、該ラベル付きサンプルデータに対応する元サンプルデータのネガティブサンプルカテゴリ集合を取得するように構成され、前記第2補助分類ラベルは、前記元サンプルデータに含まれないターゲット対象のカテゴリを示すためのものである。
【0060】
選択可能な実施形態において、前記第2損失情報決定モジュールは、該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、いずれか1つのカテゴリに対して、該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが非背景のラベル付きサンプルデータであることを示し、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合及び前記ネガティブサンプルカテゴリ集合に属せず、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定するように構成される。
【0061】
選択可能な実施形態において、前記第2損失情報決定モジュールは、該ラベル付きサンプルデータの分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプルデータに対応する元サンプルデータのポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプルデータに対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、いずれか1つのカテゴリに対して、該ラベル付きサンプルデータの分類ラベルが、該ラベル付きサンプルデータが背景のラベル付きサンプルデータであることを示し、及び/又は、該いずれか1つのカテゴリが前記ポジティブサンプルカテゴリ集合又は前記ネガティブサンプルカテゴリ集合に属し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定するように構成される。
【0062】
第8態様によれば、本願の実施例は、データ処理装置を提供する。該装置は、事前訓練されたデータ分類モデルに基づいて、データ処理タスクを実行するように構成される第2処理モジュールを備え、前記データ分類モデルは、上記第3態様のいずれか一項に記載のデータ分類モデルの訓練方法で訓練されたものであり、前記データ処理タスクは、データ分類、データセグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含み、前記データは、画像データ及びテキストデータのうちのいずれか1つを含む。
【0063】
第9態様によれば、本願の実施例は、コンピュータ機器を更に提供する。前記コンピュータ機器は、プロセッサと、メモリと、バスと、を備え、前記メモリに、前記プロセッサによる実行可能な機器可読命令が記憶されており、コンピュータ機器が運転される場合、前記プロセッサと前記メモリとは、バスを介して通信し、前記プロセッサが前記機器可読命令を実行して、上記第1態様又は第1態様におけるいずれか1つの可能な実施形態におけるステップを実行し、又は、上記第2態様又は第2態様におけるいずれか1つの可能な実施形態におけるステップを実行し、又は、上記第3態様又は第3態様におけるいずれか1つの可能な実施形態におけるステップを実行し、又は、上記第4態様又は第4態様におけるいずれか1つの可能な実施形態におけるステップを実行する。
【0064】
第10態様によれば、本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体に、コンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、前記プロセッサに、上記第1態様又は第1態様におけるいずれか1つの可能な実施形態におけるステップを実行させ、又は、上記第2態様又は第2態様におけるいずれか1つの可能な実施形態におけるステップを実行させ、又は、上記第3態様又は第3態様におけるいずれか1つの可能な実施形態におけるステップを実行させ、又は、上記第4態様又は第4態様におけるいずれか1つの可能な実施形態におけるステップを実行させる。
【0065】
第11態様によれば、本願の実施例は、コンピュータプログラムを更に提供する。該コンピュータプログラムはプロセッサにより実行される場合、前記プロセッサに、上記第1態様又は第1態様におけるいずれか1つの可能な実施形態におけるステップを実行させ、又は、上記第2態様又は第2態様におけるいずれか1つの可能な実施形態におけるステップを実行させ、又は、上記第3態様又は第3態様におけるいずれか1つの可能な実施形態におけるステップを実行させ、又は、上記第4態様又は第4態様におけるいずれか1つの可能な実施形態におけるステップを実行させる。
【0066】
本願の上記目的、特徴及び利点を明確かつ分かりやすくするために、以下、好適な実施例を挙げて、添付図面を参照しながら、以下のように、詳しく説明する。
【図面の簡単な説明】
【0067】
【
図1】本願の実施例による画像分類モデルの訓練方法を示すフローチャートである。
【
図2】本願の実施例による損失情報を取得するための具体的な方法を示すフローチャートである。
【
図3】本願の実施例によるデータ分類モデルの訓練方法を示すフローチャートである。
【
図4】本願の実施例による画像分類モデル訓練装置を示す概略図である。
【
図5】本願の実施例によるデータ分類モデル訓練装置を示す概略図である。
【
図6】本願の実施例によるコンピュータ機器を示す概略図である。
【
図7】本願の実施例によるもう1つのコンピュータ機器を示す概略図である。
【発明を実施するための形態】
【0068】
本願の実施例の技術的解決手段をより明確に説明するために、以下、実施例に必要な図面を簡単に説明する。ここで添付した図面は、明細書に引き入れて本明細書の一部を構成し、本願に適合する実施例を示し、かつ、明細書とともに本願の技術的解決手段を解釈することに用いられる。下記図面は、説明のみの目的で本願の幾つかの実施形態を図示しており、本願を制限するものではないことが理解されるべきである。当業者は、創造的労働を行うことなく、これらの図面に基づいてその他の関連する図面を得ることもできる。
【0069】
本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。一般的には、図面に説明されて示されている本願の実施例のユニットは、多岐にわたる異なる構成で配置及び設計することができる。従って、図面を参照しながら提供される本願の実施例の下記詳細な説明は、特許請求されている本願の範囲を限定するものではなく、本願の実施例を示すためのものに過ぎない。本願の実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本願の保護の範囲に含まれる。
【0070】
検討によれば、マルチカテゴリニューラルネットワークモデルを訓練する過程において、いずれか1つのカテゴリにとって、他のカテゴリのポジティブサンプルは、該いずれか1つのカテゴリのネガティブサンプルを構成し、該いずれか1つのカテゴリのポジティブサンプルの数が少ないと、該いずれか1つのカテゴリにとって、ポジティブサンプルとネガティブサンプルとのバランスが崩れ、ネガティブサンプルは、該いずれか1つのカテゴリに著しい影響を及ぼし、マルチカテゴリニューラルネットワークモデルが該いずれかカテゴリのターゲット対象を認識する時の認識精度が低いことを招くことが判明した。
【0071】
上記検討によれば、本願は、画像分類モデルの訓練方法を提供する。分類モデルを訓練する時、ラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定する。続いて、複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルの損失情報を決定し、該損失情報に基づいて分類モデルを訓練する。該過程において、各カテゴリにそれぞれ対応する頻度情報及び各サンプル画像にそれぞれ対応する分類ラベルに基づいて損失情報を決定するため、各カテゴリの頻度情報に基づいて、画像分類モデルの訓練過程において画像分類モデルに及ぼす特定のカテゴリのポジティブサンプル及びネガティブサンプルの影響の程度を調整でき、これにより、各カテゴリに及ぼすポジティブサンプル及びネガティブサンプルの影響のバランスを取り、更に、ポジティブサンプルが少ないカテゴリに対する、分類モデルの認識精度を向上させることができる。
【0072】
上記技術的解決手段に存在する欠陥はいずれも、発明者らが実践及び鋭意検討した後に得られた結果である。従って、上記問題点の発見過程及び下記記述における本願が上記問題点に対して提出する解決手段は、いずれも発明者らが開示中に本願に与える寄与であるはずである。
【0073】
以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本出願の一部の実施例である。一般的には、図面に説明されて示されている本願の実施例のユニットは、多岐にわたる異なる構成で配置及び設計することができる。従って、図面を参照しながら提供される本願の実施例の下記詳細な説明は、特許請求されている本願の範囲を限定するものではなく、本願の実施例を示すためのものに過ぎない。本願の実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本願の保護の範囲に含まれる。
【0074】
下記図面において、類似した符号及び文字は、類似した要素を表すため、1つの要素が1つの図面において定義されていると、後続の図面において、これに対して定義及び説明を行う必要がないことに留意されたい。
【0075】
本実施例を理解しやすくするために、まず、本願の実施例が開示する画像分類モデルの訓練方法を詳しく説明する。本願の実施例で提供される分類モデルの訓練方法の実行主体は、一般的には、一定のコンピューティング能力を持つコンピュータ機器である。該コンピュータ機器は、例えば、端末機器、サーバ又は他の処理機器を含む。端末機器は、ユーザ機器(User Equipment:UE)、携帯機器、ユーザ端末、端末、セルラー電話、コードレス電話機、パーソナルデジタルアシスタント(Personal Digital Assistant:PDA)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。幾つかの可能な実現形態において、該分類モデル訓練方法は、プロセッサによりメモリに記憶されたコンピュータ可読命令を呼び出すことで実現してもよい。
【0076】
実施例1
本願の実施例による画像分類モデルの訓練を示すフローチャートである
図1に示すように、該方法は、ステップS101~S104を含み、ここで、
S101において、ラベル付きサンプル画像集合を取得し、ラベル付きサンプル画像集合に複数のラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる。
【0077】
S102において、ラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定する。
【0078】
S103において、複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、画像分類モデルの損失情報を決定する。
【0079】
S104において、損失情報に基づいて、画像分類モデルを訓練し、画像分類モデルは、認識されるべき画像のカテゴリを決定するためのものである。
【0080】
以下、上記S101~S104に対してそれぞれ詳しく説明する。
【0081】
I:上記S101において、ラベル付きサンプル画像集合に複数のラベル付きサンプル画像が含まれる。異なるラベル付きサンプル画像は、異なる元サンプル画像に対してラベルを付けて生成することができ、同一の元サンプル画像に対してラベルを付けて生成することもできる。各ラベル付きサンプル画像に、少なくとも1つのラベル付けされたターゲット対象及び該ターゲット対象に対応するタグが含まれる。ここで、ターゲット対象は、画像分類モデルが認識できる複数の対象のうちのいずれか1つであり、ターゲット対象に対応するタグは、該ターゲット対象が属するカテゴリである。
【0082】
例えば、1枚の元サンプル画像に、ターゲット対象Aが含まれるだけでなく、ターゲット対象Bも含まれる。従って、該元サンプル画像にラベルを付ける場合、該元サンプル画像における、該ターゲット対象Aの位置をラベル付けし、分類ラベル「ターゲット対象A」を追加し、ラベル付きサンプル画像を形成することができ、該該元サンプル画像における、該ターゲット対象Bの位置をラベル付けし、分類ラベル「ターゲット対象B」を追加し、もう1つのラベル付きサンプル画像を形成することもできる。
【0083】
なお、1枚の元サンプル画像に複数の同じターゲット対象が含まれると、各ターゲット対象に対して、いずれも1つのラベル付きサンプル画像を形成することができる。例えば、1枚の元サンプル画像に3つのターゲット対象Aが含まれると、該元サンプル画像にラベルを付ける場合、1番目のターゲット対象Aに対して、該元サンプル画像における、1番目のターゲット対象Aの位置をラベル付けし、分類ラベル「ターゲット対象A」を追加し、2番目のターゲット対象Aに対して、該元サンプル画像における、2番目のターゲット対象Aの位置をラベル付けし、分類ラベル「ターゲット対象A」を追加し、3番目のターゲット対象Aに対して、該元サンプル画像における、3番目のターゲット対象Aの位置をラベル付けし、分類ラベル「ターゲット対象A」を追加する。
【0084】
なお、1枚の元サンプル画像に複数の同じターゲット対象が含まれる時、全ての同じターゲット対象に対して複数のラベル付きサンプル画像を形成することもできる。
【0085】
例えば、1枚の元サンプル画像に3つのターゲット対象Aが含まれると、該元サンプル画像にラベルを付ける場合、3つのターゲット対象Aに対して、該元サンプル画像における、3つのターゲット対象Aの位置をラベル付けし、タグ「ターゲット対象A」を追加する。
【0086】
具体的なラベル付き方式は、分類の目的によって決まってもよい。例えば、分類の目的がインスタンスセグメンテーションであると、異なるターゲット対象に対して、異なるラベル付きサンプル画像を形成する。例えば、分類の目的が、どの画像に特定の対象があるかを認識することであると、全ての同じターゲット対象に対して、1つのラベル付きサンプル画像を形成することができる。
【0087】
画像分類モデルを訓練する前に、まず、画像分類モデルが認識できる対象のカテゴリを決定し、続いて、決定された、画像分類モデルが認識できる対象のカテゴリに基づいて、ラベル付きサンプル画像集合を決定する。
【0088】
ラベル付きサンプル画像集合に、各カテゴリにそれぞれ対応するラベル付きサンプル画像が含まれ、つまり、いずれか1つのカテゴリに対して、該カテゴリに該当するポジティブサンプルが含まれる。
【0089】
いずれか1つのカテゴリに対して、他のカテゴリに対応するラベル付きサンプル画像はいずれも該いずれか1つのカテゴリのネガティブサンプルを構成する。
【0090】
なお、ラベル付きサンプル画像集合に、全てのカテゴリにとっていずれもネガティブサンプルである複数のラベル付きサンプル画像が更に含まれてもよい。
【0091】
例えば、1枚の元画像にラベルを付ける場合、元サンプル画像における、いずれか1つのカテゴリに属しない対象の位置をラベル付けし、分類ラベル「カテゴリ無し」又は「背景」を追加する。
【0092】
もう1つの実施例において、分類ラベルは、数字の形態で表されてもよい。例えば、画像分類モデルが認識できる対象のカテゴリが30種であると、1~30で30種のカテゴリをそれぞれ表し、0を、全てのカテゴリにとっていずれもネガティブサンプルであるラベル付きサンプル画像の分類ラベルとして用いる。
【0093】
II:上記S102において、いずれか1つのカテゴリに対応する頻度情報は、例えば、
該いずれか1つのカテゴリに対応するラベル付きサンプル画像の数、該いずれか1つのカテゴリに対応するラベル付きサンプル画像がラベル付きサンプル画像集合に占める割合、該いずれか1つのカテゴリに対応するラベル付きサンプル画像の元サンプル画像の数、該いずれか1つのカテゴリに対応するラベル付きサンプル画像の元サンプル画像の数が全てのラベル付きサンプル画像の元サンプル画像の数に占める割合のうちのいずれか1つであってもよい。
【0094】
更に、下記方式(1)、(2)、(3)のうちのいずれか1つを用いて複数のカテゴリのうちの各カテゴリに対応する頻度情報を決定することができるが、これらに限定されない。
【0095】
(1)各カテゴリに対して、該カテゴリに属するラベル付きサンプル画像及び各ラベル付きサンプル画像に対応する元サンプル画像に基づいて、該カテゴリに対応する元サンプル画像の数を決定し、各元サンプル画像は、1つ又は複数のラベル付きサンプル画像に対応する。
【0096】
元サンプル画像の数に基づいて、該カテゴリに対応する頻度情報を決定する。
【0097】
ここで、元サンプル画像の数を該カテゴリに対応する頻度情報と直接的に決定することができ、元サンプル画像の数が全ての元サンプル画像の数に占める割合を該カテゴリに対応する頻度情報と決定することもできる。
【0098】
具体的には、異なるラベル付きサンプル画像は、同一の元サンプル画像からのものである可能性があるため、同一のラベル付きサンプル画像からの異なるラベル付きサンプル画像を画像分類モデルに入力した後、画像分類モデルのパラメータが一定のままで、異なるラベル付きサンプル画像のために抽出された特徴データは類似したものであり、ひいては同じである。これらのラベル付きサンプル画像を用いて画像分類モデルを訓練する場合、画像分類モデルが学習できる特徴は、異なる元サンプル画像からの異なるラベル付きサンプル画像を用いて画像分類モデルを訓練する場合、画像分類モデルが学習できる特徴よりも少ない。
【0099】
例えば、ラベル付きサンプル画像a1、ラベル付きサンプル画像a2は、同一の元サンプル画像Aからのものであり、ラベル付きサンプル画像b1は、元サンプル画像Bからのものである。画像分類モデルがa1及びa2に対して特徴学習を行う場合に学習できる特徴は、a1及びb1に対して特徴学習を行う場合に学習できる特徴よりも少ない。
【0100】
更に、直接的にラベル付きサンプル画像の数に基づいて各カテゴリに対応する頻度情報を決定する場合、1つのカテゴリに対応するポジティブサンプルのうちの複数が同一の元サンプル画像からのものであると、ポジティブサンプルの数が多くても、画像分類モデルが学習できる該カテゴリに該当する特徴が少ないことを招き、該カテゴリに対する認識精度が低いことを招き、つまり、ポジティブサンプルが少ないカテゴリをポジティブサンプルが多いカテゴリと判定することを招く。このような誤判を避けるために、該実施例において、各ラベル付きサンプル画像に対応する元サンプル画像の数に基づいて、頻度情報を決定する。
【0101】
(2)各カテゴリに対して、ラベル付きサンプル画像集合におけるラベル付きサンプル画像の総数及び及び該カテゴリに属するラベル付きサンプル画像の数に基づいて、該カテゴリに対応する頻度情報を決定する。該カテゴリに属するラベル付きサンプル画像の数がラベル付きサンプル画像の総数に占める割合を該カテゴリに対応する頻度情報とすることができる。
【0102】
(3)該カテゴリに属するラベル付きサンプル画像の数を該カテゴリに対応する頻度情報とする。
【0103】
ここで、1つのカテゴリにとって、該カテゴリの頻度情報が高いほど、該カテゴリに対応するポジティブサンプルの数が多くなり、該カテゴリのポジティブサンプルとネガティブサンプルとのバランスが高くなると認められる。頻度情報が低いほど、該カテゴリに対応するポジティブサンプルの数が少なくなり、該カテゴリのポジティブサンプルとネガティブサンプルとのバランスが低くなると認められる。
【0104】
III:上記S103及びS104において、複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、画像分類モデルの損失情報を決定する場合、例えば、
各ラベル付きサンプル画像に対して、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、画像分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得るという方式を用いることができる。
【0105】
具体的な実現過程において、ラベル付きサンプル画像に基づいて画像分類モデルを訓練する過程において、1つのラベル付きサンプル画像を画像分類モデルに入力するたびに、1つの分類結果を決定することができる。該分類結果は、例えば、1つのベクトルである。ベクトルにおける要素の数は、画像分類モデルが認識できる対象のカテゴリの数と一致し、且つ一対一に対応する。該ベクトルにおけるいずれか1つの要素の値は、該ラベル付きサンプル画像が該要素に対応するカテゴリに属する確率又は信頼度を表す。
【0106】
例えば、画像分類モデルが認識できる対象のカテゴリの数が30であると、いずれか1つのラベル付きサンプル画像を画像分類モデルに入力した後、得られた分類結果は、1つの30次元ベクトルであり、(p1,p2,……,p30)で表される。ここで、ベクトルにおけるi番目の要素piの値は、該ラベル付きサンプル画像がpiに対応するカテゴリに属する信頼度を表し、また、piの値が高いほど、該ラベル付きサンプル画像がpiに対応するカテゴリに属する可能性は高くなる。
【0107】
続いて、該ベクトル、ラベル付きサンプル画像に対応する分類ラベル、及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対応する損失情報を得ることができる。
【0108】
該損失情報に基づいて、画像分類モデルのパラメータを、該損失情報を低下させる傾向へ調整し、該画像分類モデルに対する一回のパラメータ調整プロセスを完了する。
【0109】
続いて、次のラベル付きサンプル画像を画像分類モデルに入力し、上記損失情報の決定及びパラメータ調整プロセスを再実行する。
【0110】
全てのラベル付きサンプル画像を用いて画像分類モデルに対して一回のパラメータ調整プロセスを実行した後、該画像分類モデルに対する一回の訓練が完了したと認められる。
【0111】
画像分類モデルに対する複数回の訓練を行った後、又は、画像分類モデルの損失情報が収束した場合、最終的に訓練された画像分類モデルを得ることができる。
【0112】
例示的に、
図2に示すように、本願の実施例は、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得るための具体的な方法を更に提供する。該方法は、以下を含む。
【0113】
S201において、該ラベル付きサンプル画像の分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する。
【0114】
S202において、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みに基づいて、分類モデルを用いて該ラベル付きサンプル画像に対して分類を行う場合の損失情報を得る。
【0115】
ここで、各ラベル付きサンプル画像に対して、その損失情報は、例えば、下記式(1)を満たす。
(1)
【0116】
【0117】
ここで、Cは、分類モデルが認識できる対象のカテゴリの数を表し、
は、該ラベル付きサンプル画像がカテゴリjに属する信頼度を表し、cは、該ラベル付きサンプル画像に対応する注釈ラベルを表し、
は、該ラベル付きサンプル画像に対して、カテゴリjに対応する損失重みを表す。
【0118】
一実施例において、損失重みを決定する場合、例えば、いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルに基づいて、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であるかどうかを示すことを決定し、該いずれか1つカテゴリに対応する頻度情報が所定の頻度閾値未満であるかどうかを決定する。
【0119】
該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、且つ該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定する。
【0120】
該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定する。
【0121】
ここで、該所定の頻度閾値の具体的な数値は、頻度情報の形態(例えば、数又は割合)及び分類精度の要件によって具体的に設定されてもよい。
【0122】
ここで、第1所定の損失重み値及び第2所定の損失重み値の具体的な数値は、実際の需要に応じて具体的に設定されてもよい。
【0123】
上記実施例において、画像分類モデルの訓練過程において、画像分類モデルに及ぼす特定のカテゴリのポジティブサンプル及びネガティブサンプルの影響の程度を調整でき、これにより、ポジティブサンプルが少ないカテゴリに対する、分類モデルの検出精度を向上させる。従って、第1所定の損失重み値は、一般的には、第2所定の損失重み値より小さい。
【0124】
ラベル付きサンプル画像aを用いて画像分類モデルを訓練する過程において、カテゴリmに対して、該カテゴリmのポジティブサンプルとネガティブサンプルがアンバランス状態であれば、該カテゴリmに対応する頻度情報は、所定の頻度閾値未満であると同時に、該ラベル付きサンプル画像aの注釈ラベルは、該ラベル付きサンプル画像aが1つのカテゴリに属することを示すが、該カテゴリは、カテゴリmではなく、背景カテゴリでもない。この場合、カテゴリmが、頻度情報が頻度閾値未満であるカテゴリであれば、該カテゴリmに及ぼす該ラベル付きサンプル画像aの影響を低下させ、ひいては無視し、つまり、該カテゴリmの損失に及ぼすラベル付きサンプル画像aの影響を低下させる。
【0125】
該ラベル付きサンプル画像aを用いて画像分類モデルを訓練する過程において、カテゴリmに対して、該カテゴリmのポジティブサンプルとネガティブサンプルがアンバランス状態でなければ、該カテゴリmに及ぼす該ラベル付きサンプル画像aの影響を低下させることができず、ひいては無視することもない。
【0126】
該ラベル付きサンプル画像aを用いて画像分類モデルを訓練する過程において、カテゴリmに対して、該カテゴリmのポジティブサンプルとネガティブサンプルがアンバランス状態ではないが、該ラベル付きサンプル画像aは全てのカテゴリにとっていずれも背景カテゴリのラベル付きサンプル画像である場合、該カテゴリmに及ぼす該ラベル付きサンプル画像aの影響を低下させることができず、ひいては無視することもない。
【0127】
例えば、カテゴリに及ぼすラベル付きサンプル画像の影響を無視する場合、第1所定の損失重み値は、0であり、第2所定の損失重み値は、1である。分類モデルが認識できる対象カテゴリの分類ラベルを1~Cとし、背景カテゴリの分類ラベルを0とすることができる。従って、1つのラベル付きサンプル画像に対して、カテゴリjに対応する損失重み
は、下記式(3)を満たす。
(3)
【0128】
ここで、
は、所定の頻度閾値を表し、cは、ラベル付きサンプル画像が属するカテゴリを表し、
は、ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを表す。
は、カテゴリjに対応する頻度情報を表す。
【0129】
また例えば、カテゴリに及ぼすラベル付きサンプル画像の影響を低下させる場合、第1所定の損失重み値は、0.3であり、第2所定の損失重み値は、1である。1つのラベル付きサンプル画像に対して、カテゴリjに対応する損失重み
は、下記式(4)を満たす。
(4)
【0130】
ここで、カテゴリに及ぼすラベル付きサンプル画像の影響を低下させる場合、第1所定の損失重み値及び第2所定の損失重み値の具体的な数値は、実際の需要に応じて設定されてもよく、例えば、0.1、0.2、0.4、0.5等としてもよいことに留意されたい。第2所定の損失重み値は、また例えば、0.9、1.1、1.2等である。ここで限定しない。
【0131】
なお、本願の実施例は、損失重みを決定するためのもう1つの具体的な方式を更に提供する。該実施例において、例えば、該ラベル付きサンプル画像の分類ラベル、各カテゴリにそれぞれ対応する頻度情報、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に基づいて、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定することができる。
【0132】
ここで、ポジティブサンプルカテゴリ集合に、該元サンプル画像に含まれる少なくとも1つのターゲット対象のカテゴリが含まれる。
【0133】
具体的には、下記方式1又は2のうちのいずれか1つを用いて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定することができる。
【0134】
方式1:ラベル付きサンプル画像集合から、該ラベル付きサンプル画像と同一の元サンプル画像に対応するターゲットラベル付きサンプル画像を決定し、
該ラベル付きサンプル画像及びターゲットラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定する。
【0135】
ここで、ラベル付きサンプル画像を形成する場合、複数の異なるラベル付きサンプル画像が同一の元サンプル画像に基づいてラベル付けされたものであることがある。
【0136】
例えば、いずれか1つのラベル付きサンプル画像aに対して、それに対応する同一の元サンプル画像のターゲットラベル付きサンプル画像はそれぞれ、ラベル付きサンプル画像b、ラベル付きサンプル画像c及びラベル付きサンプル画像dである。ここで、ラベル付きサンプル画像aの分類ラベルは、m2であり、ラベル付きサンプル画像bの分類ラベルは、m5であり、ラベル付きサンプル画像cの分類ラベルは、m9であり、ラベル付きサンプル画像dの分類ラベルは、m5である。従って、該ラベル付きサンプル画像aのポジティブサンプルカテゴリ集合は、{m2,m5,m9}である。
【0137】
方式2:該ラベル付きサンプル画像に対応する元サンプル画像の第1補助分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のポジティブサンプルカテゴリ集合を決定する。
【0138】
ここで、元サンプル画像に対してラベルを付け、ラベル付きサンプル画像を生成する過程において、生成されるべきラベル付きサンプル画像の数が膨大過ぎるため、元サンプル画像に存在する異なる対象を逐一ラベル付けして異なるラベル付きサンプル画像を生成することができないことが多い。この場合、元サンプル画像に第1補助分類ラベルを追加することができる。該第1補助分類ラベルは、元サンプル画像に含まれるターゲット対象のカテゴリを示すためのものである。
【0139】
ここで、該第1補助分類ラベルは、ラベル付き時、元サンプル画像に含まれるターゲット対象の全てのカテゴリを示すことができ、元サンプル画像に含まれるターゲット対象の一部のカテゴリのみを示すこともできることに留意されたい。
【0140】
例えば、元サンプル画像に含まれるターゲット対象の全てのカテゴリは、m1、m3、m7、m8、m11を含み、元サンプル画像に対して第1補助分類ラベルをラベル付けする場合、第1補助分類ラベルは例えば、m1、m3、m7である。この場合、形成された該元サンプル画像のポジティブサンプルカテゴリ集合は、{m1,m3,m7}である。
【0141】
第1補助分類ラベルは、例えば、m7、m8、m11である。この場合、形成された該元サンプル画像のポジティブサンプルカテゴリ集合は、{m7,m8,m11}である。
【0142】
第1補助分類ラベルは、例えば、m1、m3、m7、m8、m11である。この場合、形成された該元サンプル画像のポジティブサンプルカテゴリ集合は、{m1,m3,m7,m8,m11}である。
【0143】
ネガティブサンプルカテゴリ集合に、該元サンプル画像に含まれない少なくとも1つのターゲット対象のカテゴリが含まれる。
【0144】
ここで、下記方式3を用いて該ラベル付きサンプル画像に対応する元サンプル画像のネガティブサンプルカテゴリ集合を決定することができる。
【0145】
方式3:該ラベル付きサンプル画像に対応する元サンプル画像の第2補助分類ラベルに基づいて、該ラベル付きサンプル画像に対応する元サンプル画像のネガティブサンプルカテゴリ集合を決定する。
【0146】
ここで、上記方式2と同様に、元サンプル画像にラベルを付ける場合、元サンプル画像に第2補助分類ラベルを追加することもできる。該第2補助分類ラベルは、元サンプル画像に含まれないターゲット対象のカテゴリを示すためのものである。
【0147】
例えば、元サンプル画像にラベルを付ける場合、該元サンプル画像に含まれないターゲット対象のカテゴリがm3、m9、m15を含むと決定した時、元サンプル画像に対して第2補助分類ラベルをラベル付けする場合、第2補助分類ラベルは例えば、m3、m9、m15である。この場合、形成された該元サンプル画像のネガティブサンプルカテゴリ集合は、{m3,m9,m15}である。
【0148】
ここで、第1補助分類ラベル又は第2補助分類ラベルにより指示されるコンテンツはヌルであってもよいことに留意されたい。この場合、ポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合もヌルである。
【0149】
該実施例において、該ラベル付きサンプル画像に対して、所定の複数のカテゴリのうちの各カテゴリに対応する損失重みを決定する場合、例えば、いずれか1つのカテゴリに対して、該ラベル付きサンプル画像の分類ラベルに基づいて、該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であるかどうかを示すことを決定し、該いずれか1つカテゴリに対応する頻度情報が所定の頻度閾値未満であるかどうかを決定し、該いずれか1つのカテゴリが該ラベル付きサンプル画像に対応するポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に属するかどうかを決定する。
【0150】
該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを示し、該いずれか1つのカテゴリがポジティブサンプルカテゴリ集合及びネガティブサンプルカテゴリ集合に属せず、且つ該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値未満であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第1所定の損失重み値として決定する。
【0151】
該ラベル付きサンプル画像の分類ラベルが、該ラベル付きサンプル画像が背景のラベル付きサンプル画像であることを示し、及び/又は、該いずれか1つのカテゴリがポジティブサンプルカテゴリ集合又はネガティブサンプルカテゴリ集合に属し、及び/又は、該いずれか1つのカテゴリに対応する頻度情報が所定の頻度閾値以上であると決定した場合、該いずれか1つのカテゴリに対応する損失重みを第2所定の損失重み値として決定する。
【0152】
該実施例において、画像分類モデルに及ぼすいずれかのカテゴリのポジティブサンプル及びネガティブサンプルの影響の程度を調整する場合、カテゴリmに及ぼすラベル付きサンプル画像aの影響を低下させるか又は無視する過程において、該ラベル付きサンプル画像aに対応する元サンプル画像に必ず該カテゴリmのターゲット対象が存在すれば、該カテゴリmに及ぼす該ラベル付きサンプル画像の影響を無視しない。従って、画像分類モデルに、該カテゴリに該当するより多くの特徴を学習させることができ、画像分類モデルの精度を更に向上させることができる。
【0153】
なお、元サンプル画像に特定のカテゴリのターゲット対象が必ず存在しなければ、該元サンプル画像は、実際に、該カテゴリmの背景画像と認められ、該カテゴリmに及ぼす該元サンプル画像に基づいて得られたラベル付きサンプル画像の影響を無視しない。従って、画像分類モデルに、カテゴリmのターゲット対象の差動的特徴を学習させることができ、画像分類モデルの精度を更に向上させることもできる。
【0154】
更に、本願の実施例において、該いずれか1つのカテゴリが該ラベル付きサンプル画像に対応するポジティブサンプルカテゴリ集合又はネガティブサンプルカテゴリ集合に属するかどうかを更に決定する。属すれば、該カテゴリmに及ぼす該ラベル付きサンプル画像aの影響を低下させることができず、ひいては無視することもない。
【0155】
例えば、カテゴリに及ぼすラベル付きサンプル画像の影響を無視する場合、第1所定の損失重み値は、0であり、第2所定の損失重み値は、1である。従って、1つのラベル付きサンプル画像に対して、カテゴリjに対応する損失重み
は、下記式(5)を満たす。
(5)
【0156】
ここで、
は、所定の頻度閾値を表し、
は、ラベル付きサンプル画像が非背景のラベル付きサンプル画像であることを表す。
は、カテゴリjに対応する頻度情報を表す。
は、ポジティブサンプルカテゴリ集合を表し、
は、ネガティブサンプルカテゴリ集合を表す。
【0157】
また例えば、カテゴリに及ぼすラベル付きサンプル画像の影響を低下させる場合、第1所定の損失重み値は、0.15であり、第2所定の損失重み値は、1.1である。1つのラベル付きサンプル画像に対して、カテゴリjに対応する損失重み
は、下記式(6)を満たす。
(6)
【0158】
カテゴリに及ぼすラベル付きサンプル画像の影響を低下させる場合、第1所定の損失重み値及び第2所定の損失重み値の具体的な数値は、実際の需要に応じて設定されてもよい。
【0159】
本願の実施例は、分類モデルを訓練する時、ラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定する。続いて、複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、分類モデルの損失情報を決定し、該損失情報に基づいて分類モデルを訓練する。該過程において、各カテゴリにそれぞれ対応する頻度情報及び各サンプル画像にそれぞれ対応する分類ラベルに基づいて損失情報を決定するため、各カテゴリの頻度情報に基づいて、画像分類モデルの訓練過程において画像分類モデルに及ぼす特定のカテゴリのポジティブサンプル及びネガティブサンプルの影響の程度を調整でき、これにより、各カテゴリに及ぼすポジティブサンプル及びネガティブサンプルの影響のバランスを取り、更に、ポジティブサンプルが少ないカテゴリに対する、分類モデルの認識精度を向上させることができる。
【0160】
本願の実施例は、もう1つの画像処理方法を更に提供する。該方法は、事前訓練された画像分類モデルに基づいて、画像処理タスクを実行することを含み、
画像分類モデルは、上記実施例の画像分類モデルの訓練方法で訓練されたものであり、
画像処理タスクは、画像分類、対象検出、キーポイント検出、画像セグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含む。
【0161】
本願の実施例において、画像分類モデルを具体的には、実際の画像処理タスクに基づいて選択することができる。例えば、画像処理タスクが対象検出である場合、該画像分類モデルとして一層高速化した領域畳み込みニューラルネットワーク(Faster Region-Convolutional Neural Networks:Faster R-CNN)を用いることができる。また例えば、画像処理タスクがインスタンスセグメンテーションである場合、該画像分類モデルとしてインスタンスセグメンテーションモデルMask R-CNNを用いることができる。
【0162】
本実施例において、画像分類モデルを訓練するためのラベル付きサンプル集合は、マイクロソフトコンテキスト共通オブジェクトデータ集合(Microsoft Common Objects in Context:MS COCO)、大語彙インスタンスセグメンテーションデータ集合(A Dataset for Large Vocabulary Instance Segmentation:LVIS)、パターン分析、統計的モデリング及び計算論的学習ビジュアルオブジェクトカテゴリデータ集合(pattern analysis,statistical modelling and computational learning visual object classes:Pascal VOC)、及びOpen Imageデータ集合のうちの少なくとも1つであってもよく、上記サンプル集合のうちの少なくとも1つに対して処理(例えば、再ラベル付き)を行った後に得られたサンプル集合であってもよい。
【0163】
本願の実施例は、画像処理タスクを実行する場合、上記実施例で開示される画像分類モデルの訓練方法で訓練された画像分類モデルにより実現し、より高い精度で画像処理結果を得ることができる。
【0164】
図3に示すように、本願の実施例は、データ分類モデルの訓練方法を更に提供する。該方法は以下を含む。
【0165】
S301において、ラベル付きサンプルデータ集合を取得し、ラベル付きサンプルデータ集合に複数のラベル付きサンプルデータ及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる。
【0166】
S302において、ラベル付きサンプルデータ及び各ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定する。
【0167】
S303において、複数のラベル付きサンプルデータにそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する頻度情報に基づいて、データ分類モデルの損失情報を決定する。
【0168】
S304において、損失情報に基づいて、データ分類モデルを訓練し、データ分類モデルは、認識されるべきデータのカテゴリを決定するためのものである。
【0169】
該実施例において、サンプルデータ集合は、サンプル画像集合、サンプルテキスト集合のうちのいずれか1つであってもよい。なお、処理されるべきデータによって、ラベル付きサンプルデータは異なる。具体的には、実際の適用シーンによって決まる。ここで、詳細な説明を省略する。
【0170】
上記S301~S304の具体的な実現形態は、上記実施例のS101~S104を参照することができ、ここで、詳細な説明を省略する。
【0171】
本願の実施例は、データ処理の方法を更に提供する。該方法は、
事前訓練されたデータ分類モデルに基づいて、データ処理タスクを実行することを含み、
データ分類モデルは、上記実施例におけるデータ分類モデルの訓練方法で訓練されたものであり、
データ処理タスクは、データ分類、データセグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含み、
データは、画像データ及びテキストデータのうちのいずれか1つを含む。
【0172】
具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番を意味して実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順番はその機能及び可能な内在的論理により決まることは、当業者であれば理解すべきである。
【0173】
同一の技術的思想によれば、本願の実施例は、画像分類モデルの訓練方法に対応する画像分類モデル訓練装置を更に提供する。本願の実施例における装置による課題を解決するための原理は、本願の実施例における上記画像分類モデルの訓練方法と類似するため、装置の実施は、方法の実施を参照することができ、重複した説明を省略する。
【0174】
本願の実施例による画像分類モデル訓練装置を示す概略図である
図4に示すように、前記装置は、第1取得モジュール41と、第1頻度情報決定モジュール42と、第1損失情報決定モジュール43と、第1訓練モジュール44と、を備え、
第1取得モジュール41は、ラベル付きサンプル画像集合を取得するように構成され、前記ラベル付きサンプル画像集合に複数のラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれ、
第1頻度情報決定モジュール42は、前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定するように構成され、
第1損失情報決定モジュール43は、前記複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、画像分類モデルの損失情報を決定するように構成され、
第1訓練モジュール44は、前記損失情報に基づいて、前記画像分類モデルを訓練するように構成され、前記画像分類モデルは、認識されるべき画像のカテゴリを決定するためのものである。
【0175】
装置における各モジュールの処理フロー及び各モジュール間のインタラクションフローに関する説明は、上記方法の実施例における関連説明を参照することができ、ここで、詳細な説明を省略する。
【0176】
本願のもう1つの実施例は、画像処理装置を更に提供する。該装置は、
事前訓練された画像分類モデルに基づいて、画像処理タスクを実行するように構成される第1処理モジュールを備え、
前記画像分類モデルは、上記実施例に記載の画像分類モデルの訓練方法で訓練されたものであり、
前記画像処理タスクは、画像分類、対象検出、キーポイント検出、画像セグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含む。
【0177】
本願の実施例によるデータ分類モデル訓練装置を示す概略図である
図5に示すように、前記装置は、第2取得モジュール51と、第2頻度情報決定モジュール52と、第2損失情報決定モジュール53と、第2訓練モジュール54と、を備え、
第2取得モジュール51は、ラベル付きサンプルデータ集合を取得するように構成され、前記ラベル付きサンプルデータ集合に複数のラベル付きサンプルデータ及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれ、
第2頻度情報決定モジュール52は、前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定するように構成され、
第2損失情報決定モジュール53は、前記複数のラベル付きサンプルデータにそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、データ分類モデルの損失情報を決定するように構成され、
第2訓練モジュール54は、前記損失情報に基づいて、前記データ分類モデルを訓練するように構成され、前記データ分類モデルは、認識されるべきデータのカテゴリを決定するためのものである。
【0178】
装置における各モジュールの処理フロー及び各モジュール間のインタラクションフローに関する説明は、上記方法の実施例における関連説明を参照することができ、ここで、詳細な説明を省略する。
【0179】
本願の実施例は、データ処理装置を更に提供する。該装置は、
事前訓練されたデータ分類モデルに基づいて、データ処理タスクを実行するように構成される第2処理モジュールを備え、
前記データ分類モデルは、上記実施例に記載のデータ分類モデルの訓練方法で訓練されたものであり、
前記データ処理タスクは、データ分類、データセグメンテーション、インスタンスセグメンテーションのうちの1つ又は複数を含み、前記データは、画像データ及びテキストデータのうちのいずれか1つを含む。
【0180】
本願の実施例は、コンピュータ機器60を更に提供する。本願の実施例によるコンピュータ機器60の構造を示す概略図である
図6に示すように、該コンピュータ機器60は、プロセッサ61と、メモリ62と、バス63と、を備える。前記メモリ62に前記プロセッサ61による実行可能な機器可読命令(例えば、
図4に示した装置における第1取得モジュール41、第1頻度情報決定モジュール42、第1損失情報決定モジュール43及び第1訓練モジュール44に対応する実行命令など)が記憶されており、コンピュータ機器60が運転される時、前記プロセッサ61と前記メモリ62は、バス63を介して通信し、前記機器可読命令が前記プロセッサ61により実行される時、
ラベル付きサンプル画像集合を取得することであって、前記ラベル付きサンプル画像集合に複数のラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、ことと、
前記ラベル付きサンプル画像及び各前記ラベル付きサンプル画像にそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定することと、
前記複数のラベル付きサンプル画像にそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、画像分類モデルの損失情報を決定することと、
前記損失情報に基づいて、前記画像分類モデルを訓練することであって、前記画像分類モデルは、認識されるべき画像のカテゴリを決定するためのものである、ことと、を実行する。
【0181】
プロセッサ61が各プロセスを実行する場合の詳細な過程は、具体的には上記実施例を参照する。ここで、詳細な説明を省略する。
【0182】
本願の実施例は、コンピュータ機器70を更に提供する。本願の実施例によるコンピュータ機器70の構造を示す概略図である
図7に示すように、該コンピュータ機器70は、プロセッサ71と、メモリ72と、バス73と、を備える。前記メモリ72に前記プロセッサ71による実行可能な機器可読命令(例えば、
図5に示した装置における第2取得モジュール51、第2頻度情報決定モジュール52、第2損失情報決定モジュール53及び第2訓練モジュール54に対応する実行命令など)が記憶されており、コンピュータ機器70が運転される時、前記プロセッサ11と前記メモリ72は、バス73を介して通信し、前記機器可読命令が前記プロセッサ71により実行される時、
ラベル付きサンプル画像集合を取得することであって、前記ラベル付きサンプル画像集合に複数のラベル付きサンプル画像及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、ことと、
ラベル付きサンプルデータ集合を取得することであって、前記ラベル付きサンプルデータ集合に複数のラベル付きサンプルデータ及び各ラベル付きサンプル画像にそれぞれ対応する分類ラベルが含まれる、ことと、
前記ラベル付きサンプルデータ及び各前記ラベル付きサンプルデータにそれぞれ対応する分類ラベルに基づいて、所定の複数のカテゴリのうちの各カテゴリにそれぞれ対応する頻度情報を決定することと、
前記複数のラベル付きサンプルデータにそれぞれ対応する分類ラベル及び各カテゴリにそれぞれ対応する前記頻度情報に基づいて、データ分類モデルの損失情報を決定することと、
前記損失情報に基づいて、前記データ分類モデルを訓練することであって、前記データ分類モデルは、認識されるべきデータのカテゴリを決定するためのものである、ことと、を実行する。
【0183】
プロセッサ71が各プロセスを実行する場合の詳細な過程は、具体的には上記実施例を参照する。ここで、詳細な説明を省略する。
【0184】
本願の実施例は、コンピュータ可読記憶媒体を更に提供する。該コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される場合、上記方法の実施例に記載の画像分類モデルの訓練方法、画像処理方法、データ分類モデルの訓練方法、又はデータ処理方法のステップを実行する。ここで、該記憶媒体は、揮発性又は不揮発性コンピュータ可読記憶媒体であってもよい。
【0185】
本願の実施例が提供する画像分類モデルの訓練方法、画像処理方法、データ分類モデルの訓練方法又はデータ処理方法のコンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含む。前記プログラムコードに含まれる命令は、上記方法の実施例に記載の画像分類モデルの訓練方法、画像処理方法、データ分類モデルの訓練方法、又はデータ処理方法のステップを実行するために用いられる。具体的には、上記方法の実施例を参照することができ、ここで詳細な説明を省略する。
【0186】
本願の実施例は、コンピュータプログラムを更に提供する。該コンピュータプログラムは、プロセッサにより実行される時、上記実施例のいずれか1つの方法を実現させる。該コンピュータプログラム製品は、具体的には、ハードウェア、ソフトウェア又はその組み合わせにより実現してもよい。1つの選択可能な実施例において、前記コンピュータプログラム製品は、具体的には、コンピュータ記憶媒体として具現化され、もう1つの選択可能な実施例において、コンピュータプログラム製品は、具体的には、例えば、ソフトウェア開発キット(Software Development Kit:SDK)等のようなソフトウェア製品として具現化される。
【0187】
説明上の便宜及び簡素化を図るために、上記説明されたシステム及び装置の具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。本発明で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又はアセンブリを組み合わせてもよく、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよく、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかの通信インタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
【0188】
分離部材として説明した前記ユニットは、物理的に別個のものであってもよく、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよく、そうでなくてもよい。即ち、同一の位置に位置してもよく、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
【0189】
また、本願の各実施例における各機能ユニットは1つの処理ユニットに集積されてもよく、各ユニットが物理的に別個のものとして存在してもよく、2つ以上のユニットが一つのユニットに集積されてもよい。
【0190】
前記機能はソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、プロセッサによる実行可能な揮発性又は不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解のもと、本願の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現化することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、1台のコンピュータ機器(パソコン、サーバ、又はネットワーク機器など)に、本願の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。上述した記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read-only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
【0191】
最後に説明しておきたいこととして、上記実施例は本願の具体的な実施形態に過ぎず、本願の技術的解決手段を説明するためのものであり、これを限定するものではなく、本願の保護範囲はこれに制限されるものではない。前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、本願で開示された技術的範囲内で、前記実施例に記載の技術的解決手段に対して修正を行うことができるか又は変更を容易に思いつくことができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正、変更又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の精神及び範囲から離脱させるものではなく、本願の保護範囲内に含まれるものとすることは、理解すべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。