IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7185039画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム
<>
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図1
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図2
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図3
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図4
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図5
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図6
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図7
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図8
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図9
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図10
  • 特許-画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-28
(45)【発行日】2022-12-06
(54)【発明の名称】画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221129BHJP
   G06N 3/04 20060101ALI20221129BHJP
   G06N 3/08 20060101ALI20221129BHJP
【FI】
G06T7/00 350C
G06N3/04
G06N3/08 140
【請求項の数】 15
(21)【出願番号】P 2021522436
(86)(22)【出願日】2020-03-16
(65)【公表番号】
(43)【公表日】2022-01-14
(86)【国際出願番号】 CN2020079496
(87)【国際公開番号】W WO2020192471
(87)【国際公開日】2020-10-01
【審査請求日】2021-04-23
(31)【優先権主張番号】201910233985.5
(32)【優先日】2019-03-26
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲掲▼ ▲澤▼群
【審査官】笠田 和宏
(56)【参考文献】
【文献】国際公開第2018/198233(WO,A1)
【文献】Yunchao Wei,外5名,"Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach",2017 IEEE Conference on Computer Vision and Pattern Recognition,2017年11月09日,pp. 6488-6496
【文献】Jifeng Dai,外6名,"Deformable Convolutional Networks",2017 IEEE International Conference on Computer Vision,2017年12月25日,pp. 764-773
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/04
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
コンピュータ機器が実行する画像分類モデルの訓練方法であって、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記オフセット変数は、畳み込みカーネルの各重み値に対応する入力画素の位置オフセットであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を含むことを特徴とする、画像分類モデルの訓練方法。
【請求項2】
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップは、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定するステップと、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第2モデルパラメータを決定するステップと、を含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。
【請求項3】
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップは、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定するステップと、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを決定するステップと、を含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。
【請求項4】
前記分類損失関数は、
【数1】
で表され、
ここで、前記Lは、前記分類損失関数を表し、前記I()は、ディラック関数を表し、前記Nは、カテゴリの総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記Pは、前記第cカテゴリに対応する予測確率値を表すことを特徴とする
請求項1から3のうちいずれか一項に記載の画像分類モデルの訓練方法。
【請求項5】
前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する前に、
変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップであって、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものである、ステップを更に含み、
前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップは、
前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第2予測カテゴリアノテーション情報を取得するステップを含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。
【請求項6】
前記変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップは、
【数2】
で前記訓練されるべき特徴画像を生成するステップを含み、
ここで、前記y(p)は、前記訓練されるべき特徴画像を表し、前記pは、前記訓練されるべき特徴画像における画素値を表し、前記pは、畳み込みカーネルにおける、サンプリング点の位置を表し、前記Δpは、前記オフセット変数を表し、前記w(p)は、前記畳み込みカーネルが前記訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、前記x(p+p+Δp)は、前記訓練されるべき画像における対応する位置の画素値を表すことを特徴とする
請求項5に記載の画像分類モデルの訓練方法。
【請求項7】
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定した後、
前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第3予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第3予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第4モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第4予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第4予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第5モデルパラメータを決定するステップと、を更に含み、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
前記第2モデルパラメータ、前記第3モデルパラメータ、前記第4モデルパラメータ及び前記第5モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るステップを含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。
【請求項8】
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
前記第2モデルパラメータ及び前記第3モデルパラメータを用いて前記訓練されるべきオフセットネットワークをN回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するステップであって、前記Nは、1以上の整数である、ステップと、
前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練するステップと、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するステップと、を含むことを特徴とする
請求項1に記載の画像分類モデルの訓練方法。
【請求項9】
前記ターゲット損失関数は、
【数3】
で表され、
ここで、前記Lsegは、前記ターゲット損失関数を表し、前記Nは、カテゴリ総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記I()は、ディラック関数を表し、前記
【数4】
は、画素点での、前記第cカテゴリの予測確率値を表し、前記iは、前記訓練されるべき画像における、前記画素点の横座標位置を表し、前記jは、前記訓練されるべき画像における、前記画素点の縦座標位置を表すことを特徴とする
請求項8に記載の画像分類モデルの訓練方法。
【請求項10】
コンピュータ機器が実行する画像処理方法であって、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記オフセット変数は、畳み込みカーネルの各重み値に対応する入力画素の位置オフセットであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を含むことを特徴とする、画像処理方法。
【請求項11】
コンピュータ機器に適用されるモデル訓練装置であって、前記モデル訓練装置は、取得モジュールと、決定モジュールと、訓練モジュールと、を備え、
前記取得モジュールは、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュールは更に、訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記オフセット変数は、畳み込みカーネルの各重み値に対応する入力画素の位置オフセットであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュールは、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するように構成され、
前記訓練モジュールは、前記決定モジュールにより決定された前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものであることを特徴とする、モデル訓練装置。
【請求項12】
コンピュータ機器に適用される画像処理装置であって、前記画像処理装置は、取得モジュールと、処理モジュールと、を備え、
前記取得モジュールは、処理されるべき画像を取得するように構成され、
前記取得モジュールは更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記オフセット変数は、畳み込みカーネルの各重み値に対応する入力画素の位置オフセットであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュールは、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成されることを特徴とする、画像処理装置。
【請求項13】
サーバであって、前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記オフセット変数は、畳み込みカーネルの各重み値に対応する入力画素の位置オフセットであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成されることを特徴とする、サーバ。
【請求項14】
端末装置であって、前記端末装置は、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記オフセット変数は、畳み込みカーネルの各重み値に対応する入力画素の位置オフセットであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成されることを特徴とする、端末装置。
【請求項15】
コンピュータに請求項1から9のうちいずれか一項に記載の方法又は請求項10に記載の方法を実行させることを特徴とする、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年03月26日に提出された出願番号が201910233985.5であり、発明名称が「画像分類モデルの訓練方法、画像処理方法及びその装置」である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願は、人工知能分野に関し、特に画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラムに関する。
【背景技術】
【0003】
画像セマンティックセグメンテーションは、画像理解の基本的な技術であり、自動運転システム(例えば、ストリートビュー認識及び理解)、無人機の適用(例えば、着陸点の判定)及びウェアラブル機器の適用において、極めて重要な役割を果たしている。画像は、多数の画素からなるものであり、セマンティックセグメンテーションは、画素を画像において表現されたセマンティック意味によってセグメンテーションし、機械を、画像におけるコンテンツを自動的にセグメンテーションして認識するようにすることである。
【0004】
現在、一般的には、1つの深層畳み込みニューラルネットワークを訓練することで、画像全体の分類を実現させ、更に、該深層畳み込みニューラルネットワークに基づいて、訓練されるべき画像における対応する画像コンテンツ領域を位置決めし、続いて、これらの画像全体分類アノテーションされた画像コンテンツ領域を分割のための教師情報として、最後に、画像セマンティックセグメンテーションネットワークモデルを訓練により得る。
【0005】
しかしながら、画像セマンティックセグメンテーションネットワークモデルを訓練する時、用いられる訓練されるべき画像は、画素レベルのアノテーションを必要とすることが多い。解像度が1024×2048である訓練されるべき画像を例として、該解像度の一枚の画像を手動でアノテーションするために、一般的には1.5時間を必要とする。これにより、手動アノテーションコストが高すぎて、モデル訓練効率が低くなることを招く。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願の実施例は、画像レベルとアノテーションされた訓練されるべき画像に対して訓練を行うことができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる、画像分類モデルの訓練方法、画像処理方法及びその装置、並びにコンピュータプログラムを提供する。
【課題を解決するための手段】
【0007】
これに鑑み、本願の第1態様は、コンピュータ機器が実行する画像分類モデルの訓練方法を提供する。前記画像分類モデルの訓練方法は、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を含む。
【0008】
本願の第2態様は、コンピュータ機器が実行する画像処理方法を提供する。前記画像処理方法は、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を含む。
【0009】
本願の第3態様は、コンピュータ機器に適用されるモデル訓練装置を提供する。前記モデル訓練装置は、取得モジュールと、決定モジュールと、訓練モジュールと、を備え、
前記取得モジュールは、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュールは更に、訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュールは、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するように構成され、
前記訓練モジュールは、前記決定モジュールにより決定された前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。
【0010】
可能な設計では、本願の実施例の第3態様の第1実施形態において、
前記決定モジュールは具体的には、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第2モデルパラメータを決定するように構成される。
【0011】
可能な設計では、本願の実施例の第3態様の第2実施形態において、
前記決定モジュールは具体的には、前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを決定するように構成される。
【0012】
可能な設計では、本願の実施例の第3態様の第3実施形態において、
前記分類損失関数は、
【数1】
で表され、
ここで、前記Lは、前記分類損失関数を表し、前記I()は、ディラック関数を表し、前記Nは、カテゴリの総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記Pは、前記第cカテゴリに対応する予測確率値を表す。
【0013】
可能な設計では、本願の実施例の第3態様の第4実施形態において、
前記取得モジュールは更に、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する前に、変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するように構成され、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものであり、
前記取得モジュールは具体的には、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第2予測カテゴリアノテーション情報を取得するように構成される。
【0014】
可能な設計では、本願の実施例の第3態様の第5実施形態において、
前記取得モジュールは具体的には、

【数2】
で前記訓練されるべき特徴画像を生成するように構成され、
ここで、前記y(p)は、前記訓練されるべき特徴画像を表し、前記pは、前記訓練されるべき特徴画像における画素値を表し、前記pは、畳み込みカーネルにおける、サンプリング点の位置を表し、前記Δpは、前記オフセット変数を表し、前記w(p)は、前記畳み込みカーネルが前記訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、前記x(p+p+Δp)は、前記訓練されるべき画像における対応する位置の画素値を表す。
【0015】
可能な設計では、本願の実施例の第3態様の第6実施形態において、
前記取得モジュールは更に、前記決定モジュールが前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定した後、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第3予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第3予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを決定するように構成され、
前記取得モジュールは更に、前記訓練されるべき画像分類ネットワークの前記第4モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第4予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュールは更に、前記画像コンテンツカテゴリ情報及び前記取得モジュールにより取得された前記第4予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第5モデルパラメータを決定するように構成され、
前記訓練モジュールは具体的には、前記決定モジュール302により決定された前記第2モデルパラメータ、前記第3モデルパラメータ、前記第4モデルパラメータ及び前記第5モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るように構成される。
【0016】
可能な設計では、本願の実施例の第3態様の第7実施形態において、
前記訓練モジュールは具体的には、前記第2モデルパラメータ及び前記第3モデルパラメータを用いて前記訓練されるべきオフセットネットワークをN回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するように構成され、前記Nは、1以上の整数であり、
前記訓練モジュールは具体的には、前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するように構成される。
【0017】
可能な設計では、本願の実施例の第3態様の第8実施形態において、
前記ターゲット損失関数は、
【数3】
で表され、
ここで、前記Lsegは、前記ターゲット損失関数を表し、前記Nは、カテゴリ総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記I()は、ディラック関数を表し、前記
【数4】
は、画素点での、前記第cカテゴリの予測確率値を表し、前記iは、前記訓練されるべき画像における、前記画素点の横座標位置を表し、前記jは、前記訓練されるべき画像における、前記画素点の縦座標位置を表す。
【0018】
本願の第4態様は、コンピュータ機器に適用される画像処理装置を提供する。前記画像処理装置は、取得モジュールと、処理モジュールと、を備え、
前記取得モジュールは、処理されるべき画像を取得するように構成され、
前記取得モジュールは更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュールは、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成される。
【0019】
本願の第5態様は、サーバを提供する。前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
訓練されるべき画像を取得するステップであって、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである、ステップと、
訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するステップであって、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、
前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップと、
前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、
前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである、ステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
【0020】
本願の第6態様は、サーバを提供する。前記サーバは、メモリと、送受信機と、プロセッサと、バスシステムと、を備え、
前記メモリは、プログラムを記憶するように構成され、
前記プロセッサは、前記メモリにおけるプログラムを実行するように構成され、前記プログラムは、
処理されるべき画像を取得するステップと、
画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するステップであって、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである、ステップと、
前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するステップと、を実行するように構成され、
前記バスシステムは、前記メモリと前記プロセッサを接続して、前記メモリと前記プロセッサを通信させるように構成される。
【0021】
本願の第7態様は、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に命令が記憶されており、該命令がコンピュータで実行されるときに、コンピュータに上記各態様に記載の方法を実行させる。
【0022】
本願の第8態様は、コンピュータプログラムを提供する。前記コンピュータプログラムは、コンピュータに上記各態様に記載の方法を実行させる。
【発明の効果】
【0023】
上記技術的解決手段から分かるように、本願の実施例は、下記利点を有する。
【0024】
本願の実施例において、画像分類モデルの訓練方法を提供する。まず、訓練されるべき画像を取得し、訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して訓練されるべき画像の第1予測カテゴリアノテーション情報を取得し、続いて、画像コンテンツカテゴリ情報及び第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定し、訓練されるべき画像分類ネットワークの第2モデルパラメータを一定にした場合、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第2予測カテゴリアノテーション情報を取得し、続いて、画像コンテンツカテゴリ情報及び第2予測カテゴリアノテーション情報に基づいて分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定し、最後に、第2モデルパラメータ及び第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得ることができる。上記方式で、オフセットネットワーク及び画像分類ネットワークを用いて、画像レベルとアノテーションされた訓練されるべき画像を訓練することができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる。
【図面の簡単な説明】
【0025】
図1】本願の実施例による画像処理システムのアーキテクチャを示す概略図である。
図2】本願の実施例による画像セマンティックセグメンテーションネットワークモデルのフローフレームワークを示す概略図である。
図3】本願の実施例による画像分類モデルの訓練方法の一実施例を示す概略図である。
図4】本願の実施例によるオフセットネットワーク及び画像分類ネットワーク的の構造を示す概略図である。
図5】本願の実施例による変形可能な畳み込みニューラルネットワークの構造を示す概略図である。
図6】本願の実施例による画像処理方法の一実施例を示す概略図である。
図7】本願の実施例による変形可能な畳み込みニューラルネットワークに基づく画像処理フローを示す概略図である。
図8】本願の実施例によるモデル訓練装置の一実施例を示す概略図である。
図9】本願の実施例による画像処理装置の一実施例を示す概略図である。
図10】本願の実施例によるサーバの構造を示す概略図である。
図11】本願の実施例による端末装置の構造を示す概略図である。
【発明を実施するための形態】
【0026】
本願の実施例は、画像レベルとアノテーションされた訓練されるべき画像に対して訓練を行うことができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる、画像分類モデルの訓練方法、画像処理方法及びその装置を提供する。
【0027】
本願の明細書、特許請求の範囲及び上記図面に言及された「第1」、「第2」、「第3」、「第4」等の用語(存在すれば)は、類似した対象を区別するためのものであり、特定の順番又は前後順序を説明するためのものではない。ここで説明した本願の実施例をここで示した又は説明した順番以外の順番で実施可能なものにするために、このように使用されたデータは適した場合であれば互いに取り替え可能なことは、理解されるべきである。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は装置は、明記されたステップ又はユニットに限定されず、明記されていないか又はこれらのプロセス、方法、製品又は装置固有の他のステップ又はユニットを含んでもよい。
【0028】
本願は、画像セマンティックセグメンテーションネットワークモデルの訓練方法、及び該画像セマンティックセグメンテーションネットワークモデルを利用した画像処理方法を提供する。該方法は、人工知能により、画像セマンティックセグメンテーションモデル訓練過程における手動アノテーションを減少させ、モデル訓練効率を向上させることができる。
【0029】
人工知能(Artificial Intelligence:AI)は、デジタルコンピュータ又はデジタルコンピュータにより制御された機器を利用して人間の知能をシミュレーション、延長、拡張し、環境を感知して知識を取得し、知識を利用して最適な結果を得る理論、方法、技術及び適用システムである。換言すれば、人工知能は、コンピュータサイエンスにおける1つの総合技術であり、知能の本質を理解し、人間知能と同様な方式で反応可能な新たな知能機器を生み出すことを意図する。人工知能は、種々の知能機器の設計原理及び実現方法を検討し、機器に、感知、推理及び意思決定機能を持たせるためのものである。
【0030】
人工知能技術は、総合的な学科であり、広い分野に関し、ハードウェアレベルの技術を含むだけでなく、ソフトウェアレベルの技術も含む。人工知能基礎技術は一般的には、センサ、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、オペレーティング/インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などの分野を含む。
【0031】
コンピュータビジョン技術(Computer Vision:CV)は、マシンに「見る」ようにする方法を研究する科学であり、さらに、人間の肉眼の代わりに撮影機及びコンピュータを使用して目標を識別、追跡、測定等のマシンビジョンを行って、さらに画像処理をして、コンピュータで、人間の肉眼観察または機器へ送信して検出することに適した画像になるように処理することである。1つの科学分野として、コンピュータビジョンは、関連した理論及び技術を検討し、画像又は多次元データから情報を取得できる人工知能システムを構築することを意図している。コンピュータビジョン技術は一般的には、画像処理、画像認識、画像セマンティック理解、画像検索、光学文字認識(Optical Character Recognition:OCR)、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ/挙動認識、三次元物体再構築、3D技術、仮想現実、拡張現実、位置推定とマッピングの同時実行等の技術を含み、一般的な顔認識、指紋認識などの生体特徴認識技術を更に含む。
【0032】
機械学習(Machine Learning:ML)は、多数の分野に関わる学科であり、確率論、統計学、近似論、凸分析、アルゴリズム複雑度理論などの複数の学科に関する。それは、コンピュータが人間の学習挙動を如何に模擬又は実現するかを鋭意検討し、新たな知識及びスキルを取得し、既存の知識構造を再構成し、自体の性能を絶え間なく改良する。機械学習は、人工知能のキーポイントであり、コンピュータに知能を持たせる根本的な手段であり、その適用は、人工知能の各分野にわたる。機械学習及び深層学習は一般的には、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納的学習、教示的学習などの技術を含む。
【0033】
本願で提供される方法は、主に、人工知能分野におけるコンピュータビジョン分野に適用される。コンピュータビジョン分野において、セグメンテーション、検出、認識及び追跡という課題は、密に関連している。従来の、グレースケール、色、テクスチャ及び形状などの特徴に基づく画像セグメンテーション課題と異なっており、画像セマンティックセグメンテーションは、画素レベルで画像を理解し、画像における各画素に対応するターゲットカテゴリを決定する必要がある。カテゴリのアルゴリズム精度に求められる要件は、とどまるところを知らない。コンピュータによる画像コンテンツの理解は、最初の画像全体に対するセマンティックラベルの提供(画像分類)から、画像に出現した画像コンテンツ位置の画成までに進歩することができる。更に、コンピュータに画像における各画素点のセマンティック情報を理解させ、コンピュータに人間のように画像を見てもらう。これは、画像セマンティックセグメンテーションである。
【0034】
画像セマンティックセグメンテーションの目的は画像における各画素点についてラベルをアノテーションするという点で、画像分類及び画像コンテンツ検出と相違している。簡単に理解すれば、セマンティックセグメンテーションは、コンピュータビジョンにおける十分に重要な分野であり、これは、画像を画素レベルで認識することである。つまり、画像における各画素が属する対象カテゴリをアノテーションする。本願で提供される画像処理方法は、自動運転シーンに適用可能である。つまり、車両に、必要な感知機能を追加し、車両が位置する環境を了解し、自動運転される自動車の安全な走行に寄与する。また、医用画像による診断にも適用可能である。機械は、放射線医による分析を補強し、診断試験に必要な時間を大幅に低減させる。例えば、胸部のX線フィルムをセグメンテーションすることで、心臓領域及び肺部領域を得ることができる。
【0035】
理解しやすくするために、本願は、画像処理方法を提供する。該方法は、図1に示す画像処理システムに適用される。図1を参照すると、図1は、本願の実施例による画像処理システムのアーキテクチャを示す概略図である。図面に示すように、本願で提供されるモデル訓練装置は、サーバに配置されてもよく、画像処理装置は、クライアントに配置されてもよい。任意選択的に、画像処理装置は、サーバに配置されてもよい。ここで、画像処理装置がクライアントに配置されることを例として説明する。まず、サーバは、変形可能な畳み込みニューラルネットワークを訓練して画像全体の分類を実現させる。続いて、サーバは、競合的学習ポリシーを利用して使ネットワークバックボーン(即ち、画像分類ネットワーク)及びネットワーク分岐(即ち、オフセットネットワーク)を交互に訓練する。オフセットネットワークを訓練するたびに、サーバは、分類損失関数の増大により生成された勾配を利用して該ネットワーク分岐を更新し、画像全体分類に対する貢献が弱い領域を次第に見付けるようにする。これにより、ターゲット画像コンテンツの画像コンテンツ領域を得る。最後に、位置決めにより得られた画像コンテンツ領域をセグメンテーションのための教師情報として、訓練を行うことで、画像セマンティックセグメンテーションネットワークモデルを得、画像セグメンテーションを実現させる。
【0036】
クライアントがサーバに接続された場合、クライアントは、サーバから画像セマンティックセグメンテーションネットワークモデルをダウンロードし、更に、処理されるべき画像を該画像セマンティックセグメンテーションネットワークモデルに入力し、画像セマンティックセグメンテーションネットワークモデルにより、処理されるべき画像のセマンティックセグメンテーション結果を出力することができる。又は、クライアントは、処理されるべき画像をサーバにアップロードし、サーバは、画像セマンティックセグメンテーションネットワークモデルを利用して、処理されるべき画像を処理し、セマンティックセグメンテーション結果を得、音声セグメンテーション結果をクライアントに返信することもできる。クライアントがサーバに接続されていない場合、サーバは、直接的にバックグラウンドで画像セマンティックセグメンテーションネットワークモデルを利用して、処理されるべき画像を処理し、セマンティックセグメンテーション結果を得ることもできる。
【0037】
クライアントは、端末装置に配置されてもよく、端末装置は、無人車両、ロボット、タブレット、ノートパソコン、パーソナルテジタルアシスタント、携帯電話、音声対話端末及びパーソナルコンピュータ(personal computer:PC)を含むが、これに限定されないことに留意されたい。
【0038】
理解しやすくするために、図2を参照されたい。図2は、本願の実施例による画像セマンティックセグメンテーションネットワークモデルのフローフレームワークを示す概略図である。図面に示すように、まず、訓練画像21及び画像レベルのカテゴリアノテーション情報22を取得し、次に、訓練画像21及びカテゴリアノテーション情報22を利用して訓練を行い、弱教師あり画像セマンティックセグメンテーションネットワークモデル23を得る。続いて、未知の試験画像24を取得し、該試験画像24を画像セマンティックセグメンテーションネットワークモデル23に入力し、該画像セマンティックセグメンテーションネットワークモデル23により、未知の試験画像24に対してセグメンテーションを行うことで、試験画像のセマンティックセグメンテーション結果25を予測する。
【0039】
上記説明を参照しながら、以下、本願における画像分類モデルの訓練方法を説明する。ここで、該方法は、コンピュータ機器により実行されてもよい。例えば、コンピュータ機器におけるモデル訓練装置により実行されてもよい。ここで、該コンピュータ機器は、上記図1に示すシステムにおけるサーバであってもよい。図3を参照すると、本願の実施例における画像分類モデルの訓練方法の一実施例は、以下を含む。
【0040】
101において、訓練されるべき画像を取得し、訓練されるべき画像は、カテゴリアノテーション情報を有し、カテゴリアノテーション情報は、訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである。
【0041】
本実施例において、モデル訓練装置は、まず、訓練されるべき画像を取得する必要がある。ここで、訓練されるべき画像は、カテゴリアノテーション情報を有する。カテゴリアノテーション情報は、訓練されるべき画像中存在的に存在する画像コンテンツカテゴリ情報を表すためのものである。例えば、訓練されるべき画像において、「人間」、「馬」、「テレビ」及び「ソファー」などの画像コンテンツカテゴリ情報をアノテーションする。任意選択的に、画像コンテンツカテゴリ情報は、画像における物体に対応するカテゴリ情報に加えて、空、雲、芝生及び海などのシーンに対応するカテゴリ情報であってもよい。
【0042】
一例において、データベースから訓練されるべき画像をダウンロードし、続いて、手動アノテーションの方式で訓練されるべき画像をアノテーションすることで、訓練されるべき画像のカテゴリアノテーション情報を得ることができる。大量のユーザデータを有するウェブサイトから、カテゴリアノテーション情報を有する訓練されるべき画像を自動的にクローリングすることもできる。訓練されるべき画像は、ビットマップ(BitMaP:BMP)フォーマット、パーソナルコンピュータ交換(Personal Computer Exchange:PCX)フォーマット、タグ画像ファイルフォーマット(TagImage File Format:TIF)、グラフィックインターチェンジフォーマット(Graphics Interchange Format:GIF)、共同写真専門家グループ(Joint Photographic Expert Group:JPEG)フォーマット、交換可能な画像ファイルフォーマット(Exchangeable Image file Format:EXIF)、スケーラブルベクトルグラフィックス(Scalable Vector Graphics:SVG)フォーマット、図面交換フォーマット(Drawing Exchange Format:DXF)、カプセル化されたページ記述言語(Encapsulated Post Script:EPS)フォーマット、ポータブルネットワークグラフィックス(Portable Network Graphics:PNG)フォーマット、ハイダイナミックレンジイメージング(High Dynamic Range Imaging:HDRI)及びメタファイルフォーマット(Windows Metafile Format:WMF)というフォーマットを含むが、これらに限定されない。
【0043】
ウェブサイトにおける訓練されるべき画像をクローリングする場合、該訓練されるべき画像は、ハイパーテキストマークアップ言語(HyperText Markup Language,HTML)、ピクチャ、ドキュメント(Document:Doc)、マルチメディア、ダイナミックウェブページ及びポータブルドキュメントフォーマット(Portable Document Format:PDF)等のフォーマットに存在してもよい。
【0044】
102において、訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して訓練されるべき画像の第1予測カテゴリアノテーション情報を取得し、訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。
【0045】
本実施例において、モデル訓練装置は、訓練されるべき画像及び該訓練されるべき画像に対応するカテゴリアノテーション情報を取得した後、画像分類ネットワークとオフセットネットワークに対する交互訓練を開始する。例えば、図4を参照されたい。図4は、本願の実施例によるオフセットネットワーク及び画像分類ネットワークの構造を示す概略図である。図面に示すように、訓練されるべき画像分類ネットワーク41を訓練する場合、まず、訓練されるべきオフセットネットワーク42の重み値を一定にする必要がある。つまり、訓練されるべきオフセットネットワーク42の第1モデルパラメータを一定にする。続いて、訓練されるべき画像43を訓練されるべき画像分類ネットワーク41に入力し、該訓練されるべき画像分類ネットワーク41により、訓練されるべき画像43の第1予測カテゴリアノテーション情報を出力する。
【0046】
ここで、訓練されるべきオフセットネットワーク42は、分類に対する貢献が弱い入力点位置を提供し、変更したオフセット変数44に基づいて、判別性が弱い画像コンテンツ領域までに位置決めするという目的を達成することができる。訓練されるべき画像分類ネットワーク41は、画像全体における画像コンテンツ領域を分類するために用いられる。
【0047】
103において、画像コンテンツカテゴリ情報及び第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定する。
【0048】
本実施例において、モデル訓練装置は、分類損失関数を用いて、訓練されるべき画像分類ネットワークを訓練する。分類損失関数は、モデル予測値と真値との不一致度合いを予測するためのものである。ここで、訓練されるべき画像の画像コンテンツカテゴリ情報は、真値であり、訓練されるべき画像の第1予測カテゴリアノテーション情報は、予測値である。分類損失関数は小さいほど、画像分類ネットワークのロバスト性は高くなる。従って、分類損失関数によれば、訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを得ることができる。
【0049】
104において、訓練されるべき画像分類ネットワークの第2モデルパラメータを一定にした場合、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する。
【0050】
本実施例において、モデル訓練装置は、訓練により、訓練されるべき画像分類ネットワークの第2モデルパラメータを得た後、モデルの交互訓練に基づいて、訓練されるべき画像分類ネットワークの重み値を一定にする必要がある。つまり、訓練されるべき画像分類ネットワークの第2モデルパラメータを一定にする。続いて、訓練されるべき画像を訓練されるべきオフセットネットワークに入力し、該訓練されるべきオフセットネットワークにより、訓練されるべき画像の第2予測カテゴリアノテーション情報を出力する。
【0051】
訓練されるべき画像分類ネットワークと訓練されるべきオフセットネットワークを交互に訓練する場合、まず、固定訓練されるべきオフセットネットワークのモデルパラメータを一定にし、続いて、訓練されるべき画像分類ネットワークを訓練することができることは、理解されるべきである。まず、訓練されるべき画像分類ネットワークのモデルパラメータを一定にし、続いて、訓練されるべきオフセットネットワークを訓練することもできる。本願は、まず、訓練されるべきオフセットネットワークのモデルパラメータを一定にし、続いて、訓練されるべき画像分類ネットワークを訓練することを例として説明するが、これは、本願を限定するものと理解すべきではない。
【0052】
105において、画像コンテンツカテゴリ情報及び第2予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定する。
【0053】
本実施例において、モデル訓練装置は、同一の分類損失関数を用いて、訓練されるべきオフセットネットワークを訓練する。分類損失関数は、モデル予測値と真値との不一致度合いを予測するためのものである。ここで、訓練されるべき画像の画像コンテンツカテゴリ情報は、真値であり、訓練されるべき画像の第2予測カテゴリアノテーション情報は、予測値である。従って、分類損失関数によれば、オフセットネットワークに対応する第2モデルパラメータを得ることができる。
【0054】
106において、第2モデルパラメータ及び第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得、画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。
【0055】
本実施例において、少なくとも1回の交互訓練を行った後、モデル訓練装置は、毎回の訓練で得られたモデルパラメータ(訓練により得られた第2モデルパラメータ及び第3モデルパラメータを含む)に基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練する。例示的な解決手段において、交互訓練を終了した後、オフセットネットワークを訓練する過程において予測されたオフセット変数を1つの画像コンテンツ領域となるように融合し、最後に、得られた画像コンテンツ領域を画素レベルのセグメンテーションの教師情報として用い、該教師情報を用いて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得る。処理されるべき画像を画像セマンティックセグメンテーションネットワークモデルに入力する場合、該画像セマンティックセグメンテーションネットワークモデルにより、対応するセマンティックセグメンテーション結果を出力する。
【0056】
教師あり学習(supervised learning)は、主に、回帰(regression)及び分類(classification)という2つの解題を解決するために用いられる。回帰は、定量的出力に対応し、分類は、定性的出力に対応する。簡潔に言えば、既知のデータから、演算により、明確な値を得ることは、回帰である。例えば、y=f(x)は、典型的な回帰関係を示す。既知のデータ又はアノテーションされたデータから、演算により、カテゴリを得ることは、分類である。
【0057】
本願の実施例において、上記方式で、オフセットネットワーク及び画像分類ネットワークを用いて、画像レベルとアノテーションされた訓練されるべき画像を訓練することができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる
任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第1選択可能な実施例において、画像コンテンツカテゴリ情報及び第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて、訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップは、
画像コンテンツカテゴリ情報及び第1予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定するステップと、
分類損失関数の分類損失が最小値である場合、訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するステップと、を含む。
【0058】
本実施例において、第2モデルパラメータの決定方法を説明する。まず、真値(即ち、訓練されるべき画像の画像コンテンツカテゴリ情報)及び予測値(即ち、訓練されるべき画像の第1予測カテゴリアノテーション情報)に基づいて、各カテゴリに対応する予測確率値を決定する。「人間」、「馬」、「冷蔵庫」、「テレビ」及び「ソファー」という5つのカテゴリがあると仮定すれば、第1予測カテゴリアノテーション情報は、「人間」、「冷蔵庫」、「テレビ」及び「ソファー」含み、下記予測確率値を得ることができる。「人間」の予測確率値は、0.93であり、「冷蔵庫」の予測確率値は、0.88であり、「馬」の予測確率値は、0であり、「テレビ」の予測確率値は、0.5であり、「ソファー」の予測確率値は、0.65である。続いて、各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定する。
【0059】
該分類損失関数の分類損失が最小値になった場合、該最小値で、訓練されるべき画像分類ネットワークに対応するモデルパラメータを取得することができる。該モデルパラメータは、第2モデルパラメータである。本願における分類損失関数の分類損失は、クロスエントロピー分類損失であってもよいことは、理解されるべきである。
【0060】
次に、本願の実施例において、上記方式で、画像レベルの分類損失関数の分類損失を最小化することで、画像全体分類能力を持つ画像分類ネットワークを得ることができ、また、該画像分類ネットワークは、高いロバスト性を有し、より高い画像分類効果を有する。
【0061】
任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第2選択可能な実施例において、画像コンテンツカテゴリ情報及び第2予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて、訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップは、
画像コンテンツカテゴリ情報及び第2予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定するステップと、
各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定するステップと、
分類損失関数の分類損失が最大値である場合、訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するステップと、を含む。
【0062】
本実施例において、第3モデルパラメータの決定方法を説明する。まず、真値(即ち、訓練されるべき画像の画像コンテンツカテゴリ情報)及び予測値(即ち、訓練されるべき画像の第2予測カテゴリアノテーション情報)に基づいて、各カテゴリに対応する予測確率値を決定する。ここの第2予測カテゴリアノテーション情報は、変形可能な畳み込みニューラルネットワークにより処理されたものである。「人間」、「馬」、「冷蔵庫」、「テレビ」及び「ソファー」という5つのカテゴリがあると仮定すれば、第2予測カテゴリアノテーション情報は、「人間」、「馬」、「冷蔵庫」、「テレビ」及び「ソファー」含み、下記予測確率値を得ることができる。「人間」の予測確率値は、0.75であり、「冷蔵庫」の予測確率値は、0.65であり、「馬」の予測確率値は、0.19であり、「冷蔵庫」の予測確率値は、0.66であり、「テレビ」の予測確率値は、0.43であり、「ソファー」の予測確率値は、0.78である。続いて、各カテゴリに対応する予測確率値に基づいて、分類損失関数の分類損失を決定する。
【0063】
該分類損失関数の分類損失が最大値になった場合、該最大値で、訓練されるべきオフセットネットワークに対応するモデルパラメータを取得することができる。該モデルパラメータは、第3モデルパラメータである。本願における分類損失関数の分類損失は、クロスエントロピー分類損失であってもよいことは、理解されるべきである。
【0064】
実際の適用において、時系列又は画像は連続したものであることが多いが、モデルに入力されたデータは、不連続的なものであることが多い。従って、入力に微小な摂動を加えることで、モデルを、ノイズ摂動に対してより良好に対抗するようにする。つまり、対抗サンプルを取得し、これを最大限分類し、サンプル空間において1つの元のサンプルに近接させる(距離は、無限に小さい)。勾配降下法又はニュートン法などを用いて、モデルパラメータを算出することができることは、理解されるべきである。
【0065】
次に、本願の実施例において、上記方式で、画像レベルの分類損失関数の分類損失を最大化することで、画像分類ネットワークの分類難度を向上させ、敵対的訓練の効果を達成し、画像分類ネットワークの分類効果を高くし、つまり、より高い画像分類効果を持たせる。なお、画像レベルの分類損失関数の分類損失を最大化することで、オフセットネットワークが、分類に対する貢献が弱い入力点の位置を提供し、変更したオフセット変数に基づいて、判別性が弱い画像コンテンツ領域を位置決めするという目的を達成することもできる。
【0066】
任意選択的に、上記図3及び上記図3に対応する第1又は第2実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第3選択可能な実施例において、分類損失関数は、
【数5】
で表されてもよく、
ここで、Lは、分類損失関数を表し、I()は、ディラック関数を表し、Nは、カテゴリの総数を表し、cは、第cカテゴリを表し、kは、1以上であってN以下であり、Pは、第cカテゴリに対応する予測確率値を表す。
【0067】
本実施例において、画像分類ネットワーク及びオフセットネットワークを訓練により得るための分類損失関数を定義する。つまり、下記分類損失関数を用いる。
【0068】
【数6】
上記から分かるように、画像分類ネットワーク及びオフセットネットワークを訓練する場合、画像レベルの画像コンテンツ領域を訓練対象とすることで得られた画像分類ネットワーク及びオフセットネットワークは、画像における各画像コンテンツ領域のカテゴリを予測することができる。
【0069】
また、本願の実施例において、分類損失関数の例示的なコンテンツを提供する。上記方式によれば、解決手段の実現のために、実行可能な方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。
【0070】
任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第4選択可能な実施例において、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する前に、
変形可能な畳み込みニューラルネットワークを介して訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップであって、変形可能な畳み込みニューラルネットワークは訓練されるべき画像のオフセット変数を予測するためのものである、ステップを更に含んでもよく、
訓練されるべきオフセットネットワークを介して訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するステップは、
訓練されるべきオフセットネットワークを介して訓練されるべき特徴画像に対応する第2予測カテゴリアノテーション情報を取得するステップを含んでもよい。
【0071】
本実施例において、利用変形可能な畳み込みニューラルネットワークを利用して第2予測カテゴリアノテーション情報を生成する方法を説明する。一例示的な解決手段において、まず、訓練されるべき画像を変形可能な畳み込みニューラルネットワーク(deformable convolution)に入力し、変形可能な畳み込みニューラルネットワークにより、予測されたオフセット変数を出力する。オフセット変数は、1つの畳み込みカーネルの各重み値に対応する入力画素の位置オフセットである。オフセット変数によれば、操作の実際の入力特徴を変更することができる。
【0072】
理解しやすくするために、図5を参照されたい。図5は、本願の実施例による変形可能な畳み込みニューラルネットワークの構造を示す概略図である。図面に示すように、従来の畳み込みウィンドウは、各畳み込みウィンドウの画素重み値のみを訓練すればよいが、変形可能な畳み込みネットワークは、畳み込みウィンドウの形状を訓練するための幾つかのパラメータを追加する必要がある。図5におけるオフセット領域51は、変形畳み込みに追加された訓練されるべきパラメータである。訓練されるべきパラメータの大きさは、訓練されるべき画像52の大きさと同じである。畳み込みウィンドウがオフセット領域51でスライドすると、畳み込み画素のオフセット効果を示し、サンプリング点の最適化の効果を達成する。最後に、訓練されるべき特徴画像53を出力する。訓練されるべき特徴画像を訓練されるべきオフセットネットワークに入力し、訓練されるべきオフセットネットワークにより、第2予測カテゴリアノテーション情報を出力する。
【0073】
次に、本願の実施例において、上記方式で、1つの畳み込みカーネルにおける各重みに対応する入力画素の位置オフセット変数を予測し、畳み込み操作の実際の入力特徴を変更し、これにより、最も有効な変換方式を訓練により得、敵対的訓練のモードを実現させることができる。
【0074】
任意選択的に、上記図3に対応する第4実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第5選択可能な実施例において、変形可能な畳み込みニューラルネットワークを介して訓練されるべき画像に対応する訓練されるべき特徴画像を取得するステップは、
【数7】
で訓練されるべき特徴画像を生成するステップを含んでもよく、
ここで、y(p)は、訓練されるべき特徴画像を表し、pは、訓練されるべき特徴画像における画素値を表し、pは、畳み込みカーネルにおける、サンプリング点の位置を表し、Δpは、オフセット変数を表し、w(p)は、畳み込みカーネルが訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、
x(p+p+Δp)は、訓練されるべき画像における対応する位置の画素値を表す。
【0075】
本実施例において、変形可能な畳み込みニューラルネットワークを介して訓練されるべき特徴画像を取得する方法を説明する。出力位置がpである特徴に対して、従来の畳み込み層を用いると、対応する入力特徴位置集合は、p+pである。ここで、p∈Rであり、Rは、0を中心とした全ての標準的な正方形オフセット量である例えば、1つの3×3畳み込みカーネルに対応するRは、{(0,0),(-1,-1),(-1,1),(1,1),(1,-1),(-1,0),(1,0),(0,1),(0,1)}である。変形可能な畳み込みニューラルネットワークの入力特徴集合は、p+pを基に、予測された追加のオフセット変数を導入する。従って、実際に入力された特徴位置集合は、p+p+Δpである。つまり、出力層y(p)は、
【数8】
で表され、
ここで、y(p)は、訓練されるべき特徴画像を表し、pは、訓練されるべき特徴画像における画素値を表し、pは、畳み込みカーネルにおける、サンプリング点の位置を表し、Δpは、オフセット変数を表し、w(p)は、畳み込みカーネルが訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、x(p+p+Δp)は、訓練されるべき画像における対応する位置の画素値を表す。
【0076】
また、本願の実施例において、訓練されるべき特徴画像を生成するための例示的な方式を提供する。上記方式で、解決手段の実現のために、実行可能方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。
【0077】
任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第6選択可能な実施例において、画像コンテンツカテゴリ情報及び第2予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定した後、
訓練されるべきオフセットネットワークに対応する第3モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して訓練されるべき画像の第3予測カテゴリアノテーション情報を取得するステップと、
画像コンテンツカテゴリ情報及び第3予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを決定するステップと、
訓練されるべき画像分類ネットワークの第4モデルパラメータを一定にした場合、訓練されるべきオフセットネットワークを介して訓練されるべき画像の第4予測カテゴリアノテーション情報を取得するステップと、
画像コンテンツカテゴリ情報及び第4予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて訓練されるべきオフセットネットワークに対応する第5モデルパラメータを決定するステップと、を更に含んでもよく
第2モデルパラメータ及び第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
第2モデルパラメータ、第3モデルパラメータ、第4モデルパラメータ及び第5モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップを含む。
【0078】
本実施例において、もう1つのモデル交互訓練過程を説明する。モデル訓練装置は、一回の交互訓練を完了した後、次回の要件訓練を開始することができる。例えば、訓練されるべき画像分類ネットワークを訓練する場合、まず、訓練されるべきオフセットネットワークの重み値を一定にする必要がある。つまり、固定訓練されるべきオフセットネットワークの第3モデルパラメータを一定にする。続いて、訓練されるべき画像を訓練されるべき画像分類ネットワークに入力し、該訓練されるべき画像分類ネットワークにより、訓練されるべき画像の第3予測カテゴリアノテーション情報を出力する。従って、モデル訓練装置は、分類損失関数を用いて、訓練されるべき画像分類ネットワークを訓練する。分類損失関数は、モデル予測値と真値との不一致度合いを予測するためのものである。ここで、訓練されるべき画像の画像コンテンツカテゴリ情報は、真値であり、訓練されるべき画像の第3予測カテゴリアノテーション情報は、予測値である。分類損失関数は小さいほど、画像分類ネットワークのロバスト性は高くなる。従って、分類損失関数によれば、訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを得ることができる。
【0079】
モデル訓練装置は、訓練により、訓練されるべき画像分類ネットワークの第4モデルパラメータを得た後、モデルの交互訓練に基づいて、訓練されるべき画像分類ネットワークの重み値を一定にする必要がある。つまり、訓練されるべき画像分類ネットワークの第4モデルパラメータを一定にする。続いて、訓練されるべき画像を訓練されるべきオフセットネットワークに入力し、該訓練されるべきオフセットネットワークにより、訓練されるべき画像の第4予測カテゴリアノテーション情報を出力する。
【0080】
モデル訓練装置は、同一の分類損失関数を用いて、訓練されるべきオフセットネットワークを訓練する。分類損失関数は、モデル予測値と真値との不一致度合いを予測するためのものである。ここで、訓練されるべき画像の画像コンテンツカテゴリ情報は、真値であり、訓練されるべき画像の第4予測カテゴリアノテーション情報は、予測値である。従って、分類損失関数によれば、オフセットネットワークに対応する第5モデルパラメータを得ることができる。
【0081】
複数回の交互訓練を行った後、モデル訓練装置は、毎回の訓練で得られたモデルパラメータ(訓練により得られた第2モデルパラメータ、第3モデルパラメータ、第4モデルパラメータ及び第5モデルパラメータを含む)に基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練する。例示的な解決手段において、交互訓練を終了した後、オフセットネットワークを訓練する過程において予測されたオフセット変数を1つの比較的完全な画像コンテンツ領域となるように融合し、最後に、得られた画像コンテンツ領域を画素レベルのセグメンテーションの教師情報として用い、該教師情報を用いて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得る。処理されるべき画像を画像セマンティックセグメンテーションネットワークモデルに入力する場合、該画像セマンティックセグメンテーションネットワークモデルにより、対応するセマンティックセグメンテーション結果を出力する。
【0082】
次に、本願の実施例において、上記方式で、1つの分岐を一定にし、もう1つの分岐を訓練するという方策により、画像分類ネットワークとオフセットネットワークに絶え間なく競合的学習を実行させることができ、画像分類ネットワークは情報量のより小さい領域を入力とした後に分類器を絶え間なく補強するように訓練する一方で、オフセットネットワークの分岐により判別性がより弱い領域を絶え間なく位置決めすることもできる。
【0083】
任意選択的に、上記図3に対応する実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第1選択可能な実施例において、第2モデルパラメータ及び第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るステップは、
第2モデルパラメータ及び第3モデルパラメータを用いて訓練されるべきオフセットネットワークをN回訓練した場合、訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、訓練されるべき画像に対応する画像コンテンツ領域を決定するステップであって、Nは、1以上の整数である、ステップと、
画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練するステップと、
ターゲット損失関数の損失結果が最小値である場合、画像セマンティックセグメンテーションネットワークモデルを生成するステップと、を含んでもよい。
【0084】
本実施例において、画像セマンティックセグメンテーションネットワークモデルの生成方法を説明する。N回の交互訓練を終了した後、オフセットネットワークを訓練する過程において予測されたオフセット変数を全て融合することで、比較的完全な画像コンテンツ領域を得、つまり、訓練されるべき画像に対応する画像コンテンツ領域を得ることができる。得られた画像コンテンツ領域を画素レベルのセグメンテーションの教師情報として用い、続いて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練する。ターゲット損失関数が最小値である場合、画像セマンティックセグメンテーションネットワークモデルを生成する。
【0085】
画像セマンティックセグメンテーションネットワークモデルの適用範囲は広い。例えば、画像修正者が画像を正確に美化するのを補助するか又は無人運転自動車が前方の障害物を正確に理解するのを補助する。画像セマンティックセグメンテーションネットワークモデルを用いてセマンティックセグメンテーションを行う方法は多数である。例えば、閾値法を用いる。閾値法の目的は、グレースケール画像を前背景が分離した二値画像に変換することである。グレースケール画像に、前景画像コンテンツ及び背景画像という2つの主なカテゴリのみを含むと仮定する。続いて、平衡画像統計ヒストグラムの方式で、良好な画素閾値を見付け、画像における全ての点を該2つのカテゴリに分ける。ここで、閾値より大きい点は、画像コンテンツであり、閾値以下の点は、背景である。
【0086】
また例えば、画素クラスタリングの方法で、まず、K個の中心点を選択し、続いて、各画素点と該K個の画素との差別の大きさに基づいて、画像の全ての点を該K個の中心点に割り当て、続いて、各カテゴリの中心を再演算し、上記ステップに応じて反復最適化を行い、画像における全ての画素をK個のカテゴリに分ける。
【0087】
また例えば、画素縁セグメンテーションの方法で、抽出された縁情報を利用して、画像における異なる領域をセグメンテーションする。
【0088】
次に、本願の実施例において、上記方式で、データアノテーションに対する要件が高すぎるという問題を解決し、大量の画像に対して画素レベルのアノテーションを行う必要がなく、弱教師あり要件での画像セマンティックセグメンテーションを実現させる。高価な画素レベルの情報を必要とせず、画像レベルのアノテーションのみを提供すれば、従来方法に匹敵するセマンティックセグメンテーション精度を取得することができる。
【0089】
任意選択的に、上記図3に対応する第7実施例を基に、本願の実施例で提供される画像分類モデルの訓練方法の第8選択可能な実施例において、ターゲット損失関数は、
【数9】
で表されてもよく、
ここで、Lsegは、ターゲット損失関数を表し、Nは、カテゴリ総数を表し、cは、第cカテゴリを表し、kは、1以上であって前記N以下であり、I()は、ディラック関数を表し、
【数10】
は、画素点での、第cカテゴリの予測確率値を表し、iは、訓練されるべき画像における、画素点の横座標位置を表し、jは、訓練されるべき画像における、画素点の縦座標位置を表す。
【0090】
本実施例において、画像セマンティックセグメンテーションネットワークモデルを訓練により得るためのターゲット損失関数を定義する。つまり、
【数11】
というターゲット損失関数を用いる。
【0091】
上記から分かるように、画像セマンティックセグメンテーションネットワークモデルを訓練する場合、画素レベルの画像を訓練対象とすることで得られた画像セマンティックセグメンテーションネットワークモデルは、画像における各特徴点のカテゴリを予測することができる。
【0092】
また、本願の実施例において、ターゲット損失関数の例示的なコンテンツを提供する。上記方式によれば、解決手段の実現のために、実行可能な方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。
【0093】
上記説明を参照しながら、以下、本願における画像処理方法を説明する。ここで、該方法は、コンピュータ機器により実行されてもよい。例えば、コンピュータ機器におけるモデル訓練装置により実行されてもよい。ここで、該コンピュータ機器は、上記図1に示すシステムにおける端末機器又はサーバであってもよい。図6を参照すると、本願の実施例における画像処理方法の一実施例は、以下を含む。
【0094】
201において、処理されるべき画像を取得する。
【0095】
本実施例において、モデル訓練装置は、1つの画像セマンティックセグメンテーションネットワークモデルを訓練により得た後、画像処理装置は、1つの処理されるべき画像を取得することができる。ここで、画像処理装置は、無人車両に配置される場合、カメラにより、無人車両の走行過程において収集されたストリートビュー画像を取得することができる。画像処理装置は、ロボットに配置される場合、ロボットが位置する環境でのストリートビュー画像をリアルタイムで収集することができる。画像処理装置は、携帯電話又はタブレットなどのハンドヘルド機器に配置される場合、ユーザにより撮られた写真又はウェブサイトからダウンロードされたピクチャを取得することができる。これらの画像はいずれも、処理されるべき画像とすることができる。
【0096】
処理されるべき画像は、BMPフォーマット、PCXフォーマット、TIF、GIF、JPEGフォーマット、EXIF、SVGフォーマット、DXF、EPSフォーマット、PNGフォーマット、HDRIフォーマット及びWMFというフォーマットを含むが、これらに限定されない。
【0097】
202において、画像セマンティックセグメンテーションネットワークモデルにより、処理されるべき画像のセマンティックセグメンテーション結果を取得し、画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。
【0098】
本実施例において、画像処理装置は、処理されるべき画像を画像セマンティックセグメンテーションネットワークモデルに入力し、該画像セマンティックセグメンテーションネットワークモデルにより、対応するセマンティックセグメンテーション結果を出力する。ここで、画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークを交互に訓練することで得られたものであり、該訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。画像セマンティックセグメンテーションネットワークモデルの訓練過程は、上記図3及び図3に対応する第1から第8実施例に記載したとおりであり、ここで、詳細な説明を省略することは、理解されるべきである。
【0099】
画像セマンティックセグメンテーションネットワークモデルは、全畳み込みニューラルネットワーク(Fully Convolutional Networks:FCN)、条件付き確率場(conditional random field:CRF)又はマルコフ確率場(Markov random field:MRF)に基づいて訓練されたものであり、他の構造のニューラルネットワークに基づいて訓練されたものであってもよく、ここで、詳細な説明を省略することは、理解されるべきである。
【0100】
ここで、FCNは主に、畳み込み(Convolutional)、アップサンプリング(Upsample)及びスキップ構造(Skip Layer)という3つの技術を用いる。畳み込みは、VGG16又は残差ネットワーク(Residual Neural Network:ResNet)50/101等などのような一般的な分類ネットワークの全結合層を捨て、対応する畳み込み層を交換することである。アップサンプリングは、逆畳み込み(Deconvolution)であり、逆畳み込みは、畳み込みと同様であり、いずも乗算及び加算を行う。逆畳み込みは、1対多式であり、逆畳み込みのフォワードプロパゲーション及びバックプロパゲーションとして、畳み込みのフォワードプロパゲーション及びバックプロパゲーションを逆転したものを利用すればよい。スキップ構造の役割は、結果最適化である。全畳み込みを行った結果を直接的にアップサンプリングすることで得られた結果は粗いため、異なるプーリング層の結果をアップサンプリングした後に出力を最適化する必要がある。
【0101】
203において、セマンティックセグメンテーション結果に基づいて、処理されるべき画像を処理する。
【0102】
本実施例において、画像処理装置は、セマンティックセグメンテーション結果に基づいて該処理されるべき画像を処理する。任意選択的に、セマンティックセグメンテーション結果は、ウェブサイトで画像を利用して画像を検索するために用いられる。つまり、処理されるべき画像に関わる他の画像を検索するために用いられる。また、画像コンテンツ分析に基づくカスタマイズ推薦などにも適用可能である。セマンティックセグメンテーション結果は、一般的には下記特徴を有する。1つ目の特徴は、セグメンテーションで得られた異なる領域の内部は、平滑であり、そのテクスチャ及びグレースケールは類似性を有することである。2つ目の特徴は、隣接セマンティックセグメンテーション領域のセグメンテーションの根拠とした性質が明らかに相違していることである。3つ目の特徴は、セグメンテーションした後の異なるセマンティック領域の境界は明確であって規則的である。
【0103】
本願の実施例において、上記方式で、弱教師あり画像セマンティックセグメンテーションを実現させ、精細な画素レベルのセグメンテーションアノテーションデータを欠けている場合に適用可能であり、画像全体の分類アノテーションのみに依存し、正確率の高い画像セグメンテーションを実現させる。
【0104】
理解しやすくするために、図7を参照されたい。図7は、本願の実施例による変形可能な畳み込みニューラルネットワークに基づく画像処理フローを示す概略図である。図面に示すように、まず、処理されるべき画像71を取得し、該処理されるべき画像から、例えば図7に示す赤色自動車のような関心画像を抽出し、処理されるべき画像から抽出された関心画像を畳み込み層72に入力し、関心領域プーリング層73により、関心画像の特徴マップ74を得る。一例示的な解決手段において、プーリング対象が3×3の特徴マップであると仮定すると、まず、入力された関心画像に対して関心領域プーリングを行い、大きさが3×3である特徴マップ74を得、続いて、全結合層75により、各領域に対応するオフセット変数76を出力する。もう1つの全結合層77により処理を行うことで、セマンティックセグメンテーション結果(分類情報78及び位置決め情報79を含む)を得る。
【0105】
以下、本願におけるモデル訓練装置を詳しく説明する。ここで、該モデル訓練装置は、コンピュータに適用可能である。例えば、該コンピュータ機器は、上記図1に示すシステムにおけるサーバであってもよい。図8を参照すると、図8は、本願の実施例によるモデル訓練装置の一実施例を示す概略図である。モデル訓練装置30は、取得モジュール301と、決定モジュール302と、訓練モジュール303と、を備え、
前記取得モジュール301は、訓練されるべき画像を取得するように構成され、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものであり、
前記取得モジュール301は更に、訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得するように構成され、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記決定モジュール302は、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定するように構成され、
前記取得モジュール301は更に、前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール302は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール301により取得された前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定するように構成され、
前記訓練モジュール303は、前記決定モジュール302により決定された前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得るように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。
【0106】
本実施例において、取得モジュール301は、訓練されるべき画像を取得し、前記訓練されるべき画像は、カテゴリアノテーション情報を有し、前記カテゴリアノテーション情報は、前記訓練されるべき画像に存在する画像コンテンツカテゴリ情報を表すためのものである。訓練されるべきオフセットネットワークの第1モデルパラメータを一定にした場合、前記取得モジュール301は、訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第1予測カテゴリアノテーション情報を取得し、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。決定モジュール302は、前記画像コンテンツカテゴリ情報及び前記取得モジュール301により取得された前記第1予測カテゴリアノテーション情報に基づいて、分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第2モデルパラメータを決定する。前記訓練されるべき画像分類ネットワークの前記第2モデルパラメータを一定にした場合、前記取得モジュール301は、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する。前記決定モジュール302は、前記画像コンテンツカテゴリ情報及び前記取得モジュール301により取得された前記第2予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定する。訓練モジュール303は、前記決定モジュール302により決定された前記第2モデルパラメータ及び前記第3モデルパラメータに基づいて、訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、画像セマンティックセグメンテーションネットワークモデルを得、前記画像セマンティックセグメンテーションネットワークモデルは、処理されるべき画像のセマンティックセグメンテーション結果を決定するためのものである。
【0107】
本願の実施例において、上記方式で、オフセットネットワーク及び画像分類ネットワークを用いて、画像レベルとアノテーションされた訓練されるべき画像を訓練することができ、画像セマンティックセグメンテーションネットワークモデルの性能を確保する上で、手動による画素レベルのアノテーションを必要とせず、手動アノテーションコストを低減させ、モデル訓練効率を更に向上させる。
【0108】
任意選択的に、上記図8に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置30のもう1つの実施例において、
前記決定モジュール302は具体的には、前記画像コンテンツカテゴリ情報及び前記第1予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最小値である場合、前記訓練されるべき画像分類ネットワークに対応する前記第2モデルパラメータを決定するように構成される。
【0109】
次に、本願の実施例において、上記方式で、画像レベルの分類損失関数の分類損失を最小化することで、画像全体分類能力を持つ画像分類ネットワークを得ることができ、また、該画像分類ネットワークは、高いロバスト性を有し、より高い画像分類効果を有する。
【0110】
任意選択的に、上記図8に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置30のもう1つの実施例において、
前記決定モジュール302は具体的には、前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて、各カテゴリに対応する予測確率値を決定し、
前記各カテゴリに対応する予測確率値に基づいて、前記分類損失関数の分類損失を決定し、
前記分類損失関数の分類損失が最大値である場合、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを決定するように構成される。
【0111】
次に、本願の実施例において、上記方式で、画像レベルの分類損失関数の分類損失を最大化することで、画像分類ネットワークの分類難度を向上させ、敵対的訓練の効果を達成し、画像分類ネットワークの分類効果を高くし、つまり、より高い画像分類効果を持たせる。なお、画像レベルの分類損失関数の分類損失を最大化することで、オフセットネットワークが、分類に対する貢献が弱い入力点の位置を提供し、変更したオフセット変数に基づいて、判別性が弱い画像コンテンツ領域を位置決めするという目的を達成することもできる。
【0112】
任意選択的に、上記図8に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置30のもう1つの実施例において、
前記分類損失関数は、
【数12】
で表され、
ここで、前記Lは、前記分類損失関数を表し、前記I()は、ディラック関数を表し、前記Nは、カテゴリの総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記Pは、前記第cカテゴリに対応する予測確率値を表す。
【0113】
また、本願の実施例において、分類損失関数の例示的なコンテンツを提供する。上記方式によれば、解決手段の実現のために、実行可能な方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。
【0114】
任意選択的に、上記図8に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置30のもう1つの実施例において、
前記取得モジュール301は更に、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第2予測カテゴリアノテーション情報を取得する前に、変形可能な畳み込みニューラルネットワークを介して前記訓練されるべき画像に対応する訓練されるべき特徴画像を取得するように構成され、前記変形可能な畳み込みニューラルネットワークは、前記訓練されるべき画像のオフセット変数を予測するためのものであり、
前記取得モジュールは具体的には、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき特徴画像に対応する前記第2予測カテゴリアノテーション情報を取得するように構成される。
【0115】
次に、本願の実施例において、上記方式で、1つの畳み込みカーネルにおける各重みに対応する入力画素の位置オフセット変数を予測し、畳み込み操作の実際の入力特徴を変更し、これにより、最も有効な変換方式を訓練により得、敵対的訓練のモードを実現させることができる。
【0116】
任意選択的に、上記図8に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置30のもう1つの実施例において、
前記取得モジュール301は具体的には、
【数13】
で前記訓練されるべき特徴画像を生成するように構成され、
ここで、前記y(p)は、前記訓練されるべき特徴画像を表し、前記pは、前記訓練されるべき特徴画像における画素値を表し、前記pは、畳み込みカーネルにおける、サンプリング点の位置を表し、前記Δpは、前記オフセット変数を表し、前記w(p)は、前記畳み込みカーネルが前記訓練されるべき画像における対応する位置で畳み込み演算を行うための重み値を表し、前記x(p+p+Δp)は、前記訓練されるべき画像における対応する位置の画素値を表す。
【0117】
また、本願の実施例において、訓練されるべき特徴画像を生成するための例示的な方式を提供する。上記方式で、解決手段の実現のために、実行可能方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。
【0118】
任意選択的に、上記図8に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置30のもう1つの実施例において、
前記取得モジュール301は更に、前記決定モジュール302が前記画像コンテンツカテゴリ情報及び前記第2予測カテゴリアノテーション情報に基づいて前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第3モデルパラメータを決定した後、前記訓練されるべきオフセットネットワークに対応する前記第3モデルパラメータを一定にした場合、前記訓練されるべき画像分類ネットワークを介して前記訓練されるべき画像の第3予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール302は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール301により取得された前記第3予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべき画像分類ネットワークに対応する第4モデルパラメータを決定するように構成され、
前記取得モジュール301は更に、前記訓練されるべき画像分類ネットワークの前記第4モデルパラメータを一定にした場合、前記訓練されるべきオフセットネットワークを介して前記訓練されるべき画像の第4予測カテゴリアノテーション情報を取得するように構成され、
前記決定モジュール302は更に、前記画像コンテンツカテゴリ情報及び前記取得モジュール301により取得された前記第4予測カテゴリアノテーション情報に基づいて、前記分類損失関数を用いて前記訓練されるべきオフセットネットワークに対応する第5モデルパラメータを決定するように構成され、
前記訓練モジュール303は具体的には、前記決定モジュール302により決定された前記第2モデルパラメータ、前記第3モデルパラメータ、前記第4モデルパラメータ及び前記第5モデルパラメータに基づいて、前記訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、前記画像セマンティックセグメンテーションネットワークモデルを得るように構成される。
【0119】
次に、本願の実施例において、上記方式で、1つの分岐を一定にし、もう1つの分岐を訓練するという方策により、画像分類ネットワークとオフセットネットワークに絶え間なく競合的学習を実行させることができ、画像分類ネットワークは情報量のより小さい領域を入力とした後に分類器を絶え間なく補強するように訓練する一方で、オフセットネットワークの分岐により判別性がより弱い領域を絶え間なく位置決めすることもできる。
【0120】
任意選択的に、上記図8に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置30のもう1つの実施例において、
前記訓練モジュール303は具体的には、前記第2モデルパラメータ及び前記第3モデルパラメータを用いて前記訓練されるべきオフセットネットワークをN回訓練した場合、前記訓練されるべきオフセットネットワークを毎回訓練する時のオフセット変数に基づいて、前記訓練されるべき画像に対応する画像コンテンツ領域を決定するように構成され、前記Nは、1以上の整数であり、
前記訓練モジュール303は具体的には、前記画像コンテンツ領域に基づいて、ターゲット損失関数を用いて訓練されるべき画像セマンティックセグメンテーションネットワークモデルを訓練し、
前記ターゲット損失関数の損失結果が最小値である場合、前記画像セマンティックセグメンテーションネットワークモデルを生成するように構成される。
【0121】
次に、本願の実施例において、上記方式で、データアノテーションに対する要件が高すぎるという問題を解決し、大量の画像に対して画素レベルのアノテーションを行う必要がなく、弱教師あり要件での画像セマンティックセグメンテーションを実現させる。高価な画素レベルの情報を必要とせず、画像レベルのアノテーションのみを提供すれば、従来方法に匹敵するセマンティックセグメンテーション精度を取得することができる。
【0122】
任意選択的に、上記図8に対応する実施例を基に、本願の実施例で提供されるモデル訓練装置30のもう1つの実施例において、
前記ターゲット損失関数は、
【数14】
で表され、
ここで、前記Lsegは、前記ターゲット損失関数を表し、前記Nは、カテゴリ総数を表し、前記cは、第cカテゴリを表し、前記kは、1以上であって前記N以下であり、前記I()は、ディラック関数を表し、前記
【数15】
は、画素点での、前記第cカテゴリの予測確率値を表し、前記iは、前記訓練されるべき画像における、前記画素点の横座標位置を表し、前記jは、前記訓練されるべき画像における、前記画素点の縦座標位置を表す。
【0123】
また、本願の実施例において、ターゲット損失関数の例示的なコンテンツを提供する。上記方式によれば、解決手段の実現のために、実行可能な方法を提供し、解決手段の実行可能性及び操作可能性を向上させることができる。
【0124】
以下、本願における画像処理装置を詳しく説明する。ここで、該画像処理装置は、コンピュータ機器に適用可能である。例えば、該コンピュータ機器は、上記図1に示すシステムにおけるサーバ又は端末装置であってもよい。図9を参照すると、図9は、本願の実施例による画像処理装置の一実施例を示す概略図である。画像処理装置40は、取得モジュール401と、処理モジュール402と、を備え、
前記取得モジュール401は、処理されるべき画像を取得するように構成され、
前記取得モジュール401は更に、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得するように構成され、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものであり、
前記処理モジュール402は、前記取得モジュールにより取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成される。
【0125】
本実施例において、取得モジュール401は、処理されるべき画像を取得する。前記取得モジュール401は、画像セマンティックセグメンテーションネットワークモデルにより、前記処理されるべき画像のセマンティックセグメンテーション結果を取得し、前記画像セマンティックセグメンテーションネットワークモデルは、訓練されるべき画像分類ネットワーク及び訓練されるべきオフセットネットワークに基づいて交互に訓練を行うことで得られたものであり、前記訓練されるべきオフセットネットワークは、オフセット変数に基づいて画像を分類するためのものであり、前記訓練されるべき画像分類ネットワークは、画像における画像コンテンツを分類するためのものである。前記処理モジュール402は、前記取得モジュール401により取得された前記セマンティックセグメンテーション結果に基づいて、前記処理されるべき画像を処理するように構成される。
【0126】
本願の実施例において、上記方式で、弱教師あり画像セマンティックセグメンテーションを実現させ、精細な画素レベルのセグメンテーションアノテーションデータを欠けている場合に適用可能であり、画像全体の分類アノテーションのみに依存し、正確率の高い画像セグメンテーションを実現させる。
【0127】
図10は、本願の実施例によるサーバ構造を示す概略図である。該サーバ500は、構成又は性能によって大きく異なることがあり、1つ又は1つ以上の中央演算処理装置(central processing units:CPU)522(例えば、1つ又は1つ以上のプロセッサ)と、メモリ532と、アプリケーションプログラム542又はデータ544を記憶するための記憶媒体530(例えば1つ又は1つ以上の大容量記憶媒体)と、を備えてもよい。ここで、メモリ532及び記憶媒体530は一時的媒体又は永久的記憶媒体であってもよい。記憶媒体530に記憶されたプログラムは、1つ又は1つ以上のモジュール(図示されず)を含んでもよい。各モジュールは、サーバにおける一連の指令操作を含んでもよい。更に、中央演算処理装置522は、記憶媒体530と通信して、サーバ500で記憶媒体530における一連の命令操作を実行するように構成されてもよい。
【0128】
サーバ500は、1つ又は1つ以上の電源526、1つ又は1つ以上の有線又は無線ネットワークインタフェース550、1つ又は1つ以上の入力出力インタフェース558、及び/又は、Windows ServerTM、Mac OS XTM、UnixTM, LinuxTM、FreeBSDTM等のような1つ又は1つ以上のオペレーティングシステム541を更に含んでもよい。
【0129】
上記実施例におけるサーバにより実行されたステップは、該図10に示すサーバ構造に基づいたものであってもよい。
【0130】
本願の実施例において、該サーバに含まれるCPU 522は、上記図3又は図6に示す実施例における全て又は一部のステップを実行するように構成される。
【0131】
本願の実施例は、もう1つの画像処理装置を提供する。図11に示すように、説明しやすくするために、本願の実施例に係わる部分のみを示す。開示されていない具体的な技術的細部は、本願の実施例の方法を参照されたい。該端末装置は、携帯電話、タブレット、パーソナルデジタルアシスタント(personal digital assistant:PDA)、ポイントオブセールス機器(point of sales:POS)、車載コンピュータなどの任意の端末装置であってもよい。端末装置が携帯電話であることを例とする。
【0132】
図11は、本願の実施例による端末装置に関わる携帯電話の一部の構造を示すブロック図である。図11を参照すると、携帯電話は、無線周波数(radio frequency:RF)回路610と、メモリ620、入力ユニット630、表示ユニット640、センサ650、オーディオ回路660、ワイヤレスフィデリティ(wireless fidelity:WiFi)モジュール670、プロセッサ680、電源690などの部材を備える。図11に示す携帯電話構造は、携帯電話を限定するものではなく、図示されているものよりも多いまたは少ない部材を備えてもよく、又は、幾つかの部材を組み合わせてもよく、又は、異なる部材を配置してもよいことは、当業者であれば、理解すべきである。
【0133】
以下、図11を参照しながら、携帯電話の各構成部材を具体的に説明する。
【0134】
RF回路610は、情報を受信するか通話過程中で信号を送受信するように構成される。特に、基地局の下り情報を受信した後に、プロセッサ680に送信し、なお、設計された上りデータを基地局に送信するように構成される。
【0135】
メモリ620は、ソフトウェアプログラム及びモジュールを記憶するように構成され、プロセッサ680は、メモリ620に記憶されたソフトウェアプログラム及びモジュールを実行することで、携帯電話の種々の機能適用及びデータ処理を実行する。
【0136】
入力ユニット630は、入力された数字又は文字情報を受信し、携帯電話のユーザ設定及び機能制御に関わるキー信号入力を生成するように構成される。例えば、入力ユニット630は、タッチパネル631及び他の入力機器632を備えてもよい。タッチパネル631に加えて、入力ユニット630は、他の入力装置632を備えてもよい。例えば、他の入力装置632は、物理的キーボード、機能キー(例えば、音量制御キー、スイッチキーなど)、トラックボール、マウス、操作レバーなどのうちの1つ又は複数を含んでもよいが、これらに限定されない。
【0137】
表示ユニット640は、ユーザから入力された情報又はユーザに提供された情報及び携帯電話の種々のメニューを表示するように構成される。表示ユニット640は、表示パネル641を備えてもよい。任意選択的に、液晶ディスプレイ(liquid crystal display:LCD)、有機発光ダイオード(organic light-emitting diode:OLED)等の形態で表示パネル641を構成することができる。更に、タッチパネル631は、表示パネル641を被覆してもよい。図11において、タッチパネル631と表示パネル641は、2つの独立した部材として携帯電話の入力及び出力機能を実現するが、幾つかの実施例において、タッチパネル631と表示パネル641を集積することで、携帯電話の入力及び出力機能を実現させることができる。
【0138】
携帯電話は、例えば、光センサ、動きセンサ及び他のセンサのような、少なくとも1つのセンサ650を更に備えてもよい。
【0139】
オーディオ回路660、スピーカー661、マイクロホン662は、ユーザと携帯電話とのオーディオインタフェースを提供することができる。
【0140】
図11は、WiFiモジュール670を示すが、これが携帯電話の不可欠な構造ではなく、本発明の本質を変更することなくこれを省略されてもよいことは、理解されるべきである。
【0141】
プロセッサ680は、携帯電話の制御センターである。これは、種々のインタフェース及び回路を利用して携帯電話全体の各部分を接続する。メモリ620に記憶されたソフトウェアプログラム及び/又はモジュールを行うか又は実行し、メモリ620に記憶されたデータを呼び出すことで、携帯電話の種々の機能を実行してデータを処理し、携帯電話全体に対してモニタリングする。
【0142】
携帯電話は、各部材に給電する電源690(例えば、バッテリ)を更に備える。任意選択的に、電源は、電源管理システムを介してプロセッサ680に論理的に接続されてもよい。
【0143】
図示されていないが、携帯電話は、カメラ、ブルートゥースモジュールなどを更に備えてもよく、ここで、詳細な説明を省略する。
【0144】
本願の実施例において、該端末装置に備えられるプロセッサ680は、上記図3又は図6に示す実施例における全て又は一部のステップを実行するように構成される。
【0145】
説明上の便宜及び簡素化を図るために、上記説明されたシステム、装置及びユニットの具体的な作動過程は、前記方法の実施例における対応した過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。
【0146】
本発明で提供する幾つかの実施例で開示したシステム、装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。
【0147】
分離部材として説明した前記ユニットは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
【0148】
また、本願の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記集積したユニットは、ハードウェアの形態で実現してもよく、ソフトウェア機能ユニットの形態で実現してもよい。
【0149】
前記集積したユニットはソフトウェア機能ユニットの形で実現され、かつ独立した製品として販売または使用されるとき、コンピュータにより読み取り可能な記憶媒体内に記憶されてもよい。このような理解のもと、本発明の技術的解決手段は、本質的に、又は、従来技術に対して貢献をもたらした部分又は該技術的解決手段の一部は、ソフトウェア製品の形式で具現することができ、このようなコンピュータソフトウェア製品は、記憶媒体に記憶しても良く、また、コンピュータ設備(パソコン、サーバ、又はネットワーク装置など)に、本発明の各実施例に記載の方法の全部又は一部のステップを実行させるための若干の命令を含む。前記の記憶媒体は、USBメモリ、リムーバブルハードディスク、読み出し専用メモリ(Read-only Memory:ROM)、ランダムアクセスメモリ(Random Access Memory:RAM)、磁気ディスク、又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。
【0150】
なお、上記実施例は本願の具体的な実施形態に過ぎず、本願の技術的解決手段を説明するためのものであり、これを限定するものではなく、本願の保護範囲はこれに制限されるものではなく、前記実施例を参照しながら、本願を詳細に説明したが、本技術分野を周知するいかなる当業者であれば、本願で開示された技術範囲内で、前記実施例に記載の技術的解決手段に対して変化または代替を容易に想到することができ、又は一部の技術的特徴に対して均等物による置換を行うこともでき、これらの修正、変化又は置換は、対応する技術的解決手段の本質を本願の実施例の技術的解決手段の製品及び範囲を離脱させるものではなく、本願の保護範囲内に含まれるものとすることは、当業者であれば、理解すべきである。従って、本願の保護範囲は特許請求の範囲の保護範囲を基準とするべきである。
【符号の説明】
【0151】
21 訓練画像
22 カテゴリアノテーション情報
23 画像セマンティックセグメンテーションネットワークモデル
24 試験画像
25 セマンティックセグメンテーション結果
30 モデル訓練装置
40 画像処理装置
41 画像分類ネットワーク
42 オフセットネットワーク
43 画像
44 オフセット変数
51 オフセット領域
52 画像
53 特徴画像
71 画像
72 層
73 関心領域プーリング層
74 特徴マップ
75 全結合層
76 オフセット変数
77 全結合層
78 分類情報
79 情報
301 取得モジュール
302 決定モジュール
303 訓練モジュール
401 取得モジュール
402 処理モジュール
500 サーバ
522 中央演算処理装置
526 電源
530 記憶媒体
532 メモリ
541 オペレーティングシステム
542 アプリケーションプログラム
544 データ
550 無線ネットワークインタフェース
558 入力出力インタフェース
610 RF回路
620 メモリ
630 入力ユニット
631 タッチパネル
632 入力装置
640 表示ユニット
641 表示パネル
650 センサ
660 オーディオ回路
661 スピーカー
662 マイクロホン
670 WiFiモジュール
680 プロセッサ
690 電源
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11