(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-19
(45)【発行日】2022-07-27
(54)【発明の名称】セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体
(51)【国際特許分類】
G06T 7/149 20170101AFI20220720BHJP
G06T 7/00 20170101ALI20220720BHJP
【FI】
G06T7/149
G06T7/00 350C
(21)【出願番号】P 2019570957
(86)(22)【出願日】2018-07-13
(86)【国際出願番号】 CN2018095673
(87)【国際公開番号】W WO2019200758
(87)【国際公開日】2019-10-24
【審査請求日】2019-12-20
(31)【優先権主張番号】201810362207.1
(32)【優先日】2018-04-20
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517406065
【氏名又は名称】平安科技(深▲せん▼)有限公司
【氏名又は名称原語表記】PING AN TECHNOLOGY (SHENZHEN) CO.,LTD.
【住所又は居所原語表記】23F,Ping’an Financial Center,No.5033 Yitian Road,Fu’an Community of Futian Street,Futian District Shenzhen,Guangdong 518000 China
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】王 健宗
(72)【発明者】
【氏名】王 晨羽
(72)【発明者】
【氏名】▲馬▼ ▲迸▼
(72)【発明者】
【氏名】肖 京
【審査官】宮島 潤
(56)【参考文献】
【文献】中国特許出願公開第107273870(CN,A)
【文献】中国特許出願公開第107609525(CN,A)
【文献】米国特許第9881207(US,B1)
【文献】米国特許出願公開第2017/0147905(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
(57)【特許請求の範囲】
【請求項1】
セマンティックセグメンテーションモデルの訓練
方法であって、
訓練サンプル
画像の集合を構築
するステップであって、前記訓練サンプル
画像の集合は、第1
の種類の画像オブジェクトと、前記第1
の種類の画像オブジェクトと異なる種類に分類される第2
の種類の画像オブジェクトとを含み、
前記第1
の種類の画像オブジェクトに境界ボックス及びセグメンテーションマスクが標記され、前記第2
の種類の画像オブジェクトに境界ボックスが標記されて
いる、
ステップと、
前記訓練サンプル
画像の集合を
使用して前記第1
の種類の画像オブジェクトの第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2
の種類の画像オブジェクトの第2境界ボックスパラメータを
出力するようにディープネットワークモデルを訓練し、
かつ前記第1境界ボックスパラメータ及び
前記第1マスクパラメータを
使用して、境界ボックス予測マスクパラメータを
出力するように前記ディープネットワークモデルを構成する重み伝達関数を設定することにより前記ディープネットワークモデルを訓練
するステップと、
前記第1境界ボックスパラメータ、
前記第1マスクパラメータ、
前記第2境界ボックスパラメータ
、及び
前記境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数に入力
するセマンティックセグメンテーションモデルを構築する
ステップと
を含むことを特徴とする
、セマンティックセグメンテーションモデルの訓練方法。
【請求項2】
前記セマンティックセグメンテーションモデルを構築するステップの後
に、
画像を前記セマンティックセグメンテーションモデルに入力してセマンティックセグメンテーション結果を出力する
ステップを含むことを特徴とする
、請求項1に記載のセマンティックセグメンテーションモデルの訓練方法。
【請求項3】
前記セマンティックセグメンテーション結果を出力するステップ
が、
前記
画像を前記セマンティックセグメンテーションモデルに入力し、
前記ディープネットワークモデルによって出力された前記第1境界ボックスパラメータを
前記重み伝達関数に入力して前記画像の第1
の種類の画像オブジェクトの境界ボックスを予測し、
かつ前記ディープネットワークモデルによって出力された前記第2境界ボックスパラメータを
前記重み伝達関数に入力して前記画像の第2
の種類の画像オブジェクトの境界ボックスを予測する
ステップと、
前記第1
の種類の画像オブジェクト、
前記第2
の種類の画像オブジェクトの境界ボックス及び前記境界ボックス予測マスクパラメータを用いて前記画像の第1
の種類の画像オブジェクト及び第2
の種類の画像オブジェクトのマスクパラメータをそれぞれ予測することと、
前記画像の第1
の種類の画像オブジェクト及び第2
の種類の画像オブジェクトのマスクパラメータを用いて前記画像の第1
の種類の画像オブジェクト及び第2
の種類の画像オブジェクトに対して画像セマンティックセグメンテーションを行う
ステップと
を含むことを特徴とする
、請求項2に記載のセマンティックセグメンテーションモデルの訓練方法。
【請求項4】
前記ディープネットワークモデルは、
Mask R-CNN(Mask Regions with Convolutional Neural Network)であることを特徴とする
、請求項1に記載のセマンティックセグメンテーションモデルの訓練方法。
【請求項5】
前記第2
の種類の画像オブジェクトの数は、前記第1
の種類の画像オブジェクトの数より多いことを特徴とする
、請求項1に記載のセマンティックセグメンテーションモデルの訓練方法。
【請求項6】
第1構築手段と、
訓練手段と、
第2構築手段と、を含み、
前記第1構築手段は、訓練サンプル
画像の集合を構築するためのものであり、前記訓練サンプル
画像の集合は、第1
の種類の画像オブジェクトと、前記第1
の種類の画像オブジェクトと異なる種類に分類される第2
の種類の画像オブジェクトと
を含み、
前記第1
の種類の画像オブジェクトに境界ボックス及びセグメンテーションマスクが標記され、前記第2
の種類の画像オブジェクトに境界ボックスが標記されており、
前記訓練手段は、前記訓練サンプル
画像の集合を
使用して前記第1
の種類の画像オブジェクトの第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2
の種類の画像オブジェクトの第2境界ボックスパラメータを
出力するようにディープネットワークモデルを訓練し、
かつ前記第1境界ボックスパラメータ及び
前記第1マスクパラメータを
使用して、境界ボックス予測マスクパラメータを
出力するように前記ディープネットワークモデルを構成する重み伝達関数を設定することにより前記ディープネットワークモデルを訓練するためのものであり、
前記第2構築手段は、前記第1境界ボックスパラメータ、
前記第1マスクパラメータ、
前記第2境界ボックスパラメータ
、及び
前記境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数に入力
するセマンティックセグメンテーションモデルを構築するためのものである
ことを特徴とする
、セマンティックセグメンテーションモデルの訓練装置。
【請求項7】
画像を前記セマンティックセグメンテーションモデルに入力してセマンティックセグメンテーション結果を出力するための分割手段を
さらに含むことを特徴とする
、請求項
6に記載のセマンティックセグメンテーションモデルの訓練装置。
【請求項8】
前記分割手段が、
前記
画像を前記セマンティックセグメンテーションモデルに入力し、
前記ディープネットワークモデルによって出力された前記第1境界ボックスパラメータを
記重み伝達関数に入力して前記画像の第1
の種類の画像オブジェクトの境界ボックスを予測し、
かつ前記ディープネットワークモデルによって出力された前記第2境界ボックスパラメータを
前記重み伝達関数に入力して前記画像の第2
の種類の画像オブジェクトの境界ボックスを予測するための第1予測モジュールと、
前記第1
の種類の画像オブジェクトの境界ボックス、
前記第2
の種類の画像オブジェクトの境界ボックス及び前記境界ボックス予測マスクパラメータを用いて前記画像の第1
の種類の画像オブジェクト及び第2
の種類の画像オブジェクトのマスクパラメータをそれぞれ予測するための第2予測モジュールと、
前記画像の第1
の種類の画像オブジェクト及び第2
の種類の画像オブジェクトのマスクパラメータを用いて前記画像の第1
の種類の画像オブジェクト及び第2
の種類の画像オブジェクトに対して画像セマンティックセグメンテーションを行うための分割モジュールと
を含むことを特徴とする
、請求項
7に記載のセマンティックセグメンテーションモデルの訓練装置。
【請求項9】
前記ディープネットワークモデルは、
Mask R-CNN(Mask Regions with Convolutional Neural Network)であることを特徴とする請求項
6に記載のセマンティックセグメンテーションモデルの訓練装置。
【請求項10】
訓練サンプル
画像の集合を構築するための構築手段
であって、前記訓練サンプル
画像の集合は、第1
の種類の画像オブジェクトと、前記第1
の種類の画像オブジェクトと異なる種類に分類される第2
の種類の画像オブジェクトとを含み、
前記第1
の種類の画像オブジェクトに境界ボックス及びセグメンテーションマスクが標記され、前記第2
の種類の画像オブジェクトに境界ボックスが標記されて
いる、
構築手段と、
前記訓練サンプル
画像の集合を
使用前記第1
の種類の画像オブジェクトの第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2
の種類の画像オブジェクトの第2境界ボックスパラメータを
出力するようにディープネットワークモデルを訓練し、
かつ前記第1境界ボックスパラメータ及び
前記第1マスクパラメータを
使用して、境界ボックス予測マスクパラメータを
出力するように前記ディープネットワークモデルを構成する重み伝達関数を設定することにより前記ディープネットワークモデルを訓練するための訓練手段と、
前記第1境界ボックスパラメータ、
前記第1マスクパラメータ、
前記第2境界ボックスパラメータ、及び
前記境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数に入力
するセマンティックセグメンテーションモデルを構築するための構築手段と
を含むことを特徴とする
、コンピュータデバイス。
【請求項11】
訓練サンプル
画像の集合を構築する機能
であってと、前記訓練サンプル
画像の集合は、第1
の種類の画像オブジェクトと、前記第1
の種類の画像オブジェクトと異なる種類に分類される第2
の種類の画像オブジェクトとを含み、
前記第1
の種類の画像オブジェクトに境界ボックス及びセグメンテーションマスクが標記され、前記第2
の種類の画像オブジェクトに境界ボックスが標記されて
いる、
機能と、
前記訓練サンプル
画像の集合を
使用して前記第1
の種類の画像オブジェクトの第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2
の種類の画像オブジェクトの第2境界ボックスパラメータを
出力するようにディープネットワークモデルを訓練し、
かつ前記第1境界ボックスパラメータ及び
前記第1マスクパラメータを
使用して、境界ボックス予測マスクパラメータを
出力するように前記ディープネットワークモデルを構成する重み伝達関数を設定することにより前記ディープネットワークモデルを訓練する機能と、
前記第1境界ボックスパラメータ、
前記第1マスクパラメータ、
前記第2境界ボックスパラメータ、及び
前記境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数に入力
するセマンティックセグメンテーションモデルを構築する機能と
をコンピュータによって実行させる
、プログラム。
【請求項12】
訓練サンプル
画像の集合を構築する機能
であって、前記訓練サンプル
画像の集合は、第1
の種類の画像オブジェクトと、前記第1
の種類の画像オブジェクトと異なる種類に分類される第2
の種類の画像オブジェクトとを含み、
前記第1
の種類の画像オブジェクトに境界ボックス及びセグメンテーションマスクが標記され、前記第2
の種類の画像オブジェクトに境界ボックスが標記されて
いる、
機能と、
前記訓練サンプル
画像の集合を
使用して前記第1
の種類の画像オブジェクトの第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2
の種類の画像オブジェクトの第2境界ボックスパラメータを
出力するようにディープネットワークモデルを訓練し、
かつ前記第1境界ボックスパラメータ及び
前記第1マスクパラメータを
使用して、境界ボックス予測マスクパラメータを
出力するように前記ディープネットワークモデルを構成する重み伝達関数を設定することにより前記ディープネットワークモデルを訓練する機能と、
前記第1境界ボックスパラメータ、
前記第1マスクパラメータ、
前記第2境界ボックスパラメータ、及び
前記境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数に入力
するセマンティックセグメンテーションモデルを構築する機能と
をコンピュータによって実行させるプログラムを格納する
、読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2018年4月20日に中国特許局に提出し、申請番号が201810362207.1であり、その名称が「セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス及び記憶媒体」であり、その優先権の全部の内容が引用により本出願に含まれている。
【0002】
本発明は、コンピュータ技術分野に関し、特にセマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体に関する。
【背景技術】
【0003】
画像セマンティックセグメンテーションの意味は、例えば、人がオートバイを運転する写真からオートバイ及び人をそれぞれ分割するように装置が画像を自動的に分割してかつ画像の内容を識別することである。画像に対してセマンティックセグメンテーションを行う際、画像を分割するためにセグメンテーションマスク(segmentation mask)を取得する必要がある。今のところ、境界ボックスによりセグメンテーションマスクを導くことができないため、訓練する際に、画像に対して分割を実現するために、全ての実例にセグメンテーションマスクを標記する必要がある。
【0004】
従来のセマンティックセグメンテーションは、全ての訓練実例にセグメンテーションマスクを標記する、つまり各ピクセルに対して標記を行うことを要求するため、新しい種類を注釈するコストが高くなり、また実例分割モデルを約100個の詳細に注釈した種類(つまりせいぜい100個の種類にセグメンテーションマスクを標記する)に限定する。このようなセマンティックセグメンテーション方法は、コストが高すぎ、100種類になると、訓練サンプルの作成及び訓練計算力の両方でも圧力が大きくなる。今まで最大の実例分割の公開したデータ集合に80種類しかなく、コストが高すぎるため、幅広く押し広めることに適しない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、セマンティックセグメンテーションモデルを訓練する際にコストが高すぎるという欠陥を克服するために、セマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体を提供することにある。
【課題を解決するための手段】
【0006】
本発明が提供したセマンティックセグメンテーションモデルの訓練方法は、上記の目的を実現するために、以下のステップを含む:
訓練サンプル集合を構築する。前記訓練サンプル集合は、第1種類物体と、前記第1種類物体と異なる種類に分類される第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープラーニングネットワークモデル(以下、ディープネットワークモデルという)中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練する。前記第1境界ボックスパラメータ及び第1マスクパラメータを、前記ディープネットワークモデルを構成する重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。
【0007】
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する。
本発明が提供したセマンティックセグメンテーションモデルの訓練装置は、
第1構築手段と、
訓練手段と、
第2構築手段と、を含む。
【0008】
第1構築手段は、訓練サンプル集合を構築するためのものである。前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
訓練手段は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練し、前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するためのものである。
【0009】
第2構築手段は、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するためのものである。
【0010】
さらに、本発明が提供したコンピュータデバイスは、プロセッサと、メモリとを含む。
前記メモリにコンピュータ可読命令即ちコンピュータープログラムが記憶されている。
前記プロセッサは、前記コンピュータ可読命令を実行する際に上記の方法のステップを実現する。
本発明は、さらにコンピュータ不揮発性可読記憶媒体を提供する。それにコンピュータ可読命令が記憶されている。
前記コンピュータ可読命令は、前記プロセッサに実行される際に上記の方法のステップを実現する。
【発明の効果】
【0011】
本発明が提供したセマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス、プログラム及び記憶媒体において、構築した訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。前記訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低い。
【図面の簡単な説明】
【0012】
【
図1】本発明の実施例によるセマンティックセグメンテーションモデルの訓練方法のステップ概略図である。
【
図2】本発明の他の実施例によるセマンティックセグメンテーションモデルの訓練方法のステップ概略図である。
【
図3】本発明の実施例によるセマンティックセグメンテーションモデルの訓練装置の構造ブッロク図である。
【
図4】本発明の他の実施例によるセマンティックセグメンテーションモデルの訓練装置の構造ブッロク図である。
【
図5】本発明の他の実施例における分割部の構造ブッロク図である。
【
図6】実施例によるコンピュータデバイスの構造ブッロク図である。
【発明を実施するための形態】
【0013】
図1に示されているように、本発明の実施例によるセマンティックセグメンテーションモデルの訓練方法は、以下のステップを含む:
ステップS1は、訓練サンプル集合を構築することである。前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
【0014】
境界ボックスの標記は、ボックスで対象物体を注釈することである。セグメンテーションマスクの標記(マスク注釈)は、1つの物体に対してその輪郭を標記することである。相対的に言えば、境界ボックスの注釈を標記し易いため、コストが低い一方、マスクの注釈を標記しにくいため、標記コストが高い。
【0015】
従来のセマンティックセグメンテーション現状から分かるように、画像に対してセマンティックセグメンテーションを行えば、該画像中の各種類物体のセグメンテーションマスクを取得する必要がある。セグメンテーションマスクを取得するために、予め訓練して該種類物体に対応したマスクパラメータを取得する必要がある。マスクパラメータは、訓練サンプル集合の画像に対してセグメンテーションマスクを標記してかつ訓練サンプル集合をディープネットワークモデル中に入力することにより取得されることができる。簡単に言えば、セマンティックセグメンテーション対象の画像にある物体種類が人及び木であれば、訓練サンプル集合に人及び木のセグメンテーションマスクを注釈して訓練を行い、人及び木のマスクパラメータを取得し、その後にセマンティックセグメンテーション対象の画像に人及び木に対して分割を行う必要がある。つまり、セマンティックセグメンテーション対象の画像中の各種類に対して、訓練サンプルを作成する際にセグメンテーションマスクを標記する必要がある。しかし、自然界の物体種類が様々であるため、マスク注釈のコストが高すぎ、全部種類の物体を標記することができない(今までせいぜい80種類を標記することができる)。
【0016】
本ステップS1において、前記訓練サンプル集合は、大量の物体種類を備える。例えば、1つの画像にある物体種類は、人、木、車、列車等の大量の種類の物体を含む場合、訓練サンプル集合中の物体種類が多ければ、後続セマンティックセグメンテーションモデルが画像に対してセマンティックセグメンテーションを行い易くなる。本実施例における第1種類物体及び第2種類物体は、単に1種類の物体を指すことではなく、一連の物体の意味である。つまり、第1種類物体及び第2種類物体の種類が複数である。第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスのみが標記されているという条件を満たせば済む。
【0017】
一実施例において、前記第2種類物体の数が前記第1種類物体の数より遥かに多い。少量の第1種類物体の場合、訓練コストを削減する。具体的な実施例において、例えば、訓練サンプル集合は100種類の物体を含む。ステップS1の訓練サンプル集合の構築方法に基づき、その中の20種類のみの物体に対して境界ボックス及びセグメンテーションマスクを標記し、残りの80種類の物体に対して境界ボックスのみを標記すればよい。従来技術に100種類の物体に対して全部境界ボックス及びセグメンテーションマスクを標記することに対して、80種類の物体にセグメンテーションマスクを少なく標記するため、標記コストを大幅に削減する。
【0018】
本実施例において、構築した訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。その中に、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスのみが標記されている。該訓練サンプル集合は、完全注釈データ(セグメンテーションマスクを有する種類)と弱注釈データ(境界ボックスのみを有する種類)との混合であるため、該訓練サンプル集合に基づいて訓練を行うタスクを部分的監督タスクと呼ぶ。本発明の実施例中のセマンティックセグメンテーションモデルの訓練方法は、実際に部分的監督学習に基づくセマンティックセグメンテーション訓練の方法である。部分的監督学習の訓練サンプル集合の主な長所は、2種類の既存のデータ集合により大規模の実例分割モデルを構築することができることである。
要約すると、本実施例に構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記だけで、全部種類の物体にセグメンテーションマスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。
【0019】
ステップS2は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練する。前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練することである。
【0020】
本ステップS2において、上記の構築された訓練サンプル集合をディープネットワークモデル中に入力し、第1種類物体に標記した境界ボックス及びセグメンテーションマスクにより訓練を行い、それに対応した第1境界ボックスパラメータ、第1マスクパラメータを取得し、第2種類物体に標記した境界ボックスにより訓練を行い、それに対応した第2境界ボックスパラメータを取得する。本実施例において、ディープネットワークモデルを訓練する同時に、また重み伝達関数を訓練した。重み伝達関数は、図の種類の境界ボックスパラメータに基づいて種類のセグメンテーションマスクパラメータ(つまり、実例の分割パラメータである)を予測するように訓練され、Mask R-CNN(Mask Regions with Convolutional Neural Network)にマスク注釈を有する種類を使って監督学習のデータとしてエンドツーエンドの訓練を行うことができる。推理する際に、重み伝達関数は、各種類のインスタンスセグメンテーションのパラメータを予測するためのものであり、セマンティックセグメンテーションモデルに訓練際にマスク注釈がない対象種類(例えば、第2種類物体)を含む全部対象の種類を分割させることができる。
【0021】
具体的に、上記の重み伝達関数は、上記の第1境界ボックスパラメータ、第1マスクパラメータにより境界ボックス予測マスクパラメータを訓練する。該境界ボックス予測マスクパラメータとは、ある種類物体の境界ボックスを用いて、その種類物体の対応するマスクを予測するパラメータを意味する。訓練により該パラメータを取得した後、分割対象の画像に対してセマンティックセグメンテーションを行う際に、それに対応した境界ボックスを予測し、また境界ボックスによりそのマスクパラメータを予測することにより、セマンティックセグメンテーションを実現し、具体的な実現過程は、以下の実施例に詳細に説明されるため、ここに再び説明する必要がない。
【0022】
構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記するため、本ステップの訓練過程において、訓練サンプル及び訓練計算の重圧を低下し、訓練効率を向上させる。
ステップS3は、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータをディープネットワークモデル及び重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築することである。
【0023】
上記の第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータは、つまり本実施例中のセマンティックセグメンテーションモデルの訓練パラメータである。セマンティックセグメンテーションモデルを使って画像に対してセマンティックセグメンテーションを行う場合、該画像の各種類物体のセグメンテーションマスクを取得する必要がある。セグメンテーションマスクを取得するために、予め訓練して該種類物体に対応したマスクパラメータ(つまり既存のセマンティックセグメンテーションモデル中の訓練パラメータである)を取得する必要がある。つまり、画像に対してセマンティックセグメンテーションを行うためのセマンティックセグメンテーションモデルを取得するために、マスクパラメータを取得する必要がある。上記のステップS1に説明したように、対応したマスクパラメータを取得するためにマスク注釈を直接に行う訓練コストがより高い。従って、本実施例において、訓練により取得した訓練パラメータは、第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータである。上記の訓練パラメータを対応的にディープネットワークモデル及び重み伝達関数中に入力し、画像に対するセマンティックセグメンテーションに適用するセマンティックセグメンテーションモデルを構築する。
【0024】
図2に示されているように、一実施例において、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するという上記のステップS3後、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップS4を含む。
【0025】
具体的に、分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップS4は、以下を含む:
a、前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータを用いて分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータを用いて分割対象の画像中の第2種類物体の境界ボックスを予測する。
本ステップaにおいて、分割対象の画像をセマンティックセグメンテーションモデル中に入力し、分割対象の画像中の第1種類物体及び第2種類物体の境界ボックスを直接に予測することができる。
【0026】
b、前記第1種類物体の境界ボックス、第2種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータをそれぞれ予測することができる。
本ステップbにおいて、上記のステップaに予測した第1種類物体の境界ボックス、第2種類物体の境界ボックスを重み伝達関数に入力して計算を行い、前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータを予測することができる。
【0027】
c、前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行う。
上述ステップbに分割対象の画像における第1種類物体及び第2種類物体のマスクパラメータを取得した後、本ステップcに分割対象の画像中の第1種類物体及び第2種類物体に対応したセグメンテーションマスクを取得し、その後にセグメンテーションマスクにより分割対象の画像に対して画像セマンティックセグメンテーションを行う。
【0028】
一実施例において、前記ディープネットワークモデルは、Mask R-CNN型ネットワークモデルである。Mask R-CNN型ネットワークモデルは、既存のモデルであり、FasterR-CNN型の拡張であり、それが持って境界ボックスを識別するためのブランチに並行して対象マスクを予測するためのブランチを添加するネットワークモデルである。Mask R-CNNは、2つのブランチを含み、1つのブランチが境界ボックス予測ブランチであり、他の1つがマスク予測ブランチである。Mask R-CNNにおいて、境界ボックス予測ブランチの最後の一層及びマスク予測ブランチの最後の一層は、いずれも各種類に境界ボックス分類を実行する及び実例マスクを予測するタスクに使用された種類パラメータ(境界ボックスパラメータ、マスクパラメータを含む)を含む。例えば、境界ボックス予測ブランチにより境界ボックスに基づいてその境界ボックスパラメータを予測し、マスク予測ブランチによりセグメンテーションマスクに基づいて対応したマスクパラメータを予測することができる。
【0029】
上記のMask R-CNN方法は、実際にある種類の境界ボックスパラメータ及びマスクパラメータをそれぞれ学習することである。本実施例において、Mask R-CNN型ネットワークモデルを訓練する同時に、また重み伝達関数を訓練する。具体的に、境界ボックスブランチの最後の一層とマスクブランチの最後の一層との間に上記の重み伝達関数を訓練する。上記の訓練サンプル集合をMask R-CNN型ネットワーク中に出力する同時に、損失関数が収束するまで重み伝達関数を使って訓練を行えば、本実施例中のセマンティックセグメンテーションモデルの訓練パラメータを取得する。
【0030】
具体的に、上記の重み伝達関数は、以下の式に表れており
【0031】
【0032】
そのうち、τは、伝達関数であり、ωclsは、種類の重みであり、ωboxは、境界ボックスの重みであり、ωdetは、併合ベクトルであり、θは、種類不明な学習パラメータであり、ωsegは、境界ボックス予測マスクパラメータである。
【0033】
本実施例において、上記の重み伝達関数は、二層の全接続ニューラルネットワークである。
その中、二層の全接続層のニューロンの数は、それぞれ5120、256である。それが使用した活性化関数は、LeakyReLUである。該活性化関数は、非線形、微分可能、単調性等の特徴を有する。
【0034】
一実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、異なるRGB色で異なる種類の物体を標記し、ハイライト表示を行い、かつ隣接した物体間に差異性が大きいRGB色を充填する。または物体輪郭及び背景に基づき、該物体の種類を識別し、且つデータベースから対応した(近い/類似する)写真を使用して分割した該物体を充填する。
【0035】
他の一実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、各物体に対応した部分を単独で切り取り、新しいレイヤを生成し、つまり、各物体に対応的に1枚の写真を生成する。最後にまたレイヤに対応した1つの背景を選択してレイヤと合成させる。
【0036】
要約すると、本実施例によるセマンティックセグメンテーションモデルの訓練方法において、構築した訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。その中に、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスのみが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低くなる。
【0037】
図3に示されているように、本発明がさらに提供したセマンティックセグメンテーションモデルの訓練装置は、以下を含む:
第1構築部10は、訓練サンプル集合を構築するためのものである。前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
境界ボックスの標記は、ボックスで対象物体を注釈することである。セグメンテーションマスクの標記(マスク注釈)は、1つの物体に対してその輪郭を標記することである。相対的に言えば、境界ボックスの注釈を標記し易いため、コストが低い一方、マスクの注釈を標記しにくいため、標記コストが高い。
【0038】
従来のセマンティックセグメンテーション現状から分かるように、1枚の画像に対してセマンティックセグメンテーションを行えば、該画像中の各種類物体のセグメンテーションマスクを取得する必要がある。セグメンテーションマスクを取得するために、予め訓練して該種類物体に対応したマスクパラメータを取得する必要がある。マスクパラメータは、訓練サンプル集合の画像に対してセグメンテーションマスクを標記してかつ訓練サンプル集合をディープネットワークモデル中に入力することにより取得されることができる。簡単に言えば、セマンティックセグメンテーション対象の画像にある物体種類が人及び木であれば、訓練サンプル集合に人及び木のセグメンテーションマスクを注釈して訓練を行い、人及び木のマスクパラメータを取得し、その後にセマンティックセグメンテーション対象の画像に人及び木に対して分割を行う必要がある。つまり、セマンティックセグメンテーション対象の画像中の各種類に対して、訓練サンプルを作成する際に対応した種類のセグメンテーションマスクを標記する必要がある。しかし、自然界の物体種類が様々であるため、マスク注釈のコストが高すぎ、全部の種類の物体を標記することができない(今までせいぜい80種類を標記することができる)。
【0039】
本実施例において、第1構築部10が構築した前記訓練サンプル集合は、大量の物体種類を含む。例えば、1枚の画像にある物体種類は、人、木、車、列車等の大量の種類の物体を含む場合、訓練サンプル集合中の物体種類が多ければ、後続セマンティックセグメンテーションモデルが画像に対してセマンティックセグメンテーションを行い易くなる。本実施例中の第1種類物体及び第2種類物体は、単に1種類の物体を指すことではなく、一連の物体を表示することである。つまり、第1種類物体及び第2種類物体の種類が複数である。第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスのみが標記されているという条件を満たせば済む。
【0040】
一実施例において、前記第2種類物体の数が前記第1種類物体の数より遥かに多い。少量の第1種類物体の場合、訓練コストを削減する。具体的な実施例において、例えば、訓練サンプル集合は100種類の物体を含む。第1構築部10が訓練サンプル集合を構築する過程に基づき、その中の20種類のみの物体に対して境界ボックス及びセグメンテーションマスクを標記し、残りの80種類の物体に対して境界ボックスのみを標記すればよい。従来技術に100種類の物体に対して全部境界ボックス及びセグメンテーションマスクを標記することに対して、80種類の物体にセグメンテーションマスクを少なく標記するため、標記コストを大幅に削減する。
【0041】
本実施例において、構築した訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。その中に、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスのみが標記されている。該訓練サンプル集合は、完全注釈データ(セグメンテーションマスクを有する種類)と弱注釈データ(境界ボックスのみを有する種類)との混合であるため、該訓練サンプル集合に基づいて訓練を行うタスクを部分的監督タスクと呼ぶ。本発明の実施例中のセマンティックセグメンテーションモデルの訓練方法は、実際に部分的監督学習に基づくセマンティックセグメンテーション訓練の方法である。部分的監督学習の訓練サンプル集合の主な長所は、2種類の既存のデータ集合により大規模の実例分割モデルを構築することができることである。
【0042】
要約すると、本実施例に構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記し、全部種類の物体にセグメンテーションマスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。
【0043】
訓練部20は、前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練し、前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するためのものである。
【0044】
本実施例において、訓練部20は、上記の第1構築部10が構築した訓練サンプル集合をディープネットワークモデル中に入力し、第1種類物体に標記した境界ボックス及びセグメンテーションマスクにより訓練を行い、それに対応した第1境界ボックスパラメータ、第1マスクパラメータを取得し、第2種類物体に標記した境界ボックスにより訓練を行い、それに対応した第2境界ボックスパラメータを取得する。本実施例において、ディープネットワークモデルを訓練する同時に、また重み伝達関数を訓練する。重み伝達関数は、写真の種類の境界ボックスパラメータに基づいて種類のセグメンテーションマスクパラメータ(つまり、実例の分割パラメータである)を予測するように訓練され、MaskR-CNNにマスク注釈を有する種類を使って監督学習のデータとしてエンドツーエンドの訓練を行うことができる。推理する際に、重み伝達関数は、各種類の実例の分割パラメータを予測するためのものであり、セマンティックセグメンテーションモデルに訓練する際にマスクの注釈がない対象種類(例えば、第2種類物体)を含む全部対象の種類を分割させることができる。
【0045】
具体的に、上記の重み伝達関数は、上記の第1境界ボックスパラメータ、第1マスクパラメータにより境界ボックス予測マスクパラメータを訓練する。該境界ボックス予測マスクパラメータは、ある種類物体の境界ボックスによりそれに対応したマスクの1つのパラメータを予測することを指す。訓練により該パラメータを取得した後、分割対象の画像に対してセマンティックセグメンテーションを行う際に、それに対応した境界ボックスを予測し、また境界ボックスによりそのマスクパラメータを予測することにより、セマンティックセグメンテーションを実現し、具体的な実現過程は、下記の実施例に詳細に説明されるため、ここに再び説明する必要がない。
【0046】
構築した訓練サンプル集合に一部種類のみの物体にセグメンテーションマスクを標記するため、本ステップの訓練過程において、訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。
第2構築部30は、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するためのものである。
【0047】
上記の第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータは、つまり本実施例中のセマンティックセグメンテーションモデルの訓練パラメータである。セマンティックセグメンテーションモデルを使って1枚の画像に対してセマンティックセグメンテーションを行う場合、該画像の各種類物体のセグメンテーションマスクを取得する必要がある。セグメンテーションマスクを取得するために、予め訓練して該種類物体に対応したマスクパラメータ(つまり既存のセマンティックセグメンテーションモデル中の訓練パラメータである)を取得する必要がある。つまり、画像に対してセマンティックセグメンテーションを行うためのセマンティックセグメンテーションモデルを取得するために、マスクパラメータを取得する必要がある。上記の実施例に説明したように、対応したマスクパラメータを取得するためにマスク注釈を直接に行う訓練コストがわりに高い。従って、本実施例において、訓練により取得した訓練パラメータは、第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータである。上記の訓練パラメータを対応してディープネットワークモデル及び前記重み伝達関数中に入力し、画像に対するセマンティックセグメンテーションに適用するセマンティックセグメンテーションモデルを構築する。
【0048】
図4に示されているように、一実施例において、セマンティックセグメンテーションモデルの訓練装置は、さらに、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するための分割部40と、を含む。
【0049】
図5に示されているように、具体的に、上記の分割部40は、以下を含む:
第1予測モジュール401は、前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測するためのものである。
第1予測モジュール401は、分割対象の画像をセマンティックセグメンテーションモデル中に入力し、分割対象の画像中の第1種類物体及び第2種類物体の境界ボックスを直接に予測することができる。
【0050】
第2予測モジュール402は、前記第1種類物体の境界ボックス、第2種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータをそれぞれ予測するためのものである。
第2予測モジュール402は、上記の第1予測モジュール401が予測した第1種類物体の境界ボックス、第2種類物体の境界ボックスを重み伝達関数に入力して計算を行い、前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータを予測することができる。
分割モジュール403は、前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行うためのものである。
【0051】
上述第2予測モジュール402が分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータを取得した後、分割モジュール403は、分割対象の画像中の第1種類物体及び第2種類物体に対応したセグメンテーションマスクを取得し、その後にセグメンテーションマスクにより分割対象の画像に対して画像セマンティックセグメンテーションを行う。
【0052】
一実施例において、前記ディープネットワークモデルは、Mask-RCNN型ネットワークモデルである。Mask R-CNN型ネットワークモデルは、既存のモデルであり、FasterR-CNN型の拡張であり、それが境界ボックスを識別するためのブランチに並行して対象マスクを予測するためのブランチを添加するネットワークモデルである。Mask R-CNNは、2つのブランチを含み、1つのブランチが境界ボックス予測ブランチであり、他の1つがマスク予測ブランチである。Mask R-CNNにおいて、境界ボックス予測ブランチの最後の一層及びマスク予測ブランチの最後の一層は、いずれも各種類に境界ボックス分類を実行する及び実例マスクを予測するタスクに使用された種類パラメータ(境界ボックスパラメータ、マスクパラメータを含む)を含む。例えば、境界ボックス予測ブランチにより境界ボックスに基づいてその境界ボックスパラメータを予測し、マスク予測ブランチによりセグメンテーションマスクに基づいて対応したマスクパラメータを予測することができる。
【0053】
上記のMaskR-CNN方法は、実際にある種類の境界ボックスパラメータ及びマスクパラメータをそれぞれ学習することである。本実施例において、Mask-RCNN型ネットワークモデルを訓練する同時に、また重み伝達関数を訓練する。具体的に、境界ボックスブランチの最後の一層とマスクブランチの最後の一層との間に上記の重み伝達関数を訓練する。上記の訓練サンプル集合をMask R-CNN型ネットワーク中に出力する同時に、損失関数が収束するまで重み伝達関数を使って訓練を行えば、本実施例中のセマンティックセグメンテーションモデルの訓練パラメータを取得する。
【0054】
具体的に、上記の重み伝達関数は、以下の式に表れており
【0055】
【0056】
そのうち、τは、伝達関数であり、ωclsは、種類の重みであり、ωboxは、境界ボックスの重みであり、ωdetは、併合ベクトルであり、θは、種類不明の学習パラメータであり、ωsegは、境界ボックス予測マスクパラメータである。
【0057】
本実施例において、上記の重み伝達関数は、二層の全接続ニューラルネットワークである。
そのうち、二層の全接続層のニューロンの数は、それぞれ5120、256である。それが使用した活性化関数は、LeakyReLUである。該活性化関数は、非線形、微分可能、単調性等の特徴を有する。
一実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、異なるRGB色で異なる種類の物体を標記し、ハイライト表示を行い、かつ隣接した物体間に差異性が大きいRGB色を充填する。または物体輪郭及び背景に基づき、該物体の種類を識別し、かつデータベースから対応した(近い/類似する)写真を使用して分割した該物体を充填する。
【0058】
他の実施例において、セマンティックセグメンテーションモデルを使って分割対象の画像に対してセマンティックセグメンテーションを行った、つまり物体輪郭を表示した後、各物体に対応した部分を単独で切り取り、新しいレイヤを生成し、つまり、各物体に対応的に1枚の写真を生成する。最後にまたレイヤに対応した1つの背景を選んでレイヤと合成させる。
【0059】
要約すると、本実施例によるセマンティックセグメンテーションモデルの訓練装置において、構築した訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスのみが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低い。
【0060】
図6に示されているように、本発明は、さらにコンピュータデバイスを提供した。該コンピュータデバイスは、サーバでもよく、その内部構造が
図6に示されているようになる。該コンピュータデバイスは、システムバスにより接続されたプロセッサと、メモリと、ネットワークインターフェースと、データベースと、を含む。その中、該コンピュータデバイスのプロセッサは、計算及び制御能力を提供するためのものである。該コンピュータデバイスのメモリは、不揮発性記憶媒体と、内部メモリと、を含む。該不揮発性記憶媒体にオペレーティングシステム、コンピュータ可読命令及びデータベースが記憶されている。該内部メモリは、不揮発性記憶媒体に記憶されたオペレーティングシステム及びコンピュータ可読命令の実行のために環境を提供する。該コンピュータデバイスのデータベースは、セマンティックセグメンテーションモデル等のデータを記憶するためのものである。該コンピュータデバイスのネットワークインターフェースは、外部の端末とネットワークにより接続して通信するためのものである。該コンピュータ可読命令は、プロセッサに実行される際にセマンティックセグメンテーションモデルの訓練方法を実現する。
【0061】
上記のプロセッサが上記のセマンティックセグメンテーションモデルの訓練方法を実行するステップは、以下を含む:
訓練サンプル集合を構築する。前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練する。前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータをディープネットワークモデル及び重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する。
【0062】
一実施例において、上記のプロセッサは、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータをディープネットワークモデル及び重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するという前記ステップの後、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップを含む。
【0063】
一実施例において、上記のプロセッサが分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するという上記のステップは、
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測することと、
前記第1種類物体の境界ボックス、第2種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータをそれぞれ予測することと、
前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行うことと、を含む。
【0064】
一実施例において、上記のディープネットワークモデルは、Mask-RCNN型ネットワークモデルである。
一実施例において、上記の重み伝達関数は、以下の式に表れており
【0065】
【0066】
そのうち、τは、伝達関数であり、ωclsは、種類の重みであり、ωboxは、境界ボックスの重みであり、ωdetは、併合ベクトルであり、θは、種類不明の学習パラメータであり、ωsegは、境界ボックス予測マスクパラメータである。
【0067】
一実施例において、上記の重み伝達関数は、二層の全接続ニューラルネットワークである。
そのうち、二層の全接続層のニューロンの数は、それぞれ5120、256である。それが使用した活性化関数は、LeakyReLUである。
【0068】
一実施例において、上記の第2種類物体の数は、前記第1種類物体の数より多い。
当業者であれば、
図6に示されている構造が、本発明の
解決策に関連する一部のブッロク図に過ぎず、本発明の
解決策に応用したコンピュータデバイスを制限するものではないという点を理解できることである。
【0069】
本発明は、さらにコンピュータ不揮発性可読記憶媒体を提供する。
それにコンピュータ可読命令が記憶されている。
コンピュータ可読命令は、プロセッサによって実行される際にセマンティックセグメンテーションモデルの訓練方法を実現する。
【0070】
具体的に、前記方法は、以下のステップを含む。
訓練サンプル集合を構築し、前記訓練サンプル集合は、第1種類物体と、第2種類物体と、を含み、その中に、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスが標記されている。
前記訓練サンプル集合をディープネットワークモデル中に入力して前記第1種類物体の第1境界ボックスパラメータ、第1マスクパラメータ及び前記第2種類物体の第2境界ボックスパラメータを訓練する。前記第1境界ボックスパラメータ及び第1マスクパラメータを重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練する。
前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築する。
【0071】
一実施例において、上記のプロセッサは、前記第1境界ボックスパラメータ、第1マスクパラメータ、第2境界ボックスパラメータ及び境界ボックス予測マスクパラメータを前記ディープネットワークモデル及び前記重み伝達関数中に入力してセマンティックセグメンテーションモデルを構築するという前記ステップの後、
分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するというステップを含む。
【0072】
一実施例において、上記のプロセッサが分割対象の画像を前記セマンティックセグメンテーションモデル中に入力して分割対象の画像のセマンティックセグメンテーション結果を出力するという上記のステップは、
前記分割対象の画像を前記セマンティックセグメンテーションモデル中に入力し、前記第1境界ボックスパラメータにより分割対象の画像中の第1種類物体の境界ボックスを予測し、また前記第2境界ボックスパラメータにより分割対象の画像中の第2種類物体の境界ボックスを予測することと、
前記第1種類物体の境界ボックス、第2種類物体の境界ボックス及び前記境界ボックス予測マスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータをそれぞれ予測することと、
前記分割対象の画像中の第1種類物体及び第2種類物体のマスクパラメータにより前記分割対象の画像中の第1種類物体及び第2種類物体に対して画像セマンティックセグメンテーションを行うことと、を含む。
【0073】
一実施例において、上記のディープネットワークモデルは、Mask-RCNN型ネットワークモデルである。
一実施例において、上記の重み伝達関数は、以下の式に表れており
【0074】
【0075】
そのうち、τは、伝達関数であり、ωclsは、種類の重みであり、ωboxは、境界ボックスの重みであり、ωdetは、併合ベクトルであり、θは、種類不明の学習パラメータであり、ωsegは、境界ボックス予測マスクパラメータである。
【0076】
一実施例において、上記の重み伝達関数は、二層の全接続ニューラルネットワークである。
そのうち、二層の全接続層のニューロンの数は、それぞれ5120、256である。それが使用した活性化関数は、LeakyReLUである。
【0077】
一実施例において、上記の第2種類物体の数は、前記第1種類物体の数より多い。
要約すると、本実施例によるセマンティックセグメンテーションモデルの訓練方法、装置、コンピュータデバイス及び記憶媒体において、構築した訓練サンプル集合は、第1種類物体と、第2種類物体と、を含む。そのうち、第1種類物体に境界ボックス及びセグメンテーションマスクが標記され、前記第2種類物体に境界ボックスのみが標記されている。全ての種類物体に分割マスクを標記する必要がないため、訓練サンプル集合の標記コストを大幅に削減し、また後続訓練サンプル及び訓練計算の圧力を低下し、訓練効率を向上させる。訓練サンプル集合をディープネットワークモデル及び重み伝達関数中に入力して境界ボックス予測マスクパラメータを訓練するため、ある種類物体の境界ボックスによりそのマスクパラメータを予測し、該種類物体に対してセマンティックセグメンテーションを行うことができ、分割コストが低い。
【0078】
当業者であれば、上記の実施例方法中の全部または一部プロセスがコンピュータ可読命令が関連ハードウェアを命令することにより完成されることを理解すべきである。前記コンピュータ可読命令は、コンピュータ不揮発性可読記憶媒体中に記憶されてもよく、実行される際に上記の各方法の実施例のプロセスを含んでも良い。そのうち、本発明が提供した及び実施例に使用されたメモリ、記憶、データベース又は他の媒体に対する任意の引用は、いずれも不揮発性及び/又は揮発性メモリを含む。不揮発性メモリは、読取り専用メモリ(ROM)、プログラム可能ROM(PROM)、電気的プログラム可能ROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM;登録商標)またはフラッシュメモリを含んでも良い。揮発性メモリは、ランダムアクセスメモリ(RAM)又は外部キャッシュメモリを含んでも良い。説明するためのものであり、制限するためのものではなく、RAMは、多種の形式、例えば、スタティックRAM(SRAM)、ダイナミックRAM(DRAM)、同期DRAM(SDRAM)、倍速SDRAM(SSRSDRAM)、エンハンスドSDRAM(ESDRAM)、シンクロナス(Synchlink)DRAM(SLDRAM)、メモリバス(Rambus)直接RAM(RDRAM)、直接メモリバスダイナミックRAM(DRDRAM)、及びメモリバスダイナミックRAM(RDRAM)等により取得されることができる。
【0079】
本発明において、「含む」、「包含」又は任意の他の変体の専門用語は、カバーであり、排他性の包含ではなく、一連要素の過程、装置、部品又は方法を含み、それらの要素だけではなく、また明確に提出した他の要素、またはこの過程、装置、部品又は方法に対する固有要素を含む。さらなる制限がない情況下、「1つ……を含む」という表現が制限する要素は、該要素を含む過程、装置、部品又は方法中に他の同じ要素の存在を排除しない。
【0080】
以上説明したのは、本発明の優れた実施例に過ぎず、本発明の特許範囲を制限するものではない。本発明の説明書及び図面内容を利用してなしたあらゆる等価構造又は等価プロセス変換は、他の関連技術分野に直接又は間接に応用される場合、本発明の保護範囲内に含まれるはずである。
【符号の説明】
【0081】
10 第1構築部
20 訓練部
30 第2構築部
40 分割部
401 第1予測モジュール
402 第2予測モジュール
403 分割モジュール