IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ワンコネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン)の特許一覧

特許6994588顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体
<>
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図1
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図2
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図3
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図4
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図5
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図6
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図7
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図8
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図9
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図10
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図11
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図12
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図13
  • 特許-顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体 図14
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-15
(45)【発行日】2022-01-14
(54)【発明の名称】顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220106BHJP
【FI】
G06T7/00 350C
G06T7/00 660A
【請求項の数】 20
(21)【出願番号】P 2020560486
(86)(22)【出願日】2019-11-29
(65)【公表番号】
(43)【公表日】2021-11-25
(86)【国際出願番号】 CN2019122165
(87)【国際公開番号】W WO2020253127
(87)【国際公開日】2020-12-24
【審査請求日】2020-10-28
(31)【優先権主張番号】201910542712.9
(32)【優先日】2019-06-21
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】201910606508.9
(32)【優先日】2019-07-05
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】519211258
【氏名又は名称】ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・(シェンチェン)
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】姚 旭峰
(72)【発明者】
【氏名】徐 国▲強▼
【審査官】新井 則和
(56)【参考文献】
【文献】中国特許出願公開第110472494(CN,A)
【文献】中国特許出願公開第109711544(CN,A)
【文献】中国特許出願公開第109241988(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
(57)【特許請求の範囲】
【請求項1】
顔特徴抽出モデル訓練方法であって、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得ることと、
顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力することと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力することと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることと、
第1損失関数および第2損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第1サブ損失値および第2サブ損失値を確定することと、
損失値融合式に基づき、前記第1サブ損失値および前記第2サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定することと、
前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定すること、を含み
前記第1損失関数は、

【数1】
であり、
ここで、Jが第1サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、uが顔訓練データにおけるk番目の画像のタグベクトルであり、mが各バッチの顔訓練データにおける画像数であり、
前記第2損失関数は、

【数2】
であり、
ここで、Jが第2サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、cが顔訓練データにおけるk番目の画像の中心であり、mが各バッチの顔訓練データにおける画像数であり、
前記損失値融合式は、

【数3】
であり、
ここで、Jが前記損失値であり、wとwが重みであることを特徴とする顔特徴抽出モデル訓練方法。
【請求項2】
前記顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力する前に、前記方法はさらに、
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることと、
前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることと、
前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得ることと、を含むことを特徴とする請求項1に記載の顔特徴抽出モデル訓練方法。
【請求項3】
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることは、
前記顔サンプル画像セットにおける画像に対して最小信頼度分析を行い、各前記画像に対応する第1不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第2不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第3不確実性値を得て、それによって前記分析結果を得ることと、を含むことを特徴とする請求項2に記載の顔特徴抽出モデル訓練方法。
【請求項4】
前記分析結果は、第1不確実性値、第2不確実性値および第3不確実性値を含み、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることは、
第1不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第1スクリーニング画像セットを得ることと、
第2不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第2スクリーニング画像セットを得ることと、
第3不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第3スクリーニング画像セットを得ることと、
前記第1スクリーニング画像セット、第2スクリーニング画像セットおよび第3スクリーニング画像セットに基づき、前記タグ付け対象となる画像セットを構成することと、を含む請求項2に記載の顔特徴抽出モデル訓練方法。
【請求項5】
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることは、
各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出することと、
最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定することと、を含むことを特徴とする請求項1に記載の顔特徴抽出モデル訓練方法。
【請求項6】
顔特徴抽出方法であって、
ターゲット画像を取得することと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得ることと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力することと、を含み、ここで、前記顔特徴抽出モデルが請求項1-5のいずれか一項に記載の顔特徴抽出モデル訓練方法訓練を用いて訓練して得られたモデルであることを特徴とする顔特徴抽出方法。
【請求項7】
顔特徴抽出モデル訓練装置であって、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るためのモデル訓練ユニットと、
顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するためのデータ出力ユニットと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するためのデータ入力ユニットと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、
第1損失関数および第2損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第1サブ損失値および第2サブ損失値を確定し、
損失値融合式に基づき、前記第1サブ損失値および前記第2サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定し、
前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するためのモデル確定ユニットと、を含み、
前記第1損失関数は、

【数4】
であり、
ここで、Jが第1サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、uが顔訓練データにおけるk番目の画像のタグベクトルであり、mが各バッチの顔訓練データにおける画像数であり、
前記第2損失関数は、

【数5】
であり、
ここで、Jが第2サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、cが顔訓練データにおけるk番目の画像の中心であり、mが各バッチの顔訓練データにおける画像数であり、
前記損失値融合式は、

【数6】
であり、
ここで、Jが前記損失値であり、wとwが重みであることを特徴とする顔特徴抽出モデル訓練装置。
【請求項8】
顔特徴抽出装置であって、
ターゲット画像を取得するための画像取得ユニットと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るための画像処理ユニットと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するための画像入力ユニットと、を含み、ここで、前記顔特徴抽出モデルが請求項1-5のいずれか一項に記載の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルであることを特徴とする顔特徴抽出モデル訓練装置。
【請求項9】
コンピュータ機器であって、メモリとプロセッサを含み、
前記メモリは、コンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行するときに、顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るステップと、
顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークにそれぞれ対応する検証顔特徴データを出力するステップと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するステップと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得るステップと、
第1損失関数および第2損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第1サブ損失値および第2サブ損失値を確定するステップと、
損失値融合式に基づき、前記第1サブ損失値および前記第2サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定するステップと、
前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するステップと、を実現するために使用され、
前記第1損失関数は、

【数7】
であり、
ここで、Jが第1サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、uが顔訓練データにおけるk番目の画像のタグベクトルであり、mが各バッチの顔訓練データにおける画像数であり、
前記第2損失関数は、

【数8】
であり、
ここで、Jが第2サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、cが顔訓練データにおけるk番目の画像の中心であり、mが各バッチの顔訓練データにおける画像数であり、
前記損失値融合式は、

【数9】
であり、
ここで、Jが前記損失値であり、wとwが重みであることを特徴とするコンピュータ機器。
【請求項10】
前記顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力する前に、方法は、さらに、
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることと、
前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることと、
前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得ることと、を含むことを特徴とする請求項9に記載のコンピュータ機器。
【請求項11】
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることは、
前記顔サンプル画像セットにおける画像に対して最小信頼度分析を行い、各前記画像に対応する第1不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第2不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第3不確実性値を得て、それによって前記分析結果を得ることと、を含むことを特徴とする請求項10に記載のコンピュータ機器。
【請求項12】
前記分析結果は、第1不確実性値、第2不確実性値および第3不確実性値を含み、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることは、
第1不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第1スクリーニング画像セットを得ることと、
第2不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第2スクリーニング画像セットを得ることと、
第3不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第3スクリーニング画像セットを得ることと、
前記第1スクリーニング画像セット、第2スクリーニング画像セットおよび第3スクリーニング画像セットに基づき、前記タグ付け対象となる画像セットを構成することと、を含むことを特徴とする請求項10に記載のコンピュータ機器。
【請求項13】
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることは、
各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出することと、
最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定することと、を含むことを特徴とする請求項9に記載のコンピュータ機器。
【請求項14】
コンピュータ機器であって、メモリとプロセッサを含み、
前記メモリは、コンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行するときに、
ターゲット画像を取得するステップと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るステップと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するステップと、を実現するために使用され、ここで、前記顔特徴抽出モデルが請求項1-5のいずれか一項に記載の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルであることを特徴とするコンピュータ機器。
【請求項15】
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサに、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るステップと、
顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するステップと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するステップと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得るステップと、
第1損失関数および第2損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第1サブ損失値および第2サブ損失値を確定するステップと、
損失値融合式に基づき、前記第1サブ損失値および前記第2サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定するステップと、
前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するステップと、を実現させ、
前記第1損失関数は、

【数10】
であり、
ここで、Jが第1サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、uが顔訓練データにおけるk番目の画像のタグベクトルであり、mが各バッチの顔訓練データにおける画像数であり、
前記第2損失関数は、

【数11】
であり、
ここで、Jが第2サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、cが顔訓練データにおけるk番目の画像の中心であり、mが各バッチの顔訓練データにおける画像数であり、
前記損失値融合式は、

【数12】
であり、
ここで、Jが前記損失値であり、wとwが重みであることを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項16】
顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力する前に、さらに、
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることと、
前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることと、
前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得ることと、を含むことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
【請求項17】
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることは、
前記顔サンプル画像セットにおける画像に対して最小信頼度分析を行い、各前記画像に対応する第1不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第2不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、前記画像のそれぞれに対応する第3不確実性値を得て、それによって前記分析結果を得ることと、を含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項18】
前記分析結果は、第1不確実性値、第2不確実性値および第3不確実性値を含み、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることは、
第1不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第1スクリーニング画像セットを得ることと、
第2不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第2スクリーニング画像セットを得ることと、
第3不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第3スクリーニング画像セットを得ることと、
前記第1スクリーニング画像セット、第2スクリーニング画像セットおよび第3スクリーニング画像セットに基づき、前記タグ付け対象となる画像セットを構成することと、を含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記憶媒体。
【請求項19】
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることは、
各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出することと、
最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定することと、を含むことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
【請求項20】
コンピュータ読み取り可能な記憶媒体であって、
ターゲット画像を取得することと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得ることと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力することと、を含み、ここで、前記顔特徴抽出モデルが請求項1-5のいずれか一項に記載の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルであることを特徴とするコンピュータ読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2019年07月05日に中国特許庁に提出した出願番号が201910606508.9、発明名称が「顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体」の中国特許出願の優先権を主張するものであり、その内容のすべては参照により本出願に組込まれる。
【0002】
本出願は、生体認識分野に関し、特に、顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体に関する。
【背景技術】
【0003】
近年、顔に代表される生体特徴の検出及び認識は、身元認識、知恵教育などの多くの分野で広く応用されている。顔認識技術とは、特徴抽出モデルによって顔特徴を抽出し、その顔特徴によって身元認識又はターゲット検出を行う技術である。既存の特徴抽出モデルは、人の顔から特徴を抽出する時に、抽出精度が高くなく、実際の応用シーンでの利用要件を満たすことが難しい。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願は、顔特徴抽出モデルの特徴抽出精度を向上させ、人間の顔の動作認識のための重要な参考を提供する、顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体を提供する。
【課題を解決するための手段】
【0005】
第1態様では、本出願は、顔特徴抽出モデル訓練方法を提供する。前記方法は、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得ることと、
顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力することと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力することと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定することと、を含む。
【0006】
第2態様では、本出願はさらに、顔特徴抽出方法を提供する。前記方法は、
ターゲット画像を取得することと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得ることと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力することとを含み、ここで、前記顔特徴抽出モデルが上記顔特徴抽出モデル訓練方法により訓練されて得られる。
【0007】
第3態様では、本出願はさらに、顔特徴抽出モデル訓練装置を提供する。前記装置は、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るためのモデル訓練ユニットと、
顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するためのデータ出力ユニットと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するためのデータ入力ユニットと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するためのモデル確定ユニットと、を含む。
【0008】
第4態様では、本出願はさらに、顔特徴抽出装置を提供する。前記装置は、
ターゲット画像を取得するための画像取得ユニットと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るための画像処理ユニットと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するための画像入力ユニットとを含み、ここで、前記顔特徴抽出モデルが上記の顔特徴抽出モデル訓練方法により訓練されて得られる。
【0009】
第5態様では、本出願はさらに、コンピュータ機器を提供する。前記コンピュータ機器は、コンピュータプログラムを記憶するためのメモリと、前記コンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行するときに上記の顔特徴抽出モデル訓練方法または顔特徴抽出方法を実現するためのプロセッサと、を含む。
【0010】
第6態様では、本出願はさらに、コンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータ読み取り可能な記憶媒体には、プロセッサによって実行されると、前記プロセッサに上記の顔特徴抽出モデル訓練方法または顔特徴抽出方法を実現させるためのコンピュータプログラムが記憶されている。
【発明の効果】
【0011】
本出願は、顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体を開示する。顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得て、顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力し、各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力し、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定する。これにより、顔特徴抽出モデルの特徴抽出精度が向上する。
【図面の簡単な説明】
【0012】
本出願の実施例における技術的解決手段をより明確に説明するために、以下は、実施例の説明に必要な図面を簡単に紹介し、明らかに、以下で説明される図面は、本出願のいくつかの実施例に過ぎず、当業者であれば、創造的労働を要することなく、これらの図面に基づく他の図面を得ることができる。
【0013】
図1】本出願の実施例による画像セットのタグ付け方法を示すフローチャートである。
図2図1の画像セットのタグ付け方法のサブステップを示すフローチャートである。
図3図1の画像セットのタグ付け方法のサブステップを示すフローチャートである。
図4図1の第1スクリーニング画像セットの取得ステップを示すフローチャートである。
図5】本出願の実施例による顔特徴抽出モデル訓練方法を示すフローチャートである。
図6図5の顔特徴抽出モデル訓練方法のサブステップを示すフローチャートである。
図7図5の顔特徴抽出モデル訓練方法のサブステップを示すフローチャートである。
図8】損失値を確定するステップを示すフローチャートである。
図9】本出願の一実施例による顔特徴抽出方法のステップを示すフローチャートである。
図10】本出願の一実施例による顔特徴抽出方法の応用シーンを示す図である。
図11】本出願の実施例による顔特徴抽出モデル訓練装置を示すブロック図である。
図12図11の顔特徴抽出モデル訓練装置のサブユニットを示すブロック図である。
図13】本出願の実施例による顔特徴抽出装置を示すブロック図である。
図14】本出願の一実施例によるコンピュータ機器の構造を示すブロック図である。
【発明を実施するための形態】
【0014】
以下では、本出願の実施例における技術的解決手段を、本出願の実施例における図面と組み合わせて明確かつ完全に説明するが、明らかに、記載された実施例は、本出願の実施例の全てではなく、実施例の一部である。本出願の実施例に基づき、創造的な作業を行わずに当業者によって得られた他のすべての実施例は、本出願の保護範囲内にあるものとする。
【0015】
図面に示されているフローチャートは、一例に過ぎず、必ずしもすべての内容および操作/ステップを含むわけではなく、記載された順序でそれらを実行することも必須ではない。例えば、一部の操作/ステップは、分解、結合、または部分的に結合できるため、実際の実行順序が実際の状況に応じて変更される場合がある。
【0016】
本出願の実施例は、顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、コンピュータ機器および記憶媒体を提供する。顔特徴抽出モデルは、人間の顔動作の認識シーンにおいて人間の顔動作の顔特徴を抽出するために使用されてもよい。
【0017】
以下、本出願のいくつかの実施形態を図面と組み合わせて詳細に説明する。衝突がない場合、下記の実施例および実施例の特徴は、互いに組み合わせられてもよい。
【0018】
図1を参照すると、図1は、本出願の実施例による画像セットのタグ付け方法のステップを示すフローチャートである。
【0019】
機械学習プロセスでは、モデルをテストして訓練できるために、顔サンプル画像にタグ付けを行う必要がある。通常、顔サンプル画像に直接タグ付けし、対応する顔訓練データを得る。しかし、現在のモデルでは、顔サンプル画像が容易に認識できる状況もあるため、そのような画像にタグ付けしてから訓練しても、通常所望の効果が得られず、タグ付け者の多大な労力が浪費され、機械学習の全体的な効率が低下する。
【0020】
図1に示すように、モデル訓練の効率と機械学習の全体的な効率を向上させるために、本出願は、顔特徴抽出モデルに対してモデル訓練を行うように、顔画像にラベリングするために使用される画像セットのタグ付け方法を提供する。ここで、当該方法は、具体的には、ステップS110乃至ステップS150を含む。
【0021】
S110、予め設定された選択ルールに従って、複数の元の顔画像からタグ無し画像を選択し、顔サンプル画像セットを得る。
【0022】
具体的には、元の顔画像とは、インターネットから得られた大量の画像を指す。これらの画像は処理されていない画像である。機械学習では、これらの画像に対して認識処理を行って認識結果を得て、またはこれらの画像から対応する画像を選択してテスト訓練処理を行い、当該機械学習のためのより適切なデータを得ることができるので、予め設定されたターゲットに従って機械学習が進行し、これにより、より優れた機械学習モデルを得ることができる。
【0023】
従って、大量の元の顔画像からタグ無し顔サンプル画像を選択する必要があり、すべての顔サンプル画像が顔サンプル画像セットを構成する。ここで、予め設定された選択ルールでは、特定の画像生成源の画像を顔サンプル画像として選択してもよく、例えば、予め設定されたチャネルを通じて、イエール(Yale)顔データベース内の顔画像を顔サンプル画像として選択する。もちろん、画像の生成時間などに従って選択してもよく、例えば、法定休日の間の顔画像を顔サンプル画像として選択する。すべての顔サンプル画像の集合を顔サンプル画像セットとして構成する。
【0024】
S120、前記顔サンプル画像セットに対して不確実性分析を行い、分析結果を得る。
【0025】
ここで、前記顔サンプル画像セットは、いくつかのタグ無し画像を含む。各前記顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることは、具体的には、
各前記顔サンプル画像セットに対して、最小信頼度分析、エッジサンプリング分析および情報エントロピー分析のうちの少なくとも1つを実行し、各前記顔サンプル画像セットの不確実性値を得ることを含む。
【0026】
具体的には、不確実性は、最小信頼度、エッジサンプリングおよび情報エントロピーのうちの少なくとも1つによって測定されてもよい。具体的には、その分析結果は、値で表されてもよい。例えば、値が高いほど、不確実性が高くなる。もちろん、分析結果は、不確実性を複数のレベルに分けて比較するなどの形で不確実性を示すこともできる。
【0027】
図2に示すように、一実施例では、各前記顔サンプル画像セットのそれぞれに対して不確実性分析を行う具体的なプロセス、すなわち、ステップS120は、具体的には、サブステップS121、S122およびS123を含む。
【0028】
S121、前記顔サンプル画像セットにおける画像に対して最小信頼度分析を行い、各前記画像に対応する第1不確実性値を得る。
【0029】
具体的には、画像の不確実性は、画像のタグ値とも呼ばれる。最小信頼度分析、すなわち、Least confidenceは、以下のように定義され得る。
【0030】

【数1】
【0031】
ここで、

【数2】
が前記第1不確実性値を示し、

【数3】
がカテゴリを示し、

【数4】
がサンプルxの予測確率分布における確率を示し、

【数5】
がモデル予測確率分布を示し、

【数6】
が大きいほど、サンプルxの不確実性が高いこと、すなわち、対応するタグ付け処理の必要性が高いことを示す。
【0032】
S122、前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第2不確実性値を得る。
【0033】
具体的には、エッジサンプル分析、すなわち、Margin samplingは、以下のように定義され得る。
【0034】

【数7】
【0035】
ここで、

【数8】
が前記第2不確実性値を示し、

【数9】
がサンプルxの予測確率分布における最大確率を示し、

【数10】
がサンプルxの予測確率分布における2番目に高い確率を示し、ここで、

【数11】
がそれぞれモデルθによって予測された最大確率および2番目に高い確率に対応するカテゴリであり、

【数12】
がモデル予測確率分布を示し、

【数13】
が大きいほど、サンプルxの不確実性が高いこと、すなわち、対応するタグ付け処理の必要性が高いことを示す。
【0036】
S123、前記顔サンプル画像セットにおける画像に対して情報エントロピー分析を行い、各前記画像に対応する第3不確実性値を得る。
【0037】
具体的には、情報エントロピー分析は、以下のように定義され得る。
【0038】

【数14】
【0039】
ここで、

【数15】
が前記第3不確実性値を示し、

【数16】
がサンプルxの予測確率を示し、

【数17】
がモデル予測確率分布を示し、

【数18】
が大きいほど、サンプルxの不確実性が高いこと、すなわち、対応するタグ付け処理の必要性が大きいことを示す。
【0040】
S130、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得る。
【0041】
具体的には、前記分析結果は、前記顔サンプル画像セットにおける各画像に対応する不確実性値を含む。
【0042】
一実施例では、ステップS130は、具体的には、
第1不確実性値、第2不確実性値および第3不確実性値に応じて、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることを含む。
【0043】
図3に示すように、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ること、すなわち、ステップS130は、具体的には、サブステップS131乃至S134を含む。
【0044】
S131、第1不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第1スクリーニング画像セットを得る。
【0045】
具体的には、最小信頼度分析に基づき、当該分析方法に対応する第1不確実性値を得ることができる。当該第1不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、対応する第1スクリーニング画像セットを得ることができる。
【0046】
S132、第2不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第2スクリーニング画像セットを得る。
【0047】
具体的には、エッジサンプリング分析に基づき、当該分析方法に対応する第2不確実性値を得ることができる。当該第2不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、対応する第2スクリーニング画像セットを得ることができる。
【0048】
S133、第3不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第3スクリーニング画像セットを得る。
【0049】
具体的には、情報エントロピー分析に基づき、当該分析方法に対応する第3不確実性値を得ることができる。当該第3不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、対応する第3スクリーニング画像セットを得ることができる。
【0050】
S134、前記第1スクリーニング画像セット、第2スクリーニング画像セットおよび第3スクリーニング画像セットに基づき、前記タグ付け対象となる画像セットを構成する。
【0051】
具体的には、第1スクリーニング画像セット、第2スクリーニング画像セットおよび第3スクリーニング画像セットをタグ付け対象となる画像セットとして構成する。これにより、タグ付け対象となる画像セットにおける画像数を増やすと同時に、タグ付け対象となる画像セットにおける画像の多様性を高め、最終的に、タグ付け対象となる画像セットにおける画像を豊かにさせ、モデルの訓練効率を向上させ、訓練時間を効果的に短縮し、モデルのロバスト性を向上させることができる。
【0052】
不確実性値を第1不確実性値として例示している。一実施例では、第1不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第1スクリーニング画像セットを得ること、すなわち、ステップS131は、
前記顔サンプル画像セットにおける画像に対して、対応する不確実性値に応じて降順でソートし、上記の予め設定された数の対応する前記画像をタグ付け対象となる画像として設定し、すべての前記タグ付け対象となる画像をタグ付け対象となる画像セットとして設定すること、を含む。
【0053】
具体的には、顔サンプル画像セットにおける画像を、対応する不確実性値に応じて降順で配列することで、シーケンスの前の画像を不確実性の高い画像として維持でき、さらに、選択によりデータの不確実性の程度を維持でき、さらに、モデルの訓練に使用される画像の訓練効率を高く確保できる。
【0054】
ここで、応用の環境に応じて予め設定された数を適宜選択したり、一定の割合で予め設定された数を設定したりすることができる。例えば、顔サンプル画像セットに含まれる画像の総数の85%をタグ付け対象となる画像として選択することができ、この場合、予め設定された数は、その総数の85%である。
【0055】
別の実施例では、図4に示すように、第1不確実性値に応じて、前記顔サンプル画像セットをスクリーニングし、第1スクリーニング画像セットを得ること、すなわち、ステップS131は、具体的には、サブステップS1311、S1312およびS1313を含む。
【0056】
S1311、各判断前記画像に対応する不確実性値が、予め設定された不確実性閾値よりも大きいかどうかを判断する。
【0057】
具体的には、不確実性値は、実際の作業環境に応じて設定される。
【0058】
S1312、前記不確実性値が前記不確実性閾値よりも大きい場合には、対応する前記顔サンプル画像セットをタグ付け対象となる画像として設定する。
【0059】
顔サンプル画像セットにおけるある画像の不確実性値が不確実性閾値よりも大きい場合には、当該画像がタグ付けのルールに準拠していることを示し、さらに、それに対してタグ付け処理を行う。
【0060】
S1313、すべての前記タグ付け対象となる画像をタグ付け対象となる画像セットとして設定する。
【0061】
理解されるように、不確実性値が第2不確実性値または第3不確実性値である場合に、上記のステップを参照することができ、ここでは繰り返さない。
【0062】
S140、前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、タグ付け済み顔画像セットを得る。
【0063】
タグ付け処理は、対応するタグ付け済み画像を取得できるように、各前記タグ付け対象となる画像とそれらに対応するカテゴリとの間で1対1の対応関係を形成することを指し、当該タグ付け済み画像が前記顔検証データである。
【0064】
一実施例では、前記タグ付け対象となる画像に対してタグ付け処理を行うこと、すなわち、ステップS140は、任意の入力としてタグ付けられた、前記タグ付け対象となる画像に対応するタグ付け情報を受信することと、監査人がタグ付け情報を監査して得られる監査結果に応じて、タグ付け情報と前記タグ付け対象となる画像との間に対応関係を形成し、タグ付け済み顔画像セットを得ることと、を含み得る。
【0065】
上記の画像タグ付け方法では、顔サンプル画像セットに対して、最小信頼度分析、エッジサンプリング分析および情報エントロピー分析をそれぞれ行うことで、それらに対応する不確実性の結果を得て、さらに、3つの不確実性分析結果を融合させることで、異なる視点から画像の不確実性を分析することができ、タグ付け対象となる画像の数を増やすと同時に、タグ付け対象となる画像の多様性を高めることができる。各タグ付け対象となる画像をタグ付けすることで、モデル訓練効率を向上させ、より少ないデータでより良い効果を達成し、機械学習の全体的な効率を向上させることができる。
【0066】
図5を参照し、図5は、本出願の実施例による顔特徴抽出モデル訓練方法のステップを示すフローチャートである。
【0067】
なお、当該訓練方法では、複数のオリジナル学生ネットワークを選択してモデル訓練を行い、対応する候補学生ネットワークを得ることができる。複数は、2つ、3つまたはそれ以上であってもよい。オリジナル学生ネットワークは、YOLO9000、AlexNetまたはVGGNetなどのネットワークであってもよい。以下、一例として、複数を2つとし、2つのオリジナル学生ネットワークをそれぞれYOLO9000ネットワークおよびVGGNetネットワークとして説明する。
【0068】
図1に示すように、当該顔特徴抽出モデル訓練方法は、具体的には、ステップS210乃至ステップS240を含む。
【0069】
S210、顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得る。
【0070】
具体的には、顔訓練データは、オリジナル学生ネットワークに対してモデル訓練を行うために使用され、訓練サブデータとテストサブデータを含む。ここで、テストサブデータは、上記の画像タグ付け方法を用いてタグ付けすることによって得られたデータであり、当該候補学生ネットワークが学習要件を満たしているか否かを判定するように、候補学生ネットワークをテストするために使用される。ここで、顔訓練データをYOLO9000ネットワークに入力してモデル訓練を行い、第1候補学生ネットワークを得る。当該顔訓練データをVGGNetネットワークに入力してモデル訓練を行い、第2候補学生ネットワークを得る。
【0071】
S220、顔検証データを各前記候補学生ネットワークに入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力する。
【0072】
具体的には、顔検証データは、上記の画像タグ付け方法を用いてラベリングすることによって得られたデータであってもよい。ここで、顔検証データを第1候補学生ネットワークに入力し、第1検証顔特徴データを得る。当該顔検証データを第2候補学生ネットワークに入力し、第2検証顔特徴データを得る。
【0073】
S230、各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力する。
【0074】
ここで、教師ネットワークは、事前に訓練されたYOLO9000であってもよい。具体的には、第1検証顔特徴データを当該教師ネットワークに入力し、第1候補顔特徴データを出力する。第2検証顔特徴データを当該教師ネットワークに入力し、第2候補顔特徴データを出力する。
【0075】
S240、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定する。
【0076】
具体的には、予め設定された特徴スクリーニングルールは、特定の応用シーンに応じて設定されてもよい。一実施例では、図6に示すように、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることは、サブステップS241およびS242を含む。
【0077】
S241、各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出する。
【0078】
具体的には、校正顔画像は、具体的なシーンに応じて設定されてもよい。ここで、第1候補顔特徴データに基づき、第1精度を算出する。第2候補顔特徴データに基づき、第2精度を算出する。
【0079】
より具体的には、第1候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データを、事前に訓練されたニューラルネットワークモデルに入力し、第1候補顔特徴データに対応する第1精度を出力する。第2候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データを、当該ニューラルネットワークモデルに入力し、第2候補顔特徴データに対応する第2精度を出力する。当該ニューラルネットワークモデルは、具体的には、事前に訓練されたGoogLeNetモデルであってもよいが、もちろん、他のネットワークモデルであってもよい。
【0080】
S242、最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定する。
【0081】
例えば、第1精度が第2精度よりも小さい場合には、第2精度に対応する第2候補顔特徴データをターゲットサンプル特徴として確定する。第2候補顔特徴データに対応する第2候補学生ネットワークを顔特徴抽出モデルとして確定する。
【0082】
図7に示すように、一実施例では、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定することは、サブステップS243、S244およびS245を含む。
【0083】
S243、前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出する。
【0084】
ここで、前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出する具体的なプロセスについては、図8に示すように、すなわち、ステップS243は、S2431およびS2432を含む。
【0085】
S2431、第1損失関数および第2損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第1サブ損失値および第2サブ損失値を確定する。
【0086】
具体的には、第1損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第1サブ損失値を確定する。第2損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第2サブ損失値を確定する。
【0087】
ここで、前記第1損失関数は、
【0088】

【数19】
であり、
ここで、Jが第1サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、uが顔訓練データにおけるk番目の画像のタグベクトルであり、mが各バッチの顔訓練データにおける画像数である。
【0089】
前記第2損失関数は、
【0090】

【数20】
であり、
ここで、Jが第2サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、cが顔訓練データ中のk番目の画像の中心であり、mが各バッチの顔訓練データにおける画像数である。
【0091】
S2432、損失値融合式に基づき、前記第1サブ損失値および前記第2サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定する。
【0092】
具体的には、前記損失値融合式は、
【0093】

【数21】
であり、
ここで、Jが前記損失値であり、wとwが重みである。
【0094】
第1損失関数と第2損失関数との組み合わせを顔特徴抽出モデル再訓練の損失関数として用いることで、訓練された顔特徴抽出モデルがまとまりのあるものとなり、膨大な高品質の顔訓練データセットが存在しない場合でも特徴データを正確に抽出することができ、また、顔特徴抽出モデルの再訓練における収束の遅さやオーバーフィット現象を回避することができる。
【0095】
S244、前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定する。
【0096】
具体的には、前記損失値が予め設定された損失閾値よりも小さい場合には、ターゲットサンプル特徴に対応する候補学生ネットワークが収束したことを示し、当該候補学生ネットワークを顔特徴抽出モデルとして確定する。
【0097】
S245、前記損失値が予め設定された損失閾値以上である場合には、前記損失値に基づき、前記候補学生ネットワークのパラメータを調整する。
【0098】
具体的には、前記損失値が予め設定された損失閾値以上である場合には、ターゲットサンプル特徴に対応する候補学生ネットワークが収束しないことを示しているので、候補学生ネットワークを継続的に訓練する必要があり、当該損失値に基づき、当該損失値が損失閾値よりも小さくなるまで、当該候補学生ネットワークのパラメータを調整し、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定する、すなわち、ステップS244を実行する。
【0099】
上記の顔特徴抽出モデル訓練方法では、上記のタグ付け方法によりタグ付けされた顔訓練データを用い、複数のオリジナル学生ネットワークに対してモデル訓練を行い、さらに、教師ネットワークおよび顔検証データを用いてスクリーニングし、それによって、顔特徴抽出モデルとして最も特徴抽出精度の高い候補学生ネットワークを得る。当該訓練方法によれば、顔訓練データと顔検証データの一部の多様性を高め、モデル訓練の効率を向上させ、さらに、モデル抽出顔特徴の精度を向上させ、人間の顔動作の認識の重要な参考を提供する。
【0100】
図9を参照すると、図9は、本出願の一実施例による顔特徴抽出方法のステップを示すフローチャートである。図10を参照すると、図10は、本出願の一実施例による顔特徴抽出方法の応用シーンを示す図である。ここで、当該顔特徴抽出方法は、端末装置610、620、ネットワーク630およびサーバ640を含むシステムに適用してもよい。
【0101】
ネットワーク640は、端末装置610、620とサーバ640との間の通信リンクを提供するための媒体である。ネットワーク630は、有線、無線通信リンクまたは光ファイバケーブルなどの様々な接続タイプを含んでもよい。
【0102】
ユーザは、端末装置610、620を用い、ネットワーク630を介してサーバ640とインタラクションを行い、要求コマンドなどを受信したり、送信したりしてもよい。端末装置610、620には、画像処理アプリケーション、Webブラウザアプリケーション、検索アプリケーション、インスタントメッセンジャーなどの各種の通信クライアントアプリケーションがインストールされてもよい。
【0103】
具体的には、当該顔特徴抽出方法は、具体的には、ステップS310乃至ステップS330を含む。
【0104】
S310、ターゲット画像を取得する。
【0105】
具体的には、前記認識対象となる画像は、認識対象となる顔ターゲットを含む画像であり、RGB(Red Green Blue、赤緑青)モードの画像などの可視光画像であってもよい。もちろん、上記の認識対象となる画像は、近赤外(Near Infrared、NIR)画像であってもよい。
【0106】
本実施例の実行主体には、可視光画像を収集するためのカメラ、又は近赤外画像を収集するためのカメラがインストールされてもよい。ユーザは、オンになる必要があるカメラを選択し、さらに選択されたカメラで撮影(ユーザの頭又は顔の自撮りに使用)することで、認識対象となる画像を得ることができる。
【0107】
S320、前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得る。
【0108】
顔特徴抽出モデルの精度を向上させるために、ターゲット画像を取得した後、ターゲット画像に対して画像処理操作を行い、前記ターゲット画像の画像パラメータを変更する必要がある。
【0109】
ここで、画像処理操作としては、サイズ調整、クロップ処理、回転処理や画像アルゴリズム処理などがある。画像アルゴリズム処理としては、色温度調整アルゴリズム、露出調整アルゴリズムなどがある。これらの画像処理操作により、ターゲット画像を実際に撮影した画像に近づけることができる。
【0110】
それに応じて、画像パラメータには、サイズ情報、画素サイズ、コントラスト、シャープネス、自然な彩度などが含まれる。
【0111】
S330、前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力する。
【0112】
ここで、前記顔特徴抽出モデルは、上記の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルである。
【0113】
上記の顔特徴抽出方法では、ターゲット画像を取得し、前記ターゲット画像に対して画像処理を行い、前記ターゲット処理画像を顔特徴抽出モデルに入力することにより、顔特徴の抽出の精度が高く、実際の応用シーンへの適用が容易になる。
【0114】
図11を参照すると、図11は、本出願の実施例による顔特徴抽出モデル訓練装置を示すブロック図であり、当該顔特徴抽出モデル訓練装置は、上記の顔特徴抽出モデル訓練方法のいずれかを実行するために使用される。ここで、当該顔特徴抽出モデル訓練装置は、サーバまたは端末に構成されてもよい。
【0115】
ここで、サーバは、独立したサーバであってもよいし、サーバクラスタであってもよい。当該端末は、携帯電話、タブレット、ラップトップ、デスクトップコンピュータ、パーソナルデジタルアシスタントやウェアラブルデバイスなどの電子機器であってもよい。
【0116】
図11に示すように、顔特徴抽出モデル訓練装置400は、モデル訓練ユニット410と、データ出力ユニット420と、データ入力ユニット430と、モデル確定ユニット440と、を含む。
【0117】
モデル訓練ユニット410は、顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るために使用される。
【0118】
データ出力ユニット420は、顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するために使用される。
【0119】
データ入力ユニット430は、各前記検証顔特徴データを予め設定された教師ネットワークに入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するために使用される。
【0120】
モデル確定ユニット440は、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するために使用される。
【0121】
図11に示すように、一実施例では、前記顔特徴抽出モデル訓練装置400はさらに、結果取得ユニット450と、画像スクリーニングユニット460と、画像タグ付けユニット470と、を含む。
【0122】
結果取得ユニット450は、いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得るために使用される。
【0123】
画像スクリーニングユニット460は、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得るために使用される。
【0124】
画像タグ付けユニット470は、前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得るために使用される。
【0125】
図12に示すように、一実施例では、前記モデル確定ユニット440は、精度算出サブユニット441と、特徴確定サブユニット442と、を含む。
【0126】
精度算出サブユニット441は、各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出するために使用される。
【0127】
特徴確定サブユニット442は、最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定するために使用される。
【0128】
図12に示すように、一実施例では、前記モデル確定ユニット440はさらに、損失値確定サブユニット443と、モデル確定サブユニット444と、を含む。
【0129】
損失値確定サブユニット443は、前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出するために使用される。
【0130】
モデル確定サブユニット444は、前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するために使用される。
【0131】
図12に示すように、一実施例では、前記損失値確定サブユニット443は、サブ損失値確定サブユニット4431と、損失値融合サブユニット4432と、を含む。
【0132】
サブ損失値確定サブユニット4431は、第1損失関数および第2損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第1サブ損失値および第2サブ損失値を確定するために使用される。
【0133】
損失値融合サブユニット4432は、損失値融合式に基づき、前記第1サブ損失値および前記第2サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定するために使用される。
【0134】
前記第1損失関数は、
【0135】

【数22】
であり、
ここで、Jが第1サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、uが顔訓練データにおけるk番目の画像のタグベクトルであり、mは各バッチの顔訓練データにおける画像数である;
【0136】
前記第2損失関数は、
【0137】

【数23】
であり、
ここで、Jが第2サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、cが顔訓練データにおけるk番目の画像の中心であり、mが各バッチの顔訓練データにおける画像数である。
【0138】
前記損失値融合式は、
【0139】

【数24】
であり、
ここで、Jが前記損失値であり、wとwが重みである。
【0140】
図13を参照すると、図13は、本出願の実施例による顔特徴抽出装置を示すブロック図であり、当該顔特徴抽出装置は、上記の顔特徴抽出方法を実行するために使用される。ここで、当該顔特徴抽出装置は、サーバまたは端末に構成されてもよい。
【0141】
図13に示すように、当該顔特徴抽出装置500は、画像取得ユニット510と、画像処理ユニット520と、画像入力ユニット530と、を含む。
【0142】
画像取得ユニット510は、ターゲット画像を取得するために使用される。
【0143】
画像処理ユニット520は、前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るために使用される。
【0144】
画像入力ユニット530は、前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するために使用される。ここで、前記顔特徴抽出モデルは、上記の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルである。
【0145】
なお、説明の便宜上および簡略化のために、上記の顔特徴抽出モデル訓練装置および各ユニットの具体的な作業プロセスについては、上記の顔特徴抽出モデル訓練方法の実施例における対応するプロセスを参照することができ、ここで説明を省略しないことは、当業者にとって明らかである。
【0146】
上記装置は、図14に示すようなコンピュータ機器上で実行され得るコンピュータプログラムの形態で実現されてもよい。
【0147】
図14を参照すると、図14は、本出願の実施例によるコンピュータ機器を示すブロック図である。当該コンピュータ機器は、サーバまたは端末であってもよい。
【0148】
図14を参照すると、当該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリおよびネットワークインターフェースを含み、ここで、メモリが不揮発性記憶媒体および内部メモリを含んでもよい。
【0149】
不揮発性記憶媒体には、オペレーティングシステムおよびコンピュータプログラムが記憶されてもよい。当該コンピュータプログラムは、実行されると、プロセッサに顔特徴抽出モデル訓練方法を実行させることができるプログラム命令を含む。
【0150】
プロセッサは、算出および制御機能を提供し、コンピュータ機器全体の動作をサポートするために使用される。
【0151】
内部メモリは、不揮発性記憶媒体に記憶されたコンピュータプログラムの動作環境を提供し、当該コンピュータプログラムがプロセッサによって実行されると、プロセッサに顔特徴抽出モデル訓練方法を実行させることができる。
【0152】
当該ネットワークインターフェースは、割り当てられたタスクを送信するなどのネットワーク通信を行うために使用される。図14に示された構造は、単に本出願の解決手段に関連する構造の一部のブロック図であり、本出願の解決手段が適応されるコンピュータ機器の制限を構成するものではないことは、当業者にとって明らかであり、具体的なコンピュータ機器は、図示されたものよりも多くまたは少ない構成要素を含み、または特定の構成要素の組み合わせを含み、または異なるコンポーネント配置を有することができる。
【0153】
理解されるように、プロセッサは、中央処理装置(CPU:Central Processing Unit)であってもよいし、他の汎用プロセッサ、デジタルシグナルプロセッサ(DSP:Digital Signal Processor)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、フィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)又は他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。ここで、汎用プロセッサはマイクロプロセッサであってもよいし、任意の従来のプロセッサなどであってもよい。
【0154】
ここで、前記プロセッサは、メモリに記憶されたコンピュータプログラムを実行し、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るステップと、顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するステップと、各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するステップと、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するステップと、を実現するために使用される。
【0155】
一実施例では、前記プロセッサは、前記顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するステップを実現する前に、さらに、
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることと、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることと、前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得ることと、を実現するために使用される。
【0156】
一実施例では、前記プロセッサは、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることを実現するときに、
各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出することと、最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定することと、を実現するために使用される。
【0157】
一実施例では、前記プロセッサは、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定することを実現するときに、
前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出することと、前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定することと、を実現するために使用される。
【0158】
一実施例では、前記プロセッサは、前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出することを実現するときに、
第1損失関数および第2損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第1サブ損失値および第2サブ損失値を確定することと、損失値融合式に基づき、前記第1サブ損失値および前記第2サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定することと、を実現するために使用される。
【0159】
前記第1損失関数は、
【0160】

【数25】
であり、
ここで、Jが第1サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、uが顔訓練データにおけるk番目の画像のタグベクトルであり、mが各バッチの顔訓練データにおける画像数である。
【0161】
前記第2損失関数は、
【0162】

【数26】
であり、
ここで、Jが第2サブ損失値であり、uが顔訓練データにおけるk番目の画像のターゲットサンプル特徴の特徴ベクトルであり、cが顔訓練データにおけるk番目の画像の中心であり、mが各バッチの顔訓練データにおける画像数である。
【0163】
前記損失値融合式は、
【0164】

【数27】
であり、
ここで、Jが前記損失値であり、wとwが重みである。
【0165】
ここで、別の実施例では、前記プロセッサは、メモリに記憶されたコンピュータプログラムを実行し、
ターゲット画像を取得するステップと、前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るステップと、前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するステップと、を実現するために使用される。ここで、前記顔特徴抽出モデルは、上記の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルである。
【0166】
本出願の実施例はさらに、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体には、プログラム命令を含むコンピュータプログラムが記憶されており、前記プロセッサは、前記プログラム命令を実行し、本出願の実施例による顔特徴抽出モデル訓練方法または顔特徴抽出方法を実現する。
【0167】
ここで、前記コンピュータ読み取り可能な記憶媒体は、上記実施例に記載されるコンピュータ機器の内部記憶装置、例えば、前記コンピュータ機器のハードディスクまたはメモリであってもよいし、前記コンピュータ機器の外部記憶装置、例えば、前記コンピュータ機器に装備されたプラグインハードドライブ、スマートメディアカード(SMC:Smart Media(登録商標) Card)、セキュアデジタル(SD:Secure Digital)カード、フラッシュカード(Flash Card)などであってもよい。
【0168】
上記は、本出願の具体的な実施形態に過ぎず、本出願の保護範囲を制限するものではなく、当業者であれば、本出願によって開示された技術的範囲内で様々な同等の修正または置換を容易に思いつくことができ、これらの修正または置換はいずれも本出願の保護範囲に含まれるべきである。従って、本出願の保護範囲は、特許請求の範囲の保護範囲に準じるべきである。
【符号の説明】
【0169】
400 顔特徴抽出モデル訓練装置
410 モデル訓練ユニット
420 データ出力ユニット
430 データ入力ユニット
440 モデル確定ユニット
441 精度算出サブユニット
442 特徴確定サブユニット
443 損失値確定サブユニット
444 モデル確定サブユニット 450 結果取得ユニット
460 画像スクリーニングユニット
470 画像タグ付けユニット
500 顔特徴抽出装置
510 画像取得ユニット
520 画像処理ユニット
530 画像入力ユニット 4431 サブ損失値確定サブユニット
4432 損失値融合サブユニット
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14