特許6994588 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ワンコネクト・スマート・テクノロジー・カンパニー・リミテッド・（シェンチェン）の特許一覧

特許6994588顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2021-12-15

(45)【発行日】2022-01-14

(54)【発明の名称】顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体

(51)【国際特許分類】

G06T 7/00 20170101AFI20220106BHJP

【ＦＩ】

G06T7/00 350C

G06T7/00 660A

【請求項の数】 20

(21)【出願番号】P 2020560486

(86)(22)【出願日】2019-11-29

(65)【公表番号】

(43)【公表日】2021-11-25

(86)【国際出願番号】 CN2019122165

(87)【国際公開番号】W WO2020253127

(87)【国際公開日】2020-12-24

【審査請求日】2020-10-28

(31)【優先権主張番号】201910542712.9

(32)【優先日】2019-06-21

(33)【優先権主張国・地域又は機関】CN

(31)【優先権主張番号】201910606508.9

(32)【優先日】2019-07-05

(33)【優先権主張国・地域又は機関】CN

(73)【特許権者】

【識別番号】519211258

【氏名又は名称】ワン・コネクト・スマート・テクノロジー・カンパニー・リミテッド・（シェンチェン）

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】姚旭峰

(72)【発明者】

【氏名】徐国▲強▼

【審査官】新井則和

(56)【参考文献】

【文献】中国特許出願公開第１１０４７２４９４（ＣＮ，Ａ）

【文献】中国特許出願公開第１０９７１１５４４（ＣＮ，Ａ）

【文献】中国特許出願公開第１０９２４１９８８（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ７／００－７／９０

(57)【特許請求の範囲】

【請求項1】

顔特徴抽出モデル訓練方法であって、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得ることと、
顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力することと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力することと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることと、
第１損失関数および第２損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第１サブ損失値および第２サブ損失値を確定することと、
損失値融合式に基づき、前記第１サブ損失値および前記第２サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定することと、
前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定すること、を含み
前記第１損失関数は、

【数1】

であり、
ここで、Ｊ_ｓが第１サブ損失値であり、ｕ_ｋが顔訓練データにおけるｋ番目の画像のターゲットサンプル特徴の特徴ベクトルであり、ｕ_ｊが顔訓練データにおけるｋ番目の画像のタグベクトルであり、ｍが各バッチの顔訓練データにおける画像数であり、
前記第２損失関数は、

【数2】

であり、
ここで、Ｊ_ｃが第２サブ損失値であり、ｕ_ｋが顔訓練データにおけるｋ番目の画像のターゲットサンプル特徴の特徴ベクトルであり、ｃ_ｋが顔訓練データにおけるｋ番目の画像の中心であり、ｍが各バッチの顔訓練データにおける画像数であり、
前記損失値融合式は、

【数3】

であり、
ここで、Ｊが前記損失値であり、ｗ_１とｗ_２が重みであることを特徴とする顔特徴抽出モデル訓練方法。

【請求項2】

前記顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力する前に、前記方法はさらに、
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることと、
前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることと、
前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得ることと、を含むことを特徴とする請求項１に記載の顔特徴抽出モデル訓練方法。

【請求項3】

いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることは、
前記顔サンプル画像セットにおける画像に対して最小信頼度分析を行い、各前記画像に対応する第１不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第２不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第３不確実性値を得て、それによって前記分析結果を得ることと、を含むことを特徴とする請求項２に記載の顔特徴抽出モデル訓練方法。

【請求項4】

前記分析結果は、第１不確実性値、第２不確実性値および第３不確実性値を含み、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることは、
第１不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第１スクリーニング画像セットを得ることと、
第２不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第２スクリーニング画像セットを得ることと、
第３不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第３スクリーニング画像セットを得ることと、
前記第１スクリーニング画像セット、第２スクリーニング画像セットおよび第３スクリーニング画像セットに基づき、前記タグ付け対象となる画像セットを構成することと、を含む請求項２に記載の顔特徴抽出モデル訓練方法。

【請求項5】

予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることは、
各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出することと、
最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定することと、を含むことを特徴とする請求項１に記載の顔特徴抽出モデル訓練方法。

【請求項6】

顔特徴抽出方法であって、
ターゲット画像を取得することと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得ることと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力することと、を含み、ここで、前記顔特徴抽出モデルが請求項１－５のいずれか一項に記載の顔特徴抽出モデル訓練方法訓練を用いて訓練して得られたモデルであることを特徴とする顔特徴抽出方法。

【請求項7】

顔特徴抽出モデル訓練装置であって、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るためのモデル訓練ユニットと、
顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するためのデータ出力ユニットと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するためのデータ入力ユニットと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、
第１損失関数および第２損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第１サブ損失値および第２サブ損失値を確定し、
損失値融合式に基づき、前記第１サブ損失値および前記第２サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定し、
前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するためのモデル確定ユニットと、を含み、
前記第１損失関数は、

【数4】

【数5】

【数6】

であり、
ここで、Ｊが前記損失値であり、ｗ_１とｗ_２が重みであることを特徴とする顔特徴抽出モデル訓練装置。

【請求項8】

顔特徴抽出装置であって、
ターゲット画像を取得するための画像取得ユニットと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るための画像処理ユニットと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するための画像入力ユニットと、を含み、ここで、前記顔特徴抽出モデルが請求項１－５のいずれか一項に記載の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルであることを特徴とする顔特徴抽出モデル訓練装置。

【請求項9】

コンピュータ機器であって、メモリとプロセッサを含み、
前記メモリは、コンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行するときに、顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るステップと、
顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークにそれぞれ対応する検証顔特徴データを出力するステップと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するステップと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得るステップと、
第１損失関数および第２損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第１サブ損失値および第２サブ損失値を確定するステップと、
損失値融合式に基づき、前記第１サブ損失値および前記第２サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定するステップと、
前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するステップと、を実現するために使用され、
前記第１損失関数は、

【数7】

【数8】

【数9】

であり、
ここで、Ｊが前記損失値であり、ｗ_１とｗ_２が重みであることを特徴とするコンピュータ機器。

【請求項10】

前記顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力する前に、方法は、さらに、
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることと、
前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることと、
前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得ることと、を含むことを特徴とする請求項９に記載のコンピュータ機器。

【請求項11】

【請求項12】

前記分析結果は、第１不確実性値、第２不確実性値および第３不確実性値を含み、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることは、
第１不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第１スクリーニング画像セットを得ることと、
第２不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第２スクリーニング画像セットを得ることと、
第３不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第３スクリーニング画像セットを得ることと、
前記第１スクリーニング画像セット、第２スクリーニング画像セットおよび第３スクリーニング画像セットに基づき、前記タグ付け対象となる画像セットを構成することと、を含むことを特徴とする請求項１０に記載のコンピュータ機器。

【請求項13】

【請求項14】

コンピュータ機器であって、メモリとプロセッサを含み、
前記メモリは、コンピュータプログラムを記憶するために使用され、
前記プロセッサは、前記コンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行するときに、
ターゲット画像を取得するステップと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るステップと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するステップと、を実現するために使用され、ここで、前記顔特徴抽出モデルが請求項１－５のいずれか一項に記載の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルであることを特徴とするコンピュータ機器。

【請求項15】

コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサに、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るステップと、
顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するステップと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するステップと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得るステップと、
第１損失関数および第２損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第１サブ損失値および第２サブ損失値を確定するステップと、
損失値融合式に基づき、前記第１サブ損失値および前記第２サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定するステップと、
前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するステップと、を実現させ、
前記第１損失関数は、

【数10】

【数11】

【数12】

であり、
ここで、Ｊが前記損失値であり、ｗ_１とｗ_２が重みであることを特徴とするコンピュータ読み取り可能な記憶媒体。

【請求項16】

顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力する前に、さらに、
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることと、
前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることと、
前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得ることと、を含むことを特徴とする請求項１５に記載のコンピュータ読み取り可能な記憶媒体。

【請求項17】

いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることは、
前記顔サンプル画像セットにおける画像に対して最小信頼度分析を行い、各前記画像に対応する第１不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第２不確実性値を得ることと、
前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、前記画像のそれぞれに対応する第３不確実性値を得て、それによって前記分析結果を得ることと、を含む請求項１６に記載のコンピュータ読み取り可能な記憶媒体。

【請求項18】

前記分析結果は、第１不確実性値、第２不確実性値および第３不確実性値を含み、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることは、
第１不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第１スクリーニング画像セットを得ることと、
第２不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第２スクリーニング画像セットを得ることと、
第３不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第３スクリーニング画像セットを得ることと、
前記第１スクリーニング画像セット、第２スクリーニング画像セットおよび第３スクリーニング画像セットに基づき、前記タグ付け対象となる画像セットを構成することと、を含むことを特徴とする請求項１６に記載のコンピュータ読み取り可能な記憶媒体。

【請求項19】

【請求項20】

コンピュータ読み取り可能な記憶媒体であって、
ターゲット画像を取得することと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得ることと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力することと、を含み、ここで、前記顔特徴抽出モデルが請求項１－５のいずれか一項に記載の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルであることを特徴とするコンピュータ読み取り可能な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０１９年０７月０５日に中国特許庁に提出した出願番号が２０１９１０６０６５０８．９、発明名称が「顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体」の中国特許出願の優先権を主張するものであり、その内容のすべては参照により本出願に組込まれる。

【0002】

本出願は、生体認識分野に関し、特に、顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体に関する。

【背景技術】

【0003】

近年、顔に代表される生体特徴の検出及び認識は、身元認識、知恵教育などの多くの分野で広く応用されている。顔認識技術とは、特徴抽出モデルによって顔特徴を抽出し、その顔特徴によって身元認識又はターゲット検出を行う技術である。既存の特徴抽出モデルは、人の顔から特徴を抽出する時に、抽出精度が高くなく、実際の応用シーンでの利用要件を満たすことが難しい。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本出願は、顔特徴抽出モデルの特徴抽出精度を向上させ、人間の顔の動作認識のための重要な参考を提供する、顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体を提供する。

【課題を解決するための手段】

【0005】

第１態様では、本出願は、顔特徴抽出モデル訓練方法を提供する。前記方法は、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得ることと、
顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力することと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力することと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定することと、を含む。

【0006】

第２態様では、本出願はさらに、顔特徴抽出方法を提供する。前記方法は、
ターゲット画像を取得することと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得ることと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力することとを含み、ここで、前記顔特徴抽出モデルが上記顔特徴抽出モデル訓練方法により訓練されて得られる。

【0007】

第３態様では、本出願はさらに、顔特徴抽出モデル訓練装置を提供する。前記装置は、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るためのモデル訓練ユニットと、
顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するためのデータ出力ユニットと、
各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するためのデータ入力ユニットと、
予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するためのモデル確定ユニットと、を含む。

【0008】

第４態様では、本出願はさらに、顔特徴抽出装置を提供する。前記装置は、
ターゲット画像を取得するための画像取得ユニットと、
前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るための画像処理ユニットと、
前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するための画像入力ユニットとを含み、ここで、前記顔特徴抽出モデルが上記の顔特徴抽出モデル訓練方法により訓練されて得られる。

【0009】

第５態様では、本出願はさらに、コンピュータ機器を提供する。前記コンピュータ機器は、コンピュータプログラムを記憶するためのメモリと、前記コンピュータプログラムを実行し、かつ前記コンピュータプログラムを実行するときに上記の顔特徴抽出モデル訓練方法または顔特徴抽出方法を実現するためのプロセッサと、を含む。

【0010】

第６態様では、本出願はさらに、コンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータ読み取り可能な記憶媒体には、プロセッサによって実行されると、前記プロセッサに上記の顔特徴抽出モデル訓練方法または顔特徴抽出方法を実現させるためのコンピュータプログラムが記憶されている。

【発明の効果】

【0011】

本出願は、顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、機器および記憶媒体を開示する。顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得て、顔検証データを各前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力し、各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力し、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定する。これにより、顔特徴抽出モデルの特徴抽出精度が向上する。

【図面の簡単な説明】

【0012】

本出願の実施例における技術的解決手段をより明確に説明するために、以下は、実施例の説明に必要な図面を簡単に紹介し、明らかに、以下で説明される図面は、本出願のいくつかの実施例に過ぎず、当業者であれば、創造的労働を要することなく、これらの図面に基づく他の図面を得ることができる。

【0013】

【図1】本出願の実施例による画像セットのタグ付け方法を示すフローチャートである。

【図2】図１の画像セットのタグ付け方法のサブステップを示すフローチャートである。

【図3】図１の画像セットのタグ付け方法のサブステップを示すフローチャートである。

【図4】図１の第１スクリーニング画像セットの取得ステップを示すフローチャートである。

【図5】本出願の実施例による顔特徴抽出モデル訓練方法を示すフローチャートである。

【図6】図５の顔特徴抽出モデル訓練方法のサブステップを示すフローチャートである。

【図7】図５の顔特徴抽出モデル訓練方法のサブステップを示すフローチャートである。

【図8】損失値を確定するステップを示すフローチャートである。

【図9】本出願の一実施例による顔特徴抽出方法のステップを示すフローチャートである。

【図10】本出願の一実施例による顔特徴抽出方法の応用シーンを示す図である。

【図11】本出願の実施例による顔特徴抽出モデル訓練装置を示すブロック図である。

【図12】図１１の顔特徴抽出モデル訓練装置のサブユニットを示すブロック図である。

【図13】本出願の実施例による顔特徴抽出装置を示すブロック図である。

【図14】本出願の一実施例によるコンピュータ機器の構造を示すブロック図である。

【発明を実施するための形態】

【0014】

以下では、本出願の実施例における技術的解決手段を、本出願の実施例における図面と組み合わせて明確かつ完全に説明するが、明らかに、記載された実施例は、本出願の実施例の全てではなく、実施例の一部である。本出願の実施例に基づき、創造的な作業を行わずに当業者によって得られた他のすべての実施例は、本出願の保護範囲内にあるものとする。

【0015】

図面に示されているフローチャートは、一例に過ぎず、必ずしもすべての内容および操作／ステップを含むわけではなく、記載された順序でそれらを実行することも必須ではない。例えば、一部の操作／ステップは、分解、結合、または部分的に結合できるため、実際の実行順序が実際の状況に応じて変更される場合がある。

【0016】

本出願の実施例は、顔特徴抽出モデル訓練方法、顔特徴抽出方法、装置、コンピュータ機器および記憶媒体を提供する。顔特徴抽出モデルは、人間の顔動作の認識シーンにおいて人間の顔動作の顔特徴を抽出するために使用されてもよい。

【0017】

以下、本出願のいくつかの実施形態を図面と組み合わせて詳細に説明する。衝突がない場合、下記の実施例および実施例の特徴は、互いに組み合わせられてもよい。

【0018】

図１を参照すると、図１は、本出願の実施例による画像セットのタグ付け方法のステップを示すフローチャートである。

【0019】

機械学習プロセスでは、モデルをテストして訓練できるために、顔サンプル画像にタグ付けを行う必要がある。通常、顔サンプル画像に直接タグ付けし、対応する顔訓練データを得る。しかし、現在のモデルでは、顔サンプル画像が容易に認識できる状況もあるため、そのような画像にタグ付けしてから訓練しても、通常所望の効果が得られず、タグ付け者の多大な労力が浪費され、機械学習の全体的な効率が低下する。

【0020】

図１に示すように、モデル訓練の効率と機械学習の全体的な効率を向上させるために、本出願は、顔特徴抽出モデルに対してモデル訓練を行うように、顔画像にラベリングするために使用される画像セットのタグ付け方法を提供する。ここで、当該方法は、具体的には、ステップＳ１１０乃至ステップＳ１５０を含む。

【0021】

Ｓ１１０、予め設定された選択ルールに従って、複数の元の顔画像からタグ無し画像を選択し、顔サンプル画像セットを得る。

【0022】

具体的には、元の顔画像とは、インターネットから得られた大量の画像を指す。これらの画像は処理されていない画像である。機械学習では、これらの画像に対して認識処理を行って認識結果を得て、またはこれらの画像から対応する画像を選択してテスト訓練処理を行い、当該機械学習のためのより適切なデータを得ることができるので、予め設定されたターゲットに従って機械学習が進行し、これにより、より優れた機械学習モデルを得ることができる。

【0023】

従って、大量の元の顔画像からタグ無し顔サンプル画像を選択する必要があり、すべての顔サンプル画像が顔サンプル画像セットを構成する。ここで、予め設定された選択ルールでは、特定の画像生成源の画像を顔サンプル画像として選択してもよく、例えば、予め設定されたチャネルを通じて、イエール（Ｙａｌｅ）顔データベース内の顔画像を顔サンプル画像として選択する。もちろん、画像の生成時間などに従って選択してもよく、例えば、法定休日の間の顔画像を顔サンプル画像として選択する。すべての顔サンプル画像の集合を顔サンプル画像セットとして構成する。

【0024】

Ｓ１２０、前記顔サンプル画像セットに対して不確実性分析を行い、分析結果を得る。

【0025】

ここで、前記顔サンプル画像セットは、いくつかのタグ無し画像を含む。各前記顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることは、具体的には、
各前記顔サンプル画像セットに対して、最小信頼度分析、エッジサンプリング分析および情報エントロピー分析のうちの少なくとも１つを実行し、各前記顔サンプル画像セットの不確実性値を得ることを含む。

【0026】

具体的には、不確実性は、最小信頼度、エッジサンプリングおよび情報エントロピーのうちの少なくとも１つによって測定されてもよい。具体的には、その分析結果は、値で表されてもよい。例えば、値が高いほど、不確実性が高くなる。もちろん、分析結果は、不確実性を複数のレベルに分けて比較するなどの形で不確実性を示すこともできる。

【0027】

図２に示すように、一実施例では、各前記顔サンプル画像セットのそれぞれに対して不確実性分析を行う具体的なプロセス、すなわち、ステップＳ１２０は、具体的には、サブステップＳ１２１、Ｓ１２２およびＳ１２３を含む。

【0028】

Ｓ１２１、前記顔サンプル画像セットにおける画像に対して最小信頼度分析を行い、各前記画像に対応する第１不確実性値を得る。

【0029】

具体的には、画像の不確実性は、画像のタグ値とも呼ばれる。最小信頼度分析、すなわち、Ｌｅａｓｔｃｏｎｆｉｄｅｎｃｅは、以下のように定義され得る。

【0030】

【数1】

【0031】

ここで、

【数2】

が前記第１不確実性値を示し、

【数3】

がカテゴリを示し、

【数4】

がサンプルｘの予測確率分布における確率を示し、

【数5】

がモデル予測確率分布を示し、

【数6】

が大きいほど、サンプルｘの不確実性が高いこと、すなわち、対応するタグ付け処理の必要性が高いことを示す。

【0032】

Ｓ１２２、前記顔サンプル画像セットにおける画像に対してエッジサンプリング分析を行い、各前記画像に対応する第２不確実性値を得る。

【0033】

具体的には、エッジサンプル分析、すなわち、Ｍａｒｇｉｎｓａｍｐｌｉｎｇは、以下のように定義され得る。

【0034】

【数7】

【0035】

ここで、

【数8】

が前記第２不確実性値を示し、

【数9】

がサンプルｘの予測確率分布における最大確率を示し、

【数10】

がサンプルｘの予測確率分布における２番目に高い確率を示し、ここで、

【数11】

がそれぞれモデルθによって予測された最大確率および２番目に高い確率に対応するカテゴリであり、

【数12】

がモデル予測確率分布を示し、

【数13】

が大きいほど、サンプルｘの不確実性が高いこと、すなわち、対応するタグ付け処理の必要性が高いことを示す。

【0036】

Ｓ１２３、前記顔サンプル画像セットにおける画像に対して情報エントロピー分析を行い、各前記画像に対応する第３不確実性値を得る。

【0037】

具体的には、情報エントロピー分析は、以下のように定義され得る。

【0038】

【数14】

【0039】

ここで、

【数15】

が前記第３不確実性値を示し、

【数16】

がサンプルｘの予測確率を示し、

【数17】

がモデル予測確率分布を示し、

【数18】

が大きいほど、サンプルｘの不確実性が高いこと、すなわち、対応するタグ付け処理の必要性が大きいことを示す。

【0040】

Ｓ１３０、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得る。

【0041】

具体的には、前記分析結果は、前記顔サンプル画像セットにおける各画像に対応する不確実性値を含む。

【0042】

一実施例では、ステップＳ１３０は、具体的には、
第１不確実性値、第２不確実性値および第３不確実性値に応じて、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることを含む。

【0043】

図３に示すように、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ること、すなわち、ステップＳ１３０は、具体的には、サブステップＳ１３１乃至Ｓ１３４を含む。

【0044】

Ｓ１３１、第１不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第１スクリーニング画像セットを得る。

【0045】

具体的には、最小信頼度分析に基づき、当該分析方法に対応する第１不確実性値を得ることができる。当該第１不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、対応する第１スクリーニング画像セットを得ることができる。

【0046】

Ｓ１３２、第２不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第２スクリーニング画像セットを得る。

【0047】

具体的には、エッジサンプリング分析に基づき、当該分析方法に対応する第２不確実性値を得ることができる。当該第２不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、対応する第２スクリーニング画像セットを得ることができる。

【0048】

Ｓ１３３、第３不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第３スクリーニング画像セットを得る。

【0049】

具体的には、情報エントロピー分析に基づき、当該分析方法に対応する第３不確実性値を得ることができる。当該第３不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、対応する第３スクリーニング画像セットを得ることができる。

【0050】

Ｓ１３４、前記第１スクリーニング画像セット、第２スクリーニング画像セットおよび第３スクリーニング画像セットに基づき、前記タグ付け対象となる画像セットを構成する。

【0051】

具体的には、第１スクリーニング画像セット、第２スクリーニング画像セットおよび第３スクリーニング画像セットをタグ付け対象となる画像セットとして構成する。これにより、タグ付け対象となる画像セットにおける画像数を増やすと同時に、タグ付け対象となる画像セットにおける画像の多様性を高め、最終的に、タグ付け対象となる画像セットにおける画像を豊かにさせ、モデルの訓練効率を向上させ、訓練時間を効果的に短縮し、モデルのロバスト性を向上させることができる。

【0052】

不確実性値を第１不確実性値として例示している。一実施例では、第１不確実性値に応じて、前記顔サンプル画像セットにおける画像をスクリーニングし、第１スクリーニング画像セットを得ること、すなわち、ステップＳ１３１は、
前記顔サンプル画像セットにおける画像に対して、対応する不確実性値に応じて降順でソートし、上記の予め設定された数の対応する前記画像をタグ付け対象となる画像として設定し、すべての前記タグ付け対象となる画像をタグ付け対象となる画像セットとして設定すること、を含む。

【0053】

具体的には、顔サンプル画像セットにおける画像を、対応する不確実性値に応じて降順で配列することで、シーケンスの前の画像を不確実性の高い画像として維持でき、さらに、選択によりデータの不確実性の程度を維持でき、さらに、モデルの訓練に使用される画像の訓練効率を高く確保できる。

【0054】

ここで、応用の環境に応じて予め設定された数を適宜選択したり、一定の割合で予め設定された数を設定したりすることができる。例えば、顔サンプル画像セットに含まれる画像の総数の８５％をタグ付け対象となる画像として選択することができ、この場合、予め設定された数は、その総数の８５％である。

【0055】

別の実施例では、図４に示すように、第１不確実性値に応じて、前記顔サンプル画像セットをスクリーニングし、第１スクリーニング画像セットを得ること、すなわち、ステップＳ１３１は、具体的には、サブステップＳ１３１１、Ｓ１３１２およびＳ１３１３を含む。

【0056】

Ｓ１３１１、各判断前記画像に対応する不確実性値が、予め設定された不確実性閾値よりも大きいかどうかを判断する。

【0057】

具体的には、不確実性値は、実際の作業環境に応じて設定される。

【0058】

Ｓ１３１２、前記不確実性値が前記不確実性閾値よりも大きい場合には、対応する前記顔サンプル画像セットをタグ付け対象となる画像として設定する。

【0059】

顔サンプル画像セットにおけるある画像の不確実性値が不確実性閾値よりも大きい場合には、当該画像がタグ付けのルールに準拠していることを示し、さらに、それに対してタグ付け処理を行う。

【0060】

Ｓ１３１３、すべての前記タグ付け対象となる画像をタグ付け対象となる画像セットとして設定する。

【0061】

理解されるように、不確実性値が第２不確実性値または第３不確実性値である場合に、上記のステップを参照することができ、ここでは繰り返さない。

【0062】

Ｓ１４０、前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、タグ付け済み顔画像セットを得る。

【0063】

タグ付け処理は、対応するタグ付け済み画像を取得できるように、各前記タグ付け対象となる画像とそれらに対応するカテゴリとの間で１対１の対応関係を形成することを指し、当該タグ付け済み画像が前記顔検証データである。

【0064】

一実施例では、前記タグ付け対象となる画像に対してタグ付け処理を行うこと、すなわち、ステップＳ１４０は、任意の入力としてタグ付けられた、前記タグ付け対象となる画像に対応するタグ付け情報を受信することと、監査人がタグ付け情報を監査して得られる監査結果に応じて、タグ付け情報と前記タグ付け対象となる画像との間に対応関係を形成し、タグ付け済み顔画像セットを得ることと、を含み得る。

【0065】

上記の画像タグ付け方法では、顔サンプル画像セットに対して、最小信頼度分析、エッジサンプリング分析および情報エントロピー分析をそれぞれ行うことで、それらに対応する不確実性の結果を得て、さらに、３つの不確実性分析結果を融合させることで、異なる視点から画像の不確実性を分析することができ、タグ付け対象となる画像の数を増やすと同時に、タグ付け対象となる画像の多様性を高めることができる。各タグ付け対象となる画像をタグ付けすることで、モデル訓練効率を向上させ、より少ないデータでより良い効果を達成し、機械学習の全体的な効率を向上させることができる。

【0066】

図５を参照し、図５は、本出願の実施例による顔特徴抽出モデル訓練方法のステップを示すフローチャートである。

【0067】

なお、当該訓練方法では、複数のオリジナル学生ネットワークを選択してモデル訓練を行い、対応する候補学生ネットワークを得ることができる。複数は、２つ、３つまたはそれ以上であってもよい。オリジナル学生ネットワークは、ＹＯＬＯ９０００、ＡｌｅｘＮｅｔまたはＶＧＧＮｅｔなどのネットワークであってもよい。以下、一例として、複数を２つとし、２つのオリジナル学生ネットワークをそれぞれＹＯＬＯ９０００ネットワークおよびＶＧＧＮｅｔネットワークとして説明する。

【0068】

図１に示すように、当該顔特徴抽出モデル訓練方法は、具体的には、ステップＳ２１０乃至ステップＳ２４０を含む。

【0069】

Ｓ２１０、顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得る。

【0070】

具体的には、顔訓練データは、オリジナル学生ネットワークに対してモデル訓練を行うために使用され、訓練サブデータとテストサブデータを含む。ここで、テストサブデータは、上記の画像タグ付け方法を用いてタグ付けすることによって得られたデータであり、当該候補学生ネットワークが学習要件を満たしているか否かを判定するように、候補学生ネットワークをテストするために使用される。ここで、顔訓練データをＹＯＬＯ９０００ネットワークに入力してモデル訓練を行い、第１候補学生ネットワークを得る。当該顔訓練データをＶＧＧＮｅｔネットワークに入力してモデル訓練を行い、第２候補学生ネットワークを得る。

【0071】

Ｓ２２０、顔検証データを各前記候補学生ネットワークに入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力する。

【0072】

具体的には、顔検証データは、上記の画像タグ付け方法を用いてラベリングすることによって得られたデータであってもよい。ここで、顔検証データを第１候補学生ネットワークに入力し、第１検証顔特徴データを得る。当該顔検証データを第２候補学生ネットワークに入力し、第２検証顔特徴データを得る。

【0073】

Ｓ２３０、各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力する。

【0074】

ここで、教師ネットワークは、事前に訓練されたＹＯＬＯ９０００であってもよい。具体的には、第１検証顔特徴データを当該教師ネットワークに入力し、第１候補顔特徴データを出力する。第２検証顔特徴データを当該教師ネットワークに入力し、第２候補顔特徴データを出力する。

【0075】

Ｓ２４０、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定する。

【0076】

具体的には、予め設定された特徴スクリーニングルールは、特定の応用シーンに応じて設定されてもよい。一実施例では、図６に示すように、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることは、サブステップＳ２４１およびＳ２４２を含む。

【0077】

Ｓ２４１、各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出する。

【0078】

具体的には、校正顔画像は、具体的なシーンに応じて設定されてもよい。ここで、第１候補顔特徴データに基づき、第１精度を算出する。第２候補顔特徴データに基づき、第２精度を算出する。

【0079】

より具体的には、第１候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データを、事前に訓練されたニューラルネットワークモデルに入力し、第１候補顔特徴データに対応する第１精度を出力する。第２候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データを、当該ニューラルネットワークモデルに入力し、第２候補顔特徴データに対応する第２精度を出力する。当該ニューラルネットワークモデルは、具体的には、事前に訓練されたＧｏｏｇＬｅＮｅｔモデルであってもよいが、もちろん、他のネットワークモデルであってもよい。

【0080】

Ｓ２４２、最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定する。

【0081】

例えば、第１精度が第２精度よりも小さい場合には、第２精度に対応する第２候補顔特徴データをターゲットサンプル特徴として確定する。第２候補顔特徴データに対応する第２候補学生ネットワークを顔特徴抽出モデルとして確定する。

【0082】

図７に示すように、一実施例では、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定することは、サブステップＳ２４３、Ｓ２４４およびＳ２４５を含む。

【0083】

Ｓ２４３、前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出する。

【0084】

ここで、前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出する具体的なプロセスについては、図８に示すように、すなわち、ステップＳ２４３は、Ｓ２４３１およびＳ２４３２を含む。

【0085】

Ｓ２４３１、第１損失関数および第２損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第１サブ損失値および第２サブ損失値を確定する。

【0086】

具体的には、第１損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第１サブ損失値を確定する。第２損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第２サブ損失値を確定する。

【0087】

ここで、前記第１損失関数は、

【0088】

【数19】

であり、
ここで、Ｊ_ｓが第１サブ損失値であり、ｕ_ｋが顔訓練データにおけるｋ番目の画像のターゲットサンプル特徴の特徴ベクトルであり、ｕ_ｊが顔訓練データにおけるｋ番目の画像のタグベクトルであり、ｍが各バッチの顔訓練データにおける画像数である。

【0089】

前記第２損失関数は、

【0090】

【数20】

であり、
ここで、Ｊ_ｃが第２サブ損失値であり、ｕ_ｋが顔訓練データにおけるｋ番目の画像のターゲットサンプル特徴の特徴ベクトルであり、ｃ_ｋが顔訓練データ中のｋ番目の画像の中心であり、ｍが各バッチの顔訓練データにおける画像数である。

【0091】

Ｓ２４３２、損失値融合式に基づき、前記第１サブ損失値および前記第２サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定する。

【0092】

具体的には、前記損失値融合式は、

【0093】

【数21】

であり、
ここで、Ｊが前記損失値であり、ｗ_１とｗ_２が重みである。

【0094】

第１損失関数と第２損失関数との組み合わせを顔特徴抽出モデル再訓練の損失関数として用いることで、訓練された顔特徴抽出モデルがまとまりのあるものとなり、膨大な高品質の顔訓練データセットが存在しない場合でも特徴データを正確に抽出することができ、また、顔特徴抽出モデルの再訓練における収束の遅さやオーバーフィット現象を回避することができる。

【0095】

Ｓ２４４、前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定する。

【0096】

具体的には、前記損失値が予め設定された損失閾値よりも小さい場合には、ターゲットサンプル特徴に対応する候補学生ネットワークが収束したことを示し、当該候補学生ネットワークを顔特徴抽出モデルとして確定する。

【0097】

Ｓ２４５、前記損失値が予め設定された損失閾値以上である場合には、前記損失値に基づき、前記候補学生ネットワークのパラメータを調整する。

【0098】

具体的には、前記損失値が予め設定された損失閾値以上である場合には、ターゲットサンプル特徴に対応する候補学生ネットワークが収束しないことを示しているので、候補学生ネットワークを継続的に訓練する必要があり、当該損失値に基づき、当該損失値が損失閾値よりも小さくなるまで、当該候補学生ネットワークのパラメータを調整し、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定する、すなわち、ステップＳ２４４を実行する。

【0099】

上記の顔特徴抽出モデル訓練方法では、上記のタグ付け方法によりタグ付けされた顔訓練データを用い、複数のオリジナル学生ネットワークに対してモデル訓練を行い、さらに、教師ネットワークおよび顔検証データを用いてスクリーニングし、それによって、顔特徴抽出モデルとして最も特徴抽出精度の高い候補学生ネットワークを得る。当該訓練方法によれば、顔訓練データと顔検証データの一部の多様性を高め、モデル訓練の効率を向上させ、さらに、モデル抽出顔特徴の精度を向上させ、人間の顔動作の認識の重要な参考を提供する。

【0100】

図９を参照すると、図９は、本出願の一実施例による顔特徴抽出方法のステップを示すフローチャートである。図１０を参照すると、図１０は、本出願の一実施例による顔特徴抽出方法の応用シーンを示す図である。ここで、当該顔特徴抽出方法は、端末装置６１０、６２０、ネットワーク６３０およびサーバ６４０を含むシステムに適用してもよい。

【0101】

ネットワーク６４０は、端末装置６１０、６２０とサーバ６４０との間の通信リンクを提供するための媒体である。ネットワーク６３０は、有線、無線通信リンクまたは光ファイバケーブルなどの様々な接続タイプを含んでもよい。

【0102】

ユーザは、端末装置６１０、６２０を用い、ネットワーク６３０を介してサーバ６４０とインタラクションを行い、要求コマンドなどを受信したり、送信したりしてもよい。端末装置６１０、６２０には、画像処理アプリケーション、Ｗｅｂブラウザアプリケーション、検索アプリケーション、インスタントメッセンジャーなどの各種の通信クライアントアプリケーションがインストールされてもよい。

【0103】

具体的には、当該顔特徴抽出方法は、具体的には、ステップＳ３１０乃至ステップＳ３３０を含む。

【0104】

Ｓ３１０、ターゲット画像を取得する。

【0105】

具体的には、前記認識対象となる画像は、認識対象となる顔ターゲットを含む画像であり、ＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ、赤緑青）モードの画像などの可視光画像であってもよい。もちろん、上記の認識対象となる画像は、近赤外（ＮｅａｒＩｎｆｒａｒｅｄ、ＮＩＲ）画像であってもよい。

【0106】

本実施例の実行主体には、可視光画像を収集するためのカメラ、又は近赤外画像を収集するためのカメラがインストールされてもよい。ユーザは、オンになる必要があるカメラを選択し、さらに選択されたカメラで撮影（ユーザの頭又は顔の自撮りに使用）することで、認識対象となる画像を得ることができる。

【0107】

Ｓ３２０、前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得る。

【0108】

顔特徴抽出モデルの精度を向上させるために、ターゲット画像を取得した後、ターゲット画像に対して画像処理操作を行い、前記ターゲット画像の画像パラメータを変更する必要がある。

【0109】

ここで、画像処理操作としては、サイズ調整、クロップ処理、回転処理や画像アルゴリズム処理などがある。画像アルゴリズム処理としては、色温度調整アルゴリズム、露出調整アルゴリズムなどがある。これらの画像処理操作により、ターゲット画像を実際に撮影した画像に近づけることができる。

【0110】

それに応じて、画像パラメータには、サイズ情報、画素サイズ、コントラスト、シャープネス、自然な彩度などが含まれる。

【0111】

Ｓ３３０、前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力する。

【0112】

ここで、前記顔特徴抽出モデルは、上記の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルである。

【0113】

上記の顔特徴抽出方法では、ターゲット画像を取得し、前記ターゲット画像に対して画像処理を行い、前記ターゲット処理画像を顔特徴抽出モデルに入力することにより、顔特徴の抽出の精度が高く、実際の応用シーンへの適用が容易になる。

【0114】

図１１を参照すると、図１１は、本出願の実施例による顔特徴抽出モデル訓練装置を示すブロック図であり、当該顔特徴抽出モデル訓練装置は、上記の顔特徴抽出モデル訓練方法のいずれかを実行するために使用される。ここで、当該顔特徴抽出モデル訓練装置は、サーバまたは端末に構成されてもよい。

【0115】

ここで、サーバは、独立したサーバであってもよいし、サーバクラスタであってもよい。当該端末は、携帯電話、タブレット、ラップトップ、デスクトップコンピュータ、パーソナルデジタルアシスタントやウェアラブルデバイスなどの電子機器であってもよい。

【0116】

図１１に示すように、顔特徴抽出モデル訓練装置４００は、モデル訓練ユニット４１０と、データ出力ユニット４２０と、データ入力ユニット４３０と、モデル確定ユニット４４０と、を含む。

【0117】

モデル訓練ユニット４１０は、顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るために使用される。

【0118】

データ出力ユニット４２０は、顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するために使用される。

【0119】

データ入力ユニット４３０は、各前記検証顔特徴データを予め設定された教師ネットワークに入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するために使用される。

【0120】

モデル確定ユニット４４０は、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するために使用される。

【0121】

図１１に示すように、一実施例では、前記顔特徴抽出モデル訓練装置４００はさらに、結果取得ユニット４５０と、画像スクリーニングユニット４６０と、画像タグ付けユニット４７０と、を含む。

【0122】

結果取得ユニット４５０は、いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得るために使用される。

【0123】

画像スクリーニングユニット４６０は、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得るために使用される。

【0124】

画像タグ付けユニット４７０は、前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得るために使用される。

【0125】

図１２に示すように、一実施例では、前記モデル確定ユニット４４０は、精度算出サブユニット４４１と、特徴確定サブユニット４４２と、を含む。

【0126】

精度算出サブユニット４４１は、各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出するために使用される。

【0127】

特徴確定サブユニット４４２は、最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定するために使用される。

【0128】

図１２に示すように、一実施例では、前記モデル確定ユニット４４０はさらに、損失値確定サブユニット４４３と、モデル確定サブユニット４４４と、を含む。

【0129】

損失値確定サブユニット４４３は、前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出するために使用される。

【0130】

モデル確定サブユニット４４４は、前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するために使用される。

【0131】

図１２に示すように、一実施例では、前記損失値確定サブユニット４４３は、サブ損失値確定サブユニット４４３１と、損失値融合サブユニット４４３２と、を含む。

【0132】

サブ損失値確定サブユニット４４３１は、第１損失関数および第２損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第１サブ損失値および第２サブ損失値を確定するために使用される。

【0133】

損失値融合サブユニット４４３２は、損失値融合式に基づき、前記第１サブ損失値および前記第２サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定するために使用される。

【0134】

前記第１損失関数は、

【0135】

【数22】

であり、
ここで、Ｊ_ｓが第１サブ損失値であり、ｕ_ｋが顔訓練データにおけるｋ番目の画像のターゲットサンプル特徴の特徴ベクトルであり、ｕ_ｊが顔訓練データにおけるｋ番目の画像のタグベクトルであり、ｍは各バッチの顔訓練データにおける画像数である；

【0136】

前記第２損失関数は、

【0137】

【数23】

であり、
ここで、Ｊ_ｃが第２サブ損失値であり、ｕ_ｋが顔訓練データにおけるｋ番目の画像のターゲットサンプル特徴の特徴ベクトルであり、ｃ_ｋが顔訓練データにおけるｋ番目の画像の中心であり、ｍが各バッチの顔訓練データにおける画像数である。

【0138】

前記損失値融合式は、

【0139】

【数24】

であり、
ここで、Ｊが前記損失値であり、ｗ_１とｗ_２が重みである。

【0140】

図１３を参照すると、図１３は、本出願の実施例による顔特徴抽出装置を示すブロック図であり、当該顔特徴抽出装置は、上記の顔特徴抽出方法を実行するために使用される。ここで、当該顔特徴抽出装置は、サーバまたは端末に構成されてもよい。

【0141】

図１３に示すように、当該顔特徴抽出装置５００は、画像取得ユニット５１０と、画像処理ユニット５２０と、画像入力ユニット５３０と、を含む。

【0142】

画像取得ユニット５１０は、ターゲット画像を取得するために使用される。

【0143】

画像処理ユニット５２０は、前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るために使用される。

【0144】

画像入力ユニット５３０は、前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するために使用される。ここで、前記顔特徴抽出モデルは、上記の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルである。

【0145】

なお、説明の便宜上および簡略化のために、上記の顔特徴抽出モデル訓練装置および各ユニットの具体的な作業プロセスについては、上記の顔特徴抽出モデル訓練方法の実施例における対応するプロセスを参照することができ、ここで説明を省略しないことは、当業者にとって明らかである。

【0146】

上記装置は、図１４に示すようなコンピュータ機器上で実行され得るコンピュータプログラムの形態で実現されてもよい。

【0147】

図１４を参照すると、図１４は、本出願の実施例によるコンピュータ機器を示すブロック図である。当該コンピュータ機器は、サーバまたは端末であってもよい。

【0148】

図１４を参照すると、当該コンピュータ機器は、システムバスを介して接続されたプロセッサ、メモリおよびネットワークインターフェースを含み、ここで、メモリが不揮発性記憶媒体および内部メモリを含んでもよい。

【0149】

不揮発性記憶媒体には、オペレーティングシステムおよびコンピュータプログラムが記憶されてもよい。当該コンピュータプログラムは、実行されると、プロセッサに顔特徴抽出モデル訓練方法を実行させることができるプログラム命令を含む。

【0150】

プロセッサは、算出および制御機能を提供し、コンピュータ機器全体の動作をサポートするために使用される。

【0151】

内部メモリは、不揮発性記憶媒体に記憶されたコンピュータプログラムの動作環境を提供し、当該コンピュータプログラムがプロセッサによって実行されると、プロセッサに顔特徴抽出モデル訓練方法を実行させることができる。

【0152】

当該ネットワークインターフェースは、割り当てられたタスクを送信するなどのネットワーク通信を行うために使用される。図１４に示された構造は、単に本出願の解決手段に関連する構造の一部のブロック図であり、本出願の解決手段が適応されるコンピュータ機器の制限を構成するものではないことは、当業者にとって明らかであり、具体的なコンピュータ機器は、図示されたものよりも多くまたは少ない構成要素を含み、または特定の構成要素の組み合わせを含み、または異なるコンポーネント配置を有することができる。

【0153】

理解されるように、プロセッサは、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）であってもよいし、他の汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）又は他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。ここで、汎用プロセッサはマイクロプロセッサであってもよいし、任意の従来のプロセッサなどであってもよい。

【0154】

ここで、前記プロセッサは、メモリに記憶されたコンピュータプログラムを実行し、
顔訓練データを複数のオリジナル学生ネットワークにそれぞれ入力してモデル訓練を行い、各前記オリジナル学生ネットワークに対応する候補学生ネットワークを得るステップと、顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するステップと、各前記検証顔特徴データを予め設定された教師ネットワークにそれぞれ入力し、各前記検証顔特徴データに対応する候補顔特徴データを出力するステップと、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得て、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定するステップと、を実現するために使用される。

【0155】

一実施例では、前記プロセッサは、前記顔検証データを前記候補学生ネットワークにそれぞれ入力し、各前記候補学生ネットワークに対応する検証顔特徴データを出力するステップを実現する前に、さらに、
いくつかのタグ無し画像を含む顔サンプル画像セットに対して不確実性分析を行い、分析結果を得ることと、前記分析結果に基づき、前記顔サンプル画像セットをスクリーニングし、タグ付け対象となる画像セットを得ることと、前記タグ付け対象となる画像セットにおける画像に対してタグ付け処理を行い、顔検証データを得ることと、を実現するために使用される。

【0156】

一実施例では、前記プロセッサは、予め設定された特徴スクリーニングルールに基づき、複数の前記候補顔特徴データをスクリーニングしてターゲットサンプル特徴を得ることを実現するときに、
各前記候補顔特徴データおよび予め設定された校正顔画像の校正顔特徴データに基づき、各前記候補顔特徴データに対応する精度を算出することと、最大精度に対応する候補顔特徴データをターゲットサンプル特徴として確定することと、を実現するために使用される。

【0157】

一実施例では、前記プロセッサは、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定することを実現するときに、
前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出することと、前記損失値が予め設定された損失閾値よりも小さい場合には、前記ターゲットサンプル特徴に対応する候補学生ネットワークを顔特徴抽出モデルとして確定することと、を実現するために使用される。

【0158】

一実施例では、前記プロセッサは、前記ターゲットサンプル特徴に基づき、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を算出することを実現するときに、
第１損失関数および第２損失関数に基づき、前記ターゲットサンプル特徴に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの第１サブ損失値および第２サブ損失値を確定することと、損失値融合式に基づき、前記第１サブ損失値および前記第２サブ損失値に応じて、前記ターゲットサンプル特徴に対応する候補学生ネットワークの損失値を確定することと、を実現するために使用される。

【0159】

前記第１損失関数は、

【0160】

【数25】

【0161】

前記第２損失関数は、

【0162】

【数26】

【0163】

前記損失値融合式は、

【0164】

【数27】

であり、
ここで、Ｊが前記損失値であり、ｗ_１とｗ_２が重みである。

【0165】

ここで、別の実施例では、前記プロセッサは、メモリに記憶されたコンピュータプログラムを実行し、
ターゲット画像を取得するステップと、前記ターゲット画像に対して画像処理を行ってターゲット処理画像を得るステップと、前記ターゲット処理画像を顔特徴抽出モデルに入力し、ターゲット顔特徴を出力するステップと、を実現するために使用される。ここで、前記顔特徴抽出モデルは、上記の顔特徴抽出モデル訓練方法を用いて訓練して得られたモデルである。

【0166】

本出願の実施例はさらに、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体には、プログラム命令を含むコンピュータプログラムが記憶されており、前記プロセッサは、前記プログラム命令を実行し、本出願の実施例による顔特徴抽出モデル訓練方法または顔特徴抽出方法を実現する。

【0167】

ここで、前記コンピュータ読み取り可能な記憶媒体は、上記実施例に記載されるコンピュータ機器の内部記憶装置、例えば、前記コンピュータ機器のハードディスクまたはメモリであってもよいし、前記コンピュータ機器の外部記憶装置、例えば、前記コンピュータ機器に装備されたプラグインハードドライブ、スマートメディアカード（ＳＭＣ：ＳｍａｒｔＭｅｄｉａ（登録商標）Ｃａｒｄ）、セキュアデジタル（ＳＤ：ＳｅｃｕｒｅＤｉｇｉｔａｌ）カード、フラッシュカード（ＦｌａｓｈＣａｒｄ）などであってもよい。

【0168】

上記は、本出願の具体的な実施形態に過ぎず、本出願の保護範囲を制限するものではなく、当業者であれば、本出願によって開示された技術的範囲内で様々な同等の修正または置換を容易に思いつくことができ、これらの修正または置換はいずれも本出願の保護範囲に含まれるべきである。従って、本出願の保護範囲は、特許請求の範囲の保護範囲に準じるべきである。

【符号の説明】

【0169】

400 顔特徴抽出モデル訓練装置
410 モデル訓練ユニット
420 データ出力ユニット
430 データ入力ユニット
440 モデル確定ユニット
441 精度算出サブユニット
442 特徴確定サブユニット
443 損失値確定サブユニット
444 モデル確定サブユニット 450 結果取得ユニット
460 画像スクリーニングユニット
470 画像タグ付けユニット
500 顔特徴抽出装置
510 画像取得ユニット
520 画像処理ユニット
530 画像入力ユニット 4431 サブ損失値確定サブユニット
4432 損失値融合サブユニット

【図1】