特表2022-543334 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ベイジン　バイドゥ　ネットコム　サイエンス　アンド　テクノロジー　カンパニー　リミテッドの特許一覧

特表2022-543334顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2022-10-12

(54)【発明の名称】顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体

(51)【国際特許分類】

G06N 20/00 20190101AFI20221004BHJP

G06T 7/00 20170101ALI20221004BHJP

G06V 10/70 20220101ALI20221004BHJP

【ＦＩ】

G06N20/00

G06T7/00 350B

G06V10/70

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2021563140

(86)(22)【出願日】2021-01-25

(85)【翻訳文提出日】2021-10-22

(86)【国際出願番号】 CN2021073484

(87)【国際公開番号】W WO2021258727

(87)【国際公開日】2021-12-30

(31)【優先権主張番号】202010591858.5

(32)【優先日】2020-06-24

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】514322098

【氏名又は名称】ベイジンバイドゥネットコムサイエンステクノロジーカンパニーリミテッド

【氏名又は名称原語表記】ＢｅｉｊｉｎｇＢａｉｄｕＮｅｔｃｏｍＳｃｉｅｎｃｅＴｅｃｈｎｏｌｏｇｙＣｏ．，Ｌｔｄ．

【住所又は居所原語表記】２／ＦＢａｉｄｕＣａｍｐｕｓ，Ｎｏ．１０，Ｓｈａｎｇｄｉ１０ｔｈＳｔｒｅｅｔ，ＨａｉｄｉａｎＤｉｓｔｒｉｃｔ，Ｂｅｉｊｉｎｇ１０００８５，Ｃｈｉｎａ

(74)【代理人】

【識別番号】110001416

【氏名又は名称】特許業務法人信栄特許事務所

(72)【発明者】

【氏名】田 ▲飛▼

(72)【発明者】

【氏名】温 ▲聖▼召

(72)【発明者】

【氏名】▲楊▼ 馥魁

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096DA02

5L096HA09

5L096HA11

5L096JA11

5L096KA04

(57)【要約】

本発明は、顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体を開示し、人工知能における深層学習、クラウドコンピューティングおよびコンピュータビジョンの分野に関し、具体的には、マスクを着用している顔認識の面に関する。具体的な形態として、顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のブロックから出力された画像特徴を自己加重処理し、処理後の画像特徴を次のブロックに入力し、現在のブロックから出力された画像特徴を最後のブロックに入力するまで、上記動作を繰り返し実行し、最後のブロックから出力された画像特徴を用いて顔認識モデルをトレーニングする。本発明の実施例は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。
【選択図】図１

【特許請求の範囲】

【請求項1】

トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することと、
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することと、
前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することと、
前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することとを含み、
前記顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング方法。

【請求項2】

前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することは、
前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することと、
前記現在のブロックから出力された画像特徴と前記空間アテンションモジュールから出力された空間マスクとの１回目の要素別乗算を行い、１回目の要素別乗算後の画像特徴を取得することと、
前記１回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することと、
前記１回目の要素別乗算後の画像特徴と前記チャネルアテンションモジュールから出力されたチャネルマスクとの２回目の要素別乗算を行い、２回目の要素別乗算後の画像特徴を取得し、前記２回目の要素別乗算後の画像特徴を前記自己加重処理後の画像特徴とすることとを含む、
請求項１に記載の方法。

【請求項3】

前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することは、
前記現在のブロックから出力された顔特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、
前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、
前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとを含む、
請求項２に記載の方法。

【請求項4】

前記１回目の要素別乗算後の画像特徴を前記アテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することは、
前記１回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、
前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、
前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとを含む、
請求項２に記載の方法。

【請求項5】

前記コンボリューション計算後の画像特徴の次元は（１，１，Ｈ，Ｗ）であり、
Ｈは前記顔画像の高さを表し、
Ｗは前記顔画像の幅を表す、
請求項３に記載の方法。

【請求項6】

前記多層パーセプトロンは、第１層の完全接続ネットワークおよび第２層の完全接続ネットワークを含む２層の完全接続ネットワークであり、
前記第１層の完全接続ネットワークから出力された画像特徴の次元は（１，Ｃ／４，１，１）であり、
前記第２層の完全接続ネットワークから出力された画像特徴の次元は（１，Ｃ，１，１）であり、
Ｃは前記顔画像のチャネル数を表す、
請求項４に記載の方法。

【請求項7】

入力モジュールと、自己加重処理モジュールと、トレーニングモジュールとを備える顔認識モデルのトレーニング装置であって、
前記入力モジュールは、トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することに用いられ、
前記自己加重処理モジュールは、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することに用いられ、
前記入力モジュールは、更に、前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することに用いられ、
前記トレーニングモジュールは、前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することに用いられ、
顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング装置。

【請求項8】

前記自己加重処理モジュールは、空間マスク計算サブモジュールと、第１加重処理サブモジュールと、チャネルマスク計算サブモジュールと、第２加重処理サブモジュールとを備え、
前記空間マスク計算サブモジュールは、前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することに用いられ、
前記第１加重処理サブモジュールは、前記現在のブロックから出力された画像特徴と前記空間アテンションモジュールから出力された空間マスクとの１回目の要素別乗算を行い、１回目の要素別乗算後の画像特徴を取得することに用いられ、
前記チャネルマスク計算サブモジュールは、前記１回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することに用いられ、
前記第２加重処理サブモジュールは、前記１回目の要素別乗算後の画像特徴と前記チャネルアテンションモジュールから出力されたチャネルマスクとの２回目の要素別乗算を行い、２回目の要素別乗算後の画像特徴を取得し、前記２回目の要素別乗算後の画像特徴を前記自己加重処理後の画像特徴とすることに用いられる、
請求項７に記載の装置。

【請求項9】

前記空間マスク計算サブモジュールは、具体的に、
前記現在のブロックから出力された顔特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、
前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、
前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとに用いられる、
請求項８に記載の装置。

【請求項10】

前記チャネルマスク計算サブモジュールは、具体的に、
前記１回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、
前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、
前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとに用いられる、
請求項８に記載の装置。

【請求項11】

前記コンボリューション計算後の画像特徴の次元は（１，１，Ｈ，Ｗ）であり、
Ｈは前記顔画像の高さを表し、
Ｗは前記顔画像の幅を表す、
請求項９に記載の装置。

【請求項12】

【請求項13】

少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも１つのプロセッサが請求項１～６のいずれか１項に記載の方法を実行可能であるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。

【請求項14】

請求項１～６のいずれか１項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている、
非一時的なコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、２０２０年６月２４日に中国専利局に提出された出願番号が２０２０１０５９１８５８．５である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本発明に援用する。

【0002】

本発明の実施例は、コンピュータアプリケーションの技術分野に関し、更に、人工知能における深層学習、クラウドコンピューティングおよびコンピュータビジョンの分野に関し、例えば、マスクを着用している顔認識の面に関する。具体的には、顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体に関する。

【背景技術】

【0003】

コンピュータ技術の発展に伴い、画像処理技術はますます多くの分野に適用される。通常、機械学習方法を用いて顔認識モデルをトレーニングし、顔認識モデルを利用して画像中の顔を認識することができる。顔にマスクが着用されている場合、マスクを着用している顔を認識する困難点は、顔認識モデルが、マスクを着用している場合の顔認識を解決する必要があるとともに、マスクを着用していない場合の顔認識を解決する必要もあることにある。マスクを着用している場合は、マスクを着用していない場合と比べ、口、鼻等の関連情報が欠け、モデルのトレーニング過程で修正しないと、顔認識モデルのマスクを着用している顔に対する認識の効果は低下してしまう。

【0004】

従来の顔認識モデルのトレーニング方法において、マスクデータと非マスクデータとを同等に扱い、直接ＩＤ分類の方法でトレーニングする。顔にマスクが着用されている場合、顔認識モデルが特に処理されないため、顔認識モデルのマスクを着用している顔に対する認識の正確度は高くない。

【発明の概要】

【発明が解決しようとする課題】

【0005】

以下は、本発明について詳細に説明する主題の概要である。本概要は、特許請求の範囲を制限するものではない。

【0006】

本発明の実施例は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体を提供する。

【課題を解決するための手段】

【0007】

本発明の一態様によれば、
トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することと、
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することと、
前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することと、
前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することとを含み、
前記顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング方法を提供する。

【0008】

本発明の一態様によれば、
入力モジュールと、自己加重処理モジュールと、トレーニングモジュールとを備える顔認識モデルのトレーニング装置であって、
前記入力モジュールは、トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することに用いられ、
前記自己加重処理モジュールは、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することに用いられ、
前記入力モジュールは、更に、前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することに用いられ、
前記トレーニングモジュールは、前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することに用いられ、
前記顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング装置を提供する。

【0009】

本発明の一態様によれば、
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するためのメモリとを備え、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサは、本発明のいずれかの実施例に記載の顔認識モデルのトレーニング方法を実現する、
電子機器を提供する。

【0010】

本発明の一態様によれば、プロセッサにより実行されると、本発明のいずれかの実施例に記載の顔認識モデルのトレーニング方法を実現するコンピュータプログラムが記憶されている、
記憶媒体を提供する。

【発明の効果】

【0011】

本発明は、従来技術における顔にマスクが着用されている場合、顔認識モデルのマスクを着用している顔に対する認識の正確度が高くないという技術的問題を解決し、本発明の実施例に係る技術案において、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。

【0012】

本発明に記載された内容は、本発明の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本発明の範囲を限定するものでもないことが理解されるべきである。本発明の他の特徴は、以下の明細書により容易に理解することができる。図面および詳細な説明を閲読し理解することで、他の態様も理解できる。

【図面の簡単な説明】

【0013】

図面は本形態をより良く理解するためのものであり、本発明を限定するものではない。

【0014】

【図1】本発明の実施例に係る顔認識モデルのトレーニング方法のフローチャートである。

【図2】本発明の実施例に係る顔認識モデルの構造模式図である。

【図3】本発明の実施例に係るアテンションモジュールの構造模式図である。

【図4】本発明の実施例に係る顔認識モデルのトレーニング方法のフローチャートである。

【図5】本発明の実施例に係る空間アテンションモジュールの構造模式図である。

【図6】本発明の実施例に係るチャネルアテンションモジュールの構造模式図である。

【図7】本発明の実施例に係る顔認識モデルのトレーニング装置の構造模式図である。

【図8】本発明の実施例に係る自己加重処理モジュールの構造模式図である。

【図9】本発明の実施例の顔認識モデルのトレーニング方法を実現するための電子機器のブロック図である。

【発明を実施するための形態】

【0015】

以下、図面を参照しながら本発明の例示的な実施例について説明し、ここで、理解を容易にするために、本発明の実施例の様々な詳細を含み、それらが例示的なものに過ぎないと見なされるべきである。従い、当業者は、本発明の範囲および精神から逸脱することなく、ここで記載される実施例に対して様々な変更および修正を行うことができることを認識すべきである。それと同様に、明瞭かつ簡単にするために、以下の記述において公知の機能および構造についての説明を省略する。

【実施例1】

【0016】

図１は、本発明の実施例に係る顔認識モデルのトレーニング方法のフローチャートであり、該方法は、顔認識モデルのトレーニング装置または電子機器により実行でき、該装置または電子機器は、ソフトウェアおよび／またはハードウェアの方式で実現でき、該装置または電子機器は、ネットワーク通信機能を持つ任意のスマートデバイスに集積できる。図１に示すように、本実施例に係る顔認識モデルのトレーニング方法は、以下のステップを含んでもよい。

【0017】

Ｓ１０１において、トレーニング待ち顔認識モデルが収束条件を満たさない場合、トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む。

【0018】

本発明の具体的な実施例において、トレーニング待ち顔認識モデルが収束条件を満たさない場合、電子機器は、まず、トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力してもよく、顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む。具体的には、顔認識モデルは、Ｎ個のブロック（Ｂｌｏｃｋ）およびＮ－１個のアテンションモジュール（ＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ）を含んでもよく、隣接する２つのブロックの間に１つのアテンションモジュールが設けられ、ただし、Ｎは１よりも大きい自然数である。

【0019】

図２は、本発明の実施例に係る顔認識モデルの構造模式図である。図２に示すように、顔認識モデルは、４つのブロックおよび３つのアテンションモジュールを備え、上記４つのブロックは、それぞれブロック１、ブロック２、ブロック３およびブロック４であり、上記３つのアテンションモジュールは、それぞれアテンションモジュール１、アテンションモジュール２およびアテンションモジュール３であり、ここで、アテンションモジュール１はブロック１とブロック２との間に設けられ、アテンションモジュール２はブロック２とブロック３との間に設けられ、アテンションモジュール３はブロック３とブロック４との間に設けられる。具体的には、まず、顔画像（マスクを着用している顔画像とマスクを着用していない顔画像を含む）をブロック１に入力し、ブロック１から出力された画像特徴を取得し、ブロック１から出力された画像特徴をアテンションモジュール１に入力し、アテンションモジュール１によりブロック１から出力された画像特徴を自己加重処理し、アテンションモジュール１により自己加重処理された後の画像特徴を取得し、アテンションモジュール１により自己加重処理された後の画像特徴をブロック２に再び入力し、ブロック２から出力された画像特徴を取得し、ブロック２から出力された画像特徴をアテンションモジュール２に入力し、アテンションモジュール２によりブロック２から出力された画像特徴を自己加重処理し、アテンションモジュール２により自己加重処理された後の画像特徴を取得し、アテンションモジュール２により自己加重処理された後の画像特徴をブロック３に入力し、ブロック３出力の画像特徴を取得し、ブロック３から出力された画像特徴をアテンションモジュール３に入力し、アテンションモジュール３によりブロック３から出力された画像特徴を自己加重処理し、アテンションモジュール３により自己加重処理された後の画像特徴を取得し、アテンションモジュール３により自己加重処理された後の画像特徴をブロック４に入力し、ブロック４から出力された画像特徴を取得してもよい。

【0020】

Ｓ１０２において、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得する。

【0021】

本発明の具体的な実施例において、電子機器は、現在のブロックから出力された画像特徴をアテンションモジュールに入力し、アテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得してもよく、ここで、現在のアテンションモジュールは現在のブロックと現在のブロックの次のブロックとの間に設けられている。具体的には、電子機器は、まず、現在のブロックから出力された画像特徴を現在のアテンションモジュールのうちの空間アテンションモジュール（ＳｐａｃｉａｌＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ）に入力し、空間アテンションモジュールから出力された空間マスクを取得し、その後、現在のブロックから出力された画像特徴と空間アテンションモジュールから出力された空間マスクとの１回目の要素別乗算を行い、１回目の要素別乗算後の画像特徴を取得し、続いて、１回目の要素別乗算後の画像特徴を現在のアテンションモジュールのうちのチャネルアテンションモジュール（ＣｈａｎｎｅｌＡｔｔｅｎｔｉｏｎＭｏｄｕｌｅ）に入力し、チャネルアテンションモジュールから出力されたチャネルマスクを取得し、更に、１回目の要素別乗算後の画像特徴とチャネルアテンションモジュールから出力されたチャネルマスクとの２回目の要素別乗算を行い、２回目の要素別乗算後の画像特徴を取得し、２回目の要素別乗算後の画像特徴を自己加重処理後の画像特徴としてもよい。

【0022】

図３は、本発明の実施例に係るアテンションモジュールの構造模式図である。図３に示すように、アテンションモジュールは、入力モジュールと、空間アテンションモジュールと、第１計算モジュールと、チャネルアテンションモジュールと、第２計算モジュールと、出力モジュールとを備えてもよく、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理する場合、まず、入力モジュールにより現在のブロックから出力された画像特徴を空間アテンションモジュールおよび第１計算モジュールにそれぞれ入力し、第１計算モジュールは、現在のブロックから出力された画像特徴と空間アテンションモジュールから出力された空間マスクとの１回目の要素別乗算を行い、１回目の要素別乗算後の画像特徴を取得し、更に、１回目の要素別乗算後の画像特徴をチャネルアテンションモジュールおよび第２計算モジュールにそれぞれ入力し、第２計算モジュールは、１回目の要素別乗算後の画像特徴とチャネルアテンションモジュールから出力されたチャネルマスクとの２回目の要素別乗算を行い、２回目の要素別乗算後の画像特徴を取得し、２回目の要素別乗算後の画像特徴を自己加重処理後の画像特徴としてもよい。

【0023】

Ｓ１０３において、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行する。

【0024】

本発明の具体的な実施例において、電子機器は、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行してもよい。例えば、電子機器は、アテンションモジュール１により自己加重処理された後の画像特徴を取得した後、アテンションモジュール１により自己加重処理された後の画像特徴をブロック２に入力し、ブロック２を現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行する。

【0025】

Ｓ１０４において、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。

【0026】

本発明の具体的な実施例において、電子機器は、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行してもよい。マスクを着用している顔画像とマスクを着用していない顔画像が同じ人の顔画像であり、マスクを着用している顔画像をトレーニング待ち顔認識モデルに入力して得られた画像特徴が、マスクを着用していない顔画像をトレーニング待ち顔認識モデルに入力して得られた画像特徴と一定の差があるため、損失関数ＡｄｄｉｔｉｖｅＡｎｇｕｌａｒＭａｒｇｉｎＬｏｓｓにより両者の差を計算し、この２つの画像特徴の差に基づいてトレーニング待ち顔認識モデルのパラメータを調整する必要がある。

【0027】

好ましくは、本発明の具体的な実施例において、電子機器は、まず、非マスク顔認識モデルをトレーニングし、その後、非マスク顔認識モデルにアテンションモジュールを増加することができ、この場合、非マスク顔認識モデルを固定し、アテンションモジュールのみを学習する必要があり、アテンションモジュールの構造が同じであり、主流のニューラルネットワーク（例えば、Ｂａｃｋｂｏｎｅ、Ｒｅｓｎｅｔ等）のＢｌｏｃｋの中間に嵌め込むことができる。各Ｂｌｏｃｋから出力された画像特徴に、空間アテンションモジュールから出力された空間マスクおよびチャネルアテンションモジュールから出力されたチャネルマスクを順次乗算することで、出力された画像特徴に偏重および抑制があり、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。

【0028】

本発明の実施例に係る顔認識モデルのトレーニング方法は、トレーニング待ち顔認識モデルが収束条件を満たさない場合、まず、トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、その後、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得し、続いて、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行し、更に、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。つまり、本発明は、現在のブロックと現在のブロックの次のブロックとの間に１つの現在のアテンションモジュールを設け、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を偏重して抑制することができ、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。一方、従来の顔認識モデルのトレーニング方法において、顔にマスクが着用されている場合、顔認識モデルが特に処理されないため、顔認識モデルのマスクを着用している顔に対する認識の正確度は高くない。本発明は、隣接する２つのブロックの間に１つのアテンションモジュールを設けるという技術手段を採用するため、従来技術における顔認識モデルのマスクを着用している顔に対する認識の正確度が高くないという技術的問題を克服し、本発明に係る技術案は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができ、且つ、本発明の実施例の技術案は、実現しやすく、普及しやすく、適用範囲がより広い。

【実施例2】

【0029】

図４は、本発明の実施例に係る顔認識モデルのトレーニング方法のフローチャートである。本実施例は、上記実施例の基に提出された好ましい形態である。図４に示すように、顔認識モデルのトレーニング方法は、以下のステップを含んでもよい。

【0030】

Ｓ４０１において、トレーニング待ち顔認識モデルが収束条件を満たさない場合、トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、顔画像を現在のブロックに入力し、顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む。

【0031】

Ｓ４０２において、現在のブロックから出力された画像特徴をアテンションモジュールのうちの空間アテンションモジュールに入力し、空間アテンションモジュールから出力された空間マスクを取得する。

【0032】

本発明の具体的な実施例において、電子機器は、現在のブロックから出力された画像特徴をアテンションモジュールのうちの空間アテンションモジュールに入力し、空間アテンションモジュールから出力された空間マスクを取得してもよい。具体的には、電子機器は、まず、現在のブロックから出力された顔特徴を、空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、チャネル最大グローバルプールから出力された画像特徴およびチャネル平均グローバルプールから出力された画像特徴を取得し、その後、チャネル最大グローバルプールから出力された画像特徴とチャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得し、更に、コンボリューション計算後の画像特徴に基づき、空間アテンションモジュールから出力された空間マスクを計算してもよい。具体的には、空間アテンションモジュールから出力された空間マスクは、画像特徴のうちのそれぞれに対応する空間重み値からなる行列であってもよい。具体的には、現在のブロックから出力された画像特徴は特徴１～特徴Ｍを含んでもよく、ただし、Ｍは１以上の自然数である。従って、空間アテンションモジュールから出力された空間マスクは、空間重み値１～空間重み値Ｍを含んでもよい。

【0033】

好ましくは、本発明の具体的な実施例において、コンボリューション計算後の画像特徴の次元は（１，１，Ｈ，Ｗ）であり、ただし、Ｈは顔画像の高さを表し、Ｗは顔画像の幅を表す。上記次元設定は、顔認識モデルのマスクを着用している顔に対する認識の正確度をより効果的に向上させることができる。

【0034】

図５は、本発明の実施例に係る空間アテンションモジュールの構造模式図である。図５に示すように、空間アテンションモジュールは、空間入力モジュール、チャネル最大グローバルプール（ＣｈａｎｎｅｌＭａｘＧｌｏｂａｌＰｏｏｌ）、チャネル平均グローバルプール（ＣｈａｎｎｅｌＡｖｇＧｌｏｂａｌＰｏｏｌ）、コンボリューション計算モジュール（Ｃｏｎｖ）および空間マスク計算モジュール（ＳｐａｃｉａｌＭａｓｋ）を含んでもよい。電子機器は、まず、空間入力モジュールにより現在のブロックから出力された顔特徴をチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、チャネル最大グローバルプールから出力された画像特徴およびチャネル平均グローバルプールから出力された画像特徴を取得し、その後、チャネル最大グローバルプールおよびチャネル平均グローバルプールは、出力した画像特徴をそれぞれコンボリューション計算モジュールに入力し、コンボリューション計算モジュールから出力された画像特徴を取得し、更に、コンボリューション計算モジュールから出力された画像特徴を空間マスク計算モジュールに入力し、空間マスク計算モジュールから出力された空間マスクを取得し、空間マスク計算モジュールから出力された空間マスクを空間アテンションモジュールから出力された空間マスクとしてもよい。

【0035】

Ｓ４０３において、現在のブロックから出力された画像特徴と空間アテンションモジュールから出力された空間マスクとの１回目の要素別乗算を行い、１回目の要素別乗算後の画像特徴を取得する。

【0036】

本発明の具体的な実施例において、電子機器は、現在のブロックから出力された画像特徴と空間アテンションモジュールから出力された空間マスクとの１回目の要素別乗算を行い、１回目の要素別乗算後の画像特徴を取得してもよい。具体的には、現在のブロックから出力された画像特徴は特徴１～特徴Ｍを含んでもよく、ただし、Ｍは１以上の自然数である。従って、空間アテンションモジュールから出力された空間マスクは、空間重み値１～空間重み値Ｍを含んでもよい。本ステップにおいて、特徴１に空間重み値１を乗算して特徴１の修正された画像特徴を取得し、特徴２に空間重み値２を乗算して特徴２の修正された画像特徴を取得し、以降は、特徴Ｍに空間重み値Ｍを乗算して特徴Ｍの修正された画像特徴を取得するまで同様にする。例えば、現在のブロックから出力された画像特徴が特徴１～特徴９を含んでもよいと仮定し、従って、空間アテンションモジュールから出力された空間マスクは、空間重み値１～空間重み値９を含んでもよい。本ステップにおいて、特徴１に空間重み値１を乗算して特徴１の修正された画像特徴を取得し、特徴２に空間重み値２を乗算して特徴２の修正された画像特徴を取得し、以降は、特徴９に空間重み値９を乗算して特徴９の修正された画像特徴を取得するまで同様にする。

【0037】

Ｓ４０４において、１回目の要素別乗算後の画像特徴をアテンションモジュールのうちのチャネルアテンションモジュールに入力し、チャネルアテンションモジュールから出力されたチャネルマスクを取得する。

【0038】

本発明の具体的な実施例において、電子機器は、１回目の要素別乗算後の画像特徴をアテンションモジュールのうちのチャネルアテンションモジュールに入力し、チャネルアテンションモジュールから出力されたチャネルマスクを取得してもよい。具体的には、電子機器は、まず、１回目の要素別乗算後得到の画像特徴をチャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、最大グローバルプールから出力された画像特徴および平均グローバルプールから出力された画像特徴を取得し、その後、最大グローバルプールから出力された画像特徴および平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、多層パーセプトロンから出力された画像特徴を取得し、更に、多層パーセプトロンから出力された画像特徴に基づき、チャネルアテンションモジュールから出力されたチャネルマスクを計算してもよい。具体的には、チャネルアテンションモジュールから出力されたチャネルマスクは、画像特徴が位置する各チャネルに対応する重み値からなる行列であってもよい。具体的には、現在のブロックから出力された画像特徴が位置するチャネルは、チャネル１～チャネルＰを含んでもよく、ただし、Ｐは１以上の自然数である。従って、チャネルアテンションモジュールから出力されたチャネルマスクは、チャネル重み値１～チャネル重み値Ｐを含んでもよい。

【0039】

図６は、本発明の実施例に係るチャネルアテンションモジュールの構造模式図である。図６に示すように、チャネルアテンションモジュールは、チャネル入力モジュール、最大グローバルプール（ＭａｘＧｌｏｂａｌＰｏｏｌ）、平均グローバルプール（ＡｖｇＧｌｏｂａｌＰｏｏｌ）、多層パーセプトロン（ＭＬＰ）およびチャネルマスク計算モジュール（ＣｈａｎｎｅｌＭａｓｋ）を含んでもよい。具体的には、電子機器は、まず、チャネル入力モジュールにより１回目の要素別乗算後の画像特徴を最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、最大グローバルプールから出力された画像特徴および平均グローバルプールから出力された画像特徴を取得し、その後、最大グローバルプールから出力された画像特徴および平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、多層パーセプトロンから出力された画像特徴を取得し、更に、多層パーセプトロンから出力された画像特徴をチャネルマスク計算モジュールに入力し、チャネルマスク計算モジュールから出力されたチャネルマスクを取得し、チャネルマスク計算モジュールから出力されたチャネルマスクをチャネルアテンションモジュールから出力されたチャネルマスクとしてもよい。

【0040】

好ましくは、本発明の具体的な実施例において、多層パーセプトロンは、第１層の完全接続ネットワークおよび第２層の完全接続ネットワークを含む２層の完全接続ネットワークであり、ここで、第１層の完全接続ネットワークから出力された画像特徴の次元は（１，Ｃ／４，１，１）であり、第２層の完全接続ネットワークから出力された画像特徴の次元は（１，Ｃ，１，１）であり、ただし、Ｃは顔画像のチャネル数を表す。

【0041】

Ｓ４０５において、１回目の要素別乗算後の画像特徴とチャネルアテンションモジュールから出力されたチャネルマスクとの２回目の要素別乗算を行い、２回目の要素別乗算後の画像特徴を取得し、２回目の要素別乗算後の画像特徴を自己加重処理後の画像特徴とする。上記次元設定は、顔認識モデルのマスクを着用している顔に対する認識の正確度をより効果的に向上させることができる。

【0042】

本発明の具体的な実施例において、電子機器は、１回目の要素別乗算後の画像特徴とチャネルアテンションモジュールから出力されたチャネルマスクとの２回目の要素別乗算を行い、２回目の要素別乗算後の画像特徴を取得し、２回目の要素別乗算後の画像特徴を自己加重処理後の画像特徴としてもよい。具体的には、１回目の要素別乗算後の画像特徴が位置するチャネルはチャネル１～チャネルＰを含んでもよく、ただし、Ｐは１以上の自然数である。従って、チャネルアテンションモジュールから出力されたチャネルマスクは、チャネル重み値１～チャネル重み値Ｍを含んでもよい。本ステップにおいて、チャネル１における特徴にチャネル重み値１を乗算してチャネル１における特徴が修正された画像特徴を取得し、チャネル２における特徴にチャネル重み値２を乗算してチャネル２における特徴が修正された画像特徴を取得し、以降は、チャネルＰにおける特徴にチャネル重み値Ｍを乗算してチャネルＰにおける特徴が修正された画像特徴を取得するまで同様にする。例えば、現在のブロックから出力された画像特徴が位置するチャネルがチャネル１～チャネル３を含んでもよいと仮定し、従って、チャネルアテンションモジュールから出力された空間マスクは、チャネル重み値１～チャネル重み値３を含んでもよい。本ステップにおいて、チャネル１における特徴にチャネル重み値１を乗算してチャネル１における修正された画像特徴を取得し、チャネル２における特徴にチャネル重み値２を乗算してチャネル２における特徴が修正された画像特徴を取得し、チャネル３における特徴にチャネル重み値３を乗算してチャネル３における特徴が修正された画像特徴を取得する。

【0043】

Ｓ４０６において、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行する。

【0044】

Ｓ４０７において、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。

【0045】

【実施例3】

【0046】

図７は、本発明の実施例に係る顔認識モデルのトレーニング装置の構造模式図である。図７に示すように、前記装置７００は、入力モジュール７０１と、自己加重処理モジュール７０２と、トレーニングモジュール７０３とを備える。

【0047】

前記入力モジュール７０１は、トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することに用いられ、顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む。

【0048】

前記自己加重処理モジュール７０２は、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することに用いられる。

【0049】

前記入力モジュール７０１は、更に、前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することに用いられる。

【0050】

前記トレーニングモジュール７０３は、前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することに用いられる。

【0051】

図８は、本発明の実施例に係る自己加重処理モジュールの構造模式図である。図８に示すように、前記自己加重処理モジュール７０２は、空間マスク計算サブモジュール７０２１と、第１加重処理サブモジュール７０２２と、チャネルマスク計算サブモジュール７０２３と、第２加重処理サブモジュール７０２４とを備える。

【0052】

前記空間マスク計算サブモジュール７０２１は、前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することに用いられる。

【0053】

前記第１加重処理サブモジュール７０２２は、前記現在のブロックから出力された画像特徴と前記空間アテンションモジュールから出力された空間マスクとの１回目の要素別乗算を行い、１回目の要素別乗算後の画像特徴を取得することに用いられる。

【0054】

前記チャネルマスク計算サブモジュール７０２３は、前記１回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することに用いられる。

【0055】

前記第２加重処理サブモジュール７０２４は、前記１回目の要素別乗算後の画像特徴と前記チャネルアテンションモジュールから出力されたチャネルマスクとの２回目の要素別乗算を行い、２回目の要素別乗算後の画像特徴を取得し、前記２回目の要素別乗算後の画像特徴を前記自己加重処理後の画像特徴とすることに用いられる。

【0056】

更に、前記空間マスク計算サブモジュール７０２１は、具体的に、前記現在のブロックから出力された顔特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとに用いられる。

【0057】

更に、前記チャネルマスク計算サブモジュール７０２２は、具体的に、前記１回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとに用いられる。

【0058】

更に、前記コンボリューション計算後の画像特徴の次元は（１，１，Ｈ，Ｗ）であり、ただし、Ｈは前記顔画像の高さを表し、Ｗは前記顔画像の幅を表す。

【0059】

更に、前記多層パーセプトロンは、第１層の完全接続ネットワークおよび第２層の完全接続ネットワークを含む２層の完全接続ネットワークであり、ここで、前記第１層の完全接続ネットワークから出力された画像特徴の次元は（１，Ｃ／４，１，１）であり、前記第２層の完全接続ネットワークから出力された画像特徴の次元は（１，Ｃ，１，１）であり、ただし、Ｃは前記顔画像のチャネル数を表す。

【0060】

上記顔認識モデルのトレーニング装置は、本発明のいずれかの実施例に係る方法を実行でき、方法の実行に対応する機能モジュールおよび有益な効果を備える。本実施例で詳しく説明されていない技術詳細は、本発明のいずれかの実施例に係る顔認識モデルのトレーニング方法を参照することができる。

【実施例4】

【0061】

本発明の実施例によれば、本発明は、電子機器および可読記憶媒体を更に提供する。

【0062】

図９に示すように、本発明の実施例による顔認識モデルのトレーニング方法の電子機器のブロック図である。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような各形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような各形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載および／または要求される本発明の実現を限定するものではない。

【0063】

図９に示すように、該電子機器は、１つのまたは複数のプロセッサ９０１と、メモリ９０２と、各コンポーネントを接続するように構成される高速インタフェースおよび低速インタフェースを含むインタフェースとを備える。各コンポーネントは、異なるバスで互に接続され、共通のマザーボードに取り付けられるかまたは必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、メモリ内またはメモリ上に記憶されて外部の入力／出力装置（例えば、インタフェースにカップリングされた表示デバイス）にＧＵＩのグラフィクス情報を表示するための命令を含む。他の実施形態において、必要があれば、複数のプロセッサおよび／または複数本のバスと、複数のメモリとを共に使用することができる。それと同様に、複数の電子機器に接続することができ、各機器は、一部の必要な動作（例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとする）を提供する。図９において、１つのプロセッサ９０１を例とする。

【0064】

メモリ９０２は、本発明に係る非一時的なコンピュータ可読記憶媒体である。ここで、本発明に係る顔認識モデルのトレーニング方法を前記少なくとも１つのプロセッサに実行させるために、前記メモリには少なくとも１つのプロセッサにより実行可能な命令が記憶されている。本発明の非一時的なコンピュータ可読記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令は、本発明に係る顔認識モデルのトレーニング方法をコンピュータに実行させることに用いられる。

【0065】

メモリ９０２は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムおよびモジュール、例えば、本発明の実施例における顔認識モデルのトレーニング方法に対応するプログラム命令／モジュール（例えば、図７に示す入力モジュール７０１、自己加重処理モジュール７０２およびトレーニングモジュール７０３）を記憶するために使用できる。プロセッサ９０１は、メモリ９０２に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、即ち、上記方法の実施例における顔認識モデルのトレーニング方法を実現する。

【0066】

メモリ９０２は、プログラム記憶エリアおよびデータ記憶エリアを備えてもよく、ここで、プログラム記憶エリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、顔認識モデルのトレーニング方法の電子機器の使用に基づいて作成されたデータ等を記憶することができる。また、メモリ９０２は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリ、または他の非一時的な固体記憶デバイスのような非一時的なメモリを更に含んでもよい。いくつかの実施例において、メモリ９０２は、プロセッサ９０１に対してリモートに設けられたメモリを含むことが好ましく、これらのリモートメモリは、ネットワークを介して顔認識モデルのトレーニング方法の電子機器に接続することができる。上記ネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびその組み合わせを含んでもよいが、それらに限定されない。

【0067】

顔認識モデルのトレーニング方法の電子機器は、入力装置９０３と、出力装置９０４とを備えてもよい。プロセッサ９０１、メモリ９０２、入力装置９０３および出力装置９０４は、バスまたは他の方式で接続することができ、図９において、バスを介して接続することを例とする。

【0068】

入力装置９０３は、入力された数字または文字情報を受信し、顔認識モデルのトレーニング方法の電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、１つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置９０４は、表示デバイス、補助照明装置（例えば、ＬＥＤ）、および触覚フィードバック装置（例えば、振動モータ）等を含んでもよい。該表示デバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態において、表示デバイスはタッチパネルであってもよい。

【0069】

ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも１つの入力装置、および該少なくとも１つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。

【0070】

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、且つ、高度なプロセスおよび／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語を用いてこれらの計算プログラムを実施することができる。本発明に使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス（ＰＬＤ））を意味し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。

【0071】

ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置（例えば、マウスまたはトラックボール）とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且つ、任意の形式（音入力、音声入力または、触覚入力を含む）でユーザからの入力を受信することができる。

【0072】

ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、または中間コンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ）、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク、およびインターネットを含む。

【0073】

コンピュータシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント－サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。

【0074】

本発明の実施例による技術案は、トレーニング待ち顔認識モデルが収束条件を満たさない場合、まず、トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、その後、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得し、続いて、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行し、更に、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。つまり、本発明は、現在のブロックと現在のブロックの次のブロックとの間に１つの現在のアテンションモジュールを設け、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を偏重して抑制することができ、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。一方、従来の顔認識モデルのトレーニング方法において、顔にマスクが着用されている場合、顔認識モデルが特に処理されないため、顔認識モデルのマスクを着用している顔に対する認識の正確度は高くない。本発明は、隣接する２つのブロックの間に１つのアテンションモジュールを設けるという技術手段を採用するため、従来技術における顔認識モデルのマスクを着用している顔に対する認識の正確度が高くないという技術的問題を克服し、本発明に係る技術案は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができ、且つ、本発明の実施例の技術案は、実現しやすく、普及しやすく、適用範囲がより広い。

【0075】

上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本発明に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望する結果を達成できる限り、本発明はここで限定しない。

【0076】

上記具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2021-10-22

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することと、
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することと、
前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力して、前記次のブロックを前記現在のブロックとし、かつ、次のアテンションモジュールを現在のアテンションモジュールとして、前記自己加重処理後の画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得する動作を繰り返し実行することと、
前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することとを含み、
前記顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング方法。

【請求項2】

【請求項3】

前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することは、
前記現在のブロックから出力された画像特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、
前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、
前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとを含む、
請求項２に記載の方法。

【請求項4】

前記１回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することは、
前記１回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、
前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、
前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとを含む、
請求項２に記載の方法。

【請求項5】

【請求項6】

【請求項7】

入力モジュールと、自己加重処理モジュールと、トレーニングモジュールとを備える顔認識モデルのトレーニング装置であって、
前記入力モジュールは、トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの１つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することに用いられ、
前記自己加重処理モジュールは、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することに用いられ、
前記入力モジュールは、更に、前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力して、前記次のブロックを前記現在のブロックとし、かつ、次のアテンションモジュールを現在のアテンションモジュールとして、前記自己加重処理後の画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得する動作を繰り返し実行することに用いられ、
前記トレーニングモジュールは、前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することに用いられ、
顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング装置。

【請求項8】

【請求項9】

前記空間マスク計算サブモジュールは、具体的に、
前記現在のブロックから出力された画像特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、
前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、
前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとに用いられる、
請求項８に記載の装置。

【請求項10】

【請求項11】

【請求項12】

【請求項13】

【請求項14】

【請求項15】

コンピュータプログラムが含まれ、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１～６のいずれか１項に記載の方法を実現する、
コンピュータプログラム製品。

【国際調査報告】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版