(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-10-12
(54)【発明の名称】顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体
(51)【国際特許分類】
G06N 20/00 20190101AFI20221004BHJP
G06T 7/00 20170101ALI20221004BHJP
G06V 10/70 20220101ALI20221004BHJP
【FI】
G06N20/00
G06T7/00 350B
G06V10/70
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021563140
(86)(22)【出願日】2021-01-25
(85)【翻訳文提出日】2021-10-22
(86)【国際出願番号】 CN2021073484
(87)【国際公開番号】W WO2021258727
(87)【国際公開日】2021-12-30
(31)【優先権主張番号】202010591858.5
(32)【優先日】2020-06-24
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】110001416
【氏名又は名称】特許業務法人 信栄特許事務所
(72)【発明者】
【氏名】田 ▲飛▼
(72)【発明者】
【氏名】温 ▲聖▼召
(72)【発明者】
【氏名】▲楊▼ 馥魁
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096HA09
5L096HA11
5L096JA11
5L096KA04
(57)【要約】
本発明は、顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体を開示し、人工知能における深層学習、クラウドコンピューティングおよびコンピュータビジョンの分野に関し、具体的には、マスクを着用している顔認識の面に関する。具体的な形態として、顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のブロックから出力された画像特徴を自己加重処理し、処理後の画像特徴を次のブロックに入力し、現在のブロックから出力された画像特徴を最後のブロックに入力するまで、上記動作を繰り返し実行し、最後のブロックから出力された画像特徴を用いて顔認識モデルをトレーニングする。本発明の実施例は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することと、
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することと、
前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することと、
前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することとを含み、
前記顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング方法。
【請求項2】
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することは、
前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することと、
前記現在のブロックから出力された画像特徴と前記空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得することと、
前記1回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することと、
前記1回目の要素別乗算後の画像特徴と前記チャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、前記2回目の要素別乗算後の画像特徴を前記自己加重処理後の画像特徴とすることとを含む、
請求項1に記載の方法。
【請求項3】
前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することは、
前記現在のブロックから出力された顔特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、
前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、
前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとを含む、
請求項2に記載の方法。
【請求項4】
前記1回目の要素別乗算後の画像特徴を前記アテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することは、
前記1回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、
前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、
前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとを含む、
請求項2に記載の方法。
【請求項5】
前記コンボリューション計算後の画像特徴の次元は(1,1,H,W)であり、
Hは前記顔画像の高さを表し、
Wは前記顔画像の幅を表す、
請求項3に記載の方法。
【請求項6】
前記多層パーセプトロンは、第1層の完全接続ネットワークおよび第2層の完全接続ネットワークを含む2層の完全接続ネットワークであり、
前記第1層の完全接続ネットワークから出力された画像特徴の次元は(1,C/4,1,1)であり、
前記第2層の完全接続ネットワークから出力された画像特徴の次元は(1,C,1,1)であり、
Cは前記顔画像のチャネル数を表す、
請求項4に記載の方法。
【請求項7】
入力モジュールと、自己加重処理モジュールと、トレーニングモジュールとを備える顔認識モデルのトレーニング装置であって、
前記入力モジュールは、トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することに用いられ、
前記自己加重処理モジュールは、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することに用いられ、
前記入力モジュールは、更に、前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することに用いられ、
前記トレーニングモジュールは、前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することに用いられ、
顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング装置。
【請求項8】
前記自己加重処理モジュールは、空間マスク計算サブモジュールと、第1加重処理サブモジュールと、チャネルマスク計算サブモジュールと、第2加重処理サブモジュールとを備え、
前記空間マスク計算サブモジュールは、前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することに用いられ、
前記第1加重処理サブモジュールは、前記現在のブロックから出力された画像特徴と前記空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得することに用いられ、
前記チャネルマスク計算サブモジュールは、前記1回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することに用いられ、
前記第2加重処理サブモジュールは、前記1回目の要素別乗算後の画像特徴と前記チャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、前記2回目の要素別乗算後の画像特徴を前記自己加重処理後の画像特徴とすることに用いられる、
請求項7に記載の装置。
【請求項9】
前記空間マスク計算サブモジュールは、具体的に、
前記現在のブロックから出力された顔特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、
前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、
前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとに用いられる、
請求項8に記載の装置。
【請求項10】
前記チャネルマスク計算サブモジュールは、具体的に、
前記1回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、
前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、
前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとに用いられる、
請求項8に記載の装置。
【請求項11】
前記コンボリューション計算後の画像特徴の次元は(1,1,H,W)であり、
Hは前記顔画像の高さを表し、
Wは前記顔画像の幅を表す、
請求項9に記載の装置。
【請求項12】
前記多層パーセプトロンは、第1層の完全接続ネットワークおよび第2層の完全接続ネットワークを含む2層の完全接続ネットワークであり、
前記第1層の完全接続ネットワークから出力された画像特徴の次元は(1,C/4,1,1)であり、
前記第2層の完全接続ネットワークから出力された画像特徴の次元は(1,C,1,1)であり、
Cは前記顔画像のチャネル数を表す、
請求項10に記載の装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項1~6のいずれか1項に記載の方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。
【請求項14】
請求項1~6のいずれか1項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている、
非一時的なコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2020年6月24日に中国専利局に提出された出願番号が202010591858.5である中国特許出願に対して優先権を主張するものであり、該出願の全ての内容を引用により本発明に援用する。
【0002】
本発明の実施例は、コンピュータアプリケーションの技術分野に関し、更に、人工知能における深層学習、クラウドコンピューティングおよびコンピュータビジョンの分野に関し、例えば、マスクを着用している顔認識の面に関する。具体的には、顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体に関する。
【背景技術】
【0003】
コンピュータ技術の発展に伴い、画像処理技術はますます多くの分野に適用される。通常、機械学習方法を用いて顔認識モデルをトレーニングし、顔認識モデルを利用して画像中の顔を認識することができる。顔にマスクが着用されている場合、マスクを着用している顔を認識する困難点は、顔認識モデルが、マスクを着用している場合の顔認識を解決する必要があるとともに、マスクを着用していない場合の顔認識を解決する必要もあることにある。マスクを着用している場合は、マスクを着用していない場合と比べ、口、鼻等の関連情報が欠け、モデルのトレーニング過程で修正しないと、顔認識モデルのマスクを着用している顔に対する認識の効果は低下してしまう。
【0004】
従来の顔認識モデルのトレーニング方法において、マスクデータと非マスクデータとを同等に扱い、直接ID分類の方法でトレーニングする。顔にマスクが着用されている場合、顔認識モデルが特に処理されないため、顔認識モデルのマスクを着用している顔に対する認識の正確度は高くない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
以下は、本発明について詳細に説明する主題の概要である。本概要は、特許請求の範囲を制限するものではない。
【0006】
本発明の実施例は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる顔認識モデルのトレーニング方法、装置、電子機器および記憶媒体を提供する。
【課題を解決するための手段】
【0007】
本発明の一態様によれば、
トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することと、
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することと、
前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することと、
前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することとを含み、
前記顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング方法を提供する。
【0008】
本発明の一態様によれば、
入力モジュールと、自己加重処理モジュールと、トレーニングモジュールとを備える顔認識モデルのトレーニング装置であって、
前記入力モジュールは、トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することに用いられ、
前記自己加重処理モジュールは、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することに用いられ、
前記入力モジュールは、更に、前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することに用いられ、
前記トレーニングモジュールは、前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することに用いられ、
前記顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング装置を提供する。
【0009】
本発明の一態様によれば、
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するためのメモリとを備え、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサは、本発明のいずれかの実施例に記載の顔認識モデルのトレーニング方法を実現する、
電子機器を提供する。
【0010】
本発明の一態様によれば、プロセッサにより実行されると、本発明のいずれかの実施例に記載の顔認識モデルのトレーニング方法を実現するコンピュータプログラムが記憶されている、
記憶媒体を提供する。
【発明の効果】
【0011】
本発明は、従来技術における顔にマスクが着用されている場合、顔認識モデルのマスクを着用している顔に対する認識の正確度が高くないという技術的問題を解決し、本発明の実施例に係る技術案において、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。
【0012】
本発明に記載された内容は、本発明の実施例のキーとなるまたは重要な特徴を標識するためのものではなく、本発明の範囲を限定するものでもないことが理解されるべきである。本発明の他の特徴は、以下の明細書により容易に理解することができる。図面および詳細な説明を閲読し理解することで、他の態様も理解できる。
【図面の簡単な説明】
【0013】
図面は本形態をより良く理解するためのものであり、本発明を限定するものではない。
【0014】
【
図1】本発明の実施例に係る顔認識モデルのトレーニング方法のフローチャートである。
【
図2】本発明の実施例に係る顔認識モデルの構造模式図である。
【
図3】本発明の実施例に係るアテンションモジュールの構造模式図である。
【
図4】本発明の実施例に係る顔認識モデルのトレーニング方法のフローチャートである。
【
図5】本発明の実施例に係る空間アテンションモジュールの構造模式図である。
【
図6】本発明の実施例に係るチャネルアテンションモジュールの構造模式図である。
【
図7】本発明の実施例に係る顔認識モデルのトレーニング装置の構造模式図である。
【
図8】本発明の実施例に係る自己加重処理モジュールの構造模式図である。
【
図9】本発明の実施例の顔認識モデルのトレーニング方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本発明の例示的な実施例について説明し、ここで、理解を容易にするために、本発明の実施例の様々な詳細を含み、それらが例示的なものに過ぎないと見なされるべきである。従い、当業者は、本発明の範囲および精神から逸脱することなく、ここで記載される実施例に対して様々な変更および修正を行うことができることを認識すべきである。それと同様に、明瞭かつ簡単にするために、以下の記述において公知の機能および構造についての説明を省略する。
【実施例1】
【0016】
図1は、本発明の実施例に係る顔認識モデルのトレーニング方法のフローチャートであり、該方法は、顔認識モデルのトレーニング装置または電子機器により実行でき、該装置または電子機器は、ソフトウェアおよび/またはハードウェアの方式で実現でき、該装置または電子機器は、ネットワーク通信機能を持つ任意のスマートデバイスに集積できる。
図1に示すように、本実施例に係る顔認識モデルのトレーニング方法は、以下のステップを含んでもよい。
【0017】
S101において、トレーニング待ち顔認識モデルが収束条件を満たさない場合、トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む。
【0018】
本発明の具体的な実施例において、トレーニング待ち顔認識モデルが収束条件を満たさない場合、電子機器は、まず、トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力してもよく、顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む。具体的には、顔認識モデルは、N個のブロック(Block)およびN-1個のアテンションモジュール(Attention Module)を含んでもよく、隣接する2つのブロックの間に1つのアテンションモジュールが設けられ、ただし、Nは1よりも大きい自然数である。
【0019】
図2は、本発明の実施例に係る顔認識モデルの構造模式図である。
図2に示すように、顔認識モデルは、4つのブロックおよび3つのアテンションモジュールを備え、上記4つのブロックは、それぞれブロック1、ブロック2、ブロック3およびブロック4であり、上記3つのアテンションモジュールは、それぞれアテンションモジュール1、アテンションモジュール2およびアテンションモジュール3であり、ここで、アテンションモジュール1はブロック1とブロック2との間に設けられ、アテンションモジュール2はブロック2とブロック3との間に設けられ、アテンションモジュール3はブロック3とブロック4との間に設けられる。具体的には、まず、顔画像(マスクを着用している顔画像とマスクを着用していない顔画像を含む)をブロック1に入力し、ブロック1から出力された画像特徴を取得し、ブロック1から出力された画像特徴をアテンションモジュール1に入力し、アテンションモジュール1によりブロック1から出力された画像特徴を自己加重処理し、アテンションモジュール1により自己加重処理された後の画像特徴を取得し、アテンションモジュール1により自己加重処理された後の画像特徴をブロック2に再び入力し、ブロック2から出力された画像特徴を取得し、ブロック2から出力された画像特徴をアテンションモジュール2に入力し、アテンションモジュール2によりブロック2から出力された画像特徴を自己加重処理し、アテンションモジュール2により自己加重処理された後の画像特徴を取得し、アテンションモジュール2により自己加重処理された後の画像特徴をブロック3に入力し、ブロック3出力の画像特徴を取得し、ブロック3から出力された画像特徴をアテンションモジュール3に入力し、アテンションモジュール3によりブロック3から出力された画像特徴を自己加重処理し、アテンションモジュール3により自己加重処理された後の画像特徴を取得し、アテンションモジュール3により自己加重処理された後の画像特徴をブロック4に入力し、ブロック4から出力された画像特徴を取得してもよい。
【0020】
S102において、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得する。
【0021】
本発明の具体的な実施例において、電子機器は、現在のブロックから出力された画像特徴をアテンションモジュールに入力し、アテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得してもよく、ここで、現在のアテンションモジュールは現在のブロックと現在のブロックの次のブロックとの間に設けられている。具体的には、電子機器は、まず、現在のブロックから出力された画像特徴を現在のアテンションモジュールのうちの空間アテンションモジュール(Spacial Attention Module)に入力し、空間アテンションモジュールから出力された空間マスクを取得し、その後、現在のブロックから出力された画像特徴と空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得し、続いて、1回目の要素別乗算後の画像特徴を現在のアテンションモジュールのうちのチャネルアテンションモジュール(Channel Attention Module)に入力し、チャネルアテンションモジュールから出力されたチャネルマスクを取得し、更に、1回目の要素別乗算後の画像特徴とチャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、2回目の要素別乗算後の画像特徴を自己加重処理後の画像特徴としてもよい。
【0022】
図3は、本発明の実施例に係るアテンションモジュールの構造模式図である。
図3に示すように、アテンションモジュールは、入力モジュールと、空間アテンションモジュールと、第1計算モジュールと、チャネルアテンションモジュールと、第2計算モジュールと、出力モジュールとを備えてもよく、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理する場合、まず、入力モジュールにより現在のブロックから出力された画像特徴を空間アテンションモジュールおよび第1計算モジュールにそれぞれ入力し、第1計算モジュールは、現在のブロックから出力された画像特徴と空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得し、更に、1回目の要素別乗算後の画像特徴をチャネルアテンションモジュールおよび第2計算モジュールにそれぞれ入力し、第2計算モジュールは、1回目の要素別乗算後の画像特徴とチャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、2回目の要素別乗算後の画像特徴を自己加重処理後の画像特徴としてもよい。
【0023】
S103において、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行する。
【0024】
本発明の具体的な実施例において、電子機器は、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行してもよい。例えば、電子機器は、アテンションモジュール1により自己加重処理された後の画像特徴を取得した後、アテンションモジュール1により自己加重処理された後の画像特徴をブロック2に入力し、ブロック2を現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行する。
【0025】
S104において、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。
【0026】
本発明の具体的な実施例において、電子機器は、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行してもよい。マスクを着用している顔画像とマスクを着用していない顔画像が同じ人の顔画像であり、マスクを着用している顔画像をトレーニング待ち顔認識モデルに入力して得られた画像特徴が、マスクを着用していない顔画像をトレーニング待ち顔認識モデルに入力して得られた画像特徴と一定の差があるため、損失関数Additive Angular Margin Lossにより両者の差を計算し、この2つの画像特徴の差に基づいてトレーニング待ち顔認識モデルのパラメータを調整する必要がある。
【0027】
好ましくは、本発明の具体的な実施例において、電子機器は、まず、非マスク顔認識モデルをトレーニングし、その後、非マスク顔認識モデルにアテンションモジュールを増加することができ、この場合、非マスク顔認識モデルを固定し、アテンションモジュールのみを学習する必要があり、アテンションモジュールの構造が同じであり、主流のニューラルネットワーク(例えば、Backbone、Resnet等)のBlockの中間に嵌め込むことができる。各Blockから出力された画像特徴に、空間アテンションモジュールから出力された空間マスクおよびチャネルアテンションモジュールから出力されたチャネルマスクを順次乗算することで、出力された画像特徴に偏重および抑制があり、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。
【0028】
本発明の実施例に係る顔認識モデルのトレーニング方法は、トレーニング待ち顔認識モデルが収束条件を満たさない場合、まず、トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、その後、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得し、続いて、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行し、更に、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。つまり、本発明は、現在のブロックと現在のブロックの次のブロックとの間に1つの現在のアテンションモジュールを設け、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を偏重して抑制することができ、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。一方、従来の顔認識モデルのトレーニング方法において、顔にマスクが着用されている場合、顔認識モデルが特に処理されないため、顔認識モデルのマスクを着用している顔に対する認識の正確度は高くない。本発明は、隣接する2つのブロックの間に1つのアテンションモジュールを設けるという技術手段を採用するため、従来技術における顔認識モデルのマスクを着用している顔に対する認識の正確度が高くないという技術的問題を克服し、本発明に係る技術案は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができ、且つ、本発明の実施例の技術案は、実現しやすく、普及しやすく、適用範囲がより広い。
【実施例2】
【0029】
図4は、本発明の実施例に係る顔認識モデルのトレーニング方法のフローチャートである。本実施例は、上記実施例の基に提出された好ましい形態である。
図4に示すように、顔認識モデルのトレーニング方法は、以下のステップを含んでもよい。
【0030】
S401において、トレーニング待ち顔認識モデルが収束条件を満たさない場合、トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、顔画像を現在のブロックに入力し、顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む。
【0031】
S402において、現在のブロックから出力された画像特徴をアテンションモジュールのうちの空間アテンションモジュールに入力し、空間アテンションモジュールから出力された空間マスクを取得する。
【0032】
本発明の具体的な実施例において、電子機器は、現在のブロックから出力された画像特徴をアテンションモジュールのうちの空間アテンションモジュールに入力し、空間アテンションモジュールから出力された空間マスクを取得してもよい。具体的には、電子機器は、まず、現在のブロックから出力された顔特徴を、空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、チャネル最大グローバルプールから出力された画像特徴およびチャネル平均グローバルプールから出力された画像特徴を取得し、その後、チャネル最大グローバルプールから出力された画像特徴とチャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得し、更に、コンボリューション計算後の画像特徴に基づき、空間アテンションモジュールから出力された空間マスクを計算してもよい。具体的には、空間アテンションモジュールから出力された空間マスクは、画像特徴のうちのそれぞれに対応する空間重み値からなる行列であってもよい。具体的には、現在のブロックから出力された画像特徴は特徴1~特徴Mを含んでもよく、ただし、Mは1以上の自然数である。従って、空間アテンションモジュールから出力された空間マスクは、空間重み値1~空間重み値Mを含んでもよい。
【0033】
好ましくは、本発明の具体的な実施例において、コンボリューション計算後の画像特徴の次元は(1,1,H,W)であり、ただし、Hは顔画像の高さを表し、Wは顔画像の幅を表す。上記次元設定は、顔認識モデルのマスクを着用している顔に対する認識の正確度をより効果的に向上させることができる。
【0034】
図5は、本発明の実施例に係る空間アテンションモジュールの構造模式図である。
図5に示すように、空間アテンションモジュールは、空間入力モジュール、チャネル最大グローバルプール(Channel Max Global Pool)、チャネル平均グローバルプール(Channel Avg Global Pool)、コンボリューション計算モジュール(Conv)および空間マスク計算モジュール(Spacial Mask)を含んでもよい。電子機器は、まず、空間入力モジュールにより現在のブロックから出力された顔特徴をチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、チャネル最大グローバルプールから出力された画像特徴およびチャネル平均グローバルプールから出力された画像特徴を取得し、その後、チャネル最大グローバルプールおよびチャネル平均グローバルプールは、出力した画像特徴をそれぞれコンボリューション計算モジュールに入力し、コンボリューション計算モジュールから出力された画像特徴を取得し、更に、コンボリューション計算モジュールから出力された画像特徴を空間マスク計算モジュールに入力し、空間マスク計算モジュールから出力された空間マスクを取得し、空間マスク計算モジュールから出力された空間マスクを空間アテンションモジュールから出力された空間マスクとしてもよい。
【0035】
S403において、現在のブロックから出力された画像特徴と空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得する。
【0036】
本発明の具体的な実施例において、電子機器は、現在のブロックから出力された画像特徴と空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得してもよい。具体的には、現在のブロックから出力された画像特徴は特徴1~特徴Mを含んでもよく、ただし、Mは1以上の自然数である。従って、空間アテンションモジュールから出力された空間マスクは、空間重み値1~空間重み値Mを含んでもよい。本ステップにおいて、特徴1に空間重み値1を乗算して特徴1の修正された画像特徴を取得し、特徴2に空間重み値2を乗算して特徴2の修正された画像特徴を取得し、以降は、特徴Mに空間重み値Mを乗算して特徴Mの修正された画像特徴を取得するまで同様にする。例えば、現在のブロックから出力された画像特徴が特徴1~特徴9を含んでもよいと仮定し、従って、空間アテンションモジュールから出力された空間マスクは、空間重み値1~空間重み値9を含んでもよい。本ステップにおいて、特徴1に空間重み値1を乗算して特徴1の修正された画像特徴を取得し、特徴2に空間重み値2を乗算して特徴2の修正された画像特徴を取得し、以降は、特徴9に空間重み値9を乗算して特徴9の修正された画像特徴を取得するまで同様にする。
【0037】
S404において、1回目の要素別乗算後の画像特徴をアテンションモジュールのうちのチャネルアテンションモジュールに入力し、チャネルアテンションモジュールから出力されたチャネルマスクを取得する。
【0038】
本発明の具体的な実施例において、電子機器は、1回目の要素別乗算後の画像特徴をアテンションモジュールのうちのチャネルアテンションモジュールに入力し、チャネルアテンションモジュールから出力されたチャネルマスクを取得してもよい。具体的には、電子機器は、まず、1回目の要素別乗算後得到の画像特徴をチャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、最大グローバルプールから出力された画像特徴および平均グローバルプールから出力された画像特徴を取得し、その後、最大グローバルプールから出力された画像特徴および平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、多層パーセプトロンから出力された画像特徴を取得し、更に、多層パーセプトロンから出力された画像特徴に基づき、チャネルアテンションモジュールから出力されたチャネルマスクを計算してもよい。具体的には、チャネルアテンションモジュールから出力されたチャネルマスクは、画像特徴が位置する各チャネルに対応する重み値からなる行列であってもよい。具体的には、現在のブロックから出力された画像特徴が位置するチャネルは、チャネル1~チャネルPを含んでもよく、ただし、Pは1以上の自然数である。従って、チャネルアテンションモジュールから出力されたチャネルマスクは、チャネル重み値1~チャネル重み値Pを含んでもよい。
【0039】
図6は、本発明の実施例に係るチャネルアテンションモジュールの構造模式図である。
図6に示すように、チャネルアテンションモジュールは、チャネル入力モジュール、最大グローバルプール(Max Global Pool)、平均グローバルプール(Avg Global Pool)、多層パーセプトロン(MLP)およびチャネルマスク計算モジュール(Channel Mask)を含んでもよい。具体的には、電子機器は、まず、チャネル入力モジュールにより1回目の要素別乗算後の画像特徴を最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、最大グローバルプールから出力された画像特徴および平均グローバルプールから出力された画像特徴を取得し、その後、最大グローバルプールから出力された画像特徴および平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、多層パーセプトロンから出力された画像特徴を取得し、更に、多層パーセプトロンから出力された画像特徴をチャネルマスク計算モジュールに入力し、チャネルマスク計算モジュールから出力されたチャネルマスクを取得し、チャネルマスク計算モジュールから出力されたチャネルマスクをチャネルアテンションモジュールから出力されたチャネルマスクとしてもよい。
【0040】
好ましくは、本発明の具体的な実施例において、多層パーセプトロンは、第1層の完全接続ネットワークおよび第2層の完全接続ネットワークを含む2層の完全接続ネットワークであり、ここで、第1層の完全接続ネットワークから出力された画像特徴の次元は(1,C/4,1,1)であり、第2層の完全接続ネットワークから出力された画像特徴の次元は(1,C,1,1)であり、ただし、Cは顔画像のチャネル数を表す。
【0041】
S405において、1回目の要素別乗算後の画像特徴とチャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、2回目の要素別乗算後の画像特徴を自己加重処理後の画像特徴とする。上記次元設定は、顔認識モデルのマスクを着用している顔に対する認識の正確度をより効果的に向上させることができる。
【0042】
本発明の具体的な実施例において、電子機器は、1回目の要素別乗算後の画像特徴とチャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、2回目の要素別乗算後の画像特徴を自己加重処理後の画像特徴としてもよい。具体的には、1回目の要素別乗算後の画像特徴が位置するチャネルはチャネル1~チャネルPを含んでもよく、ただし、Pは1以上の自然数である。従って、チャネルアテンションモジュールから出力されたチャネルマスクは、チャネル重み値1~チャネル重み値Mを含んでもよい。本ステップにおいて、チャネル1における特徴にチャネル重み値1を乗算してチャネル1における特徴が修正された画像特徴を取得し、チャネル2における特徴にチャネル重み値2を乗算してチャネル2における特徴が修正された画像特徴を取得し、以降は、チャネルPにおける特徴にチャネル重み値Mを乗算してチャネルPにおける特徴が修正された画像特徴を取得するまで同様にする。例えば、現在のブロックから出力された画像特徴が位置するチャネルがチャネル1~チャネル3を含んでもよいと仮定し、従って、チャネルアテンションモジュールから出力された空間マスクは、チャネル重み値1~チャネル重み値3を含んでもよい。本ステップにおいて、チャネル1における特徴にチャネル重み値1を乗算してチャネル1における修正された画像特徴を取得し、チャネル2における特徴にチャネル重み値2を乗算してチャネル2における特徴が修正された画像特徴を取得し、チャネル3における特徴にチャネル重み値3を乗算してチャネル3における特徴が修正された画像特徴を取得する。
【0043】
S406において、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行する。
【0044】
S407において、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。
【0045】
本発明の実施例に係る顔認識モデルのトレーニング方法は、トレーニング待ち顔認識モデルが収束条件を満たさない場合、まず、トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、その後、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得し、続いて、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行し、更に、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。つまり、本発明は、現在のブロックと現在のブロックの次のブロックとの間に1つの現在のアテンションモジュールを設け、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を偏重して抑制することができ、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。一方、従来の顔認識モデルのトレーニング方法において、顔にマスクが着用されている場合、顔認識モデルが特に処理されないため、顔認識モデルのマスクを着用している顔に対する認識の正確度は高くない。本発明は、隣接する2つのブロックの間に1つのアテンションモジュールを設けるという技術手段を採用するため、従来技術における顔認識モデルのマスクを着用している顔に対する認識の正確度が高くないという技術的問題を克服し、本発明に係る技術案は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができ、且つ、本発明の実施例の技術案は、実現しやすく、普及しやすく、適用範囲がより広い。
【実施例3】
【0046】
図7は、本発明の実施例に係る顔認識モデルのトレーニング装置の構造模式図である。
図7に示すように、前記装置700は、入力モジュール701と、自己加重処理モジュール702と、トレーニングモジュール703とを備える。
【0047】
前記入力モジュール701は、トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することに用いられ、顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む。
【0048】
前記自己加重処理モジュール702は、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することに用いられる。
【0049】
前記入力モジュール701は、更に、前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し、前記次のブロックを前記現在のブロックとし、前記現在のブロックから出力された画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行することに用いられる。
【0050】
前記トレーニングモジュール703は、前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することに用いられる。
【0051】
図8は、本発明の実施例に係る自己加重処理モジュールの構造模式図である。
図8に示すように、前記自己加重処理モジュール702は、空間マスク計算サブモジュール7021と、第1加重処理サブモジュール7022と、チャネルマスク計算サブモジュール7023と、第2加重処理サブモジュール7024とを備える。
【0052】
前記空間マスク計算サブモジュール7021は、前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することに用いられる。
【0053】
前記第1加重処理サブモジュール7022は、前記現在のブロックから出力された画像特徴と前記空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得することに用いられる。
【0054】
前記チャネルマスク計算サブモジュール7023は、前記1回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することに用いられる。
【0055】
前記第2加重処理サブモジュール7024は、前記1回目の要素別乗算後の画像特徴と前記チャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、前記2回目の要素別乗算後の画像特徴を前記自己加重処理後の画像特徴とすることに用いられる。
【0056】
更に、前記空間マスク計算サブモジュール7021は、具体的に、前記現在のブロックから出力された顔特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとに用いられる。
【0057】
更に、前記チャネルマスク計算サブモジュール7022は、具体的に、前記1回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとに用いられる。
【0058】
更に、前記コンボリューション計算後の画像特徴の次元は(1,1,H,W)であり、ただし、Hは前記顔画像の高さを表し、Wは前記顔画像の幅を表す。
【0059】
更に、前記多層パーセプトロンは、第1層の完全接続ネットワークおよび第2層の完全接続ネットワークを含む2層の完全接続ネットワークであり、ここで、前記第1層の完全接続ネットワークから出力された画像特徴の次元は(1,C/4,1,1)であり、前記第2層の完全接続ネットワークから出力された画像特徴の次元は(1,C,1,1)であり、ただし、Cは前記顔画像のチャネル数を表す。
【0060】
上記顔認識モデルのトレーニング装置は、本発明のいずれかの実施例に係る方法を実行でき、方法の実行に対応する機能モジュールおよび有益な効果を備える。本実施例で詳しく説明されていない技術詳細は、本発明のいずれかの実施例に係る顔認識モデルのトレーニング方法を参照することができる。
【実施例4】
【0061】
本発明の実施例によれば、本発明は、電子機器および可読記憶媒体を更に提供する。
【0062】
図9に示すように、本発明の実施例による顔認識モデルのトレーニング方法の電子機器のブロック図である。電子機器は、ラップトップ型コンピュータ、デスクトップ型コンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータのような各形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯端末、携帯電話、スマートフォン、ウェララブル機器および他の類似する計算装置のような各形式の移動装置を表すこともできる。本発明に示されたコンポーネント、それらの接続、関係、およびそれらの機能は例示的なものに過ぎず、本発明に記載および/または要求される本発明の実現を限定するものではない。
【0063】
図9に示すように、該電子機器は、1つのまたは複数のプロセッサ901と、メモリ902と、各コンポーネントを接続するように構成される高速インタフェースおよび低速インタフェースを含むインタフェースとを備える。各コンポーネントは、異なるバスで互に接続され、共通のマザーボードに取り付けられるかまたは必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内で実行される命令を処理することができ、メモリ内またはメモリ上に記憶されて外部の入力/出力装置(例えば、インタフェースにカップリングされた表示デバイス)にGUIのグラフィクス情報を表示するための命令を含む。他の実施形態において、必要があれば、複数のプロセッサおよび/または複数本のバスと、複数のメモリとを共に使用することができる。それと同様に、複数の電子機器に接続することができ、各機器は、一部の必要な動作(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとする)を提供する。
図9において、1つのプロセッサ901を例とする。
【0064】
メモリ902は、本発明に係る非一時的なコンピュータ可読記憶媒体である。ここで、本発明に係る顔認識モデルのトレーニング方法を前記少なくとも1つのプロセッサに実行させるために、前記メモリには少なくとも1つのプロセッサにより実行可能な命令が記憶されている。本発明の非一時的なコンピュータ可読記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令は、本発明に係る顔認識モデルのトレーニング方法をコンピュータに実行させることに用いられる。
【0065】
メモリ902は、非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラムおよびモジュール、例えば、本発明の実施例における顔認識モデルのトレーニング方法に対応するプログラム命令/モジュール(例えば、
図7に示す入力モジュール701、自己加重処理モジュール702およびトレーニングモジュール703)を記憶するために使用できる。プロセッサ901は、メモリ902に記憶された非一時的なソフトウェアプログラム、命令およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行し、即ち、上記方法の実施例における顔認識モデルのトレーニング方法を実現する。
【0066】
メモリ902は、プログラム記憶エリアおよびデータ記憶エリアを備えてもよく、ここで、プログラム記憶エリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶エリアは、顔認識モデルのトレーニング方法の電子機器の使用に基づいて作成されたデータ等を記憶することができる。また、メモリ902は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリ、または他の非一時的な固体記憶デバイスのような非一時的なメモリを更に含んでもよい。いくつかの実施例において、メモリ902は、プロセッサ901に対してリモートに設けられたメモリを含むことが好ましく、これらのリモートメモリは、ネットワークを介して顔認識モデルのトレーニング方法の電子機器に接続することができる。上記ネットワークの実例は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワークおよびその組み合わせを含んでもよいが、それらに限定されない。
【0067】
顔認識モデルのトレーニング方法の電子機器は、入力装置903と、出力装置904とを備えてもよい。プロセッサ901、メモリ902、入力装置903および出力装置904は、バスまたは他の方式で接続することができ、
図9において、バスを介して接続することを例とする。
【0068】
入力装置903は、入力された数字または文字情報を受信し、顔認識モデルのトレーニング方法の電子機器のユーザ設定および機能制御に関連するキー信号入力を生成することができ、例えば、タッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、インジケータ、1つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置904は、表示デバイス、補助照明装置(例えば、LED)、および触覚フィードバック装置(例えば、振動モータ)等を含んでもよい。該表示デバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態において、表示デバイスはタッチパネルであってもよい。
【0069】
ここで説明するシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実現できる。これらの様々な実施形態は以下を含んでもよい。1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈することができ、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信し、且つデータおよび命令を、該ストレージシステム、該少なくとも1つの入力装置、および該少なくとも1つの出力装置に伝送することができる専用または汎用のプログラマブルプロセッサであってもよい。
【0070】
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、且つ、高度なプロセスおよび/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語を用いてこれらの計算プログラムを実施することができる。本発明に使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を意味し、機械可読信号としての機械命令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を意味する。
【0071】
ユーザとのインタラクションを提供するために、ここで説明するシステムおよび技術をコンピュータで実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザがそれにより入力をコンピュータに提供することができるキーボードおよび指向装置(例えば、マウスまたはトラックボール)とを有する。他の種類の装置は、更にユーザとのインタラクションを提供するために使用できる。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、且つ、任意の形式(音入力、音声入力または、触覚入力を含む)でユーザからの入力を受信することができる。
【0072】
ここで説明するシステムおよび技術を、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、または中間コンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザがそれによりここで説明するシステムおよび技術の実施形態とインタラクションできるグラフィカルユーザインタフェースまたはネットワークブラウザを有するユーザコンピュータ)、またはこのようなバックグラウンドコンポーネント、中間コンポーネント、またはフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)により、システムのコンポーネントを互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットを含む。
【0073】
コンピュータシステムはクライアントおよびサーバを含んでもよい。クライアントとサーバとは、一般的に互いに離れ、且つ、通常、通信ネットワークを介してインタラクションを行う。対応するコンピュータで実行されて互いにクライアント-サーバ関係を持つコンピュータプログラムにより、クライアントとサーバとの関係を生成する。
【0074】
本発明の実施例による技術案は、トレーニング待ち顔認識モデルが収束条件を満たさない場合、まず、トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を現在のブロックに入力し、その後、現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得し、続いて、自己加重処理後の画像特徴を現在のブロックの次のブロックに入力し、次のブロックを現在のブロックとし、現在のブロックから出力された画像特徴をトレーニング待ち顔認識モデルの最後のブロックに入力するまで、上記動作を繰り返し実行し、更に、最後のブロックから出力された画像特徴を用いてトレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を現在のユーザの顔画像とし、トレーニング待ち顔認識モデルが収束条件を満たすまで、上記動作を繰り返し実行する。つまり、本発明は、現在のブロックと現在のブロックの次のブロックとの間に1つの現在のアテンションモジュールを設け、現在のアテンションモジュールにより現在のブロックから出力された画像特徴を偏重して抑制することができ、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができる。一方、従来の顔認識モデルのトレーニング方法において、顔にマスクが着用されている場合、顔認識モデルが特に処理されないため、顔認識モデルのマスクを着用している顔に対する認識の正確度は高くない。本発明は、隣接する2つのブロックの間に1つのアテンションモジュールを設けるという技術手段を採用するため、従来技術における顔認識モデルのマスクを着用している顔に対する認識の正確度が高くないという技術的問題を克服し、本発明に係る技術案は、顔認識モデルのマスクを着用している顔に対する認識の正確度を効果的に向上させることができ、且つ、本発明の実施例の技術案は、実現しやすく、普及しやすく、適用範囲がより広い。
【0075】
上記に示す様々な形式のフローを用い、ステップを並べ替え、追加または削除することができることを理解すべきである。例えば、本発明に記載された各ステップは、並列に実行されてもよいし、順に実行されてもよいし、異なる順序で実行されてもよく、本発明に開示された技術案の所望する結果を達成できる限り、本発明はここで限定しない。
【0076】
上記具体的な実施形態は、本発明の保護範囲を限定するものではない。当業者は、設計要求および他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせおよび代替が可能であることを理解すべできる。
【手続補正書】
【提出日】2021-10-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することと、
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することと、
前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し
て、前記次のブロックを前記現在のブロックとし、
かつ、次のアテンションモジュールを現在のアテンションモジュールとして、前記
自己加重処理後の画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得する動作を繰り返し実行することと、
前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することとを含み、
前記顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング方法。
【請求項2】
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することは、
前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することと、
前記現在のブロックから出力された画像特徴と前記空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得することと、
前記1回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することと、
前記1回目の要素別乗算後の画像特徴と前記チャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、前記2回目の要素別乗算後の画像特徴を前記自己加重処理後の画像特徴とすることとを含む、
請求項1に記載の方法。
【請求項3】
前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することは、
前記現在のブロックから出力された
画像特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、
前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、
前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとを含む、
請求項2に記載の方法。
【請求項4】
前記1回目の要素別乗算後の画像特徴を前記
現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することは、
前記1回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、
前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、
前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとを含む、
請求項2に記載の方法。
【請求項5】
前記コンボリューション計算後の画像特徴の次元は(1,1,H,W)であり、
Hは前記顔画像の高さを表し、
Wは前記顔画像の幅を表す、
請求項3に記載の方法。
【請求項6】
前記多層パーセプトロンは、第1層の完全接続ネットワークおよび第2層の完全接続ネットワークを含む2層の完全接続ネットワークであり、
前記第1層の完全接続ネットワークから出力された画像特徴の次元は(1,C/4,1,1)であり、
前記第2層の完全接続ネットワークから出力された画像特徴の次元は(1,C,1,1)であり、
Cは前記顔画像のチャネル数を表す、
請求項4に記載の方法。
【請求項7】
入力モジュールと、自己加重処理モジュールと、トレーニングモジュールとを備える顔認識モデルのトレーニング装置であって、
前記入力モジュールは、トレーニング待ち顔認識モデルが収束条件を満たしていない場合、前記トレーニング待ち顔認識モデルの1つ目のブロックを現在のブロックとし、現在のユーザの顔画像を前記現在のブロックに入力することに用いられ、
前記自己加重処理モジュールは、前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得することに用いられ、
前記入力モジュールは、更に、前記自己加重処理後の画像特徴を前記現在のブロックの次のブロックに入力し
て、前記次のブロックを前記現在のブロックとし、
かつ、次のアテンションモジュールを現在のアテンションモジュールとして、前記
自己加重処理後の画像特徴を前記トレーニング待ち顔認識モデルの最後のブロックに入力するまで、
前記現在のブロックから出力された画像特徴を現在のアテンションモジュールに入力し、前記現在のアテンションモジュールにより、前記現在のブロックから出力された画像特徴を自己加重処理し、自己加重処理後の画像特徴を取得する動作を繰り返し実行することに用いられ、
前記トレーニングモジュールは、前記最後のブロックから出力された画像特徴を用いて前記トレーニング待ち顔認識モデルをトレーニングし、次のユーザの顔画像を前記現在のユーザの顔画像とし、前記トレーニング待ち顔認識モデルが前記収束条件を満たすまで、上記動作を繰り返し実行することに用いられ、
顔画像は、マスクを着用している顔画像とマスクを着用していない顔画像を含む、
顔認識モデルのトレーニング装置。
【請求項8】
前記自己加重処理モジュールは、空間マスク計算サブモジュールと、第1加重処理サブモジュールと、チャネルマスク計算サブモジュールと、第2加重処理サブモジュールとを備え、
前記空間マスク計算サブモジュールは、前記現在のブロックから出力された画像特徴を前記現在のアテンションモジュールのうちの空間アテンションモジュールに入力し、前記空間アテンションモジュールから出力された空間マスクを取得することに用いられ、
前記第1加重処理サブモジュールは、前記現在のブロックから出力された画像特徴と前記空間アテンションモジュールから出力された空間マスクとの1回目の要素別乗算を行い、1回目の要素別乗算後の画像特徴を取得することに用いられ、
前記チャネルマスク計算サブモジュールは、前記1回目の要素別乗算後の画像特徴を前記現在のアテンションモジュールのうちのチャネルアテンションモジュールに入力し、前記チャネルアテンションモジュールから出力されたチャネルマスクを取得することに用いられ、
前記第2加重処理サブモジュールは、前記1回目の要素別乗算後の画像特徴と前記チャネルアテンションモジュールから出力されたチャネルマスクとの2回目の要素別乗算を行い、2回目の要素別乗算後の画像特徴を取得し、前記2回目の要素別乗算後の画像特徴を前記自己加重処理後の画像特徴とすることに用いられる、
請求項7に記載の装置。
【請求項9】
前記空間マスク計算サブモジュールは、具体的に、
前記現在のブロックから出力された
画像特徴を、前記空間アテンションモジュールにおけるチャネル最大グローバルプールおよびチャネル平均グローバルプールにそれぞれ入力し、前記チャネル最大グローバルプールから出力された画像特徴および前記チャネル平均グローバルプールから出力された画像特徴を取得することと、
前記チャネル最大グローバルプールから出力された画像特徴と前記チャネル平均グローバルプールから出力された画像特徴とをコンボリューション計算し、コンボリューション計算後の画像特徴を取得することと、
前記コンボリューション計算後の画像特徴に基づき、前記空間アテンションモジュールから出力された空間マスクを計算することとに用いられる、
請求項8に記載の装置。
【請求項10】
前記チャネルマスク計算サブモジュールは、具体的に、
前記1回目の要素別乗算後の画像特徴を、前記チャネルアテンションモジュールの最大グローバルプールおよび平均グローバルプールにそれぞれ入力し、前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴を取得することと、
前記最大グローバルプールから出力された画像特徴および前記平均グローバルプールから出力された画像特徴をそれぞれ多層パーセプトロンに入力し、前記多層パーセプトロンから出力された画像特徴を取得することと、
前記多層パーセプトロンから出力された画像特徴に基づき、前記チャネルアテンションモジュールから出力されたチャネルマスクを計算することとに用いられる、
請求項8に記載の装置。
【請求項11】
前記コンボリューション計算後の画像特徴の次元は(1,1,H,W)であり、
Hは前記顔画像の高さを表し、
Wは前記顔画像の幅を表す、
請求項9に記載の装置。
【請求項12】
前記多層パーセプトロンは、第1層の完全接続ネットワークおよび第2層の完全接続ネットワークを含む2層の完全接続ネットワークであり、
前記第1層の完全接続ネットワークから出力された画像特徴の次元は(1,C/4,1,1)であり、
前記第2層の完全接続ネットワークから出力された画像特徴の次元は(1,C,1,1)であり、
Cは前記顔画像のチャネル数を表す、
請求項10に記載の装置。
【請求項13】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されたメモリとを備える電子機器であって、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項1~6のいずれか1項に記載の方法を実行可能であるように、前記少なくとも1つのプロセッサにより実行される、
電子機器。
【請求項14】
請求項1~6のいずれか1項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている、
非一時的なコンピュータ可読記憶媒体。
【請求項15】
コンピュータプログラムが含まれ、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1~6のいずれか1項に記載の方法を実現する、
コンピュータプログラム製品。
【国際調査報告】