IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ シェンチェン センスタイム テクノロジー カンパニー リミテッドの特許一覧

特表2022-547595顔属性認識方法、装置、電子機器及び記憶媒体
<>
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図1
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図2
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図3
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図4
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図5
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図6
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図7
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図8
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図9
  • 特表-顔属性認識方法、装置、電子機器及び記憶媒体 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-11-14
(54)【発明の名称】顔属性認識方法、装置、電子機器及び記憶媒体
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221107BHJP
   G06V 10/82 20220101ALI20221107BHJP
【FI】
G06T7/00 660A
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022516157
(86)(22)【出願日】2020-07-01
(85)【翻訳文提出日】2022-03-11
(86)【国際出願番号】 CN2020099788
(87)【国際公開番号】W WO2021063056
(87)【国際公開日】2021-04-08
(31)【優先権主張番号】201910961060.2
(32)【優先日】2019-09-30
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】518209698
【氏名又は名称】シェンチェン センスタイム テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】SHENZHEN SENSETIME TECHNOLOGY CO.,LTD
(74)【代理人】
【識別番号】110001427
【氏名又は名称】弁理士法人前田特許事務所
(72)【発明者】
【氏名】チェン ジョンハオ
(72)【発明者】
【氏名】シュー ジン
(72)【発明者】
【氏名】ジュー フォン
(72)【発明者】
【氏名】ジャオ ルイ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096DA02
5L096HA09
5L096HA11
5L096JA11
5L096KA04
5L096KA15
5L096MA07
(57)【要約】
本願は、顔属性認識方法、装置、電子機器及び記憶媒体を提供し、前記方法は、n個の特徴画像を取得することであって、n(nは正の整数である)個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである、ことと、n個の特徴画像の各特徴画像に対応する属性特徴を取得することであって、属性特徴は、特徴画像内の目標顔属性を表すために使用される特徴である、ことと、属性特徴に従って、顔画像内の目標顔属性の属性認識結果を決定することと、を含む。
【選択図】図3
【特許請求の範囲】
【請求項1】
顔属性認識方法であって、
n(nは正の整数である)個の特徴画像を取得することであって、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものであることと、
前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することであって、前記属性特徴は、前記特徴画像内の目標顔属性を表すために使用される特徴であることと、
前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定することと、含む、前記顔属性認識方法。
【請求項2】
前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することは、
前記n個の特徴画像の各特徴画像を、対応するアテンションモデルに入力して、前記各特徴画像に対応するアテンション行列を取得することと、
前記アテンション行列に従って、前記n個の特徴画像の各特徴画像に対応する属性特徴を抽出することと、を含む、
請求項1に記載の顔属性認識方法。
【請求項3】
前記アテンション行列に従って、前記n個の特徴画像の各特徴画像に対応する属性特徴を抽出することは、
前記n個の特徴画像の各特徴画像に、対応するアテンション行列を乗算して、前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することを含む、
請求項2に記載の顔属性認識方法。
【請求項4】
前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定することは、
前記属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得することと、
前記認識結果に対して加重平均計算を行い、前記顔画像内の目標顔属性の属性認識結果を決定することと、を含む、
請求項1ないし3のいずれか一項に記載の顔属性認識方法。
【請求項5】
前記属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得することは、
前記属性特徴のそれぞれに対して属性予測処理を実行することにより、前記属性特徴に対応する前記認識結果を予測して取得することを含む、
請求項4に記載の顔属性認識方法。
【請求項6】
前記属性予測処理は、グローバル平均プーリング処理を含む、
請求項5に記載の顔属性認識方法。
【請求項7】
前記n個の特徴画像を取得する前に、前記顔属性認識方法は、
前記顔画像を取得することと、
特徴画像抽出モデルを介して前記顔画像の特徴抽出を実行して、前記n個の特徴画像を取得することと、を更に含む、
請求項1ないし6のいずれか一項に記載の顔属性認識方法。
【請求項8】
前記特徴画像抽出モデルは、顔画像サンプル及び特徴画像サンプルのトレーニングにより得られたものであり、前記顔属性認識方法は、
前記特徴画像サンプル及び対応するアテンション行列サンプルを使用して、ニューラルネットワークをトレーニングすることにより、前記アテンションモデルを取得することを更に含む、
請求項7に記載の顔属性認識方法。
【請求項9】
前記n個の特徴画像は更に、前記顔画像を含む、
請求項1ないし8のいずれか一項に記載の顔属性認識方法。
【請求項10】
顔属性認識装置であって、
n(nは正の整数である)個の特徴画像を取得するように構成される特徴画像抽出ユニットであって、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである、特徴画像抽出ユニットと、
前記n個の特徴画像の各特徴画像に対応する属性特徴を取得するように構成される属性特徴抽出ユニットであって、前記属性特徴は、前記特徴画像内の目標顔属性を表すために使用される特徴である、属性特徴抽出ユニットと、
前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定するように構成される顔属性認識ユニットと、を備える、前記顔属性認識装置。
【請求項11】
前記属性特徴抽出ユニットは更に、
前記n個の特徴画像の各特徴画像を、対応するアテンションモデルに入力して、前記各特徴画像に対応するアテンション行列を取得し、
前記アテンション行列に従って、前記n個の特徴画像の各特徴画像に対応する属性特徴を抽出するように構成される、
請求項10に記載の顔属性認識装置。
【請求項12】
前記属性特徴抽出ユニットは更に、
前記n個の特徴画像の各特徴画像に、対応するアテンション行列を乗算して、前記n個の特徴画像の各特徴画像に対応する属性特徴を取得するように構成される、
請求項11に記載の顔属性認識装置。
【請求項13】
前記顔属性認識ユニットは更に、
前記属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得し、
前記認識結果に対して加重平均計算を行い、前記顔画像内の目標顔属性の属性認識結果を決定するように構成される、
請求項10ないし12のいずれか一項に記載の顔属性認識装置。
【請求項14】
前記顔属性認識ユニットは更に、
前記属性特徴のそれぞれに対して属性予測処理を実行することにより、前記属性特徴に対応する前記認識結果を予測して取得するように構成される、
請求項13に記載の顔属性認識装置。
【請求項15】
前記属性予測処理は、グローバル平均プーリング処理を含む、
請求項14に記載の顔属性認識装置。
【請求項16】
前記n個の特徴画像を取得する前に、前記顔属性認識装置は更に、
前記顔画像を取得し、
特徴画像抽出モデルを介して前記顔画像の特徴抽出を実行して、前記n個の特徴画像を取得するように構成される、
請求項10ないし15のいずれか一項に記載の顔属性認識装置。
【請求項17】
前記顔属性認識装置は更に、
前記特徴画像抽出モデルをトレーニングするように構成される特徴画像抽出モデルトレーニングユニットであって、前記特徴画像抽出モデルは、顔画像サンプル及び特徴画像サンプルのトレーニングにより得られたものである、特徴画像抽出モデルトレーニングユニットと、
前記特徴画像サンプル及び対応するアテンション行列サンプルを使用して、ニューラルネットワークをトレーニングすることにより、前記アテンションモデルを取得するように構成されるアテンションモデルトレーニングユニットと、を備える、
請求項16に記載の顔属性認識装置。
【請求項18】
前記n個の特徴画像は更に、前記顔画像を含む、
請求項10ないし17のいずれか一項に記載の顔属性認識装置。
【請求項19】
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがハードウェアによって実行されるときに、請求項1ないし9のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
【請求項20】
コンピュータプログラム製品であって、
前記コンピュータプログラム製品がコンピュータによって読み取られて実行されるときに、請求項1ないし9のいずれか一項に記載の方法を実現する、前記コンピュータプログラム製品。
【請求項21】
電子機器であって、
プロセッサ及びメモリを備え、前記プロセッサは、前記メモリ内のコードを実行して、請求項1ないし9のいずれか一項に記載の方法を実現する、前記電子機器。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2019年09月30日に中国特許局に提出された、出願番号が201910961060.2である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照によって本願に組み込まれる。
【0002】
本願は、コンピュータビジョンの分野に関し、特に、顔属性認識方法、装置、電子機器及び記憶媒体に関する。
【背景技術】
【0003】
近年、突発事件の予防、管理、取り扱いが困難になっており、空港、税関、国境警備などの重要な検問所や街路、ショッピングモールなどの公共場所に監視カメラが設置されている。カメラによって収集された顔画像の属性を分析する顔認識技術により、セキュリティスタッフが緊急事態に対処するのを効果的に支援することができ、例えば、顔の表情属性を認識することで、人が攻撃傾向があるかどうかを判断したり、取集した目標対象の顔画像を顔画像ライブラリと比較・分析することで、目標対象のID情報を取得したりすることができる。これにより、セキュリティスタッフがこれらの分析結果によりセキュリティの展開と制御及び危機管理を適時に実施するのが便利になる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願実施例は、顔画像の各属性を効率的且つ正確に認識することができる、顔属性認識方法、装置、電子機器及び記憶媒体を提供する。
【課題を解決するための手段】
【0005】
本願実施例は、顔属性認識方法を提供し、前記顔属性認識方法は、
n(nは正の整数である)個の特徴画像を取得することであって、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものであることと、
前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することであって、前記属性特徴は、前記特徴画像内の目標顔属性を表すために使用される特徴であることと、
前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定することと、含む。
【0006】
上記の顔属性認識方法によれば、特徴画像及び特徴画像に対応する属性特徴を取得することにより、顔画像内の目標顔属性の属性認識結果を決定する。異なる特徴画像から取得された属性特徴は、顔属性をさまざまな程度で反映することができるため、異なる特徴画像に対応する属性特徴を使用して顔属性を予測することにより、顔属性認識の精度と効率を向上させることができる。
【0007】
本願のいくつかの実施例において、前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することは、前記n個の特徴画像の各特徴画像を、対応するアテンションモデルに入力して、前記各特徴画像に対応するアテンション行列を取得することと、前記アテンション行列に従って、前記n個の特徴画像の各特徴画像に対応する属性特徴を抽出することと、を含む。
【0008】
上記の方法では、特徴画像を複数のアテンションモデルに入力することにより、当該特徴画像に対応する複数のアテンション行列を取得することができ、ここで、1つのアテンション行列は、当該特徴画像の1つの顔属性特徴を抽出するために使用されることができ、1つの顔属性特徴は、1つの顔属性を表すことができる。したがって、アテンションモデル及び取得したアテンション行列により、単一の顔属性の認識効果を向上させることができ、それにより、顔画像内のすべての顔属性の認識精度を向上させることができる。
【0009】
本願のいくつかの実施例において、前記アテンション行列に従って、前記n個の特徴画像の各特徴画像に対応する属性特徴を抽出することは、前記n個の特徴画像の各特徴画像に、対応するアテンション行列を乗算して、前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することを含む。
【0010】
上記の方法では、アテンションメカニズムを用いて、特徴画像に、対応するアテンション行列を乗算して、特徴画像に対応する属性特徴を取得することができ、これらの属性特徴により、画像全体から関心領域に認識領域を特定できるため、当該属性認識結果に影響を与えるノイズなどの他の要因を除外し、属性認識の精度と効率を向上させることができる。
【0011】
本願のいくつかの実施例において、前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定することは、前記属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得することと、前記認識結果に対して加重平均計算を行い、前記顔画像内の目標顔属性の属性認識結果を決定することと、を含む。
【0012】
上記の方法では、同一の属性に対する認識は、異なる特徴画像に対応する当該属性の属性特徴に対して加重平均計算を行うことであるため、属性認識結果の精度が向上する。
【0013】
本願のいくつかの実施例において、前記属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得することは、前記属性特徴のそれぞれに対して属性予測処理を実行することにより、前記属性特徴に対応する前記認識結果を予測して取得することを含む。
【0014】
上記の方法では、各属性特徴に対して属性の予測処理を実行することにより、各属性特徴に対応する属性の認識結果を取得することができ、さらに、これらの結果に従って、同一の属性に対する異なる属性特徴の認識結果の影響要素を取得することができる。つまり、顔画像において、属性認識のために深い層の属性特徴を必要とする属性と、浅い層の特徴で認識できる属性をさらに判断することができる。
【0015】
本願のいくつかの実施例において、前記プリセットされた属性予測処理は、グローバル平均プーリング処理を含む。
【0016】
上記の方法では、抽出された顔属性特徴のそれぞれに対してグローバル平均プーリングを実行することにより、対応する認識結果を直接に取得することができるため、認識プロセスにおける過剰適合現象を改善すると同時に、認識効率を改善し、モデルの演算時間と予算を節約することができる。
【0017】
本願のいくつかの実施例において、前記n個の特徴画像を取得する前に、前記方法は、前記顔画像を取得することと、特徴画像抽出モデルを介して前記顔画像の特徴抽出を実行して、前記n個の特徴画像を取得することと、を含む。
【0018】
上記の方法では、取得された顔画像に対して特徴画像の抽出を実行することにより、顔画像のノイズを事前にフィルタリングすることができるため、後続の属性特徴の取得が容易になり、顔画像の属性認識精度が向上する。
【0019】
本願のいくつかの実施例において、前記特徴画像抽出モデルは、顔画像サンプル及び特徴画像サンプルのトレーニングより得られたものであり、前記方法は、前記特徴画像サンプル及び対応するアテンション行列サンプルを使用して、ニューラルネットワークをトレーニングすることにより、前記アテンションモデルを取得することを更に含む。
【0020】
上記の方法では、大量の既知の特徴画像サンプル及び既知のアテンション行列サンプルを使用して、アテンションモデルをトレーニングすることにより、アテンション行列の精度を向上させることができる。同時に、大量の顔画像サンプル及び特徴画像サンプルを収集して、特徴画像抽出モデルをトレーニングすることにより、特徴抽出のマルチスケール特性を向上させることもでき、それにより、顔属性の認識精度を大幅に向上させることができる。
【0021】
本願のいくつかの実施例において、前記n個の特徴画像は更に、前記顔画像を含む。
【0022】
上記の方法では、アテンションモデルは、実際には、特徴画像抽出のプロセスであり、顔画像をアテンションモデルに直接入力して計算することができるため、特徴画像抽出モデルによる顔画像の特徴抽出を省略し、顔属性認識の効率を向上させることができる。
【0023】
本願実施例は、顔属性認識装置を提供し、前記顔属性認識装置は、
n(nは正の整数である)個の特徴画像を取得するように構成される特徴画像抽出ユニットであって、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである、特徴画像抽出ユニットと、
前記n個の特徴画像の各特徴画像に対応する属性特徴を取得するように構成される属性特徴抽出ユニットであって、前記属性特徴は、前記特徴画像内の目標顔属性を表すために使用される特徴である、属性特徴抽出ユニットと、
前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定するように構成される顔属性認識ユニットと、を備える。
【0024】
本願実施例は、記憶媒体を提供し、前記記憶媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムがハードウェアによって実行されるときに、上記の方法を実現する。
【0025】
本願実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品がコンピュータによって読み取られて実行されるときに、上記の方法が実行される。
【0026】
本願実施例は、少なくとも1つのコンピューティングノードを含むコンピュータクラスタを提供し、各コンピューティングノードは、プロセッサ及びメモリを備え、前記プロセッサは、前記メモリ内のコードを実行することにより上記の方法を実行する。
【0027】
本願実施例は、命令を含むコンピュータ非一時的記憶媒体を提供し、前記命令がコンピュータノードクラスタ内の少なくとも1つのコンピューティングノードで実行されるときに、前記コンピューティングノードクラスタに、上記の方法を実行させる。
【0028】
本願実施例は電子機器を提供し、プロセッサ及びメモリを備え、前記プロセッサは、前記メモリ内のコードを実行して上記の方法を実現する。
【図面の簡単な説明】
【0029】
本願実施例の技術的解決策をより明確に説明するために、以下は、実施例の説明で使用される図面について簡単に紹介する。以下に説明される図面は、本願のいくつかの実施例に過ぎず、当業者にとっては、創造的な作業なしに、これらの図面にしたがって他の図面を得ることもできることは自明である。
図1】関連技術における、MTCNNに基づいて顔属性を認識するプロセスの概略図である。
図2】本願実施例による顔属性認識ニューラルネットワークの概略的な構造図である。
図3】本願実施例による顔属性認識方法の例示的なフローチャートである。
図4】本願実施例による、目標対象が眼鏡をかけているかどうか、性別、及び表情を認識するためのプロセスの概略図である。
図5】本願実施例による顔属性認識装置の概略的な構造図である。
図6】本願実施例によるコンピューティングノードの概略的な構造図である。
図7】本願実施例によるクラウドサービスクラスタの概略的な構造図である。
図8】本願実施例による別の顔属性認識装置の概略的な構造図である。
図9】本願実施例による別の顔属性認識装置の概略的な構造図である。
図10】本願実施例による顔属性認識方法の実施プロセスの概略図である。
【発明を実施するための形態】
【0030】
本願の実施例で使用される用語は、本願の具体的な実施例を説明するためにのみ使用され、本願を限定するものではない。
【0031】
本願実施例に関する適用シナリオは、セキュリティ監視シナリオ、携帯電話のエンターテインメントシナリオを含み得るが、これらに限定されず、表情認識や年齢認識などのシナリオにも適用される。本願実施例の理解を容易にするために、先ず、本願実施例に主に関する適用シナリオであるセキュリティ監視シナリオについて説明する。
【0032】
セキュリティ監視とは、通常、光ファイバ、同軸ケーブル、またはマイクロ波を使用して閉ループでビデオ信号を送信し、撮影から画像の表示及び記録までの独立した完全なシステムを指す。当該システムは、リアルタイムで、鮮やか、そして現実的に監視対象物を反映することができ、観察距離を伸ばすだけでなく、過酷な環境での手動による長期監視に取って代わることもでき、監視カメラを介して、人間の目には見えない微妙な特徴を見ることができ、顔認識機器と協調して監視領域内の関係者を認識、警報及び記録することもでき、これは、社会の安全を維持するための重要な手段の1つである。
【0033】
セキュリティ監視シナリオでは、通常、顔認識技術を介して、カメラで収集された目標顔画像の複数の属性を認識し、複数の属性認識結果をまとめて、目標顔に攻撃傾向があるかどうか、目標顔に対応するID情報等などを決定する。例えば、まず、目標顔画像が帽子をかぶっているかどうか、バックパックをかぶっているかどうか、マスクをかぶっているかどうかなどの複数の属性を認識し、複数の属性認識結果に基づき、特定の分析戦略と組み合わせて、目標顔に攻撃傾向があるかどうかを決定する。または、まず、目標顔画像の目、鼻、口、ほくろ、傷跡などの複数の属性を認識し、複数の属性認識結果に基づき、特定の分析策略と組み合わせて、目標顔に対応するID情報を認識する。上記の例は、説明のためにのみ使用され、本願を特に限定するものではないことを理解されたい。
【0034】
関連技術では、マルチタスク畳み込みニューラルネットワーク(MTCNN:Multi-Task Convolution Neural Net)は、通常、顔属性の認識に使用され、このような方法は、マルチブランチネットワークの共有特徴に基づいており、顔の個々の属性を簡単且つ効率的に認識することができる。しかしながら、実際の適用プロセスでは、すべての属性の認識が同じ特徴を必要とするとは限らない。例えば、イヤリングやメガネを着用するなどのいくつかの属性の認識には、比較的浅い層の特徴が必要であり、表情、性別などのいくつかの属性の認識は、深い層の特徴が必要であるため、MTCNNを使用して顔属性認識を実行すると、特徴がはっきりしないため、認識結果が不正解になるという問題が発生する可能性がある。
【0035】
図1は、関連技術における、MTCNNに基づいて顔属性を認識するプロセスの概略図である。図1から分かるように、MTCNNは、入力層110と、共有特徴学習層120と、全結合層130とを備える。ここで、入力層110は、入力した顔画像に対して画像前処理を実行するように構成され、共有特徴学習層120は、顔画像の属性特徴を抽出するように構成され、全結合層130は、共有特徴学習層120によって出力された顔属性特徴を分類するように構成される。共有特徴学習層120は、1つまたは複数の畳み込み層及び全結合層を含み、これらは、顔属性特徴をフィルタリング及び最適化するように構成されることに留意されたい。
【0036】
具体的な実現では、一枚の入力画像(顔画像など)について、MTCNNは、まず、入力層110を介して入力画像に対して簡単な画像処理(画像の二値化など)を実行する。その後、共有特徴学習層120を介して入力画像に対して特徴抽出を実行し、ここで、共有特徴学習層120は、異なる畳み込み層及び1つまたは複数の全結合層を含み、複数の畳み込み層の後に、1つの全結合層を追加して、無関係な属性特徴をフィルタリングする。その後、フィルタリングされた属性特徴を、複数の畳み込み層によって特徴抽出することにより、共有特徴を取得する。例えば、上記のフィルタリングされた属性特徴に対して、再び10個の畳み込み層によって畳み込み処理を実行し、10番目の畳み込み層によって抽出された特徴を共有特徴として使用する。最後に、当該共有特徴を全結合層130に入力し、それにより、当該共有特徴を使用して異なる属性認識タスクを行う。
【0037】
上記の顔属性認識プロセスでは、MTCNNは、最後の畳み込み層によって抽出された共有特徴に従って、異なる属性を認識する必要があることを理解することができる。このようにトレーニングされたニューラルネットワークは、各属性の認識が同一の共有特徴に基づいているため、実際には画像の各領域の特徴を同等に扱い、特定の「領域」を特別に扱わないため、いくつかの微妙な特徴がニューラルネットワークによって正確に認識できないことが発生する可能性がある。つまり、顔属性を認識するのに必要な特徴のすべてが、多層畳み込み抽出後に最後の層によって抽出された特徴であるとは限らない。例えば、目標対象の顔画像に対して3回の畳み込み操作を実行して3層の特徴を取得することができ、目標対象がメガネをかけているかどうかを判断する場合、当該メガネをかけているかどうかの特徴を取得するためには、畳み込みニューラルネットワークは浅い層の特徴(2層の特徴など)のみを必要とし、それによって目標対象がメガネをかけているかどうかを認識することができる。目標対象の人種を判断する場合、目標対象の人種を認識するために、畳み込みニューラルネットワークは深い層の特徴(4層の特徴など)を必要とする可能性がある。この場合、3層の特徴を使用して目標対象がメガネをかけているかどうかを判断すると、特徴の過度の抽出により、当該属性を表す特徴情報が失われる可能性がある。これは、属性認識結果の精度に影響を与え、属性認識の効率を低下させる。3層の特徴を使用して目標対象の人種を判断する場合、3層の特徴は人種という属性を完全に表すことができないため、当該属性認識結果の精度が低下する可能性がある。
【0038】
したがって、上記のセキュリティ監視分野における顔属性認識のプロセスにおいて、共有特徴に基づいて属性認識を実行する場合、特徴の損失や、特徴がはっきりしないなどの問題が発生しやすいことに鑑みて、本願実施例は、顔属性認識方法を提供し、当該方法は、異なる畳み込み層によって抽出された特徴を異なる顔属性認識モデルに入力することにより、顔属性認識の精度及び認識効率を向上させる。
【0039】
図2は、本願実施例による顔属性認識ニューラルネットワークの概略的な構造図であり、図2に示されたように、本願実施例による顔属性認識ニューラルネットワークは、入力層210、畳み込み層220、アテンション学習層230、グローバル平均プーリング(GAP:Global Average Pooling)層240、及び認識層250を備える。以下、本願実施例による顔属性認識ニューラルネットワーク内の各層について詳細に説明する。ここで、
入力層210:
目標対象の顔画像Iを入力層に入力し、出力と入力は同じであり、即ち、入力された顔画像に対して何の処理も実行しない。説明の便宜上、ここでは、入力層によって出力された画像が入力画像に等しいと仮定するが、実際の適用では、入力層に正規化処理モジュールまたは他の画像前処理モジュールを設定することができ、本願はこれに対して特に限定しない。
【0040】
畳み込み層220:
入力層によって出力された画像を、畳み込み層の入力として使用し、1つまたは複数の畳み込み層の畳み込み計算によりn個の特徴画像を生成し、前記n個の特徴画像は、それぞれ、異なる層の特徴画像であり、これらは、異なる層における顔の属性特徴を表すことができる。説明の便宜上、本願実施例は、「ブロック」という概念を提案し、畳み込みニューラルネットワークの畳み込み層を複数のブロックに分割し、各ブロックは、1つまたは複数の畳み込みカーネルを含み得、各ブロックは、1つの特徴画像を出力する。言い換えれば、ブロックB,B,…,Bは、それぞれ、特徴画像I,I,…,Iを出力することができ、ここで、nは正の整数である。
【0041】
特徴画像I,I,…,Iは、次のように取得することができる。ブロックBによって出力された特徴画像Iを例にとると、ブロックBi-1によって出力された特徴画像Ii-1をブロックBの入力として使用し、u個の畳み込みカーネルK(l=1,2,…,u)の畳み込み操作により、u個の特徴画像b(l=1,2,…,u)を取得し、ここで、1≦i≦nであり、i、l、uはすべて、正の整数である。特徴画像bをブロックBによって出力された特徴画像Iとして使用し、ここで、特徴画像bは、畳み込みによって取得された最後の特徴画像であり、即ち、特徴画像Iは、特徴画像Ii-1に対してu回の畳み込み操作を実行することにより抽出された特徴画像である。
【0042】
特徴画像Iは、元の顔画像をブロックBに入力することにより取得されたものであることに留意されたい。さらに、上記の畳み込み層の各パラメータでは、畳み込みカーネルK(要素、サイズ、ステップ幅などを含む)、バイアス値eは、抽出する必要のある特徴または入力画像のサイズなどに従って人為的に設定することができる。畳み込みカーネルKを例にとると、抽出する必要のある特徴が顔属性の特徴である場合、畳み込みカーネルKの要素は、ローカルバイナリパターン(LBP:Local Binary Patterns)演算子の要素を使用することができ、さらに例えば、入力した特徴画像Iが比較的大きい場合、畳み込みカーネルKのサイズも大きくなる可能性があり、逆に、入力した特徴画像Iが比較的小さい場合、畳み込みカーネルKのサイズも小さくなる可能性があり、さらに例えば、入力した特徴画像Iが比較的大きい場合、畳み込みカーネルKのステップ幅も大きくなる可能性があり、逆に、入力した特徴画像Iが小さい場合、畳み込みカーネルKのステップ幅も小さくなる可能性がある。
【0043】
アテンション学習層230:
ブロックB,B,…,Bによって出力されたn個の特徴画像I,I,…,Iの各特徴画像をアテンション学習層の入力として使用し、アテンション学習層による学習後、n×m個の顔属性特徴を取得し、ここで、各特徴画像は、m個の顔属性特徴を含み、mは正の整数であり、mは、抽出する必要のある顔属性の数を示す。
【0044】
特徴画像Iから抽出されるm個の顔属性特徴を例にとると、特徴画像Iをアテンション学習層に入力し、m個のアテンションモデルのアテンション学習により、m個のアテンション行列Vij(j=1,2,…,m)を生成し、ここで、1つのアテンション行列は、1つの顔属性に対応し、即ち、1つのアテンション行列は、顔属性に対応する属性特徴を抽出するために使用され、jは正の整数である。特徴画像Iとアテンション行列Vijに対して内積演算を実行して、特徴画像Iに対応するj番目の属性の顔属性特徴Aijを抽出する。各アテンション特徴の取得プロセスは、式(1-1)の通りである。
(1-1)
【0045】
ここで、Attentionは、1つのアテンションモデルであり、Attention()は、特徴画像Iとアテンション行列Vijの間のマッピング関係であり得、ここで、Attention()は、大量の既知の特徴画像I及び既知の属性のアテンション行列を用いてトレーニングすることにより取得することができる。説明の便宜上、上記では、特徴画像Iのj番目の属性の顔属性特徴Aijの抽出についてのみ説明したが、実際の適用では、特徴画像I内の顔属性特徴Ai1,Ai2,…,Aimの抽出方式は、特徴画像Iのj番目の属性の顔属性特徴Aijの抽出方式と類似しており、ここでは繰り返して説明しない。また、特徴画像I,I,…,Iのj番目の属性の顔属性特徴A1j,A2j,…,Anjの抽出方式はすべて、特徴画像Iのj番目の属性の顔属性特徴Aijの抽出方式と類似しており、ここでは繰り返して説明しない。
【0046】
グローバル平均プーリング層240:
アテンション学習層によって出力されたn×m個の顔属性特徴A11、A12,…,A1m,A21,A22,…,A2m,…,An1,An2,…,Anmをグローバル平均プーリング層の入力として使用し、プーリングウィンドウを介してプーリングした後、n×m個の認識結果Pijを取得し、ここで、各認識結果Pijの取得プロセスは、式(1-2)の通りである。
(1-2)
【0047】
ここで、Pijは、特徴画像Iのj番目の属性の予測結果を表し、GAPは、グローバル平均プーリングを表す。
【0048】
認識層250:
グローバル平均プーリング層によって出力されたn×m個の認識結果Pijを属性に従って最初の属性の認識結果P11,P21,…、Pn1,2番目の属性の認識結果P12,P22,…,Pn2,…,m番目の属性の認識結果P1m,P2m,…,Pnmに分類し、各属性の認識結果に対して加重平均計算を行い、それにより、顔画像内の当該属性の認識結果を取得する。
【0049】
j番目の顔属性の認識結果を例にとると、特徴画像I,I,…,Iのj番目の属性の認識結果P1j,P2j,…,Pnjに対して加重平均計算を行い、顔画像のj番目の顔属性の認識結果Pを取得し、ここで、j番目の属性の認識結果Pの取得プロセスは、式(1-3)の通りである。
(1-3)
【0050】
ここで、wijは重み値であり、wijは、大量の既知の属性の予測結果及び対応する属性認識結果をトレーニングすることにより取得することができる。説明の便宜上、上記では、顔画像のj番目の属性の認識結果Pの取得プロセスについてのみ説明したが、実際の適用では、顔画像の他の属性の認識結果は、顔画像のj番目の属性の認識結果Pの取得プロセスと類似しており、ここでは繰り返して説明しない。
【0051】
例えば、目標対象の顔画像を上記の顔属性認識ニューラルネットワークに入力し、入力層210、畳み込み層220、アテンション学習層230、グローバル平均プーリング層240、及び分類層250の計算により、目標対象の性別属性結果を取得することができる。例えば、目標対象の性別が男性である確率が0.8であり、性別が女性である確率が0.2である場合、認識層250は、目標対象が男性であるという結果を出力する。
【0052】
上記の顔属性認識ニューラルネットワークは単なる一例に過ぎず、実際の適用では、上記のニューラルネットワークの他の変形形態でもあり得ることを理解できる。例えば、より多くの畳み込み層、より多くのプーリング層を含むことができるか、または、グローバル平均プーリング層の代わりに全結合層を使用することができ、さらに、入力層において顔画像に対してより多くの前処理(二値化、標準化など)を行うこともでき、本願実施例はこれに対して特に限定しない。
【0053】
上記の顔属性認識ニューラルネットワークは、畳み込みニューラルネットワークであることに留意されたい。ここで、畳み込みニューラルネットワークは、残差ニューラルネットワーク(ResNet:Residual Network)、VGGネットワーク(VGGNet:VGG Network)などを含み得、ここではそれらに対して特に限定しない。顔画像の各属性の認識は、同一の畳み込みニューラルネットワークで実行されてもよいし、異なる畳み込みニューラルネットワークで実行されてもよいが、ここではそれらに対して特に限定しない。さらに、顔画像の各特徴画像は、同一の畳み込みカーネルで抽出してもよいし、異なる畳み込みカーネルで抽出してもよいが、ここではそれらに対して特に限定しない。
【0054】
図2に示された顔属性認識ニューラルネットワークに基づき、本願実施例によって提供された顔属性認識方法は、図3に示される通りであり、図3は、本願実施例による顔属性認識方法の例示的なフローチャートである。本願実施例の顔属性認識方法は、次のステップを含む。
【0055】
ステップS101において、n(nは正の整数である)個の特徴画像を取得し、ここで、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである。
【0056】
本願実施例において、n個の特徴画像を取得する前に、顔画像を先に取得し、その後、特徴画像抽出モデルを介して顔画像に対して特徴画像の抽出を実行することにより、上記のn個の特徴画像を取得する。理解すべきこととして、収集した顔画像に対して特徴画像抽出を実行する前に、顔画像に対して画像前処理(画像の二値化処理または画像の標準化処理など)を実行することもでき、その後、前処理後の顔画像に対して特徴抽出を実行することにより、取得した特徴画像に、顔属性を認識するために使用できるより多くの属性特徴を含めるようにする。
【0057】
本願実施例において、特徴画像抽出モデルは、顔画像サンプル及び特徴画像サンプルのトレーニングにより得られたものである。実装では、特徴画像抽出モデルは、畳み込みニューラルネットワークのトレーニングによって取得することができ、スケール不変特徴変換(SIFT:Scale-Invariant Feature Transform)アルゴリズムのトレーニングによって取得することもでき、ここではそれらに対して特に限定しない。畳み込みニューラルネットワークのトレーニングにより特徴画像抽出モデルを取得した場合、特徴画像抽出モデルは、1つの畳み込み層を含んでもよいし、複数の畳み込み層を含んでもよいが、ここではこれらに対して特に限定しない。
【0058】
本願のいくつかの実施例において、特徴画像は、顔画像であってもよいし、顔画像を1つまたは複数の畳み込み層に入力することにより得られた画像であってもよいが、ここではこれらに対して特に限定しない。さらに、上記のn個の特徴画像の抽出は、それぞれ同一の畳み込みカーネルを使用してもよいし、それぞれ異なる畳み込みカーネルを使用してもよいが、ここではこれらに対して特に限定しない。
【0059】
ステップS102において、n個の特徴画像の各特徴画像を、対応するアテンションモデルに入力して、各特徴画像に対応するアテンション行列を取得する。
【0060】
本願実施例において、上記の特徴画像サンプル及び対応するアテンション行列サンプルを使用して、ニューラルネットワークをトレーニングすることにより、アテンションモデルを取得する。例えば、目標顔画像を3つの畳み込み層を通過させることにより得られた特徴画像を特徴画像サンプルとして使用し、顔画像内の目標対象の目の大きさを抽出するための重み行列をアテンション行列サンプルとして使用し、上記の特徴画像サンプル及びアテンション行列サンプルを使用してトレーニングすることにより、顔画像内の目標対象の目の大きさを抽出するためのアテンションモデルを取得することができる。言い換えれば、アテンションモデルは、アテンション行列と特徴画像との間のマッピング関係を反映し、アテンションモデルは、式(1-4)の通りである。
(1-4)
【0061】
ここで、xは特徴画像であり、yはアテンション行列であり、Attention()は、アテンション行列と入力した特徴画像との間のマッピング関係である。Attention()は、大量のサンプルセットをトレーニングすることにより取得したものであり得、ここで、各サンプルセットは、特徴画像サンプル及び対応するアテンション行列サンプルを含み、1つのサンプルセットは、1つのアテンションモデルをトレーニングするために使用される。
【0062】
本願実施例において、アテンションモデルは、畳み込みニューラルネットワークのトレーニングにより取得されたものであり得、ここで、畳み込みニューラルネットワークは、単純な構造を有するネットワーク(2つの畳み込み層だけを含む小さなネットワークなど)であり、これにより、顔画像内の目標対象の目の大きさの属性特徴を効率的且つ正確に抽出することができる。畳み込みニューラルネットワークは、顔画像内の目標対象の年齢などの微妙な属性の属性特徴を抽出するように構成される、10個の畳み込み層を含む複雑なネットワークでもあり得、ここではこれらに対して特に限定しない。さらに、前記アテンションモデルトレーニングの特定のプロセスについてはここでは繰り返して説明しない。また、畳み込みニューラルネットワークは、残差ニューラルネットワーク(ResNet:Residual Network)であってもよいし、VGGネットワーク(VGGNet:VGG Network)などであってもよいが、ここではこれらに対して特に限定しない。
【0063】
本願実施例において、顔画像内のm個の属性を認識する場合、トレーニングによりm個のアテンションモデルを取得する必要があり、ここで、1つのアテンションモデルは、1つの属性の属性特徴を抽出するために使用される。n個の特徴画像の各特徴画像をm個のアテンションモデルに入力して、各特徴画像に対応するm個のアテンション行列、及びn個の特徴画像に対応するn×m個のアテンション行列を取得することができる。ここで、1つのアテンション行列は、対応する特徴画像の1つの顔属性特徴を抽出するために使用され、mは正の整数である。
【0064】
本願実施例において、上記の属性にはさまざまな種類があり得、顔を例にとると、顔の属性は、局部属性および全体属性を含み、ここで、局部属性は、髪型、眉毛の密度、目の大きさ、目の色、鼻梁の高さ、メガネをかけているかどうか、アクセサリーをつけているかどうかを含み、全体属性は、性別、年齢、民族、表情などを含む。
【0065】
ステップS103において、アテンション行列に従って、n個の特徴画像の各特徴画像に対応する属性特徴を抽出し、ここで、属性特徴は、特徴画像内の目標顔属性を表すために使用される特徴である。
【0066】
本願実施例において、n個の特徴画像の各特徴画像に、対応するアテンション行列を乗算して、n個の特徴画像の各特徴画像に対応する属性特徴を取得する。ここで、属性特徴は、特徴画像内の目標顔属性を表すために使用される特徴であり、例えば、認識された顔属性がメガネをかけているかどうかの属性である場合、属性特徴は、目領域に関する特徴である。
【0067】
顔画像にm個の属性を認識する必要がある場合、n個の特徴画像に対応するn×m個のアテンション行列に基づき、特徴画像に、対応するアテンション行列を乗算することにより、n個の特徴画像のn×m個の属性特徴を得ることができることを理解することができる。前記属性特徴は、最初の特徴画像のm個の属性特徴A11,A12,…,A1m,2番目の特徴画像のm個の属性特徴A21,A22,…,A2m,…,n番目の特徴画像のm個の属性特徴An1,An2,…,Anmを含み、ここで、Anmは、n番目の特徴画像においてm番目の顔属性を表す特徴である。
【0068】
ステップS104において、属性特徴に従って、顔画像内の目標顔属性の属性認識結果を決定する。
【0069】
本願のいくつかの実施例において、属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定することは、属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得することと、認識結果に対して加重平均計算を行い、顔画像内の目標顔属性の属性認識結果を決定することと、を含む。
【0070】
本願のいくつかの実施例において、属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得することは、属性特徴のそれぞれに対して属性予測処理を実行することにより、属性特徴に対応する認識結果を予測して取得することを含む。
【0071】
本願のいくつかの実施例において、属性予測処理は、グローバル平均プーリング処理を含む。属性特徴A11に対してグローバル平均プーリングを実行して、最初の特徴画像の最初の属性の属性認識結果P11を取得し、属性特徴A21に対してグローバル平均プーリングを実行して、2番目の特徴画像の最初の属性の属性認識結果P21を取得し、…、属性特徴Anmに対してグローバル平均プーリングを実行して、n番目の特徴画像のm番目の属性の属性認識結果Pnmを取得することができ、属性認識結果P11,P21,…,Pn1に対して加重平均計算を行い、顔画像の最初の属性の属性認識結果を取得し、属性認識結果P12,P22,…,Pn2に対して加重平均計算を行い、顔画像の2番目の属性の属性認識結果を取得し、…、属性認識結果P1m,P2m,…,Pnmに対して加重平均計算を行い、顔画像のm番目の属性の属性認識結果を取得することができる。
【0072】
上記の顔属性認識方法によれば、取得した顔画像に従って、特徴画像抽出モデルを介して複数の異なる層の特徴画像を取得し、その後、これらの異なる層の特徴画像をアテンションモデルに入力して、対応するアテンション行列を取得し、特徴画像とアテンション行列を乗算して、複数の属性特徴を取得し、それにより、顔画像の各属性をより効率的且つ正確に認識することができる。
【0073】
以下、認識属性が、メガネをかけているかどうか、性別及び表情であることを例にとって、図3に示された顔属性認識方法を説明し、図4に示されたように、図4は、本願実施例による、目標対象が眼鏡をかけているかどうか、性別及び表情を認識するプロセスの概略図である。本願実施例のステップは、以下の通りである。
【0074】
ステップ1において、目標対象の顔画像を取得する。
【0075】
ステップ2において、畳み込み計算を行い、第1特徴画像を取得する。
【0076】
ステップ3において、第1特徴画像から、目標対象がメガネをかけているかどうかの特徴、目標対象の性別特徴及び目標対象の表情特徴を抽出する。まず、第1特徴画像をそれぞれ第1アテンションモデル、第2アテンションモデル、及び第3アテンションモデルに入力して、第1アテンション行列、第2アテンション行列、及び第3アテンション行列を取得する。ここで、第1アテンション行列は、目標対象がメガネをかけているかどうかの特徴を抽出するために使用され、第2アテンションモデルは、目標対象の性別特徴を抽出するために使用され、第3アテンションモデルは、目標対象の表情特徴を抽出するために使用される。その後、第1特徴画像に、第1アテンション行列、第2アテンション行列、及び第3アテンション行列をそれぞれ乗算し、それにより、第1特徴画像内の目標対象がメガネをかけているかどうかの特徴、目標対象の性別特徴、及び目標対象の表情特徴を抽出する。
【0077】
ステップ4において、第1特徴画像に対して3回の畳み込み計算を行い、第2特徴画像を取得する。
【0078】
ステップ5において、第2特徴画像から、目標対象がメガネをかけているかどうかの特徴、目標対象の性別特徴、及び目標対象の表情特徴を抽出し、実装ステップについては、ステップ3を参照できる。
【0079】
ステップ6において、第2特徴画像に対して5回の畳み込み計算を行い、第3特徴画像を取得する。
【0080】
ステップ7において、第3特徴画像から、目標対象がメガネをかけているかどうかの特徴、目標対象の性別特徴、及び目標対象の表情特徴を抽出し、実装ステップについては、ステップ3を参照できる。
【0081】
ステップ8において、ステップ3、ステップ5、及びステップ7で抽出された9つの特徴に対してグローバル平均プーリング操作を実行して、対応する認識結果をそれぞれ取得する。
【0082】
ステップ9において、第1特徴画像、第2特徴画像、及び第3特徴画像内の目標対象がメガネをかけているかどうかの認識結果に対して加重平均計算を行い、目標対象がメガネをかけているのか、またはメガネをかけていないのかを決定する。
【0083】
例えば、第1特徴画像内の目標対象がメガネをかけている確率は0.4であり、メガネをかけていない確率は0.6であり、第2特徴画像内の目標対象がメガネをかけている認識結果は0.25であり、メガネをかけていない確率は0.75であり、第3特徴画像内の目標対象がメガネをかけている認識結果は0.2であり、メガネをかけていない確率は0.8であり、目標対象がメガネをかけているかどうかを認識することにおける第1特徴画像の重みは0.2であり、認識目標対象がメガネをかけているかどうかを認識することにおける第2特徴画像の重みは0.4であり、目標対象がメガネをかけているかどうかを認識することにおける第2特徴画像の重みは0.4である場合、計算により、目標対象がメガネをかけている確率は0.4×0.2+0.25×0.4+0.2×0.4=0.26であり、目標メガネをかけていない確率は0.6×0.2+0.75×0.4+0.8×0.4=1.34であることを知ることができる。したがって、顔属性認識装置は、目標対象がメガネをかけていないという結果出力する。
【0084】
ステップ10において、第1特徴画像、第2特徴画像、及び第3特徴画像内の目標対象の性別の認識結果に対して加重平均計算を行い、目標対象が男性または女性であることを取得する。実装ステップについては、ステップ9を参照できる。
【0085】
ステップ11において、第1特徴画像、第2特徴画像、及び第3特徴画像内の目標対象の表情の認識結果に対して加重平均計算を行い、目標対象が幸せか、悲しいか、それとも怒っているかを取得する。実装ステップについては、ステップ9を参照できる。
【0086】
以下、上記の図1~4に示された関連実施例を参照して、本願実施例に関する関連装置について説明する。
【0087】
図5を参照すると、図5は、本願実施例による顔属性認識装置の概略的な構造図である。本願実施例の顔属性認識装置500は、特徴画像抽出ユニット510、アテンション特徴学習ユニット520及び顔属性認識ユニット530を備える。ここで、
特徴画像抽出ユニット510は、n(nは正の整数である)個の特徴画像を取得するように構成され、ここで、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである。
【0088】
属性特徴抽出ユニット520は、n個の特徴画像の各特徴画像に対応する属性特徴を取得するように構成され、ここで、属性特徴は、特徴画像内の目標顔属性を表すために使用される特徴である。
【0089】
顔属性認識ユニット530は、属性特徴に従って、顔画像内の目標顔属性の属性認識結果を決定するように構成される。
【0090】
本願実施例において、属性特徴抽出ユニット520は更に、n個の特徴画像の各特徴画像を、対応するアテンションモデルに入力して、各特徴画像に対応するアテンション行列を取得し、アテンション行列に従って、前記n個の特徴画像の各特徴画像に対応する属性特徴を抽出するように構成される。
【0091】
本願実施例において、属性特徴抽出ユニット520は更に、n個の特徴画像の各特徴画像に、対応するアテンション行列を乗算して、n個の特徴画像の各特徴画像に対応する属性特徴を取得するように構成される。
【0092】
本願実施例において、顔属性認識ユニット530は更に、属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得し、認識結果に対して加重平均計算を行い、顔画像内の目標顔属性の属性認識結果を決定するように構成される。
【0093】
本願実施例において、顔属性認識ユニット530は更に、属性特徴のそれぞれに対して属性予測処理を実行することにより、属性特徴に対応する前記認識結果を予測して取得するように構成される。
【0094】
本願のいくつかの実施例において、属性予測処理は、グローバル平均プーリング処理を含む。
【0095】
本願実施例において、前記n個の特徴画像を取得する前に、顔属性認識装置500は更に、顔画像を取得し、特徴画像抽出モデルを介して前記顔画像の特徴抽出を実行して、n個の特徴画像を取得するように構成される。
【0096】
本願のいくつかの実施例において、特徴画像は顔画像であってもよいし、顔画像を1つまたは複数の畳み込み層に入力することにより得られたものであってもよいが、ここではこれらに対して特に限定しない。さらに、n個の特徴画像の抽出は、それぞれ同一の畳み込みカーネルを使用してもよいし、それぞれ異なる畳み込みカーネルを使用してもよいが、ここではこれらに対して特に限定しない。
【0097】
本願のいくつかの実施例において、顔属性認識装置500は更に、特徴画像抽出モデルトレーニングユニット540及びアテンションモデルトレーニングユニット550を備える。ここで、
特徴画像抽出モデルトレーニングユニット540は、特徴画像抽出モデルをトレーニングするように構成され、特徴画像抽出モデルは、顔画像サンプル及び特徴画像サンプルのトレーニングにより得られたものである。実装では、特徴画像抽出モデルは、畳み込みニューラルネットワークのトレーニングによって取得することができ、スケール不変特徴変換(SIFT:Scale-Invariant Feature Transform)アルゴリズムのトレーニングによって取得することもでき、ここではそれらに対して特に限定しない。畳み込みニューラルネットワークのトレーニングにより特徴画像抽出モデルを取得した場合、特徴画像抽出モデルは、1つの畳み込み層を含んでもよいし、複数の畳み込み層を含んでもよいが、ここではこれらに対して特に限定しない。
【0098】
アテンションモデルトレーニングユニット550は、上記の特徴画像サンプル及び対応するアテンション行列サンプルを使用して、ニューラルネットワークをトレーニングすることにより、アテンションモデルを取得するように構成される。例えば、目標顔画像を3つの畳み込み層を通過させることにより得られた特徴画像を特徴画像サンプルとして使用し、顔画像内の目標対象の目の大きさを抽出するための重み行列をアテンション行列サンプルとして使用し、上記の特徴画像サンプル及びアテンション行列サンプルを使用してトレーニングすることにより、顔画像内の目標対象の目の大きさを抽出するためのアテンションモデルを取得することができる。言い換えれば、アテンションモデルは、アテンション行列と特徴画像との間のマッピング関係を反映し、アテンションモデルは、式(1-5)の通りである。
(1-5)
【0099】
ここで、xは特徴画像であり、yはアテンション行列であり、Attention()は、アテンション行列と入力した特徴画像との間のマッピング関係である。Attention()は、大量のサンプルセットをトレーニングすることにより取得したものであり得、ここで、各サンプルセットは、特徴画像サンプル及び対応するアテンション行列サンプルを含み、1つのサンプルセットは、1つのアテンションモデルをトレーニングするために使用される。
【0100】
本願実施例において、アテンションモデルは、畳み込みニューラルネットワークのトレーニングにより取得されたものであり得、ここで、畳み込みニューラルネットワークは、単純な構造を有するネットワーク(2つの畳み込み層だけを含む小さなネットワークなど)であり、これにより、顔画像内の目標対象の目の大きさの属性特徴を効率的且つ正確に抽出することができる。畳み込みニューラルネットワークは、顔画像内の目標対象の年齢などの微妙な属性の属性特徴を抽出するように構成される、10個の畳み込み層を含む複雑なネットワークでもあり得、ここではこれらに対して特に限定しない。さらに、前記アテンションモデルトレーニングの特定のプロセスについてはここでは繰り返して説明しない。また、畳み込みニューラルネットワークは、残差ニューラルネットワーク(ResNet:Residual Network)であってもよいし、VGGネットワーク(VGGNet:VGG Network)などであってもよいが、ここではこれらに対して特に限定しない。
【0101】
目標対象の性別や表情などの属性の認識は、グローバル属性認識に属するため、目標対象のグローバル属性(性別や表情など)を判断する場合、まず、複数の局部属性(髪型、イヤリングを着用しているかどうか、または目の大きさなど)を判断することができることを理解することができる。つまり、上記の顔属性認識装置は、まず目標対象の局部属性特徴を認識し、局部属性の認識結果に従って顔のグローバル属性を総合的に評価することができる。
【0102】
上記の顔属性認識装置は、セキュリティ分野でも使用でき、セキュリティスタッフが攻撃傾向がある人物を迅速且つ正確にスクリーニングするのに役立つことに留意されたい。例えば、空港の搭乗口において、上記の顔属性認識装置を使用して、航空機搭乗員の顔属性特徴を認識し、航空機搭乗員が攻撃傾向があるかどうかを判断することができる。航空機搭乗員が攻撃傾向がある場合、航空機搭乗員の顔画像を既存の顔画像ライブラリと比較し、それにより、航空機搭乗員のID情報を決定する。
【0103】
上記の顔属性認識装置は、特徴画像抽出ユニットを介して取得した画像に対して特徴抽出を行い、複数の異なる層の特徴画像を取得し、その後、アテンション特徴学習ユニットにおいて、これらの異なる層の特徴画像をアテンションモデルに入力して、対応するアテンション行列を取得し、特徴画像とアテンション行列を乗算して、複数の属性特徴を取得する。最後に、顔属性認識ユニットにおいて、複数の属性特徴に対して加重平均計算を行い、それにより、顔画像の各属性をより効率的且つ正確に認識することができる。
【0104】
本願実施例による顔属性認識装置は、単一のコンピューティングノードで実現されてもよいし、クラウドコンピューティングインフラで実現されてもよいが、ここではこれらに対して特に限定しない。以下、単一のコンピューティングノード及びクラウドコンピューティングインフラで顔属性認識装置を実現する方法について個別に紹介する。
【0105】
図6に示されたように、コンピューティングノード600は、プロセッサ610、メモリ620及び通信ネットワーク630を備えることができる。ここで、プロセッサは、特徴画像抽出ユニット611、属性特徴抽出ユニット612、顔属性認識ユニット613、特徴画像抽出モデルトレーニングユニット614、及びアテンションモデルトレーニングユニット615などを実行するように構成される。メモリ620は、顔画像、特徴画像、属性特徴、アテンション行列などを記憶するように構成される。コンピューティングノード600は、装置のメンテナンス担当者向けの管理インターフェース640及びユーザ向けのユーザインターフェース650などの2つの外部インターフェースをさらに提供する。ここで、インターフェースは、webインターフェース、コマンドラインツール、RESTインターフェースなどのさまざまな形式がある。
【0106】
本願のいくつかの実施例において、管理インターフェース640は、メンテナンス担当者が大量の顔画像サンプル及び対応する特徴画像サンプルを入力することにより、特徴画像抽出モデルをトレーニングすることができるようにし、メンテナンス担当者が大量の特徴画像サンプル及び対応するアテンション行列サンプルを入力することにより、アテンションモデルをトレーニングすることもできるように構成される。ユーザインターフェース650は、ユーザが属性認識される必要のなる目標対象の顔画像を入力できるようにし、ユーザインターフェース650を介して顔属性の認識結果をユーザに出力するように構成される。
【0107】
コンピューティングノード600は、本願実施例によって提供された一例にすぎないことを理解されたい。コンピューティングノード600は、示された部材よりも多くまたは少ない部材を備えることができ、2つまたは2つ以上の部材を組み合わせることができ、または部材の異なる構成で実現することもできる。
【0108】
図7に示されたように、クラウドコンピューティングインフラは、クラウドサービスクラスタ700であってもよい。前記クラウドサービスクラスタ700は、ノード、及びノード間の通信ネットワークで構成される。上記のノードは、コンピューティングノードであってもよいし、コンピューティングノード上で実行される仮想マシンであってもよい。ノードは、その機能に応じて、コンピューティングノード710、ストレージノード720及び通信インターフェース730の2つのカテゴリに分類することができる。コンピューティングノード710は、特徴画像抽出ユニット711、属性特徴抽出ユニット712、顔属性認識ユニット713、特徴画像抽出モデルトレーニングユニット714、及びアテンションモデルトレーニングユニット715を実行するように構成される。ストレージノード720は、顔画像、特徴画像及び属性特徴などを記憶するように構成される。クラウドサービスクラスタ700は、質問応答エンジンのメンテナンス担当者向けの管理インターフェース740及びユーザ向けのユーザインターフェース750などの2つの外部インターフェースをさらに提供する。ここで、インターフェースは、webインターフェース、コマンドラインツール、代表状態転送(REST:Representational State Transfer)インターフェースなどのさまざまな形式がある。
【0109】
本願のいくつかの実施例において、管理インターフェース740は、メンテナンス担当者が大量の顔画像サンプル及び対応する特徴画像サンプルを入力することにより、特徴画像抽出モデルをトレーニングすることができるようにし、メンテナンス担当者が大量の特徴画像サンプル及び対応するアテンション行列サンプルを入力することにより、アテンションモデルをトレーニングすることもできるように構成される。ユーザインターフェース750は、ユーザが属性認識される必要のなる目標対象の顔画像を入力できるようにし、ユーザインターフェース750を介して顔属性の認識結果をユーザに出力するように構成される。
【0110】
クラウドサービスクラスタ700は、本願実施例によって提供された一例にすぎないことを理解されたい。クラウドサービスクラスタ700は、示された部材よりも多くまたは少ない部材を備えることができ、2つまたは2つ以上の部材を組み合わせることができ、または部材の異なる構成で実現することもできる。
【0111】
図8を参照すると、本願実施例は、別の実施形態による顔属性認識装置の概略的な構造図を提供し、この実施形態による顔属性認識装置は、図6に示されたコンピューティングノードで実現されることができ、前記コンピューティングノードは、少なくとも、プロセッサ810、通信インターフェース820、及びメモリ830を備え、ここで、プロセッサ810、通信インターフェース820及びメモリ830は、バス840を介して結合される。ここで、
プロセッサ810は、1つまたは複数の汎用プロセッサを備え、ここで、汎用プロセッサは、中央処理装置(CPU:Central Processing Unit)、マイクロプロセッサ、マイクロコントローラ、メインプロセッサ、コントローラ及び特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)などを含む、電子命令を処理できる任意のタイプの機器であってもよい。プロセッサ810は、メモリ830に記憶されているプログラムコードを読み取り、通信インターフェース820と協調して、本願の上記の実施例において、顔属性認識装置500によって実行される方法のステップの一部またはすべてを実行する。
【0112】
通信インターフェース820は、有線インターフェース(イーサネットインターフェースなど)であり得、前記通信インターフェース820は、他のコンピューティングノードまたは装置と通信するように構成される。
【0113】
メモリ830は、ランダムアクセスメモリ(RAM:Random Access Memory)などの揮発性メモリを含んでもよく、メモリは、読み取り専用メモリ(ROM:Read-Only Memory)、フラッシュメモリ(Flash Memory)、ハードディスクドライブ(HDD:Hard Disk Drive)またはソリッドステートドライブ(SSD:Solid-State Drive)などの不揮発性メモリ(Non-Volatile Memory)を含んでもよく、メモリは、上記のタイプのメモリの組み合わせを含んでもよい。メモリ830は、プログラムコード及びプログラムデータを記憶することができる。ここで、プログラムコードは、特徴画像抽出ユニットのコード、属性特徴抽出ユニットのコード、顔属性認識ユニットのコード、特徴画像抽出モデルトレーニングユニットのコード及びアテンションモデルトレーニングユニットのコードを含む。特徴画像抽出モデル及びアテンションモデルをトレーニングするために、プログラムデータは、大量の顔画像、特徴画像及び対応するアテンション行列を含み、プログラムデータは更に、属性認識結果を計算するための大量の重み値などを含む。
【0114】
ここで、前記プロセッサ810は、メモリ830内のプログラムコードを呼び出すことにより、次のステップを実行するように構成される。
【0115】
プロセッサ810は、n(nは正の整数である)個の特徴画像を取得するように構成され、ここで、n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである。
【0116】
プロセッサ810は、n個の特徴画像の各特徴画像に対応する属性特徴を取得するように構成され、ここで、属性特徴は、特徴画像内の目標顔属性を表すために使用される特徴である。
【0117】
プロセッサ810は、属性特徴に従って、顔画像内の目標顔属性の属性認識結果を決定するように構成される。
【0118】
プロセッサ810は更に、顔画像サンプル及び特徴画像サンプルを使用して特徴画像抽出モデルをトレーニングし、及び上記の特徴画像サンプル及び対応するアテンション行列サンプルを使用してニューラルネットワークをトレーニングすることにより、前記アテンションモデルを取得するように構成される。
【0119】
図9を参照すると、図9は、本願実施例によるさらに別の実施形態に係る顔属性認識装置の概略的な構造図である。本実施形態に係る顔属性認識装置は、図9に示された、少なくとも1つのコンピューティングノード910及び少なくとも1つのストレージノード920を備えるクラウドサービスクラスタで実現されることができる。ここで、
コンピューティングノード910は、1つまたは複数のプロセッサ911、通信インターフェース912及びメモリ913を備え、プロセッサ911、通信インターフェース912及びメモリ913は、バス914を介して接続されることができる。
【0120】
プロセッサ911は、1つまたは複数の汎用プロセッサを備え、ここで、汎用プロセッサは、CPU、マイクロプロセッサ、マイクロコントローラ、メインプロセッサ、コントローラ及びASICなどを含む、電子命令を処理できる任意のタイプの機器であってもよい。プロセッサ911は、コンピューティングノード910にのみ使用される専用プロセッサであり得るか、または他のコンピューティングノード910と共有できるプロセッサであり得る。プロセッサ911は、メモリ913に記憶されているプログラムコードを読み取り、通信インターフェース912と協調して、本願の上記の実施例において、顔属性認識装置500によって実行される方法のステップの一部またはすべてを実行する。
【0121】
通信インターフェース912は、有線インターフェース(イーサネットインターフェースなど)であり得、前記通信インターフェース820は、他のコンピューティングノードまたはユーザと通信するように構成される。通信インターフェース912が有線インターフェースである場合、通信インターフェース912は、トランスミッションコントロールプロトコル/インターネットプロトコル(TCP/IP:Transmission Control Protocol/Internet Protocol)を介したプロトコルファミリ、例えば、ロボットアズアサービス(RAAS:Robot as a Service)プロトコル、リモートファンクションコール(RFC:Remote Function Call)プロトコル、シンプルオブジェクトアクセスプロトコル(SOAP:Simple Object Access Protocol)プロトコル、シンプルネットワーク管理プロトコル(SNMP:Simple Network Management Protocol)、共通オブジェクト要求ブローカーアーキテクチャ(CORBA:Common Object Request Broker Architecture)プロトコル及び分散プロトコルなどを採用することができる。
【0122】
メモリ913は、RAMなどの揮発性メモリを含んでもよく、メモリは、ROM、フラッシュメモリ、HDDまたはソリッドステートドライブ(SSD)などの不揮発性メモリを含んでもよく、メモリは、上記のタイプのメモリの組み合わせを含んでもよい。
【0123】
ストレージノード920は、1つまたは複数のプロセッサ921、通信インターフェース922及びメモリ923を備える。ここで、プロセッサ921、通信インターフェース922及びメモリ923は、バス924を介して接続されることができる。
【0124】
プロセッサ921は、1つまたは複数の汎用プロセッサを備え、ここで、汎用プロセッサは、CPU、マイクロプロセッサ、マイクロコントローラ、メインプロセッサ、コントローラ及びASICなどを含む、電子命令を処理できる任意のタイプの機器であってもよい。プロセッサ921は、ストレージノード920にのみ使用される専用プロセッサであり得るか、または他のストレージノード920と共有できるプロセッサであり得る。プロセッサ921は、メモリ923に記憶されているソフトウェアプログラムまたはファームウェアプログラムなど、様々なタイプのデジタル記憶命令を実行し、これにより、ストレージノード920が多種多様なサービスを提供することを可能にする。例えば、プロセッサ921は、プログラムを実行するか、またはデータを処理して、本明細書で説明される方法の少なくとも一部を実行することができる。
【0125】
通信インターフェース922は、有線インターフェース(イーサネットインターフェースなど)であり得、前記通信インターフェース820は、他のコンピューティング機器またはユーザと通信するように構成される。
【0126】
ストレージノード920は、1つまたは複数のストレージコントローラ921、ストレージアレイ922を含む。ここで、ストレージコントローラ921及びストレージアレイ922は、バス923を介して接続されることができる。
【0127】
ストレージコントローラ921は、1つまたは複数の汎用プロセッサを備え、ここで、汎用プロセッサは、CPU、マイクロプロセッサ、マイクロコントローラ、メインプロセッサ、コントローラ及びASICなどを含む、電子命令を処理できる任意のタイプの機器であってもよい。当該汎用プロセッサは、単一のストレージノード920にのみ使用される専用プロセッサであり得るか、またはコンピューティングノード900または他のストレージノード920と共有できるプロセッサであり得る。本実施例において、各ストレージノードは、1つのストレージコントローラを含み、他の実施例において、複数のストレージノードが1つのストレージコントローラを共有することもでき、ここではこれらに対して特に限定しないことを理解されたい。
【0128】
メモリアレイ922は、複数のメモリを含み得る。メモリは、ROM、フラッシュメモリ、HDDまたはSSDなどの不揮発性メモリを含んでもよく、メモリは、上記のタイプのメモリの組み合わせを含んでもよい。例えば、ストレージアレイは、複数のHDDまたは複数のSDDで構成できるが、または、ストレージアレイは、HDD及びSDDで構成できる。ここで、複数のメモリは、ストレージコントローラ921の協力下で、異なる方式で組み合わされてメモリグループを形成し、それにより、単一のメモリよりも高いストレージ性能及びデータバックアップ技術を提供する。例示的に、メモリアレイ922は、1つまたは複数のデータセンタを含むことができる。複数のデータセンタは、同一場所に配置されてもよいし、それぞれ異なる場所に配置されてもよいが、ここではこれらに対して特に限定しない。メモリアレイ922は、プログラムコード及びプログラムデータを記憶することができる。ここで、プログラムコードは、特徴画像抽出ユニットのコード、アテンション特徴学習ユニットのコード、顔属性認識ユニットのコード及びアテンションモデルトレーニングユニットのコードを含む。特徴画像抽出モデル及びアテンションモデルをトレーニングするために、プログラムデータは、大量の顔画像、特徴画像及び対応するアテンション行列を含む。プログラムデータは更に、属性認識結果を計算するための大量の重み値などを含む。
【0129】
ここで、コンピューティングノード910は、ストレージノード920内のプログラムコードを呼び出すことにより、次のステップを実行するように構成される。
【0130】
コンピューティングノード910は、n(nは正の整数である)個の特徴画像を取得するように構成され、ここで、n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである。
【0131】
コンピューティングノード910は、n個の特徴画像の各特徴画像に対応する属性特徴を取得するように構成され、ここで、属性特徴は、特徴画像内の目標顔属性を表すために使用される特徴である。
【0132】
コンピューティングノード910は、属性特徴に従って、顔画像内の目標顔属性の属性認識結果を決定するように構成される。
【0133】
コンピューティングノード910は更に、顔画像サンプル及び特徴画像サンプルを使用して特徴画像抽出モデルをトレーニングし、及び上記の特徴画像サンプル及び対応するアテンション行列サンプルを使用してニューラルネットワークをトレーニングすることにより、前記アテンションモデルを取得するように構成される。
【0134】
マルチタスク顔属性学習は、ビデオ監視セキュリティ分野では現在非常に熱く厄介な問題であり、セキュリティ分野で重要な役割を果たす。例えば、表情属性を認識することにより、特定の人が攻撃傾向があるかどうかを判断し、危険物を持っているかどうかを認識することにより、歩行者が安全であるかどうかを判断することができる。関連技術では、1つのマルチブランチニューラルネットワークを使用して、特徴を共有し、個々の属性(イヤリングの着用、目、表情など)を分類することができる。当該ネットワークは、非常に簡単であるが、明らかな欠点がある。マルチタスク畳み込みニューラルネットワークを例にとると、当該ネットワークにおいて、マルチタスクが前のネットワークのすべての特徴を共有し、その後、畳み込みネットワークの最後の層でGAPを実行して、共有セマンティック特徴Fを抽出し、当該Fを使用して、さまざまな分類タスクを実行する。これに起因する問題は、すべての属性が必要とする特徴が最後の層の特徴であるとは限らないという問題である。例えば、イアリングやメガネなどの細かい特徴は、アテンションメカニズムを備えた比較的浅い層の二次元特徴を必要とする可能性があるが、性別や表情などの属性は、より深い層のセマンティック特徴を必要とする。
【0135】
本願実施例は、当該ネットワークに基づいて改善され、より効率的かつ正確に顔属性を認識できる方法を提供する。当該方法は、深層畳み込みニューラルネットワーク(CNN)を使用して顔画像特徴を抽取し、さまざまな層でアテンション特徴を取得し、その後、これらのアテンション特徴を使用して分類し、最後に、すべての分類結果に対して加重平均計算を行い、最後の分類結果を取得する。実装では、標準のニューラルネットワークを異なるスケールの複数のブロック(block)に分割することができ、実際には、VGGネットワーク及び残差ネットワークなどの多くのニューラルネットワークは、既に複数のブロックに分割されており、異なるスケールのブロックBでN個のアテンションモデルを学習し、ここで、NはN個のタスクを表す。N個のアテンションメカニズムを使用して属性分類を行い、同一の属性では、各ブロック上の予測結果Pijに対して加重平均計算を行い、最後の結果Pを取得し、ここで、iはブロックの番号であり、jは属性の番号である。
【0136】
図10は、本願実施例による顔属性認識方法の実装プロセスの概略図であり、図10に示されたように、ニューラルネットワークを異なるスケールの複数のブロック101iに分割し、ブロック101iは、1つの(N,W,H,C)タイプのテンソルであり、ここで、i=1,2……,nであり、nはブロックの数であり、Wはブロック101iに対応する画像の幅であり、Hはブロック101iに対応する画像の長さであり、Cはブロック101iに対応する画像のチャネル数である。認識される顔画像について、各ブロック101iを介して特徴抽出を実行して、対応するアテンションマップ102iを生成することができ、アテンション図102iは、1つの(N,W,H,1)タイプのテンソルである。各ブロック101iに、対応するアテンションマップ102iを乗算して、1つのアテンション特徴を取得し、その後、GAP層1030によって、当該アテンション特徴に対して属性分類を実行して、予測結果104iを取得し、予測結果104iは、1つの(N,2)タイプのテンソルである。すべての予測結果104iに対して加重平均を行い、総の予測結果1040を取得する。最後に、当該総の予測結果を使用して顔属性分類を実行する。
【0137】
本願実施例による顔属性認識方法によれば、マルチスケールのアテンションメカニズムを使用して、異なる層の特徴を深くマイニングし、ネットワークにおける各属性の異なる深さでの特徴を使用して属性分類を行うことができ、それにより、関連技術において、分類するときの特徴がはっきりしないという問題を解決することができ、分類に最後の層のセマンティック情報のみを使用する関連技術と比較すると、顔属性を効率的且つ正確に認識することができる。
【0138】
上記の実施例は、ソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組み合わせによって全体的または部分的に実現されることができる。ソフトウェアを使用して実現する場合、コンピュータプログラム製品の形態で全体的または部分的に実現することができる。前記コンピュータプログラム製品は、1つまたは複数のコンピュータ命令を含む。コンピュータに前記コンピュータプログラム命令をロードして実行する場合、本願実施例に記載のプロセスまたは機能を全体的または部分的に生成する。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラマブル装置であり得る。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されることができるか、または1つのコンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に伝送されることができ、例えば、前記コンピュータ命令は、有線(例えば、同軸ケーブル、光ファイバ、デジタル加入者線)または無線(例えば、赤外線、無線、マイクロ波など)を介して、1つのWebサイト、コンピュータ、サーバまたはデータセンタから別のWebサイト、コンピュータ、サーバまたはデータセンタに伝送されることができる。前記コンピュータ可読記憶媒体は、コンピュータがアクセス可能な任意の利用可能な媒体であってもよいし、1つまたは複数の利用可能な媒体が統合されたサーバ、データセンタなどのデータ記憶装置であってもよい。前記利用可能な媒体は、磁気媒体(例えば、フロッピーディスク、メモリディスク、磁気テープ)、光学媒体(例えば、デジタルビデオディスク(DVD:Digital Video Disc))、または半導体媒体(例えば、SSD)などであり得る。上述の実施例では、各実施例の説明は、それぞれの重み付けがあるため、特定の実施例で詳しく説明されていない部分については、他の実施例の関連する説明を参照することができる。
【0139】
本願で提供されたいくつかの実施例において、開示された装置は、他の方式でも実現できることを理解されたい。例えば、上記で説明された装置の実施例は、例示的なものに過ぎない。例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方式があり得、例えば、複数のユニット又はコンポーネントを組み合わせるか又はは別のシステムに統合したり、又は一部の特徴を省略するか又は実行しなかったりすることができる。なお、表示又は議論された相互間接結合又は直接結合又は通信接続は、電気的又は他の形態の一部のインターフェース、装置又はユニットを介した間接的な結合又は通信接続であり得る。
【0140】
前記分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、1箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もある。実際の必要に応じて、その中のユニットの一部又は全部を選択して本願実施例の技術案の目的を実現することができる。
【0141】
また、本願の各実施例における各機能ユニットは、1つの処理ユニットに統合されてもよいし、各ユニットが物理的に独立して存在してもよいし、2つ以上のユニットが1つのユニットに統合されてもよい。前記統合されたユニットは、ハードウェアの形で実装されてもよいし、ソフトウェア機能ユニットの形で実装されてもよい。
【0142】
上述の統合されたユニットがソフトウェア機能ユニットの形で実現され、スタンドアロン製品として販売または使用される場合、1つのコンピュータ可読記憶媒体に記憶されることができる。このような理解に基づいて、本願の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分、又は前記技術的解決策のすべてまたは一部は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る)に、本願の各実施例に記載の方法のステップの全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、例えば、Uディスク、モバイルハードディスク、読み取り専用メモリ、ランダムアクセスメモリ、磁気ディスクまたは光ディスク等のプログラムコードを記憶することができる様々な媒体を含み得る。
【0143】
上記の内容は、本願の具体的な実施形態に過ぎず、本願の保護範囲はこれに限定されない。当業者は、本願に開示された技術的範囲内で同等の変更又は置換を容易に想到し得、これらの変更又は置換はすべて本願の保護範囲内に含まれるべきである。したがって、本願の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
【産業上の利用可能性】
【0144】
本願は、顔属性認識方法、装置、電子機器及び記憶媒体に関し、前記方法は、n(nは正の整数である)個の特徴画像を取得することであって、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである、ことと、前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することであって、前記属性特徴は、前記特徴画像内の目標顔属性を表すために使用される特徴である、ことと、前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定することと、を含む。本願実施例の顔属性認識方法によれば、異なる特徴画像に対応する属性特徴を使用して顔属性を予測することにより、顔属性認識の精度と効率を向上させることができる。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2022-03-11
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0123
【補正方法】削除
【補正の内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0124
【補正方法】削除
【補正の内容】
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0125
【補正方法】削除
【補正の内容】
【手続補正4】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
顔属性認識方法であって、
n(nは正の整数である)個の特徴画像を取得することであって、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものであることと、
前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することであって、前記属性特徴は、前記特徴画像内の目標顔属性を表すために使用される特徴であることと、
前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定することと、含む、前記顔属性認識方法。
【請求項2】
前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することは、
前記n個の特徴画像の各特徴画像を、対応するアテンションモデルに入力して、前記各特徴画像に対応するアテンション行列を取得することと、
前記アテンション行列に従って、前記n個の特徴画像の各特徴画像に対応する属性特徴を抽出することと、を含む、
請求項1に記載の顔属性認識方法。
【請求項3】
前記アテンション行列に従って、前記n個の特徴画像の各特徴画像に対応する属性特徴を抽出することは、
前記n個の特徴画像の各特徴画像に、対応するアテンション行列を乗算して、前記n個の特徴画像の各特徴画像に対応する属性特徴を取得することを含む、
請求項2に記載の顔属性認識方法。
【請求項4】
前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定することは、
前記属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得することと、
前記認識結果に対して加重平均計算を行い、前記顔画像内の目標顔属性の属性認識結果を決定することと、を含む、
請求項1ないし3のいずれか一項に記載の顔属性認識方法。
【請求項5】
前記属性特徴のそれぞれに従って、対応する認識結果をそれぞれ予測して取得することは、
前記属性特徴のそれぞれに対して属性予測処理を実行することにより、前記属性特徴に対応する前記認識結果を予測して取得することを含む、
請求項4に記載の顔属性認識方法。
【請求項6】
前記属性予測処理は、グローバル平均プーリング処理を含む、
請求項5に記載の顔属性認識方法。
【請求項7】
前記n個の特徴画像を取得する前に、前記顔属性認識方法は、
前記顔画像を取得することと、
特徴画像抽出モデルを介して前記顔画像の特徴抽出を実行して、前記n個の特徴画像を取得することと、を更に含む、
請求項1ないし6のいずれか一項に記載の顔属性認識方法。
【請求項8】
前記特徴画像抽出モデルは、顔画像サンプル及び特徴画像サンプルのトレーニングにより得られたものであり、前記顔属性認識方法は、
前記特徴画像サンプル及び対応するアテンション行列サンプルを使用して、ニューラルネットワークをトレーニングすることにより、前記アテンションモデルを取得することを更に含む、
請求項7に記載の顔属性認識方法。
【請求項9】
前記n個の特徴画像は更に、前記顔画像を含む、
請求項1ないし8のいずれか一項に記載の顔属性認識方法。
【請求項10】
顔属性認識装置であって、
n(nは正の整数である)個の特徴画像を取得するように構成される特徴画像抽出ユニットであって、前記n個の特徴画像は、顔画像に対して1回又は複数回の特徴抽出を実行した後に取得されたものである、特徴画像抽出ユニットと、
前記n個の特徴画像の各特徴画像に対応する属性特徴を取得するように構成される属性特徴抽出ユニットであって、前記属性特徴は、前記特徴画像内の目標顔属性を表すために使用される特徴である、属性特徴抽出ユニットと、
前記属性特徴に従って、前記顔画像内の目標顔属性の属性認識結果を決定するように構成される顔属性認識ユニットと、を備える、前記顔属性認識装置。
【請求項11】
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがハードウェアによって実行されるときに、請求項1ないし9のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
【請求項12】
コンピュータプログラム製品であって、
前記コンピュータプログラム製品がコンピュータによって読み取られて実行されるときに、請求項1ないし9のいずれか一項に記載の方法を実現する、前記コンピュータプログラム製品。
【請求項13】
電子機器であって、
プロセッサ及びメモリを備え、前記プロセッサは、前記メモリ内のコードを実行して、請求項1ないし9のいずれか一項に記載の方法を実現する、前記電子機器。
【国際調査報告】