(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-22
(54)【発明の名称】顔属性認識方法及び装置、電子機器並びに記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20220215BHJP
G08G 1/16 20060101ALI20220215BHJP
【FI】
G06T7/00 660A
G06T7/00 350C
G08G1/16 F
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021533534
(86)(22)【出願日】2019-11-29
(85)【翻訳文提出日】2021-06-11
(86)【国際出願番号】 CN2019121973
(87)【国際公開番号】W WO2020134858
(87)【国際公開日】2020-07-02
(31)【優先権主張番号】201811645459.1
(32)【優先日】2018-12-29
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】516158057
【氏名又は名称】ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
(74)【代理人】
【識別番号】100067736
【氏名又は名称】小池 晃
(74)【代理人】
【識別番号】100192212
【氏名又は名称】河野 貴明
(74)【代理人】
【識別番号】100200001
【氏名又は名称】北原 明彦
(72)【発明者】
【氏名】ワン,フェイ
(72)【発明者】
【氏名】チェン,ケユ
(72)【発明者】
【氏名】キャン,チェン
【テーマコード(参考)】
5H181
5L096
【Fターム(参考)】
5H181AA01
5H181AA21
5H181BB04
5H181BB05
5H181BB12
5H181BB13
5H181BB20
5H181CC04
5H181CC17
5H181CC27
5H181FF27
5H181FF33
5H181LL09
5L096BA04
5L096GA30
5L096HA11
5L096KA04
(57)【要約】
本開示は、顔属性認識方法及び装置、電子機器並びに記憶媒体に関する。上記方法は、画像における顔の特徴を抽出すること(S10)と、前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得ること(S20)と、各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定すること(S30)と、を含む。この方法は、複数種類の顔属性の認識を同時に行うことができ、顔属性認識の認識効率を向上させることができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
画像における顔の特徴を抽出することと、
前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得ることと、
各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定することと、
を含むことを特徴とする顔属性認識方法。
【請求項2】
前記顔の属性認識結果は、前記顔の少なくとも2つの属性認識結果を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記顔属性は、年齢、性別、装飾品、肌の色、表情、動作のうちの少なくとも1つを含むことを特徴とする請求項1又は2に記載の方法。
【請求項4】
前記装飾品は、普通の眼鏡、サングラス、帽子、マスクのうちの少なくとも1つを含み、前記表情は、喜び、悲しみ、泣き、怒り、興奮のうちの少なくとも1つを含み、前記動作は、タバコを吸うこと、水/飲み物を飲むこと、食事をすること、化粧をすること、電話をすることのうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。
【請求項5】
前記画像は、車両に設けられた車載カメラによって撮像される車両の位置する道路の画像及び/又は車両内の画像を含み、
前記画像における顔は、車両の位置する道路における歩行者、車両の運転者・乗員及び/又は他車両の運転者・乗員の顔を含み、
前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす属性認識結果を含むことを特徴とする請求項3又は4に記載の方法。
【請求項6】
前記画像における顔の属性認識結果に基づいて、第1対象オブジェクトを決定することと、
決定された前記第1対象オブジェクトに応じて、車両が速度保持、方向保持、減速、操舵、ブレーキのいずれか1つを実行するように提示情報を送信する及び/又は車両制御システムに制御指令を送信することと、
をさらに含むことを特徴とする請求項5に記載の方法。
【請求項7】
前記画像は、ショッピングセンター、学校、大型会場、路面、オフィスビルのいずれか1つを含む観察場所に設けられた観察カメラによって撮像される観察画像を含み、
前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす属性認識結果を含むことを特徴とする請求項3又は4に記載の方法。
【請求項8】
前記観察画像における顔の属性認識結果に基づいて、第2対象オブジェクトを決定することと、
決定された前記第2対象オブジェクトに応じて前記観察場所で設定情報を送信すること、または、決定された前記第2対象オブジェクトに応じて提示情報を観察者へ送信することと、
をさらに含むことを特徴とする請求項7に記載の方法。
【請求項9】
画像における顔の特徴を抽出することは、
前記画像に対して畳み込み処理を行って、前記顔の畳み込み特徴を抽出することを含むことを特徴とする請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得ることは、
前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得ることと、
前各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認することと、
をさらに含むことを特徴とする請求項9に記載の方法。
【請求項11】
前記画像に対して畳み込み処理を行って、前記顔の畳み込み特徴を抽出することは、
ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することを含み、
前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得ることは、
前記ニューラルネットワークの全結合層によって前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得ることを含み、
前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認することは、
前記ニューラルネットワークの分類層によって前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認することを含むことを特徴とする請求項10に記載の方法。
【請求項12】
前記ニューラルネットワークは、サンプル画像セットに基づいて教師ありトレーニングが予め行われたものであり、前記サンプル画像セット内のサンプル画像は、複数種類の顔属性のラベル情報が含まれていることを特徴とする請求項11に記載の方法。
【請求項13】
前記ニューラルネットワークのトレーニング過程は、
ニューラルネットワークによって前記サンプル画像の各種類の顔属性の予測結果をそれぞれ得ることと、
各種類の顔属性の予測結果とそのラベル情報に基づく第1損失をそれぞれ決定することと、
各種類の顔属性の第1損失に基づいて第2損失を決定することと、
前記第2損失に基づいてニューラルネットワークのネットワークパラメータを調整することと、
を含むことを特徴とする請求項12に記載の方法。
【請求項14】
各種類の顔属性の第1損失に基づいて前記ニューラルネットワークの第2損失を決定することは、
いずれか1種類の顔属性を含む対象顔属性の第1損失及び前記対象顔属性の重みに基づいて、前記対象顔属性の重み損失を決定することと、
前記各種類の顔属性の重み損失に基づいて、前記ニューラルネットワークの第2損失を決定することと、
を含むことを特徴とする請求項13に記載の方法。
【請求項15】
前記ニューラルネットワークのトレーニング方法は、
第1画像に対して反転、クロップ、平行移動、ノイズの付加の少なくとも1つを行って、前記第1画像のノイズ画像を得ることと、
前記第1画像及び前記ノイズ画像をサンプル画像として決定して、前記サンプル画像セットを得ることと、
をさらに含むことを特徴とする請求項12~14のいずれか一項に記載の方法。
【請求項16】
画像における顔の特徴を抽出することは、
前記画像の解像度を調整して第1処理画像を得ることと、
前記第1処理画像における顔の特徴を抽出することと、
を含むことを特徴とする請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記ニューラルネットワークの特徴のチャンネル数を調整して、調整ニューラルネットワークを得ることをさらに含み、
ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することは、
前記調整ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することを含むことを特徴とする請求項11~16のいずれか一項に記載の方法。
【請求項18】
画像における顔の特徴を抽出するための特徴抽出モジュールと、
前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得るための確率予測結果取得モジュールと、
各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定するための属性認識結果取得モジュールと、
を含むことを特徴とする顔属性認識装置。
【請求項19】
前記顔の属性認識結果は、前記顔の少なくとも2つの属性認識結果を含むことを特徴とする請求項18に記載の装置。
【請求項20】
前記顔属性は、年齢、性別、装飾品、肌の色、表情、動作、人種のうちの少なくとも1つを含むことを特徴とする請求項18又は19に記載の装置。
【請求項21】
前記装飾品は、普通の眼鏡、サングラス、帽子、マスクのうちの少なくとも1つを含み、前記表情は、喜び、悲しみ、泣き、怒り、興奮のうちの少なくとも1つを含み、前記動作は、タバコを吸うこと、水/飲み物を飲むこと、食事をすること、化粧をすること、電話をすることのうちの少なくとも1つを含むことを特徴とする請求項20に記載の装置。
【請求項22】
前記画像は、車両に設けられた車載カメラによって撮像される車両の位置する道路の画像及び/又は車両内の画像を含み、
前記画像における顔は、車両の位置する道路における歩行者、車両の運転者・乗員及び/又は他車両の運転者・乗員の顔を含み、
前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作、所定人種のうちの少なくとも1つを満たす属性認識結果を含むことを特徴とする請求項20又は21に記載の装置。
【請求項23】
前記画像における顔の属性認識結果に基づいて、第1対象オブジェクトを決定するための第1対象オブジェクト決定モジュールと、
決定された前記第1対象オブジェクトに応じて、車両が速度保持、方向保持、減速、操舵、ブレーキのいずれか1つを実行するように提示情報を送信する及び/又は車両制御システムに制御指令を送信するための運転制御モジュールと、
をさらに含むことを特徴とする請求項22に記載の装置。
【請求項24】
前記画像は、ショッピングセンター、学校、大型会場、路面、オフィスビルのいずれか1つを含む観察場所に設けられた観察カメラによって撮像される観察画像を含み、
前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作、所定人種のうちの少なくとも1つを満たす属性認識結果を含むことを特徴とする請求項20又は21に記載の装置。
【請求項25】
前記観察画像における顔の属性認識結果に基づいて、第2対象オブジェクトを決定するための第1対象オブジェクト決定モジュールと、
決定された前記第2対象オブジェクトに応じて前記観察場所で設定情報を送信する、または、決定された前記第2対象オブジェクトに応じて提示情報を観察者へ送信するための観察制御モジュールと、
をさらに含むことを特徴とする請求項24に記載の装置。
【請求項26】
前記特徴抽出モジュールは、前記画像に対して畳み込み処理を行って、前記顔の畳み込み特徴を抽出することを特徴とする請求項18~25のいずれか一項に記載の装置。
【請求項27】
前記確率予測結果取得モジュールは、
前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得るための顔属性特徴抽出サブモジュールと、
前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認するための確率予測結果取得サブモジュールと、
をさらに含むことを特徴とする請求項26に記載の装置。
【請求項28】
前記特徴抽出モジュールは、ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出し、
前記顔属性特徴抽出サブモジュールは、前記ニューラルネットワークの全結合層によって前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得、
前記確率予測結果取得サブモジュールは、前記ニューラルネットワークの分類層によって前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認することを特徴とする請求項27に記載の装置。
【請求項29】
前記ニューラルネットワークは、サンプル画像セットに基づいて教師ありトレーニングが予め行われたものであり、前記サンプル画像セット内のサンプル画像は、複数種類の顔属性のラベル情報が含まれていることを特徴とする請求項28に記載の装置。
【請求項30】
前記ニューラルネットワークのトレーニングを行うためのトレーニングモジュールをさらに含み、
前記トレーニングモジュールは、
ニューラルネットワークによって前記サンプル画像の各種類の顔属性の予測結果をそれぞれ取得し、
各種類の顔属性の予測結果とそのラベル情報に基づく第1損失をそれぞれ決定し、
各種類の顔属性の第1損失に基づいて第2損失を決定し、
前記第2損失に基づいてニューラルネットワークのネットワークパラメータを調整することを特徴とする請求項29に記載の装置。
【請求項31】
各種類の顔属性の第1損失に基づいて前記ニューラルネットワークの第2損失を決定することは、
いずれか1種類の顔属性を含む対象顔属性の第1損失及び前記対象顔属性の重みに基づいて、前記対象顔属性の重み損失を決定することと、
前記各種類の顔属性の重み損失に基づいて、前記ニューラルネットワークの第2損失を決定することと、
を含むことを特徴とする請求項30に記載の装置。
【請求項32】
前記トレーニングモジュールは、さらに
第1画像に対して反転、クロップ、平行移動、ノイズの付加の少なくとも1つを行って、前記第1画像のノイズ画像を得、
前記第1画像及び前記ノイズ画像をサンプル画像として決定して、前記サンプル画像セットを得ることを特徴とする請求項29~31のいずれか一項に記載の装置。
【請求項33】
前記特徴抽出モジュールは、
前記画像の解像度を調整して第1処理画像を得るための第1処理画像取得モジュールと、
前記第1処理画像における顔の特徴を抽出するための第1特徴抽出サブモジュールと、
を含むことを特徴とする請求項18~32のいずれか一項に記載の装置。
【請求項34】
前記ニューラルネットワークの特徴のチャンネル数を調整して調整ニューラルネットワークを得るためのチャンネル調整モジュールをさらに含み、
前記特徴抽出モジュールは、さらに
前記調整ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することを特徴とする請求項28~33のいずれか一項に記載の装置。
【請求項35】
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、請求項1~17のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
【請求項36】
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、請求項1~17のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項37】
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器におけるプロセッサに請求項1~17のいずれか一項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
「関連出願の相互参照」
本開示は、2018年12月29日に中国特許庁に提出された、出願番号が201811645459.1で、発明の名称が「顔属性認識方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その開示の全てが援用することによって本願に組み込まれる。
【0002】
本開示は、画像認識技術分野に関し、特に顔属性認識方法及び装置、電子機器並びに記憶媒体に関する。
【背景技術】
【0003】
従来の顔属性認識技術では、顔に対して複数の属性の認識を行う必要があるときに、複数の単一属性の顔の認識を行って、さらに複数の単一属性の顔の認識の結果を整合する必要がある。各顔属性間の関連性が考慮されていないため、複数の属性の顔認識の結果の確度が悪く、かつ演算速度が低い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、顔属性認識の技術的手段を提供する。
【課題を解決するための手段】
【0005】
本開示の一方面によれば、画像における顔の特徴を抽出することと、前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得ることと、各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定することと、を含む顔属性認識方法を提供する。
【0006】
本開示の一方面によれば、画像における顔の特徴を抽出するための特徴抽出モジュールと、前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得るための確率予測結果取得モジュールと、各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定するための属性認識結果取得モジュールと、を含む顔属性認識装置を提供する。
【0007】
本開示の一方面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、上記のいずれか一項に記載の方法を実行するように構成される電子機器を提供する。
【0008】
本開示の一方面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、上記のいずれか一項に記載の方法を実現するコンピュータ読み取り可能な記憶媒体を提供する。
【0009】
本開示の一方面によれば、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器におけるプロセッサに上記の顔属性認識方法を実現するための命令を実行させるコンピュータプログラムを提供する。
【0010】
本開示の実施例では、画像における顔の特徴を抽出し、顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得、各種類の顔属性の確率予測結果に基づいて、画像における顔の属性認識結果を決定することができる。本開示の実施例は、複数種類の顔属性の認識を同時に行うことができ、顔属性認識の認識効率を向上させることができる。
【0011】
以上の一般的な説明と以下の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではないと理解すべきである。
【0012】
以下、図面を参照しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び方面は明瞭になる。
【図面の簡単な説明】
【0013】
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的手段の説明に用いられる。
【0014】
【
図1】
図1は、本開示の実施例に係る顔属性認識方法のフローチャートを示す。
【
図2】
図2は、本開示の実施例に係る顔属性認識方法のフローチャートを示す。
【
図3】
図3は、本開示の実施例に係る顔属性認識方法におけるニューラルネットワークのトレーニングフローの模式図を示す。
【
図4】
図4は、本開示の実施例に係る顔属性認識装置のブロック図を示す。
【
図5】
図5は、例示的な一実施例に係る電子機器のブロック図である。
【
図6】
図6は、例示的な一実施例に係る電子機器のブロック図である。
【発明を実施するための形態】
【0015】
以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
【0016】
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
【0017】
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されたいずれか1つ又は複数の要素を含むことを示してもよい。
【0018】
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
【0019】
図1は、本開示の実施例に係る顔属性認識方法のフローチャートを示す。
図1に示すように、前記顔属性認識方法は、ステップS10、ステップS20及びステップS30を含む。
【0020】
ステップS10では、画像における顔の特徴を抽出する。
【0021】
可能な一実現形態では、画像は、単一の画像が含まれてもよく、ビデオストリームのフレーム画像が含まれてもよい。画像は、RGB(赤(Red),緑(Green),青(Blue))画像などの各種類の画像が含まれてよい。
【0022】
可能な一実現形態では、顔の元の高次元特徴データを低次元データで記述し、抽出された低次元データは、異なる顔を効果的に区別することに用いられてよい。顔の特徴には、グローバルな顔の特徴が含まれてもよい。その特徴情報は、顔画像の全体から抽出されたものであり、全体の顔情報を反映することができる。顔の特徴には、ローカルな顔の特徴が更に含まれてもよい。その特徴情報は、顔画像の一部の画素または一部の領域から抽出されたものであり、顔のローカルな細部を反映することができる。本開示では、顔の特徴の種類及び具体的な内容を限定せず、顔属性認識の需要に応じて、画像から各種類の顔属性に係る特徴を抽出することができる。
【0023】
ステップS20では、前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得る。
【0024】
可能な一実現形態では、前記顔属性は、年齢、性別、装飾品、肌の色、表情、動作のうちの少なくとも1つを含んでよい。前記装飾品は、普通の眼鏡、サングラス、帽子、マスクのうちの少なくとも1つを含み、前記表情は、喜び、悲しみ、泣き、怒り、興奮のうちの少なくとも1つを含み、前記動作は、タバコを吸うこと、水/飲み物を飲むこと、食事をすること、化粧をすること、電話をすることのうちの少なくとも1つを含む。需要に応じて、1種類の顔属性を構成する1つ又は複数の属性を決定することができる。
【0025】
例えば、顔属性は、年齢及び性別(例えば中年男性または高年男性など)、または年齢、性別及び装飾品(例えば帽子をかぶっている中年男性、眼鏡をかけている高年女性など)、または年齢、性別、肌の色、表情及び動作(例えば中年の白人の男性が笑って電話をしていることなど)を含み得る。
【0026】
可能な一実現形態では、需要に応じて複数種類の顔属性を予め設定してよい。本開示では、各種類の顔属性に含まれる属性の数及び種類が限定されない。例えば、年齢1、性別1及び装飾品1である顔属性1、年齢2、性別2、装飾品1、表情1及び動作1である顔属性2、及び性別3、装飾品2、表情2及び動作2である顔属性3という3種類の顔属性を予め設定することができる。
【0027】
可能な一実現形態では、画像から抽出された顔の特徴を、予め設定された各種類の顔属性に応じて区別して、各種類の顔属性についての特徴を得、さらに各種類の顔属性についての特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を得るようにしてよい。
【0028】
ステップS30では、各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定する。
【0029】
可能な一実現形態では、前記顔の属性認識結果は、前記顔の少なくとも2つの属性認識結果を含む。
【0030】
可能な一実現形態では、画像における顔の属性認識結果は、1種類又は複数種類の顔の属性認識結果を含んでよい。確率閾値を予め設定し、確率予測結果が確率閾値より大きい1種類又は複数種類の顔属性を画像における顔の属性認識結果として決定することができる。
【0031】
本実施例では、画像における顔の特徴を抽出し、顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得、各種類の顔属性の確率予測結果に基づいて、画像における顔の属性認識結果を決定することができる。本開示の実施例では、複数種類の顔属性の認識を同時に行うことができ、顔属性認識の認識効率を向上させることができる。
【0032】
可能な一実現形態では、前記画像は、車両に設けられた車載カメラによって撮像される車両の位置する道路の画像及び/又は車両内の画像を含み、前記画像における顔は、車両の位置する道路における歩行者、車両の運転者・乗員及び/又は他車両の運転者・乗員の顔を含み、前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす属性認識結果を含む。
【0033】
可能な一実現形態では、車両に車載カメラが設けられてよい。1つの車載カメラが、車両内の画像及び車両の位置する道路の画像を同時に撮像するように設けられてもよく、車両内の画像を撮像するカメラと車両の位置する道路の画像を撮像するカメラとの2つのカメラが個別に設けられてもよいが、本開示では、これが限定されない。車載カメラは、可視光カメラ、赤外カメラ又は両眼カメラなどとしてもよいが、需要及び適用シーンに応じて車載カメラを選択することができる。
【0034】
可能な一実現形態では、車載カメラは、車両の位置する道路の画像を撮像してよい。車両の位置する道路の画像において、道路上の歩行者の顔を含んでもよく、道路上の他車両の運転者又は乗員の顔を含んでもよい。本開示の実施例に係る方法によって、道路上の歩行者または他車両の運転者・乗員の顔の属性認識結果を決定することができる。顔の属性認識結果と予め設定された第1対象オブジェクトとの対応関係を予め設定し、危険な動作(電話をすること、化粧をすることなど)をしている顔、や感情が不安定な顔を第1対象オブジェクトとして決定してよい。第1対象オブジェクトは、運転の妨げになる、又は危険な状況を引き起こすような危険な要素を有する対象者であってよい。
【0035】
例えば、歩行者Aは属性認識結果1(子供、走っていること)、歩行者Bは属性認識結果2(高齢者、サングラスをかけていること、立っていること)、車両A内の運転者は属性認識結果3(電話をしていること)、車両B内の乗員は属性認識結果4(喜び、タバコを吸っていること)である。属性認識結果と予め設定された第1対象オブジェクトとの対応関係に基づいて、歩行者Aと車両A内の運転者を第1対象オブジェクトとして決定することができる。
【0036】
可能な一実現形態では、車載カメラは、車両の運転者と乗員とを含み得る車両内の画像を撮像してよい。本開示の実施例に係る方法によって、車両の運転者及び/又は乗員の顔の属性認識結果を決定することができる。需要に応じて、属性認識結果が所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす顔を第1対象オブジェクトとして決定することができる。ここで、所定年齢には、子供、高齢者を含み得、所定性別には、女性又は男性を含み得、所定装飾品は、サングラスを含み得、所定表情は、怒り、悲しみなどを含み得、所定動作は、タバコを吸うこと、化粧をすることなどを含み得る。上記の各設定条件を組み合わせて、設定条件を満たす属性認識結果を得、設定条件を満たす顔を第1対象オブジェクトとして決定してよい。例えば、顔の属性認識結果と第2対象オブジェクトとの対応関係を予め設定し、危険な動作(電話をすること、化粧をすること、眠ることなど)をしている顔、や感情が不安定な顔を第2対象オブジェクトとして決定してよい。
【0037】
例えば、車両の運転者は属性認識結果1(何か食べていること)、乗員Aは属性認識結果2(サングラスをかけていること、喜び)、乗員Bは属性認識結果3(電話をしていること)、乗員Cは属性認識結果4(喜び、タバコを吸っていること)である。属性認識結果と予め設定された第2対象オブジェクトとの対応関係に基づいて、車両の運転者を第2対象オブジェクトとして決定することができる。車両の運転者と乗員について、異なる属性認識結果と第2対象オブジェクトとの対応関係を設定してよい。
【0038】
可能な一実現形態では、上記方法は、
前記画像における顔の属性認識結果に基づいて、第1対象オブジェクトを決定することと、
決定された前記第1対象オブジェクトに応じて、車両が速度保持、方向保持、減速、操舵、ブレーキのいずれか1つを実行するように提示情報を送信する及び/又は車両制御システムに制御指令を送信することと、をさらに含む。
【0039】
可能な一実現形態では、車両内の画像及び車両の位置する道路の画像の顔属性認識は、インテリジェントドライビングシステム、運転支援システム、安全運転システムなどに適用可能である。車両が対応する運転動作を実行するように、車両の運転者または車両の観察者に提示情報を送信してもよく、設定された運転制御情報を車両運転制御システムに送信してもよい。
【0040】
可能な一実現形態では、決定された第1対象オブジェクトに応じて、提示情報を送信してもよい。本開示では、提示情報の具体的な実現形態及び提示内容が限定されない。例えば、「前方には走っている子供がいるので、ご注意ください」、「運転者は電話をしないでください。安全運転してくださいね。」などのような音声提示を送信してよい。決定された第1対象オブジェクトに基づいて、設定された運転制御情報を車両運転制御システムに送信して、車両が減速、操舵、ブレーキのうちの少なくとも1つを実行するように制御してもよい。提示情報を送信するとともに設定された運転制御情報を送信してもよい。本開示では、これが限定されない。
【0041】
本実施例では、車両に設けられた車載カメラによって、車両内の画像及び/又は車両の位置する道路の画像を撮像して、車両の位置する道路上の歩行者、車両の運転者・乗員及び/又は他車両の運転者・乗員の顔の属性認識結果を得る。本実施例に係る属性認識結果は、インテリジェントドライビング、運転支援などのセキュリティを高めることに利用可能である。
【0042】
可能な一実現形態では、前記画像は、ショッピングセンター、学校、大型会場、路面、オフィスビルのいずれか1つを含む観察場所に設けられた観察カメラによって撮像される観察画像を含み、前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす属性認識結果を含む。
【0043】
可能な一実現形態では、ショッピングセンター、学校、大型会場、路面、オフィスビルなどの観察場所の設定位置に観察カメラを設置してよい。例えば、出入口、重要な道路、重要な場所に観察カメラを設置してよい。観察カメラは、ショッピングセンターの内部又は外部、学校の運動場又は教室内、大型会場の内部の観察画像を撮像することができる。上記の観察場所に出入りする人が多いので、観察画像において複数の顔を含み得る。本開示の実施例に係る方法によって、観察画像における顔の属性認識結果を決定することができる。ここで、設定条件を満たす属性認識結果を第2対象オブジェクトとして決定することについては、第1対象オブジェクトとして決定する場合の関連説明を参照すればよく、ここで重複説明を省略する。
【0044】
例えば、ショッピングセンターに観察画像を撮像する観察カメラを設けてショッピングセンター内のスタッフ又は顧客の顔の属性認識結果を得てもよい。学校の教室内又は運動場に観察画像を撮像する観察カメラを設けて教師、学生又は学校外の人たちの顔の属性認識結果を得てもよい。観察画像における顔の属性認識結果は、セキュリティ作業または設定情報の方向性送信に利用可能である。
【0045】
可能な一実現形態では、上記方法は、
前記観察画像における顔の属性認識結果に基づいて、第2対象オブジェクトを決定することと、
決定された前記第2対象オブジェクトに応じて前記観察場所で設定情報を送信するか、または、決定された前記第2対象オブジェクトに応じて提示情報を観察者へ送信することと、をさらに含む。
【0046】
可能な一実現形態では、顔の属性認識結果と予め設定された第2対象オブジェクトとの対応関係を予め設定してよい。感情が不安定な顔を第2対象オブジェクトとして決定してもよく、設定条件を満たす女性などの属性認識結果の満たす顔を第2対象オブジェクトとして決定してもよい。例えば、放課時間に、学校の観察画像における顔の属性認識結果に基づいて、学生を第2対象オブジェクトとして、ラジオで「学生たちは運動場から出てください」という旨の放送メッセージを流すようにしてもよい。ショッピングセンターの観察画像における顔の属性認識結果のうち、女性の顧客を第2対象オブジェクトとして、ショッピングセンターの大型画面に化粧品についての広告などの設定情報を再生してもよく、男性の顧客を第2対象オブジェクトとして、ショッピングセンターの大型画面に自動車についての広告などの設定情報を再生してもよい。第2対象オブジェクトに応じて、第2対象オブジェクトが危険対象者又は観察対象者などである旨の提示情報を観察場所の観察者に送信してもよい。本開示では、設定情報又は提示情報の実現形態及び情報内容が限定されない。
【0047】
本実施例では、観察場所に設けられた観察カメラによって観察画像を撮像して、観察画像における顔の属性認識結果を得る。本実施例に係る属性認識結果は、観察場所のセキュリティを高めること、または観察場所へ設定情報を送信することに利用可能である。
【0048】
図2は、本開示の実施例に係る顔属性認識方法のフローチャートを示す。
図2に示すように、上記顔属性認識方法のステップS10は、前記画像に対して畳み込み処理を行って、前記顔の畳み込み特徴を抽出するステップS11を含む。
【0049】
可能な一実現形態では、畳み込みコアは、通常、m*nの二次元マトリックスである。予め設定された畳み込みコア及びステップ幅を用いて画像における異なる位置の画像ブロックに対して畳み込み処理を行って、画像から特定の特徴を抽出する。例えば、画像における対象オブジェクトの輪郭、色の濃淡などの特徴を顔の畳み込み特徴として抽出してよい。
【0050】
ステップS20は、ステップS21と、ステップS22とを含む。ステップS21では、前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得る。
【0051】
可能な一実現形態では、抽出された顔の畳み込み特徴には、複数種類の顔属性の特徴が含まれる。予め設定された顔属性に基づいて、抽出された畳み込み特徴から、各種類の顔属性の属性特徴を得るようにしてよい。例えば、画像1から抽出された顔の畳み込み特徴には、(特徴情報1、特徴情報2、…特徴情報100)が含まれ、予め設定された3種類の顔属性に基づいて、抽出された顔の畳み込み特徴を区別して、顔属性1についての属性特徴(特徴情報1、特徴情報2、…特徴情報50)、顔属性2についての属性特徴(特徴情報20、特徴情報21、…特徴情報80)、顔属性3についての属性特徴(特徴情報1、特徴情報2、…特徴情報100)を得るようにしてよい。
【0052】
ステップS22では、各前記顔属性の属性特徴に対して分類処理を行って、各顔属性の確率予測結果を確認する。
【0053】
可能な一実現形態では、各種類の顔属性の属性特徴に基づいて分類処理を行って各種類の顔属性の確率予測結果を得るようにしてよい。例えば、画像1について、顔属性1の確率予測結果が10%、顔属性2の確率予測結果が80%、顔属性3の確率予測結果が70%である。確率閾値を50%とする場合、画像1における顔の属性認識結果は、顔属性2と顔属性3である。
【0054】
本実施例では、画像における畳み込み特徴を抽出し、畳み込み特徴に基づいて、各種類の顔属性の属性特徴を得た後に、各種類の顔属性の属性特徴に対して分類処理を行って各種類の顔属性の確率予測結果を得るようにしてよい。畳み込み特徴及び分類処理によって、顔属性の確率予測結果の精度をより一層向上させることができる。
【0055】
可能な一実現形態では、上記顔属性認識方法のステップS11は、ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することを含む。ステップS21は、前記ニューラルネットワークの全結合層によって前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得ることを含む。ステップS22は、前記ニューラルネットワークの分類層によって前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認することを含む。
【0056】
可能な一実現形態では、ニューラルネットワークは、入力層、中間層及び出力層を含み得る。入力層、中間層及び出力層は、いずれも複数のニューロンを含み、各ニューロン間で可変重み付きを持つ有向接続を用いてよい。ニューラルネットワークは、既知情報によって学習・トレーニングを繰り返して行い、ニューロン接続重みを徐々に調整、変更する方法によって、入力と出力との関係をシミュレーションするモデルを作成する目的を達成する。トレーニング済みのニューラルネットワークは、シミュレーション済みの入力と出力との関係のモデルを用いて、入力情報を検出し、入力情報に対応する出力情報を与えることができる。
【0057】
可能な一実現形態では、ニューラルネットワークは、複数の畳み込み層、全結合層及び分類層などを含み得る。ニューラルネットワークの畳み込み層によって画像に対して畳み込み処理を行って、画像の畳み込み特徴を抽出し、畳み込み特徴に基づいて、全結合層によって各種類の顔属性の属性特徴を抽出した後、さらに各種類の顔属性の属性特徴を分類層によって分類処理して、各種類の顔属性の確率予測結果を得るようにしてよい。
【0058】
本実施例では、画像をニューラルネットワークに入力し、ニューラルネットワークにおける畳み込み層、全結合層及び分類層を用いて画像における畳み込み特徴を抽出し、畳み込み特徴に基づいて、各種類の顔属性の属性特徴を得、さらに属性特徴に対して分類処理を行って画像における各種類の顔属性の確率予測結果を得るようにしてよい。ニューラルネットワークの強力な処理能力によって、顔属性認識の認識効率をより一層向上させ、認識結果の精度をより一層向上させることができる。
【0059】
可能な一実現形態では、前記ニューラルネットワークは、サンプル画像セットに基づいて教師ありトレーニングが予め行われたものであり、前記サンプル画像セット内のサンプル画像は、複数種類の顔属性のラベル情報が含まれている。
【0060】
可能な一実現形態では、複数種類の顔属性を含むサンプル画像からなるサンプル画像セットを用いて、ニューラルネットワークの教師ありトレーニングを行ってよい。例えば、サンプル画像セットはN個のサンプル画像を含み、各サンプル画像は複数種類の顔属性のラベル情報を含み得る。例えば、サンプル画像1における顔は、それぞれが第1種類の顔属性、第4種類の顔属性及び第8種類の顔属性である3種類の顔属性のラベル情報を含み、サンプル画像2における顔は、それぞれが第2種類の顔属性及び第4種類の顔属性である2種類の顔属性のラベル情報を含み、…。複数種類の顔属性を含むサンプル画像からなるサンプル画像セットを利用して、ニューラルネットワークをトレーニングしてよい。
【0061】
本実施例では、複数種類の顔属性を含むサンプル画像からなるサンプル画像セットを用いて、ニューラルネットワークの教師ありトレーニングを行ってよい。ニューラルネットワークのトレーニング効率を向上させることができ、トレーニング済みのニューラルネットワークが複数種類の顔属性を同時に認識できるようにする。
【0062】
可能な一実現形態では、前記ニューラルネットワークのトレーニング過程は、ニューラルネットワークによって前記サンプル画像の各種類の顔属性の予測結果をそれぞれ得ることと、各種類の顔属性の予測結果とそのラベル情報に基づく第1損失をそれぞれ決定することと、各種類の顔属性の第1損失に基づいて第2損失を決定することと、前記第2損失に基づいてニューラルネットワークのネットワークパラメータを調整することと、を含む。
【0063】
可能な一実現形態では、ニューラルネットワークのトレーニング過程では、サンプル画像をニューラルネットワークに入力して、サンプル画像の各種類の顔属性の予測結果を得るようにしてよい。例えば、サンプル画像1は、顔属性1のラベル情報、顔属性2のラベル情報、顔属性3のラベル情報、顔属性4のラベル情報、及び顔属性5のラベル情報という5種類の顔属性のラベル情報が含まれている。サンプル画像における顔の実際の属性に基づいて、各顔属性のラベル情報を得ることができる。例えば、サンプル画像における顔については顔属性3が存在しない場合、顔属性3のラベル情報は0またはヌルにしてよい。ニューラルネットワークにおいて予め設定された顔属性は、顔属性1~顔属性5の5つが含まれる。例えば、サンプル画像1の各種類の顔属性の予測結果について、顔属性1の予測結果が80%、顔属性2の予測結果が40%、顔属性3の予測結果が60%、顔属性4の予測結果が10%、顔属性5の予測結果が20%である。
【0064】
可能な一実現形態では、各種類の顔属性の予測結果及び各種類の顔属性のラベル情報に基づいて、各種類の顔属性の第1損失を算出してよい。予め設定された損失関数、対象顔属性の予測結果及び対象顔属性のラベル情報に基づいて、対象顔属性の第1損失を算出してよい。対象顔属性は、いずれかの顔属性である。
【0065】
可能な一実現形態では、サンプル画像における各種類の顔属性の第1損失を加算して第2損失を得るようにしてよい。
【0066】
可能な一実現形態は、いずれか1種類の前記顔属性を含む対象顔属性の第1損失及び前記対象顔属性の重みに基づいて、前記対象顔属性の重み損失を決定することと、各種類の前記対象顔属性の重み損失に基づいて、前記ニューラルネットワークの第2損失を決定することと、を含む。
【0067】
可能な一実現形態では、各種類の顔属性ごとに異なる重みを設定してよい。例えば、5種類の顔属性を予め設定し、顔属性1の重みをK1とし、顔属性2の重みをK2とし、…。各種類の顔属性の第1損失とその対応する重みとを乗算して、対象顔属性の重み損失を得る。さらに各顔属性の重み損失を加算して、第2損失を得るようにしてよい。
【0068】
可能な一実現形態では、ニューラルネットワークへ第2損失の勾配を逆方向に伝播して、ニューラルネットワークのネットワークパラメータを調整してよい。予め設定された収束条件を満たす又は予め設定されたトレーニング回数に達するまで、サンプル画像セットにおける各サンプル画像をニューラルネットワークに順次入力し、ニューラルネットワークに対して繰り返しトレーニングを行って、ニューラルネットワークのトレーニングを完成させてよい。
【0069】
本実施例では、サンプル画像をニューラルネットワークに入力して、各種類の顔属性の予測結果を得、各種類の顔属性の予測結果とそのラベル情報に基づく第1損失をそれぞれ決定し、各種類の顔属性の第1損失に基づいて第2損失を決定し、前記第2損失に基づいてニューラルネットワークのネットワークパラメータを調整してよい。本実施例では、各種類の顔属性の損失に基づいて決定された損失に基づき、ニューラルネットワークのパラメータを調整することによって、特定の顔属性の関連性がニューラルネットワークのパラメータ調整に十分反映されるため、ニューラルネットワークによる複数種類の顔属性の認識の精度を向上させることができる。
【0070】
図3は、本開示の実施例に係る顔属性認識方法におけるニューラルネットワークのトレーニングフローの模式図を示す。
図3に示すように、前記ニューラルネットワークのトレーニングフローは、以下を含む。
1.ニューラルネットワークの畳み込み層によって顔の特徴を抽出する。
2.ニューラルネットワークの全結合層によって、予め設定された各顔属性に応じて、各種類の顔属性の属性特徴を得る。
図3に示すように、顔属性1の属性特徴、顔属性2の属性特徴、…顔属性Nの属性特徴を得る。
3.ニューラルネットワークの分類層によって、各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を得る。各種類の顔属性の確率予測結果及びサンプル画像のラベル情報に基づいて、各種類の顔属性の第1損失を得る。
4.各種類の顔属性の第1損失、及び各種類の顔属性に対応する重みKに基づいて、第2損失を得る。
5.第2損失を利用してニューラルネットワークのパラメータを調整して、ニューラルネットワークのトレーニングを完成させる。
【0071】
可能な一実現形態では、前記ニューラルネットワークのトレーニング方法は、第1画像に対して反転、クロップ、平行移動、ノイズの付加の少なくとも1つを行って、前記第1画像のノイズ画像を得ることと、前記第1画像及び前記ノイズ画像をサンプル画像として決定して、前記サンプル画像セットを得ることと、をさらに含む。
【0072】
可能な一実現形態では、ニューラルネットワークのトレーニングに用いられる元画像に対して、水平反転、ランダムなクロップ、平行移動、色空間のランダムな擾乱などのノイズの付加を行って、元画像のノイズ画像を得、ノイズ画像及び元画像のいずれもサンプル画像として、サンプル画像セットを得る。
【0073】
本実施例では、画像に対して反転、クロップ、平行移動、ノイズの付加の少なくとも1つを行って、前記画像のノイズ画像を得ることによって、サンプル画像の数を増やすことができ、ニューラルネットワークの一般化能力を高めることができる。
【0074】
可能な一実現形態では、ステップS10は、前記画像の解像度を調整して第1処理画像を得ることと、前記第1処理画像における顔の特徴を抽出することと、を含む。
【0075】
可能な一実現形態では、画像の解像度を調整することによって、解像度が調整された画像をニューラルネットワークに入力して顔属性認識を行うことができる。例えば、需要に応じて、画像の解像度を224×224、128×128、96×96、64×64に調整してよい。画像の解像度が低いほど、ニューラルネットワークによる顔属性認識の速度が速くなる。顔属性認識の精度要求を満たした上で、画像の解像度を低くして顔属性認識の速度を高くすることができる。
【0076】
本実施例では、画像の解像度を調整することによって、ニューラルネットワークによる顔属性認識の速度を高めることができる。
【0077】
可能な一実現形態では、上記方法は、前記ニューラルネットワークの特徴のチャンネル数を調整して調整ニューラルネットワークを得ることをさらに含み、ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することは、前記調整ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することを含む。
【0078】
可能な一実現形態では、ニューラルネットワークの特徴のチャンネル数を調整し、例えばニューラルネットワークにおける畳み込み層の畳み込みコアのチャンネル数を調整してよい。チャンネル数を減少させることによって、ニューラルネットワークによる顔属性認識の速度を高めることができる。
【0079】
図4は、本開示の実施例に係る顔属性認識装置のブロック図を示す。
図4に示すように、前記顔属性認識装置は、画像における顔の特徴を抽出するための特徴抽出モジュール100と、前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得るための確率予測結果取得モジュール200と、各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定するための属性認識結果取得モジュール300と、を含む。
【0080】
可能な一実現形態では、前記顔の属性認識結果は、前記顔の少なくとも2つの属性認識結果を含む。
【0081】
可能な一実現形態では、前記顔属性は、年齢、性別、装飾品、肌の色、表情、動作のうちの少なくとも1つを含む。
【0082】
可能な一実現形態では、前記装飾品は、普通の眼鏡、サングラス、帽子、マスクのうちの少なくとも1つを含み、前記表情は、喜び、悲しみ、泣き、怒り、興奮のうちの少なくとも1つを含み、前記動作は、タバコを吸うこと、水/飲み物を飲むこと、食事をすること、化粧をすること、電話をすることのうちの少なくとも1つを含む。
【0083】
可能な一実現形態では、前記画像は、車両に設けられた車載カメラによって撮像される車両の位置する道路の画像及び/又は車両内の画像を含み、前記画像における顔は、車両の位置する道路における歩行者、車両の運転者・乗員及び/又は他車両の運転者・乗員の顔を含み、前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす属性認識結果を含む。
【0084】
可能な一実現形態では、上記装置は、前記画像における顔の属性認識結果に基づいて、第1対象オブジェクトを決定するための第1対象オブジェクト決定モジュールと、決定された前記第1対象オブジェクトに応じて、車両が速度保持、方向保持、減速、操舵、ブレーキのいずれか1つを実行するように提示情報を送信する及び/又は車両制御システムに制御指令を送信するための運転制御モジュールと、をさらに含む。
【0085】
可能な一実現形態では、前記画像は、ショッピングセンター、学校、大型会場、路面、オフィスビルのいずれか1つを含む観察場所に設けられた観察カメラによって撮像される観察画像を含み、前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす属性認識結果を含む。
【0086】
可能な一実現形態では、上記装置は、前記観察画像における顔の属性認識結果に基づいて、第2対象オブジェクトを決定するための第2対象オブジェクト決定モジュールと、決定された前記第2対象オブジェクトに応じて前記観察場所で設定情報を送信すること、または、決定された前記第2対象オブジェクトに応じて提示情報を観察者へ送信するための観察制御モジュールと、をさらに含む。
【0087】
可能な一実現形態では、前記特徴抽出モジュールは、前記画像に対して畳み込み処理を行って前記顔の畳み込み特徴を抽出する。
【0088】
可能な一実現形態では、前記確率予測結果取得モジュールは、前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得るための顔属性特徴抽出サブモジュールと、前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認するための確率予測結果取得サブモジュールと、を含む。
【0089】
可能な一実現形態では、前記特徴抽出モジュールは、ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出し、前記顔属性特徴抽出サブモジュールは、前記ニューラルネットワークの全結合層によって前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得、前記確率予測結果取得サブモジュールは、前記ニューラルネットワークの分類層によって前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認する。
【0090】
可能な一実現形態では、前記ニューラルネットワークは、サンプル画像セットに基づいて教師ありトレーニングが予め行われたものであり、前記サンプル画像セット内のサンプル画像は、複数種類の顔属性のラベル情報が含まれている。
【0091】
可能な一実現形態では、上記装置は、前記ニューラルネットワークのトレーニングを行うためのトレーニングモジュールをさらに含み、前記トレーニングモジュールは、ニューラルネットワークによって前記サンプル画像の各種類の顔属性の予測結果をそれぞれ取得し、各種類の顔属性の予測結果とそのラベル情報に基づく第1損失をそれぞれ決定し、各種類の顔属性の第1損失に基づいて第2損失を決定し、前記第2損失に基づいてニューラルネットワークのネットワークパラメータを調整する。
【0092】
可能な一実現形態では、各種類の顔属性の第1損失に基づいて前記ニューラルネットワークの第2損失を決定することは、いずれか1種類の顔属性を含む対象顔属性の第1損失及び前記対象顔属性の重みに基づいて、前記対象顔属性の重み損失を決定することと、前記対象顔属性の重み損失に基づいて、前記ニューラルネットワークの第2損失を決定することと、を含む。
【0093】
可能な一実現形態では、前記トレーニングモジュールは、さらに、第1画像に対して反転、クロップ、平行移動、ノイズの付加の少なくとも1つを行って、前記第1画像のノイズ画像を得、前記第1画像及び前記ノイズ画像をサンプル画像として決定して、前記サンプル画像セットを得る。
【0094】
可能な一実現形態では、前記特徴抽出モジュールは、前記画像の解像度を調整して第1処理画像を得るための第1処理画像取得モジュールと、前記第1処理画像における顔の特徴を抽出するための第1特徴抽出サブモジュールと、を含む。
【0095】
可能な一実現形態では、上記装置は、前記ニューラルネットワークの特徴のチャンネル数を調整して調整ニューラルネットワークを得るためのチャンネル調整モジュールをさらに含み、前記特徴抽出モジュールは、さらに、前記調整ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出する。
【0096】
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。
【0097】
また、当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの記載順序は、実行順序を厳密に限定して実施の過程を限定するものではなく、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
【0098】
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
【0099】
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記の方法を実現させるコンピュータ可読記憶媒体がさらに提供される。当該コンピュータ可読記憶媒体は、不揮発性のコンピュータ可読記憶媒体であってもよい。
【0100】
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、を含み、前記プロセッサは、上記の方法を実行するように構成される電子機器がさらに提供される。
【0101】
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
【0102】
図5は、例示的な一実施例の電子機器800のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
【0103】
図5を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
【0104】
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
【0105】
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
【0106】
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
【0107】
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
【0108】
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
【0109】
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
【0110】
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCDイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
【0111】
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
【0112】
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
【0113】
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行され、上記方法を実行することができる。
【0114】
本開示の実施例では、コンピュータ可読コードを含むコンピュータプログラム製品であって、当該コンピュータ可読コードは機器において動作すると、機器のプロセッサに上述したいずれかの実施例に係る方法を実現するための命令を実行させるコンピュータプログラム製品がさらに提供される。
【0115】
当該コンピュータプログラム製品は、ハードウェア、ソフトウェア、又はそれらの組み合わせによって具体的に実現できる。選択可能的な一実施例では、前記コンピュータプログラム製品はコンピュータ記憶媒体として具現化される。選択可能的な別の実施例では、コンピュータプログラム製品はソフトウェア製品、例えば、ソフトウェア開発キット(Software Development Kit、略称SDK)等として具現化される。
【0116】
図6は、例示的な一実施例の電子機器1900のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。
図6を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
【0117】
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されているオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似するものに基づいて動作できる。
【0118】
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行され、上記方法を実行することができる。
【0119】
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
【0120】
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
【0121】
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
【0122】
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。
【0123】
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
【0124】
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
【0125】
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
【0126】
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
【0127】
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。
【手続補正書】
【提出日】2021-06-11
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
画像における顔の特徴を抽出することと、
前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得ることと、
各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定することと、
を含むことを特徴とする顔属性認識方法。
【請求項2】
前記顔の属性認識結果は、前記顔の少なくとも2つの属性認識結果を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記顔属性は、年齢、性別、装飾品、肌の色、表情、動作のうちの少なくとも1つを含むことを特徴とする請求項1又は2に記載の方法。
【請求項4】
前記装飾品は、普通の眼鏡、サングラス、帽子、マスクのうちの少なくとも1つを含み、前記表情は、喜び、悲しみ、泣き、怒り、興奮のうちの少なくとも1つを含み、前記動作は、タバコを吸うこと、水/飲み物を飲むこと、食事をすること、化粧をすること、電話をすることのうちの少なくとも1つを含むことを特徴とする請求項3に記載の方法。
【請求項5】
前記画像は、車両に設けられた車載カメラによって撮像される車両の位置する道路の画像及び/又は車両内の画像を含み、
前記画像における顔は、車両の位置する道路における歩行者、車両の運転者・乗員及び/又は他車両の運転者・乗員の顔を含み、
前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす属性認識結果を含むことを特徴とする請求項3又は4に記載の方法。
【請求項6】
前記画像における顔の属性認識結果に基づいて、第1対象オブジェクトを決定することと、
決定された前記第1対象オブジェクトに応じて、車両が速度保持、方向保持、減速、操舵、ブレーキのいずれか1つを実行するように提示情報を送信する及び/又は車両制御システムに制御指令を送信することと、
をさらに含むことを特徴とする請求項5に記載の方法。
【請求項7】
前記画像は、ショッピングセンター、学校、大型会場、路面、オフィスビルのいずれか1つを含む観察場所に設けられた観察カメラによって撮像される観察画像を含み、
前記属性認識結果は、所定年齢、所定性別、所定装飾品、所定肌の色、所定表情、所定動作のうちの少なくとも1つを満たす属性認識結果を含むことを特徴とする請求項3又は4に記載の方法。
【請求項8】
前記観察画像における顔の属性認識結果に基づいて、第2対象オブジェクトを決定することと、
決定された前記第2対象オブジェクトに応じて前記観察場所で設定情報を送信すること、または、決定された前記第2対象オブジェクトに応じて提示情報を観察者へ送信することと、
をさらに含むことを特徴とする請求項7に記載の方法。
【請求項9】
画像における顔の特徴を抽出することは、
前記画像に対して畳み込み処理を行って、前記顔の畳み込み特徴を抽出することを含むことを特徴とする請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得ることは、
前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得ることと、
前各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認することと、
をさらに含むことを特徴とする請求項9に記載の方法。
【請求項11】
前記画像に対して畳み込み処理を行って、前記顔の畳み込み特徴を抽出することは、
ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することを含み、
前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得ることは、
前記ニューラルネットワークの全結合層によって前記顔の畳み込み特徴から各種類の顔属性の特徴を抽出して、各種類の顔属性の属性特徴を得ることを含み、
前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認することは、
前記ニューラルネットワークの分類層によって前記各種類の顔属性の属性特徴に対して分類処理を行って、各種類の顔属性の確率予測結果を確認することを含むことを特徴とする請求項10に記載の方法。
【請求項12】
前記ニューラルネットワークは、サンプル画像セットに基づいて教師ありトレーニングが予め行われたものであり、前記サンプル画像セット内のサンプル画像は、複数種類の顔属性のラベル情報が含まれていることを特徴とする請求項11に記載の方法。
【請求項13】
前記ニューラルネットワークのトレーニング過程は、
ニューラルネットワークによって前記サンプル画像の各種類の顔属性の予測結果をそれぞれ得ることと、
各種類の顔属性の予測結果とそのラベル情報に基づく第1損失をそれぞれ決定することと、
各種類の顔属性の第1損失に基づいて第2損失を決定することと、
前記第2損失に基づいてニューラルネットワークのネットワークパラメータを調整することと、
を含むことを特徴とする請求項12に記載の方法。
【請求項14】
各種類の顔属性の第1損失に基づいて前記ニューラルネットワークの第2損失を決定することは、
いずれか1種類の顔属性を含む対象顔属性の第1損失及び前記対象顔属性の重みに基づいて、前記対象顔属性の重み損失を決定することと、
前記各種類の顔属性の重み損失に基づいて、前記ニューラルネットワークの第2損失を決定することと、
を含むことを特徴とする請求項13に記載の方法。
【請求項15】
前記ニューラルネットワークのトレーニング方法は、
第1画像に対して反転、クロップ、平行移動、ノイズの付加の少なくとも1つを行って、前記第1画像のノイズ画像を得ることと、
前記第1画像及び前記ノイズ画像をサンプル画像として決定して、前記サンプル画像セットを得ることと、
をさらに含むことを特徴とする請求項12~14のいずれか一項に記載の方法。
【請求項16】
画像における顔の特徴を抽出することは、
前記画像の解像度を調整して第1処理画像を得ることと、
前記第1処理画像における顔の特徴を抽出することと、
を含むことを特徴とする請求項1~15のいずれか一項に記載の方法。
【請求項17】
前記ニューラルネットワークの特徴のチャンネル数を調整して、調整ニューラルネットワークを得ることをさらに含み、
ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することは、
前記調整ニューラルネットワークの畳み込み層によって前記画像に対して畳み込み処理を行って、前記画像の畳み込み特徴を抽出することを含むことを特徴とする請求項11~16のいずれか一項に記載の方法。
【請求項18】
画像における顔の特徴を抽出するための特徴抽出モジュールと、
前記顔の特徴に基づいて、予め設定された複数種類の顔属性の認識を行って、各種類の顔属性の確率予測結果を得るための確率予測結果取得モジュールと、
各種類の顔属性の確率予測結果に基づいて、前記画像における顔の属性認識結果を決定するための属性認識結果取得モジュールと、
を含むことを特徴とする顔属性認識装置。
【請求項19】
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、請求項1~17のいずれか一項に記載の方法を実行するように構成されることを特徴とする電子機器。
【請求項20】
コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令がプロセッサによって実行されると、請求項1~17のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
【請求項21】
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器におけるプロセッサに請求項1~17のいずれか一項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。
【国際調査報告】