(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-10
(45)【発行日】2022-03-18
(54)【発明の名称】顔認識方法及び装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20220311BHJP
G06N 3/08 20060101ALI20220311BHJP
【FI】
G06T7/00 510F
G06T7/00 660A
G06T7/00 350C
G06N3/08
(21)【出願番号】P 2020573005
(86)(22)【出願日】2019-10-30
(86)【国際出願番号】 CN2019114432
(87)【国際公開番号】W WO2020192112
(87)【国際公開日】2020-10-01
【審査請求日】2020-12-25
(31)【優先権主張番号】201910220321.5
(32)【優先日】2019-03-22
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】516158932
【氏名又は名称】ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド
(74)【代理人】
【識別番号】100078282
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】于志▲鵬▼
【審査官】佐田 宏史
(56)【参考文献】
【文献】特開2017-102671(JP,A)
【文献】特開2015-219648(JP,A)
【文献】特表2019-510325(JP,A)
【文献】米国特許出願公開第2018/0293429(US,A1)
【文献】国際公開第2017/174982(WO,A1)
【文献】大林 慎太郎、外3名,“SVMを用いた顔認証実験の検証”,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2014年02月06日,Vol.113, No.432,pp.31-34
【文献】今岡 仁、外2名,“3 安心安全を守るバイオメトリクス技術”,情報処理,日本,一般社団法人情報処理学会,2010年12月15日,Vol.51, No.12,pp.1547-1554
【文献】加藤 博之、外2名,“被認証顔の属性の多様性に対する個人認証システムのロバスト性の評価 -GaborJet法とEigenface法の比較-”,映像情報メディア学会技術報告,日本,(社)映像情報メディア学会,2005年02月03日,Vol.29, No.8,pp.87-92
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,7/00-7/90
G06N 3/02,3/08
(57)【特許請求の範囲】
【請求項1】
電子機器によって実行される顔認識方法であって、前記
顔認識方法は、
認識待ち画像を取得することと、
クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得ることであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものであること
と
を含
み、
異なるモーダルの顔画像データに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るプロセスは、
第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得ることを含み、
前記顔認識方法は、第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得る前に、第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練することを更に含み、前記第1画像集合における対象は、第1カテゴリに属し、前記第2画像集合における対象は、第2カテゴリに属し、
第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練することは、
前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得ることと、
所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、前記第1数の画像及び前記第2数の画像に基づいて、第3画像集合を得ることと、
前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることと
を含む、顔認識方法。
【請求項2】
前記所定の条件は、前記第1数が前記第2数と同じであること、前記第1数と前記第2数との比が、前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比に等しいこと、前記第1数と前記第2数との比が、前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比に等しいこと
のうちのいずれか1つを含む
、請求項
1に記載の
顔認識方法。
【請求項3】
前記第1モーダルネットワークは、第1特徴抽出分岐
と第2特徴抽出分岐
と第3特徴抽出分岐
とを含み、
前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得ることは、
前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練することであって、前記第4画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像である
、ことと、
訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐又は訓練後の第3特徴抽出分岐を前記第2モーダルネットワークとすること
と
を含む
、請求項
1に記載の
顔認識方法。
【請求項4】
前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練することは、
前記第1画像集合、前記第2画像集合及び前記第4画像集合をそれぞれ前記第1特徴抽出分岐、前記第2特徴抽出分岐及び前記第3特徴抽出分岐に入力し、第1認識結果、第2認識結果及び第3認識結果をそれぞれ得ることと、
前記第1特徴抽出分岐の第1損失関数、前記第2特徴抽出分岐の第2損失関数及び前記第3特徴抽出分岐の第3損失関数を取得することと、
前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得ることであって、前記第1モーダルネットワークのパラメータは、第1特徴抽出分岐パラメータ、第2特徴抽出分岐パラメータ及び第3特徴抽出分岐パラメータを含み、前記調整された第1モーダルネットワークの各分岐パラメータは
、同じである、こと
と
を含む
、請求項
3に記載の
顔認識方法。
【請求項5】
前記第1画像集合における画像は、第1アノテーション情報を含み、前記第2画像集合における画像は、第2アノテーション情報を含み、前記第4画像集合における画像は、第3アノテーション情報を含み、
前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得ることは、
前記第1アノテーション情報、前記第1認識結果、前記第1損失関数及び前記第1特徴抽出分岐の初期パラメータに基づいて、第1勾配を得て、前記第2アノテーション情報、前記第2認識結果、前記第2損失関数及び前記第2特徴抽出分岐の初期パラメータに基づいて、第2勾配を得て、前記第3アノテーション情報、前記第3認識結果、前記第3損失関数及び前記第3特徴抽出分岐の初期パラメータに基づいて、第3勾配を得ることと、
前記第1勾配、前記第2勾配及び前記第3勾配の平均値を前記第1モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第1モーダルネットワークのパラメータを調整し、前記第1特徴抽出分岐のパラメータ、前記第2特徴抽出分岐のパラメータ及び前記第3特徴抽出分岐のパラメータを同じくすること
と
を含む
、請求項
4に記載の
顔認識方法。
【請求項6】
所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、第3画像集合を得ることは、
前記第1画像集合及び前記第2画像集合からそれぞれf枚の画像を選択し、前記f枚の画像に含まれる人数を閾値となるようにし、前記第3画像集合を得ること、又は、
前記第1画像集合及び前記第2画像集合から、m枚の画像及びn枚の画像をそれぞれ選択し、前記mと前記nとの比を前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比と同じくし、且つ、前記m枚の画像及び前記n枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得ること、又は、
前記第1画像集合及び前記第2画像集合から、s枚の画像及びt枚の画像をそれぞれ選択し、前記sと前記tとの比を前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比と同じくし、且つ、前記s枚の画像及び前記t枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得るこ
と
を含む
、請求項
1又は
2に記載の
顔認識方法。
【請求項7】
前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることは、
前記第3画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第4認識結果を得ることと、
前記第3画像集合における画像、前記第4認識結果及び前記第2モーダルネットワークの第4損失関数に基づいて、前記第2モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得ること
と
を含む
、請求項
1に記載の
顔認識方法。
【請求項8】
前記第1カテゴリ及び前記第2カテゴリは
、それぞれ異なる人種に対応する
、請求項1
、2、4、5のうち
のいずれか一項に記載の
顔認識方法。
【請求項9】
顔認識装置であって、前記
顔認識装置は、
認識待ち画像を取得するように構成される取得ユニットと、
クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得るように構成される認識ユニットであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである認識ユニット
と
を備え
、
前記認識ユニットは、
第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るように構成される訓練サブユニットを備え、
前記訓練サブユニットは、
第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練するように更に構成され、前記第1画像集合における対象は、第1カテゴリに属し、前記第2画像集合における対象は、第2カテゴリに属し、
前記訓練サブユニットは、
前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得ることと、
所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、前記第1数の画像及び前記第2数の画像に基づいて、第3画像集合を得ることと、
前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることと
を行うように更に構成される、顔認識装置。
【請求項10】
電子機器であって、前記電子機器は、メモリ
とプロセッサ
とを備え、前記メモリに
は、コンピュータに
よって実行可能な命令が記憶されており、前記プロセッサは、前記メモリに記憶され
ている前記命令を実行する
ことにより、請求項1
~8のうち
のいずれか一項に記載の
顔認識方法を実現する
、電子機器。
【請求項11】
コンピュータ
読み取り可能な記憶媒体であって、前記コンピュータ
読み取り可能な記憶媒体に
は、コンピュータプログラムが記憶されており、
前記コンピュータプログラム
は、プロセッサに
よって実行される
と、請求項1
~8のうち
のいずれか一項に記載の
顔認識方法を実現
することを前記プロセッサに行わせる、コンピュータ
読み取り可能な記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本願は、2019年3月22日に提出された、出願番号が201910220321.5である中国特許出願に基づく優先権を主張し、該中国特許出願の全内容が参照として本願に組み込まれる。
【0002】
本願の実施例は、画像処理技術分野に関し、特に、顔認識方法及び装置に関する。
【背景技術】
【0003】
セキュリティ、社会保険、通信などの分野において、顔追跡、実名認証、スマートフォンのロック解除などの操作を実現させるために、異なる画像に含まれる人物対象が同一の人物であるかどうかを認識する必要がある。現在、顔認識アルゴリズムにより、異なる画像における人物対象に対してそれぞれ顔認識を行うことで、異なる画像に含まれる人物対象が同一の人物であるかどうかを認識することができるが、認識の正確率が低い。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本願は、顔認識方法を提供することで、異なる画像に含まれる人物対象が同一の人物であるかどうかを認識する。
【課題を解決するための手段】
【0005】
第1態様によれば、顔認識方法を提供する。前記方法は、認識待ち画像を取得することと、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得ることであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものであることと、を含む。
【0006】
可能な実現形態において、異なるモーダルの顔画像データに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るプロセスは、第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得ることを含む。
【0007】
もう1つの可能な実現形態において、第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得る前に、第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練することを更に含み、前記第1画像集合における対象は、第1カテゴリに属し、前記第2画像集合における対象は、第2カテゴリに属する。
【0008】
また1つの可能な実現形態において、第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練することは、前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得ることと、所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、前記第1数の画像及び前記第2数の画像に基づいて、第3画像集合を得ることと、前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることと、を含む。
【0009】
また1つの可能な実現形態において、前記所定の条件は、前記第1数が前記第2数と同じであること、前記第1数と前記第2数との比が、前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比に等しいこと、前記第1数と前記第2数との比が、前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比に等しいこと、のうちのいずれか1つを含む。
【0010】
また1つの可能な実現形態において、前記第1モーダルネットワークは、第1特徴抽出分岐と、第2特徴抽出分岐と、第3特徴抽出分岐と、を含み、前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得ることは、前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練することであって、前記第4画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であることと、訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐又は訓練後の第3特徴抽出分岐を前記第2モーダルネットワークとすることと、を含む。
【0011】
また1つの可能な実現形態において、前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練することは、前記第1画像集合、前記第2画像集合及び前記第4画像集合をそれぞれ前記第1特徴抽出分岐、前記第2特徴抽出分岐及び前記第3特徴抽出分岐に入力し、第1認識結果、第2認識結果及び第3認識結果をそれぞれ得ることと、前記第1特徴抽出分岐の第1損失関数、前記第2特徴抽出分岐の第2損失関数及び前記第3特徴抽出分岐の第3損失関数を取得することと、前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得ることであって、前記第1モーダルネットワークのパラメータは、第1特徴抽出分岐パラメータ、第2特徴抽出分岐パラメータ及び第3特徴抽出分岐パラメータを含み、前記調整された第1モーダルネットワークの各分岐パラメータは同じであることと、を含む。
【0012】
また1つの可能な実現形態において、前記第1画像集合における画像は、第1アノテーション情報を含み、前記第2画像集合における画像は、第2アノテーション情報を含み、前記第4画像集合における画像は、第3アノテーション情報を含み、前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得ることは、前記第1アノテーション情報、前記第1認識結果、前記第1損失関数及び前記第1特徴抽出分岐の初期パラメータに基づいて、第1勾配を得て、前記第2アノテーション情報、前記第2認識結果、前記第2損失関数及び前記第2特徴抽出分岐の初期パラメータに基づいて、第2勾配を得て、前記第3アノテーション情報、前記第3認識結果、前記第3損失関数及び前記第3特徴抽出分岐の初期パラメータに基づいて、第3勾配を得ることと、前記第1勾配、前記第2勾配及び前記第3勾配の平均値を前記第1モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第1モーダルネットワークのパラメータを調整し、前記第1特徴抽出分岐のパラメータ、前記第2特徴抽出分岐のパラメータ及び前記第3特徴抽出分岐のパラメータを同じくすることと、を含む。
【0013】
また1つの可能な実現形態において、所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、第3画像集合を得ることは、前記第1画像集合及び前記第2画像集合からそれぞれf枚の画像を選択し、前記f枚の画像に含まれる人数を閾値となるようにし、前記第3画像集合を得ること、又は、前記第1画像集合及び前記第2画像集合から、m枚の画像及びn枚の画像をそれぞれ選択し、前記mと前記nとの比を前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比と同じくし、且つ、前記m枚の画像及び前記n枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得ること、又は、前記第1画像集合及び前記第2画像集合から、s枚の画像及びt枚の画像をそれぞれ選択し、前記sと前記tとの比を前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比と同じくし、且つ、前記s枚の画像及び前記t枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得ることを含む。
【0014】
また1つの可能な実現形態において、前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることは、前記第3画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第4認識結果を得ることと、前記第3画像集合における画像、前記第4認識結果及び前記第2モーダルネットワークの第4損失関数に基づいて、前記第2モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得ることと、を含む。
【0015】
また1つの可能な実現形態において、前記第1カテゴリ及び前記第2カテゴリはそれぞれ異なる人種に対応する。
【0016】
第2態様によれば、顔認識装置を提供する。前記装置は、認識待ち画像を取得するように構成される取得ユニットと、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得るように構成される認識ユニットであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである認識ユニットと、を備える。
【0017】
可能な実現形態において、前記認識ユニットは、第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るように構成される訓練サブユニットを備える。
【0018】
もう1つの可能な実現形態において、前記訓練サブユニットは更に、第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練するように構成され、前記第1画像集合における対象は、第1カテゴリに属し、前記第2画像集合における対象は、第2カテゴリに属する。
【0019】
また1つの可能な実現形態において、前記訓練サブユニットは更に、前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得て、所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、前記第1数の画像及び前記第2数の画像に基づいて、第3画像集合を得て、前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得るように構成される。
【0020】
また1つの可能な実現形態において、前記所定の条件は、前記第1数が前記第2数と同じであること、前記第1数と前記第2数との比が、前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比に等しいこと、前記第1数と前記第2数との比が、前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比に等しいこと、のうちのいずれか1つを含む。
【0021】
また1つの可能な実現形態において、前記第1モーダルネットワークは、第1特徴抽出分岐と、第2特徴抽出分岐と、第3特徴抽出分岐と、を含み、前記訓練サブユニットは更に、前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練し、前記第4画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐又は訓練後の第3特徴抽出分岐を前記第2モーダルネットワークとするように構成される。
【0022】
また1つの可能な実現形態において、前記訓練サブユニットは更に、前記第1画像集合、前記第2画像集合及び前記第4画像集合をそれぞれ前記第1特徴抽出分岐、前記第2特徴抽出分岐及び前記第3特徴抽出分岐に入力し、第1認識結果、第2認識結果及び第3認識結果をそれぞれ得て、前記第1特徴抽出分岐の第1損失関数、前記第2特徴抽出分岐の第2損失関数及び前記第3特徴抽出分岐の第3損失関数を取得し、前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得るように構成され、前記第1モーダルネットワークのパラメータは、第1特徴抽出分岐パラメータ、第2特徴抽出分岐パラメータ及び第3特徴抽出分岐パラメータを含み、前記調整された第1モーダルネットワークの各分岐パラメータは同じである。
【0023】
また1つの可能な実現形態において、前記第1画像集合における画像は、第1アノテーション情報を含み、前記第2画像集合における画像は、第2アノテーション情報を含み、前記第4画像集合における画像は、第3アノテーション情報を含み、前記訓練サブユニットは更に、前記第1アノテーション情報、前記第1認識結果、前記第1損失関数及び前記第1特徴抽出分岐の初期パラメータに基づいて、第1勾配を得て、前記第2アノテーション情報、前記第2認識結果、前記第2損失関数及び前記第2特徴抽出分岐の初期パラメータに基づいて、第2勾配を得て、前記第3アノテーション情報、前記第3認識結果、前記第3損失関数及び前記第3特徴抽出分岐の初期パラメータに基づいて、第3勾配を得て、前記第1勾配、前記第2勾配及び前記第3勾配の平均値を前記第1モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第1モーダルネットワークのパラメータを調整し、前記第1特徴抽出分岐のパラメータ、前記第2特徴抽出分岐のパラメータ及び前記第3特徴抽出分岐のパラメータを同じくするように構成される。
【0024】
また1つの可能な実現形態において、前記訓練サブユニットは更に、前記第1画像集合及び前記第2画像集合からそれぞれf枚の画像を選択し、前記f枚の画像に含まれる人数を閾値となるようにし、前記第3画像集合を得るように構成され、又は、前記第1画像集合及び前記第2画像集合から、m枚の画像及びn枚の画像をそれぞれ選択し、前記mと前記nとの比を前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比と同じくし、且つ、前記m枚の画像及び前記n枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得るように構成され、又は、前記第1画像集合及び前記第2画像集合から、s枚の画像及びt枚の画像をそれぞれ選択し、前記sと前記tとの比を前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比と同じくし、且つ、前記s枚の画像及び前記t枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得るように構成される。
【0025】
また1つの可能な実現形態において、前記訓練サブユニットは更に、前記第3画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第4認識結果を得て、前記第3画像集合における画像、前記第4認識結果及び前記第2モーダルネットワークの第4損失関数に基づいて、前記第2モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得るように構成される。
【0026】
また1つの可能な実現形態において、前記第1カテゴリ及び前記第2カテゴリはそれぞれ異なる人種に対応する。
【0027】
第3態様によれば、電子機器を提供する。前記電子機器は、プロセッサと、メモリと、を備え、前記プロセッサは、前記装置による上記第1態様及びそのいずれか1つの可能な実現形態の方法における機能の実行をサポートするように構成される。メモリは、プロセッサと結合し、前記装置に必要なプログラム(命令)及びデータを記憶するように構成される。任意選択的に、前記装置は、前記装置と他の装置との通信をサポートするための入力/出力インタフェースを更に備えてもよい。
【0028】
第4態様によれば、コンピュータ可読記憶媒体を提供する。前記コンピュータ可読記憶媒体に命令が記憶されており、命令がコンピュータで実行される場合、コンピュータに、上記第1態様及びそのいずれか1つの可能な実現形態の方法を実行させる。
例えば、本願は以下の項目を提供する。
(項目1)
顔認識方法であって、前記方法は、
認識待ち画像を取得することと、
クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得ることであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものであることと、を含む、顔認識方法。
(項目2)
異なるモーダルの顔画像データに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るプロセスは、
第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得ることを含むことを特徴とする
項目1に記載の方法。
(項目3)
第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得る前に、
第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練することを更に含み、前記第1画像集合における対象は、第1カテゴリに属し、前記第2画像集合における対象は、第2カテゴリに属することを特徴とする
項目2に記載の方法。
(項目4)
第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練することは、
前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得ることと、
所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、前記第1数の画像及び前記第2数の画像に基づいて、第3画像集合を得ることと、
前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることと、を含むことを特徴とする
項目3に記載の方法。
(項目5)
前記所定の条件は、前記第1数が前記第2数と同じであること、前記第1数と前記第2数との比が、前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比に等しいこと、前記第1数と前記第2数との比が、前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比に等しいこと、のうちのいずれか1つを含むことを特徴とする
項目4に記載の方法。
(項目6)
前記第1モーダルネットワークは、第1特徴抽出分岐と、第2特徴抽出分岐と、第3特徴抽出分岐と、を含み、
前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得ることは、
前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練することであって、前記第4画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であることと、
訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐又は訓練後の第3特徴抽出分岐を前記第2モーダルネットワークとすることと、を含むことを特徴とする
項目2又は4に記載の方法。
(項目7)
前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練することは、
前記第1画像集合、前記第2画像集合及び前記第4画像集合をそれぞれ前記第1特徴抽出分岐、前記第2特徴抽出分岐及び前記第3特徴抽出分岐に入力し、第1認識結果、第2認識結果及び第3認識結果をそれぞれ得ることと、
前記第1特徴抽出分岐の第1損失関数、前記第2特徴抽出分岐の第2損失関数及び前記第3特徴抽出分岐の第3損失関数を取得することと、
前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得ることであって、前記第1モーダルネットワークのパラメータは、第1特徴抽出分岐パラメータ、第2特徴抽出分岐パラメータ及び第3特徴抽出分岐パラメータを含み、前記調整された第1モーダルネットワークの各分岐パラメータは同じであることと、を含むことを特徴とする
項目6に記載の方法。
(項目8)
前記第1画像集合における画像は、第1アノテーション情報を含み、前記第2画像集合における画像は、第2アノテーション情報を含み、前記第4画像集合における画像は、第3アノテーション情報を含み、
前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得ることは、
前記第1アノテーション情報、前記第1認識結果、前記第1損失関数及び前記第1特徴抽出分岐の初期パラメータに基づいて、第1勾配を得て、前記第2アノテーション情報、前記第2認識結果、前記第2損失関数及び前記第2特徴抽出分岐の初期パラメータに基づいて、第2勾配を得て、前記第3アノテーション情報、前記第3認識結果、前記第3損失関数及び前記第3特徴抽出分岐の初期パラメータに基づいて、第3勾配を得ることと、
前記第1勾配、前記第2勾配及び前記第3勾配の平均値を前記第1モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第1モーダルネットワークのパラメータを調整し、前記第1特徴抽出分岐のパラメータ、前記第2特徴抽出分岐のパラメータ及び前記第3特徴抽出分岐のパラメータを同じくすることと、を含むことを特徴とする
項目7に記載の方法。
(項目9)
所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、第3画像集合を得ることは、
前記第1画像集合及び前記第2画像集合からそれぞれf枚の画像を選択し、前記f枚の画像に含まれる人数を閾値となるようにし、前記第3画像集合を得ること、又は、
前記第1画像集合及び前記第2画像集合から、m枚の画像及びn枚の画像をそれぞれ選択し、前記mと前記nとの比を前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比と同じくし、且つ、前記m枚の画像及び前記n枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得ること、又は、
前記第1画像集合及び前記第2画像集合から、s枚の画像及びt枚の画像をそれぞれ選択し、前記sと前記tとの比を前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比と同じくし、且つ、前記s枚の画像及び前記t枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得ることを含むことを特徴とする
項目4又は5に記載の方法。
(項目10)
前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得ることは、
前記第3画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第4認識結果を得ることと、
前記第3画像集合における画像、前記第4認識結果及び前記第2モーダルネットワークの第4損失関数に基づいて、前記第2モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得ることと、を含むことを特徴とする
項目3に記載の方法。
(項目11)
前記第1カテゴリ及び前記第2カテゴリはそれぞれ異なる人種に対応することを特徴とする
項目1から5、7、8、10のうちいずれか一項に記載の方法。
(項目12)
顔認識装置であって、前記装置は、
認識待ち画像を取得するように構成される取得ユニットと、
クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得るように構成される認識ユニットであって、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである認識ユニットと、を備える、顔認識装置。
(項目13)
前記認識ユニットは、
第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るように構成される訓練サブユニットを備えることを特徴とする
項目12に記載の装置。
(項目14)
前記訓練サブユニットは更に、
第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練するように構成され、前記第1画像集合における対象は、第1カテゴリに属し、前記第2画像集合における対象は、第2カテゴリに属することを特徴とする
項目13に記載の装置。
(項目15)
前記訓練サブユニットは更に、
前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得て、
所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、前記第1数の画像及び前記第2数の画像に基づいて、第3画像集合を得て、
前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得るように構成されることを特徴とする
項目14に記載の装置。
(項目16)
前記所定の条件は、前記第1数が前記第2数と同じであること、前記第1数と前記第2数との比が、前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比に等しいこと、前記第1数と前記第2数との比が、前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比に等しいこと、のうちのいずれか1つを含むことを特徴とする
項目15に記載の装置。
(項目17)
前記第1モーダルネットワークは、第1特徴抽出分岐と、第2特徴抽出分岐と、第3特徴抽出分岐と、を含み、前記訓練サブユニットは更に、
前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練し、前記第4画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、
訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐又は訓練後の第3特徴抽出分岐を前記第2モーダルネットワークとするように構成されることを特徴とする
項目13又は15に記載の装置。
(項目18)
前記訓練サブユニットは更に、
前記第1画像集合、前記第2画像集合及び前記第4画像集合をそれぞれ前記第1特徴抽出分岐、前記第2特徴抽出分岐及び前記第3特徴抽出分岐に入力し、第1認識結果、第2認識結果及び第3認識結果をそれぞれ得て、
前記第1特徴抽出分岐の第1損失関数、前記第2特徴抽出分岐の第2損失関数及び前記第3特徴抽出分岐の第3損失関数を取得し、
前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得るように構成され、前記第1モーダルネットワークのパラメータは、第1特徴抽出分岐パラメータ、第2特徴抽出分岐パラメータ及び第3特徴抽出分岐パラメータを含み、前記調整された第1モーダルネットワークの各分岐パラメータは同じであることを特徴とする
項目17に記載の装置。
(項目19)
前記第1画像集合における画像は、第1アノテーション情報を含み、前記第2画像集合における画像は、第2アノテーション情報を含み、前記第4画像集合における画像は、第3アノテーション情報を含み、前記訓練サブユニットは更に、
前記第1アノテーション情報、前記第1認識結果、前記第1損失関数及び前記第1特徴抽出分岐の初期パラメータに基づいて、第1勾配を得て、前記第2アノテーション情報、前記第2認識結果、前記第2損失関数及び前記第2特徴抽出分岐の初期パラメータに基づいて、第2勾配を得て、前記第3アノテーション情報、前記第3認識結果、前記第3損失関数及び前記第3特徴抽出分岐の初期パラメータに基づいて、第3勾配を得て、
前記第1勾配、前記第2勾配及び前記第3勾配の平均値を前記第1モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第1モーダルネットワークのパラメータを調整し、前記第1特徴抽出分岐のパラメータ、前記第2特徴抽出分岐のパラメータ及び前記第3特徴抽出分岐のパラメータを同じくするように構成されることを特徴とする
項目18に記載の装置。
(項目20)
前記訓練サブユニットは更に、
前記第1画像集合及び前記第2画像集合からそれぞれf枚の画像を選択し、前記f枚の画像に含まれる人数を閾値となるようにし、前記第3画像集合を得るように構成され、又は、
前記第1画像集合及び前記第2画像集合から、m枚の画像及びn枚の画像をそれぞれ選択し、前記mと前記nとの比を前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比と同じくし、且つ、前記m枚の画像及び前記n枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得るように構成され、又は、
前記第1画像集合及び前記第2画像集合から、s枚の画像及びt枚の画像をそれぞれ選択し、前記sと前記tとの比を前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比と同じくし、且つ、前記s枚の画像及び前記t枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得るように構成されることを特徴とする
項目15又は16に記載の装置。
(項目21)
前記訓練サブユニットは更に、
前記第3画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第4認識結果を得て、
前記第3画像集合における画像、前記第4認識結果及び前記第2モーダルネットワークの第4損失関数に基づいて、前記第2モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得るように構成されることを特徴とする
項目14に記載の装置。
(項目22)
前記第1カテゴリ及び前記第2カテゴリはそれぞれ異なる人種に対応することを特徴とする
項目12から16、18、19、21のうちいずれか一項に記載の装置。
(項目23)
電子機器であって、前記電子機器は、メモリと、プロセッサと、を備え、前記メモリにコンピュータによる実行可能な命令が記憶されており、前記プロセッサは、前記メモリに記憶されるコンピュータ命令を実行する時、項目1から11のうちいずれか一項に記載の方法を実現する、電子機器。
(項目24)
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶されており、該コンピュータプログラムがプロセッサにより実行される時、項目1から11のうちいずれか一項に記載の方法を実現する、コンピュータ可読記憶媒体。
【発明の効果】
【0029】
上記の一般的な説明及び後述する細部に関する説明は、例示及び説明のためのものに過ぎず、本願を限定するものではないことが理解されるべきである。
【図面の簡単な説明】
【0030】
【
図1】本願の実施例による顔認識方法を示すフローチャートである。
【
図2】本願の実施例による第1画像集合及び第2画像集合に基づいて第1モーダルネットワークを訓練するプロセスを示すフローチャートである。
【
図3】本願の実施例によるもう1つの顔認識ニューラルネットワークの訓練方法を示すフローチャートである。
【
図4】本願の実施例によるもう1つの顔認識ニューラルネットワークの訓練方法を示すフローチャートである。
【
図5】本願の実施例による人種に応じて分類を行うことで得られた画像集合に基づいてニューラルネットワークを訓練するプロセスを示すフローチャートである。
【
図6】本願の実施例による顔認識装置の構造を示す概略図である。
【
図7】本願の実施例による顔認識装置のハードウェア構造を示す概略図である。
【0031】
本願の実施例又は背景技術における技術的解決手段をより明確に説明するために、以下、実施例又は背景技術の記述に必要な図面を簡単に説明する。
【0032】
ここで添付した図面は、明細書に引き入れて本明細書の一部分を構成し、本発明に適合する実施例を示し、かつ、明細書とともに本出願の技術的解決手段を解釈することに用いられる。
【発明を実施するための形態】
【0033】
当業者に本願の技術的解決手段をより良く理解させるために、以下、本願の実施例における図面を参照しながら、本願の実施例における技術的解決手段を明瞭かつ完全に説明する。勿論、記述される実施例は、全ての実施例ではなく、ただ本願の一部の実施例である。本願における実施例に基づいて、当業者が創造的な労力なしに得られる他の実施例の全ては、本発明の保護範囲に含まれる。
【0034】
本願の明細書及び特許請求の範囲並びに上記図面に言及された「第1」、「第2」等の用語は、異なる対象を区別するためのものであり、特定の順番を説明するためのものではない。なお、「備える」と「有する」という用語及びそれらの変形は、非排他的な包含を網羅することを意図している。例えば、一連の工程又はユニットを含むプロセス、方法、システム、製品又は装置は、明記された工程又はユニットに限定されず、明記されていないか工程又はユニットを任意選択的に含んでもよく、又は、これらのプロセス、方法、製品又は装置固有の他の工程又はユニットを任意選択的に含んでもよい。
【0035】
本明細書に言及した「実施例」は、実施例を参照しながら記述される特定の特徴、構造又は特徴が本願の少なくとも1つの実施例に含まれてもよいことを意味する。該用語が明細書中の異なる箇所に登場していても、必ずしもどれもが同一の実施例を指しているとは限らないし、必ずしも他の実施例と相互排他的である独立した実施例又は候補実施例を指しているとは限らない。本明細書に記述される実施例は、他の実施例と組み合わせることができることは、当業者が明示的又は暗黙的に理解すべきである。
【0036】
本願の実施例において、人数は、人物対象の数に等しくない。例えば、画像Aに、2つの対象が含まれ、それぞれ張三及び李四であり、画像Bに1つの対象が含まれ、張三であり、画像Cに2つの対象が含まれ、それぞれ張三及び李四である。従って、画像A、画像B及び画像Cに含まれる人数は、2(張三及び李四)であり、画像A、画像B及び画像Cに含まれる対象の数は、2+1+2=5であり、つまり、人数が5である。
【0037】
本願の実施例又は背景技術における技術的解決手段をより明確に説明するために、以下、実施例又は背景技術の記述に必要な図面を簡単に説明する。
【0038】
以下、本願の実施例における図面を参照しながら、本願の実施例を説明する。
【0039】
図1を参照すると、
図1は、本願の実施例による顔認識方法を示すフローチャートである。
【0040】
101において、認識待ち画像を取得する。本願の実施例において、認識待ち画像は、ローカル端末(例えば、携帯電話、タブレット、ノートパソコンなど)に記憶される画像集合であってもよく、ビデオにおける任意のフレームの画像を認識待ち画像としてもよい。また、ビデオにおける任意のフレームの画像から顔領域画像を検出し、該顔領域画像を認識待ち画像としてもよい。
【0041】
102において、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得て、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである。本願の実施例において、クロスモーダル顔認識ネットワークは、異なるカテゴリの対象を含む画像を認識することができる。例えば、2枚の画像における対象が同一の人物であるかを認識することができる。ここで、カテゴリは、人物の年齢に応じて分けられてもよく、人種に応じて分けられてもよく、地域に応じて分けられてもよい。例えば、0~3歳の人物を第1カテゴリとし、4~10歳の人物を第2カテゴリとし、11~20歳の人物を第3カテゴリとしてもよく、…、モンゴロイドを第1カテゴリとし、コーカソイドを第2カテゴリとし、ニグロイドを第3カテゴリとし、オーストラロイドを第4カテゴリとしてもよく、中国地域の人物を第1カテゴリとし、タイ地域の人物を第2カテゴリとし、インド地域の人物を第3カテゴリとし、カイロ地域の人物を第4カテゴリとし、アフリカ地域の人物を第5カテゴリとし、ヨーロッパ地域の人物を第6カテゴリとしてもよい。本願の実施例は、カテゴリの分類を限定するものではない。
【0042】
幾つかの可能な実現形態において、携帯電話のカメラにより収集された対象顔領域画像及び事前記憶される顔領域画像を認識待ち画像集合として顔認識ニューラルネットワークに入力し、認識待ち画像集合に含まれる対象が同一の人物であるかどうかを認識する。別の幾つかの可能な実現形態において、カメラAは、第1時刻で第1認識待ち画像を収集し、カメラBは、第2時刻で第2認識待ち画像を収集し、第1認識待ち画像及び第2認識待ち画像を認識待ち画像集合として顔認識ニューラルネットワークに入力し、該2枚の認識待ち画像に含まれる対象が同一の人物であるかどうかを認識する。本願の実施例において、異なるモーダルの顔画像データは、異なるカテゴリの対象を含む画像集合を指す。クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像集合を訓練集合として事前に訓練を行うことで得られたものである。クロスモーダル顔認識ネットワークは、画像から特徴を抽出する機能を有する任意のニューラルネットワークであってもよい。例えば、畳み込み層、非線形層、全結合層などのネットワークユニットを所定の方式でスタッキング又は構成してなるものであってもよく、既存のニューラルネットワーク構造であってもよく、本願は、クロスモーダル顔認識ネットワークの構造を具体的に限定するものではない。
【0043】
可能な実現形態において、2枚の認識待ち画像をクロスモーダル顔認識ネットワークに入力する。クロスモーダル顔認識ネットワークは、認識待ち画像に対してそれぞれ特徴抽出処理を行い、異なる特徴を得る。更に、抽出した特徴を比較し、特徴マッチング度を得る。特徴マッチング度が特徴マッチング度閾値に達した場合、2枚の認識待ち画像における対象が同一の人物であると認識する。逆に、特徴マッチング度が特徴マッチング度閾値に達していない場合、2枚の認識待ち画像における対象が同一の人物ではないと認識する。本実施例は、カテゴリに応じて分けられた画像集合によりニューラルネットワークを訓練することで、クロスモーダル顔認識ネットワークを得る。クロスモーダル顔認識ネットワークにより、各カテゴリの対象が同一の人物であるかどうかを認識する。認識の正確率を向上させることができる。
【0044】
下記実施例は、本願で提供される顔認識方法のステップ102の幾つかの可能な実現形態である。
【0045】
第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで、クロスモーダル顔認識ネットワークを得る。ここで、第1モーダルネットワーク及び第2モーダルネットワークは、画像から特徴を抽出する機能を有する任意のニューラルネットワークであってもよい。例えば、畳み込み層、非線形層、全結合層などのネットワークユニットを所定の方式でスタッキング又は構成してなるものであってもよく、既存のニューラルネットワーク構造であってもよく、本願は、クロスモーダル顔認識ネットワークの構造を具体的に限定するものではない。幾つかの可能な実現形態において、異なる画像集合を訓練集合として第1モーダルネットワーク及び第2モーダルネットワークに対してそれぞれ訓練を行い、第1モーダルネットワークに、異なるカテゴリの対象の特徴を学習させる。更に、第1モーダルネットワーク及び第2モーダルネットワークが学習した特徴を合計することで、クロスモーダルネットワークを得る。クロスモーダルネットワークを、異なるカテゴリの対象を認識できるようにする。任意選択的に、第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで、クロスモーダル顔認識ネットワークを得る前に、第1画像集合及び第2画像集合に基づいて、第1モーダルネットワークを訓練する。ここで、第1画像集合及び第2画像集合における対象は、顔のみを含んでもよく、顔及び胴体などの他の部分を含んでもよく、本願は、これを具体的に限定するものではない。幾つかの可能な実現形態において、第1画像集合を訓練集合として第1モーダルネットワークを訓練し、第2モーダルニューラルネットワークを得て、第2モーダルネットワークを、第1カテゴリの対象を含む複数枚の画像における対象が同一の人物であるかどうかを認識できるようにする。第2画像集合を訓練集合として第2モーダルネットワークを訓練し、クロスモーダル顔認識ネットワークを得て、クロスモーダル顔認識ネットワークを、第1カテゴリの対象を含む複数枚の画像における対象が同一の人物であるかどうか、第2カテゴリの対象を含む複数枚の画像における対象が同一の人物であるかどうかを認識できるようにする。これにより、クロスモーダル顔認識ネットワークは、第1カテゴリの対象を認識する場合の認識率が高く、且つ、第2カテゴリの対象を認識する場合の認識率も高い。
【0046】
別の幾つかの可能な実現形態において、第1画像集合及び第2画像集合における全ての画像を訓練集合として、第1モーダルネットワークを訓練し、クロスモーダル顔認識ネットワークを得る。クロスモーダル顔認識ネットワークを、第1カテゴリ又は第2カテゴリの対象を含む複数枚の画像における対象が同一の人物であるかどうかを認識できるようにする。また幾つかの可能な実現形態において、第1画像集合からa枚の画像を選択し、第2画像集合からb枚の画像を選択し、訓練集合を得る。ここで、a:bは、所定の比率を満たす。更に、訓練集合により、第1モーダルネットワークを訓練し、クロスモーダル顔認識ネットワークを得て、クロスモーダル顔認識ネットワークが第1カテゴリ又は第2カテゴリの対象を含む複数枚の画像における人物対象が同一の人物であるかどうかを認識する場合の認識正確率を高くする。
【0047】
クロスモーダル顔認識ネットワークは、特徴マッチング度に基づいて、異なる画像における対象が同一の人物であるかどうかを決定する。異なるカテゴリの顔特徴が大きく相違するため、異なるカテゴリの人物の特徴マッチング度閾値(該閾値に達すると、同一の人物と認識される)はいずれも異なる。本実施例で提供される訓練方法は、異なるカテゴリの対象を含む画像集合を併せて訓練することで、クロスモーダル顔認識ネットワークによる異なるカテゴリの人物対象の認識の特徴マッチング度の差異を減少させることができる。
【0048】
本実施例は、カテゴリに応じて分けられる画像集合により、ニューラルネットワーク(第1モーダルネットワーク及び第2モーダルネットワーク)を訓練することで、ニューラルネットワークに、異なるカテゴリの対象の顔特徴を同時に学習させる。これにより、訓練で得られたクロスモーダル顔認識ネットワークは、各カテゴリの対象が同一の人物であるかどうかを認識する。認識の正確率を向上させることができる。異なるカテゴリの画像集合により、同時にニューラルネットワークを訓練することで、ニューラルネットワークによる異なるカテゴリの人物対象の認識の基準同士の差異を減少させることができる。
【0049】
図2を参照すると、
図2は、本願の実施例による第1画像集合及び第2画像集合に基づいて第1モーダルネットワークを訓練するための幾つかの可能な実現形態を示すフローチャートである。
【0050】
201において、第1画像集合及び第2画像集合に基づいて第1モーダルネットワークを訓練し、第2モーダルネットワークを得て、第1画像集合における対象は第1カテゴリに属し、第2画像集合における対象は第2カテゴリに属する。本願の実施例において、種々の方式により、第1モーダルネットワークを取得することができる。幾つかの可能な実現形態において、他の装置から、第1モーダルネットワークを取得することができる。例えば、端末装置からの第1モーダルネットワークを受信する。別の幾つかの可能な実現形態において、第1モーダルネットワークは、ローカル端末に記憶されており、ローカル端末から、第1モーダルネットワークを呼び出すことができる。上述したように、第1画像集合に含まれる第1カテゴリは、第2画像集合に含まれる第2カテゴリと異なる。第1画像集合及び第2画像集合を訓練集合として第1モーダルネットワークを訓練することで、第1モーダルネットワークに、第1カテゴリ及び第2カテゴリの特徴を学習させ、第1カテゴリと第2カテゴリの対象が同一の人物であるかを認識する時の正確率を向上させることができる。幾つかの可能な実現形態において、第1画像集合に含まれる対象は、11~20歳の人物であり、第2画像集合に含まれる対象は、20~30歳の人物である。第1画像集合、第2画像集合を訓練集合として、第1モーダルネットワークを訓練することで得られた第2モーダルネットワークは、11~20歳及び20~30歳の対象に対する認識の正確率が高い。
【0051】
202において、所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、前記第1数の画像及び前記第2数の画像に基づいて、第3画像集合を得る。第1カテゴリの特徴と第2カテゴリの特徴が大きく相違しているため、ニューラルネットワークが、第1カテゴリの対象が同一の人物であるかどうかを認識するための認識基準も、第2カテゴリの対象が同一の人物であるかどうかを認識するための認識基準と異なる。ここで、認識基準は、抽出された異なる対象の特徴マッチング度であってもよい。例えば、20~30歳の人物の顔立ち及び顔輪郭特徴が、0~3歳の人物の顔立ち及び顔輪郭特徴よりも明らかであるため、訓練プロセスにおいて、ニューラルネットワークが学習した20~30歳の対象の特徴は、0~30歳の対象の特徴より多い。従って、訓練後のニューラルネットワークは、より大きい特徴マッチング度で、0~3歳の対象が同一の人物であるかどうかを認識する必要がある。例えば、0~3歳の対象が同一の人物であるかどうかを認識する場合、特徴マッチング度が0.8以上である2つの対象が同一の人物であると判定し、特徴マッチング度が0.8未満である2つの対象が同一の人物ではないと判定する。ニューラルネットワークは、20~30歳の対象が同一の人物であるかどうかを認識する場合、特徴マッチング度が0.65以上である2つの対象が同一の人物であると判定し、特徴マッチング度が0.65未満である2つの対象が同一の人物ではないと判定する。この場合、0~3歳の対象のための認識基準により、20~30歳の対象を認識すると、元々同一の人物である2つの対象が、同一の人物ではないと認識されることを引き起こしやすい。逆に、20~30歳の対象のための認識基準により、0~3歳の対象を認識すると、元々同一の人物ではない2つの対象が、同一の人物と認識されることを引き起こしやすい。
【0052】
本願の実施例は、所定の条件に応じて、第1画像集合から、第1数の画像を選択し、第2画像集合から、第2数の画像を選択し、第1数の画像及び第2数の画像を訓練集合とすることで、第2モーダルネットワークが訓練過程において学習した異なるカテゴリの特徴の比率をより均一にし、異なるカテゴリの対象のための認識基準の差異を減少させることができる。幾つかの可能な実現形態において、第1画像集合から選択された第1数の画像に含まれる人数及び第2画像集合から選択された第2数の画像に含まれる人数をいずれもXとすると、第1画像集合及び第2画像集合から選択された画像に含まれる人数を別々にXに達すればよい。第1画像集合及び第2画像集合から選択された画像の数について限定しない。
【0053】
203において、第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得る。第3画像集合は、第1カテゴリ及び第2カテゴリを含み、且つ、第1カテゴリの人数及び第2カテゴリの人数は、所定の条件に応じて選択される。第3画像集合は、この点で、ランダムに選択された画像集合と相違する。第3画像集合を訓練集合として第2モーダルネットワークを訓練することで、第2モーダルネットワークによる第1カテゴリの特徴の学習と第2カテゴリの特徴の学習をより均一にすることができる。なお、第2モーダルネットワークに対して教師あり訓練を行うと、訓練プロセスにおいて、softmax関数により、各枚の画像における対象の属するカテゴリを分類し、アノテーション、分類結果及び損失関数により、第2モーダルネットワークのパラメータを調整する。幾つかの可能な実現形態において、第3画像集合における各対象は1つのラベルに対応する。例えば、画像Aと画像Bにおける同一の対象のラベルは、いずれも1であり、画像Cにおけるもう1つの対象のラベルは、2である。softmax関数の表現式は、以下のとおりである。
【0054】
【化1】
ただし、tは、第3画像集合に含まれる人数であり、
【0055】
【0056】
【0057】
【化4】
は、softmax層に入力された特徴ベクトルのうちの
【0058】
【0059】
【化6】
は、softmax層に入力された特徴ベクトルのうちの
【0060】
【化7】
番目の数値である。softmax層の後に、損失関数を含む損失関数層が接続される。softmax層から出力された確率値、第3画像集合のラベル及び損失関数により、第2訓練待ちニューラルネットワークの逆伝播勾配を得ることができる。更に、逆伝播勾配に基づいて、第2訓練待ちニューラルネットワークに対して勾配逆伝播を行うことで、クロスモーダル顔認識ネットワークを得ることができる。第3画像集合に第1カテゴリの対象及び第2カテゴリの対象が含まれ、且つ第1カテゴリの人数及び第2カテゴリの人数が所定の条件を満たすため、第3画像集合を訓練集合として第2モーダルネットワークを訓練することで、第2モーダルネットワークに、第1カテゴリの顔特徴及び第2カテゴリの顔特徴の学習比率のバランスが取られるようにさせる。従って、最終的に得られたクロスモーダル顔認識ネットワークが第1カテゴリの対象が同一の人物であるかどうかを認識する場合の認識率を高くすると共に、第2カテゴリの対象が同一の人物であるかどうかを認識する場合の認識率を高くすることができる。幾つかの可能な実現形態において、損失関数の表現式は以下のとおりである。
【0061】
【化8】
ただし、tは、第3画像集合に含まれる人数であり、
【0062】
【0063】
【0064】
【化11】
は、第3画像集合における人物対象がカテゴリ
【0065】
【化12】
であるラベルである。例えば、第3画像集合に張三の画像が含まれ、ラベルが1であると、対象がカテゴリ1であるラベルは、1であり、且つ該対象が他の任意のカテゴリであるラベルは、いずれも0である。本願の実施例は、カテゴリに応じて分けられた第1画像集合及び第2画像集合を訓練集合として第1モーダルネットワークを訓練することで、第1モーダルネットワークによる第1カテゴリ及び第2カテゴリの認識の正確率を向上させる。第3画像集合を訓練集合として第2モーダルネットワークを訓練することで、第2モーダルネットワークに、第1カテゴリの顔特徴及び第2カテゴリの顔特徴の学習比率のバランスが取られるようにさせる。従って、訓練で得られたクロスモーダル顔認識ネットワークは、第1カテゴリの対象が同一の人物であるかどうかを認識する時の正確率が高いだけでなく、第2カテゴリの対象が同一の人物であるかどうかを認識する時の正確率も高い。
【0066】
図3を参照すると、
図3は、本願の実施例によるステップ201の可能な実現形態を示すフローチャートである。
【0067】
301において、第1画像集合を第1特徴抽出分岐に入力し、第2画像集合を第2特徴抽出分岐に入力し、第4画像集合を第3特徴抽出分岐に入力し、第1モーダルネットワークを訓練し、第4画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像である。本願の実施例において、第4画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像である。例えば、第4画像集合に含まれる画像はいずれも、携帯電話により撮られた画像である。また例えば、第4画像集合に含まれる画像は、いずれも屋内で撮られた画像である。また例えば、第4画像集合に含まれる画像は、いずれも港で撮られた画像である。本願の実施例は、第4画像集合における画像のシーン及び収集方式を限定するものではない。本願の実施例において、第1モーダルネットワークは、第1特徴抽出分岐、第2特徴抽出分岐及び第3特徴抽出分岐を含み、ここで、第1特徴抽出分岐、第2特徴抽出分岐及び第3特徴抽出分岐はいずれも、画像から特徴を抽出する機能を有する任意のニューラルネットワーク構造である。例えば、畳み込み層、非線形層、全結合層などのネットワークユニットを所定の方式でスタッキング又は構成してなるものであってもよく、既存のニューラルネットワーク構造であってもよく、本願は、第1特徴抽出分岐、第2特徴抽出分岐及び第3特徴抽出分岐の構造を具体的に限定するものではない。本実施例において、第1画像集合、第2画像集合及び第4画像集合における画像は、それぞれ第1アノテーション情報、第2アノテーション情報及び第3アノテーション情報を含む。ここで、アノテーション情報は、画像に含まれる対象の番号を含む。例えば、第1画像集合、第2画像集合及び第4画像集合に含まれる人数は、いずれもY(Yは、1より大きい整数である)であり、第1画像集合、第2画像集合及び第4画像集合におけるいずれか一枚の画像にいずれも含まれる対象の番号は、1~Yの間のいずれか1つの数字である。異なる画像における、同一人物の対象の番号は同じであることが理解されるべきである。例えば、画像Aにおける対象が張三であり、画像Bにおける対象も張三であると、画像Aにおける対象と画像Bにおける対象の番号は、同じである。逆に、画像Cにおける対象が李四であると、画像Cにおける対象の番号は、画像Aにおける対象の番号と異なる。各画像集合に含まれる対象の顔特徴を該カテゴリの顔特徴の代表的なものにするために、任意選択的に、各画像集合に含まれる人数は、いずれも5000人以上とする。本願の実施例は、画像集合における画像の数を限定するものではないことが理解されるべきである。本願の実施例において、第1特徴抽出分岐の初期パラメータ、第2特徴抽出分岐の初期パラメータ及び第3特徴抽出分岐の初期パラメータはそれぞれ、パラメータ調整が行われる前の第1特徴抽出分岐のパラメータ、パラメータ調整が行われる前の第2特徴抽出分岐のパラメータ及びパラメータ調整が行われる前の第3特徴抽出分岐のパラメータを指す。第1モーダルネットワークの各分岐は、第1特徴抽出分岐、第2特徴抽出分岐及び第3特徴抽出分岐を含む。第1画像集合を第1特徴抽出分岐に入力し、第2画像集合を第2特徴抽出分岐に入力し、第4画像集合を第3特徴抽出分岐に入力する。つまり、第1特徴抽出分岐により、第1画像集合に含まれる対象の顔特徴を学習し、第2特徴抽出分岐により、第2画像集合に含まれる対象の顔特徴を学習し、第3特徴抽出分岐により、第4画像集合に含まれる対象の顔特徴を学習し、各特徴抽出分岐のsoftmax関数及び損失関数に基づいて、各特徴抽出分岐の逆伝播勾配を決定し、最後に、各特徴抽出分岐の逆伝播勾配に基づいて、第1モーダルネットワークの逆伝播勾配を決定し、第1モーダルネットワークのパラメータを調整する。第1モーダルネットワークのパラメータを調整することは、全ての特徴抽出分岐の初期パラメータを調整することであることが理解されるべきである。各特徴抽出分岐の逆伝播勾配がいずれも同じであるため、最終的に調整後のパラメータも同じである。各分岐の逆伝播勾配は、各特徴抽出分岐パラメータの調整方向を表す。つまり、特徴抽出分岐の逆伝播勾配により、分岐のパラメータを調整することで、特徴抽出分岐による対応するカテゴリ(入力された画像集合に含まれるカテゴリと同じである)の対象の認識の正確率を向上させることができる。第1特徴抽出分岐及び第2特徴抽出分岐の逆伝播勾配により、ニューラルネットワークのパラメータを調整することで、各分岐のパラメータの調整方向を結合して、バランスが取られた調整方向を得ることができる。第4画像集合に、特定のシーン又は特定の撮影方式で収集された画像が含まれるため、第3特徴抽出分岐の逆伝播勾配により第1モーダルネットワークのパラメータを調整することで、第1モーダルネットワークのロバスト性を向上させることができる(つまり、画像収集シーン及び画像収集方式に対するロバスト性が高い)。3つの特徴抽出分岐の逆伝播勾配で得られた逆伝播勾配により、第1モーダルネットワークのパラメータを調整することで、いずれか1つの特徴抽出分岐による対応するカテゴリ(第1画像集合及び第2画像集合に含まれるカテゴリのいずれか1つ)の対象の認識の正確率を高くすることができ、且つ、いずれか1つの特徴抽出分岐の、画像収集シーン及び画像収集方式に対するロバスト性を向上させることができる。
【0068】
幾つかの可能な実現形態において、第1画像集合を第1特徴抽出分岐に入力し、第2画像集合を第2特徴抽出分岐に入力し、第4画像集合を第3特徴抽出分岐に入力し、特徴抽出処理、全結合層による処理、softmax層による処理を順に行い、第1認識結果、第2認識結果及び第3認識結果をそれぞれ得る。ここで、softmax層は、softmax函数を含み、該関数は、式(1)に示すとおりである。ここで、詳細な説明を省略する。第1認識結果、第2認識結果及び第3認識結果に、各対象の番号が異なる番号である確率が含まれる。例えば、第1画像集合、第2画像集合及び第4画像集合に含まれる人数がY(Yは、1より大きい整数である)であり、第1画像集合、第2画像集合及び第4画像集合におけるいずれか1枚の画像にいずれも含まれる人物対象に対応する番号が、いずれも1~Yの間のいずれか1つの数字であると、第1認識結果は、第1画像集合に含まれる人物対象の番号がそれぞれ1~Yである確率を含む。つまり、各対象の第1認識結果は、Y個の確率を含む。同様に、第2認識結果は、第2画像集合に含まれる人物対象の番号がそれぞれ1~Yである確率を含む。第3認識結果は、第4画像集合に含まれる人物対象の番号がそれぞれ1~Yである確率を含む。各分岐において、softmax層の後に、損失関数を含む損失関数層が接続される。第1分岐の第1損失関数、第2分岐の第2損失関数及び第3分岐の第3損失関数を取得し、第1画像集合の第1アノテーション情報、第1認識結果及び第1損失関数に基づいて、第1損失を得て、第2画像集合の第2アノテーション情報、第2認識結果及び第2損失関数に基づいて、第2損失を得て、第4画像集合の第3アノテーション情報、第3認識結果及び第3損失関数に基づいて、第3損失を得る。第1損失関数、第2損失関数及び第3損失関数は式(2)に示すとおりである。ここで、詳細な説明を省略する。第1特徴抽出分岐のパラメータ、第2特徴抽出分岐のパラメータ及び第3特徴抽出分岐のパラメータを取得し、第1特徴抽出分岐のパラメータ及び第1損失に基づいて、第1勾配を得て、第2特徴抽出分岐のパラメータ及び第2損失に基づいて、第2勾配を得て、第3特徴抽出分岐のパラメータ及び第3損失に基づいて、第3勾配を得る。ここで、第1勾配、第2勾配及び第3勾配は、それぞれ第1特徴抽出分岐、第2特徴抽出分岐及び第3特徴抽出分岐の逆伝播勾配である。第1勾配、第2勾配及び第3勾配に基づいて、第1モーダルネットワークの逆伝播勾配を得て、勾配逆伝播の方式で、第1モーダルネットワークのパラメータを調整し、第1特徴抽出分岐のパラメータ、第2特徴抽出分岐及び第3特徴抽出分岐のパラメータを同じくする。幾つかの可能な実現形態において、第1勾配、第2勾配及び第3勾配の平均値を第1訓練待ちニューラルネットワークの逆伝播勾配とし、逆伝播勾配に基づいて、第1モーダルネットワークに対して勾配方向での伝播を行い、第1特徴抽出分岐のパラメータ、第2特徴抽出分岐及び第3特徴抽出分岐のパラメータを調整し、パラメータ調整後の第1特徴抽出分岐、第2特徴抽出分岐及び第3特徴抽出分岐のパラメータを同じくする。
【0069】
302において、訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐又は訓練後の第3特徴抽出分岐を第2モーダルネットワークとする。301における処理により、訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐及び訓練後の第3特徴抽出分岐のパラメータは同じである。つまり、第1カテゴリ(第1画像集合に含まれるカテゴリ)、第2カテゴリ(第2画像集合に含まれるカテゴリ)の対象に対する認識正確率が高く、且つ、異なるシーンで収集された画像及び異なる収集方式で収集された画像に対する認識のロバスト性が高い。従って、訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐又は訓練後の第3特徴抽出分岐を次の訓練されるネットワークである第2モーダルネットワークとする。本願の実施例において、第1画像集合及び第2画像集合は、いずれもカテゴリに応じて選択された画像集合である。第4画像集合は、シーン及び撮影方式に応じて選択された画像集合である。第1画像集合により、第1特徴抽出分岐を訓練することで、第1特徴抽出分岐に、第1カテゴリの顔特徴の学習に重点を置かせることができる。第2画像集合により、第2特徴抽出分岐を訓練することで、第2特徴抽出分岐に、第2カテゴリの顔特徴の学習に重点を置かせることができる。第4画像集合により、第3特徴抽出分岐を訓練することで、第3特徴抽出分岐に、第4画像集合に含まれる対象の顔特徴の学習に重点を置かせることができる。第3特徴抽出分岐のロバスト性を向上させる。第1特徴抽出分岐の逆伝播勾配、第2特徴抽出分岐の逆伝播勾配及び第3特徴抽出分岐の逆伝播勾配に基づいて、第1モーダルネットワークの逆伝播勾配を得て、該勾配で、第1モーダルネットワークに対して勾配逆伝播を行うことで、3つの特徴抽出分岐のパラメータ調整方向を同時に配慮し、パラメータ調整後の第1モーダルネットワークのロバスト性を好適にし、且つ第1カテゴリ及び第2カテゴリの人物対象に対する認識の正確率を高くすることができる。下記実施例は、ステップ202の幾つかの可能な実現形態である。第2モーダルネットワークが第3画像集合に基づいて訓練を行う場合、第1カテゴリ及び第2カテゴリの特徴をバランス良く学習することを実現することができるように、所定の条件は、第1数と第2数が同じであることであってもよい。可能な実現形態において、第1画像集合及び第2画像集合からそれぞれf枚の画像を選択し、f枚の画像に含まれる人数を閾値となるようにし、第3画像集合を得る。可能な実現形態において、閾値は、1000である。第1画像集合及び第2画像集合からそれぞれf枚の画像を選択し、f枚の画像に含まれる人数を1000となるようにすればよい。ここで、fは、任意の正整数であってもよい。最後に、第1画像集合から選択されたf枚の画像及び第2画像集合から選択されたf枚の画像を第3画像集合とする。第2モーダルネットワークが第3画像集合に基づいて訓練を行う場合、第1カテゴリ及び第2カテゴリの特徴をより意図的に学習することを実現することができるように、所定の条件は、第1数と第2数との比が第1画像集合に含まれる画像の数と第2画像集合に含まれる画像の数との比に等しく、又は、第1数と第2数との比が第1画像集合に含まれる人数と第2画像集合に含まれる人数との比に等しいことであってもよい。従って、第2モーダルネットワークにより学習される第1カテゴリの特徴と第2カテゴリの特徴との比は、いずれも一定値であり、第1カテゴリの認識基準と第2カテゴリの認識基準との差異を補うことができる。可能な実現形態において、第1画像集合及び第2画像集合から、m枚の画像及びn枚の画像をそれぞれ選択し、mとnとの比を第1画像集合に含まれる画像の数と第2画像集合に含まれる画像の数との比と同じくし、且つ、m枚の画像及びn枚の画像に含まれる人数をいずれも閾値となるようにし、第3画像集合を得る。幾つかの可能な実現形態において、第1画像集合に7000枚の画像が含まれ、第2画像集合に8000枚の画像が含まれ、閾値が1000であり、第1画像集合から選択されたm枚の画像及び第2画像集合から選択されたn枚の画像に含まれる人数はいずれも1000であり、且つm:n=7:8であり、m、nは任意の正整数であってもよい。最後に、第1画像集合から選択されたm枚の画像及び第2画像集合から選択されたn枚の画像を第3画像集合とする。もう1つの可能な実現形態において、第1画像集合及び第2画像集合から、s枚の画像及びt枚の画像をそれぞれ選択し、sとtとの比を第1画像集合に含まれる人数と第2画像集合に含まれる人数との比と同じくし、且つ、s枚の画像及びt枚の画像に含まれる人数をいずれも閾値となるようにし、第3画像集合を得る。幾つかの可能な実現形態において、第1画像集合に含まれる人数が6000であり、第2画像集合に含まれる人数が7000であり、閾値が1000であり、第1画像集合から選択されたs枚の画像及び第2画像集合から選択されたt枚の画像に含まれる人数はいずれも1000であり、且つs:t=6:7であり、s、tは、任意の正整数であってもよい。最後に、第1画像集合から選択されたs枚の画像及び第2画像集合から選択されたt枚の画像を第3画像集合とする。
【0070】
本実施例は、第1画像集合及び第2画像集合から画像を選択するための幾つかの方式を提供する。異なる選択方式により、異なる第3画像集合を得ることができる。具体的な訓練効果及び必要に応じて、異なる選択方式を選択することができる。
【0071】
図4を参照すると、
図4は、本願の実施例によるステップ203の可能な実現形態を示すフローチャートである。
【0072】
401において、第3画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第4認識結果を得る。まず、第2モーダルネットワークは、第3画像集合における画像に対して特徴抽出処理を行う。特徴抽出処理は、例えば、畳み込み、プーリングなどのような種々の方式で実現することができる。本願の実施例は、これを具体的に限定するものではない。幾つかの可能な実現形態において、第2モーダルネットワークは、複数層の畳み込み層を含む。複数層の畳み込み層により、第3画像集合における画像に対して層ずつ畳み込み処理を行うことで、第3画像集合における画像の特徴抽出処理を完成する。ここで、各畳み込み層により抽出された特徴のコンテンツ及びセマンティクス情報はいずれも異なる。具体的には、特徴抽出処理により、画像の特徴を次第に抽出すると共に、比較的副次的な特徴を次第に除去するため、処理の進行に伴い、抽出された特徴のサイズが小さくなり、コンテンツ及びセマンティクス情報は、凝縮したものになる。複数層の畳み込み層により、第3画像集合における画像に対して次第に畳み込み処理を行い、対応する特徴を抽出することで、決まったサイズの特徴画像を最終的に得る。従って、処理待ち画像の主なコンテンツ情報(即ち、第3画像集合における画像の特徴画像)を得ると共に、画像のサイズを縮小し、システムの演算量を減少させ、演算速度を向上させることができる。可能な実現形態において、畳み込み処理の実現プロセスは以下のとおりである。畳み込み層は、処理待ち画像に対して畳み込み処理を行う。つまり、畳み込みカーネルを利用して、第3画像集合における画像でスライドし、第3画像集合における画像での画素と対応する畳み込みカーネルでの数値を乗算し、続いて、全ての乗算後の値を加算して畳み込みカーネル中間画素に対応する画像での画素値とし、最後に、第3画像集合における画像での全ての画素に対してスライド処理を行い、対応する特徴画像を抽出する。畳み込み層の後に、全結合層が接続される。畳み込み層によって抽出された特徴画像に対して、全結合層により線形変換を行い、特徴画像における特徴をサンプル(即ち、対象の番号)マークスペースにマッピングすることができる。全結合層の後に、softmax層が接続される。抽出された特徴画像に対して、softmax層により処理を行い、第4認識結果を得る。softmax層の具体的な構成及び特徴画像の処理プロセスは、301を参照してもよい。ここで、詳細な説明を省略する。ここで、第4認識結果は、第3画像集合に含まれる対象の番号がそれぞれ1~Zである(第3画像集合に含まれる人数がZである)確率を含み、つまり、各対象の第4認識結果は、Z個の確率を有する。
【0073】
402において、第3画像集合における画像、第4認識結果及び第2モーダルネットワークの第4損失関数に基づいて、第2モーダルネットワークのパラメータを調整し、クロスモーダル顔認識ネットワークを得る。softmax層の後に、第4損失関数を含む損失関数層が接続される。第4損失関数の表現式は、式(2)に示すとおりである。第2訓練待ちニューラルネットワークに入力された第3画像集合に、異なるカテゴリの対象が含まれるため、softmax関数により、第4認識結果を得るプロセスにおいて、異なるカテゴリの対象の顔特徴を比較することで、異なるカテゴリの認識基準を正規化する。つまり、同一の認識基準で、異なるカテゴリの対象を認識し、最後に、第4認識結果及び第4損失関数により、第2モーダルネットワークのパラメータを調整し、パラメータ調整後の第2モーダルネットワークを、同一の認識基準で、異なるカテゴリの対象を認識するようにし、異なるカテゴリの対象の認識の正確率を向上させる。幾つかの可能な実現形態において、第1カテゴリの認識基準が0.8であり、第2カテゴリの認識基準が0.65であり、402における訓練により、第2モーダルネットワークのパラメータ及び認識基準を調整し、最終的に、認識基準を0.72と決定する。第2モーダルネットワークのパラメータは、認識基準の調整に伴って調整されるため、パラメータ調整後に得られたクロスモーダル顔認識ネットワークは、第1カテゴリの認識基準と第2カテゴリの認識基準との差異を減少する。
【0074】
本願の実施例において、第3画像集合を訓練集合として第2モーダルネットワークに対して訓練を行い、異なるカテゴリの対象の顔特徴を比較し、異なるカテゴリの認識基準を正規化する。第2モーダルネットワークのパラメータを調整することで、パラメータ調整後に得られたクロスモーダル顔認識ネットワークは、第1カテゴリの対象が同一の人物であるかどうかを認識する時の正確率を高くするだけでなく、第2カテゴリの対象が同一の人物であるかどうかを認識する時の正確率も高くし、異なるカテゴリの対象が同一の人物であるかどうかを認識する場合の認識基準の差異を減少させる。上述したように、訓練用画像集合に含まれる人物対象のカテゴリは、人物の年齢に応じて分けられてもよく、人種に応じて分けられてもよく、地域に応じて分けられてもよい。本願は、人種に応じて分類され得られた画像集合に基づいてニューラルネットワークを訓練する方法を提供する。つまり、第1カテゴリ及び第2カテゴリはそれぞれ異なる人種に対応し、ニューラルネットワークによる異なる人種の対象の認識の正確率を向上させることができる。
【0075】
図5を参照すると、
図5は、本願による人種に応じて分類され得られた画像集合に基づいてニューラルネットワークを訓練する方法を示すフローチャートである。
【0076】
501において、基礎画像集合、人種画像集合及び第3モーダルネットワークを取得する。本願の実施例において、基礎画像集合は、1つ又は複数の画像集合を含んでもよい。具体的には、第11画像集合における画像は、いずれも屋内で収集された画像であり、第12画像集合における画像は、いずれも港で収集された画像であり、第13画像集合における画像は、いずれも野外で収集された画像であり、第14画像集合における画像は、いずれも人群から収集された画像であり、第15画像集合における画像は、いずれも証明書用画像であり、第16画像集合における画像は、いずれも携帯電話により撮られた画像であり、第17画像集合における画像は、いずれもカメラにより収集された画像であり、第18画像集合における画像は、いずれもビデオからキャプチャされた画像であり、第19画像集合における画像は、いずれもインターネットからダウンロードされた画像であり、第20画像集合における画像は、いずれも名人画像に対して処理を行うことで得られた画像である。基礎画像集合におけるいずれか1つの画像集合に含まれる画像は、いずれも同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、つまり、基礎画像集合における画像集合は、301における第4画像集合に対応することが理解されるべきである。中国地域の人物を第1人種とし、タイ地域の人物を第2カテゴリとし、インド地域の人物を第3カテゴリとし、カイロ地域の人物を第4カテゴリとし、アフリカ地域の人物を第5カテゴリとし、ヨーロッパ地域の人物を第6カテゴリとする。対応的に、6つの人種画像集合があり、それぞれ上記6個の人種を含む。具体的には、第5画像集合は、第1人種を含み、第6画像集合は、第2人種を含み、…第10画像集合は、第6人種を含む。人種画像集合におけるいずれか1つの画像集合に含まれる対象は、いずれも同一の人種(即ち、同一のカテゴリ)であり、つまり、人種画像集合における画像集合は、101における第1画像集合又は第2画像集合に対応することが理解されるべきである。
【0077】
各画像集合に含まれる対象の顔特徴を該カテゴリの顔特徴の代表的なものにするために、任意選択的に、各画像集合に含まれる人数は、いずれも5000人以上とする。本願の実施例は、画像集合における画像の数を限定するものではないことが理解されるべきである。人種の分類方式は他の方式であってもよく、例えば、肌色に応じて人種を分類すると、モンゴロイド、コーカソイド、ニグロイド、オーストラロイドという4つの人種に分類されてもよく、本実施例は、人種の分類方式を限定するものではないことが理解されるべきである。基礎画像集合及び人種画像集合における対象は、顔のみを含んでもよく、顔及び胴体などの他の部分を含んでもよく、本願は、これを具体的に限定するものではない。本実施例において、第3モーダルネットワークは、画像から特徴を抽出する機能を有する任意のニューラルネットワークであってもよい。例えば、畳み込み層、非線形層、全結合層などのネットワークユニットを所定の方式でスタッキング又は構成してなるものであってもよく、既存のニューラルネットワーク構造であってもよく、本願は、第3モーダルネットワークの構造を具体的に限定するものではない。
【0078】
502において、基礎画像集合及び人種画像集合に基づいて第3モーダルネットワークを訓練し、第4モーダルネットワークを得る。該ステップは、具体的に、201及び301~302を参照することができ、ここで、詳細な説明を省略する。基礎画像集合に10個の画像集合が含まれ、人種画像集合に6個の画像集合が含まれるため、対応的に、第3モーダルネットワークは、16個の特徴抽出分岐を含み、つまり、各画像集合は、1つの特徴抽出分岐に対応することが理解されるべきである。502における処理により、第4モーダルネットワークが、異なる人種の対象が同一の人物であるかどうかを認識する時の正確率を向上させることができ、つまり、各人種の認識の正確率を向上させることができる。具体的には、第4モーダルネットワークにより第1人種、第2人種、第3人種、第4人種、第5人種、第6人種の対象が同一の人物であるかどうかをそれぞれ認識する場合、正確率がいずれも高く、且つ、第4モーダルネットワークの、異なるシーン又は異なる収集方式で収集された画像に対する認識のロバスト性が高い。
【0079】
503において、人種画像集合に基づいて、第4モーダルネットワークを訓練し、異人種間顔認識ネットワークを得る。該ステップは具体的には202~203及び401~402を参照することができる。ここで、詳細な説明を省略する。503における処理により、得られた異人種間顔認識ネットワークが、異なる人種の対象が同一の人物であるかどうかを認識する時の認識基準の差異を減少させ、異人種間顔認識ネットワークは、異なる人種の対象の認識の正確率を向上させることができる。具体的には、異人種間顔認識ネットワークが、異なる画像における第1人種に属する対象が同一の人物であるかどうかを認識する時の正確率、異なる画像における第2人種に属する対象が同一の人物であるかどうかを認識する時の正確率、…、及び異なる画像における第6人種に属する対象が同一の人物であるかどうかを認識する時の正確率は、いずれも所定の値以上である。所定の値は、異人種間顔認識ネットワークによる各人種の認識の正確率がいずれも高いことを表し、本願は、所定値を具体的に限定するものではないことが理解されるべきである。任意選択的に、所定の値は、98%である。任意選択的に、人種内の認識の正確率の向上及び異なる人種の認識基準の差異の減少を同時に実現させるために、502及び503を複数回繰り返してもよい。幾つかの可能な実現形態において、502における訓練方式で、第3モーダルネットワークを10万回訓練する。後続の10~15万回の訓練において、502における訓練方式の比重は、次第に0まで低減し、503における訓練方式の比重は、次第に1までに向上する。15~25万回の訓練は、いずれも503における訓練方式で実行される。次の25~30万回の訓練において、503における訓練方式の比重は、次第に0まで低減し、502における訓練方式の比重は、次第に1までに向上する。最後に、第30~40万回の訓練において、502における訓練方式及び503における訓練方式はそれぞれ半数を占める。本願の実施例は、各段階の回数の具体的な数値、502における訓練方式及び503における訓練方式の比重を限定するものではないことが理解されるべきである。本実施例で得られた異人種間顔認識ネットワークは、複数の人種の対象が同一の人物であるかどうかを認識することができ、且つ認識の正確率が高い。例えば、異人種間顔認識ネットワークを適用することで、中国地域の人種を認識できるだけでなく、カイロ地域の人種を認識でき、更に、ヨーロッパ地域の人種を認識できる。且つ各人種の認識正確率が高い。従って、顔認識アルゴリズムが、1つの人種を認識する時の正確率が高いが、他の人種を認識する時の正確率が低いという問題を解決することができる。なお、本実施例を適用することで、異人種間顔認識ネットワークによる異なるシーン又は異なる収集方式で収集された画像の認識のロバスト性を向上させることもできる。具体的な実施形態の上記方法において、各ステップの記述順番は、厳しい実行順番として実施過程を限定するものではなく、各ステップの具体的な実行順番はその機能及び考えられる内在的論理により決まることは、当業者であれば理解すべきである。
【0080】
以上は、本願の実施例の方法を詳しく説明したが、以下、本願の実施例の装置を提供する。
【0081】
図6を参照すると、
図6は、本願の実施例による顔認識装置の構造を示す概略図である。該認識装置1は、取得ユニット11と、認識ユニット12と、を備える。ここで、取得ユニット11は、認識待ち画像を取得するように構成され、認識ユニット12は、クロスモーダル顔認識ネットワークにより、前記認識待ち画像を認識し、前記認識待ち画像の認識結果を得るように構成され、前記クロスモーダル顔認識ネットワークは、異なるモーダルの顔画像データに基づいて訓練を行うことで得られたものである。
【0082】
更に、前記認識ユニット12は、第1モーダルネットワーク及び第2モーダルネットワークに基づいて訓練を行うことで前記クロスモーダル顔認識ネットワークを得るように構成される訓練サブユニット121を備える。
【0083】
更に、前記訓練サブユニット121は更に、第1画像集合及び第2画像集合に基づいて、前記第1モーダルネットワークを訓練するように構成され、前記第1画像集合における対象は、第1カテゴリに属し、前記第2画像集合における対象は、第2カテゴリに属する。更に、前記訓練サブユニット121は更に、前記第1画像集合及び前記第2画像集合に基づいて、前記第1モーダルネットワークを訓練し、前記第2モーダルネットワークを得て、所定の条件に応じて、前記第1画像集合から、第1数の画像を選択し、前記第2画像集合から、第2数の画像を選択し、前記第1数の画像及び前記第2数の画像に基づいて、第3画像集合を得て、前記第3画像集合に基づいて、前記第2モーダルネットワークを訓練し、前記クロスモーダル顔認識ネットワークを得るように構成される。更に、前記所定の条件は、前記第1数が前記第2数と同じであること、前記第1数と前記第2数との比が、前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比に等しいこと、前記第1数と前記第2数との比が、前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比に等しいこと、のうちのいずれか1つを含む。更に、前記第1モーダルネットワークは、第1特徴抽出分岐と、第2特徴抽出分岐と、第3特徴抽出分岐と、を含み、前記訓練サブユニット121は更に、前記第1画像集合を前記第1特徴抽出分岐に入力し、前記第2画像集合を前記第2特徴抽出分岐に入力し、第4画像集合を前記第3特徴抽出分岐に入力し、前記第1モーダルネットワークを訓練し、前記第4画像集合に含まれる画像は、同一のシーンで収集された画像又は同一の収集方式で収集された画像であり、訓練後の第1特徴抽出分岐、訓練後の第2特徴抽出分岐又は訓練後の第3特徴抽出分岐を前記第2モーダルネットワークとするように構成される。更に、前記訓練サブユニット121は更に、前記第1画像集合、前記第2画像集合及び前記第4画像集合をそれぞれ前記第1特徴抽出分岐、前記第2特徴抽出分岐及び前記第3特徴抽出分岐に入力し、第1認識結果、第2認識結果及び第3認識結果をそれぞれ得て、前記第1特徴抽出分岐の第1損失関数、前記第2特徴抽出分岐の第2損失関数及び前記第3特徴抽出分岐の第3損失関数を取得し、前記第1画像集合、前記第1認識結果及び前記第1損失関数、前記第2画像集合、前記第2認識結果及び前記第2損失関数、前記第4画像集合、前記第3認識結果及び前記第3損失関数に基づいて、前記第1モーダルネットワークのパラメータを調整し、調整された第1モーダルネットワークを得るように構成され、前記第1モーダルネットワークのパラメータは、第1特徴抽出分岐パラメータ、第2特徴抽出分岐パラメータ及び第3特徴抽出分岐パラメータを含み、前記調整された第1モーダルネットワークの各分岐パラメータは同じである。更に、前記第1画像集合における画像は、第1アノテーション情報を含み、前記第2画像集合における画像は、第2アノテーション情報を含み、前記第4画像集合における画像は、第3アノテーション情報を含み、前記訓練サブユニット121は更に、前記第1アノテーション情報、前記第1認識結果、前記第1損失関数及び前記第1特徴抽出分岐の初期パラメータに基づいて、第1勾配を得て、前記第2アノテーション情報、前記第2認識結果、前記第2損失関数及び前記第2特徴抽出分岐の初期パラメータに基づいて、第2勾配を得て、前記第3アノテーション情報、前記第3認識結果、前記第3損失関数及び前記第3特徴抽出分岐の初期パラメータに基づいて、第3勾配を得て、前記第1勾配、前記第2勾配及び前記第3勾配の平均値を前記第1モーダルネットワークの逆伝播勾配とし、前記逆伝播勾配により、前記第1モーダルネットワークのパラメータを調整し、前記第1特徴抽出分岐のパラメータ、前記第2特徴抽出分岐のパラメータ及び前記第3特徴抽出分岐のパラメータを同じくするように構成される。更に、前記訓練サブユニット121は更に、前記第1画像集合及び前記第2画像集合からそれぞれf枚の画像を選択し、前記f枚の画像に含まれる人数を閾値となるようにし、前記第3画像集合を得るように構成され、又は、前記第1画像集合及び前記第2画像集合から、m枚の画像及びn枚の画像をそれぞれ選択し、前記mと前記nとの比を前記第1画像集合に含まれる画像の数と前記第2画像集合に含まれる画像の数との比と同じくし、且つ、前記m枚の画像及び前記n枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得るように構成され、又は、前記第1画像集合及び前記第2画像集合から、s枚の画像及びt枚の画像をそれぞれ選択し、前記sと前記tとの比を前記第1画像集合に含まれる人数と前記第2画像集合に含まれる人数との比と同じくし、且つ、前記s枚の画像及び前記t枚の画像に含まれる人数をいずれも前記閾値となるようにし、前記第3画像集合を得るように構成される。更に、前記訓練サブユニット121は更に、前記第3画像集合における画像に対して特徴抽出処理、線形変換、非線形変換を順に行い、第4認識結果を得て、前記第3画像集合における画像、前記第4認識結果及び前記第2モーダルネットワークの第4損失関数に基づいて、前記第2モーダルネットワークのパラメータを調整し、前記クロスモーダル顔認識ネットワークを得るように構成される。更に、前記第1カテゴリ及び前記第2カテゴリはそれぞれ異なる人種に対応する。幾つかの実施例において、本願の実施例で提供される装置における機能及びモジュールは、上記方法実施例に記載の方法を実行するために用いられ、具体的な実現形態は上記方法実施例の説明を参照されたい。簡潔化のために、ここで詳細な説明を省略する。
【0084】
図7は、本願の実施例による顔認識装置のハードウェア構造を示す概略図である。該認識装置2は、プロセッサ21を備え、入力装置22と、出力装置23と、メモリ24と、を更に備えてもよい。該入力装置22、出力装置23、メモリ24及びプロセッサ21は、バスを介して相互接続される。メモリは、ランダムアクセスメモリ(random access memory:RAM)、読出し専用メモリ(read-only memory:ROM)、消去可能なプログラマブル読出し専用メモリ(erasable programmable read only memory:EPROM)、又はコンパクトディスク読出し専用メモリ(compact disc read-only memory:CD-ROM)を含むが、これらに限定されない。該メモリは、関連命令及びデータを記憶するように構成される。入力装置は、データ及び/又は信号を入力するように構成され、出力装置は、データ及び/又は信号を出力するように構成される。出力装置及び入力装置は独立した機器であってもよく、一体型機器であってもよい。プロセッサは、1つ又は複数のプロセッサを含んでもよく、例えば、1つ又は複数の中央演算装置(central processing unit:CPU)を含む。プロセッサが1つのCPUである場合、該CPUは、シングルコアCPUであってもよく、マルチコアCPUであってもよい。メモリは、ネットワーク装置のプログラムコード及びデータを記憶するように構成される。プロセッサは、該メモリにおけるプログラムコード及びデータを呼び出して、上記方法実施例における工程を実行するように構成される。具体的には、方法実施例における説明を参照されたい。ここで、詳細な説明を省略する。
図7に顔認識装置の簡略化した設計のみが示されることが理解されるべきである。実際の適用において、顔認識装置は、必要な他の素子を更に備えてもよく、任意の数の入力/出力装置、プロセッサ、コントローラ、メモリなどを含むが、これらに限定されない。本願の実施例を実現できる全ての顔認識装置は、いずれも本願の保護範囲内に含まれる。本明細書に開示されている実施例に記載の各例におけるユニット及びアルゴリズムステップと合わせて、本願は、電子ハードウェア又は電子ハードウェアとコンピュータソフトウェアの組み合わせにより実現することができることは、当業者であれば容易に理解すべきである。機能がハードウェアによって実行されるか、あるいは、コンピュータソフトウェアによるハードウェア駆動の形態で実行されるかは、技術的解決手段の、特定の適用例、及び設計制約条件に依存する。当業者は、特定の適用について、説明された機能を異なる方法で実現させることができるが、このような実現も本願の範囲に属する。便利で簡潔に説明するために、上記説明されたシステムと、装置とユニットとの具体的な作動過程は、前記方法実施例における過程を参照することができるから、ここで詳しく説明しないようにすることは、当業者にはっきり理解されるべきである。本願の各々の実施例に対する説明はそれぞれ偏りがあって、便利で簡潔に説明するために、同様又は類似した部分は異なる実施例において重複して説明されていないことがあるため、ある実施例に詳しく説明されていない部分に対して、ほかの実施例に関する説明を参照することができることは、当業者にもはっきり理解されるべきである。本願で提供される幾つかの実施例において、開示される装置及び方法は、他の方式によって実現できることを理解すべきである。例えば、以上に記載した装置の実施例はただ例示的なもので、例えば、前記ユニットの分割はただロジック機能の分割で、実際に実現する時は他の分割方式によってもよい。例えば、複数のユニット又は組立体を組み合わせてもよいし、別のシステムに組み込んでもよい。又は若干の特徴を無視してもよいし、実行しなくてもよい。また、示したか或いは検討した相互間の結合又は直接的な結合又は通信接続は、幾つかのインタフェース、装置又はユニットによる間接的な結合又は通信接続であってもよく、電気的、機械的または他の形態であってもよい。分離部材として説明したモジュールは、物理的に別個のものであってもよいし、そうでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよいし、そうでなくてもよい。即ち、同一の位置に位置してもよいし、複数のネットワークに分布してもよい。実際の需要に応じてそのうちの一部又は全てのユニットにより本実施例の方策の目的を実現することができる。
【0085】
また、本発明の各実施例における各機能ユニットは一つの処理ユニットに集積されてもよいし、各ユニットが物理的に別個のものとして存在してもよいし、2つ以上のユニットが一つのユニットに集積されてもよい。上記実施例において、全て又は一部は、ソフトウェア、ハードウェア、ファームウェア又はそれらの任意の組み合わせにより実現してもよい。ソフトウェアにより実現する場合、全て又は一部をコンピュータプログラム製品の形式で実現してもよい。前記コンピュータプログラム製品は、1つ又は複数のコンピュータ命令を含む。コンピュータで前記コンピュータプログラム命令をロードして実行する時、本願の実施例に記載の手順又は機能が全部又は部分的に生成される。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブルデバイスであってもよい。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてもよく、又は、前記コンピュータ可読記憶媒体により伝送されてもよい。前記コンピュータ命令を、1つのウェブサイト、コンピュータ、サーバ又はデータセンタから、有線(例えば、同軸ケーブル、光ファイバー、デジタル加入者回線(digital subscriber line:DSL))又は無線(例えば、赤外、無線、マイクロウェーブ等)の方式で、もう1つのウェブサイト、コンピュータ、サーバ又はデータセンタに伝送することができる。前記コンピュータ可読記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であってもよく、又は、1つ又は複数の利用可能な媒体で集積されたサーバ、データセンタなどのデータ記憶装置であってもよい。前記利用可能ば媒体は、磁気媒体(例えば、フレキシブルディスク、ハードディスク、磁気ディスク)、光媒体(例えば、デジタルバーサタイルディスク(digital versatile disc:DVD))、又は半導体媒体(例えば、ソリッドステートドライブ(solid state disk:SSD))等であってもよい。
【0086】
上記実施例における各方法の全ての又は一部のステップを、プログラムにより関連ハードウェアを命令することで実行することができることは、当業者であれば理解されるべきである。該プログラムは、コンピュータ可読記憶媒体に記憶されてもよい。該プログラムが実行される時、上記各方法の実施例のプロセスを含んでもよい。前記記憶媒体は、読み出し専用メモリ(read-only memory:ROM)又はランダムアクセスメモリ(random access memory:RAM)、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な各種の媒体を含む。本願の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本願の実施例における図面を参照しながら、本願の具体的な技術的解決手段を更に詳しく説明する。下記実施例は、本願を説明するためのものに過ぎず、本願の範囲を限定するものではない。