(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-12
(45)【発行日】2023-12-20
(54)【発明の名称】顔認識方法、ニューラルネットワークのトレーニング方法、顔認識装置、電子機器及びコンピュータ可読記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20231213BHJP
【FI】
G06T7/00 660A
G06T7/00 350C
(21)【出願番号】P 2021540572
(86)(22)【出願日】2019-10-31
(86)【国際出願番号】 CN2019114674
(87)【国際公開番号】W WO2020173117
(87)【国際公開日】2020-09-03
【審査請求日】2021-07-16
(31)【優先権主張番号】201910145024.9
(32)【優先日】2019-02-26
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】516159397
【氏名又は名称】ベイジン センスタイム テクノロジー デベロップメント シーオー.,エルティーディー
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ワン,フェイ
(72)【発明者】
【氏名】キアン,チェン
【審査官】宮島 潤
(56)【参考文献】
【文献】中国特許出願公開第109241888(CN,A)
【文献】中国特許出願公開第108491805(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
(57)【特許請求の範囲】
【請求項1】
第1のカメラにより第1の顔画像を取得するステップと、
前記第1の顔画像の第1の顔特徴を抽出するステップと、
前記第1の顔特徴を、前記第1のカメラと異なるタイプのカメラである第2のカメラが取得した第2の顔画像の特徴から抽出された予め記憶された第2の顔特徴と対比し、前記第1の顔特徴と前記第2の顔特徴との間の類似度を示す参照類似度を取得するステップと、
前記参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定するステップと、を含み、
前記第1のカメラはサーモカメラであって前記第2のカメラは可視光カメラであり、或いは、前記第1のカメラは可視光カメラであって前記第2のカメラはサーモカメラであり、
前記参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定する前記ステップは、
前記参照類似度に加えて、更に参照誤報率及び類似度閾値にも基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定するステップであって、
前記類似度閾値は前記参照類似度の閾値であり、異なる参照誤報率は異なる類似度閾値に対応するステップ、或いは、
前記参照類似度に加えて、更に閾値情報にも基づいて、正規化された参照類似度を決定し、前記正規化された参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定するステップ
であって、
前記閾値情報は、ポジティブサンプルペアの類似度、ネガティブサンプルペアの類似度及び予め設定された異なる誤報率に基づいて取得され、前記閾値情報は、第1の閾値及び第2の閾値を含み、前記参照類似度は、第1の閾値と第2の閾値との間にあり、前記正規化された参照類似度は、前記参照類似度、前記第1の閾値及び前記第2の閾値に基づいて決定されるステップを含み、
前記参照類似度に加えて、更に参照誤報率及び類似度閾値にも基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定するステップは、
前記参照誤報率に基づいて前記類似度閾値を決定し、前記第1の顔特徴と少なくとも2つの第2の顔特徴との前記参照類似度を取得することにより、前記第1の顔特徴との類似度が最も高い第2の顔特徴を決定するステップと、
前記類似度が最も高い第2の顔特徴と前記第1の顔特徴との前記参照類似度が前記類似度閾値よりも大きい場合、前記類似度が最も高い第2の顔特徴と前記第1の顔特徴とが同じ人に対応すると決定するステップと、を含み、
前記正規化された参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定するステップは、
第1の顔特徴と少なくとも2つの第2の顔特徴との参照類似度に基づいて取得した少なくとも2つの正規化された参照類似度に基づいて前記第1の顔特徴との類似度が最も高い第2の顔特徴を決定し、かつ前記第1の顔特徴との類似度が最も高い該第2の顔特徴と第1の顔特徴との正規化された前記参照類似度が前記類似度閾値よりも大きければ、前記第1の顔特徴との類似度が最も高い第2の顔特徴と前記第1の顔特徴とが同じ人に対応すると決定するステップを含む、ことを特徴とする顔認識方法。
【請求項2】
前記第1の顔画像の第1の顔特徴を抽出する前記ステップとは、
前記第1の顔画像を予めトレーニングされたニューラルネットワークに入力し、前記ニューラルネットワークにより前記第1の顔画像の第1の顔特徴を出力するステップを含み、前記ニューラルネットワークは、
第1のタイプの画像サンプル及び第2のタイプの画像サンプルに基づいてトレーニングすることにより取得され
、前記第1のタイプの画像サンプルは第1タイプのカメラによって撮影され、前記第2のタイプの画像サンプルは第2タイプのカメラによって撮影され、
前記第1のタイプのカメラはサーモカメラであって前記第2のタイプのカメラは可視光カメラであり、或いは、前記第1のタイプのカメラは可視光カメラであって前記第2のタイプのカメラはサーモカメラであり、
前記第1のタイプの画像サンプル及び前記第2のタイプの画像サンプルには顔が含まれ、
前記ニューラルネットワークは2種類の異なるタイプの画像に対する特徴抽出能力を有することを特徴とする請求項
1に記載の
顔認識方法。
【請求項3】
前記ニューラルネットワークは、前記第1のタイプの画像サンプル、前記第2のタイプの画像サンプル及び混合タイプの画像サンプルに基づいてトレーニングされ、前記混合タイプの画像サンプルは、前記第1のタイプの画像サンプルと前記第2のタイプの画像サンプルとをペアリングすることにより取得されるものである、ことを特徴とする請求項
2に記載の
顔認識方法。
【請求項4】
前記第1のカメラは車載カメラを含み、第1のカメラにより第1の顔画像を取得する前記ステップは、
前記車載カメラにより前記第1の顔画像を取得するステップを含み、前記第1の顔画像は、
車両の車両使用者の顔画像を含む、ことを特徴とする請求項1~3のいずれか1項に記載の顔認識方法。
【請求項5】
前記車両使用者は、前記車両を運転する人、前記車両に乗る人、前記車両を修理する人、前記車両に給油する人及び前記車両を制御する人のうちの1人以上を含む、ことを特徴とする請求項
4に記載の
顔認識方法。
【請求項6】
前記車両使用者は、前記車両を運転する人を含み、前記車載カメラにより前記第1の顔画像を取得する前記ステップは、
トリガ命令を受信した場合、前記車載カメラにより車両を運転する人の前記第1の顔画像を取得するステップ、
或いは、前記車両の走行中に、前記車載カメラにより車両を運転する人の前記第1の顔画像を取得するステップ、
或いは、前記車両の走行速度が参照速度に達した場合、前記車載カメラにより車両を運転する人の前記第1の顔画像を取得するステップを含み、
前記トリガ命令は、ユーザが入力したトリガ命令であ
り、
或いは他の電子機器が送信したトリガ命令であ
る、ことを特徴とする請求項4に記載の顔認識方法。
【請求項7】
前記第2の顔画像は、前記車両使用者が顔登録を行うための画像であり、前記第1の顔特徴を予め記憶された第2の顔特徴と対比する前記ステップの前に、前記
顔認識方法は、
前記第2のカメラにより前記第2の顔画像を取得するステップと、
前記第2の顔画像の第2の顔特徴を抽出するステップと、
前記第2の顔画像の第2の顔特徴を保存するステップと、をさらに含む、ことを特徴とする請求項4~6のいずれか1項に記載の顔認識方法。
【請求項8】
異なるタイプのカメラによって撮影された顔の画像が含まれる、第1のタイプの画像サンプル及び第2のタイプの画像サンプルを取得するステップと、
前記第1のタイプの画像サンプル及び前記第2のタイプの画像サンプルに基づいてニューラルネットワークをトレーニングするステップと、を含み、
異なるタイプのカメラは第1のカメラ及び第2のカメラを含み、前記第1のタイプの画像サンプルは第1のカメラによって撮影され、前記第2のタイプの画像サンプルは第2のカメラによって撮影され、
前記第1のカメラはサーモカメラであり、前記第2のカメラは可視光カメラであり、或いは、前記第1のカメラは可視光カメラであり、前記第2のカメラはサーモカメラであり、
前記ニューラルネットワークは2種類の異なるタイプの画像に対する特徴抽出能力を有し、
前記第1のタイプの画像サンプル及び前記第2のタイプの画像サンプルに基づいてニューラルネットワークをトレーニングする前記ステップは、
前記第1のタイプの画像サンプルと前記第2のタイプの画像サンプルとをペアリングして、前記第1のタイプの画像サンプルと前記第2のタイプの画像サンプルの混合タイプの画像サンプルを取得するステップ
であって、前記混合タイプの画像サンプルは複数ペアの混合タイプの画像サンプルを含み、各ペアの混合タイプの画像サンプルは、第1のタイプの画像サンプル及び第2のタイプの画像サンプルを含むステップと、
前記第1のタイプの画像サンプル、前記第2のタイプの画像サンプル及び前記混合タイプの画像サンプルに基づいて前記ニューラルネットワークをトレーニングするステップと、を含む、ことを特徴とするニューラルネットワークのトレーニング方法。
【請求項9】
前記第1のタイプの画像サンプル、前記第2のタイプの画像サンプル及び前記混合タイプの画像サンプルに基づいて前記ニューラルネットワークをトレーニングする前記ステップは、
前記ニューラルネットワークにより前記第1のタイプの画像サンプルの顔予測結果、前記第2のタイプの画像サンプルの顔予測結果及び前記混合タイプの画像サンプルの顔予測結果を取得するステップと、
前記第1のタイプの画像サンプルの顔予測結果と顔ラベリング結果との差異、前記第2のタイプの画像サンプルの顔予測結果と顔ラベリング結果との差異及び前記混合タイプの画像サンプルの顔予測結果と顔ラベリング結果との差異に基づいて前記ニューラルネットワークをトレーニングするステップ
であって、顔ラベリング結果は画像サンプルに含まれる顔のラベリング情報であるステップと、を含む、ことを特徴とする請求項8に記載のニューラルネットワークのトレーニング方法。
【請求項10】
前記ニューラルネットワークには第1の分類器、第2の分類器及び混合分類器が含まれ、前記ニューラルネットワークにより前記第1のタイプの画像サンプルの顔予測結果、前記第2のタイプの画像サンプルの顔予測結果及び前記混合タイプの画像サンプルの顔予測結果を取得する前記ステップは、
前記第1のタイプの画像サンプルの顔特徴を前記第1の分類器に入力して前記第1のタイプの画像サンプルの顔予測結果を取得するステップと、
前記第2のタイプの画像サンプルの顔特徴を前記第2の分類器に入力して前記第2のタイプの画像サンプルの顔予測結果を取得するステップと、
前記混合タイプの画像サンプルの顔特徴を前記混合分類器に入力して前記混合タイプの画像サンプルの顔予測結果を取得するステップと、を含む、ことを特徴とする請求項
9に記載の
ニューラルネットワークのトレーニング方法。
【請求項11】
前記第1のタイプの画像サンプル、前記第2のタイプの画像サンプル及び前記混合タイプの画像サンプルに基づいて前記ニューラルネットワークをトレーニングする前記ステップの後に、
前記ニューラルネットワーク中から前記第1の分類器、前記第2の分類器及び前記混合分類器を除去して、顔認識を行うためのニューラルネットワークを取得するステップをさらに含むことを特徴とする請求項
10に記載の
ニューラルネットワークのトレーニング方法。
【請求項12】
第1のカメラにより第1の顔画像を取得する第1の取得ユニットと、
前記第1の顔画像の第1の顔特徴を抽出する第1の抽出ユニットと、
前記第1の顔特徴を、前記第1のカメラと異なるタイプのカメラである第2のカメラが取得した第2の顔画像の特徴から抽出された予め記憶された第2の顔特徴と対比し、第1の顔特徴と前記第2の顔特徴との間の類似度を示す参照類似度を取得する対比ユニットと、
前記参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定する決定ユニットと、を含み、
前記第1のカメラはサーモカメラであって前記第2のカメラは可視光カメラであり、或いは、前記第1のカメラは可視光カメラであって前記第2のカメラはサーモカメラであり、
前記参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定する前記決定ユニットは、
前記参照類似度に加えて、更に参照誤報率及び類似度閾値にも基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定することであって、
前記類似度閾値は前記参照類似度の閾値であり、異なる参照誤報率は異なる類似度閾値に対応すること、或いは、
前記参照類似度に加えて、更に閾値情報にも基づいて、正規化された参照類似度を決定し、前記正規化された参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定すること
であって、前記閾値情報は、ポジティブサンプルペアの類似度、ネガティブサンプルペアの類似度及び予め設定された異なる誤報率に基づいて取得され、前記閾値情報は、第1の閾値及び第2の閾値を含み、前記参照類似度は、第1の閾値と第2の閾値との間にあり、前記正規化された参照類似度は、前記参照類似度、前記第1の閾値及び前記第2の閾値に基づいて決定されること、を含み、
前記参照類似度に加えて、更に参照誤報率及び類似度閾値にも基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定することは、
前記参照誤報率に基づいて前記類似度閾値を決定し、前記第1の顔特徴と少なくとも2つの第2の顔特徴との前記参照類似度を取得することにより、前記第1の顔特徴との類似度が最も高い第2の顔特徴を決定することと、
前記類似度が最も高い第2の顔特徴と前記第1の顔特徴との前記参照類似度が前記類似度閾値よりも大きい場合、前記類似度が最も高い第2の顔特徴と前記第1の顔特徴とが同じ人に対応すると決定することと、を含み、
前記正規化された参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定することは、
第1の顔特徴と少なくとも2つの第2の顔特徴との参照類似度に基づいて取得した少なくとも2つの正規化された参照類似度に基づいて前記第1の顔特徴との類似度が最も高い第2の顔特徴を決定し、かつ前記第1の顔特徴との類似度が最も高い該第2の顔特徴と前記第1の顔特徴との正規化された前記参照類似度が前記類似度閾値よりも大きければ、第1の顔特徴との類似度が最も高い第2の顔特徴と前記第1の顔特徴とが同じ人に対応すると決定することを含む、ことを特徴とする顔認識装置。
【請求項13】
プロセッサ及びメモリを含み、前記プロセッサは前記メモリに結合され、前記メモリは、前記プロセッサによって実行されると、前記プロセッサに請求項1~
7のいずれか1項に記載の
顔認識方法を実行させ、
又は前記プロセッサに請求項
8~
11のいずれか1項に記載の
ニューラルネットワークのトレーニング方法を実行させるプログラム命令を記憶する、ことを特徴とする電子機器。
【請求項14】
プロセッサによって実行されると、前記プロセッサに請求項1~
7のいずれか1項に記載の
顔認識方法を実行させ、
又は前記プロセッサに請求項
8~
11のいずれか1項に記載の
ニューラルネットワークのトレーニング方法を実行させるプログラム命令を含むコンピュータプログラムが記憶されている、ことを特徴とするコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0002】
本開示は、画像処理の技術分野に関し、特に顔認識方法、ニューラルネットワークのトレーニング方法、装置及び電子機器に関する。
【背景技術】
【0003】
人工知能と車両業界の急速な発展に伴い、最新の人工知能技術を量産車両に適用することは、既にもっとも市場の将来性を有する方向となる。現在の車両市場に求められている人工知能製品は、運転支援システム、運転者監視システム、車両運行管理システムなどを含むが、これらに限定されない。これらの市場ニーズを満たすために、通常、運転者の顔を認識し、かつこれを基に後続きの管理及び制御を行う必要がある。
【発明の概要】
【0004】
本開示は、顔認識の技術手段及びニューラルネットワークのトレーニングの技術手段を提供する。
【0005】
第1の態様では、本開示の実施例に係る顔認識方法は、
第1のカメラにより第1の顔画像を取得するステップと、
前記第1の顔画像の第1の顔特徴を抽出するステップと、
前記第1の顔特徴を、前記第1のカメラと異なるタイプのカメラである第2のカメラが取得した第2の顔画像の特徴から抽出された予め記憶された第2の顔特徴と対比し、参照類似度を取得するステップと、
前記参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定するステップと、を含む。
【0006】
本開示の実施例では、顔認識を行う場合、異なるタイプのカメラにより取得された第1の顔画像及び第2の顔画像の認識を実現することができる。本開示の実施例の実施では、異なるタイプのカメラにより第1の顔画像及び第2の顔画像を取得することにより、本開示の実施例に係る顔認識方法をより多くのシーンに適用することができ、顔認証を容易にするだけでなく、顔登録時のカメラも限定されず、顔登録の利便性を向上させる。
【0007】
第2の態様では、本開示の実施例に係るニューラルネットワークのトレーニング方法は、
異なるタイプのカメラによって撮影され、かつ顔が含まれる第1のタイプの画像サンプル及び第2のタイプの画像サンプルを取得するステップと、
前記第1のタイプの画像サンプル及び前記第2のタイプの画像サンプルに基づいてニューラルネットワークをトレーニングするステップと、を含む。
【0008】
本開示の実施例では、異なるタイプのカメラによって撮影された顔画像を用いてニューラルネットワークをトレーニングすることにより、該ニューラルネットワークが顔特徴を出力する精度を効果的に向上させることができるとともに、顔認識を行うとき、該ニューラルネットワークを用いて顔特徴を抽出すると、顔認識の精度を効果的に向上させる。
【0009】
第3の態様では、本開示の実施例に係る顔認識装置は、
第1のカメラにより第1の顔画像を取得する第1の取得ユニットと、
前記第1の顔画像の第1の顔特徴を抽出する第1の抽出ユニットと、
前記第1の顔特徴を、前記第1のカメラと異なるタイプのカメラである第2のカメラが取得した第2の顔画像の特徴から抽出された予め記憶された第2の顔特徴と対比し、参照類似度を取得する対比ユニットと、
前記参照類似度に基づいて前記第1の顔特徴と前記第2の顔特徴とが同じ人に対応するか否かを決定する決定ユニットと、を含む。
【0010】
第4の態様では、本開示の実施例に係るニューラルネットワークのトレーニング装置は、
異なるタイプのカメラによって撮影され、かつ顔が含まれる第1のタイプの画像サンプル及び第2のタイプの画像サンプルを取得する取得ユニットと、
前記第1のタイプの画像サンプル及び前記第2のタイプの画像サンプルに基づいてニューラルネットワークをトレーニングするトレーニングユニットと、を含む。
【0011】
第5の態様では、本開示の実施例に係る電子機器は、
プロセッサ及びメモリを含み、前記メモリは、前記プロセッサに結合され、さらにプログラム命令を記憶し、前記プロセッサは、前記電子機器が上記第1の態様の方法における対応する機能を実行することをサポートするように構成される。
【0012】
第6の態様では、本開示の実施例に係る電子機器は、プロセッサ及びメモリを含み、前記メモリは、前記プロセッサに結合され、さらにプログラム命令を記憶し、前記プロセッサは、前記電子機器が上記第2の態様の方法における対応する機能を実行することをサポートするように構成される。
【0013】
第7の態様では、本開示の実施例に係る顔認識システムは、ニューラルネットワークのトレーニング装置及び顔認識装置を含み、前記ニューラルネットワークのトレーニング装置は、前記顔認識装置に結合され、
前記ニューラルネットワークのトレーニング装置は、ニューラルネットワークをトレーニングし、
前記顔認識装置は、前記ニューラルネットワークのトレーニング装置によってトレーニングされたニューラルネットワークを適用する。
【0014】
第8の態様では、本開示の実施例に係るコンピュータ可読記憶媒体には、コンピュータにおいて実行されると、コンピュータに上記各態様に記載の方法を実行させる命令が記憶されている。
【0015】
第9の態様では、本開示の実施例に係る、命令を含むコンピュータプログラムは、命令がコンピュータにおいて実行されると、コンピュータに上記各態様に記載の方法を実行させる。
【0016】
本開示の出願人は、本開示の実施例を実施するプロセスにおいて、従来の顔認識方法において認証される画像タイプと登録される画像タイプとが同じ画像タイプであることを制限することが多く、例えば登録プロセスにおいてRGB画像を使用する場合、認証プロセスにおいてもRGB画像を使用する必要があり、このように、複数のタイプのカメラが関係するシーンでの従来の顔認識解決手段の適用が制限されることを発見した。本開示の実施例は、複数のタイプのカメラが関係するシーンに顔画像認識の解決手段を提供し、本開示の実施例の実施では、一タイプのカメラにより取得された第2の顔画像の顔画像をベースライブラリ特徴とし、別のタイプのカメラにより取得された第1の顔画像の顔特徴をベースライブラリ特徴と対比し、対比結果に基づいて顔認識を実現することにより、本開示の実施例に係る顔認識方法をより多くのシーンに適用することができ、顔認証を容易にするだけでなく、顔登録時のカメラも限定されず、顔登録の利便性を向上させる。
【図面の簡単な説明】
【0017】
本開示の実施例又は背景技術における技術手段をより明確に説明するために、以下、本開示の実施例又は背景技術に使用する必要がある図面について説明する。
【
図1】本開示の実施例に係る顔認識方法のフローチャートである。
【
図2】本開示の実施例に係るニューラルネットワークのトレーニング方法のフローチャートである。
【
図3】本開示の実施例に係るトレーニングプロセスの概略図である。
【
図4】本開示の実施例に係る顔認識装置の概略構成図である。
【
図5】本開示の実施例に係る別の顔認識装置の概略構成図である。
【
図6】本開示の実施例に係るニューラルネットワークのトレーニング装置の概略構成図である。
【
図7】本開示の実施例に係るトレーニングユニットの概略構成図である。
【
図8】本開示の実施例に係る別のニューラルネットワークのトレーニング装置の概略構成図である。
【
図9】本開示の実施例に係る電子機器の概略構成図である。
【発明を実施するための形態】
【0018】
本開示の目的、技術手段及び利点をより明確にするために、以下に図面を参照しながら本開示をさらに詳細に説明する。
【0019】
本開示の明細書と特許請求の範囲と上記図面における用語「第1」、「第2」などは、異なる対象を区別するためのものであり、特定の順序を説明するためのものではない。また、用語「含む」と「備える」及びそれらのいかなる変形は、非排他的な包含をカバーすることを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、示されたステップ又はユニットに限定されないが、好ましくは、示されていないステップ又はユニットをさらに含むか、又は好ましくは、これらのプロセス、方法又は機器に固有の他のステップ又はユニットをさらに含む。
【0020】
図1を参照すると、
図1は、本開示の実施例に係る顔認識方法のフローチャートであり、該顔認識方法は、顔認識装置に適用でき、さらに電子機器に適用でき、該電子機器は、サーバ又は端末装置を含んでよく、該サーバは、任意タイプのサーバ、例えばクラウドサーバなどを含んでよく、本開示の実施例では限定しない。該端末装置は、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、車載機器、運転者状態監視システム、乗車管理システム、自動車レンタル管理システム、オンライン配車管理システムなどを含んでよく、本開示の実施例は、該端末装置の具体的な形態を一意的に限定しない。以下、該顔認識方法の電子機器への適用を例として説明する。
【0021】
図1に示すように、該顔認識方法は、以下のステップ101~104を含む。
【0022】
ステップ101では、第1のカメラにより第1の顔画像を取得する。
【0023】
本開示の実施例では、該第1の顔画像は、第1のカメラにより撮影された画像を含んでよく、或いは、該第1の顔画像は、第1のカメラにより撮影されたビデオストリームデータ中の任意のフレームの画像などを含んでよく、本開示の実施例は、該第1の顔画像の元を限定しない。
【0024】
本開示の実施例では、第1のカメラはサーモカメラであってよく、或いは、第1のカメラは可視光カメラである。第1のカメラがサーモカメラである場合、第2のカメラは、サーモカメラと異なる他のカメラであってよく、例えば、第2のカメラは可視光カメラであってよい。第1のカメラが可視光カメラである場合、第2のカメラは可視光カメラと異なる他のカメラであってよく、例えば、第2のカメラはサーモカメラであってよい。一例では、可視光カメラは赤緑青(red green blue、RGB)カメラを含んでよい。サーモカメラは赤外線(infrared radiation、IR)カメラを含んでよい。IRカメラの結像は、環境光の干渉を受けず、昼間や夜であれ、晴れ、曇天や雨天であれ、外部道路やトンネルなどの異なる適用シーンであるかに関わらず、いずれも品質の差異が大きくない画像を収集することができる。RGBカメラは、価格が低く、適用が普及し、多くの端末又はシーンにいずれもRGBカメラが配置され、かつRGB画像も非常に普及して汎用される。したがって、車の適用シーンにおいて車載カメラはIRカメラであってよい。それによりRGBカメラを用いて顔登録を行い、登録の利便性及び柔軟性を向上させ、IRカメラを用いて顔認識を行い、車載カメラを用いてリアルタイムな画像収集を行い、顔認識の結果に基づいてロック解除、権限制御、人員/車両管理などの処理を行うことを容易にする。なお、以上は一例に過ぎず、具体的な実現において、他のタイプのカメラをさらに含む可能性があり、本明細書において繰り返して説明しない。
【0025】
一例では、第1のカメラは、電子機器に接続された外付けカメラであってよく、或いは該電子機器の内蔵されたカメラなどであってよく、本開示の実施例は、該第1のカメラの具体的な実現形態を限定しない。それに応じて、第2のカメラの一例では、第1のカメラ及び第2のカメラは、異なるタイプの車載カメラであってよく、つまり第1の顔画像は、車載カメラにより車両の運転領域において取得された顔画像であってよい。なお、具体的な実現において、該第1のカメラ及び該第2のカメラが様々な電子機器に内蔵される場合、一例として、第1のカメラがカメラに内蔵されてよく、或いは携帯電話に内蔵されてよく、或いは車載機器などに内蔵されてよく、本開示の実施例は、該第1のカメラ及び該第2のカメラの具体的な形態を一意的に限定しない。
【0026】
一例では、第1のカメラが車載カメラである場合、第1のカメラにより第1の顔画像を取得するステップは、
車載カメラにより第1の顔画像を取得するステップを含み、第1の顔画像は、車両の車両使用者の顔画像を含む。
【0027】
本実施例では、車両は、自動車、軽車両、乗用車、トラック、定時運行車、タクシー、二輪車、三輪車、四輪及び四輪以上車、小車、車両型ロボット、ラジコン模型自動車などを含んでよく、本開示の実施例は、該車両の具体的なタイプを限定しない。
【0028】
本実施例では、車両使用者は、車両を運転する人、車両に乗る人、車両を修理する人、車両に給油する人及び車両を制御する人のうちの1人以上を含んでよい。車両を制御する人はラジコン模型自動車を制御する人であってよく、車両に給油する人は給油作業者であってよく、車両を修理する人は自動車修理作業者であってよく、車両に乗る人はタクシー又は定時運行車などに乗る人であってよく、車両を運転する人は運転手などであってよい。本開示の実施例は、以上の車両使用者の具体的なタイプを限定しない。
【0029】
一例では、車両使用者が車両を運転する人を含む場合、本開示の実施例は、電子機器がいつ第1の顔画像を取得するかというトリガ条件をさらに提供し、例えば、車載カメラにより第1の顔画像を取得するステップは、
トリガ命令を受信した場合、車載カメラにより第1の顔画像を取得するステップ、
或いは、車両の走行中に、車載カメラにより第1の顔画像を取得するステップ、
或いは、車両の走行速度が参照速度に達した場合、車載カメラにより第1の顔画像を取得するステップを含む。
【0030】
本実施例では、トリガ命令は、電子機器が受信した、ユーザが入力したトリガ命令であってもよく、電子機器に接続された他の電子機器が送信したトリガ命令などであってもよく、本実施例は、該トリガ命令の元及び具体的な形態を限定しない。
【0031】
本実施例では、車両の走行中は、車両が点火するときと理解でき、つまり、電子機器が、車両の走行が開始したことを検出すれば、該電子機器は、車両の運転領域におけるユーザの顔画像、すなわち第1の顔画像を取得することができる。
【0032】
本実施例では、参照速度は、車両の走行速度がどの程度に達するとき、電子機器が第1の顔画像を取得するかを判断するため、該参照速度が具体的にはどのぐらいであるかを限定しない。該参照速度は、ユーザにより設定されてもよく、電子機器に接続された、車両の走行速度を測定する装置により、設定されてもよく、電子機器により設定されてもよく、本実施例は限定しない。
【0033】
本実施例の実施では、トリガ条件を設定することにより第1の顔画像を取得することにより、車両使用者の身分を識別し、電子機器が顔認識を行う効率を効果的に向上させることができる。
【0034】
ステップ102では、第1の顔画像の第1の顔特徴を抽出する。
【0035】
本開示の実施例では、電子機器は、任意の方法により第1の顔画像の第1の顔特徴を抽出することができ、例えば、該電子機器は、特徴点抽出アルゴリズムにより第1の顔特徴を抽出することができ、該特徴点抽出については、susan演算子特徴抽出、harris演算子特徴抽出、sift特徴抽出又はニューラルネットワーク特徴方法などを用いることができるが、これらに限定されない。また、例えば、該電子機器は、幾何学的特徴の顔特徴抽出方法又はテンプレートマッチングに基づく顔特徴抽出方法により該第1の顔特徴などを抽出し、本開示の実施例は、該電子機器がどのように第1の顔特徴を抽出するかについて限定しない。
【0036】
一例では、該電子機器は、ニューラルネットワークにより第1の顔の第1の顔特徴を抽出してよく、該ニューラルネットワークは、予めトレーニングされたニューラルネットワークであってよい。該予めトレーニングされたニューラルネットワークは、本開示の実施例における電子機器によってトレーニングされたニューラルネットワークであってもよく、他の装置によってトレーニングされたニューラルネットワークであってもよく、次に本開示の実施例における電子機器が該他の装置から取得したニューラルネットワークなどであってもよく、本開示の実施例は限定しない。
【0037】
本開示の実施例では、ニューラルネットワークは、畳み込み層、非線形層、プーリング層などのネットワーク層により一定の方式で積層設計されてよく、本開示の実施例は、具体的なネットワーク構造を限定しない。ニューラルネットワークの構造を設計した後、ニューラルネットワークの所定のトレーニング完了条件を満たすまで、ラベリング情報付きの画像に基づいて、教師又は弱教師方式を用いて設計されたニューラルネットワークに対して勾配誤差逆伝播を行うなどの方法で幾千ひいては幾万回の反復トレーニングを行い、ニューラルネットワークのネットワークパラメータを調整してよい。具体的なトレーニング方式について、本開示の実施例は限定しない。
【0038】
ニューラルネットワークによる顔画像の特徴抽出は、端末間の出力を実現することができ、例えば、第1の顔画像を予めトレーニングされたニューラルネットワークに入力し、ニューラルネットワークが該第1の顔画像から特徴抽出を行って取得された特徴図を出力し、すなわち端末間で顔画像特徴抽出のプロセスを実現する。顔特徴抽出は、顔のいくつかの特徴に対して顔特徴抽出を行うことであり、顔特徴は顔表徴と呼ばれてもよい。一例として、ニューラルネットワークによる顔特徴抽出は、具体的にはディープニューラルネットワークにより顔の深さレベルの抽象的な特徴を抽出することであってよい。
【0039】
一例では、第1の顔画像を予めトレーニングされたニューラルネットワークに入力し、ニューラルネットワークにより第1の顔画像の第1の顔特徴を出力し、ニューラルネットワークは、異なるタイプのカメラによって撮影され、かつ顔が含まれる第1のタイプの画像サンプル及び第2のタイプの画像サンプルに基づいてトレーニングすることにより取得される。本開示では、2種類の異なるタイプのカメラによって撮影された画像サンプルを用いてニューラルネットワークをトレーニングすることにより、ニューラルネットワークは、異なるタイプの画像の特徴抽出能力を学習することができ、これによりトレーニングされたニューラルネットワークに基づいて異なるタイプの画像に対する顔認識能力を実現する。
【0040】
ステップ103では、第1の顔特徴を、第1のカメラと異なるタイプのカメラである第2のカメラが取得した第2の顔画像の特徴から抽出された予め記憶された第2の顔特徴と対比し、参照類似度を取得する。
【0041】
本開示の実施例では、第1の顔画像は、顔認証を行う必要がある顔画像として理解されてよく、或いは顔認識を行う必要がある顔画像として理解されてよく、或いは検索する必要がある顔画像として理解されてよい。第2の顔画像は、顔登録時の顔画像として理解されてよく、或いは身分ベースライブラリに保存された顔画像として理解されてよい。該身分ベースライブラリに身分情報、及び各身分情報に対応する顔特徴が保存される。以下、第1の顔画像が顔認識を行う必要がある顔画像であり、そして第2の顔画像が顔登録時の顔画像であることを例として説明する。
【0042】
本開示の実施例では、第1のカメラ及び第2のカメラは異なるタイプのカメラに属し、つまり第1の顔画像と第2の顔画像は異なるタイプの顔画像として理解できる。例えば、第1の顔画像がRGB顔画像であれば、第2の顔画像はIR顔画像であってよい。或いは、第1の顔画像はIR顔画像であり、第2の顔画像はRGB顔画像である。或いは、他のタイプの顔画像などであり、本開示の実施例は限定しない。第1のカメラ及び第2のカメラの具体的な説明について、前述の実施例を参照することができ、本明細書において1つずつ詳述しない。
【0043】
本開示の実施例では、参照類似度は、第1の顔画像が身分ベースライブラリにおける第2の顔画像に対応するユーザに属する類似度であり、すなわち参照類似度は、第1の顔画像と第2の顔画像が同じ人に対応する類似度を示すことができる。例えば、電子機器は、顔特徴の対比により参照類似度を取得することができる。
【0044】
一例では、第2の顔画像が車両使用者に対して顔登録を行うための画像である場合、本開示の実施例は、第2の顔画像の顔特徴を取得する方法をさらに提供し、例えば第1の顔特徴を予め記憶された第2の顔特徴と対比する前に、
図1に示される方法は、
第2のカメラにより第2の顔画像を取得するステップと、
第2の顔画像の第2の顔特徴を抽出するステップと、
第2の顔画像の第2の顔特徴を保存するステップと、をさらに含む。
【0045】
本実施例は、第2の顔画像の顔特徴を抽出する方法を限定せず、例えば予めトレーニングされたニューラルネットワークにより該第2の顔画像の顔特徴を抽出することにより第2の顔特徴を取得してよい。また例えばローカルバイナリパターン(local binary patterns、LBP)方法により該第2の顔画像の顔特徴を抽出してよい。また例えばsift特徴抽出方法、幾何学的特徴の顔特徴抽出方法、及びテンプレートマッチングに基づく顔特徴抽出方法などにより該第2の顔画像の顔特徴を抽出してよい。なお、本実施例は、第2の顔画像の顔特徴をどのように抽出するかについて一意的に限定しない。本実施例では、第2の顔特徴を電子機器に保存することにより、顔認識に保障を提供することができる。
【0046】
ステップ104では、参照類似度に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定する。
【0047】
本開示の実施例では、参照類似度に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定する場合、例えば参照類似度と類似度閾値(静的な類似度閾値と理解できる)との間の関係を比較することにより決定してよく、参照類似度が類似度閾値以上であれば、第1の顔特徴と第2の顔特徴とが同じ人に対応すると決定することができる。参照類似度が類似度閾値より小さければ、第1の顔特徴と第2の顔特徴とが異なる人に対応すると決定することができる。
【0048】
一例では、本開示の実施例は、動的な類似度閾値を用いて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定する方法をさらに提供する。例えば、参照類似度に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定するステップは、
参照類似度、参照誤報率及び類似度閾値に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定するステップを含み、異なる誤報率は、異なる類似度閾値に対応する。
【0049】
本実施例では、異なる誤報率は、異なる類似度閾値に対応し、つまり、誤報率と類似度閾値との間に対応関係がある。異なる誤報率が具体的に対応する類似度閾値がどのぐらいであるかについて、本開示の実施例は限定しない。例えば、該誤報率と類似度閾値との間の対応関係は、ユーザにより設定されてよく、或いは電子機器により自主的に設定されてよく、本開示の実施例は限定しない。なお、本開示の実施例における参照誤報率は、電子機器により決定された誤報率であり、例えば電子機器が誤報率と類似度閾値との間の対応関係から決定した1つの誤報率である。
【0050】
例えば、誤報率と類似度閾値との間の関係は以下のとおりである:誤報率が万分の一である場合、類似度閾値は0.7であり、誤報率が十万分の一である場合、類似度閾値は0.8であってよく、誤報率が百万分の一である場合、類似度閾値は0.9であってよく、誤報率が千万分の一である場合、類似度閾値は0.98であってよい。これにより、参照誤報率を決定した後、該電子機器は、該参照誤報率に基づいて類似度閾値を決定することができることにより、取得された参照類似度及び決定された類似度閾値に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定することができる。なお、本開示の実施例は、電子機器がどのように参照誤報率を決定するかについて限定せず、例えば該電子機器は、ユーザが入力した決定命令により決定してよく、或いは他の方法で決定してよい。
【0051】
本実施例の実施では、異なる誤報率により異なる類似度閾値を取得することにより第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定することは、固定の類似度閾値を用いる方式で顔を認証する解決手段を回避することにより、2つの顔画像の間の関係を判断するための類似度を動的に決定することができ、顔認識の精度を向上させる。
【0052】
一例では、本開示の実施例は、第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定する方法をさらに提供し、例えば参照類似度に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定するステップは、
参照類似度及び閾値情報に基づいて、正規化された参照類似度を決定するステップと、
正規化された参照類似度に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定するステップと、を含む。
【0053】
本実施例では、閾値情報は、ポジティブサンプルペアの類似度、ネガティブサンプルペアの類似度及び予め設定された異なる誤報率に基づいて取得され、ポジティブサンプルペア及びネガティブサンプルペアは、第1のタイプの画像及び第2のタイプの画像に基づいて取得され、各ポジティブサンプルペアは2枚の画像を含み、かつ2枚の画像における顔は同じ人に対応し、各ネガティブサンプルペアは2枚の画像を含み、かつ2枚の画像における顔は異なる人に対応し、かつポジティブサンプルペアとネガティブサンプルペアとの類似度は、予めトレーニングされたニューラルネットワークにより決定される。一例では、該閾値情報は、第1の閾値及び第2の閾値を含でんよく、これにより電子機器は、参照類似度、該第1の閾値及び該第2の閾値に基づいて、正規化された参照類似度を決定することができ、該参照類似度は、第1の閾値と第2の閾値との間にあり、かつ閾値情報において、該参照類似度は、第1の閾値及び第2の閾値に最も近い。第1のタイプの画像と第2のタイプの画像は、それぞれ異なるタイプのカメラにより取得される。
【0054】
本実施例では、参照類似度により、閾値情報から第1の閾値及び第2の閾値を決定してよく、これにより電子機器は、該第1の閾値及び該第2の閾値に基づいて、正規化された参照類似度を決定することができる。該正規化された参照類似度は、第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定するための最終類似度である。例えば、参照類似度の数値がT(n-1)(例えば第1の閾値である)とT(n)(例えば第2の閾値である)との間にある場合、正規化された参照類似度は、0.3+(n-1)/10+0.1*(参照類似度-T(n-1))*(T(n)-T(n-1))に決定することができる。なお、以上は正規化の方法の例に過ぎず、本実施例を限定するものと理解すべきではない。
【0055】
なお、本実施例における電子機器は、正規化された参照類似度を決定した後に、該電子機器は、固定の類似度閾値を用いて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定してよい。一例では、該電子機器は、さらに動的な類似度閾値(すなわち異なる誤報率に基づいて異なる類似度閾値を取得する)を用いて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定してよい。
【0056】
本実施例を実施して、第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定する類似度の精度をさらに向上させ、顔認証の精度を向上させることができる。
【0057】
一例では、身分ベースライブラリにおける顔画像は、複数である可能性があり、すなわち予め記憶された第2の顔特徴は複数の個人に対応する可能性があるため、該第2の顔画像の数は少なくとも2つを含み、参照類似度の数は少なくとも2つを含んでよい。したがって、本開示の実施例は、顔認識方法をさらに提供し、参照類似度、参照誤報率及び類似度閾値に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定するステップは、
参照誤報率に基づいて類似度閾値を決定し、そして少なくとも2つの参照類似度から第1の顔特徴との類似度が最も高い第2の顔特徴を決定するステップと、
類似度が最も高い第2の顔特徴と第1の顔特徴との参照類似度が類似度閾値よりも大きい場合、類似度が最も高い第2の顔特徴と第1の顔特徴とが同じ人に対応すると決定するステップとを含む。
【0058】
本実施例では、電子機器は、それぞれ第1の顔特徴と少なくとも2つの第2の顔特徴との参照類似度を取得することにより、少なくとも2つの参照類似度から第1の顔特徴との類似度が最も高い第2の顔特徴を決定し、次に該類似度が最も高い第2の顔特徴と第1の顔特徴との参照類似度が類似度閾値よりも大きいか否か(異なる誤報率に基づいて取得される)を対比してよく、大きければ、該類似度が最も高い第2の顔特徴と第1の顔特徴とが同じ人に対応することを示す。
【0059】
さらに、電子機器が第1の顔特徴と少なくとも2つの第2の顔特徴との参照類似度に基づいて取得した、正規化された参照類似度の数も少なくとも2つを含む。したがって、正規化された参照類似度を決定した後、該電子機器は、さらに、正規化された参照類似度に基づいて第1の顔特徴との類似度が最も高い第2の顔特徴を決定してよく、かつ第1の顔特徴との類似度が最も高い該第2の顔特徴と第1の顔特徴との正規化された参照類似度が類似度閾値(異なる誤報率に基づいて取得されてよい)よりも大きければ、第1の顔特徴との類似度が最も高い第2の顔特徴と第1の顔特徴における顔が同じ顔に属し、すなわち同じ人に対応すると決定することができる。
【0060】
本開示の実施例では、電子機器は、登録時の顔画像と顔認識時の顔画像とが同じ人に対応するか否かを対比する必要があるため、本開示の実施例は、顔登録時の顔画像を取得する電子機器と、顔認識時の顔画像を取得する電子機器とが同じタイプ(又は同一)の電子機器であるか否かについて限定しない。
【0061】
本開示の出願人は、本開示の実施例を実施するプロセスにおいて、従来の顔認識方法において認証される画像タイプと登録される画像タイプとが同じ画像タイプであることを制限することが多く、例えば登録プロセスにおいてRGB画像を使用する場合、認証プロセスにおいてもRGB画像を使用する必要があり、このように、複数のタイプのカメラが関係するシーンでの従来の顔認識解決手段の適用が制限されることを発見した。本開示の実施例は、複数のタイプのカメラが関係するシーンに顔画像認識の解決手段を提供し、本開示の実施例の実施では、一タイプのカメラにより取得された第2の顔画像の顔画像をベースライブラリ特徴とし、別のタイプのカメラにより取得された第1の顔画像の顔特徴をベースライブラリ特徴と対比し、対比結果に基づいて顔認識を実現することにより、本開示の実施例に係る顔認識方法をより多くのシーンに適用することができ、顔認証を容易にするだけでなく、顔登録時のカメラも限定されず、顔登録の利便性を向上させる。
【0062】
一例として、以下に例を挙げて本開示の実施例が適用するシーンを説明する。
【0063】
シーン1
【0064】
(1)登録プロセスについて、ユーザは、携帯電話により顔登録を完了し、すなわち携帯電話に設置されたカメラにより撮影された顔画像により登録フローを行ってよく、携帯電話に一般的に可視光カメラ(例えばRGBカメラ)が設置されるため、登録された顔画像は、RGBカメラにより撮影された第2の顔画像である。その後に登録された顔画像を携帯電話により又は携帯電話を介してサーバにより車載機器に送信し、車載機器は、該登録された顔画像を記憶し、すなわち車載機器は、第2の顔画像を記憶する。或いは、ユーザは、携帯電話に設置された可視光カメラにより第2の顔画像を撮影して、該第2の顔画像をサーバ又は車載機器に送信することにより、サーバ又は車載機器において第2の顔画像の登録を完了し、登録が完了した後に第2の顔画像に基づいて抽出された第2の顔特徴を保存してよい。
【0065】
(2)認識プロセスについて、ユーザは、車載機器により認識する必要がある顔画像(すなわち第1の顔画像)を収集し、車載機器に赤外線カメラが設置されてよく、これにより赤外線カメラにより撮影された、例えばIR顔画像を顔認識しようとする対象の画像、第1の顔画像としてよい。該車載機器は、IR画像の顔特徴を抽出して、IR画像の顔特徴を登録されたRGB画像の顔特徴と照合することにより、識別ようとする対象のユーザと登録されたユーザとが同じ人であるか否かを決定する。
【0066】
なお、本開示の実施例に示されるシーン1は、運転者状態監視システム、乗車管理システム、自動車レンタル管理システム及びオンライン配車管理システムなどに適用できる。例えば、運転者状態監視システムに対して、該システムは、一般的には、顔認識、運転者動作検出、運転者疲労検出及び運転者注意力監視などのいくつかのモジュールを含む。したがって、上記システムは、顔認識の段階的ではシーン1に示された方法により顔認識を行うことにより、運転者の身分又は車両を賃貸する人の身分などを決定することができる。
【0067】
シーン2
【0068】
本開示の実施例に係る顔認識方法は、小区域入出管理システム及びセキュリティ設定制御システムなどにさらに適用でき、例えば小区域入出管理システムを例とする。
【0069】
(1)登録プロセスについて、ユーザ(ある小区域内の住人)は、携帯電話により顔登録を行い、すなわち携帯電話に設置された可視光カメラ(例えばRGBカメラ)により該ユーザの顔画像、すなわち第2の顔画像を取得してよい。その後に登録された顔画像を携帯電話により又は携帯電話を介してサーバにより入出制御機器に送信し、入出制御機器は、該第2の顔画像を記憶する。或いは、ユーザは、携帯電話に設置された可視光カメラにより第2の顔画像を撮影して、該第2の顔画像を入出制御機器に送信することにより、該入出制御機器により第2の顔画像の登録を完了し、登録が完了した後に第2の顔画像に基づいて抽出された第2の顔特徴を保存してよい。
【0070】
(2)認識プロセスについて、ユーザが小区域を入出する必要がある場合、入出制御機器は、赤外線カメラ(例えばIRカメラ)により該ユーザの顔画像、すなわち第1の顔画像を取得してよい。その後に該入出制御機器は、第1の顔画像の顔特徴を抽出して第1の顔特徴を取得し、該入出制御機器は、IRカメラにより撮影された第1の顔画像であるIR画像の顔特徴を、登録されたRGBカメラにより撮影されたRGB画像の顔特徴と対比することにより、小区域に入出しようとするユーザと登録されたユーザとが同じ人であるか否かを決定する。
【0071】
なお、以上は本開示の実施例において例示されたいくつかのシーンに過ぎず、具体的な実現では、本開示の実施例に係る方法は、さらに多くのシーンに適用でき、例えば本開示の実施例に係る方法は、携帯電話のロック解除などの端末のロック解除及び銀行身分認証システムなどにさらに適用でき、本開示の実施例は限定しない。携帯電話のロック解除での適用に対して、ユーザは、携帯電話により顔登録を行ってよく、その後に毎回携帯電話を使用するプロセスにおいて、該携帯電話は、いずれも本開示の実施例に係る方法を実行して顔画像の識別を実現することができる。なお、顔登録時の携帯電話と、顔認識時の携帯電話とは異なる携帯電話であってよく、すなわち顔登録時の携帯電話におけるカメラと顔認識時の携帯電話におけるカメラとは、タイプが異なってよい。また、金融身分認証システムである銀行身分認証システムに対して、ユーザが銀行口座を開設する時に、銀行端末により顔登録を行ってよく、その後に後続きの銀行業務を取り扱うプロセスにおいて、他の銀行端末は、本開示の実施例に係る方法を実行して顔画像の認識を実現して、ユーザの銀行業務の安全性を確保することができる。顔登録時の銀行端末及び顔認識時の銀行端末におけるカメラのタイプは異なってよい。
【0072】
したがって、本開示の実施例において示されたシーンを本開示の実施例を限定するものと理解すべきではない。
【0073】
本開示の出願人は、本開示の実施例を実施するプロセスにおいて、同じ人がRGBカメラ及びIRカメラにより2枚の顔画像を撮影して、この2枚の画像を用いてRGB画像、IR画像、RGBと赤外線画像の混合画像という3組の混合比較組み合わせを形成し、同じニューラルネットワークを介して取得された類似度に差異が存在する可能性があることをさらに発見した。
【0074】
同時に、2人の異なる人は、それぞれRGBカメラ及びIRカメラにより4枚の顔画像を撮影して、この4枚の顔画像を用いて異なる画像組み合わせ、例えばユーザ1RGB画像とユーザ2RGB画像、ユーザ1IR画像とユーザ2IR画像、ユーザ1RGB画像とユーザ2IR画像、ユーザ1IR画像とユーザ2RGB画像を構成する。この4組の混合比較組み合わせは、同じニューラルネットワークを介して取得された類似度にも差異が存在する可能性がある。
【0075】
これにより、本開示の実施例は、ニューラルネットワーク(neural network、NN)をトレーニングする技術手段を提供し、上記発生した問題を効果的に低減するか又は回避することができる。なお、本開示の実施例におけるニューラルネットワークは、ディープニューラルネットワーク(deep neural network、DNN)、畳み込みニューラルネットワークなどを含んでよく、本開示の実施例は、該ニューラルネットワークの具体的な形態を限定しない。
【0076】
以下、本開示の実施例に係るニューラルネットワークをトレーニングする技術手段を詳細に説明する。
【0077】
図2を参照すると、
図2は、本開示の実施例に係るニューラルネットワークのトレーニング方法のフローチャートであり、該ニューラルネットワークのトレーニング方法は、ニューラルネットワークのトレーニング装置に適用でき、そして該ニューラルネットワークのトレーニング方法は、電子機器に適用でき、該電子機器は、サーバ又は端末装置を含んでよく、該端末装置は、携帯電話、タブレットコンピュータ、デスクトップコンピュータ、パームサイズパーソナルコンピュータ、車載機器、及び車載ロボットなどを含んでよく、本開示の実施例は、該電子機器の具体的な形態を一意的に限定しない。なお、該ニューラルネットワークのトレーニング方法は、さらに顔認識装置に適用できる。つまり、
図2に示される方法及び
図1に示される方法は、同じタイプの電子機器により実行されてもよく、異なるタイプの電子装置により実行されてもよく、本開示の実施例は限定しない。同じタイプの電子機器により実行され、つまり、
図1に示される方法は、端末装置により実行され、
図2に示される方法は、端末装置により実行されてもよい。或いは、
図2に示される方法は、
図1に示される方法と同じ装置により実行されてよく、本開示の実施例は限定しない。
【0078】
以下、ニューラルネットワークのトレーニングプロセスにおいて使用されたトレーニング画像を画像サンプルと呼び、画像サンプルは、ラベリング情報を含み、ラベリング情報は、画像中の顔ID(顔のラベリング情報と理解されてよい)、画像のタイプなどのうちの少なくとも1つを含むが、それらに限定されず、同じ人に対応する顔IDは同じであり、画像のタイプは、画像収集に対応するカメラタイプを特徴付ける。
図2に示すように、該ニューラルネットワークのトレーニング方法は、以下のステップ201~202を含む。
【0079】
ステップ201では、異なるタイプのカメラによって撮影され、かつ顔が含まれる第1のタイプの画像サンプル及び第2のタイプの画像サンプルを取得する。
【0080】
本開示の実施例では、第1のタイプの画像サンプルは、少なくとも顔の画像を含み、第2のタイプの画像サンプルは、少なくとも顔の画像を含み、かつ該第1のタイプの画像サンプルと該第2のタイプの画像サンプルは、異なるタイプのカメラにより取得される。例えば、第1のタイプの画像サンプルがRGBカメラによって取得されると、第2のタイプの画像サンプルは、他のタイプのカメラ、例えばIRカメラによって取得されてよい。なお、異なるタイプのカメラの具体的な実施形態について、
図1に示される形態を参照することができ、本明細書において繰り返して説明しない。
【0081】
なお、該第1のタイプの画像サンプルの数量、及び該第2のタイプの画像サンプルの数量について、本開示の実施例は限定しない。該第1のタイプの画像サンプルの数及び該第2のタイプの画像サンプルの数は、ニューラルネットワークのトレーニング度合いを計量基準などとしてよい。
【0082】
ステップ202では、第1のタイプの画像サンプル及び第2のタイプの画像サンプルに基づいてニューラルネットワークをトレーニングする。
【0083】
本開示の実施例では、電子機器は、2種類の異なるタイプのカメラによって撮影された画像サンプルを用いてニューラルネットワークをトレーニングしてよく、これによりニューラルネットワークは、トレーニングプロセスにおいて2種類の異なるタイプの画像に対する特徴抽出能力を学習することができる。ニューラルネットワークのトレーニングが完了した後、トレーニングされたニューラルネットワークに基づいて、この2種類の異なる画像のうちの任意の1種類の画像に対して特徴抽出を行い、かつ特徴抽出の精度を保証することができ、これによりこの2種類のカメラに基づいて顔登録及び認識を行う適用需要を満たす。つまり、ニューラルネットワークをトレーニングする時に、単純に1つのタイプの画像サンプルを用いてトレーニングせず、複数のタイプの画像サンプルを用いてトレーニングすることにより、トレーニングされたニューラルネットワークは、異なるタイプの画像サンプルの特徴を効果的に取得することができる。
【0084】
一例では、教師ありトレーニングを例とし、ニューラルネットワークのトレーニング方法は、例えば、第1のタイプ画像サンプル及び第2のタイプ画像サンプルをニューラルネットワークに入力し、ニューラルネットワークを介して第1のタイプ画像サンプル及び第2のタイプ画像サンプルを処理した後に、ニューラルネットワークの、第1のタイプ画像サンプルへの予測結果及び第2のタイプ画像サンプルへの予測結果(すなわち各画像サンプルの顔予測結果)をそれぞれ出力する。その後に、所定の損失関数により画像サンプルの顔予測結果と画像サンプルのラベリング情報(すなわち真の顔ラベリング情報)との間の損失を計算し、すなわち所定の損失関数により第1のタイプの画像サンプルの予測結果とラベリング情報との間の損失及び第2のタイプの画像サンプルの予測結果とラベリング情報との間の損失を計算する。それにより該損失をニューラルネットワークに逆伝播し、ニューラルネットワークは、逆伝播された損失に基づいて畳み込みカーネル、重みなどのネットワークパラメータのパラメータ値を調整する。一般的には、調整した後に、所定のトレーニング完了条件(例えば、損失が所定の閾値よりも小さいか又は反復トレーニングの回数が設定回数を超えるなど)を満たすまで、他の第1のタイプの画像サンプル及び他の第2のタイプの画像サンプルをさらに入力し、上記トレーニングプロセスを繰り返してよい。なお、以上は本開示の実施例に係るトレーニングプロセスに過ぎず、具体的な実現では、さらに他の方法などを含む可能性があり、本開示の実施例は限定しない。
【0085】
一例では、第1のタイプの画像サンプル及び第2のタイプの画像サンプルに基づいてニューラルネットワークをトレーニングするステップは、
第1のタイプの画像サンプルと第2のタイプの画像サンプルとをペアリングして第1のタイプの画像サンプルと第2のタイプの画像サンプルの混合タイプの画像サンプルを取得するステップと、
第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルに基づいてニューラルネットワークをトレーニングするステップと、を含む。
【0086】
本実施例では、第1のタイプの画像サンプルと第2のタイプの画像サンプルとがペアリングされ、つまり、混合タイプの画像サンプルにおける各ペアの混合タイプの画像サンプルは、第1のタイプの画像サンプル及び第2のタイプの画像サンプルを含み、これにより2種類の異なるタイプのトレーニング用画像サンプルを形成する。第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルによりニューラルネットワークをトレーニングすることにより、該ニューラルネットワークは、各単一タイプの画像の特徴抽出能力を学習することができるだけでなく、この2種類の異なるタイプの画像の特徴抽出能力をよりよく共同学習することができ、ニューラルネットワークの特徴抽出の精度を向上させることにより、トレーニングされたニューラルネットワークは、本開示の実施例に係る顔認識方法に効果的に適用することができる。
【0087】
一例では、第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルに基づいてニューラルネットワークをトレーニングするステップは、
ニューラルネットワークにより第1のタイプの画像サンプルの顔予測結果、第2のタイプの画像サンプルの顔予測結果及び混合タイプの画像サンプルの顔予測結果を取得するステップと、
第1のタイプの画像サンプルの顔予測結果と顔ラベリング結果との差異、第2のタイプの画像サンプルの顔予測結果と顔ラベリング結果との差異及び混合タイプの画像サンプルの顔予測結果と顔ラベリング結果との差異に基づいてニューラルネットワークをトレーニングするステップと、を含む。
【0088】
本実施例では、電子機器は、ニューラルネットワークにより第1のタイプの画像サンプルの顔予測結果、第2のタイプの画像サンプルの顔予測結果及び混合タイプの画像サンプルの顔予測結果をそれぞれ取得してよい。その後に、該第1のタイプの画像サンプルの顔予測結果と顔ラベリング結果との差異、第2のタイプの画像サンプルの顔予測結果と顔ラベリング結果との差異及び混合タイプの画像サンプルの顔予測結果と顔ラベリング結果との差異に基づいてニューラルネットワークをトレーニングする。例えば、第1のタイプの画像サンプルの顔予測結果と顔ラベリング結果との間の損失に基づいてニューラルネットワークをトレーニングし、そして第2のタイプの画像サンプルの顔予測結果と顔ラベリング結果との間の損失に基づいてニューラルネットワークをトレーニングし、そして混合タイプの画像サンプルの顔予測結果と顔ラベリング結果との間の損失に基づいてニューラルネットワークをトレーニングしてよい。なお、具体的なトレーニング方法について、前述の実施例の説明を参照することができ、本明細書において1つずつ詳述しない。
【0089】
一例では、ニューラルネットワークが顔特徴を抽出する精度をさらに向上させるために、本開示の実施例は、トレーニング方法をさらに提供し、例えば、ニューラルネットワークには第1の分類器、第2の分類器及び混合分類器が含まれ、ニューラルネットワークにより第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルの顔予測結果を取得するステップは、
第1のタイプの画像サンプルの特徴を第1の分類器に入力して、第1のタイプの画像サンプルの顔予測結果を取得するステップと、
第2のタイプの画像サンプルを第2の分類器に入力して、第2のタイプの画像サンプルの顔予測結果を取得するステップと、
混合タイプの画像サンプルの特徴を混合分類器に入力して、混合タイプの画像サンプルの顔予測結果を取得するステップと、を含む。
【0090】
本実施例では、分類器は、異なるタイプの画像サンプルの顔予測結果を分類してよく、例えば分類器により該分類器に入力された画像サンプルの顔予測結果を取得することができることにより、分類器の出力に基づいて損失を決定し、さらにニューラルネットワークに逆伝播し、該ニューラルネットワークをトレーニングすることができる。一例では、それぞれ、第1の分類器により第1のタイプの画像サンプルの顔予測結果を出力し、第2の分類器により第2のタイプの画像サンプルの顔予測結果を出力し、そして混合分類器により混合タイプの画像サンプルの顔予測結果を出力してよい。画像サンプルのタイプに対応する分類器により顔予測結果を出力することにより、分類器が顔予測結果を出力する精度を効果的に向上させ、さらに分類器の出力結果に基づいて混合タイプの画像特徴抽出をサポートするニューラルネットワークのトレーニングの精度を向上させ、ニューラルネットワークが異なるタイプ画像の顔特徴を抽出する場合の正確性及びロバスト性を向上させることができる。
【0091】
第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルに基づいてニューラルネットワークをトレーニングする具体的な実現形態は、
図3に示されるものであってよく、
図3は、本開示の実施例に係るトレーニングプロセスの概略図である。第1のタイプの画像サンプルがRGB画像サンプルであり、RGB画像サンプルライブラリに含まれる各画像サンプルは、いずれもRGB画像サンプルであり、第2のタイプの画像サンプルがIR画像サンプルであり、IR画像サンプルライブラリに含まれる各画像サンプルは、いずれもIR画像サンプルであり、混合タイプの画像サンプルがRGB&IR画像サンプルであることを例とし、混合タイプの画像サンプルライブラリには、一部のRGB画像サンプル及び部分IR画像サンプルが含まれ、RGB&IR画像サンプルとして表示される。同時に、第1の分類器がRGB分類器であり、第2の分類器がIR分類器であり、混合分類器がRGB&IR分類器であることを例とし、RGB分類器は、RGB画像サンプルライブラリにおけるRGB画像サンプルを分類し、あるRGB画像サンプルの分類結果は、該RGB画像サンプルにおける顔がRGB画像サンプルライブラリにおける各顔IDカテゴリに属する確率を示し、IR分類器は、IR画像サンプルライブラリにおけるIR画像サンプルを分類し、あるIR画像サンプルの分類結果は、該IR画像サンプルにおける顔がIR画像サンプルライブラリにおける各顔IDカテゴリに属する確率を示し、RGB&IR分類器は、混合タイプの画像サンプルライブラリにおけるRGB画像サンプル及びIR画像サンプルを分類し、あるRGB&IR画像サンプルは、該画像サンプルにおける顔が混合タイプの画像サンプルライブラリにおける各顔IDカテゴリに属する確率を示す。RGB&IR画像サンプルにおける「&」は、混合分類器であるRGB&IR分類器に入力された画像サンプルがRGBタイプの画像サンプルである可能性があり、IRタイプの画像サンプルである可能性もあることを示してよい。したがって、本開示における「&」を本開示を限定するものと理解すべきではない。
【0092】
図3に示すように、RGB画像サンプル、IR画像サンプル及びRGB&IR画像サンプルをそれぞれニューラルネットワークに入力した後、該ニューラルネットワークは、特徴抽出器によりRGB画像サンプルの特徴、IR画像サンプルの特徴及びRGB&IR画像サンプルの特徴を出力してよい。その後に、RGB画像サンプルの特徴、IR画像サンプルの特徴及びRGB&IR画像サンプルの特徴をそれぞれRGB分類器、IR分類器、RGB&IR分類器に入力する。これにより、該ニューラルネットワークは、分類器により各画像サンプルの顔予測結果を出力し、該各画像サンプルの顔予測結果と各画像サンプルの顔ラベリング結果とを比較すれば、各画像サンプルの顔予測結果と各画像サンプルの顔ラベリング結果との間の損失を取得し、さらに該損失をニューラルネットワーク全体に逆伝播し、ニューラルネットワーク全体をトレーニングする。本実施例では、ニューラルネットワークに分類器を追加することにより、分類器がニューラルネットワーク全体のトレーニングを支援することにより、トレーニングされたニューラルネットワークは、異なるタイプの画像の特徴を正確にかつ効果的に抽出し、これにより顔認識の精度及び効率を向上させることができる。
【0093】
なお、第1の分類器、第2の分類器及び混合分類器によりニューラルネットワーク全体のトレーニングを完了した後に、
図2に示される方法は、
トレーニングされた上記ニューラルネットワーク中から第1の分類器、第2の分類器及び混合分類器を除去して、顔認識を行うためのニューラルネットワークを取得するステップをさらに含む。
【0094】
つまり、第1の分類器、第2の分類器及び混合分類器は、ニューラルネットワークのトレーニングを支援することができるが、具体的な適用において、例えば本開示の実施例に係る方法を適用してニューラルネットワークを介して顔認識を行うプロセスにおいて、該ニューラルネットワークは、該第1の分類器、第2の分類器及び混合分類器を含まなくてよく、これにより、ニューラルネットワークのトレーニング装置のトレーニングが完了した後、ニューラルネットワークにおける第1の分類器、第2の分類器及び混合分類器を除去することができる。
【0095】
本開示の実施例では、異なるタイプのカメラによって撮影された画像を用いてニューラルネットワークをトレーニングすることにより、該ニューラルネットワークが特徴を出力する効率を効果的に向上させ、異なるタイプの画像が同じニューラルネットワークにより特徴を抽出することによる類似度の差異を低減するか又は回避することができる。
【0096】
一例では、
図1に示される正規化された参照類似度を決定するための閾値情報を取得するために、本開示の実施例は、閾値情報の取得方法をさらに提供し、以下に示すとおりである。
【0097】
第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルに基づいてニューラルネットワークをトレーニングした後に、
図2に示される方法は、
異なるカメラにより取得された第1のタイプの画像及び第2のタイプの画像を取得するステップと、
第1のタイプの画像及び第2のタイプの画像に基づいて、それぞれ2つの画像を含み、かつその2つの画像における顔が同じ人に対応するポジティブサンプルペアと、それぞれ2つの画像を含み、かつその2つの画像における顔が異なる人に対応するネガティブサンプルペアとを取得するステップと、
トレーニングされたニューラルネットワークを介してそれぞれポジティブサンプルペアの類似度及びネガティブサンプルペアの類似度を決定するステップと、
ポジティブサンプルペアの類似度、ネガティブサンプルペアの類似度及び予め設定された異なる誤報率に基づいて、第1の閾値及び第2の閾値を含む閾値情報を決定するステップと、をさらに含む。
【0098】
本実施例では、第1のタイプの画像は、少なくとも顔の画像を含み、第2のタイプの画像は、少なくとも顔の画像を含み、かつ該第1のタイプの画像と該第2のタイプの画像は、異なるタイプのカメラによって取得される。例えば、RGBカメラにより複数の人のRGB画像を取得し、そしてIRカメラにより複数の人のIR画像を取得することができ、例えばN人を含み、各人は、M枚のRGB画像及びM枚のIR画像を含む。該M及びNは、いずれも2以上の整数である。
【0099】
一例では、第1のタイプの画像及び第2のタイプの画像に基づいてポジティブサンプルペアを取得するステップは、
第1のタイプの画像をペアリングして第1のタイプの画像のポジティブサンプルペアを取得するステップと、
第2のタイプの画像をペアリングして第2のタイプの画像のポジティブサンプルペアを取得するステップと、
第1のタイプの画像と第2のタイプの画像とをペアリングして混合画像のポジティブサンプルペアを取得するステップと、を含む。
【0100】
本実施例では、例えばN人を含み、各人がM枚のRGB画像及びM枚のIR画像を含むことを例とすると、各人が含むM枚のRGB画像をペアリングしてM*(M-1)/2個のRGBポジティブサンプルペアを取得し、各人が含むM枚のIR画像をペアリングしてM*(M-1)/2個のIRポジティブサンプルペアを取得し、各人が含むM枚のRGB画像とM枚のIR画像とをペアリングしてM*M個のRGB&IRポジティブサンプルペアを取得する。
【0101】
ネガティブサンプルペアの場合、各人の画像と他の異なる人の画像とをペアリングし、ネガティブサンプルペアを構成することができる。例えば、第1のユーザ及び第2のユーザを例とすると、該ネガティブサンプルペアは、第1のユーザのIR画像と第2のユーザのIR画像、第1のユーザのRGB画像と第2のユーザのRGB画像、及び第1のユーザのIR画像と第2のユーザのRGB画像を含んでよい。
【0102】
ポジティブサンプルペア及びネガティブサンプルペアを取得した後に、
図2に示されるトレーニングされたニューラルネットワーク上でテストすることができ、例えば、トレーニングされたニューラルネットワークによりポジティブサンプルペアの顔特徴及びネガティブサンプルペアの顔特徴を出力し、該ポジティブサンプルペアの顔特徴に基づいて該ポジティブサンプルペアの類似度を取得し、そして該ネガティブサンプルペアの顔特徴に基づいて該ネガティブサンプルペアの類似度を取得する。それにより異なる誤報率での通過率及び対応する閾値を取得する。具体的には、例えば、ポジティブサンプルペアの類似度及びネガティブサンプルペアの類似度を取得した場合、目標誤報率に基づいて、各サンプルペアの類似度から類似度が最も低いサンプルペアを見つけ、かつ該類似度が最も低いサンプルペアが誤報のサンプルペアに属し、これにより該類似度が最も低いサンプルペアに対応する類似度を該目標誤報率に対応する閾値とすることができる。なお、目標誤報率は、予め設定されたか又は選択された1つの誤報率であると理解することができ、本開示の実施例は、該目標誤報率の具体的な値を限定しない。
【0103】
表1に示すように、表1は、本開示の実施例に係る閾値情報である。
【0104】
【0105】
誤報率は、電子機器により自主的に設定されてよいなど、本開示の実施例は、該誤報率の具体的な値を限定しない。
【0106】
例えば、目標誤報率が0.00001であり、ポジティブサンプルペア及びネガティブサンプルペアが合計1000000ペアであれば、誤報のサンプルペアは、合計10対であることが分かる。ポジティブサンプルペア及びネガティブサンプルペアから該10ペアの誤報のサンプルペアを見つけ、その後にその中から類似度が最も低いサンプルペアを取り出すことができ、これにより該類似度が最も低いサンプルペアの類似度は、目標誤報率に対応する閾値である。表1に対して、目標誤報率0.00001に対応する閾値はT(5)である。なお、本開示の実施例は、類似度が最も低いサンプルペアをどのように選択するかの方法を限定せず、例えば、ランキング法により該類似度が最も低いサンプルペアなどを取得することができる。表1に示される各対応関係は一例に過ぎず、本開示の実施例は具体的な値を限定しない。
【0107】
本実施例では、ニューラルネットワークをトレーニングした後に、さらに大量の画像に基づいて該ニューラルネットワークをテストすることにより異なる誤報率での閾値を取得し、すなわち閾値情報を取得することができ、さらに該ニューラルネットワークを適用するとき、異なる誤報率に基づいて異なる閾値情報(例えば第1の閾値及び第2の閾値)を用いて正規化された参照類似度を決定することができる。なお、表1の具体的な適用について、
図1に示される実現形態を参照することができ、例えば電子機器は、表1中の閾値情報及び電子機器により取得された第1の顔特徴と第2の顔特徴の参照類似度に基づいて、正規化された参照類似度を決定することにより、正規化された参照類似度に基づいて該第1の顔特徴と該第2の顔特徴とが同じ人に対応するか否かを決定してよい。
【0108】
なお、以上の各実施例にはそれぞれ重要視があり、1つの実施例で詳細に説明されない実現形態は、他の実施例の実現形態を対応して参照することができ、本明細書において1つずつ詳述しない。
【0109】
以上には本開示の実施例の方法を詳細に説明し、以下に、本開示の実施例の装置及び電子機器が提供され、簡潔に説明することに鑑み、技術的原理、技術的効果などの面で詳細に説明されない装置の部分は、以上の方法実施例の対応する記載を参照することができ、説明を省略する。
【0110】
図4を参照すると、
図4は、本開示の実施例に係る顔認識装置の概略構成図であり、該顔認識装置は、
図1に示される顔認識方法を実行することができる。
図4に示すように、該顔認識装置は、
第1のカメラにより第1の顔画像を取得する第1の取得ユニット401と、
第1の顔画像の第1の顔特徴を抽出する第1の抽出ユニット402と、
第1の顔特徴を、第1のカメラと異なるタイプのカメラである第2のカメラが取得した第2の顔画像の特徴から抽出された第2の顔特徴と対比し、参照類似度を取得する対比ユニット403と、
参照類似度に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定する決定ユニット404と、を含む。
【0111】
本開示の出願人は、本開示の実施例を実施するプロセスにおいて、従来の顔認識方法において認証される画像タイプと登録される画像タイプとが同じ画像タイプであることを制限することが多く、例えば登録プロセスにおいてRGB画像を使用する場合、認証プロセスにおいてもRGB画像を使用する必要があり、このように、複数のタイプのカメラが関係するシーンでの従来の顔認識解決手段の適用が制限されることを発見した。本開示の実施例は、複数のタイプのカメラが関係するシーンに顔画像認識の解決手段を提供し、本開示の実施例の実施では、一タイプのカメラにより取得された第2の顔画像の顔画像をベースライブラリ特徴とし、別のタイプのカメラにより取得された第1の顔画像の顔特徴をベースライブラリ特徴と対比し、対比結果に基づいて顔認識を実現することにより、本開示の実施例に係る顔認識方法をより多くのシーンに適用することができ、顔認証を容易にするだけでなく、顔登録時のカメラも限定されず、顔登録の利便性を向上させる。
【0112】
一例では、第1のカメラはサーモカメラであり、第2のカメラは可視光カメラであり、或いは、第1のカメラは可視光カメラであり、第1のカメラはサーモカメラである。
【0113】
一例では、決定ユニット404は、具体的には、参照類似度、参照誤報率及び類似度閾値に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定し、異なる誤報率は異なる類似度閾値に対応する。
【0114】
本開示の実施例の実施では、異なる誤報率により異なる類似度閾値を取得することにより第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定することは、固定の類似度閾値を用いる方式で顔を認証する解決手段を回避することにより、2つの顔画像の間の関係を判断するための類似度を動的に決定することができ、顔認証又は顔認識の効率及び精度を向上させる。
【0115】
一例では、決定ユニット404は、具体的には、参照類似度及び閾値情報に基づいて、正規化された参照類似度を決定し、そして正規化された参照類似度に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定する。
【0116】
本開示の実施例では、参照類似度及び予め設定された情報に基づいて、正規化された参照類似度を決定することにより、該正規化された参照類似度に基づいて第1の顔特徴と第2の顔特徴とが同じ人に対応するか否かを決定する。固定の類似度閾値を用いる方式で顔を認証する解決手段を効果的に改善することにより、2枚の顔画像の間の関係を判断するための類似度(すなわち正規化された参照類似度)を動的に決定することができ、顔認識の効率及び精度を向上させる。
【0117】
一例では、第1の抽出ユニット402は、具体的には、第1の顔画像を予めトレーニングされたニューラルネットワークに入力し、ニューラルネットワークにより第1の顔画像の第1の顔特徴を出力し、ニューラルネットワークは、異なるタイプのカメラによって撮影され、かつ顔が含まれる第1のタイプの画像サンプル及び第2のタイプの画像サンプルに基づいてトレーニングすることにより取得される。
【0118】
本開示の実施例では、異なるタイプの画像サンプルによりニューラルネットワークをトレーニングすることにより、該ニューラルネットワークを適用して顔を認識するなど、顔認識の効率及び精度を効果的に向上させる。
【0119】
一例では、ニューラルネットワークは、第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルに基づいてトレーニングすることにより取得され、混合タイプの画像サンプルは、第1のタイプの画像サンプルと第2のタイプの画像サンプルとをペアリングすることにより取得される。
【0120】
一例では、第1のカメラは車載カメラを含み、第1の取得ユニット401は、具体的には、車載カメラにより第1の顔画像を取得し、第1の顔画像は、車両の車両使用者の顔画像を含む。
【0121】
本開示の実施例は、運転者監視システムに効果的に適用することにより、運転者の顔認識の効率を向上させることができる。
【0122】
一例では、車両使用者は、車両を運転する人、車両に乗る人、車両を修理する人、車両に給油する人及び車両を制御する人のうちの1つ以上を含む。
【0123】
一例では、上記車両使用者が車両を運転する人を含む場合、第1の取得ユニット401は、具体的には、トリガ命令を受信した場合、車載カメラにより第1の顔画像を取得し、
或いは第1の取得ユニット401は、具体的には、車両の走行中に、車載カメラにより第1の顔画像を取得し、
或いは第1の取得ユニット401は、具体的には、車両の走行速度が参照速度に達した場合、車載カメラにより第1の顔画像を取得する。
【0124】
一例では、第2の顔画像は、車両使用者が顔登録を行うための画像であり、
図5に示すように、顔認識装置は、
第2のカメラにより第2の顔画像を取得する第2の取得ユニット405と、
第2の顔画像の第2の顔特徴を抽出する第2の抽出ユニット406と、
第2の顔画像の第2の顔特徴を保存する保存ユニット407と、をさらに含む。
【0125】
説明すべきものとして、各ユニットの実現は、さらに
図1に示される方法実施例の対応する説明を対応して参照することができる。
【0126】
図6を参照すると、
図6は、本開示の実施例に係るニューラルネットワークのトレーニング装置の概略構成図であり、該ニューラルネットワークのトレーニング装置は、
図2に示される顔認識方法を実行することができる。
図6に示すように、該ニューラルネットワークのトレーニング装置は、
異なるタイプのカメラによって撮影され、かつ顔が含まれる第1のタイプの画像サンプル及び第2のタイプの画像サンプルを取得する取得ユニット601と、
第1のタイプの画像サンプル及び第2のタイプの画像サンプルに基づいてニューラルネットワークをトレーニングするトレーニングユニット602と、を含む。
【0127】
本開示の実施例では、異なるタイプのカメラによって撮影された顔画像を用いてニューラルネットワークをトレーニングすることにより、ニューラルネットワークが顔特徴を出力する精度を効果的に向上させることができ、また顔認識を行うとき、該ニューラルネットワークを用いて顔特徴を抽出すると、顔認識の精度を効果的に向上させる。
【0128】
一例では、
図7に示すように、トレーニングユニット602は、
第1のタイプの画像サンプルと第2のタイプの画像サンプルとをペアリングして第1のタイプの画像サンプルと第2のタイプの画像サンプルの混合タイプの画像サンプルを取得するペアリングサブユニット6021と、
第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルに基づいてニューラルネットワークをトレーニングするトレーニングサブユニット6022と、を含む。
【0129】
本実施例では、第1のタイプの画像サンプルと第2のタイプの画像サンプルとがペアリングされ、つまり、混合タイプの画像サンプルにおける各ペアの混合タイプの画像サンプルは、第1のタイプの画像サンプル及び第2のタイプの画像サンプルを含み、これにより2種類の異なるタイプのトレーニング用画像サンプルを形成する。第1のタイプの画像サンプル、第2のタイプの画像サンプル及び混合タイプの画像サンプルによりニューラルネットワークをトレーニングすることにより、該ニューラルネットワークは、各単一タイプの画像の特徴抽出能力を学習することができるだけでなく、この2種類の異なるタイプの画像の特徴抽出能力をよりよく共同学習することができ、ニューラルネットワークの特徴抽出の精度を向上させることにより、トレーニングされたニューラルネットワークは、本開示の実施例に係る顔認識方法に効果的に適用することができる。
【0130】
一例では、トレーニングサブユニット6022は、具体的には、ニューラルネットワークにより第1のタイプの画像サンプルの顔予測結果、第2のタイプの画像サンプルの顔予測結果及び混合タイプの画像サンプルの顔予測結果を取得し、そして第1のタイプの画像サンプルの顔予測結果と顔ラベリング結果との差異、第2のタイプの画像サンプルの顔予測結果と顔ラベリング結果との差異及び混合タイプの画像サンプルの顔予測結果と顔ラベリング結果との差異に基づいてニューラルネットワークをトレーニングする。
【0131】
一例では、ニューラルネットワークには、第1の分類器、第2の分類器及び混合分類器が含まれ、トレーニングサブユニット6022は、具体的には、第1のタイプの画像サンプルの特徴を第1の分類器に入力して第1のタイプの画像サンプルの顔予測結果を取得し、第2のタイプの画像サンプルを第2の分類器に入力して前記第2のタイプの画像サンプルの顔予測結果を取得し、そして混合タイプの画像サンプルの顔特徴を混合分類器に入力して混合タイプの画像サンプルの顔予測結果を取得する。
【0132】
一例では、
図8に示すように、上記装置は、
トレーニングされたニューラルネットワーク中から第1の分類器、第2の分類器及び混合分類器を除去して、顔認識を行うためのニューラルネットワークを取得するニューラルネットワーク適用ユニットをさらに含む。
【0133】
説明すべきものとして、各ユニットの実現は、さらに
図2に示される方法実施例の対応する説明を対応して参照することができる。
【0134】
図9を参照すると、
図9は、本開示の実施例に係る電子機器の概略構成図である。
図9に示すように、該電子機器は、バスなどを含んでよい接続線により互いに接続されるプロセッサ901、メモリ902及び入出力インタフェース903を含む。
【0135】
入出力インタフェース903は、データ及び/又は信号を入力し、データ及び/又は信号を出力することができる。
【0136】
メモリ902は、ランダムアクセスメモリ(random access memory、RAM)、リードオンリーメモリ(read-only memory、ROM)、消去可能なプログラマブルリードオンリーメモリ(erasable programmable read only memory、EPROM)又はコンパクトリードオンリーメモリ(compact disc read-only memory、CD-ROM)を含むが、これらに限定されず、該メモリ902は、関連命令及びデータに用いられる。
【0137】
プロセッサ901は、1つ以上であってよく、上記1つ以上のプロセッサは、1つ以上の中央処理装置(central processing unit、CPU)及び/又は1つ以上の加速ユニットなどであってよい。CPUは、シングルコアCPUであってもよく、マルチコアCPUであってもよい。加速ユニットは、画像処理装置(graphics processing unit、GPU)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)などを含むが、それらに限定されない。
【0138】
なお、本開示の実施例に係るプロセッサは、他のタイプのプロセッサであってよく、本開示の実施例は、該プロセッサのタイプを一意的に限定しない。本開示の実施例に係るメモリは、他のタイプのメモリなどであってもよく、本開示の実施例は、該メモリのタイプも限定しない。
【0139】
一例では、各操作の実現は、さらに
図1に示される方法実施例の対応する説明を参照することができる。各操作の実現は、さらに
図2に示される方法実施例の対応する説明に対応して参照することができる。或いは、各操作の実現は、さらに
図4及び
図5に示される実施例の対応する説明を対応して参照することができる。各操作の実現は、さらに
図6~
図8に示される実施例の対応する説明を対応して参照することができる。
【0140】
一実施例では、プロセッサ901は、ステップ101~ステップ104に示す方法を実行することができる。一例として、プロセッサは、さらに入出力インタフェースを制御して第1の顔画像などを取得することができ、本開示の実施例は、第1の顔画像をどのように取得するかについて一意的に限定しない。
【0141】
また例えば、一実施例では、プロセッサは、ステップ201及びステップ202に示す方法を実行することができる。
【0142】
また例えば、プロセッサ901は、第1の取得ユニット401、さらに第1の抽出ユニット402、対比ユニット403、及び決定ユニット404が実行する方法などを実行することができる。
【0143】
また例えば、プロセッサ901は、さらに取得ユニット601及びトレーニングユニット602が実行する方法などを実行することができる。
【0144】
これにより、
図9に示される電子機器の具体的な実現形態について、前述の各実施例の説明を対応して参照することができ、本明細書において1つずつ詳述しない。
【0145】
本開示の実施例は、コンピュータ可読記憶媒体をさらに提供する。上記方法実施例における全部又は一部のフローは、コンピュータプログラムにより関連ハードウェアを命令して完了でき、該プログラムは、上記コンピュータ記憶媒体に記憶でき、該プログラムは、実行中に上記各方法実施例のフローを含でんよい。コンピュータ可読記憶媒体は、前述のいずれかの実施例の顔認識装置又はニューラルネットワークのトレーニング装置の内部記憶ユニット、例えば顔認識装置又はニューラルネットワークのトレーニング装置のハードディスク又はメモリであってよい。上記コンピュータ可読記憶媒体は、上記顔認識装置又はニューラルネットワークのトレーニング装置の外部記憶装置、例えば上記顔認識装置又はニューラルネットワークのトレーニング装置に備えられた挿着式ハードディスク、スマートメモリカード(smart media card、SMC)、セキュア・デジタル(secure digital、SD)カード、フラッシュメモリカード(flash card)などであってもよい。さらに、上記コンピュータ可読記憶媒体は、上記顔認識装置又はニューラルネットワークのトレーニング装置の内部記憶ユニットを含むだけでなく、外部記憶装置を含んでよい。上記コンピュータ可読記憶媒体は、上記コンピュータプログラム及び上記顔認識装置又はニューラルネットワークのトレーニング装置に必要な他のプログラム及びデータを記憶する。上記コンピュータ可読記憶媒体は、出力されたか又は出力しようとするデータを一時的に記憶してもよい。
【0146】
1つ以上の選択可能な実施形態では、本開示の実施例は、実行されると、コンピュータに上記任意の実施例のいずれか1項に記載の方法を実行させるコンピュータ可読命令を記憶するコンピュータプログラムをさらに提供する。
【0147】
該コンピュータプログラムは、具体的には、ハードウェア、ソフトウェア又はそれらの組み合わせ方式により実現できる。1つの選択可能な例では、上記コンピュータプログラムは、具体的には、コンピュータ記憶媒体として具現化され、別の選択可能な例では、上記コンピュータプログラムは、具体的に、ソフトウェア、例えばソフトウェア開発パケット(software development kit、SDK)などとして具現化される。
【0148】
上記実施例では、全て又は部分的にソフトウェア、ハードウェア、ファームウェア又は他の任意の組み合わせにより実現される。ソフトウェアプログラムで実現されると、全て又は部分的にコンピュータプログラムの形態で実現されてよい。上記コンピュータプログラムは、1つ以上のコンピュータ命令を含む。コンピュータに上記コンピュータプログラム命令をロードし実行する場合、本開示の実施例に記載のフロー又は機能に基づいて全て又は部分的に生成される。上記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブル装置であってよい。上記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されてよく、或いは上記コンピュータ可読記憶媒体により伝送されてよい。上記コンピュータ可読記憶媒体は、コンピュータがアクセス可能な任意の利用可能媒体又は1つ以上の利用可能媒体集積を含むサーバ、データセンタなどのデータ記憶装置であってよい。上記利用可能媒体は、磁気媒体(例えば、ソフトディスク、ハードディスク、磁気テープ)、光学媒体(例えば、DVD(登録商標))又は半導体媒体(例えば、ソリッドステートデバイス(solid state disk、SSD)などであってよい。
【0149】
本開示の実施例の方法におけるステップは、実際の需要に応じて順序調整、統合及び削除を行うことができる。
【0150】
本開示の実施例装置におけるモジュールは、実際の必要に応じて合併、分割及び削除を行うことができる。
【0151】
上記のように、上記実施例は、本開示の技術手段を説明するためのものに過ぎず、限定するものではないと説明すべきであり、前述の実施例を参照して本開示を詳細に説明したが、当業者が理解すべきこととして、依然として、前述の各実施例において記載される技術手段を修正するか、又はその技術的特徴の一部に同等置換を行うことができ、これらの修正や置換によって、対応する技術手段の本質は、本開示の実施例に係る技術手段の範囲から逸脱することはない。