(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0008】
厳密な構造上の精度、細部、および縮尺を維持するのではなく、本教示の理解を容易にするために、図のいくつかの細部は簡略化して描かれていることに留意されたい。
【0009】
本開示は、
表現情報内の画像を認識するシステムおよび方法に関し、より詳細には、顔面認識に関する。本開示の態様によれば、このシステムおよび方法を使用して、個人の顔の属性ベース表現に基づいて画像内で個人を認識することができる。属性ベース表現は、画像から抽出された2Dパッチおよび個人の顔を意味的に特徴付ける属性(例えば、性別、年齢、民族性など)を使用して
決定されるマルチビュー確率的弾性部分(「マルチビューPEP」)シグニチャを含む。マルチビューPEPシグニチャは、3Dモデルから抽出された2D顔パッチから構築される属性特有PEPモデルを使用して
決定される。PEPモデルとは、局所的空間的外観特徴に基づくガウス混合モデルである。3Dモデルは、写真、ビデオ、および/またはスケッチ内の個人の画像から得られる顔の異なる姿勢から構築される。有利には、属性ベース表現は、視点、照射、加齢、および表情のために個人の顔で生じる幾何学上、構造上、かつ測光上の変動性を補償しながら、個人の顔を他の顔から一意的に判別するために使用することができる変動しない特徴を保護する。
【0010】
本発明の態様によれば、属性ベース表現は、ベースとする顔の特徴(例えば、加齢、姿勢、照射、および表情)を正規化する。属性ベース表現および特徴は、相互依存することができ、属性ベース表現のパラメータは、正規化に使用されるモデルに強く影響し、逆も同様である。したがって、属性ベース表現は、部分表現に対応するパラメータの集合に対して繰返し最適化することによって
決定される。
【0011】
さらに、本発明の態様によれば、属性ベース表現の2つの構成要素(マルチビューPEPシグニチャおよび属性)は、異なる抽象化レベルで情報を符号化する。マルチビューPEPシグニチャがベースとする3Dモデルは、極端な変動をモデル化することによって2D画像ベースのPEP表現の制限に打ち勝つように正規化され、極端な変動の場合、不十分な訓練例が利用可能であり、変動を補償するための正確な統計モデルを学習することができない。さらに、属性ベース表現の各構成要素を構築するために使用される領域の知識は、変動するソースから独立して抽出され、属性ベース表現内で相補型の事前制約として実施される。
【0012】
本開示の属性ベース表現は、多くの利点を提供する。第1に、マルチビューPEPシグニチャを作成するために使用されるPEPモデルは、姿勢の不変性を提供する。第2に、PEPモデルは「顔以外」のパッチを暗示的に識別するため、マルチビューPEPシグニチャは、直接モデル化することができない遮蔽および低解像度データなどの顔の変動を補償する。第3に、マルチビューPEPシグニチャは、非視覚媒体(例えば、近赤外、似顔絵など)に対応するモデルを使用することによって、赤外および/または異種データを同化することができる。第4に、マルチビューPEPシグニチャは、画像特徴に対する統計的に学習した回帰機能を使用してすべての年齢層に拡張することができる。第5に、マルチビューPEPシグニチャは、照射および表情の変化に対する復元力を提供する。つまり、照射および表情による変動は、マルチビューPEPシグニチャを判定するとき、顔の再照明および表情の中性化によって除去される。本開示の態様によれば、不十分な照射(影または飽和)を有するあらゆるパッチおよび強い顔面表情に対応するものは、マルチビューPEPシグニチャ内で重みが軽減されるため、マルチビューPEPから抽出される2D画像パッチには、そのような変動がない。
【0013】
当業者には理解されるように、本発明は、方法、システム、またはコンピュータ・プログラム製品として実施することができる。したがって、本発明は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)、またはソフトウェアおよびハードウェアの態様を組み合わせる実施形態の形をとることができ、本明細書ではすべてを全体として「回路」、「モジュール」、または「システム」と呼ぶことができる。さらに、本発明は、媒体内で実施されるコンピュータ使用可能プログラム・コードを有するコンピュータ使用可能記憶媒体上のコンピュータ・プログラム製品の形をとることができる。
【0014】
任意の適したコンピュータ使用可能またはコンピュータ可読媒体を利用することができる。コンピュータ使用可能またはコンピュータ可読媒体は、例えば、それだけに限定されるものではないが、電子、磁気、光学、電磁、赤外、または半導体システム、装置、デバイス、または伝搬媒体とすることができる。コンピュータ可読媒体のより具体的な例(非排他的な一覧)は、1つまたは複数のワイヤを有する電気的接続、携帯型のコンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、消去可能プログラム可能読取り専用メモリ(EPROMもしくはフラッシュ・メモリ)、光ファイバ、携帯型のコンパクト・ディスク読取り専用メモリ(CD−ROM)、光記憶デバイス、インターネットもしくはイントラネットに対応するものなどの伝送媒体、または磁気記憶デバイスを含むはずである。コンピュータ使用可能またはコンピュータ可読媒体はさらに、プログラムが印刷された紙または別の適した媒体とすることもでき、プログラムは、例えば紙または他の媒体の光学走査を介して電子的に捕捉することができ、次いで必要な場合、コンパイル、解釈、または他の方法で適切に処理することができ、次いでコンピュータ・メモリ内に記憶することができることに留意されたい。本明細書では、コンピュータ使用可能またはコンピュータ可読媒体は、命令実行システム、装置、もしくはデバイスによって使用するためのプログラムまたは命令実行システム、装置、もしくはデバイスに接続されるプログラムを、収容、記憶、通信、伝搬、または輸送することができる任意の媒体とすることができる。コンピュータ使用可能媒体は、ベースバンド内に、または搬送波の一部として、それとともに実施されるコンピュータ使用可能プログラム・コードを有する伝搬されたデータ信号を含むことができる。コンピュータ使用可能プログラム・コードは、それだけに限定されるものではないが、インターネット、有線、光ファイバ・ケーブル、RFなどを含む任意の適当な媒体を使用して伝送することができる。
【0015】
本発明の動作を実施するコンピュータ・プログラム・コードは、Java(登録商標)、Smalltalk、C++などのオブジェクト指向のプログラミング言語で書くことができる。しかし、本発明の動作を実施するコンピュータ・プログラム・コードはまた、「C」プログラミング言語などの従来の手続き型プログラミング言語または類似のプログラミング言語で書くこともできる。プログラム・コードは、完全にユーザのコンピュータ上で、スタンドアロン型ソフトウェア・パッケージとして部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上かつ部分的に遠隔コンピュータ上で、または完全に遠隔コンピュータもしくはサーバ上で実行することができる。後者のシナリオでは、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を通してユーザのコンピュータに接続することができ、または外部コンピュータに接続することができる(例えば、インターネットを通してインターネット・サービス・プロバイダを使用する)。
【0016】
本発明について、本発明の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品の流れ図および/またはブロック図を参照して以下に説明する。流れ図および/またはブロック図の各ブロック、ならびに流れ図および/またはブロック図内のブロックの組合せは、コンピュータ・プログラム命令によって実施することができることが理解されよう。コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、流れ図および/またはブロック図の1つまたは複数のブロック内に指定された機能/動作を実施する手段を作成するように、これらのコンピュータ・プログラム命令を、汎用コンピュータ、特殊目的コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供することで、マシンを作り出すことができる。
【0017】
これらのコンピュータ・プログラム命令はまた、コンピュータ可読メモリ内に記憶された命令が、流れ図および/またはブロック図の1つまたは複数のブロック内に指定された機能/動作を実施する命令を含む製品を作り出すように、コンピュータ可読メモリ内に記憶することができ、コンピュータまたは他のプログラム可能なデータ処理装置に特定の様態で機能するように指示することができる。
【0018】
コンピュータ・プログラム命令はまた、コンピュータまたは他のプログラム可能装置上で実行される命令が、流れ図および/またはブロック図の1つまたは複数のブロック内に指定された機能/動作を実施するステップを提供するように、コンピュータ実施プロセスを作製するために、コンピュータまたは他のプログラム可能データ処理装置上へロードされ、コンピュータまたは他のプログラム可能装置上で一連の動作ステップを実行させることができる。
【0019】
図1は、本開示の態様による方法およびシステムを実施する例示的な環境100である。環境100は、顔面認識システム105および画像ソース110を含む。本開示の態様によれば、顔面認識システム105は、個人の画像を含む様々な
表現情報(例えば、静止画、動画、ビデオ、図面など)を摂取(例えば、取得)し、顔面認識のための個人の顔のモデル(例えば、PEPモデル)を生成するシステムである。このシステムは、モデルから情報を抽出し、抽出した情報を使用して、他の
表現情報内で個人を認識する。画像ソース110は、ビデオ、写真、ピクチャなどの画像データを捕捉および/または記憶するデバイスまたはシステムである。実施形態では、画像ソース110は、
表現情報データベースである。追加または別法として、画像ソース110は、1つまたは複数の画像センサ(例えば、カメラ)である。
【0020】
本開示の態様によれば、顔面認識システム105は、本明細書に記載するプロセスおよび機能を実行するハードウェアおよびソフトウェアを含む。特に、顔面認識システム105は、演算デバイス130、入出力(I/O)デバイス133、記憶システム135、およびデバイス選択器137を含む。I/Oデバイス133は、個人が演算デバイス130と対話することを可能にする任意のデバイス(例えば、ユーザ・インターフェース)および/または演算デバイス130が任意のタイプの通信リンクを使用して1つもしくは複数の他の演算デバイスと通信することを可能にする任意のデバイスを含むことができる。I/Oデバイス133は、例えば、手持ち式デバイス、PDA、タッチスクリーン・ディスプレイ、ハンドセット、キーボードなどとすることができる。
【0021】
記憶システム135は、情報およびプログラム命令を記憶するコンピュータ可読不揮発性ハードウェア記憶デバイスを備えることができる。例えば、記憶システム135は、1つまたは複数のフラッシュ・ドライブおよび/またはハード・ディスク・ドライブとすることができる。本開示の態様によれば、記憶デバイス135は、画像データベース136、領域知識データベース137、およびモデル・データベース138を含む。画像データベース136は、画像ソース110から取得し
た表現情報を記憶することができる。領域知識データベース137は、
表現情報からの意味情報(例えば、性別、民族性、年齢、顔の形状、皮膚タイプ、顔面特徴など)を抽出し、顔をモデル化するために適用することができる所定のモデルおよび人体測定情報(例えば、異なる性別、民族性、および年齢に対応する形状、特徴、釣り合い、筋肉組織、および肌理)の集まりを含む。モデル・データベース138は、個人の3D顔モデルと、3D顔モデルから抽出された2Dパッチと、属性ベース表現を含む抽出された属性とを含む。
【0022】
実施形態では、演算デバイス130は、1つまたは複数のプロセッサ139と、1つまたは複数のメモリ・デバイス141(例えば、RAMおよびROM)と、1つまたは複数のI/Oインターフェース143と、1つまたは複数のネットワーク・インターフェース144とを含む。メモリ・デバイス141は、プログラム命令の実行中に用いられるローカル・メモリ(例えば、ランダム・アクセス・メモリおよびキャッシュ・メモリ)を含むことができる。追加として、演算デバイス130は、少なくとも1つの通信チャネル(例えば、データ・バス)を含み、演算デバイス130は、この通信チャネルによって、I/Oデバイス133、記憶システム135、およびデバイス選択器137と通信する。プロセッサ139は、メモリ・デバイス141および/または記憶システム135内に記憶することができるコンピュータ・プログラム命令(例えば、オペレーティング・システムおよび/またはアプリケーション・プログラム)を実行する。
【0023】
さらに、本開示の態様によれば、プロセッサ139は、本明細書に記載するプロセスの1つまたは複数を実行するために、摂取モジュール151、分析モジュール153、モデル化モジュール155、抽出モジュール159、および整合モジュール163のコンピュータ・プログラム命令を実行することができる。摂取モジュール151、分析モジュール153、モデル化モジュール155、および抽出モジュール159、および整合モジュール163は、メモリ・デバイス141および/または記憶システム135内のプログラム命令の1つまたは複数の集合として、別個のモジュールまたは組み合わせたモジュールとして実施することができる。追加として、摂取モジュール151、分析モジュール153、モデル化モジュール155、および抽出モジュール159、および整合モジュール163は、別個の専用プロセッサとして、または単一もしくはいくつかのプロセッサとして、これらのモジュールの機能を提供するために実施することができる。
【0024】
本開示の実施形態によれば、摂取モジュール151は、演算デバイス130に、画像ソース110からの
表現情報を取得させ、
表現情報内に含まれる画像を改善させる(例えば、解像度、ぼけ、およびコントラストを改善させる)。追加として、摂取モジュール151は、演算デバイスに、画像内の顔を検出および追跡させる(例えば、顔および目検出アルゴリズムを使用する)。
【0025】
分析モジュール153は、演算デバイス130に、摂取モジュール151によって検出された顔から属性を抽出させる。属性は、顔の特徴を意味的に記述する。実施形態では、属性は、個人の性別、年齢、民族性、髪の色、顔面形状、髪の色などに関連付けられた導出された特徴である。有利には、属性は、個人の外観を記述する柔軟な領域適応語彙を提供し、それによって検索時間およびデータ記憶要件を低減させることによって、マルチビューPEPシグニチャからの効率的な索引付けおよび回収を可能にする。
【0026】
モデル化モジュール155は、演算デバイス130に、個人の顔の3Dモデルを作成または
決定させる。本開示の態様によれば、3Dモデルは、3D姿勢(例えば、ヨーおよびピッチの量子化された空間)のすべての変動に対して生成される姿勢認識確率的弾性部分(PEP)ベースのモデルであり、変動する視野および照明条件下で広範囲の媒体モダリティに見られる顔の形状、肌理、およびダイナミクスを簡潔に符号化する。追加として、本開示の態様によれば、モデル化モジュール155は、3Dモデルを再照明し、3Dモデル内で捕捉された顔面表情を中性化し、3Dモデルによって表現される個人の年齢を修正し、3Dモデルに関連付けられた顔面の装飾および遮蔽を補償することができる。さらに、モデル化モジュールは、領域知識(例えば、領域知識データベース137内)を使用して、3Dモデルから欠けている情報(例えば、皮膚の肌理および遮蔽されたパッチ)を埋めることができる。
【0027】
抽出モデル159は、コンピュータ・デバイスに、2Dパッチを使用するマルチビューPEP顔シグニチャと、様々な人口層(例えば、民族性、性別、年齢層など)を特徴付ける意味属性とを生成させる。本開示の態様によれば、抽出モデルは、複数の姿勢からの3Dモデルからの投影図から2Dパッチを
決定する。これらの姿勢は、3Dモデルの直視(例えば、正面図からゼロのピッチおよびゼロのヨー)に対して、ピッチ(例えば、−10度〜+10度)およびヨー(例えば、−10度〜+10度)を有する複数の事前定義された視野角範囲内とすることができる。これらの投影図を組み合わせて、姿勢に対応する密に重複する2D顔パッチから、マルチビューPEPシグニチャを提供する。言い換えれば、それぞれのマルチビューPEP顔シグニチャ内に含まれるデータ量は、利用可能な
表現情報の品質および/または数量とともに変化しない。したがって、マルチビューPEP顔シグニチャは、追加の画像からの情報を組み込むことによって、表現のサイズを増大させることなく、漸増的に改良することができる。
【0028】
追加として、本開示の態様によれば、抽出モジュール159は、それぞれのマルチビューPEP顔シグニチャに対する不確実性メトリックを
決定する。不確実性メトリックは、それぞれのマルチビューPEP顔シグニチャ内で2Dパッチの品質を特徴付ける。抽出モジュール159は、3Dモデルから導出することができる「顔のような」測度を使用して演算される不確実性メトリックを
決定する。例えば、このメトリックは、特定のマルチビューPEP顔シグニチャに対応するパッチのうち、顔以外の部分を含む割合に対応することができる。
【0029】
さらに、本開示の態様によれば、マルチビューPEP顔シグニチャは、利用可能な画像の解像度に適応することができる。実施形態では、マルチビューPEP顔シグニチャは、顔画像上で利用可能な解像度に自動的に調整される。したがって、利用可能な解像度が大きければ大きいほど、顔の表現がより詳細になり、解像度が低ければ低いほど、顔の表現が詳細でなくなる。
【0030】
さらに、本開示の態様によれば、抽出モジュール159は、それぞれのマルチビューPEP顔シグニチャを1つまたは複数の属性に関連付ける。実施形態では、抽出モジュール159は、それぞれのマルチビューPEP顔シグニチャに1つまたは複数の顔属性(例えば、民族性、年齢、性別、卵形、丸形などの顔の固有の様相)を付加する。したがって、本開示の属性ベース表現は、関連付けられた属性を使用して、顔の効率的な索引付けおよび回収を可能にする。
【0031】
整合モジュール163は、演算デバイスに、モデル化モジュール155によって
決定される個人の顔の属性ベース表現に基づいて、顔画像が個人の画像に
マッチするかどうかを判定させる。本開示の態様によれば、
マッチ(整合
)は、マルチビュー確率的弾性部分(「マルチビューPEP」)シグニチャの各構成要素に対して
決定される不確実性メトリックに基づいて行われる。追加として、本開示の態様によれば、整合モジュール163は、領域適応を使用して、撮像モダリティにわたってマルチビューPEP顔シグニチャを
マッチさせる。実施形態では、モダリティは、とりわけRGBスペクトル、赤外、ハイパースペクトル、および図面(例えば、スケッチおよび漫画)を含む。
【0032】
実施形態では、領域知識データベース137は、顔面計測、顔超解像ツール、属性特有の3D形状モデル、属性特有のマルチビューPEP、属性抽出ツール、特徴選択前例、顔面動作ユニット・コード化システム、および領域適応ツールという、顔面認識システム105によって参照することができる情報を含むことができる。顔面計測は、人口統計的顔面情報を特徴付け、加齢および表情による構造的変化にわたって変動しない顔面特徴を識別する人体計測測定値の統計(平均および標準偏差)である。3D顔モデルから推定される人体計測測定値は、整合モジュール155によって
マッチスコアを判定するとき、ならびに分析モジュール153によって属性を
決定するために、使用することができる。顔超解像ツールは、顔画像の画素レベルの細部を強調するための模範画像に構成要素ベースで
マッチする。顔超解像ツールは、モデル化モジュール155による表現を構築するための改善された顔面特徴抽出を提供する。属性特有の3D形状モデルは、民族性、性別、および年齢に基づく3D顔形状の変動の異なる部分空間モデル化モードである。これらは、モデル化モジュール155による包括的3D顔形状と比較すると、3D形状に適合するより有益な前例を提供する。属性特有のマルチビューPEPは、共通の属性(例えば、性別、民族性、および年齢層)を有する個人の画像から密にサンプリングされたパッチのガウス混合モデル(GMM)である。これらは、整合モジュール163による
マッチに使用される個人化された統計モデルを提供する。属性抽出ツールは、分析モジュール153によって顔画像から属性を検出するための判別モデルである(深い学習および構造化された予測に基づく)。属性抽出ツールは、これらの属性の不確実性をモデル化して、顔の有意味の様相に沿った
マッチを可能にする。特徴選択前例は、例えば加齢、姿勢、および照射の変化による顔面特徴の不変性の違い、ならびに強調された部分ベース表現および
マッチを実現するための、深い学習に基づく特徴選択である。これらは、該当する最も大きい判別特徴を判定するための抽出モジュール159によるより速い特徴抽出を可能にする。顔面動作ユニット・コード化システムは、モデル化モジュール155によって表情による顔の変形をモデル化するための顔面筋肉組織のダイナミクスの普遍的に適用可能な中間表現である。顔面動作ユニット・コード化システムは、顔面筋肉組織の明示的かつ正確なモデル化を提供する。領域適応ツールは、加齢、姿勢、および照射の変化にわたって領域シフトをモデル化する学習済みツールである。
【0033】
演算デバイス130は、その上に設置されたコンピュータ・プログラム命令を実行することが可能な任意の汎用演算製品(例えば、パーソナル・コンピュータ、サーバなど)を含むことができることに留意されたい。しかし、演算デバイス130は、本明細書に記載するプロセスを実行することができる様々な可能な同等の演算デバイスを単に代表するものである。この点で、実施形態では、演算デバイス130によって提供される機能性は、汎用および/または特殊目的ハードウェアおよび/またはコンピュータ・プログラム命令の任意の組合せとすることができる。各実施形態では、プログラム命令およびハードウェアは、それぞれ標準的なプログラミングおよびエンジニアリング技法を使用して作成することができる。
【0034】
図2は、本開示の態様による顔面認識システム105の例示的なプロセスの機能上の流れ図を示す。顔面認識システム105は、前述のものと同じとすることができる摂取モジュール151、分析モジュール153、モデル化モジュール155、抽出モジュール159、および整合モジュール163を含む。本開示の態様によれば、摂取モジュール151は、画像ソース(例えば、画像ソース110)から受け取った
表現情報を評価する。
表現情報は、個人の写真、ビデオ、および/または図面(例えば、スケッチ)を含むことができる。実施形態では、
表現情報を評価するステップは、画像を含む
表現情報の縮尺、顔の被写域(例えば、画像内の姿勢に基づく画像内の顔の部分)、解像度、モダリティ(例えば、
表現情報タイプ)、および/または品質を定義する情報を
決定するステップを含む。顔の縮尺は、画像解像度を特徴付け、摂取モジュール151によって抽出される細部のレベルを
決定する。受け取った画像および関連付けられた評価情報は、後の参照および処理のためにデータベース(例えば、画像データベース136)内に記憶することができる。
【0035】
追加として、本開示の態様によれば、摂取モジュール151は、受け取った
表現情報内に含まれる画像を改善する。実施形態では、画像を改善するステップは、ぼけを低減させるステップと、コントラストを改善するステップと、画像解像度を増大させるステップとを含む。例えば、撮像モジュール151は、大きい姿勢可変顔データセットからの模範構造(目、口、顔の輪郭など)に基づいて最適のぼけカーネルを推定することによって、ぼけを低減させることができる。ぼけカーネル推定は、ぼけた顔画像に最も近い模範を識別するステップ(例えば、領域知識データベース137内)と、ぼけた顔および最も近い模範の勾配を取り入れる正則化プロセスを実行するステップとを伴う。さらに、改善するステップは、統計的な学習および幾何形状を使用して照射条件をモデル化することによって画像を再照明するステップを含むことができる。追加として、摂取モジュール151は、ヒストグラム平坦化を実行することによって、画像のコントラストを増大させることができる。さらに、摂取モジュール151は、顔ハルシネーション技法を使用して、低解像度データから高解像画像を生成することができる。
【0036】
本開示の態様によれば、摂取モジュール151はまた、受け取った画像内に含まれる顔を検出および追跡する。実施形態では、摂取モジュール151は、特徴局所化技法を使用して画像内の顔の目および口を検出し、全体的な頭部姿勢推定を判定する。例えば、摂取モジュール151は、MILTrack型アルゴリズムを使用する対象の外観のオンライン適応に基づき、正のサンプルと負のサンプルとの平均信頼度間のマージンを最大化することによって特徴選択を改良する、オンライン判別特徴選択(ODFS)手法を用いることができる。ODFS手法は、背景サンプルの信頼度を抑制しながら標的サンプルの信頼度を最大化する特徴を選択する。ODFS手法では、最も正しい正のサンプルにより大きい重みを与え、背景サンプルには分類子の更新中に小さい分類子を割り当て、それによって、縮尺、姿勢、照射、および動きぼけの変化にわたって雑然とした背景からの前景の標的の有効な分離を容易にする。追加として、摂取モジュール151は、顔追跡の精度をさらに改善するために、ビデオ内の社会的コンテキストのモデル化を利用する教師なし顔検出適応方法を使用して、顔を検出および追跡することができる。
【0037】
本発明の態様によれば、摂取モジュール151はまた、顔面特徴局所化および追跡を実行する。特徴局所化を使用して、画像内の個人の頭部の姿勢を推定し、その姿勢に基づいて、目、口、および顔の位置(例えば、襟ぐり、あご先、および生え際)に対応する基準点を判定することができる。実施形態では、摂取モジュール151は、教師あり降下方法(SDM)を使用する。SDMは、訓練データからの形状または外観のいかなるモデルの学習も必要としないノンパラメトリック形状モデルから構成される。訓練段階で、SDMは、訓練画像内でランドマークを使用し、ランドマーク位置で特徴を抽出する。SDMは、すべての正規化最小2乗関数の平均を最小化する一続きの包括的な降下方向およびバイアス項を、訓練データから学習する。有利には、SDMベースの顔面特徴局所化および追跡は、他のそのような方法と比較すると、演算上非常に簡単であり(1フレームにつき4行列乗算)、大きい姿勢変動(例えば、±60°のヨー、±90°のロール、および±30°のピッチ)、遮蔽、および劇的な照射の変化によって顔面ランドマークを追跡することを容易にする。
【0038】
本開示の態様によれば、分析モジュール153は、領域知識(例えば、領域知識データベース137)に基づいて摂取モジュール151によって検出および追跡される画像内の顔から属性を判定する。属性は、整合モジュール163によって顔同士の類似性を評価するための中間表現空間を提供する。実施形態では、低レベルの特徴は、場面内の測光および幾何学上の変化による摂動によって強く影響されるのに対して、記述可能な顔面属性の空間は、顔同士の対応関係を確立するためにより汎用化可能なメトリックを提供する。属性は、摂取モジュール151によって検出された個人の顔内の基準点を、領域知識(例えば、領域知識137)の所定のライブラリ内に含まれる特徴の基準とすることによって判定することができる。基準点は、例えば顔の姿勢および加齢によって生じうる個人の顔の変動を補償する。実施形態では、特徴局所化は、3D頭部姿勢推定および顔面属性推論に使用される。判別モデルは、媒体内の顔画像からの属性の確率的推論に使用される。例えば、学習済みモデルは、粗い顔面属性(例えば、性別、民族性、および年齢)と細かい顔面属性(例えば、髪型および髪の色、眉の形状、目の色、ならびに口髭)との両方を検出するために使用される。分析モジュール153は、顔の属性を記憶することができ、顔の属性は、後の参照および処理のためにデータベース(例えば、画像データベース136)内に記憶することができる。
【0039】
本開示の態様によれば、モデル化モジュール155は、分析モジュール153によって
決定された基準点および属性から3Dモデルを
決定する。実施形態では、3Dモデルは、変動する視野および照明条件下で広範囲の媒体モダリティに見られる顔の形状、肌理、およびダイナミクスを符号化する。3Dモデルは、3D姿勢(ヨーおよびピッチの量子化された空間)のすべての変動に対して生成され、顔から抽出された人口統計学的属性(性別、民族性、および年齢層)にしたがって特殊化される、姿勢認識確率的弾性部分(PEP)ベースのモデルから構成される。
【0040】
実施形態では、事前定義されたパラメータが、2D画像を3D顔形状にマッピングする。3Dモデルは、まず、包括的3Dメッシュに適合され、次いで、人口統計学的属性(性別および民族性)に基づいて、属性特有モデルに適合するように繰返し改良される。マッピングは、例えば、3D形状と、描写された2D画像と、対応するカメラ・パラメータとを含むルックアップ・テーブルとすることができる。例えば、任意の姿勢(例えば、±70度のヨーおよび±25度のピッチの範囲内)の画像の場合、モデル化モジュール155は、2D基準点から頭部姿勢を大まかに推定することができる。モデル化モジュール155は、顔の3D形状を識別して、3Dモデルに対する初期推定を選択するために使用された類似の基準特徴構成を有する包括的3Dモデルを選択することができる(例えば、領域知識データベース137から)。この選択された3Dモデルを使用して、モデル化モジュール155は、次いで、適合アルゴリズム(例えば、勾配降下)を使用して、3D顔モデルの顔面の位置合わせおよび形状を改良することができる。
【0041】
追加として、本開示の態様によれば、モデル化モジュール155は、3Dモデルを再照明する。実施形態では、モデル化モジュール155は、3D顔再照明アルゴリズムを使用して、線形部分空間を生成するために使用される訓練例を拡張することによって、制御されていない照射条件下で得られた画像に行きわたるのに十分な照射変動により、現実的なシナリオに対応する。例えば、モデル化モジュール155は、照射データベース(例えば、CMU PIEデータベース)を使用して、多くの異なる照射条件および姿勢下で個人の外観を捕捉することができる。
【0042】
さらに、本開示の態様によれば、モデル化モジュール155は、3Dモデルの表情を中性化する。実施形態では、表情を中性化するために、モデル化モジュール155は、非線形多様体ベースの手法を使用して、いくつかの1D多様体(それぞれ変形モード、すなわち笑顔、驚き、怒りなどを表現する)の組合せとして、3D顔面変形をモデル化する。例えば、中性の顔は、高次元空間内の中心点であると見なされるのに対して、表情が変動する同じ個人の顔は、その空間の近傍内の点であると想定される可能性がある。表情を中性化するために、モデル化モジュール155は、個々の点同士の暗示的な構造関係を捕捉する低次元空間を使用することができる。これらは、非線形多様体を構成する。非線形多様体上の座標は、「活動化レベル」と呼ばれるそのモードに沿った顔面変形の大きさに対応する。疎なデータ点からの構造推論(例えば、N−Dテンソル投票)を可能にする演算フレームワークに基づく非線形多様体の学習を使用して、モデル化モジュール155は、各点における多様体の局所的な法線空間および接線空間を推定することができる。推定された接線ベクトルにより、モデル化モジュール155は、非線形多様体上を直接ナビゲートすることが可能になる。例えば、モデル化モジュール155は、異なる顔面表情下の対象の3D顔面走査から構成されるデータベース(例えば、Bosphorusデータセット)を、多様体を構築する際の訓練データとして使用することができる。
【0043】
さらに、モデル化モジュール155による中性化はまた、本開示の態様による顔の3Dモデルを判定することによって暗示的に実行される。つまり、3Dモデルは、すべての顔パッチを、3Dモデルが基づく中性顔画像からの対応するパッチに対するその近似を示す生成確率に関連付ける。したがって、3Dモデルは、顔の表情によって影響される顔パッチの重みを軽減する。
【0044】
また、本開示の態様によれば、モデル化モジュール155は、3Dモデルによって表現される個人の加齢を判定する。加齢の影響は、形状(例えば、頭蓋の成長、たるみ特徴)と、肌理の変動(例えば、皮膚のしわ)との組合せとして特徴付けることができる。実施形態では、モデル化モジュール155は、3D形状および肌理モデルを外挿して加齢を補償する。例えば、モデル化モジュール155は、異なる年齢層(例えば、10代(20歳未満)、若年成人(20〜35歳)、中年成人(35〜50歳)、および老年成人(50歳以上))に対するPEPモデルを判定することができる。年齢層ベースのPEPモデルは、年齢層にわたってパッチベースの外観変動を特徴付ける統一されたフレームワークを提供する。実施形態では、モデル化モジュール155は、姿勢にわたって十分な顔加齢データセットを欠くため、年齢層ベースのPEPモデルの学習を、その年齢層に属する対象の正面顔画像を使用する正面姿勢ビンに制限する。
【0045】
とりわけ、本開示の態様によれば、モデル化モジュール155によって判定される3Dモデルは、顔面の装飾および遮蔽を補償する。顔面の装飾および遮蔽は、属性ベースの顔表現下で暗示的に除去される。つまり、3Dモデルは、顔面の装飾および遮蔽のない顔を使用して構築される。したがって、モデル内の構成要素の高い確率に基づいて選択されたパッチは、顔面の毛がなく、訓練例パッチの外観に類似した外観をもつパッチである。例えば、3Dモデルを判定する際、モデル化モジュール155は、皮膚肌理モデル化を使用して、画像から2D皮膚パッチを選択的に抽出し、3Dメッシュの全体的な皮膚の肌理を更新する。したがって、3Dモデルの皮膚は顔面の毛を欠く。代わりに、分析モジュール152によって判定される個人に対する属性は、顔面の毛の存在を特徴付けるものであり、これを使用して、3Dモデルを特徴付けることができる。
【0046】
本開示の態様によれば、抽出モジュール159は、異なる姿勢範囲に対応する3Dモデルから2Dパッチを抽出する。実施形態では、抽出モジュール159は、複数の姿勢ビンのそれぞれに対して描写された画像から2Dパッチを密にサンプリングする。2Dパッチは、様々なサイズ(例えば、解像度)を有することができる。例えば、抽出モジュール159は、複数のサイズ・レベル(例えば、10)で2Dパッチを抽出することができ、各サイズ・レベルは、各レベルで累進的に小さくなる(例えば、80%)。さらに、各レベルに対して、抽出モジュール159は、段階的に顔画像からサンプリングされるはずの2Dパッチを抽出する(例えば、各段階は、2Dパッチ幅の2分の1である)。姿勢ビンがどのように取り込まれるか(例えば、観察された画像からのパッチ、回帰を使用して外挿されたパッチ、または正規化された3Dモデルから描写されたパッチを使用する)に応じて、2Dパッチを判定するために使用されるそれぞれのデータの数量および/または数量に基づいて、異なる不確実性メトリックが姿勢ビンに関連付けられる。
【0047】
本開示の態様によれば、整合モジュール163は、入力画像(例えば、イベントにおける違反者の捕捉画像)と、抽出モジュール159によって抽出された2Dパッチとの間の
マッチを判定する。入力画像とギャラリー
表現情報との間の類似性は、それらの表現の異種シグニチャ間の
マッチスコアとして演算される。実施形態では、整合モジュール163は、索引付けと
マッチ体系との組合せを使用して、マルチビューPEPシグニチャを
マッチさせ、それぞれの構成要素の不確実性を補償する。本開示の態様によれば、顔を記述する視覚属性は、顔同士の類似性を評価するための中間表現空間を提供する。低レベルの特徴は、場面内の測光および幾何学上の変化による摂動によって強く影響されるのに対して、記述可能な顔面属性の空間は、顔同士の対応関係を確立するためにより汎用化可能なメトリックを提供する。
【0048】
図3〜6の流れ図は、本開示の様々な実施形態によるシステム、デバイス、方法、およびコンピュータ・プログラム製品の可能な実装形態の機能性および動作を示す。
図3〜6の流れ図内の各ブロックは、プログラム命令のモジュール、セグメント、または部分を表すことができ、プログラム命令は、図示の機能および動作を実施するための1つまたは複数のコンピュータ実行可能な命令を含む。いくつかの代替実装形態では、流れ図の特定のブロックに示す機能および/または動作は、
図3〜6に示す順序以外で行うことができる。例えば、必要とされる機能性に応じて、連続して示す2つのブロックを実質上同時に実行することができ、または時として、それらのブロックを逆の順序で実行することができる。流れ図の各ブロックおよびブロック内のブロックの組合せは、指定の機能もしくは動作を実行する特殊目的ハードウェア・ベースのシステムまたは特殊目的ハードウェアおよびコンピュータ命令の組合せによって実施することができることにも留意されたい。
【0049】
図3は、本開示の態様による画像を摂取し、モデル化し、抽出し、かつ
マッチさせる、例示的なプロセス300の流れ図を示す。
図3のステップは、
図1の顔面認識システム(例えば、顔面認識システム105)を使用して実施することができ、例えば画像ソース(例えば、画像ソース110)から画像を取得し、取得した画像を処理して顔面認識を実行することができる。
【0050】
ステップ303で、顔面認識システム(例えば、摂取モジュール151による)は、個人の1つまたは複数の画像を取得する。例えば、顔面認識システムは、個人の顔の画像を含む複数の異なる画像を、カメラおよび/または画像データベースなどの画像ソース(例えば、画像ソース110)から取得することができる。画像は、顔面認識システムによる参考および処理のために、データベース(例えば、画像データベース136)内に記憶することができる。
【0051】
ステップ305で、顔面認識システム(例えば、分析モジュール153による)は、画像から属性を判定する。本発明の態様によれば、属性は、対象の特徴を意味的に記述する。実施形態では、属性は、事前定義された情報およびモデル(例えば、領域知識データベース137)に基づいて
決定される。
【0052】
ステップ307で、顔面認識システム(例えば、モデル化モジュール155による)は、画像を使用して個人の顔の3Dモデルを
決定する。例えば、モデル化モジュール155は、ステップ305で
決定した属性に基づいてライブラリ(例えば、領域知識データベース137)から3Dメッシュを選択し、ステップ303で取得した画像のパッチをこのメッシュに取り込むことができる。実施形態では、顔面認識システムは、複数の画像からの情報を欠く3Dモデルの要素を識別することができる。3Dモデルが要素のいずれかを欠く場合、顔面認識ツールは、対象または標的個人の属性に類似した属性を有する個人からコンパイルした領域知識(例えば、領域知識データベース137)を使用して、識別された要素に対する情報を提供することができる。
【0053】
ステップ309で、顔面認識システム(例えば、モデル化モジュール155による)は、ステップ307で判定した3Dモデルを正規化する。正規化は、3Dモデルによって表現される顔における照明変動を正規化するために3Dモデルを再照明するステップを含むことができる。追加として、正規化は、本明細書に前述したように、3Dモデルによって表現される顔の表情を中性化するステップと、3Dモデルによって表現される顔の年齢を修正するステップと、3Dモデルに関連付けられた顔面の装飾および遮蔽を補償するステップとを含むことができる。
【0054】
ステップ311で、顔面認識システム(例えば、抽出モジュール159による)は、顔の異なる姿勢に対応するステップ309で正規化した3Dモデルから2Dパッチを抽出する。例えば、それぞれの異なる姿勢は、3Dモデルのそれぞれの視野角範囲に対応することができる。各視野角範囲に対して、顔面認識システムは、複数の可視パッチを
決定し、これらのパッチの情報をそれぞれの視野角範囲に関連付けてデータベース(例えば、モデル・データベース138)内に記憶することができる。
【0055】
ステップ313で、顔面認識システム(例えば、抽出モジュール159による)は、ステップ311で使用した異なる姿勢に対するマルチビューPEPシグニチャを
決定する。実施形態では、マルチビューPEPシグニチャは、異なる角度からの3Dモデルのそれぞれの視野角範囲に対応する。実施形態では、顔面認識システムは、複数の追加の顔画像を使用して、マルチビューPEPシグニチャを繰返し改良する。しかし、本発明の態様によれば、それぞれのマルチビューPEPシグニチャは、追加の顔画像の数にかかわらず、固定のサイズを有する。また、本発明の態様によれば、顔面認識システムは、マルチビューPEPシグニチャのうち、顔の他の特徴に対して最も大きい判別特徴を有する顔の部分に対応する1つを
決定する。実施形態では、最も大きい判別特徴を有する顔の部分の
決定は、顔面特徴選択を実行するための訓練データを有する重畳ニューラル・ネットワークを使用して行われる。例えば、訓練データに基づいて、重畳ニューラル・ネットワークを使用して、各部分に対する不確実性メトリックを
決定し、最も小さい不確実性メトリックを有する顔の対応する部分を選択することができる。
【0056】
ステップ315で、顔面認識システム(例えば、抽出モジュール159による)は、ステップ305で
決定した属性でマルチビューPEPシグニチャを索引付ける。実施形態では、特定のマルチビューPEPシグニチャに対して、属性を構成要素マルチビューPEPシグニチャとして処理されるベクトルに変換することによって、属性を索引付けることができる。例えば、索引付けは、最適化変換コード化方法を使用して実行することができる。
【0057】
ステップ317で、顔面認識システム(例えば、抽出モジュール159による)は、1つまたは複数の不確実性メトリックをそれぞれのマルチビューPEPシグニチャに関連付ける。不確実性メトリックは、それぞれのマルチビューPEPシグニチャを生成するために使用される情報の品質に基づいて判定された値(例えば、遮蔽、顔面の装飾、照明、および視野角による)とすることができる。マルチビューPEPシグニチャは、ステップ315で判定したそれぞれの属性およびステップ317で判定したそれぞれの不確実性メトリックに関連付けて、データベース(例えば、モデル・データベース138)内に記憶することができる。
【0058】
ステップ319で、顔面認識システム(例えば、整合モジュール163による)は、ステップ305で
決定した属性、ステップ315で
決定したマルチビューPEPシグニチャ、およびステップ317で
決定した不確実性メトリックに基づいてモデル化された個人の顔に、入力画像が
マッチするかどうかを判定する。実施形態では、判定は、入力画像の解像度に基づいて複数のシグニチャの解像度を修正するステップを含む。追加として、実施形態では、判定は、複数の撮像モダリティを使用して
マッチを実行するステップを含む。例えば、
マッチは、可視スペクトル画像、赤外画像、および/または図面に対応するPEPシグニチャを使用して実行することができる。
【0059】
図4は、本開示の態様による顔面認識システム(例えば、顔面認識システム105)を使用して属性ベース表現を判定する流れ図を示す。顔面認識システムは、本明細書に前述したものと同じとすることができる。ステップ403で、顔面認識システムは、1つまたは複数のソース(例えば、画像ソース110)から、個人の1つまたは複数の画像405を受け取る。ステップ407で、顔面認識システム(例えば、モデル化モジュール155を使用する)は、個人の顔の3Dモデルを
決定する。3Dモデルは、受け取った画像から抽出された個人の属性(例えば、性別、年齢、民族性など)に基づいて選択される標準的な形状に基づくことができる(例えば、分析モジュール153を使用する)。さらに、顔面認識システムは、本明細書に前述したように、モデルを再照明し、顔の表情を正規化し、かつ/または顔を加齢させることによって、3Dモジュール内の個人の顔面表現を修正することができる。
【0060】
ステップ409で、顔面認識システム105(例えば、抽出モジュール159を使用する)は、3Dモデルの複数の異なる姿勢に対応する2Dパッチを抽出することによって、ステップ407で
決定した3DモデルからマルチビューPEPシグニチャを
決定する。それぞれの姿勢は、ピッチおよびヨー範囲の異なる組合せに基づく3Dモデルの視野角に対応することができる。例えば、第1の組合せは、−15度〜15度のピッチ範囲および10度〜40度のヨー範囲を含むことができ、第2の組合せは、−10度〜+10度のピッチ範囲および−90度〜−75度のヨー範囲を含むことができ、第3の組合せは、−10度〜+10度のピッチ範囲および−45度〜−15度のヨー範囲を含むことができ、第4の組合せは、−10度〜+10度のピッチ範囲および−15度〜+15度のヨー範囲を含むことができ、第5の組合せは、−10度〜+10度のピッチ範囲および+15度〜+45度のヨー範囲を含むことができ、第6の組合せは、−10度〜+10度のピッチ範囲および+75度〜+90度のヨー範囲を含むことができ、第7の組合せは、−40度〜−10度のピッチ範囲および−15度〜+15度のヨー範囲を含むことができる。本開示の態様によれば、マルチビューPEPシグニチャは、複数の画像モダリティ413(例えば、可視スペクトル、赤外、およびスケッチ/漫画)に対して
決定される。
【0061】
ステップ415で、顔面認識システム(例えば、抽出モデル159を使用する)は、ステップ409で使用した異なる姿勢(例えば、姿勢0〜8)に対して
決定されたそれぞれのマルチビューPEPシグニチャにそれぞれ対応する複数のビン417(例えば、ビン0〜8)を取り込む。追加として、それぞれのビン417は、1つまたは複数の属性419によって索引付けられる。さらに、それぞれのビン417は、それぞれの不確実性メトリック421に関連付けられる。本開示の態様によれば、個人の画像と異なる姿勢に対して
決定されたマルチビューPEPシグニチャとの間の類似性に基づいて、個人を識別することができる。
【0062】
図5は、本開示の態様による顔面認識システム(例えば、顔面認識システム105)によって属性を
決定する流れ図を示す。属性は、顔面認識システムの分析モジュール153によって
決定することができ、顔面認識システムは、本明細書で先に論じたものと同じとすることができる。ステップ503で、分析モジュール153は、本明細書に前述したように、画像内の個人の顔を検出することができる。検出した顔は、姿勢に関連付けることができる。ステップ505で、分析モジュール153は、本明細書に前述したように、ステップ503で検出した顔の中の基準点を
決定することができる。ステップ507で、分析モジュール153は、ステップ505で
決定した基準点に基づいて、顔の中から2Dパッチを
決定することができる。
【0063】
さらに、ステップ509で、分析モジュール153は、ステップ503で検出した顔の属性(例えば、姿勢)およびステップ507で判定した2Dパッチを分類することができる。例えば、顔および2Dパッチに基づいて、分析モジュール153は、「男性」、「白色人種」、「尖った鼻」、および「眼鏡」という意味を画像に関連付ける線形分類子を使用する。意味はそれぞれ、判定の確実性に対応するそれぞれの意味の関連付けられた重みを有することができる。例えば、「男性」という意味に関連付けられた重みは、画像内の個人の性別が確かに男性であると分析モジュール153が判定したときにより大きくなり、画像内の個人の性別が明らかに男性であるとは言えないと分析モジュール153が判定したときは、この重みを小さくすることができる。実施形態では、確実性は、画像内の基準点と基準データ(例えば、領域知識データベース137内)との比較によって判定される類似性に基づいて判定することができる。
【0064】
実施形態では、分析モジュール153は、頭部姿勢のヨーおよびピッチ値の範囲に対応する姿勢特有PEP表現を識別する重畳ニューラル・ネット(CNN)を使用して、属性を判定する。ステップ507で姿勢特有の部分に基づいて画像を2Dパッチに分解することによって、重畳ニューラル・ネットの後の訓練が実質上より容易になる。したがって、分析モジュール153は、姿勢が正規化された特徴を、比較的小さいデータセットから判定することができる。低レベルの特徴に加えて、1対の表現間の対応関係(または整合)を確立するために使用される画像パッチは、3D姿勢(ヨーおよびピッチ)に依存しており、重畳ニューラル・ネットを使用して各3D姿勢に対して独立して学習することができる。さらに、分析モジュール153は、意味的に位置合わせされた部分パッチに基づく入力層を有するように深い重畳ネットワークを増大させるモデルを使用することができる。このモデルは、特定の姿勢下で特定の属性に特有の特徴を学習する。分析モジュール153は、次いで、そのようなネットワークによって作製された属性を組み合わせて、姿勢が正規化された深い表現を構築することができる。分析モジュールは、変動する解像度、品質、および条件(例えば、年齢、姿勢、照射)を有する媒体に対応するように訓練されたマルチビューPEPベースの表現内に深い学習アーキテクチャを統合する。
【0065】
図6は、本開示の態様によるマルチビューPEPシグニチャを判定するために顔面認識システム(例えば、顔面認識システム105)によって実行されるプロセスに対する流れ図を示す。属性は、抽出モジュール159によって判定することができ、抽出モジュール159は、本明細書で先に論じたものと同じとすることができる。
【0066】
ステップ603で、抽出モジュール159は、3Dモデルから局所記述子を抽出する。3Dモデルは、前述したものと同じとすることができる。ステップ605で、抽出モジュール159は、PEPモデルの構成要素を判定する。本発明の態様によれば、訓練画像(例えば、画像データベース136内)から、モデル化モジュール155は、ガウス構成要素を球状に制約するガウス混合モデルを使用する空間的外観局所記述子を抽出する。抽出モジュール159は、期待値最大化(EM)を使用してパラメータを判定することができる。PEPモデルは実質上、部分ベース表現に基づいて姿勢変動を処理し、変動しない局所記述子を使用して他の要因からの変動を処理する。
【0067】
ステップ607で、抽出モジュール159は、ステップ605で判定したPEPモデルの構成要素の中から最尤部分記述子を判定する。例えば、判定したPEPモデルの各ガウス構成要素(顔部分を表現する)は、モデルのパラメータから生じたその構成要素に対して最も高い尤度を有する局所画像記述子を選択する。
【0068】
ステップ609で、抽出モジュール159は、ステップ607で判定した最尤部分記述子からPEPシグニチャを判定する。最終的な表現を判定するために、抽出モジュール159は、すべての構成要素からの選択された記述子を連結することができる。実世界条件を処理するために、抽出モジュール159は、上記のPEPモデルを姿勢認識PEPモデルに拡張し、それによってモデル化モジュール155は、ヨー−ピッチ姿勢空間を異なる姿勢ビンに離散化し、それぞれに対して異なるPEPモデルおよび表現を取得する。すべてのPEPモデルの集合から、より広範囲の姿勢変動をより有効にモデル化することができる集合PEP表現が得られる。抽出モジュール159は、集合内の各個人PEP表現に対するメトリックを学習し、各個人PEPモデルに対する入力顔画像の生成確率を自然に採用して、各個人PEP表現上で定義されたメトリックを適応的に重み付けする。
【0069】
対象のすべての追加の顔画像によって、抽出モジュール159は、ソフトマックス集約を採用して部分記述子を集約させる。各最尤部分記述子の重みが、対応する部分に関連付けられた記述子の確率を使用して多項ソフトマックス関数によって設定される場合、すべての顔画像からすべての最尤部分記述子の加重和を取得することによって、PEPモデルは、記述子の増分的かつ可逆性の更新を可能にする。同時に、各最尤部分記述子の確率を記録することで、追加の新しい画像からの最尤記述子を追加することによって、または既存の表現を作製するために使用された既存の画像の部分集合から最尤記述子を除去することによって、すべての元画像にアクセスする必要なく、既存の表現を柔軟に更新することが可能になる。さらに、ソフトマックス集約ベースの更新は、姿勢認識PEP表現のサイズを固定することを可能にする。
【0070】
本発明の態様によれば、姿勢認識PEPベースの2D表現は、3つの部分からなる表現であり、各部分は、可視スペクトルからの画像、近赤外スペクトルからの画像、および似顔絵(または漫画)に対するものである。各タイプの表現に対して、抽出モジュール159は不確実性メトリックを推定し、この不確実性メトリックは、生成確率に基づいてパッチから導出されたシグニチャに関連付けられる。そのような不確実性メトリックは、個人に対するシグニチャの正確な
マッチを支援することができる。
【0071】
本開示は、本出願に記載する特定の実施形態に関して限定されるものではなく、実施形態は、様々な態様の例示として意図される。当業者には明らかなように、本開示の精神および範囲から逸脱することなく、多くの修正および変更を加えることができる。上記の説明から、本明細書に挙げたものに加えて、本開示の範囲内の機能上同等の方法および装置が、当業者には明らかである。そのような修正および変更は、添付の特許請求の範囲の範囲内であることが意図される。本開示は、添付の特許請求の範囲と、そのような特許請求の範囲が与えられる均等物の完全な範囲とに関してのみ、限定されるものとする。本明細書に使用する術語は、特定の実施形態について説明することのみを目的とし、限定することが意図されるものではないことも理解されたい。
【0072】
本明細書での実質上あらゆる複数形および/または単数形の用語の使用に対して、当業者であれば、文脈および/または適用例に対して適当に、複数形から単数形へ解釈し、かつ/または単数形から複数形へ解釈することができる。はっきりさせるために、様々な単数形/複数形の置換えは、本明細書に明確に記載することができる。
【0073】
全体として、本明細書、特に添付の特許請求の範囲(例えば、添付の特許請求の範囲の本文)で使用される用語は、概して、「オープン」用語として意図されることが、当業者には理解されよう(例えば、「含む(including)」という用語は、「含むがそれだけに限定されるものではない(including but not limited to)」として解釈されるべきであり、「有する(having)」という用語は、「少なくとも有する(having at least)」として解釈されるべきであり、「含む(includes)」という用語は、「含むがそれだけに限定されるものではない(includes but is not limited to)」として解釈されるべきであり、以下同様である)。導入される特許請求の範囲の記載の特有の数が意図される場合、そのような意図は、特許請求の範囲内に明示的に記載され、そのような記載がない場合、そのような意図は存在しないことが、当業者にはさらに理解されよう。例えば、理解を支援するために、以下の添付の特許請求の範囲は、特許請求の範囲の記載を導入するための「少なくとも1つ(at least one)」および「1つまたは複数(one or more)」という導入語句の使用を含むことができる。しかし、そのような語句の使用は、不定冠詞「a」または「an」による特許請求の範囲の記載の導入により、同じ特許請求の範囲が「1つまたは複数」または「少なくとも1つ」という導入語句と「a」または「an」などの不定冠詞とを含むときでも、そのような導入された特許請求の範囲の記載を含むあらゆる特定の特許請求の範囲が、1つのそのような記載を含む実施形態のみに限定されることを示唆すると解釈されるべきではない(例えば、「a」および/または「an」は、「少なくとも1つ」または「1つまたは複数」を意味すると解釈されるべきである)。同じことが、特許請求の範囲の記載を導入するために使用される定冠詞の使用にも当てはまる。追加として、導入される特許請求の範囲の記載の特有の数が明示的に記載される場合でも、そのような記載は、少なくとも記載の数を意味すると解釈されるべきであることが、当業者には認識されよう(例えば、他の修飾語のない「2つの記載」という明白な記載は、少なくとも2つの記載または2つ以上の記載を意味する)。さらに、「A、B、およびCなどの少なくとも1つ」に類似の規定が使用される例では、全体として、そのような構造は、当業者にはその規定が理解される意味で意図される(例えば、「A、B、およびCの少なくとも1つを有するシステム」は、Aだけを有するシステム、Bだけを有するシステム、Cだけを有するシステム、AとBを合わせて有するシステム、AとCを合わせて有するシステム、BとCを合わせて有するシステム、ならびに/またはA、B、およびCを合わせて有するシステムなどを含むが、それだけに限定されないはずである)。「A、B、またはCなどの少なくとも1つ」に類似の規定が使用される例では、全体として、そのような構造は、当業者にはその規定が理解される意味で意図される(例えば、「A、B、またはCの少なくとも1つを有するシステム」は、Aのみを有するシステム、Bのみを有するシステム、Cのみを有するシステム、AとBを合わせて有するシステム、AとCを合わせて有するシステム、BとCを合わせて有するシステム、ならびに/またはA、B、およびCを合わせて有するシステムなどを含むが、それだけに限定されないはずである)。説明、特許請求の範囲、または図面にかかわらず、2つ以上の代替用語を示す事実上あらゆる離接的接続詞および/または句は、用語の1つ、用語のいずれか、または両方の用語を含む可能性を企図すると理解されるべきであることが、当業者にはさらに理解されよう。例えば、「AまたはB」という語句は、「A」または「B」または「AおよびB」の可能性を含むと理解される。追加として、本開示の特徴または態様について、マーカッシュ群の点から説明される場合、それによって本開示は、マーカッシュ群のあらゆる個々の部材または部材の小群の点からも説明されることが、当業者には理解されよう。
【0074】
様々な態様および実施形態について本明細書に開示したが、他の態様および実施形態が当業者には明らかである。本明細書に開示する様々な態様および実施形態は、例示を目的とするものであり、限定することを意図するものではなく、真の範囲および精神は、以下の特許請求の範囲によって示される。