【文献】
Hongyu Xu, 外3名,"Cross-Domain Visual Recognition via Domain Adaptive Dictionary Learning",Computer Vision and Pattern Recognition,2018年04月16日,p.1-14
【文献】
Taeksoo Kim,"Learning to Discover Cross-Domain Relations with Generative Adversarial Networks",ICML'17:Proceedings of the 34th International Conference on Machine Learning,第70巻,2017年08月06日,p.1857-1865
【文献】
Yaniv Taigman, 外2名,"Unsupervised Cross-Domain Image Generation",Computer Vision and Pattern Recognition,2016年11月07日,p.1-14
【文献】
Peixi Peng, 外6名,"Unsupervised Cross-Dataset Transfer Learning for Person Re-identification",2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016年06月27日,p.1306-1315
(58)【調査した分野】(Int.Cl.,DB名)
前記特徴生成器をトレーニングすることは、前記ソースの特徴および前記ソース拡張された特徴の両方からの検証損失、前記第2のドメイン識別器を経由したドメイン分離損失、および前記第1のドメイン識別器を経由したドメイン敵対的損失を含み、
前記特徴変換器をトレーニングすることは、前記第2のドメイン識別器を経由した検証損失およびドメイン分離損失を含む、請求項1に記載の方法。
前記特徴生成器および前記特徴変換器をトレーニングすることは、前記特徴生成器に関連する検証損失に対応する目的関数をトレーニングすることと、前記特徴変換器に関連する検証損失に対応する目的関数をトレーニングすることとをさらに含む、請求項1に記載の方法。
前記特徴生成器および前記特徴変換器をトレーニングすることは、前記特徴生成器から抽出された特徴と、前記ラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワークとの間の特徴再構成の損失に対応する目的関数をトレーニングすることをさらに含む、請求項1に記載の方法。
前記特徴生成器および前記特徴変換器をトレーニングすることは、マルチクラスエントロピーの最小化損失に対応する目的関数をトレーニングすることをさらに含む、請求項1に記載の方法。
前記特徴生成器をトレーニングすることは、前記ソースの特徴および前記ソース拡張された特徴の両方からの検証損失、前記第2のドメイン識別器を経由したドメイン分離損失、および前記第1のドメイン識別器を経由したドメイン敵対的損失を含み、
前記特徴変換器をトレーニングすることは、前記第2のドメイン識別器を経由した検証損失およびドメイン分離損失を含む、請求項7に記載のコンピュータプログラム。
前記特徴生成器および前記特徴変換器をトレーニングすることは、前記特徴生成器に関連する検証損失に対応する目的関数をトレーニングすることと、前記特徴変換器に関連する検証損失に対応する目的関数をトレーニングすることとをさらに含む、請求項7に記載のコンピュータプログラム。
前記特徴生成器および前記特徴変換器をトレーニングすることは、前記特徴生成器から抽出された特徴と、前記ラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワークとの間の特徴再構成の損失に対応する目的関数をトレーニングすることをさらに含む、請求項7に記載のコンピュータプログラム。
前記特徴生成器および前記特徴変換器をトレーニングすることは、マルチクラスエントロピーの最小化損失に対応する目的関数をトレーニングすることをさらに含む、請求項7に記載のコンピュータプログラム。
前記少なくとも1つのプロセッサ装置は、さらに、前記特徴生成器に関連する検証損失に対応する目的関数をトレーニングすること、および前記特徴変換器に関連する検証損失に対応する目的関数をトレーニングすることによって、前記特徴生成器および前記特徴変換器をトレーニングするように構成されている、請求項13に記載のシステム。
前記少なくとも1つのプロセッサ装置は、さらに、前記特徴生成器から抽出された特徴と、前記ラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワークとの間の特徴再構成の損失に対応する目的関数をトレーニングすることによって、前記特徴生成器および前記特徴変換器をトレーニングするように構成されている、請求項13に記載のシステム。
前記少なくとも1つのプロセッサ装置は、さらに、マルチクラスエントロピーの最小化損失に対応する目的関数をトレーニングすることによって、前記特徴生成器および前記特徴変換器をトレーニングするように構成されている、請求項13に記載のシステム。
【発明を実施するための形態】
【0008】
本明細書で説明される実施形態は、顔認識を向上するための特徴転送ネットワークを備えたクロスドメイン距離メトリック適応フレームワークを実行するためのシステムおよび方法を提供する。本明細書で説明される実施形態は、ソースドメインおよびターゲットドメインのラベル空間が互い共通部分を持たない状況に適用することができる。より具体的には、特徴転送ネットワークは、統一されたフレームワークにおける共同ドメイン敵対者およびドメイン分離トレーニングを可能にするために、拡張されたソースドメインの埋め込み空間を生成することができる。特徴再構成損失、分類損失、ドメイン敵対的損失、およびドメイン分離損失を含むことができる一連のトレーニング目標を導入して、特徴転送ネットワークをトレーニングすることができる。
【0009】
本明細書で説明される実施形態は、ソースドメインが豊富なラベル付けされたトレーニングデータを有し、ターゲットドメインが豊富なラベル付けされていないトレーニングデータを有する場合に、分類および距離メトリック学習のためのドメイン適応フレームワークを提供することができる。例えば、本明細書で説明される実施形態は、例えば、異民族年齢推定などのタスクのための補助分類モジュールを有するドメイン適応フレームワークを提供する。
【0010】
ここで、同様の数字が同一または類似の要素を表す図面を詳細に参照し、最初に
図1を参照すると、顔認識を向上させるための特徴転送ネットワークを備えた、非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのシステム100の高レベルの概要を示すブロック/フロー図が提供される。
【0011】
図示のように、システム100は、特徴転送ネットワーク(FTN)サブシステム102および自動的にラベル付けするサブシステム104を含むことができる。トレーニングフレームワークは、FTNサブシステム102に関してFTNを再帰的または反復的に達成し、自動的にラベル付けするサブシステム104に関してトレーニングされたFTNを使用してデータを自動的にラベル付けすることによって達成することができる。FTNのトレーニングをすること、および自動的にラベル付けすることは、顔認識を実行するためにニューラルネットワーク内で実行することができる。
【0012】
FTNサブシステム102は、ソースドメイン110およびターゲットドメイン120を含むことができる。ソースドメイン110は、ラベル付けされた例を含むラベル付けされたドメインであってもよく、ターゲットドメイン120は、ラベル付けされていない例を含むラベル付けされてないドメインであってもよい。例示的な実施形態では、ソースドメイン110およびターゲットドメイン120は、それぞれの民族に対応することができる。例えば、ソースドメイン110は、ソース民族に対応することができ、ターゲットドメイン120は、ターゲット民族に対応することができる。
【0013】
システム100は、検証タスクを実行するために使用することができる。より具体的には、検証タスクは、ソースドメイン110、ターゲットドメイン120にわたって共有されるバイナリ分類タスクを含むことができ、これは、一対の画像を入力として取得し、画像の対が同一の身元を共有した場合には「1」のラベルを予測し、そうでない場合には「0」のラベルを予測する。検証タスクの目的は、ソースドメイン110およびターゲットドメイン120の何れかから引き出された2つ不特定のサンプルが同じクラスに属するかどうかを検証することである(2つのランダムサンプルが先験的にどちらの分布に由来するかは不明である)。
【0014】
ソースドメイン110をX
Sとし、ターゲットドメイン120をX
Tとし、2つの不特定のサンプルをxおよびx’とする。対を構成する3つの状況、(1)x、x’∈X
S;(2)x、x’∈X
T;および(3)x∈X
S、x’∈X
Tがある。状況(1)と(2)はメイン内検証と呼ばれ、状況(3)はクロスドメイン(またはドメイン間)検証と呼ばれる。
【0015】
ドメイン内検証状況では、ソース(またはターゲット)ドメイン分類子が必要な場合がある。ソースドメイン110については、適切にラベル付けされたトレーニング例が提供され、有能な分類子を学習することができる。ターゲットドメイン120については、ラベル付けされていないトレーニング例のみが提供される。しかしながら、分類子の識別力は、X
TxX
TおよびX
SxX
Sの表現空間を適応させることによって、ターゲットドメイン120に転送することができる。すなわち、ソースドメイン110からの同じ有能な分類子を使用して、2つのドメインが良好に整列している場合にターゲットドメイン対を検証することができる。クロスドメイン検証状況では、2つのサンプルxおよびx’が同じクラスであることはないと仮定することができ、これは、例えば、異民族顔検証問題などの問題に当てはまる。
【0016】
上述のドメイン内検証状況およびクロスドメイン検証状況の両方を処理するために、FTNサブシステム102は、FTNコンポーネント130をさらに含むことができる。FTNコンポーネント130は、ソースドメイン110のソースの特徴からターゲットドメイン120のターゲットの特徴を分離すると同時に、特徴を、変換されたソースの特徴の補助ドメインと合わせることができる。例えば、FTNコンポーネント130は、複数のモジュールを含むことができる。より具体的には、FTNコンポーネント130は、特徴生成モジュールおよび特徴変換モジュールを含むことができる。
【0017】
さらに示されるように、FTNコンポーネント130の出力は、検証コンポーネント140、エントロピー最小化コンポーネント150、およびドメイン識別器160のそれぞれへの入力として受信される。
【0018】
自動的にラベル付けするサブシステム104において、ターゲット画像170は、自動的にラベル付けするためにターゲットドメイン120への入力として提供され得る。
【0019】
システム100の実行に関するさらなる詳細は、
図2−3を参照して以下に記載される。
【0020】
図2を参照すると、特徴転送ネットワーク(FTN)を再帰的または反復的にトレーニングし、トレーニングされたFTNを使用してデータを自動的にラベル付けするトレーニングフレームワーク全体の例示的なシステム/方法200を示すブロック/フロー図が提供されている。システム/方法200は、顔認識を向上させるための特徴転送ネットワークを用いて、非監視のクロスドメイン距離メトリック適応フレームワークを実行するために、システム100内で実行することができる。
【0021】
システム/方法200は、ドメイン識別器D
1およびD
2のトレーニングプロトコルに対応するセクション210と、特徴生成器fおよび特徴変換器gのトレーニングに対応するセクション230と、自動的にラベル付けするプロトコルに対応するセクション250とを含む。自動的にラベル付けすることを実行するために、セクション250は、擬似ラベルを提供するためのターゲットの例のクラスタリングを実行することができる。例えば、セクション250は、トレーニングされた特徴ネットワークの特徴表現を用いたノイズ(DBSCAN)法によるアプリケーションの密度に基づいた空間クラスタリングを実行することができる。より具体的には、セクション250は、階層的クラスタリングを実行することができる。例えば、セクション250は、階層的DBSCAN(HDBSCAN)法を実行することができる。
【0022】
セクション210および230は、ラベル付けされていないソースおよびターゲットの例を使用して、識別器の間、特徴生成器fおよび特徴変換器gの間のFTNの双方向トレーニングに集合的に対応する。さらに詳細に説明するように、特徴変換器gは、ドメイン敵対的損失(D
1を介する)およびドメイン分離損失(D
2を介する)との共同最適化を可能にすることができる。
【0023】
f:X→Zとして表される特徴生成器fは、X
SおよびX
Tを区別可能な表現空間f(X
S)およびf(X
T)にマッピングすることができる。ドメイン分離目的関数(例えば、損失関数)、L
sepは、この分離を達成するために使用される。ここで、「ドメイン分離」という語は、表現空間がドメイン定義(例えば、ソースまたはターゲット)に関して分離可能であることを示す。
【0024】
特徴変換器gは、g:Z→Zとして表すことができ、f(X
S)をf(X
T)との位置合わせのためg(f(X
S))に変換することができる。ドメイン敵対的目的関数、L
advは、位置合わせを達成するために使用される。ここで、「ドメイン分離」という語は、表現空間がドメイン定義(例えば、ソースまたはターゲット)に関して分離可能であることを示す。
【0025】
ドメイン位置合わせのためのドメイン敵対的目的関数は、D
1によって変換されたソースドメインとターゲットドメインとの間に適用することができ、D
2によってターゲットドメインと変換されたソースドメインとの両方からソースドメインを区別するためにL
sepを適用することができる。検証目的関数は、ソース対f(X
S)に適用することができ、分類子を使用してソース対g(f(X
S))に変換することができる。例えば、分類子は、分類子h
f、h
g:ZxZ→{0,1}を含むことができる。
【0026】
試験中、f(x)とf(x’)との間の適応距離が比較され得る。以下の所望の能力が達成され得る:
1.xおよびx’は異なるドメインのものである場合、f(x)およびf(x’)は、特徴生成モジュールの機能性のために遠く離れている;
2.x,x’∈X
S、それらが同じ分類に属する場合、f(x)およびf(x’)は、近く、そうでなければ、h
fの最適化から得られる識別力のため遠く離れている、そして
3.x,x’∈X
T、そして、f(x)およびf(x’)の場合、そして、それらが同じ分類に属する場合、f(x)およびf(x’)は近く、そうでなければ、h
gの最適化から得られる識別力のため遠く離れている。
【0027】
より具体的には、ドメイン識別器D
1およびD
2をトレーニングするためのサブセクション212から220までを含むセクション210が示されている。識別器D
2は、ソースの特徴と、ソース拡張された特徴とターゲットの特徴との混合とを識別するようにトレーニングされる。さらに、識別器D
1は、ソース拡張された特徴とターゲット特徴とを識別するようにトレーニング訓練される。
【0028】
サブセクション212および214は、識別器D
2、L
D2に対応する目的関数(損失関数)をトレーニングするために出力を生成する。より具体的には、サブセクション212および214は、ソースドメインに対応し、また、サブセクション216は、ターゲットドメインに対応する。実例として、L
D2は、以下のようにトレーニングすることができ、ここで、Eは、期待または期待値を示す:
【0029】
【数1】
ここで、E
x∈XSlogD
2(f(x),1)は、サブセクション212の出力、E
x∈XSlogD
2(g(f(x)),2)は、サブセクション214の出力、E
x∈XTlogD
2(f(x),2)は、サブセクション216の出力である
【0030】
サブセクション218および220は、識別子D
1,L
D1に対応する目的関数(例えば、損失関数)をトレーニングするための出力を生成する。より具体的には、サブセクション218はソースドメインに対応し、サブセクション220はターゲットドメインに対応する。実例として、L
D1は、以下のようにトレーニングすることができる:
【0031】
【数2】
ここで、E
x∈XSlogD
1(g(f(x)),1)は、サブセクション218の出力、E
x∈XTlogD
1(f(x),2)は、サブセクション220の出力である。
【0032】
セクション230は、特徴生成器fおよび特徴変換器gのトレーニングプロトコルを提供する。図示のように、セクション230は、複数のサブセクション232〜246を含むことができ、サブセクション232、234、236、242、および244は、ソースドメインに対応し、サブセクション238、240、および246は、ターゲットドメインに対応する。
【0033】
より具体的には、セクション230は、特徴変換器g、L
gに対応する目的関数(例えば、損失関数)、特徴生成器f、L
fに対応する目的関数(例えば、損失関数)、特徴生成器(f)から抽出された特徴と、参照ネットワーク(ref)、L
reconとの間の特徴再構成の損失に対応する目的関数(例えば、損失関数)、およびマルチクラスエントロピーの最小化損失、L
entropyに対応する目的関数(例えば、損失関数)をトレーニングすることができる。セクション230において目的関数をトレーニングする目的で、サブセクション234は、サブセクション212と同じまたは類似の出力を生成することができ、サブセクション236は、サブセクション214と同じまたは類似の出力を生成することができ、サブセクション238は、サブセクション216と同じまたは類似の出力を生成することができる。ここで、セクション230によってトレーニングされた目的関数に関するさらなる詳細を以下に説明する。
【0034】
L
gは、識別器D
2を介した検証損失およびドメイン分離損失によってトレーニングすることができる。実例として、L
gは、以下のようにトレーニングされ得る:
【0035】
【数3】
ここで、L
vrf はラベル付けされた画像の対の間の検証損失に対応する目的関数(例えば、損失関数)を指し、λ
2はD
2に関する検証損失と敵対的損失のバランスを取るハイパーパラメータを指す。ここで使用される「ハイパーパラメータ」とは、ユーザによって定義される正規則化係数(例えば、非負の実数)を指す。例えば、E
x∈XSlogD
2(g(f(x)),2)は、サブセクション236によって生成され、L
vrf(g)は、サブセクション244によって生成される。L
vrfのトレーニングの実例を以下に提供する。
【0036】
L
fは、ソースおよびソース拡張された特徴の双方からの検証損失、識別器D
2を介したドメイン分離損失、およびD
1を介したドメイン敵対的損失によってトレーニングすることができる。実例として、L
fは、以下のようにトレーニングすることができる:
【0037】
【数4】
ここで、λ
1は、D
1に関する検証損失と敵対的損失とのバランスを取るハイパーパラメータを指す。例えば、L
vrf(f)はサブセクション242によって生成され、L
vrf(g)はサブセクション244によって生成され、E
x∈XTlogD
1(f(x),1)はサブセクション246によって生成される。
【0038】
使用されるL
vrf(f)は、以下のようにトレーニングすることができる:
【0039】
【数5】
ここで、y
ijは、例えば、x
iおよびx
jの正解検証ラベルを指し(例えば、x
iおよびx
jが同じ特徴(例えば、同じ顔の人物)を表す場合にはy
ij=1、そうでなければy
ij=0)、σは、シグモイド関数(例えば、σ
a=1/1+e
-a)を指し、f(x
i)
Tは、ベクトルf(x
i)の転置を指す。L
vrf(f)は、より速い収束と改善された性能のために、N対の距離メトリック損失に拡張できる。L
vrf(g)も同様にトレーニングすることができる。
【0040】
L
reconは、特徴生成器fから抽出された特徴と、難しい敵対的トレーニングを安定化するためにラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワーク(ref)との間の特徴再構成の損失に対応することができる。実例として、L
reconは、以下のようにトレーニングすることができる:
【0041】
【数6】
ここで、f
ref(x)は参照ネットワークf
refを使用した入力xの表現を指し、λ
3およびλ
4はハイパーパラメータを指す。例えば、E
x∈XS||f(x)−f
ref(x)||
22は、サブセクション232によって生成することができ、E
x∈XT||f(x)−f
ref(x)||
22は、サブセクション240によって生成することができる。
【0042】
L
entropyは、階層的クラスタリングによって検索された擬似ラベルを使用することができる。実例として、L
entropyは、以下のようにトレーニングすることができる:
【0044】
【数8】
ここで、x
+nは、x
nの正の例を指す(例えば、x
nおよびx
+nは、同じ身元部類からの顔画像である)。
【0045】
図3を参照すると、顔認識を向上させるための特徴転送ネットワークを用いて非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのシステム/方法300を示すブロック/フロー図が提供されている。
【0046】
ブロック310で、ソースドメインおよびターゲットドメインが取得される。ソースドメインは、ラベル付けされたソースデータ(例えば、ラベル付けされたソース例)と関連付けることができ、一方、ターゲットドメインは、ラベル付けされていないターゲットデータ(例えば、ラベル付けされていない例)と関連付けることができる。ソースドメインおよびターゲットドメインは、顔認識を実行する目的で取得することができる。例えば、実例では、ソースドメインおよびターゲットドメインは、顔認識のためのそれぞれの民族に対応することができ、ソースドメインは、ソース民族に対応することができ、ターゲットドメインは、ターゲット民族に対応することができる。
【0047】
ソースドメインとターゲットドメインは、検証タスクを実行するために提供される。より具体的には、検証タスクは、一対の画像を入力として取得し、一対の画像が同じ身元を共有する場合には「1」のラベルを予測し、そうでなければ「0」のラベルを予測する、ソースドメインおよびターゲットドメインにわたって共有されるバイナリ分類タスクを含むことができる。検証タスクの目的は、ソースドメインおよびターゲットドメインの何れかから引き出された2つのランダムサンプルが同じ部類に属するかどうかを検証することである(2つのランダムサンプルが先験的にどちらの分布に由来するかは不明である)。
【0048】
ブロック320において、特徴転送ネットワーク(FTN)は、ソースドメインおよびターゲットドメインに基づいてトレーニングされる。
【0049】
例えば、FTNをトレーニングすることは、ブロック322において、第1のドメイン識別器および第2のドメイン識別器をトレーニングすることを含むことができる。第1のドメイン識別器および第2のドメイン識別器をトレーニングすることは、第1の識別器に対応する目的関数をトレーニングすることと、第2の識別器に対応する第2の目的関数をトレーニングすることとを含むことができる。第1のドメイン識別器は、ソース拡張された特徴とターゲットの特徴とを識別するようにトレーニングすることができ、第2のドメイン識別器は、ソースの特徴と、ソース拡張された特徴とターゲットの特徴との混合とを識別するようにトレーニングすることができる。ブロック322に関するさらなる詳細は、
図2(例えば、システム/方法200のセクション210)を参照して上述されている。
【0050】
FTNをトレーニングするステップは、ブロック324において、第1および第2のドメイン識別器に基づいて、特徴生成器および特徴変換器をトレーニングすることをさらに含むことができる。特徴生成器は、第1のドメイン識別器を介したドメイン敵対的損失と、第2のドメイン識別器を介したドメイン分離損失との共同最適化を可能にすることができる。
【0051】
特徴生成器および特徴変換器のトレーニングは、特徴変換器に対応する目的関数のトレーニング、および特徴生成器に対応する目的関数のトレーニングを含むことができる。より具体的には、特徴生成器のトレーニングは、ソースおよびソース拡張された特徴の両方からの検証損失、第2のドメイン識別器を介したドメイン分離損失、および第1のドメイン識別器を介したドメイン敵対的損失を含むことができる。特徴変換器のトレーニングは、第2のドメイン識別器を介した検証損失およびドメイン分離損失を含むことができる。
【0052】
一実施形態では、特徴生成器および特徴変換器をトレーニングすることは、特徴生成器に関連する検証損失に対応する目的関数をトレーニングすることと、特徴変換器に関連する検証損失に対応する目的関数をトレーニングすることと、をさらに含むことができる。特徴生成器に対応する目的関数は、特徴生成器に関連する検証損失に対応する目的関数の一部に基づいてトレーニングすることができ、特徴変換器に対応する目的関数は、特徴変換器に関連する検証損失に対応する目的関数の一部に基づいてトレーニングすることができる。検証損失は、より速い収束と改善された性能のためにN対の距離メトリック損失に拡張され得る。
【0053】
一実施形態では、特徴生成器および特徴変換器をトレーニングすることは、特徴生成器から抽出された特徴と、難しい敵対的トレーニングを安定化するためにラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワークとの間の特徴再構成の損失に対応する目的関数をトレーニングすることをさらに含むことができる。例えば、特徴再構成の損失に対応する目的関数は、参照ネットワークを用いてソースドメインおよびターゲットドメインからの例の表現に基づいてトレーニングすることができる。
【0054】
一実施形態では、特徴生成器および特徴変換器をトレーニングすることは、さらに、マルチクラスエントロピーの最小化損失に対応する目的関数をトレーニングすることを含むことができる。マルチクラスエントロピーの最小化損失に対応する目的関数は、クラスタリングによって(例えば、以下でさらに詳細に説明するように、ブロック330から)検索されたラベル(例えば、擬似ラベル)を使用することができる。例えば、マルチクラスエントロピーの最小化損失に対応する目的関数は、ターゲットドメインからのそれぞれの例の正の例に基づいてトレーニングすることができる。
【0055】
ブロック324に関するさらなる詳細は、
図2(例えば、システム/方法200のセクション230)を参照して上述される。
【0056】
ブロック330で、クラスタリング方法を使用して、ターゲットドメインデータの自動的にラベル付けすることがトレーニングされる。例えば、ターゲットドメインに対応するターゲットの例は、自動的にラベル付けをすることができる。ターゲットの例は、例えば、ターゲット画像を含むことができる。
【0057】
ターゲットの例に自動的にラベル付けすることは、ターゲットドメインのクラス構造を自動的に発見するために擬似ラベルを提供するターゲットの例のクラスタリングを含むことができる。例えば、ターゲットの例をクラスタリングすることは、トレーニングされた特徴ネットワークの特徴表現によって、ノイズ(DBSCAN)法によるアプリケーションの密度ベースの空間クラスタリングを実行することを含むことができる。より具体的には、ターゲットの例のクラスタリングは、階層的クラスタリングの実行を含むことができる。例えば、ターゲットの例のクラスタリングは、階層型DBSCAN(HDBSCAN)法の実行を含むことができる。
【0058】
示されるように、特徴転送ネットワークのトレーニングおよび自動的にラベル付けすることは、再帰的または反復的であり得る。より具体的には、ブロック320におけるトレーニングの出力は、ブロック330における自動的にラベル付けすることをトレーニングするための入力として提供され、ブロック330におけるトレーニングの出力は、ブロック320における特徴転送ネットワークをトレーニングするための入力として提供される。
【0059】
ブロック340において、顔認識タスクを実行するために、特徴転送ネットワークおよび自動的にラベル付けすることが実行され得る。例えば、特徴転送ネットワークのトレーニングおよび自動的にラベル付けすることは、顔の検証および識別、性別予測、年齢推定などの顔分析エンジンのグローバル化に適用することができる。特徴転送ネットワークのトレーニングおよび自動的にラベル付けすることは、異なる民族のターゲットドメインに対する顔分析エンジンの一般化能力を改善することができ、ターゲットドメインからの直接的なタスク固有の監視なしに、異なる民族にわたる顔認識、性別、予測、年齢推定などを達成することができる。さらに、特徴転送ネットワークのトレーニングおよび自動的にラベル付けすることは、顔分析エンジンの一般化能力を改善するために、ターゲットドメインからのラベリル付けされたデータを利用することによって、データ注釈の開発コストを低減することができる。
【0060】
システム/方法300は、特徴変換器を介してソース拡張された埋め込み空間を導入し、特徴変換器は、ラベル付けされたソースデータおよびラベル付けされていないターゲットデータを使用して顔認識タスクを実行するためのドメインの敵対する、およびドメインの分離する統一された学習フレームワークを可能にする。特徴転送ネットワーク学習および自動クラス構造発見のシステム/方法300の再帰的または反復的トレーニングのフレームワークは、ラベル付けされていないターゲットデータの迅速かつ正確なラベル付けおよび特徴表現の改善された品質を可能にすることができる。したがって、システム/方法300は、潜在的に高価なデータ注釈プロセスをバイパスしながら、顔認識システムの効率的な展開を可能にすることができる。
【0061】
システム/方法300は、1つまたは複数のソースドメインからの情報に基づいて、顔分析システムを1つまたは複数の新しいターゲットドメインに適応させることによって、顔分析システムをグローバル化するように実行することができる。実例として、民族性に関連するドメインの文脈において、ソース民族性ドメイン(例えば、白人ソースドメイン)は、豊富なラベル付けされたトレーニングデータを含むことができ、しかし一方、少なくとも1つのターゲット民族性ドメイン(例えば、非白人ターゲットドメイン)は、豊富なラベル付けされていないターゲットデータを含むことができる。この実例における可能な標的ドメインの例は、アフリカ系アメリカ人、東アジア人、南アジア人、ヒスパニック人などを含むことができるが、これらに限定されない。次に、
図4を参照して、この実施形態の実例を説明する。
【0062】
図4を参照すると、例示的なシステム400を示す図が提供されている。システム400は、少なくとも1つの顔画像収集装置410と、少なくとも1つのネットワーク430と通信する少なくとも1つの処理装置420とを含むことができる。装置410は、顔画像データを収集するように構成された任意の適切な装置(例えば、カメラ)を含むことができる。例えば、図示のように、装置410は、少なくとも1人のユーザ440から顔画像を収集することができる。
【0063】
処理装置420は、関心のあるタスクに関して顔画像に注釈を付けるように構成された顔分析エンジンを含むことができる。いくつかの実施形態では、顔分析エンジンは、さらに、注釈付き顔画像に基づいて関心のあるタスクを実行するように構成することができる。例えば、装置410によって収集された顔画像は、関心のあるタスクを実行するために、少なくとも1つのネットワーク430を介して処理装置420によって取得され得る。処理デバイス420によって実行することができるタスクの例は、識別、性別予測、年齢推定などが含まれるが、これらに限定されない。
【0064】
ユーザ440は、システム400内の新しい民族性ドメインに関連付けることができ、処理装置420の顔分析エンジンは、
図1−3を参照して上述した実施形態に従って、ユーザ440に関連する民族性ドメインに適合させることができる。
【0065】
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェア要素およびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実行される。
【0066】
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、または搬送する任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
【0067】
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能なコンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に確実に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で具体化されるものと考えることができ、同時に、そのように構成された記憶媒体は、コンピュータを特定の予め決められた方法で動作させて、本明細書に記載する機能を実行させる。
【0068】
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
【0069】
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたは記憶装置に結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプのほんの一部に過ぎない。
【0070】
ここで
図5を参照すると、本発明の一実施形態による、サーバまたはネットワークデバイスを表す例示的なコンピュータシステム500が示されている。コンピュータシステム500は、システムバス502を介して他の構成要素に動作可能に結合された少なくとも1つのプロセッサ(CPU)505を含む。キャッシュ506、リードオンリーメモリ(ROM)508、ランダムアクセスメモリ(RAM)510、入力/出力(I/0)アダプタ520、サウンドアダプタ530、ネットワークアダプタ590、ユーザインタフェースアダプタ550、およびディスプレイアダプタ560は、システムバス502に動作可能に結合される。
【0071】
第1の記憶装置522および第2の記憶装置529は、I/Oアダプタ520によってシステムバス502に動作可能に結合される。記憶装置522および529は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、ソリッドステート磁気装置などの何れかであってもよい。記憶装置522および529は、同じタイプの記憶装置であっても、異なるタイプの記憶装置であってもよい。
【0072】
スピーカ532は、サウンドアダプタ530によってシステムバス502に動作可能に結合することができる。トランシーバ595は、ネットワークアダプタ590によってシステムバス502に動作可能に結合される。ディスプレイ装置562は、ディスプレイアダプタ560によってシステムバス502に動作可能に結合される。
【0073】
第1のユーザ入力装置552、第2のユーザ入力装置559、および第3のユーザ入力装置556は、ユーザインタフェースアダプタ550によってシステムバス502に動作可能に結合される。ユーザ入力装置552、559、および556は、センサ、キーボード、マウス、キーパッド、ジョイスティック、画像キャプチャデバイス、動き検出デバイス、電力測定デバイス、マイク、前述の装置のうちの少なくとも2つの機能を組み込んだ装置などの何れかとすることができる。もちろん、本発明の精神を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置552、559、および556は、同じタイプのユーザ入力装置または異なるタイプのユーザ入力装置とすることができる。ユーザ入力装置552、559、および556は、システム500との間で情報を入出力するために使用される。
【0074】
特徴転送ネットワーク(FTN)構成要素570は、システムバス502に動作可能に結合され得る。FTN構成要素570は、上述の動作のうちの1つまたは複数を実行するように構成される。例えば、FTN構成要素570は、顔分析エンジンの一部として実行することができる。FTN構成要素570は、スタンドアロンの特殊目的のハードウェア装置として実行することも、記憶装置に記憶されたソフトウェアとして実行することもできる。FTN構成要素470がソフトウェア実装される実施形態では、コンピュータシステム500の別個の構成要素として示されているが、FTN構成要素570は、例えば、第1の記憶装置522および/または第2の記憶装置1029に格納することができる。代替的に、FTN構成要素570は、別個の記憶装置(図示せず)に記憶され得る。
【0075】
もちろん、コンピュータシステム500は、当業者によって容易に企図されるように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、種々の他の入力装置および/または出力装置は、当業者によって容易に理解されるように、同一の特定の実行に依存して、コンピュータシステム500に含めることができる。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなども、当業者によって容易に理解されるように利用することができる。コンピュータシステム500のこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられた当業者によって容易に企図される。
【0076】
前述は、あらゆる点で例示としての一例であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許可される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実行することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実行することができる。このように説明された本発明の態様は、特許法によって要求される詳細および特殊性を伴い、特許証によって保護が請求され、望まれるものは、添付の特許請求の範囲に記載されている。