特許第6983328号(P6983328)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌイーシー ラボラトリーズ アメリカ インクの特許一覧

特許6983328特徴転送ネットワークによる非監視下のクロスドメイン距離メトリック適応
<>
  • 特許6983328-特徴転送ネットワークによる非監視下のクロスドメイン距離メトリック適応 図000010
  • 特許6983328-特徴転送ネットワークによる非監視下のクロスドメイン距離メトリック適応 図000011
  • 特許6983328-特徴転送ネットワークによる非監視下のクロスドメイン距離メトリック適応 図000012
  • 特許6983328-特徴転送ネットワークによる非監視下のクロスドメイン距離メトリック適応 図000013
  • 特許6983328-特徴転送ネットワークによる非監視下のクロスドメイン距離メトリック適応 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6983328
(24)【登録日】2021年11月25日
(45)【発行日】2021年12月17日
(54)【発明の名称】特徴転送ネットワークによる非監視下のクロスドメイン距離メトリック適応
(51)【国際特許分類】
   G06T 7/00 20170101AFI20211206BHJP
   G06N 20/00 20190101ALI20211206BHJP
【FI】
   G06T7/00 350B
   G06N20/00 130
   G06N20/00 160
【請求項の数】18
【全頁数】18
(21)【出願番号】特願2020-540434(P2020-540434)
(86)(22)【出願日】2019年5月7日
(65)【公表番号】特表2021-513698(P2021-513698A)
(43)【公表日】2021年5月27日
(86)【国際出願番号】US2019031006
(87)【国際公開番号】WO2019221965
(87)【国際公開日】20191121
【審査請求日】2020年7月21日
(31)【優先権主張番号】62/672,567
(32)【優先日】2018年5月16日
(33)【優先権主張国】US
(31)【優先権主張番号】16/400,429
(32)【優先日】2019年5月1日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【弁理士】
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【弁理士】
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ソン、 キヒョク
(72)【発明者】
【氏名】チャンドラカー、 マンモハン
(72)【発明者】
【氏名】ユ、 シアン
【審査官】 千葉 久博
(56)【参考文献】
【文献】 国際公開第2012/154657(WO,A2)
【文献】 韓国公開特許第10−2018−0038169(KR,A)
【文献】 Hongyu Xu, 外3名,"Cross-Domain Visual Recognition via Domain Adaptive Dictionary Learning",Computer Vision and Pattern Recognition,2018年04月16日,p.1-14
【文献】 Taeksoo Kim,"Learning to Discover Cross-Domain Relations with Generative Adversarial Networks",ICML'17:Proceedings of the 34th International Conference on Machine Learning,第70巻,2017年08月06日,p.1857-1865
【文献】 Yaniv Taigman, 外2名,"Unsupervised Cross-Domain Image Generation",Computer Vision and Pattern Recognition,2016年11月07日,p.1-14
【文献】 Peixi Peng, 外6名,"Unsupervised Cross-Dataset Transfer Learning for Person Re-identification",2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016年06月27日,p.1306-1315
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
顔認識を向上させるための特徴転送ネットワークを備えた非監視下のクロスドメイン距離メトリック適応フレームワークを実行するための方法であって、
ラベル付けされたソースデータに関連するソースドメインと、ラベル付けされていないターゲットデータに関連するターゲットドメインとに基づいて、特徴転送ネットワークを再帰的にトレーニングすることと、クラスタリング方法を使用してターゲットドメインデータを自動的にラベル付けすることと、を含み、
前記特徴転送ネットワークをトレーニングすることは、
ソース拡張された特徴とターゲットの特徴とを識別するようにトレーニングされる第1のドメイン識別器に対応する目的関数およびソースの特徴と、前記ソース拡張された特徴と前記ターゲットの特徴との混合とを識別するようにトレーニングされる第2のドメイン識別器に対応する目的関数をトレーニングすることを含む前記第1のドメイン識別器および前記第2のドメイン識別器をトレーニングすることと、
特徴生成器に対応する目的関数および特徴変換器に対応する目的関数をトレーニングすることを含む前記第1および第2のドメイン識別器に基づいて、前記特徴生成器および前記特徴変換器をトレーニングすることと、を含み、
顔認識タスクを実行するために前記特徴転送ネットワークおよび前記自動的にラベル付けすることを実行すること、を含む方法。
【請求項2】
前記特徴生成器をトレーニングすることは、前記ソースの特徴および前記ソース拡張された特徴の両方からの検証損失、前記第2のドメイン識別器を経由したドメイン分離損失、および前記第1のドメイン識別器を経由したドメイン敵対的損失を含み、
前記特徴変換器をトレーニングすることは、前記第2のドメイン識別器を経由した検証損失およびドメイン分離損失を含む、請求項に記載の方法。
【請求項3】
前記特徴生成器および前記特徴変換器をトレーニングすることは、前記特徴生成器に関連する検証損失に対応する目的関数をトレーニングすることと、前記特徴変換器に関連する検証損失に対応する目的関数をトレーニングすることとをさらに含む、請求項1に記載の方法。
【請求項4】
前記特徴生成器および前記特徴変換器をトレーニングすることは、前記特徴生成器から抽出された特徴と、前記ラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワークとの間の特徴再構成の損失に対応する目的関数をトレーニングすることをさらに含む、請求項1に記載の方法。
【請求項5】
前記特徴生成器および前記特徴変換器をトレーニングすることは、マルチクラスエントロピーの最小化損失に対応する目的関数をトレーニングすることをさらに含む、請求項1に記載の方法。
【請求項6】
前記自動的にラベル付けすることは、ノイズ法によるアプリケーションの階層的密度ベースの空間クラスタリングを実行することを含む、請求項に記載の方法。
【請求項7】
一緒に具現化されたプログラム命令を有する非一時的なコンピュータ読み取り可能な記憶媒体に記憶されたコンピュータプログラムであって、前記プログラム命令は、顔認識を向上させるための特徴転送ネットワークを備えた非監視下のクロスドメイン距離メトリック適応フレームワークを実行する方法をコンピュータによって実行可能なものであり、前記コンピュータによって実行される方法は、
ラベル付けされたソースデータに関連するソースドメインと、ラベル付けされていないターゲットデータに関連するターゲットドメインとに基づいて、特徴転送ネットワークを再帰的にトレーニングすることと、クラスタリング方法を使用してターゲットドメインデータを自動的にラベル付けすることとを含み、
前記特徴転送ネットワークをトレーニングすることは、
ソース拡張された特徴とターゲットの特徴とを識別するようにトレーニングされる第1のドメイン識別器に対応する目的関数およびソースの特徴と、前記ソース拡張された特徴と前記ターゲットの特徴との混合とを識別するようにトレーニングされる第2のドメイン識別器に対応する目的関数をトレーニングすることを含む前記第1のドメイン識別器および前記第2のドメイン識別器をトレーニングすることと、
特徴生成器に対応する目的関数および特徴変換器に対応する目的関数をトレーニングすることを含む前記第1および第2のドメイン識別器に基づいて、前記特徴生成器および前記特徴変換器をトレーニングすることと、を含み、
顔認識タスクを実行するために前記特徴転送ネットワークおよび前記自動的にラベル付けすることを実行すること、を含む方法。
【請求項8】
前記特徴生成器をトレーニングすることは、前記ソースの特徴および前記ソース拡張された特徴の両方からの検証損失、前記第2のドメイン識別器を経由したドメイン分離損失、および前記第1のドメイン識別器を経由したドメイン敵対的損失を含み、
前記特徴変換器をトレーニングすることは、前記第2のドメイン識別器を経由した検証損失およびドメイン分離損失を含む、請求項に記載のコンピュータプログラム。
【請求項9】
前記特徴生成器および前記特徴変換器をトレーニングすることは、前記特徴生成器に関連する検証損失に対応する目的関数をトレーニングすることと、前記特徴変換器に関連する検証損失に対応する目的関数をトレーニングすることとをさらに含む、請求項に記載のコンピュータプログラム。
【請求項10】
前記特徴生成器および前記特徴変換器をトレーニングすることは、前記特徴生成器から抽出された特徴と、前記ラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワークとの間の特徴再構成の損失に対応する目的関数をトレーニングすることをさらに含む、請求項に記載のコンピュータプログラム。
【請求項11】
前記特徴生成器および前記特徴変換器をトレーニングすることは、マルチクラスエントロピーの最小化損失に対応する目的関数をトレーニングすることをさらに含む、請求項に記載のコンピュータプログラム。
【請求項12】
前記自動的にラベル付けすることは、ノイズ法によるアプリケーションの階層的密度ベースの空間クラスタリングを実行することを含む、請求項に記載のコンピュータプログラム。
【請求項13】
顔認識を向上させるための特徴転送ネットワークを備えた非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのシステムであって、
プログラムコードを記憶するための記憶装置と、
記憶装置に動作可能に結合され、前記記憶装置に記憶されたプログラムコードを実行し、
ラベル付けされたソースデータに関連するソースドメインと、ラベル付けされていないターゲットデータに関連するターゲットドメインとに基づいて、特徴転送ネットワークを再帰的にトレーニングし、クラスタリング方法を使用してターゲットドメインデータを自動的にラベル付けするように構成された少なくとも1つのプロセッサ装置とを含み、前記少なくとも1つのプロセッサ装置は、
ソース拡張された特徴とターゲットの特徴とを識別するようにトレーニングされる第1のドメイン識別器に対応する目的関数およびソースの特徴と、前記ソース拡張された特徴と前記ターゲットの特徴との混合とを識別するようにトレーニングされる第2のドメイン識別器に対応する目的関数をトレーニングすることを含む前記第1のドメイン識別器および前記第2のドメイン識別器をトレーニングし、
特徴生成器に対応する目的関数および特徴変換器に対応する目的関数をトレーニングすることを含む前記第1および第2のドメイン識別器に基づいて、前記特徴生成器および前記特徴変換器をトレーニングすることによって、前記特徴転送ネットワークをトレーニングするように構成されており、
前記少なくとも1つのプロセッサ装置は、顔認識タスクを実行するために前記特徴転送ネットワークおよび前記自動的にラベル付けすることを実行する、システム。
【請求項14】
前記少なくとも1つのプロセッサ装置は、さらに、前記ソースの特徴および前記ソース拡張された特徴の両方からの検証損失、前記第2のドメイン識別器を経由したドメイン分離損失、および前記第1のドメイン識別器を経由したドメイン敵対的損失によって、前記特徴生成器をトレーニングするように構成され、
前記少なくとも1つのプロセッサ装置は、さらに、前記第2のドメイン識別器を経由した検証損失およびドメイン分離損失によって、前記特徴変換器をトレーニングするように構成されている、請求項1に記載のシステム。
【請求項15】
前記少なくとも1つのプロセッサ装置は、さらに、前記特徴生成器に関連する検証損失に対応する目的関数をトレーニングすること、および前記特徴変換器に関連する検証損失に対応する目的関数をトレーニングすることによって、前記特徴生成器および前記特徴変換器をトレーニングするように構成されている、請求項1に記載のシステム。
【請求項16】
前記少なくとも1つのプロセッサ装置は、さらに、前記特徴生成器から抽出された特徴と、前記ラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワークとの間の特徴再構成の損失に対応する目的関数をトレーニングすることによって、前記特徴生成器および前記特徴変換器をトレーニングするように構成されている、請求項1に記載のシステム。
【請求項17】
前記少なくとも1つのプロセッサ装置は、さらに、マルチクラスエントロピーの最小化損失に対応する目的関数をトレーニングすることによって、前記特徴生成器および前記特徴変換器をトレーニングするように構成されている、請求項1に記載のシステム。
【請求項18】
前記自動的にラベル付けすることは、ノイズ法によるアプリケーションの階層的密度ベースの空間クラスタリングを実行することを含む、請求項1に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願情報)
本出願は、2018年5月16日に出願された仮出願シリアル番号62/672,567、および2019年5月1日に出願された米国特許出願シリアル番号16/400,429の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
本発明は、人工知能及び機械学習に関し、特に顔認識技術に関する。
【背景技術】
【0003】
顔分析エンジンのグローバル化は、一般に、認識エンジンのトレーニング時の監視下の情報に大きく依存する。すなわち、顔分析エンジンを新しい民族性ドメインに適応させるために、民族性ドメインに関連する母集団の大規模な顔データを収集し、関心のあるタスク(例えば、顔識別、ならびに性別予測および年齢推定)に関して収集されたデータに注釈を付ける必要があり得る。
【発明の概要】
【0004】
本発明の一態様によれば、顔認識を向上させるための特徴転送ネットワークを備えた非監視下のクロスドメイン距離メトリック適応フレームワークを実行するための方法が提供される。その方法は、ラベル付けされたソースデータに関連するソースドメインと、ラベル付けされていないターゲットデータに関連するターゲットドメインとに基づいて、特徴転送ネットワークを再帰的にトレーニングすることと、クラスタリング方法を使用してターゲットドメインデータを自動的にラベル付けすることとを含む。前記特徴転送ネットワークをトレーニングすることは、ソース拡張された特徴とターゲットの特徴とを識別するようにトレーニングされる第1のドメイン識別器に対応する目的関数およびソースの特徴と、前記ソース拡張された特徴と前記ターゲットの特徴との混合とを識別するようにトレーニングされる第2のドメイン識別器に対応する目的関数をトレーニングすることを含む前記第1のドメイン識別器および前記第2のドメイン識別器をトレーニングすることと、特徴生成器に対応する目的関数および特徴変換器に対応する目的関数をトレーニングすることを含む前記第1および第2のドメイン識別器に基づいて、前記特徴生成器および前記特徴変換器をトレーニングすることと、を含む。その方法は、さらに、顔認識タスクを実行するために前記特徴転送ネットワークおよび前記自動的にラベル付けすることを実行することを含む。
【0005】
本発明の別の実施形態によれば、顔認識を向上させるための特徴転送ネットワークを備えた非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのシステムが提供される。そのシステムは、プログラムコードを記憶するための記憶装置と、前記記憶装置に動作可能に結合された少なくとも1つのプロセッサ装置とを含む。前記少なくとも1つのプロセッサ装置は、ラベル付けされたソースデータに関連するソースドメインと、ラベル付けされていないターゲットデータに関連するターゲットドメインとに基づいて、特徴転送ネットワークを再帰的にトレーニングし、クラスタリング方法を使用してターゲットドメインデータを自動的にラベル付けするために前記記憶装置に記憶されたプログラムコードを実行するように構成されている。前記少なくとも1つのプロセッサ装置は、ソース拡張された特徴とターゲットの特徴とを識別するようにトレーニングされる第1のドメイン識別器に対応する目的関数およびソースの特徴と、前記ソース拡張された特徴と前記ターゲットの特徴との混合とを識別するようにトレーニングされる第2のドメイン識別器に対応する目的関数をトレーニングすることを含む前記第1のドメイン識別器および前記第2のドメイン識別器をトレーニングすること、および特徴生成器に対応する目的関数および特徴変換器に対応する目的関数をトレーニングすることを含む前記第1および第2のドメイン識別器に基づいて、前記特徴生成器および前記特徴変換器をトレーニングすることによって、前記特徴転送ネットワークをトレーニングするように構成されている。前記少なくとも1つのプロセッサ装置は、顔認識タスクを実行するために前記特徴転送ネットワークおよび前記自動的にラベル付けすることを実行するように構成されている。
【0006】
これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0007】
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
図1】本発明の一実施形態による、顔認識を向上させるための特徴転送ネットワークを有する非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのシステムの概要のブロック/フロー図である。
図2】本発明の一実施形態による、顔認識を向上させるための特徴転送ネットワークを有する非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのトレーニングフレームワークの概要のブロック/フロー図である。
図3】本発明の一実施形態による、顔認識を向上させるための特徴転送ネットワークを有する非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのシステム/方法のブロック/フロー図である。
図4】システムの例示的な実装を示すブロック図である。
図5】本発明の一実施形態によるコンピュータシステムを示すブロック/フロー図である。
【発明を実施するための形態】
【0008】
本明細書で説明される実施形態は、顔認識を向上するための特徴転送ネットワークを備えたクロスドメイン距離メトリック適応フレームワークを実行するためのシステムおよび方法を提供する。本明細書で説明される実施形態は、ソースドメインおよびターゲットドメインのラベル空間が互い共通部分を持たない状況に適用することができる。より具体的には、特徴転送ネットワークは、統一されたフレームワークにおける共同ドメイン敵対者およびドメイン分離トレーニングを可能にするために、拡張されたソースドメインの埋め込み空間を生成することができる。特徴再構成損失、分類損失、ドメイン敵対的損失、およびドメイン分離損失を含むことができる一連のトレーニング目標を導入して、特徴転送ネットワークをトレーニングすることができる。
【0009】
本明細書で説明される実施形態は、ソースドメインが豊富なラベル付けされたトレーニングデータを有し、ターゲットドメインが豊富なラベル付けされていないトレーニングデータを有する場合に、分類および距離メトリック学習のためのドメイン適応フレームワークを提供することができる。例えば、本明細書で説明される実施形態は、例えば、異民族年齢推定などのタスクのための補助分類モジュールを有するドメイン適応フレームワークを提供する。
【0010】
ここで、同様の数字が同一または類似の要素を表す図面を詳細に参照し、最初に図1を参照すると、顔認識を向上させるための特徴転送ネットワークを備えた、非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのシステム100の高レベルの概要を示すブロック/フロー図が提供される。
【0011】
図示のように、システム100は、特徴転送ネットワーク(FTN)サブシステム102および自動的にラベル付けするサブシステム104を含むことができる。トレーニングフレームワークは、FTNサブシステム102に関してFTNを再帰的または反復的に達成し、自動的にラベル付けするサブシステム104に関してトレーニングされたFTNを使用してデータを自動的にラベル付けすることによって達成することができる。FTNのトレーニングをすること、および自動的にラベル付けすることは、顔認識を実行するためにニューラルネットワーク内で実行することができる。
【0012】
FTNサブシステム102は、ソースドメイン110およびターゲットドメイン120を含むことができる。ソースドメイン110は、ラベル付けされた例を含むラベル付けされたドメインであってもよく、ターゲットドメイン120は、ラベル付けされていない例を含むラベル付けされてないドメインであってもよい。例示的な実施形態では、ソースドメイン110およびターゲットドメイン120は、それぞれの民族に対応することができる。例えば、ソースドメイン110は、ソース民族に対応することができ、ターゲットドメイン120は、ターゲット民族に対応することができる。
【0013】
システム100は、検証タスクを実行するために使用することができる。より具体的には、検証タスクは、ソースドメイン110、ターゲットドメイン120にわたって共有されるバイナリ分類タスクを含むことができ、これは、一対の画像を入力として取得し、画像の対が同一の身元を共有した場合には「1」のラベルを予測し、そうでない場合には「0」のラベルを予測する。検証タスクの目的は、ソースドメイン110およびターゲットドメイン120の何れかから引き出された2つ不特定のサンプルが同じクラスに属するかどうかを検証することである(2つのランダムサンプルが先験的にどちらの分布に由来するかは不明である)。
【0014】
ソースドメイン110をXとし、ターゲットドメイン120をXとし、2つの不特定のサンプルをxおよびx’とする。対を構成する3つの状況、(1)x、x’∈X;(2)x、x’∈X;および(3)x∈X、x’∈Xがある。状況(1)と(2)はメイン内検証と呼ばれ、状況(3)はクロスドメイン(またはドメイン間)検証と呼ばれる。
【0015】
ドメイン内検証状況では、ソース(またはターゲット)ドメイン分類子が必要な場合がある。ソースドメイン110については、適切にラベル付けされたトレーニング例が提供され、有能な分類子を学習することができる。ターゲットドメイン120については、ラベル付けされていないトレーニング例のみが提供される。しかしながら、分類子の識別力は、XxXおよびXxXの表現空間を適応させることによって、ターゲットドメイン120に転送することができる。すなわち、ソースドメイン110からの同じ有能な分類子を使用して、2つのドメインが良好に整列している場合にターゲットドメイン対を検証することができる。クロスドメイン検証状況では、2つのサンプルxおよびx’が同じクラスであることはないと仮定することができ、これは、例えば、異民族顔検証問題などの問題に当てはまる。
【0016】
上述のドメイン内検証状況およびクロスドメイン検証状況の両方を処理するために、FTNサブシステム102は、FTNコンポーネント130をさらに含むことができる。FTNコンポーネント130は、ソースドメイン110のソースの特徴からターゲットドメイン120のターゲットの特徴を分離すると同時に、特徴を、変換されたソースの特徴の補助ドメインと合わせることができる。例えば、FTNコンポーネント130は、複数のモジュールを含むことができる。より具体的には、FTNコンポーネント130は、特徴生成モジュールおよび特徴変換モジュールを含むことができる。
【0017】
さらに示されるように、FTNコンポーネント130の出力は、検証コンポーネント140、エントロピー最小化コンポーネント150、およびドメイン識別器160のそれぞれへの入力として受信される。
【0018】
自動的にラベル付けするサブシステム104において、ターゲット画像170は、自動的にラベル付けするためにターゲットドメイン120への入力として提供され得る。
【0019】
システム100の実行に関するさらなる詳細は、図2−3を参照して以下に記載される。
【0020】
図2を参照すると、特徴転送ネットワーク(FTN)を再帰的または反復的にトレーニングし、トレーニングされたFTNを使用してデータを自動的にラベル付けするトレーニングフレームワーク全体の例示的なシステム/方法200を示すブロック/フロー図が提供されている。システム/方法200は、顔認識を向上させるための特徴転送ネットワークを用いて、非監視のクロスドメイン距離メトリック適応フレームワークを実行するために、システム100内で実行することができる。
【0021】
システム/方法200は、ドメイン識別器D1およびD2のトレーニングプロトコルに対応するセクション210と、特徴生成器fおよび特徴変換器gのトレーニングに対応するセクション230と、自動的にラベル付けするプロトコルに対応するセクション250とを含む。自動的にラベル付けすることを実行するために、セクション250は、擬似ラベルを提供するためのターゲットの例のクラスタリングを実行することができる。例えば、セクション250は、トレーニングされた特徴ネットワークの特徴表現を用いたノイズ(DBSCAN)法によるアプリケーションの密度に基づいた空間クラスタリングを実行することができる。より具体的には、セクション250は、階層的クラスタリングを実行することができる。例えば、セクション250は、階層的DBSCAN(HDBSCAN)法を実行することができる。
【0022】
セクション210および230は、ラベル付けされていないソースおよびターゲットの例を使用して、識別器の間、特徴生成器fおよび特徴変換器gの間のFTNの双方向トレーニングに集合的に対応する。さらに詳細に説明するように、特徴変換器gは、ドメイン敵対的損失(D1を介する)およびドメイン分離損失(D2を介する)との共同最適化を可能にすることができる。
【0023】
f:X→Zとして表される特徴生成器fは、XSおよびXTを区別可能な表現空間f(XS)およびf(XT)にマッピングすることができる。ドメイン分離目的関数(例えば、損失関数)、Lsepは、この分離を達成するために使用される。ここで、「ドメイン分離」という語は、表現空間がドメイン定義(例えば、ソースまたはターゲット)に関して分離可能であることを示す。
【0024】
特徴変換器gは、g:Z→Zとして表すことができ、f(XS)をf(XT)との位置合わせのためg(f(XS))に変換することができる。ドメイン敵対的目的関数、Ladvは、位置合わせを達成するために使用される。ここで、「ドメイン分離」という語は、表現空間がドメイン定義(例えば、ソースまたはターゲット)に関して分離可能であることを示す。
【0025】
ドメイン位置合わせのためのドメイン敵対的目的関数は、D1によって変換されたソースドメインとターゲットドメインとの間に適用することができ、D2によってターゲットドメインと変換されたソースドメインとの両方からソースドメインを区別するためにLsepを適用することができる。検証目的関数は、ソース対f(XS)に適用することができ、分類子を使用してソース対g(f(XS))に変換することができる。例えば、分類子は、分類子hf、hg:ZxZ→{0,1}を含むことができる。
【0026】
試験中、f(x)とf(x’)との間の適応距離が比較され得る。以下の所望の能力が達成され得る:
1.xおよびx’は異なるドメインのものである場合、f(x)およびf(x’)は、特徴生成モジュールの機能性のために遠く離れている;
2.x,x’∈XS、それらが同じ分類に属する場合、f(x)およびf(x’)は、近く、そうでなければ、hfの最適化から得られる識別力のため遠く離れている、そして
3.x,x’∈XT、そして、f(x)およびf(x’)の場合、そして、それらが同じ分類に属する場合、f(x)およびf(x’)は近く、そうでなければ、hgの最適化から得られる識別力のため遠く離れている。
【0027】
より具体的には、ドメイン識別器D1およびD2をトレーニングするためのサブセクション212から220までを含むセクション210が示されている。識別器D2は、ソースの特徴と、ソース拡張された特徴とターゲットの特徴との混合とを識別するようにトレーニングされる。さらに、識別器D1は、ソース拡張された特徴とターゲット特徴とを識別するようにトレーニング訓練される。
【0028】
サブセクション212および214は、識別器D2、LD2に対応する目的関数(損失関数)をトレーニングするために出力を生成する。より具体的には、サブセクション212および214は、ソースドメインに対応し、また、サブセクション216は、ターゲットドメインに対応する。実例として、LD2は、以下のようにトレーニングすることができ、ここで、Eは、期待または期待値を示す:
【0029】
【数1】
ここで、Ex∈XSlogD2(f(x),1)は、サブセクション212の出力、Ex∈XSlogD2(g(f(x)),2)は、サブセクション214の出力、Ex∈XTlogD2(f(x),2)は、サブセクション216の出力である
【0030】
サブセクション218および220は、識別子D1,LD1に対応する目的関数(例えば、損失関数)をトレーニングするための出力を生成する。より具体的には、サブセクション218はソースドメインに対応し、サブセクション220はターゲットドメインに対応する。実例として、LD1は、以下のようにトレーニングすることができる:
【0031】
【数2】
ここで、Ex∈XSlogD1(g(f(x)),1)は、サブセクション218の出力、Ex∈XTlogD1(f(x),2)は、サブセクション220の出力である。
【0032】
セクション230は、特徴生成器fおよび特徴変換器gのトレーニングプロトコルを提供する。図示のように、セクション230は、複数のサブセクション232〜246を含むことができ、サブセクション232、234、236、242、および244は、ソースドメインに対応し、サブセクション238、240、および246は、ターゲットドメインに対応する。
【0033】
より具体的には、セクション230は、特徴変換器g、Lgに対応する目的関数(例えば、損失関数)、特徴生成器f、Lfに対応する目的関数(例えば、損失関数)、特徴生成器(f)から抽出された特徴と、参照ネットワーク(ref)、Lreconとの間の特徴再構成の損失に対応する目的関数(例えば、損失関数)、およびマルチクラスエントロピーの最小化損失、Lentropyに対応する目的関数(例えば、損失関数)をトレーニングすることができる。セクション230において目的関数をトレーニングする目的で、サブセクション234は、サブセクション212と同じまたは類似の出力を生成することができ、サブセクション236は、サブセクション214と同じまたは類似の出力を生成することができ、サブセクション238は、サブセクション216と同じまたは類似の出力を生成することができる。ここで、セクション230によってトレーニングされた目的関数に関するさらなる詳細を以下に説明する。
【0034】
gは、識別器D2を介した検証損失およびドメイン分離損失によってトレーニングすることができる。実例として、Lgは、以下のようにトレーニングされ得る:
【0035】
【数3】
ここで、Lvrf はラベル付けされた画像の対の間の検証損失に対応する目的関数(例えば、損失関数)を指し、λ2はD2に関する検証損失と敵対的損失のバランスを取るハイパーパラメータを指す。ここで使用される「ハイパーパラメータ」とは、ユーザによって定義される正規則化係数(例えば、非負の実数)を指す。例えば、Ex∈XSlogD2(g(f(x)),2)は、サブセクション236によって生成され、Lvrf(g)は、サブセクション244によって生成される。Lvrfのトレーニングの実例を以下に提供する。
【0036】
fは、ソースおよびソース拡張された特徴の双方からの検証損失、識別器D2を介したドメイン分離損失、およびD1を介したドメイン敵対的損失によってトレーニングすることができる。実例として、Lfは、以下のようにトレーニングすることができる:
【0037】
【数4】
ここで、λ1は、D1に関する検証損失と敵対的損失とのバランスを取るハイパーパラメータを指す。例えば、Lvrf(f)はサブセクション242によって生成され、Lvrf(g)はサブセクション244によって生成され、Ex∈XTlogD1(f(x),1)はサブセクション246によって生成される。
【0038】
使用されるLvrf(f)は、以下のようにトレーニングすることができる:
【0039】
【数5】
ここで、yijは、例えば、xiおよびxjの正解検証ラベルを指し(例えば、xiおよびxjが同じ特徴(例えば、同じ顔の人物)を表す場合にはyij=1、そうでなければyij=0)、σは、シグモイド関数(例えば、σa=1/1+e-a)を指し、f(xiTは、ベクトルf(xi)の転置を指す。Lvrf(f)は、より速い収束と改善された性能のために、N対の距離メトリック損失に拡張できる。Lvrf(g)も同様にトレーニングすることができる。
【0040】
reconは、特徴生成器fから抽出された特徴と、難しい敵対的トレーニングを安定化するためにラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワーク(ref)との間の特徴再構成の損失に対応することができる。実例として、Lreconは、以下のようにトレーニングすることができる:
【0041】
【数6】
ここで、fref(x)は参照ネットワークfrefを使用した入力xの表現を指し、λ3およびλ4はハイパーパラメータを指す。例えば、Ex∈XS||f(x)−fref(x)||22は、サブセクション232によって生成することができ、Ex∈XT||f(x)−fref(x)||22は、サブセクション240によって生成することができる。
【0042】
entropyは、階層的クラスタリングによって検索された擬似ラベルを使用することができる。実例として、Lentropyは、以下のようにトレーニングすることができる:
【0043】
【数7】
【0044】
【数8】
ここで、x+nは、xnの正の例を指す(例えば、xnおよびx+nは、同じ身元部類からの顔画像である)。
【0045】
図3を参照すると、顔認識を向上させるための特徴転送ネットワークを用いて非監視下のクロスドメイン距離メトリック適応フレームワークを実行するためのシステム/方法300を示すブロック/フロー図が提供されている。
【0046】
ブロック310で、ソースドメインおよびターゲットドメインが取得される。ソースドメインは、ラベル付けされたソースデータ(例えば、ラベル付けされたソース例)と関連付けることができ、一方、ターゲットドメインは、ラベル付けされていないターゲットデータ(例えば、ラベル付けされていない例)と関連付けることができる。ソースドメインおよびターゲットドメインは、顔認識を実行する目的で取得することができる。例えば、実例では、ソースドメインおよびターゲットドメインは、顔認識のためのそれぞれの民族に対応することができ、ソースドメインは、ソース民族に対応することができ、ターゲットドメインは、ターゲット民族に対応することができる。
【0047】
ソースドメインとターゲットドメインは、検証タスクを実行するために提供される。より具体的には、検証タスクは、一対の画像を入力として取得し、一対の画像が同じ身元を共有する場合には「1」のラベルを予測し、そうでなければ「0」のラベルを予測する、ソースドメインおよびターゲットドメインにわたって共有されるバイナリ分類タスクを含むことができる。検証タスクの目的は、ソースドメインおよびターゲットドメインの何れかから引き出された2つのランダムサンプルが同じ部類に属するかどうかを検証することである(2つのランダムサンプルが先験的にどちらの分布に由来するかは不明である)。
【0048】
ブロック320において、特徴転送ネットワーク(FTN)は、ソースドメインおよびターゲットドメインに基づいてトレーニングされる。
【0049】
例えば、FTNをトレーニングすることは、ブロック322において、第1のドメイン識別器および第2のドメイン識別器をトレーニングすることを含むことができる。第1のドメイン識別器および第2のドメイン識別器をトレーニングすることは、第1の識別器に対応する目的関数をトレーニングすることと、第2の識別器に対応する第2の目的関数をトレーニングすることとを含むことができる。第1のドメイン識別器は、ソース拡張された特徴とターゲットの特徴とを識別するようにトレーニングすることができ、第2のドメイン識別器は、ソースの特徴と、ソース拡張された特徴とターゲットの特徴との混合とを識別するようにトレーニングすることができる。ブロック322に関するさらなる詳細は、図2(例えば、システム/方法200のセクション210)を参照して上述されている。
【0050】
FTNをトレーニングするステップは、ブロック324において、第1および第2のドメイン識別器に基づいて、特徴生成器および特徴変換器をトレーニングすることをさらに含むことができる。特徴生成器は、第1のドメイン識別器を介したドメイン敵対的損失と、第2のドメイン識別器を介したドメイン分離損失との共同最適化を可能にすることができる。
【0051】
特徴生成器および特徴変換器のトレーニングは、特徴変換器に対応する目的関数のトレーニング、および特徴生成器に対応する目的関数のトレーニングを含むことができる。より具体的には、特徴生成器のトレーニングは、ソースおよびソース拡張された特徴の両方からの検証損失、第2のドメイン識別器を介したドメイン分離損失、および第1のドメイン識別器を介したドメイン敵対的損失を含むことができる。特徴変換器のトレーニングは、第2のドメイン識別器を介した検証損失およびドメイン分離損失を含むことができる。
【0052】
一実施形態では、特徴生成器および特徴変換器をトレーニングすることは、特徴生成器に関連する検証損失に対応する目的関数をトレーニングすることと、特徴変換器に関連する検証損失に対応する目的関数をトレーニングすることと、をさらに含むことができる。特徴生成器に対応する目的関数は、特徴生成器に関連する検証損失に対応する目的関数の一部に基づいてトレーニングすることができ、特徴変換器に対応する目的関数は、特徴変換器に関連する検証損失に対応する目的関数の一部に基づいてトレーニングすることができる。検証損失は、より速い収束と改善された性能のためにN対の距離メトリック損失に拡張され得る。
【0053】
一実施形態では、特徴生成器および特徴変換器をトレーニングすることは、特徴生成器から抽出された特徴と、難しい敵対的トレーニングを安定化するためにラベル付けされたソースデータを使用して事前トレーニングされた参照ネットワークとの間の特徴再構成の損失に対応する目的関数をトレーニングすることをさらに含むことができる。例えば、特徴再構成の損失に対応する目的関数は、参照ネットワークを用いてソースドメインおよびターゲットドメインからの例の表現に基づいてトレーニングすることができる。
【0054】
一実施形態では、特徴生成器および特徴変換器をトレーニングすることは、さらに、マルチクラスエントロピーの最小化損失に対応する目的関数をトレーニングすることを含むことができる。マルチクラスエントロピーの最小化損失に対応する目的関数は、クラスタリングによって(例えば、以下でさらに詳細に説明するように、ブロック330から)検索されたラベル(例えば、擬似ラベル)を使用することができる。例えば、マルチクラスエントロピーの最小化損失に対応する目的関数は、ターゲットドメインからのそれぞれの例の正の例に基づいてトレーニングすることができる。
【0055】
ブロック324に関するさらなる詳細は、図2(例えば、システム/方法200のセクション230)を参照して上述される。
【0056】
ブロック330で、クラスタリング方法を使用して、ターゲットドメインデータの自動的にラベル付けすることがトレーニングされる。例えば、ターゲットドメインに対応するターゲットの例は、自動的にラベル付けをすることができる。ターゲットの例は、例えば、ターゲット画像を含むことができる。
【0057】
ターゲットの例に自動的にラベル付けすることは、ターゲットドメインのクラス構造を自動的に発見するために擬似ラベルを提供するターゲットの例のクラスタリングを含むことができる。例えば、ターゲットの例をクラスタリングすることは、トレーニングされた特徴ネットワークの特徴表現によって、ノイズ(DBSCAN)法によるアプリケーションの密度ベースの空間クラスタリングを実行することを含むことができる。より具体的には、ターゲットの例のクラスタリングは、階層的クラスタリングの実行を含むことができる。例えば、ターゲットの例のクラスタリングは、階層型DBSCAN(HDBSCAN)法の実行を含むことができる。
【0058】
示されるように、特徴転送ネットワークのトレーニングおよび自動的にラベル付けすることは、再帰的または反復的であり得る。より具体的には、ブロック320におけるトレーニングの出力は、ブロック330における自動的にラベル付けすることをトレーニングするための入力として提供され、ブロック330におけるトレーニングの出力は、ブロック320における特徴転送ネットワークをトレーニングするための入力として提供される。
【0059】
ブロック340において、顔認識タスクを実行するために、特徴転送ネットワークおよび自動的にラベル付けすることが実行され得る。例えば、特徴転送ネットワークのトレーニングおよび自動的にラベル付けすることは、顔の検証および識別、性別予測、年齢推定などの顔分析エンジンのグローバル化に適用することができる。特徴転送ネットワークのトレーニングおよび自動的にラベル付けすることは、異なる民族のターゲットドメインに対する顔分析エンジンの一般化能力を改善することができ、ターゲットドメインからの直接的なタスク固有の監視なしに、異なる民族にわたる顔認識、性別、予測、年齢推定などを達成することができる。さらに、特徴転送ネットワークのトレーニングおよび自動的にラベル付けすることは、顔分析エンジンの一般化能力を改善するために、ターゲットドメインからのラベリル付けされたデータを利用することによって、データ注釈の開発コストを低減することができる。
【0060】
システム/方法300は、特徴変換器を介してソース拡張された埋め込み空間を導入し、特徴変換器は、ラベル付けされたソースデータおよびラベル付けされていないターゲットデータを使用して顔認識タスクを実行するためのドメインの敵対する、およびドメインの分離する統一された学習フレームワークを可能にする。特徴転送ネットワーク学習および自動クラス構造発見のシステム/方法300の再帰的または反復的トレーニングのフレームワークは、ラベル付けされていないターゲットデータの迅速かつ正確なラベル付けおよび特徴表現の改善された品質を可能にすることができる。したがって、システム/方法300は、潜在的に高価なデータ注釈プロセスをバイパスしながら、顔認識システムの効率的な展開を可能にすることができる。
【0061】
システム/方法300は、1つまたは複数のソースドメインからの情報に基づいて、顔分析システムを1つまたは複数の新しいターゲットドメインに適応させることによって、顔分析システムをグローバル化するように実行することができる。実例として、民族性に関連するドメインの文脈において、ソース民族性ドメイン(例えば、白人ソースドメイン)は、豊富なラベル付けされたトレーニングデータを含むことができ、しかし一方、少なくとも1つのターゲット民族性ドメイン(例えば、非白人ターゲットドメイン)は、豊富なラベル付けされていないターゲットデータを含むことができる。この実例における可能な標的ドメインの例は、アフリカ系アメリカ人、東アジア人、南アジア人、ヒスパニック人などを含むことができるが、これらに限定されない。次に、図4を参照して、この実施形態の実例を説明する。
【0062】
図4を参照すると、例示的なシステム400を示す図が提供されている。システム400は、少なくとも1つの顔画像収集装置410と、少なくとも1つのネットワーク430と通信する少なくとも1つの処理装置420とを含むことができる。装置410は、顔画像データを収集するように構成された任意の適切な装置(例えば、カメラ)を含むことができる。例えば、図示のように、装置410は、少なくとも1人のユーザ440から顔画像を収集することができる。
【0063】
処理装置420は、関心のあるタスクに関して顔画像に注釈を付けるように構成された顔分析エンジンを含むことができる。いくつかの実施形態では、顔分析エンジンは、さらに、注釈付き顔画像に基づいて関心のあるタスクを実行するように構成することができる。例えば、装置410によって収集された顔画像は、関心のあるタスクを実行するために、少なくとも1つのネットワーク430を介して処理装置420によって取得され得る。処理デバイス420によって実行することができるタスクの例は、識別、性別予測、年齢推定などが含まれるが、これらに限定されない。
【0064】
ユーザ440は、システム400内の新しい民族性ドメインに関連付けることができ、処理装置420の顔分析エンジンは、図1−3を参照して上述した実施形態に従って、ユーザ440に関連する民族性ドメインに適合させることができる。
【0065】
本明細書に記載する実施形態は、完全にハードウェアであってもよく、完全にソフトウェアであってもよく、または、ハードウェア要素およびソフトウェア要素の両方を含むものであってもよい。好ましい実施形態では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むがこれらに限定されないソフトウェアで実行される。
【0066】
実施形態は、コンピュータまたは任意の命令実行システムによって、またはそれに関連して使用するプログラムコードを提供する、コンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータプログラム製品を含むことができる。コンピュータ使用可能媒体またはコンピュータ可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを格納、通信、伝搬、または搬送する任意の装置を含むことができる。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体システム(または装置またはデバイス)、または伝搬媒体とすることができる。媒体は、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスクおよび光ディスクなどのコンピュータ読み取り可能な記憶媒体を含むことができる。
【0067】
各コンピュータプログラムは、本明細書に記載する手順を実行するために、記憶媒体または装置がコンピュータによって読み取られるときに、コンピュータの操作を構成し制御するために、汎用または特殊目的のプログラム可能なコンピュータによって読み取り可能な、機械読み取り可能な記憶媒体または装置(例えば、プログラムメモリまたは磁気ディスク)に確実に記憶することができる。本発明のシステムはまた、コンピュータプログラムで構成された、コンピュータ読み取り可能な記憶媒体で具体化されるものと考えることができ、同時に、そのように構成された記憶媒体は、コンピュータを特定の予め決められた方法で動作させて、本明細書に記載する機能を実行させる。
【0068】
プログラムコードを記憶および/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接的または間接的に結合された少なくとも1つのプロセッサを含んでもよい。メモリ要素は、プログラムコードの実際の実行中に採用されるローカルメモリ、バルクストレージ、および実行中にバルクストレージからコードが検索される回数を減らすために少なくとも何らかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力またはI/O装置(キーボード、ディスプレイ、ポインティング装置などを含むが、これらに限定されない)は、直接または介在するI/Oコントローラを介してシステムに結合され得る。
【0069】
介在する専用ネットワークまたは公衆ネットワークを介して、データ処理システムを他のデータ処理システムあるいはリモートプリンタまたは記憶装置に結合できるようにするために、ネットワークアダプタをシステムに結合することもできる。モデム、ケーブルモデム、およびイーサネットカードは、現在使用可能なネットワークアダプタのタイプのほんの一部に過ぎない。
【0070】
ここで図5を参照すると、本発明の一実施形態による、サーバまたはネットワークデバイスを表す例示的なコンピュータシステム500が示されている。コンピュータシステム500は、システムバス502を介して他の構成要素に動作可能に結合された少なくとも1つのプロセッサ(CPU)505を含む。キャッシュ506、リードオンリーメモリ(ROM)508、ランダムアクセスメモリ(RAM)510、入力/出力(I/0)アダプタ520、サウンドアダプタ530、ネットワークアダプタ590、ユーザインタフェースアダプタ550、およびディスプレイアダプタ560は、システムバス502に動作可能に結合される。
【0071】
第1の記憶装置522および第2の記憶装置529は、I/Oアダプタ520によってシステムバス502に動作可能に結合される。記憶装置522および529は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、ソリッドステート磁気装置などの何れかであってもよい。記憶装置522および529は、同じタイプの記憶装置であっても、異なるタイプの記憶装置であってもよい。
【0072】
スピーカ532は、サウンドアダプタ530によってシステムバス502に動作可能に結合することができる。トランシーバ595は、ネットワークアダプタ590によってシステムバス502に動作可能に結合される。ディスプレイ装置562は、ディスプレイアダプタ560によってシステムバス502に動作可能に結合される。
【0073】
第1のユーザ入力装置552、第2のユーザ入力装置559、および第3のユーザ入力装置556は、ユーザインタフェースアダプタ550によってシステムバス502に動作可能に結合される。ユーザ入力装置552、559、および556は、センサ、キーボード、マウス、キーパッド、ジョイスティック、画像キャプチャデバイス、動き検出デバイス、電力測定デバイス、マイク、前述の装置のうちの少なくとも2つの機能を組み込んだ装置などの何れかとすることができる。もちろん、本発明の精神を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置552、559、および556は、同じタイプのユーザ入力装置または異なるタイプのユーザ入力装置とすることができる。ユーザ入力装置552、559、および556は、システム500との間で情報を入出力するために使用される。
【0074】
特徴転送ネットワーク(FTN)構成要素570は、システムバス502に動作可能に結合され得る。FTN構成要素570は、上述の動作のうちの1つまたは複数を実行するように構成される。例えば、FTN構成要素570は、顔分析エンジンの一部として実行することができる。FTN構成要素570は、スタンドアロンの特殊目的のハードウェア装置として実行することも、記憶装置に記憶されたソフトウェアとして実行することもできる。FTN構成要素470がソフトウェア実装される実施形態では、コンピュータシステム500の別個の構成要素として示されているが、FTN構成要素570は、例えば、第1の記憶装置522および/または第2の記憶装置1029に格納することができる。代替的に、FTN構成要素570は、別個の記憶装置(図示せず)に記憶され得る。
【0075】
もちろん、コンピュータシステム500は、当業者によって容易に企図されるように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、種々の他の入力装置および/または出力装置は、当業者によって容易に理解されるように、同一の特定の実行に依存して、コンピュータシステム500に含めることができる。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなども、当業者によって容易に理解されるように利用することができる。コンピュータシステム500のこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられた当業者によって容易に企図される。
【0076】
前述は、あらゆる点で例示としての一例であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許可される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実行することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実行することができる。このように説明された本発明の態様は、特許法によって要求される詳細および特殊性を伴い、特許証によって保護が請求され、望まれるものは、添付の特許請求の範囲に記載されている。
図1
図2
図3
図4
図5