(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-14
(45)【発行日】2022-09-26
(54)【発明の名称】姿勢変動3D顔面属性生成
(51)【国際特許分類】
G06T 7/50 20170101AFI20220915BHJP
G06T 7/80 20170101ALI20220915BHJP
G06T 7/00 20170101ALI20220915BHJP
G06T 15/04 20110101ALI20220915BHJP
【FI】
G06T7/50
G06T7/80
G06T7/00 350C
G06T15/04
(21)【出願番号】P 2021522071
(86)(22)【出願日】2019-11-06
(86)【国際出願番号】 US2019059960
(87)【国際公開番号】W WO2020101960
(87)【国際公開日】2020-05-22
【審査請求日】2021-04-22
(32)【優先日】2018-11-13
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-11-04
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】ユ、 シアン
(72)【発明者】
【氏名】チャン、 フェン-ユ
(72)【発明者】
【氏名】チャンドラカー、 マンモハン
【審査官】真木 健彦
(56)【参考文献】
【文献】特開2015-162012(JP,A)
【文献】Jiankang Deng;Shiyang Cheng;Niannan Xue;Yuxiang Zhou;Stefanos Zafeiriou,UV-GAN: Adversarial Facial UV Map Completion for Pose-Invariant Face Recognition,arXiv:1712.04695v1,2017年12月13日,pp.1-9
【文献】Aaron S. Jackson;Adrian Bulat;Vasileios Argyriou;Georgios Tzimiropoulos,Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression,2017 IEEE International Conference on Computer Vision,IEEE,2017年,pp.1031-1039,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8237379
【文献】Douglas M. Souza; Duncan D. Ruiz,GAN-Based Realistic Face Pose Synthesis with Continuous Latent Code,PROCEEDINGS OF THE THIRTY-FIRST INTERNATIONAL FLORIDA ARTIFICIAL INTELLIGENCE RESEARCH SOCIETY CONFERENCE,AAAI Press,2018年05月23日,pp.110-115,https://repositorio.pucrs.br/dspace/bitstream/10923/15241/2/GAN_Based_Realistic_Face_Pose_Synthesis_with_Continuous_Latent_Code.pdf
【文献】Xun Huang;Yixuan Li;Omid Poursaeed;John Hopcroft;Serge Belongie,Stacked Generative Adversarial Networks,2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2017年,pp.1866-1875,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8099685
【文献】Zhenliang He;Wangmeng Zuo;Meina Kan;Shiguang Shan;Xilin Chen,AttGAN: Facial Attribute Editing by Only Changing What You Want,arXiv:1711.10678v3[cs.CV],2018年07月25日,P.1-16,https://arxiv.org/pdf/1711.10678.pdf
【文献】Yunjey Choi;Minje Choi;Munyoung Kim;Jung-Woo Ha;Sunghun Kim;Jaegul Choo,StarGAN: Unified Generative Adversarial Networks for Multi-domain Image-to-Image Translation,arXiv:1711.09020v3[cs.CV],2018年09月21日,P.1-15,https://arxiv.org/pdf/1711.09020.pdf
【文献】馬場口 登,メディアクローン攻撃を防御するコミュニケーション系,電子情報通信学会技術研究報告 Vol.116 No.497,日本,一般社団法人電子情報通信学会,2017年02月27日,CQ2016-115 (2017-03),P.25-30
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/50
G06T 7/80
G06T 7/00
G06T 15/04
(57)【特許請求の範囲】
【請求項1】
姿勢変動3D顔属性生成のためのシステムであって、
顔の単一の入力画像から3D形状のための空間位置マップとカメラ視点マトリクスとを直接生成するためのハードウェアプロセッサベースの3D回帰ネットワークを具備し、さらに、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングするためのレンダリング層を具備する第1のステージと、
3D属性生成GAN(3DA-GAN)と積層されたテクスチャ完了敵対的生成ネットワーク(TC-GAN)を有するハードウェアプロセッサベースの2工程積層敵対的生成ネットワーク(GAN)を具備し、前記TC-GANは、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了するためのものであり、前記3DA-GANは、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成するためのものである第2のステージとを含
み、
複数の顔特徴の頂点の中からの特定の顔特徴の頂点の使用に関するインデックスベクトルが、回帰形状を制約するために使用されるシステム。
【請求項2】
請求項1に記載のシステムにおいて、
前記部分的テクスチャの表現は、姿勢分散に起因する自己遮蔽に関連するシステム。
【請求項3】
請求項1に記載のシステムにおいて、
前記姿勢分散に起因する自己遮蔽は、前記単一の入力画像に存在しない顔領域をシミュレートするために使用されるシステム。
【請求項4】
請求項1に記載のシステムにおいて、
前記目標顔属性に基づいて、人物を認識するための認識ステージをさらに含むシステム。
【請求項5】
請求項1に記載のシステムにおいて、
前記TC-GANは、前記部分的テクスチャマップと前記空間位置マップとを一緒に処理することによって、前記部分的テクスチャマップを完成させて、前記完全なテクスチャマップを形成するシステム。
【請求項6】
請求項5に記載のシステムにおいて、
前記TC-GANは、前記部分的テクスチャマップを完成させて、前記部分的テクスチャマップの反転されていないバージョンと反転されたバージョンとを使用して、前記完全なテクスチャマップを形成するシステム。
【請求項7】
請求項1に記載のシステムにおいて、
前記完全なテクスチャマップと前記空間位置マップとから画像を合成することをさらに含み、前記画像は前記目標顔属性がレンダリングされた前記顔を有するシステム。
【請求項8】
請求項1に記載のシステムにおいて、
前記システムは、顔認識システムであるシステム。
【請求項9】
請求項1に記載のシステムにおいて、
前記システムは、顔編集システムであるシステム。
【請求項10】
請求項1に記載のシステムにおいて、
前記3D回帰ネットワークは、砂時計形状の回帰関数を使用するシステム。
【請求項11】
請求項1に記載のシステムにおいて、
前記TC-GANおよび前記3DA-GANは、独立した目的を有する機能的に独立したタスクであるシステム。
【請求項12】
請求項1に記載のシステムにおいて、
前記目標顔属性を使用して、属性摂動外観を含む画像を生成することをさらに含むシステム。
【請求項13】
請求項
12に記載のシステムにおいて、
前記属性摂動外観を含む画像に対して顔認識を実行して、その中の人物を認識することをさらに含むシステム。
【請求項14】
請求項1に記載のシステムにおいて、
前記レンダリング層は、奥行き閾値を超える奥行きを有する
前記顔特徴の頂点が前記部分的テクスチャマップにおいてレンダリングされ、一方、前記奥行き閾値以下の奥行きを有する
前記顔特徴の頂点が、前記部分的テクスチャマップにおいて不可視にされるように、前記部分的テクスチャマップをレンダリングするシステム。
【請求項15】
請求項1に記載のシステムにおいて、
前記TC-GANは、畳み込み層と、それに続くバッチ正規化層と、それに続くRectified Linear Unit層とを含むシステム。
【請求項16】
請求項1に記載のシステムにおいて、
前記TC-GANは、エンコーダと、前記エンコーダの第1のブロックがデコーダの最後のブロックと接続されるようにスキップリンクによって接続されたデコーダとを有するエンコーダ-デコーダ構造体を有するシステム。
【請求項17】
姿勢変動3D顔属性生成のためのコンピュータで実施する方法であって、
3D回帰ネットワークを使ったハードウェアプロセッサによって、顔の単一の入力画像から3D形状のための空間位置マップとカメラ視点マトリクスとを直接生成することと、
レンダリング層を使ったハードウェアプロセッサによって、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングすることと、
テクスチャ完了敵対的生成ネットワーク(TC-GAN)を使ったハードウェアプロセッサによって、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了することと、
3D属性生成GAN(3DA-GAN)を使ったハードウェアプロセッサによって、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成することとを含
み、
複数の顔特徴の頂点の中からの特定の顔特徴の頂点の使用に関するインデックスベクトルが、回帰形状を制約するために使用される方法。
【請求項18】
請求項
17に記載のコンピュータで実施する方法において、
前記3D回帰ネットワークおよび前記レンダリング層は、第1のステージを形成し、前記TC-GANおよび前記3DA-GANは、2工程積層GANを有する第2のステージ を形成するコンピュータで実施する方法。
【請求項19】
姿勢変動3D顔属性生成のためのコンピュータプログラム製品であって、前記コンピュータプログラム製品はそれとともに実施されるプログラム命令を有する非一時的なコンピュータ可読記憶媒体を備え、前記コンピュータ命令は方法を前記コンピュータによって実行可能であり、前記方法は、
3D回帰ネットワークを使ったハードウェアプロセッサによって、顔の単一の入力画像から3D形状のための空間位置マップとカメラ視点マトリクスとを直接生成することと、
レンダリング層を使ったハードウェアプロセッサによって、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングすることと、
テクスチャ完了敵対的生成ネットワーク(TC-GAN)を使ったハードウェアプロセッサによって、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了することと、
3D属性生成GAN(3DA-GAN)を使ったハードウェアプロセッサによって、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成することとを含
み、
複数の顔特徴の頂点の中からの特定の顔特徴の頂点の使用に関するインデックスベクトルが、回帰形状を制約するために使用されるコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願情報
本出願は、2018年11月13日に出願された米国仮特許出願第62/760,135号および2019年11月4日に出願された米国実用特許出願第16/673,256号の優先権を主張し、その全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
本発明は、顔認識に関し、より詳細には、姿勢変動3D顔属性生成に関する。
関連技術の説明
【0003】
顔を認識することは、姿勢分散のために、煩わしいタスクとなり得る。したがって、姿勢変動3D顔属性を生成する方法が必要とされている。
【発明の概要】
【0004】
本発明の一態様によれば、姿勢変動3D顔属性生成のためのシステムが提供される。システムは、顔の単一の入力画像から3D形状のための空間位置マップとカメラ視点マトリクスとを直接生成するためのハードウェアプロセッサベースの3D回帰ネットワークを具備し、さらに、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングするためのレンダリング層を具備する第1のステージとを含む。システムはさらに、3D属性生成GAN(3DA-GAN)と積層されたテクスチャ完了敵対的生成ネットワーク(TC-GAN)を含むハードウェアプロセッサベースの2工程積層敵対的生成ネットワーク(GAN)を有する第2のステージを含む。TC-GANは、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了するためのものである。3DA-GANは、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成するためのものである。
【0005】
本発明の別の態様によれば、姿勢変動3D顔属性生成のためのコンピュータで実施する方法が提供される。この方法は、3D回帰ネットワークを使ったハードウェアプロセッサによって、顔の単一の入力画像から3D形状のための空間位置マップとカメラ視点マトリクスとを直接生成することを含む。さらにこの方法は、レンダリング層を使ったハードウェアプロセッサによって、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングすることを含む。また、この方法は、テクスチャ完了敵対的生成ネットワーク(TC-GAN)を使ったハードウェアプロセッサによって、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了することを含む。また、この方法は、3D属性生成GAN(3DA-GAN)を使ったハードウェアプロセッサによって、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成することを含む。
【0006】
本発明のさらに別の態様によれば、姿勢変動3D顔属性生成のためのコンピュータプログラム製品が提供される。コンピュータプログラム製品はそれとともに実施されるプログラム命令を有する非一時的なコンピュータ可読記憶媒体を含む。コンピュータ命令は方法を前記コンピュータによって実行可能である。その方法は、3D回帰ネットワークを使ったハードウェアプロセッサによって、顔の単一の入力画像から3D形状のための空間位置マップとカメラ視点マトリクスとを直接生成することを含む。さらに方法は、レンダリング層を使ったハードウェアプロセッサによって、前記空間位置マップと前記カメラ視点マトリクスとに基づいて、前記単一の入力画像の部分的テクスチャマップをレンダリングすることを含む。また、方法は、テクスチャ完了敵対的生成ネットワーク(TC-GAN)を使ったハードウェアプロセッサによって、前記部分的テクスチャマップと前記空間位置マップとに基づいて完全なテクスチャマップを形成するために前記部分的テクスチャマップを完了することを含む。また、方法は、3D属性生成GAN(3DA-GAN)を使ったハードウェアプロセッサによって、前記完全なテクスチャマップと前記空間位置マップとに基づいて前記単一の入力画像のための目標顔属性を生成することを含む。
【0007】
これらおよび他の特徴および利点は、添付の図面に関連して読まれるべき、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【図面の簡単な説明】
【0008】
本開示は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。
【0009】
【
図1】本発明の一実施形態による例示的な処理システムを示すブロック図である。
【0010】
【
図2】本発明の一実施形態による、姿勢変動3D顔属性生成のための例示的なシステムを示すブロック図である。
【0011】
【
図3】本発明の一実施形態による、姿勢変動3D顔属性生成のための例示的な方法を示すフロー図である。
【発明を実施するための形態】
【0012】
本発明の実施形態は、姿勢変動3D顔属性生成を対象とする。
【0013】
本発明の実施形態は、野生の状況から姿勢変動顔画像の顔属性を生成することを目的とする。この方法は、従来の2D画像以外の3D表現に基づく。フレームワークは、大きな姿勢変動入力に対処することができ、元の入力の上に、ひげ、笑顔、サングラスなどの所望の顔属性を修復することができる。これは、顔認識および顔編集のような多くのアプリケーションのために顔データを増強する重要な方法を提供するため、非常に有用である。もちろん、本発明は、本明細書で提供される本発明の教示に基づいて、他の用途に使用することができる。
【0014】
一実施形態では、次のようにタスクを2つの主要なステージに解きほぐすことが提案される。第1のステージは、単一の入力画像から3D形状および弱視点マトリクスを直接達成するための差分レンダリング層を用いた砂時計ベースの深密回帰を含み、姿勢分散によって引き起こされる自己遮蔽による部分的テクスチャ表現をレンダリングするために情報を利用する。第2のステージは、2ステップのスタックされたGAN(Generative Adversarial Network)を含む。第1のステップは、テクスチャマップを完成させるために第1のステージから得られた3D形状と部分的テクスチャとの両方を利用するテクスチャ完成GAN(TC-GAN)である。第2のステップは、3D属性生成GAN(3DA-GAN)であり、完成した3Dテクスチャ表現上にターゲット属性を生成する。第1のステージでは、それぞれUVposおよびUVtexと呼ばれる3D点群とテクスチャとの両方にUV表現を適用する。UV表現は、密な形状情報を提供し、点群からテクスチャへの1対1の対応を構築する。第2のステージでは、TC-GANと3DA-GANは、独立した目的を有する2つの機能的に独立したタスクである。3DA-GANは、TC-GANからの出力を属性生成のための入力として受け取り、したがって、スタック構成を形成する。スタックされた2つのGANは、完成したテクスチャと新たに生成された属性とが3D形状相関されるため、入力としてUVposとUVtexとの両方をとる。
【0015】
図1は、本発明の一実施形態による例示的な処理システム100を示すブロック図である。処理システム100は、1組の処理ユニット(例えば、CPU)101と、1組のGPU102と、1組の記憶装置103と、1組の通信装置104と、1組の周辺装置105とを含む。CPU101は、シングルまたはマルチコアCPUとすることができる。GPU102は、シングルまたはマルチコアGPUとすることができる。1つまたは複数の記憶装置103は、キャッシュ、RAM、ROM、および他のメモリ(フラッシュ、光、磁気など)を含むことができる。通信装置104は、無線および/または有線通信装置(例えば、ネットワーク(例えば、WIFIなど)アダプタなど)を含むことができる。周辺機器105は、表示装置、ユーザ入力装置、プリンタ、撮像装置(例えば、RGBD撮像装置など)、マイクロフォン、スピーカなどを含むことができる。処理システム100の要素は、1つまたは複数のバスまたはネットワーク(まとめて図参照番号110で示す)によって接続される。
【0016】
一実施形態では、記憶装置103は、特別にプログラムされたソフトウェアモジュールを記憶して、コンピュータ処理システムを、本発明の様々な態様を実施するように構成された特別目的のコンピュータに変換することができる。一実施形態では、専用ハードウェア(例えば、特定用途向け集積回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)など)を使用して、本発明の様々な態様を実施することができる。
【0017】
一実施形態では、記憶装置103は、3D回帰ネットワーク103A、レンダリング層103B、3D属性生成GAN(3DA GAN)103C2と積層されたテクスチャ完了GAN(TC-GAN)103C1を有する2工程積層敵対的生成ネットワーク(GAN)103C、顔認識システム103D、および顔編集システム103Eのうちの1つまたは複数を実装するためのコードを記憶することができる。本明細書で説明されるこれらおよび他の要素は、記憶装置103によって少なくとも部分的に実装することができる。
【0018】
もちろん、処理システム100は、当業者によって容易に企図されるように、他の要素(図示せず)を含んでもよく、また、特定の要素を省略してもよい。例えば、当業者によって容易に理解されるように、様々な他の入力装置および/または出力装置を、その特定の実装に応じて、処理システム100に含めることができる。例えば、様々なタイプの無線および/または有線の入力および/または出力装置を使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリなどを利用することもできる。さらに、別の実施形態では、クラウド構成を使用することができる。処理システム100のこれらおよび他の変形は、本明細書で提供される本発明の教示を与えられれば、当業者によって容易に企図される。
【0019】
さらに、システム100の1つまたは複数の要素によって全体的または部分的に実装され得る、本発明に関連する様々な要素およびステップに関して以下で説明される様々な図が理解されるべきである。
【0020】
本明細書で使用されるように、略して「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、およびソフトウェアの組み合わせを指す。一実施形態では、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路など)を含むことができる。一実施形態では、1つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置、および/または別個のプロセッサもしくはコンピューティング要素ベースの(たとえば、論理ゲートなどの)コントローラに含めることができる。一実施形態では、ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ)を含むことができる。一実施形態では、ハードウェアプロセッササブシステムは、1つ以上の他のメモリ(例えば、ROM、RAM、BIOS)を含むことができる。一実施形態では、ハードウェアプロセッササブシステムは、1つ以上のソフトウェアアプリケーションを含むことができ、実行することができる。一実施形態では、1つ以上のソフトウェアアプリケーションは、特定の結果を達成するために、オペレーティングシステムおよび/または1つ以上の他のアプリケーションおよび/または特定のコードを含むことができる。ハードウェアプロセッササブシステムのこれらの変形例および他の変形例は、本明細書で提供される本発明の教示を前提として、容易に決定される。
【0021】
図2は、本発明の一実施形態による、姿勢変動3D顔属性生成のための例示的なシステム200を示すブロック図である。
【0022】
システム200は、第1のステージ210および第2のステージ250を含む。
【0023】
第1のステージ210は、顔の単一の入力画像201から3D形状のための空間位置マップ221とカメラ視点マトリクス222とを直接生成するための3D回帰ネットワーク220を有する。
【0024】
第1のステージ210は、空間位置マップ221とカメラ視点マトリクス222とに基づいて単一入力画像201の部分的テクスチャマップ231をレンダリングするためのレンダリング層230を更に有する。
【0025】
第2のステージ250は、2つの部分から成るスタックされたGAN(Generative Adversarial Network)260を有する。2部分積層GAN260は、3D属性生成GAN(3DA-GAN)280と共に積層されたテクスチャ完了GAN(TC-GAN)270を含む。
【0026】
TC-GAN270は、部分的テクスチャマップ231と、部分的テクスチャマップの反転バージョン231Aと、空間位置マップ221とに基づいて、部分的テクスチャマップ231を完成させて、完全なテクスチャマップ271を形成するためのものである。
【0027】
3DA-GAN280は、完全なテクスチャマップ271と空間位置マップ221とに基づいて、単一の入力画像201に対する目標顔属性281を生成するためのものである。
【0028】
一実施形態では、エンコーダ272とデコーダ273とを有するエンコーダ-デコーダ構造が、TC-GAN270のバックボーンとして提供される。このような構造は、回帰ネットワーク220および3DA-GAN280にも存在し得る。非限定的な実施形態では、エンコーダ272とデコーダ273との両方は、4つのブロックを有する。エンコーダ272の各ブロックは、畳み込み層と、それに続くバッチ正規化層と、ReLU層とを含む。同様に、デコーダ273の各ブロックは、逆畳み込み層と、それに続くバッチ正規化層と、リーキーReLU層とを含む。
図2に示すようにエンコーダ272の入力は、部分的テクスチャマップ、反転された部分的テクスチャマップ、および空間位置マップの連結である。エンコーダ272のための出力は、272から生成される中間特徴である。デコーダ273の入力は、エンコーダ272からの中間特徴出力であり、デコーダ273の出力は、完全なテクスチャマップ271である。スキップリンクは、対称的な方法でエンコーダとデコーダとを接続するように設定され、すなわち、エンコーダの最初のブロックは、デコーダの最後のブロックに共有される。スキップリンクは、特に、より低レベルの情報を保存する下位レイヤから、高周波情報を保存する際に重要な役割を果たすことが分かっている。
【0029】
図3は、本発明の一実施形態による、姿勢変動3D顔属性生成のための例示的な方法を示すフロー図である。
【0030】
ブロック310では、3D回帰ネットワークによって、顔の単一の入力画像から3D形状およびカメラ視点マトリクスのための空間位置マップを直接生成する。一実施形態では、3D回帰ネットワークは砂時計型回帰関数を使用することができる。
【0031】
ブロック320において、レンダリング層によって、空間位置マップとカメラ視点マトリックスとに基づいて、単一入力画像の部分的テクスチャマップをレンダリングする。一実施形態では、部分的テクスチャマップは、姿勢分散に起因する自己遮蔽に関連することができる。一実施形態では、姿勢分散に起因する自己遮蔽を使用して、単一の入力画像に存在しない顔領域をシミュレートすることができる。
【0032】
ブロック330で、テクスチャ完了敵対的生成ネットワーク(TC-GAN)によって、部分的テクスチャマップが完了し、部分的テクスチャマップおよび空間位置マップに基づいて完全なテクスチャマップが形成される。
【0033】
ブロック340で、3D属性生成GAN(3DA-GAN)によって、完全なテクスチャマップおよび空間位置マップに基づいて、単一の入力画像の目標顔属性を生成する。
【0034】
ブロック350で、目標顔属性に関連して顔編集動作を実行する。
【0035】
一実施形態では、ブロック350は、ブロック350Aを含むことができる。
【0036】
ブロック350Aにおいて、完全なテクスチャマップおよび目標顔属性から新しい画像を形成する。例えば、完全なテクスチャマップは、きれいな剃毛された男性のものであってもよく、目標顔属性は、完全なテクスチャマップにおいて男性に追加されるひげであってもよい。
【0037】
ブロック360において、完了テクスチャマップおよび目標顔属性(例えば、ブロック350Aによって形成された)から形成された新しい画像と、空間位置マップとに基づいて個人を認識するための顔認識動作を実行する。このようにして、同じ人物の異なる姿勢および異なる顔属性を生成し、その人物を識別するために使用することができる。
【0038】
このように、本発明は、後者の外観生成をサポートする密な3D表現を導入する。そして、レンダリングを行い、元の入力から可視的な外観を生成する。さらに、完全に見えるテクスチャマップを達成するために、テクスチャ完了GANが提示される。最後に、3D属性生成GANは、3D位置およびテクスチャ表現に直接作用し、完全に制御された姿勢幾何学を有する属性摂動外観を出力するように提案される。
【0039】
次に、本発明の一実施形態によるUV位置マップ回帰について説明する。
【0040】
可視外観を忠実にレンダリングするために、形状およびテクスチャの密な3D再構成を求める。
【0041】
3D点群S 2 RNx3を仮定すると、Nは頂点の数である。各頂点s=(x、y、z)は、画像空間内の3次元座標からなる。(u、v)は、次のように定義される。
【数1】
【0042】
式(1)は、密な点群からUVマップへの固有のマッピングを確立する。粒度の異なるUV空間を量子化することにより、画像分解能に対するUV空間の密度を制御できる。本研究では、UVマップを256×256に量子化し、65k頂点を保存する。UV位置マップUVposは、UV空間上で定義され、各エントリは、対応する3次元座標(x、y、z)である。UVテクスチャマップUVtexもUV空間上に定義され、各エントリは対応する座標のRGB色である。
【0043】
UV空間定義に基づいて、元の密な点群の代わりにUV
posへの入力から深い回帰を提案する。同時に、弱視点マトリクス
【数2】
を回帰することによって姿勢推定を行う。深い回帰を非線形関数Φとすると、入力画像Iは次のようになる。
【数3】
【0044】
式(2)の最初の2つの項は、予測された紫外線マップ
【数4】
と弱視点マトリクスWに対する規則的な教師あり損失である。UV
*、W
*およびs
*は対応するグランドトゥルースとして表される。第3項は、予め定義された顔ランドマークを調べる。UVマップによって予測されるランドマーク座標は、グランドトゥルースにも近くなければならない。実際には、小さなUVマップ誤差は小さなランドマーク誤差を保証しないことが分かる。これは、疎なランドマークにマッピングするときに、密な点群がある程度の曖昧さを有するからである。形状回帰をより厳密に制約するために、インデックスベクトル
【数5】
を導入し、そのエントリは、対応する頂点が選択されている場合は1であり、そうでなければ0である。Φ(I)は姿勢固有であり、W
*-1を適用することによってそれを基準姿勢に戻す必要があることに注意されたい。仮にW=[R|T]が回転マトリクス
【数6】
および並進ベクトルT 2 R3x1からなるとする。W
*-1を[R
*-1|-T]とする。第3項を計算するとき、元のΦ(i)を
【数7】
に再整形する。
【0045】
次に、本発明の一実施形態によるUVテクスチャマップレンダリングについて説明する。姿勢変動顔のUV
texは、部分的に見える外観を有する。これは、姿勢変動に起因する自己遮蔽が、不可視顔領域を生成するためである。元の座標空間において、z-Bufferingアルゴリズムを実行して、各3D頂点の可視状態をラベル付けする。最大の奥行き情報を有する頂点は可視であり、他の全ての頂点は不可視である。エントリ1が可視を意味し、0が不可視を意味する可視ベクトルMを仮定する。レンダリングは、特定の座標の色を対応するUV座標に関連付けることによって、ルックアップ操作になる。式(3)のプロセスを次のように定式化する。
【数8】
ここで、(u,v)は式(1)によって決定される。
【0046】
次に、本発明の一実施形態によるUVテクスチャマップの完成について説明する。
【0047】
レンダリングからの不完全なUVtexは、不可視領域が人工物を導入するため、属性生成を行うのに十分ではない。フォトリアリスティックな外観回復だけでなく、アイデンティティ保存も可能なテクスチャの完成を目指す。UV-GANは、敵対的ネットワークを適用することによってUVテクスチャマップを完成させるための同様のフレームワークを提案する。しかしながら、それはテクスチャ情報のみを考慮する。3D UV表現の場合、外観を完成させるには、テクスチャ情報と形状情報との両方を考慮しなければならないと主張した。例えば、元の入力と反転された入力とを組み合わせることは、外観予測のための良好な初期化を提供する。しかし、それは、形状情報を保存するのに十分ではない、形状に対する対称性の制約を適用するだけである。したがって、UVpos、UVtexおよび反転されたUVtexを入力とする。TC-GANのバックボーンとしてエンコーダ-デコーダ構造を設計した。エンコーダとデコーダとの両方に4つのブロックがある。エンコーダの各ブロックは、畳み込み層、それに続くバッチ正規化層およびReLU層を含む。同様に、デコーダの各ブロックは、逆畳み込み層と、それに続くバッチ正規化層と、リーキーReLU層とを含む。スキップリンクは、エンコーダとデコーダとを対称的に接続するように設定され、すなわち、エンコーダの最初のブロックは、デコーダの最後のブロックに共有される。スキップリンクは、特に、より低レベルの情報を保存する下位レイヤから、高周波情報を保存する際に重要な役割を果たすことが分かる。
【0048】
次に、本発明の一実施形態による再構成モジュールについて説明する。
【0049】
3D高密度点群再構成を提案することにより、ラベル付けなしにこのタスクのグランドトゥルースを実際に準備することができる。筆者らは、全ての画素が見える近正面顔画像から出発した。次に、ランダムな角度でこの原画像の頭部姿勢を摂動した。全ての姿勢変動画像は、オリジナル画像である同じ正面グランドトゥルースを共有することに留意されたい。導入されたレンダリングにより、入力に対する不完全なテクスチャマップが得られる。グランドトゥルースが与えられているので、次のように完了を導くために、監視された再構成損失を提案する。
【数9】
【0050】
G
tc(・)は、エンコーダおよびデコーダを含むジェネレータを示す。Iは入力を表し、
【数10】
は反転された入力を表し、I
*は入力の完全なグランドトゥルースを表す。L2またはL1損失は通常ぼやけた効果をもたらすため、再構成に頼るだけでは、高品質の結果を保証することができない。このように、私たちは世代品質を向上させるために敵対的な訓練を導入する。
【0051】
次に、本発明の一実施形態による弁別器モジュールについて説明する。
【0052】
正の試料
【数11】
およびG
tc生成試料としてグランドトゥルース画像が負の試料として与えられると、我々は、以下の目的で弁別器Dを訓練する。
【数12】
【0053】
次に、本発明の一実施形態による生成器モジュールについて説明する。
【0054】
敵対的な訓練に続いて、G
tcはDをだますことを目的とし、それによって対象をもう一方の方向に押しやる。
【数13】
【0055】
次に、本発明の一実施形態に係る平滑化項について説明する。
【0056】
人工物を除去するために、我々は、以下のように出力の滑らかさを局所的に制約するために、総変動損失を適用することを提案する。
【数14】
【0057】
【数15】
は、出力の勾配である。
【数16】
は、入力画像のエントリ数であり、出力エントリ数に相当する。アイデンティティを保存するために、ほとんどの作品が行うように、生成された画像からの認識特徴がグランドトゥルース画像からの特徴に近いことを保証するために、顔認識エンジンを導入する必要がある。実際には、式(4)の再構成制約は、このタスクにおけるアイデンティティを保存するのに十分であることが分かる。したがって、TC-GANの全体的な損失は、以下のように要約される。
【数17】
【0058】
重みのバランスは、それぞれλrecon=1,λadv=0.1,λtv=0.05として経験的に設定される。
【0059】
次に、本発明の一実施形態による3D顔属性生成について説明する。
【0060】
3D表現、完成したUV
texとUV
posとを入力として導入した。3D幾何学的情報を導入することは、属性をより良く合成することができ、すなわち、3D形状情報を用いて、サングラスが表面として生成されると考えられる。属性コードpをデータフローに挿入することにより、条件付きGANフレームワークとしてターゲット属性生成を定式化した。我々は、単に顔の領域を反映し、顔のアイデンティティに相関しない40の例示的な属性のうちの8つ、すなわち、サングラス(SG)、開口(MO)、口紅塗布(LS)、5時シャドウ(SH)、笑顔(SM)、アイバッグ(EB)、蒼白(PS)および前髪(BA)を手動で選択する。したがって、
【数18】
は、各要素が1つの属性を表し、属性0がない場合と同様に1になる。砂時計はG
attrの構造として適用される。エンコーダおよびデコーダは、TC-GANと同様の設定で、それぞれ4つのブロックを有する。属性コードpは、2つのブロックで畳み込まれ、次に、G
attrのエンコーダの第3のブロックに連結される。
【0061】
我々の訓練手順は、2つのフェーズに分けることができる。
【0062】
(1)再構築。入力UV
tex、UV
posおよびグランドトゥルースpを仮定すると、再構成された
【数19】
および
【数20】
は、p内の全く同じ属性で出力される。
【0063】
(2)属性摂動生成。このステージで、属性を削除する以外の属性を生成するものとして、0から1への反転を考慮して、pの時間当たり1つの属性を反転する。入力は依然としてUV
tex、UV
posおよび摂動されたp’であり、そのpへのハミング距離は正確に1である。出力は摂動された
【数21】
および
【数22】
であり、p’内の反転されたビットによって示される新たに生成された属性を示し、ここで他の全ての部分が保存されるべきである。フェーズ(1)をセットアップする目的は、属性ごとの生成を考慮するためであり、同様、非属性関連領域の大部分は同じままであるべきである。最初に再構成を行うことは、この手順に大いに有益であり、一方、フェーズ(2)は、局所摂動のみに焦点を当てることができる。さらに、それは、摂動された属性が、これらの2つのフェーズを対比することによって、新たに生成された属性領域のみを決定することを保証する。
【0064】
著者らは、機能的に同一の構成要素を抽象化することによって損失設計を導入した。これらの構成要素は、主に2つのフェーズ手順によって共有される。
【0065】
本発明は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、および/またはコンピュータプログラム製品とすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ読み取り可能なプログラム命令を有するコンピュータ読み取り可能な記憶媒体を含み得る。
【0066】
本明細書において、本発明の「一実施形態」又は「一実施形態」とは、その他の変形例と同様に、その実施形態に関連して説明した特定の特徴、構造、特性等が、本発明の少なくとも一実施形態に含まれることを意味するものであり、「一実施形態において」又は「一実施形態において」の語句の出現、並びに本明細書全体の様々な箇所に出現する他の変形例は、必ずしも全て同一の実施形態を意味するものではない。
【0067】
以下の「/」、「および/または」、および「少なくとも1つ」、例えば、「A/B」、「Aおよび/またはB」、および「AおよびBの少なくとも1つ」のいずれかの使用は、第1のリストされた実施例(A)のみの選択、または第2のリストされた実施例(B)のみの選択、または両方の実施例(AおよびB)の選択を包含することが意図されることを理解されたい。さらなる例として、「A、B、および/またはC」、および「A、B、およびCの少なくとも1つ」の場合、このような句は、第1のリストされた実施例(A)のみの選択、または第2のリストされた実施例(B)のみの選択、または第3のリストされた実施例(C)のみの選択、または第1および第2のリストされた実施例(AおよびB)のみの選択、または 第1および第3のリストされた実施例(AおよびC)のみの選択、または第2および第3のリストされた実施例(BおよびC)のみの選択、または3つすべての実施例(AおよびBおよびC)の選択を包含することを意図する。これは、列挙された項目の数だけ拡張することができる。
【0068】
上記は、あらゆる点で例示的かつ例示的であるが、限定的ではないと理解されるべきであり、本明細書に開示される本発明の範囲は、詳細な説明からではなく、むしろ特許法によって許容される全範囲に従って解釈されるような特許請求の範囲から決定されるべきである。本明細書に示され、説明された実施形態は、本発明の例示にすぎず、当業者は、本発明の範囲および精神から逸脱することなく、様々な修正を実施することができることを理解されたい。当業者は、本発明の範囲および精神から逸脱することなく、様々な他の特徴の組み合わせを実施することができる。このように、本発明の態様を、特許法によって要求される詳細および特殊性と共に説明してきたが、特許状によって保護されることが請求され、望まれるものは、添付の特許請求の範囲に記載されている。