(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-23
(54)【発明の名称】モデル推定クラス埋め込みによる連続効果の適用
(51)【国際特許分類】
G06T 7/00 20170101AFI20240116BHJP
G06V 10/82 20220101ALI20240116BHJP
【FI】
G06T7/00 350C
G06T7/00 660A
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023538981
(86)(22)【出願日】2021-12-21
(85)【翻訳文提出日】2023-06-28
(86)【国際出願番号】 EP2021087150
(87)【国際公開番号】W WO2022136471
(87)【国際公開日】2022-06-30
(32)【優先日】2020-12-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-05-25
(33)【優先権主張国・地域又は機関】FR
(81)【指定国・地域】
(71)【出願人】
【識別番号】391023932
【氏名又は名称】ロレアル
【氏名又は名称原語表記】L’OREAL
【住所又は居所原語表記】14 Rue Royale,75008 PARIS,France
(74)【代理人】
【識別番号】110000534
【氏名又は名称】弁理士法人真明センチュリー
(72)【発明者】
【氏名】リ・ゼチ
(72)【発明者】
【氏名】ジャン・ルオウェイ
(72)【発明者】
【氏名】アーラビ・パラム
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096BA18
5L096DA02
5L096FA25
5L096HA11
5L096KA04
5L096KA15
5L096MA07
(57)【要約】
単純な(効果クラス)推定器が通常の符号器-復号器アーキテクチャに埋め込まれる統合されたネットワークによる連続効果シミュレーションを達成する深層学習モデルを用いて画像を処理する方法等が提供される。推定器は全ての効果クラスのモデル推定クラス埋め込みの学習を可能にし、適切なアンカー効果グループを選択する際の手動の努力なしに連続効果情報を表す。目標年齢クラスが与えられると、顔のエージングの2の態様を考慮する個人化された年齢の埋め込みが導出され、1)対象者のモデル推定年齢での個人化された残存の年齢埋め込みであって、対象者のエージング情報を保持する個人化された残存の年齢埋め込み、2)全集団の間で共有されるエージングパターンを符号化する目標年齢での典型的な顔のエージングの基礎、である。推奨を生成し、電子商取引サービスを提供するARアプリを含む訓練等が示される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象者の入力画像から、前記対象者の目標年齢における新規画像を生成するための統合年齢シミュレーションモデルを提供することを含む方法であって、
前記統合年齢シミュレーションモデルは、連続的なエージング情報を表す複数の連続する年齢のそれぞれにおける、複数のそれぞれのモデル推定年齢の埋め込みを提供し、
前記モデル推定年齢の埋め込みは、生成器の合同訓練を通じて学習され、年齢推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、
前記年齢推定器は、それぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、対象者のモデル推定年齢を決定するように構成され、
前記生成部は、前記目標年齢と前記対象者のモデル推定年齢とに従って決定されたモデル推定年齢の埋め込みのそれぞれによって変換された前記入力画像から、前記生成器が生成した特徴を用いて前記新規画像を生成することを特徴とする方法。
【請求項2】
前記符号器-復号器アーキテクチャが、前記入力画像内の前記対象者のモデル推定年齢を推定するための前記年齢推定器を備えることを特徴とする請求項1記載の方法。
【請求項3】
前記モデルの符号器が前記入力画像を処理して、前記符号器が生成した特徴を決定し、前記年齢推定器が、前記符号器が生成した特徴を処理して、前記モデルが推定した年齢を決定することを特徴とする請求項2記載の方法。
【請求項4】
前記符号器によって生成された特徴は、
a.前記モデル推定年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれと、
b.前記目標年齢に応じて決定された前記モデル推定年齢の埋め込みのそれぞれと、を含む個人化された年齢の埋め込みによって変換されることを特徴とする請求項2記載の方法。
【請求項5】
前記個人化された年齢の埋め込みは、
a.前記対象者のアイデンティティ情報を保持するための前記モデル推定年齢に応じて複数のそれぞれの前記モデル推定年齢の埋め込みから決定された個人化された残存の年齢の埋め込みと、
b.全集団の間で共有されたエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みと、を含むことを特徴とする請求項4記載の方法。
【請求項6】
前記個人化された年齢の埋め込みが、アフィン変換に従って適用されることを特徴とする請求項4又は5に記載の方法。
【請求項7】
前記生成器は、前記個人化された年齢の埋め込みによって変換された前記符号化された特徴を処理することで、前記目標年齢における前記新規画像を生成することを特徴とする請求項4から6のいずれかに記載の方法。
【請求項8】
前記モデルは、深層学習ニューラルネットワークモデル及び生成的敵対ネットワークベースモデルの一方または両方で構成されることを特徴とする請求項1から7のいずれかに記載の方法。
【請求項9】
製品およびサービスの一方または両方についての推奨を得るための推奨インターフェースを提供することを特徴とする請求項1から8のいずれかに記載の方法。
【請求項10】
製品およびサービスの一方または両方を購入するための電子商取引購入インターフェースを提供することを特徴とする請求項1から9のいずれかに記載の方法。
【請求項11】
前記入力画像を受信し、表示のために前記新規画像を提供することを特徴とする請求項1から10のいずれかに記載の方法。
【請求項12】
前記入力画像および前記新規画像のそれぞれが、前記対象者の顔を含むことを特徴とする請求項1から11のいずれかに記載の方法。
【請求項13】
対象者の入力画像から、前記対象者に対する連続効果の目標クラスにおける新規画像を生成するための統合されたモデルを提供する方法であって、
前記モデルは、連続効果情報を表す複数の連続クラスのそれぞれにおける、複数のそれぞれのモデル推定クラス埋め込みを提供し、
前記モデル推定クラス埋め込みは、生成器の合同訓練を通じて学習され、
クラス推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、
前記クラス推定器は、それぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、それぞれの対象者のモデル推定クラスを決定するように構成され、
前記生成部は、前記目標クラスに応じて決定された前記モデル推定クラス埋め込み及び前記対象者のモデル推定クラスのそれぞれによって変換された前記入力画像から前記符号器が生成した特徴を用いて前記新規画像を生成することを特徴とする方法。
【請求項14】
入力画像を新規画像に転送するドメイン転送モデルを提供し、
クラスのそれぞれについてのモデルによって学習された、複数のそれぞれのモデル推定クラス埋め込みを用いて、連続効果の複数の連続クラスの目標クラスに前記入力画像を変換するための連続効果を適用し、
前記ドメイン転送モデルを用いて前記入力画像を新規画像に転送することを特徴とする方法。
【請求項15】
前記進行効果がエージング効果を含み、
前記複数のそれぞれのモデル推定クラス埋め込みが、それぞれのモデル推定年齢の埋め込みを含み、
前記目標クラスが目標年齢を含むことを特徴とする請求項14記載の方法。
【請求項16】
前記入力画像を転送する際、前記ドメイン転送モデルは、
前記入力画像の符号化された特徴を生成し、
前記入力画像内の対象者のモデル推定年齢に応じて複数のそれぞれのモデル推定年齢の埋め込みから決定された個人化された残存の年齢の埋め込み、及び、全集団の間で共有されるエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定の残存の年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みを用いて前記符号化された特徴を変換し、
変換された前記符号化された特徴を用いて前記新規画像を生成するように動作することを特徴とする請求項15記載の方法。
【請求項17】
前記モデルが、前記モデル推定年齢を決定する年齢推定器を備えることを特徴とする請求項16記載の方法。
【請求項18】
前記年齢推定器は、符号器と共に訓練された分類器を備え、
前記符号器は、前記符号化された特徴を生成するように構成され、
前記年齢推定器は、前記符号器によって符号化されたそれぞれの符号化された特徴を用いて、新規画像内の対象者のそれぞれのモデル推定年齢を決定するように訓練されることを特徴とする請求項17記載の方法。
【請求項19】
前記モデル推定年齢の埋め込みは、前記符号器と共に前記年齢推定器の前記訓練の間に定義され、
前記モデル推定年齢の埋め込みのそれぞれを、前記それぞれのモデル推定年齢に関連付けることを特徴とする請求項18記載の方法。
【請求項20】
前記連続効果に関連付けられた製品およびサービスのうちの少なくとも1つについての推奨を提供することを特徴とする請求項14から19のいずれかに記載の方法。
【請求項21】
前記推奨は、前記入力画像の皮膚の分析および嗜好のユーザ入力の一方または両方に応じて生成されることを特徴とする請求項20記載の方法。
【請求項22】
前記目標年齢が、前記推奨に応じて決定されることを特徴とする請求項20又は21に記載の方法。
【請求項23】
前記推奨を提示するために、前記入力画像から生成された注釈付き画像を提供することを特徴のする請求項20から22のいずれかに記載の方法。
【請求項24】
製品、サービス又はその両方を購入するための電子商取引インターフェースを提供することを特徴のする請求項20から23のいずれかに記載の方法。
【請求項25】
前記連続効果は、エージング効果であり、
前記製品は、若返り製品、エージング防止製品および化粧用メーキャップ製品のうちの1つを含み、
前記サービスは、若返りサービス、エージング防止サービス、化粧品サービスの1つを含むことを特徴とする請求項20から24のいずれかに記載の方法。
【請求項26】
処理ユニットと、それに結合された記憶デバイスとを備えるコンピューティング装置であって、
前記記憶ユニットは、命令であって、前記処理ユニットで実行されると請求項1から25に記載のいずれかの方法を実行するように前記コンピューティング装置を構成する命令を記憶することを特徴のするコンピューティング装置。
【請求項27】
非一時的記憶デバイスであって、コンピューティング装置の処理ユニットで実行されると請求項1から25に記載のいずれかの方法を実行するように前記コンピューティング装置を構成する命令を記憶する非一時的記憶デバイスを含むことを特徴とするコンピュータプログラム製品。
【請求項28】
処理ユニットと、それに結合された記憶デバイスとを備えるコンピューティング装置であって、
前記記憶ユニットは、命令を記憶し、前記処理ユニットによって前記命令が実行された際に前記コンピューティング装置を、
a.製品とサービスとの少なくとも一方を推奨し、
b.入力画像から生成された新規画像と目標年齢とを含む年齢シミュレーション画像を提供し、前記新規画像は、請求項1から25に記載のいずれかの方法に従って生成するように構成されることを特徴とするコンピューティング装置。
【発明の詳細な説明】
【技術分野】
【0001】
《相互参照》
本出願は、2020年12月23日に出願された米国仮出願第63/129,794号および2021年5月25日に出願されたフランス出願第FR 2105404号の優先権を主張する。各出願の全内容は、参照により本明細書に組み込まれる。
【0002】
本出願は、ニューラルネットワーク技術を用いて更新された画像を生成し、顔画像のエージング等の効果を連続的に適用する画像処理および画像処理に関するものである。
【背景技術】
【0003】
年齢の進行としても知られる顔のエージングは、個人のアイデンティティ情報を保持しながら、入力された顔画像を自然なエージング又は若返り効果で美的にレンダリングすることを目的とする。近年の深層学習の進歩に伴い、顔の合成(face synthesis)は、シミュレートされた顔画像における画像の忠実度(image fidelity)および年齢の精度の実質的な改善も示している[10,41,24]。様々な残りの問題(例えば、連続的なエージング)を解決するための主な課題は、データの欠如である。例えば、顔のエージングの多くの研究作業[20,41,43,10]は、画像を4~5の年齢によるグループ(30歳より小、30歳~40歳、40歳~50歳、50歳より大、等)にグループ化する必要があり、各年齢での限られた量のデータのため、目標年齢のグループ内でのみ画像を生成することができる。別の重要な問題は、エージングパターンが個体ごとに異なり得るので、年齢の進行における個人の特性をどのように維持するかである。
【0004】
従来の顔のエージングは、主に2つのアプローチ、即ち、物理的モデルベース(physical model-based)の[3,42]と、プロトタイプベース(prototype-based)の[37,16]とを含む。物理的モデルに基づく手法は、しばしば、皮膚の皺、顔の形状、筋肉の変化および毛髪の色などを考慮した、複雑な物理的モデリングからなる。このタイプの手法は通常、膨大な量のデータを必要とし、計算上非常に高価である。プロトタイプベースの手法はまず、予め定義された年齢のグループ内の平均な顔を計算することによってグループベースの設計を探索するため、個人化されたエージング情報を保持することができない。更にこれらの手法は全て、連続的な顔のエージングに適用できない。
【0005】
変分オート符号器(variational autoencoders、VAEs)及び生成的敵対ネットワーク(generative adversarial networks、GANs)[9]のような最近の生成モデルの成功に続いて、画像変換タスクに関し、研究者は、それらの手法を顔の合成に適合させることに専念する努力をしてきた。IPCGAN[41]は、年齢の推定損失を実施することによる明白な年齢の効果を有する顔画像を生成することに著しい進歩を示している。後の変形例[43]は、識別器が複数のスケールで顔のエージングの理解を改善するためのピラミッド構造を生成する。これらの手法の中で、連続的なエージングは探求されなかった。Heら[10]はグループベースの訓練のためのマルチ・ブランチ・生成器(multi-branch generator)を導入し、2つの隣接する年齢のグループ間の潜在的な表現の線形補間を介して連続的なエージングを近似するアイデアを提案した。[24]の著者は、代わりに2つの隣接するグループ間の学習された年齢潜在コードに対して実行される、同様の線形補間アプローチを用いて問題に取り組んでいる。これらのタイプの手法は年齢の進行が2つの隣接するグループの間で線形であり、学習されたグループの埋め込みを、年齢の中央値の埋め込みとして直接用いることができると仮定する。結果として、これは、生成された画像における目標年齢のシフトをもたらし得る。直観的には、この非線形性が人々が異なるステージで同じ速度でエージングしないこととして解釈することができる。更にそのような補間ベースの方法は分離が不完全である場合、個人的な特徴を変更してしまう虞がある。
【発明の概要】
【0006】
上記の問題に対処するために、単純なクラス推定器(例えば、エージング効果のための年齢推定器、連続的な笑顔の効果のための笑顔の進行(クラス)等)が、通常の符号器-復号器アーキテクチャに埋め込まれる、統合されたネットワークによるエージング等の連続的な顔の効果の適用を達成する新規のアプローチが提案される。これにより、ネットワークは、全ての進行のステージ又はクラス(例えば、年齢、笑顔の度合い等)のモデル推定クラス(例えば、年齢、笑顔等)の埋め込みを学習でき、従って、適切なアンカー進行ステージ(例えば、年齢、笑顔の度合い等)グループを選択する際の手動の努力なしに、連続効果情報を表す。年齢の例では目標年齢(目標年齢は連続効果におけるクラスの1つ)が与えられると、顔のエージングの2つの側面を考慮する個人化された年齢の埋め込みが導出され、それは1)個人のエージング情報を保持する、画像内の対象者の現在の年齢での個人化された残存の年齢の埋め込み、及び、2)全集団の間で共有されるエージングパターンを符号化する、目標年齢での典型的な顔のエージングの基礎である。詳細な計算および訓練メカニズムについて述べた。次いで、計算された目標年齢の埋め込みは、最終画像の生成のために用いられる。FFHQ[15]及びCACD2000[5]データセットに関する実験を詳述する。結果は、定性的にも定量的にも、様々な態様において最新技術を上回る有意な改善を示す。
【0007】
年齢コンテキストでは、実施形態が自己推定(例えば、「自己」がモデルによる推定を参照する(例えば、モデル推定))連続的な年齢の埋め込みを自己推定し、年齢推定器を生成器と合同訓練することによって、顔のエージングタスクのための個人化された年齢の埋め込みを導出するための新規の方法を含む。実験および分析は生成された画像が個人化された情報をより良好に保持し、より正確なエージングの制御を達成し、より細かいエージングの詳細を提示することを、定量的および定性的に実証する。本明細書の実施形態による連続的なエージングアプローチは、適切な年齢のグループを定義するための手動の努力なしに、より良好に整列された目標年齢を有する画像を生成し、より詳細な個人的特徴をより良好に保持する。
【0008】
関連する識別モデルから個人化された年齢の埋め込みをモデル推定するための提案された技法および方法等は、余分な複雑さを導入することなく、他の条件付き画像から画像への変換タスクに容易に適用できる。特に、連続的な状態及びモデリングを伴うタスク(例えば、笑顔でないもの、笑顔等)は、このセットアップから恩恵を受けることができる。
【0009】
一実施形態では対象者の入力画像から、対象者の目標年齢における新規画像を生成するための統合年齢シミュレーションモデルを提供することと、前記モデルを用いて前記新規画像を生成することとを含む方法が提供され、前記統合年齢シミュレーションモデルは連続的なエージング情報を表す複数の連続する年齢のそれぞれにおける複数のそれぞれのモデル推定年齢の埋め込みを提供し、前記モデル推定年齢の埋め込みは生成器の合同訓練を通じて学習され、年齢推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、前記年齢推定器は、それぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、対象者のモデル推定年齢を決定するように構成され、前記生成器は、前記目標年齢と前記対象者のモデル推定年齢とに従って決定された前記モデル推定年齢の埋め込みのそれぞれによって変換された前記入力画像から、前記符号器が生成した特徴を用いて前記新規画像を生成する。
【0010】
一実施形態では、前記符号器-復号器アーキテクチャが、前記入力画像内の前記対象者のモデル推定年齢を推定する年齢推定器を備える。
【0011】
一実施形態では、前記モデルの符号器が前記入力画像を処理して、前記年齢推定器が善意符号器が生成した特徴を処理して、前記モデルが推定した年齢を決定する。
【0012】
一実施形態では、前記符号器によって生成された特徴は、前記モデル推定年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれのものと、前記目標年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれのものと、を含む個人化された年齢の埋め込みによって変換される。一実施形態では、前記個人化された年齢の埋め込みは、前記対象者のアイデンティティ情報を保持するためのモデル推定年齢に応じて複数のそれぞれの前記モデル推定年齢の埋め込みから決定された個人化された残存の年齢の埋め込みと、全集団の間で共有されたエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みとを含む。
【0013】
一実施形態では、前記個人化された年齢の埋め込みが、アフィン変換に従って適用される。
【0014】
一実施形態では、前記生成器は、前記個人化された年齢の埋め込みによって変換された前記符号化された特徴を処理することで前記目標年齢における前記新規画像を生成する。
【0015】
一実施形態では、前記モデルは、深層学習ニューラルネットワークモデル及び生成的敵対ネットワークベースモデルの一方または両方で構成される。
【0016】
一実施形態では、当該方法が、製品およびサービスの一方または両方についての推奨を取得するための推奨インターフェースを提供する。
【0017】
一実施形態では、当該方法が製品およびサービスの一方または両方を購入するための電子商取引購入インターフェースを提供することを含む。
【0018】
一実施形態では、当該方法が前記入力画像を受信し、表示のために前記新規画像を提供する。
【0019】
一実施形態では、前記入力画像および前記新規画像はそれぞれが、前記対象者の顔を含む。
【0020】
一実施形態によれば、対象者の入力画像から、前記対象者の連続効果の目標クラスにおける新規画像を生成するための統合されたモデルを提供することと、前記モデルを用いて前記新規画像を生成することとを含む方法が提供され、前記モデルは、連続効果情報を表す複数の連続する目標範囲のそれぞれにおける複数のそれぞれのモデル推定クラス埋め込みを提供し、前記モデル推定クラス埋め込みは、生成器の合同訓練を通じて学習され、効果推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、前記効果推定器はそれぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、それぞれの対象者のモデル推定クラスを決定するように構成され、前記生成器は、前記目標クラスに従って決定された前記モデル推定クラス埋め込み及び前記対象者のモデル推定クラスのそれぞれによって変換された前記入力画像から前記符号器が生成した特徴を用いて前記新規画像を生成する。
【0021】
一実施形態によれば、入力画像を新規画像に転送するドメイン転送モデルを提供し、連続効果を連続的に適用して、連続効果の連続クラスのそれぞれについてのモデルによって学習された、複数のそれぞれのモデル推定クラス埋め込みを用いて、前記連続効果の複数の連続クラスの目標クラスに前記入力画像を変換し、前記ドメイン転送モデルを用いて、前記入力画像を前記新規画像に転送する方法が提供される。一実施形態によれば、連続効果はエージング効果であり、目標クラスは目標年齢である。一実施形態によれば、入力画像を転送する際、ドメイン転送モデルは以下のように動作する。a)前記入力画像の符号化された特徴を生成し、b)前記符号化された特徴を変換し、対象者のアイデンティティ情報を保持するために、入力画像内の対象者のモデル推定年齢に応じて、複数のそれぞれのモデル推定クラス埋め込みから決定された個人化された残存の年齢の埋め込み、及び、全集団の間で共有されたエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定の残存の年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みを用いて前記符号化された特徴を変換し、c)変換された前記符号化された特徴を用いて前記新規画像を生成する。一実施形態によれば、前記モデルは、前記モデル推定年齢を決定する年齢推定器を含む。一実施形態によれば、年齢推定器は(前記モデルの)符号器と共に訓練された分類器を備え、前記符号器は、前記符号化された特徴を生成するように構成され、前記年齢推定器は、前記符号器によって符号化されたそれぞれの符号化された特徴を用いて、新規画像内の対象者のそれぞれのモデル推定年齢を決定するように訓練される。一実施形態によれば、前記モデル推定クラス埋め込みは、前記符号器と共に前記年齢推定器の訓練の間に定義され、前記モデル推定クラス埋め込みのそれぞれを、前記それぞれのモデル推定年齢に関連付ける。
【0022】
一実施形態によれば、当該方法は、前記連続効果に関連付けられた製品およびサービスのうちの少なくとも1つについての推奨を提供することを含む。一実施形態によれば、前記推奨は、前記入力画像の皮膚の分析および嗜好のユーザ入力の一方または両方に応じて生成される。一実施形態によれば、前記目標年齢は、前記推奨に応じて決定される。一実施形態によれば、当該コンピューティング装置は、推奨のために電子商取引サービスと通信するように構成される。一実施形態によれば、当該コンピューティング装置は、前記推奨を提示するために前記入力画像から生成された注釈付き画像を提供するように構成される。一実施形態によれば、当該方法は、製品、サービス又はその両方を購入するための電子商取引インターフェースを提供する。一実施形態によれば、当該方法は、カメラから前記入力画像を受信することを含む。一実施形態によれば、連続効果はエージング効果であり、前記製品は、若返り製品、エージング防止製品および化粧用メーキャップ製品のうちの1つを含み、前記サービスは、若返りサービス、エージング防止サービス及び化粧品サービスのうちの1つを含む。
【0023】
一実施形態によれば、処理ユニットと、それに結合された記憶デバイスとを備えるコンピューティング装置が提供され、記憶ユニットは処理ユニットによって実行されたときに、方法の実施形態のいずれか1つによる方法を実行するようにコンピューティング装置を構成する命令を記憶する。
【0024】
一実施形態によれば、コンピューティング装置の処理ユニットによって実行されると、方法の実施形態のいずれか1つによる方法を実行するように前記コンピューティング装置を構成する命令を記憶する非一時的記憶デバイスを備えるコンピュータプログラム製品が提供される。
【0025】
一実施形態によれば、処理ユニットと、それに結合された記憶デバイスとを備えるコンピューティング装置が提供され、前記記憶ユニットは、命令を記憶し、前記処理ユニットによって前記命令が実行された際に前記コンピューティング装置を、製品およびサービスのうちの少なくとも1つに対する推奨し、入力画像から生成された新規画像と目標年齢とを含む年齢シミュレーション画像を提供し、前記新規画像は、当該方法の実施形態のいずれか1つに従って生成される。
【図面の簡単な説明】
【0026】
【
図1】本明細書の一実施形態による、訓練構成を示すモデルアーキテクチャのブロック図である。
【
図2A】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2B】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2C】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2D】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2E】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2F】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示すについての従来技術によるモデルからの結果である。
【
図3A】本明細書の実施形態によるモデルからの結果を有する入力画像を示す画像のアレイであり、例についての従来技術による3つのモデルからの結果である。
【
図3B】本明細書の実施形態によるモデルからの結果を有する入力画像を示す画像のアレイであり、例についての従来技術による3つのモデルからの結果である。
【
図3C】本明細書の実施形態によるモデルからの結果を有する入力画像を示す画像のアレイであり、例についての従来技術による3つのモデルからの結果である。
【
図3D】本明細書の実施形態によるモデルからの結果を有する入力画像を示す画像のアレイであり、例についての従来技術による3つのモデルからの結果である。
【
図4】本明細書の実施形態によるモデルからの結果を有する入力画像と、エージングのより詳細を示すそれらの結果の拡大顔作物とを示す画像のアレイである。
【
図5】A及びBは、本明細書の実施形態によるモデルによる結果を有する入力画像を示す画像のアレイであり、21歳から4歳を超える連続的な経年変化を示す2つの例についての従来技術によるモデルからの結果である。
【
図6】A及びBは、本明細書の実施形態によるモデルからの結果と、従来技術によるモデルからの結果とを比較する、連続的なエージングの混同行列を示す。
【
図7】本明細書の一実施形態によるモデルからの変換された識別符号化間の線形補間を示す画像のアレイである。
【
図8】残存の埋め込みを用いる本明細書の実施形態による第1のモデルと、残存の埋め込みを用いない本明細書の実施形態による第2(比較器)モデルとからの入力画像および結果を示す画像のアレイである。
【
図9】一実施形態による複数のコンピューティング装置を備えるコンピュータシステムのブロック図である。
【0027】
【0028】
【0029】
【0030】
【0031】
【0032】
【0033】
【0034】
【発明を実施するための形態】
【0035】
特に顔のエージングを含む顔の合成は、生成的敵対ネットワーク(generative adversarial networks、GAN)を用いることによって画像の忠実度(image fidelity)の実質的な改善をした主要なトピックの1つであった。ほとんどの既存の顔のエージングアプローチはデータセットをいくつかの年齢のグループに分割し、グループベースの訓練戦略を活用するが、これは本質的に微調整された連続的なエージングの合成を提供する能力を欠いている。一実施形態では、線形的な年齢推定器をGANベースのモデルに埋め込む、統合ネットワーク構造が提供され、埋め込まれた年齢推定器は顔の画像の年齢を推定し、年齢の進行/退行のための個人化された目標年齢の埋め込みを提供するために、符号器及び復号器と一緒に訓練される。個人化された目標年齢の埋め込みは、現在の年齢の個人化された残存の年齢(personalized residual age)の埋め込みと、目標年齢の典型的な顔(exemplar-face)のエージングの基礎(aging basis)との両方を組み込むことによって合成され、ここで、全ての先行するエージング基盤(aging bases)は、線形的な年齢推定器の学習された重みから導出される。この定式化は年齢を推定し、個人化されエージングされた顔を生成するという統合された視点をもたらし、モデル推定年齢の埋め込みが、1つの年齢ごとに学習され得る。異なるデータセットに関する定性的および定量的評価は、最新技術に勝る、連続的な顔のエージングの側面における有意な改善をさらに実証する。
【0036】
《関連した研究》
-顔のエージングモデル
従来の手法は、物理的モデルベース(physical model-based)のアプローチ[3,42,34]及びプロトタイプベース(prototype-based)のアプローチ[31,37,16,17]として分類することができる。物理的モデルに基づく手法は、皮膚の皺[42,2,3]、頭蓋顔面成長(craniofacial growth)[38,27]、筋肉の構造[34,28]及び顔の構成要素[35,36]等のエージングの特定の副作用(sub-effects)に対処するためのモデルを作成することに焦点を当てている。これらの手法は、しばしば非常に複雑であり、典型的には、異なる年齢の同じ人物の顔の画像のシーケンスと、エージングのメカニズムの専門的な知識とを必要とする。プロトタイプベースのアプローチ[31,37,4]は、各年齢のグループ内で平均な顔が推定されるグループベースの学習を用いて顔の進行の問題を探索する。しかしながら、個人化されたエージングパターン及びアイデンティティ(identity)情報は、そのような戦略において十分に保たれていない。[40,44,33]では、入力画像の乏しい(sparse)表現が個人化された顔の変換パターンを表現するために利用されている。このようなアプローチにより、個人化されたエージングパターンはある程度保たれるが、合成された画像には品質上の問題がある。
【0037】
最近、深層学習(deep learning)によるアプローチが、個人化されたエージング変換をモデル化するために採用されている。Wangら[39]は、若年から老年へのよりスムーズな移行(transition)のために一連の反復フォワードパス(recurrent forward passes)を活用する反復ニューラルネットワークモデル(recurrent neural network model)を提案した。後のGANベースの研究[18,41,43]は、画像の忠実度に関して優れたブレークスルーを示している。Liら[18]は滑らかな合成画像を得るため、局所パッチ(local patches)及び融合された局所的および全体的特徴のための3つのサブネットを設計した。IPCGAN[41]は良好な顔のエージング効果を達成するために、生成された画像上の年齢の推定損失およびアイデンティティ損失を強制する。年齢の正確性およびアイデンティティの永続性に対処するために、更なる努力がなされてきた。Yangら[43]及びLiuら[20]は出力画像のより正確な年齢を導くために、弁別器損失(discriminator losses)の修正を導入している。[21]の著者らは、ウェーブレットパケット変換(wavelet packet transformation)と多重的な顔の属性の符号化(multiple facial attribute encoding)を用いて、合成画像の画質を改善した。しかしながら、これらの手法[41,43,20]は、目標年齢のグループを表すワンホットベクトル(one-hot vector)を連結することによって出力画像を条件付ける。連続的なエージング条件を得るために、ベクトルははるかに大きい次元に拡張され、これは、訓練を不安定にし、より複雑にする。更にそれは、膨大な量の訓練画像を必要とする。
【0038】
潜在空間(latent space)内の特徴を補間することを目的とするいくつかの研究[46,1,32]は連続的なエージングをサポートする方向を提供したが、それらはアイデンティティを維持しながら高品質の画像を生成する能力が限られている。[10]において、著者らは連続的な年齢の進行を達成するために、グループに基づく訓練に基づいて、隣接する年齢のグループからの特徴ベクトル(feature vectors)を線形補間することを提案した。同様に、[24]は、2つの隣接するアンカー年齢の埋め込み(anchor age embeddings)の間を直線的に補間する。これらの方法は埋め込みがアンカー間で直線的に整列されるという仮定に従い、アンカー年齢の決定を重要にする。本研究では、より良好な連続的なエージングモデリングを達成しながら手動の努力を伴わない連続モデル推定年齢の埋め込みを提示した。
【0039】
-生成的敵対ネットワーク
生成的敵対ネットワーク[9]は、画像から画像への変換タスクに関する一般的な選択肢であった。CycleGAN[47]及びPix2Pix[14]は、それぞれ、非ペアの訓練サンプル及びペアの訓練サンプルを用いて、2つのドメイン(domains)間の画像変換を探索した。より最近の研究[6,19]は、マルチドメイン変換を可能にするための訓練技術を提案した。[22,23]では、筆者らはまず、基本的なGANの拡張として条件付き画像生成を探索した。後の研究[7,26]は更に、条件をより効果的な方法でモデルに変換および挿入することにより、多くの条件付き画像変換タスクに対して優位性を示している。
【0040】
-顔年齢の推定
見かけの年齢を予測するタスクは、与えられた顔の画像ごとに連続的な数値を推定する退行の問題を参照する。見かけ年齢の深い期待値(Deep Expectation of Apparent Age、DEX)[30]は、分類損失および退行損失を組み合わせることによって、MORPH II[29]上で「3.25」の平均絶対誤差(mean absolute error、MAE)を達成する手法を提案した。Panら[25]はMORPH IIのMAEを「2.16」に更に改善するために、確率分布に平均分散損失(mean-variance loss)を用いることを提案している。
【0041】
《モデルアーキテクチャの実施形態》
図1は、一実施形態によるモデルアーキテクチャ100の図である。モデル100は、訓練構成で示されている。本実施形態では、入力画像102及び実画像104が処理のために受信され、偽画像106が生成される。入力画像は、任意の年齢であり得る、現実の年齢または現在の年齢における対象者の画像を含む。年齢は、画像自体の年齢ではなく、画像内の対象者の年齢に関連する。実画像104は目標年齢における別の対象者の画像を含む(例えば、画像は、目標領域(特定の年齢)の特徴を表す実像である)。目標年齢は、同じ年齢を含む、現実の年齢/現在の年齢に対する任意の年齢であり得る。
【0042】
本実施形態では年齢推定器が画像生成器と一緒に訓練され、E(例えば、108)は特徴(ei)110を生成する共有符号器であり、C(例えば、112)は年齢推定タスクのために分岐される。Cは、複数の年齢クラスにわたる年齢の確率分布である出力βθ114を生成する。個人化された年齢の埋め込み変換(PAT、数式2 116)は2つの構成要素に基づく:1)現在の年齢での残存のエージングの基礎(例えば、Cによって決定されるモデル推定年齢);及び、2)目標年齢118での典型的な顔のエージングの基礎の例(例えば、目標年齢が入力として受け取られる)。PATは、出力γφ120を生成する。一実施形態では、目標年齢が特定の絶対年齢(例えば、29歳を表す「29」)である。一実施形態では、目標年齢が画像または他のベースラインの年齢における現在の年齢に対するデルタ年齢(delta age)または年齢差(例えば、正または負の整数(例えば、「-5」))である。
【0043】
本実施形態では、出力120及び114(数式3を参照)をそれぞれ用いる動作122及び124による、特徴110のアフィン射影変換(affine projection transformation)を介して、変換された識別符号化(ei,ti)(例えば、126)が偽画像106(出力)を生成するために、G(例えば、128において)による復号のために生成される。
【0044】
モデル全体(100)は年齢損失(例えば、130,132及び134)、アイデンティティ損失136及び弁別器D(140)を介した敵対的損失138を用いて訓練される。以下で更に説明するように、第2の符号器E^142及び第2の年齢推定器C^146が(例えばモデル100の訓練構成において)用いる(なお、「E^」は「E」の真上に「^」が付された文字を表す。他も同様とする。)。
【0045】
図1は、第1のグループ148及び第2のグループ150を、それぞれ破線のボックスで示している。第1のグルーピング148は一実施形態による符号器構成要素を強調表示し、第2のグルーピング150は訓練環境において有用な復号器または生成器側構成要素を強調表示し、これらの構成要素は、訓練中の逆伝搬(backpropagation)に関与しない。
【0046】
図1に示すように、一実施形態によれば、モデルは4つの構成要素、即ち識別符号化モジュールE 108、2)年齢推定モジュールC 112、3)個人化年齢の埋め込み変換モジュールPAT 116、及び、4)年齢顔生成モジュールG 128を備える。符号化ネットワークEは与えられた入力画像x
i(102)からアイデンティティ情報を抽出するために適用され、符号化110はe
i=E(x
i)として示される。次いで、埋め込まれた年齢推定器Cが、識別符号化110の年齢の確率分布114を得るために用いる。モデル推定年齢分布および目標年齢t 118に基づいて、個人化された年齢の埋め込み変換PATが識別符号化e
iに適用される。最後に、合成された顔(偽画像106)は変換された識別符号化PAT(e
i;t)から復号される(例えば、126は生成器G 128による)。
【0047】
全てのモジュールは、正確なエージングのための平均分散年齢損失(mean-variance age loss)[25](130,132及び134)、アイデンティティ保持のためのL1再構成損失(L1 reconstruction loss)136及び画像リアリズム(image realism)のための敵対的損失(the adversarial loss)138を含む実施形態に従って、3つの目的の下で合同でエンド・ツー・エンド(end-to-end)で最適化される。
【0048】
顔のエージング訓練を誘導するために、事前訓練された年齢分類器を必要とする多くの従来の顔エージング作業[41,10]とは異なり、モデル100は、顔のエージング及び年齢推定を同時に達成するための統合されたフレームワークを利用することにより、モデル推定年齢の埋め込みを直接取得する。より好ましくは、埋め込まれた年齢推定器112が補間ベースのアプローチと比較して、より正確な手法で個人化された連続的な年齢の変換を可能にするだけでなく、顔の画像生成のためのガイダンスも提供する(例えば、G 128において)。
【0049】
-配合(Formulation)
識別年齢推定モジュール(C):先行研究[41,10]では、顔のエージング及び顔の年齢推定が2つの独立したタスクとして扱われ、ここで、年齢推定モデル、通常、分類器は別々に事前訓練され、次いで、自然なエージング効果を実現するために生成器を誘導するために用いられる。本明細書の一実施形態によれば、2つの上記のタスクが本質的に関連するので、符号器Eを共有することにより、1つの統合された構造を用いて、両方の目標を達成することができる。
【0050】
モデル100の一実施形態では、グローバル平均プーリングレイヤ(a global average pooling layer)及び全結合レイヤ(fully-connected layer)を含む年齢推定器C 112がE 108から分岐される。最後に、(例えばβθ 114の)年齢確率分布pi∈RKはソフトマックス関数(softmax function)を実行で得ることができ、ここで、Kは、年齢クラスの数を示す。一実施形態では、K = 100である。パラメータmiは、分布piから決定される。
【0051】
統合された設計は、3つの利点を提供し得る。第1に、それは、十分に訓練された年齢推定器モデルを事前に取得する必要性を排除する。第2に、アイデンティティの符号化に関する年齢推定は、モデルがより年齢特有のアイデンティティの表現を確立するのに役立つ。第3に、全結合レイヤにおける重みW
Cは、距離学習(metric learning)の観点から典型的な顔の情報を符号化する年齢の埋め込みベース(バイアス項がゼロに設定される)としても用いられる。表記上、
【数1】
ここで、W
C∈R
K×Dであり、a
j∈R
Dであり、Dは、識別符号化のチャネル次元に等しい。この次元Dは、
図1の140における弁別器Dに関連しないことが理解されるのであろう。
【0052】
図1の実施形態ではエージングシミュレーション又はエージング効果として説明されているが、連続効果を適用する他のマルチクラスドメイン転送が考察されている。一般的な意味では、年齢の埋込み基準が年齢=51、又は、笑顔の度合い=40等の特定のクラスの潜在的な表現であるクラス埋め込みである。
【0053】
個人化された年齢の埋め込み変換(Personalized Age embedding Transformation 、PAT):顔のエージングは、様々な段階の様々な人々に対して様々な顔の兆候/症状が異なる年齢であるため、本質的に困難で曖昧な作業である。従って、顔のエージングを行う際には、個人化が望まれる。モデル100では、この個人化が年齢の確率分布p
i,j∈R
Kと、典型的な顔のエージングの基礎a
i,j∈R
Dとから計算された残存の年齢の埋め込みによって特徴付けられ、ここで、iはサンプルiを示し、j∈1,2,・・・,Kは年齢を示す。任意の目標年齢t
iに対する個人化されたエージングの基礎を得るために、プロセスは、以下の動作として定式化される。
【数2】
【0054】
この
【数3】
の期間は、年齢の確率分布に基づいて、年齢ベースの期待値をとることによって、アイデンティティの個人化されたエージングの基礎を表す。次いで、残存の年齢の埋め込みは、個人化されたエージングの基礎から現在の(モデル推定された)年齢a
i,j=miにおける典型的な顔のエージングの基礎を減算することによって得られる。残存の年齢の埋め込みは、モデル推定年齢での一般的なエージング因子を除去しながら、アイデンティティの個人化された因子を保持する。最終的な個人化された目標年齢の埋め込みである
【数4】
は、目標のエージングの基礎a
i,j=tiに典型的なの顔のエージングの基礎を加算することによって得られ、これは全集団の間の目標年齢における共有エージング因子を符号化する。個人化された目標年齢の埋め込み
【数5】
を用いて、条件付きBN[8]及びAdaIN[13]と同様に、E(x
i)=e
iを符号化する元のアイデンティティに関するスケール及びシフト係数を導出するために、適用されるアフィン射影変換が行われる。
【数6】
実験では、有意な性能差
【数7】
は観察されなかった。
【0055】
連続的なエージング:全結合レイヤからのエージング基準は、あらゆる単一の年齢を符号化するので(例えば、一実施形態によれば、1年の増分で)、任意の目標年齢を選択することによって(入力118として)連続的なエージングが自然にサポートされる。いくつかの以前のグループベースのアプローチは、潜在空間における線形補間を介して連続的なエージングをサポートし得るが、アンカー年齢のグループは注意深く選択される必要がある。
【0056】
しかしながら、実施形態の技法および方法は年齢ごとに別々に(例えば、各クラスが1年の範囲であるクラス1,2,3,・・・,Kにおいて)エージングの基礎を学習することによって、微調整された年齢の進行を明示的にモデル化する。
【0057】
-目的(Objective)
一実施形態によれば、目的の設計は合成した顔画像106が正確な年齢の進行/退行を反映し、アイデンティティを保持し、現実的に見えることを確実にする。
【0058】
平均分散年齢損失:年齢損失は、ネットワークにおいて2つの役割を果たす:1)推定器(C)が全年齢について良好なエージングの基礎の学習を助ける;及び、2)生成された偽画像の年齢を推定することによって生成器(G)を誘導する。両方のゴールを達成するために、一実施形態によれば、[25]によって提案された平均分散年齢損失が採用される。入力画像x
iおよび年齢ラベルy
iが与えられると、平均分散損失は、以下のように定義される。
【数8】
ここで、
【数9】
は分布の平均(例えば数式2から) であり、
【数10】
は分布の分散である。
【0059】
年齢推定タスクにおける他の損失よりも効果的であることに加えて、平均分散損失はまた、一実施形態によれば、隣接する年齢ベースについての年齢の連続性を捕捉しながら、比較的集中した年齢分布を学習するという要望を満たす。一実施形態によれば、監督された年齢損失は、以下の通りである。
【数11】
【0060】
顔のエージングを案内するために、一実施形態によれば、埋め込まれた年齢推定器146は一実施形態によれば、変換された識別符号化レベルと生成された画像レベル(
図1に示す)との両方に適用される。
【数12】
【0061】
年齢推定器C^146及び符号器E^142が変換された識別符号化126及び偽画像106上で用いられるとき、それらのそれぞれの重みは、逆伝搬中に更新されない。
【0062】
L1再構成損失:別の重要な態様は一実施形態によれば、個体のアイデンティティを保持することである。L1ピクセル単位の再構成損失(例えば、アイデンティティ損失136)は、目標年齢をそのモデル推定年齢に設定することにより、合成された顔に適用される。具体的には、以下のように定式化される。
【数13】
【0063】
アイデンティティ基準(identity criteria)を実施するために、StarGAN[6]で提案されているように、サイクル一貫性損失(cycle-consistency loss)を用いて実験を行った。画素ごとのL1再構成損失(L1 reconstruction loss)はハイパーパラメータ(hyper-parameters)を調整するための広範な努力なしに目標を達成するのに十分な開示された。
【0064】
敵対的損失(Adversarial Loss):高忠実度の画像を生成するために、一実施形態によれば、GAN損失(例えば138)は、無条件の敵対的訓練方式(adversarial training manner)で適用される。より具体的には、実施形態によれば、PatchGAN[14]弁別器(140)が採用され、ヒンジ損失(hinge loss)に対して最適化され以下のように定式化される。
【数14】
ここで、データ分布は、x~p
data(x)及びz~p
data(z)として表される。更に以下が示される。
【数15】
【0065】
実験では識別器を訓練するために目標年齢tiに等しいか又はそれに近い年齢の実例をサンプリングすることが、学習プロセスを安定化するのに役立つことが観察される。
【0066】
実施形態によれば、全ての目的は以下のように、異なるバランス係数(balancing coefficients)を用いて合同で最適化される。
【数16】
【0067】
-実験
データセット:モデルをFFHQ[15]及びCACD2000[5]で評価した。FFHQには、解像度1024x1024の70000個の画像が含まれている。[24]としてのデータ前処理手順に続いて、id0~68999を有する画像を訓練セットとして用い、id69000~69999を有する画像を試験に用いた。画像は、性別を区別する際の信頼性が低いこと、年齢を推定する際の信頼性が低いこと、暗い眼鏡を着用すること、Face++(顔属性注釈API: URL www.faceplus.com)によって注釈付けされた顔の属性に基づき、極端な姿勢および角度のためにフィルタリングされた。
【0068】
[24]からの注釈(annotation)は、年齢のグループラベルのみを含むので、年齢ラベル情報は[45]から取得した。年齢のグループラベルと年齢ラベルとの両方を調整するため、年齢ラベルが年齢のグループラベルと一致しない画像が更にフィルタリングされる。これは、訓練のための12488個の男性の画像および13563個の女性の画像、ならびに、テストのための279個の男性の画像および379個の女性の画像をもたらす。CACD2000は、年齢が14歳~62歳の範囲の163446個の画像からなり、10%が評価のために無作為に採取された。Dlib(Dlibツールキット: URL dlib.net)を用いて、男性および女性に画像を分離するためにFace++を用い、顔のランドマークを抽出した。
【0069】
実装:エージングパターンは男性と女性で異なるので、2つの別々のモデルが、256x256及び512x512解像度の両方についてFFHQデータセット上で訓練された。モデルアーキテクチャはCycle-GAN[47] に基づいて変更される。λmv1及びλmv2は、数式4において0.05及び0.005に設定される。λfake1及びλfake2は、数式6において0.4及び1に設定される。数式10において、λage、λidt、λadvは、それぞれ、0.05,1及び1に設定される。
【0070】
-定性的評価
顔の年齢:FFHQの試験結果を、[24]からの結果と比較して示す。[24]のイメージは、提供されたコード(ライフスパン公式コード: URL github.com/royorel/Lifespan_Age_ Transformation_Synthesis)を用いて生成される。異なる年齢に亘るモデル性能を説明するため、4つの代表的な年齢のグループ(30歳より小、30歳~40歳、40歳~50歳、50歳より大)からの6つの入力例A~Fを示し、各グループについて結果を生成し、
図2A,2B,2C,2D,2E及び2Fのアレイ200,202,204,206,208及び210に示す。入力画像は一番左の列にあり、4つの目標年齢が右に進む。上の行はライフスパン(Lifespan)を示し、中央および下の行は本明細書の実施形態によるモデルの出力を示し、ここで、下の行は、画像サイズ512×512である。
【0071】
モデルの目標年齢(入力画像の右側の列に示される)は、それぞれ25,35,45及び55として選択される。
図2A,2B,2C,2D,2E及び2Fに示すように、本明細書の実施形態によるモデルによって生成された画像は、遺物(artifacts)がより少なくなり、ひげの色の変化(
図2A及び2Cの実施例200及び204)及び顔の異なる部分の皺(
図2B,2C,2D及び2Eの実施例202,204,206及び208を参照されたい)等、より明瞭なエージングの詳細を示す。
図2Fの実施例210における説得力のある詳細は、モデルを用いて個人的特徴(ほくろ210A)が十分に保持されていることを示す。
【0072】
また、
図3A,3B,3C及び3Dの実施例300,302,304及び306において、CAAE[46](上の(第1)行)、IPCGAN[41](第2行)及びS2 GAN[10](第3行)と比較するために、256x256(下の(第4)行)の解像度でFFHQ上で訓練されたモデルを用いて、CACD2000上で画像を直接生成した。入力画像308,310,312及び314は、ボックスで囲まれる。実証された画像は、CACD2000に関する最新の研究である[11]に提示された例である。全ての年齢のグループ(11歳~30歳、31歳~40歳、41歳~50歳および50歳より大、左から右の列)について、本明細書の実施形態によるモデルは、全ての以前の研究と比較して、より明白で微細な(fine-grained)エージング効果を示す。
【0073】
エージングの詳細:本明細書の実施形態によるモデルを用いて生成された画像は顔の異なる部分(例えば、顔作物)上のかなりのレベルのエージングの詳細を表す。
図4のアレイ400の3つの例では、生成された画像(中央の列)から3つの拡大された顔のクロップ402,404及び406(下の列)が示されており、これらは皺の増強、皮膚の滑らかさ、ひげ及び眉の色の変化の明瞭かつ詳細な図を与える。最も左の例402は、36/55の現実/目標年齢のペアを示す(即ち入力画像は36歳の個人を示し、生成された画像は55歳の目標年齢における画像を示す)。中央の例404は、33/55における現実/目標年齢のペアを示し、右端の例406は、66/30における現実/目標年齢のペアを示す。
【0074】
連続的なエージング:
図5A及び5Bにおいて、画像アレイ500及び502は、第2及び第4の行においてモデルによって生成された画像を、第1及び第3の行においてライフスパン[24]のモデルによって生成された画像と比較する、連続的なエージング結果のいくつかの例を示す。各アレイにおいて、入力画像は最も左の列に示される。4の年齢段階が提示のために選択された(例えば、左から右の列における21,25,29,・・・,65)。徐々に、且つ、滑らかな自然なエージングプロセス(例えば、皺の深さの変化、あごひげ及び顔の色素沈着)は、個人的特徴を保持しながら、一実施形態に従ってモデルによって生成された画像から観察することができる。しかしながら、ライフスパンにおける補間ベースの手法は、十分に整列された目標年齢の画像を生成する能力を欠き、特定の個人化された情報を保持しない。更に一実施形態によるモデルは、最小限のアーチファクトで、より現実的なエージング効果を生成する。
【0075】
-定量評価
アイデンティティの保持:アイデンティティの保持を評価するために、顔照合率メトリック(A face verification rate metric)が用いられた。具体的には、[10]の評価プロトコルを、以前の研究との公正な比較のために、年齢のグループベースで追跡した。顔照合率は、画像ペアの全ての組み合わせ、即ち(テスト,10~29)、(テスト,30~39)、・・・、(30~39,40~49)、(40~49,50~59)の間で計算した。顔検証スコア(A face verification score)をFace++から得て、閾値を76.5(@FAR=1e-5)と設定した。完全な結果を、それぞれCACD2000及びFFHQについての表1及び2に示す。結果が示唆するように、一実施形態によるモデルは全ての候補のうちの両方のデータセットについて最高の顔検証レートを達成し、これは、それがタスクのアイデンティティの保持要件を最良に満たすことを示す。
【表1】
【0076】
エージング精度:エージング精度を評価するために、バイアスのない年齢推定器を用いて、生成された画像のエージングを推測した。CACD2000に基づく以前のグループベースの方法と比較するために、CACD2000の年齢のグループ設定と整合するように画像を生成した。年齢のグループのサイズは生成のための目標年齢として入力画像の実年齢から10の要因だけ適応的に増減され、即ち目標年齢33は、現在の年齢が23歳である場合、年齢のグループ30~40の画像を生成するために用いられた。直接比較を実施するために、本明細書の実施形態によるモデルを評価するための[10]の評価年齢推定器またはその事前訓練されたモデルにアクセスすることなく、Face++のエージング推定結果が、本明細書の実施形態およびアクセス可能な先行研究IPCGAN[41]のうちの1つに従ってモデル上で用いられ、これもまた、相対比較を示すために[10]において評価された。FFHQの評価は、CACD2000と同じ手順に従う。評価結果をCACD2000及びFFHQについてそれぞれ表3及び4に示す。結果が示唆するように、Face++を用いて本明細書において評価される実施形態によるモデルはIPCGAN[41]およびCACD2000上のライフスパン[24]よりも各年齢のグループにおいてより妥当な平均年齢を有し、FFHQ上のライフスパンと同様の性能を有する。
【表2】
【0077】
画像の忠実度:画像の忠実度のために、フレシェ開始距離(Frechet Inception Distance、FID)[12]メトリックを用いて、本明細書の実施形態によるモデルを両方のデータセットで評価した。以前の画像生成設定と同様に、CACD2000上のそれらと同じ年齢のグループに対応する生成された画像についてFIDスコアを計算した。FFHQの[24]と比較するために、同じ年齢のグループ範囲を共有する生成された画像についてFIDスコアを計算した。結果を表5に示す(FID評価:より低い方が良い)。両方のデータセット上で、本明細書の実施形態によるモデルは最低のFIDスコアを達成し、これは、画質の態様における優位性を定量的に実証する。
【表3】
【0078】
-モデルの解釈可能性およびアブレーション試験
連続的なエージング:本明細書の実施形態によるモデルが連続設定で合成画像をどの程度良好に生成するかを評価するために、1)25歳~65歳のモデル、及び、2)アンカーエージング基準間で実行される線形補間アプローチの生成された偽画像のそれぞれの年齢を予測するために年齢推定器が用いられた。アンカーの基礎は、年齢のグループ内の全てのエージング基準の平均をとることによって生成された。年齢ステップは、推定量のMAEに基づいて3として選択された。
【0079】
FFHQデータセット上で合同で訓練された年齢推定器を用いて、各アプローチに対する年齢精度に関して混同マトリックス(confusion matrices)を計算した。
図6A及び6Bのそれぞれの混同マトリックス600及び602は、本明細書のモデルに従って生成された偽画像が線形補間アプローチの生成された偽画像よりもはるかに高いエージング精度で、より明白な連続的なエージング傾向を表すことを示す。
【0080】
潜在空間における2つのアイデンティティ間の補間:
図7の画像アレイ700において、本明細書の実施形態によるモデルはまた、潜在空間における年齢およびアイデンティティの解放された(disentangled)表現を学習することが更に示される。
図7は、ペアリングの3つの例において、実画像がボックス(最も左の列および最も右の列)内にある変換された識別符号化間の線形補間を示す。左から右へ、同じ目標年齢65で、2つの画像の変換された識別符号化の間で線形補間を行った。補間符号化のための画像が生成された。示されるように、アイデンティティは、それぞれの年齢を維持しながら徐々に変化する。目の色や歯の形などの個人的な特徴は、人によって滑らかに変化する。
【0081】
残存の埋め込みの使用:一実施形態によるモデルアーキテクチャの特徴は、個人の個人化されたエージング特徴と、集団全体の間で共有されるエージング効果との両方を組み込む個人化されたエージング埋め込みの定式化である。設計の有効性をより良く例示し、理解するために、比較器モデルを、残存の埋め込みを追加することなく(即ち目標年齢の典型的な顔のエージングの基礎a
i,j=t
iを直接適用することなく)、訓練し、ここで残存の埋め込みが追加された実施形態によるモデルと比較した。
図8の画像アレイ800は、残存の埋め込みなし(第1及び第3の行)及び残存の埋め込みあり(第2および第4の行)の結果を比較する2つの例を表示する。入力画像は左端の列にあり、年齢範囲11歳~30歳、31歳~40歳、41歳~50歳および50歳より大は、左から右の列に対応する。両方の例において、より不自然な遺物および典型的な顔の修正の傾向が、残存の埋め込みなしに生成された画像において観察される。
【0082】
《アプリケーション》
一実施形態では、開示される技術および方法が、年齢シミュレーションを提供する画像から画像への変換のための生成器および年齢推定器を有するモデルを(条件付け/訓練を通じて等)定義するための開発者関連の方法およびシステムを含む。生成器は原画像(入力画像)と変換画像(新規画像)との間に滑らかな変換を生成するために、条件付けによって学習された複数の連続する年齢に亘る複数のモデル推定年齢の埋め込みを用いた連続制御を示す。一実施形態では、画像が顔(例えば、顔)である。一実施形態では、個人化された年齢の埋め込み(目標年齢および元の画像のモデル推定年齢を用いて複数のモデル推定年齢の埋め込みから決定される)を用いて、モデルの符号器の構成要素から符号器が生成した特徴を変換する。
【0083】
一実施形態では、画像から画像への変換のための本明細書の実施形態によるモデルが仮想現実、拡張現実および/または修正現実体験(modified reality experience)を提供するために、コンピュータ実装方法(例えば、アプリケーション)またはコンピューティング装置もしくはシステムに組み込まれる。アプリケーションは、ユーザがカメラ付きスマートフォン又はタブレット端末などを用いて自撮り画像(またはビデオ)を撮影することを容易にするように構成され、生成器Gは再生(playback)またはスマートフォン又はタブレット端末による他の提示のため等の所望の効果を適用する。
【0084】
一実施形態では、本明細書で教示する生成器Gが一般に利用可能な消費者向けスマートフォン又はタブレット端末(例えば、ターゲットデバイス)をロードし、その上で実行するように構成される。構成の例には、次のハードウェア仕様のデバイスが含まれる。Intel(登録商標) Xeon(登録商標) CPU E5-2686 v4 @ 2.30GHz、コア1本とスレッド1本のみのプロファイルで構成される。一実施形態では、生成器Gがサーバ、デスクトップ、ゲームコンピュータ又は複数のコアを有し、複数のスレッドで実行するような他のデバイスを含む、より多くのリソースを有するコンピューティング装置をロードし、コンピューティング装置上で実行するように構成される。一実施形態では、生成器Gが(クラウドベースの)サービスとして提供される。
【0085】
一実施形態では、開発者(例えば、訓練時間に用いられる)およびターゲット(推論時間に用いられる)コンピューティング装置の態様に加えて、本明細書で開示する方法の態様のいずれかを実行するようにコンピューティング装置を構成するために命令が非一時的記憶デバイス(例えば、メモリ、CD-ROM、DVD-ROM、ディスク等)に記憶される、コンピュータプログラム製品の態様が開示されることを当業者は理解するのであろう。
【0086】
図9は、一実施形態によるコンピュータシステム900のブロック図である。コンピュータシステム900は、サーバ、開発者コンピュータ(PC、ラップトップ等)、及び、典型的なユーザコンピュータ(PC、ラップトップ、並びに、スマートフォン及びタブレット等のより小さいフォームファクタ(パーソナル)モバイルデバイス等)を含む複数のコンピューティング装置(902,904,906,908,910及び950)を備える。実施形態では、コンピューティング装置902が本明細書の教示に従って、連続的なエージングを提供する画像から画像への変換のためのモデルを定義するために、ハードウェア及びソフトウェアを備えるネットワークモデル訓練環境912を提供する。ネットワークモデル訓練環境912の構成要素は、E 108、C 112、PAT 116、G 128,E^ 142,C^ 146及びD 140を含むモデルを、条件付け等によって定義および構成するためのモデルトレーナ構成要素914を含む。構成要素140,142及び146は訓練のための構成だが、ランタイム(推論時間)アプリケーションにおいて新規画像を生成するため等のランタイム構成要素としては用いられない。
【0087】
実施形態では、条件付けは、
図1のモデルネットワークアーキテクチャ100等に従って実行される。本実施形態ではデータサーバ(例えば、904)又は他の形態のコンピューティング装置は訓練および他の目的などのために画像の画像データセット926を記憶し、ネットワーク928として代表的に示される1又は複数のネットワークを通して結合され、ネットワーク928はコンピューティング装置902,904,906,908及び910のいずれかを結合する。ネットワーク928は、例として、無線通信またはその他、公衆またはその他である。システム900が簡略化されていることも理解されるのであろう。サービスのうちの少なくともいずれかは、2つ以上のコンピューティング装置によって実装され得る。
【0088】
訓練されると、訓練されたモデル100は、ランタイム構成要素を含むことが望まれるように更に定義され、訓練されたモデル930として提供され得る。本明細書の技法および方法によれば、実施形態では、訓練されたモデル930が様々な方法で用いるために利用可能にされる。
図9に示されるような一実施形態における1つの方法では、訓練されたモデル930がクラウドサーバ908を介して、クラウドサービス932又は他のサービスとしてのソフトウェア(software as a service、SaaS)として提供される。拡張現実(AR)アプリケーション934等のユーザアプリケーションは、訓練されたモデル930へのインターフェースを提供するクラウドサービス932と共に用いるために定義される。一実施形態では、ARアプリケーション934がサーバ906によって提供されるアプリケーション配信サービス936から(例えば、ダウンロードを介して)配信するために提供される。
【0089】
図示されていないが、一実施形態ではARアプリケーション934が特定のハードウェア及びソフトウェア、特にオペレーティングシステム構成などを有する特定のターゲットデバイスのためのアプリケーション開発者コンピューティング装置を用いて開発される。一実施形態では、ARアプリケーション934が特定のオペレーティングシステム(及び/又はハードウェア)のために定義されたもの等、特定のネイティブ環境における実行のために構成されたネイティブアプリケーションである。ネイティブアプリケーションは多くの場合、サードパーティサービスによって運営される電子商取引「ストア」として構成されるアプリケーション配信サービス936を介して配信されるが、これは必要ではない。一実施形態では、ARアプリケーション920が例えば、ターゲットユーザデバイスのブラウザ環境において実行するように構成されたブラウザベースのアプリケーションである。
【0090】
ARアプリケーション934はモバイルデバイス910等のユーザデバイスによる配信(例えば、ダウンロード)のために提供される。一実施形態では、ARアプリケーション934が拡張現実体験(例えば、インターフェースを介して)をユーザに提供するように構成される。例えば、推定時間生成部930による処理により、画像に効果が与えられる。モバイルデバイスは画像(例えば、撮影画像938)をキャプチャするためのカメラ(図示せず)を有し、これは、一実施形態では自撮り画像を含む静止画像である。画像から画像への変換を提供する画像処理技術を用いて、撮影画像938に効果が適用される。年齢シミュレーション(エージングされた)画像(新規画像)940が定義され、モバイルデバイス910の表示装置(図示せず)上に表示されて、撮影画像938に対する効果をシミュレートする。カメラの位置は、拡張現実をシミュレートするために、更に撮影画像(複数可)に応じて変更され、効果が適用され得る。撮影画像はソース、入力画像又は元の画像を定義し、エージングされた画像は、新規画像、変換または変換された画像もしくは効果が適用される画像を定義することが理解されよう。
【0091】
図9の実施形態のクラウドサービスのパラダイムでは、撮影画像938がクラウドサービス932に提供され、そこで、訓練されたモデル930によって処理されて、エージングされた画像940を定義するために、連続的なエージングを伴う画像対画像変換を実行する。エージングされた画像940は、表示、保存(記憶)、共有などのためにモバイルデバイス910に通信される。
【0092】
一実施形態では、ARアプリケーション934がARアプリケーション934を動作させるためのインターフェース(図示せず)、例えば、音声対応であり得るグラフィカルユーザインターフェース(GUI)を提供する。インターフェースは画像の取り込み、クラウドサービスとの通信、および変換された画像(例えば、エージングされた画像940)の表示、保存および/または共有を可能にするように構成される。一実施形態では、インターフェースがユーザが目標年齢を定義する等、クラウドサービスのための入力を提供するように構成される。一実施形態では、入力が年齢デルタ(age delta)を含む。前述のように、一実施形態では、入力が製品/サービス選択を含む。例えば、製品/サービス選択は、入力画像を若返らせるための年齢デルタに関連付けられる。一例では、入力が喫煙率、日光曝露率または早期のエージング(老化)の出現に寄与する他の要因などのライフスタイル要因であっても良い。ライフスタイル要因は、入力画像に適用するための年齢デルタに関連付けられ得る。
【0093】
図9の実施形態では、ARアプリケーション934又は別のアプリケーション(図示せず)が、電子商取引サービス952を提供するコンピューティング装置950へのアクセスを(例えば、通信インターフェースを介して)提供する。電子商取引サービス952は、製品、サービス又はその両方のための(個人化された)推奨を提供するための推奨構成要素954を備える。実施形態では、そのような製品および/またはサービスが若返り又はアンチエージング製品および/またはサービス等である。一実施形態では、そのような製品および/またはサービスが例えば、特定の皮膚の徴候(skin signs)に関連する。一実施形態では、デバイス910からの撮影画像が電子商取引サービス952に提供される。皮膚の徴候の分析は、一実施形態による深層学習を用いて、皮膚徴候分析器モデル956等によって実行される。訓練されたモデルを用いる画像処理は皮膚(例えば、特定の皮膚の徴候に関連する顔のゾーン)を分析して、皮膚の徴候の少なくともいくつかについてのスコアを含む皮膚の分析を生成する。個々のスコアの値は例えば、訓練セットデータを分析するために前述されたようなResNet[27]アーキテクチャに基づく(専用の)エージングの徴候の推定モデル(例えば、分類器のタイプ)を用いて、画像上に生成され得る。
【0094】
実施形態において、皮膚の徴候(例えば、そのスコア)は、個人化された推奨を生成するために用いられる。例えば、それぞれの製品(またはサービス)は、1又は複数の皮膚の徴候と、そのような徴候の特定のスコア(又はスコアの範囲)とに関連付けられる。この実施形態では、情報がユーザのデータを製品および/またはサービスデータに一致させる適切なルックアップ(look-ups)を介する等して、電子商取引サービス952によって用いるためにデータベース(例えば、960)に記憶される。一実施形態では、推奨構成要素954によって用いられる更なるユーザデータが性別、民族性および位置データ等のいずれかを含む。
【0095】
この実施形態では、ユーザの撮影画像の皮膚の徴候のスコアが、ARアプリケーションインターフェース等のARアプリケーション934を介して表示するために、電子商取引サービスから提供される。例えば、一実施形態では、規則または他の符号の適用などによって、他の手段を用いてスコアを生成または修正する。
【0096】
一実施形態では注釈付き画像がユーザの撮影画像(即ち、入力画像)から提供され、例えば、注釈付き画像は皮膚の徴候のスコア、そのようなスコアに関連する皮膚の徴候に関する記述/情報、そのようなスコアに関連する製品情報、またはそのようなスコアに関連するサービス情報のいずれかによる注釈付き入力画像を含む。
【0097】
限定されない一実施形態では、ユーザが電子商取引サービス952によって推奨されるような個人化された製品推奨を受け取る。ユーザは、特定の製品またはサービスを選択する。選択された製品またはサービスはその年齢デルタ(例えば、対象者の実年齢、製品使用の長さ、他の人口統計学的データ又は地理的データ等において決定され得る規則である)に関連付けられ、入力画像の修正を呼び出す。修正は例えば、新しい目標年齢で新規画像を生成するために、入力画像内の対象者の年齢をシミュレートする。製品またはサービス選択から決定される入力画像および目標年齢は年齢のある画像(例えば、940のインスタンス)を受信するためにクラウドサービス932に提供され得る。
【0098】
図9の実施形態では、電子商取引サービス952が製品またはサービスの購入を容易にするように、購入構成要素958を用いて構成される。製品又はサービスは、化粧品またはサービスその他を含む。図示されていないが、電子商取引サービス952及び/又はARアプリケーション934は、撮影画像の画像処理を提供して、効果が適用される画像を生成する撮影画像へのメーキャップの適用などの化粧品またはサービスをシミュレートする。
【0099】
撮影画像は上記の実施形態では処理のためのソース画像として用いられるが、一実施形態では他のソース画像(例えば、デバイス910のカメラ以外のソースからの)が用いられる。一実施形態は、撮影画像または他のソース画像を用いることができる。一実施形態では撮影画像または別の画像のいずれであっても、そのような画像は訓練されたモデル930がそのために訓練されるときのユーザエクスペリエンスを改善するための高解像度の画像である。図示されていないが、本実施形態では皮膚徴候分析器モデル956によって用いられる画像が分析されるときに縮小される。このような分析のために、他の画像前処理が実行される。
【0100】
一実施形態では、ARアプリケーション934が性能を改善するために、品質特徴(すなわち、照明、センタリング、背景、毛髪オクルージョン(hair occlusion)等)に関してユーザに指示することができる。一実施形態では、ARアプリケーション934が特定の最小要件を満たさず、不適切である場合、画像を拒否する。
【0101】
図9にモバイルデバイスとして示されているが、一実施形態ではコンピューティング装置910が上記のように、異なるフォームファクタを有し得る。訓練されたモデル930をクラウドサービスとして提供するのではなく(又はそれに加えて)、それは、十分な記憶および処理リソースを有する特定のコンピューティング装置に対してローカルにホストされ、実行され得る。
【0102】
従って、一実施形態では、ARアプリケーション934が入力画像を受信するためのインターフェースを提供し、入力画像を推奨サービスに通信して、皮膚の分析を受信し、分析に応じた少なくとも1つの推奨製品またはサービスを含む推奨を提供し、皮膚の分析を表示し、少なくとも1つの推奨を表示するためのインターフェースを提供し、推奨から製品またはサービスを選択するためのインターフェースを提供し、選択に応じて、選択された製品またはサービスに関連する目標年齢および入力画像を用いて年齢シミュレーション画像を生成し、インターフェースを介してそれを提示し、電子商取引サービスを介して製品またはサービスを購入するためのインターフェースを提供するように構成される。
【0103】
一実施形態では、ARアプリケーションが推奨について通信し、推奨は例えば、ユーザの嗜好(preferences)のセットに基づいて、皮膚の分析を実行することなく提供され、 例えば、顔の領域または特定の1つ以上の皮膚の徴候に対する推奨を選択することが提供される。
【0104】
一実施形態では、例えば、第2の目標年齢が推奨の製品の使用を参照しない場合、ARアプリケーション934が第2の目標年齢で第2の年齢シミュレーション画像を生成する。一実施形態では、2つの年齢シミュレーション画像が比較のために同時に提示される。メーキャップ及びヘア効果などの効果は、任意の年齢シミュレーション画像に適用され得る。
【0105】
一実施形態ではコンピューティング装置がカメラを備え、処理ユニットはカメラから元の画像を受信する。
【0106】
一実施形態では、製品が若返り製品、エージング防止製品及び化粧用メーキャップ製品のうちの1つを含む。一実施形態では、サービスが若返りサービス、エージング防止サービス及び化粧品サービスのうちの1つを含む。
【0107】
一実施形態では、モバイルデバイス910等のコンピューティング装置が上記のコンピューティング装置の態様による方法を実行するように構成される。コンピュータプログラム製品の態様のような他の態様が明らかであろう。
【0108】
一実施形態では、ネットワークモデル訓練環境が(GANに基づく)年齢シミュレーション生成器を調整することで構成する方法などの方法を実行するように構成されたコンピューティング装置を提供する。
【0109】
一実施形態では、少なくとも1つの連続効果をソース画像に適用し、電子商取引インターフェース上で効果が適用された画像の1又は複数の仮想インスタンスを生成するように構成された処理回路を含む顔効果ユニットを含むコンピューティング装置が提供され、顔効果ユニットは適用された連続効果(例えば、エージング)をシミュレートするための生成器を備えた符号器および推定器を利用し、適用された連続効果は効果のそれぞれのクラス(例えば、年齢範囲に亘る年齢、笑顔範囲に亘る笑顔の度合い等)に対する連続制御を有する。
【0110】
一実施形態では、コンピューティング装置が製品および/またはサービスの推奨を提示し、製品および/またはサービスの選択を受信するように構成された処理回路を含む推奨ユニットを備え、製品および/またはサービスは目標年齢(例えば、現在の年齢または絶対年齢の番号に対するデルタ等の修飾子(modifier))に関連付けられる。顔効果ユニットは選択に応じて目標年齢の効果が適用された画像を生成し、それによって、ソース画像に対する製品および/またはサービスの効果をシミュレートするように構成される。一実施形態では、推奨ユニットがソース画像を用いて現在の皮膚の徴候のスコアを決定するために皮膚徴候分析器を呼び出すことと、製品および/またはサービスを決定するために現在の皮膚の徴候のスコアを用いることとによって、推奨を取得するように構成される。一実施形態では、皮膚徴候分析器が深層学習モデルを用いてソース画像を分析するように構成される。一実施形態では、目標年齢が製品/サービスに関連付けられた年齢目標修飾子(aging target modifier)から定義される。
【0111】
年齢に関連する実施形態に加えて、本明細書で提案されるネットワーク構造、方法および技法は、グループベースの訓練を回避し、より正確な連続的モデリングを達成するために、他のマルチクラスドメイン転送タスクにも適用することができる。ドメイン転送タスクは、効果が適用される場合など、あるドメインから別のドメインにソース画像を変換することを含むことが理解されよう。「マルチクラス」は、ここでは連続効果のための進行の様々な度合い又は粒度(granularity)を参照する。連続効果の年齢の例において、クラスKを議論した。笑顔に関連する連続効果の場合、クラスは笑顔の度合いを、例えば、一実施形態のように1%の粒度で表すことができる。笑顔の例では、年齢推定器C及びその訓練構成要素C^が(例えば、年齢よりも笑顔の度合いを予測するために)笑顔推定の推定器として(例えば、訓練を介して)適応される。推定量は、連続効果情報を表す連続効果の連続粒度範囲(クラス)のそれぞれにおけるモデル推定クラス埋め込み(model-estimated class embeddings)を決定するのに有用である。
【0112】
非顔面効果(例えば、脱毛度、体重増加など)を含む、他のマルチクラス効果(例えば、ドメイン移動)が企図され得る。従って、生成器は複合符号器および推定器から、目標クラスにおける連続効果画像を生成することが可能であり、目標は効果のクラス(即ち、粒度範囲)のうちの1つである。
【0113】
従って、一実施形態では、対象者の入力画像から、対象者に対する連続効果の目標クラスにおける新規画像を生成するための統合されたモデルを提供することを含む方法が提供される。モデルは、連続効果情報を表す複数の連続クラスのそれぞれにおいて、複数のそれぞれのモデル推定クラス埋め込みを提供する。モデル推定クラス埋め込みは、モデルの符号器-復号器アーキテクチャに埋め込まれた生成器および推定器の合同訓練によって学習される。推定器は、それぞれの入力画像に応じて符号器が生成されたそれぞれの特徴を用いて、それぞれの対象者のモデル推定クラスを決定するように構成される。生成器は、目標クラスに従って決定されたモデル推定クラス埋め込みのそれぞれによって変換された、入力画像から生成された特徴を用いて、新規画像を生成する。
【0114】
一実施形態では、連続効果はエージング効果であり、目標範囲は年齢クラスのうちの特定の1つ(例えば、連続効果の度合いの1つ)、例えば、整数年(an integer year)である。
【0115】
《結論》
本研究では、連続的なエージングの側面に特に焦点を当てた、顔のエージングの課題への新しいアプローチを紹介した。GANベースの生成器に年齢推定モジュールを導入することにより、連続的なエージング基準を学習するための統合されたフレームワークが提案されている。設計されたPATモジュールは典型的な顔のエージング基準の個人化を更に強化し、これは、全体的に、より自然で現実的な生成された顔画像をもたらす。実験は、以前の研究と比較して、2つのデータセット上で、エージング精度、アイデンティティ保持および画像の忠実度に関し、優れた性能を定性的および定量的に示した。更に、提案されたネットワーク構造はグループベースの訓練を回避し、より正確な連続モデリングを達成するために、他のマルチクラスドメイン転送タスクにも適用できる。前述のように、一例は、顔に適用される笑顔の効果である。年齢推定器ではなく、連続効果の推定器(例えば、C 112)は、ある度合いの笑顔の効果推定器を含む。
【0116】
実用的な実装は、本明細書に記載される特徴のいずれかまたは全てを含むことができる。これら及び他の態様、特徴、および様々な組合せは、機能を実行するための方法、機器、系、手段および本明細書で説明する特徴を組み合わせる他の方法として表され得る。いくつかの実施形態について説明した。それにもかかわらず、本明細書に記載されるプロセス及び技法の趣旨および範囲から逸脱することなく、様々な修正がなされ得ることが理解されよう。加えて、他のステップを提供することができ、又はステップを記載されたプロセスから排除することができ、他の構成要素を記載されたシステムに追加するか、またはそこから除去することができる。従って、他の態様は特許請求の範囲の範囲内にある。
【0117】
本明細書の説明および特許請求の範囲を通して、単語「含む(comprise)」および「含む(contain)」及びそれらの変形は「含むが、限定されない」を意味し、他の構成要素、整数またはステップを排除することを意図しない。本明細書全体を通して、単数形は文脈が他のことを必要としない限り、複数形を包含する。特に、不定冠詞が用いられる場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。
【0118】
本発明の特定の態様、実施形態または実施例に関連して説明される特徴、整数、特性またはグループはそれらと互換性がない場合を除き、任意の他の態様、実施形態、または実施例に適用可能であると理解されるべきである。本明細書に開示される特徴の全て(任意の添付の特許請求の範囲、要約および図面を含む)、及び/又はそのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴および/またはステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の任意の例または実施形態の詳細に限定されない。本発明は、本明細書(添付の特許請求の範囲、要約および図面を含む)に開示される特徴の任意の新規な1又は任意の新規な組み合わせ又は開示される任意の方法またはプロセスのステップの任意の新規な1又は任意の新規な組み合わせに及ぶ。
《参考文献》
以下の出版物は、許容される場合、参照により本明細書に組み込まれる。
[1] Grigory Antipov, Moez Baccouche, and Jean-Luc Dugelay. Face aging with conditional generative adversarial networks. In 2017 IEEE international conference on image processing (ICIP), pages 2089-2093. IEEE, 2017.
[2] Yosuke Bando, Takaaki Kuratate, and Tomoyuki Nishita. A simple method for modeling wrinkles on human skin. In Pacific Conference on Computer Graphics and Applications, pages 166-175. Citeseer, 2002.
[3] Laurence Boissieux, Gergo Kiss, Nadia Magnenat Thalmann, and Prem Kalra. Simulation of skin aging and wrinkles with cosmetics insight. In Computer Animation and Simulation 2000, pages 15-27. Springer, 2000.
[4] D Michael Burt and David I Perrett. Perception of age in adult caucasian male faces: Computer graphic manipulation of shape and colour information. Proceedings of the Royal Society of London. Series B: Biological Sciences, 259(1355):137-143, 1995.
[5] Bor-Chun Chen, Chu-Song Chen, and Winston H Hsu. Cross-age reference coding for age-invariant face recognition and retrieval. In European conference on computer vision, pages 768-783. Springer, 2014.
[6] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, and Jaegul Choo. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8789-8797, 2018.
[7] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-Woo Ha. Stargan v2: Diverse image synthesis for multiple domains. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8188-8197, 2020.
[8] Harm de Vries, Florian Strub, Jeremie Mary, Hugo Larochelle, Olivier Pietquin, and Aaron C Courville. Modulating early visual processing by language. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages 6594-6604. Curran Associates, Inc., 2017.
[9] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. Advances in neural information processing systems, 3(06), 2014.
[10] Zhenliang He, Meina Kan, Shiguang Shan, and Xilin Chen. S2gan: Share aging factors across ages and share aging trends among individuals. In Proceedings of the IEEE International Conference on Computer Vision, pages 9440-9449, 2019.
[11] Zhenliang He, Wangmeng Zuo, Meina Kan, Shiguang Shan, and Xilin Chen. Attgan: Facial attribute editing by only changing what you want. IEEE Transactions on Image Processing, 28(11):5464-5478, 2019.
[12] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in neural information processing systems, pages 6626-6637, 2017.
[13] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In ICCV, 2017.
[14] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. CVPR, 2017.
[15] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4401-4410, 2019.
[16] Ira Kemelmacher-Shlizerman, Supasorn Suwajanakorn, and Steven M Seitz. Illumination-aware age progression. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3334-3341, 2014.
[17] Andreas Lanitis, Christopher J. Taylor, and Timothy F. Cootes. Toward automatic simulation of aging effects on face images. IEEE Transactions on pattern Analysis and machine Intelligence, 24(4):442-455, 2002.
[18] Peipei Li, Yibo Hu, Qi Li, Ran He, and Zhenan Sun. Global and local consistent age generative adversarial networks. In 2018 24th International Conference on Pattern Recognition (ICPR), pages 1073-1078. IEEE, 2018.
[19] Ming Liu, Yukang Ding, Min Xia, Xiao Liu, Errui Ding, Wangmeng Zuo, and Shilei Wen. Stgan: A unified selective transfer network for arbitrary image attribute editing. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3673-3682, 2019.
[20] Si Liu, Yao Sun, Defa Zhu, Renda Bao, Wei Wang, Xiangbo Shu, and Shuicheng Yan. Face aging with contextual generative adversarial nets. In Proceedings of the 25th ACM international conference on Multimedia, pages 82-90, 2017.
[21] Yunfan Liu, Qi Li, and Zhenan Sun. Attribute-aware face aging with wavelet-based generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 11877-11886, 2019.
[22] Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784, 2014.
[23] Augustus Odena, Christopher Olah, and Jonathon Shlens. Conditional image synthesis with auxiliary classifier gans. In International conference on machine learning, pages 2642-2651, 2017.
[24] Roy Or-El, Soumyadip Sengupta, Ohad Fried, Eli Shechtman, and Ira Kemelmacher-Shlizerman. Lifespan age transformation synthesis. In Proceedings of the European Conference on Computer Vision (ECCV), 2020.
[25] Hongyu Pan, Hu Han, Shiguang Shan, and Xilin Chen. Mean-variance loss for deep age estimation from a face. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5285-5294, 2018.
[26] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. Gaugan: semantic image synthesis with spatially adaptive normalization. In ACM SIGGRAPH 2019 Real-Time Live! 2019.
[27] Narayanan Ramanathan and Rama Chellappa. Modeling age progression in young faces. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), volume 1, pages 387-394. IEEE, 2006.
[28] Narayanan Ramanathan and Rama Chellappa. Modeling shape and textural variations in aging faces. In 2008 8th IEEE International Conference on Automatic Face & Gesture Recognition, pages 1-8. IEEE, 2008.
[29] Karl Ricanek and Tamirat Tesafaye. Morph: A longitudinal image database of normal adult age-progression. In 7th International Conference on Automatic Face and Gesture Recognition (FGR06), pages 341-345. IEEE, 2006.
[30] Rasmus Rothe, Radu Timofte, and Luc Van Gool. Dex: Deep expectation of apparent age from a single image. In Proceedings of the IEEE international conference on computer vision workshops, pages 10-15, 2015.
[31] Duncan A Rowland and David I Perrett. Manipulating facial appearance through shape and color. IEEE computer graphics and applications, 15(5):70-76, 1995.
[32] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9243-9252, 2020.
[33] Xiangbo Shu, Jinhui Tang, Hanjiang Lai, Luoqi Liu, and Shuicheng Yan. Personalized age progression with aging dictionary. In Proceedings of the IEEE international conference on computer vision, pages 3970-3978, 2015.
[34] Jinli Suo, Xilin Chen, Shiguang Shan, Wen Gao, and Qionghai Dai. A concatenational graph evolution aging model. IEEE transactions on pattern analysis and machine intelligence, 34(11):2083-2096, 2012.
[35] Jinli Suo, Feng Min, Songchun Zhu, Shiguang Shan, and Xilin Chen. A multi-resolution dynamic model for face aging simulation. In 2007 IEEE Conference on Computer Vision and Pattern Recognition, pages 1-8. IEEE, 2007.
[36] Jinli Suo, Song-Chun Zhu, Shiguang Shan, and Xilin Chen. A compositional and dynamic model for face aging. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(3):385-401, 2009.
[37] Bernard Tiddeman, Michael Burt, and David Perrett. Prototyping and transforming facial textures for perception research. IEEE computer graphics and applications, 21(5):42-50, 2001.
[38] James T Todd, Leonard S Mark, Robert E Shaw, and John B Pittenger. The perception of human growth. Scientific American, 242(2):132-145, 1980.
[39] Wei Wang, Zhen Cui, Yan Yan, Jiashi Feng, Shuicheng Yan, Xiangbo Shu, and Nicu Sebe. Recurrent face aging. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2378-2386, 2016.
[40] Wei Wang, Yan Yan, Stefan Winkler, and Nicu Sebe. Category specific dictionary learning for attribute specific feature selection. IEEE Transactions on Image Processing, 25(3):1465-1478, 2016.
[41] Zongwei Wang, Xu Tang, Weixin Luo, and Shenghua Gao. Face aging with identity-preserved conditional generative adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7939-7947, 2018.
[42] Yin Wu, Nadia Magnenat Thalmann, and Daniel Thalmann. A plastic-visco-elastic model for wrinkles in facial animation and skin aging. In Fundamentals of Computer Graphics, pages 201-213. World Scientific, 1994.
[43] Hongyu Yang, Di Huang, Yunhong Wang, and Anil K Jain. Learning face age progression: A pyramid architecture of gans. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 31-39, 2018.
[44] Hongyu Yang, Di Huang, Yunhong Wang, Heng Wang, and Yuanyan Tang. Face aging effect simulation using hidden factor analysis joint sparse representation. IEEE Transactions on Image Processing, 25(6):2493-2507, 2016.
[45] Xu Yao, Gilles Puy, Alasdair Newson, Yann Gousseau, and Pierre Hellier. High resolution face age editing. arXiv preprint arXiv:2005.04410, 2020.
[46] Zhifei Zhang, Yang Song, and Hairong Qi. Age progression/regression by conditional adversarial autoencoder. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5810-5818, 2017.
[47] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycleconsistent adversarial networks. In Proceedings of the IEEE international conference on computer vision, pages 2223-2232,2017.
【手続補正書】
【提出日】2023-12-18
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
対象者の入力画像から、前記対象者の目標年齢における新規画像を生成するための統合年齢シミュレーションモデルを提供することを含む方法であって、
前記統合年齢シミュレーションモデルは、連続的なエージング情報を表す複数の連続する年齢のそれぞれにおける、複数のそれぞれのモデル推定年齢の埋め込みを提供し、
前記モデル推定年齢の埋め込みは、生成器の合同訓練を通じて学習され、年齢推定器は、前記
統合年齢シミュレーションモデルの符号器-復号器アーキテクチャに埋め込まれ、
前記年齢推定器は、それぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、対象者のモデル推定年齢を決定するように構成され、
前記生成
器は、前記目標年齢と前記対象者のモデル推定年齢とに従って決定されたモデル推定年齢の埋め込みのそれぞれによって変換された前記入力画像から、前記生成器が生成した特徴を用いて前記新規画像を生成することを特徴とする方法。
【請求項2】
前記符号器-復号器アーキテクチャが、前記入力画像内の前記対象者のモデル推定年齢を推定するための前記年齢推定器を備えることを特徴とする請求項1記載の方法。
【請求項3】
前記
統合年齢シミュレーションモデルの符号器が前記入力画像を処理して、前記符号器が生成した特徴を決定し、前記年齢推定器が、前記符号器が生成した特徴を処理して、前記
統合年齢シミュレーションモデルが推定した年齢を決定することを特徴とする請求項2記載の方法。
【請求項4】
前記符号器によって生成された特徴は、
a.前記モデル推定年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれと、
b.前記目標年齢に応じて決定された前記モデル推定年齢の埋め込みのそれぞれと、を含む個人化された年齢の埋め込みによって変換されることを特徴とする請求項2記載の方法。
【請求項5】
前記個人化された年齢の埋め込みは、
a.前記対象者のアイデンティティ情報を保持するための前記モデル推定年齢に応じて複数のそれぞれの前記モデル推定年齢の埋め込みから決定された個人化された残存の年齢の埋め込みと、
b.全集団の間で共有されたエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みと、を含むことを特徴とする請求項4記載の方法。
【請求項6】
製品およびサービスの一方または両方についての推奨を得るための推奨インターフェースを提供すること
と、
製品およびサービスの一方または両方を購入するための電子商取引購入インターフェースを提供すること
と、
前記入力画像を受信し、表示のために前記新規画像を提供
し、前記入力画像および前記新規画像のそれぞれが、前記対象者の顔を含むこと
とのうちの1以上により構成されることを特徴とする請求項1から
5のいずれかに記載の方法。
【請求項7】
対象者の入力画像から、前記対象者に対する連続効果の目標クラスにおける新規画像を生成するための統合されたモデルを提供する方法であって、
前記モデルは、連続効果情報を表す複数の連続クラスのそれぞれにおける、複数のそれぞれのモデル推定クラス埋め込みを提供し、
前記モデル推定クラス埋め込みは、生成器の合同訓練を通じて学習され、
クラス推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、
前記クラス推定器は、それぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、それぞれの対象者のモデル推定クラスを決定するように構成され、
前記生成
器は、前記目標クラスに応じて決定された前記モデル推定クラス埋め込み及び前記対象者のモデル推定クラスのそれぞれによって変換された前記入力画像から前記符号器が生成した
前記特徴を用いて前記新規画像を生成することを特徴とする方法。
【請求項8】
入力画像を新規画像に転送するドメイン転送モデルを提供し、
クラスのそれぞれについてのモデルによって学習された、複数のそれぞれのモデル推定クラス埋め込みを用いて、連続効果の複数の連続クラスの目標クラスに前記入力画像を変換するための連続効果を適用し、
前記ドメイン転送モデルを用いて前記入力画像を新規画像に転送することを特徴とする方法。
【請求項9】
前記
連続効果がエージング効果を含み、
複数のそれぞれの
前記モデル推定クラス埋め込みが、それぞれのモデル推定年齢の埋め込みを含み、
前記目標クラスが目標年齢を含むことを特徴とする請求項
8記載の方法。
【請求項10】
前記入力画像を転送する際、前記ドメイン転送モデルは、
前記入力画像の符号化された特徴を生成し、
前記入力画像内の対象者のモデル推定年齢に応じて複数のそれぞれのモデル推定年齢の埋め込みから決定された個人化された残存の年齢の埋め込み、及び、全集団の間で共有されるエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定
年齢の残存の年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みを用い
て符号化された
前記特徴を変換し、
変換さ
れ符号化された
前記特徴を用いて前記新規画像を生成するように動作することを特徴とする請求項
9記載の方法。
【請求項11】
前記モデルが、前記モデル推定年齢を決定する年齢推定器を備え
、
前記年齢推定器は、符号器と共に訓練された分類器を備え、
前記符号器は
、符号化された
前記特徴を生成するように構成され、
前記年齢推定器は、前記符号器によって符号化された
前記特徴を用いて、新規画像内の対象者のそれぞれのモデル推定年齢を決定するように訓練されることを特徴とする請求項
10記載の方法。
【請求項12】
前記連続効果に関連付けられた製品およびサービスのうちの少なくとも1つについての推奨を提供すること
と、
前記推奨を提示するために、前記入力画像から生成された注釈付き画像を提供すること
と、
製品、サービス又はその両方を購入するための電子商取引インターフェースを提供すること
とのうちの1以上により構成されることを特徴
とする請求項
8から
11のいずれかに記載の方法。
【請求項13】
前記連続効果は、エージング効果であり、
前記製品は、若返り製品、エージング防止製品および化粧用メーキャップ製品のうちの1つを含み、
前記サービスは、若返りサービス、エージング防止サービス、化粧品サービスの1つを含むことを特徴とする請求項
12記載の方法。
【請求項14】
処理ユニットと、それに結合された記憶デバイスとを備えるコンピューティング装置であって、
前記記憶
デバイスは、命令であって、前記処理ユニットで実行されると請求項1から
13に記載のいずれかの方法を実行するように前記コンピューティング装置を構成する命令を記憶することを特徴
とするコンピューティング装置。
【請求項15】
非一時的記憶デバイスであって、コンピューティング装置の処理ユニットで実行されると請求項1から
13に記載のいずれかの方法を実行するように前記コンピューティング装置を構成する命令を記憶する非一時的記憶デバイスを含むことを特徴とするコンピュータプログラム製品。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
《相互参照》
本出願は、2020年12月23日に出願された米国仮出願第63/129,794号および2021年5月25日に出願されたフランス出願第FR 2105404号の優先権を主張する。各出願の全内容は、参照により本明細書に組み込まれる。
【0002】
本出願は、ニューラルネットワーク技術を用いて更新された画像を生成し、顔画像のエージング等の効果を連続的に適用する画像処理および画像処理に関するものである。
【背景技術】
【0003】
年齢の進行としても知られる顔のエージングは、個人のアイデンティティ情報を保持しながら、入力された顔画像を自然なエージング又は若返り効果で美的にレンダリングすることを目的とする。近年の深層学習の進歩に伴い、顔の合成(face synthesis)は、シミュレートされた顔画像における画像の忠実度(image fidelity)および年齢の精度の実質的な改善も示している[10,41,24]。様々な残りの問題(例えば、連続的なエージング)を解決するための主な課題は、データの欠如である。例えば、顔のエージングの多くの研究作業[20,41,43,10]は、画像を4~5の年齢によるグループ(30歳より小、30歳~40歳、40歳~50歳、50歳より大、等)にグループ化する必要があり、各年齢での限られた量のデータのため、目標年齢のグループ内でのみ画像を生成することができる。別の重要な問題は、エージングパターンが個体ごとに異なり得るので、年齢の進行における個人の特性をどのように維持するかである。
【0004】
従来の顔のエージングは、主に2つのアプローチ、即ち、物理的モデルベース(physical model-based)の[3,42]と、プロトタイプベース(prototype-based)の[37,16]とを含む。物理的モデルに基づく手法は、しばしば、皮膚の皺、顔の形状、筋肉の変化および毛髪の色などを考慮した、複雑な物理的モデリングからなる。このタイプの手法は通常、膨大な量のデータを必要とし、計算上非常に高価である。プロトタイプベースの手法はまず、予め定義された年齢のグループ内の平均な顔を計算することによってグループベースの設計を探索するため、個人化されたエージング情報を保持することができない。更にこれらの手法は全て、連続的な顔のエージングに適用できない。
【0005】
変分オート符号器(variational autoencoders、VAEs)及び生成的敵対ネットワーク(generative adversarial networks、GANs)[9]のような最近の生成モデルの成功に続いて、画像変換タスクに関し、研究者は、それらの手法を顔の合成に適合させることに専念する努力をしてきた。IPCGAN[41]は、年齢の推定損失を実施することによる明白な年齢の効果を有する顔画像を生成することに著しい進歩を示している。後の変形例[43]は、識別器が複数のスケールで顔のエージングの理解を改善するためのピラミッド構造を生成する。これらの手法の中で、連続的なエージングは探求されなかった。Heら[10]はグループベースの訓練のためのマルチ・ブランチ・生成器(multi-branch generator)を導入し、2つの隣接する年齢のグループ間の潜在的な表現の線形補間を介して連続的なエージングを近似するアイデアを提案した。[24]の著者は、代わりに2つの隣接するグループ間の学習された年齢潜在コードに対して実行される、同様の線形補間アプローチを用いて問題に取り組んでいる。これらのタイプの手法は年齢の進行が2つの隣接するグループの間で線形であり、学習されたグループの埋め込みを、年齢の中央値の埋め込みとして直接用いることができると仮定する。結果として、これは、生成された画像における目標年齢のシフトをもたらし得る。直観的には、この非線形性が人々が異なるステージで同じ速度でエージングしないこととして解釈することができる。更にそのような補間ベースの方法は分離が不完全である場合、個人的な特徴を変更してしまう虞がある。
【発明の概要】
【0006】
上記の問題に対処するために、単純なクラス推定器(例えば、エージング効果のための年齢推定器、連続的な笑顔の効果のための笑顔の進行(クラス)等)が、通常の符号器-復号器アーキテクチャに埋め込まれる、統合されたネットワークによるエージング等の連続的な顔の効果の適用を達成する新規のアプローチが提案される。これにより、ネットワークは、全ての進行のステージ又はクラス(例えば、年齢、笑顔の度合い等)のモデル推定クラス(例えば、年齢、笑顔等)の埋め込みを学習でき、従って、適切なアンカー進行ステージ(例えば、年齢、笑顔の度合い等)グループを選択する際の手動の努力なしに、連続効果情報を表す。年齢の例では目標年齢(目標年齢は連続効果におけるクラスの1つ)が与えられると、顔のエージングの2つの側面を考慮する個人化された年齢の埋め込みが導出され、それは1)個人のエージング情報を保持する、画像内の対象者の現在の年齢での個人化された残存の年齢の埋め込み、及び、2)全集団の間で共有されるエージングパターンを符号化する、目標年齢での典型的な顔のエージングの基礎である。詳細な計算および訓練メカニズムについて述べた。次いで、計算された目標年齢の埋め込みは、最終画像の生成のために用いられる。FFHQ[15]及びCACD2000[5]データセットに関する実験を詳述する。結果は、定性的にも定量的にも、様々な態様において最新技術を上回る有意な改善を示す。
【0007】
年齢コンテキストでは、実施形態が自己推定(例えば、「自己」がモデルによる推定を参照する(例えば、モデル推定))連続的な年齢の埋め込みを自己推定し、年齢推定器を生成器と合同訓練することによって、顔のエージングタスクのための個人化された年齢の埋め込みを導出するための新規の方法を含む。実験および分析は生成された画像が個人化された情報をより良好に保持し、より正確なエージングの制御を達成し、より細かいエージングの詳細を提示することを、定量的および定性的に実証する。本明細書の実施形態による連続的なエージングアプローチは、適切な年齢のグループを定義するための手動の努力なしに、より良好に整列された目標年齢を有する画像を生成し、より詳細な個人的特徴をより良好に保持する。
【0008】
関連する識別モデルから個人化された年齢の埋め込みをモデル推定するための提案された技法および方法等は、余分な複雑さを導入することなく、他の条件付き画像から画像への変換タスクに容易に適用できる。特に、連続的な状態及びモデリングを伴うタスク(例えば、笑顔でないもの、笑顔等)は、このセットアップから恩恵を受けることができる。
【0009】
一実施形態では対象者の入力画像から、対象者の目標年齢における新規画像を生成するための統合年齢シミュレーションモデルを提供することと、前記モデルを用いて前記新規画像を生成することとを含む方法が提供され、前記統合年齢シミュレーションモデルは連続的なエージング情報を表す複数の連続する年齢のそれぞれにおける複数のそれぞれのモデル推定年齢の埋め込みを提供し、前記モデル推定年齢の埋め込みは生成器の合同訓練を通じて学習され、年齢推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、前記年齢推定器は、それぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、対象者のモデル推定年齢を決定するように構成され、前記生成器は、前記目標年齢と前記対象者のモデル推定年齢とに従って決定された前記モデル推定年齢の埋め込みのそれぞれによって変換された前記入力画像から、前記符号器が生成した特徴を用いて前記新規画像を生成する。
【0010】
一実施形態では、前記符号器-復号器アーキテクチャが、前記入力画像内の前記対象者のモデル推定年齢を推定する年齢推定器を備える。
【0011】
一実施形態では、前記モデルの符号器が前記入力画像を処理して、前記年齢推定器が善意符号器が生成した特徴を処理して、前記モデルが推定した年齢を決定する。
【0012】
一実施形態では、前記符号器によって生成された特徴は、前記モデル推定年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれのものと、前記目標年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれのものと、を含む個人化された年齢の埋め込みによって変換される。一実施形態では、前記個人化された年齢の埋め込みは、前記対象者のアイデンティティ情報を保持するためのモデル推定年齢に応じて複数のそれぞれの前記モデル推定年齢の埋め込みから決定された個人化された残存の年齢の埋め込みと、全集団の間で共有されたエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みとを含む。
【0013】
一実施形態では、前記個人化された年齢の埋め込みが、アフィン変換に従って適用される。
【0014】
一実施形態では、前記生成器は、前記個人化された年齢の埋め込みによって変換された前記符号化された特徴を処理することで前記目標年齢における前記新規画像を生成する。
【0015】
一実施形態では、前記モデルは、深層学習ニューラルネットワークモデル及び生成的敵対ネットワークベースモデルの一方または両方で構成される。
【0016】
一実施形態では、当該方法が、製品およびサービスの一方または両方についての推奨を取得するための推奨インターフェースを提供する。
【0017】
一実施形態では、当該方法が製品およびサービスの一方または両方を購入するための電子商取引購入インターフェースを提供することを含む。
【0018】
一実施形態では、当該方法が前記入力画像を受信し、表示のために前記新規画像を提供する。
【0019】
一実施形態では、前記入力画像および前記新規画像はそれぞれが、前記対象者の顔を含む。
【0020】
一実施形態によれば、対象者の入力画像から、前記対象者の連続効果の目標クラスにおける新規画像を生成するための統合されたモデルを提供することと、前記モデルを用いて前記新規画像を生成することとを含む方法が提供され、前記モデルは、連続効果情報を表す複数の連続する目標範囲のそれぞれにおける複数のそれぞれのモデル推定クラス埋め込みを提供し、前記モデル推定クラス埋め込みは、生成器の合同訓練を通じて学習され、効果推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、前記効果推定器はそれぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、それぞれの対象者のモデル推定クラスを決定するように構成され、前記生成器は、前記目標クラスに従って決定された前記モデル推定クラス埋め込み及び前記対象者のモデル推定クラスのそれぞれによって変換された前記入力画像から前記符号器が生成した特徴を用いて前記新規画像を生成する。
【0021】
一実施形態によれば、入力画像を新規画像に転送するドメイン転送モデルを提供し、連続効果を連続的に適用して、連続効果の連続クラスのそれぞれについてのモデルによって学習された、複数のそれぞれのモデル推定クラス埋め込みを用いて、前記連続効果の複数の連続クラスの目標クラスに前記入力画像を変換し、前記ドメイン転送モデルを用いて、前記入力画像を前記新規画像に転送する方法が提供される。一実施形態によれば、連続効果はエージング効果であり、目標クラスは目標年齢である。一実施形態によれば、入力画像を転送する際、ドメイン転送モデルは以下のように動作する。a)前記入力画像の符号化された特徴を生成し、b)前記符号化された特徴を変換し、対象者のアイデンティティ情報を保持するために、入力画像内の対象者のモデル推定年齢に応じて、複数のそれぞれのモデル推定クラス埋め込みから決定された個人化された残存の年齢の埋め込み、及び、全集団の間で共有されたエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定の残存の年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みを用いて前記符号化された特徴を変換し、c)変換された前記符号化された特徴を用いて前記新規画像を生成する。一実施形態によれば、前記モデルは、前記モデル推定年齢を決定する年齢推定器を含む。一実施形態によれば、年齢推定器は(前記モデルの)符号器と共に訓練された分類器を備え、前記符号器は、前記符号化された特徴を生成するように構成され、前記年齢推定器は、前記符号器によって符号化されたそれぞれの符号化された特徴を用いて、新規画像内の対象者のそれぞれのモデル推定年齢を決定するように訓練される。一実施形態によれば、前記モデル推定クラス埋め込みは、前記符号器と共に前記年齢推定器の訓練の間に定義され、前記モデル推定クラス埋め込みのそれぞれを、前記それぞれのモデル推定年齢に関連付ける。
【0022】
一実施形態によれば、当該方法は、前記連続効果に関連付けられた製品およびサービスのうちの少なくとも1つについての推奨を提供することを含む。一実施形態によれば、前記推奨は、前記入力画像の皮膚の分析および嗜好のユーザ入力の一方または両方に応じて生成される。一実施形態によれば、前記目標年齢は、前記推奨に応じて決定される。一実施形態によれば、当該コンピューティング装置は、推奨のために電子商取引サービスと通信するように構成される。一実施形態によれば、当該コンピューティング装置は、前記推奨を提示するために前記入力画像から生成された注釈付き画像を提供するように構成される。一実施形態によれば、当該方法は、製品、サービス又はその両方を購入するための電子商取引インターフェースを提供する。一実施形態によれば、当該方法は、カメラから前記入力画像を受信することを含む。一実施形態によれば、連続効果はエージング効果であり、前記製品は、若返り製品、エージング防止製品および化粧用メーキャップ製品のうちの1つを含み、前記サービスは、若返りサービス、エージング防止サービス及び化粧品サービスのうちの1つを含む。
【0023】
一実施形態によれば、処理ユニットと、それに結合された記憶デバイスとを備えるコンピューティング装置が提供され、記憶ユニットは処理ユニットによって実行されたときに、方法の実施形態のいずれか1つによる方法を実行するようにコンピューティング装置を構成する命令を記憶する。
【0024】
一実施形態によれば、コンピューティング装置の処理ユニットによって実行されると、方法の実施形態のいずれか1つによる方法を実行するように前記コンピューティング装置を構成する命令を記憶する非一時的記憶デバイスを備えるコンピュータプログラム製品が提供される。
【0025】
一実施形態によれば、処理ユニットと、それに結合された記憶デバイスとを備えるコンピューティング装置が提供され、前記記憶ユニットは、命令を記憶し、前記処理ユニットによって前記命令が実行された際に前記コンピューティング装置を、製品およびサービスのうちの少なくとも1つに対する推奨し、入力画像から生成された新規画像と目標年齢とを含む年齢シミュレーション画像を提供し、前記新規画像は、当該方法の実施形態のいずれか1つに従って生成される。
【図面の簡単な説明】
【0026】
【
図1】本明細書の一実施形態による、訓練構成を示すモデルアーキテクチャのブロック図である。
【
図2A】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2B】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2C】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2D】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2E】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示す例についての従来技術によるモデルからの結果である。
【
図2F】本明細書の実施形態による2つのモデルからの結果を有する入力画像を示す画像のアレイであり、本明細書のそれぞれの実施形態による2つのモデルからの結果におけるより多くの経年劣化の詳細およびアイデンティティ保持を示すについての従来技術によるモデルからの結果である。
【
図3A】本明細書の実施形態によるモデルからの結果を有する入力画像を示す画像のアレイであり、例についての従来技術による3つのモデルからの結果である。
【
図3B】本明細書の実施形態によるモデルからの結果を有する入力画像を示す画像のアレイであり、例についての従来技術による3つのモデルからの結果である。
【
図3C】本明細書の実施形態によるモデルからの結果を有する入力画像を示す画像のアレイであり、例についての従来技術による3つのモデルからの結果である。
【
図3D】本明細書の実施形態によるモデルからの結果を有する入力画像を示す画像のアレイであり、例についての従来技術による3つのモデルからの結果である。
【
図4】本明細書の実施形態によるモデルからの結果を有する入力画像と、エージングのより詳細を示すそれらの結果の拡大顔作物とを示す画像のアレイである。
【
図5】A及びBは、本明細書の実施形態によるモデルによる結果を有する入力画像を示す画像のアレイであり、21歳から4歳を超える連続的な経年変化を示す2つの例についての従来技術によるモデルからの結果である。
【
図6】A及びBは、本明細書の実施形態によるモデルからの結果と、従来技術によるモデルからの結果とを比較する、連続的なエージングの混同行列を示す。
【
図7】本明細書の一実施形態によるモデルからの変換された識別符号化間の線形補間を示す画像のアレイである。
【
図8】残存の埋め込みを用いる本明細書の実施形態による第1のモデルと、残存の埋め込みを用いない本明細書の実施形態による第2(比較器)モデルとからの入力画像および結果を示す画像のアレイである。
【
図9】一実施形態による複数のコンピューティング装置を備えるコンピュータシステムのブロック図である。
【0027】
【0028】
【0029】
【0030】
【0031】
【0032】
【0033】
【0034】
【発明を実施するための形態】
【0035】
特に顔のエージングを含む顔の合成は、生成的敵対ネットワーク(generative adversarial networks、GAN)を用いることによって画像の忠実度(image fidelity)の実質的な改善をした主要なトピックの1つであった。ほとんどの既存の顔のエージングアプローチはデータセットをいくつかの年齢のグループに分割し、グループベースの訓練戦略を活用するが、これは本質的に微調整された連続的なエージングの合成を提供する能力を欠いている。一実施形態では、線形的な年齢推定器をGANベースのモデルに埋め込む、統合ネットワーク構造が提供され、埋め込まれた年齢推定器は顔の画像の年齢を推定し、年齢の進行/退行のための個人化された目標年齢の埋め込みを提供するために、符号器及び復号器と一緒に訓練される。個人化された目標年齢の埋め込みは、現在の年齢の個人化された残存の年齢(personalized residual age)の埋め込みと、目標年齢の典型的な顔(exemplar-face)のエージングの基礎(aging basis)との両方を組み込むことによって合成され、ここで、全ての先行するエージング基盤(aging bases)は、線形的な年齢推定器の学習された重みから導出される。この定式化は年齢を推定し、個人化されエージングされた顔を生成するという統合された視点をもたらし、モデル推定年齢の埋め込みが、1つの年齢ごとに学習され得る。異なるデータセットに関する定性的および定量的評価は、最新技術に勝る、連続的な顔のエージングの側面における有意な改善をさらに実証する。
【0036】
《関連した研究》
-顔のエージングモデル
従来の手法は、物理的モデルベース(physical model-based)のアプローチ[3,42,34]及びプロトタイプベース(prototype-based)のアプローチ[31,37,16,17]として分類することができる。物理的モデルに基づく手法は、皮膚の皺[42,2,3]、頭蓋顔面成長(craniofacial growth)[38,27]、筋肉の構造[34,28]及び顔の構成要素[35,36]等のエージングの特定の副作用(sub-effects)に対処するためのモデルを作成することに焦点を当てている。これらの手法は、しばしば非常に複雑であり、典型的には、異なる年齢の同じ人物の顔の画像のシーケンスと、エージングのメカニズムの専門的な知識とを必要とする。プロトタイプベースのアプローチ[31,37,4]は、各年齢のグループ内で平均な顔が推定されるグループベースの学習を用いて顔の進行の問題を探索する。しかしながら、個人化されたエージングパターン及びアイデンティティ(identity)情報は、そのような戦略において十分に保たれていない。[40,44,33]では、入力画像の乏しい(sparse)表現が個人化された顔の変換パターンを表現するために利用されている。このようなアプローチにより、個人化されたエージングパターンはある程度保たれるが、合成された画像には品質上の問題がある。
【0037】
最近、深層学習(deep learning)によるアプローチが、個人化されたエージング変換をモデル化するために採用されている。Wangら[39]は、若年から老年へのよりスムーズな移行(transition)のために一連の反復フォワードパス(recurrent forward passes)を活用する反復ニューラルネットワークモデル(recurrent neural network model)を提案した。後のGANベースの研究[18,41,43]は、画像の忠実度に関して優れたブレークスルーを示している。Liら[18]は滑らかな合成画像を得るため、局所パッチ(local patches)及び融合された局所的および全体的特徴のための3つのサブネットを設計した。IPCGAN[41]は良好な顔のエージング効果を達成するために、生成された画像上の年齢の推定損失およびアイデンティティ損失を強制する。年齢の正確性およびアイデンティティの永続性に対処するために、更なる努力がなされてきた。Yangら[43]及びLiuら[20]は出力画像のより正確な年齢を導くために、弁別器損失(discriminator losses)の修正を導入している。[21]の著者らは、ウェーブレットパケット変換(wavelet packet transformation)と多重的な顔の属性の符号化(multiple facial attribute encoding)を用いて、合成画像の画質を改善した。しかしながら、これらの手法[41,43,20]は、目標年齢のグループを表すワンホットベクトル(one-hot vector)を連結することによって出力画像を条件付ける。連続的なエージング条件を得るために、ベクトルははるかに大きい次元に拡張され、これは、訓練を不安定にし、より複雑にする。更にそれは、膨大な量の訓練画像を必要とする。
【0038】
潜在空間(latent space)内の特徴を補間することを目的とするいくつかの研究[46,1,32]は連続的なエージングをサポートする方向を提供したが、それらはアイデンティティを維持しながら高品質の画像を生成する能力が限られている。[10]において、著者らは連続的な年齢の進行を達成するために、グループに基づく訓練に基づいて、隣接する年齢のグループからの特徴ベクトル(feature vectors)を線形補間することを提案した。同様に、[24]は、2つの隣接するアンカー年齢の埋め込み(anchor age embeddings)の間を直線的に補間する。これらの方法は埋め込みがアンカー間で直線的に整列されるという仮定に従い、アンカー年齢の決定を重要にする。本研究では、より良好な連続的なエージングモデリングを達成しながら手動の努力を伴わない連続モデル推定年齢の埋め込みを提示した。
【0039】
-生成的敵対ネットワーク
生成的敵対ネットワーク[9]は、画像から画像への変換タスクに関する一般的な選択肢であった。CycleGAN[47]及びPix2Pix[14]は、それぞれ、非ペアの訓練サンプル及びペアの訓練サンプルを用いて、2つのドメイン(domains)間の画像変換を探索した。より最近の研究[6,19]は、マルチドメイン変換を可能にするための訓練技術を提案した。[22,23]では、筆者らはまず、基本的なGANの拡張として条件付き画像生成を探索した。後の研究[7,26]は更に、条件をより効果的な方法でモデルに変換および挿入することにより、多くの条件付き画像変換タスクに対して優位性を示している。
【0040】
-顔年齢の推定
見かけの年齢を予測するタスクは、与えられた顔の画像ごとに連続的な数値を推定する退行の問題を参照する。見かけ年齢の深い期待値(Deep Expectation of Apparent Age、DEX)[30]は、分類損失および退行損失を組み合わせることによって、MORPH II[29]上で「3.25」の平均絶対誤差(mean absolute error、MAE)を達成する手法を提案した。Panら[25]はMORPH IIのMAEを「2.16」に更に改善するために、確率分布に平均分散損失(mean-variance loss)を用いることを提案している。
【0041】
《モデルアーキテクチャの実施形態》
図1は、一実施形態によるモデルアーキテクチャ100の図である。モデル100は、訓練構成で示されている。本実施形態では、入力画像102及び実画像104が処理のために受信され、偽画像106が生成される。入力画像は、任意の年齢であり得る、現実の年齢または現在の年齢における対象者の画像を含む。年齢は、画像自体の年齢ではなく、画像内の対象者の年齢に関連する。実画像104は目標年齢における別の対象者の画像を含む(例えば、画像は、目標領域(特定の年齢)の特徴を表す実像である)。目標年齢は、同じ年齢を含む、現実の年齢/現在の年齢に対する任意の年齢であり得る。
【0042】
本実施形態では年齢推定器が画像生成器と一緒に訓練され、E(例えば、108)は特徴(ei)110を生成する共有符号器であり、C(例えば、112)は年齢推定タスクのために分岐される。Cは、複数の年齢クラスにわたる年齢の確率分布である出力βθ114を生成する。個人化された年齢の埋め込み変換(PAT、数式2 116)は2つの構成要素に基づく:1)現在の年齢での残存のエージングの基礎(例えば、Cによって決定されるモデル推定年齢);及び、2)目標年齢118での典型的な顔のエージングの基礎の例(例えば、目標年齢が入力として受け取られる)。PATは、出力γφ120を生成する。一実施形態では、目標年齢が特定の絶対年齢(例えば、29歳を表す「29」)である。一実施形態では、目標年齢が画像または他のベースラインの年齢における現在の年齢に対するデルタ年齢(delta age)または年齢差(例えば、正または負の整数(例えば、「-5」))である。
【0043】
本実施形態では、出力120及び114(数式3を参照)をそれぞれ用いる動作122及び124による、特徴110のアフィン射影変換(affine projection transformation)を介して、変換された識別符号化(ei,ti)(例えば、126)が偽画像106(出力)を生成するために、G(例えば、128において)による復号のために生成される。
【0044】
モデル全体(100)は年齢損失(例えば、130,132及び134)、アイデンティティ損失136及び弁別器D(140)を介した敵対的損失138を用いて訓練される。以下で更に説明するように、第2の符号器E^142及び第2の年齢推定器C^146が(例えばモデル100の訓練構成において)用いる(なお、「E^」は「E」の真上に「^」が付された文字を表す。他も同様とする。)。
【0045】
図1は、第1のグループ148及び第2のグループ150を、それぞれ破線のボックスで示している。第1のグルーピング148は一実施形態による符号器構成要素を強調表示し、第2のグルーピング150は訓練環境において有用な復号器または生成器側構成要素を強調表示し、これらの構成要素は、訓練中の逆伝搬(backpropagation)に関与しない。
【0046】
図1に示すように、一実施形態によれば、モデルは4つの構成要素、即ち識別符号化モジュールE 108、2)年齢推定モジュールC 112、3)個人化年齢の埋め込み変換モジュールPAT 116、及び、4)年齢顔生成モジュールG 128を備える。符号化ネットワークEは与えられた入力画像x
i(102)からアイデンティティ情報を抽出するために適用され、符号化110はe
i=E(x
i)として示される。次いで、埋め込まれた年齢推定器Cが、識別符号化110の年齢の確率分布114を得るために用いる。モデル推定年齢分布および目標年齢t 118に基づいて、個人化された年齢の埋め込み変換PATが識別符号化e
iに適用される。最後に、合成された顔(偽画像106)は変換された識別符号化PAT(e
i;t)から復号される(例えば、126は生成器G 128による)。
【0047】
全てのモジュールは、正確なエージングのための平均分散年齢損失(mean-variance age loss)[25](130,132及び134)、アイデンティティ保持のためのL1再構成損失(L1 reconstruction loss)136及び画像リアリズム(image realism)のための敵対的損失(the adversarial loss)138を含む実施形態に従って、3つの目的の下で合同でエンド・ツー・エンド(end-to-end)で最適化される。
【0048】
顔のエージング訓練を誘導するために、事前訓練された年齢分類器を必要とする多くの従来の顔エージング作業[41,10]とは異なり、モデル100は、顔のエージング及び年齢推定を同時に達成するための統合されたフレームワークを利用することにより、モデル推定年齢の埋め込みを直接取得する。より好ましくは、埋め込まれた年齢推定器112が補間ベースのアプローチと比較して、より正確な手法で個人化された連続的な年齢の変換を可能にするだけでなく、顔の画像生成のためのガイダンスも提供する(例えば、G 128において)。
【0049】
-配合(Formulation)
識別年齢推定モジュール(C):先行研究[41,10]では、顔のエージング及び顔の年齢推定が2つの独立したタスクとして扱われ、ここで、年齢推定モデル、通常、分類器は別々に事前訓練され、次いで、自然なエージング効果を実現するために生成器を誘導するために用いられる。本明細書の一実施形態によれば、2つの上記のタスクが本質的に関連するので、符号器Eを共有することにより、1つの統合された構造を用いて、両方の目標を達成することができる。
【0050】
モデル100の一実施形態では、グローバル平均プーリングレイヤ(a global average pooling layer)及び全結合レイヤ(fully-connected layer)を含む年齢推定器C 112がE 108から分岐される。最後に、(例えばβθ 114の)年齢確率分布pi∈RKはソフトマックス関数(softmax function)を実行で得ることができ、ここで、Kは、年齢クラスの数を示す。一実施形態では、K = 100である。パラメータmiは、分布piから決定される。
【0051】
統合された設計は、3つの利点を提供し得る。第1に、それは、十分に訓練された年齢推定器モデルを事前に取得する必要性を排除する。第2に、アイデンティティの符号化に関する年齢推定は、モデルがより年齢特有のアイデンティティの表現を確立するのに役立つ。第3に、全結合レイヤにおける重みW
Cは、距離学習(metric learning)の観点から典型的な顔の情報を符号化する年齢の埋め込みベース(バイアス項がゼロに設定される)としても用いられる。表記上、
【数1】
ここで、W
C∈R
K×Dであり、a
j∈R
Dであり、Dは、識別符号化のチャネル次元に等しい。この次元Dは、
図1の140における弁別器Dに関連しないことが理解されるのであろう。
【0052】
図1の実施形態ではエージングシミュレーション又はエージング効果として説明されているが、連続効果を適用する他のマルチクラスドメイン転送が考察されている。一般的な意味では、年齢の埋込み基準が年齢=51、又は、笑顔の度合い=40等の特定のクラスの潜在的な表現であるクラス埋め込みである。
【0053】
個人化された年齢の埋め込み変換(Personalized Age embedding Transformation 、PAT):顔のエージングは、様々な段階の様々な人々に対して様々な顔の兆候/症状が異なる年齢であるため、本質的に困難で曖昧な作業である。従って、顔のエージングを行う際には、個人化が望まれる。モデル100では、この個人化が年齢の確率分布p
i,j∈R
Kと、典型的な顔のエージングの基礎a
i,j∈R
Dとから計算された残存の年齢の埋め込みによって特徴付けられ、ここで、iはサンプルiを示し、j∈1,2,・・・,Kは年齢を示す。任意の目標年齢t
iに対する個人化されたエージングの基礎を得るために、プロセスは、以下の動作として定式化される。
【数2】
【0054】
この
【数3】
の期間は、年齢の確率分布に基づいて、年齢ベースの期待値をとることによって、アイデンティティの個人化されたエージングの基礎を表す。次いで、残存の年齢の埋め込みは、個人化されたエージングの基礎から現在の(モデル推定された)年齢a
i,j=miにおける典型的な顔のエージングの基礎を減算することによって得られる。残存の年齢の埋め込みは、モデル推定年齢での一般的なエージング因子を除去しながら、アイデンティティの個人化された因子を保持する。最終的な個人化された目標年齢の埋め込みである
【数4】
は、目標のエージングの基礎a
i,j=tiに典型的なの顔のエージングの基礎を加算することによって得られ、これは全集団の間の目標年齢における共有エージング因子を符号化する。個人化された目標年齢の埋め込み
【数5】
を用いて、条件付きBN[8]及びAdaIN[13]と同様に、E(x
i)=e
iを符号化する元のアイデンティティに関するスケール及びシフト係数を導出するために、適用されるアフィン射影変換が行われる。
【数6】
実験では、有意な性能差
【数7】
は観察されなかった。
【0055】
連続的なエージング:全結合レイヤからのエージング基準は、あらゆる単一の年齢を符号化するので(例えば、一実施形態によれば、1年の増分で)、任意の目標年齢を選択することによって(入力118として)連続的なエージングが自然にサポートされる。いくつかの以前のグループベースのアプローチは、潜在空間における線形補間を介して連続的なエージングをサポートし得るが、アンカー年齢のグループは注意深く選択される必要がある。
【0056】
しかしながら、実施形態の技法および方法は年齢ごとに別々に(例えば、各クラスが1年の範囲であるクラス1,2,3,・・・,Kにおいて)エージングの基礎を学習することによって、微調整された年齢の進行を明示的にモデル化する。
【0057】
-目的(Objective)
一実施形態によれば、目的の設計は合成した顔画像106が正確な年齢の進行/退行を反映し、アイデンティティを保持し、現実的に見えることを確実にする。
【0058】
平均分散年齢損失:年齢損失は、ネットワークにおいて2つの役割を果たす:1)推定器(C)が全年齢について良好なエージングの基礎の学習を助ける;及び、2)生成された偽画像の年齢を推定することによって生成器(G)を誘導する。両方のゴールを達成するために、一実施形態によれば、[25]によって提案された平均分散年齢損失が採用される。入力画像x
iおよび年齢ラベルy
iが与えられると、平均分散損失は、以下のように定義される。
【数8】
ここで、
【数9】
は分布の平均(例えば数式2から) であり、
【数10】
は分布の分散である。
【0059】
年齢推定タスクにおける他の損失よりも効果的であることに加えて、平均分散損失はまた、一実施形態によれば、隣接する年齢ベースについての年齢の連続性を捕捉しながら、比較的集中した年齢分布を学習するという要望を満たす。一実施形態によれば、監督された年齢損失は、以下の通りである。
【数11】
【0060】
顔のエージングを案内するために、一実施形態によれば、埋め込まれた年齢推定器146は一実施形態によれば、変換された識別符号化レベルと生成された画像レベル(
図1に示す)との両方に適用される。
【数12】
【0061】
年齢推定器C^146及び符号器E^142が変換された識別符号化126及び偽画像106上で用いられるとき、それらのそれぞれの重みは、逆伝搬中に更新されない。
【0062】
L1再構成損失:別の重要な態様は一実施形態によれば、個体のアイデンティティを保持することである。L1ピクセル単位の再構成損失(例えば、アイデンティティ損失136)は、目標年齢をそのモデル推定年齢に設定することにより、合成された顔に適用される。具体的には、以下のように定式化される。
【数13】
【0063】
アイデンティティ基準(identity criteria)を実施するために、StarGAN[6]で提案されているように、サイクル一貫性損失(cycle-consistency loss)を用いて実験を行った。画素ごとのL1再構成損失(L1 reconstruction loss)はハイパーパラメータ(hyper-parameters)を調整するための広範な努力なしに目標を達成するのに十分な開示された。
【0064】
敵対的損失(Adversarial Loss):高忠実度の画像を生成するために、一実施形態によれば、GAN損失(例えば138)は、無条件の敵対的訓練方式(adversarial training manner)で適用される。より具体的には、実施形態によれば、PatchGAN[14]弁別器(140)が採用され、ヒンジ損失(hinge loss)に対して最適化され以下のように定式化される。
【数14】
ここで、データ分布は、x~p
data(x)及びz~p
data(z)として表される。更に以下が示される。
【数15】
【0065】
実験では識別器を訓練するために目標年齢tiに等しいか又はそれに近い年齢の実例をサンプリングすることが、学習プロセスを安定化するのに役立つことが観察される。
【0066】
実施形態によれば、全ての目的は以下のように、異なるバランス係数(balancing coefficients)を用いて合同で最適化される。
【数16】
【0067】
-実験
データセット:モデルをFFHQ[15]及びCACD2000[5]で評価した。FFHQには、解像度1024x1024の70000個の画像が含まれている。[24]としてのデータ前処理手順に続いて、id0~68999を有する画像を訓練セットとして用い、id69000~69999を有する画像を試験に用いた。画像は、性別を区別する際の信頼性が低いこと、年齢を推定する際の信頼性が低いこと、暗い眼鏡を着用すること、Face++(顔属性注釈API: URL www.faceplus.com)によって注釈付けされた顔の属性に基づき、極端な姿勢および角度のためにフィルタリングされた。
【0068】
[24]からの注釈(annotation)は、年齢のグループラベルのみを含むので、年齢ラベル情報は[45]から取得した。年齢のグループラベルと年齢ラベルとの両方を調整するため、年齢ラベルが年齢のグループラベルと一致しない画像が更にフィルタリングされる。これは、訓練のための12488個の男性の画像および13563個の女性の画像、ならびに、テストのための279個の男性の画像および379個の女性の画像をもたらす。CACD2000は、年齢が14歳~62歳の範囲の163446個の画像からなり、10%が評価のために無作為に採取された。Dlib(Dlibツールキット: URL dlib.net)を用いて、男性および女性に画像を分離するためにFace++を用い、顔のランドマークを抽出した。
【0069】
実装:エージングパターンは男性と女性で異なるので、2つの別々のモデルが、256x256及び512x512解像度の両方についてFFHQデータセット上で訓練された。モデルアーキテクチャはCycle-GAN[47] に基づいて変更される。λmv1及びλmv2は、数式4において0.05及び0.005に設定される。λfake1及びλfake2は、数式6において0.4及び1に設定される。数式10において、λage、λidt、λadvは、それぞれ、0.05,1及び1に設定される。
【0070】
-定性的評価
顔の年齢:FFHQの試験結果を、[24]からの結果と比較して示す。[24]のイメージは、提供されたコード(ライフスパン公式コード: URL github.com/royorel/Lifespan_Age_ Transformation_Synthesis)を用いて生成される。異なる年齢に亘るモデル性能を説明するため、4つの代表的な年齢のグループ(30歳より小、30歳~40歳、40歳~50歳、50歳より大)からの6つの入力例A~Fを示し、各グループについて結果を生成し、
図2A,2B,2C,2D,2E及び2Fのアレイ200,202,204,206,208及び210に示す。入力画像は一番左の列にあり、4つの目標年齢が右に進む。上の行はライフスパン(Lifespan)を示し、中央および下の行は本明細書の実施形態によるモデルの出力を示し、ここで、下の行は、画像サイズ512×512である。
【0071】
モデルの目標年齢(入力画像の右側の列に示される)は、それぞれ25,35,45及び55として選択される。
図2A,2B,2C,2D,2E及び2Fに示すように、本明細書の実施形態によるモデルによって生成された画像は、遺物(artifacts)がより少なくなり、ひげの色の変化(
図2A及び2Cの実施例200及び204)及び顔の異なる部分の皺(
図2B,2C,2D及び2Eの実施例202,204,206及び208を参照されたい)等、より明瞭なエージングの詳細を示す。
図2Fの実施例210における説得力のある詳細は、モデルを用いて個人的特徴(ほくろ210A)が十分に保持されていることを示す。
【0072】
また、
図3A,3B,3C及び3Dの実施例300,302,304及び306において、CAAE[46](上の(第1)行)、IPCGAN[41](第2行)及びS2 GAN[10](第3行)と比較するために、256x256(下の(第4)行)の解像度でFFHQ上で訓練されたモデルを用いて、CACD2000上で画像を直接生成した。入力画像308,310,312及び314は、ボックスで囲まれる。実証された画像は、CACD2000に関する最新の研究である[11]に提示された例である。全ての年齢のグループ(11歳~30歳、31歳~40歳、41歳~50歳および50歳より大、左から右の列)について、本明細書の実施形態によるモデルは、全ての以前の研究と比較して、より明白で微細な(fine-grained)エージング効果を示す。
【0073】
エージングの詳細:本明細書の実施形態によるモデルを用いて生成された画像は顔の異なる部分(例えば、顔作物)上のかなりのレベルのエージングの詳細を表す。
図4のアレイ400の3つの例では、生成された画像(中央の列)から3つの拡大された顔のクロップ402,404及び406(下の列)が示されており、これらは皺の増強、皮膚の滑らかさ、ひげ及び眉の色の変化の明瞭かつ詳細な図を与える。最も左の例402は、36/55の現実/目標年齢のペアを示す(即ち入力画像は36歳の個人を示し、生成された画像は55歳の目標年齢における画像を示す)。中央の例404は、33/55における現実/目標年齢のペアを示し、右端の例406は、66/30における現実/目標年齢のペアを示す。
【0074】
連続的なエージング:
図5A及び5Bにおいて、画像アレイ500及び502は、第2及び第4の行においてモデルによって生成された画像を、第1及び第3の行においてライフスパン[24]のモデルによって生成された画像と比較する、連続的なエージング結果のいくつかの例を示す。各アレイにおいて、入力画像は最も左の列に示される。4の年齢段階が提示のために選択された(例えば、左から右の列における21,25,29,・・・,65)。徐々に、且つ、滑らかな自然なエージングプロセス(例えば、皺の深さの変化、あごひげ及び顔の色素沈着)は、個人的特徴を保持しながら、一実施形態に従ってモデルによって生成された画像から観察することができる。しかしながら、ライフスパンにおける補間ベースの手法は、十分に整列された目標年齢の画像を生成する能力を欠き、特定の個人化された情報を保持しない。更に一実施形態によるモデルは、最小限のアーチファクトで、より現実的なエージング効果を生成する。
【0075】
-定量評価
アイデンティティの保持:アイデンティティの保持を評価するために、顔照合率メトリック(A face verification rate metric)が用いられた。具体的には、[10]の評価プロトコルを、以前の研究との公正な比較のために、年齢のグループベースで追跡した。顔照合率は、画像ペアの全ての組み合わせ、即ち(テスト,10~29)、(テスト,30~39)、・・・、(30~39,40~49)、(40~49,50~59)の間で計算した。顔検証スコア(A face verification score)をFace++から得て、閾値を76.5(@FAR=1e-5)と設定した。完全な結果を、それぞれCACD2000及びFFHQについての表1及び2に示す。結果が示唆するように、一実施形態によるモデルは全ての候補のうちの両方のデータセットについて最高の顔検証レートを達成し、これは、それがタスクのアイデンティティの保持要件を最良に満たすことを示す。
【表1】
【0076】
エージング精度:エージング精度を評価するために、バイアスのない年齢推定器を用いて、生成された画像のエージングを推測した。CACD2000に基づく以前のグループベースの方法と比較するために、CACD2000の年齢のグループ設定と整合するように画像を生成した。年齢のグループのサイズは生成のための目標年齢として入力画像の実年齢から10の要因だけ適応的に増減され、即ち目標年齢33は、現在の年齢が23歳である場合、年齢のグループ30~40の画像を生成するために用いられた。直接比較を実施するために、本明細書の実施形態によるモデルを評価するための[10]の評価年齢推定器またはその事前訓練されたモデルにアクセスすることなく、Face++のエージング推定結果が、本明細書の実施形態およびアクセス可能な先行研究IPCGAN[41]のうちの1つに従ってモデル上で用いられ、これもまた、相対比較を示すために[10]において評価された。FFHQの評価は、CACD2000と同じ手順に従う。評価結果をCACD2000及びFFHQについてそれぞれ表3及び4に示す。結果が示唆するように、Face++を用いて本明細書において評価される実施形態によるモデルはIPCGAN[41]およびCACD2000上のライフスパン[24]よりも各年齢のグループにおいてより妥当な平均年齢を有し、FFHQ上のライフスパンと同様の性能を有する。
【表2】
【0077】
画像の忠実度:画像の忠実度のために、フレシェ開始距離(Frechet Inception Distance、FID)[12]メトリックを用いて、本明細書の実施形態によるモデルを両方のデータセットで評価した。以前の画像生成設定と同様に、CACD2000上のそれらと同じ年齢のグループに対応する生成された画像についてFIDスコアを計算した。FFHQの[24]と比較するために、同じ年齢のグループ範囲を共有する生成された画像についてFIDスコアを計算した。結果を表5に示す(FID評価:より低い方が良い)。両方のデータセット上で、本明細書の実施形態によるモデルは最低のFIDスコアを達成し、これは、画質の態様における優位性を定量的に実証する。
【表3】
【0078】
-モデルの解釈可能性およびアブレーション試験
連続的なエージング:本明細書の実施形態によるモデルが連続設定で合成画像をどの程度良好に生成するかを評価するために、1)25歳~65歳のモデル、及び、2)アンカーエージング基準間で実行される線形補間アプローチの生成された偽画像のそれぞれの年齢を予測するために年齢推定器が用いられた。アンカーの基礎は、年齢のグループ内の全てのエージング基準の平均をとることによって生成された。年齢ステップは、推定量のMAEに基づいて3として選択された。
【0079】
FFHQデータセット上で合同で訓練された年齢推定器を用いて、各アプローチに対する年齢精度に関して混同マトリックス(confusion matrices)を計算した。
図6A及び6Bのそれぞれの混同マトリックス600及び602は、本明細書のモデルに従って生成された偽画像が線形補間アプローチの生成された偽画像よりもはるかに高いエージング精度で、より明白な連続的なエージング傾向を表すことを示す。
【0080】
潜在空間における2つのアイデンティティ間の補間:
図7の画像アレイ700において、本明細書の実施形態によるモデルはまた、潜在空間における年齢およびアイデンティティの解放された(disentangled)表現を学習することが更に示される。
図7は、ペアリングの3つの例において、実画像がボックス(最も左の列および最も右の列)内にある変換された識別符号化間の線形補間を示す。左から右へ、同じ目標年齢65で、2つの画像の変換された識別符号化の間で線形補間を行った。補間符号化のための画像が生成された。示されるように、アイデンティティは、それぞれの年齢を維持しながら徐々に変化する。目の色や歯の形などの個人的な特徴は、人によって滑らかに変化する。
【0081】
残存の埋め込みの使用:一実施形態によるモデルアーキテクチャの特徴は、個人の個人化されたエージング特徴と、集団全体の間で共有されるエージング効果との両方を組み込む個人化されたエージング埋め込みの定式化である。設計の有効性をより良く例示し、理解するために、比較器モデルを、残存の埋め込みを追加することなく(即ち目標年齢の典型的な顔のエージングの基礎a
i,j=t
iを直接適用することなく)、訓練し、ここで残存の埋め込みが追加された実施形態によるモデルと比較した。
図8の画像アレイ800は、残存の埋め込みなし(第1及び第3の行)及び残存の埋め込みあり(第2および第4の行)の結果を比較する2つの例を表示する。入力画像は左端の列にあり、年齢範囲11歳~30歳、31歳~40歳、41歳~50歳および50歳より大は、左から右の列に対応する。両方の例において、より不自然な遺物および典型的な顔の修正の傾向が、残存の埋め込みなしに生成された画像において観察される。
【0082】
《アプリケーション》
一実施形態では、開示される技術および方法が、年齢シミュレーションを提供する画像から画像への変換のための生成器および年齢推定器を有するモデルを(条件付け/訓練を通じて等)定義するための開発者関連の方法およびシステムを含む。生成器は原画像(入力画像)と変換画像(新規画像)との間に滑らかな変換を生成するために、条件付けによって学習された複数の連続する年齢に亘る複数のモデル推定年齢の埋め込みを用いた連続制御を示す。一実施形態では、画像が顔(例えば、顔)である。一実施形態では、個人化された年齢の埋め込み(目標年齢および元の画像のモデル推定年齢を用いて複数のモデル推定年齢の埋め込みから決定される)を用いて、モデルの符号器の構成要素から符号器が生成した特徴を変換する。
【0083】
一実施形態では、画像から画像への変換のための本明細書の実施形態によるモデルが仮想現実、拡張現実および/または修正現実体験(modified reality experience)を提供するために、コンピュータ実装方法(例えば、アプリケーション)またはコンピューティング装置もしくはシステムに組み込まれる。アプリケーションは、ユーザがカメラ付きスマートフォン又はタブレット端末などを用いて自撮り画像(またはビデオ)を撮影することを容易にするように構成され、生成器Gは再生(playback)またはスマートフォン又はタブレット端末による他の提示のため等の所望の効果を適用する。
【0084】
一実施形態では、本明細書で教示する生成器Gが一般に利用可能な消費者向けスマートフォン又はタブレット端末(例えば、ターゲットデバイス)をロードし、その上で実行するように構成される。構成の例には、次のハードウェア仕様のデバイスが含まれる。Intel(登録商標) Xeon(登録商標) CPU E5-2686 v4 @ 2.30GHz、コア1本とスレッド1本のみのプロファイルで構成される。一実施形態では、生成器Gがサーバ、デスクトップ、ゲームコンピュータ又は複数のコアを有し、複数のスレッドで実行するような他のデバイスを含む、より多くのリソースを有するコンピューティング装置をロードし、コンピューティング装置上で実行するように構成される。一実施形態では、生成器Gが(クラウドベースの)サービスとして提供される。
【0085】
一実施形態では、開発者(例えば、訓練時間に用いられる)およびターゲット(推論時間に用いられる)コンピューティング装置の態様に加えて、本明細書で開示する方法の態様のいずれかを実行するようにコンピューティング装置を構成するために命令が非一時的記憶デバイス(例えば、メモリ、CD-ROM、DVD-ROM、ディスク等)に記憶される、コンピュータプログラム製品の態様が開示されることを当業者は理解するのであろう。
【0086】
図9は、一実施形態によるコンピュータシステム900のブロック図である。コンピュータシステム900は、サーバ、開発者コンピュータ(PC、ラップトップ等)、及び、典型的なユーザコンピュータ(PC、ラップトップ、並びに、スマートフォン及びタブレット等のより小さいフォームファクタ(パーソナル)モバイルデバイス等)を含む複数のコンピューティング装置(902,904,906,908,910及び950)を備える。実施形態では、コンピューティング装置902が本明細書の教示に従って、連続的なエージングを提供する画像から画像への変換のためのモデルを定義するために、ハードウェア及びソフトウェアを備えるネットワークモデル訓練環境912を提供する。ネットワークモデル訓練環境912の構成要素は、E 108、C 112、PAT 116、G 128,E^ 142,C^ 146及びD 140を含むモデルを、条件付け等によって定義および構成するためのモデルトレーナ構成要素914を含む。構成要素140,142及び146は訓練のための構成だが、ランタイム(推論時間)アプリケーションにおいて新規画像を生成するため等のランタイム構成要素としては用いられない。
【0087】
実施形態では、条件付けは、
図1のモデルネットワークアーキテクチャ100等に従って実行される。本実施形態ではデータサーバ(例えば、904)又は他の形態のコンピューティング装置は訓練および他の目的などのために画像の画像データセット926を記憶し、ネットワーク928として代表的に示される1又は複数のネットワークを通して結合され、ネットワーク928はコンピューティング装置902,904,906,908及び910のいずれかを結合する。ネットワーク928は、例として、無線通信またはその他、公衆またはその他である。システム900が簡略化されていることも理解されるのであろう。サービスのうちの少なくともいずれかは、2つ以上のコンピューティング装置によって実装され得る。
【0088】
訓練されると、訓練されたモデル100は、ランタイム構成要素を含むことが望まれるように更に定義され、訓練されたモデル930として提供され得る。本明細書の技法および方法によれば、実施形態では、訓練されたモデル930が様々な方法で用いるために利用可能にされる。
図9に示されるような一実施形態における1つの方法では、訓練されたモデル930がクラウドサーバ908を介して、クラウドサービス932又は他のサービスとしてのソフトウェア(software as a service、SaaS)として提供される。拡張現実(AR)アプリケーション934等のユーザアプリケーションは、訓練されたモデル930へのインターフェースを提供するクラウドサービス932と共に用いるために定義される。一実施形態では、ARアプリケーション934がサーバ906によって提供されるアプリケーション配信サービス936から(例えば、ダウンロードを介して)配信するために提供される。
【0089】
図示されていないが、一実施形態ではARアプリケーション934が特定のハードウェア及びソフトウェア、特にオペレーティングシステム構成などを有する特定のターゲットデバイスのためのアプリケーション開発者コンピューティング装置を用いて開発される。一実施形態では、ARアプリケーション934が特定のオペレーティングシステム(及び/又はハードウェア)のために定義されたもの等、特定のネイティブ環境における実行のために構成されたネイティブアプリケーションである。ネイティブアプリケーションは多くの場合、サードパーティサービスによって運営される電子商取引「ストア」として構成されるアプリケーション配信サービス936を介して配信されるが、これは必要ではない。一実施形態では、ARアプリケーション920が例えば、ターゲットユーザデバイスのブラウザ環境において実行するように構成されたブラウザベースのアプリケーションである。
【0090】
ARアプリケーション934はモバイルデバイス910等のユーザデバイスによる配信(例えば、ダウンロード)のために提供される。一実施形態では、ARアプリケーション934が拡張現実体験(例えば、インターフェースを介して)をユーザに提供するように構成される。例えば、推定時間生成部930による処理により、画像に効果が与えられる。モバイルデバイスは画像(例えば、撮影画像938)をキャプチャするためのカメラ(図示せず)を有し、これは、一実施形態では自撮り画像を含む静止画像である。画像から画像への変換を提供する画像処理技術を用いて、撮影画像938に効果が適用される。年齢シミュレーション(エージングされた)画像(新規画像)940が定義され、モバイルデバイス910の表示装置(図示せず)上に表示されて、撮影画像938に対する効果をシミュレートする。カメラの位置は、拡張現実をシミュレートするために、更に撮影画像(複数可)に応じて変更され、効果が適用され得る。撮影画像はソース、入力画像又は元の画像を定義し、エージングされた画像は、新規画像、変換または変換された画像もしくは効果が適用される画像を定義することが理解されよう。
【0091】
図9の実施形態のクラウドサービスのパラダイムでは、撮影画像938がクラウドサービス932に提供され、そこで、訓練されたモデル930によって処理されて、エージングされた画像940を定義するために、連続的なエージングを伴う画像対画像変換を実行する。エージングされた画像940は、表示、保存(記憶)、共有などのためにモバイルデバイス910に通信される。
【0092】
一実施形態では、ARアプリケーション934がARアプリケーション934を動作させるためのインターフェース(図示せず)、例えば、音声対応であり得るグラフィカルユーザインターフェース(GUI)を提供する。インターフェースは画像の取り込み、クラウドサービスとの通信、および変換された画像(例えば、エージングされた画像940)の表示、保存および/または共有を可能にするように構成される。一実施形態では、インターフェースがユーザが目標年齢を定義する等、クラウドサービスのための入力を提供するように構成される。一実施形態では、入力が年齢デルタ(age delta)を含む。前述のように、一実施形態では、入力が製品/サービス選択を含む。例えば、製品/サービス選択は、入力画像を若返らせるための年齢デルタに関連付けられる。一例では、入力が喫煙率、日光曝露率または早期のエージング(老化)の出現に寄与する他の要因などのライフスタイル要因であっても良い。ライフスタイル要因は、入力画像に適用するための年齢デルタに関連付けられ得る。
【0093】
図9の実施形態では、ARアプリケーション934又は別のアプリケーション(図示せず)が、電子商取引サービス952を提供するコンピューティング装置950へのアクセスを(例えば、通信インターフェースを介して)提供する。電子商取引サービス952は、製品、サービス又はその両方のための(個人化された)推奨を提供するための推奨構成要素954を備える。実施形態では、そのような製品および/またはサービスが若返り又はアンチエージング製品および/またはサービス等である。一実施形態では、そのような製品および/またはサービスが例えば、特定の皮膚の徴候(skin signs)に関連する。一実施形態では、デバイス910からの撮影画像が電子商取引サービス952に提供される。皮膚の徴候の分析は、一実施形態による深層学習を用いて、皮膚徴候分析器モデル956等によって実行される。訓練されたモデルを用いる画像処理は皮膚(例えば、特定の皮膚の徴候に関連する顔のゾーン)を分析して、皮膚の徴候の少なくともいくつかについてのスコアを含む皮膚の分析を生成する。個々のスコアの値は例えば、訓練セットデータを分析するために前述されたようなResNet[27]アーキテクチャに基づく(専用の)エージングの徴候の推定モデル(例えば、分類器のタイプ)を用いて、画像上に生成され得る。
【0094】
実施形態において、皮膚の徴候(例えば、そのスコア)は、個人化された推奨を生成するために用いられる。例えば、それぞれの製品(またはサービス)は、1又は複数の皮膚の徴候と、そのような徴候の特定のスコア(又はスコアの範囲)とに関連付けられる。この実施形態では、情報がユーザのデータを製品および/またはサービスデータに一致させる適切なルックアップ(look-ups)を介する等して、電子商取引サービス952によって用いるためにデータベース(例えば、960)に記憶される。一実施形態では、推奨構成要素954によって用いられる更なるユーザデータが性別、民族性および位置データ等のいずれかを含む。
【0095】
この実施形態では、ユーザの撮影画像の皮膚の徴候のスコアが、ARアプリケーションインターフェース等のARアプリケーション934を介して表示するために、電子商取引サービスから提供される。例えば、一実施形態では、規則または他の符号の適用などによって、他の手段を用いてスコアを生成または修正する。
【0096】
一実施形態では注釈付き画像がユーザの撮影画像(即ち、入力画像)から提供され、例えば、注釈付き画像は皮膚の徴候のスコア、そのようなスコアに関連する皮膚の徴候に関する記述/情報、そのようなスコアに関連する製品情報、またはそのようなスコアに関連するサービス情報のいずれかによる注釈付き入力画像を含む。
【0097】
限定されない一実施形態では、ユーザが電子商取引サービス952によって推奨されるような個人化された製品推奨を受け取る。ユーザは、特定の製品またはサービスを選択する。選択された製品またはサービスはその年齢デルタ(例えば、対象者の実年齢、製品使用の長さ、他の人口統計学的データ又は地理的データ等において決定され得る規則である)に関連付けられ、入力画像の修正を呼び出す。修正は例えば、新しい目標年齢で新規画像を生成するために、入力画像内の対象者の年齢をシミュレートする。製品またはサービス選択から決定される入力画像および目標年齢は年齢のある画像(例えば、940のインスタンス)を受信するためにクラウドサービス932に提供され得る。
【0098】
図9の実施形態では、電子商取引サービス952が製品またはサービスの購入を容易にするように、購入構成要素958を用いて構成される。製品又はサービスは、化粧品またはサービスその他を含む。図示されていないが、電子商取引サービス952及び/又はARアプリケーション934は、撮影画像の画像処理を提供して、効果が適用される画像を生成する撮影画像へのメーキャップの適用などの化粧品またはサービスをシミュレートする。
【0099】
撮影画像は上記の実施形態では処理のためのソース画像として用いられるが、一実施形態では他のソース画像(例えば、デバイス910のカメラ以外のソースからの)が用いられる。一実施形態は、撮影画像または他のソース画像を用いることができる。一実施形態では撮影画像または別の画像のいずれであっても、そのような画像は訓練されたモデル930がそのために訓練されるときのユーザエクスペリエンスを改善するための高解像度の画像である。図示されていないが、本実施形態では皮膚徴候分析器モデル956によって用いられる画像が分析されるときに縮小される。このような分析のために、他の画像前処理が実行される。
【0100】
一実施形態では、ARアプリケーション934が性能を改善するために、品質特徴(すなわち、照明、センタリング、背景、毛髪オクルージョン(hair occlusion)等)に関してユーザに指示することができる。一実施形態では、ARアプリケーション934が特定の最小要件を満たさず、不適切である場合、画像を拒否する。
【0101】
図9にモバイルデバイスとして示されているが、一実施形態ではコンピューティング装置910が上記のように、異なるフォームファクタを有し得る。訓練されたモデル930をクラウドサービスとして提供するのではなく(又はそれに加えて)、それは、十分な記憶および処理リソースを有する特定のコンピューティング装置に対してローカルにホストされ、実行され得る。
【0102】
従って、一実施形態では、ARアプリケーション934が入力画像を受信するためのインターフェースを提供し、入力画像を推奨サービスに通信して、皮膚の分析を受信し、分析に応じた少なくとも1つの推奨製品またはサービスを含む推奨を提供し、皮膚の分析を表示し、少なくとも1つの推奨を表示するためのインターフェースを提供し、推奨から製品またはサービスを選択するためのインターフェースを提供し、選択に応じて、選択された製品またはサービスに関連する目標年齢および入力画像を用いて年齢シミュレーション画像を生成し、インターフェースを介してそれを提示し、電子商取引サービスを介して製品またはサービスを購入するためのインターフェースを提供するように構成される。
【0103】
一実施形態では、ARアプリケーションが推奨について通信し、推奨は例えば、ユーザの嗜好(preferences)のセットに基づいて、皮膚の分析を実行することなく提供され、 例えば、顔の領域または特定の1つ以上の皮膚の徴候に対する推奨を選択することが提供される。
【0104】
一実施形態では、例えば、第2の目標年齢が推奨の製品の使用を参照しない場合、ARアプリケーション934が第2の目標年齢で第2の年齢シミュレーション画像を生成する。一実施形態では、2つの年齢シミュレーション画像が比較のために同時に提示される。メーキャップ及びヘア効果などの効果は、任意の年齢シミュレーション画像に適用され得る。
【0105】
一実施形態ではコンピューティング装置がカメラを備え、処理ユニットはカメラから元の画像を受信する。
【0106】
一実施形態では、製品が若返り製品、エージング防止製品及び化粧用メーキャップ製品のうちの1つを含む。一実施形態では、サービスが若返りサービス、エージング防止サービス及び化粧品サービスのうちの1つを含む。
【0107】
一実施形態では、モバイルデバイス910等のコンピューティング装置が上記のコンピューティング装置の態様による方法を実行するように構成される。コンピュータプログラム製品の態様のような他の態様が明らかであろう。
【0108】
一実施形態では、ネットワークモデル訓練環境が(GANに基づく)年齢シミュレーション生成器を調整することで構成する方法などの方法を実行するように構成されたコンピューティング装置を提供する。
【0109】
一実施形態では、少なくとも1つの連続効果をソース画像に適用し、電子商取引インターフェース上で効果が適用された画像の1又は複数の仮想インスタンスを生成するように構成された処理回路を含む顔効果ユニットを含むコンピューティング装置が提供され、顔効果ユニットは適用された連続効果(例えば、エージング)をシミュレートするための生成器を備えた符号器および推定器を利用し、適用された連続効果は効果のそれぞれのクラス(例えば、年齢範囲に亘る年齢、笑顔範囲に亘る笑顔の度合い等)に対する連続制御を有する。
【0110】
一実施形態では、コンピューティング装置が製品および/またはサービスの推奨を提示し、製品および/またはサービスの選択を受信するように構成された処理回路を含む推奨ユニットを備え、製品および/またはサービスは目標年齢(例えば、現在の年齢または絶対年齢の番号に対するデルタ等の修飾子(modifier))に関連付けられる。顔効果ユニットは選択に応じて目標年齢の効果が適用された画像を生成し、それによって、ソース画像に対する製品および/またはサービスの効果をシミュレートするように構成される。一実施形態では、推奨ユニットがソース画像を用いて現在の皮膚の徴候のスコアを決定するために皮膚徴候分析器を呼び出すことと、製品および/またはサービスを決定するために現在の皮膚の徴候のスコアを用いることとによって、推奨を取得するように構成される。一実施形態では、皮膚徴候分析器が深層学習モデルを用いてソース画像を分析するように構成される。一実施形態では、目標年齢が製品/サービスに関連付けられた年齢目標修飾子(aging target modifier)から定義される。
【0111】
年齢に関連する実施形態に加えて、本明細書で提案されるネットワーク構造、方法および技法は、グループベースの訓練を回避し、より正確な連続的モデリングを達成するために、他のマルチクラスドメイン転送タスクにも適用することができる。ドメイン転送タスクは、効果が適用される場合など、あるドメインから別のドメインにソース画像を変換することを含むことが理解されよう。「マルチクラス」は、ここでは連続効果のための進行の様々な度合い又は粒度(granularity)を参照する。連続効果の年齢の例において、クラスKを議論した。笑顔に関連する連続効果の場合、クラスは笑顔の度合いを、例えば、一実施形態のように1%の粒度で表すことができる。笑顔の例では、年齢推定器C及びその訓練構成要素C^が(例えば、年齢よりも笑顔の度合いを予測するために)笑顔推定の推定器として(例えば、訓練を介して)適応される。推定量は、連続効果情報を表す連続効果の連続粒度範囲(クラス)のそれぞれにおけるモデル推定クラス埋め込み(model-estimated class embeddings)を決定するのに有用である。
【0112】
非顔面効果(例えば、脱毛度、体重増加など)を含む、他のマルチクラス効果(例えば、ドメイン移動)が企図され得る。従って、生成器は複合符号器および推定器から、目標クラスにおける連続効果画像を生成することが可能であり、目標は効果のクラス(即ち、粒度範囲)のうちの1つである。
【0113】
従って、一実施形態では、対象者の入力画像から、対象者に対する連続効果の目標クラスにおける新規画像を生成するための統合されたモデルを提供することを含む方法が提供される。モデルは、連続効果情報を表す複数の連続クラスのそれぞれにおいて、複数のそれぞれのモデル推定クラス埋め込みを提供する。モデル推定クラス埋め込みは、モデルの符号器-復号器アーキテクチャに埋め込まれた生成器および推定器の合同訓練によって学習される。推定器は、それぞれの入力画像に応じて符号器が生成されたそれぞれの特徴を用いて、それぞれの対象者のモデル推定クラスを決定するように構成される。生成器は、目標クラスに従って決定されたモデル推定クラス埋め込みのそれぞれによって変換された、入力画像から生成された特徴を用いて、新規画像を生成する。
【0114】
一実施形態では、連続効果はエージング効果であり、目標範囲は年齢クラスのうちの特定の1つ(例えば、連続効果の度合いの1つ)、例えば、整数年(an integer year)である。
【0115】
《結論》
本研究では、連続的なエージングの側面に特に焦点を当てた、顔のエージングの課題への新しいアプローチを紹介した。GANベースの生成器に年齢推定モジュールを導入することにより、連続的なエージング基準を学習するための統合されたフレームワークが提案されている。設計されたPATモジュールは典型的な顔のエージング基準の個人化を更に強化し、これは、全体的に、より自然で現実的な生成された顔画像をもたらす。実験は、以前の研究と比較して、2つのデータセット上で、エージング精度、アイデンティティ保持および画像の忠実度に関し、優れた性能を定性的および定量的に示した。更に、提案されたネットワーク構造はグループベースの訓練を回避し、より正確な連続モデリングを達成するために、他のマルチクラスドメイン転送タスクにも適用できる。前述のように、一例は、顔に適用される笑顔の効果である。年齢推定器ではなく、連続効果の推定器(例えば、C 112)は、ある度合いの笑顔の効果推定器を含む。
【0116】
実用的な実装は、本明細書に記載される特徴のいずれかまたは全てを含むことができる。これら及び他の態様、特徴、および様々な組合せは、機能を実行するための方法、機器、系、手段および本明細書で説明する特徴を組み合わせる他の方法として表され得る。いくつかの実施形態について説明した。それにもかかわらず、本明細書に記載されるプロセス及び技法の趣旨および範囲から逸脱することなく、様々な修正がなされ得ることが理解されよう。加えて、他のステップを提供することができ、又はステップを記載されたプロセスから排除することができ、他の構成要素を記載されたシステムに追加するか、またはそこから除去することができる。従って、他の態様は特許請求の範囲の範囲内にある。
【0117】
本明細書の説明および特許請求の範囲を通して、単語「含む(comprise)」および「含む(contain)」及びそれらの変形は「含むが、限定されない」を意味し、他の構成要素、整数またはステップを排除することを意図しない。本明細書全体を通して、単数形は文脈が他のことを必要としない限り、複数形を包含する。特に、不定冠詞が用いられる場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。
【0118】
本発明の特定の態様、実施形態または実施例に関連して説明される特徴、整数、特性またはグループはそれらと互換性がない場合を除き、任意の他の態様、実施形態、または実施例に適用可能であると理解されるべきである。本明細書に開示される特徴の全て(任意の添付の特許請求の範囲、要約および図面を含む)、及び/又はそのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴および/またはステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の任意の例または実施形態の詳細に限定されない。本発明は、本明細書(添付の特許請求の範囲、要約および図面を含む)に開示される特徴の任意の新規な1又は任意の新規な組み合わせ又は開示される任意の方法またはプロセスのステップの任意の新規な1又は任意の新規な組み合わせに及ぶ。
《参考文献》
以下の出版物は、許容される場合、参照により本明細書に組み込まれる。
[1] Grigory Antipov, Moez Baccouche, and Jean-Luc Dugelay. Face aging with conditional generative adversarial networks. In 2017 IEEE international conference on image processing (ICIP), pages 2089-2093. IEEE, 2017.
[2] Yosuke Bando, Takaaki Kuratate, and Tomoyuki Nishita. A simple method for modeling wrinkles on human skin. In Pacific Conference on Computer Graphics and Applications, pages 166-175. Citeseer, 2002.
[3] Laurence Boissieux, Gergo Kiss, Nadia Magnenat Thalmann, and Prem Kalra. Simulation of skin aging and wrinkles with cosmetics insight. In Computer Animation and Simulation 2000, pages 15-27. Springer, 2000.
[4] D Michael Burt and David I Perrett. Perception of age in adult caucasian male faces: Computer graphic manipulation of shape and colour information. Proceedings of the Royal Society of London. Series B: Biological Sciences, 259(1355):137-143, 1995.
[5] Bor-Chun Chen, Chu-Song Chen, and Winston H Hsu. Cross-age reference coding for age-invariant face recognition and retrieval. In European conference on computer vision, pages 768-783. Springer, 2014.
[6] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, and Jaegul Choo. Stargan: Unified generative adversarial networks for multi-domain image-to-image translation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8789-8797, 2018.
[7] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-Woo Ha. Stargan v2: Diverse image synthesis for multiple domains. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8188-8197, 2020.
[8] Harm de Vries, Florian Strub, Jeremie Mary, Hugo Larochelle, Olivier Pietquin, and Aaron C Courville. Modulating early visual processing by language. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems 30, pages 6594-6604. Curran Associates, Inc., 2017.
[9] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. Advances in neural information processing systems, 3(06), 2014.
[10] Zhenliang He, Meina Kan, Shiguang Shan, and Xilin Chen. S2gan: Share aging factors across ages and share aging trends among individuals. In Proceedings of the IEEE International Conference on Computer Vision, pages 9440-9449, 2019.
[11] Zhenliang He, Wangmeng Zuo, Meina Kan, Shiguang Shan, and Xilin Chen. Attgan: Facial attribute editing by only changing what you want. IEEE Transactions on Image Processing, 28(11):5464-5478, 2019.
[12] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Advances in neural information processing systems, pages 6626-6637, 2017.
[13] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In ICCV, 2017.
[14] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. CVPR, 2017.
[15] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4401-4410, 2019.
[16] Ira Kemelmacher-Shlizerman, Supasorn Suwajanakorn, and Steven M Seitz. Illumination-aware age progression. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3334-3341, 2014.
[17] Andreas Lanitis, Christopher J. Taylor, and Timothy F. Cootes. Toward automatic simulation of aging effects on face images. IEEE Transactions on pattern Analysis and machine Intelligence, 24(4):442-455, 2002.
[18] Peipei Li, Yibo Hu, Qi Li, Ran He, and Zhenan Sun. Global and local consistent age generative adversarial networks. In 2018 24th International Conference on Pattern Recognition (ICPR), pages 1073-1078. IEEE, 2018.
[19] Ming Liu, Yukang Ding, Min Xia, Xiao Liu, Errui Ding, Wangmeng Zuo, and Shilei Wen. Stgan: A unified selective transfer network for arbitrary image attribute editing. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3673-3682, 2019.
[20] Si Liu, Yao Sun, Defa Zhu, Renda Bao, Wei Wang, Xiangbo Shu, and Shuicheng Yan. Face aging with contextual generative adversarial nets. In Proceedings of the 25th ACM international conference on Multimedia, pages 82-90, 2017.
[21] Yunfan Liu, Qi Li, and Zhenan Sun. Attribute-aware face aging with wavelet-based generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 11877-11886, 2019.
[22] Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784, 2014.
[23] Augustus Odena, Christopher Olah, and Jonathon Shlens. Conditional image synthesis with auxiliary classifier gans. In International conference on machine learning, pages 2642-2651, 2017.
[24] Roy Or-El, Soumyadip Sengupta, Ohad Fried, Eli Shechtman, and Ira Kemelmacher-Shlizerman. Lifespan age transformation synthesis. In Proceedings of the European Conference on Computer Vision (ECCV), 2020.
[25] Hongyu Pan, Hu Han, Shiguang Shan, and Xilin Chen. Mean-variance loss for deep age estimation from a face. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5285-5294, 2018.
[26] Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. Gaugan: semantic image synthesis with spatially adaptive normalization. In ACM SIGGRAPH 2019 Real-Time Live! 2019.
[27] Narayanan Ramanathan and Rama Chellappa. Modeling age progression in young faces. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06), volume 1, pages 387-394. IEEE, 2006.
[28] Narayanan Ramanathan and Rama Chellappa. Modeling shape and textural variations in aging faces. In 2008 8th IEEE International Conference on Automatic Face & Gesture Recognition, pages 1-8. IEEE, 2008.
[29] Karl Ricanek and Tamirat Tesafaye. Morph: A longitudinal image database of normal adult age-progression. In 7th International Conference on Automatic Face and Gesture Recognition (FGR06), pages 341-345. IEEE, 2006.
[30] Rasmus Rothe, Radu Timofte, and Luc Van Gool. Dex: Deep expectation of apparent age from a single image. In Proceedings of the IEEE international conference on computer vision workshops, pages 10-15, 2015.
[31] Duncan A Rowland and David I Perrett. Manipulating facial appearance through shape and color. IEEE computer graphics and applications, 15(5):70-76, 1995.
[32] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9243-9252, 2020.
[33] Xiangbo Shu, Jinhui Tang, Hanjiang Lai, Luoqi Liu, and Shuicheng Yan. Personalized age progression with aging dictionary. In Proceedings of the IEEE international conference on computer vision, pages 3970-3978, 2015.
[34] Jinli Suo, Xilin Chen, Shiguang Shan, Wen Gao, and Qionghai Dai. A concatenational graph evolution aging model. IEEE transactions on pattern analysis and machine intelligence, 34(11):2083-2096, 2012.
[35] Jinli Suo, Feng Min, Songchun Zhu, Shiguang Shan, and Xilin Chen. A multi-resolution dynamic model for face aging simulation. In 2007 IEEE Conference on Computer Vision and Pattern Recognition, pages 1-8. IEEE, 2007.
[36] Jinli Suo, Song-Chun Zhu, Shiguang Shan, and Xilin Chen. A compositional and dynamic model for face aging. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(3):385-401, 2009.
[37] Bernard Tiddeman, Michael Burt, and David Perrett. Prototyping and transforming facial textures for perception research. IEEE computer graphics and applications, 21(5):42-50, 2001.
[38] James T Todd, Leonard S Mark, Robert E Shaw, and John B Pittenger. The perception of human growth. Scientific American, 242(2):132-145, 1980.
[39] Wei Wang, Zhen Cui, Yan Yan, Jiashi Feng, Shuicheng Yan, Xiangbo Shu, and Nicu Sebe. Recurrent face aging. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2378-2386, 2016.
[40] Wei Wang, Yan Yan, Stefan Winkler, and Nicu Sebe. Category specific dictionary learning for attribute specific feature selection. IEEE Transactions on Image Processing, 25(3):1465-1478, 2016.
[41] Zongwei Wang, Xu Tang, Weixin Luo, and Shenghua Gao. Face aging with identity-preserved conditional generative adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7939-7947, 2018.
[42] Yin Wu, Nadia Magnenat Thalmann, and Daniel Thalmann. A plastic-visco-elastic model for wrinkles in facial animation and skin aging. In Fundamentals of Computer Graphics, pages 201-213. World Scientific, 1994.
[43] Hongyu Yang, Di Huang, Yunhong Wang, and Anil K Jain. Learning face age progression: A pyramid architecture of gans. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 31-39, 2018.
[44] Hongyu Yang, Di Huang, Yunhong Wang, Heng Wang, and Yuanyan Tang. Face aging effect simulation using hidden factor analysis joint sparse representation. IEEE Transactions on Image Processing, 25(6):2493-2507, 2016.
[45] Xu Yao, Gilles Puy, Alasdair Newson, Yann Gousseau, and Pierre Hellier. High resolution face age editing. arXiv preprint arXiv:2005.04410, 2020.
[46] Zhifei Zhang, Yang Song, and Hairong Qi. Age progression/regression by conditional adversarial autoencoder. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5810-5818, 2017.
[47] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycleconsistent adversarial networks. In Proceedings of the IEEE international conference on computer vision, pages 2223-2232,2017.
<その他>
<手段>
技術的思想1の方法は、対象者の入力画像から、前記対象者の目標年齢における新規画像を生成するための統合年齢シミュレーションモデルを提供することを含むものであり、前記統合年齢シミュレーションモデルは、連続的なエージング情報を表す複数の連続する年齢のそれぞれにおける、複数のそれぞれのモデル推定年齢の埋め込みを提供し、前記モデル推定年齢の埋め込みは、生成器の合同訓練を通じて学習され、年齢推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、前記年齢推定器は、それぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、対象者のモデル推定年齢を決定するように構成され、前記生成部は、前記目標年齢と前記対象者のモデル推定年齢とに従って決定されたモデル推定年齢の埋め込みのそれぞれによって変換された前記入力画像から、前記生成器が生成した特徴を用いて前記新規画像を生成する。
技術的思想2の方法は、技術的思想1記載の方法において、前記符号器-復号器アーキテクチャが、前記入力画像内の前記対象者のモデル推定年齢を推定するための前記年齢推定器を備える。
技術的思想3の方法は、技術的思想2記載の方法において、前記モデルの符号器が前記入力画像を処理して、前記符号器が生成した特徴を決定し、前記年齢推定器が、前記符号器が生成した特徴を処理して、前記モデルが推定した年齢を決定する。
技術的思想4の方法は、技術的思想2記載の方法において、前記符号器によって生成された特徴は、a.前記モデル推定年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれと、b.前記目標年齢に応じて決定された前記モデル推定年齢の埋め込みのそれぞれと、を含む個人化された年齢の埋め込みによって変換される。
技術的思想5の方法は、技術的思想4記載の方法において、前記個人化された年齢の埋め込みは、a.前記対象者のアイデンティティ情報を保持するための前記モデル推定年齢に応じて複数のそれぞれの前記モデル推定年齢の埋め込みから決定された個人化された残存の年齢の埋め込みと、b.全集団の間で共有されたエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みと、を含む。
技術的思想6の方法は、技術的思想4又は5に記載の方法において、前記個人化された年齢の埋め込みが、アフィン変換に従って適用される。
技術的思想7の方法は、技術的思想4から6のいずれかに記載の方法において、前記生成器は、前記個人化された年齢の埋め込みによって変換された前記符号化された特徴を処理することで、前記目標年齢における前記新規画像を生成する。
技術的思想8の方法は、技術的思想1から7のいずれかに記載の方法において、前記モデルは、深層学習ニューラルネットワークモデル及び生成的敵対ネットワークベースモデルの一方または両方で構成される。
技術的思想9の方法は、技術的思想1から8のいずれかに記載の方法において、製品およびサービスの一方または両方についての推奨を得るための推奨インターフェースを提供する。
技術的思想10の方法は、技術的思想1から9のいずれかに記載の方法において、製品およびサービスの一方または両方を購入するための電子商取引購入インターフェースを提供する。
技術的思想11の方法は、技術的思想1から10のいずれかに記載の方法において、前記入力画像を受信し、表示のために前記新規画像を提供する。
技術的思想12の方法は、技術的思想1から11のいずれかに記載の方法において、前記入力画像および前記新規画像のそれぞれが、前記対象者の顔を含む。
技術的思想13の方法は、対象者の入力画像から、前記対象者に対する連続効果の目標クラスにおける新規画像を生成するための統合されたモデルを提供するものであり、前記モデルは、連続効果情報を表す複数の連続クラスのそれぞれにおける、複数のそれぞれのモデル推定クラス埋め込みを提供し、前記モデル推定クラス埋め込みは、生成器の合同訓練を通じて学習され、クラス推定器は、前記モデルの符号器-復号器アーキテクチャに埋め込まれ、前記クラス推定器は、それぞれの入力画像に応じて、それぞれの符号器が生成した特徴から、それぞれの対象者のモデル推定クラスを決定するように構成され、前記生成部は、前記目標クラスに応じて決定された前記モデル推定クラス埋め込み及び前記対象者のモデル推定クラスのそれぞれによって変換された前記入力画像から前記符号器が生成した特徴を用いて前記新規画像を生成する。
技術的思想14の方法は、入力画像を新規画像に転送するドメイン転送モデルを提供し、クラスのそれぞれについてのモデルによって学習された、複数のそれぞれのモデル推定クラス埋め込みを用いて、連続効果の複数の連続クラスの目標クラスに前記入力画像を変換するための連続効果を適用し、前記ドメイン転送モデルを用いて前記入力画像を新規画像に転送する。
技術的思想15の方法は、技術的思想14記載の方法において、前記進行効果がエージング効果を含み、前記複数のそれぞれのモデル推定クラス埋め込みが、それぞれのモデル推定年齢の埋め込みを含み、前記目標クラスが目標年齢を含む。
技術的思想16の方法は、技術的思想15記載の方法において、前記入力画像を転送する際、前記ドメイン転送モデルは、前記入力画像の符号化された特徴を生成し、前記入力画像内の対象者のモデル推定年齢に応じて複数のそれぞれのモデル推定年齢の埋め込みから決定された個人化された残存の年齢の埋め込み、及び、全集団の間で共有されるエージングパターンを表すために前記目標年齢に従って決定された前記モデル推定の残存の年齢の埋め込みのそれぞれ1つを含む典型的な年齢の埋め込みを用いて前記符号化された特徴を変換し、変換された前記符号化された特徴を用いて前記新規画像を生成するように動作する。
技術的思想17の方法は、技術的思想16記載の方法において、前記モデルが、前記モデル推定年齢を決定する年齢推定器を備える。
技術的思想18の方法は、技術的思想17記載の方法において、前記年齢推定器は、符号器と共に訓練された分類器を備え、前記符号器は、前記符号化された特徴を生成するように構成され、前記年齢推定器は、前記符号器によって符号化されたそれぞれの符号化された特徴を用いて、新規画像内の対象者のそれぞれのモデル推定年齢を決定するように訓練される。
技術的思想19の方法は、技術的思想18記載の方法において、前記モデル推定年齢の埋め込みは、前記符号器と共に前記年齢推定器の前記訓練の間に定義され、前記モデル推定年齢の埋め込みのそれぞれを、前記それぞれのモデル推定年齢に関連付ける。
技術的思想20の方法は、技術的思想14から19のいずれかに記載の方法において、前記連続効果に関連付けられた製品およびサービスのうちの少なくとも1つについての推奨を提供する。
技術的思想21の方法は、技術的思想20記載の方法において、前記推奨は、前記入力画像の皮膚の分析および嗜好のユーザ入力の一方または両方に応じて生成される。
技術的思想22の方法は、技術的思想20又は21に記載の方法において、前記目標年齢が、前記推奨に応じて決定される。
技術的思想23の方法は、技術的思想20から22のいずれかに記載の方法において、前記推奨を提示するために、前記入力画像から生成された注釈付き画像を提供する。
技術的思想24の方法は、技術的思想20から23のいずれかに記載の方法において、製品、サービス又はその両方を購入するための電子商取引インターフェースを提供する。
技術的思想25の方法は、技術的思想20から24のいずれかに記載の方法において、前記連続効果は、エージング効果であり、前記製品は、若返り製品、エージング防止製品および化粧用メーキャップ製品のうちの1つを含み、前記サービスは、若返りサービス、エージング防止サービス、化粧品サービスの1つを含む。
技術的思想26のコンピューティング装置は、処理ユニットと、それに結合された記憶デバイスとを備えるものであり、前記記憶ユニットは、命令であって、前記処理ユニットで実行されると技術的思想1から25に記載のいずれかの方法を実行するように前記コンピューティング装置を構成する命令を記憶する。
技術的思想27のコンピュータプログラム製品は、非一時的記憶デバイスであって、コンピューティング装置の処理ユニットで実行されると技術的思想1から25に記載のいずれかの方法を実行するように前記コンピューティング装置を構成する命令を記憶する非一時的記憶デバイスを含む。
技術的思想28のコンピューティング装置は、処理ユニットと、それに結合された記憶デバイスとを備えるものであり、前記記憶ユニットは、命令を記憶し、前記処理ユニットによって前記命令が実行された際に前記コンピューティング装置を、a.製品とサービスとの少なくとも一方を推奨し、b.入力画像から生成された新規画像と目標年齢とを含む年齢シミュレーション画像を提供し、前記新規画像は、技術的思想1から25に記載のいずれかの方法に従って生成するように構成される。
【国際調査報告】