IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ロレアルの特許一覧

特表2023-531265空間認識条件付きGANによる高解像度で制御可能な顔のエージング
<>
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図1
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図2
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図3
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図4
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図5
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図6
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図7
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図8
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図9
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図10
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図11
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図12
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図13
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図14
  • 特表-空間認識条件付きGANによる高解像度で制御可能な顔のエージング 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-21
(54)【発明の名称】空間認識条件付きGANによる高解像度で制御可能な顔のエージング
(51)【国際特許分類】
   G06T 1/00 20060101AFI20230713BHJP
   G06T 1/40 20060101ALI20230713BHJP
【FI】
G06T1/00 340A
G06T1/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022580297
(86)(22)【出願日】2021-06-29
(85)【翻訳文提出日】2023-02-24
(86)【国際出願番号】 EP2021067890
(87)【国際公開番号】W WO2022002964
(87)【国際公開日】2022-01-06
(31)【優先権主張番号】63/046,011
(32)【優先日】2020-06-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】2009199
(32)【優先日】2020-09-11
(33)【優先権主張国・地域又は機関】FR
(81)【指定国・地域】
(71)【出願人】
【識別番号】391023932
【氏名又は名称】ロレアル
【氏名又は名称原語表記】L’OREAL
【住所又は居所原語表記】14 Rue Royale,75008 PARIS,France
(74)【代理人】
【識別番号】110000534
【氏名又は名称】弁理士法人真明センチュリー
(72)【発明者】
【氏名】デスポア・ジュリアン
(72)【発明者】
【氏名】フラマン・フレデリック
(72)【発明者】
【氏名】ペロット・マシュー
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057BA02
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CE17
5B057DA17
5B057DB02
5B057DB06
5B057DB09
5B057DC40
(57)【要約】
連続エージングをシミュレートするために、高解像度の画像を含む顔の画像を制御可能に変換するためのコンピューティングデバイス及び方法などが提供される。民族固有のエージング情報および弱い空間的監督が、GANベースの生成器を含むモデルを訓練することによって定義されるエージングプロセスを誘導するために使用される。エージングマップは、スキンサインスコア又は見かけのエージング値として、民族固有のエージング情報を提示する。スコアは、スキンサインに関連する顔のスキンサインゾーンのそれぞれの位置に関連してマップ内に位置する。特に、顔の異なる部分から類似のパッチを区別するための位置情報に関連するパッチベースの訓練はリソース使用を最小限に抑えながら、高解像度の画像を訓練するために使用される。
【選択図】図1
【特許請求の範囲】
【請求項1】
コンピューティングデバイスであって、
顔のオリジナル画像を受信し、年齢シミュレーション生成器を使用して、提示するための変換画像を生成するように構成された処理ユニットを備え、
前記生成器は、前記オリジナル画像と前記変換画像との間の複数の年齢に関連するスキンサインを連続的に制御してエージングをシミュレートし、更に前記生成器は、スキンサインのそれぞれのエージング目標を使用してオリジナル画像を変換させるように構成されることを特徴とするコンピューティングデバイス。
【請求項2】
前記生成器は、条件付きGANベースであることを特徴とする請求項1記載のコンピューティングデバイス。
【請求項3】
前記ターゲットは、前記スキンサインのそれぞれに関連付けられた前記顔のエージングマップ識別ゾーンとして前記生成器に提供され、前記エージングマップ内の各ゾーンが、前記関連するスキンサインに対応するそれぞれのエージング目標で満たされることを特徴とする請求項1又は2に記載のコンピューティングデバイス。
【請求項4】
前記エージングマップは、前記関連するスキンサインのスコア値によって、前記関連するスキンサインの特定のエージング目標を表すことを特徴とする請求項3記載のコンピューティングデバイス。
【請求項5】
前記エージングマップは、前記関連するスキンサインに対する特定のエージング目標を、前記関連するスキンサインに対する見かけのエージング値によって表すことを特徴とする請求項3記載のコンピューティングデバイス。
【請求項6】
前記エージングマップは、前記関連するスキンサインについての特定のエージング目標を、利用可能な場合には前記関連するスキンサインのスコア値によって表し、前記スコア値が利用可能でない場合には見かけのエージング値によって表すことを特徴とする請求項3記載のコンピューティングデバイス。
【請求項7】
前記エージングマップは、前記エージング目標を表すためにピクセル強度を使用するように定義されることを特徴とする請求項3から6のいずれかに記載のコンピューティングデバイス。
【請求項8】
前記エージングマップは、前記オリジナル画像の背景をマスクすることを特徴とする請求項3から7のいずれかに記載のコンピューティングデバイス。
【請求項9】
前記生成器は、それぞれの訓練画像および関連するエージングマップを使用する訓練を通じて構成され、前記関連するエージングマップは、前記それぞれのスキンサインのエージング変換を誘導するための弱い空間的監督を提供することを特徴とする請求項1から8のいずれかに記載のコンピューティングデバイス。
【請求項10】
前記スキンサインは、エージングの民族固有の次元を表すことを特徴とする請求項1から9のいずれかに記載のコンピューティングデバイス。
【請求項11】
前記スキンサインが、「年齢」、「額の皺」、「ほうれい線」、「目の下の皺」、「眉間の皺」、「眼間の皺」、「唇の角の皺」、「上唇」及び「顔の下部の下垂」のうちの1又は複数を表すことを特徴とする請求項1から10のいずれかに記載のコンピューティングデバイス。
【請求項12】
前記生成器は、前記エージング目標をエージングマップの形態で組み込むために、デコーダ内の残差ブロックを備える完全畳み込みエンコーダ-デコーダであることを特徴とする請求項1から11のいずれかに記載のコンピューティングデバイス。
【請求項13】
前記生成器は、特定の訓練画像の一部と、関連するエージングマップの対応するパッチとを使用する、パッチベースの訓練を使用して構成されることを特徴とする請求項12記載のコンピューティングデバイス。
【請求項14】
前記残差ブロックは、前記特定の訓練画像の前記部分のそれぞれの位置と、前記関連するエージングマップの前記対応するパッチとを示すために位置情報を更に組み込むことを特徴とする請求項13記載のコンピューティングデバイス。
【請求項15】
前記位置情報は、前記オリジナル画像の高さ及び幅(H×W)サイズに関連する水平勾配マップ及び垂直勾配マップから定義されるそれぞれのX及びY座標マップを使用して提供されることを特徴とする請求項14記載のコンピューティングデバイス。
【請求項16】
前記特定の訓練画像が高解像度の画像であり、パッチサイズがその一部であることを特徴とする請求項13から15のいずれかに記載のコンピューティングデバイス。
【請求項17】
前記パッチサイズは、前記高解像度の画像の1/2以下であることを特徴とする請求項16記載のコンピューティングデバイス。
【請求項18】
前記生成器は、前記生成器を制限して、適用される追加の変換を最小限に抑えながら、前記年齢に関連するスキンサインを変換するように、注意メカニズムを介して構成されることを特徴とする請求項1から17のいずれかに記載のコンピューティングデバイス。
【請求項19】
前記処理ユニットは、使用のために前記生成器を提供する第2のコンピューティングデバイスと通信するように構成され、前記処理ユニットは前記オリジナル画像を通信し、前記変換画像を受信することを特徴とする請求項1から18のいずれかに記載のコンピューティングデバイス。
【請求項20】
前記オリジナル画像は、1024×1024ピクセル以上の高解像度の画像であることを特徴とする請求項1から19のいずれかに記載のコンピューティングデバイス。
【請求項21】
前記処理ユニットは、前記変換画像を使用してエージングをシミュレートするための拡張現実アプリケーションを提供するように更に構成されることを特徴とする請求項1から20のいずれかに記載のコンピューティングデバイス。
【請求項22】
カメラを備え、前記処理ユニットが、前記カメラから前記オリジナル画像を受信することを特徴とする請求項21記載のコンピューティングデバイス。
【請求項23】
前記処理ユニットは、製品およびサービスのうちの少なくとも1つを推奨する推奨機能と、前記製品および前記サービスのうちの少なくとも1つを購入するための電子商取引機能とのうちの少なくとも1つを提供するように構成されることを特徴とする請求項1から22のいずれかに記載のコンピューティングデバイス。
【請求項24】
前記製品が、若返り製品、アンチエージング製品および化粧用メイクアップ製品のうちの1つを含むことを特徴とする請求項23記載のコンピューティングデバイス。
【請求項25】
前記サービスが、若返りサービス、アンチエージングサービス及び化粧品サービスのうちの1つを備えることを特徴とする請求項23記載のコンピューティングデバイス。
【請求項26】
方法であって、
オリジナル画像と顔の変換画像との間の複数の年齢に関連するスキンサインに対する連続的な制御を有する年齢シミュレーション生成器を定義することであって、訓練画像の各々がスキンサインのうちの少なくともいくつかに対する年齢目標に関連付けられる個々のペアリングされていない訓練画像を使用して生成器を訓練し、画像を変換するための生成器を提供することにより、前記年齢シミュレーション生成器を定義することと、
変換画像を、前記生成器に提供すること、とを備えていることを特徴とする方法。
【請求項27】
前記生成器は、条件付きGANベースであることを特徴とする請求項26記載の方法。
【請求項28】
前記エージング目標を、前記スキンサインのそれぞれに関連する前記顔のゾーンを識別するエージングマップとして定義することを含み、前記エージングマップ内の各ゾーンが、前記関連するスキンサインに対応するそれぞれのエージング目標で満たされることを特徴とする請求項26又は27に記載の方法。
【請求項29】
コンピューティングデバイスであって、
少なくとも1つの顔効果をソース画像に適用し、インターフェース上に適用効果ソース画像の仮想インスタンスを生成するように構成された処理回路を含む顔効果ユニットはであって、オリジナル画像と顔の変換画像との間の複数の年齢に関連するスキンサインを連続的に制御してエージングをシミュレートするための生成器を利用し、生成器は、スキンサインのためのそれぞれのエージング目標を使用してオリジナル画像を変換させるように構成される顔効果ユニットを備えていることを特徴とするコンピューティングデバイス。
【請求項30】
前記製品および/またはサービスの推奨を提示し、前記製品および/またはサービスの選択を受信するように構成された処理回路を含む推奨ユニットであって、前記製品および/またはサービスが、スキンサインのうちの少なくとも1つのためのエージング目標修正器に関連付けられ、前記顔効果ユニットが選択に応答してエージング目標修正器を使用してスキンサインのそれぞれのエージング目標を生成し、それによって、ソース画像に対する前記製品および/またはサービスの効果をシミュレートするように構成される推奨ユニットを備えていることを特徴とする請求項29記載のコンピューティングデバイス。
【請求項31】
前記推奨ユニットは、前記ソース画像を使用して現在のスキンサインスコアを決定するためにスキンサイン解析器を呼び出し、前記製品および/またはサービスを決定するために現在のスキンサインスコアを使用することで、前記推奨を取得するように構成されることを特徴とする請求項30記載のコンピューティングデバイス。
【請求項32】
前記スキンサイン解析器は、ディープラーニングモデルを使用して前記ソース画像を分析するよう構成されることを特徴とする請求項31記載のコンピューティングデバイス。
【請求項33】
前記エージング目標は、前記現在のスキンサインスコア及び前記エージング目標解析器から定義されることを特徴とする請求項31又は32に記載のコンピューティングデバイス。
【請求項34】
前記生成器は、条件付きGANベースであることを特徴とする請求項29から33のいずれかに記載のコンピューティングデバイス。
【請求項35】
前記エージング目標は、前記スキンサインのそれぞれに関連付けられた前記顔のエージングマップ識別ゾーンとして前記生成器に提供され、前記エージングマップ内の各ゾーンは前記関連するスキンサインに対応するそれぞれのエージング目標で満たされることを特徴とする請求項29から34のいずれかに記載のコンピューティングデバイス。
【請求項36】
前記エージングマップは、前記関連するスキンサインのスコア値によって、前記関連するスキンサインの特定のエージング目標を表すことを特徴とする請求項35記載のコンピューティングデバイス。
【請求項37】
前記エージングマップは、前記関連するスキンサインに対する特定のエージング目標を、前記関連するスキンサインに対する見かけのエージング値によって表すことを特徴とする請求項35記載のコンピューティングデバイス。
【請求項38】
前記エージングマップは、前記関連するスキンサインについての特定のエージング目標を、利用可能な場合には前記関連するスキンサインのスコア値によって表し、前記スコア値が利用可能でない場合には見かけのエージング値によって表すことを特徴とする請求項39記載のコンピューティングデバイス。
【請求項39】
前記エージングマップは、前記エージング目標を表すためにピクセル強度を使用するように定義されることを特徴とする請求項35から38のいずれかに記載のコンピューティングデバイス。
【請求項40】
前記エージングマップは、前記ソース画像の背景をマスクすることを特徴とする請求項35から39のいずれかに記載のコンピューティングデバイス。
【請求項41】
前記スキンサインが、「年齢」、「額の皺」、「ほうれい線」、「目の下の皺」、「眉間の皺」、「眼間の皺」、「唇の角の皺」、「上唇」及び「顔の下部の下垂」のうちの1又は複数を表すことを特徴とする請求項29から44のいずれかに記載のコンピューティングデバイス。
【請求項42】
前記生成器は、前記エージング目標をエージングマップの形態で組み込むために、前記デコーダ内の残差ブロックを備える完全畳み込みエンコーダ-デコーダであることを特徴とする請求項29から41のいずれかに記載のコンピューティングデバイス。
【請求項43】
前記オリジナル画像が、1024×1024ピクセル以上の高解像度の画像であることを特徴とする請求項29から42のいずれかに記載のコンピューティングデバイス。
【請求項44】
カメラを備え、前記コンピューティングデバイスが、前記カメラから前記オリジナル画像を生成するように構成されることを特徴とする請求項29から43のいずれかに記載のコンピューティングデバイス。
【請求項45】
前記製品が、若返り製品、アンチエージング製品および化粧用メイクアップ製品のうちの1つを含むことを特徴とする請求項29から44のいずれかに記載のコンピューティングデバイス。
【請求項46】
前記サービスが、若返りサービス、アンチエージングサービス及び化粧品サービスのうちの1つを含むことを特徴とする請求項29から45のいずれかに記載のコンピューティングデバイス。
【請求項47】
前記インターフェースが、製品およびサービスのいずれかの購入を可能にするための電子商取引インターフェースを備えることを特徴とする請求項29から46のいずれかに記載のコンピューティングデバイス。
【発明の詳細な説明】
【相互参照】
【0001】
本出願は、2020年6月30日に出願され、「空間認識条件付きGANによる高解像度で制御可能な顔のエージング(High-Resolution Controllable Face Aging with Spatially-Aware Conditional GANs)」と題された米国仮出願第63/046,011号、及び、2020年9月11日に出願され、「空間認識条件付きGANによる高解像度で制御可能な顔のエージング(High-Resolution Controllable Face Aging with Spatially-Aware Conditional GANs)」と題された先行フランス特許出願第2009199号の優先権および/または利益を主張しており、それらのそれぞれの内容全体は許容できる場合には参照によりここに組み込まれるものとする。
【技術分野】
【0002】
本開示は画像処理に関し、より詳細には、空間認識条件付き敵対的生成ネットワーク(generative adversarial networks、GAN)を用いた高解像度で制御可能な顔のエージングに関するものである。
【背景技術】
【0003】
顔のエージングは、被験者の同一性および重要な顔の特徴を維持しながら、異なる年齢の人物の印象を与えるために基準画像を変換しなければならない画像合成タスクである。正しく行われると、このプロセスは、行方不明者の将来の出現を予測することから娯楽および教育的使用に至るまで、様々な領域で使用することができる。高解像度の顔のエージングを達成することに焦点を当てることができ、そのようなことは、エージングの微細な細部(細線、色素沈着など)を捕捉するための有用なステップである。近年、GAN[14]は、このタスクのための学習ベースのアプローチを可能にしている。しかしながら、結果は、しばしば品質に欠け、限られたエージングの選択肢しか提供しない。StarGAN[10]のような一般的なモデルは追加の微調整および修正なしに、説得力のある結果を生み出すことができない。これは、部分的にはエージングを本当のまたは見かけの年齢に減らすという選択に起因する[1]。また、現在のアプローチはエージングを段階的プロセスとして扱い、ビン(30~40、40~50、50+等)におけるエージングを分割する[2,16,28,30,32]。
【0004】
実際には、加齢が顔の特徴および民族性などの遺伝的要因ならびに生活様式の選択(喫煙、水分補給、日光損傷等)または行動に応じて、多くの形態をとり得る連続的なプロセスである。特に、表情皺(しわ)は、習慣的な顔の表情によって促進され、額、上唇または目の角(カラスの足)に目立つことがある。更に加齢は、年齢を評価する人の文化的背景に依存するので、主観的である。これらの要因は、高齢化に直面するためのよりきめ細かいアプローチを必要とする。
【0005】
顔のエージングのための既存のアプローチ及びデータセットは、平均に向かって歪んだ結果をもたらし、個人のばらつき及び表情皺は、顔の肥大などの全体的なパターンに有利に見えないかまたは見過ごされることが多い。更にそれらは、エージングプロセスに対する制御をほとんど又は全く提供せず、大きな画像にスケーリングすることが困難であり、したがって、多くの現実世界のアプリケーションにおけるそれらの使用を妨げる。
【発明の概要】
【0006】
本明細書の技術方法によれば、高解像度の画像を含む顔の画像を制御可能に変換して連続エージングをシミュレートするためのコンピューティングデバイス及び方法等のためのそれぞれの実施形態が提供される。一実施形態では、民族固有のエージング情報および弱い空間的監督(spatial supervision)を使用して、GANベースの生成器を備えるモデルを訓練することによって定義されるエージングプロセスを誘導する。一実施形態では、エージングマップが、スキンサインスコア又は見かけのエージング値として、民族特異的エージング情報を提示する。一実施形態では、スコアが、スキンサイン(skin sign)に関連する顔のスキンサインゾーン(skin sign zone)のそれぞれの位置に関連してマップ内に配置される。一実施形態では、パッチベースの訓練が、特に顔の異なる部分から類似のパッチを区別するための位置情報と関連して、計算リソースの使用を最小限に抑えながら高解像度の画像を訓練するために使用される。
【図面の簡単な説明】
【0007】
図1】一実施形態による、連続的に処理されたそれぞれの列の2つの面を示す高解像度面のアレイである。
図2】A、B、C及び2Dは、Eに示される顔のいくつかのそれぞれのエージングサインゾーンを示す画像である。Eはまた、一実施形態による、顔のゾーンに関する関連するエージングサインスコアから構築された顔のエージングマップを示す。A~Dに示されるゾーン(a)~(d)は、Eを拡大して示す。
図3】A及びBは、水平および垂直位置勾配マップを示す。
図4】一実施形態によるトレーニングワークフローの図である。
図5】一実施形態によるトレーニングワークフローの図である。
図6】従来のアプローチと実施形態のアプローチとによるエージングの比較を示すエージング画像のアレイである。
図7】一実施形態のアプローチを用いて、FFHQデータセットからの異なる年齢および民族の6つの顔の若返り、オリジナル及びエージングを示す画像のアレイである。
図8】一実施形態による、スキンサイン値が定義されていないグループ802及びスキンサイン値が定義されているグループ804におけるモデル結果を示す画像800のアレイである。
図9】一実施形態による、経時変化を連続的に示す画像のアレイである。
図10】A,B,C,D,E及びFは、一実施形態による、それぞれのエージングマップを使用して、オリジナル画像およびエージングされた画像を示す同じ顔の画像である。
図11】一実施形態による、1024×1024画像上の3つの異なるパッチサイズを使用する、1つの顔に対する若返り結果および第2の顔に対するエージング結果を示す、2つのそれぞれの顔に対する2つの画像アレイを示す。
図12】エージング効果を示す画像のアレイを示し、第1のアレイは位置マップを使用せずに訓練されたモデル(パッチ)を使用してエージングを示し、第2のアレイは位置マップを使用して訓練されたモデル(パッチ)を使用してエージングを示し、各モデルは、実施形態に従って訓練された。
図13】一実施形態による、一様な特徴マップを使用してトレーニングされたモデル(パッチ)を使用したエージングを第1のアレイが示し、エージングマップを使用してトレーニングされたモデル(パッチ)を使用したエージングを第2のアレイが示す、エージング効果を示す画像のアレイを示す。
図14】一実施形態による複数のコンピューティングデバイスを備えるコンピュータシステムのブロック図である。
図15】一実施形態による方法態様の動作のフローチャートである。
【0008】
顔画像を含む図面は、本開示における提示目的のためにマスクされ、実際の使用時にマスクされない。
【0009】
【0010】
【0011】
【0012】
【0013】
【0014】
【0015】
【0016】
【0017】
【0018】
【0019】
【0020】
【発明を実施するための形態】
【0021】
本明細書の技術手法によれば、それぞれの実施形態は、局所的なエージングサイン( aging signs)を個々に変換できるモデルを作成することで高解像度の顔のエージング結果を得ることを対象とするシステム及び方法である。図1は、一実施形態による、連続的に処理されたそれぞれの行102及び104における2つの面を示す高解像度面のアレイ100である。
【0022】
一実施形態において、厳選された(curated)高解像度データセットは、詳細な最先端のエージング結果を生成するために、新規な技術(の組み合わせ)と関連して使用される。臨床的なエージングサイン(Clinical aging signs)及び弱い空間的監督(spatial supervision)は、エージングプロセスに対する微細粒度の制御を可能にする。
【0023】
一実施形態では、パッチベース(patch-based)の手法が導入され、モデルを訓練する計算コストを低く保ちながら、高解像度の画像上での推論を可能にする。これにより、モデルは、従来の方法よりも4倍大きいスケールで最新のエージング結果を与えることができる。
関連研究
【0024】
条件付き敵対的生成ネットワーク(Conditional Generative Adversarial Networks、条件付きGAN)[14]は、生成モデルによって生成されたサンプルを実際のサンプルと区別できないことを強制するため、敵対的損失の原理を活用する。このアプローチは、特に画像生成の領域において、印象的な結果をもたらした。GANは、1又はいくつかの条件に基づいて画像を生成するように拡張することができる。結果として得られる条件付きGANは、現実感および条件基準の両方を満たす画像を生成するように訓練される。
【0025】
ペアリングされていない画像から画像への変換条件付きGANは、画像から画像への変換[18]タスクのための強力なツールであり、変換画像を合成するために入力画像がモデルに与えられる。StarGAN[10]は、適用される所望の変換を指定するために追加の条件を使用する手法を導入した。彼らは、入力画像に連結された特徴マップ[10]の形態で、入力条件を生成器(generator)に供給することを提案するが、新しい手法はAdaIN[20]又はその2D拡張SPADE[22]等のより複雑な機構を使用して、より最適な手法で生成器に条件を与える。以前の技術が異なる領域においてピクセル整列された(pixel-aligned)訓練画像を必要とする場合、CycleGAN[34]及びStarGAN[10]のような最近の研究は、離散領域間のペアリングされていない訓練(unpaired training)を可能にするためにサイクル一貫性損失(cycle-consistency loss)を導入した。これは、連続領域間の変換(translation)を可能にするため[23]に拡張されている。
顔のエージング
【0026】
1つの画像から顔をエージングするために、従来のアプローチは画像が撮影されたときの人の年齢と共に、同じ人の1つの[2,16,30,32,33]又は複数の画像[26,28]のいずれかの訓練データを使用する。同一人物の複数の画像を用いた、長期にわたるデータ(longitudinal data)の使用は、データセット収集に重大な時間依存制約をもたらすので、柔軟性が低い。
【0027】
年齢は通常、別個の年齢群(20~30,30~40,40~50,50+等)[2,16,30,32]に分類(例えばグループ化)され、これは問題をより単純にフレーム化(frames)するが、エージングプロセスに対する制御を制限し、訓練がグループの順序付けられた性質を活用することを可能にしない。[33]の開示は、年齢を連続値として考慮することによって、この制限に対処する。エージングは異なる皮膚タイプのエージングが異なることを目的とするものではなく、異なる集団はエージングの異なるサインを探す。エージングの指針として見かけ上(apparent)の年齢に焦点を合わせると、主観的な視点が凍結される。そのようなアプローチは、その観点から追加の年齢推定データを必要することなしには、集団(population's)の観点に合わせることができない。
【0028】
生成された画像の品質および詳細のレベルを改善するために、[32]は、生成器の[23]からの注意メカニズム(attention mechanism)を使用する。しかしながら、生成されたサンプルは、現実世界の用途には粗すぎる低解像度の画像である。このスケールで作業すると、肌の質感、細かい線、細部の全体的な鮮明さ等、現実的な画像を生成するのにいくつかの困難が隠れる。
アプローチ
問題提起
【0029】
一実施形態では、目標が単一のペアリングされていない画像を使用して、オリジナル画像と変換画像との間に滑らかな変換を生成するために、細かい粒度のエージングサインを連続的に制御して、現実的な高精細度(例えば1024×1024)のエージングした顔を生成できるモデルを訓練することである。これは、エージングが連続プロセスであり、エージンググループビン(age group bins)が明示的に論理順序(logical order)を強制しないので、より直感的なアプローチである。
【0030】
一実施形態では、民族特有の(ethnic-specific)皮膚アトラス(atlases)[4~7,13]の使用が、臨床的エージングサインの民族的側面を組み込む。これらのアトラスは、眼の下の皺(しわ)、顔の下部の眼瞼下垂、頬の色素斑の密度などの多数の臨床サインを規定する。各サインは、顔上の特定のゾーンにリンクされ、民族に依存するスケールでスコア付けされる。年齢に加えてこれらのラベルを使用することは、エージングのより完全な表現を可能にし、臨床サイン及びスコアの様々な組み合わせを用いて画像を変換することを可能にする。
【0031】
一実施形態では、図2A~2Dは、図2Eに示す顔212の各エージングサインゾーン(a)~(d)(202,204,206,208)を示す画像である。他のサインゾーンが使用されるが、図示されていない。図2Eはまた、顔212のエージングマップ210を示す。エージングマップ210は一実施形態によれば、顔212の全てのゾーンについての関連するエージングサインスコア(aging sign scores)から構築される。図に示されるゾーン(a)~(d)が理解されるのであろう。図2A~2Dは、図2Eの面212に対して拡大して示されている。一実施形態では、スキンサインが「年齢」、「額の皺」、「ほうれい線(nasolabial fold)」、「目の下の皺」、「眉間の皺」、「眼間の皺」、「唇の角の皺」、「上唇」及び「顔の下部の下垂」を表す。一実施形態では、十分な訓練等のデータがある他のスキンサインが使用される。
【0032】
エージングマップ210において、各ピクセルの輝度は局所的な臨床サインの正規化されたスコア(例えば唇の角の下(a)、目の皺の下(b)、ほうれい線の皺(c)、眼間の皺(d)等)を表す。エージングサインスコアが利用可能でない(定義されない)場合、見かけの(apparent)エージング値が使用される。
【0033】
言い換えれば、一実施形態では、エージング目標が特定の顔画像(例えば212)のエージングマップ(例えば210)の形態でネットワークに渡される。そうするために、顔のランドマーク(landmarks)が計算され、各エージングサイン(図2A~2Dを参照)に対する関連ゾーン(relevant zone)が定義される。各ゾーン(例えば額(図2A~2Dにおいてゾーンとして示されていない))は次いで、対応するサイン(例えば額の皺)のスコア値で満たされる(filled)。本実施形態の図2A~2Dでは、適用可能な領域のスキンエージングサイン値は、(a):0.11、(b):0.36、(c):0.31及び(d):0.40である。一実施形態では、見かけの年齢が臨床サインが定義されていないブランクを埋めるために、(推定器(estimator)を介して)又は利用可能であれば実際の年齢が使用される。最後に画像の背景に粗いマスク(coarse mask)が適用される。
【0034】
一実施形態では、スキンエージングサイン値(及び使用される場合、見かけの年齢)は0~1のスケールで正規化される。
【0035】
画像全体を一度に処理することは理想的であるが、1024×1024の画像を用いてモデルを訓練することは、大きな計算リソースを必要とする。一実施形態では、パッチベースの訓練手法を使用して、訓練中に画像の一部のみを使用してモデルを訓練し、エージングマップの対応するパッチ部分を訓練する。パッチベースの訓練はタスクのコンテクスト(即ちグローバル情報(global information))を減らすだけでなく、[8]で推奨されるように、大きなバッチで高解像度の画像を処理するのに必要な計算リソースも減らす。128×128、256×256又は512×512ピクセルの小さなパッチでは、大きなバッチサイズが使用される。一実施形態では、訓練が画像が訓練プロセスで見られるたびにランダムパッチをサンプリングする(そのような訓練では約300回)。
【0036】
パッチベースの訓練の主な欠点は、小さなパッチが同様に見えることがある(例えば額および頬)が異なるようにエージングされなければならない(例えばそれぞれ、水平および垂直の皺)ことである。図3A,3Bを参照すると、一実施形態ではこれらのあいまいなゾーン上の算術平均から決定される皺を回避するため、生成器は水平勾配位置マップ(horizontal gradient location map)300及び垂直勾配位置マップ(vertical gradient location map)302のそれぞれからの2つのパッチを備える。算術平均による皺は外観上自然ではない。これにより、モデルは潜在的にあいまいなゾーンを区別するために、パッチの位置を知ることができる。
ネットワークアーキテクチャ
【0037】
一実施形態では、訓練プロセスがStarGAN[10]フレームワークに基づく。生成器はエージングマップ及び位置マップ(location map)を組み込むために、デコーダ内のSPADE[22]残差ブロック(residual blocks)を有する[11]から導出される、完全畳み込みエンコーダ-デコーダである。これにより、モデルはエージングマップ内に存在する空間情報を活用し、デコーダ内の複数のスケールでそれを使用することができる。不必要な詳細を学習することを避けるために、[23]からの注意メカニズムを使用して、生成器に、必要な場合にのみ画像を変換させる。識別器(discriminator)は[10]の修正版であり、WGAN[3]目的(式1の画像i及びエージングマップaに対して与えられる)、パッチの座標の推定、及びエージングマップaの低解像度推定のための出力を生成する。
【数1】
【0038】
一実施形態では、図4,5がそれぞれパッチベースの訓練ワークフロー400,500を示し、図4は、生成器(G)402の訓練を示し、図5は、GANベースのモデルの識別器(D)502の訓練を示す。
【0039】
図4を参照すると、生成器(G)402は、エンコーダ部402Aと、デコーダ部402Bとを備え、デコーダ部402Bは、SPADE残差ブロックを用いて構成され、再びマップ及びその位置を収容する。ワークフロー動作400は、画像I(404)、エージングマップA(406)及び位置マップX及びY(408,410)の各々からパッチをクロップして、画像パッチI (412)、エージングマップパッチA(414)、及び位置マップX及びY(416,418)を定義することから始まる。生成器402は、SPADE構成420を介してマップ414及び位置(マップ416,418)に従って画像パッチI412を変換し、画像Δp422を生成する。前述のように、パッチサイズは、1024×1024の画像を訓練するための128×128、256×256又は512×512ピクセルであり得る。
【0040】
[23]の注意メカニズム424は、生成器402に結果G(I│A)426を与える必要がある場合にのみ、画像(パッチ412)を変換させるために使用される。
【0041】
図5及びワークフロー動作500を参照すると、識別器(D)502は、リアル/フェイク出力504、パッチの推定位置(x,y)506及び推定エージングマップ(508)を生成する。これらの出力(504,506及び508)は、それぞれ、WGANの目的、位置およびエージングマップ損失関数(510、512及び516)によってペナルティが課される。位置および再度のマップ損失関数について更に説明する。
【0042】
結果426は、生成器402から結果G(G(I│A))518を生成するために、サイクルGANベースのモデル訓練において使用される。サイクル一貫性損失520は、変換がオリジナル画像パッチ412の主要な特徴を維持することを保証する。
エージングマップ
【0043】
一実施形態では、ピクセル精度(pixel-precision)で境界線(bounding boxes)を配置することに失敗するためのモデル(例えば生成器)のペナルティを課すのを回避するため、エージングマップは、エッジを平滑化してダウンサンプリングされた10×10のマップ上の識別器回帰損失(discriminator regression loss)を計算するために、ぼかされる。この配合は、個々の均一な特徴マップ[10,28,32,33]よりも、よりコンパクトで意味のある手法で情報をパッキングすることを可能にする。このアプローチはサイン(例えば額の色素沈着および額の皺)の間に大きな重複がある場合にのみ複数の特徴マップを必要とする。一実施形態では、小さいオーバーラップの一般的なケースがオーバーラップゾーン内の2つのサインの平均値を有する1つのエージングマップのみを有することである。ゾーンがオーバーラップし過ぎていた場合(例えば額の皺 VS 額の色素沈着)、一実施形態では、エージングマップが2つのレイヤーのエージングマップを含む(即ち皺についての1つのエージングマップと、この場合、色素沈着についての1つのエージングマップ)。
【0044】
画像パッチi及びエージングマップパッチaを考慮すると、損失は式2で与えられる。
【数2】
位置マップ
【0045】
一実施形態では、2つの直交勾配(orthogonal gradients)(位置マップ416,418)を使用して、生成器402が所与のパッチ(例えば412)に関連するエージング変換を適用するのを助ける。パッチ412のX,Y座標は、線形勾配マップの代わりに2つの数として生成器402に与えられ得るが、そうすることは完全畳み込み特性を破るので、フルスケールの画像上でのモデルの使用を妨げる。座標(x,y)に位置する画像パッチi及びエージングマップパッチaを考慮すると、損失は、式3で与えられる。
【数3】
訓練
【0046】
一実施形態では、モデルがβ=0、β=0.99、Gのための7×10-5の学習率、及びDのための2×10-4のAdam[21]のオプティマイザ(optimizer )で訓練される。2つの時間スケール更新ルール[17]に従い、両方のモデルが各ステップで更新される。加えて、学習率は、訓練の過程にわたって、GとDとの両方とも線形にゼロに減衰される。サイクル整合性(cycle-consistency)を強制するために、[31]の知覚喪失(perceptual loss)がλCyc=100で使用される。回帰タスクでは、λLoc=50 を使用してパッチの(x,y)座標を予測し、λAge=100を使用してダウンサンプリングされたエージングマップを推定する。識別器は、λGP=10で[15]に示された元の勾配ペナルティでペナルティを与えられる。完全な損失目的関数は、式4で与えられる:
【数4】
推論
【0047】
推論のため、一実施形態では、訓練された(生成器)モデルGが推論モデルGを定義するために、Gのパラメータにわたって指数移動平均(exponential moving average)[29]を決定することなどによって、安定性のために最適化され得る。訓練された生成器は、ネットワークの完全な畳み込み特性および連続的な2Dエージングマップの使用のために、訓練中に使用されるパッチのサイズにかかわらず、1024×1024画像上で直接使用することができる。
【0048】
一実施形態では、ターゲットエージングマップは手動で作成される。一実施形態では、顔ランドマーク及びターゲットスコアが、ターゲットエージングマップを構築するために使用される。
【0049】
一実施形態では、ユーザがアプリケーションインターフェースにターゲットエージングを入力することを容易にし、アプリケーションはターゲットエージングを有するエージングマップ(及び必要に応じて位置マップ)をエージングマップ値として定義するように構成される。
【0050】
一実施形態では、絶対年齢の代わりに、ユーザは年齢差を入力することが容易になる(例えば3年を引くか又は10年を足すかのデルタ値)。実施形態では、アプリケーションが次いで、受信された画像を分析して、見かけの年齢またはスキンサイン値を決定し、次いで、ユーザ要求に適合するように、見かけの年齢/スキンサイン値を修正するその分析に対するエージングマップを定義する。アプリケーションは、そのマップを使用して、エージングされた画像を示す修正された画像を定義するように構成される。
【0051】
一実施形態では、方法(例えばコンピューティングデバイス方法)は以下のように構成される:
【0052】
ユーザ提供の「自撮り」画像を受信する;
【0053】
「現在の」スキンサイン値を生成するために画像を分析する;自動スキンサイン分析は、米国特許公報に示され、記載されている。2020年6月4日の米国特許出願公開第2020/0170564A1号、発明の名称「ディープラーニングを使用する自動画像ベース診断」であり、その内容全体が参照により本明細書に組み込まれる;
【0054】
それぞれのサインに関連する顔のゾーン上に、オーバーレイされたユーザの分析されたスキンサインを示す注釈付き自撮りをユーザに(ディスプレイデバイスを介して)提示する;
【0055】
1又は複数のサインスコアを調整するユーザ入力を(グラフィカル又は他のユーザインターフェースを介して)受信する。例として、入力はスキンサイン調整値(例えばターゲット又はデルタ)である。例として、入力は、ゾーン(又は2つ以上)に関連する製品および/又はサービス選択である。製品および/またはサービスはスキンサインスコア調整値(例えばデルタ)に関連付けられる。
【0056】
現在のスキンサインスコア及びスキンサインスコア調整値を使用したエージングマップを定義する;
【0057】
生成器Gでマップを使用して、変更されたイメージを定義する;そして、
【0058】
一例として、製品および/またはサービスの使用後にユーザがどのように見えるかを示すために修正された画像を(例えばディスプレイデバイスを介して)ユーザに提示する。
実験
実験設定
【0059】
大部分の顔のエージングデータセット[9,24,25]は、民族性に関して多様性の欠如に悩まされ[19]、低解像度の画像(最大250×250ピクセル)に焦点を当てている。これは、スキンエージング(skin aging)に関連する細部を捕捉するのに十分ではない。更にそれらは、顔の姿勢(pose)および表情を正常化することができないことが多く(笑っている、顔をしかめている、眉を上げている)、その結果、エージング(ほとんどがほうれい線の皺、カラスの足の皺、額の皺および目の下の皺)とは無関係の目立った皺が生じる。最後に、エージングサインに関するきめの細かい情報の欠如は、IMDB-Wiki[25]等のデータセットで観察されるように、顔の肥満などの望ましくない相関特徴を捕捉する他のアプローチを引き起こす。これらの影響は、図6で観察することができる。
【0060】
図6は、第1の列602におけるオリジナル画像と、残りの列におけるエージングされた画像とを含む画像600のアレイを示し、以前のエージングアプローチと、本明細書における現在の教示のアプローチとの比較を示す。以前のエージングアプローチによる画像は、それぞれ[28]、[16]、[26]及び[2]にの順に、行604、606、608及び610に提示される。本明細書の現在の教示のアプローチによる画像は、行612に提示される。
【0061】
以前のアプローチは低解像度の画像で動作し、特に表情皺(列604)について、皺のダイナミックレンジの欠如に悩まされていた。それらはまた、色シフト及びアーチファクト(606、608及び610)並びに顔の肥大化(610)などの望ましくない相関特徴にもなりやすい。
【0062】
これらの問題に対処するために、本教示によるモデルを、2つの厳選された高解像度データセット上で、手動で生成されたエージングマップ又は均一なエージングマップを使用して試験し、若返り/エージングを強調した。
FFHQ
【0063】
実験は、FFHQデータセット[20]を用いて行った。一実施形態では、照明、姿勢および顔の表情における問題を最小限に抑えるために、より良い品質のデータセットのサブセットを選択するために単純なヒューリスティックが適用された。これを行うために、顔のランドマークが全ての顔から抽出され、頭部が左、右、上または下に過度に傾いた全ての画像を除去するために使用された。加えて、人工な「ほうれい線」を制限するために、目の皺の下で、口を開けている全ての画像を除去した。最後に、HOG[12]特徴記述子(feature descriptor)を使用して、髪が顔を覆う画像を除去した。この選択により、データセットは、70000個以上(70k+)の画像から10000個以上(10k+)の画像に低下した。FFHQデータセットの極端な多様性のために、残りの画像は、特に照明色、方向および露出に関して、依然として完全ではない。
【0064】
これらの画像上の個々のエージングサインのスコアを得るために、一実施形態では、以下に記載される高品質の標準化されたデータセット(即ち6000個の高解像度3000×3000画像)上で訓練されたResNet[27]アーキテクチャに基づくエージングサイン推定モデルが使用された。最後に、グラウンドトゥルースエージング(ground truth)マップを、粗い境界線の基礎としてランドマークを用いて生成した。モデルは、1024×1024面(1024×1024 face)上で無作為に選択された256×256個のパッチ上で訓練された。
高品質標準化データセット
【0065】
より良好な性能を得るために、一実施形態では、ほとんどの年齢、性別および民族(アフリカ、白人、中国人、日本人およびインド人)にわたる、中心を合わせて配置された顔の6000個の高解像度(3000×3000)画像のデータセットを収集した。画像は民族特有の皮膚アトラス[4~7,13]を用いてラベル付けされ、顔の大部分を覆うサイン(見かけの年齢、額の皺、ほうれい線、目の皺の下、上唇の皺、唇の角の皺および顔の下部の眼瞼下垂)にスコアを付けた。
結果
FFHQデータセット
【0066】
データセットの複雑さにもかかわらず、そしてグラウンドトゥルースエージング値なしに、パッチベースのモデルは、顔上の個々の皺を連続的に変換することができる。
【0067】
図7は、本明細書の本教示の実施形態を使用したFFHQデータセットからの異なる年齢および民族の6つの面のオリジナル(列702)、若返り(列704)及びエージング(列706)画像を示す画像のアレイ700である。図7は、パッチベースの訓練の複雑さ、データセットにおける照明の大きな変動および臨床サイン/年齢のグレード間の不均衡にもかかわらず、モデルが異なる皺をどのように変換することができたかを示しており、若い被験者の大多数は皺がほとんどない。図8は、一実施形態による、スキンサイン値が定義されていないグループ802及びスキンサイン値が定義されているグループ804におけるモデル結果を示す画像800のアレイである。符号が定義されていない場合、マップはエージング値で埋められる。これは、モデルが毛髪の灰色化(グループ802)等の全体的な特徴を学習するのを支援する。エージングマップにおいて個々の臨床サインを使用することにより、全てのサインをエージングさせることができるが、毛髪の外観を無傷のままに維持すること(グループ804)はモデルが個々のサインに対して有する対照を強調し、年齢の唯一のラベルでは不可能であるような制御可能な方法で、顔をエージングさせることができる。
高品質標準化データセット
【0068】
より標準化された画像では、民族性や高齢化にまたがるより良いカバレッジ(coverage)で、このモデルは最新のパフォーマンス(図1,9)を示し、詳細、現実感、目に見えるアーチファクト(artifacts)がないことを示している。一例として、図9は、一実施形態による、行902、904、906及び908における4つの顔の経時変化を連続的に示す画像のアレイ900である。前額部や顔面下部のたるみ等、ゾーンは変更されない。ギャップを埋めるために使用される補足的な年齢情報は、眉毛の薄化または灰色化に見ることができる。
【0069】
本明細書の教示を使用するエージングプロセスはエージングマップの連続スペクトルに沿って成功し、サインの重大な値(sign severity values)の多様なセットについて現実的な画像を生成することを可能にする。図10A~10Fの例に示されるように、一実施形態では、それぞれ定義されたエージングマップを使用するこの現実的かつ連続的なエージングが同じ顔上に示される。図10Aは、エージングが適用される前の顔の画像1002を示す。図10Bは、エージングマップを介してエージングした顔の画像1004を示し、これは、ほうれい線、唇の角および顔の右部分の目の下の皺を除く全てのサインを若返らせる。図10Cは、マップが顔の下部のみをエージングさせた画像1006を示し、図10Dは、マップが顔の上部のみをエージングさせた画像1008を示す。図10Eは、画像1010を示しており、ここでは、マップが目の下の皺をエージングさせるためにのみ定義されている。図10Fは、非対称的に顔をエージングさせるように定義されたマップ、即ち目の下の右の皺および左のほうれい線の画像1012を示す。
評価メトリック
【0070】
成功と見なされるために、顔のエージングのタスクは、3つの基準を満たすことを必要とする:画像は現実的でなければならず、対象のアイデンティティが維持されなければならず、顔はエージングされなければならない。これらは、それぞれ、WGAN目的関数、サイクル一貫性損失およびエージングマップの推定損失のおかげで、訓練中に実施される。本質的に、1つの単一のメトリックは、すべての基準が満たされることを保証することができなかった。例えばモデルはそれを変更することなく入力画像を残すことができ、依然として現実感およびアイデンティティに成功する。逆に、モデルはエージングに成功するが、現実感および/またはアイデンティティに失敗する可能性がある。1つのモデルが全てのメトリックにおいて別のモデルよりも優れていない場合、トレードオフが選択され得る。
【0071】
FFHQ及び高品質の標準化データセットに関する実験は、被験者の同一性の維持に何の問題も示さなかった。一実施形態では、定量的評価のための現実感およびエージング基準に焦点を当てることが選択された。本明細書のアプローチは年齢のみに依存するのではなく、年齢標識の組合せとしての年齢に焦点を当てるので、目標年齢の精度はメトリックとして使用されない。代わりに、Frechet Inception Distance(FID)[17] を使用して、画像の現実感を評価し、平均平均誤差(Mean Average Error、MAE) を使用してターゲットのエージングサインの精度を評価する。
【0072】
そうするために、データセットの半分が実画像の基準として使用され、残りがモデルによって変換される画像として使用される。これらの画像を変換するために使用されるエージングマップは、元のデータセットに従い生成された画像の分布を保証するためにグラウンドトゥルースラベルからランダムに選択される。個々のスコアの値は、ResNet[27]アーキテクチャに基づく専用のエージングサイン推定モデルを用いて、生成された全ての画像について推定した。FIDスコアの基準として、実画像データセットの両半分の間でFIDが計算される。データセットのサイズは、推奨される50000個以上(50k+)[17,20]に対するFIDの計算を妨げ、したがって、値の過大評価につながることに留意されたい。これは、実画像間のFIDのみを計算するときに見ることができ、49.0のベースラインFIDが与えられる。結果を表1に示す。
【表1】
年齢と臨床サインの比較
【0073】
一実施形態では、臨床サインなしで訓練された場合、年齢のみを使用して均一なエージングマップを作成すると、モデルは依然として納得のいく結果を与え、推定年齢の基準に関するFID及びMAEは低い。したがって、表2は臨床サインを有し、年齢のみを有するモデルについて、Frechet Inception Distance及び平均平均誤差を示す。
【0074】
【表2】
【0075】
しかしながら、エージングした顔をエージングのみのアプローチと比較すると、エージングのみのモデルでは、いくつかの皺がそのダイナミクスを十分に発揮できていないようにみえる。これは、データセットの限界年齢に達するために、全てのエージングサインを最大化する必要がないという事実に起因する。実際、標準化データセットの最も高齢な150人(65~80歳)は正規化されたエージングサインの標準偏差中央値0.18を示し、高齢者におけるエージングサインの多くの可能な組み合わせを強調している。これは、顔をエージングするための1つの手法しか提供しないため、年齢のみのモデルの問題である。例えば額の皺等のサインは、被験者の顔の表情に大きく依存し、エージングプロセスの不可欠な部分である。データセット中の被験体の年齢のみを見ることによって、これらの臨床的エージングサインの分布を制御することはできない。
【0076】
反対に、一実施形態ではエージングマップを用いて、エージングされた顔はエージングプロセスに対してはるかに多くのコントロールを提供する。エージングの個々のサインを制御することによって、これらの表情皺を適用するかどうかを選択することができる。この効果の自然な延長線上に、アジア諸国の一部でエージングの兆候として見られている皮膚の色素沈着がある。年齢に基づくモデルは、地域の観点から年齢を再推定する必要なしに、これらの国々のための年齢を生み出すことができない。これは、あらゆる関連するエージングサインを用いて訓練されると、異なる国の視点に合わせてカスタマイズされた顔のエージングエクスペリエンスを提供することができる、本明細書に開示されるアプローチとは異なり、全てが単一モデルであり、追加のラベルなしである。
アブレーション実験
【0077】
パッチサイズの効果:モデルを訓練するとき、一実施形態では、所与の目標画像の解像度(実験では1024×1024ピクセル)に対して、訓練に使用されるパッチのサイズを選択することができる。パッチが大きいほど、モデルはエージングタスクを実行しなければならないコンテクストが大きくなる。しかしながら、同じ計算能力に対して、より大きなパッチはバッチサイズをより小さくし、これは、訓練を妨げる[8]。実験は、128×128、256×256及び512×512ピクセルのパッチを用いて行った。図11は、本明細書の教示に従って、顔の1024×1024画像上の若返り及びエージングの結果を表す画像のアレイ1100を示す。アレイ1100は、2つのそれぞれの顔のための画像の第1のアレイ1102及び画像の第2のアレイ1104を含む。アレイ1102は第1の顔についての若返り(rejuvenation)の結果を示し、アレイ1104は、第2の顔についてのエージングの結果を示す。行1106、1108及び1110は、それぞれ異なるパッチサイズを使用した結果を示す。行1106は128×128パッチサイズを示し、行1108は256×256パッチサイズを示し、行1110は、512×512パッチサイズを示す。
【0078】
図11は、一実施形態では全てのパッチサイズが高解像度の顔を、様々な程度の現実感でエージングするのを管理できることを示す。最小のパッチサイズは、コンテクストの欠如に最も悩まされ、目に見える質感のアーチファクトを有する他の2つよりも劣る結果を生成する。256×256パッチは、512×512パッチと比較した場合にのみ目に見える軽微な不完全性を有する、説得力のある結果を与える。これらの結果は、2048×2048画像上の512×512のパッチのような、より大きな解像度へのこの技術の適用を示唆する。
位置マップ:
【0079】
位置マップの寄与を見るために、一実施形態では、モデルがそれらを伴って及び伴わずに訓練された。予想されるように、位置マップの効果は、曖昧さが高い、小さいパッチサイズでより顕著である。図12は、小さなパッチサイズで、位置情報がない場合、モデルは、顔の異なる部分から類似のパッチを区別できないことを示している。図12は、本明細書の教示に従う2つの(パッチ訓練された)モデルに従った、2つのアレイ1202及び1204における経時変化の影響を示す画像のアレイ1200を示す。図12において、位置マップを使用せずに最も小さいパッチサイズでエージングされた顔をアレイ1202に、位置マップを使用して最も小さいパッチサイズでエージングされた顔をアレイ1204にそれぞれ示す。それぞれのアレイにおいて、エージングされた顔が、オリジナル画像との差と共に示される。位置マップを使用せずに訓練された(パッチ)場合、モデルは、位置と一貫性のある皺を追加することができず、一般的な対角のリップル(diagonal ripples)を生成する。この効果は、パッチの位置が曖昧でないため、より大きなパッチサイズにはあまり現れない。位置マップは斜めの質感のアーチファクトの存在を排除し、特に、前額部上に、水平の皺が現れることを可能にする。
情報の空間化(Spatialization of Information):
【0080】
本明細書の教示に従った提案されたエージングマップの使用は、フォーマット条件のベースライン手法と比較され、即ち全てのサインスコアを個々の均一な特徴マップとして与えた。全てのサインが特定のパッチに存在するわけではないので、特にパッチサイズが小さいとき、処理された情報の大部分は、モデルに役立たない。エージングマップは、空間的な広がり及び位置に加えて、パッチに存在するラベルをモデルに与えるだけの簡単な方法を表す。図13は、エージングマップの効果を強調している。図13は、エージング効果を示す画像のアレイ1300を示し、第1のアレイ1302は、均一な特徴マップを使用して訓練されたモデル(パッチ)を使用するエージングを示し、第2のアレイ1304は、本明細書の教示に従って、エージングマップを使用して訓練されたモデル(パッチ)を使用するエージングを示す。
【0081】
小または中のパッチ(例えば128×128又は256×256ピクセル)では、モデルは現実的な結果を作成のに苦労する。エージングマップは、問題の複雑さを低減するのに役立つ。従って、図13は3つの画像のアレイ1302及び3つの画像のアレイ1304において、大きなパッチサイズ(例えば個々の均一条件特徴マップ(アレイ1302)及び提案されたエージングマップ(アレイ1304)を有する512×512)でエージングされた顔を、各それぞれのアレイにおけるオリジナル画像との差と共に示す。パッチサイズは、オリジナル画像サイズの2倍である必要はない(例えば800×800は、1024×1024画像のフルサイズではなくとも大きい)。エージングマップは、より高密度に空間化された情報のおかげで訓練をより効率的にするのに役立ち、より現実的なエージングを生み出す。この差異は、ベースライン技術のための小さな非現実的な皺を強調する。
【0082】
代替的に、一実施形態ではStarGANに示されるように、異なるアプローチが使用され、それによって、モデルはパッチ内に存在しないサイン値でさえも、各パッチについての全てのサイン値が与えられる。
適用
【0083】
一実施形態では、開示される技術および方法が、年齢シミュレーションを提供する画像から画像への変換のための生成器を有するモデルを(例えば条件付けを通じて)定義するための開発者関連の方法およびシステムを含む。生成器はオリジナル画像と変換画像(例えば顔の)との間に滑らかな変換を生成するために、(複数の年齢関連スキンサインにわたって)連続的な制御を示す。生成器は、個々のペアリングされていない訓練画像を使用して訓練され、訓練画像の各々はそれぞれの年齢関連スキンサインに関連付けられた顔のランドマークを識別するエージングマップを有し、エージングプロセスを誘導するための弱い空間的監督を提供する。一実施形態では、年齢に関連するスキンサインが、エージングの民族固有の寸法を表す。
【0084】
一実施形態では、年齢シミュレーションのための画像から画像への変換のための生成器を有するGANに基づくモデルが仮想現実、拡張現実および/または修正現実体験(modified reality experience)を提供するために、コンピュータ実装方法(例えばアプリケーション)又はコンピューティングデバイスもしくはコンピューティングシステムに組み込まれる。アプリケーションはユーザがカメラ付きスマートフォン又はタブレット端末等を使用して自撮り画像(又はビデオ)を撮影することを容易にするように構成され、生成器Gは、再生またはスマートフォン又はタブレット端末による他の提示のためなどの所望の効果を適用する。
【0085】
一実施形態では、本明細書で教示する生成器Gが、一般に利用可能な消費者向けスマートフォン又はタブレット端末(例えばターゲットデバイス)でロードされ、その上で実行されるように構成される。例示的な構成は、以下のハードウェア仕様を有するデバイスを含む:Intel(登録商標)Xeon(登録商標)CPU E5-2686v4@2.30GHz、1コア及び1スレッドのみでプロファイルされる。一実施形態では、生成器Gが、サーバ、デスクトップ、ゲームコンピュータ又は複数のコアを有し、複数のスレッドで実行するような他のデバイスを含む、より多くのリソースを有するコンピューティングデバイスでロードされ、コンピューティングデバイス上で実行されるように構成される。一実施形態では、生成器Gが(クラウドベースの)サービスとして提供される。
【0086】
一実施形態では、開発者(例えば訓練時間に使用される)及びターゲット(推論時間に使用される)コンピューティングデバイス態様に加えて、本明細書で開示する方法態様のいずれかを実行するようにコンピューティングデバイスを構成するため、命令が非一時的記憶デバイス(例えばメモリ、CD-ROM、DVD-ROM、ディスク等)に記憶される、コンピュータプログラム製品態様が開示されることを当業者は理解するのであろう。
【0087】
図14は、一実施形態によるコンピュータシステム1400のブロック図である。コンピュータシステム1400は、サーバ、開発者コンピュータ(PC、ラップトップなど)及び典型的なユーザコンピュータ(PC、ラップトップ及びスマートフォン及びタブレット端末などのより小さいフォームファクタ(パーソナル)モバイルデバイスなど)を含む複数のコンピューティングデバイス(1402,1406,1408,1410及び1450)を備える。実施形態では、コンピューティングデバイス1402が本明細書の教示に従って、連続的なエージングを提供する画像から画像への変換のためのモデルを定義するために、ハードウェア及びソフトウェアを備えるネットワークモデル訓練環境1412を提供する。ネットワークモデル訓練環境1412の構成要素は、生成器G1416及び識別器D1418を備えるモデルを、調整などによって定義および構成するためのモデル訓練構成要素1414を含む。生成器Gは、画像から画像への変換を実行するために推論で使用するためのモデルを定義するのに有用であり、一方、識別器1418Dは、周知のように、訓練のための構成である。
【0088】
本実施形態では、調整が図4,5の訓練ワークフローなどに従って実行される。ワークフローは高解像度の画像(例えば1024×1024以上のピクセル解像度)のパッチ訓練を使用する。訓練は、そのようなスキンサインが位置する顔のそれぞれのゾーンについて、スキンサイン値または見かけの年齢を使用する。これらの特徴に対する高密度の空間化された情報は、エージングマップを使用することなどによって提供される。本実施形態では、パッチの位置が例えば位置情報を使用して、曖昧さを回避し、顔の異なる部分から類似のパッチを区別するために提供される。本実施形態では、完全畳み込み処理を達成するために、訓練画像内の(x,y)座標の勾配位置マップを使用して位置情報が供給される。実施形態では、モデル及び識別器が形態を有し、出力を提供し、本明細書で上述した目的関数(例えば損失関数)を使用して調整される。
【0089】
本実施形態では訓練がパッチ、エージングマップ及び位置マップを使用するとき、環境1412のさらなる構成要素は画像パッチ(I)メーカ構成要素1420、エージングマップ(A)メーカ構成要素1422及び位置マップ(X、Y)メーカ構成要素1424を備える。他の構成要素は示されていない。本実施形態ではデータサーバ(例えば1404)又は他の形態のコンピューティングデバイスは訓練および他の目的などのために(高解像度)画像の画像データセット1426を記憶し、ネットワーク1428として代表的に示される1又は複数のネットワークを通して結合され、ネットワーク1428はコンピューティングデバイス1402,1404,1406,1408及び1410のいずれかを結合する。ネットワーク1428は、例として、無線またはその他、公衆またはその他などである。システム1400が簡略化されていることも理解されるのであろう。サービスのうちの少なくともいずれかは、2つ以上のコンピューティングデバイスによって実装され得る。
【0090】
一旦訓練されると、生成器1416は、所望に応じてさらに定義され、推論時間モデル(生成器GIT)1430として提供されてもよい。本明細書の技法および方法によれば、実施形態では、推論時間モデル(生成器GIT1430)が様々な方法で使用するために利用可能にされる。図14に示されるような一実施形態における1つの方法では、生成器GIT1430がクラウドサーバ1408を介して提供されるサービス(SaaS)として、クラウドサービス1432又は他のソフトウェアとして提供される。拡張現実(AR)アプリケーション1434等のユーザアプリケーションは、生成器GIT1430へのインターフェースを提供するクラウドサービス1432と共に使用するために定義される。一実施形態では、ARアプリケーション1434がサーバ1406によって提供されるアプリケーション配信サービス1436から(例えばダウンロードを介して)配信するために提供される。
【0091】
図示されていないが、一実施形態ではARアプリケーション1434が特定のハードウェア及びソフトウェア、特にオペレーティングシステム構成などを有する特定のターゲットデバイスのためのアプリケーション開発者コンピューティングデバイスを使用して開発される。一実施形態では、ARアプリケーション1434が、特定のオペレーティングシステム(及び/又はハードウェア)のために定義されたものなど、特定のネイティブ環境における実行のために構成されたネイティブアプリケーションである。ネイティブアプリケーションは多くの場合、サードパーティサービスによって運営される電子商取引「ストア」として構成されるアプリケーション配信サービス1436を介して配信されるが、これは必要ではない。一実施形態では、ARアプリケーション1420が、例えばターゲットユーザデバイスのブラウザ環境において実行するように構成されたブラウザベースのアプリケーションである。
【0092】
ARアプリケーション1434はモバイルデバイス1410などのユーザデバイスによる配信(例えばダウンロード)のために提供される。一実施形態では、ARアプリケーション1434が拡張現実体験(例えばインターフェースを介して)をユーザに提供するように構成される。例えば推定時間生成部1430による処理により、画像に効果が与えられる。モバイルデバイスは画像(例えばキャプチャ画像1438)をキャプチャするためのカメラ(図示せず)を有し、これは、一実施形態では自撮り画像を含む静止画像である。画像から画像への変換を提供する画像処理技術を使用して、キャプチャ画像1438に効果が適用される。エージング画像1440が定義され、モバイルデバイス1410のディスプレイデバイス(図示せず)上に表示されて、キャプチャ画像1438に対する影響をシミュレートする。カメラの位置は拡張現実をシミュレートするために、さらにキャプチャ画像(複数可)に応答して変更され、効果が適用され得る。キャプチャ画像はソース又はオリジナルの画像を定義し、エージング画像は、変換または変換画像または効果が適用される画像を定義することが理解されよう。
【0093】
図14の本実施形態の現在のクラウドサービスパラダイムでは、キャプチャ画像1438がクラウドサービス1432に提供され、生成器GIT1430によって処理されて、エージング画像1440を定義するために、継続的なエージング劣化を伴う画像対画像変換を実行する。エージング画像1440は、表示、保存、共有などのためにモバイルデバイス1440に通信される。
【0094】
一実施形態では、ARアプリケーション1434がARアプリケーション1434を動作させるためのインターフェース(図示せず)、例えば音声対応であり得るグラフィカルユーザインターフェース(GUI)を提供する。インターフェースは画像キャプチャ、クラウドサービスとの通信および変換画像(例えばエージング画像1440)の表示、保存および/または共有を可能にするように構成される。一実施形態では、インターフェースがユーザがクラウドサービスに入力を提供することを可能にするように構成され、例えばエージングマップを定義するように構成される。前述のように、一実施形態では、入力は目標年齢を含む。前述のように、一実施形態では、入力が年齢デルタを含む。前述のように、一実施形態では、入力が製品/サービス選択を含む。
【0095】
図14の実施形態では、ARアプリケーション1434又は別のアプリケーション(図示せず)が電子商取引サービス1452を提供するコンピューティングデバイス1450へのアクセスを(例えば通信を介して)提供する。電子商取引サービス1452は、製品、サービス又はその両方のための(個人化された)推奨を提供するための推奨コンポーネント1454を備える。実施形態では、そのような製品および/またはサービスがアンチエージング又は若返り製品および/またはサービスなどである。実施形態では、そのような製品および/またはサービスが例えば特定のスキンサインに関連する。デバイス1410からのキャプチャ画像は、電子商取引サービス1452に提供される。スキンサイン分析は、一実施形態によるディープラーニングを使用して、スキンサイン分析器モデル1456等によって実行される。訓練されたモデルを使用する画像処理は、皮膚(例えば特定のスキンサインに関連する顔のゾーン)を分析して、スキンサインの少なくともいくつかについてのスコアを含む皮膚分析を生成する。個々のスコアの値は、例えば訓練セットデータを分析するために前述されたような、ResNet[27]アーキテクチャに基づく(専用の)エージングサイン推定モデル(例えば分類器のタイプ)を使用して、画像上に生成され得る。
【0096】
本実施形態において、スキンサイン(例えばそのスコア)は、個人化された推奨を生成するために使用される。例えばそれぞれの製品(又はサービス)は、1又は複数のスキンサインと、そのようなサインの特定のスコア(又はスコアの範囲)とに関連付けられる。この実施形態では、情報がユーザのデータを製品および/またはサービスデータに一致させる適切なルックアップを介する等して、電子商取引サービス1452によって使用するためにデータベース(例えば1460)に記憶される。一実施形態では、ルールベースのマッチングを利用して、1又は複数の製品を選択し及び/又はそのようなサインの特定のスコア(又はスコアの範囲)に関連する製品/サービスをランク付けすることができる。一実施形態では、推奨コンポーネント1454によって使用されるさらなるユーザデータが性別、民族性および位置データ等のいずれかを含む。例えば位置データは、製品/ブランド、製剤、規制要件、フォーマット(例えばサイズ等)、ラベリング、SKU(stock keeping unit)のうちのいずれかを選択することに関連し、ユーザの位置に利用可能であるか、そうでなければ関連付けられ得る。一実施形態では、そのような性別、民族性および/または位置データのいずれも、選択された製品/サービスを選択および/又はランク付けすること又は製品/サービスをフィルタリングすること(例えば場所で又は場所のために販売されていない製品/サービスを除去すること)を支援することもできる。一実施形態では位置データが利用可能な小売業者/サービスプロバイダ(例えば物理的な事業所(例えば店舗、サロン、オフィス等)を有する又は有しない)を決定するために使用され、その結果、ユーザは製品/サービスをローカルに購入することができる。
【0097】
本実施形態では、ユーザのキャプチャ画像のスキンサインスコアが、ARアプリケーションインターフェース等のARアプリケーション1434を介して表示するために電子商取引サービスから提供される。この実施形態では、スキンサインスコアを使用して、生成器GIT1430が変換されたイメージを定義するために使用するクラウドサービス1432に提供するためのエージングマップを定義する。例えば実施形態では、モデル1456によって生成されたスキンサインスコアが画像から最初に生成されたものとして使用されて、いくつかのスキンサインのエージングマップ値を定義する。最初に生成された他のスキンサインスコアは、いくつかのスキンサインに対するエージングマップ値を定義するために修正される。本実施形態では、例えばユーザはインターフェースを介して生成されるように、いくつかのスコア(例えば目の周りのスキンサインのみ)を修正することができる。例えば一実施形態では、規則または他の符号の適用などによって得点を修正するために他の手段が使用される。実施形態では、修正が選択されたスキンサインの若返り又はエージング又は任意の組み合わせを表すために実行される。スキンサインスコアの代わりに見かけのエージング値が前述のように、いくつかのスキンサインに使用され得る。
【0098】
限定するものではない一実施形態では、ユーザが電子商取引サービス1452によって推奨されるような、個人化された製品推奨を受け取る。ユーザは、特定の製品またはサービスを選択する。その選択は、製品またはサービスにリンクされた関連するスキンサインに対する、ユーザのスキンサインスコアの修正を呼び出す。修正は、製品またはサービスの使用をシミュレートするためにスコアを調整する。最初に生成された又は修正されたスキンサインスコアは、エージングマップにおいて使用され、クラウドサービス1432に提供され、エージング画像を受信する。本明細書で前述したように、異なるサインのスキンサインスコアはマップ内で組み合わされてもよく、生成器GITは異なるサインを異なるように発信することができる。したがって、本実施形態では、エージングマップが定義され、いくつかのスキンサインスコアはいくつかのサインについて最初に生成されたものであり、他のサインは修正されたスコアを有する。
【0099】
図14の実施形態では、電子商取引サービス1452が製品またはサービスの購入を容易にするように、購入コンポーネント1458を用いて構成される。製品またはサービスは、化粧品またはサービスその他を含む。図示されていないが、電子商取引サービス1452及び/又はARアプリケーション1434は、キャプチャ画像の画像処理を提供して、効果が適用される画像を生成するキャプチャ画像へのメイクアップの適用などの化粧品またはサービスをシミュレートする。
【0100】
キャプチャ画像は、上記の実施形態では処理のためのソース画像として使用されるが、一実施形態では他のソース画像(例えばデバイス1410のカメラ以外のソースからのもの)が使用される。実施形態は、キャプチャ画像または他のソース画像を使用することができる。ある実施形態ではキャプチャ画像または別の画像のいずれであっても、生成器GIT1430のモデルとしてのユーザエクスペリエンスを改善するための高解像度の画像は、そのために訓練される。図示されていないが、本実施形態ではスキンサイン解析器モデルによって使用される画像が分析されるときに縮小される。このような分析のために、他の画像前処理が実行される。
【0101】
一実施形態では、ARアプリケーション1434が性能を改善するために、品質特徴(即ち照明、センタリング、背景、閉毛(hair occlusion)等)に関してユーザに指示することができる。一実施形態では、ARアプリケーション1434が特定の最小要件を満たさず、不適切である場合、画像を拒否する。
【0102】
図14には、モバイルデバイスとして示されているが、一実施形態ではコンピューティングデバイス1410が上述のように、異なるフォームファクタを有し得る。生成器GIT1430をクラウドサービスとして提供するのではなく(又はそれに加えて)、それは、充分な記憶およびプロセッシングリソースを有する特定の計算装置にホストされ、ローカルに実行されてもよい。
【0103】
このように、一実施形態ではコンピューティングデバイス(例えばデバイス1402,1408又は1410)が提供され、コンピューティングデバイスは顔のオリジナル画像を受信し、提示するための変換画像を生成するために、年齢シミュレーション生成器を使用するように構成された処理ユニットを備え、生成器はオリジナル画像と顔の変換画像との間の複数の年齢に関連するスキンサインを連続的に制御して年齢をシミュレートし、生成器はスキンサインのためのそれぞれの年齢ターゲットを使用してオリジナル画像を変換するように構成される。そのようなコンピューティングデバイス(例えばデバイス1402,1408又は1410)は、例えば図15を参照しながら説明するように、一実施形態による関連する方法態様を実行するように構成されることが理解されよう。そのようなコンピューティングデバイス態様の実施形態は、対応する方法態様の実施形態を有することが理解されよう。同様に、コンピューティングデバイス及び方法の態様は、対応するコンピュータプログラム製品の態様を有する。コンピュータプログラム態様は命令を記憶する(例えば非一時的である)記憶デバイスを備え、命令はコンピューティングデバイスのプロセッサによって実行されたときに、本明細書の任意のそれぞれの実施形態によるような方法を実行するようにコンピューティングデバイスを構成する。
【0104】
一実施形態では、生成器が条件付きGANベースである。一実施形態ではターゲットがスキンサインのそれぞれに関連する顔のゾーンを識別するエージングマップとして生成器に提供され、エージングマップ内の各ゾーンは関連するスキンサインに対応するそれぞれのエージング目標で満たされる。一実施形態では、エージングマップが関連するスキンサインのスコア値によって、関連するスキンサインの特定のエージング目標を表す。一実施形態では、エージングマップが関連するスキンサインの特定のエージング目標を、関連するスキンサインの見かけのエージング値によって表す。一実施形態では、エージングマップが関連するスキンサインについての特定のエージング目標を、利用可能な場合には関連するスキンサインのスコア値およびスコア値が利用可能でない場合には見かけのエージング値によって表す。一実施形態では、エージングマップがエージング目標を表すためにピクセル強度を使用するように定義される。
【0105】
一実施形態では、エージングマップがオリジナル画像の背景をマスクする。
【0106】
一実施形態では、生成器がそれぞれの訓練画像および関連するエージングマップを使用する訓練を通して構成され、関連するエージングマップは、それぞれのスキンサインのエージング変換を誘導するための弱い空間的監督を提供する。一実施形態では、スキンサインがエージングの民族固有の次元を表す。一実施形態では、スキンサインが「年齢」、「額の皺」、「ほうれい線」、「目の下の皺」、「眉間の皺」、「眼間の皺」、「唇の角の皺」、「上唇」及び「顔の下部の下垂」のうちの1又は複数を表す。
【0107】
一実施形態では、生成器がエージング目標をエージングマップの形態で組み込むために、デコーダ内に残差ブロックを備える完全畳み込みエンコーダ-デコーダである。一実施形態では、生成器が特定の訓練画像の一部と、関連するエージングマップの対応するパッチとを使用する、パッチベースの訓練を使用して構成される。一実施形態では、残差ブロックが特定の訓練画像の部分のそれぞれの位置と、関連するエージングマップの対応するパッチとを示すために、位置情報をさらに組み込む。一実施形態では、位置情報がオリジナル画像の高さ及び幅(H×W)サイズに関連する水平勾配マップ及び垂直勾配マップから定義される、それぞれのX及びY座標マップを使用して提供される。一実施形態では、特定の訓練画像は高解像度の画像であり、パッチサイズはその一部である。一実施形態では、パッチサイズが高解像度の画像の1/2以下である。
【0108】
一実施形態では、生成器が適用される追加の変換を最小限に抑えながら、年齢に関連するスキンサインを変換するように生成器を制限するように、注意メカニズムを介して構成される。
【0109】
一実施形態では、処理ユニット(例えばデバイス1410の)は使用のために生成器を提供する第2のコンピューティングデバイス(例えば1408)と通信するように構成され、処理ユニットはオリジナル画像を通信し、変換画像を受信する。
【0110】
一実施形態では、原画像が1024×1024ピクセル以上の高解像度の画像である。
【0111】
一実施形態では(例えばコンピューティングデバイス1410の)処理ユニットは、変換画像を使用してエージングをシミュレートするための拡張現実アプリケーションを提供するようにさらに構成される。一実施形態ではコンピューティングデバイスがカメラを備え、処理ユニットはカメラからオリジナル画像を受信する。
【0112】
一実施形態では、処理ユニットが、製品およびサービスのうちの少なくとも1つを推奨する推奨機能と、製品およびサービスのうちの少なくとも1つを購入するための電子商取引機能とのうちの少なくとも1つを提供するように構成される。この文脈での「提供する」動作は、一実施形態では推奨および/または購入を容易にするために、別のコンピューティングデバイス(例えば1450)によって提供されるウェブベース又は他のネットワークベースのサービスと通信することを含む。
【0113】
一実施形態では、製品が若返り製品、アンチエージング製品および化粧用メイクアップ製品のうちの1つを含む。
【0114】
一実施形態では、サービスが若返りサービス、アンチエージングサービス及び化粧品サービスのうちの1つを含む。
【0115】
図15は、例えばコンピューティングデバイス1402又は1408によって実行されるような、一実施形態による方法態様の動作1500のフローチャートである。ステップ1502において、動作は顔のオリジナル画像を受信し、ステップ1504において、提示する変換画像を生成するために、年齢シミュレーション生成器を使用する;生成器は、オリジナル画像と顔の変換画像との間の複数の年齢に関連するスキンサインを連続的に制御して年齢をシミュレートし、生成器は、スキンサインのためのそれぞれの年齢ターゲットを使用してオリジナル画像を変換するように構成される。上述のように、関連するコンピューティングデバイスの態様の実施形態は、対応する方法の実施形態を有する。
【0116】
一実施形態では、ネットワークモデル訓練環境が、(GANに基づく)年齢シミュレーション生成器を調整することによって構成する方法等の方法を実行するように構成されたコンピューティングデバイスを提供する。一実施形態では、本方法がオリジナル画像と顔の変換画像との間の複数の年齢に関連するスキンサインに対する連続制御を有する年齢シミュレーション生成器を定義することであって、訓練画像の各々がスキンサインのうちの少なくともいくつかの年齢目標に関連付けられている個々のペアリングされていない訓練画像を使用して生成器を訓練することを含む、定義することと、画像を変換するための生成器を提供することとを含む。
【0117】
一実施形態では、生成器が条件付きGANベースである。
【0118】
一実施形態では本方法がエージング目標を、スキンサインのそれぞれに関連付けられた顔のゾーンを識別するエージングマップとして定義することを含み、エージングマップ内の各ゾーンは関連付けられたスキンサインに対応するそれぞれのエージング目標で満たされる。
【0119】
一実施形態では、少なくとも1つの顔効果をソース画像に適用し、インターフェース上に適用効果ソース画像の仮想インスタンスを生成するように構成された処理回路を含む顔効果ユニットを含むコンピューティングデバイスが提供され、顔効果ユニットは、オリジナル画像と顔の変換画像との間の複数の年齢に関連するスキンサインを連続的に制御してエージングをシミュレートするための生成器を利用し、生成器はスキンサインのそれぞれのエージング目標を使用してオリジナル画像を変換させるように構成される。一実施形態では、インターフェースが例えば購入または製品/サービスを可能にするための電子商取引インターフェースである。
【0120】
一実施形態では、コンピューティングデバイスが製品および/またはサービスの推奨を提示し、製品および/またはサービスの選択を受信するように構成された処理回路を含む推奨ユニットを備え、製品および/またはサービスはスキンサインのうちの少なくとも1つのエージング目標修正器(aging target modifier)に関連付けられる。一実施形態では、インターフェースが、例えば推奨製品/サービスの購入を可能にするための電子商取引インターフェースである。顔効果ユニットは、選択に応答して、エージング目標修正器を使用してスキンサインのそれぞれのエージング目標を生成し、それによって、ソース画像に対する製品および/またはサービスの効果をシミュレートするように構成される。一実施形態では、推奨ユニットがソース画像を使用して現在のスキンサインスコアを決定するためにスキンサイン解析器を呼び出すことと、製品および/またはサービスを決定するために現在のスキンサインスコアを使用することとによって、推奨を取得するように構成される。一実施形態では、スキンサイン分析器が、ディープラーニングモデルを使用してソース画像を分析するように構成される。一実施形態では、エージング目標が現在のスキンサインスコア及びエージング目標解析器(aging target modifier)から定義される。
結論
【0121】
本開示では、顔のエージングのためのエージングマップを作成するための臨床サインの使用が提示される。エージングプロセスを完全に制御する高解像度の画像に関する最新の結果が実証されている。一実施形態では、パッチベースのアプローチが条件付きGANが大きいバッチサイズを維持しながら、大きい画像上で訓練されることを可能にする。
【0122】
実用的な実装は、本明細書に記載される特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴および様々な組合せは、機能を実行するための方法、機器、系、手段および本明細書で説明する特徴を組み合わせる他の方法として表され得る。いくつかの実施形態について説明した。それにもかかわらず、本明細書に記載されるプロセス及び技法の趣旨および範囲から逸脱することなく、様々な修正がなされ得ることが理解されよう。加えて、他のステップを提供することができ又はステップを記載されたプロセスから排除することができ、他の構成要素を記載されたシステムに追加するか又はそこから除去することができる。したがって、他の態様は特許請求の範囲の範囲内にある。
【0123】
本明細書の説明および特許請求の範囲を通して、単語「含む(comprise)」及び「含む(contain)」及びそれらの変形は「含むが、限定されない(including but not limited to)」を意味し、他の構成要素、整数またはステップを排除することを意図しない。本明細書全体を通して、単数形は文脈が他のことを必要としない限り、複数形を包含する。特に、不定冠詞が使用される場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。
【0124】
本発明の特定の態様、実施形態または実施例に関連して説明される特徴、整数、特性または群はそれらと互換性がない場合を除き、任意の他の態様、実施形態または実施例に適用可能であると理解されるべきである。本明細書に開示される特徴の全て(任意の添付の特許請求の範囲、要約および図面を含む)及び/又はそのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴および/またはステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の任意の例または実施形態の詳細に限定されない。本発明は、本明細書(添付の特許請求の範囲、要約および図面を含む)に開示される特徴の任意の新規な1つ又は任意の新規な組み合わせ又は開示される任意の方法またはプロセスのステップの任意の新規な1つ又は任意の新規な組み合わせに及ぶ。
参考文献
1. Agustsson, E., Timofte, R., Escalera, S., Baro, X., Guyon, I., Rothe, R.: Apparent and real age estimation in still images with deep residual regressors on appareal database. In: 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). pp. 87-94. IEEE (2017)

2. Antipov, G., Baccouche, M., Dugelay, J.L.: Face aging with conditional generative adversarial networks. In: 2017 IEEE international conference on image processing (ICIP). pp. 2089-2093. IEEE (2017)

3. Arjovsky, M., Chintala, S., Bottou, L. Wasserstein gan. arXiv preprint arXiv:1701.07875 (2017)

4. Bazin, R., Doublet, E.: Skin aging atlas. volume 1. caucasian type. MED'COM publishing (2007)

5. Bazin, R., Flament, F.: Skin aging atlas. volume 2, asian type (2010)

6. Bazin, R., Flament, F., Giron, F.: Skin aging atlas. volume 3. afro-american type. Paris: Med'com (2012)

7. Bazin, R., Flament, F., Rubert, V.: Skin aging atlas. volume 4, indian type (2015)

8. Brock, A., Donahue, J., Simonyan, K.: Large scale gan training for high fidelity natural image synthesis. arXiv preprint arXiv:1809.11096 (2018)

9. Chen, B.C., Chen, C.S., Hsu, W.H.: Cross-age reference coding for age-invariant face recognition and retrieval. In: European conference on computer vision. pp. 768-783. Springer (2014)

10. Choi, Y., Choi, M., Kim, M., Ha, J.W., Kim, S., Choo, J.: Stargan: Unified generative adversarial networks for multi-domain image-to-image translation. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 8789-8797 (2018)

11. Choi, Y., Uh, Y., Yoo, J., Ha, J.W.: Stargan v2: Diverse image synthesis for multiple domains. arXiv preprint arXiv:1912.01865 (2019)

12. Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. In: 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05). vol. 1, pp. 886-893. IEEE (2005)

13. Flament, F., Bazin, R., Qiu, H.: Skin aging atlas. volume 5, photo-aging face & body (2017)
14. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial nets. In: Advances in neural information processing systems. pp. 2672-2680 (2014)

15. Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V., Courville, A.C.: Improved training of wasserstein gans. In: Advances in neural information processing systems. pp. 5767-5777 (2017)

16. Heljakka, A., Solin, A., Kannala, J.: Recursive chaining of reversible image-to-image translators for face aging. In: International Conference on Advanced Concepts for Intelligent Vision Systems. pp. 309-320. Springer (2018)

17. Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: Gans trained by a two time-scale update rule converge to a local nash equilibrium. In: Advances in neural information processing systems. pp. 6626-6637 (2017)

18. Isola, P., Zhu, J.Y., Zhou, T., Efros, A.A.: Image-to-image translation with conditional adversarial networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 1125-1134 (2017)

19. Karkkainen, K., Joo, J.: Fairface: Face attribute dataset for balanced race, gender, and age. arXiv preprint arXiv:1908.04913 (2019)

20. Karras, T., Laine, S., Aila, T.: A style-based generator architecture for generative adversarial networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 4401-4410 (2019)

21. Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)

22. Park, T., Liu, M.Y., Wang, T.C., Zhu, J.Y.: Semantic image synthesis with spatially-adaptive normalization. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 2337-2346 (2019)

23. Pumarola, A., Agudo, A., Martinez, A.M., Sanfeliu, A., Moreno-Noguer, F.: Ganimation: Anatomically-aware facial animation from a single image. In: Proceedings of the European Conference on Computer Vision (ECCV). pp. 818-833 (2018)

24. Ricanek, K., Tesafaye, T.: Morph: A longitudinal image database of normal adult age-progression. In: 7th International Conference on Automatic Face and Gesture Recognition (FGR06). pp. 341-345. IEEE (2006)

25. Rothe, R., Timofte, R., Van Gool, L.: Dex: Deep expectation of apparent age from a single image. In: Proceedings of the IEEE international conference on computer vision workshops. pp. 10-15 (2015)

26. Song, J., Zhang, J., Gao, L., Liu, X., Shen, H.T.: Dual conditional gans for face aging and rejuvenation. In: IJCAI. pp. 899-905 (2018)

27. Szegedy, C., Ioffe, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnet and the impact of residual connections on learning. In: Thirty-first AAAI conference on artificial intelligence (2017)

28. Wang, Z., Tang, X., Luo, W., Gao, S.: Face aging with identity-preserved conditional generative adversarial networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 7939-7947 (2018)

29. Yazici, Y., Foo, C.S., Winkler, S., Yap, K.H., Piliouras, G., Chandrasekhar, V.: The unusual effectiveness of averaging in gan training. arXiv preprint arXiv:1806.04498 (2018)

30. Zeng, H., Lai, H., Yin, J.: Controllable face aging. arXiv preprint arXiv:1912.09694 (2019)

31. Zhang, R., Isola, P., Efros, A.A., Shechtman, E., Wang, O.: The unreasonable effectiveness of deep features as a perceptual metric. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. pp. 586-595 (2018)

32. Zhu, H., Huang, Z., Shan, H., Zhang, J.: Look globally, age locally: Face aging with an attention mechanism. arXiv preprint arXiv:1910.12771 (2019)

33. Zhu, H., Zhou, Q., Zhang, J., Wang, J.Z.: Facial aging and rejuvenation by conditional multi-adversarial autoencoder with ordinal regression. arXiv preprint arXiv:1804.02740 (2018)

34. Zhu, J.Y., Park, T., Isola, P., Efros, A.A.: Unpaired image-to-image translation using cycle-consistent adversarial networks. In: Proceedings of the IEEE international conference on computer vision. pp. 2223-2232 (2017)
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
【国際調査報告】