IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ロレアルの特許一覧

<>
  • 特表-反転GANを用いた試着 図1
  • 特表-反転GANを用いた試着 図2
  • 特表-反転GANを用いた試着 図3
  • 特表-反転GANを用いた試着 図4
  • 特表-反転GANを用いた試着 図5
  • 特表-反転GANを用いた試着 図6
  • 特表-反転GANを用いた試着 図7
  • 特表-反転GANを用いた試着 図8
  • 特表-反転GANを用いた試着 図9
  • 特表-反転GANを用いた試着 図10
  • 特表-反転GANを用いた試着 図11
  • 特表-反転GANを用いた試着 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-22
(54)【発明の名称】反転GANを用いた試着
(51)【国際特許分類】
   G06T 1/00 20060101AFI20240215BHJP
【FI】
G06T1/00 340A
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023553744
(86)(22)【出願日】2022-03-03
(85)【翻訳文提出日】2023-10-26
(86)【国際出願番号】 EP2022055465
(87)【国際公開番号】W WO2022184858
(87)【国際公開日】2022-09-09
(31)【優先権主張番号】63/155,842
(32)【優先日】2021-03-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】2201829
(32)【優先日】2022-03-02
(33)【優先権主張国・地域又は機関】FR
(81)【指定国・地域】
(71)【出願人】
【識別番号】391023932
【氏名又は名称】ロレアル
【氏名又は名称原語表記】L’OREAL
【住所又は居所原語表記】14 Rue Royale,75008 PARIS,France
(74)【代理人】
【識別番号】110000534
【氏名又は名称】弁理士法人真明センチュリー
(72)【発明者】
【氏名】サハ・ロヒット
(72)【発明者】
【氏名】デューク・ブレンダン
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057AA20
5B057BA02
5B057CA08
5B057CA12
5B057CA16
5B057CB08
5B057CB12
5B057CB16
5B057CC02
5B057DA07
5B057DA08
5B057DA16
5B057DB02
5B057DB09
5B057DC30
(57)【要約】
ヘアスタイルの移送は、ソース及びターゲット毛髪における毛髪構造の違いのために困難である。直交化を介したヘアスタイルの潜在的最適化(LOHO)は、ヘアスタイル転移中の潜在空間における毛髪構造の詳細を充填するためのGAN反転を用いる最適化ベースのアプローチである。毛髪は、知覚構造、外観及びより細かいスタイルの3つの属性に分解され、これらの属性のそれぞれを独立してモデル化するために調整された損失を含む。2段階最適化および勾配直交化は、3つの毛髪属性の分離された潜在空間の最適化を可能にする。潜在空間の操作のためにLOHOを用いることで、個々にまたは共同で毛髪属性を操作し、ヘアスタイルから所望の属性を移送して、新規の写実的な画像を合成できる。
【選択図】図1
【特許請求の範囲】
【請求項1】
スタイル移送を実行する方法であって、
前記スタイルは複数のスタイル属性を含み、
第1画像(I)、第2画像(I)及び第3画像(I)を含む複数の画像を、生成的敵対ネットワーク(GAN)生成器と、前記第1画像(I)で表されるアイデンティティ、前記第2画像(I)で表される少なくとも1つのスタイル属性から決定されるスタイル及び前記第3画像(I)で表される少なくとも1つのスタイル属性を含む合成画像(I)を生成するための2段階最適化とを備える人工知能(AI)ネットワークフレームワークを用いて処理し、
前記ネットワークフレームワークは、Iで表される前記少なくとも1つのスタイル属性およびIで表される前記少なくとも1つのスタイル属性を解きほぐしながら、前記スタイル移送を実行するために前記GAN生成器の潜在空間を最適化するように構成されることを特徴とする方法。
【請求項2】
は、アイデンティティ領域、スタイル領域および背景領域を含み、
前記潜在空間を最適化するための目的関数に従った第1段階において前記ネットワークフレームワークは、
で表される前記アイデンティティをIの前記アイデンティティ領域に再構成し、
で表される前記少なくとも1つのスタイル属性をIの前記スタイル領域に再構成する物であることを特徴とする請求項1記載の方法。
【請求項3】
前記目的関数による第2段階において前記ネットワークフレームワークは、Iで表される少なくとも1つのスタイル属性をIの前記スタイル領域に移送することを特徴とする請求項2記載の方法。
【請求項4】
前記ネットワークフレームワークは、前記スタイル移送に続いて前記背景領域をインペイントするように構成されることを特徴とする請求項3記載の方法。
【請求項5】
前記ネットワークフレームワークが、Iで表される前記少なくとも1つのスタイル属性と、Iで表される前記少なくとも1つのスタイル属性とを解きほぐすために、前記2段階最適化において勾配直交化を実行するように構成されることを特徴とする請求項1から4のいずれかに記載の方法。
【請求項6】
前記スタイルはヘアスタイルであり、
で表される前記少なくとも1つのスタイル属性は毛髪の形状および構造属性であり、
I3で表される前記少なくとも1つのスタイル属性はi)外観属性およびii)より細かいスタイル属性であることを特徴とする請求項1から5のいずれかに記載の方法。
【請求項7】
前記GAN生成器は、スタイル移送のために構成された事前訓練されたGANから定義されることを特徴とする請求項6記載の方法。
【請求項8】
前記2段階最適化が、アイデンティティ再構成損失(L)、毛髪の形状および構造再構成の喪失(L)、外観損失(L)、並びに、より細かいスタイル損失(L)を含む損失を最適化することを特徴とする請求項6又は7に記載の方法。
【請求項9】
とLが、LとLを最適化せずに第1段階で最適化され、
、L、L及びLが第2段階で最適化され、LがIの外観およびより細かいスタイル属性とIのそれらの属性との間の競合を回避するために勾配直交化を介して最適化されることを特徴とする請求項8記載の方法。
【請求項10】
合成画像(I)にヘアスタイルを移送する方法であって、
生成的敵対ネットワーク(GAN)生成器を備えるネットワークフレームワークによって合成画像(I)を生成し、前記ネットワークは、前記GANの潜在空間を最適化するために2段階最適化を実行するように構成され、
前記2段階最適化の第1段階において前記ネットワークフレームワークによって、第1画像(I)の顔からのアイデンティティをIの顔領域に、第2画像(I)の毛髪領域からの毛髪の形状および構造属性をIの毛髪領域にそれぞれ再構成し、
前記2段階最適化の第2段階において前記ネットワークフレームワークによって、第3画像(I)の毛髪領域からの毛髪の外観属性およびより細かいスタイル属性のそれぞれを前記第1段階で再構成されたIの毛髪領域に移送することを特徴とする方法。
【請求項11】
前記GAN生成器は、スタイル移送のために顔画像を処理するための事前訓練されたGANから定義されることを特徴とする請求項10記載の方法。
【請求項12】
前記2段階最適化が各段階において、アイデンティティ再構成損失(L)、毛髪の形状および構造再構成の喪失(L)、外観損失(L)、並びに、より細かいスタイル損失(L)から構成される目的関数を用いて最適化を実行することを特徴とする請求項10又は11に記載の方法。
【請求項13】
とLが、LとLを最適化せずに前記第1段階で最適化され、
、L、L及びLが前記第2段階で最適化され、LがIの外観およびより細かいスタイル特徴とIのそれらの特徴との間の競合を回避するために勾配直交化を介して最適化されることを特徴とする請求項12記載の方法。
【請求項14】
前記ヘアスタイルの移送後のIの背景領域を、好ましくはIの背景領域からインペイントすることを含むことを特徴とする請求項10から13のいずれかに記載の方法。
【請求項15】
前記ネットワークフレームワークが、編集可能なヘアスタイルの移送、a)毛髪の形状および構造の解きほぐし特徴、並びに、b)毛髪の外観およびより細かいスタイルを提供するように構成され、それによって、移送する毛髪属性の選択を可能にすることを特徴とする前記した請求項のいずれかに記載の方法。
【請求項16】
の前記アイデンティティは、I、I及びIとの間で一意であり、それによって、完全なヘアスタイル移送を実行し、
の前記毛髪の形状および構造は、I、I及びIとの間で一意であり、それによって、少なくとも形状および構造に関連するヘアスタイルの移送を実行し、
の前記毛髪の外観は、I、I及びIとの間で一意であり、それによって、少なくとも外観に関連するヘアスタイルの移送を実行し、
の前記毛髪のより細かいスタイルは、I、IとI との間で一意であり、それによって、少なくとも毛髪のより細かい細部に関連するヘアスタイルの移送を実行することを特徴とする請求項15記載の方法。
【請求項17】
~Iのそれぞれが、ポートレート画像であり、
及びIが、Iで表される前記アイデンティティに移送されるヘアスタイル属性のための参照画像であることを特徴とする前記した請求項のいずれかに記載の方法。
【請求項18】
、I、I及びIはそれぞれ、セグメンテーションネットワークを用いて、それぞれの画像についてそれぞれの毛髪(スタイル)マスク及び顔(アイデンティティ)マスクを定義し、そのようなマスクのうちの選択された1つを用いて、スタイルを移送するためのそれぞれのターゲットマスクを定義することを特徴とする前記した請求項のいずれかに記載の方法。
【請求項19】
前記GAN生成器は、前記スタイル移送を受信するための平均画像としてIを最初に生成することを特徴とする前記した請求項のいずれかに記載の方法。
【請求項20】
前記アイデンティティが、事前訓練されたニューラルネットワーク符号器を用いてIを処理することで抽出された高レベル特徴を用いて再構成されることを特徴とする前記した請求項のいずれかに記載の方法。
【請求項21】
ヘアスタイル移送において、前記事前訓練されたニューラルネットワーク符号器を用いてIを処理することで生成された後のブロックからの特徴を用いて、毛髪の形状および構造が再構成されることを特徴とする請求項20記載の方法。
【請求項22】
ヘアスタイルの移送において、Iの毛髪領域が、合成された毛髪のターゲットの配置にソフトな制約を課す侵食された毛髪領域であることを特徴とする請求項21記載の方法。
【請求項23】
ヘアスタイルの移送において、前記事前訓練されたニューラルネットワーク符号器を用いてIを処理することで第1ブロックで抽出された特徴から決定された全体的な外観を用いて毛髪の外観が移送され、前記全体的な外観は、空間情報に関係なく決定されることを特徴とする請求項20から22のいずれかに記載の方法。
【請求項24】
ヘアスタイルの移送において、前記事前訓練されたニューラルネットワーク符号器を用いてIを処理することで抽出された高レベル特徴マップに従って、より細かいスタイルが移送されることを特徴とする請求項20から23のいずれかに記載の方法。
【請求項25】
ヘアスタイルの移送において、毛髪の外観が色を含み、より細かいスタイルが束のスタイル及び毛髪ストランド間のシェーディング変化のいずれかを含むより細かい詳細を含むことを特徴とする前記した請求項のいずれかに記載の方法。
【請求項26】
スタイル移送に関連する製品および/またはサービスを購入するための電子商取引サービスへのインターフェースを提供することを含むことを特徴とする前記した請求項のいずれかに記載の方法。
【請求項27】
スタイル移送に関連する製品および/またはサービスを推奨するように構成されたサービスへのインターフェースを提供することを含むことを特徴とする前記した請求項のいずれかに記載の方法。
【請求項28】
前記Iは、Iとの対比のためにグラフィカルユーザインターフェース内に表示するために提供されることを特徴とする前記した請求項のいずれかに記載の方法。
【請求項29】
を受信するためのインターフェースを提供することと、
毛髪の形状および構造ならびに毛髪外観およびより細かいスタイルを含むヘアスタイルのようなそれぞれのスタイル属性を示す参照画像の記憶を提供することと、
前記参照画像のうちの1つからIを定義するための入力を受け取るための選択インターフェースを提供することと、
前記参照画像のうちの1つからのIを定義するための入力を受け取るための選択インターフェースを提供することとを含むことを特徴とする前記した請求項のいずれかに記載の方法。
【請求項30】
前記参照画像の記憶以外からI及びIの一方または両方を受信するためのインターフェースを提供することを含むことを特徴とする請求項29記載の装置。
【請求項31】
プロセッサと、前記プロセッサによって実行されると、前記した請求項のいずれかに記載の方法を実行させるコンピュータ実行可能命令を記憶する記憶デバイスとを備えることを特徴とするコンピューティングデバイス。
【請求項32】
プロセッサと、前記プロセッサによって実行されるコンピュータ実行可能命令を記憶する記憶デバイスとを備えるコンピューティングデバイスであって、
ヘアスタイルの移送を実行するように構成されたネットワークフレームワークを備え、
前記ネットワークフレームワークは、参照画像から第1画像(I)の顔からのアイデンティティが移送された毛髪属性を含む合成画像(I)を生成するように構成された生成的敵対ネットワーク(GAN)生成器を備え、
前記毛髪属性は、i)毛髪の形状および構造、ii)毛髪の外観およびiii)毛髪のより細かいスタイルを含むものであり、
前記ネットワークフレームワークは、潜在空間を最適化して、前記毛髪属性であるi)毛髪形状および構造を、ii)毛髪外観およびiii)毛髪のより細かいスタイルから解きほぐすように構成されることを特徴とするコンピューティングデバイス。
【請求項33】
前記参照画像は、第2画像(I)及び第3画像(I)を含み、
、I及びIはそれぞれポートレート画像で構成され、
前記ネットワークフレームワークは、Iから抽出された毛髪の形状と構造およびIから抽出された毛髪の外観と毛髪のより細かいスタイルのそれぞれを用いることを特徴とする請求項32記載のコンピューティングデバイス。
【請求項34】
前記命令が実行されると、前記コンピューティングデバイスに、一旦生成されたIの背景をIにインペイントさせることを特徴とする請求項32から33のいずれかに記載のコンピューティングデバイス。
【請求項35】
前記GAN生成器は、前記潜在空間の最適化が前記毛髪属性を解きほぐすことを可能にするように、2段階最適化および勾配直交化を用いて訓練されることを特徴とする請求項32から34のいずれかに記載のコンピューティングデバイス。
【請求項36】
毛髪の外観は色を含み、
毛髪の細かいスタイルは、毛髪ストランド間の束のスタイル及びシェーディング変化のいずれかを含むより細かい詳細を含むことを特徴とする請求項32から35のいずれかに記載のコンピューティングデバイス。
【請求項37】
前記命令が実行されると、前記コンピューティングデバイスに、ヘアスタイルに関連付けられた製品および/またはサービスを購入するための電子商取引サービスへのインターフェースを提供するように動作させることを特徴とする請求項32から36のいずれかに記載のコンピューティングデバイス。
【請求項38】
前記命令が実行されると、前記コンピューティングデバイスに、ヘアスタイルに関連する製品および/またはサービスを推奨するように構成されたサービスへのインターフェースを前記コンピューティングデバイスに提供するように動作させることを特徴とする請求項32から37のいずれかに記載のコンピューティングデバイス。
【請求項39】
前記命令が実行されると、前記コンピューティングデバイスに
を受信するインターフェースを提供し、
それぞれの毛髪属性を示す参照画像の記憶を提供し、
ヘアスタイルの移送のための毛髪属性を定義するために少なくとも1つの参照画像を選択するための入力を受信する選択インターフェースを提供するように動作させることを特徴とする請求項32から38のいずれかに記載のコンピューティングデバイス。
【請求項40】
前記命令が実行されると、前記コンピューティングデバイスに、前記参照画像をアップロードするためのインターフェースを提供するように動作させることを特徴とする請求項32から39に記載のコンピューティングデバイス。
【請求項41】
処理回路を備えるコンピューティングデバイスであって、前記処理回路が動作すると、
アイデンティティ画像と、アイデンティティ上のヘアスタイルをシミュレートするための異なるヘアスタイル属性を表す複数の参照画像とに対して仮想的なヘアスタイルの試着を実行するためのネットワークフレームワークを提供し、
前記ネットワークフレームワークは前記アイデンティティ及びヘアスタイルを仮想的なヘアスタイルの試着を表す合成画像に組み込むときに現実的な合成された毛髪を提供するために前記異なるヘアスタイル属性を解きほぐす最適化を実行し、
提示のために前記合成画像を提供するように構成されることを特徴とするコンピューティングデバイス。
【請求項42】
前記回路が動作すると、
ヘアスタイルに関連付けられた製品、サービス又はその両方を購入するためのインターフェースを提供することと、ヘアスタイルに関連付けられた推奨を生成するためのインターフェースを提供することとのうちの少なくとも1つを動作させることを特徴とする請求項41記載のコンピューティングデバイス。
【請求項43】
方法であって、
アイデンティティ画像およびアイデンティティ上のヘアスタイルをシミュレートするための異なるヘアスタイル属性を表す複数の参照画像に対して仮想的なヘアスタイルの試着と、
前記アイデンティティ及びヘアスタイルを前記仮想的なヘアスタイルの試着を表す合成画像に組み込むときに、前記異なるヘアスタイル属性を解きほぐして現実的な合成された毛髪を提供する最適化を実行するように構成されたネットワークフレームワークを用いて実行される前記試着とを実行し、
提示のために前記合成画像を提供することを特徴とする方法。
【請求項44】
ヘアスタイルに関連付けられた製品、サービス又はその両方を購入するためのインターフェースを提供することと、ヘアスタイルに関連付けられた推奨を生成するためのインターフェースを提供することと、のうちの少なくとも1つを含むことを特徴とする請求項43記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
《相互参照》
本出願は2021年3月3日に出願された米国仮出願第63/155,842号の優先権を主張し、その全体が参照により本明細書に組み込まれる。本出願はまた、2022年3月2日に出願されたフランス特許出願第2201829号の優先権も主張するものであり、その全内容は参照により本明細書に組み込まれる。
【0002】
本出願は画像処理のためのコンピュータ処理、画像処理およびニューラルネットワークの改善に関し、より詳細には反転GAN(reverse GANs)を用いたスタイルの試着(try-on)、特にヘアスタイルの試着のためのシステム、方法および技法に関するものである。
【背景技術】
【0003】
ニューラルネットワークを用いた画像のコンピュータ処理は、効果(effects)のシミュレーションのための新しい手段を開いた。生成的敵対ネットワーク(generative adversarial networks、GAN)の進歩は、条件付き[15,32]と無条件[19]の両方の写実的な(photorealistic)画像の合成を可能にする。並行して、最近の研究は、分離された(disentangled)特徴表現(feature representations)を学習することで、印象的な潜在空間(latent space)の操作を達成し[26]、写実的なグローバル及びローカル画像の操作を可能にしている。
【0004】
しかしながら、フォトリアリズム(photorealism)を維持しながら、合成画像の属性の制御された操作を達成することは、依然として未解決の課題である。
【発明の概要】
【0005】
ヘアスタイルの移送(transfer)を含むスタイルの移送は、毛髪等のソース(source)及びターゲット(target)のオブジェクトの構造の違いのため困難である。一実施形態では、直交化を介したヘアスタイルの潜在的最適化(Latent Optimization of Hairstyles via Orthogonalization、LOHO)が、ヘアスタイルの移送中に潜在空間(latent space)内の毛髪の構造の詳細を充填するためのGAN反転(GAN inversion)を用いる最適化ベースのアプローチである。毛髪は知覚構造(例えば、形状)、外観およびより細かいスタイル(finer style)の3つの属性に分解され、これらの属性のそれぞれを独立してモデル化するために調整された損失を含む。2段階最適化(Two-stage optimization)及び勾配直交化(gradient orthogonalization)は、3つの毛髪属性の分離された潜在空間の最適化を可能にする。潜在空間の操作のためにLOHOを用いることで、ユーザは個々に又は共同で毛髪属性を操作し、ヘアスタイルから所望の属性を移送して、新規の写実的な(photorealistic)画像を合成できる。一実施形態ではLOHOアプローチ(例えば、スタイル属性が分離した潜在空間の最適化に対する2段階最適化および勾配直交化)は、衣服等の他のスタイルの移送への一般化が可能である。
【図面の簡単な説明】
【0006】
図1】A、B、C、D及びEは、一実施形態に従って合成されたヘアスタイル転写サンプルを示すための画像100,102,104,106及び108である。
図2】一実施形態による、背景ブレンディングを伴う2段階ネットワーク構造のフレームワークである。
図3】は、一実施形態による2段階最適化の効果を示す画像アレイである。
図4】は、一実施形態による勾配直交化(GO)の効果を示す画像アレイである。
図5】A及びBは、一実施形態によるGOの効果を示すグラフである。
図6】一実施形態によるMichiGANおよびLOHOの定性的比較を示す画像アレイである。
図7】一実施形態による個々の属性編集を表す例の画像アレイを示す。
図8】一実施形態による複数の属性編集を表す例の画像アレイを示す。
図9】A及び9Bは、一実施形態による位置ずれの例を示す画像アレイである。
図10】A及びBは、一実施形態によるヘアディテールキャリーオーバーの例を示す画像アレイである。
図11】一実施形態によるコンピュータネットワークの図である。
図12】一実施形態による代表的なコンピューティングデバイスのブロック図である。
【0007】
【0008】
【0009】
【0010】
【0011】
【0012】
【0013】
【0014】
【0015】
【0016】
【0017】
【発明を実施するための形態】
【0018】
様々な実施形態が、ヘアスタイルの移送(transfer)に関して本明細書で詳述される。他のスタイルの移送タスクが、本明細書で説明され、他のスタイルの移送タスクに適合される技法、方法および装置を用いて実装され得ることが、当業者によって理解されるのであろう。
【0019】
一実施形態では、ユーザが細粒度な(fine-grained)制御を用いて、自分のポートレート画像に対してセマンティック(semantic)かつ構造的な(structural)編集を行うことができる。特定の困難で(challenging)商業的に魅力的な例として、ヘアスタイルの移送が評価され、本明細書で説明され、ユーザは、複数の独立したソース画像(source images)から毛髪属性を移送して、自身のポートレート画像を操作できる。一実施形態では、直交化を介したヘアスタイルの潜在的最適化(Latent Optimization of Hairstyles via Orthogonalization、LOHO)が生成的敵対ネットワーク(generative adversarial network、GAN)[12,18]等の生成モデルの潜在空間における2段階最適化(two-stage optimization)プロセスである。例示的な技術的貢献は、1つの属性の適用(application)が他の属性と干渉しないように、移送された属性の勾配(gradients)を直交化することで属性の移送が制御されることである。
【0020】
ヘアスタイルの移送[30]に関する以前の研究は、GAN生成器(generators)の複雑なパイプラインを用いて、毛髪の外観(appearance)の現実的な移送をもたらし、それぞれは、毛髪の合成または背景のインペインティング(inpainting)等の特定のタスクに特化した。しかしながら、整列されていない(misaligned)毛髪マスク(hair masks)によって残された穴(holes)を充填するため、事前訓練された(pretrained)インペインティングネットワークを用いると、ぼやけた遺物(artifacts)が生じる。移送された毛髪の形状から、より現実的な合成を生成するために、一実施形態によれば、顔を生成するように事前訓練された単一のGANの事前分布(prior distributionを)呼び出すことにより、欠けている形状および構造の詳細が埋められる。
【0021】
LOHOは、前記のソース-ターゲットの毛髪の未整列(misalignment)の下でさえ、写実的なヘアスタイルの移送を達成する。LOHOは、事前訓練されたStyleGANv2[20]の拡張された潜在空間(latent space)とノイズ空間(noise space)とを直接最適化する。慎重に設計された損失関数を用いて、LOHOアプローチは毛髪を3つの属性、即ち知覚構造(例えば、形状)、外観およびより細かいスタイル(finer style)に分解する。次いで、これらの属性のそれぞれは、個々にモデル化され、それによって、合成プロセスに対するより良好な制御を可能にする。更に、LOHOは2段階最適化を採用することで、合成画像の品質を著しく改善し、各段階は、目的関数(objective function)における損失のサブセットを最適化する。損失のいくつかは、それらの類似の設計に起因して順次最適化され、LOHOアプローチの下で共同ではない。最後に、LOHOは、勾配直交化(gradient orthogonalization)を用いて、最適化プロセス中に毛髪属性を明示的に分離する。
【0022】
図1A、1B、1C、1D及び1Eは、一実施形態による、LOHOを用いて合成されたヘアスタイルの移送サンプルを示すための画像100,102,104,106及び108である。図1A及び1Dの所与のポートレート画像100及び106について、LOHOは、複数の入力条件に基づいて毛髪属性を操作できる。挿入画像(例えば、102A、104A及び18A)は、外観およびより細かいスタイル、構造ならびに形状の順序でターゲット毛髪属性を表す。LOHOは、背景を変化させずに、外観およびより微細なスタイル(例えば、図1Bに示される)ならびに知覚構造(例えば、図1Bに示される)を伝達できる。
【0023】
更に、LOHOは複数の毛髪属性を同時にかつ独立して変更できる(例えば、図1Cに示されるように)。
【0024】
LOHOアプローチの特徴に従って、以下が提供される:
・StyleGANv2の拡張された潜在空間およびノイズ空間を最適化することでヘアスタイルの移送を実行するための新しいアプローチ。
・各重要なヘアスタイル属性をモデル化するための複数の損失を含む目的関数。
・合成画像のフォトリアリズム(photorealism)の大幅な改善につながる2段階最適化の戦略。
・干渉(interference)のない潜在空間における属性を共同で最適化する一般的な手法への勾配直交化の導入。勾配直交化の有効性を定性的および定量的に実証した。
・計算されたフレシェ開始距離(Frechet Inception Distance、FID)スコアを用いた評価を用いた、実環境下での(in-the-wild)ポートレート画像上でのヘアスタイルの移送。FIDは、同じドメイン内の実画像と合成画像の開始(Inception)[29]特徴間の距離を計算することで生成モデルを評価するために用いられる。計算されたFIDスコアは、実施形態によるフレームワーク及び関連する方法および技術が現在の最新技術(state-of-the-art、SOTA)のヘアスタイルの移送結果より優れている可能性があることを示す。
《関連した研究》
【0025】
生成的敵対ネットワーク。生成モデル、特にGANは、画像から画像への変換[15,32,40]、ビデオの生成[34,33,9]及びオブジェクトの検出[24]等の識別タスク(discriminative tasks)のためのデータ拡張(data augmentation)等、様々なコンピュータビジョンアプリケーションに亘って非常に成功している。GAN[18,3]は、訓練データ(training data)の基礎となる分布を学習することで、潜在コード(latent code)を画像に変換する。より最近のアーキテクチャであるStyleGANv2[20]は、写実的な人間の顔を生成するためのベンチマークを設定している。しかしながら、そのようなネットワークを訓練することは、かなりの量のデータを必要とし、ヘアスタイルの移送等の特定の使用事例のためにSOTA-GANを訓練するための障壁を著しく高くさせる。その結果、事前訓練された生成器を用いて構築された方法は、様々な画像操作タスクを実行するための事実上の標準になりつつある。一実施形態では、StyleGANv2[20]が表現的な事前訓練された顔合成モデルとして活用され、制御された属性操作のために事前訓練された生成器を用いるための最適化アプローチが概説される。
【0026】
潜在空間の埋め込み。反転(inversion)を介したGANの潜在空間の理解および操作は、研究の活発な分野となっている。GAN反転は、GANの潜在空間に画像を埋め込むことを含み、その潜在的な埋め込み(latent embedding)から生じる合成画像が、元の画像の最も正確な再構成である。I2S[1]は、事前訓練されたStyle-GAN[19]の拡張された潜在空間W+を最適化することで画像を再構成できるフレームワークである。サンプリングされた埋め込みWは、StyleGANアーキテクチャの各レイヤに1つずつ、18の異なる512次元のwベクトルの連結である。I2S++[2]は、ノイズ空間Nを更に最適化することにより、画像の再構成品質を更に改善した。更に、I2S++フレームワークにセマンティック(semantic)マスクを含めることにより、ユーザは、画像のインペイントや全体的な編集等のタスクを実行できる。最近の手法[13,27,41]は、画像空間からの入力を潜在空間Wに直接マッピングする符号器(encoder)を学習する。一実施形態では、LOHOが近年のStyleGANv2のW空間およびノイズ空間Nを最適化して、ポートレート画像上の毛髪のセマンティック編集を実行するという点で、GAN反転に従う。一実施形態では、LOHOが属性の異なる競合目的(competing objectives)間の干渉を防止しながら、複数のソースからの毛髪構造等の空間的な局所属性の同時操作のために、GAN反転アルゴリズムを更に利用する。
【0027】
ヘアスタイルの移送。毛髪は、人間の顔のモデル化および合成が困難な部分である。毛髪のモデリングに関する以前の研究は、ヘアジオメトリ(hair geometry)[8,7,6,35]をキャプチャすること及びインタラクティブなヘア編集のためにこのヘアジオメトリを下流(downstream)で用いることを含む。しかしながら、これらの手法は、主要な視覚的要因をキャプチャできず、それによって結果の品質を損なう。最近の研究[16,23,21]は、毛髪生成のためのGANの使用に関する進歩を示したが、これらの手法は合成された毛髪に対する直感的な制御を可能にしない。MichiGAN[30]は、毛髪の制御された操作を可能にする条件的合成(conditional synthesis)GANを提案した。MichiGANは意図的なメカニズムと表現を指定することにより、毛髪を4つの属性に分離し、毛髪の外観変化に対するSOTA結果を生成する。それにもかかわらず、MichiGANは、任意の形状変化を伴う毛髪の移送シナリオを扱うことが困難である。
【0028】
これは、MichiGANが毛髪の移送プロセス中に生成された「穴」を充填するために、別々に訓練されたインペインティングネットワークを用いて形状変化を実施するからである。対照的に、本明細書の方法の態様は、事前訓練されたGANの事前分布を、ピクセル空間(pixel space)ではなく潜在空間において「充填」するように呼び出す。MichiGANと比較して、本明細書の方法の態様は、毛髪の形状が変化する困難な場合において、より現実的な合成画像を生成する。
<方法論>
《背景》
【0029】
Image2StyleGAN++(I2S++)[2]で提案された目的関数は:
【数1】
ここで、wはStyleGANの拡張された潜在空間Wにおける埋め込みであり、nはノイズベクトル埋め込みであり、M、M及びMは、各損失に寄与する画像領域を特定するためのバイナリマスクであり、◎(丸印の中心に黒点)は、アダマール積(Hadamard product)を表し、Gは、StyleGAN生成器であり、xは、マスクM、M及びM内で再構成する画像であり、yは、Mの外部、即ち(1-M)内で再構成する画像である。
【0030】
数式1におけるI2S++目的関数(objective function)の変化は画像再構成、画像クロスオーバ(image crossover)、画像インペインティング、ローカルスタイル移送および他のタスクを改善するために、[2]によって用いられる。ヘアスタイルの移送のために、画像クロスオーバ及び画像インペインティングの両方を行うことが望ましい。あるヘアスタイルを別の人に移すには、クロスオーバが必要であり、元の人の髪が塗りつぶされていた残りの領域が必要である。
《フレームワーク》
【0031】
図2は、一実施形態による、LOHOのための背景ブレンディング(インペインティング)200を有する2段階ネットワークフレームワークを示す。ネットワークフレームワーク200は訓練フレームワークとは対照的に、推論時間フレームワーク(inference time framework)を表す。GAN生成器202は、スタイルの移送のための事前訓練されたGANを備える。段階1(206)において、”平均(mean)”顔204(I)から開始して、ネットワークフレームワーク200は、(I(208)の)ターゲットアイデンティティ及び(I(210)からのヘアのターゲット知覚構造を再構成する。段階2(212)では、フレームワーク200が勾配直交化(GO)を介して知覚構造を維持しながら、I(214)からの)ターゲット毛髪のより細かいスタイル及び外観を移送する。最後に、Iは、Iの背景とブレンドされる。
【0032】
ヘアスタイルの移送問題に対して、人物の3つのポートレート画像が提供される:I、I及びI(208,210及び214)。人物2の(Iの)毛髪の形状および構造の属性、ならびに、人物3(Iの)毛髪の外観およびより細かいスタイルの属性を、人物1(Iの)に移送するのを考慮する。M (208A)をIの2値の顔面マスク(binary face mask)とし、M 、M 及びM (図示せず)をI、I及びIを2値の毛髪マスク(binary hear mask)とする。次に、M が約20%別々に拡張(dilated)および侵食(eroded)されて、拡張されたバージョンM h,d及び侵食されたバージョンM h,e(210A)を生成する。M h,ir≡M h,d-M h,eは、インペイントを必要とする無視領域(ignore region、例えば、顔なし、毛髪なしの背景)とする。この実施形態では、M h,irは最適化されておらず、むしろ、StyleGANv2(GAN生成器202)が呼び出されて、この領域内の関連する詳細をインペイントする。この特徴は、ネットワークフレームワーク200が人物1及び人物2の毛髪の形状が不整列な状況において、毛髪の形状の移送の実行を可能にする。
【0033】
2つの段階206及び212では、セグメンテーションネットワーク218を用いて、合成画像(それぞれ段階1 206への入力として及びそれが洗練され(refined)、段階2 212への入力として提供された後)と、入力画像(I、I及びI)とを処理することで、それぞれのセグメンテーションマスクを定義する。2つの段階206及び212では、一実施形態によれば、顔画像処理のための事前訓練されたCNN220(例えば、VGG[28])を用いて、更に説明するように高レベルの特徴を抽出する。
【0034】
実施形態200では、Iの背景が最適化されていない。従って、背景を回復(recover)するために、216において、本実施形態では、Iの背景は、合成画像Iの前景(foreground、毛髪および顔)とソフトブレンド(soft-blended)される。具体的には、本実施形態ではGatedConv[36](図示せず)を用いて、マスクされたIの前景領域をインペイントし、その後、ブレンディングを実行する。
《目的(Objective)》
【0035】
ヘアスタイルの移送を実行するために、合成画像の関連領域(relevant regions)を監視するために損失が用いられる。表記を単純に保つために、I≡G(W+N)合成画像とし、M (204A)及びM (204B)を対応する顔領域および髪領域とする。
【0036】
アイデンティティ(Identity)の再構成。人物1のアイデンティティを再構成するために、一実施形態では、学習知覚画像パッチ類似性(Learned Perceptual Image Patch Similarity、LPIPS)[39]損失が用いられる。LPIPSは人間の類似性判断に基づく知覚損失であり、従って、顔の再構成に良く適している。損失を計算するために、事前訓練されたVGG[28]220が、両方のための高レベル特徴(high-level feature)[17]を抽出するために用いられる。特徴は、一実施形態ではVGG220の5つのブロック全てから抽出され、合計されて、顔の再構成目的(reconstruction objective)を形成する:
【数2】
ここで、bはVGGブロックを表し、M ∩(1-M h,d)はM と拡張されたマスクM h,dの前景領域との間の重なりとして計算されたターゲットマスク(target mask)を表す。この数式2は、ターゲットマスクにソフトな制約を課す。
【0037】
毛髪の形状と構造の再構成。人物2の毛髪情報を回復するために、LPIPS損失を介して監視が実施される。しかしながら、M をターゲット毛髪マスクとして単純に(naively)用いると、生成器202は、Iの望ましくない領域の毛髪を合成する可能性がある。これは、特に、ターゲットの顔領域と毛髪領域とがうまく位置合わせされない場合に当てはまる。この問題を解決するために、侵食されたマスクM h,eは、合成された毛髪のターゲットの配置にソフトな制約(soft constraint)を課すために用いられる。M h,eは、M h,irと組み合わせされ、生成器は重なっていない領域(non-overlapping regions)に関連情報をインペイントすることで、位置ずれしたペアを処理できる。損失を計算するために、VGG220のブロック4及び5からの特徴が、I、Iの毛髪領域に対応して抽出され、毛髪の知覚構造目的(perceptual structure objective)を形成する:
【数3】
【0038】
毛髪の外観の移動。毛髪の外観は、毛髪の形状および構造とは無関係な、毛髪の全体的に一貫した色を指す。その結果、異なる毛髪形状のサンプルから移送できる。ターゲットの外観を移送するために、一実施形態では、64個の特徴マップが色情報を最も良く説明するように、VGG(relu1_1)の最も浅いレイヤから抽出される。次いで、各特徴マップの毛髪領域内で平均プーリング(average-pooling)が実行されて、空間情報(spatial information)を破棄し、全体的な外観(global appearance)をキャプチャする。R64×1の平均的な外観Aの推定値は、
【数4】
で得られ、ここでφ(x)は、画像xの64個のVGG特徴マップを表し、yは、関連する毛髪マスクを示す。最後に、二乗された(squared)L距離は、毛髪の外観目的を与えるために算出される:
【数5】
【0039】
毛髪のより詳細な移送。全体的な色に加えて、毛髪はまた、束のスタイル(wisp styles)及び毛髪ストランド(hair strands)間のシェーディング変化等のより細かい詳細を含む。このような詳細は、全体の平均を推定する外観損失だけではキャプチャできない。従って、より良好な近似が、毛髪ストランド間の様々なより微細なスタイルを計算するために必要とされる。グラムマトリクス(Gram matrix)[10]は、高レベル特徴マップ間の二次(second-order)関連付けを計算することで、より微細な毛髪の細部をキャプチャする。一実施形態では、グラムマトリクスがVGGの{relu1_2; relu2_2; relu3_3; relu4_4}のレイヤから特徴を抽出した後に計算される。
【数6】
ここで、γはRHW×Cにおけるレイヤlから抽出された特徴マップを表し、gはレイヤlのグラムマトリクスを表す。ここで、Cはチャンネル数を表し、HとWとは、それぞれ高さと幅とである。最後に、二乗されたL距離は、以下のように計算される。
【数7】
【0040】
ノイズマップの正則化(Noise Map Regularization)。ノイズマップn∈Nを明示的に最適化すると、最適化によって実際の信号がノイズマップに挿入される可能性がある。これを防ぐために、一実施形態では、ノイズマップ[20]の正則化の項が導入される。8x8より大きい各ノイズマップについて、一実施形態では、ピラミッドダウンネットワーク(pyramid down network)が解像度を8x8に低減するために用いられる。ピラミッドネットワークは、各ステップにおいて2x2ピクセルの近傍(neighbourhoods)を平均化する。加えて、一実施形態では、ノイズマップがゼロ平均(zero mean)および単位分散(unit variance)となるように正規化され、ノイズ目的(noise objective)を生成する:
【数8】
ここで、ni,0は元のノイズマップを表し、ni,j>0はダウンサンプリングされたバージョンを表す。同様に、ri,jは元の又はダウンサンプリングされたノイズマップの解像度を表す。
【0041】
全ての損失を組み合わせると、全体的な最適化の目的は以下となる。
【数9】
《最適化戦略》
【0042】
2段階最適化。損失L、L及びLの類似の性質を考慮すると、開始からの全ての損失を共同で最適化することは、人物2の毛髪情報を人物3の毛髪情報と競合させ(compete)、望ましくない合成をもたらすのが想定される。この問題を緩和するために、全体的な目的は2段階で最適化される。段階1では、目的アイデンティティ及び毛髪の知覚構造のみが再構成され、即ち数式8においてλ及びλにゼロが設定される。段階2では、段階1が段階に対してより良い初期化を提供し、それによってモデルを収束させる。
【0043】
しかしながら、この技術自体には欠点がある。それは、段階1の後、再構成された毛髪の知覚構造を維持するための監視がないことである。この監視の欠如は、StyleGANv2が事前分布を呼び出して、毛髪ピクセルをインペイント又は除去するのを可能にし、それによって、段階1で見つかった知覚構造の初期化を取り消す。従って、最適化の段階2にLを含める必要がある。
【0044】
勾配直交化。Lは、デザインによって、人物2の全ての毛髪の属性、即ち知覚的構造、外観及びより細かいスタイルをキャプチャする。結果として、Lの勾配は、人物3の外観およびより細かいスタイルに対応する勾配と競合する。この問題は、その外観およびより細かいスタイル情報が除去されるように、勾配を操作することで対処される。より具体的には、Lの知覚構造勾配がその外観およびより細かいスタイル勾配に直交するベクトル部分空間(vector subspace orthogonal)上に投影される。これにより、人物2の毛髪の構造および形状を維持しながら、人物3の毛髪の外観およびより細かいスタイルを移送できる。
【0045】
潜在空間Wの最適化を仮定すると、計算される勾配は、以下の通りである。
【数10】
ここで、L、L及びLは、IとIとの間で計算されたLPIPS、外観およびより細かいスタイルの損失である。直交性を強制するために
【数11】
が最小化されることが求められる。これは、構造-外観勾配直交化を用いて、(gA2+gS2)と平行するgR2コンポーネントを遠ざけることによって達成され、
【数12】
が最適化の段階2において反復される。
<実験と結果>
《実装の詳細》
【0046】
データセット。一実施形態では、人間の顔の70000個の高品質画像を含むフリッカー-顔-HQデータセット(Flickr-Faces-HQ、FFHQ)[19]が用いられた。フリッカー-顔-HQは、民族性(ethnicity)、年齢およびヘアスタイルパターンに関して有意な変動を有する。一実施形態では画像(I,I,I)のタプル(tuples)は以下の制約に基づき選択された:(a)タプル内の各画像の少なくとも18%のピクセルが毛髪を含むべきであり、(b)IとIとのそれぞれの顔領域はある程度整列しなければならない。これらの制約を実施するために、一実施形態では、グラフォノミーセグメンテーションネットワーク(Graphonomy segmentation network)[11]を用いて毛髪および顔マスクを抽出し、2D-FAN[4]を用いて68個の2Dの顔のランドマーク(facial landmarks)を推定した。全てについて、対応する顔マスク及び顔のランドマークを用いて、IとIとの結合上の交差点(intersection over union、IoU)および姿勢距離(pose distance、PD)を計算した。最後に、一実施形態では、選択されたタプルが以下のIoUおよびPD制約が両方とも表1のように満たされるように、「容易」、「中程度」及び「困難」の3つのカテゴリに分散された。
【表1】
【0047】
訓練パラメータ。一実施形態では、アダムオプティマイザ(Adam optimizer)[22]が0.1の初期の学習率(learning rate)で用いられ、コサインスケジュール(cosine schedule)[20]を用いて強化(annealed)された。一実施形態では、最適化は2段階で行われ、各段階は1000回の反復からなる。切除研究(ablation studies)に基づいて、一実施形態では、40個の外観損失重み係数(appearance loss weight)λ、1.5×10個のより細かいスタイル損失重み係数(finer style loss weight)λ及び1×10個のノイズ正則化重み係数(noise regularization weight)λが選択された。そして、残りの損失重み係数(loss weights)は1に設定された。
《2段階最適化の効果》
【0048】
図3は、一実施形態による2段階最適化の効果を示す4列の画像アレイ300である。画像アレイ300において、第1列(300A)は参照画像を示し、第2列(300B)はアイデンティティ(例えば、人物1)を示し、第3列(300C)は損失が一緒に最適化される場合の合成画像を示し、第4列(300D)は2段階最適化+勾配直交化を介した合成画像を示す。
【0049】
目的関数(objective function)において全ての損失を一緒に最適化することは、フレームワークを分岐させる。アイデンティティが再構成される間、毛髪の移送は失敗する(図3の第3列300C)。合成された毛髪の構造および形状は保存されず、望ましくない結果を引き起こす。他方、2段階最適化を行うことは、提供された参考文献と一致する写実的な画像の生成をもたらす合成プロセスを明らかに改善する。アイデンティティが再構成されるだけでなく、毛髪属性も所望の要件に従って移送される。
《勾配直交化の効果》
【0050】
図4は、一実施形態による勾配直交化(GO)の効果を示す画像アレイ400である。第1行(400A)は、4つの参照画像(左から右)は、同一性、ターゲット毛髪外観およびより細かいスタイル、ターゲット毛髪構造ならびに形状(マスク)を示す。第2行(400B)は2つの画像ペア、例えば、i)(a)及び(b)、並びに、ii)(c)及び(d)は、それぞれ、非GO法およびGO法のためのそれぞれの合成画像およびそれらの対応する毛髪マスクを含むことを示す。図5A及び5Bは、一実施形態によるGOの効果を示すグラフ500及び502である。グラフ500及び502は、それぞれ、最適化の段階2における
【数13】
の反復および傾向に対するLPIPSの毛髪再構成損失(GO対非GO)を示す。
【0051】
フレームワークの2つの変形(実施形態)が比較される:非GO及びGO。GOは勾配直交化を介してLの勾配を操作することを含むが、非GOはLには手を触れないままである。非GOはターゲット毛髪形状を維持できず、最適化の段階2において、反復回数1000(図4,5A,5B)の後にLの増加を引き起こす。位置が不変である外観およびより細かいスタイル損失は、形状に寄与しない。一方、GOは段階2において再構成損失を用いてターゲット毛髪形状を維持する。その結果、IoUは、M とM の間で計算され、0:857(非GO)から0:932(GO)まで増加する。
【0052】
勾配の解きほぐし(disentanglement)に関しては、時間の経過とともにgR2と(gA2+gS2)との間の類似性が減少し、GOを有するフレームワークの実施形態が人物2の毛髪形状をその外観およびより微細なスタイルから解きほぐすことができることを示している(図5A,5B)。この解きほぐしは、人物3の毛髪の外観およびより微細なスタイルを、モデルの発散(divergence)を引き起こすことなく、合成画像に継ぎ目なく移送するのを可能にする。ここでは、フレームワークのGOバージョンを比較および分析に用いる。
《SOTAとの比較》
【0053】
ヘアスタイルの移送。このフレームワークのGOバージョンをSOTAモデルMichiGANと比較した。MichiGANは、(1)毛髪の外観、(2)毛髪の形状および構造、ならびに、(3)背景を推定するための別々のモジュールを含む。外観モジュールは生成器をその出力特徴マップで効果を上げ(bootstraps)、従来のGANにおけるランダムにサンプリングされた潜在コードを置き換える[12]。形状および構造モジュールは毛髪マスク及び配向(orientation)マスクを出力し、バックボーン生成ネットワーク(backbone generation network)内の各SPADE ResBlk[25]を非正規化する。最後に、背景モジュールは、生成器の出力を背景情報と漸進的に(progressively)ブレンドする。訓練に関しては、MichiGANは擬似監視体制(pseudo-supervised regime)に従う。具体的には、同じ画像から(モジュールによって推定される)特徴が、元の画像を再構成するために、MichiGANに供給される。試験時に、FFHQの試験分割からランダムにサンプリングされた512ピクセルの解像度の5000個の画像についてFIDが計算される。
【0054】
結果が同等であることを確実にするために、上記の手順に従い、LOHOについてFIDスコア[14]を計算した。画像全体に対してFIDを計算することに加えて、一実施形態では、スコアが、背景がマスクされると共に合成された毛髪および顔領域のみに依存して計算された。マスクされた画像上で低いFIDスコアを達成することは、LOHOモデルが実際に現実的な毛髪および顔領域を合成できることを意味する。この実施形態は、LOHO-HFと呼ばれる。MichiGANの背景インペインターモジュール(background inpainter module)は公開されていないので、一実施形態では、GatedConv[36]がマスクされた毛髪領域に関連する特徴をインペイントするために用いられる。
【0055】
定量的に、LOHOがMichiGANを上回り、8.419のFIDスコアを達成し、一方、MichiGANは10.697を達成する(表2)。この改善は、LOHO最適化フレームワークが高品質画像を合成できることを示す。LOHO-HFは4:847の更に低いスコアを達成し、合成された毛髪および顔領域の優れた品質を証明する。FFHQの試験セットから一様にランダムにサンプリングされた5000個の画像を用いた。なお、シンボル「↓」は、数値が小さいほど良い結果であることを示す。
【表2】
【0056】
図6は、一実施形態による、MichiGANとLOHOの定性的比較を示す画像アレイ600である。6つのそれぞれの例を示す6つの行のそれぞれにおいて、第1列(狭い)(600A)は参照画像を示し、第2列(600B)はアイデンティティの人物(identity person)を示し、第3列(600C)はMichiGANの出力を示し、第2列はLOHOの出力(より良好な視覚比較のためにズームインされたもの)を示す。第1~2行では、例はMichiGANがターゲット毛髪属性を「コピーペースト」する一方で、LOHOが属性をブレンドし、それによって、より現実的な画像を合成することを示す。第3~4行では、例は、LOHOが整列されていない例をMichiGANよりも良く扱うことを示している。第5~6行では、LOHOが正しいスタイル情報を移送する例を示す。
【0057】
定性的には、LOHOに従う方法が困難な例についてより良好な結果を合成できる。LOHOは画像アレイ600に示されるように、ターゲット毛髪属性をターゲットの顔と自然にブレンドする。MichiGANはターゲットの顔上にターゲットの毛髪を単純にコピーするので、2つの領域間の照明の不一致を引き起こす。LOHOは、様々な度合い(degrees)が整列されていないペアを取り扱うが、MichiGANは、潜在空間ではなくピクセル空間内の背景および前景情報をブレンドすることに依存するため、これを行うことができない。最後に、LOHOは、MichiGANに匹敵する、関連するスタイル情報を移送する。実際、グラムマトリクスをマッチングすることで二次統計(second order statistics)を最適化するスタイル目的(style objective)が追加されたため、LOHOは、図6の下の2列(第5~6列)のように、毛髪の形状に関する元の人物が均一な(uniform)毛髪の色を有する場合であっても、様々な色を有する毛髪を合成する。
【0058】
アイデンティティ再構成の品質。LOHOはまた、2つの最近の画像埋め込み手法: I2S[1]及びI2S++[2]と比較した。I2Sは、潜在空間Wを最適化することで高品質の画像を再構成できるフレームワークを導入する。I2Sはまた、最適化されたスタイルの潜在コードWと平均顔のW^との間で計算された潜在距離が、合成された画像の品質にどのように関連するかを示す。I2S++は、I2Sに加えて、高いPSNR値およびSSIM値を有する画像を再構成するためにノイズ空間Nを最適化する。従って、高品質でターゲットのアイデンティティを再構成するLOHOの能力を評価するために、同様のメトリックが、合成画像の顔領域上で計算される。潜在空間におけるインペインティングは、LOHOの結果の不可欠な部分であるので、I2S++の512ピクセルの解像度の画像のインペインティングに対する性能と比較される。
【0059】
モデル(LOHO)は、ヘアスタイルの移送の困難な作業を行っているにもかかわらず、同等の結果を達成できる(表3)。I2Sは有効な人間の顔の許容可能な潜在距離が[30:6; 40:5]にあり、LOHOがその範囲内にあることを示す。更に、LOHOのPSNRスコア及びSSIMスコアはI2S++よりも良好であり、LOHOが、ローカル構造情報を満たすアイデンティティを再構成するのを証明する。
【表3】
《属性の編集》
【0060】
実施形態によれば、LOHOフレームワーク及び関連する手法は、実環境下でのポートレート画像の属性を編集できる。この設定では、画像が選択された後、参照画像を提供することで属性が個別に編集される。例えば、毛髪の外観及び背景を未編集のまま、毛髪の構造及び形状を変更できる。LOHOフレームワーク及び関連する手法は実施形態によれば、重なっていない毛髪領域(non-overlapping hair regions)を計算し、関連する背景の詳細を空間に充填する。最適化プロセスに続いて、合成された画像は、インペイントされた背景画像とブレンドされる。同様のことが、毛髪の外観およびより細かいスタイルを変化させるためにも当てはまる。LOHOは毛髪属性を分離し、それらを個別に、かつ、一緒に編集するのを可能にし、それによって、望ましい結果をもたらす。従って、図7は個々の属性編集を表す例の画像アレイ700を示し、図8は、複数の属性編集を表す例の画像アレイ800を示す。画像アレイ700は、第1サブアレイ700Aにおける外観およびより細かいスタイルの例(左側の例)と、第2サブアレイ700Bにおける形状の例(右側の例)とを含む。図7における結果は、モデルが互いに干渉することなく個々の毛髪属性を編集できるのを示す。図8において、画像アレイ800は、実施形態によるLOHOフレームワーク及び関連する手法が互いに干渉することなく、毛髪属性を一緒に編集できるのを示す結果を表す。
<限界>
【0061】
図9A及び9Bは、一実施形態による整列されていない例を示す画像アレイ900及び902である。LOHOフレームワーク及び関連する手法は実施形態によれば、整列されていない極端な場合に影響されやすい(図9)。本研究では、このような症例は困難と分類される。それらは、フレームワーク及び関連する手法に、不自然な毛髪の形状および構造を合成させる。GANベースの整列ネットワーク[38,5]は、困難なサンプルを横断して毛髪の姿勢または整列を伝達するために用いられ得る。
【0062】
図10A及び10Bは、一実施形態による毛髪の詳細のキャリーオーバーの例を示す画像アレイ1000及び1002である。これは、グラフォノミー[11]の毛髪の不完全なセグメンテーションに起因する可能性がある。より洗練されたセグメンテーションネットワーク[37,31]を用いて、この問題を軽減できる。
《現実世界への適用》
【0063】
図11は一実施形態による、開発コンピューティングデバイス1102、ウェブサイトコンピューティングデバイス1104、クラウドコンピューティングデバイス1105、アプリケーション配信コンピューティングデバイス1106、及び、それぞれのエッジコンピューティングデバイス、即ちスマートフォン1108及びタブレット1110を示すコンピュータネットワーク1100の図である。コンピューティングデバイスは、通信ネットワーク1112を介して結合される。コンピュータネットワーク1100は簡略化される。例えば、ウェブサイトコンピューティングデバイス1104、クラウドコンピューティングデバイス1105及びアプリケーション配信コンピューティングデバイス1106は、それぞれのウェブサイト、クラウド及びアプリケーション配信システムの例示的なデバイスである。通信ネットワーク1112は、プライベートネットワーク及びパブリックネットワークを含み得る複数の有線および/または無線ネットワークを含み得る。
【0064】
この実施形態では、開発コンピューティングデバイス1102がネットワークフレームワーク1116を構成(訓練を含むことができる)およびテスト等のための1又は複数のデータセットを記憶するデータストア1114(データベースを含むことができる)に結合される。一実施形態によれば、ネットワークフレームワーク116は、GAN生成器を備え、スタイルの移送、特にヘアスタイルの移送を実行するための2段階最適化のために構成される。
【0065】
データストア1114は、開発および実装を支援するために、ソフトウェア、他のコンポーネント、ツール等を記憶できる。図示されていない別の実施形態では、データセットが開発コンピューティングデバイス1102の記憶デバイスに記憶される。
【0066】
開発コンピューティングデバイス1102は、本明細書で説明する実施形態に従ってネットワークフレームワーク1116を定義するように構成される。例えば、開発コンピューティングデバイス1102は、図2のネットワークフレームワークを構成するように構成される。一実施形態では、開発コンピューティングデバイス1102が図2に示されるように、StyleGANv2又はその変形等のスタイル移送のために構成された事前訓練されたGANを組み込むように構成される。
【0067】
一実施形態では、開発コンピューティングデバイス1102が、ウェブサイトコンピューティングデバイス1104又はウェブサイトコンピューティングデバイス1104を介してアクセス可能な1つのサーバコンピュータデバイス上で実行するためのネットワークフレームワーク1116を定義する。
【0068】
一実施形態では、開発コンピューティングデバイス1102がクラウドコンピューティングデバイス1105上で実行するネットワークフレームワーク1116を定義する。開発コンピューティングデバイス1102(又は図示しない別のもの)はスマートフォン1108及びタブレット1110等のそれぞれのエッジデバイスへの配信のために、アプリケーション配信コンピューティングデバイス(例えば、1106)のためのウェブサイト及び/又はアプリケーション1120Bのため等、ネットワークフレームワークへのインターフェースをアプリケーション1120Aに組み込む。
【0069】
図11の本実施形態はネットワークフレームワーク自体を、タブレット、スマートフォン等のエッジデバイス上に記憶し、実行することを示しておらず、そのようなフレームワーク内の最適化プロセスは、かなりの処理リソースを必要とする。そのようなデバイスのための典型的なリソースを有するエッジデバイス上での実行は、単一のスタイル移送のために(比較的)長い時間(約10~20分)を要する。家庭用PC、ゲーム機または他の一般的に消費者向けのデバイス上でフレームワークを実行することも、同様のランタイムで可能である。しかし、ランタイムは、現在、対話的であると認識されるには十分ではないので(それでも)、図11はネットワークフレームワーク1116がリモートサーバ(例えば、ウェブサイト又はクラウドデバイス)によって提供される、より実用的な使用事例を示す。このパラダイムでは、アイデンティティ及びスタイル属性画像がサーバに提出され、ユーザは応答(例えば、アイデンティティ及び移送されたスタイルを組み込んだ合成画像)を待つ。
【0070】
一実施形態では、アプリケーション配信コンピューティングデバイス1106がアプリケーションストアサービス(電子商取引サービスの一例)を提供して、サポートされるオペレーティングシステム(OS)を実行するターゲットデバイス上で実行するためのアプリケーションを配信する。コンピューティングデバイスによるアプリケーション配信サービスの例としては、iOS(登録商標)又はiPADOS(登録商標)(いずれもApple Inc.Cupertino CAの商標)を実行しているiPhone(登録商標)又はiPAD(登録商標)デバイスのためのAppleのApp Store(登録商標)がある。適用可能なコンピューティングデバイスを介した別の例示的なサービスは、Android(登録商標)OS(Google LLC, Mountain View, CAの商標)を実行する様々なソースからのスマートフォン及びタブレットデバイスのためのGoogle Play(登録商標)(Google LLC, Mountain View, CAの商標)がある。この実施形態では、スマートフォン1108がウェブサイトコンピューティングデバイス1104からアプリケーション1120Aを受信し、タブレット1110がアプリケーション配信コンピューティングデバイス1106からアプリケーション1120Bを受信する。
【0071】
ウェブサイト及びアプリケーション配信例の両方の現在のパラダイムでは、ネットワークフレームワーク1116がエッジデバイスに通信されない。エッジデバイスは、エッジデバイスに代わって実行されるネットワークフレームワーク1116へのアクセスを(それぞれのアプリケーションインターフェースを介して)与える。例えば、ウェブサイトコンピューティングデバイスはアプリケーション1120Aのためのネットワークフレームワーク1116を実行し、クラウドコンピューティングデバイスは、アプリケーション1120Bのために実行する。アプリケーション1120A及び1120Bは、それぞれの実施形態において、ヘアスタイルの試着(エフェクトシミュレーションアプリケーション)のために構成され、仮想および/または拡張現実体験(virtual and/or augmented reality experience)を提供する。動作は、本明細書において以下で更に説明される。
【0072】
図12は、代表的なコンピューティングデバイス1200のブロック図である。図11のコンピューティングデバイスは同様に、それらのそれぞれの必要性および機能に従って構成される。コンピューティングデバイス1200は処理ユニット1202(例えば、1又は複数のプロセッサ、例えば、CPU及び/若しくはGPU、又は、他のプロセッサ等、一実施形態では少なくとも1つのプロセッサを備える)、コンピュータ可読命令(およびデータ)を記憶する記憶デバイス1204(一実施形態では、少なくとも1つの記憶デバイスであり、メモリを備えることができる)を備え、コンピュータ可読命令(およびデータ)は処理ユニット(例えば、プロセッサ)によって実行されると、例えば、コンピューティングデバイスに方法を実行させる。記憶デバイス804はメモリデバイス(例えば、RAM、ROM、EEPROM等)、ソリッドステートドライブ(例えば、フラッシュメモリを定義できる半導体記憶デバイス/ICを備える)、ハードディスクドライブ又は他の種類のドライブ及びテープ、ディスク(例えば、CD-ROM等)等の記憶媒体のうちのいずれかを含むことができ、追加の構成要素は、有線または無線手段を介してデバイスを通信ネットワークに結合するための通信ユニット1206、入力デバイス1208、表示デバイス1212を備えることができる出力デバイス1210を含む。いくつかの例では、表示デバイスが入力/出力デバイスを提供するタッチスクリーンデバイスである。コンピューティングデバイス1200の構成要素は、追加のデバイスに結合するための外部ポートを有し得る内部通信システム1214を介して結合される。
【0073】
いくつかの例では、出力デバイスがスピーカ、ベル、ライト、オーディオ出力ジャック、指紋リーダ等を備える。いくつかの例では、入力デバイスがキーボード、ボタン、マイクロフォン、カメラ、マウス又はポインティングデバイス等を備える。他のデバイス(図示せず)は位置決定デバイス(例えば、GPS)を備え得る。
【0074】
記憶デバイスは、一例ではオペレーティングシステム1216、ユーザアプリケーション1218(アプリケーション1120A又は1120Bのうちの1つであり得る)、ウェブサイトをブラウズし、アプリケーション1120A等の実行可能体(executables)を実行して、ウェブサイトから受信されたGAN生成器1116にアクセスするためのブラウザ1220(ユーザアプリケーションのタイプ)、並びに、カメラからの画像および/もしくはビデオフレーム、又は、他の手法で受信されたデータを記憶するデータ822を備え得る。
【0075】
図11において、通信される(データ)項目(後述)は、コンピューティングデバイスと通信ネットワークとの間のそれぞれの通信接続に隣接して示される。特定のコンピューティングデバイスに隣接して位置付けられたアイテムは、そのデバイスによって受信され、通信ネットワークにより近くに位置付けられたアイテムは本明細書で以下に説明するように、それぞれのコンピューティングデバイスから別のデバイスに通信される。
【0076】
引き続き図11を参照すると、一例では、スマートフォン1108のユーザがブラウザを用いてウェブサイトコンピューティングデバイス1104によって提供されるウェブサイトを訪問する。スマートフォン1108はネットワークフレームワーク1116へのアクセスを提供するアプリケーション1120A(例えば、ウェブページ及び関連するコード及び/又はデータ)を受信する。この例では、アプリケーションが仮想および/または拡張現実体験を提供するアプリケーション上のヘアスタイルの試着等のエフェクトシミュレーションアプリケーションである。ユーザはカメラを用いて静止画像またはビデオ画像(例えば、自撮り画像)を取得し、このソース画像は、画像I 1122としてネットワークフレームワーク1116で処理するためのアプリケーションによって通信される。(ビデオとして提供される場合、単一の画像(例えば、静止画像)がそこから抽出され得る)。
【0077】
ユーザは、アプリケーション1120Aによってもたらされるグラフィカルユーザインターフェース等を介して記憶1124からの参照画像(例えば、画像I及びI)であって、試着すべきi)毛髪の形状および構造(画像I)、ii)毛髪の外観(画像I)及び(iii)毛髪のより細かいスタイル(画像I)を表す参照画像を選択する。i)、ii)及びiii)のそれぞれは、それぞれのヘアスタイル属性を含む。
【0078】
ヘアスタイルの試着のエフェクト(属性の特徴)は、画像I 1122に表されるアイデンティティを維持しながら、ネットワークフレームワーク1116を用いて、生成され及び/又は、結果として得られる画像(I)1226に移送される。得られた画像1226(I)は、スマートフォン1108に返送され、その表示デバイスを介して表示される。一実施形態では、IがIとの対比のためにグラフィカルユーザインターフェースに表示される。一実施形態では、IがI、I及びIの全てとの対比のために、グラフィカルユーザインターフェースに表示される。
【0079】
一実施形態では、結果として得られる画像1226が記憶デバイスに記憶される。一実施形態では、結果として得られる画像1226がソーシャルメディア、テキストメッセージ、電子メール等のいずれかを介して共有(通信)される。
【0080】
一実施形態では、ウェブサイトコンピューティングデバイス1104がサービス(例えば、電子商取引サービス)が可能であり、アプリケーション1120Aを介して仮想的に試着された参照画像に関連付けられた1若しくは複数の製品等のヘア製品またはヘアスタイル製品の購入を容易にする。一実施形態では、ウェブサイトコンピューティングデバイス1104がヘア製品またはヘアスタイル製品を推奨するための推奨サービスを提供する。一実施形態では、ウェブサイトコンピューティングデバイス1104がサービス(例えば、ヘア又はヘアスタイリングサービス)を推奨するための推奨サービスを提供する。ヘア又はヘアスタイル製品は、シャンプー、コンディショナー、オイル、血清(serum)、ビタミン、ミネラル、酵素および他のヘア又は頭皮トリートメント製品;カラーリング剤;スプレー、ジェル、ワックス、ムース及び毛髪への適用のための他のスタイリング製品;コーム、ブラシ、ヘアドライヤー、カーリングワンド(curling wands)、ストレートワンド(straightening wands)、フラットアイロン(flat irons)、ハサミ、カミソリ、ローラー、マッサージツール等のヘア又は頭皮ツール又は器具;並びに、クリップ、ヘアタイ、スクランシー、バンド等を含むアクセサリーを含むことができる。ヘア又はヘアスタイルサービスは、カッティング、カラーリング、スタイリング、ストレートニング(straightening)又は他の毛髪および頭皮トリートメント、脱毛、毛髪交換/かつらサービス、並びにそれらのための相談(consultations)を含むことができる。
【0081】
一実施形態では、アプリケーション1120Aが画像I 1122を含み得るヘアスタイル、ライフスタイル及び/又はユーザデータを得るために、会話方式でユーザに関与するためのインターフェースを提供する。一実施形態では、データが分析され、推奨が生成される。推奨は、記憶1124からの参照画像の選択を含むことができる。参照画像のペア(例えば、特定の推奨Iを有する特定の推奨I)が、全推奨ヘアスタイルのために提示されても良い。場合によっては、推奨される画像I及びIが、推奨される毛髪のスタイルおよび構成と毛髪の外観およびより細かいスタイルとの両方を示す単一の画像のように、同じ画像である場合もある。
【0082】
一実施形態では、アプリケーション1120Aがユーザ提供の参照画像I及びIを受信するためのインターフェースを提供する。例えば、ユーザはヘアスタイルの例をスマートフォン1108に配置(又はカメラを介して生成)し、記憶できる。ユーザは結果画像1126に表されるヘアスタイルの試着を生成するのに用いるために、参照画像(まとめて1128)をウェブサイト1104にアップロードできる。
【0083】
引き続き図11を参照すると、一例では、タブレット1110のユーザがブラウザを用いてアプリケーション配信コンピューティングデバイス1106によって提供されるウェブサイトを訪問する。タブレット1110は、ネットワークフレームワーク1116へのアクセスを提供するアプリケーション1120Bを受信する。アプリケーション1120Bは、一例ではアプリケーション1120Aと同様に構成される。ユーザはカメラを用いて静止画像またはビデオ画像(1130)(例えば、自撮り画像)を取得し、この画像は、画像Iとして用いられ、クラウドコンピューティングデバイス1105におけるGAN生成器による処理のために通信される。本実施形態では、タブレット1110のユーザが画像I及びI(まとめて1132)もアップロードする。画像1132は、アプリケーション1120Bによって推奨されるか、ユーザによって配置され得る。結果として得られる画像1134は、タブレット1110の表示デバイスを介して通信され、表示され、記憶デバイスに記憶され、ソーシャルメディア、テキストメッセージ、電子メール等を介して共有(通信)され得る。
【0084】
アプリケーション1120Bは、一実施形態ではヘアスタイルに関連付けられ得る製品および/またはサービスの推奨および/または購入促進のためのサービスへの1又は複数のインターフェースをタブレット1110に提供するように構成される。
【0085】
一例では、アプリケーション1120Bがフォトギャラリーアプリケーションである。ヘアスタイルエフェクトは、フレームワーク1116を用いて参加者のカメラからのユーザ画像(画像Iの例)等に適用される。アプリケーション1120Bは、ユーザが画像I及びIの選択を容易できる。例えば、フォトギャラリーアプリケーションに関連するデータストア(例えば、タブレット1110の記憶デバイス)から又はインターネット若しくは他のデータストア(例えば、推奨サービスを介した)から。
【0086】
従って、一実施形態では、ネットワークフレームワーク1116がヘアスタイルの移送を実行して、第1画像からのアイデンティティと、第2画像からの第1ヘアスタイル属性と、第3画像からの少なくとも1つの第2ヘアスタイル属性とを含む合成画像を生成するように構成される。ネットワークフレームワーク1116は、編集可能なヘアスタイルの移送、a)毛髪の形状および構造の解きほぐし特徴、並びに、b)毛髪の外観およびより細かいスタイルを提供するように構成され、それによって、移送する毛髪属性の選択を可能にする。一実施形態では、ネットワークフレームワークが2段階最適化を用いて、スタイル属性を互いから解きほぐすための移送を実行する。実施形態ではネットワークフレームワークが合成画像(I)を生成し、最適化の第1段階では第1画像(I)の顔からのアイデンティティをIの顔領域に、第2画像(I)の毛髪領域からの毛髪の形状および構造属性をIの毛髪領域にそれぞれ再構成する。更に第2段階では、ネットワークフレームワークが、第3画像(I)の毛髪領域からの毛髪の外観属性およびより細かいスタイル属性のそれぞれを、第1段階で再構成されたIの毛髪領域に移送する。一実施形態では、インペインティングはIの背景から等、背景領域を充填する。
【0087】
一実施形態では、ネットワークフレームワークがIで表される少なくとも1つのスタイル属性と、Iで表される少なくとも1つのスタイル属性とを解きほぐすために、2段階最適化において勾配直交化を実行するように構成される。
【0088】
一実施形態では移送されるスタイルがヘアスタイルである場合、Iで表される少なくとも1つのスタイル属性は毛髪の形状および構造属性であり、Iで表される少なくとも1つのスタイル属性はi)外観属性およびii)より細かいスタイル属性である。
【0089】
一実施形態では、2段階最適化が、アイデンティティ再構成損失(L)、毛髪の形状および構造再構成損失(L)、外観損失(L)、並びに、より細かいスタイル損失(L)を含む損失を最適化する。一実施形態ではL及びLが、L及びLを最適化することなく第1段階で最適化され、L、L、L及びLが第2段階で最適化され、LがIの外観およびより細かいスタイル属性とIのそれらの属性との間の競合を回避するために勾配直交化を介して最適化される。
【0090】
本明細書の実施形態は主にヘアスタイルの移送を参照して説明されるが、複数のスタイル属性について、他のスタイルの移送が実行されても良い。一実施形態によれば、人工知能(AI)を用いてスタイル移送を実行する方法が提供され、スタイルは複数のスタイル属性を含む。本方法は、第1画像(I)、第2画像(I)及び第3画像(I)を含む複数の画像を、生成的敵対ネットワーク(GAN)生成器と、第1画像(I)で表されるアイデンティティ、第2画像(I)で表される少なくとも1つのスタイル属性から決定されるスタイル及び第3画像(I)で表される少なくとも1つのスタイル属性とを含む合成画像(I)を生成するための2段階最適化とを備えるAIネットワークフレームワークを用いて処理することを含む。この方式では、ネットワークフレームワークがIで表される少なくとも1つのスタイル属性とIで表される少なくとも1つのスタイル属性とを解きながら、スタイル移送を実行するためにGANの潜在空間を最適化するように構成される。一実施形態ではIがアイデンティティ領域、スタイル領域および背景領域とを備え、潜在空間を最適化する目的関数に従って第1段階においてネットワークフレームワークが、Iで表されるアイデンティティをIのアイデンティティ領域に再構成し、Iで表される少なくとも1つのスタイル属性をIのスタイル領域に再構成するように構成される。一実施形態では目的機能による第2段階においてネットワークフレームワークは、Iで表される少なくとも1つのスタイル属性のそれぞれをIのスタイル領域にそれぞれ移送するように構成される。
【0091】
ヘアスタイルの移送等の実施形態では、IのアイデンティティがI、I及びIとの間で一意(unique)であるとき、完全なヘアスタイルの移送が可能になる。ヘアスタイルの移送等の実施形態では、Iの毛髪の形状および構造がI、I及びIとの間で一意であるとき、少なくとも形状および構造に関連するヘアスタイルの移送が可能になる。ヘアスタイルの移送等の実施形態では、Iの毛髪の外観がI、I及びIとの間で一意であるとき、少なくとも外観に関連するヘアスタイルの移送が可能になる。ヘアスタイルの移送等の実施形態では、Iのより細かいスタイルがI、I及びIとの間で一意であるとき、少なくとも毛髪のより細かい細部に関連するヘアスタイルの移送が可能になる。
【0092】
一実施形態では、該方法がセグメンテーションネットワークを用いてI、I、I及びIをそれぞれ処理し、それぞれの画像についてそれぞれの毛髪(スタイル)マスク及び顔(アイデンティティ)マスクを定義し、そのようなマスクのうちの選択された1つを用いて、スタイルを移送するためのそれぞれのターゲットマスクを定義することを含む。
【0093】
一実施形態によると、GAN生成器は最初に、スタイル移送を受信するための平均画像(mean image)としてIを生成する。
【0094】
一実施形態では、アイデンティティが事前訓練されたニューラルネットワーク符号器を用いてIを処理することで抽出された高レベル特徴を用いて再構成される。ヘアスタイルの移送における一実施形態では、毛髪の形状および構造が事前訓練されたニューラルネットワーク符号器を用いてIを処理することで生成された後のブロックからの特徴を用いて再構成される。ヘアスタイルの移送における一実施形態では、Iの毛髪領域が合成された毛髪のターゲットの配置にソフトな制約を課す侵食された毛髪領域である。ヘアスタイルの移送における一実施形態では毛髪の外観が事前訓練されたニューラルネットワーク符号器を用いてIを処理することで、第1ブロックで抽出された特徴から決定された全体的な外観を用いて移送され、全体的な外観は空間情報に関係なく決定される。ヘアスタイルの移送における一実施形態では、ヘアスタイルより細かいスタイルが事前訓練されたニューラルネットワーク符号器を用いてIを処理することで抽出された高レベル特徴マップに従って移送される。
【0095】
ヘアスタイルの移送における一実施形態では毛髪の外観は色を含み、より細かいスタイルは束のスタイルのいずれかと、毛髪ストランド間のシェーディング変化とを含むより細かい詳細を含む。
【0096】
一実施形態では、方法がスタイル移送に関連する製品および/またはサービスを購入するための(電子商取引)サービスへのインターフェースを提供することを含む。
【0097】
一実施形態では、IがIとの対比のためにグラフィカルユーザインターフェース内に表示するために提供される。
【0098】
一実施形態では、方法がスタイル移送に関連する製品および/またはサービスを推奨するように構成されたサービスにインターフェースを提供することを含む。
【0099】
ヘアスタイルの移送における一実施形態では、方法がIを受信するためのインターフェースを提供することと、毛髪の形状および構造ならびに毛髪外観およびより細かいスタイルを含むヘアスタイルのようなそれぞれのスタイル属性を示す参照画像の記憶(store)を提供することと、参照画像のうちの1つからのIを定義するための入力を受信するための選択インターフェースを提供することと、参照画像のうちの1つからIを定義するための入力を受信するための選択インターフェースを提供することとを含む。一実施形態において(例えば、ヘアスタイルの移送において)、参照画像の記憶以外からI及びIの一方または両方を受信するためのインターフェースを提供することを含む。
【0100】
一実施形態では、アイデンティティ画像(例えば、I)に対して仮想的なヘアスタイルの試着を実行するためのネットワークフレームワークと、アイデンティティ上のヘアスタイルをシミュレートするための異なるヘアスタイル属性を表す複数の参照画像(例えば、I及びI)とを提供するように構成され、アイデンティティ及びヘアスタイルを仮想的なヘアスタイルの試着を表す合成画像(例えば、I)に組み込むときに、異なるヘアスタイル属性を解きほぐして現実的な合成された毛髪を提供する最適化を実行するように構成されたネットワークフレームワークと、提示のために合成画像を提供するように構成されたネットワークフレームワークとを備えるコンピュータ装置が提供される。一実施形態では、回路がヘア若しくはヘアスタイルの製品、サービス又はその両方を購入するためのインターフェースと、そのような製品、サービス又はその両方のための推奨を生成するためのインターフェースとを提供するように構成される。
<結論>
【0101】
実施形態によれば、ポートレート画像に対してヘアスタイルの移送を実行する最適化フレームワークであるLOHOの導入は、事前訓練されたGANを用いた空間依存の属性操作の方向におけるステップをとる。顔合成のようなより一般的なタスクで訓練された表現モデルの潜在空間を操作することにより、ヘアスタイルの移送のような特定の合成タスクに近づくアルゴリズムを開発することは、大きな訓練データセットを収集することなく多くの下流タスクを完了するのに有効であることを示した。GAN反転アプローチは、大きな訓練データセットへのアクセスを有するフィードフォワードGANパイプラインよりも、現実的な穴の充填等の問題をより効果的に解決できる。
【0102】
実用的な実装は、本明細書に記載される特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴及び様々な組合せは、機能を実行するための方法、機器、系、手段及び本明細書で説明する特徴を組み合わせる他の方法として表され得る。いくつかの実施形態について説明した。それにもかかわらず、本明細書に記載されるプロセスおよび技法の趣旨および範囲から逸脱することなく、様々な修正がなされ得ることが理解されよう。加えて、他のステップを提供でき又はステップを記載されたプロセスから排除でき、他の構成要素を記載されたシステムに追加するか又はそこから除去できる。従って、他の態様は特許請求の範囲の範囲内にある。
【0103】
本明細書の説明および特許請求の範囲を通して、単語「含む(comprise)」及び「含む(contain)」及びそれらの変形は「含むが、限定されない(including but not limited to)」を意味し、他の構成要素、整数又はステップを排除することを意図しない(。本明細書全体を通して、単数形は文脈が他のことを必要としない限り、複数形を包含する。特に、不定冠詞が用いられる場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。
【0104】
本発明の特定の態様、実施形態又は実施例に関連して説明される特徴、整数、特性又は群はそれらと互換性がない場合を除き、任意の他の態様、実施形態又は実施例に適用可能であると理解されるべきである。本明細書に開示される特徴の全て(任意の添付の特許請求の範囲、要約及び図面を含む)及び/又はそのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴及び/又はステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の任意の例または実施形態の詳細に限定されない。本発明は、本明細書(添付の特許請求の範囲、要約および図面を含む)に開示される特徴の任意の新規な1又は任意の新規な組み合わせ又は開示される任意の方法またはプロセスのステップの任意の新規な1又は任意の新規な組み合わせに及ぶ。

参考文献-その全体が参照により本明細書に組み込まれる。
[1]Rameen Abdal, Yipeng Qin, and Peter Wonka. Image2stylegan:How to embed images into the stylegan latent space? In 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019.

[2]R. Abdal, Y. Qin, and P. Wonka. Image2stylegan++: How to edit the embedded images? In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 8293-8302, 2020.

[3]Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. In International Conference on Learning Representations, 2019.

[4]Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem? (and a dataset of 230,000 3d facial landmarks). In International Conference on Computer Vision, 2017.

[5]Egor Burkov, Igor Pasechnik, Artur Grigorev, and Victor Lempitsky. Neural head reenactment with latent pose descriptors. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.

[6]Menglei Chai, Linjie Luo, Kalyan Sunkavalli, Nathan Carr, Sunil Hadap, and Kun Zhou. High-quality hair modeling from a single portrait photo. ACM Transactions on Graphics, 34:1-10, 10 2015.

[7]Menglei Chai, Lvdi Wang, Yanlin Weng, Xiaogang Jin, and Kun Zhou. Dynamic hair manipulation in images and videos. ACM Transactions on Graphics (TOG), 32, 07 2013.

[8]Menglei Chai, Lvdi Wang, Yanlin Weng, Yizhou Yu, Baining Guo, and Kun Zhou. Single-view hair modeling for portrait manipulation. ACM Transactions on Graphics, 31, 07 2012.

[9]Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei A Efros. Everybody dance now. In IEEE International Conference on Computer Vision (ICCV), 2019.

[10]L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2414-2423, 2016.

[11]Ke Gong, Yiming Gao, Xiaodan Liang, Xiaohui Shen, Meng Wang, and Liang Lin. Graphonomy: Universal human parsing via graph transfer learning. In CVPR, 2019.

[12]Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2, NIPS'14, page 2672-2680, 2014.

[13]Shanyan Guan, Ying Tai, Bingbing Ni, Feida Zhu, Feiyue Huang, and Xiaokang Yang. Collaborative learning for faster stylegan embedding, 2020.

[14]Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30, pages 6626-6637. Curran Associates, Inc., 2017.

[15]P. Isola, J. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5967-5976, 2017.

[16]Youngjoo Jo and Jongyoul Park. Sc-fegan: Face editing generative adversarial network with user's sketch and color. In The IEEE International Conference on Computer Vision (ICCV), October 2019.

[17]Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In European Conference on Computer Vision, 2016.

[18]Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. In International Conference on Learning Representations,
2017.

[19]T. Karras, S. Laine, and T. Aila. A style-based generator architecture for generative adversarial networks. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[20]Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of StyleGAN. In Proc. CVPR, 2020.

[21]Vladimir Kim, Ersin Yumer, and Hao Li. Real-time hair rendering using sequential adversarial networks. In European Conference on Computer Vision, 2018.

[22]Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In International Conference on Learning Representations, 2015.

[23]Cheng-Han Lee, Ziwei Liu, Lingyun Wu, and Ping Luo. Maskgan: Towards diverse and interactive facial image manipulation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

[24]J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan. Perceptual generative adversarial networks for small object detection. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1951-1959, 2017.

[25]T. Park, M. Liu, T. Wang, and J. Zhu. Semantic image synthesis with spatially-adaptive normalization. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2332-2341, 2019.

[26]Stanislav Pidhorskyi, Donald A Adjeroh, and Gianfranco Doretto. Adversarial latent autoencoders. In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2020. [to appear]

[27]Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, and Daniel Cohen-Or. Encoding in style: a stylegan encoder for image-to-image translation. arXiv preprint arXiv:2008.00951, 2020.

[28]Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations, 2015.

[29]C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2818-2826, 2016.

[30]Zhentao Tan, Menglei Chai, Dongdong Chen, Jing Liao, Qi Chu, Lu Yuan, Sergey Tulyakov, and Nenghai Yu. Michigan: Multi-input-conditioned hair image generation for portrait editing. ACM Transactions on Graphics (TOG), 39(4):1-13, 2020.

[31]A. Tao, K. Sapra, and Bryan Catanzaro. Hierarchical multi-scale attention for semantic segmentation. ArXiv, abs/2005.10821, 2020.

[32]T. Wang, M. Liu, J. Zhu, A. Tao, J. Kautz, and B. Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8798-8807, 2018.

[33]Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu, Jan Kautz, and Bryan Catanzaro. Few-shot video-to-video synthesis. In Advances in Neural Information Processing Systems (NeurIPS), 2019.

[34]Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. Video-to-video synthesis. In Conference on Neural Information Processing Systems (NeurIPS), 2018.

[35]Yanlin Weng, Lvdi Wang, Xiao Li, Menglei Chai, and Kun Zhou. Hair interpolation for portrait morphing. Computer Graphics Forum, 32, 10 2013.

[36]J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. Huang. Freeform image inpainting with gated convolution. In 2019 IEEE/CVF International Conference on Computer Vision
(ICCV), pages 4470-4479, 2019.

[37]Yuhui Yuan, Xilin Chen, and Jingdong Wang. Object-contextual representations for semantic segmentation. In Computer Vision - ECCV 2020, pages 173-190, 2020.

[38]E. Zakharov, A. Shysheya, E. Burkov, and V. Lempitsky. Few-shot adversarial learning of realistic neural talking head models. In 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 9458-9467, 2019.

[39]Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, 2018.

[40]J. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2242-2251, 2017.

[41]Jiapeng Zhu, Yujun Shen, Deli Zhao, and Bolei Zhou. In-domain gan inversion for real image editing. In Proceedings of European Conference on Computer Vision (ECCV), 2020.
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
【手続補正書】
【提出日】2023-11-15
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
人工知能(AI)を用いてスタイル移送を実行する方法であって、
前記スタイルは複数のスタイル属性を含み、
第1画像(I)、第2画像(I)及び第3画像(I)を含む複数の画像を、生成的敵対ネットワーク(GAN)生成器と、前記第1画像(I)で表されるアイデンティティ、前記第2画像(I)で表される少なくとも1つのスタイル属性から決定されるスタイル及び前記第3画像(I)で表される少なくとも1つのスタイル属性を含む合成画像(I)を生成するための2段階最適化とを備えるAIネットワークフレームワークを用いて処理し、
前記ネットワークフレームワークは、Iで表される少なくとも1つの前記スタイル属性およびIで表される少なくとも1つの前記スタイル属性を解きほぐしながら、前記スタイル移送を実行するために前記GANのモデルの潜在空間を最適化するように構成されることを特徴とする方法。
【請求項2】
は、アイデンティティ領域、スタイル領域および背景領域を含み、
前記潜在空間を最適化するための目的関数に従った第1段階において前記ネットワークフレームワークは、
で表される前記アイデンティティをIの前記アイデンティティ領域に再構成し、
で表される少なくとも1つの前記スタイル属性をIの前記スタイル領域に再構成するものであることを特徴とする請求項1記載の方法。
【請求項3】
前記目的関数による第2段階において前記ネットワークフレームワークは、Iで表される少なくとも1つの前記スタイル属性のそれぞれをIの前記スタイル領域に移送することを特徴とする請求項2記載の方法。
【請求項4】
前記ネットワークフレームワークが、Iで表される少なくとも1つの前記スタイル属性と、Iで表される少なくとも1つの前記スタイル属性とを解きほぐすために、前記2段階最適化において勾配直交化を実行するように構成されることを特徴とする請求項1からのいずれかに記載の方法。
【請求項5】
前記スタイルはヘアスタイルであり、
で表される少なくとも1つの前記スタイル属性は毛髪の形状および構造属性であり、
で表される少なくとも1つの前記スタイル属性はi)外観属性およびii)より細かいスタイル属性であることを特徴とする請求項1からのいずれかに記載の方法。
【請求項6】
前記ネットワークフレームワークが、編集可能なヘアスタイルの移送、a)毛髪の形状および構造の解きほぐし特徴、並びに、b)毛髪の外観およびより細かいスタイルを提供するように構成され、それによって、移送する毛髪属性の選択を可能にすることを特徴とする請求項1記載の方法。
【請求項7】
の前記アイデンティティは、I、I及びIとの間で一意であり、それによって、完全なヘアスタイル移送を実行し、
の前記毛髪の形状および構造は、I、I及びIとの間で一意であり、それによって、少なくとも形状および構造に関連するヘアスタイルの移送を実行し、
の前記毛髪の外観は、I、I及びIとの間で一意であり、それによって、少なくとも外観に関連するヘアスタイルの移送を実行し、
の前記毛髪のより細かいスタイルは、I、IとI との間で一意であり、それによって、少なくとも毛髪のより細かい細部に関連するヘアスタイルの移送を実行することを特徴とする請求項記載の方法。
【請求項8】
、I、I及びIはそれぞれ、セグメンテーションネットワークを用いて、それぞれの画像についてそれぞれの毛髪(スタイル)マスク及び顔(アイデンティティ)マスクを定義し、そのようなマスクのうちの選択された1つを用いて、スタイルを移送するためのそれぞれのターゲットマスクを定義することを特徴とする請求項1記載の方法。
【請求項9】
前記GAN生成器は、前記スタイル移送を受信するための平均画像としてIを最初に生成し、
記アイデンティティが、事前訓練されたニューラルネットワーク符号器を用いてIを処理することで抽出された高レベル特徴を用いて再構成され、
アスタイル移送において、事前訓練された前記ニューラルネットワーク符号器を用いてIを処理することで生成された後のブロックからの特徴を用いて、毛髪の形状および構造が再構成されることを特徴とする請求項記載の方法。
【請求項10】
ヘアスタイルの移送において、毛髪の外観が色を含み、より細かいスタイルが束のスタイル及び毛髪ストランド間のシェーディング変化のいずれかを含むより細かい詳細を含むことを特徴とする請求項1記載の方法。
【請求項11】
ヘア製品もしくはヘアスタイル製品、ヘアサービス若しくはヘアスタイリングサービス又はこれらの両方を購入するための電子商取引サービスへのインターフェースを提供すること、又は、前記ヘア製品または前記ヘアスタイル製品、前記ヘアサービス若しくは前記ヘアスタイリングサービス又はこれらの両方を推奨するように構成されたインターフェースとのいずれかを含むことを特徴とする請求項1記載の方法。
【請求項12】
前記Iは、Iとの対比のためにグラフィカルユーザインターフェース内に表示するために提供されることを特徴とする請求項1記載の方法。
【請求項13】
を受信するためのインターフェースを提供することと、
毛髪の形状および構造ならびに毛髪外観およびより細かいスタイルを含むヘアスタイルのようなそれぞれのスタイル属性を示す参照画像の記憶を提供することと、
前記参照画像のうちの1つからIを定義するための入力を受け取るための選択インターフェースを提供することと、
前記参照画像のうちの1つからのIを定義するための入力を受け取るための選択インターフェースを提供することとを含むことを特徴とする請求項1記載の方法。
【請求項14】
プロセッサと、前記プロセッサによって実行されるコンピュータ可読命令を記憶する記憶デバイスとを備えるコンピューティングデバイスであって、
人工知能(AI)ネットワークフレームワークを介してヘアスタイル移送することであって、参照画像から第1画像(I)の顔からのアイデンティティが移送された毛髪属性を含む合成画像(I)を生成する生成的敵対ネットワーク(GAN)生成器を備え、
前記毛髪属性は、i)毛髪の形状および構造、ii)毛髪の外観およびiii)毛髪のより細かいスタイルを含むものであり、
前記ネットワークフレームワークは、潜在空間を最適化して、前記毛髪属性であるi)毛髪形状および構造を、ii)毛髪外観およびiii)毛髪のより細かいスタイルから解きほぐすように構成されることを特徴とするコンピューティングデバイス。
【請求項15】
前記参照画像は、第2画像(I)及び第3画像(I)を含み、
、I及びIはそれぞれポートレート画像で構成され、
前記ネットワークフレームワークは、Iから抽出された毛髪の形状と構造およびIから抽出された毛髪の外観と毛髪のより細かいスタイルのそれぞれを用いることを特徴とする請求項14記載のコンピューティングデバイス。
【請求項16】
前記GAN生成器は、前記潜在空間の最適化が前記毛髪属性を解きほぐすことを可能にするように、2段階最適化および勾配直交化を用いて訓練されることを特徴とする請求項14又は15に記載のコンピューティングデバイス。
【請求項17】
前記命令が実行されると、前記コンピューティングデバイスに、
ヘアスタイルに関連付けられた製品および/またはサービスを購入するための電子商取引サービスへのインターフェースと、ヘア製品もしくはヘアスタイル製品、ヘアサービス若しくはヘアスタイリングサービス又はこれらの両方を推奨するためのインターフェースとの一方または両方を提供することをもたらすことを特徴とする請求項14から6のいずれかに記載のコンピューティングデバイス。
【請求項18】
前記命令が実行されると、前記コンピューティングデバイスに
を受信するインターフェースを提供し、
それぞれの毛髪属性を示す参照画像の記憶を提供し、
ヘアスタイルの移送のための毛髪属性を定義するために少なくとも1つの参照画像を選択するための入力を受信する選択インターフェースを提供することをもたらすことを特徴とする請求項14から17のいずれかに記載のコンピューティングデバイス。
【請求項19】
路を備えるコンピューティングデバイスであって、
記回路が動作すると、前記コンピューティングデバイスに、
アイデンティティ画像と、アイデンティティ上のヘアスタイルをシミュレートするための異なるヘアスタイル属性を表す複数の参照画像とに対して仮想的なヘアスタイルの試着を実行するためのネットワークフレームワークを提供し、
前記ネットワークフレームワークは前記アイデンティティ及びヘアスタイルを仮想的なヘアスタイルの試着を表す合成画像に組み込むときに現実的な合成された毛髪を提供するために異なる前記ヘアスタイル属性を解きほぐす最適化を実行し、
提示のために前記合成画像を提供することをもたらすことを特徴とするコンピューティングデバイス。
【請求項20】
前記回路が動作すると、前記コンピューティングデバイスに、
ヘア製品もしくはヘアスタイル製品、ヘアサービス若しくはヘアスタイリングサービス又はこれらの両方を推奨するためのインターフェースを提供することと、ヘア又はヘアスタイルの推薦を生成するインターフェースを提供することとのうちの少なくとも1つをもたらすことを特徴とする請求項19記載のコンピューティングデバイス。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
《相互参照》
本出願は2021年3月3日に出願された米国仮出願第63/155,842号の優先権を主張し、その全体が参照により本明細書に組み込まれる。本出願はまた、2022年3月2日に出願されたフランス特許出願第2201829号の優先権も主張するものであり、その全内容は参照により本明細書に組み込まれる。
【0002】
本出願は画像処理のためのコンピュータ処理、画像処理およびニューラルネットワークの改善に関し、より詳細には反転GAN(reverse GANs)を用いたスタイルの試着(try-on)、特にヘアスタイルの試着のためのシステム、方法および技法に関するものである。
【背景技術】
【0003】
ニューラルネットワークを用いた画像のコンピュータ処理は、効果(effects)のシミュレーションのための新しい手段を開いた。生成的敵対ネットワーク(generative adversarial networks、GAN)の進歩は、条件付き[15,32]と無条件[19]の両方の写実的な(photorealistic)画像の合成を可能にする。並行して、最近の研究は、分離された(disentangled)特徴表現(feature representations)を学習することで、印象的な潜在空間(latent space)の操作を達成し[26]、写実的なグローバル及びローカル画像の操作を可能にしている。
【0004】
しかしながら、フォトリアリズム(photorealism)を維持しながら、合成画像の属性の制御された操作を達成することは、依然として未解決の課題である。
【発明の概要】
【0005】
ヘアスタイルの移送(transfer)を含むスタイルの移送は、毛髪等のソース(source)及びターゲット(target)のオブジェクトの構造の違いのため困難である。一実施形態では、直交化を介したヘアスタイルの潜在的最適化(Latent Optimization of Hairstyles via Orthogonalization、LOHO)が、ヘアスタイルの移送中に潜在空間(latent space)内の毛髪の構造の詳細を充填するためのGAN反転(GAN inversion)を用いる最適化ベースのアプローチである。毛髪は知覚構造(例えば、形状)、外観およびより細かいスタイル(finer style)の3つの属性に分解され、これらの属性のそれぞれを独立してモデル化するために調整された損失を含む。2段階最適化(Two-stage optimization)及び勾配直交化(gradient orthogonalization)は、3つの毛髪属性の分離された潜在空間の最適化を可能にする。潜在空間の操作のためにLOHOを用いることで、ユーザは個々に又は共同で毛髪属性を操作し、ヘアスタイルから所望の属性を移送して、新規の写実的な(photorealistic)画像を合成できる。一実施形態ではLOHOアプローチ(例えば、スタイル属性が分離した潜在空間の最適化に対する2段階最適化および勾配直交化)は、衣服等の他のスタイルの移送への一般化が可能である。
【図面の簡単な説明】
【0006】
図1】A、B、C、D及びEは、一実施形態に従って合成されたヘアスタイル転写サンプルを示すための画像100,102,104,106及び108である。
図2】一実施形態による、背景ブレンディングを伴う2段階ネットワーク構造のフレームワークである。
図3】は、一実施形態による2段階最適化の効果を示す画像アレイである。
図4】は、一実施形態による勾配直交化(GO)の効果を示す画像アレイである。
図5】A及びBは、一実施形態によるGOの効果を示すグラフである。
図6】一実施形態によるMichiGANおよびLOHOの定性的比較を示す画像アレイである。
図7】一実施形態による個々の属性編集を表す例の画像アレイを示す。
図8】一実施形態による複数の属性編集を表す例の画像アレイを示す。
図9】A及び9Bは、一実施形態による位置ずれの例を示す画像アレイである。
図10】A及びBは、一実施形態によるヘアディテールキャリーオーバーの例を示す画像アレイである。
図11】一実施形態によるコンピュータネットワークの図である。
図12】一実施形態による代表的なコンピューティングデバイスのブロック図である。
【0007】
【0008】
【0009】
【0010】
【0011】
【0012】
【0013】
【0014】
【0015】
【0016】
【0017】
【発明を実施するための形態】
【0018】
様々な実施形態が、ヘアスタイルの移送(transfer)に関して本明細書で詳述される。他のスタイルの移送タスクが、本明細書で説明され、他のスタイルの移送タスクに適合される技法、方法および装置を用いて実装され得ることが、当業者によって理解されるのであろう。
【0019】
一実施形態では、ユーザが細粒度な(fine-grained)制御を用いて、自分のポートレート画像に対してセマンティック(semantic)かつ構造的な(structural)編集を行うことができる。特定の困難で(challenging)商業的に魅力的な例として、ヘアスタイルの移送が評価され、本明細書で説明され、ユーザは、複数の独立したソース画像(source images)から毛髪属性を移送して、自身のポートレート画像を操作できる。一実施形態では、直交化を介したヘアスタイルの潜在的最適化(Latent Optimization of Hairstyles via Orthogonalization、LOHO)が生成的敵対ネットワーク(generative adversarial network、GAN)[12,18]等の生成モデルの潜在空間における2段階最適化(two-stage optimization)プロセスである。例示的な技術的貢献は、1つの属性の適用(application)が他の属性と干渉しないように、移送された属性の勾配(gradients)を直交化することで属性の移送が制御されることである。
【0020】
ヘアスタイルの移送[30]に関する以前の研究は、GAN生成器(generators)の複雑なパイプラインを用いて、毛髪の外観(appearance)の現実的な移送をもたらし、それぞれは、毛髪の合成または背景のインペインティング(inpainting)等の特定のタスクに特化した。しかしながら、整列されていない(misaligned)毛髪マスク(hair masks)によって残された穴(holes)を充填するため、事前訓練された(pretrained)インペインティングネットワークを用いると、ぼやけた遺物(artifacts)が生じる。移送された毛髪の形状から、より現実的な合成を生成するために、一実施形態によれば、顔を生成するように事前訓練された単一のGANの事前分布(prior distributionを)呼び出すことにより、欠けている形状および構造の詳細が埋められる。
【0021】
LOHOは、前記のソース-ターゲットの毛髪の未整列(misalignment)の下でさえ、写実的なヘアスタイルの移送を達成する。LOHOは、事前訓練されたStyleGANv2[20]の拡張された潜在空間(latent space)とノイズ空間(noise space)とを直接最適化する。慎重に設計された損失関数を用いて、LOHOアプローチは毛髪を3つの属性、即ち知覚構造(例えば、形状)、外観およびより細かいスタイル(finer style)に分解する。次いで、これらの属性のそれぞれは、個々にモデル化され、それによって、合成プロセスに対するより良好な制御を可能にする。更に、LOHOは2段階最適化を採用することで、合成画像の品質を著しく改善し、各段階は、目的関数(objective function)における損失のサブセットを最適化する。損失のいくつかは、それらの類似の設計に起因して順次最適化され、LOHOアプローチの下で共同ではない。最後に、LOHOは、勾配直交化(gradient orthogonalization)を用いて、最適化プロセス中に毛髪属性を明示的に分離する。
【0022】
図1A、1B、1C、1D及び1Eは、一実施形態による、LOHOを用いて合成されたヘアスタイルの移送サンプルを示すための画像100,102,104,106及び108である。図1A及び1Dの所与のポートレート画像100及び106について、LOHOは、複数の入力条件に基づいて毛髪属性を操作できる。挿入画像(例えば、102A、104A及び18A)は、外観およびより細かいスタイル、構造ならびに形状の順序でターゲット毛髪属性を表す。LOHOは、背景を変化させずに、外観およびより微細なスタイル(例えば、図1Bに示される)ならびに知覚構造(例えば、図1Bに示される)を伝達できる。
【0023】
更に、LOHOは複数の毛髪属性を同時にかつ独立して変更できる(例えば、図1Cに示されるように)。
【0024】
LOHOアプローチの特徴に従って、以下が提供される:
・StyleGANv2の拡張された潜在空間およびノイズ空間を最適化することでヘアスタイルの移送を実行するための新しいアプローチ。
・各重要なヘアスタイル属性をモデル化するための複数の損失を含む目的関数。
・合成画像のフォトリアリズム(photorealism)の大幅な改善につながる2段階最適化の戦略。
・干渉(interference)のない潜在空間における属性を共同で最適化する一般的な手法への勾配直交化の導入。勾配直交化の有効性を定性的および定量的に実証した。
・計算されたフレシェ開始距離(Frechet Inception Distance、FID)スコアを用いた評価を用いた、実環境下での(in-the-wild)ポートレート画像上でのヘアスタイルの移送。FIDは、同じドメイン内の実画像と合成画像の開始(Inception)[29]特徴間の距離を計算することで生成モデルを評価するために用いられる。計算されたFIDスコアは、実施形態によるフレームワーク及び関連する方法および技術が現在の最新技術(state-of-the-art、SOTA)のヘアスタイルの移送結果より優れている可能性があることを示す。
《関連した研究》
【0025】
生成的敵対ネットワーク。生成モデル、特にGANは、画像から画像への変換[15,32,40]、ビデオの生成[34,33,9]及びオブジェクトの検出[24]等の識別タスク(discriminative tasks)のためのデータ拡張(data augmentation)等、様々なコンピュータビジョンアプリケーションに亘って非常に成功している。GAN[18,3]は、訓練データ(training data)の基礎となる分布を学習することで、潜在コード(latent code)を画像に変換する。より最近のアーキテクチャであるStyleGANv2[20]は、写実的な人間の顔を生成するためのベンチマークを設定している。しかしながら、そのようなネットワークを訓練することは、かなりの量のデータを必要とし、ヘアスタイルの移送等の特定の使用事例のためにSOTA-GANを訓練するための障壁を著しく高くさせる。その結果、事前訓練された生成器を用いて構築された方法は、様々な画像操作タスクを実行するための事実上の標準になりつつある。一実施形態では、StyleGANv2[20]が表現的な事前訓練された顔合成モデルとして活用され、制御された属性操作のために事前訓練された生成器を用いるための最適化アプローチが概説される。
【0026】
潜在空間の埋め込み。反転(inversion)を介したGANの潜在空間の理解および操作は、研究の活発な分野となっている。GAN反転は、GANの潜在空間に画像を埋め込むことを含み、その潜在的な埋め込み(latent embedding)から生じる合成画像が、元の画像の最も正確な再構成である。I2S[1]は、事前訓練されたStyle-GAN[19]の拡張された潜在空間W+を最適化することで画像を再構成できるフレームワークである。サンプリングされた埋め込みWは、StyleGANアーキテクチャの各レイヤに1つずつ、18の異なる512次元のwベクトルの連結である。I2S++[2]は、ノイズ空間Nを更に最適化することにより、画像の再構成品質を更に改善した。更に、I2S++フレームワークにセマンティック(semantic)マスクを含めることにより、ユーザは、画像のインペイントや全体的な編集等のタスクを実行できる。最近の手法[13,27,41]は、画像空間からの入力を潜在空間Wに直接マッピングする符号器(encoder)を学習する。一実施形態では、LOHOが近年のStyleGANv2のW空間およびノイズ空間Nを最適化して、ポートレート画像上の毛髪のセマンティック編集を実行するという点で、GAN反転に従う。一実施形態では、LOHOが属性の異なる競合目的(competing objectives)間の干渉を防止しながら、複数のソースからの毛髪構造等の空間的な局所属性の同時操作のために、GAN反転アルゴリズムを更に利用する。
【0027】
ヘアスタイルの移送。毛髪は、人間の顔のモデル化および合成が困難な部分である。毛髪のモデリングに関する以前の研究は、ヘアジオメトリ(hair geometry)[8,7,6,35]をキャプチャすること及びインタラクティブなヘア編集のためにこのヘアジオメトリを下流(downstream)で用いることを含む。しかしながら、これらの手法は、主要な視覚的要因をキャプチャできず、それによって結果の品質を損なう。最近の研究[16,23,21]は、毛髪生成のためのGANの使用に関する進歩を示したが、これらの手法は合成された毛髪に対する直感的な制御を可能にしない。MichiGAN[30]は、毛髪の制御された操作を可能にする条件的合成(conditional synthesis)GANを提案した。MichiGANは意図的なメカニズムと表現を指定することにより、毛髪を4つの属性に分離し、毛髪の外観変化に対するSOTA結果を生成する。それにもかかわらず、MichiGANは、任意の形状変化を伴う毛髪の移送シナリオを扱うことが困難である。
【0028】
これは、MichiGANが毛髪の移送プロセス中に生成された「穴」を充填するために、別々に訓練されたインペインティングネットワークを用いて形状変化を実施するからである。対照的に、本明細書の方法の態様は、事前訓練されたGANの事前分布を、ピクセル空間(pixel space)ではなく潜在空間において「充填」するように呼び出す。MichiGANと比較して、本明細書の方法の態様は、毛髪の形状が変化する困難な場合において、より現実的な合成画像を生成する。
<方法論>
《背景》
【0029】
Image2StyleGAN++(I2S++)[2]で提案された目的関数は:
【数1】
ここで、wはStyleGANの拡張された潜在空間Wにおける埋め込みであり、nはノイズベクトル埋め込みであり、M、M及びMは、各損失に寄与する画像領域を特定するためのバイナリマスクであり、◎(丸印の中心に黒点)は、アダマール積(Hadamard product)を表し、Gは、StyleGAN生成器であり、xは、マスクM、M及びM内で再構成する画像であり、yは、Mの外部、即ち(1-M)内で再構成する画像である。
【0030】
数式1におけるI2S++目的関数(objective function)の変化は画像再構成、画像クロスオーバ(image crossover)、画像インペインティング、ローカルスタイル移送および他のタスクを改善するために、[2]によって用いられる。ヘアスタイルの移送のために、画像クロスオーバ及び画像インペインティングの両方を行うことが望ましい。あるヘアスタイルを別の人に移すには、クロスオーバが必要であり、元の人の髪が塗りつぶされていた残りの領域が必要である。
《フレームワーク》
【0031】
図2は、一実施形態による、LOHOのための背景ブレンディング(インペインティング)200を有する2段階ネットワークフレームワークを示す。ネットワークフレームワーク200は訓練フレームワークとは対照的に、推論時間フレームワーク(inference time framework)を表す。GAN生成器202は、スタイルの移送のための事前訓練されたGANを備える。段階1(206)において、”平均(mean)”顔204(I)から開始して、ネットワークフレームワーク200は、(I(208)の)ターゲットアイデンティティ及び(I(210)からのヘアのターゲット知覚構造を再構成する。段階2(212)では、フレームワーク200が勾配直交化(GO)を介して知覚構造を維持しながら、I(214)からの)ターゲット毛髪のより細かいスタイル及び外観を移送する。最後に、Iは、Iの背景とブレンドされる。
【0032】
ヘアスタイルの移送問題に対して、人物の3つのポートレート画像が提供される:I、I及びI(208,210及び214)。人物2の(Iの)毛髪の形状および構造の属性、ならびに、人物3(Iの)毛髪の外観およびより細かいスタイルの属性を、人物1(Iの)に移送するのを考慮する。M (208A)をIの2値の顔面マスク(binary face mask)とし、M 、M 及びM (図示せず)をI、I及びIを2値の毛髪マスク(binary hear mask)とする。次に、M が約20%別々に拡張(dilated)および侵食(eroded)されて、拡張されたバージョンM h,d及び侵食されたバージョンM h,e(210A)を生成する。M h,ir≡M h,d-M h,eは、インペイントを必要とする無視領域(ignore region、例えば、顔なし、毛髪なしの背景)とする。この実施形態では、M h,irは最適化されておらず、むしろ、StyleGANv2(GAN生成器202)が呼び出されて、この領域内の関連する詳細をインペイントする。この特徴は、ネットワークフレームワーク200が人物1及び人物2の毛髪の形状が不整列な状況において、毛髪の形状の移送の実行を可能にする。
【0033】
2つの段階206及び212では、セグメンテーションネットワーク218を用いて、合成画像(それぞれ段階1 206への入力として及びそれが洗練され(refined)、段階2 212への入力として提供された後)と、入力画像(I、I及びI)とを処理することで、それぞれのセグメンテーションマスクを定義する。2つの段階206及び212では、一実施形態によれば、顔画像処理のための事前訓練されたCNN220(例えば、VGG[28])を用いて、更に説明するように高レベルの特徴を抽出する。
【0034】
実施形態200では、Iの背景が最適化されていない。従って、背景を回復(recover)するために、216において、本実施形態では、Iの背景は、合成画像Iの前景(foreground、毛髪および顔)とソフトブレンド(soft-blended)される。具体的には、本実施形態ではGatedConv[36](図示せず)を用いて、マスクされたIの前景領域をインペイントし、その後、ブレンディングを実行する。
《目的(Objective)》
【0035】
ヘアスタイルの移送を実行するために、合成画像の関連領域(relevant regions)を監視するために損失が用いられる。表記を単純に保つために、I≡G(W+N)合成画像とし、M (204A)及びM (204B)を対応する顔領域および髪領域とする。
【0036】
アイデンティティ(Identity)の再構成。人物1のアイデンティティを再構成するために、一実施形態では、学習知覚画像パッチ類似性(Learned Perceptual Image Patch Similarity、LPIPS)[39]損失が用いられる。LPIPSは人間の類似性判断に基づく知覚損失であり、従って、顔の再構成に良く適している。損失を計算するために、事前訓練されたVGG[28]220が、両方のための高レベル特徴(high-level feature)[17]を抽出するために用いられる。特徴は、一実施形態ではVGG220の5つのブロック全てから抽出され、合計されて、顔の再構成目的(reconstruction objective)を形成する:
【数2】
ここで、bはVGGブロックを表し、M ∩(1-M h,d)はM と拡張されたマスクM h,dの前景領域との間の重なりとして計算されたターゲットマスク(target mask)を表す。この数式2は、ターゲットマスクにソフトな制約を課す。
【0037】
毛髪の形状と構造の再構成。人物2の毛髪情報を回復するために、LPIPS損失を介して監視が実施される。しかしながら、M をターゲット毛髪マスクとして単純に(naively)用いると、生成器202は、Iの望ましくない領域の毛髪を合成する可能性がある。これは、特に、ターゲットの顔領域と毛髪領域とがうまく位置合わせされない場合に当てはまる。この問題を解決するために、侵食されたマスクM h,eは、合成された毛髪のターゲットの配置にソフトな制約(soft constraint)を課すために用いられる。M h,eは、M h,irと組み合わせされ、生成器は重なっていない領域(non-overlapping regions)に関連情報をインペイントすることで、位置ずれしたペアを処理できる。損失を計算するために、VGG220のブロック4及び5からの特徴が、I、Iの毛髪領域に対応して抽出され、毛髪の知覚構造目的(perceptual structure objective)を形成する:
【数3】
【0038】
毛髪の外観の移動。毛髪の外観は、毛髪の形状および構造とは無関係な、毛髪の全体的に一貫した色を指す。その結果、異なる毛髪形状のサンプルから移送できる。ターゲットの外観を移送するために、一実施形態では、64個の特徴マップが色情報を最も良く説明するように、VGG(relu1_1)の最も浅いレイヤから抽出される。次いで、各特徴マップの毛髪領域内で平均プーリング(average-pooling)が実行されて、空間情報(spatial information)を破棄し、全体的な外観(global appearance)をキャプチャする。R64×1の平均的な外観Aの推定値は、
【数4】
で得られ、ここでφ(x)は、画像xの64個のVGG特徴マップを表し、yは、関連する毛髪マスクを示す。最後に、二乗された(squared)L距離は、毛髪の外観目的を与えるために算出される:
【数5】
【0039】
毛髪のより詳細な移送。全体的な色に加えて、毛髪はまた、束のスタイル(wisp styles)及び毛髪ストランド(hair strands)間のシェーディング変化等のより細かい詳細を含む。このような詳細は、全体の平均を推定する外観損失だけではキャプチャできない。従って、より良好な近似が、毛髪ストランド間の様々なより微細なスタイルを計算するために必要とされる。グラムマトリクス(Gram matrix)[10]は、高レベル特徴マップ間の二次(second-order)関連付けを計算することで、より微細な毛髪の細部をキャプチャする。一実施形態では、グラムマトリクスがVGGの{relu1_2; relu2_2; relu3_3; relu4_4}のレイヤから特徴を抽出した後に計算される。
【数6】
ここで、γはRHW×Cにおけるレイヤlから抽出された特徴マップを表し、gはレイヤlのグラムマトリクスを表す。ここで、Cはチャンネル数を表し、HとWとは、それぞれ高さと幅とである。最後に、二乗されたL距離は、以下のように計算される。
【数7】
【0040】
ノイズマップの正則化(Noise Map Regularization)。ノイズマップn∈Nを明示的に最適化すると、最適化によって実際の信号がノイズマップに挿入される可能性がある。これを防ぐために、一実施形態では、ノイズマップ[20]の正則化の項が導入される。8x8より大きい各ノイズマップについて、一実施形態では、ピラミッドダウンネットワーク(pyramid down network)が解像度を8x8に低減するために用いられる。ピラミッドネットワークは、各ステップにおいて2x2ピクセルの近傍(neighbourhoods)を平均化する。加えて、一実施形態では、ノイズマップがゼロ平均(zero mean)および単位分散(unit variance)となるように正規化され、ノイズ目的(noise objective)を生成する:
【数8】
ここで、ni,0は元のノイズマップを表し、ni,j>0はダウンサンプリングされたバージョンを表す。同様に、ri,jは元の又はダウンサンプリングされたノイズマップの解像度を表す。
【0041】
全ての損失を組み合わせると、全体的な最適化の目的は以下となる。
【数9】
《最適化戦略》
【0042】
2段階最適化。損失L、L及びLの類似の性質を考慮すると、開始からの全ての損失を共同で最適化することは、人物2の毛髪情報を人物3の毛髪情報と競合させ(compete)、望ましくない合成をもたらすのが想定される。この問題を緩和するために、全体的な目的は2段階で最適化される。段階1では、目的アイデンティティ及び毛髪の知覚構造のみが再構成され、即ち数式8においてλ及びλにゼロが設定される。段階2では、段階1が段階に対してより良い初期化を提供し、それによってモデルを収束させる。
【0043】
しかしながら、この技術自体には欠点がある。それは、段階1の後、再構成された毛髪の知覚構造を維持するための監視がないことである。この監視の欠如は、StyleGANv2が事前分布を呼び出して、毛髪ピクセルをインペイント又は除去するのを可能にし、それによって、段階1で見つかった知覚構造の初期化を取り消す。従って、最適化の段階2にLを含める必要がある。
【0044】
勾配直交化。Lは、デザインによって、人物2の全ての毛髪の属性、即ち知覚的構造、外観及びより細かいスタイルをキャプチャする。結果として、Lの勾配は、人物3の外観およびより細かいスタイルに対応する勾配と競合する。この問題は、その外観およびより細かいスタイル情報が除去されるように、勾配を操作することで対処される。より具体的には、Lの知覚構造勾配がその外観およびより細かいスタイル勾配に直交するベクトル部分空間(vector subspace orthogonal)上に投影される。これにより、人物2の毛髪の構造および形状を維持しながら、人物3の毛髪の外観およびより細かいスタイルを移送できる。
【0045】
潜在空間Wの最適化を仮定すると、計算される勾配は、以下の通りである。
【数10】
ここで、L、L及びLは、IとIとの間で計算されたLPIPS、外観およびより細かいスタイルの損失である。直交性を強制するために
【数11】
が最小化されることが求められる。これは、構造-外観勾配直交化を用いて、(gA2+gS2)と平行するgR2コンポーネントを遠ざけることによって達成され、
【数12】
が最適化の段階2において反復される。
<実験と結果>
《実装の詳細》
【0046】
データセット。一実施形態では、人間の顔の70000個の高品質画像を含むフリッカー-顔-HQデータセット(Flickr-Faces-HQ、FFHQ)[19]が用いられた。フリッカー-顔-HQは、民族性(ethnicity)、年齢およびヘアスタイルパターンに関して有意な変動を有する。一実施形態では画像(I,I,I)のタプル(tuples)は以下の制約に基づき選択された:(a)タプル内の各画像の少なくとも18%のピクセルが毛髪を含むべきであり、(b)IとIとのそれぞれの顔領域はある程度整列しなければならない。これらの制約を実施するために、一実施形態では、グラフォノミーセグメンテーションネットワーク(Graphonomy segmentation network)[11]を用いて毛髪および顔マスクを抽出し、2D-FAN[4]を用いて68個の2Dの顔のランドマーク(facial landmarks)を推定した。全てについて、対応する顔マスク及び顔のランドマークを用いて、IとIとの結合上の交差点(intersection over union、IoU)および姿勢距離(pose distance、PD)を計算した。最後に、一実施形態では、選択されたタプルが以下のIoUおよびPD制約が両方とも表1のように満たされるように、「容易」、「中程度」及び「困難」の3つのカテゴリに分散された。
【表1】
【0047】
訓練パラメータ。一実施形態では、アダムオプティマイザ(Adam optimizer)[22]が0.1の初期の学習率(learning rate)で用いられ、コサインスケジュール(cosine schedule)[20]を用いて強化(annealed)された。一実施形態では、最適化は2段階で行われ、各段階は1000回の反復からなる。切除研究(ablation studies)に基づいて、一実施形態では、40個の外観損失重み係数(appearance loss weight)λ、1.5×10個のより細かいスタイル損失重み係数(finer style loss weight)λ及び1×10個のノイズ正則化重み係数(noise regularization weight)λが選択された。そして、残りの損失重み係数(loss weights)は1に設定された。
《2段階最適化の効果》
【0048】
図3は、一実施形態による2段階最適化の効果を示す4列の画像アレイ300である。画像アレイ300において、第1列(300A)は参照画像を示し、第2列(300B)はアイデンティティ(例えば、人物1)を示し、第3列(300C)は損失が一緒に最適化される場合の合成画像を示し、第4列(300D)は2段階最適化+勾配直交化を介した合成画像を示す。
【0049】
目的関数(objective function)において全ての損失を一緒に最適化することは、フレームワークを分岐させる。アイデンティティが再構成される間、毛髪の移送は失敗する(図3の第3列300C)。合成された毛髪の構造および形状は保存されず、望ましくない結果を引き起こす。他方、2段階最適化を行うことは、提供された参考文献と一致する写実的な画像の生成をもたらす合成プロセスを明らかに改善する。アイデンティティが再構成されるだけでなく、毛髪属性も所望の要件に従って移送される。
《勾配直交化の効果》
【0050】
図4は、一実施形態による勾配直交化(GO)の効果を示す画像アレイ400である。第1行(400A)は、4つの参照画像(左から右)は、同一性、ターゲット毛髪外観およびより細かいスタイル、ターゲット毛髪構造ならびに形状(マスク)を示す。第2行(400B)は2つの画像ペア、例えば、i)(a)及び(b)、並びに、ii)(c)及び(d)は、それぞれ、非GO法およびGO法のためのそれぞれの合成画像およびそれらの対応する毛髪マスクを含むことを示す。図5A及び5Bは、一実施形態によるGOの効果を示すグラフ500及び502である。グラフ500及び502は、それぞれ、最適化の段階2における
【数13】
の反復および傾向に対するLPIPSの毛髪再構成損失(GO対非GO)を示す。
【0051】
フレームワークの2つの変形(実施形態)が比較される:非GO及びGO。GOは勾配直交化を介してLの勾配を操作することを含むが、非GOはLには手を触れないままである。非GOはターゲット毛髪形状を維持できず、最適化の段階2において、反復回数1000(図4,5A,5B)の後にLの増加を引き起こす。位置が不変である外観およびより細かいスタイル損失は、形状に寄与しない。一方、GOは段階2において再構成損失を用いてターゲット毛髪形状を維持する。その結果、IoUは、M とM の間で計算され、0:857(非GO)から0:932(GO)まで増加する。
【0052】
勾配の解きほぐし(disentanglement)に関しては、時間の経過とともにgR2と(gA2+gS2)との間の類似性が減少し、GOを有するフレームワークの実施形態が人物2の毛髪形状をその外観およびより微細なスタイルから解きほぐすことができることを示している(図5A,5B)。この解きほぐしは、人物3の毛髪の外観およびより微細なスタイルを、モデルの発散(divergence)を引き起こすことなく、合成画像に継ぎ目なく移送するのを可能にする。ここでは、フレームワークのGOバージョンを比較および分析に用いる。
《SOTAとの比較》
【0053】
ヘアスタイルの移送。このフレームワークのGOバージョンをSOTAモデルMichiGANと比較した。MichiGANは、(1)毛髪の外観、(2)毛髪の形状および構造、ならびに、(3)背景を推定するための別々のモジュールを含む。外観モジュールは生成器をその出力特徴マップで効果を上げ(bootstraps)、従来のGANにおけるランダムにサンプリングされた潜在コードを置き換える[12]。形状および構造モジュールは毛髪マスク及び配向(orientation)マスクを出力し、バックボーン生成ネットワーク(backbone generation network)内の各SPADE ResBlk[25]を非正規化する。最後に、背景モジュールは、生成器の出力を背景情報と漸進的に(progressively)ブレンドする。訓練に関しては、MichiGANは擬似監視体制(pseudo-supervised regime)に従う。具体的には、同じ画像から(モジュールによって推定される)特徴が、元の画像を再構成するために、MichiGANに供給される。試験時に、FFHQの試験分割からランダムにサンプリングされた512ピクセルの解像度の5000個の画像についてFIDが計算される。
【0054】
結果が同等であることを確実にするために、上記の手順に従い、LOHOについてFIDスコア[14]を計算した。画像全体に対してFIDを計算することに加えて、一実施形態では、スコアが、背景がマスクされると共に合成された毛髪および顔領域のみに依存して計算された。マスクされた画像上で低いFIDスコアを達成することは、LOHOモデルが実際に現実的な毛髪および顔領域を合成できることを意味する。この実施形態は、LOHO-HFと呼ばれる。MichiGANの背景インペインターモジュール(background inpainter module)は公開されていないので、一実施形態では、GatedConv[36]がマスクされた毛髪領域に関連する特徴をインペイントするために用いられる。
【0055】
定量的に、LOHOがMichiGANを上回り、8.419のFIDスコアを達成し、一方、MichiGANは10.697を達成する(表2)。この改善は、LOHO最適化フレームワークが高品質画像を合成できることを示す。LOHO-HFは4:847の更に低いスコアを達成し、合成された毛髪および顔領域の優れた品質を証明する。FFHQの試験セットから一様にランダムにサンプリングされた5000個の画像を用いた。なお、シンボル「↓」は、数値が小さいほど良い結果であることを示す。
【表2】
【0056】
図6は、一実施形態による、MichiGANとLOHOの定性的比較を示す画像アレイ600である。6つのそれぞれの例を示す6つの行のそれぞれにおいて、第1列(狭い)(600A)は参照画像を示し、第2列(600B)はアイデンティティの人物(identity person)を示し、第3列(600C)はMichiGANの出力を示し、第2列はLOHOの出力(より良好な視覚比較のためにズームインされたもの)を示す。第1~2行では、例はMichiGANがターゲット毛髪属性を「コピーペースト」する一方で、LOHOが属性をブレンドし、それによって、より現実的な画像を合成することを示す。第3~4行では、例は、LOHOが整列されていない例をMichiGANよりも良く扱うことを示している。第5~6行では、LOHOが正しいスタイル情報を移送する例を示す。
【0057】
定性的には、LOHOに従う方法が困難な例についてより良好な結果を合成できる。LOHOは画像アレイ600に示されるように、ターゲット毛髪属性をターゲットの顔と自然にブレンドする。MichiGANはターゲットの顔上にターゲットの毛髪を単純にコピーするので、2つの領域間の照明の不一致を引き起こす。LOHOは、様々な度合い(degrees)が整列されていないペアを取り扱うが、MichiGANは、潜在空間ではなくピクセル空間内の背景および前景情報をブレンドすることに依存するため、これを行うことができない。最後に、LOHOは、MichiGANに匹敵する、関連するスタイル情報を移送する。実際、グラムマトリクスをマッチングすることで二次統計(second order statistics)を最適化するスタイル目的(style objective)が追加されたため、LOHOは、図6の下の2列(第5~6列)のように、毛髪の形状に関する元の人物が均一な(uniform)毛髪の色を有する場合であっても、様々な色を有する毛髪を合成する。
【0058】
アイデンティティ再構成の品質。LOHOはまた、2つの最近の画像埋め込み手法: I2S[1]及びI2S++[2]と比較した。I2Sは、潜在空間Wを最適化することで高品質の画像を再構成できるフレームワークを導入する。I2Sはまた、最適化されたスタイルの潜在コードWと平均顔のW^との間で計算された潜在距離が、合成された画像の品質にどのように関連するかを示す。I2S++は、I2Sに加えて、高いPSNR値およびSSIM値を有する画像を再構成するためにノイズ空間Nを最適化する。従って、高品質でターゲットのアイデンティティを再構成するLOHOの能力を評価するために、同様のメトリックが、合成画像の顔領域上で計算される。潜在空間におけるインペインティングは、LOHOの結果の不可欠な部分であるので、I2S++の512ピクセルの解像度の画像のインペインティングに対する性能と比較される。
【0059】
モデル(LOHO)は、ヘアスタイルの移送の困難な作業を行っているにもかかわらず、同等の結果を達成できる(表3)。I2Sは有効な人間の顔の許容可能な潜在距離が[30:6; 40:5]にあり、LOHOがその範囲内にあることを示す。更に、LOHOのPSNRスコア及びSSIMスコアはI2S++よりも良好であり、LOHOが、ローカル構造情報を満たすアイデンティティを再構成するのを証明する。
【表3】
《属性の編集》
【0060】
実施形態によれば、LOHOフレームワーク及び関連する手法は、実環境下でのポートレート画像の属性を編集できる。この設定では、画像が選択された後、参照画像を提供することで属性が個別に編集される。例えば、毛髪の外観及び背景を未編集のまま、毛髪の構造及び形状を変更できる。LOHOフレームワーク及び関連する手法は実施形態によれば、重なっていない毛髪領域(non-overlapping hair regions)を計算し、関連する背景の詳細を空間に充填する。最適化プロセスに続いて、合成された画像は、インペイントされた背景画像とブレンドされる。同様のことが、毛髪の外観およびより細かいスタイルを変化させるためにも当てはまる。LOHOは毛髪属性を分離し、それらを個別に、かつ、一緒に編集するのを可能にし、それによって、望ましい結果をもたらす。従って、図7は個々の属性編集を表す例の画像アレイ700を示し、図8は、複数の属性編集を表す例の画像アレイ800を示す。画像アレイ700は、第1サブアレイ700Aにおける外観およびより細かいスタイルの例(左側の例)と、第2サブアレイ700Bにおける形状の例(右側の例)とを含む。図7における結果は、モデルが互いに干渉することなく個々の毛髪属性を編集できるのを示す。図8において、画像アレイ800は、実施形態によるLOHOフレームワーク及び関連する手法が互いに干渉することなく、毛髪属性を一緒に編集できるのを示す結果を表す。
<限界>
【0061】
図9A及び9Bは、一実施形態による整列されていない例を示す画像アレイ900及び902である。LOHOフレームワーク及び関連する手法は実施形態によれば、整列されていない極端な場合に影響されやすい(図9)。本研究では、このような症例は困難と分類される。それらは、フレームワーク及び関連する手法に、不自然な毛髪の形状および構造を合成させる。GANベースの整列ネットワーク[38,5]は、困難なサンプルを横断して毛髪の姿勢または整列を伝達するために用いられ得る。
【0062】
図10A及び10Bは、一実施形態による毛髪の詳細のキャリーオーバーの例を示す画像アレイ1000及び1002である。これは、グラフォノミー[11]の毛髪の不完全なセグメンテーションに起因する可能性がある。より洗練されたセグメンテーションネットワーク[37,31]を用いて、この問題を軽減できる。
《現実世界への適用》
【0063】
図11は一実施形態による、開発コンピューティングデバイス1102、ウェブサイトコンピューティングデバイス1104、クラウドコンピューティングデバイス1105、アプリケーション配信コンピューティングデバイス1106、及び、それぞれのエッジコンピューティングデバイス、即ちスマートフォン1108及びタブレット1110を示すコンピュータネットワーク1100の図である。コンピューティングデバイスは、通信ネットワーク1112を介して結合される。コンピュータネットワーク1100は簡略化される。例えば、ウェブサイトコンピューティングデバイス1104、クラウドコンピューティングデバイス1105及びアプリケーション配信コンピューティングデバイス1106は、それぞれのウェブサイト、クラウド及びアプリケーション配信システムの例示的なデバイスである。通信ネットワーク1112は、プライベートネットワーク及びパブリックネットワークを含み得る複数の有線および/または無線ネットワークを含み得る。
【0064】
この実施形態では、開発コンピューティングデバイス1102がネットワークフレームワーク1116を構成(訓練を含むことができる)およびテスト等のための1又は複数のデータセットを記憶するデータストア1114(データベースを含むことができる)に結合される。一実施形態によれば、ネットワークフレームワーク116は、GAN生成器を備え、スタイルの移送、特にヘアスタイルの移送を実行するための2段階最適化のために構成される。
【0065】
データストア1114は、開発および実装を支援するために、ソフトウェア、他のコンポーネント、ツール等を記憶できる。図示されていない別の実施形態では、データセットが開発コンピューティングデバイス1102の記憶デバイスに記憶される。
【0066】
開発コンピューティングデバイス1102は、本明細書で説明する実施形態に従ってネットワークフレームワーク1116を定義するように構成される。例えば、開発コンピューティングデバイス1102は、図2のネットワークフレームワークを構成するように構成される。一実施形態では、開発コンピューティングデバイス1102が図2に示されるように、StyleGANv2又はその変形等のスタイル移送のために構成された事前訓練されたGANを組み込むように構成される。
【0067】
一実施形態では、開発コンピューティングデバイス1102が、ウェブサイトコンピューティングデバイス1104又はウェブサイトコンピューティングデバイス1104を介してアクセス可能な1つのサーバコンピュータデバイス上で実行するためのネットワークフレームワーク1116を定義する。
【0068】
一実施形態では、開発コンピューティングデバイス1102がクラウドコンピューティングデバイス1105上で実行するネットワークフレームワーク1116を定義する。開発コンピューティングデバイス1102(又は図示しない別のもの)はスマートフォン1108及びタブレット1110等のそれぞれのエッジデバイスへの配信のために、アプリケーション配信コンピューティングデバイス(例えば、1106)のためのウェブサイト及び/又はアプリケーション1120Bのため等、ネットワークフレームワークへのインターフェースをアプリケーション1120Aに組み込む。
【0069】
図11の本実施形態はネットワークフレームワーク自体を、タブレット、スマートフォン等のエッジデバイス上に記憶し、実行することを示しておらず、そのようなフレームワーク内の最適化プロセスは、かなりの処理リソースを必要とする。そのようなデバイスのための典型的なリソースを有するエッジデバイス上での実行は、単一のスタイル移送のために(比較的)長い時間(約10~20分)を要する。家庭用PC、ゲーム機または他の一般的に消費者向けのデバイス上でフレームワークを実行することも、同様のランタイムで可能である。しかし、ランタイムは、現在、対話的であると認識されるには十分ではないので(それでも)、図11はネットワークフレームワーク1116がリモートサーバ(例えば、ウェブサイト又はクラウドデバイス)によって提供される、より実用的な使用事例を示す。このパラダイムでは、アイデンティティ及びスタイル属性画像がサーバに提出され、ユーザは応答(例えば、アイデンティティ及び移送されたスタイルを組み込んだ合成画像)を待つ。
【0070】
一実施形態では、アプリケーション配信コンピューティングデバイス1106がアプリケーションストアサービス(電子商取引サービスの一例)を提供して、サポートされるオペレーティングシステム(OS)を実行するターゲットデバイス上で実行するためのアプリケーションを配信する。コンピューティングデバイスによるアプリケーション配信サービスの例としては、iOS(登録商標)又はiPADOS(登録商標)(いずれもApple Inc.Cupertino CAの商標)を実行しているiPhone(登録商標)又はiPAD(登録商標)デバイスのためのAppleのApp Store(登録商標)がある。適用可能なコンピューティングデバイスを介した別の例示的なサービスは、Android(登録商標)OS(Google LLC, Mountain View, CAの商標)を実行する様々なソースからのスマートフォン及びタブレットデバイスのためのGoogle Play(登録商標)(Google LLC, Mountain View, CAの商標)がある。この実施形態では、スマートフォン1108がウェブサイトコンピューティングデバイス1104からアプリケーション1120Aを受信し、タブレット1110がアプリケーション配信コンピューティングデバイス1106からアプリケーション1120Bを受信する。
【0071】
ウェブサイト及びアプリケーション配信例の両方の現在のパラダイムでは、ネットワークフレームワーク1116がエッジデバイスに通信されない。エッジデバイスは、エッジデバイスに代わって実行されるネットワークフレームワーク1116へのアクセスを(それぞれのアプリケーションインターフェースを介して)与える。例えば、ウェブサイトコンピューティングデバイスはアプリケーション1120Aのためのネットワークフレームワーク1116を実行し、クラウドコンピューティングデバイスは、アプリケーション1120Bのために実行する。アプリケーション1120A及び1120Bは、それぞれの実施形態において、ヘアスタイルの試着(エフェクトシミュレーションアプリケーション)のために構成され、仮想および/または拡張現実体験(virtual and/or augmented reality experience)を提供する。動作は、本明細書において以下で更に説明される。
【0072】
図12は、代表的なコンピューティングデバイス1200のブロック図である。図11のコンピューティングデバイスは同様に、それらのそれぞれの必要性および機能に従って構成される。コンピューティングデバイス1200は処理ユニット1202(例えば、1又は複数のプロセッサ、例えば、CPU及び/若しくはGPU、又は、他のプロセッサ等、一実施形態では少なくとも1つのプロセッサを備える)、コンピュータ可読命令(およびデータ)を記憶する記憶デバイス1204(一実施形態では、少なくとも1つの記憶デバイスであり、メモリを備えることができる)を備え、コンピュータ可読命令(およびデータ)は処理ユニット(例えば、プロセッサ)によって実行されると、例えば、コンピューティングデバイスに方法を実行させる。記憶デバイス804はメモリデバイス(例えば、RAM、ROM、EEPROM等)、ソリッドステートドライブ(例えば、フラッシュメモリを定義できる半導体記憶デバイス/ICを備える)、ハードディスクドライブ又は他の種類のドライブ及びテープ、ディスク(例えば、CD-ROM等)等の記憶媒体のうちのいずれかを含むことができ、追加の構成要素は、有線または無線手段を介してデバイスを通信ネットワークに結合するための通信ユニット1206、入力デバイス1208、表示デバイス1212を備えることができる出力デバイス1210を含む。いくつかの例では、表示デバイスが入力/出力デバイスを提供するタッチスクリーンデバイスである。コンピューティングデバイス1200の構成要素は、追加のデバイスに結合するための外部ポートを有し得る内部通信システム1214を介して結合される。
【0073】
いくつかの例では、出力デバイスがスピーカ、ベル、ライト、オーディオ出力ジャック、指紋リーダ等を備える。いくつかの例では、入力デバイスがキーボード、ボタン、マイクロフォン、カメラ、マウス又はポインティングデバイス等を備える。他のデバイス(図示せず)は位置決定デバイス(例えば、GPS)を備え得る。
【0074】
記憶デバイスは、一例ではオペレーティングシステム1216、ユーザアプリケーション1218(アプリケーション1120A又は1120Bのうちの1つであり得る)、ウェブサイトをブラウズし、アプリケーション1120A等の実行可能体(executables)を実行して、ウェブサイトから受信されたGAN生成器1116にアクセスするためのブラウザ1220(ユーザアプリケーションのタイプ)、並びに、カメラからの画像および/もしくはビデオフレーム、又は、他の手法で受信されたデータを記憶するデータ822を備え得る。
【0075】
図11において、通信される(データ)項目(後述)は、コンピューティングデバイスと通信ネットワークとの間のそれぞれの通信接続に隣接して示される。特定のコンピューティングデバイスに隣接して位置付けられたアイテムは、そのデバイスによって受信され、通信ネットワークにより近くに位置付けられたアイテムは本明細書で以下に説明するように、それぞれのコンピューティングデバイスから別のデバイスに通信される。
【0076】
引き続き図11を参照すると、一例では、スマートフォン1108のユーザがブラウザを用いてウェブサイトコンピューティングデバイス1104によって提供されるウェブサイトを訪問する。スマートフォン1108はネットワークフレームワーク1116へのアクセスを提供するアプリケーション1120A(例えば、ウェブページ及び関連するコード及び/又はデータ)を受信する。この例では、アプリケーションが仮想および/または拡張現実体験を提供するアプリケーション上のヘアスタイルの試着等のエフェクトシミュレーションアプリケーションである。ユーザはカメラを用いて静止画像またはビデオ画像(例えば、自撮り画像)を取得し、このソース画像は、画像I 1122としてネットワークフレームワーク1116で処理するためのアプリケーションによって通信される。(ビデオとして提供される場合、単一の画像(例えば、静止画像)がそこから抽出され得る)。
【0077】
ユーザは、アプリケーション1120Aによってもたらされるグラフィカルユーザインターフェース等を介して記憶1124からの参照画像(例えば、画像I及びI)であって、試着すべきi)毛髪の形状および構造(画像I)、ii)毛髪の外観(画像I)及び(iii)毛髪のより細かいスタイル(画像I)を表す参照画像を選択する。i)、ii)及びiii)のそれぞれは、それぞれのヘアスタイル属性を含む。
【0078】
ヘアスタイルの試着のエフェクト(属性の特徴)は、画像I 1122に表されるアイデンティティを維持しながら、ネットワークフレームワーク1116を用いて、生成され及び/又は、結果として得られる画像(I)1226に移送される。得られた画像1226(I)は、スマートフォン1108に返送され、その表示デバイスを介して表示される。一実施形態では、IがIとの対比のためにグラフィカルユーザインターフェースに表示される。一実施形態では、IがI、I及びIの全てとの対比のために、グラフィカルユーザインターフェースに表示される。
【0079】
一実施形態では、結果として得られる画像1226が記憶デバイスに記憶される。一実施形態では、結果として得られる画像1226がソーシャルメディア、テキストメッセージ、電子メール等のいずれかを介して共有(通信)される。
【0080】
一実施形態では、ウェブサイトコンピューティングデバイス1104がサービス(例えば、電子商取引サービス)が可能であり、アプリケーション1120Aを介して仮想的に試着された参照画像に関連付けられた1若しくは複数の製品等のヘア製品またはヘアスタイル製品の購入を容易にする。一実施形態では、ウェブサイトコンピューティングデバイス1104がヘア製品またはヘアスタイル製品を推奨するための推奨サービスを提供する。一実施形態では、ウェブサイトコンピューティングデバイス1104がサービス(例えば、ヘア又はヘアスタイリングサービス)を推奨するための推奨サービスを提供する。ヘア又はヘアスタイル製品は、シャンプー、コンディショナー、オイル、血清(serum)、ビタミン、ミネラル、酵素および他のヘア又は頭皮トリートメント製品;カラーリング剤;スプレー、ジェル、ワックス、ムース及び毛髪への適用のための他のスタイリング製品;コーム、ブラシ、ヘアドライヤー、カーリングワンド(curling wands)、ストレートワンド(straightening wands)、フラットアイロン(flat irons)、ハサミ、カミソリ、ローラー、マッサージツール等のヘア又は頭皮ツール又は器具;並びに、クリップ、ヘアタイ、スクランシー、バンド等を含むアクセサリーを含むことができる。ヘア又はヘアスタイルサービスは、カッティング、カラーリング、スタイリング、ストレートニング(straightening)又は他の毛髪および頭皮トリートメント、脱毛、毛髪交換/かつらサービス、並びにそれらのための相談(consultations)を含むことができる。
【0081】
一実施形態では、アプリケーション1120Aが画像I 1122を含み得るヘアスタイル、ライフスタイル及び/又はユーザデータを得るために、会話方式でユーザに関与するためのインターフェースを提供する。一実施形態では、データが分析され、推奨が生成される。推奨は、記憶1124からの参照画像の選択を含むことができる。参照画像のペア(例えば、特定の推奨Iを有する特定の推奨I)が、全推奨ヘアスタイルのために提示されても良い。場合によっては、推奨される画像I及びIが、推奨される毛髪のスタイルおよび構成と毛髪の外観およびより細かいスタイルとの両方を示す単一の画像のように、同じ画像である場合もある。
【0082】
一実施形態では、アプリケーション1120Aがユーザ提供の参照画像I及びIを受信するためのインターフェースを提供する。例えば、ユーザはヘアスタイルの例をスマートフォン1108に配置(又はカメラを介して生成)し、記憶できる。ユーザは結果画像1126に表されるヘアスタイルの試着を生成するのに用いるために、参照画像(まとめて1128)をウェブサイト1104にアップロードできる。
【0083】
引き続き図11を参照すると、一例では、タブレット1110のユーザがブラウザを用いてアプリケーション配信コンピューティングデバイス1106によって提供されるウェブサイトを訪問する。タブレット1110は、ネットワークフレームワーク1116へのアクセスを提供するアプリケーション1120Bを受信する。アプリケーション1120Bは、一例ではアプリケーション1120Aと同様に構成される。ユーザはカメラを用いて静止画像またはビデオ画像(1130)(例えば、自撮り画像)を取得し、この画像は、画像Iとして用いられ、クラウドコンピューティングデバイス1105におけるGAN生成器による処理のために通信される。本実施形態では、タブレット1110のユーザが画像I及びI(まとめて1132)もアップロードする。画像1132は、アプリケーション1120Bによって推奨されるか、ユーザによって配置され得る。結果として得られる画像1134は、タブレット1110の表示デバイスを介して通信され、表示され、記憶デバイスに記憶され、ソーシャルメディア、テキストメッセージ、電子メール等を介して共有(通信)され得る。
【0084】
アプリケーション1120Bは、一実施形態ではヘアスタイルに関連付けられ得る製品および/またはサービスの推奨および/または購入促進のためのサービスへの1又は複数のインターフェースをタブレット1110に提供するように構成される。
【0085】
一例では、アプリケーション1120Bがフォトギャラリーアプリケーションである。ヘアスタイルエフェクトは、フレームワーク1116を用いて参加者のカメラからのユーザ画像(画像Iの例)等に適用される。アプリケーション1120Bは、ユーザが画像I及びIの選択を容易できる。例えば、フォトギャラリーアプリケーションに関連するデータストア(例えば、タブレット1110の記憶デバイス)から又はインターネット若しくは他のデータストア(例えば、推奨サービスを介した)から。
【0086】
従って、一実施形態では、ネットワークフレームワーク1116がヘアスタイルの移送を実行して、第1画像からのアイデンティティと、第2画像からの第1ヘアスタイル属性と、第3画像からの少なくとも1つの第2ヘアスタイル属性とを含む合成画像を生成するように構成される。ネットワークフレームワーク1116は、編集可能なヘアスタイルの移送、a)毛髪の形状および構造の解きほぐし特徴、並びに、b)毛髪の外観およびより細かいスタイルを提供するように構成され、それによって、移送する毛髪属性の選択を可能にする。一実施形態では、ネットワークフレームワークが2段階最適化を用いて、スタイル属性を互いから解きほぐすための移送を実行する。実施形態ではネットワークフレームワークが合成画像(I)を生成し、最適化の第1段階では第1画像(I)の顔からのアイデンティティをIの顔領域に、第2画像(I)の毛髪領域からの毛髪の形状および構造属性をIの毛髪領域にそれぞれ再構成する。更に第2段階では、ネットワークフレームワークが、第3画像(I)の毛髪領域からの毛髪の外観属性およびより細かいスタイル属性のそれぞれを、第1段階で再構成されたIの毛髪領域に移送する。一実施形態では、インペインティングはIの背景から等、背景領域を充填する。
【0087】
一実施形態では、ネットワークフレームワークがIで表される少なくとも1つのスタイル属性と、Iで表される少なくとも1つのスタイル属性とを解きほぐすために、2段階最適化において勾配直交化を実行するように構成される。
【0088】
一実施形態では移送されるスタイルがヘアスタイルである場合、Iで表される少なくとも1つのスタイル属性は毛髪の形状および構造属性であり、Iで表される少なくとも1つのスタイル属性はi)外観属性およびii)より細かいスタイル属性である。
【0089】
一実施形態では、2段階最適化が、アイデンティティ再構成損失(L)、毛髪の形状および構造再構成損失(L)、外観損失(L)、並びに、より細かいスタイル損失(L)を含む損失を最適化する。一実施形態ではL及びLが、L及びLを最適化することなく第1段階で最適化され、L、L、L及びLが第2段階で最適化され、LがIの外観およびより細かいスタイル属性とIのそれらの属性との間の競合を回避するために勾配直交化を介して最適化される。
【0090】
本明細書の実施形態は主にヘアスタイルの移送を参照して説明されるが、複数のスタイル属性について、他のスタイルの移送が実行されても良い。一実施形態によれば、人工知能(AI)を用いてスタイル移送を実行する方法が提供され、スタイルは複数のスタイル属性を含む。本方法は、第1画像(I)、第2画像(I)及び第3画像(I)を含む複数の画像を、生成的敵対ネットワーク(GAN)生成器と、第1画像(I)で表されるアイデンティティ、第2画像(I)で表される少なくとも1つのスタイル属性から決定されるスタイル及び第3画像(I)で表される少なくとも1つのスタイル属性とを含む合成画像(I)を生成するための2段階最適化とを備えるAIネットワークフレームワークを用いて処理することを含む。この方式では、ネットワークフレームワークがIで表される少なくとも1つのスタイル属性とIで表される少なくとも1つのスタイル属性とを解きながら、スタイル移送を実行するためにGANの潜在空間を最適化するように構成される。一実施形態ではIがアイデンティティ領域、スタイル領域および背景領域とを備え、潜在空間を最適化する目的関数に従って第1段階においてネットワークフレームワークが、Iで表されるアイデンティティをIのアイデンティティ領域に再構成し、Iで表される少なくとも1つのスタイル属性をIのスタイル領域に再構成するように構成される。一実施形態では目的機能による第2段階においてネットワークフレームワークは、Iで表される少なくとも1つのスタイル属性のそれぞれをIのスタイル領域にそれぞれ移送するように構成される。
【0091】
ヘアスタイルの移送等の実施形態では、IのアイデンティティがI、I及びIとの間で一意(unique)であるとき、完全なヘアスタイルの移送が可能になる。ヘアスタイルの移送等の実施形態では、Iの毛髪の形状および構造がI、I及びIとの間で一意であるとき、少なくとも形状および構造に関連するヘアスタイルの移送が可能になる。ヘアスタイルの移送等の実施形態では、Iの毛髪の外観がI、I及びIとの間で一意であるとき、少なくとも外観に関連するヘアスタイルの移送が可能になる。ヘアスタイルの移送等の実施形態では、Iのより細かいスタイルがI、I及びIとの間で一意であるとき、少なくとも毛髪のより細かい細部に関連するヘアスタイルの移送が可能になる。
【0092】
一実施形態では、該方法がセグメンテーションネットワークを用いてI、I、I及びIをそれぞれ処理し、それぞれの画像についてそれぞれの毛髪(スタイル)マスク及び顔(アイデンティティ)マスクを定義し、そのようなマスクのうちの選択された1つを用いて、スタイルを移送するためのそれぞれのターゲットマスクを定義することを含む。
【0093】
一実施形態によると、GAN生成器は最初に、スタイル移送を受信するための平均画像(mean image)としてIを生成する。
【0094】
一実施形態では、アイデンティティが事前訓練されたニューラルネットワーク符号器を用いてIを処理することで抽出された高レベル特徴を用いて再構成される。ヘアスタイルの移送における一実施形態では、毛髪の形状および構造が事前訓練されたニューラルネットワーク符号器を用いてIを処理することで生成された後のブロックからの特徴を用いて再構成される。ヘアスタイルの移送における一実施形態では、Iの毛髪領域が合成された毛髪のターゲットの配置にソフトな制約を課す侵食された毛髪領域である。ヘアスタイルの移送における一実施形態では毛髪の外観が事前訓練されたニューラルネットワーク符号器を用いてIを処理することで、第1ブロックで抽出された特徴から決定された全体的な外観を用いて移送され、全体的な外観は空間情報に関係なく決定される。ヘアスタイルの移送における一実施形態では、ヘアスタイルより細かいスタイルが事前訓練されたニューラルネットワーク符号器を用いてIを処理することで抽出された高レベル特徴マップに従って移送される。
【0095】
ヘアスタイルの移送における一実施形態では毛髪の外観は色を含み、より細かいスタイルは束のスタイルのいずれかと、毛髪ストランド間のシェーディング変化とを含むより細かい詳細を含む。
【0096】
一実施形態では、方法がスタイル移送に関連する製品および/またはサービスを購入するための(電子商取引)サービスへのインターフェースを提供することを含む。
【0097】
一実施形態では、IがIとの対比のためにグラフィカルユーザインターフェース内に表示するために提供される。
【0098】
一実施形態では、方法がスタイル移送に関連する製品および/またはサービスを推奨するように構成されたサービスにインターフェースを提供することを含む。
【0099】
ヘアスタイルの移送における一実施形態では、方法がIを受信するためのインターフェースを提供することと、毛髪の形状および構造ならびに毛髪外観およびより細かいスタイルを含むヘアスタイルのようなそれぞれのスタイル属性を示す参照画像の記憶(store)を提供することと、参照画像のうちの1つからのIを定義するための入力を受信するための選択インターフェースを提供することと、参照画像のうちの1つからIを定義するための入力を受信するための選択インターフェースを提供することとを含む。一実施形態において(例えば、ヘアスタイルの移送において)、参照画像の記憶以外からI及びIの一方または両方を受信するためのインターフェースを提供することを含む。
【0100】
一実施形態では、アイデンティティ画像(例えば、I)に対して仮想的なヘアスタイルの試着を実行するためのネットワークフレームワークと、アイデンティティ上のヘアスタイルをシミュレートするための異なるヘアスタイル属性を表す複数の参照画像(例えば、I及びI)とを提供するように構成され、アイデンティティ及びヘアスタイルを仮想的なヘアスタイルの試着を表す合成画像(例えば、I)に組み込むときに、異なるヘアスタイル属性を解きほぐして現実的な合成された毛髪を提供する最適化を実行するように構成されたネットワークフレームワークと、提示のために合成画像を提供するように構成されたネットワークフレームワークとを備えるコンピュータ装置が提供される。一実施形態では、回路がヘア若しくはヘアスタイルの製品、サービス又はその両方を購入するためのインターフェースと、そのような製品、サービス又はその両方のための推奨を生成するためのインターフェースとを提供するように構成される。
<結論>
【0101】
実施形態によれば、ポートレート画像に対してヘアスタイルの移送を実行する最適化フレームワークであるLOHOの導入は、事前訓練されたGANを用いた空間依存の属性操作の方向におけるステップをとる。顔合成のようなより一般的なタスクで訓練された表現モデルの潜在空間を操作することにより、ヘアスタイルの移送のような特定の合成タスクに近づくアルゴリズムを開発することは、大きな訓練データセットを収集することなく多くの下流タスクを完了するのに有効であることを示した。GAN反転アプローチは、大きな訓練データセットへのアクセスを有するフィードフォワードGANパイプラインよりも、現実的な穴の充填等の問題をより効果的に解決できる。
【0102】
実用的な実装は、本明細書に記載される特徴のいずれか又は全てを含むことができる。これら及び他の態様、特徴及び様々な組合せは、機能を実行するための方法、機器、系、手段及び本明細書で説明する特徴を組み合わせる他の方法として表され得る。いくつかの実施形態について説明した。それにもかかわらず、本明細書に記載されるプロセスおよび技法の趣旨および範囲から逸脱することなく、様々な修正がなされ得ることが理解されよう。加えて、他のステップを提供でき又はステップを記載されたプロセスから排除でき、他の構成要素を記載されたシステムに追加するか又はそこから除去できる。従って、他の態様は特許請求の範囲の範囲内にある。
【0103】
本明細書の説明および特許請求の範囲を通して、単語「含む(comprise)」及び「含む(contain)」及びそれらの変形は「含むが、限定されない(including but not limited to)」を意味し、他の構成要素、整数又はステップを排除することを意図しない(。本明細書全体を通して、単数形は文脈が他のことを必要としない限り、複数形を包含する。特に、不定冠詞が用いられる場合は本明細書がその状況が他のことを要求していない限り、単数だけでなく複数も意図していると理解されたい。
【0104】
本発明の特定の態様、実施形態又は実施例に関連して説明される特徴、整数、特性又は群はそれらと互換性がない場合を除き、任意の他の態様、実施形態又は実施例に適用可能であると理解されるべきである。本明細書に開示される特徴の全て(任意の添付の特許請求の範囲、要約及び図面を含む)及び/又はそのように開示される任意の方法またはプロセスのステップの全ては、そのような特徴及び/又はステップの少なくともいくつかが相互に排他的である組合せを除いて、任意の組合せで組み合わせることができる。本発明は、前述の任意の例または実施形態の詳細に限定されない。本発明は、本明細書(添付の特許請求の範囲、要約および図面を含む)に開示される特徴の任意の新規な1又は任意の新規な組み合わせ又は開示される任意の方法またはプロセスのステップの任意の新規な1又は任意の新規な組み合わせに及ぶ。

参考文献-その全体が参照により本明細書に組み込まれる。
[1]Rameen Abdal, Yipeng Qin, and Peter Wonka. Image2stylegan:How to embed images into the stylegan latent space? In 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019.

[2]R. Abdal, Y. Qin, and P. Wonka. Image2stylegan++: How to edit the embedded images? In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 8293-8302, 2020.

[3]Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. In International Conference on Learning Representations, 2019.

[4]Adrian Bulat and Georgios Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem? (and a dataset of 230,000 3d facial landmarks). In International Conference on Computer Vision, 2017.

[5]Egor Burkov, Igor Pasechnik, Artur Grigorev, and Victor Lempitsky. Neural head reenactment with latent pose descriptors. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020.

[6]Menglei Chai, Linjie Luo, Kalyan Sunkavalli, Nathan Carr, Sunil Hadap, and Kun Zhou. High-quality hair modeling from a single portrait photo. ACM Transactions on Graphics, 34:1-10, 10 2015.

[7]Menglei Chai, Lvdi Wang, Yanlin Weng, Xiaogang Jin, and Kun Zhou. Dynamic hair manipulation in images and videos. ACM Transactions on Graphics (TOG), 32, 07 2013.

[8]Menglei Chai, Lvdi Wang, Yanlin Weng, Yizhou Yu, Baining Guo, and Kun Zhou. Single-view hair modeling for portrait manipulation. ACM Transactions on Graphics, 31, 07 2012.

[9]Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei A Efros. Everybody dance now. In IEEE International Conference on Computer Vision (ICCV), 2019.

[10]L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2414-2423, 2016.

[11]Ke Gong, Yiming Gao, Xiaodan Liang, Xiaohui Shen, Meng Wang, and Liang Lin. Graphonomy: Universal human parsing via graph transfer learning. In CVPR, 2019.

[12]Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2, NIPS'14, page 2672-2680, 2014.

[13]Shanyan Guan, Ying Tai, Bingbing Ni, Feida Zhu, Feiyue Huang, and Xiaokang Yang. Collaborative learning for faster stylegan embedding, 2020.

[14]Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30, pages 6626-6637. Curran Associates, Inc., 2017.

[15]P. Isola, J. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5967-5976, 2017.

[16]Youngjoo Jo and Jongyoul Park. Sc-fegan: Face editing generative adversarial network with user's sketch and color. In The IEEE International Conference on Computer Vision (ICCV), October 2019.

[17]Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. In European Conference on Computer Vision, 2016.

[18]Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. In International Conference on Learning Representations,
2017.

[19]T. Karras, S. Laine, and T. Aila. A style-based generator architecture for generative adversarial networks. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[20]Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of StyleGAN. In Proc. CVPR, 2020.

[21]Vladimir Kim, Ersin Yumer, and Hao Li. Real-time hair rendering using sequential adversarial networks. In European Conference on Computer Vision, 2018.

[22]Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In International Conference on Learning Representations, 2015.

[23]Cheng-Han Lee, Ziwei Liu, Lingyun Wu, and Ping Luo. Maskgan: Towards diverse and interactive facial image manipulation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.

[24]J. Li, X. Liang, Y. Wei, T. Xu, J. Feng, and S. Yan. Perceptual generative adversarial networks for small object detection. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1951-1959, 2017.

[25]T. Park, M. Liu, T. Wang, and J. Zhu. Semantic image synthesis with spatially-adaptive normalization. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2332-2341, 2019.

[26]Stanislav Pidhorskyi, Donald A Adjeroh, and Gianfranco Doretto. Adversarial latent autoencoders. In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2020. [to appear]

[27]Elad Richardson, Yuval Alaluf, Or Patashnik, Yotam Nitzan, Yaniv Azar, Stav Shapiro, and Daniel Cohen-Or. Encoding in style: a stylegan encoder for image-to-image translation. arXiv preprint arXiv:2008.00951, 2020.

[28]Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations, 2015.

[29]C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. In 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2818-2826, 2016.

[30]Zhentao Tan, Menglei Chai, Dongdong Chen, Jing Liao, Qi Chu, Lu Yuan, Sergey Tulyakov, and Nenghai Yu. Michigan: Multi-input-conditioned hair image generation for portrait editing. ACM Transactions on Graphics (TOG), 39(4):1-13, 2020.

[31]A. Tao, K. Sapra, and Bryan Catanzaro. Hierarchical multi-scale attention for semantic segmentation. ArXiv, abs/2005.10821, 2020.

[32]T. Wang, M. Liu, J. Zhu, A. Tao, J. Kautz, and B. Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8798-8807, 2018.

[33]Ting-Chun Wang, Ming-Yu Liu, Andrew Tao, Guilin Liu, Jan Kautz, and Bryan Catanzaro. Few-shot video-to-video synthesis. In Advances in Neural Information Processing Systems (NeurIPS), 2019.

[34]Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. Video-to-video synthesis. In Conference on Neural Information Processing Systems (NeurIPS), 2018.

[35]Yanlin Weng, Lvdi Wang, Xiao Li, Menglei Chai, and Kun Zhou. Hair interpolation for portrait morphing. Computer Graphics Forum, 32, 10 2013.

[36]J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. Huang. Freeform image inpainting with gated convolution. In 2019 IEEE/CVF International Conference on Computer Vision
(ICCV), pages 4470-4479, 2019.

[37]Yuhui Yuan, Xilin Chen, and Jingdong Wang. Object-contextual representations for semantic segmentation. In Computer Vision - ECCV 2020, pages 173-190, 2020.

[38]E. Zakharov, A. Shysheya, E. Burkov, and V. Lempitsky. Few-shot adversarial learning of realistic neural talking head models. In 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 9458-9467, 2019.

[39]Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, 2018.

[40]J. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In 2017 IEEE International Conference on Computer Vision (ICCV), pages 2242-2251, 2017.

[41]Jiapeng Zhu, Yujun Shen, Deli Zhao, and Bolei Zhou. In-domain gan inversion for real image editing. In Proceedings of European Conference on Computer Vision (ECCV), 2020.
<その他>
<手段>
技術的思想1の方法は、スタイル移送を実行する方法であり、前記スタイルは複数のスタイル属性を含み、第1画像(I )、第2画像(I )及び第3画像(I )を含む複数の画像を、生成的敵対ネットワーク(GAN)生成器と、前記第1画像(I )で表されるアイデンティティ、前記第2画像(I )で表される少なくとも1つのスタイル属性から決定されるスタイル及び前記第3画像(I )で表される少なくとも1つのスタイル属性を含む合成画像(I )を生成するための2段階最適化とを備える人工知能(AI)ネットワークフレームワークを用いて処理し、前記ネットワークフレームワークは、I で表される前記少なくとも1つのスタイル属性およびI で表される前記少なくとも1つのスタイル属性を解きほぐしながら、前記スタイル移送を実行するために前記GAN生成器の潜在空間を最適化するように構成される。
技術的思想2の方法は、技術的思想1記載の方法において、I は、アイデンティティ領域、スタイル領域および背景領域を含み、前記潜在空間を最適化するための目的関数に従った第1段階において前記ネットワークフレームワークは、I で表される前記アイデンティティをI の前記アイデンティティ領域に再構成し、I で表される前記少なくとも1つのスタイル属性をI の前記スタイル領域に再構成するものである。
技術的思想3の方法は、技術的思想2記載の方法において、前記目的関数による第2段階において前記ネットワークフレームワークは、I で表される少なくとも1つのスタイル属性をI の前記スタイル領域に移送する。
技術的思想4の方法は、技術的思想3記載の方法において、前記ネットワークフレームワークは前記スタイル移送に続いて前記背景領域をインペイントするように構成される。
技術的思想5の方法は、技術的思想1から4のいずれかに記載の方法において、前記ネットワークフレームワークが、I で表される前記少なくとも1つのスタイル属性と、I で表される前記少なくとも1つのスタイル属性とを解きほぐすために、前記2段階最適化において勾配直交化を実行するように構成される。
技術的思想6の方法は、技術的思想1から5のいずれかに記載の方法において、前記スタイルはヘアスタイルであり、I で表される前記少なくとも1つのスタイル属性は毛髪の形状および構造属性であり、I3で表される前記少なくとも1つのスタイル属性はi)外観属性およびii)より細かいスタイル属性である。
技術的思想7の方法は、技術的思想6記載の方法において、前記GAN生成器は、スタイル移送のために構成された事前訓練されたGANから定義される。
技術的思想8の方法は、技術的思想6又は7に記載の方法において、前記2段階最適化が、アイデンティティ再構成損失(L )、毛髪の形状および構造再構成の喪失(L )、外観損失(L )、並びに、より細かいスタイル損失(L )を含む損失を最適化する。
技術的思想9の方法は、技術的思想8記載の方法において、L とL が、L とL を最適化せずに第1段階で最適化され、L 、L 、L 及びL が第2段階で最適化され、L がI の外観およびより細かいスタイル属性とI のそれらの属性との間の競合を回避するために勾配直交化を介して最適化される。
技術的思想10の方法は、合成画像(I )にヘアスタイルを移送する方法であって、生成的敵対ネットワーク(GAN)生成器を備えるネットワークフレームワークによって合成画像(I )を生成し、前記ネットワークは、前記GANの潜在空間を最適化するために2段階最適化を実行するように構成され、前記2段階最適化の第1段階において前記ネットワークフレームワークによって、第1画像(I )の顔からのアイデンティティをI の顔領域に、第2画像(I )の毛髪領域からの毛髪の形状および構造属性をI の毛髪領域にそれぞれ再構成し、前記2段階最適化の第2段階において前記ネットワークフレームワークによって、第3画像(I )の毛髪領域からの毛髪の外観属性およびより細かいスタイル属性のそれぞれを前記第1段階で再構成されたI の毛髪領域に移送することを特徴とする。
技術的思想11の方法は、技術的思想10記載の方法において、前記GAN生成器は、スタイル移送のために顔画像を処理するための事前訓練されたGANから定義される。
技術的思想12の方法は、技術的思想10又は11に記載の方法において、前記2段階最適化が各段階において、アイデンティティ再構成損失(L )、毛髪の形状および構造再構成の喪失(L )、外観損失(L )、並びに、より細かいスタイル損失(L )から構成される目的関数を用いて最適化を実行する。
技術的思想13の方法は、技術的思想12記載の方法において、L とL が、L とL を最適化せずに前記第1段階で最適化され、L 、L 、L 及びL が前記第2段階で最適化され、L がI の外観およびより細かいスタイル特徴とI のそれらの特徴との間の競合を回避するために勾配直交化を介して最適化される。
技術的思想14の方法は、技術的思想10から13のいずれかに記載の方法において、前記ヘアスタイルの移送後のI の背景領域を、好ましくはI の背景領域からインペイントする。
技術的思想15の方法は、前記した技術的思想のいずれかに記載の方法において、前記ネットワークフレームワークが、編集可能なヘアスタイルの移送、a)毛髪の形状および構造の解きほぐし特徴、並びに、b)毛髪の外観およびより細かいスタイルを提供するように構成され、それによって、移送する毛髪属性の選択を可能にする。
技術的思想16の方法は、技術的思想15記載の方法において、I の前記アイデンティティは、I 、I 及びI との間で一意であり、それによって、完全なヘアスタイル移送を実行し、I の前記毛髪の形状および構造は、I 、I 及びI との間で一意であり、それによって、少なくとも形状および構造に関連するヘアスタイルの移送を実行し、I の前記毛髪の外観は、I 、I 及びI との間で一意であり、それによって、少なくとも外観に関連するヘアスタイルの移送を実行し、I の前記毛髪のより細かいスタイルは、I 、I とI との間で一意であり、それによって、少なくとも毛髪のより細かい細部に関連するヘアスタイルの移送を実行する。
技術的思想17の方法は、前記した技術的思想のいずれかに記載の方法において、I ~I のそれぞれが、ポートレート画像であり、I 及びI が、I で表される前記アイデンティティに移送されるヘアスタイル属性のための参照画像である。
技術的思想18の方法は、前記した技術的思想のいずれかに記載の方法において、I 、I 、I 及びI はそれぞれ、セグメンテーションネットワークを用いて、それぞれの画像についてそれぞれの毛髪(スタイル)マスク及び顔(アイデンティティ)マスクを定義し、そのようなマスクのうちの選択された1つを用いて、スタイルを移送するためのそれぞれのターゲットマスクを定義する。
技術的思想19の方法は、前記した技術的思想のいずれかに記載の方法において、前記GAN生成器は、前記スタイル移送を受信するための平均画像としてI を最初に生成する。
技術的思想20の方法は、前記した技術的思想のいずれかに記載の方法において、前記アイデンティティが、事前訓練されたニューラルネットワーク符号器を用いてI を処理することで抽出された高レベル特徴を用いて再構成される。
技術的思想21の方法は、技術的思想20記載の方法において、ヘアスタイル移送において、前記事前訓練されたニューラルネットワーク符号器を用いてI を処理することで生成された後のブロックからの特徴を用いて、毛髪の形状および構造が再構成される。
技術的思想22の方法は、技術的思想21記載の方法において、ヘアスタイルの移送において、I の毛髪領域が、合成された毛髪のターゲットの配置にソフトな制約を課す侵食された毛髪領域である。
技術的思想23の方法は、技術的思想20から22のいずれかに記載の方法において、ヘアスタイルの移送において、前記事前訓練されたニューラルネットワーク符号器を用いてI を処理することで第1ブロックで抽出された特徴から決定された全体的な外観を用いて毛髪の外観が移送され、前記全体的な外観は、空間情報に関係なく決定される。
技術的思想24の方法は、技術的思想20から23のいずれかに記載の方法において、ヘアスタイルの移送において、前記事前訓練されたニューラルネットワーク符号器を用いてI を処理することで抽出された高レベル特徴マップに従って、より細かいスタイルが移送される。
技術的思想25の方法は、前記した技術的思想のいずれかに記載の方法において、ヘアスタイルの移送において、毛髪の外観が色を含み、より細かいスタイルが束のスタイル及び毛髪ストランド間のシェーディング変化のいずれかを含むより細かい詳細を含む。
技術的思想26の方法は、前記した技術的思想のいずれかに記載の方法において、スタイル移送に関連する製品および/またはサービスを購入するための電子商取引サービスへのインターフェースを提供することを含む。
技術的思想27の方法は、前記した技術的思想のいずれかに記載の方法において、スタイル移送に関連する製品および/またはサービスを推奨するように構成されたサービスへのインターフェースを提供することを含む。
技術的思想28の方法は、前記した技術的思想のいずれかに記載の方法において、前記I は、I との対比のためにグラフィカルユーザインターフェース内に表示するために提供される。
技術的思想29の方法は、前記した技術的思想のいずれかに記載の方法において、I を受信するためのインターフェースを提供することと、毛髪の形状および構造ならびに毛髪外観およびより細かいスタイルを含むヘアスタイルのようなそれぞれのスタイル属性を示す参照画像の記憶を提供することと、前記参照画像のうちの1つからI を定義するための入力を受け取るための選択インターフェースを提供することと、前記参照画像のうちの1つからのI を定義するための入力を受け取るための選択インターフェースを提供することとを含む。
技術的思想30の方法は、技術的思想29記載の方法において、前記参照画像の記憶以外からI 及びI の一方または両方を受信するためのインターフェースを提供することを含む。
技術的思想31のコンピューティングデバイスは、プロセッサと、前記プロセッサによって実行されると、前記した請求項のいずれかに記載の方法を実行させるコンピュータ実行可能命令を記憶する記憶デバイスとを備える。
技術的思想32のコンピューティングデバイスは、プロセッサと、前記プロセッサによって実行されるコンピュータ実行可能命令を記憶する記憶デバイスとを備えるものであり、ヘアスタイルの移送を実行するように構成されたネットワークフレームワークを備え、前記ネットワークフレームワークは、参照画像から第1画像(I )の顔からのアイデンティティが移送された毛髪属性を含む合成画像(I )を生成するように構成された生成的敵対ネットワーク(GAN)生成器を備え、前記毛髪属性は、i)毛髪の形状および構造、ii)毛髪の外観およびiii)毛髪のより細かいスタイルを含むものであり、前記ネットワークフレームワークは、潜在空間を最適化して、前記毛髪属性であるi)毛髪形状および構造を、ii)毛髪外観およびiii)毛髪のより細かいスタイルから解きほぐすように構成される。
技術的思想33のコンピューティングデバイスは、技術的思想32記載のコンピューティングデバイスにおいて、前記参照画像は、第2画像(I )及び第3画像(I )を含み、I 、I 及びI はそれぞれポートレート画像で構成され、前記ネットワークフレームワークは、I から抽出された毛髪の形状と構造およびI から抽出された毛髪の外観と毛髪のより細かいスタイルのそれぞれを用いる。
技術的思想34のコンピューティングデバイスは、技術的思想32から33のいずれかに記載のコンピューティングデバイスにおいて、前記命令が実行されると、前記コンピューティングデバイスに、一旦生成されたI の背景をI にインペイントさせる
技術的思想35のコンピューティングデバイスは、技術的思想32から34のいずれかに記載のコンピューティングデバイスにおいて、前記GAN生成器は、前記潜在空間の最適化が前記毛髪属性を解きほぐすことを可能にするように、2段階最適化および勾配直交化を用いて訓練される。
技術的思想36のコンピューティングデバイスは、技術的思想32から35のいずれかに記載のコンピューティングデバイスにおいて、毛髪の外観は色を含み、毛髪の細かいスタイルは、毛髪ストランド間の束のスタイル及びシェーディング変化のいずれかを含むより細かい詳細を含む。
技術的思想37のコンピューティングデバイスは、技術的思想32から36のいずれかに記載のコンピューティングデバイスにおいて、前記命令が実行されると、前記コンピューティングデバイスに、ヘアスタイルに関連付けられた製品および/またはサービスを購入するための電子商取引サービスへのインターフェースを提供するように動作させる。
技術的思想38のコンピューティングデバイスは、技術的思想32から37のいずれかに記載のコンピューティングデバイスにおいて、前記命令が実行されると、前記コンピューティングデバイスに、ヘアスタイルに関連する製品および/またはサービスを推奨するように構成されたサービスへのインターフェースを前記コンピューティングデバイスに提供するように動作させる。
技術的思想39のコンピューティングデバイスは、技術的思想32から38のいずれかに記載のコンピューティングデバイスにおいて、前記命令が実行されると、前記コンピューティングデバイスにI を受信するインターフェースを提供し、それぞれの毛髪属性を示す参照画像の記憶を提供し、ヘアスタイルの移送のための毛髪属性を定義するために少なくとも1つの参照画像を選択するための入力を受信する選択インターフェースを提供するように動作させる。
技術的思想40のコンピューティングデバイスは、技術的思想32から39のいずれかに記載のコンピューティングデバイスにおいて、前記命令が実行されると、前記コンピューティングデバイスに、前記参照画像をアップロードするためのインターフェースを提供するように動作させる。
技術的思想41のコンピューティングデバイスは、処理回路を備えるものであり、前記処理回路が動作すると、アイデンティティ画像と、アイデンティティ上のヘアスタイルをシミュレートするための異なるヘアスタイル属性を表す複数の参照画像とに対して仮想的なヘアスタイルの試着を実行するためのネットワークフレームワークを提供し、前記ネットワークフレームワークは前記アイデンティティ及びヘアスタイルを仮想的なヘアスタイルの試着を表す合成画像に組み込むときに現実的な合成された毛髪を提供するために前記異なるヘアスタイル属性を解きほぐす最適化を実行し、提示のために前記合成画像を提供するように構成される。
技術的思想42のコンピューティングデバイスは、技術的思想41記載のコンピューティングデバイスにおいて、前記回路が動作すると、ヘアスタイルに関連付けられた製品、サービス又はその両方を購入するためのインターフェースを提供することと、ヘアスタイルに関連付けられた推奨を生成するためのインターフェースを提供することとのうちの少なくとも1つを動作させる。
技術的思想43の方法は、アイデンティティ画像およびアイデンティティ上のヘアスタイルをシミュレートするための異なるヘアスタイル属性を表す複数の参照画像に対して仮想的なヘアスタイルの試着と、前記アイデンティティ及びヘアスタイルを前記仮想的なヘアスタイルの試着を表す合成画像に組み込むときに、前記異なるヘアスタイル属性を解きほぐして現実的な合成された毛髪を提供する最適化を実行するように構成されたネットワークフレームワークを用いて実行される前記試着とを実行し、提示のために前記合成画像を提供する。
技術的思想44の方法は、技術的思想43記載の方法において、ヘアスタイルに関連付けられた製品、サービス又はその両方を購入するためのインターフェースを提供することと、ヘアスタイルに関連付けられた推奨を生成するためのインターフェースを提供することと、のうちの少なくとも1つを含む。
【国際調査報告】