(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-04
(45)【発行日】2024-12-12
(54)【発明の名称】仮想顔化粧の除去、高速顔検出およびランドマーク追跡
(51)【国際特許分類】
G06T 1/00 20060101AFI20241205BHJP
G06T 7/00 20170101ALI20241205BHJP
G06T 7/90 20170101ALI20241205BHJP
G06V 40/16 20220101ALI20241205BHJP
G06V 10/82 20220101ALI20241205BHJP
【FI】
G06T1/00 340A
G06T7/00 660A
G06T7/90 A
G06T7/00 350C
G06V40/16 Z
G06V10/82
(21)【出願番号】P 2022204236
(22)【出願日】2022-12-21
(62)【分割の表示】P 2019566775の分割
【原出願日】2018-07-13
【審査請求日】2023-01-11
(32)【優先日】2017-07-13
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】000001959
【氏名又は名称】株式会社 資生堂
(74)【代理人】
【識別番号】110000796
【氏名又は名称】弁理士法人三枝国際特許事務所
(72)【発明者】
【氏名】フー ユン
(72)【発明者】
【氏名】ワン シューヤン
(72)【発明者】
【氏名】リー スーミン
(72)【発明者】
【氏名】ジャン ソンヤオ
(72)【発明者】
【氏名】スン ビン
(72)【発明者】
【氏名】マオ ハイイ
(72)【発明者】
【氏名】チュン カイ ホ エドガー
【審査官】渡部 幸和
(56)【参考文献】
【文献】特開2012-190287(JP,A)
【文献】特開2004-283357(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 7/00
G06V 40/00
G06V 10/00
(57)【特許請求の範囲】
【請求項1】
顔を有する入力画像上に出力効果を生成する方法であって、
(a)顔ランドマークを有するユーザの顔画像を提供することと、
(b)前記ユーザの顔画像から前記顔ランドマークを探索することであって、前記顔ランドマークが第1の領域を含み、前記第1の領域に関連付けられたランドマークが唇色を有する前記顔画像の唇に関連付けられ、前記第1の領域が唇領域を含む、探索することと、
(c)前記顔画像の前記唇領域を
、彩度チャネルおよび/または色値チャネルを含む少なくとも1つのカラーチャネルに変換し、前記唇領域の光分布を検出および分析することと、
(d)変化する光分布にわたって前記少なくとも1つのカラーチャネルをヒストグラムマッチングに供給し、前記唇領域の前記光分布から変化する事前定義された光分布を有するヒストグラムを特定することにより、少なくとも1つの第1の出力効果を生成することと、
(e)前記出力効果を前記顔画像と組み合わせて、前記唇色と唇に適用された前記少なくとも1つの第1の出力効果とを有する第1の結果画像を提供することとを含む、方法。
【請求項2】
前記変換ステップ(c)の前に、前記方法が、さらに、前記ユーザの顔画像の前記唇領域から化粧を除去するステップを含む、請求項1に記載の方法。
【請求項3】
前記顔ランドマークが第2の領域を含み、前記第2の領域における前記ランドマークが前記顔画像の目と関連付けられ、前記第2の領域が目領域を含み、前記方法が、さらに、
(f)前記顔画像の前記目領域を少なくとも1つの第1のチャネルに分解し、前記目領域の光分布を検出および分析することと、
(g)前記少なくとも1つの第1のチャネルを、変化する光分布にわたってヒストグラムマッチングに供給し、前記目領域の前記光分布とは異なる事前定義された光分布を有するヒストグラムを特定することによって前記目に少なくとも1つの第2の出力効果を生成することと、
(h)前記第1の結果画像を前記少なくとも1つの第2の出力効果と組み合わせ、前記事前定義された唇色および前記唇に対する前記少なくとも1つの第1の出力効果および前記目に対する前記少なくとも1つの第2の出力効果を有する第2の結果画像を提供することとを含む、請求項1に記載の方法。
【請求項4】
前記少なくとも1つの第1のチャネルが、シェーディングまたは反射率のうちの1つを含む、請求項
3に記載の方法。
【請求項5】
前記事前定義された光分布を有する前記ヒストグラムの光分布が、透明度および滑らかさを追加し、前記少なくとも1つの第1の出力効果が、光沢効果を含む、請求項1に記載の方法。
【請求項6】
前記光沢効果が、前記透明度のレベルによって変化する、請求項
5に記載の方法。
【請求項7】
前記事前定義された光分布を有する前記ヒストグラムの光分布が、ランダムな反射率を追加し、前記少なくとも1つの第1の出力効果が、自然効果を含む、請求項1に記載の方法。
【請求項8】
前記事前定義された光分布を有する前記ヒストグラムの光分布が、透明度および艶を追加し、前記少なくとも1つの第1の出力効果が、艶効果を含む、請求項1に記載の方法。
【請求項9】
前記事前定義された光分布を有する前記ヒストグラムの光分布が、きらめきを追加し、前記少なくとも1つの第1の出力効果が、きらめき効果を含む、請求項1に記載の方法。
【請求項10】
前記ステップ(d)および(e)を繰り返して、前記顔画像に少なくとも1つの異なる出力効果を生み出し、前記顔画像における前記少なくとも1つの異なる出力効果のうちの1つを有する各結果画像が、前記
第1の結果画像と組み合わせられ、前記少なくとも1つの第1の出力効果と、前記顔画像に対する前記少なくとも1つの異なる出力効果のそれぞれとを有する最終結果画像を提供する、請求項1に記載の方法。
【請求項11】
前記方法が、さらに、ステップ(b)の後に、前記唇領域の面積を計算し、前記唇領域の面積を所定の比率で拡大して目標拡大ランドマークを提供し、前記少なくとも1つの第1の出力効果に加えて膨らみ出力効果を生み出すことと、前記膨らみ出力効果を前記少なくとも1つの第1の出力効果および前記顔画像と組み合わせて歪ませ、前記唇に適用された唇色、前記膨らみ出力効果および前記少なくとも1つの第1の出力効果を有する前記第1の結果画像を提供することとを含む、請求項1に記載の方法。
【請求項12】
前記事前定義された光分布を有する前記ヒストグラムの光分布が、透明度および艶を追加し、前記少なくとも1つの第1の出力効果が、艶効果を含み、前記結果画像が、膨らんで艶のある外観を含む、請求項1
1に記載の方法。
【請求項13】
深層畳み込みニューラルネットワーク構造を有する訓練モジュールを備えるテクスチャシミュレータを提供することと、
前処理モジュールにおいて入力唇領域を処理し、所望の口紅色のL
*a
*b
*色空間の輝度チャネルと重み付きカバレッジ係数とを使用して前記所望の口紅色および輝度向上を有するように前記入力唇領域を変更して輝度分布とシミュレートされた動的テクスチャとを有するLチャネル画像を作成し、a
*チャネルおよびb
*チャネルについて入力画像をRGBからL
*a
*b
*空間色に処理することと、
前記前処理モジュールから、訓練モジュールを使用して画像データセットに対して訓練されたモノチャネルスタイル移行モジュールに前記Lチャネル画像を供給し、前記データセットにおける参照スタイル画像に基づいて合成色およびテクスチャを有する合成Lチャネル画像を作成することと、
動的テクスチャシミュレーションを有する前記合成Lチャネル画像と、RGB変換のための前記前処理モジュールからのa
*チャネル画像およびb
*チャネル画像とを、RGB変換のための後処理モジュールにおいてさらに処理することとをさらに含む、請求項1に記載の方法。
【請求項14】
顔を有する入力画像に対する出力効果を生成する方法であって、
(a)顔ランドマークを有するユーザの顔画像を提供することと、
(b)前記ユーザの顔画像から前記顔ランドマークを探索することであって、前記顔ランドマークが第2の領域を含み、前記第2の領域に関連付けられたランドマークが前記顔画像の目に関連付けられ、前記第2の領域が目領域を含む、探索することと、
(c)前記顔画像の前記目領域を少なくとも1つの第1のチャネルに分解し、前記目領域の光分布を検出および分析することと、
(d)前記少なくとも1つの第1のチャネルを、変化する光分布にわたってヒストグラムマッチングに供給し、前記目領域の前記光分布とは異なる事前定義された光分布を有するヒストグラムを特定することによって前記目に対して少なくとも1つの第2の出力効果を生成することと、
(e)前記顔画像を前記少なくとも1つの第2の出力効果と組み合わせ、前記目に対する前記少なくとも1つの第2の出力効果を有する第2の結果画像を提供することとを含む、方法。
【請求項15】
深層畳み込みニューラルネットワーク構造を有する訓練モジュールを備えるテクスチャシミュレータを提供することと、
前処理モジュールにおいて入力唇領域を処理し、所望の口紅色のL
*a
*b
*色空間の輝度チャネルと重み付きカバレッジ係数とを使用して前記所望の口紅色および輝度向上を有するように前記入力唇領域を変更して輝度分布とシミュレートされた動的テクスチャとを有するLチャネル画像を作成し、a
*チャネルおよびb
*チャネルについて入力画像をRGBからL
*a
*b
*空間色に処理することと、
前記前処理モジュールから、訓練モジュールを使用して画像データセットに対して訓練されたモノチャネルスタイル移行モジュールに前記Lチャネル画像を供給し、前記データセットにおける参照スタイル画像に基づいて合成色およびテクスチャを有する合成Lチャネル画像を作成することと、
動的テクスチャシミュレーションを有する前記合成Lチャネル画像と、RGB変換のための前記前処理モジュールからのa
*チャネル画像およびb
*チャネル画像とを、RGB変換のための後処理モジュールにおいてさらに処理することとをさらに含む、請求項1
4に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
仮想顔化粧の除去およびシミュレーション、高速顔検出およびランドマーク追跡
【0002】
(関連出願の相互参照)
この非仮特許出願は、2017年7月13日に出願された米国仮特許出願第62/531,929号からの米国特許法第119条(e)に基づく利益を主張し、その全開示は、参照により本明細書に組み込まれる。
【0003】
(技術分野)
本開示は、ユーザ画像に対する化粧の仮想除去ならびに化粧および化粧効果の適用のための方法を含む、仮想顔化粧シミュレーションのためのシステムおよび方法に関する。本開示は、さらに、ニューラルネットワークを使用した仮想顔化粧シミュレーションのためのシステムおよび方法に関する。本開示はまた、仮想化粧チュートリアル、化粧推薦、カラーマップおよび標準を使用した明るさの自動調整および色の較正、高速顔ランドマーク検出および追跡のフレームワーク、ならびに高速な顔の動きに関連する遅延の問題と、ユーザがビデオにさらにとどまることに関連するランドマークの揺れの問題とを解決する方法を含む、仮想顔化粧シミュレーションを改善するための様々な方法およびシステムに関する。
【背景技術】
【0004】
顔化粧は、私たちの日常生活やソーシャルネットワーキングにおいて広く普及している。電子商取引、スマートフォンおよび拡張現実技術の急速な成長により、現在では、それらの製品が顧客に一度適用されることが期待されるが実際に化粧品を適用する必要はなく、顧客が特定の化粧品を見ることを可能にする仮想化粧の試用アプリケーションが市場に存在している。しかしながら、既存の仮想システムは、特定の場合に既にユーザに適用されている可能性のある既存の化粧の影響による不一致の問題を抱えている。ユーザが既に顔に化粧を適用している場合、仮想システムは、その仮想化粧アプリケーションをそのまま顔にオーバーレイすることができるのみであり、また、化粧が既にユーザに適用されている場合、誤った、一貫性のないまたは非現実的な結果につながる可能性がある。
【0005】
仮想ミラーシステムは、オンラインで衣服などのオブジェクトまたは消費財の外観を変更する際に使用することが知られている。これらのシステムは、オブジェクトの形状および置換色または衣服のオーバーレイに焦点を当てている。そのような技術の例は、米国特許第7,948,481号明細書に記載されている。
【0006】
同様のオーバーレイ方法は、化粧品のためにならびにユーザの顔に対する様々な化粧品の「仮想試用」のために開発された。そのような方法は、メインサーバからの顔認識ソフトウェアを組み込み、ユーザのサーバからのデジタル画像上の顔特徴を識別する。そして、目、唇などの検出された顔特徴は、特定の化粧品からの画素画像を重ねることができる。例えば、米国特許第8,498,456号明細書を参照のこと。
【0007】
そのようなシステムは、時間の経過とともに改善され、より高い精度を達成している。例えば、画像は、キャプチャされ、ユーザからのキャプチャ画像データと、キャプチャ画像に数学的にオーバーレイされてマッチングされる拡張顔画像のデータのデータベースを使用することにより、仮想試用のために拡張されて、例えば米国特許出願公開第2016/0196665号明細書に記載されているような拡張画像を作成することができる。
【0008】
米国特許第8,265,351号明細書に記載されているように、「仮想フェイスリフト」などの拡張された外観を作成する顔認識ソフトウェアを使用した特徴のマッチングおよびデジタル強化も知られている。
【0009】
さらなる精度とより良い最終結果を得るために、仮想試用領域においてさらなる改善が行われた。例えば、ユーザの顔の化粧を検出および除去する方法およびシステムを有する仮想システムが米国特許出願公開第2017/0076474号明細書に記載されている。システムは、化粧の種類を検出し、化粧の有無にかかわらずユーザのデータベースに基づいて、ユーザから化粧を除去する。
【0010】
そのような技術は改善を続けているが、既存の化粧の潜在的な存在の影響を排除することによる最終結果のより一貫性のある現実的な色付けおよび仮想設定において化粧を除去および適用する技術の強化が当該技術分野において必要である。そのようなシステムによって達成される最終結果がより正確で現実的であればあるほど、それらは消費者にとって実行可能な代替手段であることがより有用になる。さらに、顔ランドマーク検出は、拡張現実、仮想現実、人間-コンピュータの相互作用などにおいて多くの潜在的な魅力的なアプリケーションを提示するが、現在では、人々に仮想化粧を着用させ、顔ランドマークとして特定の終了点を使用して顔を認識させるアプリケーションがあり、精度の観点からそのような開発技術にはまだ問題がある。例えば、これらの技術を使用する場合、ビデオ内のそのようなアプリケーションの性能に深刻な影響を与える以下の2つの主要な問題、すなわち、揺れの問題および遅延の問題が常に存在する。
【0011】
発生する可能性がある他の問題は、画像に表示することが望まれないランドマークが隠される可能性があったりまたは従来のランドマーク技術の適用を困難にする可能性があったりするということであり、例えば、歪んだ笑顔または口をすぼめたキスの表情を顔上で検出して変更することは困難である。指先、歯、舌または唇を覆う他のオブジェクトなど、唇領域上の他の閉塞は、そのような標準的な顔認識または検出技術の利用を困難にする。
【0012】
したがって、当該技術分野では、試用において既存の化粧の効果または潜在的な効果を排除することによる一貫性のある現実的な色の必要性だけでなく、より正確な顔ランドマークを使用したより良い検出および認識のための滑らかなビデオ、ラグおよび揺れに関連する問題やビデオにおける問題を回避するとともに、ランドマークおよび他の問題を使用するときに隠された領域に関連する問題を解消する技術を見出すことによる真の色および明るさの必要性もある。また、当該技術分野では、ユーザが仮想試用システムと相互作用するためのより便利で合理化された方法を提供し、単純なカラーオーバーレイによって達成されることができるよりも現実的な効果を示す必要性もある。
【発明の概要】
【0013】
本明細書の一実施形態では、本発明は、顔の化粧を仮想的に除去する方法であって、化粧が適用されたユーザの顔画像を提供することと、ユーザの顔画像から少なくとも第1の領域および第1の領域とは異なる第2の領域を含む顔ランドマークを探索することと、顔画像の第1の領域を第1のチャネルに分解することと、第1の領域の第1のチャネルをヒストグラムマッチングに供給して第1の領域において化粧が除去された第1の画像を取得することと、顔画像の第2の領域をカラーチャネルに変換することと、異なる照明条件下でのカラーチャネルをヒストグラムマッチングに供給して第2の領域において化粧が除去された第2の画像を取得することと、第1の画像と第2の画像とを組み合わせて第1の領域および第2の領域から化粧が除去された結果顔画像を形成することとを含む、方法を含む。
【0014】
そのような方法では、第1のチャネルは、反射率チャネルおよびシェーディングチャネルを含むことができる。反射率チャネルは、顔画像の材料依存特性を含むことができ、シェーディングチャネルは、顔画像の光依存特性を含むことができる。反射率チャネルは、好ましくは1色のみを含み、シェーディングチャネルは、好ましくは第1の領域の形状情報を保存する。
【0015】
本方法の第1の領域は、好ましくは目領域を含み、第2の領域は、好ましくは唇領域を含む。第1の領域の第1のチャネルをヒストグラムマッチングに供給する前の第1の領域の化粧の種類は、好ましくは、顔画像の第2の領域をカラーチャネルに変換する前の第2の領域の化粧の種類とは異なる。カラーチャネルは、色相チャネル、彩度チャネル、および色値チャネルを含むことができる。
【0016】
さらなる実施形態では、カラーチャネルをヒストグラムマッチングに供給することは、異なる照明条件下での各顔画像の対応する第2の領域にそれぞれ化粧を有しない顔画像のデータセットを提供することと、異なる照明条件下でのカラーチャネルのうちの1つ以上のヒストグラムを事前定義されたヒストグラムのうちの対応するものとマッチングして第2の画像を取得することとを含む。一実施形態では、カラーチャネルは、値および/または彩度チャネルである。
【0017】
本発明はまた、顔の化粧を仮想的に除去する方法であって、化粧が適用されたユーザの顔画像を提供することと、ユーザの顔画像の領域内の顔ランドマークを探索することと、顔画像の領域を別個のチャネルに分解することと、領域の別個のチャネルをヒストグラムマッチングに供給して領域において化粧が除去された結果画像を取得することとを含む、方法を含む。
【0018】
この実施形態では、ユーザの顔画像の領域は、好ましくは目領域を含む。画像を分解する前のユーザの顔画像の化粧は、目の化粧を含むことができる。別個のチャネルは、反射率チャネルおよびシェーディングチャネルを含むことができる。反射率チャネルは、顔画像の材料依存特性を含むことができ、シェーディングチャネルは、顔画像の光依存特性を含むことができる。反射率チャネルは、好ましくは1色のみを含み、シェーディングチャネルは、好ましくは第1の領域の形状情報を保存する。
【0019】
本発明は、さらに、顔の化粧を仮想的に除去する方法にであって、化粧が適用されたユーザの顔画像を提供することと、ユーザの顔画像の領域内の顔ランドマークを探索することと、顔画像の領域をカラーチャネルに変換することと、異なる照明条件下でのカラーチャネルをヒストグラムマッチングに供給して、その領域において化粧が除去された結果画像を取得することとを含む、方法を含む。
【0020】
この方法の実施形態では、ユーザの顔画像の領域は、好ましくは唇領域を含む。顔画像の領域をカラーチャネルに変換する前の顔画像の化粧はまた、好ましくは口紅またはリップグロスである。カラーチャネルは、色相チャネル、彩度チャネル、および色値チャネルを含むことができる。カラーチャネルをヒストグラムマッチングに供給するステップは、事前定義されたヒストグラムを含む、化粧なしの顔画像のデータセットを提供することと、異なる照明条件下でのカラーチャネルのヒストグラムを、事前定義されたヒストグラムのうちの対応するものとマッチングして第2の画像を取得することとを含むことができる。本発明の一実施形態では、カラーチャネルは、色値チャネルおよび/または彩度チャネルである。
【0021】
この実施形態では、本方法は、さらに、標準唇色と比較して異なる照明条件についての対応する唇色シフトを有するそのような異なる照明条件下での皮膚色データセットを収集
することと、ユーザの画像から入力皮膚色を抽出することと、特定の照明条件下での入力皮膚色の対応する唇色シフトを検出することと、ユーザの顔画像の第1の領域からの除去唇色として使用するための最終修正唇色を提供することとを含み、最終修正唇色が、検出された色シフトを有することができる。
【0022】
また、本発明の範囲内にあるのは、入力画像から化粧を検出および除去するシステムであって、システムは、ユーザインターフェースから化粧が適用された入力画像を受信し、少なくとも第1の領域および/または第1の領域とは異なる第2の領域においてユーザの顔画像から顔ランドマークを探索することであって、第1の領域が化粧を含みおよび/または第2の領域が化粧を含む、探索することと、第1の領域が探索された場合、顔画像の第1の領域を第1のチャネルに分解し、それぞれ化粧を有しない顔のヒストグラムのデータセットから参照ヒストグラムを使用して第1の領域の第1のチャネルをヒストグラムマッチングに供給し、第1の領域において化粧が除去された第1の画像を取得し、および/または第2の領域が探索された場合、顔画像の第2の領域をカラーチャネルに変換し、異なる照明条件下でのヒストグラムマッチングにカラーチャネルを供給し、それぞれ化粧を有しない異なる照明条件下での顔のヒストグラムのデータセットからの参照ヒストグラムを使用して第2の領域において化粧が除去された第2の画像を取得することと、第1の領域および第2の領域の両方が探索された場合、第1の画像および第2の画像を組み合わせて、第1の領域および第2の領域から化粧が除去された結果顔画像を形成することと、を行うことができるように構成される。
【0023】
本明細書のシステムの一実施形態では、システムは、システムメモリおよびシステムプロセッサを有するコントローラを備えることができ、コントローラは、入力画像を受信し、化粧を有しない顔のヒストグラムのデータセットおよび異なる照明条件下での顔のヒストグラムのデータセットを受信および/またはメモリに記憶するように構成され、システムプロセッサは、顔画像を検出して顔ランドマークを探索することができるプログラミング命令を実行することができる。プロセッサは、好ましくは、入力画像の第1の領域の第1のチャネルへの分解および第1の領域の第1のチャネルのヒストグラムマッチングのためのプログラミング命令を実行することができ、プロセッサは、顔画像の第2の領域のカラーチャネルへの変換および異なる照明条件下でのカラーチャネルのヒストグラムマッチングのためのプログラミング命令を実行することができる。
【0024】
また、この実施形態では、ユーザインターフェースは、スマートフォンデジタルカメラ、デジタルカメラ、デジタルビデオカメラ、ウェブカメラ、またはスマートフォンデジタルビデオカメラとすることができる。
【0025】
本発明はまた、好ましくは、顔を有する入力画像上に出力効果を生成する方法であって、(a)顔ランドマークを有するユーザの顔画像を提供することと、(b)ユーザの顔画像から顔ランドマークを探索することであって、顔ランドマークが第1の領域を含み、第1の領域に関連付けられたランドマークが唇色を有する顔画像の唇に関連付けられ、第1の領域が唇領域を含む、探索することと、(c)画像の唇領域を少なくとも1つのカラーチャネルに変換し、唇領域の光分布を検出および分析することと、(d)変化する光分布にわたって少なくとも1つのカラーチャネルをヒストグラムマッチングに供給し、唇領域の光分布から変化する事前定義された光分布を有するヒストグラムを特定することにより、少なくとも1つの出力効果を生成することと、(e)出力効果を第1の画像と組み合わせて、唇色と唇に適用された少なくとも1つの出力効果とを有する結果画像を提供することとを含む、方法も含む。
【0026】
この実施形態では、少なくとも1つのカラーチャネルは、彩度チャネルおよび/または色値チャネルを含むことができる。この実施形態では、変換ステップ(c)の前に、本方
法は、さらに、ユーザの顔画像の唇領域から化粧を除去するステップを含むことができる。他の実施形態では、顔ランドマークは、第2を含むことができ、第2の領域は、目領域を含むことができる。そのような実施形態では、本方法は、さらに、(f)画像の目領域を少なくとも1つの第1のチャネルに分解し、目領域の光分布を検出および分析することと、(g)少なくとも1つの第1のチャネルを、変化する光分布にわたってヒストグラムマッチングに供給し、目領域の光分布とは異なる事前定義された光分布を有するヒストグラムを特定することによって目に少なくとも1つの第2の出力効果を生成することと、(h)第1の結果画像を第2の画像および少なくとも1つの第2の出力効果と組み合わせ、事前定義された唇色および唇に対する少なくとも1つの第1の出力効果および目に対する少なくとも1つの第2の出力効果を有する第2の結果画像を提供することとを含むことができる。
【0027】
この実施形態では、少なくとも1つの第1のチャネルは、シェーディングまたは反射率のうちの1つを含むことができる。事前定義された光分布を有するヒストグラムの光分布は、透明度および滑らかさを追加してもよく、少なくとも1つの出力効果は、光沢効果を含んでもよい。光沢効果は、好ましくは、透明度のレベルによって変化する。事前定義された光分布を有するヒストグラムの光分布は、ランダムな反射率を追加してもよく、少なくとも1つの出力効果は、自然効果を含んでもよい。事前定義された光分布を有するヒストグラムの光分布は、透明度および艶を追加してもよく、少なくとも1つの出力効果は、艶効果を含んでもよい。事前定義された光分布を有するヒストグラムの光分布は、きらめきを追加してもよく、少なくとも1つの出力効果は、きらめき効果であってもよい。
【0028】
この実施形態では、ステップ(d)および(e)を繰り返して、第1の画像に少なくとも1つの異なる出力効果を生み出すことができ、第1の画像に少なくとも1つの異なる出力効果のうちの1つを有する各結果画像は、第1の結果画像と組み合わせられ、少なくとも1つの第1の出力効果と、第1の画像に対する少なくとも1つの異なる出力効果のそれぞれとを有する最終結果画像を提供する。
【0029】
本方法は、さらに、ステップ(b)の後に、唇領域の面積を計算し、唇領域の面積を所定の比率で拡大して目標拡大ランドマークを提供し、少なくとも1つの第1の出力効果に加えて膨らみ出力効果を生み出すことと、膨らみ出力効果を少なくとも1つの第1の出力効果および第1の画像と組み合わせて歪ませ、唇に適用された唇色、膨らみ出力効果および少なくとも1つの第1の出力効果を有する第1の結果画像を提供することとを含むことができる。そのような実施形態では、事前定義された光分布を有するヒストグラムの光分布は、さらに、透明度および艶を追加してもよく、少なくとも1つの第1の出力効果は、好ましくは艶効果を含み、結果画像は、膨らんで艶のある外観を含む。
【0030】
本明細書の本発明は、さらに、顔を有する入力画像に対する出力効果を生成する方法であって、(a)顔ランドマークを有するユーザの顔画像を提供することと、(b)ユーザの顔画像から顔ランドマークを探索することであって、顔ランドマークが第2の領域を含み、第2の領域に関連付けられたランドマークが顔画像の目に関連付けられ、第2の領域が目領域を含む、探索することと、(c)画像の目領域を少なくとも1つの第1のチャネルに分解し、目領域の光分布を検出および分析することと、(d)少なくとも1つの第1のチャネルを、変化する光分布にわたってヒストグラムマッチングに供給し、目領域の光分布とは異なる事前定義された光分布を有するヒストグラムを特定することによって目に対して少なくとも1つの第2の出力効果を生成することと、(e)第1の結果画像を第2の画像および少なくとも1つの第2の出力効果と組み合わせ、事前定義された唇色および少なくとも1つの第1の出力効果および少なくとも1つの第2の出力効果を有する第2の結果画像を提供することとを含む、方法を含む。
【0031】
本発明は、さらに、化粧推薦システムであって、変化する化粧スタイルを提供するための少なくとも1つの訓練されたニューラルネットワークモデルと、化粧品データベースと、化粧注釈システムとを備え、化粧推薦システムが、注釈システムによって注釈付けされた少なくとも1つの訓練されたニューラルネットワーク内のデータおよび/または化粧品データベースからの推薦品に基づいて、ユーザへのパーソナライズされた段階的な化粧指示を生成することができ、ユーザの入力画像に基づいてユーザに仮想化粧アプリケーションを段階的に表示することができる、化粧推薦システムを備える。少なくとも1つの訓練されたモデルは、好ましくは、深層学習フレームワークから導出される。深層学習フレームワークは、好ましくは、選択された化粧スタイルが適用された顔画像、および化粧注釈システムからの出力グラウンドトゥルースデータのうちの1つ以上のデータ入力を受信する。
【0032】
注釈システムは、好ましくは、選択された化粧スタイルが適用された顔画像に注釈を付け、注釈付き顔画像は、ニューラルネットワークの訓練データを提供する。化粧スタイルは、手動で選択されて注釈を付けられることができる。入力画像は、ユーザのビデオからのフレームとすることができる。推薦システムは、さらに、少なくとも1つの仮想化粧チュートリアルを備えてもよい。一実施形態では、段階的な指示は、(a)第1の種類の化粧用の第1の選択された色を表示することと、(b)選択された色の化粧の種類をユーザの顔の入力画像の対応する領域に仮想的に適用することとを含むことができる。そのような実施形態では、ステップ(a)および(b)は、少なくとも1つのさらなる選択された色および少なくとも1つの第2の種類の化粧について繰り返され、推薦システムにおけるデータに基づいてユーザの入力画像に対して所望の化粧外見を作成することができる。
【0033】
推薦システムは、入力画像の明るさを調整するシステムをさらに備えるように変更することができ、明るさを調整するシステムは、皮膚色推定器を使用して、ユーザの入力画像内の顔の正規化皮膚色を推定し、顔ランドマークを検出し、顔領域、画像中心領域および境界領域に対して異なる重み係数を割り当て、入力画像の平均明るさを計算し、平均明るさを推定された正規化皮膚色と比較して補正係数を生成し、補正係数に従って多項式変換を使用して入力画像に曲線変換を適用するように構成される。
【0034】
本明細書の本発明は、さらに、仮想化粧の試用または除去方法に有用な入力画像の明るさを調整するシステムであって、以下のステップを実行するように構成されたソフトウェアを有するシステムを含む。皮膚色推定器を使用してユーザの入力画像における顔の正規化皮膚色を推定し、顔ランドマークを検出し、重み係数を顔領域、画像中心領域および境界領域に割り当て、入力画像の平均明るさを計算し、平均明るさを顔の推定された正規化皮膚色と比較して補正係数を生成し、補正係数に従って多項式変換を使用して曲線変換を入力画像に適用する。
【0035】
さらに、本発明の範囲内にあるのは、較正色を提供するシステムであって、以下のステップを実行するように構成されたシステムである。デジタルカメラを有する装置から受信したユーザの入力画像に応じてカラーパッチを有する色参照チャートを自動的に検出し、カラーパッチのそれぞれの画素値を読み取り、色参照チャートからの検出された情報を、ゴールデン標準システムに基づいてキャプチャされた記憶された色参照チャートの画素値と比較し、入力画像がゴールデン標準システムに合わせて変更されて色の一貫性を維持するようにカメラの較正パラメータを制御システムに送信する。
【0036】
そのような実施形態では、較正色を提供するシステムによって較正された色は、オブジェクトの色を判定し、製品の色を判定し、ユーザに適用される化粧品の色を判定し、色の変化を評価するために使用することができる。
【0037】
本発明は、さらに、仮想化粧チュートリアルを提供する方法であって、1つ以上の既存の化粧ビデオからキーフレームを選択すること、および/または選択されたキーフレームにおける製品名文字の検出、製品名を探索するための文字認識の使用、または製品データベース内の製品を評価する訓練された製品分類器から導出された分類器による製品の特定によって既存の化粧ビデオにおける製品名を検出することと、選択されたキーフレームからの化粧情報および/または化粧チュートリアル概要において検出された製品名を要約することと、化粧チュートリアル概要に基づいて仮想化粧チュートリアルを生成することとを含む、方法を含む。
【0038】
チュートリアルの方法では、キーフレームは、1つ以上の既存の化粧ビデオからのビデオデータをセグメントに分割し、フレームの相違、色ヒストグラムおよび/またはカメラの動きに基づいて一組の候補キーフレームを生成し、一組の基準と前のフレームまたは次のフレームに対する異なる種類の化粧かどうかとに基づいて最終キーフレームを選択することによって選択されることができる。
【0039】
本発明はまた、高速顔検出およびランドマーク追跡のための方法であって、2次元(2D)カメラを使用して入力画像をキャプチャすることと、異なるスケールの画像を使用して画像ピラミッドを作成することと、スライディングウィンドウおよびサポートベクターマシン(SVM)を使用して勾配のヒストグラム(HOG)特徴を適用して画像ピラミッドの画像上で顔の境界ボックスを見つけることと、グローバル学習降下正規化(GLDR)モデルに基づく1つ以上の顔のランドマーク検出器を使用して、顔が存在する場合に境界ボックス内の顔を検出することとを含む、方法を含む。本方法は、さらに、パッチを抽出し、ランドマーク平均シフトフィッティングを画像に適用してランドマークデータを平滑化し、画像ピラミッドにわたるランドマーク位置を正規化することと、3層ニューラルネットワークモデルを正確性検証モデルとして適用して誤形状をフィルタリングし、最終ランドマークを関連付けて選択することとを含むことができる。ニューラルネットワークの3層は、好ましくは、畳み込み層、アップサンプル層およびマッピング層である。本方法はまた、高速移動に関連付けられた遅延を減らし、移動不足に関連付けられた揺れを減らすステップも含むことができ、これは、点分布モデル(PDM)を使用してグラウンドトゥルースデータセットからノイズをフィルタリングしてランドマークビデオをより安定にすることを含む。
【0040】
本明細書にはまた、顔画像から唇領域を抽出する方法であって、(a)入力顔画像上の顔ランドマークを使用して顔領域を探索することと、(b)ランドマークを使用して顔領域を取得して非顔背景を除去することと、(c)各画素がL*a*b*空間における色値を有するL*a*b*空間を使用して顔色に基づくガウス混合モデルを入力顔画像の下部に適用し、入力顔画像の一部における各画素の確率を計算して基準閾値以上であるかどうかを判定し、顔領域が検出される顔画像の一部における皮膚領域の確率マップを生成することと、(d)確率顔マップから初期顔領域バイナリ画像を生成することと、(e)反復法を使用して基準閾値を調整し、改良バイナリ画像を判定することと、(f)事前に決定された基準に基づいて各反復において改良バイナリ画像を評価し、改良バイナリ画像を使用して顔領域を検出することとを含む、方法も含まれる。
【0041】
そのような方法の一実施形態では、ガウス混合モデルは、3つ以上の成分を有することができる。閾値は、配列を使用してオフセットによって調整され、基準閾値を繰り返し改良することができる。事前に決定された基準は、顔領域の周りの外部矩形の幅と高さの比、顔領域の面積と外部矩形の面積との比、および顔領域の面積と顔画像の一部の面積との比のうちの1つ以上を含むことができる。一実施形態における顔領域は、唇領域であり、顔画像の一部は、顔画像の下部である。本方法は、さらに、改良ガウス混合モデルにおける初期顔領域および非顔領域の画素のL*a*b*色空間色を使用することと、初期顔領
域および非顔領域の確率マップを計算することと、顔領域の検出に使用するガウス混合モデルを使用して全体的な確率マップを作成することとを含むことができる。本方法の様々な実施形態は、さらに、エッジ検出および輪郭化を使用して全体的な確率マップを平滑化することを含むことができる。
【0042】
本発明はまた、顔画像に目化粧アドオン効果を仮想的に提供する方法であって、(a)目の少なくとも1つの目化粧特徴のテンプレートを作成し、目化粧特徴に関連するテンプレート上のランドマーク地点に手動で注釈を付け、ランドマーク地点の場所をテキストファイルとして保存することと、(b)画像フレームのランドマーク検出器を使用して顔画像の目領域のランドマークを抽出することと、(c)画像の目領域をトリミングして、テンプレートの目化粧特徴に関連するランドマークに基づいて画像フレームを作成することと、(d)画像フレームの目領域上の検出された抽出ランドマークから目領域の周りの線形補間によって地点を生成することと、(e)テンプレートの注釈付きランドマークに基づいてテンプレートの周りの地点を生成することと、(f)順方向歪みによりテンプレートを画像フレームに適用し、適用されたテンプレートから目化粧特徴を有する目領域画像フレームを作成することと、(g)目領域画像フレームを元の顔画像にトリミングして戻し、目化粧特徴を有する顔画像を作成することとを含む、方法を含む。そのような方法では、目化粧特徴は、アイシャドウ特徴、ミドルアイシャドウ特徴、アイシャドウテール特徴、アイシャドウコーナー特徴およびまつげ特徴から選択されることができる。本方法のステップ(a)は、アイシャドウ特徴、ミドルアイシャドウ特徴、アイシャドウテール特徴、アイシャドウコーナー特徴およびまつげ特徴のそれぞれについてテンプレートを作成することを含むことができ、本方法は、さらに、テンプレートにおける目特徴のうちの2つ以上について顔画像に対してステップ(b)から(g)を繰り返すことと、顔画像における2つ以上の特徴を組み合わせて合成目化粧外見を作成することとを含むことができる。
【0043】
顔画像に口紅テクスチャを仮想的に提供する方法であって、深層畳み込みニューラルネットワーク構造を有する訓練モジュールを備えるテクスチャシミュレータを提供することと、前処理モジュールにおいて入力唇領域を処理し、所望の口紅色のL*a*b*色空間の輝度チャネルと重み付きカバレッジ係数とを使用して所望の口紅色および輝度向上を有するように入力唇領域を変更して輝度分布とシミュレートされた動的テクスチャとを有するLチャネル画像を作成し、a*チャネルおよびb*チャネルについて入力画像をRGBからL*a*b*空間色に処理することと、前処理モジュールから、訓練モジュールを使用して画像データセットに対して訓練されたモノチャネルスタイル移行モジュールにLチャネル画像を供給し、データセットにおける参照スタイル画像に基づいて合成色およびテクスチャを有する合成Lチャネル画像を作成することと、動的テクスチャシミュレーションを有する合成Lチャネル画像と、RGB変換のための前処理モジュールからのa*チャネル画像およびb*チャネル画像とを、RGB変換のための後処理モジュールにおいてさらに処理することとを含む、方法も本明細書において提供される。
【0044】
また、本発明の範囲内にあるのは、入力画像を使用した仮想化粧除去および仮想化粧適用のためのシステムの実施形態であって、システムは、ユーザインターフェースから化粧が適用された入力画像を受信し、少なくとも第1の領域および/または第1の領域とは異なる第2の領域においてユーザの顔画像から顔ランドマークを探索することであって、第1の領域が化粧を含みおよび/または第2の領域が化粧を含む、探索することと、第1の領域が探索された場合、顔画像の第1の領域を第1のチャネルに分解し、それぞれ化粧を有しない顔のヒストグラムのデータセットから参照ヒストグラムを使用して第1の領域の第1のチャネルをヒストグラムマッチングに供給し、第1の領域において化粧が除去された第1の画像を取得し、および/または第2の領域が探索された場合、顔画像の第2の領域をカラーチャネルに変換し、異なる照明条件下でのヒストグラムマッチングにカラーチ
ャネルを供給し、それぞれ化粧を有しない異なる照明条件下での顔のヒストグラムのデータセットからの参照ヒストグラムを使用して第2の領域において化粧が除去された第2の画像を取得することと、第1の領域および第2の領域の両方が探索された場合、第1の画像および第2の画像を組み合わせて、第1の領域および第2の領域から化粧が除去された結果顔画像を形成し、化粧が除去された結果顔画像の第1の領域に対して所定種類の化粧を仮想的に適用し、および/または化粧が除去された結果顔画像の第2の領域に対して第2の種類の化粧を適用することと、を行うことができるように構成される。
【0045】
関連する実施形態では、本発明は、入力画像を使用した仮想化粧除去および仮想化粧適用のための方法を含み、本方法は、ユーザインターフェースから化粧が適用された入力画像を受信することと、少なくとも第1の領域および/または第1の領域とは異なる第2の領域においてユーザの顔画像から顔ランドマークを探索することであって、第1の領域が化粧を含みおよび/または第2の領域が化粧を含む、探索することと、第1の領域が探索された場合、顔画像の第1の領域を第1のチャネルに分解し、それぞれ化粧を有しない顔のヒストグラムのデータセットから参照ヒストグラムを使用して第1の領域の第1のチャネルをヒストグラムマッチングに供給し、第1の領域において化粧が除去された第1の画像を取得し、および/または第2の領域が探索された場合、顔画像の第2の領域をカラーチャネルに変換し、異なる照明条件下でのヒストグラムマッチングにカラーチャネルを供給し、それぞれ化粧を有しない異なる照明条件下での顔のヒストグラムのデータセットからの参照ヒストグラムを使用して第2の領域において化粧が除去された第2の画像を取得することと、第1の領域および第2の領域の両方が探索された場合、第1の画像および第2の画像を組み合わせて、第1の領域および第2の領域から化粧が除去された結果顔画像を形成することと、化粧が除去された結果顔画像の第1の領域に対して所定種類の化粧を仮想的に適用し、および/または化粧が除去された結果顔画像の第2の領域に対して第2の種類の化粧を適用することとを含む。
【0046】
システムおよび方法の上記の実施形態では、第1の種類の化粧は、仮想化粧アドオンとすることができ、第2の種類の化粧は、仮想口紅とすることができる。システムおよび方法は、好ましくは、さらに、第1の種類の化粧および/または第2の種類の化粧に対して出力終了効果を提供し、および/または第2の種類の化粧に対してシミュレートされたテクスチャを提供することができる。
【図面の簡単な説明】
【0047】
前述の概要、ならびに本発明の好ましい実施形態の以下の詳細な説明は、添付の図面と併せて読むとよりよく理解されるであろう。本発明を説明する目的で、現在好ましい実施形態が図面に示されている。しかしながら、本発明は、示された正確な手段に限定されないことを理解すべきである。図面において、以下のとおりである。
【0048】
【
図1】色相、彩度、および色値を示す例示的なHSV色空間のグラフィカル図である。
【0049】
【
図2】色度平面上に投影される傾斜RGBキューブのグラフィカル図である。
【0050】
【
図3】本開示の実施形態にかかる、化粧を仮想的に除去する方法のフロー図である。
【0051】
【
図4】
図4Aは、本開示の実施形態にかかる分解反射率画像を示している。
図4Bは、本開示の実施形態にかかるシェーディング画像を示している。
【0052】
【
図5】
図5Aは、本開示の実施形態にかかる化粧が除去された反射率画像を示している。
図5Bは、本開示の実施形態にかかるシェーディング画像を示している。
【0053】
図5Cは、
図5Aおよび5Bにそれぞれ示される、化粧が除去された反射率画像およびシェーディング画像を乗算した結果を示している。
【0054】
【
図6】
図6Aは、本開示の実施形態にかかる目領域における化粧除去の例を示している。
図6Bは、本開示の実施形態にかかる目領域における化粧除去の例を示している。
【0055】
【
図7】本開示の実施形態にかかる口紅テクスチャ生成器のブロックフロー図である。
【0056】
【
図8】本開示の実施形態にかかる各発生器の出力効果および実際の唇画像の混合出力を示している。
【0057】
【
図9】本開示の実施形態にかかる深層学習モデル訓練部のブロックフロー図を示している。
【0058】
【
図10】
図10Aは、本開示の実施形態にかかる化粧注釈システムのより詳細な出力例を示している。
図10Bは、本開示の実施形態にかかる化粧注釈システムのより詳細な出力例を示している。
図10Cは、本開示の実施形態にかかる化粧注釈システムのより詳細な出力例を示している。
図10Dは、本開示の実施形態にかかる化粧注釈システムのより詳細な出力例を示している。
【0059】
【
図11】本開示の実施形態にかかる化粧推薦システムのブロックフロー図である。
【0060】
【
図12】本開示の実施形態にかかる仮想顔化粧シミュレーション/推薦システムのブロックフロー図である。
【0061】
【
図13】本開示の実施形態にかかる皮膚色推定のプロセスを示している。
【0062】
【
図14】本開示の実施形態にかかる曲線変換を使用して画像の明るさを調整する方法を示すフロー図である。
【
図15】本開示の実施形態にかかる曲線変換を使用して画像の明るさを調整する方法を示すフロー図である。
【0063】
【
図16】本開示の実施形態にかかる、画像の色参照チャートを検出し、検出された色参照チャートを使用してカメラハードウェアを較正する方法のフロー図である。
【0064】
【
図17】本開示の実施形態にかかる色測定システムを示すブロックフロー図である。
【0065】
【
図18】本開示の実施形態にかかる入力画像および色測定システムを使用して抽出されたその主要色を示している。
【0066】
【
図19】本開示の好ましい実施形態にかかる顔ランドマークフレームワークのためのシステムを示すフロー図である。
【0067】
【
図20】シェーディング事前分布に使用するための画素Pの画素4近傍としての代表的な画素Qの図である。
【0068】
【
図21】ガウス混合法(GMM)を使用する特徴抽出を強化する方法における使用を含む、特徴検出のためのランドマーク位置の使用を使用する、本明細書の本発明の実施形態において使用する顔画像のランドマークプロトコルの表現である。
【0069】
【
図22】顔特徴を含む関心のある顔領域内の領域を有する顔画像の一部を示す顔マスク表現であり、顔特徴がランドマークによって検出され、非顔背景が除去される。
【0070】
【
図23】
図22の関心のある顔領域上でGMMを使用して生成された確率マップの例である。
【0071】
【
図24】
図23のように作成された確率マップに異なる閾値を使用することによって作成されたバイナリ画像の例を含む。
【0072】
【
図25】
図25Aは、凸包の形成を含むバイナリ画像を評価するための開発された基準に対して評価された場合に、異なる反復閾値を使用した拒否可能なバイナリ画像である。
図25Bは、凸包の形成を含むバイナリ画像を評価するための開発された基準に対して評価された場合に、異なる反復閾値を使用した許容可能なバイナリ画像である。
【0073】
【
図26】顔特徴を検出するための改良されたGMMベースの方法を使用することにより、GMMベースの方法を使用して関心のある顔領域の確率マップを改良するために使用される全体的な確率マップの例であり、GMMは、顔特徴を有する前景および背景(非顔特徴)領域のために作成され、2つのGMMの確率を使用して全体的な確率を判定する。
【0074】
【
図26A】
図26に関連する改良されたGMMベースの方法の実施形態において使用するための好ましいステップを示すフローチャートである。
【0075】
【
図27】
図27Aは、本明細書の実施形態にかかる目化粧アドオン方法において使用するための、適用される化粧を有しない顔の画像である。
【0076】
図27Bは、本明細書の実施形態にかかる目化粧アドオン方法を使用して
図27Aの画像に適用されるアイシャドウレイヤーアドオンの画像である。
【0077】
図27Cは、本明細書の実施形態にかかる目化粧アドオン方法を使用して
図27Aの画像に適用されたアイシャドウミドルアイアドオンの画像である。
【0078】
図27Dは、本明細書の実施形態にかかる目化粧アドオン方法を使用して
図27Aの画像に適用されたアイコーナー化粧アドオンの画像である。
【0079】
図27Eは、本明細書の実施形態にかかる目化粧アドオン方法を使用して
図27Aの画像に適用されたアイテール化粧アドオンの画像である。
【0080】
図27Fは、本明細書の実施形態にかかる目化粧アドオン方法を使用して
図27Aの画像に適用されたまつげ化粧アドオンの画像である。
【0081】
【
図28】
図28Aは、本明細書の目化粧アドオン方法の実施形態において使用するためのアイシャドウテンプレートの表現である。
【0082】
図28Bは、本明細書の目化粧アドオン方法の実施形態において使用するためのアイシャドウミドルテンプレートの表現である。
【0083】
図28Cは、本明細書の目化粧アドオン方法の実施形態において使用するためのアイシャドウコーナーテンプレートの表現である。
【0084】
図28Dは、本明細書の目化粧アドオン方法の実施形態において使用するためのアイシャドウテールテンプレートの表現である。
【0085】
図28Eは、本明細書の目化粧アドオン方法の実施形態において使用するためのまつげテンプレートの表現である。
【0086】
【
図29】ランドマークプロトコルに従ってテンプレート上の地点を使用する、本明細書の方法の実施形態にかかるアイシャドウ化粧アドオンのテンプレートの手動ラベル付けの例である。
【0087】
【
図30】本明細書の目化粧アドオン方法の実施形態にかかるアイシャドウアドオン方法におけるステップを示すフローチャートである。
【0088】
【
図31】
図30のフローチャートのステップの視覚的画像表現である。
【0089】
【
図32】本明細書の目化粧アドオン方法の実施形態にかかるミドルアイシャドウアドオン方法におけるステップを示すフローチャートである。
【0090】
【
図33】本明細書の目化粧アドオン方法の実施形態にかかるコーナーアイシャドウアドオン方法におけるステップを示すフローチャートである。
【0091】
【
図34】本明細書の目化粧アドオン方法の実施形態にかかるテールアイシャドウアドオン方法におけるステップを示すフローチャートである。
【0092】
【
図35】本明細書の目化粧アドオン方法の実施形態にかかるまつげアドオン方法におけるステップを示すフローチャートである。
【0093】
【
図36】口紅が適用された唇を有する画像に出力効果を適用する際に使用するための仮想口紅テクスチャを学習および適用することができるテクスチャシミュレータのコンポーネントの画像フローチャート表現である。
【0094】
【
図37】本明細書の他の図および実施形態において示される実施形態にかかる入力画像に対するテクスチャシミュレーションを含む、ランドマーク検出の方法の使用、化粧除去の方法の使用、化粧試用の方法の使用、および化粧効果を示すフローチャートである。
【0095】
【
図38】本明細書の様々な実施形態において説明される化粧除去および/または試用において使用するためのシステムの概略表現である。
【発明を実施するための形態】
【0096】
以下の詳細な説明は、化粧試用プログラムが現実的な試用外見のための一貫したより良い色付けを提供するように、化粧除去の方法を実行するための好ましい実施形態、およびユーザの入力画像からそれを行うためのシステムを含む。仮想除去方法に加えて、化粧の仮想アドオン、および少なくとも1つの訓練されたニューラルネットワークモデル、化粧データベースおよび化粧注釈システムに基づく化粧品のパーソナライズされた推薦のためのシステムおよび方法も提供される。推薦システムは、化粧品データベース内の製品およ
びユーザからの入力画像に基づいて、ユーザへのパーソナライズされた段階的な化粧指示を生成することができる。また、仮想化粧チュートリアルを提供する方法と、ユーザの顔を有する入力画像に仮想出力効果を提供する方法も含まれる。そのような技術は、本明細書の図面に示され且つ
図37に要約されるように、独立してまたは共同で使用することができる。さらに、仮想化粧試用(try-on)または仮想除去方法において使用するための明るさの調整および色の較正方法、入力画像ビデオにおける高速移動に関連付けられた遅延を減らし且つ動作不足による揺れを軽減する方法、および上記のような方法によって使用するための注釈システムも含むことができる高速顔検出およびランドマーク追跡のための方法も記載される。
【0097】
本明細書で使用する場合、「化粧」は、1つの種類または1つの場所のみを指すように指定されていない限り、顔画像の単一の場所における単一の種類の化粧もしくは複数の種類の化粧または複数の場所にある単一の種類の化粧もしくは複数の種類の化粧を包含する。また、本明細書で使用される、学習データまたは訓練データにおけるユーザまたは人々の「顔画像」への言及は、その範囲内に顔画像の写真とビデオの両方を含み、孤立した画像(単一の写真または単一のビデオフレームなど)または複数の画像(繰り返し写真、ビデオ全体または複数のフレームを有するビデオの一部など)とすることができ、特に指定されない限り、写真のみ、ビデオのみまたは単一の画像のみに限定されると解釈されるべきではない。本明細書の写真およびビデオは、デジタルであることが好ましい。そのような写真またはビデオは、本明細書の方法およびシステムへの「入力画像」(II、II’)として使用することができ、スマートフォンデジタルカメラ、デジタルカメラ、デジタルビデオカメラ、ウェブカメラ、もしくはスマートフォンデジタルビデオカメラまたは入力画像を提供することができる同様の装置とすることができるユーザインターフェースを介して本明細書の方法およびシステムにおいて使用するために伝達することができる。
【0098】
強化されたパーソナライズされたチュートリアル用の仮想顔化粧シミュレーション
【0099】
本開示における仮想顔化粧シミュレーションは、以下の技術を使用する。それぞれヒストグラムマッチングを有するHSV色空間または固有分解。HSV色空間は、RGBカラーモデルとは別に色を評価するための周知の代替モデルである。RGBモデルは、デカルト(キューブ)表現として表示される。HSVカラーモデルは、RGBモデルの幾何学的形状を再配置し、通常、人間が知覚する方法により近い方法で色をより適切に表示することにより、より直感的で知覚的に関連する円錐または円筒座標表現のいずれかとして表される。「HSV」は、色相(Hue)、彩度(Saturation)、および色値(Value)を表し、HSBと呼ばれることもある(「B」は、明るさ(Brightness)を表す)。
【0100】
図1は、HSV色空間を示している。
図1における各HSV代表円筒では、「色相」は、「色相」とラベル付けされた回転矢印によって
図1に示すように、中心垂直軸の周りの角度によって測定される。「彩度」(Chroma)とラベル付けされた矢印によって示される
図1における円筒の軸A-A’からの横方向距離は、「彩度」(Saturation)に対応する。軸A-A’に沿って測定される距離は、「明るさ」または「明度」(Lightness)とも呼ばれる「色値」に対応する。
【0101】
HSV色空間と色相、彩度、および色値の定義を示す
図1を参照すると、色相は、0から360度まで全周にわたる範囲の一部としてその角度範囲を参照して記載されることができる色の種類を表す。彩度は、色がどの程度グレースケールと異なるかを示す。すなわち、彩度が低いほど、色あせまたはグレーに見える。色値は、色の明るさのレベルを表し、値0は完全に暗く、値255は完全に明るい。
【0102】
HSVモデルは、幾何学的戦略によって導出されることができる。HSVモデルは、垂直軸に沿ってその真上に「白」を有して「黒」が原点に位置するように、そのコーナーに傾斜した、R、G、Bの色指定において赤、緑および青の構成量を有する、RGBキューブから導出されることができる。傾斜したRGBキューブを取り、それを中立軸に対して垂直な「色度平面」に投影すると、投影は、そのコーナーに赤、黄、緑、シアン、青およびマゼンタの色を有する、六角形の形状を取る。
図2は、色度平面Pに投影されたRGB傾斜キューブCを示している。
【0103】
色相は、おおよそ投影における所定点に対するベクトルの角度として測定されるが、彩度は、おおよそ原点からの点の距離である。そして、色値は、色の最大成分として定義される。したがって、彩度は、明度に対する彩度として定義される。数学的には、RGBから色相、彩度、および色値の色空間に変換する変換式は、例えば式(1a)において以下に記述される。
【数1】
【0104】
HSV色空間の使用に加えて、本発明は、ヒストグラムマッチングを使用する。画像処理において、ヒストグラムマッチングまたはヒストグラム指定とは、そのヒストグラムが指定または参照ヒストグラムと一致するように1つの画像を変換することである。周知のヒストグラム均等化方法は、指定または参照ヒストグラムが均一に分布する特殊なケースである。数学的には、グレースケールの2つの画像(すなわち、入力画像および参照画像)とそれぞれのヒストグラムが与えられた場合、各ヒストグラムの累積分布を計算することができる。入力画像ヒストグラムの場合はF1()、参照画像ヒストグラムの場合はF2()。各グレーレベルG1∈[0,255]について、F1(G1)=F2(G2)のグレーレベルG2を見つけることができる。これは、以下のヒストグラムマッチング関数:M(G1)=G2の結果である。最後に、関数M()を入力画像の各画素に適用することができる。
【0105】
また、上記のように、HSV色空間およびヒストグラムマッチングに加えて、本発明は、固有分解を使用する。固有画像を復元するタスクは、与えられた入力画像を、その材料依存特性、通常は、反射率と、照明やシェーディングなどの光依存特性の別個の成分に分解することである。目領域画像を例にとると、眉毛やまつげを含まない顔の皮膚全体が、ほぼ同じ材料および色を有すると考えることができる。理想的には、反射率成分は、化粧品を塗布した後の全ての化粧色情報を含みながら、裸の顔に1色のみを含む必要がある。反対に、シェーディング成分またはチャネルは、顔が同じ画像内で基本的な形状を保持す
るため、顔と目の形状情報を保持し、化粧を適用してもしなくてもほとんど変化しない。固有分解とは、分離された成分に基づいて初期画像を再構築することができるように、これらの成分を分離する能力である。
【0106】
エネルギー関数を詳細に紹介する前に、ここで表記法を最初に指定する。与えられた画像Iに対して、I=s×Rであるように反射率Rおよびシェーディングsの2つの成分を識別する必要がある。I
i、R
iおよびs
iは、それぞれ、上記の3つの成分のそれぞれの位置iにおける画素値を個別に表す。ここで、I
iおよびR
iは、次元3の3次元ベクトルであり、s
iは、次元1のベクトルである。関係I
i=s
i×R
iは、全てのカラーチャネル(R,G,B)について保持する必要があるため、R
iの方向は、既に既知である。すなわち、R
iは、
【数2】
を有する
【数3】
として書き換えることができ、r=(r
1,・・・・・・,r
N)は、解くべき唯一の未知の変数である。ここで、I
i/||I
i||は、R
iの方向であり、r=(r
1,・・・・r
N)は、その方向におけるR
iの振幅である。Rは、3次元ベクトルを表すため、この式は、Rを1次元ベクトルrに変換する。以下の部分では、rが取得されると、Rもまた、rにその方向I
i/||I
i||を乗算することによってわかることから、rはRを表すことがある。したがって、最適化の問題は、N個の変数の検索に縮小される。ここで、Nは、画像Iの画素の総数である。シェーディング成分は、s
i=||I
i||r
iを使用して計算することができる。
【0107】
本明細書のエネルギー関数は、以下に記載する2つの項(事前分布)(すなわち、シェーディング事前分布(E
s)とグローバルスパース反射率事前分布(E
cl))に基づいて記述されており、それらの事前分布、すなわち、2つの成分は、以下で詳細に説明される。上記のように、
【数4】
は、R
iの方向であり、r=(r
1,・・・・・・,r
N)は、その方向におけるR
iの振幅である。Rは、3次元ベクトルを表すため、式は、Rを1次元ベクトルrに変換する。以下のエネルギー関数式では、上記のようにrが取得されると、rにRの方向I
i/||I
i||を乗算することによってRがわかることから、rは、Rを表すために使用される。
【0108】
以下の式では、各αiのα(α1,α2,α3,...αN)は、画素iのクラスタメンバーシップ番号を表し、αiは、1からCである。例えば、クラスタ番号を5に設定すると、各画素は、1から5のクラスタメンバーシップ番号によって示される。
【0109】
エネルギー関数は、シェーディング事前分布(E
s)およびグローバルスパース反射率
事前分布(E
cl)の関数として表されることが好ましい。
【数5】
【0110】
A.シェーディング事前分布(E
s):画像のシェーディングは、本明細書では画像上で滑らかに変化することが期待され、以下のペアワイズ因子において符号化される。
【数6】
ここで、4連結画素グラフを使用して、i~j内で示される近傍関係を符号化する。この評価では、QおよびPがエッジを共有する場合、画素Qは、指定された画素Pの4近傍と解釈される。画素Pの4近傍(すなわち、画素P2、P4、P6およびP8)が
図20に代表的な形式で示されている。各画素Pについて、その4近傍間の上記ペアワイズ値E
s(r)を計算することができる。4連結画素グラフは、各画素が4近傍のペアワイズ値の合計値を有する画像サイズのマトリックスである。例えば、画素Pの値は、E
s(P,P
2)+E
s(P,P
4)+E
s(P,P
6)+E
s(P,P
8)である。
【0111】
B.グローバルスパース反射率事前分布(E
cl):この項は含まれており、反射率のグローバルポテンシャルとして機能し、さらに、いくつかの反射率クラスタへの分解を促進する。それぞれが
【数7】
によって示されるC個の異なる反射率クラスタがあると仮定すると、全ての反射率画素(reflectance pixel)は、クラスタの1つに属し、変数α
iを使用したクラスタメンバーシップによって示される。ここで、
【数8】
である。これは、以下のエネルギー項に要約される。ここで、rおよびiは、上記定義したとおりである。
【数9】
【0112】
ここでは、連続r変数と離散α変数の両方が混合される。これは、クラスタ平均が画像内の全ての画素の割り当てに依存するため、グローバルポテンシャルを表す。固定αの場合、この項は、rにおいて凸であり、固定rの場合、αの最適値は、単純な割り当て問題である。反射率クラスタ
【数10】
の平均は、以下のようにrおよびαが与えられると最適に決定される。
【数11】
【0113】
一実施形態では、本開示は、上記の技術を使用し、固有の画像分解またはHSVカラーチャネル変換、およびそれぞれ目領域および口領域からの仮想化粧除去のためのヒストグラムマッチングベースのフレームワークを提供する。通常、顧客が化粧品店で買い物をするとき、ほとんどの状況において顔に化粧をする。本開示のシステムを用いると、顧客は、新たな化粧を試すために化粧を除去する必要がない。代わりに、顧客は、コンピュータで強化された合成画像技術を使用して、化粧を仮想的に除去し、新たな化粧を仮想的に試すことができる。
【0114】
図3は、一般に実施形態1000と呼ばれる、本開示の実施形態にかかる、化粧を仮想的に除去する方法のフロー図を示している。
図3を参照すると、ステップ1010において、入力がユーザによって取得される。ユーザ入力は、モバイル装置を使用してユーザによってキャプチャされたまたは本開示のシステムにアップロードされた、単一の画像、繰り返し写真、単一のビデオフレームまたは複数のフレームを有するビデオを含む、用語が本明細書において定義されている任意の顔画像とすることができる。顔画像は、取得されると、ユーザ入力から検出または識別される。除去方法では、1つの画像のみが入力され、画像がアップロードされると顔が検出されることが好ましいが、本発明は、1つの画像入力のみに限定されない。
【0115】
画像の顔が検出されると、ステップ1020において、入力画像を使用して顔ランドマークが探索される。ランドマークは、あごの上部、各目の外側縁、各眉の内側縁など、事前設定されて選択されることができる。そのようなランドマークは、全ての顔に共通しているため、顔前景のカラー画像において基準点(例えば、鼻の先端、口および目のコーナー)の正確な特定を使用して検出および評価される。
【0116】
ステップ1030において、例えば、ランドマーク検出アルゴリズムを利用して、ランドマークの基準点の位置を探索し、それを介して口領域および目領域画像を抽出することができる。この目的のために本明細書で有用な適切なランドマーク検出ソフトウェアおよび関連する訓練セットは、OpenCV(すなわち、opencv.org)において見つけることができる。dlibランドマーク検出(http://dlib.net/face_landmark_detection.py.htmlを参照)やGiaran,Inc.ランドマーク検出など、追加のソフトウェアおよ
び顔認識プロセスも使用することができる。顔検出のための、Python、dlibおよびHOGなどの、ならびに、基準点のランドマーク検出および識別のための、V. Kazemi et al., “One Millisecond Face Alignment with an Ensemble of Regression Trees,” KTH, Royal Institute of Technology, Computer Vision and Active Perception Lab, Stockholm, Sweden (2014)などの、多くの適切な市販およびオープンソースのソフトウェアが存在する。本明細書における使用に好ましいのは、Giaran,Inc.ソフトウェアである。
【0117】
本明細書の方法およびシステムでは様々な領域および基準点を使用することができるが、抽出される第1および/または第2の領域とそのような領域のうちの1つが固有に分解されることを示す好ましい実施形態を説明する目的で、以下の例は、以下のように目および口領域を使用するようなステップを示している。目領域1040Aについては、例えば、固有の画像分解技術がステップ1045において利用され、目領域のシェーディングおよび反射率チャネルを回復する。次に、ステップ1050Aにおいて、シェーディングチャネルおよび反射率チャネルがヒストグラムマッチングに別個に供給され、目領域において化粧が除去された画像を取得する。唇/口領域1040Bについては、例えば、画像が最初にHSVカラーチャネルに転送、すなわち変換され、異なる照明条件に関して異なるヒストグラムマッチング手順がHチャネル、Sチャネル、Vチャネルに別個に適用される。唇色を除去するために、「彩度」および「色値」の特定の参照ヒストグラムが、唇に化粧を有しない顔画像の収集されたデータセットから学習された。それらの事前定義された唇ヒストグラムを使用して、検出された唇ヒストグラムを、化粧を有しない対応するヒストグラムとマッチングすることにより、入力唇化粧が除去されることができた。唇チャネルの場合、ヒストグラムを使用してそれを表現する必要はなく、「色相」チャネルの手順が事前に訓練された色値と比較した各画素の「色相」チャネルとして設定されるように、「色相」チャネルが通常は1つの値のみを有する唇領域として使用される。
【0118】
ステップ1050Bでは、異なるHチャネル、Sチャネル、およびVチャネルが、必要に応じてヒストグラムマッチングまたは画素マッチングに供給される。チャネルは、唇/口領域において化粧が除去された画像を取得するために、個別に供給される。
【0119】
ステップ1060では、ステップ1050Aおよび1050Bから得られた画像は、唇領域および目領域からあらゆる顔の化粧が除去された画像を形成するように、一方を他方の上にオーバーレイすることによって合成される。これらの技術を使用してさらに多くの領域を分析した場合、それらは、これらの領域にオーバーレイされることもできる。
【0120】
目領域1040Aについては、2つの事前項を組み合わせてエネルギー関数を形成する。エネルギー関数を解くことにより、反射率画像およびシェーディング画像の最適化された分解を見つけることができる。2つの事前分布は、シェーディングチャネルおよび反射率チャネルにスムージング制約を提供する。画像のシェーディングは、画像上で滑らかに変化することができ、4連結画素グラフを使用して近傍関係を符号化する。後のグローバルスパース反射率事前分布は、反射率画像に存在するカラークラスタの数を制限する。それは、異なる材料反射率の混合を可能にし、それにより可能な化粧色の多様性、および数学的にはクラスタを維持する。
【0121】
本開示のシステムおよび方法では、同じ実施形態に従って、唇領域画像がHSV色空間に変換される。実験から、本明細書の発明者は、以下を観察した。「色相」チャネルは、通常、照明条件が変化したときまたは明るい口紅が適用されたときに変化し、赤い口紅を塗ると「彩度」チャネルが変化し、紫または暗い色が適用されると、「色値」または「明るさ」が変化する。これらの観察に基づいて、検出されたときに異なる色の口紅によって対応するチャネルを編集することができる。唇色を除去するために、「彩度」および「色値」の特定の参照ヒストグラムは、収集された非化粧唇データセットから学習することができる。これらの事前定義された唇ヒストグラムを使用して、検出された唇ヒストグラムを対応する非化粧ヒストグラムとマッチングすることにより、入力唇化粧を除去することができる。「色相」チャネルの場合、唇領域は、通常、1つの値のみを有し、ヒストグラムによって表す必要はないことに留意されたい。
【0122】
異なる照明条件下では、唇が異なって見えることに留意されたい。したがって、本開示のシステムは、照明条件を考慮して、より現実的な除去色予測を提供する。唇の除去に使
用するために、皮膚色データセットは、標準の唇色と比較して対応する唇色のシフトを伴う異なる照明条件下で収集される。このデータセットを用いて、本開示のシステムは、最初に入力皮膚色を抽出し、この特定の照明条件下で対応する唇色シフトを見つける。次に、最終的に修正された除去唇色が、検出された色シフトとともに提供される。皮膚色データセットは、他の除去領域には必要ないが、唇化粧除去のガイダンスのために収集される。データセットがない場合、事前定義された色を使用して唇を検出することもできる。
【0123】
目領域の化粧を除去する場合、状況は、通常は統一された1色のみを有する唇領域よりもはるかに複雑である。したがって、目領域については、固有の画像分解技術を導入して、形状および照明によって生じる固有の色情報とシェーディング情報とを最初に分離する。反射率画像およびシェーディング画像が取得された後、ヒストグラムマッチング技術が適用されて化粧を除去する。目領域の参照ヒストグラムは、唇領域の参照ヒストグラムとは異なる方法で生成される。目領域については、抽出されたヒストグラムを特定の基準に基づいてフィルタリングすることにより、参照ヒストグラムが取得される。目化粧(アイシャドウ、アイライナー、マスカラ)の化粧色は、皮膚色と異なる必要があり、目領域の皮膚色と比較して少数の部分であると見なされる。したがって、各色とその割合に閾値が設定される。閾値は、化粧色が皮膚色と比較して少数の色であるという仮定であるため、潜在的な化粧色を判定するために使用されるスケールであり、そのため、閾値は、少量の色を見つけるために適用される。
【0124】
一実施形態では、本開示のシステムは、本発明のこの態様を作動させるための適切なコードとして本明細書に組み込まれている付録Aに示される擬似コードに従って要約されることができる。本明細書の各付録は、本明細書の一部であるが、本文を読みやすく理解しやすくするために主要な本文から分離される。
【0125】
図4Aおよび
図4Bは、分解反射率画像(
図4A)および分解シェーディング画像(
図4B)の例を示している。
図4Aの反射率画像は、化粧品の色情報を含む3チャネルRGB画像であり、シェーディング画像は、グレー画像である。そして、2つの分解画像の両方にヒストグラムマッチングが適用され、除去された画像を取得する。
図5Aおよび
図5Bは、化粧除去反射率画像(
図5A)および化粧除去シェーディング画像(
図5B)の例を示している。そして、
図5Aおよび
図5Bの2つの画像が乗算(オーバーレイ)され、
図5Cに示すように、除去された目領域画像を生成する。
図6Aおよび
図6Bは、目領域における化粧除去の例を示している。オーバーレイは、各画素における2つのレイヤーの色値の乗算を含む。
【0126】
本明細書の他の実施形態では、顔の特徴抽出のためにランドマークを使用し、特に唇領域抽出での使用に好ましいランドマーク検出技術は、入力画像が顔領域、特に唇のジェスチャ(口をすぼめたキス顔または大きく歪んだ笑顔)を有するものなどの唇または唇領域内に閉塞を有する唇(指先、歯、舌または唇を覆う任意のオブジェクト)を検出するのが困難な状況を含むことができる状況を考慮するように強化される。そのような状況では、ランドマークのみの使用は、通常、正確な唇領域などの正確な顔領域を提供しない。本実施形態は、色情報を利用して、ランドマーク検出結果をさらに改善し、好ましい最適な唇領域などの最適な顔領域を取得および検出する。以下の方法は、唇領域に関して説明されるが、類推によって他の顔領域に使用することができることを理解すべきである。
【0127】
一般に、唇領域と顔皮膚の背景との間の色の相違は大幅に異なり、異なる色付けを有する異なる人々によって多少異なる場合もある。したがって、様々な色の相違に適応するために、唇のセグメンテーション方法を提案する必要がある。
【0128】
したがって、本発明は、ガウス混合モデル(GMM)技術を使用する。GMMは、全体
の母集団内の正規分布の部分母集団を表す確率モデルである。一般に、混合モデルは、データ点がどの部分母集団に属するかを知る必要はないため、モデルは部分母集団を自動的に学習することができる。
【0129】
GMMは、混合成分重み、および成分平均と分散/共分散という2種類の値によってパラメータ化される。K成分を有するGMMの場合、k番目の成分は、μkの平均およびσkの分散を有する。混合成分重みは、成分Ckの場合にφkとして定義され、合計確率分布が1に正規化されるように、Σk
(i=1)Φk=1という制約を有する。
【0130】
本発明では、GMMカラーモデルに基づく顔画像から唇領域を抽出する方法が提供される。この方法は、色付き唇をプレーン唇に置き換える化粧除去方法、または既存の唇領域を除去して他の色付き唇領域に置き換える化粧アドオン方法で使用することができる。多くの場合、ランドマーク検出は、特に歪みまたはオクルージョンに基づいて真の唇領域を提供しないことがあるため、この方法の目標は、ランドマーク解析結果に基づいて唇領域を改良することである。
【0131】
本方法は、本明細書で述べたように、顔ランドマーク検出を最初に使用して、入力画像から顔領域および顔ランドマークを検出する。これは
図21に示されている。示されるように、ランドマークプロトコル2において全ての顔ランドマークをマークするために番号が割り当てられる。これから、
図22に示すように関心のある顔領域4(この例では唇領域)が取得され、非顔背景6が除去されてGMMモデルを構築する。
図22の顔マスクMを参照のこと。非顔背景を除去する精度は、最終的な唇セグメンテーション結果の取得にほとんど影響しない。ここで、人間の知覚との永続性のために、L
*a
*b
*色空間が選択される。GMMモデルの成分の数は、発明者の経験的研究に基づいて3に設定されるが、本発明が3つの成分を有するGMMに限定されると見なされることがないように、効果を大幅に変更せずに4、5、6などの他の値を使用することができる。
【0132】
顔色(complexion)GMMは、L
*a
*b
*色空間において構築された。顔の下部の各画素iに対して、与えられた色値x
i=(L
i,a
i,b
i)、および3次元のL
*a
*b
*色値が存在し、顔色混合モデルから生成されるその顔色確率は以下のように計算される。
【数12】
ここで、π
k,μ
k,σ
kは、混合モデルにおけるk番目のガウス成分の重み、平均および共分散をそれぞれ表す。これは、
図23に示すように、関連する皮膚領域4の確率マップ8を生成するために使用される。皮膚領域の確率マップは、色が暗いほど皮膚が暗い色である確率が低く、暗い部分が唇領域を表す確率が高いことを示している。確率マップを取得した後、反復閾値法を使用して初期唇バイナリ画像を取得する。使用される好ましいそのような反復閾値法の1つは、“A threshold selection method from gray-level histograms,” IEEE Transactions On Systems, Man, And Cybernetics, 9.1 (1979), pp.
62-66に記載されたようなNobuyuki Otsuのものであり、関連部分において本明細書に組み込まれる。
【0133】
従来の唇検出方法では、通常、どの画素が唇領域に属するかまたは唇領域の外側にあるかを推定するために、固定閾値が使用される。しかしながら、唇と唇の周りの顔の皮膚の背景の色の相違は、人々によって大きく異なる可能性がある。さらに、場合によっては、唇と周囲の皮膚領域との相違は僅かである可能性がある。この問題は、本明細書では反復
検出方法によって対処される。まず、Otsuの方法などの閾値方法を使用して基準閾値を見つけ、その基準閾値に基づいて、オフセットの配列を使用して基準閾値を調整する。ここで、以下のとおりである。
オフセット={0、0.05、0.10、0.15、0.18、0.2、0.22、0.24、0.25、0.26、0.27、0.28、0.29、0.30、0.31、0.32、0.33、0.34、0.35、0.36、0.37、0.38、0.39、0.4、0.5}。
適用される閾値は、基準閾値からオフセットを差し引いた差である。
【0134】
閾値よりも大きい各画素は0に設定され、それ以外の場合は255である。したがって、閾値が大きくなるほど、保存される画素が少なくなり、その他の画素は0である。異なる閾値技術を適用することにより、
図23のような確率マップから取得される
図24の2つの画像に示すように顔領域4に対して異なるバイナリ画像10、12が取得される。
【0135】
反復ごとに、生成されたバイナリ画像を使用して、唇に関するいくつかの事前知識に基づいて唇領域を検出し、以下の標準の開発に使用した。
1. 唇領域の外部矩形の幅と高さの比は、特定の範囲を有する。その外部矩形は、上述した2値化後の白領域の全てを含むことができる最小の矩形に基づいている。幅と高さの比は、約0.7から約10の間に設定される。
2. 唇領域の面積とその外部矩形との比は、特定の範囲を有する。唇領域の面積は、上記の2値化手順後の白領域である。例えば、
図24では、各画像の白領域は、検出された唇領域の面積を定義する。外部矩形は、白領域の全てを含むことができる最小の矩形である。唇領域の面積/矩形の面積の比は、約0.3から約0.9に設定される。
3. 唇領域の面積と顔の下部の面積の比は、特定の範囲を有する。
図21に示されているランドマークに示されているように、顔ランドマークが検出されると、顔の下部領域は、下部地点(地点7、地点10)から地点34まで続き、地点4から地点14まで続くと定義されることができる。例えば、
図24のバイナリ画像を評価する場合、関連する画像領域は、ランドマークによって決定される顔の下部領域である。顔の下部領域の面積に対する唇領域の面積の比は、約0.1から約0.5である。
【0136】
上記のパラメータを評価する際、唇領域の中心位置は、顔の下部の特定の領域内にある必要があり、唇領域の境界は、顔の下部の境界に到達してはならず、唇領域4の面積は、ほぼ
図25aおよび
図25bを参照して説明した凸包である必要がある。
図25aを評価する際、唇領域4の画像14が示され、グレー領域16は、白領域に凸包を形成せず、そのような画像は、凸ではないとして拒絶される。
図25bは、白領域から凸包を形成するものとして受け入れられるグレー領域20を有する画像18を提供する。
【0137】
顔の下部の顔色確率マップを使用して唇領域を検出するために反復法を使用する。各反復において、バイナリ画像が上記の基準を満たす輪郭領域を含み且つ白領域が凸包構成を有するまで、基準閾値にオフセットが追加される。そのような基準が満たされると、検出された領域は、初期唇領域と見なされる。
【0138】
通常、初期唇領域は、最適な画像ではない。唇に若干の皮膚画素を含むことがあり、初期唇から誤って唇画素が除去されることもある。問題をさらに解決し、唇を改良するために、最適化方法が使用される。具体的には、L
*a
*b
*色空間では、初期唇領域と非唇領域の画素の色を使用して、それぞれ改良されたGMMを構築する。各GMMの成分の数は3に設定される。2つのGMMを使用して、背景確率マップおよび前景確率マップを計算する。唇領域の全体的な確率マップは、
【数13】
であり、
ここで、p(x
i|lip)およびp(x
i|non_lip)は、2つのGMMから計算された対応する確率である。この方法で得られた唇領域全体の確率マップ22は
図26に示されている。
【0139】
全体的な唇領域確率マップを取得した後、Cannyエッジ検出および輪郭平滑化を使用して、最終的な唇領域マスクを取得する。この技術は既知であり、J. Canny, “A computational approach to edge detection,” Readings in Computer Vision, (1987), pp.
184-203に記載されており、関連部分において本明細書に組み込まれる。
【0140】
Cannyエッジ検出の後、多くのエッジ候補が存在する。結果として、唇領域の事前知識を使用して、最終エッジラインをフィルタリングする。具体的には、まず、白領域の最も左および右の地点を選択することにより、口の左および右コーナーを見つける。次に、左および右コーナーの間、および画素の各列に対して、画像領域が上から下にスキャンされ、上唇線および下唇線の最終エッジ画素としてそれぞれ最大の勾配を有する2つの画素が選択される。画素の列をスキャンするとき、最終エッジが滑らかになるように、隣接する各地点が小さな垂直範囲内(例えば、約-5画素から約+5画素以内)にある必要があるという事前の制限が適用される。この方法のアルゴリズムは、上述したカラーベースの唇マスク抽出であり、付録Bの擬似コードで表される。
【0141】
本方法は、実施形態300として本明細書の
図26aのフローチャートに示されている。本方法では、ステップ310においてユーザの画像が取得される。ステップ320において本明細書に説明されるように、顔ランドマークが検出される。次に、ステップ330において、唇のない領域からのデータを使用して皮膚色に基づくGMMが訓練され、ステップ340において、上述したように顔の下部における唇の初期確率マップが作成される。ステップ350において、輪郭が上述した唇領域標準基準を満たすまで、画像二値化の閾値が調整される。唇領域が検出された場合、GMMは、ステップ370において、初期唇領域と非唇領域について訓練される。唇領域が検出されない場合、閾値は、基準を満たすように引き続き調整される。ステップ370の後、ステップ380において、2つの学習されたGMMに基づいて改良された確率マップが作成される。そして、ステップ390において、エッジ検出アルゴリズムおよび唇形状の事前知識を用いて、唇の輪郭が滑らかにされる。最後に、ステップ395において、最適な唇領域が出力として抽出される。
【0142】
唇製品および出力効果のテクスチャ生成
【0143】
一実施形態では、本開示は、顔画像に様々な出力効果を提供する方法を提供する。本方法は、リップグロス、リッププランパー、リップスティックなどの口紅製品を含む様々な種類の製品に適用可能なテクスチャアドオン方法論を対象とする動的テクスチャ生成の形式で出力効果を提供する。例えば、艶、きらめき、ランダム照明、および膨らみを含む4つの異なる効果生成器および出力効果が可能であり、本明細書に含まれる。パラメータを調整してそれらを組み合わせることにより、テクスチャバリエーションの形式で他の多くの出力効果が生成されることができる。
【0144】
化粧品会社は、様々な色とテクスチャの口紅製品を提供している。これらの会社の一部は、顧客が製品の色を確認するのに役立つように、ウェブサイトにおいて仮想試用ソリュ
ーションを提供している。例えば、最大の仮想試用サービスの1つであるSephora(登録商標)の仮想アーティストは、人々がマウスをクリックするだけで何百もの口紅を試用することを可能にし、ユーザはまた、単にショップをクリックしてショッピングカートに選択項目を追加することもできる。
【0145】
化粧品が光沢、保湿、マットなどの異なるテクスチャを有する場合であっても、既存の仮想試用システムは、一般に、色の結果のみを提供する。唇に艶効果を生成するいくつかのアプローチがあるが、そのようなアプローチは、通常、光の変化に適応することができない事前定義されたマスクのみを適用する。
【0146】
本開示のテクスチャ生成技術は、異なるテクスチャを生成するための4つの方法を含む。まず、本方法は、光沢効果を生成する。それは、唇の光分布を検出し、滑らかさと透明度を適用する。さらに、それは、この効果がさらに自然に見えるように、ランダムな反射を作成する。また、異なるパラメータを使用して、保湿、きらめき、またはサテンテクスチャを有する製品の艶効果を生成することができる。具体的には、少ない光沢効果を適用する場合、ユーザの唇の元のテクスチャを維持しながら低い透明度を使用する。この方法は、入力画像からの光分布を使用するため、生成されるテクスチャの変化は、光に依存し、これは既存の方法との差別化要因である。
【0147】
図7は、本開示の実施形態にかかる口紅テクスチャ生成器のブロック図を示している。処理対象の顔を含むことができる入力画像は、3つの異なるテクスチャ生成器からの出力と混合される。
図8は、各生成器の出力効果と、実際の唇画像の混合出力とを示している。この示された例は、パラメータと4つの異なる効果生成器の組み合わせとを調整することによって他の多数のテクスチャバリエーションを生成することができるため、テクスチャ生成器を限定するものではないことに留意されたい。透明度および艶効果を追加する詳細なアルゴリズムの擬似コードは、付録Cに提供されている。
【0148】
図7では、顔を有する入力画像上に出力効果を生成する方法2000の例が示されている。入力画像は、化粧を有する顔または化粧を有しない顔の画像とすることができる。ステップ2010において、この入力画像は、本明細書の他の場所で説明されているようなシステムに提供される。画像が顔、特に唇領域に化粧を有する場合、上記の化粧除去方法を使用して、必要に応じて化粧を除去して、ユーザの顔に所望の口紅シェードの真の色を適用することができる。顔画像もそのまま使用することができる。顔画像は、上記のランドマークなどの顔ランドマークを有し、使用されるシステムは、ユーザの顔画像から少なくとも1つまたは全ての顔ランドマークを探索する上述した適切なソフトウェアを有することによって構成される。ランドマークは、少なくとも1つの顔領域に関連付けられている。本明細書では、第1の例示的な実施形態における唇についてそのような出力効果が示されているため、顔画像は、顔画像の唇に関連付けられたランドマークを検出する必要があり、第1の顔領域は、唇領域を含む。
【0149】
ランドマークの領域内の顔画像は、本明細書で説明されるように変換されることができ、探索された唇領域を含む顔領域は、唇領域の光分布(すなわち、照度)を検出および分析するために少なくとも1つのカラーチャネルに変換される。そうするために、評価されるチャネルは、彩度および色値チャネルであることが好ましいが、色相、反射率、シェーディング、照度、透明度または他の光反射特性などの他の特性がさらに評価されてもよい。好ましくは、少なくとも彩度および色値が明るさの範囲にわたって評価され、第1のカラーチャネルにおいて検出および分析されるが、上記のような他のチャネルもまた、
図7のステップ2020に示されるように検出および分析されてもよい。
【0150】
カラーチャネルは、様々な光分布にわたって本明細書に記載の技術を使用してヒストグ
ラムマッチングに供給され、好ましくはそれによって所望の出力効果を生成する所望の程度までの唇領域の光分布とは異なる値を含む様々な事前定義された光分布を有する様々な光分布のヒストグラムのデータセット内のヒストグラムを特定する。ステップ2025aにおいて、所定範囲にわたる照度/明るさパラメータを使用して、ステップ2025bと同様に、様々な光沢効果または艶効果に対して様々な程度の透明度、滑らかさおよび/または艶を提供することができる。
【0151】
ステップ2030aにおいて、光分布から所望の程度のきらめきを有する事前定義されたヒストグラムを特定して、ステップ2030bのようにきらめき効果を生み出し、様々なレベルのきらめきを提供することができる。
【0152】
ステップ2040aにおいて、事前定義されたヒストグラムを特定して、ランダムな光分布を追加し、ステップ2040bのようにより自然な効果を生み出すことができる。
【0153】
各例において、ステップ2025aおよび2025bにおける第1の効果、例えば、光沢または艶のレベルについてのそのようなヒストグラムマッチング後、本方法は、出力効果を有する第1の画像を提供する。複数の出力効果が必要な場合は、2040aおよび2040bにおけるシマーおよび/または自然効果またはそれらの組み合わせ(または、本開示が基づく当業者が理解するように望まれる追加の効果)を提供するためにステップ2020ならびに他の並列ステップ2030aおよび2030bのうちのさらに1つは、それぞれが関連する出力効果を必要に応じて有する1つ以上の追加画像を提供するために繰り返されることができる。第1の出力効果を有する第1の画像および/またはそれぞれの出力効果を有する追加画像は、ステップ2040においてユーザの元の顔画像と組み合わされて混合され、ステップ2050において各出力効果がユーザの顔画像と組み合わされた結果画像を作成する。
【0154】
膨らみ効果が必要な場合(2050a)、単独で、または他の出力効果を使用して、唇領域の顔ランドマークが検出された後、それらは唇領域において所定の比率で拡大される。これが完了すると、必要に応じて上記の技術を使用して、拡大された唇領域に好ましくは光沢(濡れを示唆する)出力効果が適用され、拡大された(膨らんだ)唇領域と艶が適用されるなどの任意の他の適用された出力効果を有する拡大画像が作成される。他の効果もまた、膨らみと組み合わされることができる。そして、膨らんだ唇領域と任意の他の適用された出力効果とを有する変更画像は、初期ユーザ画像の元の口領域にオーバーレイされて歪められる。最初にランドマークを処理する際、初期ユーザ写真の唇領域の初期領域に基づいて拡大率が計算され、初期唇領域のランドマーク内の画像が目標とする拡大ランドマークに向かって歪められる。そして、画像および出力効果を組み合わせることにより方法2000において選択された、出力効果および/または膨らみ効果を有する全ての画像のオーバーレイを使用して、最終結果画像2050が生成される。
【0155】
上述したように、画像を変換する前に、本明細書の化粧除去方法およびシステムを使用することにより、ユーザの顔画像の唇領域からの化粧を完了することができる。したがって、上述した出力効果の生成に加えて、化粧を有しない顔画像の唇領域は、上述したようにカラーチャネルに変換されることができ、その後、カラーチャネルは、様々な照明条件下でヒストグラムマッチングにも供給され、データセット内の商用色または他の色の口紅に対応する事前定義された化粧色を有するヒストグラムを特定し、色がより既存の化粧アップに適用するよりも真に一致し、色を有する画像がユーザの元の顔画像および終了効果によって生成されたユーザの任意の画像と組み合わせられ、事前定義された唇色および所望の出力効果を有する結果画像を提供するように、唇領域の唇に唇色が適用されたさらなる追加画像を取得することができる。
【0156】
出力効果に関しては、透明度に基づいて様々な程度の透明度および滑らかさを組み込んで様々な光沢度を提供する出力効果を生み出す、事前定義された光分布を有するヒストグラムを提供することができる。事前定義されたヒストグラムの光分布はまた、様々な度合いのランダム反射率を追加して、より自然な効果である出力効果を提供することもできる。光沢効果である出力効果については、さらに様々な透明度および光沢を使用することができる。きらめきを提供するための事前定義された光分布効果も使用して、きらめきまたはシマー効果を生成することもできる。
【0157】
図8は、入力画像IIと、画像IIから生成されるグラフィカルな照度プロファイルBの形式で検出された光分布を示している。次に、データは、その後に元の顔画像IIと混合されて示されるように唇領域LRを有する結果画像を作成する、透明度および光沢の変化からの光沢レベルCE、ランダム照明効果DEおよびきらめき効果EEを含む、上記の事前定義された出力効果にマッピングされる。示されるように膨らみ効果が必要な場合、
図8に示す他の効果に使用されるランドマークは、膨らんだ唇を有する1つの出力画像を作成するために出力効果によって変更(拡大)された唇領域LPがオーバーレイされて適用されるように、光沢CE、ランダム照明効果DEまたはきらめき効果EEを適用する前に唇領域において所定の比率で拡大される。
【0158】
学習ベースのリアルタイム口紅テクスチャシミュレーション
【0159】
さらなる実施形態では、深層畳み込みスタイル移行ネットワークを利用して3つの口紅テクスチャ、すなわち、マット、しっとりおよび光沢のある口紅テクスチャをシミュレートするテクスチャ生成器が本明細書で提供される。テクスチャスタイルの移行は、前処理された口紅色に忠実なまま、元の唇領域の入力光分布を異なる口紅テクスチャの望ましい分布に変更する輝度(luminance)レベルで動作する。そして、スタイルが変換された唇領域は、最終的な修正のために動的テクスチャ生成技術によって処理される。
【0160】
既存の仮想試用技術は、入力唇領域の元の光分布に大きく依存しており、これは、入力画像と比較した輝度分布に大きな偏差を有するテクスチャのシミュレートにとって本質的に困難である。したがって、より現実的なテクスチャを生成するために、元の唇の輝度パターンは、マッピング関数を介して参照パターンにマッピングされる必要がある。そのようなマッピング関数は、手作業で明示的にモデル化するために高度に非線形で複雑でなければならない。このため、本明細書では、高度な非線形関数をモデル化する機能を有することが知られている深層学習モデルを使用してスタイル変換の問題を解決する。スタイル変換に関する研究は、特に深層学習領域において近年増加している。例えば、いくつかの出版物は、入力テクスチャやアートスタイルをリアルタイムで模倣する深層ネットワークの機能を実証している。例えば、Johnson, Justin et al. “Perceptual Losses for Real-Time Style Transfer and Super-Resolution,” ECCV (2016)、Zhang, Hang and Kristin J. Dana, “Multi-style Generative Network for Real-time Transfer,” CoRR abs/1703.06953 (2017)、およびLi, Chuan and Michael Wand, “Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks.” ECCV (2016)を参照のこと。
【0161】
本テクスチャシミュレータ100は、そのようなテクスチャの単一の参照画像が与えられると、任意の口紅テクスチャを学習することができ、
図36の代表的な成分フローチャートに示される。シミュレーションパイプラインは、訓練モジュール52、前処理モジュール50、モノチャネルスタイル移行(MST)モジュール54および後処理モジュール56の4つのモジュールから構成されている(
図36を参照)。所望の深層畳み込みニューラルネットワーク構造が与えられた場合、訓練モジュールは、任意の自己定義損失関数によって導かれる勾配降下を介して全ての隠れ重みおよびバイアスを学習する責を担う。
スタイル移行モデルは、クリエイティブコモンズ帰属ライセンスの下にあるかまたは社内データセットによって自己準備された任意の画像データセット58に対して訓練されることができる。訓練モジュールの後、スタイル移行モデルは、残りのモジュールとともに使用する準備ができる。
【0162】
前処理モジュール50は、唇色60を所望の口紅色62に変更することにより入力唇領域LI’を変更し、本明細書に記載の動的テクスチャ生成方法により輝度を向上させる。唇色が一致した場合、唇領域ILip、および唇色画像IColorは、輝度(Lチャネル、IL)が全てのカラーチャネル(a*チャネルおよびb*チャネル、IaおよびIb)から分離されるように、最初にCIELAB L*a*b*空間に変換される。
【0163】
0≦{Mij}≦1の唇領域マスクMが与えられた場合、唇色の一致は、以下の関係式として定義される。
ILip
L’=α(ILip
L-μLip
L)+μColor
L、ここで、0≦α≦1
ILip
L=M*ILip
L’+(1-M)*ILip
L
ILip
a=M*IColor
a+(1-M)*ILip
a
ILip
b=M*IColor
b+(1-M)*ILip
b
操作1は、入力唇Lチャネルの平均画素値μLip
Lを、唇色画像μColor
Lのものにシフトし、これは、所望の口紅RGB値のCIELAB空間L値と同じである。係数αは、アドオン唇色が肉眼でどれだけしっかり見えるかを制御する。ゼロαは、下方の全ての唇パターンを完全にカバーし、ユニットαは、全ての唇パターンを保持する。操作2から4は、カラー画像と唇画像チャネルとの間の加重合計により、CIELAB空間における全てのチャネルを更新する。
【0164】
モノチャネルスタイル移行(MST)モジュール54は、前処理モジュール50からLチャネル画像を取り込み、スタイル移行深層ネットワーク64を介して単一の推論を実行する。
【0165】
スタイル移行ネットワークは、同量の畳み込みユニットおよび逆畳み込みユニットを有する、Johnson, Justin et al. “Perceptual Losses for Real-Time Style Transfer and Super-Resolution,” ECCV (2016)に記載されている一般的な自動エンコーダ構造を継
承する。各畳み込みまたは逆畳み込みユニットは、1つの畳み込みまたは逆畳み込み関数、1つの正規化関数、および1つの非線形活性化関数を含む順次操作として定義される。ネットワーク内の隠れ層(畳み込みまたは逆畳み込みユニット)の正確な数は、リアルタイムの唇テクスチャシミュレーション用に最適化されるパラメータとして扱われる。スタイル移行は、参照スタイル画像に従ってテクスチャと色の両方を合成するため、合成画像は、CIELAB空間に変換され、Lチャネル66のみ、すなわち、Gatys, Leon A. et al., “Preserving Color in Neural Artistic Style Transfer,” CoRRabs/ 1606.05897
(2016)に記載されている輝度のみの移行が後処理に使用される。
【0166】
後処理モジュール54は、動的テクスチャシミュレーションのためにMSTモジュールから合成Lチャネル画像を取り込み、RGB変換のために前処理モジュールからaチャネル画像およびbチャネル画像68、70を取り込む。動的テクスチャシミュレーションモジュールは、出力効果に関して上述した動的テクスチャシミュレーションのセクションで説明した各テクスチャに従って、Lチャネルの輝度分布を調整する。最終画像72は、システム内のMSTモジュール54に画像を通過させた後の後処理からの新たな所望の色62および動的テクスチャ効果74によって作成される。
【0167】
レイヤー化目アドオン方法
【0168】
唇領域などの上記の顔特徴に効果を適用することに加えて、本明細書の本発明は、唇領域に効果を追加するための上記と同様の技術を使用して、様々な目領域アドオン層から構築される目化粧効果を構築するための任意の方法400を含む。
【0169】
図27a-
図27fに示すように、サンプル画像写真II’’’を使用して、目化粧および/または目特徴の様々なセクションが写真II’’’の目424にレイヤー化されることができる。
図27aは、化粧が適用されていない顔426の入力画像II’’’を示している。
図27bは、画像II’’’の顔426に適用されるアイシャドウ層アドオン428を含む。
図27cは、画像II’’’に適用されるミドルアイシャドウアドオン430を含む。
図27dは、画像II’’’に適用されるアイコーナーアドオン432を含む。
図27eは、画像II’’’に適用されるアイテールアドオン434を示し、
図27fは、画像II’’’にも適用されるまつげアドオン436を含む。
【0170】
これらの効果は、以下の方法を使用して生み出される。目テンプレートは、
図28a-
図28eに示すように作成され、各テンプレートは、それぞれ、アイシャドウテンプレート438(
図28a)、アイミドルテンプレート440(
図28b)、アイコーナーテンプレート442(
図28c)、アイテールテンプレート444(
図28d)およびまつげテンプレート446(
図28e)である。そのような各テンプレートは、ランドマークプロトコルに従ってテンプレート上の地点を使用してランドマークを手動でラベル付けすることによって作成される。例が
図29に示されており、地点448として特定される地点は、アイシャドウテンプレート438に適用される。地点448のランドマーク位置は、テキストファイルとして保存される。
【0171】
アイシャドウアドオンを作成するために、フレームのランドマーク検出器から目領域のランドマークが抽出される。目領域は、37から42および43から48の関心のあるランドマークによってトリミングされる。検出された注釈付きランドマークから目領域の周りの線形補間によって100地点が生成される(ランドマークは、本明細書で説明する注釈システムを使用して注釈を付けることができる)。これから、手動で注釈が付けられたランドマークに基づいて、アイシャドウテンプレートの周囲に100地点が生成される。テンプレートは、フレームからテンプレートへ100地点を順方向に歪めることによってフレームに適用される。順方向歪み、逆歪み、類似性変換、アフィン変換など、多くの利用可能な歪みアルゴリズムがある。好ましい実施形態では、アフィン変換を伴う順方向歪みが採用された。これに続いて、目領域画像が元のフレームにトリミングされて戻される。
【0172】
このアイシャドウアプリケーションは、
図30に示すフローチャート10000として示されている。ステップ10010において、ランドマークは、現在のフレームから検出され、ステップ10020において、目領域は、ランドマークからトリミングされる。同時に、またはそれより前に、アイシャドウテンプレートがロードされ、ステップ10030において、ランドマーク位置ファイル内のランドマークによって事前注釈が付けられる。そのような注釈付きのファイルおよびテンプレートは、学習データベースに保存される。ステップ10040において、ステップ10030の注釈付きランドマークに基づく線形補間によって目領域の周りに100地点が生成される。ステップ10050において、ステップ10010から検出されたランドマークに基づく線形補間によって現在の画像フレームの目領域の周りに100地点が生成される。ステップ10040におけるテンプレートからの100地点は、ステップ10050からの画像内の目領域の100地点に順方向に歪められる。これは、ステップ10060においてテンプレートが適用された目画像を作成し、テンプレートが画像上でトリミングされて、ステップ10070において適用されたアイシャドウのある画像フレームを表示する。
【0173】
図31は、上述したステップ10010から10070に類似するステップ10010aから10070aを示すフローチャートを示しているが、フローチャート10000aにおいて上述したステップの絵図を使用している。
【0174】
ミドルアイシャドウアドオンを作成するために、目領域のランドマークが抽出される。目領域は、38から39、41から42、44から45、47から48の関心のあるランドマークによってトリミングされる。次に、検出されたランドマークから目領域の周りの線形補間によって50地点が生成される。さらに、手動で注釈付けされたランドマークに基づいて、アイシャドウテンプレートの周りに50地点が生成される。次に、フレームからテンプレートに50地点を順方向に歪めることによってテンプレートがフレームに適用される。目領域画像は、元のフレームにトリミングされて戻され、アイシャドウ化粧がミドルアイシャドウアドオンとして適用されたフレームが作成される。
【0175】
このミドルアイテンプレートアドオンは、実施形態20000として
図32のフローチャートに示されている。ステップ20010において、ランドマークは、現在のフレーム(画像)から検出され、目領域は、ステップ20020において、ランドマークからトリミングされる。同時に、またはその前に、ステップ20030において、ミドルアイシャドウテンプレートがロードされ、ランドマーク位置ファイルによって事前に注釈が付けられる。次に、ステップ20040において、ステップ20030において注釈付けされたランドマークに基づく線形補間によって中間目領域の周りに50地点が生成される。ステップ20050において、ステップ20020からのランドマークに基づく線形補間によって画像フレームの中間目領域の周りにも50地点が生成される。そして、テンプレートは、画像フレーム上で順方向に歪められ、ステップ20060において、テンプレートが適用された目画像を作成し、アイシャドウが適用された目画像は、ステップ20070において画像フレームにトリミングされて戻される。
【0176】
アイコーナーアドオンは、アイコーナーテンプレートを使用して、フレームのランドマーク検出器から目領域のランドマークを抽出することによって実行される。目領域は、39から41および44から45から48の関心のあるランドマークによってトリミングされる。次に、検出されたランドマークから目のコーナー領域の周りの線形補間によって50地点が生成される。さらに、手動で注釈付けされたランドマークに基づいて、アイコーナーシャドウテンプレートの周りに50地点が生成される。テンプレートは、フレームからテンプレートに50地点を順方向に歪めることにより、フレームに適用される。目領域画像は、元のフレームにトリミングされて戻され、目のコーナーの化粧が適用されたフレームが作成される。
【0177】
このアイコーナーシャドウアプリケーションは、実施形態30000に関して
図33に示されている。ステップ30010において、画像フレームからランドマークが検出され、ステップ30020において、目領域がランドマークからトリミングされる。同時に、またはそのステップの前に、ステップ30030において、テンプレートがロードされ、ランドマーク位置ファイルを使用してそのランドマークに事前注釈が付けられる。ステップ30040において、注釈付きランドマークに基づく線形補間によってコーナーアイ領域の周りに50地点が生成される。さらに、ステップ30050において、ランドマークに基づく線形補間を使用して、画像フレームからトリミングされた画像領域のコーナーアイ領域の周りに50地点が生成される。テンプレート地点は、フレーム画像地点上に順方向に歪められ、コーナーテンプレートが適用された目画像がステップ30060において作成される。コーナーアイシャドウが適用されたフレームは、画像フレームにトリミングされて戻され、ステップ30070においてコーナーアイシャドウが適用された顔が作成される。
【0178】
アイテール領域は、フレームのランドマーク検出器を使用して目領域のランドマークを抽出することによって作成される。目領域は、39から41および44から45から48の関心のあるランドマークによってトリミングされる。次に、検出されたランドマークからアイテール領域の周りの線形補間によって50地点が生成される。また、保存されたファイル内の手動で注釈付けされたランドマークに基づいて、アイテールシャドウテンプレートの周りに50地点が生成される。テンプレートは、フレームからテンプレートに50地点を順方向に歪めることにより、フレームに適用される。目領域画像は、元のフレームにトリミングされて戻され、アイテール化粧が適用された画像フレームが作成される。
【0179】
これは、実施形態40000における
図34のフローチャートに示されている。ステップ40010において、ランドマークは、現在の画像フレーム内で検出され、目領域は、ステップ40020において、ランドマークからトリミングされる。同時に、またはそれより前に、ステップ40030において、ランドマーク位置ファイルから事前に注釈が付けられたランドマークを有するテールアイアドオンテンプレートがロードされる。ステップ40040において、テンプレート上の注釈付きランドマークに基づく線形補間によってアイテール領域の周りに50地点が生成される。ステップ40050において、ランドマークに基づく線形補間を使用してトリミングされた画像フレームのアイテール領域の周りにさらに50地点が生成される。ステップ40060において、テンプレートを画像フレームに順方向に歪め、テンプレートが適用された目画像を作成し、最後に画像フレームを画像フレームにトリミングして戻し、ステップ40070において適用されたアイテールシャドウ領域を有する顔を提供する。
【0180】
まつげアドオンが目領域を使用して作成され、画像フレームのランドマーク検出器からランドマークを抽出する。目領域は、37から42および43から48の関心のあるランドマークによってトリミングされる。元のトリミングされた画像フレームにおいて検出されたランドマークから目領域の周りの線形補間によって100地点が生成される。まつげテンプレートを使用して、手動で注釈付けされたランドマークに基づいて、まつげテンプレートの周りに100地点が生成される。テンプレートは、フレームからテンプレートに100地点を順方向に歪めることにより、フレームに適用される。そして、目領域画像が元のフレームに適用され、まつげ化粧が適用されたフレームが作成される。
【0181】
このまつげアドオンは、実施形態50000における
図35のフローチャートに示されている。ステップ50010において、現在の画像フレームからランドマークが検出される。ステップ50020において、目領域がランドマークからトリミングされる。同時に、またはそれより前に、ステップ50030において、まつげテンプレートがロードされ、テンプレートは、ランドマーク位置ファイルから事前に注釈が付けられたランドマークを有する。ステップ50040において、注釈付きランドマークに基づく線形補間によって目領域の周りに100地点が生成される。さらに、ステップ50050において、元のトリミングされた画像フレームのランドマークに基づく線形補間によって目領域の周りにも100地点が生成される。テンプレートは、ランドマークを使用して元の画像に順方向に歪められ、ステップ50060において、テンプレートが適用された目画像を作成する。そして、この画像は、ステップ50070において、まつげを有する顔画像を有する元の画像フレームにトリミングされて戻される。
【0182】
上記のテンプレートアドオンにおいて、これらのテンプレートのランドマークプロトコルが
図21に示されている。全目領域の場合、ランドマーク37から42から左目について100地点が生成され、ランドマーク42から48から右目について100地点が生成される。中間目領域の場合、ランドマーク38から40、41および42から左目に対して50地点が生成され、ランドマーク44から45、47および48から右目に対して50地点が生成される。アイコーナー領域の場合、ランドマーク39から41から左目に対
しておよびランドマーク30から41から右目に対して30地点が生成される。線形補間は、以下の式にしたがう。
【0183】
2つの地点(x0,f(x0)),(x1,f(x1))が与えられた場合、2つの地点を補間する線が以下のように表される。
【0184】
【0185】
順方向歪みの場合、ソース画像は、参照として使用される画像である。この画像の幾何学的形状は変更されず、Sとして示される。ターゲット画像は、参照画像を変換することによって取得され、Tとして示される。以下のパラメータが使用される。
(x,y):参照画像内の点の座標
(u,v):ターゲット画像内の点の座標
f、gまたはF、G:変換関数のxおよびy成分
ymin、ymax:yの最小値および最大値
xmin、xmax:xの最小値および最大値
y=yminからymaxの場合
x=xminからxmaxの場合
u=f(x,y)、およびv=g(x,y)
ソースS(x,y)の画素は、T(u,v)にコピーされる。
【0186】
上記のように、化粧の除去および適用の方法、ならびに適用された最終効果およびテクスチャシミュレーションは、独立してまたは全体の方法およびシステムにおいて使用することができ、以下に示す様々な強化された技術によって補足されることができる。
図37は、本明細書の方法およびシステムの実施形態のいくつかの組み合わせ500の一般的なフローチャートを示している。入力画像II、II’(ここで定義)は、ユーザインターフェース(UI)を介してユーザによって提供されることができる。ユーザインターフェースは、好ましくは、本明細書で定義されるデジタル入力画像を伝達することができる。入力画像II、II’は、本開示(200、8000)に記載されるように処理されて装置および色が較正され、本明細書300、3000に記載される様々なランドマーク検出および注釈方法を使用して、ランドマークが検出および/または特定および注釈付けされる。入力画像II、II’を提供する場合、ユーザは、例えば、ユーザが最初に化粧を除去する必要がある場合に入力画像から化粧を仮想的に除去する方法1000を含む、本明細書で説明する仮想化粧除去方法およびシステムを使用することを選択することができる。除去が不要なように入力画像が化粧なしで送信される場合、もしくは本明細書の方法を使用して化粧が除去された場合、またはユーザが1つ以上の場所で化粧を除去せずにアドオンプログラムを使用する必要がある場合、入力画像は、必要に応じて化粧サービス(MS)に送信され、本明細書のシステムおよび方法で説明するように、化粧試用、出力終了効果、またはテクスチャシミュレーションのいずれかを行うことができる。例えば、仮想試用を使用して、実施形態400に記載されているように、1つ以上の特定のサブ方法10000、20000、30000、40000および50000を含む、単一または複数の種類のおよびレイヤー化目化粧アドオンの目化粧仮想アプリケーションを適用することができる。あるいは、任意の膨らみ効果および/または唇テクスチャシミュレーション(方法100のような)を含む、本明細書に記載の唇化粧色および/または出力終了効果(方法2000を参照)は、化粧サービスによって使用されることができる。
【0187】
そのような方法およびシステムは、単独で、または本明細書で説明するものを含む他の
方法または技術とともに使用して、そのような仮想化粧シミュレーションおよび/または出力終了効果の1つ以上が適用された結果画像RIの仮想出力を作成することができる(結果画像の提供を含み、化粧は除去され、さらに化粧は適用されない)。
【0188】
様々な方法を使用する場合、そのような方法は、システムメモリSMへのデータの記憶を可能にする
図38に示すシステム600、システムのユーザによってユーザインターフェースUIから送信された本明細書に記載の入力画像II、II’を受信する、仮想除去および/または化粧試用またはそれへの出力効果を実行するためのプログラム可能な命令を実行することができるコントローラCを有する化粧サービスMSを使用して実行されることができる。
【0189】
深層学習ベースのパーソナライズされた化粧推薦
【0190】
深層学習ベースのパーソナライズされた化粧推薦は、非常に詳細な段階的化粧指示をユーザに提供することができる。これを達成するために、化粧注釈システムは、プロの化粧をしている人を含む入力画像から段階的な化粧情報を記録する。さらに、上述した仮想顔化粧ウォッシュオフ(化粧除去方法およびシステム)は、深層学習用の入力データベースを生成するように適合され、これは、深層学習モデルを訓練するために化粧前後に十分な写真を収集する上で最も難しいことの1つである。
【0191】
様々な種類の化粧品とそのような種類の化粧品の様々なブランドが利用可能であり、より多くが絶えず発売されているため、個人に適した製品を推薦することは困難であるが、化粧品メーカーと売り手にとって非常に重要なセールスポイントである。顧客は、製品の組み合わせについての詳細を知り、完成外見を作成して、単一の製品の必然的な効果に関する情報(例えば、Beauty Youtubers、SephoraのBeauty
Board)だけでなく、適用時にそのような化粧品がどのように見えるかを評価したい。パーソナライズされた化粧推薦に対する既存のアプローチは、ほとんど化粧の専門家からアドバイスを求めることを対象としている。
【0192】
本開示の化粧推薦システムは、異なる推薦システムにおける深層学習モデルの成功のため、深層学習に基づいている。さらに、詳細な推薦事項について、開示された方法論は、各ステップにおいて化粧品を生成し、ユーザにそれをどのように適用すべきかも説明する。特に、本開示の化粧推薦システムは、出力としてRGBカラー値を生成し、データベース上の最も近い出力を選択することにより製品がユーザに表示され、これは、事前定義された結果の小さなセットのみを生成する従来の方法と比較して大幅に進歩した方法である。本開示における入力データはまた、他の方法論で使用されるものとも異なる。本発明は、学習中に最良の特徴を抽出することができるように、深層学習モデルの入力として専門的に適用されるプロモデルの顔および化粧外見のみを使用する方法およびシステムを提供する。
【0193】
図9は、本開示の実施形態にかかる深層学習モデル訓練システム4000のブロック図を示している。化粧が適用された顔画像データベース4010は、以下でさらに説明されるように、プロの化粧が使用され、本開示の化粧注釈システム5000を使用して段階的な化粧データが注釈付けされる比較的広く代表的な画像を提供する。化粧付きデータベース4010はまた、上述したように、仮想顔化粧ウォッシュオフ(化粧除去方法およびシステム)を処理した後の深層学習訓練のさらなる入力データにもなり、これは、アルゴリズムを機能させる最も重要な原則の1つである。一実施形態では、システム4000は、これらの画像が深層学習訓練で使用する入力データとなり得るように、化粧なしの顔画像4020a、または4020bのように化粧が仮想的に除去された顔画像を生成する。非化粧顔画像を生成するための化粧ウォッシュオフまたは除去の独自の使用は、システムを
より堅牢にするが、訓練から生じる深層学習モデル(DLM)4040を訓練するために化粧前後の画像を十分に収集するための深層学習訓練の問題を解決する最も難しい部分の解決策も表す。したがって、化粧のある様々な画像を収集することができ、化粧なしでかなりの数の画像を使用する代わりに、化粧除去方法を使用して、ステップ4030における訓練の入力データとして使用される化粧が適用されていない多数の画像を生成することができる。
【0194】
モデル訓練では、Caffe(登録商標)、Caffe2(登録商標)またはPytorch(登録商標)などの深層学習フレームワーク4035を使用して、画像分類と画像セグメンテーションのための様々な種類の深層学習アーキテクチャをサポートする。そのようなフレームワークは、様々なニューラルネットワークパターンと、完全に接続されたニューラルネットワーク設計とをサポートする。例えば、Caffe(登録商標)フレームワークを使用した訓練では、ニューラルネットワークを定義する訓練プロトタイプを入力する必要もある。元々顔認識用に設計されたニューラルネットワークは、それぞれが人の外見に関連しているため、化粧推薦に適合させることができる。
【0195】
図10A-
図10Dは、本開示の実施形態にかかる化粧注釈システム5000のより詳細な出力例を示している。化粧注釈システム5000を通じて、デジタル化された化粧情報を生成することができ、この情報は、ステップ4045における深層学習訓練の入力データとして使用することができる。化粧注釈システムの擬似コードは、付録Dに提供されている。当業者は、本開示に基づいて、ニューラルネットワークを生成することができる様々な種類のソースソフトウェアに基づいて、この目的のために他の種類のニューラルネットワークを開発することができることを理解するであろう。
図10Aでは、化粧が適用された顔の画像にマーク(注釈)が付けられ、本明細書の他の場所で説明されているアイシャドウテンプレート(1)、テールシャドウ(2)、ミドルアイシャドウ(3)、コーナーアイシャドウ(4)およびまつげ効果(5)について、シェードと色およびテクスチャの出力効果(出力効果)とを変化させるために番号1-5によって特定される領域がテンプレートとして特定および使用される。テンプレートを形成して注釈を付ける方法は、以下でさらに説明される。
図10Bでは、化粧を有する画像(上記のように注釈が付けられている)は、唇色注釈のテンプレートとしても使用され、
図10Cは、示されるようにラベル付けされた色と、対応する離散値によって特定された出力効果またはテクスチャとともに、関連する唇テクスチャ注釈(出力効果)を示している。そのような効果および色は、本明細書の方法を使用して適用することができるが、訓練データについては、そのような注釈付き画像がデータ参照セットで使用される。
図10Dは、全体的なスタイル(示される自然なスタイルおよびスモーキースタイル)で分類された画像を提供する。
【0196】
図11では、化粧推薦システムは、データベース内の実際の製品を使用して、パーソナライズされた段階的な化粧指示を生成する。異なる化粧スタイル4040の訓練済みモデルは、深層学習システム4000および注釈システム5000から取得されることができ、化粧推薦システム6000に入力して、パーソナライズされた化粧推薦7050を提供することができ、以下で説明するように、必要に応じて仮想化粧チュートリアルを提供することもできる。化粧推薦7050は、訓練済みシステムおよび訓練済みモデル4040などのモデルの化粧推薦器7020から導出されることができるが、推薦システムによって使用するためだけに他の訓練済みモデルを作成することもできる。製品マッチング7030はまた、化粧データベース7045(
図11に示すように、同じデータベース)と同じまたは異なることができる化粧品データベースを使用して使用することもできる。化粧推薦器および/または製品マッチングは、パーソナライズされた化粧推薦7050をもたらすことができる。仮想チュートリアルはまた、セグメント化されたビデオ経路を使用して生成することができ、または以下で説明するように美容製品データベースの訓練済み製品分類器を使用した製品の検索および特定から情報を取得することもできる。
【0197】
仮想化粧チュートリアル
【0198】
一実施形態では、本開示は、ビデオをキーステップに自動的に要約し、使用済みの全ての製品を抽出し、購入リンクを見つけ、オンラインで製品を注文する必要なくまたは小売店で製品をテストする必要なく、仮想試用チュートリアルを提供することができる仮想化粧チュートリアルシステム7000を提供する。
図12は、本開示の実施形態にかかる仮想化粧チュートリアルシステムを示すフローチャートである。
【0199】
ビデオおよび/または写真共有ウェブサイト(例えば、YouTube(登録商標)およびInstagram(登録商標))において化粧アーティストをフォローすることは、多くの現代のソーシャルメディアプラットフォームにとって不可欠な部分である。ビデオチュートリアルは、消費者が化粧のヒントを得て美容製品を発見するための優れた方法であるが、そのようなビデオを見つけて使用するのは時間がかかり、視聴者のユーザが外見を再現するのは困難である。フォローアップして全ての使用済み製品のリンクを見つけるために、消費者は、ビデオを何度も一時停止し、ビデオで紹介された各製品を見つけ、製品名を書き留め、オンラインの購入リンクを見つけなければならない。本開示では、入力化粧チュートリアルビデオ7010について、仮想化粧チュートリアルシステムは、チュートリアルビデオをキーステップ7020に分割することによって自動的に要約し、チュートリアルビデオ7030において使用または導入される全ての製品を特定および/または抽出することができ、そのそれぞれは、製品をオンラインで注文したり小売店で製品をテストしたりする必要なく、仮想化粧試用チュートリアル7050に対して概要が一般に使用される化粧チュートリアル概要7040を提供するための購入リンクを見つけるために使用することができる。
【0200】
一実施形態では、ステップ7020において、ビデオをセグメントに分割した(7020a)後、キーフレームが選択され(7020b)、化粧製がフィルタリングおよび指定した化粧関連基準を使用して検出され、化粧チュートリアルビデオ7040の段階的な概要が生成される。ステップ7020におけるキーフレームの選択は、例えば、おそらく化粧アプリケーションの実行中にのみ存在する手の動きまたは手で覆われた顔などの動作および挙動量などの定量化可能な測定に基づいており、ステップの各キーフレームは、通常、明確であって閉塞されていない顔によって表示される。ビデオデータからキーフレームを選択する方法は、以下のステップを含む。ビデオデータをセグメントに分割し(7020a)、フレーム差、色ヒストグラム、および/またはカメラの動きに基づく一般的なビデオキーフレーム検出方法を使用して、候補キーフレームのセットを生成し(7020b)、例えば、正面顔、顔のオクルージョン(occlusion)、手の動き、および/または顔面表情(通常は笑顔を有する)、および前のキーフレームと次のキーフレームとの間に異なる化粧が存在するかどうかなど、特定の化粧関連基準に基づいて最終キーフレームを選択する。
【0201】
製品検出
【0202】
製品検出ステップ7030の場合、場合によっては、化粧アーティストは、各製品が最初に紹介されたときに製品の名前を画面に表示するか、ビデオの全ての製品を説明の一部としてリスト化することがある。したがって、本開示のシステムは、前の手順で検出されたキーフレームの周囲の文字を検出し、光学文字認識技術を実行して、7030bのように1つ以上の名前と関連製品を認識することができる。他の場合では、ビデオに製品名が追加されていない場合、本開示のシステムは、通常、ビデオ画像内の顔の近くに存在するおよび/または同様のジェスチャによって手で保持される製品7030aを(例えば、そのボトル、チューブ、または箱を介して)最初に特定することができる。そして、製品の
画像は、ステップ7030cにおいて製品を認識するために美容製品データベース7045からのデータを分類した訓練済み分類器7035に供給されることができる。最悪のシナリオでは、製品が認識できない場合、システムは、ビデオ概要のキーフレームとして不明な製品を含むフレームを返してもよい。
【0203】
製品検出7030および/またはビデオ分割7020のそれぞれは、仮想化粧チュートリアルシステムにおいて使用して、化粧チュートリアル概要7040を生成し、仮想化粧チュートリアル7050を生成することができる。上記の取得したビデオ概要により、システムは、仮想化粧チュートリアル7050を介して一連の仮想試用オプションを自動的に生成することができ、これは、ユーザが製品をオンラインで注文したり小売店でテストしたりする必要なく段階的に外見を再現することを可能にする。
【0204】
デジタル化粧品のカラーマッチング
【0205】
ロバストな明るさ制御
【0206】
一実施形態では、本開示は、カメラによってキャプチャされた顔を自動的に検出し、検出された顔の皮膚色に従って顔の明るさをロバストに調整する、本明細書ではシステム8000と一般に呼ばれるシステムを提供する。このシステムは、サーバビデオのリアルタイムアプリケーションをターゲットにして、ちらつきを防ぎ、調整プロセスをスムーズにする。
【0207】
一般に、カメラハードウェアの自動明るさ制御は、通常、ユーザの顔の明るさを調整することができない。したがって、自動明るさ制御を含むそのようなハードウェアは、仮想化粧アプリケーションには適さないことがある。デジタルカメラでキャプチャされた人の顔の適切な明るさを維持するために、明るさ制御アルゴリズムが必要である。適切な明るさを達成する一般的な方法の1つは、LEDなどの追加光源を使用することである。しかしながら、ハードウェア光源は、制限を有することがある。この実施形態では、ユーザの顔の明るさ制御は、主にソフトウェアレベルで実行される。
【0208】
図14を参照すると、この実施形態では、顔8010を有するビデオフレームの形態の入力が、顔を検出して明るさを調整するシステム8000に入力されると、画像内の顔位置および形状を取得するために、ステップ8020において、顔ランドマーク検出アルゴリズムを使用して入力画像から顔領域および顔ランドマークを検出する。次に、システムは、画像からのランドマーク情報に基づいて皮膚色推定器8030を使用して、顔の正規化された皮膚色を推定する。顔ランドマークが検出された他の経路8040では、システムは、異なる重み係数を顔領域、画像中心領域、および境界領域に割り当て、画像8045の平均明るさを計算する。次に、平均明るさが推定皮膚色8055と比較され、補正係数を出力する。多項式変換を使用する曲線変換8050は、上記の手順で計算された補正係数に従って画像に適用される。そして、結果画像は、仮想化粧アドオンなどの後処理8060において使用する準備ができている。
【0209】
曲線変換8050はまた、
図15を参照して生成することもできる。ビデオリアルタイムのデジタル化粧品アプリケーションを対象とする場合、ちらつきや突然の変化を避けるために、明るさレベルを可能な限り一定に保つ必要がある。したがって、応答曲線8050aが作成され、明るさ制御システム8000に追加される。これにより、時間領域で補正係数8050bが平滑化され、出力として安定した明るさ制御ビデオ8050cが提供される。
【0210】
画像を処理して明るさを調整するために、数学的な変換式が必要である。一実施形態で
は、以下の曲線変換フィルタを使用することができる。
Po=(1-α)Pi+αPi
2 (6a)
【0211】
カメラで撮影されたユーザの顔を自動的に検出し、検出された顔の皮膚色に応じて顔の明るさをロバストに調整する上記の方法システムおよび方法8000では、ステップ8030において、ロバストな皮膚色推定器が使用される。
図13は、皮膚色推定器8030の実施形態として使用されることができる本開示の一実施形態にかかる皮膚色推定のためのプロセスを示している。この実施形態では、皮膚色推定のためのアルゴリズムが付録Eに提供されている。この実施形態では、アルゴリズムに従って、本方法は、入力画像II’を受信し、上述した技術を使用するランドマーク検出(LD)、ならびに必要に応じて上述した化粧除去方法およびシステムで実行することができる成分除去(MR)を使用する。次に、RGDとグレースケール分析の両方を使用して、ヒストグラム分析HAが実行される。この目的に有用な技術は、化粧除去プロセスおよびシステムに関連して上記で説明されている。投票(評価)スキームを使用して、忠実な皮膚色画素SCPを生成する(付録Fを参照)。
【0212】
図14および
図15は、システム8000を参照して上述した本開示の一実施形態にかかる、曲線変換を使用して画像の明るさを調整する方法を示すフロー図である。一実施形態では、明るさ制御のためのアルゴリズムは、付録EおよびFの文脈で提供されている。
【0213】
色の一貫性
【0214】
一実施形態では、本開示は、シーンの色を正確に検出するためにカラーマッチングを実行するために色の一貫性を維持するためのシステム9000と一般的に呼ばれるシステムを提供する。システム9000は、色参照チャートを自動的に検出し、検出された情報を使用してカメラのハードウェア設定を調整する。そして、システムは、追加の高度なソフトウェア較正を実行して、色の一貫性を維持するために、本明細書のゴールデン標準システムを満たす。そして、この実施形態のシステムは、シーン色を正確に検出するためにカラーマッチングを実行することができる。
【0215】
コンピュータビジョンの問題は、観察された画像をもたらす基礎となる世界を推定することである。この問題のサブセットの1つは、色の一貫性である。すなわち、シーンの光源の色と、白色光下で見られるシーン内のオブジェクトの色を推定する。一貫性は、画像の背後にある真の世界を復元することを目的としている。色の一貫性の問題は、人の目とコンピュータプリケーションの両方にとって常に課題である。
【0216】
図16は、本開示の一実施形態にかかるシステム9000の色一貫性方法および関連するアルゴリズムのフロー図を示している。本開示で使用される色一貫性アルゴリズムは、環境光によってシーンに投じられる照明を推定することができる。アルゴリズムはまた、異なる環境条件で不変であるオブジェクトの実際の色(反射率)を復元することもできる。本方法は、カメラの副作用の較正、光源から生じる色の補償、および現実世界の製品のグラウンドトゥルースカラーの特定に使用することができる。
【0217】
ハードウェア色較正アルゴリズム
【0218】
システム9000の一実施形態では、色の一貫性を達成するために、色較正のシステムが構築される。ターゲットは、カメラにアクセス可能なリアルタイムビデオアプリケーションであるため、システム全体をリアルタイムフレームワーク上に構築することができる。ユーザは、入力9010として、デジタルビデオ機能を備えたカメラ、またはリアルタイムデジタルビデオを提供するように構成されたカメラを有する他の装置を使用する。上
記のように、ビデオフレーム9015は、分離入力とすることができる。ユーザが任意の適切な入力技術を使用して色較正要求を開始したとき。それに応じて、システムは、ステップ9020において、特定の位置に色参照チャートを表示するようにユーザに要求する。較正システムは、色参照チャート9020を自動的に検出し、ステップ9025において、各色パッチの画素値を読み取る。次に、システムは、観察されたカラーチャートを、データベースに保存されているゴールデン参照システム9030aの下でキャプチャされた参照値9030と比較する。比較結果を使用して、較正システムは、オペレーティングシステムに組み込まれたSDKを使用するウェブカメラなどのビデオキャプチャ装置に制御信号を送信する。システムは、ステップ9040において、ISO速度、ホワイトバランス、シャッタスピード、色相、明るさ、コントラスト、およびゲインなどの全てのカメラパラメータをそれに応じて調整し、ゴールデンシステムの基準値を満たす。この較正は、連続的なフィードバックプロセスとして機能し、較正システムは、キャプチャされた新たなフレームに従って、較正制御信号をカメラに継続的に送信する。最終的に、全ての制御パラメータが動的なバランスを達成し、キャプチャされたフレームの色参照チャートの画素値が参照値に非常に近くなる。
【0219】
ソフトウェア色較正アルゴリズム
【0220】
次に、較正システムは、RGBチャネルで曲線変換を個別に計算し、フレームに適用し、これは、ステップ9050および9060において最終的な詳細な較正として機能する。最後に、キャプチャされたフレームは、色の一貫性を達成し、ステップ9070において、カラーマッチングのために既に準備される。画像を変更して色を較正するために、3次多項式を使用して3つのチャネルで変換プロセスをシミュレートすることができる。3次多項式を使用すると、画素値の異なる範囲で変換を異なる方法で変更することができ、柔軟性が向上する。実験により、RG、RB、およびGBなどの相互チャネル項は、出力にあまり影響を与えないことが観察されている。したがって、これらの項を省略して、多項式チャネルを独立させることができる。赤チャネルを例にとると、変換方程式は、以下のように記述することができる。
R
o=Cr
0+Cr
1R
i+Cr
2R
i
2+Cr
3R
i
3 (1)
ここで、R
oは、出力赤チャネル画素値であり、R
iは、入力赤チャネル画素値であり、Crは、多項式の係数(定数の場合もある)である。上記関数は、以下のように行列形式で記述することができる。
Ax+b=0 (2)
未知の定数Cの数よりもはるかに大きい24の観測があるため、解くべき過剰判定システムがある。問題は、最小二乗法を使用して解決できる回帰問題に変換される。目的関数は、以下のように記述することができる。
【数15】
ここで、R
1・・・R
nは、観測値であり、C
rは、解くべき係数であり、R
refは
、ゴールデンシステムによる基準値であり、nは、カラーパッチの観測値の数(この場合は24)である。
【0221】
R、GおよびBの各チャネルのC係数を解いた後、色の一貫性の誤差を最小限に抑えるためにハードウェア較正後に画像を処理するために使用することができる係数の完全なセットがある。最後に、ハードウェアとソフトウェアの較正の後、ビデオフレームは、カラーマッチアルゴリズムなど、さらなる色ベースのアプリケーションへの準備ができる。
【0222】
他の色一貫性アルゴリズムと比較して、本発明の方法は、基準カラーチャートをグラウンドトゥルース基準として使用するため、結果の色一貫性アルゴリズムからの出力は、任意のグラウンドトゥルースデータを有しない多くの仮定と統計的結論に基づくソフトウェアベースの方法よりもはるかに正確である。さらにまた、我々のアルゴリズムは、一度較正され、リアルタイムでビデオに適用されることができる。
【0223】
カラーマッチング
【0224】
上記の色較正の後、全ての色は、基準としてのゴールデンシステムに従って較正される。その後、出力フレームを使用して、シーン内の正確な色を認識することができるカラーマッチングを実行することができる。例えば、システムは、口紅色を認識するために使用することができる。
【0225】
色をその基準値と一致させるために、定量化された色差式が非常に重要である。色は、人の目で認識される方法とは非常に異なって表示されるため、色差の定量化は、一般に難題である。人が電子装置において見る色のほとんどは、sRGB色空間に基づいている。したがって、色差の最も一般的な解決策は、色空間で距離を計算することである。例えば、RGB色空間のユークリッド距離は、以下のように表すことができる。
【数16】
【0226】
RGBのユークリッド距離に加えて、多くの色距離式は、HSVなどの他の色空間を使用し、それに応じて空間距離を計算することができる。しかしながら、全ての色距離式は、基本的な計算の精神と範囲から逸脱することなく、単純なユークリッド距離を使用した上記の式の本質的に単純な変更である。色距離の式はどれも、人の色知覚の不均一な動作を説明する傾向はない。したがって、方程式は、同じ色測定で人の目とは異なる結果をもたらす可能性がある。
【0227】
国際照明委員会(CIE)は、CIE76、CIE94、およびCIE2000などの多くの色差式を作成し、人の目に近い色差を定量化することを目指している。CIE94の定義は、知覚の均一性の問題を適切に解決しないため、CIEDE2000では、CIEは、その定義を改良し、5つの修正を追加した。CIEDE2000は、値がCIELab色空間から計算されるLCH(明度(Lightness)、彩度(Chroma)、および色相(Hue))色空間に基づいている。CIEDE2000色差は、不均一性の原因であり、人の知覚により近いものである。
【0228】
ハイライト除去による色測定
【0229】
一実施形態では、本開示は、画像に示されるオブジェクト上の反射光を除去することにより入力画像の支配的な色を計算するための色測定アルゴリズムを提供する。入力画像の
中心により多くの焦点を与えることができるように、オブジェクトの局所性が考慮される。
【0230】
色の一貫性が保証されていても、まだ解決すべき問題が残っている。例えば、現実世界の写真では光の反射が見える。所望の正確な色を得るために、反射光を消去し、オブジェクトの主要な色を測定する必要がある。
【0231】
図17は、本開示の一実施形態による色測定システムを示すブロック図である。
図17に示すように、入力画像II’’は、ステップ210においてHSV色空間に変換される。ここで、HSV色空間は、上述したRGB色空間における地点の最も一般的な円筒座標表現である。
【0232】
前述のように、色相、彩度、および色値は、
図1に示すようにHSV色空間において定義されることができる。色相は、色の種類を表し、0から360度の角度範囲で表すことができる。彩度は、色がグレーと異なる度合いを示し、彩度が低いほど、色あせたように見える。色値は、色の明るさを表し、0は完全に暗く、255は完全に明るい。
【0233】
HSV色空間の画像を取得した後、ステップ220において画像のヒストグラムを計算することができる。ヒストグラムは、数値データの分布をグラフィカルに表現したものである。それは、連続変数(量的変数)の確率分布の推定値であり、Karl Pearsonによって最初に導入された。それは、一種の棒グラフである。ヒストグラムを作成するために、第1のステップは、値の範囲を「ビン化」することである。すなわち、値の範囲全体を一連の間隔に分割し、各間隔に含まれる値の数をカウントする。ビンは、通常、変数の連続した重複しない間隔として指定される。ビン(間隔)は、隣接している必要があり、多くの場合(同じである必要はないが)に同じサイズである。
【0234】
入力画像のヒストグラムを取得した後、3D畳み込みを使用して各ビンの加重平均を計算し、上位2つの値を返すことができる。畳み込みは、以下の式(5)のように、1つの関数gが他の関数fにシフトされるため、1つの関数のオーバーラップ量を表す積分である。HSV色空間は3次元であるため、式(6)は、3D畳み込みに使用される。さらに、HSV色空間の色相値は、円柱表現を有するため、巡回畳み込みを使用して、隣接するビンの全ての値を考慮する。式(7)は、色相値の明確な周期的総和である畳み込み行列g
τを示している。
【数17】
【0235】
局所性はまた、ステップ230において重み付けされた2次元(2D)畳み込みによっ
て計算され、上位2つの値の局所性を比較して入力画像の中心にあるオブジェクトにさらに焦点を当てることにより、ステップ240において最終戻り値を決定する。
図18は、本開示の実施形態にかかる色測定システムを使用して抽出された入力画像F、G、Hおよびその主要色F’、G’、H’を示している。色測定システムの擬似コードは、付録Gに提供されている。
【0236】
自動化された高速顔検出およびランドマーク追跡
【0237】
本開示のこの部分において、実施形態は、ランドマークの揺れおよび遅延の問題を解決するためのグローバル学習降下正規化(GLDR)モデルに基づく新たなアルゴリズムを使用した顔ランドマークの新規フレームワークを示している。この実施形態はまた、ランドマークの正確さを確認するパッチ係数計算も有する。
【0238】
一実施形態では、本開示は、高速顔ランドマークの検出および追跡のためのフレームワークに関する。本開示は、さらに、顔の速い動きにおける遅延の問題および人がビデオ内に静止しているときのランドマークの揺れの問題を解決する方法に関する。
【0239】
一実施形態では、本発明は、顔ランドマーク検出のためのフレームワークを提供する。特に、本発明は、マルチスケールグローバル検出器で遅延問題を解決する方法に関し、また、フレームワークをさらに高速化してランドマークのドリフト問題を減らすための現在のフレームの初期形状としての現在の境界ボックスへのローカルランドマークとして異なるスケール画像およびパッチ相関マッチを使用した高速線形回帰を使用する方法に関する。
【0240】
この方法の第1の実施形態では、画像は、2次元(2d)カメラによってキャプチャされる。次に、異なるスケール画像で画像ピラミッドが作成される。顔の境界ボックスは、画像ピラミッド上のスライディングウィンドウおよびSVMによる勾配特徴のヒストグラムを使用する。
【0241】
さらなる実施形態では、ボックスの内側に顔がある場合、境界ボックスの内側の顔ランドマークを検出する異なる縮尺画像でいくつかのグローバル顔ランドマーク検出器(GLDRモデル)が使用される。グローバル検出器は、顔の検出時に特徴が既に存在するため、特徴として勾配のヒストグラムを使用する。次に、ランドマーク検出に対するノイズの影響を除去するために、ランドマーク位置が画像ピラミッド全体で正規化される。
【0242】
本発明の開示のさらなる実施形態では、ランドマークの正確性は、訓練されたニューラルネットワークモデルによって検証され、その後、ランドマークを中心とするパッチが抽出される。ランドマークは、次のフレームの初期形状として現在のフレームで使用される。グローバル顔ランドマーク検出器によって検出された後、パッチは、ランドマーク平均シフトフィッティングを使用してフィッティングされる。相関係数は、各パッチのコンピュータであり、悪いランドマークは消える。そして、プロセスは、最初の第1の実施形態に戻る。
【0243】
図19は、顔ランドマークの検出を最適化する全体的なプロセスの概要を示すフロー図である。本方法は、
図19における方法3000を参照して説明され、最初に、ステップ3010において2Dカメラを使用して画像がキャプチャされる。
【0244】
3020を参照すると、第1のフレームは、画像フレームとして識別される。これは、異なるスケールで生成された画像ピラミッドを使用して実行することができる。現在のフレームに以前のランドマークがある場合、3040において顔が検出され、スライドウィ
ンドウを備えたマルチスケールグローバル検出器を使用して画像をスキャンして(3050)顔ランドマークを検出し、さらに3050において、各関心領域について、勾配のヒストグラムが計算され、サポートベクターマシンモデル3060への入力として使用され、どの部分がパッチ抽出およびフィッティングの目的領域であるかを判定する。N. Dalal
and B. Triggs, “Histograms of oriented gradients for human detection,” CVPR, pp. 886-893 (2005)、およびC. Cortes and V. Vapnik, “Support-vector networks,” Machine Learning, pp. 273-297 (1995)を参照のこと。次に、3070において、ウィンドウをダウンサンプリングして領域をより正確にする。顔が検出されない場合、フレームを検出するために画像ピラミッドで制約付き平均シフト3030が使用され、以前のランドマークが存在する場合、3050において、グローバル検出器の初期形状として使用することができる。現在のフレームに以前のランドマークがある場合、3035において、以前のランドマークを使用して、教師付き降下法(SDM)の初期ランドマークとして現在の境界ボックスに位置合わせする。
【0245】
上記のように、GLDRモデル3050は、顔ランドマークを検出するために使用される。回帰木(V. Kazemi and J. Sullivan, “One millisecond face alignment with an ensemble of regression tress,” CVPR (2014)を参照のこと)、ローカルバイナリ特徴
の回帰(S. Ren, et al., “Face Alignment at 3000 FPS via Regressing Local Binary
Features,” CVPR (2014)を参照のこと)、教師あり降下法(X. Xiong et al., “Supervised descent method and its applications to face alignment,” CVPR (2013)を参照のこと)など、グローバル検出器として使用することができる多くの方法がある。本発明において、好ましいGLDR方法は、顔ランドマークを検出するためのグローバル検出方法としてのHOGであり、検出をより正確にするために、SDMの第2の特徴として点分布モデル(Point Distribution Model)を使用することも好ましい(T. Baltrusaitis, et al., “Constrained local neural fields for robust facial landmark detection in the wild,” ICCV Workshops (2013)を参照のこと)。新たな数式は、以下のように作成される。
【数18】
変数xは、点分布モデルによって計算されたパラメータである。Hは、ランドマークの勾配のヒストグラムを表す。H(x
*)は、グラウンドトゥルースランドマークの位置のHOG特徴である。点分布モデルに基づいてパラメータpを使用して形状を計算することができる。推定の式は、以下のとおりである。
【数19】
ここで、sはスケールであり、Rは回転ベクトルであり、φは定数行列であるn個の固有ベクトルを保持する形状部分空間行列であり、qは非剛体形状パラメータであり、tは平行移動である。したがって、以下のようにパラメータベクトルpを取得することができる。
【数20】
ここで、s、R、およびtは、グローバルパラメータであり、qはローカルパラメータである。方程式(1)は、オブジェクト方程式であり、望ましいのはオブジェクト方程式の結果を最小化することができるパラメータである。Hが2階微分可能であると仮定すると、2次のテイラー展開が式(1)の左に使用される。
【数21】
ここで、JおよびHは、pで評価されたfのヤコビ行列およびヘッセ行列である。第1の更新は、xをゼロに設定し、それに関して方程式(1)を微分することによって計算される。
【数22】
形状xの更新中にパラメータpを更新することが好ましい。点分布モデル(PDM)に基づいて、更新パラメータは、以下のように更新形状に基づいて容易に取得される。
【数23】
ここで、HpはPDMのヘッセ行列であり、J
pはPDMのヤコビ行列である。Xcは現在の形状である。次に、pの更新が計算される。
【数24】
【0246】
xはpによって記述することができるため、最終的な方程式は、以下とすることができる。
【数25】
【0247】
そして、新たなオブジェクト関数は、以下のようになる。
【数26】
【0248】
ガウスニュートン法は、SDMが新たなオブジェクト関数を最適化するのと同じように使用することができる。
【0249】
したがって、一実施形態では、このステップの訓練アルゴリズムは以下のようにすることができる。
【表1】
【0250】
検出されたランドマークおよびパラメータが取得された後、パッチが抽出され、既に利用可能なパラメータがランドマーク平均シフトフィッティング3060を実行するために使用される。ランドマークは、新たなパラメータpを計算するための特徴としてローカルパッチが使用されるように、滑らかであることが好ましい。正規化ランドマーク平均シフト法に基づいて、更新パラメータが取得される(J. Saragih et al., “Deformable Model Fitting by Regularized Landmark Mean-Shift,” IJCV (2011)を参照のこと)。
【数27】
ここで、Jはベクトルpに対するヤコビ行列であり、pの事前分布であり、vはパッチ上の平均シフトベクトルであり、p
0はSDMから計算できるpの初期推定値である。ガウス分布p(p)N(q;0;Λ)では、では、Λ
-1は、pの事前分布を示す行列である。v=[v
1,v
2,...v
n]
Tは、ガウスカーネル密度推定量によって以下のように表される平均シフトベクトルである。
【数28】
ここで、関数Nはガウス分布であり、x
i
cは、以前のステップで計算されるxの現在の推定値である。
【0251】
ランドマーク位置は、画像ピラミッド全体で正規化される(3065)。
【0252】
ランドマークが生成された後、3層ニューラルネットワークモデルが正確性検証モデル3070として使用され、誤形状がフィルタリングされる。ニューラルネットワーク層は、畳み込み層、アップサンプル層、およびマッピング層であることが好ましい。
【0253】
次に、パッチの各ペアの相関係数を計算することにより、以前のパッチと現在のパッチ
が照合される。次に、現在のパッチで最適な関心領域が選択され、その中心が最終ランドマークとして作成される(3090)。さらに、相関係数を使用して、どのランドマークが隠されているかを分類することもできる。計算関数は、好ましくは以下のとおりである。
【数29】
【0254】
比較
【0255】
したがって、新たなアルゴリズムが開発され、3050におけるようなGLDRの好ましい方法として点分布モデルとともにSDMを組み込むことができる。しかしながら、本明細書の好ましいフレームワークとGLDRモデルは、どちらも以前のモデルとは異なる。SDMを使用して式(15)を最適化するが、オブジェクト関数の変数は、点分布モデルによって計算されるパラメータであり、グラウンドトゥルースからノイズをフィルタリングして、ビデオのランドマークをより安定させる。さらにまた、異なるスケーリングされた画像によってSDMを使用することにより、ノイズが低減される。SDMの初期ランドマークは、前のフレームから現在の境界ボックスまでのランドマークに位置合わせされる。さらに、フレームワークは、前述のBaltrusaitis et al.に記載されている点分布を
使用する従来のGLDRのようなローカル検出器ではなく、グローバル検出器であるGLDRモデルを使用する。したがって、現在の方法を使用した性能は、顔が非常に高速に回転する場合の遅延の問題はない。新たなフレームワークは、どのランドマークが隠されているかを検出するパッチ係数一致モジュールを備えているため、さらにスマートである。
【0256】
本明細書の様々なシステムおよび方法について、
図38に示されるような一般的なシステム構造を使用し、方法を様々な方法(
図37など)で、または上述した他の技術および改良と組み合わせることができる。
図38に示すように、メモリ機能(クラウドまたはハードウェアサーバベース)を使用して、アイテンプレート、グラウンドトゥルースデータ、製品データ、スタイルおよび化粧の外見情報、ユーザ情報、あらゆる種類の訓練および学習情報、およびシステムが操作に必要とする他の情報を含む、本明細書に記載されている全ての様々なデータおよびデータセットを好ましくはセキュアな場所に記憶することができる。データは、上記のアルゴリズムおよび擬似コードに基づいてプログラム可能なシステムソフトウェアからアクセス可能であり、本明細書のコントローラのプロセッサで実行可能である必要がある。
【0257】
そのようなシステムの実装では、様々な種類の適切なハードウェアまたはソフトウェアを使用することができる。システムは、Microsoft Windows(登録商標)OS、Apple OS X(登録商標)、Apple iOS(登録商標)プラットフォーム、Google Android(登録商標)プラットフォーム、Linux(登録商標)オペレーティングシステム、およびUNIX(登録商標)オペレーティングシステムの他の変形などのオペレーティングシステム(OS)を実行する能力を備えた任意のシステム構造で実行することができる。
【0258】
説明した機能の一部または全ては、ユーザ装置上のソフトウェアおよび/またはハードウェアに実装することができる。ユーザ装置は、適切なユーザインターフェースを含む必要があり、上記のように、デジタルカメラおよび/またはデジタルビデオ能力を有する携帯電話(スマートフォン)とすることができる。さらに、好ましくは、カメラ、無線装置、情報機器、ワークステーション、ミニコンピュータ、メインフレームコンピュータ、または他のコンピューティング装置を有し、本明細書で説明する機能を実行することができる汎用コンピュータまたは特殊用途ハードウェア装置として動作する、スマート/デジタ
ル時計、スマートミラー、スマートグラス、タブレットコンピュータ、ポータブルコンピュータ、テレビ、ゲーム機器、音楽プレーヤー、仮想現実ゴーグル、ラップトップ、パームトップ、スマートまたはダム端末、ネットワークコンピュータ、携帯情報端末、ホームアシスタント(Alexa(登録商標)またはGoogle(登録商標)Home(登録商標)など)を使用することができる。
【0259】
ソフトウェアは、処理ユニット、システムメモリ、およびシステムメモリを含む様々なシステムコンポーネントを処理ユニットに結合するシステムバスを含むコンピュータの形式で汎用コンピューティング装置上に実装されてもよい。追加または代替として、機能の一部または全てをリモートで、クラウド内で、またはソフトウェア・アズ・ア・サービス(例えば、化粧サービスなど)を介して実行することができる。例えば、ユーザの装置およびそのユーザインターフェースと通信する上述したような1つ以上のリモートサーバまたは他の装置上で仮想除去および化粧仮想シミュレーションおよびアドオン機能および関連機能を実行することができる。リモート機能は、十分なメモリ、データストレージ、処理能力を備え、サーバクラスのオペレーティングシステム(例えば、Oracle(登録商標)Solaris(登録商標)、GNU/Linux(登録商標)、およびMicrosoft(登録商標)Windows(登録商標)OSファミリなど)を実行するサーバクラスのコンピュータ上で実行することができる。
【0260】
システムは、メモリに記憶され、プロセッサで実行される複数のソフトウェア処理モジュールを含むことができる。例として、プログラムモジュールは、1つ以上のプロセッサが命令を実行することを可能にするように機械語またはオブジェクトコードに変換される1つ以上の適切なプログラミング言語の形態とすることができる。ソフトウェアは、本明細書で提供されるアルゴリズムおよび擬似コードに基づいて、適切なプログラミング言語またはフレームワークで実装された、スタンドアロンアプリケーションの形態とすることができる。
【0261】
本明細書で説明する技術の方法ステップは、入力画像および他の関連データを操作して出力を生成することにより機能を実行するように1つ以上のコンピュータプログラムを実行する1つ以上のプログラム可能なプロセッサによって実行することができる。方法ステップはまた、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用ロジック回路によって実行することもでき、装置は、専用ロジック回路として実装することもできる。モジュールは、その機能を実装するコンピュータプログラムおよび/またはプロセッサ/特殊回路の一部を参照することができる。
【0262】
コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用マイクロプロセッサの両方を含む。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令とデータを受信する。コンピュータの重要な要素は、命令を実行するプロセッサと、命令とデータを記憶する1つ以上のメモリ装置である。コンピュータプログラムの命令およびデータを具体化するのに適した情報担体は、例として、例えば、EPROM、EEPROM、およびフラッシュメモリ装置などの半導体メモリ装置、例えば、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、およびCD-ROMおよびDVD-ROMディスクを例として含む、あらゆる形態の不揮発性メモリを含む。1つ以上のメモリは、プロセッサによって実行されると、モジュール、エンジン、および本明細書に記載される他のコンポーネントを形成してコンポーネントに関連する機能を実行する、メディア資産(オーディオ、ビデオ、グラフィック、インターフェース要素、および/または他のメディアファイルなど)、構成ファイル、および/または命令を記憶することができる。プロセッサおよびメモリは、特別な目的のロジック回路で補完するか、組み込むことができる。そのようなプロセ
ッサはまた、本明細書で説明される実行可能な学習ツールおよびシステムを作動させることができる。
【0263】
様々な実装において、ユーザ装置は、好ましくは、本明細書に記載の機能の実行を促進するウェブブラウザ、ネイティブアプリケーション、またはその両方へのアクセスを有する装置への何らかのアクセスまたは通信を含む。ウェブブラウザは、ウェブページ要求によって装置がウェブページまたは他のダウンロード可能なプログラム、アプレット、またはドキュメントを(例えば、サーバから)要求することを可能にする。ウェブページの一例は、表示、実行、再生、処理、ストリーミング、および/または記憶されることができるコンピュータ実行可能または解釈可能な情報、グラフィック、サウンド、テキスト、および/またはビデオを含み、他のウェブページへのリンクまたはポインタを含むことができるデータファイルである。1つの実装では、装置のユーザは、サーバにウェブページを手動で要求する。あるいは、装置は、ウェブブラウザで自動的に要求を行う。市販のウェブブラウザソフトウェアの例は、Google(登録商標)Chrome(登録商標)、Microsoft(登録商標)Internet Explorer(登録商標)、Mozilla(登録商標)Firefox(登録商標)、およびApple(登録商標)Safari(登録商標)を含む。
【0264】
いくつかの実装では、ユーザ装置は、化粧サービスで動作するアプリケーションなどのクライアントソフトウェアを含むことができる。クライアントソフトウェアは、明るさ調整や色較正を含む、ならびにテンプレートや他のユーザデータの記憶を可能にする、本明細書で説明する機能の実装と実行を提供する機能を装置に提供することができる。クライアントソフトウェアは、様々な形式で実装することができ、例えば、装置にダウンロードされてウェブブラウザと連動して実行されるネイティブアプリケーション、ウェブページ、ウィジェット、および/またはJava(登録商標)、JavaScript(登録商標)、.Net、Silverlight、Flash、および/または他のアプレットやプラグインの形式とすることができる。クライアントソフトウェアおよびウェブブラウザは、単一のクライアント/サーバインターフェースの一部とすることができ、例えば、クライアントソフトウェアは、ウェブブラウザまたは他のフレームワークまたはオペレーティングシステムへのプラグインとして実装することができる。これらに限定されるものではないが、ウィジェットフレームワークやアプレット技術を含む他の適切なクライアントソフトウェアアーキテクチャも、クライアントソフトウェアによって使用することができる。
【0265】
通信ネットワークは、装置を1つ以上のサーバに接続したり、相互に接続したりすることができる。通信は、例えば、標準電話回線、LANまたはWANリンク(例えば、T1、T3、56kb、X.25)、ブロードバンド接続(ISDN、フレームリレー、ATM)、無線リンク(802.11(Wi-Fi(登録商標))、Bluetooth(登録商標)、GSM(登録商標)、CDMAなど)の媒体を介して行うことができる。他の通信媒体も可能である。ネットワークは、TCP/IPプロトコル通信、およびウェブブラウザによって行われたHTTP/HTTPS要求を伝送することができ、クライアントとサーバとの間の接続は、そのようなTCP/IPネットワークを介して通信することができる。他の通信プロトコルも可能である。
【0266】
システムはまた、通信ネットワークを介してリンクされたリモート処理装置によってタスクが実行される分散コンピューティング環境でも実行することができる。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に配置されることができる。装置の容量と必要なデータ処理能力の量に応じて、本明細書で説明したもの以外の他の種類のシステムハードウェアおよびソフトウェアも使用することができる。システムはまた、上記のような、本明細書で
説明するようなハードウェアを有する1つ以上のコンピュータで動作する、仮想化オペレーティングシステムを実行する1つ以上の仮想マシンで実装することもできる。
【0267】
場合によっては、リレーショナルデータベースまたは他の構造化データベースは、例えば処理用のデータを記憶するデータベース管理システムなどの機能を提供することができる。データベースの例は、カリフォルニア州レッドウッドショアーズのORACLE(登録商標) Corp.が提供するMySQL(登録商標)データベースサーバまたはORACLEデータベースサーバ、カリフォルニア州バークレーのPostgreSQL Global Development Groupが提供するPostgreSQLデータベースサーバ、またはIBMが提供するDB2データベースサーバを含む。
【0268】
また、システムおよび方法の実装は、1つ以上の製品上またはその中に組み込まれた1つ以上のコンピュータ可読プログラムとして提供することができることに留意すべきである。プログラム命令は、人工的に生成された伝播信号、例えば、データ処理装置による実行のための適切な受信装置への送信のための情報を符号化するために生成された機械生成電気、光学、または電磁信号について符号化されることができる。コンピュータ記憶媒体は、コンピュータ可読記憶装置、コンピュータ可読記憶基板、ランダムまたはシリアルアクセスメモリアレイまたは装置、またはそれらの1つ以上の組み合わせとすることができるか、またはそれらに含まれることができる。さらに、コンピュータ記憶媒体は、伝播信号ではないが、コンピュータ記憶媒体は、人工的に生成された伝播信号に符号化されたコンピュータプログラム命令のソースまたは目的とすることができる。コンピュータ記憶媒体はまた、1つ以上の別個の物理的コンポーネントまたは媒体(例えば、複数のCD、ディスク、または他の記憶装置)とすることができるか、またはそれらに含まれることができる。
なお本開示は以下の項を含む実施形態を含むが、本開示はこれらの項に限定されるものではない。
(項1)
顔を有する入力画像上に出力効果を生成する方法であって、
(a)顔ランドマークを有するユーザの顔画像を提供することと、
(b)前記ユーザの顔画像から前記顔ランドマークを探索することであって、前記顔ランドマークが第1の領域を含み、前記第1の領域に関連付けられたランドマークが唇色を有する前記顔画像の唇に関連付けられ、前記第1の領域が唇領域を含む、探索することと、
(c)前記画像の前記唇領域を少なくとも1つのカラーチャネルに変換し、前記唇領域の光分布を検出および分析することと、
(d)変化する光分布にわたって前記少なくとも1つのカラーチャネルをヒストグラムマッチングに供給し、前記唇領域の前記光分布から変化する事前定義された光分布を有するヒストグラムを特定することにより、少なくとも1つの第1の出力効果を生成することと、
(e)前記出力効果を前記第1の画像と組み合わせて、前記唇色と唇に適用された前記少なくとも1つの第1の出力効果とを有する第1の結果画像を提供することとを含む、方法。
(項2)
前記少なくとも1つのカラーチャネルが、彩度チャネルおよび/または色値チャネルを含む、項1に記載の方法。
(項3)
前記変換ステップ(c)の前に、前記方法が、さらに、前記ユーザの顔画像の前記唇領域から化粧を除去するステップを含む、項1に記載の方法。
(項4)
前記顔ランドマークが第2の領域を含み、前記第2の領域における前記ランドマークが前記顔画像の目と関連付けられ、前記第2の領域が目領域を含み、前記方法が、さらに、
(f)前記画像の前記目領域を少なくとも1つの第1のチャネルに分解し、前記目領域の光分布を検出および分析することと、
(g)前記少なくとも1つの第1のチャネルを、変化する光分布にわたってヒストグラムマッチングに供給し、前記目領域の前記光分布とは異なる事前定義された光分布を有するヒストグラムを特定することによって前記目に少なくとも1つの第2の出力効果を生成することと、
(h)前記第1の結果画像を前記第2の画像および前記少なくとも1つの第2の出力効果と組み合わせ、前記事前定義された唇色および前記唇に対する前記少なくとも1つの第1の出力効果および前記目に対する前記少なくとも1つの第2の出力効果を有する第2の結果画像を提供することとを含む、項1に記載の方法。
(項5)
前記少なくとも1つの第1のチャネルが、シェーディングまたは反射率のうちの1つを含む、項4に記載の方法。
(項6)
前記事前定義された光分布を有する前記ヒストグラムの光分布が、透明度および滑らかさを追加し、前記少なくとも1つの第1の出力効果が、光沢効果を含む、項1に記載の方法。
(項7)
前記光沢効果が、前記透明度のレベルによって変化する、項6に記載の方法。
(項8)
前記事前定義された光分布を有する前記ヒストグラムの光分布が、ランダムな反射率を追加し、前記少なくとも1つの出力効果が、自然効果を含む、項1に記載の方法。
(項9)
前記事前定義された光分布を有する前記ヒストグラムの光分布が、透明度および艶を追加し、前記少なくとも1つの第1の出力効果が、艶効果を含む、項1に記載の方法。
(項10)
前記事前定義された光分布を有する前記ヒストグラムの光分布が、きらめきを追加し、前記少なくとも1つの出力効果が、きらめき効果を含む、項1に記載の方法。
(項11)
前記ステップ(d)および(e)を繰り返して、前記第1の画像に少なくとも1つの異なる出力効果を生み出し、前記第1の画像における前記少なくとも1つの異なる出力効果のうちの1つを有する各結果画像が、前記第1の結果画像と組み合わせられ、前記少なくとも1つの第1の出力効果と、前記第1の画像に対する前記少なくとも1つの異なる出力効果のそれぞれとを有する最終結果画像を提供する、項1に記載の方法。
(項12)
前記方法が、さらに、ステップ(b)の後に、前記唇領域の面積を計算し、前記唇領域の面積を所定の比率で拡大して目標拡大ランドマークを提供し、前記少なくとも1つの第1の出力効果に加えて膨らみ出力効果を生み出すことと、前記膨らみ出力効果を前記少なくとも1つの第1の出力効果および前記第1の画像と組み合わせて歪ませ、前記唇に適用された唇色、前記膨らみ出力効果および前記少なくとも1つの第1の出力効果を有する前記第1の結果画像を提供することとを含む、項1に記載の方法。
(項13)
前記事前定義された光分布を有する前記ヒストグラムの光分布が、透明度および艶を追加し、前記少なくとも1つの第1の出力効果が、艶効果を含み、前記結果画像が、膨らんで艶のある外観を含む、項12に記載の方法。
(項14)
顔を有する入力画像に対する出力効果を生成する方法であって、
(a)顔ランドマークを有するユーザの顔画像を提供することと、
(b)前記ユーザの顔画像から前記顔ランドマークを探索することであって、前記顔ランドマークが第2の領域を含み、前記第2の領域に関連付けられたランドマークが前記顔画像の目に関連付けられ、前記第2の領域が目領域を含む、探索することと、
(c)前記画像の前記目領域を少なくとも1つの第1のチャネルに分解し、前記目領域の光分布を検出および分析することと、
(d)前記少なくとも1つの第1のチャネルを、変化する光分布にわたってヒストグラムマッチングに供給し、前記目領域の前記光分布とは異なる事前定義された光分布を有するヒストグラムを特定することによって前記目に対して少なくとも1つの第2の出力効果を生成することと、
(e)前記顔画像を前記少なくとも1つの第2の出力効果と組み合わせ、前記目に対する前記少なくとも1つの第2の出力効果を有する第2の結果画像を提供することとを含む、方法。
(項15)
高速顔検出およびランドマーク追跡のための方法であって、
2次元カメラを使用して入力画像をキャプチャすることと、
異なるスケールの画像を使用して画像ピラミッドを作成することと、
スライディングウィンドウおよびサポートベクターマシンを使用して勾配のヒストグラム特徴を適用して前記画像ピラミッドの画像上で顔の境界ボックスを見つけることと、
グローバル学習降下正規化モデルに基づく1つ以上の顔のランドマーク検出器を使用して、顔が存在する場合に前記境界ボックス内の前記顔を検出することとを含む、方法。
(項16)
さらに、パッチを抽出し、ランドマーク平均シフトフィッティングを前記画像に適用してランドマークを平滑化し、前記画像ピラミッドにわたるランドマーク位置を正規化することと、3層ニューラルネットワークモデルを正確性検証モデルとして適用して誤形状をフィルタリングし、最終ランドマークを関連付けて選択することとを含む、項15に記載の方法。
(項17)
前記ニューラルネットワークの3層が、畳み込み層、アップサンプル層およびマッピング層である、項16に記載の方法。
(項18)
さらに、点分布モデルを使用してグラウンドトゥルースデータセットからノイズをフィルタリングしてランドマークビデオをより安定にすることを含む、高速移動に関連付けられた遅延を減らし、移動不足に関連付けられた揺れを減らすステップを含む、項15に記載の方法。
(項19)
顔画像に目化粧アドオン効果を仮想的に提供する方法であって、
(a)目の少なくとも1つの目化粧特徴のテンプレートを作成し、前記目化粧特徴に関連する前記テンプレート上のランドマーク地点に手動で注釈を付け、前記ランドマーク地点の場所をテキストファイルとして保存することと、
(b)画像フレームのランドマーク検出器を使用して顔画像の目領域のランドマークを抽出することと、
(c)前記画像の前記目領域をトリミングして、前記テンプレートの前記目化粧特徴に関連する前記ランドマークに基づいて画像フレームを作成することと、
(d)前記画像フレームの前記目領域上の前記検出された抽出ランドマークから前記目領域の周りの線形補間によって地点を生成することと、
(e)前記テンプレートの注釈付きランドマークに基づいて前記テンプレートの周りの地点を生成することと、
(f)順方向歪みにより前記テンプレートを前記画像フレームに適用し、前記適用されたテンプレートから前記目化粧特徴を有する目領域画像フレームを作成することと、
(g)前記目領域画像フレームを元の顔画像にトリミングして戻し、前記目化粧特徴を有する顔画像を作成することとを含む、方法。
(項20)
前記目化粧特徴が、アイシャドウ特徴、ミドルアイシャドウ特徴、アイシャドウテール特徴、アイシャドウコーナー特徴およびまつげ特徴から選択される、項19に記載の方法。
(項21)
ステップ(a)が、アイシャドウ特徴、ミドルアイシャドウ特徴、アイシャドウテール特徴、アイシャドウコーナー特徴およびまつげ特徴のそれぞれについてテンプレートを作成することを含み、前記方法が、さらに、前記テンプレートにおける前記目特徴のうちの2つ以上について顔画像に対してステップ(b)から(g)を繰り返すことと、前記顔画像における2つ以上の特徴を組み合わせて合成目化粧外見を作成することとを含む、項20に記載の方法。
(項22)
顔画像に口紅テクスチャを仮想的に提供する方法であって、
深層畳み込みニューラルネットワーク構造を有する訓練モジュールを備えるテクスチャシミュレータを提供することと、
前処理モジュールにおいて入力唇領域を処理し、所望の口紅色のL
*
a
*
b
*
色空間の輝度チャネルと重み付きカバレッジ係数とを使用して前記所望の口紅色および輝度向上を有するように前記入力唇領域を変更して輝度分布とシミュレートされた動的テクスチャとを有するLチャネル画像を作成し、a
*
チャネルおよびb
*
チャネルについて入力画像をRGBからL
*
a
*
b
*
空間色に処理することと、
前記前処理モジュールから、訓練モジュールを使用して画像データセットに対して訓練されたモノチャネルスタイル移行モジュールに前記Lチャネル画像を供給し、前記データセットにおける参照スタイル画像に基づいて合成色およびテクスチャを有する合成Lチャネル画像を作成することと、
動的テクスチャシミュレーションを有する前記合成Lチャネル画像と、RGB変換のための前記前処理モジュールからのa
*
チャネル画像およびb
*
チャネル画像とを、RGB変換のための後処理モジュールにおいてさらに処理することとを含む、方法。
【0269】
当業者は、その広範な発明概念から逸脱することなく、上述した実施形態に変更を加えることができることを理解するであろう。したがって、本発明は、開示された特定の実施形態に限定されるものではなく、添付の特許請求の範囲によって定義される本発明の精神および範囲内の変更を網羅するものと理解される。
付録A:
【表2】
【表3】
付録B
【表4】
【表5】
付録C:
【表6】
付録D:
【表7】
付録E:
【表8】
付録F:
【表9】
【表10】
付録G:
【表11】