(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-09
(54)【発明の名称】個人化された3D頭部モデルおよび顔モデルを形成するための方法、電子装置、およびプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240202BHJP
G06T 17/00 20060101ALI20240202BHJP
G06T 19/00 20110101ALI20240202BHJP
【FI】
G06T7/00 660A
G06T17/00
G06T19/00 A
G06T7/00 350C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023547679
(86)(22)【出願日】2022-02-28
(85)【翻訳文提出日】2023-08-07
(86)【国際出願番号】 US2022018213
(87)【国際公開番号】W WO2022197430
(87)【国際公開日】2022-09-22
(32)【優先日】2021-03-15
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】ボ・ヤン
(72)【発明者】
【氏名】ソンルン・リウ
(72)【発明者】
【氏名】ボ・ワン
【テーマコード(参考)】
5B050
5B080
5L096
【Fターム(参考)】
5B050AA03
5B050BA09
5B050BA12
5B050BA13
5B050CA07
5B050CA08
5B050DA04
5B050EA06
5B050EA26
5B050FA02
5B050FA05
5B080AA13
5B080BA00
5B080CA00
5B080FA02
5B080GA22
5L096FA06
5L096FA09
5L096FA32
5L096FA64
5L096FA67
5L096FA69
5L096HA11
5L096KA04
(57)【要約】
電子装置は、対象(例えば、現実の人物)の2次元(2D)顔画像を使用してアバターの標準顔をカスタマイズする方法を実行し、本方法は、2D顔画像内の対象キーポイントのセットを識別するステップと、対象キーポイントのセットをアバターに関連付けられたアバターキーポイントのセットに変換するステップと、アバターキーポイントのセットにキーポイント・ツー・パラメータ(K2P)ニューラル・ネットワーク・モデルを適用することにより、標準顔の顔制御パラメータのセットを生成するステップであって、顔制御パラメータのセットが、各々標準顔の複数の顔特徴のうちの1つに関連する、ステップと、顔制御パラメータのセットを標準顔に適用することにより、標準顔の複数の顔特徴を調整するステップであって、アバターの調整された標準顔が、対象の2D顔画像の顔特徴を有する、ステップと、を含む。
【特許請求の範囲】
【請求項1】
対象の2次元(2D)顔画像を使用してアバターの標準顔をカスタマイズする方法であって、
前記2D顔画像内の対象キーポイントのセットを識別するステップと、
前記対象キーポイントのセットを前記アバターに関連付けられたアバターキーポイントのセットに変換するステップと、
前記アバターキーポイントのセットにキーポイント・ツー・パラメータ(K2P)ニューラル・ネットワーク・モデルを適用することにより、前記標準顔の顔制御パラメータのセットを生成するステップであって、前記顔制御パラメータのセットが、各々前記標準顔の複数の顔特徴のうちの1つに関連する、ステップと、
前記顔制御パラメータのセットを前記標準顔に適用することにより、前記標準顔の前記複数の顔特徴を調整するステップと、を含む、方法。
【請求項2】
前記K2Pニューラル・ネットワーク・モデルは、
対象の複数の訓練2D顔画像を取得し、
前記複数の訓練2D顔画像の各々について前記アバターに関連付けられた訓練アバターキーポイントのセットを生成し、
顔制御パラメータのセットを取得するために、訓練アバターキーポイントの各セットを前記K2Pニューラル・ネットワーク・モデルに提示し、
前記訓練アバターキーポイントのセットに対応する予測されたアバターキーポイントのセットを取得するために、前記顔制御パラメータのセットを事前訓練されたパラメータ・ツー・キーポイント(P2K)ニューラル・ネットワーク・モデルに提示し、
前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の差を低減することにより、前記K2Pニューラル・ネットワーク・モデルを更新することによって訓練される、請求項1に記載の方法。
【請求項3】
前記事前訓練されたP2Kニューラル・ネットワーク・モデルは、
前記アバターに関連付けられたボーンまたはスライダパラメータを含む顔制御パラメータのセットを受信し、
前記制御パラメータのセットに従って前記アバターのアバターキーポイントのセットを予測するように構成される、請求項2に記載の方法。
【請求項4】
前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の前記差が、前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の平均二乗誤差の合計である、請求項3に記載の方法。
【請求項5】
前記訓練されたK2Pおよび前記事前訓練されたP2Kニューラル・ネットワーク・モデルがゲームに関連付けられる、請求項3に記載の方法。
【請求項6】
前記2D顔画像内の前記対象キーポイントのセットが、前記2D顔画像内の前記対象の前記顔特徴に対応する、請求項1に記載の方法。
【請求項7】
前記アバターの前記標準顔が、異なる対象の顔画像に従ってゲームの異なるキャラクタにカスタマイズされる、請求項1に記載の方法。
【請求項8】
前記アバターの前記調整された標準顔が、前記対象の漫画スタイルの顔である、請求項1に記載の方法。
【請求項9】
前記アバターの前記調整された標準顔が、前記対象のリアルなスタイルの顔である、請求項1に記載の方法。
【請求項10】
前記対象キーポイントのセットを前記アバターキーポイントのセットに変換する前記ステップは、
前記対象キーポイントのセットを正準空間に正規化するステップと、
前記正規化された対象キーポイントのセットを対称化するステップと、
前記アバターキーポイントのセットを取得するために、前記アバターに関連付けられた所定のスタイルに従って前記対称化された対象キーポイントのセットを調整するステップと、を含む、請求項1に記載の方法。
【請求項11】
前記対象キーポイントのセットを正準空間に正規化する前記ステップは、
前記対象キーポイントのセットを前記正準空間にスケーリングするステップと、
前記2D顔画像内の前記対象キーポイントのセットの向きに従って、前記スケーリングされた対象キーポイントのセットを回転させるステップと、を含む、請求項10に記載の方法。
【請求項12】
前記対象キーポイントのセットを前記アバターキーポイントのセットに変換する前記ステップは、所定の凸状または凹状の曲線要件を満たすように前記対称化された対象キーポイントのセットを平滑化するステップをさらに含む、請求項10に記載の方法。
【請求項13】
前記アバターに関連付けられた前記所定のスタイルに従って前記対称化された対象キーポイントのセットを調整するステップは、顔の長さ調整、顔の幅調整、顔の特徴調整、ズーム調整、および目の形状調整のうちの1つまたは複数を含む、請求項10に記載の方法。
【請求項14】
電子装置であって、1つまたは複数の処理ユニットと、前記1つまたは複数の処理ユニットに結合されたメモリと、前記メモリに格納され、前記1つまたは複数の処理ユニットによって実行されると、前記電子装置に、
2次元(2D)顔画像内の対象キーポイントのセットを識別するステップと、
前記対象キーポイントのセットを前記アバターに関連付けられたアバターキーポイントのセットに変換するステップと、
前記アバターキーポイントのセットにキーポイント・ツー・パラメータ(K2P)ニューラル・ネットワーク・モデルを適用することにより、前記標準顔の顔制御パラメータのセットを生成するステップであって、前記顔制御パラメータのセットが、各々前記標準顔の複数の顔特徴のうちの1つに関連する、ステップと、
前記顔制御パラメータのセットを前記標準顔に適用することにより、前記標準顔の前記複数の顔特徴を調整するステップと、を含む、対象の前記2D顔画像を使用してアバターの標準顔をカスタマイズする複数の動作を実行させる複数のプログラムと、を含む、電子装置。
【請求項15】
前記K2Pニューラル・ネットワーク・モデルは、
対象の複数の訓練2D顔画像を取得し、
前記複数の訓練2D顔画像の各々について前記アバターに関連付けられた訓練アバターキーポイントのセットを生成し、
顔制御パラメータのセットを取得するために、訓練アバターキーポイントの各セットを前記K2Pニューラル・ネットワーク・モデルに提示し、
前記訓練アバターキーポイントのセットに対応する予測されたアバターキーポイントのセットを取得するために、前記顔制御パラメータのセットを事前訓練されたパラメータ・ツー・キーポイント(P2K)ニューラル・ネットワーク・モデルに提示し、
前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の差を低減することにより、前記K2Pニューラル・ネットワーク・モデルを更新することによって訓練される、請求項14に記載の電子装置。
【請求項16】
前記事前訓練されたP2Kニューラル・ネットワーク・モデルは、
前記アバターに関連付けられたボーンまたはスライダパラメータを含む顔制御パラメータのセットを受信し、
前記制御パラメータのセットに従って前記アバターのアバターキーポイントのセットを予測するように構成される、請求項15に記載の電子装置。
【請求項17】
前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の前記差が、前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の平均二乗誤差の合計である、請求項16に記載の電子装置。
【請求項18】
前記訓練されたK2Pおよび前記事前訓練されたP2Kニューラル・ネットワーク・モデルがゲームに関連付けられる、請求項15に記載の電子装置。
【請求項19】
前記対象キーポイントのセットを前記アバターキーポイントのセットに変換する前記ステップは、
前記対象キーポイントのセットを正準空間に正規化するステップと、
前記正規化された対象キーポイントのセットを対称化するステップと、
前記アバターに関連付けられた所定のスタイルに従って前記対称化された対象キーポイントのセットを調整するステップと、を含む、請求項14に記載の電子装置。
【請求項20】
1つまたは複数の処理ユニットを有する電子装置による実行のための複数のプログラムを格納する非一時的コンピュータ可読記憶媒体であって、前記複数のプログラムが、前記1つまたは複数の処理ユニットによって実行されると、前記電子装置に、
2次元(2D)顔画像内の対象キーポイントのセットを識別するステップと、
前記対象キーポイントのセットを前記アバターに関連付けられたアバターキーポイントのセットに変換するステップと、
前記アバターキーポイントのセットにキーポイント・ツー・パラメータ(K2P)ニューラル・ネットワーク・モデルを適用することにより、前記標準顔の顔制御パラメータのセットを生成するステップであって、前記顔制御パラメータのセットが、各々前記標準顔の複数の顔特徴のうちの1つに関連する、ステップと、
前記顔制御パラメータのセットを前記標準顔に適用することにより、前記標準顔の前記複数の顔特徴を調整するステップと、を含む、対象の前記2D顔画像を使用してアバターの標準顔をカスタマイズする複数の動作を実行させる、非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年3月15日に出願された「METHODS AND SYSTEMS FOR FORMING PERSONALIZED 3D HEAD AND FACIAL MODELS」と題する米国特許出願第17/202,121号の継続であって、その優先権を主張するものであり、その全体が参照により本明細書に組み込まれる。
【0002】
本開示は、一般に、画像技術に関し、特に、画像処理ならびに頭部/顔モデル形成の方法およびシステムに関する。
【背景技術】
【0003】
明示的なマーカの有無にかかわらず、人物の正確な3次元(3D)顔モデルを取得するために、複数のセンサ(例えば、多視点カメラ、深度センサなど)を備えた市販の顔キャプチャシステムが使用される。これらのツールは、複数のセンサから人間の顔の幾何学的形状およびテクスチャ情報を取り込み、マルチモーダル情報を一般的な3D顔モデルに融合する。様々なセンサからのマルチモーダル情報の恩恵を受けて、取得された3D顔モデルは正確である。しかしながら、これらの商用システムは高価であり、生データを処理するために追加のソフトウェア購入が必要である。さらに、これらのシステムは通常、顔キャプチャスタジオで展開され、データを取得するためにアクターまたはボランティアが必要であり、データ収集プロセスに時間がかかり、さらに費用がかかる。要するに、顔キャプチャシステムは、3D顔データを取得するのに高価で時間がかかる。対照的に、スマートフォンまたはカメラは今日広く利用可能であるため、利用可能な大量のRGB(赤、緑、青)画像が潜在的にある。RGB画像を入力として取り込んで3D顔モデルを生成することは、大量の画像データから利益を得ることができる。
【0004】
2次元(2D)RGB画像は、3D世界の2D平面への投影にすぎない。2D画像から3D形状を復元することは、再構成プロセスを正規化するために最適化または学習アルゴリズムを必要とする不良な問題である。3D顔の再構成のために、パラメータ化された顔モデルの3D Morphable Model(3DMM)ベースの方法が開発され、使用されている。特に、Basel Face Model(BFM)およびSurrey Face Model(SFM)などの顔モデルが一般的に使用されており、これらは商用ライセンスが必要である。顔モデルに基づく方法は、スキャンされた3D人間顔モデルのセット(様々な顔特徴および表情を示す)を基礎として取得し、次いで、3D顔モデルに基づいて顔特徴および表情のパラメータ化された表現を生成する。新しい3D顔は、パラメータ化に基づく基礎3D顔モデルの線形結合として表現することができる。これらの方法の性質のために、基礎およびパラメータ空間を形成するために使用される3D顔モデルは、顔モデルベースの方法の表現力を制限する。さらに、入力顔画像または2Dランドマークからの3DMMパラメータを適合させる最適化プロセスは、顔画像の詳細な顔特徴をさらに犠牲にする。したがって、顔モデルベースの方法は、3D顔特徴を正確に回復することができず、BFMおよびSFMなどの顔モデルを使用するには商用ライセンスが必要である。
【0005】
深層学習アルゴリズムの普及に伴い、セマンティック・セグメンテーション・アルゴリズムが多くの注目を集めている。そのようなアルゴリズムは、顔画像内の各画素を、背景、皮膚、毛髪、目、鼻、および口などの異なるカテゴリに分割することができる。
【0006】
セマンティック・セグメンテーション方法は比較的正確な結果を達成することができるが、すべての画素のセマンティック・セグメンテーションは非常に複雑な問題であり、複雑なネットワーク構造を必要とすることが多く、計算の複雑さが高くなる。さらに、セマンティックセグメンテーションネットワークを訓練するために、大量の訓練データをラベル付けする必要があり、セマンティック・セグメンテーションは画像全体の画素を分割する必要があり、これは非常に面倒で、時間がかかり、費用がかかる。したがって、高い平均色精度を必要としないが、高い効率を必要とするシーンには適していない。
【0007】
ラプラシアンおよび他の導出された演算子を最適化するキーポイントドリブンの変形方法は、学界でよく研究されている。重調和変形の数学的表現は、Δ2x’=0として表すことができる。制約付きキーポイント、すなわち境界条件は、xb’=xbcと表すことができる。上式において、Δはラプラシアン演算子であり、x’は未知の変形されたメッシュ頂点の位置であり、xbcには変形後のキーポイントの位置が与えられる。重ラプラス方程式の解が各次元において必要とされる。重調和関数は、重ラプラス方程式の解であるが、いわゆる「ラプラシアンエネルギー」の最小化器でもある。
【0008】
エネルギー最小化の性質は、メッシュの平滑化である。前述の最小化器を直接適用する場合、すべての詳細な特徴が平滑化される。さらに、キーポイントの位置が変化しない場合、変形されたメッシュは元のメッシュとまったく同じであると予想される。これらの考慮事項の中で、重調和変形の好ましい使用法は、頂点の位置以外の頂点の変位を解くことである。このようにして、変形された位置は、x’=x+dと書くことができ、ここで、dは各次元における未知の頂点の変位である。当然ながら、重調和変形の方程式は、db=xbc-xbを受けたΔ2d=0になり、ここで、dbは変形後のキーポイントの変位である。
【0009】
ゲーム産業の急速な発展に伴い、カスタマイズされた顔アバター生成がますます普及している。芸術的なスキルを持たない一般的なプレイヤにとって、微妙なバリエーションを記述できる顔を生成するために制御パラメータを調整することは非常に困難である。
【0010】
Justice Face Generation Systemなどのいくつかの既存の顔生成システムおよび方法では、顔モデルの予測は、写真内の眉毛、口、鼻、および他の画素のセグメンテーションなどの画像内の2D情報を予測することである。これらの2Dセグメンテーションは、面外回転および部分的オクルージョンの影響を受けやすく、基本的に正面顔が必要である。さらに、最終的なゲーム顔アバターと入力の類似性は顔認識システムによって決定されるため、この方法はリアルなスタイルのゲームのみに限定される。ゲームのスタイルが実際の顔とは全く異なる漫画スタイルである場合には、この方法は使用できない。
【0011】
Moonlight Blade Face Generation Systemなどのいくつかの他の既存の顔生成システムおよび方法では、実際の顔は入力画像から再構成される。この方法は、現実のスタイルのゲームに限定され、漫画スタイルのゲームには適用することができない。第2に、この方法の出力パラメータは、再構築されたゲームスタイルの顔メッシュであり、次いでメッシュの各部分に対してテンプレートマッチングが実行される。この手法は、異なる顔部分の組み合わせを制限する。ゲーム顔の全体的な多様性は、予め生成されたテンプレートの数に密接に関連している。口の形状などの特定の部分が少数のテンプレートを有する場合には、それは種々のバリエーションをほとんど生成することができず、生成された顔に多様性がない。
【発明の概要】
【課題を解決するための手段】
【0012】
学習ベースの顔再構成およびキーポイント検出方法は、グラウンドトゥルースに可能な限り近いモデルを訓練するためのゴールドスタンダードとしての3Dグラウンドトゥルースデータに依存する。したがって、3Dグラウンドトゥルースは、学習ベースの手法の上限を決定する。顔再構成および望ましいキーポイント検出の精度を保証するために、いくつかの実施形態では、高価な顔キャプチャシステムを使用せずに、2D顔キーポイントアノテーションを使用して3D顔モデルのグラウンドトゥルースを生成する。本明細書で開示される手法は、入力画像の詳細な顔特徴を保存し、顔特徴を失う3DMMベースの方法などの既存の顔モデルの欠点を克服し、いくつかの既存の顔モデルベースの方法で必要とされるBFMおよびSFM(両方に商業ライセンスが必要)のようなパラメータ化された顔モデルの使用を回避する3Dグラウンドトゥルース顔モデルを生成する。
【0013】
顔キーポイント検出とは別に、いくつかの実施形態では、顔特徴分類タスクのためにマルチタスク学習および転移学習ソリューションが実装され、その結果、キーポイント情報を補完する入力顔画像からより多くの情報を抽出することができる。予測された顔特徴を有する検出された顔のキーポイントは、プレイヤの顔のアバターを作成するためのコンピュータまたはモバイルゲームにとって価値がある。
【0014】
いくつかの実施形態では、皮膚、眉毛、瞳孔、唇、毛髪、およびアイシャドウの平均色を含む単一の写真から人間の顔の各部分の平均色を抽出するためのライトウェイトな方法が本明細書に開示されている。同時に、平均色に基づいてテクスチャマップを自動的に変換するアルゴリズムも使用され、その結果、変換されたテクスチャは依然として元の明るさおよび色の差を有するが、主要な色が目標色になる。
【0015】
コンピュータビジョンおよび人工知能(AI)技術の急速な発展に伴い、3Dの人間の顔のキーポイントのキャプチャおよび再構成は、高精度レベルを達成している。ますます多くのゲームが、ゲームキャラクタをより鮮明にするためにAI検出を利用している。本明細書に開示する方法およびシステムは、再構築された3Dキーポイントに基づいて3D頭部アバターをカスタマイズする。一般的なキーポイントドリブン変形は、任意のメッシュに適用可能である。本明細書で提案される頭部アバターのカスタマイズのプロセスおよび変形方法は、自動アバター作成および表情の再現などのシナリオでそれらの用途を見出すことができる。
【0016】
単一の写真に基づいてゲームにおいて顔アバターを自動的に生成するための方法およびシステムが本明細書で開示される。顔キーポイントの予測、キーポイントの自動処理、およびモデルパラメータを予測するための深層学習方法の使用を通して、本明細書に開示するシステムは、ゲーム内の顔アバターを自動的に生成して、1)写真内の実際の顔の特性を有し、2)目標ゲームスタイルに適合するようにすることができる。このシステムは、リアルなスタイルのゲームおよび漫画スタイルのゲームの顔生成に同時に適用することができ、異なるゲームモデルまたはボーンの定義に従って容易に自動的に調整することができる。
【0017】
本出願の第1の態様によれば、対象の2次元(2D)顔画像から顔位置マップを構築する方法は、2D顔画像から粗顔位置マップを生成するステップと、粗顔位置マップに基づいて、2D顔画像内のキーポイントの第1のセットを予測するステップと、ユーザ提供のキーポイントアノテーションに基づいて、2D顔画像内のキーポイントの第2のセットを識別するステップと、2D顔画像内のキーポイントの第1のセットとキーポイントの第2のセットとの間の差を低減するように、粗顔位置マップを更新するステップと、を含む。
【0018】
いくつかの実施形態では、現実の人物の2D顔画像から顔位置マップを構築する方法は、更新された顔位置マップに基づいてキーポイントの第3のセットをキーポイント最終セットとして抽出するステップをさらに含み、キーポイントの第3のセットは、顔位置マップ内のキーポイントの第1のセットと同じ位置を有する。
【0019】
いくつかの実施形態では、現実の人物の2D顔画像から顔位置マップを構築する方法は、更新された顔位置マップに基づいて現実の人物の3次元(3D)顔モデルを再構築するステップをさらに含む。
【0020】
本出願の第2の態様によれば、対象の2次元(2D)顔画像から色を抽出する方法は、キーポイント予測モデルに基づいて2D顔画像内の複数のキーポイントを識別するステップと、識別された複数のキーポイントからの複数の目標キーポイントが標準顔の対応する目標キーポイントと位置合わせされるまで、2D顔画像を回転させるステップと、回転された2D顔画像内の複数の部分を位置特定するステップであって、各部分が、識別された複数のキーポイントのそれぞれのサブセットによって定義される、ステップと、2D顔画像の画素値から、キーポイントの対応するサブセットによって定義された複数の部分の各々について色を抽出するステップと、2D顔画像内の複数の部分から抽出された色を使用して、2D顔画像のそれぞれの顔特徴色と一致する対象の3次元(3D)モデルを生成するステップと、を含む。
【0021】
本出願の第3の態様によれば、3次元(3D)頭部変形モデルを生成する方法は、2次元(2D)顔画像を受信するステップと、人工知能(AI)モデルに基づいて2D顔画像内のキーポイントの第1のセットを識別するステップと、3D頭部テンプレートモデルのメッシュの複数の頂点に位置するユーザ提供のキーポイントアノテーションのセットに基づいて、キーポイントの第1のセットをキーポイントの第2のセットにマッピングするステップと、キーポイントの第1のセットとキーポイントの第2のセットとの間の差を低減することによって、変形された3D頭部メッシュモデルを取得するために、3D頭部テンプレートモデルのメッシュに対して変形を実行するステップと、2D顔画像に従って個人化された頭部モデルを取得するために、変形された3D頭部メッシュモデルにブレンド形状法を適用するステップと、を含む。
【0022】
本出願の第4の態様によれば、対象の2次元(2D)顔画像を使用してアバターの標準顔をカスタマイズする方法が提供され、本方法は、2D顔画像内の対象キーポイントのセットを識別するステップと、対象キーポイントのセットをアバターに関連付けられたアバターキーポイントのセットに変換するステップと、アバターキーポイントのセットにキーポイント・ツー・パラメータ(K2P)ニューラル・ネットワーク・モデルを適用することにより、標準顔の顔制御パラメータのセットを生成するステップであって、顔制御パラメータのセットが、各々標準顔の複数の顔特徴のうちの1つに関連する、ステップと、顔制御パラメータのセットを標準顔に適用することにより、標準顔の複数の顔特徴を調整するステップであって、アバターの調整された標準顔が、対象の2D顔画像の顔特徴を有する、ステップと、を含む。
【0023】
本出願の第5の態様によれば、電子装置は、1つまたは複数の処理ユニットと、メモリと、メモリに格納された複数のプログラムと、を含む。プログラムは、1つまたは複数の処理ユニットによって実行されると、電子装置に上述の1つまたは複数の方法を実行させる。
【0024】
本出願の第6の態様によれば、非一時的コンピュータ可読記憶媒体は、1つまたは複数の処理ユニットを有する電子装置による実行のための複数のプログラムを格納する。プログラムは、1つまたは複数の処理ユニットによって実行されると、電子装置に上述の1つまたは複数の方法を実行させる。
【0025】
上述した様々な実施形態は、本明細書に記載する任意の他の実施形態と組み合わせることができることに留意されたい。本明細書に記載された特徴および利点はすべてを含むものではなく、特に、図面、明細書、および特許請求の範囲を考慮すると、多くの追加の特徴および利点が当業者には明らかであろう。さらに、本明細書で使用される文言は、主に読みやすさおよび説明目的のために選択されており、本発明の主題を記述または限定するために選択されていない場合があることに留意されたい。
【0026】
本開示をより詳細に理解することができるように、様々な実施形態の特徴を参照することによって、より詳細な説明を行うことができ、そのいくつかは添付の図面に示されている。しかしながら、添付の図面は、本開示の適切な特徴を示すにすぎず、したがって、限定と見なされるべきではなく、それはその説明が他の有効な特徴を認める場合があるからである。
【図面の簡単な説明】
【0027】
【
図1】本開示のいくつかの実施態様による、例示的なキーポイント定義を示す図である。
【
図2】本開示のいくつかの実施態様による、例示的なキーポイント生成プロセスを示すブロック図である。
【
図3】本開示のいくつかの実施態様による、初期粗位置マップを変換する例示的なプロセスを示す図である。
【
図4】本開示のいくつかの実施態様による、顔領域全体をカバーしない例示的な変換された位置マップを示す図である。
【
図5】本開示のいくつかの実施態様による、顔領域全体をカバーするように変換された位置マップを精密化する例示的なプロセスを示す図である。
【
図6】本開示のいくつかの実施態様による、位置マップ精密化アルゴリズムのいくつかの例示的な結果を示す図である。
【
図7A】本開示のいくつかの実施態様による、初期粗位置マップに対する最終位置マップのいくつかの例示的な比較を示す図である。
【
図7B】本開示のいくつかの実施態様による、初期粗位置マップに対する最終位置マップのいくつかの例示的な比較を示す図である。
【
図8A】本開示のいくつかの実施態様による、例示的な眼鏡分類ネットワーク構造を示す図である。
【
図8B】本開示のいくつかの実施態様による、例示的な女性の毛髪予測ネットワーク構造を示す図である。
【
図8C】本開示のいくつかの実施態様による、例示的な男性の毛髪予測ネットワーク構造を示す図である。
【
図9A】本開示のいくつかの実施態様による、いくつかの例示的な眼鏡分類予測結果を示す図である。
【
図9B】本開示のいくつかの実施態様による、いくつかの例示的な女性の毛髪予測結果を示す図である。
【
図9C】本開示のいくつかの実施態様による、いくつかの例示的な男性の毛髪予測結果を示す図である。
【
図10】本開示のいくつかの実施態様による、現実の人物の2D顔画像から顔位置マップを構築する例示的なプロセスを示すフローチャートである。
【
図11】本開示のいくつかの実施態様による、例示的な色抽出および調整プロセスを示す流れ図である。
【
図12】本開示のいくつかの実施態様による、例示的な皮膚色抽出方法を示す図である。
【
図13】本開示のいくつかの実施態様による、例示的な眉毛の色抽出方法を示す図である。
【
図14】本開示のいくつかの実施態様による、例示的な瞳孔の色抽出方法を示す図である。
【
図15】本開示のいくつかの実施態様による、毛髪の色抽出方法で使用される例示的な毛髪の色抽出領域を示す図である。
【
図16】本開示のいくつかの実施態様による、毛髪の色抽出領域内の毛髪画素と皮膚画素との間の例示的な分離を示す図である。
【
図17】本開示のいくつかの実施態様による、例示的なアイシャドウの色抽出方法を示す図である。
【
図18】本開示のいくつかの実施態様による、いくつかの例示的な色調整結果を示す図である。
【
図19】本開示のいくつかの実施態様による、現実の人物の2次元顔画像から色を抽出する例示的なプロセスを示すフローチャートである。
【
図20】本開示のいくつかの実施態様による、例示的な頭部アバターの変形および生成プロセスを示す流れ図である。
【
図21】本開示のいくつかの実施態様による、例示的な頭部テンプレートモデル構成を示す図である。
【
図22】本開示のいくつかの実施態様による、現実的なスタイルの3Dモデルおよび漫画スタイルの3Dモデル上のいくつかの例示的なキーポイントマーキングを示す図である。
【
図23】本開示のいくつかの実施態様による、テンプレートモデルレンダリングと、手動でマークされたキーポイントと、AI検出されたキーポイントとの間の例示的な比較を示す図である。
【
図24】本開示のいくつかの実施態様による例示的な三角形のアフィン変換を示す図である。
【
図25】本開示のいくつかの実施態様による、ブレンド形状プロセスの有無によるいくつかの頭部モデル変形結果の例示的な比較を示す図である。
【
図26】本開示のいくつかの実施態様による、異なる重みおよび重調和変形によるアフィン変形の例示的な比較を示す図である。
【
図27】本開示のいくつかの実施態様による現実的なテンプレートモデルを使用して、いくつかのランダムに選択された女性の画像から自動的に生成されたいくつかの例示的な結果を示す図である。
【
図28】本開示のいくつかの実施態様による、現実の人物の2D顔画像から3D頭部変形モデルを生成する例示的なプロセスを示すフローチャートである。
【
図29】本開示のいくつかの実施態様による、例示的なキーポイント処理のフローステップを示す図である。
【
図30】本開示のいくつかの実施態様による、例示的なキーポイント平滑化プロセスを示す図である。
【
図31】本開示のいくつかの実施態様による、例示的なキーポイントから制御パラメータ(K2P)への変換プロセスを示すブロック図である。
【
図32】本開示のいくつかの実施態様による、モバイルゲームの自動顔生成のいくつかの例示的な結果を示す図である。
【
図33】本開示のいくつかの実施態様による、現実の人物の2D顔画像を使用してゲーム内のアバターの標準顔をカスタマイズする例示的なプロセスを示すフローチャートである。
【
図34】本開示のいくつかの実施態様による、画像処理装置の例示的なハードウェア構造の概略図である。
【0028】
一般的な慣例によれば、図面に示されている様々な特徴は、縮尺通りに描かれていない場合がある。したがって、様々な特徴の寸法は、明確にするために任意に拡大または縮小され得る。さらに、図面のいくつかは、所与のシステム、方法、または装置の構成要素のすべてを示していない場合がある。最後に、明細書および図面を通して同様の特徴を示すために、同様の符号を使用する場合がある。
【発明を実施するための形態】
【0029】
ここで、その例が添付の図面に示されている特定の実施態様を詳細に参照する。以下の詳細な説明では、本明細書に提示される主題の理解を助けるために、多数の非限定的な特定の詳細が記載される。しかし、特許請求の範囲から逸脱することなく様々な代替例を使用することができ、主題はこれらの特定の詳細なしに実施できることが当業者には明らかであろう。例えば、本明細書に提示される主題は、多くのタイプの電子デバイス上に実装できることが当業者には明らかであろう。
【0030】
本出願の実施形態をさらに詳細に説明する前に、本出願の実施形態に関連する名称および用語を説明し、本出願の実施形態に関連する名称および用語は以下の説明を有する。
【0031】
顔のキーポイント:特定の顔の部分、例えば、目の角、顎、鼻の先端、および口角の形状を決定する予め定義されたランドマーク。
【0032】
顔の部分:顔の境界、目、眉毛、鼻、口、およびその他の部分。
【0033】
顔の再構成:人間の顔の3D幾何学的構造、およびメッシュモデル、点群、もしくは深度マップを含む一般的に使用される表現を再構成すること。
【0034】
RGB画像:赤、緑、青の3チャネル画像フォーマット。
【0035】
位置マップ:通常の画像フォーマットの赤、緑、青のチャネルを使用して、3D人間の顔の表現である顔領域のx、y、z座標を格納すること。
【0036】
顔特徴分類:眼鏡分類の有無にかかわらず、ヘアスタイル分類を含む。
【0037】
畳み込みニューラルネットワーク(CNN):視覚画像の解析に最も一般的に適用される深層ニューラルネットワークの一種。
【0038】
ベースネットワーク:特徴抽出器として機能するために1つまたは複数のダウンストリームタスクによって使用されるCNNのようなネットワーク。
【0039】
ラプラシアン演算子:ユークリッド空間上の関数の勾配の発散によって与えられる微分演算子。
【0040】
微分可能多様体:計算を行うことを可能にするために線形空間と局所的に類似している一種のトポロジカル空間。
【0041】
重調和関数:二乗ラプラシアン演算子を有する4次微分可能関数であって、微分可能多様体上で定義され、0に等しい。
【0042】
キーポイントドリブン変形:特定の頂点の位置を変更することによってメッシュを変形する一種の方法。
【0043】
重調和変形:いくつかの境界条件を有する重調和関数の最適化を用いる変形方法。
【0044】
アフィン変形:メッシュ変形の目的を達成するために三角形のアフィン変換を最適化する、本開示で提案されたキーポイントドリブン変形方法。
【0045】
顔モデル:所定の目標ゲームにおける標準顔のメッシュ。
【0046】
ボーン/スライダ:顔モデルを変形させるための制御パラメータ。
【0047】
前述したように、3DMMパラメータを適合させるために入力2D画像と2Dキーポイントの両方を最適化プロセスに供給する場合でも、最適化は、基礎(すなわち、3D顔モデルセット)に基づく3D顔モデルの適合と2Dキーポイントの忠実度との間でバランスをとらなければならない。その最適化は、取得された3D顔モデルが2D入力キーポイントに従わないことにつながり、その結果、入力2Dキーポイントによってもたらされる詳細な顔情報が犠牲になる。既存の3D顔再構成方法の中でも、顔キャプチャソリューションは正確な再構成を生成することができるが、高価で時間がかかり、得られたデータはまた、顔特徴の限られたバリエーション(限られた数のアクター)を示す。一方、顔モデルベースの方法は、2D画像または2Dランドマークアノテーションを入力として取得することができるが、取得された3Dモデルは正確ではない。コンピュータ/モバイルゲームの迅速な開発の要件を満たすためには、望ましい3Dモデル精度を生成することと、必要なコストおよび時間を削減することとの両方が必要である。これらの要件を満たすために、本明細書で開示される新しい3Dグラウンドトゥルース顔モデル生成アルゴリズムは、2D画像、2Dキーポイントアノテーション、および粗3D顔モデル(位置マップ形式)を入力として取得し、2Dキーポイントに基づいて粗3Dモデルを変換し、最終的に、詳細な顔特徴が十分に保存された3D顔モデルを生成する。
【0048】
顔再構成およびキーポイント予測における重要な問題を解決すること以外に、顔特徴分類のためのマルチタスク学習および転移学習ベースの手法も本明細書に開示され、顔再構成およびキーポイント予測フレームワークの上に部分的に構築される。特に、顔再構成およびキーポイント予測のベースネットワークを再利用すると、眼鏡分類(眼鏡ありまたはなし)がマルチタスク学習によって達成される。既存の顔再構成およびキーポイント予測フレームワークの上の線形分類器が訓練され、既存のモデルを大幅に再利用し、画像特徴抽出のための別のより大きなネットワークの導入を回避する。さらに、別の共有ベースネットワークが男性および女性のヘアスタイル分類に使用される。ヘアスタイルは、顔のキーポイントまたは3D顔モデルを補完する重要な顔特徴のタイプである。ユーザの3Dアバターを作成するプロセスでは、ヘアスタイルおよび眼鏡予測を追加すると、ユーザの顔特徴をより良く反映し、より良い個人化体験を提供することができる。
【0049】
顔キーポイント予測は、数十年にわたってコンピュータビジョンの研究トピックであった。近年の人工知能および深層学習の発展に伴い、畳み込みニューラルネットワーク(CNN)は、顔キーポイント予測の進歩を促進する。3D顔再構成および顔キーポイント検出は、2つの絡み合った問題であり、一方を解決すると他方を単純化することができる。従来の方法は、最初に2D顔キーポイント検出を解決し、次に推定された2D顔キーポイントに基づいて3D顔モデルをさらに推論することである。しかしながら、画像内の顔が傾いている(うなずくまたは頭を振る)と、特定の顔キーポイントが遮られ、誤った2D顔キーポイント推定につながるため、誤った2D顔キーポイントの上に構築される3D顔モデルは不正確になる。
【0050】
グラウンドトゥルースデータが深層学習ベースの方法の上限を決定するので、既存の3D顔モデルデータセットは数が限定されるだけでなく、学術研究のみに利用可能である。他方、顔モデルベースの方法では、両方とも商用ライセンスを必要とするBasel Face Model(BFM)またはSurrey Face Model(SFM)を使用する必要がある。高精度で大量の3Dグラウンドトゥルースは、顔再構成またはキーポイント推定モデルを訓練する際の最も重要な問題となる。
【0051】
顔キーポイント予測以外に、顔特徴分類は、ユーザ3Dアバター作成の重要な側面である。予測された顔キーポイントでは、ユーザの顔部分のスタイル転送(すなわち、目、眉毛、鼻、口、および顔の輪郭)のみを実行することができる。しかしながら、ユーザの顔特徴をより良く反映するためには、ユーザのヘアスタイルを一致させ、ユーザが入力画像内で眼鏡を着用している場合に眼鏡を追加することが非常に役立つ。これらの要件に基づいて、男性/女性のヘアスタイル予測、および眼鏡予測(ありまたはなし)を達成するために、マルチタスク学習および転移学習ベースの顔特徴分類手法が開発され、それにより、作成された顔アバターをより個人化してユーザの体験を改善する。
【0052】
いくつかの実施形態では、顔の主要部分の3次元形状を表すために、
図1に示すようにキーポイント表現が使用される。
図1は、本開示のいくつかの実施態様による例示的なキーポイント定義を示す図である。言い換えれば、キーポイントのシーケンス番号と顔の特定の位置との間にはマッピング関係がある。例えば、シーケンス番号9は顎の下部に対応し、シーケンス番号21は鼻の先端に対応するなどである。キーポイントは、顔の特定の特徴を定義するシーケンスで番号付けされる。キーポイントは、顔の主要部分の境界、例えば、顔の輪郭、目の輪郭、および眉毛の輪郭に焦点を合わせる。キーポイントが多いほど予測が困難になるが、形状表現がより正確になる。いくつかの実施形態では、96個のキーポイントの定義が
図1で採用されている。いくつかの実施形態では、ユーザは、自身の必要に応じて特定の定義およびキーポイントの数を修正することができる。
【0053】
多くのアルゴリズムは、人間の顔のキーポイントの3次元座標を予測することができる。より良い性能を有する方法は、大量のオフライン3D訓練データに基づく深層学習アルゴリズムを使用する。しかしながら、いくつかの実施形態では、任意の3次元キーポイント予測アルゴリズムを使用することができる。いくつかの実施形態では、キーポイントの定義は固定されておらず、ユーザは必要に応じて定義をカスタマイズすることができる。
【0054】
3Dグラウンドトゥルース顔モデル生成の問題を解決するために、2D RGB画像、2Dキーポイントアノテーション、および粗位置マップを入力とする以下の自動アルゴリズムが開発される。
図2は、本開示のいくつかの実施態様による例示的なキーポイント生成プロセスを示すブロック図である。例えば、顔の2D RGB画像が入力画像202として使用され、2D RGB画像は、対応する初期粗位置マップ204を有し、初期粗マップ内の各画素は、2D RGB画像内の対応する顔の点の空間座標を表す。2Dキーポイントアノテーション208は、初期粗マップ204から検出されたキーポイント206のセットを補正するために使用される、ユーザ提供のキーポイントのセットを表す。
【0055】
図3は、本開示のいくつかの実施態様による、初期粗位置マップを変換する例示的なプロセスを示す図である。
【0056】
いくつかの実施形態では、3D再構成方法を使用して、入力顔画像を、顔特徴の3D深度情報を含む位置マップに変換する。例えば、位置マップは、256×256の行列配列を有する2D三色(RGB)チャネルマップであってもよく、各配列要素は、顔モデル上の3D位置を表す座標(x、y、z)を有する。3D位置座標(x、y、z)は、各配列要素の位置マップ上のRGB画素値で表される。特定の顔特徴は、2D位置マップ内の固定された2D位置に配置される。例えば、鼻の先端は、位置マップ内のX=128およびY=128における2Dアレイ素子位置によって識別することができる。同様に、顔の特定の顔特徴について識別された特定のキーポイントは、2D位置マップ上の同じ配列要素位置に配置することができる。しかしながら、特定のキーポイントは、位置マップの異なる入力顔画像に応じて異なる3D位置座標(x、y、z)を有することができる。
【0057】
いくつかの実施形態では、
図2および
図3に示すように、3D再構成方法を利用して、入力画像(202,302)から初期粗位置マップ(204,304)を取得する。そして、入力された2Dキーポイントアノテーション(208,308)を使用して、初期位置マップの対応するキーポイント(206,306)の(x、y)座標を調整し、調整された位置マップ内のキーポイントの調整された(x、y)座標がアノテーション付き2Dキーポイントと同じになるようにする。特に、最初に、初期位置マップPから96キーポイントのセットが取得される。キーポイントインデックスに基づいて、96個のキーポイントのセットはK=k_iと呼ばれ、各k_iはキーポイントの2D座標(x、y)であり、i=0,...,95である。2Dキーポイントアノテーション(208,308)から、2D(x、y)座標である96のキーポイントA=a_iの第2のセットが取得され、i=0,...,95である。第2に、空間変換マッピング(210.310)は、KからAに推定され、T:Ω→Ωと定義され、Ω⊂R^2である。そして、得られた変換Tを初期位置マップPに適用して変換された位置マップP’(212,312)を得る。このようにして、変換された位置マップP’(212,312)は、入力画像(202,302)内の人物の詳細な顔特徴を保存し、同時に、変換された位置マップP’(212,312)は、妥当な3D深度情報である。したがって、本明細書で開示される解決策は、高価で時間のかかる顔キャプチャシステムの使用を回避するために3Dグラウンドトゥルース情報を生成するための正確で実用的な代替解決策を提供する。
【0058】
いくつかの実施形態では、96個の顔のキーポイントは、例えば、
図3では、顔領域全体の部分(すなわち、眉毛の下、顔の輪郭の内側)のみをカバーするので、耳から顎までのキーポイントは、顎の下部に沿っているが、目に見える顔の輪郭には沿っていない。入力画像内の顔が傾いている場合、顔領域全体は、互いに接続されたキーポイントの輪郭によって覆われない。加えて、手動キーポイントアノテーションを実行するとき、画像内の顔が傾いていてもいなくても、キーポイントは、可視顔輪郭に沿ってのみラベル付けすることができる(すなわち、遮蔽されたキーポイントに正確にアノテーションを付ける方法はない)。その結果、変換された位置マップP’(212,312)では、顔領域の一部分が変換マッピングT(210.310)により有効な値を有さず、その領域において推定が行われない。また、額の領域は眉毛の上であるため、その領域においてもTは推定を持たない。これらの問題はすべて、変換された位置マップP’(212,312)が特定の領域において有効な値を有さない原因となる。
図4は、本開示のいくつかの実施態様による、顔領域全体をカバーしない例示的な変換された位置マップを示す図である。
【0059】
図4では、上の円(402,406)は額の領域を強調し、右の円(404,408)は、キーポイントの輪郭が目に見える顔の輪郭よりも小さい領域を示す。
【0060】
いくつかの実施形態では、上記の問題を解決し、顔画像に一般的に存在する傾いた顔に対してアルゴリズムを堅牢にするために、
図2に示すような精密化プロセス214が使用される。変換された位置マップからのキーポイントは、顔の輪郭に沿ってシフトされ、頭部のポーズおよび粗3D顔モデルに基づいて可視顔の輪郭に一致する。その後に、得られた位置マップにおいて、顔輪郭領域の欠損値を埋めることができる。しかしながら、額領域の値は依然として欠落している。額の領域をカバーするために、画像の四隅の8つのランドマークを両方のキーポイントセットKおよびAに追加することによって、制御点が拡張される。
【0061】
図5は、本開示のいくつかの実施態様による、顔領域全体をカバーするように変換された位置マップを精密化する例示的なプロセスを示す図である。位置マップ精密化処理を
図5に示す。
【0062】
いくつかの実施形態では、頭部姿勢は、頭部が左または右に向かって傾いていることを判定するために粗位置マップPに基づいて最初に判定され、左または右は3D顔モデル空間内で定義される(例えば、
図5に示すように、顔は左に向かってタイトル付けされる)。顔が左または右に傾いているという判定に基づいて、顔の輪郭の対応する側面のキーポイントが調整される。顔輪郭の右側のキーポイントは1から8のインデックスを有し、顔輪郭の左側のキーポイントは10から17のインデックスを有する。一例として左に傾いた顔を使用して、初期位置マップPの2D投影を計算して、
図5に示す画像502として深度マップを取得する。左顔輪郭キーポイントk_i,i=10,...,17は、それらが深度マップの境界に達するまで個々に右方にシフトされる。次いで、新しい座標を使用して元のキーポイント位置を置き換える。同様に、顔が右に傾けられると、処理されたキーポイントはk_i、i=1、...、8によってインデックスされ、探索方向は左である。顔輪郭キーポイントを調整した後に、更新されたキーポイントは
図5の画像504として視覚化され、位置マップの更新されたカバレッジは
図5の画像506として示される。更新された位置マップは、顔の輪郭領域における顔のより良好なカバレッジを有するが、額の領域は依然として欠損値を有する。
【0063】
いくつかの実施形態では、額の領域をカバーするために、(
図5の画像508に示すように)追加のキーポイントk_i,i=96,...,103として画像ドメインΩの各角に2つのアンカーポイントが追加され、更新されたキーポイントセットK’を取得する。更新されたA’を取得するために、手動アノテーションキーポイントセットa_i,i=96,...,103に対して同じことが行われる。更新されたキーポイントセットK’およびA’を使用して、変換マッピングT’が再推定され、次いで、(
図5の画像510に示すように)顔領域全体をカバーする最終位置マップP"(
図2の216)を得るために初期位置マップPに適用される。最終キーポイント218は、最終位置マップ216から導出される。
【0064】
図6は、本開示のいくつかの実施態様による、位置マップ精密化アルゴリズムのいくつかの例示的な結果を示す図である。602は、初期の変換された位置マップの図である。604は、顔の輪郭を固定した後の更新された位置マップの図である。606は、最終位置マップの図である。
【0065】
図7Aおよび
図7Bは、本開示のいくつかの実施態様による、初期粗位置マップに対する最終位置マップのいくつかの例示的な比較を示す。
図7Aの一例では、初期位置マップおよびその関連する3Dモデルおよびキーポイント702の鼻は正しくなく、人の顔特徴(矢印で強調表示)を完全に反映することはできないが、本明細書に記載の方法を適用した後に、鼻は最終位置マップの画像およびその関連する3Dモデルおよびキーポイント704(矢印で強調表示)と十分に位置合わせされる。
図7Bの第2の例では、初期位置マップおよびその関連する3Dモデル、ならびに顔の輪郭、開口部口、および鼻の形状の不一致(矢印で示す)のようなキーポイント706に複数の不正確さがある。最終位置マップならびにその関連する3Dモデルおよびキーポイント708では、これらの誤差はすべて固定されている(矢印で示されている)。
【0066】
ヘアスタイルおよび眼鏡分類は、顔アバター作成プロセスのためのモバイルゲームアプリケーションにとって重要である。いくつかの実施形態では、これらの問題を解決するために、マルチタスク学習および転移学習ベースの解決策が本明細書で実施される。
【0067】
いくつかの実施形態では、女性の毛髪予測のために4つの異なる分類タスク(頭部)が実施される。分類カテゴリおよびパラメータを以下に示す。
分類頭部1:カーブ
ストレート(0)、カーブ(1)
分類頭部2:長さ
ショート(0)、ロング(1)
分類頭部3:バング
バングもスプリットもない(0)、左スプリット(1)、右スプリット(2)、M字形状(3)、ストレートバング(4)、ナチュラルバング(5)、エアバング(6)
分類頭部4:ブレード
単一のブレード(0)、2つ以上のブレード(1)、単一のバン(2)、2つ以上のバン(3)、その他(4)。
【0068】
いくつかの実施形態では、男性の毛髪予測のために3つの異なる分類タスク(頭部)が実施される。分類カテゴリおよびパラメータを以下に示す。
分類頭部1:極端なショート(0)、カール(1)、その他(2)
分類頭部2:バングなし(0)、スプリットバング(1)、ナチュラルバング(2)
分類頭部3:スプリットバング左(0)、およびスプリットバング右(1)
【0069】
いくつかの実施形態では、眼鏡分類はバイナリ分類タスクである。分類パラメータを以下に示す。
眼鏡なし(0)、眼鏡(1)あり。
【0070】
様々な深層学習画像分類モデルの中で、ImageNetにおいて最先端の精度を達成するものは、通常、モデルサイズが大きく、EfficientNet、騒がしい学生、およびFixResなどの複雑な構造を有する。どのアーキテクチャを特徴抽出器のベースネットワークとして使用するかを決定するとき、予測精度とモデルサイズの両方をバランスさせる必要がある。実際には、1%の分類精度の向上は、エンドユーザに明らかな変化をもたらさない可能性があるが、モデルサイズは指数関数的に増加する可能性がある。訓練されたモデルがクライアント側で展開される必要がある場合、より小さいベースネットワークは、サーバ側とクライアント側の両方で展開されるように柔軟にすることができる。そこで、異なる分類頭部に対する転移学習を行うためのベースネットワークとして、例えば、MobileNetV2が採用される。MobileNetV2アーキテクチャは、反転残差構造に基づいており、残差ブロックの入力および出力は、入力に拡張表現を使用する従来の残差モデルとは反対の薄いボトルネック層である。MobileNetV2は、中間拡張層の特徴をフィルタリングするためにライトウェイトな深度方向畳み込みを使用する。
【0071】
眼鏡分類には、マルチタスク学習手法が使用される。キーポイント予測のネットワークをベースネットワークとして再利用し、パラメータを凍結すると、U字形ベースのネットワークのボトルネック層において、交差エントロピー損失を有する特徴ベクトルが、バイナリ分類器を訓練するために使用される。
図8Aは、本開示のいくつかの実施態様による、例示的な眼鏡分類ネットワーク構造を示す図である。
図8Bは、本開示のいくつかの実施態様による、例示的な女性の毛髪予測ネットワーク構造を示す図である。
図8Cは、本開示のいくつかの実施態様による、例示的な男性の毛髪予測ネットワーク構造を示す図である。
【0072】
図9Aは、本開示のいくつかの実施態様による、いくつかの例示的な眼鏡分類予測結果を示す。
図9Bは、本開示のいくつかの実施態様によるいくつかの例示的な女性毛髪予測結果を示す。
図9Cは、本開示のいくつかの実施態様によるいくつかの例示的な男性毛髪予測結果を示す。
【0073】
図10は、本開示のいくつかの実施態様による、現実の人物の2D顔画像から顔位置マップを構築する例示的なプロセスを示すフローチャート1000である。現実には、異なる人物は異なる顔特性を有するので、同じ顔特性(例えば、人の顔上の眉毛の位置)に対応する同じキーポイントは、非常に異なる空間座標を有する場合がある。顔検出の問題は、3D顔モデルを生成するために使用される2D顔画像が異なる角度および異なる光条件下でキャプチャされ、この領域の研究がコンピュータビジョンの技術分野において非常に活発な主題であるため、より困難になる。本出願では、現実の人物から漫画キャラクタまでの範囲の対象の任意の2D顔画像からの顔キーポイント検出の効率および精度を改善するための複数の方法が提案されている。いくつかの実施形態では、同じ顔画像のユーザ提供の顔キーポイントのセットは、コンピュータにより実施される方法によって最初に検出された顔キーポイントのセットを補正または改善するための基準として提供される。例えば、ユーザ提供の顔のキーポイントとコンピュータ生成の顔のキーポイントとの間にそれらのそれぞれのシーケンス番号に基づく1対1のマッピング関係があるため、コンピュータ生成の顔のキーポイントの精密化は、例えば位置マップ内のそれらの対応する空間座標によって測定される、顔のキーポイントの2つのセット間の差を低減する最適化問題として定義される。
【0074】
顔位置マップを構築するプロセスは、2次元顔画像から粗顔位置マップを生成するステップ1010を含む。
【0075】
プロセスはまた、粗顔位置マップに基づいて、2次元顔画像内のキーポイントの第1のセットを予測するステップ1020を含む。
【0076】
プロセスは、ユーザ提供のキーポイントアノテーションに基づいて、2D顔画像内のキーポイントの第2のセットを識別するステップ1030をさらに含む。
【0077】
プロセスは、2次元顔画像内のキーポイントの第1のセットとキーポイントの第2のセットとの間の差を低減するように、粗顔位置マップを更新するステップ1040をさらに含む。例えば、対応する空間座標に関して2D顔画像内のキーポイントの第1のセットとキーポイントの第2のセットとの間の差を低減することによって、粗顔位置マップに基づく2D顔画像内のキーポイントの第1のセットは、より正確であると見なされることが多いユーザ提供のキーポイントアノテーションに基づいて、2D顔画像内のキーポイントの第2のセットにより類似するように修正され、顔のキーポイントの第1のセットの修正は、キーポイントの第1のセットが生成される初期粗顔位置マップの更新を自動的にトリガする。次いで、更新された粗顔位置マップを使用して、2D顔画像からキーポイントのより正確なセットを予測することができる。ユーザ提供のキーポイントアノテーションに基づく2D顔画像内のキーポイントの第2のセットは、手動で行われることを意味しないことに留意されたい。代わりに、ユーザは、アノテーションを実行するために別のコンピュータにより実施される方法を使用することができる。いくつかの実施形態では、キーポイントの第2のセット(例えば、10~20)の数は、キーポイントの第1のセット(例えば、96以上)の数のほんの一部であるが、キーポイントの第2のセットがはるかに正確であるという事実は、キーポイントの第1のセットの全体的な改善に寄与する。
【0078】
一実施態様では、プロセスは、更新された顔位置マップ/最終位置マップに基づいてキーポイントの第3のセットをキーポイントの最終セットとして抽出するステップ1050をさらに含み、キーポイントの第3のセットは、顔位置マップ内のキーポイントの第1のセットと同じ位置を有する。いくつかの実施形態では、顔位置マップ内のキーポイントの位置は、位置マップ内の配列要素の2D座標によって表される。上述したように、更新された顔位置マップは、ユーザ提供のキーポイントアノテーションに基づく2D顔画像内のキーポイントの第2のセットから恩恵を受けており、したがって、キーポイントの第3のセットはより正確であり、より正確な顔検出のためのコンピュータビジョンまたはより正確な3D顔モデリングのためのコンピュータグラフィックスのような領域で使用することができる。
【0079】
一実施態様では、ステップ1050の代わりに、またはそれに加えて、プロセスは、更新された顔位置マップに基づいて現実の人物の3D顔モデルを再構築するステップ1060をさらに含む。一例では、3D顔モデルは3D深度モデルである。
【0080】
追加の実施態様は、以下の特徴のうちの1つまたは複数を含むことができる。
【0081】
いくつかの実施形態では、更新するステップ1040は、粗顔位置マップを変換された顔位置マップに変換するステップと、変換された顔位置マップを精密化するステップと、を含むことができる。上述したように、変換された顔位置マップは、初期の粗顔位置マップよりも入力画像内の人物のより詳細な顔特徴を保存することができ、したがって、変換された顔位置マップに基づく3D顔モデルはより正確である。
【0082】
いくつかの実施形態では、変換するステップは、キーポイントの第1のセットとキーポイントの第2のセットとの間の差を学習することから、粗顔位置マップから変換された顔位置マップへの変換マッピングを推定するステップと、変換マッピングを粗顔位置マップに適用するステップと、を含む。
【0083】
いくつかの実施形態では、精密化するステップは、2D顔画像が傾いているという判定に従って、顔領域全体をカバーするために、顔輪郭の遮蔽側で変換された顔位置マップに対応するキーポイントを調整するステップを含む。上述したように、異なる2D顔画像を異なる角度で取り込むことができ、この精緻化ステップは、異なる画像キャプチャ条件によって導入されるバイアスまたは誤差を補正し、2D顔画像のより正確な3D顔モデルを保存することができる。さらに、変換された顔位置マップは、初期の粗顔位置マップよりも入力画像内の人物のより詳細な顔特徴を保存することができ、したがって、変換された顔位置マップに基づく3D顔モデルはより正確である。
【0084】
いくつかの実施形態では、キーポイントの第1のセットは、96個のキーポイントを含むことができる。
【0085】
いくつかの実施形態では、顔位置マップを構築するプロセスは、顔特徴分類を含むことができる。
【0086】
いくつかの実施形態では、顔特徴分類は、深層学習方法によるものである。
【0087】
いくつかの実施形態では、顔特徴分類は、マルチタスク学習または転移学習方法によるものである。
【0088】
いくつかの実施形態では、顔特徴分類は、毛髪予測分類を含む。
【0089】
いくつかの実施形態では、毛髪予測分類は、カーブ、長さ、バング、およびブレードを含み得る複数の分類タスクを有する女性の毛髪予測を含む。
【0090】
いくつかの実施形態では、毛髪予測分類は、カーブ/長さ、バング、およびヘアスプリットを含み得る複数の分類タスクを有する男性毛髪予測を含む。
【0091】
いくつかの実施形態では、顔特徴分類は、眼鏡予測分類を含む。眼鏡予測分類は、眼鏡あり、および眼鏡なしを含み得る分類タスクを含む。
【0092】
本明細書で開示される方法およびシステムは、3Dグラウンドトゥルース生成のための2Dキーポイントアノテーションに基づいて正確な3D顔モデル(すなわち、位置マップ)を生成することができる。この手法は、BFMおよびSFM顔モデルの使用を回避するだけでなく、詳細な顔特徴をより良好に保存し、顔モデルベースの方法によって引き起こされるこれらの重要な特徴の損失を防止する。
【0093】
キーポイントを提供すること以外に、ヘアスタイルや眼鏡などの相補的な顔特徴を提供するための深層学習ベースの解決策が使用され、これらはユーザ入力顔画像に基づいて顔アバターを個人化するのに不可欠である。
【0094】
本明細書では、顔特徴分類のためのヘアスタイルおよび眼鏡予測が例として開示されているが、フレームワークはこれらの例示的なタスクに限定されない。フレームワークおよび解決策は、マルチタスク学習および転移学習に基づいており、これは、フレームワークを拡張して、女性化粧タイプ分類、男性髭タイプ分類、およびマスク分類の有無などの他の顔特徴を含めることが容易であることを意味する。フレームワークの設計は、様々なコンピュータまたはモバイルゲームの要件に基づいてより多くのタスクに拡張するのに適している。
【0095】
いくつかの実施形態では、キーポイントに基づくライトウェイトな色抽出方法が本明細書に導入される。ライトウェイトな画像処理アルゴリズムは、すべての画素のセグメンテーションなしにローカル画素を迅速に推定し、より高い効率をもたらす。
【0096】
訓練プロセス中、ユーザは、画素レベルのラベルを有する必要はなく、目尻、口元、および眉毛などの少数のキーポイントのみにラベルを付ける。
【0097】
本明細書で開示されるライトウェイトな色抽出方法は、様々なゲーム用の個人化された顔生成システムで使用することができる。より自由な個人化されたキャラクタ生成を提供するために、多くのゲームが自由な調整方法を採用し始めている。顔の形状を調整することに加えて、ユーザは異なる色の組み合わせを選択することもできる。審美的な目的のために、ゲームにおける顔は、多くの場合、実際の顔テクスチャの代わりに所定のテクスチャを使用する。本明細書に開示するこの方法およびシステムは、ユーザが写真をアップロードするだけで顔の各部分の平均色を自動的に抽出することを可能にする。同時に、システムは、抽出された色に従ってテクスチャを自動的に修正することができ、その結果、個人化された顔の各部分がユーザ写真の実際の色により近く生成され、ユーザ体験が向上する。例えば、ユーザの肌の色調がほとんどの人の平均的な肌の色調よりも暗い場合、ゲーム内のキャラクタの肌の色調はそれに応じて暗くなる。
図11は、本開示のいくつかの実施態様による、例示的な色抽出および調整プロセスを示す流れ図である。
【0098】
顔の様々な部分を位置特定するために、上述の
図1に示すように、顔の主要な特徴部分に対してキーポイントが定義される。上述したアルゴリズムは、キーポイント予測に使用される。セマンティック・セグメンテーション方法とは異なり、各画素を分類する必要なく画像内でキーポイントのみが予測されるため、予測および訓練データのラベル付けのコストが大幅に削減される。これらのキーポイントにより、顔の様々な部分を大まかに位置特定することができる。
【0099】
図12は、本開示のいくつかの実施態様による例示的な皮膚色抽出方法を示す。画像内の特徴を抽出するために、回転位置合わせ後の画像1204に示すように、顔の左右のキーポイント1および17が標準顔の左右の対応するキーポイントと位置合わせされるように、元の画像1202内の顔領域を回転させる必要がある。
【0100】
次に、皮膚色画素検査の領域を決定する。目のキーポイントの底部座標は、検出領域の上部境界として選択され、鼻の底部キーポイントは、検出領域の下部境界として選択され、左右の境界は、顔境界キーポイントによって決定される。これにより、画像1206上の領域1208に示すように皮膚色検出領域が得られる。
【0101】
この領域1208内のすべての画素が皮膚画素であるとは限らず、画素はまた、いくつかのまつ毛、鼻孔、鼻唇溝、毛髪などを含んでもよい。したがって、この領域内のすべての画素のR、G、B値の中央値が最終的な予測された平均皮膚色として選択される。
【0102】
図13は、本開示のいくつかの実施態様による、例示的な眉毛の色抽出方法を示す。眉毛の平均的な色については、まず主要な眉毛、すなわち目標としてのレンズに近い側の眉毛が選択される。いくつかの実施形態では、両方の眉毛が主眉毛である場合には、両側の眉毛画素が抽出される。
図13に示すように、左眉毛が主眉毛であると仮定すると、キーポイント77、78、81、および82から構成される四辺形領域が眉毛画素探索領域として選択される。これは、外側に近い眉毛が薄すぎ、小さなキーポイントエラーの影響が大きくなるためである。内側に近い眉毛はまばらで皮膚色と混ざっていることが多いので、中央の眉毛領域1302が画素を収集するように選択される。そして、各画素は、最初に平均皮膚色と比較されなければならず、特定のしきい値よりも大きい差を有する画素のみが収集される。最後に、皮膚色と同様に、収集された画素のR、G、Bの中央値が最終的な平均眉毛の色として選択される。
【0103】
図14は、本開示のいくつかの実施態様による、例示的な瞳孔の色抽出方法を示す。眉毛の色抽出と同様に、瞳の色を抽出する際には、まず、レンズに近い主要な眼の側が選択される。いくつかの実施形態では、両眼が主要な眼である場合、両側の画素は一緒に収集される。瞳孔自体に加えて、目のキーポイントの内側に含まれる囲まれた領域は、まつ毛、白目、および反射も含むことができる。これらは、最終画素の大部分が瞳孔自体から来ることを確実にするために、画素収集のプロセスにおいて可能な限り除去されるべきである。
【0104】
まつ毛画素を除去するために、目のキーポイントをy軸(
図14の垂直方向)に沿って特定の距離だけ内側に収縮させて、
図14に示す領域1402を形成する。白目および反射(
図14の円1404によって示される)を除去するために、そのような画素はこの領域1402ではさらに除外される。例えば、画素のR、G、およびB値がすべて所定のしきい値より大きい場合には、その画素は除外される。このように収集された画素は、それらのほとんどが瞳孔自体から来ることを保証することができる。同様に、平均瞳孔色として中央色を用いる。
【0105】
いくつかの実施形態では、唇色抽出のために、下唇領域内の画素のみが検出される。上唇は薄く、キーポイントエラーに対して比較的敏感であることが多く、上唇は色が薄いため、唇の色をうまく表現することができない。そこで、写真を回転補正した後に、下唇のキーポイントで囲まれる領域の画素をすべて集めて、平均唇色を表す中央色を用いる。
【0106】
図15は、本開示のいくつかの実施態様による、毛髪の色抽出方法で使用される例示的な毛髪の色抽出領域を示す図である。毛髪の色の抽出は、以前の部分よりも困難である。主な理由は、それぞれの人のヘアスタイルが独特であり、写真の背景が複雑で多様であるためである。したがって、毛髪の画素の位置を特定することは困難である。毛髪画素を正確に見つける1つの方法では、ニューラルネットワークを使用して画像の毛髪画素をセグメント化する。画像セグメンテーションのアノテーションコストは非常に高く、ゲーム用途には非常に高精度の色抽出は必要ないため、キーポイントの近似予測に基づく方法が使用される。
【0107】
毛髪画素を取得するために、検出領域が最初に決定される。
図15に示すように、検出領域1502は長方形である。下の境界は、両側の眉の角であり、高さ(縦線1504)は、眉毛の上縁部から目の下縁部までの距離1506である。左右は、それぞれ固定距離を左右に延ばすためのキーポイント1、17である。このようにして得られた毛髪画素検出領域1502を
図15に示す。
【0108】
図16は、本開示のいくつかの実施態様による、毛髪の色抽出領域内の毛髪画素と皮膚画素との間の例示的な分離を示す。一般に、検出領域は、皮膚、毛髪、および背景の3タイプの画素を含む。より複雑な場合には、頭部ウェアも含まれる。検出領域の左右の範囲は比較的控えめであるため、含まれる毛髪画素はほとんどの場合、背景画素よりもはるかに大きいと想定される。したがって、主なプロセスは、検出領域の画素を毛髪または皮膚に分割することである。
【0109】
検出領域内の画素の各ラインについて、皮膚色の変化は、例えば明るいものから暗いものまで連続的であることが多く、皮膚色および毛髪接合部は、明らかな変化を有することが多い。したがって、各行の中央の画素が始点1608として選択され、左右の皮膚画素が検出される。第1に、比較的控えめなしきい値を使用して、より信頼性の高い皮膚色画素を見つけ、次いで左右に拡張する。隣接する画素の色が比較的近い場合、それも皮膚色としてマークされる。このような方法は、皮膚色のグラデーションを考慮しており、比較的正確な結果を得ることができる。
図16に示すように、毛髪色抽出領域1602内で、1604などのより暗い領域は皮膚色画素を表し、1606などのより明るい領域は毛髪色画素を表す。毛髪色領域内の収集された毛髪色画素のR、G、B中央値が最終的な平均毛髪色として選択される。
【0110】
図17は、本開示のいくつかの実施態様による、例示的なアイシャドウの色抽出方法を示す。アイシャドウカラーの抽出は、以前の部分とは少し異なっている。アイシャドウは、存在してもしなくてもよいメイクであるからである。そのため、アイシャドウ色を抽出する際には、まずアイシャドウが存在するか否かを判定し、存在する場合にはその平均色を抽出する必要がある。アイシャドウの色抽出は、眉毛や瞳孔の色抽出と同様に、主眼のレンズに近い部分に対してのみ行われる。
【0111】
まず、どの画素がアイシャドウに属するかを決定する必要がある。アイシャドウ画素の検出領域の場合、
図17に示すように、線1704および1706内の領域1702が使用される。領域1702の左側および右側を目頭および目尻と定義し、領域の上側および下側を眉毛の下縁部および目の上縁部とする。この領域1702内の可能なアイシャドウ画素に加えて、アイシャドウを抽出するときに除外する必要があるまつ毛、眉毛、および皮膚もあり得る。
【0112】
いくつかの実施形態では、眉毛の影響を排除するために、検出領域の上縁部がさらに下方に移動される。まつ毛の影響を低減するために、特定のしきい値未満の輝度を有する画素は除外される。アイシャドウと皮膚色とを区別するために、各画素の色相と平均皮膚色との差を確認する。差が特定のしきい値よりも大きい場合にのみ、画素は可能なアイシャドウ画素として収集される。RGB値ではなく色相を用いる理由は、平均的な皮膚色は主に眼下に集まり、目上の皮膚色は明度の変化が大きい場合があるからである。色は明るさに敏感ではないため、色は比較的安定している。その結果、色相は、画素が肌であるか否かの判定により適している。
【0113】
以上の処理により、各検出領域の画素がアイシャドウに属するか否かを判定することができる。いくつかの実施形態では、アイシャドウがない場合、いくつかの画素が依然としてアイシャドウとして認識される可能性があるというエラーが発生する可能性がある。
【0114】
上記の誤差を低減するために、検出領域の各列がチェックされる。現在の列内のアイシャドウ画素の数が特定のしきい値より大きい場合、現在の列はアイシャドウ列としてマークされる。検出領域の幅に対するアイシャドウ列の比があるしきい値よりも大きい場合、現在の画像にアイシャドウがあると考えられ、収集されたアイシャドウ画素の中央色が最終色として使用される。このようにして、アイシャドウとして誤って分類された少数の画素は、アイシャドウ全体に誤った判断を引き起こすことはない。
【0115】
アートスタイルを考慮すると、ほとんどのゲームでは、上記のすべての部分の色を自由に調整することはできないことが多い。色調整が開いている部分については、多くの場合、所定の色のセットのみを一致させることができる。毛髪を例にとると、ヘアスタイルが5つの毛髪色を選択できる場合、リソースパック内のヘアスタイルは、各毛髪色に対応するテクスチャ画像を含む。検出時には、髪の色の予測結果に応じて最も近い色のテクスチャ画像を選択すれば、所望のヘアレンダリング効果を得ることができる。
【0116】
いくつかの実施形態では、1つのカラーテクスチャ画像のみが提供される場合、テクスチャ画像の色は、検出された任意の色に従って合理的に変更することができる。色変換を容易にするために、一般的に使用されるRGB色空間表現はHSV色モデルに変換される。HSVカラーモデルは、色相H、彩度S、および明度Vの3つの次元からなる。色相Hは、モデル内で360度の色範囲として表され、赤は0度、緑は120度、および青は240度である。彩度Sは、スペクトル色と白色の混合を表す。彩度が高いほど、色が明るくなる。彩度が0に近づくと、色は白色に近づく。明度Vは色の明度を表し、値の範囲は黒から白である。色調整後に、テクスチャ画像のHSV中央値は予測された色と一致すると予想される。したがって、各画素の色相値算出は、Hi’=(Hi+H’-H)%1と表すことができ、ここで、Hi’およびHiは調整前後の画素iの色相を表し、HおよびH’は調整前後のテクスチャ画像の色相の中央値を表す。
【0117】
端と端がつながった連続空間である色相とは異なり、彩度と明度は、0と1のような境界特異性を有する。色相調整と同様の線形処理方法を使用する場合、初期画像または調整された画像の中央値が0または1に近いとき、多くの画素値は、彩度または明るさが高すぎるまたは低すぎるように見える。この現象は不自然な色を引き起こす。この問題を解決するために、以下の非線形曲線を使用して、画素調整前後の彩度および明度を適合させる。
【0118】
【0119】
上式において、xおよびyは、それぞれ調整前後の彩度または明度の値である。唯一の不確実なパラメータはαであり、これは以下のように導出することができる。
【0120】
α=1/(1+x/(1-x)×(1-y)/y)
【0121】
この式は、αが0から1までの区間に入ることを保証することができる。飽和を例にとると、初期中央飽和Sは、単に入力画像に基づいて計算することができる。そして、目標彩度値S
tは、毛髪の色抽出および色空間変換によって得ることができる。したがって、
【数2】
となる。次に、デフォルトのテクスチャ画像内の各画素S
iについて、調整値を以下のS
i’=1/(1+(1-α)(1-S
i)/(αS
i))という式によって計算することができる。明度についても同様である。
【0122】
調整されたテクスチャ画像の表示効果を実際の画像により近づけるために、異なる部分に対して特別な処理が行われる。例えば、毛髪の低い飽和を保つために、
【数3】
が設定される。
図18は、本開示のいくつかの実施態様によるいくつかの例示的な色調整結果を示す。列1802は、特定のゲームによって提供されるいくつかのデフォルトテクスチャ画像を示し、列1804は、同じ行の対応するデフォルトテクスチャ画像から列1804の上部に示す実際の画像に従って調整されたいくつかのテクスチャ画像を示し、列1806は、同じ行の対応するデフォルトテクスチャ画像から列1806の上部に示す実際の画像に従って調整されたいくつかのテクスチャ画像を示す。
【0123】
図19は、本開示のいくつかの実施態様による、現実の人物の2次元顔画像から色を抽出する例示的なプロセスを示すフローチャート1900である。
【0124】
現実の人物の2次元顔画像から色を抽出するプロセスは、キーポイント予測モデルに基づいて2次元顔画像内の複数のキーポイントを識別するステップ1910を含む。
【0125】
プロセスはまた、識別された複数のキーポイントからの複数の目標キーポイントが標準顔の対応する目標キーポイントと位置合わせされるまで、2次元顔画像を回転させるステップ1920を含む。
【0126】
プロセスは、回転された2次元顔画像内の複数の部分を特定するステップ1930をさらに含み、各部分は、識別された複数のキーポイントのそれぞれのサブセットによって定義される。
【0127】
プロセスは、2次元顔画像の画素値から、キーポイントの対応するサブセットによって定義された複数の部分の各々の色を抽出するステップ1940をさらに含む。
【0128】
プロセスは、2次元顔画像内の複数の部分の抽出された色を使用して、2次元顔画像のそれぞれの顔特徴色と一致する現実の人物の個人化された3次元モデルを生成するステップ1950をさらに含む。
【0129】
追加の実施態様は、以下の特徴のうちの1つまたは複数を含むことができる。
【0130】
いくつかの実施形態では、識別するステップ1910のキーポイント予測モデルは、ユーザが手動でアノテーションを付けたキーポイントからの機械学習に基づいて形成される。
【0131】
いくつかの実施形態では、位置合わせに使用される回転のステップ1920における選択されたキーポイントは、2次元顔画像の左右対称側に配置される。
【0132】
いくつかの実施形態では、ステップ1940において、複数の部分の各々について平均色を抽出することは、対応する部分内のそれぞれの定義された領域内のすべての画素のR、G、B値の各々の中央値を予測された平均色として選択することを含むことができる。
【0133】
いくつかの実施形態では、ステップ1940において、複数の部分の各々の平均色を抽出するステップは、皮膚部分内の皮膚色抽出のための領域を決定するステップと、皮膚色抽出のための領域内のすべての画素のR、G、B値の各々の中央値を皮膚部分の予測された平均色として選択するステップと、を含むことができる。いくつかの実施形態では、皮膚部分内の皮膚色抽出のための領域は、顔の目の下および鼻の下縁部の上の領域として決定される。
【0134】
いくつかの実施形態では、ステップ1940において、複数の部分のそれぞれについて平均色を抽出するステップは、眉毛部分内の眉毛色抽出を含むことができ、眉毛色抽出は、眉毛が2D顔画像の観察者により近い側にあるという判定に従って、眉毛を目標眉毛として選択するステップと、両方の眉毛が2D顔画像の観察者に等しく近いという判定に従って、両方の眉毛を目標眉毛として選択するステップと、目標眉毛内の中央眉毛領域を抽出するステップと、眉毛の中央領域内の各画素値を平均皮膚色と比較するステップと、平均皮膚色との画素値差がしきい値を超える中間眉毛領域内の画素を収集するステップと、収集された各画素のR、G、Bの値の中央値を眉の色抽出のために眉の部分の予測された平均色として選択するステップと、を含む。
【0135】
いくつかの実施形態では、ステップ1940において、複数の部分のそれぞれの平均色を抽出するステップは、眼部分内の瞳孔色抽出を含むことができ、瞳孔色抽出は、眼が2D顔画像の観察者に近い側にあるという判定に従って、眼を目標眼として選択するステップと、両眼が2D顔画像の観察者に等しく近いという判定に従って、両眼を目標眼として選択するステップと、まつ毛のない標的眼内の領域を抽出するステップと、抽出された領域内の各画素値を所定のしきい値と比較するステップと、抽出された領域内の、所定のしきい値を超える画素値を有する画素を収集するステップと、瞳孔の予測された平均色として瞳孔色抽出のために収集された画素のR、G、B値のそれぞれの中央値を選択するステップと、を含む。
【0136】
いくつかの実施形態では、ステップ1940において、複数の部分のそれぞれの平均色を抽出するステップは、唇部分内の唇色抽出を含むことができ、唇色抽出は、下唇のキーポイントによって囲まれた領域内のすべての画素を収集するステップと、唇色抽出のために収集された画素のR、G、B値のそれぞれの中央値を唇部分の予測された平均色として選択するステップと、を含む。
【0137】
いくつかの実施形態では、ステップ1940において、複数の部分の各々の平均色を抽出するステップは、毛髪部分内の毛髪色抽出を含むことができ、毛髪色抽出は、両側の毛髪部分内に延在する額の部分を含む領域を識別するステップと、その領域の中央から左境界および右境界までの所定のしきい値を超える画素色変化を判定するステップと、所定のしきい値を超える画素色変化に基づいてその領域を毛髪領域と皮膚領域とに分割するステップと、その領域内の毛髪領域の画素のR、G、B値の各々の中央値を毛髪部分の予測された平均色として選択するステップと、を含む。
【0138】
いくつかの実施形態では、両側の毛髪部分内に延在する額の部分を含む領域は、両方の眉毛の角の下側境界、2D顔画像の左右対称側に位置するキーポイントから外側に一定の距離の左境界および右境界、ならびに眉毛の上縁部から目の下縁部までの距離の高さを有する矩形領域として識別される。
【0139】
いくつかの実施形態では、ステップ1940において、複数の部分の各々の平均色を抽出するステップは、アイシャドウ部分内のアイシャドウ色抽出を含むことができ、アイシャドウ色抽出は、一方の眼が2D顔画像の観察者により近い側にあるという判定に従って、その眼を目標眼として選択するステップと、両眼が2D顔画像の観察者に等しく近いという判定に従って、両眼を目標眼として選択するステップと、目標眼に近いアイシャドウ部分内の中央領域を抽出し、まつ毛を除外するために所定の輝度しきい値を上回る輝度を有し、かつ所定のしきい値を超える平均皮膚色相値からの画素色相値差を有する、抽出した中央領域内の画素を収集するステップと、抽出された中央領域内の1つの画素列内の収集された画素の数がしきい値よりも大きいという判定に従って、画素列をアイシャドウ列としてラベル付けするステップと、抽出された中央領域の幅に対するアイシャドウ列の比が特定のしきい値よりも大きいという判定に従って、アイシャドウ色抽出のための収集された画素のR、G、B値の各々の中央値をアイシャドウ部分の予測されたアイシャドウ色として選択するステップと、を含む。
【0140】
いくつかの実施形態では、現実の人物の2D顔画像から色を抽出するプロセスは、テクスチャマップの元の輝度および色の差を保持しながら、平均色に基づいてテクスチャマップを変換するステップをさらに含むことができ、変換するステップは、平均色をRGB色空間表現からHSV(色相、彩度、明度)色空間表現に変換するステップと、平均色の中央HSV値とテクスチャマップの中央HSV値画素との間の差を低減するようにテクスチャマップの色を調整するステップと、を含む。
【0141】
本明細書で開示される方法およびシステムは、キャラクタモデリングおよびゲームキャラクタ生成などの異なるシナリオのアプリケーションで使用することができる。ライトウェイトな方法は、モバイルデバイスを含む様々なデバイスに柔軟に適用することができる。
【0142】
いくつかの実施形態では、現在のシステムおよび方法における顔のキーポイントの定義は、現在の定義に限定されず、各部分の輪郭を完全に表現することができる限り、他の定義も可能である。さらに、いくつかの実施形態では、スキームで直接返された色は、直接使用されなくてもよいが、さらなるカラースクリーニングおよび制御を達成するために所定のカラーリストと一致させることができる。
【0143】
ラプラシアン演算子を最適化する変形方法は、メッシュが微分可能な多様体であることを必要とする。しかしながら、実際には、ゲームアーティストによって作成されたメッシュは、多様体の特性を損なう可能性がある複製された頂点、シールされていないエッジのようなアーチファクトを含むことが多い。したがって、重調和変形のような方法は、メッシュが慎重に整理された後にのみ使用することができる。本明細書で提案されるアフィン変形の方法は、ラプラシアン演算子を使用しないため、そのような強い制約はない。
【0144】
重調和変形に代表される変形方法群は、場合によっては変形能力の不足に悩まされる。ラプラシアン演算子を1回解く高調波関数は、その低い平滑度要件のために平滑化された結果を達成できないことが多い。高次(>=3)ラプラシアン演算子を解く多高調波関数は、少なくとも6次微分可能であるというそれらの高い要件のために多くのメッシュで失敗する。ほとんどの場合、ラプラシアン演算子を2回解く重調和変形のみが許容可能な結果をもたらすことができることが観察される。それでも、その変形は、その調整自由度の欠如のために依然として不十分であり得る。本明細書で提案されるアフィン変形は、平滑度パラメータを変更することによって微妙な変形調整を達成することができ、その変形結果の範囲は、重調和変形を使用する範囲をカバーする。
【0145】
図20は、本開示のいくつかの実施態様による、例示的な頭部アバターの変形および生成プロセスを示す流れ図である。本開示で提案された技術を使用して、ボーンと結合することなく頭部メッシュを適切に変形させることができる。したがって、アーティストから要求される作業負荷が大幅に低減される。これらの技術は、より良好な一般性を得るために、異なるスタイルのメッシュに対応する。ゲームアセットの制作では、アーティストは3DMaxまたはMayaのようなツールを使用して様々なフォーマットで頭部モデルを保存することができるが、これらのフォーマットの内部表現はすべてポリゴンメッシュである。ポリゴンメッシュは、テンプレートモデルと呼ばれる純粋な三角形メッシュに容易に変換することができる。テンプレートモデルごとに、3Dキーポイントがテンプレートモデル上に手動で1回マークされる。その後に、それは、任意の人間の顔画像からの検出および再構築された3Dキーポイントに従って特徴的な頭部アバターに変形するために使用することができる。
【0146】
図21は、本開示のいくつかの実施態様による、例示的な頭部テンプレートモデル構成を示す図である。頭部テンプレートモデル2102は、通常、
図21に示すように、顔2110、目2104、まつ毛2106、歯2108、および毛髪などの部分からなる。ボーンを拘束することなく、メッシュ変形はテンプレートメッシュの接続構造に依存する。したがって、テンプレートモデルをそれらのセマンティック部分に分解する必要があり、顔メッシュを最初に変形する必要がある。他のすべての部分は、顔メッシュ上の特定のキーポイントを設定して追従することによって自動的に調整することができる。いくつかの実施形態では、すべてのトポロジー的に接続された部分を検出するための対話型ツールが提供され、ユーザはそれを使用して、さらなる変形のためにそれらのセマンティック部分を都合よくエクスポートすることができる。
【0147】
いくつかの実施形態では、人間の顔の画像キーポイントは、いくつかの検出アルゴリズムまたはAIモデルを介して取得することができる。メッシュ変形を駆動する目的で、これらのキーポイントはテンプレートモデル上の頂点にマッピングされる必要がある。メッシュ接続のランダム性、および3D人間キーポイントのマーキングデータの欠如のために、任意の頭部モデル上の3Dキーポイントを正確に自動的にマークすることができるツールはない。したがって、3Dモデル上のキーポイントを手動で迅速にマークすることができる対話型ツールが開発されている。
図22は、本開示のいくつかの実施態様による、2202、2204などの現実的なスタイルの3Dモデルおよび2206、2208などの漫画スタイルの3Dモデル上のいくつかの例示的なキーポイントマーキングを示す図である。
【0148】
マーキングの手順では、3Dモデル上のマーキングされた3Dキーポイントの位置は、画像キーポイントと最も大きく一致する必要がある。キーポイントは3Dモデルメッシュ上の個別の頂点にマークされているため、偏差のインポートは不可避である。そのような偏差を相殺するために、1つの方法は、位置処理において適切な規則を定義することである。
図23は、本開示のいくつかの実施態様による、テンプレートモデルレンダリングと、手動でマークされたキーポイントと、AI検出されたキーポイントとの間の例示的な比較を示す図である。いくつかの実施形態では、比較的現実的にされたそれらのモデルについて、キーポイント検出および再構築アルゴリズムをテンプレートモデル(2302)のレンダリングに適用することができ、例えば人工知能による3Dキーポイント(2306)の結果は、手動でマークされたもの(2304)とさらに比較することができ、したがって、キーポイントの2つのグループ間の偏差が計算される。人間の画像を検出するとき、計算された偏差は、現実の画像内の検出されたキーポイントから低減され、人工的なマーキングの悪影響が排除される。
【0149】
本明細書に開示するアフィン変形の方法は、線形方程式系を最終的に解くキーポイントドリブンの数学的モデリングである。ここで開示される方法は、検出されたキーポイントを境界条件として使用してテンプレートメッシュを変形するための1つのステップをとり、最適化のプロセスにおいて異なる制約を使用する。
図24は、本開示のいくつかの実施態様による例示的な三角形のアフィン変換を示す図である。
【0150】
いくつかの実施形態では、テンプレートメッシュから予測されたメッシュへの変形は、各三角形のアフィン変換のアセンブリと見なされる。三角形のアフィン変換は、3×3の行列Tおよび並進ベクトルdとして定義することができる。
図24に示すように、アフィン変換後の変形された頂点の位置は、v
i’=Tv
i+d,i∈1...4と表され、ここで、v
1,v
2,v
3はそれぞれ三角形の各頂点を表し、v
4は三角形の法線の方向に導入される追加の点であり、式v
4=v
1+(v
2-v
1)×(v
3-v
1)/sqrt(|(v
2-v
1)×(v
3-v
1)|)を満たす。上記の式では、外積の結果は、三角形のエッジの長さに比例するように正規化される。v
4を導入する理由は、3つの頂点の座標が一意のアフィン変換を決定するのに十分ではないためである。v
4を導入した後に、T=[v’
2-v’
1 v’
3-v’
1 v’
4-v’
1]×[v
2-v
1 v
3-v
1 v
4-v
1]
-1という導出式が得られ、行列Tの非平行移動部分が求められる。行列V=[v
2-v
1 v
3-v
1 v
4-v
1]
-1は、他の変形係数の不変量であるテンプレートメッシュにのみ依存するので、後に線形システムを構築するための疎係数行列として事前に計算することができる。
【0151】
これまでのところ、数学公式におけるアフィン変換Tの非変換部分が示されている。最適化の線形システムを構築するために、メッシュ頂点の数をNとし、三角形の数をFとすると、以下の4つの制約が考慮される。
【0152】
キーポイントの位置の制約:Ek=Σi=1||v’i-c’i||2,c’iは、メッシュ変形後の検出されたキーポイント位置を表す。
【0153】
隣接平滑度の制約:Es=Σi=1Σj∈adj(i)||Ti-Tj||2は、隣接する三角形間のアフィン変換が可能な限り類似しているべきであることを意味する。重複する計算を回避し、システムを構築するための性能を改善するために、隣接関係を事前に問い合わせて記憶することができる。
【0154】
特性の制約:Ei=Σi=1||Ti-I||2、ここでIは単位行列を表す。この制約は、アフィン変換が可能な限り変化しないように近くなければならないことを意味し、テンプレートメッシュの特性を維持するのに役立つ。
【0155】
元の位置の制約:El=Σi=1N||v’I-ci||2、ここでciは変形前のテンプレートメッシュ上の各頂点の位置を表す。
【0156】
最後の制約は、上記の制約の加重和である:minE=wkEk+wsEs+wiEi+wlEl、ここで、重みwk,ws,wi,wlは、最も強いものから最も弱いものまでランク付けされる。上記の制約を使用して、線形システムを最終的に構築することができ、そのサイズは(F+N)×(F+N)であり、重みはシステム内の対応する係数と乗算される。未知数は、各三角形の追加点v’4の他に、変形後の各頂点の座標である。前者の項は有用であるため、v’4の結果は破棄される。連続変形のプロセスでは、キーポイントの位置の制約を除くすべての制約行列を再利用することができる。アフィン変換は、数千の頂点を有するメッシュに関して、通常のパーソナルコンピュータおよびインテリジェント電話で30fpsのリアルタイム性能を達成することができる。
【0157】
図25は、本開示のいくつかの実施態様による、ブレンド形状プロセスの有無によるいくつかの頭部モデル変形結果の例示的な比較を示す図である。
【0158】
いくつかの実施形態では、ゲームアバターの頭部モデルを変形するとき、関心領域は通常、顔のみである。頭部および頸部の上部、背面は不変のままであるべきであり、そうでなければ、頭部と毛髪または胴体との間にメッシュ貫通が生じる可能性がある。この問題を回避するために、アフィン変形の結果およびテンプレートメッシュは、ブレンド形状の方法で線形補間される。ブレンドのための重みは、3Dモデリングソフトウェアでペイントするか、わずかな変更で重調和またはアフィン変形を用いて計算することができる。例えば、キーポイントの重みは1秒に設定され、一方、より多くのマーカ(
図25の2504の暗い点)が頭部モデルに追加され、それらの重みは0sに設定される。いくつかの実施形態では、0~1の範囲に入るすべての重みを強制するために、解くプロセスに不等式制約が追加されるが、そうすると、解くことの複雑さが大幅に増大する。実験を通して、0より小さいかまたは1より大きい重みを切り出すことによって良好な結果を得ることができる。
図25の2504に示すように、最も暗い色のモデル部分の重みは1sであり、無色のモデル部分の重みは0sである。曲げ重みレンダリング2504において、明るいキーポイントと暗いマーカとの間に自然な移行が存在する。ブレンド形状による場合、変形後のモデルの背面(
図25の2506に示す)は、元のものと同じままである(
図25の2502に示す)。ブレンド形状のない場合、変形後のモデルの背面(
図25の2508に示す)は、元のもの(
図25の2502に示す)と同じままではない。
【0159】
いくつかの実施形態では、アフィン変形は、重調和変形の結果をシミュレートすることを含む、制約条件の重みを操作することによって異なる変形効果を達成することができる。
図26は、本開示のいくつかの実施態様による、異なる重みおよび重調和変形によるアフィン変形の例示的な比較を示す図である。
図26に示すように、平滑度は、隣接平滑度重みw
sと特性重みw
iとの比である。暗い点はキーポイントであり、色の暗さは頂点の変形位置とその元の位置との間の変位を表す。すべての変形結果において、一方のキーポイントは不変のままであり、他方は同じ位置に移動する。これは、特性重みに対して隣接平滑度重みを徐々に増加させると、変形された球の平滑度もそれに応じて増加することを示している。また、重調和変形の結果は、滑らかさが10から100の間のどこかにあるアフィン変形の結果と一致することができる。これは、アフィン変形は、重調和変形と比較して変形の自由度が大きいことを示している。
【0160】
本明細書に記載のワークフローを使用して、ゲームは、頭部のアバターのインテリジェントな生成の機能を容易に統合することができる。例えば、
図27は、本開示のいくつかの実施態様による現実的なテンプレートモデルを使用して、いくつかのランダムに選択された女性画像(
図27には示されていない)から自動的に生成されたいくつかの例示的な結果を示す。すべての個人化された頭部アバターは、その対応する画像のいくつかの特性を反映する。
【0161】
図28は、本開示のいくつかの実施態様による、現実の人物の2D顔画像から3D頭部変形モデルを生成する例示的なプロセスを示すフローチャート2800である。
【0162】
2次元顔画像から3次元頭部変形モデルを生成するプロセスは、2次元(2D)顔画像を受信するステップ2810を含む。
【0163】
プロセスはまた、人工知能(AI)モデルに基づいて2次元顔画像内のキーポイントの第1のセットを識別するステップ2820を含む。
【0164】
プロセスは、3D頭部テンプレートモデル上に位置するユーザ提供のキーポイントアノテーションのセットに基づいて、キーポイントの第1のセットを、3D頭部テンプレートモデルのメッシュの複数の頂点に位置するキーポイントの第2のセットにマッピングするステップ2830をさらに含む。
【0165】
本プロセスは、キーポイントの第1のセットとキーポイントの第2のセットとの間の差を低減することによって、変形された3D頭部メッシュモデルを取得するために、3D頭部テンプレートモデルのメッシュに変形を実行するステップ2840をさらに含む。いくつかの実施形態では、第1のセット内のキーポイントと第2のセット内のキーポイントとの間に対応関係がある。キーポイントの第2のセットをキーポイントの第1のセットと同じ空間に投影した後に、キーポイントの第1のセットの各々とキーポイントの第2のセットとの間の位置差を測定する関数が生成される。3D頭部テンプレートモデルのメッシュに変形を行うことによって、キーポイントの第1のセットとキーポイントの第2のセットとの間の位置差(例えば、位置、隣接平滑性、特性など)を測定する関数が最小化されるときに、空間内のキーポイントの第2のセットが最適化される。
【0166】
このプロセスは、ブレンド形状法を変形された3D頭部メッシュモデルに適用して、2D顔画像に従って個人化された頭部モデルを取得するステップ2850をさらに含む。
【0167】
追加の実施態様は、以下の特徴のうちの1つまたは複数を含むことができる。
【0168】
いくつかの実施形態では、マッピングのステップ2830は、2D顔画像上のキーポイントの第1のセットを3D頭部テンプレートモデルのメッシュ上の複数の頂点に関連付けるステップと、3D頭部テンプレートモデルのメッシュ上の複数の頂点上のユーザ提供のキーポイントアノテーションのセットに基づいてキーポイントの第2のセットを識別するステップと、顔上のそれぞれのキーポイントによる対応する識別された特徴に基づいて、キーポイントの第1のセットおよびキーポイントの第2のセットをマッピングするステップと、をさらに含むことができる。
【0169】
いくつかの実施形態では、キーポイントの第2のセットは、以前に計算された偏差をユーザ提供のキーポイントアノテーションのセットに適用することによって配置される。いくつかの実施形態では、以前に計算された偏差は、3D頭部テンプレートモデルのAI識別キーポイントの以前のセットと、3D頭部テンプレートモデルのメッシュの複数の頂点上のユーザ提供キーポイントアノテーションの以前のセットとの間の偏差である。
【0170】
いくつかの実施形態では、変形を実行するステップ2840は、キーポイントの第1のセットのキーポイントの第2のセットへのマッピングを使用し、キーポイントの第1のセットに関する変形のための境界条件を使用することによって、3D頭部テンプレートモデルのメッシュを変形された3D頭部メッシュモデルに変形するステップを含むことができる。
【0171】
いくつかの実施形態では、変形を実行するステップ2840は、キーポイントの位置、隣接平滑度、特性、および元の位置のうちの1つまたは複数を含む変形最適化のプロセスに異なる制約を適用するステップをさらに含むことができる。
【0172】
いくつかの実施形態では、変形を実行するステップ2840は、キーポイントの位置、隣接平滑度、特性、および元の位置のうちの1つまたは複数の加重和である変形のプロセスに制約を適用するステップをさらに含むことができる。
【0173】
いくつかの実施形態では、キーポイントの第1のセットを識別するステップ2820は、畳み込みニューラルネットワーク(CNN)を使用するステップを含む。
【0174】
いくつかの実施形態では、変形は、ラプラシアン演算子なしのアフィン変形を含む。いくつかの実施形態では、アフィン変形は、平滑性パラメータを変更することによって変形調整を達成する。
【0175】
いくつかの実施形態では、3D頭部テンプレートモデルのメッシュは、ボーンと結合することなく変形することができる。いくつかの実施形態では、顔変形モデルは、現実的なスタイルモデルまたは漫画スタイルモデルを含む。
【0176】
いくつかの実施形態では、ステップ2850において、ブレンド形状法を変形された3D頭部メッシュモデルに適用するステップは、キーポイントの位置に従って、変形された3D頭部メッシュモデルのキーポイント上のそれぞれのブレンド重みを指定するステップと、異なるブレンド重みでキーポイントに異なるレベルの変形を適用するステップと、を含む。
【0177】
いくつかの実施形態では、ステップ2850において、変形された3D頭部メッシュモデルにブレンド形状法を適用するステップは、変形された3D頭部メッシュモデルの背面を、変形前の3D頭部テンプレートモデルの元の背面形状と同じ形状に保つステップを含む。
【0178】
いくつかの実施形態では、テンプレートモデル上のセマンティック部分は、目、まつ毛、または歯に限定されない。眼鏡などの装飾は、潜在的に、顔メッシュ上の新しいキーポイントを追加および追跡することによって適応的に調整することができる。
【0179】
いくつかの実施形態では、テンプレートモデル上のキーポイントは手動で追加される。いくつかの他の実施形態では、深層学習技術を利用して、異なるテンプレートモデルのキーポイントを自動的に追加することもできる。
【0180】
いくつかの実施形態では、アフィン変形の解決手順は、その計算性能をさらに改善するためにいくつかの数値トリックを利用することができる。
【0181】
いくつかの実施形態では、本明細書に開示するシステムおよび方法は、以下に列挙されるものなどの多くの利点を有する光重み付きキーポイントベースの顔アバター生成システムを形成する。
【0182】
入力画像の要件が低い。システムおよび方法は、顔がカメラに直接面することを必要とせず、ある程度の面内回転、面外回転、およびオクルージョンは明らかに性能に影響を与えない。
【0183】
リアルなゲームとアニメのゲームの両方に適用可能。本システムは、ゲームスタイルをリアルなものに限定するものではなく、漫画スタイルにも適用することができる。
【0184】
ライトウェイトでカスタマイズされている。本システムの各モジュールは比較的ライトウェイトであり、モバイルデバイスに適している。このシステムのモジュールは分離されており、ユーザは、最終的な顔生成システムを構築するために、異なるゲームスタイルに従って異なる組み合わせを採用することができる。
【0185】
いくつかの実施形態では、所与の単一の写真に対して、主要な顔が最初に検出され、キーポイント検出が実行される。実際の画像では、顔はカメラに面していない場合があり、実際の顔は常に完全に対称的であるとは限らない。したがって、元の画像内のキーポイントは、統一された対称的で滑らかなキーポイントのセットを達成するために前処理される。次に、キーポイントは、拡大された目および細い顔などのゲームの特定のスタイルに従って調整される。様式化されたキーポイントを取得した後に、様式化されたキーポイントは、ゲームにおける顔モデルの制御パラメータ、一般にボーンパラメータまたはスライダパラメータに変換される。
【0186】
いくつかの実施形態では、実際の顔の視野角はカメラに直接面していない可能性があり、左右非対称やキーポイント検出エラーなどの問題が存在する可能性がある。
図29は、本開示のいくつかの実施態様による、例示的なキーポイント処理のフローステップを示す図である。元の画像2904から検出されたキーポイントは、直接使用することはできず、特定の処理が必要である。ここで、プロセスは、
図29に示すように、正規化、対称性、および平滑化の3つのステップに分割される。
【0187】
いくつかの実施形態では、実際の顔のキーポイントの予測に基づくゲーム内の標準顔モデルを調整する必要がある。プロセスは、ゲーム内の標準顔モデルのキーポイントと実際の顔とがスケール、位置、および方向に関して位置合わせされることを保証する必要がある。したがって、予測されたキーポイントおよびゲーム顔モデル上のキーポイントの正規化2906は、以下の部分、すなわち、スケールの正規化、平行移動の正規化、および角度の正規化を含む。
【0188】
いくつかの実施形態では、元の検出のすべての3次元顔キーポイントはpとして定義され、第iのキーポイントはp
i={x
i,y
i,z
i}である。例えば、正規化された原点は、(
図1のキーポイントの定義を参照して)キーポイントNo.1およびNo.17の中点、すなわちc=(p
1+p
17)/2として定義される。スケールの場合、原点から1番目と17番目のキーポイント間の距離は1に調整され、その結果、スケールおよび並進によって正規化された3次元キーポイントは、p’=(p-c)/||p
1-c||である。
【0189】
いくつかの実施形態では、スケールおよび並進を正規化した後に、顔の方向がさらに正規化される。
図29の画像2902に示すように、実際の写真の顔はレンズに直接面していなくてもよく、常に一定の偏向があり、これは3つの座標軸に存在してもよい。x、y、およびz座標軸に沿った顔の予測された3次元キーポイントは、顔の方向がカメラに向くように順次回転される。xに沿って回転するとき、キーポイント18および24のz座標(
図1のキーポイントの定義を参照)は位置合わせされ、すなわち、回転行列R
Xを取得するために、鼻梁の最上部の深度を鼻の底部と同じ深度にする。y軸に沿って回転するとき、キーポイント1および17のz座標は、回転行列R
Yを取得するように位置合わせされる。z軸に沿って回転するとき、キーポイント1および17のy座標は、回転行列R
Zを得るために位置合わせされる。したがって、キーポイントの方向は位置合わせされ、正規化されたキーポイントは以下のように示す。
P
norm=R
Z×R
Y×R
X×P’
【0190】
いくつかの実施形態では、正規化されたキーポイントのスケール、位置、および角度は均一になるように調整されているが、取得されたキーポイントはしばしば完全な顔ではない。例えば、鼻梁は中央の直線ではなく、顔特徴は対称的でなくてもよい。これは、写真内の実際の顔が、表情またはそれ自体の特性のために完全に対称的ではなく、キーポイントを予測するときに追加のエラーが導入されるためである。実際の顔は対称的ではない場合があるが、ゲーム内の顔モデルが対称的でない場合、見栄えが悪くなり、ユーザ体験が大幅に低下する。したがって、2908に示すようなキーポイントの対称性は必要なプロセスである。
【0191】
キーポイントは正規化されているので、いくつかの実施形態では、単純な対称方法は、すべての左右対称キーポイントのy座標およびz座標を平均して、元のy座標およびz座標を置き換えることである。この方法はほとんどの場合にうまく機能するが、顔がy軸方向に大きな角度で回転すると、性能が犠牲になる。
【0192】
いくつかの実施形態では、例として
図29の人間の顔を使用すると、顔が大きな角度だけ左に偏向されると、眉毛の部分が見えなくなる。同時に、左眼は遠近感のために右眼よりも小さくなる。3Dキーポイントは、遠近関係によって引き起こされる影響を部分的に補償することができるが、キーポイントに対応する3Dキーポイントの2D投影は、依然として画像上に保持される必要がある。したがって、過度に大きい角度偏向は、3Dキーポイント検出結果における目および眉毛のサイズの明らかな違いをもたらす。角度による影響に対処するために、y軸に沿った顔の偏向角度が大きい場合、レンズに近い目および眉毛を主要な目および主要な眉毛として使用し、それらを反対側にコピーして角度偏向による誤差を低減する。
【0193】
いくつかの実施形態では、キーポイントの予測誤差は不可避であるため、いくつかの個々の事例では、対称化されたキーポイントは、依然として実際の顔と一致しない場合がある。実際の顔および顔特徴の形状は非常に異なるため、所定のパラメータ化された曲線を使用して比較的正確な記述を達成することは困難である。したがって、2910に示すように平滑化する場合、一部の領域、例えば顔、目、眉毛、下唇などの輪郭のみが平滑化される。これらの領域は、基本的に単調で滑らかな状態を維持する、すなわちギザギザした状態はない。この場合、目標曲線は常に凸曲線または凹曲線でなければならない。
【0194】
いくつかの実施形態では、キーポイントが凸状曲線(または凹状曲線)の定義を満たすかどうかは、関連する境界について1つずつチェックされる。
図30は、本開示のいくつかの実施態様による例示的なキーポイント平滑化プロセス2910を示す図である。
図30に示すように、一般性を失うことなく、目標曲線は凸状であるべきである。各キーポイント3002、3004、3006、3008、および3010について、その位置がその隣接する左右のキーポイントの線の上にあるかどうかがチェックされる。条件が満たされる場合、それは現在のキーポイントが凸状曲線要件を満たすことを意味する。そうでない場合、現在のキーポイントは、左右のキーポイントを結ぶ線まで移動される。例えば、
図30では、キーポイント3006は凸状曲線の限界を満たしておらず、位置3012に移動される。複数のキーポイントが移動される場合には、曲線は、移動後に凸状または凹状であることが保証されない場合がある。したがって、いくつかの実施形態では、比較的滑らかなキーポイント曲線を得るために複数回の平滑化が使用される。
【0195】
異なるゲームは異なる顔スタイルを有する。いくつかの実施形態では、実際の顔のキーポイントは、ゲームに必要なスタイルに変換される必要がある。リアルなスタイルのゲーム顔は似ているが、漫画の顔は非常に異なる。したがって、キーポイントの様式化について均一な標準を有することは困難である。実際の使用における様式化の定義は、特定のゲームスタイルに従って顔の特性を調整するゲームの設計者に由来する。
【0196】
いくつかの実施形態では、ほとんどのゲームが必要とし得るより一般的な顔調整スキームが実装される。例えば、顔の長さの調整、幅の調整、顔特徴など異なるゲームアートスタイル、調整レベル、ズーム比などに応じて、カスタム補正を行うことができる。同時に、ユーザは、例えば目の形状を長方形に変更するなど、任意の特別なスタイル調整方法をカスタマイズすることもできる。システムは、任意の調整方法をサポートすることができる。
【0197】
いくつかの実施形態では、様式化された顔のキーポイントを用いて、標準ゲーム顔は、変形された顔のキーポイントが目標キーポイントの位置に達するように変形される。ほとんどのゲームは、顔を調整するためにボーンまたはスライダなどの制御パラメータを使用するので、キーポイントを目標位置に移動させるために制御パラメータのセットが必要である。
【0198】
異なるゲームにおけるボーンまたはスライダの定義は変化する可能性があり、いつでも修正の可能性があるため、キーポイントからボーンパラメータまでの単純なパラメータ化された関数を直接定義することは実現不可能である。いくつかの実施形態では、機械学習方法を使用して、K2P(キーポイント・ツー・パラメータ)ネットワークと呼ばれるニューラルネットワークを介してキーポイントをパラメータに変換する。一般的なパラメータおよびキーポイントの数は大きくない(一般に100未満)ので、いくつかの実施形態では、K層完全接続ネットワークが使用される。
【0199】
図31は、本開示のいくつかの実施態様による、例示的なキーポイントから制御パラメータ(K2P)への変換プロセスを示すブロック図である。機械学習方法を使用するために、いくつかの実施形態では、最初にボーンまたはスライダパラメータがランダムにサンプリングされ、ゲームクライアント3110に供給され、生成されたゲーム顔でキーポイントが抽出される。このようにして、多くの訓練データを取得することができる(パラメータ3112およびキーポイント3114のペア)。次に、自己教師付き機械学習方法が実施され、これは2つのステップに分割され、第1のステップは、P2K(パラメータ・ツー・キーポイント)ネットワーク3116を訓練して、キーポイントへのるゲームパラメータを生成するプロセスをシミュレートすることである。第2のステップでは、本明細書に記載の方法に従って、多数のラベルなし実顔画像3102を使用して実顔キーポイント3104を生成し、次いで多数の様式化されたキーポイント3106を生成する。これらのラベル化されていない様式化されたキーポイント3106は、自己教師付き学習訓練データである。いくつかの実施形態では、キーポイントKのセットは、出力パラメータPを取得するために学習のためにK2Pネットワーク3108に入力される。これらのキーポイントに対応する理想的なパラメータのグラウンドトゥルースは利用できないので、Pは、キーポイントK’を取得するために第1のステップで訓練されたP2Kネットワーク3116にさらに入力される。いくつかの実施形態では、KとK’との間の平均二乗誤差(MSE)損失を計算することによって、K2Pネットワーク3108を学習することができる。いくつかの実施形態では、第2のステップの間、P2Kネットワーク3116は固定され、調整され続けることはない。P2Kネットワーク3116の助けを借りて、ゲームクライアント3110のパラメータをキーポイントに制御するプロセスは、ニューラルネットワークを使用してシミュレートされ、したがって第2のステップにおけるK2Pネットワーク3108の学習の基礎を構築する。このようにして、パラメータによって生成された最終顔は、生成された目標の様式化された顔のキーポイントに近いままである。
【0200】
いくつかの実施形態では、同時に、KとK’との間のMSE損失を計算するときに対応する重みを調整することによって、眼のキーポイントなどの特定のキーポイントへの重みが追加される。キーポイントの定義は事前定義されており、ゲームクライアントのボーンまたはスライダの影響を受けないので、重みを調整することはより容易である。
【0201】
いくつかの実施形態では、実際の用途では、モデルの精度を改善するために、分離することができる部分について、ニューラルネットワークを別々に訓練することができる。例えば、一部のボーンパラメータが目領域のキーポイントのみに影響を及ぼし、他のパラメータがこの領域に影響を及ぼさない場合、これらのパラメータおよびキーポイントのこの部分は独立した領域のセットを形成する。別個のK2Pモデル3108は、そのような領域の各グループについて訓練され、各モデルは、よりライトウェイトなネットワーク設計を採用することができる。これは、モデルの精度をさらに向上させることができるだけでなく、計算の複雑さを低減することもできる。
【0202】
図32は、本開示のいくつかの実施態様による、モバイルゲームの自動顔生成のいくつかの例示的な結果を示す。
図32に示すように、元の顔画像(3202および3206)からゲーム顔アバター画像生成(3204および3208)までの結果が示されている。いくつかの実施形態では、様式化するとき、開いた口は閉じられ、鼻、口、顔の形状、目、および眉毛に異なるレベルの制限および漫画化が適用される。最終的に生成された結果は、依然として特定の人間の顔の特性を保持し、ゲームスタイルの審美的要件を満たす。
【0203】
図33は、本開示のいくつかの実施態様による、現実の人物の2D顔画像を使用してゲーム内のアバターの標準顔をカスタマイズする例示的なプロセスを示すフローチャート3300である。
【0204】
現実の人物の2次元顔画像を使用してゲーム内のアバターの標準顔をカスタマイズするプロセスは、2次元顔画像内の対象キーポイントのセットを識別するステップ3310を含む。上述したように、対象は、現実の人物または仮想世界の仮想キャラクタとすることができる。
【0205】
プロセスはまた、対象キーポイントのセットをゲーム内のアバターに関連付けられたアバターキーポイントのセットに変換するステップ3320を含む。
【0206】
プロセスは、アバターキーポイントのセットにキーポイント・ツー・パラメータ(K2P)ニューラル・ネットワーク・モデルを適用することによってアバターの標準顔の顔制御パラメータのセットを生成するステップ3330をさらに含み、顔制御パラメータのセットは、それぞれ標準顔の複数の顔特徴のうちの1つに関連する。
図31に関連して上述したように、K2Pネットワーク3108は、顔制御パラメータのセットがアバターの標準顔に適用される場合、調整された標準顔のキーポイントが入力アバターキーポイントのセットと同様のキーポイントのセットを有することができるように、アバターキーポイントの異なるセットが顔制御パラメータの異なるセットに対応することができるため、入力アバターキーポイントのセットに基づいて顔制御パラメータのセットを予測する深層学習ニューラル・ネットワーク・モデルである。
【0207】
このプロセスは、顔制御パラメータのセットを標準顔に適用することによって、標準顔の複数の顔特徴を調整するステップ3340をさらに含む。
【0208】
追加の実施態様は、以下の特徴のうちの1つまたは複数を含むことができる。
【0209】
いくつかの実施形態では、ステップ3330において、K2Pニューラル・ネットワーク・モデルは、現実の人物の複数の訓練2D顔画像を取得し、複数の訓練2D顔画像の各々についての訓練ゲームスタイルまたはアバターのキーポイントのセットを生成し、顔制御パラメータのセットを取得するために、訓練ゲームスタイルまたはアバターのキーポイントの各セットをK2Pニューラル・ネットワーク・モデルに提示し、訓練ゲームスタイルまたはアバターのキーポイントのセットに対応する予測されたゲームスタイルまたはアバターのキーポイントのセットを取得するために、顔制御パラメータのセットを事前訓練されたパラメータ・ツー・キーポイント(P2K)ニューラル・ネットワーク・モデルに提示し、訓練ゲームスタイルまたはアバターのキーポイントのセットと対応する予測されたゲームスタイルまたはアバターのキーポイントのセットとの間の差を低減することにより、K2Pニューラル・ネットワーク・モデルを更新することによって訓練される。
図31に関連して上述したように、K2Pネットワーク3108とは反対に、P2Kネットワーク3116は、入力顔制御パラメータのセットに基づいてアバターキーポイントのセットを予測する深層学習ニューラル・ネットワーク・モデルであり、それは、2つのニューラル・ネットワーク・モデルが互いに逆のプロセスを実行すると見なされる場合、P2Kネットワーク3116に関連付けられた出力アバターキーポイントのセットが、K2Pネットワーク3108に関連付けられた入力アバターキーポイントのセットと一致するように、顔制御パラメータの異なるセットがアバターキーポイントの異なるセットを生じさせ得るからである。
【0210】
いくつかの実施形態では、事前訓練されたP2Kニューラル・ネットワーク・モデルは、ゲーム内のアバターに関連付けられたボーンまたはスライダパラメータを含む制御パラメータのセットを受信し、制御パラメータのセットに従ってゲームにおけるアバターのためのゲームスタイルのキーポイントのセットを予測するように構成される。
【0211】
いくつかの実施形態では、訓練ゲームスタイルのキーポイントのセットと対応する予測ゲームスタイルのキーポイントのセットとの間の差は、訓練ゲームスタイルのキーポイントのセットと対応する予測されたゲームスタイルのキーポイントのセットとの間の平均二乗誤差の和である。
【0212】
いくつかの実施形態では、訓練されたK2Pおよび事前訓練されたP2Kニューラル・ネットワーク・モデルは、ゲームに固有のものである。
【0213】
いくつかの実施形態では、2D顔画像内の現実のキーポイントのセットは、2D顔画像内の現実の人物の顔特徴に対応する。
【0214】
いくつかの実施形態では、ゲーム内のアバターの標準顔は、異なる現実の人物の顔画像に従ってゲームの異なるキャラクタにカスタマイズすることができる。
【0215】
いくつかの実施形態では、アバターの変形した顔は、現実の人物の漫画スタイルの顔である。いくつかの実施形態では、アバターの変形した顔は、現実の人の現実の顔である。
【0216】
いくつかの実施形態では、ステップ3320において、現実のキーポイントのセットをゲームスタイルのキーポイントのセットに変換するステップは、現実のキーポイントのセットを正準空間に正規化するステップと、現実のキーポイントの正規化されたセットを対称化するステップと、ゲーム内のアバターに関連付けられた所定のスタイルに従って、対称化された現実のキーポイントのセットを調整するステップと、を含む。
【0217】
いくつかの実施形態では、現実のキーポイントのセットを正準空間に正規化するステップは、現実のキーポイントのセットを正準空間にスケーリングするステップと、2D顔画像内の現実のキーポイントのセットの向きに従って、スケーリングされた現実のキーポイントのセットを回転させるステップと、を含む。
【0218】
いくつかの実施形態では、現実のキーポイントのセットをゲームスタイルのキーポイントのセットに変換するステップは、所定の凸状または凹状の曲線要件を満たすように対称化されたキーポイントのセットを平滑化するステップをさらに含む。
【0219】
いくつかの実施形態では、ゲーム内のアバターに関連付けられた所定のスタイルに従って対称化された現実のキーポイントのセットを調整するステップは、顔の長さの調整、顔の幅の調整、顔特徴の調整、ズームの調整、および目の形状の調整のうちの1つまたは複数を含む。
【0220】
本明細書で開示されるシステムおよび方法は、現実のスタイルのゲームと漫画のスタイルのゲームの両方のための様々なゲームのための自動顔生成システムに適用することができる。システムは、組み込まれるのが容易なインターフェースを有し、ユーザ体験を向上させる。
【0221】
いくつかの実施形態では、本明細書に開示するシステムおよび方法は、様々なゲーム用の3D顔アバター生成システムで使用することができ、複雑な手動調整プロセスは、ユーザ体験を改善するために自動化される。ユーザは、自撮り写真をとるか、または既存の写真をアップロードすることができる。システムは、写真の顔から特徴を抽出し、次いで、AI顔生成システムを介してゲーム顔の制御パラメータ(ボーンまたはスライダなど)を自動的に生成することができる。ゲームエンドは、作成された顔がユーザの顔特徴を有するように、これらのパラメータを使用して顔アバターを生成する。
【0222】
いくつかの実施形態では、このシステムは、キーポイント定義、様式化方法、スケルトン/スライダの定義などを含む様々なゲームに従って容易にカスタマイズすることができる。ユーザは、特定のパラメータのみを調整すること、モデルを自動的に再訓練すること、またはカスタム制御アルゴリズムを追加することを選択することができる。このようにして、本発明は、異なるゲームに容易に展開することができる。
【0223】
さらなる実施形態はまた、様々な他の実施形態において組み合わされるか、そうでなければ再構成される上記の実施形態の様々なサブセットを含む。
【0224】
ここで、添付の図面の説明を参照して、本出願の実施形態の画像処理装置が実施される。画像処理装置は、様々な形態、例えば、サーバまたは端末(例えば、デスクトップコンピュータ、ノートブックコンピュータ、またはスマートフォン)などの異なるタイプのコンピュータデバイスで実現されてもよい。以下、本出願の実施形態の画像処理装置のハードウェア構造についてさらに説明する。
図34は、画像処理装置のすべての構造ではなく例示的な構造を示しているにすぎず、
図34に示す部分的または全体的な構造は、要件に従って実装されてもよいことが理解されよう。
【0225】
図34を参照すると、
図34は、本出願の一実施形態による画像処理装置の任意選択のハードウェア構造の概略図であり、実際のアプリケーションでは、アプリケーションプログラムを実行するサーバまたは様々な端末に適用することができる。
図34に示す画像処理装置3400は、少なくとも1つのプロセッサ3401と、メモリ3402と、ユーザインターフェース3403と、少なくとも1つのネットワークインターフェース3404と、を含む。画像処理装置3400内の構成要素は、バスシステム3405によって互いに結合される。バス3405は、構成要素間の接続および通信を実施するように構成されることが理解されよう。バスシステム3405は、データバスを含むことに加えて、電力バス、制御バス、およびステータス信号バスをさらに含むことができる。しかしながら、明確な説明のために、
図34ではすべてのバスがバスシステム3405として記されている。
【0226】
ユーザインターフェース3403は、ディスプレイ、キーボード、マウス、トラックボール、クリックホイール、キー、ボタン、タッチパッド、タッチスクリーンなどを含むことができる。
【0227】
メモリ3402は、揮発性メモリまたは不揮発性メモリであってもよく、揮発性メモリと不揮発性メモリの両方を含んでもよいことが理解されよう。
【0228】
本出願の実施形態におけるメモリ3402は、画像処理装置3400の動作をサポートするために異なるタイプのデータを記憶するように構成される。データの例は、画像処理装置3400上で動作を実行するために使用される実行可能プログラム34021およびオペレーティングシステム34022などの任意のコンピュータプログラムを含み、本出願の実施形態の画像処理方法を実行するために使用されるプログラムは、実行可能プログラム34021に含まれてもよい。
【0229】
本出願の実施形態で開示される画像処理方法は、プロセッサ3401に適用されてもよいし、プロセッサ3401によって実行されてもよい。プロセッサ3401は、集積回路チップであってもよく、信号処理能力を有する。実装プロセスでは、画像処理方法の各ステップは、プロセッサ3401内のハードウェアの集積論理回路またはソフトウェア形態の命令を使用して完了され得る。前述のプロセッサ3401は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、別のプログラマブル論理デバイス、ディスクリートゲート、トランジスタ論理デバイス、ディスクリートハードウェアコンポーネントなどであってもよい。プロセッサ3401は、本出願の実施形態で提供される方法、ステップ、および論理ブロック図を実施または実行することができる。汎用プロセッサは、マイクロプロセッサ、任意の従来のプロセッサなどであってもよい。本出願の実施形態で提供される方法のステップは、ハードウェア復号プロセッサによって直接実行されてもよく、または復号プロセッサにおいてハードウェアモジュールとソフトウェアモジュールとを組み合わせることによって実行されてもよい。ソフトウェアモジュールは、記憶媒体に配置されてもよい。記憶媒体は、メモリ3402に配置される。プロセッサ3401は、メモリ3402内の情報を読み取り、その情報をそのハードウェアと組み合わせることによって、本出願の実施形態で提供される画像処理方法のステップを実行する。
【0230】
いくつかの実施形態では、画像処理ならびに3D顔および頭部形成は、サーバのグループまたはネットワーク上のクラウド上で達成することができる。
【0231】
1つまたは複数の例では、記載された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組み合わせで実施され得る。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体に記憶されるか、または1つもしくは複数命令またはコードとしてコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行されてもよい。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体、または例えば通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体を含むことができる。このようにして、コンピュータ可読媒体は、一般に、(1)非一時的である有形のコンピュータ可読記憶媒体、または(2)信号または搬送波などの通信媒体に対応することができる。データ記憶媒体は、本出願に記載された実施態様を実装するための命令、コード、および/またはデータ構造を取り出すために1つまたは複数のコンピュータまたは1つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であってもよい。コンピュータプログラム製品は、コンピュータ可読媒体を含むことができる。
【0232】
本明細書の実施態様の説明で使用される用語は、特定の実施態様を説明することのみを目的としており、特許請求の範囲を限定することを意図していない。実施態様および添付の特許請求の範囲の説明で使用されるように、単数形「a」、「an」および「the」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される。本明細書で使用される「および/または」という用語は、関連する列挙された項目のうちの1つまたは複数のありとあらゆる可能な組み合わせを指し、包含することも理解されよう。「含む(comprises)」および/または「含んでいる(comprising)」という用語は、本明細書で使用される場合、記載された特徴、要素、および/または構成要素の存在を特定するが、1つまたは複数の他の特徴、要素、構成要素、および/またはそれらのグループの存在または追加を排除するものではないことがさらに理解されよう。
【0233】
第1、第2などの用語は様々な要素を説明するために本明細書で使用され得るが、これらの要素はこれらの用語によって限定されるべきではないことも理解されよう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、実施態様の範囲から逸脱することなく、第1の電極を第2の電極と呼ぶことができ、同様に、第2の電極を第1の電極と呼ぶことができる。第1の電極および第2の電極は両方とも電極であるが、それらは同じ電極ではない。
【0234】
本出願の説明は、例示および説明の目的で提示されており、網羅的であること、または開示された形態の本発明に限定されることを意図するものではない。前述の説明および関連する図面に提示された教示の利益を有する当業者には、多くの修正、変形、および代替実施態様が明らかであろう。実施形態は、本発明の原理、実際の応用を最もよく説明し、他の当業者が様々な実施態様について本発明を理解し、想定される特定の用途に適した様々な修正を伴う基本原理および様々な実施態様を最もよく利用することを可能にするために選択および説明された。したがって、特許請求の範囲は、開示された実施態様の特定の例に限定されるものではなく、修正および他の実施態様は、添付の特許請求の範囲内に含まれることが意図されていることを理解されたい。
【符号の説明】
【0235】
1 キーポイント
17 キーポイント
18 キーポイント
24 キーポイント
77 キーポイント
78 キーポイント
81 キーポイント
82 キーポイント
202 入力画像
204 初期粗位置マップ
206 キーポイント
208 2次元(2D)キーポイントアノテーション
210 空間変換マッピング
212 変換された位置マップ
214 精密化プロセス
216 最終位置マップ
218 最終キーポイント
302 入力画像
304 初期粗位置マップ
306 キーポイント
308 2Dキーポイントアノテーション
310 空間変換マッピング
312 変換された位置マップ
402 円
404 円
406 円
408 円
502 画像
504 画像
506 画像
508 画像
510 画像
702 キーポイント
704 キーポイント
706 キーポイント
708 キーポイント
1000 フローチャート
1202 画像
1204 画像
1206 画像
1208 領域
1302 中央の眉毛領域
1402 領域
1404 円
1502 毛髪画素検出領域
1504 高さ縦線
1506 距離
1602 毛髪色抽出領域
1608 始点
1702 領域
1704 線
1706 線
1802 列
1804 列
1806 列
1900 フローチャート
2102 頭部テンプレートモデル
2104 目
2106 毛
2108 歯
2110 顔
2302 テンプレートモデル
2306 3次元(3D)キーポイント
2504 曲げ重みレンダリング
2800 フローチャート
2902 画像
2904 画像
2906 正規化
2910 キーポイント平滑化プロセス
3002 キーポイント
3004 キーポイント
3006 キーポイント
3008 キーポイント
3010 キーポイント
3012 位置
3102 実顔画像
3104 実顔キーポイント
3106 様式化されたキーポイント
3108 キーポイント・ツー・パラメータ(K2P)ネットワーク
3110 ゲームクライアント
3112 パラメータ
3114 キーポイント
3116 パラメータ・ツー・キーポイント(P2K)ネットワーク
3202 元の顔画像
3204 ゲーム顔アバター画像生成
3206 元の顔画像
3208 ゲーム顔アバター画像生成
3300 フローチャート
3400 画像処理装置
3401 プロセッサ
3402 メモリ
3403 ユーザインターフェース
3404 ネットワークインターフェース
3405 バスシステム
34021 実行可能プログラム
34022 オペレーティングシステム
【手続補正書】
【提出日】2023-08-07
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
対象の2次元(2D)顔画像を使用してアバターの標準顔をカスタマイズする方法であって、
前記2D顔画像内の対象キーポイントのセットを識別するステップと、
前記対象キーポイントのセットを前記アバターに関連付けられたアバターキーポイントのセットに変換するステップと、
前記アバターキーポイントのセットにキーポイント・ツー・パラメータ(K2P)ニューラル・ネットワーク・モデルを適用することにより、前記標準顔の顔制御パラメータのセットを生成するステップであって、前記顔制御パラメータのセットが、各々前記標準顔の複数の顔特徴のうちの1つに関連する、ステップと、
前記顔制御パラメータのセットを前記標準顔に適用することにより、前記標準顔の前記複数の顔特徴を調整するステップと、を含む、方法。
【請求項2】
前記K2Pニューラル・ネットワーク・モデルは、
対象の複数の訓練2D顔画像を取得し、
前記複数の訓練2D顔画像の各々について前記アバターに関連付けられた訓練アバターキーポイントのセットを生成し、
前記顔制御パラメータのセットを取得するために、訓練アバターキーポイントの各セットを前記K2Pニューラル・ネットワーク・モデルに提示し、
前記訓練アバターキーポイントのセットに対応する予測されたアバターキーポイントのセットを取得するために、前記顔制御パラメータのセットを事前訓練されたパラメータ・ツー・キーポイント(P2K)ニューラル・ネットワーク・モデルに提示し、
前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の差を低減することにより、前記K2Pニューラル・ネットワーク・モデルを更新することによって訓練される、請求項1に記載の方法。
【請求項3】
前記事前訓練されたP2Kニューラル・ネットワーク・モデルは、
前記アバターに関連付けられたボーンまたはスライダパラメータを含む顔制御パラメータのセットを受信し、
前記
顔制御パラメータのセットに従って前記アバターのアバターキーポイントのセットを予測するように構成される、請求項2に記載の方法。
【請求項4】
前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の前記差が、前記訓練アバターキーポイントのセットと前記対応する予測されたアバターキーポイントのセットとの間の平均二乗誤差の合計である、請求項3に記載の方法。
【請求項5】
前記訓練されたK2Pおよび前記事前訓練されたP2Kニューラル・ネットワーク・モデルがゲームに関連付けられる、請求項3に記載の方法。
【請求項6】
前記2D顔画像内の前記対象キーポイントのセットが、前記2D顔画像内の前記対象の前記顔特徴に対応する、請求項1に記載の方法。
【請求項7】
前記アバターの前記標準顔が、異なる対象の顔画像に従ってゲームの異なるキャラクタにカスタマイズされる、請求項1に記載の方法。
【請求項8】
前記アバターの前記調整された標準顔が、前記対象の漫画スタイルの顔である、請求項1に記載の方法。
【請求項9】
前記アバターの前記調整された標準顔が、前記対象のリアルなスタイルの顔である、請求項1に記載の方法。
【請求項10】
前記対象キーポイントのセットを前記アバターキーポイントのセットに変換する前記ステップは、
前記対象キーポイントのセットを正準空間に正規化するステップと、
前記正規化された対象キーポイントのセットを対称化するステップと、
前記アバターキーポイントのセットを取得するために、前記アバターに関連付けられた所定のスタイルに従って前記対称化された対象キーポイントのセットを調整するステップと、を含む、請求項1に記載の方法。
【請求項11】
前記対象キーポイントのセットを正準空間に正規化する前記ステップは、
前記対象キーポイントのセットを前記正準空間にスケーリングするステップと、
前記2D顔画像内の前記対象キーポイントのセットの向きに従って、前記スケーリングされた対象キーポイントのセットを回転させるステップと、を含む、請求項10に記載の方法。
【請求項12】
前記対象キーポイントのセットを前記アバターキーポイントのセットに変換する前記ステップは、所定の凸状または凹状の曲線要件を満たすように前記対称化された対象キーポイントのセットを平滑化するステップをさらに含む、請求項10に記載の方法。
【請求項13】
前記アバターに関連付けられた前記所定のスタイルに従って前記対称化された対象キーポイントのセットを調整するステップは、顔の長さ調整、顔の幅調整、顔の特徴調整、ズーム調整、および目の形状調整のうちの1つまたは複数を含む、請求項10に記載の方法。
【請求項14】
請求項1~13のいずれか一項に記載の方法を実行するように構成された電子装置。
【請求項15】
1つまたは複数の処理ユニットを有する電子装置によって実行されると、請求項1~13のいずれか一項に記載の方法を電子装置に実行させる複数の命令を含むプログラム。
【国際調査報告】