IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ビゴ テクノロジー ピーティーイー. リミテッドの特許一覧

特表2024-5019863次元顔再構築の方法、3次元顔再構築の装置、デバイスおよび記憶媒体
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-17
(54)【発明の名称】3次元顔再構築の方法、3次元顔再構築の装置、デバイスおよび記憶媒体
(51)【国際特許分類】
   G06T 1/00 20060101AFI20240110BHJP
【FI】
G06T1/00 340A
G06T1/00 500B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023539346
(86)(22)【出願日】2021-12-28
(85)【翻訳文提出日】2023-06-27
(86)【国際出願番号】 CN2021142012
(87)【国際公開番号】W WO2022143645
(87)【国際公開日】2022-07-07
(31)【優先権主張番号】202011583279.2
(32)【優先日】2020-12-28
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】320010240
【氏名又は名称】ビゴ テクノロジー ピーティーイー. リミテッド
【住所又は居所原語表記】30 PASIR PANJANG ROAD,#15-31A,MAPLETREE BUSINESS CITY,SINGAPORE 117440
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】▲張▼ 小▲偉▼
(72)【発明者】
【氏名】胡 ▲鍾▼元
(72)【発明者】
【氏名】▲劉▼ 更代
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057CA20
5B057CH20
5B057DA20
5B057DC30
(57)【要約】
3次元顔再構築の方法、3次元顔再構築の装置、デバイスおよび記憶媒体を開示する。当該方法は、予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータを推定したことに応答して、教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに現在の動画フレームを入力することにより、3次元顔再構築における現在の動画フレームの働的再構築パラメータを推定することと、定常状態再構築パラメータと働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、現在の動画フレームに対応する3次元顔を再構築することと、を含む。
【特許請求の範囲】
【請求項1】
予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータを推定したことに応答して、前記教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに前記現在の動画フレームを入力することにより、3次元顔再構築における前記現在の動画フレームの働的再構築パラメータを推定することと、
前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築することと、
を含む、
3次元顔再構築の方法。
【請求項2】
前記教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに前記現在の動画フレームを入力することにより、3次元顔再構築における前記現在の動画フレームの働的再構築パラメータを推定することの前に、
前記現在の動画フレームと同じ顔を有する関連動画フレームを前記教師ネットワークモデルに入力することにより、3次元顔再構築における前記関連動画フレームの総合再構築パラメータを推定し、前記総合再構築パラメータのうちの定常状態再構築パラメータを3次元顔再構築における前記現在の動画フレームの定常状態再構築パラメータとすることをさらに含む、
請求項1に記載の方法。
【請求項3】
前記関連動画フレームは、前記現在の動画フレームが位置する動画において前記現在の動画フレーム内の顔を有する最初の動画フレーム、または前記現在の動画フレームが位置する動画において前記現在の動画フレーム内の顔を有する最初のm個の動画フレームであり、mは目標の数を表す請求項2に記載の方法。
【請求項4】
前記関連動画フレームは、前記現在の動画フレームが位置する動画において前記現在の動画フレーム内の顔を有する最初のm個の動画フレームであり、mは目標の数を表し、
前記前記総合再構築パラメータのうちの定常状態再構築パラメータを3次元顔再構築における前記現在の動画フレームの定常状態再構築パラメータとすることは、
複数の関連動画フレームの総合再構築パラメータのうち、同じタイプの定常状態再構築パラメータをそれぞれ融合することにより、前記現在の動画フレームの定常状態再構築パラメータを得ることを含む、
請求項2に記載の方法。
【請求項5】
前記生徒ネットワークモデルは、前記教師ネットワークモデルに対して以下のステップで蒸留を行なった後に得られ、
動画訓練セットにおいて同じ顔を有する動画フレーム訓練ペアにおける第1の動画フレームと第2の動画フレームを前記教師ネットワークモデルに入力することにより、3次元顔再構築における前記第1の動画フレームの第1の総合再構築パラメータと3次元顔再構築における前記第2の動画フレームの第2の総合再構築パラメータを推定し、
前記動画フレーム訓練ペアにおける第2の動画フレームを前記生徒ネットワークモデルに入力することにより、3次元顔再構築における前記第2の動画フレームの目標働的再構築パラメータを推定し、前記第1の総合再構築パラメータのうちの目標定常状態再構築パラメータと前記目標働的再構築パラメータを前記3次元モーファブルモデルに入力することにより、前記第2の動画フレームに対応する3次元顔を再構築し、
前記第2の総合再構築パラメータと前記目標働的再構築パラメータとの間の第1の損失関数、および前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームとの間の予め設定された2次元監督項における第2の損失関数を計算し、前記第1の損失関数と前記第2の損失関数のうちの各前記損失関数に対応する重みを調整し、
各前記損失関数及び対応する重みに基づいて対応するフィッティング損失関数を生成し、前記フィッティング損失関数を用いて前記生徒ネットワークモデルを逆補正することにより、前記生徒ネットワークモデルを訓練する、
請求項1に記載の方法。
【請求項6】
前記予め設定された2次元監督項における第2の損失関数は、画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数、およびアルベドペナルティ関数を含む請求項5に記載の方法。
【請求項7】
前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームとの間の画像画素損失関数を計算する場合、
前記第2の動画フレームから対応する皮膚マスクを分割することをさらに含み、
前記前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームとの間の画像画素損失関数を計算することは、
前記皮膚マスクに基づいて、前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームにおいて顔皮膚領域内にある同一画素点の画素誤差を計算することにより、対応する画像画素損失関数を得ることを含む、
請求項6に記載の方法。
【請求項8】
前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームとの間のキーポイント損失関数を計算する場合、
前記第2の動画フレームからプリセット位置におけるキー特徴点を抽出し、各前記キー特徴点の可視性を確定することをさらに含み、
前記前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームとの間のキーポイント損失関数を計算することは、
前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームとの間の各目に見えるキー特徴点の位置再構築誤差を計算することにより、対応するキーポイント損失関数を得ることを含む、
請求項6に記載の方法。
【請求項9】
前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームとの間のアイデンティティ特徴損失関数を計算する場合、
前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームのそれぞれを予め構築された顔認識モデルに入力することにより、前記第2の動画フレームの第1のアイデンティティ特徴、および前記第2の動画フレームに対応する3次元顔の第2のアイデンティティ特徴を得ることをさらに含み、
前記前記第2の動画フレームに対応する3次元顔と前記第2の動画フレームとの間のアイデンティティ特徴損失関数を計算することは、
前記第1のアイデンティティ特徴と前記第2のアイデンティティ特徴との類似度に基づいて、対応するアイデンティティ特徴損失関数を計算することを含む、
請求項6に記載の方法。
【請求項10】
前記第2の動画フレームに対応する3次元顔のアルベドペナルティ関数を計算する場合、
前記第2の動画フレームに対応する3次元顔における各メッシュ頂点のアルベドを計算することをさらに含み、
前記前記第2の動画フレームに対応する3次元顔のアルベドペナルティ関数を計算することは、
前記3次元顔における各メッシュ頂点のアルベドとプリセットアルベド区間とに基づいて、対応するアルベドペナルティ関数を計算することを含む、
請求項6に記載の方法。
【請求項11】
前記3次元モーファブルモデルは、双線形顔モデルと主成分分析PCAモデルで構成され、前記双線形顔モデルには、3次元顔のコアテンソルが定義され、前記コアテンソルは、3次元顔のメッシュ頂点、顔外形及び顔表情の3つの次元で構成され、
前記PCAモデルには、顔平均アルベド及び顔アルベド変化を表す主成分基底が定義され、
前記前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築することは、
前記定常状態再構築パラメータのうち顔の形変化を表す再構築パラメータと前記働的再構築パラメータのうち顔の表情変化を表す再構築パラメータを前記双線形顔モデルに入力し、前記コアテンソルを調整することにより、対応する3次元変形顔を得ることと、
前記3次元変形顔および前記定常状態再構築パラメータと前記働的再構築パラメータのうち前記PCAモデルにおける主成分基底に合致する再構築パラメータを前記PCAモデルに入力し、前記顔平均アルベドに基づいて前記3次元変形顔に対してアルベド修正を行うことにより、再構築後の3次元顔を得ることと、
を含む、
請求項1に記載の方法。
【請求項12】
前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築することの前に、
多次元データソースにおける3次元顔スキャンデータを収集し、顔外形次元と顔表情次元で前記3次元顔スキャンデータが再構築された後の3次元顔に対して高次特異値分解を行うことにより、対応するコアテンソルを得ることをさらに含む、
請求項11に記載の方法。
【請求項13】
前記3次元モーファブルモデルには、顔の光照射変化を表す光照射パラメータ、顔の移動を表す位置パラメータおよび顔頭部の姿勢を表す回転パラメータも定義されている請求項11に記載の方法。
【請求項14】
前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築することの後、
微分可能レンダラーを使用して前記現在の動画フレームに対応する3次元顔をレンダリングすることをさらに含む、
請求項1から13のいずれか1項に記載の方法。
【請求項15】
予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータが推定されていないことに応答して、前記現在の動画フレームを前記教師ネットワークモデルに入力することにより、3次元顔再構築における前記現在の動画フレームの総合再構築パラメータを推定し、3次元顔再構築における前記現在の動画フレームの総合再構築パラメータを前記3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築することをさらに含む請求項1から13のいずれか1項に記載の方法。
【請求項16】
予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータを推定したことに応答して、前記教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに前記現在の動画フレームを入力することにより、3次元顔再構築における前記現在の動画フレームの働的再構築パラメータを推定するように構成される再構築パラメータ推定モジュールと、
前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築するように構成される3次元顔再構築モジュールと、
を含む、
3次元顔再構築の装置。
【請求項17】
1つ以上のプロセッサと、
1つ以上のプログラムを記憶するように構成される記憶装置と、
を含み、
前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行される際に、前記1つ以上のプロセッサに請求項1から15のいずれか1項に記載の3次元顔再構築の方法を実現させる、
コンピュータデバイス。
【請求項18】
コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される際に、請求項1から15のいずれか1項に記載の3次元顔再構築の方法を実現するコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2020年12月28日に中国特許庁に提出された出願番号202011583279.2の中国特許出願の優先権を主張し、その全ての内容は参照により本出願に援用する。
【0002】
本出願の実施例は、画像処理技術の分野に関し、例えば3次元顔再構築の方法、3次元顔再構築の装置、デバイスおよび記憶媒体に関するものである。
【背景技術】
【0003】
動画技術の発展に伴い、顔画像表示のニーズがある顔アニメーション、顔認識や拡張現実(Augmented Reality、AR)などのエンターテインメントアプリケーションにおいてリアルな顔モデルの作成に対するニーズもますます高まっている。同じ顔が録画された動画では、通常、異なる動画フレームに複数の表情が存在するため、3次元顔再構築の際に、再構築後の3次元顔に対応する表情を配置し、3次元顔再構築のリアルさを高めるために、各動画フレームにおける顔表情を追跡する必要がある。
【0004】
あるユーザによって録画された動画における各動画フレーム内の3次元顔再構築について、通常、各動画フレームを独立した顔画像とし、予め構築されたニューラルネットワークモデルを用いて、各動画フレームが3次元顔を再構築する際に参照する必要がある再構築パラメータをそれぞれ予測し、さらに当該再構築パラメータを用いて各動画フレームに対して3次元顔再構築を行う。この場合、動画フレーム間の連続性のため、隣接する動画フレームの下で予測された再構築パラメータが不安定になると、再構築された3次元顔にジッタが発生し、そして各動画フレームにおける再構築パラメータの予測が、同じ顔に向けた再構築パラメータの予測であるため、各動画フレームに対して再構築パラメータを予測する際に、不要な予測計算量が増加し、3次元顔再構築の効率化に影響を与える。
【発明の概要】
【課題を解決するための手段】
【0005】
本出願の実施例では、3次元顔再構築の方法、3次元顔再構築の装置、デバイスおよび記憶媒体を開示する。
【0006】
第1の側面において、本出願の実施例は、3次元顔再構築の方法に関し、当該方法は、
予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータを推定したことに応答して、前記教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに前記現在の動画フレームを入力することにより、3次元顔再構築における前記現在の動画フレームの働的再構築パラメータを推定することと、
前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築することと、
を含む。
【0007】
第2の側面において、本出願の実施例は、3次元顔再構築の装置に関し、当該装置は、
予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータを推定したことに応答して、前記教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに前記現在の動画フレームを入力することにより、3次元顔再構築における前記現在の動画フレームの働的再構築パラメータを推定するように構成される再構築パラメータ推定モジュールと、
前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築するように構成される3次元顔再構築モジュールと、
を含む。
【0008】
第3の側面において、本出願の実施例は、コンピュータデバイスに関し、当該コンピュータデバイスは、
1つ以上のプロセッサと、
1つ以上のプログラムを記憶するように構成される記憶装置と、
を含み、
前記1つ以上のプログラムが前記1つ以上のプロセッサによって実行される際に、前記1つ以上のプロセッサに本出願の任意の実施例に記載された3次元顔再構築の方法を実現させる。
【0009】
第4の側面において、本出願の実施例は、コンピュータ可読記憶媒体に関し、前記コンピュータ可読記憶媒体にコンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行される際に、本出願の任意の実施例に記載された3次元顔再構築の方法を実現する。
【0010】
以下の図面を参照して行った非限定的な実施例の説明を読むことにより、本出願の実施例の他の特徴、目的、および利点がより明らかになるであろう。
【図面の簡単な説明】
【0011】
図1A】本出願の実施例1による3次元顔再構築の方法のフローチャートである。
図1B】本出願の実施例1による3次元顔再構築プロセスの概略図である。
図1C】本出願の実施例1による方法における3次元顔再構築のための3次元モーファブルモデルの構造概略図である。
図1D】本出願の実施例1による方法における3次元モーファブルモデルにおける双線形顔モデルの構造概略図である。
図2A】本出願の実施例2による3次元顔再構築の方法のフローチャートである。
図2B】本出願の実施例2による3次元顔再構築プロセスの概略図である。
図3A】本出願の実施例3による3次元顔再構築における生徒ネットワークモデルの訓練方法のフローチャートである。
図3B】本出願の実施例3による生徒ネットワークモデルの訓練プロセスの概略図である。
図3C】本出願の実施例3による方法におけるキー特徴点の分布概略図である。
図4】本出願の実施例4による3次元顔再構築の装置の構造概略図である。
図5】本出願の実施例5によるコンピュータデバイスの構造概略図である。
【発明を実施するための形態】
【0012】
以下、図面および実施例を参照して本出願を説明する。本明細書に記載された具体的な実施例は、本出願を限定するものではなく、本出願を説明するためにのみ使用されることが理解される。なお、説明を容易にするために、図面には、構成全体ではなく、本出願に関連する部分のみが示されている。また、矛盾しない場合、本出願における実施例及び実施例における特徴を互いに組み合わせることができる。
【0013】
実施例1
【0014】
図1Aは、本出願の実施例1による3次元顔再構築の方法のフローチャートであり、本実施例では、同じ顔を有する複数の動画フレームに対して3次元顔再構築を行うことができる。本実施例による3次元顔再構築の方法は、本出願の実施例による3次元顔再構築の装置によって実行されてもよく、当該装置は、ソフトウェアおよび/またはハードウェアによって実現されることができ、本方法を実行するコンピュータデバイスに統合される。
【0015】
例えば、図1Aを参照すると、当該方法は、以下のステップを含み得る。
【0016】
S110では、予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータを推定したことに応答して、教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに現在の動画フレームを入力することにより、3次元顔再構築における現在の動画フレームの働的再構築パラメータを推定する。
【0017】
例えば、顔画像表示のニーズがある顔アニメーション、顔認識や拡張現実などのエンターテインメントアプリケーションにおいて、あるユーザによって録画された動画における顔画像が存在した動画フレームに対して3次元顔再構築を行い、特定の顔効果の下で娯楽インタラクティブ機能を実行し、この場合、3次元顔再構築について、少なくとも1つの再構築パラメータで標準的な顔形状を制御して対応する変形と顔の表情変化を行うことができ、これにより、対応する3次元顔を生成し、3次元顔における光照射状況や姿勢角度などの詳細な展示を改善することができる。以上から分かるように、再構築されるべき各動画フレームに対する各再構築パラメータの推定の正確性は、当該動画フレームの再構築に対応する3次元顔のリアルさに直接に影響することができ、したがって、再構築された3次元顔をよりリアルにするためには、再構築されるべき動画フレームから3次元顔再構築に指定された各再構築パラメータを正確に推定することが要求される。例えば、本実施例における再構築パラメータは、顔の形状変化を表す変形パラメータ、顔の表情変化を表す表情パラメータ、顔アルベド変化を表すアルベドパラメータ、顔の光照射変化を表す光照射パラメータ、顔の移動を表す位置パラメータおよび顔頭部の姿勢を表す回転パラメータなどを含み得る。ここで、当該アルベドパラメータには、再構築されるべき2次元顔画像のRGB色情報が含まれる。
【0018】
あるユーザによって録画された動画における各動画フレームに対して3次元顔再構築を行う場合、通常、対応するニューラルネットワークモデルを予め訓練して、各再構築されるべき動画フレームが3次元顔を再構築する際に参照する必要がある各再構築パラメータを正確に推定し、この後、推定した各再構築パラメータを用いて対応する動画フレームに対して3次元顔再構築を行う。しかしながら、ユーザによって録画された動画の連続動画フレームに通常同じ顔があり、つまり連続動画フレームにおける顔表情を追跡し、この場合、予め訓練されたニューラルネットワークモデルを用いて、3次元顔再構築における各動画フレームの各再構築パラメータをそれぞれ推定し、連続動画フレームによって再構築された3次元顔にジッタが発生する問題を引き起こす可能性があり、そしてニューラルネットワークモデルが各動画フレームの各再構築パラメータをそれぞれ推定する場合でも、モデルによる推定において大量の計算オーバーヘッドが存在し、この場合、本実施例では連続動画フレームに通常同じ顔があることを考慮して、連続動画フレームが3次元顔を再構築する際に参照した顔のアイデンティティ変化やテクスチャの変化などを示す再構築パラメータはほとんど変化せず、顔の表情変化や光照射変化などを表す再構築パラメータだけは変化し、したがって、本実施例では、3次元顔再構築における各動画フレームの各再構築パラメータを、同じ顔でほとんど変化しない定常状態再構築パラメータ(例えば顔アイデンティティやアルベドなどの変化を示す再構築パラメータ)と、各動画フレームで特有の働的再構築パラメータ(例えば顔表情や光照射などの変化を示す再構築パラメータ)に分ける。
【0019】
同じ顔の複数の動画フレームにおける働的再構築パラメータの変化の程度は、同じ顔の複数の動画フレームにおける定常状態再構築パラメータの変化の程度より高い。
【0020】
この場合、ユーザによって録画された動画における連続動画フレームについて、予め訓練された3次元顔再構築における各動画フレームの各再構築パラメータを正確に推定できるニューラルネットワークモデルを、本実施例において予め構築された教師ネットワークモデルとすることができ、当該教師ネットワークモデルによって、連続動画フレームのうちの最初の動画フレームまたは3次元顔再構築における最初のいくつかの動画フレームの各再構築パラメータを推定し、推定した各再構築パラメータのうち同じ顔でほとんど変化しない再構築パラメータを、3次元顔再構築における連続動画フレームのうちの後続動画フレームの定常状態再構築パラメータとして保存し、後続動画フレームが3次元顔を再構築する際に対応する定常状態再構築パラメータを推定する必要がなくて、3次元顔再構築における働的再構築パラメータを推定するだけでよく、3次元顔を再構築する際のパラメータ推定量を大幅に削減し、これにより、3次元顔再構築の効率化を高めた。
【0021】
本実施例では、予め構築された教師ネットワークモデルが3次元顔再構築における各動画フレームの各再構築パラメータを正確に推定することができることを考慮して、この場合、図1Bに示されたように、3次元顔再構築における各動画フレームの働的再構築パラメータの推定の正確性を確保するために、知識蒸留により当該教師ネットワークモデルにおける働的再構築パラメータに対する推定機能に対して精華分析を行い、当該教師ネットワークモデルにおける各動画フレームの働的再構築パラメータを正確に推定する機能を生徒ネットワークモデルに移行することで、当該生徒ネットワークモデルが、3次元顔再構築における各動画フレームの働的再構築パラメータを正確に推定するために使用できるが、3次元顔再構築における当該動画フレームの定常状態再構築パラメータを推定せず、この結果、3次元顔再構築のパラメータ推定量を低減する。
【0022】
一実施例では、あるユーザによって録画された動画における各動画フレームに対して3次元顔再構築を行う場合、まず、教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータが事前に推定されたかどうかを判断することができ、当該教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータが推定された場合、当該教師ネットワークモデルに対して知識蒸留を行なった後に得られた生徒ネットワークモデルに現在の動画フレームを直接に入力し、当該生徒ネットワークモデルによって3次元顔再構築における現在の動画フレームの働的再構築パラメータを正確に推定することで、3次元顔再構築における現在の動画フレームの各再構築パラメータを得ることができ、この後、得られた各再構築パラメータを直接に用いて現在の動画フレームに対して3次元顔再構築を行うことができる。
【0023】
S120では、定常状態再構築パラメータと働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、現在の動画フレームに対応する3次元顔を再構築する。
【0024】
一例では、生徒ネットワークモデルによって3次元顔再構築における現在の動画フレームの働的再構築パラメータが推定された後、3次元顔再構築における教師ネットワークモデルによって推定された現在の動画フレームの定常状態再構築パラメータと当該働的再構築パラメータを直接に予め構築された3次元モーファブルモデルに一括して入力することができ、当該3次元モーファブルモデルにより、当該定常状態再構築パラメータと働的再構築パラメータを用いて現在の動画フレームに対して3次元顔の形状と外見のモデリングを行い、モデリング後に対応する顔表情の光照射情報などを調整することにより、現在の動画フレームに対応する3次元顔を再構築する。
【0025】
例示的には、本実施例における3次元モーファブルモデルは、双線形顔モデルと主成分分析(Principal Component Analysis、PCA)モデルで構成され、図1Cに示されたように、当該双線形顔モデルは、主に3次元顔再構築プロセスにおける顔外形及び表情の変化をモデリングするために使用され、当該PCAモデルは、主に3次元顔再構築プロセスにおける顔アルベドの変化をモデリングするために使用される。
【0026】
双線形顔モデルには、3次元顔のコアテンソルが定義され、当該コアテンソルは、3次元顔のメッシュ頂点、顔外形(顔外形は、顔アイデンティティに対応できる)と顔表情の3つの次元で構成される。この場合、図1Dに示されたように、当該双線形顔モデルは、
【数1】
と表すことができ、
【数2】
は3次元顔のコアテンソル(Core Tensor)であり、当該コアテンソルにおける3つの次元は、順に3次元顔のメッシュ頂点(vertices)、顔アイデンティティ(identity)及び顔表情(expression)であり、本実施例では、20084個のメッシュ頂点を用いて3次元顔の幾何形状
【数3】
を表すと仮定すると、コアテンソル
【数4】
は、顔の形変化を表す79個のアイデンティティパラメータと、顔の表情変化を表す46個の表情パラメータと、を含むことができ、
【数5】
は顔の形変化を表す79次元のアイデンティティパラメータであり、
【数6】
は顔の表情変化を表す46次元の表情パラメータである。
【0027】
本実施例では、双線形顔モデルに定義されたコアテンソルを正確に構築するために、多次元データソースにおける3次元顔スキャンデータを収集し、顔外形次元と顔表情次元で3次元顔スキャンデータが再構築された3次元顔に対して高次特異値分解を行うことにより、対応するコアテンソルを得る。
【0028】
例えば、深度カメラを用いて、人種や年齢、性別の異なる個体の顔データを予め大量に収集することができ、ここで、各個体は、本実施例における3次元顔スキャンデータとして、1つの無表情顔データと複数の異なる表情の顔データを収集し、3次元顔スキャンデータごとに、20084個のメッシュ頂点を含む標準顔ネットワークを用いて対応する変形を行い、変形後の顔ネットワークが当該3次元顔スキャンデータにできるだけ近いようにし、変形後の顔ネットワークにおける各顔特徴点が当該3次元顔スキャンデータにおける顔特徴点に1対1で対応することを確保することにより、各個体に対して46個の顔表情動作を含む顔メッシュモデル(Blendshapeモデル)を構築することができ、この場合、N個の個体の3次元顔スキャンデータが収集されたと仮定すると、N個の個体を含み且つ各個体が46個の異なる顔表情動作を含む顔メッシュモデルを得ることができ、各顔メッシュモデルに20084個のメッシュ頂点の顔データベースが含まれ、当該顔データベースを整合した後に60252×N×46の三次元テンソルを得ることができ、この場合、個体次元(N)と顔表情次元(46)で当該三次元テンソルに対して高次特異値分解動作を行うことにより、対応するコアテンソル
【数7】
を得ることができる。
【0029】
本実施例における単PCAモデルには、顔平均アルベド及び顔アルベド変化を表す主成分基底が定義され、
【数8】
と表すことができ、
【数9】
はPCAモデルには定義された顔平均アルベドであり、
【数10】
はPCAモデルには顔アルベド変化を表す79次元の主成分基底であり、
【数11】
は主成分基底の変化を示すためのアルベドパラメータであり、この場合、当該アルベドパラメータには、顔画像における各メッシュ頂点のRGB色情報が含まれ、3次元顔再構築時の色再構築を実現する。
【0030】
また、3次元顔再構築時の3次元詳細特徴を保証するために、本実施例の3次元モーファブルモデルには、顔の光照射変化を表す光照射パラメータ
【数12】
顔の移動を表す位置パラメータ
【数13】
及び顔頭部の姿勢を表す回転パラメータ
【数14】
も定義されることができる。ここで、本実施例では、対応する光照射パラメータ
【数15】
を推定するために、球面調和照明を用いて3次元シーンにおける照明に近くする。
【0031】
したがって、3次元顔を正確に再構築するために、本実施例では3次元顔再構築に指定された各再構築パラメータが
【数16】
であってもよく、ここで、定常状態再構築パラメータは、顔の形変化を表すアイデンティティパラメータ
【数17】
及び顔アルベド変化を表すアルベドパラメータ
【数18】
であり、残りの
【数19】
は、3次元顔再構築における各動画フレームの働的再構築パラメータである。
【0032】
本実施例で説明した各再構築パラメータの数は一例にすぎず、具体的には対応する再構築要件に応じて設定可能であり、本実施例ではこれについて限定しない。
【0033】
例示的には、本実施例では、双線形顔モデルとPCAモデルで構成された3次元モーファブルモデルを用いて3次元顔再構築を行う再構築プロセスは以下の通りであり、即ち、定常状態再構築パラメータのうち顔の形変化を表す再構築パラメータと働的再構築パラメータのうち顔の表情変化を表す再構築パラメータを双線形顔モデルに入力し、コアテンソルを調整することにより、対応する3次元変形顔を得て、3次元変形顔及び定常状態再構築パラメータと働的再構築パラメータのうちPCAモデルにおける主成分基底に合致する再構築パラメータをPCAモデルに入力し、顔平均アルベドに基づいて3次元変形顔に対してアルベド修正を行うことにより、再構築後の3次元顔を得る。
【0034】
例えば、3次元顔再構築における現在の動画フレームの定常状態再構築パラメータと働的再構築パラメータが推定された後、当該定常状態再構築パラメータと働的再構築パラメータを3次元モーファブルモデルに一括して入力し、3次元標準顔に対して変形及び表情の調整などを行い、この場合、当該3次元モーファブルモデルは、双線形顔モデルとPCAモデルで構成され、異なるモデルは、異なる再構築機能を持ち、双線形顔モデルは、主に3次元顔再構築プロセスにおける顔外形及び表情の変化をモデリングするために使用され、PCAモデルは、主に3次元顔再構築プロセスにおける顔アルベドの変化をモデリングするために使用され、したがって、双線形顔モデルとPCAモデルを順次に使用して現在の動画フレームに対して3次元顔再構築を行う。
【0035】
この場合、まず現在の動画フレームに対して推定された定常状態再構築パラメータから、双線形顔モデルには定義された顔の形変化を表すアイデンティティパラメータを選別し、現在の動画フレームに対して推定された働的再構築パラメータから、双線形顔モデルには定義された顔の表情変化を表す表情パラメータを選別し、この後、選別されたアイデンティティパラメータと表情パラメータを当該双線形顔モデルに入力し、上記双線形顔モデルのモデル表現関数により、その内に定義されたコアテンソルに対して対応する外形変化と表情変化を行うことで、対応する3次元変形顔を得て、最後に、現在の動画フレームに対して推定された定常状態再構築パラメータと働的再構築パラメータから、PCAモデルにおける主成分基底に合致する再構築パラメータを選別し、さらに当該3次元変形顔及び選別された再構築パラメータ一を当該PCAモデルに一括して入力し、上記PCAモデルのモデル表現関数により、顔平均アルベドの上で当該3次元変形顔に対してアルベド修正を行うことで、再構築後の3次元顔を得る。
【0036】
本実施例では、同一動画における連続動画フレームに同じ顔が含まれることを考慮すると、事前に予め構築された教師ネットワークモデルによって、3次元顔再構築における各動画フレームのほとんど変化しない定常状態再構築パラメータを一括して推定し、この後、各現在の動画フレームに対して3次元顔再構築を行う際に、当該教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルを直接に用いて、当該3次元顔再構築における現在の動画フレームの働的再構築パラメータを推定すればよく、この場合、生徒ネットワークモデルは、教師ネットワークモデルに対して知識蒸留を行なった後に得られ、3次元顔再構築における各動画フレームの定常状態再構築パラメータを個別に計算する必要はなく、3次元顔再構築の計算オーバーヘッドを大幅に削減し、これにより、3次元顔再構築の効率化を高め、そして3次元顔再構築における現在の動画フレームの働的再構築パラメータの正確性を確保する。この後、3次元顔再構築における現在の動画フレームの定常状態再構築パラメータと働的再構築パラメータを予め構築された3次元モーファブルモデルに直接に入力することにより、現在の動画フレームに対応する3次元顔を再構築し、この場合、3次元顔再構築における連続動画フレームの定常状態再構築パラメータが変化せず、3次元顔再構築において連続動画フレームに発生したジッタ問題を回避し、同時に3次元顔再構築における各動画フレームの働的再構築パラメータを利用して、連続動画フレームの3次元顔再構築の安定性を保証した上で、各動画フレームの3次元顔の個性的再構築を実現し、これにより3次元顔再構築の正確性を高める。
【0037】
実施例2
【0038】
図2Aは、本出願の実施例2による3次元顔再構築の方法のフローチャートであり、図2Bは、本出願の実施例2による3次元顔再構築プロセスの概略図である。本実施例は、上記実施例を踏まえて最適化するものである。図2Aに示されたように、本実施例では、主に3次元顔再構築における現在の動画フレームの定常状態再構築パラメータの推定プロセスを説明する。
【0039】
図2Aに示されたように、本実施例では、以下のステップを含み得る。
【0040】
S210では、現在の動画フレームと同じ顔を有する関連動画フレームを教師ネットワークモデルに入力することにより、3次元顔再構築における関連動画フレームの総合再構築パラメータを推定し、総合再構築パラメータのうちの定常状態再構築パラメータを3次元顔再構築における現在の動画フレームの定常状態再構築パラメータとする。
【0041】
例示的には、3次元顔再構築における現在の動画フレームの定常状態再構築パラメータの事前推定について、本実施例では、現在の動画フレームの3次元顔を再構築する前に、まず現在の動画フレームと同じ顔を有する関連動画フレームを確定し、本実施例における関連動画フレームは、現在の動画フレームが位置する動画において現在の動画フレーム内の顔を有する最初の動画フレーム、または現在の動画フレームが位置する動画において現在の動画フレーム内の顔を有する最初のm個の動画フレームであってもよく、mは目標の数を表し、つまり関連動画フレームは1つであってもよく、複数であってもよく、この場合、現在の動画フレームが位置する動画における関連動画フレームを教師ネットワークモデルに入力することができ、当該教師ネットワークモデルによって当該3次元顔再構築における関連動画フレームの総合再構築パラメータを正確に推定し、この後、総合再構築パラメータのうち顔の形変化を表すアイデンティティパラメータと顔のテクスチャ変化を表すアルベドパラメータなど連続動画フレームにおいてほとんど変化しない再構築パラメータを、本実施例の3次元顔再構築における現在の動画フレームの定常状態再構築パラメータとする。
【0042】
例示的には、mは1より大きい正の整数であってもよい。
【0043】
この場合、現在の動画フレームが位置する動画において同じ顔を有する連続動画フレームについて、連続動画フレームのうちの最初の動画フレームを関連動画フレームとし、またはいくつかの動画フレームを関連動画フレームとすることができ、関連動画フレームの3次元顔再構築について、教師ネットワークモデルを用いて対応する各再構築パラメータを推定し、3次元顔再構築における後続の関連動画フレームの後の各動画フレームの定常状態再構築パラメータとして、推定された総合再構築パラメータから対応する定常状態再構築パラメータを選別し、つまり再構築されるべき動画において関連動画フレーム以外の他の動画フレームが現在の動画フレームとして3次元顔再構築を行う場合、3次元顔再構築における教師ネットワークモデルによって推定された定常状態再構築パラメータが存在し、関連動画フレームが現在の動画フレームとして3次元顔再構築を行う場合、3次元顔再構築における教師ネットワークモデルによって推定された定常状態再構築パラメータが存在せず、教師ネットワークモデルに入力することにより3次元顔再構築における各再構築パラメータを推定する必要がある。
【0044】
例示的には、関連動画フレームが、現在の動画フレームが位置する動画において現在の動画フレーム内の顔を有する最初のm個の動画フレームである場合、図2Bに示されたように、本実施例では、総合再構築パラメータのうちの定常状態再構築パラメータを3次元顔再構築における現在の動画フレームの定常状態再構築パラメータとすることは、各関連動画フレームの総合再構築パラメータのうち、同じタイプの定常状態再構築パラメータをそれぞれ融合することにより、現在の動画フレームの定常状態再構築パラメータを得ることを含み得る。つまり、現在の動画フレームに複数の関連動画フレームが存在する場合、教師ネットワークモデルにより3次元顔再構築における各関連動画フレームの総合再構築パラメータを推定することができ、この後、当該定常状態再構築パラメータの正確性を確保し、1つのフレームのみを用いて定常状態再構築パラメータを推定する際の誤差を回避するために、各関連動画フレームの総合再構築パラメータのうち同じタイプに属する定常状態再構築パラメータに対して重み付け加算を行うことにより、融合後の定常状態再構築パラメータを現在の動画フレームの定常状態再構築パラメータとすることができる。
【0045】
S220では、予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータが推定されたかどうかを判断し、予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータが推定された場合、S230を実行し、予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータが推定されていない場合、S260を実行する。
【0046】
S230では、教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに現在の動画フレームを入力することにより、3次元顔再構築における現在の動画フレームの働的再構築パラメータを推定する。
【0047】
S240では、定常状態再構築パラメータと働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、現在の動画フレームに対応する3次元顔を再構築する。
【0048】
S250では、微分可能レンダラーを使用して現在の動画フレームに対応する3次元顔をレンダリングする。
【0049】
例えば、微分可能レンダラーを使用して3次元顔をレンダリングすることにより、レンダリングされた後の3次元顔のテクスチャと画面を現在の動画フレームに近づけることができ、3次元顔再構築のリアルさを向上させる。
【0050】
S260では、予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータが推定されていないことに応答して、現在の動画フレームを教師ネットワークモデルに入力することにより、3次元顔再構築における現在の動画フレームの総合再構築パラメータを推定し、3次元顔再構築における現在の動画フレームの総合再構築パラメータを3次元モーファブルモデルに入力することにより、現在の動画フレームに対応する3次元顔を再構築する。
【0051】
例えば、現在の動画フレームが、当該現在の動画フレームが位置する動画において設定した関連動画フレームである場合、教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータが推定されていないことを示し、現在の動画フレームを当該教師ネットワークモデルに直接に入力し、当該教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの各総合再構築パラメータを正確に推定し、3次元顔再構築における現在の動画フレームの総合再構築パラメータを3次元モーファブルモデルに入力し、当該3次元モーファブルモデルによって当該総合再構築パラメータを用いて標準な3次元顔に対して変形及び表情の調整などを行うことにより、現在の動画フレームに対応する3次元顔を再構築する。
【0052】
本実施例では、事前に予め構築された教師ネットワークモデルによって、3次元顔再構築における各動画フレームのほとんど変化しない定常状態再構築パラメータを一括して推定し、この後、各現在の動画フレームに対して3次元顔再構築を行う際に、当該教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルを直接に用いて、当該3次元顔再構築における現在の動画フレームの働的再構築パラメータを推定すればよく、この場合、生徒ネットワークモデルは、教師ネットワークモデルに対して知識蒸留を行なった後に得られ、3次元顔再構築における各動画フレームの定常状態再構築パラメータを個別に計算する必要はなく、3次元顔再構築の計算オーバーヘッドを大幅に削減し、これにより、3次元顔再構築の効率化を高め、そして3次元顔再構築における現在の動画フレームの働的再構築パラメータの正確性を確保する。この後、3次元顔再構築における現在の動画フレームの定常状態再構築パラメータと働的再構築パラメータを予め構築された3次元モーファブルモデルに直接に入力することにより、現在の動画フレームに対応する3次元顔を再構築し、この場合、3次元顔再構築における連続動画フレームの定常状態再構築パラメータが変化せず、3次元顔再構築において連続動画フレームに発生したジッタ問題を回避し、同時に3次元顔再構築における各動画フレームの働的再構築パラメータを利用して、連続動画フレームの3次元顔再構築の安定性を保証した上で、各動画フレームの3次元顔の個性的再構築を実現し、これにより3次元顔再構築の正確性を高める。
【0053】
実施例3
【0054】
図3Aは、本出願の実施例3による3次元顔再構築における生徒ネットワークモデルの訓練方法のフローチャートであり、図3Bは、本出願の実施例3による生徒ネットワークモデルの訓練プロセスの概略図である。本実施例は、上記実施例を踏まえて説明するものである。図3Aに示されたように、本実施例では、主に教師ネットワークモデルに対して知識蒸留を行うことにより、生徒ネットワークモデルを訓練する訓練プロセスを説明する。
【0055】
図3Aに示されたように、本実施例では、以下のステップを含み得る。
【0056】
S310では、動画訓練セットにおいて同じ顔を有する動画フレーム訓練ペアにおける第1の動画フレームと第2の動画フレームを教師ネットワークモデルに入力することにより、3次元顔再構築における第1の動画フレームの第1の総合再構築パラメータと3次元顔再構築における第2の動画フレームの第2の総合再構築パラメータを推定する。
【0057】
一例では、本実施例における生徒ネットワークモデルが、予め訓練された3次元顔再構築における各動画フレームの各再構築パラメータを正確に推定できる教師ネットワークモデルに対して知識蒸留を行なった後に得られたものであるため、生徒ネットワークモデルを訓練する際に、相変わらず教師ネットワークモデルによって同じ顔を有する動画フレームの各再構築パラメータを推定する必要があり、それを参考として、生徒ネットワークモデルの推定の正確性を分析する。したがって、予め設定された動画訓練セットにおいて、訓練サンプルは、主に同じ顔を有する動画フレーム訓練ペアであり、この場合、当該動画フレーム訓練ペアにおける第1の動画フレームを、教師ネットワークモデルによって第2の動画フレームに対して推定された定常状態再構築パラメータの出所とすることができる。
【0058】
例えば、図3Bに示されたように、生徒ネットワークモデルを訓練する際に、各動画フレーム訓練ペアにおける第1の動画フレームと第2の動画フレームを教師ネットワークモデルに入力し、当該教師ネットワークモデルによって3次元顔再構築における第1の動画フレームと第2の動画フレームの各総合再構築パラメータをそれぞれ推定することができ、この場合、3次元顔再構築における教師ネットワークモデルによって推定された第2の動画フレームの第2の総合再構築パラメータは、後で生徒ネットワークモデルによって当該第2の動画フレームに対して推定された各目標働的再構築パラメータの正確性を分析するために使用されてもよく、3次元顔再構築における教師ネットワークモデルによって推定された第1の動画フレームの第1の総合再構築パラメータのうちの定常状態再構築パラメータを、後で生徒ネットワークモデルによって当該第2の動画フレームに対して推定された各目標働的再構築パラメータに合致した目標定常状態再構築パラメータとすることができ、生徒ネットワークモデルによって当該第2の動画フレームに対して推定された各目標働的再構築パラメータと当該目標定常状態再構築パラメータを用いて当該第2の動画フレームに対して3次元顔再構築を行う。
【0059】
S320では、動画フレーム訓練ペアにおける第2の動画フレームを生徒ネットワークモデルに入力することにより、3次元顔再構築における第2の動画フレームの目標働的再構築パラメータを推定し、第1の総合再構築パラメータのうちの目標定常状態再構築パラメータと目標働的再構築パラメータを3次元モーファブルモデルに入力することにより、第2の動画フレームに対応する3次元顔を再構築する。
【0060】
例えば、各動画フレーム訓練ペアにおける第2の動画フレームを生徒ネットワークモデルに同期して入力し、当該生徒ネットワークモデルによって3次元顔再構築における第2の動画フレームの目標働的再構築パラメータを推定し、この場合、当該生徒ネットワークモデルがモデル訓練プロセスにあるため、推定された定常状態再構築パラメータがあまり正確ではない可能性があり、この場合、3次元顔再構築における第2の動画フレームの定常状態再構築パラメータとして、教師ネットワークモデルによって第1の動画フレームに対して推定された第1の総合再構築パラメータから対応する目標定常状態再構築パラメータを選別し、次に当該目標定常状態再構築パラメータと生徒ネットワークモデルによって推定された目標働的再構築パラメータを3次元モーファブルモデルに一括して入力し、当該3次元モーファブルモデルによって当該目標定常状態再構築パラメータと目標働的再構築パラメータを用いて標準な3次元顔に対して対応する変形、表情変化及びアルベド変化などを行い、対応する3次元詳細展示情報を調整することにより、当該第2の動画フレームに対応する3次元顔を再構築し、この後、当該第2の動画フレームと再構築された3次元顔との類似度、及び教師ネットワークモデルによって当該第2の動画フレームに対して推定された第2の総合再構築パラメータと生徒ネットワークモデルによって当該第2の動画フレームに対して推定された目標働的再構築パラメータとの類似度を比較することにより、再構築された3次元顔のリアルさを分析することができる。
【0061】
S330では、第2の総合再構築パラメータと目標働的再構築パラメータとの間の第1の損失関数、および第2の動画フレームに対応する3次元顔と第2の動画フレームとの間の予め設定された2次元監督項における第2の損失関数を計算し、前記第1の損失関数と前記第2の損失関数のうちの各損失関数に対応する重みを調整する。
【0062】
第2の動画フレームにおける顔に対する再構築された3次元顔のリアルさを分析するために、本実施例では、対応する損失関数を予め設定し、当該損失関数によって再構築された3次元顔と第2の動画フレームとの間の類似度を比較する。本実施例における損失関数は、第2の総合再構築パラメータと目標働的再構築パラメータとの間の損失関数(即ち第1の損失関数)と、第2の動画フレームに対応する3次元顔と第2の動画フレームとの間の予め設定された2次元監督項における損失関数(即ち第2の損失関数)の2種類に分けられることができ、3次元顔の再構築誤差をできるだけ全面的に回避することができる。
【0063】
例示的には、本実施例では、第2の総合再構築パラメータと目標働的再構築パラメータとの間の損失関数は、再構築パラメータに対応する正則化項などであってもよく、
【数20】
と表すことができる。
【0064】
ここで、教師ネットワークモデルによって第2の動画フレームに対して推定された第2の総合再構築パラメータは、
【数21】
であり、生徒ネットワークモデルによって当該第2の動画フレームに対して推定された目標働的再構築パラメータは、
【数22】
であり、
【数23】
は、それぞれ第2の総合再構築パラメータと目標働的再構築パラメータとの間の損失関数において対応する再構築パラメータの正則化項に対応する重みである。
【0065】
同時に、本実施例では予め設定された2次元監督項における損失関数は、画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数とアルベドペナルティ関数を含み得る。
【0066】
例えば、第2の動画フレームに対応する3次元顔が再構築された後、第2の総合再構築パラメータと目標働的再構築パラメータとの間の損失関数、及び第2の動画フレームに対応する3次元顔と第2の動画フレームとの間の予め設定された2次元監督項における損失関数によって、再構築された3次元顔と当該第2の動画フレームとの間の再構築誤差、即ち損失関数の具体的な値を計算することができ、さらに各損失関数の具体的な値に基づいて、各損失関数における再構築された3次元顔のリアルさを分析することにより、各損失関数における訓練された生徒ネットワークモデルの推定の正確性を判断して、対応して各損失関数に対応する重みを対応して調整し、次の訓練時の推定能力を高める。
【0067】
例示的には、本実施例では、3次元顔と第2の動画フレームとの間の画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数およびアルベドペナルティ関数、第2の総合再構築パラメータと目標働的再構築パラメータとの間の損失関数に対応する正則化項をそれぞれに計算することにより、3次元顔再構築時の画像画素、キーポイント、アイデンティティ特徴、アルベド、および各再構築パラメータに対する現在の訓練プロセスの再構築の正確な能力を明確に判断し、具体的な再構築能力に応じて各損失関数の重みを対応して調整し、訓練を継続し、この結果、3次元顔再構築の時に生徒ネットワークモデルが働的再構築パラメータを推定する推定能力を絶えず向上させる。
【0068】
例えば、本実施例では予め設定された2次元監督項における損失関数に含まれた画像画素損失関数、キーポイント損失関数、アイデンティティ特徴損失関数およびアルベドペナルティ関数のそれぞれについて、以下のように分析する。
【0069】
1.画像画素損失関数の確定プロセスとして、第2の動画フレームから対応する皮膚マスクを分割し、皮膚マスクに基づいて、第2の動画フレームに対応する3次元顔と第2の動画フレームにおいて顔皮膚領域内にある同一画素点の画素誤差を計算することにより、対応する対応する画像画素損失関数を得る。
【0070】
例えば、マスクは、画素値0と1からなるバイナリイメージであり、本実施例では、画像画素損失関数を設定する際に、訓練プロセスにおける画像画素損失の正確性を保証するために、第2の動画フレームに皮膚マスクを適用することにより、第2の動画フレームにおける顔皮膚領域の画素値をすべて1に設定し、非顔皮膚領域の画素値をすべて0に設定することができ、したがって、皮膚分割アルゴリズムを用いて第2の動画フレームから対応する顔皮膚領域を正確に分割し、非顔皮膚領域内の画素特徴による3次元顔再構築への干渉を避けることができる。そして、第2の動画フレームから対応する皮膚マスクを分割した後、再構築された3次元顔と第2の動画フレームから同じ画素位置の画素点を見つけることができ、次に、分割された皮膚マスクに基づいて、各同一画素点が顔皮膚領域内にあるかどうかを正確に判断することができ、3次元顔と第2の動画フレームにおいて顔皮膚領域内にある各画素点の画素誤差を計算することにより、顔皮膚領域内における3次元顔と第2の動画フレームの全体の画素誤差を分析し、対応する画像画素損失関数を得て、当該画像画素損失関数は、再構築前後の顔皮膚領域内の画素誤差のみを比較し、非顔皮膚領域の画素影響を遮蔽し、推定された再構築パラメータにおける顔アイデンティティ特徴とアルベド情報をより正確にする。
【0071】
例示的には、本実施例における画像画素損失関数は、
【数24】
であってもよい。
【0072】
ここで、
【数25】
はi番目の動画フレーム訓練ペアにおける第2の動画フレーム内の画素点(j、k)の画素値であり、
【数26】
はi番目の動画フレーム訓練ペアにおける第2の動画フレームに対して再構築された3次元顔における画素点(j、k)の画素値であり、Mjkは皮膚マスクにおける画素点(j、k)の画素値であり、この場合、皮膚マスクにおいて顔皮膚領域内にある画素点のMjkは1であり、皮膚マスクにおいて非顔皮膚領域内にある画素点のMjkは0である。
【0073】
2.キーポイント損失関数の確定プロセスとして、第2の動画フレームからプリセット位置におけるキー特徴点を抽出し、各キー特徴点の可視性を確定し、第2の動画フレームに対応する3次元顔と第2の動画フレームとの間の各目に見えるキー特徴点の位置再構築誤差を計算することにより、対応するキーポイント損失関数を得る。
【0074】
例えば、再構築された3次元顔におけるキー特徴点と第2の動画フレームにおけるキー特徴点が1対1で対応することを保証するために、本実施例では、訓練プロセスにおけるキーポイント損失関数を設定する際、Landmarkアルゴリズムを用いて訓練サンプルから各顔領域内のプリセット位置におけるキー特徴点を抽出することができ、例えば、顔輪郭の17個のキー特徴点、左右の眉のそれぞれの5つのキー特徴点、左右の目のそれぞれの6つのキー特徴点、鼻の9つのキー特徴点、口の20個のキー特徴点などを抽出する。例示的に、本実施例では、図3Cに示されたように、合計68のキー特徴点を採用することができる。この場合、異なる訓練サンプルにおいて顔頭部の姿勢が異なるため、いくつかのプリセット位置におけるキー特徴点が見えない可能性があるので、第2の動画フレームから各プリセット位置におけるキー特徴点を抽出した後、各キー特徴点が見えるかどうかを判断することもでき、各目に見えるキー特徴点を確定した後、再構築された3次元顔と第2の動画フレームにおける各目に見えるキー特徴点の画素位置が一致するかどうかを分析することにより、再構築前後の各目に見えるキー特徴点の位置再構築誤差を計算し、対応するキーポイント損失関数を得る。この場合、第2の動画フレームにおいて頭部の回転角度が大きい顔について、対応するキーポイント再構築損失を計算するために、目に見える半分のキー特徴点を選択する必要があり、目に見えないキー特徴点は、キーポイント再構築の損失計算に関与しない。
【0075】
例示的には、本実施例におけるキーポイント損失関数は、
【数27】
であってもよい。
【0076】
ここで、
【数28】
はi番目の動画フレーム訓練ペアにおける第2の動画フレーム内のj番目のキー特徴点の位置座標であり、
【数29】
はi番目の動画フレーム訓練ペアにおける第2の動画フレームに対して再構築された3次元顔におけるj番目のキー特徴点の位置座標であり、Vijはj番目のキー特徴点の可視性であり、目に見えるキー特徴点の値は1であり、目に見えない特徴点の値は0であり、Wjはj番目のキー特徴点の損失関数における重みであり、異なる顔部位(例えば目、口、輪郭点など)に対してそれぞれ異なる重みを採用し、これらの重みはWjの大きさを調整することによって制御される。
【0077】
3.アイデンティティ特徴損失関数の確定プロセスとして、第2の動画フレームに対応する3次元顔と第2の動画フレームのそれぞれを予め構築された顔認識モデルに入力することにより、第2の動画フレームの第1のアイデンティティ特徴、および第2の動画フレームに対応する3次元顔の第2のアイデンティティ特徴を得て、第1のアイデンティティ特徴と第2のアイデンティティ特徴との類似度に基づいて、対応するアイデンティティ特徴損失関数を計算する。
【0078】
例えば、アイデンティティ特徴損失関数について、実質的には再構築前後のアイデンティティ特徴が変化するかどうかを分析するものであり、したがって、本実施例では、アイデンティティ特徴認識に対して、対応する顔識別モデルを予め構築し、当該顔認識モデルによって再構築前後のアイデンティティ特徴を抽出することができる。まず第2の動画フレームと再構築後の3次元顔のそれぞれを当該顔認識モデルに入力し、当該顔認識モデルによって第2の動画フレームと3次元顔における顔特徴を分析することにより、第2の動画フレームに対応する第1のアイデンティティ特徴および3次元顔に対応する第2のアイデンティティ特徴を確定し、この後、再構築前後のアイデンティティ特徴に誤差があるかどうかを判断する。第2の動画フレームに対応する第1のアイデンティティ特徴および3次元顔に対応する第2のアイデンティティ特徴を得た後、再構築前後のアイデンティティ特徴に誤差があるかどうかを分析するために、まず第1のアイデンティティ特徴と第2のアイデンティティ特徴との類似性を判断し、さらに当該類似性に基づいて対応するアイデンティティ特徴損失関数を計算する必要がある。
【0079】
例示的には、本実施例におけるアイデンティティ特徴損失関数は、
【数30】
であってもよい。
【0080】
ここで、
【数31】
はi番目の動画フレーム訓練ペアにおける第2の動画フレームに対応する第1のアイデンティティ特徴であり、
【数32】
はi番目の動画フレーム訓練ペアにおける第2の動画フレームに対して再構築された3次元顔に対応する第2のアイデンティティ特徴である。
【0081】
4.アルベドペナルティ関数の確定プロセスとして、第2の動画フレームに対応する3次元顔における各メッシュ頂点のアルベドを計算し、3次元顔における各メッシュ頂点のアルベドとプリセットアルベド区間とに基づいて、対応するアルベドペナルティ関数を計算する。
【0082】
例えば、本実施例では、第2の動画フレームにおける各画素点の色および反射光強度などの情報を検出することにより、各画素点のアルベドを算出することができ、この後、再構築後の3次元顔における各頂点と第2の動画フレームにおける各画素点との位置マッチングの状況に応じて、再構築された3次元顔における各頂点のアルベドを設定し、再構築前後の顔アルベドの一致性を保証することができる。この場合、再構築後に3次元顔における各頂点のアルベドが暗すぎず、明るすぎないようにするために、本実施例では3次元顔における各頂点のアルベドを調整し、この場合、合理的なプリセットアルベド区間を予め設定し、本実施例におけるプリセットアルベド区間を、再構築後の3次元顔における各頂点のアルベドがすべて当該プリセットアルベド区間内に収まるように[0.05、0.95]とすることができ、したがって、3次元顔における各頂点のアルベドが当該プリセットアルベド区間内にあるかどうかを分析することにより、対応するアルベドペナルティ関数を計算することができ、訓練プロセスにおいて再構築後の3次元顔のアルベドを絶えず最適化する。
【0083】
例示的には、本実施例におけるアルベドペナルティ関数は、
【数33】
であってもよい。
【0084】
ここで、Ti,jはi番目の動画フレーム訓練ペアにおける第2の動画フレーム内のj番目の画素点のアルベドであり、
【数34】
はi番目の動画フレーム訓練ペアにおける第2の動画フレームに対して再構築された3次元顔におけるj番目の画素点のアルベドである。
【0085】
これにより、本実施例では、第2の動画フレームに対応する3次元顔と第2の動画フレームとの間の予め設定された2次元監督項における損失関数は、
【数35】
と表すことができる。
【0086】
ここで、
【数36】
は、それぞれ予め設定された2次元監督項における各損失関数に対応する重みである。
【0087】
S340では、各損失関数及び対応する重みに基づいて対応するフィッティング損失関数を生成し、フィッティング損失関数を用いて生徒ネットワークモデルを逆補正することにより、生徒ネットワークモデルを訓練する。
【0088】
例えば、3次元顔と第2の動画フレームとの間の各損失関数を計算し、各損失関数に対応する重みを調整した後、各損失関数に対応する重みを利用して各損失関数を統合することにより、対応するフィッティング損失関数を生成し、当該フィッティング損失関数を生徒ネットワークモデルの訓練プロセス全体の損失関数とし、次に、当該フィッティング損失関数を利用して訓練プロセス全体に従って逆伝播することにより、当該生徒ネットワークモデルにおけるネットワークパラメータを修正し、そして、上記ステップに従って修正後の生徒ネットワークモデルを用いて、次の動画フレーム訓練ペアにおける第2の動画フレームによる3次元顔再構築時の働的再構築パラメータの推定を継続することにより、当該訓練プロセスを継続して実行し、当該生徒ネットワークモデルを絶えず逆補正し、さらに訓練後の生徒ネットワークモデルを得て、この場合、本実施例におけるフィッティング損失関数によって、訓練プロセスにおける参照情報を更に全面的にして、生徒ネットワークモデルによる働的再構築パラメータの推定の正確性を高める。
【0089】
例示的には、本実施例におけるフィッティング損失関数は、
【数37】
であり、ここで、
【数38】
は第2の動画フレームに対応する3次元顔と第2の動画フレームとの間の予め設定された2次元監督項における損失関数であり、
【数39】
は第2の総合再構築パラメータと目標働的再構築パラメータとの間の損失関数である。
【0090】
本実施例では、教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルについて、教師ネットワークモデルによって各動画フレーム訓練ペアにおける第1の動画フレームと第2の動画フレームに対して推定された各総合再構築パラメータを参考として、生徒ネットワークモデルによって第2の動画フレームに対して推定された働的再構築パラメータの正確性を分析し、教師ネットワークモデルによって第1の動画フレーム対して推定された定常状態再構築パラメータと生徒ネットワークモデルによって第2の動画フレーム対して推定された働的再構築パラメータを3次元モーファブルモデルに入力することにより、当該第2の動画フレームに対応する3次元顔を再構築し、この場合、第2の動画フレームに対応する3次元顔と第2の動画フレームとの間の予め設定された2次元監督項における損失関数、及び第2の動画フレームに対して教師ネットワークモデルと生徒ネットワークモデルのそれぞれにおいて推定された再構築パラメータの間の損失関数を分析することにより、当該生徒ネットワークモデルを絶えず逆補正し、推定の正確性が高い生徒ネットワークモデルが訓練され、この場合、訓練プロセス全体における生徒ネットワークモデルの参照情報を更に全面的にして、生徒ネットワークモデルによる働的再構築パラメータの推定の正確性を高め、連続動画フレームの3次元顔再構築の安定性を保証した上で、動画フレームの3次元顔の個性的再構築を実現し、これにより3次元顔再構築の正確性を高める。
【0091】
実施例4
【0092】
図4は、本出願の実施例4による3次元顔再構築の装置の構造概略図であり、具体的に、図4に示されたように、当該装置は、
予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータを推定したことに応答して、前記教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに前記現在の動画フレームを入力することにより、3次元顔再構築における前記現在の動画フレームの働的再構築パラメータを推定するように構成される再構築パラメータ推定モジュール410と、
前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築するように構成される3次元顔再構築モジュール420と、
を含み得る。
【0093】
本実施例では、同一動画における連続動画フレームに同じ顔が含まれることを考慮すると、事前に予め構築された教師ネットワークモデルによって、3次元顔再構築における各動画フレームのほとんど変化しない定常状態再構築パラメータを一括して推定し、この後、各現在の動画フレームに対して3次元顔再構築を行う際に、当該教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルを直接に用いて、当該3次元顔再構築における現在の動画フレームの働的再構築パラメータを推定すればよく、この場合、生徒ネットワークモデルは、教師ネットワークモデルに対して知識蒸留を行なった後に得られ、3次元顔再構築における各動画フレームの定常状態再構築パラメータを個別に計算する必要はなく、3次元顔再構築の計算オーバーヘッドを大幅に削減し、これにより、3次元顔再構築の効率化を高め、そして3次元顔再構築における現在の動画フレームの働的再構築パラメータの正確性を確保する。この後、3次元顔再構築における現在の動画フレームの定常状態再構築パラメータと働的再構築パラメータを予め構築された3次元モーファブルモデルに直接に入力することにより、現在の動画フレームに対応する3次元顔を再構築し、この場合、3次元顔再構築における連続動画フレームの定常状態再構築パラメータが変化せず、3次元顔再構築において連続動画フレームに発生したジッタ問題を回避し、同時に3次元顔再構築における各動画フレームの働的再構築パラメータを利用して、連続動画フレームの3次元顔再構築の安定性を保証した上で、各動画フレームの3次元顔の個性的再構築を実現し、これにより3次元顔再構築の正確性を高める。
【0094】
本実施例による3次元顔再構築の装置は、上記のいずれかの実施例による3次元顔再構築の方法に適用可能であり、対応する機能及び有益な効果を有する。
【0095】
実施例5
【0096】
図5は、本出願の実施例5によるコンピュータデバイスの構造概略図であり、図5に示されたように、当該デバイスは、プロセッサ50、記憶装置51及び通信装置52を含む。デバイスに含まれたプロセッサ50の数は、1つ以上であってもよく、図5では1つのプロセッサ50を例にする。デバイスに含まれたプロセッサ50、記憶装置51及び通信装置52は、バス又は他の方法で接続されることができ、図5ではバスによる接続を例にする。
【0097】
本実施例によるコンピュータデバイスは、上記のいずれかの実施例による3次元顔再構築の方法を実行するように構成されてもよく、対応する機能及び有益な効果を有する。
【0098】
実施例6
【0099】
本出願の実施例6では、コンピュータ可読記憶媒体をさらに提供し、コンピュータプログラムが記憶され、当該プログラムがプロセッサによって実行されるとき、上記のいずれかの実施例による3次元顔再構築の方法を実現することができる。当該方法は、
予め構築された教師ネットワークモデルによって3次元顔再構築における現在の動画フレームの定常状態再構築パラメータを推定したことに応答して、前記教師ネットワークモデルに対して蒸留を行なった後に得られた生徒ネットワークモデルに前記現在の動画フレームを入力することにより、3次元顔再構築における前記現在の動画フレームの働的再構築パラメータを推定することと、
前記定常状態再構築パラメータと前記働的再構築パラメータを予め構築された3次元モーファブルモデルに入力することにより、前記現在の動画フレームに対応する3次元顔を再構築することと、
を含み得る。
【0100】
本出願の実施例では、コンピュータ実行可能命令を含む記憶媒体をさらに提供し、コンピュータ実行可能命令は、上述した方法における動作だけでなく、本出願のいずれかの実施例による3次元顔再構築の方法における関連動作を実行することができる。
【0101】
記憶媒体は、非一時的な(non-transitory)記憶媒体であってもよい。
【0102】
以上の実施形態に関する説明により、当業者であれば、本出願はソフトウェアおよび必要な汎用ハードウェアによって実現されることができ、もちろんハードウェアによって実現されることもできるが、前者がより好ましい実施形態であることが明白であろう。このような理解に基づいて、本出願の技術案は、本質的にはまたは関連技術に寄与する部分は、ソフトウェア製品として具現化することができ、当該コンピュータソフトウェア製品は、コンピュータのフロッピーディスク、読み取り専用メモリ(Read-Only Memory、ROM)、ランダム・アクセス・メモリ(Random Access Memory、RAM)、フラッシュ(FLASH)、ハードディスクまたは光ディスクなどのコンピュータ可読記憶媒体に記憶されることができ、1台のコンピュータデバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい)に、本出願の各実施例に記載された方法を実行させるための複数の命令を含む。
【0103】
なお、上記3次元顔再構築の装置の実施例では、含まれる各ユニット及びモジュールは、機能論理に従って区分されたものであるが、上記の区分に限定されるものではなく、対応する機能を実現できればよい。なお、各機能ユニットの名称は、相互の区別を容易にするためのものであり、本出願の保護範囲を限定するものではない。
【符号の説明】
【0104】
410 再構築パラメータ推定モジュール
420 3次元顔再構築モジュール
50 プロセッサ
51 記憶装置
52 通信装置
図1A
図1B
図1C
図1D
図2A
図2B
図3A
図3B
図3C
図4
図5
【国際調査報告】