(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-06-13
(54)【発明の名称】三次元人体再構成方法、装置、デバイスおよび記憶媒体
(51)【国際特許分類】
G06T 17/10 20060101AFI20240606BHJP
G06T 7/00 20170101ALI20240606BHJP
G06V 10/82 20220101ALI20240606BHJP
【FI】
G06T17/10
G06T7/00 350C
G06V10/82
G06T7/00 660A
G06T7/00 660B
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023574335
(86)(22)【出願日】2021-08-27
(85)【翻訳文提出日】2023-11-30
(86)【国際出願番号】 CN2021115122
(87)【国際公開番号】W WO2022205760
(87)【国際公開日】2022-10-06
(31)【優先権主張番号】202110352199.4
(32)【優先日】2021-03-31
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521520371
【氏名又は名称】深▲セン▼市慧▲鯉▼科技有限公司
【氏名又は名称原語表記】Shenzhen Tetras.AI Technology Co., Ltd.
【住所又は居所原語表記】Room 201, Block A, No.1, Qianwan Road 1, Qianhaishen Port Cooperative District, Shenzhen, GUANGDONG China. (Shenzhen Qianhai Commerce Secretariat Co., Ltd.)
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】宋 勃宇
(72)【発明者】
【氏名】▲デン▼ 又▲銘▼
(72)【発明者】
【氏名】▲劉▼ 文▲タオ▼
(72)【発明者】
【氏名】▲錢▼ 晨
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096AA09
5L096FA09
5L096GA40
5L096HA11
5L096KA04
(57)【要約】
本発明の実施例は、三次元人体再構成方法、装置、デバイスおよび記憶媒体を提供する。当該方法は、目標人体の人体画像に基づいて人体幾何再構成を行い、目標人体の三次元メッシュモデルを取得するステップと、人体画像に基づいて、目標人体の局所部位に対して局所幾何再構成を行い、局所部位の三次元メッシュモデルを取得するステップと、局所部位の三次元メッシュモデルと目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するステップと、初期三次元モデルと人体画像とに基づいて人体テクスチャの再構成を行い、目標人体の三次元人体モデルを取得するステップとを含んでもよい。本発明の実施例によると、目標人体の三次元メッシュモデルにおける局所部位がより鮮明且つ正確になり、局所部位の再構成効果が向上する。
【特許請求の範囲】
【請求項1】
目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するステップと、
前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するステップと、
前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するステップと、
前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するステップと、を含むことを特徴とする三次元人体再構成方法。
【請求項2】
前記目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するステップは、
第1深層ニューラルネットワークブランチを介して前記目標人体の人体画像に対して三次元再構成を行い、第1人体モデルを取得するステップと、
第2深層ニューラルネットワークブランチを介して前記人体画像中の局所画像に対して三次元再構成を行い、第2人体モデルを取得するステップと、
前記第1人体モデルと前記第2人体モデルとを融合し、融合人体モデルを取得するステップと、
前記融合人体モデルに対してメッシュ化処理を行い、前記目標人体の三次元メッシュモデルを取得するステップと、を含み、
前記局所画像は、前記目標人体の局所領域を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記第1深層ニューラルネットワークブランチは、グローバル特徴サブネットワークと第1フィッティングサブネットワークとを含み、前記第2深層ニューラルネットワークブランチは、局所特徴サブネットワークと第2フィッティングサブネットワークとを含み、
前記第1深層ニューラルネットワークブランチを介して前記目標人体の人体画像に対して三次元再構成を行い、第1人体モデルを取得するステップは、前記グローバル特徴サブネットワークを介して前記人体画像に対して特徴抽出を行い、第1画像特徴を取得するステップと、前記第1フィッティングサブネットワークを介して前記第1画像特徴に基づいて前記第1人体モデルを取得するステップと、を含み、
前記第2深層ニューラルネットワークブランチを介して前記人体画像中の局所画像に対して三次元再構成を行い、第2人体モデルを取得するステップは、前記局所特徴サブネットワークを介して前記局所画像に対して特徴抽出を行い、第2画像特徴を取得するステップと、前記第2フィッティングサブネットワークを介して、前記第2画像特徴と前記第1フィッティングサブネットワークから出力された中間特徴とに基づいて、前記第2人体モデルを取得するステップと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するステップは、
前記目標人体の人体画像に対して特徴抽出を行い、第3画像特徴を取得するステップと、
前記第3画像特徴と前記局所部位の三次元トポロジーテンプレートとに基づいて、前記局所部位の三次元メッシュモデルを特定するステップと、を含むことを特徴とする請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するステップは、
前記目標人体の人体画像に基づいて、前記局所部位の複数のキーポイントを取得するステップと、
前記目標人体の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第1モデルキーポイントの情報を特定し、且つ、前記局所部位の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第2モデルキーポイントの情報を特定するステップと、
前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するステップと、を含むことを特徴とする請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するステップは、
前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記目標人体の三次元メッシュモデルと前記局所部位の三次元メッシュモデルとの間の座標変換関係を特定するステップと、
前記座標変換関係に基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルの座標系に変換するステップと、
変換後の座標系において前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するステップと、を含むことを特徴とする請求項5に記載の方法。
【請求項7】
前記人体画像は、前記目標人体の正面テクスチャと背景画像とを含み、
前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するステップは、
前記人体画像に対して人体分割を行い、第1分割マスクと、第2分割マスクと、前記目標人体の正面テクスチャとを取得するステップと、
前記正面テクスチャと、前記第1分割マスクと、前記第2分割マスクとをテクスチャ生成ネットワークに入力し、前記目標人体の裏面テクスチャを取得するステップと、
前記裏面テクスチャと前記正面テクスチャとに基づいて、前記目標人体に対応する、テクスチャを有する三次元人体モデルを取得するステップと、を含み、
前記第1分割マスクは、前記正面テクスチャのマスク領域に対応し、前記第2分割マスクは、前記目標人体の裏面テクスチャのマスク領域に対応することを特徴とする請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記テクスチャ生成ネットワークのトレーニングは、
トレーニングサンプル画像セットにおける人体サンプルの画像に対して人体分割を行い、第1サンプル分割マスクと、第2サンプル分割マスクと、前記人体サンプルの正面テクスチャとを取得する処理と、
前記人体サンプルの画像の解像度を低減することで取得された支援人体画像中の人体の正面テクスチャと、第3サンプル分割マスクと、第4サンプル分割マスクとに基づいて、支援テクスチャ生成ネットワークをトレーニングする処理と、
前記支援テクスチャ生成ネットワークのトレーニングが完了した後、前記人体サンプルの正面テクスチャと、前記第1サンプル分割マスクと、前記第2サンプル分割マスクとに基づいて、前記テクスチャ生成ネットワークをトレーニングする処理と、を含み、
前記第1サンプル分割マスクは、前記人体サンプルの正面テクスチャのマスク領域に対応し、前記第2サンプル分割マスクは、前記人体サンプルの裏面テクスチャのマスク領域に対応し、
前記第3サンプル分割マスクは、前記支援人体画像中の人体の正面テクスチャのマスク領域に対応し、前記第4サンプル分割マスクは、前記支援人体画像中の人体の裏面テクスチャのマスク領域に対応し、
前記テクスチャ生成ネットワークのネットワークパラメータは、トレーニングが完了した前記支援テクスチャ生成ネットワークの少なくとも一部のネットワークパラメータを含むことを特徴とする請求項7に記載の方法。
【請求項9】
前記目標人体の局所部位は、前記目標人体の顔であり、および/または、
前記人体画像は、RGB画像であることを特徴とする請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記目標人体の人体画像に基づいて人体幾何再構成を行うときに、前記目標人体の人体骨格構造を取得するステップと、
前記目標人体の三次元人体モデルが取得された後、前記三次元人体モデルと前記人体骨格構造とに基づいて、前記三次元人体モデルを駆動するためのスキニング重みを特定するステップと、をさらに含むことを特徴とする請求項1から9のいずれか一項に記載の方法。
【請求項11】
目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するための全体再構成モジュールと、
前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するための局所再構成モジュールと、
前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するための融合処理モジュールと、
前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するためのテクスチャ再構成モジュールと、を備えることを特徴とする三次元人体再構成装置。
【請求項12】
前記全体再構成モジュールは、前記目標人体の三次元メッシュモデルを取得するときに、具体的に、
第1深層ニューラルネットワークブランチを介して前記目標人体の人体画像に対して三次元再構成を行い、第1人体モデルを取得し、
第2深層ニューラルネットワークブランチを介して前記人体画像中の局所画像に対して三次元再構成を行い、第2人体モデルを取得し、
前記第1人体モデルと前記第2人体モデルとを融合し、融合人体モデルを取得し、
前記融合人体モデルに対してメッシュ化処理を行い、前記目標人体の三次元メッシュモデルを取得するために用いられ、
前記局所画像は、前記目標人体の局所領域を含むことを特徴とする請求項11に記載の装置。
【請求項13】
前記局所再構成モジュールは、具体的に、
前記目標人体の人体画像に対して特徴抽出を行い、第3画像特徴を取得し、
前記第3画像特徴と前記局所部位の三次元トポロジーテンプレートとに基づいて、前記局所部位の三次元メッシュモデルを特定するために用いられることを特徴とする請求項11または12に記載の装置。
【請求項14】
前記融合処理モジュールは、具体的に、
前記目標人体の人体画像に基づいて、前記局所部位の複数のキーポイントを取得し、
前記目標人体の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第1モデルキーポイントの情報を特定し、且つ、前記局所部位の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第2モデルキーポイントの情報を特定し、
前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するために用いられることを特徴とする請求項11から13のいずれか一項に記載の装置。
【請求項15】
前記融合処理モジュールは、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するときに、具体的に、
前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記目標人体の三次元メッシュモデルと前記局所部位の三次元メッシュモデルとの間の座標変換関係を特定し、
前記座標変換関係に基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルの座標系に変換し、
変換後の座標系において前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するために用いられることを特徴とする請求項14に記載の装置。
【請求項16】
前記テクスチャ再構成モジュールは、具体的に、
前記人体画像に対して人体分割を行い、第1分割マスクと、第2分割マスクと、前記目標人体の正面テクスチャとを取得し、
前記正面テクスチャと、前記第1分割マスクと、前記第2分割マスクとをテクスチャ生成ネットワークに入力し、前記目標人体の裏面テクスチャを取得し、
前記裏面テクスチャと前記正面テクスチャとに基づいて、前記目標人体に対応する、テクスチャを有する三次元人体モデルを取得するために用いられ、
前記第1分割マスクは、前記正面テクスチャのマスク領域に対応し、前記第2分割マスクは、前記目標人体の裏面テクスチャのマスク領域に対応することを特徴とする請求項11から15のいずれか一項に記載の装置。
【請求項17】
前記三次元人体再構成装置は、前記テクスチャ生成ネットワークのトレーニングを行うためのモデルトレーニングモジュールをさらに備え、
前記モデルトレーニングモジュールは、具体的に、
トレーニングサンプル画像セットにおける人体サンプルの画像に対して人体分割を行い、第1サンプル分割マスクと、第2サンプル分割マスクと、前記人体サンプルの正面テクスチャとを取得し、
前記人体サンプルの画像の解像度を低減することで取得された支援人体画像中の人体の正面テクスチャと、第3サンプル分割マスクと、第4サンプル分割マスクとに基づいて、支援テクスチャ生成ネットワークをトレーニングし、
前記支援テクスチャ生成ネットワークのトレーニングが完了した後、前記人体サンプルの正面テクスチャと、前記第1サンプル分割マスクと、前記第2サンプル分割マスクとに基づいて、前記テクスチャ生成ネットワークをトレーニングするために用いられ、
前記第1サンプル分割マスクは、前記人体サンプルの正面テクスチャのマスク領域に対応し、前記第2サンプル分割マスクは、前記人体サンプルの裏面テクスチャのマスク領域に対応し、前記第3サンプル分割マスクは、前記支援人体画像中の人体の正面テクスチャのマスク領域に対応し、前記第4サンプル分割マスクは、前記支援人体画像中の前記人体の裏面テクスチャのマスク領域に対応し、前記テクスチャ生成ネットワークのネットワークパラメータは、トレーニングが完了した前記支援テクスチャ生成ネットワークの少なくとも一部のネットワークパラメータを含むことを特徴とする請求項16に記載の装置。
【請求項18】
電子デバイスであって、
メモリと、プロセッサとを備え、
前記メモリは、コンピュータ可読命令を記憶するために用いられ、前記プロセッサは、前記コンピュータ命令を呼び出すことにより、請求項1から10のいずれか一項に記載の方法を実施するために用いられることを特徴とする電子デバイス。
【請求項19】
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1から10のいずれか一項に記載の方法が実施されることを特徴とするコンピュータ可読記憶媒体。
【請求項20】
コンピュータプログラムを含むコンピュータプログラム製品であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1から10のいずれか一項に記載の方法が実施されることを特徴とするコンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互引用]
本願は、2021年3月31日に提出された、出願番号202110352199.4、発明の名称が「三次元人体再構成方法、装置、デバイスおよび記憶媒体」である中国特許出願の優先権を主張し、当該中国特許出願の内容が引用によって本願に組み込まれる。
【0002】
本発明は、画像処理技術に関し、具体的に三次元人体再構成方法、装置、デバイスおよび記憶媒体に関する。
【背景技術】
【0003】
三次元人体再構成は、コンピュータビジョンおよびコンピュータグラフィックス分野における重要な問題である。再構成された人体デジタルモデルは、人体測定、仮想試着、仮想ライバー、ゲームキャラクタのカスタムデザイン、仮想現実ソーシャルなど、多くの分野において重要な応用を有する。その中、如何にして実世界の人体を仮想世界に投影して三次元人体デジタルモデルを取得するかは、重要な問題となっている。しかし、三次元人体のデジタル化再構成は、非常に複雑であり、スキャン者がスキャン対象に対して複数の角度で死角なく連続的にスキャンする必要があり、再構成結果には、局所再構成効果が十分に繊細ではないという問題も存在する。
【発明の概要】
【0004】
これに鑑みて、本発明の実施例は、少なくとも三次元人体再構成方法、装置、デバイスおよび記憶媒体を提供する。
【0005】
第1態様は、三次元人体再構成方法を提供する。前記三次元人体再構成方法は、
目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するステップと、
前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するステップと、
前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するステップと、
前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するステップと、を含む。
【0006】
一例において、前記目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するステップは、第1深層ニューラルネットワークブランチを介して前記目標人体の人体画像に対して三次元再構成を行い、第1人体モデルを取得するステップと、第2深層ニューラルネットワークブランチを介して前記人体画像中の局所画像に対して三次元再構成を行い、第2人体モデルを取得するステップと、前記第1人体モデルと前記第2人体モデルとを融合し、融合人体モデルを取得するステップと、前記融合人体モデルに対してメッシュ化処理を行い、前記目標人体の三次元メッシュモデルを取得するステップと、を含み、前記局所画像は、前記目標人体の局所領域を含む。
【0007】
一例において、前記第1深層ニューラルネットワークブランチは、グローバル特徴サブネットワークと第1フィッティングサブネットワークとを含み、前記第2深層ニューラルネットワークブランチは、局所特徴サブネットワークと第2フィッティングサブネットワークとを含み、前記第1深層ニューラルネットワークブランチを介して前記目標人体の人体画像に対して三次元再構成を行い、第1人体モデルを取得するステップは、前記グローバル特徴サブネットワークを介して前記人体画像に対して特徴抽出を行い、第1画像特徴を取得するステップと、前記第1フィッティングサブネットワークを介して前記第1画像特徴に基づいて前記第1人体モデルを取得するステップと、を含み、前記第2深層ニューラルネットワークブランチを介して前記人体画像中の局所画像に対して三次元再構成を行い、第2人体モデルを取得するステップは、前記局所特徴サブネットワークを介して前記局所画像に対して特徴抽出を行い、第2画像特徴を取得するステップと、前記第2フィッティングサブネットワークを介して、前記第2画像特徴と前記第1フィッティングサブネットワークから出力された中間特徴とに基づいて、前記第2人体モデルを取得するステップと、を含む。
【0008】
一例において、前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するステップは、前記目標人体の人体画像に対して特徴抽出を行い、第3画像特徴を取得するステップと、前記第3画像特徴と前記局所部位の三次元トポロジーテンプレートとに基づいて、前記局所部位の三次元メッシュモデルを特定するステップと、を含む。
【0009】
一例において、前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するステップは、前記目標人体の人体画像に基づいて、前記局所部位の複数のキーポイントを取得するステップと、前記目標人体の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第1モデルキーポイントの情報を特定し、且つ、前記局所部位の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第2モデルキーポイントの情報を特定するステップと、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するステップと、を含む。
【0010】
一例において、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するステップは、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記目標人体の三次元メッシュモデルと前記局所部位の三次元メッシュモデルとの間の座標変換関係を特定するステップと、前記座標変換関係に基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルの座標系に変換するステップと、変換後の座標系において前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するステップと、を含む。
【0011】
一例において、前記人体画像は、前記目標人体の正面テクスチャと背景画像とを含み、前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するステップは、前記人体画像に対して人体分割を行い、第1分割マスクと、第2分割マスクと、前記目標人体の正面テクスチャとを取得するステップと、前記正面テクスチャと、前記第1分割マスクと、前記第2分割マスクとをテクスチャ生成ネットワークに入力し、前記目標人体の裏面テクスチャを取得するステップと、前記裏面テクスチャと前記正面テクスチャとに基づいて、前記目標人体に対応する、テクスチャを有する三次元人体モデルを取得するステップと、を含み、前記第1分割マスクは、前記正面テクスチャのマスク領域に対応し、前記第2分割マスクは、前記目標人体の裏面テクスチャのマスク領域に対応する。
【0012】
一例において、前記テクスチャ生成ネットワークのトレーニングは、トレーニングサンプル画像セットにおける人体サンプルの画像に対して人体分割を行い、第1サンプル分割マスクと、第2サンプル分割マスクと、前記人体サンプルの正面テクスチャとを取得する処理と、前記人体サンプルの画像の解像度を低減することで取得された支援人体画像中の人体の正面テクスチャと、第3サンプル分割マスクと、第4サンプル分割マスクとに基づいて、支援テクスチャ生成ネットワークをトレーニングする処理と、前記支援テクスチャ生成ネットワークのトレーニングが完了した後、前記人体サンプルの正面テクスチャと、前記第1サンプル分割マスクと、前記第2サンプル分割マスクとに基づいて、前記テクスチャ生成ネットワークをトレーニングする処理と、を含み、前記第1サンプル分割マスクは、前記人体サンプルの正面テクスチャのマスク領域に対応し、前記第2サンプル分割マスクは、前記人体サンプルの裏面テクスチャのマスク領域に対応し、前記第3サンプル分割マスクは、前記支援人体画像中の人体の正面テクスチャのマスク領域に対応し、前記第4サンプル分割マスクは、前記支援人体画像中の人体の裏面テクスチャのマスク領域に対応し、前記テクスチャ生成ネットワークのネットワークパラメータは、トレーニングが完了した前記支援テクスチャ生成ネットワークの少なくとも一部のネットワークパラメータを含む。
【0013】
一例において、前記目標人体の局所部位は、前記目標人体の顔であり、および/または、前記人体画像は、RGB画像である。
【0014】
一例において、前記三次元人体再構成方法は、前記目標人体の人体画像に基づいて人体幾何再構成を行うときに、前記目標人体の人体骨格構造を取得するステップと、前記目標人体の三次元人体モデルが取得された後、前記三次元人体モデルと前記人体骨格構造とに基づいて、前記三次元人体モデルを駆動するためのスキニング重みを特定するステップと、をさらに含む。
【0015】
第2態様は、三次元人体再構成装置を提供する。前記三次元人体再構成装置は、
目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するための全体再構成モジュールと、
前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するための局所再構成モジュールと、
前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するための融合処理モジュールと、
前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するためのテクスチャ再構成モジュールと、を備える。
【0016】
一例において、前記全体再構成モジュールは、前記目標人体の三次元メッシュモデルを取得するときに、具体的に、第1深層ニューラルネットワークブランチを介して前記目標人体の人体画像に対して三次元再構成を行い、第1人体モデルを取得し、第2深層ニューラルネットワークブランチを介して前記人体画像中の局所画像に対して三次元再構成を行い、第2人体モデルを取得し、前記第1人体モデルと前記第2人体モデルとを融合し、融合人体モデルを取得し、前記融合人体モデルに対してメッシュ化処理を行い、前記目標人体の三次元メッシュモデルを取得するために用いられ、前記局所画像は、前記目標人体の局所領域を含む。
【0017】
一例において、前記局所再構成モジュールは、具体的に、前記目標人体の人体画像に対して特徴抽出を行い、第3画像特徴を取得し、前記第3画像特徴と前記局所部位の三次元トポロジーテンプレートとに基づいて、前記局所部位の三次元メッシュモデルを特定するために用いられる。
【0018】
一例において、前記融合処理モジュールは、具体的に、前記目標人体の人体画像に基づいて、前記局所部位の複数のキーポイントを取得し、前記目標人体の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第1モデルキーポイントの情報を特定し、且つ、前記局所部位の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第2モデルキーポイントの情報を特定し、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するために用いられる。
【0019】
一例において、前記融合処理モジュールは、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するときに、具体的に、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記目標人体の三次元メッシュモデルと前記局所部位の三次元メッシュモデルとの間の座標変換関係を特定し、前記座標変換関係に基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルの座標系に変換し、変換後の座標系において前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するために用いられる。
【0020】
一例において、前記テクスチャ再構成モジュールは、具体的に、前記人体画像に対して人体分割を行い、第1分割マスクと、第2分割マスクと、前記目標人体の正面テクスチャとを取得し、前記正面テクスチャと、前記第1分割マスクと、前記第2分割マスクとをテクスチャ生成ネットワークに入力し、前記目標人体の裏面テクスチャを取得し、前記裏面テクスチャと前記正面テクスチャとに基づいて、前記目標人体に対応する、テクスチャを有する三次元人体モデルを取得するために用いられ、前記第1分割マスクは、前記正面テクスチャのマスク領域に対応し、前記第2分割マスクは、前記目標人体の裏面テクスチャのマスク領域に対応する。
【0021】
一例において、前記三次元人体再構成装置は、前記テクスチャ生成ネットワークのトレーニングを行うためのモデルトレーニングモジュールをさらに備え、前記モデルトレーニングモジュールは、具体的に、トレーニングサンプル画像セットにおける人体サンプルの画像に対して人体分割を行い、第1サンプル分割マスクと、第2サンプル分割マスクと、前記人体サンプルの正面テクスチャとを取得し、前記人体サンプルの画像の解像度を低減することで取得された支援人体画像中の人体の正面テクスチャと、第3サンプル分割マスクと、第4サンプル分割マスクとに基づいて、支援テクスチャ生成ネットワークをトレーニングし、前記支援テクスチャ生成ネットワークのトレーニングが完了した後、前記人体サンプルの正面テクスチャと、前記第1サンプル分割マスクと、前記第2サンプル分割マスクとに基づいて、前記テクスチャ生成ネットワークをトレーニングするために用いられ、前記第1サンプル分割マスクは、前記人体サンプルの正面テクスチャのマスク領域に対応し、前記第2サンプル分割マスクは、前記人体サンプルの裏面テクスチャのマスク領域に対応し、前記第3サンプル分割マスクは、前記支援人体画像中の人体の正面テクスチャのマスク領域に対応し、前記第4サンプル分割マスクは、前記支援人体画像中の前記人体の裏面テクスチャのマスク領域に対応し、前記テクスチャ生成ネットワークのネットワークパラメータは、トレーニングが完了した前記支援テクスチャ生成ネットワークの少なくとも一部のネットワークパラメータを含む。
【0022】
第3態様は、電子デバイスを提供する。当該電子デバイスは、メモリと、プロセッサとを備え、前記メモリは、コンピュータ可読命令を記憶するために用いられ、前記プロセッサは、前記コンピュータ命令を呼び出すことにより、本発明のいずれかの実施例に記載の方法を実施するために用いられる。
【0023】
第4態様は、コンピュータ可読記憶媒体を提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されると、本発明のいずれかの実施例に記載の方法が実施される。
【0024】
第5態様は、コンピュータプログラム製品を提供する。当該コンピュータプログラム製品は、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されると、本発明のいずれかの実施例に記載の方法が実施される。
【0025】
本発明の実施例に係る三次元人体再構成方法、装置、デバイスおよび記憶媒体では、目標人体の局所部位に対して局所幾何再構成を行い、当該局所幾何再構成で得られた局所部位の三次元メッシュモデルと目標人体の三次元メッシュモデルとを融合することにより、目標人体の三次元メッシュモデル中の局所部位がより鮮明、繊細且つ正確になり、局所部位の再構成効果が向上する。また、当該方法では、目標人体の単一の人体画像に基づいて再構成を行うことができるため、ユーザの協力手順が簡素化され、三次元人体再構成がより簡便になる。
【図面の簡単な説明】
【0026】
本発明の1つもしくは複数の実施例または関連技術における技術案がより明瞭に説明されるように、以下では、本発明の実施例または関連技術の記述に使用必要な図面を簡単に紹介する。明らかに、以下の記述に係る図面が単に本発明の1つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者であれば、創造的な労力を掛けずにこれらの図面から他の図面を取得可能である。
【
図1】本発明の少なくとも1つの実施例に係る三次元人体再構成方法のフローチャートを示す。
【
図2】本発明の少なくとも1つの実施例に係る単一の人体画像に基づいて三次元メッシュモデルを取得する方式の模式図を示す。
【
図3】本発明の少なくとも1つの実施例に係る初期三次元モデルの取得手順の模式図を示す。
【
図4】本発明の少なくとも1つの実施例に係るテクスチャ再構成手順の模式図を示す。
【
図5】本発明の少なくとも1つの実施例に係るスキニング重みの特定手順の模式図を示す。
【
図6】本発明の少なくとも1つの実施例に係る単一の人体画像に基づいて三次元メッシュモデルを取得する方式の模式図を示す。
【
図7】本発明の少なくとも1つの実施例に係るテクスチャ生成の原理模式図を示す。
【
図8】本発明の少なくとも1つの実施例に係るテクスチャ生成ネットワークのトレーニング手順の模式図を示す。
【
図9】本発明の少なくとも1つの実施例に係る人体画像の模式図を示す。
【
図10】本発明の少なくとも1つの実施例に係る三次元人体再構成装置の構成図を示す。
【
図11】本発明の少なくとも1つの実施例に係る三次元人体再構成装置の構成図を示す。
【発明を実施するための形態】
【0027】
本発明の1つまたは複数の実施例における技術案が当業者によってより良好に理解されるように、以下では、本発明の1つまたは複数の実施例における図面を組み合わせて本発明の1つまたは複数の実施例における技術案を明瞭かつ完全に記述する。明らかに、記述される実施例は、単に本発明の一部の実施例であり、全部の実施例ではない。本発明の1つまたは複数の実施例に基づいて当業者が創造的な労力を掛けずに得た全ての他の実施例は、いずれも本発明の保護範囲に含まれるべきである。
【0028】
三次元人体再構成は、多くの分野において重要な応用を有し、以下の応用シーンを含むが、それに限定されない。
【0029】
例えば、三次元人体再構成により、いくつかの仮想現実応用シーンの現実感を強化することができる。仮想現実応用シーンとして、例えば、仮想試着、仮想クラウド会議、仮想授業などがある。
【0030】
さらに例えば、三次元人体再構成によって得られた三次元人体モデルをゲームデータに導入して、パーソナライズされた人物キャラクタを作成してもよい。
【0031】
よりさらに例えば、現在、SF映画の作成には、グリーンスクリーン、モーションキャプチャなどの様々な科学技術を使用する必要があり、ハードウェアデバイスは高価であり、全体的なフローは時間がかかって煩雑である。三次元人体再構成によって仮想的な三次元人体モデルを取得することにより、フローを簡略化し、リソースを節約することができる。
【0032】
どのような応用シーンにもかかわらず、三次元人体再構成は、以下の需要が存在する。一方では、ユーザの協力手順をできるだけ簡素化し、例えば、ユーザーが多角度のスキャンを協力する必要があり、ユーザに多くの協力を提供させるため、ユーザにとって体験が悪い。他方では、精度のより高い三次元人体モデルをできるだけ取得する必要があり、例えば、仮想クラウド会議またはAR仮想インタラクションシーンにおいて、三次元人体再構成で得られた三次元人体モデルは、より高い現実感および没入感の需要を有する。
【0033】
上記問題を解決するために、本発明の実施例は、三次元人体再構成方法を提供する。当該方法は、ユーザの1枚の写真に基づいて当該ユーザの三次元人体再構成を行うことを要旨とし、ユーザの協力フローを簡素化し、高精度の再構成効果を達成する。
【0034】
図1に示すように、
図1は、本発明の少なくとも1つの実施例に係る三次元人体再構成方法のフローチャートを示す。当該方法は、ステップ100~ステップ106を含んでもよい。
【0035】
ステップ100では、目標人体の単一の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得する。
【0036】
目標人体は、三次元人体再構成の基礎ユーザである。例えば、ユーザの張さんに対して三次元人体再構成を行い、張さんは、目標人体と呼ばれてもよく、再構成された三次元人体モデルも張さんの体を基にして得られたものであり、張さんの体勢、容貌、服装および髪型などと高い類似性を有する。
【0037】
前記単一の人体画像は、当該目標人体の1枚の人体画像である。本発明の実施例では、当該人体画像の収集方式、フォーマットに関して特別な要求がない。1つの例示的な方式において、当該単一の人体画像は、目標人体の1枚の人体全身正面写真であってもよい。さらに例えば、当該単一の人体画像は、RGBカラー画像であってもよい。このようなRGBフォーマットの画像の入手コストが低い。例えば、画像収集時には、被写界深度カメラなどのコストの高いデバイスを使用する必要がなく、通常の撮影デバイスで収集することができる
【0038】
本ステップでは、目標人体の単一の人体画像に基づいて人体幾何再構成を行い、三次元メッシュモデルを取得してもよい。当該三次元メッシュモデルは、人体幾何形状を表す三次元メッシュMeshであり、当該メッシュは、いくつかの頂点および面を含む。
【0039】
一例示において、本実施例では、さらに、上記再構成によって得られた三次元メッシュMeshと予め記憶された1つのパラメータ化された人体モデルとに対して姿勢と体型との整列フィッティングを行ってもよい。具体的に、当該パラメータ化人体モデルは、1つの人体表面のmeshおよび1グループの骨格構造を含み、それらは、1グループの姿勢、体型パラメータによって制御され、人体の骨格位置および表面形状は、パラメータ値の変化とともに変化する。本ステップ100の再構成で得られた三次元メッシュMeshと当該パラメータ化された人体モデルとに対して幾何整列を行った後、本ステップ100の再構成で得られた三次元メッシュMeshに対応する骨格構造を取得する。当該骨格構造は、後のステップにおけるスキニング重みの算出に用いられる。
【0040】
図2は、単一の人体画像の再構成に基づいて三次元メッシュモデルを取得する方式を例示する。
図2に示すように、目標人体の単一の人体画像21を第1深層ニューラルネットワークブランチ22に入力して三次元再構成を行わせてもよい。1つの例示的な実施形態において、当該第1深層ニューラルネットワークブランチ22は、グローバル特徴サブネットワーク221および第1フィッティングサブネットワーク222を含んでもよい。
【0041】
グローバル特徴サブネットワーク221を介して単一の人体画像21に対して特徴抽出を行い、当該単一の人体画像21のハイレベル画像特徴を取得してもよい。当該ハイレベル画像特徴は、第1画像特徴と呼称されてもよい。例えば、当該グローバル特徴サブネットワーク221は、1つのHourGlass畳み込みネットワークであってもよい。当該第1画像特徴は、第1フィッティングサブネットワーク222に入力される。当該第1フィッティングサブネットワーク222は、第1画像特徴に基づいて、三次元空間の各ボクセルブロックが目標人体の内部に属するか否かを予測してもよい。例えば、当該第1フィッティングサブネットワーク222は、1つの多層パーセプトロン構造であってもよい。当該第1フィッティングサブネットワーク222は、第1人体モデルを出力し、当該第1人体モデルは、目標人体内部に位置する各三次元ボクセルブロックを含む。
【0042】
次に、当該第1人体モデルに対してメッシュ化処理を行ってもよい。例えば、当該メッシュ化処理は、当該第1人体モデルについてボクセル空間においてMarchingCubesアルゴリズムを用いて、目標人体の三次元メッシュモデルを取得することであってもよい。
【0043】
ステップ102では、前記目標人体の単一の人体画像に基づいて前記目標人体の局所部位に対して局所ハイビジョン幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得する。
【0044】
ステップ100における再構成で得られた目標人体の三次元メッシュモデルは、目標人体の局所部位においてぼやけている可能性がある。例えば、当該局所部位は、顔であってもよく、他の局所部位、例えば、手部などの細部特徴を体現する必要のある部位であってもよい。上記三次元メッシュモデルが目標人体の顔の細部においてぼやけており、顔が一般的にユーザの注目する領域であるため、本ステップでは、目標人体の局所部位に対して個別に幾何再構成を行ってもよい。
【0045】
前記局所部位が顔であることを例とする。人体の顔に対する再構成は、固定トポロジーの微細再構成を採用してもよく、即ち、目標人体の単一の人体画像に対して特徴抽出を行って得られた画像特徴に基づいて、顔の三次元トポロジーテンプレートにおける各頂点の位置に対してフィッティングを行い、顔の三次元メッシュモデルを取得してもよい。具体的に、人体の顔の意味構造が一致性を有するため、1つの固定のトポロジー構造を持つ三次元顔をテンプレートとして採用してもよい。当該テンプレートは、顔の三次元トポロジーテンプレートと呼称されてもよい。当該テンプレートに複数の頂点があり、各頂点は、1つの顔意味に固定的に対応し、例えば、1つの頂点が鼻先を表し、もう1つの頂点が目尻を表す。顔再構成時に、1つの深層ニューラルネットワークを介して上記顔の三次元トポロジーテンプレートの各頂点位置を回帰によって取得してもよい。
【0046】
例えば、当該深層ニューラルネットワークは、1つの深層畳み込みネットワークと1つのグラフ畳み込みネットワークとを含んでもよい。目標人体の単一の人体画像を前記深層畳み込みネットワークに入力して画像特徴を抽出してもよい。抽出された特徴は、第3画像特徴と呼称されてもよい。さらに、当該第3画像特徴と顔の三次元トポロジーテンプレートとをグラフ畳み込みネットワークの入力として、最終的にグラフ畳み込みネットワークから出力された1つの顔の三次元メッシュモデルを取得してもよい。当該三次元メッシュモデルは、目標人体の顔に近い。オプションで、深層畳み込みネットワークの入力は、目標人体の単一の人体画像から切り出された、顔を含む一部の画像領域であってもよい。
【0047】
ステップ104では、前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得する。
【0048】
ステップ100における再構成で得られた目標人体の三次元メッシュモデルは、人体の局所部位において多少ぼやけている可能性がある。当該局所部位は顔であることを例とする。ステップ102では、顔の個別幾何再構成によって顔の三次元メッシュモデルを取得した。本ステップでは、顔の三次元メッシュモデルでステップ100における目標人体の三次元メッシュモデル中の対応部分を置き換えてもよい。このように、目標人体の三次元メッシュモデルにおける頭型、体型、体勢などの情報を保留しつつ、顔の五感構造をより繊細且つ正確にすることができ、より良好な再構成効果を達成する。もちろん、理解できるように、ここで単に局所部位が顔であることを例としたが、実際の実施において他の局所部位を個別に再構成してより鮮明にしてもよい。
【0049】
具体的に、目標人体の単一の人体画像を予めトレーニングされたキーポイント検出モデルに入力し、当該キーポイント検出モデルを介して画像中の目標人体の局所部位の複数のキーポイントを特定してもよい。
図3を参照し、依然として局所部位が顔であることを例とすると、顔の複数のキーポイント31が取得された後、これらのキーポイント31の顔における座標に基づいて、キーポイントの、前記目標人体の三次元メッシュモデルと顔の三次元メッシュモデルとにおける、対応するモデルキーポイントをそれぞれ特定してもよい。具体的に、顔の複数のキーポイントの、目標人体の三次元メッシュモデルにおける対応する複数の第1モデルキーポイントの情報を特定してもよい。例えば、当該情報は、各第1モデルキーポイントのキーポイント識別子と、対応するキーポイント位置とを含んでもよい。さらに、当該顔の複数のキーポイントの、顔の三次元メッシュモデルにおける対応する第2モデルキーポイントの情報を特定してもよい。例えば、当該情報は、各第2モデルキーポイントのキーポイント識別子と対応するキーポイント位置とを含んでもよい。
【0050】
上記第1モデルキーポイントの情報と第2モデルキーポイントの情報とが取得された後、当該第1モデルキーポイントの情報と第2モデルキーポイントの情報とに基づいて、顔の三次元メッシュモデルを目標人体の三次元メッシュモデルと融合して初期三次元モデルを取得してもよい。
【0051】
本発明の実施例において、顔の三次元メッシュモデルを目標人体の三次元メッシュモデルと融合するステップは、第1モデルキーポイントの情報と第2モデルキーポイントの情報とに基づいて、この2つのモデルのカメラ外部パラメータを用いて、目標人体の三次元メッシュモデルと顔の三次元メッシュモデルとの間の座標変換関係を特定するステップと、当該座標変換関係に基づいて、顔の三次元メッシュモデルを目標人体の三次元メッシュモデルの座標系に変換するステップと、変換後の座標系において、顔の三次元メッシュモデルを目標人体の三次元メッシュモデルと融合するステップと、を含んでもよい。例えば、目標人体の三次元メッシュモデル上の顔の幾何構造を除去し、顔の三次元メッシュモデルで補完し、ポアソン再構成の方式によって顔の三次元メッシュモデルと目標人体の三次元メッシュモデルとを1つの全体として融合してもよい。取得されたモデルは、初期三次元モデルと呼称されてもよい。当該初期三次元モデルは、鮮明な五感構造および類似する頭型、体勢などの情報を有し、精度が高い。
【0052】
ステップ106では、前記初期三次元モデルと前記単一の人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の、カラーテクスチャを有する三次元人体モデルを取得する。
【0053】
本実施例は、目標人体の単一の人体画像に基づいて三次元人体再構成を行うため、一部の人体領域が不可視である。例えば、目標人体の正面人体画像を用いて再構成を行う場合に、当該目標人体の裏面が不可視であるため、テクスチャ欠落の問題を引き起こす。したがって、本ステップでは、初期三次元モデルと目標人体の単一の人体画像とに基づいて、目標人体の不可視領域の人体テクスチャの予測および補完を行い、前記単一の人体画像中の人体テクスチャと融合し、テクスチャ完全な三次元人体モデルを生成してもよい。
【0054】
図4に示すように、目標人体の単一の人体画像が正面画像であることを例とすると、ディープラーニングネットワークを用いて人体裏面テクスチャ41の予測を行い、当該人体裏面テクスチャ41と単一の人体画像中の人体正面テクスチャ42とを用いて、初期三次元モデルに対してテクスチャマッピングを行い、即ち、初期三次元モデルに対してテクスチャ再構成を行ってもよい。
図4における三次元モデル43には、既に上記人体裏面および正面テクスチャを初期三次元モデルにマッピングした。ステップ104で得られた初期三次元モデルは、人体幾何構造のメッシュMeshである。本ステップでは、当該メッシュモデルを基に、モデルに人体テクスチャを付加する。また、残りのいくつかの不可視の人体部位領域について、補間技術を用いてモデルのいくつかの隙間にテクスチャの充填を行うことで初期三次元モデルのテクスチャを補完し、目標人体の三次元人体モデル44を取得してもよい。
【0055】
本実施例の三次元人体再構成方法では、目標人体の局所部位に対して局所幾何再構成を行い、当該局所幾何再構成で得られた局所部位の三次元メッシュモデルと目標人体の三次元メッシュモデルとを融合することにより、目標人体の初期三次元モデル中の局所部位がより鮮明、繊細且つ正確になり、局所部位の再構成効果が向上する。また、当該方法では、目標人体の単一の人体画像に基づいて再構成を行うため、ユーザの協力手順が簡素化され、三次元人体再構成がより簡便になる。
【0056】
また、人体の三次元人体モデルが取得された後、前記三次元人体モデルと目標人体の人体骨格構造とに基づいて、前記三次元人体モデルを駆動するためのスキニング重みを特定してもよい。当該スキニング重みは、構築された三次元人体モデルを駆動するために用いられる。例えば、三次元人体モデルの各種の動作を駆動しようとする場合に、モデルを人体骨格構造にバインディングする必要がある。このようにモデルを骨格にバインディングすることは、スキニングである。次に、骨格の運動によってモデルを動かすことができる。スキニング重みは、モデルの頂点への骨格の関節点の影響の大きさを表すために用いられる。当該スキニング重みに基づいて、三次元人体モデルにおける各頂点が各骨格の関節点から受ける影響の大きさを制御可能であるため、モデルの運動をより良好に制御する。
【0057】
具体的に、当該三次元人体モデルのスキニング重みを算出することは、以下の処理を含んでもよい。ステップ100において目標人体の単一の人体画像に基づいて人体骨格構造を取得した。本ステップでは、当該人体骨格構造と上記取得された三次元人体モデルとをディープラーニングネットワークに入力し、ディープラーニングネットワークを介してモデルのスキニング重みを自動的に取得してもよい。
【0058】
図5の例示を参照すると、まず、三次元人体モデル51と人体骨格構造52とに基づいて前記三次元人体モデル51中の各頂点に対応する属性特徴を生成してもよい。当該属性特徴は、各頂点と人体骨格構造との空間位置関係を用いて構築されたものであってもよい。例えば、その中の1つの頂点にとって、当該頂点の属性特徴は、以下の4つの特徴を含んでもよい。
1)当該頂点の位置座標。
2)当該頂点に最も近いK個の骨格の関節点の位置座標。
3)当該頂点の位置から上記K個の骨格の関節点のうちの各骨格の関節点のそれぞれまでの測地線距離。
4)上記K個の骨格の関節点のうちの各骨格の関節点を始点とし、当該始点から前記頂点を指すベクトルと前記骨格の関節点の所在する骨格との間の角度。
ただし、Kは、正の整数である。
【0059】
引き続き
図5を参照すると、各頂点の属性特徴が取得された後、当該各頂点の属性特徴、および各頂点の間の隣接関係特徴をディープラーニングネットワークのうちの空間グラフ畳み込みアテンションネットワークの入力としてもよい。これらの特徴を空間グラフ畳み込みアテンションネットワークに入力する前に、1つの多層パーセプトロンによって上記特徴を隠れ層特徴に変換してもよい。空間グラフ畳み込みアテンションネットワークは、上記隠れ層特徴に基づいて各頂点が上記K個の骨格の関節点のうちの各骨格の関節点から受ける影響の重みを予測してもよい。ディープラーニングネットワークにおける後の1つの多層パーセプトロンは、当該重みに対して正規化処理を行うために用いられ、ある頂点にとって、当該頂点への各骨格の関節点の影響の重みの和が1となるようにしてもよい。最後に得られた三次元人体モデル中の各頂点に対応する、各骨格の関節点から受ける影響の重みは、当該頂点のスキニング重みである。
【0060】
本実施例の三次元人体再構成方法では、目標人体の単一の人体画像に基づいて人体骨格構造を取得し、当該人体骨格構造と再構成して得られた三次元人体モデルとに基づいてスキニング重みを自動的に算出可能であるため、異なる入力画像での骨格の意味構造の一致性を保証するだけでなく、異なる衣類・服飾形状を考慮して適切なスキニング重みを迅速に生成することができる。ここで、骨格の意味一致性は、モデルと既存の動作ライブラリの登録を容易にすることができ、意味が一致する利点は、生成されたモデルおよび骨格を動作ライブラリに適用(登録)しやすくなることである。動作ライブラリには、人のいくつかの動作シーケンス、例えばダンス、ボクシングなどが予め記憶されてもよい。動作ライブラリは、一連の運動する骨格を記憶する。動作ライブラリにおけるこれらの骨格の意味および構造は、一致している。生成された骨格がランダム性(関節意味が不確定である)を有すると、動作ライブラリにおける動作を適用することは、生成されたモデルにとって不利になる。したがって、本実施例では、生成された骨格の意味構造の一致性を保証することにより、動作ライブラリの登録をより容易にする。具体的な形状に応じて計算して生成されたスキニング重みにより、異なる人体モデルの運動の視覚効果をより自然にすることができる。
【0061】
本発明の別の実施例は、三次元人体再構成の方法を提供する。本実施例の再構成フローは、
図1の実施例と比較すると、その相違点が、ステップ100において目標人体の単一の人体画像に基づいて人体幾何再構成を行うフローを改良することで再構成で得られた目標人体の三次元メッシュモデルの幾何再構成精度を向上させることにある。本実施例では、
図1の実施例と同じ処理ステップについて詳細に記述せず、相違点のみを重点的に記述する。
【0062】
図6に示すように、
図2に示すネットワーク構造に加えて、第2深層ニューラルネットワークブランチ61を追加する。当該第2深層ニューラルネットワークブランチ61は、局所特徴サブネットワーク611および第2フィッティングサブネットワーク612を含んでもよい。目標人体の単一の人体画像21から局所領域の画像を抽出して局所画像62を取得してもよい。第2深層ニューラルネットワークは、当該局所画像62に対して三次元再構成を行うためのものである。
【0063】
説明すべきことは、ここでの局所画像に含まれる目標人体の人体領域は、ステップ102における局所幾何再構成に対応する局所部位と完全に同じでなくてもよい。例えば、ここでの局所画像が目標人体の肩部以上の領域範囲を含んでもよい一方、ステップ102における再構成の局所部位は、目標人体の顔であってもよい。もちろん、
図6において目標人体の肩部以上に対して再構成を行うことは、単に例示であり、目標人体の他の人体領域に対して微細化幾何再構成を行ってもよい。
【0064】
具体的に、引き続き
図6を参照すると、第1深層ニューラルネットワークブランチ22を介して再構成を行って第1人体モデルを取得し、局所画像62を第2深層ニューラルネットワークブランチ61に入力し、局所特徴サブネットワーク611を介して前記局所画像に対して特徴抽出を行い、第2画像特徴を取得する。次に、第2フィッティングサブネットワーク612を介して、前記第2画像特徴と第1フィッティングサブネットワーク222から出力された中間特徴とに基づいて、第2人体モデルを取得する。前記中間特徴は、第1フィッティングサブネットワーク222における一部のネットワーク構造から出力された特徴であってもよい。例示として、第1フィッティングサブネットワーク222が一定の数の全結合層を含むとすれば、その中の一部の数の全接続層の出力を前記中間特徴として第2フィッティングサブネットワーク612に入力してもよい。
【0065】
例示として、第2深層ニューラルネットワークブランチ61の構造は、第1深層ニューラルネットワークブランチ22の構造と基本的に同じであってもよい。例えば、第1深層ニューラルネットワークブランチ22におけるグローバル特徴サブネットワーク221は、4つのBlockを含んでもよく、各Blockは、一定の数の畳み込み層、プーリング層などの特徴抽出層を含んでもよい一方、第2深層ニューラルネットワークブランチ61における局所特徴サブネットワーク611は、1つの上記Blockを含んでもよい。第1人体モデルと第2人体モデルとが取得された後、次に、第1人体モデルと第2人体モデルとを融合し、融合人体モデルを取得してもよい。引き続き、当該融合人体モデルに対してメッシュ化処理を行い、目標人体の三次元メッシュモデルを取得する。
【0066】
本実施例の三次元人体再構成方法では、目標人体の局所部位に対して局所幾何再構成を行って局所部位の再構成効果を向上させるだけでなく、目標人体の単一の人体画像に基づいて再構成を行ってユーザの協力手順を簡素化する。また、さらに第2深層ニューラルネットワークを介して局所画像を再構成するため、目標人体の局所人体領域に対する再構成効果を向上させた。
【0067】
本発明のさらに別の実施例は、三次元人体再構成の方法を提供する。当該さらに別の実施例の再構成フローは、
図1の実施例と比較すると、具体的なディープラーニングネットワークを介して人体裏面テクスチャの予測を行う方式を提供する。本実施例では、
図1の実施例と同じ処理ステップについて詳細に記述せず、相違点のみを重点的に記述する。
【0068】
図7に示すように、目標人体の単一の人体画像が背景画像と人体の正面テクスチャとを含む場合がある。この場合に、まず画像分割を行って人体の正面テクスチャを切り出して、次に当該正面テクスチャに基づいて人体の裏面テクスチャを予測してもよい。例えば、目標人体の正面画像71に対して人体分割を行い、第1分割マスク72と、分割後の目標人体の正面テクスチャ73とを取得してもよい。また、当該第1分割マスク72を水平反転して第2分割マスク74を取得し、正面テクスチャ73と、第1分割マスク72と、第2分割マスク74とをテクスチャ生成ネットワーク75に入力し、当該テクスチャ生成ネットワーク75から出力された目標人体の裏面テクスチャを最終的に取得する。
【0069】
また、
図7は、第1分割マスク72を水平反転して第2分割マスク74を取得することを例としたが、実際の実施においてこれに限定されない。例えば、目標人体の正面画像を予めトレーニングされた1つのニューラルネットワークに入力して、当該ニューラルネットワークが第1分割マスクおよび第2分割マスクを直接出力してもよい。目標人体の正面テクスチャおよび裏面テクスチャが取得された後、当該正面テクスチャおよび裏面テクスチャを人体の初期三次元モデルにマッピングすることにより、目標人体の三次元人体モデルを取得してもよい。
【0070】
上記テクスチャ生成ネットワーク75のトレーニング手順は、以下の処理を含んでもよい。
図8を参照すると、支援テクスチャ生成ネットワーク76を用いてもよい。当該支援テクスチャ生成ネットワーク76は、一部のテクスチャ生成ネットワーク75のネットワーク構造を含んでもよい。例えば、テクスチャ生成ネットワーク75は、支援テクスチャ生成ネットワーク76を基に一定の数の畳み込み層を追加したものであってもよい。
【0071】
トレーニング時に、トレーニングサンプル画像セットにおける支援人体画像、第3サンプル分割マスクおよび第4サンプル分割マスクに基づいて、支援テクスチャ生成ネットワークをトレーニングし、当該支援テクスチャ生成ネットワークのトレーニングが完了した後、支援テクスチャ生成ネットワークの少なくとも一部のネットワークパラメータをテクスチャ生成ネットワークの一部の初期化ネットワークパラメータとし、人体サンプルの正面テクスチャ、第1サンプル分割マスクおよび第2サンプル分割マスクに基づいて、前記テクスチャ生成ネットワークをトレーニングしてもよい。ここで、支援人体画像は、人体サンプルの単一の画像に対して解像度を低減することで取得されたものである。第1サンプル分割マスクは、人体サンプルの正面テクスチャのマスク領域に対応し、第2サンプル分割マスクは、人体サンプルの裏面テクスチャのマスク領域に対応し、第3サンプル分割マスクは、前記支援人体画像中の人体の正面テクスチャのマスク領域に対応し、前記第4サンプル分割マスクは、前記支援人体画像中の人体の裏面テクスチャのマスク領域に対応する。
【0072】
引き続き
図8を参照すると、支援人体画像81に対して画像分割を行い、支援人体画像81中の人体の正面テクスチャ82、第3サンプル分割マスク83および第4サンプル分割マスク84を取得し、それらを支援テクスチャ生成ネットワーク76に入力して支援人体画像81中の人体の裏面テクスチャの第1予測値を取得し、さらに第1予測値と前記支援人体画像81中の人体の裏面テクスチャの第1真の値とに基づいて、前記支援テクスチャ生成ネットワーク76のネットワークパラメータを調整してもよい。複数回繰り返せば、トレーニングが完了した支援テクスチャ生成ネットワーク76を取得することができる。ここで、支援テクスチャ生成ネットワークに対するトレーニング監督は、第1予測値および第1真の値に基づいて算出された損失Lossの他に、第1予測値に基づく他の損失、例えば、支援人体画像および第1予測値のテクスチャ特徴に基づいて算出された特徴損失なども含んでもよい。前記支援人体画像は、
図7における人体正面画像71に対して解像度を低減することで取得されてもよい。従って、支援人体画像81中の人体の正面テクスチャ82の解像度も
図7中の正面テクスチャ73の解像度よりも低い。前記第3サンプル分割マスクは、前記支援人体画像中の人体の正面テクスチャのマスク領域に対応し、前記第4サンプル分割マスクは、支援人体画像中の人体の裏面テクスチャのマスク領域に対応する。
【0073】
前記支援テクスチャ生成ネットワークのトレーニングが完了した後、支援テクスチャ生成ネットワークのネットワークパラメータをテクスチャ生成ネットワークの一部のネットワークパラメータの初期化としてもよい。即ち、テクスチャ生成ネットワークのネットワークパラメータは、トレーニングが完了した前記支援テクスチャ生成ネットワークの少なくとも一部のネットワークパラメータを含む。即ち、支援テクスチャ生成ネットワークとテクスチャ生成ネットワークとは、一部のネットワーク重みを共有する。その後、テクスチャ生成ネットワークをトレーニングするためのトレーニングサンプル画像セットにおける人体正面テクスチャ、第1サンプル分割マスクおよび第2サンプル分割マスクを前記テクスチャ生成ネットワークに入力し、人体サンプルの裏面テクスチャの第2予測値を取得する。前記第2予測値と前記裏面テクスチャの第2真の値とに基づいて、テクスチャ生成ネットワークのネットワークパラメータを調整する。前記第2真の値の解像度は、第1真の値の解像度よりも高く、即ち、テクスチャ生成ネットワークから出力された裏面テクスチャの解像度は、支援テクスチャ生成ネットワークから出力された裏面テクスチャの解像度よりも若干高い。
【0074】
本実施例の三次元人体再構成方法では、目標人体の局所部位に対して局所幾何再構成を行って局所部位の再構成効果を向上させるだけでなく、目標人体の単一の人体画像に基づいて再構成を行ってユーザの協力手順を簡素化する。また、さらに、ニューラルネットワークを介してテクスチャの予測を自動的に行うことにより、生成されたテクスチャ効果をより良好にする。例えば、人体全身のテクスチャをより均一にし、色をよりリアルにする。そして、支援テクスチャ生成ネットワークをトレーニングしてからテクスチャ生成ネットワークをトレーニングする方式により、テクスチャ生成ネットワークのトレーニング手順がより安定になり、より収束しやすくなる。
【0075】
他の実施例において、再構成の効果を向上させるために、目標人体の複数枚の異なる角度の画像を取得して当該目標人体の三次元再構成を総合的に行ってもよい。例えば、当該目標人体の3枚の画像を取得したことを例とすると、この3枚の画像は、異なる角度で収集されたものであってもよい。
図2を参照すると、この3枚の画像をそれぞれグローバル特徴サブネットワーク221の入力として、グローバル特徴サブネットワーク221から出力された、この3枚の画像にそれぞれ対応する1つの第1画像特徴を取得してもよい。その後、3つの第1画像特徴を融合し、融合された画像特徴を第1フィッティングサブネットワーク222の入力として引き続き処理する。
【0076】
三次元人体再構成が
図6に示すネットワーク構造を採用するときに、上記3枚の画像をそれぞれグローバル特徴サブネットワーク221の入力とする以外、当該3枚の画像から局所領域を抽出して局所画像を取得し、3つの局所画像をそれぞれ局所特徴サブネットワーク611の入力として、局所特徴サブネットワーク611から出力された、この3枚の局所画像にそれぞれ対応する第2画像特徴を取得してから、3つの第2画像特徴を融合し、融合で得られた画像特徴を第2フィッティングサブネットワーク612の入力として引き続き処理してもよい。
【0077】
以上のように、目標人体の複数枚の異なる角度の画像を取得して当該目標人体の三次元人体再構成を総合的に行うことにより、当該目標人体に対応するより繊細な三次元人体モデルを取得することができる。
【0078】
また、さらに説明すべきことは、本発明のいずれかの実施例に記述された三次元人体再構成方法の各フローステップにおいて、係るニューラルネットワークモデルのいずれについて、個別にトレーニングされてもよい。例えば、第1深層ニューラルネットワークブランチとテクスチャ生成ネットワークとは、それぞれ個別にトレーニングされてもよい。
【0079】
以下では、1つの三次元人体再構成フローの例示を記述する。なお、上記いずれかの方法実施例に記述された手順と同じ処理について、ここで簡単に説明し、詳細な手順は、上記実施例を参照すればよい。
【0080】
当該例において、ユーザU1の単一の人体画像に基づいて当該U1の三次元人体モデルを構築しようとすると仮定すると、前記単一の人体画像は、ユーザU1の正面画像であってもよく、ユーザU1の正面テクスチャおよび背景画像を含む。
図9を参照すると、ユーザU1の単一の人体画像91は、当該ユーザの正面テクスチャ92および背景画像93を含む。
【0081】
まず、ユーザU1の単一の人体画像91に基づいて2態様の再構成をそれぞれ行ってもよい。
【0082】
一態様の再構成は、単一の人体画像91に基づいて人体幾何再構成を行ってU1の三次元メッシュモデルおよび人体骨格構造を取得することである。例示として、
図6に示すネットワークを介して単一の人体画像91を処理し、第1深層ニューラルネットワークブランチにおけるグローバル特徴サブネットワークおよび第1フィッティングサブネットワークを介して単一の人体画像91を処理し、第1人体モデルを取得し、且つ、第2深層ニューラルネットワークブランチにおける局所特徴サブネットワークおよび第2フィッティングサブネットワークを介して単一の人体画像91中の人体肩部以上の領域の画像を処理し、第2人体モデルを取得してもよい。第1人体モデルと第2人体モデルとを融合した後、融合人体モデルを取得する。融合人体モデルに対してメッシュ化処理を行い、ユーザU1の三次元メッシュモデル(mesh)を取得する。
【0083】
もう一つの態様の再構成は、単一の人体画像91に基づいてユーザU1の顔に対して局所幾何再構成を行って顔の三次元メッシュモデルを取得することである。具体的に、単一の人体画像91に対して特徴抽出を行い、抽出された画像特徴および顔三次元トポロジーテンプレートをグラフ畳み込みニューラルネットワークに入力し、当該ユーザU1の顔meshを取得してもよい。
【0084】
次に、上記再構成で得られた顔mesh(顔の三次元メッシュモデル)とユーザU1の人体mesh(U1人体の三次元メッシュモデル)とを組み合わせ、両者の融合を行い、U1の初期三次元モデルを取得してもよい。
【0085】
具体的に、
図3の模式的なフローに基づいて、顔部のキーポイントを考慮し、キーポイントの、顔meshと人体meshとのそれぞれにおける対応する各モデルキーポイントの識別子および位置を特定し、これらのモデルキーポイントの識別子および位置、モデルのカメラ外部パラメータなどのパラメータに基づいて、モデルの間の座標変換関係を特定してもよい。当該座標変換関係に基づいて、顔meshを人体meshの座標系に変換し、顔meshで人体mesh中の顔を置き換え、ポアソン再構成によって顔meshと人体meshとを融合し、ユーザU1の初期三次元モデルを取得する。
【0086】
その後、上記初期三次元モデルとユーザU1の単一の人体画像91とに基づいて、U1の人体テクスチャの再構成を行う。ここで、単一の人体画像91がユーザU1の正面テクスチャであるため、当該正面テクスチャに基づいてU1の裏面テクスチャを予測してもよい。
【0087】
具体的に、単一の人体画像91に対して人体分割を行い、背景画像が除去された人体正面テクスチャと、人体正面テクスチャ領域を表すための第1分割マスクとを取得し、第1分割マスクを反転して、人体裏面テクスチャ領域を表すための第2分割マスクを取得してもよい。次に、当該人体正面テクスチャ、第1分割マスクおよび第2分割マスクを予めトレーニングされたテクスチャ生成ネットワークに入力してユーザU1の裏面テクスチャを取得する。最後に、当該正面テクスチャおよび裏面テクスチャに基づいて初期三次元モデルに対してテクスチャマッピングを行い、モデルの隙間領域にテクスチャの充填および補完を行い、テクスチャを有するU1の三次元人体モデルを最終的に取得する。
【0088】
構築された三次元人体モデルに対してモデル駆動を便利に行うために、さらに、再構成で得られたU1の三次元人体モデルと、U1の三次元メッシュモデルを再構成するときに得られた人体骨格構造とを使用し、三次元人体モデルのスキニング重みを算出してもよい。後は、当該スキニング重みにより、モデルが動作を実行するように駆動してもよい。
【0089】
図10は、三次元人体再構成装置の構造模式図を例示する。
図10に示すように、当該装置は、全体再構成モジュール1001、局所再構成モジュール1002、融合処理モジュール1003およびテクスチャ再構成モジュール1004を備えてもよい。
【0090】
全体再構成モジュール1001は、目標人体の単一の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得する。
【0091】
局所再構成モジュール1002は、前記目標人体の単一の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得する。
【0092】
融合処理モジュール1003は、前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得する。
【0093】
テクスチャ再構成モジュール1004は、前記初期三次元モデルと前記単一の人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得する。
【0094】
一例において、全体再構成モジュール1001は、前記目標人体の三次元メッシュモデルを取得するときに、具体的に、第1深層ニューラルネットワークブランチを介して前記目標人体の単一の人体画像に対して三次元再構成を行い、第1人体モデルを取得し、第2深層ニューラルネットワークブランチを介して前記単一の人体画像中の局所画像に対して三次元再構成を行い、第2人体モデルを取得し、前記第1人体モデルと前記第2人体モデルとを融合し、融合人体モデルを取得し、前記融合人体モデルに対してメッシュ化処理を行い、前記目標人体の三次元メッシュモデルを取得するために用いられる。前記局所画像は、前記目標人体の局所領域を含む。
【0095】
一例において、局所再構成モジュール1002は、具体的に、前記目標人体の単一の人体画像に対して特徴抽出を行い、第3画像特徴を取得し、前記第3画像特徴と前記局所部位の三次元トポロジーテンプレートとに基づいて、前記局所部位の三次元メッシュモデルを特定するために用いられる。
【0096】
一例において、融合処理モジュール1003は、具体的に、前記目標人体の単一の人体画像に基づいて、前記局所部位の複数のキーポイントを取得し、前記目標人体の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第1モデルキーポイントの情報を特定し、且つ、前記局所部位の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第2モデルキーポイントの情報を特定し、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するために用いられる。
【0097】
一例において、融合処理モジュール1003は、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するときに、具体的に、前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記目標人体の三次元メッシュモデルと前記局所部位の三次元メッシュモデルとの間の座標変換関係を特定し、前記座標変換関係に基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルの座標系に変換し、変換後の座標系において前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するために用いられる。
【0098】
一例において、テクスチャ再構成モジュール1004は、具体的に、前記単一の人体画像に対して人体分割を行い、第1分割マスクと、第2分割マスクと、目標人体の正面テクスチャとを取得し、前記正面テクスチャと、前記第1分割マスクと、前記第2分割マスクとをテクスチャ生成ネットワークに入力し、前記目標人体の裏面テクスチャを取得し、前記裏面テクスチャと前記正面テクスチャとに基づいて、前記目標人体に対応する、テクスチャを有する三次元人体モデルを取得するために用いられ、前記第1分割マスクは、前記正面テクスチャのマスク領域に対応し、前記第2分割マスクは、目標人体の裏面テクスチャのマスク領域に対応する。
【0099】
一例において、
図11に示すように、当該装置は、モデルトレーニングモジュール1005をさらに備えてもよい。
【0100】
モデルトレーニングモジュール1005は、前記テクスチャ生成ネットワークのトレーニングを行うためのものであり、具体的に、トレーニングサンプル画像セットにおける人体サンプルの単一の画像に対して人体分割を行い、第1サンプル分割マスクと、第2サンプル分割マスクと、前記人体サンプルの正面テクスチャとを取得し、前記人体サンプルの単一の画像の解像度を低減することで取得された支援人体画像中の人体の正面テクスチャと、第3サンプル分割マスクと、第4サンプル分割マスクとに基づいて、支援テクスチャ生成ネットワークをトレーニングし、前記支援テクスチャ生成ネットワークのトレーニングが完了した後、前記人体サンプルの正面テクスチャと、前記第1サンプル分割マスクと、前記第2サンプル分割マスクとに基づいて、前記テクスチャ生成ネットワークをトレーニングするために用いられる。前記第1サンプル分割マスクは、前記人体サンプルの正面テクスチャのマスク領域に対応し、前記第2サンプル分割マスクは、前記人体サンプルの裏面テクスチャのマスク領域に対応し、前記第3サンプル分割マスクは、前記支援人体画像中の人体の正面テクスチャのマスク領域に対応し、前記第4サンプル分割マスクは、前記支援人体画像中の人体の裏面テクスチャのマスク領域に対応し、前記テクスチャ生成ネットワークのネットワークパラメータは、トレーニングが完了した前記支援テクスチャ生成ネットワークの少なくとも一部のネットワークパラメータを含む。
【0101】
いくつかの実施例において、上記装置は、上述したいずれかの方法を実行することが可能であり、簡潔のために、ここで繰り返し説明しない。
【0102】
本発明の実施例は、電子デバイスをさらに提供する。前記電子デバイスは、メモリと、プロセッサとを備え、前記メモリは、コンピュータ可読命令を記憶するために用いられ、前記プロセッサは、前記コンピュータ命令を呼び出すことにより、本明細書のいずれかの実施例の方法を実施するために用いられる。
【0103】
本発明の実施例は、コンピュータ可読記憶媒体をさらに提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されると、本明細書のいずれかの実施例の方法が実施される。
【0104】
当業者であれば理解できるように、本発明の1つまたは複数の実施例は、方法、システムまたはコンピュータプログラム製品として提供され得る。当該コンピュータプログラム製品は、コンピュータプログラムを含み、当該コンピュータプログラムがプロセッサによって実行されると、本明細書のいずれかの実施例の方法が実施され得る。したがって、本発明の1つまたは複数の実施例は、100%ハードウェアの実施例、100%ソフトウェアの実施例、またはソフトウェアとハードウェアとを組み合わせた態様の実施例の形式を採用してもよい。また、本発明の1つまたは複数の実施例は、1つまたは複数の、コンピュータ利用可能なプログラムコードを含むコンピュータ利用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリなどを含むが、それらに限定されない)上で実施されるコンピュータプログラム製品の形式を採用してもよい。
【0105】
本発明の実施例に記載の「および/または」は、両者のうちの1つを少なくとも有することを表す。例えば、「Aおよび/またはB」は、A、B、および「AとB」という3つの形態を含む。
【0106】
本発明における各実施例は、いずれも漸進の方式で記述され、各実施例は、他の実施例との相違点を重点的に説明し、各実施例同士の同じまたは類似する部分は互いに参照すればよい。特にデータ処理デバイスの実施例は、方法実施例に基本的に類似するため、記述が相対的に簡単であり、関連箇所については方法実施例の一部の説明を参照すればよい。
【0107】
以上、本発明の特定の実施例について記述した。他の実施例は、添付する特許請求の範囲の範囲内に含まれる。いくつかの場合において、特許請求の範囲に記載の行為またはステップは、実施例における順番と異なる順番で実行してもよく、依然として所望の結果を得ることができる。また、図面に描かれた手順は、示された特定の順番または連続順番でないと所望の結果を得られないことを要求するとは限らない。いくつかの実施形態において、マルチタスク処理および並行処理も可能または有利である。
【0108】
本発明に記述されたテーマおよび機能操作の実施例は、デジタル電子回路、タンジブルに具現化されたコンピュータソフトウェアもしくはファームウェア、本発明に開示された構造およびその構造的均等物を含むコンピュータハードウェア、またはそれらのうちの1つまたは複数の組み合わせにおいて実現され得る。本明細書に記述されたテーマの実施例は、1つまたは複数のコンピュータプログラム、即ち、有形の非一時的なプログラムキャリア上にコーディングされることでデータ処理装置によって実行され、またはデータ処理装置の操作を制御するコンピュータプログラム命令における1つまたは複数のモジュールとして実現され得る。代替的にまたは追加的に、プログラム命令は、人工で生成された伝送信号、例えば機器で生成された電気、光または電磁的信号にコーディングされてもよい。当該信号は、生成されることで情報を符号化して適切な受信機装置へ伝送してデータ処理装置に実行させる。コンピュータ記憶媒体は、機器可読記憶デバイス、機器可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらのうちの1つまたは複数の組み合わせであってもよい。
【0109】
本発明に記述された処理および論理フローは、入力データに応じて操作を行って出力を生成して対応する機能を実行する、1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルコンピュータによって実施され得る。前記処理および論理フローは、専用論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されてもよく、装置も専用論理回路として実現されてもよい。
【0110】
コンピュータプログラムの実行に適するコンピュータは、例えば、汎用および/または専用マイクロプロセッサ、またはいかなる他のタイプの中央処理装置を含む。通常、中央処理装置は、読み出し専用メモリおよび/またはランダムアクセスメモリから命令およびデータを受信する。コンピュータの基本コンポーネントは、命令を実施や実行するための中央処理ユニットと、命令およびデータを記憶するための1つまたは複数のメモリデバイスとを備える。通常、コンピュータは、さらに、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば、磁気ディスク、磁光ディスクまたは光ディスクなどを含み、または、コンピュータは、この大容量記憶デバイスに操作可能にカップリングされてデータを受信したり伝送したりし、または、2種の状況を兼ね備える。しかし、コンピュータは、このようなデバイスを必ず有するとは限らない。また、コンピュータは、別のデバイス、例えば、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルオーディオまたはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)受信機、または、例えばユニバーサルシリアルバス(USB)フラッシュメモリドライバの携帯型記憶デバイスに組み込まれてもよい。以上は、単にいくつかの例である。
【0111】
コンピュータプログラム命令およびデータを記憶するのに適するコンピュータ可読媒体は、あらゆる形態の不揮発性メモリと、メディアと、メモリデバイスとを含み、例えば、半導体メモリデバイス(例えば、EPROM、EEPROM、フラッシュメモリデバイス)、磁気ディスク(例えば、内部ハードディスクまたはリムーバブルディスク)、磁光ディスクおよびCD ROMとDVD-ROMディスクを含む。プロセッサとメモリは、専用論理回路によって補充されまたは専用論理回路に統合されてもよい。
【0112】
本発明が大量の具体的な実施詳細を含むが、これらの詳細は、いかなる開示範囲または保護請求される範囲を制限するとは解釈されるべきではなく、主に特定の開示された具体的な実施例の特徴を記述するために用いられる。本発明の複数の実施例に記述されたいくつかの特徴は、単一の実施例において組み合わせて実施されてもよい。その一方、単一の実施例に記述された各種の特徴は、複数の実施例に分けて実施され、または、いかなる適切なサブ組み合わせとして実施されてもよい。また、特徴が上記のようにいくつかの組み合わせにおいて役割を果たし、当初はそのようなものとして保護を主張するが、保護請求される組み合わせからの1つまたは複数の特徴は、いくつかの場合において当該組み合わせから除去されてもよく、さらに、保護請求される組み合わせは、サブ組み合わせまたはサブ組み合わせの変形を指してもよい。
【0113】
類似的に、図面に特定の順番で操作が描かれたが、これらの操作が示された特定の順番で実行されまたは順に実行されまたは全ての例示の操作が実行されて所望の結果を得ることを要求するとして理解されるべきではない。いくつかの場合に、マルチタスクおよび並行処理は、有利である可能性がある。また、上記実施例における各種のシステムモジュールとユニットの分離は、全ての実施例においてこのような分離を必要とすると理解されるべきではない。さらに、理解できるように、記述されるプログラムユニットおよびシステムは、通常、単一のソフトウェア製品に統合されてもよく、または複数のソフトウェア製品としてパッケージ化されてもよい。
【0114】
このように、テーマの特定実施例が記述されている。他の実施例は、添付する特許請求の範囲の範囲内に含まれる。いくつかの場合において、特許請求の範囲に記載の行為は、異なる順番で実行され、且つ依然として所望の結果を得ることができる。また、図面に描かれた処理が必ずしも示された特定の順番または連続順番で所望の結果を得るとは限らない。いくつかの実施形態において、マルチタスク処理および並行処理は、有利である可能性がある。
【0115】
上述したのは、本発明の1つまたは複数の実施例の好適な実施例に過ぎず、本発明の1つまたは複数の実施例を制限するためのものではない。本発明の1つまたは複数の実施例の精神および原則内でなされたいかなる変更、等価置換、改良なども、本発明の1つまたは複数の実施例の保護範囲内に含まれるべきである。
【符号の説明】
【0116】
21 人体画像
22 第1深層ニューラルネットワークブランチ
31 キーポイント
41 人体裏面テクスチャ
42 人体正面テクスチャ
43 三次元モデル
44 三次元人体モデル
51 三次元人体モデル
52 人体骨格構造
61 第2深層ニューラルネットワークブランチ
62 局所画像
71 正面画像
72 第1分割マスク
73 正面テクスチャ
74 第2分割マスク
75 テクスチャ生成ネットワーク
81 支援人体画像
82 正面テクスチャ
83 第3サンプル分割マスク
84 第4サンプル分割マスク
91 人体画像
92 正面テクスチャ
93 背景画像
221 グローバル特徴サブネットワーク
222 第1フィッティングサブネットワーク
611 局所特徴サブネットワーク
612 第2フィッティングサブネットワーク
1001 全体再構成モジュール
1002 局所再構成モジュール
1003 融合処理モジュール
1004 テクスチャ再構成モジュール
1005 モデルトレーニングモジュール
【手続補正書】
【提出日】2023-12-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するステップと、
前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するステップと、
前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するステップと、
前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するステップと、を含むことを特徴とする三次元人体再構成方法。
【請求項2】
前記目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するステップは、
第1深層ニューラルネットワークブランチを介して前記目標人体の人体画像に対して三次元再構成を行い、第1人体モデルを取得するステップと、
第2深層ニューラルネットワークブランチを介して前記人体画像中の局所画像に対して三次元再構成を行い、第2人体モデルを取得するステップと、
前記第1人体モデルと前記第2人体モデルとを融合し、融合人体モデルを取得するステップと、
前記融合人体モデルに対してメッシュ化処理を行い、前記目標人体の三次元メッシュモデルを取得するステップと、を含み、
前記局所画像は、前記目標人体の局所領域を含むことを特徴とする請求項1に記載の方法
。
【請求項3】
前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するステップは、
前記目標人体の人体画像に対して特徴抽出を行い、第3画像特徴を取得するステップと、
前記第3画像特徴と前記局所部位の三次元トポロジーテンプレートとに基づいて、前記局所部位の三次元メッシュモデルを特定するステップと、を含むことを特徴とする請求項1
または2に記載の方法。
【請求項4】
前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するステップは、
前記目標人体の人体画像に基づいて、前記局所部位の複数のキーポイントを取得するステップと、
前記目標人体の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第1モデルキーポイントの情報を特定し、且つ、前記局所部位の三次元メッシュモデルにおける、前記複数のキーポイントに対応する第2モデルキーポイントの情報を特定するステップと
、
前記第1モデルキーポイントの情報と前記第2モデルキーポイントの情報とに基づいて、前記目標人体の三次元メッシュモデルと前記局所部位の三次元メッシュモデルとの間の座標変換関係を特定するステップと、
前記座標変換関係に基づいて、前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルの座標系に変換するステップと、
変換後の座標系において前記局所部位の三次元メッシュモデルを前記目標人体の三次元メッシュモデルと融合し、前記初期三次元モデルを取得するステップと、を含むことを特徴とする請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記人体画像は、前記目標人体の正面テクスチャと背景画像とを含み、
前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するステップは、
前記人体画像に対して人体分割を行い、第1分割マスクと、第2分割マスクと、前記目標人体の正面テクスチャとを取得するステップと、
前記正面テクスチャと、前記第1分割マスクと、前記第2分割マスクとをテクスチャ生成ネットワークに入力し、前記目標人体の裏面テクスチャを取得するステップと、
前記裏面テクスチャと前記正面テクスチャとに基づいて、前記目標人体に対応する、テクスチャを有する三次元人体モデルを取得するステップと、を含み、
前記第1分割マスクは、前記
目標人体の正面テクスチャのマスク領域に対応し、前記第2分割マスクは、前記目標人体の裏面テクスチャのマスク領域に対応することを特徴とする請求項1から
4のいずれか一項に記載の方法。
【請求項6】
前記テクスチャ生成ネットワークのトレーニングは、
トレーニングサンプル画像セットにおける人体サンプルの画像に対して人体分割を行い、第1サンプル分割マスクと、第2サンプル分割マスクと、前記人体サンプルの正面テクスチャとを取得する処理と、
前記人体サンプルの画像の解像度を低減することで取得された支援人体画像中の人体の正面テクスチャと、第3サンプル分割マスクと、第4サンプル分割マスクとに基づいて、支援テクスチャ生成ネットワークをトレーニングする処理と、
前記支援テクスチャ生成ネットワークのトレーニングが完了した後、前記人体サンプルの正面テクスチャと、前記第1サンプル分割マスクと、前記第2サンプル分割マスクとに基づいて、前記テクスチャ生成ネットワークをトレーニングする処理と、を含み、
前記第1サンプル分割マスクは、前記人体サンプルの正面テクスチャのマスク領域に対応し、前記第2サンプル分割マスクは、前記人体サンプルの裏面テクスチャのマスク領域に対応し、
前記第3サンプル分割マスクは、前記支援人体画像中の人体の正面テクスチャのマスク領域に対応し、前記第4サンプル分割マスクは、前記支援人体画像中の人体の裏面テクスチャのマスク領域に対応し、
前記テクスチャ生成ネットワークのネットワークパラメータは、トレーニングが完了した前記支援テクスチャ生成ネットワークの少なくとも一部のネットワークパラメータを含むことを特徴とする請求項
5に記載の方法
。
【請求項7】
前記目標人体の人体画像に基づいて人体幾何再構成を行うときに、前記目標人体の人体骨格構造を取得するステップと、
前記目標人体の三次元人体モデルが取得された後、前記三次元人体モデルと前記人体骨格構造とに基づいて、前記三次元人体モデルを駆動するためのスキニング重みを特定するステップと、をさらに含むことを特徴とする請求項1から
6のいずれか一項に記載の方法。
【請求項8】
目標人体の人体画像に基づいて人体幾何再構成を行い、前記目標人体の三次元メッシュモデルを取得するための全体再構成モジュールと、
前記目標人体の人体画像に基づいて前記目標人体の局所部位に対して局所幾何再構成を行い、前記局所部位の三次元メッシュモデルを取得するための局所再構成モジュールと、
前記局所部位の三次元メッシュモデルと前記目標人体の三次元メッシュモデルとを融合し、初期三次元モデルを取得するための融合処理モジュールと、
前記初期三次元モデルと前記人体画像とに基づいて前記目標人体の人体テクスチャの再構成を行い、前記目標人体の三次元人体モデルを取得するためのテクスチャ再構成モジュールと、を備えることを特徴とする三次元人体再構成装置
。
【請求項9】
電子デバイスであって、
メモリと、プロセッサとを備え、
前記メモリは、コンピュータ可読命令を記憶するために用いられ、前記プロセッサは、前記コンピュータ命令を呼び出すことにより、請求項1から
7のいずれか一項に記載の方法を実施するために用いられることを特徴とする電子デバイス。
【請求項10】
コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項1から
7のいずれか一項に記載の方法が実施されることを特徴とするコンピュータ可読記憶媒体。
【請求項11】
コンピュータ
可読命令を含むコンピュータプログラ
ムであって、
前記コンピュータ
可読命令がプロセッサによって実行されると、請求項1から
7のいずれか一項に記載の方法が実施されることを特徴とするコンピュータプログラ
ム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0024
【補正方法】変更
【補正の内容】
【0024】
第5態様は、コンピュータプログラムを提供する。当該コンピュータプログラムは、コンピュータ可読命令を含み、前記コンピュータ可読命令がプロセッサによって実行されると、本発明のいずれかの実施例に記載の方法が実施される。
【国際調査報告】