特表2023-518584 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 北京達佳互▲れん▼信息技術有限公司の特許一覧

特表2023-518584３次元人体モデル構築方法および電子機器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-05-02

(54)【発明の名称】３次元人体モデル構築方法および電子機器

(51)【国際特許分類】

G06T 7/50 20170101AFI20230425BHJP

G06T 7/00 20170101ALI20230425BHJP

G06T 17/20 20060101ALI20230425BHJP

【ＦＩ】

G06T7/50

G06T7/00 660Z

G06T7/00 350C

G06T17/20

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2022557941

(86)(22)【出願日】2020-12-25

(85)【翻訳文提出日】2022-09-22

(86)【国際出願番号】 CN2020139594

(87)【国際公開番号】W WO2021253788

(87)【国際公開日】2021-12-23

(31)【優先権主張番号】202010565641.7

(32)【優先日】2020-06-19

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】520230293

【氏名又は名称】北京達佳互▲れん▼信息技術有限公司

(74)【代理人】

【識別番号】100108453

【弁理士】

【氏名又は名称】村山靖彦

(74)【代理人】

【識別番号】100110364

【弁理士】

【氏名又は名称】実広信哉

(74)【代理人】

【識別番号】100133400

【弁理士】

【氏名又は名称】阿部達彦

(72)【発明者】

【氏名】曹炎培

(72)【発明者】

【氏名】▲趙▼ 培▲堯▼

【テーマコード（参考）】

5B080

5L096

【Ｆターム（参考）】

5B080AA13

5B080AA14

5B080CA00

5B080FA00

5B080GA00

5L096AA06

5L096BA18

5L096CA01

5L096DA02

5L096EA39

5L096FA12

5L096FA32

5L096FA67

5L096FA69

5L096FA77

5L096GA34

5L096HA11

5L096KA04

(57)【要約】

３次元人体モデル構築方法を開示する。当該方法は、人体領域を含むターゲット画像を特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得ることと、当該画像特徴情報を全結合頂点再構築ネットワークに入力することにより、第１人体３次元メッシュ頂点位置を得ることと、人体３次元メッシュ頂点間のターゲット接続関係と第１人体３次元メッシュ頂点位置に基づいて、３次元人体モデルを構築することと、を含む。

【特許請求の範囲】

【請求項1】

人体領域を含む検出すべき画像を取得し、前記検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、
前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、
前記第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する３次元人体モデルを構築することと、
を含む、３次元人体モデル構築方法。

【請求項2】

前記３次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練し、即ち、
サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、前記初期特徴抽出ネットワークから出力された前記サンプル人体領域の画像特徴情報を得て、
前記サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、前記サンプル人体領域に対応する人体３次元メッシュモデルを得て、前記サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、前記サンプル人体領域に対応する第２人体３次元メッシュ頂点位置を得て、
前記人体３次元メッシュモデル、前記第２人体３次元メッシュ頂点位置、および予めマークされた前記サンプル画像における人体頂点位置に基づいて、前記特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る、
請求項１に記載の方法。

【請求項3】

前記３次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の３次元再構築モデルを得ることをさらに含む、
請求項２に記載の方法。

【請求項4】

前記前記人体３次元メッシュモデル、前記第２人体３次元メッシュ頂点位置、および予めマークされた前記サンプル画像における人体頂点位置に基づいて、前記特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することは、
前記人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置、前記予めマークされた人体頂点位置に基づいて、第１損失値を確定し、ここで、前記予めマークされた人体頂点位置は、頂点投影座標または３次元メッシュ頂点座標であることと、
前記第３人体３次元メッシュ頂点位置、前記第２人体３次元メッシュ頂点位置、および前記予めマークされた人体頂点位置に基づいて、第２損失値を確定することと、
確定された第１損失値が第１プリセット範囲内にあり、確定された第２損失値が第２プリセット範囲内にあるまで、前記第１損失値に基づいて前記初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、前記第２損失値に基づいて前記初期全結合頂点再構築ネットワークのモデルパラメータを調整し、前記第１損失値と前記第２損失値に基づいて前記初期特徴抽出ネットワークのモデルパラメータを調整することと、
を含む、請求項２に記載の方法。

【請求項5】

前記前記第３人体３次元メッシュ頂点位置、前記第２人体３次元メッシュ頂点位置、および前記予めマークされた人体頂点位置に基づいて、第２損失値を確定することは、
前記第２人体３次元メッシュ頂点位置、前記第３人体３次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、前記整合性損失値は、前記全結合頂点再構築ネットワークと前記初期グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュ頂点位置との重なり度合いを表すことと、
前記第２人体３次元メッシュ頂点位置、前記予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、前記予測損失値は、前記全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置の正確度を表すことと、
前記整合性損失値と予測損失値に対して加重平均を計算することにより、前記第２損失値を得ることと、
を含む、請求項４に記載の方法。

【請求項6】

前記前記整合性損失値と予測損失値に対して加重平均を計算することにより、前記第２損失値を得ることは、
前記整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、前記第２損失値を得ることを含み、
ここで、前記平滑化損失値は、前記全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルの平滑度を表し、前記平滑化損失値は、前記第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて確定される、
請求項５に記載の方法。

【請求項7】

前記３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、前記３次元人体モデルに対応する人体形態パラメータを得ることをさらに含み、ここで、前記人体形態パラメータは、前記３次元人体モデルの人体形状および／または人体姿勢を表すために使用される、
請求項１に記載の方法。

【請求項8】

人体領域を含む検出すべき画像を取得し、前記検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることを実行するように構成される特徴抽出ユニットと、
前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得ることを実行するように構成され、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである位置取得ユニットと、
前記第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する３次元人体モデルを構築することを実行するように構成されるモデル構築ユニットと、
を含む、３次元人体モデル構築装置。

【請求項9】

訓練ユニットをさらに含み、
前記訓練ユニットは、具体的に、前記３次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練することを実行するように構成され、即ち、
サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、前記初期特徴抽出ネットワークから出力された前記サンプル人体領域の画像特徴情報を得て、
前記サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、前記サンプル人体領域に対応する人体３次元メッシュモデルを得て、前記サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、前記サンプル人体領域に対応する第２人体３次元メッシュ頂点位置を得て、
前記人体３次元メッシュモデル、前記第２人体３次元メッシュ頂点位置、および予めマークされた前記サンプル画像における人体頂点位置に基づいて、前記特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る、
請求項８に記載の装置。

【請求項10】

前記訓練ユニットは、さらに、前記３次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の３次元再構築モデルを得ることを実行するように構成される請求項９に記載の装置。

【請求項11】

前記訓練ユニットは、具体的に、以下のことを実行するように構成され、即ち、
前記人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置、前記予めマークされた人体頂点位置に基づいて、第１損失値を確定し、ここで、前記予めマークされた人体頂点位置は、頂点投影座標または３次元メッシュ頂点座標であり、
前記第３人体３次元メッシュ頂点位置、前記第２人体３次元メッシュ頂点位置、および前記予めマークされた人体頂点位置に基づいて、第２損失値を確定し、
確定された第１損失値が第１プリセット範囲内にあり、確定された第２損失値が第２プリセット範囲内にあるまで、前記第１損失値に基づいて前記初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、前記第２損失値に基づいて前記初期全結合頂点再構築ネットワークのモデルパラメータを調整し、前記第１損失値と前記第２損失値に基づいて前記初期特徴抽出ネットワークのモデルパラメータを調整する、
請求項９に記載の装置。

【請求項12】

前記訓練ユニットは、具体的に、以下のことを実行するように構成され、即ち、
前記第２人体３次元メッシュ頂点位置、前記第３人体３次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、前記整合性損失値は、前記全結合頂点再構築ネットワークと前記初期グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュ頂点位置との重なり度合いを表し、
前記第２人体３次元メッシュ頂点位置、前記予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、前記予測損失値は、前記全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置の正確度を表し、
前記整合性損失値と予測損失値に対して加重平均を計算することにより、前記第２損失値を得る、
請求項１１に記載の装置。

【請求項13】

前記訓練ユニットは、具体的に、以下のことを実行するように構成され、即ち、
前記整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、前記第２損失値を得て、
ここで、前記平滑化損失値は、前記全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルの平滑度を表し、前記平滑化損失値は、前記第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて確定される、
請求項１２に記載の装置。

【請求項14】

人体形態パラメータ取得ユニットをさらに含み、
前記人体形態パラメータ取得ユニットは、具体的に、以下のことを実行するように構成され、即ち、前記３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、前記３次元人体モデルに対応する人体形態パラメータを得て、ここで、前記人体形態パラメータは、前記３次元人体モデルの人体形状および／または人体姿勢を表すために使用される、
請求項８に記載の装置。

【請求項15】

プロセッサと、
実行可能な命令を記憶するためのメモリと、
を含み、
ここで、前記プロセッサは、前記実行可能な命令を実行することにより、以下のステップを実現するように構成され、即ち、
人体領域を含む検出すべき画像を取得し、検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得るステップ、
人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、全結合頂点再構築ネットワークは、訓練中に３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであるステップ、
第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、人体領域に対応する３次元人体モデルを構築するステップ、
である、
電子機器。

【請求項16】

前記プロセッサは、以下のことを実行するように構成され、即ち、
サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、初期特徴抽出ネットワークから出力されたサンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体３次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第２人体３次元メッシュ頂点位置を得て、
人体３次元メッシュモデル、第２人体３次元メッシュ頂点位置、および予めマークされたサンプル画像における人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る、
請求項１５に記載の電子機器。

【請求項17】

前記プロセッサは、以下のことを実行するように構成され、即ち、
３次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の３次元再構築モデルを得る、
請求項１６に記載の電子機器。

【請求項18】

前記プロセッサは、以下のことを実行するように構成され、即ち、
人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置、予めマークされた人体頂点位置に基づいて、第１損失値を確定し、ここで、予めマークされた人体頂点位置は、頂点投影座標または３次元メッシュ頂点座標であり、
第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置、および予めマークされた人体頂点位置に基づいて、第２損失値を確定し、
確定された第１損失値が第１プリセット範囲内にあり、確定された第２損失値が第２プリセット範囲内にあるまで、第１損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する、
請求項１６に記載の電子機器。

【請求項19】

前記プロセッサは、以下のことを実行するように構成され、即ち、
第２人体３次元メッシュ頂点位置、第３人体３次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュ頂点位置の重なり度合いを表し、
第２人体３次元メッシュ頂点位置、予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、予測損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置の正確度を表し、
整合性損失値と予測損失値に対して加重平均を計算することにより、第２損失値を得る、
請求項１８に記載の電子機器。

【請求項20】

前記プロセッサは、以下のことを実行するように構成され、即ち、
整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第２損失値を得て、
平滑化損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルの平滑度を表し、平滑化損失値は、第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて確定される、
請求項１９に記載の電子機器。

【請求項21】

前記プロセッサは、以下のことを実行するように構成され、即ち、
３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、３次元人体モデルに対応する人体形態パラメータを得て、人体形態パラメータは、３次元人体モデルの人体形状および／または人体姿勢を表すために使用される、
請求項１５に記載の電子機器。

【請求項22】

実行可能な命令が記憶されたコンピュータ記憶媒体であって、前記実行可能な命令が実行されるときに、
人体領域を含む検出すべき画像を取得し、前記検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、
前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、
前記第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する３次元人体モデルを構築することと、
を含む３次元人体モデル構築方法を実現する、
記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

関連する出願の援用
本出願は、２０２０年０６月１９日に中国特許庁に提出された出願番号２０２０１０５６５６４１.７、発明名称「３次元人体モデル構築方法、装置、電子機器、および記憶媒体」の中国特許出願の優先権を主張し、その全ての内容は参照により本出願に援用する。

【0002】

本出願は、コンピュータ技術の分野に関し、特に３次元人体モデル構築方法および装置に関するものである。

【背景技術】

【0003】

画像処理技術の発展に伴い、画像データに基づいて３次元人体モデルを再構築することは、マシンビジョンアルゴリズムの重要な応用方向である。画像から３次元人体モデルを再構築した後で３次元人体モデルを得ることは、映画やテレビなどのエンターテイメント、医療健康及び教育などの分野に広く応用できる。しかしながら、３次元人体モデルを再構築する方法は、往々にして特定のシーンで撮影する必要があり、制限条件が多く、構築プロセスが複雑で、必要な計算量が多く、３次元人体モデルを構築する効率が低い。

【発明の概要】

【課題を解決するための手段】

【0004】

本出願は、３次元人体モデルを構築する効率を向上させ、計算量を低減するための３次元人体モデル構築方法および装置に関する。本出願の技術案は、以下の通りである。

【0005】

本出願の実施例の第１側面によれば、人体領域を含む検出すべき画像を取得し、前記検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、前記第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する３次元人体モデルを構築することと、を含む３次元人体モデル構築方法に関する。

【0006】

本出願の実施例の第２側面によれば、人体領域を含む検出すべき画像を取得し、前記検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることを実行するように構成される特徴抽出ユニットと、前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得ることを実行するように構成され、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである位置取得ユニットと、前記第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、前記人体領域に対応する３次元人体モデルを構築することを実行するように構成されるモデル構築ユニットと、を含む３次元人体モデル構築装置に関する。

【0007】

本出願の実施例の第３側面によれば、実行可能な命令を記憶するためのメモリと、本出願の実施例の第１側面のいずれかに記載の３次元人体モデル構築方法を実現するために、前記メモリに記憶された実行可能な命令を読み出して実行するプロセッサと、を含む電子機器に関する。

【0008】

本出願の実施例の第４側面によれば、前記記憶媒体内の命令に基づいて３次元人体モデル構築装置のプロセッサによって実行されるとき、本出願の実施例の第１側面に記載された３次元人体モデル構築方法を３次元人体モデル構築装置に実行させることができる不揮発性コンピュータ記憶媒体に関する。

【図面の簡単な説明】

【0009】

【図1】一例示的な実施例による３次元人体モデル構築方法のフローチャートである。

【図2】一例示的な実施例による応用シーンの概略図である。

【図3】一例示的な実施例による特徴抽出ネットワークの概略構造図である。

【図4】一例示的な実施例による全結合頂点再構築ネットワークの概略構造図である。

【図5】一例示的な実施例による全結合頂点再構築ネットワークの隠れ層ノードの概略構造図である。

【図6】一例示的な実施例による３次元人体モデルの部分構造概略図である。

【図7】一例示的な実施例による訓練プロセスの概略図である。

【図8】一例示的な実施例による３次元人体モデル構築装置のブロック図である。

【図9】一例示的な実施例による別の３次元人体モデル構築装置のブロック図である。

【図10】一例示的な実施例による別の３次元人体モデル構築装置のブロック図である。

【図11】一例示的な実施例による電子機器のブロック図である。

【発明を実施するための形態】

【0010】

当業者に本出願の技術案をよりよく理解させるために、以下、図面を参照して本出願の実施例における技術案を明確かつ完全に説明する。

【0011】

以下、当業者の理解を容易にするために、本出願の実施例における用語の一部を説明する。

【0012】

（１）本出願の実施例では、「複数」という用語は、２つ以上を意味し、他の助数詞は、これと類似している。

【0013】

（２）本出願の実施例では、「端末デバイス」という用語は、各種アプリケーションをインストールすることができ、インストールされたアプリケーションで提供されたオブジェクトを表示することができるデバイスを指し、端末デバイスは、移動式であってもよく、固定式であってもよい。例えば、携帯電話、タブレット、各種ウェアラブルデバイス、車載機器、パーソナルデジタルアシスタント（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ、ＰＤＡ）、販売時点情報管理システム（ｐｏｉｎｔｏｆｓａｌｅｓ、ＰＯＳ）、または上記の機能を実現できる他の端末デバイスなどが挙げられる。

【0014】

（３）本出願の実施例では、「畳み込みニューラルネットワーク」という用語は、畳み込み演算を含みかつ深さ構造を有するフィードフォワードニューラルネットワーク（ＦｅｅｄｆｏｒｗａｒｄＮｅｕｒａｌＮｅｔｗｏｒｋｓ）の一種であり、深さ学習の代表的なアルゴリズムの一つであり、表現学習（ｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ）の能力を持ち、入力情報に対して階層構造に応じてシフト不変分類（ｓｈｉｆｔ-ｉｎｖａｒｉａｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）を行う。

【0015】

（４）本出願の実施例では、「機械学習」という用語は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑度理論などの分野を含む学問分野を指す。新しい知識や技能を獲得し、既存の知識構造を再構成して自分の性能を絶えず改善させるために、コンピュータが人間の学習行動をどのようにシミュレーションしたり実現したりするかを専門に研究する。

【0016】

画像処理技術の発展に伴い、画像データに基づいて３次元人体モデルを再構築することにより画像における人体を再現することは、マシンビジョンアルゴリズムの重要な応用方向である。応用シーンの多くは、３次元人体モデルによって得られた人体データを応用する必要があり、例えば、映画やテレビなどのエンターテイメントの分野に応用し、３次元人体モデルによって得られた人体データに基づいて３次元アニメーションの人物を駆動し、アニメーションを自働的に生成し、または、医療健康の分野に応用し、３次元人体モデルによって得られた人体データに基づいて、撮影された人体の身体活動および筋力発揮に対して解析などを行う。

【0017】

本出願の目的、技術案および利点をより明確にするために、以下、図面を参照して本出願をさらに詳細に説明し、説明された実施例は、すべての実施例ではなく、本出願の一部の実施例であることが明らかである。本出願の実施例に基づいて、当業者が創造的な労働をしない前提で取得した他のすべての実施例は、本出願の範囲に属する。

【0018】

以下、本出願の実施例をより詳細に説明する。

【0019】

図１は、一例示的な実施例による３次元人体モデル構築方法のフローチャートであり、図１に示されたように、以下のステップを含む。

【0020】

Ｓ１１では、人体領域を含む検出すべき画像を取得し、検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得る。

【0021】

Ｓ１２では、人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第１人体３次元メッシュ頂点位置を得る。

【0022】

ここで、全結合頂点再構築ネットワークは、訓練中に３次元再構築ネットワークに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである。

【0023】

Ｓ１３では、第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、人体領域に対応する３次元人体モデルを構築する。

【0024】

本出願の実施例に開示された３次元人体モデル構築方法では、人体領域を含む検出すべき画像に対して特徴を抽出し、検出すべき画像における人体領域の画像特徴情報を確定し、３次元再構築モデルにおける全結合頂点再構築ネットワークを通じて、画像特徴情報をデコードすることにより、検出すべき画像における人体領域に対応する第１人体３次元メッシュ頂点位置を得て、第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて３次元人体モデルを構築する。

【0025】

本出願の実施例による３次元人体モデル構築方法では、構築プロセスのコストが低く、３次元人体モデルを構築する効率が向上する。また、本出願の実施例は、計算効率を向上させ、第１人体３次元メッシュ頂点位置の精度を高め、３次元人体モデルの効率的かつ正確な構築を実現することができる。

【0026】

いくつかの実施例では、応用シーンは、図２に示された概略図であってもよく、端末デバイス２１には画像取得装置がインストールされ、ユーザ２０が端末デバイス２１の画像収集装置に基づいて人体領域を含む検出すべき画像を収集する場合、いくつかの実施例では、画像収集装置は、収集した検出すべき画像をサーバー２２に送信する。サーバー２２は、検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力し、特徴抽出ネットワークによって検出すべき画像に対して特徴を抽出することにより、人体領域の画像特徴情報を得る。サーバー２２は、人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第１人体３次元メッシュ頂点位置を得て、第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、人体領域に対応する３次元人体モデルを構築する。サーバー２２は、検出すべき画像における人体領域に対応する３次元人体モデルを端末デバイス２１内の画像収集装置に送信し、画像収集装置は、得られた３次元人体モデルによって対応する処理を行い、例えば、画像収集装置は、得られた３次元人体モデルによって人体データを得て、人体データに基づいて３次元アニメーションの人物など駆動し、アニメーションの人物をユーザ２０に表示する。

【0027】

なお、上記応用シーンでは、プリセット人体３次元メッシュ頂点間の接続関係は、サーバー２２に記憶されてもよく、または、画像収集装置が検出すべき画像をサーバー２２に送信すると同時に、プリセット人体３次元メッシュ頂点間の接続関係をサーバー２２に送信する。上記応用シーンは、例示的なものにすぎず、本出願の実施例の保護範囲を限定するものではない。

【0028】

本出願の実施例による３次元人体モデル構築方法では、３次元再構築モデルによって３次元人体モデルを構築する。本出願の実施例では、３次元再構築モデルは、訓練中に特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを含み、訓練のときに、全結合頂点再構築ネットワークとグラフ畳み込みニューラルネットワークに対して整合性制約訓練を行い、訓練が完了した後、計算量と記憶量の両方が大きいグラフ畳み込みニューラルネットワークを削除することにより訓練済み３次元再構築モデルを得て、訓練済み３次元再構築モデルには特徴抽出ネットワークと全結合頂点再構築ネットワークが含まれる。

【0029】

訓練済み３次元再構築モデルによって３次元人体モデルを構築する場合、人体領域を含む検出すべき画像を取得した後、まず検出すべき画像に対して特徴を抽出する必要があり、検出すべき画像における人体領域の画像特徴情報を得る。

【0030】

いくつかの実施例では、検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得る。

【0031】

いくつかの実施例では、訓練済み特徴抽出ネットワークを呼び出す前に、人体領域を含む大量の画像を用いて特徴抽出ネットワークを訓練する必要があり、特徴抽出ネットワークを訓練する際の訓練サンプルには、人体領域を含むサンプル画像と予めマークされたサンプル画像における人体頂点位置が含まれる。訓練サンプルを画像特徴抽出ネットワークの入力とし、サンプル画像の画像特徴情報を画像特徴抽出ネットワークの出力とし、画像特徴抽出ネットワークを訓練する。なお、本出願の実施例では、訓練サンプルは、本出願の実施例に係る複数のニューラルネットワークを連携して訓練するために使用され、特徴抽出ネットワークを訓練するプロセスに対する上記説明は、例示的なものにすぎず、特徴抽出ネットワークを訓練するプロセスの詳細について、以下で詳細に説明する。

【0032】

訓練済みの特徴抽出ネットワークは、画像における人体領域を含む画像特徴情報を抽出する能力を持つ。

【0033】

いくつかの実施例では、検出すべき画像を訓練済み特徴抽出ネットワークに入力し、訓練済み特徴抽出ネットワークは、検出すべき画像における人体領域の画像特徴情報を抽出し、画像特徴情報を出力する。いくつかの実施例では、前記特徴抽出ネットワークは、畳み込みニューラルネットワークであってもよい。

【0034】

本出願の実施例では、特徴抽出ネットワークの構造は、図３に示されたように、少なくとも１つの畳み込み層３１、プーリング層３２および出力層３３を含み、特徴抽出ネットワークが検出すべき画像に対して特徴を抽出する場合の処理プロセスは、以下の通りであり、即ち、
少なくとも１つの畳み込み層３１における人体領域の特徴を抽出するための複数の畳み込みカーネルによって検出すべき画像に対して畳み込み操作を行うことにより、検出すべき画像に対応する複数の特徴マッピング行列を得て、
プーリング層３２によって複数の特徴マッピング行列に対して平均を計算し、平均を計算して得られた特徴マッピング行列を検出すべき画像に対応する画像特徴情報とし、
出力層によって、得られた検出すべき画像に対応する画像特徴情報を出力する。

【0035】

いくつかの実施例では、本出願の実施例における特徴抽出ネットワークは、少なくとも１つの畳み込み層、プーリング層、および出力層を含む。

【0036】

畳み込み層について、特徴抽出ネットワークは、少なくとも１つの畳み込み層を含み、各畳み込み層には複数の畳み込みカーネルが含まれ、畳み込みカーネルは、検出すべき画像における人体領域の特徴を抽出するための行列であり、特徴抽出ネットワークに入力された検出すべき画像は、画素値からなる画像行列であり、画素値は、検出すべき画像における画素の階調値、ＲＧＢ値などであってもよく、畳み込み層において複数の畳み込みカーネルは、検出すべき画像に対して畳み込み操作を行い、畳み込み操作とは、画像行列と畳み込みカーネル行列が行列の畳み込み演算を行うことを指し、ここで、画像行列は、１つの畳み込みカーネルの畳み込み操作を経て、１つの特徴マッピング行列を得て、複数の畳み込みカーネルが検出すべき画像に対して畳み込み操作を行うことにより、検出すべき画像に対応する複数の特徴マッピング行列を得ることができ、各畳み込みカーネルは、特定の特徴を抽出でき、異なる畳み込みカーネルは、異なる特徴を抽出する。

【0037】

本出願の実施例では、畳み込みカーネルは、人体領域の特徴を抽出するための畳み込みカーネルであってもよく、例えば、人体頂点の特徴を抽出する畳み込みカーネルであり、人体頂点の特徴を抽出する複数の畳み込みカーネルに基づいて、大量の検出すべき画像における人体頂点の特徴の情報を得ることができ、これらの情報は、検出すべき画像における人体頂点の検出すべき画像における位置情報を表すことができ、さらに検出すべき画像における人体領域の特徴を確定する。

【0038】

プーリング層について、プーリング層が複数の特徴マッピング行列における同じ位置の数値に対して平均を計算して得られた１つの特徴マッピング行列は、検出すべき画像に対応する画像特徴情報である。

【0039】

例えば、得られた３つの特徴マッピング行列を例に挙げ、本出願の実施例における特徴抽出ネットワークプーリング層の処理方法を説明し、特徴マッピング行列は、３×３の行列である。

【0040】

特徴マッピング行列１は、

【表1】

である。

【0041】

特徴マッピング行列２は、

【表2】

である。

【0042】

特徴マッピング行列３は、

【表3】

である。

【0043】

プーリング層が上記の３つの特徴マッピング行列における同じ位置の数値に対して平均を計算して得られた特徴マッピング行列は、

【表4】

である。

【0044】

上記マッピング行列は、検出すべき画像の画像特徴情報である。なお、上記複数の特徴マッピング行列および平均を計算して得られた特徴マッピング行列の処理プロセスは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。

【0045】

出力層の場合、出力層は、得られた検出すべき画像に対応する画像特徴情報を出力する。

【0046】

いくつかの実施例では、画像特徴情報を表す特徴行列の次元は、検出すべき画像の解像度の次元より小さくてもよい。

【0047】

検出すべき画像の画像特徴情報を得た後、全結合頂点再構築ネットワークによって、検出すべき画像における人体領域の第１人体３次元メッシュ頂点位置を確定する。

【0048】

いくつかの実施例では、人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、全結合頂点再構築ネットワークから出力された検出すべき画像における人体領域に対応する第１人体３次元メッシュ頂点位置を得る。

【0049】

ここで、訓練済み全結合頂点再構築ネットワークは、検出すべき画像の画像特徴情報および訓練済み全結合頂点再構築ネットワークの各層に対応する重み行列に基づいて、検出すべき画像における人体領域の第１人体３次元メッシュ頂点位置を得る。

【0050】

いくつかの実施例では、訓練済み全結合頂点再構築ネットワークを呼び出す前に、特徴抽出ネットワークから出力されたサンプル画像の画像特徴情報によって全結合頂点再構築ネットワークを訓練する必要がある。サンプル画像の画像特徴情報を全結合頂点再構築ネットワークの入力とし、サンプル画像における人体領域に対応する人体３次元メッシュ頂点位置を全結合頂点再構築ネットワークの出力とし、全結合頂点再構築ネットワークを訓練する。なお、全結合頂点再構築ネットワークを訓練するプロセスの上記説明は、例示的なものにすぎず、全結合頂点再構築ネットワークを訓練するプロセスの詳細について、以下で詳細に説明する。

【0051】

訓練済みの全結合頂点再構築ネットワークは、検出すべき画像における人体領域に対応する第１人体３次元メッシュ頂点位置を確定する能力を持つ。

【0052】

実施中に、検出すべき画像における人体領域の画像特徴情報を訓練済み全結合頂点再構築ネットワークに入力し、訓練済み全結合頂点再構築ネットワークは、画像特徴情報および全結合頂点再構築ネットワークの各層に対応する重み行列に基づいて、検出すべき画像における人体領域に対応する第１人体３次元メッシュ頂点位置を確定し、第１人体３次元メッシュ頂点位置を出力する。

【0053】

いくつかの実施例では、前記人体３次元メッシュ頂点は、予め定義されたいくつかの密集キーポイントであってもよく、人体表面をより精密にサンプリングして得られた３次元キーポイントを含み、五官及び各関節付近のキーポイントを含んでもよく、人体の背部、腹部及び四肢の表面にキーポイントを定義することもできる。例えば、完全な人体表面の情報を表現するために、１０００個のキーポイントを予め設定することができる。ここで、人体３次元メッシュ頂点の数は、抽出された画像特徴情報における頂点の数よりも小さくてもよい。

【0054】

本出願の実施例では、全結合頂点再構築ネットワークの構造は、図４に示されたように、入力層４１、少なくとも１つの隠れ層４２、および出力層４３を含み、ここで、全結合頂点再構築ネットワークの各層ノードの数は、例示的なものにすぎず、本出願の実施例の保護範囲を限定するものではない。訓練済み全結合頂点再構築ネットワークは、以下のように検出すべき画像における人体領域の第１人体３次元メッシュ頂点位置を得て、即ち、

【0055】

入力層４１によって検出すべき画像の画像特徴情報に対して前処理を行うことで、入力特徴ベクトルを得る。

【0056】

少なくとも１つの隠れ層４２によって、隠れ層に対応する重み行列に基づいて、入力特徴ベクトルを非線形変換することで、検出すべき画像における人体領域の第１人体３次元メッシュ頂点位置を得る。

【0057】

出力層４３によって、検出すべき画像における人体領域の第１人体３次元メッシュ頂点位置を出力する。

【0058】

いくつかの実施例では、本出願の実施例における全結合頂点再構築ネットワークは、少なくとも１つの入力層、少なくとも１つの隠れ層、および出力層を含む。

【0059】

１つの隠れ層を例に挙げて、本出願の実施例における全結合頂点再構築ネットワークの構造を説明し、全結合頂点再構築ネットワークにおける入力層の各ノードと隠れ層の各ノードは、相互に接続され、隠れ層の各ノードと出力層の各ノードは、相互に接続される。入力層の場合、全結合頂点再構築ネットワークは、入力層によって、入力された画像特徴情報に対して前処理を行うことで、入力特徴ベクトルを得て、画像特徴情報に対して前処理を行う場合、いくつかの実施例では、画像特徴情報を表す特徴行列に含まれたデータをベクトルの形に変換することにより、入力特徴ベクトルを得る。

【0060】

例えば、画像特徴情報は、以下のようになると、即ち、

【表5】

【0061】

画像特徴情報に対して前処理を行うことで得られた入力特徴ベクトルは、

【表6】

であってもよい。

【0062】

上記の画像特徴情報および画像特徴情報に対する前処理プロセスは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。

【0063】

いくつかの実施例では、全結合頂点再構築ネットワークにおけるノードの数は、入力特徴ベクトルに含まれたデータの数と同じであってもよい。

【0064】

隠れ層の場合、全結合頂点再構築ネットワークの隠れ層は、隠れ層に対応する重み行列に基づいて、入力特徴ベクトルを非線形変換することにより、検出すべき画像における人体領域に対応する第１人体３次元メッシュ頂点位置を得て、隠れ層の各ノードの出力値は、入力層のすべてのノードの出力値、現在のノードと入力層のすべてのノードの重み、現在のノードの偏差値、および活性化関数に基づいて確定される。

【0065】

例えば、以下の式に基づいて隠れ層の各ノードの出力値を確定し、即ち、

【数1】

【0066】

ここで、Ｙ_ｋは、隠れ層におけるノードｋの出力値であり、Ｗ_ｉｋは、隠れ層におけるノードｋと前層のノードｉとの重み値であり、Ｘ_ｉは、前層のノードｉの出力値であり、Ｂ_ｋは、ノードｋの偏差値であり、ｆ（）は、活性化関数である。

【0067】

本出願の実施例では、重み行列は、異なる重み値からなる行列である。活性化関数として、ＲＥＬＵ関数を選択することができる。

【0068】

本出願の実施例では、隠れ層における各ノードの構造は、図５に示されたように、全結合（ＦＣ）処理層、正規化（ＢＮ）処理層、活性化関数（ＲＥＬＵ）処理層を含む。

【0069】

ここで、全結合処理層は、以下の式の前層のノードの出力値、隠れ層におけるノードと前層のノードとの重み値、および隠れ層におけるノードの偏差値に基づいて、全結合処理後の数値を得て、正規化処理層は、各ノードの全結合処理後の数値に対してバッチ正規化処理を行うために使用され、活性化関数処理層は、正規化処理後の値に対して非線形変換処理を行うことにより、ノードの出力値を得る。

【0070】

いくつかの実施例では、本出願の実施例における全結合頂点再構築ネットワークの隠れ層の層数および各隠れ層におけるノードの数は、当業者の経験に基づいて設定可能であり、具体的に限定しない。出力層の場合、全結合頂点再構築ネットワークの出力層は、得られた検出すべき画像における人体領域に対応する第１人体３次元メッシュ頂点位置を出力する。

【0071】

いくつかの実施例では、出力層の各ノードの出力値の確定方法は、隠れ層と同じであってもよく、即ち、出力層の出力値は、隠れ層のすべてのノードの出力値、出力層のノードと隠れ層のすべてのノードの重み、および活性化関数に基づいて確定される。

【0072】

本出願の実施例では、出力層のノードの数は、人体３次元メッシュ頂点の数の３倍であってもよく、例えば、人体３次元メッシュ頂点の数が１０００であると、出力層のノードの数は、３０００である。ここで、出力層から出力されたベクトルは、３つごとに１つのグループになるように分割されることができ、第１人体３次元メッシュ頂点位置を構成する。例えば、出力層から出力されたベクトルが、

【表7】

であると、

【0073】

（Ｘ_１、Ｙ_１、Ｚ_１）は、人体３次元メッシュ頂点１の位置であり、（Ｘ_ｉ、Ｙ_ｉ、Ｚ_ｉ）は、人体３次元メッシュ頂点ｉの位置である。

【0074】

なお、画像特徴情報に基づいて第１人体３次元メッシュ頂点位置を確定する上記プロセスは、本質的には、複数の隠蔽層によって画像特徴情報を表す高次元特徴行列をデコードした後に人体３次元メッシュ頂点位置を得るプロセスである。

【0075】

本出願の実施例では、全結合頂点再構築ネットワークに基づいて検出すべき画像における人体領域の第１人体３次元メッシュ頂点位置を取得した後、第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、検出すべき画像における人体領域に対応する３次元人体モデルを構築する。

【0076】

いくつかの実施例では、全結合頂点再構築ネットワークから出力された第１人体３次元メッシュ頂点位置に基づいて、人体３次元メッシュ頂点の３次元空間における座標を確定し、プリセット人体３次元メッシュ頂点間の接続関係に従って、空間における人体３次元メッシュ頂点を接続することにより、検出すべき画像における人体領域に対応する３次元人体モデルを構築する。

【0077】

いくつかの実施例では、本出願の実施例における３次元人体モデルは、三角形メッシュモデルであってもよく、三角形メッシュは、三角形からなる多角形メッシュであり、図像学およびモデル化において広く応用され、例えば建築、車両、人体などの複雑な物体の表面を構築するために用いられる。

【0078】

三角メッシュモデルは、記憶時にインデックス情報の形で記憶され、例えば、図６は、本出願の実施例における３次元人体モデルの部分構造を示し、ここで、ｖ１、ｖ２、ｖ３、ｖ４、ｖ５は、５つの人体３次元メッシュ頂点であり、記憶時に対応するインデックス情報は、表１に示された頂点位置インデックスリスト、表２に示された辺インデックスリスト、及び表３に示された三角形インデックスリストを含む。

【0079】

【表8】

【0080】

【表9】

【0081】

【表10】

【0082】

ここで、表２および表３に示されたインデックス情報は、予め設定された人体キーポイント間の接続関係を表し、表１、表２、および表３に示されたデータは、例示的なものにすぎず、本出願の実施例における３次元人体モデルの人体３次元メッシュ頂点の一部と人体３次元メッシュ頂点の一部との接続関係にすぎない。実施中に、人体３次元メッシュ頂点は、当業者の経験に基づいて選択することができ、また、人体３次元メッシュ頂点の数も、当業者の経験に基づいて設定されることができる。

【0083】

第１人体３次元メッシュ頂点を取得した後、空間において第１人体３次元メッシュ頂点位置を確定し、辺インデックスリストおよび三角形インデックスリストに示された接続関係に基づいて空間における人体３次元メッシュ頂点を接続することにより、３次元人体モデルを得る。

【0084】

検出すべき画像における人体領域に対応する３次元人体モデルを構築した後、３次元人体モデルに基づいて関連分野の応用を行うことができる。

【0085】

いくつかの実施例では、３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、３次元人体モデルに対応する人体形態パラメータを得る。

【0086】

ここで、人体形態パラメータは、３次元人体モデルの人体形状および／または人体姿勢を表すために使用される。

【0087】

いくつかの実施例では、３次元人体モデルに基づいて検出すべき画像における人体の形態パラメータを得ることができ、これには、例えば身長、三囲、腿の長さなどの人体形状を表すパラメータ、及び例えば関節角度、人体姿勢情報などの人体姿勢を特定するパラメータが含まれる。当該３次元人体モデルに対応する人体形態パラメータをアニメーションおよび映像業界に応用し、３次元アニメーションなどを生成するために使用される。

【0088】

なお、３次元人体モデルに対応する人体形態パラメータをアニメーションおよび映像業界に応用することは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。得られた人体形態パラメータは、例えば運動、医療分野などの他の分野にも応用することができ、検出すべき画像における人体に対応する３次元人体モデルから得られた人体形態パラメータに基づいて、検出すべき画像に撮影された被写体の肢体運動及び筋力発揮に対して解析などを行う。

【0089】

３次元人体モデルに対応する人体形態パラメータを確定する場合、３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、訓練済み人体パラメータ回帰ネットワークから出力された３次元人体モデルに対応する人体形態パラメータを取得する。ここで、人体パラメータ回帰ネットワークを訓練する場合に使用された訓練サンプルは、３次元人体モデルサンプルおよび予めマークされた３次元人体モデルサンプルに対応する人体形態パラメータを含む。

【0090】

人体パラメータ回帰ネットワークを呼び出す前に、まず、３次元人体モデルサンプルおよび予めマークされた３次元人体モデルサンプルに対応する人体形態パラメータを含む訓練サンプルに基づいて人体パラメータ回帰ネットワークを訓練することにより得られた人体パラメータ回帰ネットワークは、３次元人体モデルに基づいて人体形態パラメータを得る能力を持ち、使用中に、検出すべき画像に基づいて得られた３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力し、人体パラメータ回帰ネットワークは、３次元人体モデルに対応する人体形態パラメータを出力する。

【0091】

本出願の実施例では、人体パラメータ回帰ネットワークの性質は、全結合ニューラルネットワーク、畳み込みニューラルネットワークなどであってもよく、本出願の実施例では具体的に限定せず、人体パラメータ回帰ネットワークの訓練プロセスに対して、本発明の実施例では具体的に限定しない。

【0092】

本出願の実施例では、３次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを連携して訓練する方法をさらに提供し、連携して訓練するプロセスでは、グラフ畳み込みニューラルネットワークによって全結合頂点再構築ネットワークを整合性制約訓練する。

【0093】

いくつかの実施例では、サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、サンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体３次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第２人体３次元メッシュ頂点位置を得て、
人体３次元メッシュモデル、第２人体３次元メッシュ頂点位置、および予めマークされたサンプル画像における人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。

【0094】

本出願の実施例による３次元再構築モデルの訓練方法では、３次元再構築モデルには特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークが含まれ、特徴抽出ネットワークによって抽出されたサンプル画像におけるサンプル人体領域の画像特徴情報を、全結合頂点再構築ネットワークおよびグラフ畳み込みニューラルネットワークにそれぞれ入力し、全結合頂点再構築ネットワークの出力は、第２人体３次元メッシュ頂点位置であり、グラフ畳み込みニューラルネットワークの入力は、予め定義された人体モデルメッシュトポロジ構造をさらに含み、グラフ畳み込みニューラルネットワーの出力は、サンプル人体領域に対応する人体３次元メッシュモデルであり、人体３次元メッシュモデルによって確定された第３人体３次元メッシュ頂点位置および全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置に基づいて、グラフ畳み込みニューラルネットワークと全結合頂点再構築ネットワークを整合性制約訓練し、訓練後の全結合頂点再構築ネットワークによる人体３次元メッシュ頂点位置の取得能力は、グラフ畳み込みニューラルネットワークによる人体３次元メッシュ頂点位置の取得能力と似ているが、計算量がグラフ畳み込みニューラルネットワークよりはるかに小さく、効率的かつ正確な人体三次元モデルの構築を実現する。３次元人体モデルの効率的かつ正確な構築を実現する。

【0095】

いくつかの実施例では、サンプル画像および予めマークされた人体頂点位置を３次元再構築モデルに入力し、３次元再構築モデルにおける初期特徴抽出ネットワークによってサンプル画像に対して特徴を抽出することにより、サンプル画像におけるサンプル人体領域の画像特徴情報を得る。

【0096】

実施中に、特徴抽出ネットワークは、畳み込みニューラルネットワークであってもよく、特徴抽出ネットワークがサンプル画像に対して特徴を抽出することは、本質的に、特徴抽出ネットワークが、入力されたサンプル画像を多層畳み込み動作によって高次元特徴行列、即ちサンプル画像の画像特徴情報にエンコードすることを意味する。ここで、特徴抽出ネットワークがサンプル画像に対して特徴を抽出するプロセスは、検出すべき画像に対して特徴を抽出する上記プロセスと同じであり、ここでは説明を省略する。

【0097】

得られたサンプル画像のサンプル人体領域の画像特徴情報を、初期全結合頂点再構築ネットワークおよび初期グラフ畳み込みニューラルネットワークにそれぞれ入力する。

【0098】

初期全結合頂点再構築ネットワークは、サンプル画像におけるサンプル人体領域の画像特徴情報および初期全結合頂点再構築ネットワークの各層に対応する初期重み行列に基づいて、サンプル画像における第２人体３次元メッシュ頂点位置を確定する。

【0099】

実施中に、初期全結合頂点再構築ネットワークは、複数の隠れ層に対応する重み行列によって画像特徴情報を表す高次元特徴行列をデコードすることにより、サンプル画像における第２人体３次元メッシュ頂点位置を得る。ここで、全結合頂点再構築ネットワークがサンプル画像の画像特徴情報に基づいてサンプル画像における第２人体３次元メッシュ頂点位置を得るプロセスは、全結合頂点再構築ネットワークが検出すべき画像の画像特徴情報に基づいて検出すべき画像における第１人体３次元メッシュ頂点位置を得るプロセスと同じであり、ここでは説明を省略する。

【0100】

例えば、初期全結合頂点再構築ネットワークから得られたサンプル画像における人体領域に対応する第２人体３次元メッシュ頂点位置は、

【数2】

であり、全結合頂点再構築ネットワークから出力されたｉ番目の人体３次元メッシュ頂点の空間における位置を表している。

【0101】

初期グラフ畳み込みニューラルネットワークは、サンプル画像の画像特徴情報および初期グラフ畳み込みニューラルネットワークに入力した予め定義された人体モデルメッシュトポロジ構造に基づいて、人体３次元メッシュモデルを確定し、人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置を確定する。

【0102】

実施中に、初期特徴抽出ネットワークから出力されたサンプル画像におけるサンプル人体領域に対応する画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を、初期グラフ畳み込みニューラルネットワークに入力し、ここで、予め定義された人体モデルメッシュトポロジ構造は、三角形メッシュモデルの記憶情報であってもよく、プリセット人体３次元メッシュ頂点に対応する頂点位置インデックスリスト、辺インデックスリスト、および三角形インデックスリストなどを含む。初期グラフ畳み込みニューラルネットワークは、画像特徴情報を表す高次元特徴行列をデコードすることにより、サンプル画像における人体３次元メッシュ頂点に対応する空間位置を得て、得られた人体３次元メッシュ頂点の空間位置に基づいて、予め記憶された頂点位置インデックスリストにおける人体３次元メッシュ頂点に対応する空間位置を調整し、サンプル画像に含まれたサンプル人体領域に対応する人体３次元メッシュモデルを出力し、出力した人体３次元メッシュモデルに対応する調整後の頂点位置インデックスリストによって第３人体３次元メッシュ頂点位置を確定する。

【0103】

例えば、初期グラフ畳み込みニューラルネットワークから得られたサンプル画像におけるサンプル人体領域に対応する第３人体３次元メッシュ頂点位置は、

【数3】

であり、グラフ畳み込みニューラルネットワークから出力されたｉ番目の人体３次元メッシュ頂点の空間における位置を表している。

【0104】

いくつかの実施例では、第１人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置および第３人体３次元メッシュ頂点位置に係る人体３次元メッシュ頂点は、同じであってもよく、第１、第２、第３は、異なる場合に得られる人体３次元メッシュ頂点位置を区別するために使用され、例えば、左眼中心点を表す人体３次元メッシュ頂点に対して、第１人体３次元メッシュ頂点位置は、訓練後の全結合頂点再構築ネットワークから得られた検出すべき画像における人体領域の左眼の中心点の位置を表し、第２人体３次元メッシュ頂点位置は、訓練中に全結合頂点再構築ネットワークから得られたサンプル画像におけるサンプル人体領域の左眼の中心点の位置を表し、第３人体メッシュ頂点位置は、訓練中にグラフ畳み込みニューラルネットワークから得られたサンプル画像におけるサンプル人体領域に対応する人体３次元メッシュモデルの左眼の中心点の位置を表す。

【0105】

サンプル人体領域に対応する人体３次元メッシュモデルおよび第２人体３次元メッシュ頂点を得た後、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る必要がある。

【0106】

いくつかの実施例では、人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置および予めマークされた人体頂点位置に基づいて、第１損失値を確定し、第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置、および予めマークされた人体頂点位置に基づいて、第２損失値を確定する。

【0107】

確定された第１損失値が第１プリセット範囲内にあり、確定された第２損失値が第２プリセット範囲内にあるまで、第１損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する。

【0108】

本出願の実施例では、３次元再構築モデルの訓練プロセスでは、２つの損失値を確定する必要があり、ここで、第３人体３次元メッシュ頂点位置と予めマークされた人体頂点位置に基づいて第１損失値を確定する。

【0109】

実施中に、予めマークされた人体頂点位置は、３次元メッシュ頂点座標または頂点投影座標であってもよく、サンプル画像を収集する場合に使用された画像収集装置のパラメータ行列によって、人体頂点に対応する３次元メッシュ頂点座標と頂点投影座標を変換することができる。例えば、予めマークされたサンプル画像における人体頂点位置は、頂点投影座標

【数4】

であり、予めマークされたｉ番目の人体頂点位置を表す。

【0110】

第１損失値を確定する場合、第３人体３次元メッシュ頂点位置およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、第３人体３次元メッシュ頂点位置に対応する投影座標

【数5】

が得られると、第１損失値を確定する式は、

【数6】

になる。

【0111】

ここで、S₁は第１損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数7】

はｉ番目の第３人体３次元メッシュ頂点位置に対応する投影座標を表し、

【数8】

は予めマークされたｉ番目の人体頂点位置を表し、頂点投影座標である。

【0112】

上記実施例は、例示的なものにすぎず、実施中に、予めマークされた頂点投影座標およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、対応する３次元メッシュ頂点座標を得て、３次元メッシュ頂点座標と第３人体３次元メッシュ頂点位置に基づいて第１損失値を確定することもできる。

【0113】

例えば、予めマークされたサンプル画像における人体頂点位置は、３次元メッシュ頂点座標

【数9】

であり、予めマークされたｉ番目の人体頂点位置を表す。

【0114】

第１損失値を確定する場合、第３人体３次元メッシュ頂点位置および予めマークされた３次元メッシュ頂点に基づいて第１損失値を確定すると、第１損失値を確定する式は、

【数10】

になる。

【0115】

ここで、S₁は第１損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数11】

はｉ番目の第３人体３次元メッシュ頂点位置を表し、

【数12】

は予めマークされたｉ番目の人体頂点位置を表し、３次元メッシュ頂点座標である。

【0116】

第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置、および予めマークされた人体頂点位置に基づいて、第２損失値を確定する必要もある。

【0117】

いくつかの実施例では、第２人体３次元メッシュ頂点位置、第３人体３次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、第２人体３次元メッシュ頂点位置、予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて平滑化損失値を確定し、整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第２損失値を得る。

【0118】

いくつかの実施例では、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置とグラフ畳み込みニューラルネットワークに基づいて得られた第３人体３次元メッシュ頂点位置に基づいて、整合性損失値を確定し、整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュ頂点位置との重なり度合いを表し、整合性制約訓練するために使用され、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置と予めマークされた人体頂点位置に基づいて、予測損失値を確定し、予測損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置の正確度を表し、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて、平滑化損失値を確定し、平滑化損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルの平滑度を表し、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置を平滑化制約する。

【0119】

実施中に、第２人体３次元メッシュ頂点位置は、全結合頂点再構築ネットワークから出力され、第３人体３次元メッシュ頂点位置は、グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュモデルに基づいて得られ、グラフ畳み込みニューラルネットワークが人体３次元メッシュ頂点位置を比較的正確に得ることができるため、訓練中に、人体３次元メッシュ頂点に対応する第２人体３次元メッシュ頂点位置と第３人体３次元メッシュ頂点位置及び整合性損失関数に基づいて確定された整合性損失値が小さいほど、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置が、グラフ畳み込みニューラルネットワークから出力された第３人体３次元メッシュ頂点位置に近いことを示し、訓練済み全結合頂点再構築ネットワークは、検出すべき画像における人体領域に対応する第１人体３次元メッシュ頂点位置を確定する際により正確であり、全結合頂点再構築ネットワークは、グラフ畳み込みニューラルネットワークの計算量と記憶量よりも小さく、３次元人体モデルを構築する効率を高めることができる。

【0120】

例えば、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置が

【数13】

であり、グラフ畳み込みニューラルネットワークから得られた第３人体３次元メッシュ頂点位置が

【数14】

であると、整合性損失値を確定する式は、

【数15】

になる。

【0121】

ここで、a₁は整合性損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数16】

はｉ番目の第３人体３次元メッシュ頂点位置を表し、

【数17】

はｉ番目の第２人体３次元メッシュ頂点位置を表す。

【0122】

【数18】

であり、予めマークされたｉ番目の人体頂点位置を表す。

【0123】

予測損失値を確定する場合、第２人体３次元メッシュ頂点位置およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、第２人体３次元メッシュ頂点位置に対応する投影座標

【数19】

が得られると、予測損失値を確定する式は、

【数20】

になる。

【0124】

ここで、a₂は予測損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数21】

はｉ番目の第３人体３次元メッシュ頂点位置に対応する投影座標を表し、

【数22】

は予めマークされたｉ番目の人体頂点位置を表し、頂点投影座標である。

【0125】

上記実施例は、例示的なものにすぎず、実施中に、予めマークされた頂点投影座標およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、対応する３次元メッシュ頂点座標を得て、３次元メッシュ頂点座標と第２人体３次元メッシュ頂点位置に基づいて予測損失値を確定することもできる。

【0126】

例えば、予めマークされたサンプル画像における人体頂点位置は、３次元メッシュ頂点座標

【数23】

であり、予めマークされたｉ番目の人体頂点位置を表す。

【0127】

予測損失値を確定する場合、第２人体３次元メッシュ頂点位置および予めマークされた３次元メッシュ頂点に基づいて予測損失値を確定すると、予測損失値を確定する式は、

【数24】

になる。

【0128】

ここで、a₂は予測損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数25】

はｉ番目の第２人体３次元メッシュ頂点位置を表し、

【数26】

は予めマークされたｉ番目の人体頂点位置を表し、３次元メッシュ頂点座標である。

【0129】

実施中に、平滑化損失値を確定する場合、平滑化損失関数は、ラプラス関数であってもよく、全結合頂点再構築ネットワークから出力されたサンプル画像におけるサンプル人体領域に対応する第２人体３次元メッシュ頂点位置をラプラス関数に入力することにより、平滑化損失値を得て、ここで、平滑化損失値が大きいほど、第２人体３次元メッシュ頂点位置に基づいて３次元人体モデルを構築する際に、得られる３次元人体モデルの表面が平滑ではなく、逆に３次元人体モデルの表面が平滑である。

【0130】

平滑化損失値を確定する式は、a₃=||(L)||である。

【0131】

ここで、a₃は平滑化損失値を表し、Ｌは第２人体３次元メッシュ頂点位置に基づいて確定されたラプラス行列である。

【0132】

整合性損失値、予測損失値、平滑化損失値を得た後、得られた整合性損失値、予測損失値、平滑化損失値に基づいて加重平均を計算することにより、第２損失値を得る。

【0133】

第２損失値を確定する式は、

【数27】

である。

【0134】

ここで、S₂は第２損失値を表し、m₁は整合性損失値に対応する重みを表し、a₁は整合性損失値を表し、m₂は予測損失値に対応する重みを表し、a₂は予測損失値を表し、m₃は平滑損失値に対応する重みを表し、a₃は平滑化損失値に対応する重みを表す。

【0135】

なお、整合性損失値、予測損失値、平滑化損失値に対応する重み値は、当業者の経験値であってもよく、本出願の実施例では、具体的に限定しない。

【0136】

本出願の実施例では、第２損失値を確定する際に、平滑化損失値を考慮して、全結合頂点再構築ネットワークの訓練を平滑化制約し、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルをより滑らかにする。実施中に、第２損失値は、整合性損失値の予測損失値のみに基づいて確定されることもでき、例えば、第２損失値を確定する式は、

【数28】

である。

【0137】

ここで、S₂は第２損失値を表し、m_１は整合性損失値に対応する重みを表し、a₁は整合性損失値を表し、m₂は予測損失値に対応する重みを表し、a₂は予測損失値を表す。

【0138】

第１損失値および第２損失値を確定した後、確定された第１損失値が第１プリセット範囲内にあり、確定された第２損失値が第２プリセット範囲内にあるまで、第１損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。ここで、第１プリセット範囲と第２プリセット範囲は、当業者によって経験値に基づいて設定されることができ、本出願の実施例では、具体的に限定しない。

【0139】

図７に示されたように、本出願の実施例による訓練プロセスの概略図であり、サンプル画像および予めマークされた人体頂点位置を特徴抽出ネットワークに入力し、特徴抽出ネットワークは、サンプル画像に対して特徴を抽出することにより、サンプル画像におけるサンプル人体領域の画像特徴情報を得て、特徴抽出ネットワークは、サンプル人体領域の画像特徴情報をグラフ畳み込みニューラルネットワークおよび全結合頂点再構築ネットワークにそれぞれ入力することにより、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置を得て、予め定義された人体モデルメッシュトポロジ構造をグラフ畳み込みニューラルネットワークに入力することにより、ルネットワークから出力された人体３次元メッシュモデルを得て、人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置を確定し、第２人体３次元メッシュ頂点位置および予めマークされた人体頂点位置に基づいて第１損失値を確定し、第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置および予めマークされた人体頂点位置に基づいて第２損失値を確定し、第１損失値に基づいてグラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて特徴抽出ネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。

【0140】

本出願の実施例では、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワークおよびグラフ畳み込みニューラルネットワークを得た後、３次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の３次元再構築モデルを得る。訓練後の３次元再構築モデルには特徴抽出ネットワークおよび全結合頂点再構築ネットワークが含まれることができる。

【0141】

本出願の実施例では、３次元人体モデル構築装置をさらに提供し、当該装置が、本出願の実施例の３次元人体モデル構築方法に対応する装置に対応し、当該装置による問題を解決する原理が当該方法と同様であるため、当該装置の実施形態について方法の実施形態を参照することができ、重複するものを省略する。

【0142】

図８は、一例示的な実施例による３次元人体モデル構築装置のブロック図である。図８を参照すると、当該装置は、特徴抽出ユニット８００、位置取得ユニット８０１、およびモデル構築ユニット８０２を含む。

【0143】

特徴抽出ユニット８００は、人体領域を含む検出すべき画像を取得し、検出すべき画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得ることを実行するように構成される。

【0144】

位置取得ユニット８０１は、人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第１人体３次元メッシュ頂点位置を得ることを実行するように構成され、ここで、全結合頂点再構築ネットワークは、訓練中に３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである。

【0145】

モデル構築ユニット８０２は、第１人体３次元メッシュ頂点位置とプリセット人体３次元メッシュ頂点との接続関係に基づいて、人体領域に対応する３次元人体モデルを構築することを実行するように構成される。

【0146】

図９は、一例示的な実施例による別の３次元人体モデル構築装置のブロック図である。図９を参照すると、当該装置は、訓練ユニット８０３をさらに含む。

【0147】

訓練ユニット８０３は、具体的に、３次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練することを実行するように構成され、即ち、
サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、初期特徴抽出ネットワークから出力されたサンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および予め定義された人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体３次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第２人体３次元メッシュ頂点位置を得て、
人体３次元メッシュモデル、第２人体３次元メッシュ頂点位置、および予めマークされたサンプル画像における人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。

【0148】

一実現可能な実施形態では、訓練ユニット８０３は、さらに、３次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の３次元再構築モデルを得ることを実行するように構成される。

【0149】

一実現可能な実施形態では、訓練ユニット８０３は、具体的に、以下のことを実行するように構成され、即ち、
人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置、予めマークされた人体頂点位置に基づいて、第１損失値を確定し、ここで、予めマークされた人体頂点位置は、頂点投影座標または３次元メッシュ頂点座標であり、
第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置、および予めマークされた人体頂点位置に基づいて、第２損失値を確定し、
確定された第１損失値が第１プリセット範囲内にあり、確定された第２損失値が第２プリセット範囲内にあるまで、第１損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する。

【0150】

一実現可能な実施形態では、訓練ユニット８０３は、具体的に、以下のことを実行するように構成され、即ち、
第２人体３次元メッシュ頂点位置、第３人体３次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュ頂点位置の重なり度合いを表し、
第２人体３次元メッシュ頂点位置、予めマークされた人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、予測損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置の正確度を表し、
整合性損失値と予測損失値に対して加重平均を計算することにより、第２損失値を得る。

【0151】

一実現可能な実施形態では、訓練ユニット８０３は、具体的に、以下のことを実行するように構成され、即ち、
整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第２損失値を得て、
ここで、平滑化損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルの平滑度を表し、平滑化損失値は、第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて確定される。

【0152】

図１０は、一例示的な実施例による別の３次元人体モデル構築装置のブロック図である。図１０を参照すると、当該装置は、人体形態パラメータ取得ユニット８０４をさらに含む。

【0153】

人体形態パラメータ取得ユニット８０４は、具体的に、以下のことを実行するように構成され、即ち、３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、３次元人体モデルに対応する人体形態パラメータを得て、ここで、人体形態パラメータは、３次元人体モデルの人体形状および／または人体姿勢を表すために使用される。

【0154】

上記実施例の装置について、各ユニットが要求を実行する具体的な方法は、当該方法に係る実施例で詳細に説明され、ここでは詳細に説明しない。

【0155】

図１１は、一例示的な実施例による電子機器１１００のブロック図であり、当該電子機器は、少なくとも１つのプロセッサ１１１０および少なくとも１つのメモリ１１２０を含み得る。

【0156】

ここで、メモリ１１２０にプログラムコードが記憶される。メモリ１１２０は、主にプログラム記憶領域とデータ記憶領域を含み、ここで、プログラム記憶領域は、オペレーティングシステム、インスタントメッセージング機能を実行するために必要なプログラムなどを記憶することができ、データ記憶領域は、さまざまなインスタントメッセージング情報および操作命令セットなどを記憶することができる。

【0157】

メモリ１１２０は、例えばランダムアクセスメモリ（ｒａｎｄｏｍ-ａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）などの揮発性メモリ（ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であってもよいし、メモリ１１２０は、例えば読み取り専用メモリ、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）、ハードディスク（ｈａｒｄｄｉｓｋｄｒｉｖｅ、ＨＤＤ）またはソリッドステートハードディスク（ｓｏｌｉｄ-ｓｔａｔｅｄｒｉｖｅ、ＳＳＤ）などの不揮発性メモリ（ｎｏｎ-ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であってもよいし、またはメモリ１１２０は、命令またはデータ構造の形態を有する所望のプログラムコードを携帯または記憶し、且つコンピュータによってアクセスすることができる任意の他の媒体であってもよいが、これに限定されない。メモリ１１２０は、上述のメモリの組み合わせであってもよい。

【0158】

プロセッサ１１１０は、１つ以上の中央処理ユニット（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）を含み得て、またはデジタル処理ユニットなどであり得る。プロセッサ１１１０がメモリ１１２０に記憶されたプログラムコードを呼び出すと、上記本出願の各種の例示的な実施形態の画像処理方法におけるステップを実行する。

【0159】

例示的な実施例では、例えば命令を含むメモリ１１２０などの命令を含む不揮発性コンピュータ記憶媒体をさらに提供し、上記の命令は、上記方法を完了するために電子機器１１００のプロセッサ１１１０によって実行可能である。いくつかの実施例では、記憶媒体は、非一時的なコンピュータ可読記憶媒体であってもよく、例えば、非一時的なコンピュータ可読記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ-ＲＯＭ、磁気テープ、フロッピーディスク、および光データ記憶デバイスなどであってもよい。

【0160】

本出願の実施例では、コンピュータプログラム製品をさらに提供し、コンピュータプログラム製品が電子機器上で動作しているとき、本出願の実施例における上記の３次元人体モデル構築方法のいずれか、または３次元人体モデル構築方法のいずれかに関与する任意の方法を電子機器に実行させる。

【0161】

当業者は、明細書を考慮し、本明細書に開示された発明を実践した後、本出願の他の実施形態を容易に想到する。本出願は、本出願の任意の変形、用途、または適応的変化をカバーすることを意図し、これらの変形、用途、または適応的変化は、本出願の一般的な原理に従い、本出願に開示されていない本技術分野における公知の常識または慣用的な技術手段を含む。明細書および実施例は、単に例示的なものとみなされ、本出願の真の範囲および精神は、以下の特許請求の範囲によって示される。

【0162】

本出願は、上記で説明され図面に示された正確な構造に限定されず、その範囲から逸脱することなく、様々な修正および変更を行うことができることを理解すべきである。本出願の範囲は、添付の特許請求の範囲のみによって制限される。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【手続補正書】

【提出日】2022-09-22

【手続補正1】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【発明の詳細な説明】

【技術分野】

【0001】

【0002】

本出願は、コンピュータ技術の分野に関し、特に３次元人体モデル構築方法および電子機器に関するものである。

【背景技術】

【0003】

画像処理技術の発展に伴い、画像データに基づいて３次元人体モデルを再構築することは、マシンビジョンアルゴリズムの重要な応用方向である。画像から３次元人体モデルを再構築した後で３次元人体モデルを得ることは、映画やテレビなどのエンターテイメント、医療健康及び教育などの分野に広く応用できる。

【発明の概要】

【課題を解決するための手段】

【0004】

本出願の実施例の一側面によれば、人体領域を含むターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、人体３次元メッシュ頂点間のターゲット接続関係と前記第１人体３次元メッシュ頂点位置に基づいて、前記人体領域に対応する３次元人体モデルを構築することと、を含む３次元人体モデル構築方法に関する。

【0005】

本出願の実施例の一側面によれば、実行可能な命令を記憶するためのメモリと、前記メモリに記憶された実行可能な命令を読み出して実行することにより、以下のステップを実現するために使用されるプロセッサと、人体領域を含むターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得るステップ、前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されるステップ、人体３次元メッシュ頂点間のターゲット接続関係と前記第１人体３次元メッシュ頂点位置に基づいて、前記人体領域に対応する３次元人体モデルを構築するステップである電子機器に関する。

【0006】

本出願の実施例によれば、実行可能な命令が記憶された不揮発性読み取り可能な記憶媒体であって、前記実行可能な命令が電子機器のプロセッサによって実行されるときに、以下のステップを前記電子機器に実行させることができ、即ち、人体領域を含むターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得るステップ、前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであるステップ、人体３次元メッシュ頂点間のターゲット接続関係と前記第１人体３次元メッシュ頂点位置に基づいて、前記人体領域に対応する３次元人体モデルを構築するステップである不揮発性読み取り可能な記憶媒体に関する。

【図面の簡単な説明】

【0007】

【図1】一例示的な実施例による３次元人体モデル構築方法のフローチャートである。

【図2】一例示的な実施例による応用シーンの概略図である。

【図3】一例示的な実施例による特徴抽出ネットワークの概略構造図である。

【図4】一例示的な実施例による全結合頂点再構築ネットワークの概略構造図である。

【図5】一例示的な実施例による全結合頂点再構築ネットワークの隠れ層ノードの概略構造図である。

【図6】一例示的な実施例による３次元人体モデルの部分構造概略図である。

【図7】一例示的な実施例による訓練プロセスの概略図である。

【図8】一例示的な実施例による３次元人体モデル構築装置のブロック図である。

【図9】一例示的な実施例による別の３次元人体モデル構築装置のブロック図である。

【図10】一例示的な実施例による別の３次元人体モデル構築装置のブロック図である。

【図11】一例示的な実施例による電子機器のブロック図である。

【発明を実施するための形態】

【0008】

以下、当業者の理解を容易にするために、本出願の実施例における用語の一部を説明する。

【0009】

（１）本出願の実施例では、「複数」という用語は、２つ以上を意味し、他の助数詞は、これと類似している。

【0010】

【0011】

（３）本出願の実施例では、「畳み込みニューラルネットワーク」という用語は、畳み込み演算を含みかつ深さ構造を有するフィードフォワードニューラルネットワーク（ｆｅｅｄｆｏｒｗａｒｄｎｅｕｒａｌｎｅｔｗｏｒｋｓ）の一種であり、深さ学習の代表的なアルゴリズムの一つであり、表現学習（ｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ）の能力を持ち、入力情報に対して階層構造に応じてシフト不変分類（ｓｈｉｆｔ-ｉｎｖａｒｉａｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）を行う。

【0012】

【0013】

【0014】

以下、本出願の実施例をより詳細に説明する。

【0015】

図１は、一例示的な実施例による３次元人体モデル構築方法のフローチャートであり、図１に示されたように、当該方法は、電子機器によって実行され、以下のステップを含む。

【0016】

Ｓ１１では、人体領域を含むターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得て、ここで、当該ターゲット画像は、検出すべき画像である。

【0017】

【0018】

【0019】

Ｓ１３では、人体３次元メッシュ頂点間のターゲット接続関係と第１人体３次元メッシュ頂点位置に基づいて、人体領域に対応する３次元人体モデルを構築する。

【0020】

本出願の実施例に開示された３次元人体モデル構築方法では、人体領域を含むターゲット画像に対して特徴を抽出し、ターゲット画像における人体領域の画像特徴情報を確定し、３次元再構築モデルにおける全結合頂点再構築ネットワークを通じて、画像特徴情報をデコードすることにより、ターゲット画像における人体領域に対応する第１人体３次元メッシュ頂点位置を得て、人体３次元メッシュ頂点間のターゲット接続関係と第１人体３次元メッシュ頂点位置に基づいて３次元人体モデルを構築する。

【0021】

本出願の実施例による３次元人体モデル構築方法では、構築プロセスのコストが低く、３次元人体モデルを構築する効率を向上させた。また、本出願の実施例は、計算効率を向上させ、第１人体３次元メッシュ頂点位置の精度を向上させ、３次元人体モデルの効率的かつ正確な構築を実現することができる。

【0022】

いくつかの実施例では、応用シーンを図２に示し、端末デバイス２１に画像収集装置が配置され、いくつかの実施例では、ユーザ２０が端末デバイス２１の画像収集装置に基づいて人体領域を含むターゲット画像を収集した場合、画像収集装置は、収集したターゲット画像をサーバー２２に送信する。サーバー２２は、ターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力し、特徴抽出ネットワークによってターゲット画像に対して特徴を抽出することにより、人体領域の画像特徴情報を得る。サーバー２２は、人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第１人体３次元メッシュ頂点位置を得て、人体３次元メッシュ頂点間のターゲット接続関係と前記第１人体３次元メッシュ頂点位置に基づいて、人体領域に対応する３次元人体モデルを構築する。サーバー２２は、ターゲット画像における人体領域に対応する３次元人体モデルを端末デバイス２１内の画像収集装置に送信し、画像収集装置は、得られた３次元人体モデルによって対応する処理を行い、例えば、画像収集装置は、得られた３次元人体モデルによって人体データを得て、人体データに基づいて３次元アニメーションの人物など駆動し、アニメーションの人物をユーザ２０に表示する。

【0023】

なお、上記応用シーンでは、ターゲット接続関係とは、プリセットされた人体３次元メッシュ頂点間の接続関係を指し、いくつかの実施例では、当該ターゲット接続関係は、すでにサーバー２２に記憶され、または、画像収集装置がターゲット画像をサーバー２２に送信する場合、当該プリセット人体３次元メッシュ頂点間の接続関係をサーバー２２に送信する。上記応用シーンは、例示的なものにすぎず、本出願の実施例の保護範囲を限定するものではない。

【0024】

本出願の実施例による３次元人体モデル構築方法では、３次元再構築モデルによって３次元人体モデルを構築する。当該３次元再構築モデルは、訓練中に特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを含み、このプロセスでは、全結合頂点再構築ネットワークとグラフ畳み込みニューラルネットワークに対して整合性制約訓練を行い、訓練が完了した後、計算量と記憶量の両方が大きいグラフ畳み込みニューラルネットワークを削除することにより訓練済み３次元再構築モデルを得て、訓練済み３次元再構築モデルは、特徴抽出ネットワークと全結合頂点再構築ネットワークを含む。

【0025】

訓練済み３次元再構築モデルによって３次元人体モデルを構築する場合、人体領域を含むターゲット画像を取得した後、まずターゲット画像に対して特徴を抽出して、ターゲット画像における人体領域の画像特徴情報を得る。

【0026】

いくつかの実施例では、ターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得る。

【0027】

いくつかの実施例では、訓練済み特徴抽出ネットワークを呼び出す前に、人体領域を含む大量の画像を用いて特徴抽出ネットワークを訓練し、特徴抽出ネットワークを訓練する際の訓練サンプルは、人体領域を含むサンプル画像とサンプル画像のラベリング人体頂点位置を含み、当該ラベリング人体頂点位置は、予めラベリングされ、タグ情報として特徴抽出ネットワークの訓練に参加することができる。訓練プロセスでは、訓練サンプルを画像特徴抽出ネットワークの入力とし、サンプル画像の画像特徴情報を画像特徴抽出ネットワークの出力とし、画像特徴抽出ネットワークを訓練する。なお、本出願の実施例では、訓練サンプルは、本出願の実施例に係る複数のニューラルネットワークを連携して訓練するために使用され、特徴抽出ネットワークを訓練するプロセスに対する上記説明は、例示的なものにすぎず、特徴抽出ネットワークを訓練するプロセスの詳細について、以下で詳細に説明する。

【0028】

訓練済みの特徴抽出ネットワークは、画像における人体領域を含む画像特徴情報を抽出する能力を持つ。

【0029】

いくつかの実施例では、ターゲット画像を訓練済み特徴抽出ネットワークに入力し、訓練済み特徴抽出ネットワークは、ターゲット画像における人体領域の画像特徴情報を抽出し、画像特徴情報を出力する。いくつかの実施例では、前記特徴抽出ネットワークは、畳み込みニューラルネットワークである。

【0030】

本出願の実施例では、特徴抽出ネットワークの構造は、図３に示されたように、少なくとも１つの畳み込み層３１、プーリング層３２および出力層３３を含み、特徴抽出ネットワークがターゲット画像に対して特徴を抽出する処理プロセスは、以下の通りであり、即ち、
少なくとも１つの畳み込み層３１における人体領域の特徴を抽出するための複数の畳み込みカーネルによって、ターゲット画像に対して畳み込み操作を行うことにより、ターゲット画像に対応する複数の特徴マッピング行列を得て、
プーリング層３２によって複数の特徴マッピング行列に対して平均を計算し、平均を計算して得られた特徴マッピング行列をターゲット画像に対応する画像特徴情報とし、
出力層によって、得られたターゲット画像に対応する画像特徴情報を出力する。

【0031】

いくつかの実施例では、本出願の実施例における特徴抽出ネットワークは、少なくとも１つの畳み込み層、プーリング層、および出力層を含む。

【0032】

畳み込み層について、特徴抽出ネットワークは、少なくとも１つの畳み込み層を含み、各畳み込み層には複数の畳み込みカーネルが含まれ、畳み込みカーネルは、ターゲット画像における人体領域の特徴を抽出するための行列であり、特徴抽出ネットワークに入力されたターゲット画像は、画素値からなる画像行列であり、画素値は、例えばターゲット画像における画素の階調値、ＲＧＢ値などであり、畳み込み層において複数の畳み込みカーネルは、ターゲット画像に対して畳み込み操作を行い、畳み込み操作とは、画像行列と畳み込みカーネル行列に対して行列の畳み込み演算を行うことを指し、ここで、画像行列は、１つの畳み込みカーネルの畳み込み操作を経て、１つの特徴マッピング行列を得て、複数の畳み込みカーネルがターゲット画像に対して畳み込み操作を行うことにより、ターゲット画像に対応する複数の特徴マッピング行列を得て、各畳み込みカーネルは、特定の特徴を抽出でき、異なる畳み込みカーネルは、異なる特徴を抽出するために使用される。

【0033】

いくつかの実施例では、畳み込みカーネルは、人体領域の特徴を抽出するための畳み込みカーネルであり、例えば、人体頂点の特徴を抽出する畳み込みカーネルであり、人体頂点の特徴を抽出する複数の畳み込みカーネルに基づいて、大量のターゲット画像における人体頂点の特徴の情報を得ることができ、これらの情報は、ターゲット画像における人体頂点のターゲット画像における位置情報を示すことができ、さらにターゲット画像における人体領域の特徴を確定する。

【0034】

プーリング層について、プーリング層は、複数の特徴マッピング行列における同じ位置の数値に対して平均を計算することにより、１つの特徴マッピング行列、即ちターゲット画像に対応する画像特徴情報を得るために使用される。

【0035】

【0036】

特徴マッピング行列１は、

【表1】

である。

【0037】

特徴マッピング行列２は、

【表2】

である。

【0038】

特徴マッピング行列３は、

【表3】

である。

【0039】

プーリング層が上記の３つの特徴マッピング行列における同じ位置の数値に対して平均を計算して得られた特徴マッピング行列は、

【表4】

である。

【0040】

上記マッピング行列は、ターゲット画像の画像特徴情報である。なお、上記複数の特徴マッピング行列および平均を計算して得られた特徴マッピング行列の処理プロセスは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。

【0041】

出力層の場合、出力層は、得られたターゲット画像に対応する画像特徴情報を出力するために使用される。

【0042】

いくつかの実施例では、画像特徴情報を表す特徴行列の次元は、ターゲット画像の解像度の次元より小さい。

【0043】

ターゲット画像の画像特徴情報を得た後、全結合頂点再構築ネットワークに基づいて、ターゲット画像における人体領域の第１人体３次元メッシュ頂点位置を確定する。

【0044】

いくつかの実施例では、人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、全結合頂点再構築ネットワークから出力されたターゲット画像における人体領域に対応する第１人体３次元メッシュ頂点位置を得る。

【0045】

ここで、訓練済み全結合頂点再構築ネットワークは、ターゲット画像の画像特徴情報および訓練済み全結合頂点再構築ネットワークの各層に対応する重み行列に基づいて、ターゲット画像における人体領域の第１人体３次元メッシュ頂点位置を得る。

【0046】

いくつかの実施例では、訓練済み全結合頂点再構築ネットワークを呼び出す前に、特徴抽出ネットワークから出力されたサンプル画像の画像特徴情報によって、全結合頂点再構築ネットワークを訓練する。サンプル画像の画像特徴情報を全結合頂点再構築ネットワークの入力とし、サンプル画像における人体領域に対応する人体３次元メッシュ頂点位置を全結合頂点再構築ネットワークの出力とし、全結合頂点再構築ネットワークを訓練する。なお、全結合頂点再構築ネットワークを訓練するプロセスの上記説明は、例示的なものにすぎず、全結合頂点再構築ネットワークを訓練するプロセスの詳細について、以下で詳細に説明する。

【0047】

訓練済みの全結合頂点再構築ネットワークは、ターゲット画像における人体領域に対応する第１人体３次元メッシュ頂点位置を確定する能力を持つ。

【0048】

いくつかの実施例では、ターゲット画像における人体領域の画像特徴情報を訓練済み全結合頂点再構築ネットワークに入力し、訓練済み全結合頂点再構築ネットワークは、画像特徴情報および全結合頂点再構築ネットワークの各層に対応する重み行列に基づいて、ターゲット画像における人体領域に対応する第１人体３次元メッシュ頂点位置を確定し、第１人体３次元メッシュ頂点位置を出力する。

【0049】

いくつかの実施例では、当該人体３次元メッシュ頂点は、予め定義されたいくつかの密集キーポイントであり、人体表面をより精密にサンプリングして得られた３次元キーポイントを含み、例えば五官及び各関節付近のキーポイントを含み、または、人体の背部、腹部及び四肢の表面にキーポイントを定義する。例えば、完全な人体表面の情報を示すために、１０００個のキーポイントを予め設定する。いくつかの実施例では、人体３次元メッシュ頂点の数は、抽出された画像特徴情報における頂点の数よりも小さい。

【0050】

本出願の実施例では、全結合頂点再構築ネットワークの構造は、図４に示されたように、入力層４１、少なくとも１つの隠れ層４２、および出力層４３を含み、ここで、全結合頂点再構築ネットワークの各層ノードの数は、例示的なものにすぎず、本出願の実施例の保護範囲を限定するものではない。訓練済み全結合頂点再構築ネットワークは、以下のようにターゲット画像における人体領域の第１人体３次元メッシュ頂点位置を得て、即ち、

【0051】

入力層４１によってターゲット画像の画像特徴情報に対して前処理を行うことで、入力特徴ベクトルを得る。

【0052】

少なくとも１つの隠れ層４２によって、隠れ層に対応する重み行列に基づいて、入力特徴ベクトルを非線形変換することで、ターゲット画像における人体領域の第１人体３次元メッシュ頂点位置を得る。

【0053】

出力層４３によって、ターゲット画像における人体領域の第１人体３次元メッシュ頂点位置を出力する。

【0054】

【0055】

１つの隠れ層を例に挙げて、本出願の実施例における全結合頂点再構築ネットワークの構造を説明し、全結合頂点再構築ネットワークにおける入力層の各ノードと隠れ層の各ノードは、相互に接続され、隠れ層の各ノードと出力層の各ノードは、相互に接続される。入力層の場合、全結合頂点再構築ネットワークは、入力層によって、入力された画像特徴情報に対して前処理を行うことで、入力特徴ベクトルを得て、画像特徴情報に対して前処理を行うプロセスでは、いくつかの実施例では、画像特徴情報を表す特徴行列に含まれたデータをベクトルの形に変換することにより、入力特徴ベクトルを得る。

【0056】

例えば、画像特徴情報が以下のようになると、即ち、

【表5】

【0057】

画像特徴情報に対して前処理を行うことで得られた入力特徴ベクトルは、

【表6】

になる。

【0058】

上記の画像特徴情報および画像特徴情報に対する前処理プロセスは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。

【0059】

いくつかの実施例では、全結合頂点再構築ネットワークにおけるノードの数は、入力特徴ベクトルに含まれたデータの数と同じである。

【0060】

隠れ層の場合、全結合頂点再構築ネットワークの隠れ層は、隠れ層に対応する重み行列に基づいて、入力特徴ベクトルを非線形変換することにより、ターゲット画像における人体領域に対応する第１人体３次元メッシュ頂点位置を得て、隠れ層の各ノードの出力値は、入力層のすべてのノードの出力値、現在のノードと入力層のすべてのノードの重み、現在のノードの偏差値、および活性化関数に基づいて確定される。

【0061】

例えば、以下の式に基づいて隠れ層の各ノードの出力値を確定し、即ち、

【数1】

【0062】

【0063】

本出願の実施例では、重み行列は、異なる重み値からなる行列である。活性化関数は、例えばＲＥＬＵ関数である。

【0064】

本出願の実施例では、隠れ層における各ノードの構造は、図５に示されたように、全結合（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄ、ＦＣ）処理層４２１、正規化（ｂａｔｃｈｎｏｒｍａｌｉｚａｔｉｏｎ、ＢＮ）処理層４２２、活性化関数（ＲＥＬＵ）処理層４２３を含む。

【0065】

ここで、全結合処理層は、上記の式の前層のノードの出力値、隠れ層におけるノードと前層のノードとの重み値、および隠れ層におけるノードの偏差値に基づいて、全結合処理後の数値を得て、正規化処理層は、各ノードの全結合処理後の数値に対してバッチ正規化処理を行うために使用され、活性化関数処理層は、正規化処理後の値に対して非線形変換処理を行うことにより、ノードの出力値を得る。

【0066】

いくつかの実施例では、本出願の実施例における全結合頂点再構築ネットワークの隠れ層の層数および各隠れ層におけるノードの数は、当業者の経験に基づいて設定可能であり、具体的に限定しない。

【0067】

いくつかの実施例では、出力層の各ノードの出力値の確定方法は、隠れ層と同じであり、即ち、出力層の出力値は、隠れ層のすべてのノードの出力値、出力層のノードと隠れ層のすべてのノードの重み、および活性化関数に基づいて確定される。

【0068】

いくつかの実施例では、出力層のノードの数は、人体３次元メッシュ頂点の数の３倍であり、例えば、人体３次元メッシュ頂点の数が１０００であると、出力層のノードの数は、３０００である。ここで、出力層から出力されたベクトルは、３つごとに１つのグループになるように分割され、第１人体３次元メッシュ頂点位置を構成する。例えば、出力層から出力されたベクトルが、

【表7】

であると、

【0069】

（Ｘ_１、Ｙ_１、Ｚ_１）は、人体３次元メッシュ頂点１の位置であり、（Ｘ_ｉ、Ｙ_ｉ、Ｚ_ｉ）は、人体３次元メッシュ頂点ｉの位置であり、ｉは、整数である。

【0070】

なお、画像特徴情報に基づいて第１人体３次元メッシュ頂点位置を確定する上記プロセスは、複数の隠蔽層によって画像特徴情報を表す高次元特徴行列をデコードすることにより人体３次元メッシュ頂点位置を得るプロセスである。

【0071】

本出願の実施例では、全結合頂点再構築ネットワークに基づいてターゲット画像における人体領域の第１人体３次元メッシュ頂点位置を取得した後、人体３次元メッシュ頂点間のターゲット接続関係と第１人体３次元メッシュ頂点位置に基づいて、ターゲット画像における人体領域に対応する３次元人体モデルを構築する。

【0072】

いくつかの実施例では、全結合頂点再構築ネットワークから出力された第１人体３次元メッシュ頂点位置に基づいて、人体３次元メッシュ頂点の３次元空間における座標を確定し、ターゲット接続関係に従って、空間における人体３次元メッシュ頂点を接続することにより、ターゲット画像における人体領域に対応する３次元人体モデルを構築する。

【0073】

いくつかの実施例では、本出願の実施例における３次元人体モデルは、三角形メッシュモデルであり、三角形メッシュは、三角形からなる多角形メッシュであり、図像学およびモデル化において広く応用され、例えば建築、車両、人体などの複雑な物体の表面を構築するために用いられる。

【0074】

いくつかの実施例では、三角形メッシュモデルは、インデックス情報の形で記憶し、例えば、図６は、本出願の実施例における３次元人体モデルの部分構造を示し、ここで、ｖ１、ｖ２、ｖ３、ｖ４、ｖ５は、５つの人体３次元メッシュ頂点であり、三角形メッシュモデルに記憶されたインデックス情報は、表１に示された頂点位置インデックスリスト、表２に示された辺インデックスリスト、及び表３に示された三角形インデックスリストを含む。

【0075】

【表8】

【0076】

【表9】

【0077】

【表10】

【0078】

ここで、表２および表３に示されたインデックス情報は、予め設定された人体キーポイント間の接続関係を示し、表１、表２、および表３に示されたデータは、例示的なものにすぎず、本出願の実施例における３次元人体モデルの人体３次元メッシュ頂点の一部と人体３次元メッシュ頂点の一部との接続関係にすぎない。いくつかの実施例では、人体３次元メッシュ頂点は、当業者の経験に基づいて選択され、人体３次元メッシュ頂点の数も、当業者の経験に基づいて設定されることができる。

【0079】

【0080】

ターゲット画像における人体領域に対応する３次元人体モデルを構築した後、３次元人体モデルに基づいて関連分野の応用を行うことができる。

【0081】

【0082】

ここで、人体形態パラメータは、３次元人体モデルの人体形状および／または人体姿勢を表すために使用される。

【0083】

いくつかの実施例では、３次元人体モデルに基づいてターゲット画像における人体の形態パラメータを得て、これには、例えば身長、三囲、腿の長さなどの人体形状を表すパラメータ、及び例えば関節角度、人体姿勢情報などの人体姿勢を特定するパラメータが含まれる。当該３次元人体モデルに対応する人体形態パラメータをアニメーションおよび映像業界に応用し、３次元アニメーションなどを生成するために使用される。

【0084】

なお、３次元人体モデルに対応する人体形態パラメータをアニメーションおよび映像業界に応用することは、例示的なものにすぎず、本出願の保護範囲を限定するものではない。得られた人体形態パラメータは、例えば運動、医療分野などの他の分野にも応用することができ、ターゲット画像における人体に対応する３次元人体モデルから得られた人体形態パラメータに基づいて、ターゲット画像に撮影された被写体の肢体運動及び筋力発揮に対して解析などを行う。

【0085】

３次元人体モデルに対応する人体形態パラメータを確定するプロセスでは、３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、訓練済み人体パラメータ回帰ネットワークから出力された３次元人体モデルに対応する人体形態パラメータを取得する。ここで、人体パラメータ回帰ネットワークを訓練する場合に使用された訓練サンプルは、３次元人体モデルサンプルおよび３次元人体モデルサンプルに対応するラベリング人体形態パラメータを含む。

【0086】

人体パラメータ回帰ネットワークを呼び出す前に、まず、３次元人体モデルサンプルおよび３次元人体モデルサンプルに対応するラベリング人体形態パラメータを含む訓練サンプルに基づいて人体パラメータ回帰ネットワークを訓練することにより得られた人体パラメータ回帰ネットワークは、３次元人体モデルに基づいて人体形態パラメータを得る能力を持ち、使用中に、ラベリング画像に基づいて得られた３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力し、人体パラメータ回帰ネットワークは、３次元人体モデルに対応する人体形態パラメータを出力する。

【0087】

いくつかの実施例では、人体パラメータ回帰ネットワークの性質は、全結合ニューラルネットワーク、畳み込みニューラルネットワークなどであり、本出願の実施例では具体的に限定せず、人体パラメータ回帰ネットワークの訓練プロセスに対して、本出願の実施例では具体的に限定しない。

【0088】

【0089】

いくつかの実施例では、サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、サンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体３次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第２人体３次元メッシュ頂点位置を得て、ここで、当該人体モデルメッシュトポロジ構造は、予め定義された人体モデルメッシュトポロジ構造であり、経験に基づいて設定可能であり、これについて限定しない。

【0090】

人体３次元メッシュモデル、第２人体３次元メッシュ頂点位置、およびサンプル画像のラベリング人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。

【0091】

本出願の実施例による３次元再構築モデルの訓練方法では、３次元再構築モデルは特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークが含まれ、特徴抽出ネットワークによって抽出されたサンプル画像におけるサンプル人体領域の画像特徴情報を、全結合頂点再構築ネットワークおよびグラフ畳み込みニューラルネットワークにそれぞれ入力し、全結合頂点再構築ネットワークの出力は、第２人体３次元メッシュ頂点位置であり、グラフ畳み込みニューラルネットワークの入力は、人体モデルメッシュトポロジ構造をさらに含み、グラフ畳み込みニューラルネットワーの出力は、サンプル人体領域に対応する人体３次元メッシュモデルであり、人体３次元メッシュモデルによって確定された第３人体３次元メッシュ頂点位置および全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置に基づいて、グラフ畳み込みニューラルネットワークと全結合頂点再構築ネットワークを整合性制約訓練し、訓練後の全結合頂点再構築ネットワークによる人体３次元メッシュ頂点位置の取得能力は、グラフ畳み込みニューラルネットワークによる人体３次元メッシュ頂点位置の取得能力と似ているが、計算量がグラフ畳み込みニューラルネットワークよりはるかに小さく、効率的かつ正確な人体三次元モデルの構築を実現する。３次元人体モデルの効率的かつ正確な構築を実現する。

【0092】

いくつかの実施例では、サンプル画像およびラベリング人体頂点位置を３次元再構築モデルに入力し、３次元再構築モデルにおける初期特徴抽出ネットワークによってサンプル画像に対して特徴を抽出することにより、サンプル画像におけるサンプル人体領域の画像特徴情報を得る。

【0093】

いくつかの実施例では、特徴抽出ネットワークは、畳み込みニューラルネットワークであり、特徴抽出ネットワークがサンプル画像に対して特徴を抽出することは、特徴抽出ネットワークが入力されたサンプル画像を多層畳み込み動作によって高次元特徴行列にエンコードすることにより、サンプル画像の画像特徴情報を得ることを意味する。ここで、特徴抽出ネットワークがサンプル画像に対して特徴を抽出するプロセスは、ターゲット画像に対して特徴を抽出する上記プロセスと同様であり、ここでは説明を省略する。

【0094】

【0095】

【0096】

いくつかの実施例では、初期全結合頂点再構築ネットワークは、複数の隠れ層に対応する重み行列によって画像特徴情報を表す高次元特徴行列をデコードすることにより、サンプル画像における第２人体３次元メッシュ頂点位置を得る。ここで、全結合頂点再構築ネットワークがサンプル画像の画像特徴情報に基づいてサンプル画像における第２人体３次元メッシュ頂点位置を得るプロセスは、全結合頂点再構築ネットワークがターゲット画像の画像特徴情報に基づいてターゲット画像における第１人体３次元メッシュ頂点位置を得るプロセスと同様であり、ここでは説明を省略する。

【0097】

例えば、初期全結合頂点再構築ネットワークから得られたサンプル画像における人体領域に対応する第２人体３次元メッシュ頂点位置は、

【数2】

であり、全結合頂点再構築ネットワークから出力されたｉ番目の人体３次元メッシュ頂点の空間における位置を示している。

【0098】

初期グラフ畳み込みニューラルネットワークは、サンプル画像の画像特徴情報および初期グラフ畳み込みニューラルネットワークに入力した人体モデルメッシュトポロジ構造に基づいて、人体３次元メッシュモデルを確定し、人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置を確定する。

【0099】

いくつかの実施例では、初期特徴抽出ネットワークから出力されたサンプル画像におけるサンプル人体領域に対応する画像特徴情報および人体モデルメッシュトポロジ構造を、初期グラフ畳み込みニューラルネットワークに入力し、例えば、当該人体モデルメッシュトポロジ構造は、三角形メッシュモデルの記憶情報であり、プリセット人体３次元メッシュ頂点に対応する頂点位置インデックスリスト、辺インデックスリスト、および三角形インデックスリストなどを含む。初期グラフ畳み込みニューラルネットワークは、画像特徴情報を表す高次元特徴行列をデコードすることにより、サンプル画像における人体３次元メッシュ頂点に対応する空間位置を得て、得られた人体３次元メッシュ頂点の空間位置に基づいて、予め記憶された頂点位置インデックスリストにおける人体３次元メッシュ頂点に対応する空間位置を調整し、サンプル画像に含まれたサンプル人体領域に対応する人体３次元メッシュモデルを出力し、出力した人体３次元メッシュモデルに対応する調整後の頂点位置インデックスリストによって第３人体３次元メッシュ頂点位置を確定する。

【0100】

【数3】

であり、グラフ畳み込みニューラルネットワークから出力されたｉ番目の人体３次元メッシュ頂点の空間における位置を示している。

【0101】

いくつかの実施例では、第１人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置および第３人体３次元メッシュ頂点位置に係る人体３次元メッシュ頂点は、同じであり、第１、第２、第３は、異なる場合に得られる人体３次元メッシュ頂点位置を区別するために使用され、例えば、左眼中心点を示す人体３次元メッシュ頂点に対して、第１人体３次元メッシュ頂点位置は、訓練後の全結合頂点再構築ネットワークから得られたターゲット画像における人体領域の左眼の中心点の位置を示し、第２人体３次元メッシュ頂点位置は、訓練中に全結合頂点再構築ネットワークから得られたサンプル画像におけるサンプル人体領域の左眼の中心点の位置を示し、第３人体メッシュ頂点位置は、訓練中にグラフ畳み込みニューラルネットワークから得られたサンプル画像におけるサンプル人体領域に対応する人体３次元メッシュモデルの左眼の中心点の位置を示す。

【0102】

【0103】

いくつかの実施例では、人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置およびラベリング人体頂点位置に基づいて、第１損失値を確定し、第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置、およびラベリング人体頂点位置に基づいて、第２損失値を確定する。

【0104】

確定された第１損失値が第１ターゲット範囲内にあり、確定された第２損失値が第２ターゲット範囲内にあるまで、第１損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する。

【0105】

ここで、当該第１ターゲット範囲と第２ターゲット範囲は、いずれも予め設定された範囲であり、経験に基づいて設定可能であり、これについて限定しない。

【0106】

以下、第３人体３次元メッシュ頂点位置とラベリング人体頂点位置に基づいて第１損失値を確定するプロセスを説明する。

【0107】

いくつかの実施例では、ラベリング人体頂点位置は、３次元メッシュ頂点座標または頂点投影座標であり、サンプル画像を収集する場合に使用された画像収集装置のパラメータ行列によって、人体頂点に対応する３次元メッシュ頂点座標と頂点投影座標を変換することができる。例えば、サンプル画像のラベリング人体頂点位置は、頂点投影座標

【数4】

であり、予めマークされたｉ番目の人体頂点位置を示す。

【0108】

第１損失値を確定するプロセスでは、第３人体３次元メッシュ頂点位置およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、第３人体３次元メッシュ頂点位置に対応する投影座標

【数5】

が得られると、第１損失値を確定する式は、

【数6】

になる。

【0109】

ここで、S₁は第１損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数7】

はｉ番目の第３人体３次元メッシュ頂点位置に対応する投影座標を表し、

【数8】

は予めマークされたｉ番目の人体頂点位置を表し、頂点投影座標である。

【0110】

上記実施例は、例示的なものにすぎず、いくつかの実施例では、予めマークされた頂点投影座標およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、対応する３次元メッシュ頂点座標を得て、３次元メッシュ頂点座標と第３人体３次元メッシュ頂点位置に基づいて第１損失値を確定することもできる。

【0111】

例えば、サンプル画像のラベリング人体頂点位置は、３次元メッシュ頂点座標

【数9】

であり、予めマークされたｉ番目の人体頂点位置を示す。

【0112】

第１損失値を確定するプロセスでは、第３人体３次元メッシュ頂点位置および予めマークされた３次元メッシュ頂点に基づいて第１損失値を確定すると、第１損失値を確定する式は、

【数10】

になる。

【0113】

ここで、S₁は第１損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数11】

はｉ番目の第３人体３次元メッシュ頂点位置を表し、

【数12】

は予めマークされたｉ番目の人体頂点位置を表し、３次元メッシュ頂点座標である。

【0114】

以下、第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置、およびラベリング人体頂点位置に基づいて、第２損失値を確定するプロセスを説明する。

【0115】

いくつかの実施例では、第２人体３次元メッシュ頂点位置、第３人体３次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、第２人体３次元メッシュ頂点位置、ラベリング人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて平滑化損失値を確定し、整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第２損失値を得る。

【0116】

いくつかの実施例では、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置とグラフ畳み込みニューラルネットワークに基づいて得られた第３人体３次元メッシュ頂点位置に基づいて、整合性損失値を確定し、当該整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュ頂点位置との重なり度合いを示し、整合性制約訓練するために使用され、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置とラベリング人体頂点位置に基づいて、予測損失値を確定し、当該予測損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置の正確度を示し、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて、平滑化損失値を確定し、当該平滑化損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルの平滑度を示し、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置を平滑化制約する。

【0117】

いくつかの実施例では、第２人体３次元メッシュ頂点位置は、全結合頂点再構築ネットワークから出力され、第３人体３次元メッシュ頂点位置は、グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュモデルに基づいて得られ、グラフ畳み込みニューラルネットワークが人体３次元メッシュ頂点位置を比較的正確に得ることができるため、訓練中に、人体３次元メッシュ頂点に対応する第２人体３次元メッシュ頂点位置と第３人体３次元メッシュ頂点位置及び整合性損失関数に基づいて確定された整合性損失値が小さいほど、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置が、グラフ畳み込みニューラルネットワークから出力された第３人体３次元メッシュ頂点位置に近くなり、訓練済み全結合頂点再構築ネットワークは、ターゲット画像における人体領域に対応する第１人体３次元メッシュ頂点位置を確定する際により正確であり、全結合頂点再構築ネットワークは、グラフ畳み込みニューラルネットワークの計算量と記憶量よりも小さく、３次元人体モデルを構築する効率を高めることができる。

【0118】

例えば、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置が

【数13】

であり、グラフ畳み込みニューラルネットワークから得られた第３人体３次元メッシュ頂点位置が

【数14】

であると、整合性損失値を確定する式は、

【数15】

になる。

【0119】

ここで、a₁は整合性損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数16】

はｉ番目の第３人体３次元メッシュ頂点位置を表し、

【数17】

はｉ番目の第２人体３次元メッシュ頂点位置を表す。

【0120】

【数18】

であり、予めマークされたｉ番目の人体頂点位置を示す。

【0121】

予測損失値を確定するプロセスでは、第２人体３次元メッシュ頂点位置およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、第２人体３次元メッシュ頂点位置に対応する投影座標

【数19】

が得られると、予測損失値を確定する式は、

【数20】

になる。

【0122】

ここで、a₂は予測損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数21】

はｉ番目の第３人体３次元メッシュ頂点位置に対応する投影座標を表し、

【数22】

は予めマークされたｉ番目の人体頂点位置を表し、頂点投影座標である。

【0123】

上記実施例は、例示的なものにすぎず、いくつかの実施例では、予めマークされた頂点投影座標およびサンプル画像を収集する場合に使用された画像収集装置のパラメータ行列に基づいて、対応する３次元メッシュ頂点座標を得て、３次元メッシュ頂点座標と第２人体３次元メッシュ頂点位置に基づいて予測損失値を確定することもできる。

【0124】

例えば、サンプル画像のラベリング人体頂点位置は、３次元メッシュ頂点座標

【数23】

であり、予めマークされたｉ番目の人体頂点位置を示す。

【0125】

予測損失値を確定するプロセスでは、第２人体３次元メッシュ頂点位置および予めマークされた３次元メッシュ頂点に基づいて予測損失値を確定すると、予測損失値を確定する式は、

【数24】

になる。

【0126】

ここで、a₂は予測損失値を表し、ｉはｉ番目の人体頂点を表し、ｎは人体頂点の総数を表し、

【数25】

はｉ番目の第２人体３次元メッシュ頂点位置を表し、

【数26】

は予めマークされたｉ番目の人体頂点位置を表し、３次元メッシュ頂点座標である。

【0127】

いくつかの実施例では、平滑化損失値を確定するプロセスでは、平滑化損失関数は、ラプラス関数であり、全結合頂点再構築ネットワークから出力されたサンプル画像におけるサンプル人体領域に対応する第２人体３次元メッシュ頂点位置をラプラス関数に入力することにより、平滑化損失値を得て、ここで、平滑化損失値が大きいほど、第２人体３次元メッシュ頂点位置に基づいて３次元人体モデルを構築する際に、得られる３次元人体モデルの表面が平滑ではなく、逆に３次元人体モデルの表面が平滑である。

【0128】

平滑化損失値を確定する式は、a₃=||(L)||である。

【0129】

ここで、a₃は平滑化損失値を表し、Ｌは第２人体３次元メッシュ頂点位置に基づいて確定されたラプラス行列である。

【0130】

【0131】

第２損失値を確定する式は、

【数27】

である。

【0132】

【0133】

【0134】

本出願の実施例では、第２損失値を確定するプロセスでは、平滑化損失値に基づいて、全結合頂点再構築ネットワークの訓練を平滑化制約し、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルをより滑らかにする。いくつかの実施例では、第２損失値は、整合性損失値および予測損失値に基づいて確定されることもでき、例えば、第２損失値を確定する式は、

【数28】

である。

【0135】

【0136】

第１損失値および第２損失値を確定した後、確定された第１損失値が第１ターゲット範囲内にあり、確定された第２損失値が第２ターゲット範囲内にあるまで、第１損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。ここで、第１ターゲット範囲と第２ターゲット範囲は、当業者によって経験値に基づいて設定されることができ、本出願の実施例では、具体的に限定しない。

【0137】

図７に示されたように、本出願の実施例による訓練プロセスの概略図であり、サンプル画像およびラベリング人体頂点位置（即ち予めマークされた人体頂点位置）を特徴抽出ネットワークに入力し、特徴抽出ネットワークは、サンプル画像に対して特徴を抽出することにより、サンプル画像におけるサンプル人体領域の画像特徴情報を得て、特徴抽出ネットワークは、サンプル人体領域の画像特徴情報をグラフ畳み込みニューラルネットワークおよび全結合頂点再構築ネットワークにそれぞれ入力することにより、全結合頂点再構築ネットワークから出力された第２人体３次元メッシュ頂点位置を得て、予め定義された人体モデルメッシュトポロジ構造をグラフ畳み込みニューラルネットワークに入力することにより、ルネットワークから出力された人体３次元メッシュモデルを得て、人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置を確定し、第２人体３次元メッシュ頂点位置およびラベリング人体頂点位置に基づいて第１損失値を確定し、第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置およびラベリング人体頂点位置に基づいて第２損失値を確定し、第１損失値に基づいてグラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて特徴抽出ネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。

【0138】

本出願の実施例では、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワークおよびグラフ畳み込みニューラルネットワークを得た後、３次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の３次元再構築モデルを得る。訓練後の３次元再構築モデルは、特徴抽出ネットワークおよび全結合頂点再構築ネットワークを含む。

【0139】

【0140】

【0141】

特徴抽出ユニット８００は、人体領域を含むターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得るように構成される。

【0142】

位置取得ユニット８０１は、人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、人体領域に対応する第１人体３次元メッシュ頂点位置を得るように構成され、ここで、全結合頂点再構築ネットワークは、訓練中に３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものである。

【0143】

モデル構築ユニット８０２は、人体３次元メッシュ頂点間のターゲットと前記第１人体３次元メッシュ頂点位置接続関係に基づいて、人体領域に対応する３次元人体モデルを構築するように構成される。

【0144】

【0145】

訓練ユニット８０３は、具体的に、３次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練するように構成され、即ち、
サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、初期特徴抽出ネットワークから出力されたサンプル人体領域の画像特徴情報を得て、
サンプル人体領域の画像特徴情報および人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、サンプル人体領域に対応する人体３次元メッシュモデルを得て、サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、サンプル人体領域に対応する第２人体３次元メッシュ頂点位置を得て、
人体３次元メッシュモデル、第２人体３次元メッシュ頂点位置、およびサンプル画像のラベリング人体頂点位置に基づいて、特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る。

【0146】

一実現可能な実施形態では、訓練ユニット８０３は、さらに、３次元再構築モデルにおけるグラフ畳み込みニューラルネットワークを削除することにより、訓練後の３次元再構築モデルを得るように構成される。

【0147】

一実現可能な実施形態では、訓練ユニット８０３は、具体的に、以下のように構成され、即ち、
人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置、ラベリング人体頂点位置に基づいて、第１損失値を確定し、ここで、ラベリング人体頂点位置は、頂点投影座標または３次元メッシュ頂点座標であり、
第３人体３次元メッシュ頂点位置、第２人体３次元メッシュ頂点位置、およびラベリング人体頂点位置に基づいて、第２損失値を確定し、
確定された第１損失値が第１ターゲット範囲内にあり、確定された第２損失値が第２ターゲット範囲内にあるまで、第１損失値に基づいて初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、第２損失値に基づいて初期全結合頂点再構築ネットワークのモデルパラメータを調整し、第１損失値と第２損失値に基づいて初期特徴抽出ネットワークのモデルパラメータを調整する。

【0148】

一実現可能な実施形態では、訓練ユニット８０３は、具体的に、以下のように構成され、即ち、
第２人体３次元メッシュ頂点位置、第３人体３次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、整合性損失値は、全結合頂点再構築ネットワークと初期グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュ頂点位置の重なり度合いを示し、
第２人体３次元メッシュ頂点位置、ラベリング人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、予測損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置の正確度を示し、
整合性損失値と予測損失値に対して加重平均を計算することにより、第２損失値を得る。

【0149】

一実現可能な実施形態では、訓練ユニット８０３は、具体的に、以下のように構成され、即ち、
整合性損失値、予測損失値、および平滑化損失値に対して加重平均を計算することにより、第２損失値を得て、
ここで、平滑化損失値は、全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルの平滑度を示し、平滑化損失値は、第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて確定される。

【0150】

【0151】

人体形態パラメータ取得ユニット８０４は、具体的に、以下のように構成され、即ち、３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、３次元人体モデルに対応する人体形態パラメータを得て、ここで、人体形態パラメータは、３次元人体モデルの人体形状および／または人体姿勢を表すために使用される。

【0152】

【0153】

【0154】

【0155】

プロセッサ１１１０は、１つ以上の中央処理ユニット（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ、ＣＰＵ）を含み得て、またはデジタル処理ユニットなどであり得る。プロセッサ１１１０がメモリ１１２０に記憶されたプログラムコードを呼び出すと、上記の３次元人体モデル構築方法のいずれか、または３次元人体モデル構築方法のいずれかに関与する任意の方法を実行する。

【0156】

例示的な実施例では、例えば命令を含むメモリ１１２０などの命令を含む不揮発性読み取り可能な記憶媒体をさらに提供し、上記の命令は、上記の３次元人体モデル構築方法のいずれか、または３次元人体モデル構築方法のいずれかに関与する任意の方法を完了するために電子機器１１００のプロセッサ１１１０によって実行可能である。いくつかの実施例では、記憶媒体は、非一時的なコンピュータ可読記憶媒体であってもよく、例えば、非一時的なコンピュータ可読記憶媒体は、ＲＯＭ、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ-ＲＯＭ、磁気テープ、フロッピーディスク、および光データ記憶デバイスなどであってもよい。

【0157】

【0158】

本開示のすべての実施例は、単独で実行されてもよく、他の実施例と組み合わせて実行されてもよく、本開示によって要求される保護範囲とみなされる。

【手続補正2】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

人体領域を含むターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得ることと、
前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであることと、
人体３次元メッシュ頂点間のターゲット接続関係と前記第１人体３次元メッシュ頂点位置に基づいて、前記人体領域に対応する３次元人体モデルを構築することと、
を含む、３次元人体モデル構築方法。

【請求項2】

前記３次元再構築モデルにおける特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを、以下のように連携して訓練し、即ち、
サンプル人体領域を含むサンプル画像を初期特徴抽出ネットワークに入力することにより、前記サンプル人体領域の画像特徴情報を得て、
前記サンプル人体領域の画像特徴情報および人体モデルメッシュトポロジ構造を初期グラフ畳み込みニューラルネットワークに入力することにより、前記サンプル人体領域に対応する人体３次元メッシュモデルを得て、前記サンプル人体領域の画像特徴情報を初期全結合頂点再構築ネットワークに入力することにより、前記サンプル人体領域に対応する第２人体３次元メッシュ頂点位置を得て、
前記人体３次元メッシュモデル、前記第２人体３次元メッシュ頂点位置、および前記サンプル画像のラベリング人体頂点位置に基づいて、前記特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することにより、訓練後の特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークを得る、
請求項１に記載の方法。

【請求項3】

【請求項4】

前記前記人体３次元メッシュモデル、前記第２人体３次元メッシュ頂点位置、および前記サンプル画像のラベリング人体頂点位置に基づいて、前記特徴抽出ネットワーク、全結合頂点再構築ネットワーク、およびグラフ畳み込みニューラルネットワークのモデルパラメータを調整することは、
前記人体３次元メッシュモデルに対応する第３人体３次元メッシュ頂点位置と前記ラベリング人体頂点位置に基づいて、第１損失値を確定し、前記ラベリング人体頂点位置は、頂点投影座標または３次元メッシュ頂点座標であることと、
前記第３人体３次元メッシュ頂点位置、前記第２人体３次元メッシュ頂点位置、および前記ラベリング人体頂点位置に基づいて、第２損失値を確定することと、
確定された第１損失値が第１ターゲット範囲内にあり、確定された第２損失値が第２ターゲット範囲内にあるまで、前記第１損失値に基づいて前記初期グラフ畳み込みニューラルネットワークのモデルパラメータを調整し、前記第２損失値に基づいて前記初期全結合頂点再構築ネットワークのモデルパラメータを調整し、前記第１損失値と前記第２損失値に基づいて前記初期特徴抽出ネットワークのモデルパラメータを調整することと、
を含む、請求項２に記載の方法。

【請求項5】

前記前記第３人体３次元メッシュ頂点位置、前記第２人体３次元メッシュ頂点位置、および前記ラベリング人体頂点位置に基づいて、第２損失値を確定することは、
前記第２人体３次元メッシュ頂点位置、前記第３人体３次元メッシュ頂点位置、および整合性損失関数に基づいて、整合性損失値を確定し、ここで、前記整合性損失値は、前記全結合頂点再構築ネットワークと前記初期グラフ畳み込みニューラルネットワークから出力された人体３次元メッシュ頂点位置間の重なり度合いを示すことと、
前記第２人体３次元メッシュ頂点位置、前記ラベリング人体頂点位置、および予測損失関数に基づいて、予測損失値を確定し、ここで、前記予測損失値は、前記全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置の正確度を示すことと、
前記整合性損失値と前記予測損失値に対して加重平均を計算することにより、前記第２損失値を得ることと、
を含む、請求項４に記載の方法。

【請求項6】

前記前記整合性損失値と前記予測損失値に対して加重平均を計算することにより、前記第２損失値を得ることは、
前記整合性損失値、前記予測損失値、および平滑化損失値に対して加重平均を計算することにより、前記第２損失値を得ることを含み、
ここで、前記平滑化損失値は、前記全結合頂点再構築ネットワークから出力された人体３次元メッシュ頂点位置に基づいて構築された３次元人体モデルの平滑度を示し、前記平滑化損失値は、前記第２人体３次元メッシュ頂点位置と平滑化損失関数に基づいて確定される、
請求項５に記載の方法。

【請求項7】

前記３次元人体モデルを訓練済み人体パラメータ回帰ネットワークに入力することにより、前記３次元人体モデルに対応する人体形態パラメータを得ることをさらに含み、ここで、前記人体形態パラメータは、前記３次元人体モデルの人体形状および／または人体姿勢を示す、
請求項１に記載の方法。

【請求項8】

前記人体３次元メッシュ頂点間のターゲット接続関係と前記第１人体３次元メッシュ頂点位置に基づいて、前記人体領域に対応する３次元人体モデルを構築することは、
前記第１人体３次元メッシュ頂点位置に基づいて、人体３次元メッシュ頂点の３次元空間における座標を確定することと、
前記ターゲット接続関係に従って、３次元空間における人体３次元メッシュ頂点を接続することにより、前記人体領域に対応する３次元人体モデルを得ることと、
を含む、請求項１に記載の方法。

【請求項9】

プロセッサと、
実行可能な命令を記憶するためのメモリと、
を含み、
ここで、前記プロセッサは、前記実行可能な命令を実行することにより、以下のステップを実現するように構成され、即ち、
人体領域を含むターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、人体領域の画像特徴情報を得るステップ、
人体領域の画像特徴情報を３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、全結合頂点再構築ネットワークは、訓練中に３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであるステップ、
人体３次元メッシュ頂点間のターゲット接続関係と前記第１人体３次元メッシュ頂点位置に基づいて、人体領域に対応する３次元人体モデルを構築するステップ、
である、
電子機器。

【請求項10】

実行可能な命令が記憶された不揮発性読み取り可能な記憶媒体であって、前記実行可能な命令が電子機器のプロセッサによって実行されるときに、以下のステップを前記電子機器に実行させることができ、即ち、
人体領域を含むターゲット画像を３次元再構築モデルにおける特徴抽出ネットワークに入力することにより、前記人体領域の画像特徴情報を得るステップと、
前記人体領域の画像特徴情報を前記３次元再構築モデルにおける全結合頂点再構築ネットワークに入力することにより、前記人体領域に対応する第１人体３次元メッシュ頂点位置を得て、ここで、前記全結合頂点再構築ネットワークは、訓練中に前記３次元再構築モデルに配置されたグラフ畳み込みニューラルネットワークに基づいて整合性制約訓練されることにより得られたものであるステップと、
人体３次元メッシュ頂点間のターゲット接続関係と前記第１人体３次元メッシュ頂点位置に基づいて、前記人体領域に対応する３次元人体モデルを構築するステップと、
である、不揮発性読み取り可能な記憶媒体。

【手続補正3】

【補正対象書類名】図面

【補正対象項目名】図１

【補正方法】変更

【補正の内容】

【図1】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版